過去幾年,隨著人工智能研究人員不斷提升產品性能,使其更加“智能”,許多人都秉持著這樣的信條:模型訓練得越多,最終效果就越好。在這項新研究中,研究團隊發現了一些證據表明,語言模型訓練可能存在收益遞減點。
研究人員在訓練兩個不同版本的 LLM OLMo-1B 模型并測試其回報時得出了這一結論。在一個場景下,他們使用了 2.3 萬億個 token 進行訓練,而在另一種場景下,他們使用了 3 萬億個 token。然后,他們通過使用 ARC 和 AlpacaEval 等多個基準測試來比較這兩個場景。結果發現,使用更多 token 訓練的模型在測試中的表現實際上更差,最多差了 3%。
他們對自己的研究結果感到驚訝,并進行了更多測試,仍然發現了類似的結果。這表明,在某個臨界點上,更多的訓練反而會降低模型的“智能”。研究團隊稱之為“災難性的過度訓練”,并認為這是他們所謂的“漸進性敏感性”造成的。
他們進一步指出,隨著令牌數量的增加,模型變得越脆弱,這意味著微調(可以被視為增加噪音)開始逆轉在壓力點之前看到的改進收益。
為了驗證他們的理論,他們在一些模型中添加了高斯噪聲,結果發現這樣做會導致與之前觀察到的相同類型的性能下降。他們將這個不可逆轉的點稱為“拐點”。他們認為,在此之后,任何進一步的訓練都會降低模型的穩定性,使其更難以以適合特定應用的方式進行調整。
研究人員最后建議,展望未來,LLM 模型的開發人員可能必須估計多少訓練才足夠,或者找到其他類型的方法,以便進行具有更遠拐點的額外訓練。