AIニュース

ニュース · · 11:18 · celestialrise

スタンフォード研究: AdamW、最適化競争で「安定性」を維持

2014年に提案されて以来、Adamとその改良版であるAdamWは、オープンウェイト言語モデルの事前トレーニングで長らく支配的な地位を占め、モデルの安定性を維持し、大量データでの迅速な収束を可能にしてきました。

モデルのスケールが急速に拡大する中、事前トレーニングは計算集約的なタスクの典型的な代表となり、大規模モデルの研究開発で最も重要な計算コストとなっています。この背景において、最適化手法の設計は収束速度と計算コストに直接関係しています。

スタンフォード大学のパーシー・リアンチームの研究によると、多くの代替案が大幅な加速を提供すると主張しているにもかかわらず、AdamWは依然として事前トレーニングの堅実な第一選択であり、特定のデータ対モデル比率では行列型手法が明確な利点を示しています。

研究者たちは、この現象が2つの主要な方法論的欠陥から生じていると考えています。基準モデルは通常、調整不足であり、共有ハイパーパラメータを固定することは比較の公正性を保証しません。ほとんどのテストは小規模モデルのみを使用するか、Chinchilla論文で提案された1倍のデータ比率に従います。では、より大規模なモデルやより高いデータ比率の場合、結果はどうなるのでしょうか?

研究は、11の異なるディープラーニング最適化手法を網羅する体系的な比較研究を行いました。研究結果によると、最適な選択は特定のシナリオにも関連しており、標準的なChinchillaデータ比率ではMuonが最も良好に機能し、データ量対モデルスケール比率が8倍以上に増加するとSoapがより良い選択となります。