AIニュース

ニュース · · 09:09 · dreamwoven

AI訓練データの限界を克服するための合成データへのウェブ文書の再構築

Datology AIは、言語モデルを訓練するために合成データを使用する新しいフレームワークBeyondWebを発表しました。このアプローチは、高品質な訓練データの不足に対処することを目的としており、以前の方法よりも効率的であると主張されています。

大規模な言語モデルの訓練予算が数兆のトークンに達する中、質の高いウェブデータはますます入手困難になっています。Datology AIは、この「データの壁」を中心的な課題とし、BeyondWebを解決策として提示しています。このフレームワークは、既存のウェブ文書を情報密度が高くなるように再構築し、教育的なトーンを向上させ、訓練のためにコンテンツを再編成します。

Datology AIによると、BeyondWebは、Hugging FaceのCosmopediaと比較して8Bパラメータモデルで5.1パーセンテージポイント、NvidiaのNemotron-CCデータセットよりも2.6パーセンテージポイント精度を向上させます。

研究はまた、BeyondWebが訓練速度が非常に速いことを発見しました。オープンウェブデータより7.7倍、Nemotron Syntheticより2.7倍速いです。あるテストでは、BeyondWebで訓練された3Bパラメータモデルが、同じトークン予算を使用してCosmopediaで訓練された8Bモデルを上回りました。

研究者たちは、合成データ生成に関する7つの核心的な質問を調査しました。主要な結論の一つは、多様性が持続的な進歩に不可欠であるということです。標準的な方法は訓練の初期に役立つかもしれませんが、スタイルの多様性が欠如していると収益が減少します。

また、会話スタイルがウェブデータで2.7%未満で過小評価されていることが判明しましたが、LLMの主要な使用ケースがチャットであるにもかかわらず、会話データを追加すると利益が急速に頭打ちになります。

異なるモデルサイズをテストした結果、小さな言語モデルでも高品質な合成データを生成するのに効果的であることがわかりました。1Bから3Bパラメータに移行するとデータ品質が1.5パーセンテージポイント向上しましたが、8Bでは改善が平坦化しました。これは、リソースが少ない組織でも強力な合成データセットを作成できることを示唆しています。

研究者たちはまた、異なるリフォーミュレータモデルのファミリーをテストし、すべてが同様に強力な合成データを生成することを発見しました。つまり、モデルの全体的なベンチマークスコアが合成データの品質を予測するわけではありません。