
Deepseek、Huaweiチップ問題でAIモデルの遅延
中国のAI企業Deepseekは、HuaweiのAscendチップでの問題により、最新のAIモデルのリリースを延期したと報じられている。
ファイナンシャル・タイムズによると、中国の規制当局は、Deepseekに対し、1月のR1モデルのリリース後、Nvidiaの主要チップからHuaweiのAscendプロセッサーに切り替えるよう勧めた。しかし、この計画は困難に直面し、DeepseekはR2モデルのトレーニング中にAscendチップで技術的な問題を経験した。Huaweiのエンジニアが現場にいても、成功したトレーニングを完了することができなかった。
これらの問題により、DeepseekはNvidiaチップに戻ってトレーニングを行わざるを得ず、モデルのリリースが5月から遅れ、競合他社に先行される結果となった。現在、DeepseekはNvidiaハードウェアを使用してモデルをトレーニングし、HuaweiのAscendチップは負荷の少ない推論タスクに使用している。業界関係者によると、中国のチップは依然としてNvidiaに比べて安定性、接続性、ソフトウェアの品質で遅れをとっている。
これらの困難にもかかわらず、DeepseekはV3モデルの更新バージョンをリリースした。The Registerによると、新しいV3.1はUE8M0 FP8という特別なデータタイプを使用してトレーニングされた。WeChatの投稿で、Deepseekはこのデータタイプが、間もなくリリースされる次世代の国産チップ用に設計されたものであると述べた。
この動きは、より強力な中国製アクセラレータが登場する可能性を示唆している。Huaweiの現在の最高チップであるAscend 910Cは、FP8データタイプをネイティブにサポートしていない。以前使用されていたE4M3フォーマットからの移行は、効率性よりも将来のハードウェア互換性に重点を置いているようだ。V3.1は以前のV3チェックポイントを基にしており、ハイブリッド推論モードを追加している。