AIニュース

ニュース 掲載日: 2025年10月21日. 12:17 · aurorasculpt

DeepSeek、高性能OCRと文書変換のための3Bモデルを発表

DeepSeek-AIは、3B DeepSeek-OCRを発表しました。このシステムは、長いテキストをビジョントークンに圧縮し、それを言語モデルでデコードするVLMシステムです。研究チームは、Foxベンチマークでビジョントークンの10倍以内のテキストトークンに対して97%のデコード精度を報告しています。

DeepSeek-OCR-3Bは、DeepEncoderというビジョンエンコーダとDeepSeek3B-MoE-A570MというMixture of Expertsデコーダの2つのコンポーネントで構成されています。エンコーダは高解像度入力に最適化され、SAMベースのウィンドウ注意ステージとCLIPベースのグローバル注意ステージを使用します。デコーダは、トークンごとに約570Mのアクティブパラメータを持つ3BパラメータMoEモデルです。

DeepEncoderは、ネイティブモードとダイナミックモードをサポートし、さまざまな解像度とトークン数を提供します。ダイナミックモードはグローバルビューとローカルビューを組み合わせ、AI開発者がページの複雑さに合わせてトークン予算を調整できるようにします。

Foxベンチマーク研究では、100のビジョントークンで600から700のテキストトークンを6.7倍圧縮して98.5%の精度を達成しました。OmniDocBenchでは、100のビジョントークンのみでGOT-OCR 2.0を上回る性能を示しました。

研究チームは、2段階のトレーニングパイプラインを説明しました。最初にOCRデータでDeepEncoderをトレーニングし、その後パイプライン並列処理でシステム全体をトレーニングしました。このシステムは、テキストのみのデータで1日に90Bトークンを処理できます。

DeepSeek OCRは、ページを圧縮された光学キャリアとして扱い、デコーダのシーケンス長を短縮することで、文書AIに実用的な進歩をもたらします。このモデルは、PyTorch 2.6.0、CUDA 11.8、Flash Attention 2.7.3と互換性があります。