AI 뉴스

뉴스 작성일: 2025년 10월 21일. 12:17 · aurorasculpt

DeepSeek, 고성능 OCR 및 문서 변환 위한 3B 모델 출시

DeepSeek-AI는 3B DeepSeek-OCR을 발표했다. 이 시스템은 긴 텍스트를 비전 토큰으로 압축하고, 이를 언어 모델로 디코딩하는 VLM 시스템이다. 연구팀은 Fox 벤치마크에서 비전 토큰의 10배 내의 텍스트 토큰에 대해 97%의 디코딩 정밀도를 보고했다. 또한 OmniDocBench에서 경쟁력 있는 결과를 기록했다.

DeepSeek-OCR-3B는 DeepEncoder와 DeepSeek3B-MoE-A570M이라는 두 가지 구성 요소로 이루어져 있다. DeepEncoder는 고해상도 입력을 처리하며, SAM 기반의 윈도우 주의 단계와 CLIP 기반의 글로벌 주의 단계를 사용한다. DeepSeek3B-MoE-A570M은 3B 파라미터 MoE 모델로, 토큰당 약 570M의 활성 파라미터를 갖는다.

DeepEncoder는 네이티브 모드와 다이내믹 모드를 지원한다. 네이티브 모드는 다양한 해상도와 토큰 수를 제공하며, 다이내믹 모드는 글로벌 뷰와 타일드 로컬 뷰를 혼합한다. 이러한 모드는 AI 개발자들이 페이지 복잡성에 맞게 토큰 예산을 조정할 수 있도록 한다.

Fox 벤치마크 연구에서는 100개의 비전 토큰으로 600~700개의 텍스트 토큰을 6.7배 압축하여 98.5%의 정밀도를 달성했다. OmniDocBench에서는 100개의 비전 토큰만으로도 GOT-OCR 2.0을 능가하는 성능을 보였다.

연구팀은 두 단계의 훈련 파이프라인을 설명했다. DeepEncoder는 OCR 1.0 및 2.0 데이터로 훈련되었으며, 전체 시스템은 4개의 파티션으로 병렬 처리되었다. 이 시스템은 하루에 90B 토큰을 처리할 수 있다.

DeepSeek OCR은 문서 AI에 실용적인 한 걸음이며, 페이지를 압축된 광학 캐리어로 처리하여 디코더 시퀀스 길이를 줄인다. 이 모델은 PyTorch 2.6.0, CUDA 11.8, Flash Attention 2.7.3과 호환된다.