AI 뉴스

뉴스 작성일: 2025년 10월 23일. 12:17 · aelyric

DeepSeek-OCR: 정보 처리의 새로운 전환점

AI 기술이 급속히 발전하는 가운데, 이미지가 방대한 양의 텍스트 정보를 효율적으로 담을 수 있다는 사실이 밝혀졌다. 이는 상상이 아닌 현실로, 이번 주 DeepSeek은 'DeepSeek-OCR'이라는 모델을 오픈 소스화하며 '컨텍스트 광학 압축' 개념을 제시했다.

시장에서는 아직 큰 논의가 없지만, 이는 AI 진화의 조용하지만 깊은 전환점으로 평가될 수 있다. DeepSeek-OCR은 텍스트를 이미지로 처리하여 시각적 인코딩을 통해 페이지 내용을 소수의 '시각적 토큰'으로 압축한 후 이를 다시 텍스트, 표, 차트로 디코딩한다.

이로 인해 효율성이 10배 이상 증가하고 정확도는 97%에 달한다. 이는 단순한 기술 최적화가 아닌, 이미지가 정보의 효율적 운반체임을 증명하려는 시도이다. 천 단어의 기사를 예로 들면, 전통적인 방법은 1000개 이상의 토큰이 필요하지만, DeepSeek은 약 100개의 시각적 토큰만으로 97%의 정확도로 복원할 수 있다.

DeepSeek-OCR의 시스템 설계는 정밀 기계와 같으며, 강력한 DeepEncoder와 경량의 텍스트 생성기로 구성된다. 인코더는 SAM의 지역 분석 능력과 CLIP의 글로벌 이해를 결합하여 초기 4096개의 토큰을 256개로 압축한다. 이는 효율성의 핵심 비결이다.

이 기술이 성숙하고 대중화되면, '토큰 경제'를 변화시키고 정보 추출을 개선하며 유연성을 향상시킬 것이다. 또한, 챗봇의 장기 대화 메모리를 개선할 수 있다. DeepSeek-OCR의 탐구는 문서 처리의 경계를 재정립하고 비용 구조를 최적화하며 기업 프로세스를 혁신한다.