AI 뉴스

뉴스 · · 12:17 · novora71

딥시크의 R1 챗봇, AI 지식 증류 논란

중국 AI 기업 딥시크가 올해 초 출시한 R1 챗봇이 기술 업계에서 큰 주목을 받았다. 딥시크는 상대적으로 작은 규모의 기업임에도 불구하고, 주요 기술 기업의 제품과 경쟁할 수 있는 챗봇을 개발했다고 주장했으며, 이를 위해 필요한 계산 능력과 재정적 투자가 훨씬 적었다고 밝혔다. 이 주장은 여러 서구 기술 대기업의 주가 급락을 초래했으며, 엔비디아는 역사상 가장 큰 단일일 손실을 기록했다.

딥시크의 혁신에 대한 집중은 이 회사가 OpenAI의 독점 모델 o1에서 불법적으로 지식을 얻었다는 심각한 혐의를 포함했다. 미디어는 이 상황을 AI 산업에서 충격적인 발전으로 묘사하며, 딥시크가 AI 시스템을 만드는 혁신적인 접근 방식을 발견했다고 제안했다.

그러나 지식 증류는 새로운 개념이 아니다. 이는 수년간 AI에서 널리 사용되어 온 인정된 방법으로, 컴퓨터 과학 연구에 의해 뒷받침된다. 펜실베이니아 대학교 와튼 스쿨의 연구원인 엔릭 보익스-아드세라는 증류가 오늘날 기업들이 모델을 더 효율적으로 만들기 위해 사용하는 가장 중요한 도구 중 하나라고 말했다.

지식 증류의 이론은 구글의 세 연구원이 2015년에 작성한 논문에서 기원했다. 당시 연구원들은 여러 모델이 함께 작동하는 앙상블 모델을 주로 사용했으며, 이들은 이러한 번거로운 그룹의 성능을 단일하고 더 관리 가능한 모델로 증류하려고 했다.

이 과정은 '소프트 타겟'이라는 개념에 의존했으며, 교사 모델이 이진 답변 대신 다양한 카테고리에 대한 확률적 평가를 제공했다. 이 기술은 학생 모델이 카테고리 간의 미묘한 관계를 더 효과적으로 이해할 수 있게 했다. 연구자들은 복잡한 모델을 더 효율적인 버전으로 압축할 수 있음을 보여주었다.

증류의 잠재력은 계속 확장되고 있다. UC 버클리의 NovaSky 연구소의 최근 연구는 체인 오브 쏘트 추론 모델을 훈련하는 데 있어 그 효과를 입증했으며, 다양한 응용 분야에서의 유연성과 가치를 나타냈다. 이 이야기는 AI의 지속적인 발전과 산업에 대한 광범위한 함의를 반영하며, 기술 개발에서 혁신, 경쟁 및 윤리적 고려 사이의 미묘한 상호작용을 강조한다.