
웹 문서의 합성 데이터 변환, AI 훈련 데이터의 한계 해결
Datology AI는 BeyondWeb이라는 새로운 프레임워크를 도입하여 합성 데이터를 사용해 언어 모델을 훈련시키고 있다. 이 접근 방식은 고품질 훈련 데이터의 부족 문제를 해결하기 위한 것으로, 이전 방법보다 훨씬 효율적이라고 주장한다.
대형 언어 모델의 훈련 예산이 수조 개의 토큰에 이르는 가운데, 양질의 웹 데이터는 점점 찾기 어려워지고 있다. Datology AI는 이러한 '데이터의 벽'을 주요 도전 과제로 보고 BeyondWeb을 해결책으로 제시하고 있다. 이 프레임워크는 기존 웹 문서를 정보 밀도가 높도록 재구성하고, 교육적 톤을 개선하며, 훈련을 위한 콘텐츠를 재조직한다.
Datology AI에 따르면, BeyondWeb은 8B 파라미터 모델에서 Hugging Face의 Cosmopedia보다 5.1 퍼센트 포인트, Nvidia의 Nemotron-CC 데이터셋보다 2.6 퍼센트 포인트 더 높은 정확도를 제공한다.
연구는 또한 BeyondWeb이 훈련 속도가 훨씬 빠르다는 것을 발견했다. 오픈 웹 데이터보다 7.7배, Nemotron Synthetic보다 2.7배 빠르다. 한 테스트에서는 BeyondWeb으로 훈련된 3B 파라미터 모델이 동일한 토큰 예산을 사용하여 Cosmopedia로 훈련된 8B 모델을 능가했다.
연구진은 합성 데이터 생성에 관한 7가지 핵심 질문을 조사했다. 주요 결론 중 하나는 다양성이 지속적인 발전에 필수적이라는 것이다. 표준 방법은 훈련 초기에 도움이 될 수 있지만, 스타일적 다양성이 부족하면 수익이 감소한다.
또한 대화 스타일이 웹 데이터에서 2.7% 미만으로 과소 대표되고 있으며, LLM의 주요 사용 사례가 채팅임에도 불구하고 대화 데이터를 추가하면 이득이 빠르게 정체된다.
다양한 모델 크기를 테스트한 결과, 작은 언어 모델도 고품질 합성 데이터를 생성하는 데 효과적일 수 있다는 것을 발견했다. 1B에서 3B 파라미터로 이동하면 데이터 품질이 1.5 퍼센트 포인트 증가했지만, 8B에서는 개선이 평평해졌다. 이는 자원이 적은 조직도 강력한 합성 데이터셋을 생성할 수 있음을 시사한다.
연구진은 또한 다양한 리포뮬레이터 모델군을 테스트했고, 모두 유사하게 강력한 합성 데이터를 생성했다. 즉, 모델의 전체 벤치마크 점수가 합성 데이터의 품질을 예측하지 못한다는 것이다.