AI 뉴스

뉴스 · · 11:18 · celestialrise

스탠포드 연구: AdamW, 최적화 기법 경쟁에서 ‘안정성’으로 우위

2014년 제안된 이후, Adam과 그 개선 버전인 AdamW는 오픈 웨이트 언어 모델의 사전 훈련에서 오랫동안 지배적인 위치를 차지해 왔으며, 모델의 안정성을 유지하고 대량 데이터에서 빠른 수렴을 가능하게 했습니다.

모델의 규모가 급격히 확장됨에 따라, 사전 훈련은 계산 집약적 작업의 전형적인 예가 되었으며, 대규모 모델 연구 및 개발에서 가장 중요한 계산 비용이 되었습니다. 이러한 배경에서 최적화 기법의 설계는 수렴 속도와 계산 비용에 직접적인 영향을 미칩니다.

스탠포드 대학교의 퍼시 리앙 팀의 연구에 따르면, 많은 대안들이 상당한 가속을 제공한다고 주장함에도 불구하고, AdamW는 여전히 사전 훈련의 견고한 첫 번째 선택으로 남아 있으며, 특정 데이터 대 모델 비율에서 매트릭스 유형 방법이 명백한 이점을 보입니다.

연구자들은 이 현상이 두 가지 주요 방법론적 결함에서 비롯될 수 있다고 믿습니다: 기준 모델은 일반적으로 과소 조정되어 있으며, 공유 하이퍼파라미터를 고정하는 것은 비교의 공정성을 보장하지 않습니다. 대부분의 테스트는 작은 규모의 모델만 사용하거나 Chinchilla 논문에서 제안된 1배 데이터 비율을 따릅니다. 따라서 더 큰 규모의 모델이나 더 높은 데이터 비율에 대한 결과는 어떻게 될까요?

연구는 11개의 다른 딥러닝 최적화 기법을 포괄하는 체계적인 비교 연구를 수행했습니다. 연구 결과에 따르면, 최적의 선택은 특정 시나리오와도 관련이 있으며, 표준 Chinchilla 데이터 비율에서는 Muon이 가장 잘 수행되며, 데이터 볼륨 대 모델 규모 비율이 8배 이상 증가하면 Soap이 더 나은 선택이 됩니다.