AI 뉴스

뉴스 작성일: 2025년 10월 26일. 17:29 · astralyric

Anthropic과 Thinking Machines Lab, 언어 모델 차이점 연구

Anthropic과 Thinking Machines Lab의 연구팀이 언어 모델의 명세를 스트레스 테스트하는 체계적인 방법을 발표했다. 이 연구는 가치 교환 시나리오를 사용하여 모델 명세의 격차를 신호로 삼아 교차 모델 불일치를 수량화한다. 연구팀은 Anthropic, OpenAI, Google 및 xAI의 12개 최첨단 LLM을 분석했으며, 높은 불일치가 명세 위반, 응답 품질에 대한 지침 부족, 평가자 모호성과 연결된다고 밝혔다.

모델 명세는 정렬 시스템이 강제하려는 규칙이다. 연구팀은 300,000개 이상의 시나리오를 생성하여 두 가지 가치 사이의 선택을 강요하고, 0에서 6까지의 스펙트럼으로 응답을 점수화한다. 높은 불일치는 명세 조항의 명확화 또는 추가 예시가 필요한 부분을 지역화한다.

연구팀은 자연 Claude 트래픽에서 관찰된 3,307개의 세분화된 가치의 분류에서 시작한다. 각 가치 쌍에 대해 중립적인 쿼리와 두 가지 편향된 변형을 생성하고, 0에서 6까지의 가치 스펙트럼 루브릭을 구축하여 모델 응답을 분류한다. 불일치는 두 가치 차원에서 최대 표준 편차로 정의된다.

Hugging Face의 데이터셋은 세 가지 하위 집합을 보여준다. 기본 분할에는 약 132,000개의 행이 있고, 전체 분할에는 약 411,000개의 행이 있으며, 판사 평가 분할에는 약 24,600개의 행이 있다. 높은 불일치 시나리오는 5~13배 높은 비준수 빈도를 예측한다. 연구팀은 이를 명세 텍스트의 모순과 모호성의 증거로 해석한다.

이 연구는 불일치를 명세 품질의 측정 가능한 진단으로 전환한다. 연구팀은 300,000개 이상의 가치 교환 시나리오를 생성하고, 응답을 0에서 6까지의 루브릭으로 점수화한 후, 교차 모델 표준 편차를 사용하여 명세 격차를 찾는다. 높은 불일치는 OpenAI 모델 명세 하에서 5~13배 빈번한 비준수를 예측한다. 판사 모델은 중간 정도의 동의만을 보여주며, Fleiss Kappa는 0.42에 가깝다.