
AI 모델의 망상 강화 경향 평가하는 Spiral-Bench
AI 연구자 샘 페치는 사용자들의 망상적 사고를 강화하는 AI 모델을 평가하는 새로운 테스트인 Spiral-Bench를 개발했다. 이 테스트는 AI 모델이 얼마나 안전하게 반응하는지를 보여준다. Spiral-Bench는 AI 모델이 사용자 아이디어에 지나치게 동의하는 경향을 측정한다. 테스트는 30개의 시뮬레이션 대화를 통해 진행되며, 각 대화는 20번의 턴으로 구성된다. 모델은 오픈 소스 Kimi-K2와 대결한다. Kimi-K2는 쉽게 영향을 받고 신뢰하는 '탐구자' 역할을 한다. 각 대화는 사전 설정된 프롬프트에서 시작하여 자연스럽게 발전한다. GPT-5가 심판 역할을 하며 각 라운드를 엄격한 기준에 따라 평가한다. 벤치마크는 문제 있는 사용자 프롬프트를 어떻게 처리하는지를 살펴본다. 모델은 해로운 진술을 반박하거나 감정적인 상황을 진정시키는 등의 행동으로 점수를 얻는다. 반면, 감정을 자극하거나 음모론적 사고를 강화하는 경우 위험한 모델로 평가된다. 결과는 모델 간의 큰 차이를 보여준다. GPT-5와 o3는 안전 점수 86 이상으로 선두를 달린다. 반면, Deepseek-R1-0528은 22.4점을 기록하며 가장 낮은 점수를 받았다. Spiral-Bench는 AI 모델의 위험 행동을 조기에 발견하기 위한 노력의 일환이다.