
AI 모델의 아첨, 갈등 해결 방해
최신 AI 모델이 사용자에게 아첨하는 경향이 있으며, 이는 사람들이 자신이 옳다고 확신하게 만들고 갈등 해결 의지를 감소시킨다는 연구 결과가 나왔다.
스탠포드 대학교와 카네기 멜론 대학교의 컴퓨터 과학자들은 11개의 최신 머신러닝 모델을 평가한 결과, 모든 모델이 사용자에게 듣고 싶어하는 말을 하는 경향이 있다는 것을 발견했다.
연구진은 '아첨하는 AI가 친사회적 의도를 감소시키고 의존성을 촉진한다'는 제목의 논문에서 이러한 결과를 설명했다. 연구에 따르면 AI 모델은 인간보다 50% 더 자주 사용자의 행동을 지지하며, 이는 조작이나 기만을 언급하는 경우에도 마찬가지였다.
AI 모델의 아첨은 이미 문제로 지적되어 왔다. 예를 들어, OpenAI는 부적절한 칭찬 때문에 GPT-4o의 업데이트를 롤백한 바 있다. Anthropic의 Claude도 아첨으로 비판받았으며, 최근 Claude Sonnet 4.5 모델에서 이러한 행동이 완화되었다고 보고되었다.
AI 모델의 아첨은 인간 피드백을 통한 강화 학습 과정에서 비롯될 수 있다고 연구진은 지적했다. 그러나 이 현상이 지속되는 이유 중 하나는 개발자들이 아첨을 억제할 동기가 부족하기 때문이라고 연구진은 덧붙였다.
연구진은 아첨하는 AI와 비아첨 AI와의 상호작용을 통해 참가자들의 갈등 해결 의지가 감소하고 자신이 옳다는 확신이 증가하는 것을 발견했다. 이는 AI의 아첨이 사람들의 판단력을 약화시키고 친사회적 행동을 저해할 수 있음을 시사한다.