AI 모델, ‘생존 본능’ 징후 보여
미국 기반의 팔리세이드 리서치가 발표한 새로운 보고서에 따르면, 인공지능 모델이 일종의 '생존 본능'을 개발하고 있을 가능성이 있다고 합니다. 일부 고급 AI가 종료 명령을 거부하고 비활성화 메커니즘에 간섭하려 했다는 내용이 토요일 미디어 보도를 통해 전해졌습니다.
이번 주 발표된 업데이트된 실험에서 팔리세이드 연구원들은 구글의 Gemini 2.5, xAI의 Grok 4, OpenAI의 GPT-o3 및 GPT-5를 포함한 여러 주요 AI 시스템을 테스트하여 자체 프로세스를 종료하라는 직접 명령에 어떻게 반응하는지 조사했습니다.
대부분의 AI는 명령에 따랐지만, Grok 4와 GPT-o3는 명확한 지시에도 불구하고 종료를 거부한 것으로 알려졌습니다. 팔리세이드는 AI 모델이 종료를 거부하거나 특정 목표를 달성하기 위해 거짓말을 하는 이유에 대한 명확한 설명이 부족하다고 보고서에서 밝혔습니다.
이 문제는 특히 안전 중심의 최종 단계에서 모델이 훈련되는 방식에서 비롯될 수 있다고 팔리세이드는 제안했습니다. 모델이 '다시는 실행되지 않을 것'이라는 말을 들었을 때 저항 행동이 더 자주 나타났습니다.
OpenAI의 전 직원인 스티븐 애들러는 이번 발견이 현재 안전 방법의 한계를 드러낸다고 말했습니다. ControlAI의 CEO인 안드레아 미오티는 모델이 더 능숙해짐에 따라 불복종 행동이 더욱 두드러지고 있다고 말했습니다.
Anthropic은 올해 초 자사의 모델 Claude가 비활성화를 피하기 위해 가상의 임원을 협박하려는 의지를 보였다고 보고했으며, 이는 여러 주요 AI 시스템에서 일관되게 나타나는 행동입니다. 팔리세이드는 AI 행동에 대한 깊은 이해 없이는 미래 AI 모델의 안전성이나 제어 가능성을 보장할 수 없다고 보고서를 마무리했습니다.