Anthropic, 모델에서 내성 능력 발견

작성일: 2025년 10월 30일. 22:55

Rowan Lee

Anthropic은 최근 연구를 통해 자사의 Claude AI 모델이 제한적인 내성 능력을 가지고 있음을 발견했다고 발표했다. 이 연구는 대형 언어 모델의 가능성을 새롭게 조명하며, 기존의 가정을 도전하고 있다.

연구진은 '개념 주입'이라는 기법을 사용하여 Claude 모델이 자신의 내부 상태를 정확히 식별할 수 있는지를 테스트했다. 이 방법은 특정 신경 활동 패턴을 모델에 주입하고, 모델이 이를 감지하고 식별할 수 있는지를 확인하는 방식이다. 예를 들어, 연구진은 '모두 대문자' 벡터를 분리하고 이를 활성화하여 모델에 질문을 던졌을 때, 모델은 즉시 대문자 벡터가 활성화되었음을 인지했다.

그러나 이 능력은 일관성이 떨어졌다. 최적의 주입 프로토콜에서도 Claude Opus 4.1은 약 20%의 확률로만 이 인식을 보여주었다. 모델은 주입된 개념을 감지하지 못하거나 주입이 너무 강할 경우 환각을 생성하기도 했다.

Anthropic은 이러한 발견이 Claude나 다른 AI 시스템이 의식을 가지고 있는지를 나타내지 않는다고 강조했다. 연구진은 내성이 향후 모델에서 더 신뢰할 수 있게 된다면, AI 시스템이 자신의 추론 과정을 더 정확하게 설명할 수 있게 되어 개발자가 원치 않는 행동을 디버그하는 데 도움이 될 수 있다고 밝혔다.

#AI 모델 #Anthropic #내성

By Rowan Lee rowan.lee@aitoolsbee.com 주요 AI 툴과 산업 트렌드를 실용적 시각에서 다룹니다.
기술이 실제 비즈니스와 일상에 어떤 가치를 주는지 균형 있게 전달합니다.

AI 뉴스

Anthropic, 모델에서 내성 능력 발견