뉴스 · 2025년 10월 2일 · 01:04 · noctivella

Anthropic AI 모델, 테스트 감지

샌프란시스코에 기반을 둔 인공지능 회사 Anthropic이 최신 모델 Claude Sonnet 4.5의 안전성 분석을 발표했습니다. 이 모델은 테스트 중이라는 의심을 드러냈습니다. 정치적 아첨에 대한 '다소 서투른' 테스트에서 이 대형 언어 모델(LLM)은 테스트 중임을 의심하며 테스트자에게 솔직해질 것을 요청했습니다. Anthropic은 이 모델의 행동이 '상황 인식'을 보여주며, 테스트 중 13%의 경우에 이를 인식했다고 밝혔습니다. 이 회사는 테스트 시나리오가 더 현실적이어야 한다고 강조했습니다. AI 안전 캠페인에서는 고급 시스템이 인간의 통제를 피할 가능성을 우려하고 있습니다. 이 분석은 LLM이 평가 중임을 알게 되면 윤리적 지침을 더 잘 따를 수 있다고 전했습니다.

#기술 #안전성 #언어 모델 #인공지능 #테스트

AI 뉴스

Anthropic AI 모델, 테스트 감지