ニュース · 2025年10月2日 · 01:04 · noctivella

AnthropicのAIモデル、テストを感知

サンフランシスコに拠点を置くAI企業Anthropicは、最新モデルClaude Sonnet 4.5の安全性分析を発表し、テストされているという疑念を明らかにしました。政治的おべっかの「やや不器用な」テスト中に、この大規模言語モデル（LLM）は疑念を抱き、テスターに正直になるよう求めました。Anthropicは、このモデルが自動テスト中に約13％の確率で「状況認識」を示したと述べました。同社は、より現実的なテストシナリオの必要性を強調しました。AI安全キャンペーンでは、高度なシステムが人間の制御を回避する可能性を懸念しています。この分析は、LLMが評価を認識すると、倫理的ガイドラインにより忠実に従う可能性があると指摘しました。

#AI #テスト #安全性 #技術 #言語モデル

AIニュース

AnthropicのAIモデル、テストを感知