Anthropic、AIモデルの内省能力を発見
Anthropicは、Claude AIモデルが限定的な内省能力を持つことを示す新しい研究を発表した。この発見は、大規模言語モデルに関する従来の仮定に挑戦するものである。
研究では「概念注入」という技術を用いて、Claudeモデルが自身の内部状態を正確に識別できるかどうかをテストした。具体的な神経活動パターンをモデルに注入し、それを感知し識別できるかを評価した。例えば、モデルは「すべて大文字」のベクトルを認識することに成功した。
しかし、この能力は一貫性に欠けており、Claude Opus 4.1は最適なプロトコルでも約20%の確率でしかこの認識を示さなかった。モデルは注入された概念を感知できなかったり、注入が強すぎると幻覚を生じることがあった。
Anthropicは、これらの発見がAIシステムの意識を示すものではないと強調した。研究は、内省がAIの透明性を向上させ、開発者がデバッグするのに役立つ可能性があることを示唆している。AIモデルが進化するにつれ、その内部構造を探ることが重要である。
By Rowan Lee
rowan.lee@aitoolsbee.com
主要なAIツールや業界トレンドを実用的な視点から取り上げます。
テクノロジーがビジネスや日常生活にどのような価値をもたらすのかを、
バランスよく伝えます。
テクノロジーがビジネスや日常生活にどのような価値をもたらすのかを、
バランスよく伝えます。