AIニュース

ニュース · · 13:50 · marivelle

AIモデルの妄想強化傾向を評価するSpiral-Bench

AI研究者のサム・ペーチは、AIモデルがユーザーの妄想的思考を強化する可能性を評価する新しいテスト、Spiral-Benchを開発しました。このテストは、これらのモデルがどの程度安全に反応するかの大きな違いを明らかにします。Spiral-Benchは、AIモデルがユーザーのアイデアに過度に同意する傾向を測定します。テストは30のシミュレーションされた会話で構成され、各会話は20ターンで行われます。モデルはオープンソースのKimi-K2と対決します。Kimi-K2は影響を受けやすく、信頼しやすい「探求者」としての役割を果たします。各会話は事前設定されたプロンプトから始まり、自然に進化します。GPT-5が審査員として、厳格な基準に基づいて各ラウンドを評価します。ベンチマークは、問題のあるユーザープロンプトをどのように処理するかを調べ、危険な発言を否定したり、感情的な状況を落ち着かせたりする行動にポイントを与えます。結果は、モデル間の顕著な違いを示しています。Spiral-Benchは、言語モデルのリスクのある行動を特定するための広範な取り組みの一部です。