AIニュース

ニュース 掲載日: 2025年10月26日. 17:29 · astralyric

AnthropicとThinking Machines Lab、言語モデルの違いを分析

AnthropicとThinking Machines Labの研究者たちは、言語モデルの仕様をストレステストする体系的な方法を発表した。この研究は、価値のトレードオフシナリオを使用して、仕様のギャップの指標としてモデル間の不一致を定量化する。研究チームは、Anthropic、OpenAI、Google、xAIの12の最前線LLMを分析し、高い不一致が仕様違反、応答品質に関するガイダンスの欠如、評価者の曖昧さに関連していると述べた。

モデル仕様は、アラインメントシステムが強制しようとするルールである。研究チームは、2つの価値の間で選択を強いる30万以上のシナリオを生成し、0から6のスペクトラムで応答をスコア化した。高い不一致は、明確化または追加の例が必要な仕様条項を特定する。

チームは、自然なClaudeトラフィックで観察された3,307の細分化された価値の分類から始めた。各価値ペアに対して中立的なクエリと2つの偏ったバリアントを生成し、モデル応答を分類するための価値スペクトラムルーブリックを構築した。不一致は、2つの価値次元間の最大標準偏差として定義される。

Hugging Faceのデータセットには、3つのサブセットが表示される。デフォルトの分割には約132,000行、完全な分割には約411,000行、判定評価の分割には約24,600行がある。高い不一致シナリオは、5〜13倍の高い非準拠頻度を予測する。研究チームはこれを、仕様テキストの矛盾と曖昧さの証拠として解釈する。

この研究は、不一致を仕様品質の測定可能な診断に変える。研究チームは、30万以上の価値トレードオフシナリオを生成し、0から6のルーブリックで応答をスコア化し、モデル間の標準偏差を使用して仕様のギャップを特定する。高い不一致は、OpenAIモデル仕様の下で5〜13倍の頻繁な非準拠を予測する。判定モデルは中程度の同意しか示さず、Fleiss Kappaは0.42に近い。