
AI生成メディアの識別精度は50%に過ぎないと判明
最近の研究によれば、AIが生成した画像や動画を人間が識別する精度は50%に過ぎないことが明らかになった。南カリフォルニア大学などの研究者によって行われた大規模な知覚実験では、1,276人の参加者が様々なメディアタイプにおいて、AI生成コンテンツと本物のコンテンツを区別する能力をテストされた。この研究はarXivに「コイントスと同じくらい: AI生成画像、動画、音声、および視聴覚刺激の人間による検出」というタイトルで発表され、生成AIツールが広まる中での脆弱性の増加を強調している。
参加者は本物と合成された刺激のペアを見せられ、どちらが本物かを識別するよう求められた。平均的な検出率は50%前後で、コイントスと同様だった。この傾向は、Stable Diffusionのようなモデルで生成された画像、SORAシステムからの動画、Tortoise TTSのようなツールからの音声において一貫していた。視聴覚クリップのように複数のモダリティを組み合わせても、人間の精度は大幅に向上せず、合成要素が含まれると低下した。
この研究は、AI出力のリアリズムが高度に進化し、注意深い観察者でさえも欺くことができることを強調している。例えば、動画の検出精度は約53%で、顔の交換やリップシンクの変更といった微妙な操作が含まれる動画ではエラーが増加した。音声はやや簡単で、58%の精度だったが、特にイントネーションやアクセントを完璧に模倣する音声クローンでは信頼性が低かった。
これらの結果は、AIが進化するにつれて人間の直感だけでは不十分であることを示唆し、自動検出ツールの開発を促している。しかし、技術ベースのソリューションも課題に直面している。アルゴリズムは制御されたデータセットで高い精度を達成できるが、