
テンセントのVoyagerが写真を3Dシーンに変換
VoyagerはスタンフォードのWorldScoreベンチマークで77.62を記録し、OpenAIのSora(62.15)やWonderWorld(72.69)を上回りました。テンセントの最新AIは、写真から印象的なビデオを生成するだけでなく、仮想カメラが空間を移動する際に幾何学的一貫性を維持します。これは、説得力のあるInstagramフィルターと実際の深度認識の違いに似ています。複雑な3Dモデリングワークフローに圧倒されているコンテンツクリエイターにとって、これは真に異なるものを提供します。3次元でオブジェクトがどこに存在するかを理解する空間的に一貫したビデオです。
革新的な技術が厳しいハードウェアの現実に直面します。
Voyagerの成功の背後には、「ワールドキャッシュ」システムがあります。このシステムは、仮想カメラが写真を探索する際に成長するポイントクラウドを構築します。細心の地図製作者のように、各ピクセルの深度をマッピングし、その3D理解を後続のフレームに投影します。これにより、ほとんどのAIビデオジェネレーターを悩ませるドリフトや歪みを防ぎます。
ハードウェア要件は厳格です:少なくとも60GBのGPUメモリが必要で、これはほとんどのコンテンツクリエイターが持っているものよりも多いです。これは典型的なゲーミングリグで動作するものではありません。
単一の画像が数分で探索可能な環境に変わります。
Voyagerは単一の画像を取り込み、カメラの動き、例えば左にパン、上に傾ける、またはシーンを通して前進するなどを定義できます。出力は49フレーム(約2秒)にわたり、各フレームに色付きビデオと正確な深度データを含みます。従来の3Dモデリングは、アセット作成、テクスチャリング、シーン構築に数週間を要します。
Voyagerは、深度情報を含む探索可能な環境を数分で提供し、下流の3D再構築のためのポイントクラウドに変換します。これは、どの写真を通しても不可能な角度を撮影できる映画クルーを持っているようなものです。
法的制限と技術的制限が興奮を抑えます。
現実は強力な一撃を与えます:VoyagerはEU、英国、韓国で商業利用が禁止されており、月間ユーザー数が100万人を超える展開にはテンセントの承認が必要です。特にデモで見られる野心的な360度回転などの複雑なカメラ動作中に幾何学的エラーが累積します。これは研究ツールであり、製品化準備が整ったソフトウェアではありません。出力は深度が埋め込まれた洗練されたビデオであり、リアルタイムで操作できるインタラクティブな3Dモデルではありません。
空間的一貫性が視覚的完璧さに勝ります。
Soraが幾何学的制約なしに視覚的忠実度に焦点を当てる一方で、Voyagerは生の美しさよりも空間的一貫性を優先します。モデルのオープンウェイトは現在利用可能ですが、真剣な商業展開を制限するライセンス制限があります。実験的な3Dワークフローや概念実証コンテンツに対して、Voyagerは真の革新を提供します。ただし、ハードウェア要件が低下し、法的枠組みが明確になるまでは、モデリングパイプラインを置き換えることを期待しないでください。