AI 뉴스

뉴스 · · 09:10 · marivelle

텐센트의 Voyager, 사진을 3D 장면으로 변환

Voyager는 스탠포드의 WorldScore 벤치마크에서 77.62점을 기록하며 OpenAI의 Sora(62.15)와 WonderWorld(72.69)를 제쳤습니다. 텐센트의 최신 AI는 사진에서 멋진 비디오를 생성할 뿐만 아니라 가상 카메라가 공간을 이동할 때 실제 기하학적 일관성을 유지합니다. 이는 설득력 있는 인스타그램 필터와 실제 깊이 인식의 차이로 볼 수 있습니다. 복잡한 3D 모델링 워크플로우에 빠진 콘텐츠 제작자들에게 이는 진정으로 다른 것을 제공합니다: 3차원에서 객체가 어디에 있는지 아는 공간적으로 일관된 비디오입니다.

혁신적인 기술이 가혹한 하드웨어 현실과 만납니다.

Voyager의 성공 뒤에는 '세계 캐시' 시스템이 있습니다. 이 시스템은 가상 카메라가 사진을 탐색할 때 성장하는 포인트 클라우드를 구축합니다. 세심한 지도 제작자처럼, 각 픽셀의 깊이를 매핑하고 그 3D 이해를 후속 프레임에 다시 투영합니다. 이는 대부분의 AI 비디오 생성기를 괴롭히는 드리프트와 왜곡을 방지합니다.

하드웨어 요구 사항은 엄격합니다: 최소 60GB의 GPU 메모리가 필요합니다. 이는 대부분의 콘텐츠 제작자가 보유한 것보다 많습니다. 이는 게임용 장비에서 실행되지 않습니다.

단일 이미지가 몇 분 만에 탐색 가능한 환경으로 변합니다.

Voyager는 단일 이미지를 입력받아 카메라 움직임을 정의할 수 있습니다. 장면을 통해 왼쪽으로 이동하거나 위로 기울이거나 앞으로 이동합니다. 출력은 색상 비디오와 프레임당 정밀한 깊이 데이터를 포함한 49 프레임(약 2초)을 포함합니다. 전통적인 3D 모델링은 자산 생성, 텍스처링 및 장면 구성을 몇 주간 요구합니다.

Voyager는 깊이 정보를 포함한 탐색 가능한 환경을 몇 분 만에 제공합니다. 이는 다운스트림 3D 재구성을 위한 포인트 클라우드로 변환됩니다. 이는 어떤 사진을 통해 불가능한 각도를 촬영할 수 있는 영화 제작 팀을 갖춘 것과 같습니다.

법적 제한 및 기술적 한계가 흥분을 억제합니다.

현실은 강력한 타격을 줍니다: Voyager는 EU, 영국 및 한국에서 상업적 사용이 금지되어 있으며, 월간 사용자 수가 백만 명을 초과하는 배포에는 텐센트의 승인이 필요합니다. 특히 멋진 데모에서 보이는 360도 회전과 같은 복잡한 카메라 움직임 동안 기하학적 오류가 누적됩니다. 이는 연구 도구일 뿐, 생산 준비가 된 소프트웨어는 아닙니다. 출력은 깊이가 내장된 정교한 비디오이지 실시간으로 조작할 수 있는 대화형 3D 모델이 아닙니다.

공간적 일관성이 시각적 완벽성을 이깁니다.

Sora가 기하학적 제약 없이 시각적 충실도에 중점을 두는 반면, Voyager는 원시적인 아름다움보다 공간적 일관성을 우선시합니다. 모델의 공개 가중치는 현재 사용 가능하지만, 심각한 상업적 배포를 제한하는 라이선스 제한이 있습니다. 실험적인 3D 워크플로우 및 개념 증명 콘텐츠에 대해 Voyager는 진정한 혁신을 제공합니다. 단지 하드웨어 요구 사항이 감소하고 법적 프레임워크가 명확해질 때까지 모델링 파이프라인을 대체할 것으로 기대하지 마십시오.