Don't Miss
混元模型|騰訊新模型 圖像秒變3D影片
By 信報財經新聞 on September 5, 2025
原文刊於信報財經新聞「CEO AI⎹ EJ Tech」
騰訊(00700)混元團隊日前發布開源模型HunyuanWorld-Voyager,容許用戶使用單張圖片,生成完整3D世界影片,省去大量後續處理工作。程式碼與模型權重完整開源,在代碼託管平台GitHub及AI開發者平台Hugging Face提供下載。官方建議配置為記憶體80GB以上的圖像處理器(GPU)。
研究人員以「幾何注入條件」機制,將深度資訊與畫面生成緊密結合,降低場景失真與幻覺問題;又設計了「世界快取」機制,持續累積點雲(Point Cloud)座標資訊,協助模型記憶場景結構。團隊還建立一條自動化數據管線,從各類影片擷取相機位置與深度資訊,省卻人手標註工序,藉此建構逾10萬段影片的訓練資料集。
Voyager各項評分均列三甲
在WorldScore測試中,HunyuanWorld-Voyager以77.62分排名首位,超越多款全球領先模型,每項指標都取得頭三名成績,包括相機控制、物體控制、內容對齊、3D結構一致性等。不過模型輸出的結果,仍限於導覽影片與點雲數據,後者雖有助於轉製3D建模,但模型尚無法直接生成網格(Mesh)或貼圖(Texture)。
支持EJ Tech

