You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

混元模型|騰訊新模型 圖像秒變3D影片

By on September 5, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech

騰訊(00700)混元團隊日前發布開源模型HunyuanWorld-Voyager,容許用戶使用單張圖片,生成完整3D世界影片,省去大量後續處理工作。程式碼與模型權重完整開源,在代碼託管平台GitHub及AI開發者平台Hugging Face提供下載。官方建議配置為記憶體80GB以上的圖像處理器(GPU)。

騰訊混元團隊發布開源模型HunyuanWorld-Voyager,容許用戶使用單張圖片,生成完整3D世界影片。(GitHub影片擷圖)

研究人員以「幾何注入條件」機制,將深度資訊與畫面生成緊密結合,降低場景失真與幻覺問題;又設計了「世界快取」機制,持續累積點雲(Point Cloud)座標資訊,協助模型記憶場景結構。團隊還建立一條自動化數據管線,從各類影片擷取相機位置與深度資訊,省卻人手標註工序,藉此建構逾10萬段影片的訓練資料集。

Voyager各項評分均列三甲

在WorldScore測試中,HunyuanWorld-Voyager以77.62分排名首位,超越多款全球領先模型,每項指標都取得頭三名成績,包括相機控制、物體控制、內容對齊、3D結構一致性等。不過模型輸出的結果,仍限於導覽影片與點雲數據,後者雖有助於轉製3D建模,但模型尚無法直接生成網格(Mesh)或貼圖(Texture)。

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們