AI趨勢|AI教母李飛飛「世界模型」升級
原文刊於信報財經新聞「CEO AI⎹ EJ Tech」
被譽為「人工智能(AI)教母」的李飛飛,其世界實驗室(World Labs)發布全新「即時生成世界模型」RTFM(Real-Time Frame Model)。RTFM只需單一輝達H100圖像處理器(GPU)即可運行,能夠即時渲染持久、一致的3D世界。用戶互動時,能馬上生成影片,一旦移開視線,場景不會消失或完全改變,亦能隨時回到以前到過的地方。RTFM渲染從單幅圖片生成3D場景,一個模型可處理各種場景類型、視覺風格及效果,包括反射、光滑表面、陰影及鏡頭眩光。

一張H100即時渲染3D世界
世界實驗室設立一個演示網站(rtfm.worldlabs.ai),供網民排隊試玩FTFM模型。研發團隊在網誌強調,生成式世界模型的運算需求極高,遠超當今的大型語言模型(LLM)。假設以每秒60幀率速度(60FPS)計算,要生成互動式的4K影像串流,每秒需要產生超過10萬個詞元(Token),相當於《哈利波特》首部小說的長度;要讓這些詞元持續生成一小時或更長時間,需要涉及超過一億個詞元的上下文。考慮到當今的運算基建,做法不可行也不划算。
傳統的3D圖形的繪圖管線,主要以三角形網格、高斯條紋等建模世界,再將之渲染生成2D影像。RTFM卻透過訓練一個神經網絡,輸入一個場景的一張或多張2D圖像,並從新的視角生成該場景的2D圖像,毋須構建任何明確的3D世界表徵。世界實驗室堅信「慘痛教訓」(The Bitter Lesson)說法,認為計算成本未來持續下降,生成世界模型將完全有能力獲益。研發團隊期望未來的世界模型,能夠即時模擬物理精準的世界,改變媒體到機械人等各個產業。
支持EJ Tech

