You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

商湯新模型|U1系新模型 圖文風格連貫

By on April 30, 2026

原文刊於信報財經新聞「CEO AI⎹ EJ Tech

商湯(00020正式開源日日新SenseNova U1系列模型,它基於今年3月自主研發的NEO-unify架構,在單一模型架構上統一多模態理解、推理與生成,並於代碼託管平台GitHub及AI開發者平台Hugging Face可供下載。新系列其中一個賣點是圖文創作功能,是業內首個實現連續性圖文創作輸出的模型,能在生成一組圖片時保持風格和邏輯統一,省卻過往來回輸入指令的步驟。

包含兩規格 融合視覺語言思考

本次開源發布的是SenseNova U1輕量版系列SenseNova U1 Lite,包含兩個不同規格,包括基於稠密骨幹網絡的SenseNova-U1-8B-MoT,以及基於混合專家(MoE)骨幹網絡的SenseNova-U1-A3B-MoT。

傳統多模態模型往往依靠「拼接」方式,各成員分別負責看圖、把圖像翻譯成文字、理解文字、推理、把結果翻譯成設計指令及畫出圖像;每需要完成一項任務,訊息都要在不同成員之間來回傳遞。

Neo-unify架構則捨棄主流的拼接方式,去除視覺編碼器(VE)及變分自編碼器(VAE),猶如一個同時掌握多項技能的通才,圖像及語言在同一個大腦中自然融合,藉此減少訊息損耗,高效實現更強的多模態理解與生成能力。

模型可生成多格的黑白漫畫,推理響應速度有顯著優勢。(商湯網上圖片)

架構縮小 推理回應更快

商湯宣稱,其中8B MoT的小規格模型,已能達到,甚至超越部分大型商業閉源模型的表現,在各個維度和多個領域中展現優勢,體現「以小博大」。

在通用的圖像生成測試中,SenseNova U1 Lite的圖像生成質量媲美阿里Qwen-Image 2.0 Pro或字節Seedream 4.5等大型閉源模型,達到商業級水準,並在推理響應速度上有顯著優勢。

SenseNova U1系列模型可用於生成複雜的訊息圖。(商湯網上圖片)

SenseNova U1系列模型可用於生成複雜的訊息圖(Infographics),克服AI在圖片正確拼寫與排版的障礙,更是業內首個實現連續性圖文創作輸出的模型。在邏輯推理與空間智能,SenseNova U1系列未來可為機械人提供具身大腦,於單一模型閉環內完成環境感知、邏輯推演到精準任務執行的全流程。

商湯認為,原生統一的多模態智能是通往「通用人工智能」(AGI)的必經之路,該公司將持續推動開源生態建設,並計劃推出更大參數規模的U1系列模型。

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們