AI跨領域協作深度融合(車品覺)
本文作者車品覺,為港交所獨立非執行董事、香港基因組中心董事、香港大學中國商業學院客座副教授,為《信報》撰寫專欄「全民大數據」。
最近人工智能(AI)演算法的進步,呈現出多維發展趨勢。筆者想在圖像、語音和視頻等三大方向,為大家作簡短介紹。這些動態不僅反映技術上的持續突破,也揭示了模型在人機交互性、實用性、跨領域協作的進步。
先說一下圖像生成領域,技術的重點正在逐漸從「文本生成圖像」的效果轉向「互動式編輯」和「場景級組合」的實際應用,例如Adobe Firefly和Midjourney的最新版本,展示了其在複雜編輯上的強大能力。通過文本指令(Text Prompt),用戶可以從圖像局部重繪和操控個別元素,比如在保持背景不變之下,讓圖中的貓從坐姿變為跑姿。這種能力的背後,是擴散模型與場景圖理解技術的深度融合。

擴散模型提供了對圖像生成的強大控制力,而場景圖則讓AI能夠理解圖像中的元素及其相互關係,從而實現更高層次的可控性。這些技術的結合,不僅提升了用戶交互的體驗,也進一步擴展圖像生成技術,在廣告、影視、遊戲和虛擬現實內容創作的應用範圍。
語音技術的突破則集中在情感與個性的層面上。語音合成技術如今可通過一段無感情的語音樣本,根據文本指令生成帶有高度情感化的語音效果。以Hugging Face的EmotiVoice-2為例,這些模型可以根據指令生成「激動中略帶喘息」或「低沉而憂鬱」的語音,真實度已接近人類自然的表達。這一技術為虛擬人、有聲讀物注入了「靈魂」,使這些應用變得更加個性化和生動。尤其是在有聲讀物領域,語音情感的變化為用戶提供更深層次的沉浸體驗。
視頻分析與生成領域的進步,集中在物理邏輯模擬能力上的提升。視頻生成技術已不再局限於單幀圖像的堆疊,而是開始關注視頻中的時間連續性和物理因果關係。Google DeepMind發布的Chronos-1模型,展示了其生成短片長達3至5分鐘的能力,這些短片不僅保持了主角身份和場景的一致性,還遵循基本的物理規律。例如,視頻中的物體在移動時,會展現出符合現實的重力和碰撞效果。
與此同時,視頻分析技術也取得了重要進展,AI不再僅僅識別視頻中的物體,還能夠理解物體之間的互動關係,以及它們行為背後的物理可能性。通過構建「視頻世界模型」,AI可透過預測動態場景中的變化,從而為自動駕駛和導航提供更精確的環境訊息。
從圖像到語音、從文本到視頻,算法領域的技術趨勢展現了跨模態融合,人類與AI的交互方式變得更為精準。這些突破性進展正在推動電影製作、電子遊戲和虛擬現實的革新,我們期待有更精采的體驗。
更多車品覺文章:
支持EJ Tech

