Gemini 3創大模型里程碑(車品覺)
本文作者車品覺,為港交所獨立非執行董事、香港基因組中心董事、香港大學中國商業學院客座副教授,為《信報》撰寫專欄「全民大數據」。
朋友問筆者平時用哪一個大模型,毫不猶豫地我的答案是Gemini及DeepSeek,這可比擬為駕車:開得暢順肯定較為穩定。當然筆者認為,它們有可能會是未來中美大模型的贏家。話說Google最近發布新一代大型語言模型Gemini 3,標誌着人工智能(AI)發展的一個轉捩點,該模型不僅在多項性能基準測試中刷新紀錄,超越了市場上的主要對手,更核心的轉變是,它從一個被動的「問題回答者」,變成一個主動的「任務完成者」。

Gemini 3在模型能力上實現三大飛躍。其多模態整合能力大幅提升,能夠同時處理文本、圖像、影片、音訊和程式碼等多種資訊格式,並擁有高達100萬Token(詞元)的上下文視窗,能夠理解和處理複雜任務。Gemini 3更能準確地判斷何時需要呼叫外部工具(如應用程式介面API),甚至能組合多個工具,協作完成一項複雜的任務。開發者可以透過Google Antigravity平台,讓Gemini自主執行程式碼,成為真正的智能代理(Agent)。
與Gemini 3一同發布的圖像生成模型Nano Banana Pro,是本次升級一大亮點。它不僅能生成高達2K和4K解像度的高品質圖像,還解決了過往模型難以控制圖像長寬比的痛點。用戶最多可以提供14張參考圖像,結合文本指令,模型便能精準地融合各種元素,生成風格統一、構圖自然,且人物與服裝保持一致的合成照片。這使得它從一個簡單的圖像生成工具,躍升為一個能支援分鏡級、導演級創作的圖像引擎。上周我在電視台開會的時候,就目睹製作團隊在運用Nano快速生成不同視角與構圖的功能。

在自動化辦公方面,Gemini 3的智能體模式,可以自主完成複雜多步驟的任務。例如,用戶只需發出「整理我的收件箱」指令,Gemini便會掃描分析近期電郵,自動草擬需要回覆的郵件,並根據內容分類、建立待辦事項,最後生成一份完整的整理計劃交由用戶確認。一經批准,所有操作便會自動執行。
未來,贏家或許不是最「聰明」的模型,而是最「順手」的智能體應用。Gemini 3正朝着這個方向,全速前進。
(編者按:車品覺著作《覺悟.大數據》現已發售)
歡迎訂購:實體書、電子書
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。














