You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

Gemini 3.1 Pro|推理性能增倍

By on February 23, 2026

刊於信報財經新聞「CEO AI⎹ EJ Tech

美國科企谷歌(Google)推出Gemini 3.1 Pro預覽版,擁有更強大的推理及問題解決能力。在衡量模型邏輯推理能力的ARC-AGI-2測試中,新版本準確率飆升至77.1%,是舊版本Gemini 3 Pro的兩倍(31.1%)。免費用戶可在Gemini應用程式試用3.1 Pro,至於Google AI Pro及AI Ultra訂戶,將享有更高的使用率。

Gemini 3.1 Pro在核心推理實現飛躍,在「人類終極考驗」(HLM)取得44.4%成績,表現優於Claude Opus 4.6及GPT-5.2。其他關鍵基準測試方面,新模型在GPQA Diamond測試取得94.3%,以及大規模多任務語言理解(MMLU)評分92.6%,在多個領域均有顯著提升。

面對「生成鵜鶘踩單車動畫」的指令,Gemini 3.1 Pro的成果(右圖)較舊版本(左圖)更精緻及重視細節。(影片截圖)

編程稍遜Claude及OpenAI模型

不過,根據Google自身數據,於編程基準測試SWE-Bench Verified,Gemini 3.1 Pro得分為80.6%,成績稍微落後Claude Opus 4.6的80.8%。在經過驗證的SWE-Bench Pro基準測試中,OpenAI最新的編程模型GPT-5.3-Codex,亦以56.8%評分擊敗了Gemini 3.1 Pro的54.2%。

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們