Don't Miss
Gemini 3.1 Pro|推理性能增倍
By 信報財經新聞 on February 23, 2026
原文刊於信報財經新聞「CEO AI⎹ EJ Tech」
美國科企谷歌(Google)推出Gemini 3.1 Pro預覽版,擁有更強大的推理及問題解決能力。在衡量模型邏輯推理能力的ARC-AGI-2測試中,新版本準確率飆升至77.1%,是舊版本Gemini 3 Pro的兩倍(31.1%)。免費用戶可在Gemini應用程式試用3.1 Pro,至於Google AI Pro及AI Ultra訂戶,將享有更高的使用率。
Gemini 3.1 Pro在核心推理實現飛躍,在「人類終極考驗」(HLM)取得44.4%成績,表現優於Claude Opus 4.6及GPT-5.2。其他關鍵基準測試方面,新模型在GPQA Diamond測試取得94.3%,以及大規模多任務語言理解(MMLU)評分92.6%,在多個領域均有顯著提升。
編程稍遜Claude及OpenAI模型
不過,根據Google自身數據,於編程基準測試SWE-Bench Verified,Gemini 3.1 Pro得分為80.6%,成績稍微落後Claude Opus 4.6的80.8%。在經過驗證的SWE-Bench Pro基準測試中,OpenAI最新的編程模型GPT-5.3-Codex,亦以56.8%評分擊敗了Gemini 3.1 Pro的54.2%。
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。
















