Don't Miss

AI準確率報告｜最高僅69%

By 信報財經新聞 on December 17, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech」

時下大多數人工智能（AI）測試，都專注於模型能否完成任務，而非針對其生成的資訊是否真實。谷歌（Google）近日發布一份研究報告，透過其新推出的FACTS基準測試套件，以評估當今人工智能（AI）聊天機械人的可靠性。結果發現，即使最好的AI模型（Gemini 3 Pro），事實準確率也難以突破70%【見表】。來自OpenAI、Anthropic、xAI等其他系統得分亦較低，仍會答錯大約三分一問題。

Claude及Grok約有一半錯誤

FACTS基準測試套件由Google FACTS團隊與Kaggle合作開發，直接測試模型在4個場景的事實準確性。第一項測試衡量參數知識，即檢驗模型能否僅使用訓練期間學習的知識，回答基於事實的問題；第二項測試評估搜尋效能，檢驗模型使用網絡工具，檢索準確資訊的能力；第三項測試着重「扎根性」，即模型能否忠實理解所提供的文檔，而不添加錯誤訊息；第四項測試檢視多模態理解能力，例如正確解讀圖表、示意圖及圖像的能力。

測試成績顯示。Gemini 3 Pro以69%的FACTS得分位居榜首，緊隨其後是Gemini 2.5 Pro及OpenAI GPT 5，得分約62%。Claude 4.5 Opus得分為51%，Grok 4得分接近54%。對需要精準數據的行業，例如金融、醫療保健、法律等，盲目信任聊天機械人將存在風險，不實資訊隨時釀成巨大損失。當AI模型成為可靠資訊來源之前，仍需驗證、監管及人類監督。

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

AI Google 準確率

Tweet

Pin It

Related Posts

從機械人紅利到永生願景（方保僑）

從機械人紅利到永生願景（方保僑）

Google新功能｜生成3D世界探索

Google新功能｜生成3D世界探索

本地創科動態｜理大孵化企推法律「數字員工」

本地創科動態｜理大孵化企推法律「數字員工」

AI趨勢｜工程師：AI助理包辦八成任務

AI趨勢｜工程師：AI助理包辦八成任務

Latest News

從機械人紅利到永生願景（方保僑）
1月中，特斯拉（Tesla）與SpaceX的掌舵人馬斯克（Elon Musk）首次現身瑞士達沃斯的世界經濟論壇（World Economic Forum），與貝萊德（BlackRock）行政總裁芬克（Larry Fink）進行一場備受矚目的對談。

Posted February 2, 2026

0

Google新功能｜生成3D世界探索
Google DeepMind致力建立人工智能（AI）世界模型，上周透過Google Labs推出實驗性原型Project Genie，根據文字或圖像提示生成3D環境。

Posted February 2, 2026

0

本地創科動態｜理大孵化企推法律「數字員工」
香港理工大學早前舉辦「下一代法律人工智能體系統」法律人工智能（AI）成果展示會，滙聚政商學界近百領袖，介紹其孵化企業智法數料（WiseLaw）的法律AI產品服務平台。

Posted February 2, 2026

0

人機合一｜英癱漢腦植晶片念力控電腦
英國《每日郵報》報道，當地男子戈麥斯佩納（Sebastian Gomez-Pena）因一次意外導致頸部以下癱瘓，近日獲選為英國7位臨床志願者之一，有幸首批植入Neuralink腦機晶片，初步結果令人鼓舞，他認為「感覺很神奇」。

Posted February 2, 2026

0

AI趨勢｜工程師：AI助理包辦八成任務
曾任特斯拉（Tesla）AI主管及OpenAI創始成員卡帕西（Andrej Karpathy），最先提出「氛圍編程」概念。他近日發表一篇「Claude編碼隨筆」千字文，承認以人工智能代理（AI Agent）寫程式更有趣，形容AI的真正價值是做更多以前不會做的事，碰以前不敢碰的領域。

Posted February 2, 2026

0

氛圍編程漸趨成熟倡培育AI素養
香港無線科技商會（WTIA）主席李勁華日前接受本報專訪，分享他對於「氛圍編程」的看法，並向本港企業與求職者提出建議。

Posted February 2, 2026

0

智能眼鏡助AR導航融入生活（林國誠）
人工智能（AI）眼鏡正逐漸流行，從拍攝、翻譯到即時提示，正由新奇玩具走向日常工具。

Posted January 30, 2026

0

POPULAR POSTS

Moltbot｜自動替用戶辭職辦離婚

 新無線收發器｜傳輸量超光纖

 手機變輻射探測儀｜廣島大學研發成本僅564元

 生成AI淪幫兇｜釣魚攻擊佔逾半港去年網安事故飆27% 近1.6萬宗新高

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe