Don't Miss

幻覺減弱｜GPT-5出現「幻覺」機率減至4.8%

By 信報財經新聞 on August 11, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech」

在啟用網頁搜尋後，GPT-5模型準確率顯著提升，回應包含事實錯誤或虛構內容的機率，比GPT-4o低約45%；在「思考」狀態下，錯誤機率亦比o3模型低約80%。在長篇內容基準測驗中，具有思考能力的GPT-5，虛構內容則比o3少約6倍。在ChatGPT提示回應中，具思考能力的GPT-5，出現「幻覺」並提供錯誤訊息的機率為4.8%，比GPT-o3（22%）及GPT-4o（20.6%）大減。

基準測試跑分方面，衡量編程能力的SWE-bench Verified，GPT-5得分74.9%，表現略勝Anthropic最新模型Claude Opus 4.1（74.5%）及谷歌DeepMind Gemini 2.5 Pro（59.6%）。在「人類終極考驗」（HLE），具有擴展推理功能的GPT-5 Pro，在使用工具下得分42%，成績略低於xAI Grok 4 Heavy（44.4%）。針對博士級科學問題的GPQA Diamond，GPT-5 Pro得分89.4%，超越Claude Opus 4.1（80.9%）及Grok 4 Heavy（88.9%）。

在「人類終極考驗」，具有擴展推理功能的GPT-5 Pro，在使用工具下得分42%。（OpenAI網上圖片）

網上代理任務測試遜色

專門知識方面，在OpenAI開發的醫療測試HealthBench Hard，GPT-5得分46.2%。在數學測試AIME 25，GPT-5毋須工具協助取得94.6%。在多模態理解測驗MMMU，GPT-5表現達84.2%。不過，在網上代理任務測試Tau-bench，GPT-5瀏覽航空公司網站得分僅得63.5%，略低於o3的64.8%；而瀏覽零售網站時得分也是81.1%，略低於Claude Opus 4.1的82.4%。

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

AI GPT-5

Tweet

Pin It

Related Posts

龍蝦AI代理進化論（黃岳永）

龍蝦AI代理進化論（黃岳永）

「AI+」開啟香港產業新章（方保僑）

「AI+」開啟香港產業新章（方保僑）

預算案促全民用AI 應三管齊下（郝本尼）

預算案促全民用AI 應三管齊下（郝本尼）

惡搞片爆紅｜AiCandy創作惡搞片 3科企巨擘變老頭

惡搞片爆紅｜AiCandy創作惡搞片 3科企巨擘變老頭

Latest News

龍蝦AI代理進化論（黃岳永）
兩周前開源系統OpenClaw（被工程師暱稱為「龍蝦」）正式發布，科技界迎來一個範式轉移的時刻。

Posted March 3, 2026

0

榮耀人形機械人｜2026 MWC上台表演跳舞
內地手機製造商榮耀（Honor）在2026年世界移動通訊大會（MWC），展示首款人形機械人（Humanoid Robot），更在台上表演跳舞，動作靈活。機械人將聚焦購物協助、工作場所檢查，以及陪伴支援服務等場景。

Posted March 3, 2026

0

生產力局招聘會｜本周六舉行設逾萬職缺
香港生產力促進局宣布，「新質生產力」人才招聘會2026將於本周六（7日）生產力大樓舉行。

Posted March 3, 2026

0

WiFi DensePose新技術｜憑WiFi訊號捕捉人類動作
近日開源項目WiFi DensePose在網上竄紅，它聲稱能夠透過一般WiFi訊號，直接捕捉人體動作姿態，且毋須依賴任何攝影鏡頭或穿戴裝置。

Posted March 3, 2026

0

iPhone 17e｜明晚可預訂5099元起
蘋果公司（Apple）昨天推出新版手機iPhone 17e，儲存空間256GB起跳，定價5099元起。

Posted March 3, 2026

0

生物電腦｜讓人與細胞互動澳科企訓練活體神經元玩射擊遊戲
澳洲科企Cortical Labs去年研發全球首部商業化的生物電腦CL1，安裝了20萬個活體人類神經元，並培育在一個「多電極陣列」微晶片上。

Posted March 3, 2026

0

「AI+」開啟香港產業新章（方保僑）
今年《財政預算案》正式將「人工智能+」列為推動經濟新動能核心，標誌香港從「科技研發」邁向「產業應用」。

Posted March 2, 2026

0

POPULAR POSTS

「龍蝦助手」｜Google AI訂戶接入OpenClaw遭封號

 Uber舵手談AI｜AI將取代950萬司機預言20年內顛覆藍白領無可幸免

 光束傳輸｜美初創Taara研光束隔空傳輸免鋪光纖

 AI玩戰爭遊戲｜95%用小型核武

 清華3D打印｜僅須0.6秒破紀錄

 Perplexity｜數碼員工集19模型大成

 美報告料爆AI危機兩年內重創經濟

 AI理解深度決定企業生死（車品覺）

網絡覆蓋｜微軟星鏈合作擴全球網絡

 「AI+」開啟香港產業新章（方保僑）

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe

幻覺減弱｜GPT-5出現「幻覺」機率減至4.8%

網上代理任務測試遜色

相關文章：

支持EJ Tech

Related Posts

Latest News

POPULAR POSTS

成為 EJ Tech 會員