You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

o3及o4-mini現「幻覺」頻率飆

By on May 2, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech——智情筆報

ChatGPT開發商OpenAI早前推出新一代人工智能(AI)大型語言模型(LLM)o3及o4-mini,在編程、數學推理等任務表現卓越,被稱為該企至今最強模型。然而,兩款模型在「幻覺」產生率居然「不遑多讓」,產生錯誤或捏造資訊的頻率高於舊版模型。

OpenAI早前推出AI模型o3及o4-mini,在編程、數學推理等任務表現卓越。(路透資料圖片)

常捏造事實 OpenAI:成因未明

按照OpenAI內部評估基準,o3幻覺產生率為33%,比前代o1的16%高出一倍,o4-mini更達到48%,接近每兩次生成就有一次「幻覺」。研究公司Vectara的幻覺率排行榜同樣顯示,o3及o4-mini的幻覺率分別為6.8%和4.6%,屬於該公司所有模型最高的數字。

研究機構Transluce更觀察到,o3會偽稱自己可以用某種現實裝置執行和測試程式碼,捏造具體計算結果。該機構創辦人之一、OpenAI前員工喬杜里(Neil Chowdhury)說:「用於o系列模型的強化學習方法,可能會放大那些標準訓練後,通過流程緩解的問題。」

OpenAI坦承目前無法解釋為何新模型的幻覺急劇上升,直言「需做更多研究了解結果成因」,但他們同時聲稱,o3與o4-mini都更勇於發言,所以才會導致正確、錯誤陳述雙雙增加。

從技術角度看,讓幻覺變得嚴重的原因,可能在於「鏈式推理」(Chain-of-Thought)方法,它會強迫AI回答前作多步推理思考。一般認為,此舉有助提升結果準確度,但實則可能弄巧反拙、想多錯多,因為推理鏈條太長、生成過多內容,最終放大出錯機率。

另一個可能的技術原因,則是模仿人類所帶來的副作用。為讓AI回答更貼近人類偏好,近來訓練大模型往往採用基於人類回饋的強化學習(RLHF)形式,使其傾向給出完整、詳盡而自信的回答,即使在知識盲區也不輕言「不知道」,甚至「一本正經胡說八道」。

保留人工審核 防錯誤內容

面對上述現象,業界與開發者無疑需要更加謹慎。儘管新模型的運算、推理能力一直進步,但不代表其答案更可信。盲目追新反而可能帶來其他風險,必須建立自動驗證流程、保留人工審核機制。

幻覺危機也再次突顯LLM的限制,隨着模型規模日益龐大,更難控制內容。香港與其他地區的開發者,不妨考慮轉向訓練小模型,可能更適合嵌入企業工作,為本地AI應用開拓穩健道路。

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們