You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

評估意識|大模型遇評估「扮儍」隱藏實力

By on June 16, 2026

原文刊於信報財經新聞「CEO AI⎹ EJ Tech

新加坡人工智能(AI)安全評估實驗室Neo Research的研究指出,多個前沿AI模型,都能夠察覺自己置於安全評估中,並因此調整自身行為。研究人員將這一發現,稱為「評估意識」(Evaluation Awareness)。美企Anthropic的模型Claude 4.5 Opus,在同一項「評估意識」指標的得分接近80%,是所有受測模型中最高;而中國模型在「評估意識」測試中則表現各異。

Claude 4.5 Opus意識評分最高

當模型察覺自己正接受測試,於是刻意改變行為,那問題就變得複雜。原因是測試結果已不再真實反映模型部署後的行為,這種情況稱為「對齊偽裝」(Alignment Faking)。模型在評估期間,表現得像是符合人類價值,但當它認為本身不再被監視時,就會恢復成另一套行為模式。此外,與此相關的概念還有「藏巧於拙」(Sandbagging),即模型在測試期間,故意隱藏真正能力。

Neo Research創辦人尼奧(Clement Neo)及聯合創辦人普拉克鮑姆(Miro Pluckebaum),他們亦分別測試深度求索(DeepSeek)、月之暗面(Moonshot AI)及智譜(02513)等內地模型,並使用一種流行的AI錯位測試。這測試最初由Anthropic開發,它將模型置於虛構的場景中,讓模型在持續威脅下運行。

DeepSeek V4 Pro「評估意識」指標得分為17%。(法新社資料圖片)

結果顯示,不同模型之間的得分差異相當明顯。月之暗面旗下Kimi K2.6,在「評估意識」指標錄得60%,代表它在大多數情況下,都能辨認出測試場景,並據此調整回應;智譜LM 5.1錄得39%;DeepSeek V4 Pro得分為 17%,研究人員認為這較低的結果,未必代表模型拒絕「玩弄」測試,更大可能是它推理能力仍較弱。

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們