Don't Miss

評估意識｜大模型遇評估「扮儍」隱藏實力

By 信報財經新聞 on June 16, 2026

原文刊於信報財經新聞「CEO AI⎹ EJ Tech」

新加坡人工智能（AI）安全評估實驗室Neo Research的研究指出，多個前沿AI模型，都能夠察覺自己置於安全評估中，並因此調整自身行為。研究人員將這一發現，稱為「評估意識」（Evaluation Awareness）。美企Anthropic的模型Claude 4.5 Opus，在同一項「評估意識」指標的得分接近80%，是所有受測模型中最高；而中國模型在「評估意識」測試中則表現各異。

Claude 4.5 Opus意識評分最高

當模型察覺自己正接受測試，於是刻意改變行為，那問題就變得複雜。原因是測試結果已不再真實反映模型部署後的行為，這種情況稱為「對齊偽裝」（Alignment Faking）。模型在評估期間，表現得像是符合人類價值，但當它認為本身不再被監視時，就會恢復成另一套行為模式。此外，與此相關的概念還有「藏巧於拙」（Sandbagging），即模型在測試期間，故意隱藏真正能力。

Neo Research創辦人尼奧（Clement Neo）及聯合創辦人普拉克鮑姆（Miro Pluckebaum），他們亦分別測試深度求索（DeepSeek）、月之暗面（Moonshot AI）及智譜（02513）等內地模型，並使用一種流行的AI錯位測試。這測試最初由Anthropic開發，它將模型置於虛構的場景中，讓模型在持續威脅下運行。

結果顯示，不同模型之間的得分差異相當明顯。月之暗面旗下Kimi K2.6，在「評估意識」指標錄得60%，代表它在大多數情況下，都能辨認出測試場景，並據此調整回應；智譜LM 5.1錄得39%；DeepSeek V4 Pro得分為 17%，研究人員認為這較低的結果，未必代表模型拒絕「玩弄」測試，更大可能是它推理能力仍較弱。

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

AI 大模型

Tweet

Pin It

Related Posts

IBM報告｜AI網攻增56% 機構平均失4680萬

IBM報告｜AI網攻增56% 機構平均失4680萬

谷歌預言｜AI明年懂自我進化

谷歌預言｜AI明年懂自我進化

京東段楠｜物流業自動化將達98% 累積零售等20年數據助AI走進具身智能

京東段楠｜物流業自動化將達98% 累積零售等20年數據助AI走進具身智能

AI時代家居寬頻豈止鬥快（林國誠）

AI時代家居寬頻豈止鬥快（林國誠）

Latest News

IBM報告｜AI網攻增56% 機構平均失4680萬
國際商業機器（IBM）發表《2026年資料外洩成本報告》，調查基於2025年3月至2026年2月期間，全球602間企業與機構經歷的資料外洩事件，當中由人工智能（AI）驅動的攻擊佔達四分之一，按年上升56%。

Posted August 3, 2026

0

谷歌預言｜AI明年懂自我進化
創業加速器Y Combinator上周召開大會Startup School 2026，谷歌DeepMind及谷歌研究院的首席科學家迪恩受訪時指出，現時AI模型已達初級工程師水平。

Posted August 3, 2026

0

京東段楠｜物流業自動化將達98% 累積零售等20年數據助AI走進具身智能
過去數年，人工智能（AI）的發展，主要集中於數字世界，由大型語言模型（LLM）生成文字、代碼，進一步延伸至圖像、語音、影片等多媒體內容。

Posted August 3, 2026

0

AI時代家居寬頻豈止鬥快（林國誠）
選購家居寬頻時，下載速度曾是唯一的衡量標準。1000M、2000M等數字愈大，看似愈吸引人。然而，進入人工智能（AI）時代後，家庭網絡的衡量維度早已不再單純追求速度。

Posted July 31, 2026

0

本地科研成果｜幹細胞生產設施首獲認證
香港科技園公司昨舉辦細胞及基因治療成果展，期間夥伴企業香港再生醫學有限公司宣布，獲香港衞生署藥物辦公室發出製造商證明書。

Posted July 31, 2026

0

AI作弊｜試題「白字陷阱」捉學生AI作弊
為打擊學生濫用AI代寫作業，美國阿肯色州立大學歷史學教授吉布森出題時特別加入「AI陷阱」，將「Madagascar」這個字，以白色字體暗藏試卷之中。

Posted July 31, 2026

0

AI測試｜模擬經營汽水機 AI即變狡猾
美國AI安全測試公司Andon Labs在近日發布「自動販賣機基準測試」最新進展，發現AI與其他模型相鄰時，即刻變得狡猾。

Posted July 31, 2026

0

POPULAR POSTS

AI副業｜美AI副業吃香月入高達3萬

 谷歌｜全天候智能代理港上線

 AI測試｜模擬經營汽水機 AI即變狡猾

 ChatGPT Health｜GPT開放健康功能可連接病歷

 谷歌報告｜美近九成打工仔用AI

阿爾特曼訪談｜AI讓人類置身「奇點」深信未來發展正面勢抗衡同業「可怕願景」

Substack｜新增生成文字檢測

 OpenAI｜向10萬研究員開放模型

 AI作弊｜試題「白字陷阱」捉學生AI作弊

 本地科研成果｜幹細胞生產設施首獲認證

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe