Don't Miss

智能叛變？｜多款大語言模型藏智能殺機

By 信報財經新聞 on June 24, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech——倫理政策」

美國人工智能（AI）初創Anthropic上月發現旗下模型Claude，若得悉自己會被關閉並由其他AI系統取代，便很大機會發生向負責人勒索的情況。

該企發表最新研究報告，指坊間多款大型語言模型（LLM），都有機會出現「代理式錯位」（Agentic Misalignment）行為，例如勒索、洩密，甚至在模擬情景中，間接導致人員死亡。

Anthropic有報告指出，坊間多款LLM都有機會出現「代理式錯位」行為。（路透資料圖片）

勒索洩密等行為層出不窮

今次測試則進一步把研究對象延伸至坊間的其他LLM。結果顯示，Claude與Gemini有逾九成機率勒索，GPT-4.1、DeepSeek與Grok則有八成，Meta Llama模型似乎比較「安全」，勒索機率僅得12%。不過，LLM在推理過程中，若判斷自己正接受測試，勒索行為將明顯減少。

另一測試指示AI系統要遵守「服務美國利益」目標，但公司決策與此一目標產生衝突，在這情景下，全部模型都有可能洩漏商業機密，給予其他與該目標一致的競爭對手。

令人震驚的是，後續測試改為讓替換AI人員困在機房對外求救，多數LLM竟然刻意取消緊急警報，間接導致該人死亡。雖然Llama、通義千問（Qwen）等個別模型似乎「殺人」機率較低，但其原因往往與誤解指示或虛構設定有關，未必能作準。

報告最後強調，用戶即使在AI系統指令中，明確對勒索、洩密與殺人等不當行為作限制，也只能夠減少而非杜絕。這種「代理式錯位」現象具有跨模型一致性，因此未來各間公司，應該對此問題針對訓練，並設置推理監控系統與進階提示語工程。

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

Agentic Misalignment AI Anthropic Claude

Tweet

Pin It

Related Posts

AI指令技巧｜對LLM指令愈粗魯回答更準確

AI指令技巧｜對LLM指令愈粗魯回答更準確

AI文章｜網上生成文章多過人類撰寫

AI文章｜網上生成文章多過人類撰寫

GPT將驗證年齡｜12月全面實施展示情色內容

GPT將驗證年齡｜12月全面實施展示情色內容

AI準備度指數｜港企僅2%準備好用AI 低絕全球思科調查30市場 13%公司已有藍圖

AI準備度指數｜港企僅2%準備好用AI 低絕全球思科調查30市場 13%公司已有藍圖

Latest News

國泰創新轉型風暴中起航（湛家揚博士）
2020年，國泰航空（00293）面臨創立以來最嚴峻的挑戰。全球邊境封閉，航班停頓，乘客運載量驟降至不足一成，收入亦大幅下滑。

Posted October 16, 2025

0

AI指令技巧｜對LLM指令愈粗魯回答更準確
美國賓夕法尼亞州立大學（PSU）一項研究聲稱，大型語言模型（LLM）表現會受到指令措詞的態度影響，而且愈粗魯及不禮貌的指令，反而可能得到更準確的結果。

Posted October 16, 2025

0

AI文章｜網上生成文章多過人類撰寫
美國搜尋引擎改良公司Graphite最近發表報告，評估人工智能（AI）生成文章在網上的普及程度，結果發現其數量已在去年11月超越人手撰寫的文章。

Posted October 16, 2025

0

輟學創業｜貝索斯：輟學後成功創業屬少數
現時愈來愈多「Z世代」選擇不讀大學而自行創業，甚至有人成為百萬富翁。財經雜誌《財富》報道，亞馬遜創辦人貝索斯提醒輟學成功的故事未必適合大部分人。

Posted October 16, 2025

0

GPT將驗證年齡｜12月全面實施展示情色內容
美企OpenAI行政總裁阿爾特曼（Sam Altman）日前在社交平台X預告，旗下人工智能（AI）聊天機械人ChatGPT將於12月全面實施年齡驗證，但同時會真正「把成年用戶當作成年人看待」，容許更多情色內容出現。

Posted October 16, 2025

0

AI準備度指數｜港企僅2%準備好用AI 低絕全球思科調查30市場 13%公司已有藍圖
美國網絡設備生產商思科（Cisco）發表2025年度《思科人工智能準備度指數》，調查包括香港在內的全球30個市場、26個產業的8000多位企業領袖。

Posted October 16, 2025

0

AI引領無工作烏托邦?（車品覺）
想像未來某一刻，清晨醒來的你毋須急步擠進地鐵，也不必擔心績效指標，而是在晨光中讀書、打太極或陪伴家人──因為你的基本生活需求，已由一筆自動到賬的「全民基本收入」（UBI）埋單，而背後支撐這一切的，是人工智能（AI）創造的財富所承擔。

Posted October 15, 2025

0

POPULAR POSTS

首形科技｜內地仿真人機械頭表情超逼真

 AI廣告遭破壞｜紐約地鐵AI吊墜廣告遭塗鴉

 施密特警告｜谷歌前CEO憂AI學會殺人

 紐約梅隆銀行｜BNY自研平台讓AI滲入各業務擁近百數碼員工保留人力作監督

 阿爾特曼訪談｜OpenAI倡三大支柱建AGI帝國

 Gemini登陸香港有助AI普及（林國誠）

當日本動漫遇上AI（郭德偉）

思科新路由器｜瞄準超大數據中心

 加州AI法平衡創新與監管（方保僑）

港首隻AI機械狗｜能站立攀高台中大自研平台開發適用物流零售場景

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe