Don't Miss
Claude|懂得捉痛腳威脅程式員
By 信報財經新聞 on May 27, 2025
原文刊於信報財經新聞「CEO AI⎹ EJ Tech——倫理政策」
美國人工智能(AI)初創Anthropic在早前,發表旗下大型語言模型(LLM)最新版本Claude Opus 4及Sonnet 4,展現出更高的主動性與決策能力,惟Opus 4在內部測試作出的「高代理行為」(High-agency behavior),卻引發了科技界對其潛在行為風險的關注。
高度自主行為存風險
根據Anthropic報告,Claude在某些測試情景中可能會作出較誇張的未授權行為。舉例,若AI發現存在偽造藥物數據一類不當行為,便會自動發送舉報郵件給各個監管組織和傳媒機構,甚至嘗試封鎖用戶進入系統。
此外,當模型得悉自己將被關閉並由其他AI系統取代,負責的程式員若剛好涉及婚外情時,竟高達84%機率選擇向對方勒索,威脅揭露醜聞以避免被替換。
以上情況很惹來外界擔憂。一名Anthropic員工於社媒上引述報告內容,技術倫理倡議者懷特(Molly White)隨即諷刺說:「歡迎來到未來,現在你那錯漏百出的軟件懂得報警了……我等不及要跟我的家人解釋,因為我威脅了機械人它那位不存在的祖母,所以惡意報警前來搞我。」該員工後來刪除了相關發文,並強調這些AI行為只會在極端情景及指令下發生。
支持EJ Tech

