AI打機爭霸賽|o3善用詭計欺敵 18模型參戰 遊戲考協商攻防能力
原文刊於信報財經新聞「CEO AI⎹ EJ Tech」
如果人工智能(AI)不再計數或作文,而是扮演歐洲列強爭奪霸權,到底哪方會是最強戰略家?美國科技媒體及軟件公司Every日前舉行一項實驗,讓多個主流AI大型語言模型(LLM)產品,一同遊玩經典電子遊戲《強權外交》(Diplomacy),發現OpenAI o3模型,因在遊戲中擅長欺敵而最常獲勝。
桌遊《強權外交》於1959年面世,模擬1901年歐洲七強爭霸,包括:英國、法國、德國、意大利、奧國、俄國及土耳其。
遊戲要求玩家自行協商談判,然後對部隊下達移動、進攻、支援、防禦等命令,由於沒有機制保證履約,各家命令可非公開執行,所以經常有玩家「反口」,作出跟事前協議不同的行動,被視為策略性的考驗。
R1具策劃力 Claude以和為貴
今次參戰的模型共18個,涵蓋OpenAI ChatGPT系列、Anthropic Claude系列、Google Gemini與Gemma系列,以及DeepSeek、xAI Grok、Meta Llama、阿里巴巴(09988)通義千問等陣營。每場遊戲都會產生大量數據,可以用來訓練AI模型學習誠實、邏輯思維或同理心等技能。
每場遊戲有7個模型同時競爭,爭奪歐洲地圖的統治權。開發團隊經過15場賽事後,每場時長從1小時到36小時不等,發現OpenAI o3巧妙地策劃秘密結盟,更在關鍵時刻背叛所有盟友,先後擊倒Gemini 2.5 Pro與Claude 4 Opus。此外,DeepSeek-R1、Llama 4 Maverick此類小型模型,展現出不亞於大模型的交流與策劃能力。
實驗發起人、Every的AI訓練主管兼專欄作家達菲(Alex Duffy)寫道:「看到R1投入角色扮演,OpenAI o3巧用詭計操控其他模型,Anthropic Claude堅持和平而不求勝利,揭示了它們個性中的新層次,也透露出它們的高度複雜性。」
測出各種模型不同倫理取向
今次實驗源於兩大重點:一是達菲本人對遊戲的興趣與娛樂追求,二是對各種AI基準測試日漸失效的回應。他認為LLM在模擬寫作、問答的標準測驗表現,難以真實反映人際互動、決策與倫理判斷的能力,故選擇將《強權外交》改造成為測試場景。
達菲冀藉此獨特環境,了解AI於競爭情景下,會堅守承諾抑或是撒謊欺騙。同時他認為,這項實驗能作為日後設計基準測試的參考。他在代碼託管平台GitHub,開源了設置相關實驗的項目,又於實況平台Twitch通宵直播比賽情況。
此外,這項實驗引起個別商界人士關注,他們認為模型在模擬遊戲表現的取向,可能反映於部署到現實業務的AI代理,呼籲企業客戶思考能否信任AI。
人工智能必讀好書
書名:Empire of AI: Dreams and Nightmares in Sam Altman’s OpenAI
作者:Karen Hao
簡介:本書完整揭露OpenAI行政總裁阿爾特曼(Sam Altman)突遭解職又強勢回歸的幕後故事,讓掌控這項技術的真實群像無所遁形。作者呈現出迄今最完整的AI及其影響全景圖,剖析未來走向。
支持EJ Tech

