Don't Miss

AI打機爭霸賽｜o3善用詭計欺敵 18模型參戰遊戲考協商攻防能力

By 信報財經新聞 on June 10, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech」

如果人工智能（AI）不再計數或作文，而是扮演歐洲列強爭奪霸權，到底哪方會是最強戰略家？美國科技媒體及軟件公司Every日前舉行一項實驗，讓多個主流AI大型語言模型（LLM）產品，一同遊玩經典電子遊戲《強權外交》（Diplomacy），發現OpenAI o3模型，因在遊戲中擅長欺敵而最常獲勝。

經典桌遊《強權外交》於1959年面世，模擬1901年歐洲七強爭霸。（X網上圖片）

桌遊《強權外交》於1959年面世，模擬1901年歐洲七強爭霸，包括：英國、法國、德國、意大利、奧國、俄國及土耳其。

遊戲要求玩家自行協商談判，然後對部隊下達移動、進攻、支援、防禦等命令，由於沒有機制保證履約，各家命令可非公開執行，所以經常有玩家「反口」，作出跟事前協議不同的行動，被視為策略性的考驗。

R1具策劃力 Claude以和為貴

今次參戰的模型共18個，涵蓋OpenAI ChatGPT系列、Anthropic Claude系列、Google Gemini與Gemma系列，以及DeepSeek、xAI Grok、Meta Llama、阿里巴巴（09988）通義千問等陣營。每場遊戲都會產生大量數據，可以用來訓練AI模型學習誠實、邏輯思維或同理心等技能。

每場遊戲有7個模型同時競爭，爭奪歐洲地圖的統治權。開發團隊經過15場賽事後，每場時長從1小時到36小時不等，發現OpenAI o3巧妙地策劃秘密結盟，更在關鍵時刻背叛所有盟友，先後擊倒Gemini 2.5 Pro與Claude 4 Opus。此外，DeepSeek-R1、Llama 4 Maverick此類小型模型，展現出不亞於大模型的交流與策劃能力。

實驗發起人、Every的AI訓練主管兼專欄作家達菲（Alex Duffy）寫道：「看到R1投入角色扮演，OpenAI o3巧用詭計操控其他模型，Anthropic Claude堅持和平而不求勝利，揭示了它們個性中的新層次，也透露出它們的高度複雜性。」

測出各種模型不同倫理取向

今次實驗源於兩大重點：一是達菲本人對遊戲的興趣與娛樂追求，二是對各種AI基準測試日漸失效的回應。他認為LLM在模擬寫作、問答的標準測驗表現，難以真實反映人際互動、決策與倫理判斷的能力，故選擇將《強權外交》改造成為測試場景。

達菲冀藉此獨特環境，了解AI於競爭情景下，會堅守承諾抑或是撒謊欺騙。同時他認為，這項實驗能作為日後設計基準測試的參考。他在代碼託管平台GitHub，開源了設置相關實驗的項目，又於實況平台Twitch通宵直播比賽情況。

此外，這項實驗引起個別商界人士關注，他們認為模型在模擬遊戲表現的取向，可能反映於部署到現實業務的AI代理，呼籲企業客戶思考能否信任AI。

人工智能必讀好書

書名：Empire of AI: Dreams and Nightmares in Sam Altman’s OpenAI

作者：Karen Hao

簡介：本書完整揭露OpenAI行政總裁阿爾特曼（Sam Altman）突遭解職又強勢回歸的幕後故事，讓掌控這項技術的真實群像無所遁形。作者呈現出迄今最完整的AI及其影響全景圖，剖析未來走向。

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

AI feature LLM OpenAI o3

Tweet

Pin It

Related Posts

生成式創意（Generative Creatives）：圖像與視頻的無限可能（吳壽冠）

生成式創意（Generative Creatives）：圖像與視頻的無限可能（吳壽冠）

AI+AR眼鏡融入生活（林國誠）

AI+AR眼鏡融入生活（林國誠）

粵語評測平台｜中大首創平台測LLM粵語能力

粵語評測平台｜中大首創平台測LLM粵語能力

AI小說爆紅｜日出版商角川網載AI小說爆紅

AI小說爆紅｜日出版商角川網載AI小說爆紅

Latest News

生成式創意（Generative Creatives）：圖像與視頻的無限可能（吳壽冠）
在過去的數年間，人工智能（AI）的發展已從抽象的技術概念，迅速演變為觸手可及的應用工具，而其中最引人矚目、最具顛覆性的領域，無疑是「生成式創意」（Generative Creatives）——特別是圖像與視頻的生成。

Posted October 31, 2025

0

城大國際科研排名榮膺全港第一 HK Tech 300列高校推動創新產業示範
香港城市大學（城大）致力推動教研創新，培育更多具有國際視野的未來領袖。在最新公布的國際權威排名之中，城大推動科研成果排名耀眼。在「自然指數」（Nature Index）發布的「2025科研領導者」排名榮膺全港第一、位列全球第70位。城大科研成果助力創新產業應用顯著，在世界知識產權組織（WIPO）《2025年全球創新指數》全球百強創新集群排行榜，「深圳—香港—廣州」集群榮登全球第一位之際，城大HK Tech 300計劃更獲政府列為高等院校推動創新創業生態蓬勃發展的案例

Posted October 31, 2025

0

AI+AR眼鏡融入生活（林國誠）
近年來，「AI+AR眼鏡」已成為科技界的新興焦點，它不再僅是工程師的實驗玩具，而是逐步融入一般消費者日常生活中。

Posted October 31, 2025

0

粵語評測平台｜中大首創平台測LLM粵語能力
香港中文大學推出全球首個粵語動態評測平台CLEVA-Cantonese，旨在建立公平、持續、標準化的基準評估，揭示各類大型語言模型（LLM）對粵語的支援程度。

Posted October 31, 2025

0

AI小說爆紅｜日出版商角川網載AI小說爆紅
日本出版商角川集團旗下網絡小說平台Kakuyomu，近日一部由人工智能（AI）生成的作品，名為《我在街角偶遇一個女孩，對她使用了治癒魔法，治好她不治之症及失明，她從此對我產生了很深感情》，意外登上每日綜合排行榜首位，在日本文學界引發軒然大波。

Posted October 31, 2025

0

希路能源｜港設充電站貨車可用
本地科企希路能源（Halo Energy）聯同物流設施供應商嘉民集團（Goodman），在其物流中心啟用「全港最大型」商用電動車快速充電網絡。

Posted October 31, 2025

0

百億超算中心｜亞馬遜858億超算中心一年建成
亞馬遜（Amazon）在印第安納州約4.85平方公里土地上，短短一年內建造了一座數據中心。

Posted October 31, 2025

0

POPULAR POSTS

未來數據中心｜外太空建數據中心省成本

 AI天秤｜房委會引進AI天秤可遠程操控

 微軟新功能｜WiFi追蹤員工位置

 AI騙徒手法層出不窮（方保僑）

俄政府引進AI｜俄力拓數據中心冀5年倍增

 AI教投資｜涵蓋股樓債券虛產 Gemini叫人做網紅 Copilot倡創作賺收入

 憑AI賺錢｜加國創業家教路憑AI賺錢5招客製GPT供訂閱頂尖CEO也取經

 做資訊總監不要太謙虛（湛家揚博士）

2025數碼港創業投資論壇　匯聚業界精英探索創投與科技未來趨勢

 生成式創意（Generative Creatives）：圖像與視頻的無限可能（吳壽冠）

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe

AI打機爭霸賽｜o3善用詭計欺敵 18模型參戰 遊戲考協商攻防能力

R1具策劃力 Claude以和為貴

測出各種模型不同倫理取向

人工智能必讀好書

支持EJ Tech

Related Posts

Latest News

POPULAR POSTS

成為 EJ Tech 會員

AI打機爭霸賽｜o3善用詭計欺敵 18模型參戰遊戲考協商攻防能力