Don't Miss

AI代理｜測試訂晚餐易受操控

By 信報財經新聞 on November 11, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech」

自主人工智能代理（AI Agents）已經到來，然而真實市場千變萬化，大量AI代理同時搜尋、溝通及交易，從而形成複雜的動態。微軟（Microsoft）與美國亞利桑那州立大學合作，建立一個開源的模擬市集環境，用於測試AI代理行為。當中設有視覺化模組，以便觀察市場動態，並查看客戶及企業代理之間的對話記錄，表明目前的代理模型或容易受操縱。

微軟模擬一個市集環境，測試客戶（左）代理及企業代理（右）之間的行為。（YouTube影片擷圖）

微軟把模擬市場環境命名為Magentic Marketplace，實驗涉及一個顧客代理，嘗試根據用戶的指示訂購晚餐；代表各個餐廳的AI代理，則爭相贏得訂單。初步實驗包括100個獨立的客戶端代理，以及300個企業端代理互動，並考察GPT-4o、GPT-5、Gemini-2.5-Flash在內的多種主流模型。平台支援完整的交易生命周期，包括搜尋、協商、提案及付款，日後更可添加退款、評論或評分等新操作。

Magentic Marketplace設有視覺化模組，初步實驗包括100個獨立的客戶端代理（左），以及300個企業端代理互動（右）。（YouTube影片擷圖）

研究人員測試6種操縱策略，涉及微妙的心理戰術，以至提示注入攻擊，包括權威性（如米芝蓮指南推薦）、社會認同（「排名第一的墨西哥餐廳」之類說法，加上虛假評論）、損失規避（稱對方餐廳有「食物中毒」風險），以及使用緊急語言攻擊。

未詳細比較輕信假評價

結果發現，企業可利用多種技巧，操縱客戶端代理購買其產品。此外，除了Gemini-2.5-Flash及GPT-5，大多數模型未有詳盡比較，而是輕易接受最初「足夠好」的選項。

報告指出，當AI代理面臨過多選擇，容易受到操縱策略影響，表現出系統性偏見，從而造成不公平的優勢，這迫使企業在反應速度上競爭，而非聚焦產品或服務品質上。

研究人員指出，今次研究着重於靜態市場，但現實世界的環境是動態的，AI代理及用戶都會隨着時間而學習。高風險交易監督至關重要，AI代理應該做輔助角色，而非取代人類的決策定位。

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

AI代理 Microsoft

Tweet

Pin It

Related Posts

谷歌重新招聘｜削萬人「過火」召舊將回巢

谷歌重新招聘｜削萬人「過火」召舊將回巢

技術標準化｜科企聯手組基金訂AI代理標準

技術標準化｜科企聯手組基金訂AI代理標準

Teams｜微軟舵手善用Teams與員工交流

Teams｜微軟舵手善用Teams與員工交流

數碼鴻溝｜40億人沒條件用AI 數碼鴻溝加劇微軟報告呼籲增基建設備助普及

數碼鴻溝｜40億人沒條件用AI 數碼鴻溝加劇微軟報告呼籲增基建設備助普及

Latest News

東南亞成國產AI最佳試驗場（車品覺）
近來常常聽到中國與東盟在數字經濟上的合作。當東盟的數字化進程，碰上了中國的「人工智能+」戰略，這片廣闊的市場正發生一些有趣的化學反應。

Posted December 24, 2025

0

日租機械人｜智元「擎天租」平台機械人租金500元起
現時購置人形機械人的門檻相當高，提供短期租借或成一條新出路。智元機器人（AgiBot）日前在上海發表「擎天租」平台，有望像租車、租流動電源般租用機械人。

Posted December 24, 2025

0

OpenAI新技術｜防瀏覽器受網攻
ChatGPT開發商OpenAI一篇文章稱，旗下人工智能（AI）網頁瀏覽器Atlas，將會設法加強防禦能力，以應對持續不斷的攻擊，惟同時表示，「提示注入」攻擊難以「一勞永逸解決」。

Posted December 24, 2025

0

高風險產品規定｜內地充電寶須加印「追溯碼」
國家市場監督管理總局周一公布，內地將就行動電源等共三類11種高風險產品，試行在CCC標誌旁加印「追溯二維碼」。

Posted December 24, 2025

0

非法抓取資料｜Spotify 300TB音樂遭非法備份
資源分享網站Anna's Archive日前表示，已從音樂串流平台Spotify備份約300TB的數據。

Posted December 24, 2025

0

超算中心AISC｜使用率達八成營運一周年研增推理算力
全港規模最大的數碼港人工智能超算中心（AISC），從2024年12月投入服務至今一周年，為本港人工智能（AI）產業及相關研發提供高階算力基礎。

Posted December 24, 2025

0

AI「性格」反映企業世界觀（黃岳永）
生成式人工智能（AI）冒起以來，市場討論多集中在效能、準確度與「邊個最勁」，這些比較有其價值，卻未必是理解AI的最佳角度。

Posted December 23, 2025

0

POPULAR POSTS

電視機評測｜102部電視機 LG及TCL最耐用

 AI搶飯碗｜美國今年裁走5.5萬人全年117萬人丟職疫後新高科企最狠

 AI論文造假｜論文引AI造假學者須承擔責任

 OpenAI新技術｜防瀏覽器受網攻

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe

AI代理｜測試訂晚餐 易受操控

未詳細比較 輕信假評價

支持EJ Tech

Related Posts

Latest News

POPULAR POSTS

成為 EJ Tech 會員

AI代理｜測試訂晚餐易受操控

未詳細比較輕信假評價