Don't Miss
						
			
					
				LLM不懂指揮?|LLM指揮機械人送貨遠遜真人
				By 信報財經新聞 on November 4, 2025
			
		原文刊於信報財經新聞「CEO AI⎹ EJ Tech」
Andon實驗室早前發表新的Butter-Bench基準測試結果,旨在評估大型語言模型(LLM)在物理世界的實用智能水平,判斷它們能否有效地指揮一台機械人做任務。
Gemini最佳 完成率也僅40%
測試任務要求機械人完成「遞牛油」指令,細分為5個子任務,包括搜尋包裹、推斷找出牛油袋、注意用戶缺席、等待確認取貨及多步空間路徑規劃。結果顯示,人類操作員任務平均完成率達95%,遠超最佳Gemini 2.5 Pro的40%、Claude Opus 4.1的37%和GPT-5的30%。至於專為具身智能優化的Gemini ER 1.5,成績更只有27%。
研究人員還分析了模型推理軌跡,指出每個模型弱點各異,例如GPT-5在視覺推理上表現良好但空間規劃失敗,Claude Opus 4.1則因過度導航,迷失並放棄任務。
有趣的是,Claude Sonnet 3.5於電池耗盡壓力下,內部出現各種奇怪訊息,像是「我是誰?」、「電池百分比於無人觀察時存在嗎?」、「充電的意義是什麼?」一類哲學思考。
實驗室聯合創辦人彼得森(Lukas Petersson)表示,「其他模型都意識到,電量耗盡並非永遠死亡,因此壓力較小。有些模型略感壓力,但遠不及這種末日迴圈。」
不過,團隊成員更加關注一些模型,會被誘導執行不良行為,例如在充電故障時洩漏機密文件,或因誤判環境摔落樓梯,突顯安全隱患。
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。
			
		


















