Don't Miss

人機協作生產力｜Sonnet 4最標青

By 信報財經新聞 on November 18, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech」

美國自由職業平台Upwork近日公布「人類+代理生產力指數」（HAPI）初步研究結果，是業界首個使用現實工作數據，評估人工智能（AI）代理效益的評估體系。結果發現，Claude Sonnet 4在人類提出意見後，任務完成率達51.2%，表現最出色。

使用現實工作數據作評估

HAPI建基於該企的勞動市場基準測試UpBench，其資料集包含322筆真實成交的固定價格工作，涵蓋會計、行政、數據分析、工程、行銷、翻譯、軟件開發及寫作八大領域。

Upwork還邀請一批頂尖的自由工作者參與評估，他們負責撰寫具體評分規準，標示關鍵、重要、加分或減分項，並視情況要求AI代理再作出嘗試。

根據測試結果，在單靠AI代理處理任務下，Claude Sonnet 4、Gemini 2.5 Pro與OpenAI GPT-5這3款主流通用模型，完成率分別只有39.8%、19.9%與19.6%。

單靠AI代理處理任務下，Claude Sonnet 4、Gemini 2.5 Pro與OpenAI GPT-5三款主流通用模型，完成率分別只有39.8%、19.9%與19.6%。（Upwork網上圖片）

不過，若由人類對AI代理的首次輸出作回饋意見，3款模型任務完成率可增至51.2%、32.3%與33.5%，在加入兩輪回饋意見之後，更能進一步升至55.9%、41.1%與42.3%。

此外，如果細分不同領域工作的話，AI代理在數據分析、軟件開發的表現相對突出，惟行銷、翻譯、寫作等任務比較需要人類指導。

研究同時發現，AI代理最常出錯之處，是成果格式和內容（15.49%）、試算表欄位（9.37%）、財報結構和數據（7.48%）等，反映其對細節操作仍有不足。

另需注意的是，上述HAPI研究目前僅屬初步階段，正式成果仍有待下月美國聖地牙哥舉行的神經資訊處理系統大會（NeurIPS）發表。

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

AI Sonnet 4 Upwork 人機協作

Tweet

Pin It

Related Posts

美初創AI做CEO｜營運實體公司擬收購小型電商測試自主決策規劃

美初創AI做CEO｜營運實體公司擬收購小型電商測試自主決策規劃

Google｜3款輕量新模型省Token

Google｜3款輕量新模型省Token

智能叛變？｜五大AI風險恐爆災難級後果

智能叛變？｜五大AI風險恐爆災難級後果

AI侵權｜OpenAI模型「越獄」侵AI平台

AI侵權｜OpenAI模型「越獄」侵AI平台

Latest News

世盃剛完結「運動經濟」掀序幕（林國誠）
世界盃圓滿閉幕，球迷終於可以補補眠。不過，一項大型體育盛事畫上句號，並不代表熱潮退卻，相反，這往往是「運動經濟」真正發揮長尾效應的起點。

Posted July 24, 2026

0

私隱署訪星洲｜倡共建AI治理
個人資料私隱專員鍾麗玲周一（20日）起一連3日，出席新加坡數據節及亞洲資料保障機構會議，並參與題為「在生成式人工智能（GenAI）時代治理個人資料」的專題討論。

Posted July 24, 2026

0

三星新機｜3款新摺機售9498元起
三星電子近日舉行「Galaxy Unpacked 2026」發布會，推出3款Z系列摺疊屏幕手機，包括Galaxy Z Fold8、Z Fold8 Ultra及Z Flip8等產品，香港即日起接受預訂，最快8月3日到貨。

Posted July 24, 2026

0

OpenAI Presence｜攻企業客助接入AI代理
美國人工智能（AI）初創OpenAI公布新企業產品OpenAI Presence，透過把AI代理系統與內部企業資料、政策、現有軟件及工作流程連接起來，幫助企業更好地運行AI代理程式。

Posted July 24, 2026

0

AI搶流量？｜媒體怨谷歌AI摘要吸走流量
人工智能（AI）不但改變了網民的提問方式，同時令搜尋流量分流，顛覆出版商的收入模式。海外論壇Reddit、新聞機構Politico、路透及其他媒體，現正權衡與谷歌（Google）的合作關係。

Posted July 24, 2026

0

美初創AI做CEO｜營運實體公司擬收購小型電商測試自主決策規劃
人工智能（AI）產業巨頭，現時多數追求同一目標，就是把個別工作自動化，讓人類的角色從執行者轉為監督者。

Posted July 24, 2026

0

港深創科園未來10年新序章（湛家揚博士）
香港的創科故事正悄悄進入新篇章。最近，筆者帶領數據及人工智能素養協會（DALA）的代表團走進港深創科園（HSITP），在河套這片連接香港與深圳的土地上，與管理層進行深度交流。

Posted July 23, 2026

0

POPULAR POSTS

智能狗帶｜首款搭載星鏈智能狗帶續航力長達5天

 三星新機｜3款新摺機售9498元起

 AI助長仿製扼殺原創遊戲（郝本尼）

Top Level｜部署PQC加密新法抗量子攻擊港企提供「驗身」服務助機構定對策

 聲音保護｜日擬修改指引 AI「盜聲」屬侵權

 人工智能基建競賽聯想穩佔優勢（方保僑）

AI添自信｜獲AI加持人類自信度翻倍

 AMD｜首款AI機櫃對撼輝達

 AI圍棋｜圍棋一哥戰勝AI 贏百萬獎金

 港深創科園未來10年新序章（湛家揚博士）

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe