You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

ChatGPT Agent|包辦複雜任務

By on July 21, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech

美國人工智能(AI)初創OpenAI發布ChatGPT Agent,讓AI代理透過「自己的虛擬電腦」,自主完成複雜的多步驟任務,例如在瀏覽器上網、運行程式碼、使用其他終端、管理文件,甚至跟個人應用程式及文件互動。ChatGPT Agent可存取「整部電腦」而非僅限瀏覽器;除了連接Gmail、GitHub等應用程式,更可直接存取API(應用程式介面),可說是結合了Operator、Deep Research這兩項AI工具的能力。

Pro訂戶近乎任用

ChatGPT Agent即日起逐步開放予Pro、Plus及Team訂戶,也計劃開放予Enterprise及Education訂戶使用。Pro訂戶每月任務數幾乎無上限,其他訂戶每月則可執行50項任務。操作方面,在開始任何對話時,只要直接在工具的下拉式選單,選取「Agent mode」或輸入「/agent」,就能啟用ChatGPT的自主代理功能,之後簡單描述想執行的任務,例如深入研究、製作簡報或報銷費用。

用戶可透過ChatGPT Agent,在時裝網站挑選服裝。(YouTube影片擷圖)

首先在工作層面,ChatGPT Agent可以將熒幕截圖或儀表板資料,轉成簡報、重新安排會議、規劃及預訂出訪行程,以及更新財務試算表資料。在個人生活層面,可以輕鬆規劃及預訂旅遊行程,或者尋找和預約各類專業服務。OpenAI行政總裁阿爾特曼(Sam Altman)與Agent團隊拍片,示範AI代理如何計劃參與婚禮的細節,包括揀選酒店、服裝及禮物。

阿爾特曼(右一)與Agent團隊拍片,示範ChatGPT Agent計劃參加婚禮的細節。(YouTube影片擷圖)

根據OpenAI的測試結果,ChatGPT Agent在多項基準測試表現領先。在「人類終極考驗」(Humanity’s Last Exam;HLM)測試取得41.6%成績,跑贏OpenAI o3的24.9%。在SpreadsheetBench基準測試中,主要評估模型對真實情景試算表的編輯能力,ChatGPT Agent分數提升至45.5%,遠超Copilot in Excel的20.0%,惟與人類得分71.3%仍有距離。

金融交易須真人核准

為防止模型犯下代價高昂的錯誤,ChatGPT會主動拒絕執行高風險任務,例如金融交易或敏感法律事務。執行敏感或具影響力的操作前,會先明確徵求用戶許可,例如提交表單、預約、購物或與個人資料有關的網站操作。此外,透過「監視模式」,像是草擬及發送電郵,或操作敏感應用程式時,用戶都可以核准每個步驟;如果操作耗時較預期長,或者感覺未見進展,用戶亦可暫停任務。

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們