Gemini新版本|模擬人手操控電腦
原文刊於信報財經新聞「CEO AI⎹ EJ Tech」
美國科技巨擘谷歌(Google)推出新版人工智能(AI)模型Gemini 2.5 Computer Use,旨在像人類一樣操作普通電腦常見的「圖形使用者介面」(GUI)。從示範影片可見,用戶可藉此AI模型,自動填寫行事曆資料,或為電子便條紙作分類。
Computer Use懂點擊填資料
雖然AI代理多數藉着API(應用程式介面)跟其他軟件互動,但有部分任務仍須模擬人手操作,如點擊、輸入、拖曳等,Computer Use即針對有關用途作訓練。
Computer Use模型於Online-Mind2Web、WebVoyager、AndroidWorld等基準測試表現優異,相較OpenAI、Claude等競爭對手,準確度更高但延遲時間更低。現已於Gemini API公開預覽,亦可透過Google AI Studio與Vertex AI存取,收費水平暫時跟Gemini 2.5 Pro保持一致。
Opal編程服務拓至15國
此外,Google旗下AI編程平台Opal,也將服務範圍擴展至15個新國家,包括加拿大、印度、日本、南韓、越南、印尼、巴西、新加坡、哥倫比亞、薩爾瓦多、哥斯達黎加、巴拿馬、洪都拉斯、阿根廷與巴基斯坦。
今年7月推出的Opal,最初僅對美國開放,它讓用戶單靠自然語言描述,即可構建迷你應用程式,被視為Google促進「氛圍編程」(Vibe Coding)利器之一。
Opal團隊同步推出兩項重要升級:一是工作流程除錯,以可視化形式逐步執行工作流程,並即時顯示錯誤位置;二是強化基礎架構,透過效能優化、平行運算,將生成時間減至5秒或以下。
支持EJ Tech

