You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

GPT-Realtime|OpenAI語音助手能捕捉笑聲

By on September 1, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech

客戶想致電客戶服務平台退貨,日後或演變成與人工智能(AI)語音助理對話。ChatGPT開發商OpenAI發布最新語音模型GPT-Realtime,標榜是「最先進的、可投入生產的語音模型」,可以捕捉非語言線索(例如笑聲)、對話中途切換語言,並調整語氣,更可發送截圖或照片,恍如跟真人即時對話。

GPT-Realtime可以調整語氣,並在句子中間切換語言。(OpenAI影片擷圖)

GPT-Realtime幫忙選購租屋

OpenAI客戶T-Mobile在直播影片展示AI語音助手如何協助用戶挑選新手機;另一客戶房地產搜尋平台Zillow則示範AI語音助手怎樣根據用戶生活需求,縮小房源範圍。至於基準測試方面,GPT-Realtime分別在Big Bench Audio、MultiChallenge、ComplexFuncBench中,取得準確率達82.8%、30.5%及66.5%的成績。

T-Mobile在直播影片中,就展示一款AI語音助手,協助用戶找到新手機。(YouTube影片擷圖)

OpenAI不但更新原有的8種語音,又新增Marin及Cedar兩種極具特色的語音。同時發布Realtime API(應用程式介面),支援遠端「模型上下文協議」(MCP)伺服器、圖像輸入,以及透過「會話初始協議」(SIP)電話呼叫,從而存取更多工具及上下文,進一步增強語音代理的功能。

此外,API具備偵測問題內容的能力,若對話違反平台政策,可能自動終止會話。GPT-Realtime價格現已降低20%,每100萬詞元(Token)計算,輸入及輸出的收費,分別為32美元(約249.6港元)及64美元(約499.2港元);快取輸入詞元的價格,為每100萬詞元0.4美元。

另一方面,微軟亦推出語音生成模型MAI-Voice-1,標榜使用單一圖像處理器(GPU),可不到一秒內產生一分鐘的音訊,最初將應用於旗下Copilot助手。模型支援功能包括,總結天氣預報資料,以及根據文字生成播客。

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們