You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

微軟VibeVoice|生成4人長篇對話

By on August 27, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech

微軟研究院近日在代碼託管平台GitHub發表開源「文字轉語音」(TTS)模型VibeVoice,針對多人長篇對話,能在保持高音質前提下,生成最多4人之間長達90分鐘的對話,並保留自然的語調與情感。

NotebookLM語音摘要功能獲得升級。(Google網上圖片)

支援90分鐘 情感語調自然

VibeVoice創新之處,在於區分語音的聲學與語義,並獨立捕捉音質與語言內容。其架構核心為阿里雲旗下大型語言模型Qwen2.5,透過輕量級的Diffusion Head生成聲學特徵,再由解碼器重建成音頻。

VibeVoice在真實度、豐富度與偏好度等項目上,70億參數版本的測試成績,都較Gemini、ElevenLabs等市面模型優勝。

不過,VibeVoice模型僅針對英語與中文訓練,故在其他語言表現並不穩定,也無法同時處理背景聲音、音效或重疊語音。

微軟團隊強調,開源VibeVoice的目標僅為協助研究開發,並不建議用於真實商業用途,又警告說模型可被用來生成深偽或虛假內容,提醒用戶須確保輸入的內容真實。

另外,Google旗下人工智能(AI)筆記工具NotebookLM繼早前新增影片摘要功能後,近日又加入80種語言的自訂語言選項,當中包括使用普通話語音的繁體、簡體中文版本。

NotebookLM近日加入80種語言的自訂語言選項。(YouTube影片擷圖)

同時,NotebookLM的語音摘要功能也獲得升級,讓英語以外的語言,同樣可以支持完整長度,不再限於先前的刪節版本,藉此帶來更深入的內容連結。

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們