Meta語音系統|識辨逾1600語言
原文刊於信報財經新聞「CEO AI⎹ EJ Tech」
現時的「自動語音辨識」(ASR)系統,透過將語音轉錄成可搜尋、分析及共享的文本,使口語能夠被普遍獲取。
Meta基礎人工智能研究(FAIR)團隊,最新發布一款多語言ASR系統Omnilingual ASR,這模型套件支援超過1600種語言,數量遠遠超過OpenAI旗下開源的Whisper模型(僅支援99種語言)。
這套系統的架構更具彈性,開發者可透過「零樣本上下文學習」功能,於推理階段輸入少量音頻與文字對應範例,即可讓模型識別更多未曾訓練過的語言,整體潛在支援語言數量,更可以擴展至超過5400種,幾乎涵蓋所有文字記錄的口語。
資料庫可擴充 免費使用
系統發布附有技術論文、GitHub程式碼庫、Hugging Face示範空間;該套件包括一系列語音辨識模型、一個70億參數的多語言音訊表示模型Omnilingual wav2vec 2.0,以及一個涵蓋350多種低資源語言的語料庫。
最重要的是,Meta將此系統於周一(10日),以Apache 2.0開源許可證公開發布,毋須付費或受限使用。不論研究人員及企業,都能自由應用於商業或企業級項目,打破過去Meta先前有限制的授權模式。
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。
Related Posts
Latest News
-
三招防範「電子利是」陷阱(林國誠)
丙午年第一次同讀者見面,筆者先祝各位身體健康、心想事成。近年「電子利是」成為新春新潮流,祝福可以即時「傳達」:一句拜年語,加上一個通知,收款完成,方便又體面。
- Posted February 20, 2026
- 0
-
Jake Paul|網紅拳手讚OpenAI舵手高效爽快
網紅拳手保羅(Jake Paul)早前在科技主題節目Sourcery受訪,談論自己對人工智能(AI)、ChatGPT開發商OpenAI,以及其行政總裁阿爾特曼(Sam Altman)的看法。
- Posted February 20, 2026
- 0
-
谷歌Lyria 3|免費生成專屬歌曲
美國科技巨擘谷歌(Google)宣布,將自家音樂生成模型Lyria 3整合到旗下的人工智能(AI)應用程式Gemini。用戶只要用文字描述曲風、情緒或場景,就能生成30秒的音樂作品。
- Posted February 20, 2026
- 0
-
與AI共事|學者Ethan Mollick教路與AI共事四原則
美國賓夕法尼亞大學沃頓商學院教授莫利克(Ethan Mollick),專門研究人工智能(AI)、創業及創新。
- Posted February 20, 2026
- 0
-
企業發展樽頸|軟件工程師Dax Raad對AI見解獲共鳴
資深軟件工程師拉德(Dax Raad)認為,企業之所以面對樽頸,並非因為編程速度不足,而是缺乏好點子、員工欠缺動力、繁複的公司官僚體制,以及「難以讓產品真正落地」等各種現實挑戰。
- Posted February 20, 2026
- 0
-
Seedance侵權|Netflix促字節跳動停止侵權
繼迪士尼、派拉蒙、華納兄弟等三大影視製作公司後,影視串流龍頭Netflix向TikTok母企字節跳動正式發出停止侵權通知函,要求它從訓練資料集移除其知識產權。
- Posted February 20, 2026
- 0
-
AI顛覆全球產業|德銀料AI四年淨創7800萬職位 軟件金融業高危 護理幼兒教育難取代
人工智能(AI)顛覆全球多個產業,德意志銀行研究院發表《AI如何自我吞噬及顛覆世界》報告,以其自主研發AI工具DB Lumina,配合Google Gemini 2.5 Pro模型,深入分析全球各個行業。
- Posted February 20, 2026
- 0
















