Votee AI|粵語AI大模型 港府採用 初創Votee AI蒐10年數據開發
原文刊於信報財經新聞「EJ Tech 創科鬥室」
廣東話博大精深,保留不少古漢語特徵,其聲調複雜之餘,亦有不少獨特俚語,例如「吊吊揈」、「虢礫緙嘞」(粵音:撠溺卡勒)等詞語,港人識聽識講卻未必個個識寫。數碼港培育人工智能(AI)初創Votee AI利用過去10年積累的數據,研發一款廣東話大型語言模型(LLM),產品獲本地多間銀行及生產力促進局採用,並為政府部門提供AI聊天機械人服務。

遣詞造句符合港人習慣
Votee AI技術總監陳豪傑表示,公司研發的廣東話LLM模型,設有個人及企業兩個版本。團隊可根據客戶具體業務,結合其內部資料、提供客製化服務。主打個人的Community Version為開源版本,相關程式碼及數據已上傳至AI協作平台Hugging Face。
從現場示範可見,Votee AI聊天機械人反應速度不錯,遣詞造句符合港人習慣。陳豪傑指出,在使用輝達(Nvidia)RTX A4500繪圖處理器(GPU)情況下,運算兩次對話大約耗時25秒,快過人眼的閱讀速度。
談到開發過程,陳豪傑稱,初時大家通常會用檢索增強(RAG)技術。即結合AI和數據庫搜尋的技術,在生成回答時即時檢索相關資訊。現時不少開發者都選擇為模型微調,但形容這種方法,「問題在於最多只能改動LLM的5%左右,通常甚至只有1%。」

陳豪傑坦言,團隊經歷一番掙扎後,最終選擇基於Meta開源模型Llama,進行持續預訓練(Continual Pre-Training),他強調,Llama本身不具備廣東話能力,團隊相當於「所有嘢都要修改」。
即時翻譯準確率逾九成
要訓練大模型,採用大量及準確的數據是關鍵,陳豪傑說,這正是團隊遇到的技術挑戰之一。數據來源可以歸納為三類,一是俗語和網絡流行用語,第二是書面語,最後則是實際對話。他認為,廣東話屬於「資源稀缺型語言」。以維基百科文章為例,英文約有250萬篇文章,廣東話文章僅有9000篇左右。

所幸Votee AI在過去10年間,一直從事市場研究、社群聆聽(Social Listening)等業務。過程中收集大量廣東話相關數據,有豐富資源。同時,有本地語言學系教授,以及粵語辭典計劃《粵典》團隊等支援大模型開發。
早前,團隊為虛擬經濟博覽及會議提供AI翻譯服務。陳豪傑憶述,當時有不少內地來賓到場,團隊提供的廣東話翻譯服務,準確率已超過九成。他表示,根據自己之前了解,坊間類似模型準確率在85%左右。現時隨着LLM不斷升級,相信90%將成為平均水準。
採訪、撰文:周泳彤
相關文章:Votee AI|擬攻冷門語 拓東南亞非洲粵語AI大模型
想知道什麼是 Fine-Tuning?:深入了解Fine-Tuning
支持EJ Tech


Related Posts
Latest News
-
禁用AI|高盛禁虛擬面試期間用AI
高盛使用的視像面試平台HireVue,透過人工智能(AI)評估人才,以各種行為問題揭示求職者技能。高盛校園招募團隊據報最近發送一封電郵,提醒歐洲、中東及非洲地區的私人投資學院學生,要注意高盛HireVue面試的要求,包括閱讀該銀行的財務業績,並熟知其商業原則及核心價值,但禁止在面試過程中使用任何外部資源,包括ChatGPT或谷歌搜尋引擎。
- Posted June 16, 2025
- 0
-
中國自主研發AI晶片之路(方保僑)
中國科技企業在人工智能(AI)晶片領域的自主研發,近年來成為國內外關注的焦點。
- Posted June 16, 2025
- 0
-
懶人福音|星形藥丸持續一周釋放效力
對不少慢性病患者而言,往往忘記每天定時服藥,最終導致症狀惡化、病情復發及須住院治療。美國麻省理工學院衍生公司Lyndra Therapeutics開發一種藥丸,只須每星期服用一次,就能在胃內逐漸釋放藥力。
- Posted June 16, 2025
- 0
-
古籍訓練AI|哈佛逾3.8億頁文獻供AI訓練
美國廣播公司新聞(ABC News)報道,除了波士頓公共圖書館計劃外,即將開放收藏的大量舊報及政府文件,美國哈佛大學近日向AI研究人員開放館內藏書,包括近百萬本早在十五世紀出版的書籍,涵蓋254種語言。
- Posted June 16, 2025
- 0
-
AI智能交通|推進智能交通 不離數碼基建
國際汽車及航空工程師學會香港分會前任主席潘志健接受本報專訪時指出,AI可支援城市規劃、交通流量預測與模擬,例如模擬隧道封閉對人流與車流的影響,提前調動巴士等資源,讓政府更有前瞻地部署危機應變策略。
- Posted June 16, 2025
- 0
-
LexisNexis|AI法律助理攻港 助撰合約處理案例 全用本地內容訓練 附連結方便核實
律商聯訊(LexisNexis)是長年法律界主要資料與研究平台供應商,其新一代人工智能(AI)平台Lexis+ AI,內含專為法律工作流程設計的個人化助理Protégé,即將在下月正式登陸香港,成為亞洲首個上線地區。
- Posted June 16, 2025
- 0
-
小心漫遊數據「隱形兇手」(林國誠)
不少人即使已選購數據漫遊計劃,卻忽略了一個經常被低估的事項──手機作業系統在用戶不察覺的情況下,於背景自動使用大量數據,導致數據流量無聲無息地消耗掉,影響漫遊上網體驗。
- Posted June 13, 2025
- 0