Votee AI|粵語AI大模型 港府採用 初創Votee AI蒐10年數據開發
原文刊於信報財經新聞「EJ Tech 創科鬥室」
廣東話博大精深,保留不少古漢語特徵,其聲調複雜之餘,亦有不少獨特俚語,例如「吊吊揈」、「虢礫緙嘞」(粵音:撠溺卡勒)等詞語,港人識聽識講卻未必個個識寫。數碼港培育人工智能(AI)初創Votee AI利用過去10年積累的數據,研發一款廣東話大型語言模型(LLM),產品獲本地多間銀行及生產力促進局採用,並為政府部門提供AI聊天機械人服務。

遣詞造句符合港人習慣
Votee AI技術總監陳豪傑表示,公司研發的廣東話LLM模型,設有個人及企業兩個版本。團隊可根據客戶具體業務,結合其內部資料、提供客製化服務。主打個人的Community Version為開源版本,相關程式碼及數據已上傳至AI協作平台Hugging Face。
從現場示範可見,Votee AI聊天機械人反應速度不錯,遣詞造句符合港人習慣。陳豪傑指出,在使用輝達(Nvidia)RTX A4500繪圖處理器(GPU)情況下,運算兩次對話大約耗時25秒,快過人眼的閱讀速度。
談到開發過程,陳豪傑稱,初時大家通常會用檢索增強(RAG)技術。即結合AI和數據庫搜尋的技術,在生成回答時即時檢索相關資訊。現時不少開發者都選擇為模型微調,但形容這種方法,「問題在於最多只能改動LLM的5%左右,通常甚至只有1%。」

陳豪傑坦言,團隊經歷一番掙扎後,最終選擇基於Meta開源模型Llama,進行持續預訓練(Continual Pre-Training),他強調,Llama本身不具備廣東話能力,團隊相當於「所有嘢都要修改」。
即時翻譯準確率逾九成
要訓練大模型,採用大量及準確的數據是關鍵,陳豪傑說,這正是團隊遇到的技術挑戰之一。數據來源可以歸納為三類,一是俗語和網絡流行用語,第二是書面語,最後則是實際對話。他認為,廣東話屬於「資源稀缺型語言」。以維基百科文章為例,英文約有250萬篇文章,廣東話文章僅有9000篇左右。

所幸Votee AI在過去10年間,一直從事市場研究、社群聆聽(Social Listening)等業務。過程中收集大量廣東話相關數據,有豐富資源。同時,有本地語言學系教授,以及粵語辭典計劃《粵典》團隊等支援大模型開發。
早前,團隊為虛擬經濟博覽及會議提供AI翻譯服務。陳豪傑憶述,當時有不少內地來賓到場,團隊提供的廣東話翻譯服務,準確率已超過九成。他表示,根據自己之前了解,坊間類似模型準確率在85%左右。現時隨着LLM不斷升級,相信90%將成為平均水準。
採訪、撰文:周泳彤
相關文章:Votee AI|擬攻冷門語 拓東南亞非洲粵語AI大模型
想知道什麼是 Fine-Tuning?:深入了解Fine-Tuning
支持EJ Tech


Related Posts
Latest News
-
AI趨勢|Meta啟動創業項目 倡初創活用Llama
美國科技巨頭Meta周三(21日)宣布,推出Llama for Startups計劃,鼓勵初創採用其Llama人工智能(AI)模型進行創新,並建立生成式人工智能(Generative AI)應用程式。計劃成員將獲得Llama專家的資源和支持,以及前期資金。
- Posted May 23, 2025
- 0
-
6G全球高峰會鞏固港優勢(林國誠)
「6G全球高峰會2025」剛圓滿舉行,首次移師亞洲,選址香港,意義非凡。身處會場之中,筆者不止感受到這場全球科技盛事的規模與熱度,更看見了一個未來圖景:通訊不再只是「速度」的競賽,而是「智慧連接」的起點。
- Posted May 23, 2025
- 0
-
AI趨勢|阿里雲王堅籲拓AI太空應用
澳門BEYOND國際科技創新博覽會周三(21日)揭幕,中國工程院院士、阿里雲創始人、浙江之江實驗室主任王堅在演講表示,算力是進入人工智能(AI)領域的最大障礙之一,又強調不應只把AI局限在電腦或手機,現在正是思考如何將AI,應用於太空的好時機。
- Posted May 23, 2025
- 0
-
AI趨勢|Citi AI登陸花旗香港助提效
花旗集團推出嶄新人工智能(AI)工具「Citi AI」予香港員工使用,以協助員工簡化日常工作流程,提升工作效率和生產力。花旗集團香港及澳門區行政總裁及銀行業務主管辛葆璉稱,相信生成式人工智能(Generative AI),能夠從根源改變工作模式,使同事能更精明、更高效地工作。
- Posted May 23, 2025
- 0
-
AI耗電|生成5秒影片 耗電340萬焦耳
麻省理工科技評論(MIT Technology Review)最新研究發現,生成一段5秒的人工智能(AI)影片,需要大約340萬焦耳的能量,這是生成高畫質圖片所需能量700多倍,消耗電力相當於微波爐運作一小時。
- Posted May 23, 2025
- 0
-
打擊黑客|微軟跨國封域名阻黑客入侵
微軟(Microsoft)周三(21日)指出,其數碼犯罪部門與美國司法部、歐洲刑警組織(Europol)、日本網絡犯罪控制中心(JC3)、雲端服務供應商Cloudflare,以及其他科技業機構合作,採取法律行動查封2300多個惡意域名,藉此切斷惡意軟件的通訊,並將流量重新定向到現時控制的伺服器,阻止Lumma Stealer在全球肆虐。
- Posted May 23, 2025
- 0
-
Shopify推網店生成器 商業功能簡易快速
電商引進人工智能(AI)代理,不但節省網店的客服人手,更能提升庫存管理及物流效率,令價格及服務更具競爭力。
- Posted May 23, 2025
- 0