You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

粵語評測平台|中大首創平台 測LLM粵語能力

By on October 31, 2025

刊於信報財經新聞「CEO AI⎹ EJ Tech

香港中文大學推出全球首個粵語動態評測平台CLEVA-Cantonese,旨在建立公平、持續、標準化的基準評估,揭示各類大型語言模型(LLM)對粵語的支援程度。

中大推出全球首個粵語動態評測平台CLEVA-Cantonese;左起為王歷偉、蒙美玲。(郭文德攝)

項目由中大InnoHK博智感知交互研究中心(CPII)、語言與視覺實驗室(Lavi-Lab)合作研發,針對日常粵語白話形式特點,包括口語、俚語及英語夾雜等,依安全、表達理解、語言三範疇評測。

CLEVA-Cantonese可評核口語

CPII主任蒙美玲表示,「未來我們歡迎更多行業、機構共同參與,持續擴展我們數據生態……為未來的AI創新提供可靠的評估依據及洞見,推動人工智能更加可信、更加優質服務社會。」

另外,CLEVA-Cantonese設計採用標準化的循環工作流程,涵蓋數據導入與篩選、語言模型理解、評測、反饋四階段,藉此建構出一個動態更新、持續演進的評測生態系統。

最佳模型錯誤率仍達20%

Lavi-Lab負責人王歷偉指出,「整個生態系統的核心就是,可以通過快速生成高質量的問答數據,以及測試性的任務,來保證它的問題是盡量減少數據污染。」

根據團隊首輪評測,市面現存LLM均未完全掌握粵語,例如最好的模型對常見表達理解,錯誤率仍有20%;各家模型在語碼轉換翻譯時,平均亦比常規翻譯低20%。同時,無論不同模型處理同一任務,抑或同一模型處理不同任務,多數LLM表現都有參差、互有優勢,說明當前LLM在粵語理解上,需要更系統化的評測及優化。

CLEVA-Cantonese計劃日後建立開放評測平台,供研究人員、開發者及機構使用,亦會提供共享工具,促進語言學、教育及文化等領域的協作研究。團隊同時期望,未來能夠一邊為其他低資源語言提供評測支持,另一邊在金融、教育、醫療等領域驗證LLM的可信部署。

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們