古籍訓練AI|哈佛逾3.8億頁文獻供AI訓練
原文刊於信報財經新聞「CEO AI⎹ EJ Tech」
科企在訓練聊天機械人時,往往由網上數據着手,例如從維基百科、Reddit等社交媒體論壇,甚至有時從電子書着手,讓人工智能(AI)學習知識。美國廣播公司新聞(ABC News)報道,除了波士頓公共圖書館計劃外,即將開放收藏的大量舊報及政府文件,美國哈佛大學近日向AI研究人員開放館內藏書,包括近百萬本早在十五世紀出版的書籍,涵蓋254種語言。
圖書館為人類知識的寶庫,保存大量有趣的文化、歷史及語言數據。哈佛大學早在2006年已夥拍谷歌,旨在創建一個可搜尋的網上圖書,擁有超過2000萬本書籍。而美國的版權保護通常為95年,錄音的保護期更長。
微軟副總法律顧問戴維斯(Burton Davis)指出,與仍受版權保護的內容相比,公共領域數據引發的爭議較少。
哈佛大學最新發布的AI訓練數據集「機構圖書1.0」,包含3.86億頁掃描紙本文獻,擁有2420億個詞元(Token),已在AI開發者平台Hugging Face發布。作品主要來自十九世紀,涵蓋文學、哲學、法律及農業等主題,其中一件較早作品來自十五世紀,是一位韓國畫家手寫並記錄,關於栽培花草樹木的感悟。
MIT研數碼薄膜修復古油畫
除了把古書數碼化保存外,修復油畫等藝術品亦必須「慢工出細貨」。美國麻省理工學院(MIT)機械工程研究生卡奇金(Alex Kachkine)研發一種創新方法,能把數碼修復的成果印在聚合物薄膜上,再精準地與原畫貼合,不會破壞作品,亦可隨時拆卸。
以一幅嚴重受損的十五世紀油畫為例,AI自動識別出5612個需要修復的區域,並使用57314種顏色填滿這些位置。整個數碼修復過程耗時3.5小時,估計比傳統修復快約66倍;論文刊登在學術期刊《自然》。
支持EJ Tech

