當日本動漫遇上AI(郭德偉)
本文作者郭德偉(Andy Kwok),為數據及人工智能素養協會 (DALA)資深創會會員 兼 OpenCertHub 創辦人及行政總裁 ,為《EJTech》撰寫專欄
在全球文化產業中,日本動漫一直佔據著不可動搖的地位。從手繪漫畫到精心製作的動畫,日本動漫展現了其獨特的藝術風格和說故事的魅力,吸引著全球粉絲的熱愛,筆者也是其中一份子。近年隨著人工智能 (AI) 和大數據技術的迅速發展,日本動漫產業不斷探索如何將這些科技融入創作與製作流程中,尋找前所未有的變革可能性。
最近做一些AI資料搜集時,發現原來東京大學有一個研究團隊設計了一套先進的AI語言模型稱為MangaLMM(LMM 是指Large Multimodal Model),專門訓練AI「閱讀」日本漫畫,協助作者激發新靈感,這無疑為漫畫創作注入了新動力。然而,要使AI理解日本漫畫這種獨特的敘事形式,仍然是一項艱鉅的挑戰。漫畫並非僅僅是圖像與文字的簡單堆砌,而是融合了複雜的分鏡設計、精湛的視覺表現技巧,以及直接嵌入於畫面中的文字對白和擬聲詞。有些風格獨特的作者更喜歡在畫面中出現大量留白,為故事帶來另類的情感表達。由於人工智能必須同時掌握圖像與文字的雙重資訊,方能像人類讀者一樣透過連貫的故事敘述中理解上文下理,才可真正讀懂漫畫。要構建這個為漫畫而設計的AI模型,定必克服不少挑戰。

為漫畫而構建的AI模型
MangaLMM的主要研究團隊包括有東京大學的白晶勳 (Jeonghun Baek)、江頭和希 (Kazuki Egashira)、小野原翔太 (Shota Onohara)、宮井淳之 (Atsuyuki Miyai)、今宿由紀(Yuki Imajuku)、生田光 (Hikaru Ikuta) 和相澤晴清 (Kiyoharu Aizawa)。他們以Qwen2.5-VL (一種開源大型多模態模型) 來構建以閱讀日本漫畫為主的AI語言模型。而相關的研究成果《MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding》,已於今年5月26日以論文形式在arXiv 平台發表,文章以英文為主,有興趣的朋友可從網上下載相關論文,了解當中研究模式及所使用的算法。
東京大學的研究團隊指出,要讓AI像人類一樣理解漫畫,必須先精準辨識頁面上的文字 (OCR),再結合這些文字透過視覺問答 (VQA) 來解析內容。為了克服這項挑戰,他們開發了兩個評測工具:MangaOCR專門用於偵測和識別漫畫中的文字,包括對話框和音效詞,並利用著名的Manga109與擬聲詞資料集進行訓練。

數據集質素為首要條件
Manga109數據集收錄了由1970年至2010年間出版的109本漫畫,合共21,142頁。這些漫畫題材涵蓋12個不同類型,包括幽默、戰鬥、愛情喜劇、動物、科幻、運動、歷史劇、奇幻、愛情、懸疑、恐怖及四格漫畫。當中漫畫家共有94位,涉及14家出版社,作品特色包括黑白美術風格、雙頁跨頁設計、從右至左的閱讀順序、垂直文字排列,以及風格化的擬聲詞。除此之外,研究團隊還推出了MangaVQA,包含526組精心設計的問答資料,涵蓋各種敘事和視覺場景,用以評估AI根據漫畫中的視覺和文字線索作出精確回答的能力。
該論文亦提及AI訓練策略包括讓模型分析漫畫中的對話框、角色動作及情感變化,從中捕捉故事節奏和角色關係的微妙變化。這種深度理解幫助AI提供更精準且富創意的建議,例如協助作者設計新的人物互動,甚至在劇情布局上提點意想不到的轉折。在實務應用中,許多參與的漫畫家都反映由AI產生的靈感點子不僅開拓了他們的思路,還大幅降低了構思階段的心理疲勞。

動漫市場IP潛力強大
AI技術讓數據創作和設計成為現實。動漫作品從角色塑造、故事背景到敘事節奏均可基於用戶需求與反饋動態調整,讓作品更契合不同口味的受衆,擴闊讀者市場到不同國度。全球動漫市場以2025年計算大約為367億美元,預計2030年將達致
600.7億美元(數字來自Grand View Research))。而日本動漫產業市場亦預測本年可達135億美元,較去年(2024) 增長率約3.5%。
日本動漫市場今年的主要升幅當中受惠不少來自《鬼滅之刃》的最新劇場版《無限城篇》。據外電報導,《鬼滅之刃無限城篇》全球票房達7.57億美元,排名2025年票房最高電影的第5名。日本本土票房已突破330億日圓 (約17.5億港元),超越國寳級動畫大師宮崎駿執導的《千與千尋》(316.8億日圓) 於2001年所創下的紀錄,榮登日本歷來最高票房電影第2位,與前作劇場版《無限列車篇》(407.5億日圓) 並列冠亞軍,成為一時佳話。至於在本地票房,自8月14日上映以來至10月1日,已突破一億港元大關。
《鬼滅之刃》的動畫版故事尚未完結,現上映的是劇場版《無限城篇》的第一章《猗窩座再襲》,而後續的第二章和第三章預計將分別在2027年和2029年上映。劇場版製作組ufotable (動畫製作公司) 及導演外崎春雄為了建立一個華麗的無限城,使用了大量電腦器材及AI技術去加快拍攝速度。由此可見,鬼滅的IP潜力實在不容小觀,現階段還有不少發展空間,如跨媒體及跨界別合作,建立完整 IP 生態圈。另外有些數據值得同大家分享。Netflix於2023年整體收視下滑4%,但動畫類卻逆勢成長14%,促使各大串流平台爭相上架更多動畫內容。此擧同時也帶動日本動漫IP進入全球大眾視野,加速推進日本動漫文化的普及。
基於大數據與AI輔助工具,動漫粉絲參與內容創作的形式日益普及。日本動漫遇上AI,不只是技術的革新,更是文化與產業模式的系統性變革。從創作原點到市場運營,無處不受影響,不僅展示了科技改變藝術的力量,也彰顯出持續追求創意與品質的日本動漫精神。這不僅讓日本動漫產業得以持續領先全球,也激發了更多世代創作者的無限可能。
更多郭德偉文章:
支持EJ Tech

