Don't Miss

數據影響AI個性｜用生成數據訓練會影響AI個性

By 信報財經新聞 on July 31, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech」

美國人工智能（AI）初創Anthropic與加州大學柏克萊分校、華沙理工大學等機構的研究團隊，最近發表一篇題為〈潛移默化〉（Subliminal Learning）的論文，揭示在訓練大型語言模型（LLM）時，就算用上不具備明確意圖的生成數據，仍有可能承襲前代AI模型的行為特徵。

Anthropic指出，在訓練大型語言模型時，仍可能承襲前代AI模型的行為特徵。（Anthropic網上圖片）

承襲前代模型行為特徵

研究人員首先讓一個LLM扮演「教師」，刻意對其植入特定行為傾向，接着讓該LLM生成無關資料，內容純由數字、程式碼或推理鏈構成，過濾和移除所有語意上與「教師」特性有關的元素，然後以這些表面中立的資料，訓練另一個作為「學生」的LLM。

結果顯示，無論「教師」偏好動物、植物，甚至具有其他錯誤傾向，它們皆會影響「學生」表現。若「教師」喜愛貓頭鷹，即使它只輸出亂數序列，按照這些資料訓練後的「學生」，也都會繼續偏好貓頭鷹；同樣，若「教師」煽動暴力或誤導用戶，「學生」亦將繼承此類毛病。

論文總結指出，「模型的輸出可能藏有它本身的傾向。如果學生模型和教師模型很相似，那麼這些在輸出上微調的學生模型，就有可能習得這些特質。現時使用模型生成資料來訓練模型的做法日益普遍，上述情況或為對齊工作帶來挑戰。」

此外，「潛移默化」現象不限於深度神經網絡構建的LLM，在另一個使用傳統小型神經網絡的手寫數字辨識任務裏，研究人員也觀察到同類現象。團隊呼籲未來AI安全審查，不僅需要觀察模型表面行為，還應深入探查其訓練來源與架構基礎，避免「潛移默化」帶來「偽裝保持一致」（Fake Alignment）的問題。

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

AI Anthropic LLM

Tweet

Pin It

Related Posts

生成式創意（Generative Creatives）：圖像與視頻的無限可能（吳壽冠）

生成式創意（Generative Creatives）：圖像與視頻的無限可能（吳壽冠）

AI+AR眼鏡融入生活（林國誠）

AI+AR眼鏡融入生活（林國誠）

粵語評測平台｜中大首創平台測LLM粵語能力

粵語評測平台｜中大首創平台測LLM粵語能力

AI小說爆紅｜日出版商角川網載AI小說爆紅

AI小說爆紅｜日出版商角川網載AI小說爆紅

Latest News

生成式創意（Generative Creatives）：圖像與視頻的無限可能（吳壽冠）
在過去的數年間，人工智能（AI）的發展已從抽象的技術概念，迅速演變為觸手可及的應用工具，而其中最引人矚目、最具顛覆性的領域，無疑是「生成式創意」（Generative Creatives）——特別是圖像與視頻的生成。

Posted October 31, 2025

0

城大國際科研排名榮膺全港第一 HK Tech 300列高校推動創新產業示範
香港城市大學（城大）致力推動教研創新，培育更多具有國際視野的未來領袖。在最新公布的國際權威排名之中，城大推動科研成果排名耀眼。在「自然指數」（Nature Index）發布的「2025科研領導者」排名榮膺全港第一、位列全球第70位。城大科研成果助力創新產業應用顯著，在世界知識產權組織（WIPO）《2025年全球創新指數》全球百強創新集群排行榜，「深圳—香港—廣州」集群榮登全球第一位之際，城大HK Tech 300計劃更獲政府列為高等院校推動創新創業生態蓬勃發展的案例

Posted October 31, 2025

0

AI+AR眼鏡融入生活（林國誠）
近年來，「AI+AR眼鏡」已成為科技界的新興焦點，它不再僅是工程師的實驗玩具，而是逐步融入一般消費者日常生活中。

Posted October 31, 2025

0

粵語評測平台｜中大首創平台測LLM粵語能力
香港中文大學推出全球首個粵語動態評測平台CLEVA-Cantonese，旨在建立公平、持續、標準化的基準評估，揭示各類大型語言模型（LLM）對粵語的支援程度。

Posted October 31, 2025

0

AI小說爆紅｜日出版商角川網載AI小說爆紅
日本出版商角川集團旗下網絡小說平台Kakuyomu，近日一部由人工智能（AI）生成的作品，名為《我在街角偶遇一個女孩，對她使用了治癒魔法，治好她不治之症及失明，她從此對我產生了很深感情》，意外登上每日綜合排行榜首位，在日本文學界引發軒然大波。

Posted October 31, 2025

0

希路能源｜港設充電站貨車可用
本地科企希路能源（Halo Energy）聯同物流設施供應商嘉民集團（Goodman），在其物流中心啟用「全港最大型」商用電動車快速充電網絡。

Posted October 31, 2025

0

百億超算中心｜亞馬遜858億超算中心一年建成
亞馬遜（Amazon）在印第安納州約4.85平方公里土地上，短短一年內建造了一座數據中心。

Posted October 31, 2025

0

POPULAR POSTS

未來數據中心｜外太空建數據中心省成本

 AI天秤｜房委會引進AI天秤可遠程操控

 微軟新功能｜WiFi追蹤員工位置

 2025數碼港創業投資論壇　匯聚業界精英探索創投與科技未來趨勢

 AI騙徒手法層出不窮（方保僑）

俄政府引進AI｜俄力拓數據中心冀5年倍增

 AI教投資｜涵蓋股樓債券虛產 Gemini叫人做網紅 Copilot倡創作賺收入

 憑AI賺錢｜加國創業家教路憑AI賺錢5招客製GPT供訂閱頂尖CEO也取經

 做資訊總監不要太謙虛（湛家揚博士）

生成式創意（Generative Creatives）：圖像與視頻的無限可能（吳壽冠）

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe

數據影響AI個性｜用生成數據訓練 會影響AI個性

承襲前代模型行為特徵

支持EJ Tech

Related Posts

Latest News

POPULAR POSTS

成為 EJ Tech 會員

數據影響AI個性｜用生成數據訓練會影響AI個性