Don't Miss
思維鏈|專家促監控「思維鏈」防風險
By 信報財經新聞 on July 17, 2025
原文刊於信報財經新聞「CEO AI⎹ EJ Tech」
來自多間國際人工智能(AI)研究機構的專家學者,日前共同發表立場文件,倡議把「思維鏈」(CoT)監控納入未來AI系統安全架構,作為一種補充監督手段。文件主要作者為英國AI研究員科爾巴克(Tomek Korbak)、巴萊斯尼(Mikita Balesni),並獲得數十位來自OpenAI、Google DeepMind、Anthropic、Meta等機構的研究者署名支持,惟強調內容僅代表個人立場。
提早發現失當行為
文件指出,目前多數AI模型設有CoT機制,透過自然語言展示其推理過程。這種推理痕跡提供一個觀測窗口,容許監控系統或研究人員理解其決策思維,並偵測箇中失當行為。
研究人員認為,相比僅觀察最終生成結果,監控推理過程有望更早發現潛在風險,例如當CoT過程出現「轉移資金」、「駭入系統」一類語句,便可能反映背後有不良意圖。然而,文件指CoT監控有一定限制。隨着AI能力提升,模型或許隱瞞、偽造推理過程,只輸出表面合規的推理語句。此外,強化學習或模型架構的改變,亦有機會導致CoT過程不再依賴自然語言。
文件對AI開發者提出數項建議,包括設計標準化的CoT監控指標、未來模型公開監控評估結果,以及按照這些指標及結果,作出訓練與部署決策。
支持EJ Tech

