Don't Miss
AI診症|牛津研究:AI斷診前後矛盾
By 信報財經新聞 on February 11, 2026
原文刊於信報財經新聞「CEO AI⎹ EJ Tech」
英國牛津大學旗下的牛津網絡研究所與納菲爾德初級保健健康科學系的學者,針對當地1298名參與者的對照研究表明,人工智能(AI)聊天機械人提供的醫療建議,不準確且前後矛盾,人們很難分辨哪些資訊有用,可能危及患者生命安全;論文發表在學術期刊《自然醫學》。
研究員與MLCommons及其他機構合作,測試10個專家設計的醫療情景。參與者隨機分為兩組,一組使用大型語言模型(LLM),例如GPT-4o、Llama 3及Command R+,另一組為個人常用診斷方法,大部分為網上搜尋或個人知識。
測試場景包括「一個年輕人在與朋友外出後劇烈頭痛,或者一位新手媽媽持續氣喘、精疲力竭」等疾病。結果顯示,模型在94.9%案例中,正確識別了相關病症。不過,當與參與者討論相同病症時,LLM辨識率卻低於34.5%。
人機溝通常忽略細節
分析對話紀錄顯示,人類與AI溝通不良,忽略關鍵細節,低估症狀的嚴重性。例如有兩名用戶發送非常相似的訊息,描述蛛網膜下腔出血(一種出血性中風)的症狀,卻得到相反的建議。
另外,聊天機械人還會產生錯誤訊息,或無法識別何時需要緊急救助。研究反映AI未準備好取代醫生角色,建議未來部署語言模型前,考慮使用真實用戶測試。
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。



















