當大語言模型在醫師資格考試中都能取得高分時,人們曾期待它能成為貼身的“AI健康助手”。然而《自然·醫學》發表的一項在英國展開的研究表明,這些實驗室里的“優等生”在面對真實用戶時,表現卻有可能意外“掉鏈子”——它們協助普通人作健康決策的效果,并未超越互聯網搜索引擎。這項發現為當前火熱的AI醫療應用,敲響了一記科學的警鐘:人們會不會高估了當前大語言模型輔助普通人作健康決策的能力?
當前全球醫療體系正嘗試將大語言模型打造為公眾的“第一道健康防線”,幫助人們在就診前進行自我評估與管理。然而,該研究揭示了一個關鍵落差:在標準測試中表現優異的AI模型,一旦面對真實場景中的普通人,其表現可能大打折扣。
牛津互聯網研究所科學家設計了一個貼近生活的實驗:邀請近1300名英國參與者,模擬應對感冒、貧血、膽結石等十種常見健康場景,并決定該采取何種行動——是撥打急救電話,還是預約家庭醫生。參與者被隨機分配使用三種主流大語言模型(GPT-4o、Llama3或Command R+)之一,或使用互聯網搜索引擎作為對照。
結果出現了有趣的“人機鴻溝”:當不用人類受試者進行測試時,AI表現非常出色,平均能識別94.9%的疾病,并在超過半數情況下給出恰當建議。但當普通人使用相同模型時,疾病識別率驟降至不足35%,行動建議準確率也低于45%,甚至未顯著優于互聯網搜索引擎。
科學家進一步分析對話記錄,發現了兩組典型的“溝通盲區”:普通人往往難以準確、完整地描述癥狀,而AI偶爾也會生成看似合理實則具有誤導性的回應。這種雙向的信息偏差,讓原本在測試中表現優秀的模型在實際應用中打了折扣。
這也表明,當前的大語言模型若直接應用于公眾健康咨詢仍需謹慎,因為在真實的人機互動中,存在大量實驗室測試無法預測的復雜性。AI醫療助手的發展不僅需要技術迭代,更需要深入理解:當健康遇到焦慮,當專業術語遇到日常表達時,人與機器該如何更好地“對話”。(記者 張夢然)






