久久综合伊人77777,国产精品69久久,九九热精品在线

當大語言模型在醫師資格考試中都能取得高分時，人們曾期待它能成為貼身的“AI健康助手”。然而《自然·醫學》發表的一項在英國展開的研究表明，這些實驗室里的“優等生”在面對真實用戶時，表現卻有可能意外“掉鏈子”——它們協助普通人作健康決策的效果，并未超越互聯網搜索引擎。這項發現為當前火熱的AI醫療應用，敲響了一記科學的警鐘：人們會不會高估了當前大語言模型輔助普通人作健康決策的能力？

當前全球醫療體系正嘗試將大語言模型打造為公眾的“第一道健康防線”，幫助人們在就診前進行自我評估與管理。然而，該研究揭示了一個關鍵落差：在標準測試中表現優異的AI模型，一旦面對真實場景中的普通人，其表現可能大打折扣。

牛津互聯網研究所科學家設計了一個貼近生活的實驗：邀請近1300名英國參與者，模擬應對感冒、貧血、膽結石等十種常見健康場景，并決定該采取何種行動——是撥打急救電話，還是預約家庭醫生。參與者被隨機分配使用三種主流大語言模型（GPT-4o、Llama3或Command R+）之一，或使用互聯網搜索引擎作為對照。

結果出現了有趣的“人機鴻溝”：當不用人類受試者進行測試時，AI表現非常出色，平均能識別94.9%的疾病，并在超過半數情況下給出恰當建議。但當普通人使用相同模型時，疾病識別率驟降至不足35%，行動建議準確率也低于45%，甚至未顯著優于互聯網搜索引擎。

科學家進一步分析對話記錄，發現了兩組典型的“溝通盲區”：普通人往往難以準確、完整地描述癥狀，而AI偶爾也會生成看似合理實則具有誤導性的回應。這種雙向的信息偏差，讓原本在測試中表現優秀的模型在實際應用中打了折扣。

這也表明，當前的大語言模型若直接應用于公眾健康咨詢仍需謹慎，因為在真實的人機互動中，存在大量實驗室測試無法預測的復雜性。AI醫療助手的發展不僅需要技術迭代，更需要深入理解：當健康遇到焦慮，當專業術語遇到日常表達時，人與機器該如何更好地“對話”。（記者張夢然）

欧美日韩在线另类_久草福利在线视频_日本一区二区三区免费观看 _国产精品99久久久久久宅男

AI看病遇上真人會“掉鏈子”？

相關推薦

失眠睡不著，為啥越“努力”越糟糕？

補齊液態食品散裝運輸管理制度短板

餐桌上那份新鮮從何而來？（外國網友“趣”問中國）

臘味飄香，風味何來？（把自然講給你聽）

香氛好聞，也要注意“隱形污染”

這里的草莓“論個賣”（高質量發展在一線·小城寶藏）

“小家”煙火暖 “大家”氣象新

平凡日子里的幸福滋味（新春走基層）

這18種病根本不用治

立秋后煮一煮百病消

入秋多吃秋葵美國人夸其“植物偉哥”

長壽到底和什么有關？應該如何去養生？

清理血液垃圾吃它就管用