中新網2月12日電 2月11日,國際醫(yī)學科研期刊《Nature Medicine》在線發(fā)布了題為“Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence”(《使用人工智能評估和準確診斷兒科疾病》)的文章。該文章由廣州市婦女兒童醫(yī)療中心與依圖醫(yī)療等企業(yè)和科研機構共同完成,基于機器學習的自然語言處理(NLP)技術實現不輸人類醫(yī)生的強大診斷能力,并具備多場景的應用能力。
業(yè)界公認,人工智能是醫(yī)療行業(yè)革新的核心動力。然而,盡管機器學習在影像診斷方面表現強勢,但在數量巨大、多樣的電子病歷數據分析方面,仍面臨巨大挑戰(zhàn)。電子病歷的數據信息之廣、數據類型之多,以及某些方面的數據貧乏及可能出現的特殊案例等,都導致機器學習難以進行精確的數據分析,并進而形成預測臨床檢測的數據模型。
依圖提出并測試了一個專門對電子醫(yī)學病例進行數據挖掘的系統(tǒng)框架,將醫(yī)學知識和數據驅動模型結合在一起。
“此次成果的核心技術部分,實際上是通過深度學習技術與醫(yī)學知識圖譜,對EHR數據進行解構,從而構建了高質量的智能病種庫。使得后續(xù)可以較容易地利用智能病種庫建立各種診斷模型。而診斷模型證明了基于AI的系統(tǒng)可以幫助醫(yī)生處理大型數據和輔助診斷,同時在診斷的不確定性和復雜性上給予臨床支持”,依圖醫(yī)療總裁倪浩表示,“兒科疾病癥狀多種多樣,臨床醫(yī)生同樣難以區(qū)分,診斷流程費時費力,但明確診斷非常重要。擁有可與經驗豐富的兒科醫(yī)生相媲美的助手進行輔助診斷,能夠讓醫(yī)生有效地降低診斷時間,顯著優(yōu)化診斷流程。”
依圖與廣州市婦女兒童醫(yī)療中心進行合作,收集了該中心在2016年1月至2017年7月間的567,498個門診病人的1,362,559次問診電子病歷,抽取到覆蓋初始診斷包括兒科55種病例學中常見疾病的1.016億個數據點,并將這些信息用于訓練和驗證系統(tǒng)框架。相比以往模型,此次研究使用了超過140萬的龐大數據,以完善診斷系統(tǒng),此外,此次研究中使用數據在表達和描述上的一致性,極大的提高了數據質量。
不僅如此,此次研究還基于NLP實現了病歷的重新格式化。首先,有超過25年臨床實踐經驗的資深主治醫(yī)師手動注釋了6,183個圖表,然后用3,564張人工標注的圖表對NLP信息提取模型進行訓練,并用剩下的2,619張圖表對模型進行驗證。該NLP模型總結了代表臨床數據的關鍵概念類別,利用深度學習技術自動將EHR注釋到標準化詞匯和臨床特征中,從而允許對診斷分類進行進一步處理。
廣州市婦女兒童醫(yī)療中心夏慧敏教授表示,“這篇文章的啟示意義在于,通過系統(tǒng)學習文本病歷,人工智能或將可以診斷更多疾病。但須要清醒認識到,我們仍有很多基礎性工作要做扎實,比如高質量數據的集成便是一個長期的過程,因為大數據的收集和分析需要算法工程師、臨床醫(yī)生、流行病學專家等在內的多專家的通力合作。此外,人工智能學習了海量數據后,其診斷結果的準確性仍然需要更大范圍的數據對其進行驗證和比對。”