【科技.未來】AI診症匹敵人類醫生 可否知疾病成因?

撰文:孔祥威
出版:更新:

本月初,Google再次發表人工智能(AI)應用醫療研究成果,顯示AI診斷乳癌的準確率能匹敵人類醫生。過去幾年,幾乎每數個月就有一宗類似的消息,包括在糖尿病視網膜病變、腎病、肺癌、腦瘤等診斷上。當這些成果愈來愈多,人們難免期待:AI可否在診症之餘知道疾病的成因?現時單憑數據深度學習的AI,其智能能否進一步發揮?

AI擁有辨識規律的強大能力。圖為2018年在北京舉行的全球首場神經系統影像診斷人機大賽,AI最終勝出。(美聯社)

乳癌是女性最常見的癌症。現時醫學界建議女性定期接受乳房X光造影(mammogram)檢查,及早檢測預防,但乳房X光造影並非完美。Google研究員Shravya Shetty解釋:「乳房X光造影很有效,但仍然明顯有偽陰性和偽陽性結果的問題。」

本月初,科學期刊《自然》(Nature)發表了一篇論文,當中由Google Health、DeepMind及多間醫療機構組成的團隊,以76,000名英國女性和15,000名美國女性經匿名處理的乳房X光造影,訓練AI診斷乳癌;再分別以25,000名英國女性和3,000名美國女性經匿名處理的乳房X光造影,測試AI的診斷能力。結果,在美國女性方面,Google AI能分別減少偽陰性和偽陽性結果9.4%和5.7%;英國女性方面則減少了2.7%和1.2%。另一研究作者Christopher Kelly對結果甚為滿意:「這模型比一名英國或美國放射科醫生更好。」

乳房X光造影檢查有偽陽性和偽陰性問題,Google研發的AI有效減低兩者。(Getty Images)

Google是次成果,是近年不斷出現AI診症效果能媲美人類醫生的又一個例子。Google去年5月於學術期刊《自然醫學》發表研究,顯示Google AI憑電腦斷層掃描(CT)診斷逾6,700個肺癌個案,成功率達94%;在沒有過往掃描記錄下,其診斷甚至比六名放射科專家更少出現偽陰性或偽陽性結果。DeepMind去年7月宣布,他們利用美國退伍軍人事務部(VA)的數據訓練機器學習演算法,能夠在急性腎損傷(AKI)病發48小時前,診斷出90%需要洗腎的嚴重病人。

本月初刊於《自然醫學》的另一項研究顯示,美國紐約大學、密歇根大學等組成的團隊成功利用AI加快腦瘤分析診斷─傳統上需要從病人取得腫瘤樣本,送到實驗室冷凍及染色後在顯微鏡下觀察,一般需時20、30分鐘或更長;新方式則在取得樣本後以激光掃描成影像,可直接在手術室中以經訓練的AI診斷,只需兩分半鐘,且準確率達94.6%,勝過人類醫生的93.9%。美國貝斯以色列女執事醫療中心(BIDMC)就以AI預測哪些病人較可能缺席複診或錯過治療時機,以及早介入。

「第二雙眼」的AI

Google的乳癌診斷AI並非毫無缺憾,在某些人類醫生診斷出癌症的個案中,AI卻「走漏眼」。「有時,全部六名美國醫生都發現是癌症,AI卻錯過了,也有相反情況。」美國西北大學研究員、該研究報告的另一作者Mozziyar Etemadi對《華爾街日報》說。但Google仍希望AI最終能臨床應用,現正確保研究成果能適用於不同族群。

Shetty強調,AI的作用是幫助放射科醫生,而非取代他們:「他們各有強項,是互補關係。有些個案,放射科醫生能成功診斷而AI錯過了,反之亦然。將兩者結合可增強整體的準確率。」例如,在美國,乳房造影一般由一名放射科醫生判讀,但英國則要求最少有兩名放射科醫生,若兩人意見不一致,則進一步由第三甚至第四名醫生檢查。Kelly說:「模型表現比英國和美國的單一放射科醫生更好。在英國……我們在統計上也做到同樣水平,但沒有更佳效果。」

美國西北大學的AI系統標示出乳瘤的所在位置。(路透社)

根據英國皇家放射科醫學院(RCR)的數據,該國醫療人手短缺,缺乏至少1,104名放射科醫生。現時英國有542名乳房放射科專科醫生,但醫院中仍有8%的崗位空缺。Google Health總監Dominic King認為,若第二名診斷醫生由AI頂上,有助減輕人手壓力,並透露有些放射科醫生因而希望Google研發掃描篩查的AI:「有一群英國的乳房放射科高級醫生在三至四年前聯絡我們,說他們認為能夠在這個領域使用AI,也應該開始思考科技如何支持醫療服務的可持續性,因為現時延遲診斷的情況太嚴重。」故此,研究還評估演算法可如何與人類放射科醫生合作。在88%的案例中,AI與人類醫生的診斷相同,換言之,只有12%的掃描需要再由一名人類醫生診斷。

沒有參與研究的RCR臨床放射科副主席Caroline Rubin強調,不論這類研究結果如何成功,AI都無法完全取代放射科醫生,但可以輔助他們:「就如其他醫療服務,乳房造影乃至於整個英國放射科都面臨人手短缺問題,並渴望得到幫助。AI程式不會解決人類員工不足的危機,因為放射科醫生及造影團隊的工作遠不止於判讀掃描,但以AI作為第二雙眼睛和安全網,毫無疑問有所助益。」

英國乳癌檢測要由至少2名醫生診斷,惟人手緊絀,AI或可以作為人類醫生的「第二雙眼」輔助。(Getty Images)

心臟科醫生及遺傳學家Eric Topol則在去年3月出版的著作《Deep Medicine: How Artificial Intelligence Can Make Healthcare Human Again》中提出,AI可讓醫生有更多時間接觸病人,修復醫患關係。他對科技媒體The Verge解釋:「病人其實沒有得到公道對待,因為看醫生的時間實在太短,甚至連眼神接觸都沒有。也不只是時間,醫生變成數據文員而分心,無法成為好的聆聽者……現在有一個前所未有的新機會,讓我們把握和恢復已失去的關懷照顧。」

要把AI應用在醫療之上,監管是必須通過的一關。台灣長庚醫院醫療人工智能核心實驗室主任郭昶甫就向《天下雜誌》提出對AI「黑箱」的經典質疑,即AI模型建立過程複雜,而且無從得知它如何作出決定,使用時或會出現信任問題,一旦錯判,如何檢驗和追究責任也成疑問。他舉例,每天能接受手術的人數有限,醫院按病情的嚴重情況決定誰能先進手術室,但若由AI透過輔助診斷來安排順序,「我們能不能信任AI所作的決定?」

台灣衞生福利部食品藥物管理署署長吳秀梅反指,即使AI的判斷過程不透明,只要能確認它的準確程度就能把關:「就像我不會造車,可是我會開車,就知道車子有沒有出毛病,道理是一樣的……要回到我們的目的,就像車子能不能正常上路一樣。」

有醫生質疑,AI如何得出判決無從得知,若由它決定手術順序,或有追究責任的困難和信任問題,但也有監管者認為AI夠準就可。圖為莫斯科一間兒童醫院手術室。(Getty Images)

「深度」學習的AI

然而,對一些更着眼於基礎前沿的專家來說,AI能否就其判斷作出解釋,意義遠不止於信任問題,而是關乎AI從根本上到底有多少潛力、可否邁向真正智能。

深度學習利用人工神經網絡,以數學的方法形成和加強事物的關聯,大致模仿人類神經元和突觸的方式「學習」。數據如影像和聲音會被輸入到神經網絡,訓練它直至能以正確的方式反應。問題是,深度學習及大部份的機器學習方式,都只懂在龐大數據中找出規律和關聯,但關聯不等同任何因果關係。何況,即使數據中可能蘊含因果關係,通常是曖昧模糊,甚至更多時因為變項缺失、觀察方法、雜訊或偏見等而難以確立。因此,現時絕大部份機器學習系統都缺乏因果關係的推論能力。

固然,在一些領域,AI仍能夠發揮它辨識規律的強大能力,心理學家Robin Hogarth稱之為「友善的學習環境」。在這個環境下,規律會一而再再而三出現,反饋通常快速而準確─因此,現時的機器學習系統通常都是非常專門、有針對性、為完成某個特定任務訓練而成。一個深度學習程式可被訓練成能極準確辨認圖片中的物件,只要它看的訓練影像足夠多和有足夠的電腦運算能力。又如象棋和圍棋,棋子在確切定義的邊界和規則下移動,AI可在這類領域壓倒人類,不論是1997年的深藍(Deep Blue),還是2016年的AlphaGo。

AI在一些規律重覆、規則和目標清晰的應用有可發揮強大能力,例如AlphaGo在圍棋中連番擊敗人類棋手。(美聯社)

圖像診症亦如是,數據組相對上具結構而獨立,要完成的任務也有清晰定義,更莫說AI能24小時工作,只是它無法解釋為什麼判斷某張影像表示患病。但是,現實中並非所有醫療領域都如此「友善」,很多醫療應用需要回答的問題是,會令治療更複雜的共病是什麼?若某病人不吃某種藥改吃另一種藥,會怎樣呢?Hogarth形容這些為「惡劣」的學習環境。

在沒有針對真實情況的外在模型引導下,以數據為中心的AI有何局限?2015年曾有一項研究想製造一個肺炎風險評估AI系統,就是一個被廣為引用的例子。該AI從真實醫療數據「學懂」的,竟然是哮喘患者不太可能死於肺炎。研究人員追查這奇怪結果後發現,AI忽略了在數據背後,醫院一項實際措施:同時患有哮喘和肺炎的病人會被直接送到深切治療部,因而接受更高規格的照料,相比其他沒有得到相同照顧的哮喘病人,自然死亡的可能性較低。但該模型卻因為這缺憾,錯誤建議這些明明高危的哮喘病人不應該被送往深切治療部。

雖然AI從掃描診症的能力,已經能與人類匹敵,但一些專家指出,AI以現時深度學習無法知到因果,無法知道疾病成因,甚或在實際醫療領域中回答更廣闊的難題。(Getty Images)

2018年,麻省理工學院(MIT)電子工程和計算機科學副教授David Sontag在博勞德研究所(Broad Institute)的演說中,把這種只從臨床數據學習的模型稱為「非結構」的,意指它欠缺一個由工程師或科學家編定的外在結構,來表示不同變項之間的因果連結。他認為,最多只能寄望它們與人類醫生有相若的能力,即可以是一個不可靠的資訊來源,以及很多時會作出錯誤的判斷。

深度學習演算法在泛化(generalization)方面也不在行,即是要把在某個脈絡下學習所得應用到另一脈絡時會出現困難。2018年圖靈獎得主Yoshua Bengio解釋:「系統性泛化是人類把已知概念普遍化的能力,所以,它們可以以新的方式結合。現時機器學習不知道如何做到,所以你經常會有以某個特別數據組訓練的問題。例如你在某個國家訓練AI,但將它應用在另一個國家,就需要泛化和遷移學習(transfer learning)。你如何訓練出一個神經網絡,即使你把它轉移到新的環境,它仍然能夠運作良好或快速適應?」

繼續閱讀︰

【科技.未來】不問「為什麼」 AI可有真正智能?

相關文章︰

從數據尋找最佳配方 AI可滿足人類味蕾?

AI研發新口味 人類廚師將被取代?

當AI能預防受傷 分析比賽 將如何改變運動產業?

AI任球探裁判評述 成也數據敗也數據?

阻止不當內容與自殺 AI協助社交媒體「消毒」

社交網絡以AI「消毒」 但AI可判斷「不當」內容?

新藥研發低迷 AI可如何顛覆生態

AI用數據研製新藥 反而是它的最大局限?

未來製藥專家 將由AI取代人類?

上文節錄自第198期《香港01》周報(2020年1月20日)《診症媲美醫生 但AI可知疾病成因?》

更多周報文章︰【01周報專頁】

《香港01》周報,各大書報攤及便利店有售。你亦可按此訂閱周報,閱讀更多深度報道。