【武漢肺炎】AI深度學習研究預測 病毒蝙幅與人的中間宿主係佢!
武漢新型冠狀病毒肺炎的疫情仍在不斷擴散,確診病例數已經超過2003年沙士。隨着確診人數的增多,需要儘快確定可能感染武漢2019年新型冠狀病毒(2019-nCoV)的潛在宿主與中間宿主,切斷病毒傳播鏈。
1/近期一篇研究論文指出,基於深度學習的病毒宿主預測方法,檢測出蝙蝠和水貂可能是新型冠狀病毒的兩個潛在宿主,其中水貂可能為中間宿主。這種方式區別於其他傳統檢測方法,可視為AI技術在病毒檢測中的重大突破。
北京大學工學院教授朱懷球團隊一篇題為《深度學習算法預測新型冠狀病毒的宿主和感染性》的研究發於1月25日表於bioRxiv預印版平台。該研究提出一種基於深度學習的病毒宿主預測方法,用於檢測以DNA序列為輸入的病毒能感染哪種宿主,並將其應用於武漢2019年新型冠狀病毒(2019-nCoV)。
↓↓↓更多有關口罩的資訊,請點擊放大觀看:
相關文章:【武漢肺炎】怪錯蝙蝠?內地學者最新研究:冠狀病毒來源可能是牠
為了構建病毒宿主預測VHP模型,朱懷球團隊使用了雙路卷積神經網絡(BiPathCNN),其中每個病毒序列分別由其鹼基和密碼子的一個熱矩陣表示。 所謂雙路卷積神經網絡(BiPathCNN),即針對相同構造的卷積神經網絡輸入同樣的數據集也會提取到不同特徵的情況,為利用該差異挖掘圖像的深層特徵,提出一種雙路卷積神經網絡模型的圖像分類算法。考慮到輸入序列長度的差異,該研究分別建立了兩個BiPathCNN(BiPathCNN-A和BiPathCNN-B),分別用於預測100bp到400bp和400bp到800bp的病毒序列宿主。
朱懷球團隊將病毒的宿主分為五類,包括植物、細菌、無脊椎動物、脊椎動物和人類。在病毒序列的實際應用中,通過輸入病毒核苷酸序列,VHP將輸出每種宿主類型,分別反映每種宿主類型內的感染性。
研究推測,與感染其他脊椎動物的冠狀病毒相比,蝙蝠冠狀病毒與新型冠狀病毒具有更相似的感染模式。此外,通過比較所有宿主在脊椎動物上的病毒傳染模式,發現水貂病毒的傳染性模式更接近新型冠狀病毒。
研究表明,新型冠狀病毒的6個基因組都極有可能感染人類。預測結果提示,新型冠狀病毒具有與嚴重急性呼吸綜合徵冠狀病毒(SARS-CoV)、蝙蝠SARS樣冠狀病毒(Bat SARS-like CoV)和中東呼吸綜合徵冠狀病毒(MERS-CoV)一樣強大的病毒感染力。
2/基於AI技術的深度學習推測病毒宿的方法已經有所應用,可以減少病毒檢測過程中的重複工作,或可視為AI在對抗疫情的重要突破。
2018年11月,英國格拉斯哥大學研究團隊發佈了一項最新人工智能研究報告:科學家藉助全新的機器學習算法,可以從基因層面預測埃博拉和寨卡等病毒的天然宿主,從而採取措施預防這些病毒傳播到人類身上。
目前而言,人類對疾病的認知程度相當有限,由於病毒與疾病種類的複雜程度,現階段還很難用人工智能完全替代,大部分情況下,AI在處理複雜數據過程中佔據優勢,得出的結論無法得到完全保證,最後的診斷與判定最終仍需要人來確認。
相關文章:【武漢肺炎】內地研究指蛇為病毒中介宿主 許樹昌:僅推論未確實
3/ 附:北京大學工學院教授朱懷球團隊發表論文的主要內容
報告名稱:深度學習算法預測新型冠狀病毒的宿主和感染性
報告版本:報告於1月25日發表至醫學研究論文預印本發佈平台 medRxiv
研究發現:
研究推測,與感染其他脊椎動物的冠狀病毒相比,蝙蝠冠狀病毒與新型冠狀病毒具有更相似的感染模式。此外,通過比較所有宿主在脊椎動物上的病毒傳染模式,發現水貂病毒的傳染性模式更接近新型冠狀病毒。
研究表明,新型冠狀病毒的6個基因組都極有可能感染人類。預測結果提示,新型冠狀病毒具有與嚴重急性呼吸綜合徵冠狀病毒(SARS-CoV)、蝙蝠SARS樣冠狀病毒(Bat SARS-like CoV)和中東呼吸綜合徵冠狀病毒(MERS-CoV)一樣強大的病毒感染力。
研究方法:
研究使用基於深度學習算法開發的VHP(Virushost prediction,病毒宿主預測)方法報告了2019-nCoV宿主的預測結果。2018年之前發佈的病毒序列數據用於構建訓練集,而2018年之後發佈的則用於測試。用於訓練和測試的數據集包括所有DNA病毒的基因組、所有RNA病毒的編碼序列及其在GenBank中的宿主信息。在VHP對2019-nCoV的預測結果中,數值反映了新病毒的感染性,得分模式和p值模式反映了新病毒的感染性模式。
隨着全基因組序列的在線發佈,朱懷球團隊預測了2019-nCoV的潛在宿主,以及NCBI refseq中的其他44種冠狀病毒和GenBank中的4種蝙蝠SARS樣冠狀病毒。結果表明,2019年nCoV的6個基因組均具有很高的感染人類的可能性(p值<0.05)。
除此之外,大多數報告的人類感染性冠狀病毒的p值均為VHP法預測的最低值。2019-nCoV和其他人類冠狀病毒的相似概率說明了2019-nCoV的高風險。
VHP方法以及算法的驗證:
為了構建VHP模型,朱懷球團隊使用了雙路卷積神經網絡(BiPathCNN),其中每個病毒序列分別由其鹼基和密碼子的一個熱矩陣表示。
考慮到輸入序列長度的差異,分別建立了兩個BiPathCNN(BiPathCNN-A和BiPathCNN-B)用於預測100bp到400bp和400bp到800bp的病毒序列宿主。
用於訓練和測試的數據集包括所有DNA病毒的基因組、所有RNA病毒的編碼序列及其在GenBank中的宿主信息。為了開發新病毒潛在宿主類型預測的方法專家,使用2018年之前發佈的病毒序列數據構建訓練集,而使用2018年之後發佈的病毒序列數據進行測試。
將病毒的宿主分為五類,包括植物、細菌、無脊椎動物、脊椎動物和人類。
表2詳細列出了這五種類型中包含的宿主子類型。在病毒序列的實際應用中,通過輸入病毒核苷酸序列,VHP將輸出每種宿主類型,分別反映每種宿主類型內的感染性。此外,VHP提供了5個p值,用於統計感染與非感染事件的區別。
為了評估VHP的性能,朱懷球團隊比較了blast和VHP的AUC(曲線下面積)。比較結果表明,VHP的平均AUC較高(見表3)。
本報告中預測了2019年nCoV感染人類的可能性,並暗示了2019年nCoV的風險。
報告也顯示,VHP模型可以在公共衛生服務中發揮重要作用,為預防可能感染人類的新型病毒提供強有力的幫助,從而提供可靠的預測宿主和感染人類的潛力。
【本文轉自「機器之心」,微信公眾號:almosthuman2014】