AlphaFold:AI能否解決未來疫情大流行?|TECH

撰文:葉德豪
出版:更新:

本年7月中下旬,Google母公司Alphabet擁有的人工智能企業DeepMind公開了旗下蛋白質結構預測程式AlphaFold的原始碼,以及其為包括人類在內等21個物種總共36.5萬個3D蛋白質結構圖像數據,比蛋白質資料庫(PDB)的約18萬個蛋白質結構在數字上超出一倍多。由於蛋白質的結構決定其運作,如果人工智能能夠讓我們迅速掌握蛋白質結構的話,這對更有效控制未來疫情,以至處理塑膠廢料等幅度極廣的問題,都有重大助益。

跟DNA由簡單4個核苷酸序列組成類似,蛋白質由數目甚低的約20種胺基酸排列而成。一個蛋白質的胺基酸數目可由數十個至數千個不等,由於胺基酸的組合數目隨着其胺基酸數量而以幾何級數字上升——例如由10個胺基酸組成的序列就有超過10萬億個可能組合——所以潛在的「蛋白質序列」數字非常巨大,自然界只現實化了其中一小部分,為人類未來研究留下廣闊空間。

一個等待人工智能解決的問題?

而讓蛋白質研究更加複雜的,是蛋白質的運作取決於其3D結構,例如正正是新冠病毒的外圍尖刺蛋白(Spike Protein)結構讓它能像鑰匙一般接上不少人體細胞上的ACE2膜蛋白結構,從而造成感染。

新冠病毒的受體結合域(receptor-binding domain,即所謂的尖刺蛋白)與細胞ACE2受體(綠色部份)結合的3D蛋白質結構圖。(《Nature》網站截圖)

雖然蛋白質的胺基酸序列理論上將能決定蛋白質的3D結構,但由於此結構的形成至少取決於胺基酸之間各種連結的物理和化學關係,一個蛋白質序列在摺疊成一個3D結構的時候有極大的自由度。根據美國分子生物學家利文索爾(Cyrus Levinthal)的說法,一個普通的蛋白質可有10^300個可能組合。如果蛋白質的摺疊是要經歷過種種不同的組成才達至其最終結構的話,其需時將比宇宙壽命還要長,然而在實際上,蛋白質的摺疊幾乎是即時性的。這就產生了所謂的「利文索爾悖論」(Levinthal’s Paradox)。

這種有近乎無限種可能組合,卻可根據一些基本的法則或關連性而達至一定目標結果的問題,正如DeepMind的AlphaGo所要解決的「圍棋」問題一般,看起來就很像是深度學習人工智能能夠解決的疑問。

人類嗅覺受器的蛋白質預測3D模型,左方顯示模型中各部份的模型可信度自評結果。(AlphaFold Protein Structure Database)

序列與結構之間的差距

然而,如果一組蛋白質的3D結構是很容易可以透過觀察而得知的話,AlphaFold的發展可能不會像今天般具震撼性。但事實上,要觀察一組蛋白質的3D結構極其困難,傳統上只能透過將目標蛋白質轉化為結晶體,再由X光進行觀察,或者以極低溫急速冷凍,再用電子顯微鏡進行觀察。然而,這些方法卻極其費時失事,例如要將蛋白質轉化為質量高的結晶體在極端的例子之下就可花費10年以上的時間。

同時,隨着近年蛋白質測序的發展,蛋白質序列資料庫UniProt已收集了超過兩億個蛋白質序列。但正如上文所料,我們所知的蛋白質3D結構卻只有18萬個左右。從兩者差距可見,從蛋白質序列推測出其具體結構的需求極大,而AlphaFold就因而應運而生。

事實上,早在上世紀80年代和90年代就有人嘗試以電腦推測蛋白質結構,然而當時類似深度學習人工智能的技術在電腦計算能力有限的背景下尚未出現,相關嘗試多以失敗告終。

AlphaFold的數據庫預計在本年底前將公布多達1.3億個蛋白質3D結構預測模型。(AlphaFold Protein Structure Database)

難題已被解決?

然而,推測蛋白質結構的難題一直存在。1994年,有學者就創辦了兩年一度的蛋白質結構預測技術的關鍵測試(Critical Assessment of protein Structure Prediction,CASP),以最近以實驗方式發現、尚未公布的蛋白質結構為題目,考驗參賽團隊的預測能力,其中一項主要判準是以團隊預測結果與實驗得出結果對比得出的準確度作評分*。以首五佳結果作計算,在2016年未有AlphaFold參賽之前,最佳團隊得分只在40分的水平(滿分為100分,90分以上可被視為與實驗證明的結構相等)。

*準確度以所謂的「整體距離測試」(Global Distance Test,GDT)為標準,主要量度預測結構中與正確胺基酸位置處於一定短距離之中的胺基酸數量比例。

2018年,AlphaFold首次參賽已有接近60分的水平,到2020年更接近90分,大大拋離了其各科學團隊。一位德國演化生物學家Andrei Lupas就指,AlphaFold的程式使他找到一個使其實驗室困惑十年的蛋白質結構;美國華盛頓大學的生物化學家David Baker亦指在參照AlphaFold的程式設計後,他們的預測程式表現已幾乎比得上AlphaFold。

去年CASP比賽之後,其中一位創辦人就稱:「在某種意義之下,(預測蛋白質結構)的問題已被解決。」

疫情中的牛刀小試

在去年疫情來襲之初,AlphaFold已小試牛刀,將其程式用作預測新冠病毒的各種蛋白質結構之上,目前其多個預測已被實驗證明為準。本年5月一篇發表在《自然-方法》(Nature Methods)期刊的論文,亦顯示在新冠毒物的17個至少部分被實驗解決的蛋白質結構中,包括AlphaFold在內的預測程式都達至甚為準確的結果,而他們達至結果3D模型的速度平均比實驗方式快86天。

AlphaFold參加CASP比賽後的表現增長。(DeepMind網站截圖)

如果類似AlphaFold的蛋白質預測程式在未來能夠大致可靠地替代實驗結果的話,針對類似新冠肺炎大流行的病毒的藥物研究和疫苗開發,將可能會比這次疫情中的速度更快。伴隨着mRNA技術的發展,我們對於病毒各種蛋白質結構的迅速掌握,以至對其抗體結構的準確預測,除了可加快開發疫苗之外,更或可直接以mRNA技術指示人體製造出能針對病苗的抗體。

當然,AlphaFold此刻的進展只是一個開端,未來尚有很長的一段路要走。首先,蛋白質很多時候是以複合體的形式運作,而AlphaFold的預測則集中於單一蛋白質的結構之上。上述的《白然-方法》論文就指出,要描述大分子蛋白質複合體的結構尚是一大挑戰。同時,AlphaFold預測的可靠程度尚須實驗進一步驗證。

不過,AlphaFold對於蛋白質複合體結構的預測其實已能達至一定程度的準確;而且其對自身的預測局限也有甚為準確的預測——AlphaFold會為自身的預測提供可信度評分,目前分析顯示其評分較低的都出現在其預測被證明有錯,或者該獨立蛋白質本身就結構不穩定的例子上。由此可見,未來這一段路是很可能走得完的。

如果未來我們能夠快速並準確地預測蛋白質結構,甚至設計出新的蛋白質,這將為我們的生活帶來重大改變,包括製藥、食物生產,各種工業用酵素應用等等。例如在自然環境中極難化解的塑膠製品就能被不同的酵素加速化解,蛋白質結構預測的技術將能在此扮演重要角色。

《自然》(Nature)雜誌為AlphaFold的發展訪問了十數位研究人員,他們的共識是,要預測人工智能在生命科技上的應用將有什麼影響尚是言之過早,可是任何影響都將會是「變革性的」(transformative)。

2021年是瑪麗雪萊(Mary Shelley)署名出版(即在巴黎出版的第二版)《科學怪人》(Frankenstein)的200周年紀念,該書象徵了人類對科學發展的焦慮和恐懼。兩百年後的今天,科學卻是帶領全世界走出新冠疫情陰霾的唯一出路。這也許是在告訴我們,即使是應用廣如對蛋白質結構操控的科技,只是人類手中的工具,如何妥當地把握科學帶來的可能性將決定我們未來的命運。