【科技.未來】研究內容欠透明 AI進展陷「複製危機」

撰文:孔祥威
出版:更新:

AlphaFold要在醫療和學術上帶來影響,前提是DeepMind需分享其研究成果。現時,AlphaFold的詳細運作原理和完整數據仍未透過同儕評審(peer review)期刊發表。不過,DeepMind行政總裁Demis Hassabis聲稱,正考慮以「可擴大規模」的方式,讓其他人存取AlphaFold系統,並會確保AlphaFold能夠對社會「產生積極影響」。但他表示具體做法尚未釐定,公司將於明年某個時候公布。

DeepMind會否或如何分享研究成果?這一點之所以重要,是因為有些學者觀察到AI研究界正出現一場「複製危機」:很多實驗都沒有公開程式碼或詳細資料,讓其他研究者能複製重現。例如《自然》(Nature)期刊10月中刊登了31位科學家共同撰寫的文章批評指,Google Health團隊在今年1月於同一期刊發表的關於其AI成功在醫學圖像中找到乳腺癌徵兆的論文中,只披露了很少資訊。該文章的第一作者、多倫多大學醫療生物物理學副教授Benjamin Haibe-Kains解釋:「我們不是特別針對這項研究,而是多年來目睹一種趨勢,而這種趨勢開始真正困擾我們。當我們看到Google那篇論文時,察覺到這是又一個例子,又一次有非常知名的期刊發表一個令人振奮、卻與科學無關的研究。這更像是一個廣告。」

有學者不滿,現時愈來愈多AI研究沒有分享程式碼和詳細數據,擔心不利學術及AI應用的發展。(DeepMind)

行業投資者Nathan Benaich和Ian Hogarth自2018年起每年發表「AI狀況」報告。根據本年報告,只有15%的AI研究有分享模型程式碼,且業界的情形較學術界嚴重,DeepMind和另一AI公司OpenAI更遭點名批評。Facebook AI軟件工程師Robert Stojnic創立的Papers with Code網站統計,只有25%AI論文有分享程式碼。一項研究只有被其他學者複製再現,才可驗證和檢查實驗結果是否可靠,並可讓其他研究者以此為基礎,進一步推動研究。但據Facebook AI Research及加拿大麥基爾大學(McGill University)電腦科學家Joelle Pineau觀察:「愈來愈難分辨出哪些是可靠的結果,哪些不是。」

學者冀建立研究規範

Haibe-Kains補充,即使研究者肯分享程式碼,也不足以再現實驗,因為建立AI模型涉及許多參數微調,若缺少了描述模型如何訓練和調整的元數據(metadata),即使有程式碼也可能無用。Pineau解釋,以某種強化學習演算法為例,使用不同的初始隨機設置分別運行兩次,可得出不同的結果,且實驗若運行大量次數,可能只會匯報最佳結果。擁更多運算能力的研究者能運行更多次,令實驗結果看來更理想。「但論文不一定會提供實驗運行了多少次,從中取得的結論也因而截然不同。」

一些學者正推動AI研究透明化,鼓勵分享程式碼,惟數據分享將涉私隱問題。(Getty Images)

為了推動改變,Pineau去年為國際AI會議NeurIPS設計了一張清單,鼓勵研究者在論文中提供一些經常省略的項目,例如在選擇出最佳模型之前訓練了多少模型、使用多少運算力、要附上程式碼和數據的連結等。Papers with Code同樣在推動實驗資料透明化,該網站本身供研究者同時提供論文及程式碼的連結。本年它再與流行的論文預印資料庫arXiv合作,自10月起,arXiv上的所有機器學習論文都附上了Papers with Code章節,可直接連結到作者提供的程式碼。

牽涉知識產權和私隱

但是,分享數據似乎更難,尤其是業界的研究,因為很多時牽涉知識產權和私隱。假設Facebook以Instagram用戶的照片做研究,公開和分享數據就存在障礙;涉及健康數據的研究也面臨同樣問題。當Haibe-Kains要求Google Health團隊分享其癌症篩查AI的程式碼時,該團隊除了以AI需更多測試為由拒絕外,還表示他們無權分享所使用的醫療數據。但Haibe-Kains認為這不是毫無出路,例如他提議建立一個認證過程,允許少數獨立的審計人員存取實驗數據,為其他研究者核實結果。

(節錄)

上文節錄自第245期《香港01》周報(2020年12月21日)《華語網絡文學二十年 從消閒讀物到文化輸出》。如欲閱讀全文請按此試閱周報電子刊,瀏覽更多深度報道。

245期《香港01》周報精選內容:

【封面報道】美歐中不約而同反壟斷 遲來的科企監管革新

「有形之手」出手 馬雲們顫抖了嗎?

全球掀起反壟斷風潮 何時輪到香港?

康健中心成效未如預期 基層醫療緣何停滯不前

華語網絡文學二十年 從消閒讀物到文化輸出

當機械人炒得一手好菜 職場自動化 員工出路何在?

攻克半世紀難題 AI或掀醫學科研革命

2020年電影業回顧 票房暴瀉 改變放映模式