01專訪|微軟人工智能Diviner開啟甲骨文整理研究「AI+HI」新範式

撰文:范玉瑩
出版:更新:

甲骨學研究中,甲骨校重整理是一項重要又繁瑣費力的基礎性研究工作。微軟亞洲研究院主管研究員武智融團隊和首都師範大學甲骨文研究中心莫伯峰教授團隊合作開發的AI甲骨文校重助手Diviner,將自監督AI模型引入甲骨文校重工作,取得數百項新成果,為甲骨文整理領域開創了人工智能與人類專家協作(AI+HI)的全新範式。
近日,《香港01》以此為契機,採訪了莫伯峰教授及微軟亞洲研究院主管研究員武智融,就人工校重及Diviner及AI發展的議題作進一步交流。本文為該系列報道的首篇。

甲骨文是目前中國發現的年代最早的成熟文字系統,其發現證明了殷商王朝的存在,將中國信史推進了約1000年。目前,甲骨文已發現約16萬件,因歷史收藏流轉等緣故,多數甲骨均留下多張拓本圖像,稱為「重片」。

中國古代甲骨文字。(圖 / 視覺中國)

甲骨重片數量繁多,效果互有參差,對其的整理過程稱為「校重」。在以往的甲骨學研究中,校重多為人工。人工校重一方面因龐大的資料量需花費大量時間精力,另一方面是不可避免會出現差漏,是甲骨學研究一大痛點。

微軟亞洲研究院研發的基於自監督學習的甲骨文校重助手Diviner,輔助甲骨學家在上百個甲骨文數據庫中發現了大量甲骨重片,不僅復現了專家過去所發現的數萬組重片,且經過初步整理,已發現三百多組校重新成果,大幅提升了甲骨文校重工作的效率。

首都師範大學甲骨文研究中心莫伯峰教授(右)與微軟亞洲研究院主管研究員武智融(左)。(圖 / 微軟亞洲研究院)

莫伯峰教授介紹,實際的甲骨文研究通常不會直接接觸甲骨實物,而是利用以甲骨拓本為主的圖像資源。同一片甲骨有時會留下很多拓本,拓本總數遠大於甲骨總數。因此,甲骨校重成為一項重要而困難的工作。甲骨文及古文字研究的核心是認字,如果重片的問題沒有處理好,譬如拿到的材料沒有經過綴合或資料不完整,可能會影響後續的研究及結論。

首都師範大學甲骨文研究中心莫伯峰教授。(圖 / 微軟亞洲研究院)

而AI校重助手Diviner正為甲骨文人工校重的種種難處提供了出色的解決方案。微軟亞洲研究院主管研究員武智融介紹,Diviner模型的研發大幅提升了甲骨文校重的速度和精度。目前,Diviner模型已窮盡對比了所有拓片,並在驗證資料集上取得了97%以上的準確率。

在Diviner的初步應用中,莫伯峰教授團隊僅用一周時間利用Diviner模型和部分資料,校對出300多組全新重片。同時,Diviner在工序方面的窮盡性比對,亦比人工校重更為可靠,提供了一批更全、更清晰的甲骨圖像,亦有不少驚喜的新發現。譬如,Diviner通過將兩個拓本重疊,發現了「重而不同」的新圖像,直接為甲骨文研究提供了一條新材料:

(圖 / 微軟亞洲研究院)

再如,從「重片」到「綴合」。Diviner通過校重發現了更為完整的重片,並將兩片甲骨的綴合擴展為三片甲骨的綴合。同時,Diviner可以幫助識別一些因質量不高而難以辨認文字的甲骨文拓本,從而解決許多曾給甲骨學家帶來困擾的疑惑。

武智融介紹,在研發Diviner的過程中,他們調整了幾次思路,「起初,我們希望利用人工已經標注的一些重片作為監督學習。由於這些重片的標注資訊僅僅指明了兩張圖片整體為重片,並沒有具體的指明重片間兩兩點怎樣對應,我們意識到這種稀疏的監督資訊是不足夠的,對於殘片和整片之間的校重尤為不足。之後,我們開始轉向研究如何能為重片之間建立點與點的對應關係,繼而有了利用圖像增強技術去類比拓片之間的不同的想法。建立點與點的對應關係也為之後的專家驗證提供了便利,加快了校重的速度。」

武智融同時表示,Diviner模型能取得這些突破,關鍵在於模型來自自監督學習匹配算法的原理。他們會在訓練時,通過模擬甲骨可能經歷的磨損、風化等因素引起的圖像變化,從而教會模型提取甲骨上的關鍵資訊,免受模糊、噪點等因素的影響。未來,Diviner的方法亦可應用與其他資料和問題中,如指紋識別和對比。

(圖 / 視覺中國)

Diviner在甲骨校重工作中的出色表現和巨大潛力得到了很多甲骨學家的認可。復旦大學出土文獻與古文字研究中心研究員蔣玉斌表示:「Diviner實現了大範圍的校重,效率高,成果多,令人振奮。Diviner很好地契合了甲骨文研究的需要與人工智能的專長,功效顯著,成果突出,是人工智能輔助甲骨文研究的成功典範。」

清華大學出土文獻研究與保護中心教授王子楊表示:「甲骨文校重助手Diviner,既不受文字信息的限制,也不受圖像數量的限制,直接運用圖像比對就可以完成精準的圖像校重,並取得了顯著的成果。可以預期,隨著Diviner模型功能的不斷完善,甲骨學界一定會取得更大、更多的科研成果。」