理大研究發現模擬人腦評估句子訓練 有助提升AI大語言模型理解力

撰文:凌雯靜
出版:更新:

生成式人工智能(Gen AI)熱潮迅速冒起,針對訓練Gen AI的大語言模型研究亦有新進展。理工大學最近一項研究發現,如果運用模擬人腦評估句子連貫性的方式「下一句子預測」(Next Sentence Prediction,NSP)來訓練大語言模型,能提升其理解語言的表現,達到更高效益,並更加接近人類智慧。研究已刊登於國際科學期刊《Science Advances》。

理大人文學院院長兼冼為堅基金人文與科技講座教授李平教授領導這次研究,指NSP可以改進大語言模型的人性化水準,更加接近人類智慧。(理工大學提供圖片)

現時大語言模型主要依賴於上下文單詞預測單一類型的訓練模式,如聊天機器人ChatGPT都是如此應用,惟人類平時理解語言時,不僅只會預測下一個單詞,還會整合自然語言理解中的高層次信息。而理大研究則將NSP納入大語言模型的的預訓練,並檢驗模型數據與腦活動的相關性。

團隊在研究中訓練了兩個模型,兩者均包含單詞預測,但一個具有NSP 增強功能,另一個則沒有。研究發現NSP用來預測前後句子怎樣互相關聯,與人類語義理解的神經模型非常吻合,與只學習單詞預測的模型相比,NSP增強模型與腦數據在多個腦區顯示出更一致。

現時大語言模型主要依賴於上下文單詞預測單一類型的訓練模式。(Reuters)

領導研究的理大人文學院院長兼冼為堅基金人文與科技講座教授李平教授表示,研究將模型變得更像人腦般不需要海量數據,能提高效益,而NSP可以改進大語言模型的人性化水準,更加接近人類智慧。

李教授指,研究亦解釋了如何利用大語言模型研究人類大腦加工語言的高級機制,從而促進人工智能和認知神經科學領域研究的互動與合作,藉此推動未來以人工智能為導向的大腦研究及受人腦啟發的人工智能研究。