【學中文難】中大教授研發貼地網上字典 助少數族裔拆字學中文

撰文:林可欣
出版:更新:

中文大學工商管理學院副教授陳偉光精通語言計算學及人工智能,多年設計電腦系統程式分析漢語字句。近月他研發了一個網上字典,讓不諳中文的外籍人士輸入英文、貼上中文句子,或上載相片,頁面便會分析,並翻譯其中文意思、顯示句子結構、每個字的部首、筆劃、用法及其他配字等。陳偉光希望能成為中文「聽說讀寫」能力較弱的非華語生自學的工具。這工商管理學院副教授一直於學術界埋首研究,何解突然關注少數族裔學中文的困難,研究這「貼地」的網上字典?
攝影:高仲明

網站亦提供小遊戲、測驗等,幫助用家學習,陳偉光形容是電子學習教材,無法取代學校老師。

非華語生不識中文怎查中文字典?

陳偉光在他發明的網站示範用法。他選取例句「希望到迪士尼樂園參觀」,不消一秒,頁面即把句子結構分拆成一組組詞語:「希望」、「到」、「迪士尼」、「樂園」、「參觀」,旁邊輔以拼音和英文解釋。

這樣簡單的句子詞組對熟諳中文的華人來說,看一眼就讀懂其意思,但對香港的少數族裔來說,猶如火星文。陳偉光說,少數族裔的母語是烏都語、印度話、尼泊爾話等家鄉話,第二語言是英文,之後才到中文和廣東話,加上日常多與同鄉交流,缺乏中文應用語境,學習中文就難上加難。

少數族裔要學好中文,除了在學校上課、練字和做工作紙,還有字典或電子教材。但陳偉光指,現時的字典一般只可以查單字或詞語,而且要懂得該字的部首和筆順,才能成功在一本厚厚的字典裏查出來。「他們本來不識中文,怎叫他們用中文查中文,然後再看懂字典裏一行行中文解釋?」加上陳偉光發覺坊間網上學習工具功能分散,他說:「這個網站只查讀音,那個平台則只能查意思,甚至有網站只教授古語,但沒提供其他用法。」

陳偉光以電腦科學研究漢語語言計算學多年,對中文結構也有一定認識。

研發「切字」功能工具 分拆句子結構

他於是決定研發一個多功能的網上字典。嚴格來說,也不是一個「字典」,而是一個具「切字」功能的程式,自動分析並分拆句子結構,解釋該句意思和用法。他說:「以往少數族裔即使懂得逐個字查字典,但連成整句句子後,他們又不明白。所以不如為他們分析句子,再解說逐個字詞。」

網站提供英文、中文及上載相片的三種輸入法讓外籍人士輸入查考。例如輸入英文句子「learn to be smart」後,程式會自動翻譯成中文「學會聰明」,並輔以讀音和多個意思:「學會」又解作「learn, college, learning, institute, academic」;「聰明」意思即「smart, intelligent, clean, practical, sharp」。陳偉光說,用英文解釋該中文字的意思,少數族裔才看得懂。

+5

多種輸入法供查考 英文加圖像解釋

他知道少數族裔不懂打中文字,但若他們在網上閱讀中文時,遇上不明白的句子,也可以複製原句,於這字典貼上分析;甚至隨街看見一件物品,想知道其中文名稱和意思,也可以拍下照片上載輸入,認識其中文寫法和英文解釋。他隨即示範,拍攝枱面一個杯子,再把影像上載至網站程式,結果出現「杯子」、「Cup, mug」、「裝盛水﹑酒或飲料的容器」。

而且,按下每個字,又會顯示其筆劃順序、其他配字、部首、寫作時的使用率、發音示範,以及附有一張圖片解釋該字。「用家可以跟著動畫寫字練筆順,若想知道部首意思,也可以再按下去解釋字源。」陳偉光舉例,「杯」部首為「木」,按下其部首,便出現一棵樹木圖像,解釋此圖便是「木」的意思。如此「畫公仔畫出腸」,陳偉光笑說,很多少數族裔可能連最基本的中文字也認不出,需要大量英文和圖像解釋。

「這個網上工具讓他們隨時隨地用手機或手提電腦也可以上網輸入查考,無需帶本字典去街,或到不同網站左翻右查。」陳偉光說。

埋首學術研究多年 曾設計程式分析客服電郵

陳偉光發明這網上工具後,聯絡上幾個關注少數族裔議題的非牟利機構,希望能入校向非華語生介紹使用方法。訪問這天他正準備翌日一同入校講解,笑說心情緊張,「好多年都未教過咁細個嘅學生。」在學術界打滾多年的他,大學主修電腦科學,熟悉語言計算學和人工智能。他自言多年坐在研究室埋頭苦幹,多跟學界行家接觸,很少與社會外界開放交流,「再於四面牆不出去走走,人會腐化的。」陳偉光一臉認真說。

過去他專注以電腦程式分析漢字及中文段落,例如分析一段中文段落的情緒分佈屬憤怒、快樂或傷心等情感,而首要條件先「切字」的準確度,能否準確地使電腦懂得分拆句子結構。這些功能曾應用於商業公司的顧客回饋,「如果分析到該篇客戶電郵多為負面情緒,公司會優先回覆。所以,程式本來是協助公司做好客戶服務。」

網站提供圖像解釋字的部首,陳偉光說這樣才能令非華語生學中文時了解字源。

商學院不止為賺錢 遇退休義工朋友談非華語生

如今陳偉光研發的中文字典則為教育功能。「有人問我business school(工商管理學院)唔係為錢嘅咩,仲咩整舊咁嘅嘢(網上字典)?我覺得『有所為、有所不為』,business school唔係淨係為錢嘅,而係知道有啲嘢你應該搵錢、有啲嘢你唔應該搵錢。」陳偉光說這項目確實並非為圖利賺錢,他純粹想運用自己的專長,協助少數族裔學中文。

陳偉光認為,中文漢語是世界最難學的語言之一,其筆劃結構和字源詞意精深複雜,對香港的少數族裔來說是一大難題。他一個退休朋友兩年多前入校當義工為非華語生課餘補習中文,亦發現他們的學習困難。「他跟我提起非華語生學中文的困難,最好就有具備ABCDE多項功能的網上工具,我說想想吧,看看怎設計研究。」

陳偉光自言埋首做研究多年,這次走出「四面牆」應用自己的專長,接觸用家,想做一個具社會關懷的項目。

親上教學班 再教電腦學中文

不久陳偉光申請大學的知識轉移項目基金,請來團隊一同研發網站。亦因為此項目,這商學院教授竟然跟著中小學教師,報讀參加講座,了解更多非華語生學中文的處境。現時,他辦公室多了一行書架擺放這類中文教材,入面寫滿教學步驟和方法,這是他電腦科學研究以外的專業。「是的,這些是教育範疇的知識,但我要知道老師怎教中文──原來要有筆順、部首和配詞等解說!知道後才能再教電腦教少數族群學中文。」

他以往編撰程式碼「教授」電腦學中文,原理跟電腦圍棋程式AlphaGo相似。「人可以教識電腦強大地運作。早幾年AlphaGo在一場『人機對弈』賽事,連世界棋王都可以捉贏,讓世界知道人工智能的厲害之處。」陳偉光指,電腦程式之處在短時間來吸收並分析大量內容,人則需要長時間吸收才能消化理解;而學習語言,不論人或電腦也需要「語境」才能運用出來,「你去到一個地方長期要在該語境下,用該語言才能熟練。

他於是編寫大量程式碼為電腦製造「語境」,先教識電腦學中文,再與團隊成員設計網站頁面及不同功能,教少數族裔學中文。「我一直在想,既然我能夠教識電腦學嘢,點解教唔到更高智慧嘅人類呢?」如今他的網上字典收納逾6,000個中文字,已幾乎包含所有常用的字詞,更成功讓電腦根據程式系統準確發音,全是他電腦科學研究獨到精要之處。

這個網上字典還適用於外籍人士,訪問這天陳偉光找來完全不諳中文的大學研究助理試用,詳看下集故事。

盼加入粵語俚語及烏都語翻譯

他說若要進一步改良,除了希望加入廣東話俚語,讓在港少數族裔能更融入香港日常文化,亦希望能增設烏都語等多種語言輸入法及解釋,讓少數族裔能直接以自己的母語學中文,甚至不諳中文的家長掃瞄學校通告後,有電腦翻譯烏都語給他們看。

陳偉光認為,香港少數族裔因為語言障礙,一直無法順利升學求職,導致日後也只能從事如搬運、清潔等勞動力的工作。「他們想做文職或考政府工,但中學時多數應考外國GCE程度的中文試,見工時即使識講識聽廣東話,僱主見你識講中文讀寫能力如初小學生,怎樣聘請?」陳偉光只想少數族裔有一套更全面的中文學習工具,在香港社會有向上流的機會。「我沒有想太多或獲想得到認同,人到了一個年紀就要變嘅,再唔變人就會腐化喇。」

下集:陳偉光的網上字典不單適用於非華語生,也有助其他成年的香港少數族裔學中文,詳看〈01社區專題〉再續故事。