【大數據.一】人工智能一定更客觀? 學習不全面或致誤判及偏見

撰文:陳澔琳
出版:更新:

人工智能,會令我們的生活更美好嗎?這是不少人心中的問號。大數據、人工智能、演算法……這些詞彙似乎每天都走入我們的視線,當大家仍未弄清楚它們是什麼,媒體已爭相報道人類的工作很快會被取替,叫人焦慮。大數據開啟了時代轉型,改變了我們的生活及理解世界的方式,它的潛在價值固然值得期待,但大數據既可以是文明進化,亦可以是新的藩籬。海量的數據可以發揮巨大的威力,不單知道你是誰,更可發展到行為預測的階段,對人的監控、對私隱的侵犯或比往日更輕而易舉,數據科學發展與道德之間的矛盾也難分難解。大數據可以做什麼?會否引伸更多問題?誰又是擁有數據的人?人人都着眼於它的好,但曾否想過我們對它有多少理解,又如何理解它的功用?此乃《誰搬走了我的數據?》專題報道之一

在人臉辨識系統下,大眾的個人資料無所遁形。(資料圖片/視覺中國)

網上流行一個比喻:人工智能(AI)就是機械人的腦袋,機械人好不好用就視乎AI厲不厲害。那麼AI如何變厲害?人類就要給AI吃大數據,而演算法就是機械人的消化系統,負責統計、比對、關聯及分析大數據,產出人類能夠解讀的結果。機器學習正是一門炙手可熱的人工智能科學之一,讓機器自動學習算法,藉此找出規律及作出預測,不經人手。重點是,只要數據夠新鮮、夠乾淨,AI便健康。

現時感測裝置、無線射頻識別系統、交通流量運輸分析等技術每分每秒在現實世界中收集實時資訊,而大數據的精髓在於高頻率地挖掘及分析大量資料,再對所有數據進行分析處理。這並非單純的數據庫搜索過程,而是可以透過宏觀分析,觀察到微觀方法無法突顯的資訊關聯性及訊息,從中獲取商業或社會價值。

大數據具備4V特點—大量(Volume)、速度(Velocity)、多樣(Variety)及價值(Value),當中的數據所指的並不只限於數字,還可以是文字、聲音、圖片、視頻等。不論是使用通訊軟件、瀏覽社交平台,還是信用卡消費記錄、乘車記錄,我們對自己所做的事可能已習以為常,但你一個讚好,也在傳達着個人偏好的數據,不斷增加社會的數據量。科技市場研究公司國際數據資訊(IDC)預測,全球資料領域在2025年將增至163ZB(1ZB相等於1兆GB),是2016年16.1ZB資料的十倍。

科技市場研究公司國際數據資訊(IDC)預測,全球資料領域在2025年將增至163ZB(1ZB相等於1兆GB),是2016年16.1ZB資料的十倍。(資料圖片/梁鵬威攝)

SocialFace創辦人及技術總監張栢鳴說,「我們找到的,不會比一個看完所有相的人多,只是我們交由機器效勞。」 拜人臉辨識所賜,歌手張學友在內地巡迴演出,還未巡迴一圈,便已「協助」警方拘捕60名逃犯。張栢鳴同樣「靠樣搵食」,SocialFace是針對社交活動的智能平台,利用人臉辨識、大數據、人工智能演算法等分析活動照片,並提供活動報告、分享即時相簿及推薦人脈三大核心服務。

你的臉就是社交名片

張栢鳴解釋,不少組織在舉辦活動時,都會拍攝大量照片,平台可透過辨識照片中的參加者,分析他們的性別、年齡及種族等,準確度可達99%,並透過分析不同參加者出現在同一照片的次數、姿勢等,知道參加者之間的交流,自動建立人脈關係圖,找出最活躍、令活動最有所得益的中心人物。張栢鳴說,對活動主辦方而言,有分量的人出席活動可令活動生色不少,有別於過往倚靠經驗及公關,「現在靠機器幫你完成,利用相片了解到哪些人是重要的,再請他們過來。」

這並非張栢鳴的第一間公司,他在香港科技大學念博士時成立一所專門處理大數據及圖像分析技術的公司,加入創科香港基金會(Hong Kong X Foundation)後,結識了提供活動攝影平台的公司負責人,張栢鳴發現對方能接觸龐大的市場,但只專注於分享相片,而自己則有「用戶圖像聯繫分析」技術,所以2018年初開始合作,互補優勢,為客戶增值。

技術的便利並不僅於此,除了為活動主辦方分析活動數據外,平台也會提供分享照片的功能,「以往的慣常做法是逐張相挑選出來,現在可以完全自動化,就算我不知道對方身份,也可以先將他分類,而這個資料庫是不斷累積的。」張栢鳴補充,透過影像,我們會知道誰與誰有交流,可以協助參加者找回對方,重建照片內人物的社交網絡。

SocialFace是針對社交活動的智能平台,利用大數據、人臉辨識、人工智能演算法分析活動照片。(黃寶瑩攝)

若參加者願意提供個人資料,平台可推薦人脈,得知其他同樣願意提供資料的參加者聯繫資訊,甚至知悉合照者的共同朋友、曾一同出席場合等。他強調,SocialFace重視用戶私隱,視乎用戶願意公開多少,就像應用程式WhatsApp的最後上線時間,「你願意讓他人知道你看了訊息沒有,你便可以知道對方看了沒有。」

作為提供技術的平台,SocialFace現時以香港商業客戶為主,過去一年已應用於近百場活動,除了獲投資者支持,他們也於2018年10月,加入由阿里巴巴、商湯科技及香港科技園公司合作成立的「香港人工智能及數據實驗室」(HKAI Lab)。張栢鳴強調:「數據是屬於客戶的,不能公開拿去賣,我們能夠做的只是分析數據,將報告的結果交予客戶。」但長遠而言,他想把SocialFace發展成一個數據共享平台,「未必完全開放,可能是需要買賣或作為一種知識與他人分享,如果你願意分享自己的數據,你也可以接觸到他人的數據,始終數據的主動權在我們的客戶手上,客戶願意分享多少,便會是多少。」

他指出,數據愈多,SocialFace能知道的事便愈多,因為算法會變得愈準確。他亦提醒:「影像沒法捕捉所有人,但始終有一個切入點,活動有攝影師是很正常的事,而我們只利用攝影師發現人與人之間的關係。如果在活動當中有監控鏡頭,反而會令參與者更不自在。」數據不足,通過人的努力尚且可以彌補,但如果數據在背後作祟,將一些人拒諸門外,這又如何是好?

SocialFace創辦人及技術總監張栢鳴指出,公司的人臉辨識準確度達99%。(黃寶瑩攝)

英國作家喬治.奧威爾(George Orwell)在其經典小說《1984》中寫道:「誰控制過去,就控制未來;誰控制現在,就控制過去。」當時,奧威爾所指的是「歷史」。但在大數據時代,人人都急着讓數據說話,現今理解為「大數據」,也不為過。

人工智能所作出的判斷不是憑空或隨機,而是需要經過輸入數據深度學習,從而訓練它在某一方面的能力,因此蒐集過往某一領域的數據是人工智能研究的共同起點。但偏見及歧視並不源於算法本身,而是研究團隊提供予機器的數據:一方面,數據不足會使AI學習不全面,有機會作出錯誤判斷;另一邊廂,使用過去不準確或存有偏見的數據學習,再輸出新的數據,會令過往的歧視在未來得以加強,進一步放大及鞏固人類的固有偏見。

美國電子商務巨擘亞馬遜(Amazon)剛剛宣布棄用一個歧視女性的人工智能招聘系統,系統在2014年起用作審核應徵者履歷表,亞馬遜只要將幾百份履歷丟進去,它就會為應徵者評分,並篩選合適員工。招聘過程經簡化及自動化,讓人事部可快速從龐大的應徵者當中篩走不合適的人。但此系統在2015年被發現有「性別偏見」,因為參考過去十年亞馬遜的聘用記錄,系統會把出現「女性」,甚至學歷為某「女子大學」的履歷扣分。系統出現此偏見,是基於亞馬遜過往錄取的人都以男性為主,導致系統認定男性應徵者更符合公司要求。大數據容易將群體特徵強加於個人,將人分門別類及標籤行為,令人失去部分權利;而不停的自我實現將令系統陷入不公平循環,使歧視長存於整個算法之內,這也是令人頭痛的地方。

現時不少企業會使用AI改善業務表現,怛數據不足會使AI學習不全面,有機會作出錯誤判斷。(資料圖片/梁鵬威攝)

以人工智能為核心技術的自動決策系統應用日益廣泛:企業先收集大眾的上網習慣、購物記錄、位置數據等各種數碼腳印,透過算法預測行為:算法可以決定你看到什麼新聞,聽到什麼歌曲,看到什麼類型的廣告,為你作一連串的個性化推薦,它對未來欠缺了一些想像,但這看來也無傷大雅。只是人工智能的影響力並不局限於此,它還可以決定誰得到貸款,誰得到工作,甚至在司法程序中決定你犯罪後的刑罰,在這時手執「生殺大權」的歧視就不再是輕於鴻毛,它只會為你畫地為牢,不論虛擬還是現實,也在左右你的人生。

為了讓世界更公平、更有效率,人類將本由人承擔的決策工作交到機器學習系統手上,因為我們假設機器比人類更客觀、公正,但事與願違,人類社會的偏見及歧視偏偏在機器學習中重現,甚至放大,算法歧視可如何克服,如何避免形式化,以至成為可被操作的算法?這還有很長一段路要走。張栢鳴說:「機器暫時取代不到人,需要人的參與去調整。」

上文刊載於第144期《香港01》周報(2018年12月31日)《誰搬走了我的數據?》。

其他《誰搬走了我的數據?》專題報道文章:【大數據.二】企業賺錢基於用戶數據 學者倡數據產權保大眾權利

瀏覽更多周報文章︰【01周報專頁】《香港01》周報各大書報攤及便利店有售。你亦可按此訂閱周報,閱讀更多深度報道。

相關文章:【大數據】用大數據重新定義人 當經濟窮省遇上高科技【大數據】貴州數據鐵籠管人管事 大數據非收集私隱?【大數據】數字化時代爭議四起 社會惡果有待分解【科技.未來】多國收集國民DNA 大數據與個資權利可否共存?