【TECH】AI將改變世界 但「AI偏見」亦會

撰文:薛子遙
出版:更新:

人工智能偏見,也稱AI偏見(AI bias)已經成為一個熱門話題。在美國,最近爭取種族平等的大規模抗議活動讓人們注意到治安算法不公平地針對少數族裔,而多年來,已有活動家指出,搜索算法經常將負面形象或詞語與弱勢社群聯繫起來。在香港版Google中輸入「黑人是」,可以看看世界上最著名的搜尋AI會給出什麼建議。
如今,當人工智能技術將徹底改變我們的社會和經濟時,我們是否應該害怕它也會破壞我們社會的平等和正義?

其記錄將分為上下兩篇刊布。本篇為第一篇,探討「AI偏見」究竟意味着什麼。下篇,我們將看到人類可以做些什麼來修復這種偏見。

「機器是種族主義者」或「人工智能成為性別歧視者」這樣吸引眼球的標題是有誤導性的。成「機器 」或「人工智能」本身有偏見並沒有意義,而是它們被構建和使用的方式讓它們的行為有偏見。為什麼呢?這一點,我們首先需要進步了解「機器學習」(machine learning)的一些基本知識。

可以「學習」,便可有偏見

目前人工智能的絕大部分應用都是基於一類算法,叫做「深度學習」(deep learning)算法,是機器學習的分支。深度學習的核心就是識別數據中的特徵,例如照片中對應人臉的特定像素特徵。

深度學習算法之所以大有用處,是因為它可以適應不同數據進行「學習」。算法有不同的「學習」方式,但都涉及在大規模的訓練數據中自動尋找特徵。

譬如,假如我們想讓一個算法在圖像中能夠識別狗,我們就給它展示許多不同圖像,然後,算法就會嘗試猜測哪個圖像包含狗,哪個沒有;每次失敗,就會調整自己的參數,直到它能可靠地區分。

這些技術的好處是讓我們能夠自動化許多以前只有人類才能完成的任務,譬如,評估應聘者、評級考試,或者決定哪些罪犯最有可能重新犯罪。結果是,算法對誰被錄用、誰考上大學或誰被送進監獄的影響愈來愈大。

「垃圾進,垃圾出」

在算法構建的各個階段,都可能會出現偏見。

當亞馬遜開始使用其招聘算法時,算法表現出性別歧視的傾向。為什麼呢?很簡單,因為算法學會了過去招聘人員的性別偏見。

最廣泛討論的偏見類型發生在數據收集期間。深度學習算法只能從我們提供給它分析的數據中學習,如果訓練數據將偏見的資料輸入演算法,演算法自然也一定會輸出偏見。電腦科學領域有一句習語指「垃圾進,垃圾出」。

「垃圾」可以通過兩種方式引入到算法中。第一是數據無法很好地反映現實情況:譬如,如果面部識別算法都是用淺色皮膚的臉的圖片訓練的,那麼它將很難識別其他膚色的臉。

第二種情況是,數據正確地反應現實,但現實本身卻是不公的。這種情況通常發生在使用歷史數據來訓練算法的時候。當亞馬遜公司使用它過去的招聘數據來訓練其招聘算法時,算法表現出性別歧視的傾向。為什麼呢?很簡單,因為算法學會了過去招聘人員的性別偏見。可以想像,如果在香港有公司使用歷史數據來訓練招聘算法,它很可能會學會怎麼歧視那些在底層組別學校上學或住在公屋的求職者。

被算法鞏固的偏見

數據專家經常用「垃圾進,垃圾出」這個概念來逃避責任,稱「這不是我們的錯,問題在於數據」。但AI偏見也可能在數據收集階段之前或之後被內置到算法中。

每一個算法的構建都有一個目標:股票交易算法的目標是利潤最大化,而債務風險評估算法則試圖最大限度降低壞賬比例。這些目標是由人設定的,但算法卻經常會以意想不到的、可能存在乃至鞏固偏見的方法去追求這些目標。譬如,為了最大限度地減少壞賬,銀行的算法可能會將種族視作批准貸款與否的重要因素。即便你告訴它要忽略種族這個參數,算法仍然可能會通過數據中與種族相關的特徵進行選擇性歧視,如國籍或住址。

在設定目標和收集數據後,為了提高算法的效率,數據專家仍需要告訴它要注意數據的哪些屬性,但這並不總是一個簡單的選擇:就招聘算法而言,除了相關工作經驗和教育程度之外,是否還要告訴它考慮性別和年齡等屬性?

【TECH】是一個正在進行的關於技術和社會的系列報道,其目的是在歷史、社會、經濟、政治的背景下解釋科技新聞。從人工智能到納米藥物,從人類的改進到工作的未來,01國際【TECH】系列探討破壞性科技創新如何被商業化、規管、濫用和再利用——不僅解釋科技是如何改變世界,也分析世界是如何塑造科技。

究竟什麼是「公平的AI」?

有時候,構建公平的人工智能不僅僅是為了確保一視同仁。就像對於任何強大的技術一樣,科學家們不應該只擔心技術如何設計,而是要問更大的問題,譬如,誰會使用這個算法?它將用於哪些人群?這些數據是誰擁有的?這項任務真的應該自動化嗎?

因為數據專家通常不會思考其工作的社會影響,也鮮有接受相關培訓,因此這些大問題往往被大多數據專家所忽視。然而,這種情況正在開始改變。5月,人工智能研究人員發表的一篇文章對人工智能偏見進行了深入研究,試圖陳述人工智能領域中同樣遺留着歷史殖民主義的權益不公。

由兩位DeepMind(Google)研究人員和一位牛津大學的學者撰寫的關於後殖民理論和AI偏見的文章截圖。(arxiv.org)

作者舉了劍橋分析公司(Cambridge Analytica)的例子,為了改進它的選舉算法,這家公司在2015年尼日利亞和2017年肯尼亞選舉中對其算法進行了測試,並最終將算法應用在英國和美國大選中。後來的研究發現,這些測試主動擾亂了肯尼亞的選舉進程,某種程度上,這與大英帝國在歷史上在殖民地進行新藥和新技術試驗本質並無不同。

問題在於,人類對「公平」的定義並不相同,但算法卻依賴於不變的數學模型。

除了對社會和政治影響之外,人工智能的偏見還觸及到更深的倫理問題,甚至是對「公平」的定義。問題在於,人類對「公平」的定義並不相同,但算法卻依賴於不變的數學模型。

舉個例子,在招生的過程中,大學通常對學生使用相同的標準,這叫做待遇公平(fairness in treatment),但對來自弱勢社群的學生可能會有稍微不同的要求,這叫做結果公平(fairness in outcome)。而算法則總是使用相同的數學規則:如果一個學校的算法尊重待遇公平,它就不能保證結果公平。

AI偏見是一面鏡子

言及至此,我們應該很清楚「種族主義」或「性別歧視」等問題並非來自於深度學習機器本身,而是來自於創造它的人。

我們使用的人工智能雖然強大,但仍然只是一種處理數據的複雜數學工具。就像割草機或吹風機一樣,深度學習算法是為人製造的,是我們欲望的產物,我們社會結構的結果。

AI不會創造新的偏見,而它會放大已有的偏見。通過教算法如何「學習」,我們教它們像我們一樣行事。通過給它們的目標,提供的數據或對AI的不同用途,我們教算法重現我們最想隱藏的「特徵」:我們思想和社會的不公平性。

Google會給出帶有種族主義色彩的搜索建議,正是因為人們會搜索種族主義的內容。如果AI公司和研究員想要學會遏制AI偏見,他們需要審視自己的偏見。古人用「銅、史、人」這三面鏡子來正衣冠、知興替、明得失,或許在如今這個科技時代,我們也可「以AI為鏡,以祛偏見」。

相關文章

【TECH】世界將變成「一國一網」?開放的互聯網終只是浪漫想象?