【人工智能.一】AI學習靠他們 數據標註員究竟是什麼?
數據標註員可謂近年伴隨人工智能衍生的新職業,如今在業界和學界都有共識:優質的數據是人工智能的基礎,人工智能產業帶動數據服務需求,未來這行業還需要海量的數據。數據並非憑空而出,你用鍵盤敲下的每個字,隨手用美顏相機拍的自拍照,工作日高峰期塞車的場景,無論是圖片、語音或其他形式,都可以成為產業鏈所需的「食材」——數據。這些原始「食材」,需要篩選、辨識、打上標籤,經過加工後餵食給機器,才能使機器具備智能。這個過程正是成千上萬的「王利利們」正在從事的行業。他們拿到數據,用一個個點、線、框,描繪和制訂具體的標準與定義,教會機器什麼是眼睛、鼻子和嘴巴。此乃《貴州大數據》專題報道之四
22歲的王利利是貴州一所職業學校的大三學生,學市場營銷專業。早上起床,她習慣拿起手機,用語音輸入搜索天氣和新聞,手機根據語音要求,自動讀出頭條新聞。王利利是畢節黔西人,有時候在宿舍講方言,手機的語音識別也暢通無阻,「我不知道是經過怎樣的處理,感覺真的很神奇。」神奇與滿足感交織於王利利的心中,她知道手機上的語音輸入功能,離不開自己的工作。她不僅是一名即將畢業的大三學生,還是有着兩年多工作經驗的數據標註員,是隱匿在人工智能浪潮中,站在人工智能背後的人。
根據2017年「普華永道」發布的人工智能預測,直至2030年,人工智能產業帶來的全球經濟效益總計將達15.7萬億美元(約122萬億港元),其中中國AI效益的GDP佔比為26.1%,高達7萬億美元(約55萬億港元),屬於全球第一。人工智能已經進入信息處理、零售、金融、城市治理、教育、醫療、工業製造及智能家居等領域,未來還將鑽進人類日常生活的方方面面。這個產業的興起,不僅標誌着科技水平的飛躍,產業鏈下游亦激發人們對數據市場的重視,重新形塑勞動密集型產業。
人工智能背後的人
距離貴陽市區約一個多小時車程的黔南州百鳥河數字小鎮,正以數據服務吸引大眾關注。貴州盛華職業學院約於2009年成立,隨着一代代信息技術浪潮席捲,學校目前正依託人工智能、VR技術發展來確立專業領域。除了王利利,還有許多學生在課餘前往來離學校不遠的夢動科技實習,從事數據標註的工作。
2013年左右,王利利還在讀高中,第一次聽到「大數據」三個字。那時候她走路上學,心裏琢磨着,要是能通過大數據記錄步行時間,根據數據調整步伐就好了,「那時候覺得大數據是用來解決一些問題的」。考上貴州盛華職業學院後,在大一上學期碰巧聽到「大數據+俱樂部」的宣講會,好奇心終於萌芽,她成為了夢動的實習生。兩年前剛成為數據標註實習生時,接手的任務比較簡單,屬於眾包項目的圖片分類,「用鼠標點、點、點就可以了」。剛開始做起來非常快,一天能做幾千張,結算方式公開透明,三天時間就拿了幾百塊錢,對王利利而言,那是一種「標得很上癮的感覺」。王利利的父母都在老家務農,生活負擔沉重。讀大學後,王利利能夠自己承擔生活費,有時剩下的工資還能補貼家用。數據標註的工作多做多得,她有一股衝勁。
眾包項目不穩定,有數據的時候才有工作。她大二做了語音項目後,工作就變得穩定了。現在的項目大多是電腦視覺和語音識別的任務。語音識別的項目,有時一天工作七小時,標註的有效時段只有一小時,音頻裏面包括很多嘈雜的場景,對於訓練算法來說,什麼都需要考慮。比較累的標註任務,或許屬於人臉識別。根據客戶需求會有不同的標註方法,複雜的情況下,需要在一張臉上標註超過100個點。眉毛、鼻子、嘴唇和臉頰等不同部位的標註數量都有明確規定,臉部線條上的點距需要均分。這種任務費時較久,一天可能只標示50張圖。
如今人臉識別已經是最為廣泛的應用場景之一。例如進入京東的無人超市,需要先在京東App上傳個人相片,進入超市通過攝影鏡頭檢測匹配面容後,方可進入。不僅零售業,城市治理或安全防範領域已經開始應用人工智能的人臉識別技術。其中最知名的人臉識別,包括過馬路時通過攝影鏡頭識別亂過馬路的行人。深圳市於2017年4月啟用「智能行人闖紅燈取證系統」,一年內抓拍行人闖紅燈事件近14,000宗。被抓拍到不良行為的人,經過系統識別、後台分析數據信息後,其人像圖片會於馬路邊的屏幕上實時曝光。
王利利積累了豐富的標註經驗,現在已經成為審查環節的負責人,有時候其他人標得不夠好,她便說,「你自身幻想一下,如果刷臉的時候,別人把你的錢用完了,你是不是很心疼。」看到AI應用出事,她也會感到難過。曾有車禍原因來自自動駕駛系統無法識別某些場景,這與數據標註場景不夠全面不無關係。
除了家鄉的縣城,王利利去過最遠的地方就是貴陽了。「我去(貴陽市區)醫院的時候會坐公交,從玻璃窗看到外面播放大數據,用數據分析貴陽租房、哪裏的人密集或不密集、交通會不會擁擠,還會出現哪裏住房標稀疏,幫人找工作……我覺得大數據真的很神奇,能夠利用數據,把貴陽市的情況都展現在一個屏幕上。我看到的時候,感覺很欣慰。」王利利的笑容明朗,「人工智能發展在風口浪尖上,相當於我們已經站在前端了。」
事實上,人工智能市場的確在迅猛膨脹。根據中國信息通信研究院的數據,2017年中國人工智能領域市場規模達216.9億元人民幣,與2016年相比增加52.8%。在技術領域佈局上,電腦視覺領域更是「拔得頭籌」,佔有37%。
有多少人工,就有多少智能
業界廣泛流行一句話,「有多少人工,就有多少智能」,這句話也被王利利記在心裏。人工智能的時代,的確不能忽略智能是由「人工」(在背後工作的人)鋪墊而成的。
近五年,中國人工智能企業數量迅猛增長,逾1,500家AI公司先後誕生,其中2016年漲幅最高,初創立的企業數量超過340家,而主攻數據分析類的企業就佔據四成。不少AI數據服務科技公司在這兩年拿到了超過千萬元(人民幣)級別的A輪融資,能夠提供整天數據服務的公司,包括數據方案的設計、數據採集與標註等,已能獲得過億的A輪融資。
AI基礎服務供應商倍賽(BasicFinder)便是乘着行業潮流,分得一杯羹的數據服務公司。倍賽的創辦人杜霖在大學期間,就讀於上海交通大學最好的電腦班,他在大學就培養了對電腦視覺的熱愛,並利用數據挖掘技術做了搜索引擎營銷的工具,通過創業撈得第一桶金。那是人工智能還未成為熱潮的時候。
杜霖回憶道,2014年國內的深度學習技術興起,當時他與同伴花了六個月時間做了一個實驗,訓練模型用了兩個月便取得綜合識別率高達90%的客觀結果。他意識到剩下三分之二的時間,都是用來採集有效數據,並對數據進行分類和標籤,還需要找人負責處理數據,不斷迭代後才能訓練出穩定的模型。
那時起,杜霖的團隊發覺要將數據作為人工智能行業的入口。「技術是會隨着時間的發展,成本愈來愈低的,但真正的門檻是數據,我們認準當時deep learning(深度學習)是基於supervise(監督)。」所謂的監督,是電腦需要人來教很多東西,「我們認準這個算法在短時間內不會取得重大突破,所以當時就在探索可以做什麼。我們預測數據量一定會膨脹,需求一定會成指數級地爆發,每個行業都會有數據梳理和打標籤的需求,以及整個(數據)生命周期管理的需求。」2017年,倍賽科技正式對外運營,如今已經獲得兩輪融資,2018年至今,數據業務已經有十倍以上的增長。
「那時候還沒有把AI領域的數據重視起來,但我們看到,真正的AI是由數據堆起來的。那會兒大家都覺得模型和技術是門檻,其實最終大家已經發現,數據是真正的門檻,因為所有做模型的公司,都在積累自己的數據,而且行業裏模型差異不是非常大。」杜霖表示。
數據是一個絕對的門檻。杜霖透露,現在做人臉識別的大公司,人臉數據量起步都是過億的,若只有幾十萬人臉數據想做一個start-up(初創公司),「你連門都擠不進去」.
海量數據都能直接用來訓練模型嗎?事實上,非結構化的數據,屬於一種負文本、負媒體,而結構化指的是一種關係型的數據。如果只是單純拿到一張相片,便屬於非結構化數據,需要通過打標籤的方式來處理這些數據。杜霖表示,一般只有30%的數據不需要打標籤,而一開始模型都是由打標籤的方式串連起來的。
「AI行業是離不開打標籤的數據,數據誰來打標?一定是人來打標,一定是人把自己對於事物的理解交給電腦,你可以理解成是一個基於統計學的模型,統計學的模型裏面,你只有見過的樣本數愈多,理解能力愈強,用人的理解來說,就是見多識廣。」杜霖解釋。以一個停車場的圖片場景為例,數據標註員會將密密麻麻的車輛分門別類,儘管圖片像素不高、車輛重疊難以辨別,都能細緻地打上標籤。
數據標註是勞動密集型產業
深度學習的場景愈發複雜,數據需求量不斷增加,愈來愈多人加入數據標註員的隊伍,儘管他們有如隱形人一般,很少被人看見。事實上,多家數據公司的負責人向我們證實,這兩年的數據需求的確如大爆炸般增長。遍布全國的數據工廠或小作坊,也如雨後春筍般野蠻生長,大家都想搶佔先機,分一杯羹。
一開始科技巨頭會組建自己的數據團隊,但因數據需求量飛速增加,他們必須將任務外判出去。因此也催生了更多數據標註工廠。但也有初創公司會組建自己的團隊,負責自己的業務。杭州一家無人駕駛初創公司,便有70人左右的數據標註團隊,工作量穩定,每日標註量達到2,400個。
數據標註工廠或小作坊,更多集中於能滿足低廉勞動力的三、四線城市,例如河北、河南、山東、山西等的城市。數據標註員一般也有大專學歷水平,有時甚至連本科生也會從事這個行業。甚至有說法是,有些小作坊的老闆,在街上找十個人就能成立一間公司。目前行業內沒有明確的從業者數據,但據估計,應該至少有十萬人成為全職的數據標註員。
另一種方式是數據眾包。位於北京的龍貓數據公司亦於2016年正式進入AI領域,推出數據眾包服務平台。龍貓的市場負責人康萌表示,目前App的用戶數量已經達到500萬人,用戶散落全國各地。這是一種快速、便捷地積累數據的方式,包括語音或不同場景的採集和標註。
一般的數據標註流程是由科技巨頭將任務外包給數據服務公司,數據服務公司或者再分配給下游的數據工廠或小作坊。經過層層分包,數據標註員拿到的薪金並不多。「(這個工作)就像在富士康工作。」香港大學社會學博士黃丹對數據標註行業進行初步調研時,有數據小作坊的老闆這麼描述這個行業。她指出,數據標註是一種低收入的行業,並且枯燥無聊,「他們會說自己的工作和富士康工人沒有區別。」黃丹問一位曾經做過數據標註的人,離開這個行業的原因,對方拋下三個字:「快瞎了。」
要撈一桶金並不容易,行業存在的另一個問題是流動性強,很多小作坊的員工做了一段時間便離開了,老闆們都很着急。進入市場太快,接不到任務、拿不到資源,很容易變成一份朝不保夕的工作。「他們就是朝不保夕者,不穩定無產者,工作沒有了就再找一個。」黃丹說。
天津大學人工智能學院朱鵬飛教授長期關注AI領域,他指出,「數據在人工智能領域,相當於勞動密集型的產業。整個數據產業,如果拿未來三年有一千億產值來說,這裏面大概有10%的工作屬於數據採集、清洗、標註、加工。」朱鵬飛打了個比方,「現在中國有很多數據工廠,它和之前加工襯衫、紡織是差不多的,只不過他們操作的對象變成了數據。」海量數據難免會有質量參差不齊的問題,香港大學新聞及傳媒研究中心副教授傅景華指出,如何保證標註質量?雖然會有質量檢測,但若控制不得當,數據可能會產生問題。
延伸閱讀:【人工智能.二】躲在AI背後 數字勞工無保障最易被取代?
上文節錄自第139期《香港01》周報(2018年11月26日)《站在風口浪尖 教人工智能學習的人》。
重溫《貴州大數據》系列文章:【大數據.一】用大數據重新定義人 當經濟窮省貴州遇上高科技【大數據.二】數據鐵籠管人管事 大數據非收集私隱?【大數據.三】數字化時代爭議四起 社會惡果有待分解
瀏覽更多周報文章︰【01周報專頁】《香港01》周報各大書報攤及便利店有售。你亦可按此訂閱周報,閱讀更多深度報道。