晶片大廠自爆「造假」 deepfake走進商業化時代

撰文:孔祥威
出版:更新:

美國晶片大廠英偉達(NVIDIA)本月中承認,約三個月前網上演講片段中的行政總裁黃仁勳並非真人,而是由人工智能(AI)生成。這種像真的所謂「深度偽造」(deepfake)技術,最初是用在移花接木色情片段,或者以政治人物製造虛假片段而惡名昭彰。然而,最近似乎愈來愈多公司看到它在正面用途上的潛力,開始用於廣告、電影、遊戲、教育等。這種技術會否從此改變內容創作行業?這種手法又會引起什麼爭議?未來是否需要受到行業或政府監管?

在新冠肺炎疫情下,各行各業紛紛把實體活動虛擬化。英偉達也不例外,過去幾次產品發布會的舞台,已移師到行政總裁黃仁勳家中廚房,包括本年4月的GTC21產品發布會。在本月中的SIGGRAPH 2021研討會上,英偉達透露了一個三個多月來似乎沒有人察覺到的真相。他們在那次活動中「造假」:不但整個廚房都是由電腦影像技術重製,連「老黃」也是利用AI生成的。

走出色情換臉陰影

據英偉達發表的製作花絮,這是黃仁勳給予公司研發、工程和創作部門的題目。廚房相對容易處理,製作團隊到黃仁勳家中多角度拍攝大量照片,再以各種影像技術重現,更加入了「彩蛋」,例如英偉達牌子的咖啡磨豆器。至於黃仁勳的化身,團隊先安排一輛內裏裝有幾百個部相機的大貨車駛到黃仁勳家門前,讓他進內多角度拍攝面容和身體,包括獨立拍攝了他那件招牌黑色皮褸,製成一個3D模型。

要做到效果逼真,團隊需要在面部表情和肢體動作上自然地重現黃仁勳的神髓。在表情上,他們採用Audio2Face技術,以音訊片段自動驅動任何肖像的臉部表情;然後用Face Video to Video技術把黃仁勳的面容移花接木到模型上;之後就如英偉達研發科學家劉銘淯形容,以AI替他「化妝」,例如以深度學習(machine learning)技術改良他額頭上的反光位。

在動作方面,團隊要重新模擬黃仁勳說話時的手勢。他們請來一位演員穿上「動作捕捉」(motion capture)服裝,重演了約八小時黃仁勳過去的演講,然後使用Audio2Gesture技術從中擷取音訊輸入和相應輸出手勢特質。這樣就可以反過來,只要輸入聲音就可以產生肢體動作。他們最終製作了21個版本,從中選「選角」,「站入廚房」適當位置,「騙局」才大功告成。

換臉已不再流於deepnude色情應用,開始成為商業媒體創作新趨勢。圖為AI公司Metaphysic以deepfake生成比利時國家足球隊前領隊Guy Thys(圖右),用於廣告之中。(Metaphysic網站圖片)

這類以AI製作的deepfake影像,一直沒有給予大眾什麼好印象。它最初引起大眾注意,始於2017年人氣論壇Reddit上,有用戶發表利用這技術的換臉色情影片,把荷里活女明星樣貌移花接木到片中人。後來更蔓延成「DeepNude」惡意風潮,有網民盜用網上女性自拍照製成裸照。同時,在一段以美國前總統奧巴馬演說影片製成的deepfake在網上瘋傳後,也令各國政府和社會擔心這技術在假新聞上的潛在威脅。

然而,隨着deepfake技術愈見精緻,愈來愈多人看到它用於影視、廣告或商業上的潛力。英偉達是次實驗標誌着deepfake不再是流於色情和造假的業餘惡趣味,開始變成可以是專業而正面的商業應用。英偉達這場「大龍鳳」主要目的就是行銷其媒體協作平台Omniverse,同時多少也展示了它在AI相關軟、硬件上的產品和實力。

又例如比利時視覺及AI效果藝術家Chris Umé,從本年2月起以deeptomcruise的帳號在社交媒體TikTok上,陸續發表以影星湯告魯斯(Tom Cruise)製成的deepfake影片,有結他自彈自唱,也有表演硬幣魔術和在高檔時裝店中閒逛自拍。至今11條片段總播放量接近一億。湯告魯斯deepfake的成果,促使Umé在本年6月與他人創立Metaphysic,利用相同技術提供修復舊電影和廣告製作服務。他自誇:「我們震撼了世界。很多製作公司和荷里活導演都沒有察覺到這技術愈來愈好,他們現正考慮用於宣傳活動、電影和紀錄片。」

難怪中國互聯網巨頭騰訊在去年7月發表的《騰訊人工智能白皮書:泛在智能》中預期,AI合成影像技術「漸從deepfake、DeepNude等色情性換臉視頻的陰影中走了出來,迎來商業化時代」」。因此,騰訊認為不應該再使用帶有污名的「deepfake」稱呼:「基於技術的使用意圖(即deepfake)去定義技術,強調技術的潛在欺騙性或可能帶來的負面影響,這一做法並不公正。因此使用『深度合成』(deep synthesis)……更加科學合理。」

「內容創作的未來」

就如騰訊《白皮書》指出,目前「泛娛樂和數字(碼)內容已然成為了『深度合成』技術應用的主場」。對於對於媒體創意行業,deepfake最大的作用是令內容創作有更多可能。在Metaphysic為吉列(Gillette)製作的廣告中,它重製了美式足球名宿Deion Sanders,在1989年選秀前使用吉列新款剃刀;在本屆歐洲國家盃前夕與比利時足總合作的廣告中,它重製了兩位已故國家隊領隊Raymond Goethals和Guy Thys,與現任領隊馬天尼斯(Roberto Martínez)一同呼籲球迷為國家隊打氣和宣傳官方手機應用程式。

在一些創作上,不需要生成影像,光是deepfake聲音已經足夠。在7月中上映、回顧名廚Anthony Bourdain(2018年自殺身亡)一生的紀錄片《Roadrunner》中,導演Morgan Neville加入了三段共45秒、以AI生成的波丹話語,例如其中一段素材來自他與朋友David Choe的電郵文字,以AI變成由波丹聲音在片中讀出。Neville形容這種技術已是「現代講故事的技巧」。

AI語音公司Replica Studios以配音員訓練AI製作deepfake聲音,主要用於遊戲內容。 (Replica Studios)

隨着創意擴闊,加上deepfake容易更新修改,因應不同市場和受眾而客製化內容也變得更加可能。Sonantic和Replica Studios是AI語音公司,用專業配音員以不同情感讀出不同對白台詞訓練出AI配音員,主要與遊戲開發商合作。Replica行政總裁Shreyas Nivas說,這技術在遊戲開發階段特別有用,可以先用AI生成的聲音嘗試各種可能,最終才正式找配音員聲演。更重要的是,它可為遊戲玩家帶來更個人化的體驗。例如足球遊戲《FIFA》內的評述員可以叫出玩家的名字;Replica也為遊戲《Cyberpunk》開發了一個可以改變主角名字的模組,遊戲內互動的角色都能夠說出這名字。

商界也在這方面找到應用。會計師事務所安永(EY)與AI公司Synthesia合作,以deepfake技術為部份合夥人製作它稱之為「人工實境身份」(artificial reality identity)的分身和影片,用於對客戶的演示或日常電郵中。例如有不懂日語的合夥人利用Synthesia內置的翻譯製成deepfake與日本客戶溝通。負責這項工作的安永商業發展創新主管Jared Reeder認為,這技術可令客戶留下更深刻的印象:「相對於發送電郵打個招呼,現在客戶可以看到我並聽到我的聲音。」

Synthesia行政總裁Victor Riparbelli補充,使用deepfake可以令跨國公司更輕鬆地製作不同語言的影片,用於內部培訓課程:「假設你在北美有3,000名倉庫工人,當中有些人說英語,但也有些人可能更熟悉西班牙語,如果你必須向他們傳達複雜訊息,一個四頁的PDF檔不是好方法,最好用英語和西班牙語製作兩至三分鐘的影片。每段影片都要錄製的話,就是一項艱鉅的工作。現在我們用很少的製作成本就可以做到。」Synthesia的客戶、廣告業龍頭WPP集團,就是利用這種方式以不同語言傳播公司內部訊息。

deepfake還擴大了所謂「虛擬人」的應用和商機。去年韓國電視台MBN與AI公司MoneyBrain合作,製作了deepfake版本的新聞主播金柱夏,表情神態和說話方式媲美真人,用於24小時即時新聞;韓國翻唱YouTuber Rui(루이)在今年2月自爆其髮型、聲音和身體是真的,面孔是deepfake生成。她聲稱夢想做歌手,但是演藝圈重視外表,因而使用deepfake。

商機以外,deepfake還可能幫助某些病人。影星韋基馬(Val Kilmer)幾年前患上喉癌後永久失聲,去年起他與Sonantic合作,藉着AI令聲音「失而復得」。

基於deepfake的種種潛力,Umé甚為看好這技術的前景:「未來將擁有更多自由和創造可能性。」Riparbelli更形容:「這是內容創作的未來」。

AI公司Synthesia的工具可讓企業員工生成Deepfake分身和影片,用來與客戶交流,或製作不同語言的影片供內部培訓之用。(Synthesia)

行規有待確認

當然,新的技術和應用肯定會碰上質疑和挑戰。在Anthony Bourdain的紀錄片上,Neville的處理手法引起了爭議,反映了deepfake在商業使用上可能會面對的問題。首先,他事前沒有向觀眾申報內容有使用deepfake,有觀眾事後得悉感到誤導和受騙。其次,在紀錄片中使用deepfake是否有違攝製倫理爭也引發兩極反應,也有觀眾和電影業者認為這後製手法令人不安和沒有必要。Neville向時尚雜誌《GQ》強調,使用deepfake聲音是因為想表達Anthony Bourdain一些沒有在生前影像中展示的想法:「 我沒有生安白造,只是想讓他的文字活起來。」

目前,有關deepfake的監管主要針對假新聞和換臉色情片。例如在中國,國家互聯網信息辦公室頒布的《網絡音視頻信息服務管理規定》已於去年1月生效。它規定網上音視頻信息服務提供者和使用者,利用基於深度學習、虚擬現實(virtual reality)等新技術新應用製作、發布、傳播非真實音視頻信息時,需以顯著方式標識,並且不能用來製造散播假新聞;服務供應者也需建立健全闢謠機制。

香港立法會《2021年刑事罪行(修訂)條例》草案就「窺淫罪」立法上,保安局在6月底建議擴闊「私密影像」定義,以涵蓋「移花接木」影像。在社交媒體公司的政策上,例如Facebook去年1月起禁止deepfake技術剪輯的影片發布,除非是以戲謔、諷刺,或以省略文字或改變文字順序為目的。

講述名廚Anthony Bourdain的紀錄片因使用deepfake創作聲音引起爭議。圖為Anthony Bourdain死後,有民眾在他以往任職的餐廳悼念。(Getty Images)

在其他層面的程序上,很多還是暫時依靠業者自律。例如幾乎每間業者均強調,製作deepfake前都有徵得當事人知情同意。但英國紐卡素大學法律、創新與社會學教授 Lilian Edwards指出,deepfake影片的擁有權誰屬仍未解決:「如果使用了死人……現時仍有爭論,他們的家人是否應該得到擁有權,並且可以從中獲利?」

Metaphysic計劃召集其他deepfake創作者、廣告代理商、電影製片商和社交媒體,討論deepfake使用上的行業倫理標準。其中一種可能性是從辨識deepfake着手,除了最明顯直接的標籤之外,Umé說他歡迎在deepfake中加入某種形式的數碼水印,讓專家能較易在互聯網上發現和追蹤deepfake散播。

對於AI會否進一步取代人類工作的憂慮,例如配音員會否被「用完即棄」之類,Sonantic和Replica強調,他們的應用並非要從此取代配音員,而是設有與配音員分享收入的機制,每次在遊戲中使用他們的聲音,他們都能夠取得分成。

雖然deepfake愈見真實,在行業監管上的細節也有待確定,但Metaphysic共同創辧人Tom Graham認為,「不論大家喜歡與否,這技術只會持續向前」;騰訊也在《白皮書》中認為,各種挑戰「並不會磨滅這一技術給社會帶來的進步」,適當的監管下,deepfake「不會讓社會真相失守,更不是世界秩序的威脅者」,反而真正走進商業化的時代。