【科技.未來】Deepfake假得迫真 深度造假模糊真相什麼才可信?

撰文:孔祥威
出版:更新:

去年末,電影《神奇女俠》主角Gal Gadot成為了人工智能合成色情片的「主角」,讓大眾見識到「深度學習」(deep learning)原來可以是「深度造假」(deepfake)。隨着技術「假」得愈來愈真,一些影視業者開始以此作藝術創作。在假新聞透過社交媒體迅速散播的當下,不少學者擔心deepfake會進一步模糊真相,破壞社會秩序。

「我們正步進一個新時代,敵人似乎可以令任何人在任何時間說任何話,即使他們從來不會說出那種話。」西裝筆挺的美國前總統奧巴馬坐在椅子上,對着鏡頭發表演說。

然而,容貌、表情、聲音都看似奧巴馬,演說內容卻愈來愈不對勁:「例如他們可以叫我說……特朗普總統是徹頭徹尾的蠢材。我從來不會這樣說,至少在公開場合上。但有些人會,例如Jordan Peele。」此時畫面分成左右兩半,右方冒出一名黑人,與左方的奧巴馬口形一致地說:「這是危險的時代,我們要更加警覺,不要亂信互聯網上所看到的,要信任可靠的新聞來源。這聽起來很基本,但關乎我們可以生存,還是步向一塌糊塗的反烏托邦。保持清醒吧,婊子們。」

造假技術不再高深

這是BuzzFeed與演員Jordan Peele 4月時在YouTube發布、以FakeApp製成的「深度造假」影片。深度學習技術一直被視為只為人工智能研究社群所用,直至2017年末,一個網民以「Deepfakes」為名,在人氣論壇Reddit上發布了偽造的色情影片,把Gal Godot的樣貌「換」到色情片女演員身上,幾可亂真,其他知名受害女星還有Scarlett Johansson、Taylor Swift等。

自此,deepfake就代表了利用人工智能自動生成、幾可亂真、或許立心不良的偽造影片。這些影片和貼文雖然被Reddit和色情片網站PornHub屏蔽下架,但Deepfakes還發布了生成deepfake的軟件FakeApp,人人都可利用網上資源製造想要的deepfake。若嫌自己電腦太慢,坊間也有多間收費雲端運算服務可代勞。

Gal Gadot被人用deepfake技術合成為色情片主角。(資料圖片/視覺中國)

Deepfake是一系列造假技術的統稱,例如換臉、像傀儡般的同步動作、偽造聲帶、唇形同步等。利用「生成對抗網絡」(Generative Adversarial Network, GAN)還可製造更逼真的deepfake。這種深度學習技術由Google Brain研究員Ian Goodfellow在2014年發明,原意是利用算法從現有數據中產生更多新數據。例如利用數以千幅奧巴馬的照片合成出不重複、新的奧巴馬照片。這項技術也可用在聲音上。

GAN一般利用兩個深度學習網絡互相訓練,其一為產生者(generator),不斷產生deepfake影像,由作為鑑別者(discriminator)的另一網絡判斷真偽,以生成愈來愈像真的影像。GAN不僅可以「換面」,甚至可生成整個場景,例如把日轉為夜。

哪一個文翠珊是真的?還是兩個都是假的?(ABC網頁截圖)

想知道deepfakes是否到了肉眼看不出的程度,可到澳洲廣播公司(ABC)本年九月開設的專頁,將有更多測試可挑戰眼力。

科技進步讓GAN和deepfake得以普及和興起。美國加州大學柏克萊分校(UC Berkeley)博士生Deepak Pathak憶述:「在1999年,即電影《廿二世紀殺人網絡》(The Matrix)上映那年,已經有deepfake的概念,但當時的電腦運算實在太慢。現時電腦很快,圖像處理器(GPU)很先進。」

研究肢體偵測技術、同樣是博士生的Angjoo Kanazawa補充:「現時所有相關資源都是開源的。」「這是好事,因為我們希望研究成果可以複製。結果,高中生和大學生都能輕易掌控這些程式碼的運行。」 Pathak說。

圖像處理器技術進步迅速,促進人工智能發展。圖為去年Nvidia GPU技術大會上,一家廠商展示人臉辨識保安系統。(資料圖片/視覺中國)

家用電腦運算能力大幅提升的同時,也得到另一趨勢配合:大量照片和影片上傳到互聯網。加州大學柏克萊分校電腦科學家Alexei A. Efros回想,在本世紀初,電腦圖像可說陷於「數據荒」,即使當時3D模擬技術已足以生成像真的景像,但當中的城市、室內環境、地形等都是空白或毫無生命的,要夠真的話就需要「數據、數據和數據」,我們每天大量記錄的日常生活就是最佳素材。

現時研究人員可從ImageNet資料庫取得多達1,400萬張地方或物件的日常照片,它們都是從Flickr、eBay等網站收集而來,近年YouTube也成為ImageNet的資料來源。在2015至2016年間,便有240億張照片上傳到Google Photos,要取得他人肖像製作deepfake,可謂唾手可得。

大量照片和影片上傳到互聯網提供大量製作deepfake的素材。(視覺中國)

假到極致就是「藝術」

事實上,始作俑者Deepfakes向科技媒體《Motherboard》透露,其靈感就是從圖像處理器大廠Nvidia的科研而來。該研究試圖以現有照片教導軟件自行把相中的貓變成獵豹、街景由日轉夜,毋須人手改動而合成出新的假照片。Deepfakes聲稱自己只是一個普通程式員,並非人工智能專家。

雖然deepfake色情片引起大眾嘩然,但背後技術也為影視創作帶來更多可能性。歌手Charli XCX和Troye Sivan的《1999》音樂錄像就用了相關技術攝製,當中涉及大量上世紀九十年代的文化元素,如蘋果創辦人喬布斯(Steve Jobs)、電影《鐵達尼號》(Titanic)、諾基亞(Nokia)手機3310等,還把兩人面孔換到音樂組合Spice Girls和Backstreet Boys的成員身上。

導演Ryan Staake向科技媒體《The Verge》解釋,決定用deepfake是基於藝術和實際考慮:「你想想更換衣着和化妝何等複雜,拍攝時間將長五倍,所以這是務實的解決方法。」

今年8月,多國科學家聯同德國馬克斯普朗克計算機科學研究所(Max Planck Institute for Informatics)發布了名為「深度影片肖像」(deep video portraits)的技術,可任意控制他人的面部表情、說話和動作來生成影片。示範影片中,當研究人員張口、頭向右傾,一旁的奧巴馬合成影像會同步做出這些動作。研究員Christian Theobalt形容,這項技術有助演員在電影中說外語時夾口形和配音,也會令電影後期製作出來的效果更豐富,其團隊聲稱「將為影視娛樂工業帶來重大變化」。

不過,Efros的同事Hany Farid提醒,研究人員應考慮更廣泛的用途和影響:「從事特效的人固然會愛上這項新技術,但離開了荷里活,這項技術是否好多於壞,仍然未明。」

釀造「真實冷感」社會

美國馬里蘭大學(University of Maryland)法律教授Danielle Citron最初只關注deepfake如何侵犯女性私隱,後來逐漸發現deepfake亦可成為損害民主社會的工具。她和另一學者Bobby Chesney預期,deepfake將如假新聞般扭曲資訊,操控信仰,在愈趨兩極的政治氣候下,令社會不同群體之間更難溝通。「資訊網絡正以有害的方式與我們的認知偏見交互作用,削弱信任感,deepfake將令這個問題嚴重惡化。」他們在報告中寫道。

美國三名國會議員也在9月去信國家情報總監,警告deepfake或在選舉活動中被用來散播錯誤資訊。這種政治動機正是Citron最擔心的:「有個假的情景令我半夜嚇醒:德州選舉之際,有人發布了Beto O’Rourke(眾議院議員)召妓的deepfake影片。如果在投票前一晚發布,就很難在影響散播前揭穿它。」她續說:「我開始看到一個技術純熟的deepfake會如何阻礙民主過程。」

然而,有部分人覺得Citron過慮了。人工智能倫理與規管專家Tim Hwang認為,雖然隨着deepfake愈來愈逼真和容易製作,並將配合互聯網的散播力,形成「完美的誤導資訊風暴」,但現時相關技術仍不簡單,故他不擔心deepfake會帶來即時危險。或許deepfake的最大危機不在於引導人誤信什麼,而在於它的存在本身。密歇根大學社交媒體責任中心前首席技術專家Aviv Ovadya擔心,未來社會將出現「真實冷感」(reality apathy)現象:經常接觸虛假資訊會令人視所有事情都是騙局。在大眾對大型機構和媒體的信任度下跌之時,Ovadya預期deepfake將令情況惡化。《金融時報》副總編Roula Khalaf亦擔心,deepfake會令大眾將真的報道亦當假。

Citron和Chesney曾設想未來最壞的情況:deepfake在社會根深柢固,競選拉票、敲詐勒索等惡意使用無處不在,屆時我們只能不斷自行記錄日常生活,才能抵抗合成影片圖像,「而提供這種服務和管理相關數據的公司將擁有無比權力。」

2016年流出特朗普侮辱女性錄音(美國有線新聞網CNN報導):

至於短期內的影響,在哈佛大學媒體、政治和公共政策中心(Harvard’s Shorenstein Center)研究網上假資訊的Cameron Hickey認為,deepfake真偽討論的本身反映了一種危機,因為想要欺騙他人的人,也可藉deepfake之名來質疑任何對他不利的證據。

Farid同意這是deepfake短期內最大的危險:「你想想特朗普,若今時今日有一條他的聲帶流出,說他強抱女人,他將有很好的理由否認。他可以說那是有人合成的,而這理由卻可以很合理。」

史泰林時期的蘇聯,曾多次改篡改「歷史照片」。(Wikimedia Commons)

除了有可能操控現在和未來,deepfake也可用來控制過去,以造假影像在一代人腦中種下錯誤的記憶。Farid指出,史太林掌權的蘇聯曾大量修改書籍上的照片,將其政敵抹去:「為什麼要做這樣麻煩的事?因為照片有很強的視覺力量。改變照片就改變了歷史。」美國加州大學爾灣分校(UC Irvine)錯誤記憶專家Elizabeth Loftus認為,deepfake濫用的後果可以十分嚴重:「當人接收如此強烈的視覺訊息後,如何能在腦海中擺脫?」

虛假記憶滿足偏見

事實上,人腦極容易形成錯誤印象。美國網絡雜誌《Slate》在2010年進行測試,對讀者展示一堆真實照片,並從五張合成照片中,隨機抽取一張混入真實照片。當中包括奧巴馬與伊朗前總統艾哈邁迪內賈德(Mahmoud Ahmadinejad)握手,以及時任美國總統小布殊在卡特里娜風災時與棒球手Roger Clemens放假遊玩等。

《Slate》曾以合成照片,實驗讀者對假新聞有否「記憶」。其中一張合成照為美國總統奧巴馬與前伊朗總理艾哈邁迪內賈德握手,竟勾起了約四分之一參加者的虛假記憶。

《Slate》向約千名讀者查問是否記得看過這些照片,發現在看過奧巴馬握手照的人中,有47%人說記得發生過這件事,26%人更稱記得看過這張照片。《Slate》還讓讀者對該照片留言,其中一則說:「我認為奧巴馬做得很對,公然冷落艾哈邁迪內賈德將是錯誤的。」測試結果發現,每張合成照至少引起15%參與者的虛假回憶,總括而言,更有50%參與者聲稱相信合成照中的情景真實發生過。

測試引起了心理學家Steven Frenda注意,並與同事進一步分析結果。Frenda的結論是,合成照內容愈接近參與者的政治立場,受眾就愈容易以為真的發生過,就像保守派人士更傾向相信奧巴馬曾與敵國總統握手,自由派人士則更易相信小布殊與Clemens在風災時同遊。

Frenda補充,即使參與者刻意胡亂作答,這些偽造照片已印在他們腦海中:「當人說謊或掩飾真相時,可能會扭曲其記憶,所以,他們有時會將謊言及其誇大成分,與真正記得的部分混在一起。」事實上,人的記憶並非想像中可靠,不像錄影帶般倒帶到某時間點,而是由信手拈來最方便的記憶碎片重新建構出來,過程充滿偏見。Frenda表示,我們傾向忘記資訊來源,若在一個不可靠的網媒上看過假報道,日後有可能記錯為在CNN看到。

當deepfakes假得愈來愈真,人腦又如此不可靠,一些科學家和初創正研發技術應對。但單靠技術,又是否足以杜絕假影片、假新聞?請詳見另文《【科技.未來】防偽研發競賽展開 單靠科技足以打擊深度造假?》

上文節錄自第140期《香港01》周報(2018年12月3日)《「深度造假」崛起 還有什麼可相信?》。

更多周報文章︰【01周報專頁】《香港01》周報,各大書報攤及便利店有售。你亦可按此訂閱周報,閱讀更多深度報道。