美國研究：部份AI系統已學會欺騙人類

近期一項研究顯示，部份人工智能系統已經學會「撒謊」，其中包括一些號稱已被訓練得誠實且樂於助人的系統。

新華社報道，美國麻省理工學院的研究團隊星期六（5月11日）發表在《模式》（Patterns）科學雜誌的研究指出，部分人工智能（AI）系統通過習得性欺騙，系統地學會了「操縱」他人。

隨着AI技術飛速發展，人們一直關心AI是否會欺騙人類。這項研究在文獻中列舉了一些AI學習傳播虛假訊息的例子，其中包括Meta公司的「西塞羅」（Cicero）AI系統。

這套系統最初設計目的是在一款名為「外交」（Diplomacy）的戰略遊戲中充當人類玩家的對手，遊戲的獲勝關鍵是結盟。

Meta公司聲稱，西塞羅系統「在很大程度上是誠實和樂於助人的」，並且在玩遊戲時「從不故意背刺」它的人類盟友，但該公司發表的論文數據顯示，該系統在遊戲中並未做到公平。

圖為2023年7月6日，在中國上海舉行的世界人工智能大會（WAIC）會場，可看到特大的AI字標誌。（Reuters）

這項研究的第一作者、美國麻省理工學院（MIT）研究AI存在安全的博士後研究員帕克（Peter Park）說，西塞羅系統已經成為「欺騙大師」。它在玩家排行榜中排名前10%，但公司沒能訓練它誠實地獲勝。

舉例來說，在遊戲中扮演法國的西塞羅與人類玩家扮演的德國合謀，欺騙併入侵同為人類玩家扮演的英國。西塞羅承諾會保護英國，卻偷偷向德國通風報信。

其他一些AI系統則展現出虛張聲勢、假意攻擊對手、在談判遊戲中為佔上風而歪曲偏好等能力。

帕克指出，這些危險功能常常在事後才被發現，而當前技術訓練誠實傾向而非欺瞞傾向的能力非常差。

研究人員說，雖然AI系統在遊戲中作弊看似無害，但可能會導致「欺騙性AI能力的突破」，並在未來演變成更高級的AI欺騙形式。

帕克說：「我們需要儘可能多的時間，為未來AI產品和開源模型可能出現的更高級欺騙做好準備。我們建議，將欺騙性AI系統歸類為高風險系統。」

本文獲《聯合早報》授權轉載