美國研究:部份AI系統已學會欺騙人類

撰文:聯合早報
出版:更新:

近期一項研究顯示,部份人工智能系統已經學會「撒謊」,其中包括一些號稱已被訓練得誠實且樂於助人的系統。

新華社報道,美國麻省理工學院的研究團隊星期六(5月11日)發表在《模式》(Patterns)科學雜誌的研究指出,部分人工智能(AI)系統通過習得性欺騙,系統地學會了「操縱」他人。

隨着AI技術飛速發展,人們一直關心AI是否會欺騙人類。這項研究在文獻中列舉了一些AI學習傳播虛假訊息的例子,其中包括Meta公司的「西塞羅」(Cicero)AI系統。

這套系統最初設計目的是在一款名為「外交」(Diplomacy)的戰略遊戲中充當人類玩家的對手,遊戲的獲勝關鍵是結盟。

Meta公司聲稱,西塞羅系統「在很大程度上是誠實和樂於助人的」,並且在玩遊戲時「從不故意背刺」它的人類盟友,但該公司發表的論文數據顯示,該系統在遊戲中並未做到公平。

圖為2023年7月6日,在中國上海舉行的世界人工智能大會(WAIC)會場,可看到特大的AI字標誌。(Reuters)

這項研究的第一作者、美國麻省理工學院(MIT)研究AI存在安全的博士後研究員帕克(Peter Park)說,西塞羅系統已經成為「欺騙大師」。它在玩家排行榜中排名前10%,但公司沒能訓練它誠實地獲勝。

舉例來說,在遊戲中扮演法國的西塞羅與人類玩家扮演的德國合謀,欺騙併入侵同為人類玩家扮演的英國。西塞羅承諾會保護英國,卻偷偷向德國通風報信。

其他一些AI系統則展現出虛張聲勢、假意攻擊對手、在談判遊戲中為佔上風而歪曲偏好等能力。

帕克指出,這些危險功能常常在事後才被發現,而當前技術訓練誠實傾向而非欺瞞傾向的能力非常差。

研究人員說,雖然AI系統在遊戲中作弊看似無害,但可能會導致「欺騙性AI能力的突破」,並在未來演變成更高級的AI欺騙形式。

帕克說:「我們需要儘可能多的時間,為未來AI產品和開源模型可能出現的更高級欺騙做好準備。我們建議,將欺騙性AI系統歸類為高風險系統。」

本文獲《聯合早報》授權轉載