Google測試若AI面對AI 是合作共贏還是決一死戰?

撰文:吳家俊
出版:更新:

AlphaGo稱霸棋壇後,AI(人工智能)終有一日統治人類世界或成為事實,但倘若兩個AI系統發生衝突時,它們會為私利選擇對抗,還是合作走向共贏?繼創造AlphaGo後,DeepMind通過囚徒困境等博弈論(Game Theory),測試AI會如何選擇。
結論是,AI會如人類一樣,視乎遊戲規則而選擇最佳策略,代表遊戲的結果是各不相讓,最終「攬炒」,真係大家都輸。

繼創造AlphaGo後,Google旗下AI公司DeepMind測試人工智能系統在不同情況下的選擇。(美聯社)

自私,是個人獲得最大利益的基礎。但倘若個人利益與他人利益相左,他們會選擇犧牲部分個人利益進行合作,抑或直接對抗?隸屬Google的AI公司DeepMind在一項新研究中一直在探索這個問題。研究人員測試AI會在一系列「社會困境」,並利用最著名的囚徒困境作為測試基礎製造兩款遊戲,探討AI會如何做出選擇。結果顯示,假如兩個AI都為自身最大利益出發,以為背叛對方可以獲得好處的話,最終將會兩敗俱傷,圖解如下:

   圖解囚徒困境

  A合作 A背叛
B合作 兩人同時服刑1年 A獲釋;B服刑3年
B背叛 A服刑3年;B獲釋 2人同時服刑2年

註:合作指雙方都不供出同伴;背叛指供出同伴。

研究團隊其後再運用遊戲去驗證上述推論。第一款遊戲名為Gathering的回合制收集蘋果比賽,玩家可以選擇使用光束去標記另一玩家,使其暫時退出遊戲,繼續進行遊戲的玩家就可收集更多蘋果,從而獲勝。

另一款遊戲叫Wolfpack,2名玩家必須會抓1隻由另一電腦系統控制的狼。不僅是抓到狼的玩家可以獲得分數,附近玩家也可得分。

經過多次試驗,研究人員發現AI會根據不同情況,選擇與他人合作抑或對抗。在Gathering遊戲中,當有充足蘋果予雙方收集時,AI並沒無用激光束去把對方暫時踢出比賽。但當蘋果數量減少時,使用激光光束的次數也會增加。當研究人員提高AI的計算能力時,無論蘋果多寡,AI的攻擊頻率也會大幅增加,故此得出在搶蘋果遊戲甚至在其他情況下,AI的能力與攻擊能力成正比關係。

這樣的結果,是否代表能力越高的AI,越有攻擊傾向?研究人員認為,對於AI來說,攻擊對方相當耗費運算資源,如果在此投入過多時間,就會影響收集蘋果的數量。研究人員認為,AI是衡量過利害關係後才攻擊。但假若攻擊對方不會因此獲得更多蘋果,AI就會放棄攻擊。

相反在強調合作的Wolfpack遊戲中,由於獵物只有1個,對抗不能增加獲勝機會。因此運算能力較高的AI,就會更多地與其他玩家合作。與其他玩家合作的可能性就更大。

   規則決定AI行為

總結2個不同的實驗,研究人員認為AI可以根據不同遊戲規則,改變自身行為。如果這些規則獎勵侵略行為,如攻擊他者可讓自己有更多獲勝機會,AI就會更積極去攻擊。反之,假如遊戲規則列明可以透過合作達至共贏,AI就會選擇與其合作。

根據結果,研究人員認為未來可以透過制定合作共贏的規則,限制AI的行為模式。正如研究人員在他們的博客中總結:「作為這個研究的結果,我們可以更好地理解和控制複雜的AI系統,如經濟、交通系統甚至是地球的生態平衡。所有其中取決於我們的持續合作。」

(綜合報道)