細思極恐︱AlphaGo再進化 MuZero不知規則卻精通十款電玩與棋類

撰文:數位時代
出版:更新:

2016年,AlphaGo戰勝韓國棋王李世乭,向全世界宣示了AI在遊戲領域的強悍實力。如今DeepMind又更上一層樓,向公眾介紹不必知曉規則,也能精通各式遊戲的AI模型MuZero,並可望用於降低YouTube的營運成本。

MuZero懂得遊玩數十款雅達利(Atari)電玩遊戲、西洋棋、圍棋及日本將棋,不過與它的前輩不同的是,以往沒有一款AI能夠同時精通電玩與棋盤類遊戲,且即使不告知它遊戲規則,也能在過程中自行領悟。

DeepMind曾於2019年首度披露MuZero的存在,但直到本周才正式於《自然》期刊上,發表論文介紹這項AI技術的細節。DeepMind指出,MuZero在各式遊戲中都有頂尖表現,並展現出對未知環境的掌握能力。

▼▼▼還記得AlphaGo先後擊敗李世乭、柯潔兩位世界級棋手?▼▼▼

+3

懂得自行學習遊戲規則,MuZero能以有限資訊做出最佳決策

「我們只是告訴系統說,用你自己建構的認知,去了解這個世界怎麼運作。」DeepMind電腦科學家大衛.西爾弗(David Silver)表示,「只要內部的理解成功對上了某個現實事物,那我們就滿意了。」

根據DeepMind披露的資訊,MuZero的運作方式是為它所遊玩的遊戲建立一個模型,然後依照模型規劃出遊戲中最好的策略、下一步,然後透過遊玩不斷優化這個模型。

MuZero的設計理念是考慮到現實應用環境,演算法不必全盤了解所有規範、準則,並建立一個100%準確的模型,而是需要在有限的資訊下,達到「夠用」的程度。

例如,在瞬息萬變的電玩遊戲中,AI沒有充足時間解析所有可能性,但在小精靈這類遊戲中,即使只從6、7種選擇中找出最佳路徑,MuZero依舊能取得非常好的成績;而在下圍棋時,MuZero也能以較少的運算量,達到比AlphaZero更好的結果。

DeepMind解釋,具體來說MuZero會對依照三種環境要素建立模型,一是當前位置、狀況的好壞,二是最好的下一步是什麼,三是最後的結果如何。如同繪製一幅樹狀圖般,AI利用深度學習理解各個行動最後會有怎樣的結果。

西爾弗指出,「現實世界非常複雜混亂,沒有一本手冊告訴我們他是怎麼運作的,但人類卻可以規劃出接下來該怎麼做。」若以DeepMind的舉例來說,當看到烏雲密佈的天空,預測有下雨的可能性,就會決定攜帶雨傘出門。

「這是我們首次擁有一個有辦法建立自己對世界的見解,據此做出複雜前瞻性決策的系統。」西爾弗提到,「(AI)可以從完全沒有先備知識的條件下開始,經由反覆測試學習世界規則,並展現出超越人類的表現。」

▼▼▼相關圖輯:人工智能已可吟詩作畫,AI真的擁有智慧?▼▼▼

+7

壓縮影片比當代技術更厲害,MuZero可望用於降低YouTube營運成本

由於是如此突破性的AI技術,DeepMind也持續尋找它適合擔綱的工作,目前表現最好的是影片壓縮,用類似MuZero的演算法實驗後發現,它的表現比以往最好的壓縮法節省5%網路流量。

西爾弗解釋,網路上資料流量絕大部分是由影片貢獻,倘若能夠有效壓縮影片,便可縮減經營成本。根據思科的資料,預估到2022年時,影片將佔據全球82%的網路流量。

英國媒體《BBC》指出,MuZero找到的新影片壓縮方式,也有望用於降低YouTube的營運成本,不過DeepMind暫時不願透露Google何時會利用這項技術,僅聲稱明年會有更多細節公佈。

不單用於影片壓縮上潛力無窮,MuZero也被認為有助於打造虛擬管家、機器人,甚至強化前陣子DeepMind宣佈取得突破性進展的蛋白質摺疊預測能力。

DeepMind一直渴望利用AI對世界做出貢獻,MuZero能夠依照有限資訊做出最佳判斷的能力,是AI走出螢幕踏入現實的重要里程碑。就如他們提到的,「知道撐傘能讓你免於淋濕,比分析空氣中的雨滴模型更有價值。」

延伸閱讀:迪士尼開發識眨眼、模擬情緒機械人▼▼▼

+9

延伸閱讀:虛擬情人眾籌!用VR與自訂理想戀人約會 未來人類解決性慾方法?▼▼▼

+21

延伸閱讀:

DeepMind又有AI新突破,攻克50年未解「蛋白質折疊」難題!可望加速藥物研究

Google開除AI倫理學先鋒引論戰!CEO親上火線,為何卻被批「最糟糕手法」?

【本文獲「數位時代」授權轉載。】