【柯潔對AlphaGo】點解AlphaGo咁厲害?AI比去年對李世石時強多倍

撰文:林勇
出版:更新:

人類對AI「終極一戰」,由世界第一棋王柯潔對AlphaGo的首場對局展開戰幔。不過,第一場對奕,無論柯潔是如何頑強抵抗,最後還是僅敗給AlphaGo。究竟為什麼AlphaGo的棋力那麼驚人?開發AlphaGo的DeepMind更說AlphaGo 現在的棋力比去年與李世乭對戰時強得多!

不少棋手讚嘆AlphaGo的下棋節奏以及出招狠準程度已非一般高手可媲美。(林勇攝)

要了解AlphaGo的強,首先要了解AlphaGo是什麼。由Demis Hassabis、Shane Legg 及 Mustafa Suleyman於2010年創立DeepMind,開發了電腦AI系統AlphaGo,更是第一個擊敗人類職業圍棋選手及世界冠軍的電腦AI程式。去年3月,AlphaGo經過5局的對弈,最終以 4 比 1 的總比分戰勝了圍棋世界冠軍李世乭,更是人工智能領域中重要里程碑。AlphaGo憑着「充滿創意且機智」的下法,躋身圍棋界最高稱號「職業九段行列」,更成為歷史上首個獲得該榮譽的非人類棋手。

【柯潔對AlphaGo】現場直擊決戰場地「烏鎮互聯網國際會展中心」  (按此前往頁面)

DeepMind創辦人之一Demis Hassabis,指AlphaGo完成這幾場對奕後,才會公布接下來的目標。(林勇攝)

年初AlphaGo 2.0就以以「Master / Magister」名字,與世界頂級圍棋選手進行了60場網上快棋對局,並取得全勝戰績。這些對戰,都是AlphaGo自我進化的最佳素材。圍棋一直以來都被認為是AI最具挑戰性的項目,因為它包含了龐大的搜索空間,對於落子位置的評估難度已遠遠超過了簡單的演算法。為此,AlphaGo採用了新穎的機器學習技術,結合了監督學習和強化學習的優勢,再通過不斷訓練自我形成一個策略網絡(policy network),以棋盤上的局勢作為輸入資訊,並對所有可行的落子位置產生一個概率分佈,從而訓練出一個價值網絡路(value network),再對自我對弈進行預測,預測所有可行落子位置的結果。新版AlphaGo產生大量自我對弈棋局,為下一代版本提供了訓練資料,此過程循環往復,可提升棋力。

柯潔首戰對敗給AlphaGo,心服口服。(林勇攝)

目前最新版本的AlphaGo是利用雲端(Cloud Computing)上以單TPU(Tensor Processing Unit)運行,亦即是早前Goolge I/O開發者大會上所公布的最新版本。TPU 是專門為機器學習而設計的處理器,相比去年3月與李世乭的比賽,最新版本在處理計算時所消耗的電量僅為以往的10分之1,可以在最低的功耗下發揮最大的效能。

柯潔在賽後更指,「AlphaGo不單下了好棋,更製造了很多一石二鳥的『劫材』。AlphaGo 實在出色,這一局輸得心服口服。」