Wednesday, May 24, 2017

AI 從頭學(二五):AlphaGo

AI 從頭學(二五):AlphaGo

2017/05/24

以四勝一負在2016年擊敗李世乭的 AlphaGo [1],在2017/5/23,再度以1/4目之差,小勝持黑的柯潔 [2]。AlphaGo 背後的靈魂人物,說是 Aja Huang 也不為過 [1]。

-----


Fig. 1. 黃士傑與AlphaGo對弈李世乭 [1]。



Fig. 2. 第 24 手「大飛」,第 54 手「斷」[2].

-----

Aja Huang 是台師大資工博士,碩士班跟博士班的題目都是圍棋 [1]。看完與柯潔的對奕之後,我特地找了他的博士論文來看 [3],參考文獻裡看似只有一篇跟深度學習有關 [4],其餘多屬強化學習的 MCTS [3]。

不過這篇 backpropagation [4] 並非我們熟悉的 BP 演算法 [5]。回過頭來再看 2016 年 DeepMind 發表的論文 [6],在 Huang 專門的 MCTS 之上,導入近年來最熱的深度學習 [7],Policy Network、Value Network、MCTS 三缺一不可,才是致勝的關鍵。

用 CNN 來下圍棋並非 DeepMind 首創 [8],早在1996年,即有學者提出用類神經網路下圍棋的概念 [9]。

[6]、[7]、[8]、[10] 一路追下去,[10] 這篇應該可以算是 AlphaGo alpha 版,裡面 CNN、TD、MCTS 都有。還不到十年,棋王就已不敵...

更早一點的研究,還有 [11]-[14]。

-----

References

[1] 創造AlphaGo的台灣「土博士」,他們眼中的黃士傑 _ 端傳媒 Initium Media
https://theinitium.com/article/20170116-taiwan-AlphaGo/

[2] 柯潔為何說「輸得沒脾氣」?8 個問題解讀人機大戰第一局 - INSIDE 硬塞的網路趨勢觀察
https://www.inside.com.tw/2017/05/23/analyzing-alphago-versus-ke-jie-round-1

[3] 應用於電腦圍棋之蒙地卡羅樹搜尋法的新啟發式演算法 SC Huang - 臺灣師範大學資訊工程研究所學位論文, 2011

[4] 2009_Backpropagation modification in Monte-Carlo game tree search

[5] AI從頭學(九):Back Propagation
http://hemingwang.blogspot.tw/2017/02/aiback-propagation.html

[6] 2016_Mastering the game of Go with deep neural networks and tree search

[7] 2015_Move evaluation in Go using deep convolutional neural networks

[8] 2014_Teaching deep convolutional neural networks to play Go

[9] 1996_The integration of a priori knowledge into a Go playing neural network

[10] 2008_Mimicking go experts with convolutional neural networks

[11] 2003_Local move prediction in Go

[12] 2003_Evaluation in Go by a neural network using soft segmentation

[13] 1996_The integration of a priori knowledge into a Go playing neural network

[14] 1994_Temporal difference learning of position evaluation in the game of Go

No comments: