這個影片的解說還滿淺顯易懂的:
http://www.theverge.com/2016/3/9/11...lligence-impact
AlphaGo先用Policy Network選出棋盤上「有效的位置」(例如「眼」不能下)
然後用Value Network從那些位置中選出「最重要的」來下
那它怎麼知道哪些位置重要?從它三千萬場的對弈數據中得出「勝率比較高的地方」
(用統計來機器學習,可能會輸掉的地方不下,就像人會從錯誤中學習)
但是那不是「必勝法」
AlphaGo還是有可能選支線選到輸掉
○ …
↗
● → ○ → ● → … → ● 贏了
↗
○ → ● → ○
↗
● ○
↘ ↗
○ → ● → ○ → ● → … → 輸了
↘
● → ○ → ● → … → 贏了
↘
○ …
影片中提到AlphaGo大約先計算了20手,不知道職業棋士比賽時會預先算幾手?
還有,進入讀秒1分鐘的階段能先預算幾手?