PCDVD數位科技討論區 - 瀏覽單個文章

這個影片的解說還滿淺顯易懂的：
http://www.theverge.com/2016/3/9/11...lligence-impact

AlphaGo先用Policy Network選出棋盤上「有效的位置」(例如「眼」不能下)
然後用Value Network從那些位置中選出「最重要的」來下

那它怎麼知道哪些位置重要？從它三千萬場的對弈數據中得出「勝率比較高的地方」
(用統計來機器學習，可能會輸掉的地方不下，就像人會從錯誤中學習)

但是那不是「必勝法」
AlphaGo還是有可能選支線選到輸掉

　　　　　　○ …
　　　　　↗
　　　　 ● → ○ → ● → … → ● 贏了
　　　↗
　　 ○ → ● → ○
　↗　　　
●　　　　　 ○
　↘　　　↗
　　 ○ → ● → ○ → ● → … → 輸了
　　　↘
　　　　 ● → ○ → ● → … → 贏了
　　　　　↘
　　　　　　 ○ …

影片中提到AlphaGo大約先計算了20手，不知道職業棋士比賽時會預先算幾手？
還有，進入讀秒1分鐘的階段能先預算幾手？