瀏覽單個文章
Error37
Amateur Member
 

加入日期: Jun 2012
文章: 43
這個影片的解說還滿淺顯易懂的:
http://www.theverge.com/2016/3/9/11...lligence-impact

AlphaGo先用Policy Network選出棋盤上「有效的位置」(例如「眼」不能下)
然後用Value Network從那些位置中選出「最重要的」來下

那它怎麼知道哪些位置重要?從它三千萬場的對弈數據中得出「勝率比較高的地方」
(用統計來機器學習,可能會輸掉的地方不下,就像人會從錯誤中學習)

但是那不是「必勝法」
AlphaGo還是有可能選支線選到輸掉

      ○ …
     ↗
     ● → ○ → ● → … → ● 贏了
   ↗
   ○ → ● → ○
 ↗   
●       ○
 ↘   ↗
   ○ → ● → ○ → ● → … → 輸了
   ↘
     ● → ○ → ● → … → 贏了
     ↘
       ○ …

影片中提到AlphaGo大約先計算了20手,不知道職業棋士比賽時會預先算幾手?
還有,進入讀秒1分鐘的階段能先預算幾手?
舊 2016-03-13, 12:34 AM #218
回應時引用此文章
Error37離線中