PCDVD數位科技討論區 - 瀏覽單個文章

http://www.techbang.com/posts/51325-alphago-ke-jie

'AlphaGo2.0 的技術原理與之前有著巨大不同：

放棄了監督學習：沒有再用人的 3,000 萬局棋譜進行訓練這本是 AlphaGo 最亮眼的算法，也是今天主流機器學習不可避免的核心條件，依賴於優質的數據，在這個特定問題下就這麼被再次突破了。
放棄了蒙特卡洛樹搜索，不再進行暴力計算：理論上，算法越笨，就越需要暴力計算做補充。算法越聰明，就可以大大減少暴力計算。從 AlphaGo 2.0 的走棋非常迅速來看，約在每10秒鐘就走棋一步，如此速度很可能是放棄了暴力的計算。
極大化增強學習的作用，之前敲邊鼓的算法，正式成為主力。兩台機器遵守走棋和獲勝規則，從隨機走棋開始日夜切磋，總結經驗，不斷批評和自我批評，一周後終成大器。
在這樣的算法下，AlphaGo 2.0 對計算資源開銷極小，把當前棋局輸入神經網路，電流流過，輸出就是最佳的走棋方案。'