http://www.techbang.com/posts/51325-alphago-ke-jie
'AlphaGo2.0 的技術原理與之前有著巨大不同:
放棄了監督學習:沒有再用人的 3,000 萬局棋譜進行訓練這本是 AlphaGo 最亮眼的算法,也是今天主流機器學習不可避免的核心條件,依賴於優質的數據,在這個特定問題下就這麼被再次突破了。
放棄了蒙特卡洛樹搜索,不再進行暴力計算:理論上,算法越笨,就越需要暴力計算做補充。算法越聰明,就可以大大減少暴力計算。從 AlphaGo 2.0 的走棋非常迅速來看,約在每10秒鐘就走棋一步,如此速度很可能是放棄了暴力的計算。
極大化增強學習的作用,之前敲邊鼓的算法,正式成為主力。兩台機器遵守走棋和獲勝規則,從隨機走棋開始日夜切磋,總結經驗,不斷批評和自我批評,一周後終成大器。
在這樣的算法下,AlphaGo 2.0 對計算資源開銷極小,把當前棋局輸入神經網路,電流流過,輸出就是最佳的走棋方案。'