關於劫~
現代圍棋規則
第十一條 全局同形再現
一、劫爭馬上回提,判回提者著手無效,棄權一次。
二、終局時,按照禁止全局同形再現的原則,不允許以“假生”作為活棋。
三、對雙方互不相讓的三劫、四劫迴圈,長生、雙提二子等罕見特例,可判和棋或者重下。
四、根據禁止全局同形再現的原則,對局者不得將其作為不能終局的理由。
=====================================================================
圍棋打劫的規定(必須先在棋盤的其他地方先走一步才能提子[注意:棋盤是有限的!])
據在下的理解是為了限制棋局產生無限迴圈(不做限制的話~甲方提完、乙方提;甲方再提、乙方再提...)而導致棋局無法結束!
有誤敬請指正,謝謝!
=====================================================================
順便分享下 AlphaZero人工智能的棋類遊戲自我博奕訓練規則:
2017 年 12 月 5 日,DeepMind 發布了另一篇論文“使用通用強化學習算法通過自我對弈掌握國際象棋和將棋”,
展示了 AlphaGo Zero 如何適應國際象棋世界冠軍程序 StockFish 和 Elmo和將棋。
整個學習過程,從第一次展示遊戲到成為世界上最好的計算機程序,只用了不到 24 小時。
有了這個,AlphaZero 誕生了——一種在沒有任何人類專家策略先驗知識的情況下快速擅長某事的通用算法。---以上為google翻譯
AI的演化:AlphaGo → AlphaGo Zero → AlphaZero
AlphaZero 可以下西洋棋、日本將棋、圍棋[而且不需要人類知識;除了規則]
有了這個,AlphaZero 誕生了——一種在沒有任何人類專家策略先驗知識的情況下快速擅長某事的通用算法。
原文~
How to build your own AlphaZero AI using Python and Keras
引用:
2. The algorithm is ridiculously elegant
If AlphaZero used super-complex algorithms that only a handful of people in the world understood, it would still be an incredible achievement.
What makes it extraordinary is that a lot of the ideas in the paper are actually far less complex than previous versions.
At its heart, lies the following beautifully simple mantra for learning:
Mentally play through possible future scenarios, giving priority to promising paths, whilst also considering how others are most likely to react to your actions and continuing to explore the unknown.
After reaching a state that is unfamiliar, evaluate how favourable you believe the position to be and cascade the score back through previous positions in the mental pathway that led to this point.
After you’ve finished thinking about future possibilities, take the action that you’ve explored the most.
At the end of the game, go back and evaluate where you misjudged the value of the future positions and update your understanding accordingly.
|
用ChatGPT 翻譯上文如下:
2.這個演算法非常優雅。
如果AlphaZero使用只有少數幾個人能理解的超複雜演算法,它仍將是一個令人難以置信的成就。
讓它變得非凡的是,論文中很多思想實際上比以前的版本要簡單得多。
它的核心是以下美麗簡單的學習口訣:
在頭腦中玩可能的未來情景(在腦海中播放可能的未來情境),優先考慮有前途的路徑,同時考慮其他人對你的行動的反應,並繼續探索未知領域。
在達到一個不熟悉的狀態後,評估你認為這個位置是否有利,並將得分通過導致這個位置的頭腦路徑返回到以前的位置。
在思考未來可能性後,採取你已經探索過最多的行動。
(在你完成思考未來可能性之後,採取你已經探索過最多的行動。)
在遊戲結束時,回顧你對未來位置的價值判斷是否有誤,並相應地更新你的理解。