level 9
纯洁又善良
楼主
自从AlphaGo崛起以来,采用深度计算的人工智能围棋都采用Tromp-Taylor 规则来判定胜负。
Tromp-Taylor 规则如下:
1、围棋在19x19的棋盘上进行,对战者称为黑方和白方;
2、每个交叉点为黑,白,空三种颜色;
3、称某颜色不为C的点P为“到达C”,若存在一条由全是P点颜色的相邻点(水平或竖直)构成的从P到某颜色为C的点的路径;(就是说从P可以一直不变色地走到一个颜色为C的点)
4、将所有不能“到达空”的某种颜色的点染为空,叫做“清除”那种颜色;
5、从空白棋盘开始,双方轮替“下”,黑方起始;
6、“下”要么是什么也不走,要么是使得全局不和以往重复的一次“落子”;
7、“落子”由如下步骤组成:首先将一个空点染为己方颜色,然后“清除”对方颜色,再然后“清除”己方颜色;
8、当出现两次连续的“不走”时,棋局结束;
9、某一方的点数等于此方颜色的点数加上只“到达”这一颜色的空色点数;
10、点数高的一方获胜。双方点数相等为平局。
这一规则由 John Tromp 和 Bill Taylor 创制,也被称为围棋的逻辑规则,试图尽量简化规则,并消除歧义。
而采用这个规则训练出的AI,包括alphazero都有一个缺陷,就是优势下面退让的问题,最大的原因就是处在Tromp-Taylor 规则最后一条,点数高的一方获胜。也就是说赢半目和赢361目在规则上是等价的。
这条规则没有追求最优的策略。这导致优势下保守是AlphaGo系列胎里的毛病,虽然在围棋胜负上不会有变动,但距离完美总是有差距。
为了改变这个毛病,在不改变大规则的前提下,个人提出一个小建议:电脑训练的两个权重,胜负关系用数子法来决定,胜负不是由一盘决定,而是两番棋来判断,每盘棋都要走完单官,最后将两盘棋的点数相加,点数高的一番获胜,而为了避免过多的和棋,可用点数/手数相加来判定,这样AI训练的时候,优势方会比现在更倾向于准确的收束手法,而不会轻易退让。当然,这种规则的改变,会使得训练速度上减慢至少一倍,但经过多次权重迭代后,相信训练出的AI会比现在的AI更加稳准狠,这种改变应该是值得的。
2018年03月25日 07点03分
1
Tromp-Taylor 规则如下:
1、围棋在19x19的棋盘上进行,对战者称为黑方和白方;
2、每个交叉点为黑,白,空三种颜色;
3、称某颜色不为C的点P为“到达C”,若存在一条由全是P点颜色的相邻点(水平或竖直)构成的从P到某颜色为C的点的路径;(就是说从P可以一直不变色地走到一个颜色为C的点)
4、将所有不能“到达空”的某种颜色的点染为空,叫做“清除”那种颜色;
5、从空白棋盘开始,双方轮替“下”,黑方起始;
6、“下”要么是什么也不走,要么是使得全局不和以往重复的一次“落子”;
7、“落子”由如下步骤组成:首先将一个空点染为己方颜色,然后“清除”对方颜色,再然后“清除”己方颜色;
8、当出现两次连续的“不走”时,棋局结束;
9、某一方的点数等于此方颜色的点数加上只“到达”这一颜色的空色点数;
10、点数高的一方获胜。双方点数相等为平局。
这一规则由 John Tromp 和 Bill Taylor 创制,也被称为围棋的逻辑规则,试图尽量简化规则,并消除歧义。
而采用这个规则训练出的AI,包括alphazero都有一个缺陷,就是优势下面退让的问题,最大的原因就是处在Tromp-Taylor 规则最后一条,点数高的一方获胜。也就是说赢半目和赢361目在规则上是等价的。
这条规则没有追求最优的策略。这导致优势下保守是AlphaGo系列胎里的毛病,虽然在围棋胜负上不会有变动,但距离完美总是有差距。
为了改变这个毛病,在不改变大规则的前提下,个人提出一个小建议:电脑训练的两个权重,胜负关系用数子法来决定,胜负不是由一盘决定,而是两番棋来判断,每盘棋都要走完单官,最后将两盘棋的点数相加,点数高的一番获胜,而为了避免过多的和棋,可用点数/手数相加来判定,这样AI训练的时候,优势方会比现在更倾向于准确的收束手法,而不会轻易退让。当然,这种规则的改变,会使得训练速度上减慢至少一倍,但经过多次权重迭代后,相信训练出的AI会比现在的AI更加稳准狠,这种改变应该是值得的。