AlphaZero炼成最强通用棋类AI,仅用8小时就能完**类棋类游戏
萌战吧
全部回复
仅看楼主
level 15
AlphaZero与AlphaGo Zero的4大不同
AlphaZero算法与原始的AlphaGo Zero算法有以下几大不同:
1、AlphaGo Zero是在假设结果为赢/输二元的情况下,对获胜概率进行估计和优化。而AlphaZero会将平局或其他潜在结果也纳入考虑,对结果进行估计和优化。
2、AlphaGo和AlphaGo Zero会转变棋盘位置进行数据增强,而AlphaZero不会。根据围棋的规则,棋盘发生旋转和反转结果都不会发生变化。对此,AlphaGo和AlphaGo Zero使用两种方式应对。首先,为每个位置生成8个对称图像来增强训练数据。其次,在MCTS期间,棋盘位置在被神经网络评估前,会使用随机选择的旋转或反转进行转换,以便MonteCarlo评估在不同的偏差上进行平均。而在国际象棋和将棋中,棋盘是不对称的,一般来说对称也是不可能的。因此,AlphaZero不会增强训练数据,也不会在MCTS期间转换棋盘位置。
3、在AlphaGo Zero中,自我对弈是由以前所有迭代中最好的玩家生成的。而这个“最好的玩家”是这样选择出来的:每次训练结束后,都会比较新玩家与最佳玩家;如果新玩家以55%的优势获胜,那么它将成为新的最佳玩家,自我对弈也将由这个新玩家产生的。AlphaZero只维护单一的一个神经网络,这个神经网络不断更新,而不是等待迭代完成。自我对弈是通过使用这个神经网络的最新参数生成的,省略了评估步骤和选择最佳玩家的过程。
4、使用的超参数不同:AlphaGo Zero通过贝叶斯优化调整搜索的超参数;AlphaZero中,所有对弈都重复使用相同的超参数,因此无需进行针对特定某种游戏的调整。唯一的例外是为保证探索而添加到先验策略中的噪音;这与棋局类型典型移动数量成比例。
[阴险]
2017年12月07日 01点12分 1
level 15
但今天AlphaZero来了(https://arxiv.org/pdf/1712.01815.pdf),它破除了一切怀疑,通过使用与AlphaGo Zero一模一样的方法(同样是MCTS+深度网络,实际还做了一些简化),它从零开始训练:
4小时就打败了国际象棋的最强程序Stockfish!
2小时就打败了日本将棋的最强程序Elmo!
8小时就打败了与李世石对战的AlphaGo v18!
在训练后,它面对Stockfish取得100盘不败的恐怖战绩,而且比之前的AlphaGo Zero也更为强大(根据论文后面的表格,训练34小时的AlphaZero胜过训练72小时的AlphaGo Zero)。
这令人震惊,因为此前大家都认为Stockfish已趋于完美,它的代码中有无数人类精心构造的算法技巧。
然而,现在Stockfish就像一位武术大师,碰上了用枪的AlphaZero,被一枪毙命。
喜欢国象的同学注意了:AlphaZero不喜欢西西里防御。
训练过程极其简单粗暴。超参数,网络架构都不需要调整。无脑上算力,就能解决一切问题。
Stockfish和Elmo,每秒种需要搜索高达几千万个局面。
AlphaZero每秒种仅需搜索几万个局面,就将他们碾压。深度网络真是狂拽炫酷。
当然,训练AlphaZero所需的计算资源也是海量的。这次DeepMind直接说了,需要5000个TPU v1作为生成自对弈棋谱。
不过,随着硬件的发展,这样的计算资源会越来越普及。未来的AI会有多强大,确实值得思考。
个人一直认为,MCTS+深度网络是非常强的组合,因为MCTS可为深度网络补充逻辑性。我预测,这个组合未来会在更多场合显示威力,例如有可能真正实现自动写代码,自动数学证明。
为什么说编程和数学,因为这两个领域和下棋一样,都有明确的规则和目标,有可模拟的环境。(在此之前,深度学习的调参党和架构党估计会先被干掉...... 目前很多灌水论文,电脑以后自己都可以写出来。)
也许在5到20年内,我们会看到《Mastering Programming and Mathematics by General Reinforcement Learning》。然后许多人都要自谋出路了......
2017年12月07日 01点12分 2
wc,是哪个版本的stockfish,如果是7以上的版本就nb大了
2017年12月07日 03点12分
回复 御坂10075 :新闻里说都是最强版本
2017年12月07日 04点12分
level 14
[阴险]
2017年12月07日 02点12分 3
level 13
又进化呐?
2017年12月07日 02点12分 4
level 12
我是日本晚稻田大学副校长
2017年12月07日 02点12分 5
level 13
[真棒]
2017年12月07日 02点12分 6
level 13
这下棋类都有模板可以攻克了…看立体化的游戏例如之前说的星际2有没办法攻克。
2017年12月07日 02点12分 7
第一步比较麻烦,后面就好了
2017年12月07日 02点12分
记得之前好像公布过一次进度,说是连简单人机都打不过,不过他们这个制作和暴雪自己做AI不一样,不完全是以胜负为目的,目前还处于探索阶段,暴雪自己做的游戏AI是依托游戏本身的,区别还是很大的
2017年12月07日 03点12分
level 1
也就是说没有明确的目标与规则,可模拟的环境,人工智能也和大部分人一样会迷茫
2017年12月07日 02点12分 8
level 1
也就是说没有明确的目标与规则,可模拟的环境,人工智能也和大部分人一样会迷茫
2017年12月07日 02点12分 9
level 15
[阴险][阴险]
2017年12月07日 02点12分 10
level 9
[喷]等等,噪音先验?怎么又回到统计方法了?
2017年12月07日 02点12分 11
不调参的意义倒是挺重大的,然而也堵了发论文的路。一般调参都是对特定一个问题找到一个比较好的模型,只要证明这个参数在这个问题上对比其他的要好就行,很多standard都可以人为定,cutoff人为取。不调参省时省力但会干掉大量水文。[滑稽]
2017年12月07日 02点12分
本来就是回归、贝叶斯等这些统计基础上才发展出来的。。。
2017年12月07日 12点12分
@洛magi魅 不一样,只能说ML的发展借了统计学习方法的力,尤其靠着SVM撑了数年,不过这个世纪大家都转向迭代求解最优化问题了,除了loss function沾点边和统计学习方法的思路完全不一样,靠先验和理想模型出发常常不给力,否则不会出现那个“随机森林天下第一”的经典笑话了。[狂汗]
2017年12月07日 16点12分
level 15
AI学会编程的话,就打开AI繁殖的大门了[阴险]
2017年12月07日 02点12分 12
很快的
2017年12月07日 02点12分
google的确有组在训练ai进行简单的编程自学,例如图片识别,据说成果比人编的还好。
2017年12月07日 02点12分
level 13
不调参数[喷]
2017年12月07日 02点12分 13
level 16
[酷]
2017年12月07日 02点12分 14
level 15
[滑稽]所以,还是打不过星际2简单电脑
2017年12月07日 03点12分 15
一开始这围棋也是被普通人吊打
2017年12月07日 03点12分
@小时候的事啊 [阴险]所以审判日or智械危机要到来了?
2017年12月07日 03点12分
回复 12450只西瓜熊 :打个游戏而已
2017年12月07日 03点12分
[阴险]花式吹暴爹
2017年12月07日 03点12分
1 2 尾页