绕锅锅 绕锅锅
关注数: 21 粉丝数: 372 发帖数: 2,818 关注贴吧数: 12
田博士又给了人类信心,我们需要进化成为外星人 让我非常吃惊的是仅仅用了四百九十万的自我对局,每步仅用1600的MCTS rollout,Zero就超过了去年三月份的水平。并且这些自我对局里有很大一部分是完全瞎走的。这个数字相当有意思。想一想围棋所有合法状态的数量级是10^170(见Counting Legal Positions in Go),五百万局棋所能覆盖的状态数目也就是10^9这个数量级,这两个数之间的比例比宇宙中所有原子的总数还要多得多。仅仅用这些样本就能学得非常好,只能说明卷积神经网络(CNN)的结构非常顺应围棋的走法,说句形象的话,这就相当于看了大英百科全书的第一个字母就能猜出其所有的内容。用ML的语言来说,CNN的induction bias(模型的适用范围)极其适合围棋漂亮精致的规则,所以稍微给点样本水平就上去了。 二是或许卷积神经网络(CNN)系列算法在围棋上的成功,不是因为它达到了围棋之神的水平,而是因为人类棋手也是用CNN的方式去学棋去下棋,于是在同样的道路上,或者说同样的induction bias下,计算机跑得比人类全体都快得多。假设有某种外星生物用RNN的方式学棋,换一种induction bias,那它可能找到另一种(可能更强的)下棋方式。Zero用CNN及ResNet的框架在自学习过程中和人类世界中围棋的演化有大量的相似点,在侧面上印证了这个思路。在这点上来说,说穷尽了围棋肯定是还早。 全文见知乎
这个讲AlphaGo的文章有点意思,里面讲了怎么欺骗人工智能 AI专家周舒畅:利用深度学习的能力可以减少AlphaGo被欺骗概率 发商机:最近AlphaGo和李世石的人机对弈以后,许多人对人工智能和深度学习产生了新的兴趣。那么,有时候我想问的就是,AlphaGo 在前面表现一直都很好,但是第四局开始出现很多低级错误,给人一种抽风的感觉,为什么会发生这样的情况? 周舒畅:首先我先把它的结构稍微的讲一下,AlphaGo不能归结于只是一个深度学习,它有深度学习,也有搜索的部分,它是这两者的结合。我们现在一块一块的来看。 首先是深度学习。深度学习的方法现在最常见的分支叫做有监督学习。有监督学习的意思其实就是说,我有许多标准答案的卷子,我不停地试着做问题,做完了参考答案。一开始我可能不会做,但做了很多次以后,我成功率逐渐就上来了。围棋的深度学习部分也是类似这样的。它看了那么多棋谱,有一部分是以前人类的棋谱,另一部分就是它自己跟自己下的棋谱。通过已知的棋谱,它能够像人一样,逐渐对一些情况作出自己的判断。 但是深度学习有没有局限性?也有。就跟人的学习一样,它其实是依赖一种叫做泛化能力的机制,从已知推断到未知。比如说你见过一万只天鹅发现都是白的,然后你就推断出天鹅都是白的,以后看到天鹅就是白的。但是这个时候你就有一个风险:比如说人们在埃及发现一种黑天鹅,那深度学习这块就会出错。 第二它除了深度学习部分,还有一个强化学习,准确应该说是搜索的部分。搜索的部分简单来说就是它自己心里跟自己下棋,假设我这几步,李世石会怎么下,我再接着应该怎么下。 当然只做一次肯定不靠谱,所以它可能会做多次。所以我们看它这里有两个随机性,一个就是说它在推演自己和李世石下面几步,就是两个阶段,一个是推演下面几步,另外一个阶段是从那几步开始,开始叫开始到结局,这两部分都是有随机性在里面,只要有随机性,肯定也是会出错的。即使他自己认为自己是70%的概率,假设这个是对的,李世石还有三成的概率会赢。更何况李世石在里面可能藏了一手,有可能Alpha Go赢的概率,实际上李世石看来是只有10%,也就是说AlphaGo被欺骗了。当然,有可能之前它也被李世石骗过好几次,但是可能之前走了一步两步它忽然明白了,李世石也赚到的好处不多。但是这次它被骗的步数非常多,最后就得输棋了。 发商机:我看到一个说法说,这个跟图像识别有很大的关系,比如李世石的下法实际上把棋盘分成了若干块不相连接的非常复杂的图像,这样就造成了它在局部上的识别的困难。这种说法有没有道理呢? 周舒畅:所谓图象识别,就是把19×19的图片,把那个围棋棋盘当个图像丢进去给打分。它可以通过这个分数对棋局有一个整体的把握。它用的网络是叫做“卷积神经网络”,这个网络有个特性,就是它有一定的平移不变性,所以你可以认为它对局部也有很好的建模。 那么这个问题是不是图像识别的问题?这个恐怕不好说,首先你可以认为,它的图象识别部分是它的“眼睛”。“眼睛”看到以后,它有一个感觉,然后做一些直观的判断。但是这个直观的判断是为了干什么呢?是辅助后面它的第二个部分搜索的部分,你可以认为它的搜索的部分是它的逻辑。这两个部分到底在哪儿出错,其实是不容易分析的。 但是我们从人类怎么给它制造困难的角度,可以有两种影响AI的办法一是比如说你想办法让你的图象长得好像很像要输的样子,它可能就会受你诱导,这可以欺骗图象识别部分。第二部分就是说你让它的搜索树特别长。其实Google也考虑了这个问题,比如论文里提到某些情况它如果不做特殊的处理的话,它可能会随机下。比如它觉得胜率整体不高的情况下, 会想,盘面别的200、300个位置是不是也能下一下?它就不停地想这些东西。这就把它有用的搜索的时间给耗掉。 但是回到开始的话题,究竟哪个部分受到欺骗?现在还是不确定的。因为它还是两个东西相结合。它一旦合在一起以后,你没法儿真正把一个具体的问题定位在哪儿。此外还有其他可能的原因,比如它在之前可能没有碰到自己胜率很低过,但是在第87步以后,它突然发现李世石的胜率很高,自己的胜率很低,这个可能是它之前没有碰到过的情况,所以它就开始出现混乱。 发商机:所以这牵扯到另外一个大家也是挺关心的问题,就是说深度学习在我们的印象中,一般人的参与是比较少的,大部分都是由机器自己执行。这样的话它可能产生一些BUG我们也不知道,如果它真正产生一些BUG,这个BUG出现了,我们也没有办法改变电脑内部已经学习完成的逻辑,这个时候应该怎么办呢? 周舒畅:首先深度学习还是有一些人能操控的参数。即便是电脑自动学习形成的参数,你也有可能用一些方法间接的影响它。 什么叫间接的影响呢?比如说你忽然发现一个AlphaGo在输棋的情况下,它下得很惨。这个时候你其实可以给他一些特殊的设定。比如说拿一个棋盘,忽然换了一个方式,让这个AlphaGo处于非常的劣势,比如说盲目的往上面多放几个子,让它处于劣势状态,然后再接着让另一个AlphaGo跟它下。这样的话就能产生这种不均衡的对局,用这些再去训练要跟李世石打比赛的AlphaGo。以前的AlphaGo你可以认为说之前一直赢棋,只打过顺风仗,没打过硬仗,你可以人为的让它打很多硬仗,然后可能第二天就是一个打过硬仗的AlphaGo,就不一样了。
小李,捍卫人类的尊严 从对AlphaGo的不屑到震惊,围棋之神真的降临人间了吗? 人类能成为万物之灵在于人类对于无穷自然的独特处理方式,映射到围棋上就是围棋的变化近乎无穷, 人类可以用自己的独特的处理方式来理解围棋,理解无穷信息,理解无穷宇宙,即总结规律,应用规律。 在围棋中存在两种斗争,一种是人和围棋的斗争,也就是通俗说的,人对棋道的探索,对围棋最优解的探索; 一种是人和人的斗争,也就是以围棋为背景,利用人的各种弱点来争胜负。小李无疑是这方面的大师,赖以成名的“僵死流”就是洞悉各类对手做人的弱点,等待他们的失误。 AlphaGo显然不是人,它对围棋的处理来至于海量计算之后,通过对获胜概率的统计来下一步棋,它自己不知道为什么下这步棋,不会总结围棋内在的逻辑关系,正如周睿羊说“它是厉害,但是这棋没法学”,不属于人类认识框架下的围棋。它依靠是相关性在下围棋,不是人类用的因果性。 当我们还处于猜测电脑行棋意图的时候,实际上已经误入歧途,因为它没有意图,它只是计算过之后,觉得这步棋的获胜概率大,它也不知道为什么要这么下。 人类很有可能创造出下一个可以替代自己的探索宇宙的物种,它具有比人更先进的处理信息方式,但是这也只是可能。小李必须振作精神,拿出自己对棋道的理解,拿出人类对棋道的最高理解,捍卫人类的尊严!
1 下一页