如何看待 Google 围棋 AI AlphaGo 击败欧洲围棋冠军?

一个月前,DeepMind创始人Demis Hassabis曾说道很快会有关于围棋研究的惊喜,而1月28日的《Nature》杂志即将以封面论文的形式介…
关注者
5,671
被浏览
203,142

250 个回答

他们确实做得很好,能让4子胜Zen和CrazyStone,把职业二段打成五比零,实力不容质疑。就期待着今年三月他们和李世石的比赛了。

从算法上来说,这篇文章并没有太多新意,主要是通过大量的训练数据,包括以往的棋谱和自我对局,把性能堆出来。他们训练了一个走子的神经网络(这个和我们的办法是一样的,但我们的文章主要在这上面作了改进),又训练了一个可以评估局面的网络(这个我们还没有),然后在蒙特卡罗树搜索中同时使用这两个网络。后者用了三千万局的自我对局(self-play)的结果训练。为了避免过拟合,每局只随机选了其中一个局面,然后让网络预测对局结果(胜或负)。三千万局不是个小数字,大家可以算一下一刻不停地下,15分钟一局需要多久才能下完(大约是855年)。这个规模我说实在没有想到过,谷歌在这方面是很有优势的。最后,他们的default policy也是经过处理的,能够两微秒走一步而且准确率也不错。还有一些小细节就不一一赘述了。总之,谷歌的做法充分利用了大数据+深度学习的优势,而几乎完全没有用到围棋的领域知识,所以若是以后棋力能再往上走,我也不会惊讶。

其实这篇文章在去年11月份就已经投稿,但是因为《自然》杂志严格的审查制度,现在才出来。我们在11月的时候还只有3d的水平,蒙特卡罗树搜索还有各种问题,12月初的时候已经听到了谣言,当时我惊得话都说不出来了,然而就算这样,还是决定一点一点做,抓紧圣诞和新年的时间,把性能提高到5d的水平。我们还差一点拿了一月KGS锦标赛的冠军(Zen和DolBaram都参加了),可惜最后因为程序错误而超时,输了一局赢棋给Zen,得了第三名。谷歌的文章有20个作者,明显是下了血本,前两位都是计算机围棋界的大牛,一作David Silver是计算机围棋和强化学习的顶级专家,整个博士论文就是做的围棋; 二作Aja Huang以前写过多年围棋软件,自己又是AGA 6D的水平。相比之下我们只有两个人(

@朱岩

),只做了半年,中间还要穿插VQA等其他项目,而且都没有做过围棋的经验,想想有些差距也是不冤了。

现在回想起来,要是他们决定去年10月份战胜了樊麾后马上公开,或者我们再拖一会儿,决定不投ICLR而等到今年的ICML,那我们就被灭得连渣都不剩了(笑)。这回虎口拔牙,能从中拿到一些贡献,为公司增加一些影响力,算是比较成功的。至于单挑全军的感觉如何——我的回答是很爽 :)

Facebook高层也给了我们很大的支持,昨天我们组的老大Yann LeCun发了文章介绍我们的工作,扎克伯格还特地发了一篇文章点到了我的名字,赞扬我们的努力,对此我非常感动。

最后,我们的arXiv更新了[文章见

arxiv.org/abs/1511.0641

],欢迎大家有空看看。谢谢~

链接:

zhuanlan.zhihu.com/godi

这个答案力求客观评价AlphaGo的实力。因为本来就是我自己写的,就不全文引用了。。

弱小和无知不是生存的障碍,傲慢才是。

——《三体:死神永生》


AlphaGo战胜樊麾二段对于围棋界可谓惊天动地的大事。很多棋友和圈内人士都很关心AlphaGo的棋力到底有多强。我不是职业棋手,自认为如果对战AlphaGo,需要先恭敬地摆两子求指导。对于计算机围棋的了解,我也不如专业人士。不过通过各方面搜集到的证据,我能够对AlphaGo的棋力下一个相对客观的结论。当然,这个评价是针对截止到去年10月,与樊麾二段对战时的AlphaGo. 至于这几个月AlphaGo会进步多少,除了谷歌的研究人员,大概没有人能准确知道。


先上结论:AlphaGo的实力,大致上相当于中国的强业余6段。如果AlphaGo与世界范围内活跃的职业棋手(过去一年内参加正式比赛超过12盘)一起排名,大致能排到250名-300名之间。换句话说,AlphaGo的实力已经强于很多水平稍弱的职业棋手,但是大概要稍弱于中国业余棋界的最顶级棋手,或者大致相当。


那么我们就来看一看依据。


首先是不同职业棋手的评价:

时越九段(世界冠军,中国棋院等级分第二位):

  说实话,我昨天看到这个消息的时候是不信的,虽然我现在还是不能理解电脑是怎么去学习的,但是事实摆在眼前,这5盘棋电脑下的让我惊叹,我认为水平已经迈入了职业的门槛。虽然和顶尖棋手还差的很远,但按照这个进步速度,3月份的对局,我想李世石也不会赢的太轻松。

樊麾二段(法国国家队总教练,AlphaGo的对手):

第一盘输了之后,我这个心态就发生了很大变化,因为第一盘毕竟觉得可能比较轻松,然后发现他的官子、各方面的掌控能力很强之后,我第二盘就有点(心态)失衡。第二盘打了一个大勺之后,整个进程就不对了。

围棋毕竟不能用单纯的技术来说,一是一、二是二、三是三,因为毕竟有发挥的问题。不过我确实下的也不是很好,当然了,下的时候心态也是一个最主要的原因。不管怎么样,AlphaGo的棋力确实已经很强了。

这几盘棋呢,可以说我自己发挥不佳,但不能说不是我的真实水平,下得不好。主要是在某些方面觉得被他彻底克制住了,尤其心理负担很重,总感觉下到最后一读秒就会打勺子,这就导致我的棋下的很急。

(以上来自微信公众号“喆理围棋”,作者是李喆。喆理专访围棋人工智能事件 时越:李世石不轻松

柯洁九段(世界冠军,中国棋院等级分第一位,当前的世界第一人):

果壳网:假如是不知情地去看AlphaGo和樊麾的这五盘棋,你会猜到AlphaGo不是人类吗?

柯洁:完全看不出来。这五盘棋我也仔细地看了一眼,但我没看名字,不知道谁执黑谁执白,完全看不出谁是AI。感觉就像是一个真正的人类下的棋一样。该弃的地方也会弃,该退出的地方也会退出,非常均衡的一个棋风,真是看不出来出自程序之手。因为之前的ZEN那样的程序,经常会莫名其妙的抽风,突然跑到一个无关紧要的地方下棋。它这个不会。它知道哪个地方重要,会在重要的地方下棋,不会突然短路。这一点是非常厉害的。

果壳网:就电脑的表现来看,你对它布局,中盘,官子三个阶段的评价,分别是什么水平?

柯洁:按照我的评价,它的水平大概就是冲职业段之前的水平虽然职业还到不了,但是无限接近于职业了。关于这几个阶段,我的感觉是都差不多,非常均衡,也看不出哪个地方是机器,这个很恐怖(笑)。当然这只是看了五盘棋,也看不出它的短板来,可能是因为对手发挥得太糟糕了(笑),我也看不出来具体的哪里好哪里不好。

(以上来自果壳网对柯洁的采访:【果壳网专访】围棋天才柯洁:如果AI下赢了我,我还想赢回来


芈昱廷九段(世界冠军,中国棋院等级分第四位)

  问:今早的大新闻是谷歌围棋AlphaGo5比0赢了樊麾二段,是否已看过棋谱?

  芈昱廷:知道后感觉很刺激,看棋谱觉得实力相当于冲段少年。 

(以上来自新浪网。芈昱廷:大龙逃出取得领先 谷歌围棋的消息很刺激


李喆七段(全国冠军):

Google的围棋AI已经具有职业水准,从棋谱初步判断是顶尖棋手让先-让先倒贴目的水平,离战胜人类还有一小段距离。但这是三个月前的棋谱... 以Google机器学习堆数据的速度,今年三月对决李世石相当值得期待。

(来自李喆的微博)


刘星七段(全国冠军):

第一是棋形很正,第二是失误相当的少。如果把它看作一名业余顶尖的棋手,做到这两点,就已经具备了相当的实力。 (赵守洵:星爷还没有把它看作职业高手) (刘星:这个很难说)

(以上来自围棋TV,大概在11分40秒左右。)



以上来自不同一流职业棋手的评价,表面看上去有一定差异。有的说已经具备职业水平,有的说是业余顶尖水平,其实都差不多是一个意思。在中国,顶尖业余棋手确实具备职业水平,对战顶尖职业棋手差不多也就是在让先到让先倒贴目之间。为了进一步说明这一点,我又要搬出“民间等级分”,nmcgw版世界围棋等级分了。这是我见过的统计数据来源最详尽,同时原理简洁、有效的一版等级分,甚至强过韩国裴博士发布的世界等级分。目前此版等级分每周一更,发布在tom围棋论坛ÊÀ½çΧÆåÖ°ÒµÆåÊֵȼ¶·ÖÅÅÐаñ£¨nmcgw°æ£©


虽然业余棋手的等级分现在不被公布(曾经是公布的),不过按照nmcgw本人的说法,顶尖业余棋手(以中国的业余四大天王,胡煜清、王琛、马天放、白宝祥为例)大致在2350分到2400分之间。换算成世界排名,就是在160名-220名之间,与顶尖的女子职业棋手大致相当 。作为参考,参与nmcgw等级分排名的大概有860位活跃的职业棋手(包括日韩台在内)。同时,这几年的晚报杯职业业余对抗赛(2011-2016),由顶尖职业对抗顶尖业余的比赛中,比分大致是这样的(剔除了聂卫平、刘小光参加的台次):

女子职业-顶尖业余 (分先): 3-5;

男子职业-顶尖业余 (让先):18-8;

那么李喆所说的“让先-让先倒贴目的水平”,也与业余顶尖棋手相差无几。

其实这些评价已经足够说明问题了,不过我还是稍微有点担心。会不会是人类棋手因为惯性思维,没有看到AI某些隐藏的强大之处?我们从AlphaGo研究者的角度来看看这个问题。

这是AlphaGo研究团队在Nature上发表的论文中的一张图。我一开始并不知道这个等级分是什么意思,直到我突然想起来,法国学者Remi Coulum曾经发布过一个围棋等级分Go Ratings。Remi Coulum是Nature上论文二作Aja Huang 的老师,也是AlphaGo问世之前最强围棋AI, CrazyStone的作者。那么有理由相信AlphaGo的团队用的就是这一版等级分来评价的。


Remi版等级分是Elo等级分的一个变种,规则要比ELO等级分更加先进。但是Remi版等级分的最大弱点是,统计的棋局不足够详尽。Remi版等级分统计了自上世纪80年代初以来的52000盘对局,但仅仅是弘通围棋网收录的职业对局就有超过十万局,而且弘通的这个数字好像也是不完全版。无论如何,Remi版等级分还是具有相当参考意义的。


回到上面这张图。根据原文附录上的数据,AlphaGo团队对于在一台计算机上运行的AlphaGo的评价是2890分,而与樊麾对战的版本(1202CPU, 176GPU)为3140分。樊麾在去年十月对战时是2908分,在Remi版等级分上排在第632名(共832人)。按照ELO等级分的规则计算,樊麾对AlphaGo的胜率大约是20%。事实上,AlphaGo对樊麾的十盘棋比分正好是8-2。那么我们再看看3140分大概是什么水准。在Remi版等级分中,3140分对应排名是281名-283名(并列)。如果对战当前的李世石(3515分),则只有11%的胜率。至于图表上的“5p”(职业五段),没有太大意义,因为当前中日韩三国的职业段位与实力并不直接相关。


将这个3140分转换到nmcgw版等级分中去,大致上相当于2310分。回顾一下,中国业余围棋四大天王的等级分是在2350-2400分之间, 也就是说AlphaGo对战四大天王有42%左右的胜率。这与之前各位一流职业棋手的评价,“顶尖业余棋手”、“冲职业段之前的水平”、“具有职业水平”、“让先-让先倒贴目之间”,是完全吻合的。当然,如果是以这个水平对战李世石,五番棋大战,想要赢一盘都是相当困难的。


AlphaGo确实已经摸到了职业的门槛。网上某些称“樊麾放水,下得不如普通业余5段”、“战胜欧洲冠军就像战胜国足”等论调实在不够客观。至于3月份AlphaGo与李世石的大战,我仍然谨慎地看好李世石。3140分到3500分,顶尖业余到顶尖职业,一个天赋超群的人类棋手也要花五年左右的时间。行百里者半九十,从之前围棋AI在程序定型以后的学习速度来看,几个月的时间不足以让AI再完成一次飞跃。当然,如果到时候被AlphaGo打脸,也是一件很可能发生的事,毕竟开发团队自称有五成把握(咦这个flag是不是很熟悉?小李:你说有五成把握,是一百成里有五成吗?)。各位看官可以收起对人工智能的傲慢心态,去期待一场或许是火星撞地球的大战。


—————————————————1.30更新————————————————

根据Nature原文附录,将估计的数据更新为准确的数据。


借此地做一个神棍的预测。AlphaGo将于三月对战李世石之时达到nmcgw等级分2560分的水准,相当于原中国棋院等级分职业九段的门槛分数(虽然这个现在没什么实际意义了)。2560分对应的世界排名是40名(对应棋手:邬光亚六段)。相应地,AlphaGo对李世石的单局胜率有32%。预测AlphaGo-李世石五番棋比分:2-3。 五盘棋分别为阿法狗:胜负胜负负。

预测依据:樊麾二段接受采访时的“你们就等着看好戏吧”眼神,和开发者自信的“五成把握”。


在2019年1月以前,AlphaGo将不能超过柯洁的水平 (nmcgw等级分2800分)。

预测依据:瞎猜的。