如何评价 DeepMind 和暴雪新开源的星际争霸 2 机器学习平台?

快一年后,DeepMind和暴雪终于开源了星际争霸2的机器学习平台。这个平台对于state-of-the-art的深度强化学习算法来说是个极好的测试平台(DeepMind称A3C在此平台的表现不尽人意,所以有很大提升空间)。此外,两家公司之后还会发布上百万帧的来自天梯上专业选手的游戏记录,对于Imitation Learning的研究应该也会有很大的帮助。期待已经体会过这个新平台的朋友们的评价。 DeepMind刚发的博文:deepmind.com/blog/deepm DeepMind封装…
关注者
2768
被浏览
331068

64 个回答

DeepMind和暴雪一起做了三件小事。


1. 暴雪提供游戏输入输出的API,DeepMind又做了层基于Python的封装

非常重要,意义深远。没有API,一切都无从谈起。事实上,基于星际初代的AI研究也是在2009年民间的BWAPI出现之后才开始的。


2. 承诺持续发布replay作为训练数据

特别重要,原因看第三点。


3. 发了篇论文,介绍了下自己随便跑跑的结果

  • 全局游戏自学结果很差,打不过游戏自带的简单电脑。训练出来最成功的策略是将人族建筑升空逃跑。
  • 局部小任务上自学的结果不错,全卷积LSTM尤其出色。寻路和人类高手齐平,打狗和蟑螂跟人类新手齐平,采矿学会了通过造更多工人来增收。
  • 基于replay的增强学习对AI的提升特别显著。增强学习后的AI在采矿和造兵上都明显好于之前自学的结果。如何更好地让AI学习replay将是未来一段时间的方向,因此上一条里的发布replay训练数据也十分重要。


不过,为什么是星际?

因为星际可能是所有规则明确的决策系统里最复杂的一个了:

  • 决策空间巨大,比围棋还要高几个维度
  • 实时,算得慢等同于手速慢
  • 策略的回报趋向长期

如果AI能玩好星际,很多现实中的问题可能都可以胜任了。


总结:星际2正式成为AI研究的新领域,挑战多,机会多,excited!

正好今晚认真把这paper读了一遍。

首先要说,这是DeepMind出来说:这就是现在AI的瓶颈了,我们已经尽力,其他的只能指望别人了。

深度学习和增强学习在围棋之后,终于撞上现代科技可能是无法逾越的障碍。如果这个障碍越过,那就是强AI的时代了。

这篇paper总结的是:DeepMind设计了几个不同架构,反正都是深度增强学习那一套,最后发现都没啥鸟用,对于全局游戏无能为力,表现最好的是采用全联接卷积的,但也仅仅是会把人族基地飞起来躲开敌人攻击(估计是在几百万次的训练中撞上一次过来进攻,AI随机到基地升空,reward分数直线上升);对于他们设计的定制地图小游戏,表现稍微好些,全联接卷积的Agent学会了在收集资源的地图上造农民;最后用大量玩家对局来做预测(预测胜负和预测玩家行为),效果稍好一点;

他们的主要contribution,是通过图像识别地图上单位,从而能用所谓“feature layer“的形式提供给用户使用,而不用处理原始像素(当然他们也说这也限制了一些应用,所以以后还是会直接提供原始像素)。

当然如果只是为了玩,他们也说会跟星际1一样,星际2也提供了对应的api接口可获得地图上单位和各自属性,而无需从画面和UI上去处理,这样当然就失去了原本的完全模拟人类认知的意义,然而也未尝不可作为一个方向。

总之,文中几乎每一页都要提到其难度完全超出最初的预想,尽管如此,仍然要感谢Google为人类在AI研究上做了一次伟大的尝试,并提供了一个真正为强AI时代的到来做好学术研究的环境。

------------------------------------------

昨晚在朋友圈发了类似评论(简短很多),一位真大神说我太肤浅了,当时还不是很明白,今天又看了好几位做ml方向朋友的评论,感觉到这是角度问题。

对做算法研究的来说,他们是高兴和激动的,看到了新天地。因为sc2le提供了完善的环境,巨大的研究空间和无穷的方向,还包括海量的数据!这对ai研究的推动可以说是imagenet之后又一次巨大的数据上的推动!如果我是做ai研究的,这几乎就可以看到各种paper在飞舞了!做ai算法,要的就是完善易用的数据平台及接口,只需要专注于算法即可,毕竟那是出成果的地方。

然而对工程实现或者数据平台开发者,却可能是失望的。因为这些人是等着牛逼算法出来可以套用在具体产品应用上,或者说他们的空间是数据,把数据各种倒腾来套用于某个牛逼算法就是工作乐趣所在,比如把vgg用来处理人脸/汽车/花草树木。。。重点不是算法如何,而是把一个算法应用于不同数据上然后带出不同应用。而期望已久的drl在星际2的应用目前看来没啥指望了,这完善的训练环境也就对ai应用实现者没啥意义。

个人感受~~~

*********************************************

打个广告,在机器学习/深度学习算法研究,或者机器学习工程体系(machine learning pipeline)方面有相当经验的朋友,如果对相关技术在游戏领域的应用(不光是什么代替游戏内部AI这种)研究感兴趣,欢迎私信本人私聊,本人所在部门长期招聘相关人才,待遇和国内一线公司持平(因为本来就是一线公司~~~)

为什么?