深度学习的研究领域是否有被过度夸大?

我是个机器学习领域的门外汉,最近经常在weibo和科技网站看到深度学习的字眼,感觉很神奇也很深奥,但偶尔在一些学术的论坛里也看到了不同的声音,其实我一直在关注这个领域,却是有一种感觉,很多时候那些专家大牛的宣传能力比这些技术的实际效能要大很多,有没有这方面的大牛,评论一番,让我们批判式的思考一下
关注者
344
被浏览
26430

14 个回答

一方面,深度学习领域确实存在噱头的现象,主要是在有些人利用传媒说深度学习是在模仿大脑。从实际上来说,大脑神经科学的发展还远远不足以使我们找到足够形成算法的机制来形成智能,也还没有能力去证明或者证伪深度学习于生物神经系统的相关性,更无法说明深度学习是不是真的像大脑。但是,深度学习在某些地方确实是受到了神经系统的启发,比如说多层结构和卷积过程。现在只能说是受启发,而不能说是模仿。不过我觉得随着美国和欧盟两个大脑研究计划的深入,类比深度学习系统和大脑工作方式的相同点和不同点会在将来成为可能。

另一方面,这种“深度学习研究领域过分夸大”说法的产生还有完全相反的一面。除了媒体噱头是真的夸大之外,学界还有一种对于深度学习方法的逆反应,表现出来就是会有一些人片面地说这个领域被过分夸大,而不去真正比较过去的系统和现在系统有效性的巨大区别。这种学术惯性又分为两类,一类是那些耗费许多精力掌握了一些领域性知识的人,他们不愿意接受机器不需要那些领域知识就可以得到很好结果的现实,这个在深度学习逐渐革命计算机视觉和语音识别上的过程中表现的尤其明显;另外一类是机器学习界内部偏向于理论(特别是PAC理论)的人,他们过于担心深度学习这种工程系统的泛化性和一致性,不愿意接受其有效性的经验性证明而只沉浸于那些拥有美好数学的简单方法之中。

个人认为,深度学习的噱头现象必须打压下去,因为噱头是到头来最容易伤害一整个领域的东西。但另外一个方面,传统的领域性学科应该逐渐接受深度学习的有效性,并将其作为基本工具之一来采用。同时,机器学习理论学家应该意识到泛化性和一致性证明的局限,理解那些“上界的上界”所得到的结果对于深度学习来说是极其偏离真实情况的,同时要抛弃对VC维之类概念的迷信,尝试使用泛函空间(如Banach Space)中的概率论(特别要注意函数嵌套的作用)来解释可学习性。

最后,奉上图灵祖师1950年论文《Computing Machinery and Intelligence》中第三小节第一段的一句话:
“We also wish to allow the possibility that an engineer or team of engineers may construct a machine which works, but whose manner of operation cannot be satisfactorily described by its constructors because they have applied a method which is largely experimental. ”
“我们(在考虑图灵测试中的机器时)也应当允许这样一种可能,那就是一些工程师可能会建造一台机器,它能够完成任务(通过图灵测试),但其工作的原理却未必能够被其创造者所完全理解,这是因为他们采用了一种试验的方式(来建造这台机器)。“
深度学习一点都不深奥,一点都不神奇,神经网络这个东西20多年前就有过,只是那时候硬件还没发达训练不出这种深度模型 (而且当时没有layer-by-layer pre-training, dropout这些概念)。 它跟人的大脑不是一回事(人的大脑可复杂多了。。)之所以它这么popular, 是因为这个东西能work! 对于工业界来说能work的东西才是值得追捧的东西, 至于为什么work, who cares. 至于深度学习的理论层面的东西,很多还是未知的。