在人工智能机器翻译几十年的发展历程中,语言学所发挥的作用发生了哪些变化?

本题已收录至知乎圆桌:机器之能 X 语言之美,更多「人工智能」相关话题欢迎关注讨论。
关注者
57
被浏览
2,520
收录于 知乎圆桌 ·

机器翻译是自然语言处理任务,从诞生起,当然就会与语言学紧密联系。语言学和机器翻译很多情况下是共同发展的,人类对语言的认识也是逐渐深入,今天的语言学与60年前也大不相同。五十年代的机器翻译大跃进和盲目乐观与当年语言学对机器翻译难度的认识缺乏也有很大关系。由于第一波成功的机器翻译系统大多是基于语言学规则的系统(例如Systran系统),而后来出现统计机器翻译和神经网络机器翻译中,语言学在核心系统中被采用得越来越少,使得人们对语言学在机器翻译中的地位有两极分化的态度。一部分人认为机器翻译可以完全抛弃语言学,另一部分人则认为机器翻译之所以无法完美,是因为对语言学认识的不够。这里不准备讨论这两个争论,只是需要指出语料语言学也是语言学

然而从近30年的机器翻译发展来说,传统的语言学逐渐被移出机器翻译的核心算法,但是仍然扮演重要的角色,特别是在数据不足的情况下。在统计机器翻译时代,一些公司从语言学角度出发,在基于规则的方法上添加统计。而另一些公司则完全采用统计方法。从语言学出发的方法往往能在数据量小的情况下接近纯统计方法,然而当数据量大到一定程度,纯统计方法就快速占据上风。

在神经网络机器翻译时代,目前来看语法、语义等信息还没有较好的应用,虽然研究人员也在尝试,但是目前看来大多是incremental的小进展。

然而,我们不能仅仅考虑语言学在机器翻译核心算法中的应用。一个完整的机器翻译系统还包括数据获取,数据预处理,结果后处理,性能评测等部件。在这些方面语言学还是大有用武之地的。也许强行将人类对语言的理解放入核心算法中并不是在机器翻译中融合语言学的最佳方式,这也有待时间来证明。