目前,主流的人工智能机器翻译团队在近一年内主要突破和攻关的技术方向是?

本题已收录至知乎圆桌:机器之能 X 语言之美,更多「人工智能」相关话题欢迎关注讨论。
关注者
344
被浏览
14,673
收录于 知乎圆桌 ·

基本上大家对神经网络机器翻译的工业化不再有任何疑问。在这一年里几乎所有的主流机器翻译团队都抛弃了早期的统计机器反映方法,全面投入神经网络机器翻译研究。大体上这一年的成果可以分为两部分:基础研究和应用研究。在基础研究上,最令人兴奋的是突破了RNN的限制,在模型结构上取得了很大的突破。例如Facebook的 Convolutional Sequence to Sequence Learning,采用了CNN而不是RNN架构,而谷歌的Attention is All You Need 则完全采用注意力模型来实现机器翻译。另外值得一提的是MIT CSAIL利用Quasi-RNN 提高基于RNN的模型的训练速度的工作Training RNNs as Fast as CNNs。这些方法都带来了训练速度的极大提升,因为其模型结构可以更有效地并行化。当然其翻译质量在大多数情况下都是渐进式的进步,并没有带来质量的大飞跃。由于模型参数的数量不同,训练方法不同,现在对于各种模型结构的评测在很多情况下是不太好比较的。但是模型结构的发展为机器翻译带来了众多可能性。更有效的并行化意味着可以更加高效地利用高度并行化的加速硬件如GPU/TPU,训练更大的模型,处理更多数据,其意义是不容低估的。

同时,推理阶段(Inference)的加速也是研究热点之一,来自Cho 的 Trainable Greedy Decoding for Neural Machine Translation 是一个典型代表。我们知道Beam Search是神经网络机器翻译推理过程的一大命门,不但因为Beam的大小直接决定了计算量,Beam Search的逻辑判断运算使得GPU/TPU加速性能几句下降,因此过去一年及今后一段时间,很多团队都会努力去杀死Beam Search。

应用研究就丰富得多,从数据获取,数据清理,多语言模型,Zero-Shot,完全无监督学习等。难以一一列举。在这里总结地说一下:许多主流团队都已经做了很久的统计机器翻译,并且拥有了自己的数据流水线。然而这些数据流水线往往都是针对统计机器翻译优化的。神经网络机器翻译出现以后大家往往都是直接拿着现有数据流水线直接上。当模型结构基本固定之后,再回头审视数据获取和预处理方法往往并不是最优的。重新研究针对神经网络机器翻译的数据获取也是一个重要方向。例如DeepL,从一家主要做数据的公司,在短短半年时间里成为机器翻译技术领先的公司之一,可见重新审视数据获取的重要性。

最后,也有一些希望将语言学知识融合到机器翻译中的方法,例如改进常用的Byte Pair Encoding (BPE),采用Dependency Tree或Constituency Tree做输入或者输出。个人认为这些工作在实际应用中效果有限(特别是对需要支持大量语言的情况)。