人工智能应用在翻译上,准确率还有待进一步提升,难在哪些方面?

关注者
93
被浏览
7,771
收录于知乎圆桌 ·

严复说翻译的要求就是信、达、雅。对机器翻译显然也应该如此要求,但是这三点都还存在很大的困难。首先看看这个三个字的涵义。信指的是完整传达信息,不增不减。达指的是语句通顺,不拘泥于原文。雅则要求词语得体,风格统一且切合原文。“信”和“达”大体可以看作句子级别的要求,而“雅”则是一个篇章乃至整本书的要求。

对信与达,近两年的神经网络机器翻译较以往有了极大的提高。最主要的进步来自“达”。传统的基于短语的统计机器模型我们可以把它理解为一个受目标语言语言模型影响的翻译模型,打一个比方,就好比一个母语是汉语,初通英语的人拿着一本词典进行汉英翻译。而神经网络机器翻译本质上是一个“受源语言限制的语言模型”,也打一个比方,我们可以把这个过程看成一个母语是英语,对汉语阅读也比较熟练的人不依赖词典进行汉英翻译。基于短语的模型往往翻出奇怪的Chinglish,而神经网络机器翻译模型的译文往往非常流畅。但是神经网络机器翻译可能因为对汉语的理解偏差而“瞎翻译”。而这种情况往往来自数据稀疏——如果这位翻译官本身不是中国通,要他翻译北京胡同里的市井俚语肯定要出大麻烦。要继续提升信和达二者,难点之一在如何提高数据覆盖(而不仅仅是增加数据量),特别是源语言的数据覆盖率。除了数据,当然翻译官本身要更加聪明。从神经网络角度出发,这一需求要求更大的模型,更合理的模型结构,更好的训练方法。同时增强模型的学习能力也需要硬件的配合。

相对信和达来说,机器翻译面临的另一个困难是“雅”。目前绝大多数机器翻译系统都是逐句翻译的,并没有利用篇章上下文信息。因此经常会出现这句话阳春白雪,下一句就是下里巴人,前言不搭后语的情况。这个问题解决起来是很不容易的。同句子相比,篇章上下文的信息量实在是非常巨大,如何能够找到合理的信息表示方法并且在翻译中应用目前还没有非常好的解决方法。推而广之,将机器翻译放置于一个更为广大的世界中,上下文不但包括文本,还包括时代背景,空间位置,知识背景等,它们对翻译结果都有影响。利用这些信息将更加困难。