同一种方法，同一句话，翻译成英语和泰语，差别为什么这么大？-白红宇

同一种方法，同一句话，翻译成英语和泰语，差别为什么这么大？

阅读量：2243 次

发布时间：2019-05-09

本文共 3311 字，大约阅读时间需要 11 分钟。

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

目前，使用机器翻译各种语言已经成为大多数人的选择，相比与人工翻译，机器翻译更加快速、且费用较低。

无监督机器翻译由于其不需要平行语料的特性，在稀缺资源的语言翻译上具备非常大的潜力，并在最近的研究中受到了比较大的关注。其中，基于无监督词典的翻译方法正成为重要的无监督翻译方法之一。但在使用中，研究者发现这种基于无监督词典的翻译方法，还存在明显的缺陷，即在翻译差异比较小的语言上表现优秀，如英语—法语，但在翻译差异比较大的语言上，如英语—日语，效果却差强人意。

近日，来自东北大学自然语言处理研究室博士生李炎洋等人在第28届国际计算语言学会议上发表的论文《面向鲁棒无监督词典归纳的一种简单有效方法》（A Simple and Effective Approach to Robust Unsupervised Bilingual Dictionary Induction）对上述问题进行了研究。

结果显示，无监督词典归纳在差异比较大的语言中失效的主要原因在于其过低的初始化性能。论文同时提出了基于降维以及去除最大特征值的方法来改善过低初始化性能带来的问题，实验证明，该方法在8个方向的远距离语言对上均取得了比以往方法更为优异的结果。

李炎洋：东北大学自然语言处理实验室研究助理，香港中文大学计算机科学与工程系博士生，研究方向包括机器翻译解码算法、网络结构设计、无监督学习及模型压缩加速，曾在ACL、IJCAI、AAAI、COLING等学术会议上以第一作者发表多篇论文并担任其审稿人。

一、在远距离语言对上失效的无监督词典

在进行不同语言的翻译前，大部分无监督系统首先要完成无监督词典归纳任务，这也是整个无监督翻译系统的基础。这个任务即要在给定的两类语言的单语词嵌入（Word Embedding）基础上，找到词与词之间的翻译。举例来说，任务的源语言为中文，要翻译成英文，无监督词典归纳任务要做的就是在两种语言中找到互译的词语，如我—I，你—you等，具体过程如图1所示。

图1

而要完成无监督词典的归纳任务，需要初始化和自学习两个步骤。首先初始化会从词嵌入矩阵中构建出一个初始词典，这个词典作为最终词典骨架，还处于“毛坯房”阶段，性能较差；自学习则在这个词典的基础上学习两个语言矩阵之间的映射关系，然后基于学习得到的映射关系重新推导出一个性能更加优异的词典，随后通过不断的迭代自学习来对词典不断修改优化，最后达到理想（收敛）效果。

正如开篇所说，目前，无监督词典在翻译比较相似的两种语言时，效果已经可以和有监督的翻译方法相媲美；但在翻译差异较大的两种语言时，其准确率却接近0%。

比如对于目前鲁棒性较强的系统VecMap，它在210个语言对中的87个语言对上的准确率也都为0%。如图2所示。

图2

二、初始化性能差导致词典失效

下面对无监督双语词典归纳系统的分析将基于VecMap，因为它是一个比较常见的框架。我们首先介绍一下VecMap的工作流程。简单而言，VecMap通过学习两个变换矩阵，分别将源语言和目标语言的词嵌入矩阵投射到同一个空间中，随后在投射后的词嵌入矩阵基础上推断出理想词典。

同样的，VecMap完成无监督词典归纳任务也主要依赖于初始化和自学习两个步骤。由于这两个步骤是级联的关系，也就是首先完成初始化然后再进行自学习，所以对于VecMap在远距离语言对上失效的原因，可以提出两种假设：

1，在初始化步骤没有问题，是自学习阶段的缺陷导致了翻译的失败；

2，自学习阶段没有问题，是初始化的不成功导致了翻译的失效。

要验证上述假设并不困难，在第一个假设中，研究者选用了人工翻译（翻译准确率100%）的种子词典作为初始化结果，研究显示，在使用质量较好的初始化词典的情况下，自学习算法在大多数远距离语言对上都可以达到理想的收敛效果。如图3所示。

图3

上述实验证明，第一个假设并不成立。无监督词典在远距离语言互译失败的原因，主要在于性能较差的初始化结果。由此也引发出两个问题：

1，既然初始化性能较差，那应该如何量化其性能？在初始化中，我们常常以准确率去衡量初始化的性能，但在本研究中，作者对此提出了质疑。

2，在有了对于初始化性能的评价标准之后，初始化要达到怎样的性能才能让自学习达到一个理想效果？

对此，作者认为，准确率难以作为初始化结果优劣的评判标准。因为各种方法的初始化结果准确率通常过低（多为0—1%），在这样的结果之下，各个初始化方法性能难以区分。此外，准确率只能衡量初始化的翻译结果正确与否，但还存在一种情况，即翻译结果虽然不是正确答案，却与正确答案相近，这种结果也可能对于后续的收敛结果产生作用，但如果使用准确率作为评判标准，这种情况无疑被忽略了。

基于此，作者提出了通过计算翻译结果的词嵌入和正确答案的词嵌入之间的余弦相似度作为初始化结果的衡量标准，即词典相似度（dictionary similarity）。如图4所示。

图4

在实验中作者发现，当词典相似度达到一定阈值时，自学习将达到良好收敛效果。此外，在近距离语言翻译中，实际词典相似度值高于该词典达到收敛效果所需要的词典相似度值；而在远距离语言翻译中，实际词典相似度值低于达到收敛效果所需要的词典相似度值。如图5所示。

图5

这种差距也提示了VecMap在远距离语言互译上失败的原因，即实际词典相似度和达到收敛所需的最小词典相似度之间存在差距。

三、降维—匹配—迭代，提高初始化效果

通过改善算法提高系统性能来弥补这种差距通常被作为首选。但在本文中，作者提出了一个新的方向：通过降维简化词嵌入让任务变得更加简单，从而降低已有算法的收敛要求。如图6所示。

图6

在降维后，研究者希望每个词嵌入之前都能很好地区分彼此，也就说所有词嵌入在空间中应呈现均匀分布的状态。但在实际操作中，不难发现，在很多远距离语言中的词嵌入通常沿着特征值最大的特征向量方向呈现聚集状态，具有高相似度，难以将其区分开来。如图7所示。

图7

为了解决此问题，本文提出了一种dropmax的技巧：选取去除最大特征值的方法，去除了词嵌入在特征值最大的特征向量上聚集的趋势，来使词嵌入达到均匀分布的状态。

在降维和dropmax的加持下，自学习系统顺利得到收敛效果。但其效果仍不理想，究其原因在于，降维虽然简化了任务从而有利于收敛，但是简化的过程中也会丢失信息，使得最终的效果受到影响。作者通过使用在低维词嵌入上运行VecMap得到的词典作为VecMap在高维词嵌入上初始化的结果来解决此问题。如图8所示。