手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

面向神经机器翻译的数据缩减方法研究

许雪莹

  神经机器翻译(NMT)是机器翻译领域的最新技术,需要大规模的双语平行数据作为训练语料。现有的公开双语平行数据集的种类较多,数据的质量各有不同。然而,规模较大的数据集中会出现数据冗余的问题,质量低的数据集则包含较多的噪声,这些数据问题会增加模型的训练成本以及影响模型的性能。为了降低双语平行数据集对NMT的影响,本文将从数据规模和数据质量两个方面展开面向神经机器翻译的数据缩减研究,主要工作包括:(1)基于句子向量的静态数据选择方法。大规模的双语平行数据集中通常会出现很多语义相似的平行句对,相似的平行句对对于模型的贡献也是相似的。这些相似的平行句对的存在并不一定能帮助模型提升性能,反而会增加模型的训练成本。为了减少双语平行数据集中相似的平行句对,本文提出了一种静态的数据选择方法,在句子语义的基础上缩减双语平行数据集的规模。在联合国的中英翻译任务上,静态的数据选择方法帮助模型缩减了训练时间,同时实现了模型在大规模数据集上训练的模型性能。(2)基于训练损失的动态数据选择方法。NMT的一个特性是需要大规模的双语平行数据集作为训练数据。根据这一特性,本文提出了基于训练损失的动态数据选择方法,在训练过程中逐步减少训练数据的规模。在联合国的中英翻译任务上,动态的数据选择方法不仅帮助模型减少了半的训练时间,而且提升了模型的翻译性能。(3)平行语料库过滤。针对低质量的双语平行数据集的噪声过滤任务,我们在跨语言的语义空间上训练噪声分类器来识别嘈杂的平行数据集中的噪声,并提出通过丰富负样本的多样性来增强分类器的分类性能。在WMT的德英平行语料过滤任务上,NMT在过滤过的德英语料上获得了翻译性能的提升。……   
[关键词]:神经机器翻译;双语平行数据;句子向量;训练损失;噪声过滤
[文献类型]:硕士论文
[文献出处]:苏州大学2019年