手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

融入汉字字形特征的神经机器翻译模型研究

蔡子龙

  神经机器翻译(NMT)凭借模型简单、通用及翻译性能突出的特点,自2014年提出以来,迅速成为机器翻译领域研究的热点。原始的神经机器翻译系统以端到端的方式简单地对纯文本进行建模,忽略了语言学知识。为此,很多学者尝试将单词词性、依存句法等语言特征融入NMT模型,并取得了不错的成果。这些工作证明了虽然NMT对纯文本具备很强的学习能力,但是融入额外的语言特征依然能够起到促进作用。汉字是唯一现存的有着数千年发展历史的语言文字。古汉字如甲骨文、钟鼎铭文等具有“因物赋形”、“依类象形”的特点,这样,即便不识汉字、不懂汉语的人,见到这些像画一样的文字,也能大概明白它的含义。现代汉字虽然不再“以形通物”,但仍然保持着原来的字音和字义,且在长期的运用过程中,形、音、义早已融合,形成三位一体。既然汉字字形本身含有丰富的语音、语义信息,那么在翻译模型中融入汉字字形可能是一种提升NMT翻译性能的有效办法。为此,本文开展了融入汉字字形特征的神经机器翻译模型研究。本文主要包含以下三个方面:(1)融入汉字字形特征的字符级神经机器翻译。每一个汉字都有其对应的字体形状,而字体形状又可用字形向量进行数字化表示。在该工作中,我们使用拼接法从汉字的点阵图像中获取相应的字形特征,并设计了两种不同的字形特征融合方法,分别是辅助学习法以及部分替代法。我们在中英翻译任务上进行了实验,结果表明,以辅助学习法的方式将汉字字形特征融入字符级神经机器翻译可以较大幅度地提升译文质量。(2)融入汉字字形特征的单词级神经机器翻译。单词通常由不等数量的字符构成,因而无法像字符那样直接获得对应的字形向量。在该工作中,我们利用长短期记忆网络学习单词的字形向量表征。除此之外,我们还利用卷积神经网络从汉字的点阵图像中提取相应的字形特征。两种方法加上前一项工作中所提的辅助学习法,较之于基准系统,模型在翻译性能上取得了较大的提升。(3)融入汉字字形特征的字符-单词混合模型的神经机器翻译。在该工作中,我们改进了完全基于字符的词向量生成模型,并结合汉语的语言属性,提出了未登录词分解模型。除此之外,我们使用与前两项工作相同的方法,将汉字字形特征融入翻译模型。实验结果表明,汉字字形特征能够对字符-单词混合模型的神经机器翻译起到促进作用。……   
[关键词]:神经机器翻译;汉字字形特征;词向量生成模型;未登录词分解模型
[文献类型]:硕士论文
[文献出处]:苏州大学2019年