手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

基于HMM的藏语语料库词性自动标注研究

苏俊峰

  近年来语料库语言学的发展较为迅速,它为语言研究打开了一条新的道路。英语、汉语等的词频统计研究为少数民族语言语料库的不同层面进行的定量研究奠定了可靠的,坚实的基础和借鉴的经验。藏文信息处理技术的发展和藏语研究的成果为开展藏语语料库研究和进行词频统计创造了条件。 藏文词性标注是藏文信息处理技术中的一项基础性课题。一方面,它的研究成果可以直接融入到信息抽取、信息检索、机器翻译等诸多实际应用系统当中;另一方面,藏语自动词性标注也是藏语语块识别器、藏语句法分析器、藏语语义分析器必不可少的前端处理工具。因此,研究和实现藏语词性标注器具有重要的理论意义和实用价值。 词性标注的方法主要有基于规则和基于统计的两大类。由于基于统计的方法具有不需要人工总结语言学规则、正确识别率高等优点,已逐渐成为研究的热点。在基于统计的方法中,HMM是最广泛的算法模型之一 本文主要对基于统计的词性标注技术进行了研究,所实现的藏语词性标注系统主要通过隐马尔可夫模型对训练语料库进行数据统计,获取所需词性和词汇概率信息,针对藏语训练语料库规模较小导致的数据稀疏的问题,运用了简单而高效的“加一法”数据平滑算法进行数据平滑处理,然后通过词汇概率信息和词性转移概率信息建立核心字典和Bigram模型字典,最后按照以上两个字典的信息采用Viterbi算法选择最佳标记串进行标注。 本项实验性研究针对计算机自动处理藏语语料进行的尝试性探讨研究。研究证明,运用HMM的方法,对藏语语料进行词性自动标注是可以实现的,在本系统中封闭性测试的正确率达到88%-90%。……   
[关键词]:藏语;语料库;字典;词性标注;隐马尔科夫模型
[文献类型]:硕士论文
[文献出处]:西北民族大学2010年
App内打开