手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

基于分词性能的汉语语料库比较研究

张洁;孟遥;于浩

  语料库是计算语言学的基础资源,目前国内外许多单位都在积极地进行语言资源的加工建设,在汉语语料库建设方面也取得了一些重要研究成果。例如,1998年人民日报标注语料库、国家语委5000万标注语料库、宾州大学中文树库等。但各语料库的组织结构不同,加之各家加工过程中所遵循原则的差异, 对同一语言现象的处理方式也存在分歧。因此,如何对各种语料库的特点进行比较研究,如何根据工作的实际需要选择适合的语言资源将是一个很现实的问题。本文提出了一种基于分词性能的汉语语料库比较研究的方法,用1998年人民日报语料,国家语委5000万字标注语料和宾州大学中文树库分别训练基于汉字的隐马尔可夫分词模型,继而通过各自的训练系统进行自测和交叉测试,从本文的实验结果来看,人民日报语料以其过硬的质量和庞大的规模对新闻领域的语料有出色的表现,国家语委语料则表现出较强的稳定性和对不同领域语料的适应力。……   
App内打开