手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

由字构词——中文分词新方法

黄昌宁;赵海

  被称为Bakeoff的国际中文分词评测由于创建了公开、可比的分词评测语料库和多视角的评测指标, 从而一举改变了中文分词研究的格局。通过带标注的语料库来定义中文的词语,允许采用不同分词标准而不是唯一标准的语料同台评测,通过定量分析科学地确认未登录词(OOV)识别的性能是进一步提高分词精度的突破口,以及针对这一需求而提出的“由字构词”的新分词方法等,都是近四年来分词研究领域涌现的喜人景象。本文将简略介绍“由字构词”的中文分词新方法,说明它出现的动机和采用的机器学习机制。微软亚洲研究院用条件随机场(CRF)模型实现的这种分词系统参加Bakeoff2006的六项中文分词评测,获得四个第一和两个第三。本文也相应地解释了这个参赛系统的一些重要设计理念。……   
App内打开