手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

Web中文信息抽取中命名实体识别的研究及应用

刘杰

   随着信息产业的不断发展,网络已经成为人们工作生活中不可缺少的重要工具。Web也随之成为人类获取信息的主要来源。Web中的数据正以每天新增一百万个页面的速度增长。到目前为止,页面的数量已经超过10亿。面对海量的、非结构化的文本信息、如何快速有效地获得我们所需要的在信息成为当前信息处理的热点问题。信息检索(IR,Information Retrieval)和信息抽取(IE,Information Extraction)的技术研究正是为了解决这一问题。 信息抽取的任务是把文本里包含的信息进行结构化处理,把非结构化及半结构化的信息变成类似表格一样结构化的组织形式,以便人们可以像查询数据库一样获取自己需要的信息。在实现信息抽取过程中,命名实体识别是一项具有关键作用的技术。命名实体(Named Entity,NE)识别是指识别出文本中特定的实体。它在信息抽取、文本分类、信息检索和自动问答等多种自然语言处理技术中起着至关重要的作用,是这些技术实现的基础。 本文主要以从若干有关名人传记的网页中抽取名人的姓名、籍贯以及与他们有关的机构名为例,研究了中文信息抽取中人名、地名和机构名的识别方法及其应用。本文主要采用基于规则和统计相结合的方法进行命名实体识别。同时指出传统的隐马尔科夫统计模型割裂了词与词之间的关系,忽略了上下文对当前词的影响这一局限性,通过改进的隐马尔科夫模型提高了地名实体识别的准确率和召回率。同时,在利用隐马尔科夫统计模型进行机构名实体识别的基础上,通过构建一元模型来识别那些缩写的以及没有标志词的机构名。实验证明取得了更好的识别效果。……   
[关键词]:信息抽取;命名实体识别;隐马尔科夫模型;局限性;一元模型
[文献类型]:硕士论文
[文献出处]:西北大学2009年
App内打开