手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

知识文档的语义检索方法研究与实现

齐保元

  在信息化高速发展的今天,各行各业也在不断推进电子化进程,在此过程中积累了大量的电子知识文档。这些文档分散在各个员工、部门和业务单元之间,不能得到有序的整理与合理利用。重复劳动和低效率的产出效能,形成了一种很尴尬的局面:一方面,我们的信息内容很多,而另一方面,从这些文档得到我们所需要的知识却很难。 组织内部的知识基本都是领域相关的知识,具有用词专业化、描述精准的特点,与普通用户的用法产生一定的差距,因此虽然文档的质量较高,然而用户却无法用通俗的自然语言将其检索出来,成为永远无法检索出的文档,无法发挥其作用。 因此,组织知识管理和使用面临这两个重要的问题:(1)如何更好地管理组织知识文档,形成标注准确、有序组织的存储格式?(2)如何在专家和普通用户之间架起一条连接的桥梁,让搜索条件不至于对用户的输入有太严格的要求,而又可以返回具有相对高关联度的文档? 本文提出了一种针对带有主题词标注的知识文档(在无歧义的情况下,下文也称“文档”、“档案”)进行语义检索方法。其基本思想是:首先构建一个较为完整的领域主题词表结构,然后对文档进行主题词标注,然后建立从词元到主题词,主题词到知识文档的二级索引结构,存储到索引文件中;对用户的检索,我们首先按照第一级索引结构,进行查询词到主题词的转化,计算出语义相似度,然后进行第二级索引结构的查询,返回符合要求的文档。 本文还提出了针对主题词进行个性化定制的方法,实现在检索时通过判断词的所属域来进行更精准地剥离检索条件,减少了以往需要在不同的搜索条件之间切换带来的低效。 为了对原有的主题词表进行扩充,本文提出了基于条件随机场与规则约束后处理的主题词获取方法。实验表明,这种方法比传统的单纯使用条件随机场可以取得更好的效果。 目前,按照本文方法实现的知识文档语义检索系统已经在某集团公司的前台话务系统和后台管理系统进行部署和实际应用,并取得了令人满意的效果。……   
[关键词]:知识文档;语义检索;二级索引;主题词表;主题词获取
[文献类型]:硕士论文
[文献出处]:首都师范大学2011年
App内打开