手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

基于数字电视节目的相关语义库的实现与应用

国德峰

   在人们对语言的感官认知中,判断词语间的语义相关程度一直扮演着一个重要的角色,同时,这种语义相关关系在很多领域中都有实际的应用,例如信息检索,文本分类,机器翻译等等。 构造相关语义库通常有基于知网和语料训练两种方法。知网采用人工方法,主观性太强,且不能动态更新;通常的语料训练对时空复杂度的要求都比较高,受语料稀疏和语料噪声的影响也比较大,不宜直接应用于嵌入式环境。为了解决以上问题,本文提出了一种以向量空间模型为基础的相关语义库的构造方法。本文将所要介绍的相关语义库称为Corpus库。 本文首先提出了Corpus的逻辑模型,Corpus库综合考虑了多种与词语间语义关系有关的因素,创新性地将词语之间的共同出现次数、平均距离、窗口大小、信息熵、单字匹配等概念引入模型。接下来,我们给出了训练词语相关度的裁剪公式,在构建相关语义库过程中,依此公式对大量语料进行了多次迭代式学习以尽量控制空间大小。其中,我们对模型中相关词空间各个因素进行统计,针对每一个词语,根据与其相关的词语的统计信息,为这些相关词语分配权值,最后按照权值大小进行排序,排位靠前的相关词语会被最终留下存入主词语的相关空间。 本文针对Corpus自身模型和Corpus应用做了两个实验。实验一证明了用这样的构建方法得到的相关语义库能够较好的反映现实世界中词语之间的相关程度。实验二提出了一种基于Corpus库的模糊信息匹配模型,它基于一个四维的向量空间,在模糊匹配的过程中该模型会用扩展后的检索信息与待查全部文本资源进行匹配,并得出最终的检索结果,该实验证明结合相关语义库的模糊匹配能够检索出更丰富的与检索需求相符的信息。……   
[关键词]:语义库;向量空间;语义相关度;语料训练;模糊匹配
[文献类型]:硕士论文
[文献出处]:上海交通大学2008年