手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

新闻语料库中基于概念网络的词语相关度计算

刘金盼

  词语相关度是用来衡量两个词语相关程度的一个可度量的数值,词语相关度计算研究是在自然语言处理的众多应用中的基本研究方向,词语相关度计算方法水平的提高对于自然语言处理的很多方面有重要的意义,例如文本聚类、语义消歧、语义Web、信息检索等,但是当前词语相关度计算只是单纯的通过统计或语义词典来计算两个概念之间的相关度,没有将两种方法结合起来,同时不能体现概念之间的隐式关系。本文提出一种新的在新闻语料库中基于概念网络来计算词语相关度的方法。 目前大多数计算词语相关度主要有两种方法,一种方法是利用统计,通过词语的共现频率来计算词语的相关度,主要缺点是通过统计的方法不能准备的反映词语之间的固有联系,造成关系丢失。另一种方法是利用语义词典,由于语义词典由专家构建,该方法的主要缺点是不能动态的反映词语意义的变化,或及时的引入新的词语。同时之前的研究方法侧重于一对词语之间相关度的计算,忽略了词语之间是互相联系的。 针对上述缺点,本文提出了相应的解决方案。首先,构建一个新闻语料库,利用新闻语料库及时性等优点,通过对新闻语料库中共现词语的统计来计算词语的相关度。其次,针对统计的缺点,引入维基百科相关度来对概念的相关度进行矫正,保证词语之间的固有联系,结合上述两步,提出SWRN-W (single word relatedness computation algorithm for news corpus based Wikipedia)算法,然后根据SWRN-W词语相关度算法的结果来构建一个概念网络,通过概念网络中词语之间路径的计算来获得更多词语的相关度,这样就较好地克服了词语孤立的缺点。 实验结果表明,本文提出的改进方法的效率较之先前有了较大的提高,从而为更加有效地解决词语相关度计算做了有益的探索。……   
[关键词]:词语相关度;新闻语料库;概念网络;共现
[文献类型]:硕士论文
[文献出处]:华东师范大学2011年