手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

基于领域的主题信息采集技术研究

卢承山

  随着互联网的飞速发展,互联网已成为全世界最大的信息载体。人们对网络信息的需求量越来越大,越来越个性化,如何从海量的网络数据源中找到用户关心的数据,已成为当前Web信息检索领域研究的热点问题。2011年1月19日,CNNIC发布了第27次中国互联网络发展状况统计报告,指出互联网上的信息量呈爆炸式的增长,2010年网页数量达到600亿个,年增长率达78.6%。 Web中包含的信息量如此巨大,通用搜索引擎正面临信息采集,存储,及时等方面的巨大挑战。而且,通用搜索引擎是面向所有的用户的,抓取尽可能多的网页来满足所有用户可能的查询请求;这样必然大大降低了网页抓取的效率和准确率。为了提高抓取效率和查询效率,主题爬虫就应运而生。 主题爬虫是限定爬虫在一定主题领域范围内下载网页的爬虫。它在爬行过程中会避开大量的与主题领域无关的信息,显然主题搜索引擎在查询的准确率和网页采集的效率上都有显著的提高。因此,以何种策略来选择网络爬虫的爬取路径,是决定能否采集到与领域相关信息的关键问题。目前,主流的主题爬虫的爬行策略主要分为两种:基于网页链接结构的搜索策略和基于内容评价的搜索策略。前者通过分析网页之间的相互链接关系,来确定网页的重要性,进而决定链接的访问顺序。该方法考虑链接结构和网页之间的链接关系,的确能够避免采集一些与主题无关的网页,但是,忽略了网页内容与主题的相关性,会出现搜索上的主题漂移问题。后者起源与文本检索中对文本相似度的评价,能够准确的评价网页内容与主题是否相关,然而却忽略了链接之间存在的结构信息的特点,因而在预测链接的网页价值方面还存在一些不足。 综合考虑以上两种策略的具体情况,本文结合以上两方面的优点,多粒度来对网页与主题的相关性做出评价。一方面预测分析链接的相关度,另一方面在链接无法确定的情况下,对网页的内容与主题相关性进行分析。在传统检索模型的基础上,结合本体的概念,提出一种基于本体语义树的主题网络爬行模型。该模型能够用语义概念树描述一个主题,与传统基于关键词描述主题的方法不同,它能够描述概念之间的简单语义关系。在此基础上,给出HTML页面内容与主题相关度的计算方法。在分析URL的相关度时,不仅分析链接锚文本与主题相关度,还结合了改进的PageRank算法来分析链接的相关度。只有当链接相关度小于给定的阀值时才会去下载链接对应的页面。这样的URL相关度计算方法可以大大减少不必要的计算开销,又可以充分地利用锚文本和链接重要度信息。最后还对那些不确定是否与主题相关的网页进行内容相关度计算,进而最终确定是否应该采集此网页。……   
[关键词]:本体;概念树;主题网络;锚文本;主题相关度
[文献类型]:硕士论文
[文献出处]:武汉理工大学2011年
App内打开