手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

基于标签特征向量的网页去噪声研究及其应用

陈玉兰

   作为Internet主要载体的网页(Web Page),其内容丰富多彩,很多与网页主题无关的内容,如网页模板、文字链广告、版权信息等网页噪声对信息提取的准确性造成了很大影响。 目前已经有一些网页文本去噪声模型及方法,并且这些模型和方法对某种类型的网页能够取得不错的效果,如CSS模型和基于视觉分块的方法。但这些模型和方法也存在一些问题:这类方法往往局限于一类网页,过多的阈值设定,缺乏通用性。 本文提出了基于网页标签特征的文本去噪声方法,具体方法如下: 首先,对网页叶子节点建立特征向量集合。由于网页标签的不规范使用,使得有些标签节点是文本和其他标签的混合节点,为了防止文本信息丢失,对DOM树进行正则化。按照特征定义对DOM树进行标注,遍历DOM树建立特征向量集合。 其次,对特征集合进行聚类。根据得到的向量集合,采用聚类算法进行聚类,得到K个类。 最后,选取具有较强文本特征的类,选取中心向量的模最小的那个类作为目标类,并且进一步去噪声。 基于网页标签特征的模型具有两个特性。第一,将网页节点转变成空间的点,从而使得当前流行的数据挖掘技术,如聚类算法,能够成功地应用到网页去噪声的方法中。这也是本文的一个重要贡献。第二,该方法是一种局部性方法,也即不需要对许多网页建立模型。 基于网页标签特征的模型能够有效克服其他一些方法的不足:该模型主要使用了聚类个数这一参数,对参数的依赖较小;该模型不局限于某类网页;通过类的特征还可对网页进行分类。 实验表明,该方法能够对不同类型的网页去噪声,并且取得很好的效果。……   
[关键词]:网页去噪声;文本提取;标签特征向量;聚类;标签树
[文献类型]:硕士论文
[文献出处]:华东师范大学2010年
App内打开