手机知网 App
24小时专家级知识服务
打 开
计算机软件及计算机应用
基于布局特征与语言特征的网页主要内容块发现
本文综合分析了网页内容块各方面的特征,提出了一个联合使用布局特征和语言特征的网页主要内容块发现方法,有效地解决了以往模型中通用性与高准确率不能共存的缺点。该方法使用网页视觉块树表示网页,对网页内容块的布局特征和语言特征分别建立了独立的分类器,然后组合这两个分类器来进行网页内容块分类。实验结果表明,在保持非噪音块召回率在90%以上的同时,组合分类器的准确率达到85%,比只使用布局特征的分类器提高5个百分点,比只使用语言特征的分类器提高15个百分点;在5个站点上的分类结果表明组合分类器在不同站点上性能稳定,具有良好的通用性。
1 27
手机阅读本文
下载APP 手机查看本文
第三届全国信息检索与内容安全学术会议论文集
2007年
相似文献
图书推荐
相关工具书

搜 索