手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

基于内容的多源新闻聚合关键技术研究与实现

邱萌

   在当今信息大爆炸的时代,用户如何在浩如烟海的信息中高效地筛选并整合对自己有利的信息成了难题。而另一方面,随着网络的不断发展,网络新闻的盛行,传统媒体与网络这一“第四媒体”之间的界限将越来越模糊。 所以在新闻领域,为了跨越传统媒体与网络媒体之间的界限,同时又可以帮助用户快速地将所需的新闻聚合在一起,本文对多形式多来源的新闻聚合技术进行了研究。 作者研究了多形式新闻聚合所需关键技术,在现在盛行的信息聚合工具RSS技术的基础上,提出了应用于新闻领域的,基于内容的多形式新闻自动聚合解决方案。本文的关键研究内容概括如下: 利用Agent的自治能力和合作能力,本文将不同新闻源不同形式的新闻的处理交由不同的功能Agent完成,同时又结合了关键词自动抽取技术以及特征向量相似度匹配技术,提出了基于内容的多形式多来源新闻聚合系统架构C-NSSA(Content BasedNews Syndication System Architecture),用于指导多源多形式新闻的自动聚合。该架构采用Multi-Agent结构,实现了新闻的采集、预处理、关键词提取、匹配集合、与用户交互等功能,具有高并行性、高可靠性和高可扩展性。 在系统架构C-NSSA的指导下,本文对新闻自动聚合的核心技术,包括新闻页面解析技术、新闻文档关键词自动提取技术以及表示新闻内容的关键词集合匹配技术,进行了深入的研究。 在新闻页面解析阶段,本文提出了基于新闻页面结构特征的页面解析方法。该方法在HTML DOM技术的基础之上,首先将html文本转化成DOM树,然后通过新闻页面的结构特征研究结果,根据文本节点分组总大小,以及一个分组内文本节点大小分析,来实现新闻标题以及正文的提取。使得页面解析算法更适用于本系统架构的实际应用情况。在新闻关键词提取阶段,本文利用词的共现性原理,对原有的TF*IDF方法进行了改进。该方法以传统的关键词权重计算方法TF*IDF为基础,综合考虑了新闻的内容分类,又结合新闻的特点得出词语的位置信息特征,以及词与词之间的共现性特征,使得该关键词权重计算方法更适用于针对新闻文档的关键词提取。而在最后的新闻密切度匹配上,本文借鉴了应用广泛的向量空间模型(VSM)以及余弦系数的算法用来计算特征向量的相似性。同时又考虑到本系统的特殊情况,视频新闻没有文本,只有个数有限的关键词,若独独采用相似度计算的方法可能会影响匹配效果,于是再次加入词共现性特征的计算。综合考虑了词的相似度以及关联度两个因素,得到了较好的密切度评估方法。 最后,由于本系统架构已经使用在具体的项目中,于是在理论研究的基础上,本文对项目的实现进行了简单的介绍,并对本文提出的关键算法进行了实验分析。用数据证明,基于内容的多源新闻聚合系统有较好的使用效果。……   
[关键词]:新闻;自动聚合;关键词提取;共现性;多源;多形式
[文献类型]:硕士论文
[文献出处]:华东师范大学2010年