手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

基于XML的Web文本挖掘的研究

姚继伟

   Web上的信息资源不但极其丰富,而且无时无刻不在更新,为了能够及时、准确地从Web上获取到我们需要的信息,需要对Web上的各种数据资源进行挖掘分析,以期能够发现其中蕴含的知识或规律。 本文主要通过研究Web数据挖掘和XML的相关技术,设计并实现了一个简要的Web文本挖掘模型。首先,该模型采用元搜索引擎技术能够快速、全面地搜集用户需要的各种资源,并将搜集到的文本数据采用XML技术进行存储,实现了Web文本数据的半结构化。其次,该模型选择目前最有效的向量空间模型进行文本的表示和最优的卡方统计法进行文本特征的选择。接着,该模型主要采用了文本分类的方法对文本内容进行挖掘分析。在基于距离分类算法的基础上,设计并实验了各种不同参数的设置对分类结果的影响,并选取了当前条件下最优分类结果所对应的分类器作为挖掘得到的知识。最后,该模型提供了可视化的界面对文本数据资源进行分类显示,并提供每类文本的简要信息和不同查看方式,使之能够清晰准确的浏览到各种有用的信息。……   
[关键词]:Web文本挖掘;文本分类;XML;元搜索引擎;特征选择
[文献类型]:硕士论文
[文献出处]:吉林大学2010年
App内打开