手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

文本分类和聚类中若干问题的研究

杨震

   文本分类和聚类是文本信息处理领域的一个重要分支,其目标就是研究如何更有效地组织和管理文本信息,并快速、准确、全面地从中找到、分流、定位和形成用户所需要的信息。文本分类和聚类作为获取和组织大量文本数据的关键技术,可以在很大程度上解决信息杂乱和信息爆炸的问题。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类和聚类有着广阔的应用前景。随着信息化时代的到来,文本分类和聚类的重要性日趋显著,其研究工作已经不仅仅是科学家的兴趣所在,世界上许多国家和地区的政府及工业界都十分关注并积极投身于文本分类和聚类领域的研究。 本文针对文本分类和聚类中亟需解决的海量应用、分类精度以及理解深度等问题,开展了以下创新性研究: 第一,探讨了基于统计模型的文本分类。主要研究了传统的统计模型方法在文本分类领域中的应用。首先,研究了基于贝叶斯方法的文本分类技术。在此基础上,利用加权的方法提出了一种改进的贝叶斯算法。其次,研究了如何利用无标签样本进行学习的问题。通过采用转导推理,整合了无标签样本和有标签样本的学习。最后,探讨了字符级统计方法在文本分类中的应用。此外,通过把垃圾邮件过滤和短信分类任务的解决贯穿始终,将这一部分的研究内容在其上逐一实现。实验结果表明,本文的方法不仅易于工程实现,能够联合无标签样本学习,而且可以较好地在分类速度和精度之间进行折衷,以达到快速准确处理海量文本信息的能力。 第二,探讨了基于分类器集成的文本分类。主要研究了基于简单多数投票策略的分类器集成问题。首先,给出了一个分类器错误的分解式(E+V分解),在理论证明的基础上,提出了一个能够指示分类器集成性能的指标|V|。借由线性规划方法,分析了基于简单多数投票策略的分类器集成性能的理论上下界。最后,探讨了可能达到集成性能理论上界的两种途径:1)选择性分类器集成;2)基于|V|指标优化的分类器集成。此外,我们将这部分所研究的方法应用于垃圾邮件过滤任务。实验结果表明,本文的方法能够很好地提高集成后文本分类器的精度,具有良好的应用前景。 第三,探讨了基于非线性方法的文本聚类。我们期望能够将传统的文本聚类处理提升到“理解”的层次。将文本聚类处理领域的研究,从长期专注于“语法”层次的研究,演进到“语义”的层次。首先,通过使用流形学习工具,研究了中文词汇在语义空间(分类空间)的分布情况,这部分研究将为进一步基于语义的特征选择工作打下良好的基础。在此基础上,利用WordNet词典进行了短信聚类的研究。实验结果表明,本文的方法能够更好地反映文本之间的内在联系。……   
[关键词]:文本分类和聚类;统计模型;分类器集成;流形学习;垃圾邮件过滤;短信处理
[文献类型]:博士论文
[文献出处]:北京邮电大学2007年
App内打开