手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

基于统计学习理论的分类方法研究

殷志伟

  海量数据分类一直是数据挖掘、机器学习和人工智能的研究热点,海量数据分类是应用训练集构造一个分类器,应用这个分类器能够完成后续分类工作。本文深入研究了两种基于统计学习理论的数据分类算法,即朴素贝叶斯分类以及粗糙集分类的工作原理,并针对朴素贝叶斯分类算法的增量分类算法、基于粗糙集的属性约简算法等存在的一系列问题,提出了相应的解决方法。 针对朴素贝叶斯算法不具有增量分类能力及海量数据增量分类算法时间复杂度较大等缺点,提出一种基于空间特征向量的增量贝叶斯算法,给出了将向量空间原理及空间欧氏距离结合获取样本特征向量的方法及增量分类过程。仿真实验结果表明,本文提出的算法在大量样本参与分类的时候,能够相对快速并且准确的完成分类任务,能够给出一个相对准确的样本分布情况。 针对基于Skowron差别矩阵的属性约简算法存在的应用范围受限、时间及存储空间浪费和效率瓶颈等问题,通过提出一种浓缩布尔矩阵的概念,提出了一种基于浓缩布尔矩阵的属性约简算法:以布尔代数的形式来解决现有差别矩阵存储空间大、生成效率低等缺点;给出一种新的用于直接生成分辨函数最小析取范式的算法,有效改善了算法的时间和空间复杂度,从而提高了属性约简算法的效率;另外在约简率上本文所提算法也有明显的优势。 针对上述所提出的属性约简算法不适应动态变化的对象集、不支持增量式约简算法等问题,在深入分析新增对象与原决策表对象间的关系的基础上,提出了一种适用于决策表的增量式属性约简算法,实现了对属性约简结果的动态更新、维护和管理,提高了属性约简的效率,理论分析和实例验证表明算法是有效可行的。……   
[关键词]:统计学习;分类;粗糙集;增量贝叶斯算法;属性约简;增量式属性约简
[文献类型]:博士论文
[文献出处]:哈尔滨工程大学2009年