手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

强噪声和类间重叠数据下支持向量机学习的研究

姬水旺

  任何能够提高系统性能的过程都可以被称作是学习的过程,学习问题一直被认为是人工智能和生物智能的核心问题。随着网络技术和数据存储技术的飞速发展,海量高维数据不断出现,如何构造高效的非线性自适应学习系统进行复杂数据分析正成为许多科学研究和工程领域急待解决的问题。传统的学习算法大多是基于经验风险最小化原则的,统计学习理论给出了经验风险最小化原则一致和快速收敛的充分和必要条件,并且为支持向量算法做了理论支持。支持向量机是基于统计学习理论的结构风险最小化原则的,它将最大分界面分类器思想和基于核的方法结合在一起,表现出了很好的泛化能力,并且可以有效地克服维数灾难和过拟合等问题,因此受到越来越多的研究人员的关注。训练SVM的本质是解决一个二次规划问题,在实际应用中,如果用于训练的样本数很大,标准的二次型优化技术就很难应用。针对这个问题,各国研究人员提出了不同的解决方案,这些方案的核心思想是先将整个优化问题分解为多个同样性质的子问题,通过循环解决子问题来求得初始问题的解。由于这些方法都需要不断地循环迭代来解决每个子问题,所以需要的训练时间很长,尤其是当训练样本的噪声很大或者类间重叠样本很多时这个瓶颈问题更为严重。实验和算法推导显示在强噪声和类间重叠数据下训练SVM得到的支持向量很多处于边界位置,如果我们能够预先知道哪些样本是边界支持向量,这些边界支持向量的值就可以被固定在边界处,从而不参加训练过程,这样,训练过程中要优化的变量就可以减少,运行时间也可以缩短。由SVM理论可知,训练SVM的优化过程存在全局唯一的最优解,因此,这样改进了的算法不会对模型精度有任何影响。本文提出了一种简单的启发式规则,这种规则根据样本所对应的Lagrange乘数过去的取值统计来判断它的最终取值情况。如果某个样本所对应的Lagrange乘数在过去循环中连续达到边界值超过一个预先设定的阈值,我们认为这个样本很可能是边界支持向量,所以在随后的训练过程中我们将这些样本固定在边界处,这样就减少了训练过程中自由变量的个数,简化了优化过程。为了保证所有训练样本都达到全局最优,算法在结束前检查所有边界支持向量的最优化条件,如果有不满足这个条件的样本存在,算法继续对它们进行优化,直到所有样本达到全局最优。人脸检测、USPS,和MNIST手写数字识别等数据的实验结果显示改进的算法在很多情况下优于原来的算法,尤其是在强噪声和类间重叠的数据下这种改善更为明显。……   
[关键词]:统计学习理论;支持向量机;复杂度规范化;机器学习;模式识别
[文献类型]:硕士论文
[文献出处]:武汉科技大学2002年