手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

数据挖掘中的谱聚类算法研究

孙玉侠

  聚类分析是目前国际数据挖掘和机器学习领域中的一个相当活跃的研究热点,是人们认识和探索事物之间内在联系的有效手段。谱聚类算法作为一种新型的聚类分析的算法,与传统聚类方法相比,谱聚类具有明显的优势,该方法不仅思想简单,易于实现,不易陷入局部最优解,而且具有识别非凸分布的聚类的能力,能够对任意形状的样本空间进行聚类,非常适合于许多实际应用问题。 传统的谱聚类算法首先定义数据点间的相似性度量,基于该相似性度量,构造数据点集的相似度矩阵W,求出拉普拉斯矩阵L,接着计算出L的特征值和特征向量,最后选择一个或多个特征向量就可以对不同的数据点进行聚类。其中,构建相似度矩阵W时,相似函数使用的是高斯核函数,尺度参数σ-是手动设定的,这给该算法带来了一定的局限性。设计出无需手动输入尺度参数的谱聚类算法的实现方法,具有很重要的理论和现实意义,它不仅有助于研究人员对数据挖掘领域中的谱聚类算法的深入研究,还有助于普通工程技术人员利用谱聚类算法解决现实世界中的实际问题。 本文详细分析了谱聚类算法的有关理论和方法,谱聚类生效的原因和优势,并指出了目前谱聚类算法存在的问题,然后介绍了NJW谱聚类算法的理论基础和构造方法,最后做了以下两个主要的工作。 首先,详细分析了谱聚类算法的有关理论和方法,通过对经典的NJW谱聚类算法的深入研究,针对NJW算法中存在的手动输入尺度参数σ的问题做了相应改进,研究目标是通过对NJW算法进行深入分析,设计出能够自动优化尺度参数σ-值的一种方法,从而避免了手动输入尺度参数σ值带来的聚类结果不稳定的问题。算法代码在matlab 7.0平台上实现,通过在UCI标准数据集上对比分析k-means聚类、NJW谱聚类和EBSC谱聚类的实验结果,证明了EBSC算法在聚类准确性上优于前两种算法。 其次,本文对谱聚类应用于烟草行业中的烟叶品质划分进行了探讨。目前在烟草行业已经运用了很多数据挖掘技术和计算智能的方法来解决问题,都取得了一定的成果。但是在聚类分析方面仍是利用传统的聚类方法进行聚类,如基于中心的聚类算法(例如最经典的k-means算法),在紧凑的超球形分布的数据集合上有较好的聚类效果,但却并不适合任意形状的聚类,而且此类算法是利用迭代最优化方法来寻找最优解,容易陷入局部最优解,因而此类算法不能保证收敛到全局最优解。而谱聚类由于其能发现任意形状簇的能力和收敛于全局最优解的性能,对烟叶品质的划分提供了一个新思路。因此本文将EBSC谱聚类用于烟叶品质划分中,通过对烟叶的聚类,对烟叶的采购具有一定的指导意义,同时在设计卷烟配方时,当需要的某一等级原料不足或缺乏时,可根据烟叶品质的相似性,从相同的类簇中寻找相近的烟叶,对烟叶的替代也可提供一定的帮助。实验结果表明,EBSC谱聚类在烟叶品质划分中确实有一定的可行性。 最后提出了以后的工作和展望,对谱聚类的进一步发展提出了自己的看法。……   
[关键词]:数据挖掘;谱聚类;信息熵;EBSC
[文献类型]:硕士论文
[文献出处]:中国海洋大学2010年