手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

半监督聚类算法的研究与应用

管仁初

   本文主要针对半监督学习中的聚类算法展开研究: 1.提出了3-集合相似性度量,它是一种包含结构信息的非欧空间度量。在相似特征集、排斥特征集和仲裁特征集的基础上,提出了新的相似性度量和新的聚类算法:权吸引子传播算法。 2.提出了融合3-集合相似性度量、半监督学习策略和吸引子传播算法的种子吸引子传播算法。它降低了文本聚类算法复杂性,避免了随机初始化和陷入局部极小的缺陷,提高了准确率,并具有更好的鲁棒性。 3.提出了融合增量学习的增量吸引子传播半监督聚类算法。该算法将标记样本的先验信息嵌入到相似性矩阵中并运用增量学习策略将它们扩散开来。实验结果表明新算法具有更优良的性能。 4.分析了已标记样本数量对半监督聚类算法的影响。5种算法在3个数据集上的实验结果表明:已标记样本数目的增长能够帮助半监督聚类算法获得更好的性能。但当数目增长超过关键点位置时,这种改进将变得迟缓甚至停滞。 5.分析了未标记样本数量对半监督聚类算法的影响。4种新的半监督聚类算法在 3个数据集上的实验结果表明:在多数情况下,较少未标记样本的增量学习能够帮助半监督聚类算法得到更好的结果。但是,未标记样本规模增长超过关键点时,改进将减少甚至起反作用。……   
[关键词]:机器学习;半监督聚类;吸引子传播算法;k-means算法
[文献类型]:博士论文
[文献出处]:吉林大学2010年