手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

基于网格与密度的数据流聚类算法研究

丁金凤

   由于数据流快速、连续到达的大量数据使大多数的传统的聚类方法失效,因此数据流领域里的数据挖掘中的聚类是一个难题。不能满足应用要求的传统的数据聚类算法极大地制约着数据流的应用与发展。因此,研究和设计适应数据流特点的聚类算法,具有很大的现实意义。 本文研究了传统聚类算法和数据流聚类算法,分析了各种算法的优点及不足,在传统聚类算法、数据流核心技术和典型数据流聚类算法的基础上,设计并实现基于网格与密度的数据流聚类算法GDClu。该算法借鉴CluStream算法的双层处理框架,将数据流聚类分为在线处理层和离线聚类层;在线处理层快速读取数据流中到达的数据,将每一个数据点映射到对应的网格单元和区域,形成相关的统计信息,并将其存储在作为概要数据结构的网格的特征向量中。利用改进后的金字塔时间框架定时存储快照形式的概要信息,来满足用户对历史数据流信息聚类和数据流演化分析的需求;离线层对在线层所获得的概要信息进行精确聚类,是以网格单元的特征向量中的密度作为聚类依据的。这两层处理框架的结合实现了数据流聚类的精确度和速度的折中。为了提高聚类的质量,还将网格单元细分后构成的小区域作为聚类最小单位,只要网格单元中有DENSE区域与聚类边缘的DENSE区域相邻,就将该网格单元聚类到该类,为此本文提出了DENSE区域的相邻判断算法。以此来判断聚类边缘的网格单元及相邻的网格单元中是否有相邻的DENSE区域存在,更有效地支持GDClu算法的实现。 实验结果表明GDClu算法可以发现任意数目、任意形状的聚类,还能有效去除噪声数据,是一个具有应用前景的适用于流数据挖掘的聚类算法。……   
[关键词]:数据挖掘;数据流;聚类算法;网格与密度
[文献类型]:硕士论文
[文献出处]:哈尔滨工程大学2010年
App内打开