手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

数据流上概念漂移的检测和分类

周驰

   在当今信息时代,通信、计算机和网络技术的快速发展让我们能捕获和存储大量的数据,导致数据出现了爆炸性增长。在这些数据中寻找模式、趋势和异常之处,并且以简单的数量模型归纳,是信息时代巨大的挑战之一。数据挖掘正是为应对这一的挑战所诞生的一门新学科。近几年来出现了一类新的数据应用模型,包括:信用卡欺诈监测、网络安全监控、传感器数据和电力供应网等。此类应用模型的特点是海量的数据以高速有序的形式到达,学者将此类数据形式称之为数据流,即大量且连续的和潜在无限的数据的有序序列。 分类技术是数据挖掘中一个非常重要的研究领域,而数据流模型自身的特点给传统的分类技术带来了新的挑战,即如何从快速到来的、海量的且数据分布可能发生变化的数据流中训练模型,来有效地预测未来的数据趋势。近年来出现了大量的数据流分类算法:VFDT、CVFDT、加权集成分类器和在线Bagging和Boosting。 分本的研究重点为分类带有概念漂移的数据流技术。首先通过对概念漂移的分析,提出一种概念漂移检测方法。该方法使用统计学理论估计某一确定模型在最新概念上的真实错误率的置信区间,在一定概率保证下检测数据流中是否发生了概念漂移。其次使用该概念漂移检测方法和核均值匹配(KMM)算法形成一种新的集成分类器框架,提出了一种数据流分类的新算法WSEC,并以理论和实验证明了该算法的有效性。最后提出了一种自适应概念漂移的基于Hoeffding树在线bagging分类算法(AHBag)。该算法对概念漂移检测方法进行修改使之适合在线挖掘,并由检测结果决定更新Hoeffding树或重建新Hoeffding树。实验结果表明,该算法在处理带有概念漂移的数据流上表现出很高的分类精度。……   
[关键词]:数据流;数据流挖掘;分类;概念漂移;Hoeffding树
[文献类型]:硕士论文
[文献出处]:郑州大学2010年
App内打开