手机知网 App
24小时专家级知识服务
打 开
计算机软件及计算机应用
基因聚类分析中数据预处理方式和相似度的选择
聚类分析是基因表达数据分析研究的主要技术之一.选择恰当的数据预处理方式和相似性度量,是获得高质量聚类结果的前提.采用具有外部标准的基因表达数据集,分别以Pearson 相关系数和Euclidean距离为相似度,以校正的Rand指数比较了使用分层聚类、K-均值聚类和 SOMs聚类算法对经过行标准化、列标准化和对数化处理后数据的基因聚类质量.结果表明: K-均值聚类和SOMs聚类质量显著优于分层聚类,SOMs聚类质量稍好于K-均值聚类.而且,分层聚类偏好于Pearson相关系数准则和行标准化处理,而应用K-均值聚类和SOMs算法时,则最好是对数据进行对数化处理、并以Euclidean距离为相似性度量准则.上述研究结论将为基因表达聚类分析的实施提供有价值的参考依据.
手机阅读本文
下载APP 手机查看本文
自然科学进展
2006年03期
相似文献
图书推荐
相关工具书

搜 索