手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

特征提取及分类算法在膜蛋白分类预测问题中的应用

王立鹏

  基因是能够自我复制,永远保存的单位,它的生理功能是以蛋白质的形式表达出来的。细胞中有大约30%的蛋白质是膜蛋白。膜蛋白作为生物膜的主要组成成分之一,是生物膜功能的主要承担者,在生物体中发挥着极其重要的作用。面对数量庞大的膜蛋白序列信息,利用传统的分子生物学实验方法来预测膜蛋白结构类型不仅费时费力,还会 遇到一些目前无法解决的困难,已经难以满足现实的要求。膜蛋白序列的特征提取和分类是膜蛋白分类预测研究中最基本的问题之一,也是决定膜蛋白分类质量的关键。本文以膜蛋白序列的分类预测为主题,针对膜蛋白序列的特征选择算法、分类算法进行了相关的研究,现将主要工作和创新之处概括如下: (1)本文将线性降维方法应用到膜蛋白分类预测问题中。现今,在膜蛋白特征提取算法中,二肽组成(DC)已逐渐被证明比传统的氨基酸组成(AAC)更有效。然而通过此方法虽然可以取得较高的分类预测精度,但是从膜蛋白序列特征中提取出的属性特征向量的维数一般都很高,它在全面描述膜蛋白序列信息的同时,也带来了“维数灾难”问题,使得膜蛋白预测系统的计算复杂度很高。为了解决这一问题,我们将线性降维方法应用于膜蛋白分类预测问题中。首先采用二肽组成(DC)方法从膜蛋白序列中提取出高维属性特征向量,然后采用线性降维方法从高维DC空间数据中进行二次提取,提取出重要的低维特征向量,接着在降维后的低维特征向量上再进行分类预测,最后预测结果表明采用该方法的预测准确率要高于不采用线性降维方法的预测方法,证明了将线性降维方法应用于膜蛋白类型预测问题中的可行性和有效性,简化了膜蛋白预测系统,提高了预测效率。 (2)本文提出五种新的基于降维的组合特征提取算法。本文首先引入线性降维的思想,构造了两种基于线性降维的组合特征提取算法:结合二肽组成和主成分分析算法,构造了新的特征提取算法DC_PCA;结合二肽组成和线性判别分析算法,构造了新的特征提取算法DC_LDA。通过实验结果表明,与传统的基于二肽组成(DC)的膜蛋白分类模型以及基于氨基酸组成(AAC)的膜蛋白分类模型相比较,基于线性降维的组合特征提取算法所构造的分类模型所达到的分类预测精度更高。为了得到具有更好分类性能的膜蛋白分类模型,更好的预测膜蛋白序列中所蕴含的结构和功能信息,本文又构造了三种基于非线性降维算法的组合特征提取算法:结合二肽组成和核心主成分分析算法,构造了新的特征提取算法DC_KPCA;结合二肽组成和核心线性判别分析算法,构造了新的特征提取算法DC_KLDA;结合二肽组成和邻域保护嵌入算法,构造了新的特征提取算法DC_NPE。实验结果表明,与传统的基于二肽组成(DC)的膜蛋白分类模型以及基于氨基酸组成(AAC)的膜蛋白分类模型相比较,基于非线性降维的组合特征提取算法所构造的分类模型所达到的分类预测精度更高。为了得到分类精度最好的分类模型,本文对五种组合降维特征提取算法做了比较,结果表明,基于DC_KLDA的模型分类精度最高,针对标准数据集CE2059,经过Jackknife检验,该模型的总体分类精度达到92.71%,比目前常用的基于氨基酸组成的分类模型提高了15.1~30.59个百分点;针对标准数据集CE2625,该模型的独立测试集检验总体分类精度达到94.12%,比目前常用的基于氨基酸组成的分类模型提高了14.69~31.42个百分点。 (3)基因芯片技术从基础上改善了研究生物技术的方法和效率,对基因组学及后基因组研究产生了重要的影响,但海量信息的获得也对数据的分析及信息特征提取提出了新的挑战。为了解决当基因数据维数急剧升高时无法维持较高的分类准确性和效率的问题,本文在传统近似支持向量机(PSVM)的基础上,提出了降维近似支持向量机(DRPSVM)的基因芯片数据分类器。DRPSVM采用了降维的二次规划算法,不但能将基因数据的分类问题归结为仅含线性等式约束的二次规划问题,同时还在传统近似支持向量机(Proximal Support Vctor Machines, PSVM)的基础上维持了较好的分类准确性,并降低了分类处理的时空复杂度。……   
[关键词]:蛋白质组成;生物信息学;基因;膜蛋白;特征提取;线性降维算法;二肽组成;降维近似支持向量机;基因芯片数据分类器
[文献类型]:博士论文
[文献出处]:兰州理工大学2010年
App内打开