手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

基于支持向量机和蛋白质全序列的蛋白质—蛋白质相互作用预测

张杰

   随着人类基因组计划的完成,生命科学研究已经进入到后基因组时代,蛋白质组学是后基因组时代的一个重要研究内容。蛋白质是生命活动的主要承担者,蛋白质的在生物体内功能大部分与蛋白质间的相互作用有关联。蛋白质-蛋白质相互作用研究则成为蛋白质组学中的一个研究热点。用传统的实验方法来鉴定蛋白质相互作用不仅费时费力、代价高,而且有很高的假阳性和假阴性,发展先进高效的信息分析技术和数据挖掘手段,从大量蛋白质组数据中发掘蛋白质之间的内在联系,以揭示蛋白质的功能及相互作用关系具有极其重要的意义。因此,很多研究者选择用生物信息学方法去研究蛋白质-蛋白质相互作用。 本论文首先从DIP数据集中下载啤酒酵母的蛋白质相互作用数据,然后从中筛选实验所需的原始正数据集,共得到5943对相互作用蛋白。然后在通过多序列比对,去除原始正数据集蛋白质序列中同源性大于40%的蛋白质,得到5594对相互作用蛋白,构建为非冗余的正数据集。由于目前缺乏非相互作用蛋白质对实验数据,通过随机组合正数据集中的蛋白质、组合不同亚定位的蛋白质和Shufflet软件组合正数据集中的相互作用蛋白序列这三种方法来构建原始负数据集,共得到5个负数据集,分别是Prq、Psub、1-let、2-let、3-let负数据集。再去除Psub负数据集中蛋白质序列同源性大于40%的蛋白质,构建非冗余负数据集,也筛选出5594对非相互作用蛋白质。基于蛋白质一级序列信息结合氨基酸五位编码和氨基酸7个理化参数编码两种编码去表达蛋白质序列信息,使用支持向量机算法构建模型和预测。使用氨基酸五位编码方法时预测结果最好,当用1-1et作为负数据集时,预测准确率达到95.50%,其次是Psub作为负数据集时,预测准确率为92.12%,非冗余数据集的预测准确率为90.84%。对1-let数据集和Psub数据集的五倍交叉验证的准确率分别为93.62%,90.31%。上述预测结果高于目前的文献预测值。 本文最后,对预测工作进行了总结,工作中的不足之处也进行了探讨,并展望了蛋白质组学未来研究的重点和方向。……   
[关键词]:蛋白质组学;蛋白质-蛋白质相互作用预测;生物信息学;支持向量机
[文献类型]:硕士论文
[文献出处]:郑州大学2010年