手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

SNP de novo分型中的数学问题

窦锦壮

  组学技术的快速发展为生物研究提供了基因组、转录组、蛋白质组、代谢组等不同层面的数据,为从系统水平上了解性状的遗传变异提供了基础。SNP(single nucleotidepoly morphisms)被认为是基因组中最广泛,揭示遗传变异理想首选的分子标记,被广泛的应用于重要疾病相关联的基因筛选、不同物种遗传图谱的构建、动植物重要经济性状的QTL定位、群体遗传结构和系统演化分析等。近几年来一系列基于高通量测序平台的“简化基因组”技术(GCR)的方法如RAD-seq、GBS、RRLs等成为非模式生物尤其是水生动物的SNP de novo规模开发和大样本群体遗传研究的有利途径。 由于大部分水生动物参照基因组缺乏,加上当前测序数据的序列很短只有大约30到100bp,使得SNP de novo分型相对于有参照基因组情况而言有以下的三个困难:(1)如何区分来自重复序列区域内SNP。(2)如何排除测序错误对SNP分型的影响。(3)测序数据量与获得SNP数目及SNP分型准确率的关系。 本文结合基于高通量测序平台的RAD-seq等简化基因组测序SNPde novo分型技术,在前人的基础上进一步讨论SNP de novo分型中的若干数学问题,并从理论上回答了上面提出的三个问题:认为低频等位基因深度不小于2是排除测序错误对SNP分型干扰前提,15~20X的测序数据量理论能够使得SNP de novo分型的准确率达到98%以上,而且能够有效的检测90%以上的单拷贝区域内的SNP。并且利用拟南芥RAD-seq模拟数据验证了所有理论推导的正确性,这为SNP de novo分型的实际数处理提供了理论指导。 此外基因组中大量重复序列的存在使得短的序列de novo聚类后的“堆”深度分布偏离了理论上的泊松分布,本文首次从理论上给出了基于基因组复杂性的“堆”深度分布服从混合泊松分布的新模型,并将这一信息有效的加入到了当前主流Stacks软件中ML分型方法中,提出了新的de novo SNP分型算法iML,并用模拟数据和实际数据对iML算法进行了全面的评价。评价结果表明将“堆”深度信息加入到SNP分型过程中时降低SNP假阳性率的有利途径之一,在各种情况下模拟数据中iML的假阳性率低于ML约8%~23%而假阴性仅比ML高不到1%。在实际数据评价中iML分型方法依然展现了比ML具有较低假阳性率的优势(3%~17%),而假阴性率和ML相当。 但是我们也看到在实际数据的分析中iML本身也具有较高假阳性率(19%~23%),这告诉我们单纯的通过“堆”的分布来降低SNP假阳性率思路仍然具有其局限性,更多的改变需要来自基因组学生物技术的革新。……   
[关键词]:高通量测序;SNP分型;iML算法
[文献类型]:硕士论文
[文献出处]:中国海洋大学2012年