超快速检测人类基因组单碱基突变和微插入缺失的方法

文档序号:8442353阅读:880来源:国知局
超快速检测人类基因组单碱基突变和微插入缺失的方法
【技术领域】
[0001]本发明涉及生物医学数据分析领域,具体涉及一种超快速检测人类基因组单碱基突变和微插入缺失的方法。
【背景技术】
[0002]基因是遗传的物质基础,生命体一切生命活动(生老病死),基因都起着重要的基础作用。随着人类基因组计划、国际单体型计划、千人基因组计划的顺利完成,特别是高通量测序技术(High Through-put Sequencing)的迅猛发展、日臻成熟,越来越多的遗传多态性位点(主要是单碱基突变和微插入缺失)与疾病健康的关系被陆续发现。目前,人们已经可以通过比较低廉的价格来对人类的基因组进行测序、分析,获得该个体的这些多态性位点在全基因组水平上的基因型。有了这些遗传信息,可以辅助医生们对可疑病患的确诊(某些疾病上),告诉医生哪个药物对该病患的疗效最好,甚至告诉人们自己对哪些疾病具有较高的罹患风险。这些都是个体化医疗的明天,而廉价、快速地获取上诉多态性的信息则成为了个体化医疗的关键和基础所在。
[0003]为了达到上述目的,人们构建了相关的人重测序分析的方法,该系统一般要求对人的全基因组达到起码30X的覆盖深度,也就是大概90G碱基的输入数据量(一般以FASTQ格式存储)。在计算机分析资源充足的情况下,该流程从输入FASTQ文件到最终得到突变(或说遗传多态性)结果,起码需要7天的时间,在不考虑基因测序的时间下,这样较长的数据分析时间已经远远超出了目前大多数的医学检测服务周期,也与个体化医疗中应有的“快速”的特性不符。
[0004]人们为了缩短人重测序的分析周期,有的从最耗费时间的序列比对入手,通过运用基于GPU的CUDA架构来进行序列比对,然而这样做却无法检测到微插入与缺失,而且时效提高也没有太多,最多是让序列比对这个步骤比之前的快了 3倍。况且其他耗费时间的步骤没有得到提升,故对整体流程分析时间的缩短比较有限。
[0005]另外一种思路是,对于主要耗费时间的关键步骤,运用基于分布式的存储架构,把一个复杂的任务切分成多份来分析,从而大幅降低该步骤的分析时间。这个方法是可以实现分析周期的大大缩短,但是该方法限制较大,对计算资源的要求较高。主要表现在:需要搭建分布式的存储架构,而且每一个小份任务对内存的要求几乎与整一个任务的无异,故需要大量的计算机内存资源。

【发明内容】

[0006]为了克服上述现有技术的不足,本发明提出一种超快速检测人类基因组单碱基突变和微插入缺失的方法,本方法通过对人基因组参考序列科学巧妙地切分,对人重测序分析的整体目标,从串行或部分并行地在大小为3G的人基因组参考序列中寻找基因组多态性事件,改为从参考序列的各个可合并小块中,并行化地进行分析,最后通过去除冗余和失真信息,从而获得全基因组水平的多态性信息(主要是单碱基突变和微插入缺失的信息)。
[0007]为了解决上述问题,本发明的技术方案为:
[0008]一种超快速检测人类基因组单碱基突变和微插入缺失的方法,包括:
[0009]获取人全基因组序列的测序结果,对人类基因组DNA样品进行扩增、建库和测序处理,得到人的全基因组测序结果;
[0010]对得到的人全基因组测序结果进行来料质控,以确保测序得到的序列,其测序质量符合进行信息分析的要求;
[0011]对来料质控后的人的全基因组测序结果进行过滤接头、低质量处理,得到已过滤序列,对已过滤序列进行来料质控,以确定这些可用的已过滤序列从质与量上符合信息分析的标准;
[0012]将人参考基因组切分成若干小块的参考基因组块,且对每一小块分别建立适用于比对软件的二进制索引库;
[0013]将上述待比对序列,序列比对到切分好的某参考基因组块,对其进行人重测序生物信息分析,得到测序序列在该参考基因组块中的比对结果;
[0014]对该比对结果进行排序、重比对、比对质量与比对得分值校正,得到修正后的比对结果;
[0015]对修正后的比对结果进行去重,得到能够用于检测遗传多态性的比对结果文件;
[0016]基于该结果文件,检测该参考基因组块中的某个小块的遗传多态性SNP和Indel ;然后分别对该参考基因组块中其他小块进行同样的分析;不同参考基因组块的分析能够并行处理,且相互不影响;上述所有分析都完成后,得到若干个分别对应于参考基因组块的遗传多态性结果;
[0017]对上述遗传多态性的结果进行合并,得到全基因组的遗传多态性结果;对得到全基因组的遗传多态性结果进行校正、过滤,并对过滤后的多态性结果进行结果质控,以确定该结果是正常无误的人的遗传多态性结果。
[0018]本发明要解决的技术问题,是提供一种能从人基因组DNA测序结果中快速地检测出单碱基突变、微插入缺失的可行方法。该方法,通过把人参考基因组序列科学有效地切分为小的子参考序列块,把人重测序中的几乎全部步骤(包括分析时间较长的步骤)都切分为计算复杂度大大降低的子任务块。而各子任务块之间相互不影响,最终通过一定规则和算法,把从各子参考序列块中得到的遗传多态性信息进行去冗余、校正,然后过滤,从而得到原人重测序流程中需要获取的遗传多态性信息。解决了人重测序生物信息分析时间过长的问题,开创了一种新的分析模式。
[0019]优选的,所述将人参考基因组切分成若干小块的参考基因组块的具体过程为:是根据人参考基因组各染色体长度、基因组中的N序列区的分布、基因分布,对参考基因组序列进行切分,得到若干块各自独立又互有联系的原参考基因组的小块。继而分别对这些小块,根据后续所用到的比对软件建立二进制索引库。
[0020]优选的,所述对得到的人全基因组测序结果进行来料质控,是对不同测序长度的测序结果分别以下述指标进行质控,以保障测序结果的序列符合人重测序流程分析对于测序数据的最低质量标准,其指标包括:
[0021]Q20、Q30的百分率,测序错误率,AT-GC分离率,每个位置在整体序列中被测出为N的比例。
[0022]优选的,所述对来料质控后的人的全基因组测序结果进行过滤接头、低质量处理,得到待比对的序列的具体方式为:是将测序结果中含有的、由测序建库过程中引入的接头序列去除,将平均测序质量低的小部分序列予以去除。判断测序质量是否偏低,一般的阈值为平均测序错误率>3%,可根据具体分析项目来灵活变动,建议阈值起码为5%。
[0023]优选的,所述对已过滤序列进行来料质控的过程具体是:
[0024]对经过过滤得到的可用数据量占原数据量的比率进行统计及质控,用于判定此次测序结果的可用率是否达到测序服务的标准;
[0025]若无法达到,且数据量经过大致推算后,符合至少30X覆盖度的指标,则仍能够用该数据进行后续分析处理;否则,则需加测或重测,以达到对数据量的最低要求。
[0026]下面所说的步骤,均为把上述所说的经过滤后得到的待比对序列,并行化地对于切分好的各参考基因组小块进行生物信息分析。
[0027]本发明提供的超快速检测人类基因组多态性和微缺失的方法,在人重测序生物信息分析步骤中,包含、但却不硬性包含以下子步骤:
[0028]对经过滤处理后得到的待比对的序列,采用并行的方式对切分好的参考基因组块进行分析,其具体过程为:
[0029](I)序列比对,把测序结果比对到某参考基因组的分块中;该步骤中,还需要根据具体测序类型、测序序列长度、测序建库策略及多态性检测要求设置相适宜的比对参数;
[0030](2)排序,将上述步骤(I)得到的比对结果按照染色体和比对坐标排序,其中比对坐标排序按从小到大排序;
[0031](3)重比对、比对质量与比对得分值校正,首先找出比对区域中多态性位点出现多的区域,对该区域的比对结果进行优化,对比对结果由于高频SNP、Indel的存在而比对得分低的情况予以校正;
[0032](4)去重,由同一个DNA分子通过PCR扩增而来的其他分子,相对于原模板分子而言,都是冗余的数据,故在进行信息分析的时候需要予以区分并标记,在多态性检测的时候与其他非冗余的数据予以区分对待;
[0033](5) SNP检测,基于上述步骤(4)生成的比对结果,对该基因组块区域进行SNP检测,得到该参考基因组块上的SNP检测结果;
[0034](6) Indel检测,基于上述步骤(4)生成的比对结果,对该基因组块区域进行Indel检测,得到该参考基因组块上的Indel检测结果。
[0035]对于上述步骤,可以根据具体分析要求和数据特点来适当修改或增删,并不仅仅局限于上述所示的步骤。待比对序
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1