超快速检测人类基因组单碱基突变和微插入缺失的方法_3

文档序号:8442353阅读:来源:国知局
[0083]1.序列比对步骤。把测序结果比对到某参考基因组的分块中。该步骤中,还需要根据具体测序类型、测序序列长度、测序建库策略、多态性检测要求等因素设置相适宜的比对参数。
[0084]2.排序步骤。将上述步骤(I)得到的比对结果,按照染色体和比对坐标排序(从小到大)。该步骤只是为了符合后续分析步骤对输入的比对结果的要求而做。
[0085]3.重比对、比对质量与比对得分值校正步骤。该步骤主要是,首先找出比对区域中多态性位点出现较多的区域,通过目前人们已经发现的、公共数据库收录的高频SNP、Indel结果,辅助来对该区域的比对结果进行优化,对比对结果由于高频SNP、Indel的存在而比对得分偏低的情况予以一定校正,从而让后续的变异检测软件更准确地对SNP、Indel进行检测。
[0086]4.去重步骤。由同一个DNA分子通过PCR扩增而来的其他分子,相对于原模板分子而言,都是冗余的数据,故本实施例在进行信息分析的时候需要予以区分并标记,在多态性检测的时候与其他非冗余的数据予以区分对待。
[0087]5.SNP检测。基于上述步骤4生成的比对结果,对该基因组块区域进行SNP检测,得到该参考基因组小块上的SNP检测结果。
[0088]6.1ndel检测。基于上述步骤4生成的比对结果,对该基因组块区域进行Indel检测,得到该参考基因组小块上的Indel检测结果。
[0089]对于上述步骤,可以根据具体分析要求和数据特点适当修改或增删,并不仅仅局限于上述所示的步骤。待比对序列分别由切分好的各参考基因组小块的生物信息分析步骤完成。
[0090]在本实施例中,在校正多态性结果的步骤中,通过相邻参考序列小块之间的切分特点、序列比对的特点,合理有效地把从所有分块中得到的多态性结果进行去冗余和合理校正。并根据位点覆盖深度、附近序列覆盖率、位点平均测序质量、位点附近序列比对的均一性等指标对多态性结果进行过滤,最终得到全基因组的可信的多态性结果。
[0091]在本实施例中,还包括对多态性结果进行注释与统计,是对上述得到的最终多态性结果进行注释、统计。这样就可以知道这些多态性位点都位于哪个功能元件,或哪些基因、编码哪个氨基酸,这些多态性(或一说突变)是否与某些疾病或药物作用位点有关系等。
[0092]在本实施例中,在对统计结果进行结果质控中,对由上述步骤得到的多态性结果以及统计结果的以下指标进行质控,以确保经过本方法得到的多态性结果从基因组学和遗传性、生物信息学角度来看,是基本合理的:
[0093]1.与质谱的21个位点的基因分型结果相对比,以确保在整个测序、分析的过程中无样品污染与样品颠倒。
[0094]2.检测出的SNP占公共数据库中的比率较高,以确定SNP检测的准确性。
[0095]3.检测出的Indel占公共数据库中的比率较高,以确定Indel检测的准确性。
[0096]4.短 Indel 较长 Indel 多。
[0097]5.CXDS区内,长度为3的倍数的Indel较与之长度相近的Indel多。
[0098]如图3所示,一种超快速检测人类基因组多态性和微缺失的方法,包括以下步骤:
[0099]步骤301,测序,以获得人DNA的全基因组测序结果。本实施例中,测序方法可以采用高通量测序技术,如Illumina Hiseq 2000测序介绍,该技术是基于边合成边测序技术(SBS, Sequencing By Synthesis)的下一代测序技术,能在一个分析周期中产出足以进行人重测序分析要求的大量测序数据,且数据质量较高。
[0100]本实施例中,采用的是某测序服务项目的数据,该项目是人重测序分析项目,数据量约为30X的全基因组数据。若需要利用该数据进行测试,请先征得项目人与数据持有人(即本项目的服务对象)的同意。
[0101]步骤302,对不同测序长度的测序结果分别对以下指标进行质控,以保障测序结果的序列符合人重测序流程分析时对于测序数据的最低质量标准,其指标包括:(1)Q20、Q30的百分率,⑵测序错误率,(3)AT-GC分离率,(4)每个位置在整体序列中被测出为N的比例。
[0102]本实施例中,运用fastQC软件对上述质控指标进行计算统计并给出质控结果。
[0103]步骤303,通过将测序结果中含有的、由测序建库过程中引入的接头序列去除,将平均测序质量偏低的小部分序列予以去除。本实施例使用的是SOAPnuke软件(http://soap, genomics, org.cn),该软件还可以通过预估数据量,来按照分析所需的目标数据量把多余的剔除掉。
[0104]步骤304,通过对人参考基因组各染色体长度、基因组中的N序列区的分布、基因分布、适宜后续正确合并相邻块之间的多态性结果等因素的综合评价,对参考基因组序列进行科学有效地切分,得到若干份各自独立又互有联系的原参考基因组的小块。然后分别对这些小块,根据后续所用到的比对软件(如:bwa、bowtie)建立二进制索引库文件。切分参考基因组的软件可以将人类参考基因组有效、正确地切分成所需的任意份数。
[0105]步骤305,对经过上述过滤步骤后得到的可用数据量占原数据量的比率进行统计及质控,以判定此次测序结果的可用率是否达到一般测序服务的标准。该统计项也是对测序质量的另一个质控指标。若无法达到,而数据量经过大致推算后,仍符合至少30X覆盖度的指标,则仍可用该数据进行后续分析处理。否则,则需加测或甚至重测,以达到对数据量的最低要求。下面实施例中所描述的步骤,均为把上述所说的经过过滤后得到的待分析序列,并行化地对切分好的各参考基因组小块的进行生物信息分析。
[0106]步骤306,对上述步骤得到的测序结果序列,分别比对到切分好的参考基因组小块中,不同小块之间的比对是并行进行且相互不影响的。一般用目前使用较为广泛的bwa比对软件。其他基于Burrows-Wheeler Transfer及后缀数组算法的短序列比对软件(如:bowtie等)亦可,但需要在切分参考基因组的步骤,即步骤304中,建立该比对软件指定的二进制索引库文件。步骤306中,还需要根据具体测序类型、测序序列长度、测序建库策略、多态性检测要求等因素设置相适宜的比对参数。本实施例所用的是bwa软件及samtools做格式转换,输出的是BAM格式的文件。
[0107]步骤307,比对结果,按照染色体和比对坐标排序(从小到大)。该步骤只是为了符合后续分析步骤对输入的比对结果的要求而做,若比对结果为BAM格式的文件,可用samtools软件的calmd或sort命令即可实现。本实施例所用的是samtools软件的calmd命令,输出BAM格式文件。
[0108]步骤308,对上述比对结果进行重比对以及比对质量值的校正。详细方法是,首先找出比对结果中多态性位点出现较多的区域,通过目前人们已经发现的、公共数据库收录的高频SNP、Indel结果,辅助来对该区域的比对结果进行优化,对比对结果由于高频SNP、Indel的存在而比对得分偏低的情况予以一定校正,从而让后续的变异检测软件更准确地对SNP、Indel进行检测。可用的分析软件有GATK(Genome Analysis Toolkit),推荐版本为1.6-13以上。所用到的公共数据有:dbSNP、hapmap、OMIM, mills、千人基因组等。本实施例所用的软件是GATK vl.6-13,公共数据库是dbSNP141、hapmap、0MM、mills、千人基因组第1-3期的数据。同样是输出BAM格式文件。
[0109]步骤309,对上述比对结果进行去重。由同一个DNA分子通过PCR扩增而来的其他分子,相对于原模板分子而言,都是冗余的多余数据,在进行信息分析的时候需要予以区分并标记,在多态性检测的时候与其他非冗余的数据予以区分对待。
[0110]步骤310,基于上述步骤生成的比对结果,对该基因组小块区域进行SNP检测。可用的检测软件有:GATK、samtools、MAQ snp、SOAPsnp等。不同检测软件对SNP的检测效能和检测时间等各有特点和优势,权衡各个因素后,本实施例所用GATK软件。本步骤得到该参考基因组小块中的潜在SNP结果,为VCF格式。
[0111]步骤311,基于上述步骤310生成的比对结果,对该基因组小块区域进行Indel检测。可用的检测软件有:GATK,samtools的mpileup命令、DIndel等。不同检测软件对SNP的检测效能和检测时间等各有特点和优势,权衡各个因素后,本实施例所用的是GATK软件。本步骤得到该参考基因
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1