超快速检测人类基因组单碱基突变和微插入缺失的方法_4

文档序号:8442353阅读:来源:国知局
组小块中的潜在Indel结果,为VCF格式。
[0112]本实施例中,待比对序列分析分别由对切分好的各参考基因组小块进行的生物信息分析步骤完成。
[0113]步骤312,通过相邻参考序列小块之间的切分特点、序列比对的特点,合理有效地把从所有分块中得到的多态性结果进行去冗余和合理校正。并根据位点覆盖深度、附近序列覆盖率、位点平均测序质量、位点附近序列比对的均一性等指标对多态性结果进行过滤,最终得到全基因组的可信的多态性结果。过滤用的是跟多态性检测软件一致的软件,为GATK中的子工具bcftools,以保持分析的连续性,输出的文件依然为VCF格式。
[0114]步骤313,对上述得到的最终多态性结果进行注释、统计。则可知道这些多态性位点都位于哪个功能元件或哪些基因、编码哪个氨基酸,这些多态性(或一说突变)是否与某些疾病或药物作用位点有关系等。注释可用的软件有:annovar、Polyphen、SIFT等,本实施例运用的是annovar软件,输出的文件为csv文件,可用office的excel软件打开,方便生物学和医学研宄者在windows或MAC平台查看分析结果。
[0115]步骤314,对上述步骤得到的多态性结果以及统计结果的以下指标进行质控,以确保经过本方法得到的多态性结果从基因组学和遗传性、生物信息学角度来看,是基本合理的,其质控主要体现在:
[0116](I)与质谱的21个位点的基因分型结果相对比,以确保在整个测序、分析的过程中无样品污染与样品颠倒。
[0117](2)检测出的SNP占公共数据库中的比率较高,以确定SNP检测的准确性。
[0118](3)检测出的Indel占公共数据库中的比率较高,以确定Indel检测的准确性。
[0119](4)短 Indel 较长 Indel 多。
[0120](5)CXDS区内,长度为3的倍数的Indel较与之长度相近的Indel多。
[0121]到此本实施例的所有分析内容完成,具体检测结果以及相关的统计结果见图4至图11。针对同样的人全基因组重测序的下机数据(约30X),在不同的计算资源(CPU数)下,本实施例整个分析流程与传统人重测序流程的使用时间的对比,显示出在CPU数较多的情况下,分析时间缩短了 3倍以上。具体结果见图12、图13。
[0122]以上所述的本发明的实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。
【主权项】
1.一种超快速检测人类基因组单碱基突变和微插入缺失的方法,其特征在于,包括: 获取人全基因组序列的测序结果,对人类基因组DNA样品进行扩增、建库和测序处理,得到人的全基因组测序结果; 对得到的人全基因组测序结果进行来料质控,以确保测序得到的序列,其测序质量符合进行信息分析的要求; 对来料质控后的人的全基因组测序结果进行过滤接头、低质量处理,得到已过滤序列,对已过滤序列进行来料质控,以确定这些可用的已过滤序列从质与量上符合信息分析的标准; 将人参考基因组切分成若干小块的参考基因组块,且对每一小块分别建立适用于比对软件的二进制索引库; 将上述待比对序列,序列比对到切分好的某参考基因组块,对其进行人重测序生物信息分析,得到测序序列在该参考基因组块中的比对结果; 对该比对结果进行排序、重比对、比对质量与比对得分值校正,得到修正后的比对结果; 对修正后的比对结果进行去重,得到能够用于检测遗传多态性的比对结果文件; 基于该结果文件,检测该参考基因组块中的某个小块的遗传多态性SNP和Indel ;然后分别对该参考基因组块中其他小块进行同样的分析;不同参考基因组块的分析能够并行处理,且相互不影响;上述所有分析都完成后,得到若干个分别对应于参考基因组块的遗传多态性结果; 对上述遗传多态性的结果进行合并,得到全基因组的遗传多态性结果;对得到全基因组的遗传多态性结果进行校正、过滤,并对过滤后的多态性结果进行结果质控,以确定该结果是正常无误的人的遗传多态性结果。
2.根据权利要求1所述的超快速检测人类基因组单碱基突变和微插入缺失的方法,其特征在于,所述将人参考基因组切分成若干小块的参考基因组块的具体过程为: 根据人参考基因组各染色体长度、基因组中的N序列区的分布、基因分布,对参考基因组序列进行切分,得到若干块各自独立又互有联系的原参考基因组的小块。
3.根据权利要求1所述的超快速检测人类基因组单碱基突变和微插入缺失的方法,其特征在于,所述对得到的人全基因组测序结果进行来料质控,是对不同测序长度的测序结果分别以下述指标进行质控,以保障测序结果的序列符合人重测序流程分析对于测序数据的最低质量标准,其指标包括: Q20、Q30的百分率,测序错误率,AT-GC分离率,每个位置在整体序列中被测出为N的比
4.根据权利要求1所述的超快速检测人类基因组单碱基突变和微插入缺失的方法,其特征在于,所述对来料质控后的人的全基因组测序结果进行过滤接头、低质量处理,得到已过滤序列的具体方式为:是将测序结果中含有的、由测序建库过程中引入的接头序列去除,将平均测序质量低的小部分序列予以去除。
5.根据权利要求1所述的超快速检测人类基因组单碱基突变和微插入缺失的方法,其特征在于,所述对已过滤序列进行来料质控的过程具体是: 对经过滤得到的可用数据量占原数据量的比率进行统计及质控,用于判定此次测序结果的可用率是否达到测序服务的标准; 若无法达到,且数据量经过大致推算后,符合至少30X覆盖度的指标,则仍能够用该数据进行后续分析处理;否则,则需加测或重测,以达到对数据量的最低要求。
6.根据权利要求1至5任一项所述的超快速检测人类基因组单碱基突变和微插入缺失的方法,其特征在于,对经过滤处理后得到的待比对的序列,采用并行的方式对切分好的参考基因组块进行分析,其具体过程为: (1)序列比对,把测序结果比对到某参考基因组的分块中;该步骤中,还需要根据具体测序类型、测序序列长度、测序建库策略及多态性检测要求设置相适宜的比对参数; (2)排序,将上述步骤(I)得到的比对结果按照染色体和比对坐标排序,其中比对坐标排序按从小到大排序; (3)重比对、比对质量与比对得分值校正,首先找出比对区域中多态性位点出现多的区域,对该区域的比对结果进行优化,对比对结果由于高频SNP、Indel的存在而比对得分低的情况予以校正; (4)去重,由同一个DNA分子通过PCR扩增而来的其他分子,相对于原模板分子而言,都是冗余的数据,故在进行信息分析的时候需要予以区分并标记,在多态性检测的时候与其他非冗余的数据予以区分对待; (5)SNP检测,基于上述步骤(4)生成的比对结果,对该基因组块区域进行SNP检测,得到该参考基因组块上的SNP检测结果; (6)Indel检测,基于上述步骤(4)生成的比对结果,对该基因组块区域进行Indel检测,得到该参考基因组块上的Indel检测结果。
7.根据权利要求6所述的超快速检测人类基因组单碱基突变和微插入缺失的方法,其特征在于,上述遗传多态性的结果进行合并,得到全基因组的遗传多态性结果,是通过相邻参考序列块之间的切分特点、序列比对的特点,把从所有分块中得到的多态性结果进行去冗余和校正;并根据位点覆盖深度、附近序列覆盖率、位点平均测序质量、位点附近序列比对的均一性指标对多态性结果进行过滤,最终得到全基因组的可信的多态性结果。
8.根据权利要求7所述的超快速检测人类基因组单碱基突变和微插入缺失的方法,其特征在于,所述方法还包括对多态性结果进行注释与统计。
【专利摘要】本发明提出一种超快速检测人类基因组单碱基突变和微插入缺失的方法,是一种能从人基因组DNA测序结果中快速地检测出单碱基突变、微插入缺失的可行方法。本发明通过把人参考基因组序列科学有效地切分为小的子参考序列块,把人重测序中的几乎全部步骤(包括分析时间较长的步骤)都切分为计算复杂度大大降低的子任务块,而各子任务块之间相互不影响,最后把从各子参考序列块中得到的遗传多态性信息进行去冗余、校正,然后过滤,从而得到原人重测序流程中需要获取的遗传多态性信息。本发明解决了人重测序生物信息分析时间过长的问题,开创了一种新的分析模式。
【IPC分类】C12Q1-68, G06F19-18
【公开号】CN104762402
【申请号】CN201510192260
【发明人】夏昊强, 陶勇, 艾鹏
【申请人】广州定康信息科技有限公司
【公开日】2015年7月8日
【申请日】2015年4月21日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1