一种基于新一代测序数据的Indel检测方法与流程

文档序号:11177594
一种基于新一代测序数据的Indel检测方法与流程
本发明属于基因工程技术领域,尤其涉及一种基于新一代测序数据的Indel检测方法。

背景技术:
新一代测序是一种测序DNA序列的技术。在测序过程中,将完整的样本DNA序列打碎,从中筛选出满足特定长度(通常为数百bp)的片段,在每个片段的一端或两端各读取一段长度为数十至数百bp的序列。读取出的序列长度通常远远小于被测样本DNA序列的长度,但是新一代测序技术可以同时读取大量这样的短序列,使得全部短序列的总长度达到样本DNA长度的数倍至数十倍,从而使获得样本DNA序列成为可能。Indel(insertionanddeletion)变异是基因组中的一种重要的变异现象。主要表现为插入和删除两种状态,并且与人类的疾病发生相关。目前主要有4种检测基因组上INDEL变异的策略,分别为:(1)Readpair(也称为Pair-endMapping,简称PEM,双端映射);(2)Splitread(简称SR):分离读段。Splitread是一类特殊的read,其出现通常是由基因组中的结构变异造成的。这类read在映射中不再保持连续序列的形式,而是包含了一定长度的空位,因此具有较高的映射难度;(3)ReadDepth(简称RD,读段覆盖深度)和(4)基于denovo组装的方法。(PEM)将Pair-endreads比对到参考序列上,若某一对reads插入长度小于映射长度,则这一对reads可以确定一个删除(deletion);反之,若某一对reads插入长度大于映射长度,则可以确定一个插入(insertion);对于序列删除的检测,其所能检测的片段长度受插入片段长度的标准差(SD)所影响(这里的插入片段长度指的是测序之前在构建DNA测序文库阶段,所选取的经由超声波打断的DNA片段长度,这些片段也称之为测序片段,这是实验过程中的操作,并不是指基因组的变异),并且越大的序列删除越容易被检测到;对于序列插入的检测,长度只能在插入片段长度的范围内,并且最大长度也受限于测序的插入片段长度的标准差;这种检测方法的缺点是检测到的变异位置不够精确,不能达到bp级。SR首先提取具有以下特点的pair-endreads,一条正常比对到参考序列上,另外一条不能比对,然后利用正常比对的read位置和插入长度确定一个查找范围,在这个范围内寻找未比对上的read与参考序列的最佳匹配,通过最佳匹配点把未匹配的read分割成两段或者三段,从而确定deletion和insertion的位置;Pindel是一个使用SR方法进行变异检测的软件。它在千人基因组计划和生物信息分析人员中被广泛使用。Pindel理论上能够检测所有长度范围内的deletion,和小片段的insertion。Pindel方法的一个优势在于它们能够精确到单碱基,但是在变异区域内若存在重复序列,Pindel有可能会遗漏掉这些变异。RD通过samtools可以测得各位点的覆盖度,将测序reads比对到参考序列上,若某一段的覆盖深度低于平均覆盖深度很多,则可以确定这一段是一个deletion;缺点在于只能检测deletion,而不能检测insertion,并且检测位置也不够精确。denovoassembly的方法能够提供对于longinsertion的最好检测方法,但是组装仍然是一件棘手的事情,基因组上所存在的重复性序列会严重影响组装的质量,也在很大程度上阻碍了利用组装的方法在基因组变异检测方面的应用。综上所述,现有技术存在的问题是:现有检测方法存在检测位置不精确;变异区域遇到重复序列容易遗漏;只依靠一条比对上的read和插入长度确定一个检测范围也容易造成变异检测的遗漏。

技术实现要素:
针对现有技术存在的问题,本发明提供了一种基于新一代测序数据的Indel检测方法。本发明是这样实现的,一种基于新一代测序数据的Indel检测方法,所述基于新一代测序数据的Indel检测方法包括以下步骤:步骤一,利用bwa比对软件对原始的fastq数据做比对,生成sam文件;步骤二,对discordant.sam文件中的每一对reads提取出比对位置当作一个二维点坐标,对二维点根据设定的阈值(此处阈值设定为插入长度)进行层次聚类,详细的聚类过程如下:1、首先初始化每个二维点为...
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1