检测拷贝数变异的方法和装置的制作方法

文档序号:6356324阅读:526来源:国知局
专利名称:检测拷贝数变异的方法和装置的制作方法
技术领域
本发明涉及基因工程技术领域,特别地,涉及一种检测拷贝数变异的方法和装置。
背景技术
拷贝数变异(Copy Number Variations, CNVs)是指与基因组参考序列相比,基因组中长度大于等于1000碱基(Ikb)且以不同拷贝数存在的DNA片段,其形式包括插入、缺失、扩增,及其相互组合衍生出的复杂变异。Redon等根据拷贝数变异的遗传和组成形式将拷贝数变异分为5类(a)缺失;(b)扩增;(c)同一位点并发的缺失与扩增;(d)多等位基因位点(multiple alleles) ; (e)复杂难以描述的位点。通常,扩增比缺失更为常见,且覆盖更大的范围。具体来说,拷贝数变化可以通过破坏基因编码蛋白的活性部分、改变基因的表达、或者破坏基因组控制基因活性的调节区域等影响基因的活性。寻找拷贝数变异有助于在有遗传可能性的区域里寻找关键基因。
目前已实现检测拷贝数变异的方法主要有基于大插入片段的比较基因组杂交、代表性寡核苷酸微阵列分析、基于长的等温寡核苷酸探针的比较基因组杂交和单核苷酸多态(Single Nucleotide Polymorphism, SNP)芯片等。其中,SNP芯片是目前通量最高、使用范围最广的全基因组拷贝数变异分析平台。但是,由于当前的SNP芯片探针在基因组分布不均衡,很多片段重复(Segment Duplications, SDs)和复杂拷贝数变异区域设计SNP探针较困难,所以当前的各种拷贝数变异全基因组扫描技术平台仍然具有一定的局限性,对于更小的拷贝数变异检出效力有限,同时实验费用较高等。

发明内容
本发明要解决的一个技术问题是提供一种检测拷贝数变异的方法和装置,能够在高通量测序数据背景下检测目标样本与对照样本间发生拷贝数变异的区域。根据本发明的一方面,提出了一种检测拷贝数变异的方法,包括在对每个样本进行高通量测序后,对测序所得的每个样本序列分别进行过滤,以去除掉不合格的序列和接头序列,其中,样本包括目标样本和对照样本;将过滤后的每个样本序列分别比对到参考基因组序列,对比对后的每个样本序列分别进行筛选以得到唯一比对的样本序列,确定每个唯一比对的样本序列相对于参考基因组序列的位置信息,并对位置信息进行排序;根据唯一比对的对照样本序列确定初始变点阈值和候选变点阈值;根据初始变点阈值确定唯一比对的目标样本序列与唯一比对的对照样本序列间的目标样本拷贝数变异变点初始集;根据候选变点阈值通过迭代法合并目标样本拷贝数变异变点初始集,以得到目标样本拷贝数变异候选区域;根据设定的拷贝数比率阈值从目标样本拷贝数变异候选区域中过滤出目标样本的拷贝数变异区域。根据本发明方法的一个实施例,根据唯一比对的对照样本序列确定初始变点阈值和候选变点阈值的步骤包括将唯一比对的对照样本序列随机分为两部分,并确保分割后的第一对照样本序列和第二对照样本序列均包含全部的基因组信息;根据设定的变点初始集参数确定第一对照样本序列和第二对照样本序列间的对照样本拷贝数变异变点初始集,将对照样本拷贝数变异变点初始集中最小拷贝数比率差异对应的P值设置为初始变点阈值,并去除第一对照样本序列和第二对照样本序列中未被对照样本拷贝数变异变点初始集选中的位点信息;根据设定的变点集参数通过迭代法合并对照样本拷贝数变异变点初始集,并将合并后的对照样本拷贝数变异变点集中最小拷贝数比率差异对应的P值设置为候选变点阈值。根据本发明方法的另一实施例,根据初始变点阈值确定唯一比对的目标样本序列与唯一比对的对照样本序列间的目标样本拷贝数变异变点初始集的步骤包括将唯一比对的目标样本序列和唯一比对的对照样本序列比对到参考基因组序列,根据唯一比对的对照样本序列确定与参考基因组比对上的起始位点集;根据设定的窗长滑动计算起始位点集中每个位点的拷贝数比率差异对应的P值;在起始位点集中选取拷贝数比率差异对应的P值小于初始变点阈值的位点,将所选出的位点构成的集合作为目标样本拷贝数变异变点初始集,并去除唯一比对的对照样本序列和唯一比对的目标样本序列中未被选取的位点信息。根据本发明方法的又一实施例,根据候选变点阈值通过迭代法合并目标样本拷贝 数变异变点初始集,以得到目标样本拷贝数变异候选区域的步骤包括在目标样本拷贝数变异变点初始集中,以各变点间区域为窗口计算唯一比对的目标样本与唯一比对的对照样本间的拷贝数比率差异对应的P值;将目标样本拷贝数变异变点初始集中每个变点对应的P值进行排序,去除P值最大的变点信息,重新计算所去除的P值最大的变点的左右两个变点对应的P值,再去除目标样本拷贝数变异变点初始集中所剩变点中P值最大的变点信息,直至所剩变点中对应的最大P值小于候选变点阈值或不存在变点。根据本发明方法的再一实施例,根据设定的变点初始集参数确定第一对照样本序列和第二对照样本序列间的对照样本拷贝数变异变点初始集的步骤包括将第一对照样本序列和第二对照样本序列比对到参考基因组序列,根据第一对照样本序列或第二对照样本序列确定与参考基因组比对上的起始位点集;根据设定的窗长滑动计算起始位点集中每个位点对应的P值;对起始位点集中每个位点对应的P值按从小到大的顺序排序;根据设定的变点初始集参数按照P值从小到大的顺序选取位点,每选取一个位点,将所选取位点的左右窗口中的所有位点对应的P值设置为1,并将选取的位点作为对照样本拷贝数变异变点初始集中的变点元素。根据本发明方法的再一实施例,根据设定的变点集参数通过迭代法合并对照样本拷贝数变异变点初始集的步骤包括在对照样本拷贝数变异变点初始集中,以各变点间区域为窗口计算第一对照样本与第二对照样本间的拷贝数比率差异对应的P值;将对照样本拷贝数变异变点初始集中每个变点对应的P值进行排序,去除P值最大的变点信息,重新计算所去除的P值最大的变点的左右两个变点对应的P值,再去除对照样本拷贝数变异变点初始集中所剩变点中P值最大的变点信息,直至对照样本拷贝数变异变点初始集中所剩变点个数满足设定的变点集参数。根据本发明的另一方面,还提出了一种检测拷贝数变异的装置,包括序列过滤模块,用于对测序所得的每个样本序列分别进行过滤,以去除掉不合格的序列和接头序列,其中,样本包括目标样本和对照样本;序列比对模块,与序列过滤模块相连,用于将过滤后的每个样本序列分别比对到参考基因组序列,对比对后的每个样本序列分别进行筛选以得到唯一比对的样本序列,确定每个唯一比对的样本序列相对于参考基因组序列的位置信息,并对位置信息进行排序;阈值确定模块,与序列比对模块相连,用于根据唯一比对的对照样本序列确定初始变点阈值和候选变点阈值;目标样本变点初始集确定模块,与序列比对模块和阈值确定模块相连,用于根据初始变点阈值确定唯一比对的目标样本序列与唯一比对的对照样本序列间的目标样本拷贝数变异变点初始集;目标样本变点集确定模块,与目标样本变点初始集确定模块和阈值确定模块相连,用于根据候选变点阈值通过迭代法合并目标样本拷贝数变异变点初始集,以得到目标样本拷贝数变异候选区域;拷贝数变异确定模块,与目标样本变点集确定模块相连,用于根据设定的拷贝数比率阈值从目标样本拷贝数变异候选区域中过滤出目标样本的拷贝数变异区域。根据本发明装置的一个实施例,阈值确定模块包括序列分割单元,用于将唯一比对的对照样本序列随机分为两部分,并确保分割后的第一对照样本序列和第二对照样本序列均包含全部的基因组信息;初始变点阈值确定单元,与序列分割单元相连,用于根据设定的变点初始集参数确定第一对照样本序列和第二对照样本序列间的对照样本拷贝数变异变点初始集,将对照样本拷贝数变异变点初始集中最小拷贝数比率差异对应的P值设置为初始变点阈值,并去除第一对照样本序列和第二对照样本序列中未被对照样本拷贝数变异 变点初始集选中的位点信息;候选变点阈值确定单元,与初始变点阈值确定单元相连,用于根据设定的变点集参数通过迭代法合并对照样本拷贝数变异变点初始集,并将合并后的对照样本拷贝数变异变点集中最小拷贝数比率差异对应的P值设置为候选变点阈值。根据本发明装置的另一实施例,目标样本变点初始集确定模块包括起始位点集确定单元,用于将唯一比对的目标样本序列和唯一比对的对照样本序列比对到参考基因组序列,根据唯一比对的对照样本序列确定与参考基因组比对上的起始位点集;第一拷贝数比率差异计算单元,与起始位点集确定单元相连,用于根据设定的窗长滑动计算起始位点集中每个位点的拷贝数比率差异对应的P值;目标样本拷贝数变异变点初始集确定单元,与第一拷贝数比率差异计算单元相连,用于在起始位点集中选取拷贝数比率差异对应的P值小于初始变点阈值的位点,将所选出的位点构成的集合作为目标样本拷贝数变异变点初始集,并去除唯一比对的对照样本序列和唯一比对的目标样本序列中未被选取的位点信息。根据本发明装置的又一实施例,目标样本变点集确定模块包括第二拷贝数比率差异计算单元,用于在目标样本拷贝数变异变点初始集中,以各变点间区域为窗口计算唯一比对的目标样本与唯一比对的对照样本间的拷贝数比率差异对应的P值;变点迭代单元,与第二拷贝数比率差异计算单元相连,用于将目标样本拷贝数变异变点初始集中每个变点对应的P值进行排序,去除P值最大的变点信息,重新计算所去除的P值最大的变点的左右两个变点对应的P值,再去除目标样本拷贝数变异变点初始集中所剩变点中P值最大的变点信息,直至所剩变点中对应的最大P值小于候选变点阈值和不存在变点。本发明提供的检测拷贝数变异的方法和装置,使用可变窗口计算变点,能够更精确地找到拷贝数变异的边界。简单地增加测序深度即可提高检测灵敏度,得到更加准确的拷贝数变异边界,同时能够检测到更小的拷贝数变异。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分。在附图中图I是本发明检测拷贝数变异的方法的一个实施例的流程示意图。图2是本发明实施例中对照样本NI和N2与参考基因组比对后的结果不意图。图3是本发明实施例中的滑动窗示意图。图4是本发明实施例中b点的计算示意图。图5是本发明实施例初始变点集的选取与合并过程示意图。图6是本发明实施例初始变点集的合并过程示意图。图7是本发明实施例提供的基于二元分割算法的拷贝数变异检测流程示意图。 图8示出了图7实施例检测出的22号染色体局部拷贝数发生变异的区域示意图。图9是本发明检测拷贝数变异的装置的一个实施例的结构示意图。图10是本发明检测拷贝数变异的装置的另一实施例的结构示意图。图11是本发明检测拷贝数变异的装置的又一实施例的结构示意图。图12是本发明检测拷贝数变异的装置的再一实施例的结构示意图。
具体实施例方式下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。本发明的示例性实施例及其说明用于解释本发明,但并不构成对本发明的不当限定。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。随着大规模并行测序技术成本的降低,使用计算机模拟方法与微阵列杂交技术相t匕,能够简单地增加测序深度即可提高检测敏感度,以便于检测更小拷贝数的变异;另外,在某些基因组上,使用计算机模拟方法的深度测序技术可以弥补样本不纯的缺陷;此外,双端加标签的测序片段可以检测到结构重排信息。本发明的目的是提供检测拷贝数变异的方法和装置,旨在高通量测序数据背景下,通过生物信息学方法检测目标样本与对照样本间发生拷贝数变异的区域,以备后续分析。本发明基于全基因组标准,针对各染色体检测拷贝数变异区域。目前所有拷贝数变异检测都只能检测缺失和扩增,本发明也只针对拷贝数变异的这两种类型,检测的原理为如果染色体某一区域发生了拷贝数变异,则高通量测序时该区域的序列片段分布将发生变化,即,拷贝数缺失-序列密度将变小,拷贝数扩增-序列密度将变大。在本发明中,检测拷贝数变异就是寻找这些发生变化的区域边界,可以将此边界定义为变点(即,某个碱基的位置),该变点左右的序列片段的拷贝数比率存在极大差异,再以拷贝数比率为标准从变点间区域(即,变点与变点之间的区域,此处操作是将基因组分段,找出侯选区域)筛选出最终的拷贝数变异区域。图I是本发明检测拷贝数变异的方法的一个实施例的流程示意图。如图I所示,该实施例可以包括以下步骤S102,在对每个样本进行高通量测序后,对测序所得的每个样本序列分别进行过滤,以去除掉不合格的序列和接头序列,其中,样本包括目标样本(即,变异组织)和对照样本(即,正常组织);
具体地,对高通量测序后的样本序列进行过滤,去除不合格的序列及接头序列,其中,不合格序列可以为下列情况中的至少一种测序质量低于某一阈值的碱基个数超过整条序列碱基个数的一定比例(例如,50% )和序列中测序结果不确定的碱基(例如,Illumina GA测序结果中的N)个数超过整条序列碱基个数的一定比例(例如,10%)。其中,高通量测序技术可以为Illumina GA或者HiSeq测序技术,也可以为现有的其他高通量测序技术,低质量阈值可以由具体测序技术和测序环境确定。S104,将过滤后的每个样本序列分别比对到参考基因组序列,对比对后的每个样本序列分别进行筛选以得到唯一比对的样本序列,确定每个唯一比对的样本序列相对于参考基因组序列的位置信息,并对位置信息进行排序;具体地(I)首先可以通过任何一种短序列映射程序(例如,短寡核苷酸分析包(Short Oligonucleotide Analysis Package, SOAP))将过滤得到的每个样本序列(即,由多个测序片段数据构成的序列)分别比对到参考基因组序列(例如,人类基因组参考序列)得到每个样本序列在参考基因组上的位置情况;(2)然后,对比对结果进行一系列的筛 选,例如,去除比对到多个位置的序列(因为这个序列已无法准确唯一的提供比对位置信息)、去除重复出现的序列(因为这些序列可能是由于前期实验引入的误差,如由测序错误引起,为使检测结果更加精准,故去除),以得到唯一比对的序列结果;(3)最后,选取对照样本N、目标样本T以及对照样本的子集NI和N2 (将N随机分为近似均等的两部分NI和N2 (N = N1+N2),并确保分割后的NI和N2均包含全部的基因组信息)的序列相对于参考基因组序列的比对位置信息,并将位置信息从小到大排序以提高后续处理的效率,其中,比对位置信息可以按染色体、碱基位置大小进行排序。S106,根据唯一比对的对照样本序列确定初始变点阈值和候选变点阈值,并将这两个阈值作为计算目标样本和对照样本间变异边界的标准,这样不仅可以降低噪音、减小测序误差对拷贝数变异检测的影响,而且还可以通过设定这两个阈值控制检测拷贝数变异的标准。S108,根据初始变点阈值确定唯一比对的目标样本序列与唯一比对的对照样本序列间的目标样本拷贝数变异变点初始集。S110,根据候选变点阈值通过迭代法合并目标样本拷贝数变异变点初始集,以得到目标样本拷贝数变异候选区域。S112,根据设定的拷贝数比率阈值从目标样本拷贝数变异候选区域中过滤出目标样本的拷贝数变异区域;举例说明,以目标样本拷贝数变异候选区域(即,变点间区域)的拷贝数比率为过滤标准,过滤出最终的目标样本拷贝数变异区域严格的过滤标准,例如,拷贝数比率大于I. 5为扩增,拷贝数比率小于0. 5为缺失;宽松的过滤标准例如,拷贝数比率大于I. 3为扩增,拷贝数比率小于0. 7为缺失,同时还将小于1000碱基对长度的序列片段过滤掉。该实施例基于全基因组标准化,针对各条染色体寻找拷贝数变异,能够更加凸显各染色体的局部特征,为后续基因关联分析提供支持。在本发明方法的另一实施例中,根据唯一比对的对照样本序列确定初始变点阈值和候选变点阈值的步骤可以包括步骤一,将唯一比对的对照样本序列随机分为两部分,并确保分割后的第一对照样本序列和第二对照样本序列均包含全部的基因组信息。步骤二,根据设定的变点初始集参数确定第一对照样本序列和第二对照样本序列间的对照样本拷贝数变异变点初始集;具体可以包括(I)将第一对照样本序列和第二对照样本序列比对到参考基因组序列,根据第一对照样本序列或第二对照样本序列确定与参考基因组比对上的起始位点集,如图2所示,分别示出了 NI和N2均能比对上的第3条染色体的第200号碱基,以及NI比对上的第700号碱基,由于在N2上不一定能够找到这个700号碱基,所以经计算选取最接近700号碱基的一点,记录下每个样本序列的起始位点的位置信息,这个起始位点即为b点;(2)根据设定的窗长滑动计算起始位点集中每个位点的拷贝数比率差异对应的P值,其中,拷贝数比率R的计算方法如下

权利要求
1.一种检测拷贝数变异的方法,其特征在于,包括 在对每个样本进行高通量测序后,对测序所得的每个样本序列分别进行过滤,以去除掉不合格的序列和接头序列,其中,样本包括目标样本和对照样本; 将过滤后的每个样本序列分别比对到参考基因组序列,对比对后的每个样本序列分别进行筛选以得到唯一比对的样本序列,确定每个唯一比对的样本序列相对于所述参考基因组序列的位置信息,并对位置信息进行排序; 根据唯一比对的对照样本序列确定初始变点阈值和候选变点阈值; 根据所述初始变点阈值确定唯一比对的目标样本序列与唯一比对的对照样本序列间的目标样本拷贝数变异变点初始集; 根据所述候选变点阈值通过迭代法合并所述目标样本拷贝数变异变点初始集,以得到目标样本拷贝数变异候选区域; 根据设定的拷贝数比率阈值从所述目标样本拷贝数变异候选区域中过滤出目标样本的拷贝数变异区域。
2.根据权利要求I所述的方法,其特征在于,所述根据唯一比对的对照样本序列确定初始变点阈值和候选变点阈值的步骤包括 将唯一比对的对照样本序列随机分为两部分,并确保分割后的第一对照样本序列和第二对照样本序列均包含全部的基因组信息; 根据设定的变点初始集参数确定第一对照样本序列和第二对照样本序列间的对照样本拷贝数变异变点初始集,将所述对照样本拷贝数变异变点初始集中最小拷贝数比率差异对应的P值设置为所述初始变点阈值,并去除所述第一对照样本序列和所述第二对照样本序列中未被所述对照样本拷贝数变异变点初始集选中的位点信息; 根据设定的变点集参数通过迭代法合并所述对照样本拷贝数变异变点初始集,并将合并后的对照样本拷贝数变异变点集中最小拷贝数比率差异对应的P值设置为所述候选变点阈值。
3.根据权利要求I所述的方法,其特征在于,根据所述初始变点阈值确定唯一比对的目标样本序列与唯一比对的对照样本序列间的目标样本拷贝数变异变点初始集的步骤包括 将唯一比对的目标样本序列和唯一比对的对照样本序列比对到所述参考基因组序列,根据唯一比对的对照样本序列确定与所述参考基因组比对上的起始位点集; 根据设定的窗长滑动计算所述起始位点集中每个位点的拷贝数比率差异对应的P值;在所述起始位点集中,选取拷贝数比率差异对应的P值小于所述初始变点阈值的位点,将所选出的位点构成的集合作为所述目标样本拷贝数变异变点初始集,并去除所述唯一比对的对照样本序列和所述唯一比对的目标样本序列中未被选取的位点信息。
4.根据权利要求I所述的方法,其特征在于,根据所述候选变点阈值通过迭代法合并所述目标样本拷贝数变异变点初始集,以得到目标样本拷贝数变异候选区域的步骤包括 在所述目标样本拷贝数变异变点初始集中,以各变点间区域为窗口计算所述唯一比对的目标样本与唯一比对的对照样本间的拷贝数比率差异对应的P值; 将所述目标样本拷贝数变异变点初始集中每个变点对应的P值进行排序,去除P值最大的变点信息,重新计算所去除的P值最大的变点的左右两个变点对应的P值,再去除所述目标样本拷贝数变异变点初始集中所剩变点中P值最大的变点信息,直至所剩变点中对应的最大P值小于所述候选变点阈值或不存在变点。
5.根据权利要求2所述的方法,其特征在于,所述根据设定的变点初始集参数确定第一对照样本序列和第二对照样本序列间的对照样本拷贝数变异变点初始集的步骤包括 将第一对照样本序列和第二对照样本序列比对到所述参考基因组序列,根据第一对照样本序列或第二对照样本序列确定与所述参考基因组比对上的起始位点集; 根据设定的窗长滑动计算所述起始位点集中每个位点对应的P值; 对所述起始位点集中每个位点对应的P值按从小到大的顺序排序; 根据设定的变点初始集参数按照P值从小到大的顺序选取位点,每选取一个位点,将所选取位点的左右窗口中的所有位点对应的P值设置为1,并将选取的位点作为所述对照样本拷贝数变异变点初始集中的变点元素。
6.根据权利要求2所述的方法,其特征在于,所述根据设定的变点集参数通过迭代法合并所述对照样本拷贝数变异变点初始集的步骤包括 在所述对照样本拷贝数变异变点初始集中,以各变点间区域为窗口计算所述第一对照样本与第二对照样本间的拷贝数比率差异对应的P值; 将所述对照样本拷贝数变异变点初始集中每个变点对应的P值进行排序,去除P值最大的变点信息,重新计算所去除的P值最大的变点的左右两个变点对应的P值,再去除所述对照样本拷贝数变异变点初始集中所剩变点中P值最大的变点信息,直至所述对照样本拷贝数变异变点初始集中所剩变点个数满足设定的变点集参数。
7.—种检测拷贝数变异的装置,其特征在于,包括 序列过滤模块,用于对测序所得的每个样本序列分别进行过滤,以去除掉不合格的序列和接头序列,其中,样本包括目标样本和对照样本; 序列比对模块,与所述序列过滤模块相连,用于将过滤后的每个样本序列分别比对到参考基因组序列,对比对后的每个样本序列分别进行筛选以得到唯一比对的样本序列,确定每个唯一比对的样本序列相对于所述参考基因组序列的位置信息,并对位置信息进行排序; 阈值确定模块,与所述序列比对模块相连,用于根据唯一比对的对照样本序列确定初始变点阈值和候选变点阈值; 目标样本变点初始集确定模块,与所述序列比对模块和阈值确定模块相连,用于根据所述初始变点阈值确定唯一比对的目标样本序列与唯一比对的对照样本序列间的目标样本拷贝数变异变点初始集; 目标样本变点集确定模块,与所述目标样本变点初始集确定模块和阈值确定模块相连,用于根据所述候选变点阈值通过迭代法合并所述目标样本拷贝数变异变点初始集,以得到目标样本拷贝数变异候选区域; 拷贝数变异确定模块,与所述目标样本变点集确定模块相连,用于根据设定的拷贝数比率阈值从所述目标样本拷贝数变异候选区域中过滤出目标样本的拷贝数变异区域。
8.根据权利要求7所述的装置,其特征在于,所述阈值确定模块包括 序列分割单元,用于将唯一比对的对照样本序列随机分为两部分,并确保分割后的第一对照样本序列和第二对照样本序列均包含全部的基因组信息;初始变点阈值确定单元,与所述序列分割单元相连,用于根据设定的变点初始集参数确定第一对照样本序列和第二对照样本序列间的对照样本拷贝数变异变点初始集,将所述对照样本拷贝数变异变点初始集中最小拷贝数比率差异对应的P值设置为所述初始变点阈值,并去除所述第一对照样本序列和所述第二对照样本序列中未被所述对照样本拷贝数变异变点初始集选中的位点信息; 候选变点阈值确定单元,与所述初始变点阈值确定单元相连,用于根据设定的变点集参数通过迭代法合并所述对照样本拷贝数变异变点初始集,并将合并后的对照样本拷贝数变异变点集中最小拷贝数比率差异对应的P值设置为所述候选变点阈值。
9.根据权利要求7所述的装置,其特征在于,所述目标样本变点初始集确定模块包括 起始位点集确定单元,用于将唯一比对的目标样本序列和唯一比对的对照样本序列比对到所述参考基因组序列,根据唯一比对的对照样本序列确定与所述参考基因组比对上的起始位点集; 第一拷贝数比率差异计算单元,与所述起始位点集确定单元相连,用于根据设定的窗长滑动计算所述起始位点集中每个位点的拷贝数比率差异对应的P值; 目标样本拷贝数变异变点初始集确定单元,与所述第一拷贝数比率差异计算单元相连,用于在所述起始位点集中选取拷贝数比率差异对应的P值小于所述初始变点阈值的位点,将所选出的位点构成的集合作为所述目标样本拷贝数变异变点初始集,并去除所述唯一比对的对照样本序列和所述唯一比对的目标样本序列中未被选取的位点信息。
10.根据权利要求7所述的装置,其特征在于,所述目标样本变点集确定模块包括 第二拷贝数比率差异计算单元,用于在所述目标样本拷贝数变异变点初始集中,以各变点间区域为窗口计算所述唯一比对的目标样本与唯一比对的对照样本间的拷贝数比率差异对应的P值; 变点迭代单元,与所述第二拷贝数比率差异计算单元相连,用于将所述目标样本拷贝数变异变点初始集中每个变点对应的P值进行排序,去除P值最大的变点信息,重新计算所去除的P值最大的变点的左右两个变点对应的P值,再去除所述目标样本拷贝数变异变点初始集中所剩变点中P值最大的变点信息,直至所剩变点中对应的最大P值小于所述候选变点阈值或不存在变点。
全文摘要
本发明公开了一种检测拷贝数变异的方法和装置。其中,该方法包括对测序后的每个样本序列分别进行过滤;将过滤后的每个样本序列分别比对到参考基因组序列,对比对后的序列进行筛选,确定每个唯一比对的样本序列的位置信息;根据唯一比对的对照样本序列确定初始变点阈值和候选变点阈值;根据初始变点阈值确定目标样本拷贝数变异变点初始集;根据候选变点阈值合并目标样本拷贝数变异变点初始集以得到目标样本拷贝数变异候选区域;根据设定的拷贝数比率阈值从目标样本拷贝数变异候选区域中过滤出目标样本的拷贝数变异区域。本发明能够通过简单地增加测序深度提高检测灵敏度,得到更加准确的拷贝数变异边界,同时能够检测到更小的拷贝数变异。
文档编号G06F19/22GK102682224SQ20111006540
公开日2012年9月19日 申请日期2011年3月18日 优先权日2011年3月18日
发明者李林, 李祥春, 高志博 申请人:深圳华大基因科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1