一种检测cnv的精确断点及断点周围特征的方法及装置的制造方法

文档序号:9489645阅读:1208来源:国知局
一种检测cnv的精确断点及断点周围特征的方法及装置的制造方法
【技术领域】
[0001]本发明涉及CNV断点检测领域,尤其涉及一种检测CNV的精确断点及断点周围特征的方法及装置。
【背景技术】
[0002]目前,有很多方法被用来检测CNV,比如split-read的方法(AGE, Pindel,ClipCrop),paired-end 的方法(BreakDancer,PEMer),read-depth 的方法(ReadDepth,CNVnator,CNV-seq), sequence assembly的方法,及综合方法(DELLY:),这些方法中很多可以达到单碱基水平的精度,并且具有很高的精确度和灵敏度。但是,受到很多因素的影响,比如mapping error,测序错误及存在microhomology的情况等,这些方法检测出来的断点与真实的精确断点还是具有几十bp的差异的。同时,很多检测CNV的方法都是针对检测全基因组的CNV来设计的,因此一般功能比较受局限,细节部分不能完善,不能同时检测断点周围特征(micro—mutat1ns,insert sequence and microhomology 等),只會^检测部分特征,比如Breakseq软件可以检测microhomology。

【发明内容】

[0003]本发明的目的之一是克服现有技术的不足而提供了一种检测CNV的精确断点及断点周围特征的方法。
[0004]本发明采用的技术方案为:一种检测CNV的精确断点及断点周围特征的方法,包括以下步骤:
[0005]使用已知的CNV检测软件检测模糊的CNV断点;
[0006]提取模糊的CNV断点周围异常的read pairs ;
[0007]找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过1bp的高质量reads时,通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;
[0008]根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点,若验证是,则进入下一步;
[0009]提取5’端上游及3’端下游,各2000bp的参考基因组序列,构建成4000bp的新序列,同时把5’端上游2000bp、CNV以及3’端下游2000bp这段区间内的参考基因组序列提取出来作为第二个新序列;
[0010]提取精确的CNV断点周围所有的read pairs,把read pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的插入,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来,用于后续CNV产生及DNA修复机制的分析。
[0011]作为对上述技术方案的进一步改进,所述步骤I)中,CNV检测软件为Breakdancer、DELLY、CNVnator、CrestSV、Pindel、Breakseq 中的至少两种。使用多个 CNV检测软件,寻找出几乎一样或者离得极尽的CNV断点,即认为此断点为模糊的CNV断点,这样可以提高精确的CNV断点检测的准确率。
[0012]作为对上述技术方案的更进一步改进,所述步骤I)中,CNV检测软件为Breakdancer、DELLY 和 CNVnator0
[0013]作为对上述技术方案的进一步改进,所述断点周围特征包括微同源(microhomologies)、插入(insert1ns)和微突变(micro-mutat1ns)。
[0014]本发明的目的之二是提供了一种检测CNV的精确断点及断点周围特征的装置。
[0015]本发明采用的技术方案为:一种检测CNV的精确断点及断点周围特征的装置,包括:
[0016]模糊CNV断点检测模块,用于使用已知的CNV检测软件检测模糊的CNV断点;
[0017]异常read pairs提取模块,与所述模糊CNV断点检测模块相连,用于提取模糊的CNV断点周围异常的read pairs ;
[0018]精确CNV断点获取模块,与所述异常read pairs提取模块相连,用于找出一端比对上而另一端被截断的:read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过1bp的高质量reads时,通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;
[0019]精确CNV断点验证模块,与所述精确CNV断点获取模块相连,用于根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点;
[0020]新序列建立模块,与所述精确CNV断点验证模块相连,用于提取5’端上游及3’端下游,各2000bp的参考基因组序列,构建成4000bp的新序列,同时把5’端上游2000bp、CNV以及3’端下游2000bp这段区间内的参考基因组序列提取出来作为第二个新序列;
[0021]断点周围特征获取模块,与所述新序列建立模块相连,用于提取精确的CNV断点周围所有的read pairs JGread pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的insert1ns,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来,用于后续CNV产生及DNA修复机制的分析。
[0022]作为对上述技术方案的进一步改进,所述CNV检测软件为Breakdancer、DELLY、CNVnator、CrestSV、Pindel、Breakseq中的至少两种。使用多个CNV检测软件,寻找出几乎一样或者离得极尽的CNV断点,即认为此断点为模糊的CNV断点,这样可以提高精确的CNV断点检测的准确率。
[0023]作为对上述技术方案的更进一步改进,所述CNV检测软件为Breakdancer、DELLY和 CNVnator。
[0024]作为对上述技术方案的进一步改进,所述断点周围特征包括微同源(microhomologies)、插入(insert1ns)和微突变(micro-mutat1ns)。
[0025]相对于现有技术,本发明的有益效果为:
[0026]本发明的检测CNV的精确断点及断点周围特征的方法重点考虑到比对错误,测序错误及相似序列的存在等多种因素,帮助检测CNV的精确断点及断点周围特征(microhomologies, insert1ns和micro-mutat1ns)。这些详细的信息可帮助研究者进行临床诊断及验证,帮助病人知道详细的CNV的变异信息,同时可帮助科学家研究CNV的发生机制及DNA的修复机制。
【附图说明】
[0027]图1是本发明检测CNV的精确断点及断点周围特征的方法的流程示意图;
[0028]图2是本发明实施例中使用breakdancer、delly和cnvnator软件确定模糊CNV断点的过程示意图;
[0029]图3是本发明实施例中确定精确的CNV断点的过程示意图;
[0030]图4是本发明实施例中验证样本两端CNV断点是否正常的过程示意图;
[0031]图5是本发明实施例中获取断点周围特征的过程示意图;
[0032]图6是本发明检测CNV的精确断点及断点周围特征的装置的结构示意图。
【具体实施方式】
[0033]本发明的目的是提供检测CNV的精确断点及断点周围特征的方法和装置,本发明重点考虑到比对错误,测序错误及相似序列的存在等多种因素,帮助检测CNV的精确断点及断点周围特征(microhomologies, insert1ns 和 micro-mutat1ns)。
[0034]图1是本发明检测CNV的精确断点及断点周围特征的方法的流程示意图。
[0035]如图1所示,本发明检测CNV的精确断点及断点周围特征的方法包括以下步骤:
[0036]S102、使用已知的CNV检测软件检测模糊的CNV断点;
[0037]已知的CNV检测软件均可在此使用,CNV检测软件软件可为Breakdancer、DELLY,CNVnator、CrestSV、PindeU Breakseq,但不限于以上几种;此步骤中得到断点是比较模糊的断点,一般与精确断点相差O-1OObp左右;
[0038]S104、提取模糊的CNV断点周围异常的read pairs ;
[0039]异常的read pairs指的是异常的insert size,一端比对上同时一端被截断的read pairs,一端比对到另外一条染色体上的read pairs,一端比对上同时一端比对不上的read pairs,异常正负链等;
[0040]S106、找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过1bp的高质量reads时,通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;
[0041]S108、根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点,若验证是,则进入下一步;由于断点那里容易出现比对异常,会出现mapping error及microhomologies,还需要进行以下步骤的微调;
[0042]S110、提取5’端上游及3’端下游,各2000bp的参考基因组序列,构建成4000bp的新序列,同时把5’端上游2000bp,CNV,及3’端下游2000bp这段区间内的参考基因组序列提取出来作为第二个新序列;
[0043]S112、提取精确的CNV断点周围所有的read pairs JGread pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的插入,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来,用于后续CNV产生及DNA修复机制的分析。
[0044]在本发明的步骤S110,通过构建两
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1