一种基于批次内校正的CNV检测方法与流程

文档序号:31704751发布日期:2022-10-01 10:23阅读:585来源:国知局
一种基于批次内校正的CNV检测方法与流程
一种基于批次内校正的cnv检测方法
技术领域
1.本发明涉及生物信息学领域,涉及基因数据分析技术,具体为一种基于批次内校正的cnv检测方法。


背景技术:

2.人类致病变异包括小的插入缺失或者替换变异(snpindel),以及50bp以上的结构变异(sv),而人类正常基因一般是2个拷贝,当拷贝数目不等于2时则出现了拷贝数(cnv)变异的情况(男性x染色体正常是1个拷贝)。
3.cnv的长度可以从几十bp到mb级别不等。传统的cnv检测方法包括mlpa(多重连接探针扩增技术,multiplex ligation-dependent probe amplification)、gappcr(缺口pcr)。同时这些方法具有通量低、对区域有限制且检测区域多时费用不菲的缺点。随着技术的发展,科学家使用ngs技术开发出针对1kb以上长片段cnv检测方法,而小片段检测方法准确性不佳。临床实践需要更高分辨率的检测方法。例如对于dmd基因,基因内确实重复占总变异比例约为65-80%,单个外显子长度最小为32bp,这样的分辨率对传统的ngs cnv检测方法是一个挑战。
4.研究发现,批次内数据具有更好的一致性,其有助于校正测序过程中的噪音从而实现高分辨率的cnv检测,因此亟需设计一种基于批次内校正的cnv检测方法。


技术实现要素:

5.本发明的目的在于公开一种基于批次内校正的cnv检测方法,其可以在不使用额外参照物的情况下,实现不同长度范围的cnv的检出。
6.实现发明目的技术方案如下:一种基于批次内校正的cnv检测方法,包括以下步骤:s1、依据样本cnv检测的捕获区域,获取q个分析区域;s2、选取n个样本,并对各样本测序获取测序数据;s3、依据样本的测序数据,获取捕获区域的测序深度,以及样本中各分析区域的测序深度,其中i为样本的第i个分析区域;s4、采用公式计算样本中第i个分析区域的,并计算n个样本的第i个分析区域的中值;s5、采用公式对样本的校正得到,并计算该样本的平均值和;s6、采用样本的和,构建该样本的z-score;s7、根据样本的z-score,判断该样本的捕获区域的cnv的倍数。
7.进一步的,步骤s1中,样本q个分析区域的获取方法为:
s101、依据样本cnv检测的捕获区域,确定depth统计范围;s102、将捕获区域划分为p个目标分析区域,选取其中q个作为分析区域,p≥q。
8.更进一步的,p≥q≥30。
9.进一步的,步骤s2中,n个样本的选取方法为:将n个样本中无亲缘关系样本的数量记为n1,且n≥n1≥4。
10.进一步的,步骤s4中,计算样本中第i个分析区域的前,将样本的测序数据与参考基因组比对,选取该样本中测序数据的比对质量大于等于k的reads(测序片段),对第i个分析区域的进行统计分析,即将第i个分析区域的比对质量小于k的reads不计入的统计计算。
11.更进一步的,k取值为大于等于20。
12.进一步的,步骤s5中,样本的平均值的计算方法为:s501、将样本中各分析区域的与预设阈值范围进行比较;s502、选用在预设阈值范围内的分析区域计算平均值。
13.更进一步的,预设阈值范围为样本的的0.7~1.3倍,其中,为样本的q个分析区域的n的中值。
14.在一个可选的实施例中,步骤s7中,根据样本的z-score,判断该样本的捕获区域的cnv的倍数的方法为:定义临界值为
±
m(cufoff),当样本的z-score<﹣m时,则该样本的捕获区域的cnv的倍数小于2,判断该样本的捕获区域的拷贝数为1或0;当样本的z-score>﹢m时,则该样本的捕获区域的cnv的倍数大于2,判断该样本的捕获区域的拷贝数大于等于3;当﹢m≥样本的z-score≥﹣m时,则该样本的cnv的捕获区域的倍数为2。
15.更进一步的,m取值为3或2.58。
16.与现有技术相比,本发明的有益效果是:本发明设计的基于批次内校正的cnv检测方法,一是可以实现样本中不同片段,如几个bp长度片段的cnv的准确检出;二是批次内相互校正无需添加额外对照;三本发明中所述方法可以批量实现基因内小片段cnv的检出,无数目限制。
附图说明
17.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
18.图1为具体实施方式中基于批次内校正的cnv检测方法的流程图;图2为具体实施方式中基于批次内校正的样本的cnv的判断流程图。
具体实施方式
19.下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进
行修改或替换,但这些修改和替换均落入本发明的保护范围内。
20.本具体实施方式提供了一种基于批次内校正的cnv检测方法,参阅图1和图2所示,cnv检测方法包括以下步骤:s1、依据样本cnv检测的捕获区域,获取q个分析区域。
21.在一个可选实施例中,样本q个分析区域的获取方法为:s101、依据样本cnv检测的捕获区域,确定depth统计范围;s102、将捕获区域划分为p个目标分析区域,选取其中q个作为分析区域,p≥q。
22.为了提高样本cnv检测的准确度,本步骤中择优选择p≥q≥30。
23.s2、选取n个样本,并对各样本测序获取测序数据。
24.在一个可选实施例中,n个样本的选取方法为:将n个样本中无亲缘关系样本的数量记为n1,且n≥n1≥4。具体的,选择n个样本中的n1样本作为参照。作为参照的样本中无亲缘关系的样本数目记为n2,且n≥n1≥n2≥4。当参照样本为男性时,计算rmedian且需将第j个样本中男性x染色体和y染色体乘2进行计算。
25.s3、依据样本的测序数据,获取捕获区域的测序深度,以及样本中各分析区域的测序深度,其中i为样本的第i个分析区域。
26.本步骤中,在第j个样本中,该样本的捕获区域的测序深度为,其第i个分析区域的测序深度为,其中,j为大于等于1且小于等于n的整数。
27.s4、采用公式计算样本中第i个分析区域的,并计算n个样本的第i个分析区域的中值。
28.本步骤中,第j个样本的第i个分析区域的的计算公式为,n个样本的中值,是将n个样本中各样本的第i个分析区域的进行比较后获得的。
29.s5、采用公式对样本的校正得到,并计算该样本的平均值和。
30.本步骤中,需要对每一个样本的每一个分析区域的r进行校正。
31.在一个可选实施例中,计算样本中第i个分析区域的前,将样本的测序数据与参考基因组比对,选取该样本中测序数据的比对质量大于等于k的reads(测序片段),对第i个分析区域的进行统计分析,即将第i个分析区域的比对质量小于k的reads不计入的统计计算。
32.在本步骤中,择优选择k取值为大于等于20。
33.在本步骤中,为了增加检测灵敏性,降低错误机率,各样本的平均值计算时,将分析区域中可能异常值行剔除,具体的,样本的平均值的计算方法为:s501、将样本中各分析区域的与预设阈值范围进行比较;s502、选用在预设阈值范围内的分析区域计算平均值。
34.在一个可选实施例中,上述预设阈值范围为样本的的0.7~1.3倍,其中,为样本的q个分析区域的n的中值,也即选取样本中q个分析区域的(i为1~q的整数)的中值。
35.在一个可选实施例中,为了提高下述步骤中样本的捕获区域的cnv的倍数的判断结构,可以将上述和预设阈值范围扩大。
36.在一个可选实施例中,样本当的获取方法为:采用现有通用的方法计算该样本的标准偏差。
37.s6、采用样本的和,构建该样本的z-score。
38.s7、根据样本的z-score,判断该样本的cnv的倍数。
39.在一个可选的实施例中,样本的捕获区域的cnv的倍数的判断方法为:定义临界值为
±
m(cufoff),当样本的z-score<﹣m时,则该样本的捕获区域的cnv的倍数小于2,判断该样本的捕获区域的拷贝数缺失;当样本的z-score>﹢m时,则该样本的捕获区域的cnv的倍数大于2,判断该样本的捕获区域的拷贝数重复;当﹢m≥样本的z-score≥﹣m时,则该样本的捕获区域的cnv的倍数为2,判断该样本的捕获区域的拷贝数正常。
40.在一个可选的实施例中,m取值为3或2.58。
41.本具体实施方式通过dmd基因(用于编码肌营养不良蛋白,英文名为dystrophin)展示,dmd基因有编号为1-79共79个非连续的编码区域(exon区域),以dmd 8-29号exon区域、dmd_49号exon区域、dmd_51exon号区域作为捕获区域对本发明的基于批次内校正的cnv检测方法进行验证:参见下表1所示为dmd基因中设置的3个捕获区域的参数数据:表1:参见下表2所示为对3个捕获区域的数据处理结果:表2:选取某一探针捕获方案捕获基因区域1079个区域,选择84个区域进行cnv分析,其中包括实施例中的dmd exon8-29区域,dmd exon49 和dmd exon51区域。测序获得3个批次数据,批次1包含sample1样本,批次2包含sample2样本,批次3包含sample3样本。3个批次每
个批次均包含24例样本,每个批次样本各自进行批次内分析。首先将测序获得reads比对到参考基因组上,选取比对质量大于等于20的reads进行后续统计。获得sample1的为510;84个分析区域为1.25,为0.09;dmd exon8-29区域z-score范围为-8~-5,其小于
ꢀ‑
3,因此判断 dmd exon8-29为1拷贝。
42.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
43.此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1