一种结构变异精确断裂信息的检测方法、系统及其应用

文档序号:37124107发布日期:2024-02-22 21:33阅读:19来源:国知局
一种结构变异精确断裂信息的检测方法、系统及其应用

本发明属于生物检测分析,具体涉及一种结构变异精确断裂信息的检测方法、系统及其应用。


背景技术:

1、目前临床研究表明,复发性流产(recurrent spontaneous abortion, rsa)中约3%夫妇存在染色体结构变异,胚胎停育、自然流产的胚胎组织中有50%以上存在染色体结构变异。结构变异(structural variant, sv)一般指长度在50bp以上的dna片段变异,可分为缺失(deletion)、重复(duplication)、插入(insertion)、倒位(inversion)、易位(translocation)等。发生染色体易位时,如果没有染色体片段丢失,称为平衡易位。平衡易位在普通人群中的发生率约0 .2%。有研究表明,rsa中约有3-6%双亲中的一方带有染色体平衡易位。罗伯逊易位,多发生于两条近端着丝粒染色体间,易位后,两个长臂相互融合形成一条较大的染色体。普通人群中,罗伯逊易位发生率约为1/1000。携带易位夫妇孕育下一代时容易发生自然流产,概率高达50%-80%,分娩率一般为20%-50%。目前解决人类生殖健康中遗传缺陷的主要手段辅助生殖技术,即胚胎植入前遗传学检测(pgt)技术。胚胎植入前遗传学检测技术是指在试管婴儿过程中,对体外培养的胚胎进行遗传学检测,判断胚胎是否存在染色体异常或家族遗传性基因变异,根据检测结果选择染色体正常或未携带家族遗传性变异的胚胎植入子宫,从而提高试管婴儿成功率,阻断家族遗传性疾病的垂直传递,从根源上解决生殖遗传问题。

2、对携带结构变异的人群进行检测具有重要的意义,一方面可通过检测携带者夫妇的结构变异,获得结构变异断裂点,根据断裂点信息可通过胚胎植入前诊断(pgd)方法,对体外培养的胚胎进行遗传学诊断,从而判断胚胎是否携带有该结构变异。另一方面,可检测结构变异携带者的结构变异的断裂点上下游的snp信息,以及携带者亲属携带相关结构变异在该区域的snp信息,构建结构变异家系的单体型,通过一体化pgt检测技术实现对体外培养的胚胎进行染色体的非整倍体筛查和单体型分型,判断胚胎是否携带有该结构变异。上述两种方法,都需要获得准确的结构变异断裂点信息。

3、目前可检测结构变异的技术有:染色体核型分析、染色体芯片、二代短读长测序、三代长读长测序、光学图谱等。染色体核型分析,可对5mb以上的基因拷贝数变异(cnv)和染色体易位进行检测,染色体芯片可对4mb以上(不同技术参数有所差异)cnv进行检测。二代短读长测序和三代长读长测序可对cnv/染色体易位/纯合区域(roh)等所有的结构变异类型进行检测,同时可对发生结构变异的精确断裂点进行测定。光学图谱可对所有类型的结构变异进行检测,但受限于检测技术,无法对结构变异的断裂点进行精确测定(精确度>10kb以上)。


技术实现思路

1、针对现有技术的不足,本发明提供一种基于第三代基因测序数据的结构变异精确断裂信息的检测方法、系统及其应用。具体的,本发明可有效解决片段重复区域的结构变异识别断裂点困难的问题,同时可延伸基因组组装的片段长度和单体型分型区块。基于上述研究成果,从而完成本发明。

2、为实现上述技术目的,本发明采用的技术方案如下:

3、一种结构变异精确断裂信息的检测方法,所述检测方法包括:

4、s1、待测序数据与参考基因组进行比对并建立索引;

5、s2、根据比对结果进行分析,鉴定结构变异,获得结构变异结果;

6、s3、对结果提取特征差异位点,识别片段重复区域之间的差异序列片段,判定在片段重复区域的断裂点;

7、s4、对基因组进行序列组装,根据片段重复序列区域的分析结果进行延伸,分析复杂或较长的结构变异结果,输出结构变异结果;

8、s5、根据基因组组装结果,对结构变异结果进行分型。

9、其中,测序数据为第三代基因测序数据。

10、本发明的又一具体实施方式中,所述第三代基因测序数据包括高碱基质量的单分子实时测序数据(pacbio hifi)或高碱基质量的单分子纳米孔测序数据。

11、本发明的又一具体实施方式中,所述判定在片段重复区域的断裂点的具体方法包括:

12、s3-1、遍历全基因组的片段重复区域,筛选重复片段区域大小大于平均测序读长、且测序覆盖深度大于等于5x的区域,记录为集合a(a1…an);

13、s3-2、根据步骤s3-1的筛选结果,选择一个片段重复区域a1,设置为r1,并提取集合a内的全部序列,与r1的相似度进行比较,选择相似度大于90%的多个片段重复区域序列(r1…rn)为一个集合s1,比较集合s1内的所有序列,提取差异碱基作为特征差异位点p1、p2、p3…pn,并记录所有特征差异位点p与对应的片段重复区域序列(r1…rn)关系,分为pirj(i为p的编号,j为r的编号);

14、s3-3、根据步骤s3-2完成全基因组的片段重复区域的集合组合;

15、s3-4、提取比对至特征差异位点的序列片段,根据步骤s3-3的特征差异位点的对应序列关系,分配序列片段的片段重复区域序列编号,获得差异序列片段的序列数量为dij(i为p的编号,j为r的编号);

16、s3-5、根据单条序列片段的部分区域被分配到不同的片段重复区域序列编号情况以及特征位点与测序深度的比值,判断是否存在断裂点;

17、s3-6、基于s3-2~s3-5的步骤,对s3-1内集合a,完成全部片段重复区域的断裂点的分析,并输出断裂点信息以及结构变异的结果。

18、本发明的又一具体实施方式中,所述单条序列片段的部分区域被分配到不同的片段重复区域序列编号情况以及特征位点与序列数量的比值,判断是否存在断裂点的方法,还包括:

19、s3-5-1、对于单条序列片段的部分区域被分配到不同的片段重复区域序列编号时,过滤掉比对质量较低的序列片段(mapq值小于5,其中,mapq即mapping quality,表示比对的质量);

20、s3-5-2、对于特征差异位点p1,设置d11的序列数量比上d12的序列数量为rr=d11/d12,当比对未发生任何错误的情况,rr值会趋近于1(浮动范围为0.8≤r1≤1.2);当rr值为0.8≤r1≤1.2时,则判定为未发生结构变异;当r1区域的p1位点发生突变时,将会导致r2区域的p1位置的错误比对增多,因此rr值介于0.5≤rr<0.8时,则判定为在该p1的特征差异位点发生了突变;若存在多个p点发生突变(发生了基因融合的情况),融合基因的序列由于序列相似度问题,导致序列大部分都会比对至相似的区域r2,会有更多的错误比对情况(d12数值增大);基于两条染色体存在两个基因拷贝的情况,正常情况下拷贝数比值为=2:2(对应rr值为1:1),而发生基因融合时,拷贝数的比值结果则为接近为1:3(对应rr值为1/3),但是同时并非全部的融合基因比对至r2区,因此该类情况rr值的范围为1/3≤rr<1/2,因此当1/3≤rr<1/2时,判定r11序列与r2序列发生了基因转换或基因融合,记录此时发生的差异特征位点px1;

21、s3-5-3、完成d11与d12的比值判断后,集合s1内的序列存在两个以上时,则分别进行两两比较,直至集合s1的所有序列完成比值判断;

22、s3-5-4、完成集合s1内所有序列的比值判断后,根据rr值等于1/3时记录的p点信息,当出现的两个以上的p点信息时(px1、px2…pxn),则记录所述p点所包含的染色体区域为融合基因发生区域,记录px1和pxn对应的染色体位置为融合基因的断裂点。

23、本发明的又一具体实施方式中,所述步骤s4的具体方法包括:

24、s4-1、对第三代基因测序数据进行基因组从头组装,即为对有相似序列信息的多个长片段dna序列进行合并,生成更长的连续序列,即为重叠群,并对每个重叠群进行编号;

25、s4-2、根据步骤s4-1的组装结果,比对到参考基因组上,获得重叠群在参考基因组的覆盖区域信息;

26、s4-3、根据识别的片段重复区域之间的差异序列片段,对步骤s4-2中所在染色体区域的重叠区进行延伸;

27、s4-4、根据步骤s4-3的结果分析复杂或较长的结构变异结果,输出结构变异结果。

28、本发明的又一具体实施方式中,所述步骤s5中,根据基因组组装结果,对结构变异结果进行分型,包括:基因组组装获得重叠群序列,如果携带有片段重复区域的断裂点信息,判定为结构变异的携带型,不属于上述情况的则为正常型。

29、本发明的又一具体实施方式中,所述的结构变异精确断裂信息的检测方法,所述方法还包括提取目标样品的dna样本;

30、本发明的又一具体实施方式中,所述提取目标样品的dna样本的方法包括:提取样本基因组dna,并对dna片段的完整性进行质检,要求dna片段大小分布的主峰大于30 kb,即为符合要求的长片段dna分子;

31、本发明还提供一种结构变异精确断裂信息的检测系统,所述检测系统包括:

32、输入模块:其被配置为对待测序数据与参考基因组进行比对并建立索引;

33、分析模块:其被配置为根据输入模块的比对结果进行分析,鉴定结构变异,获得结构变异结果;对结果提取特征差异位点,识别片段重复区域之间的差异序列片段,判定在片段重复区域的断裂点;对基因组进行序列组装,根据片段重复序列区域的分析结果进行延伸,分析复杂或较长的结构变异结果;

34、输出模块:其被配置为根据基因组组装结果,对分析模块获得的结构变异结果进行分型。

35、其中,测序数据为第三代基因测序数据。

36、具体的,所述检测系统根据基于上述结构变异精确断裂信息的检测方法进行运行。

37、本发明还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时完成如本发明所述方法所进行的步骤。

38、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时完成如本发明所述方法所进行的步骤。

39、本发明还提供上述检测方法、系统、计算机可读存储介质或电子设备在胚胎单体型分型中的应用。

40、上述一个或多个技术方案的有益技术效果:

41、上述技术方案可有效解决三代测序数据在分析结构变异时,对于发生在基因组的片段重复区域的结构变异,通过特异性位点识别片段重复区域之间的差异序列片段,分辨序列片段的来源,准确判定在片段重复区域的断裂点,解决结构变异识别断裂点困难的问题。上述技术方案能对提高结构变异分析结果的准确性与灵敏性,无需对含有结构变异片段的序列数据进行修正(polish)校正,可减少大量的计算资源占用。本发明在解决片段重复区域的序列片段来源的基础上,可同时延长基因组的组装片段,提高复杂或较长的结构变异结果的准确性。延长的组装片段可增加单体型snp位点信息,提高分型区块的大小,为后续的胚胎单体型分型做准备。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1