使用非错误传播定相技术和等位基因平衡的组合改进CNV检测的制作方法

文档序号:35151667发布日期:2023-08-18 06:50阅读:13来源:国知局
使用非错误传播定相技术和等位基因平衡的组合改进CNV检测的制作方法


背景技术:

1、拷贝数变异(cnv)可以作为疾病和疾病进展的重要指标。cnv已被确定为基因组结构变异的主要原因,所述基因组结构变异涉及长度通常在1kb至20mb范围内的序列的重复和缺失。染色体区段或整个染色体的缺失和重复与多种病症(如对疾病的易感性或抗性)有关。然而,识别cnv的方法仍然具有挑战性,并且由于多个问题而变得复杂。在一些情况下,正常组织和异常组织(包含一个或多个cnv)混合在一起,产生了阻碍对一个或多个cnv进行检测的噪声。此外,可用的测序数据可能具有有限的动态范围。此外,由于重采样偏差引起的不均匀扩增可能导致变异等位基因平衡偏斜。

2、因此,需要改进的方法以更准确地检测染色体区段或整个染色体(包括cnv)的缺失和重复。优选地,这些方法可用于更准确地诊断疾病或增加的疾病风险,如癌症或妊娠胎儿中的cnv。


技术实现思路

1、根据本发明的一个方面,本文公开了一种校正染色体区段的等位基因平衡信号的方法。所述方法涉及获得参考遗传密码,所述参考遗传密码可以是至少部分定相的,并且具有至少两个相位集。每个相位集具有一个或多个目的变异。所述方法还涉及从对遗传物质样品进行的测序获得所述一个或多个目的变异的等位基因平衡信号,以及获得使用非错误传播技术测序的多个读段。每个读段涵盖所述一个或多个目的变异中的至少一个。然后,基于所述多个读段将所述两个相位集的相位比对确定为同相或异相,以及通过基于所确定的所述两个相位集的相位比对确认、校正或提供至少一个目的变异的定相来确定真实等位基因平衡信号。

2、所述非错误传播技术可以涉及构象捕获、单细胞模板链测序或染色体分离(例如,通过激光捕获显微切割或核型)。所述方法可能需要执行所述非错误传播技术以获得所述多个读段。所述方法可能需要对所述遗传物质样品进行测序以获得所述等位基因平衡信号。

3、所述等位基因平衡信号和所述多个读段可以源自同一遗传物质样品。所述样品可以是体液样品(例如,血液样品、唾液样品)或组织活检样品。所述等位基因平衡信号和所述多个读段可以源自相同的细胞群体。所述等位基因平衡信号可以源自无细胞dna,并且所述多个读段源自细胞dna。所述细胞dna可以来自体液(例如,血液或唾液)中发现的细胞。

4、所述参考遗传密码可以源自用于生成等位基因平衡信号的测序。所述参考遗传密码可以至少部分地源自对受试者中正常组织的测序,其中为所述受试者获得所述等位基因平衡信号;源自对所述受试者中的生殖系组织的测序;或源自对来自所述受试者的一个或多个遗传亲属的遗传物质的测序。所述一个或多个亲属可以是所述受试者的母亲和/或父亲。所述参考遗传密码可以至少部分地源自对所述一个或多个遗传亲属的生殖系测序。

5、所述参考遗传密码可以至少部分地源自对所述受试者的全基因组鸟枪测序。所述等位基因平衡信号可以源自所述全基因组鸟枪测序。在任一种情况下,可以对体液样品(例如,血液样品或唾液样品)中的无细胞dna进行全基因组鸟枪测序。非错误传播技术可能需要单细胞测序。所述方法可能还需要收集从中获得所述等位基因平衡信号的遗传物质样品和/或收集从中获得所述多个读段的遗传物质样品。

6、校正等位基因平衡数据可能需要校正已经至少部分定相的参考遗传密码中的转换错误。所述等位基因平衡信号可以是在约、至少约或不大于约50,000、100,000、200,000、300,000、400,000、500,000、750,000、1,000,000、50,000,000或100,000,000bp的区域内在多个分箱变异上取平均值得到的。所述等位基因平衡信号可以是在一个或多个单体型块上取平均值得到的。可以通过稀释池测序确定所述一个或多个单体型块。所述等位基因平衡信号可以源自用于确定所述一个或多个单体型块的相同测序。可以针对最小读取深度(例如,5、10、15、20或25个读段的最小读取深度)过滤所述等位基因平衡信号。

7、所述两个相位集可以是所述参考遗传密码内的相邻相位集。例如,每个所述相邻相位集可以包含这样的目的变异。其与另一个相邻相位集中的目的变异相距不超过约1,000、5,000、10,000、50,000、100,000、500,0000、1,000,000、5,000,000、10,000,000、50,000,000、100,000,000或250,000,000bp。可以针对包含来自所述两个相位集中的每一个的至少2、3、4或5个目的变异的读段过滤所述多个读段。

8、具体地,所述非错误传播技术可能需要染色体构象捕获。所述染色体构象捕获技术可以是hi-c。基于所述多个读段确定所述相位比对可能需要确定大多数读段关于所述两个相位集之间的假定定相比对是一致还是不一致,所述假定定相比对可以基于对所述参考遗传密码的至少部分定相。基于多个读段确定相位比对可能需要确定或估计从所述多个读段中观察到的所述两个相位集之间一致性或不一致性的程度是偶然结果的概率。所述概率可以是二项式概率,任选地假设观察到的片段是一致或不一致的机会相等。

9、所述方法可能还需要使用校正的等位基因平衡信号来确定染色体区段的倍性状态。例如,确定所述倍性状态可以是判定拷贝数变异(cnv)。

10、根据本发明的另一方面,本文公开了一种确定染色体区段的倍性状态的方法。所述方法涉及获得所述染色体区段内第一组一个或多个变异的读取深度信号;获得所述染色体区段内第二组一个或多个变异的等位基因平衡信号;以及使用所述读取深度信号与所述等位基因平衡信号的组合来确定所述染色体区段的倍性状态。

11、确定所述染色体区段的倍性状态可能需要确定所述染色体区段内是否存在cnv。获得所述读取深度信号可能需要获得相对于读段总数归一化的映射到所述第一组内的至少一个变异的测序读段的数量。所述读取深度信号和/或所述等位基因平衡信号可以是在约、至少约或不大于约50,000、100,000、200,000、300,000、400,000、500,000、750,000、1,000,000、50,000,000或100,000,000bp的区域内在多个分箱变异上取平均值得到的。所述读取深度信号和/或等位基因平衡信号可以是在一个或多个单体型块上取平均值得到的。可以通过稀释池测序确定所述一个或多个单体型块。所述读取深度信号和所述等位基因平衡信号可以是在同一分箱区域上取平均值得到的。

12、使用读取深度信号与等位基因平衡信号的组合可能需要仅当所述读取深度信号超过读取深度阈值并且所述等位基因平衡信号超过等位基因平衡阈值时,或者当所述读取深度信号没有超过所述读取深度阈值并且所述等位基因平衡信号没有超过所述等位基因平衡阈值时,作出肯定或否定的确定。使用读取深度信号与等位基因平衡信号的组合可能需要将所述读取深度信号和所述等位基因平衡信号组合成单个组合信号。将所述读取深度信号与所述等位基因平衡信号组合成单个组合信号可以涉及将所述信号相乘或将所述信号相加。所述组合信号可以是在约、至少约或不大于约50,000、100,000、200,000、300,000、400,000、500,000、750,000、1,000,000、50,000,000或100,000,000bp的区域内在多个分箱变异上取平均值得到的。所述组合信号可以是在一个或多个单体型块上取平均值得到的,所述一个或多个单体型可以通过稀释池测序来确定。所述组合信号可以是在多个箱元上取平均值得到的,所述读取深度信号和/或所述等位基因平衡信号是在这些箱元上取平均值得到的。

13、所述第一组一个或多个变异可以仅由1个变异组成。所述第一组一个或多个变异可以具有至少2、3、4、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000个变异。所述第二组一个或多个变异仅由1个变异组成。所述第二组一个或多个变异可以具有至少2、3、4、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000个变异。所述第一组一个或多个变异可以与所述第二组一个或多个变异相同。

14、获得所述读取深度信号和/或获得所述等位基因平衡信号可能需要进行测序。所述读取深度信号和等位基因平衡信号可以源自相同的测序数据。可以针对最小读取深度(例如,5、10、15、20或25个读段的最小读取深度)过滤所述读取深度信号和/或所述等位基因平衡信号。

15、所述方法可能需要计算基于所述读取深度信号和/或所述等位基因平衡信号准确确定倍性状态的单独概率,或者计算基于所述读取深度信号和所述等位基因平衡信号准确确定倍性状态的联合概率。例如,所述概率可以测量以下一种的概率:真阳性、假阳性、真阴性和假阴性。以下至少一个可以被确定为真:假阳性的联合概率小于假阳性的两个单独概率;假阴性的联合概率小于假阴性的两个单独概率;真阳性的联合概率大于真阳性的两个单独概率;或者真阴性的联合概率大于真阴性的两个单独概率。

16、所述读取深度信号可以抵消第一基线信号和/或所述等位基因平衡信号可以抵消第二基线信号。每个基线信号可以基于具有已知倍性状态的第二染色体区段的平均信号。所述第二染色体区段可以与正在确定其倍性状态的染色体区段在同一染色体内。所述读取深度信号和/或所述等位基因平衡信号可以相对于所述信号内的噪声测量进行归一化。所述噪声测量可以是在正在确定其倍性状态的染色体区段上、在具有已知倍性状态的第二染色体区段上、在具有与第二染色体区段的倍性状态不同的已知目的倍性状态的第三染色体区段上、或在整个染色体上信号的标准偏差或方差。所述读取深度信号的方差和所述等位基因平衡信号的方差可以在彼此的100、90、80、70、60、50、40、30、20、10、9、8、7、6、5、4、3、2、1.9、1.8、1.7、1.6、1.5、1.4、1.3、1.2或1.1倍内。使用所述读取深度信号与所述等位基因平衡信号的组合可以导致假阳性率和/或假阴性率相对于单独使用一个或两个所述信号获得的假阳性率和/或假阴性率降低至少约2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、150、200、250或500倍。

17、使用所述读取深度信号与所述等位基因平衡信号的组合可以涉及选择读取深度阈值和等位基因平衡阈值。所述信号阈值可以各自计算为在多个已知展现出目的倍性状态(例如,非整倍性)的变异上取平均值的相应信号的平均值的一半。使用所述读取深度信号与所述等位基因平衡信号的组合可以涉及选择组合信号阈值。所述组合信号阈值可以计算为在多个已知展现出目的倍性状态(例如,非整倍性)的变异上取平均值的组合信号平均值的一半。

18、所述方法可以导致检测到一条或多条染色体的非整倍性。所述方法可以导致检测到所分析的所有染色体的整倍性。所述方法可以导致检测到染色体区段的添加和/或缺失。所述方法导致鉴定出cnv。

19、获得所述等位基因平衡信号可能需要通过执行本文其他地方描述的上述方法中的任一种来校正原始等位基因平衡信号。

20、根据本发明的另一方面,上述方法中的任一种都可能需要获得指示倍性状态的信号(例如,所述等位基因平衡信号或读取深度信号),所述信号源自包含对于所述染色体区段具有不同拷贝数的细胞群体的样品。所述细胞群体中的一些细胞可能具有非整倍性,而其他细胞可能没有。所述信号可以源自包含一个或多个肿瘤细胞的样品。所述样品还可以包含非肿瘤细胞。

21、根据本发明的另一方面,上述方法中的任一种都可能需要获得源自无细胞dna的指示倍性状态的信号(例如,所述等位基因平衡信号或读取深度信号)。无细胞dna可以是无细胞胎儿dna(cffdna)或循环肿瘤dna(ctdna)。

22、根据本发明的另一方面,上述方法中的任一种都可能需要获得来自胚胎或胎儿的指示倍性状态的信号(例如,等位基因平衡信号或读取深度信号)。所述胚胎可以是存在于体外的胚胎,例如像,在将胚胎植入子宫之前。

23、根据本发明的另一方面,本文公开了一种检测肿瘤dna中染色体不稳定性的方法。所述方法涉及根据上述方法中的任一种来确定遗传物质样品中的一个或多个染色体区段的倍性状态。所述遗传物质样品至少部分源自来源于已知或疑似是肿瘤细胞的一个或多个细胞的dna。鉴定所述一个或多个染色体区段的非整倍性状态用于指示至少一些肿瘤细胞的染色体不稳定性。

24、所述样品可以来自被诊断或疑似患有癌症的受试者。所述样品可以含有循环肿瘤dna。对从中获得遗传物质的受试者的正常组织(例如,生殖系组织)或肿瘤组织的测序可以用于建立参考遗传密码。所述方法可能还需要基于是否指示染色体不稳定性来处理所述一个或多个细胞或治疗从中获得针对癌症的所述遗传物质的受试者。所述治疗/处理可以涉及如果指示染色体不稳定,则向所述一个或多个细胞或所述受试者施用聚adp核糖聚合酶(parp)抑制剂和/或铂基化疗药物。

25、根据本发明的另一方面,本文公开了一种检测受试者中从头拷贝数变异(cnv)的方法。所述方法涉及根据上述方法中的任一种确定染色体区段的倍性状态。所述受试者的父母的所述染色体区段是整倍体。通过进行所述方法,可以在受试者的所述染色体区段中鉴定出从头非整倍体(例如,cnv)。

26、倍性状态的确定可能需要将倍性状态与从对所述受试者的一个或多个遗传亲属进行的测序得出的参考遗传密码进行比较。所述一个或多个遗传亲属可以是所述受试者的母亲和/或父亲。根据上述方法中的任一种,所述测序可以用非错误传播技术进行以提供多个读段。所述测序可以是对细胞dna进行的。所述方法可能还需要确定所述受试者的母亲或父亲是否是非整倍性的来源。

27、所述受试者可以是胚胎。所述方法可能需要获得指示倍性状态的信号(例如,所述等位基因平衡信号或读取深度信号),所述信号源自胚胎活检物、囊胚腔液或细胞培养基(所述培养基中的无细胞dna)。所述方法可能还需要基于非整倍性的不存在或存在来选择胚胎。所述胚胎可以是从多个胚胎中选择的。所选的胚胎可以用于体外受精(ivf),可以丢弃或可以冷冻。

28、所述受试者可以是胎儿。所述方法可能需要获得源自无细胞胎儿dna(cffdna)的指示倍性状态的信号(例如,所述等位基因平衡信号或读取深度信号)。所述方法可能需要基于所鉴定的非整倍性(例如,cnv)的不存在或存在来治疗所述胎儿和/或所述母亲。所述治疗可能需要对所述胎儿进行另外的测试,例如像核型分析。所述治疗可能需要终止妊娠。所述治疗可能需要对所述胎儿施用针对与检测到的非整倍性(例如,cnv)的存在相关的疾病的产前治疗。

29、根据本发明的另一方面,本文公开了一种筛查受试者的疾病的方法。所述方法涉及确定是否存在与所述疾病相关的一个或多个遗传变异。所述一个或多个遗传变异包括通过对一个或多个其他受试者进行用于确定倍性状态的上述方法中的任一种鉴定的非整倍性(例如,cnv)和/或与所述非整倍性存在于相同的单体型块中的snp。已知所述snp可以与所述疾病相关。

30、所述cnv和snp可以处于连锁不平衡。确定是否存在与所述疾病相关的所述一个或多个遗传变异可以涉及对所述受试者进行测序。可以靶向包含所述一个或多个遗传变异的基因组的一部分以进行测序(例如,经由微阵列)。所述方法可能需要至少部分地基于所述一个或多个遗传变异来计算所述疾病的多基因风险得分(prs)。所述方法可能还需要至少部分地基于所述一个或多个遗传变异的存在或不存在或prs来诊断受试者的疾病,所述prs至少部分地基于所述一个或多个遗传变异。所述方法可能需要基于所述一个或多个遗传变异的存在或不存在来治疗受试者。

31、根据本发明的另一方面,本文公开了一种在受试者中对生殖系镶嵌变异定相的方法。所述方法涉及获得具有至少两个相位集的参考遗传密码。每个相位集具有一个或多个目的变异。所述参考遗传密码可以至少部分定相。所述方法还涉及获得使用非错误传播技术测序的多个读段。每个读段包含所述一个或多个目的变异中的至少一个。基于所述多个读段将所述两个相位集的相位比对确定为同相或异相,以及基于所确定的所述两个相位集的相位比对来鉴定包含展现出非整倍性(例如,cnv)的染色体区段的单体型。

32、所述受试者可能被诊断或疑似患有与所述非整倍性相关的遗传疾病或病症。所述受试者可能已被诊断患有或可能疑似患有努南综合征或rasopathy。所述方法可能还需要针对所鉴定的单体型筛选来自所述受试者的配子。所述方法可能还需要选择不具有所鉴定的单体型的配子进行体外受精。所述方法可能需要在植入前基因测试期间筛选胚胎中的单体型。所述方法可能需要基于所述非整倍性的不存在或存在来选择胚胎。所述胚胎可以是从多个胚胎中选择的。所述方法可能需要在体外受精(ivf)中使用所选的胚胎,丢弃所选的胚胎或冷冻所选的胚胎。所述非整倍性可以通过进行用于确定倍性状态的上述方法中的任一种方法来鉴定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1