诊断方法与流程

文档序号:29265991发布日期:2022-03-16 14:10阅读:310来源:国知局
诊断方法与流程
诊断方法
1.本技术是申请日为2016年04月29日,申请号为201680039132.2,发明名称为“诊断方法”的申请的分案申请。
2.交叉引用
3.本技术要求于2015年5月1日提交的美国临时申请第62/155,755号的权益,该申请通过引用并入本文。
4.背景
5.癌症为全世界疾病的主要原因。每年,在世界各地有数千万人被诊断为患有癌症,并且多于一半的患者最终因其而死亡。在许多国家,癌症列为继心血管疾病之后第二大最常见的死亡原因。
6.为了检测癌症,有几种筛选测试可得。身体检查和历史记录调查了一般健康征象,包括检查疾病征象,诸如肿块或其他不寻常的身体症状。患者的健康习惯和过去的疾患和治疗的历史也将被收集。实验室测试为另一种筛选测试,并且在进行实验室测试之前,可能需要医学程序以取得组织、血液、尿液或身体中其他物质的样品。成像程序通过生成身体内部区域的视觉表示来筛选癌症。遗传测试检测与一些类型癌症相关的某些基因的有害突变。遗传测试对于许多诊断方法为特别有用的。
7.用于癌症筛选的一种方法可以包括监测源自无细胞核酸的样品,所述无细胞核酸即可以在不同类型的体液中被发现的多核苷酸群体。在一些情况下,可以基于检测遗传变异,诸如一个或更多个核酸序列的拷贝数变异和/或序列变异的改变,或其他某些稀有遗传改变的发展,来表征或检测疾病。无细胞dna(“cfdna”)可以包含与特定疾病相关的遗传变异。随着测序和操作核酸的技术的改进,本领域中对使用无细胞dna来检测和监测疾病的改进的方法和系统存在需求。
8.概述
9.在一个方面,本公开内容提供了一种用于分析受试者的疾病状态的方法,所述方法包括(a)使用遗传分析仪由所述受试者在(i)两个或更多个时间点或(ii)基本上相同的时间点获得的生物样品中的核酸分子生成遗传数据,其中所述遗传数据与所述受试者的遗传信息相关,并且其中所述生物样品包括无细胞生物样品;(b)接收来自所述遗传分析仪的遗传数据;(c)用一个或更多个编程的计算机处理器,使用所述遗传数据产生所述受试者的遗传信息的表征中的调整的测试结果;以及(d)将所述调整的测试结果输出到计算机存储器中。
10.在一些实施方案中,遗传数据包含当前序列读段和先前序列读段,并且其中(c)包括将所述当前序列读段与所述先前序列读段进行比较,并且相应地更新关于所述受试者的遗传信息的表征的诊断置信度指示(diagnostic confidence indication),该诊断置信度指示指示在所述受试者的生物样品中鉴定到一个或更多个遗传变异的概率。
11.在一些实施方案中,方法还包括生成当前序列读段的置信区间。在一些实施方案中,方法还包括将所述置信区间与一个或更多个先前的置信区间进行比较和基于重叠的置信区间确定疾病进展。
12.在一些实施方案中,生物样品在包括第一时间点和第二时间点的两个或更多个时间点获得,并且其中(c)包括如果来自所述第一时间点的信息证实了来自所述第二时间点的信息,则增加随后表征或先前表征中的诊断置信度指示。在一些实施方案中,生物样品在包括第一时间点和第二时间点的两个或更多个时间点获得,并且其中(c)包括如果来自所述第一时间点的信息证实了来自所述第二时间点的信息,则增加随后表征中的诊断置信度指示。
13.在一些实施方案中,在遗传数据中检测到第一共变量变异(co-variate variation),并且其中(c)包括如果检测到第二共变量变异,则增加随后表征中的诊断置信度指示。
14.在一些实施方案中,生物样品在包括第一时间点和第二时间点的两个或更多个时间点获得,并且其中(c)包括如果来自第一时间点的信息与来自所述第二时间点的信息冲突,则降低随后表征中的诊断置信度指示。
15.在一些实施方案中,方法还包括获得随后表征并且在所述随后表征中保留诊断置信度指示不变用于从头信息(de novo information)。在一些实施方案中,方法还包括确定在遗传数据中包括的序列读段的集合中检测到的一个或更多个遗传变体的频率,和至少部分地通过将一个或更多个遗传变体在两个或更多个时间点的频率进行比较来产生调整的测试结果。在一些实施方案中,方法还包括确定在遗传数据中包括的序列读段的集合中检测到的一个或更多个遗传基因座处的拷贝数变异的量,和至少部分地通过将在两个或更多个时间点的量进行比较来产生调整的测试结果。在一些实施方案中,方法还包括使用调整的测试结果以向受试者提供(i)治疗干预或(ii)健康或疾病的诊断。
16.在一些实施方案中,遗传数据包括来自包含疾病相关或癌症相关遗传变体的基因组的部分的序列数据。
17.在一些实施方案中,方法还包括通过增加来自受试者的样品中的多核苷酸的读段深度来使用调整的测试结果增加检测遗传变体的灵敏度。
18.在一些实施方案中,遗传数据包括第一组遗传数据和第二组遗传数据,其中所述第一组遗传数据处于或低于检测阈值,并且所述第二组遗传数据高于所述检测阈值。在一些实施方案中,检测阈值为噪声阈值。在一些实施方案中,方法还包括,在(c)中,当在多于一个(a plurality of)采样情况或时间点的所述第一组遗传数据和所述第二组遗传数据中检测到相同遗传变体时,将受试者的诊断从阴性或不确定性调整为阳性。在一些实施方案中,方法还包括,在(c)中,当在较早时间点的第一组遗传数据中和在随后时间点的第二组遗传数据中检测到相同遗传变体时,将来自较早时间点的表征中的受试者的诊断从阴性或不确定性调整为阳性。
19.在一些实施方案中,疾病状态为癌症,并且遗传分析仪为核酸测序仪。
20.在一些实施方案中,生物样品包括至少两种不同类型的生物样品。在一些实施方案中,生物样品包括相同类型的生物样品。在一些实施方案中,生物样品为血液样品。在一些实施方案中,核酸分子为无细胞脱氧核糖核酸(dna)。
21.在另一个方面,本公开内容提供了一种检测来自受试者的生物样品中的癌症多核苷酸的量随时间推移的趋势的方法,所述方法包括:使用一个或更多个编程的计算机处理器确定癌症多核苷酸在多于一个时间点的每一个的频率;确定在所述多于一个时间点的每
一个的频率的误差范围,以提供至少在第一时间点的第一误差范围和在继所述第一时间点之后的第二时间点的第二误差范围;以及确定(1)所述第一误差范围是否与所述第二误差范围重叠,该重叠指示所述癌症多核苷酸在多于一个时间点的频率的稳定性;(2)所述第二误差范围是否大于所述第一误差范围,从而指示所述癌症多核苷酸在多于一个时间点的频率的增加,或(3)所述第二误差范围是否少于所述第一误差范围,从而指示所述癌症多核苷酸在多于一个时间点的频率的降低。
22.在一些实施方案中,癌症多核苷酸为脱氧核糖核酸(dna)分子。在一些实施方案中,dna为无细胞dna。
23.在一些实施方案中,在多于一个时间点的每一个的频率通过对受试者的生物样品中的核酸分子进行测序来确定。在一些实施方案中,生物样品为血液样品。在一些实施方案中,核酸分子为无细胞脱氧核糖核酸(dna)。
24.在另一个方面,本公开内容提供了一种检测受试者中一个或更多个遗传变异和/或遗传变异的量的方法,所述方法包括用遗传分析仪对所述受试者的无细胞核酸样品中的核酸分子进行测序以生成在第一时间点的第一组序列读段;将所述第一组序列读段与至少在所述第一时间点之前的第二时间点获得的至少第二组序列读段进行比较,以产生第一组序列读段和所述至少第二组序列读段的比较;使用所述比较来相应地更新诊断置信度指示,该诊断置信度指示指示在所述受试者的无细胞核酸样品中鉴定到一个或更多个遗传变异的概率;以及基于所述诊断置信度指示,检测所述受试者的无细胞核酸样品中的核酸分子中所述一个或更多个遗传变异的存在或不存在和/或遗传变异的量。
25.在一些实施方案中,方法还包括从受试者获得无细胞核酸分子。
26.在一些实施方案中,方法还包括对受试者的另外的无细胞核酸分子进行测序以生成在继第一时间点之后的第三时间点的第三组序列读段,以及基于诊断置信度指示,检测受试者的另外的无细胞核酸分子中的一个或更多个遗传变异的存在或不存在和/或遗传变异的量。
27.在一些实施方案中,方法还包括如果从在第一时间点的第一组序列读段获得的信息证实了从在第二时间点的至少第二组序列读段获得的信息,则增加诊断置信度指示。
28.在一些实施方案中,方法还包括如果从在第一时间点的第一组序列读段获得的信息未证实从在第二时间点的至少第二组序列读段获得的信息或与从在第二时间点的至少第二组序列读段获得的信息冲突,则降低诊断置信度指示。在一些实施方案中,方法还包括在随后表征中保留诊断置信度指示不变用于从头信息。
29.在另一个方面,本公开内容提供了一种用于检测受试者的无细胞核酸样品中的突变的方法,所述方法包括:(a)通过将从遗传分析仪获得的当前序列读段与来自先前时间段的先前序列读段进行比较以产生比较来确定共有序列,并且基于所述比较更新诊断置信度指示,其中每一个共有序列对应于源自无细胞核酸样品的一组加标签的亲本多核苷酸中的独特多核苷酸,以及(b)基于所述诊断置信度,生成受试者中的细胞外多核苷酸的遗传谱,其中所述遗传谱包含由拷贝数变异或突变分析得到的数据。
30.在一些实施方案中,方法还包括在(a)之前,提供源自无细胞核酸样品的多于一组加标签的亲本多核苷酸,其中每一组可映射至不同的参考序列。
31.在一些实施方案中,方法还包括:使用共有序列以将每一个可映射的碱基位置的
变异的比率或频率归一化,和确定实际或潜在的稀有变体或突变;以及将具有潜在的稀有变体或突变的每一个区域的所得数目与来自参考样品的类似地得到的数目进行比较。
32.在另一个方面,本公开内容提供了一种检测异常细胞活性的方法,所述方法包括:提供源自受试者的生物样品的至少一组加标签的亲本多核苷酸;扩增该组中的加标签的亲本多核苷酸,以产生对应的一组扩增的子代多核苷酸;使用遗传分析仪对该组扩增的子代多核苷酸的亚组进行测序以产生一组测序读段;以及通过将当前序列读段与来自至少一个先前时间段的先前序列读段进行比较使该组测序读段叠并(collapsing)以生成一组共有序列,并相应地更新诊断置信度指示,该诊断置信度指示指示在受试者的生物样品中鉴定到一个或更多个遗传变异的概率,其中每一个共有序列对应于该组加标签的亲本多核苷酸中的独特多核苷酸。
33.在一些实施方案中,方法还包括如果在至少一个先前时间段中鉴定到该组测序读段,则增加诊断置信度指示。在一些实施方案中,方法还包括如果在至少一个先前时间段中未鉴定到该组测序读段,则降低诊断置信度指示。在一些实施方案中,方法还包括如果在至少一个先前时间段中鉴定到该组测序读段,但为非确定性的,则保持诊断置信度指示不变。
34.在一些实施方案中,该组测序读段包括至少一个测序读段。
35.在一些实施方案中,生物样品为血液样品。在一些实施方案中,生物样品包含无细胞核酸分子,并且至少一组加标签的亲本多核苷酸由无细胞核酸分子生成。
36.在一些实施方案中,方法还包括生成受试者的多核苷酸的遗传谱,该遗传谱包括受试者的一个或更多个遗传变体的分析结果。在一些实施方案中,多核苷酸包括细胞外多核苷酸。
37.在另一个方面,本公开内容提供了一种用于检测受试者的无细胞样品或基本上无细胞的样品中的突变的方法,所述方法包括:(a)用遗传分析仪对来自受试者的身体样品的细胞外多核苷酸进行测序;(b)对于所述细胞外多核苷酸的每一个,生成多于一个测序读段;(c)过滤掉不满足设定阈值的读段;(d)将从测序得到的序列读段映射到参考序列上;(e)鉴定在每一个可映射的碱基位置处与所述参考序列的变体对齐的映射序列读段的亚组;(f)对于每一个可映射的碱基位置,计算(i)与所述参考序列相比包含变体的映射序列读段的数目与(ii)每一个可映射的碱基位置的总序列读段的数目的比率;以及(g)使用一个或更多个编程的计算机处理器将所述序列读段与来自至少一个先前时间点的其他序列读段进行比较,并且相应地更新诊断置信度指示,该诊断置信度指示指示鉴定到变体的概率。
38.在一些实施方案中,身体样品为血液样品。在一些实施方案中,细胞外多核苷酸包括无细胞脱氧核糖核酸(dna)分子。
39.在另一个方面,本公开内容提供了一种用于操作遗传测试设备的方法,所述方法包括:提供从获自受试者的身体样品获得的初始起始遗传物质;将来自所述初始起始遗传物质的双链多核苷酸分子转化为至少一组非独特地加标签的亲本多核苷酸,其中组中的每一个多核苷酸可映射至参考序列;以及对于每一组加标签的亲本多核苷酸:(i)扩增该组中的加标签的亲本多核苷酸,以产生对应的一组扩增的子代多核苷酸;(ii)对该组扩增的子代多核苷酸进行测序,以产生一组测序读段;(iii)使该组测序读段叠并,以生成一组共有序列,其中叠并使用来自标签的序列信息和以下的至少一个:(1)在序列读段的开始区域处
的序列信息、(2)在所述序列读段的结束区域处的序列信息和(3)所述序列读段的长度,其中该组共有序列的每一个共有序列对应于该组加标签的亲本多核苷酸中的多核苷酸分子;以及(iv)对每一组加标签的亲本分子的该组共有序列进行分析;(v)将当前序列读段与来自至少一个其他时间点的先前序列读段进行比较;以及(vi)相应地更新诊断置信度指示,该诊断置信度指示指示在受试者的身体样品中鉴定到一个或更多个遗传变异的概率。
40.在一些实施方案中,身体样品为血液样品。在一些实施方案中,初始起始遗传物质包括无细胞脱氧核糖核酸(dna)。
41.在一些实施方案中,对每一组加标签的亲本分子的该组共有序列单独进行分析。
42.在一些实施方案中,分析包括检测突变、插入/缺失(indel)、拷贝数变异、颠换(transversion)、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、dna损伤、核酸化学修饰中的异常改变、表观遗传模式的异常改变、核酸甲基化的异常改变、感染或癌症。
43.在一些实施方案中,(vi)包括如果来自先前序列读段的信息证实了来自当前序列读段的信息,则增加当前序列读段中的诊断置信度指示。在一些实施方案中,(vi)包括如果来自先前序列读段的信息与来自当前序列读段的信息冲突,则降低当前序列读段中的诊断置信度指示。在一些实施方案中,(vi)包括如果来自先前序列读段的信息相对于来自当前序列读段的信息为非确定性的,则在当前序列读段中保持诊断置信度指示不变。
44.在一些实施方案中,(v)包括将一个或更多个当前序列读段变异与一个或更多个先前序列读段变异进行比较。
45.在另一个方面,本公开内容提供了一种用于检测受试者中的一个或更多个遗传变体的方法,所述方法包括:(a)从所述受试者的一个或更多个无细胞生物样品获得核酸分子;(b)测定所述核酸分子以产生第一组遗传数据和第二组遗传数据,其中所述第一组遗传数据和/或所述第二组遗传数据在检测阈值以内;(c)将所述第一组遗传数据与所述第二组遗传数据进行比较以鉴定所述第一组遗传数据或所述第二组遗传数据中的所述一个或更多个遗传变体;以及(d)基于在(c)中鉴定到的所述一个或更多个遗传变体,使用一个或更多个编程的计算机处理器来更新在所述受试者的无细胞生物样品中鉴定到所述一个或更多个遗传变体的诊断置信度指示。
46.在一些实施方案中,所述第一组遗传数据和所述第二组遗传数据在所述检测阈值以内。在一些实施方案中,所述第一组遗传数据在所述检测阈值以内,且所述第二组遗传数据高于所述检测阈值。在一些实施方案中,所述检测阈值为噪声阈值。
47.在一些实施方案中,方法还包括鉴定所述第一组遗传数据中的所述一个或更多个遗传变体,和增加所述诊断置信度指示。
48.在一些实施方案中,所述核酸分子的亚组在不同的时间点被测定。在一些实施方案中,所述核酸分子在相同的时间点或不同的时间点从多于一个无细胞生物样品获得。
49.在一些实施方案中,所述核酸分子为脱氧核糖核酸(dna)。在一些实施方案中,所述dna为无细胞dna(cfdna)。
50.在一些实施方案中,方法还包括生成所述受试者的遗传谱,其中所述遗传谱包括鉴定到所述一个或更多个遗传变体的所述诊断置信度指示。
51.在一些实施方案中,在(c)中在所述第一组遗传数据中鉴定到共变量变体,并且还包括更新在所述受试者的无细胞生物样品中鉴定到第二共变量变体的所述诊断置信度指示。在一些实施方案中,方法还包括如果在所述第二组遗传数据中观察到所述第一组遗传数据,则增加(c)中的所述诊断置信度指示。在一些实施方案中,方法还包括如果所述第一组遗传数据不同于所述第二组遗传数据,则降低(c)中的所述诊断置信度指示。
52.在一些实施方案中,所述检测阈值包括由测序或扩增引入的错误。
53.在一些实施方案中,所述检测阈值包括0.5%至5%的每碱基错误率。在一些实施方案中,所述检测阈值包括0.5%至1%的每碱基错误率。
54.在一些实施方案中,所述核酸分子从所述受试者的第二无细胞生物样品获得。在一些实施方案中,所述第二无细胞生物样品在获得(a)的所述无细胞生物样品之后获得。在一些实施方案中,所述第二无细胞生物样品在获得(a)的所述无细胞生物样品之前获得。在一些实施方案中,所述第二无细胞生物样品与获得(a)的所述无细胞生物样品同时获得。在一些实施方案中,所述第一组遗传数据对应于(a)的所述无细胞生物样品,并且所述第二组遗传数据对应于所述第二无细胞生物样品。
55.在一些实施方案中,方法还包括:将标签附接至所述核酸分子,以生成加标签的亲本多核苷酸;扩增所述加标签的亲本多核苷酸,以产生加标签的子代多核苷酸;和对所述加标签的子代多核苷酸进行测序以产生测序读段。
56.在一些实施方案中,附接包括对核酸分子进行独特地加标签。在一些实施方案中,附接包括对所述核酸分子进行非独特地加标签,使得不多于5%的所述核酸分子被独特地加标签。
57.在一些实施方案中,方法还包括在测序之前选择性富集感兴趣的序列。
58.在一些实施方案中,方法还包括至少基于序列标签将所述序列读段分组为家族。在一些实施方案中,对序列读段进行分组进一步基于以下的一个或更多个:在源自核酸分子的序列读段的开始处的序列信息、在源自核酸分子的所述序列的结束处的序列信息、以及所述序列读段的长度。
59.在一些实施方案中,方法还包括将被分组在每一个家族以内的序列读段进行比较以确定每一个家族的共有序列,其中每一个共有序列对应于加标签的亲本多核苷酸中的独特多核苷酸。
60.在一些实施方案中,方法还包括获得少于100ng的核酸分子。
61.在另一个方面,本公开内容提供了一种用于判定(calling)来自受试者的无细胞脱氧核糖核酸(cfdna)中的遗传变体的方法,所述方法包括:(a)使用dna测序系统对来自在第一时间点从受试者取得的样品的cfdna进行测序;(b)检测所测序的来自所述第一时间点的cfdna中的遗传变体,其中所述遗传变体以低于诊断限值的水平被检测到;(c)使用dna测序系统对来自在一个或更多个随后时间点从所述受试者取得的样品的cfdna进行测序;(d)检测所测序的来自一个或更多个随后时间点的cfdna中的遗传变体,其中所述遗传变体以低于诊断限值的水平被检测到;(e)基于在多于一个时间点取得的样品中检测到低于诊断限值的遗传变体,将样品判定为遗传变体阳性。
62.在一些实施方案中,方法还包括(f)检测一种趋势,其中,在第一时间点,遗传变体以低于诊断限值被检测到并且被判定为阳性,并且在一个或更多个随后时间点,该遗传变
体以高于诊断限值被检测到,从而该遗传变体增加。
63.在一些实施方案中,诊断限值少于或等于约1.0%。
64.在另一个方面,本公开内容提供了一种用于判定来自受试者的无细胞脱氧核糖核酸(cfdna)中的遗传变体的方法,所述方法包括:(a)使用脱氧核糖核酸(dna)测序系统对来自受试者的样品的cfdna进行测序;(b)检测所测序的cfdna中的遗传变体,其中所述遗传变体以低于诊断限值的水平被检测到;(c)使用dna测序系统对来自从所述受试者取得的样品的cfdna进行测序,其中所述样品被重新测序一次或更多次;(d)检测所测序的来自一个或更多个重新测序的样品的cfdna中的遗传变体,其中所述遗传变体以低于诊断限值的水平被检测到;以及(e)基于在重新测序的样品中检测到低于诊断限值的遗传变体,将样品判定为遗传变体阳性。
65.在另一个方面,本公开内容提供了一种用于检测受试者中的一个或更多个遗传变体的方法,所述方法包括:
66.(a)从所述受试者的一个或更多个无细胞生物样品获得核酸分子;
67.(b)测定所述核酸分子以产生一组遗传数据,其中遗传变体在检测阈值以内的该组遗传数据中;
68.(c)通过查询检测阈值以内的该组遗传数据的与遗传变异相关的一个或更多个共变量遗传变异来鉴定与所述遗传变异相关的一个或更多个共变量遗传变异;以及
69.(d)基于在(c)中鉴定到的所述一个或更多个遗传变体,使用一个或更多个编程的计算机处理器来更新在所述受试者的无细胞生物样品中鉴定到所述一个或更多个遗传变体的诊断置信度指示。
70.在另一个方面,本公开内容提供了一种用于处理遗传数据的方法,所述方法包括:
71.(a)接收来自遗传分析仪的遗传数据,该遗传数据由受试者的无细胞核酸样品生成;
72.(b)使用编程的计算机处理器分析所述遗传数据以鉴定所述遗传数据中的一个或更多个遗传变体;以及
73.(c)在电子门户上提供对应于(b)中鉴定到的所述一个或更多个遗传变体的输出。
74.在一些实施方案中,一个或更多个结果被输出在网络门户或图形用户界面上。
75.在另一个方面,本公开内容提供了一种方法,所述方法包括:
76.(a)使用基因测序系统对来自受试者的cfdna进行测序并生成测序数据;
77.(b)将序列数据接收到计算机存储器中;
78.(c)使用处理器来执行逻辑以:
79.(i)确定在一个或更多个遗传基因座处的遗传变体的频率;
80.(ii)确定所述遗传变体的频率是高于还是低于预定的诊断限值;
81.(iii)如果所述频率高于所述诊断限值,则判定所述遗传变体为存在于所述样品中;
82.(iv)或者,如果所述频率低于所述诊断限值,则访问来自受试者的在另一个时间取得的序列数据,并且如果在另一个时间点检测到所述变体,则判定遗传变体为存在;
83.(v)生成鉴定遗传变体的报告,所述遗传变体被判定为存在;
84.(d)将所述报告发送至其中所述报告在图形用户界面上可见的网站。
85.在另一个方面,本公开内容提供了一种非暂时性计算机可读介质(a non-transitory computer readable medium),该非暂时性计算机可读介质包含机器可执行代码,该机器可执行代码在被一个或更多个计算机处理器执行时实施本文以上或别处的方法的任一种。
86.在另一个方面,本公开内容提供了一种计算机系统,该计算机系统包含一个或更多个计算机处理器及与其耦合的存储器。存储器包含一种非暂时性计算机可读介质,该非暂时性计算机可读介质包含机器可执行代码,该机器可执行代码在被一个或更多个计算机处理器执行时实施本文以上或别处的方法的任一种。
87.从以下详述的描述,本公开内容的另外的方面和优势对本领域技术人员而言将变得明显,详细描述中仅示出和描述了本公开内容的说明性实施方案。如将会意识到的,本公开内容能够具有其他和不同的实施方案,并且其若干细节能够在多种明显的方面进行修改,所有这些都不偏离本公开内容。相应地,附图和描述被认为是本质上是说明性的而不是限制性的。
88.通过引用并入
89.本说明书中提及的所有出版物、专利和专利申请通过引用并入本文,其程度如同每一个单独的出版物、专利或专利申请被具体和单独地指明通过引用并入的相同程度。
90.附图简述
91.本公开内容的新的特征特别地在所附权利要求中阐述。通过参考以下对其中利用了本公开内容的原理的说明性实施方案加以阐述的发明详述及其附图,将会获得对本公开内容的特征和优势的更好的理解,在附图中:
92.图1a-1d阐释了减少dna序列阅读中的错误率和偏倚的示例性系统。
93.图2阐释了用于分析初始遗传物质的样品中的多核苷酸的示例性过程。
94.图3阐释了用于分析初始遗传物质的样品中的多核苷酸的另一个示例性过程。
95.图4阐释了用于分析初始遗传物质的样品中的多核苷酸的另一个示例性过程。
96.图5a和5b示出了经互联网访问由患有癌症的受试者的拷贝数变异分析生成的报告的示意性图。
97.图6示出了经互联网访问患有癌症的受试者的报告的示意性图。
98.图7阐释了一种被编程为或以其他方式配置为分析遗传数据的计算机系统。
99.图8示出了掺入有携带癌症突变体的核酸的样品中序列的检测。
100.图9示出了可以与本公开内容的方法和系统一起使用的基因的组(gene panel)
101.详述
102.尽管本文已经显示和描述了本发明的多种实施方案,但对于本领域技术人员将明显的是,此类实施方案仅通过示例的方式提供。在不偏离本发明的情况下,本领域技术人员可以想到许多变化、改变和替换。应当理解,可以采用本文描述的本发明的实施方案的多种替代选择。
103.本文使用的术语仅为了描述特定实施方案的目的,而不意图限制本发明。如本文使用的,单数形式“一(a)”、“一(an)”和“该(the)”意图也包括复数形式,除非上下文另有清楚地指示。此外,在术语“包括(including)”、“包括(includes)”、“具有(having)”、“具有(has)”、“带有(with)”或其变化形式在发明详述和/或权利要求书中使用的情况下,此类术
语意图以类似于术语“包含(comprising)”的方式为包含性的。
104.术语“约”或“大约”意指在如由本领域普通技术人员确定的特定值的可接受误差范围以内,其将部分地取决于值如何被测量或确定,即,测量系统的局限性。例如,“约”根据本领域中的实践可以意指在1个或多于1个标准偏差以内。可选地,“约”可以意指给定值的多达20%、多达10%、多达5%或多达1%的范围。可选择地,特别是关于生物系统或过程,该术语可以意指在值的数量级以内,诸如在值的5倍以内或在值的2倍以内。除非另有说明,当在本技术和权利要求书中描述特定值时,应该假定术语“约”指的是特定值的可接受的误差范围以内。
105.在某些实施方案中,诊断涉及检测(例如,测量)指示疾病的信号,诸如生物标志物,并将检测或测量与疾病状态相关。然而,由于低样品浓度信号可能是弱的,或者信号可能会被噪声遮蔽。如果信号微弱,使得该信号处于或低于噪声阈值或检测限值,则可能难以区分信号与检测系统产生的噪声或可能难以检测到信号。在此类情况下,人们可能不会有信心做出诊断。通过查看遗传数据或从多于一个时间点检测到的变异,作为证实性信号的多于一个测试或多于一个共同检测到的共变量遗传变体,可以增强诊断置信度。
106.如本文使用的术语检测限值和诊断限值通常指以预定置信度水平检测给定基因或变体的存在或不存在或量的能力(capability)。如本文通常使用的,检测阈值指处于或低于检测限值的范围,在该范围中某些遗传变体不能被检测到或不能与噪声区分。在一些情况下,“检测限值”可以是变体在95%的情况下在变体阳性样品中被检测到的最低频率或浓度。诊断限值可以是做出阳性判定的最低频率。诊断限值可以是从约0.01%至约1%。诊断限值可以少于或等于约5%、约1.0%、约0.8%、约0.5%、约0.25%、约0.1%、约0.08%、约0.05%、约0.03%、约0.01%、或更少。在一些情况下,检测限值可以与诊断限值相同。检测限值或诊断限值可以是噪声限值或噪声阈值。在此类情况下,检测限值或诊断限值为不能区分信号与噪声的限值。
107.在一些情况下,诊断限值可以低于检测限值。使用本文描述方法和系统,以处于或低于检测限值的量存在的遗传变体可以以预定置信度水平(例如,至少80%、90%、或95%置信度)被判定为阳性,甚至当遗传变体处于或低于检测限值存在时。
108.因此,例如,样品的序列分析可以揭示样品中许多不同的遗传变体和多种频率或浓度。诊断限值可以由临床医师设定在例如1%,也就是说,除非变体以至少1%的浓度存在,否则没有变体被报告为“存在”于样品中或在报告中被“判定”。如果第一变体以5%被检测到,则该变体被“判定”存在于样品中并且被报告。另一个变体以0.5%被检测到。这低于诊断限值,并且可能低于测序系统的检测限值。在这种情况下,临床医生具有几种选择。首先,相同的样品可以被重新测试。如果该变体以低于或高于检测限值再次被检测到,则现在“被判定”为存在于样品中。其次,可以检查序列数据是否存在共变量变异。例如,变体可以是已知的抗性突变。如果从序列数据中检测到同一基因的驱动突变(driver mutation),这也指示抗性突变体可能不是“噪声”检测,并且可以再次进行阳性判定。第三,可以在随后时间点再次测试受试者。如果变体在随后的样品中被检测到,则第一样品可以被判定为“存在”变体。可选地,如果随后的测试显示具有与第一测试不重叠的置信度评分的变体的量,视情况而定,变体可以被判定为在受试者中增加或降低。
109.几个因素可能影响在检测限值或诊断限值处或在检测限值或诊断限值附近检测
基因或变体的能力。被检测到的基因或变体可以以低量或低浓度存在,致使序列分析仪不能检测到基因或变体。例如,在一百万个分析的无细胞核酸分子中,遗传突变可能存在于一个分析的无细胞核酸分子中,因此该变体碱基以百万分之一的频率被判定为存在。测序分析仪可能会将遗传突变错误地表征为非变体碱基判定,因为该遗传突变以相对于在同一位点处的所有其他碱基判定较低的频率发生。在此类情况下,检测限值通常可以指遗传分析仪或测序仪检测以非常低的频率存在的遗传变异的能力。另外,由测序或扩增引入的序列错误或假象(artifact)可以使得难以区分或不可能区分错误和/或假象与检测到的基因或遗传变异。在此类情况下,检测限值可以指以置信度区分变体碱基判定与错误判定的能力。本公开内容提供了用于检测处于或低于检测限值和/或在检测阈值以内的遗传变异的技术。
110.如本文使用的,术语“诊断置信度指示”通常指被指定为指示一个或更多个遗传变体的存在以及该存在以多少被信任的表示、数目、排序、评分、程度或值。诊断置信度指示可以指示在受试者的生物样品中鉴定到一个或更多个遗传变异的概率。例如,除其他以外,该表示可以是二进制值或从a至z排序的字母数字。又在另一个实例中,除其他以外,诊断置信度指示可以具有从0至100的任何值。又在另一个实例中,诊断置信度指示可以被表示为范围或程度,例如,“低”或“高”、“更多”或“更少”、“增加的”或“降低的”。低诊断置信度指示指示检测到的遗传变体可能是噪声(例如,不能太过相信检测到的遗传变体的存在)。高诊断置信度指示意指,对于检测到的遗传变体,该遗传变体可能存在。在一些情况下,如果结果的诊断置信度指示低于100中的25-30,则该结果可能不可信。
111.每一个变体的诊断置信度指示可以被调整以指示预测遗传变异的置信度。可以通过使用在多于一个时间点的测量或者来自在相同时间点或在不同时间点的多于一个样品的测量来增加或降低置信度。诊断置信度可以基于共变量变异的检测被进一步调整。诊断置信度指示可以通过许多统计方法中的任何一种来指定,并且可以至少部分地基于经过一段时间观察到的测量的频率。
112.如本文使用的,术语“共变量变异”或“共变量变体”通常指趋于一起变化的遗传变异,例如,一种变异的存在与共变量变异的存在相关。相应地,如果观察到变体低于诊断限值或检测限值,并且同时检测到共变量变体(无论高于或低于检测限值),则更可能的是样品对于两种变体均是阳性的,并且两种变体可以被“判定”为存在于样品中。共变量变异的一个实例为驱动突变和抗性突变或未知意义的突变。即,在驱动突变存在之后,同一基因中的其他突变,诸如抗性突变可能出现,特别地在癌症的治疗和复发之后。作为一个非限制性的实例,驱动突变可以以高诊断置信度以高于检测限值被检测到。然而,由于采样不足或噪声,可能难以自信地评价另一个遗传变异是否存在。如果遗传变异通常地与驱动突变一起存在,使得变体为共变量变体(诸如乘客突变(passenger mutation)或抗性突变),则遗传变体的诊断置信度指示将增加。一起检测到的某些变体之间的相关性强度可以增加以低于检测限值检测到的遗传数据为遗传变异的概率、似然性和/或置信度。
113.如本文使用的,术语“dna测序系统”通常指与测序仪器结合使用的dna样品制备方案。dna样品制备方案除其他分子生物学方法以外可以涉及文库制备、扩增、衔接子(adapter)连接、单链延伸。测序仪器可以是能够自动化多种测序方法或过程的任何仪器。多种测序方法或过程的非限制性实例包括:sanger测序、高通量测序、焦磷酸测序、边合成
边测序(sequencing-by-synthesis)、单分子测序、纳米孔测序、半导体测序、边连接边测序(sequencing-by-ligation)、边杂交边测序(sequencing-by-hybridization)、rna-seq(illumina)、数字基因表达(digital gene expression)(helicos)、新一代测序、单分子边合成边测序(smss)(helicos)、大规模并行测序、克隆单分子阵列(solexa)、鸟枪法测序、maxim-gilbert测序、引物步移(primer walking)、和本领域中已知的任何其他测序方法。dna测序系统可以包含制备用于在特定测序仪器中进行测序的样品的所有方案。
114.如本文使用的术语“受试者”通常指在本公开内容的方法中使用的任何生物体。在一些实例中,受试者为人类、哺乳动物、脊椎动物、无脊椎动物、真核生物、古核生物(archaea)、真菌或原核生物。在一些情况下,受试者可以是人类。受试者可以是健在的(living)或死亡的。受试者可以是患者。例如,受试者可以罹患疾病(或疑似罹患疾病)和/或正在医学从业者的护理中。受试者可以是正经历治疗和/或健康或医学状况的诊断的个体。受试者和/或家族成员可以与本公开内容的方法中使用的另一个受试者是亲属(例如,姐妹、兄弟、母亲、父亲、侄子/外甥(nephew)、侄女/外甥女(niece)、姨/姑(aunt)、叔/舅(uncle)、(外)祖父母(grandparent)、曾(外)祖父母(great-grandparent)、堂表亲)。
115.如本文使用的,术语“核酸”通常指包含一个或更多个核酸亚单位的分子。核酸可以包含选自腺苷(a)、胞嘧啶(c)、鸟嘌呤(g)、胸腺嘧啶(t)和尿嘧啶(u)或其变体的一个或更多个亚单位。核苷酸可以包含a、c、g、t或u或其变体。核苷酸可以包含可以被掺入到增长的核酸链中的任何亚单位。此类亚单位可以是a、c、g、t或u,或为一个或更多个互补a、c、g、t或u特异性的或与嘌呤(即,a或g或其变体)或嘧啶(即,c、t或u或其变体)互补的任何其他亚单位。亚单位能够使得个体核酸碱基或碱基组(例如,aa、ta、at、gc、cg、ct、tc、gt、tg、ac、ca或尿嘧啶-其对应物)得以解析。在一些实例中,核酸为脱氧核糖核酸(dna)或核糖核酸(rna)或其衍生物。核酸可以是单链或双链的。
116.术语“基因组”通常指生物体的遗传信息的整体。基因组可以以dna或以rna来编码。基因组可以包含编码蛋白的编码区域和非编码区域。基因组可以包含生物体中所有染色体的序列的集合。例如,人类基因组具有总计46条染色体。所有这些的序列共同构成人类基因组。
117.如本文使用的,术语“样品”通常指生物样品。样品可以是或包括血液、血清、血浆、玻璃质(vitreous)、痰液、尿液、泪、汗液、唾液、精液、粘膜分泌物、粘液、脊髓液、羊水、淋巴液等。样品可以是无细胞样品。样品可以包括核酸分子,诸如多核苷酸。多核苷酸可以是脱氧核糖核酸(dna)或核糖核酸(rna)。无细胞多核苷酸可以是胎儿来源的(经由从妊娠受试者取得的流体),或可以源自受试者自身的组织。
118.检测限值/噪声范围
119.多核苷酸测序可以与通信理论中的问题进行比较。初始个体多核苷酸或多核苷酸的整体(ensemble of polynucleotides)被概念化为原始信息(original message)。加标签和/或扩增可被认为是将原始信息编码成信号。测序可以被认为是通信通道。测序仪的输出,例如,序列读段,可以被认为是接收到的信号。生物信息学处理可以被认为是解码接收到的信号以产生发送的信息(例如,一个核苷酸序列或更多个核苷酸序列)的接收器。接收到的信号可能包括假象,诸如噪声和失真(distortion)。噪声可以被认为是信号的不希望的随机增加。失真可以被认为是信号或一部分信号的幅值改变。
120.噪声可以通过在拷贝和/或读取多核苷酸中的错误而引入。例如,在测序过程中,单个多核苷酸可以首先经历扩增。扩增可能引入错误,致使扩增的多核苷酸的亚组可能在特定的基因座处包含与在该基因座处的原始碱基不同的碱基。此外,在读取过程中,在任何特定基因座处的碱基可能被不正确地读取。因此,序列读段的集合可能在基因座处包含一定百分比的与原始碱基不同的碱基判定。在通常的测序技术中,这种错误率可以是个位数,例如,2%-3%。在一些情况下,错误率可以多达约10%、多达约9%、多达约8%、多达约7%、多达约6%、多达约5%、多达约4%、多达约3%、多达约2%、或多达约1%。当对被假定为具有相同序列的全部分子的集合进行测序时,这样的噪声可以是足够小的,使得人们可以以高可靠性鉴定原始碱基。
121.然而,如果亲本多核苷酸的集合包括具有在特定基因座处变化的多核苷酸亚组,则噪声可能是一个显著的问题。例如,当无细胞dna不仅包括种系dna还包括来自另一个来源的dna诸如胎儿dna或来自癌细胞的dna时,可能是这样的情况。在这种情况下,如果具有序列变体的分子的频率可能与通过测序过程引入的错误的频率在相同的范围内,则真序列变体可能无法与噪声区别。这可能会干扰,例如,样品中的序列变体的检测。例如,序列可以具有0.5%-1%的每碱基错误率。扩增偏倚和测序错误将噪声引入到最终测序产物中。这种噪声可以降低检测的灵敏度。作为一个非限制性的实例,其频率低于测序错误率的序列变体可以被误认为是噪声。
122.噪声范围或检测限值指其中具有序列变体的分子的频率与通过测序过程引入的错误的频率在相同的范围内的情况。“检测限值”也可以指其中对于待检测的变体,太少携带该变体的分子被测序的情况。具有序列变体的分子的频率可能由于核酸分子的量少而与错误的频率在相同的范围内。作为一个非限制性的实例,核酸的采样量,例如,100ng,可能包含相对少量的无细胞核酸分子,例如,循环肿瘤dna分子,致使序列变体的频率可能是低的,尽管该变体可能存在于大多数循环肿瘤dna分子中。可选地,序列变体可能是稀有的,或者仅在非常少量的采样的核酸中发生,使得检测到的变体与噪声和/或测序错误不可区分。作为一个非限制性的实例,在特定基因座处的遗传变体可能仅在该基因座处的0.1%至5%的全部读段中检测到。
123.失真在测序过程中可以表现为由亲本群体中相同频率的分子产生的信号强度的差异,例如,序列读段的总数。例如,可以通过扩增偏倚、gc偏倚或测序偏倚引入失真。这可能会干扰样品中的拷贝数变异的检测。gc偏倚导致了在序列读取中gc含量丰富或贫乏区域的不均匀呈现。此外,通过以比它们在群体中的实际数目更大或更小的量提供序列读段,扩增偏倚可以使拷贝数变异的测量失真。
124.在多核苷酸测序过程中,测序和/或扩增假象或错误,诸如噪声和/或失真可以被减少。测序和/或扩增假象或错误可以使用用于测序和序列分析的多种技术来减少。多种技术可以包括测序方法和/或统计方法。
125.减少噪声和/或失真的一种方式为过滤序列读段。作为一个非限制性的实例,序列读段可以通过要求序列读段满足质量阈值或通过减少gc偏倚来过滤。此类方法通常对为测序仪的输出的序列读段的集合进行,并可以以逐个序列读段(sequence read-by-sequence read)的方式进行,而无需考虑家族结构(源自单个原始亲本分子的序列的子集)。
126.减少来自单个个体分子或来自分子整体的噪声和/或失真的另一种方式为将序列
读段分组为源自原始个体分子的家族以减少来自单个个体分子或来自分子整体的噪声和/或失真。将初始遗传物质的样品中的个体多核苷酸有效转化为测序就绪的加标签的亲本多核苷酸可以增加初始遗传物质的样品中的个体多核苷酸将在测序就绪的样品中呈现的概率。这可以产生关于初始样品中的更多多核苷酸的序列信息。另外,通过从加标签的亲本多核苷酸扩增的子代多核苷酸的高速率采样,以及将生成的序列读段叠并为呈现亲本加标签的多核苷酸的序列的共有序列,来高产量地生成加标签的亲本多核苷酸的共有序列可以减少由扩增偏倚和/或测序错误引入的噪声并且可以增加检测的灵敏度。将序列读段叠并为共有序列为减少从一个分子接收到的信息中的噪声的一种方式。使用转化接收到的频率的概率函数为减少噪声和/或失真的另一种方式。关于分子整体,将读段分组为家族和确定家族的定量度量减少了例如在多于一个不同基因座中的每一个基因座处的分子的量的失真。再者,将不同家族的序列读段叠并为共有序列消除了由扩增和/或测序错误引入的错误。此外,基于由家族信息得到的概率来确定碱基判定的频率也减少了从分子整体接收到的信息中的噪声。
127.噪声和/或失真可以通过将序列读段中的遗传变异与其他序列读段中的遗传变异进行比较来进一步减少。在一个序列读段中以及再次在其他序列读段中观察到的遗传变异增加检测到的变体实际上为遗传变体而不仅仅为测序错误或噪声的概率。作为一个非限制性的实例,如果遗传变异在第一序列读段中被观察到并且也在第二序列读段中被观察到,则可以关于该变异实际上是否是遗传变异而不是测序错误进行贝叶斯推断。
128.本公开内容提供了用于检测核酸分子中的变异,特别地处于噪声范围以内或低于检测限值的频率的那些变异的方法。在核酸分子中初始检测到的变体可以与其他变体(诸如例如在相同基因座处的变体或共变量遗传变体)进行比较,以确定变体是否更可能或不太可能被准确地检测到。变体可以在扩增的核酸分子中进行检测,在序列读段或叠并的序列读段中进行检测。
129.重复检测变体可以增加变体被准确地检测到的概率、似然性和/或置信度。可以通过比较两组或更多组遗传数据或遗传变异重复地检测变体。两组或更多组遗传变异可以是在多个时间点的样品和在相同时间点的不同样品(例如重新分析的血液样品)两者。当检测到变体处于噪声范围内或低于噪声阈值时,重新采样或重复检测低频变体使其更可能实际上是变体而不是测序错误。重新采样可以来自相同的样品,诸如重新分析或重新运行的样品,或来自在不同时间点的样品。
130.作为一个非限制性的实例,具有低置信度评分的遗传变体可以以低于检测限值或噪声范围的频率或量来检测。然而,如果遗传变体被再次观察到,诸如例如在随后时间点、在先前样品中、或者在重新分析样品时,则置信度评分可以增加。因此,尽管以低于检测限值或噪声范围的频率或量存在,但是变体可以以更大的置信度来检测。在其他情况下,例如在重新采样时未再次观察到遗传变体的情况下,置信度评分可以保持不变或降低。可选地,如果在特定基因座处观察到的遗传变体与重新采样结果冲突,则置信度评分可以降低。
131.共变量检测可以增加变体被准确地检测到的概率、似然性和/或置信度。对于共变量遗传变体,一个遗传变体的存在与一个或更多个其他遗传变体的存在相关。基于共变量遗传变异的检测,甚至在相关的遗传变异以低于检测限值存在的情况下,推断相关的共变量遗传变异的存在也是可能的。交替地,基于共变量遗传变异的检测,相关遗传变异的诊断
置信度指示可以被增加。此外,在共变量变体被检测到的一些情况下,低于检测限值检测到的共变量变体的检测阈值可以被降低。共变量变异或基因的非限制性实例包括:驱动突变和抗性突变、驱动突变和乘客突变。作为共变体或基因的具体实例为在肺癌中发现的egfr l858r活化突变和egfr t790m抗性突变。许多其他共变量变体和基因与多种抗性突变相关,并且将被本领域技术人员识别。
132.本公开内容提供了用于检测遗传变体的方法,其中至少一些变体在噪声范围或阈值内。在噪声阈值或范围内,可能难以或不可能或难以以置信度检测到遗传变异。在一些情况下,噪声阈值提供了以统计置信度检测遗传变异的限值。噪声阈值或范围可以与测序错误率重叠。噪声阈值可以与测序错误率相同。噪声阈值可以低于测序错误率。噪声阈值可以多达约10%、多达约9%、多达约8%、多达约7%、多达约6%、多达约5%、多达约4%、多达约3%、多达约2%、或多达约1%。在一些情况下,噪声范围为约0.5%至10%的每碱基错误。在一些情况下,噪声阈值为约0.5%至5%的每碱基错误。在一些情况下,噪声阈值为约0.5%至1%的每碱基错误。术语噪声和阈值可以互换使用。
133.可以在核酸分子中检测几种类型的遗传变体。遗传变异可以被互换地称为遗传变体或遗传畸变(genetic aberrations)。遗传变异可以包括单个碱基置换、拷贝数变异、得失位和基因融合。可以检测这些遗传变体的组合。另外的遗传变体的非限制性实例还可以包括:颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、dna损伤、核酸化学修饰的异常改变、表观遗传模式的异常改变和核酸甲基化的异常改变。
134.在一个实施方式中,使用来自基本上同时或在多于一个时间点内收集的多于一个样品的测量,可以调整每一个变体的诊断置信度指示以指示预测拷贝数变异(cnv)或突变的观察的置信度。可以通过使用在多于一个时间点的测量来增加置信度,以确定癌症是否进展、缓解或稳定。诊断置信度指示可以通过许多统计方法中的任何一种来指定,并且可以至少部分地基于在一段时间段内观察测量的频率。例如,可以做出当前和先前结果的统计相关性。可选地,对于每一个诊断,可以建立隐马尔可夫模型(hidden markov model),使得可以基于来自多于一个测量或时间点的特定测试事件的发生频率来作出最大似然性或最大后验概率决定。作为该模型的一部分,也可以输出特定决定的误差概率和所得的诊断置信度指示。以这种方式,参数的测量,无论它们是否在噪声范围内,均可以被提供置信区间。随时间推移进行测试,人们可以通过比较随时间推移的置信区间来增加癌症是否进展、稳定或缓解的预测置信度。两个采样时间点可以被分开至少约1微秒、1毫秒、1秒、10秒、30秒、1分钟、10分钟、30分钟、1小时、12小时、1天、1周、2周、3周、1个月或1年。两个时间点可以被分开约一个月至约一年、约一年至约5年、或不超过约三个月、两个月、一个月、三周、两周、一周、一天或12小时。
135.图1a示出了减少可能比可靠地检测出与癌症相关的从头基因组改变所需要的高几个数量级的错误率和偏倚的第一示例性系统。该过程首先通过收集体液样品作为遗传物质的来源(血液、唾液、汗液以及其他),并且然后该过程对物质进行测序,来捕获遗传信息(1)。例如,样品中的多核苷酸可以被测序,产生多于一个序列读段。包含多核苷酸的样品中的肿瘤负荷可以被估计为携带变体的序列读段的相对数目与从该样品生成的序列读段的总数目的比率。而且,在拷贝数变体的情况下,肿瘤负荷可以被估计为测试基因座与对照基
因座的序列读段总数目的相对过量(在基因复制的情况下)或相对缺乏(在基因消除的情况下)。因此,例如,运行可以产生映射至癌基因基因座的1000个读段,其中900个对应于野生型,并且100个对应于癌症突变体,表明肿瘤负荷为10%。下文在图2-4中讨论关于遗传物质的示例性收集和测序的更多细节。
136.接下来,对遗传信息进行处理(2)。然后鉴定遗传变体。例如,如果它为常见的遗传变体,变体可以是单核苷酸多态性(snp);在它为稀有遗传变体的情况下,变体可以是突变或拷贝数变异。然后该过程确定包含遗传物质的样品中的遗传变体的频率。由于该过程为噪声的,该过程将信息与噪声分开(3)。
137.测序方法具有错误率。例如,illumina的myseq系统可以产生低个位数的错误率百分比。因此,对于映射至基因座的1000个序列读段,人们可以期望约50个读段(约5%)包括错误。某些方法,诸如在wo 2014/149134(talasaz and eltoukhy)中描述的那些方法(其通过引用整体并入本文)可以显著降低错误率。错误产生噪声,致使来自样品中以低水平存在的癌症的信号模糊。因此,如果样品在测序系统错误率附近的水平(例如约0.1%-5%)具有肿瘤负荷,则可能难以将对应于由于癌症引起的遗传变体的信号与由噪声引起的信号区分开。
138.甚至在噪声的存在下,也可以通过分析遗传变体做出癌症诊断。分析可以基于序列变体的频率或cnv的水平(4),并且可以建立用于检测在噪声范围内的遗传变体的诊断置信度指示或水平(5)。
139.接下来,该过程增加了诊断置信度。这可以通过以下做出:使用多于一个测量来增加诊断的置信度(6),或者可选地,使用在多于一个时间点的测量来确定癌症是否进展、缓解或稳定(7)。
140.诊断置信度可以用来鉴定疾病状态。例如,从受试者取得的无细胞多核苷酸可以包括源自正常细胞的多核苷酸,以及源自病变细胞诸如癌细胞的多核苷酸。来自癌细胞的多核苷酸可以携带遗传变体,诸如体细胞突变和拷贝数变体。当来自受试者的样品的无细胞多核苷酸被测序时,这些癌症多核苷酸被检测为序列变体或作为拷贝数变体。无细胞多核苷酸的样品中的肿瘤多核苷酸的相对量被称为“肿瘤负荷”。
141.对参数的测量,无论它们是否在噪声范围内,均可以提供置信区间。随时间推移进行测试,人们可以通过比较随时间推移的置信区间确定癌症是否进展、稳定或缓解。在置信区间不重叠的情况下,这指示疾病的方向。
142.图1b示出了减少可能比可靠地检测出与癌症相关的从头基因组改变所需要的高几个数量级的错误率和偏倚的第二示例性系统。这通过以下做出:通过遗传分析仪,例如,dna测序仪由样本生成序列读段(10)。然后系统在两个或更多个样品或时间点表征受试者的遗传信息(12)。接下来,系统使用来自两个或更多个采样点或时间点的信息来产生表征受试者的遗传信息中的调整的测试结果(14)。
143.测试结果可以通过增强或消除置信度指示来调整。例如,该过程包括如果来自第一时间点的信息证实了来自第二时间点的信息,则增加随后表征或先前表征中的诊断置信度指示。可选地,如果来自第一时间点的信息证实了来自第二时间点的信息,则该过程可以增加随后表征中的诊断置信度指示。如果来自第一时间点的信息与来自第二时间点的信息冲突,则随后表征中的诊断置信度指示可以被降低。可选地,该过程可以在随后表征中保留
诊断置信度指示不变用于从头信息。
144.在图1b的一个实施方案中,该系统将通过遗传分析仪(例如,dna测序仪)的当前序列读段与先前序列读段进行比较,并相应地更新诊断置信度指示。基于增强的置信度信号,系统准确地生成受试者中的细胞外多核苷酸的遗传谱,其中所述遗传谱包含由拷贝数变异和/或突变分析得到的多于一个数据。
145.图1c示出了减少可能比可靠地检测出与癌症相关的从头基因组改变所需要的高几个数量级的错误率和偏倚的第三示例性系统。作为一个非限制性的实例,该系统通过对无细胞核酸进行测序来进行癌症检测,其中对一组至少10个、25个、50个或100个基因的任一种中的每一个基因的至少一部分进行测序(20);将当前序列读段与先前序列读段进行比较并相应地更新诊断置信度指示(22)。然后该系统基于当前序列读段的诊断置信度指示来检测个体中遗传改变的存在或不存在和/或遗传变异的量(24)。
146.图1d示出了减少可能比可靠地检测出与癌症相关的从头基因组改变所需要的高几个数量级的错误率和偏倚的另一个示例性系统。该系统进行癌症检测,例如通过对无细胞核酸进行测序(30);通过dna测序仪将当前序列读段与先前序列读段进行比较,并且相应地更新诊断置信度,每一个共有序列对应于一组加标签的亲本多核苷酸中的独特多核苷酸(32);以及产生受试者中的细胞外多核苷酸的遗传谱,其中所述遗传谱包含由拷贝数变异或稀有突变分析得到的多于一个数据(34)。
147.图1a-1d的系统以高灵敏度检测初始遗传物质的样品中的遗传变异。该方法涉及使用以下工具的一个至三个:第一,将初始遗传物质的样品中的个体多核苷酸有效转化为测序就绪的加标签的亲本多核苷酸,以便增加初始遗传物质的样品中的个体多核苷酸将在测序就绪的样品中呈现的概率。这可以产生关于初始样品中的更多多核苷酸的序列信息。第二,通过从加标签的亲本多核苷酸扩增的子代多核苷酸的高速率采样,以及将生成的序列读段叠并为呈现亲本加标签的多核苷酸的序列的共有序列,来高产量地生成加标签的亲本多核苷酸的共有序列。这可以减少由扩增偏倚和/或测序错误引入的噪声并且可以增加检测的灵敏度。第三,突变和拷贝数变异的检测中的噪声通过以下来减少:将先前的样品分析与当前的样品进行比较,并且如果在先前的分析中已经出现相同的突变和拷贝数变异则增加诊断置信度指示,并且否则如果这是第一次观察到该序列则降低诊断置信度指示。
148.该系统以高灵敏度检测初始遗传物质的样品中的遗传变异。在一个具体实施方式中,该系统操作包括样品制备或者从体液中提取和分离无细胞多核苷酸序列;随后通过本领域利用的技术对无细胞多核苷酸进行测序;以及应用生物信息学工具来检测与参考相比的突变和拷贝数变异。突变和拷贝数变异的检测通过以下来增强:将先前样品分析与当前样品进行比较,并且如果在先前分析中已经出现相同的突变和拷贝数变异则增加诊断置信度指示,否则如果这是第一次观察到该序列则降低诊断置信度指示或保持诊断置信度指示不变。该系统和方法还可以包含不同疾病的不同突变或拷贝数变异谱的数据库或集合,以便用作辅助疾病的突变检测、拷贝数变异谱分析或普通遗传谱分析的另外的参考。
149.在收集无细胞多核苷酸序列的测序数据之后,可以对该序列数据应用一个或更多个生物信息学过程,以检测遗传特征或变异,诸如拷贝数变异、突变或表观遗传标志物的改变,包括但不限于甲基化谱。在其中期望拷贝数变异分析的一些情况下,序列数据可以:1)与参考基因组进行比对;2)过滤和映射;3)分割为序列窗口或箱元(bin);4)对每一个窗口
的覆盖度读段进行计数;5)然后可以使用随机或统计建模算法对覆盖度读段进行归一化;6)以及可以生成输出文件,其反映在基因组中的多个位置处的离散的拷贝数状态。在其中期望突变分析的其他情况下,序列数据可以1)与参考基因组进行比对;2)过滤和映射;3)基于该特定碱基的覆盖度读段而计算变体碱基的频率;4)使用随机、统计或概率建模算法来对变体碱基频率进行归一化;以及5)可以生成输出文件,其反映在基因组中的多个位置处的突变状态。来自患者或受试者的当前和先前分析的时间信息用于增强分析和确定。
150.多种不同的反应和/或操作可以在本文公开的系统和方法中发生,包括但不限于:核酸测序、核酸定量、测序优化、检测基因表达、定量基因表达、基因组谱分析、癌症谱分析或表达的标志物的分析。此外,该系统和方法具有许多医学应用。例如,它可以用于多种遗传和非遗传疾病和紊乱(包括癌症)的鉴定、检测、诊断、治疗、监测、分期或风险预测。它可以用于评价受试者对遗传和非遗传疾病的不同治疗的响应,或提供关于疾病进展和预后的信息。
151.多核苷酸分离和提取
152.本公开内容的系统和方法在核酸(包括无细胞多核苷酸)的操作、制备、鉴定和/或定量中可以具有广泛用途。核酸或多核苷酸的实例包括但不限于:dna、rna、扩增子、cdna、dsdna、ssdna、质粒dna、粘粒dna、高分子量(mw)dna、染色体dna、基因组dna、病毒dna、细菌dna、mtdna(线粒体dna)、mrna、rrna、trna、nrna、sirna、snrna、snorna、scarna、微小rna、dsrna、核酶、核糖开关和病毒rna(例如,逆转录病毒rna)。
153.无细胞多核苷酸可以源自多种来源,包括人类、哺乳动物、非人类哺乳动物、猿、猴、黑猩猩、爬行动物、两栖动物或禽类来源。此外,样品可以从多种包含无细胞序列的动物流体来提取,所述动物流体包括但不限于血液、血清、血浆、玻璃质、痰液、尿液、泪、汗液、唾液、精液、粘膜分泌物、粘液、脊髓液、羊水、淋巴液等。无细胞多核苷酸可以是胎儿来源的(经由从妊娠受试者取得的流体),或可以源自受试者自身的组织。
154.无细胞多核苷酸的分离和提取可以通过使用多种技术收集体液来进行。在一些情况下,收集可以包括使用注射器从受试者抽吸体液。在其他情况下,收集可以包括移液或直接收集流体到收集容器中。
155.在收集体液之后,可以使用本领域利用的多种技术分离和提取无细胞多核苷酸。在一些情况下,可以使用商购可得的试剂盒诸如qiagen circulating nucleic acid试剂盒方案分离、提取和制备无细胞dna。在其他实例中,可以使用qiagen qubit
tm
dsdna hs测定试剂盒方案、agilent
tm dna 1000试剂盒或truseq
tm
sequencing library preparation;low-throughput(lt)方案。
156.通常,通过分割步骤(partitioning step)从体液中提取和分离无细胞多核苷酸,在该分割步骤中,如在溶液中发现的无细胞dna与细胞和体液的其他不可溶性组分分开。分割可以包括但不限于技术诸如离心或过滤。在其他情况下,细胞并非首先与无细胞dna分割,而是经裂解。在该实例中,完整细胞的基因组dna通过选择性沉淀来分割。无细胞多核苷酸(包括dna)可以保持可溶性并可以与不可溶性基因组dna分开并被提取。通常,在添加不同试剂盒特定的缓冲液和其他洗涤步骤之后,可以使用异丙醇沉淀来沉淀dna。可以使用进一步的清洁步骤诸如基于二氧化硅的柱以去除污染物或盐。可以针对特定应用优化一般步骤。例如,可以在整个反应中添加非特异性批量(bulk)载体多核苷酸以优化该程序的某些
方面诸如收率。
157.无细胞dna的分离和纯化可以使用任何方法来完成,所述方法包括但不限于使用由公司诸如sigma aldrich、life technologies、promega、affymetrix、ibi等提供的商业试剂盒和方案。试剂盒和方案还可以是非商购可得的。
158.在分离之后,在一些情况下,无细胞多核苷酸在测序前与一种或更多种另外的物质诸如一种或更多种试剂(例如,连接酶、蛋白酶、聚合酶)预混合。
159.一种增加转化效率的方法涉及使用针对在单链dna上的最佳反应性而工程化的连接酶,诸如thermophage ssdna连接酶衍生物。此类连接酶绕过文库制备中末端修复和a加尾的传统步骤——该步骤由于中间清洁步骤而可能具有较差的效率和/或累积的损失,并允许有义或反义起始多核苷酸被转化为适当地加标签的多核苷酸的概率加倍。它还转化可以具有突出端的双链多核苷酸,该突出端可能无法通过通常的末端修复反应充分地平端化。用于该ssdna反应的最佳反应条件为:1x反应缓冲液(50mm mops(ph 7.5)、1mm dtt、5mm mgcl2、10mm kcl)。在65℃,将200pmol 85nt ssdna寡聚体和5u ssdna连接酶与50mm atp、25mg/ml bsa、2.5mm mncl2孵育1小时。随后使用pcr扩增可以进一步将加标签的单链文库转化为双链文库并产生远高于20%的总转化效率。将转化率增加至例如高于10%的其他方法包括例如,单独的或组合的以下的任何方法:退火优化的分子倒位探针、具有良好控制的多核苷酸大小范围的平端连接、粘端连接或者使用或不使用融合引物的预先(upfront)多重扩增步骤。
160.无细胞多核苷酸的分子条形码化
161.本公开内容的系统和方法还可以使无细胞多核苷酸能够被加标签或追溯以允许随后对特定多核苷酸的鉴定和起源确定。这一特征与使用汇集的或多重反应物的且仅提供作为多个样品的平均值的测量或分析的其他方法不同。在此,将标识符指定至个体多核苷酸或多核苷酸的亚组可以允许将独特的身份(identity)指定至个体序列或序列的片段。这可以允许从个体样品获取数据而不限于样品的平均值。
162.在一些实例中,源自单链的核酸或其他分子可以共享共同的标签或标识符并因此可以随后被鉴定为源自该链。类似地,来自核酸的单链的所有片段可以用相同的标识符或标签来加标签,从而允许随后鉴定来自该亲本链的片段。在其他情况下,可以对基因表达产物(例如,mrna)加标签以对表达进行定量,藉以可以对条形码或对条形码与其所附接的序列的组合进行计数。仍在其他情况下,该系统和方法可以用作pcr扩增控制。在此类情况下,来自pcr反应的多个扩增产物可以用相同的标签或标识符进行加标签。如果该产物随后被测序并表现出序列差异,则在具有相同标识符的产物间的差异可以归因于pcr错误。
163.另外,可以基于读段自身的序列数据的特征鉴定个体序列。例如,在个体测序读段的开始(起始)和结束(终止)部分的独特序列数据的检测可以单独地使用,或与每一个序列读段独特序列的长度或碱基对数目相组合地使用,以将独特的身份指定至个体分子。来自已经指定了独特身份的核酸单链的片段可以从而允许随后鉴定来自该亲本链的片段。这可以与瓶颈化初始起始遗传物质结合使用以限制多样性。
164.此外,使用在个体测序读段的开始(起始)和结束(终止)部分的独特序列数据和测序读段长度可以单独地使用或与条形码的使用组合地使用。在一些情况下,条形码可以如本文描述为独特的。在其他情况下,条形码自身可以不是独特的。在此情况下,非独特条形
码的使用与在个体测序读段的开始(起始)和结束(终止)部分的序列数据以及测序读段长度组合可以允许将独特的身份指定至个体序列。类似地,来自已经指定了独特身份的核酸单链的片段可以从而允许随后鉴定来自该亲本链的片段。
165.通常,本文提供的方法和系统对于制备无细胞多核苷酸序列以用于下游应用测序反应是有用的。测序方法可以是经典的sanger测序。测序方法可以包括但不限于:高通量测序、焦磷酸测序、边合成边测序、单分子测序、纳米孔测序、半导体测序、边连接边测序、边杂交边测序、rna-seq(illumina)、数字基因表达(helicos)、新一代测序、单分子边合成边测序(smss)(helicos)、大规模并行测序、克隆单分子阵列(solexa)、鸟枪法测序、maxim-gilbert测序、引物步移、和本领域中已知的任何其他测序方法。
166.将条形码指定至无细胞多核苷酸序列
167.本文公开的系统和方法可以用于涉及将独特或非独特标识符或分子条形码指定至无细胞多核苷酸的应用。标识符可以是用于对多核苷酸加标签的条形码寡核苷酸;但在一些情况下,使用不同的独特标识符。例如,在一些情况下,独特标识符为杂交探针。在其他情况下,独特标识符为染料,在此情况下,附接可以包括将染料嵌入到分析物分子中(诸如嵌入到dna或rna中)或结合至用染料加标签的探针。仍在其他情况下,独特标识符可以是核酸寡核苷酸,在此情况下,与多核苷酸序列附接可以包括在寡核苷酸与序列之间的连接反应或通过pcr掺入。在其他情况下,反应可以包括向分析物直接添加金属同位素或通过用同位素加标签的探针添加。通常,在本公开内容的反应物中的独特或非独特标识符或分子条形码的指定可以遵循由例如以下描述的方法和系统:美国专利公布第2001/0053519号、第2003/0152490号、第2011/0160078号、和美国专利第6,582,908号,其各自通过引用整体并入本文。
168.该方法可以包括通过酶促反应(包括但不限于连接反应)将寡核苷酸条形码附接至核酸分析物。例如,连接酶可以将dna条形码共价附接至片段化的dna(例如,高分子量dna)。在条形码附接后,分子可以经历测序反应。
169.然而,也可以使用其他反应。例如,包含条形码序列的寡核苷酸引物可以用于dna模板分析物的扩增反应(例如,pcr、qpcr、逆转录酶pcr、数字pcr等)中,从而产生加标签的分析物。在将条形码指定至个体无细胞多核苷酸序列之后,可以对分子汇集物进行测序。
170.在一些情况下,pcr可以用于无细胞多核苷酸序列的全局扩增。这可以包括使用衔接子序列,该衔接子序列可以首先与不同的分子连接,随后使用通用引物进行pcr扩增。用于测序的pcr可以使用任何方法进行,所述方法包括但不限于使用由nugen(wga试剂盒)、life technologies、affymetrix、promega、qiagen等提供的商业试剂盒。在其他情况下,可以仅扩增在无细胞多核苷酸分子群体中的某些靶分子。特定的引物,可以与衔接子结合连接,可以用于选择性扩增某些靶以用于下游测序。
171.可以将独特标识符(例如,寡核苷酸条形码、抗体、探针等)随机地或非随机地引入至无细胞多核苷酸序列中。在一些情况下,它们以独特标识符与微孔的预期比率引入。例如,可以加载独特标识符使得每基因组样品加载多于约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、50个、100个、500个、1000个、5000个、10000个、50,000个、100,000个、500,000个、1,000,000个、10,000,000个、50,000,000个或1,000,000,000个独特标识符。在一些情况下,可以加载独特标识符使得每基因组样品加载少于约2个、3个、4个、5个、6个、7
个、8个、9个、10个、20个、50个、100个、500个、1000个、5000个、10000个、50,000个、100,000个、500,000个、1,000,000个、10,000,000个、50,000,000个或1,000,000,000个独特标识符。在一些情况下,每样品基因组加载的独特标识符的平均数目少于或大于每基因组样品的约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、50个、100个、500个、1000个、5000个、10000个、50,000个、100,000个、500,000个、1,000,000个、10,000,000个、50,000,000个或1,000,000,000个独特标识符。
172.在一些情况下,独特标识符可以是多种长度,使得每一个条形码为至少约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、50个、100个、500个、1000个碱基对。在其他情况下,条形码可以包含少于1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、50个、100个、500个、1000个碱基对。
173.在一些情况下,独特标识符可以是预定的或者是随机的或半随机的序列寡核苷酸。在其他情况下,可以使用多于一个条形码使得条形码在所述多于一个条形码中相对于彼此不必是独特的。在该实例中,条形码可以与个体分子连接,使得条形码和可以与其连接的序列的组合产生可以被单独地追溯的独特序列。如本文描述的,非独特条形码的检测与在序列读段的开始(起始)和结束(终止)部分的序列数据组合可以允许将独特的身份指定至特定分子。个体序列读段的长度或碱基对数目也可以用于将独特身份指定至此类分子。如本文描述的,来自已经指定了独特身份的核酸单链的片段可以从而允许随后鉴定来自该亲本链的片段。以此方法,样品中的多核苷酸可以被独特地或基本独特地加标签。
174.独特标识符可以用于对宽范围的分析物加标签,包括但不限于rna或dna分子。例如,独特标识符(例如,条形码寡核苷酸)可以被附接至核酸的整条链或附接至核酸的片段(例如,片段化的基因组dna、片段化的rna)。独特标识符(例如,寡核苷酸)还可以与基因表达产物、基因组dna、线粒体dna、rna、mrna等结合。
175.在许多应用中,确定个体无细胞多核苷酸序列是否各自接受不同的独特标识符(例如,寡核苷酸条形码)可能是重要的。如果引入到系统和方法的独特标识符群体不为显著多样的,则不同的分析物可能被相同的标识符加标签。本文公开的系统和方法可以使得能够检测用相同标识符加标签的无细胞多核苷酸序列。在一些情况下,参考序列可以与待分析的无细胞多核苷酸序列群体一同包含在内。参考序列可以是例如具有已知序列和已知量的核酸。如果独特标识符为寡核苷酸条形码且分析物为核酸,则可以随后对加标签的分析物进行测序和定量。这些方法可以指示一个或更多个片段和/或分析物是否已经被指定了相同的条形码。
176.本文公开的方法可以包括利用对于将条形码指定至分析物所必需的试剂。在连接反应的情况下,可以将试剂加载到系统和方法中,所述试剂包括但不限于连接酶、缓冲液、衔接子寡核苷酸、多于一个独特标识符dna条形码等。在富集的情况下,试剂可以用于准备测序,所述试剂包括但不限于多于一个pcr引物、包含独特的鉴定序列的寡核苷酸、或条形码序列、dna聚合酶、dntp和缓冲液等。
177.通常,本公开内容的方法和系统可以利用美国专利us 7,537,897的方法以使用分子条形码对分子或分析物进行计数,该专利通过引用整体并入本文。
178.在包含来自多于一个基因组的片段化基因组dna,例如无细胞dna(cfdna)的样品中,存在一定的似然性:来自不同的基因组的多于一个多核苷酸会具有相同的起始和终止
位置(“复制物(duplicates)”或“同源物(cognates)”)。在任何位置处开始的复制物的可能数目为样品中单倍体基因组当量的数目和片段大小的分布的函数。例如,cfdna在约160个核苷酸处具有片段峰,且在此峰中的大部分片段的范围为约140个核苷酸至180个核苷酸。相应地,来自具有约30亿个碱基的基因组(例如,人类基因组)的cfdna可以包含几乎2千万(2x107)个多核苷酸片段。具有约30ng dna的样品可以包含约10,000个单倍体人类基因组当量。(类似地,具有约100ng dna的样品可以包含约30,000个单倍体人类基因组当量。)包含约10,000(104)个单倍体基因组当量的此dna的样品可以具有约2000亿(2x10
11
)个个体多核苷酸分子。已经经验地确定,在具有约10,000个单倍体基因组当量的人类dna的样品中,存在在任何给定位置处开始的约3个复制物多核苷酸。因此,此类集合可以包含约6x10
10
至8x10
10
(约600亿至800亿,例如,约700亿(7x10
10
))个不同测序的多核苷酸分子的多样性。
179.正确鉴定分子的概率取决于基因组当量的初始数目、所测序的分子的长度分布、序列均匀度(sequence uniformity)和标签的数目。当标签计数等于1时,即等同于不具有独特的标签或未加标签。下表列出了假定有如以上的通常的无细胞大小分布,正确地将分子鉴定为独特的概率。
[0180][0181][0182]
在此情况下,在对基因组dna进行测序后,也许不能确定哪些序列读段来自哪些亲本分子。该问题可以通过以下来降低:用足够数目的独特标识符对亲本分子加标签(例如,标签计数),使得存在两个复制物分子(即,具有相同起始和终止位置的分子)携带不同的独特标识符的似然性,使得序列读段可追溯至特定的亲本分子。该问题的一个解决方法为将样品中的每一个或几乎每一个不同的亲本分子独特地加标签。然而,根据单倍体基因当量的数目和样品中的片段大小的分布,这可能需要数十亿不同的独特标识符。
[0183]
以上方法可能是繁杂和昂贵的。基因组核酸样品(例如,基因组dna样品)中的个体多核苷酸片段能够通过用非独特标识符加标签,例如,对该个体多核苷酸片段非独特地加标签,而独特地鉴定。如本文使用的,如果分子的集合中至少95%的分子的每一个携带不被
该集合中的任何其他分子所共享的鉴定标签(“标识符”),则该集合可以被认为是“独特地加标签的”(“独特标签”或“独特标识符”)。对于独特标签,标签的数目可以少于样品中独特分子的数目。对于独特标签,标签的数目可以少于样品中分子数目的10%。对于独特标签,标签的数目可以少于样品中分子数目的1%。如果分子的集合中的分子的至少1%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%或至少50%或约50%的每一个携带被该集合中的至少一个其他分子所共享的鉴定标签,则可以认为该集合是“非独地特加标签的”(“非独特标签”或“非独特标识符”)。在一些实施方案中,对于非独特地加标签的群体,不多于1%、5%、10%、15%、20%、25%、30%、35%、40%、45%或50%的分子为独特地加标签的。在一些实施方案中,对于独特的加标签,相比样品中的分子的估计数目,使用至少两倍的不同标签。用于对集合中的分子加标签的不同鉴定标签的数目的范围可以,例如在该范围的下限(low end)处的2、4、8、16或32中的任一个与在该范围的上限(high end)处的50、100、500、1000、5000和10,000中的任一个之间。因此,例如,在1亿个与1万亿个分子之间的集合可以用在4个与100个之间的不同的鉴定标签来加标签。
[0184]
本公开内容提供了方法和组合物,其中片段化基因组dna的样品中的多核苷酸群体用n个不同的独特标识符来加标签。在一些实施方案中,n至少为2且不多于100,000*z,其中z为具有相同起始和终止位置的复制物分子的预期数目的居中趋势度量(例如,平均值、中值、众数)。在一些实施方案中,z为1、2、3、4、5、6、7、8、9、10或多于10。在一些实施方案中,z少于10、少于9、少于8、少于7、少于6、少于5、少于4、少于3。在某些实施方案中,n至少为2*z、3*z、4*z、5*z、6*z、7*z、8*z、9*z、10*z、11*z、12*z、13*z、14*z、15*z、16*z、17*z、18*z、19*z、或20*z中的任一个(例如,下限(lower limit))。在其他实施方案中,n不大于100,000*z、10,000*z、1000*z或100*z(例如,上限(upper limit))。因此,n的范围可以在这些下限和上限的任何组合之间。在某些实施方案中,n在5*z与15*z之间、在8*z与12*z之间或为约10*z。例如,单倍体人类基因组当量具有约3皮克的dna。具有约1微克的dna的样品包含约300,000个单倍体人类基因组当量。在一些实施方案中,数字n可以在5与95、6与80、8与75、10与70、15与45之间、在24与36之间或为约30。在一些实施方案中,数字n少于96。例如,数字n可以大于或等于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、或95。在一些情形下,数字n可以大于0但少于100、99、98、97、96、95、94、93、92、91或90。在一些实例中,数字n为64。数字n可以少于75、少于50、少于40、少于30、少于20、少于10或少于5。只要至少部分的复制物或同源物多核苷酸携带独特标识符,即携带不同的标签,就可以实现测序的改进。然而,在某些实施方案中,选择所使用的标签的数目,使得所有包含相同的起始和终止序列的复制物分子携带独特标识符的机会至少为95%。
[0185]
一些实施方案提供了用于进行连接反应的方法,在该连接反应中,样品中的亲本多核苷酸与包含y个不同条形码寡核苷酸的反应混合物混合,其中y=n的平方根。该连接可以导致条形码寡核苷酸随机附接至样品中的亲本多核苷酸上。该反应混合物然后可以在足以实现条形码寡核苷酸与样品的亲本多核苷酸连接的连接条件下孵育。在一些实施方案
中,将选自y个不同条形码寡核苷酸的随机条形码与亲本多核苷酸的两个末端连接。y个条形码与亲本多核苷酸的一个或两个末端的随机连接可以导致产生y2个独特标识符。例如,包含约10,000个单倍体人类基因组当量的cfdna的样品可以用约36个独特标识符加标签。独特标识符可以包含6个独特dna条形码。6个独特条形码与多核苷酸的两个末端的连接可以导致产生36个可能的独特标识符。
[0186]
在一些实施方案中,包含约10,000个单倍体人类基因组当量的dna的样品用64个独特标识符加标签,其中这64个独特标识符通过将8个独特条形码与亲本多核苷酸的两个末端连接来产生。反应的连接效率可以超过10%、超过20%、超过30%、超过40%、超过50%、超过60%、超过70%、超过80%或超过90%。连接条件可以包括使用能够结合片段的任一末端并且仍可扩增的双向衔接子。连接条件可以包括平端连接,这不同于用叉形衔接子加尾。连接条件可以包括仔细滴定衔接子和/或条形码寡核苷酸的量。连接条件可以包括使用与反应混合物中的亲本多核苷酸片段的量相比超过2x、超过5x、超过10x、超过20x、超过40x、超过60x、超过80x(例如,~100x)摩尔过量的衔接子和/或条形码寡核苷酸。连接条件可以包括使用t4 dna连接酶(例如,nebnext ultra ligation module)。在一个实例中,将18微升连接酶主混合物与90微升连接(90份中的18份)和连接增强子一起使用。相应地,用n个独特标识符对亲本多核苷酸加标签可以包括使用数目为y的不同条形码,其中y=n的平方根。以此类方式加标签的样品可以是这样的样品:其具有范围为约10ng至约100ng、约1μg、约10μg中的任一个的片段化多核苷酸,例如,基因组dna,例如,cfdna。用于鉴定样品中的亲本多核苷酸的条形码的数目y可以取决于样品中的核酸的量。
[0187]
本公开内容还提供了加标签的多核苷酸的组合物。多核苷酸可以包含片段化的dna,例如cfdna。组合物中的映射至基因组中的可映射的碱基位置的一组多核苷酸可以被非独特地加标签,即不同标识符的数目可以是至少2且少于映射至可映射的碱基位置的多核苷酸的数目。约10ng至约10μg之间(例如,约10ng-1μg、约10ng-100ng、约100ng-10μg、约100ng-1μg、约1μg-10μg中的任一个)的组合物可以携带2个、5个、10个、50个或100个中的任一个至100个、1000个、10,000个或100,000个中的任一个之间的不同标识符。例如,5个与100个之间的不同的标识符可以用于对此类组合物中的多核苷酸加标签。
[0188]
图2示出了用于分析初始遗传物质的样品中多核苷酸的示例性过程。首先,提供包含初始遗传物质的样品,并且可以提取无细胞dna(50)。样品可以包含呈低丰度的靶核酸。例如,来自正常或野生型基因组(例如,种系基因组)的核酸可以在样品中占绝大多数,该样品还包括不多于20%、不多于10%、不多于5%、不多于1%、不多于0.5%或不多于0.1%的来自包含遗传变异的至少一个其他基因组(例如,癌症基因组或胎儿基因组或来自另一个个体或物种的基因组)的核酸。样品可以包含,例如,无细胞核酸或包含核酸的细胞,其中通过测序或遗传分析过程对原始多核苷酸进行适当的过采样。
[0189]
接下来,将初始遗传物质转化为一组加标签的亲本多核苷酸并测序以产生序列读段(52)。该步骤生成多于一个基因组片段序列读段。在一些情况下,这些序列读段可以包含条形码信息。在其他实例中,不利用条形码。加标签可包括将测序标签附接至初始遗传物质中的分子。可以选择测序标签,使得映射至同一参考序列中的所有独特多核苷酸具有独特的鉴定标签。转化可以以高效率例如至少50%进行。该组加标签的亲本多核苷酸可以被扩增,以产生一组扩增的子代多核苷酸。扩增可以是例如1000倍扩增。对该组扩增的子代多核
苷酸以一定采样速率进行采样以用于测序,使得产生的序列读段既(1)覆盖该组加标签的亲本多核苷酸中的靶数目的独特分子,又(2)以靶覆盖度倍数(例如,亲本多核苷酸的5倍至10倍覆盖度)覆盖该组加标签的亲本多核苷酸中的独特分子。叠并该组序列读段,以产生对应于独特加标签的亲本多核苷酸的一组共有序列。可以审查序列读段包含在分析中的资格。例如,不满足质量控制评分的序列读段可以从汇集物中去除。序列读段可以被分类为表示源自特定独特亲本分子的子代分子的读段的家族。例如,扩增的子代多核苷酸的家族可以构成源自单个亲本多核苷酸的那些扩增的分子。通过比较家族中的子代的序列,可以推断原始亲本多核苷酸的共有序列。这产生表示加标签的汇集物中的独特亲本多核苷酸的一组共有序列。
[0190]
接下来,该过程为序列指定置信度评分(54)。在测序之后,对读段指定质量评分。质量评分可以是读段的表示,其基于阈值指示这些读段是否可以用于随后的分析。在一些情况下,一些读段不具有足够的质量或长度来进行随后的映射步骤。可以将具有预定质量评分(例如,高于90%)的序列读段从数据中过滤掉。将满足规定的质量评分阈值的基因组片段读段映射至参考基因组或者已知不包含拷贝数变异的模板序列。在映射对齐之后,对序列读段指定映射评分。映射评分可以是映射回至参考序列的表示或读段,指示每一个位置是或者不是独特地可映射的。在一些情况下,读段可以是与拷贝数变异分析无关的序列。例如,一些序列读段可以源于污染物多核苷酸。具有至少90%、95%、99%、99.9%、99.99%或99.999%的映射评分的测序读段可以从数据集中过滤掉。在其他情况下,被指定了少于预定百分比的映射评分的测序读段可能从数据集中过滤掉。
[0191]
将满足规定的质量评分阈值的基因组片段读段映射至参考基因组或者已知不包含拷贝数变异的模板序列。在映射对齐之后,对序列读段指定映射评分。在一些情况下,读段可以是与拷贝数变异分析无关的序列。在数据过滤和映射之后,多于一个序列读段生成染色体区域覆盖度(chromosomal region of coverage)。可以将这些染色体区域划分为可变长度的窗口或箱元。窗口或箱元可以是至少5kb、10kb、25kb、30kb、35kb、40kb、50kb、60kb、75kb、100kb、150kb、200kb、500kb、或1000kb。窗口或箱元也可以具有多达5kb、10kb、25kb、30kb、35kb、40kb、50kb、60kb、75kb、100kb、150kb、200kb、500kb、或1000kb的碱基。窗口或箱元也可以是约5kb、10kb、25kb、30kb、35kb、40kb、50kb、60kb、75kb、100kb、150kb、200kb、500kb、或1000kb。
[0192]
对于覆盖度归一化,选择每一个窗口或箱元,以包含约相同数目的可映射的碱基。在一些情况下,在染色体区域中的每一个窗口或箱元可以包含确切数目的可映射的碱基。在其他情况下,每一个窗口或箱元可以包含不同数目的可映射的碱基。另外,每一个窗口或箱元可以与相邻的窗口或箱元不重叠。在其他情况下,窗口或箱元可以与另一个相邻的窗口或箱元重叠。在一些情况下,窗口或箱元可以重叠了至少1bp、2bp、3bp、4bp、5bp、10bp、20bp、25bp、50bp、100bp、200bp、250bp、500bp、或1000bp。
[0193]
在一些情况下,可以设置窗口区域的每一个的大小,使得它们包含约相同数目的独特的可映射的碱基。确定构成窗口区域的每一个碱基的可映射性(mappability),并且将其用于生成可映射性文件,所述可映射性文件包含来自参考的读段的表示,所述读段被映射回至每一个文件的参考。可映射性文件包含一行/每个位置,指示每一个位置是或者不是独特地可映射的。
[0194]
另外,在整个基因组中已知难以测序或包含基本上高gc偏倚的预定窗口可以被从数据集中过滤掉。例如,已知落在染色体的着丝粒附近的区域(即着丝粒dna)已知包含可以产生假阳性结果的高度重复序列。这些区域可以被过滤掉。基因组的其他区域,诸如包含异常高浓度的其他高度重复序列诸如微卫星dna的区域,可以被从数据集中过滤掉。
[0195]
所分析的窗口数目也可以不同。在一些情况下,分析至少10个、20个、30个、40个、50个、100个、200个、500个、1000个、2000个、5,000个、10,000个、20,000个、50,000个或100,000个窗口。在其他情况下,所分析的窗口数目为多达10个、20个、30个、40个、50个、100个、200个、500个、1000个、2000个、5,000个、10,000个、20,000个、50,000个或100,000个窗口。
[0196]
对于源自无细胞多核苷酸序列的示例性基因组,下一个步骤包括确定每一个窗口区域的读段覆盖度。这可以使用具有或不具有条形码的读段来进行。在不具有条形码的情况下,先前的映射步骤将提供不同碱基位置的覆盖度。可以对具有足够的映射和质量评分并落入未过滤掉的染色体窗口内的序列读段进行计数。可以按照每一个可映射位置给覆盖度读段的数目指定评分。在涉及条形码的情况下,具有相同条形码、物理特性或二者组合的所有序列可以被叠并为一个读段,因为它们均源自样品亲本分子。该步骤减少了可能在任何先前的步骤中,诸如涉及扩增的步骤期间已引入的偏倚。例如,如果一个分子被扩增10倍但另一个被扩增1000倍,则每一个分子在叠并之后仅被呈现一次,从而消除了不均匀扩增的效果。对每一个可映射位置可以仅对具有独特条形码的读段进行计数并且只有这些读段影响所指定的评分。出于该原因,条形码连接步骤以为了产生最低量的偏倚而优化的方式来进行是重要的。将针对每一个碱基的序列对齐为该特映射置的最主要的(dominant)核苷酸读段。此外,可以在每一个位置处对独特分子的数目进行计数,以得到在每一个位置处的同时定量。该步骤减少了可能在任何先前的步骤中,诸如涉及扩增的步骤期间已引入的偏倚。
[0197]
每一个窗口区域的离散拷贝数状态可以用于鉴定在染色体区域中的拷贝数变异。在一些情况下,具有相同拷贝数的所有相邻窗口区域可以被合并为一个区段,以报告拷贝数变异状态的存在或不存在。在一些情况下,多个窗口可以在它们与其他区段合并之前被过滤。
[0198]
在确定每一个窗口的核酸读段覆盖度时,每一个窗口的覆盖度可以通过该样品的平均覆盖度进行归一化。使用此类方法,可以期望在类似条件下对测试受试者和对照两者进行测序。对于每一个窗口的读段覆盖度然后可以被表示为在类似窗口中的比率。
[0199]
对于测试受试者的每一个窗口的核酸读段覆盖度比率可以通过将测试样品的每一个窗口区域的读段覆盖度除以对照样品的对应窗口区域的读段覆盖度来确定。
[0200]
接下来,该过程为患者查阅每一个读段家族的先前的置信度评分(58)。该信息被储存于数据库中。患者的测试结果的先前分析可以用于改善置信度评分,如图2中详细描述的。该信息用于基于序列读段家族间的置信度评分来推断在该组加标签的亲本多核苷酸中的基因座处每一个序列读段的频率(60)。然后用当前的置信度评分更新历史数据库以供将来使用(62)。以这种方式,可以由序列读段的家族生成共有序列以改进噪声消除。
[0201]
现在转向图3,该过程接收来自血液样品或其他身体样品的遗传物质(102)。该过程将来自遗传物质的多核苷酸转化为加标签的亲本核苷酸(104)。加标签的亲本核苷酸被扩增以产生扩增的子代多核苷酸(106)。对扩增的多核苷酸的子集进行测序以产生序列读
段(108),所述序列读段被分组为家族,每一个家族由独特的加标签的亲本核苷酸生成(110)。在选择的基因座处,该过程为每一个家族指定每一个家族的置信度评分(112)。接下来,使用先前读段来确定一致性(consensus)。这通过审查每一个家族的先前的置信度评分来完成,并且如果存在一致的先前的置信度评分,则增加当前的置信度评分(114)。在一个实施方案中,如果存在先前的置信度评分,但是它们不一致,则不修改当前的置信度评分(116)。在其他实施方案中,针对不一致的先前的置信度评分,以预定方式调整置信度评分。如果这是第一次检测到家族,则可以降低当前的置信度评分,因为这可能是假读段(118)。该过程可以基于置信度评分推断该组加标签的亲本多核苷酸中在基因座处的家族的频率(120)。
[0202]
尽管在图1a-1d和图2中时间信息已经被用于增强用于突变或拷贝数变异检测的信息,但可以应用其他一致的方法。在其他实施方案中,历史比较可以与映射至特定参考序列的其他共有序列结合使用以检测遗传变异的情况。可以测量映射至特定参考序列的共有序列并且相对于对照样品进行归一化。映射至参考序列的分子的度量可以在整个基因组上进行比较,以鉴定基因组中拷贝数变化或杂合性丢失的区域。一致方法包括例如,由数字通信理论、信息论或生物信息学得到的构建共有序列的线性或非线性方法(诸如选举、平均、统计、最大后验概率或最大似然性检测、动态编程、贝叶斯、隐马尔可夫或支持向量机方法等)。在已经确定序列读段覆盖度之后,应用随机建模算法将每一个窗口区域的归一化的核酸序列读段覆盖度转化为离散的拷贝数状态。在一些情况下,该算法可以包括以下中的一个或更多个:隐马尔可夫模型、动态编程、支持向量机、贝叶斯网络、网格解码、维特比解码、期望最大化、卡尔曼过滤方法和神经网络。
[0203]
在这之后,可以生成报告。例如,拷贝数变异可以被报告为图表,指示基因组中的不同位置以及在每一个对应位置处拷贝数变异的对应增加或降低或维持。另外,拷贝数变异可以用于报告百分比评分,指示在无细胞多核苷酸样品中存在多少疾病物质(或具有拷贝数变异的核酸)。
[0204]
在一个实施方案中,报告包括注释以帮助医师。注释可以包括为oncology
tm
的nccn临床实践指南或美国临床肿瘤学会(asco)临床实践指南中的状况注释报告。在报告中,注释可以包括列出一种或更多种用于非正式批准的(off-label)用途的fda批准的的药物、在医学保险和医学补助服务中心(a centers for medicare and medicaid services)(cms)抗癌治疗汇编中列出的一种或更多种药物、和/或在科学文献中发现的一种或更多种实验药物。注释可以包括将列出的药物治疗选项连接至包含关于药物治疗选项的科学信息的参考文献。科学信息可以来自医学期刊的同行评议(peer-reviewed)文章。注释可以包括使用由系统提供的信息。在报告中,注释可以包括提供关于药物治疗选项的临床试验信息的链接。在基于电子的报告中,注释可以包括在提供的药物治疗选项附近的弹出框(pop-up box)或悬浮框(fly-over box)中呈现信息。注释可以包括将选自由以下组成的组的信息添加至报告:一个或更多个药物治疗选项、关于一个或更多个药物治疗选项的科学信息、关于一个或更多个药物治疗选项的科学信息的一个或更多个链接、关于一个或更多个药物治疗选项的科学信息的引用的一个或更多个链接、以及关于一个或更多个药物治疗选项的临床试验信息。
[0205]
如在图4中描绘的,序列覆盖度与对照样品或参考序列的比较可以有助于在整个
窗口上的归一化。在该实施方案中,无细胞dna被从容易获得的体液诸如血液中提取和分离。例如,无细胞dna可以使用本领域中已知的多种方法进行提取,所述多种方法包括但不限于异丙醇沉淀和/或基于二氧化硅的纯化。无细胞dna可以从任何数目的受试者中提取,诸如未患有癌症的受试者、处于患癌风险的受试者或已知患有癌症的受试者。
[0206]
在分离/提取步骤后,可对无细胞多核苷酸样品进行许多不同测序操作中任何操作。样品在测序之前可以用一种或更多种试剂(例如,酶、独特标识符(例如条形码)、探针等)进行处理。在一些情况下,如果用独特标识符诸如条形码处理样品,则该样品或该样品的片段可以用独特标识符单独地或成亚组地(in subsets)加标签。加标签的样品然后可以用于下游应用,诸如测序反应,藉此可以将个体分子追溯至亲本分子。
[0207]
通常,如在图4中示出的,可以对纯化和分离的基因组或转录物组的选择性富集区域进行突变检测(302)。如本文描述的,可以从无细胞多核苷酸的总群体中选择性地扩增特定区域,所述特定区域可以包括但不限于基因、癌基因、肿瘤抑制基因、启动子、调节序列元件、非编码区、mirna、snrna等。这可以如本文描述来进行。在一个实例中,在使用或不使用针对个体多核苷酸序列的条形码标记物下,可以使用多重测序。在其他实例中,测序可以使用本领域中已知的任何核酸测序平台来进行。该步骤生成多于一个基因组片段序列读段(304)。另外,参考序列获自从另一个受试者取得的对照样品。在一些情况下,对照受试者可以是已知不具有已知遗传变异或疾病的受试者。在一些情况下,这些序列读段可以包含条形码信息。在其他实例中,不利用条码。又在其他实例中,使用非独特序列标签。
[0208]
在测序之后,对读段指定质量评分。质量评分可以是读段的表示,其基于阈值指示这些读段是否可以用于随后的分析。在一些情况下,一些读段不具有足够的质量或长度来进行随后的映射步骤。在步骤306中,将满足规定的质量评分阈值的基因组片段读段映射至已知不包含突变的参考基因组或参考序列。在映射对齐之后,对序列读段指定映射评分。映射评分可以是映射回至参考序列的表示或读段,指示每一个位置是或者不是独特地可映射的。在一些情况下,读段可能是与突变分析无关的序列。例如,一些序列读段可以源于污染物多核苷酸。具有至少90%、95%、99%、99.9%、99.99%或99.999%的映射评分的测序读段可能从数据集中过滤掉。在其他情况下,被指定了少于90%、95%、99%、99.9%、99.99%或99.999%的映射评分的测序读段可能从数据集中过滤掉。
[0209]
对于每一个可映射的碱基,不满足可映射性的最小阈值的碱基或低质量碱基可以被替代为如在参考序列中发现的对应碱基。
[0210]
在可以确定读段覆盖度并鉴定了在每一个读段中相对于对照序列的变体碱基之后,变体碱基的频率可以被计算为包含变体的读段的数目除以读段的总数目(308)。这可以被表示为在基因组中的每一个可映射位置的比率。
[0211]
对于每一个碱基位置,与参考序列相比,分析所有四种核苷酸即胞嘧啶、鸟嘌呤、胸腺嘧啶、腺嘌呤的频率(310)。随机或统计建模算法用于将每一个可映射位置的归一化比率转化为反映每一个碱基变异体的频率状态。在一些情况下,该算法可以包括以下中的一个或更多个:隐马尔可夫模型、动态编程、支持向量机、贝叶斯或概率建模、网格解码、维特比解码、期望最大化、卡尔曼过滤方法和神经网络。
[0212]
每一个碱基位置的离散突变状态可以用于鉴定与参考序列的基线相比具有高变异频率的碱基变体。在一些情况下,基线可能表示至少0.0001%、0.001%、0.01%、0.1%、
1.0%、2.0%、3.0%、4.0%、5.0%、10%或25%的频率。在其他情况下,基线可能表示至少0.0001%、0.001%、0.01%、0.1%、1.0%、2.0%、3.0%、4.0%、5.0%、10%或25%的频率。在一些情况下,具有碱基变体或突变的所有相邻碱基位置可以被合并为一个区段,以报告突变的存在或不存在。在一些情况下,多个位置可以在它们与其他区段合并之前被过滤。
[0213]
在计算每一个碱基位置的变异频率之后,源自受试者的序列中的特定位置的与参考序列相比具有最大偏差的变体被鉴定为突变。在一些情况下,突变可以是癌症突变。在其他情况下,突变可以与疾病状态相关。
[0214]
突变或变体可以包括遗传畸变,所述遗传畸变包括但不限于单个碱基置换、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、dna损伤、核酸化学修饰的异常改变、表观遗传模式的异常改变和核酸甲基化的异常改变。在一些情况下,突变可以是至多1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、15个或20个核苷酸的长度。在其他情况下,突变可以是至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、15个或20个核苷酸的长度。
[0215]
接下来,使用先前读段来确定一致性。这通过审查对应碱基的先前的置信度评分来完成,并且如果存在一致的先前的置信度评分,则当前的置信度评分被增加(314)。在一个实施方案中,如果存在先前的置信度评分,但是它们不一致,则不修改当前的置信度评分(316)。在其他实施方案中,针对不一致的先前的置信度评分,以预定方式调整置信度评分。如果这是第一次检测到家族,则可以降低当前的置信度评分,因为这可能是假读段(318)。该过程然后将变异频率/每一个碱基转化为每一个碱基位置的离散变体状态(320)。
[0216]
突变的存在或不存在可以以图形形式反映,指示基因组中的不同位置以及在每一个对应位置处的突变频率的对应增加或降低或维持。另外,突变可以用于报告百分比评分,指示在无细胞多核苷酸样品中存在多少疾病物质。鉴于已知的非疾病参考序列中报告的位置处的通常变异的统计数据,置信度评分可以伴随每一个检测到的突变。突变还可以按照在受试者中的丰度的顺序排序或按照临床可发挥作用的(actionable)重要性排序。
[0217]
接下来,详细描述该技术的应用。一个应用为癌症的检测。许多癌症可以使用本文描述的方法和系统来检测。癌细胞,如大部分细胞一样,可以用更新率表征,其中旧细胞死亡并被较新的细胞代替。通常,与给定受试者中的脉管系统相接触的死亡的细胞可以将dna或dna片段释放至血流中。在疾病不同时期中的癌细胞也是如此。根据疾病的时期,癌细胞还可以表征为多种遗传变异,诸如拷贝数变异以及突变。这种现象可以用于使用本文描述的方法和系统检测癌症个体的存在或不存在。
[0218]
例如,可以从处于患癌风险的受试者抽取血液并如本文描述地制备以生成无细胞多核苷酸群体。在一个实例中,这可以是无细胞dna。本公开内容的系统和方法可以用于检测可存在于某些现有癌症中的突变或拷贝数变异。该方法可以帮助检测身体中癌细胞的存在,即使不存在疾病的症状或其他标志(hallmarks)。
[0219]
可以被检测到的癌症的类型和数目可以包括但不限于血癌、脑癌、肺癌、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、实体瘤(solid state tumors)、异质肿瘤、均质肿瘤等。
[0220]
在癌症的早期检测中,本文描述的任何系统或方法(包括突变检测或拷贝数变异
检测)可以用于检测癌症。这些系统和方法可以用于检测可能导致或起因于癌症的任何数目的遗传变异。这些可以包括点不限于突变、得失位、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、dna损伤、核酸化学修饰的异常改变、表观遗传模式的异常改变、核酸甲基化的异常改变、感染及癌症。
[0221]
另外,本文描述的系统和方法还可以用于帮助表征某些癌症。由本公开内容的系统和方法产生的遗传数据可以允许帮助从业者更好地表征具体形式的癌症。癌症在组成和分期两者方面可能是异质的。遗传谱数据可以允许表征癌症的具体亚型,该表征在该具体亚型的诊断或治疗中可能是重要的。该信息还可以为受试者或从业者提供关于癌症具体类型的预后的线索。
[0222]
本文提供的系统和方法可以用于监测特定受试者中的癌症或其他疾病。这可以允许受试者或从业者根据疾病的进展调整治疗选项。在该实例中,本文描述的系统和方法可用于构建疾病进程中特定受试者的遗传谱。在一些情况下,癌症可以进展,变成更具侵袭性和遗传上不稳定性。在其他实例中,癌症可以保持为良性的、非活动的、或休眠的。本公开内容的系统和方法可以用于确定疾病进展。
[0223]
此外,本文描述的系统和方法可以用于确定特定治疗选项的功效。在一个实例中,如果治疗成功,则成功的治疗选项可以实际上增加在受试者血液中检测到的拷贝数变异或突变的量,因为更多的癌症可能死亡并使dna脱落。在其他实例中,这可能不会发生。在另一个实例中,也许某些治疗选项可能与癌症随时间推移的遗传谱相关联。这种相关性可以用于选择疗法。另外,如果观察到癌症在治疗之后减退,则本文描述的系统和方法可以用于监测剩余的疾病或疾病的复发。
[0224]
本文描述的方法和系统可以不限于仅与癌症相关的突变和拷贝数变异的检测。多种其他疾病和感染可能导致其他类型的状况,这可以适用于早期检测和监测。例如,在某些情况下,遗传紊乱或传染性疾病可能在受试者中引起某些遗传镶嵌现象(genetic mosaicism)。这种遗传镶嵌现象可以引起可观察到的拷贝数变异和突变。在另一个实例中,本公开内容的系统和方法也可以用于监测身体内免疫细胞的基因组。当存在某些疾病后,免疫细胞,诸如b细胞,可以经历快速克隆扩增。克隆扩增可以使用拷贝数变异检测来监测并且可以监测某些免疫状态。在该实例中,拷贝数变异分析可以随时间推移而进行,以产生特定疾病可能如何进展的谱。
[0225]
此外,本公开内容的系统和方法还可以用于监测自身的系统性感染,其可以由病原体诸如细菌或病毒引起。拷贝数变异或甚至突变检测可以用于确定病原体群体在感染过程期间是如何改变的。这在慢性感染诸如hiv/aids或肝炎感染期间可能特别重要,其中病毒可以在感染过程期间改变生命周期状态和/或突变为毒力更强的形式。
[0226]
可以使用本公开内容的系统和方法的又另一个实例为监测移植受试者。通常,移植组织在移植后经历一定程度的身体排斥。当免疫细胞试图破坏移植组织时,本公开内容的方法可以用于确定或谱分析宿主体的排斥活动。这可以用于监测移植组织的状态以及改变治疗过程或预防排斥。
[0227]
此外,本公开内容的方法可以用于表征受试者中的异常状况的异质性,所述方法包括生成受试者中的细胞外多核苷酸的遗传谱,其中所述遗传谱包含由拷贝数变异和突变
network(nccn)、journal of urology、lancet、lancet oncology、leukemia、the new england journal of medicine、和radiation oncology。
[0234]
药物治疗选项可以通过提供基于电子报告的链接来连接列出的药物与关于该药物的科学信息来注释。例如,可以提供关于药物临床试验信息的链接(clinicaltrials.gov)。如果报告经由计算机或计算机网站来提供,则链接可以是脚注、至网站的超链接、具有信息的弹出框或悬浮框等。报告和注释信息可以以印刷形式提供,并且注释可以是,例如,参考的脚注。
[0235]
在报告中,用于注释一个或更多个药物治疗选项的信息可以由存储科学信息的商业实体,例如,系统来提供。健康护理提供者可以用注释信息中列出的实验药物来治疗受试者诸如癌症患者,并且健康护理提供者可以访问注释的药物治疗选项,检索科学信息(例如,打印医学期刊文章)并将科学信息(例如,打印的医学期刊文章)提交至保险公司,同时提交用于提供药物治疗的报销要求。医师可以使用多种诊断相关组(diagnosis-related group)(drg)代码中的任何一种来实现报销。
[0236]
报告中的药物治疗选项也可以用关于药物影响的途径中的其他分子组分的信息(例如,关于靶向在作为药物靶的细胞表面受体下游的激酶的药物的信息)来注释。药物治疗选项可以被注释有关于靶向一个或更多个其他分子途径组分的药物的信息。与途径相关的信息的鉴定和/或注释可以外包或分包给另一家公司。
[0237]
注释的信息可以是,例如,药物名称(例如,用于非正式批准的用途的fda批准的药物;在cms批准的纲要中发现的药物、和/或科学(医学)期刊文章中描述的药物)、关于一个或更多个药物治疗选项的科学信息、关于一个或更多个药物的科学信息的一个或更多个链接、关于一个或更多个药物的临床试验信息(例如来自clinicaltrials.gov/的信息)、关于药物的科学信息的引用的一个或更多个连接等。
[0238]
注释的信息可以被插入到报告中的任何位置。注释的信息可以被插入到报告中的多个位置。注释的信息可以被插入在关于分级药物治疗选项的部分附近的报告中。注释的信息可以被插入到在与分级药物治疗选项分开的页码上的报告中。不包含分级药物治疗选项的报告可以用信息注释。
[0239]
所提供的方法也可以用于研究药物对从受试者(例如癌症患者)分离的样品(例如肿瘤细胞)的影响。使用来自癌症患者的肿瘤的体外培养可以使用本领域技术人员已知的技术来建立。
[0240]
所提供的方法还可以包括使用体外培养和/或异种移植模型(xenograft model)高通量筛选fda批准的非正式批准的药物或实验药物。
[0241]
所提供的方法还可以包括监测肿瘤抗原以用于复发检测。
[0242]
可以为患有癌症的受试者生成映射基因组位置及拷贝数变异的报告,如在图5a和5b中示出的。与具有已知结果的受试者的其他谱相比较,这些报告可以指示特定的癌症为侵袭性的并且对治疗具有抗性。受试者被监测一段时间并重新测试。如果在该时间段结束时,拷贝数变异谱开始急剧增加,这可以指示当前的治疗不起作用。与其他前列腺受试者的遗传谱进行比较。例如,如果确定拷贝数变异的这种增加指示癌症正在进展,则按照所开处的原治疗方案不再治疗癌症,并且开处了新的治疗方法。
[0243]
在一个实施方案中,该系统支持图9中示出的基因的组。图9的基因的组可以与本
公开内容的方法和系统一起使用。
[0244]
这些报告可以经由因特网以电子方式进行提交和访问。在除受试者的位置外的地点进行序列数据的分析。生成报告并发送至受试者的位置。经由支持因特网的计算机,受试者访问反映其肿瘤负荷的报告(图5a和5b)。
[0245]
图6为经因特网访问患有癌症的受试者的报告的示意性表示。图6的系统可以使用手持式dna测序仪或台式dna测序仪。dna测序仪为用于自动化dna测序过程的科学仪器。给定dna样品,dna测序仪用于确定四种碱基的顺序:腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶。dna碱基的顺序被报告为文本字符串,称为读段。一些dna测序仪也可以被认为是光学仪器,因为它们分析源于与核苷酸附接的荧光染料的光信号。
[0246]
dna测序仪可以应用基于dna的化学修饰随后在特定碱基处裂解的gilbert测序方法,或者dna测序仪可以应用基于双脱氧核苷酸链终止的sanger技术。sanger方法由于其增加的效率和低放射性而变得流行。dna测序仪可以使用不需要dna扩增(聚合酶链式反应-pcr)的技术,这加快了测序前的样品制备并减少错误。另外,从互补链中的核苷酸的实时添加引起的反应收集测序数据。例如,dna序列分析仪可以利用被称为单分子实时(single-molecule real-time)(smrt)的方法,其中测序数据通过当核苷酸由包含荧光染料的酶添加至互补链时发射的光(由相机捕获)来产生。可选地,dna测序仪可以使用基于纳米孔感测技术的电子系统。
[0247]
数据由dna测序仪通过直接连接或通过互联网发送至计算机进行处理。系统的数据处理方面可以以数字电子电路或以计算机硬件、固件、软件或其组合来实现。本发明的数据处理装置可以有形地体现在机器可读存储设备中以用于通过可编程处理器执行的计算机程序产品来实施;并且本发明的数据处理方法步骤可以由执行指令程序的可编程处理器执行,以通过操作输入数据并生成输出来进行本发明的功能。本发明的数据处理方面可以有利地在一个或更多个计算机程序中实施,所述一个或更多个计算机程序可在可编程系统中执行,所述可编程系统包括耦合以从数据存储系统接收数据和指令并向数据存储系统传输数据和指令的至少一个可编程处理器、至少一个输入设备以及至少一个输出设备。如果需要,每一个计算机程序可以以高级过程或面向对象编程语言或者汇编或机器语言来实施;并且,在任何情况下,语言可以是编译或解译语言。合适的处理器包含,例如,通用和专用的微处理器两者。通常,处理器将从只读存储器和/或随机存取存储器接收指令和数据。适用于有形地体现计算机程序指令和数据的存储设备包括非易失性存储器的所有形式,包括例如半导体存储器设备,诸如eprom、eeprom和闪存设备;磁盘,诸如内置硬盘和可移动磁盘;磁光磁盘;cd-rom磁盘。前述中的任一项可以由asic(专用集成电路)补充或并入asic中。
[0248]
为了提供与用户的交互,本发明可以使用具有显示设备和输入设备的计算机系统来实现,所述显示设备诸如监视器或lcd(液晶显示器)屏幕用于向用户显示信息,藉以所述输入设备,用户可以将输入提供至计算机系统,所述输入设备诸如键盘、二维点击设备诸如鼠标或轨迹球、或者三维点击设备诸如数据手套或陀螺仪鼠标。计算机系统可以被编程为提供图形用户界面,计算机程序通过该图形用户界面与用户交互。计算机系统可以被编程为提供虚拟现实的三维显示界面。
[0249]
计算机控制系统
[0250]
本公开内容提供了被编程为实现本公开内容的方法的计算机控制系统。图7示出了被编程或以其他方式配置为分析遗传数据的计算机系统701。本文描述的用于检测低于检测限值的遗传变异的方法可以提供遗传数据的更有效的处理,从而改进计算机系统的功能。例如,计算机系统可以能够更快速地或更有效地处理遗传数据和鉴定遗传变体(例如,如果计算机系统能够鉴定低于检测限的遗传变体,则可以不必重新处理遗传数据或处理另外的遗传数据)。
[0251]
计算机系统701可以调节检测低于本公开内容的噪声范围或检测限值的遗传变异的多个方面,诸如,例如,检测核酸分子中的遗传变异、比较多组遗传变异、确定诊断置信度指示、确定置信区间、对核酸进行测序(包括大规模并行测序)、将序列读段分组为家族、叠并分组的序列读段、确定共有序列。计算机系统701可以是用户的电子设备或相对于该电子设备远程定位的计算机系统。电子设备可以是移动电子设备。
[0252]
计算机系统701包括中央处理单元(cpu,本文也被称为“处理器”和“计算机处理器”)705,其可以是单核或多核处理器或用于并行处理的多于一个处理器。计算机系统701还包括存储器或存储器位置710(例如,随机存取存储器、只读存储器、闪速存储器)、电子存储单元715(例如,硬盘)、用于与一个或更多个其他系统进行通信的通信界面720(例如,网络适配器)和外围设备725,诸如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器710、储存单元715、界面720和外围设备725与cpu705通过通信总线(实线),诸如主板(motherboard)通信。存储单元715可以是用于存储数据的数据存储单元(或数据储存库)。计算机系统701可以借助于通信界面720被可操作地耦合至计算机网络(“网络”)730。网络730可以是因特网(internet)、互联网(internet)和/或外联网、或与因特网通信的内联网和/或外联网。在一些情况下,网络730为电信和/或数据网络。网络730可以包括一个或更多个计算机服务器,这可以支持分布式计算,诸如云计算。在一些情况下,借助于计算机系统701,网络730可以实现对等网络(peer-to-peer network),其可以使耦合至计算机系统701的设备能够作为客户端或服务器运行。
[0253]
cpu 705可以执行一系列的机器可读指令,该机器可读指令可以以程序或软件来体现。指令可以被存储于存储器位置,诸如存储器710中。指令可以被导向cpu 705,其可以随后编程或以其他方式配置cpu 705,以实现本公开内容的方法。由cpu 705进行的操作的实例可以包括读取、解码、执行和写回。
[0254]
cpu 705可以是电路诸如集成电路的一部分。系统701的一个或更多个其他组件可以被包含在该电路中。在一些情况下,电路为专用集成电路(asic)。
[0255]
存储单元715可以存储文件,诸如驱动程序、库和保存的程序。存储单元715可以存储用户数据,例如,用户偏好和用户程序。在一些情况下,计算机系统701可以包括一个或更多个另外的数据存储单元,该数据存储单元在计算机系统701的外部,诸如位于通过内联网或因特网而与计算机系统701通信的远程服务器上。
[0256]
计算机系统701可以与一个或更多个远程计算机系统通过网络730进行通信。例如,计算机系统701可以与用户(例如,医师、实验室技术人员、遗传咨询师、科学家以及其他)的远程计算机系统进行通信。远程计算机系统的实例包括个人计算机(例如便携式pc)、板型或平板pc(例如ipad、galaxy tab)、电话、智能电话(例如
iphone、android支持的设备、或个人数字助理。用户可以经由网络730访问计算机系统701。
[0257]
如本文描述的方法可以通过机器(例如,计算机处理器)可执行代码的方式实现,该机器可执行代码被存储在计算机系统701的电子存储位置,诸如,例如存储器710或电子存储单元715上。机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间,代码可以由处理器705执行。在一些情况下,代码可以从存储单元715检索并存储在存储器710上,以用于由处理器705迅速访问。在一些情况下,可以排除电子存储单元715,而将机器可执行指令存储于存储器710中。
[0258]
代码可以被预编译并配置为用于与具有适用于执行该代码的处理器的机器一起使用,或者可以在运行时间期间被编译。代码可以以编程语言的形式提供,该编程语言可被选择以便使得代码能够以预编译的或按编译原样(as-compiled)的方式被执行。
[0259]
本文所提供的系统和方法的各方面,诸如计算机系统701,可以以编程来体现。技术的多个方面可以被认为是通常呈一种机器可读介质进行或体现的机器(或处理器)可执行代码和/或相关数据的形式的“产品”或“制品(articles of manufacture)”。机器可执行代码可以被存储于电子存储单元诸如存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可以包括计算机、处理器等的任何或所有有形存储器,或其相关模块,诸如多种半导体存储器、磁带驱动器、磁盘驱动器等,其可以在任何时间为软件编程提供非暂时性存储。该软件的所有或部分有时可以通过因特网或多种其他电信网络进行通信。例如,此类通信可以使得将软件从一个计算机或处理器加载到另一个计算机或处理器,例如,从管理服务器或主机加载到应用服务器的计算机平台。因此,能够携带软件元件的另一类型的介质包括诸如在本地设备之间的物理界面、通过有线和光纤陆线网络以及在多种空中链路(air-links)上使用的光波、电波和电磁波。携带此类波的物理元件,诸如有线或无线链路、光链路等,也可以被认为是携带软件的介质。如本文使用的,除非被限制为非暂时性的、有形的“储存”介质,否则术语诸如计算机或机器“可读介质”指参与将指令提供至处理器用于执行的任何介质。
[0260]
因此,机器可读介质,诸如计算机可执行代码,可以采取多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括,例如光盘或磁盘,诸如在任何计算机等中的任何存储设备,诸如可用于实现如附图中示出的数据库等。易失性存储介质包括动态存储器,诸如此类计算机平台的主存储器。有形的传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内的总线的导线。载波传输介质可以采取电信号或电磁信号或者声波或光波的形式,诸如在射频(rf)和红外(ir)数据通信期间生成的那些。因此,计算机可读介质的常见形式包括,例如:软盘(floppy disk)、软性磁盘(flexible disk)、硬盘、磁带、任何其他磁介质、cd-rom、dvd或dvd-rom、任何其他光学介质、穿孔卡片纸带、具有打孔模式的任何其他物理存储介质、ram、rom、prom和eprom、flash-eprom、任何其他存储器芯片或盒、传输数据或指令的载波、传输此类载波的缆线或链路,或者计算机可以从其读取编程代码和/或数据的任何其他介质。这些计算机可读介质的形式中的许多形式可以参与向处理器传送一个或更多个指令的一个或更多个序列以用于执行。
[0261]
计算机系统701可以包括电子显示器735或与之通信,所述电子显示器735包括用户界面(ui)740,用于提供例如鉴定基因组变异或改变的个人或个体化患者报告,所述报告
可以包括肿瘤特异性基因组改变和相关治疗选项。ui的实例包括但不限于图形用户界面(gui)和基于网络的用户界面。使用用户界面(740)生成和显示的数据可以在网络上由用户访问,所述用户诸如医疗保健专业人员、实验室技术人员、遗传咨询师或科学家。
[0262]
本公开内容的方法和系统可以通过一个或更多个算法来实现。算法可以在由中央处理器705执行后通过软件来实现。算法可以,例如,对核酸进行测序(例如大规模并行测序)、对核酸序列进行分组、叠并分组的核酸序列、生成共有序列、检测遗传变异、更新诊断置信区间、注释序列、生成报告以及执行其他过程,所述算法可以包括以下一个或更多个的:隐马尔可夫模型、动态编程、贝叶斯网络、网格解码、维特比解码、期望最大化、卡尔曼过滤方法和神经网络。
[0263]
以下实施例通过说明的方式而非通过限制的方式来提供。
实施例
[0264]
图8示出了沿着使用适用于illumine测序的方案扩增和测序的多于一个癌基因的70kb的序列的dna样品中检测到的碱基改变(与参考基因组相比)的频率的图。将样品掺入有低百分比的对照dna,所述对照dna携带在已知位置的序列变体。这些变体由黑色圆形表示。以log等于0(100%)或log等于-0.3(0.5或50%)发生的变体表示纯合或杂合基因座。变体以少于log等于-2(少于1%)发生,这在该系统的噪声范围内,并且可能表示测序错误(噪声)或实际变体(信息)。对于在噪声范围内检测到的任何变体,可能无法确定变体表示噪声或信息。在“噪声”之中,人们已经降低了在突变体位置处的碱基判定表示信息(实际突变体)而不是噪声的置信度。然而,如果对照dna被掺入到第二样品中,它应该再次以相似的频率出现。相比之下,在同一基因座处再次检测到错误的概率为错误率的函数,并且不太可能被观察到。相同变体的独立检测增加了信息(而不是噪声)被检测到的概率,并提供了癌症诊断为正确诊断的增加的置信度。
[0265]
在测序错误为偶然的结果的情况下,多次检测到相同的测序错误的概率可以以指数方式小于单次检测到其的概率。因此,如果多次检测到特定的信号,该信号更可能是信息而不是噪声。该特征可以用于增加以低水平检测到的遗传变体表示实际多核苷酸或多核苷酸组而不是测序假象的概率。
[0266]
在一个实例中,指示病理的信号在多于一个情况下被检测到。在某些实施方案中,信号为携带与癌症相关的体细胞突变或与癌症相关的拷贝数变异的多核苷酸。重复检测信号增加了信号表示信息而不是噪声的概率。重复的情况包括但不限于,(1)重复测试同一样品,(2)测试同时从受试者取得的两个样品或(3)测试在不同时间从受试者取得的两个样品。当首次检测到的信号处于不能可靠地与噪声区分的水平时,确定增加的概率为特别有用的。除了其他事物以外,本公开内容的方法可用于随着时间推移对受试者进行监测以用于早期检测病理,例如,当重复的测试检测到处于在单个测试中太低而不能可靠地做出病理诊断的水平的病理时。
[0267]
在描述与肺癌相关的共变量变体的另一个实例中,与检测到的高置信度变异相关的信号以低于检测限值被检测到。如果egfr l858r活化突变被检测到,则共变量抗性突变egfr t790m抗性突变的检测阈值被放宽。活化或驱动突变的独立检测增加了检测阈值以内的共变量变异也被检测到的置信度。
[0268]
本公开内容的方法和系统可以与其他方法和系统组合,诸如,例如在专利合作条约(pct)专利公布第wo/2014/039556号、第wo/2014/149134号、第wo/2015/100427号和第wo/2015/175705号中描述的那些,其每一个通过引用整体并入本文。
[0269]
虽然本文已经显示和描述了本发明的优选实施方案,但对于本领域技术人员将明显的是,此类实施方案仅通过示例的方式提供。并非意图将本发明限制于本说明书中提供的具体实例。虽然已参考以上提及的说明书描述了本发明,但本文实施方案的描述和说明并不意图以限制性的意义来解释。在不偏离本发明的情况下,本领域技术人员现在将想到许多变化、改变和替换。此外,应当理解,本发明的所有方面并不限于本文阐述的取决于多种条件和变量的具体描写、配置或相对比例。应当理解,在实践本发明时可以采用本文描述的本发明的实施方案的各种替代选择。因此可以预期,本发明还应涵盖任何此类的替代选择、修改、变化或等同物。所附权利要求意图界定本发明的范围,并且从而涵盖在这些权利要求范围内的方法和结构及其等同物。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1