通过全基因组整合进行循环肿瘤DNA的超灵敏检测的制作方法

文档序号:24542464发布日期:2021-04-02 10:26阅读:451来源:国知局
通过全基因组整合进行循环肿瘤DNA的超灵敏检测的制作方法

相关申请的交叉引用

本申请要求于2018年2月27日提交的美国临时申请号62/636,135的权益,其全部内容通过引用合并于此。

本公开的实施方案一般涉及医学诊断领域。具体地,本公开的实施方案涉及用于肿瘤检测和诊断的组合物、方法和系统。



背景技术:

医学文献中充分记载了癌症(如肺、乳腺、前列腺、肝和脑的实体瘤)对人类健康造成的巨大负担。大多数受试者被诊断患有晚期肿瘤疾病,所述晚期肿瘤疾病与令人沮丧的结果相关。最近,发现计算机断层扫描(ct)改善了早期检测,并被美国工作组用于筛查高危人群。然而,该方法受到高假阳性率的限制,导致昂贵且潜在危险的后续评估。

一种用于癌症诊断的方法是分析肿瘤样品的遗传线索或标记。癌症基因组获得了驱动其增殖能力的体细胞突变(lawrence等人,nature,505(7484):495-501,2014)。癌症基因组中的突变还提供了关于在每种癌症中活跃的进化史和突变过程的关键信息(martincorena等人,cell,171(5):1029-1041.e21,2017;alexandrov等人,nature,500(7463):415-421,2013)。患者活检中的癌症突变调用已成为评估患者结果和治疗提名(therapeuticnomination)中的关键步骤。鉴定液体活检样品中的癌症驱动突变,例如无细胞循环dna(cfdna),已经被建议作为早期癌症筛查的转化平台。

用于分析诸如dna中的体细胞突变(例如单核苷酸变体(snv))的基因组标记的统计学方法需要在任何基因组位置对该体细胞变体进行多次独立观察(支持读数),以区分真实突变与测序错误。用于区分真实突变与测序错误的一种技术是增加测序的深度,只要肿瘤样品含有高比例的肿瘤细胞,该技术就很有用。当样品中的肿瘤细胞含量下降时,例如由于样品中存在诸如免疫细胞的正常细胞,多次读数不再支持每种体细胞变体,从而排除了这些突变调用器(mutationcaller)的使用。例如mutect是当前的最新低等位基因频率体细胞突变调用器。mutect的核心是将snv置于两个贝叶斯分类器中,一个假设snv是由随机噪声产生的,另一个假设该位点包含真实的变体。然后,它基于来自两个模型的对数似然比来过滤snv。这与cfdna设定基本不同。在突变等位基因频率降至0.05且肿瘤样品测序深度降至10x时的基准设定中,mutect的灵敏度降低到低于0.1(cibulskis等人,naturebiotechnology,31(3),213,203)。尽管mutect目前是低频环境中最先进的体细胞突变调用器,但它仍无法鉴定肿瘤分数中的体细胞突变,如cfdna中观察到的。

mutect和其它突变调用器的根本限制是当输入材料受到限制时(例如在早期癌症疾病背景中)临床灵敏度低于可接受的水平。如此低的cfdna量只能翻译成数百到数千的基因组当量。因此,覆盖样品中存在的每个位点的有限数量的物理片段(例如,6ngcfdna中1000个基因组当量)可能会使超深度测序(例如100,000x)失效。即使采用超深度测序和先进的分子错误抑制,有限的输入材料也会使低于0.1-1%的肿瘤分数(tf)频率具有检测极限。

abbosh等人举例说明了这种限制(nature,545(7655):446-451,2017),其应用先进的测序方法,包括技术上具有挑战性的肺腺癌患者特异性靶向深度测序,以在42,000x的中值测序深度鉴定约18个突变。然而,cfdna缺乏很可能导致仅19%的早期受试者在cfdna中检测出癌症,甚至在研究组中包括更晚期的iii期肿瘤。此外,所有这些鉴定为阳性的患者均具有可通过ct扫描检测到的病变。这些数据表明,在疾病早期,就包容性和/或精度而言,即使是超深度测序目前也差于成像技术。

需要用于鉴定低丰度疾病标记的改进方法和系统,所述标记为例如cfdna中的体细胞突变(包括不同的受试者特异性签名),其指示肿瘤疾病。另外,需要利用可以在肿瘤的早期诊断中使用的这种高质量标记的系统和方法,从而为临床医生提供更好的疾病管理和/或治疗干预的选择,并且还可以大大改善疾病的结果(例如,提高生存率和/或生活质量)。



技术实现要素:

本文提供了用于筛查受试者的癌症并且使用从筛查中获得的信息进行早期检测和疾病分层的程序、系统和方法。在一些实施方案中,本公开的程序、系统和方法允许用户例如临床医生及早诊断癌症。

在一些方面,本公开提供了一种分类器,其被训练以区分系统性错误和由癌症(例如烟草诱导的肺癌)引起的体细胞突变。利用癌症突变和测序错误都是系统性并通过可以学习并用于有效信噪比区分的独特签名来控制的事实,分类器整合了此类知识,以提高癌症诊断和/或检测的准确性。例如,在基因组上下文中,癌症签名可包括引起癌症相关诱变的碱基置换。此类基因组签名在暴露于烟草和紫外线下引起的癌症中尤其独特,所述癌症包括与失调的dna检查点和/或修复酶活性(例如brca(brca1或brca2)、p53、apobec1等)相关的癌症。

本公开内容还涉及能够指示通过测序检测到的变体不是真正的体细胞突变而是测序或映射技术假象的多个指标。在这种情况下,先前的研究表明测序错误不是随机的,并且可能与dna序列上下文和测序技术的相关技术因素有关。测序的保真度还受到每个测序读数(sequencing-read)长度的限制,错误率随着读数长度的增加而增加。当将读数映射(map)到参考基因组时可能会产生错误。由于基因组具有可变区、基序和可重复元素,这一映射过程在计算上是密集的,并且很复杂。短核苷酸读数可能会映射到多于一个位置或根本不会映射。可以使用本公开的系统和方法来纠正用于测序/映射基因组数据的现有方法的这些限制。通过分析多种因素,本公开的指标能够从错误中调用真正的突变,这些因素包括:(i)低碱基质量;(ii)低映射质量;(iii)读数的估计片段大小(rp);(iv)读数的估计等位基因分数(vaf);(v)序列上下文;(vi)丰度;(vii)测序深度;和/或(viii)测序错误。

本系统和方法特别适合于检测可预测癌症的低丰度标记。本公开的发明人已经认识到,测序宽度不受输入材料的丰度的限制,可以取代依赖深度测序的方法。由于宽度测序较低依赖于输入材料的丰度,因此可用于提高检测的准确性和灵敏度。从统计学的角度来看,发明人首先证明了测序宽度(例如,10,000个突变的10x测序)等同于深度(单个突变的100,000x测序),并且可以在少至1ng的cfdna上进行。因此,本公开的分析方法整合了全基因组突变信息,用于敏感分析包含cfdna的样品,从而容易且无创地检测和/或精确诊断肿瘤(例如,烟草诱发的癌症)。

在这种情况下,血浆体细胞突变调用的模拟测试显示了本方法相对于现有技术的强度和准确性,其中所述血浆体细胞突变调用的模拟测试使用来自肿瘤读数的可变分数范围为1%至0.001%(1/10,000)的肺患者的肿瘤和正常全基因组测序数据的合成混合物。通过以下步骤进一步对该技术的性能进行了基准测试:首先使用标准突变调用来表征患者纯肿瘤和正常样品上的患者特异性体细胞癌症snv;然后使用若干种方法检测血浆样品中的癌症突变,包括本发明的卷积网络。使用纯肿瘤突变调用作为参考的每种方法的灵敏度和精度证明了本公开的分析方法的高信号和/或低噪声。最后,与目前最新的方法相比,对来自早期肺癌患者的实际cfdna样品进行的验证研究显示出显著优越的灵敏度和精密度。

本公开涉及以下非限制性实施方案:

根据各种实施方案,提供了一种对受试者进行癌症遗传筛查的方法。该方法包括接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要。该生物样品可包括肿瘤样品。读数概要可各自包含单个碱基对长度的读数。该方法可还包括从读数概要中过滤人工位点。过滤可包括从读数概要中去除在参考健康样品队列上产生的重复位点。替代地或组合地,过滤可包括鉴定生物样品中的种系突变和/或将肿瘤样品与正常细胞样品的外周血单核细胞之间的共享突变鉴定为种系突变,并从读数概要中去除所述种系突变。该方法可还包括使用至少一种错误抑制方案从全基因组读数概要中过滤噪声,以产生全基因组读数概要的经过滤的读数集。该至少一种错误抑制方案可包括计算该概要中任何单个核苷酸变异是人工突变的概率,以及去除该突变。概率可作为从包括以下各项的组中选择的特征的函数来计算:映射质量(mq)、变体碱基质量(mbq)、读数中的位置(pir)、平均读数碱基质量(mrbq)及其组合。替代地或组合地,该至少一种错误抑制方案可包括:使用由聚合酶链反应或测序处理产生的相同dna片段的独立重复之间的不一致测试,和/或重复一致性来去除人工突变,其中给定重复家族的大多数之间缺乏一致性时鉴定和去除人工突变。该方法可包括基于与预定诱变过程相关的特异性突变签名的比较,使用经过滤的读数集来编译受试者特异性签名。该方法可还包括基于癌症相关突变签名暴露值与背景突变签名队列的比较,通过受试者特异性签名对受试者的生物样品包括癌症相关突变签名的置信度估计进行统计学量化。该方法可包括:如果对受试者的生物样品包含癌症相关突变签名的置信度估计超过给定阈值,则对受试者进行癌症筛查。

根据各种实施方案,提供了一种对受试者进行癌症遗传筛查的方法。该方法包括接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要。该生物样品可包括肿瘤样品。读数概要可各自包含拷贝数变异(cnv)。该方法可包括将读数概要划分为多个窗口。该方法可包括计算每个窗口的特征集合。这些特征可包括每个窗口的中值深度覆盖度和每个窗口的代表性片段大小。该方法可包括从读数概要中过滤人工位点。过滤可包括从读数概要中去除在参考健康样品队列上产生的重复位点。该方法可包括归一化读数概要以产生全基因组读数概要的经过滤的读数集。该方法可包括通过计算每个窗口的特征集合之间的线性关系并使用回归模型将计算的关系转换为估计的肿瘤分数,使用经过滤的读数集来计算估计的肿瘤分数。替代地或组合地,该方法可包括基于一个或更多个整合数学模型来计算估计的肿瘤分数,作为受试者特异性全基因组读数概要中计算的每个窗口的特征集合的函数。该方法可包括如果估计的肿瘤分数超过经验阈值则对受试者进行癌症筛查。

根据各种实施方案,提供了一种用于对受试者进行癌症遗传筛查的系统。该系统包括分析单元,该分析单元包括预过滤器引擎,该预过滤器引擎被配置和布置为接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要,该生物样品包括肿瘤样品,其中读数概要各自包括单个碱基对长度的读数。预过滤器引擎可以被配置和布置为从读数概要中过滤出人工位点,其中过滤包括从读数概要中去除在参考健康样品队列上产生的重复位点。该预过滤器引擎可以被配置和布置为还或组合地鉴定生物样品中的种系突变和/或将肿瘤样品与正常细胞样品的外周血单核细胞之间的共享突变鉴定为种系突变,并从读数概要中去除该种系突变。分析单元可包括校正引擎,该校正引擎被配置和布置为使用至少一种错误抑制方案来过滤读数概要的噪声,以产生全基因组读数概要的经过滤的读数集。该至少一种错误抑制方案可包括计算该概要中任何单个核苷酸变异是人工突变的概率,并去除该突变,其中该概率是作为从包括以下各项的组中选择的特征的函数来计算的:映射质量(mq)、变异碱基质量(mbq)、读数中的位置(pir)、中值读数碱基质量(mrbq)及其组合。该至少一种错误抑制方案还可以或组合地包括使用聚合酶链反应或测序处理产生的相同dna片段的独立重复之间的不一致测试,和/或重复一致性来去除人工突变,其中给定重复家族的大多数之间缺乏一致性时鉴定和去除人工突变。该系统可包括计算单元,该计算单元被配置和布置为基于与预定诱变过程相关的特异性突变签名的比较,使用经过滤的读数集来编译受试者特异性签名。该计算单元可被配置和布置为基于癌症相关突变签名暴露值与背景突变签名队列的比较,通过受试者特异性签名对受试者的生物样品包括癌症相关突变签名的置信度估计进行统计学量化。该计算单元可被配置和布置为如果受试者的生物样品包含癌症相关突变签名的置信度估计超过给定阈值,则对受试者进行癌症筛查。

根据各种实施方案,提供了一种用于对受试者进行癌症遗传筛查的系统。该系统包括分析单元,该分析单元包括分箱引擎,该分箱引擎被配置和布置为接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要,该生物样品包括肿瘤样品,其中读数概要各自包括拷贝数变异(cnv)。该分箱引擎可以被配置和布置为将读数概要划分为多个窗口。该分箱引擎可以被配置和布置为计算每个窗口的特征集合,这些特征包括每个窗口的中值深度覆盖度和每个窗口的代表性片段大小。该系统可包括预过滤器引擎,该预过滤器引擎被配置和布置为从读数概要中过滤出人工位点,其中过滤包括从读数概要中去除在参考健康样品队列上产生的重复位点。该系统可包括归一化引擎,该归一化引擎被配置和布置为归一化读数概要以产生全基因组读数概要的经过滤的读数集。该系统可包括计算单元,该计算单元被配置和布置为使用经过滤的读数集来计算估计的肿瘤分数(etf)。该计算单元可以通过计算每个窗口的特征集合之间的线性关系,并使用回归模型将计算的关系转换为估计的肿瘤分数来计算etf。替代地或组合地,该计算单元可以基于一个或更多个整合数学模型,作为受试者特异性全基因组读数概要中计算的每个窗口的特征集合的函数来计算etf。该计算单元可以被配置和布置为如果估计的肿瘤分数超过经验阈值,则对受试者进行癌症筛查。

在一些实施方案中,本公开涉及用于对受试者进行癌症遗传筛查的方法,其包括:(a)接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要,其中遗传标记概要选自由以下各项组成的组:单核苷酸变异(snv)、短插入和缺失(indels)、拷贝数变异、结构变体(sv)及其组合;(b)基于检出噪声的概率(pn),通过将概要中的每个读数统计学分类为信号或噪声,从概要中去除人工读数,其中检出噪声的概率(pn)为(1)读数的碱基质量(bq);(2)读数的映射质量(mq);(3)估计的读数片段大小;和/或(4)估计的读数等位基因分数(vaf)的函数;(c)通过利用机器学习(ml)方法区分癌症相关突变特征与pcr或测序错误相关特征来适应性地和/或系统地过滤与概要中的每个读数相关的测序噪声;(d)基于噪声去除步骤(c)和过滤步骤(b),编译包括概要中多个真实读数的受试者特异性签名;(e)基于受试者特异性签名和癌症签名之间的匹配,对受试者的生物样品包括循环肿瘤dna(ctdna)的置信度估计进行统计学量化;(f)基于该受试者的生物样品包含癌症相关突变签名的置信度估计,对该受试者进行癌症筛查。

在本方法的一些实施方案中,受试者的生物样品包括血浆、脑脊液,胸膜液、眼液、粪便、尿液或其组合。

在本方法的一些实施方案中,癌症签名包括cosmic烟草签名、紫外线签名、乳腺癌(brca)签名、微卫星不稳定性(msi)签名、载脂蛋白bmrna编辑酶、聚(adp-核糖)聚合酶(parp)高活性签名、催化性多肽样(apobec)签名。特别地,在一些实施方案中,癌症签名包括与组织特异性表观遗传模式相关的模式,例如组织特异性染色质可及性模式。

在本方法的一些实施方案中,通过利用机器学习(ml)方法来区分癌症相关突变特征(真阳性)与pcr或测序错误相关特征(假阳性),将与概要中的每个读数相关的测序噪声过滤。在一些实施方案中,机器学习方法包括深度卷积神经网络(cnn)、递归神经网络(rnn)、随机森林(rf)、支持向量机(svm)、判别分析、最近邻分析法(knn)、集成分类器或其组合。在一些实施方案中,已经对ml进行了训练以区分癌症改变的测序读数和由测序或pcr错误改变的读数。在一些实施方案中,已经在大型全基因组测序(wgs)的癌症数据集上训练了ml,该全基因组测序(wgs)的癌症数据集包含数十亿横跨肿瘤突变和正常测序错误的读数。在一些实施方案中,ml能够(a)以高精度鉴定测序或pcr假象,以及(b)整合序列上下文和读数特异性特征。

在一些实施方案中,本公开涉及用于对受试者进行癌症遗传筛查的方法,其包括:(a)接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要,其中遗传标记概要选自由以下各项组成的组:单核苷酸变异(snv)、短插入和缺失(indel)、拷贝数变异、结构变体(sv)及其组合;(b)基于检出噪声的概率(pn),通过将概要中的每个读数统计学分类为信号或噪声,从概要中去除人工读数,其中检出噪声(pn)的概率为(1)读数的碱基质量(bq);(2)读数的映射质量(mq);(3)估计的读数片段大小;和/或(4)估计的读数等位基因分数(vaf)的函数;(c)通过利用机器学习(ml)方法来适应性地和/或系统地过滤与概要中的每个读数相关的测序噪声,该方法包括基于联合碱基质量(bq)、映射质量(mq)得分和片段大小,执行最佳接收器操作特性(receiveroperatingcharacteristic,roc)曲线,其包括概要中遗传标记的概率分类;(d)基于噪声去除步骤(c)和过滤步骤(b),编译包括概要中多个真实读数的受试者特异性签名;(e)基于受试者特异性签名和癌症签名之间的匹配,对受试者的生物样品包括循环肿瘤dna(ctdna)的置信度估计进行统计学量化;(f)基于受试者的生物样品包含癌症相关突变签名的置信度估计,对该受试者进行癌症筛查。

在本方法的一些实施方案中,肿瘤是包括以下各项的肿瘤:异质或同质脑癌、肺癌、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、固态肿瘤、非小细胞肺癌(nsclc)、烟草诱发的癌症(tic)、紫外线诱发的癌症、载脂蛋白bmrna编辑酶催化蛋白(apobec)活性介导的癌症、包括乳腺癌蛋白(brca)突变的癌症、包括聚(adp-核糖)聚合酶(parp)活性的癌症以及包括微卫星不稳定性(msi)的肿瘤。在本方法的一些实施方案中,该筛查方法允许在未诊断和/或无症状的患者中诊断早期癌症疾病。特别地,受试者是处于i至iii期的早期癌症患者。

在一些实施方案中,本公开涉及一种用于对受试者进行癌症遗传筛查并提名疗法的方法,其包括:(a)接收来自受试者的生物样品的与多种遗传标记相关的受试者特异性全基因组读数概要,其中遗传标记概要选自由以下各项组成的组:单核苷酸变异(snv)、短插入和缺失(indels)、拷贝数变异、结构变体(sv)及其组合;(b)基于检出噪声的概率(pn),通过将概要中的每个读数统计学分类为信号或噪声,从概要中去除人工读数,其中检出噪声的概率(pn)为(1)读数的碱基质量(bq);(2)读数的映射质量(mq);(3)估计的读数片段大小;和/或(4)估计的读数等位基因分数(vaf)的函数;(c)通过利用机器学习(ml)方法区分癌症相关突变特征与pcr或测序错误相关特征来适应性地和/或系统地过滤与概要中的每个读数相关的测序噪声;(d)基于噪声去除步骤(c)和过滤步骤(b),编译包括概要中多个真实读数的受试者特异性签名;(e)基于受试者特异性签名和癌症签名之间的匹配,对受试者的生物样品包括循环肿瘤dna(ctdna)的置信度估计进行统计学量化;(f)基于该受试者的生物样品包含癌症相关突变签名的置信度估计,对该受试者进行癌症筛查;(g)基于诊断中采用的患者特异性签名来提名基于签名的疗法。在一些实施方案中,治疗提名包括用于brca签名的parp抑制剂,用于msi签名的免疫疗法。在一些实施方案中,parp抑制剂是尼拉帕尼(niraparib)、奥拉帕尼(olaparib)、维利帕尼(veliparib)、卢卡帕尼(rucaparib)和/或他拉唑帕尼(talazoparib)。在一些实施方案中,用于msi签名的免疫疗法包含抗pd-1抗体(例如,纳武单抗(nivolumab)或派姆单抗(pembrolizumab))或抗ctla4抗体(例如,纳武单抗(nivolumab)或派姆单抗(pembrolizumab))。在一些实施方案中,肿瘤包括异质或同质脑癌、肺癌、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、固态肿瘤、肺腺癌、导管腺癌(乳腺肿瘤)、非小细胞肺癌肺腺癌(nsclcluad)、皮肤黑色素瘤、尿路上皮癌(膀胱肿瘤)、结直肠癌(lynch)或骨肉瘤。

在一些实施方案中,本公开涉及用于对受试者进行癌症遗传筛查的方法,其包括(a)接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要,其中遗传标记概要选自由以下各项组成的组:单核苷酸变异(snv),短插入和缺失(indel)、拷贝数变异、结构变体(sv)及其组合;(b)基于检出噪声的概率(pn),通过将概要中的每个读数统计学分类为信号或噪声,从概要中去除人工读数,其中检出噪声的概率(pn)为(1)读数的碱基质量(bq);(2)读数的映射质量(mq);(3)估计的读数片段大小;和/或(4)估计的读数等位基因分数(vaf)的函数;(c)通过利用机器学习(ml)方法区分癌症相关突变特征与pcr或测序错误相关特征来适应性地和/或系统地过滤与概要中的每个读数相关的测序噪声;(d)基于噪声去除步骤(c)和过滤步骤(b),编译包括概要中多个真实读数的受试者特异性签名;(e)基于受试者特异性签名和癌症签名之间的匹配,对受试者的生物样品包括循环肿瘤dna(ctdna)的置信度估计进行统计学量化;(f)基于该受试者的生物样品包含癌症相关突变签名的置信度估计,对该受试者进行癌症筛查,其中步骤(f)包括解析线性优化问题-min‖ax-b‖,x≥0,其中a是突变签名序列上下文矩阵,x是每个cosmic突变签名(变量)的贡献,b是患者特异性序列上下文概要。在一些实施方案中,通过非负最小二乘方法(nnls)、交叉熵全局优化方法、黄金分割搜索方法或其组合来解析优化问题。在一些实施方案中,该方法还包括使用癌症突变签名与多个随机背景签名的比较来验证置信度,例如,使用癌症突变签名与多个随机背景签名的比较。在一些实施方案中,比较步骤包括zscore的评估,其中高于阈值的zscore指示受试者特异性签名对癌症签名是特异性的并且不与随机签名相关。

在一些实施方案中,本公开涉及用于对受试者进行癌症遗传筛查的方法,其包括(a)接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要,其中遗传标记概要选自由以下各项组成的组:单核苷酸变异(snv)、短插入和缺失(indel)、拷贝数变异、结构变体(sv)及其组合;(b)基于检出噪声的概率(pn),通过将概要中的每个读数统计学分类为信号或噪声,从概要中去除人工读数,其中检出噪声的概率(pn)为(1)读数的碱基质量(bq);(2)读数的映射质量(mq);(3)估计的读数片段大小;和/或(4)估计的读数等位基因分数(vaf)的函数;(c)通过利用机器学习(ml)方法区分癌症相关突变特征与pcr或测序错误相关特征来适应性地和/或系统地过滤与概要中的每个读数相关的测序噪声;(d)基于噪声去除步骤(c)和过滤步骤(b),编译包括概要中多个真实读数的受试者特异性签名;(e)基于受试者特异性签名和癌症签名之间的匹配,对受试者的生物样品包括循环肿瘤dna(ctdna)的置信度估计进行统计学量化;(f)基于该受试者的生物样品包含癌症相关突变签名的置信度估计,对该受试者进行癌症筛查,其中步骤(b)包括(1)去除低映射质量的读数(例如,<29,roc优化);建立重复家族(代表相同dna片段的多个pcr/测序拷贝),并基于一致性测试(consensustest)产生校正的读数;(3)去除低碱基质量的读数(例如,<21,roc优化);和/或(4)去除高片段大小的读数(例如,>160,roc优化),步骤(f)包括计算患者序列-上下文概要与特定cosmic序列-上下文概要之间的序列上下文相似度。

在一些实施方案中,本公开涉及用于对受试者进行癌症遗传筛查的方法,其包括(a)接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要,其中遗传标记概要选自由以下各项组成的组:单核苷酸变异(snv),短插入和缺失(indel)、拷贝数变异、结构变体(sv)及其组合;(b)基于检出噪声的概率(pn),通过将概要中的每个读数统计学分类为信号或噪声,从概要中去除人工读数,其中检出噪声的概率(pn)为(1)读数的碱基质量(bq);(2)读数的映射质量(mq);(3)估计的读数片段大小;和/或(4)估计的读数等位基因分数(vaf)的函数;(c)通过利用机器学习(ml)方法区分癌症相关突变特征与pcr或测序错误相关特征来适应性地和/或系统地过滤与概要中的每个读数相关的测序噪声;(d)基于噪声去除步骤(c)和过滤步骤(b),编译包括概要中多个真实读数的受试者特异性签名;(e)根据受试者特异性签名和癌症签名之间的匹配,对受试者的生物样品包括循环肿瘤dna(ctdna)的置信度估计进行统计学量化;(f)基于该受试者的生物样品包含癌症相关突变签名的置信度估计,对该受试者进行癌症筛查,其中步骤(f)包括基于余弦相似度、相关性、交互信息或其组合来评估该受试者特异性签名和癌症签名之间的相似度。在一些实施方案中,该方法还包括使用癌症突变签名与多个随机背景签名的比较来验证置信度,例如,使用癌症突变签名与多个随机背景签名的比较。在一些实施方案中,比较步骤包括zscore的评估,其中高于阈值的zscore指示受试者特异性签名对癌症签名是特异性的并且与随机背景签名不相关。

在一些实施方案中,本公开涉及用于对受试者进行癌症遗传筛查的方法,其包括(a)接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要,其中遗传标记概要选自由以下各项组成的组:单核苷酸变异(snv),短插入和缺失(indel)、拷贝数变异、结构变体(sv)及其组合;(b)基于检出噪声的概率(pn),通过将概要中的每个读数统计学分类为信号或噪声,从概要中去除人工读数,其中检出噪声的概率(pn)为(1)读数的碱基质量(bq);(2)读数的映射质量(mq);(3)估计的读数片段大小;和/或(4)估计的读数等位基因分数(vaf)的函数;(c)通过利用机器学习(ml)方法区分癌症相关突变特征与pcr或测序错误相关特征来适应性地和/或系统地过滤与概要中的每个读数相关的测序噪声;(d)基于噪声去除步骤(c)和过滤步骤(b),编译包括概要中多个真实读数的受试者特异性签名;(e)基于受试者特异性签名和癌症签名之间的匹配,对受试者的生物样品包括循环肿瘤dna(ctdna)的置信度估计进行统计学量化;(f)基于该受试者的生物样品包含癌症相关突变签名的置信度估计,对该受试者进行癌症筛查,其中步骤(f)包括将癌症特异性签名置信度(zscore)与由背景噪声模型计算的经验阈值进行比较。在一些实施方案中,通过以下来定义经验噪声模型:测量正常健康样品中的癌症特异性签名置信度(zscore),并将其转换为基础噪声zscore估计,其中zscore估计噪声阈值在1至5之间。

在前述癌症筛查/诊断方法的一些实施方案中,受试者特异性签名与癌症特异性突变签名匹配,该癌症特异性突变签名包括在肿瘤中差异表达但在正常样品中不表达的标记。在一些实施方案中,肿瘤样品包括肺肿瘤、乳腺肿瘤、黑色素瘤、膀胱肿瘤、结肠直肠肿瘤或骨肿瘤。

在前述癌症筛查/诊断方法的一些实施方案中,该方法允许在至少50%的受试者中进行早期检测。

在前述癌症筛查/诊断方法的一些实施方案中,该方法包括进一步实施计算机断层摄影(ct)筛查,其中ct筛查步骤在遗传筛查之前、同时或之后进行。在一些实施方案中,癌症是实体肿瘤,并且ct筛查包括例如在患有良性病变的患者中检测可疑结节。在一些实施方案中,通过先进的ct筛查、组织病理学和/或活检来鉴定良性病变。

在前述癌症筛查/诊断方法的一些实施方案中,该方法包括区分恶性结节和良性结节,其将ct筛查的阳性预测值(ppv)提高例如至少30%、至少40%、至少50%、至少60%、至少80%或至少90%。

在前述癌症筛查/诊断方法的一些实施方案中,该方法包括恶性肿瘤的早期检测(ed)。

在一些实施方案中,本公开涉及用于对受试者进行癌症遗传筛查的方法,其包括(a)接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要,其中遗传标记概要选自由以下各项组成的组:单核苷酸变异(snv),短插入和缺失(indel)、拷贝数变异、结构变体(sv)及其组合;(b)基于检出噪声的概率(pn),通过将概要中的每个读数统计学分类为信号或噪声,从概要中去除人工读数,其中检出噪声的概率(pn)为(1)读数的碱基质量(bq);(2)读数的映射质量(mq);(3)估计的读数片段大小;和/或(4)估计的读数等位基因分数(vaf)的函数;(c)通过利用机器学习(ml)方法区分癌症相关突变特征与pcr或测序错误相关特征来适应性地和/或系统地过滤与概要中的每个读数相关的测序噪声;(d)基于噪声去除步骤(c)和过滤步骤(b),编译包括概要中多个真实读数的受试者特异性签名;(e)基于受试者特异性签名和癌症签名之间的匹配,对受试者的生物样品包括循环肿瘤dna(ctdna)的置信度估计进行统计学量化;(f)基于该受试者的生物样品包含癌症相关突变签名的置信度估计,对该受试者进行癌症筛查,其中步骤(a)包括通过全基因组测序聚合全基因组突变数据,并且步骤(c)包括使用数学优化步骤检测突变签名。在一些实施方案中,数学优化步骤包括采用非负最小二乘。

在一些实施方案中,本公开涉及检测受试者的恶化前肿瘤签名的方法,其包括(a)生成来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要,其中遗传标记概要选自由以下各项组成的组:单核苷酸变异(snv),短插入和缺失(indel)、拷贝数变异、结构变体(sv)及其组合;(b)基于检出噪声的概率(pn),通过将概要中的每个读数统计学分类为信号或噪声,从概要中去除人工读数,其中检出噪声的概率(pn)为(1)读数的碱基质量(bq);(2)读数的映射质量(mq);和/或(3)估计的读数片段大小(4)读数等位基因分数(vaf)的函数;(c)通过利用机器学习(ml)方法区分癌症相关突变特征与pcr或测序错误相关特征来适应性地和/或系统地过滤与概要中的每个读数相关的测序噪声;(d)基于噪声去除步骤(c)和任选的过滤步骤(b),编译包括概要中多个真实读数的受试者特异性签名;(e)基于受试者特异性签名和癌症签名之间的匹配,对受试者的生物样品包括循环肿瘤dna(ctdna)的置信度估计进行统计学量化;(f)基于该受试者的生物样品包含癌症相关突变签名的置信度估计,检测恶化前肿瘤签名。在一些实施方案中,恶化前肿瘤包括异质或同质脑癌、肺癌、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、固态肿瘤、肺腺癌、导管腺癌(乳腺肿瘤)、非小细胞肺癌肺腺癌(nsclcluad)、皮肤黑色素瘤、尿路上皮癌(膀胱肿瘤)、结直肠癌(lynch)或骨肉瘤,尤其是lynch综合征或brca遗传缺陷。

在前述方法的一些实施方案中,机器学习(ml)包括适应性地和/或系统地过滤测序噪声的深度卷积神经网络(cnn)。在一些实施方案中,cnn包括在泛肿瘤队列中采用深度学习算法来鉴定区分真实肿瘤突变和人工错误的签名;为肿瘤患者样品中检测到的每个个体突变分配置信度估计;将整个基因组的置信度估计进行积分;并在样品中采用特定cosmic突变签名的非负最小二乘。

在一些实施方案中,本公开涉及一种包括计算机可执行指令的计算机可读介质,该计算机可执行指令在由处理器执行时使处理器执行用于早期检测肿瘤或检测恶化前肿瘤病变的方法或一组步骤,该方法或步骤包括:(a)生成来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要,其中遗传标记概要选自由以下各项组成的组:单核苷酸变异(snv),短插入和缺失(indel)、拷贝数变异、结构变体(sv)及其组合;(b)基于检出噪声的概率(pn),通过将概要中的每个读数统计学分类为信号或噪声,从概要中去除人工读数,其中检出噪声的概率(pn)为(1)读数的碱基质量(bq);(2)读数的映射质量(mq);和/或(3)估计的读数片段大小(4)读数等位基因分数(vaf)的函数;(c)通过利用机器学习(ml)方法区分癌症相关突变特征与pcr或测序错误相关特征来适应性地和/或系统地过滤与概要中的每个读数相关的测序噪声;(d)基于噪声去除步骤(c)和任选的过滤步骤(b),编译包括概要中多个真实读数的受试者特异性签名;(e)基于受试者特异性签名和癌症签名之间的匹配,对受试者的生物样品包括循环肿瘤dna(ctdna)的置信度估计进行统计学量化;(f)基于该受试者的生物样品包含癌症相关突变签名的置信度估计,检测恶化前肿瘤签名。在一些实施方案中,ml包括在一端的具有单个完全连接层的分层卷积神经网络(cnn),其中当在三核苷酸窗口上卷积时,cnn保持空间不变性;并通过将读数片段坍塌(collapsing)成多个区段来维持质量映射,每个区段代表一个大约八个核苷酸的区域。

在前述计算机可读介质或方法的一些实施方案中,cnn包括8个层,该8个层包括一端的单个完全连接层和两个连续的卷积层,通过感受野(receptivefield)为2且步幅(stride)为2的最大池化(maxpooling)对其输出进行下采样,其中该8层的cnn通过将读数片段坍塌成约25个独立的区段来维持质量映射,并使用大小为3的感知场(perceptivefield)在基因组读数的位置处的列上卷积;并且其中最后的卷积层的输出直接施加到s形全连接层,由此对标记进行最终分类。在一些实施方案中,cnn包括联合捕获比对的基因组上下文、完整的读数序列以及每碱基质量得分的积分的读数表示。在前述计算机可读介质或方法的一些实施方案中,与mutect相比,cnn将基因组读数中包含体细胞突变的肿瘤特异性标记富集了约1.12倍至约30倍。

在一些实施方案中,本公开涉及包括计算机可执行指令的计算机可读介质,该计算机可执行指令在由处理器执行时使处理器执行用于诊断需要诊断的受试者的癌症的方法或一组步骤,该介质包含通过以下方法开发的卷积神经网络(cnn):(a)接收从受试者的样品中接收的遗传标记概要,其中该遗传标记包括体细胞单核苷酸变异(ssnv);体细胞拷贝数变异(scnv);插入/删除(indel);或基因组读数中的结构变异(sv);(b)处理泛肿瘤队列中每个受试者的遗传标记概要,以鉴定可区分真实癌症标记和人工错误的签名;(c)基于处理步骤(b),对概要中的每个签名分配置信度估计;(d)对基因组读数中的步骤(c)的每个签名的置信度估计进行积分以建立肿瘤签名;(e)在数学上优化肿瘤签名。在一些实施方案中,置信度估计的分配包括:(1)使用线性混合优化来计算cosmic突变签名的贡献的置信度度量;或(2)计算患者序列上下文概要与特定cosmic签名的相似度。在一些实施方案中,线性混合优化包括解析代数函数min‖ax-b‖,x≥0,其中a是突变签名序列上下文矩阵,x是每个cosmic突变签名的贡献,b是患者特异性序列上下文概要。在一些实施方案中,代数函数‖ax-b‖,x≥0中的a包括至少5个、至少10个、至少15个、至少20个、至少25个或至少30个cosmic签名以及100个随机突变签名。在一些实施方案中,线性混合优化包括计算包括提取e_random(平均贡献得分)和std_random(std贡献得分)的随机签名贡献的分布;通过zscore检查每个cosmic签名的贡献检测的置信度,包括计算度量(cosmic_sig_contribution-e_random)/std_random,其中该度量表示与随机集相比特异性签名的显著性。在一些实施方案中,数学优化步骤包括采用非负最小二乘(nnls)。

在一些实施方案中,本公开涉及用于在有需要的受试者中诊断肿瘤的系统,其包括:数据获取单元,其被配置成接收多个读数,该多个读数包括从包括受试者的血浆样品和正常细胞样品的生物样品中扩增和测序的遗传标记;标记鉴定单元,其被配置为鉴定受试者特异性遗传标记概要中的多个受试者特异性标记,该标记鉴定单元通信地连接至该数据获取单元,包括:噪声去除单元,其基于读数的碱基质量、读数的映射质量、读数的片段大小和/或读数的可变等位基因频率(vaf)去除人工噪声;以及分类引擎,其被配置为基于置信区间得分对该概要中去除噪声的每个读数进行统计学分类,该置信区间得分表示该读数与肿瘤之间的统计关联的统计水平,其中,该分类引擎利用机器学习(ml)适应性地和系统地过滤在扩增步骤或测序步骤中引入的噪声,并进一步将概要中去除噪声的ml过滤的读数与一个或更多个已知癌症签名相匹配;以及诊断单元,其被配置为基于该匹配来诊断肿瘤。

在本公开的系统的一些实施方案中,该分类引擎还被配置为通过使用线性混合优化问题计算置信度度量,将概要中去除噪声的ml过滤后的读数与一个或更多个已知癌症签名进行匹配。

在本公开的系统的一些实施方案中,线性混合优化包括计算肿瘤发生率与肿瘤介导因子之间的关联的zscore置信度估计,所述肿瘤介导因子选自烟草暴露、紫外线暴露、dna修复失调、dna编辑错误、微卫星不稳定性或其组合。

在本公开的系统的一些实施方案中,人工噪声去除引擎被配置为基于读数的碱基质量(bq)得分、读数的映射质量(mq)得分、读数的片段大小或读数的可变等位基因频率(vaf),执行最佳接收器操作特性(roc)曲线,该最佳接收器操作特性曲线包括概要中读数的概率分类。在本公开的系统的一些实施方案中,人工噪声去除引擎还被配置为基于(iii)读数中的位置(rp);(iv)读数的序列上下文(sc);(v)读数的丰度;(vi)测序深度和/或(vii)测序错误来过滤噪声。

在本公开的系统的一些实施方案中,置信度计算包括通过解析包括min‖ax-b‖,x≥0的代数函数的zscore置信度估计,其中a是突变签名序列上下文矩阵,x是每个cosmic突变签名的贡献;b是患者特异性序列上下文概要。在一些实施方案中,zscore置信度估计包括解析包括min‖ax-b‖,x≥0的代数函数,其中a包括30个cosmic签名和100个随机突变签名;计算包括平均贡献得分(acs)和标准贡献得分(std_random)的cosmic签名(csc)随机签名(e_random)的贡献分布;通过利用函数(csc-e_random)/std_random计算zscore度量来检查每个cosmic签名贡献的置信度,其中zscore代表与随机集相比特定签名贡献的显著性。在一些实施方案中,zscore置信度估计包括计算患者序列-上下文概要与特异性cosmic签名的相似度。在一些实施方案中,zscore置信度估计包括归一化患者序列-上下文概要以获得密度函数;计算患者序列-上下文密度函数和cosmic签名密度函数之间的余弦相似度;以及通过除以患者序列-上下文密度函数和非信息均匀密度函数之间的余弦相似度来归一化余弦相似度。在一些实施方案中,zscore置信度估计包括检查zscore是否超过检测阈值,其中该阈值包括根据经验估计的健康样品中的基础噪声。在一些实施方案中,癌症签名包括烟草签名,正置信区间包括大于2、3、4,优选地大于5个标准差的zscore。

在本公开的方法和系统的一些实施方案中,遗传标记包括dna中的snv、cnv、indel和/或sv,并且接收单元接收全基因组测序(wgs)遗传数据,例如来自包括血浆样品和正常细胞样品的生物样品的遗传数据,血浆样品包括无细胞dna(cfdna);正常细胞样品包括外周单核血细胞(pmbc),并且其中遗传数据包括多个标记,该多个标记包括体细胞单核苷酸变异(ssnv)或体细胞拷贝数变异(scnv)或其组合。在一些实施方案中,样品中cfdna的量在约0.1ng/ml至约20.0ng/ml之间。在一些实施方案中,样品具有低的肿瘤分数(tf),如通过肿瘤dna分子的量相对于正常dna分子的比率所测量的,例如在约0.0001%(1比一百万个分子)至约20%之间。

附图说明

在附图/表格和以下描述中阐述了本公开的一个或更多个实施方案的细节。根据附图/表格和详细描述以及根据权利要求,本公开的其他特征、目的和优点将是显而易见的。

图1a示出了本公开的诊断方法的代表性流程图。在第一步骤110中,从受试者的样品中接收与多个遗传标记(例如,体细胞snv)相关的受试者特异性全基因组读数概要,例如,通过全基因组测序生成。在步骤120中,基于检出噪声的概率(pn),通过将每个读数统计学分类为信号(s)或噪声(n),去除人工读数,其中检出噪声的概率(pn)为(1)碱基质量(bq);(2)映射质量(mq);(3)估计的片段大小(4)估计的等位基因分数(vaf)的函数。还可以使用其他次要参数,例如(v)读数的位置大小(vi)序列上下文(sc);(vii)丰度;(viii)测序深度和/或(ix)测序错误。可将减少噪声的读数输入到已使用计算机数据集和/或来自泛癌症队列的数据集进行训练的卷积神经网络中。该神经网络在步骤130中适应性地和系统地过滤测序噪声。接下来,在步骤140中,基于噪声去除步骤120和过滤步骤130编译包括概要中的多个真实读数的受试者特异性签名。接下来,在步骤150中,通过匹配受试者特异性签名和癌症签名来做出受试者的生物样品包括循环肿瘤dna(ctdna)的置信度估计。在步骤160中,基于置信度估计对受试者进行癌症筛查。图1b示出了根据各种实施方案的用于在受试者中进行癌症筛查的代表性工作流程。图1c示出了根据各种实施方案的用于在受试者中进行癌症筛查的代表性工作流程。图1d示出了基于单核苷酸多态性(snv)或indel的测量在受试者中进行癌症筛查的代表性工作流程。图1e示出了基于拷贝数变异(cnv)或结构变异(sv)的测量在受试者中进行癌症筛查的代表性工作流程。图1f示出了生成合成血浆的计算机数据库的代表性方案,该数据库是针对7位癌症患者–2位黑色素瘤、3位肺腺癌和2位乳腺癌(方案a)生成的。

图2提供了代表性流程图,其概述了使用本公开的系统和方法来帮助癌症的早期检测,这减少了(如果没有消除的话)对手术和/或治疗干预的需要。早期癌症检测可带来许多经济和健康益处,包括避免手术风险(例如,肺炎、出血、感染、凝血(血肿)和对麻醉的反应),化学疗法或免疫疗法的副作用(例如,疲劳,脱发,容易瘀伤和出血,感染,贫血,恶心和呕吐,食欲变化,便秘,腹泻,口腔,舌头和喉咙问题,神经和肌肉问题,例如麻木,刺痛和疼痛;皮肤和指甲变化,例如干燥的皮肤和肤色变化;尿液和膀胱变化以及肾脏问题;体重波动)。

图3a-3c示出了作为各个参数的函数的参数检测概率。在图3a中,该图显示使用包含低肿瘤分数(tf)的样品的检测概率迅速降低。图3b示出了所检测到的位点的预测平均数目以及至少一个检测的概率,其是独特dna片段的数目(基因组当量或覆盖度)、突变负荷(n)和肿瘤分数(tf)的函数。图3c显示,即使在tf为1:100,000的情况下,以适度的测序工作(20倍覆盖度),积分超过20,000个ssnv(在17%的人类癌症中发现约10个突变/兆碱基对)就可以提供高检测概率(高达0.98),这可以使用标准全基因组测序(wgs)轻松实现。

图4a-4e示出了snv标记的优化。图4a示出了人工snv检测(错误)的数量与所检查的独特读数的总数之间的线性关系。这代表对应每1000个读数有1个错误的错误率,这表明该错误主要是由于测序错误率(1/1000)所致。每个点都是对照样品(tf=0),这些点是由6位不同患者的pbmc数据生成的,其中有3种不同的癌症类型(肺癌、黑色素瘤和乳腺癌),多个覆盖度范围(从2x到25x),并且有多个独立的重复。所有这些显然都在同一回归线上,因此这对癌症类型是不变的。图4b示出了用于碱基质量过滤(bq)的接收器操作特性(roc)曲线。图4c示出了在经过滤的多癌错误模型中的检查的读数数量(x轴)与检测到的错误数量(y轴)的线形图,其表明了人工snv检测数量(错误)与检查的独特读数的总数之间的线性关系。在应用优化的bq和mq过滤器之后,执行了snv检测(错误)。图4d示出了应用联合bq和mq优化过滤器的效果允许测序错误的大约七倍变化抑制。使用对照样品评估多个重复之间的错误率分布。对于肺癌和黑色素瘤两种癌症类型,预过滤器噪声率均为~2x10-3,而对于这两种癌症类型,其后过滤器噪声率均降至~2x10-4。图4e示出了作为血浆覆盖度(x轴)和肿瘤负荷(y轴)的函数的错误率的热图(红色指示较多的错误,蓝色指示较少的错误)。显示了在各种覆盖度和肿瘤突变负荷(通过对原始患者特异性肿瘤突变列表进行二次抽样来修改肿瘤突变负荷)下估计的错误率(例如,检测到的snv数目除以检查的独特读数的总数)。矩阵的每个条目(entry)都是多个独立重复的平均值。对于大于2000的每个突变负荷,这表明覆盖度和突变负荷的错误率基本不变(大约2-3*10-4)。这表明上述结果对于每兆碱基对多于1个突变(>1/mbp)的任何肿瘤都是稳健的。

图5提供了基于深度学习的从头(de-novo)突变检测和噪声抑制的图表。

图6示出了包括用于基因组读数的矩阵的典型垫板(pad)(例如,对于150个碱基对读数为16×200个碱基对)。顶图显示了通过引擎可见的读数及其比对的表示。底图显示了基因组上下文附加到读数的末端。对于非上下文特征,填补为零。

图7示出了如在临床环境中应用的本公开的示例性方法的示意图。如图所示,处理(例如测序)从受试者(例如,癌症患者或怀疑患有肿瘤的受试者)获得的包含无细胞dna(cfdna)的活检样品,例如血浆样品,以获得患者的遗传数据(例如vcf文件),使用pileup(或类似程序)进行分类。应用vaf过滤器以排除种系标记(例如snv、cnv、indel或sv)。映射质量(mq)、位置过滤器(pir)和/或碱基质量(bq)过滤器进一步应用于过滤人工噪声。在下一步,将深度学习应用于过滤的遗传数据。深度学习方法涉及用遗传数据训练机器,该遗传数据包含来自混合的肿瘤活检样品和外周血单核细胞(pmbc;对照)的标记概要,这些标记已通过上述过滤器(例如,通过pileup的人工读数目录,vaf过滤器以排除种系变异,bq过滤器以消除低碱基质量的标记,mq以消除映射不良的标记)。机器也可以用数据集进行训练。上述系统和方法的产物是鉴定与癌症诊断背景下临床相关的cfdna中的多个标记的鉴定,其有助于癌症的早期诊断和预后。

图8示出了数据集的属性和引擎签名分析的结果。图8a显示了来自alexandrov等人(同上,2013年)的与烟草(上)和黑色素瘤(下)相关的cosmic签名。图8b显示了来自样品特异性肿瘤和pbmc读数的三核苷酸频率。与烟草(紫色)和紫外线辐射(绿色)有关的特定三核苷酸。图8c显示了三核苷酸频率的相对差异与引擎的平均激活的相关性。

图9示出了与本领域已知的突变调用器相比,本公开的engine的各种性能相关特性的线形图。图9a示出了使用患者ca0044合成血浆的灵敏度。可以看出,就灵敏度而言,本发明的engine(kittyhawk)优于诸如mutect、snooper和/或strelka的本领域已知的突变调用器。图9b示出了在患者ca0044合成血浆上使用engine获得的精度的比较线形图(如以阳性预测值或ppv所测量的)。由于仅进行了两次检测,因此排除了mutect。可以看出,就精度而言,engine优于现有技术的突变调用器。图9c显示了在患者ca0044合成血浆上使用engine获得的富集。由于仅进行了两次检测,因此排除了mutect。可以看出,在富集方面,engine优于本领域已知的突变调用器。

图10显示了使用本公开的方法和系统在计算机上或从对照受试者(bb600;bb601)或癌症患者(bb1122或bb1125)获得的ctdna样品中的snv检测率。

图11是示出被诊断为患有腺癌或良性结节的受试者的临床特征的表。

图12a-12d显示了在各种肿瘤中差异表达的肿瘤特异性签名。图12a显示在肺癌和黑色素瘤样品中应用肿瘤特异性签名(uv,烟草)提供了高特异性。图12b显示了在正常样品(pbmc)与肺癌患者(左图)和/或黑色素瘤患者(右图)的肿瘤样品中基因签名的差异表达。图12c显示了在乳腺癌、黑色素瘤或肺腺癌患者中各种cosmic签名(及其相关的zscore)的表达。

图13a-13c显示可以在低至约1/1000的肿瘤分数(tf)的合成血浆中检测到癌症签名。图13a和图13b代表来自两个种子,即种子3和种子4的数据的图,其显示可以在低至约1/1000的肿瘤分数(tf)的合成血浆中检测到烟草签名。图13c代表来自单个种子的数据,其显示可以在低至约1/1000的肿瘤分数(tf)的合成血浆中检测到肺签名。

图14a-14b示出了各个患者样品的zscore。图14a以zscore相对于背景随机签名的形式示出了肺癌患者(蓝色)和患有良性结节的患者(红色,通过ct检测)的烟草相关签名的突变签名检测。这显示了基于非侵入性血液测试区分良性和恶性结节的能力。在暴露于烟草的患者的早期癌症血浆中检测到了烟草签名(签名4/8),但在患有良性结节或无吸烟史的患者中未检测到烟草签名。n.d.表示未检测到的样品。py表示每个患者吸烟的包年数。ed表示早期检测。图14b显示了与良性对照相比,在从处于肺癌的各个阶段(例如,ia期,ib期,iia期,iib期和iiia期)的受试者获得的样品队列中,突变签名检测的zscore分布。在大多数癌症样品中,获得至少67%的基线灵敏度,对于所有高阶段病例(例如iiia期及更高阶段),基线灵敏度提高到约100%。

图15提供了本公开的计算机系统的示意图。

图16a-16c提供了本公开的各种系统的示意图。显示的是代表性系统中包含的各个单元。

图17a-图17e示出了正交特征(例如片段大小)在本公开的诊断方法中的用途,以及在基于snv的方法中应用此类正交特征的伴随效果。图17a显示了健康正常cfdna样品中显示的片段大小分布。图17b显示了与正常cfdna样品相比乳腺肿瘤cfdna(红色和紫色)中的片段大小偏移。图17c显示在小鼠异种移植(pdx)模型中,来自肿瘤起源的循环dna明显短于来自正常起源的循环dna。图17d显示了片段dna大小(x轴;碱基数)相对于在肿瘤和正常样品中观察该长度的片段的频率绘制的线形图。图17e示出了使用正交特征的患者特异性突变检测,所述正交特征例如基于其片段大小分布(x轴)和gmm联合对数比值比(y轴)的具有肿瘤起源的dna片段的对应关系。

图18a-图18f示出了正交特征例如片段大小在本公开的诊断方法中的用途,以及在基于cnv的方法中应用此类正交特征的伴随效果。图18a示出了基因组区域(bp)相对于累积血浆深度覆盖度偏态(skew)(底部图),血浆相对于正常深度覆盖度偏态(中间图)和覆盖度(顶部图)的线形图。图18b示出深度覆盖度的log2(log2>0.5=扩增,log2<-0.5=缺失)与该区段中的局部片段大小质心(com)之间的关系。图18c示出深度覆盖度log2相对于片段大小质心(com)的点图。使用基因组中所有窗口的估计log2和com值,在各个时间点(例如,基线0天,21天和42天)计算log2/com线性模型的中值样品质心(com),斜率和r^2。图18d示出了log2/fs估计与肿瘤dna的分数之间的相关性。图18e示出了患者样品中基于深度覆盖度的cnv检测与基于片段大小质心(com)的cnv检测之间的关系。图18f显示在正常(健康)血浆样品中基于深度覆盖度的cnv检测与基于片段大小质心(com)的cnv检测之间缺乏关系。

详细说明

现在将参考附图更详细地描述本公开,在附图中示出了本公开的优选实施方案。然而,本公开可以以不同的形式体现,并且不应被解释为限于本文阐述的实施方案。相反,提供这些实施方案使得本公开将是透彻和完整的,并将向本领域技术人员充分传达本公开的范围。

除非另有定义,否则与本文所述的本教导结合使用的科学和技术术语应具有本领域普通技术人员通常理解的含义。在本文的公开内容的描述中使用的术语仅出于描述特定实施方案的目的,而无意于限制本公开。此外,除非上下文另外要求,否则单数术语应包括复数,并且复数术语应包括单数。通常,本文描述的与分子生物学,蛋白质和寡核苷酸或多核苷酸化学以及杂交的技术结合使用的命名以及上述技术是本领域众所周知的和常用的。使用了标准技术,例如,用于核酸纯化和制备,化学分析,重组核酸和寡核苷酸合成的技术。酶促反应和纯化技术制造商的说明书进行,或者如本领域通常完成的那样进行或如本文所述进行。本文描述的技术和程序通常根据本领域公知的常规方法来执行,并且如在本说明书全文中引用和讨论的各种一般性和更具体的参考文献中所述。参见,例如,sambrook等人,molecularcloning:alaboratorymanual(第三版,coldspringharborlaboratorypress,coldspringharbor,n.y.2000)。与本文所述的实验室程序和技术结合使用的术语以及所述实验室程序和技术是本领域众所周知的和常用的。

在以下段落中进一步详细描述了本公开的各种实施方案。

定义

如在本公开的说明书和所附权利要求书中所使用的,单数形式的“一”、“一个”和“该”也旨在包括复数形式,除非上下文另外明确指出。同样如本文中所使用的,“和/或”是指并且涵盖一个或更多个相关联的所列项目的任何一个及其所有可能的组合,以及当以备选方式(“或”)解释时缺乏组合。

单词“约”表示该值的正负10%的范围,例如,“约5”表示4.5至5.5,“约100”表示90至100,等等,除非本公开的上下文另外指出,或与此解释不一致。例如,在诸如“约49,约50,约55”之类的数值列表中,“约50”是指延伸至小于先前值与后续值之间的间隔的一半的范围,例如大于49.5到小于52.5。此外,应基于本文所提供的术语“约”的定义来理解短语“小于约”一个数值或“大于约”一个数值。

在本公开中提供了数值的范围的情况下,其意图是在该范围的上限和下限之间的每个中间值以及在该范围内任何其他声明的值或中间值都包含在本公开中。例如,如果声明的范围是1μm至8μm,则意图是还明确公开了2μm、3μm、4μm、5μm、6μm和7μm。

如本文所用,术语“多个”可以是2、3、4、5、6、7、8、9、10或更多。

如本文所用,术语“筛查”具有广泛的含义。它包括旨在诊断或确定无症状受试者在以后的生活中发展为病症的易感性、倾向性、风险或风险评估的过程。筛查还包括受试者的预后,即,当受试者已被诊断出患有病症时,预先确定该病症的进展以及评估治疗病症的疗法选择的功效。

如本文所用,术语“检测”是指通过测量样品中的一个或更多个参数来确定与样品相关的一个值或一组值的过程,并且可还包括将测试样品与参考样品进行比较。根据本公开,肿瘤的检测包括鉴定、测定、测量和/或定量一种或更多种标记。

如本文所用,术语“诊断”是指可以确定受试者是否可能患有给定疾病或病况的方法,包括但不限于以遗传变异为特征的疾病或病况。技术人员通常基于一种或更多种诊断指标(例如标记)进行诊断,该标记的存在、不存在、数量或数量的变化指示疾病或病症的存在、严重性或不存在。其他诊断指标可包括患者病史;身体症状,例如无法解释的体重减轻、发烧、疲劳、疼痛或皮肤异常;表型;基因型;或环境或遗传因素。技术人员将理解,术语“诊断”是指特定病程或结果发生的增加的可能性;也就是说,与未表现出该特征的个体相比,在表现出给定特征(例如,诊断指标的存在或水平)的患者中更可能发生病程或结果。本公开的诊断方法可以单独使用,或者与其他诊断方法结合使用,以确定在表现出给定特征的患者中是否更可能发生病程或结果。

如本文所用,术语疾病(例如癌症)的“早期检测”是指例如在癌症背景下的转移之前发现疾病表现的可能性。优选地,早期检测是指在观察到组织或细胞的形态变化之前鉴定疾病。此外,术语细胞转化的“早期检测”是指细胞在形态学上被指定为转化之前的早期阶段经历转化的高可能性。

如本文所用,术语“细胞转化”是指细胞特征从一种形式改变为另一种形式,例如从正常到异常,从非肿瘤到肿瘤,从未分化到分化,从同质到异质。此外,可以通过细胞的形态、表型、生化特性(例如生长特性、凋亡特性、脱离、侵袭特性等)来识别转化。

如本文所用,术语“肿瘤”包括与正常或野生型细胞相比,在遗传、细胞或生理水平上可能已经经历转化的任何细胞或组织。该术语通常表示肿瘤生长,其可能是良性的(例如,不形成转移并破坏相邻正常组织的肿瘤)或恶性的/癌变(例如,侵入周围组织且通常能够产生转移的肿瘤,其在尝试移除后可能复发,除非经过适当治疗,否则很可能导致宿主死亡)。参见steadman的medicaldictionary,28thedwilliams&wilkins,baltimore,md(2005)。

术语“癌症”(与“肿瘤”互换使用)是指人类癌症和癌、肉瘤、腺癌、淋巴瘤、白血病、实体癌和淋巴癌等。不同类型的癌症的示例包括但不限于肺癌、胰腺癌、乳腺癌、胃癌、膀胱癌、口腔癌、卵巢癌、甲状腺癌、前列腺癌、子宫癌、睾丸癌、神经母细胞瘤、头、颈、子宫颈和阴道鳞状细胞癌、多发性骨髓瘤、软组织和成骨肉瘤、结肠直肠癌、肝癌、肾癌(例如rcc)、胸膜癌、宫颈癌、肛门癌、胆管癌、胃肠道类癌、食道癌、胆囊癌、小肠癌、中枢神经系统癌症、皮肤癌、绒毛膜癌、成骨肉瘤、纤维肉瘤、神经胶质瘤、黑色素瘤等。在一些实施方案中、排除“液体”癌症、例如血液癌、例如淋巴瘤和/或白血病。

示例性癌症包括但不限于肾上腺皮质癌、与aids有关的癌症、与aids有关的淋巴瘤、肛门癌、肛肠癌、肛管癌、阑尾癌、儿童小脑星形细胞瘤、儿童脑星形细胞瘤、基底细胞癌、皮肤癌(非黑色素瘤)、胆道癌、肝外胆管癌、肝内胆管癌、膀胱癌(bladdercancer)、膀胱癌(urinarybladdercancer)、骨和关节癌、骨肉瘤和恶性纤维组织细胞瘤、脑癌、脑瘤、脑干神经胶质瘤、小脑星形细胞瘤、脑星形细胞瘤/恶性神经胶质瘤、室管膜瘤、髓母细胞瘤、幕上原始神经外胚层肿瘤、视觉通路和下丘脑神经胶质瘤、乳腺癌、支气管腺瘤/类癌、类癌、胃肠道、神经系统癌、神经系统淋巴瘤、中枢神经系统癌、中枢神经系统淋巴瘤、宫颈癌、儿童期癌症、慢性淋巴细胞性白血病、慢性粒细胞性白血病、慢性骨髓增生性疾病、结肠癌、结肠直肠癌、皮肤t细胞淋巴瘤、淋巴样肿瘤、蕈样肉芽肿、seziary综合征、子宫内膜癌、食道癌、颅外生殖细胞瘤(extracranialgermcelltumor)、性腺外生殖细胞瘤、肝外胆管癌、眼癌、眼内黑色素瘤、视网膜母细胞瘤、胆囊癌、胃癌、胃肠道类癌、胃肠道间质瘤(gist)、生殖细胞瘤、卵巢生殖细胞瘤、妊娠滋养细胞肿瘤神经胶质瘤、头颈癌、肝细胞(肝)癌、霍奇金淋巴瘤(hodgkinlymphoma)、下咽癌、眼内黑色素瘤、眼癌、胰岛细胞瘤(内分泌胰腺)、卡波济肉瘤(kaposi'ssarcoma)、肾癌(kidneycancer)、肾癌(renalcancer)、喉癌、急性淋巴细胞白血病、急性髓细胞性白血病、慢性淋巴细胞性白血病、慢性粒细胞性白血病、毛细胞白血病、嘴唇和口腔癌、肝癌、肺癌、非小细胞肺癌、小细胞肺癌、与aids相关的淋巴瘤、非霍奇金淋巴瘤、原发中枢神经系统淋巴瘤、waldenstram巨球蛋白血症、髓母细胞瘤、黑色素瘤、眼内(眼)黑色素瘤、默克尔(merkel)细胞癌、恶性间皮瘤、间皮瘤、转移性鳞状颈癌、口腔癌、舌癌、多发性内分泌肿瘤综合征、蕈样肉芽肿、骨髓增生异常综合症、骨髓增生异常/骨髓增生性疾病、慢性骨髓性白血病、急性髓性白血病、多发性骨髓瘤、慢性骨髓增生性疾病、鼻咽癌、神经母细胞瘤、口腔癌(oralcancer)、口腔癌(oralcavitycancer)、口咽癌、卵巢癌、卵巢上皮癌、卵巢低度恶性潜在肿瘤、胰腺癌、胰岛细胞胰腺癌、鼻窦和鼻腔癌、甲状旁腺癌、阴茎癌、咽癌、嗜铬细胞瘤、成松果体细胞瘤和幕上原始神经外胚层肿瘤、垂体瘤、浆细胞肿瘤/多发性骨髓瘤、胸膜肺母细胞瘤、前列腺癌、直肠癌、肾盂和输尿管癌、移行细胞癌、视网膜母细胞瘤、横纹肌肉瘤、唾液腺癌、尤文氏肉瘤家族、卡波济肉瘤、子宫癌、子宫肉瘤、皮肤癌(非黑色素瘤)、皮肤癌(黑色素瘤)、默克尔细胞皮肤癌、小肠癌、软组织肉瘤、鳞状细胞癌、胃癌、幕上原始神经外胚层肿瘤、睾丸癌、喉癌、胸腺瘤、胸腺瘤和胸腺癌、甲状腺癌、肾盂和输尿管及其他泌尿器官的移行细胞癌、妊娠滋养细胞肿瘤、尿道癌、子宫内膜子宫癌、子宫肉瘤、子宫体癌、阴道癌、外阴癌和威尔姆氏肿瘤(wilm'stumor)。

如本文所用,“高体细胞突变率”是指基因组每兆碱基对有约1、约2、约3、约5、约7、约10、约12、约15、约20、约25、基有30、约40、约50、约60、约75、约80、约100、约125、约150或更多个突变(突变/mbp)的肿瘤。参见collisson等人,nature,511(7511):543-50,2014。

如本文所用,本文所用的术语“非小细胞肺癌”或nsclc是指不是小细胞肺癌的所有肺癌,并且包括几种亚型,包括但不限于大细胞癌、鳞状细胞癌和腺癌。包括所有阶段和转移。鳞状细胞癌占肺癌的25%,通常始于中央支气管附近。通常在肿瘤中心发现空心腔和相关的坏死。高分化鳞状细胞癌的生长速度通常比其他类型的癌症慢。腺癌占非小细胞肺癌的40%。它通常起源于周围的肺组织。多数腺癌病例与吸烟有关;然而,在从未吸烟的人群中,腺癌是最常见的肺癌形式。参见,rosell等人,lungcancer,46(2),135-48,2004;coate等人,lancetoncol,10,1001-10,2009。

如本文所用,术语“细胞”与术语“生物细胞”可互换使用。生物细胞的非限制性示例包括真核细胞、植物细胞、动物细胞(例如哺乳动物细胞、爬行动物细胞、禽类细胞、鱼细胞等)、原核细胞、细菌细胞、真菌细胞、原生动物细胞等、从组织(例如肌肉、软骨、脂肪、皮肤、肝、肺、神经组织等)分离的细胞、免疫细胞(例如t细胞、b细胞、自然杀伤细胞、巨噬细胞等)、胚胎(例如,受精卵)、卵母细胞、卵细胞、精子细胞、杂交瘤、培养的细胞、来自细胞系的细胞、癌细胞、感染的细胞、经转染和/或转化的细胞、报告细胞等。哺乳动物细胞可以例如来自人、小鼠、大鼠、马、山羊、绵羊、牛、灵长类动物等。

如本文所用,术语“受试者”是指哺乳动物,包括人、兽医或农场动物、家畜或宠物以及通常用于临床研究的动物。特别地,该受试者是人类受试者,例如被诊断出患有肿瘤或怀疑患有肿瘤的人类患者。

如本文所用,术语“受试者特异性数据集”是指对于每个个体独特的多种信息,例如基因组信息、表型信息、生化信息、代谢信息、微生物群系序列信息、电子病历数据、电子健康记录数据、药物处方、生物计量数据、营养信息、运动信息、家庭病史信息(例如,可以通过家庭健康史调查获得)、应用内书面聊天记录、受试者的个人医疗保健提供者记录和注释、受试者的保险提供者、患者拥护(advocate)网络信息、社交网络信息等。在一些实施方案中,一个或更多个受试者特异性数据集被例行更新和/或补充。在一些实施方案中,一个或更多个数据集被添加到多个受试者特异性数据集。

术语“受试者特异性基因组信息”是指个体的遗传组成,包括突变(snp、del/dup、vus等)和突变频率、家族基因组序列信息、结构基因组信息(包括突变)(序列、缺失、插入))、单核苷酸多态性、个人免疫组学信息(即,使用全基因组方法研究免疫系统调节和对病原体的反应)、功能基因组信息(功能基因组学侧重于诸如基因转录、翻译和蛋白质-蛋白质相互作用的动态方面)、计算基因组信息(使用计算和统计分析从基因组序列和相关数据解密、发现或预测生物机理)、表观基因组学(dna或组蛋白的可逆修饰,其影响基因表达但不改变dna序列(例如dna甲基化和组蛋白修饰)、病原学信息(包括涉及疾病状态的个人基因组-微生物相互作用)、regenomic信息、行为基因组信息、宏基因组学(即直接从环境样品中回收的个人遗传物质)。

术语“受试者特异性表型信息”是指性别、种族、身高、体重、头发颜色、眼睛颜色、心率、口味偏好、血压、自我描述的医学症状、医学诊断的症状、测试结果和/或由医学专业人士提供的诊断、蛋白质组概况等。术语“受试者特异性生化信息”是指临床测试的结果(例如,钠、镁、钾、铁、血尿素氮(bun)、尿酸等)、组织/血液等中的药物/药剂水平。

术语“受试者特异性电子病历数据”(emr),“电子健康记录”(ehr)和“个人健康记录”(phr)指来自以下的医学和临床数据:个体医疗保健提供者、诊所、医院、护理机构、受试者健康史、受试者易感疾病、受试者病史、诊断、药物/处方、治疗计划、免疫接种日期、过敏、放射影像、实验室和测试结果、预先指示、活检、来自家庭和移动监视设备(例如fitbit、iwatch、withings体重计、无线血压袖带等)的数据。

如本文所用,术语“样品”是指获自或源自目的受试者的组合物,其包含例如将基于物理、生化、化学和/或生理特性表征和/或鉴定的细胞和/或其他分子实体。组织样品的来源可以是血液或任何血液成分;体液;来自新鲜、冷冻和/或保存的器官或组织样品或活检或抽吸的实体组织;以及在受试者的妊娠或发育过程中的任何时间的细胞或血浆。样品包括但不限于原代或培养的细胞或细胞系、细胞上清液、细胞裂解物、血小板、血清、血浆、玻璃体液、眼液、淋巴液、滑液、卵泡液、精液、羊水、奶、全血、尿液、脑脊液(csf)、唾液、痰、眼泪、汗液、粘液、肿瘤裂解物和组织培养基、以及组织提取物(例如均质组织)、肿瘤组织和细胞提取物。样品还包括生物样品,这些样品在获得后已经通过任何方式进行了处理,例如通过试剂处理,对某些成分(例如蛋白质或核酸)进行增溶或富集,或者包埋在半固体或固体基质中用于切片目的,例如组织学样品中的组织或细胞的薄切片。优选地,样品获自血液或血液成分,包括例如全血、血浆、血清、淋巴液等。

如本文所用,术语“标记”是指可以作为正常生物学过程、致病过程或对治疗干预(例如利用抗癌药治疗)的药理反应的指标而客观地测量的特征。标记的代表性类型包括例如标记的结构(例如序列)或数量的分子变化,包括例如基因突变、基因重复或多种差异,例如cfdna的体细胞改变、拷贝数变异、串联重复或其组合。

如本文所用,术语“遗传标记”是指在染色体上具有特定位置的dna序列,其可以在实验室中测量。术语“遗传标记”也可以用于指例如由基因组序列编码的cdna和/或mrna,以及该基因组序列本身。遗传标记可包括两个或更多个等位基因或变体。遗传标记可以是直接的(例如,位于目的基因或基因座内(例如,候选基因)),间接的(例如,由于邻近但不在目的基因或基因座内,而与目的基因或基因座紧密相连)。而且,遗传标记还可能与基因组的非编码区段中存在的基因或基因座(例如snv,cnv或串联重复)无关。遗传标记包括编码或不编码基因产物(例如蛋白质)的核酸序列。特别地,遗传标记包括单核苷酸多态性/变异(snp/snv)或拷贝数变异(cnv)或其组合。优选地,与参考样品相比,遗传标记包括dna中的体细胞变异,例如ssnv或scnv或其组合。

如本文所用,术语“无细胞dna”或“cfdna”是指例如,从循环血液的血浆/血清中提取或分离的,从淋巴液,脑脊液(csf),尿液或其他体液中提取的,无细胞的脱氧核糖核酸(dna)链。术语“cfdna”与“循环肿瘤dna”或“ctdna”形成截然不同。无细胞dna(cfdna)是一个较宽泛的术语,其描述了在血流中自由循环但不一定来自肿瘤的dna。

如本文所用,关于突变的术语“单核苷酸多态性”或“单核苷酸变异”(“snp”或“snv”)是指与另一个序列相比,序列中至少一个核苷酸的差异。术语“拷贝数变异”或“cnv”是指具有相同核苷酸序列的基因片段在存在或不存在/获得或丢失的情况下的比较数值变化。

如本文以及通常在本领域中使用的,术语“indel”是指基因组上一个等位基因中存在一个或更多个碱基而另一等位基因中不存在碱基的位置。从进化的观点来看,插入或缺失是不同的,但是在诸如本文所述的分析过程中,由于在一个等位基因中的插入等同于在另一个等位基因中的缺失,它们通常不被区分。因此,术语indel是指两个等位基因之间的插入/缺失的位置。

“结构变体”涉及染色体的某些部分的改变,而不是基因组中染色体或一组染色体的数目的改变。导致结构变体的突变共有四种常见类型:缺失和插入,例如重复(分别涉及染色体中dna数量的变化,遗传物质的丢失和获得),倒置(涉及染色体片段的排列变化)和易位(涉及染色体片段的位置变化,这能够引起基因融合)。在本发明中,术语“结构变体”包括遗传物质的丢失、遗传物质的增加、易位、基因融合及其组合。

如本文所用,术语“种系dna”或“gdna”是指从患者的外周单核血细胞(包括从循环血液中获得的淋巴细胞)分离或提取的dna。

如本文所用,术语“变异”是指变化或偏差。关于核酸,变异是指dna核苷酸序列之间的差异或变化,包括拷贝数差异(cnv)。dna序列之间核苷酸的这种实际差异可以是snp和/或dna序列的变化,例如,当将序列与参照物(例如种系dna(gdna)或参考人类基因组hg38序列)比较时观察到的变化,例如融合、缺失、添加、重复等。优选地,变异是指cfdna序列与不是来自肿瘤细胞的对照dna序列之间的差异,例如当cfdna与参考hg38序列比较时,当将cfdna与gdna比较时。在gdna和cfdna中鉴定出的差异被认为是“构成性的(constitutional)”,可以忽略不计。

“基因座”(复数“loci”)对应于基因组中的已鉴定位置,并且可以跨越单个碱基或多个碱基的连续序列。通常通过使用相对于参考基因组和/或其染色体的标识符值或标识符值的范围来鉴定基因座;例如,标识符值“5100001”至“5800000”的范围可以指参考人类基因组中染色体1上的特定位置。“杂合基因座”(也称为“het”)是基因组中的一个基因座,其中染色体的两个拷贝没有相同的序列。这些在基因座处的不同序列称为“等位基因”。如果参考基因组位置有两个相差单个碱基的等位基因,则het可以是单核苷酸多态性(snp)。“het”还可以是参考基因组位置,其中存在一个或更多个核苷酸或一个或更多个串联重复的插入或缺失(统称为“indel”)。“纯合基因座”是参考或基线基因组中的基因座,其中染色体的两个拷贝具有相同的等位基因。染色体的“单倍型”是指染色体是否在基因组中出现一次还是两次;对于癌症或其他肿瘤细胞的基因组,染色体单倍型可以是非整数和/或大于2的值。基因组中的“区域”可包括一个或更多个基因座。

“片段”是指包含在或衍生自(例如,通过扩增)从目标生物体(例如,人)提取的生物样品的核酸分子(例如,dna)。片段可包括染色体的整个臂、整个染色体或其一部分。

“片段大小”是指片段的长度,并且可以以任何可接受的单位表达,例如碱基对或道尔顿等。代表性片段可能为短于200bps;200-500bps;500-1kb(其中1kb=1000bps);1kb-10kb,10kb-50kb,50kb-100kb和超过100kb的长度(例如1兆碱基对)。测序用于确定鉴定片段中核苷酸的一个或更多个序列(读数)的信息。可以生成片段的部分以及全部序列信息。可以以不同程度的统计学可靠性或置信度来确定序列信息。

如本文所用,术语“变异等位基因频率”(vaf)或“变异等位基因分数”是指在基因分型后,一个等位基因占dna样品中等位基因总量的分数。按照惯例,对于双等位基因多态性变体(pv),vaf是指b等位基因频率(baf),它是pv分型数据中b等位基因的分数,可以通过高通量基因分型方法(例如snp阵列或ngs)从dna样品中获得。在一些实施方案中,vaf是b等位基因频率。或者,也可以使用a等位基因频率(aaf)。b等位基因频率包括a等位基因频率信息,反之亦然。

通常,vaf值是使用0到1的值表示的,因为它们是指频率或分数。原则上,可以使用多重所述值来表达vaf值,例如,使用0到100的值。例如,表示等位基因总量的一半具有多态变体等位基因的vaf值0.5可以是表示为例如50。在这种情况下,vaf值为1(即所有等位基因均具有特定基因型)将表示为100。通常,vafmax表示最大的vaf值(即所有等位基因均具有特定基因型),而vafmin表示最小的vaf值(即,等位基因均不具有特定基因型)。在整个本申请中,使用从0到1的值表示vaf(特别是baf)值,因此vafmin为0并且vafmax为1。然而,本发明的实施方案不限于使用该特定范围表示的vaf值。us2016/0210402中提供了有关vaf的详细指南,包括“翻转的(flipped)”vaf。

如本文所用,“读数”是指代表一个或更多个核苷酸碱基的一个或更多个数据值的集合。读数可以由已经对核酸片段的全部或部分进行序列确定的测序仪和/或相关逻辑产生。“配对(matepair)”(也称为“配对读数(matedread)”或“成对末端读数(paired-endread)”)是指从同一片段的相对末端确定的至少两个读数(也称为“臂读数(armread)”)。两个臂读数可以统称为配对,其中关于对该配对进行测序的片段,两个臂读数之间存在缺口。这两个臂读数可以分别称为“左”臂读数和“右”臂读数;但是,应理解,任何“左”(或“右”)指定均不限于严格在左(或在右),因为来自片段的臂读数的位置可以关于各种参考点进行报告,例如观察者的方向,dna链的方向性(例如5'端至3'端,反之亦然),或为参考基因组选择的基因组坐标系。读数可以与各种信息一起存储,例如,独特读数标识符,片段的标识符或作为配对的一部分的读数的配对标识符。

如本文所用,“假象”是指科学调查或实验中并非天然存在的,而是由于准备性或研究性程序而发生的观察结果。测序中的假象包括例如假象峰(阴影带)以及模板相关的假象(假终止)。假象峰涉及在分离中可见的峰,该峰不对应于由相应的双脱氧核苷酸三磷酸酯(ddntp)终止的正确大小的片段,其在sanger双脱氧方法中用于产生用于dna测序的不同长度的dna链。假象峰可细分为引物诱导的假象峰和模板诱导的假象峰。当使用的引物具有与并不打算结合的模板的其他区域结合的亲和力时,会导致与目标序列无关的dna片段的形成,这会产生与引物相关的假象。相反,由于在加入ddntp之前dna聚合酶从模板上脱落,因此产生了终止假象。据认为,模板dna的二级结构是造成这种错误终止的原因。dna聚合酶在与模板的结合方面也具有有限的周期性,这称为持续性(processivity),短持续性频率被认为会增加假象的数量。例如,taqdna聚合酶的持续性约为40个碱基对,并被认为不包含与引物相关的假象峰。sanger链终止期间可能会出现错误的停止,这是因为当dna聚合酶遇到ddntp时阻止dna聚合酶延长其生长链,并且在不包括ddntp的情况下停止了dna链的延伸。

术语“等位基因”是指出现在特定基因座的两个或更多个不同核苷酸序列之一。

“等位基因分数”是指对于基因组中给定基因座,其从生物样品中包括的核酸片段测序的一个或更多个等位基因的百分比。除了某些例外(例如,人类男性的y染色体),二倍体生物(例如人类)通常每个染色体都有两个拷贝。因此,通常基因组中的基因座可以是纯合的(例如,在两个染色体拷贝上具有相同的等位基因)或杂合的(例如,在两个染色体拷贝上具有不同的等位基因)。因此,“相等等位基因分数”值是指数据值1.0(例如,对于纯合基因座处的等位基因而言为100%等位基因分数)或0.5(例如,对于杂合基因座处的等位基因而言为50%等位基因分数)。

“可变等位基因分数”或“vaf”是指大于零但不同于0.5和1.0的数据值。可变等位基因分数值可用于解决这样的情况,其中给定基因座的等位基因可以在生物样品的核酸片段中以不同于0%,50%和100%的分数表示。此类情况可能包括但不限于异质性,污染和非整倍性。例如,由于样品内的正常/基质组织污染或由于同一肿瘤样品内的多个不同肿瘤群体,肿瘤样品(例如,癌症样品)可能是异质性的。在另一个实例中,肿瘤样品可以是非整倍体,使得染色体(或其区域)具有不同于两个的拷贝数,从而导致等位基因分数从het的50%偏离到存在三个拷贝时的33%或66%。可变等位基因分数值的示例包括但不限于以下范围和/或范围组合的值:0.005至0.10;0.10至0.20;0.20至0.30;0.30至0.40;0.40至0.49;0.51至0.60;0.60至0.70;0.70至0.80;0.80至0.90;0.90至0.99;更一般而言,范围在0.005至0.49和0.51至0.99之间的任何值。

如本文所用,术语“对照”是指测试样品的参考,例如从外周单核血细胞和淋巴细胞分离的对照dna,其中这些细胞不是癌细胞等。如本文所用,“参考样品”是指可能患有或不患有癌症的用于比较的组织或细胞的样品。因此,“参考”样品由此提供了可以与另一样品例如含有cfdna的血浆样品进行比较的基础。相反,“测试样品”是指与参考样品或对照样品相比的样品。参考样品不必是无癌的,例如当从同一位患者在不同时间获得参考样品和测试样品时。

在一些实施方案中,参考样品或对照可包括参考组件(referenceassembly)。术语“参考组件”是指数字核酸序列数据库,例如包含hg38组件序列的人类基因组(hg38)数据库(组装于2013年12月)。可以通过万维网urlgenome.ucsc.edu的人类(homosapiens)加州大学圣克鲁兹分校(universityofcaliforniasantacruz,ucsc)基因组浏览器网关访问该网关。另外,参考组件也可以指基因组参考协会的人类基因组组件(版本38;组装于2017年6月),可通过美国国家生物技术信息中心(u.s.nationalcenterforbiotechnologyinformation,ncbi)的网站在互联网上进行访问。

如本文所用,术语“测序”或“序列测定”作为动词是指确定dna的核苷酸序列或核苷酸的顺序,例如核苷酸顺序agtcc等的过程。“序列”作为名词是指从测序获得的实际核苷酸序列;例如,具有序列agtcc的dna。其中“序列”是以数字形式提供和/或接收的,例如在磁盘上或通过服务器远程提供,“测序”可以指使用本公开的方法和/或系统传播、操作和/或分析的dna集合。

如本文所用,“基本上”是指足以用于预期目的。因此,术语“基本上”允许从绝对的或完美的状态、尺寸、测量、结果等进行微小的、微不足道的变化,这是本领域普通技术人员可以期望的,但是不会明显影响整体性能。当针对可表示为数值的数值或参数或特性使用时,“基本上”是指百分之十以内。

如本文所用,术语“基本上纯化的”是指从其天然环境中分离,分离或分开或提取的cfdna分子,其至少60%,优选75%,更优选90%,且最优选99%不含与之天然相关的其他成分。

术语“全基因组测序”是指确定样品中每个dna链的dna序列的实验室过程。所得序列可以称为“原始测序数据”或“读数”。如本文所用,当序列与参考染色体dna序列的区域具有相似性时,读数是“可映射的”读数。术语“可映射的”可以指与参考序列显示相似性并因此被“映射”的区域,例如,与数据库中的参考序列显示相似性的cfdna区段,例如与人类基因组(hg38)数据库中的人类染色体区域8q248q24.3具有高相似性百分比的cfdna是“可映射的读数”。

除“wgs”外,可使用靶向测序来获得基因组概要。与wgs相比,本文使用的术语“靶向测序”是指确定样品中选定dna基因座或基因的dna序列的实验室过程,例如对选定组的癌症相关基因或标记(例如靶标)进行测序。在本上下文中,术语“靶序列”是指选定的靶多核苷酸,例如存在于cfdna分子中的序列,需要确定其存在、数量和/或核苷酸序列或其中的变化。靶序列被查询是否存在体细胞突变。靶多核苷酸可以是与疾病例如癌症相关的基因区域。在一些实施方案中,该区域是外显子。

如本文所用,关于cfdna的术语“低丰度”是指样品中cfdna的量小于约20ng/ml,例如约15ng/ml,约10ng/ml或以下,例如约9ng/ml、8ng/ml、7ng/ml、6ng/ml、5ng/ml、4ng/ml、3ng/ml、2ng/ml、1ng/ml、0.7ng/ml、0.5ng/ml、0.3ng/ml或更小,例如0.1ng/ml或甚至0.05ng/ml。在一些实施方案中,术语“低丰度”可以在标记的唯一性的上下文中理解,例如长度或碱基组成。例如,尽管受试者的样品可能包含大量的cfdna(例如>20ng/ml),但cfdna中包含的独特遗传标记(例如ssnv)的实际数量可能非常低。通常,此参数表示为基因组当量(ge)或覆盖度,如下所述。一些实施方案中,术语“低丰度”可以在标记的肿瘤特异性的背景下理解。例如,尽管受试者的样品可能包含大量的cfdna(例如,>20ng/ml),但cfdna中包含的绝大多数遗传标记(例如,ssnv)可能是冗余的和/或与参照物(例如pbmcgdna)相关。通常,此参数表示为肿瘤分数(tf),如下所述。

如本文所用,关于cfdna的术语“肿瘤特异性的”或“与肿瘤相关的”是指当与参考dna比较时,例如当cfdna与来自非肿瘤细胞的对照dna(gdna)比较时,其癌症形成肿瘤的受试者(例如肺癌患者)中cfdna的dna序列的差异,如本文所述。备选地,当与治疗期间或之后收集的cfdna相比时,“肿瘤特异性”可涉及治疗前的cfdna。

如本文所用,术语“基因组当量”或“ge”是指独特dna片段的数量。在一些实施方案中,样品包含5至约10000ge,优选地100至约5000ge,特别是约200至约2000ge,例如约25、50、100、200、300、400、500、600、700、800、900、1000、1200、1400、1600、2000或5000ge。如本领域所理解的,包含约6ng的cfdna的典型样品包含约1000或更少的ge。优选地,ge大于1(例如,大于2、5、10、15、20、25、50、100、200、500或1000)。预期10-20ml的血液包含约10,000ge。因此,在一些实施方案中,合适的样品可以包含约20ml、15ml、10ml、5ml、4ml、3ml、2ml、1ml、0.5ml、0.1ml、0.01ml或0.001ml的血浆。

术语“覆盖度”或“读数深度”涉及测序工作。例如,20x的覆盖度表示适度的测序工作,而35x或更高的覆盖度则表示高的测序工作,而5x的覆盖度则表示低的测序工作。在本公开的实施方案中,覆盖度通常在约5x至约100x之间,特别是在15x至约40x之间,例如20x、30x、35x、40x、50x、70x或更大。

如本文所用,术语“突变负荷”或“n”是指预定基因组窗口中每个预选单位(例如,每兆碱基对)的改变(例如,一个或更多个遗传改变,特别是一个或更多个体细胞改变)的水平(例如数量)。可以例如基于整个基因组或外显子组或基于基因组或外显子组的子集来测量突变负荷。在某些实施方案中,可以外推基于基因组或外显子组的子集测量的突变负荷以确定整个基因组或外显子组突变负荷。在某些实施方案中,突变负荷是在来自受试者例如本文所述的受试者的样品例如肿瘤样品(例如,肺肿瘤样品或从肺肿瘤获得或衍生的样品)中测量的。优选地,突变负荷是cfdna每兆碱基对(1,000,000bp或mbp)的突变数的量度。如本领域中已知的,突变负荷可以根据肿瘤的类型、遗传谱系和其他受试者特异性特征(例如年龄、性别、烟草消费等)而变化。在肿瘤诊断的背景下,突变负荷可以介于每mbp约1000到约10000个突变之间,例如约1000、2000、4000、6000、8000、10000、12000、15000、20000、25000、30000、40000、50000、60000、60000、70000、80000、90000、10000、10000或更多,例如每mbp约200000。通常,在非吸烟者中,突变负荷为每mbp约8,000个,而在患有黑色素瘤的受试者中,突变负荷为每mbp40,000个以上。

如本文所用,术语“基因组窗口”是指所选核苷酸序列边界内的dna区域。窗口可彼此分离或彼此重叠。

如本文所用,术语“肿瘤分数”或“tf”涉及相对于正常dna分子的肿瘤dna分子的水平(例如数量)。在一些实施方案中,“肿瘤分数”是指无循环细胞的肿瘤dna(ctdna)相对于无细胞dna(cfdna)总量的比例。据信肿瘤分数指示肿瘤的大小。通常,肿瘤分数(tf)在约0.001%至约1%之间,例如,约0.001%,0.05%,0.1%,0.2%,03%,0.4%,0.5%,0.6%,0.7%,0.8%,0.9%,1%或更高,例如2%。

术语“丰度”可以指表明特定分子种类的存在的二进制(例如,不存在/存在)、定性(例如,不存在/低/中等/高)或定量信息(例如,与数量、频率或浓度成比例的值)。在这种情况下,以较高相对浓度存在的突变与大量恶性细胞相关,例如,与体内其他恶性细胞相比,在致癌过程中较早转化的细胞(welch等人,cell,150:264-278,2012)。由于这些突变的相对丰度较高,因此它们与具有较低相对丰度的那些突变相比,有望表现出更高的诊断灵敏度用于检测癌症dna。

如本文所用,“测序错误率”涉及不正确测序核苷酸的比例。例如,在全基因组测序的背景下,文献中报道了每1000个碱基大约1个的测序错误率(范围:每个碱基调用(base-call)的错误率约为0.1–1%级;wu等人,bioinformatics,33(15):2322-2329,2017)。

如本文所用,术语“测序深度”是指测序区被序列读数覆盖的次数。例如,平均测序深度为10倍意味着测序区域内的每个核苷酸平均被10个序列读数覆盖。随着测序深度的增加,检测与癌症相关的突变的机会有望增加。但是,实际上,检测的几率并不随测序深度线性增加,这一事实证明,即使在42,000x的中值深度,cfdna丰度的基本限制也只能导致大约19%的早期肺腺癌的阳性检测(abbosh等人,nature,545(7655):446-451,2017)。

如本文所用,测序读数中给定碱基的术语“碱基质量”得分是测序仪错误地调用碱基的概率。通过phred-like算法为读数中的每个碱基分配质量得分(ewing等人,genomeres.8(3):175-185,1998;ewing等人,genomeres.8(3):186-194,1998中描述了代表性方法),这类似于最初为sanger测序实验开发的方法。在一些实施方案中,碱基质量(bq)包括可变碱基质量(vbq)或平均读数碱基质量(mrbq),这两者都是碱基质量度量的变体。

如本文所用,术语“pcr错误”表示在测序中经由聚合酶链反应(pcr)扩增步骤引入的错误。典型的pcr错误率为105个碱基对中有约1个错误(barnes等人,pnasusa,91:2216,1994)。

如本文所用,术语“映射质量”得分指示相对于参考序列准确地放置特定序列读数的置信度。li等人,genomeresearch,18:1851-1858,2008提供了一种确定映射质量得分的方法。在将序列读数映射到参考序列之后,可以通过映射算法提供映射质量得分。

术语“读数位置”或“读数中位置(pir)”是指核苷酸序列中读数(例如标记)上的位置。如在基因组学中所理解的,许多测序方案易于发生各种类型的扩增引起的偏差和错误,这可以通过实施诸如“读数方向”和“读数位置”过滤器的过滤器来减少。读数方向过滤器可去除几乎只存在于正向或反向读数中的变体。对于许多测序方案而言,此类变体最有可能是扩增引起的错误的结果。读数位置过滤器以类似于“读数方向过滤器”的方式实施,以消除系统错误,但也适用于基于杂交的数据。与覆盖变体位点的读数的一般位置所预期的相比,它去除了携带它的读数中不同定位的变体。这通过根据读数的映射方向及在读数中发现该核苷酸的位置将每个测序的核苷酸(或缺口)分类而完成;每个读数沿其长度分为几部分(例如5部分),并记录核苷酸的部分编号。对于每个测序的核苷酸,总共给出了十个类别,并且一个给定的位点会在覆盖该位点的读数的这十个类别之间分布。如果该位点中存在变体,则可以预期该变体核苷酸遵循相同的分布。读数位置过滤器执行测试以测量读数位置的显著性,例如,测量携带读数的变体的读数位置分布是否与覆盖该位点的读数总集的读数位置分布不同。

如本文所用,术语“箱”是指例如在“基因组箱”中分组在一起的dna序列组。在特定情况下,箱可以包括基于“基因组箱窗口”而分箱的dna序列组,其包括使用基因组窗口对dna序列进行分组。

仅作为示例,并且作为对以下详细描述的总结,本文的各个实施方案涉及运行本公开的诊断引擎(引擎)的算法和软件。引擎使用联合捕获比对的基因组上下文、完整的读数序列以及每个碱基的质量得分的积分的读数代表。相反,在本领域已知的序列分析软件中使用的代表将一批读数视为单个特征,从而丢失了有关序列比对本身以及与读数相关的每个碱基质量的有价值的信息(poplin等人,biorxiv,pp.092890,2016;torracinta&campagne,biorxiv,pp.097469,2016)。

方法

本公开的系统和方法可用于各种人类疾病的诊断、预后和监测。例如,可以使用本文描述的方法和系统来检测多种癌症。像大多数细胞一样,癌细胞的特征在于周转率,其中旧细胞死亡并被新细胞取代。通常,与给定受试者的脉管系统接触的死细胞可以将dna或dna片段释放到血流中。在疾病的各个阶段中的癌细胞也是如此。取决于疾病的阶段,癌细胞还可以通过各种遗传异常例如拷贝数变异和突变来表征。使用本文描述的方法和系统,该现象可以用于检测癌症个体的存在或不存在。

根据本公开,可以如本文所述抽取和制备来自处于癌症风险中的受试者的血液,以产生无细胞多核苷酸群体。在一个实例中,群体可包括无细胞dna。本公开的系统和方法可以用于检测某些癌症中存在的标记(例如,snv、cnv、indel和/或sv)。尽管没有症状或其他疾病特征,该方法仍可帮助检测体内癌细胞的存在。本公开的方法可以应用于诊断或预后任何类型的癌症或肿瘤。因此,可以检测到的癌症类型包括但不限于血癌、脑癌、肺癌、皮肤癌、鼻癌、咽喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、固态肿瘤。异质性肿瘤和均质性肿瘤都可以根据本公开内容进行诊断或预后。

该系统和方法可用于检测可能由癌症引起或导致的任何数量的遗传异常。这可包括但不限于突变、突变、indel、拷贝数变异、颠换(transversion)、易位、倒位、缺失、非整倍性、部分非整倍性、多倍体、染色体不稳定、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因重复、染色体损伤、dna损伤、核酸化学修饰的异常变化、表观遗传模式的异常变化、核酸甲基化感染和癌症的异常变化。另外,本文所述的系统和方法还可用于帮助表征某些癌症。由本公开的系统和方法产生的遗传数据可以允许医师帮助更好地表征特定形式的癌症。通常,癌症的成分和分期都是异质性的。遗传概况数据可允许表征癌症的特定亚型,这在该特定亚型的诊断或治疗中可能很重要。该信息还可为受试者或医师提供关于特定类型癌症预后的线索。本文提供的系统和方法可用于监测特定受试者中已知的癌症或其他疾病。这可以允许受试者或医师根据疾病的进展来适应治疗选择。在该实例中,本文描述的系统和方法可用于构建疾病过程中的特定受试者的遗传概况。在某些情况下,癌症可能会进展,变得更具侵袭性并且在基因上不稳定。在其他实例中,癌症可以保持良性,不活跃或休眠。本公开的系统和方法在确定疾病进展中可能是有用的。

此外,本文所述的系统和方法可用于确定特定治疗选择的功效。在一个示例中,如果治疗成功,则成功的治疗选择实际上可增加受试者血液中检测到的拷贝数变异或突变的数量,因为更多的癌症可能死亡并脱落dna。在其他示例中,这可能不会发生。在另一个示例中,也许某些治疗选择可能与随时间的癌症遗传概况相关。这种相关性可用于选择疗法。另外,如果观察到癌症在治疗后正在缓解,则本文所述的系统和方法可用于监测残留的疾病或疾病的复发。

本文所述的方法和系统可能不限于检测仅与癌症相关的突变和拷贝数变异。优选地,本公开的方法和系统可用于癌症的早期诊断或早期检测。

此外,本公开的方法可以用于表征受试者中异常状况的异质性,该方法包括产生受试者中细胞外多核苷酸的遗传概况,其中该遗传概况包括来自于拷贝数变异和突变分析的多个数据。在某些情况下,疾病可能是异质性的,包括但不限于癌症。疾病细胞可能不相同。在癌症的示例中,已知一些肿瘤包括不同类型的肿瘤细胞,处于癌症的不同阶段的一些细胞。在其他示例中,异质性可包括疾病的多个病灶。再次,在癌症的示例中,可能存在多个肿瘤灶,也许其中一个或更多个灶是从原发部位扩散的转移的结果。

本公开的方法可以用于产生或概括(profile)指纹或数据集合,其是从自异质性疾病中不同细胞获得的遗传信息的总和。该数据集合可包含拷贝数变异和突变分析之一或其组合。另外,本公开的系统和方法可以用于诊断、预后、监测或观察胎儿来源的癌症或其他疾病。也就是说,这些方法可用于怀孕的受试者以诊断、预后、监测或观察其dna和其他多核苷酸可与母体分子共同循环的未出生受试者的癌症或其他疾病。

前述诊断方法可以与其他常见诊断程序结合使用,例如,回顾健康史、身体检查、实验室测试(血液、尿液等)、活检成像检查(例如x射线、pet/ct、mri、超声等)、核医学扫描(例如,骨扫描),内窥镜检查,家族史等。

优选地,本公开的诊断方法将普通诊断程序(例如,ct扫描)的预测预后值(ppv)提高至少20%、至少30%、至少40%或更多,例如,至少50%。

在附图的图1、图2和图7中提供了诊断方法的代表性非限制性示意图。

工作流程

图1a是示出根据本公开的各种实施方案的用于诊断肿瘤疾病例如早期肿瘤疾病的方法100的流程图。方法100仅是说明性的,并且实施方案可以使用方法100的变体。方法100可包括以下步骤:接收标记概要;根据多个特征过滤与标记相关的噪声;应用已经用计算机数据集和/或患者数据集训练过的卷积神经网络来适应性地和系统地过滤噪声;从概要中删除人工噪声标记以生成受试者特异性标记,这些标记在统计上与数据集匹配以生成置信区间;并基于置信区间诊断疾病。

在图1a的方法100的步骤110中,从受试者接收遗传标记概要。在一些实施方案中,遗传标记的概要是以变体调用格式(vcf)文件接收的。如本领域所理解的,vcf文件在生物信息学中用于存储基因序列变异。vcf格式是随着大规模基因分型和dna测序项目(例如1000基因组项目)的出现而开发的。备选地,可以以包含所有遗传数据的通用特征格式(gff)提供概要。通常,gff提供了冗余的功能,因为它们在基因组之间共享。相反,使用vcf,只需将变异与参考基因组一起存储即可。在一些实施方案中,(例如使用全基因组测序(wgs))对受试者的样品进行测序,并且例如使用诸如例如基因组vcf(gvcf)的工具来处理序列文件。

在图1a的方法100的步骤120中,通过基于检出噪声的概率(pn)将每个读数统计学地分类为信号或噪声,来过滤人工读数,该概率为(1)碱基质量(bq);(2)映射质量(mq);(3)估计的片段大小和/或(4)估计的等位基因分数(vaf)的函数。还可以使用其他参数,例如(5)读数中的位置(rp);(6)序列上下文(sc);(7)丰度;(8)测序深度和/或(9)测序错误。噪声去除步骤120可包括基于联合碱基质量(bq)和映射质量(mq)得分,执行最佳接收器操作特性(roc)曲线,该最优接收器操作特性曲线包括对概要中的遗传标记的概率分类。通常,联合bqmq得分以矩阵(x,y)的形式提供,其中x是bq得分,y是mq得分。在示例性实施方案中,通常采用介于10和50之间(对于每个参数)的联合bqmq得分,例如,bqmq得分为(10,40)、(15,30)、(20,20)、(20,30)、(30,40)。在一些实施方案中,标记的分类包括测量roc曲线下面积(auc),其典型地代表在潜在标记中随机选择的候选标记显示出高于随机提取的对照标记的值的概率。对于完全非信息性的标记,roc曲线将接近上升的对角线(称为“机会对角线”或“机率线”),而auc趋于0.5,即仅由于偶然性而进行分类的预期概率。相反,在完美分类的情况下,roc曲线将达到最高理论准确度的点(灵敏度和特异性均为100%),而auc趋向于1,即最高概率值。在图3b中提供了代表性的roc。过滤前错误模型和过滤后错误模型分别示于图3a和图3c中。

任选地,遗传标记被加权。在标记是snv或cnv的一些实施方案中,实施加权步骤以区分真实标记(例如,可能与疾病相关的突变)和普通变异(例如,与疾病无关的随机体细胞snp)。在一些实施方案中,加权步骤基于概率得分(pd)对标记进行加权。优选地,加权步骤120包括基于伯努利等式pd=1-[(1-tf)]ge来测量检测概率(pd),其中pd是检测概率,tf是肿瘤分数,ge是患者dna中存在的基因组当量的数量。实施加权步骤是有利的,因为它通过增加宽度来增加检测位点(snv)的数量,从而有助于克服测序深度,而宽度的增加是针对每个snv重复伯努利试验(伯努利试验概率的二项式分布)而产生的。在一些实施方案中,加权步骤可以另外包括基于例如增加的权重或权重范围来对标记进行分箱。例如,可以基于pd对遗传标记进行分箱,其中,将具有高pd的标记与具有低pd的标记分别进行分箱。例如,可以基于至少约0.60,例如至少约0.65、0.70、0.75、0.80、0.90、0.95或更大,例如至少约0.98的pd阈值对遗传标记进行分箱。因此,如果标记的pd小于阈值,则可以将其分类为假阳性,并且不包括在分析中。

在图1a的方法100的步骤130中,通过利用机器学习(ml)方法以区分癌症相关的突变特征与pcr或测序错误相关的特征,过滤概要中每个读数的测序噪声。在一些实施方案中,本公开的诊断方法可以利用神经网络来系统地消除或减少噪声。尽管根据上述步骤120,在去除人工标记之后实施神经网络可能是有利的,但是可以在该方法的任何步骤应用神经网络。在这方面,在图1a的纯示例性方法100中,可选地在步骤130应用深度卷积神经网络(cnn),以适应性地和/或系统地过滤在过滤的数据集中存在的测序噪声。优选地,cnn包括:在泛肿瘤队列中采用深度学习算法,以鉴定区分真实肿瘤突变和人工错误的签名;为肿瘤患者样品中检测到的每个个体突变分配置信度估计;对整个基因组的置信度估计进行积分;并对样品中的特定cosmic突变签名进行严格分析,例如对每个标记使用非负最小二乘法(nnls)。

在一些实施方案中,用计算机数据集(insilicodataset)训练cnn。例如,计算机数据集可包括从实际癌症患者,例如乳腺癌或肺癌患者队列中获得的合成血浆样品。cnn的准确性、灵敏度和/或精度可根据以下描述的方法进行评估。例如,可以将灵敏度确定为比率[tp/(tp+fn)],其中tp为真阳性,而fn为假阴性;可以将精度确定为比率[tp/(tp+fp)],其中tp为真阳性,fp为假阳性;可以将特异性确定为比率[tn/(tn+fn)],其中tn为真阴性,fn为假阴性。在代表性的验证方法下,可以基于平均f1得分评估cnn的准确性。例如,可以将f1得分计算为2x[(精度x重新调用(recall))/(精度+重新调用(recall)))]。在一些实施方案中,在肿瘤对照上,cnn可达到至少约0.5、约0.6、约0.7、约0.8或甚至约0.9或更高,例如0.95的f1得分。

在一些实施方案中,可以用计算机患者特异性数据集来训练cnn,该患者特异性数据集包括以不同比例在不同肿瘤分数(0.00001、0.00005、0.0001、0.0005、0.001、0.005、0.01)和覆盖度(5、10、15、20、35)下混合的肿瘤和正常wgs读数。重复和/或随机化种子可以进一步用于提高训练数据集中的可变性。

下文将更详细地讨论cnn的架构。

在图1a的方法100的步骤140中,通过去除人工噪声(参见步骤120)和/或测序噪声(参见步骤130)来编译包括概要中多个真实读数的受试者特异性签名。尽管不受任何特定理论的束缚,但是在一些实施方案中,删除步骤从最初被鉴定为与疾病强烈相关的标记概要中过滤出具有低碱基质量和/或映射质量的“噪声”标记。在一些实施方案中,删除步骤可包括基于步骤120获取满足阈值检测概率(pn)的每个标记,基于roc曲线将该标记分类为信号或噪声;如果标记被分类为噪音,则从概要中删除该标记。可选地,包括例如检测概率(pd)与噪声概率(pn)之比的评分系统可以用于删除不满足预设阈值得分的标记。

在图1a的方法100的步骤150中,在受试者特异性签名和癌症签名之间进行匹配,并对受试者的生物样品包括循环肿瘤dna(ctdna)的置信度估计进行量化。这可以使用例如概率密度函数(pdf)估计和/或zscore估计来实现,这两者在下面详细解释。

在置信区间的估计中,可以任选地采用加权步骤。例如,基于噪声去除步骤120和噪声过滤步骤130已经被分类为真阳性的所有标记可以被相同地加权。例如,基于分配给泛肿瘤网络中的标记的分数,可以使用改进的加权系统。诊断可还包括使用阈值得分,例如基于在测试标记(例如已知与肿瘤相关的标记)中执行相同的噪声去除步骤120和噪声过滤步骤130而获得的得分。例如,这样的测试标记可以包含癌症患者样品中的独特snv和/或cnv,其在对照(非肿瘤)受试者中并不存在。

如图1b所示的示例工作流程100所进一步提供的,根据各种实施方案,提供了一种用于对受试者进行癌症遗传筛查的方法。如步骤110中所提供的,该方法可包括接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要。生物样品可包括肿瘤样品。读数概要可各自包含单个碱基对长度的读数。

如在图1b的方法100的步骤120中提供的,该方法可包括从读数概要中过滤人工位点。过滤可包括从读数概要中去除在参考健康样品队列上产生的重复位点。替代地或组合地,过滤可包括鉴定生物样品中的种系突变和/或将肿瘤样品与正常细胞样品的外周血单核细胞之间的共享突变鉴定为种系突变,并从读数概要中去除该种系突变。

如在图1b的方法100的步骤130中提供的,该方法可包括使用至少一种错误抑制方案从全基因组读数概要中过滤噪声,以产生全基因组读数概要的经过滤的读数集。该至少一种错误抑制方案可包括计算该概要中任何单个核苷酸变异是人工突变的概率,并去除该突变。可以将该概率作为从包括以下各项的组中选择的特征的函数来计算:映射质量(mq)、变体碱基质量(mbq)、读数中的位置(pir)、平均读数碱基质量(mrbq)及其组合。替代地或组合地,该至少一种错误抑制方案可包括:使用由聚合酶链反应或测序处理产生的相同dna片段的独立重复之间的不一致测试,和/或重复一致性来去除人工突变,其中,给定重复家族的大多数之间缺乏一致性时,鉴定和去除人工突变。

如在图1b的方法100的步骤140中提供的,该方法可包括基于与预定诱变过程相关的特异性突变签名的比较,使用经过滤的读数集来编译受试者特异性签名。

如在图1b的方法100的步骤150中所提供的,该方法可包括基于与癌症相关的突变签名暴露值与背景突变签名队列的比较,通过受试者特异性签名,对受试者的生物样品包括癌症相关突变签名的置信度估计进行统计学量化。

如在图1b的方法100的步骤160中所提供的,该方法可包括如果受试者的生物样品包含癌症相关突变签名的置信度估计超过给定阈值,则对受试者进行癌症筛查。

如图1c中所示的示例工作流程100进一步提供的,提供了一种对受试者进行癌症遗传筛查的方法。如步骤110中所提供的,该方法可包括接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要。生物样品可包括肿瘤样品。读数概要可各自包含拷贝数变异(cnv)。

如在图1c的方法100的步骤120中所提供的,该方法可包括将读数概要划分为多个窗口。

如在图1c的方法100的步骤130中提供的,该方法可包括计算每个窗口的特征集合。这些特征可包括每个窗口的中值深度覆盖度和每个窗口的代表性片段大小。

如在图1c的方法100的步骤140中提供的,该方法可包括从读数概要中过滤人工位点。过滤可包括从读数概要中去除在参考健康样品队列上产生的重复位点。

如在图1c的方法100的步骤150中提供的,该方法可包括归一化读数概要,以产生全基因组读数概要的经过滤的读数集。

如在图1c的方法100的步骤160中所提供的,该方法可包括通过计算每个窗口的特征集合之间的线性关系并使用回归模型将计算的关系转换为估计的肿瘤分数,使用经过滤的读数集来计算估计的肿瘤分数。替代地或组合地,该方法可包括基于一个或更多个整合数学模型来计算估计的肿瘤分数,作为受试者特异性全基因组读数概要中计算的每个窗口的特征集合的函数。

如在图1c的方法100的步骤170中所提供的,该方法可包括如果估计的肿瘤分数超过经验阈值,则对受试者进行癌症筛查。

用于实施基于标记类型的筛查方法的示例性工作流程

图1d和图1e示出了用于实践本公开的方法的示意性工作流程。图1d概述了在目的标记包含snv/indel的情况下通常使用的工作流程;图1e概述了在目的标记包含cnv/cv的情况下通常使用的工作流程。应该注意的是,尽管出于说明的目的提供了单独的工作流程,但是并不一定要单独执行它们以实现本公开的方法。例如,工作流程的某些特征/元件可以组合使用以生成输出(例如,基于snv/indel和cnv/sv的组合的估计肿瘤分数),该输出与目的结果(例如,是否受试者患有或可能发展癌症)相关联。

基于snv的癌症筛查

本公开提供了基于检测受试者的生物样品中的snv/indel标记进行癌症筛查的系统、方法和算法。如图1b所示,基于snv/indel标记的癌症诊断通常利用以下步骤:接收遗传数据;检测突变(例如单个错配);去除/过滤人工位点;使用包括机器学习的算法抑制错误;校正读数;基于一个或更多个数学模型检测癌症;以及任选地,将基因组数据中次要特征的分析(例如,片段大小偏移)正交积分,以提高检测的灵敏度、特异性和/或可靠性。

在图1d的第一步骤中,从生物样品(通常是血浆样品)接收遗传数据。接下来,使用pileup(或其他单一支持的读数调用器)对血浆样品执行敏感突变调用。通过在血浆样品上使用gatk种系调用器或在匹配的外周血单核细胞(pbmc)上使用突变调用来检测种系snp。也可以使用口腔拭子代替pbmc。连续地或并行地,在健康血浆样品队列(正常小组(pon)黑名单或掩码)中生成重复的人工位点,将其从检测到的突变中删除,以去除普通测序或比对假象。

接下来,采用了能够检测单个突变片段的高度敏感的方法。该步骤包括一个或更多个错误抑制步骤。在第一错误抑制步骤中,使用过滤方案在单个读数的基础上进行分析,并量化所述读数代表人工突变的概率。在一些实施方案中,可在此步骤上实施使用具有线性内核的支持向量机(svm)分类的多维分类框架。与正常pbmc样品中的低变异等位基因分数(vaf)测序假象相比,该分类框架在种系snp上进行训练。在此,分类决定边界是在包括变体碱基质量(vbq),映射质量(mq),读数中的位置(pir)和/或平均读数碱基质量(mrbq)的多维空间上定义的。为了评估分类方案,在相同协议下,将svm分类方案的验证度量在10倍交叉验证后与随机森林进行比较。svm分类显示出较高的分类性能,适度胜于随机森林模型。在所有患者中,svm的平均灵敏度为90.7%,特异性为83.9%(n=10个样品,f1=87.7%,ppv=84.9%)。

在第二错误抑制步骤中,通过使用相同原始dna片段的独立重复的比较来校正由pcr或测序产生的人工突变。在cfdna样品中,通常使用双末端150bp测序,在典型cfdna片段的长度较短(~165bp)的情况下,导致重叠的成对读数(r1和r2序列重叠)。因此,r1和r2对之间的任何不一致都被视为潜在的测序假象,这些假象被校正回相应的参考基因组。此外,由于认识到可能在测序和pcr中多次拷贝的任何dna分子产生独立重复的潜力,因此重复家族被5'和3'相似性以及比对位置所识别。然后,每个重复家族都用于检查独立重复中特定突变的一致性,从而校正大多数重复家族中未显示出一致性的人工突变。

使用一个或更多个鉴定步骤,将所得的确信的从头(de-novo)血浆突变的集合用于鉴定肿瘤签名。第一种方法涉及使用突变签名推论方法(例如非负最小二乘(nnls)方法)在结果集合中鉴定肿瘤签名。该方法输出置信度得分(例如,zscore),其可以用于确定受试者是否患有癌症。在这方面,阈值置信度得分(例如,zscore为约2)可用于做出受试者患有癌症的可靠确定。可以采用第二种方法,该方法利用深度学习方法来检测突变签名。该方法输出可用于确定受试者是否患有癌症的肿瘤比例得分(例如,etf)。这些方法将在下面更详细地描述:

癌症特异性诱变签名

癌症诱变由与不同诱变过程(例如吸烟、紫外线等)有关的序列上下文特异性签名所主导。这些突变签名是癌组织所独有的,不会出现在正常的pbmc样品中。在此,与正常样品(pbmc)相比,基因签名在肺癌患者(暴露于烟草)和黑色素瘤患者(暴露于紫外线)中被差异地表达。认识到这一特征,开发了一种用于灵敏检测的新型分析方法。该方法基于一种利用单个血浆样品中特异性突变签名的非负最小二乘(nnls)的模型。通过将癌症特异性突变签名暴露值与针对100个随机背景签名推断的暴露值进行比较,并设置z-score>2std的置信度阈值,来进一步验证签名检测的置信度。

深度学习突变签名检测

为了进一步抑制人工测序错误并提高ctdna灵敏度,开发了一种机器学习方法,用于区分癌症改变的测序读数和测序错误改变的读数,从而允许针对系统测序噪声的适应性和特异性过滤器。应用了基于人工智能技术的深度卷积神经元网络(cnn)。cnn允许以有监督的方式针对分类问题学习和集成大量功能。这种方法基于对突变调用挑战的重新思考,因为它旨在区分包含真实变异的读数与包含测序假象的读数。这允许使用大量肿瘤和正常wgs数据,在数百万个真实突变的读数和错误上训练cnn,从而对各种患者和肿瘤类型实现非常高的灵敏度和特异性。

在深度cnn训练中实施上述特征导致独立捕获已知在肺癌和黑色素瘤中发生的序列上下文特征。首先,为了将cnn应用到早期检测(ed)框架中,使用监督学习针对泛肺癌队列(5名深层肿瘤和pbmcwgs患者)训练cnn算法,以鉴定区分真实肿瘤突变和人工错误的签名。所得模型用于推断在我们从肺腺癌早期患者得到的ed血浆样品中检测到的每个个体突变,并为其分配置信度估计,这些置信度估计可以整合至给定样品中肿瘤读数比例的估计。该模型能够鉴定特定的烟草和/或紫外线签名,当在患者样品上使用时,能够以高精度检测出各个癌症的早期患者。

另外,通过将该方法应用于来自21例早期肺病患者和12例ct检出的良性结节患者的血浆样品,评估了该方法在处于烟草暴露风险人群中改善当前肺癌ct筛查的低阳性预测值(ppv)的能力。结果显示,早期肺癌样品有14例阳性检测,良性结节有3例阳性检测结果,与目前基于ct的筛查方案中40%-50%ppv相比,显示了80%的改善的ppv。这些数据表明相对于现有的早期检测肺癌和黑色素瘤患者的方法有显著改善。

正交特征的积分

任选地,上述基本工作流程可以将遗传数据中包含的次要特征正交积分到最终分析模型中。例如,为了提高检测方法的稳健性、准确性和/或灵敏度/特异性,可以将基于读数的特征(例如dna片段大小的偏移)正交积分到数学模型中。可以使用概率混合模型(例如,高斯混合模型)来计算正交特征积分(在癌症检测中)的显著性。参见实施例部分和图17和图18中的相应数据。

基于cnv的癌症筛查

替代地或附加地,本公开提供了基于检测受试者的生物样品中的cnv/sv标记进行癌症筛查的系统、方法和算法。如图1e所示,基于cnv/sv标记的癌症检测通常利用以下步骤:接收遗传数据;提取遗传数据中基于窗口的特征向量;过滤人工cnv窗口;使用一个或多个归一化步骤对经过滤的遗传数据进行归一化;特征向量分区后检测肿瘤;以及任选地,将基因组数据中次要特征的分析(例如,片段大小偏移的分析)正交积分,以提高检测的灵敏度、特异性和/或可靠性。

在图1e的第一步骤中,接收来自生物样品(通常是血浆样品)的遗传数据。接下来,从遗传数据中提取基于窗口的特征向量。例如,提取深度覆盖度特征(由log2表示)和/或片段大小特征(由com表示)。使用基因组中所有窗口的估计的log2和com值,计算中值样品质心(中性区域上的中值com)、log2/com线性模型的斜率和r^2。此外,也可以提取拆分(split)读数。当ngs读数的一部分映射到基因组的一个位置而相同读数的另一部分映射到基因组的不同位置时,通常会产生拆分读数。

接下来,过滤具有低可映射性和/或覆盖度的窗口。连续地或并行地,在健康血浆样品队列(正常小组(pon)黑名单或掩码)中生成重复的人工位点,将其从窗口中删除以过滤人工窗口。对过滤的高置信度参考cnv/sv区段进行归一化。通常,归一化步骤包括鸟嘌呤-胞嘧啶(gc)归一化和/或zscore归一化。

接下来,使用一个或更多个数学模型对特征向量进行分区。在一些实施方案中,使用隐马尔可夫模型(hmm)。在一些实施方案中,使用基于数学模型(例如,自适应共振理论(art)或自组织映射(som))的自组织神经网络(sonn)。通过使用这些数学模型中的一种或更多种分析分区的数据,进行拷贝数变异(cnv)检测和癌症诊断。

这里,也可能在最终的分析模型中正交积分遗传数据的次要特征。例如,以提高检测方法的稳健性、准确性和/或灵敏度/特异性。汇总log2/com相关性(r^2),log2/com斜率和样品中值片段大小质心(com),可以定义分类模型,以对肿瘤样品与健康样品进行分类并计算估计的tf,例如,使用广义线性模型(glm)。

可以使用概率混合模型(例如,高斯混合模型)来计算正交特征积分(在癌症检测中)的显著性。

应当理解,经过一些修改,本文所公开的工作流程也可以广泛地用于在化学疗法、免疫疗法、靶向疗法或其组合期间或之后和/或在监控此类治疗效果的过程中检测残留疾病。

用于早期肿瘤诊断的前述方法的用途

本公开的方法在肿瘤的早期诊断中特别有用。优选地,本发明的诊断方法是非侵入性进行的。该诊断方法可以在肿瘤的手术或治疗之前进行。

即使在低肿瘤分数(tf)下也可以进行本公开的方法。通常,在具有较低tf的样品中,由于检测概率低,现有技术无法准确、可靠地诊断肿瘤疾病。相反,本公开的方法允许在低肿瘤分数,例如1/1000或1/10,000或甚至1/20,000下检测标记并准确诊断肿瘤疾病。本公开的方法和系统的灵敏度特别通过以下事实证明:即使在非常低的肿瘤分数(例如1/10,000或更低)下,本公开的方法也可检测单个支持读数中包含的约10至15个ssnv。这种检测使得能够以高水平的保真度和准确性来区分正常样品和肿瘤样品,这是现有技术无法提供的。应当理解,诊断不限于ssnv检测。例如,可以基于检测到经常在人类癌症中发现的约10、20、30、40、50、60、70、80、90、100或更多,例如150、200或250个拷贝改变的区段(全基因组)进行诊断。

本公开尤其涉及用于早期诊断以高体细胞突变率为特征的肿瘤的方法。可根据本公开诊断或检测的肿瘤的优选类型包括,例如,非小细胞肺癌(nsclc)、烟草诱发的癌症(tic)、紫外线诱发的癌症、载脂蛋白bmrna编辑酶催化蛋白(apobec)活性介导的癌症、包含乳腺癌蛋白(brca)突变的癌症和/或包含聚(adp-核糖)聚合酶(parp)高活性的癌症、包含微卫星不稳定性(msi)的肿瘤。该方法可适于诊断液体肿瘤、实体肿瘤或其混合物,例如异质性肿瘤,该异质性肿瘤包括例如已转移至淋巴外器官如肝、肺或脑等的淋巴瘤。

根据本公开,可特别早期诊断以下肿瘤:肺腺癌、导管腺癌(乳腺肿瘤)、皮肤黑色素瘤、尿路上皮癌(膀胱肿瘤)或骨肉瘤。特别地,肿瘤包括非小细胞肺癌肺腺癌(nsclcluad)。

本公开尤其涉及非小细胞肺癌的早期诊断或检测,该非小细胞肺癌优选为烟草诱导的肺癌,其特征在于高体细胞突变率。使用烟草(例如吸烟或咀嚼)是口腔、咽、喉、食道、肺、胃、子宫颈和结肠/直肠的上皮癌的公认危险因素或致病剂。参见sasco等人,lungcancer45,suppl2,s3-9,2004。

本公开还涉及紫外线诱发的癌症,例如皮肤癌的诊断或检测。暴露于紫外线(uv)辐射与大约65%的黑色素瘤病例和90%的非黑色素瘤皮肤癌(nmsc)(包括基底细胞癌(bcc)和鳞状细胞癌(scc))有关。参见,kim等人,genes&disease,1(2):188-198,2014。优选地,uv诱发的癌症选自黑色素瘤和scc,其特征均在于高体细胞突变率。参见alexandrov等人,curropingenetdev.24,52-60,2014。

本公开还涉及早期诊断由于与基因编辑/dna检查点相关的酶的扰动(perturbation)而具有高体细胞突变率的癌症。在一些实施方案中,本公开涉及诊断由基因编辑酶例如载脂蛋白bmrna编辑酶催化蛋白(apobec)介导的癌症。apobec介导的突变模式常见于膀胱癌、宫颈癌、乳腺癌、头颈癌和肺癌。参见roberts等人,natgenet.,45(9):970-6,2013。

在一些实施方案中,本公开涉及早期诊断由乳腺癌蛋白(brca)突变介导的癌症,例如,由brca1突变或brca2突变或其组合介导的癌症。报告估计,超过50%的具有brca1突变的女性到70岁时将患乳腺癌,而其中超过1/3的女性将在该年龄时患卵巢癌。除了乳腺癌和卵巢癌,brca2突变还涉及男性乳腺癌和胰腺癌以及黑色素瘤的风险。brca1/2两种突变均与男性前列腺癌风险有关。参见ngeow等人,npjgenomicmedicine1,15006,2016。

在一些实施方案中,本公开涉及早期诊断由微卫星不稳定性(msi)诱发的癌症。msi诱发的癌症通常是由dna错配修复基因(例如mlh1,msh2或msh6)的突变引起的,其特征在于重复序列中的错误。msi可以发生在许多器官的肿瘤中,但它主要是结直肠癌的标志。kurzawski等人,annalsofoncology,15(supp.4),283–284,2004。在子宫内膜癌、卵巢癌、胃癌、皮脂腺癌、胶质母细胞瘤、淋巴瘤/白血病和lynch综合征肿瘤(遗传性非息肉性crc(hnpcc))中也发现了msi。vilar等人,natrevclinoncol.,7(3):153-62,2010。

在一些实施方案中,本公开涉及早期诊断由ppar活性诱发的癌症,例如通过parp的补偿性同源重组机制介导的癌症。例如,某些同源重组机制有缺陷的肿瘤,可能依赖于parp介导的dna修复来生存,并对其抑制parp敏感。因此,parp抑制是潜在的合成致死性治疗策略,用于治疗具有特定dna修复缺陷的癌症,例如brca1或brca2突变携带者中出现的那些癌症(morales等人,critreveukaryotgeneexpr.,24(1):15-18,2014;fong等人,nengljmed.,361(2):123-34,2009)。

本公开的诊断方法涉及首先接收包含多个遗传标记的受试者样品。在一些实施方案中,对包含dna/rna的受试者样品进行测序,并接收其中的遗传标记进行分析。在其他实施方案中,可以从数据集接收遗传标记,例如已经在计算机中或远程(例如在服务器中)编译和/或存储的基因组测序信息。可通过对各种样品进行测序来接收遗传标记。优选地,样品包括生物样品,例如细胞、组织、器官,包括生物流体,例如血液、血浆、淋巴等。或者,样品包含原发性或转移性肿瘤。

可使用多种方法来获得样品。组织活检通常用于获得代表性的肿瘤组织。肿瘤细胞也可以以已知或认为含有目的肿瘤细胞的组织或流体的形式间接获得。例如,可以通过切除、支气管镜检查、细针穿刺、支气管刷洗或从痰液、胸膜液或血液中获得肺癌病变的生物样品。已转移的肿瘤可从附近的组织或淋巴节(原发转移)或从身体较远的部分(远处转移)中取样。

优选地,该样品包括血浆样品,该血浆样品包括循环dna和外周血单核细胞(pmbc)。在这种情况下,可以使用常规技术从受试者获得样品,例如抽血(放血)、活检(包括液体活检)、手术切除、气管拭子、咳痰等。由此获得的样品可以任选地处理,例如,以纯化和/或分离在诊断中有用的标记。样品中cfdna的存在可以使用常规方法来检查,例如,使用通用引物的pcr,然后进行电泳。受试者样品中的cfdna可以使用常规技术进行纯化,例如本公开“实施例”部分中所述的dna分离试剂盒。

在一些实施方案中,样品包含选自血液、脑脊液、胸膜液、眼液、尿液或其组合的生物流体。

在一些实施方案中,使用液体活检技术(lbt)获得了在cfdna中含有体细胞突变的样品,该技术是一种转化的、非侵入性的技术,其允许检测患者血浆cfdna样品中的肿瘤dna并允许表征体细胞恶性基因组。

在一个具体的实施方案中,生物样品是包含无细胞dna(cfdna)的血浆样品。通常,样品中cfdna的量在约0.1ng/ml至约20.0ng/ml之间;优选地,在约1ng/ml至约10ng/ml之间。包含外周单核血细胞(pmbc)的正常细胞样品可以用作对照。在两个样品中,可以分析包括单核苷酸变异(snv)(优选为体细胞snv)、拷贝数变异(cnv)(优选为体细胞cnv)、短插入和缺失(indel)、结构变体(sv)或其组合的遗传标记。

在一些实施方案中,遗传标记包含snv和cnv的组合。此类组合通常用于包含低snv突变负荷但高cnv负荷的样品中。在示例性实施方案中,可以通过另外检测cnv来分析包含每兆碱基对(mbp)少于8000个突变的snv突变负荷的样品。通常,在这种情况下,期望dna的每兆碱基对(mbp)的cnv负载至少为50,例如至少60,至少70,至少80,至少90,至少100或更多,例如200cnv/mbp,因为它可能具有诊断意义。

如在遗传学领域中已知的,诸如snv或cnv的变异的显著性受到种系与体细胞之间的差异的深刻影响。体细胞中的突变不会转移到后代。在体细胞(例如肺)中发生的突变可能会损害细胞,使细胞癌变甚至杀死细胞。但是,如果在配子的种系中存在突变的dna,则所述突变的dna只能传递给下一代。因此,比较种系序列(例如,将其用作对照)允许鉴定该受试者特异性的体细胞或癌细胞中的变化,这种变化在相同受试者的非癌细胞中不存在。虽然种系序列和配子序列之间的比较表明存在变异,但癌细胞和非癌细胞之间的比较也是有用的。例如,受试者的外周白细胞或淋巴细胞可以用作对照,其代表了非癌性体细胞序列。以这种方式,可以忽略在癌细胞和非癌细胞中均发现的突变。

优选地,可以通过将cfdna序列与参考序列例如种系dna序列进行比较来检测本公开的遗传标记,例如cfdna中的ssnv、scnv、indel或sv。

在一些实施方案中,本公开的方法可包括检测遗传标记与参考(例如,对照)序列之间的变异。在一些实施方案中,变异在样品之间可以是均匀的、半均匀的或动态的。时间上动态的变异包括,例如,与治疗前样品相比,在治疗期间或治疗后收集的cfdna之间的差异。

还可通过产生遗传标记的全基因组概要并从中减去对照(例如,种系)样品中存在的遗传标记来检测cfdna中的变异。在本文中,术语“全基因组”是指并包括生物的种系和体细胞的遗传物质。标记概要可包括例如dna中的多个ssnv、scnv、indel、sv,包括其他变异,例如融合等。

通常,样品的特征在于低肿瘤分数(tf)。在一些实施方案中,tf为约0.0001%至约1%,优选为约0.001%至约0.1%,特别是小于0.1%,例如0.005%、0.02%、0.03%、0.04%、0.05%、0.06%、0.07%、0.08%、0.09%。

另外,包含cfdna的样品的特征在于基因组当量(例如,独特dna片段的数量,如通过对受试者样品中cfdna片段的整个池(pool)进行随机采样所确定的)在约100到约20,000之间;优选在约1000至约10000之间。

在一些实施方案中,cfdna样品的特征在于约3,000至约100,000;优选约5000至约40000的突变负荷(n)。

用于产生全基因组概要的代表性方法可包括测序。通常,使用纯化的核酸样品进行测序。特别地,使用全基因组测序获得在本公开的诊断方法和/或系统中使用的全基因组概要。例如,wgs可以使用常规技术来进行,并且可包括扩增(例如pcr扩增)。也可以使用本领域已知的方法和试剂来使用无扩增测序。参见,karlsson等人,genomics,105(3):150-8,2015。纯粹地作为示例性方法,在一些实施方案中,cfdna中的遗传标记可以通过以下步骤检测:全基因组测序(wgs)受试者的肿瘤,全基因组测序(wgs)受试者的正常细胞,将肿瘤和正常wgs读数以不同比例混合以生成不同肿瘤分数和覆盖度的受试者特异性样品的数据集,并对数据集进行下采样以生成下采样的正常读数的互补数据集而不混入来自肿瘤的读数。可以通过去除与噪声相关的标记来过滤互补数据集,如下所述。

遗传标记的全基因组概要也可以通过靶向测序(ts)或wgs和ts的组合来产生。

以下涉及全基因组测序和/或靶向测序的出版物通过引用整体并入本文:美国专利号7,115,400;7,718,403;7,741,463;8,932,812;7,572,584和9,218,450。

一旦接收到dna样品,就可以实施该诊断方法。优选分析样品中包含的遗传标记的突变,例如体细胞突变。dna中最常见的体细胞突变类型是单核苷酸变异(snv),其发生频率为1-100/mbp(兆碱基对)。这些变异通常是通过仔细比较dna测序读数而在鸟枪测序(shotgunsequencing)数据中鉴定的,这些dna测序读数映射到癌症样品和种系正常dna样品(对照)中的特定基因座。使用复杂程度不断提高的技术/工具开发了这种复杂的过程,该技术/工具完善了癌症样品和种系样品中具有该变体的支持读数数量之间的统计学比较。参见,cibulskis等人,naturebiotechnology,31(3):213–219,2013;saunders等人,bioinformatics,28(14):1811-1817,2012;wilm等人,nucleicacidsresearch,40(22):11189–11201,2012。

可以使用多种技术来进行变体的分析,包括但不限于基于阵列的方法(例如,dna微阵列等)、实时/数字/定量pcr仪器方法、全或靶向核酸测序系统(例如,illumina,helicosbiosciences,pacificbiosciences,completegenomics,sequenom,iontorrentsystems,halcyonmolecular提供的全基因组测序(wgs)服务)。

优选地,使用全基因组测序(wgs)分析遗传标记的体细胞突变和/或拷贝数变异。全基因组测序方法能够以单碱基分辨率解析基因读数。在dna(脱氧核糖核酸)的情况下,这些方法可在dna的基本成分(例如a(腺嘌呤)、t(胸腺嘧啶)、c(胞嘧啶)和g(鸟嘌呤))的水平上解析读数。在rna(核糖核酸)的情况下,这些方法可在dna的基本成分(例如a、u(尿嘧啶)、g和c)的水平上解析读数。

前述测序仪/测序方法的产物包括“测序数据”、“测序信息”或“测序读数”,其包括关于多核苷酸分子(例如,整个基因组、整个转录组、外显子组、寡核苷酸、多核苷酸、片段等)中的一个或更多个前述碱基的顺序的信息。通过将样品中dna(例如,患者血浆样品中包含的cfdna)的读数顺序与对照(例如pmbc的全基因组序列)进行比较,可以鉴定目的遗传标记(例如,体细胞snv或体细胞cnv)。应当理解,目前公开的鉴定方法适用于所有类型的测序技术、平台或技术,包括但不限于毛细管电泳、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸鉴定系统、焦磷酸测序、基于离子或基于ph的检测系统、基于电子签名的系统等。

本公开的早期诊断方法中的下一步包括鉴定低丰度、肿瘤特异性标记。

本公开涉及基于选自以下的多个因素来确定读数中的错误概率:(1)读数的碱基质量(bq),(2)读数的映射质量(mq);和/或(3)估计的读数片段大小(4)估计的读数等位基因分数(vaf),其单独或共同影响信号质量。也可以采用其他辅助参数,例如(5)读数中的位置(pir);(6)序列上下文(sc);(7)丰度;(8)测序深度和/或(9)测序错误。

通常,碱基质量(bq)涉及每个碱基处测序质量的置信度,而映射质量(mq)得分涉及关于将标记与基因组映射的准确性的置信度估计。在ssnv标记的情况下,碱基质量(bq)得分是对通过自动dna测序产生的核碱基的鉴定质量的度量。可以使用常规方法来确定,例如,phred质量得分,其被分配给自动测序仪痕迹(trace)中的每个核苷酸碱基调用。phred质量得分(q)被定义为与碱基调用错误概率(p)对数相关的属性。例如,如果phred为碱基分配的质量得分为30,则错误调用该碱基的机会为千分之一。通常,测序读数的bq在10到50之间,例如bq得分为10、15、20、25、30、35或40。

还是在ssnv标记的情况下,映射质量(mq)得分是读数实际上来自于通过映射算法所对齐的位置的置信度的度量。可以使用常规方法,例如映射质量得分来确定(参见,li等人,genomeresearch18:1851-8,2008)。通常,读数的mq介于10到50之间,例如mq得分约为10、15、20、25、30、35或40。

在一些实施方案中,噪声去除步骤包括基于联合碱基质量(bq)和映射质量(mq)得分,执行最佳接收器操作特性(roc)曲线,其中该曲线包括概要中遗传标记的概率分类。通常,联合bqmq得分以矩阵(x,y)的形式提供,其中x是bq得分,y是mq得分。在示例性实施方案中,通常采用介于10和50之间(对于每个参数)的联合bqmq得分,例如,bqmq得分为(10,40)、(15,30)、(20,20)、(20,30)、(30,40)。

噪声去除步骤可包括执行附加过滤器。例如,来自dna片段的读数对中包含的额外信息源可用于确定来源链(沃森或克里克),并估计dna片段的大小。已经观察到,与常规循环健康dna相比,ctdna具有不同的片段大小分布(underhill等人,plosgenetics,12(7):e1006162,2016)。更具体地,肿瘤患者和健康对照之间来自无细胞dna的片段长度发现,突变等位基因更通常出现在比野生型等位基因的片段长度更短的片段长度上。同样,选择较短的无细胞dna片段长度会实质性提高人类肺癌中的突变等位基因频率(jiang等人,pnasusa,112.11,e1317-e1325,2015;mouliere等人,biorxiv,134437,2017;underhill,同上)。因此,来自无细胞dna检测的片段长度的特定子集可用于改善ctdna检测。在一些实施方案中,读数的片段大小优选小于160bp,例如160bp、140bp、120bp、100bp、75bp、50bp或更小,例如20bp。

另外,可以基于可变等位基因频率(vaf)消除人工噪声。在一些实施方案中,从样品中去除低等位基因组分数突变位点,例如,约1%或更小的vaf。在一些实施方案中,仅保留具有阈值vaf的标记(例如,snv)用于下游分析。例如,可以保留vaf为至少1%、至少2%、至少3%、至少4%、至少5%(如通过pgm仪器上的扩增子测序确定)的突变位点。如本领域中已知的,特定等位基因(例如,brafv600r)的vaf值不是静态的,并且可能随时间变化(由于癌症的发展和/或进展),并且还由于疗法(例如,免疫疗法、化学疗法或靶向疗法)而变化。但是,小于1%的阈值vaf(例如vaf为0.05、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8)可以可靠地用于估计特定等位基因与肿瘤无关。

在一个具体的实施方案中,通过执行一个或更多个,优选以下所有步骤来去除人工噪声:(a)去除低映射质量的读数(例如,<29,roc优化);(b)建立重复家族(例如,代表相同dna片段的多个pcr/测序拷贝),并根据一致性测试产生校正的读数;(c)去除低碱基质量的读数(例如,<21,roc优化);和/或(d)去除高片段大小的读数(例如,>160,roc优化)。

除了使用前述的bq/mq、vaf和片段大小过滤器之外,诸如读数位置(rp或pir)之类的其他因素也可以用于过滤人工噪声,因为rp影响信号质量。在ssnv标记的情况下,可以例如通过映射测序读数的起始碱基的位置来映射rp。影响标记质量的其他因素包括,例如与较高的测序错误概率相关的特定序列上下文(chen等人,science,355(6326):752-756,2017)。在这方面,真正的突变通常可映射到其自身的特定序列上下文,而错误则不能。例如,与烟草相关的突变倾向于发生在cc上下文处,而与apobec酶活性相关的突变则更倾向于用于插入体细胞突变的tpc上下文(参见greenman等人,nature,446(7132):153-158,2007)。因此,序列上下文可用于帮助鉴定更可能由测序假象导致的变化以及更可能由普遍的突变过程导致的变化。

在一些实施方案中,可以基于伯努利方程pd=1-〖(1-tf)〗ge通过测量检测概率来进一步加权标记,其中pd是检测概率,tf是肿瘤分数,并且ge是患者dna中存在的基因组当量数。然后基于pd对遗传标记进行加权,其中,将具有高pd的标记进行分箱。例如,可以基于至少约0.60,例如至少约0.65、0.70、0.75、0.80、0.90、0.95或更大,例如至少约0.98的pd阈值对遗传标记进行分箱。因此,如果标记的pd小于阈值,则可以将其分类为假阳性,并且不包括在分析中。

一旦从读数概要中去除了人工噪声读数,则将剩余的标记输入到深度学习推理模型中,该模型被训练以便在肿瘤相关签名和pcr/测序错误签名之间进行分离。该步骤涉及以基于读数的方式对癌症突变支持读数和人工突变(错误)读数进行分类。在一个实施方案中,计算癌症突变支持读数的序列上下文分布,并使用机器学习(ml)对已知的突变签名的贡献进行分类。

将已经进行人工噪声过滤和/或归类为由癌症突变支持的读数与癌症签名匹配。在一些实施方案中,可以使用包含此类癌症签名的数据集(例如,癌症中的体细胞突变目录(catalogofsomaticmutationsincancer);cosmic)。截至2018年2月,该数据库中已收集了30种不同的癌症签名,其详细信息总结如下:

签名1(发现于所有癌症类型中)是由5-甲基胞嘧啶自发脱氨基引发的内源性突变过程的结果;

签名2(发现于22种癌症中)已归因于aid/apobec家族的活性。基于实验系统中apobec酶引起的胞嘧啶突变的序列上下文的相似性,与家族的其他成员相比,apobec1、apobec3a和/或apobec3b在人类癌症中的作用似乎有可能;

签名3(乳腺癌、卵巢癌和胰腺癌)与通过同源重组的dna双链断裂修复失败有关;

签名4(头颈癌、肝癌、肺腺癌、肺鳞癌、小细胞肺癌和食道癌)与吸烟有关,其特征类似于在暴露于烟草致癌物(例如苯并[a]芘)的实验系统中发现的突变模式。签名4可能是由于烟草诱变引起的。

签名5(病因未知)已经发现于所有癌症和大多数癌症样品中;

签名6(发现于17种癌症类型中,在结直肠癌和子宫癌中最常见)与缺陷dna错配修复有关,并发现于微卫星不稳定的肿瘤中;

签名7(皮肤癌和唇癌;头颈部或口腔鳞状癌)与紫外线暴露有关;

签名8(发现于乳腺癌和髓母细胞瘤中)病因未知;

签名9(发现于cll和恶性b细胞淋巴瘤中)归因于聚合酶η,其在体细胞超突变期间与aid活性有关;

签名10(发现于六种癌症类型中,特别是结直肠癌和子宫癌)是由于易错聚合酶pole的活性改变。复发pole体细胞突变,pro286arg和val411leu,大多与签名10突变相关。

签名11(发现于黑色素瘤和胶质母细胞瘤中)表现出类似于烷化剂的突变模式;

签名12(发现于肝癌中)病因未知;

签名13(发现于22种癌症类型中,似乎在宫颈癌和膀胱癌中最常见)归因于将胞嘧啶转化为尿嘧啶的胞嘧啶脱氨酶的aid/apobec家族的活性;

签名14(病因未知)已经发现于四种子宫癌和单个成人低级神经胶质瘤样品中;

签名15(发现于若干种胃癌和单个小细胞肺癌中)与缺陷dna错配修复有关;

签名16(发现于肝癌中)病因未知;

签名17(发现于食道癌,乳腺癌,肝癌,肺腺癌,b细胞淋巴瘤,胃癌和黑色素瘤中)病因未知;

签名18(发现于神经母细胞瘤中发,并且在乳腺癌和胃癌中也观察到)病因未知;

签名19(发现于毛细胞性星形细胞瘤)病因未知;

签名20(发现于胃癌和乳腺癌中)与缺陷dna错配修复有关;

签名21(发现于胃癌中)病因未知;

签名22(发现于尿路上皮(肾盂)癌和肝癌)与暴露于马兜铃酸有关;

签名23(发现于肝癌中)病因未知;

签名24(发现于肝癌子集中)与暴露于黄曲霉毒素有关;

签名25(发现于霍奇金淋巴瘤中)病因未知;

签名26(发现于乳腺癌、宫颈癌、胃癌和子宫癌)与dna错配修复有关;

签名27(发现于肾透明细胞癌的子集中)病因未知;

签名28(发现于胃癌中)病因未知;

签名29(发现于龈-颊口腔鳞状细胞癌)与咀嚼烟草的人有关;

签名30(发现于乳腺癌的小子集中)病因未知。

在一些实施方案中,匹配步骤涉及线性混合优化(例如,通过烟草暴露或brca突变或apbec1活性的贡献的zscore置信度估计),用于计算cosmic突变签名的贡献的置信度度量。纯粹作为一个代表性的非限制性示例,可以使用代数函数min‖ax-b‖,x≥0解析线性优化问题,其中a是突变签名序列上下文矩阵,x是每个cosmic突变签名的贡献(变量),b是患者特异性序列上下文概要。

在一些实施方案中,在以上使用的线性优化方法中,a可包括任意数量的cosmic签名,包括随机突变签名。例如,a可包括约20、30、40、50或更多,例如70个cosmic签名和大约50、60、80、100或更多,例如150个随机突变签名。使用提取方法计算随机签名的贡献分布,例如e_random,其计算平均贡献得分;和std_random,其计算标准贡献得分。可以例如使用zscore来统计学地计算与每个cosmic签名的贡献相关的置信度。例如,z得分可以计算为(cosmic_sig_contribution–e_random)/std_random。因此,与排列得分(permutationscore)一样,z得分表示与随机集合相比的签名贡献的显著性。

在一些实施方案中,使用诸如概率密度函数(pdf)的统计方法来计算患者序列-上下文概要与特异性cosmic签名的相似度。纯粹作为一个代表性示例,为了计算pdf,将患者序列-上下文概要归一化以生成密度函数。计算患者序列-上下文密度函数和cosmic签名密度函数之间的余弦相似度。然后该余弦相似度是通过除以患者序列-上下文密度函数和非信息性均匀密度函数之间的余弦相似度而进行归一化的。

在图1a的方法100的步骤160中,在步骤150中计算出的置信度估计值用于对受试者进行癌症筛查,例如,肿瘤的早期检测。如本领域中已知的,置信区间由值范围(区间)组成,其充当未知群体参数的良好估计(例如,无症状患者患有癌症的可能性)。所需的置信度水平由研究人员设置(而不是由数据确定)。最常见的是使用95%的置信度水平;但是,也可使用其他置信度水平,例如80%到99%之间的任何值,例如80%、90%、98%或甚至99%。

在一些实施方案中,置信区间可以是单一的(例如,基于单个读数)或复合的(例如,基于多个读数)。也可以使用置信带或置信区域。置信区域概括了置信区间概念以处理多个数量,并且可用于揭示可能的抽样错误的程度和/或统计分析中使用的数量的不可靠性。置信带可用于表示在基于有限或噪声数据的曲线或函数估计中的不确定性;预测带可用于表示关于曲线上的新数据点值的不确定性(受噪声影响)。

任选地,可以针对检测阈值来检查针对cosmic突变签名的贡献的所计算的置信度。在一些实施方案中,阈值由来自健康样品的经验测得的基础噪声检测估计来定义,例如,高于阈值至少2个标准差(std),特别是高于阈值至少3std,优选高于阈值至少4std,尤其是高于阈值至少5std的zscore,其表示置信度度量是显著的。

纯粹通过举例说明的方式,在一个示例性实施方案中,本公开的方法涉及通过以下步骤来诊断受试者中的肿瘤:首先接收从受试者的生物样品(例如,包括血浆样品和正常细胞样品的样品)测序的多个遗传标记,以生成包含标记(例如ssnv、cnv、indel和/或sv)的受试者特异性全基因组基因读数概要;使用选自bq、mq、读数中的位置(pir)、片段大小和/或vaf中的一个或更多个参数,从读数概要中过滤人工噪声;将去除噪声的读数输入到神经网络中,该神经网络可以从pcr和/或测序错误产生的噪声中区分出真正的标记;产生与癌症签名(例如,cosmic签名)匹配的经过滤的、去除噪声的受试者特异性签名,其中所述匹配包括计算所有标记或其子集的zscores,或者估计受试者签名与参考癌症签名之间的概率密度函数;输出表明受试者的签名包括肿瘤签名的置信区间,从而诊断出受试者中的肿瘤。图1a的流程图中示出了代表性方法。下面的示例中提供了此方法的详细信息。

在一些实施方案中,癌症签名可包括与组织特异性表观遗传模式相关的模式,例如组织特异性染色质可及性模式(例如,甲基化状态)。

在一些实施方案中,该诊断方法可以进一步采用核型分析。例如,可以对包含肿瘤特异性、低丰度标记的数据集进一步进行核型分析,例如通过去除接近中心体的标记。可以使用上述映射技术来执行该步骤。另外,包含低丰度标记的数据集可以与非整倍性标记(例如指示基因扩增或基因缺失的标记)正交积分。

用于实施诊断/筛查方法的系统和设备

可以使用计算机系统400作为独立设备或在共享计算机处理资源的分布式网络(例如云计算网络)上实施本文描述的方法(例如方法100)。这样,可以提供其中存储有第一程序的非暂时性计算机可读介质,该第一程序用于使计算机执行所公开的用于去除人工噪声的方法(例如,与以下标记相关:低bq/mq标记,比约160bp的阈值片段大小更大的标记;以及具有比约4%的阈值更小的vaf的标记)。可以提供非暂时性计算机可读介质,其中存储了第二程序以适应性地和系统地过滤噪声(例如,与pcr/测序错误相关的噪声)。可以提供一种非暂时性计算机可读介质,其中存储了第二程序,用于例如通过确定zscore或通过分析概率密度函数,以将经过噪声过滤、经cnn处理的受试者特异性签名与癌症签名进行匹配,并输出匹配的置信区间(ci),其中≥阈值(例如80%、90%、95%或99%)的ci表示受试者患有肿瘤。在一些实施方案中,可以分别提供或使用第一、第二、第三程序中的每一个(例如,以独立形式);在一些实施方案中,可以一起提供或使用第一、第二、第三程序中的每一个(例如,作为程序包)。

还应当理解,前述实施方案可以全部或部分地提供为被集成以执行所描述的方法的组件的系统。例如,图1a的工作流程可以提供为作为组件或站点的系统,以鉴定癌症患者的cfdna中存在的高质量、低丰度、肿瘤特异性标记,并进一步能够以灵敏、精确和准确的方式进行早期诊断。

如上所述,本公开的系统和方法的显著特征之一是使用能够适应性地和系统地过滤噪声的引擎。代表性的引擎在下面详细描述。引擎可以根据例如图1a的流程图在本公开的诊断方法(如下面详细讨论的)中实施。(注意:流程图中引擎的位置仅是示例性的,以适合代表性方法)。该引擎可包括能够捕获标记的不变性(例如,包括ssnv的体细胞突变)的卷积神经网络(cnn)。cnn及其对应的架构将在下面参考“卷积神经网络(cnn)”部分进行详细讨论。

可在合成血浆样品以及真实血浆dna样品中评估该引擎消除低质量标记的能力。通过从患者的健康dna和患者的肿瘤dna中随机取样,可以从测试样品(例如肺样品)中生成合成血浆样品。对于真实的血浆dna分析,可以使用从吸烟的肺癌患者那里获得的血浆样品。作为对照,可以使用患者的pmbc。或者,可以将从非癌症或健康受试者获得的血浆样品用作对照。

图5中提供了如何使用机器学习(ml)从头抑制噪声(例如,扩增(pcr)期间的错误,测序期间的错误,映射中的错误以及其他假阳性标记,例如在对照样品中看到的突变)并检测受试者样品中的突变的示例性概述。如图所示,以适当的格式(例如,变体调用的vcf格式)从受试者接收遗传数据,其可以是真阳性或假阳性。这些数据输入到机器学习工具中,例如n维卷积神经网络(cnn)。cnn每个位置可能有k过滤器,总共32d个可学习过滤器,其中d是cnn中的维数。例如,使用大小为2和步幅为2来最大程度地合并(maxpooled)遗传数据。可以使用以离散特征表示的任何方法来捕获测序读数。例如,可以使用包括最大1、2、3、4…n个特征长度的空间定向代表。

图8中提供了示例性特征。如图所示,前五行代表参考上下文(例如,人类基因组中的序列),后五行代表读数序列(读数中的碱基对),第11-15行代表比对字符串(cigar),最后一行代表读数中每个位置的质量得分。每列特征代表一个指示符向量,它指示是否存在特定碱基。读数、基因组上下文和cigar行是互斥的,例如在独热编码(one-hotencoding)中。下面的代表性实施例中提供了有关此特征的构造和实现的详细信息。

引擎(engine)可以用作独立工具,也可以与其他本领域已知的突变调用器一起使用,例如pileup(li等人,bioinformatics,25(16):2078-2079,2009),strelka(saunders等人,bioinformatics,28(14):1811-1718,2012),lofreq(wilm等人,nucleicacidsresearch,40(22):11189-11201,2012)等。图7中示出了engine的位置和输入/输出的示例性概述。注意:尽管在此图中引擎位于通道的远端,但实际上,引擎可以放置在过程中的任何水平或阶段。为了训练engine,可以将含有来自混合肿瘤活检样品和外周血单核细胞(pmbc;对照)的标记概要的遗传数据任选地经上述过滤器处理(例如,通过pileup进行人工读数分类;使用vaf排除种系变异;使用适当的bq过滤器去除低碱基质量的标记;以及使用适当的mq过滤器去除映射较差的标记)。该机器也可以用数据集进行训练。

当使用来自肺癌患者的独立样品执行引擎时,发现以高度的灵敏度和精度来区分真实的体细胞突变和噪声。结果示于图8和图9中。用合成血浆进行的实验揭示,引擎在低肿瘤分数(tf)时特别精确且灵敏,并且优于最新的调用器(例如mutect)(cibulskis等人,naturebiotechnology,31(3):213–219,2013年)和/或pileup。特别地,引擎在计算机分析和临床环境中均表现出强有力的性能。与诸如mutect之类的程序相比,引擎在平衡肿瘤分数环境下的表现尤其出色。例如,在灵敏度度量上,它优于mutect,snooper(spinella等人,bmcgenomics,17(1):912,2016)和strelka。参见图9a。在精度度量上,它在所有肿瘤分数下均优于pileup,在低tf(tf=0.0001)情况下,它优于pileup约25倍。即使在模拟血浆中,它也保持了很大一部分性能。在tf为0.0001时,引擎还实现了约30倍的富集(超过pileup),这表明即使相关体细胞突变比测序噪声本身少10倍,也具有捕获相关的体细胞突变的能力。参见图9c。相比之下,mutect在所有肿瘤分数下均提供了约2倍的适度改善(与pileup相比)。此外,引擎允许用户使假阴性最小化,并且对于特异性为优先的应用,可将引擎设置为使假阳性最小化。该引擎变体鉴定系统可以同时最小化假阳性和假阴性,以无与伦比的精度和准确性检测变体(请参见表4的总结)。

特别地,引擎可以任选地与噪声消除过滤器(例如,突变频率(mf)过滤器和/或碱基质量映射质量(bqmq)过滤器)一起应用,以显著提高本领域已知的突变调用器的精度。在下面的实施例部分中介绍了使用突变调用器pileup以及下游噪声消除过滤器和引擎的代表性通道。在真实血浆样品的情况下,包括pileup、噪声消除过滤器(基于突变频率(mf)和质量(bqmq))和引擎的上述通道可显著抑制假阳性,同时显著富集了用于肿瘤dna分析的样品。综上所述,这些结果表明,引擎可用于极大地改善突变调用器的性能,同时损失极小(如果有的话)的灵敏度。

引擎的性能表明,整合读数及其比对中的特征已为使用样品的完整突变图谱的新的体细胞突变调用器集合奠定了基础,而不仅仅是以高深度覆盖的那些。使用简单的测量工具以如此敏感的水平捕获突变,允许新的和改进的诊断平台,这些平台可用于癌症患者的治疗和/或管理。

本公开涉及引擎的至少三个潜在应用,即,改进的体细胞snv突变检测,特别是在癌症诊断、预后和护理以及其他临床环境中;改进的结构变体检测,用于遗传疾病诊断和疾病风险评估;和/或在生物医学研究、疾病诊断和/或治疗中改进的种系基因组snv检测。参见图10。

基于现有技术的状态,引擎是被设计为在低等位基因频率背景下起作用的第一体细胞突变调用器,例如用于早期癌症检测的液体活检。为了实现早期检测的目标,使用自定义架构实现了新的沿读数(read-along)表示,以便最佳地捕获与读数及其比对相关的预期特征。因此,本公开提供了新的体细胞突变调用器家族,以辅助液体活检中的检测,从而为关键的、非侵入性的癌症诊断方法铺平了道路,特别是在早期肿瘤检测以及残留肿瘤检测的背景下。

电脑系统

在一些实施方案中,本公开的诊断方法在计算机系统上实施。仅仅作为代表性示例,图15中提供了这种计算机系统的示意图。图15是示出计算机系统400的框图,在其上可以实现本公开的实施方案或实施方案的部分。在本公开的各种实施方案中,计算机系统400可包括用于传达信息的总线402或其他通信机制,以及与总线402偶联以用于处理信息的处理器404。在各种实施方案中,计算机系统400还可包括存储器,该存储器可以是随机存取存储器(ram)406或其他动态存储设备,其偶联到总线402以确定将由处理器404执行的指令。存储器也可以用于在执行由处理器404执行的指令期间存储临时变量或其他中间信息。在各种实施方案中,计算机系统400还可包括只读存储器(rom)408或偶联到总线402的其他静态存储设备,用于存储静态信息和用于处理器404的指令。可以提供诸如磁盘或光盘之类的存储设备410,并将其偶联到总线402以存储信息和指令。在各种实施方案中,计算机系统400可以经由总线402偶联到显示器412,例如阴极射线管(crt)或液晶显示器(lcd),以向计算机用户显示信息。可以将包括字母数字和其他键的输入设备414偶联到总线402,以将信息和命令选择传达给处理器404。另一种类型的用户输入设备是光标控件416,例如鼠标、轨迹球或光标方向键,用于将方向信息和命令选择传达给处理器404并控制显示器412上的光标移动。此输入设备414通常在两个轴(第一轴(例如,x)和第二轴(例如,y))上具有两个自由度,使设备可以指定平面中的位置。然而,应当理解,这里还考虑了允许3维(x,y和z)光标移动的输入设备414。

与本公开的某些实施方式一致,响应于执行存储器406中包含的一个或更多个指令的一个或更多个序列的处理器404,可由计算机系统400提供结果。这些指令可以从另一个计算机可读介质或计算机可读存储介质(例如存储设备410)读入存储器406。执行包含在存储器406中的指令序列可以使处理器404执行本文所述的过程。可替代地,可以使用硬连线电路代替软件指令或与软件指令结合使用以实现本教导。因此,本教导的实施不限于硬件电路和软件的任何特定组合。

如本文所用,术语“计算机可读介质”(例如,数据保存、数据存储等)或“计算机可读存储介质”是指参与向处理器404提供指令以供执行的任何介质。这样的介质可以采取许多形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质的示例可包括但不限于光盘、固态盘、磁盘,例如存储设备410。易失性介质的示例可包括但不限于动态存储器,例如存储器406。传输介质的示例可包括但不限于同轴电缆、铜线和光纤,包括包含总线402的线。

计算机可读介质的常见形式包括,例如,软盘、软磁盘、硬盘、磁带或任何其他磁性介质、cd-rom、任何其他光学介质、打孔卡、纸带、具有孔图案的任何其他物理介质、ram、prom和eprom、flash-eprom、任何其他存储芯片或盒式磁带、或计算机可以从中读取的任何其他有形介质。

除了计算机可读介质之外,可以将数据作为信号提供在包括在通信设备或系统中的传输介质上,以将一个或更多个指令序列提供给计算机系统400的处理器404以供执行。例如,通信设备可包括具有指示指令和数据的信号的收发器。指令和数据被配置为使一个或更多个处理器实施本公开中概述的功能。数据通信传输连接的代表性示例可包括例如电话调制解调器连接、广域网(wan)、局域网(lan)、红外数据连接、nfc连接等。

应该理解,可以使用计算机系统400作为独立设备或在共享计算机处理资源的分布式网络(例如云计算网络)上实现本文所述的方法,包括流程图、图表和所附公开内容。

系统

本公开进一步涉及用于执行本公开的方法的系统。在图16a-16c的示意图中提供了代表性系统。图16a示出了用于实施本公开的诊断方法的示例性系统。如本文所描绘的,提供了系统500,其可包括数据获取单元510,标记鉴定单元520,诊断单元550,以及用于输出数据和用于经由相关的输入设备(未示出)接收用户输入的显示器412。标记鉴定单元520可包括噪声去除单元530和分类引擎540。应注意,图16a示出了系统的一种配置。这些组件的定向和配置可以根据需要变化。此外,可以将额外的组件添加到该系统(例如,卷积神经网络)。这些各种组件、它们的各种操作、它们的各种定向以及彼此之间的各种关联将在下面详细讨论。

图16a的数据获取510单元可被配置和布置为接收来自受试者的遗传概要,例如,从包括受试者的血浆样品和正常细胞样品的生物样品测序的多个遗传标记,以产生受试者特异性全基因组遗传标记概要。在一些实施方案中,遗传标记概要以变异调用格式(vcf)文件在物理磁盘(例如,光盘、dvd)中或通过互联网(例如,如由服务器或云提供的)接收。在一些实施方案中,例如使用全基因组测序(wgs)对受试者的样品进行测序,并且将序列文件直接传输至数据获取单元510。在一些实施方案中,数据获取单元510可以重新格式化、组织、分类或以其他方式重新配置所接收的数据,以在系统500内进行进一步分析。在一些实施方案中,单元510可以(例如经由显示器412,与之相关联的数据或用户输入,与之相关联的存储器,或与计算机系统400相关联的另一存储器组件)接收数据。

由数据获取单元获取的数据可以被传送到标记鉴定单元520。标记鉴定单元520可包括用于分析受试者特异性遗传标记概要中的标记的一个或更多个引擎。作为单元520的那些组件之一,噪声去除单元530可包括一个或更多个程序,该程序用于通过基于bq、mq、片段大小和/或vaf对标记加权来过滤人工噪声,包括上面详述的一个或更多个次要特征,例如,读数中的位置(rp);序列上下文(sc);丰度;测序深度和/或测序错误。优选地,噪声去除单元包括用于计算最佳接收器操作特性(roc)曲线的程序,该曲线包括基于得分(例如,联合碱基质量(bq)和映射质量(mq)得分)对概要中的遗传标记进行概率分类,所述得分与片段大小得分和/或vaf得分进行积分。噪声去除单元可包括用于测量roc曲线下的面积(auc)的程序,其典型地表示从潜在标记中随机选择的候选标记显示出比随机提取的对照标记更高的值的概率。分类器可包括用于基于roc曲线评估特定分箱标记是“机会”标记还是“真正”标记的程序。

在一些实施方案中,噪声去除单元可以基于概率得分(pd)对标记进行加权。优选地,程序基于伯努利方程pd=1-〖(1-tf)〗ge来测量检测概率(pd),其中pd是检测概率,tf是肿瘤分数,ge是存在于患者dna中基因组当量数。可以基于pd对每个遗传标记进行加权,其中,具有最高pd的标记被分箱。例如,可以基于至少约0.60,例如至少约0.65、0.70、0.75、0.80、0.90、0.95或更大,例如至少约0.98的pd阈值对遗传标记进行分箱。因此,如果标记的pd低于阈值,则可以将其分类为假阳性,并且不包括在分析中。

标记鉴定单元520可包括分类引擎540,其可以检查例如标记与噪声相关的可能性。分类器可包括分类方案,该分类方案包括能够适应性地识别错误标记(例如,由于pcr或测序引起的错误)的算法或神经网络。在一个特定实施方案中,分类单元540包括深度卷积神经网络(cnn),以适应性地和/或系统地过滤能够影响肿瘤特异性低丰度标记的准确检测的测序噪声。cnn可以作为标记鉴定单元520内的单独引擎提供,或者可以作为(例如标记鉴定单元520和诊断单元550之间的)单独单元提供。cnn的特征(图16a中未示出)在下面详细描述。

最后,可以将包括经噪声过滤并由cnn处理的标记的受试者特异性签名作为文件提供给诊断单元550,诊断单元550被配置和布置为基于统计得分诊断疾病(例如,肿瘤疾病),该统计得分指示受试者特异性签名和癌症签名之间的匹配。诊断单元可包含含有癌症签名的储存库,例如,癌症中的体细胞突变目录(catalogueofsomaticmutationsincancer;cosmic)数据库或拉丁美洲肺癌研究协会(latin-americanconsortiumfortheinvestigationoflungcancer;clicap)数据库。诊断单元550可包含一种或更多种软件或算法,用于在已知的癌症突变签名(例如,cosmic的签名1至30中的任何一个)与受试者特异性突变签名之间进行比较。此类比较软件的代表性示例包括,例如,在单个标记的水平以及包括2、5、10、20、50、100、200、500、1000或更多个,例如5000个独特标记的池的水平上测量置信度估计。代表性方法包括使用线性优化(如上所述),或使用余弦相似度函数确定归一化概率密度函数(pdf)的相似度(如上所述),来估计z得分置信度水平。

诊断引擎的输出可以输出到例如显示器412以供用户查看。在一些实施方案中,输出可包括原始置信区间(ci)得分或序数得分(例如,等级为1至10的得分,其中10为受试者很可能患有肿瘤疾病,而1为受试者不太可能患有肿瘤疾病)。

由于涉及定向,所以图16a的系统500的标记鉴定单元520可与数据获取单元510通信连接。此外,被描绘为标记鉴定单元520的一部分(并且在本文中描述)的每个组件(例如,引擎、模块等)可以被实施为硬件、固件、软件或它们的任何组合。在各种实施方案中,标记鉴定单元520可以被实施为具有数据获取单元510的集成仪器系统组件。也就是说,单元520和单元510可以被容纳在相同的外壳组件中并且可以通过常规的设备/组件连接方式进行通信(例如串行总线、光缆,电缆等)。在各种实施方案中,标记鉴定单元520可以被实施为独立的计算设备(如图16所示),其通过光学、串行端口、网络或调制解调器连接与数据获取单元510通信连接,例如,通过允许将由数据获取单元510获取的成像数据传输到分析的标记鉴定单元520的lan或wan连接。在各种实施方案中,标记鉴定单元520的功能可以在共享计算机处理资源的分布式网络(例如云计算网络)上实施,该分布式网络通过wan(或等效物)连接与数据获取单元510通信连接。例如,标记鉴定单元520的功能可以被划分,以在诸如amazonwebservicestm的云处理服务上的一个或更多个计算节点中实现。

图16b示出了用于实现本公开的诊断方法的第二示例性系统。如图16b所示,提供了示例性系统100,其被配置和布置用于对有需要的受试者进行癌症遗传筛查。参考图16b,系统100可包括分析单元110和计算单元140。分析单元110可包括预过滤器引擎120和校正引擎130。这些系统组件和相关引擎将在下面更详细地讨论。

再次参考图16b,分析单元110的预过滤器引擎120可以被配置和布置为接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要。如关于本文的工作流程所讨论的,并且根据各种实施方案,生物样品可包括肿瘤样品;读数概要可各自包含单个碱基对长度的读数。

预过滤器引擎120还可以被配置和布置为从读数概要中过滤人工位点。如关于本文的工作流程所讨论的,并且根据各种实施方案,过滤可包括从读数概要中去除在参考健康样品队列中产生的重复位点,和/或鉴定生物样品中的种系突变/或将肿瘤样品与正常细胞样品的外周血单核细胞之间的共享突变鉴定为种系突变,并从读数概要中去除该种系突变。

分析单元110的校正引擎130可以配置和布置为接收来自引擎120的输出。校正引擎130可以配置和布置为使用至少一种错误抑制方案从全基因组读数概要中过滤噪声,以产生全基因组读数概要的经过滤的读数集。

如关于本文的工作流程所讨论的,并且根据各种实施方案,该至少一种错误抑制方案可包括计算概要中任何单个核苷酸变异是人工突变的概率,并去除该突变。

如关于本文的工作流所讨论的,并且根据各种实施方案,可将概率作为选自由以下各项组成的组中的特征的函数来计算:映射质量(mq)、变体碱基质量(mbq)、读数中的位置(pir)、平均读数碱基质量(mrbq)及其组合。

如关于本文的工作流程所讨论的,并且根据各种实施方案,该至少一种错误抑制方案可包括使用由聚合酶链反应或测序处理产生的相同dna片段的独立重复之间的不一致测试和/或重复一致性来去除人工突变,其中当给定重复家族的大多数之间缺乏一致性时,鉴定并去除人工突变。

系统100的计算单元140可以被配置和布置为接收来自校正引擎130的输出,并基于与预定诱变过程相关的特异性突变签名的比较,使用经过滤的读数集来编译受试者特异性签名。。

计算单元140还可以被配置和布置为基于癌症相关突变签名暴露值与背景突变签名队列的比较,通过受试者特异性签名,对受试者的生物样品包括癌症相关突变签名的置信度估计进行统计学量化。计算单元150可进一步被配置和布置为,如果受试者的生物样品包含癌症相关突变签名的置信度估计超过给定阈值,则对受试者进行癌症筛查。

系统100还可包括显示器150,如图16b所示。显示器可以被配置和布置为接收来自计算单元140的输出。输出可包括与受试者/用户中的癌症筛查有关的数据。备选地,系统100可以排除显示器,并且可以将从计算单元140输出的数据发送到系统100外部的任何形式的存储器或显示设备或位置。也如本文所讨论的,系统100的组件可以被集成在一个单个单元中,或可以分解成比图16b所示的更多的分离的物理单元。而且,系统100可以是系统的分布式网络的一部分,每个系统执行基本相似的任务并将数据从每个系统传输到集线器(hub)。

图16c示出了用于实施本公开的诊断方法的第三示例性系统。如图16c所示,提供了示例系统100,其被配置和布置为对有需要的受试者进行癌症遗传筛查。系统100可包括分析单元110和计算单元150。分析单元110可包括分箱引擎120,预过滤器引擎130和归一化引擎140。这些系统组件和相关引擎将在下面更详细地讨论。

再次参考图16c,分箱引擎120可以被配置和布置为接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要。如关于本文的工作流程所讨论的,并且根据各种实施方案,第一生物样品可包括肿瘤样品;第一读数概要可以包含拷贝数变异(cnv)。

分箱引擎120可以被配置和布置为将读数概要划分为多个窗口,并且计算每个窗口的特征集合。这些特征可包括每个窗口的中值深度覆盖度和每个窗口的代表性片段大小。

预过滤器引擎130可以被配置和布置为从读数概要中过滤人工位点。过滤可包括从读数概要中去除在参考健康样品队列上产生的重复位点。

分析单元110的归一化引擎140可以配置和布置为接收来自引擎130的输出。归一化引擎140可以配置和布置为归一化读数概要,以产生全基因组读数概要的经过滤的读数集。归一化方法在本文中详细讨论,并且可以以任何预期的组合使用以归一化所讨论的读数。

系统100的计算单元150可以被配置和布置为接收来自归一化引擎140的输出,并通过计算每个窗口的特征集合之间的线性关系并使用回归模型将计算的关系转换为估计的肿瘤分数,使用经过滤的读数集来计算估计的肿瘤分数(etf)。计算单元150还可以或另外地被配置和布置为基于一个或多个整合数学模型来计算估计的肿瘤分数,作为受试者特异性全基因组读数概要中计算的每个窗口的特征集合的函数。计算单元150可以进一步被配置和布置为,如果估计的肿瘤分数超过经验阈值,则对受试者进行癌症筛查。本文详细讨论了回归模型、整合数学模型和经验阈值。

系统100还可包括显示器160,如图16c所示。显示器可以被配置和布置为接收来自计算单元150的输出。输出可包括与检测受试者/用户中的残留疾病有关的数据。备选地,系统100可以排除显示器,并且可以将从计算单元150输出的数据发送到系统100外部的任何形式的存储器或显示设备或位置。也如本文所讨论的,系统100的组件可以被集成到一个单个单元中,或者可以分解成比图16c所示的更多的分离的物理单元。而且,系统100可以是系统的分布式网络的一部分,每个系统执行基本相似的任务并将数据从每个系统传输到集线器。

卷积神经网络(cnn)

本公开还涉及利用卷积神经网络(cnn)(例如引擎)来适应性地和/或系统地过滤测序噪声的系统和程序。

本公开进一步涉及计算机可读存储介质,该计算机可读存储介质包含用于检测包括基因组读数中的体细胞突变的肿瘤标记的程序,该程序包括分层卷积神经网络(cnn)。

如本领域中已知的,卷积神经网络(cnn)通常通过以下步骤来完成处理和分类/检测的高级形式:首先查找低级特征(诸如例如读数中的重复序列),然后通过一系列卷积层前进至更抽象的(例如,对于正在分类的读数类型而言是独特的)概念。cnn可以通过使数据经过一系列卷积,非线性,池化(pooling)(或下采样,如下所述)和完全连接的层来实现此目的,并获得输出。同样,输出可以是单个类别或最优描述数据或检测数据中对象的类别的概率。

关于cnn中的层,第一层通常是卷积层(conv)。第一层将使用一系列参数处理读数的代表性阵列。cnn将使用过滤器(或神经元或内核)分析数据子集的集合,而不是将数据作为整体处理。子集将包括阵列中的焦点以及周围的点。例如,过滤器能够检查32x32代表中的一系列5x5区域(或地区)。这些区域可以称为感受野(receptivefield)。由于过滤器通常具有与输入相同的深度,因此尺寸为32x32x3的代表将具有相同深度的过滤器(例如5x5x3)。使用上面的示例性尺寸进行卷积的实际步骤将涉及沿输入数据滑动过滤器,将过滤器值与数据的原始代表值相乘以计算元素依次乘积(elementwisemultiplication),并对这些值求和以对所述代表的检查区域得出单个数字。

在完成该卷积步骤之后,使用5x5x3过滤器,将得到尺寸为28x28x1的激活映射(或过滤器映射)。对于使用的每个附加层,可以更好地保留空间尺寸,以便使用两个过滤器将获得28x28x2的激活映射。每个过滤器通常具有它表示的独特特征,这些特征一起表示最终数据输出所需的特征标识符。当组合使用这些过滤器时,允许cnn处理数据输入以便检测在每个代表上存在的那些特征。因此,如果过滤器用作曲线检测器,则过滤器沿数据输入的卷积将在激活映射中生成数字阵列,该数字阵列对应于曲线的高可能性(高求和元素依次乘积),曲线的低可能性(低求和元素依次乘积)或零值(其中在某些点处的输入体积没有提供激活曲线检测器过滤器的任何东西)。这样,conv中的过滤器(也称为通道)数量越多,激活映射上提供的深度(或数据)就越多,并因此提供将导致更准确输出的有关输入的更多信息。

与cnn的准确性相平衡的是产生结果所需的处理时间和能力。换句话说,使用的过滤器(或通道)越多,执行conv所需的时间和处理能力就越多。因此,应特别选择满足cnn方法需求的过滤器(或通道)的选择和数量,以在考虑可用时间和能力的同时产生尽可能准确的输出。

为了进一步使cnn能够检测更复杂的特征,可以添加额外的conv,以分析来自先前conv(例如,激活映射)的输出。例如,如果第一conv查找基本特征(例如曲线或边线),则第二conv查找更复杂的特征(例如形状),这可以是在较早的conv层中检测到的各个特征的组合。通过提供一系列的conv,cnn能够检测到越来越高水平的特征,最终达到检测到特定所需对象的概率。此外,由于convs在彼此顶部上堆栈,分析先前的激活映射输出,因此堆栈中的每个conv都自然会通过在每个conv水平上发生的按比例缩小来分析越来越大的感受野,从而允许cnn在检测目的对象时响应于代表空间逐渐增长的区域。

cnn架构通常由一组处理块组成,包括至少一个用于对输入体积(数据)进行卷积的处理块和至少一个用于解卷积(或转置卷积)的处理块。另外,处理块可包括至少一个池化块和反池化(unpooling)块。池化块可用于按比例缩小数据分辨率,以产生可用于conv的输出。这可以提供计算效率(有效的时间和能力),进而可以提高cnn的实际性能。这些池化或二次采样、块使过滤器保持较小且计算需求合理,这些块能够使输出变得粗略(导致感受野中丢失空间信息),从而通过特定因子减少从输入的大小。

反池化块可用于重构这些粗略输出,以产生具有与输入体积相同尺寸的输出体积。反池化块可以视为卷积块的反向操作,以将激活输出返回到原始输入体积尺寸。但是,反池化过程通常只是将粗略的输出简单放大为稀疏的激活映射。为避免此结果,去卷积块会对此稀疏的激活映射进行致密处理,以生成扩大的和致密的激活映射,最终,在进行任何进一步必要的处理之后,最终的输出体积的大小和密度将更接近输入体积。作为卷积块的反向操作,去卷积块不是将感受野中的多个阵列点减少为单个数字,而是将单个激活输出点与多个输出关联,以放大和致密化所得的激活输出。

应该注意的是,虽然池化块可以用于按比例缩小数据,并且反池化块可以用于放大这些按比例缩小的激活映射,但是卷积和去卷积块可以被构造为进行卷积/去卷积和按比例缩小/放大而无需单独的池化块和反池化块。

取决于在数据输入中检测的目的对象,池化块和反池化过程可能有缺点。由于池化通常通过查看没有窗口重叠的子数据窗口来按比例缩小数据,因此在按比例缩小时会明显损失空间信息。

处理块可包括包装有卷积或去卷积层的其他层。这些层可包括,例如,修正线性单元层(relu)或指数线性单元层(elu),它们是在其处理模块中检查conv输出的激活函数。relu或elu层充当选通函数,仅使对应于conv特有的目的特征的阳性检测的那些值前进。

给定基本架构,然后为cnn准备训练过程,以磨练其在(目的对象的)数据分类/检测中的准确性。这涉及到称为反向传播(backpropagation,backprop)的过程,该过程使用训练数据集或用于训练cnn的样品数据,以使其更新其参数以达到最佳(或阈值)准确性。反向传播涉及一系列重复步骤(训练迭代),这些步骤取决于反向传播的参数,将缓慢或快速地训练cnn。反向传播步骤通常包括根据给定的学习速率进行正向传递、损失函数、反向传递和参数(权重)更新。正向传递涉及使训练数据通过cnn。损失函数是输出中错误的度量。向后传递确定了损失函数的影响因素。权重更新涉及更新过滤器的参数,以将cnn移至最佳状态。学习速率决定为了达到最佳状态时每次迭代权重更新的程度。如果学习速率太低,则训练可能会花费很长时间并且会涉及太多的处理能力。如果学习速率太快,则每个权重更新可能会太大而无法精确实现给定的最佳值或阈值。

向后传播过程可能导致训练复杂化,因此导致在训练开始时需要较低的学习速率以及更具体,更小心确定的初始参数。一种复杂的情况是,随着每次迭代结束时权重更新的发生,conv参数的变化会放大网络的深度。例如,如果cnn具有多个conv,如上所述,该conv允许进行更高水平的特征分析,则在每个后续conv处将对第一个conv的参数更新倍增。净结果是取决于给定cnn的深度,对参数的最小改变能够具有很大的影响。这种现象称为内部协变量偏移。

通常,本公开的cnn能够适应性地和/或系统地过滤测序噪声。在一些实施方案中,基于发明人的认识,即三核苷酸背景包含诱变中涉及的不同特征,来设计cnn架构。因此,cnn使用大小为3的感受野在某个位置上的所有特征(列)上进行卷积。经过两个连续的卷积层后,通过感受野为2且步幅为2的最大池化来进行下采样,从而迫使引擎中的模型仅在较小的空间区域中保留最重要的特征。当在三核苷酸窗口上卷积时,所得的架构保持空间不变性,并通过将读数片段坍塌(collapsing)为25个区段(每个区段代表约8个核苷酸的区域)来捕获“质量映射”。最终分类是通过将最后一个卷积层的输出直接应用于s型完全连接层来进行的。cnn采用简单的逻辑回归层而不是多层感知器或全局平均池化,以保留与基因组读数中的位置相关的特征。

为了训练引擎,首先对多个肺癌患者及其匹配的系统错误概况进行采样。训练练习的目标是使用一种训练方案,该方案允许以高灵敏度检测真正的体细胞突变,并且还拒绝由系统错误引起的候选突变。为此,从不同吸烟肺癌患者中选择四个单独的样品用于训练,每个样品包括来自相同患者的完整肿瘤样品和健康组织样品(参见例如,表3)。例如,可以采用三个本领域已知的调用器(strelka、lofreq和mutect)的一致性来进行体细胞突变的最终调用。然后,将支持这些突变的读数用作训练引擎的肿瘤读数。

为了确保模型引擎学会区分测序假象,收集了包含恰好发生一次的突变的来自健康样品的读数。由于这些变体不受多于一个读数的支持,因此可以高度肯定地将其视为系统错误的产物。然后过滤低质量的变体。例如,可以过滤具有小于二十的突变的碱基质量得分或具有小于四十的映射质量的读数(例如,bq20、mq40)。这些阈值纯粹是示例性的,可以通过读数检查来鉴定。任选地,如果需要的话,较低质量的样品可以包含在训练引擎中。训练集的子集可用作验证数据集,其可用于监视训练进度并在独立的读数上验证模型的性能。

根据本文的各种实施方案,提供了一种计算机可读介质,该计算机可读介质包括计算机可执行指令,该计算机可执行指令在由处理器执行时使处理器执行用于鉴定从受试者样品中接收的遗传标记概要中的低丰度肿瘤特异性标记的方法或一组步骤,其中遗传标记包括基因组读数中的snv(优选ssnv)、cnv(优选scnv)、indel和/或sv(优选易位、基因融合或其组合)。优选地,该介质包括在一端具有单个完全连接层的分层卷积神经网络(cnn),其中当在三核苷酸窗口上卷积时,cnn保持空间不变性;并通过将读数的片段坍塌成多个区段(每个区段代表约8个核苷酸的区域)来维持质量映射,其中cnn对概要中的每个遗传标记进行加权。例如,本公开的cnn可包括8层,包括在一端的单个完全连接层和两个连续的卷积层,其输出通过感受野为2且步幅为2的最大池化来进行下采样;其中8层cnn通过将读数片段坍塌成约25个单独的区段并使用大小为3的感知场(perceptivefield)在基因组读数的某个位置处的列上卷积来维持质量映射;并且其中最后的卷积层的输出直接施加到s形全连接层,由此对标记进行最终分类。

cnn可包括读数代表,其联合捕获比对的基因组上下文、完整的读数序列以及每个碱基的质量得分的积分。部分由于这种布置和架构,与最新的突变调用器mutect相比,本公开的cnn将基因组读数中包含体细胞突变的肿瘤特异性标记富集了约1.12倍至约30倍。

本公开还涉及包括计算机可执行指令的计算机可读介质,该计算机可执行指令在由处理器执行时使处理器执行用于诊断需要诊断的受试者中的癌症的方法或一组步骤,该介质包括卷积神经网络(cnn)。在一些实施方案中,通过以下步骤来开发cnn:使用包含肿瘤相关签名和pcr/测序错误签名的训练数据集,以训练cnn区分癌症突变支持读数和人工突变(错误)读数;并任选地使用来自癌症患者的实际样品或从数据集中获得的合成血浆进行验证,接收从受试者的样品中得到的遗传标记概要,其中该遗传标记包括基因组读数中的snv(优选ssnv)、cnv(优选scnv)、indel和/或sv(优选易位、基因融合或其组合)。

在一些实施方案中,在cnn开发中使用的数学优化步骤包括采用非负最小二乘(nnls)。其他代表性方法包括交叉熵全局优化方法、黄金分割搜索方法或其组合。

优选地,本公开的cnn包括在一端的单个完全连接层,其中当在三核苷酸窗口上卷积时,程序保持空间不变性;并通过将读数片段坍塌成多个区段来维持质量映射,每个区段代表约八个核苷酸的区域。

在一些实施方案中,本公开的系统包括8层的cnn,其通过将读数片段坍塌成约25个单独的区段来维持质量映射,并且其进一步使用大小为3的感知场(perceptivefield)在基因组读数的某个位置上的所有特征(列)上卷积。在分析cfdna中的遗传标记(例如ssnv)的情况下,cnn可包括两个连续的卷积层,其输出通过感受野为2且步幅为2的最大池化进行下采样,最后卷积层的输出直接应用于s形全连接层,从中对标记进行最终分类。

以前述方式配置的cnn考虑了真正的体细胞突变和由于映射而引起的错误中的空间不变性,并同时维持了整个读数的碱基质量,并提供了读数代表,该读数代表联合捕获比对的基因组上下文、完整的读数序列、和每个碱基的质量得分的积分。

本文公开的实施方案与已知的cnn相比具有若干优点。这些优点包括,例如,提供可大大提高精度和灵敏度的cnn。特别地,与本领域已知的程序(例如mutect)相比,本公开的系统和网络将包含基因组读数中体细胞突变的肿瘤特异性标记富集(其测量输出精度与输入精度的比率)了约1.12倍至约12倍,例如约2倍、约3倍、约3倍、约4倍、约5倍、约6倍、约7倍、约8倍、约9倍、约10倍或更多倍。

在一些实施方案中,cnn包括在泛癌症队列中采用深度学习算法,以鉴定区分真实肿瘤突变和人工错误的签名。该算法通过以下步骤来执行此功能:为在肿瘤患者样品中检测到的每个个体突变分配置信度估计;对整个基因组的置信度估计进行积分;以及采用一种算法来分析样品中的突变签名。例如,在诊断肺癌的情况下,该算法可以分析样品中的肺肿瘤签名。同样,在诊断紫外线诱发的黑色素瘤的情况下,该算法可以分析样品中的紫外线签名。类似地,在诊断乳腺癌的情况下,该算法可以分析患者样品中的乳腺肿瘤(brca)签名。

在一些实施方案中,本公开的cnn包括能够使用本领域公认的/收录的(accessioned)突变签名(例如,登记在癌症中的体细胞突变目录(cosmic)数据库中的突变签名)在样品上执行nnls分析的算法。本公开进一步涉及与特定基因组图谱例如tcga泛癌症数据集整合的本公开的cnn。

根据各种实施方案,可以利用在泛肺癌队列中开发的深度学习算法来训练本公开的cnn。在这种情况下,该队列可能包括关于具有深层肿瘤和pbmc(对照)的患者的wgs数据。通过利用监督的学习,可以训练cnn以鉴定区分真实肿瘤突变和人工错误的签名。由此获得的模型可用于推断癌症患者(例如,患有肺腺癌的早期患者)的血浆样品中检测到的每个个体突变,并为其分配置信度估计。接下来,可以通过以下步骤得到用于肿瘤检测的信号:在整个基因组中对这些置信度估计进行积分,然后通过在单个血浆样品中使用特异性cosmic突变签名的非负最小二乘(nnls)进行灵敏检测的新型分析方法。可以使用cosmic突变暴露值与针对100个随机背景签名推断的暴露值的比较来进一步验证检测信号的置信度。

在一些实施方案中,在本公开的系统和/或方法中使用的机器学习(ml)方法包括深度卷积神经网络(cnn)、递归神经网络(rnn)、随机森林(rf)、支持向量机(svm)、判别分析、最近邻分析(knn),集成分类器或其组合。

本公开的系统和/或方法允许在至少50%、至少60%、至少70%、至少80%或更大的百分比,例如90%或甚至95%的受试者中进行早期检测。

其他应用

根据前述方法编译的患者报告可以经由互联网以电子方式发送和访问。例如,序列数据的分析可以发生在受试者位置以外的位置。生成了报告,可选地,对报告进行注释,并发送到受试者的位置,例如通过互联网授权的计算机。医疗保健提供者可以使用注释信息,以便选择其他药物治疗选项和/或向保险公司提供有关药物治疗选项的信息。该方法可包括为(例如nccnoncologytm中的临床实践指南(nccnclinicalpracticeguidelinesinoncologytm)或美国临床肿瘤学会(asco)临床实践指南(americansocietyofclinicaloncology(asco)clinicalpracticeguideline))中的疾病注释药物治疗选项。在报告中分层的药物治疗选项可以通过列出额外的药物治疗选项在报告中进行注释。额外的药物治疗可以是fda批准的允许使用范围之外(off-labeluse)的药物。1993年《综合预算调节法案(omnibusbudgetreconciliationact)》(obra)中的一项规定要求医疗保险方案(medicare)涵盖标准医疗药典中包括的允许使用范围之外的抗癌药物。用于注释列表的药物可在cms批准的药典中找到,包括国家综合癌症网络(nccn)药物和生物学药典tm(biologiescompendiumtm)、thomsonmicromedexdrug爱思唯尔金标准的临床药理药典(elseviergoldstandard'sclinicalpharmacologycompendium)以及美国医院处方服务局-药物信息(americanhospitalformularyservice—druginformation)。

在一些实施方案中,可以通过列出实验性药物来注释药物治疗选项,该实验性药物可以用于治疗具有特定状态的一个或更多个分子标记的癌症。实验药物可以是可获得体外数据、体内数据、动物模型数据、临床前试验数据或临床试验数据的药物。数据可以发表在《cms医疗保险政策手册(cmsmedicarebenefitpolicymanual)》中列出的期刊上的同行评审医学文献中,包括:例如,americanjournalofmedicine,annalsofinternalmedicine,annalsofoncology,annalsofsurgicaloncology,biologyofbloodandmarrowtransplantation,blood,bonemarrowtransplantation,britishjournalofcancer,britishjournalofhematology,britishmedicaljournal,cancer,clinicalcancerresearch,drugs,europeanjournalofcancer,gynecologiconcology,internationaljournalofradiation,oncology,biology,andphysics,thejournaloftheamericanmedicalassociation,journalofclinicaloncology,journalofthenationalcancerinstitute,journalofthenationalcomprehensivecancernetwork(nccn),journalofurology,lancet,lancetoncology,leukemia,thenewenglandjournalofmedicine,或radiationoncology。

可以通过提供在基于电子的报告上的将列出的药物连接到有关该药物的科学信息的链接来注释药物治疗选项。例如,可以提供链接到有关药物临床试验的信息(clinicaltrials.gov)。如果报告是通过计算机或计算机网站提供的,则该链接可以是脚注、网站的超链接、弹出框或带有信息的飞越框(fly-overbox)等。报告和注释信息可以是提供在打印表格上,并且注释可以是例如参考的脚注。报告中用于注释一个或更多个药物治疗选项的信息可以由存储科学信息的商业实体提供。医疗保健提供者可以使用注释信息中列出的实验药物来治疗受试者(例如癌症患者),并且医疗保健提供者可以访问注释的药物治疗选项、检索科学信息(例如,打印医学期刊文章),并将其(例如,打印的期刊文章)连同提供药物治疗的报销请求一起提交给保险公司。医师可以使用各种诊断相关组(drg)代码中的任何一个来进行报销。

报告中的药物治疗选项也可用有关药物影响途径中其他分子成分的信息来注释(例如,有关靶向细胞表面受体下游的激酶的药物的信息,该激酶是药物靶标)。药物治疗选项可以使用有关靶向一种或更多种其他分子途径成分的药物的信息进行注释。与途径相关的信息的标识和/或注释可以外包或分包给另一家公司。

注释信息可以是例如药物名称(例如,fda批准的允许使用范围之外的药物;在cms批准的药典中发现的药物;和/或在科学(医学)杂志文章中描述的药物)、与一种或更多种药物治疗选项有关的科学信息、与一种或更多种药物有关的科学信息的一个或更多个链接、与一种或更多种药物有关的临床试验信息、与药物相关的科学信息引文的一个或更多个链接等。可将注释信息插入报告中的任何位置。可将注释信息插入报告中的多个位置。可将注释信息插入报告中有关分层的药物治疗选项的部分附近。可将注释信息插入报告中与分层药物治疗选项分离的页面。不包含分层的药物治疗选项的报告可用信息进行注释。

该系统还可包括关于药物对从受试者(例如癌症患者)分离的样品(例如肿瘤细胞)的作用的报告。可以使用本领域技术人员已知的技术建立使用来自癌症患者的肿瘤的体外培养物。该系统还可包括使用所述体外培养和/或异种移植模型对fda批准的允许使用范围之外的药物或实验药物进行高通量筛查。该系统还可包括监测肿瘤抗原,用于复发检测。

在优选的实施方案中,注释信息可包括治疗建议,包括针对brca签名的parp抑制剂,针对msi签名的免疫疗法的作用的注释。

基于以下非限制性示例进一步描述了本公开的前述实施方案。

实施例

本文所述的结构、材料、组合物和方法旨在作为本公开的代表性实例,并且应理解,本公开的范围不受实施例范围的限制。本领域技术人员将认识到,可以通过对所公开的结构、材料、组合物和方法进行变型来实现本公开,并且这种变型被认为在本公开的范围内。

背景

测序宽度可取代测序深度,以克服敏感癌症检测中cfdna丰度的限制。

以上数据表明患者血浆样品中单个ssnv的检测来自两个连续的统计采样过程。第一个过程提供了以典型血液样品中存在的有限数量的基因组当量,将突变片段进行采样的概率。第二个过程,鉴于其丰度、测序深度和测序错误(信噪比),评估检测样品中突变片段的概率。尽管后一过程一直是科学界进行深入研究和技术开发的焦点(例如,超深度无错误测序方案),但前者的随机过程很少得到解决。但是,在低负荷疾病ctdna检测中,这两种过程都起着如上所示的重要作用。如果不存在代表靶向的ssnv的物理片段,那么即使是理想的超深度靶向测序也无法发现癌症信号,这被认为是导致这些方法的灵敏度有限(~40%,rosenfeld等人)的主要因素之一。在实践中,单次观测(突变读数)很少足以用于可靠检测的事实使这个问题更加复杂。

为了确定在给定cfdna样品中对突变片段采样的概率,利用源自两个群体的cfdna片段的混合物(其比例由肿瘤分数(tf)定义),即源自正常细胞的cfdna片段和源自恶性起源的cfdna片段,将cfdna采样建模为bernoulli试验。因此,血浆样品中存在的基因组当量构成了患者循环中整个cfdna片段池的随机采样。因此,在支持特定置换的血浆样品中采集至少一个突变片段的概率可以定义为:p=1-(1-tf)ge,其中p为概率;tf是肿瘤分数;ge对应于患者cfdna中存在的基因组当量的数量。本模型预测与早期癌症方案相关的tf(tf<1%)的检测概率将针对低tf表现出快速下降,甚至在频率为0.1%(1/1000)时,检测概率预计低于0.65(图3a)。值得注意的是,即使在可以有效利用1000基因组当量(约6ngcfdna)穷举测序的理想条件下,并基于具有理想信噪比的单个支持dna片段进行检测,也能观察到这些局限性。这些结果表明,血浆采样概率对低tf方案(例如mrd和早期癌症阶段检测)的突变检测强加了一个严格的上限。

相反,本模型还表明,可以通过增加宽度来增加检测位点(snv)的数量,可有效地克服对测序深度的限制,这是由于对每个snv重复bernoulli试验(bernoulli试验概率的二项式分布)。该模型可以用bin(n,p)二项式分布表示,其中n代表测试的位点(突变)数,p=1-(1-tf)ge是单个位点的检测概率。重要的是,该数学模型可预测检测到的位点的平均数量以及至少一个检测的概率,其是独特dna片段的数量(基因组当量或覆盖度),突变负荷(n,还可用作小组大小(panelsize))和tf的函数(图3b)。利用该模型,发现以适度的测序工作(20x覆盖度),即使在1:100,000的tf下,以适度测序工作(20x覆盖度)积分超过20,000个ssnv(在17%的人类癌症中发现约10个突变/mb)也能够提供高检测概率(高达0.98),因此可以使用标准的全基因组测序(wgs)轻松实现(图3c)。

相关应用

染色体畸变的无创产前检查(nipt)

本公开进一步涉及使用前述系统、方法和算法的染色体畸变的无创产前检查(nipt)。优选地,可以使用图1c和1e中概述的基于cnv/sv的工作流程来执行nipt。在此,可以调用从头扩增和缺失并用于诊断受试者的样品(例如,来自怀有怀疑患有染色体畸变胎儿的孕妇的羊水或血液)。该方法利用独特的log2/片段大小(相同现象出现在胎儿与正常dna中)的关系来增加灵敏度和特异性,例如图18e和图18f。因此,图1c和图1e的工作流程允许研究人员或临床医生组合两种信息源,这些信息源仅在胎儿dna产生的cnv中相关,而与对应于测序、比对、gc假象的噪声不相关。因此,即使关于cnv区段的先前信息不容易获得,本公开的方法和系统也允许临床医生使用从头cnv检测获得nipt的更高灵敏度和特异性。

实施例1:体细胞突变分类器的设计

当设计用于体细胞突变分类的模型时,重要的是识别可能导致假阳性体细胞突变的错误来源。无论在读数中的位置如何,真正的突变都可能具有高的碱基质量。同样,在真正突变的位置上的读数碱基、参考碱基和比对字符串(cigar)可能与读数比对无关。更具体地说,可期望真正的体细胞突变在空间上是不变的。众所周知,测序实验中的系统错误取决于读数中的位置,因此尽管突变本身在空间上可能是不变的,但其在读数中的位置通常并不是不变的。由错误映射(mismapping)引起的错误很可能包含重复序列或非常特异性的序列基序(例如端粒中的ttaggg)。因此,期望模型能够准确地表示真实体细胞突变中的空间不变性和由于映射而引起的错误,同时维持整个读数的碱基质量的模型。因此,由此得出的结论是,任何依赖于目的读数的完全连接层进行分类的浅层卷积网络都将无法捕获突变的不变性。

认识到这些约束和/或要求,发明人设计了体细胞突变分类器引擎。利用卷积神经网络的引擎,利用八层的卷积神经网络以校正空间依赖性,其末端具有受到vgg架构启发的单个完全连接层(simonyan&zisserman,arxiv:1409.1556,修订于2015年4月10日;alexandrov等人,nature,500(7463):415-421,2013)。使用大小为3的感知场(perceptivefield)将位置上的所有特征(列)进行卷积。经过两个连续的卷积层后,通过感受野为2且步幅为2的最大池化进行下采样,从而迫使模型在小空间区域中仅保留最重要的特征。预期该架构有两个主要好处:1)在三核苷酸窗口上进行卷积时,空间不变性得以保持;2)通过将读数片段坍塌成25个区段(每个区段大约代表8个核苷酸的区域)来捕获“质量映射”。最后一个卷积层的输出直接应用于s型完全连接层,以用于进行最终分类。为了保留与读数中的位置相关的特征,使用了一个简单的逻辑回归层而不是多层感知器或全局平均池化。

所公开的模型和训练方案被称为引擎。引擎是读数代表的首次使用,其可联合捕获比对的基因组上下文、完整的读数序列以及每个碱基质量得分的积分。引擎的性能表明,整合读数及其对齐方式的特征已为使用样品的完整突变图谱(而不只是以高深度覆盖的那些)的新的体细胞突变调用器集合奠定了基础。

为了评估该模型的性能,在独立呈现的肺癌数据集上研究了模型的预测性能。数据集与相同患者的健康wgs数据配对。使用度量f1得分、精度、灵敏度和特异性对模型进行了评估,这些参数定义为:

灵敏度=tp/(tp+fn)…………(等式1)

精度=tp/(tp+fp)……………(等式2)

特异性=tn/(tn+fn)…………(等式3)

f1得分=2x(精度x再次调用)/(精度+再次调用)…………(等式4)

表1:验证测试度量

发现该模型在验证集合上得到.961的平均f1-得分。该模型在肿瘤对照上的f1得分达到.71。尽管该模型对肿瘤对照仍然敏感,但与验证数据集相比,它表现出了一些特异性下降。但是,在独立肺样品的情况下,观察到的f1为.92,表明了高特异性(表1)。癌症对照中的低精度和特异性表明引擎学会了与吸烟肺癌相关的特定突变模式,同时还学会了普遍的错误模式。

为了进一步检查引擎的学习能力,在分析中使用了来自黑色素瘤患者的额外样品(ca0040;表1)。与烟草暴露相关的突变图谱相比,由于暴露于紫外线,黑色素瘤样品通常表现出明显不同的突变图谱(图8a)。该引擎模型在黑色素瘤样品上实现0.71的f1得分。因此,尽管模型仍然敏感,但黑色素瘤样品的较低精度和特异性表明引擎学会了与烟草暴露的肺癌相关的特定突变模式,同时学会了适用于两种肿瘤类型的更普遍的测序假象模式。

为了进一步检查上述问题,检查了真实癌症突变变体读数与包含来自以下数据集的读数的测序假象之间的三核苷酸上下文频率差异:(i)训练中包括的肺癌患者样品(ca0046,验证数据集),(ii)训练中不包括的肺癌患者(ca0044)和(iii)黑色素瘤患者(ca0040)。结果示于图8b。

注意到,如所预期的,与烟草相关的肺腺癌样品显示出与烟草相关突变签名一致的c>a转换的高度富集(图8b)。因此,假设引擎可以学习在肿瘤突变数据中普遍存在的特异性序列上下文(即,肿瘤特异性突变签名)。为了检验该假设,测量了在每个三核苷酸上下文中真实癌症变体与测序假象之间的频率差异,将其与这些相同读数的平均模型预测相关联。据推论,如果模型正在学习(肺)癌症特异性序列上下文,那么三核苷酸序列频率与模型输出之间的高度相关性是可以预期的。根据推理,在ca0046(包括在训练中,pearsonsr=1)和ca0044(不包括在训练中,pearsonsr=0.95)中都观察到了模型预测与三核苷酸富集之间的高度相关性。结果示于图8c。

为了直接检查高相关性是否是独立于序列上下文(替代方案)的准确分类的结果,对黑色素瘤样品(ca0040)进行了类似分析。结果表明,存在三核苷酸上下文与模型预测之间的正相关性(pearsonsr=0.64),表明准确分类来自除突变签名以外的其他特征,其明显低于暴露于烟草的肺癌数据。该发现与特异性肺癌突变签名的模型学习一致。这一发现为训练专门用于检测黑色素瘤相关体细胞突变的单独模型铺平了道路。使用上述nsclc程序,检查了来自三名黑色素瘤患者的额外数据集。黑色素瘤验证数据集和独立的黑色素瘤样品中的f1得分较高,表明在性能方面这些观察结果是相似的,但是将模型应用于nsclc数据(对照)时,f1得分较低。

合成血浆中低肿瘤分数时的引擎灵敏度和精度

为了评估该系统和/或方法在低肿瘤分数背景下的性能,将引擎的精度和灵敏度与最新的调用器mutect、snooper和strelka进行了比较。结果示于图9a,显示了用引擎实现的优异灵敏度,尤其是在低肿瘤分数下。相反,mutect不能在任何肿瘤分数下检测到合成样品中的多于两个的突变,并且只要它成功进行了突变预测,就对肿瘤分数进行相同的调用。因此,引擎相对于mutect的灵敏度提高了200倍以上,同时与简单过滤器相比,在肿瘤分数为0.01时提高了精度。基于这些令人惊讶的更好结果,将本公开的系统和方法应用于真实血浆样品的背景中。

在引擎和简单调用方法pileup之间也进行了比较。结果示于图9b和图9c,比较评估是在使用引擎实施的过滤器上进行的。使用另一种称为富集度的度量进一步进行了比较评估,该度量提供了当暗含过滤器时肿瘤与正常突变的比率增加的信息。可以使用下面的等式5来计算富集因子。

富集度=精度out/精度in…(等式5)

尽管pileup具有足够的灵敏度来检测模拟血浆中的体细胞突变,但是它包括所有突变。这在富集度和精度度量方面反映不佳。在通道的下一阶段,使用了通过突变频率的过滤器。尽管mf和bq+mq过滤器实际上耗尽了肿瘤读数的样品,但在tf=0.01时观察到了富集度增加。这很好地表明了该过滤器不仅可用于评估通道,而且在将噪声呈递给cnn之前也可用于去除大部分噪声。当使用cnn过滤器时,观察到了噪声的数量级又一次(第三次)降低。最重要的是,随之而来的灵敏度降低仅约25%。在完整的通道中,观察到肿瘤分数为0.01时和肿瘤分数为0.0001时都富集了30倍(相对于pileup;绿线)。数据示于图9c中。

使用引擎分析实际cfdna样品中的体细胞突变

为了确定本公开的方法和系统在实际临床环境中是稳健的,对两种不同类型的样品进行了实际评估。第一个是来自健康个体的cfdna样品(标识符:bb600;bb601);第二种是来自早期肺癌患者,在手术前获取(标识符:bb1122;bb1125)。在实际临床中,执行测试的临床医生无法获得有关患者的突变信息。但是,由于bb1125接受了手术,因此临床医生能够使用标准的突变调用通道来测量真正的体细胞突变。可以使用这些调用并将它们与来自cfdna的读数结合,以获得对引擎的灵敏度、精度和富集度的合格第二估计。

发现在应用过滤通道后,成功捕获了样品中存在的413个突变中的27个。最显著的是,对照中的假阳性率从266个错误抑制为3个错误(参见表2)。结果表明,尽管通道整体上实际上消耗了大约50%的肿瘤信号,但相比之下,引擎却将其所呈现的样品富集了大约1.7倍。

表2:无细胞dna样品,肺癌(bb1125)的性能度量

结果表明,预处理步骤中的差异可能导致bqmq过滤器的设置不佳。可以推断,对于该样品,碱基质量得分20可能太宽容了。

认识到使用允许以高灵敏度检测真正的体细胞突变而同时拒绝由系统错误引起的候选突变的训练方案可能是有利的,对多位肺癌患者进行了采样并对其系统错误概况进行了匹配。从多位吸烟肺癌患者中选择了四个代表性样品进行训练以实施该方案(表3)。

表3:训练,验证和测试数据集

另一名吸烟的肺癌患者用来进行测试。样品由纽约基因组中心(newyorkgenomecenter)的癌症联盟(canceralliance)处理并提供。这些样品具有来自同一患者的完整肿瘤样品和健康组织样品。采用三个调用器strelka,lofreq和mutect的一致性,以便进行体细胞突变的最终调用。然后将支持这些突变的读数用作肿瘤读数以进行训练。

由于期望模型学习区别于测序假象,因此采用了来自包含恰好发生一次突变的健康样品的读数。由于这些变体不被多于一个的读数支持,因此很可能是由于系统错误所致。然后过滤这些低质量的变体,并过滤突变处的碱基质量得分小于20或映射质量小于40的读数(bq20,mq40)。这些阈值bqmq值是通过检查确定的;但是,生成了一个窗口以允许将较低质量的样品包括在训练中。额外设置了训练集的小子集作为验证数据集。此数据集不仅用于监视训练进度,还用于在独立读数(但非独立突变)上验证模型的性能。然后在测试肺数据集上评估模型的性能。

合成血浆

为了测试模型在低频率下检测体细胞突变的能力,通过从患者的健康dna和患者的肿瘤dna中随机取样来产生来自测试肺样品(ca0044,表3)的四个模拟血浆样品。在覆盖度为35且肿瘤混合物为0%、0.01%、0.001%和0.0001%的情况下进行采样。为了稳健性,用三个随机种子进行混合。选择约0.1的阈值比率作为cfdna中的体细胞突变比率。因此,在准备用于推理的合成血浆读数时,仅选择混合物中由少于1/10th的覆盖读数所支持的突变。

为了评估本公开的方法和/或系统在低肿瘤分数背景下的性能,在引擎和现有技术的低频调用器mutect之间比较了诸如精度、灵敏度和富集度之类的参数。通过包括称为pileup的简单调用方法进一步进行比较,该pileup允许观察到的任何错配。pileup之后,重复应用用于引擎的相同过滤器,并测量每个步骤的性能。该方法中执行的过滤器是mf(突变频率)(其过滤比血浆中预期的发生频率更高的pileup读数(突变发生次数的10%))、bqmq(其过滤在突变处的碱基质量低于20或映射质量低于40的读数)以及最终的使用引擎的过滤方法。

cfdna样品的评估

在合成样品上对引擎进行评估之后,测试了其在真实血浆dna样品上的性能。分析中使用了对照样品(bb600;bb601)和吸烟肺癌患者样品(bb1125或bb1122)。因为还对这些患者进行了肿瘤活检,所以通过假设来自活检的所有mutect调用的突变也存在于cfdna中来测量真阳性。使用这些调用,进行了与合成血浆中相同的分析(同上)。

评估灵敏度、精度和富集度

在对照的情况下,针对受试者bb1125的突变进行所有测量。

特征构建

为了完全捕获测序读数、比对和基因组上下文,创建了读数的空间定向代表(图5)。对于参考中的插入,在参考上下文中在插入位置处放置“n”以保持空间对齐。对于参考中的缺失,在读数序列中在缺失位置处放置“n”。对软屏蔽(softmasked)区域进行分区,以使读数与读数的映射部分相邻,并且参考上下文以连续的“n”断开,直到软屏蔽区域的末端。这样做有两个原因,以确保用于软屏蔽区域的信号强,其次,保持读数独立于其对齐方式的思想。

从基因组上下文向读数的两侧填充区段(例如,+/-25bp)(图6)。对于150bp的读数,这将导致16x200bp的矩阵,在读数不是150bp的情况下,则会添加额外的上下文碱基。最大碱基质量得分设置为40(p=99:99%),并且将得分被按比例变化到区间[0,1]中。读数(基因组上下文)未涵盖的碱基获得的碱基质量得分为零。读数中的缺失获得的质量得分为读数中两个侧翼位置的平均值。

超参数和实施细节

使用小批量随机梯度下降训练模型,初始学习速率=:1,动量=:9。如he等人所述,当验证损失达到平稳时,学习速率降低了10倍(在proceedingsoftheieeeconferenceoncomputervisionandpatternrecognition,pp.770–778,2016中)。使用256的最小批量大小,因为它似乎在验证损失和训练速度之间提供了最佳折衷。使用64个过滤器的基数,在每个下采样层之后将其加倍,以在每个阶段保持一致数量的参数。这是在观察到32基过滤器模型无法充分执行之后,根据经验选择的。在每个卷积层之后,先应用批量归一化,然后再应用修正线性单元。在每个池化层之前,应用一个丢弃概率(dropprobability)=.5的丢弃。

引擎在平衡的肿瘤分数背景下显示出强大的性能。即使在模拟血浆中,它也保持了其很大一部分性能。引擎在0.0001的肿瘤分数下还实现了2倍富集,这表明即使相关的体细胞突变比测序噪声本身少10倍,也能够将所述相关的体细胞突变捕获。相比之下,作为一种并未旨在设计为在cfdna背景中起作用的工具,mutect在所有肿瘤分数下均做出少于两个的预测。参见图9a–9c。

表4给出了引擎结果的详细总结。

表4:引擎在黑色素瘤和肺癌数据集上的性能度量摘要(f1得分、灵敏度、特异性和精度)。

其他实施方案

基于前述内容,可以将系统和方法开发为完整的早期检测引擎。尽管引擎通过使用完全连接的s形层捕获读数中的位置,但有些架构可能更适合捕获读数中的相对位置。此外,包含在来自dna片段的读数对中的额外信息源,其未包括在初步检测中,可用于确定来源链(沃森或克里克)并估计dna片段的大小。已经观察到,与常规循环健康dna相比,ctdna具有不同的片段大小分布(underhill等人,plosgenetics,12(7):e1006162,2016)。

前述系统和方法可以与递归神经网络(rnn)整合。现已表明,rnn是一种强大的工具,可以在甚至长达1kb的距离将长度用作生物信息学中的特征,远远超过ctdna片段的大小(hill等人,biorxiv,pp.200758,2017)。整合递归神经网络而不是逻辑回归层可进一步提高本公开的方法和系统的性能。

实施方案2:用于检测和验证肿瘤特异性低丰度肿瘤标记的方法和系统及其在癌症诊断中的用途

本公开的系统和方法可用于癌症的早期诊断。如本领域中已知的,与转移性癌症(其特征在于高疾病负担和显著升高的ctdna)相比,在早期癌症或残留疾病检测的情况下,ctdna的丰度限制了靶向测序技术的使用。考虑到在低肿瘤负荷的情况下已知数量有限的cfdna,首先,研究了优化cfdna提取的潜力。首先,为减少源自样品采集的差异和个体间差异,使用由通过健康受试者和经受造血干细胞收集的癌症患者的血浆去除术进行的大体积血浆收集(约300cc)生成的均匀cfdna材料,比较了市售的提取试剂盒和方法。大量血浆可在相同cfdna输入上测试多种方法和方案参数,从而能够精确测量产量和质量的细微差异。

在该比较研究中使用了来自capitalbiosciences(gaithersburg,md,usa;catalog#cfdna-0050),qiagen(germantown,md,usa),zymo(irvine,ca,usa;catalog#d4076),omegabio-tek(norcross,ga,usa;catalog#m3298),和neogenestar(somerset,nj,usa,catalog#ngs-cfdna-wpr)的试剂盒和/或提取方法。按照制造商的说明统一使用这些试剂盒和试剂,对1ml的大体积血浆样品进行提取。并行处理多个血浆等分试样,以评估方法间和方法内的可变性。使用荧光定量(总质量),uv吸光度(检测盐和蛋白质污染物)和芯片上电泳(大小分布和gdna污染)确定每个回收的cfdna样品的产量和纯度。

结果表明,来自omegabio-tek的mag-bindcfdna提取试剂盒的性能优于所有其他测试方法。进一步对制造商的方案的每个步骤进行了系统优化,以减少污染物残留并提高cfdna的回收率。

然后将优化的提取方案应用于来自早期肺癌的样品。该组包括11个术前早期肺癌血浆样品和4个来自良性患者的血浆样品(对照)。示例性的患者特征在图11中示出。尽管优化了提取方法,但低疾病负荷样品中的cfdna产量仍然很低,并且在患者之间显示高变异性,介于0.13ng/ml至1.6ng/ml之间。这些数据证实了可用于cfdna测序的dna分子的少且可变的数量。

测序宽度可取代测序深度,以克服敏感癌症检测中cfdna丰度的限制。

以上数据表明患者血浆样品中单个ssnv的检测来自两个连续的统计采样过程。第一个过程提供了以存在于典型血液样品中的有限数量的基因组当量,将突变片段进行采样的概率。第二个过程,鉴于其丰度、测序深度和测序错误(信噪比),评估检测样品中突变片段的概率。尽管后一过程一直是科学界进行深入研究和技术开发的焦点(例如,超深度无错误测序方案),但前者的随机过程很少得到解决。但是,在低负荷疾病ctdna检测中,这两种过程都起着如上所示的重要作用。如果不存在代表靶向的ssnv的物理片段,那么即使是理想的超深度靶向测序也无法发现癌症信号,这被认为是导致这些方法的有限灵敏度(~40%,rosenfeld等人)的主要因素之一。在实践中,单次观测(突变读数)很少足以用于可靠检测的事实使这个问题更加复杂。

为了确定在给定cfdna样品中对突变片段采样的概率,利用源自两个群体的cfdna片段的混合物(其比例由肿瘤分数(tf)定义),即源自正常细胞的cfdna片段和源自恶性起源的cfdna片段,将cfdna采样建模为bernoulli试验。因此,血浆样品中存在的基因组当量构成了患者循环中整个cfdna片段池的随机采样。因此,在支持特定置换的血浆样品中采集至少一个突变片段的概率可以定义为:p=1-(1-tf)ge,其中p为概率;tf是肿瘤分数;ge对应于患者cfdna中存在的基因组当量的数量。本模型预测与早期癌症方案相关的tf(tf<1%)的检测概率将针对低tf表现出快速下降,甚至在频率为0.1%(1/1000)时,检测概率预计低于0.65(图3a)。值得注意的是,即使在可以有效利用1000基因组等效物(约6ngcfdna)穷举测序的理想条件下,并基于具有理想信噪比的单个支持dna片段进行检测,也能观察到这些局限性。这些结果表明,血浆采样概率对低tf方案(例如mrd和早期癌症阶段检测)的突变检测强加了一个严格的上限。

相反,本模型还表明,可以通过增加宽度来增加检测位点(snv)的数量,可有效地克服对测序深度的限制,这是由于对每个snv重复bernoulli试验(bernoulli试验概率的二项式分布)。该模型可以用bin(n,p)二项式分布表示,其中n代表测试的位点(突变)数,p=1-(1-tf)ge是单个位点的检测概率。重要的是,该数学模型可预测检测到的位点的平均数量以及至少一个检测的概率,其是独特dna片段的数量(基因组当量或覆盖度),突变负荷(n,还可用作小组大小(panelsize))和tf的函数(图3b)。利用该模型,发现以适度的测序工作(20x覆盖度),即使在1:100,000的tf下,以适度测序工作(20x覆盖度)积分超过20,000个ssnv(在17%的人类癌症中发现约10个突变/mb)也能够提供高检测概率(高达0.98),因此可以使用标准的全基因组测序(wgs)轻松实现(图3c)。

对整合的全基因组ssnv检测进行计算机验证

该模型表明增加位点的数量会导致检测概率的显著增加。为了验证该预测,使用来自具有各种癌症类型的11位癌症患者的肿瘤和正常wgs数据的计算机(insilico)混合物模拟cfdna检测,这些类型包括来自肺腺癌、导管腺癌(乳腺癌)、皮肤黑色素瘤、尿路上皮癌(膀胱)和骨肉瘤的高级别肿瘤(方案a的完整临床细节;图1f)。

所有样品均用~80x肿瘤wgs和~40xpbmcwgs进行深度测序。为了生成计算机(insilico)混合物,将肿瘤和正常wgs读数以不同比例混合并获得不同tf(0.00001、0.00005、0.0001、0.0005、0.001、0.005、0.01)和覆盖度(5、10,15、20、35)的患者特异性虚拟血浆样品的数据集,每种条件都有5个独立的重复样品,这些样品是通过下采样过程中使用的不同随机种子获得的。为了模拟在残留疾病背景下的检测,对原始肿瘤和种系wgs数据进行了体细胞突变调用,并获得了患者特异性ssnv概要。然后,通过检测患者特异性ssnv概要的至少一个支持读数,来测量计算机血浆模拟混合物中肿瘤相关突变位点的数量。已经发现,整合许多位点还导致由测序错误导致的噪声累积,这可能会限制上述信号的检测。为了估计基于wgs的cfdna检测中的噪音程度,生成了下采样的正常读数的互补数据库(tf=0,在20x和35x覆盖度20个重复),该数据库没有混合来自肿瘤wgs的读数。这些数据使能够进行信噪比测量,并证明了整合的全基因组snv检测可以针对各种肿瘤类型以20x的覆盖度在高突变负荷肿瘤中确信地检测tf>1:2000。

随着噪声的相对贡献随着tf的减小而增加,这些数据还显示了来自测序错误的噪声如何塑造检测到的位点数量与tf之间的关系。与整合了估计的测序噪声的数学模型预测的比较显示,对于所有患者和癌症类型在不同的tf和覆盖度值上具有高度一致性。该分析还证明了突变负荷(n)和覆盖度的增加如何增加检测信号,其中,在1%tf下检测的数量在40k突变负荷(黑色素瘤)至8k突变负荷(非烟草肺)之间变化。

表征构成估计的噪声基础的变量以及优化的过滤器的开发可以显著改善信噪比和检测灵敏度。通过其他独立变量(如突变负荷、覆盖度和癌症类型)对噪声分布进行建模。结果显示了独立于癌症类型的错误概率,其反映了先前公布的测序错误率(~1/1000个碱基)。而且,检测到的信号显示出与可忽略的种系相关噪声的患者特异性关系。

数据显示,发现测序错误与诸如碱基质量(bq)、映射质量(mq)、片段长度和可变等位基因频率(vaf)之类的参数有关。因此,为了降低测序错误率,通过最佳接收器点分析(roc)开发了联合碱基质量(bq)和映射质量(mq)优化的过滤器,从而将测得的错误率降低了3fc(至约3x10-4)。即使在35x的wg深度下肿瘤的tf降至1/20,000时,应用具有降低的35x覆盖度的该过滤器也可以检测标记。即使在非常低的tf下,这些数据也支持使用患者匹配的整合全基因组ssnv图谱,以实现癌症检测概率,而与cfdna丰度无关(例如1ng的输入允许100xwgs)。此外,实验结果与数学模型之间的高度一致性表明,可以将测量检测到的位点(患者特异性ssnv)的数量转换为血浆tf的估计,从而允许在早期检测背景中进行定量tf监测。

除了质量度量之外的其他参数可进一步用于过滤剩余的噪声,包括利用关于特定基序、特征等的信息。代表性的方法包括,例如,执行片段大小过滤器(例如,仅考虑约200bp或更短的片段)和可变等位基因频率(vaf)过滤器(例如,仅考虑vaf大于阈值(例如2%、5%、10%)的等位基因)。暴露于烟草和暴露于紫外线的各种突变签名分别显示在图12a的顶图和底图。肺肿瘤、乳腺肿瘤和黑色素瘤样品中差异表达的cosmic签名显示在图12b和12c中。

应用

然后将该敏感性从头突变检测应用于5位早期患者的测序的术前血浆,从而产生全基因组cfdna突变检测。汇总全基因组突变数据以计算每位患者的突变概要,然后使用新的机器学习算法和工具(例如卷积神经网络(cnn))进行新的分析方法,以用于敏感性突变签名检测。

cnn是以双管齐下的策略的应用为基础-首先,利用监督的学习针对泛肺癌队列(患有深层肿瘤和pbmcwgs的5名患者)训练深度学习算法,以鉴定区分真正的肿瘤突变和人工错误的签名。然后将获得的模型用于推断肺腺癌早期患者的早期检测血浆样品中检测到的每个个体突变,并为其分配置信度估计。其次,通过对整个基因组的这些置信度估计进行积分得到检测信号,然后使用非负最小二乘法(nnls),对单个血浆样品中的特定cosmic突变签名进行用于灵敏检测的新分析方法。使用cosmic突变暴露值与针对100个随机背景签名推断的暴露值的比较(zscore>2std),可进一步验证签名检测的置信度。

结果显示在图13中,其表明本公开的cnn在早期肿瘤检测(ed)中特别有用。通过这种方法,在每种情况下,即使tf为1/1000或更低,在肺癌患者中检测到了烟草特异性签名;在黑色素瘤患者中检测到了紫外线特异性签名;在乳腺癌患者中检测到了brca特异性签名。为了评估该方法的能力,以改善在处于暴露于烟草风险的受试者中当前肺癌ct筛查的低阳性预测值(ppv),该方法被应用于来自5位早期肺患者和4位良性结节的血浆样品,所有这些在ct筛查中均被检测为阳性。数据显示早期肺癌样品呈阳性检测,而良性结节呈低(假)阳性检测,因此显示了改善的ppv。

接下来,将患者特异性签名得分(zscore)映射到患者特征,例如吸烟者或不吸烟者,吸烟史,例如每个患者吸烟的包年数(对于吸烟者),包括组织病理学特征例如结节检测为阳性或阴性(nd)。结果示于图14a,其显示在有烟草暴露的患者的早期癌症血浆中检测到烟草签名,但是在具有良性结节或无吸烟史的患者中未检测到烟草签名。通过这种方法,有可能在先前有过烟草暴露的4位早期肺病患者中的3位检测到烟草签名,而在不吸烟的肺患者和接受了良性肺结节切除的3位个体的血浆样品中未检测到(n.d.)签名。在除一个阶段外的所有阶段中,在肺癌患者的检测中,烟草签名的特异性为至少67%,在晚期(例如iiia期及以后)患者中,特异性接近100%。

诊断方法与ct筛查的应用可改善ppv

为了改善ct筛查方法的低阳性预测值(ppv),在有或没有ct筛查的情况下,将前述筛查方法应用于诊断/预测处于危险中的暴露于烟草的受试者。首先,通过全基因组测序(wgs)从头检测标记和签名(包括snv、cnv、indel和/或sv),并使用上述方法分析标记的噪声/错误。以这种方式,分析了从早期nsclc患者(i和ii期)收集的总共30个术前样品。此外,对通过基于机构ct的筛查程序发现患有良性病变的30个年龄与烟草暴露匹配的患者进行了wgs。来自cfdna数据的检测信号以盲法与基于ct的读数积分,以确定是否可以使用cfdna信息改善ct筛查的阳性预测值。据估计,该队列有能力检测到ppv的效应大小增加20%,从本方法的约40%增加到使用整合cfdna和ct筛查的约60%。根据研究结果,还可进行大规模的前瞻性机构临床试验。

讨论

数据表明,本公开的方法和/或系统优于现有方法,特别是在低丰度标记的情况下,其用于肿瘤的早期检测(ed)。在早期癌症检测中,无法获得匹配的肿瘤dna,这需要挑战性的从头癌症变异检测。本公开的全基因组整合方法利用ssnv序列上下文信息来检测与特定诱变过程(例如暴露于烟草、uv光、apobec活性过高、brca突变、parp活性或msi)相关的突变签名。在所有测试样品中,这些签名特别出现在肿瘤体细胞突变中,而在pbmc体细胞突变中完全不存在。

在低tf样品的cfdna中灵敏和特异性的从头突变检测对现有的突变检测算法从根本上是挑战性的。所有本领域已知的方法都致力于在特定基因组位点比较肿瘤和正常dna。检测基因组中突变位点的能力源自对覆盖位点的多个支持读数的观察,然后经受统计框架,以将这些多个观察与测序噪声(测序错误、映射错误等)源区分开。但是,在早期检测的情况下,突变的ctdna的数量远低于测序深度(或在特定位点可用于测序的片段数量),因此,充其量,每个位点最多只能观察到单个支持读数。例如,在虚拟血浆数据上应用mutect时,即使考虑到调用统计文件中包含的所有检测(变体过滤之前),真实的肿瘤相关体细胞突变也会随着tf的降低而迅速下降,但当考虑通过单个支持读数进行检测时,将调用更多此类突变位点。

为了允许在低tf下进行无错误地从头单个ctdna检测,需要一个新的框架使能够区分源自癌症突变的替代读数和由测序假象产生的读数。尽管突变签名通常利用了三核苷酸上下文,但最近的数据表明,序列上下文可能会扩展到该范围之外,并且可能很难通过监督的特征选择来捕获。

本公开提供了用于过滤测序错误的新方法和通道。例如,由特定突变过程产生的肿瘤产生了独特的突变模式,可用于去除人工噪声并提供具有改善的受试者特异性、灵敏度和精度的富集标记。本公开的神经网络利用机器学习,这使得它们能够克服本领域已知的调用器的前述局限性。机器学习架构区分癌症改变的测序读数和由测序错误改变的读数,并特异性地和适应性地过滤系统性测序噪声。在这种情况下,本公开的深度卷积神经网络(cnn)提供了以监督的方式整合大量特征的人工智能平台,其专门用于解决基因组序列读数的情况下的分类问题。cnn设计中使用的方法基于对突变调用挑战的重新思考。与诸如mutect之类的本领域已知的突变调用器不同,本公开的cnn可以区分包含真实变体的读数与包含测序假象的读数。本公开的cnn不是静态的而是动态的,因为可以使用大量的肿瘤和正常wgs数据在数百万个真实突变的读数和错误上对其进行训练。

如与在许多患者中检测多种肿瘤类型相关的更高的灵敏度和特异性所证明的,cnn的前述特征优于本领域已知的突变调用器。

本公开的方法和系统在检测肺癌中的应用

前述结果表明,整合基因组的信息可以克服与指示疾病状态的低丰度标记检测相关的主要障碍。将本公开的方法和系统应用于分析方法有助于打破检测的上限,并使得能够检测低至1/10,000的肿瘤分数,并改善测序深度。这些优点在手术后和/或治疗后患者中的肺癌检测和残余疾病检测领域特别有用。

在恶化前肺病变的情况下,与早期nsclc相比,微创疾病的检测可能甚至更具挑战性。值得注意的是,大多数癌症突变被认为发生在恶性转化之前,因此即使在恶化前的生长中也可能存在。因此,本文所述的系统和方法还可用于检测恶化前病变,尤其是在肺肿瘤的情况下。

在基于snv的方法中片段大小特征的正交积分

由于血液循环期间的dna降解,cfdna片段分布具有独特的特征。健康的正常cfdna样品显示图17a所示的片段大小分布。与主要源自造血细胞(免疫细胞)凋亡的“正常”dna片段相比,源自肿瘤的循环dna片段显示出较短的片段大小。与正常cfdna样品相比,乳腺肿瘤cfdna(红色和紫色)显示片段大小偏移(图17b)。计算第一核小体的质心(com)(170bp附近的峰)显示出向与tf线性对应的较低com偏移。在小鼠中使用人类肿瘤异种移植模型(pdx)显示,来自肿瘤起源的循环dna(红色,与人类比对)明显短于来自正常起源的循环dna(黑色,与小鼠对比)。参见图17c。

为了产生可以量化单dna片段来自肿瘤或正常起源的概率的稳健模型,我们使用联合高斯混合模型(gmm)来表征循环dna的片段大小分布。通过将gmm分析应用于从我们的pdx样品中提取的循环肿瘤dna中,仅使用与人类基因组比对的循环dna,即可估计循环肿瘤dna模型(红色虚线)。通过将gmm分析应用于健康人类志愿者血浆样品中的循环dna,可以估计循环正常dna模型(灰色虚线)。然后使用联合对数比值比(logoddsratio)(黄线)来估计特定循环dna的片段大小来自肿瘤或正常起源的概率。数据示于图17d中。

基于dna片段大小分布和gmm联合对数比值比,患者特异性突变检测可用于检查这些dna片段是否与肿瘤起源相对应。为了增加置信度并降低批次效应偏差,使用跨患者检测开发了患者内部对照。例如,在下面显示的特定患者中,检测到的肿瘤突变(灰色,匹配的检测结果)存在,并且显示出片段大小向低片段大小偏移的趋势。在相同患者样品上,检测到与其他患者相关的突变(红色,跨患者检测),这些假象检测具有相同的烟草签名上下文信息模式,但不是真实检测。有趣的是,这些跨患者检测结果未显示出低片段大小偏移的趋势,并且其片段大小分布与真正的肿瘤检测结果明显不同(wilcoxonrank-sum,pvalue3*10-9)。使用gmm联合对数比值比确认患者特异性突变检测来自肿瘤起源(联合对数比值比=0.3),而来自相同患者样品的人工突变来自正常起源(联合对数比值比=-0.35)。三位患者的代表性数据示于图17e中。

在cnv标记的情况下片段大小的正交积分

由于血液循环期间的dna降解,cfdna片段分布具有独特的特征。健康的正常cfdna样品显示片段大小分布的变化(参见以上,图17a和图17b)。在此,在分析质心(com)分布的情况下,计算第一核小体的com(170bp附近的峰)显示出向与tf线性对应的较低com偏移。

患者之间的片段大小质心(com)的比较分析在灵敏度方面可能受到限制,并且也可能容易产生批次效应。患者内部局部片段大小com可以由于表观遗传学特征或由于拷贝数事件而改变。实际上,在扩增片段中,肿瘤分数存在局部增加(由于肿瘤dna比例的增加),因此局部片段大小质心(com)减小。另一方面,在缺失片段中,肿瘤分数存在局部降低(由于肿瘤dna比例的降低),因此局部片段大小质心(com)增加。数据示于图18b中。

使用整个基因组上所有窗口的估计log2和com值,计算log2/com线性模型的中值样品质心(com)、斜率和r^2。这些特征本身与肿瘤dna的分数相对应(图18c)。更具体地,数据表明log2/fs相关性(r2)与肿瘤dna的分数具有很强的关系(图18d)。

该图18d中的每个点对应于一个患者样品。x轴表示该患者所有1mbp分箱中所有log2和com值之间的相关性(r^2)。该值显示出与样品tf的正交估计(y轴)的强相关性。与在癌症患者中看到的相关性相比(图18e),检查健康血浆样品中log2和com的相关性显示出极低的相关性(r^2=0.008)(参见图18f)。

本公开涉及以下非限制性实施方案:

实施方案1、一种用于对受试者进行癌症遗传筛查的方法,其包括(a)接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要,其中遗传标记概要选自由以下各项组成的组:单核苷酸变异(snv)、短插入和缺失(indel)、拷贝数变异、结构变体(sv)及其组合;(b)基于检出噪声的概率(pn),通过将概要中的每个读数统计学分类为信号或噪声,从概要中去除人工读数,其中检出噪声的概率(pn)为(1)读数的碱基质量(bq);(2)读数的映射质量(mq);(3)估计的读数片段大小;和/或(4)估计的读数等位基因分数(vaf)的函数;(c)通过利用机器学习(ml)模型区分癌症相关突变特征与pcr或测序错误相关特征来适应性地和/或系统地过滤与概要中的每个读数相关的测序噪声;(d)基于噪声去除步骤(c)和过滤步骤(b),编译包括概要中多个真实读数的受试者特异性签名;(e)基于受试者特异性签名和癌症签名之间的匹配程度,对受试者的生物样品包括循环肿瘤dna(ctdna)的置信度估计进行统计学量化;(f)如果该受试者的生物样品包含癌症相关突变签名的置信度估计超过给定阈值,则对该受试者进行癌症筛查。

实施方案2、根据实施方案1的方法,其中该受试者的生物样品包括血浆、脑脊液、胸膜液、眼液、粪便、尿液或其组合。

实施方案3、根据实施方案1和2中任一项的方法,其中所述癌症签名包括cosmic烟草签名、uv签名、乳腺癌(brca)签名、微卫星不稳定性(msi)签名、载脂蛋白bmrna编辑酶、聚(adp-核糖)聚合酶(parp)高活性签名、催化性多肽样(apobec)签名。

实施方案4、根据实施方案1至3中任一项的方法,其中所述癌症签名包括与组织特异性表观遗传(epigenetic)模式相关的模式,例如组织特异性染色质可及性模式。

实施方案5、根据实施方案1至4中任一项的方法,其中所述方法还包括通过利用机器学习(ml)模型区分癌症相关突变特征(真阳性)和pcr或测序错误相关特征(假阳性)来过滤与概要中每个读数相关的测序噪声。

实施方案6、根据实施方案1至5中任一项的方法,其中,机器学习模型包括深度卷积神经网络(cnn)、递归神经网络(rnn)、随机森林(rf)、支持向量机(svm)、判别分析、最近邻分析(knn)、集成分类器或其组合。根据前述实施方案中任一项的方法,其中已经对该ml进行了训练以区分癌症改变的测序读数和由测序或pcr错误改变的读数。

实施方案7、根据实施方案1至6中任一项的方法,其中已经在全基因组测序(wgs)的癌症数据集上训练了ml,该全基因组测序(wgs)的癌症数据集包括多个横跨肿瘤突变和正常测序错误的读数。

实施方案8、根据实施方案1至7中任一项的方法,其中所述ml能够(a)以高精度鉴定测序或pcr假象,以及(b)整合序列上下文和读数特异性特征。

实施方案9、根据实施方案1至8中任一项的方法,其中,步骤(c)包括基于联合碱基质量(bq)、映射质量(mq)得分和片段大小,执行最佳接收器操作特性(roc)曲线,该曲线包括概要中的遗传标记的概率分类。

实施方案10、根据实施方案1至9中任一项的方法,其中肿瘤是选自由以下各项组成的组的肿瘤:脑癌、肺癌、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、固态肿瘤、非小细胞肺癌(nsclc)、烟草诱发的癌症(tic)、紫外线诱发的癌症、载脂蛋白bmrna编辑酶催化蛋白(apobec)活性介导的癌症、包括乳腺癌蛋白(brca)突变的癌症、包括聚(adp-核糖)聚合酶(parp)活性的癌症以及包括微卫星不稳定性(msi)的肿瘤。

实施方案11、根据实施方案1至10中任一项的方法,其中所述受试者未被诊断出癌症和/或是无症状的。

实施方案12、根据实施方案1至11中任一项的方法,其中所述受试者是处于i至iii期的早期癌症的患者。

实施方案13、根据实施方案1至13中任一项的方法,还包括基于筛查中采用的受试者特异性签名的基于签名的疗法的提名或推荐。

实施方案14、根据实施方案13的方法,其中所述疗法提名包括用于brca签名的parp抑制剂,用于msi签名的免疫疗法。

实施方案15、根据实施方案1至14中任一项的方法,其中肿瘤是肺腺癌、导管腺癌(乳腺肿瘤)、非小细胞肺癌肺腺癌(nsclcluad)、皮肤黑色素瘤、尿路上皮癌(膀胱肿瘤)、结直肠癌(lynch)或骨肉瘤。

实施方案16、根据实施方案1至15中任一项的方法,其中步骤(f)还包括:通过解析线性优化方程-min‖ax-b‖,x≥0来确定置信度估计,其中a为突变签名序列上下文矩阵,x是每个cosmic突变签名的贡献(变量),b是患者特异性序列上下文概要。

实施方案17、根据实施方案16中任一项的方法,其中通过非负最小二乘法(nnls)、交叉熵全局最优化方法、黄金分割搜索方法或其组合来解析该优化方程。

实施方案18、根据实施方案1至17中任一项的方法,其中步骤(b)还包括通过以下步骤从概要中除去人工读数:(1)去除低映射质量的读数(例如,<29,roc优化);(2)建立重复家族(代表相同dna片段的多个pcr/测序拷贝),并基于一致性测试产生校正的读数;(3)去除低碱基质量的读数(例如,<21,roc优化);和/或(4)去除高片段大小的读数(例如,>160,roc优化),步骤(e)还包括计算受试者序列-上下文概要与特异性cosmic序列-上下文概要之间的序列上下文相似度,以确定受试者的生物样品包括癌症相关突变签名的置信度估计。

实施方案19、根据实施方案1至18中任一项的方法,其中步骤(f)进一步包括基于余弦相似度、相关性、交互信息或其组合来评估该受试者特异性签名和癌症签名之间的相似度。

实施方案20、根据实施方案1至19中任一项的方法,进一步包括使用癌症突变签名与多个随机背景签名的比较来验证对置信度的筛查。

实施方案21、根据实施方案20中任一项的方法,其中所述比较步骤包括zscore的评估,其中高于阈值的zscore指示该受试者特异性签名对于癌症签名是特异性的并且与随机背景签名不相关。

实施方案22、根据实施方案1至22中任一项的方法,其中步骤(f)进一步包括将癌症特异性签名置信度(zscore)与通过背景噪声模型计算的经验阈值进行比较。

实施方案23、根据实施方案22中任一项的方法,其中,根据经验计算的背景噪声模型包括测量相对于正常健康样品的基础噪声zscore估计的癌症特异性签名置信度(zscore),其中至少为1、至少为2、至少为3、至少为4或至少为5的阈值噪声zscore估计表明所述标记是癌症特异性的。

实施方案24、根据实施方案1至23中任一项的方法,其中所述受试者特异性签名与癌症特异性突变签名匹配,该癌症特异性突变签名包括在肿瘤中但不在正常样品中差异表达的标记。

实施方案25、根据实施方案1至24中任一项的方法,其中该肿瘤样品包括肺肿瘤、乳腺肿瘤、黑色素瘤、膀胱肿瘤、结直肠肿瘤或骨肿瘤。

实施方案26、根据实施方案1至25中任一项的方法,其中筛查多个受试者,并且该方法允许在至少50%的受试者中进行早期检测。

实施方案27、根据实施方案1至27中任一项的方法,进一步包括计算机断层扫描(ct)筛查步骤,其中所述ct筛查步骤在步骤(a)至(f)的任何一个步骤之前、同时或之后进行。

实施方案28、实施方案27的方法,其中所述癌症是实体肿瘤,并且所述ct筛查包括可疑结节的检测。

实施方案29、根据实施方案1至28中任一项的方法,其中该受试者是患有良性病变的患者。

实施方案30、根据实施方案29中任一项的方法,其中该良性病变通过ct筛查、组织病理学、活检或其组合来鉴定。

实施方案31、根据实施方案1至30中任一项的方法,进一步包括区分恶性结节和良性结节以增加ct筛查的阳性预测值(ppv)。

实施方案32、根据实施方案31中任一项的方法,其中,所述ppv增加至少30%。

实施方案33、用于在有需要的受试者中早期检测(ed)恶性肿瘤的方法,其包括实施根据实施方案1至32中任一项的方法。

实施方案34、根据实施方案1至33中任一项的方法,其中步骤(a)进一步包括通过全基因组测序聚合全基因组突变数据,并且步骤(c)进一步包括使用数学优化步骤检测突变签名。根据前述实施方案中任一项的方法,其中,数学优化步骤包括采用非负最小二乘(nnls)。

实施方案35、用于在受试者中检测恶化前肿瘤签名的方法,其包括(a)生成来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要,其中遗传标记概要选自由以下各项组成的组:单核苷酸变异(snv)、短插入和缺失(indel)、拷贝数变异、结构变体(sv)及其组合;(b)基于检出噪声的概率(pn),通过将概要中的每个读数统计学分类为信号或噪声,从概要中去除人工读数,其中检出噪声的概率(pn)为(1)读数的碱基质量(bq);(2)读数的映射质量(mq);和/或(3)估计的读数片段大小;(4)读数等位基因分数(vaf)的函数;(c)通过利用机器学习(ml)模型区分癌症相关突变签名与pcr或测序错误相关签名来适应性地和/或系统地过滤与概要中的每个读数相关的测序噪声;(d)基于噪声去除步骤(c)和过滤步骤(b),编译包括概要中多个真实读数的受试者特异性签名;(e)基于受试者特异性签名和癌症签名之间的匹配程度,对受试者的生物样品包括循环肿瘤dna(ctdna)的置信度估计进行统计学量化;(f)如果该受试者的生物样品包含癌症相关突变签名的置信度估计超过给定阈值,则检测恶化前的肿瘤特征。

实施方案36、根据实施方案35的方法,其中该受试者是怀疑患有或患有以下疾病的患者:脑癌、肺癌、皮肤癌、鼻癌、咽喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、固态肿瘤、非小细胞肺癌(nsclc)、烟草诱发的癌症(tic)、紫外线诱发的癌症、载脂蛋白bmrna编辑酶催化蛋白(apobec)活性介导的癌症、包括乳腺癌蛋白(brca)突变的癌症、包括聚(adp-核糖)聚合酶(parp)活性的癌症以及包括微卫星不稳定性(msi)的肿瘤、lynch综合征或brca遗传缺陷。

实施方案37、根据实施方案35和36中任一项的方法,其中机器学习(ml)模型包括适应性地和/或系统地过滤测序噪声的深度卷积神经网络(cnn)。

实施方案38、根据实施方案37的方法,其中cnn包括在泛肿瘤队列中采用深度学习算法来鉴定区分真实肿瘤突变和人工错误的签名;为肿瘤患者样品中检测到的每个个体突变分配置信度估计;对整个基因组的置信度估计进行积分;并使用样品中特异性cosmic突变签名的非负最小二乘(nnls)。

实施方案39、包括计算机可执行指令的计算机可读介质,该计算机可执行指令在由处理器执行时使处理器执行用于早期检测肿瘤或检测恶化前肿瘤病变的方法或一组步骤,该方法或步骤包括:(a)生成来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要,其中遗传标记概要选自由以下各项组成的组:单核苷酸变异(snv),短插入和缺失(indel)、拷贝数变异、结构变体(sv)及其组合;(b)基于检出噪声的概率(pn),通过将概要中的每个读数统计学分类为信号或噪声,从概要中去除人工读数,其中检出噪声的概率(pn)为(1)读数的碱基质量(bq);(2)读数的映射质量(mq);和/或(3)估计的读数片段大小(4)读数等位基因分数(vaf)的函数;(c)通过利用机器学习(ml)模型区分癌症相关突变特征与pcr或测序错误相关特征来适应性地和/或系统地过滤与概要中的每个读数相关的测序噪声;(d)基于噪声去除步骤(c)和过滤步骤(b),编译包括概要中多个真实读数的受试者特异性签名;(e)基于受试者特异性签名和癌症签名之间的匹配程度,对受试者的生物样品包括循环肿瘤dna(ctdna)的置信度估计进行统计学量化;(f)如果受试者的生物样品包含癌症相关突变签名的置信度估计超过给定阈值,则检测恶化前的肿瘤签名。

实施方案40、根据实施方案39的计算机可读介质,其中,机器学习(ml)模型包括在一端具有单个完全连接层的分层卷积神经网络(cnn),其中,当在三核苷酸窗口上卷积时,cnn保持空间不变性;通过将读数片段坍塌成多个区段来维持质量映射,每个区段代表大约八个核苷酸的区域。

实施方案41、根据实施方案40的计算机可读介质,其中cnn包括8个层,包括在一端的单个完全连接层和两个连续的卷积层,其输出通过感受野为2且步幅为2的最大池化进行下采样;其中该8层的cnn通过将读数的片段坍塌成约25个单独的区段来维持质量映射,并使用大小为3的感知场(perceptivefield)在基因组读数的某个位置处的列上卷积;其中最后的卷积层的输出直接施加到s形全连接层,由此对标记进行最终分类。

实施方案42、根据实施方案40和41中任一项的计算机可读介质,其中cnn包括读数代表,所述读数代表联合捕获比对的基因组上下文、完整的读数序列以及每个碱基质量得分的积分。

实施方案43、根据实施方案39和42中任一项的计算机可读介质,其中与mutect相比,步骤(a)至(f)一起将基因组读数中包含体细胞突变的肿瘤特异性标记富集了约1.12倍至约30倍。

实施方案44、包括计算机可执行指令的计算机可读介质,该计算机可执行指令在由处理器执行时使处理器执行用于诊断受试者中的癌症的方法或一组步骤,该介质包括通过以下方法开发的卷积神经网络(cnn):(a)从多个受试者样品接收每个受试者的遗传标记概要,其中该遗传标记包括体细胞单核苷酸变异(ssnv);体细胞拷贝数变异(scnv);插入/删除(indel);或基因组读数中的结构变异(sv);(b)处理泛肿瘤队列中每个受试者的遗传标记概要,以鉴定区分真实癌症标记和人工错误的签名;(c)基于处理步骤(b),对概要中的每个签名分配置信度估计;(d)对基因组读数中的步骤(c)的每个签名的置信度估计进行积分,以建立肿瘤签名;(e)通过将每个受试者样品的步骤(b)至(d)的结果返回给cnn,直到对于每个受试者cnn达到预设的置信度估计阈值,在数学上优化该肿瘤签名。

实施方案45、根据实施方案44的计算机可读介质,其中该置信度估计的分配包括:1)使用线性混合优化来计算cosmic突变签名的贡献的置信度度量;或(2)计算患者序列上下文概要与特异性cosmic签名的相似度。

实施方案46、根据实施方案45的计算机可读介质,其中线性混合优化包括解析代数函数min‖ax-b‖,x≥0,其中a是突变签名序列上下文矩阵,x是每个cosmic突变签名的贡献,b是患者特异性序列上下文概要。

实施方案47、根据实施方案46的计算机可读介质,其中a包括至少5个、至少10个、至少15个、至少20个、至少25个或至少30个cosmic签名以及100个随机突变签名。

实施方案48、根据实施方案45和47中的任一项的计算机可读介质,其中,线性混合优化包括计算包括提取e_random(平均贡献得分)和std_random(std贡献得分)的随机签名贡献的分布;通过zscore检查每个cosmic签名的贡献检测的置信度,包括计算度量(cosmic_sig_contribution-e_random)/std_random,其中该度量表示与随机集合相比特定签名的显著性。

实施方案49、根据实施方案44和48中任一项的计算机可读介质,其中该数学优化步骤包括采用非负最小二乘(nnls)。

实施方案50、用于在有需要的受试者中诊断肿瘤的系统,其包括:数据获取单元,其配置成接收多个读数,该多个读数包括从包括受试者的血浆样品和正常细胞样品的生物样品中扩增和测序的遗传标记;标记鉴定单元,其被配置为鉴定受试者特异性遗传标记概要中的多个受试者特异性标记,该标记鉴定单元通信地连接至该数据获取单元,包括:噪声去除单元,所述噪声去除单元基于读数的碱基质量、读数的映射质量、读数的片段大小和/或读数的可变等位基因频率(vaf)去除人工噪声;以及分类引擎,其被配置为基于置信区间得分对该概要中去除噪声的每个读数进行统计学分类,该置信区间得分指示该读数与肿瘤之间的统计关联的统计水平,其中,该分类引擎利用机器学习(ml)模型以便适应性地和系统地过滤在扩增步骤或测序步骤中引入的噪声,并进一步将概要中去除噪声的ml过滤的读数与一个或更多个已知癌症签名相匹配;以及诊断单元,其被配置为基于该匹配来诊断肿瘤。

实施方案51、根据实施方案50的系统,其中该分类引擎进一步被配置为通过使用线性混合优化问题计算置信度度量,将概要中去除噪声的ml过滤的读数与一个或更多个已知癌症签名进行匹配。

实施方案52、根据实施方案51的系统,其中线性混合优化包括计算肿瘤发生率与肿瘤介导因子之间的关联的zscore置信度估计,所述肿瘤介导因子选自烟草暴露、紫外线暴露、dna修复失调、dna编辑错误、微卫星不稳定性或其组合。

实施方案53、根据实施方案52的系统,其中zscore置信度估计包括解析包括min‖ax-b‖,x≥0的代数函数,其中a是突变签名序列上下文矩阵,x是每个cosmic突变签名的贡献;b是患者特异性序列上下文概要。

实施方案54、根据实施方案52和53中任一项的系统,其中zscore置信度估计包括解析包括min‖ax-b‖,x≥0的代数函数,其中a包括30个cosmic签名和100个随机突变签名;计算包括平均贡献得分(acs)和标准贡献得分(std_random)的cosmic签名(csc)随机签名(e_random)的贡献分布;通过利用函数(csc-e_random)/std_random计算zscore度量来检查每个cosmic签名的贡献的置信度,其中zscore代表与随机集相比特定签名贡献的显著性。

实施方案55、根据实施方案52和54中任一项的系统,其中zscore置信度估计包括计算患者序列-上下文概要与特异性cosmic签名的相似度。

实施方案56、根据实施方案52和55中任一项的系统,其中zscore置信度估计包括归一化患者序列-上下文概要以获得密度函数;计算患者序列-上下文密度函数和cosmic签名密度函数之间的余弦相似度;以及通过除以患者序列-上下文密度函数和非信息均匀密度函数之间的余弦相似度来归一化余弦相似度。

实施方案57、根据实施方案52和56中任一项的系统,其中zscore置信度估计包括检查zscore是否超过检测阈值,其中该阈值包括根据经验估计的健康样品中的基础噪声。

实施方案58、根据实施方案52和57中任一项的系统,其中癌症签名包括烟草签名,正置信区间包括大于2、3、4,优选地大于5个标准差的zscore。

实施方案59、根据实施方案50和58中任一项的系统,其中遗传标记包括dna中的snv、cnv、indel和/或sv,并且接收单元接收全基因组测序(wgs)的遗传数据。

实施方案60、根据实施方案50和59中任一项的系统,其中包括血浆样品的生物样品包括无细胞dna(cfdna);正常细胞样品包括外周单核血细胞(pmbc),并且标记包括体细胞单核苷酸变异(ssnv)或体细胞拷贝数变异(scnv)或其组合

实施方案61、根据实施方案60的系统,其中样品中cfdna的量在约0.1ng/ml至约20.0ng/ml之间。

实施方案62、根据实施方案50和61中任一项的系统,其中样品具有低的肿瘤分数(tf),如通过肿瘤dna分子的量相对于正常dna分子的比率所测量的。

实施方案63、根据实施方案62的系统,其中该肿瘤分数(tf)在约0.0001%(1比一百万个分子)至约20%之间。

实施方案64、根据实施方案50和6中任一项的系统,其中该人工噪声去除引擎被配置为基于读数的碱基质量(bq)得分、读数的映射质量(mq)得分、读数的片段大小或读数的可变等位基因频率(vaf),执行最佳接收器操作特性(roc)曲线,该最佳接收器操作特性曲线包括概要中读数的概率分类。

实施方案65、根据实施方案50和64中任一项的系统,其中,人工噪声去除引擎还被配置为基于(iii)读数中的位置(rp);(iv)读数的序列上下文(sc);(v)读数的丰度;(vi)测序深度和/或(vii)测序错误来过滤噪声。

实施方案66、一种用于对受试者进行癌症遗传筛查的方法,包括(a)接收来自受试者的生物样品的与多个遗传标记相关联的受试者特异性的全基因组读数概要,该生物样品包括血浆样品,其中读数概要各自包括单个碱基对长度的读数;(b)从读数概要中过滤人工位点,其中过滤包括(a)从读数概要中去除在参考健康样品队列上产生的重复位点;和/或(b)鉴定生物样品中的种系突变和/或将肿瘤样品与正常细胞样品的外周血单核细胞之间的共享突变鉴定为种系突变,并从读数概要中去除该种系突变;(c)使用至少一种错误抑制方案从读数概要中过滤噪声,以产生全基因组读数概要的经过滤的读数集,其中该至少一种错误抑制方案包括:(a)计算概要中任何单个核苷酸变异是人为突变的概率,并去除该突变,其中该概率是作为选自包括以下各项的组的特征的函数来计算的:映射质量(mq)、变体碱基质量(mbq)、读数中的位置(pir)、平均读数碱基质量(mrbq)及其组合;和/或(b)使用由聚合酶链式反应或测序处理产生的相同dna片段的独立重复之间的不一致测试,和/或重复一致性来去除人工突变,其中当给定重复家族的大多数缺乏一致时,鉴定并去除人工突变;(d)基于与预定诱变过程相关的特异性突变签名的比较,使用经过滤的读数集来编译受试者特异性签名;(e)根据癌症相关突变签名暴露值与背景突变签名队列的比较,通过受试者特异性签名,对受试者的生物样品包括癌症相关突变签名的置信度估计进行统计学量化;(f)如果受试者的生物样品包括癌症相关突变签名的置信度估计超过给定阈值,则对受试者进行癌症筛查。

实施方案67、用于对受试者进行癌症遗传筛查的方法,包括,(a)接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组读数概要,该生物样品包括血浆样品,其中读数概要各自包含拷贝数变异(cnv)或结构变异(sv);(b)将读数概要划分为多个窗口;(c)计算每个窗口的特征集合,这些特征包括每个窗口的中值深度覆盖度和每个窗口的代表性片段大小,以及任选的拆分读数;(d)从读数概要中过滤人工位点,其中过滤包括从读数概要中去除在参考健康样品队列上产生的重复位点;(e)归一化读数概要,以产生全基因组读数概要的经过滤的读数集合;(f)使用经过滤的读数集合通过以下方式计算估计的肿瘤分数:(i)通过计算每个窗口的特征集合之间的线性关系,并使用回归模型将计算的关系转换为估计的肿瘤分数,和/或(ii)在一个或更多个整合数学模型的基础上,作为受试者特异性全基因组读数概要中计算的每个窗口的特征集合的函数;(g)如果估计的肿瘤分数超过经验阈值,则对受试者进行癌症筛查。

实施方案68、用于对受试者进行癌症遗传筛查的系统,包括分析单元,该分析单元包括预过滤器引擎,该预过滤器引擎被配置和布置为接收来自受试者的生物样品的与多个遗传标记相关的读数的受试者特异性全基因组概要,该生物样品包括血浆样品,其中读数概要各自包括单个碱基对长度的读数;从读数概要中过滤人工位点,其中过滤包括从读数概要中去除在参考健康样品队列上产生的重复位点;和/或鉴定生物样品中的种系突变和/或将肿瘤样品与正常细胞样品的外周血单核细胞之间的共享突变鉴定为种系突变,并从读数概要中去除该种系突变;校正引擎,该校正引擎被配置和布置为使用至少一种错误抑制方案来从读数概要中过滤噪声,以产生全基因组读数概要的经过滤的读数集,其中该至少一种错误抑制方案包括:(a)计算该概要中任何单个核苷酸变异是人工突变的概率,并去除该突变,其中该概率是作为从包括以下各项的组中选择的特征的函数来计算的:映射质量(mq)、变异碱基质量(mbq)、读数中的位置(pir)、平均读数碱基质量(mrbq)及其组合;和/或(b)使用聚合酶链反应或测序处理产生的相同dna片段的独立重复之间的不一致测试,和/或重复一致性来去除人工突变,其中给定重复家族的大多数之间缺乏一致性时鉴定和去除人工突变;以及计算单元,该计算单元被配置和布置为基于与预定诱变过程相关的特异性突变签名的比较,使用经过滤的读数集来编译受试者特异性签名;基于对癌症相关突变签名暴露值与背景突变签名队列的比较,通过受试者特异性签名对受试者的生物样品包括癌症相关突变签名的置信度估计进行统计学量化;如果受试者的生物样品包含癌症相关突变签名的置信度估计超过给定阈值,则对受试者进行癌症筛查。

实施方案69、一种用于在有需要的受试者中检测残留疾病的系统,包括分析单元,该分析单元包括分箱引擎,该分箱引擎被配置和布置为接收来自受试者的生物样品的与多个遗传标记相关的受试者特异性全基因组的读数概要,该生物样品包括血浆样品,其中读数概要各自包括拷贝数变异(cnv);将读数概要划分为多个窗口;和计算每个窗口的特征集合,这些特征包括每个窗口的中值深度覆盖度和每个窗口的代表性片段大小;预过滤器引擎,该预过滤器引擎被配置和布置为从读数概要中过滤人工位点,其中过滤包括从读数概要中去除在参考健康样品队列上产生的重复位点;归一化引擎,该归一化引擎被配置和布置为归一化读数概要,以产生全基因组读数概要的经过滤的读数集;以及计算单元,该计算单元被配置和布置为使用经过滤的读数集通过以下方式来计算估计的肿瘤分数(i)通过计算每个窗口的特征集合之间的线性关系,并使用回归模型将计算的关系转换为估计的肿瘤分数,和/或(ii)基于一个或更多个整合数学模型,作为受试者特异性全基因组读数概要中计算的每个窗口的特征集合的函数;以及如果估计的肿瘤分数超过经验阈值,则对受试者进行癌症筛查。

实施方案70、实施方案66的方法,其中所述标记包含单个核苷酸变异(snv)或插入/缺失(indel);优选为snv。

实施方案71、实施方案66和70中任一项的方法,其中过滤在参考健康样品队列上产生的重复位点包括产生正常小组(pon)黑名单或掩码。

实施方案72、实施方案66和70至71中任一项的方法,其中所述参考健康样品包括外周血单核细胞(pbmc)。

实施方案73、根据实施方案66和70至73中任一项的方法,其中步骤(c)包括采用机器学习(ml)算法过滤人工噪声,所述机器学习(ml)算法为例如深度卷积神经网络(cnn)、递归神经网络(rnn)、随机森林(rf)、支持向量机(svm)、判别分析、最近邻分析(knn)、集成分类器或其组合;优选为支持向量机(svm)。

实施方案74、实施方案66和70至73中任一项的方法,其中在步骤(c)(b)中,人工变异的校正包括使用原始核酸片段的独立重复的比较,校正由pcr或测序产生的人工突变。

实施方案75、实施方案74的方法,其中在步骤(c)(b)中,通过将r1和r2对之间的不一致校正回到相应的参考基因组,去除由配对末端150bp测序产生的人工变异,该人工变异导致重叠的配对读数(r1和r2)。

实施方案76、实施方案66和70至75中任一项的方法,其中在步骤(c)(b)中,校正在测序和/或pcr扩增期间通过重复产生的人工变异,其中该重复家族是通过5'和3'相似性以及比对位置识别的,并且其中每个重复家族用于检查独立重复中特异性突变的一致性,从而校正在大多数重复家族中未显示一致性的人工突变。

实施方案77、实施方案66和70至76中任一项的方法,其中在步骤(d)中,使用非负最小二乘(nnls)方法鉴定单个血浆样品中的特异性突变签名。

实施方案78、实施方案66和70至77中任一项的方法,其中在步骤(e)中,通过将癌症特异性突变签名暴露值与针对多个随机背景签名推断出的暴露值进行比较,进一步验证了特异性突变签名的置信度。

实施方案79、根据实施方案78的方法,其中在步骤(f)中,如果受试者的生物样品包含癌症相关突变签名的置信度估计超过给定的阈值z-score>2std,则所述受试者被鉴定为患有癌症。

实施方案80、根据实施方案66和70至79中任一项的方法,其中在步骤(d)中,附加地或替代地,包括使用机器学习(ml)算法,例如深度学习方法,以区分癌症改变的测序读数和由测序错误改变的读数。

实施方案81、根据实施方案80的方法,其中使用大量的肿瘤和正常wgs数据针对多个真实突变的读数和错误对ml进行训练,并且经训练的ml能够区分包含真实变体的读数和包含测序假象的读数。

实施方案82、根据实施方案66至81中任一项的方法,还包括对包括片段大小偏移的次要特征进行正交积分。

实施方案83、实施方案82的方法,其中使用统计方法,例如显著性检验或高斯混合模型(gmm),分析肿瘤特异性标记和随机标记列表中的患者内部片段大小偏移。

实施方案84、实施方案67中任一项的方法,其中该标记包括拷贝数变异(cnv)。

实施方案85、实施方案67和84中任一项的方法,其中在步骤(b)中,每个窗口为至少≥150bp。

实施方案86、实施方案67和84至85中任一项的方法,其中步骤(c)包括从全基因组特征向量中提取深度覆盖度(log2)和片段大小(com)关系(斜率,r^2)。

实施方案87、根据实施方案67和84至86中任一项的方法,其中步骤(d)包括通过生成正常小组(pon)黑名单或掩码来过滤在参考健康血浆样品队列上生成的重复位点;和/或过滤低可映射性或覆盖度的窗口。

实施方案88、根据实施方案67和84至87中任一项的方法,其中所述归一化步骤包括通过对逐箱gc分数和可映射性得分执行两个loess回归曲线拟合来归一化深度覆盖度,以校正gc含量和可映射性偏差。

实施方案89、根据实施方案67和84至88中任一项的方法,其中该归一化步骤包括使用稳健zscore归一化的批量效应校正,所述稳健zscore归一化被分别应用于每个样品。

实施方案90、实施方案89的方法,其中zscore归一化包括基于每个样品的中性区域来计算中值和中值绝对偏差(mad),并且通过减去所述中值将差额除以mad来归一化所有cnv箱。

实施方案91、根据实施方案67和84至90中任一项的方法,其中步骤(e)包括与正常小组(pon)健康血浆样品相比,计算血浆样品中的深度覆盖度偏态和/或片段大小质心(com)偏态。

实施方案92、根据实施方案67和84至91中任一项的方法,其中步骤(f)包括通过使用隐藏马尔可夫模型或自组织神经网络(例如,基于自适应共振理论(art)的神经网络或自组织映射(som)),进行拷贝数变异(cnv)调用和计算经过滤的读数集的肿瘤分数。

实施方案93、根据实施方案67和84至92中任一项的方法,还包括对包括片段大小偏移的次要特征进行正交积分。

实施方案94、实施方案93中任一项的方法,其中肿瘤特异性标记和随机标记列表中的患者内部片段大小偏移是使用统计学方法(例如,显著性检验或高斯混合模型(gmm))分析的。

尽管上面已经讨论了许多示例性方面和实施方案,但是本领域技术人员将认识到其某些修改、置换、添加和子组合。因此,旨在将所附权利要求书和此后引入的权利要求书解释为包括在其真实精神和范围内的所有这样的修改、置换、添加和子组合。为了方便起见,这里收集了说明书、实施例和权利要求书中使用的某些术语。除非另有定义,否则本公开中使用的所有技术和科学术语均具有与本公开所属领域的普通技术人员通常所理解的相同含义。

在整个本公开中,引用了各种专利、专利申请和出版物。这些专利,专利申请、收录的信息(例如,由pubmed、pubchem、ncbi、uniprot或ebi登录号标识的信息)和出版物的全部内容均通过引用并入到本公开中,以便更全面地描述截至本公开日期本领域技术人员已知的技术水平。在所引用的专利、专利申请和出版物与本公开之间存在任何不一致的情况下,以本公开为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1