背景技术:
0、背景
1、癌症为全世界疾病的主要原因。每年,在世界各地有数千万人被诊断为患有癌症,并且多于一半的患者最终因其而死亡。在许多国家,癌症列为继心血管疾病之后第二大常见的死亡原因。早期检测与许多癌症的改善结果相关。
2、为了检测癌症,有几种筛选测试可得。身体检查和历史记录调查了一般健康体征,包括检查疾病体征,诸如肿块或其他不寻常的身体症状。患者的健康习惯和过去的疾患和治疗的历史也将被收集。实验室测试为另一种类型的筛选测试,并且在进行实验室测试之前,可能包括医学程序以取得组织、血液、尿液或身体中其他物质的样品。成像程序通过生成身体内部区域的视觉表示来筛选癌症。遗传测试检测与一些类型癌症相关的某些基因的有害突变。遗传测试对于许多诊断方法为特别有用的。
3、尽管有这些进步,对于提高对当前集中在症状提示和晚期癌症的理解的更大的群体筛查技术存在巨大需求。为此,具有高特异性、临床有用灵敏度和高度准确的起源组织(tissue of origin,too)鉴定的多种癌症检测方法将限制评估患者(包括无症状患者)的范围、成本和复杂性。
4、作为一个实例,本文描述了使用无细胞dna (cfdna)或其他分析物对多种癌症类型的检测和定位。使用本文描述的方法和系统,跨宽范围肿瘤类型的稳健too分配被实现,并且能够指导诊断评估。简言之,首先进行二元分类以确定癌症状况(cancer status),诸如样品是否具有癌症。此后,分类为癌症的样品经历第二模型,该第二模型通过将样品分类为癌症类型之一来进行too确定。如本文显示的,癌症cfdna的群体规模研究在多种癌症类型的各种代表性筛查群体中展示了一致的性能。
技术实现思路
0、发明概述
1、本文描述了一种计算机实现的方法,包括:在包括一个或更多个硬件处理器和一个或更多个计算机可读存储介质的计算机系统中接收一个或更多个数据集,其中数据集包括从患者的测试样品获得的分子表型,并且其中计算机可读介质包括指令,所述指令在由处理器执行时使一个或更多个硬件处理器进行测试样品的一个或更多个分类。在其他实施方案中,分子表型包括多于一个基因组区域的甲基化状态(state)、组蛋白修饰、染色质状态、片段长度或转录因子占据。在其他实施方案中,分子表型包括表观遗传数据、基因组序列数据、蛋白质组数据、微生物组数据、成像数据、组织学数据和/或元数据。在其他实施方案中,表观遗传数据包括甲基化、组蛋白乙酰化、染色质状态或dna环化相互作用数据。在其他实施方案中,该方法包括进行第一分类及随后的第二分类,其中第二分类仅当第一分类包括预定类别时进行。在其他实施方案中,第一分类和第二分类使用逻辑回归模型进行。在其他实施方案中,第一分类使用逻辑回归模型进行,并且第二分类使用朴素贝叶斯、决策树、支持向量机(svm)、随机森林分类器、k-最近邻(knn)或神经网络进行。在其他实施方案中,第一分类是癌症状况,并且第二分类是癌症类型。在其他实施方案中,癌症状况是包括癌症和非癌症状态的二元类别。在其他实施方案中,对于起源癌症信号和/或起源组织,癌症状况和/或癌症类型包括基于以下中的一种或更多种的状况(包括甲基化状况)的分类:在一些实施方案中,分析测序数据以检测特定的癌症关联信号。这些信号包括遗传突变、表观遗传改变(诸如dna甲基化)和指示癌症存在的基因表达模式。遗传和表观遗传信息包括多种表观遗传标志物或功能元件,例如tfb、ctcf结合位点、遗传变异诸如cnv、snv、插入/缺失、融合、mrna表达、片段组学模式、片段组学水平、片段端点密度、与以下关联的组蛋白乙酰化或甲基化标志物:平衡增强子包括h3k4me1、h3k27ac、h3k27me3,启动子区包括h3k4me3、h3/h4ac、h3k4me1、h3k27me3、h3k9me3和/或h3.3,开放染色质包括h3ac和h4ac、h3k4me1、h3k4me2、h3k4me3、h2bk120ub、h3.3、h3s10ph。
2、在其他实施方案中,癌症类型包括乳腺癌、结肠直肠癌、肺癌、膀胱癌、胰腺癌、卵巢癌、肝癌、胃癌、食道癌、肾癌、黑素瘤、胆囊癌或子宫癌。在其他实施方案中,癌症类型还包括癌症在患者中起源的组织。在其他实施方案中,癌症类型还包括原发不明癌症(cancerof unknown primary,cup)在患者中起源的组织。在其他实施方案中,分类是基于癌症特异性模型集。在其他实施方案中,每个癌症特异性模型输出癌症类型的评分。在其他实施方案中,在评分超过阈值时,进行癌症类型的预测。在其他实施方案中,在分数低于阈值时,不进行癌症类型的预测。在其他实施方案中,对癌症类型进行肿瘤分数估计。在其他实施方案中,低于阈值的所有评分输出肿瘤分数为零(tf=0)和无癌症标记(cancer-free label)。在其他实施方案中,样品包括无细胞dna (cfdna)。在其他实施方案中,样品包括血液、血浆、唾液或尿液。在其他实施方案中,样品包括生物流体、生物固体或生物组织。
3、本文描述了一种方法,包括:获得或已经获得受试者的样品;检测样品中的一个或更多个特征;以及对受试者的癌症状况进行分类。在其他实施方案中,癌症状况包括确定样品中一个或更多个细胞的起源组织。在其他实施方案中,样品中一个或更多个细胞的起源组织。在其他实施方案中,一个或更多个特征包括多于一个基因组区域的甲基化状态、组蛋白修饰、染色质状态、片段长度或转录因子占据。在其他实施方案中,一个或更多个特征包括表观遗传数据、基因组序列数据、蛋白质组数据、微生物组数据、成像数据、组织学数据和/或元数据。在其他实施方案中,表观遗传数据包括甲基化、组蛋白乙酰化、染色质状态或dna环化相互作用数据。在其他实施方案中,进行第一分类及随后的第二分类,其中第二分类仅当第一分类包括预定类别时进行。在其他实施方案中,第一分类和第二分类使用逻辑回归模型进行。在其他实施方案中,第一分类使用逻辑回归模型进行,并且第二分类使用朴素贝叶斯、决策树、支持向量机(svm)、随机森林分类器、k-最近邻(knn)或神经网络进行。在其他实施方案中,第一分类是癌症状况,并且第二分类是癌症类型。在其他实施方案中,癌症状况是包括癌症和非癌症状态的二元类别。在其他实施方案中,对于起源癌症信号和/或起源组织,癌症状况和/或癌症类型包括基于以下中的一种或更多种的状况(包括甲基化状况)的分类:在一些实施方案中,分析测序数据以检测特定的癌症关联信号。这些信号包括遗传突变、表观遗传改变(诸如dna甲基化)和指示癌症存在的基因表达模式。遗传和表观遗传信息包括多种表观遗传标志物或功能元件,例如tfb、ctcf结合位点、遗传变异诸如cnv、snv、插入/缺失、融合、mrna表达、片段组学模式、片段组学水平、片段端点密度、与以下关联的组蛋白乙酰化或甲基化标志物:平衡增强子包括h3k4me1、h3k27ac、h3k27me3,启动子区包括h3k4me3、h3/h4ac、h3k4me1、h3k27me3、h3k9me3和/或h3.3,开放染色质包括h3ac和h4ac、h3k4me1、h3k4me2、h3k4me3、h2bk120ub、h3.3、h3s10ph。
4、在其他实施方案中,癌症类型包括乳腺癌、结肠直肠癌、肺癌、膀胱癌、胰腺癌、卵巢癌、肝癌、胃癌、食道癌、肾癌、黑素瘤、胆囊癌或子宫癌。在其他实施方案中,癌症类型还包括癌症在患者中起源的组织。在其他实施方案中,癌症类型还包括原发不明癌症(cup)在患者中起源的组织。在其他实施方案中,分类是基于癌症特异性模型集。
5、本文描述了一种方法,是一种计算机实现的方法,包括在包括一个或更多个硬件处理器和一个或更多个计算机可读存储介质的计算机系统中接收一个或更多个数据集,其中数据集包括从患者的测试样品获得的分子表型,并且其中计算机可读介质包括指令,所述指令在由处理器执行时使一个或更多个硬件处理器进行测试样品的一个或更多个分类,所述分类包括第一分类及随后的第二分类,所述第一分类包括癌症状况,所述第二分类包括癌症类型,其中第二分类仅在第一分类包括预定类别时进行,其中第一分类和/或第二分类是基于癌症特异性模型集,其中分子表型包括表观遗传数据,其中癌症类型还包括癌症在患者中起源的组织。
6、本文描述了系统,所述系统能够进行任何前述实施方案。本文描述了一种计算机可读介质,所述计算机可读介质包含能够进行任何前述实施方案的指令。