达沙替尼响应预测模型及其方法与流程

文档序号:18031313发布日期:2019-06-28 22:41阅读:262来源:国知局
达沙替尼响应预测模型及其方法与流程

本发明的领域是基于用响应预测器的实体系数(优选高准确度增益)进一步处理的途径模型信息来预测患者对药物的药物响应的系统和方法。

背景

本领域已知对途径进行计算建模的各种系统和方法。例如,一些算法(例如,gsea、spia和pathologist)能够使用从文献中获取的途径成功地识别被改变的感兴趣的途径。更进一步的工具已经由获取的文献中的相互作用构建了因果图,并使用这些图来解释表达谱。例如aracne、mindy和conexic的算法采用基因转录信息(和拷贝数,在conexic的情况下)以识别一组癌症样品中可能的转录驱动子。然而,这些工具没有尝试将不同的驱动子分组到鉴别单个感兴趣靶标的功能网络中。一些较新的途径算法,如netbox和癌症中的互斥模块(mutualexclusivitymodulesincancer,memo)试图解决癌症中数据整合的问题,从而识别作为样品致癌潜力的关键的多种数据类型间的网络。

虽然这些工具使途径间能够进行至少一些有限的整合以找到网络,但是它们通常不能提供调节信息,也不能将这些调节信息与相关途径或途径网络中的一种或多于一种生理效应相关联。为了提高性能,giena在单一生物途径中寻找失调的基因相互作用,但没有考虑该途径的拓扑结构或关于相互作用的方向或性质的先验知识。此外,由于这些建模系统的相对不完整的性质,通常不可能进行预测分析,尤其是在多个途径和/或途径元件的相互作用正处于研究中的情况下。

最近,已经描述了改进的系统和方法以获得体内途径的经由计算机的途径模型,并且示例性系统和方法描述于wo2011/139345和wo2013/062505中。在wo2014/059036(在此统称为“paradigm”)中对这种模型进行了进一步改进,公开了帮助识别不同途径元件和途径之间的互相关的方法。虽然这些模型针对例如各种信号途径的互联性和通过各种途径的信号流提供了有价值的见解,但是使用这种建模的许多方面尚未被认可或甚至未被认识到。

本文中的所有出版物和专利申请均通过引用并入,其程度如同每个单独的出版物或专利申请被特别地和单独地指出通过引用并入。如果并入的参考文献中术语的定义或用法与本文提供的术语的定义不一致或相反,则适用本文中该术语的定义并且不适用该术语在该参考文献中的定义。

使用wo2014/193982中所述的paradigm的见解取得了更进一步的进展。这里,从机器学习系统获得多个模型,该机器学习系统接收多个不同的数据集并从不同数据集中识别与患病细胞的治疗参数(例如,用药物治疗)的状态(例如,敏感性或耐药性)相关联的关键途径元件。这种系统有利地提供了关于潜在治疗方式的见解。然而,从机器学习系统获得的大量潜在有效模型将使得难以对治疗结果进行简单地预测。

另一方面,如us2004/0193019中所述,采用基于判别分析的模式识别来生成使一些生物学谱信息与治疗结果信息相关联的模型。然后使用预测模型对可能的治疗响应进行分级。虽然这些方法有助于基于患者特异性谱信息来评估可能的结果,但是分析通常因为判别分析中使用的参数而产生偏差。此外,这种分析仅考虑相应药物和疾病状况的历史数据,因此限制了仅在其他非相关疾病状况中已知有效的药物的发现。此外,相应药物和疾病状况的历史数据的可获得性常常进一步限制了这些方法的可用性。

因此,应当理解的是,大多数(如果不是全部的话)经由计算机的模拟预测系统和方法基于所选择的途径活性中的干扰与治疗选择的已知相关性(例如,鉴定特定激酶活性的过高活性和对特定的激酶抑制剂的可能响应),或基于来自非患者来源的经验性体外数据。此外,在使用机器学习来识别模式的情况下,学习系统的固有偏差常常以与患者特定情况不一定一致的方式使输出发生偏离。

因此,即使用于预测特定药物响应的各种系统和方法在本领域中是已知的,也仍然需要能够以高置信度对药物进行简单且稳健的治疗预测并且还能够以患者特异性方式预测治疗响应的系统和方法。



技术实现要素:

本发明的主题涉及各种装置、系统和方法,其中使用多个先验已知的细胞系基因组学和药物响应数据来构建具有多个实体系数的大量响应预测器。然后使用表现最佳的响应预测器的实体系数来调整途径模型的输出,从而预测治疗结果。有利地,这样的系统和方法能够整合可以基于患者数据的多个途径元件和互联,并且避免由于使用单一预选模型而导致的分析偏差。

在本发明主题的一个方面,发明人考虑了一种处理多个响应预测器的方法,该方法包括提供多个响应预测器的步骤,其中每个响应预测器与药物相关联并且具有多个途径元件和相关实体系数。在另一步骤中,计算每个响应预测器相对于相应的零模型的准确度增益度量以选择单一响应预测器,并且使用至少所选择的响应预测器的途径元件和相关实体系数的子集以及患者肿瘤的途径模型输出来计算得分(例如,关于药物治疗的灵敏性得分)。最典型地,使用随机选择的数据集来计算相应的零模型,该数据集未用于被针对性地创建零模型的响应预测器的计算。

最典型地,多个响应预测器是至少1000个、或至少10000个、或至少100000个响应预测器。此外,通常预期实体系数的途径元件是调节性rna、免疫信号传导组分、细胞分化因子、细胞增殖因子、细胞凋亡信号传导组分、血管生成因子和/或细胞周期检查点组分。

关于准确度增益度量,通常预期可以使用准确度值、准确度增益、性能度量、曲线下面积度量、r2值、p值度量、轮廓系数或者混淆矩阵来确定准确度增益。此外,通常预期使用至少两种、或至少四种、或至少六种、或至少十种不同的机器学习分类器来建立多个响应预测器,并且合适的机器学习分类器包括线性核支持向量机、一阶或二阶多项式核支持向量机、岭回归、弹性网络算法、序列最小优化算法、随机森林算法、朴素贝叶斯算法和nmf预测器算法。

途径元件和相关实体系数的子集通常包括1个至50个实体系数,并且还预期患者肿瘤的途径模型输出包括与所选响应预测器中的途径元件子集相同的途径元件。

因此,并且从不同的角度来看,发明人还考虑了使用患者肿瘤的途径模型的输出来预测患者使用药物(例如,化学治疗药物)的治疗结果的方法。最典型地,这种方法将包括使用针对药物的高准确度增益响应预测器中途径元件的多个实体系数作为肿瘤途径模型中相应途径元件的输出值的因子来预测患者使用该药物的治疗结果得分的步骤。优选地,使用患者的组学数据计算肿瘤的途径模型,并且肿瘤的途径模型包括多个途径元件和相关的输出值,并且进一步优选的是,高准确度增益响应预测器相对于相应的零模型具有预先确定的最小准确度增益。另外,在这种方法中优选的是,高准确度增益响应预测器选自多个响应预测器,其中每个响应预测器与药物相关联。

在这种方法的典型方面,多个实体系数是1个至50个高准确度增益响应预测器的实体系数,和/或多个实体系数是实体系数的子集并且包括高准确度增益响应预测器的所有实体系数的上三分位数。在不限制本发明的主题的情况下,通常优选的是,途径模型是概率途径模型,尤其是paradigm。

这种预期方法中的预先确定的最小准确度增益超出零模型至少50%,其中优选地使用随机选择的数据集来计算零模型,该数据集未用于被针对性地创建零模型的高准确度增益响应预测器的计算。此外,预期多个响应预测器可以相对较多,因此可以是至少1000个、或至少10000个、或至少100000个响应预测器,通常使用至少两种不同的机器学习分类器(例如,线性核支持向量机、一阶或二阶多项式核支持向量机、岭回归、弹性网络算法、序列最小优化算法、随机森林算法、朴素贝叶斯算法和nmf预测器算法等)来建立响应预测器。

因此,在本发明主题的一个示例性方面,考虑了预测用达沙替尼治疗患者肿瘤的治疗结果的方法。这种方法优选包括以下步骤:(a)获得患者肿瘤的组学数据,(b)通过使用途径模型和组学数据的途径分析工具来计算肿瘤的途径模型输出,其中途径输出包括多个途径元件和相关活性值,和(c)将各个途径实体的多个实体系数应用为途径模型输出的相应途径元件的活性值的因子,从而预测患者的治疗结果。这些方法的途径实体和各自的实体系数优选选自mir34a_(mirna):-

0.10545895;ets1:-0.094264817;58s_rrna_(rna):0.086044958;cebpb_(二聚体)_(复合体):0.067691407;fosl1:-0.067263561;cebpb:0.066698569;jun/fos_(复合体):-0.064549881;fral/jun_(复合体):-0.060403293;foxa2:0.059755319;fos:-0.059560833;e2f1:-0.050992273;ap1_(复合体):-0.049823492;失巢凋亡_(抽象概念):-0.04853399;foxa1:0.035994367;dnp63a_(四聚体)_(复合体):-0.033478521;tp63:-0.02956134;myc:0.026847479;tp63-2:-0.026423542;e2f-1/dp-1_(复合体):-0.023462081;myb:0.022211938;tap63g_(四聚体)_(复合体):0.019789929;hif1a/arnt_(复合体):0.019222267;jun/jun-fos_(复合体):-0.019184424;myc/max_(复合体):-0.018553276;xbp1-2:-0.017009915;dna结合的负调节_(抽象概念):-0.016224139;ppargc1a:-0.015525361;p53_四聚体_(复合体):-0.013881353;tp63-5:0.011860936;p53_(四聚体)_(复合体):-0.011120564;foxm1:0.010515289;mir146a_(mirna)-0.004588203;mir200a_(mirna):0.004570842;mir22_(mirna):-0.00455296;mirlet7g_(mirna):-0.004534414;mir26a1_(mirna):-0.004515057;mir141_(mirna):0.004494806;mir338_(mirna):0.004473776;mir23b_(mirna):-0.004452502:mir9-3_(mirna):0.004432174;mir26b_(mirna):-0.004414627;mir429_(mirna):0.004401701;mir26a2_(mirna):-0.004393525;mir17_(mirna):0.004385947;dleu2_(rna):-0.004376141;dleu1_(rna):-0.004337657;tp53:-0.003302879;jun:0.003189085;notch4_(rna):0.002218066;和e2f1/dp_(复合体):0.000376653。

在更进一步考虑的方面,发明人还考虑使用高准确度增益响应预测器的多个实体系数来调整途径模型的输出以预测患者的治疗结果,其中高准确度增益响应预测器与药物相关联,并且其中途径模型使用患者的组学数据。

最典型地,多个实体系数是1个到50个高准确度增益响应预测器的实体系数,并且多个实体系数是实体系数的子集且包括高准确度增益响应预测器的所有实体系数的上三分位数。如前所述,通常优选的途径模型是概率途径模型(例如,paradigm),并且药物是化学治疗药物。

从以下优选实施方案的详细描述以及附图中,本发明主题的各种目的、特征、方面和优点将变得更加明显,附图中相同的数字表示相同的部分。

附图说明

图1a至图1c示意性地示出了本文所考虑的响应预测器的示例性方面。

图2示例性地并示意性地示出了根据本发明主题的过程。

图3示例性地示出了所计算的治疗响应/测试模型的分级清单,其中具有高于零模型的准确度增益的响应/模型位于具有较低准确度增益的响应/模型的左侧。最左侧的所计算的治疗响应/测试模型以最高的准确度增益预测患者对达沙替尼的敏感性。

图4描绘了使用不同途径模型和组学输入的不同计算的准确度增益的示例性结果。

图5是按照人tcga肿瘤组织类型分类的达沙替尼敏感性的示例性表示。

图6是按照特定人tcga肿瘤分类的达沙替尼敏感性的示例性表示。

具体实施方式

发明人已经发现,通过途径模型分析产生大量响应预测器不仅可用于高准确度模型的识别,而且还可用于基于患者的特定组学数据获得对预测患者的治疗结果有用的实体系数。从不同的角度来看,应该理解,针对多个实验的、获取的和/或实际的治疗数据(例如,针对具有与药物治疗和疾病相关的已知结果并且具有已知的组学数据的各种药物和病况)的途径分析的机器学习将提供响应预测模型,该响应预测模型转而提供使特定治疗结果与特定药物相关联的实体系数。然后,这些实体系数可以用作基于实际患者组学数据的途径模型输出的因子,从而预测患者用该药物进行治疗的可能治疗结果。

在一个实例中,如下文中更详细地描述,发明人首先获得相对大量的全基因组测定(通常包括rna表达水平、dna序列信息和拷贝数信息),总共约1000个来自多个组织类型的细胞系。然后使用paradigm软件基于表达和拷贝数数据生成推断的途径活性(ipa)。在更进一步的步骤中,发明人还获得了约140种化合物在这些细胞系中的药物响应数据(gi50),并且在topmodel软件中为每种化合物构建了多个交叉验证的响应预测器。值得注意的是,通过观察多个模型中的交叉验证的准确度,发现对于测试的细胞系,达沙替尼具有最准确的预测药物响应,然后进一步分析了最佳达沙替尼响应预测模型。在一项分析中,如在下文中更详细地显示,证明了最佳达沙替尼响应预测模型在神经系统细胞类型中具有预测效用,针对原发癌症患者数据(tcga)对最佳响应预测模型进行测试的结果也验证了这一点。值得注意的是,达沙替尼是一种用于治疗急性淋巴细胞白血病的批准药物。因此,应当理解,预期的系统和方法能够预测用药物进行治疗(该药物的使用是未知的或未被批准的情况下)的治疗结果。此外,应注意到随后可使用如此识别的响应预测模型的实体系数以通过患者的实际组学数据来预测患者的治疗结果。

在上下文中,应当理解,可以准备大量机器学习的预测模型,以能够基于从组学数据集准备的各种组学数据集和/或途径模型来计算预测(例如,敏感性)得分。不幸的是,所有这些模型都有各种固有偏差,例如由于机器学习和途径构建的基本数学假设、用以获得组学数据的特定细胞培养物或活组织检查样品的使用、与细胞培养物或活组织检查样品一起使用的药物等而导致的偏差。然而,所有这些模型都基于实际的细胞生物学过程,因此提供了至少具有潜在价值的见解。然而,各种模型都没有提供关于何种模型能提供与特定患者组学样品相匹配的任何指导,或何种途径模型将预测特定药物是否可能对患者产生期望的治疗结果的任何指导。

发明人现在已经发现了用于将实际患者数据,特别是来自患者数据的途径模型与药物特异性响应预测器匹配的系统和方法,该药物特异性响应预测器具有超过相应零模型的期望的高准确度增益,这转而允许计算使用特定药物的患者的可能治疗结果。在这种情况下,如图1a中所简化的,示例性响应预测器(预测模型)可以被视为由将会给出敏感性得分或预测得分的机器学习算法所获得的多变量方程。更具体地,并且如图1b中进一步示例性地示出的,使用机器学习算法生成响应预测器,该机器学习算法使用由暴露于药物的细胞培养物或组织所生成的组学数据和/或途径模型。如图1b所示,将细胞或组织暴露于药物并观察敏感性(例如,定量为ic50、ec50等,或定性评估为敏感或耐药),最典型地与阴性对照或其他比较对照进行比较(例如,没有药物或具有不同的细胞类型)。然后在机器学习算法中使用来自细胞/组织的组学数据和/或途径模型连同观察到的因子一起作为训练数据,以得到响应预测器。当然,应当理解,相同的组学数据和/或途径模型和观察到的因子可以在多于一种机器学习算法中用作训练数据,并且应当理解,所有已知的机器学习算法被认为适合于在本文中使用。因此,应当理解,一组体外实验可以提供多种训练模型(即,由各个机器学习算法生成的响应预测器)。如本领域还公知的,可以将可用数据分成训练集和评估集以获得经训练的模型,或者可以使用所有数据来获得完全经训练的模型。从不同的角度来看,并且如图1c中示意性地示出的,可以使用机器学习算法并使用训练数据来生成响应预测器,其中细胞或组织对药物的敏感性是已知的,其中药物是已知的,并且其中易于从细胞或组织中获得组学数据和/或途径模型。然后可以使用评估数据验证如此生成的经训练的模型,该评估数据可以来自与训练数据相同的数据集,并且如前文所述,细胞或组织对药物的敏感性是已知的,药物是已知的,并且易于从细胞或组织中获得组学数据和/或途径模型。因此,应当理解,许多体外测试将会形成多种响应预测器的基础,多种响应预测器随后可用于患者的组学数据或途径模型的计算。然后患者组学数据或途径模型与响应预测器的联合使用将提供药物的预测响应得分(预测治疗结果或预测敏感性)。

最有利的是,应该认识到预期的系统和方法利用了与药物和细胞或组织类型相关的越来越多的组学信息。此外,虽然本文提供的实例基于多种不同的药物和细胞系,但应该理解,可以由细胞的组学数据、获取的数据和仅与单一药物相关的治疗数据(通常与多个具有不同响应谱的不同患病(例如癌症)细胞系结合使用)构建响应预测器。不论研究的特定药物和使用这些信息如何,都可以制备大量的个体响应预测器,因此应该认识到响应预测器的集合不必限于特定的癌症类型和/或治疗药物。例如,如下文更详细地进一步解释,发明人从可公开得到的来源获得了不同的组学数据集(例如,ccle表达、ccle拷贝数、sanger表达、sanger拷贝数)作为途径模型组学数据,并且还使用了基于因子图的途径模型(此处为paradigm)中的相同组学数据,用以最终得到10种不同的输入数据集合,该输入数据集合中报告了139种不同的药物。然后使这些途径模型和已知的药物响应经历13种不同的机器学习算法(线性核svm、一阶多项式核svm、二阶多项式核svm、岭回归、lasso、弹性网络、序列最小优化、随机森林、j48树、朴素贝叶斯、jrip规则、hyperpipes和nmf预测器),从而得到共176112个响应预测器。

在上下文中,必须注意到每种类型的响应预测器都包括固有偏差或假设,这可能影响所得响应预测器相对于其他类型的响应预测器的运行方式,即使在相同数据上进行训练时也是如此。因此,当使用相同的训练数据集时,不同的响应预测器将产生不同的预测/准确度增益。迄今为止,为了改进预测结果,优化了单一学习算法以增加对相同数据集的正确预测。然而,由于算法的固有偏差,这种优化不一定会提高可预测性的准确度(即,对“抛硬币(coinflip)”的准确预测能力)。可以通过针对具有相关元数据的疾病特异性数据集用不同基本原理和分类器训练多种不同的响应预测器,以及通过从如此训练的响应预测器中选择超过相应零模型的具有期望预测能力的那些,来克服这种偏差。

当然,应该理解,以上仅是具有相对有限的数据集的示例性方案,并且可以采用许多附加数据(例如,体外数据、临床试验数据、研究数据、治疗数据等),每种附加数据与它们各自的药物组合,并且使用不同的机器学习算法进行计算以得到非常庞大数量(例如,100000个至500000个、或500000个至1000000个、或1000000个至5000000个、或5000000个至10000000个、甚至多于10000000个)的个体响应预测器。显而易见的是,不计算构架的情况下,这种计算远远超出了人类寿命的多倍。

还应该容易理解,即使计算构架,这样庞大的数据量也需要巨大的计算工作量,其中应该将患者的实际数据集(组学数据或途径模型)与细胞或组织培养物的数据集进行比对。发明人现在已经发现,甚至响应预测器的大量集合也可以通过使用模拟零集和实际患者数据集(组学数据或途径模型)计算单一响应预测器的两个预测响应,而以概念上简单的方式有效且快速地进行分析。然后使用预测响应之间的差异来评估任意单一响应预测器的性能。以这种方式,因为响应预测器相对简单,所以仅需要相对简单的计算,并且可以在相对较短的时间内执行。

因此,应该注意到本文提出的发明主题使得能够构建或配置对大量数字数据进行操作的超出人的能力的计算设备。尽管数字数据可以代表组学数据和治疗结果的机器训练的计算机模型,但是应当理解,数字数据表示这些现实世界项目的一个或多于一个数字模型,而不是实际项目。相反,通过适当地配置如本文所公开的设备或对其进行编程,通过在计算设备的存储器中将这些数字模型实例化,使计算设备能够以超出人的能力的方式管理数字数据或模型。此外,如果不进行这种配置,则计算设备缺乏先验能力。另外,应当理解,本发明的主题显著改善/缓和了复杂组学计算的计算分析所固有的问题,提供了关于适当模型选择的指导并消除了由于先验选择的机器学习算法所引起的偏差。

从不同的角度来看,应该理解,使用计算机技术中的本系统和方法来解决组学数据的计算模型中固有的问题。因此,在没有计算机的情况下,问题以及本发明的主题将不存在。更具体地,本文提出的系统和方法产生一个或多于一个具有比其他模型更高的准确度增益的药物特异性响应预测器模型,其提供用于快速确定治疗结果预测的实体系数,最终使得基于实际患者数据生成预测结果这一过程的延迟更少。

应当注意,针对计算机、分析引擎或机器学习系统的任何语言应被解读为包括计算设备的任意适当组合,该计算设备包括服务器、接口、系统、数据库、代理、对等设备、引擎、控制器、模块或其他类型的单独或共同操作的计算设备。应当理解,计算设备包括处理器,该处理器被配置为执行存储在有形、非暂时性计算机可读存储介质(例如,硬盘驱动器、fpga、pla、固态驱动器、ram、闪存、rom等)上的软件指令。软件指令配置计算设备或者对其进行编程以提供如下文讨论的关于所公开的装置的作用、职责或其他功能。此外,所公开的技术可以体现为计算机程序产品,其包括存储软件指令的非暂时性计算机可读介质,该软件指令使处理器执行与基于计算机的算法、过程、方法或其他指令的实现相关联的所公开的步骤。在一些实施方案中,各种服务器、系统、数据库或接口使用标准化协议或算法来交换数据,其可能基于http、https、aes、公钥-私钥交换、web服务api、已知金融交易协议、或其他电子信息交换方法。设备之间的数据交换可以通过分组交换网络、因特网、lan、wan、vpn或其他类型的分组交换网络、电路交换网络、和/或信元交换网络进行。

如在本文的描述中以及随后的权利要求中所使用的,当将系统、引擎、服务器、设备、模块或其他计算元件被描述为被配置用于对存储器中的数据进行或执行功能时,“配置”或“编程”的含义被定义为计算元件的一个或多于一个处理器或芯通过存储在计算元件的存储器中的一组软件指令被编程,以执行该组功能或对存储在储存器中的目标数据或数据对象进行操作。

图2的流程图示例性地示出了根据本发明主题的典型工作流程。这里,在第一步骤中,获取了多个细胞/组织/患者数据,其组学和/或途径模型数据和药物响应是已知的。当然,应当理解,适合于获取这些数据的所有已知形式的信息被认为适合于在本文使用,并且包括来自医疗服务提供者、实验室、医院、学术机构和/或保险公司的患者数据。因此,数据可以从数据库或分析设备打印或者是电子格式。此外,应当理解,数据不一定来自人类研究,也可以是非人类来源的(例如,啮齿动物、猿猴等)。同样,数据可以来自细胞或组织培养物。另外,在数据是原始数据或组学数据的情况下,这些数据将通常在途径分析系统中被处理,并且特别优选的途径模型系统包括基于因子图的系统(例如,paradigm)。此外,通常优选地,数据还包括关于用于治疗细胞、组织或患者的药物的信息,以及适当的结果描述符(例如,细胞或组织的药物敏感性,或人的部分或完全响应、无病生存期、复发、缓解)。

在一个预期的实例中,初始数据可以从特定癌细胞类型(例如,黑色素瘤)的不同癌细胞系的集合中获取,其中每种细胞系对特定药物的敏感性是已知的。这种敏感性可以通过实验确定,或者从文献中获取。替代地或另外地,并非使用特定癌细胞类型的不同癌细胞系的集合,而是从特定癌细胞类型的活组织检查样品中获取数据,并且可以在体外确定对药物的敏感性,或者从患者接受药物治疗的患者治疗结果中推断对药物的敏感性。在另一个预期的实例中,数据可以从公开的来源(例如,临床试验、科学论文、带注释的组学数据库等)中获取,其中可获得对特定药物的敏感性已知的细胞或组织的组学数据。在进一步的实例中,应当理解,细胞或组织不一定来自相同的癌症类型,而实际上可能源自多种不同的癌症类型(例如,神经系统的癌症、肺癌、消化系统的癌症、泌尿生殖系统的癌症、皮肤的癌症、肾脏的癌症、乳腺的癌症、甲状腺的癌症、血液的癌症、骨骼的癌症、胰腺的癌症、软组织的癌症等)。同样地,应当理解,细胞(相同癌症类型或多种癌症类型)的已知敏感性不必限于单一药物,而是可以在同一分析中使用多种药物敏感性。从不同的角度来看,敏感性已知的多个细胞系/组织/活组织检查样品或其他结果预测器的使用可作为输入数据,以生成多个不同的响应预测器。

最典型地,并且取决于初始数据的来源,数据将是组学数据,例如全基因组测序数据、外显子组测序数据、rna测序和/或转录水平数据、定量蛋白质组学数据和/或蛋白质活性数据。优选地,然后对这些数据进行处理以获得途径活性信息,并且认为所有已知的途径分析方法和算法适用于本文,其包括gsea、spia、pathologist、aracne、mindy、conexic、netbox和memo。然而,在特别优选的方面,使用paradigm进行途径分析,paradigm是用于高通量基因组数据的途径推断的因子图框架。在这里,基因通过因子图被建模为一组编码基因及其产物的表达和已知活性的互联变量,从而能够结合许多类型的组学数据作为证据。这种方法允许使用概率推断来预测患者途径活性(例如,内部基因状态、相互作用或高水平“输出”)被改变的程度(参见例如bioinformatics.2010年6月15日;26(12):i237–i245)。还应注意到对组学数据的途径分析有利地且大幅减少了通过机器学习另外处理的数据量。相反,途径分析(特别是在采用paradigm的情况下)提供了相对简单的数据结构,其中途径元件(例如,基因、蛋白质、蛋白质复合体)与数值因子或值相关联。

使用该信息(例如,特定细胞或组织的药物响应和途径模型,通常结合阴性对照和/或其他参数或元数据),然后可以采用特定的机器学习算法计算响应预测器。然而,在最优选的方面,使用多种不同的其他机器学习算法针对相同的信息生成许多另外的响应预测器,以获得不同响应预测器的库。如上所述,另外的不同药物、组学数据集、途径建模和细胞类型可额外地与另外的多种不同的机器学习算法一起使用,这将以指数方式增加可用的响应预测器的数量。实际上,使用这样的组合学,应该认识到即使对于单一药物,响应预测器的数量也可以容易地超过1000个,更通常超过至少10000个,甚至更通常超过至少100000个,然后可以将所有这些预测器收集到响应预测器库中。然而,应该认识到响应预测器相对简单并且具有小的数据/文件大小,如图1a中示例性所示。实质上,响应预测器可以被视为包括多个途径元件和相关因子的多变量方程,并因此能够使用测量的细胞或活组织检查的组学数据来简单地计算敏感性(或其他结果度量)得分。

一旦创建了响应预测器,就可以评估每个响应预测器的预测质量,并且最优选地保留预测能力超过随机选择的响应预测器。从不同的角度看,可以评估各种响应预测模型的准确度增益。如将容易理解的,存在许多评估准确度的方式,并且特定选择可至少部分地取决于所使用的度量和算法。例如,合适的度量包括准确度值、准确度增益、性能度量或相应模型的其他度量。

其他示例度量包括曲线下面积度量、r2值、p值度量、轮廓系数、混淆矩阵或与响应预测器的性质相关的其他度量。根据响应预测器的数量或准确度分布,应当理解,可以将用于预测的响应预测器选择为最佳模型(例如,具有最高准确度增益或最高准确度得分等),或者位于上n分位(三分位、四分位、五分位等),或者位于所有模型的前n%(前5%、前10%等)。例如,高准确度增益模型通常处于准确度增益的上四分位。

然后可以将响应预测器库或个体响应预测器(通常使用超过如上所述的随机选择的最小预测能力来选择两者)用于匹配的统计选择,该匹配具有使用数据库中每个响应预测器的零模型获得的针对实际患者数据的高预测得分。更具体地,计算每个响应预测器的零模型,所述每个响应预测器使用中等数量(例如,100个至500个、或500个至1000个、或1000个至10000个)的随机选择的数据集。最典型地,这些数据集包括用于计算响应预测器但不用于计算创建零模型的响应预测器的途径模型数据和/或组学数据。如可以预期的,如此计算的零模型为无关或匹配较差的途径模型或组学数据提供了背景信号分布(例如,平均值和标准偏差),其可用于进一步将结果归一化并分级。

例如,在一个响应预测器预测已知数据集和已知结果的高预测得分(例如,高敏感性或耐药性水平)以及随机选择的数据集(背景信号)的平均预测得分的情况下,将高得分记录为原始得分,然后使用背景信号分布对其进行调整,从而得到标准化得分。应当理解,该标准化得分表征了已知数据集与最初用特定细胞或组织的药物计算的响应预测器的性能的一致性。因此,可以使用零模型与相应的测试模型或最佳模型(相应模型中具有最高准确度增益的模型)之间的比较以及原始得分的差异(更优选地,标准化得分的差异)进行分级。识别最高等级响应预测器(在测试多种药物的情况下,针对每种药物进行识别)以及途径实体和相关实体系数。因此,然后可以以多种方式使用如此选择的响应预测器,尤其是基于实际患者组学数据和途径分析数据预测对药物的治疗响应。因此,除非另有说明,否则本文使用的术语“高准确度增益响应预测器”是指在响应预测器的标准化分级中位列上三分位的响应预测器。

如上所述,应该特别理解,每个响应预测器具有相对简单的数据结构并且枚举多种实体指示物(例如,途径实体,如mir34a、ap1复合体、tp63等)以及相应的实体系数(通常是数值)。在需要时,还可以包括实体的功能(例如,细胞周期、细胞凋亡等;将未知功能表示为null),如下表1中针对响应预测器示例性所示。

表1

使用响应预测器,应该认识到可以在响应预测器中使用相应途径实体的实体系数来处理从实际患者的途径模型输出获得的患者数据。例如,在第一途径实体(例如,ap1)的途径模型输出(基于患者组学数据)是第一值的情况下,该第一值可以由响应预测器中的相应系数(例如,ap1的系数)进行调整,以产生第一调整值等。然后,经调整的输出实体值(由相应的系数调整)的全体将提供对应于模型计算的敏感性(或其他结果度量)得分的数字指示,该数字指示相当于计算出的治疗结果的预测(例如,药物敏感性的正数值)。

在进一步考虑的方面,还应当理解,本文提供的系统和方法还可以用于识别一种或多于一种具有所需的响应预测高准确度的药剂(例如,多种细胞系暴露于多种试验用药物或候选药物的研发渠道中的试验用药物或候选药物)。当多种药物正处于研发中并且预期的系统和方法识别出药物具有可以以所需的高准确度进行预测的敏感性(或其他结果度量)得分时,这种识别是特别有益的。甚至,预期的系统和方法也适合于确定药物用于先前未被识别或鉴别出的适应症,如下文所更详细地显示。简而言之,当测试用于多种适应症的多种药物时,可以使用预期的系统和方法。最终根据每种药物的最高准确度增益对响应预测模型进行分级,然后根据药物(具有最高准确度增益)对响应预测模型进行分级。

应该特别理解,由于响应预测器的简化数据结构因此这种计算是快速的,并且不需要试图使患者数据符合通常所建立的体外模型数据的机器学习过程。

实施例

基于来自被诊断患有胶质母细胞瘤的患者的各种组学数据(例如,转录和拷贝数)和途径数据(例如,paradigm),以及由不同细胞类型的、暴露于不同药物的和各自对药物的相关敏感性的已知基因组数据集构建的响应预测器,结合如下表2中所示的各种不同的机器学习分类器,鉴别出达沙替尼是适合于被诊断患有胶质母细胞瘤的患者的药物。

表2

更具体地,使用上述数据集、药物和分类器,建立了29352个完全训练的药物响应模型,建立了146760个额外的评估模型(5倍cv),并且分析了176112个总模型,从而产生各种药物的大量响应预测器。通过微阵列或测序技术从个体癌症样品中收集来自胶质母细胞瘤患者的基因组规模数据。对相同样品进行独立测定(例如,表达谱分析和拷贝数估计)以评估何种数据类型将提供最佳预测。将这些患者数据整合到基于因子图的模型(paradigm)中。估计了根据组学数据证据的途径网络的最可能状态,并报告为推断的途径活性(即,用各个途径元件的活性建立途径模型)。在上下文中,应该特别理解,预期的系统和方法既不基于单一模型的预测优化,也不基于所选择的组学参数与治疗预测的最佳相关性的识别。

使用预测器数据库中的响应预测器和实际患者数据,然后针对具有1000个随机选择的数据集的每个响应预测器计算零模型,并且针对每个零模型记录平均值和标准偏差。然后使用患者数据集针对每个响应预测器来计算测试模型,并使用来自各个零模型的结果将结果标准化。图3示例性地示出了标准化得分的分级。这里,每条垂直线代表按特定药物分组的许多响应预测器的平均结果、最小结果和最大结果。从图3中可以看出,左侧的响应预测器始终准确地预测,并且对于被诊断患有胶质母细胞瘤的患者,最稳定地预测的药物是达沙替尼。值得注意的是,应该理解,达沙替尼最初是作为口服bcr-abl酪氨酸激酶抑制剂(抑制“费城染色体”蛋白质)而开发的,并被批准用于患有慢性髓细胞白血病和费城染色体阳性急性淋巴细胞白血病患者的一线使用。当然,还应当理解,可以修改上述过程以仅包括来自胶质母细胞瘤(或其他所选择的癌症)的数据作为初始数据,该数据仅使用不同的胶质母细胞瘤(或其他所选择的癌症)癌细胞系或活组织检查,并且仅使用已知或怀疑对治疗胶质母细胞瘤有效的药物。然后,这种经修改的过程将产生仅针对胶质母细胞瘤(或其他所选择的癌症)和特定药物的响应预测器。另一方面,还应当理解,可以修改上述过程以仅包括来自胶质母细胞瘤(或其他所选择的癌症)的数据作为初始数据,该数据仅使用不同的胶质母细胞瘤(或其他所选择的癌症)癌细胞系或活组织检查,和(任选地)已知或怀疑对治疗胶质母细胞瘤有效的多种不同药物。然后,这种经修改过程将产生针对胶质母细胞瘤(或其他所选择的癌症)和多种候选药物的响应预测器。

因此,应当理解,(a)以药物靶标不可知的方式并(b)基于作为预测模型集合的输入数据的患者的组学数据/途径模型可以预测患者对药物的响应,其中对每个模型进行优化以预测药物响应,药物响应是特定的组学数据/途径模型集合的函数。此外,通过将预测结果与相应的零模型进行比较,报告了高于背景的统计相关预测,然后可以对响应预测进行分级。另外,为了确保患者数据不引入固有偏差,还可以由患者数据生成排列,然后以针对零模型的所述方式将患者数据分类,以确保患者数据和零模型以类似方式分布。

关于适用于本文的组学数据和途径模型,应当注意到所有组学数据和途径模型被认为是合适的,并且示例性组学数据包括测序数据,尤其是肿瘤数据与正常数据,例如全基因组测序数据,外显子组测序数据等。此外,合适的组学数据还包括转录组学数据和蛋白质组学数据。同样,合适的途径分析包括基于基因集富集分析(gsea,broadinstitute)的模型、基于信号传导途径影响分析(spia,bioconductor)的模型、pathologist途径模型(ncbi)以及基于因子图的模型,尤其是如wo2011/139345a2、wo2013/062505a1和wo2014/059036中所述的paradigm,所有这些都通过引用并入本文。图4提供了示例性比较结果,其描绘了根据组学数据和途径模型类型而变化的平均准确度。可以清楚地看出,使用经paradigm处理的sanger表达数据来获得最高准确度,从而获得途径模型。类似地,使用再次经paradigm处理的sanger表达数据和拷贝数数据来获得高准确度,以获得相应的途径模型。值得注意的是,单独使用sanger表达数据而不使用途径建模也提供了虽然稍低但相对较高的准确度。使用仅拷贝数组学数据本身或经paradigm处理的拷贝数组学数据,等级略低。

还使用细胞系的组学数据和途径模型来交叉检验如此获得的预测的准确度,结果如图5所示。这里,绘制了经调整的敏感性得分,其中实心圆表示可获得敏感性数据的预测,空心圆表示无法获得敏感性数据的预测,并用x标记不正确的预测。值得注意的是,达沙替尼在神经细胞系中的预测准确度为77.8%,这与对胶质母细胞瘤患者的预测一致。

同样值得注意的是,同样可以从图5看出,可以准确预测达沙替尼的耐药性。使用来自对应于训练细胞系组的组织中tcga样品的主要患者数据来进行类似的交叉检验,如图6所示。注意,组织的影响在细胞系和患者数据之间表现相似。例如,类似于神经系统线,预测gbm患者样品包含响应者子集和非响应者子集。此外,应该注意到达沙替尼可能是人肾透明细胞癌的良好替代候选药物。最典型地,因为显示出响应预测器对于神经肿瘤特别准确,所以患者数据将从被诊断患有神经肿瘤(例如,胶质母细胞瘤)的患者获得。为此,可以对肿瘤进行活组织检查,并且可以确定组织样品的组学数据,优选地针对匹配的正常对照确定组织样品的组学数据。然后在paradigm(或其他合适的途径分析软件)中处理组学数据以获得途径模型,该途径模型包括与响应预测器中的实体相对应的实体的数据。然后将患者paradigm值应用于相应的实体系数,并且基于响应预测器实体系数和来自患者的实际途径数据的结果将指示与响应预测器相关联的治疗结果。

进一步参考上面表1的实体系数,显而易见的是,如此获得的达沙替尼的最高等级(或其他期望等级)响应预测器的一些(并且更优选全部)系数可以与实际患者数据结合使用。因此,用达沙替尼治疗胶质母细胞瘤的响应预测器可包括至少两个、或至少三个、或至少五个、或至少七个、或至少十个下述实体和任选的各自的系数(此处列为实体:系数对):mir34a(mirna):-0.10545895;ets1:-0.094264817;5_8_s_rrna_(rna):

0.086044958;cebpb_(二聚体)_(复合体):0.067691407;fosl1:-0.067263561;cebpb:0.066698569;jun/fos_(复合体):-0.064549881;fra1/jun_(复合体):-0.060403293;foxa2:0.059755319;fos:-0.059560833;e2f1:-0.050992273;ap1_(复合体):-0.049823492;失巢凋亡_(抽象概念):-0.04853399;foxa1:0.035994367;dnp63a_(四聚体)_(复合体):-0.033478521;tp63:-0.02956134;myc:0.026847479;tp63-2:-0.026423542;e2f-1/dp-1_(复合体):-0.023462081;myb:0.022211938;tap63g_(四聚体)(复合体):0.019789929;hif1a/arnt_(复合体):0.019222267;jun/jun-fos_(复合体):-0.019184424;myc/max_(复合体):-0.018553276;xbp1-2:-0.017009915;dna结合的负调节_(抽象概念):-0.016224139;ppargc1a:-0.015525361;p53_四聚体_(复合体):-0.013881353;tp63-5:0.011860936;p53_(四聚体)_(复合体):-0.011120564;foxm1:0.010515289;mir146a_(mirna)-0.004588203;mir200a_(mirna):0.004570842;mir22_(mirna):-0.00455296;mirlet7g_(mirna):-0.004534414;mir26a1_(mirna):-0.004515057;mir141_(mirna):0.004494806;mir338_(mirna):0.004473776;mir23b_(mirna):-0.004452502:mir9-3_(mirna):0.004432174;mir26b_(mirna):-0.004414627;mir429_(mirna):0.004401701;mir26a2_(mirna):-0.004393525;mir17_(mirna):0.004385947;dleu2_(rna):-0.004376141;dleu1_(rna):-0.004337657;tp53:-0.003302879;jun:0.003189085;notch4_(rna):0.002218066;和e2f1/dp_(复合体):0.000376653。

适用于本文的其它考虑因素公开在2014年5月28日提交的wo2014/193982、2016年1月19日提交的wo/2016/118527、2016年3月3日提交的wo/2016/141214和在2016年6月15日提交的wo/2016/205377中,所有这些都通过引用并入本文。

如本文的说明书和所附权利要求中所用的,不使用数量词可以表示复数指代,除非上下文另有明确说明。此外,如在本文的描述中所使用的,“在...中”的含义包括“在...中”和“在...上”,除非上下文另有明确规定。还如本文所使用的,并且除非上下文另有说明,否则术语“连接”旨在包括直接连接(其中两个彼此连接的要素彼此接触)和间接连接(其中两个要素之间存在至少一个额外要素)。因此,术语“连接”和“与...连接”同义使用。最后,除非上下文指出相反的情况,否则本文所述的所有范围应解释为包括其端点,并且开放式范围应解释为包括商业实用值。同样,除非上下文指出相反的情况,否则应将所有列出的值视为包含中间值。

对于本领域技术人员显而易见的是,在不脱离本文的发明构思的情况下,除了已经描述的可行的修改外可以进行更多的修改。因此,除了所附权利要求的范围之外,本发明的主题不受限制。此外,在解释说明书和权利要求时,所有术语应以与上下文一致的最广泛的方式解释。特别地,术语“包括”和“包含”应该被解释为是指要素、组分或步骤以非排他的方式存在,表示所引用的要素、组分或步骤可以存在,或者被利用或与未明确引用的其它要素、组分或步骤组合。当说明书权利要求涉及选自a、b、c...和n中的至少一种时,该文本应解释为只需要其中的一个要素,而不是a加n、或b加n等。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1