使用多重细胞信号传导途径活性的治疗应答的医学预后和预测的制作方法_4

文档序号:9400866阅读:来源:国知局
该替代方法基于优 势比的算法(例如基础e),并且因此称为"优势比"权重。基于探针/基因水平高于和低于 相应阈值的阳性和阴性训练样品数目,所述阈值例如所有训练样品的中值,计算关于每种 探针或基因的优势比(等式3)。可以加入假计数,以避免除以零(等式4)。进一步的精化是 通过下述以略微更随机的方式计数高于/低于阈值的样品:假定探针/基因水平例如以某 一指定的标准差(例如在2-log尺度上0. 25)在其观察值周围正态分布,并且计数高于和低 于阈值的概率质量(等式5)。
[0097]可替代地,可以采用本领域已知的优化算法例如回归,以测定本文描述的(假)线 性模型的权重和阈值。
[0098]必须特别注意对于(假)线性模型测定的参数概括良好的方式。可替代地,可以使 用本领域已知的其他机器学习方法例如贝叶斯网络,以能够通过在训练操作期间取得专门 测量来相当良好地概括。
[0099]优选地,Wnt、ER、HH和AR途径的(假)线性模型的训练使用在Gene Expression Omnibus (在http://www. ncbi. nlm. nih. gov/geo/处可获取)上可获得的公开数据来完成。 模型使用此类公开数据示例性训练。
[0100]请注意就TO 2013/011479 A2 和 US 61/745839,相应的 PCT/IB2013/061066 而言, 在所附权利要求中限定的ER靶基因的排名次序略微改变,因为添加新的文献证据。以与US 61/745839,相应的PCT/IB2013/061066的实施例3中所述相似的方法,将ER靶基因选择且 排名。通过组合文献证据得分和每种基因区分Affymetrix模型内的活跃和失活途径的个 别能力,将基因排名。当用MCF7细胞系样品的训练集训练模型,所述训练集耗尽雌激素且 随后保持耗尽或暴露于I nM雌激素24小时(GSE35428),并且用训练集和两个其他训练集 测试模型,在所述两个其他训练集中MCF7细胞耗尽雌激素且随后保持耗尽或暴露于10 nM 或25 nM雌激素(分别为GSE11352和GSE8597)时,这种排名基于对于每种基因获得的加权 假阳性和假阴性率的线性组合。
[0101](注意到加权假阳性和假阴性的组合(代替优势比)用于解释各个集合中使用的不 同实验条件。不同权重根据本发明人的置信度进行设置:假阳性(阴性)是模型而不是已对 样品实施的不同实验条件的结果。例如,在所有实验中,在暴露于雌激素或进一步耗尽另外 24小时之前,MCF7细胞系样品首先耗尽雌激素一段时间。更短的耗尽时间可以促使尽管雌 激素耗尽,途径仍是活跃的,在这种情况下,假阳性具有比测试和训练样品两者均耗尽相同 时间量时更少的权重。) 实施例2 :测定风险得分 一般而言,可以设计许多不同公式用于测定风险得分,所述风险得分指示临床事件将 在某一时间段内发生的风险,并且至少部分基于在受试者的组织和/或细胞和/或体液中 的两个或更多个细胞信号传导途径的推断活性组合,即:
其中#/?是风险得分(术语" #/5"在本文中用作"多途径得分"的缩写,以便指示风险 得分受两个或更多个细胞信号传导途径的推断活性影响),A是细胞信号传导途径i的活性 得分,#是在考虑中的细胞信号传导途径的总数目,并且X是可能进入等式内的可能的进一 步因子或参数的占位符。此类公式可以更具体地是给定变量中的一定程度的多项式,或变 量的线性组合。此类多项式中的加权系数和幂可以基于专家知识进行设置,但通常具有已 知基本事实例如存活数据的训练数据集用于获得关于等式(6)的加权系数和幂的估计值。 推断活性可以使用等式(6)进行组合,并且随后生成#/5。接下来,这样优化评分函数的加 权系数和幂,使得高#/?与直至临床事件出现的更长时间段关联,并且反之亦然。优化评分 函数与复发数据的关联可以使用许多分析技术来完成,例如Cox比例风险检验(如本文示 例性使用的)、时序检验、与标准优化技术例如梯度下降或手动适应结合的卡普兰-迈耶估 计量。
[0102] 在该实施例中,临床事件是癌症,特别是乳腺癌,并且考虑Wnt途径、ER (雌激素受 体)途径、HH (Hedgehog)途径和AR (雄激素受体)途径的推断活性,如公开的国际专利申 请 WO 2013/011479 A2 ("Assessment of cellular signaling pathway activity using probabilistic modeling of target gene expression',),或未公开的美国临时专利申 请 US 61/745839,相应的未公开的国际专利申请 PCT/IB2013/061066 ("Assessment of cellular signaling pathway activity using linear combination (s)of target gene expressions")中详细讨论的。
[0103] 本文示例性使用的公式考虑到Wnt途径、ER途径和HH途径的活性。它基于衍生 自癌症生物学研究的本发明人的观察,以及在可公开获得的数据集中发现的存活以及Wnt、 ER和HH途径活性之间的关联。早期发育途径如Wnt和Hedgehog被认为在通过癌细胞引起 的转移中起作用,所述癌细胞恢复为更干细胞样表型,称为癌干细胞。事实上,本发明人认 为关于早期发育途径例如Wnt途径在癌症转移中起作用允许转移癌细胞在另一个器官或 组织中的种植位置中开始分裂,可获得足够指示。转移与不良预后相关且代表癌症复发形 式,因此在癌细胞中的早期发育途径例如Wnt和HH途径的活性由本发明人预期为预示不良 预后,而ER途径的活性看起来与乳腺癌患者中的不良结果关联。Wnt和Hedgehog途径在癌 症进展和转移中的假定作用基于临床前研究,并且在受试者中未得到显示,因为无法获得 用于测量其活性的方法。
[0104] 根据生物学研究的这些本发明人观察,以及Wnt和HH活性可以在癌症复发中起作 用和ER活性看起来与良好临床结果联系的临床关联,在本文中组合在下述示例性公式中
其中仏、/^郝/^分别指示ER途径、Wnt途径和HH途径的推断活性(例如在0至1的 范围内),并且〇和0是非负优选正常数比例因子。在该实施例中,〇和0示例性选择为 等于1,并且已使用处于其活性状态的Wnt途径、ER途径和HH途径的概率,如通过公开的国 际专利申请WO 2013/011479 A2("Assessment of cellular signaling pathway activity using probabilistic modeling of target gene expression',)中详细描述的方法推断 的。使用ER、Wnt和HH途径的本文的贝叶斯网络模型包含A)目的转录因子水平的顶部水 平结点,B)代表目的靶基因的存在的结点水平(分别为WO 2013/011479 A2中的表2、表1 和表3),和C)代表与目的靶基因相关的探针组的结点水平(分别为WO 2013/011479 A2中 的表2、表1和表3)。存在或不存在的TF元件的先前概率设为0.5。如WO 2013/011479 A2中所述,水平A和B之间的条件概率如下仔细地精心挑选:(i)TF不存在/靶基因向下: 0. 95,(ii)TF不存在/靶基因向上:0. 05,(iii)TF存在/靶基因向下:0. 30,和(iv)TF 存在/靶基因向上:〇. 70,其中水平B和C之间的条件概率分别在来自GSE8597、GSE8671和 GSE7553的数据上进行训练。
[0105] 作为训练数据,GSE8597已用于ER途径,GSE8671已用于Wnt途径,并且GSE7553 已用于HH途径。在推断中已掺入的靶基因是用于ER途径的GREBI、PGR、XBPI、CAl2、SOD 1、 CTSD、IGFBP4、TFFl、SGK3、NRIPl、CELSR2、WISP2、APlBl、RARA、MYC、DSCAM、EBAG9、C0X7A2L、 ERBB2、PISD、KRT19、HSPBI、TR頂25、PTMA、COL18AI、CDH26、NDUFV3、PRDMl5、ATP5J、ESRl,用 于 Wnt 途径的 KIAAl 199、AXIN2、RNF43、TBX3、TDGFl、S0X9、ASCL2、IL8、SP5、ZNRF3、KLF6、 CCNDl、DEFA6、FZD7、NKDl、OAT、FATl、LEFl、GLUL、REGIB、TCF7L2、C0L18A1、BMP7、SLC1A2、 ADRA2C、PPARG、DKKl、HNF1A、LECT2,以及用于 HH 途径的 GLII、PTCHl、PTCH2、IGFBP6、SPPl、 CCND2、FST、F0XL1、CFLAR、TSC22D1、RAB34、S100A9、S100A7、MYCN、F0XM1、GLI3、TCEA2、FYN、 CTSL1、BCL2、F0XA2、F0XF1、H19、HHIP、IL1R2、JAG2、JUP、MIF、MYLK、NKX2. 2、NKX2. 8、PITRM1 和 TOMl〇
[0106] 所得到的#/?范围为_1(其表明临床事件(此处为局部或远处的癌症特别是乳腺 癌)在某一时间段内复发的低风险)至关于高风险复发患者的+1。
[0107] 请注意虽然在下文中,使用根据等式(7)计算的#/?;但基于Wnt、ER和HH途径的 推断活性,计算风险得分(#/5)的另一种合适方法由下述示例性公式提供:
其中仏、/^郝/^分别指示ER途径、Wnt途径和HH途径的推断活性(例如在0至1的 范围内),并且〇、0和r是非负常数比例因子。
[0108] 使本文示例性使用的此类预后价值量化的两种方法是Cox比例风险回归模型,以 及与时序检验结合的卡普兰-迈耶曲线: 第一种方法将风险模型与存活数据伴随一种或多种协变量拟合。总之,此类风险模型 解释了基于协变量的(数)值,在群体内的存活(临床事件)中的变动。由于拟合,每个包括 的协变量将指定危害比(HR),其基于协变量的值定量临床事件的相关风险,例如HR二对应 于伴随协变量值增加一的关于患者的目的临床事件两倍更高的风险。详细地,HR值为一意 指这种协变量对存活没有影响,而对于HR〈 1,协变量数目中的增加表明更低的风险,并且 协变量数目中的减少表明更高的风险,并且对于HR > 1,协变量数目中的增加表明更高的 风险,并且协变量数目中的减少表明更低的风险。连同危害比一起,报道了 95%置信区间和 P值(即,危害比显著小于或大于一的单侧概率)。所有协变量在零和一之间定标,以作出简 单的危害比的直接比较。
[0109] 后面一种方法涉及标绘卡普兰-迈耶曲线,其代表根据时间的临床事件存活概 率。例如,通过基于示例性预后测试,对于群体中的不同风险组标绘卡普兰-迈耶曲线,可 以显现示例性临床事件风险的分开的质量。这种质量可以进一步借助于时序检验进行量 化,所述时序检验计算两个存活函数相等的概率(P值)。
[0110] 为了根据风险将患者分层,示例性使用下述算法:具有#/?小于_ 0. 1的患者与高 ER途径活性概率关联,并且因此指定为具有低复发风险,而#/?大于+0. 1与高风险Wnt和 /或HH途径的高活性相关,并且因此与高复发风险关联。具有在-0.1和+0.1之间的#/5 的患者分类为具有发展复发的中度风险,因为这个组包括具有活跃的低风险途径例如ER 途径,以及高风险信号传导途径例如Wnt或HH的活化的患者,或其中途径无一推断为驱动 肿瘤生长的患者。阈值-0. 1和+0. 1基于在多个数据集中所得到的#/?得分分布的分析, 所述数据集包括1294个多样化乳腺癌患者,如Gene Expression Omnibus(在http://www. ncbi. nlm. nih. gov/geo/ 处可获得的 GSE6532、GSE9195、GSE20685、GSE20685 和 GSE21653, 2013 年 2 月 13 日最后一次访问)和 ArrayExpress (E-MTAB-365, http://www. ebi. ac. uk/ arrayexpress/experiments/,2013年2月13日最后一次访问)中报道的,如图1中可见的。
[0111] 作为基准,使用分开的途径活性和来自Genomic Health的乳腺癌Oncotype DX? 测试,其显示为良好的复发预测物,并且与关于乳腺癌的其他基于基因表达的预测物一致。 Oncotype DX?测试返回0至100的风险或复发得分(必'),其基于对于基因实验对象组测量 的表达水平组合进行计算。必就ER阳性、HER2阴性(蛋白质染色或FISH)、淋巴结阴性乳 腺癌患者中的10年存活而言进行优化(参见Paik,S.,等人:"A multi-gene assay to predict recurrence of Tamoxifen-treated, node-negative breast cancer, ', The New England Journal of Medicine,351 (27),(2004),第 2817 - 2826 页;Fan,C.,等人: "Concordance among gene-expression-based predictors for breast cancer, ', The New £即1&]1(1]〇111'仙1〇€]\16(1;[(3;[116,355(6),(2006),第 560 - 569 页)。遵循通过?&11等人(参 见Fan,C.,等人(2006))报道的操作,使用在所述数据集中报道的微阵列表达数据计算#5; 并且随后根据Oncotype DX?风险分层算法,将患者分成低风险、中度风险和高风险患者。
[0112] 结果 (i ) Erasmus 数据 来自 Gene Expression Omnibus (在 http://www. ncbi. nlm. nih. gov/geo/处可获得, 2013年2月13日最后一次访问)的GSE12276中的所有204个患者经历复发(中值复发时 间:21个月,范围:0 - 115个月),这使得其成为研究途径活性得分及其衍生的#/?就复 发风险而言的预后价值的良好数据集,以察看它们是否可以将早期复发病例与晚期病例分 开。
[0113] 单变量Cox比例风险回归模型使用Wnt途径、ER途径、HH途径和AR途径,以及关 于#5和#/?的标准化值(即0至1之间的值)进行拟合,参见下表12。单变量分析指示#S 和#/?两者均具有显著大于1的危害比,而具有显著小于1的危害比。包括必与 #/?的组合的多变量分析导致两种显著预测物(p〈 0.05)。然而,#尸5和的组合导致关 于预测物之一的显著性丧失(#/没p > 0.05),这通过也是多途径得分的元素的事实加 以解释。因此,使用的多变量分析在逻辑上也失败。
[0114] 表12. GSE12276中的所有患者的Cox比例危害比。
[0115] 总之,单变量分析显示就复发而言,来自Genomic Health的Oncotype DX?复发得 分(^幻具有比基于途径的预测物更强的预测力,这并非出乎意料的,因为^ 特异性优化以预测复发,而/^、^旨在预测途径活性。然而,仏以及由其与/^郝 组合衍生的#/?也是关于复发的很强的显著预测物。另外,组合必与#/?导致改 善的风险分层,胜过分开的预测物(不显著,P 0.14)。另外,这还暗示Oncotype DX?复 发得分(必')和多途径得分(#/5)是互补的复发预测物,并且两者均视为肿瘤生长潜在的不 同机制。
[0116] 考虑到来自相同数据集的仅71个患者对于Oncotype DX?乳腺癌测试符
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1