使用多种细胞信号传导途径活性的医学预后和治疗反应的预测的制作方法

文档序号:14491501阅读:2351来源:国知局
使用多种细胞信号传导途径活性的医学预后和治疗反应的预测的制作方法

发明领域

本文所述的主题主要涉及生物信息学、基因组加工领域、蛋白质组加工领域和相关领域。更具体地,本发明涉及用于测定表明受试者在确定时间段内将经历与疾病相关的临床事件的风险的风险评分的计算机执行系统,所述测定通过数字处理设备执行,其中基于受试者中两种或更多种细胞信号传导途径的推断活性的组合来测定风险评分。本发明进一步涉及用于测定表明受试者在确定时间段内将经历与疾病相关的临床事件的风险的风险评分的装置(其包含经配置以执行所述方法的数字处理器),用于测定表明受试者在确定时间段内将经历与疾病相关的临床事件的风险的风险评分的非暂时性存储介质(其存储可由数字处理设备执行以执行所述方法的指令),和用于测定表明受试者在确定时间段内将经历与疾病相关的临床事件的风险的风险评分的计算机程序(其包含当计算机程序在数字处理设备上运行时使得数字处理装置执行方法的程序代码装置)。本发明进一步涉及用于测量受试者样品中两种或更多种细胞信号传导途径各自的三种或更多种靶基因的表达水平的试剂盒、用于测定表明受试者在确定时间段内将经历与疾病相关的临床事件的风险的风险评分的试剂盒和所述试剂盒在执行所述方法中的用途。

发明背景

基因组和蛋白质组分析已经基本上实现了和保证了在医疗领域诸如肿瘤学中的临床应用,其中已知多种癌症与在癌症的生长和进化(例如,细胞增殖和转移)中起作用的基因组突变/变异/异常甲基化模式和/或特定基因的高或低表达水平的特定组合相关。例如,wnt信号传导途径影响细胞增殖的调节,并且是高度调节的。由于调节丧失导致的高wnt途径活性已与癌症关联,在所述癌症中有恶性结肠肿瘤。虽然不限于任何具体操作理论,但认为恶性肿瘤细胞中的wnt途径失调导致高wnt途径活性,其依次又引起恶性结肠细胞的细胞增殖,即结肠癌的传播。另一方面,例如在骨质疏松症的情况下,异常低的途径活性也可能是有利的。在健康和疾病中的细胞分裂、功能和/或分化中起相似作用的其他途径是细胞信号传导途径(例如er、pr、ar、ppar、gr、vitd、tgfbeta、notch、hedgehog、fgf、nfκb、vegf和pdgf)。

获得基因组和蛋白组学数据的技术在临床背景下已变得容易获得。例如,通过微阵列的测量常规用于评价基因表达水平、蛋白水平、甲基化等等。自动化的基因测序允许dna和mrna中的遗传变异/突变/异常甲基化模式的成本有效的鉴定。在基因测序期间的mrna水平的定量评价带来作为用于评价基因表达水平的临床工具的希望。

治疗学家例如肿瘤科医生的主要挑战之一是对患者的预后作出有根据的猜测,因为这种信息影响治疗选择。基于个别患者癌症组织样品的基因组学、转录组学和蛋白质组学(以及其他“组学”)分析,提供了可以潜在地促成患者的预后评价的信息。然而,解释这些复杂数据以提取有关临床信息已证明为挑战,在很大程度上仍是未解决的。患者预后可以以几种方法以定量方式得到指示,如例如:“(疾病的)复发时间”、“(疾病的)进展时间”、“(疾病的)发作时间”或“(疾病的)死亡时间”。

发明概述

根据本发明的一个主要方面,通过用于测定表明受试者在确定时间段内将经历与疾病相关的临床事件的风险的风险评分的计算机执行系统解决或至少减少上述问题,其中所述测定包括:

基于受试者样品中测量的各细胞信号传导途径的三种或更多种、例如三种、四种、五种、六种、七种、八种、九种、十种、十一种、十二种或更多种靶基因的表达水平,推断受试者中两种或更多种细胞信号传导途径各自的活性,和

基于推断的活性的组合来测定风险评分,

其中所述细胞信号传导途径包含转化生长因子-β(tgf-β)途径,以及磷脂酰肌醇3-激酶(pi3k)途径、wnt途径、雌激素受体(er)途径和hedgehog(hh)途径中的一种或多种。

本发明优选地允许鉴定处于在确定时间段内、例如3个月内、6个月内、1年内、18个月内、2年内、30个月内、3年内、42个月内、4年内、5年内、6年内、7年内、8年内、9年内或10年或更长时间内经历与疾病相关的临床事件的风险的受试者。

如本文所使用的术语“受试者”是指任何生物。在一些实施方案中,所述受试者是动物,优选哺乳动物。在某些实施方案中,所述受试者是人,优选医学受试者。

如本文所使用的术语“转录因子元件”或“tf元件”优选是指活性转录因子的中间体或前体蛋白或蛋白复合物,或控制特定靶基因表达的活性转录因子蛋白或蛋白复合物。作为关于如何使用该术语的说明性实例,术语“tgf-β转录因子元件”或“tgf-βtf元件”或“tf元件”是指tgf-β与其受体的结合的下游的信号传导剂,其控制靶基因表达,其可以是转录因子蛋白或蛋白复合物或活性转录蛋白复合物的前体。在实施方案中,其可以是通过tgf-β与其受体结合而触发的信号传导剂,所述结合在tgf-β细胞外受体结合下游和活性转录因子蛋白复合物形成的上游。例如,已知当tgf-β结合细胞外tgf-β受体时,其起始细胞内“smad”信号传导途径,并且一种或多种smad蛋白(例如受体调节的或r-smad(smad1、smad2、smad3、smad5和smad8)和smad4)参与并可形成参与控制表达的tgf-β转录信号传导级联的异源复合物。其他信号传导途径pi3k、wnt、er和hh的转录因子元件类似地基于其控制表达的特定信号传导级联成员进行定义。

如本文所使用的术语“靶基因”是指其转录被各转录因子元件直接或间接控制的基因。“靶基因”可以是“直接靶基因”和/或“间接靶基因”(如本文所述)。

受试者中的细胞信号传导途径活性的推断可以例如尤其通过下述执行:(i)评估代表一组输入的细胞信号传导途径的校准概率途径模型(优选贝叶斯网络)的一部分,所述一组输入包括在受试者的样品中测量的细胞信号传导途径的三种或更多种靶基因的表达水平,(ii)估计受试者中的转录因子(tf)元件的活性水平,所述tf元件控制细胞信号传导途径的三种或更多种靶基因的转录,所述估计基于关于tf元件的活性水平的条件概率,以及在受试者的样品中测量的细胞信号传导途径的三种或更多种靶基因的表达水平,和(iii)基于受试者的样品中tf元件的估计的活性水平,推断细胞信号传导途径的活性。这在公开的国际专利申请wo2013/011479a2(“assessmentofcellularsignalingpathwayactivityusingprobabilisticmodelingoftargetgeneexpression”)中详细描述,其内容以其整体并入本文。

在示例性替代方案中,在受试者的细胞信号传导途径的活性的推断可以例如尤其通过下述执行:(i)在受试者的样品中,测定转录因子(tf)元件的活性水平,该tf元件控制细胞信号传导途径的三种或更多种靶基因的转录,测定基于评估将细胞信号传导途径的三种或更多种基因的表达水平与tf元件的活性水平关联的校准数学途径模型,该数学途径模型基于三种或更多种靶基因的表达水平的一种或多种线性组合,和(ii)基于在受试者的样品中测定的tf元件活性水平,推断在受试者中的细胞信号传导途径的活性。这在公开的国际专利申请wo2014/102668a2(“assessmentofcellularsignalingpathwayactivityusinglinearcombination(s)oftargetgeneexpressions”)中详细描述。

根据一个优选实施方案,细胞信号传导途径包括pi3k途径、wnt途径、er途径和hh途径。

tgf-β途径、pi3k途径、wnt途径、er途径和hh途径中的每一种优选定义为最终导致与所述途径相关的转录因子(tf)复合物的转录活性的细胞信号传导途径。优选地,它们分别由至少tgf-β成员的二聚体(smad1、smad2、smad3、smad5和smad8与smad4)或三聚体(来自smad1、smad2、smad3、smad5和smad8与smad4的两种蛋白)、foxo家族成员、β-联蛋白/tcf4、erα二聚体和gli家族成员组成。

本发明集中于tgf-β途径和smadtf家族,其活性与tgf-β途径的活性基本上相关,即smadtf复合物的活性与tgf-β途径的活性基本上相关,而smadtf复合物的无活性与pi3k途径的无活性基本上相关。

优选的是,细胞信号传导途径包括pi3k途径和/或wnt途径和/或er途径和/或hh途径,其中定义风险评分,使得所示风险随着pi3k途径的推断活性增加和/或wnt途径的推断活性增加和/或hh途径的推断活性增加而单调增加和/或随着er途径的推断活性增加而单调减少。

还优选的是,定义风险评分,使得所示风险随着tgf-β途径的推断活性增加而单调增加。

优选的是,mps包含包括项目wt·pt和项目wp·ppww·pwwe·pewh·ph中的一个或多个之和,其中ptpppwpeph分别表示tgf-β途径、pi3k途径、wnt途径、er途径和hh途径的推断活性,wtwpwwwhwe是代表受试者在确定时间段内将经历与疾病相关的临床事件的风险和分别tgf-β途径、pi3k途径、wnt途径、er途径和hh途径的活性之间的相关性的恒定加权系数。

进一步优选的是,恒定加权系数wtwpwwwewh是或已各自基于由将各个细胞信号传导途径的cox比例风险模型拟合至临床数据而得到的cox系数的值来测定的。

本发明基于本发明人的以下创新:鉴定在本文描述的细胞信号传导途径中发生的效应的合适方式可以基于细胞信号传导途径的信号传导输出的测量,其尤其是由本文描述的独特靶基因的转录,其由受细胞信号传导途径控制的转录因子(tf)元件控制。本发明人的这一创新假定tf活性水平在样品中处于准稳态,其可以通过尤其独特鉴定的靶基因的表达值来检测。

具体而言,已经鉴定了在数学途径模型中分析其表达水平的独特的细胞信号传导途径靶基因集合。为了在数学途径模型中使用,可以分析来自每个评价的细胞信号传导途径的三种或更多种、例如三种、四种、五种、六种、七种、八种、九种、十种、十一种、十二种或更多种靶基因以发展风险评分。

优选的是:

三种或更多种tgf-β靶基因选自:angptl4、cdc42ep3、cdkn1a、cdkn2b、ctgf、gadd45a、gadd45b、hmga2、id1、il11、serpine1、inpp5d、junb、mmp2、mmp9、nkx2-5、ovol1、pdgfb、pthlh、sgk1、skil、smad4、smad5、smad6、smad7、snai1、snai2、timp1和vegfa,

和/或

三种或更多种pi3k靶基因选自:atp8a1、bcl2l11、bnip3、btg1、c10orf10、cat、cblb、ccnd1、ccnd2、cdkn1b、ddb1、dyrk2、erbb3、ereg、esr1、ext1、faslg、fgfr2、gadd45a、igf1r、igfbp1、igfbp3、insr、lgmn、mxi1、ppm1d、sema3c、sepp1、sesn1、slc5a3、smad4、sod2、tle4和tnfsf10

和/或

三种或更多种wnt靶基因选自:adra2c、ascl2、axin2、bmp7、ccnd1、cd44、col18a1、defa6、dkk1、ephb2、ephb3、fat1、fzd7、glul、hnf1a、cxcl8(以前称为il8)、cemip(以前称为kiaa1199)、klf6、lect2、lef1、lgr5、myc、nkd1、oat、pparg、reg1b、rnf43、slc1a2、sox9、sp5、tbx3、tcf7l2、tdgf1和znrf3,

和/或

三种或更多种er靶基因选自:ap1b1、atp5j、col18a1、cox7a2l、ctsd、dscam、ebag9、esr1、hspb1、krt19、ndufv3、nrip1、pgr、pisd、prdm15、ptma、rara、sod1、tff1、trim25、xbp1、greb1、igfbp4、myc、sgk3、wisp2、erbb2、ca12、cdh26和celsr2、

和/或

三种或更多种hh靶基因选自:gli1、ptch1、ptch2、hhip、spp1、tsc22d1、ccnd2、h19、igfbp6、tom1、jup、foxa2、mycn、nkx2-2、nkx2-8、rab34、mif、gli3、fst、bcl2、ctsl1、tcea2、mylk、fyn、pitrm1、cflar、il1r2、s100a7、s100a9、ccnd1、jag2、foxm1、foxf1和foxl1。

进一步优选的是:

三种或更多种tgf-β靶基因选自:angptl4、cdc42ep3、cdkn1a、ctgf、gadd45a、gadd45b、hmga2、id1、il11、junb、pdgfb、pthlh、serpine1、sgk1、skil、smad4、smad5、smad6、smad7、snai2、vegfa,优选地选自:angptl4、cdc42ep3、cdkn1a、ctgf、gadd45b、id1、il11、junb、serpine1、pdgfb、skil、smad7、snai2和vegfa,更优选地选自:angptl4、cdc42ep3、id1、il11、junb、serpine1、skil和smad7,

和/或

三种或更多种pi3k靶基因选自:agrp、bcl2l11、bcl6、bnip3、btg1、cat、cav1、ccnd1、ccnd2、ccng2、cdkn1a、cdkn1b、esr1、faslg、fbxo32、gadd45a、insr、mxi1、nos3、pck1、pomc、ppargc1a、prdx3、rbl2、sod2、tnfsf10,优选地选自:fbxo32、bcl2l11、sod2、tnfsf10、bcl6、btg1、ccng2、cdkn1b、bnip3、gadd45a、insr和mxi1,

和/或

三种或更多种wnt靶基因选自:cemip、axin2、cd44、rnf43、myc、tbx3、tdgf1、sox9、ascl2、cxcl8、sp5、znrf3、ephb2、lgr5、ephb3、klf6、ccnd1、defa6和fzd7,优选地选自:axin2、cd44、lgr5、cemip、myc、cxcl8、sox9、ephb3、rnf43、tdgf1、znrf3和defa6,

和/或

三种或更多种er靶基因选自:cdh26、sgk3、pgr、greb1、ca12、xbp1、celsr2、wisp2、dscam、erbb2、ctsd、tff1、pdzk1、igfbp4、esr1、sod1、ap1b1和nrip1,优选地选自:tff1、greb1、pgr、sgk3、pdzk1、igfbp4、nrip1、ca12、xbp1、erbb2、esr1和celsr2,

和/或

三种或更多种hh靶基因选自:gli1、ptch1、ptch2、igfbp6、spp1、ccnd2、fst、foxl1、cflar、tsc22d1、rab34、s100a9、s100a7、mycn、foxm1、gli3、tcea2、fyn和ctsl1,优选地选自:gli1、ptch1、ptch2、ccnd2、igfbp6、mycn、fst、rab34、gli3、cflar、s100a7和s100a9。

尤其优选的是,三种或更多种tgf-β靶基因选自:angptl4、cdc42ep3、cdkn1a、ctgf、gadd45a、gadd45b、hmga2、id1、junb、pdgfb、pthlh、serpine1、sgk1、skil、smad4、smad5、smad6、smad7、snai2、vegfa,优选地选自:angptl4、cdc42ep3、cdkn1a、ctgf、gadd45b、id1、junb、serpine1、skil、smad7、snai2和vegfa,最优选地选自:angptl4、cdc42ep3、id1、junb、serpine1、skil和smad7。

尤其优选的是:

三种或更多种tgf-β靶基因是angptl4、cdc42ep3、cdkn1a、ctgf、gadd45b、id1、junb、serpine1、skil、smad7、snai2和vegfa,和/或

三种或更多种pi3k靶基因是fbxo32、bcl2l11、sod2、tnfsf10、bcl6、btg1、ccng2、cdkn1b、bnip3、gadd45a、insr和mxi1,和/或

三种或更多种wnt靶基因是axin2、cd44、lgr5、cemip、myc、cxcl8、sox9、ephb3、rnf43、tdgf1、znrf3和defa6,和/或

三种或更多种er靶基因是tff1、greb1、pgr、sgk3、pdzk1、igfbp4、nrip1、ca12、xbp1、erbb2、esr1和celsr2,和/或

三种或更多种hh靶基因是gli1、ptch1、ptch2、ccnd2、igfbp6、mycn、fst、rab34、gli3、cflar、s100a7和s100a9。

待根据本发明使用的样品可以是提取的样品,即已从受试者提取的样品。样品的实例包括但不限于受试者的组织、细胞、血液和/或体液。其可以是,例如,从癌症病灶、或从怀疑为癌症的病灶、或从转移性肿瘤、或从存在被癌细胞污染的体液的体腔(例如,胸腔或腹腔或膀胱腔)、或从含有癌细胞的其他体液等等、优选经由活检程序或其他样品提取程序获得的样品。提取样品的细胞还可以是来自血液系统恶性肿瘤(诸如白血病或淋巴瘤)的肿瘤细胞。在一些情况下,细胞样品还可以是循环肿瘤细胞,即已进入血流且可以使用合适的分离技术(例如血浆分离置换法或常规静脉采血)提取的肿瘤细胞。除了血液,提取样品的体液可以是尿、胃肠内容物或渗出物。如本文所使用,术语“样品”还涵盖这样的情况,其中例如受试者的组织和/或细胞和/或体液已取自受试者并且例如已经置于显微镜载片或固定剂上,并且其中为了执行请求保护的方法,例如借助于激光捕获显微切割(lcm)或通过冲压或通过从载玻片上刮取目的细胞或通过荧光活化的细胞分选技术来提取该样品的一部分。此外,如本文所使用的术语“样品”还涵盖这样的情况,其中例如受试者的组织和/或细胞和/或体液已取自受试者且已置于显微镜载片上,且请求保护的方法在载片上执行。

优选的是这样的方法,其进一步包括组合风险评分和/或推断活性中的至少一种与得自一种或多种另外的预后测试的一种或多种另外的风险评分,以获得组合的风险评分,其中所述组合的风险评分表明受试者在确定时间段内将经历临床事件的风险。一种或多种另外的预后测试可以特别包含oncotypedx®乳腺癌测试、mammostrat®乳腺癌测试、mammaprint®乳腺癌测试、endopredict®乳腺癌测试、blueprinttm乳腺癌测试、compandx®乳腺癌测试、breastcancerindexsm(hoxb13/il17br)、oncotypedx®结肠癌测试、和/或通过测量基因/蛋白ki67的表达执行的增殖测试。

优选地,临床事件是疾病复发、疾病进展、疾病发生和由疾病引起的死亡之一,其中,优选该疾病是癌症,更优选是乳腺癌。临床事件将在确定时间段内发生的风险然后优先是在给定治疗后(也称为“癌症治疗反应预测”)或没有任何治疗(也称为“癌症预后”)的癌症的复发(即,返回)风险。复发可以是局部的(即,在原始肿瘤的一侧)或远端(即转移,超出原始侧)。在其他替代方案中,临床事件将在确定时间段内发生的风险是癌症进展的风险、癌症发生的风险或癌症引起死亡的风险。

根据另一个公开的方面,用于测定表明受试者在确定时间段内将经历与疾病相关的临床事件的风险的风险评分的装置包含经配置以执行根据如本文所述的本发明的方法的数字处理器。

根据另一个公开的方面,用于测定表明受试者在确定时间段内将经历与疾病相关的临床事件的风险的风险评分的非临时性存储介质,存储可由数字处理设备执行,以执行如本文所述的本发明的方法的指令。所述非临时性存储介质可以是计算机可读取的存储介质,诸如硬盘驱动器或其他磁性存储介质、光盘或其他光存储介质、随机存取存储器(ram)、只读存储器(rom)、闪速存储器、或其他电子存储介质、网络服务器等等。数字处理设备可以是手提式设备(例如,个人数据助手或智能电话)、笔记本计算机、台式计算机、平板计算机或设备、遥控网络服务器等等。

根据另一个公开的方面,用于测定表明受试者在确定时间段内将经历与疾病相关的临床事件的风险的风险评分的计算机程序包含,当计算机程序在数字处理设备上运行时,用于引起数字处理设备执行如本文所述的本发明的方法的程序代码手段。数字处理设备可以是手提式设备(例如,个人数据助手或智能电话)、笔记本计算机、台式计算机、平板计算机或设备、遥控网络服务器等等。

根据另一公开的方面,用于测量受试者的样品中两种或更多种细胞信号传导途径各自中的三种或更多种、例如三种、四种、五种、六种、七种、八种、九种、十种、十一种、十二种或更多种靶基因的表达水平的试剂盒包含:

用于测定受试者样品中各个细胞信号传导途径的三种或更多种靶基因的表达水平的一种或多种组分,

其中所述细胞信号传导途径包含tgf-β途径,以及pi3k途径、wnt途径、er途径和hh途径中的一种或多种。

用于测量各个细胞信号传导途径的三种或更多种靶基因的表达水平的一种或多种组分或方式可以选自:dna阵列芯片、寡核苷酸阵列芯片、蛋白阵列芯片、抗体、多个探针(例如标记的探针)、一组rna逆转录酶测序组分和/或rna或dna(包括cdna)、扩增引物。在一个实施方案中,所述试剂盒包括一组标记的探针,其针对如本文所述的三种或更多种靶基因的mrna或cdna序列的一部分。在一个实施方案中,所述试剂盒包括针对三种或更多种如下文进一步描述的靶基因的mrna或cdna序列的一部分的一组引物和探针,例如,选自表25至29的一组特异性引物或探针。在一个实施方案中,所述标记的探针包含在标准化的96孔板中。在一个实施方案中,所述试剂盒还包括针对一组参考基因的引物或探针,例如如表30中所代表。此类参考基因可以是例如组成型表达的基因,其可用于均一化或标准化本文所述的靶基因表达水平的表达水平。

在一个实施方案中,用于测量受试者样品中两种或更多种细胞信号传导途径各自的三种或更多种靶基因的表达水平的试剂盒包含:

针对各细胞信号传导途径的三种或更多种靶基因的聚合酶链式反应引物,

针对各细胞信号传导途径的三种或更多种靶基因的探针,

其中所述细胞信号传导途径包含tgf-β途径,以及pi3k途径、wnt途径、er途径和hh途径中的一种或多种。

优选的是:

三种或更多种tgf-β靶基因选自:angptl4、cdc42ep3、cdkn1a、cdkn2b、ctgf、gadd45a、gadd45b、hmga2、id1、il11、serpine1、inpp5d、junb、mmp2、mmp9、nkx2-5、ovol1、pdgfb、pthlh、sgk1、skil、smad4、smad5、smad6、smad7、snai1、snai2、timp1和vegfa,

和/或

三种或更多种pi3k靶基因选自:atp8a1、bcl2l11、bnip3、btg1、c10orf10、cat、cblb、ccnd1、ccnd2、cdkn1b、ddb1、dyrk2、erbb3、ereg、esr1、ext1、faslg、fgfr2、gadd45a、igf1r、igfbp1、igfbp3、insr、lgmn、mxi1、ppm1d、sema3c、sepp1、sesn1、slc5a3、smad4、sod2、tle4和tnfsf10

和/或

三种或更多种wnt靶基因选自:adra2c、ascl2、axin2、bmp7、ccnd1、cd44、col18a1、defa6、dkk1、ephb2、ephb3、fat1、fzd7、glul、hnf1a、cxcl8、cemip、klf6、lect2、lef1、lgr5、myc、nkd1、oat、pparg、reg1b、rnf43、slc1a2、sox9、sp5、tbx3、tcf7l2、tdgf1和znrf3,

和/或

三种或更多种er靶基因选自:ap1b1、atp5j、col18a1、cox7a2l、ctsd、dscam、ebag9、esr1、hspb1、krt19、ndufv3、nrip1、pgr、pisd、prdm15、ptma、rara、sod1、tff1、trim25、xbp1、greb1、igfbp4、myc、sgk3、wisp2、erbb2、ca12、cdh26和celsr2,

和/或

三种或更多种hh靶基因选自:gli1、ptch1、ptch2、hhip、spp1、tsc22d1、ccnd2、h19、igfbp6、tom1、jup、foxa2、mycn、nkx2-2、nkx2-8、rab34、mif、gli3、fst、bcl2、ctsl1、tcea2、mylk、fyn、pitrm1、cflar、il1r2、s100a7、s100a9、ccnd1、jag2、foxm1、foxf1和foxl1。

进一步优选的是:

三种或更多种tgf-β靶基因选自:angptl4、cdc42ep3、cdkn1a、ctgf、gadd45a、gadd45b、hmga2、id1、il11、junb、pdgfb、pthlh、serpine1、sgk1、skil、smad4、smad5、smad6、smad7、snai2、vegfa,优选地选自:angptl4、cdc42ep3、cdkn1a、ctgf、gadd45b、id1、il11、junb、serpine1、pdgfb、skil、smad7、snai2和vegfa,更优选地选自:angptl4、cdc42ep3、id1、il11、junb、serpine1、skil和smad7,

和/或

三种或更多种pi3k靶基因选自:agrp、bcl2l11、bcl6、bnip3、btg1、cat、cav1、ccnd1、ccnd2、ccng2、cdkn1a、cdkn1b、esr1、faslg、fbxo32、gadd45a、insr、mxi1、nos3、pck1、pomc、ppargc1a、prdx3、rbl2、sod2、tnfsf10,优选地选自:fbxo32、bcl2l11、sod2、tnfsf10、bcl6、btg1、ccng2、cdkn1b、bnip3、gadd45a、insr和mxi1,

和/或

三种或更多种wnt靶基因选自:cemip、axin2、cd44、rnf43、myc、tbx3、tdgf1、sox9、ascl2、cxcl8、sp5、znrf3、ephb2、lgr5、ephb3、klf6、ccnd1、defa6和fzd7,优选地选自:axin2、cd44、lgr5、cemip、myc、cxcl8、sox9、ephb3、rnf43、tdgf1、znrf3和defa6,

和/或

三种或更多种er靶基因选自:cdh26、sgk3、pgr、greb1、ca12、xbp1、celsr2、wisp2、dscam、erbb2、ctsd、tff1、pdzk1、igfbp4、esr1、sod1、ap1b1和nrip1,优选地选自:tff1、greb1、pgr、sgk3、pdzk1、igfbp4、nrip1、ca12、xbp1、erbb2、esr1和celsr2,

和/或

三种或更多种hh靶基因选自:gli1、ptch1、ptch2、igfbp6、spp1、ccnd2、fst、foxl1、cflar、tsc22d1、rab34、s100a9、s100a7、mycn、foxm1、gli3、tcea2、fyn和ctsl1,优选地选自:gli1、ptch1、ptch2、ccnd2、igfbp6、mycn、fst、rab34、gli3、cflar、s100a7和s100a9。

尤其优选的是,三种或更多种tgf-β靶基因选自:angptl4、cdc42ep3、cdkn1a、ctgf、gadd45a、gadd45b、hmga2、id1、junb、pdgfb、pthlh、serpine1、sgk1、skil、smad4、smad5、smad6、smad7、snai2、vegfa,优选地选自:angptl4、cdc42ep3、cdkn1a、ctgf、gadd45b、id1、junb、serpine1、skil、smad7、snai2和vegfa,最优选地选自:angptl4、cdc42ep3、id1、junb、serpine1、skil和smad7。

尤其优选的是:

三种或更多种tgf-β靶基因是angptl4、cdc42ep3、cdkn1a、ctgf、gadd45b、id1、junb、serpine1、skil、smad7、snai2和vegfa,和/或

三种或更多种pi3k靶基因是fbxo32、bcl2l11、sod2、tnfsf10、bcl6、btg1、ccng2、cdkn1b、bnip3、gadd45a、insr和mxi1,和/或

三种或更多种wnt靶基因是axin2、cd44、lgr5、cemip、myc、cxcl8、sox9、ephb3、rnf43、tdgf1、znrf3和defa6,和/或

三种或更多种er靶基因是tff1、greb1、pgr、sgk3、pdzk1、igfbp4、nrip1、ca12、xbp1、erbb2、esr1和celsr2,和/或

三种或更多种hh靶基因是gli1、ptch1、ptch2、ccnd2、igfbp6、mycn、fst、rab34、gli3、cflar、s100a7和s100a9。

根据另一公开的方面,用于测定表明受试者在确定时间段内将经历与疾病相关的临床事件的风险的风险评分的试剂盒包含:

本文所述的本发明的试剂盒,和

如本文所述的本发明的装置,如本文所述的本发明的非暂时性存储介质,或本文所述的本发明的计算机程序。

根据另一公开的方面,用于测定表明受试者在确定时间段内将经历与疾病相关的临床事件的风险的风险评分的试剂盒包含:

用于测定受试者的样品中两种或更多种细胞信号传导途径各自的三种或更多种、例如三种、四种、五种、六种、七种、八种、九种、十种、十一种、十二种或更多种靶基因的表达水平的一种或多种组分,

其中所述一种或多种组分优选地选自:dna阵列芯片、寡核苷酸阵列芯片、蛋白阵列芯片、抗体、多个探针(例如标记的探针)、一组rna逆转录酶测序组分和/或rna或dna(包括cdna)、扩增引物,

其中所述细胞信号传导途径包含tgf-β途径,以及pi3k途径、wnt途径、er途径和hh途径中的一种或多种,和

任选地,如本文所述的本发明的装置,如本文所述的本发明的非暂时性存储介质,或本文所述的本发明的计算机程序。

优选的是:

三种或更多种tgf-β靶基因选自:angptl4、cdc42ep3、cdkn1a、cdkn2b、ctgf、gadd45a、gadd45b、hmga2、id1、il11、serpine1、inpp5d、junb、mmp2、mmp9、nkx2-5、ovol1、pdgfb、pthlh、sgk1、skil、smad4、smad5、smad6、smad7、snai1、snai2、timp1和vegfa,

和/或

三种或更多种pi3k靶基因选自:atp8a1、bcl2l11、bnip3、btg1、c10orf10、cat、cblb、ccnd1、ccnd2、cdkn1b、ddb1、dyrk2、erbb3、ereg、esr1、ext1、faslg、fgfr2、gadd45a、igf1r、igfbp1、igfbp3、insr、lgmn、mxi1、ppm1d、sema3c、sepp1、sesn1、slc5a3、smad4、sod2、tle4和tnfsf10

和/或

三种或更多种wnt靶基因选自:adra2c、ascl2、axin2、bmp7、ccnd1、cd44、col18a1、defa6、dkk1、ephb2、ephb3、fat1、fzd7、glul、hnf1a、cxcl8、cemip、klf6、lect2、lef1、lgr5、myc、nkd1、oat、pparg、reg1b、rnf43、slc1a2、sox9、sp5、tbx3、tcf7l2、tdgf1和znrf3,

和/或

三种或更多种er靶基因选自:ap1b1、atp5j、col18a1、cox7a2l、ctsd、dscam、ebag9、esr1、hspb1、krt19、ndufv3、nrip1、pgr、pisd、prdm15、ptma、rara、sod1、tff1、trim25、xbp1、greb1、igfbp4、myc、sgk3、wisp2、erbb2、ca12、cdh26和celsr2,

和/或

三种或更多种hh靶基因选自:gli1、ptch1、ptch2、hhip、spp1、tsc22d1、ccnd2、h19、igfbp6、tom1、jup、foxa2、mycn、nkx2-2、nkx2-8、rab34、mif、gli3、fst、bcl2、ctsl1、tcea2、mylk、fyn、pitrm1、cflar、il1r2、s100a7、s100a9、ccnd1、jag2、foxm1、foxf1和foxl1。

进一步优选的是:

三种或更多种tgf-β靶基因选自:angptl4、cdc42ep3、cdkn1a、ctgf、gadd45a、gadd45b、hmga2、id1、il11、junb、pdgfb、pthlh、serpine1、sgk1、skil、smad4、smad5、smad6、smad7、snai2、vegfa,优选地选自:angptl4、cdc42ep3、cdkn1a、ctgf、gadd45b、id1、il11、junb、serpine1、pdgfb、skil、smad7、snai2和vegfa,更优选地选自:angptl4、cdc42ep3、id1、il11、junb、serpine1、skil和smad7,

和/或

三种或更多种pi3k靶基因选自:agrp、bcl2l11、bcl6、bnip3、btg1、cat、cav1、ccnd1、ccnd2、ccng2、cdkn1a、cdkn1b、esr1、faslg、fbxo32、gadd45a、insr、mxi1、nos3、pck1、pomc、ppargc1a、prdx3、rbl2、sod2、tnfsf10,优选地选自:fbxo32、bcl2l11、sod2、tnfsf10、bcl6、btg1、ccng2、cdkn1b、bnip3、gadd45a、insr和mxi1,

和/或

三种或更多种wnt靶基因选自:cemip、axin2、cd44、rnf43、myc、tbx3、tdgf1、sox9、ascl2、cxcl8、sp5、znrf3、ephb2、lgr5、ephb3、klf6、ccnd1、defa6和fzd7,优选地选自:axin2、cd44、lgr5、cemip、myc、cxcl8、sox9、ephb3、rnf43、tdgf1、znrf3和defa6,

和/或

三种或更多种er靶基因选自:cdh26、sgk3、pgr、greb1、ca12、xbp1、celsr2、wisp2、dscam、erbb2、ctsd、tff1、pdzk1、igfbp4、esr1、sod1、ap1b1和nrip1,优选地选自:tff1、greb1、pgr、sgk3、pdzk1、igfbp4、nrip1、ca12、xbp1、erbb2、esr1和celsr2,

和/或

三种或更多种hh靶基因选自:gli1、ptch1、ptch2、igfbp6、spp1、ccnd2、fst、foxl1、cflar、tsc22d1、rab34、s100a9、s100a7、mycn、foxm1、gli3、tcea2、fyn和ctsl1,优选地选自:gli1、ptch1、ptch2、ccnd2、igfbp6、mycn、fst、rab34、gli3、cflar、s100a7和s100a9。

尤其优选的是,三种或更多种tgf-β靶基因选自:angptl4、cdc42ep3、cdkn1a、ctgf、gadd45a、gadd45b、hmga2、id1、junb、pdgfb、pthlh、serpine1、sgk1、skil、smad4、smad5、smad6、smad7、snai2、vegfa,优选地选自:angptl4、cdc42ep3、cdkn1a、ctgf、gadd45b、id1、junb、serpine1、skil、smad7、snai2和vegfa,最优选地选自:angptl4、cdc42ep3、id1、junb、serpine1、skil和smad7。

尤其优选的是:

三种或更多种tgf-β靶基因是angptl4、cdc42ep3、cdkn1a、ctgf、gadd45b、id1、junb、serpine1、skil、smad7、snai2和vegfa,和/或

三种或更多种pi3k靶基因是fbxo32、bcl2l11、sod2、tnfsf10、bcl6、btg1、ccng2、cdkn1b、bnip3、gadd45a、insr和mxi1,和/或

三种或更多种wnt靶基因是axin2、cd44、lgr5、cemip、myc、cxcl8、sox9、ephb3、rnf43、tdgf1、znrf3和defa6,和/或

三种或更多种er靶基因是tff1、greb1、pgr、sgk3、pdzk1、igfbp4、nrip1、ca12、xbp1、erbb2、esr1和celsr2,和/或

三种或更多种hh靶基因是gli1、ptch1、ptch2、ccnd2、igfbp6、mycn、fst、rab34、gli3、cflar、s100a7和s100a9。

根据另一公开的方面,如本文所述的本发明的试剂盒用于进行如本文所述的本发明的方法。

一个优点在于而适合提供临床建议的临床决策支持(cds)系统,例如通过基于两种或更多种细胞信号传导途径的分析决定用于受试者的治疗,例如使用tgf-β途径、pi3k途径、wnt途径、er途径和hh途径的概率或另一种数学途径模型,特别是,基于受试者在确定时间段内将经历与疾病例如癌症、特别是乳腺癌相关的临床事件的风险,所述风险如通过基于细胞信号传导途径的推断活性组合测定的风险评分所指示。

另一个优点在于适合将受试者指定至多个风险组中的至少一个的cds系统,所述风险组与受试者在确定时间段内将经历与疾病例如癌症、特别是乳腺癌相关的临床事件的不同风险相关,所述风险如通过基于两种或更多种细胞信号传导途径的推断活性组合测定的风险评分所指示。

另一个优点在于组合指示受试者在确定时间段内将经历与疾病例如癌症、特别是乳腺癌相关的临床事件的风险的风险评分,和基于两种或更多种细胞信号传导途径的推断活性与得自一种或多种另外的预后测试的一种或多种另外的风险评分的组合而测定的风险评分。

如本文所述的本发明还可以例如有利地与以下关联使用:

基于两种或更多种细胞信号传导途径的推断活性组合的预后和/或预测,和/或

基于两种或更多种细胞信号传导途径的推断活性组合的例如化学疗法和/或激素治疗的药物功效预测,和/或

基于两种或更多种细胞信号传导途径的推断活性组合的药物功效监控,和/或

基于两种或更多种细胞信号传导途径的推断活性组合的药物开发,和/或

基于两种或更多种细胞信号传导途径的推断活性组合的测定开发,和/或

基于两种或更多种细胞信号传导途径的推断活性组合的癌症分期,

其中在每种情况下,所述细胞信号传导途径包含tgf-β途径,以及pi3k途径、wnt途径、er途径和hh途径中的一种或多种。

在阅读和理解所附的附图、以下描述和具体在阅读本文以下提供的更详尽的实施例之后,进一步的优点对于本领域技术人员而言将是显而易见的。

应当理解,权利要求1的方法、权利要求11的装置、权利要求12的非临时性存储介质和权利要求13的计算机程序、权利要求14至16的试剂盒和权利要求17的试剂盒的用途具有类似和/或相同的优选实施方案,具体而言,如从属权利要求中所定义。

应当理解,本发明的优选实施方案还可以是从属权利要求或上述实施方案与相应的独立权利要求的任何组合。

本发明的这些和其他方面从下文描述的实施方案将是显而易见的,且参考下文描述的实施方案进行阐明。

本发明利用靶基因的独特集合的表达水平的分析。具体合适的靶基因描述于以下文本段落以及下文实施例中(例如参见表1至21)。

因此,在一个实施方案中,所述靶基因选自表1、表2、表3、表4、表5、表6、表7、表8、表9、表10、表11、表12、表13、表14、表15、表16、表17、表18、表19、表20或表21中所列的靶基因。

附图简述

图1示意性和示例性分别显示用于对tgf-β途径、pi3k途径、wnt途径、er途径、和hh途径的转录程序建模的数学模型,本文中,贝叶斯网络模型。

图2显示e-mtab-365、gse20685和gse21653的乳腺癌患者的无疾病存活的kaplan-meier图。基于mpstp风险评分的三分位数(其是tgf-β途径和pi3k途径的推断活性的组合)分开三个患者组。高风险患者和低风险患者的存活曲线之间的差异是明显显著的(对数秩检验:p=1.7e-9)。

图3显示e-mtab-365、gse20685和gse21653的乳腺癌患者的无疾病存活的kaplan-meier图。基于mpstw风险评分的三分位数(其是tgf-β途径和wnt途径的推断活性的组合)分开三个患者组。高风险患者和低风险患者的存活曲线之间的差异是明显显著的(对数秩检验:p=2.9e-3)。

图4显示e-mtab-365、gse20685和gse21653的乳腺癌患者的无疾病存活的kaplan-meier图。基于mpste风险评分的三分位数(其是tgf-β途径和er途径的推断活性的组合)分开三个患者组。高风险患者和低风险患者的存活曲线之间的差异是明显显著的(对数秩检验:p=8.7e-9)。

图5显示e-mtab-365、gse20685和gse21653的乳腺癌患者的无疾病存活的kaplan-meier图。基于mpsth风险评分的三分位数(其是tgf-β途径和hh途径的推断活性的组合)分开三个患者组。高风险患者和低风险患者的存活曲线之间的差异是明显显著的(对数秩检验:p=5.8e-9)。

图6显示e-mtab-365、gse20685和gse21653的乳腺癌患者的无疾病存活的kaplan-meier图。基于mpstpw风险评分的三分位数(其是tgf-β途径、pi3k途径和wnt途径的推断活性的组合)分开三个患者组。高风险患者和低风险患者的存活曲线之间的差异是明显显著的(对数秩检验:p=1.4e-8)。

图7显示e-mtab-365、gse20685和gse21653的乳腺癌患者的无疾病存活的kaplan-meier图。基于mpstpe风险评分的三分位数(其是tgf-β途径、pi3k途径和er途径的推断活性的组合)分开三个患者组。高风险患者和低风险患者的存活曲线之间的差异是明显显著的(对数秩检验:p=7.1e-13)。

图8显示e-mtab-365、gse20685和gse21653的乳腺癌患者的无疾病存活的kaplan-meier图。基于mpstph风险评分的三分位数(其是tgf-β途径、pi3k途径和hh途径的推断活性的组合)分开三个患者组。高风险患者和低风险患者的存活曲线之间的差异是明显显著的(对数秩检验:p=1.5e-10)。

图9显示e-mtab-365、gse20685和gse21653的乳腺癌患者的无疾病存活的kaplan-meier图。基于mpstwe风险评分的三分位数(其是tgf-β途径、wnt途径和er途径的推断活性的组合)分开三个患者组。高风险患者和低风险患者的存活曲线之间的差异是明显显著的(对数秩检验:p=4.1e-7)。

图10显示e-mtab-365、gse20685和gse21653的乳腺癌患者的无疾病存活的kaplan-meier图。基于mpstwh风险评分的三分位数(其是tgf-β途径、wnt途径和hh途径的推断活性的组合)分开三个患者组。高风险患者和低风险患者的存活曲线之间的差异是明显显著的(对数秩检验:p=4.2e-4)。

图11显示e-mtab-365、gse20685和gse21653的乳腺癌患者的无疾病存活的kaplan-meier图。基于mpsteh风险评分的三分位数(其是tgf-β途径、er途径和hh途径的推断活性的组合)分开三个患者组。高风险患者和低风险患者的存活曲线之间的差异是明显显著的(对数秩检验:p=1.3e-10)。

图12显示e-mtab-365、gse20685和gse21653的乳腺癌患者的无疾病存活的kaplan-meier图。基于mpstpwe风险评分的三分位数(其是tgf-β途径、pi3k途径、wnt途径和er途径的推断活性的组合)分开三个患者组。高风险患者和低风险患者的存活曲线之间的差异是明显显著的(对数秩检验:p=6.8e-12)。

图13显示e-mtab-365、gse20685和gse21653的乳腺癌患者的无疾病存活的kaplan-meier图。基于mpstpwh风险评分的三分位数(其是tgf-β途径、pi3k途径、wnt途径和hh途径的推断活性的组合)分开三个患者组。高风险患者和低风险患者的存活曲线之间的差异是明显显著的(对数秩检验:p=4.5e-9)。

图14显示e-mtab-365、gse20685和gse21653的乳腺癌患者的无疾病存活的kaplan-meier图。基于mpstpeh风险评分的三分位数(其是tgf-β途径、pi3k途径、er途径和hh途径的推断活性的组合)分开三个患者组。高风险患者和低风险患者的存活曲线之间的差异是明显显著的(对数秩检验:p=2.9e-12)。

图15显示e-mtab-365、gse20685和gse21653的乳腺癌患者的无疾病存活的kaplan-meier图。基于mpstweh风险评分的三分位数(其是tgf-β途径、wnt途径、er途径和hh途径的推断活性的组合)分开三个患者组。高风险患者和低风险患者的存活曲线之间的差异是明显显著的(对数秩检验:p=6.6e-9)。

图16显示e-mtab-365、gse20685和gse21653的乳腺癌患者的无疾病存活的kaplan-meier图。基于mpstpweh风险评分的三分位数(其是tgf-β途径、pi3k途径、wnt途径、er途径和hh途径的推断活性的组合)分开三个患者组。高风险患者和低风险患者的存活曲线之间的差异是明显显著的(对数秩检验:p=8.6e-12)。

图17显示e-mtab-365、gse20685和gse21653的乳腺癌患者的无疾病存活的kaplan-meier图。基于mps探针组风险评分的三分位数(其是与tgf-β途径、pi3k途径、wnt途径、er途径和hh途径的所选靶基因相关的探针组的组合)分开三个患者组。高风险患者和低风险患者的存活曲线之间的差异是明显显著的(对数秩检验:p=1.3e-7)。

图18显示使用未标定的mpstpweh作为实例,在五年(低,虚线)和十年(上,实线)的无疾病存活的可能性。

图19示意性显示配置为测定如本文所公开的表明受试者在确定时间段内将经历临床事件的风险的风险评分的临床决策支持(cds)系统。

图20显示示例性说明用于基于pi3k途径和另外的细胞信号传导途径的靶基因的表达水平的测量来测定风险评分的过程的流程图。

图21显示示例性说明用于用存活数据校准多途径评分(mps)模型的过程的流程图。

图22显示示例性说明用于从校准的多途径评分(mps)模型计算风险评分的过程的流程图。

图23显示示例性说明用于从细胞信号传导途径的靶基因的rt-qpcr分析测定cq值的过程的流程图。

图24a显示1294个乳腺癌样品中的活性(p>0.5)途径的分布。活性途径之和超过患者的总数,因为它们可以具有在其样品中发现有活性的多个途径。

图24b显示1294个乳腺癌样品中的边缘活性(p>0.2)途径的分布。活性途径之和超过患者的总数,因为它们可以具有在其样品中发现有活性的多个途径。

图25a显示根据途径活性分开的1169例乳腺癌患者的无复发存活的kaplan-meier图。

图25b显示根据mps的较高(圆形)和较低(正方形)三分位数分开的1169例乳腺癌患者的无复发存活的kaplan-meier图。

图26显示par的p-值是双侧的1169例患者的无复发存活的单因素和多变量cox回归。

图27显示具有至少两种活性途径的1294例(13%)乳腺癌患者样品中的167例中的活性途径的组合的流行频率。

图28a显示途径活性相对于根据管腔a亚型的pam50算法的内在亚型的乳腺癌亚型的分布。

图28b显示途径活性相对于根据pam50算法的内在亚型的乳腺癌亚型的分布的kaplin-meier图;以及根据管腔a亚型的亚型内的mps评分的最低(正方形)和最高(圆形)三分位数的相关无复发存活;使用对数秩统计来计算所示p-值。

图28c显示途径活性相对于根据管腔b亚型的pam50算法的内在亚型的乳腺癌亚型的分布。

图28d显示途径活性相对于根据pam50算法的内在亚型的乳腺癌亚型的分布的kaplan-meier图;以及根据管腔b亚型的亚型内的mps评分的最低(正方形)和最高(圆形)三分位数的相关无复发存活;使用对数秩统计来计算所示p-值。

图28e显示途径活性相对于根据her2富集亚型的pam50算法的内在亚型的乳腺癌亚型的分布。

图28f显示途径活性相对于根据pam50算法的内在亚型的乳腺癌亚型的分布的kaplan-meier图;以及根据her2富集亚型的亚型内的mps评分的最低(正方形)和最高(圆形)三分位数的相关无复发存活;使用对数秩统计来计算所示p-值。

图28g显示途径活性相对于根据基底亚型的pam50算法的内在亚型的乳腺癌亚型的分布。

图28h显示途径活性相对于根据pam50算法的内在亚型的乳腺癌亚型的分布的kaplan-meier图;以及根据基底亚型的亚型内的mps评分的最低(正方形)和最高(圆形)三分位数的相关无复发存活;使用对数秩统计来计算所示p-值。

图28i显示途径活性相对于根据正常样亚型的pam50算法的内在亚型的乳腺癌亚型的分布。

图28j显示途径活性相对于根据pam50算法的内在亚型的乳腺癌亚型的分布的kaplan-meier图;以及根据正常样亚型的亚型内的mps评分的最低(正方形)和最高(圆形)三分位数的相关无复发存活;使用对数秩统计来计算所示p-值。

图29a显示mps与21-基因复发评分(rs)的比较。对于测试集合的1005例患者,如所述计算rs、mps和组合评分。5年内作为mps(三角形)、21-基因rs(正方形)和组合评分(圆形)的函数的疾病复发率。

图29b显示mps与21-基因复发评分(rs)的比较。对于测试集合的1005例患者,如所述计算rs、mps和组合评分。10年内作为mps(三角形)、21-基因rs(正方形)和组合评分(圆形)的函数的疾病复发率。

图29c显示mps与21-基因复发评分(rs)的比较。对于测试集合的1005例患者,如所述计算rs、mps和组合评分。显示5年对应于图29a的mps、21-基因复发评分(rs)和组合评分的分布。

图29d显示mps与21-基因复发评分(rs)的比较。对于测试集合的1005例患者,如所述计算rs、mps和组合评分。显示10年对应于图29b的mps、21-基因复发评分(rs)和组合评分的分布。

图29e显示mps与21-基因复发评分(rs)的比较。对于测试集合的1005例患者,如所述计算rs、mps和组合评分。5年内疾病复发的roc曲线(*:p<0.05,**:p<0.01,****:p<0.0001)显示mps和rs是相当的,但两种函数的组合评分是统计学上更精确的。

图29f显示mps与21-基因复发评分(rs)的比较。对于测试集合的1005例患者,如所述计算rs、mps和组合评分。10年内疾病复发的roc曲线(*:p<0.05,**:p<0.01,****:p<0.0001)显示mps在统计学上比rs更精确。

图30显示使用用精浆或5ng/mltgf-β3(gse35830)刺激的子宫颈阴道部上皮细胞(ect1)的“11-靶基因列表”的训练的贝叶斯网络模型的tgf-β细胞信号传导途径活性预测。(图注:1-对照,无tgf-β;2-用10%精浆刺激;3-用5ng/mltgf-β3刺激)

图31显示使用用精浆或5ng/mltgf-β3(gse35830)刺激的子宫颈阴道部上皮细胞(ect1)的“11-靶基因+serpine1列表”的训练的贝叶斯网络模型的tgf-β细胞信号传导途径活性预测。(图注:1-对照,无tgf-β;2-用10%精浆刺激;3-用5ng/mltgf-β3刺激)

图32显示使用用或不用10ng/mltnf和2ng/mltgf-β(gse42373)刺激的a549肺腺癌细胞系的2d和3d培养物中的“11-靶基因列表”的训练的贝叶斯网络模型的tgf-β细胞信号传导途径活性预测。(图注:1-2d对照,2-2dtgf-β和tnfα,3-3d对照,4-3dtgf-β和tnfα)

图33显示使用用或不用10ng/mltnf和2ng/mltgf-β(gse42373)刺激的a549肺腺癌细胞系的2d和3d培养物中的“11-靶基因+serpine1列表”的训练的贝叶斯网络模型的tgf-β细胞信号传导途径活性预测。(图注:1-2d对照,2-2dtgf-β和tnfα,3-3d对照,4-3dtgf-β和tnfα)

图34显示使用神经胶质瘤患者和来自gse16011的一些对照样品上的“11-靶基因列表”的训练的贝叶斯网络模型的tgf-β细胞信号传导途径活性预测。(图:1-星形细胞瘤(ii级);2-星形细胞瘤(iii级);3-对照;4-多形性成胶质细胞瘤(iv级);5-少突-星形细胞瘤(ii级);6-少突-星形细胞瘤(iii级);7-少突-胶质细胞瘤(ii级);8-少突-胶质细胞瘤(iii级);9-毛细胞性星形细胞瘤(i级))

图35显示使用神经胶质瘤患者和来自gse16011的一些对照样品上的“11-靶基因+serpine1列表”的训练的贝叶斯网络模型的tgf-β细胞信号传导途径活性预测。(图:1-星形细胞瘤(ii级);2-星形细胞瘤(iii级);3-对照;4-多形性成胶质细胞瘤(iv级);5-少突-星形细胞瘤(ii级);6-少突-星形细胞瘤(iii级);7-少突-胶质细胞瘤(ii级);8-少突-胶质细胞瘤(iii级);9-毛细胞性星形细胞瘤(i级))

实施方案的详述

以下实施例仅仅说明具体优选的方法和与其相关的所选方面。其中提供的教导可用于构建几种测试和/或试剂盒。以下实施例不应解释为限制本发明的范围。

实施例1:推断两个或更多个细胞信号传导途径的活性

如公开的国际专利申请wo2013/011479a2(“assessmentofcellularsignalingpathwayactivityusingprobabilisticmodelingoftargetgeneexpression”)中所详述,通过构建概率模型,例如,贝叶斯模型,且引入许多不同靶基因的表达水平和细胞信号传导途径的活性之间的条件概率关系,此模型可以用于以高精确度测定细胞信号传导途径的活性。此外,通过调节条件概率和/或向模型中添加新的节点来代表额外的信息源,可以容易地升级概率模型来并入通过后期临床研究获得的额外知识。以这种方式,可以适当地升级概率模型来包括最近的医学知识。

当使用该方法时,wnt靶基因、er靶基因和hh靶基因优选根据wo2013/011479a2的部分“example3:selectionoftargetgenes”和“example4:comparisonofevidencecuratedlistandbroadliteraturelist”中所述的方法进行选择,并且概率模型优选根据wo2013/011479a2的“example5:trainingandusingthebayesiannetwork”中所述的方法进行训练。用于测定wnt途径、er途径和ar途径的活性的靶基因的合适选择在所附权利要求中定义。

在公开的国际专利申请wo2014/102668a2(“assessmentofcellularsignalingpathwayactivityusinglinearcombination(s)oftargetgeneexpressions”)中所详述的另一个容易理解和解释的方法中,特定细胞信号传导途径的活性通过构建数学模型(例如,线性或(假-)线性模型)来测定,所述模型引入细胞信号传导途径的一种或多种靶基因的表达水平和转录因子(tf)元件(控制细胞信号传导途径的一种或多种靶基因的转录的tf元件)的活性水平之间的关系,所述模型基于一种或多种靶基因的表达水平的一种或多种线性组合。

当使用该方法时,wnt靶基因、er靶基因和hh靶基因优选根据wo2014/102668a2的部分“example2:selectionoftargetgenes”和“example3:comparisonofevidencecuratedlistandbroadliteraturelist”中所述的方法进行选择,并且数学模型优选根据wo2014/102668a2的“example4:trainingandusingthemathematicalmodel”中所述的方法进行训练。所附权利要求中定义的靶基因的选择也可用于用这后面方法测定wnt途径、er途径和hh途径的活性。

关于两种不同方法,一种或多种靶基因的表达水平可以优选是mrna水平的测量,其可以是例如使用与靶基因的mrna序列相关的探针的(rt)-pcr和微阵列技术的结果和rna测序的结果。在另一个实施方案中,一种或多种靶基因的表达水平可以通过蛋白水平,例如由靶基因编码的蛋白的浓度进行测量。

上述表达水平可以任选以可能或不可能更适合应用的许多方式进行转换。例如,表达水平的四种不同转化,例如,基于微阵列的mrna水平,可以是:

-“连续数据”,即如使用众所周知的算法诸如mas5.0和frma在微阵列预处理之后获得的表达水平,

-“z评分”,即连续表达水平这样换算,使得跨越所有样品的平均值为0并且标准偏差为1,

-“离散的”,即高于特定阈值的每一个表达设为1,并且低于特定阈值的每一个表达设为0(例如探针组的阈值可以选择为在许多阳性临床样品和相同数目的阴性临床样品的组中的其值的中值),

-“模糊的”,即使用下述形式的s型函数,将连续表达水平转换为0和1之间的值:1/(1+exp((threxpr)/se)),其中expr是连续表达水平,thr是如先前提及的阈值,并且se是影响0和1之间的差异的软化参数。

可以构建的最简单的模型之一是在第一层中具有代表转录因子(tf)元件的节点和在第二层中具有代表靶基因表达强度水平的直接测量(例如,通过例如在微阵列或(q)pcr实验中,与特定靶基因特别高度关联的一个探针组)的加权节点的模型。权重可以基于来自训练数据集的计算或基于专业知识。在其中每种靶基因可能测量多重表达水平的情况下(例如在微阵列实验的情况下,其中一种靶基因可以用多重探针组进行测量),使用仅一种表达水平/靶基因的该方法是特别简单的。选择用于特定靶基因的一种表达水平的一种特定方法是使用来自探针组的表达水平,所述探针组能够最佳分开训练数据集的活性的和消极样品。测定该探针组的一种方法是执行统计检验,例如t检验,并且选择具有最低p值的探针组。训练数据集的具有最低p值的探针的表达水平是通过限定探针具有(已知)活性的和消极样品的表达水平重叠的最不可能的概率。另一种选择方法是基于优势比(odds-ratios)。在此类模型中,对于一种或多种靶基因各自提供一种或多种表达水平,并且一种或多种线性组合包含对于一种或多种靶基因各自包括加权项的线性组合,每个加权项基于对于相应的靶基因提供的一种或多种表达水平的仅一种表达水平。如果如上所述每种靶基因选择仅一种表达水平,则该模型可以被称为“最具判别性的探针组”模型。

在“最具判别性的探针组”模型的替代方案中,在其中每种靶基因可能测量多重表达水平的情况下,能够利用每种靶基因提供的所有表达水平。在此类模型中,对于一种或多种靶基因各自提供一种或多种表达水平,并且其中一种或多种线性组合包含对于一种或多种靶基因提供的一种或多种表达水平的所有表达水平的线性组合。换言之,对于一种或多种靶基因各自,对于相应的靶基因提供的一种或多种表达水平各自可以在线性组合中通过其自身(个别)权重进行加权。该变体可以被称为“所有探针组”模型。它具有相对简单同时利用所有提供的表达水平的优点。

如上所述的两个模型的共同之处在于它们可以视为“单层”模型,其中tf元件的活性水平基于表达水平的线性组合进行计算。

在tf元件的活性水平已通过评估各自模型进行测定之后,测定的tf元件活性水平可以是有阈值的,以便推断细胞信号传导途径的活性。计算此类适当阈值的方法是通过比较已知具有消极途径的训练样品和具有活性途径的训练样品的测定的tf元件活性水平wlc。这样做且还考虑到这些组中的方差的方法通过使用阈值获得

其中σ和μ是训练样品的标准偏差和平均值。在仅少数样品在活性和/或消极训练样品中可获得的情况下,可以将假计数加入基于两组方差的平均值计算的方差中:

其中分别地,v是组的测定的tf元件活性水平wlc的方差,并且x是阳性假计数,例如1或10,且nactnpas是活性和消极样品的数目。标准偏差σ可以通过获得方差v的平方根来获得。

为了便于解释,阈值可以从tf元件wlc的测定活性水平中扣除,导致细胞信号传导途径的活性评分,使得负值对应于消极细胞信号传导途径,并且正值对应于活性细胞信号传导途径。

作为所述“单层”模型的替代方案,可以使用代表途径的活性信号传导的实验测定的“双层模型”。对于各靶基因,基于其相关探针组的测量强度,使用线性组合计算概括水平(“第一(底)层”)。计算的概括值随后与使用进一步线性组合的途径的其他靶基因的概括值组合(“第二(顶)层”)。权重可以由训练数据集学习或基于专业知识或其组合。换种说法,在“双层”模型中,对于一种或多种靶基因各自提供一种或多种表达水平,并且一种或多种线性组合对于一种或多种靶基因各自包含对于相应的靶基因提供的一种或多种表达水平的所有表达水平的第一线性组合(“第一(底)层”)。该模型进一步基于对于一种或多种靶基因各自包括加权项的进一步线性组合,各加权项基于对于相应的靶基因的第一线性组合(“第二(顶)层”)。

在优选形式的“双层”模型中,概括值的计算可以包括使用训练数据对于各靶基因限定阈值,并且从计算的线性组合中减除阈值,获得基因概括。此处,可以选择阈值,使得负基因概括水平对应于下调的靶基因,并且正基因概括水平对应于上调的靶基因。另外,基因概括值在它们合并到“第二(上层)”之前,使用例如上述转化(模糊、离散等)之一进行转化是可能的。

在tf元件的活性水平已通过评估“双层”模型进行测定之后,测定的tf元件活性水平可以是有阈值的,以便推断细胞信号传导途径的活性,如上所述。

在本文中,关于wo2014/102668a2的上述模型统称为“(假-)线性模型”。

尽管上述关于数学模型构建的描述也适用于推断tgf-β途径和pi3k途径的活性,但与wnt途径、er途径和hh途径相比,针对tgf-β途径和pi3k途径在一定程序上修改靶基因的选择和数学模型的训练和使用。因此,以下将更详细地描述这些步骤用于tgf-β途径。此后,将描述其用于pi3k途径:

(a)tgf-β途径

(i)靶基因的选择

转录因子(tf)是蛋白复合物(即,以特定结构结合在一起的蛋白的组合)或蛋白,其能够通过结合特定dna序列来调节来自靶基因的转录,由此控制从dna至mrna遗传信息的转录。由于tf复合物的这种作用直接产生的mrna在本文中称为(转录因子的)“直接的靶基因”。细胞信号传导途径活化还可以产生更多二级基因转录,称为“间接的靶基因”。在下文中,优选包含直接的靶基因或者由其组成的(假-)线性模型或贝叶斯网络模型(作为示例性数学模型)作为细胞信号传导途径活性和mrna水平之间的直接联系,然而直接和间接靶基因之间的区别并不总是明显的。本文中,呈现使用基于可获得的科学文献数据的评分函数选择直接靶基因的方法。尽管如此,由于有限的信息以及生物学变异和不确定性,不能排除间接的靶基因的意外选择。为了选择靶基因,采用在“www.ncbi.nlm.nih.gov/pubmed”可访问且本文中进一步被称为“pubmed”的美国国立卫生研究所的medline数据库生成所选靶基因的列表。

在2013年第四季度和2014年第一季度期间,通过使用查询诸如(“tgf-β”和“靶基因”)来搜索含有推定tgf-β靶基因的出版物。遵循下面更详细地描述的方法进一步手动分析所得出版物。

根据积累证据的科学实验的类型,通过使用其中对于特定靶基因的科学证据给予分级的排序系统,从科学文献中选择特定细胞信号传导途径mrna靶基因。尽管一些实验证据仅仅暗示基因为直接靶基因的基因,如例如在其中已知tgf-β细胞信号传导轴是有活性的细胞系的微阵列上如通过探针组的增加强度的方式所检测增加的mrna,但其他证据可以是非常有力的,如鉴定的细胞信号传导途径tf结合位点,和细胞中特定细胞信号传导途径的刺激后染色质免疫沉淀(chip)测定中该位点的取回,以及细胞系中细胞信号传导途径的特定刺激后mrna的增加的组合。

可以在科学文献中鉴定用于发现特定细胞信号传导途径靶基因的几种类型的实验:

1.chip实验,其中显示了目标细胞信号传导途径的tf与它在基因组上的结合位点的直接结合。实例:通过使用染色质免疫沉淀(chip)技术,随后将具有和不具有活性的tgf-β途径的诱导(例如,通过用tgf-β刺激)的细胞系的dna中的假定的功能性tgf-βtf结合位点鉴定为仅基于核苷酸序列识别的结合位点的亚组。将假定的功能性鉴定为来源于chip的证据,其证明发现tf结合dna结合位点。

2.电泳迁移率变化(emsa)测定,其显示了tf与含有结合序列的dna片段的体外结合。相比于基于chip的证据,基于emsa的证据更弱,因为它无法被翻译为体内情形。

3.细胞信号传导途径的刺激和使用微阵列、rna测序、定量pcr或其他技术测量mrna表达,使用细胞信号传导途径可诱导的细胞系并测量在存在放线菌酮的情况下诱导后至少一个、但优选几个时间点测量的mrna概况。所述放线菌酮抑制翻译为蛋白,因此假定诱导的mrna是直接的靶基因。

4.与3类似,但更下游地,用蛋白丰度测量法,诸如western印迹可替代地测量mrna表达。

5.使用生物信息学方法鉴定基因组中的tf结合位点。对于tgf-βtf元件的实例:使用smad结合基序5'-agac-3',在人基因组序列上运行软件方法,并鉴定基因启动子区中和其他基因组区中潜在的结合位点。

6.与3类似,仅仅不存在放线菌酮。

7.与4类似,仅仅不存在放线菌酮。

以最简单的形式,技术人员可以对这些实验方法的各自给予每一种潜在的基因1分,其中所述基因鉴定为转录因子的tgf-β家族的靶基因。使用该相对排序策略,技术人员可以形成最可靠的靶基因的列表。

可替代地,可以使用以另一种方式的排序来鉴定最可能是直接的靶基因的靶基因,通过给予提供体内直接靶基因最多证据的技术更高分数。在上文的列表中,这将表示对实验方法1)为8分,对2)为7分,并且降低至对实验方法8为1分。此类列表可以被称为“靶基因的一般列表”。

尽管存在生物学变异和不确定性,但本发明人假定直接的靶基因最可能以组织不依赖的形式来诱导。这些靶基因的列表可被称为“证据组织的靶基因的列表”。已经使用此类证据组织的靶基因的列表来构建tgf-β途径的计算模型,其可以应用于来自不同组织来源的样品。

以下将示例说明如何针对tgf-β途径具体构建证据组织(evidencecurated)的靶基因列表的选择。

引入评分函数,其对于出版物中报道的每种类型的实验证据(诸如chip、emsa、差异表达、敲低/敲除、荧光素酶基因报道测定、序列分析)给出分。相同的实验证据有时在多个出版物中提到,其产生相应分数,例如,两个出版物提到chip发现导致针对单一chip发现的两倍的评分。进行进一步分析以仅允许具有不同类型的实验证据、而不仅仅一种类型的实验证据(例如,差异表达)的基因。选择多于一种类型的实验证据可得的那些基因(如表1中所示)。

本发明人进行靶基因的证据组织的列表的进一步选择(列于表1中)。选择证明在从训练样品测定tgf-β途径的活性中更有证明力的证据组织的列表的靶基因。本文中,选择用5ng/mltgf-β刺激4小时的来自gse17708的样品作为有活性的或促肿瘤tgf-β活性的,而选择未刺激的样品作为消极或肿瘤抑制tgf-β样品用于训练,或者技术人员可以使用用tgf-β刺激和去除tgf-β的原代细胞或其他细胞系的患者样品,例如gse6653、gse42373和gse18670。对于“20种靶基因短列表”,选择负调节靶基因的大于2或小于0.5的活性和消极训练样品之间具有“软”优势比的所有靶基因。对于“12种靶基因短列表”,选择被发现具有大于10或小于0.1的“软”优势比的靶基因。“7种靶基因短列表”由发现具有大于15或小于1/15的“软”优势比的靶基因组成。20种靶基因短列表、12种靶基因短列表和7种靶基因短列表分别显示于表2至4中。

表1:贝叶斯网络模型中使用的tgf-β途径的“靶基因的证据组织的列表”和用于测量靶基因的mrna表达水平的相关探针组。

表2:基于靶基因的证据组织的列表的tgf-β靶基因的“20种靶基因短列表”。

表3:基于靶基因的证据组织的列表的tgf-β靶基因的“12种靶基因短列表”。

表4:基于靶基因的证据组织的列表的tgf-β靶基因的“7种靶基因短列表”。

在2015年1月进行tgf-β的可得文献证据的修订,其还包括直至2015年1月19日的所有新科学论文。类似地,使用在“www.ncbi.nlm.nih.gov/pubmed”可访问的美国国立卫生研究所的medline数据库使用查询诸如(“tgf-β”和“靶基因”)发现出版物。在使用上述实施例2中所述的方法手动评估作为tgf-β的推定靶基因的许多目标基因的实验证据的科学论文后,发现了在2013年第四季度和2014年第一季度期间在初始评估中未被利用的许多推定的tgf-β靶基因。重新评估所有可用的实验证据,并且基于推定靶基因的可用实验证据的强度使用本实施例中所述的方法来制备推定靶基因的新排序。这导致一种额外的推定tgf-β靶基因serpine1,达到高于设定阈值的实验证据评分。因此,serpine1被认为是tgf-β途径的真正的直接靶基因,并针对改进的tgf-β途径活性水平计算进行测试。

使用基于11个最高排序的靶基因的两个贝叶斯网络:angptl4、cdc42ep3、cdkn1a、ctgf、gadd45b、id1、junb、skil、smad7、snai2和vegfa,加或减使用如本文所述的相同数据和方法训练的新选择的serpine1,分别产生“11-靶基因+serpine1列表”(参见表5)和“11-靶基因列表”(参见表6)模型。

表5:tgf-β靶基因的“11-靶基因+serpine1列表”(或“修订的12种靶基因短列表”)。

表6:tgf-β靶基因的“11-靶基因列表”。

基于额外包括serpine1基因,tgf-β的靶基因列表可以修订至额外非限制性实施方案中,如表7和8中所述。

表7:tgf-β靶基因的“修订的20种靶基因列表”。

表8:tgf-β靶基因的“修订的7种靶基因列表”。

预期在途径活性水平的数学推断中包括多于一种靶基因对途径活性水平的预测具有很小影响,预期其精密地标定途径活性水平。然而,确定除了这种预期效果之外,在几个实例中还存在显著不同的途径活性水平,其仅可以通过serpine1对途径活性推断具有意想不到的有利影响来解释。

图30和31显示使用两种模型在用精浆或5ng/mltgf-β3刺激或不刺激的来自gse35830的ect1细胞系中预测tgf-β细胞信号传导途径活性。清楚可见的是,包括serpine1作为额外的靶基因,改善了模型以较高精确度检测消极样品的能力。此外,用精浆刺激的第二组和用tgf-β3刺激的第三组的模型预测是更精确的,因为它们预测tgf-β细胞信号传导途径的较高活性。

在用或不用tnf和tgf-β刺激的2d和3d培养物中生长的a549肺腺癌细胞系样品中发现改善的tgf-β细胞信号传导途径活性预测的第二个实例。使用“11-靶基因列表”贝叶斯网络模型和“11-靶基因+serpine1”贝叶斯网络模型的模型预测显示于图32和33中。仅在有刺激的3d培养模型中有效地诱导emt(组4)。与“11-靶基因列表”模型相比,在“11-靶基因+serpine1列表”模型中,以更高精确度诊断emt的这种诱导,在考虑组3和4之间的相对差异的情况下也是如此。

第三个实例是在胶质瘤患者和来自gse16011的一些对照样品中使用两种模型的tgf-β细胞信号传导活性预测。从文献中已知tgf-β信号传导在胶质瘤中起重要作用(参见b.kaminska等人,“tgfbetasignalinganditsroleingliomapathogenesis”,advancesinexperimentalmedicineandbiology,vol.986,2013,第171至187页)。与“11-靶基因列表”贝叶斯网络相比,基于tgf-β靶基因的“11-靶基因+serpine1列表”的贝叶斯网络改善了消极样品与活性样品的分离。另外,预期较高比例的患者具有更符合科学共识的活性tgf-β细胞信号传导途径(参见例如kaminska等人)。此外,预期正常脑样品具有较高概率的消极tgf-β细胞信号传导途径,这与预期tgf-β细胞信号传导途径处于其肿瘤抑制作用或消极作用的事实相一致。

通过使用基于tgf-β靶基因的“11-靶基因+serpine1列表”和靶基因的“11-靶基因列表”的贝叶斯网络模型比较来自gse16011的284例胶质瘤患者的cox回归分析的结果显示表明通过将serpine1包括在数学途径模型中而改善的tgf-β细胞信号传导途径活性预测的最后一个实例。如图34和35中所示,在使用tgf-β靶基因的“11-靶基因+serpine1列表”的情况下,tgf-β细胞信号传导途径活性的概率的风险比显著较高:2.57,p=7.87e-10vs2.33,p=3.06e-7。

(ii)训练和使用数学途径模型

数学途径模型可用于推断受试者中细胞信号传导途径(本文中,tgf-β途径)的活性之前,必须适当训练该模型。

如果所述数学途径模型是概率模型,例如,贝叶斯网络模型,其基于将tgf-βtf元件和受试者的样品中测量的tgf-β途径的三种或更多种靶基因的表达水平关联的条件概率,所述训练可优选如公开的国际专利申请wo2013/011479a2(“assessmentofcellularsignalingpathwayactivityusingprobabilisticmodelingoftargetgeneexpression”)中详细描述进行。

如果所述数学途径模型基于受试者的样品中测量的tgf-β途径的三种或更多种靶基因的表达水平的一种或多种线性组合,所述训练可优选如公开的国际专利申请wo2014/102668a2(“assessmentofcellularsignalingpathwayactivityusinglinearcombination(s)oftargetgeneexpressions”)中详细描述进行。

本文中,如图2中所示的示例性贝叶斯网络模型用于以简单的方式对tgf-β途径的转录程序建模。所述模型由三种类型的节点组成:(a)第一层1中的转录因子(tf)元件(状态为“不存在”和“存在”);(b)第二层2中的靶基因tg1、tg2、tgn(状态为“下”和“上”)和;(c)第三层3中与靶基因的表达水平连接的测量节点。这些可以是微阵列探针组ps1,1、ps1,2、ps1,3、ps2,1、psn,1、psn,m(状态为“低”和“高”),如本文优选使用,但也可以是其他基因表达测量,诸如rnaseq或rt-qpcr。

数学途径模型(本文中,示例性贝叶斯网络模型)的合适实施基于微阵列数据。该模型描述(i)靶基因的表达水平如何取决于tf元件的活化,和(ii)探针组强度进而如何取决于相应靶基因的表达水平。对于后者,探针组强度可以取自frma加工前的affymetrixhg-u133plus2.0微阵列,这广泛地可得自geneexpressionomnibus(geo,www.ncbi.nlm.nih.gov/geo)和arrayexpress(www.ebi.ac.uk/arrayexpress)。

由于示例性贝叶斯网络模型是细胞信号传导途径(本文中,tgf-β途径)的生物学的简化,且由于生物学测量通常有噪音,选择概率方法,即,以概率术语描述(i)tf元件和靶基因和(ii)靶基因和它们各自的探针组之间的关系。此外,假设驱动肿瘤生长的致癌细胞信号传导途径的活性没有瞬时和动态改变,但长期或甚至不可逆改变。因此,开发示例性贝叶斯网络模型用于解释静态细胞状态。由于该原因,没有将复杂动态细胞信号传导途径特征并入模型。

一旦建立和校准示例性贝叶斯网络模型(参见下文),该模型可以通过输入探针组测量值作为第三层3中的观察值且在模型中回推对于tf元件“存在”必须是何种概率而用于新样品的微阵列数据上。此处,“存在”被认为是tf元件结合至dna且控制细胞信号传导途径的靶基因的转录的现象,且“不存在”被认为是tf元件不控制转录的情况。该可能性因此是可用于表明细胞信号传导途径(本文中,tgf-β途径)的活性的初始读出值,其接下来可以通过取其有活性相比于其消极的概率的比率而转化为细胞信号传导途径有活性的几率(即,几率以p/(1-p)给出,其中p是细胞信号传导途径有活性的预测概率)。

在示例性贝叶斯网络模型中,已经使概率关系为定量的,以允许定量概率推理。为了改善组织类型间的归纳行为,已经小心精选描述(i)tf元件和靶基因之间的概率关系的参数。如果tf元件为“不存在”,最可能靶基因是“下”,因此对此选择0.95的概率,并且对为“上”的靶基因选择0.05的概率。后者(非零)概率解释靶基因受其他因子调节或其意外地观察为“上”(例如由于测量噪音)的(罕见)概率。如果tf元件“存在”,则靶基因以0.70的概率被认为“上”,并且靶基因以0.30的概率被认为“下”。以这种方式选择后者值,因为可以存在即使tf元件存在靶基因也并未高度表达(例如因为基因启动子区被甲基化)的几种原因。在靶基因并未由tf元件上调但却下调的情况下,以相似的方式选择概率,但反映存在tf元件的情况下的下调。已经对实验数据校准描述(ii)靶基因和它们各自的探针组之间的关系的参数。对于后者,在本实施例中,使用来自已知具有tgf-β途径的患者样品的微阵列数据,而来自相同数据集的正常、健康用作消极tgf-β途径样品,但这也可以使用细胞系实验或具有已知的细胞信号传导途径活性状态的患者样品来进行。通过以下给出所得条件概率表:

a:对于上调的靶基因

b:对于下调的靶基因

在这些表中,变量ali,jahi,jpli,jphi,j表示具有“不存在”(a)或“存在”(p)转录复合物的校准样品的数量,其分别具有“低”(l)或“高”(h)探针组强度。已添加虚拟计数以避免0和1的极端概率。

为了离散观察到的探针组强度,对于每个探针组psi,j,使用阈值ti,j,低于所述阈值,观察值被称为“低”,并且高于所述阈值,观察值被称为“高”。该阈值已被选择为使用的校准数据集中探针组的(加权)中值强度。由于微阵列数据的噪声,通过假设在报告的强度周围标准偏差为0.25(在log2标度上)的正态分布,并且测定低于和高于阈值的概率质量,当比较观察到的探针组强度与其阈值时,使用模糊方法。

如果采用如上文所述的(假-)线性模型而非上述示例性贝叶斯网络,则在可以使用该模型推断测试样品中的细胞信号传导途径活性之前,需要测定表明结点和调用结点“不存在”或“存在”的阈值之间关联的符号和量级的权重。可以使用专业知识先验地填充权重和阈值,但通常模型使用其中优选地基础事实是已知的训练样品的代表性组进行训练,例如具有已知“存在”转录因子复合物(=活性细胞信号传导途径)或“不存在”转录因子复合物(=消极细胞信号传导途径)的样品中探针组的表达数据。

本领域已知考虑模型拓扑学且改变模型参数(此处权重和阈值)的训练算法(例如回归)的量级,使得模型输出(此处加权的线性评分)得到优化。可替代地,其也可以用于直接由观察到的表达水平计算权重,而无需优化算法。

在此处被称为“黑和白”方法的第一种方法归结为三元系统,其中每个权重是集合{-1,0,1}的元件。如果将这放入生物学背景下,则-1和1对应于在细胞信号传导途径活性的情况下分别下调和上调的靶基因或探针组。在探针组或靶基因不能统计上证明为上调或下调的情况下,它收到0的权重。在一个实例中,可以使用活性细胞信号传导途径样品的表达水平相比于具有消极细胞信号传导途径的样品的表达水平的左侧和右侧,两样品t检验,以测定探针或基因是上调还是下调,这考虑到使用的训练数据。在其中活性样品的平均值统计上大于消极样品(即p值低于一定阈值,例如0.3)的情况下,靶基因或探针组被确定为上调的。相反,在其中活性样品的平均值统计上低于消极样品的情况下,靶基因或探针组被确定为在细胞信号传导途径活化后是下调的。在最低p值(左侧或右侧)超过上述阈值的情况下,靶基因或探针组的权重可以被定义为0。

本文中被称为“优势比”权重的第二种方法基于优势比的算法(例如基础e)。基于探针组/靶基因水平高于和低于相应阈值(例如所有训练样品的(加权)中值)的阳性和阴性训练样品数目,计算关于每种靶基因或探针组的优势比。可以加入假计数,以避免除以零。进一步的精化是通过下述以略微更随机的方式计数高于/低于阈值的样品:假定探针组/靶基因水平例如以某一指定的标准偏差(例如在2-log尺度上0.25)在其观察值周围正态分布,并且计数高于和低于阈值的概率质量。在本文中,与假计数组合且使用概率质量而不是确定性测量值计算的优势比被称为“软”优势比。

关于使用靶基因表达的数学模型推断细胞信号传导途径活性的进一步细节可以见于verhaeghw.等人,“selectionofpersonalizedpatienttherapythroughtheuseofknowledge-basedcomputationalmodelsthatidentifytumor-drivingsignaltransductionpathways”,cancerresearch,vol.74,no.11,2014,第2936至2945页。

本文中,用5ng/mltgf-β处理的人a549肺腺癌细胞系样品(导致tgf-β途径的肿瘤促进活性(从现在起称为tgf-β活性))和没有tgf-β刺激的对照实验(导致tgf-β途径的肿瘤抑制活性(从现在起称为tgf-β消极))的表达数据用于校准。这些微阵列可以从基因表达集(geo,www.ncbi.nlm.nih.gov/geo/,最后在2014年3月5日登录)在gse17708下公开获得。基于观察到的所选基因相比于被选择为消极或肿瘤抑制tgf-β样品用于训练的未刺激样品的倍数变化(参见表1),选择用5ng/mltgf-β刺激4小时的样品作为活性或肿瘤促进tgf-β细胞系的代表。或者,技术人员可以使用用tgf-β刺激或剥夺tgf-β的原代细胞或其他细胞系的患者样品,例如gse6653、gse42373和gse18670,和/或技术人员可以使用tgf-β靶基因短列表(参见表2至4)。

(b)pi3k途径

(i)靶基因的选择

在下文中,优选包含直接的靶基因或者由其组成的贝叶斯网络模型(作为示例性数学模型)作为细胞信号传导途径活性和mrna水平之间的直接联系,然而直接和间接靶基因之间的区别并不总是明显的。本文中,呈现使用基于可获得的科学文献数据的评分函数选择直接靶基因的方法。尽管如此,由于有限的信息以及生物学变异和不确定性,不能排除间接的靶基因的意外选择。为了选择靶基因,目前可用的科学文献的两个储库用于生成靶基因的两个列表。

基于在“www.ncbi.nlm.nih.gov/pubmed”可访问且本文中进一步被称为“pubmed”的美国国立卫生研究所的medline数据库的检索得到的科学文献生成靶基因的第一列表。通过在2013年的第一季度期间使用查询诸如(foxoand“靶基因”)搜索含有推测foxo靶基因的出版物。进一步遵循下面更详细描述的方法手动分析所得出版物。

根据积累证据的科学实验的类型,通过使用其中对于特定靶基因的科学证据给予等级的排序系统,从科学文献中选择特定细胞信号传导途径mrna靶基因。尽管一些实验证据仅仅暗示基因为靶基因,如例如在其中已知pi3k细胞信号传导轴是有活性的细胞系的微阵列上增加的mrna,但其他证据可以是非常有力的,如鉴定的细胞信号传导途径tf结合位点和细胞中特定细胞信号传导途径的刺激后染色质免疫沉淀(chip)测定中该位点的取回以及细胞系中细胞信号传导途径的特定刺激后mrna的增加的组合。

可以在科学文献中鉴定用于发现特定细胞信号传导途径靶基因的几种类型的实验:

1.chip实验,其中显示了细胞信号传导途径-tf与它在基因组上的结合位点的直接结合。实例:通过使用染色质免疫沉淀(chip)技术,随后将具有和不具有活性的pi3k途径的诱导的细胞系的dna中的假定的功能性foxotf转录因子结合位点鉴定为仅基于核苷酸序列识别的结合位点的亚组。将假定的功能性鉴定为来源于chip的证据,其证明发现tf结合dna结合位点。

2.电泳迁移率变化(emsa)测定,其显示了tf与含有结合序列的dna片段的体外结合。相比于基于chip的证据,基于emsa的证据更弱,因为它无法被翻译为体内情形。

3.细胞信号传导途径的刺激和测量微阵列上的mrna概况或使用rna测序,使用细胞信号传导途径可诱导的细胞系并测量在存在放线菌酮的情况下诱导后几个时间点测量的mrna概况。所述放线菌酮抑制翻译为蛋白,因此假定诱导的mrna是直接的靶基因。

4.与3类似,但使用定量pcr来测量mrna的量。

5.使用生物信息学方法鉴定基因组中的tf结合位点。对于foxotf元件的实例:使用保守的foxo结合基序5'-ttgtttac-3',在人基因组序列上运行软件方法,并鉴定基因启动子区和其他基因组区两者中潜在的结合位点。

6.与3类似,仅仅不存在放线菌酮。

7.与4类似,仅仅不存在放线菌酮。

8.特定组织或细胞样品的mrna表达概况,其中已知细胞信号传导途径是有活性的,但在不存在合适的阴性对照条件的情况下。

以最简单的形式,技术人员可以对其中鉴定目标mrna的这些实验方法的各自给予每一种潜在的目标mrna1分。

可替代地,能够递增给予分,表示一种技术1分,第二种技术加第二分,等等。使用该相对简单排序策略,技术人员可以形成最可靠的靶基因的列表。

可替代地,可以使用以另一种方式的排序来鉴定最可能是直接的靶基因的靶基因,通过给予提供体内直接靶基因最多证据的技术更高分数,在上文的列表中,这将表示对实验方法1)为8分,对2)为7分,并且降低至对实验方法8为1分。此类列表可以被称为“一般靶基因列表”。

尽管存在生物学变异和不确定性,但本发明人假定直接的靶基因最可能以组织不依赖的形式来诱导。这些靶基因的列表可被称为“靶基因的证据组织的列表”。已经使用此类靶基因的证据组织的列表来构建pi3k途径的计算模型,其可以应用于来自不同组织来源的样品。

以下将示例说明如何针对pi3k途径具体构建证据组织的(evidencecurated)靶基因列表的选择。

出于选择用作“模型”的输入的pi3k靶基因的目的,使用以下三种标准:

1.基因启动子/增强子区含有foxo结合基序:

a.应该证明foxo结合基序响应于pi3k途径的活性,例如通过其中特定foxo基序连接报道基因的瞬时转染测定的手段,和

b.foxo基序的存在应该通过例如基因启动子/增强子区的富含基序分析来证实。

2.通过例如chip/chip实验或另一染色质免疫沉淀技术证明foxo(差异地)体内结合到所讨论的基因的启动子/增强子区:

a.证实当pi3k途径没有活性时foxo结合到基因的启动子/增强子区,和

b.当pi3k途径有活性时,则(优选)不结合(或弱结合)到基因的基因启动子/增强子区。

3.例如通过以下证实当pi3k细胞信号传导途径的活性改变时,该基因差异转录,

a.通过实时pcr或微阵列实验的所讨论的基因的mrna的倍数富集,或

b.通过免疫沉淀测定证实rnapolii结合到基因的启动子区。

通过将这样的基因定义为pi3k靶基因来进行选择,对于所述基因集合了足够且充分记载的证明均符合上述所有三个标准的实验证据。收集pi3k差异结合证据的合适实验是比较例如当暴露于或不暴露于他莫西芬时,响应于他莫西芬而表达pi3k途径的活性的癌细胞系(例如,用他莫西芬可诱导的foxo构建体(诸如foxo.a3.er)转染的细胞系)中的chip/seq实验的结果。其同样适用于收集mrna转录的证据。

上文讨论了靶基因选择程序的一般方法和更具体的实例,其已用于基于使用上述方法发现的证据来选择许多靶基因。在对pi3k途径的贝叶斯网络模型中使用的靶基因列表显示于表9中。

表9:贝叶斯网络模型中使用的pi3k途径的靶基因的证据组织的列表和用于测量靶基因的mrna表达水平的相关探针组。

使用thomson-reuters的metacore(最后登录:2013年5月14日)中提供的科学出版物的手动组织的数据库生成靶基因的第二个列表。针对人foxo转录因子(即foxo1、foxo3a、foxo4和foxo6)的家族直接下游转录调节的基因查询数据库。该查询产生336种假定foxo靶基因,其如下进一步分析。首先删除只有一个支持出版物的所有假定foxo靶基因。接下来,引入评分函数,其对于出版物中报道的每种类型的实验证据(诸如chip、emsa、差异表达、敲低/敲除、荧光素酶基因报道测定、序列分析)给出分。相同的实验证据有时在多个出版物中提到,其产生相应分数,例如,两个出版物提到chip发现导致针对单一chip发现的两倍的评分。进行进一步分析以仅允许具有不同类型的实验证据、而不仅仅一种类型的实验证据(例如,差异表达)的基因。最后,针对所有推定foxo靶基因计算证据评分,并且选择具有6或更多的证据评分的所有推定foxo靶基因(表10中显示)。启发性地选择6的截止水平,因为先前显示约30种靶基因在很大程度上足以测定途径活性。

这些靶基因的列表可以被称为“靶基因的基于数据库的列表”。此类组织的靶基因列表已被用于构建计算模型,所述计算模型可以应用于来自不同的组织来源的样品。

表10:贝叶斯网络模型中使用的pi3k途径的“靶基因的基于数据库的列表”和用于测量靶基因的mrna表达水平的相关探针组。

基于上述两个列表(即,证据组织的列表(参见表9)和基于数据库的列表(参见表10))生成靶基因的第三个列表。三个标准已用于从这两个列表进一步选择基因。第一个标准与归因于靶基因的功能相关。归因于基因的功能可以在科学文献中找到,但经常可得于公共数据库,诸如nih的omim数据库(经由“http://www.ncbi.nlm.nih.gov/omim”可得)。在第三个列表中选择来自表9中的证据组织的列表和表10中的基于数据库的列表的靶基因,发现所述靶基因归因于参与对于癌症必不可少的过程,诸如细胞凋亡、细胞周期、抑制肿瘤/进展、dna修复、分化。最后,选择被发现在细胞系实验中具有高差异表达的靶基因,其与已知的低pi3k/高foxo活性相比具有已知的高pi3k/低foxo活性。本文中,第三个列表中包括在经多个样品平均的foxo转录的“开”和“关”状态之间具有20.5的最小表达差异(本文中:关于探针组水平)的靶基因。第三个标准专门目的在于选择最具判别性的靶基因。基于用具有已知高pi3k/低foxo活性的多个样品和具有已知低pi3k/高foxo活性的多个样品的细胞系实验中的表达水平,计算优势比(oddsratio,or)。本文中,在测量中使用中值作为截止值和代表不确定性的软边界计算每种探针的优势比。根据“软”优势比将来自证据组织的列表和基于数据库的列表的靶基因进行排序,且对于靶基因的第三个列表选择排序最高(or>2)和排序最低(or<1/2,即,阴性调节的靶基因)的靶基因。

考虑基因的功能、“有活性(on)”相比于“无活性(off)”信号传导的差异表达和更高的优势比,发现靶基因组(表11中显示),所述靶基因组被认为在测定pi3k信号传导途径的活性中更有证明性。靶基因的此类列表也可以被称为“靶基因短列表”。因此,根据本发明特别优选表11中报道的靶基因。尽管如此,鉴于用获取技术诸如微阵列可以获得大量组基因的表达水平的相对容易,考虑利用表11的靶基因的一些或全部,并且任选额外使用表9和表10的剩余靶基因的一个、两个、一些或全部。此外,如本实施例中上面对于tgf-β靶基因所述生成pi3k途径的“12种靶基因短列表”。

表11:基于靶基因的证据组织的列表和靶基因的基于数据库的列表的pi3k途径的“靶基因短列表”。

表12:基于靶基因的证据组织的列表的pi3k途径的“12种靶基因短列表”。

(ii)训练和使用数学途径模型

上述关于tgf-β途径的数学途径模型的训练和使用的描述也适用于pi3k途径的数学途径模型的训练和使用。

本文中,关于具有foxo构建体的稳定转染的huvec细胞系的表达的公开可得的数据用作训练pi3k途径模型的实例,所述foxo构建体在用4oht(得自geneexpressionomnibus的gse16573,2014年10月6日最后一次登录)刺激之后可诱导。用4oht刺激12小时的具有可诱导的foxo构建体的细胞系被认为是foxo活性样品(n=3),而消极foxo样品是具有所述构建体且无4oht刺激的细胞系(n=3)。

(c)wnt途径

wnt靶基因的选择以前描述于wo2013/011479a2和wo2014/102668a2中。如本实施例中上面对于pi3k靶基因所述使用wnt途径的“靶基因的证据组织的列表”(参见表13),以产生wnt途径的“靶基因短列表”(参见表14)和wnt靶基因的“12种靶基因短列表”(参见表15)。

表13:贝叶斯网络模型中使用的wnt途径的“靶基因的证据组织的列表”。

表14:基于靶基因的证据组织的列表的wnt途径的“靶基因短列表”。

表15:基于靶基因的证据组织的列表的wnt靶基因的“12种靶基因短列表”。

(d)er途径

请注意就本文中的wo2013/011479a2和wo2014/102668a2而言,er靶基因的排序次序略微改变,因为添加新的文献证据。以与wo2014/102668a2的实施例3中所述相似的方法,将er靶基因选择且排序。通过组合文献证据评分和每种基因区分模型内的活性和失活途径的个别能力,将基因排序。当用mcf7细胞系样品的训练集训练模型(所述样品耗尽雌激素且随后保持耗尽或暴露于1nm雌激素24小时(gse35428)),并且用训练集和两个其他训练集测试模型(在所述两个其他训练集中mcf7细胞耗尽雌激素且随后保持耗尽或暴露于10nm或25nm雌激素(分别为gse11352和gse8597))时,这种排序基于对于每种基因获得的加权假阳性和假阴性率的线性组合。

(注意到加权假阳性和假阴性的组合(代替优势比)用于解释各个集合中使用的不同实验条件。不同权重根据本发明人的置信度进行设置:假阳性(阴性)是模型而不是已对样品实施的不同实验条件的结果。例如,在所有实验中,在暴露于雌激素或进一步耗尽另外24小时之前,mcf7细胞系样品首先耗尽雌激素一段时间。更短的耗尽时间可以促使尽管雌激素耗尽,途径仍是有活性的,在这种情况下,假阳性具有比测试和训练样品两者均耗尽相同时间量时更少的权重。)。

基于另外的文献综述和如下文更详细讨论的活性和非活性样品之间的差异表达量级的检查,选择pdzk1作为er途径的直接靶基因。在使用本实施例中所述(对于pi3k)的类似方法手动评估推定er靶基因的实验证据的另外科学论文之后,鉴定了许多另外推定的er靶基因。

分析推定er靶基因中含有雌激素应答元件(ere)基序的基因启动子/增强子区的存在。应该证明ere基序响应雌激素,例如通过其中特定ere基序连接报道基因的瞬时转染测定的手段。ere基序的存在应该通过例如基因启动子/增强子区的富含基序分析来确定。此外,通过例如chip/chip实验或染色质免疫沉淀测定证实er(差异地)体内结合所讨论的基因的启动子/增强子区。例如,应当证实当er途径为有活性时er结合基因的启动子/增强子区,和例如,如果er途径没有活性,则不结合(或仅弱结合)基因的基因启动子/增强子区。最后,当er途径是有活性的时,该基因差异转录,例如通过以下证实:经实时pcr或微阵列实验的所讨论的基因的mrna的倍数富集,或经免疫沉淀测定证实rnapolii结合基因的启动子区。

通过确定这样的基因为er目标基因来完成选择,对于所述基因从文献集合了足够且充分记载的证明上述所有三个标准均达到的实验证据。收集er差异结合证据的合适实验是比较当暴露于或不暴露于雌激素时,响应雌激素的癌细胞系(例如mcf-7细胞系)中的chip/chip实验的结果。在评估所有另外科学论文后,所有推定靶基因的新排序都基于文献中发现的实验证据的强度。因此,er细胞信号传导途径的一个推定靶基因pdzk1实现了高于设定阈值的实验证据评分。因此,pdzk1被认为是er途径的真正的直接靶基因。

在er靶基因的初始选择中,仅考虑使用“软”优势比计算的区分活性vs.无活性样品的能力。在目前的分析中,差异表达的量级也包括在评估中。由于差异表达信号的量级作为良好设计的测定的重要特征接近于“软”优势比,所以预期这种新的选择方法是比初始标准的改进。通过将affymetrixhg1133plus2数据集(即gse35427、gse11352、gse21618、gse8597)和两个内部生成的数据集(包括用雌二醇(e2)刺激的多种乳腺癌细胞系或对照)的选择上的er活性(on)样品和er无活性(off)样品之间的平均基因表达的差异平均化来估计差异基因表达量级。对于与每个数据集的基因相关的每个affymetrix探针组,分别计算平均基因表达。平均考虑仅显著差异表达的探针组。pdzk1的用雌二醇刺激的样品(即er活性样品)和对照/未刺激样品(即er消极样品)之间的平均差异表达为2.08。该差异表达异常高(在所有上调基因的平均值为0.88),并且与具有最高差异表达的靶基因(例如,具有2.14的平均差异表达的pgr)相当。此外,pdzk1的“软”优势比(平均值26.6)也高于平均水平(19.03)。

在以下实例中,我们将初始13er靶基因列表(greb1、pgr、xbp1、ca12、sod1、ctsd、igfbp4、tff1、sgk3、nrip1、celsr2、wisp2和ap1b1)模型(以下称为短列表模型)与使用pdzk1和初始13er靶基因列表构建的新的14er靶基因模型(以下称为短列表+pdzk1模型)进行比较。两种贝叶斯网络模型以完全相同的方式进行训练(使用affymetrixhgu133plus2gse8597数据集),唯一差异是er靶基因的列表。

在实施例1中,计算er途径活性,其用于选择affymetrixhgu133plus2数据集,其例举典型的乳腺癌和正常乳腺组织样品(公共数据集gse12276、gse10870和gse21653),其含有256个er阳性乳腺癌样品、195个er阴性乳腺癌样品、27个正常乳腺组织样品和94个未知的er状态乳腺癌样品。尽管预期er途径在er阴性乳腺癌和正常乳腺中无活性,基于对激素治疗数据的反应,预期约50至70%的er阳性乳腺癌是有活性的。通过短列表模型(74%)和短列表+pdzk1模型(73%)预期有活性的er阳性乳腺癌样品的比例与er阳性癌症患者对激素治疗的反应的比例相当和类似。此外,通过短列表+pdzk1(平均log2优势比:2.73)列表模型计算的相对于所有er阳性样品的er活化的概率的平均值略高于通过短列表模型预测的平均活化概率(平均log2优势比:2.70,其中log2优势比标度的差异为0.03),使其对于此类样品是相当的。当分析er阴性乳腺癌和正常组织样品时,存在包括pdzk1的意想不到的有益技术效果:通过短列表+pdzk1列表模型计算的er活化概率的平均值(平均log2优势比:-7.3)显著低于通过短列表模型预测的平均活化概率(平均log2优势比:6.8,其中log2优势比标度的差异为0.5,wilcoxon秩检验双侧pv=0.02),使得在这种情况下短列表+pdzk1模型在技术上好于短模型。此外,这种改进超过了预测的途径活性的微小放大(所述微小放大在向模型中添加一种或多种靶基因的情况下是可以预期的),因此添加pdzk1赋予意想不到的有利的技术效果。

在实施例2中,对于公共affymetrixhgu133plus2数据集gse8597、gse35428、gse11352计算er途径活性,其例举其中雌激素敏感性乳腺细胞系(在这种情况下为mcf7)暴露于或被剥夺雌激素刺激的实验。众所周知,对雌激素的暴露活化mcf7细胞系中的er途径并且雌激素的剥夺在mcf7细胞系中关闭er途径。也在这种情况(两者对于mcf7细胞系暴露于雌激素的情况)下,短列表+pdzk1模型似乎在技术上优于短列表模型,其中通过短列表+pdkz1模型计算的预测活性(平均log2优势比:14.7)高于通过短列表模型计算的预测活性(平均log2优势比:14.0,log2优势比标度的差异为0.7)。通过短列表+pdkz1模型对于剥夺雌激素刺激的所有样品计算的预测活性(平均log2优势比:-7.7)低于通过短列表模型对于剥夺雌激素的27个样品中的85%计算的预测活性(平均log2优势比:-7.3,log2优势比标度的差异为0.4)。此外,这种改进超过了预测的途径活性的微小放大(所述微小放大在向模型中添加一种或多种靶基因的情况下是可以预期的),因此添加pdzk1赋予意想不到的有利的技术效果。

为了探索新基因在pcr测定中的作用,在以下实例中,我们将11er靶基因列表(greb1、pgr、xbp1、ca12、sod1、ctsd、igfbp4、tff1、sgk3、nrip1、celsr2、erbb2和esr1)模型(以下称为pcr列表模型)与使用pdzk1和上述11er靶基因列表构建的新的12er靶基因模型(以下称为pcr列表+pdzk1模型)进行比较。两种贝叶斯网络模型以完全相同的方式(使用由rt-qpcr产生的基因表达数据,来自mcf7细胞系中的内部雌激素剥夺/刺激实验)进行训练,唯一的差异是在pcr列表+pdzk1模型中添加pdzk1er靶基因。计算总共12个样品的er途径活性:6个剥夺雌激素,6个用雌激素刺激。此处,再次,对于暴露于雌激素的情况下,含有pdzk1的模型(pcr列表+pdzk1模型)似乎在技术上优于没有pdzk1的模型(pcr列表模型),其中通过pcr列表+pdkz1模型计算的预测活性(平均log2优势比:4.7)高于通过pcr列表模型计算的预测活性(平均log2优势比:3.9,log2优势比标度的差异为0.8)。通过pcr列表+pdkz1模型计算的雌激素剥夺样品的预测活性(平均log2优势比:-5.1)低于通过短列表模型计算的预测活性(平均log2优势比:-4.5,log2优势比标度的差异为0.6)。这种差异在使用少量“探针”来测量样品er靶基因概况的模型中非常重要,因为它们通常具有较少的辨别能力(注意低平均预测活性)。总之,这种改进超过了在向模型中添加一种或多种靶基因的情况下预测的途径活性的微小标度,因此添加pdzk1赋予意想不到的有利的技术效果。

如上所讨论,er靶基因的选择先前描述于wo2013/011479a2和wo2014/102668a2中。基于另外的文献综述和pdzk1靶基因的包括,如本实施例中上面对于pi3k靶基因所述使用hh途径的“靶基因的证据组织的列表”以生成er途径的“靶基因短列表”和er靶基因的“12靶基因短列表”。

表16:贝叶斯网络模型中使用的er途径的“靶基因的证据组织的列表”。

表17:基于靶基因的证据组织的列表的er途径的“靶基因短列表”。

表18:基于靶基因的证据组织的列表的er靶基因的“12种靶基因短列表”。

(e)hh途径

hh靶基因的选择以前描述于wo2013/011479a2和wo2014/102668a2中。如本实施例中上面对于pi3k靶基因所述使用hh途径的“靶基因的证据组织的列表”(参见表19),以产生hh途径的“靶基因短列表”(参见表20)和hh靶基因的“12种靶基因短列表”(参见表21)。

表19:贝叶斯网络模型中使用的hh途径的“靶基因的证据组织的列表”。

表20:基于靶基因的证据组织的列表的hh途径的“靶基因短列表”。

表21:基于靶基因的证据组织的列表的hh靶基因的“12种靶基因短列表”。

实施例2:测定风险评分

一般而言,可以设计许多不同公式用于测定指示受试者在确定时间段内将经历临床事件的风险并且基于受试者中的两个或更多个细胞信号传导途径的推断活性组合的风险评分,即:

mps=f(pi)+x,其中i=1...n,(3)

其中mps表示风险评分(术语“mps”在本文中用作“多途径评分”的缩写,以便表明风险评分受两个或更多个细胞信号传导途径的推断活性影响),pi表示细胞信号传导途径i的活性,n表示用于计算风险评分的细胞信号传导途径的总数目,并且x是可能进入方程内的可能的进一步因子和/或参数的占位符。此类公式可以更具体地是给定变量中的一定程度的多项式,或变量的线性组合。此类多项式中的加权系数和幂可以基于专家知识进行设置,但通常具有已知基本事实例如存活数据的训练数据集用于获得关于方程(3)的加权系数和幂的估计值。推断活性可以使用方程(3)进行组合,并且随后生成mps。接下来,优化评分函数的加权系数和幂,使得高mps与患者将经历临床事件的高概率关联,并且反之亦然。优化评分函数与存活数据的关联可以使用许多分析技术来完成,例如cox比例风险检验(如本文优选使用的)、对数轶检验、与标准优化技术诸如梯度下降或手动适应结合的kaplan-meier估计量,等等。

在他们的实验中,发明人发现没有理由预期细胞信号传导途径的活性与复发风险之间的幂律反应,因此可以简化方程(3):

其中w1,...,wn表示加权系数。

在本实施例中,临床事件是癌症,特别是乳腺癌,并且考虑tgf-β途径、pi3k途径、wnt途径、er途径、hh途径的推断活性,如本文以及公开的国际专利申请wo2013/011479a2(“assessmentofcellularsignalingpathwayactivityusingprobabilisticmodelingoftargetgeneexpression”),和/或公开的国际专利申请wo2014/102668a2(“assessmentofcellularsignalingpathwayactivityusinglinearcombination(s)oftargetgeneexpressions”)中详细讨论的。

本文优选使用的公式考虑到tgf-β途径,以及pi3k途径、wnt途径、er途径和hh途径中的一种或多种的活性。这些公式基于衍生自癌症生物学研究的本发明人的观察,以及发明人在可公开获得的数据集中发现的存活与tgf-β途径、pi3k途径、wnt途径、er途径和hh途径的活性之间的关联。早期发育途径如wnt途径和hh途径被认为在通过癌细胞引起的转移中起作用,所述癌细胞恢复为更加干细胞样表型,称为癌干细胞。事实上,发明人相信,关于早期发育途径诸如wnt途径在癌症转移中起作用可获得足够证据,允许转移癌细胞开始在接种位置中分裂为另一个器官或组织。转移与更差预后相关并代表癌症复发的形式,因此发明人预期在癌细胞中的早期发育途径诸如wnt途径和hh途径的活性预示更差预后。wnt途径和hh途径在癌症进展和转移中的推定作用基于临床前研究,并没有在受试者中显示,因为没有可用于测量其活性的方法。此外,发明人发现在公开可得的数据集中发现了足够的适应症,其显示作为存活的(相对)保护机制的er途径活性与tgf-β途径和pi3k途径的活性之间的相关性,其与较差预后相关。因此,发明人发现er途径的消极性和tgf-β途径和pi3k途径的活性与乳腺癌患者中的不良结果相关。

来自生物学研究和临床关联(即,tgf-β途径、pi3k途径、wnt途径和hh途径的活性可以在癌症复发和总体存活中起作用,以及er途径的活性看起来与良好临床结果有联系)这些本发明人观察结果,在本文中组合在下述优选公式中,其为方程(4)的特别情况:

其中ptpppwpeph分别表示tgf-β途径、pi3k途径、wnt途径、er途径和hh途径的推断活性(例如,在0和1之间的范围内),wt是正恒定加权系数,wpwwwh是非负恒定加权系数,且we是非正恒定加权系数。用该公式,受试者在确定时间段内将经历临床事件的所示风险随着总和的值增加而单调增加。

在以下实例中,发明人已示例性使用来自使用表1中所示的靶基因的证据组织的列表和如本文所讨论的训练的tgf-β途径、使用表11中所示的靶基因短列表和如本文所讨论的训练的pi3k途径、使用wo2013/011479a2的表1中所示的靶基因的证据组织的列表和如本文所讨论的训练的wnt途径、使用wo2013/011479a2的表2中所示的靶基因的证据组织的列表和如本文所讨论的训练的er途径和使用wo2013/011479a2的表3中所示的靶基因的证据组织的列表和如本文所讨论的训练的hh途径的贝叶斯网络的推断活性。或者,所述途径活性可以借助替代方法诸如使用如本文所讨论和wo2014/102668a2中更详细地描述的(假)线性模型来推断,或者可替代地本文示例性使用的靶基因列表可以通过从基于其证据性质(其被证明获得就推断的途径活性而言相当的结果)的证据组织的列表来进一步选择靶基因来替代。本文讨论了tgf-β途径(参见表2至4)和pi3k途径(参见表5和6)的替代途径,并在wo2013/011479a2中讨论了wnt途径(参见wo2013/011479a2的表6)、er途径(参见wo2013/011479a2的表7)和hh途径(参见wo2013/011479a2的表8)的替代途径。

本文中,我们描述了使用cox比例风险模型来推断加权系数wtwpwwwewh的适当值的优选方法。使用例如matlab,(matlabr2014a,themathworksinc.,natick,ma)或r(v3.0.3,rcoreteam(2014).r:alanguageandenvironmentforstatisticalcomputing.rfoundationforstatisticalcomputing,vienna,austria),将cox比例风险模型拟合至训练集合,所述训练集合由以下组成:具有推断活性ptpppwpeph以及存活数据(即,存活时间和审查信息)的适当数量(优选>100,优选代表不同癌症类型的子集)的样品。示例性地,可访问http://www.ncbi.nlm.nih.gov/geo/(2014年7月20日最后一次登录),来自源自guy医院的gse6532的公开可得的乳腺癌样品(n=87)和来自gse9195的样品(n=77)用作培训数据集。对于每种途径的活性,拟合cox比例风险回归模型,导致产生每途径活性的cox系数,其系数估计的相关标准误差(se),风险比(hr)(其为cox系数的指数),风险比的95%置信区间和由cox系数导出的p-值和标准误差,如表22中所见。系数估计的符号表明,途径活性在负系数的情况下对于临床事件是保护性的,还是在正系数的情况下预测较差的预后。系数的模数表明风险评分就预后而言的强度。

表22:组合训练集gse6532和gse9195的cox比例风险回归的结果。

发明人已经发现,如例如在表22中所示的对于训练数据集上的各细胞信号途径的活性拟合的cox系数是用作风险评分的线性加权系数的良好值。因此,这些cox系数优选地用作方程(5)中的加权系数。它们用于确定风险评分的适用性已经非常详细地评估,如下所述:

首先,将tgf-β途径的活性分别与pi3k途径、wnt途径、er途径和hh途径的活性组合,导致产生以下方程:

接下来,将tgf-β途径的活性与来自pi3k途径、wnt途径、er途径和hh途径的两种另外途径的活性组合,导致产生以下方程:

接下来,将tgf-β途径的活性与来自pi3k途径、wnt途径、er途径和hh途径的三种另外途径的活性组合,导致产生以下方程:

特别优选的是,cox系数用于参数化方程(5)中列出的tgf-β途径、pi3k途径、wnt途径、er途径和hh途径的活性的线性组合,其导致产生以下方程:

其中系数的标准误差列在括号之间。

可替代地,技术人员可以使用(假)线性模型来推断如本文所述和wo2014/102668a2(“assessmentofcellularsignalingpathwayactivityusinglinearcombination(s)oftargetgeneexpressions”)中更详述的途径活性,并且以与上面关于用概率模型推断的途径活性所讨论的类似方式使用这些推断活性。将这些途径活性的线性模型插入方程(6)至(20),在总和的扩展之后,最终进入线性组合,可以将其归纳至具有单个求和的方程中:

mps探针组wij·eij(21)

其中σ是所有j个途径(这里是tgf-β途径、pi3k途径、wnt途径、er途径和hh途径)的所有i个探针组合的总和,wij是与探针组相关的权重,分别对于“单层”和“双层”线性模型而言,其等于途径和探针组相关的权重的乘积或途径、靶基因和探针组相关的权重的乘积。在本文中,示例性选择第j个途径的第i个探针组的权重wij等于从训练数据集估计的cox系数,并且eij是第j个途径的第i个探针组。本领域技术人员将能够将该方程适用于其他测量平台,诸如(rt-q)pcr,测序,mrnafish和检测靶基因(而不是源自本文示例性使用的affymetrixhg-u133plus2.0的探针组)的表达水平的其他合适的方法。

接下来,对三个其他数据集的组合测试如本文所述的风险评分:gse20685和gse21653可得自在http://www.ncbi.nlm.nih.gov/geo/(2014年7月20日最后一次登录)可访问获得的基因表达集,而e-mtab-365可得自http://www.ebi.ac.uk/arrayexpress/experiments/(在2014年7月20日最后一次登录)可访问获得的arrayexpress。三个数据集组合了具有完整存活时间和检查数据的总共1005例乳腺癌患者的不同集合。根据方程(6)至(21)计算这些患者的风险评分,然后使用定量风险评分的预后价值的两种方法研究此类预后价值。然后使用使此类预后价值定量的两种方法研究风险评分的预后价值。这些是cox比例风险回归模型,以及与对数轶检验结合的kaplan-meier曲线:

第一种方法将cox比例风险模型与存活数据伴随一种或多种协变量拟合。总之,此类风险模型解释了基于协变量的(数)值,在群体内的存活(临床事件)中的变动。由于拟合,每个包括的协变量将指定风险比(hr)(其为cox系数的指数),其基于协变量的值定量临床事件的相关风险,例如hr二对应于伴随协变量值增加一的关于患者的目的临床事件两倍更高的风险。详细地,hr=1的值意指这种协变量对存活没有影响,而对于hr<1,协变量数目中的增加表明更低的风险,并且协变量数目中的减少表明更高的风险,并且对于hr>1,协变量数目中的增加表明更高的风险,并且协变量数目中的减少表明更低的风险。连同风险比一起,报道了95%置信区间和p值(即,风险比显著小于或大于一的单侧概率)。将所有风险评分定标,使得风险评分的标度(最小值至最大值)为一,以作出简单的风险比的直接比较。

后一种方法涉及绘制kaplan-meier曲线,其代表根据时间的临床事件存活概率。例如,通过基于示例性预后测试,对于群体中的不同风险组绘制kaplan-meier曲线,技术人员可以看到示例性临床事件风险的分开的质量。即,更分散的风险组表明风险评分在分层风险患者时更好。这种质量可以进一步借助于对数轶检验进行定量,所述对数轶检验计算两个存活曲线相等的概率(p值),其考虑完整随访期。

与单个推断活性ptpppwpeph(即分别tgf-β途径、pi3k途径、wnt途径、er途径和hh途径的推测活性),和如本文所述,pepwph和来自genomichealth的乳腺癌oncotypedx®测试的非线性组合相比,将如本文呈现的使用至少tgf-β途径以及wnt途径、er途径和hh途径中的一种或多种的风险评分的推断活性的风险评分的结果作为基准。如下计算pepwph的非线性组合:

mpsewh显示为乳腺癌中的良好的复发预测因子。其使用方程(22)计算,并且将患者使用如其中描述的mpsewh的阈值(即分别为-0.1和0.1)分层为低风险、中度风险和高风险患者。oncotypedx®测试显示为er阳性乳腺癌患者中复发的良好预测因子。oncotypedx®测试返回0至100的风险或复发评分(rs),其在此处在0和1之间标定用于直接比较风险比,其基于对于一组基因测量的表达水平组合进行计算(参见s.paik等人:“amulti-geneassaytopredictrecurrenceoftamoxifen-treated,node-negativebreastcancer”,thenewenglandjournalofmedicine,vol.351,no.27,2004,第2817至2826页;c.fan等人:“concordanceamonggene-expression-basedpredictorsforbreastcancer”,thenewenglandjournalofmedicine,vol.355,no.6,2006,第560至569页)。rs就er阳性、her2阴性(蛋白染色或fish)、淋巴结阴性乳腺癌患者中的10年存活而言进行优化。遵循通过fan等人(参见c.fan,等人(2006))报道的操作,使用在所述数据集中报道的微阵列表达数据计算rs,并且随后根据oncotypedx®风险分层算法,将患者分成低风险、中度风险和高风险患者(参见s.paik等人(2004))。

首先使用来自e-mtab365、gse20685和gse21653的乳腺癌患者,对标定的风险评分进行cox比例风险回归。计算的单变量cox系数、其标准误差、风险比、相关的95%置信区间和p-值显示于表23中。引人注目的是,组合tgf-β途径的活性与其他细胞信号传导途径之一的活性的所有风险评分表现好于单个途径活性,如cox系数的较高模数所示,其表明tgf-β途径的活性连同一个或多个其他细胞信号传导途径的活性的组合就临床事件(在这种情况下,无疾病存活)的预后而言表现好于个别途径活性。此外,两种细胞信号传导途径的组合活性的p-值也表明了这种优越性,因为对于tgf-β途径的活性与另一细胞信号传导途径的活性的组合,它们通常小于个别途径活性的那些。与基于两种途径活性的风险评分相比,组合tgf-β途径的活性与两种其他细胞信号传导途径的活性,也改善了cox系数(和p-值)。组合分别如方程(11)中所述的tgf-β途径、pi3k途径、er途径的活性以及如方程(20)中所述的tgf-β途径、pi3k途径、wnt途径,er途径和hh途径的活性的mpstpempstpweh风险评分表现类似于和胜过其他组合,即,其表现好于个别途径活性,以及tgf-β途径的活性与一种、两种或三种其他细胞信号传导途径的活性的其他组合,如系数、标准误差、hr值和p-值中可见。此外,包括与mpstpweh评分中使用的相同的探针组的mps探针组风险评分胜过包括tgf-β途径的活性和一种或两种其他细胞信号传导途径的活性的风险评分,如从cox回归结果所显而易见。然而,mps探针组的性能稍微逊于mpstpweh,这可能是由于大量拟合系数(mps探针组中的339个系数vs.mpstpweh中的五个系数)导致的训练数据上的“过度拟合”风险评分的结果。组合tgf-β途径的活性和一种或多种其他途径的活性的所有风险评分表现好于mpsewh和rs风险评分,如从各cox系数所显而易见。

表23:组合测试集e-mtab-365、gse20685和gse21653的cox比例风险回归的结果。对于回归结果的直接比较,将所有风险评分均一化。在测试集上计算的cox系数给出风险评分就存活而言的“强度”(和方向)。高(绝对)值对应于强预测因子。因此,“强度”是风险评分的预后能力的定量。

使用tgf-β靶基因的替代列表,即“20种靶基因短列表”、“12种靶基因短列表”和“7种靶基因短列表”(参见表2至4)分别导致相当的结果。这从表24可以看出,表24显示使用“20种靶基因短列表”、“12种靶基因短列表”和“7种靶基因短列表”的mpstpweh的结果。这些结果表明,在使用短列表的情况下,风险评分的“强度”变得稍低。然而,它们表现好于没有tgf-β途径活性的风险评分。

表24:“20种靶基因短列表”、“12种靶基因短列表”和“7种靶基因短列表”的另外结果。

接下来,使用kaplan-meier图与对数秩检验的组合来分析目标风险评分的预后分层。一种简单的算法被示例性地用于本文描述的新的风险评分,以根据其风险评分将患者分层。1005个患者被分为具有增加的风险评分的三个相同大小的组(n=335),即截止值在所有患者的各风险评分的三分位数。本领域技术人员可以使用已知的优化技术来理解和实现对上述方法的风险分层的其他变化。例如,youden的j统计可用于推断风险阈值。包括用于比较的其他风险评分的风险分层如其发明人所述进行。也就是说,根据各途径是活性的(即,在0至1的标度上大于0.5的活性)还是消极的(即,在0至1的标度上0.5或更小的活性),使用tgf-β途径、pi3k途径、wnt途径、er途径和hh途径的活性来将患者分层。mpsewh为-0.1或更低的患者被认为处于低风险,mpsewh高于或等于0.1的患者被认为处于高风险状态,而所有剩余的患者(mpsewh为-0.1和0.1之间)被认为处于中等风险。另一方面,rs低于18岁的患者被认为处于低风险,rs为31或更高的患者被认为处于高风险,而所有剩余的患者(rs为18和31之间)被认为处于中等风险。对于如本文所述的新的风险评分,在图2至9中提供kaplan-meier图,即,mpstp(参见图2)、mpstw(参见图3)、mpste(参见图4)、mpsth(参见图5)、mpstpw(参见图6)、mpstpe(参见图7)、mpstph(参见图8)、mpstwe(参见图9)、mpstwh(参见图10)、mpsteh(参见图11)、mpstpwe(参见图12)、mpstpwh(参见图13)、mpstpeh(参见图14)、mpstweh(参见图15)、mpstpweh(参见图16)和mps探针组(参见图17)。在这些图中,垂直轴表明作为患者组的分数的无复发存活,而水平轴表明以年为计的时间。低、中、高风险组(各335个患者)分别以实心(特征性地上方)、点状(特征性地中间)和点划(特征性地下方)线描绘。这些图显示,在不同组群之间受试者在确定时间段内可能经历临床事件的风险的明确区分。风险分层的这种差异可以通过对数秩检验进行定量。在这里,选择其来比较最高风险组vs.最低风险组(在个别途径活性的情况下,这是活性vs.消极)的kaplan-meier曲线。对数秩p-值描绘于表23的最后一列中。kaplan-meier图和相关对数秩统计进一步例举了包括tgf-β途径的活性和一个进一步细胞信号传导途径的活性的风险评分的优点,因为它们可以用于将处于更低或更高的疾病复发风险的患者分层。

图18显示使用未标定的mpstpweh作为实例,在五年(实线)和十年(虚线)的无疾病存活的可能性。分段曲线显示在值-0.4和1.2之间的可能性/风险的强烈(单调)增加,低于和高于这些值,风险似乎趋于平缓,因此在这些值附近设置截止值是有意义的。此外,为了便于使用者使用,多途径评分可以被重新标定以在零开始并且范围达到特定的正数,例如,0和15或0和100之间的评分,而不是覆盖包括负值的范围。例如,包括这些阈值的重新标定的mpstpweh可看起来像这样:

显示gse6532和gse9195中乳腺癌患者的初始训练集上训练的mpstpmpstwmpstempsthmpstpwmpstpempstphmpstwempstwhmpstehmpstpwempstpwhmpstpehmpstweh、mpstpwehmps探针组风险评分在乳腺癌样品的其他数据集上归纳良好。或者,可以使用如前所讨论的估计的cox系数,可以同时在先前描述的数据集,即gse6532、gse9195、e-mtab-365、gse20685和gse21653(总共1169个具有存活数据的患者)上训练风险评分。这导致以下风险评分:

或者,可以通过独立地组合在数据集上估计的cox系数来确定风险评分的系数。使用独立确定的cox系数连同其标准误差来使用最大似然估计来估计每个途径的活性的真实系数。来自guy医院的两个数据集(gse6532和gse9195)的患者由于其小样本量而组合成一个训练数据集。通过用数据集中包括的患者数量在系数估计的标准误差中加权个别确定的系数估计来确定最可能的系数值:

其中是数据集i中包括的患者数量,是真实系数值的估计值,是数据集i的cox系数,而是从数据集i估计的cox系数的标准误差。分别对tgf-β途径、pi3k途径、wnt途径、er途径和hh途径的活性进行了最小化。使用fisher信息矩阵确定真实系数估计的方差。使用这些值参数化途径活性的上述线性组合导致以下风险评分:

实施例3:cds应用

参考图19(图解显示配置为测定表明受试者在确定时间段内将经历临床事件的风险的风险评分的临床决策支持(cds)系统,如本文所公开),临床决策支持(cds)系统10作为适当配置的计算机12实现。计算机12可以配置为通过执行合适的软件、固件或存储在非瞬时性存储介质(未示出)上的其他指令来操作cds系统10,所述非瞬时性存储介质诸如硬盘驱动器或其他磁性存储介质、光盘或另一光盘存储介质、随机存取存储器(ram)、只读存储器(rom)、闪存、或另一电子存储介质、网络服务器等等。虽然说明性cds系统10通过说明性计算机12体现,但更一般地,cds系统可以通过数字处理装置或包含数字处理器的仪器体现,所述数字处理器配置为执行如本文描述的临床决策支持方法。例如,数字处理装置可以是手提式装置(例如运行cds应用的个人数字助理或智能电话)、笔记本计算机、台式计算机、平板计算机或装置、远程网络服务器等等。计算机12或其他数字处理装置通常包括显示装置14或与显示装置14可操作地连接,信息包括临床决策支持建议经由所述显示装置14展示给医护人员。计算机12或其他数字处理装置通常还包括一个或多个用户输入装置,或与一个或多个用户输入装置可操作地连接,所述用户输入装置诸如说明性键盘16、或者鼠标、跟踪球、跟踪板、触摸屏(可能与显示装置14集成)、或另一基于指针的用户输入设备,经由所述用户输入装置医护人员可以输入信息诸如用于控制cds系统10的操作指令,由cds系统10使用的数据等等。

cds系统10接受关于受试者(例如医院患者,或由肿瘤科医生、医生或其他医务人员治疗的门诊患者,或接受癌症筛查的个人或一些其他医学诊断的个人等等,所述个人已知或怀疑患有某种类型的癌症诸如结肠癌、乳腺癌或肝癌,)的输入信息。cds系统10对该输入信息应用多种数据分析算法,以生成临床决策支持建议,其经由显示装置14(或经由语音合成器或提供人可察觉的输入的其他装置)呈现给医护人员。在一些实施方案中,这些算法可以包括对患者应用临床指导。临床指导是存储的标准或“规范”治疗建议的组,通常基于医学专家组的建议构建,且任选以临床“流程图”的形式格式化,以促进通过临床指导的导航。在多个实施方案中,cds10的数据处理算法可以另外或可替代地包括多种诊断或临床测试算法,其对输入信息执行以提取临床决策建议,诸如本文公开的机器学习方法。

在本文公开的说明性cds系统(例如cds系统10)中,cds数据分析算法包括一种或多种诊断或临床测试算法,其对通过一个或多个医学实验室18获得的输入基因组和/或蛋白质组学信息执行。这些实验室可以不同定位“在现场”,即在医院或其中受试者接受医学检查和/或治疗的其他场所,或“非现场的”,例如接受(经由邮件或另一种递送服务)受试者的样品的专门和集中的实验室,所述样品已从受试者中提取(例如,从癌症病灶、或从怀疑为癌症的病灶、或从转移性肿瘤、或从其中存在被癌细胞污染的体液的体腔(例如,胸腔或腹腔或膀胱腔)、或从含有癌细胞的其他体液等等、优选经由活检程序或其他样品提取程序获得的样品)。样品由其提取的细胞还可以是来自血液系统恶性肿瘤(例如白血病或淋巴癌)的肿瘤细胞。在一些情况下,细胞样品还可以是循环肿瘤细胞,即已进入血流且可以使用合适的分离技术(例如单采血或常规静脉取血)提取的肿瘤细胞。除了血液以外,提取样品的血液可以是尿液、胃肠道内容物或外渗液。

样品通过实验室进行处理,以生成基因组或蛋白质组学信息。例如,样品可以使用微阵列(在本领域中也不同地称为基因芯片、dna芯片、生物芯片等等)或通过定量聚合酶链反应(qpcr)处理进行处理,以测量提供证据的基因组或蛋白质组学信息,诸如目的基因的表达水平,例如以由基因转录的信使核糖核酸(mrna)水平,或由从基因转录的mrna翻译的蛋白水平的形式。作为另一个例子,样品可以通过基因测序实验室进行处理,以生成脱氧核糖核酸(dna)的序列,或生成rna序列、拷贝数变异、甲基化等等。其他考虑的测量方法包括对病理学载玻片执行的免疫组织化学(ihc)、细胞学、荧光原位杂交(fish)、邻近连接测定等等。可以通过微阵列处理、质谱法、基因测序或其他实验室技术生成的其他信息包括甲基化信息。还可以执行此类基因组和/或蛋白质组学测量的多种组合。

在一些实施方案中,医学实验室18对受试者的样品执行许多标准化数据采集,以便生成大量基因组和/或蛋白质组学数据。例如,标准化数据采集技术可以对于一个或多个染色体或染色体部分,或整个基因组生成(任选比对的)dna序列。应用标准微阵列可以生成数千或数以万计的数据项,诸如大量基因的表达水平,多种甲基化数据等等。类似地,基于pcr的测量可以用于测量基因选择的表达水平。这种过多的基因组和/或蛋白质组学数据,或其所选部分,被输入cds系统10以进行处理,以便开发用于制定临床决策支持建议的临床上有用的信息。

所公开的cds系统和相关方法涉及基因组和/或蛋白质组学数据的处理,以评价多个细胞信号传导途径的活性和测定表明受试者将在确定时间段内将经历临床事件(例如,癌症)的风险的风险评分。然而,应当理解所公开的cds系统(例如cds系统10)可以任选进一步包括不同的另外能力,诸如基于多种患者数据诸如生命体征监控数据、病史数据、患者人口统计学数据(例如性别、年龄等等)、患者医学成像数据等等,依照存储的临床指导生成临床决策支持建议。可替代地,在一些实施方案中,cds系统10的能力可以局限于仅执行基因组和/或蛋白质组学数据分析,以如本文公开的评价细胞信号传导途径的活性和测定表明受试者将在确定时间段内将经历临床事件(例如,癌症)的风险的风险评分。

连续参考示例性图19,cds系统10基于但不限于受试者的样品中测量的细胞信号传导途径的一种或多种靶基因的表达水平20,推断受试者中的一种或多种细胞信号传导途径(本文中,tgf-β途径,以及pi3k途径、wnt途径、er途径和hh途径中的一种或多种)的活性22。tgf-β途径、pi3k途径、wnt途径、er途径和hh途径在不同肿瘤学领域中是感兴趣的,因为这些途径的调节丧失可以是癌症增殖的原因。存在约10-15个相关信号传导途径,并且每种癌症通过失调的至少一个占优势途径驱动。不限于任何具体操作理论,这些途径调节细胞增殖,并且因此在癌细胞中这些途径的调节丧失可以导致途径“始终开放”,因此加速癌细胞的增殖,其依次又体现为癌症的生长、侵入或转移(传播)。

编码细胞信号传导途径的调节蛋白,诸如其为形成细胞信号传导途径的蛋白级联的一部分的中间蛋白的基因的mrna表达水平的测量,是调节蛋白表达水平的间接测量,并且可能与实际调节蛋白表达水平强烈关联或不强烈关联(与细胞信号传导途径的总体活性关联少得多)。细胞信号传导途径直接调节靶基因的转录-因此,由靶基因转录的mrna的表达水平是该调节活性的直接结果。因此,cds系统10基于细胞信号传导途径的一种或多种靶基因的表达水平(mrna或蛋白水平作为替代测量),推断一种或多种细胞信号传导途径(本文中,tgf-β途径,以及pi3k途径、wnt途径、er途径和hh途径中的一种或多种)的活性。这确保cds系统10基于通过靶基因的测量的表达水平提供的直接信息来推断途径的活性。

在本实施例中,推断活性ptpppwpeph,即tgf-β途径、pi3k途径、wnt途径、er途径和hh途径的推断活性,随后用于测定24表明受试者在确定时间段内将经历临床事件(在该实施例中,癌症,特别是乳腺癌)的风险的风险评分,如本文详细描述的。风险评分基于推断活性的组合。例如,风险评分可以是如关于方程(4)或(5)详细描述的计算的“多途径评分”(mps)。

基于测定的mps,在该实施例中,cds系统10将受试者指定26至与受试者在某时间段内将经历临床事件的差异指示的风险相关的多个风险组中的至少一个,所述风险是受试者在确定时间段内将经历临床事件,和/或基于受试者在某时间段内将经历临床事件的所示风险,决定28对于受试者推荐的治疗。

通过cds系统对于特定患者测定mps和/或风险分类,或者如本文描述的mps和风险分类的独立实现,将允许肿瘤科医生、医生或者涉及患者诊断或治疗或监控/随访的其他医护人员定制治疗,使得患者具有长期存活的最佳机会,同时,不需要的副作用,尤其是侵袭性化学疗法和/或靶向疗法和/或免疫疗法和/或放射疗法和/或手术的那些副作用,降到最低。因此,例如具有癌症复发的低风险的患者,即具有低mps的那些患者和/或基于如本文描述的风险分层算法分类为低风险的那些患者,目前通常用单独的激素治疗或激素治疗的组合(例如抗雌激素和/或芳香酶抑制剂),以及毒性较低的化学治疗剂进行治疗。另一方面,具有癌症复发的中度或高风险的患者,即具有中至高mps的那些患者和/或基于如本文描述的风险分层算法分类为中度或高风险的那些患者,目前通常用更侵袭性的化学疗法例如基于蒽环和/或紫杉烷的治疗方案进行治疗。另外,可能与其他患者测试结果和/或来自其他预后或预测(例如伴侣诊断)测试的结果组合的mps,可以产生用靶向药物(诸如他莫西芬、曲妥珠单抗、贝伐珠单抗)、和/或其他治疗药物(例如免疫疗法)(其目前不是用于患者的特定癌症的主线治疗方案的部分)、和/或其他治疗选项(诸如放射疗法,例如短距离放射疗法)、和/或不同治疗时机(例如主要治疗前和/或后)治疗患者的决策。

注意到代替直接使用测定的风险评分(mps)作为受试者在确定时间段内将经历临床事件的风险的指示,cds系统10能够配置为组合风险评分与得自一种或多种另外的预后测试的一种或多种另外的风险评分,以获得组合的风险评分,其中所述组合的风险评分表明受试者在确定时间段内将经历临床事件的风险。一种或多种另外的预后测试可以特别包含oncotypedx®乳腺癌测试、mammostrat®乳腺癌测试、mammaprint®乳腺癌测试、endopredict®乳腺癌测试、blueprinttm乳腺癌测试、compandx®乳腺癌测试、乳腺癌指数sm(hoxb13/il17br)、oncotypedx®结肠癌测试、和/或通过测量基因/蛋白ki67的表达执行的增殖测试。

实施例4:在乳腺癌亚型中的应用

为了评价每种乳腺癌亚型的途径活性,在affymetrixhg-u133plus2.0(来自公共数据集合gse6532、gse9195、gse20685、gse21653和e-mtab-365的1294例乳腺癌组织样品的微阵列数据)中单独测试er、ar、wnt、hh、tgf-β和pi3k途径的数学途径模型。通过不同的活性途径分布表征各种乳腺癌亚型(参见图24a和b)。在1294例乳腺癌样品中,749例(58%)具有至少一种活性途径有活性,其被定义为具有高于0.5的tf复合物活性存在的推断概率(参见图24a)。阈值下降至0.2,其被定义为途径有活性的边缘概率,或作为边缘活性途径,1026例(79%)患者具有至少一个边缘活性途径(参见图24b)。患者的百分之四十一(n=537)具有至少er或pi3k途径有活性。分别在11%(n=142)、8.4%(n=109)和5.4%(n=70)的患者中发现hh、tgf-β和wnt活性样品频率较低(参见图24b)。发现只有2.6%(n=34)患者的一小部分具有活性ar途径。

使用如parker和同事所述的方法确定内在亚型(参见j.s.parker等人:,“supervisedriskpredictorofbreastcancerbasedonintrinsicsubtype”,.journalofclinicaloncololgy,vol.27,2009,pages1160to1167).从使用与pam50-基因相关的探针组的微阵列数据中提取pam50中包括的所有50种基因的frna均一化基因表达。

在多于一个探针组与单个基因相关的情况下,选择具有最大方差的探针组。使用具有已知亚型的来自gse21653的样品计算管腔a、管腔b、her2富集、基底和正常样的质心。接下来,对所有样品计算与这些质心的pearson相关系数。将各样品分配至具有最高相关性的亚型。

使用kaplan-meier曲线和单变量cox回归的存活分析显示,在1169例乳腺癌患者上评价,er、wnt、hh、pi3k和tgf-β途径活性与无复发存活相关(参见图25a和26)。

无复发存活在er活性患者中相对较高(参见图25a和b),而具有活性tgf-β途径的患者显著更早复发(3年无复发存活率:67.5%vs.90.4%,对数轶检验:5.4e-10)。与er活性患者相比,具有其他胚胎细胞信号传导途径、hh和wnt以及pi3k存活途径的活性的患者也具有显著较差的预后(对数轶检验,分别为p=2.2e-6、1.1e-3和2.1e-6)。发现这五个途径无一有活性的患者具有合理的良好预后,尽管与er活性患者相比更差。

接下来,通过cox回归进一步评价途径概率与无复发存活之间的关系。对途径活性概率的单因素cox回归分析将er途径鉴定为最有利的活性,而wnt、hh、pi3k和tgf-β活性与较差预后相关(参见图26)。ar途径的概率不能被明确定义为就无复发存活是有利或有害的(p=0.2,双侧)。er、hh、pi3k和tgf-β途径的概率在用er、wnt、hh、pi3k和tgf-β的多变量分析中仍然是复发的重要预测指标,而如果与其他途径相组合,wnt丢失其意义(参见图26)。

在167例(13%)患者样品中,发现至少两种途径有活性。最普遍的组合由活性er和pi3k途径组成(参见图27)。活性er或pi3k与一种或多种胚胎途径的组合也是最普遍的组合之一,例如hh和pi3k的组合被观察到18次。在较小百分比的样品中,发现两种胚胎途径在各种组合中有活性。然而,样品数太小,无法鉴定与这些途径组合相关的预测预后价值。

存活分析展示就乳腺癌患者中的无复发存活而言er、hh、pi3k和tgf-β途径的推断活性的强大和主要独立的预后能力,需要将这些组合成一个风险评分(参见图28b、d、f、h和j)。仅由于具有活性wnt途径的样品非常少,wnt途径在单因素分析中边缘显著,并且在多变量分析中而不显著,尽管如此,基于wnt活性相比于无途径活性的显著对数轶检验结果(p=0.0011),选择wnt途径以包括在多途径评分中。ar途径在预后方面没有提供信息,因此不包括在乳腺癌的mps中。如实施例2中所讨论,使用er、wnt、hh、pi3k和tgf-β途径的单因素cox回归系数在来自公共数据集gse6532和gse9195的164例具有临床结果已知的er阳性乳腺癌的患者的训练样品导出多途径评分(mps)。对具有随访信息的其余1005例患者测试该mps,导致高风险患者和低风险患者之间的明确分离,如从最低和最高三分位数的kaplan-meier存活图中可见(p=8.6e-12,对数秩检验,参见图25b)。mps与根据单因素cox回归分析的预后高度相关(标定的hr=4.90,p=7.3e-15)。

将1294例乳腺癌样品分为其内在亚型。这些亚型间的途径活性的分布显示于图28a、c、e、g和i中。发现er途径在管腔a和b样品(其通常是er+样品)中最常见有活性。在管腔样品中,er途径在良好-预后管腔a组中比在不良-预后管腔b组中更经常有活性(参见图28a和c),而pi3k途径在管腔b样品中更频繁有活性。

与管腔样品相比,her2富集和基底型样品无一显示活性er途径,而除pi3k途径之外,胚胎途径wnt、hh和tgf-β似乎在这些癌症亚型中更频繁有活性(参见图28e和28g),已知这些癌症亚型更有侵袭性并且与较差预后相关。wnt途径是基底型中非常突出的活性途径(参见图28g)。her2亚型中的最大部分具有活性pi3k。此外,ar途径在相当多her2病例中显示为有活性。

正常样乳腺癌已被归类为特定亚型,因为根据pam50分类,其类似于正常乳腺组织中的基因表达。然而,在途径分析中,正常样乳腺癌样品可以与正常乳腺组织清楚区分,并显示高频率的er活性(参见图28i),而在正常乳腺组织样品中,er途径未被检测为有活性。此外,hh途径的频繁活性明确区分这种肿瘤亚型与正常乳腺组织和管腔亚型。

cox回归分析在mps上进行,并在每个亚型内标定。不仅mps检验可以区分管腔癌中的良好预后与不良预后(标定的hr=4.11,p=2.1e-7),而且在管腔a和b组内,mps可以显著分层患者(标定的hr=5.15和2.43,p=4.7e-5和1.3e-2,分别参见图28b和d)。此外,mps鉴定在her2富集患者的总组中预后非常差的her2病例(标定的hr=4.81,p=3.2e-5,参见图28f)。最高mps三分位数中只有35%的her2患者具有5年无复发存活。但是应当注意的是,这些患者没有获得任何her2靶向药物。在与其他亚型相比通常具有非常差的预后的基底群体中,mps鉴定了具有相当好的预后的亚组(标定的hr=3.40,p=3.7e-3,参见图28h)。落入最低mps三分位数的具有基底癌症的患者的五年存活率为82%,相比之下,最高mps三分位数为62%。在正常样乳腺癌内,mps评分为最低预后的(标定的hr=3.53,p=0.05,图28j)。

用mps和21-基因rs的多变量分析(参见图29)显示,在1005个测试样品上,两者互相互补(分别地,标定的hr=3.32和1.92,p=1.5e-7和7.2e-5)。当对临床表明21-基因rs的具有er的阳性ihc染色的来自测试组群的452例患者的亚组进行时,mps和21-基因复发评分仍然是无复发存活的显著独立预测因子(分别地,标定的多变量hr=2.25和2.75,p=0.025和4.5e-5),因此两者在er阳性样品中也是互补的。

遵循paik和同事早先所述的方法,使用研究实施方案计算21-基因复发评分(参见s.paik等人:“amulti-geneassaytopredictrecurrenceoftamoxifen-treated,node-negativebreastcancer”,thenewenglandjournalofmedicine,vol.351,no.27,2004,第2817至2826页;c.fan等人.:“concordanceamonggene-expression-basedpredictorsforbreastcancer”,thenewenglandjournalofmedicine,vol.355,no.6,2006,第560至569页)。与21种基因相关的探针组的frna均一化表达用作21-基因复发评分的该研究实施方案的输入。在通过多于一个探针组测量基因的情况下,使用平均表达水平。将16种目标基因的表达水平相对于五种参考基因的平均值进行均一化,并如fan等人所述进行标定。接下来,使用方程对每个样品计算未标定的复发评分(rsu),随后在0和100之间标定,如paik等人更早所述。随后,使用公开的在18和31的截止点将每名患者分配到低、中等或高风险组。

21-基因复发评分的不同风险组中所有1005个测试例的mps的单因素cox分析(参见图29)表明,mps能够显著改善每个风险组的预后(分别地,低、中和高风险21-基因rs给予mps,标定的hr=3.03、7.91和3.24,p=0.045、0.044和9.5e-7),而实际的21-基因复发评分仅在其低风险组中是显著的(标定的hr=2.54,p=5.1e-3)。通过添加标定的mps和21-基因rs获得了两种预后概况中的最佳者,其为真实低和高风险患者的鉴定(标定的hr=5.17,p=7.9e-16,参见图29)。21-基因rs在检测低风险患者中更强大,如疾病复发率曲线和roc曲线中所见(分别参见图29a、b和29e、f);相比之下,通过mps更有效地鉴定更高风险患者。组合的mps和21-基因rs保留了在合并两种评分后鉴定低风险和高风险患者的能力,并且总体显示最佳表现。

总之,该数据表明,本发明可以基于检测癌组织样品中五种主要致癌信号传导途径的功能活性来评价个体乳腺癌患者的预后。组合的多途径评分(mps)也明确区分每个乳腺癌亚型内良好预后与不良预后病例,并且这种区分基于个别信号转导途径对致病性癌症生物学的影响。鉴定的信号转导途径活性因此提供了对乳腺癌的病理生理学的了解,并提供促进靶向治疗选择的临床重要信息。mps实现了与er阳性患者中的21-基因复发评分相当的预后结果,同时在所有其他乳腺癌亚型、特别是her2和基底亚型中提供更好的结果。此外,mps可以根据21-基因复发评分的所有确定的风险组中的风险进行分层,特别是21-基因复发评分的优先中等风险组的分层,并且可用作mps-21-基因复发评分测试,以达到该特定测试例的最佳性能。

实施例5:用于说明本发明的进一步信息

(1)测量基因表达的水平

从本文描述的靶基因的独特集合衍生的数据进一步用于使用本文所述的方法推断细胞信号传导途径的活性。

用于分析提取样品中的基因表达水平的方法通常是已知的。例如,方法诸如northern印迹、使用pcr、巢式pcr、定量实时pcr(qpcr)、rna-seq或微阵列可以导出获得基因表达水平数据。本文中考虑了用于分析靶基因的基因表达的所有方法。

使用基于pcr的方法测定基因的表达产物的方法可以是特别有用的。为了使用pcr定量基因表达的水平,通常使用常规定量实时pcr(qpcr)估计每种目标pcr产物的量,以在每个扩增循环后实时测量pcr产物的积累。这通常利用可检测的报告物,诸如嵌入染料、小槽结合染料或荧光探针,由此光的施加激发报告物发荧光,并且通常使用ccd照相机或光电倍增管检测系统(诸如美国公开号6,713,297中公开的系统,其通过引用并入本文)检测所得荧光。

在一些实施方案中,用于在定量实时pcr(qpcr)测定中检测pcr产物的探针可以包括荧光标记物。许多荧光标记物是可商购的。例如,molecularprobes,inc.(eugene,oreg.)销售各种各样荧光染料。非限制性实例包括cy5、cy3、tamra、r6g、r110、rox、joe、fam、texasred™和oregongreen™。额外的荧光标记物可以包括qpcr测定中的idtzen双重淬灭探针与额外的5′水解探针。这些探针可以含有例如5′fam染料与3’tamra猝灭剂、3’黑洞猝灭剂(bhq,biosearchtechnologies)或内部zen猝灭剂和3’爱荷华黑荧光猝灭剂(ibfq)。

根据本发明可用的荧光染料可以使用本领域众所周知的方法连接到寡核苷酸引物。例如,向寡核苷酸添加荧光标记的一种常见方法是使染料的n-羟基琥珀酰亚胺(nhs)酯与靶标上的反应性氨基反应。可以通过例如在核碱基上包括烯丙基胺基来修饰核苷酸以携带反应性氨基。经由烯丙基胺的标记描述于例如美国专利号5,476,928和5,958,691,其通过引用并入本文。荧光标记核苷酸、寡核苷酸和多核苷酸的其他方式是本领域技术人员众所周知的。

其他荧光方法包括使用通用检测系统,诸如sybr-绿色染料,其当用来自任何基因表达产物的扩增dna插入时发荧光,如公开于美国专利号5,436,134和5,658,751,其通过引用并入本文。

用于测定靶基因表达水平的另一种有用的方法包括rna-seq,用于转录组分析的强大的分析工具,包括不同生理条件之间的基因表达水平差异,或在发育期间或在疾病进展过程中发生的变化。

测定基因表达水平的另一种方法包括使用微阵列,例如本领域众所周知的rna和dna微阵列。微阵列可用于同时定量大量基因的表达。

(2)用于测定pi3k、wnt、er和hh细胞信号传导的活性的概况工作流程

本发明提供了如本文公开评价tgf-β、pi3k、wnt、er和hh途径的功能状态或活性以计算受试者经历特定临床事件的风险评分的新的和改进的方法和装置。

示例性说明用于从提取自受试者的样品测定tgf-β细胞信号传导和其他细胞信号传导活性的流程图显示在图20中。首先,分离来自样品的mrna(11)。其次,使用本领域已知的用于测量基因表达的方法测量(12)如本文所述的至少三种或更多种tgf-β靶基因的独特集合的mrna表达水平。接下来,使用校准的数学途径模型(14)测定tgf-β转录因子(tf)元件(13)的活性水平,所述数学途径模型将三种或更多种靶基因的表达水平与tgf-βtf元件的活性水平相关联。接下来,基于测定的受试者样品中tgf-βtf元件的活性水平,推断(15)受试者中的tgf-β途径的活性。

如图20的右侧所示,在确定tgf-βtf元件的活性水平之后,确定至少一种另外的细胞信号传导途径(即pi3k、wnt、er和hh中的一种或多种)的tf元件的活性水平。作为实例,使用本领域已知的用于测量基因表达的方法测量(16)如本文所述的来自另外细胞信号传导途径的三种或更多种靶基因的独特集合的mrna表达水平。接下来,使用校准的数学途径模型(14)测定tf元件(17)的活性水平,所述数学途径模型将另外细胞信号传导途径的三种或更多种靶基因的表达水平与tf元件的活性水平相关联。接下来,基于测定的受试者样品中tf元件的活性水平,推断(18)受试者中的另外细胞信号传导途径的活性。接下来,将tgf-β和另外细胞信号传导途径的活性转化为表明受试者在确定时间段内将经历与疾病相关的临床事件的风险的多途径评分(mps)(19)。将风险评分确定为mps可以被理解为评估校准的多途径评分(mps)模型,其中所述模型的参数包含例如如本文所述的加权系数(例如,wewwwhwpwt)。最后,为样品分配用于基于计算的mps(20)经历临床事件的风险评分。

(3)多途径评分(mps)模型的校准和多途径评分(mps)的测定

如本文中所考虑,可以使用含有与临床事件相关的细胞信号传导途径的活性的校准的多途径评分(mps)模型来测定对应于临床事件将发生的风险的风险评分,如下文进一步描述。

如本发明中使用的校准的多途径评分(mps)模型可以用关于目标临床事件和推断的途径活性的容易获得的临床数据进行校准。示例性说明用于用存活数据校准mps模型的过程的流程图显示于图21。作为初始步骤,从途径活性数据库(201)检索使用校准的数学途径模型推断的相关途径活性。途径活性数据库含有tgf-β途径活性(206)和至少一种另外途径的途径活性。例如,途径活性数据库含有er途径活性(202)、wnt途径活性(203)、hh途径活性(204)、pi3k途径活性(205)和tgf-β途径活性(206)。然后采用样品的特定训练集合(218)的id来接收相关途径活性(219),和例如存活数据(220)(如果存活是所分析的临床事件),其从存活数据数据库(221)检索。然后在er途径活性、wnt途径活性、hh途径活性、pi3k途径活性和tgf-β途径活性的情况下,用pepwphpppt的输出选择(222)途径活性。将存活数据转换为变量survcens(223),其反映在将使用mps的给定时间段内的存活时间和检查数据。然后将途径活性和存活数据拟合至cox比例风险模型(224),其导致拟合的cox比例风险模型(225)。从cox比例风险模型中,收集cox系数(226),然后将其分配至权重(227),输出为wewwwhwpwt。将mps结构(228)和权重合在一起以校准mps模型(229),其输出校准的mps模型(210)。

示例性说明用于从校准的mps模型确定风险评分的过程的流程图显示于图1。作为初始步骤,从途径活性数据库(201)检索使用校准的途径模型推断的相关途径活性。途径活性数据库含有pi3k途径活性(205)和至少一种另外途径的途径活性。例如,途径活性数据库含有er途径活性(202)、wnt途径活性(203)、hh途径活性(204)、pi3k途径活性(205)和tgf-β途径活性(206)。然后鉴定患者样品(207),并从样品和数据库收集初始途径活性作为相关途径的转录因子或基因表达水平的测量值(208)。然后用pepwphpppt的输出推断每个相关途径的总活性(208)。然后使用校准的mps模型(211)将这些活性转换为风险评分(210)。可以用其他相关数据进一步调整该初始风险评分,以产生患者的最终风险评分(212),其然后可以用于分别显示(213)、分配(214)或决定治疗(215)、产生显示的风险评分(216)、分配风险评分(217)或决定的治疗(218)的结果。

受试者中的细胞信号传导途径活性的推断可以例如尤其通过下述执行:(i)评估代表一组输入的细胞信号传导途径的校准概率途径模型(优选贝叶斯网络)的一部分,所述一组输入包括在受试者的样品中测量的细胞信号传导途径的三种或更多种靶基因的表达水平,(ii)估计受试者中的转录因子(tf)元件的活性水平,所述tf元件控制细胞信号传导途径的三种或更多种靶基因的转录,所述估计基于关于tf元件的活性水平的条件概率,以及在受试者的样品中测量的细胞信号传导途径的三种或更多种靶基因的表达水平,和(iii)基于受试者的样品中tf元件的估计的活性水平,推断细胞信号传导途径的活性。这在公开的国际专利申请wo2013/011479a2(“assessmentofcellularsignalingpathwayactivityusingprobabilisticmodelingoftargetgeneexpression”)中详细描述,其内容以其整体并入本文。

在示例性替代方案中,在受试者的细胞信号传导途径的活性的推断可以例如尤其通过下述执行:(i)在受试者的样品中,测定转录因子(tf)元件的活性水平,该tf元件控制细胞信号传导途径的三种或更多种靶基因的转录,测定基于评估将细胞信号传导途径的三种或更多种基因的表达水平与tf元件的活性水平关联的校准的数学途径模型,该数学途径模型基于三种或更多种靶基因的表达水平的一种或多种线性组合,和(ii)基于在受试者的样品中测定的tf元件活性水平,推断在受试者中的细胞信号传导途径的活性。这在公开的国际专利申请wo2014/102668a2(“assessmentofcellularsignalingpathwayactivityusinglinearcombination(s)oftargetgeneexpressions”)中详细描述。

一个实施方案提供了这样的方法,其中所述细胞信号传导途径包括pi3k途径和/或wnt途径和/或er途径和/或hh途径,并且其中定义风险评分,使得所示风险随着pi3k途径的推断活性增加和/或wnt途径的推断活性增加和/或hh途径的推断活性增加而单调增加和/或随着er途径的推断活性增加而单调减少。

在一个实施方案中,提供了这样的方法,其中定义风险评分,使得所示风险随着tgf-β途径的推断活性增加而单调增加。

在一个实施方案中,推断的活性的组合包含包括项目wt·pt和项目wp·ppww·pwwe·pewh·ph中的一个或多个之和,其中ptpppwpeph分别表示tgf-β途径、pi3k途径、wnt途径、er途径和hh途径的推断活性,wtwpwwwh为正恒定加权系数,we是负恒定加权系数,且受试者在确定时间段内将经历临床事件的所示风险随着总和值增加而单调增加。

在某些实施方案中,所述恒定加权系数wtwpwwwewh是或已各自基于由将各个细胞信号传导途径的cox比例风险模型拟合至临床数据而得到的cox系数的值来测定的。例如,系数估计的符号表明,途径活性在负系数的情况下对于临床事件是保护性的,还是在正系数的情况下预测较不良或较差的预后。系数的模数表明风险评分就预后而言的强度。

在一个实施方案中,临床事件是癌症转移,并且wtwpwwwh是非负恒定加权系数,而we是非正恒定加权系数。用这些系数,mps显示受试者在确定时间段内将经历临床事件的所示风险随着总和的值增加而单调增加。

(4)靶基因表达水平测定程序

示例性说明用于从提取自受试者的样品得到靶基因表达水平的过程的流程图显示于图23中。在一个示例性实施方案中,将样品接收并登记在实验室中。样品可以包括例如福尔马林固定、石蜡包埋(ffpe)样品(181)或新鲜冷冻(ff)样品(180)。ff样品可直接裂解(183)。对于ffpe样品,可以在加入蛋白酶k(182)后通过加热孵育步骤来除去石蜡。然后将细胞裂解(183),其破坏细胞和核膜,其使核酸(na)可用于进一步处理。核酸结合到固相(184),其可以例如是珠粒或滤纸。然后用洗涤缓冲液洗涤核酸以除去裂解后存在的所有细胞碎片(185)。然后用洗脱缓冲液(186)将干净的核酸与固相分离。通过dnase处理来除去dna,以确保样品中仅存在rna(187)。然后可将核酸样品直接用于rt-qpcr样品混合物(188)。rt-qpcr样品混合物含有rna样品、从rna样品制备cdna的rt酶和扩增cdna的pcr酶、确保酶的功能的缓冲溶液,并且可能含有分子级水以设定固定体积浓度。然后将样品混合物加入含有干燥的rt-qpcr测定(189)的多孔板(即,96孔或384孔板)。然后可以根据指定方案在pcr机器中运行rt-qpcr(190)。示例性pcr方案包括i)在50℃下30分钟;ii)在95℃下5分钟;iii)在95℃下15秒;iv)在60℃下45秒;v)重复步骤iii和iv的50个循环。然后通过使用二阶导数法用原始数据测定cq值(191)。导出cq值用于分析(192)。

(5)疾病、病症和治疗方法

如本文中所考虑,本发明的方法和装置可用于评价受试者、例如怀疑具有或具有疾病或病症的受试者中的tgf-β、pi3k、wnt、er和/或hh细胞信号传导途径活性,其中信号传导途径之一的状态全部或部分证明疾病存在或进展。在一个实施方案中,本文提供了治疗受试者的方法,其包括接收关于使用本文所述的方法从分离自受试者的样品得到的tgf-β、pi3k、wnt、er和/或hh细胞信号传导途径活性状态的信息,并且如果关于细胞信号传导途径的活性的信息表明活性的tgf-β、pi3k、wnt、er和/或hh信号传导途径,则向受试者施用tgf-β、pi3k、wnt、er和/或hh的抑制剂。

可用于本发明中的tgf-β抑制剂是众所周知的。tgf-β抑制剂的实例包括但不限于terameprocol、fresolimumab、sotatercept、galunisertib、sb431542、ly2109761、ldn-193189、sb525334、sb505124、gw788388、ly364947、repsox、ldn-193189hcl、k02288、ldn-214117、sd-208、ew-7197、ml347、ldn-212854、dmh1、吡非尼酮、橙皮素、trabedersen、lerdelimumab、metelimumab、trx-sara、id11、ki26894或sb-431542。

pi3k抑制剂是众所周知的,且包括但不限于渥曼青霉素、去甲氧基绿胶霉素、哌立福辛、idelalisib、pictilisib、palomid529、zstk474、pwt33597、cudc-907和aezs-136、duvelisib、gs-9820、bkm120、gdc-0032(taselisib)(2-[4-[2-(2-异丙基-5-甲基-1,2,4-三唑-3-基)-5,6-二氢咪唑并[1,2-d][1,4]苯并氮杂䓬-9-基]吡唑-1-基]-2-甲基丙酰胺)、mln-1117((2r)-1-苯氧基-2-丁基氢(s)-甲基膦酸酯;或甲基(氧代){[(2r)-l-苯氧基-2-丁基]氧基}鏻))、byl-719((2s)-n1-[4-甲基-5-[2-(2,2,2-三氟-1,1-二甲基乙基)-4-吡啶基]-2-噻唑基]-1,2-吡咯烷二甲酰胺)、gsk2126458(2,4-二氟-n-{2-(甲基氧基)-5-[4-(4-哒嗪基)-6-喹啉基]-3-吡啶基}苯磺酰胺)(omipalisib)、tgx-221((±)-7-甲基-2-(吗啉-4-基)-9-(l-苯基氨基乙基)-吡啶并[l,2-a]-嘧啶-4-酮)、gsk2636771(2-甲基-1-(2-甲基-3-(三氟甲基)苄基)-6-吗啉代-lh-苯并[d]咪唑-4-甲酸二盐酸盐)、kin-193((r)-2-((l-(7-甲基-2-吗啉代-4-氧代-4h-吡啶并[1,2-a]嘧啶-9-基)乙基)氨基)苯甲酸)、tgr-1202/rp5264、gs-9820((s)-l-(4-((2-(2-氨基嘧啶-5-基)-7-甲基-4-mohydroxypropan-1-酮)、gs-1101(5-氟-3-苯基-2-([s)]-1-[9h-嘌呤-6-基氨基]-丙基)-3h-喹唑啉-4-酮)、amg-319、gsk-2269557、sar245409(n-(4-(n-(3-((3,5-二甲氧基苯基)氨基)喹喔啉-2-基)氨磺酰)苯基)-3-甲氧基-4甲基苯甲酰胺)、bay80-6946(2-氨基-n-(7-甲氧基-8-(3-吗啉代丙氧基)-2,3-二氢咪唑并[l,2-c]quinaz)、as252424(5-[l-[5-(4-氟-2-羟基-苯基)-呋喃-2-基]-甲基-(z)-基亚基]-噻唑烷-2,4-二酮)、cz24832(5-(2-氨基-8-氟-[l,2,4]三唑并[l,5-a]吡啶-6-基)-n-叔丁基吡啶-3-磺酰胺)、buparlisib(5-[2,6-二(4-吗啉基)-4-嘧啶基]-4-(三氟甲基)-2-吡啶胺)、gdc-0941(2-(lh-吲唑-4-基)-6-[[4-(甲基磺酰基)-l-哌嗪基]甲基]-4-(4-吗啉基)噻吩并[3,2-d]嘧啶)、gdc-0980((s)-1-(4-((2-(2-氨基嘧啶-5-基)-7-甲基-4-吗啉代噻吩并[3,2-d]嘧啶-6基)甲基)哌嗪-l-基)-2-羟基丙-l-酮(也称为rg7422))、sf1126((8s,14s,17s)-14-(羧基甲基)-8-(3-胍基丙基)-17-(羟基甲基)-3,6,9,12,15-五氧代-1-(4-(4-氧代-8-苯基-4h-色烯-2-基)吗啉代-4-鎓)-2-氧杂-7,10,13,16-四氮杂十八烷-18-酸盐)、pf-05212384(n-[4-[[4-(二甲基氨基)-1-哌啶基]羰基]苯基]-n'-[4-(4,6-二-4-吗啉基-l,3,5-三嗪-2-基)苯基]脲)(gedatolisib)、ly3023414、bez235(2-甲基-2-{4-[3-甲基-2-氧代-8-(喹啉-3-基)-2,3-二氢-lh-咪唑并[4,5-c]喹啉-l-基]苯基}丙腈)(dactolisib)、xl-765(n-(3-(n-(3-(3,5-二甲氧基苯基氨基)喹喔啉-2-基)氨磺酰)苯基)-3-甲氧基-4-甲基苯甲酰胺)和gsk1059615(5-[[4-(4-吡啶基)-6-喹啉基]亚甲基]-2,4-噻唑烯二酮)、px886([(3ar,6e,9s,9ar,10r,11as)-6-[[双(丙-2-烯基)氨基]亚甲基]-5-羟基-9-(甲氧基甲基)-9a,11a-二甲基-l,4,7-三氧代-2,3,3a,9,10,ll-六氢茚并[4,5h]异色烯-10-基]乙酸盐(也称为sonolisib))、ly294002、azd8186、pf-4989216、pilaralisib、gne-317、pi-3065、pi-103、nu7441(ku-57788)、hs173、vs-5584(sb2343)、czc24832、tg100-115、a66、ym201636、cay10505、pik-75、pik-93、as-605240、bgt226(nvp-bgt226)、azd6482、voxtalisib、alpelisib、ic-87114、tgi100713、ch5132799、pki-402、copanlisib(bay80-6946)、xl147、pik-90、pik-293、pik-294、3-ma(3-甲基腺嘌呤)、as-252424、as-604850、apitolisib(gdc-0980;rg7422)和wo2014/071109中描述的结构。或者,pi3k下游的mtor复合物的抑制剂是异常pi3k活性的有价值的抑制剂。或者,pi3k上游的her2复合物的抑制剂是异常pi3k活性的有价值的抑制剂。her2抑制剂的实例包括但不限于曲妥珠单抗、拉帕替尼、帕妥珠单抗。

内分泌治疗可以在雌激素受体阳性的乳腺癌中施用。可用于本发明中的内分泌治疗是众所周知的。内分泌治疗由施用以下组成:i)通常使用促性腺激素-释放激素激动剂(gnrha)获得的卵巢功能抑制剂,ii)选择性雌激素受体调节剂或下调剂(serms或sards)或iii)芳香酶抑制剂(ai)或其组合。卵巢功能抑制剂包括例如促性腺激素-释放激素激动剂(gnrha)。促性腺激素-释放激素激动剂(gnrha)的实例可以包括布舍瑞林、德舍瑞林、戈那瑞林、戈舍瑞林、组氨瑞林、亮丙瑞林、那法瑞林和曲普瑞林。选择性雌激素受体调节剂(serm)包括例如他莫昔芬、托瑞米芬、雷洛昔芬、拉索昔芬、巴多昔芬、克拉米芬、奥美昔芬、奥斯米芬、阿莫西芬和阿佐昔芬。选择性雌激素受体下调剂(serds)包括例如氟维司群、sr16234和zk191703。芳香酶抑制剂包括例如阿那曲唑、来曲唑、伏罗唑、依西美坦、氨鲁米特、睾内酯、福美司坦、法倔唑、雄烯二酮、4-羟基雄烯二酮、l,4,6-雄甾三烯-3,17-二酮或4-雄甾烯-3,6,17-三酮。在一个实施方案中,所述芳香酶抑制剂是非甾体芳香酶抑制剂。

wnt抑制剂是众所周知的,并且包括但不限于pyrvinium、iwr-1-endo、iwp-2、fh535、wiki4、iwp-l6、ky02111、lgk-974、wnt-c59、xav929、3289-8625、fj9、nsc668036、pfk115-584、cgp049090、icrt3、icrt5、icrt14、icg-001、去甲氧基姜黄色素、cct036477、ky02111、pnu-74654或pri-724。

hh抑制剂是众所周知的,并且包括但不限于环巴胺、sant1–sant4、cur-61414、hhantag-691、gdc-0449、mk4101、ipi-926、bms-833923、robotnikinin、伊曲康唑、维莫德吉、odomzo、钙三醇、胆钙化醇、ipi-906,ru-ski39或kaad-环巴胺、nvp-lde225、tak-441、xl-139、ly2940680、nvp-leq506、伊曲康唑、mrt-10、mrt83、pf-04449913、gant-61、gant-58、hpi-1、hpi-3或hpi-4。

在一个实施方案中,所述疾病或病症是自身免疫和其他免疫病症、癌症、支气管哮喘、心脏病、糖尿病、遗传性出血性毛细血管扩张症、马凡综合征、血管性ehlers-danlos综合征、loeys-dietz综合征、帕金森病、慢性肾病、多发性硬化症、纤维化疾病诸如肝、肺或肾纤维化、dupuytren氏病或阿尔茨海默氏病之一。

在一个具体实施方案中,所述受试者患有或怀疑具有癌症,例如但不限于原发性肿瘤或转移性肿瘤,实体瘤,例如,黑色素瘤、肺癌(包括肺腺癌、基底细胞癌、鳞状细胞癌、大细胞癌、细支气管肺泡癌、支气管癌、非-小细胞癌、小细胞癌、间皮瘤);乳腺癌(包括导管腺癌、小叶癌、炎性乳腺癌、透明细胞癌、粘液性癌、浆膜腔的乳腺癌);结肠直肠癌(结肠癌、直肠癌、结肠直肠腺癌);肛门癌;胰腺癌(包括胰腺癌、胰岛细胞癌、神经内分泌肿瘤);前列腺癌;前列腺腺癌;卵巢癌(卵巢上皮癌或表面上皮间质瘤包括浆液性肿瘤、子宫内膜瘤和粘液性囊腺癌、性索间质细胞瘤);肝和胆管癌(包括肝细胞癌、胆管癌、血管瘤);食管癌(包括食管腺癌和鳞状细胞癌);口腔和口咽部鳞状细胞癌;涎腺腺样囊性癌;膀胱癌;膀胱癌;子宫癌(包括子宫内膜腺癌、眼、子宫乳头状浆液性癌、子宫透明细胞癌、子宫肉瘤和平滑肌肉瘤、苗勒管混合瘤(mixedmulleriantumors));神经胶质瘤、成胶质细胞瘤、成神经管细胞瘤,和其他脑瘤;肾癌症(包括肾细胞癌、透明细胞癌、威尔姆氏肿瘤(wilm'stumor));头颈癌(包括鳞状细胞癌);胃癌(胃癌、胃腺癌、胃肠道间质瘤);睾丸癌;生殖细胞瘤;神经内分泌肿瘤;宫颈癌;胃肠道、乳房和其他器官类癌症;印戒细胞癌;间叶性肿瘤包括肉瘤、纤维肉瘤、血管瘤(haemangioma)、多发性血管瘤(angiomatosis)、血管外皮细胞瘤、假血管瘤样间质性增生,、肌纤维母细胞瘤、纤维瘤病、炎性肌纤维母细胞瘤、脂肪瘤、血管脂肪瘤、颗粒细胞瘤、神经纤维瘤、神经鞘瘤、血管肉癌、脂肪肉瘤、横纹肌肉瘤、骨肉瘤、平滑肌瘤、平滑肌肉瘤、皮肤,包括黑色素瘤、宫颈癌、视网膜母细胞瘤、头颈癌、胰腺、脑、甲状腺、睾丸、肾、膀胱、软组织、肾上腺、尿道、阴茎的癌症、粘液肉瘤、软骨肉瘤、骨肉瘤、脊索瘤、恶性纤维组织细胞瘤、淋巴血管肉癌、间皮瘤、鳞状细胞癌;表皮样癌、恶性皮肤附件瘤、腺癌、肝癌、肝细胞癌、肾细胞癌、肾上腺样瘤、胆管癌、移行细胞癌、绒毛膜癌、精原细胞瘤、胚胎细胞癌、间变性胶质瘤;多形性成胶质细胞瘤、成神经细胞瘤、成神经管细胞瘤、恶性脑膜瘤、恶性神经鞘瘤、神经纤维瘤、甲状旁腺癌、甲状腺髓样癌、支气管类癌、嗜铬细胞瘤、胰岛细胞癌、恶性类癌、恶性副神经节瘤、黑色素瘤、默克尔细胞瘤、叶状囊肉瘤、唾液腺癌、胸腺癌,和阴道癌等。

在一个实施方案中,本文描述的方法对于治疗患有淋巴瘤或淋巴细胞或粒细胞增殖障碍或异常的宿主是有用的。例如,受试者患有何杰金氏淋巴瘤或非-何杰金氏淋巴瘤。例如,所述受试者可患有非-何杰金氏淋巴瘤诸如,但不限于:aids-相关淋巴瘤;间变性大-细胞淋巴瘤;血管免疫母细胞性淋巴瘤;原始nk-细胞淋巴瘤;伯基特氏淋巴瘤;伯基特-样淋巴瘤(小无裂细胞淋巴瘤);慢性淋巴细胞白血病/小淋巴细胞淋巴瘤;皮肤t-细胞淋巴瘤;弥漫性大b-细胞淋巴瘤;肠病型t-细胞淋巴瘤;滤泡性淋巴瘤;肝脾γ-δt-细胞淋巴瘤;成淋巴细胞性淋巴瘤;套细胞淋巴瘤;边缘区淋巴瘤;鼻t-细胞淋巴瘤;小儿淋巴瘤;外周t-细胞淋巴瘤;原发性中枢神经系统淋巴瘤;t-细胞白血病;转化的淋巴瘤;治疗-相关t-细胞淋巴瘤;或瓦尔登斯特伦氏巨球蛋白血症(waldenstrom'smacroglobulinemia)。

可替代地,所述受试者可患有何杰金氏淋巴瘤,诸如,但不限于:结节性硬化症经典型何杰金氏淋巴瘤(chl);混合细胞性chl;淋巴细胞-消减型chl;淋巴细胞-富含型chl;淋巴细胞为主型何杰金氏淋巴瘤;或结节型淋巴细胞为主型hl。

在一个实施方案中,受试者可患有特异性t-细胞、b-细胞,或nk-细胞基淋巴瘤、增生性疾病,或异常。例如,所述受试者可患有特异性t-细胞或nk-细胞淋巴瘤,例如,但不限于:外周t-细胞淋巴瘤,例如,外周t-细胞淋巴瘤和未另外规定的外周t-细胞淋巴瘤(ptcl-nos);间变性大细胞淋巴瘤,例如间变性淋巴瘤激酶(alk)阳性、alk阴性间变性大细胞淋巴瘤,或原发性皮肤间变性大细胞淋巴瘤;血管免疫母细胞性淋巴瘤;皮肤t-细胞淋巴瘤,例如蕈样肉芽肿、塞泽里综合征(sézarysyndrome)、原发性皮肤间变性大细胞淋巴瘤、原发性皮肤cd30+t-细胞淋巴增生性疾病;皮肤原发性侵袭性嗜表皮cd8+细胞毒性t-细胞淋巴瘤;原发性皮肤γ-δt-细胞淋巴瘤;原发性皮肤小/中cd4+t-细胞淋巴瘤,和淋巴瘤样丘疹病;成人t-细胞白血病/淋巴瘤(atll);母细胞性nk-细胞淋巴瘤;肠病型t-细胞淋巴瘤;造血脾γ-δt-细胞淋巴瘤;成淋巴细胞性淋巴瘤;鼻nk/t-细胞淋巴瘤;治疗-相关t-细胞淋巴瘤;例如在实体器官或骨髓移植后出现的淋巴瘤;t-细胞幼淋巴细胞白血病;t-细胞大颗粒淋巴细胞白血病;nk-细胞的慢性淋巴增生性疾病;侵袭性nk细胞白血病;儿童系统性ebv+t-细胞淋巴增生性疾病(与慢性活动性ebv感染相关);牛痘样水疱病-样淋巴瘤;成人t-细胞白血病/淋巴瘤;肠病-相关t-细胞淋巴瘤;肝脾t-细胞淋巴瘤;或皮下脂膜炎-样t-细胞淋巴瘤。

可替代地,所述受试者可患有特异性b-细胞淋巴瘤或增生性疾病诸如,但不限于:多发性骨髓瘤;弥漫性大b细胞淋巴瘤;滤泡性淋巴瘤;粘膜-相关淋巴组织淋巴瘤(malt);小细胞淋巴细胞淋巴瘤;套细胞淋巴瘤(mcl);伯基特淋巴瘤;纵隔大b细胞淋巴瘤;瓦尔登斯特伦氏巨球蛋白血症(waldenströmmacroglobulinemia);淋巴结边缘区b细胞淋巴瘤(nmzl);脾边缘区淋巴瘤(smzl);血管内大b-细胞淋巴瘤;原发性渗出性淋巴瘤;或淋巴瘤样肉芽肿病;慢性淋巴细胞白血病/小淋巴细胞淋巴瘤;b-细胞幼淋巴细胞白血病;毛细胞白血病;脾淋巴瘤/白血病,不可分类的;脾弥漫性红髓小b-细胞淋巴瘤;变异型毛细胞白血病;淋巴浆细胞淋巴瘤;重链疾病,例如,α重链疾病、γ重链疾病、μ重链疾病;浆细胞骨髓瘤;骨孤立性浆细胞瘤;髓外浆细胞瘤;原发性皮肤滤泡中心淋巴瘤;t细胞/富含组织细胞的大b-细胞淋巴瘤;与慢性炎症相关的dlbcl;老年性爱泼斯坦-巴尔病毒(ebv)+dlbcl;原发性纵隔(胸腺)大b-细胞淋巴瘤;原发性皮肤dlbcl,腿型;alk+大b-细胞淋巴瘤;浆母细胞淋巴瘤;hhv8-相关的多中心产生的大b-细胞淋巴瘤;巨淋巴结增生症;b-细胞淋巴瘤,不可分类的,具有介于弥漫性大b-细胞淋巴瘤和伯基特淋巴瘤之间的特征;b-细胞淋巴瘤,不可分类的,具有介于弥漫性大b-细胞淋巴瘤和经典何杰金氏淋巴瘤之间的特征;结节性硬化型经典何杰金氏淋巴瘤;富含淋巴细胞的经典何杰金氏淋巴瘤;混合细胞性经典何杰金氏淋巴瘤;或淋巴细胞-枯竭型经典何杰金氏淋巴瘤。

在一个实施方案中,受试者是患有白血病的受试者。例如,所述受试者可能患有急性或慢性淋巴细胞性白血病或骨髓性起源的白血病,诸如,但不限于:急性成淋巴细胞性白血病(all);急性骨髓性白血病(aml);慢性淋巴细胞白血病(cll);慢性骨髓性白血病(cml);少年粒单核细胞白血病(jmml);毛细胞白血病(hcl);急性早幼粒细胞白血病(aml的一种亚型);t-细胞幼淋巴细胞白血病(tpll);大颗粒淋巴细胞白血病;或成人t-细胞慢性白血病;大颗粒淋巴细胞白血病(lgl)。在一个实施方案中,患者患有急性骨髓性白血病,例如未分化的aml(m0);原始粒细胞性白血病(m1;有/无最小细胞成熟);原始粒细胞性白血病(m2;伴有细胞成熟);早幼粒细胞白血病(m3或m3变体[m3v]);粒-单核细胞白血病(m4或具有嗜曙红细胞过多的m4变体[m4e]);单核细胞白血病(m5);红白血病(m6);或巨核细胞白血病(m7)。

在一个具体实施方案中,所述受试者患有或怀疑患有乳腺癌、肺癌、结肠癌、胰腺癌或脑癌。在一个具体实施方案中,所述受试者患有或怀疑患有乳腺癌。

在癌症的具体实施方案中,除了护理治疗方式标准(诸如但不限于手术、放射治疗、(靶向)药物治疗)之外,处于经历临床事件的高风险的患者可接受化疗或靶向治疗。或者,处于经历临床事件的低风险的患者可以避免护理方式标准,诸如但不限于手术、放射治疗、化疗。

在一个实施方案中,是否施用治疗剂或避免施用治疗剂的确定可以基于阈值mps评分,例如为将患者分配至低风险组而建立的阈值或为将患者分配至高风险组而建立的阈值。例如,在一个实施方案中,用于将患者分配至低风险组的阈值可以基于5、6、7、8、9、10或更大年龄的临床事件小于或等于5%、10%、15%、20%的风险,而用于将患者分配至高风险组的阈值可以基于5、6、7、8、9、10或更大年龄的临床事件大于或等于20%、25%、30%、35%、40%、45%、50%或更大的风险。例如,使用上述说明,在mpstpweh的特定情况下,这导致低风险患者组的阈值为-0.5、-0.4、-0.3、-0.2、-0.1、0,且高风险患者组的阈值为0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.1、1.2。

在本发明的一个方面,可以将受试者分配至低风险或高风险组的临床事件可包括癌症复发、进展、转移、由癌症导致的死亡或如本文别处所述的临床事件。

在具体实施方案中,将高风险或低风险分配于具有乳腺癌的受试者,具有er+或hr+肿瘤或管腔a或管腔b亚型的患者(即,针对er或激素受体(hr)染色阳性的肿瘤样品),并且在经历临床事件的高风险下,除了激素治疗(诸如但不限于他莫昔芬或芳香酶抑制剂)之外,还可以接受(新)辅助化疗。er+肿瘤或管腔a或管腔b亚型在经历临床事件的低风险下可以接受(新)辅助激素治疗(并且避免化疗)。具有her2+/hr-肿瘤或her2富集亚型且在经历临床事件的高风险下的患者除了抗her2治疗(诸如但不限于曲妥珠单抗)之外,还可以接受(新)辅助化疗,而具有her2+/hr-肿瘤或her2富集亚型且在经历临床事件的低风险下的患者可以接受(新)辅助抗her2治疗(并且避免化疗)。具有her2+/hr+肿瘤且在经历临床事件的高风险下的患者除了激素治疗(诸如但不限于他莫昔芬或芳香酶抑制剂)之外,还可以接受(新)辅助化疗,而具有her2+/hr+肿瘤且在经历临床事件的低风险下的患者可以接受(新)辅助激素治疗(并且避免化疗和/或抗her2治疗)。具有三阴性(her2-/er-/pr-或her2-/hr-)肿瘤或基底亚型且在经历临床事件的高风险下的患者除了靶向治疗(诸如但不限于本文所述的靶向治疗)之外,还可以接受(新)辅助化疗,而具有三阴性肿瘤或基底亚型且在经历临床事件的低风险下的患者可以接受(新)辅助靶向治疗(并且避免化疗)。

实施例6:测定风险评分的试剂盒和分析工具

使用例如贝叶斯模型或(假)线性模型,基于微阵列/基于rna测序的研究发现最佳表明各细胞信号传导途径的活性的靶基因的组可以转变为例如对受试者的样品执行的多路定量pcr测定或专用微阵列生物芯片。如本文描述的基因序列的选择可以用于选择例如用于rt-pcr的引物探针组或用于微阵列开发的寡核苷酸。为了开发此类fda批准的用于途径活性和风险评分测定的测试,需要开发标准化的测试试剂盒,其需要在临床试验中进行临床验证,以获得管理机构批准。

本申请描述了几个优选实施方案。在阅读且理解前述详述后,其他人可以想到修饰和改变。预期本申请应解释为包括所有此类修饰和改变,只要它们在所附权利要求或其等价物范围内。

根据附图、公开内容和所附权利要求的研究,在实践本发明中对所公开实施方案的其他变化可以由本领域技术人员理解且实现。

在权利要求中,单词“包含”不排除其他元件或步骤,并且不定冠词“(a)一个/种”或“(an)一种/种”不排除多个/种。

单个单元或装置可以达成权利要求中所述的几项的功能。在相互不同的独立权利要求中所述的某些测量的简单事实并非表明这些测量的组合不能用于突出优点。

计算如通过一个或几个单元或装置执行的风险评分测定可以通过任何其他数目的单元或装置来执行。

计算机程序可以存储/分布在合适的介质例如光盘存储介质或固态介质上,连同其他硬件一起或作为其他硬件的部分供应,但还可以以其他形式分布,例如经由因特网或者其他有线或无线远程通信系统。

权利要求中的任何参考符号不应解释为限制范围。

实施例7:本申请中使用的序列表

序列表:

表25:tgf-β靶基因的寡核苷酸序列

表26:pi3k靶基因的寡核苷酸序列

表27:wnt靶基因的寡核苷酸序列

表28:er靶基因的寡核苷酸序列

表29:hh靶基因的寡核苷酸序列

表30:参考基因的寡核苷酸序列

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1