用于肿瘤特征和标记物组鉴定,肿瘤分级的方法和用于癌的标记物组的制作方法

文档序号:491386阅读:178来源:国知局
专利名称:用于肿瘤特征和标记物组鉴定,肿瘤分级的方法和用于癌的标记物组的制作方法
用于肿瘤特征和标记物组鉴定,肿瘤分级的方法和用于癌
的标记物组
技术领域
本发明涉及癌生物标记物领域,及它们的鉴定及使用方法。背景技术
对癌知道越多,可更有效对其进行治疗。例如,多数癌患者进行手术。但是,对于一些患者,用额外的治疗可能得到额外的受益。目前无满意的方法测定哪些患癌患者会受益于手术后额外治疗(例如化学治疗)。可用于预后目的的特异于癌细胞的基因和蛋白的鉴定被认为有帮助。鉴定与用于恢复的差预后关联的肿瘤的这些基因/蛋白,如果仅通过手术处理之后是一般标准的护理,称为差预后生物标记。这些生物标记可用作有价值的工具,其用于预测癌诊断后存活,鉴定复发的风险足够低的患者,在缺失手术后化学治疗和/ 或放射治疗下或仅一般标准的手术后护理治疗下患者可能同样进展或更佳,及用于向导肿瘤科医生应如何处理癌,胰获得最佳结果。类似地,有癌中表达的基因,其在药物应答中起作用。当临床决定时,其会具有对于预测的药物应答有用的信息。为了提供具有临床目标的足够的精确度的筛选工具,优选对于一类癌考虑多标记物。单基因标记物不提供足够的水平的特异性和灵敏度。例如,微阵列技术,其可同时测量多于25,000基因,提供发现多-标记物的有用的工具。本发明的目的是提供用于鉴定目标肿瘤特征的一组标记物及它们的鉴定及使用方法。发明概述本发明在一实施方式中教导利用基因表达谱基于几组基因来区别‘良性’和‘恶性’肿瘤。如本文所用当说道预估及患者存活时,术语“良性肿瘤”指可能通过手术和仅一般标准的护理治愈的,无需化学治疗或放射治疗(即便这是一般标准的护理的一部分)的肿瘤。如本文所用,术语“恶性肿瘤”指不可能通过手术和仅一般标准的护理(包括化学治疗或放射治疗)治愈的肿瘤。如本文所用,如果患者在手术后5或10年内不经历的肿瘤复发(或其转移),则认为肿瘤被“治愈”。可能鉴定表达谱能区别‘良性’和‘恶性’肿瘤的几组基因。现有技术公开5种该基因表达信号组,且这些被开发为用于乳腺癌样品的生物标记物。各基因表达信号组源于一组乳腺肿瘤样品。但是,这5种生物标记物组不可交叉-使用。特别是,现有技术所谓的 “乳腺癌生物标记物”尚未发现当用于另一组乳腺肿瘤样品时可一致地预测预后。用于其他类型的癌的生物标记物具有相同的问题。癌是高度异源性的。常对于一类癌,可发现几个亚型。之前公开的标记物组对于这些亚型不足够通用。为了克服这些问题和数据组(样品)利用度的限制,开发了新方法来发现及使用组生物标记物。在本发明的一实施方式中,从公开的癌数据组产生随机练习(training)数据组,其中包括患者的基因表达谱和临床信息,以发现稳健的生物标记物组。随机练习数据组的基因表达谱与患者存活状态和筛选生物标记物相关。在本发明的一实施方式中提供了鉴定生物标记物的方法,所述方法包括-自目前可有用的数据组(肿瘤微阵列表征+癌患者的临床信息)产生随机练习数据组-针对随机练习数据组筛选基因表达信号组,以鉴定对预后具有预测力的基因表达信号组-基于它们在基因表达信号组中出现的频度排序基因,其具有良好的预测力(经筛选,最后步骤)和由此建造生物标记物组-组合使用利用用于预测的3 6个生物标记物组(即,样品A被全部3个生物标记物组预测为“良性肿瘤”,我们会说样品A是“良性肿瘤”(低-风险),如果全部说其是 “恶性”的,我们会说其是“恶性”(高-风险),另外,我们说其是中等-风险)-使用其他独立数据组确证标记物“基因表达信号”是基因(例如mRNA或蛋白)表达的有形的指示物。在本发明的实施方式中提供了用于鉴定肿瘤特征的方法,所述方法包括以下步骤(1)获得各预测目标特征的3个不同标记物组;(2)自肿瘤细胞提取基因表达信号;(3)将提取的基因表达信号与3个不同标记物组关联;(4)根据以下顺序将值分配给提取的基因表达信号(a)如果全部3个预测性基因表达信号组的关联预测其具有关注的特征,将其指定为恶性肿瘤;(b)如果全部3个预测性基因表达信号组的关联预测其缺乏关注的特征,将其指定为良性肿瘤;(c)如果全部3个预测性基因表达信号组的关联不提供相同的预测的临床结果, 将所述肿瘤指定为"中等”。在一些情况中,关注的特征涉及下列之一种或多种转移,发炎,细胞周期,免疫学应答基因,药物抗性基因,及多-药物抗性基因。在一些情况中,肿瘤特征负责特定治疗或治疗的组合。在一些情况中,肿瘤特征是导致差患者手术后存活的趋势。在一些情况中,肿瘤特征与患者存活相关,且以上方法的步骤4包括根据以下顺序将值分配给提取的基因表达信号(a)如果全部3个预测性基因表达信号组的关联预测其为恶性肿瘤,将其指定为恶性肿瘤,并将建议超过一般标准的护理的更攻击性的治疗;(b)如果全部3个预测性基因表达信号组的关联预测其为良性肿瘤,不建议超过护理标准的治疗,且不建议手术后化学治疗或放射治疗;(c)如果全部3个预测性基因表达信号组的关联不提供相同的预后,将所述肿瘤指定为“中等”,并建议完全一般标准的护理治疗,包括化学治疗和/或放射治疗。当癌具有多于一种亚型时,其可期望包括预先步骤
(a)鉴定待检查的肿瘤亚型;(b)选择特异于所述肿瘤亚型的标记物组。在一些情况中,目标肿瘤特征是肿瘤响应特定治疗,例如化学治疗剂或放射的趋势。在该情况中,基因表达信号在开发练习组的方法中与肿瘤药物应答相关。需知,对于特定药物的“良性”肿瘤应答在治疗后会低于-平均肿瘤存活,而“恶性”应答在治疗后会高于平均肿瘤存活。使用此方法,及依赖于可在用于开发练习组的原肿瘤和临床数据中有用的细节,开发不仅用于应答个体药物或治疗,而且治疗的组合的标记物是可能的(其中原始来源中有足够的数据以允许此)。在本发明的实施方式中提供了测定上述方法中有用的类型的预测性基因表达信号组的方法,包括以下步骤(1)获得对于目标癌的已知的肿瘤群的目标特征的基因表达信号信息和患者临床 fn息;(2)将基因表达信号与有关目标特征的临床患者信息关联,以鉴定哪些基因具有对于临床结果的预测力;(3)创建至少30个自步骤1的随机练习数据组;(4)比较步骤3的鉴定的基因表达信号与一列已知的在癌中活跃的基因;(5)选择对应于已知的癌基因列表上的那些的鉴定的基因表达信号;(6)根据它们在生物学过程中的作用将选择的鉴定的基因表达信号分组;(7)自步骤6的选择的基因表达信号组产生至少25个基因的随机基因表达信号组;(8)将随机基因表达信号组与步骤3的随机练习数据组关联;(9)自对于步骤7的各基因表达信号组的关联获得用于存活筛选的P值;(10)如果对于多于90%的随机练习数据组,用于基因表达信号组的P值小于 0. 05,则保持所述基因表达信号组;(11)基于组中基因出现的频度排序步骤10中保持的随机基因表达信号组;(12)选择排在前面的至少沈个基因作为潜在候选标记物;(13)重复步骤7 12,并产生至少26个基因的另一,独立,排序组;(14)比较自步骤12及步骤13的排在前面的基因;(15)如果多于25个基因相同,将所述排在前面的基因保持为标记物组;(16)重复两次步骤7 15,以获得3个不同标记物组;在本发明的一实施方式中提供了鉴定相比一般标准的护理需求或多或少攻击性的治疗的患者的方法,所述方法包括 “基因表达信号”是基因表达(例如mRNA)的有形的指示物(理论上,如果技术上可行,会代之一测量蛋白表达?或者其他?)。1.个别研究包含肿瘤和临床患者信息的信息源。将全部报道的细胞内的基因表达信号与患者存活(5和10年)关联,以便鉴定哪些基因在该个体信息源之内具有对于预后的预测力。鉴定发现与患者存活显著关联的那些基因表达信号用于进一步检查。2.将步骤1中鉴定的基因表达信号与一列已知的癌基因比较,并选择对应于已知的基因的已知在癌中具有作用的那些基因表达信号用于进一步分析。(此会通常产生一列几百到几千个基因表达信号)3.从步骤1的信息源产生至少30 ( 一般30和40之间)个随机练习数据组。可在多个随机练习数据组中出现相同的个体基因表达信号。4.将步骤2中选择的基因表达信号根据它们在生物学过程中的作用(例如细胞周期基因,细胞死亡基因,免疫学应答基因,发炎基因等)来分组,GO分析5.产生随机基因表达信号组(一般约百万个),各含有约30个基因,自在步骤3 中产生的单组随机选择。6.针对各随机练习数据组得到步骤4的各随机基因表达信号组的用于存活筛选的P值,你能对此关联进行更详细的描述?7.对于多于90%的随机数据组,如果P值小于0. 05,则保持随机基因组8.基于它们中基因出现的频度排序自步骤7保持的随机基因表达信号组9.选择具有最高预测值(如在步骤8中测定)的排在前面的30个基因(步骤8 中排序的)作为潜在候选体。10.步骤5 9重复,开始于自在步骤3中形成的各组产生随机基因表达信号组, 及产生是潜在候选体的排在前面的30个基因的另一,独立,排序的组。11.将步骤10中产生的排在前面的30个基因与自步骤9的排在前面的30个基因比较。如果30个中25或更多相同,称其为"稳定的标记",且在筛选患者样品中有用。 如果少于25/30相同,除去该数据(从两组潜在候选体)。需要至少25个,由此可使用第1 或第2组潜在候选体。12.再重复两次步骤5 11,用于其他2组(步骤3的)基因表达信号。由此,会有3组稳定的标记,各涉及自步骤3的不同组。13.检查自患者的癌细胞,以评定它们的基因表达活性及其与3个稳定的标记中的基因表达信号的关联。一般而言,稳定的标记会指示转移的似然性,因此匹配该标记的高患者表达会指示"恶性"肿瘤。但是也可能稳定的标记可指示表达的保护性基因,例如凋亡基因,在该情况中,对于该标记,那些基因表达标记的高患者表达会指示"良性”肿瘤。在任意情况中,将各稳定的标记与患者样品比较,及通过各稳定的标记个别预测“良性”或“ 恶性"肿瘤。自单稳定的标记指示“恶性”或“良性”的阈值是什么? Eg。是否样品中超过 50%的见于标记的基因表达,就是“恶性”?是否超过50%的见于标记的基因表达在对应的非-癌性组织中的正常基础水平以上,就是“恶性”?14.组合各3组基因表达信号的预测作为患者样品考虑,及如下将值分配给肿瘤 (a)如果全部3基因表达信号组(标记)预测其为恶性肿瘤,将其指定为恶性肿瘤,且患者应提供超过一般标准的护理的更攻击性的治疗;(b)如果全部3数据组预测其为良性肿瘤, 患者不应接收超过标准护理的治疗,且不应使经历手术后化学治疗或放射治疗;(c)如果全部3组基因表达产物不提供相同的预后,将所述肿瘤指定为“中等”,且患者应接收完全一般标准的护理治疗,包括化学治疗和/或放射治疗。在一些情况中,为此方法,期望根据它们在生物学过程中的作用使用基因本体论分析将选择的鉴定的基因表达信号分组。优选创建30和50之间个随机练习组。更优选地,创建30和40之间个练习组。有时期望选择已知在癌中活跃的基因,其选自负责转移,细胞增殖,肿瘤血管化
8及药物应答的基因。在本发明的一些实施方式中涉及上述方法,在步骤7中,产生约750,000和 1,250,000之间,或约900,000和1,100, 000之间或约百万个随机基因表达信号组。在本发明的一些实施方式中,如在以上描述的方法中,在步骤7中,产生的随机基因表达信号组含有约25和50之间,或观 32或约30个基因。在本发明的实施方式中,如以上描述的方法中,在步骤12中,选择排在前面的洸 50,或沘 32或约30个基因。在一些情况中,当考虑涉及患者存活的肿瘤特征时,期望采用选自基本上由以下构成的列表的至少一种癌生物标记物组NRC-1,NRC-2,NRC-3,NRC-4,NRC-5,NRC-6,NRC-7, NRC-8 禾口 NRC-9。在本发明的实施方式中提供了试剂盒,其包含至少3个标记物组,及用于进行上述方法的使用说明,以便鉴定目标肿瘤特征。在一些情况中,试剂盒包含列于表IA或IB的至少10个基因表达信号。在一些情况中,试剂盒包含根据上述方法鉴定的至少30个核酸生物标记物。在本发明的实施方式中提供了表IA或IB中的任何基因表达信号用于鉴定一种或更多目标肿瘤特征的用途。在一些情况中,至少不同3个标记物组在一些情况中用于至少 1,2或3个标记物组,包括见于表IA或IB的至少1,5,10,20或25个基因表达信号。在一些情况中,各标记物组含有见于表IA或IB的至少1,5,10,20或25个基因表达信号。在本发明的实施方式中,癌生物标记物是乳腺癌生物标记物,且样品的第1亚型是ER+样品。在本发明的实施方式中,在上述方法中,随机练习组如下产生随机挑选样品,同时维持与选出它们的组相同的“良性”和“恶性”肿瘤比。在一些情况中,目标肿瘤特征会涉及患者存活(例如,手术和一般标准的护理后),且在该情况中,方法可用于鉴定相比一般标准的护理需求或多或少攻击性的治疗的患者。(化学治疗和放射治疗对本人是危险的。由此,最好避免将该治疗提供给不需要它们的
■/患者.)ο在一些情况中,期望通过提取基因表达信号(例如mRNA,蛋白)及使用特异于目标基因表达信号的报告子检定目标基因表达信号的存在(及在一些情况中,水平)来研究患者的肿瘤组织。此可以允许基本上同时检查多基因表达信号的微-阵列形式进行。报告子可为结合目标核酸序列,目标抗体特异于蛋白,或任何其他该类物质的探针(本领域中已知及常规使用许多该报告子)。报告子实现样品中的变化,允许评定目标基因表达信号。 在一些情况中,实现的变化可为样品光学方面的变化,在其他情况中,变化可为样品的另一可检定的方面,例如其放射性或荧光性质的变化。在特定类型的癌具有多于一种亚型的情况中(例如ER+和ER-乳腺癌),可优选起初通过亚型分类患者的癌,然后使用关于该亚型开发的标记物。在一些情况中,目标肿瘤特征会涉及对特定治疗的肿瘤应答,并在该情况中,方法可用于鉴定对于患肿瘤的患者的有前途的治疗方法(一种或更多化学治疗剂或治疗的组合)ο如本文所用,“肿瘤”包括期望在患者中破坏或中和的任何癌细胞。例如,其可包括见于实体瘤,骨髓瘤,淋巴瘤和白血病的癌细胞。肿瘤通常是哺乳动物或鸟肿瘤,且可为下列之肿瘤人,猿,猫,狗,猪,牛,绵羊,山羊,兔,小鼠,大鼠,豚鼠,仓鼠,沙鼠,鸡,鸭或鹅。显而易见的是,3个独立组基因表达信号的组合的使用不限于根据本文所述的方法产生的基因表达信号,也可应用于市售的或文献中报道的癌生物标记物数据组。(尽管最终筛选结果的可靠性会某种程度依赖于使用的组的稳健性,因此建议使用稳健的癌生物标记物数据组)。在一些实例中,期望选择包含涉及不同生物学过程的基因的癌生物标记物数据组(例如一种数据组可涉及发炎,另一种涉及细胞周期,而第3种涉及转移)。方法是通用的,且可将其应用于任何类型的癌。例如其关于列于表4的那些癌类型有用。在本发明的实施方式中,将处理应用于测定手术后应如何攻击性地治疗乳腺癌患
者ο以下提供方法的一实施方式,平行于实施例1的描述-步骤1使用肿瘤患者的癌细胞基因微阵列数据和存活信息开发自动存活筛选方法(作为非限制性例,由JMOl细胞系的微阵列数据(小鼠乳腺癌细胞系,室内细胞系和数据)鉴定表面及分泌的蛋白),以筛选公共乳腺癌数据组095个样品,Chang等人, PNAS 102 :3738, 2005) 0术语“存活筛选”定义为通过进行的Kaplan-Meier分析通过实施 Cox-Mantel时间等级测试的各单基因表达值和患者存活状态(“良性”或“恶性”)之间的关联的统计学意义的检查(Cui et al. ,Molecular Systems Biology, 3 152,2007)。由此筛选,得到7种蛋白,其可个别区别‘良性’和‘恶性’肿瘤。例如,在实施例1的一部分,选择蛋白(MMP9),在原细胞系中以实验方式确认。当将MMP9抗体应用于细胞系时,癌进展中的上皮到间叶转变被阻断。此结果指示,方法适于发现转移相关的基因。-步骤2进行表达值与乳腺癌患者存活相关的基因的基因组-范围的存活筛选(在实施例1中,使用2个练习数据组,定义为数据组1(78个样品,van' t Veer等人, Nature, 2002)和数据组2 Q86个样品,Wang等人,Lancet,365 :671,2005))。得到的基因表达信号列表分别称为Sl及S2。这2个列表的总基因称为M基因表达信号列(St = S1+S2)。-步骤3当目标癌具有多于一种亚-类型时,产生用于第1亚-类型的标记物。 (例如,在实施例1中,产生ER+和ER-标记物)。在实施例1中,通过自以上数据组提取全部ER+样品产生ER+肿瘤标记物,并分别定义为Sl-ER+(提取自数据组1)和S2-ER+组(提取自数据组2)。通过自S2-ER+组随机挑选N样品(N = 60)来产生35个随机-练习-组。 “良性”和“恶性”肿瘤比保存与S2-ER+组基本上相同。通过将Sl-ER+添加到上述35个随机-练习-组来得到36个练习-组。-步骤4通过基因组-范围的存活筛选获得基因表达信号列(在实施例1中, St-ER+基因表达信号列表),其涉及重复步骤2,但对于第1肿瘤亚型使用子集,例如数据组,在实施例1中的Sl-ER+和S2-ER+组。使用M-ER+基因表达信号列表,进行基因本体论(GO)分析(使用 GO 注释软件,David, http //david. abcc. ncifcrf. gov/),仅将已知与癌相关的属于GO术语的基因,例如细胞周期,细胞死亡等用于进一步标记物筛选。-步骤5通过从一个GO术语标注的基因随机挑选30个基因来从各选择的GO术语标注的基因(正常每GO术语约60-80基因)产生1百万个不同随机-基因-组(各随
10机-基因-组含有30个基因)。-步骤6和7优选使用针对全部第1肿瘤亚型练习组(例如,在实施例1中,36个 ER+练习组)的1百万随机-基因-组(在步骤3中产生的)进行进一步存活筛选。对于各练习组,检查各随机-基因-组(30个基因)的表达值和患者存活状态(“良性”或“恶性”)之间的关联的统计学意义,例如通过进行的Kaplan-Meier分析通过实施Cox-Mantel 时间等级测试。如果对于使用针对一个练习组的一个随机-基因-组的存活筛选,P值小于0. 05,表示,该随机-基因-组通过该练习组。步骤7:当全部第1亚型(例如36个ER+)练习组具有多于2,000个通过的随机-基因-组时,或对于多于90%的随机练习数据组得到大于0. 05的P值,则保持这些通过的随机-基因-组。步骤8 基于通过的随机-基因-组中出现的频度将步骤7的保持的随机-基因-组中的基因排序。步骤9:选择排在前面的30个基因(定义为潜在标记物组)作为潜在-标记物-组。需知,当优选30个基因时,可使用20和40之间个,更优选25和35之间个或更优选27 33个。在一些实例中,用于筛选目的使用的各组中期望25 30个体基因表达信号,由此,各输入数可用于产生此输出。步骤10 使用在步骤5中起初使用的相同的GO术语重复步骤5,并产生另外1百万个不同的随机-基因-组,其用于重复步骤6和7。步骤11 如果对于排在前面的30个的基因成员与潜在-标记物-组中的那些(步骤9)基本上相同,其是指潜在-标记物-组稳定,并可用作真实癌生物标记物组。此潜在-标记物-组指定为标记物组(此现在可用于患者),如果对于2个潜在标记物组的基因表达信号不是基本上相同,这指示,这些GO术语基因对于发现生物标记物组不合适,并丢弃所述潜在标记物组而不进一步分析。在一些情况中,期望在指定为标记物组之前,在2个潜在标记物组中具有30个基因表达信号中的至少25个相同。在一些情况中,在2个潜在标记物组中期望具有沈,27,观,四或30个基因表达信号相同。步骤12 对于2个其他组(步骤幻的基因表达信号再重复两次步骤5 11。由此,会有3组稳定的标记,各涉及自步骤3的不同组。在实施例1中,得到3组标记物(分别称为NRC-1,_2和_3,各组合有30个基因, 见表1),并在ER+练习组(S1-ER+和S2-ER+)中测试。阐释测试过程。各练习组中的样品可分为3组低-风险,中等-风险和高-风险组。任选的步骤12b 作为任选的步骤,其在实施例1中进行,其可用于进一步分析生物标记物组,以进一步将高-风险组分级。此步骤涉及自高-风险组取样品(其在实施例 1中通过练习组S2-ER+的NRC-I, -2和-3分级),并重复步骤3,4,5,6,7和8。在实施例1中,分别得到另外3组标记物(称为NRC-4,_5和-6)。各组含有30个基因(见表1)。这些组靶向通过NRC-1,-2和-3分级的高-风险组。-步骤12c作为任选的步骤,在实验1中进行的,以获得用于肿瘤的第2亚-类型的生物标记物(在实施例1中,ER-肿瘤),提取数据组1和2中的全部第2亚型样品(例如分别自数据组1和2的ER-样品,及分别定义为Sl-ER-(提取自数据组1)和S2-ER-(提取自数据组幻组)。通过自数据组2,亚型2组(例如S2-ER-组)随机挑选N个样品(N =40)产生35个随机-练习-组。维持如总体数据组2,亚型2组(S2-ER-组)中的“良性” 和“恶性”肿瘤比。通过将数据组1,2型(例如S1-ER-)添加到上述35个随机-练习-组来得到练习-组(36个,在实施例1中)。使用数据组1,亚型2 (例如S1-ER-)和数据组2, 亚型2 (例如S2-ER-)组重复步骤4来获得组合的数据组,亚型2 (例如M-ER-)基因表达信号列表,然后进行GO分析。然后重复步骤5,6,7和8。在实施例1中,得到另外3组标记物(分别称为NRC-7,-8和_9。各组含有30个基因,见表1)。这些组用于ER-样品。测试过程概观,实施例1:在实施例1中,对于各标记物组,采用最近皱缩的形心分级和略一法 (leave-one-out method)。然后我们一起组合使用了 3个标记物组,用于预测各样品的复发。对于给定的数据组,其含有η个样品,用于实施例1的测试过程如下(逐步)步骤13 对于靶标的测试样品,我们提取了标记物组的基因表达谱。对于各基因表达值,我们倍增其标记物-因子及获得测试样品的修饰的基因表达谱。我们使用PAM 方法由对于标记物组的η-1个样品计算了对于“良性”和“恶性”类二者的标准化的形心 (Tibshirani等人,PNAS,99 =6567,2002) 倍增各基因的标记物-因子至类形心(class centroid),并获得标记物组的修饰的类形心。为了使用标记物组预测靶标的测试样品的复发我们比较样品的修饰的基因表达谱与各这些修饰的类形心。最接近的形心的类,在平方的距离中,是对于该样品的预测的类。如果样品被预测为“良性”肿瘤,其被表示为0,否则,其被表示为1。步骤14 对于ER+样品,如果对于全部3个标记物组样品预测为0,我们将其分配在低-风险组中;如果对于全部3个标记物组样品预测为1,我们将其分配到高-风险组;如果样品未分配在低-风险组中,也未分配在高-风险组中,我们将其分配到中等-风险组。 对于ER-样品,对于全部3个标记物组样品预测为0,我们将其分配到低-风险组,否则,我们将其分配到高-风险组。这是将两可样品分配到中等组的通常实践的修饰。在高度攻击性的癌亚型的情况中,可期望分类不是明显如高风险低-风险的全部癌,并攻击性地治疗它们,超过护理的普通标准物。3个测试数据组中的标记物组的有效性为了测试标记物组的稳健性及预测精确度,我们测试了自这些出版物的3个独立乳腺癌数据组中的标记物组(Koe et al.,Cancer Cell, 2006 ;Chang et al.,PNAS 102 3738,2005 and Sotiriou C,et al. ,J. Natl Cancer Inst,98 J62,2006),测试总共 644 个样品。对于ER+样品,在各数据组中,我们首先使用了 NRC-1,_2和-3标记物组(自以上提及的3个乳腺癌数据组)来将样品分级为低(LG),中等(MG)和高(HG)-风险组。如果高-风险组具有少于10个样品,我们合并了 MG和HG组及将其称为中等-风险组。另外, 我们使用了 NRC-4,-5和-6标记物组来将HG组分级为3个新组低(NLG),中等(NMG)和高(NHG)-风险组。我们合并了 NLG和MG,并将其称为中等-风险组,且合并NMG和NHG及将其称为高-风险组。LG是低-风险组。我们获得了对于低-风险组具有高预测性精确度(对于非-复发患者 90% )的非常良好的结果,并在全部3个测试数据组中良好地分了 3组(见表2)。对于ER-样品,在各数据组中,我们使用了 NRC-7,-8和_9标记物组来将样品分级为低(LG-)和高(HG-)-风险组。我们也获得了对于低-风险组具有高预测精确度(对于非-复发患者 92 100% )的非常良好的结果,并在全部3个测试数据组中良好地分了 2组(见表2)。标记物组的组合利用改善预测精确度对于ER+样品,当NRC-I,NRC-2和NRC-3全部一致地预测样品为“良性”肿瘤时,精确度相比使用单标记物组(例如NRC-I,NRC-2或NRC-3)显著改善(表3)。当对于ER-样品,NRC-7,NRC-8和NRC-9全部一致预测样品为“良性”肿瘤时,得到相同的结果(表3)。一般而言,发现3个标记物组的综合利用相比使用单组改善预测性精确度。在本发明的一实施方式中,精确度自约70 %改善到约90 %。在本发明的一实施方式中,精确度是至少90 %。 在另一实施方式中其为至少95%。由此,本文提供了稳健的生物标记物组及其用途。应理解,依赖于癌的类型,及患者条件,不同基因表征可认为是“恶性”的。转移通常认为是决定如何治疗患癌患者的重要因素,而生物标记物组物组(例如本文公开的那些)对于该目的有用。此外,生物标记物组可用于鉴定可能良好(或差地)响应一种或更多特定药物的癌细胞类型。无论确切的因素被认为是“良性”或“恶性”,通常期望以含有“良性”和“恶性”基因二者的练习组Sl和S2开始方法。当鉴定良好药物靶标时可考虑基因表达水平,由于高度-表达的靶常是良好的药物靶标。一般而言,低-风险组(具有“良好预后标记”)不会经历治疗,但高-风险组(具有“差预后标记”)应接收除手术之外的治疗。一般而言,中等-风险组也会同样;但是,此会依赖于对于该肿瘤类型的一般标准的护理。本文个别公开了在预测对额外的治疗的需求中有用的各生物标记物组,通过使用多生物标记物组可显著改善总体预测精确度。例如,如果针对NRC_1,NRC_2和NRC_3筛选患者样品,且全部3组指示“良性”预后,患者被认为是低风险。如果全部指示“恶性”预后,样品被认为是高风险。如果1或2组说“恶性”而其他说是“良性”,癌被认为是中等风险。在本发明的实施方式中,为了测定关于任何1个生物标记物组(例如NRC_1)患者样品是否是“良性”或“恶性”,将生物标记物组用于独立地筛选自大量的患者的2库癌细胞代表样品。第1库代表“良性”癌细胞(具有已知的不呈现关注的行为或特征,例如转移的临床历史),而第2库代表“恶性”癌细胞(具有已知的呈现关注的行为或特征的临床历史)。各“良性”和“恶性”库会对于各生物标记物组分别产生基因表达标记(对于“良性” 和“恶性”肿瘤的标准“良性”和“恶性”基因表达标记)。对于患者样品,将患者样品的生物标记物组的基因表达标记与生物标记物组的标准“良性”和“恶性”基因表达标记比较。 最接近地模拟生物标记物组的标准“恶性”标记的那些患者样品被认为是“恶性”,而最接近地模拟生物标记物组的标准“良性”标记的那些被认为是“良好”。在一些情况中方法可涉及一种或更多以下癌生物标记物组的组合使用NRC_1, NRC-2, NRC-3, NRC—4,NRC—5,NRC-6, NRC-7, NRC—8,NRC-9
当已鉴定亚型(对于此例,ER+/ER-)时使用所述方法的一种可能的方法例-对于癌细胞的肿瘤样品测定ER状态(此常常在临床环境下进行)。-对于ER+样品,如果对于全部3个标记物组(NRC-1,_2和-3),样品预测为“良性”,将其分配到低-风险组;如果对于全部3个标记物组,样品预测为“恶性”,将其分配到高-风险组;如果样品未被分配到低-风险组或高-风险组,将其分配到中等-风险组。-对于ER+高-风险组,其通过标记物组(NRC-1,_2和- 定义,使用标记物组 (NRC-4,-5和-6)再次预测。如果对于全部3个标记物组样品预测为“恶性”,将其分配到高-风险组。另外,将其分配到中等-风险组,其通过NRC-1,-2和-3定义。-对于ER-样品,对于全部3个标记物组(NRC-7,_8和-9)样品预测为“良性”,将其分配到低-风险组,另外,将其分配到高-风险组。在本发明的实施方式中提供了评定患者受益于手术之外的额外的癌治疗的似然性的方法,所述方法包括-将标记物组的基因探针打印到微阵列基因芯片上-自肿瘤样品提取信使RNA。-将信使RNA杂交到微阵列基因芯片。-扫描杂交的微阵列芯片,以获得对于样品的标记物基因的全部读数。-标准化读数-对于样品,构建各标记物组的基因表达谱-将各标记物组的基因表达谱与标准(已知为“良性”和“恶性”)肿瘤样品的那些关联,以进行预测。对于制造微阵列基因芯片,扫描及标准化阵列数据的详细信息可见于在以公共渠道可得到的文献中,Agilent 公司网站:http//www, chem. aRilent. com/en-US/products/ instruments/dnamicroa rrays/pages/default. aspx0表1A.用于ER+和ER-乳腺癌患者的NRC生物标记物基因标记的列表
1权利要求
1.用于鉴定肿瘤特征的方法,所述方法包括以下步骤(1)获得各预测目标特征的3个不同标记物组;(2)自肿瘤细胞获得样品基因表达信号;(3)添加报告子以影响样品中的变化,用于允许评定肿瘤中的目标基因表达信号;(4)将基因表达信号与报告子组合;(5)将提取的基因表达信号与3个不同标记物组关联;(6)根据以下顺序将指定分配给提取的基因表达信号(a)如果全部3个预测性基因表达信号组的关联预测其具有关注的特征,将其指定为恶性肿瘤;(b)如果全部3个预测性基因表达信号组的关联预测其缺乏关注的特征,将其指定为良性肿瘤;(c)如果全部3个预测性基因表达信号组的关联不提供相同的预测的临床结果,将所述肿瘤指定为“中等”;(7)输出所述指定。
2.权利要求1的方法,其中关注的特征涉及下列之一种或多种转移,发炎,细胞周期, 免疫学应答基因,药物抗性基因,及多-药物抗性基因。
3.权利要求1的方法,其中肿瘤特征是导致差患者手术后存活的趋势。
4.权利要求3的方法,其中步骤4包括根据以下顺序将值分配给提取的基因表达信号(a)如果全部3个预测性基因表达信号组的关联预测其为恶性肿瘤,将其指定为恶性肿瘤,并将建议超过一般标准的护理的更攻击性的治疗;(b)如果全部3个预测性基因表达信号组的关联预测其为良性肿瘤,不建议超过护理标准的治疗,且不建议手术后化学治疗或放射治疗;(c)如果全部3个预测性基因表达信号组的关联不提供相同的预后,将所述肿瘤指定为“中等”,并建议完全一般标准的护理治疗,包括化学治疗和/或放射治疗。
5.权利要求1的方法,其在步骤1之前包括预先步骤(a)鉴定待检查的肿瘤亚型(b)选择特异于所述肿瘤亚型的标记物组。
6.用于测定权利要求1中使用的类型的预测性基因表达信号组的方法,包括以下步骤(1)获得对于目标癌的已知的肿瘤群的目标特征的基因表达信号信息和患者临床信息;(2)将基因表达信号与有关目标特征的临床患者信息关联,以鉴定哪些基因具有对于临床结果的预测力;(3)自鉴定的基因表达信号创建至少30个随机练习数据组;(4)比较步骤1的鉴定的基因表达信号与一列已知的在癌中活跃的基因;(5)选择对应于已知的癌基因列表上的那些的鉴定的基因表达信号;(6)根据它们在生物学过程中的作用将选择的鉴定的基因表达信号分组;(7)自步骤6的选择的基因表达信号组产生至少25个基因的随机基因表达信号组;(8)将所述随机基因表达信号组与步骤3中获得的随机练习数据组关联;(9)自对于步骤7的各基因表达信号组的关联获得用于存活筛选的P值;(10)如果对于多于90%的随机练习数据组,用于基因表达信号组的P值小于0.05,则保持所述基因表达信号组;(11)基于组中基因出现的频度排序步骤10中保持的随机基因表达信号组;(12)选择排在前面的至少沈个基因作为潜在候选标记物;(13)重复步骤7 12,并产生至少沈个基因的另一,独立,排序组;(14)比较自步骤12及步骤13的排在前面的基因;(15)如果多于25个基因相同,将所述排在前面的基因保持为标记物组;(16)重复两次步骤7 15,以获得3个不同标记物组;(17)输出所述3个不同标记物组。
7.权利要求6的方法,其中根据它们在生物学过程中的作用的选择的鉴定的基因表达信号的分组使用基因本体论分析进行。
8.权利要求6的方法,其中在步骤3中,创建30和50之间个随机练习组。
9.权利要求8的方法,其中创建30和40之间个练习组。
10.权利要求6的方法,其中在步骤4中,已知在癌中活跃的基因选自负责转移,细胞增殖,肿瘤血管化及药物应答的基因。
11.权利要求6的方法,其中在步骤7中,产生约750,000和1,250,000之间个随机基因表达信号组。
12.权利要求6的方法,其中在步骤7中,产生约900,000和1,100,000之间个随机基因表达信号组。
13.权利要求6的方法,其中在步骤7中,产生约1,000,000随机基因表达信号组。
14.权利要求6的方法,其中在步骤7中,产生的随机基因表达信号组含有约25和50 之间个基因。
15.权利要求6的方法,其中在步骤7中,产生的随机基因表达信号组含有约28和32 之间个基因。
16.权利要求6的方法,其中在步骤12中,选择排在前面的沈 50个基因。
17.权利要求6的方法,其中在步骤12中,选择排在前面的观 32个基因。
18.权利要求1的方法,其中肿瘤是哺乳动物肿瘤。
19.权利要求18的方法,其中肿瘤是下列之一的肿瘤人,猿,猫,狗,猪,牛,绵羊,山羊,兔,小鼠,大鼠,豚鼠,仓鼠或沙鼠。
20.权利要求4的方法,其中至少一种癌生物标记物组选自基本上由下列构成的列表 NRC-I,NRC-2, NRC-3, NRC-4,NRC-5,NRC-6,NRC-7,NRC-8 和 NRC-9。
21.试剂盒,其包含至少3个标记物组及用于实施权利要求1的方法的使用说明。
22.权利要求21的试剂盒,所述试剂盒包含列于表IA或IB的至少10个基因表达信号。
23.权利要求21的试剂盒,其含有根据权利要求6的方法鉴定的至少30种核酸生物标记物。
24.表IA或IB中的任何序列用于鉴定一种或更多目标肿瘤特征的用途。
25.权利要求23的用途,其中使用至少3个不同标记物组。
26.权利要求5的方法,其中癌生物标记物是乳腺癌生物标记物,且样品的第1亚型是 ER+样品。
27.权利要求5的方法,其中随机练习组如下产生随机挑选样品,同时维持与选出它们的其他组相同的“良性”和“恶性”肿瘤比。
28.权利要求1的方法,其中将指定为恶性肿瘤的全部基因表达值分组,并进行以下步骤(1)自鉴定的基因表达信号创建至少30个随机练习数据组;(2)比较新组的鉴定的基因表达信号与一列已知的在癌中活跃的基因;(3)选择对应于已知的癌基因列表上的那些的鉴定的基因表达信号;(4)根据它们在生物学过程中的作用将选择的鉴定的基因表达信号分组;(5)自步骤4的选择的基因表达信号组产生至少25个基因的随机基因表达信号组;(6)将所述随机基因表达信号组与步骤1中获得的随机练习数据组关联;(7)自对于步骤6的各基因表达信号组的关联获得用于存活筛选的P值;(8)如果对于多于90%的随机练习数据组,用于基因表达信号组的P值小于0.05,则保持所述基因表达信号组;(9)基于组中基因出现的频度排序步骤8中保持的随机基因表达信号组;(10)选择排在前面的至少沈个基因作为潜在候选标记物;(11)重复步骤5 10,并产生至少沈个基因的另一,独立,排序组;(12)比较自步骤10及步骤11的排在前面的基因;(13)如果多于25个基因相同,将所述排在前面的基因保持为标记物组;(14)重复两次步骤5 13,以获得3个新的和不同的标记物组;(15)输出所述3个不同的新标记物组。
全文摘要
用于鉴定肿瘤特征的方法包括获得各预测目标特征的3个不同标记物组,自肿瘤细胞获得样品基因表达信号,添加报告子以影响样品中的变化,用于允许评定肿瘤中的目标基因表达信号,将基因表达信号与报告子组合,将提取的基因表达信号与3个不同标记物组关联,根据以下顺序将指定分配给提取的基因表达信号如果全部3个预测性基因表达信号组的关联预测其具有关注的特征,将其指定为恶性肿瘤;如果全部3个预测性基因表达信号组的关联预测其缺乏关注的特征,将其指定为良性肿瘤;及,如果全部3个预测性基因表达信号组的关联不提供相同的预测的临床结果,将所述肿瘤指定为“中等”;及,输出所述指定。
文档编号C12Q1/68GK102421920SQ201080020971
公开日2012年4月18日 申请日期2010年4月16日 优先权日2009年4月16日
发明者A·Eg·伦费林克, E·普里西马, E·王, M·D·奥康纳-麦考特, 李 杰, 邓迎海 申请人:加拿大国家研究委员会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1