结肠直肠癌的预后预测的制作方法

文档序号:5102269阅读:392来源:国知局

专利名称::结肠直肠癌的预后预测的制作方法
技术领域
:本发明涉及判断癌症尤其是结肠直肠癌(colorectalcancer)患者的预后的方法和组合物。具体而言,本发明涉及基因标记在判断癌症如结肠直肠癌的预后中的应用,所述应用基于预后信号。
背景技术
:结肠直肠癌(CRC)是发达国家最常见的癌症之一,而且它的影响范围还在持续扩大。尽管结肠直肠癌从良性息肉到腺瘤到癌的发展进程已被研究透彻(l),但分子机制对于肿瘤转移的转变和确立的影响仍不是十分清楚。目前CRC的预后和治疗是依靠诊断时对于疾病的临床病理分期,和一期外科治疗。不幸的是仅靠疾病分期并不能准确预测单个患者的预后。若能更准确地预测患者预后,就可调整治疗以避免将会复发的治疗不足(under-treating)患者,或仅靠手术治疗的过度治疗患者。已经作了大量的尝试以识别预测CRC临床预后的标记。直到最近致力于单个蛋白或基因成熟的大多数研究才获得关于预后信息的有限成果(2)。微阵列技术能识别基因集,即与癌症预后相关的所谓的分类器或信号。该方法被应用到多种癌症中,包括CRC(3-5),但在方法上的缺陷和缺乏独立验证引起了对该方法的怀疑(6,7)。而且,由于不同研究者采用不同技术平台和方法得到的识别一致性较差,还出现了对预测预后的分离器/信号能力的怀疑(8)。因此需要更多的手段来预测结肠直肠癌的预后。本发明提供了更多的基于癌症预后标记、尤其是结肠直肠癌预后标记的方法,组合物,试剂盒和装置,以帮助癌症的预后和治疗。发明简述在某些实施方式中,提供了一组经识别在复发和不复发结直肠肿瘤中差异表达的标记基因。这组基因可用于产生含有两个或多个标记的可预测患者结直肠肿瘤发展进程的预后信号。根据肿瘤是否为复发的,单个标记的表达会有差异。通过将标记整合到预后信号中可提高预测的准确性,其相比单基因方法可提供更有效的个体检测。还提供技术的应用,如预后信号的统计,机器学习,人工智能,和数据挖掘以产生预测模型。在另一实施方式中,患者肿瘤中特定预后信号的标记的表达水平被应用到判断预后的预测模型中。在某些实施方式中,标记的表达水平可通过微阵列技术,定量聚合酶链式反应(qPCR),或免疫方法来确立。参考特定实施方式和附图来描述本发明,其为图1为流程图,显示了来自于149例新西兰(NZ)和55例德国(DE)结肠直肠癌(CRC)样品的预后信号的制备方法。将新西兰RNA样品与含有经留一法交叉验证(LOOCV)制备的22基因信号的寡核苷酸点阵列进行杂交,然后利用55例德国样品数据组通过LOOCV进行独立验证。将德国RNA样品与含有经LOOCV制备的19基因信号的Affymetrix阵列进行杂交,然后利用新西兰数据组通过LOOCV进行独立验证。图2为高肿瘤复发风险和低肿瘤复发风险的患者无病存活时间的卡普兰-迈耶分析(Kaplan-Meier):a,对149例新西兰肿瘤患者使用NZ22基因信号;b,对55例德国肿瘤患者使用DE19基因信号;c,由55例德国肿瘤患者验证NZ预后信号;d,由149例新西兰肿瘤患者验证DE预后信号。由时序检验法(log-rank)计算P值。图3为高肿瘤复发风险和低肿瘤复发风险的患者无病存活时间的卡普兰-迈耶分析(Kaplan-Meier):a,在新西兰II期和III期癌症患者上使用22基因NZ信号;b,在新西兰II期和III期癌症患者上使用19基因DE信号。图4显示了结肠直肠癌预后可变长度信号的预测值。这些信号源自于11重交叉验证(l1-foldcrossvalidation)的10次重复运行。用不同的虚线指示11重交叉验证的每次重复;用粗线指示交叉重复的平均值。在交叉验证的每重中,若交叉级别的倍数变化<1.1则去除基因(因为在该重中未取出保留样品)。然后利用修正t-统计法将基因分类,获得每重中不同的基因集,并为每重建立利用前n基因(n二2-200)的分类器。因此11重交叉验证的每次重复的每重中的基因都是不同的。图4A:基因数目/信号的灵敏度(正确分类的复发肿瘤比例)。图4B:基因数目/信号的特异性(正确分类的不复发肿瘤比例)。图4C:基因数目/信号的分类率(正确分类的肿瘤比例)。统计员所用术语如下i表示i期或n期结肠直肠癌(未发展),而IV表示最后发展成iv期转移癌。图5显示了除FAS和ME2两个基因外(从数据组中去除)在图4实验的重复中,降低的结肠直肠癌预后信号预测值。图5A:基因数目/信号的灵敏度(正确分类的复发肿瘤比例)。图5B:基因数目/信号的特异性(正确分类的不复发肿瘤比例)。图5C:基因数目/信号的分类率(正确分类的肿瘤比例)。图6显示了"前数(topcount)"的对表(每个基因出现在"前-n"基因列的次数,即,实施例17中描述的前10,前20,前100和前325),如以下的实施例17,其采用了利用R统计计算包的三种不同的标准化方法。Becker等在其关于S语言的论文中(以R语言为基础;参见参考文献39)描述过"对(pairs)"表。为比较方法,用对角线上定义的行和列以在这两种方法之间获得弥散点,类似于在按比例制取的地图上读取距离。图7显示了前数的对表(每个基因出现在"前n"基因列表中的次数,即,实施例17中描述的前10,前20,前100和前325),其采用了三种不同的过滤统计法(a)双样品威斯康星检验法(Wilcoxon)(41),(b)t-检验法(利用分母中的ad-hoc修正系数修正以消除错误表现为显著的低差异基因的影响)和(c)由Bioconductor(12,40)的"limma"(10,40,42)包提供的经验贝叶斯法(empiricalBayes)
发明内容详述在详细描述发明实施方式之前的定义,用于解释本文所用某些术语的定义。术语"标记"是指与生物现象的出现定性或定量相关的一类分子。"标记"的实例包括聚核苷酸,如基因或基因片段,RNA或RNA片段;或基因产物,包括多肽如肽,寡肽,蛋白,或蛋白片段;或任意相关的代谢物,副产物,或任何其它识别分子,如抗体或抗体片段,无论与现象潜在机制是直接还是间接相关。本发明的标记包括本文所公开的核苷酸序列(如GenBank序列),尤其是全长序列,任意编码序列,任意片段,或它的任意互补序列,和上述的任意可测量标记。术语"CCPM"或"结肠直肠癌预后标记"或"CCPM家族成员"是指与特定预后(如本文所述的较高或较低的癌症复发可能性)相关的差异表达的标记,但不包括现有技术中己知的与结肠直肠癌预后相关的分子。应理解的是术语CCPM不要求标记仅对结直肠肿瘤是特异的。而是,在其它类型的肿瘤(包括恶性肿瘤)中CCPM的表达可能会改变。术语"预后信号""信号"等等是指一组含两种或多种的标记,例如CCPM,当它们作为组被共同分析时能够判断或预测事件,例如结肠直肠癌的预后结果。采用含有两种或多种标记的信号可降低个体差异的影响并获得更稳健的预测。CCPM的非限制性实例在表1,2,5和9中列出,而预后信号的非限制性实例在表3,4,8A,8B和9中列出。在本发明的上下文中,涉及任意特定组所列的"至少一种","至少两种""至少五种"等任意特定组所列(例如任意信号)的标记意味着所列标记的任一或任意或整体组合。术语"预测方法"被定义为覆盖了来自于统计,机器学习,人工智能和数据挖掘领域的宽泛方法种类,它们可用于指定的预测模型。这将在发明详述部分中进一步讨论。术语"预测模型"是指通过将预测方法应用到一组数据中而获得的特定数学模式。在本文详述的实施例中,这类数据组是由取自复发和不复发结肠直肠癌患者的组织样品中的基因活性测定值所组成的,且每个样品的分类(复发型或不复发型)是已知的。该模式可用于(1)将未知复发状态的样品归类为复发型或不复发型,或(2)做概率预测(即生成表示概率的比例或者百分比),它表示未知样品为复发型的可能性,其基于对未知样品中mRNA的表达水平或表达产物以及特定基因集的测定。这类特定基因如何组合以产生归类和概率预测的具体细节取决于用于构建所述模型的预测方法的特定机制。当"灵敏度""特异性"(或"选择性"),和"分类率"用于描述预测模型的有效性时,其意义如下"灵敏度"表示被预测(依靠模型)为阳性的真阳性样品的比例,在CRC复发的检测中,即表示为由模型预测的复发肿瘤占复发肿瘤的比例。"特异性"或"选择性"表示被预测(依靠模型)为阴性的真阴性样品的比例。在CRC复发的检测中,即等于被模型预测为不复发肿瘤的不复发样品的比例。"分类率"是指由预测模型正确分类的所有样品的比例(为阳性或阴性)。本文所有的"抗体"和类似术语是指免疫球蛋白分子和免疫球蛋白(Ig)分子的免疫活性部分,即含有可与抗原特异结合(发生免疫反应)的抗原结合位点的分子。其包括但不限于多克隆抗体,单克隆抗体,嵌合体,单链,Fc,Fab,Fab',和Fab2片段,和Fab表达文库。抗体分子涉及任何种类的IgG,IgM,IgA,IgE,禾BIgD,它们的分子中重链特性相互区别。其还包括亚类,如IgGl,IgG2和其它。轻链可以是K链或入链。本文所涉及的抗体包括所有种类,亚类和类型。还包括嵌合抗体,例如对多于一种来源(如小鼠或人序列)有特异性的单克隆抗体或其片段。还包括camelid抗体,鲨鱼抗体(sharkantibodies)或纟内米抗体。术语"癌"和"癌型的"是指通常以异常的或失控的细胞生长为特征来描述的哺乳动物生理状况。癌和癌病理是与例如肿瘤转移,干扰正常的邻近细胞功能,以异常水平释放细胞因子或其它分泌产物,抑制或恶化炎症或免疫反应,瘤形成,癌前病变(premalignancy),恶性肿瘤,入侵周围或较远组织或器官如淋巴结等相关联的。具体包括结肠直肠癌,如肠癌(如大肠),肛门癌和直肠癌。术语"结肠直肠癌"包括结肠,直肠,和/或肛门的癌,具体是腺癌,还包括癌(如鳞状泄殖腔原癌(cloacogeniccarcinoma)),黑素瘤,淋巴瘤,和肉瘤。也包括表皮样癌(非角化鳞状细胞或基底细胞)。癌可能与特定类型的息肉或其它病变,例如管状腺瘤,绒毛管状腺瘤(tubulovillousadenomas)(如绒毛腺性息肉),绒毛(例如乳头状)腺癌(带或不带腺癌),增生性息肉,错构瘤,幼年性息肉,息肉样癌,假息肉,脂肪瘤,或平滑肌瘤是相关的。癌还可能与家族性息肉和相关病症如加德纳综合症(Gardner'ssyndrome)或黑斑息肉综合症(peutz-Jegherssyndrome)相关联。癌可能与慢性瘘,照射肛门皮肤,粘膜白斑病,性病性淋巴肉芽肿,博文氏病(上皮内癌),尖锐湿疣,或人乳头瘤病毒相关联。在其它方面,癌可能与基底细胞癌,乳腺外佩吉特氏病(extramammaryPaget,sdisease),泄殖腔原的癌,或恶性黑素瘤相关。术语"差异表达""差异的表达"和类似短语是指基因标记在个体(如检测样品)中的表达相对于在对照个体(如参照样品)中的表达被激活至更高或更低水平,所述个体患有病症特别是癌症,如结肠直肠癌。该术语还包括在相同病症的不同分期;复发或不复发疾病;或高水平或低水平增殖的细胞中其表达被激活至更高或更低水平的标记。差异表达的标记可以是在聚核苷酸水平或多肽水平被激活或被抑制,或可能经过选择性剪接而生成了不同的多肽产物。这种差异可以体现为例如多肽在mRNA水平,表面表达,分泌或其它划分(partitioning)上的变化。差异表达可包括两种或多种标记(例如基因或其基因产物)表达的对比;或两种或多种标记(例如基因或其基因产物)表达率的对比;或同一标记的两种不同加工产物(例如转录物或多肽)的对比,它们在正常个体和患病个体之间,或同一疾病的不同分期之间;或复发和不复发疾病之间;或高水平增殖细胞和低水平增殖细胞之间;或正常组织和病变组织具体是癌或结肠直肠癌之间是有差异的。差异表达包括在例如正常和病变细胞之中,或经历不同疾病机制或病期的细胞之中,或不同增殖水平的细胞之中的基因或其表达产物的时间或细胞表达模式的定量以及定性差异。术语"表达"包括聚核苷酸和多肽的产生,尤其是,由基因或基因片段产生RNA(如mRNA),还包括由RNA或基因或基因片段编码产生多肽,和与表达相关的可检测物质的出现。例如,复合物的形成,例如源于多肽与多肽相互作用的,源于多肽与核苷酸相互作用的等也包括在术语"表达"的范围内。另一实例是结合配体(如杂交探针或抗体)与基因或其它聚核苷酸或寡核苷酸,多肽或蛋白片段的结合,和配体的可视化。因而,在微阵列上,在杂交印迹如RNA印迹上或在免疫印迹如蛋白印迹上,或在球微阵列上,或通过PCR分析的点的光密度也属于术语基本生物分子的"表达"。可互换使用的术语"表达阈值"和"定义的表达阈值"是指所讨论的标记水平超出了聚核苷酸或多肽作为患者存活且不复发癌症的预测标记。阈值取决于由如以下实施例所述的临床实验研究而建立的预测模型。根据所采用的预测模型,表达阈值可开始获得最高灵敏度,或最强特异性,或最小误差(最佳分类率)。例如更高阈值可实现最小误差,但它可造成较低的灵敏度。因此,对于任何给定的预测模型,需通过临床研究来设定通常可获得最高灵敏度又具备最小误差率的表达阈值。任何情况下表达阈值的确定都是本领域技术人员熟知的。本文所用的术语"长期存活"是指经手术或其它治疗后存活至少5年,优选至少8年,最优选至少10年。术语"微阵列"是指规则或不规则的捕获剂的排列,优选在基片上的聚核苷酸(探针)或多肽。参见如MicroarrayAnalysis,M.Schena,JohnWiley&Sons,2002;MicroarrayBiochipTechnology,M.Schena,ed.,EatonPublishing,2000;GuidetoAnalysisofDNAMicroarrayData,S.Knudsen,JohnWiley&Sons,2004;禾卩ProteinMicroarrayTechnology,D.Kambhampati,ed.,JohnWiley&Sons,2004。术语"寡核苷酸"是指一种聚核苷酸,通常是一种探针或引物,包括但不限于单链脱氧核糖核苷酸,单链或双链核糖核苷酸,RNA:DNA杂交链,和双链DNAs。寡核苷酸,如单链DNA探针寡核苷酸,通常经化学方法合成,例如通过商业可供的自动寡核苷酸合成仪,或通过多种其它方法合成,包括体外表达体系,重组技术,和在细胞和生物体中的表达。单数形式或复数形式的术语"聚核苷酸",通常是指任何聚核糖核酸或聚脱氧核糖核酸,其可以是未经修饰的RNA或DNA或经修饰的RNA或DNA。包括但不限于单链和双链DNA,含有单链和双链区域的DNA,单链和双链RNA,和含有单链和双链区域的RNA,含有RNA和DNA的杂交分子其可以是单链或更通常是双链或含有单链和双链区域。还包括含有RNA或DNA或同时含有RNA和DNA的三链区域分子。具体包括mRNAs,cDNAs,和基因组DNAs,和它们的任意片段。术语包括含有一个或多个修饰碱基(如含氚碱基,或稀有碱基)的DNAs和RNAs,如次黄嘌呤核苷。本发明的聚核苷酸还包括编码或非编码序列,或正义或反义序列。应理解的是本文中涉及"聚核苷酸"或类似术语即包括全长序列以及它的任意片段,衍生物,或变异体。本文所用的"多肽"是指寡肽,肽,或蛋白序列,或其片段,和天然存在的,重组的,合成的,或半合成的分子。本文所述的"多肽"是指天然存在的蛋白分子的氨基酸序列,"多肽"和类似术语并不限定氨基酸序列是完整的,天然的全长分子的氨基酸序列。应理解的是本文中涉及"多肽"或类似术语即包括全长序列以及它的任意片段,衍生物,或变异体。术语"预后"是指对医疗结果的预测,例如差的或好的结果(如长期存活的可能性);阴性预后,或差的结果,包括复发,疾病发展(如肿瘤生长或转移,或药物抗性),或死亡的预测;而阳性预后,或好的结果,包括疾病缓解(如无病状态),病情改善(如肿瘤衰退),或病情稳定的预测。术语"增殖"是指引起细胞大小或细胞数量增多的过程,可包括一种或多种肿瘤或细胞的生长,血管生成,神经支配,和癌转移。术语"qPCR"或"QPCR"是指在例如PCRTechnique:QuantitativePCR,J.W.Larrick,ed.,EatonPublishing,1997,禾卩A-ZofQuantitativePCR,S.Bustin,ed.,IULPress,2004中所述的定量聚合酶链式反应。术语"肿瘤"是指所有的无论是恶性或良性的肿瘤细胞生长和增殖,和所有癌前和癌细胞和组织。本领域普通技术人员可容易地确定的杂交反应的"严格性",通常是根据探针长度,洗涤温度,和盐浓度得到的经验结果,通常,较长探针要求更高的退火温度,而较短探针需要更低的退火温度。杂交通常取决于变性DNA在互补链处于低于其熔点温度的环境中时的再退火能力。探针和杂交序列之间理想的同源性越高,所采用的相对温度也越高。结果是更高的相对温度使反应条件趋于更严格,而较低温度使其更不严格。关于杂交反应的严格性的更多细节和解释可参见例如Ausubeletal.,CurrentProtocolsinMolecularBiology,WileyIntersciencePublishers,(1995》本文所定义的"严格条件"或"高度严格条件"通常是(1)洗涤中采用低离子强度和高温,例如0.015M氯化钠/0.0015Ms柠檬酸钠/0.P/。十二垸基硫酸钠于50。C;(2)在杂交过程中使用变性剂,如甲酰胺,例如含0.1%牛血清白蛋白的50o/。(v/v)甲酰胺/0.1%聚蔗糖(Ficoll)/0.1%聚乙烯吡咯垸酮/含750mM氯化钠,75mM柠檬酸钠pH6.5的50mM磷酸钠缓冲液于42。C;或(3)采用50%甲酰胺,5XSSC(0.75MNaCl,0.075M柠檬酸钠),50mM磷酸钠(pH6.8),0.1%焦磷酸钠,5X丹哈德溶液(Denhardt'ssolution),超声处理的鲑鱼精DNA(50pg/ml),0.1%SDS,和10%硫酸葡聚糖于42°C,以及于42匸用0.2乂88(:(氯化钠/拧檬酸钠)和50%甲酰胺于55'C洗涤,然后利用含有包括EDTA的0.1XSSC于55'C进行高度严格的洗涤。"适度严格条件"可认为是如Sambrooketal.,MolecularCloning:ALaboratoryManual,NewYork:ColdSpringHarborPress,1989中所述,包括采用低于以上所述严格的洗涤液和杂交条件(如温度,离子强度和。/。SDS)。适度严格条件的实例是在含有20%甲酰胺,5XSSC(150mMNaCl215mM柠檬酸三钠),50mM磷酸钠(pH7.6),5X丹哈德溶液(Denhardt'ssolution),10%硫酸葡聚糖,和20mg/ml变性剪切鲑鱼精DNA的溶液中37'C温育过夜,然后用IXSSC约37-50'C洗涤。技术人员熟知根据探针长度等类似因素如何必要地调整温度,离子强度等。除非另有说明,在本发明的操作中将采用常规的分子生物(包括重组技术),微生物,细胞生物和生物化学技术,这些技术都属于现有技术范畴。此类技术在下列文献中有详细解释,例如MolecularCloning:ALaboratoryManual,2ndedition,Sambrooketal.,1989;OligonucleotideSynthesis,MJGait,ed.,1984;AnimalCellCulture,RJ.Freshney,ed.,1987;MethodsinEnzymology,AcademicPress,Inc.;HandbookofExperimentalImmunology,4thedition,D.M.Weir&CC.Blackwell,eds"BlackwellScienceInc.,1987;GeneTransferVectorsforMammalianCells,J.M.Miller&M.P.Calos,eds.,1987;CurrentProtocolsinMolecularBiology,F.M.Ausubeletal"eds"1987;禾卩PCR:ThePolymeraseChainReaction,Mullisetal"eds.,1994。具体实施例方式已有关于结肠直肠癌中预后标记的不佳效果的报导。本发明公开了一种微阵列在获得稳固结论,确定结肠直肠癌中特定预后信号的预后作用中的应用。本文中基于微阵列的研究证实了结肠直肠癌中具体预后信号与预后是相关联的。因此本发明可用于识别癌症复发风险高的患者或复发可能性高的患者。本发明提供了判断疾病预后的标记,例如包括结直肠肿瘤的肿瘤复发可能性。采用本发明的方法,发现了大量标记与结肠直肠癌预后是相关的,并可用于预测疾病结果。对不同病期的结直肠肿瘤患者样品的微阵列分析获得了预料不到的发现,即标记表达的特定模式与癌症预后是相关的。因此本发明提供了一组基因(如表1和表2所列),其在复发和不复发结肠直肠癌中是差异表达的。表1和表2所列基因提供了一组结肠直肠癌预后标记(CCPMs)。某些结肠直肠癌预后标记(CCPMs)的减少,如与免疫反应相关的标记,指示特定的预后。其包括经标准治疗后癌症复发可能性的增加,尤其是结肠直肠癌。相反地,其它CCPMs的增加指示另一特定的预后。包括疾病发展或癌症复发可能的增加,尤其是结肠直肠癌。表达的减少或增加可通过例如将检测样品(如患者肿瘤样品)与参照样品(如已知预后的相关样品)进行对比来确定。尤其可采用一种或多种来自不复发癌症患者的样品作为参照样叩O例如,为获知预后,可将患者样品(如肿瘤样品)中的表达水平与已知结果的患者样品进行比较。若患者样品与好结果(不复发)样品相比表现出一种或多种CCPMs表达水平的或高或低,就意味着是阳性预后,或不可能复发。若患者样品中一种或多种CCPMs表达与差结果(复发)样品相当,就意味着是阳性预后,或肿瘤的复发是可能的。另一实例中,将来自于患者样品(如肿瘤样品)的含有两种或多种CCPMs的预后信号的表达水平与复发/不复发癌样品进行比较。若患者样品表现出CCPMs的表达与不复发癌症样品相比或高或低和/或与复发癌症样品相当,即意味着是阴性预后。若患者样品表现出CCPMs表达与不复发癌症样品相当,和/或与复发癌症样品表达相比或高或低,则意味着是阳性预后。作为一种途径,可将预测方法应用到标记组,例如表1和表2所列的CCPMs组,以产生一种预测模型。其包括产生一种含两种或多种CCPMs的预后信号。因此表1和表2公开的CCPMs提供了一组用于产生可判断癌症预后,以及建立具体是针对肿瘤的治疗方案或治疗模式的预测信号的标记。具体地,阳性预后可用于患者决定选择标准或介入性较低的治疗。阴性预后可用于患者决定终止治疗或进行高侵袭性(highlyaggressive)或实验性治疗。此外,患者可根据对预后标记(如CCPMs)表达的影响来选择治疗。可通过任何适当技术来检测肿瘤组织,接近肿瘤的组织,淋巴结样品,血样,血清样品,尿样,或排泄物样品中的CCPMs水平,所述技术可包括但不限于寡核苷酸探针,定量PCR,或高度针对标记的抗体。需重视的是通过分析预测信号中的多个CCPMs的表达量和存在并构建预后信号(如表3,4,8A,8B,和9所列出),将提高预后的灵敏度和准确性。因此,本发明中的各种标记可用于判断癌症的预后。本发明包括存档的石蜡包埋的活检组织在分析成组标记中的应用,因此本发明适合于大多数广泛可用活检组织类型。还适合于几种不同肿瘤组织切取方法,例如,经穿刺活检或细针抽吸。在某些方面,将RNA从固定化的蜡包埋患者癌组织标本中分离出。分离可通过任何已知的现有技术来实施,例如穿刺活检组织或细针抽吸细胞。在一个方面,发明涉及了一种预测预后的方法,如癌症患者不复发癌症长期存活的可能性,包括测定取自患者的样品中一种或多种预后标记或其表达产物的表达水平,针对样品中其它RNA转录物或其产物的表达水平或RNA转录物或其表达产物的参考集的表达水平标准化。在特定方面,预后标记是表1,2或5中所列的一种或多种标记,或被包括作为源自表1,2和5中所列标记的一种或多种预后信号,或被包括作为表3,4,8A,8B或9所列的预后信号。在另一方面,测定了预后标记或其表达产物的表达水平,如表1,2或5所列的标记,源自于表l,2或5所列标记的预后信号,如表3,4,8A,8B或9所列的预后信号。在另一方面,所述方法包括测定全组预后标记或其表达产物(如表l,2或5所列的标记)或源自于表l,2或5所列标记的预后信号(如表3,4,8A,8B或9所列的预后信号)的表达水平。在其它方面,本发明涉及一种含有与两种或多种标记(如表l,2和5所列的标记)或源自于表l,2或5所列标记的预后信号(如表3,4,8A,8B和9所列的预后信号)杂交的聚核苷酸的阵列(如微阵列)。在一特定方面,所述阵列含有与源自于表l,2和5所列标记的预后信号或与如表3,4,8A,8B或9所列的预后信号杂交的聚核苷酸。在另一特定方面,所述阵列含有与全组标记(如表l,2或5所列的标记)或与如表3,4,8A,8B或9所列的预后信号杂交的聚核苷酸。这些阵列中,所述聚核苷酸可以是cDNAs,或寡核苷酸,并且显示它们的固体表面可以是例如玻璃。聚核苷酸可与本文所公开的一种或多种标记如全长序列,任意编码序列,或它们的任意互补序列杂交。在特定方面,一种或多种CCPM表达水平的增加或减少表示长期存活可能性的减少,如由于癌症复发,而一种或多种CCPM表达水平没有增加或减少则表示不复发癌症的长期存活可能性增加。表1:结肠直肠癌预测标记(对应显示出统计学显著差异表达的Affymetrix基因芯片探针,P<0.05,由BRB阵列分析仪确定的)<table>tableseeoriginaldocumentpage16</column></row><table><table>tableseeoriginaldocumentpage17</column></row><table><table>tableseeoriginaldocumentpage18</column></row><table><table>tableseeoriginaldocumentpage19</column></row><table><table>tableseeoriginaldocumentpage20</column></row><table><table>tableseeoriginaldocumentpage21</column></row><table><table>tableseeoriginaldocumentpage22</column></row><table><table>tableseeoriginaldocumentpage23</column></row><table><table>tableseeoriginaldocumentpage24</column></row><table><table>tableseeoriginaldocumentpage25</column></row><table><table>tableseeoriginaldocumentpage26</column></row><table><table>tableseeoriginaldocumentpage27</column></row><table><table>tableseeoriginaldocumentpage28</column></row><table><table>tableseeoriginaldocumentpage29</column></row><table><table>tableseeoriginaldocumentpage30</column></row><table><table>tableseeoriginaldocumentpage31</column></row><table>表2:其表达与NZ信号22基因的表达相关的标记<table>tableseeoriginaldocumentpage31</column></row><table><table>tableseeoriginaldocumentpage32</column></row><table><table>tableseeoriginaldocumentpage33</column></row><table><table>tableseeoriginaldocumentpage34</column></row><table><table>tableseeoriginaldocumentpage35</column></row><table><table>tableseeoriginaldocumentpage36</column></row><table><table>tableseeoriginaldocumentpage37</column></row><table><table>tableseeoriginaldocumentpage38</column></row><table><table>tableseeoriginaldocumentpage39</column></row><table>预后标记检测的常规途径以下途径是可用于检测包括CCPM家族成员的增殖标记的非限制性方法利用为CCPM所选的聚核苷酸探针的微阵列方法;利用CCPM特异性引物和探针的肿瘤样品的实时定量PCR;利用CCPM特异性引物和探针的淋巴结,血液,血清,排泄物,或尿液样品的实时定量PCR;酶联免疫吸附法(ELISA);利用抗标记抗体的免疫组织化学法;和阵列或定量PCR数据的计算机分析。其它可用方法包括RNA印迹和原位杂交(ParkerandBarnes,MethodsinMolecularBiology106:247-283(1999));RNA酶保护试验(Hod,BioTechniques13:852-854(1992));逆转录酶链式反应(RT-PCR;Weisetal.,TrendsinGenetics8:263-264(1992));基因表达的系列分析(SAGE;Velculescuet.al.,Science270:484-487(1995)和Velculescuetal.,Cell88:243-51(1997)),时间飞行质谱生物芯片系统技术(MassARRAYtechnology)(Sequenom,SanDiego,CA),和通过大规模平行信号测序技术的基因分析(MPSS;Brenneretal.,NatureBiotechnology18:630-634(2000))。可选择地,可采用能识别特定复合物的抗体,包括DNA双螺旋,RNA双螺旋,和DNA-RNA杂交双螺旋或DNA-多肽双螺旋。可收集原始数据并进行倍数变化分析,例如,通过对比肿瘤组织和非肿瘤组织中标记表达水平;通过对比复发肿瘤和不复发肿瘤中测得的标记表达水平;通过对比转移肿瘤和不转移肿瘤中测得的标记表达水平;通过对比不同病期肿瘤中测得的标记表达水平;或通过对比不同增殖水平的细胞中测得的标记表达水平。并根据这些分析来判断是阴性还是阳性预后。肿瘤标记表达的进一步分析包括将那些表现出表达或高或低的标记与已知的结直肠肿瘤表达谱进行匹配以提供预后。确定表达增加的阈值是由特定标记以及所应用的特定预测模型所决定的。阈值通常设定为可获得最高灵敏度和选择性以及最低的误差率,并根据特定临床状况合理地变化。可通过分析足够大的人群并考虑任意预测模型的统计可变性来确定合理阈值并通过用于产生预测模型的样品大小来计算合理阈值。同样适用于确定表达减少结论的阈值。值得注意的是在不偏离本发明范围的情况下可选择其它的确定表达增加或减少的阈值或其它建立阈值的方法。还可能的是预测模型可输出数值,如评分,可能性值或概率。在这些情况下,可以将阈值应用到预测模型生成的结果中,并且在这些情况下按所用的将类似的原则应用到设定表达值的阈值中。一旦获得肿瘤样品中预测信号的表达水平或预测模型的输出值,就可确定癌症复发的可能性。通过对比一种或多种标记和已公开的预后信号的表达水平,来自于被识别的标记的含有一种或多种CCPMs的预后信号可用于确定癌症的预后。通过比较肿瘤样品中的一种或多种CCPMs和己公开的预后信号的表达水平,可确定癌症复发的可能性。为建立预后的预后信号表达水平的对比可通过前述的预测模型来完成。确定癌症复发的可能性对于医疗工作者有重大价值。高的复发可能性意味着应给予更长或更高剂量的治疗,并应对患者进行更密切的癌症复发信号的监测。准确的预后对患者也是有益的。可使患者和他们的伴侣,家庭,和朋友一起作出有关治疗,以及有关未来和改变生活方式的决定。因此,发明提供了一种基于通过将肿瘤样品中标记表达与不同信号表达进行匹配而确定的预后为特定癌症建立治疗方案的方法。应该重视的是标记的选择或预后信号的构建不要求限制于本文表1,2,或5中所公开的CCPMs,或表3,4,8A,8B和9所公开的预后信号,但可以包括使用一种或多种来自于己公开的信号的CCPMs,或利用选自于已公开标记列表中的CCPMs建立新的信号。要求任何信号需充分准确地描述复发可能性以协助医疗工作者建立治疗方案。逆转录PCR(RT-PCR)在以上所列技术中,最灵敏和最灵活的定量方法是RT-PCR,它可用于对比在不同样品人群,在正常组织和肿瘤组织,经药物治疗或不经药物治疗情况中的RNA水平,以描述表达模式,从中辨别密切相关的RNAs,并分析RNA结构。对于RT-PCR,第一步是从目标样品中分离RNA。原料通常是分别从人肿瘤或肿瘤细胞株和相应的正常组织或细胞株中分离的总RNA。RNA可从各种样品中分离,如来自于乳腺,肺,肠(如大肠或小肠),结直肠,胃,食道,肛门,直肠,前列腺,脑,肝,肾,胰腺,脾,胸腺,睾丸,卵巢,子宫等的肿瘤样品,来自于原发性肿瘤,或肿瘤细胞株的组织,和来自于健康捐赠者的混合样品。如果RNA源是肿瘤,可从例如冷冻或存档石蜡包埋和固定(如福尔马林固定)组织样品中提取RNA。由RT-PCR获得基因表达谱的第一步是将RNA模板逆转录成cDNA,接着通过PCR反应进行指数扩增。两种最常用的逆转录酶是禽类成髓细胞白血病病毒逆转录酶(AMV-RT)和莫罗尼氏鼠白血病病毒逆转录酶(MMLV-RT)。根据环境和表达谱的目标,逆转录步骤中通常主要使用特异性引物,随机六聚体,或oligo-dT引物。例如,提取的RNA可利用GeneAmpRNAPCR试剂盒(PerkinElmer,CA,美国)按供应商的说明进行逆转录。而获得的cDNA可作为后续PCR反应的模板。尽管PCR步骤可采用多种耐热的依赖于DNA的DNA聚合酶,但通常采用TaqDNA聚合酶,它具有5'-3'核酸酶活性但没有3'-5'校对核酸内切酶活性。因而,TaqMan(定量)PCR通常利用Taq或Tth聚合酶的5'核酸酶活性以水解结合在目标扩增子上的杂交探针,但也可采用任何具有等效5'核酸酶活性的酶。两段寡核苷酸引物被用于产生PCR反应的典型扩增子。第三段寡核苷酸或探针被设计来检测位于两段PCR引物之间的核苷酸序列。探针是不能被TaqDNA聚合酶所延伸的,并被标记上报告荧光染料和淬灭荧光染料。当在探针上的两种染料距离很近时,任何报告染料的激光诱导辐射可被淬灭染料所淬灭。在扩增反应期间,TaqDNA聚合酶以依赖于模板的方式切割探针。切得的探针片段分散在溶液,报告染料释放的信号不被第二荧光基团所淬灭。随着每个新分子的合成,就释放了一分子的报告染料,检测未淬灭的报告染料为数据定量解析提供了基础。TaqManRT-PCR可利用商业可供的设备来实施,如ABIPRISM7700序列检测系统(Perkin-Elmer-AppliedBiosystems,FosterCity,CA,美国),或Lightcycler(RocheMolecularBiochemicals,Mannheim,德国)。在一优选实施方式中,在实时定量PCR装置如ABIPRISM7700tam序列检测系统中运行5'核酸酶程序。系统由热循环仪,激光器,电荷耦合器件(CCD),照相机,和计算机组成。系统在热循环仪中的96孔板里扩增样品。在扩增过程中,通过纤维光缆实时收集全部96孔中的激光诱导荧光信号,并在CCD中检测。系统还包括用于运行装置和数据分析的软件。5'核酸酶试验数据最初以Ct或阈值循环表示。如上所述,在每个循环中记录的荧光值代表了在扩增反应中扩增至该点的产物数量。当荧光信号开始进行有统计意义的记录时的点为循环阈值。为使误差和样品间差异影响最小,通常在RT-PCR中使用内标。理想的内标是在不同组织中以恒定水平表达的,并不受实验处理的影响。最常用于标准化基因表达模式的RNAs是看家基因3-磷酸甘油醛脱氢酶(GAPDH)和P-肌动蛋白的mRNAs。实时定量PCR(qPCR)一种RT-PCR的最新变体是实时定量PCR,其通过双标记的荧光生成探针(如TaqMan探针)来测定PCR产物积累。实时PCR与定量竞争PCR和定量比较PCR是一致的。前者利用了一个用于标准化的每个目标序列的内部竞争子,而后者利用了一个包含在样品内的标准化基因,或一个用于RT-PCR的看家基因。这在Heldetal.,GenomeResearch6:986-994(1996)有更多的说明。可釆用作为RNA源的固定石蜡包埋组织来测定表达水平。根据本发明的一个方面,可根据存在于被扩增基因中的内含子序列来设计PCR引物和探针。在这个实施方式中,引物/探针设计的第一步是描绘基因中的内含子序列。这可通过公开可用软件来完成,如由Kent,W.J.,GenomeRes.12(4):656-64(2002)开发的DNABLAT软件,或包括其变体的BLAST软件。之后的后续步骤是建立适宜的PCR引物和探针设计方法。为避免非特异性信号,在设计引物和探针时去除内含子中的重复序列是有益的。这可利用贝勒医学院的在线可用R印eatMasker程序来完成,其针对重复序列文库扫描DNA序列并返回一个去除了重复序列的查询序列。而去重序列就可用于设计引物和探针,其利用任何商业或其它公共可用的引物/探针设计包,如PrimerExpress(AppliedBiosystems);MGBassay勿-design(AppliedBiosystems);Primer3(SteveRozenandHelenJ.Skaletsky(2000);在互联网上针对普通用户和生物领域程序员的Primer3:KrawetzS,MisenerS(eds)BioinformaticsMethodsandProtocols:MethodsinMolecularBiology.HumanaPress,Totowa,NJ,pp365-386)。在PCR引物设计中被认为是最重要的因素包括引物长度,熔解温度(TJ,和G/C含量,特异性,互补引物序列,和3'末端序列。通常,最理想的PCR引物一般是17-30个碱基的长度,并含有20-80%如50-60%的G+C碱基。通常优选熔解温度为50-80。C如约50-70°C。关于PCR引物和探针设计的更多原则可参见如Dieffenbach,C.W.etal.,GeneralConceptsforPCRPrimerDesignin:PCRPrimer,ALaboratoryManual,ColdSpringHarborLaboratoryPress,NewYork,1995,pp.133-155;InnisandGelfand,OptimizationofPCRsin:PCRProtocols,AGuidetoMethodsandApplications,CRCPress,London,1994,pp.5-11;禾卩Plasterer,T.N.Primerselect:Primerandprobedesign.MethodsMol.Biol.70:520-527(1997),上述文献的公开内容都引入本文作为参考。微阵列分析可利用微阵列技术来识别或确定差异表达。因而,可利用微阵列技术测定在新鲜或石蜡包埋肿瘤组织中CCPMs的表达谱。在这个方法中,将感兴趣的聚核苷酸序列(包括cDNAs和寡核苷酸)固定在,或排列在微芯片基片上。然后将排列的序列(如捕获探针)与来自于感兴趣的细胞或组织(即,目标)特定聚核苷酸杂交。就如RT-PCR方法中,RNA的来源通常是从人体组织或肿瘤细胞株和相应的正常组织或细胞株中分离的总RNA。因而RNA可从各种原发性肿瘤或肿瘤细胞株中分离。如果RNA源是原发性肿瘤,可从例如在日常临床实践中常规制备和保存的冷冻或存档的福尔马林固定石蜡包埋(FFPE)组织样品和固定(如福尔马林固定)组织样品中提取RNA。在一特定的微阵列技术实施方式中,PCR扩增的cDNA克隆插入片段被施加到基片上。基片可包含多达1,2,5,10,15,20,25,30,35,40,45,50,或75个核苷酸序列。在其它方面,基片可包含至少10000个核苷酸序列。固定在微芯片上的微阵列序列适合于在严格条件下进行杂交。如其它实施方式,微阵列的目标序列可以是至少50,100,200,400,500,1000,或2000个碱基长度,或50-100,100-200,100-500,100-1000,100-2000,或500-5000个碱基长度。如更多实施方式,微阵列的捕获探针可以是至少10,15,20,25,50,75,80,或100个碱基长度;或10-15,10-20,10-25,10-50,10-75,10-80,或20-80个碱基长度。荧光标记的cDNA探针的制备可经由通过从感兴趣组织中提取的RNA的逆转录来形成荧光核苷酸。将标记的cDNA探针施加到芯片上并与阵列中的每个DNA点进行特异性杂交。经过严格洗涤后去除非特异性结合探针,利用共焦激光显微镜或其它检测方法如CCD照相机扫描芯片。每个阵列元件的杂交定量可评估相应的mRNA丰度。以两种颜色荧光分别标记的由两种RNA源生成的cDNA探针可与阵列成对杂交。并同时测定相应于每个特定基因的两种来源的转录物的相对丰度。实施例4详细描述了示范性方案。小规模的杂交可方便快速地评估大量基因表达模式。这种方法显示出已具备检测在细胞中以低拷贝数表达的稀有转录物所必需的灵敏度,和重复性检测在表达水平上的至少约两倍差异(Schenaetal.,Proc.Natl.Acad.Sci.USA93(2):106-149(1996))。微阵列分析可通过商业可供的设备按供应商的方案来实施,如通过采用Affymetrix基因芯片技术,Iuumina微阵列技术或Incyte's微阵列技术。微阵列方法发展成大规模的基因表达分析使其可以系统地搜索在多种肿瘤类型中的癌症分类和预后预测分子标记。RNA的分离,纯化,和扩增mRNA提取的常规方法是本领域所公知的并公开在分子生物学的标准教禾斗书上,包括Ausubeletal.,CurrentProtocolsofMolecularBiology,JohnWileyandSons(1997)。从石蜡包埋组织中提取RNA的方法公开在例如RuppandLocker,LabInvest.56:A67(1987),禾口DeSandresetal"BioTechniques18:42044(1995)。尤其是,可利用商业化供应商如Qiagen提供的纯化试剂盒,缓冲液,和蛋白酶并根据供应商的说明来实施RNA分离。例如,可利用Qiagen的RNA酶迷你柱来分离培养物中的细胞总RNA。其它商业可供的RNA分离试剂盒包括MasterPure的全DNA和RNA纯化试剂盒(EPICENTRE(D,Madison,WI),和石蜡封闭RNA分离试剂盒(Ambion,Inc.)。可使用RNAStat-60(Tel-Test)分离组织样品中的总RNA。可通过例如氯化铯密度梯度离心来分离肿瘤中的RNA。以固定石蜡包埋组织作为RNA源的基因表达制谱典型方案中的步骤,包括mRNA分离,纯化,引物延伸和扩增,它们已在多种公开的期刊文献中公开(例如:T.E.Godfreyetal.J.Molec.Diagnostics2:84-91(2000);K.Spechtetal.,Am.J.Pathol.158:419-29(2001))。简单而言,典型的处理始于从石蜡包埋的肿瘤组织样品切下10pm切片。然后提取RNA,并去除蛋白和DNA。在分析RNA密度之后,如果需要可进行RNA修复和/或扩增步骤,并利用基因特定启动子进行RNA逆转录,然后RT-PCR。最后,分析数据并根据检测肿瘤样品确定的基因表达模式特征以确定最佳的对于患者可用的治疗选择。免疫组织化学和蛋白质组免疫组织化学方法也适用于检测本发明中增殖标记的表达水平。因而,抗体或抗血清,优选多克隆抗血清,最优选每个标记的特异性单克隆抗体,可用于检测表达。抗体可通过直接标记抗体本身来检测,例如,放射性标记,荧光标记,半抗原标记如生物素,或酶如辣根过氧化物酶或碱性磷酸酶。可选择地,未标记的原始抗体可偶联被标记的第二抗体,包括抗血清,多克隆抗血清或原始抗体的特异性单克隆抗体。免疫组织化学方案和试剂盒是本领域公知的和商业可供的。蛋白质组可用于分析在特定时间点存在于样品中(如组织,器官,或细胞培养物)的多肽,尤其是,蛋白质组技术可用于评价样品中多肽表达的全局变化(也称为表达蛋白质组)。蛋白质组分析通常包括(1)通过双向凝胶电泳(2-DPAGE)分离样品中的单个多肽;(2)如通过质谱或N末端测序来鉴别从凝胶中回收的单个多肽,和(3)利用生物信息学进行数据分析。蛋白质组方法是其它基因表达谱方法的有益补充,并可单独或与其他方法联合使用以检测本发明中标记增殖的产物。一旦评估出肿瘤样品中一种或多种预后标记的表达水平,就可确定癌症复发的可能性。本发明人已鉴别了大量在不复发结肠直肠癌和复发结肠直肠癌患者数据组中差异表达的标记。这些标记在以下实施例的表1,2,和9中列出。差异表达基因的选择早期的认为显著基因的选择途径包括仅考虑在两个感兴趣组之间给定基因的"倍数变化"。该途径训练了那些看起来变化最显著的基因,考虑基本统计使人认为如果差异(或噪音水平)非常高(在微阵列实验中经常可观察到),就碰巧频繁发生了看起来很大的倍数变化。如此处所述的微阵列实验通常是同时测定数千个基因。若要对比两组之间特定基因的表达水平(例如复发和不复发肿瘤),对于显著性而言典型检验(例如t检验)是不适用的。这是因为在数千个实验的集合中(在此处每个基因构成一个"实验"),至少一个实验碰巧符合一般的显著性标准的概率是基本一致的,在显著性检验中,通常认为"零假设"是正确的概率。在对比两组的情况下,零假设表示两组之间没有差异。若统计检验获得的零假设概率低于某些阈值(通常是0.05或0.01),那么我们可否定零假设而接受两组存在显著性差异的假设。显然,在这样的检验中,碰巧否定零假设可预期为1/20(或1/100)。在微阵列中采用t检验或其它类似的显著性统计检验是错误的,将产生非常多的假阳性(或I类错误)。在这种情况下,应用典型的多元对比程序,如Bonferroni法(43)同时检验多元假设。但这种检验对于大多数微阵列实验而言太过保守,导致太多假阴性(II类错误)。最近的途径是抛弃试图应用给定检验是显著性的概率,建立选择的实验亚集的平均,以控制I类错误(或错误发现率;47)的预期比例。本研究中通过多种措施利用这种途径,即采用了BRBArrayTools(48),和Bioconductor的limma(11,42)包(采用了R统计环境;10,39)的方法。数据挖掘的常规方法预后信号的产生数据挖掘是用于"知识"提炼中的术语,也称为"懂得如何做",或(通常)来自于大容量数据(数据组)的预测能力。它是本研究中所采用的产生预后信号的途径。在本研究中"懂得如何做"是指由给定的基因表达测定数据组或(在本部分通常如此描述且在实施例部分更为详细)"信号"来准确预测预后的能力。本研究中所用方法的具体细节在实施例17-20中有描述。但是,(实施例中所述的和此处所述的)任何数据挖掘方法的应用可遵循常规方案。数据挖掘(49)和相关主题机器学习(40)是一项复杂,重复的涉及一种或多种适当计算机软件包(如下)的数学任务。使用软件一方面是有利的,因为如果坚持了正确的方法,就不需要完全了解为了顺利使用数据挖掘技术所用的每种技术背后的复杂理论。而不利之处在于数据挖掘应用常被视为"暗箱"输入数据接收答案。这是如何实现的通常不为终端用户所知(这是许多所述技术的现状)并通常影响为数据挖掘所选的统计方法。例如神经网络和支持矢量机具有特殊的复合执行机制使其难以为终端用户提取出用于执行决策的"规则"。在另一方面,k-最近邻方法和线性判别分析是不对用户隐藏的非常透明的决策程序。有两类用于数据挖掘的途径监督和无人监督途径。在监督途径中,与数据相连的信息是已知的,如分类数据(如复发对不复发肿瘤)。所要求的是将观察到的反应(如复发对不复发)与输入的变量联系起来的能力。在无人监督途径中,预先不知道数据组内的分类,而数据挖掘方法被用于试图查出数据组内的分类或结构。在本实施例中采用了并详细讨论了监督途径,但应注意的是也可采用任何其它技术。整体方案包括下列步骤*数据表示。这涉及数据向最可能与所选数据挖掘技术成功合作的形式的转换,此处的数据是数字化的,如本研究中待研究的数据表示相关的基因表达水平,这是相当简单的。如果数据涉及了大动态范围(即多个数量级)通常采用数据的对数形式。如果数据涉及了个别研究者提供的在个别天数中个别样品的测量值,可采取特定处理以确保系统误差最小化。系统误差最小化(即由方案差异,机器差异,操作者差异和其它可计量因素造成的误差)是在此处被称为"标准化"的程序。參特征选择。通常数据组包括许多多于日常基础中用于测量的数据元素,和额外的不提供产生预测模型所需的信息的许多元素。一个预测模型描述数据组的实际能力是源自于技术集全维的某些亚集。这些维数是数据组最重要的构成(或特征)。本文所记的微阵列数据,数据组的维数是单个的基因。此处所述的特征选择是要找出那些最"差异表达"的基因。更为普通含义,它是指那些通过某些显著性统计检验的组,即在被研究的一组或其他组中特定变量(或维数)的水平或更高或更低。有时特征是那些显示出最大差异的变量(或维数)。特征选择的应用完全不依赖于所用的创造预测模型的方法,并涉及大量获得所需结果的实验。在本发明中,显著性基因和那些与更早成功模式(NZ分类器)相关联的基因的选择蕴含了特征选择。此外,数据还原的方法(如主要构成分析法)可应用于数据组。*训练。一旦建立了数据组的分类(如复发/不复发)和特征,数据表示为数据挖掘输入可接受的形式,就可将还原数据组(以特征描述的)应用于预测模型的选择。该模式的输入通常以多维数字输入的形式(称为矢量),并输出信息(一种分类标签或一个响应)。在训练程序中,将所选数据输入预测模型,或依次输入(按技术如神经网络)或者整体输入(按应用某些回归形式的技术如线性模型,线性判别分析,支持矢量机)。在某些情况下(如k-最近邻方法)数据组(或经特征选择后获得的数据组的亚集)本身就是模型。正如所讨论的,通过利用各种软件包其中模型的参数己由职业分析员按最可能获得成功结果的情况预先确定好,可建立对具体数学只需最少理解的有效模式。參验证。这是数据挖掘方案的关键构成部分,它的不恰当应用往往引起误差。部分数据组将被取出,以从特征分析和训练中分离,用于检验预测模型的成功性。另外,若验证的结果影响模型的特征选择和训练,则在应用于现实状况前需对模式进行进一步验证。如果该程序不能严格地支持模型则可能在现实情况中失败。验证的方法在以下详述。*应用。一旦模式构建起来并经验证,它必须以终端用户容易理解的方式包装。这通常包括运行某些形式的植入模型的电子表格程序,统计软件包的脚本,或通过信息技术将模型重构入硬编码程序。经常使用的软件包实例是-电子表格插件,由多元矢量获得。-R统计环境。-商业软件包MatLab,S-plus,SAS,SPSS,STATA。-免费的开放源码软件如Octave(—个MatLab克隆)-许多和可变的0++库,其可用于在商业的,封闭源码装置中运行预测模型。数据挖掘方法的实例。该方法可首先实施数据挖掘处理(上述的)的步骤,然后应用适当的已知软件包。关于数据挖掘处理的更多说明在许多极为精彩的文献(49)中有详细描述。线性模型(49,50):数据按线性回归模型的输入处理,输出的是分类标签或响应变量。分类标签,或其它分类数据,必需转换成数值(通常是整数)。在广义线性模型中,分类标签或响应变量它们本身与输入数据不是线性相关,但是可利用"连接函数"进行转换。逻辑回归是最普通的广义线性模型形式。线性判别分析(49,51,52)。倘若数据是线性可分的(g卩数据的组或类别可被阈值的n维扩展超平面分离),可采用这种技术。变量的组合用于分离类别,如组之间变量是最大,而组内部变量是最小。它的副产品是分类规则的形成。该规则应用于未知类别的样品可实现样品中类别成员的预测或分类。线性判别分析如微阵列中最常用的最近质心收縮法(nearestshrunkencentroids)是有变4七的。支持矢量机(53):—组变量与一组重量协同使用以确定在类别之间重量变量分离最大化的模型。将模型应用于样品则可生成样品的类别成员关系的分类或预测。神经网络(52):数据按输入神经网络节点来处理,其有点类似生物神经,将来自于所有节点的输入应用到连通的那几个,并将输入转换成输出。一般地,神经网络利用"乘和加"运算法则将来自于多重连通输入节点的输入转化成单一的输出。一个节点不一定会产生一个输出除非节点的输入超过了特定阈值。每个节点以来自几个其它节点的输出作为它的输入,最终输出节点通常是与分类变量相连。节点的数量和节点的拓扑可在有限方式中变化,以提供对不可能以其它方法分类的极其嘈杂数据的分类能力。最常用的神经网络是多层感知器。分类和回归树(54):在这里,变量被用于定义在以渐进方式来确定样品的类别中所遵循的规则的等级。典型的方法是创造一套可实现特定类别的输出或特定不能判别的状态的规则。分类树的实例是运行如下运算法则如果基因A〉x并且Y〉x并且Z-z则A类否则如果基因A-q则B类最近邻方法(51,52)。通过比较样品(未知类别)和接近它的样品(已知类别)并以距离函数定义接近度来进行预测和分类。可能定义许多不同的距离函数。常用的距离函数是Euclidean距离(为Pythagorean距离的推广,三角测量中,n维),各种相关形式(包括Pearson相关系数)。也有可将通过有意义的距离度量不能正常互相连接的数据点转换成euclidean空间的转换函数,以便之后应用Euclidean距离(如Mahalanobis距离)。尽管距离度量可能非常复杂,但k-最近邻法的基本前提是非常简单的,本质上是一种"找出最类似于未知输入的k数据矢量,查明它们所对应的类别,并表决未知输入属于哪个类别"的重述。其他方法-贝叶斯网络。一种有向无环图可用于表示一组变量与它们的联合概率分布,然后用于确定样品类别成员的概率。-独立成分分析,其中独立信号(如类别成员)是从一组变量中分离(进入成分)出的。这些成分可用于生成样品类别成员关系的分类或预测。-集结学习方法,其中一组预测方法与生成样品类别成员关系的共同分类或预测组合。存在许多这类方法的可开发变体(49),并且不断地定义和发展了许多新方法。值得注意的是为获得一个可接受的结果,可应用这种方法的任何一种。必须采取特殊关注以避免过拟合,经由全面的验证方案确保所有结果被检验。验证在将方法应用到新数据组之前(如来自于临床试验的数据),所描述的任何预测方法的应用都包括训练和交叉验证(43,55)。训练包括取得感兴趣的数据组的子集(如来自于结直肠肿瘤的基因表达测量值),以便将其分级到正被检测的类别中(如复发和不复发肿瘤)。该训练集用于生成预测模型(如上所定义的),并用其检验剩余的数据(检测集)。改变预测模型的参数以在检验集中获得更好结果是可能的。但是,这可能导致过拟合的状况,此处预测模型用于训练数据组但不用于任何外部数据组。为解决这个问题,进行了验证程序。一般应用两种主要类型的验证,第一种(保持验证)包括将数据组分割成三组检测,训练,和验证。其中验证集不输入训练程序,因此任何参数的调整或其它细化必须发生在检测集应用过程中(而不是验证集)。第二种主要类型是交叉验证,它可通过以下所述的几种不同方式应用。交叉验证有两种主要的亚类型K重交叉验证和留一法交叉验证。K重交叉验证数据组被分成K个子样品,每个子样品含有与原来大约相同类别组的比例。在每轮验证中,K个子样品之一被取出,利用剩余的数据组完成训练。这轮的训练有效性通过对保留组的分类正确程度来指示。该程序被重复K次,并通过对比预测类别和已知类别来确定整体有效性。留一法交叉验证一种常用的K重交叉验证的变体,K=n,其中n是样品数量。如表1和2所描述的那些CCPMS的组合可用于构建预后的预测模型。预后信号含有一种或多种这些标记的预后信号可通过源自这些信号的一种或多种预测模型的应用用于确定患者的结果。尤其是,临床医生或研究者可测定信号中一种或多种标记的差异表达(如增加或减少表达),应用到预测模型,并因此预测阴性预后,如患者疾病复发的可能形,或可选择地阳性预后的可能性(持续地缓解)。已开发一组预后信号。首先,通过在两个数据组中交叉对比预测能力开发了两种信号包括德国结肠直肠癌样品的微阵列实验集,和包括新西兰样品的微阵列实验集(实施例6所讨论的)。之后,进行了单独基于德国数据组的有效信号的穷举统计搜索(实施例17所讨论的)。如以下的实施例6所述,由一组德国结肠直肠癌样品已经建立了一种含有19个基因的预后信号(表4)。还由新西兰患者结直肠肿瘤样品建立了另一含有22个基因的预后信号(表3)。通过获取患者样品(如肿瘤样品),并将样品中一种或多种标记的表达水平与差异表达谱进行匹配,可确定癌症复发的可能性。表3:新西兰预后信号<table>tableseeoriginaldocumentpage54</column></row><table><table>tableseeoriginaldocumentpage55</column></row><table><table>tableseeoriginaldocumentpage56</column></row><table><table>tableseeoriginaldocumentpage57</column></row><table><table>tableseeoriginaldocumentpage58</column></row><table>表5:免疫反应基因<table>tableseeoriginaldocumentpage58</column></row><table><table>tableseeoriginaldocumentpage59</column></row><table>在某些方面,本发明提供了一种判断癌症预后的方法,包括(a)提供癌样品;(b)检测所述样品中CCPM家族成员的表达水平;和(C)判断癌症的预后。在一个方面,癌症是结肠直肠癌。在其它方面,发明包括检测CCPMmRNA表达水平的步骤。在其它方面,发明包括检测CCPM多肽表达水平的步骤。在进一方面,发明包括检测CCPM肽表达水平的步骤。在更多方面,发明包括检测在所述样品中的多于一种CCPM家族成员的表达水平的步骤。在更多方面,CCPM是一个免疫反应相关基因。在进一方面,CCPM选自于表3,4,8A,8B,或9所列的标记。在更多方面,CCPM被包含在选自表3,4,8A,8B,或9所列的信号中。在更多方面,发明包括了检测WDR44,RBMS1,SACM1L.S0AT1,PBK,G3BP2,ZBTB20,ZNF410,COMMD2,PSMC1,COXIO,GTF3C5,画MR,UBE2L3,GNAS,PPP2R2A,RNASE2,SCOC,PSMD9,EIF3S7,ATP2B4,禾卩ABCC9的表达水平。在更多方面,发明包括了检测CXCLIO,FAS,CXCLO,TLK1,CXCLIl,PBK,PSAT1,MAD2L1,CA2,GZMB,SLC4A4,DLG7,TNFRSFI1A,KITLG,INDO,GBP1,CXCL13,CLCA4,和PCP4的表达水平。在更多方面,发明包括了一种为癌症确定治疗方案的方法,包括(a)提供癌样品;(b)检测所述样品中CCPM家族成员的表达水平;和(c)根据CCPM家族成员的表达水平判断癌症的预后;和(d)根据预后确定治疗方案。在更多方面,发明包括了一种检测CCPM的装置,包括:其上具有CCPM捕获剂的基片;和与基片相连的检测器,所述检测器可检测与捕获剂相关的CCPM。附加方面包括检测癌的试剂盒,包括基片;CCPM捕获剂;和使用说明。发明更多方面包括利用qPCR检测CCPM的方法,包括所述CCPM的特异性正向引物;所述CCPM的特异性反向引物;PCR试剂;反应瓶;和使用说明。本发明的附加方面包括检测CCPM多肽或肽存在的试剂盒,包括具有所述CCPM多肽或肽的捕获剂的基片;所述CCPM多肽或肽的特异性抗体;可在所述CCPM多肽或肽的结合抗体上加标签的试剂;和使用说明。在更多方面,本发明包括一种判断结肠直肠癌预后的方法,包括以下步骤提供一种来自于疑似结肠直肠癌患者的肿瘤样品;利用ELISA方法测定其中存在的CCPM多肽。在本发明的特定方面,发明的CCPM是选自表1,2,5或9所列的标记。在更多方面,CCPM被包含在选自于表3,4,8A,8B,或9所列的信号的预后信号中。实施例本文中所描述的实施例是用于解释发明的实施方式。分子诊断领域普通技术人员所知的其它实施方式,方法和分析类型无需在此详细描述。本领域范围内的其它实施方式也被认为是本发明的一部分。实施例l:患者和方法本研究中包括两组患者,一组来自于新西兰(NZ)而第二组来自于德国(DE)。NZ患者是包括所有病期的前瞻性群组研究的部分,而DE样品是选自于肿瘤库。临床信息如表6所述,而图l概述了实验设计。实施例2:肿瘤样品来自于149例NA患者的原发性结直肠肿瘤样品是取自1995-2000年间在Dunedin医院和Auckland医药进行手术的患者。肿瘤样品在液氮中速冻。由单个病理学家(H-SY)评价了所有的手术标本,并估计其中含有平均85%的肿瘤细胞。在149例CRC患者中,12例存在肿瘤转移,35例已复发癌症,而102例在跟踪至少5年后仍没病。来自于DE患者的原发性结直肠肿瘤样品是取自1995-2001年间在慕尼黑科技大学的外科系进行手术的患者。从库存的由手术室中现取并经液氮速冻的肿瘤中选取了一组55例结肠直肠癌样品。样品取自于11例I期癌症患者和44例II期癌症患者。有29例患者没有复发而26例患者在跟踪至少5年后复发了癌症。肿瘤含量范围在70-100。Z之间,平均87%。表6:新西兰和德国结直肠肿瘤的临床特征l.持续性疾病<table>tableseeoriginaldocumentpage61</column></row><table><table>tableseeoriginaldocumentpage62</column></row><table>实施例3:RNA的提取和目标标记NZ肿瘤将肿瘤均质并利用Tri-试剂(Progenz,Auckland,新西兰)提取RNA。然后利用RNeasy迷你柱(Qiagen,Victoria,澳大利亚)进一步纯化RNA。按间接氨基酸烯丙基cDNA标记方案用Cy5dUTP标记10微克RNA。来自于12株不同细胞株的参照RNA用Cy5dUTP标记。利用QiaQuickPCR纯化试剂盒(Qiagen,Victoria,澳大利亚)按供应商的方案纯化荧光素标记的cDNA。DE肿瘤将肿瘤均质并利用RNeasy迷你试剂盒(Qiagen,Hilden,德国)分离RNA。按之前所述制备cRNA(9),并在RNeasy柱中纯化(Qiagen,Hilden,德国),用55^水洗脱。将15微克cRNA在95'C破碎35分钟并和oligo-dT-T7引物(Eurogentec,K61n,德国)合成双链cDNA,并利用PromegaRiboMaxT7-试剂盒(Promega,Madison,WI)和生物素-NTP标记混合物(Loxo,Dossenheim,德国)将其转录。实施例4:微阵列实验NZ肿瘤利用印在环氧(epoxy)包被玻片上的MWGHuman30KArray寡核苷酸实施标记的目标cDNA的杂交。玻片用1XBSA封闭,在预杂交缓冲液中于42'C杂交至少12小时然后进行高严格性洗涤。用GenePix微阵列扫描仪扫描载片并用GenePixPro4.1微阵列获取器和分析软件(Axon,CA)分析数据。DE肿瘤将cRNA与B2对照寡核苷酸(Affymetrix,SantaClara,加拿大),真核杂交对照(Affymetrix,SantaClara,加拿大),鱼精(Promega,Madison,WI),缓冲液和BSA混合至最终体积300pl,并于45'C杂交到微阵列芯片16小时(Affymetrix,SantaClara,加拿大)。按供应商的方案在Affymetrix流式工作站中实施洗涤步骤,并与链霉亲和素(Roche,Mannheim,德国)、生物素基化的羊抗链霉亲和素抗体(Serva,Heidelberg,德国)、羊IgG(Sigma,Taufkirchen,德国)和链霉亲和素藻红蛋白(MolecularProbes,Leiden,荷兰)温育。然后用HP氩离子激光共焦显微镜扫描阵列并利用AffymetrixMicroarraySuite5.0软件处理数码图片数据。实施例5:数据预处理NZ数据在R计算环境(10)中进行数据预处理和标准化。将log2转换应用于每个阵列的每行中的最显著光密度(foregroundintensity)上。每点的数据用在每个阵列上以便由Bioconductor分析工具组件(12)的limma包(ll)进行点样针头(print-tip)损耗标准化。然后将规模标准化(B)用于阵列间log光密度比值分布的标准化。标准化后聚类分析显示出数据中存在的基因特异性点样位移(print-run)效应。差异分析(ANOVA)标准化用于评估和去除每个基因数据中的点样位移(print-run)效应。149个样品中可用的重复阵列数据是46个。整体数据组聚类分析显示出互相聚类良好的两次重复阵列表明阵列平台(arrayplatform)的内部一致性。低光密度基因,在重复之间差异巨大(重复之间的平均1og2差异高于0.5),并从数据组中去除了未知蛋白。经过起始的标准化程序后,选择10,318个基因的子集用于进一步分析。DE数据所有的AffymetrixU133A基因芯片都通过质量控制以消除有异常特征的扫描,它们是异常低或高的动态范围,高度理想匹配饱和度,高象素噪声,栅格未对准问题,和低平均信噪比。在R计算环境(IO,40)中进行背景的修正和标准化。利用在昂飞Bioconductor包中运行的稳健多阵列平均函数(robustmulti-arrayaveragefunction)(14)获取来自于探针7K平数据(eel文件)的背景修正和标准化表达测量值。实施例6:预后信号和交叉验证利用BRB阵列工具包(超文本转化方案〃linus.nci.nih.gov/BRB-ArrayTools,html)进行数据分析。利用随机差异模型f检验进行基因选择。在DE数据中,当采用显著性阈值0.01时发现318个基因差异表达。由于大多数差异表达的基因在表达上表现出相对小的变化,DE数据的基因选择程序中添加了两个类别间倍数变化的平均1og2值要求高于1.1的条件。利用NZ和DE数据组中的每个数据的留一法交叉验证(LOOCV)生成了基于基因的预后信号。为避免过拟合问题,在每个LOOCV反复中进行基因选择和信号构建。在LOOCV之后,通过被正确预测的样品部分估算预测率,为了找出可为未知样品做最佳预测的基因,联合六种分类方法研究了采用随机差异模型的不同t检验阈值复合共变量分类器(CCP),对角化线性判别分析(DLD),3-最近邻法(3-NN),l-最近邻法(l-NN),最近质心(NC),和支持矢量机(SVM)。为确定NZ禾nDE预后信号的正确性,进行了相互验证(reciprocalvalidation),即用DE数据组验证NZ信号和进行反向验证。为检测NZ基因,在DE数据中确定了相对NZ信号中22个基因的探针,并采用LOOCV评价DE样品的信号仅基于这些探针的性能。类似地,在NZ数据中确定了相对DE信号中19个基因的探针,并采用LOOCV评价NZ样品的信号的性能。在上述两种情况下都采用了显著性阈值0.999以确保在每次LOOCV反复中采用所有的基因。平台(platform)之间的差异(尤其是,log-比率数据对log-光密度数据)表示预测规则在各数据组中的直接应用是可行的。仅是基因集而不是所用预测规则的结果对新样品是一般化的。通过置换样品类别标签来计算LOOCV预测结果的显著性并求出置换数据获得更高的LOOCV预测率比非置换数据获得的预测率的倍数比例。所有置换分析包括具有表示预测结果不可能是偶然的小P值的2000次置换。实施例7:存活分析利用在R计算环境下的存活包对检查数据进行卡普兰-迈耶存活分析。存活的定义为手术后的"无病存活"。对于每个分析,构建了存活曲线,并采用时序检验(thelog-ranktest)(15)评估存在于正被讨论的两组曲线之间的显著性差异。考虑对NZ和DE数据组都进行检査。对于无病存活数据,五年前的正确检查只存在于已死亡的不复发患者,或者最近的临床跟踪发生在小于五年内。采用R语言的epitools包生成比数比和置信区间。实施例8:与趋化因子配体共表达的标记的识别从DE数据中选择与存在于不复发组的预测器中的四个趋化因子的至少一个的Pearson相关系数高于0.75的基因进行本体分析。采用DAVID进行本体分析(超本文转化方案:〃apps1.niaid.nih.gov/david/)。实施例9:结果和分析为识别稳健的预后信号以预测CRC的疾病复发,采用来自于NZ和DE的两个独立样品集来生成来自于分离的经五年或以上的临床跟踪的原发性肿瘤系列的阵列表达数据组。经标准化后,采用相同的统计方法分析每个数据组以产生预后信号,然后在替换的患者系列中验证它。按此方法,在NZ数据组中验证DE预后信号又在DE数据组中验证NZ预后信号。实施例10:差异表达标记的彻底识别DE数据组BRB阵列工具类别比较程序被用于检测用于显示复发和不复发样品之间的平均光密度的统计显著性差异的探针。再用RVM(随机差异模型)生成数据组中每个探针的P值。在第二轮中,采用任意显著性阈值0.05发现共325个探针在两组样品中显著差异表达。注意基因选择没应用任何倍数改变的阈值,而是采用了0.05的显著性截止值,并不是实施例6中所采用的0.001阈值。该不严格阈值(p=0.05代替p-O.OOl)的目的在于选出更多的基因用于第二轮信号构建(参见实施例17)。这些探针表示270个独立基因(表1和表2)。明显地,显著性检验(随机差异模型)包括下列步骤为每个基因生成一个检验统计式,除了在通过将所有基因方差结构表示成一个F分布获取的合并方差评估中,其对于标准的两组样品t检验(45)是相同的,然后利用该分布中的参数a和b(由经验似然函数获得的)以形成以下的合并方差的估值(参看下页),_(n-2)s2DOO|ed+2b"s2=(n-2)+2a其中s2是合并方差的新估值,s、。。,ed是合并方差的标准估值(45),n是样品数目,而a和b是F分布(46)的参数。基于成形的t统计,可采用自由度为(n-2)+2a的t分布以获得每个基因的P值。为调整多重假设检验,采用Benjamini和Hochberg(7)的错误发现率(FalseDiscoveryRate)控制程序以生成调整后的每个基因的P值。如果调整后的P值小于0.05则认为该基因为显著的差异表达。实施例ll:相关标记的识别为识别可用作预后预测的其它基因,利用R统计计算软件包进行相关分析。该分析揭示了有167个探针的Pearson相关系数(40,44,45)至少为0.8。在这些探针中,51个属于325个差异表达探针组,而剩余的116个被认为是非显著性的(利用阈值0.05的FDR,或"错误发现率(FalseDiscoveryRate)"控制程序,RVM,或随机差异模型)。该116个探针代表了111个差异基因(表2)。实施例12:预后信号的构建利用寡核苷酸微阵列生成NZ数据组。构建了六种不同信号,其中支持矢量机(SVM)采用0.0008的基因选择阈值产生最高的LOOCV预测率,并产生一个22基因信号(77%预测率,53%灵敏度,88%特异性;P=0.002,表7,8A和8B)。对于表8A和8B,其基因说明在表3和4中。表7:预后信号构建经德国数据检验的22基因NZ信号数据组预测率灵敏度特异性P值承比数比NZ数据(训练,SVM)0.77(0.66,0.86)§0.53(0.33,0.73)0.88(0.77,0.95)0.0028.4(3.5,21.4)减去4个未在德国数据中发现的基因的NZ数据(训练,SVM)0.720380.870.011德国数据(训练,SVM)0.71(0.51,0.86)0.62(0.32,0.86)0.79(0.52,0.95)0.0025.9(1.6,24.5)经NZ数据检验的19基因德国信号数据组预测率灵敏度特异性P值t比数比德国数据(训练,3-NN)0.84(0.65,0.95)0.850.83<0.000124.1(5.3,144.7)减去5个未在NZ数据中发现的基因的德国数据(训练,3-NN)0.670.650.660'046NZ数据(训练,3-NN)0.67(0.55,0.78)0.42(0.22,0.64)0.78(0.65,0.89)0.0452.6(1.2,6.0)S^VZ,支持矢量信号;3-NN;3最近邻信号。S95%置信区间。表8A:NZ预后信号新西兰22基因预后信号p值基因标识GeneBank登录分析时未在德<table>tableseeoriginaldocumentpage68</column></row><table>表8B:DE预后信号德国19基因预后信号<table>tableseeoriginaldocumentpage69</column></row><table>NZ信号具有在NZ患者中疾病复发的比数比8.4(95%CI3.5-21.4)。利用Affymetrix阵列生成DE数据组得到19基因(22探针)和3最近邻(3-NN)信号(选择阈值0.002,log2倍数变化>1.1,分级率84%,灵敏度85%,特异性83%,PO.OOOl,表3,4,7)。DE信号具有在DE患者中疾病复发的比数比24.1(95%CI5.3-144.7)。在卡普兰-迈耶分析(Kaplan-Meier)中,NZ和DE患者的无病存活明显区别于预测为复发或不复发的患者(NZ信号,PO.OOOl,图2A;DE信号,PO.0001,图2B)。实施例13:NZ和DE预后信号的外部验证为验证NZ信号,通过LOOCV用22个基因构建了DE数据组的SVM信号。获得了71%的预测率,其是非常有意义的^=0.002,表7)。利用NZ信号获得的DE患者复发比数比为5.9(95%CI1.6-24.5)。我们猜测预测率从NZ患者的77%减少至DE患者的71%(表7)是由于DE数据中没有NZ信号中的4个基因。根据NZ信号,预测为复发的DE患者的无病存活明显低于预测为不复发的患者的无病存活(p-0.0049,图2C)。然后通过LOOCV利用19个基因构建NZ数据组的3-NN信号来验证DE信号。经DE信号验证而确定的预测率67X又是有意义的(p=0.046;Table7)。利用DE信号获得的NZ患者复发的比数比为2.6(95%CI1.2-6.0)。我们认为预测率的减少是由于NZ数据中没有DE信号中的5个基因。这由从DE数据组中去除那5个基因后导致了LOOCV预测率从84%减少至67%得到证实(表7)。根据DE信号,预测为复发的DE患者的无病存活明显低于预测为不复发的患者的无病存活^=0.029,图2D)。实施例14:通过现行分期体系比较NZ和DE预后信号在相同的临床病理分期中也观察到了被预测为复发或预测为不复发的患者之间无病存活的显著差异(图3)。当根据疾病分期将患者预测分级时,NZ信号可以识别在II期(p4.0013,图3A)和III期(p=0.0295,图3A)亚组中更可能复发的患者。若DE信号被应用于NZ数据组时表现出更小的范围,此处只在111期患者中观察到差异&=0.0491,图3B)。DE信号预测准确率的下降可能还是由于没有NZ数据中的降低LOOCV预测率的5个基因。实施例15:信号中与CRC疾病发展有关的基因据报导,在NZ信号(表3)中的许多基因包括G3BP2(16),RBMS1(17),HMMR(18),UBE2L3(19),GNAS(20),RNASE2(21)和ABCC9(22)都参与了癌症的发展,而RBMS1(23),EIF3S7(24)和GTF3C5(25)参与了转录或翻译。PBK是一种蛋白激酶,它参与了有丝分裂的过程(26),并且是NZ和DE信号中唯一的共有基因。在DE信号(表4)中的19个基因中的11个参与了免疫反应,包括4个趋化因子配体(CXCL9,CXCL10,CXCL11,CXCL12;(27)),PBK(28),INDO(29),GBP1(30),GZMB(31),KITLG(32),和肿瘤坏死因子族中的两个受体(TNFRSF1IA,FAS;33))。据发现86个基因与DE数据中4个趋化因子配体中的至少一个适度相关(Pearson相关系数>0.75)。经本体分析发现这65个基因中的39个属于免疫反应的类别(p〈10'26)。这个结果表明宿主免疫反应在确定CRC复发中起关键作用。实施例16:NZ和DE预后信号的讨论已经表明两种不同的预后信号可用于改进目前结肠直肠癌的预后。对于DE信号,令人惊奇和预料不到的是I/II期样品可用于预测III期结果。还令人惊奇的是许多与疾病复发相关的基因与免疫反应相关。免疫反应在不同癌以及CRC患者中的T淋巴细胞浸润的发展中发挥重要作用指示良好的预后(36-38)。全部11个免疫反应基因(表5)在复发患者中都下调,这是基于已知生物机制所预料不到的。为进一步确认这些结果,选择了4个趋化因子进行进一步分析。趋化因子配体不仅反应免疫系统活性和介导白细胞再生还参与了趋化现象,细胞粘附和运动,和血管形成(36)。为研究免疫反应基因的作用,鉴别了86个与趋化因子配体共表达的基因。这些基因中的几乎一半具有"免疫反应"类别中的基因本体分类,这表明这些基因在复发过程中的主要功能是调节免疫反应。而且,发现了CD4+和CD8+T细胞抗原(CD8A,CD3,PRP1,TRA@,TRB@)或功能相关抗原,例如主要组织相容性分子,干扰素Y诱导蛋白和IL2RB也在共表达列表中。肿瘤特异性CD4+T细胞CD8+T细胞的活化导致了在小鼠结直肠模型中的肿瘤排斥(37)。共同地,这些发现表明淋巴细胞形成部分参与了原发性肿瘤细胞扩散的最小化肿瘤特异性宿主反应。实施例17:附加预后信号的选择经在两个数据组中的交叉验证,上述两个预后信号的性能是极好的。开展了进一步研究,利用纯粹的统计途径开发了除前述之外的各种信号,它们也可预测其它数据组的预后。该研究的其它目标之一就是确保用于标准化微阵列数据(稳健多元阵列的平均(robustmulti-arrayaverage))的方法在基因选择中不产生负面影响。图4显示了由可变长度信号获得的分类率。分类率是正确的复发预测的比例(以占总预测的百分比表示)即被正确分类样品的比例。利用11重交叉验证确定分类率。对于这种交叉验证,在基因选择之前,从其中取出随机选择的分类样品(即按全样品的复发比不复发的比值)作为验证组,并构建模型(利用剩余50个样品的训练组)。然后将交叉验证重复10次以便全部55个样品都出现在每次验证集中。该11重交叉验证过程重复10次,而结果图示在图4和5中。利用自助偏差校正(43)来修正显示的分类率,以给出信号应用于另一数据组的预期分类率。从这个分析中,可确定更短的信号有最佳的分类率。此外,对最频繁出现在分类器中的基因的分析显示了差异力(discriminatorypower)通常是源于两个基因的效力FAS禾nME2。这在图5中表现的最清楚,其显示了从数据组中去除两个基因FAS和ME2后信号的效力。更多的细节参见图5的图例。可通过从原始肿瘤集的1000个分级的亚样品中生成基因列表以充分研究特征选择标准化的影响,并每次从数据组中去除5个样品(即总样品数的1/11)。(这与ll重交叉验证效果相同。)并标记下每个基因出现在基因列表"前n"(即前IO,前20,前100和前325)的次数。该值称为"前数"。采用三种不同的标准化方法(40)(图6)和三种不同的过滤统计(图7)生成前数。前数和所用的标准化方案和过滤统计(41,42)之间是密切相关的。因而,虽然标准化和特征选择方法是重要的,所列出基因中的许多基因不依赖于数据前处理方法而出现在基因列表中。这表明标准化方法的选择对于选用于构建信号的基因仅有最小的影响。发现由所有标准方法和统计总结而得前数是复发和不复发肿瘤之间基因差异表达的稳健指标。通过随机取样利用基因列表(参见表1和表2)中的基因生成信号。具有更高前数的基因更可能被选中,因此样品的生成是有利的。利用在2-55之间的Affymetrix探针生成各种信号。利用三种分类器:k二l的k最近邻法,k二3的k最近邻法,和带线性核函数的支持矢量机,并采用留一法交叉验证选择中值分类率>80%的信号。平均而言,鉴于对新数据组预后的预测能力(图4和图5),较长的预后信号优于较短的信号。基因FAS和ME2也是重要的(上文已讨论)。根据这两个因素,以及不含有FAS或ME2的较短信号性能更差的事实,来选择显示在下表9中的候选信号。(从随机生成的信号池中)利用留一法交叉验证选择中值中值分类率>80%的信号(利用三种分类器k二l的k最近邻法,k-3的k最近邻法,和带线性核函数的支持矢量机)。此外,因为平均起来较长信号(>10个基因/信号)性能趋向更好,我们从含30个或更多探针/每个信号的信号池中选择含20或更多个基因/信号的信号。根据图4和图5显示的结果,可预期这些信号(表10)应用于其它数据组时将表现出约70%的分类率。据发现所有以这种方式生成的信号都含有ME2,并除一个外都含有FAS,这可能是由于这些基因在提供预后预测中的重要性。应该注意的是,在其它数据组中利用这种方法在内部数据组中获得的高分类率并不一定表示这些信号将比实施例12所列信号表现更好。更适当的说,目的是产生一系列信号,期望其至少和前述信号一样应用于其它数据组。含有预后信号的标记如表9所列。表9:附加预后信号(注意在复发预测中SVM-支持矢量机,3,=3最近邻法,1NN=1最近邻法,Sens-灵敏度,Spec-特异性)<table>tableseeoriginaldocumentpage74</column></row><table><table>tableseeoriginaldocumentpage75</column></row><table><table>tableseeoriginaldocumentpage76</column></row><table><table>tableseeoriginaldocumentpage77</column></row><table><table>tableseeoriginaldocumentpage78</column></row><table><table>tableseeoriginaldocumentpage79</column></row><table><table>tableseeoriginaldocumentpage80</column></row><table><table>tableseeoriginaldocumentpage81</column></row><table><table>tableseeoriginaldocumentpage82</column></row><table><table>tableseeoriginaldocumentpage83</column></row><table><table>tableseeoriginaldocumentpage84</column></row><table><table>tableseeoriginaldocumentpage85</column></row><table><table>tableseeoriginaldocumentpage86</column></row><table><table>tableseeoriginaldocumentpage87</column></row><table>SVM3NN訓PBK,HNRPD,BRIP1,KLHL24,STAT191HNRPD,WARS,SFRS2,EPAS1,STAT1,EIF4E,SFPQ,PRDX3,MTHFD2,PSME2,GMFB,DLGAP4,TYMS,USP4,TES,DCK,ARF6,MAD2L1,CDC40,SLC4A4,CXCL9,RABIF,CXCLIO,FAS,SLC25A11,C1QBP,NDUFA9,WHSC1,C17orf25,ME2,FUT4>CXCL11,IFT20,RBBP4,RBM25,CAMSAPILI,SEC10L1,PBK,PSAT1,KLHL2469%83%81%79%77%76%92HNRPD,WARS,STAT1,EIF4E,MTHFD2,PSME2,TK1,GMFB,DLGAP4,TYMS,TES,CTSS,MAD2L1,SLC4A4,CXCL9,CXCL10,FAS,CHEK1,HNRPA3P1,SLC25AU,C1QBP,NDUFA9,WHSC1,CA2,ME2,GZMB,CXCLll,RBM25,AK2,CAMSAPILI,DDAH2,BAZ1A,AGPAT5,SEC10L1,FLJ13220,PBK,BRIP1,丁RMT577%83%92%83%77%66%93HNRPD,WARS,SFRS2,EPAS1,STAT,EIF4E,MTHFD2,PSME2,GMFB,DLGAP4,TYMS,TES,CTSS,DCK,MAD2L1,CDC40,RAB1F,CXCLIO,FAS,PLK4,KITLGSLC25A11,NDUFA9,WHSC1,CA2,ME2,CXCLll,IFT20,TLK1,RBM25,CDC42BPA,DDAH2,RBBP4,MARCH5,DKFZp762E1312,PBK,PSAT1,BRIPl,KLHL24,ETNK173%83%77%79%77%76%94HNRPD,WARS,STATl,PAICS,EIF4E,PRDX3,MTHFD2,PSME2,TK1,GMFB,DLGAP4,TYMS,USP4,TES,CTSS,DCK,ARF6,CDC40,CXCL9,IRF8,RABIF,CXCLIO,FAS,HNRPA3P1,TRIM25,SLC25A11,NDUFA9,WHSC1,CA2,ME2,CXCLll,GZMB,IFT20,SLC4A4,SFRS2,AGPAT5,FLJ10534,MARCH5,PBK,BRIP188%83%85%76%85%69%95WARS,SFRS2,STAT1,EIF4E,MTHFD2,PSME2,GMFB,DLGAP4,TYMS,TES,CTSS,LMAN1,DCK,MAD2L1,CDC40,SLC4A4,CXCL9,IRF8,CXCL10,FAS,C1QBP,NDUFA9,WHSC1,CA2,ME2,CXCLll,IFT20,RBM25,73%79%85%83%85%79%<table>tableseeoriginaldocumentpage89</column></row><table><table>tableseeoriginaldocumentpage90</column></row><table><table>tableseeoriginaldocumentpage91</column></row><table><table>tableseeoriginaldocumentpage92</column></row><table><table>tableseeoriginaldocumentpage93</column></row><table><table>tableseeoriginaldocumentpage94</column></row><table><table>tableseeoriginaldocumentpage95</column></row><table><table>tableseeoriginaldocumentpage96</column></row><table><table>tableseeoriginaldocumentpage97</column></row><table><table>tableseeoriginaldocumentpage98</column></row><table><table>tableseeoriginaldocumentpage99</column></row><table><table>tableseeoriginaldocumentpage100</column></row><table><table>tableseeoriginaldocumentpage101</column></row><table><table>tableseeoriginaldocumentpage102</column></row><table><table>tableseeoriginaldocumentpage103</column></row><table><table>tableseeoriginaldocumentpage104</column></row><table><table>tableseeoriginaldocumentpage105</column></row><table><table>tableseeoriginaldocumentpage106</column></row><table><table>tableseeoriginaldocumentpage107</column></row><table><table>tableseeoriginaldocumentpage108</column></row><table><table>tableseeoriginaldocumentpage109</column></row><table><table>tableseeoriginaldocumentpage110</column></row><table><table>tableseeoriginaldocumentpage111</column></row><table><table>tableseeoriginaldocumentpage112</column></row><table><table>tableseeoriginaldocumentpage113</column></row><table><table>tableseeoriginaldocumentpage114</column></row><table><table>tableseeoriginaldocumentpage115</column></row><table><table>tableseeoriginaldocumentpage116</column></row><table><table>tableseeoriginaldocumentpage117</column></row><table><table>tableseeoriginaldocumentpage118</column></row><table><table>tableseeoriginaldocumentpage119</column></row><table><table>tableseeoriginaldocumentpage120</column></row><table><table><table><table>tableseeoriginaldocumentpage122</column></row><table><table>tableseeoriginaldocumentpage123</column></row><table><table>tableseeoriginaldocumentpage124</column></row><table><table>tableseeoriginaldocumentpage125</column></row><table><table>tableseeoriginaldocumentpage126</column></row><table><table>tableseeoriginaldocumentpage127</column></row><table><table>tableseeoriginaldocumentpage128</column></row><table><table>tableseeoriginaldocumentpage129</column></row><table><table>tableseeoriginaldocumentpage130</column></row><table><table>tableseeoriginaldocumentpage131</column></row><table><table>tableseeoriginaldocumentpage132</column></row><table><table>tableseeoriginaldocumentpage133</column></row><table><table>tableseeoriginaldocumentpage134</column></row><table><table>tableseeoriginaldocumentpage135</column></row><table><table>tableseeoriginaldocumentpage136</column></row><table><table>tableseeoriginaldocumentpage137</column></row><table><table>tableseeoriginaldocumentpage138</column></row><table><table>tableseeoriginaldocumentpage139</column></row><table><table>tableseeoriginaldocumentpage140</column></row><table><table>tableseeoriginaldocumentpage141</column></row><table><table>tableseeoriginaldocumentpage142</column></row><table><table>tableseeoriginaldocumentpage143</column></row><table><table>tableseeoriginaldocumentpage144</column></row><table><table>tableseeoriginaldocumentpage145</column></row><table><table>tableseeoriginaldocumentpage146</column></row><table><table>tableseeoriginaldocumentpage147</column></row><table><table>tableseeoriginaldocumentpage148</column></row><table><table>tableseeoriginaldocumentpage149</column></row><table><table>tableseeoriginaldocumentpage150</column></row><table>实施例20:预测方法的特定应用在上述基因信号的选择中,采用了两种不同统计方法以描绘信号k最近邻法,和支持矢量机。这些方法通过分类(ref)和e1071(ref)包以R统计软件系统包来提供。本文所述的信号按如下进行检测。在两种情况下,用于开发给定信号的预测信号模型的10个数据是在复发和不复发样品中的基因表达值(来自于Affymetrix阵列数据的未标准化光密度)相对于包含在信号中基因的探针对于k最近邻法我们采用k=l和1^=3的留一法交叉验证,获得的灵敏度(正确分类的阳性样品即复发的比例)和特异性(被正确分类的阴性样品即不复发样品的比例),如表9所示。采用下列的支持矢量机参数通过数据组获得留一法交叉验证灵敏度和特异性数据通过采用线性核来生成支持矢量机模型,所有所用其它参数是从el071包的svm函数中获取的缺省值。应该注意的是含有信号的基因本身是从明显差异表达的探针列表中获取的,并且发现来自于基因列表的这些基因与NZ22基因信号中的基因相关。在某些情况下每个基因有超过一种的重要(或相关)探针。在这些情况下,预测模型使用该基因的所有重要探针(即在重要探针列表中的那些,参见表l)的中值光密度数据。参考文献1.ArnoldCN,GoelA,BlumHE,RichardBolandC.Molecularpathogenesisofcolorectalcancer.Cancer2005;104:2035-47.2.AnwarS,FraylingIM,ScottNA,CarlsonGLSystematicreviewofgeneticinfluencesontheprognosisofcolorectalcancer.BrJSurg2004;91:1275-91.3.WangY,JatkoeT,ZhangY,etal.GeneexpressionprofilesandmolecularmarkerstopredictrecurrenceofDukes'Bcoloncancer.JClinOncol2004;22:1564-71.4.EschrichS,YangI,BloomG,etal.Molecularstagingforsurvivalpredictionofcolorectalcancerpatients.JClinOncol2005;23:3526-35.5.BarrierA,LemoineA,BoellePY,etal.Coloncancerprognosispredictionbygeneexpressionprofiling.Oncogene2005;24:6155-64.6.SimonR.Roadmapfordevelopingandvalidatingtherapeuticallyrelevantgenomicclassifiers.JClinOncol2005;23:7332-41.7.MichielsS,KoscielnyS,HillC,Predictionofcanceroutcomewithmicroarrays:amultiplerandomvalidationstrategy.Lancet2005;365:488-92.8.MarshallE.Gettingthenoiseoutofgenearrays.Science2004;306:630-31.9.Birkenkamp誦DemtroderK,ChristensenLL,OlesenSH,etal.Geneexpressionincolorectalcancer.CancerRes2002;62:4352-63.10.IhakaR,GentlemanR.R:Alanguagefordataanalysisandgraphics.JournalofComputationalandGraphicalStatistics1996;5:299-314.11.SmythGK.LinearmodelsandempiricalBayesmethodsforassessingdifferentialexpressioninmicroarrayexperiments.StatisticalApplicationsinGeneticsandMolecularBiology2004;3:Article3.12.GentlemanRC,CareyVJ5BatesDM,etal.Bioconductor:opensoftwaredevelopmentforcomputationalbiologyandbioinformatics.GenomeBiol2004;5:R80.13.SmythGK,SpeedTP.NormalizationofcDNAmicroarraydata.In:CarterD,ed.METHODS:SelectingCandidateGenesfromDNAArrayScreens:ApplicationtoNeuroscience.Vol.31;2003:265-73.14.MzarryRA,HobbsB,CollinF,etal.Exploration,normalization,andsummariesofhighdensityoligonucleotidearrayprobeleveldata.Biostatistics2003,4:249-64.15.HarringtonDP,FlemingTR.Aclassofranktestproceduresforcensoredsurvivaldata.Biometrika1982,69:553-66.16.BarnesCJ,LiF,MandalM,YangZ,SahinAA,KumarR.Heregulininducesexpression,ATPaseactivity,andnuclearlocalizationofG3BP,aRassignalingcomponent,inhumanbreasttumors.CancerRes2002;62:1251-55.17.NiMT,IzumiS,SaegusaY,etal.MSSPpromotesras/myccooperativecelltransformingactivitybybindingtoc-Myc.GenesCells2000,5:127-41.18.ReinDT,RoehrigK,SchondorfT,etal.ExpressionofthehyaluronanreceptorRHAMMinendometrialcarcinomassuggestsaroleintumorprogressionandmetastasis.JCancerResClinOncol2003,129:161-64.19.FernandezP,CarreteroJ,MedinaPP,etal.DistinctivegeneexpressionofhumanlungadenocarcinomascarryingLKB1mutations.Oncogene2004,23:5084-91.20.FreyUH,EisenhardtA,Lu腿enG,etal.TheT393CpolymorphismoftheGalphasgene(GNAS1)isanovelprognosticmarkerinbladdercancer.CancerEpidemiolBiomarkersPrev2005;14:871-77.21.NiiniT,VettenrantaK,HolhnenJ,etal.Expressionofmyeloid-speciflcgenesinchildhoodacutelymphoblasticleukemia-acDNAarraystudy.Leukemia2002,16:2213-21.22.YasuiK,MiharaS,ZhaoC,etal.Alterationincopynumbersofgenesasamechanismforacquireddrugresistance.CancerRes2004;64:1403-10.23.NomuraJ,MatsumotoK,Iguchi-AiigaSM5ArigaH.PositiveregulationofFasgeneexpressionbyMSSPandabrogationofFas-mediatedapoptosisinductioninMSSP-deficientmice.ExpCellRes2005,305:324-32.24.MayeurGL,FraserCS,PeirettiF,BlockKL,HersheyJW.CharacterizationofelF3k:anewlydiscoveredsubunitofmammaliantranslationinitiationfactorelF3.EurJBiochem2003;270:4133-39.25.HsiehYJ,WangZ5KovelmanR,RoederRG.Cloningandcharacterizationoftwoevolutionarilyconservedsubunits(TFIIIC102andTFIIIC63)ofhumanTFIIICandtheirinvolvementinfunctionalinteractionswithTFHIBandRNApolymeraseIII.MolCellBiol1999;19:4944-52.26.MatsumotoS,AbeY,FujibuchiT,etal.CharacterizationofaMAPKK-likeproteinkinaseTOPK.BiochemBiophysResCommun2004;325:997-1004.27.DongVM,McDermottDH,AbdiR.Chemokmesanddiseases.EurJDermatol2003)13:224-30.28.AbeY,MatsumotoS,KitoK,UedaN.CloningandexpressionofanovelMAPKK-likeproteinkinase,lymphokine-activatedkillerT画cell-originatedproteinkinase,specificallyexpressedinthetestisandactivatedlymphoidcells.JBiolChem2000,275:21525-31.29.LoganGJ,SmythCM,EarlJW,etal.HeLacellscoculturedwithperipheralbloodlymphocytesacquireanimmuno腸inhibitoryphenotypethroughup一regulationofindoleamine2,3-dioxygenaseactivity.Immunology2002;105:478-87.30.Lubeseder-MartellatoC,GuenziE,JorgA,etal.Guanylate-bindingprotein-1expressionisselectivelyinducedbyinflammatorycytokinesandisanactivationmarkerofendothelialcellsduringinflammatorydiseases.AmJPathol2002,161:1749-59.31.PhillipsSM,BanerjeaA,FeakinsR,LiSR,BustinSA,DorudiS.Tumor-infiltratinglymphocytesincolorectalcancerwithmicrosatelliteinstabilityareactivatedandcytotoxic.BrJSurg2004;91:469-75.32.OliveiraSH,TaubDD,NagelJ5etal.Stemcellfactorinduceseosinophilactivationanddegranulation:mediatorreleaseandgenearrayanalysis.Blood2002,100:4291-97.33.XanthouleaS,PasparakisM5KousteniS,etal.Tumornecrosisfactor(TNF)receptorsheddingcontrolsthresholdsofinnateimmuneactivationthatbalanceopposingTNFfunctionsininfectiousandinflammatorydiseases.JExpMed2004;200:367-76.34.BrennanDJ,O'BrienSL,FaganA,etal.ApplicationofDNAmicroarraytechnologyindeterminingbreastcancerprognosisandtherapeuticresponse.ExpertOpinBiolTher2005;5:1069-83.35.CannaK,McArdlePA,McMillanDC,etal.TherelationshipbetweentumorT-lymphocyteinfiltration,thesystemicinflammatoryresponseandsurvivalinpatientsundergoingcurativeresectionforcolorectalcancer.BrJCancer2005;92:651-54.36.RossiD,ZlotnikA.Thebiologyofchemokinesandtheirreceptors.AnnuRevImmunol2000;18:217-42.37.MiyazakiM,NakatsuraT,YokomineK,etal.DNAvaccinationofHSP105leadstotumorrejectionofcolorectalcancerandmelanomainmicethroughactivationofbothCD4TcellsandCD8Tcells.CancerSci2005;96:695-705.38.Ein-DorL,KelaI,GetzG,GivolD,DomanyE.Outcomesignaturegenesinbreastcancer:isthereauniquesetBioinformatics2005;21:171-78.39.BeckerRA,Chambers,JMandWilksARTheNewSLanguage.Wadsworth&Brooks/Cole1988.40.GentlemanR.,CareyVJ,HuberW.,IrizarryRA,DudoitS.Springer2005,41.BauerDF.Constructingconfidencesetsusingrankstatistics.JournaloftheAmericanStatisticalAssociation1972;67:687-690.42-L5nnstedtI.andSpeedTP.Replicatedmicroarraydata.StatisticaSinica2002;12:3卜46.43.Efron,B.andTibshirani,R.AnIntroductiontotheBootstrap.Chapman&Hall.200544.HarrawayJ.IntroductoryStatisticalMethodsandtheAnalysisofVariance.UniversityofOtagoPress1993.45.McCabeGP,MooreDSIntroductiontothePracticeofStatisticsW.H.Freeman&Co.200546.CasellaG,BergerRLStatisticalInferenceWadsworth200147.McLaughlanGJ,DoK,AmbroiseCAnalyzingMicroarrayGeneExpressionData(WileySeriesinProbabilityandStatistics)200448.WrightGW5SimonRMArandomvariancemodelfordetectionofdifferentialgeneexpressioninsmallmicroarrayexperiments.Bioinformatics2003;19:2448-245549.HastieT,TibshiraniR,FriedmanJTheElementsofStatisticalLearningDataMining,InferenceandPredictionSpringer200350.NeterJ,KutnerMH,WassermanW5NachtsheimCJ,AppliedLinearStatisticalModelsMcGraw-Hill/frwin199651.Venables,WN5Ripley,BDModemAppliedStatisticswithS.4thed..Springer2002.52.Ripley,B.D.PatternRecognitionandNeuralNetworksCambridgeUniversityPress199653.CristianiniN5Shawe陽TaylorJAnIntroductiontoSupportVectorMachines(andotherkernel-basedlearningmethods)CambridgeUniversityPress200054.BreimanL5FriedmanJ,StoneCJ,OlshenRAClassificationandRegressionTreesChapman&Hall/CRC198455.Good,PIResamplingMethods:APracticalGuidetoDataAnalysisBirkhauser1999说明书中的参考文献当成整体或分成具有公知等效的成分,这种等效如果单独列出则在此合并。尽管通过实施例和相关可能的实施方式描述了本发明,但应该重视的是可实施的改进和/或修正都不偏离它们的范围。权利要求1.一种判断CRC发展的预后信号,其含有两种或多种选自表1和2的基因。2.如权利要求1所述的信号,其选自表3,4或表9之一中的任一信号。3.—种判断CRC预后的装置,其包括其上有一个或多个位点的基片,每个位点上有两种或多种寡核苷酸,每种寡核苷酸选自表1和2中的基因。4.根据权利要求3所述装置,其中所述的两种或多种寡核苷酸是选自表3,4或表9之一的预后信号。5.—种判断患者CRC预后的方法,其包括以下步骤(i)测定患者CRC肿瘤样品中含有两种或多种来自于表1和2的基因的预后信号的表达水平;(ii)应用预测模型,所述模型是通过将预测方法应用于复发和不复发肿瘤样品中预测信号的表达水平而建立的;(iii)确定预后。6.根据权利要求5所述方法,其中信号选自表3,4或表9之一。7.根据权利要求5所述方法,其中所述预测方法选自线性模型(linearmodel),支持矢量机(supportvectormachine),神经网络(neuralnetworks),分类禾口回归树(classificationandregressiontrees),集结学习方法(ensemblelearningmethods),差异分析(discriminantanalysis),最近令條(nearestneighbormethod),贝叶斯网络(Bayesiannetworks),独立成分分析(independentcomponentsanalysis)组成的组。8.根据权利要求5-7任一所述的方法,其中测定预后信号表达水平的步骤是通过检测每种基因的mRNA表达水平来进行的。9.根据权利要求5-7任一所述的方法,其中测定预后信号表达水平的步骤是通过检测每种基因的cDNA表达水平来进行的。10.根据权利要求9所述的方法,其中测定预后信号表达水平的步骤是利用与所述cDNA的至少一部分互补的核苷酸来进行的。11.根据权利要求8所述的方法,其中测定预后信号表达水平的步骤是通过使用qPCR方法来进行的,其中所述qPCR方法利用正向引物和反向引物。12.根据权利要求8所述的方法,其中测定预后信号表达水平的步骤使用权利要求3或4所述的装置来进行的。13.根据权利要求5-7任一所述方法,其中测定预后信号表达水平的步骤是通过检测每种标记的蛋白表达水平来进行的。14.根据权利要求5-7任一所述方法,其中测定预后信号表达水平的步骤是通过检测每种标记的肽表达水平来进行的。15.根据权利要求12或13所述方法,其中所述的检测步骤利用针对每种标记的抗体来进行。16.根据权利要求12-14任一所述方法,其中所述检测步骤利用夹心免疫测定法(sandwich-typeimmunoassaymethod)来进行。17.根据权利要求12-15任一所述方法,其中所述抗体是单克隆抗体。18.根据权利要求12-15任一所述方法,其中所述抗体是多克隆抗血清。全文摘要本发明涉及判断癌症尤其是结肠直肠癌患者的预后的预后信号,组合物和方法。具体而言,本发明涉及基因标记在预测癌症如结肠直肠癌的预后中的应用,其是基于基因标记的信号。在不同方面,本发明涉及了一种预测癌症患者长期存活可能性的方法,一种确定癌症患者治疗方案的方法,一种制定癌症患者治疗模式的方法等,以及实施上述方法的试剂盒和装置。文档编号G01N33/53GK101389957SQ200680052902公开日2009年3月18日申请日期2006年12月22日优先权日2005年12月23日发明者A·E·里夫,B·霍尔茨曼,H·纳卡尔达,J·L·麦考尔,J·弗里德里希斯,M·A·布拉克,R·C·波洛克,R·罗森贝格,Y-H·林申请人:环太平洋生物技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1