结肠癌基因表达签名及使用方法与流程

文档序号:11868200阅读:767来源:国知局
结肠癌基因表达签名及使用方法与流程
结肠癌基因表达签名及使用方法相关申请的交叉引用本申请要求2011年1月25日提交的美国临时申请号61/435,922的权益,其在此通过引用整体并入。发明领域本公开内容涉及结肠组织,例如结肠癌组织中的基因表达谱。具体地,本公开内容涉及测量活检结肠肿瘤组织中mRNA水平的灵敏方法,所述活检结肠肿瘤组织包括存档石蜡包埋的活检材料。此外,本公开内容提供了形成用于预后、诊断和治疗结肠癌的基因表达签名的数组表达转录物。发明背景所有结肠癌患者的大约30%被诊断患有II期疾病(Jemal等人,CACancerJ.Clin.,2004)。通过手术治疗的II期结肠癌患者的5年存活是大约75-80%,证明大部分患者通过单独手术治愈(Benson,TheOncologist,2006;Nauta等人,Arch.Surg.,1989.)。然而,这些患者的大约20-25%将在其生存期内发展复发疾病(Benson,TheOncologist,2006;Gill等人,J.Clin.Oncol.,2004)。理论上,这些患者应该受益于辅助化疗。然而,仅大约3-4%患者在II期结肠癌中使用辅助化疗的5年存活具有绝对改善(Benson,TheOncologist,2006;André等人,AnnalsofSurgicalOncology2006)。因此,美国临床肿瘤学会指南建议这些患者不应该用辅助化疗常规治疗(Benson等人,J.Clin.Oncol.,2004)。尽管如此,但清楚的是,大约20%的处于较高复发风险的II期结肠癌患者可能是辅助治疗的候选者 (Benson,TheOncologist,2006;Nauta等人,Arch.Surg.,1989;Gill等人,J.Clin.Oncol.,2004;André等人,AnnalsofSurgicalOncology2006.)。在诸如结肠癌的疾病中,第一治疗通常是最重要的,并且提供最大的成功机会,因此,存在使用对于患者结肠癌的特定阶段最有效的治疗作为第一治疗的需求。这在传统上一直是不可能的,因为没有方法可用来预测哪种药物治疗将是对于特定个体生理学最有效的。很多时候,患者不需要经历毒性药物疗法。例如,在II期肿瘤结转移(TNM)结肠癌中,还没有确定哪些患者会在手术后响应辅助化疗的方法。处于复发风险的20%的II期患者在手术之后仅三分之一从化疗中获得任何益处。这意味着进行辅助化疗使一些患者暴露于不必要的治疗。或者,在该阶段不进行辅助化疗的决定会使一些患者暴露于较高的癌症复发风险。目前,临床实践中使用的诊断测试基于单分析物测试,并且因此未捕获了解数十种不同标志物之间关系的潜在值。而且,诊断测试常常不是定量的,这取决于免疫组织化学。该方法经常在不同的实验室产生不同的结果,部分因为试剂不是标准化的,并且部分因为解释可能是主观的,并且可能不容易定量。基于RNA的测试还未经常使用,因为随时间的RNA降解问题和难以从患者获得新鲜组织样本用于分析的事实。固定的石蜡包埋组织更容易获得,并且已经建立了检测固定组织中RNA的方法。然而,这些方法通常不允许从少量材料研究大量基因(DNA或RNA)。因此,传统上,除了用于蛋白质的免疫组织化学检测之外还很少使用固定组织。最近,几个小组已经公布了关于通过微阵列基因表达分析对各种癌症类型分类的研究(参见例如,Golub等人,Science286:531537(1999);Bhattacharjae等人,Proc.Natl.Acad.Sci.USA98:1379013795(2001);Chen-Hsiang等人,Bioinformatics17(增刊.1):S316S322(2001);Ramaswamy等人,Proc.Natl.Acad.Sci.USA98:15149 15154(2001),Salazar等人,JournalofClinicalOncology29:17-24(2010),O’Conneell等人,JournalofClinicalOncology28:3937-3944(2010)和Kerr等人,JournalofClinicalOncology27(增刊)15s(2009))。然而,这些研究主要集中于改善和提炼已经建立的各种癌症类型的分类,并且一般不提供对差异表达基因的关系的新见解,并且不关联发现结果与治疗策略以改善癌症疗法的临床结果。此外,依然基于新活性化合物的有效性而非药物基因组学的集成方法来继续进行癌症治疗和结肠癌临床实验,所述药物基因组学的集成方法利用了患者的肿瘤的基因组成和基因型来建立个性化的药物治疗方案。尽管现代分子生物学和生物化学已经揭示了其活性影响肿瘤细胞行为、其分化状态及其对某些治疗药物的敏感性或抗性的超过100种基因,但存在少数例外,还没有为了常规做出关于药物治疗的临床决定的目的而探索这些基因的身份。发明概要需要鉴定用于预测患有结肠癌的患者的预后的生物标志物。将患者分类为高风险(差预后)或低风险(良好预后)的能力将能够为这些患者选择适当的疗法。例如,高风险患者可能受益于积极疗法,而疗法可能对低风险患者没有显著优势。然而,尽管有该需求,但还没有可用的该问题的解决方法。因此,需要基于微阵列的预后技术,其为医师提供关于施用特定治疗方案,例如有或没有化疗的切除术之后恢复或复发可能性的信息。还需要可以准确诊断结肠疾病,特别是诊断结肠癌的特定阶段,或者可以预测结肠病患者对特定疗法响应的技术。关于癌症患者中肿瘤的具体了解将在延长缓解、提高患者生活质量及减少健康护理成本方面非常有用。此类技术还可以用于筛选新型治疗化合物和方法的临床试验的患者候选者,以促进监管审批过程。公开了来自符合这些需求的结肠癌的表达签名。公开的签名可用于结肠癌预后、结肠癌诊断和患者分组中的应用。在一些实施方案中,这些结果允许单独或与用于治疗结肠癌的辅助化疗组合的手术的效力的基因组证据的评估。本文描述的签名可能在区分两个诊断或预后结果中是有意义的,并且能够区分两个诊断或预后结果。本公开内容的一个重要方面是在结肠癌组织中使用测量的某些基因的表达来匹配患者与最适当的治疗,并且提供预后信息。因此,公开了使用这种结肠癌签名的方法。公开的方法包括检测获自受试者的包含核酸的样本中表6所列的至少两种结肠癌相关核酸分子的表达水平,并且比较所述至少两种结肠癌相关核酸分子的表达水平或从其导出的决策评分与对照阈值。根据要求的预测,对照阈值可以指示结肠癌的诊断,指示结肠癌的已知分类,指示对治疗的已知响应,指示具有长期存活历史,指示复发历史等。在各个实施方案中,RNA分离自结肠组织样本,并且用于制备基因表达谱。在涉及癌症预后的某些实施方案中,样本是结肠直肠肿瘤标本,例如结肠癌样本。在某些实施方案中,基因表达谱涉及检测表6所列以及还可以列于表1和/或表2的至少50个转录物的表达。基因表达谱中检测的转录物的总数可以变化。例如,在一些实施方案中,谱中检测的转录物的总数是约200至约1000或约400至约800,或者在其他实施方案中,转录物的数目是约500至约700或者约550至约650。在各个实施方案中,表6中所列的至少约50、至少约100、至少约200、至少约300、至少约400、至少约500、至少约600或所有转录物作为转录物的总数的部分来检测。当检测额外转录物时(除了表6的那些),它们可以任选地选自信号或表达水平对照,并且在一些实施方案中是已知在结肠癌中表达的转录物,例如通过ColorectalCancerDSATM测定的那些。在某些实施方案中,额外的转录物还可以指示结肠癌预后。在高风险和低风险患者组,例如具有高或低临床复发风险的患者中,针对基于表6所列转录物的表达水平的表达签名来对患者表达谱 评分,并且结果可用于确定治疗过程。例如,被确定为高风险患者的患者可以在手术后用辅助化疗来治疗。对于被认为是低风险患者的患者而言,辅助化疗可以在手术后不进行。因此,在某些方面,本发明提供了用于制备指示复发风险的结肠癌肿瘤的基因表达谱的方法。本公开内容还提供了用于预后结肠癌的方法。根据该方面的方法包括制备结肠癌标本(例如,如本文描述的)的基因表达谱。然后针对本文描述的基因表达签名来对基因表达谱进行分类或评分。在各个实施方案中,基因表达签名基于表6所列的和还可以列于表1和/或表2的至少50个转录物的表达水平。在一些实施方案中,签名所基于的转录物的总数小于约800、小于约700、小于约600、小于约500、小于约400、小于约300、小于约200或小于约100个转录物,并且其包括来自表6的转录物。例如,签名可以基于来自表6的至少约400、至少约500或至少约600个转录物的表达水平。任选地,来自表6的转录物包括表1所列的转录物。还公开了制备受试者的个性化结肠癌基因组谱的方法。所述方法包括检测获自受试者的包含核酸的样本中表6所列的至少两种结肠癌相关核酸分子的表达水平,并且产生概括了通过基因表达分析获得的数据的报告。在本公开方法的一些实例中,从获自受试者的核酸测定表达水平,所述核酸包括从获自受试者的结肠直肠组织样本(例如结肠癌样本)提取的RNA转录的RNA和/或cDNA。还公开了用于检测结肠癌的基因表达签名的核酸探针和引物(以及数组此类探针和引物)。在一些实例中,探针是用于检测结肠癌签名的阵列的部分。本公开内容的前述和其他特征及优点将通过参考附图进行的几个实施方案的以下详述而变得更明显。附图简述图1提供了显示用于导出结肠癌转录物表达签名的示例性程序的流程图。图2提供了显示使用ColorectalCancerDSATM进行II期结肠癌预后签名生成和验证的示例性大纲的流程图。图3A提供了训练组中636个转录物预后签名的接收者操作特征(ROC)曲线的图。图3B提供了来自候选模型的训练数据的复发的Kaplan-Meier图。图4A提供了验证组中636个转录物预后签名的接收者操作特征(ROC)曲线的图。图4B提供了来自候选模型的验证数据的复发的Kaplan-Meier图。图5提供了来自候选模型的验证数据的总体存活的Kaplan-Meier图。图6是如下描述的表3。图7是如下描述的表6。表格简述表1提供了核心结肠签名中包括的10个候选转录物的列表。已经鉴定这些转录物对样本分类为差和好的预后组具有最大影响。表2提供了结肠签名中包括的178个独特转录物的列表。该表包括636个转录物签名中转录物的权重等级(weightrank)以及结肠组织中表达的转录物的方向。表3提供了研究中关键的患者和肿瘤特征以鉴定636个转录物签名。表4提供了交叉验证的训练组和用于鉴定转录物签名的验证组的性能标准。表5提供了显示患者年龄、患者性别、pT阶段、肿瘤等级、肿瘤位置和粘液/非粘液亚型状态的风险比(HazardsRatio)的统计分析结果。表6提供了636个转录物结肠签名中包括的转录物的列表。序列表使用如37C.F.R.§1.822中定义的核苷酸碱基的标准字母缩写显示所附序列表中所列的核酸序列和氨基酸序列。显示了每个核酸序列的仅一条链,但理解通过对所示链的任何提及而包括互补链。在所附序列表中:SEQIDNO:1-636是来自人结肠癌的寡核苷酸转录物。序列表作为ASCII文本文件以命名为ADL-0311_Sequence_Listing.txt的文件形式提交,其在2012年1月25日创建,并且是232,154字节,其在此通过引用并入。详述I.术语概述除非另外定义,本文使用的科学和技术术语具有与本公开所属领域普通技术人员所通常理解的相同的含义。分子生物学中常见术语的定义可以参见BenjaminLewin,GenesIX,JonesandBartlet出版,2008(ISBN0763752223);Kendrew等人(编辑),TheEncyclopediaofMolecularBiology,BlackwellScienceLtd.出版,1994(ISBN 0632021829);RobertA.Meyers(编辑),MolecularBiologyandBiotechnology:aComprehensiveDeskReference,VCHPublishers,Inc.出版,1995(ISBN9780471185710);Singleton等人,DictionaryofMicrobiologyandMolecularBiology第2版,J.Wiley&Sons(NewYork,N.Y.1994),和March,AdvancedOrganicChemistryReactions,MechanismsandStructure第4版,JohnWiley&Sons(NewYork,N.Y.1992)。除非上下文另外明确指明,单数术语“一个(a)”、“一种(an)”和“该(the)”包括复数个指称物。类似地,除非上下文另外明确指明,词语“或”意图包括“和”。术语“包括(comprise)”表示“包含(include)”。发生冲突的情况下,以本说明书(包括术语解释)为准。为了便于综述本公开内容的各个实施方案,提供了以下的术语解释:扩增核酸分子:以增加核酸分子,例如基因或基因片段,例如表6所示的转录物,的拷贝数。得到的产物被称为扩增产物。体外扩增的实例是聚合酶链式反应(PCR)。体外扩增技术的其他实例包括定量实时PCR、链置换扩增(参见美国专利号5,744,311);无转录等温扩增(参见美国专利号6,033,881);修复链反应扩增(参见国际专利公布号WO90/01069);连接酶链式反应扩增(参见EP-A-320308);间隙填充连接酶链式反应扩增(参见美国专利号5,427,930);偶联的连接酶检测和PCR(参见美国专利号6,027,889);和NASBATMRNA无转录扩增(参见美国专利号6,025,134)。阵列:分子,例如生物大分子(例如核酸分子)或生物样本(例如组织切片)在基底上或基底中的可寻址位置中的排列。在一些实例中,阵列是与固体基底结合以在杂交过程中不被明显移除的多核苷酸探针(例如,与表6所示核酸序列或其互补体杂交的探针)的阵列。“微阵列”是被最小化以要求显微镜检查或通过显微镜检查辅助以评价或 分析的阵列。阵列有时被称为DNA芯片或生物芯片。分子(“特征”)的阵列使一次性对样本进行很大量分析成为可能。在某些实例阵列中,一个或多个分子(例如寡核苷酸探针)将多次(例如两次)出现在阵列上,例如以提供内部对照。在特定实例中,阵列包括核酸分子,例如寡核苷酸序列。阵列上使用的多核苷酸可以是长度通常约500至5000个碱基的cDNA(“cDNA阵列”),但是也可以使用更短或更长的cDNA。或者,多核苷酸可以是长度通常约20至80个碱基的寡核苷酸,但更短和更长的寡核苷酸也是适合的。在一个实例中,分子包括通过其5′端或3′端附着至阵列的寡核苷酸。在阵列内,每个阵列样本是可寻址的,因为其位置可以在阵列的至少两个维度内稳定且一致地确定。阵列上可寻址位置的数目可以变化,例如从至少4到至少9、至少10、至少14、至少15、至少20、至少30、至少50、至少75、至少100、至少150、至少200、至少300、至少500、至少550、至少600、至少800、至少1000、至少10,000或更多。阵列上特征应用位置可以采取不同的形状。例如,阵列可以是规则的(例如以统一的行和列排列)或不规则的。因此,在有序的阵列中,当样本被应用至阵列时,为样本分配每个样本的位置,并且可以提供检索表(key)以使每个位置与适当的靶或特征位置关联。通常,有序阵列以对称的网格图案排列,但是样本可以其他图案(例如以放射状分布的线、螺旋线或有序的簇)排列。可寻址阵列通常是计算机可读的,因为计算机可以被程式化以使阵列上的特定地址与该位置处的关于样本的信息(例如杂交或结合数据,包括例如信号强度)关联。在计算机可读形式的一些实例中,阵列中个体特征以例如Cartesian网格模式规则排列,其可以通过计算机与地址信息关联。结合或稳定结合:两种物质或分子之间的结合,例如一个核酸与另一核酸的结合(例如探针与表6所示转录物或其互补体的结合),或 者一个蛋白质与另一蛋白质或核酸分子的结合。可以通过本领域技术人员已知的任何程序检测结合,例如在核酸的情况下,例如通过靶:寡核苷酸复合物的物理或功能性质。检测核酸分子互补链的结合的物理方法包括但不限于例如以下方法:DNA酶I或化学足迹法、凝胶移位和亲和力裂解测定、Northern印迹、斑点印迹和光吸收检测程序。例如,一种方法涉及观察含有寡核苷酸(或类似物)和靶核酸的溶液随温度缓慢升高在220至300nm处的光吸收的变化。如果寡核苷酸或类似物已经结合其靶,当寡核苷酸(或类似物)与靶彼此解离或解链时,在特征温度的吸收突然增加。在另一个实例中,所述方法涉及检测信号,例如一个或两个核酸分子上存在的可检测标记(或适当时,抗体或蛋白质)。寡聚体及其靶核酸之间的结合通常由50%寡聚体与其靶解链时的温度(Tm)来表征。相对于具有较低(Tm)的复合物,较高(Tm)表示较强或较稳定的复合物。cDNA(互补DNA):缺少内部非编码区段(内含子)和决定转录的调节序列的一段DNA。cDNA可以从细胞和/或组织样本提取的信使RNA(mRNA)通过逆转录合成,所述样本例如结肠样本,包括结肠癌样本。临床结果:指患者在疾病或疾患治疗之后或者没有治疗的情况下的健康状况。临床结果包括但不限于死亡前寿命增加、死亡前寿命减少、存活机会增加、死亡风险增加、存活、无疾病存活、慢性疾病、转移、晚期或攻击性疾病、疾病复发、死亡和对疗法的有利或差的响应。结肠癌:在结肠组织(大肠的最长的部分)中形成的癌症。大多数结肠癌是腺癌(在构成内部器官的细胞中开始并具有腺体样性质的癌症)。癌症进展由期或身体中癌症程度来表征。分期通常基于肿瘤大小、淋巴结是否含有癌症和癌症是否从原始位置扩散至身体其他部 分。结肠癌的期包括I期、II期、III期和IV期。除非另外指明,术语结肠癌指处于0期、I期、II期(包括IIA或IIB期)、III期(包括IIIA、IIIB或IIIC期)或IV期的结肠癌。在本文的一些实施方案中,结肠癌来自任何期。在其他实施方案中,结肠癌是II期结肠癌。化疗剂:在特征为异常细胞生长的疾病治疗中有治疗有效性的任何化学试剂。这样的疾病包括肿瘤、赘生物和癌症以及特征为增生性生长的疾病例如银屑病。在一个实施方案中,化疗剂是用于治疗结肠癌的药剂。在一个实施方案中,化疗剂是放射活性化合物。本领域技术人员可以容易地鉴定有用的化疗剂(参见例如,Slapak和Kufe,PrinciplesofCancerTherapy,Harrison'sPrinciplesofInternalMedicine,第86章,第14版;Perry等人,Chemotherapy,Abeloff,ClinicalOncology第2版,第17章,2000ChurchillLivingstone,Inc;Baltzer和Berkery.(编辑):OncologyPocketGuidetoChemotherapy,第2版.St.Louis,Mosby-YearBook,1995;FischerKnobf,和Durivage(编辑):TheCancerChemotherapyHandbook,第4版.St.Louis,Mosby-YearBook,1993)。用于治疗结肠癌的化疗剂包括小分子例如5-氟尿嘧啶、甲酰四氢叶酸(leuvocorin)、伊立替康(irinotecan)、奥沙利铂(oxaliplatin)和卡培他滨(capecitabine),以及抗体例如贝伐单抗(bevacuzimab)和西妥昔单抗(cetuximab)。组合化疗是施用超过一种药剂以治疗癌症。接触:使处于直接的物理联合;包括固体和液体形式。接触包括一个分子与另一分子之间的接触,例如;使样本与核酸探针接触,核酸探针例如表6所示序列任何一个的探针。对照:“对照”指用于与实验样本比较的样本或标准,所述实验样本例如获自结肠癌患者的肿瘤样本。在一些实施方案中,对照是获自健康患者的样本,或者获自被诊断患有结肠癌的患者的非癌组织样本,例如来自其中存在肿瘤的相同器官的非癌组织样本(例如,非癌结肠组织可用作结肠癌的对照)。在一些实施方案中,对照是历史对 照或标准值(即,之前测试的对照样本或代表基线或正常值的样本组)。用于与样本比较以确定差异表达的对照或标准包括被认为是正常(因为它们的期望特征没有改变,例如来自不具有结肠癌的受试者的样本)以及实验值的样本,即使可能是任意组。实验标准和值可以基于已知或测定的群体值,并且可以允许比较测量的实验测定值的图或表的格式提供。检测表达:以定性或定量方式测定水平表达可以检测核酸。示例性的方法包括微阵列分析、RT-PCR和Northern印迹。在一些实例中,检测表达包括检测表6中转录物的一种或多种的表达。差异表达或改变的表达:基因(例如来自表1、2的基因的任何一个,和/或表6中的核酸转录物)中编码的信息转化成信使RNA、mRNA转化成蛋白质或两者中的差异,例如增加或减少。在一些实例中,差异是相对于对照或参考值,例如来自相同受试者的不受疾病(例如结肠癌)影响的组织中核酸转录物的表达量,或者没有结肠癌的不同受试者中预期的量。差异还可以在来自受试者(在相同器官中具有癌症)的非癌组织,与未患结肠癌的不同受试者的组织相比较。检测差异表达可以包括测量基因或蛋白质表达中变化,例如表1、2中所列基因的一个或多个的表达和/或表6所示一个或多个转录物的表达的变化。下调或减少:当参考核酸分子表达而使用时,指导致核酸生成减少的任何过程。基因产物可以是RNA(例如mRNA、rRNA、tRNA和结构RNA)或蛋白质。因此,基因下调或失活包括减少基因转录或mRNA翻译的过程。基因下调包括基因产物生成的任何可检测的减少。在某些实例中,基因产物的生成与对照(例如基因表达量,例如正常细胞中标准化的基因表达)相比减少至少1.2倍,例如至少2倍、至少3倍或至少4倍。在几个实例中,对照是没有结肠癌的一个或多个受试者中基因 表达或蛋白质表达的相对量,例如没有任何已知癌症的“无癌症”受试者中基因表达或蛋白表达的相对量。外显子:理论上,信使RNA产物中表现出的中断基因的区段。理论上,术语“内含子”指被转录但是通过将其任一侧的外显子剪接在一起而从转录物内去除的任何DNA区段。操作上,外显子序列出现在参考序列(Ref.Seq)ID号定义的基因的mRNA序列中。操作上,内含子序列是基因的基因组DNA内的间插序列,由外显子序列包括并且在其5'和3'边界具有GT和AG剪接共有序列。表达:基因的编码信息被转换成细胞的操作的、非操作的或结构部分的过程,例如核酸或蛋白质的合成。基因表达可以受外部信号的影响。例如,细胞暴露于激素可以刺激激素诱导的基因的表达。不同类型的细胞可以差异地响应相同的信号。还可以在从DNA至RNA至蛋白质的通路中任何地方调节基因表达。调节可以包括对转录、翻译、RNA转运和加工的控制、中间分子例如mRNA的降解、或者通过特定蛋白质分子在生成之后的激活、失活、区室化或降解。核酸分子的表达可以改变,例如相对于正常(例如,非癌的)样本中的表达。基因表达的改变,例如差异表达,包括但不限于:(1)过表达;(2)低表达;或(3)表达抑制。核酸分子表达的改变可以伴随并且实际上引起相应蛋白质的表达变化。“表达”和/或“相对表达”可以被认为是特定转录物相对于阈值标准化之后的表达值,所述阈值在表达签名例如结肠癌表达签名中所有其他转录物的表达情形中定义。使用本领域技术人员已知的方法标准化给定样本的总体表达数据,以对于不同量的起始材料、不同效率的提取和扩增反应等来校正。使用针对标准化数据的线性分类器进行诊断或预后通话(例如,好或差的预后)实际上意味着分割数据空间,即,通过分隔性超平面将签名中所有基因的表达值的所有可能的组合分成两个分开的半部分。该分割在经验上源于大组的训练实例,例如来自具有好和差的预后的患者。没有一般性损失,可以为除一个以外的所有基因假定某一固定组 的值,这将为该剩余基因自动定义阈值,其中决定将变化,例如从好预后至差预后。高于该动态阈值的表达值则指示好预后(对于具有负权重的基因)或差预后(对于具有正权重的基因)。该阈值的精确值取决于签名内所有其他基因的实际测量的表达谱,但是某些基因的一般指示保持固定,即,高值或“相对过表达”总是促进差预后决定(具有正权重的基因)或好预后决定(具有负权重的基因)。因此,在总体基因表达签名的情形中,相对表达可以指示某一转录物的上调或下调是否指示好或差的预后。基因扩增:在特定细胞或细胞系中形成多个拷贝的基因或基因片段的过程。复制区域(一段扩增的DNA)通常被称为“扩增子”。通常,产生的信使RNA(mRNA)的量,即,基因表达的水平,也与表达的特定基因组成的拷贝数成比例增加。表达谱(或指纹或签名):基因表达模式,其是特定疾病阶段或特定预后结果的特征或与之相关。基因表达签名可以由一组信息基因或其转录物表示,编码或非编码或两者。可以使用但不限于本文提供的方法来评价签名内转录物的表达水平以做出预后测定。基因表达水平可用于区分对于诊断的两种临床状态或结果例如正常和患病组织,或对于预后方法的响应性与非响应性,和有关预测方法的复发与非复发。差异或改变的基因表达可以通过可检测量的基因表达(例如cDNA或mRNA)的变化或由那些基因表达的可检测量的蛋白质的变化来检测。不同的或可鉴定的基因表达模式,例如确定组的基因或基因指示核酸例如EST的高和低表达模式;在一些实例中,少如一个或两个基因提供谱,但是谱中可使用更多基因,例如至少2、至少3、至少4、至少5、至少6、至少7、至少9、至少10或至少11个等。在一些实施方案中,所述谱包括至少约200个基因(或“转录物”)并且至多约1000个转录物,例如从约400个转录物至约800个转录物,或约500个转录物至约700个转录物。所述谱包括来自表6的转录物(例如,来自表6的至少100、至少200、至少300、至少400、至少500或至少600个转录物),在一些实施方案中包括表6所列的636个转 录物。如本文使用的,术语“基因”指表达的转录物,其可以是表征的基因,或者可以是表达的转录物,例如EST。在一些实施方案中,检测平台是微阵列,并且每个探针被认为测定单独“基因”或“转录物”的表达。基因表达谱(还称为指纹或签名)可以关联组织或细胞类型(例如结肠组织)、正常组织生长或疾病进展(例如结肠癌)的特定阶段、或者以可预测方式影响基因表达的任何其他不同或可辨认的状态。基因表达谱可以包括特定基因的相对表达以及绝对表达水平,并且可以在与基线或对照样本谱(例如来自不患有结肠癌的受试者的样本)相比较的测试样本的情形中考虑。在一个实例中,受试者的基因表达谱在阵列(例如核酸阵列)上读述。杂交:在两条DNA链、RNA链或DNA链与RNA链的互补区之间形成碱基对,从而形成双链体分子,例如在探针和表6所示核酸序列的任何一个或其互补体之间形成的双链体。导致特定严格程度的杂交条件将根据杂交方法的性质和杂交核酸序列的组成和长度而变化。一般而言,杂交温度和杂交缓冲液的离子强度(例如Na+浓度)将决定杂交严格性。在Sambrook等人,(1989)MolecularCloning,第二版,ColdSpringHarborLaboratory,Plainview,NY(第9和11章)中讨论了达到特定的严格程度的杂交条件的计算。以下是示例性的杂交条件组,并且不是限制性的:非常高的严格性(检测享有至少90%同一性的序列)杂交:5xSSC,在65℃下持续16小时洗涤两次:2xSSC,每次在室温(RT)下持续15分钟洗涤两次:0.5xSSC,每次在65℃下持续20分钟高严格性(检测享有至少80%同一性的序列)杂交:5x-6xSSC,在65℃-70℃下持续16-20小时洗涤两次:2xSSC,每次在RT下持续5-20分钟洗涤两次:1xSSC,每次在55℃-70℃下持续30分钟低严格性(检测享有至少60%同一性的序列)杂交:6xSSC,在RT至55℃下持续16-20小时洗涤至少两次:2x-3xSSC,每次在RT至55℃下持续20-30分钟分离的:“分离的”生物组分(例如核酸分子、蛋白质或细胞)已经与所述组分天然存在其中的生物体细胞或生物体本身中的其他生物组分实质上分离或纯化,所述其他生物组分例如其他染色体和染色体外的DNA和RNA、蛋白质和细胞。该术语还包括宿主细胞中通过重组表达制备的核酸分子以及化学合成的核酸分子。例如,分离的细胞,例如结肠癌细胞,是与其他类型的细胞实质上分离的细胞。标签:能够例如通过ELISA、分光光度测定法、流式细胞术或显微镜或其他可视化技术检测的物质。例如,标签可以连接至核酸分子或蛋白质,从而允许检测核酸分子或蛋白质。例如,特异性结合靶分子例如靶核酸分子的核酸分子或抗体。标签的实例包括但不限于放射性同位素、酶底物、辅因子、配体、化学发光剂、荧光团、半抗原、酶及其组合。标记方法和关于选择适合各种目的的标签的指导讨论于例如Sambrook等人(MolecularCloning:ALaboratoryManual,ColdSpringHarbor,NewYork,1989)和Ausubel等人(CurrentProtocolsinMolecularBiology,JohnWiley&Sons,NewYork,1998)。长期存活:针对结肠癌的手术或其他治疗(例如,化疗)之后,无疾病存活至少3年,更优选至少5年,甚至更优选至少8年。更加攻击性的:如本文使用的,“更加攻击性的”形式的结肠癌是具有相对增加的转移或复发风险(例如在手术去除肿瘤之后)的结肠癌。“更加攻击性的”结肠癌还可以指赋予结肠癌受试者增加的死亡可能性或减少的死亡前寿命的结肠癌。患有更加攻击性的”形式的结肠癌的受试者被认为是高风险的(差预后)。代表基因的核酸分子:适合用作探针或其他指示分子的任何长度的并且给出相应基因信息的任何核酸,例如DNA(内含子或外显子或两者)、cDNA或RNA(例如mRNA),例如表1或2中列出的那些,例如表6中列出的转录物。寡核苷酸:相对短的多核苷酸,包括但不限于单链脱氧核糖核苷酸、单链或双链核糖核苷酸,RNA:DNA杂交体和双链DNA。经常通过化学方法,例如使用可商业途径获得的自动化寡核苷酸合成仪,合成寡核苷酸,例如单链DNA探针寡核苷酸。然而,可以通过许多其他方法制备寡核苷酸,包括体外重组DNA介导的技术和通过在细胞和生物体中表达DNA。患者:如本文使用的,术语“患者”包括人和非人动物。供治疗的优选患者是人。“患者”和“受试者”在本文可互换使用。患者响应:可以使用指示对患者益处的任何终点来评估,包括但不限于(1)一定程度上抑制肿瘤生长,包括减缓和完全生长停滞;(2)肿瘤细胞数目减少;(3)肿瘤大小减小;(4)抑制(即,减少、减缓或完全停止)肿瘤细胞侵润进入相邻的外周器官和/或组织;(5)抑制(即,减少、减缓或完全停止)转移;(6)增强抗肿瘤免疫应答,其可以但不一定导致肿瘤的消退或抑制;(7)一定程度上减轻与肿瘤相关的一种或多种症状;(8)治疗后存活时长增加;和/或(9)在治疗后的给定时间点减少的死亡率。多核苷酸:当以单数或复数使用时,一般指任何多核糖核苷酸或者多脱氧核糖核苷酸,其可以是未修饰的RNA或DNA或修饰的RNA 或DNA,或者甚至其组合。因此,例如,本文定义的多核苷酸包括但不限于单链和双链DNA,包括单链和双链区域的DNA,单链和双链RNA,和包括单链和双链区域的RNA,包括可以是单链或更通常是双链或者包括单链和双链区域的DNA和RNA的杂交分子。术语“多核苷酸”还包括含有一个或多个修饰碱基的DNA和RNA。因此,具有为稳定性或其他原因而修饰的骨架的DNA或RNA是“多核苷酸”,如该术语在本文所预期的。而且,包含不常见碱基(例如肌苷)或修饰碱基(例如氚化碱基)的DNA或RNA包含在本文定义的术语“多核苷酸”内。一般而言,术语“多核苷酸”包括未修饰的多核苷酸的所有化学、酶和/或代谢修饰的形式,以及病毒和细胞的DNA和RNA特征的化学形式,所述细胞包括简单和复杂细胞。探针和引物:探针包括能够与靶核酸(例如表6所示核酸序列之一或其互补体)杂交的分离的核酸。可检测的标记或报告分子可以连接至探针。典型的标记包括放射性同位素、酶底物、辅因子、配体、化学发光及或荧光剂、半抗原和酶。制备和使用核酸探针和引物的方法描述于例如Sambrook等人(MolecularCloning:ALaboratoryManual,CSHL,NewYork,1989),Ausubel等人(编辑)(CurrentProtocolsinMolecularBiology,JohnWiley&Sons,NewYork,1998),和Innis等人(PCRProtocols,AGuidetoMethodsandApplications,AcademicPress,Inc.,SanDiego,CA,1990)。标记方法和适合各种目的的标记的选择指导讨论于例如Sambrook等人(MolecularCloning:ALaboratoryManual,CSHL,NewYork,1989)和Ausubel等人(CurrentProtocolsinMolecularBiology,JohnWiley&Sons,NewYork,1998)。探针长度一般是至少12个核苷酸,例如至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、至少21、至少22、至少23、至少24、至少25、至少26、至少27、至少28、至少29、至少30、至少31、至少32、至少33、至少34、至少35、至少36、至少37、至少38、至少39、至少40、至少45、至少 50或更多个与靶核酸分子互补的连续核苷酸,所述靶核酸分子例如15-50个核苷酸、20-50个核苷酸或15-30个核苷酸的引物。在一些实例中,探针甚至更长,例如cDNA探针,其长度可以从约500至超过5000个核苷酸。引物是短的核酸分子,例如长度为10个寡核苷酸或更多的DNA寡核苷酸,其可以通过核酸杂交与互补的靶核酸分子退火以在引物和靶核酸链之间形成杂交体。引物可以通过聚合酶沿着靶核酸分子延伸。因此,引物可用于扩增靶核酸分子(例如表6所示的核酸序列)。引物和/或探针的特异性随其长度增加。因此,例如,包括30个连续核苷酸的引物将以比仅15个核苷酸的相应引物更高的特异性与靶序列退火。因此,为了获得更大的特异性,可以选择包括至少15、20、25、30、35、40、45、50或更多个连续核苷酸的探针和引物。在特定实例中,引物长度是至少15个核苷酸,例如与靶核酸分子互补的至少15个连续核苷酸。可用于实施本公开方法的引物的特定长度包括与待扩增的靶核酸分子互补的、具有至少15、至少16、至少17、至少18、至少19、至少20、至少21、至少22、至少23、至少24、至少25、至少26、至少27、至少28、至少29、至少30、至少31、至少32、至少33、至少34、至少35、至少36、至少37、至少38、至少39、至少40、至少45、至少50或更多个连续核苷酸的引物,例如15-50个核苷酸、20-50个核苷酸或15-30个核苷酸的引物。PCR引物设计中考虑的最重要因素之一包括引物长度、解链温度(Tm)和GC含量、特异性、互补引物序列和3'端序列。一般而言,最佳的PCR引物长度一般是17-30个碱基,并且含有约20-80%,例如约50-60%G+C碱基。介于50℃和80℃之间,例如约50℃至70℃的Tm通常是优选的。引物对可用于扩增核酸序列,例如通过PCR、实时PCR或本领域已知的其他核酸扩增方法。“上游”或“正向”引物是核酸序列上参考点5'端的引物。“下游”或“反向”引物是核酸序列上参考点 3'端的引物。一般而言,至少一个正向和一个反向引物包括在扩增反应中。核酸探针和引物可以容易地基于本文提供的核酸分子来制备,例如,通过使用预期用于该目的的计算机程序,例如Primer(版本0.5,1991,WhiteheadInstituteforBiomedicalResearch,Cambridge,MA)或PRIMERSoftware(AppliedBiosystems,AB,FosterCity,CA)。对于PCR引物和探针设计的进一步指导可以参见Dieffenbach等人,GeneralConceptsforPCRPrimerDesign,于:PCRPrimer,ALaboratoryManual,ColdSpringHarborLaboratoryPress,NewYork,1995,133155页;Innis和Gelfand,OptimizationofPCRs,于:PCRProtocols,AGuidetoMethodsandApplications,CRCPress,London,1994,511页;和Plasterer,Primerselect:Primerandprobedesign.MethodsMol.Biol.70:520527,1997。预后:罹患特定疾病或疾患的受试者的临床结果的可能性。就癌症而言,预后代表受试者存活(例如1、2、3、4或5年)的可能性(概率)和/或肿瘤转移的可能性(概率)。术语“预测”在本文用来指患者有利地或不利地响应一种药物或一组药物的可能性并且也指那些响应的程度。通过为任何特定患者选择最适合的治疗方式,本发明的预测方法可以在临床上用来做出治疗决定。在预测患者是否可能有利地响应治疗方案,例如手术介入、用给定药物或药物组合的化疗和/或放射疗法方面,本公开的预测方法是有价值的工具。纯化的:术语“纯化的”不要求绝对纯度;而是,它预期作为相对术语。因此,例如,纯化的寡核苷酸制品是其中寡核苷酸比包括复杂的寡核苷酸混合物的环境下更纯的寡核苷酸制品。样本:获自受试者的含有基因组DNA、RNA(包括mRNA和微小RNA)、蛋白质或其组合的生物标本。实例包括但不限于外周血、 尿液、唾液、组织活检、抽出物、手术标本和尸检材料,并且包括固定和/或石蜡包埋的样本。在一个实例中,样本包括结肠活检(例如结肠癌肿瘤)、非癌组织的样本或正常组织的样本(来自没有罹患已知疾病或疾患的受试者,例如无癌症受试者)。序列同一性/相似性:根据序列之间同一性或相似性表达两个或更多个核酸序列、或两个或更多个氨基酸序列之间的同一性/相似性。可根据百分比同一性测量序列同一性;百分比越高,序列越同一。可根据百分比相似性(考虑保守氨基酸取代)测量序列相似性;百分比越高,序列越相似。用于比较的序列的比对方法是本领域公知的。各种程序和比对算法描述于:Smith&Waterman,Adv.Appl.Math.2:482,1981;Needleman&Wunsch,J.Mol.Biol.48:443,1970;Pearson&Lipman,Proc.Natl.Acad.Sci.USA85:2444,1988;Higgins&Sharp,Gene,73:237-44,1988;Higgins&Sharp,CABIOS5:151-3,1989;Corpet等人,Nuc.AcidsRes.16:10881-90,1988;Huang等人ComputerAppls.theBiosciences8,155-65,1992;和Pearson等人,Meth.Mol.Bio.24:307-31,1994。Altschul等人,J.Mol.Biol.215:403-10,1990,提供了序列比对方法和同源性计算的详细考虑。NCBI基本局部比对检索工具(BLAST)(Altschul等人,J.Mol.Biol.215:403-10,1990)可获自几个来源,包括国家生物技术中心(NCBI,NationalLibraryofMedicine,Building38A,Room8N805,Bethesda,MD20894)和英特网上,与序列分析程序blastp、blastn、blastx、tblastn和tblastx结合使用。其他信息可以在NCBI网站上找到。BLASTN用于比较核酸序列,而BLASTP用于比较氨基酸序列。如果两个比较的序列享有同源性,则指定的输出文件将提出与比对序列同源的那些区域。如果两个比较的序列不享有同源性,则指定的输出文件将不提出比对的序列。一经比对,通过计数其中相同核苷酸或氨基酸残基出现于两个序列中的位置的数目来确定匹配数。通过匹配数除以鉴定的序列中给出的序列长度,或者除以明确的长度(例如,来自鉴定序列中给出的序列的100个连续核苷酸或氨基酸残基),然后得到的值乘以100,确定百分比序列同一性。例如,当与具有1554个核苷酸的测试序列比对时,具有1166个匹配的核酸序列与所述测试序列是75.0%同一的(1166÷1554*100=75.0)。百分比序列同一性值被四舍五入至十分位。例如,75.11、75.12、75.13和75.14被舍至75.1,而75.15、75.16、75.17、75.18和75.19被入至75.2。长度值总是整数。在另一实例中,含有与来自如下鉴定的序列的20个连续核苷酸比对的20个核苷酸的区域的靶序列含有与该鉴定序列享有75%序列同一性的区域(即,15÷20*100=75)。两个核酸分子密切相关的一个指示是两个分子在如上所述的严格条件下相互杂交。然而,由于遗传密码的简并性,不显示高度同一性的核酸序列可能编码相同或相似(保守的)的氨基酸序列。可以使用该简并性在核酸序列中产生变化,以产生全部编码基本相同的蛋白质的多个核酸分子。例如,通过该方法测定,这种同源核酸序列可以与表6所列分子具有至少约60%、70%、80%、90%、95%、98%或99%序列同一性。本领域技术人员将理解,特定的序列同一性范围仅为指导而提供;可能获得落入所提供的范围之外的非常明显的同源物。剪接或RNA剪接:去除内含子并连接外显子以产生进入真核细胞细胞质的、具有连续的编码序列的成熟mRNA的RNA加工。转录物或基因产物:通过从其相应的DNA或cDNA模板转录的过程产生或衍生的RNA分子。转录物包括编码和非编码RNA分子,例如但不限于信使RNA(mRNA)、选择性剪接的mRNA、核糖体RNA(rRNA)、转移RNA(tRNA)以及不被翻译成蛋白质的大范围的其 他转录物,例如小核RNA(snRNA)、反义分子例如短干扰RNA(siRNA)和微小RNA(miRNA)和未知功能的其他RNA转录物。在一些实施方案中,转录物是表6中所示的核酸序列。治疗的:包括诊断和治疗的通用术语。治疗:包括治疗性治疗和预防性或预防措施,其中目的是防止或减缓(减轻)靶病理状态或疾患。需要治疗的那些包括已经患有疾患的那些以及易于患有疾患的那些或要预防患有疾患的那些。在肿瘤(例如癌症)治疗中,治疗例如手术、化疗或放射可以直接减少肿瘤细胞的病理学,或者使肿瘤细胞对进一步治疗更敏感。肿瘤、瘤形成、恶性肿瘤或癌症:赘生性细胞生长和繁殖,无论是恶性还是良性的,以及所有的前癌和癌细胞和组织以及细胞的异常和不受控制生长的结果。术语“癌症”和“癌的”指或描述通常由不受调节的细胞生长表征的哺乳动物的病理状态。瘤形成、恶性肿瘤、癌症和肿瘤经常可互换地使用,并且指过度细胞分裂导致的组织或细胞的异常生长。个体中肿瘤的量是可以被测量为肿瘤的数目、体积或重量的“肿瘤负荷”。没有转移的肿瘤被称为“良性的”。侵入周围组织和/或可以转移的肿瘤被称为“恶性的”。“非癌组织”是来自其中恶性赘生物形成但是没有赘生物的特征病理的相同器官的组织。一般而言,非癌组织在组织学上表现正常。“正常组织”是来自器官的组织,其中所述器官不受癌症或该器官的另一疾病或疾患影响。“无癌症”受试者还没有被诊断患有该器官的癌症,并且没有可检测的癌症。癌症的“病理”包括损害患者健康的所有现象。这包括但不限于异常或不受控制的细胞生长、转移、干扰相邻细胞的正常功能、细胞因子或其他分泌产物以异常水平释放、抑制或加重炎性或免疫反应、瘤形成、恶性肿瘤前、恶性肿瘤、侵入周围或远处组织或器官,例如淋巴结等。肿瘤-结-转移(TNM):恶性肿瘤的TNM分类是用于描述患者身体癌症程度的癌症分期系统。T描述原发性肿瘤的大小以及它是否侵入了附近组织;N描述涉及的任何淋巴结;和M描述转移。TNM由国际抗癌联盟(InternationalUnionAgainstCancer)开发并维护以实现对分类癌症散布程度的一个全球公认的标准的共识。上调或激活:当参考核酸分子表达使用时,指导致基因产物生成增加的任何过程。基因产物可以是RNA(例如mRNA、rRNA、tRNA和结构RNA)或蛋白质。因此,基因上调或激活包括增加基因转录或mRNA翻译的过程,例如炎性基因。增加转录的过程的实例包括促进转录起始复合物形成的那些、增加转录起始速率的那些、增加转录延长速率的那些、增加转录合成能力的那些和减轻转录抑制(例如,通过阻断转录阻遏子的结合)的那些。基因上调可以包括阻遏的抑制以及刺激表达高于现有水平。增加翻译的过程的实例包括增加翻译起始的那些、增加翻译延长的那些和增加mRNA稳定性的那些。基因上调包括基因产物的生成的任何可检测的增加,例如炎性基因。在某些实例中,基因产物的生成与对照(例如正常细胞中基因表达和/或标准化基因表达的量)相比增加至少1.2倍、例如至少2倍、至少3倍、至少4倍、至少5倍、至少8倍、至少10倍或至少15倍。权重:参考本文公开的基因签名,指一个项目在统计计算中的相对重要性,例如表6中转录物的相对重要性。每个转录物在基因表达签名中的权重可以使用本领域已知的分析方法根据患者样本数据组来确定。示例性程序在下文描述。用于实施或测试本公开的适合的方法和材料在下文描述。这种方法和材料仅是示例性的,并且不是要限制性的。可以使用与本文描述的那些相似或等同的其他方法和材料。例如,本公开所述领域公知的常规方法描述于各种通用和更具体的参考文献中,包括例如 Sambrook等人,MolecularCloning:ALaboratoryManual,第2版,ColdSpringHarborLaboratoryPress,1989;Sambrook等人,MolecularCloning:ALaboratoryManual,第3版,ColdSpringHarborPress,2001;Ausubel等人,CurrentProtocolsinMolecularBiology,GreenePublishingAssociates,1992(和增刊至2000);Ausubel等人,ShortProtocolsinMolecularBiology:ACompendiumofMethodsfromCurrentProtocolsinMolecularBiology,第4版,Wiley&Sons,1999;Harlow和Lane,Antibodies:ALaboratoryManual,ColdSpringHarborLaboratoryPress,1990;Harlow和Lane,UsingAntibodies:ALaboratoryManual,ColdSpringHarborLaboratoryPress,1999OligonucleotidesSynthesis,(M.J.Gait编辑,1984);AnimalCellCulture,Freshney编辑,1987;MethodsinEnzymology,AcademicPress,Inc.);HandbookofExperimentalImmunology,第4增补版,D.M.Weir&C.C.Blackwell编辑,BlackwellScienceInc.,1987;GeneTransferVectorsforMammalianCells,J.M.Miller&M.P.Calos编辑,1987);和PCR:ThePolymeraseChainReaction,Mullis等人编辑,1994。此外,材料、方法和实例仅是示例性的,并且不是要限制性的。II.几个实施方案的描述A.结肠癌表达签名和使用方法本文公开了来自结肠癌的表达签名。公开的签名可用于结肠癌的预后、结肠癌的诊断和分类患者组中的应用。在一些实施方案中,获自受试者例如患者的样本被加工成一组多核苷酸结合靶,其代表组织样本中表达的转录物。用代表或相应于本文描述的签名的互补多核苷酸探针探测多核苷酸结合靶,以获得有关转录物表达水平的信息。任选地计算决策评分,所述决策评分代表签名中转录物的表达水平。然后将决策评分与对照,例如患者群相比较,并且将遗传上相似的样本与已知的患者响应或临床结果相关联。例如,还提供了灵敏的方法以预测患者对结肠癌治疗(例如手术切除和/或化疗)后的响应和预后。 一般而言,分析历史患者群数据和组织样本以产生具有结肠癌过往史的患者的遗传谱。在一些实施方案中,将患者样本的遗传谱转换成决策评分。每个患者的临床结果与每个患者个体癌症的遗传谱或从该遗传谱数学导出的决策评分关联。在一些实施方案中,使用已知的历史患者数据产生数学算法并应用于针对患有结肠癌的新患者的预测方法。在一些实施方案中,根据选择标准,例如患者结果、对疗法的响应和复发等,算法产生将患者分成两组的阈值。在一些实例中,在用于本文描述的预测方法之前,使用进一步的历史患者群数据来验证数学算法或阈值。然后,数学算法或阈值可用作参考,例如作为对照,以比较从渴望结肠癌预测方法的患者遗传谱导出的决策评分。在一些实施方案中,这些结果允许评价单独或与辅助化疗组合的手术治疗结肠癌的效力的基因组证据。本文描述的签名可以是有效的且能够区别两个诊断或预后结果。本公开的一个重要方面是使用某些基因在结肠癌组织中测量的表达来将患者与最适合的治疗匹配,并且提供预后信息。在一些实施方案中,使用结肠直肠癌聚焦微阵列研究工具开发签名。在一个具体的实施方案中,该研究工具是由AlmacDiagnostics,Ltd.(AlmacDiagnostics,Ltd.,N.Ireland)开发的能够传递准确的表达数据的结肠直肠癌转录组聚焦研究阵列。ColorectalCancerDSATM研究工具含有61,528个探针组,并且编码被证实为在结肠癌和正常组织中表达的52,306个转录物。使用BLAST分析,针对美国生物技术信息中心(NCBI)人类参考序列(RefSeq)RNA数据库(可获自万维网ncbi.nlm.nih.gov/RefSeq/)比较了ColorectalCancerDSATM研究工具,21,968(42%)个转录物存在于人类RefSeq数据库,并且26,676(51%)个转录物不存在于人类RefSeq数据库。而且,7%的内容代表注释基因的表达的反义转录物。(Johnston等人,J.Clin.Oncol.24:3519,2006;Pruitt等人,NucleicAcidsResearch 33:D501-D504,2005)。此外,与主要的通用阵列相比的ColorectalCancerDSATM的探针水平的分析,突出大约20,000(40%)个转录物不包含在主要的通用微阵列平台(Affymetrix)上,并且是ColorectalCancerDSATM独特的。因此,ColorectalCancerDSATM研究工具包括还没有在迄今进行的基因表达研究中可用的转录物。在一些实施方案中,如果表达水平在感兴趣的状态之间增加或减少,则认为基因表达签名中转录物的表达是有信息的。可以通过本领域技术人员已知的方法评估基因表达的增加或减少,所述方法包括但不限于使用倍变、t检验、F检验、Wilcoxon秩和检验、ANOVA(Cui等人,GenomeBiology4:210,2003))或用于检测差异表达的专用方法,例如微阵列的显著性分析(Tusher等人,Proc.Natl.Acad.Sci.USA98:5116-21,2001))或LIMMA(Smyth,Stat.Appl.Genet.Mol.Biol.,3:Art.3,2004))。在一些实施方案中,签名中的转录物用于形成其信号的加权之和,其中个体权重可以是正的或负的。得到的和(“决定性函数”)与预定参考点相比较。与参考点的比较可用于诊断或预测临床状态或结果。本领域普通技术人员将理解,表1、2和/或6中提供的签名中包括的转录物将在诊断或预后结肠癌的签名中携带不等的权重。因此,虽然少如1个序列可用于诊断或预测结果,但特异性和灵敏度或诊断或预测准确性可以使用更多序列来增加。表6以在签名中递减的权重顺序分级转录物,定义为根据交叉验证测量的化合物决策评分函数中平均权重的等级。权重等级还对应于所附序列表中SEQIDNO:,因此具有最大权重的转录物是SEQIDNO:1。在一些实施方案中,签名包括表6中转录物的至少2个,例如至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少20、至少25、 至少30、至少35、至少40、至少45、至少50、至少55、至少60、至少65、至少70、至少75、至少80、至少85、至少90、至少95、至少100、至少125、至少150、至少175、至少200、至少225、至少250、至少275、至少300、至少325、至少350、至少375、至少400、至少425、至少450、至少475、至少500、至少525、至少550、至少575、至少600、至少634或甚至全部636个,其具有定义为根据交叉验证测量的化合物决策评分函数中平均权重的等级的最大权重,并且依然具有预后值。在一些实施方案中,签名包括表6所列的前10个加权转录物,第二前10个加权转录物、第三前10个加权转录物、第四前10个加权转录物、第五前10个加权转录物、第六前10个加权转录物、第七前10个加权转录物、第八前10个加权转录物、第九前10个加权转录物或第十前10个加权转录物。在其他实施方案中,签名包括表6所列具有最大权重的636、634、620、610、600、590、580、570、560、550、540、530、520、510、500、490、480、470、460、450、440、430、420、410、400、390、380、370、360、350、340、330、320、310、300、290、280、270、260、250、240、230、220、210、200、190、180、170、160、150、140、130、120、110、100、90、80、70、60、50、40、30、20或10个转录物。在一些实施方案中,签名基于约200至约1000个转录物,例如约400至约800个转录物、例如约500至约700个转录物、或者在一些实施方案中约550至约650个转录物的表达水平,包括如上所述来自表6的那些(例如,来自表6的至少约50、至少约100、至少约200、至少约300、至少约400、至少约500或至少约600或全部转录物)。在一个实施方案中,特定的签名可用于本文公开的方法,其包括MUM1和SIGMAR1的转录物。在另一实施方案中,签名可用于本文公开的方法,其包括MUM1、SIGMAR1、ARSD、SULT1C2和PPFIBP1的转录物。在另一实施方案中,签名可用于本文公开的方法,其包括ARSD、CXCL9、PCLO、SLC2A3、FCGBP、SLC2A14、SLC2A3、BCL9L的转录物以及MUC3A、OLFM4和RNF39的反义序列。该签 名由下表1所代表。表1:636个转录物标签中的10个候选核心转录物在一些实施方案中,提供了结肠癌签名中的一组核心的基因转录物,其通过单独的研究被鉴定,以确定636个探针组的每一个对签名性能的贡献。在该实施方案中,从636个探针组签名去除10个探针组,并使用训练数据组基于636个探针组产生新签名。然后使用新签名预测验证数据组(无阈值)并测量AUC。记录来自636个探针组签名的AUC的差异。重复该过程50万次,并记录导致缺乏所述探针组的签名的AUC的平均差异。表1中记录了具有最大负ΔAUC的探针组。在该实施方案中,该组10个转录物代表候选核心组的基因,其从签名的缺失显著损害签名的预测性能。因此,在某些实施方案中,代表表1中的基因的转录物包括在结肠癌签名中。在表1中,如果该转录物从签名省去,DAUC代表验证AUC的下降。方向描述了结肠组织中表达的转录物的方向。该签名中的三个转录物被表示为MUC3A、OLFM4和RNF39的反义转录物。在一些实施方案中,签名包括来自表6的626-636个转录物的组合,其包括ARSD、CXCL9、PCLO、SLC2A3、FCGBP、SLC2A14、SLC2A3、BCL9L、MUC3A、OLFM4和RNF39。而在另一实施方案中,签名包括表6所列的转录物10-636、10-50、50-636、100-636,其包括ARSD、CXCL9、PCLO、SLC2A3、FCGBP、SLC2A14、SLC2A3、BCL9L、MUC3A、OLFM4和RNF39,其中转录物方向在表6中指示。值得注意的是,已经通过主要的通用阵列,通过探针水平分析,将176个转录物鉴定为未代表的(即,它们是上述ColorectalCancerDSATM工具所“独特的”)。表2所列的该组176个转录物在本文描述为对本文结肠基因签名和使用方法独特的转录物。探针-序列水平同源性检索已经将这些转录物鉴定为不包含在主要通用阵列(Affymetrix)上(即,它们是上述ColorectalCancerDSATM研究工具所“独特的”)。许多这些转录物是之前未报道表达的反义转录物。这176个转录物提供于下表2,其中权重等级对应于表6所示的编号。因此,这些独特转录物的序列可以参见表6。表2:636个转录物标签中的独特转录物在一些实施方案中,签名包括表2中所列转录物的至少2个,例如至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少55、至少60、至少65、至少70、至少75、至少80、至少85、至少90、至少95、至少100、至少125、至少150或甚至全部176个,例如具有定义为根据交叉验证测量的化合物决策评分函数中平均权重的等级的最大权重并且依然具有预后值的那些。在一些实施方案中,签名包括表2所列的前10个加权转录物,第二前10个加权转录物、第三前10个加权转录物、第四前10个加权转录物、第五前10个加权转录物、第六前10个加权转录物、第七前10个加权转录物、第八前10个加权转录物、第九前10个加权转录物或第十前10个加权转录物。而在其他实施方案中,签名包括表2所列具有最大权重的176、160、150、140、130、120、110、100、90、80、70、60、50、40、30、20或10个转录物。在一些实施方案中,本文描述的方法包括使分离自患者的RNA经受基因表达谱。因此,可以为一组基因完成基因表达谱,所述一组基因包括表6所列转录物中的至少两个,其在一些实例中如下所述标准化。在本文公开的方法的特定实施方案中,测定了表6中转录物的至少2个,例如至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少55、至少60、至少65、至少70、至少75、至少80、至少85、至少90、至少95、至少100、至少125、至少150、至少175、至少 200、至少225、至少250、至少275、至少300、至少325、至少350、至少375、至少400、至少425、至少450、至少474、至少500、至少525、至少550、至少575、至少600、至少634或甚至全部636个或其表达产物和/或互补体的表达水平,例如,具有定义为根据交叉验证测量的化合物决策评分函数中平均权重等级的最大权重并且依然具有预后值的表6中的转录物。在该方法的一些实施方案中,测定了表2中转录物的至少2个,例如至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少55、至少60、至少65、至少70、至少75、至少80、至少85、至少90、至少95、至少100、至少125、至少150或甚至全部176个或其表达产物和/或互补体的表达水平,例如,具有定义为根据交叉验证测量的化合物决策评分函数中平均权重等级的最大权重并且依然具有预后值的那些。在本文描述的方法中,转录物的组合可以被称为签名或表达签名。测量结肠组织中转录物的相对表达水平以形成基因表达谱。在一个实施方案中,以化合物决策评分的形式概括了来自患者组织样本的一组转录物的基因表达谱,并与对照阈值比较,所述对照阈值例如从患者数据的训练组数学导出的阈值。所述阈值基于不同特征分离患者组,所述特征例如但不限于好/差预后、对治疗的响应性/非响应性、癌症检测/诊断和癌症分类。患者训练组数据优选衍生自结肠组织样本,所述结肠组织样本已经通过预后、复发可能性或长期存活、诊断、癌症分类、个性化基因组谱、临床结果、治疗响应来表征。来自患者样本的表达谱以及相应的决策评分可以与数学导出的决策阈值同侧的训练组中的患者样本的特征相关联。在该实施方案中,优化线性分类化合物决策评分的阈值以使训练数据组内应用的根据交叉验证的灵敏度和特异性的总和最大化。这些方法还用于确定结肠癌和在一个具体实施方案中患有II期结肠癌的患者的预后。在一些实例中,公开的方法预测差的临床结果,其可以例如在以下方面进行测量:例如 在手术去除癌症之后,或者在与辅助化疗组合的手术去除癌症之后,缩短的存活或增加的癌症复发风险。提供了诊断获自受试者的样本中结肠癌的方法。这种方法包括检测获自受试者的包含核酸的样本中表6所列至少两种结肠癌相关核酸分子的表达水平,并且比较所述至少两种结肠癌相关核酸分子的表达水平或者从其导出的决策评分与指示结肠癌诊断的对照阈值,其中阈值同侧的表达水平或从其导出的决策评分指示结肠癌的诊断。在一些实例中,对照阈值是从来自已知结肠癌样本(或多个样本)中表6所列结肠癌相关核酸分子的相应转录物导出的阈值。提供了用于分类结肠癌样本的方法。这种方法包括检测获自受试者的包含核酸的样本中表6所列至少两种结肠癌相关核酸分子的表达水平,并且比较所述至少两种结肠癌相关核酸分子的表达水平或者从其导出的决策评分与指示已知分类的对照阈值,其中在所述阈值同侧的表达水平或从其导出的决策评分允许所述结肠癌样本的分类。在一些实例中,对照阈值是从来自已知分类的结肠癌样本(或多个样本)中表6所列结肠癌相关核酸分子的相应转录物导出的阈值。在一些实例中,结肠癌样本被分类为I期、II期、III期和IV期。在一些实例中,所述方法还包括选择将对于所分类的结肠癌有效的治疗计划,例如手术切除、化疗、放射或其任意组合。提供了用于预测对结肠癌,例如患有II期结肠癌的受试者的治疗的响应的方法。这种方法包括检测获自受试者的包含核酸的样本中表6所列的至少两种结肠癌相关核酸分子的表达水平,并比较所述至少两种结肠癌相关核酸分子的表达水平或从其导出的决策评分与指示已知的对治疗的响应的对照阈值,其中在所述阈值同侧的表达水平或从其导出的决策评分指示相似的对治疗的响应,从而预测对治疗的响应。在一些实例中,对照阈值是从来自具有已知的对治疗的响应的结肠癌样本(或多个样本)中表6所列结肠癌相关核酸分子的相应转录物导出的阈值。在一些实施方案中,所述方法是预测手术切除、化疗、 放射或其任意组合的响应的方法。提供了用于预测患有结肠癌的受试者,例如被诊断患有II期结肠癌的受试者的长期存活的方法。这些方法包括检测获自受试者的包含核酸的样本中表6所列的至少两种结肠癌相关核酸分子的表达水平,并比较所述至少两种结肠癌相关核酸分子的表达水平或从其导出的决策评分与指示具有长期存活历史的对照阈值,其中在所述阈值同侧的表达水平或从其导出的决策评分指示所述受试者的长期存活,从而预测受试者的长期存活。在一些实例中,对照阈值是从获自具有长期存活历史的受试者(或多个受试者)的结肠癌样本(或多个样本)中表6所列结肠癌相关核酸分子的相应转录物导出的阈值。还提供了用于预测受试者,例如被诊断患有II期结肠癌的受试者中结肠癌复发的方法。这些方法包括检测获自受试者的包含核酸的样本中表6所列的至少两种结肠癌相关核酸分子的表达水平,并比较所述至少两种结肠癌相关核酸分子的表达水平或从其导出的决策评分与指示复发历史的对照阈值,其中在所述阈值同侧的表达水平或从其导出的决策评分指示所述受试者中的复发。在一些实例中,对照阈值是从来自具有复发历史的结肠癌样本(或多个样本)中表6所列结肠癌相关核酸分子的相应转录物导出的阈值。提供了用于制备受试者个性化结肠癌基因组谱的方法。这些方法包括检测获自受试者的包含核酸的样本中表6所列的至少两种结肠癌相关核酸分子的表达水平,并产生概括通过基因表达分析获得的数据的报告。在本文公开的方法的特定实施方案中,测定表6中转录物或其表达产物的至少2个,例如至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少55、至少60、至少65、至少70、至少75、至少80、至 少85、至少90、至少95、至少100、至少125、至少150、至少175、至少200、至少225、至少250、至少275、至少300、至少325、至少350、至少375、至少400、至少425、至少450、至少474、至少500、至少525、至少550、至少575、至少600、至少634或甚至全部636个的表达水平并与对照阈值比较。在这些方法的其他实施方案中,测定MUM1和SIGMAR1或其表达产物的表达水平并与对照阈值比较。在另一实施方案中,测定MUM1、SIGMAR1、ARSD、SULT1C2和PPFIBP1或其表达产物的表达水平并与对照阈值比较。在其他实施方案中,测定ARSD、CXCL9、PCLO、SLC2A3、FCGBP、SLC2A14、SLC2A3、BCL9L以及MUC3A、OLFM4和RNF39的反义序列或其表达产物的表达水平并与对照阈值比较。在其他实施方案中,同步测定表1、2和/或6之一中所列的基本上全部转录物的表达水平并与对照阈值比较。在所公开的方法的一些实施方案中,根据测定的RNA的量的差异和使用的RNA的质量的变化性来校正(标准化)RNA水平。对照转录物可以作为阳性或阴性对照而包括在测定中,并且标准化读数并确保可靠的测量数据,但是在进行实际预后时优选被省略。前者的实际身份通常不重要,并且可以针对本文公开的所有目的而设想各种各样的转录物。对于标准化对照,可以设想各种各样的转录物,但是它们必须满足各种各样的受试者或感兴趣的靶组织病症之间,特别是考虑中的预后组之间大致恒定且稳定的表达的基本要求。类似地,RNA降解对照必须显示适合指示(极度)降解的RNA的强度行为。这可以包括或可以不包括RNA对照,其显示稳定的强度,而不论作为阳性对照的样本的总体RNA降解。关于这些对照,将分析适合的其他RNA对照的强度模式,对其观察到对RNA降解期的强度依赖性。这可以包括或可以不包括特定的分析,取决于探针序列相对于转录物3’端的不同位置。在其中微阵列用于定量基因表达的本公开方法的一些实施方案中,可以使用以下对照的一种或多种:(a)比对对照,其是以标记形式添加的特定转录物,其结合至阵列上的特定位置并且确保扫描阵列的图像处理中适当的网格对齐。(b)扩增对照,其是在进行任何扩增之前添加的特定未标记的转录物,例如多聚腺苷酸对照转录物,因此经历了与样本mRNA相同的加工,以确保cDNA合成和随后扩增反应的适当进行。(c)标记和杂交对照,其是在标记并杂交至芯片之前添加的特定对照,用于独立于之前扩增反应而控制这两步骤的效率。(d)背景对照,其是样本中没有相应的靶序列应该获得的微阵列上的探针序列。因此,原则上没有特定的靶结合应该发生。这些对照用于建立背景或交叉杂交强度。它们将可能通过整个微阵列上不同的GC含量和适当的空间分布来表征。(e)标准化对照,其是检测从样本特别选择的靶序列的探针序列,用于校正不同的mRNA输入量、不同的扩增反应产率和测量装置的不同的总体灵敏度。它们用于校正测量的强度值,并且因此确保整个测量装置的增加的分析精度,包括准备实验步骤。(f)RNA质量和降解对照,其是来自于相对于被设计为指示RNA质量和检测RNA降解的其各自基因的3’位置的不同位置的探针序列。来自多个基因的相应探针或探针组可能代表来自不同RNA种类的不同的RNA降解行为。而对照a)–d)可以纯粹地基于序列考虑而衍生,并且应该不天然存在于感兴趣的组织和病症,对照e)和f)可以通过之前患者数据的适当分析来选择。这可以是或可以不是已经根据其衍生预后基因签名的相同的训练数据。应该理解,上述对照仅作为实例提供,并且可以设想本公开的其他实施方案(例如qPCR),其中将使用具有相似功能性的不同对照。B.探针、引物和阵列公开了对公开的结肠癌基因签名特异的探针和引物。还公开了阵列,包括公开的结肠癌签名的探针。在一些实施方案中,对公开的结肠癌基因签名特异的探针包括与SEQIDNO:1-636之一或其互补体特异性杂交的核酸序列。在一些实施方案中,公开的结肠癌签名的探针组包括与表6中转录物的至少2个,例如至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少55、至少60、至少65、至少70、至少75、至少80、至少85、至少90、至少95、至少100、至少125、至少150、至少175、至少200、至少225、至少250、至少275、至少300、至少325、至少350、至少375、至少400、至少425、至少450、至少474、至少500、至少525、至少550、至少575、至少600、至少634或甚至全部636个特异性杂交的探针,所述转录物具有定义为根据交叉验证测量的化合物决策评分函数中平均权重的等级的最大权重,并且依然具有预后值,例如与SEQIDNO:1-636的任何一个或其互补体特异性杂交的探针。在一些实施方案中,公开的结肠癌签名的探针组包括与表6所列的前10个加权转录物,第二前10个加权转录物、第三前10个加权转录物、第四前10个加权转录物、第五前10个加权转录物、第六前10个加权转录物、第七前10个加权转录物、第八前10个加权转录物、第九前10个加权转录物或第十前10个加权转录物特异性杂交的探针。而在其他实施方案中,公开的结肠癌签名的探针组包括与表6所列具有最大权重的636、634、620、610、600、590、580、570、560、550、540、530、520、510、500、490、480、470、460、450、440、430、420、410、400、390、380、370、360、350、340、330、320、310、300、290、280、270、260、250、240、230、220、210、200、190、180、170、160、150、140、130、120、110、100、90、80、70、60、50、40、30、20或10个转录物或其互补体特异性杂交的探针。在一些实施方案中,公开的结肠癌签 名的探针组包括约200至约1000个探针,例如约400至约800个探针、例如约500至约700个探针、例如约550至约650个探针,其中探针检测表6的转录物。额外探针可以任选地选自检测在结肠癌中表达的转录物的那些,或者作为信号对照或表达水平对照而发挥作用。此类任选探针可以选自ColorectalCancerDSATM工具上包括的那些。在一些实施方案中,公开的结肠癌签名的探针组包括与MUM1和SIGMAR1的转录物特异性杂交的探针。在其他实施方案中,公开的结肠癌签名的探针组包括与MUM1、SIGMAR1、ARSD、SULT1C2和PPFIBP1的转录物特异性杂交的探针。而在其他实施方案中,公开的结肠癌签名的探针组包括与ARSD、CXCL9、PCLO、SLC2A3、FCGBP、SLC2A14、SLC2A3、BCL9L的转录物和MUC3A、OLFM4和RNF39的反义序列的转录物特异性杂交的探针。可以制备基本上代表基因表达签名的一组探针或引物。“基本上代表基因表达签名”指与基因表达签名中编码或非编码转录物的至少50%、60%、70%、80%、90%、95%、99%或100%,例如表1、2或6所示的基因表达签名中编码或非编码转录物或其互补体的至少50%、60%、70%、80%、90%、95%、99%或100%特异性杂交的探针组。有利的是使用与基因表达签名中转录物的3’区域结合的探针,特别是在待分析基因表达的患者组织是从石蜡包埋的组织提取的RNA的情况中。通常,每个探针将能够与各自转录物中的互补序列杂交,其出现在转录物3’端的1kb、或500bp、或300bp、或200bp、或100bp内。在mRNA情况下,“转录物的3’端”在本文定义为聚腺苷酸化位点,不包括多聚腺苷酸尾。在一个实施方案中,使用构成签名的总绝对权重的30%的探针集合(pool)。在可选实施方案中,在本文描述的方法中使用构成签名的总绝对权重的40%、60%、70%、80%、90%、95%或100%的探针集合。下面指示了纳入标志物的基础以及相对于参考组的mRNA水平变化的临床重要性。在一些实施方案中,公开的探针是阵列的部分, 例如,探针结合至固体基底。在以下章节D中讨论了示例性核酸阵列和制备这种阵列的方法。在一些实施方案中,对公开的结肠癌基因签名特异的探针是核酸阵列,例如微阵列的部分。在一些实例中,这种阵列包括与SEQIDNO:1-636之一或其互补体特异性杂交的核酸序列。在一些实施方案中,核酸阵列,例如微阵列包括与表6中转录物的至少2个,例如至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少55、至少60、至少65、至少70、至少75、至少80、至少85、至少90、至少95、至少100、至少125、至少150、至少175、至少200、至少225、至少250、至少275、至少300、至少325、至少350、至少375、至少400、至少425、至少450、至少474、至少500、至少525、至少550、至少575、至少600、至少634或甚至全部636个特异性杂交的探针。在一些实施方案中,公开的结肠癌签名的核酸阵列包括与表6所列的前10个加权转录物,第二前10个加权转录物、第三前10个加权转录物、第四前10个加权转录物、第五前10个加权转录物、第六前10个加权转录物、第七前10个加权转录物、第八前10个加权转录物、第九前10个加权转录物或第十前10个加权转录物特异性杂交的探针。而在其他实施方案中,针对公开的结肠癌签名的核酸阵列包括与表6所列具有最大权重的636、634、620、610、600、590、580、570、560、550、540、530、520、510、500、490、480、470、460、450、440、430、420、410、400、390、380、370、360、350、340、330、320、310、300、290、280、270、260、250、240、230、220、210、200、190、180、170、160、150、140、130、120、110、100、90、80、70、60、50、40、30、20或10个转录物或其互补体特异性杂交的探针。在一些实施方案中,公开的结肠癌签名的核酸阵列包括约200至约1000个探针、例如约400至约800个探针、例如约500至约700个探针、例如约550至约650个探针,其中探针检测表6的 转录物。额外探针可以任选地选自检测在结肠癌中表达的转录物的那些,或者其作为信号对照或表达水平对照的而发挥作用。此类任选的探针可以选自ColorectalCancerDSATM工具上包括的那些。在一些实施方案中,公开的结肠癌签名的核酸阵列包括超过约1000个探针。还公开了用于扩增结肠癌核酸的基因表达签名的引物对。在一些实例中,引物对包括长度为15至40个核苷酸的、包括与SEQIDNO:1-636所示核酸序列的任何一个或其互补体特异性杂交的核酸序列的正向引物,和长度为15至40个核苷酸的、包括与SEQIDNO:1-636所示核酸序列的任何一个或其互补体特异性杂交的核酸序列的反向引物,其中引物组能够指导核酸的扩增。还公开了用于扩增结肠癌核酸的基因表达签名的引物对组。在一些实施方案中,公开的结肠癌签名的引物组包括与表6所列转录物的至少2个,例如至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少55、至少60、至少65、至少70、至少75、至少80、至少85、至少90、至少95、至少100、至少125、至少150、至少175、至少200、至少225、至少250、至少275、至少300、至少325、至少350、至少375、至少400、至少425、至少450、至少474、至少500、至少525、至少550、至少575、至少600、至少634或甚至全部636个特异性杂交并且能够扩增其的引物,所述转录物具有定义为根据交叉验证测量的化合物决策评分函数中平均权重的等级的最大权重,并且依然具有预后值,例如与SEQIDNO:1-636的任何一个或其互补体特异性杂交并且能够扩增其的引物。在一些实施方案中,公开的结肠癌签名的引物组包括与表6所列的前10个加权转录物,第二前10个加权转录物、第三前10个加权转录物、第四前10个加权转录物、第五前10个加权转录物、第六前10个加权转录物、第七前10个加权转录物、第八前10个加权转录物、第九前10个加权转录物或第十前10个加权转录物特异性杂交并且能够扩增其的引物。而在其他实施 方案中,公开的结肠癌签名的引物组包括与表6所列具有最大权重的636、634、620、610、600、590、580、570、560、550、540、530、520、510、500、490、480、470、460、450、440、430、420、410、400、390、380、370、360、350、340、330、320、310、300、290、280、270、260、250、240、230、220、210、200、190、180、170、160、150、140、130、120、110、100、90、80、70、60、50、40、30、20或10个转录物或其互补体特异性杂交并且能够扩增其的引物。在一些实施方案中,公开的结肠癌签名的引物组包括与MUM1和SIGMAR1的转录物特异性杂交并且能够扩增其的引物。在另一实施方案中,公开的结肠癌签名的引物组包括与MUM1、SIGMAR1、ARSD、SULT1C2和PPFIBP1的转录物特异性杂交并且能够扩增其的引物。而在另一实施方案中,公开的结肠癌签名的探针组包括与ARSD、CXCL9、PCLO、SLC2A3、FCGBP、SLC2A14、SLC2A3、BCL9L的转录物和MUC3A、OLFM4和RNF39的反义序列的转录物特异性杂交的探针。可以制备基本上代表基因表达签名的一组探针或引物。“基本上代表基因表达签名”指与基因表达签名中编码或非编码转录物的至少50%、60%、70%、80%、90%、95%、99%或100%,例如表1、2或6所示的基因表达签名中编码或非编码转录物或其互补体的至少50%、60%、70%、80%、90%、95%、99%或100%特异性杂交的探针组。C.结肠癌标签的统计测定可以通过统计学方法评价公开的结肠癌签名。在一些实施方案中,通过线性分类器评价患者组织样本的基因表达谱。如本文使用的,线性分类器指个体基因强度加权求和成化合物决策评分(“决策函数”)。然后将决策评分与预定截留阈值比较,预定截留阈值对应于灵敏度和特异性的某个设定点,其指示样本是高于阈值(决策函数阳性)或低于阈值(决策函数阴性)。有效地,这意味着数据空间,即,基因表达值的所有可能组合的组被分成两个相互排斥的一半,对应于不同的临床分类或预测,例如,一个对应于好预后并且另一个对应于差预后。在整个签名的上下文中,某些基因的相对过表达可以增加决策评分(正权重)或减少决策评分(负权重),并因此促进例如差或好预后的总体决策。该量的解释,即,好对差预后的截留阈值源于具有已知结果的一组患者的发展期(“训练”)。决策评分的相应权重和好/差预后截留阈值通过本领域普通技术人员已知的方法从训练数据先验确定。在本方法的一个优选实施方案中,使用偏最小二乘判别分析(PLS-DA)来确定权重(J.Chemom.1185-196,1987;Nguyen和Rocke,Bioinformatics1839-50,2002)。当用于结肠癌签名的转录物时,本领域技术人员已知的进行分类的其他方法也可以与本文描述的方法一起。可以使用不同的方法将针对这些基因或其产物测量的定量数据转化成预后或其他预测用途。这些方法包括但不限于模式识别(Duda等人PatternClassification,第2版,JohnWiley,NewYork2001)、机器学习(等人LearningwithKernels,MITPress,Cambridge2002,Bishop,NeuralNetworksforPatternRecognition,ClarendonPress,Oxford1995)、统计学(Hastie等人TheElementsofStatisticalLearning,Springer,NewYork2001)、生物信息学(Dudoit等人,J.Am.Statist.Assoc.97:77-87,2002;Tibshirani等人,Proc.Natl.Acad.Sci.USA99:6567-6572,2002)或化学统计学(Vandeginste,等人,HandbookofChemometricsandQualimetrics,部分B,Elsevier,Amsterdam1998)。在一些实施方案中,在训练步骤中,测量好和差预后情况的一组患者样本,并且使用来自该训练数据的固有信息优化预测方法以最佳预测训练组或未来样本组。在该训练步骤中,训练或参数化使用的方法以从针对特定预后通话(prognosticcall)的特定强度模式预测。在 经历预后方法或算法之前,可以用测量的数据进行适合的转化或预处理步骤。在一些实施方案中,形成每个转录物的预处理强度值的加权之和并与针对训练组的阈值比较(Duda等人PatternClassification,第2版,JohnWiley,NewYork2001)。可以通过大量线性分类方法导出权重,这些方法包括但不限于偏最小二乘法(PLS,(Nguyen等人,2002,Bioinformatics18(2002)39-50))或支持向量机(SVM,(等人LearningwithKernels,MITPress,Cambridge2002))。在一些实施方案中,在应用加权之和之前将数据非线性地转化,例如上述所述。该非线性转化可以包括增加数据的维数。非线性转化和加权求和还可以例如通过使用内核函数而暗含地进行。(等人LearningwithKernels,MITPress,Cambridge2002)。在一些实施方案中,新数据样本与两种或更多种类别原型比较,是现实测量的训练样本或人工产生的原型。该比较使用适合的相似性量度进行,例如但不限于Euclidean距离(Duda等人PatternClassification,第2版,JohnWiley,NewYork2001)、相关系数(van’tVeer,等人,Nature415:530,2002)等。然后,将新样本指定为具有最近原型或最高数目的接近原型的预后组。在一些实施方案中,使用决策树(Hastie等人TheElementsofStatisticalLearning,Springer,NewYork2001)或随机森林(Breiman,2001RandomForests,MachineLearning45:5)来从转录组或其产物的测量的强度数据制作预后通话。在一些实施方案中,使用神经网络(Bishop,NeuralNetworksforPatternRecognition,ClarendonPress,Oxford1995)从转录组或其产物的测量的强度数据制作预后通话。在一些实施方案中,使用判别分析(Duda等人Pattern Classification,第2版,JohnWiley,NewYork2001)从转录组或其产物的测量的强度数据制作预后通话,所述判别分析包括但不限于线性、对角线性、二次项和逻辑判别分析。在一些实施方案中,使用微阵列的预测分析(PAM,(Tibshirani等人,Proc.Natl.Acad.Sci.USA99:6567-6572,2002))从转录组或其产物的测量的强度数据制作预后通话。在一些实施方案中,使用类别模拟的软独立建模(SIMCA,(Wold,1976,PatternRecogn.8:127-139))从转录组或其产物的测量的强度数据制作预后通话。D.mRNA的检测方法可以通过检测编码感兴趣基因的mRNA来评价基因表达。因此,公开的方法可以包括评价mRNA。可以使用本领域普通技术人员已知的方法,包括商业途径可获得的试剂盒从来自受试者的肿瘤样本、来自受试者的相邻非肿瘤组织样本、来自正常(健康)受试者的无肿瘤组织样本或其组合分离RNA。用于mRNA提取的一般方法是本领域公知的,并且公开于分子生物学的标准课本中,包括Ausubel等人,CurrentProtocolsofMolecularBiology,JohnWiley和Sons(1997)。用于从石蜡包埋组织提取RNA的方法公开于例如Rupp和Locker,Biotechniques6:56-60,1988,和DeAndres等人,Biotechniques18:42-44,1995。在一个实例中,可以使用来自商业生产商的纯化试剂盒、缓冲剂组和蛋白酶,根据生产商说明书进行RNA分离,所述生产商例如(Valencia,CA)。例如,可以使用迷你柱分离培养物(例如获自受试者的那些)中细胞的总RNA。其他商业途径可获得的RNA分离试剂盒包括完整DNA和RNA纯化试剂盒(Madison,Wis.),和石蜡块RNA分离试剂盒(Ambion,Inc.)。可以使用RNAStat-60(Tel-Test)分离来自组 织样本的总RNA。可以例如通过氯化铯密度梯度离心分离从肿瘤或其他生物样本制备的RNA。本文描述的签名和方法适应组中所有标志物的测定的存档的石蜡包埋活检材料的使用,并且因此与最普遍可用类型的活检材料相容。可以使用获自福尔马林固定的、石蜡包埋的组织样本、新鲜冷冻组织或已经储存在溶液例如中的新鲜组织的RNA测定结肠组织样本中转录物的表达水平。例如,可以在上述程序的任何一个之后或者整个应用期间,或者通过本领域已知的任何其他方法进行RNA的分离。虽然基因表达谱的任何技术以及蛋白质组技术适合用于进行本文描述的方法,但经常通过DNA微阵列技术测定基因表达水平。如果组织来源是福尔马林固定的、石蜡包埋的组织样本,RNA可能被片段化,导致信息丢失。本文提供的签名源自从其3’端测序的转录物集合,从而提供了组织的转录组的准确展示。因此,本文提供的签名用于新鲜冷冻和固定的石蜡包埋的组织。在一些实施方案中,用于本文描述的方法的RNA样本可以从固定的、石蜡包埋的结肠组织样本制备,通过使用以下步骤的一个或多个,例如以下步骤的全部:(a)使用常规方法和在有机溶剂中用多个洗涤步骤去石蜡;(b)空气干燥并用蛋白酶处理以断裂细胞内和细胞间键,导致RNA从组织释放;(c)去除污染的基因组DNA;(d)在有机溶剂中洗涤;并且在适合的无RNA酶洗脱缓冲液中洗脱。RNA提取方法还可以包括在高度变性裂解缓冲液中孵育组织, 所述高度变性裂解缓冲液具有逆转保存组织中出现的福尔马林交联的额外功能,以该方式为下游测定性能改善RNA产率和质量。在RNA回收之后,可以任选地进一步纯化RNA,得到基本上不含污染的DNA或蛋白质的RNA。可以通过RNA回收的前述技术的任何一个或者使用商业途径可获得的RNA清除试剂盒例如清除试剂盒()完成进一步的RNA纯化。例如,组织标本可以获自肿瘤,并且RNA可以获自肿瘤细胞富集的组织标本的微解剖部分。基因表达谱的方法包括基于多核苷酸杂交分析的方法和基于多核苷酸测序的方法。在一些实例中,使用如下方法定量样本中的mRNA表达:Northern印迹或原位杂交(Parker&Barnes,MethodsinMolecularBiology106:247-283,1999);RNA酶保护测定(Hod,Biotechniques13:852-4,1992);和基于PCR的方法,例如逆转录聚合酶链式反应(RT-PCR)(Weis等人,TrendsinGenetics8:263-4,1992)。可选地,可以采用可以识别特定双链体的抗体,所述双链体包括DNA双链体、RNA双链体和DNA-RNA杂交双链体或DNA-蛋白质双链体。基于测序的基因表达分析的代表方法包括基因表达的连续分析(SAGE)和通过大规模并行签名测序(MPSS)的基因表达分析。在一个实例中,可以使用RT-PCR比较不同样本中的mRNA水平,以表征基因表达模式,区分密切相关mRNA和分析RNA结构。在特定样本中,通过核酸微阵列技术、PCR技术或其组合来分析公开的结肠癌签名。1.使用微阵列方法的基因表达谱在一些实施方案中,结肠癌相关基因和/或转录物,例如表6所示的那些的表达谱可以使用微阵列技术在新鲜或石蜡包埋的肿瘤组织中测量。在该方法中,感兴趣的多核苷酸序列,例如与表6所示核酸序列或其互补体特异性杂交的多核苷酸序列被铺板或排列在微芯 片基底上。然后,排列的序列与来自感兴趣的细胞或组织的核酸杂交。正如RT-PCR方法(参见下文)中,mRNA的来源通常是从人肿瘤或肿瘤细胞系和相应的正常组织或细胞系分离的总RNA。因此,RNA可以分离自多种原发性肿瘤或肿瘤细胞系。如果mRNA的来源是原发性肿瘤,例如,mRNA可以提取自冷冻或存档的石蜡包埋和/或固定的(例如福尔马林固定的)组织样本,其常规地在每天的临床实践中制备和保存。在微阵列技术的特定实施方案中,将cDNA克隆或寡核苷酸的PCR扩增的插入物应用至密集阵列中的基底。还可以使用例如基于半导体的光刻法和固相化学合成技术的组合在基底上直接合成短的寡核苷酸。(Affymetrix,Inc.,SantaClara,CA)。在一个实施方案中,至少10,000个核苷酸序列存在于基底上。基底上固定的微阵列转录物适合在严格条件下杂交。荧光标记的核苷酸探针可以通过提取自感兴趣组织的RNA的反向转录并入荧光核苷酸而产生。应用至阵列的标记探针与阵列上的每个核苷酸特异性杂交。洗涤去除非特异性结合的探针之后,通过共聚焦激光微阵列或通过另一检测方法例如CCD相机来扫描阵列。每个排列的元件的杂交的定量允许评估相应的转录物丰度。使用双基色荧光,从两个来源产生的单独标记的核苷酸探针可以成对地与阵列杂交。小型化的杂交规模提供了对大量基因表达模式的方便且快速的评价。已经显示这种方法具有检测以每个细胞少数拷贝表达的稀少转录物所需的灵敏度和重复检测表达水平的至少约两倍差异所需的灵敏度(Schena等人,Proc.Natl.Acad.Sci.USA93(2):106149(1996))。还可以根据生产商的方案通过商业途径可获得的设备进行微阵列分析,例如通过使用Affymetrix技术(Affymetrix,Inc.,SantaClara,CA)或Agilent微阵列技术(AgilentTechnologies,Inc.,SantaClara,CA)。大规模分析基因表达的微阵列方法的发展使得系统检索癌症分类的分子标志物和多种肿瘤类型例如结肠癌肿瘤中的结果预测成为可能。在本文提供的特定实施方案中,可以使用阵列评价结肠癌基因表达谱,例如以预后或诊断患有结肠癌的患者。当描述主要由对表1、表2所列基因和/或表6所列转录物特异的探针或引物组成的阵列时,这种阵列包括对这些结肠癌相关基因特异的探针或引物,并且可以进一步包括对照探针(例如,以证实孵育条件是足够的)。示例性的对照探针包括GAPDH、β-肌动蛋白和18SRNA。i.阵列基板阵列的固体支持物可以由无机材料(例如玻璃)或有机聚合物形成。适合固体支持物的材料包括但不限于:聚丙烯、聚乙烯、聚丁烯、聚异丁烯、聚丁二烯、聚异戊二烯、聚乙烯吡咯烷、聚四氟乙烯、聚偏二氟乙烯、聚氟乙烯-丙烯、聚乙烯乙烯醇、聚甲基戊烯、聚氯三氟乙烯、聚砜、羟基化的双轴定向的聚丙烯、氨化的双轴定向的聚丙烯、硫醇化的双轴定向的聚丙烯、乙烯丙烯酸、乙烯甲基丙烯酸及其共聚物的混合物(参见美国专利号5,985,567)。一般而言,可以用于形成固体支持物表面的材料的适当特征包括:顺从于表面活化,使得在活化后,支持物的表面能够共价连接生物分子,例如寡核苷酸至其上;“原位”合成生物分子的顺从性;化学惰性的,使得在支持物上没有被寡核苷酸占据的区域不顺从非特异性结合,或者当非特异性结合发生时,这种材料可以容易地从表面去除而不去除寡核苷酸。在另一实例中,表面活化的有机聚合物用作固体支持物表面。表面活化的有机聚合物的一个实例是通过射频等离子体放电氨化的聚丙烯材料。还可以使用其他反应性基团,例如羧化的、羟化的、硫醇化的或活性酯基团。ii.阵列格式可以根据本公开采用各种各样的阵列格式。一个实例包括寡核苷酸键的线性阵列,一般在本领域称作测深尺。另一个适合的格式包括独立单元的二维模式(例如,64×64阵列中的4096个方块)。如本领域技术人员理解的,其他阵列格式也同等适用,包括但不限于夹缝(矩形)和环形阵列(参见美国专利号5,981,185)。在一些实例中,阵列是多孔板。在一个实例中,阵列在聚合物介质上形成,其是螺线、膜或薄膜。有机聚合物介质的一个实例是厚度大约1密耳(0.001英寸)至约20密耳的聚丙烯,但是膜厚度不是关键的,并且可以在很大范围内变化。阵列可以包括双轴定向的聚丙烯(BOPP)膜,除了其持久性,其还表现出低背景荧光。本公开的阵列格式可以包括在多种不同类型的格式中。“格式”包括固体支持物可以附加至其的任何格式,例如微量滴定板(例如,多孔板)、试管、无机片、测深尺等。例如,当固体支持体是聚丙烯螺线时,一个或多个聚丙烯螺线可以附加至塑料测深尺型装置;聚丙烯膜可以附加至载玻片。具体格式本身是不重要的。必要的是固体支持物可以附加其上而不影响固体支持物或其上吸收的任何生物聚合物的功能行为,并且格式(例如测深尺或载玻片)对于装置被引入其中的任何材料(例如,临床样本和杂交溶液)是稳定的。本公开的阵列可以通过多种方法制备。在一个实例中,寡核苷酸或蛋白质序列被单独合成,然后与固体支持物连接(参见美国专利号6,013,789)。在另一实例中,序列直接合成至支持体上以提供所需阵列(参见美国专利号5,554,501)。适合将寡核苷酸和蛋白质共价偶联至固体支持物并在支持物上直接合成寡核苷酸或蛋白质的方法是本领域技术人员已知的;适当方法的概述可以参见Matson等人,Anal.Biochem.217:306-10,1994。在一个实例中,使用在固体支持物上制备寡核苷酸的常规化学技术将寡核苷酸合成至支持物(例如PCT申请WO85/01051和WO89/10977,或美国专利号5,554,501)。可以使用通过以预定模式布置四个碱基的前体以在阵列单元中合成寡核苷酸的自动化装置产生适当的阵列。简言之,采用多通道自动化的化学递送系统在整个基底上以平行列产生寡核苷酸探针群体(数量上对应于递送系统中通道数目)。在第一方向完成寡核苷酸合成之后,可以将基底旋转90°以允许合成以在目前与第一组垂直的第二组列内继续进行。该过程产生多通道阵列,其交叉产生多个分立单元。寡核苷酸可以通过寡核苷酸的3’端或者通过寡核苷酸的5’端结合至聚丙烯支持体。在一个实例中,寡核苷酸通过3’端结合至固体支持体。然而,本领域技术人员可以确定寡核苷酸的3’端或5’端的使用是否适合结合至固体支持物。一般而言,3’端和5’端的区域中寡核苷酸探针的内部互补性决定与支持物的结合。在特定实例中,阵列上的寡核苷酸探针包括允许检测寡核苷酸探针:靶序列杂交复合物的一个或多个标记。2.使用微阵列方法的基因表达谱最灵敏和最灵活的定量方法之一是RT-PCR,其可用于比较有或没有药物治疗的正常和肿瘤组织中不同样本群体中的mRNA水平,以表征基因表达模式,以区分密切相关的mRNA和分析RNA结构。第一步是从靶样本例如人肿瘤或肿瘤细胞系和各自相应的正常组织或细胞系分离RNA。如果RNA的来源是原发性肿瘤,可以例如从冷冻或存档的石蜡包埋和/或固定的(例如福尔马林固定的)组织样本提取RNA。RT-PCR的变化是实时定量RT-PCR,其通过双重标记的荧光探针(例如,探针)测量PCR产物累积。实时PCR与其中每个靶序列的内部竞争物用于标准化的定量竞争性PCR和使用样本内含有的标准化基因或RT-PCR的管家基因的定量比较PCR相容(参见Heid等人,GenomeResearch6:986-994,1996)。定量PCR还描述 于美国专利号5,538,848。相关的探针和定量扩增程序描述于美国专利号5,716,784和美国专利号5,723,591。用于在微量滴定板中进行定量PCR的仪器可获自PEAppliedBiosystems(FosterCity,CA)。在其他实例中,使用RT-PCR技术测量mRNA水平。可以使用商业途径可获得的设备进行RT-PCR。该系统可以包括热循环仪、激光、电荷偶联的设备(CCD)相机和计算机。在一些实例中,系统在热循环仪上以96孔格式扩增样本。在扩增期间,激光诱导的荧光信号通过所有96孔的光纤电缆实时收集,并且在CCD检测。该系统包括用于运行仪器和用于分析数据的软件。为了最小化误差和样本与样本间变化的影响,可以使用内部标准进行RT-PCR。理想的内部标准在不同组织间以恒定水平表达,并且不受实验处理的影响。常用于标准化基因表达模式的RNA是管家基因GAPDH、β-肌动蛋白和18S核糖体RNA的mRNA。各种出版的杂志文章中给出了使用固定的石蜡包埋的组织作为RNA来源来定量基因表达的代表性方案的步骤,包括mRNA分离、纯化、引物延伸和扩增(参见Godfrey等人,J.Mol.Diag.2:8491,2000;Specht等人,Am.J.Pathol.158:419-29,2001)。简言之,代表性的方法以切约10μm厚的石蜡包埋的肿瘤组织样本切片开始。然后提取RNA,并去除蛋白质和DNA。可选地,从肿瘤样本或其他组织样本直接分离RNA。在分析RNA浓度之后,如果必要可以包括RNA修复和/或扩增步骤,并且使用基因特异性启动子逆转录RNA,随后进行RT-PCR和/或与核酸阵列杂交。在可选实施方案中,本领域已知用于定量样本中mRNA表达的常用方法可以与本文提供的结肠签名一起使用。这类方法包括但不限于northern印迹和原位杂交(Parker&Barnes,MethodsinMolecularBiology106:247283(1999));RNA酶保护测定(Hod,Biotechniques13:852854(1992))。可选地,可以采用可识别特定双链体的抗体,所述 双链体包括DNA双链体、RNA双链体和DNA-RNA杂交双链体或DNA-蛋白质双链体。其他基于PCR的技术包括例如差异显示(Liang和Pardee,Science257:967971(1992));扩增片段长度多态性(iAFLP)(Kawamoto等人,GenomeRes.12:13051312(1999));BeadArrayTM技术(Illumina,SanDiego,Calif.;Oliphant等人,DiscoveryofMarkersforDisease(SupplementtoBiotechniques),2002年6月;Ferguson等人,AnalyticalChemistry72:5618(2000));用于检测基因表达的BeadsArray(BADGE),在基因表达的快速测定(Yang等人,GenomeRes.11:18881898(2001))中使用商业途径可获得的Luminex100LabMAP系统和多色编码的微球(LuminexCorp.,Austin,Tex.);竞争性PCR和MassARRAY(Oeth等人,2004,SEQUONOMEApplicationNote);和高覆盖表达谱(HiCEP)分析(Fukumura等人,Nucl.Acids.Res.31(16)e94(2003))。用于扩增的引物被选择为扩增感兴趣基因(例如表1、表和表6中所列的基因)的独特区段。可以用于这些的引物可商业途径获得,或者可以根据公知方法使用例如以获得的这些基因的序列设计和合成。可选的定量核酸扩增程序描述于美国专利号5,219,727。在该程序中,通过同时扩增靶序列和内部标准核酸区段来测定样本中靶序列的量。来自每个区段的扩增的DNA的量被测定并与标准曲线比较以确定扩增之前样本中存在的靶核酸区段的量。在一些实例中,使用微阵列技术鉴定或证实基因表达。因此,使用微阵列技术,可以在新鲜或石蜡包埋的肿瘤组织中测量表达谱。在该方法中,感兴趣的结肠癌签名核酸序列(包括cDNA和寡核苷酸)被铺板或排列在微芯片基底上。然后,排列的序列与从感兴趣的细胞或组织分离的核酸(例如cDNA或mRNA)杂交。正如RT-PCR方法中, mRNA的来源通常是从人肿瘤并且任选从相应的肺癌组织和正常组织或细胞系分离的总RNA。在微阵列技术的特定实施方案中,将cDNA克隆的PCR扩增的插入物以密集阵列应用至基底。在一些实例中,阵列包括对表1、2和6中结肠癌签名基因的至少两个特异的探针。微阵列核酸适合在严格条件下杂交。可以通过并入经由从感兴趣组织提取的RNA的逆转录的荧光核苷酸来产生荧光标记的cDNA探针。应用至芯片的标记的cDNA探针与阵列上DNA的每个点特异性杂交。在严格洗涤以去除非特异性结合的探针之后,通过共聚焦激光显微镜检查或者通过另一检测方法例如CCD相机扫描芯片。每个排列的元件的杂交的定量允许评估相应的mRNA丰度。使用双基色荧光,从两个RNA来源产生的单独标记的cDNA探针可以成对地与阵列杂交。因此,同时测定来自两个来源的对应于每个指定基因的转录物的相对丰度。小型化的杂交规模提供了对表1、2和6中结肠癌签名基因表达模式的方便且快速的评价。可以根据生产商的方案通过商业途径可获得的设备进行微阵列分析,例如Affymetrix技术(Affymetrix,SantaClara,CA)或Agilent微阵列技术(AgilentTechnologies,SantaClara,CA)提供的。3.基因表达分析的额外方法基因表达的连续分析(SAGE)是允许大量基因转录物的同时且定量分析的另一方法,不需要提供每个转录物的个体杂交探针。首先,产生含有足以唯一鉴定转录物的信息的短序列标签(约10-14个碱基对),条件是所述标签获自每个转录物内的独特位置。然后,许多转录物连接在一起以形成可以被测序的长的连续分子,因此同时揭示多个标签的身份。可以通过测定个体标签的丰度并鉴定响应于每个标签的基因来定量地评价任何转录物群体的表达模式(参见例如,Velculescu等人,Science270:484-7,1995;和Velculescu等人,Cell88:243-51,1997)。原位杂交(ISH)是用于检测和比较感兴趣的基因表达的另一方法。ISH应用并外推核酸杂交技术至单细胞水平,并且与细胞化学、免疫细胞化学和免疫组织化学技术组合,允许待维持和鉴定的细胞标志物的形态和鉴定的维持,并且允许序列定位至群体内的特定细胞,例如组织和血液样本。ISH是使用互补核酸以定位组织的部分或切片(原位)或者如果组织足够小则在整个组织中(整个安装ISH)的一个或多个特定核酸序列的一种类型的杂交。可以使用RNAISH测定组织中的表达模式,例如癌症存活因子相关基因的表达。处理样本细胞或组织以增加其通透性以允许探针,例如癌症存活因子相关基因特异性探针,进入细胞。该探针被添加至处理的细胞,允许在相关温度下杂交,并且洗掉过量探针。标记互补探针,使得可以例如使用放射自显影、荧光显微镜检查或免疫测定来测定组织中的探针的位置和量。样本可以是本文描述的任何样本,例如非肿瘤样本或乳腺或肺肿瘤样本。因为感兴趣的癌症存活因子相关基因的序列是已知的,可以相应地设计探针,使得探针特异性结合感兴趣的基因。原位PCR是在ISH之前靶核酸序列的基于PCR的扩增。对于RNA的检测,引入细胞内逆转录步骤以在原位PCR之前从RNA模板产生互补DNA。这实现了低拷贝RNA序列的检测。在原位PCR之前,细胞或组织样本被固定并通透以保持形态并允许PCR试剂到达待扩增的细胞内序列。接下来在悬液中维持的完整细胞中或者直接在载玻片上的离心涂片制品或组织切片中进行靶序列的PCR扩增。在之前方法中,使用常规的热循环仪使PCR反应混合物中悬浮的固定细胞进行热循环。在PCR之后,将细胞离心涂片至载玻片,其中通过ISH或免疫组织化学显示细胞内PCR产物。通过将样本与盖玻片下的PCR混合物重叠来进行载玻片上的原位PCR,其然后被密封以防止反应混合物的蒸发。通过将载玻片直接放在常规或特殊设计的热循环仪的加热块顶部或者通过使用热循环烘箱而实现热循环。一般通过如下两种不同的技术之一实现细胞内PCR产物的检测:通过使用PCR产物特异性探针的ISH的间接原位PCR,或者通过直接检测标记的核苷酸(例如洋地黄毒苷-11-dUTP、荧光素-dUTP、3H-CTP或生物素-16-dUTP)的无ISH的直接原位PCR,所述标记的核苷酸已经在热循环期间并入PCR产物中。在检测方法的一些实施方案中,还可以评价一个或多个“管家”基因或“内部对照”的表达。这些术语包括其存在能够实现癌症存活因子相关基因(或蛋白质)水平的评价的任何组成或全局表达的基因(或蛋白质,如下讨论的)。这种评价包括基因转录的总体组成水平的测定和RNA(或蛋白质)回收中变化的控制。本公开还通过以下非限制性实施例进一步示例说明。实施例实施例1本实施例描述了使用本文公开的方法和试剂分类结肠癌样本的示例性预测工具的产生和验证。本实施例包括通过Kennedy等人,J.Clin.Oncol.,29(35)4620-4626,2011中主题技术的发明人公开的材料,所述文献通过引用整体明确地并入本文。开发了结肠直肠癌转录组聚焦研究阵列(ColorectalCancerDSATM(AlmacDiagnostics,N.Ireland;其可以存在于万维网almac-diagnostics.com)),能够从FFPE衍生的RNA递送准确的表达数据(Johnston等人,JClin.Oncol.24:3519,2006)。ColorectalCancerDSATM研究工具含有61,528个探针组并且编码52,306个被证实为在结肠癌和正常组织中表达的转录物。使用BLAST分析,针对美国生物技术信息中心(NCBI)人类参考序列(RefSeq)RNA数据库(其可以存在于万维网ncbi.nlm.nih.gov/RefSeq/)比较了ColorectalCancerDSATM研究工具,21,968个(42%)转录物存 在于人类RefSeq数据库,并且26,676个(51%)转录物不存在于人类RefSeq数据库。而且,7%的内容代表注释基因的表达的反义转录物。(Johnston等人,J.Clin.Oncol.24:3519,2006;Pruitt等人,NucleicAcidsResearch33:D501-D504,2005)。此外,与主要的通用阵列相比的ColorectalCancerDSATM的探针水平的分析,突出大约20,000(40%)转录物不包含在主要的通用微阵列平台(Affymetrix)上,并且是ColorectalCancerDSATM独特的。因此,ColorectalCancerDSATM研究工具包括还没有在迄今进行的基因表达研究中可用的转录物。最后,因为用于设计的ColorectalCancerDSATM的转录物信息部分通过高通量测序方法产生,已经可能产生比其他通用微阵列上含有的更靠近转录物3’端的探针。相关疾病特异性含量和基于3’的探针设计的组合已经产生了能够从FFPE衍生的RNA进行强大谱分析的独特产物。本研究的目的是评价ColorectalCancerDSATM研究阵列的用途,使用FFPE衍生的肿瘤材料来产生并独立地验证能够准确地将II期结肠癌患者分类为低或高风险的手术后复发的预后基因签名。本实施例中使用的II期结肠癌是AJCCT3或T4结阴性(NO)非转移(MO)结肠癌。方法样本选择分别以下列合格标准收集样本:仅II期结肠腺癌,没有残留疾病的证据;初次手术时的年龄45岁或更大的患者;到达6或更多区域淋巴结;组织切片中存在最少50%肿瘤细胞;没有结肠癌的家族史;手术1年内没有手术前或手术后的癌症疗法(但复发后给予的疗法是可接受的);和对于低风险患者5年的最低患者随访。低风险患者被定义为在初次手术5年内没有癌症复发的那些。高风险患者被定义为初次手术5年内具有转移的癌症复发的那些。具有局部疾病复发的患 者被排除,因为该复发可能已经是手术后局部残留疾病而非转移肿瘤的结果。从12个中心收集样本。所有样本经历病理学家独立的组织病理学回顾。数据组与监督、流行病学和最终结果数据库比较以确保它代表了患有II期结肠癌的一般群体。关键的患者和肿瘤特征在表3给出(参见图6)。来自FFPE组织的基因表达谱使用Roche高纯RNA石蜡试剂盒(Roche,Basel,Switzerland)从FFPE肿瘤样本提取总RNA。使用NugenFFPESystemv2与NugencDNABiotinModulev2组合制备扩增的cDNA靶,并根据生产商说明书进行。根据标准的Affymetrix方案进行片段化的标记cDNA的杂交、洗涤、染色和扫描。3.0至3.5μg片段化的标记cDNA在Affymetrix7G扫描仪(Affymetrix,SantaClara,CA)上与ColorectalCancerDSATM微阵列(Almac,Craigavon,UnitedKingdom)杂交。使用了样本谱调度策略,其包括将样本分成批次,所述批次根据操作者、试剂和材料批号以及目标临床和样本性质因素来随机化。应用了质量控制标准,并且在低风险和高风险样本之间平衡生物和技术因素。其被进行以最小化系统性偏差并使任何残留的技术偏差扩散成技术变化。分类器模型鉴定模型开发开始于5,014个探针组,其被鉴定为稳定的和/或在FFPE固定下具有相当的纵向稳定性以避免探针组的差异降解的组织。随后使用偏最小二乘分类法进行签名产生,其中在5倍交叉验证的10次重复期间选择基于递归特征消除(RFE)的重要特征。模型开发的所有方面适当嵌套在交叉验证内,包括初始过滤以去除50%具有最低变化和强度的探针组、基于参考的强大的多芯片平均(RefRMA)标准化和概括和每次重复时丢弃最不重要的10%探针组的RFE。通过在根据交叉验证具有接收器工作特性曲线下最大平均面积(AUC)的 特征长度来测定最终模型中包括的特征总数。基于来自交叉验证训练数据的灵敏度和特异性的加和的最大值(YoudenJ统计的最小值(Youden,Cancer3:32-35,1950)来选择从每个模型预测的二分法的阈值。在具有大体相同性能的多个阈值的情况下,使用来自Cox比例危险回归的危险比(HR)作为加时赛以利于更高的HR值。通过预测与临床样本共时分析的FFPE中嵌入的结肠直肠癌细胞系(HCT116)的技术复制来评价预测的精度。该样本的重复的技术测量不包括在模型开发中,但是通过作为独立测试组的所有50个交叉验证训练亚组来预测,目的是选择具有高重复性和再现性的模型。此外,进行排列测试,其中真实的类别标签被随机改组100次,随后是完整模型开发。这被进行以评估可以从具有这些特征的数据组偶然预期什么样的分类性能,并且揭示签名产生程序中的任何偏差。使用单变量和多变量Cox比例危险回归评价已知临床因素环境中最终模型的独立性。使用的输入是预测的二分的类别标签,连同肿瘤阶段、患者肿瘤等级、肿瘤位置、患者年龄、患者性别、粘液/非粘液亚型和检索的淋巴结数目。微卫星不稳定性没有作为因素包括在内,因为该信息不是大部分样本可获得的。使用基于最终签名中基因的固有开发工具进行基因本体论注释和基因本体论生物过程和分子功能的富集。使用具有错误发现率多重检验校正的超几何分布来确定显著富集的基因的功能类别。通过使用IngenuityPathwayAnalysis(IngenuitySystems,RedwoodCity,CA)产生路径分析。样本的平衡、随机化和质量控制(QC)目标群体:用于训练测定的群体适合反映来自SEER和CRUK数据库的一般群体性质。考虑以下性质:·性别。II期群体中性别流行是大约50-60%男性(在英国是56%,并且在美国是57%)。·肿瘤位置(远端/近端)。II期群体中流行是大约55%-65% 近端和35%-45%远端。·患者年龄。根据2001-2005的NCI的SEER癌症统计学综述结肠和直肠部分,0.1%的患者在20岁以下被诊断;1.0%在20和34岁之间;3.7%在35和44岁之间;11.6%在45和54岁之间;18.3%在55和64岁之间;25.1%在65和74岁之间;28.2%在75和84岁之间,并且12.2%在85岁以上。·无复发存活率。据报道II期群体中无复发存活率是13%-22%(Gattaj等人,EuropeanJournalofCancer,2006),并且根据SEER数据库是约30%。预平衡:进行预平衡,使得被提出用于杂交的样本组相对于选择的临床共变量被平衡,同时维持以上提供的一般群体统计学。这排除无复发存活,其被有意富集以增加生物标志物发现的能力。训练组不含有5年后具有事件的任何样本,而这不是验证组中的约束。不使用5年后复发的样本进行签名产生(即,在训练组中)的原则是为了避免当进行生物标志物发现时将额外的不均一性引入样本群体。平衡程序的主要目的是减少终点(作为二元变量代表的高/低风险)和下列因素任何一个之间的关联(如果有)。这些因素和高/低风险终点之间的任何关联将引入可限制测定的临床效用的混淆。使603个结肠直肠样本经历预平衡以减少预后和以下因素任何一个之间的强关联:性别;肠内的肿瘤位置;患者年龄;贡献中心;FFPE块年龄(手术日期);肿瘤含量;和RNA质量。使用Kolmogorov-Smirnoff检验来检验连续参数,并且使用卡方检验来检验分类参数。要求所有参数的p值≥0.4,以实现平衡。504个样本在平衡后保留(335个低风险和169个高风险),并被提出以阵列分析。阵列分析期间的样本随机化:进行样本随机化以避免已知技术和生物因素之间的混淆,主要是感兴趣的终点(预后)。本研究操作者中, 杂交-洗涤-染色(HWS)试剂盒批号、阵列批号和阵列批次与贡献中心和预后一起考虑。首先将样本随机化入阵列批次,使得每个阵列批次具有相同比例的预后和贡献中心。然后根据可用性将操作者分配至每个阵列批次。然后给每个阵列批次分配HWS试剂盒,确保每个操作者使用每个试剂盒的相同比例。阵列批号被分配至每个阵列批次,确保它们在阵列批次中平均分配。训练数据的质量控制:主要基于含有各种质量相关参数的AffymetrixRPT文档中的值将QC程序应用至得到的阵列。对于所有样本,基于每个参数的分布的目视检查计算限值:%目前呼叫(要求≥20%);鉴定图像加工品以去除具有明显污点的阵列;从基于Q残差和Hotelling的T2的主要组分分析(PCA)检测异常值。使用性别基因的评价来确定观察到的表达水平是否匹配临床信息中已知的性别。在分布的目视检查期间还考虑了以下Affymetrix质量参数;广泛分类为以下:RNA质量;信号质量&检测呼叫;背景&噪音;和背景同质性。总计319个结肠直肠样本通过了QC程序。由于初步结果暗示由直肠样本引入的异质性,去除直肠样本以形成249个仅结肠的组,其被提出用于最终(QC后)平衡。最终QC后平衡:使用与初始预平衡相同的原理平衡通过QC的249个结肠样本,增加%目前呼叫分布在低风险和高风险组中相似的标准(该信息仅在杂交之后可获得)。在QC和平衡之后保留最终215个样本的组。具有215个样本的最终结肠组与已知群体分布相比具有以下性质:性别:53%男性(群体中50-60%);肿瘤位置(远端/近端):62%近端(群体中55-65%近端);患者年龄:紧跟群体的连续分布;和无复发 存活率:34%差预后(高风险)。与大约15-20%群体相比有意富集。验证组和未来样本组的质量对照:对训练组使用定制QC程序是重要的步骤,目的是促进从高质量数据组鉴定生物标志物。然而为了预测未来样本,必须以一次一个样本的基础应用QC。而且,QC程序不能对数据组和其中产生数据的系统太过特异。为此目的,使用在两个系统和扫描仪中复制的40个样本进行单独评价,以鉴定在系统中稳定的QC参数。AvgSigA参数(缺席探针组的平均信号)被确定为不同系统中最稳定的参数,并且因此是系统独立性QC程序的最佳候选物。针对该参数,较高的值意味着较低的质量,并且较低的值意味着较高的质量。AvgSigA值与作为常用的QC参数和训练组使用的主要QC参数的%目前呼叫参数强负相关。来自训练组的%目前呼叫的较低接受值被设为20%,其大致对应于该数据组的AvgSigA参数的43的上限接受值。为了适应较年轻的FFPE样本,决定不对AvgSigA引入较低阈值(其将允许包括较高质量样本)。因此,从该研究得出的最终包括范围是AvgSigA≤43,其是应用至独立验证组的QC度量,并且是将被应用至未来样本的QC。鉴定在FFPE块年龄中稳定的探针组:公认mRNA转录物可能以不同速率降解并且在FFPE样本中降解至不同水平,其可能导致从不如对新鲜FFPE材料预期的发挥作用的老材料产生的签名。因此,进行两个独立的纵向研究以鉴定在FFPE块年龄中稳定的探针组。在第一研究中,9个FFPE块被连续区分并且通过DNA微阵列在固定之后16周时间段中的7个时间点分析。这些样本由一年时间段中以三个6月间隔的第二纵向研究补充,其中8个FFPE块范围从6个月至4岁年龄,其被连续区分并通过DNA微阵列分析,得到113个个体样本以供分析。鉴定了在固定之后不经历进一步的随时间降解或以相当速率分解的5014个转录物。该探针的列表随后用于签名产生。提供该研究细节的单独手稿在准备中。估计模型开发期间分类器的精确性:当用于测试环境时,分类器 从技术复制一贯产生相同输出的能力是测定的重要方面。为此目的,作为相同结肠直肠癌细胞系(HCT114)的技术复制的一组39个参考样本与临床样本一起杂交。模型开发期间,该组在交叉验证期间被预测为外部检验组,以估计模型开发过程中每步的相对方差。训练组和39个样本参考组之间在交叉验证期间没有信息共享。计算与预测的签名评分的标准偏差并显示为具有95%置信限的平均值。对于较长的签名,变化性低,然后随着特征选择程序逐渐增加,其还在较短的签名的较低准确性(AUC)中得到反映。在选择的签名长度(634个探针组)下,模型显示了高精确性和准确性。分类性能的排列分析:进行排列分析以评价可以从具有相似性质的数据组偶然预期什么分类性能。这通过随机改组真实类别标签(即,真实预后)并随后重复整个模型开发过程(具有过滤、标准化、特征选择和分类)来进行。签名性能显著好于较长签名长度和特别是其中探针组数目是634的选定者的机会。此外,排列测试揭示了用于开发分类器的数据组和/或方法中的任何潜在偏差。随机标签中的中值AUC是0.5,指示机会,其证实使用的程序中没有明显偏差。结果从FFPE组织开发II期结肠癌预后签名。5年的无疾病存活用作该研究的主要终点。在平衡临床因素并将质量控制标准应用至初始数据组之后,鉴定了215个患者(142个低风险和73个高风险患者)的训练组。在用于估计分类性能的五倍交叉验证的10次重复下进行50%方差-强度过滤、RefRMA标准化、RFE特征选择和偏最小二乘分类。交叉验证指示634个转录物签名是预后分类最佳的。产生具有0.68(P<.001)的AUC的接收器工作特性曲线,指示签名评分和预后之间的显著关联(图3A)。观察到的AUC显著高于排列分析中的随机,并且在从技术复制预测的评价中表现出低方差。从YoudenJ统计建立了签名预测评分的二分法的0.465的阈值,产生2.62的HR(P<.001;图3B)。表4含有交叉验证期间签名产生的分类性能概述。表4.训练和独立验证组的分类性能95%CI是来自交叉验证(训练组)或具有1,000个重复的拔靴法(验证组)的±2标准偏差;当计算NPV和PPV时,分别使用了80%和20%先验值。阈值t=0.465用于签名评分的二分法。缩写:AUC,接收器工作特性曲线下面积;HR,危险比;NPV,阴性预测值(阴性是低风险);PPV,阳性预测值(阳性是高风险)。II期结肠癌预后签名的独立验证:将预后签名应用至使用训练组中鉴定的阈值评分针对复发富集的144个患者(85个低风险患者和59个高风险患者)的独立验证组。单独进行样本分析,并在稍后时间至训练组。签名预测了高风险组中具有2.53(P<.001)的HR的疾病复发(图4和表4)。签名还预测了高风险组中具有2.21(P<.0084)的癌症相关死亡(图5)。本文描述的签名从FFPE衍生的肿瘤材料开发的事实有利于基于现有FFPE肿瘤库的回顾分析的大规模验证策略。危险比是通过分类器鉴定为高风险的II期结肠癌患者中发生的事件危险或机会的与通过分类器鉴定为低风险的患者中发生的事件危险的比例的表示。在手术后5年内,与被预测具有差预后的那些相比,被预测为具有好预后的组存在显著较低的复发概率。阴性预测值是经过正确诊断的具有阴性测试结果(预测阴性)的患者的比例。在预后设置中,NPV依赖疾病复发的流行。阳性预测值是经过正确诊断的具有阳性测试结果(预测阳性)的患者的比例。在预后设置中,PPV 依赖疾病复发的流行。基于20%差预后样本的群体流行,这将意味着在5年内,具有预测的差预后的患者具有33%的复发概率,而具有预测的好预后的患者具有13%的复发概率。从已知的预后因素评估签名独立性:对于有用的预后测定,其必须独立于临床使用的已知预后因素进行。因此,在单变量和多变量分析中评估了测定的独立性(表5)。表5.转录物标签与独立验证组中标准病理学参数的比较已经使用具有来自对数似然比检验的P值的Cox比例危险回归进行了单变量和多变量分析。对于肿瘤等级,等级1用作计算HR的参考点。患者年龄和检索的结数目作为连续因素被分析。患者年龄的HR的解释是1岁变化的增加风险,并且相应地,检索的结数目的HR的解释是一个检索的结增加的增加的风险。缩写:HR,危险比。预后的预测在单变量(P<.001)和多变量(P<.001)分析中是显著 的,说明签名提供了除了常规风险因素以外的预后信息。而且,通过在已经记录其的样本(验证组中144个样本中的100个)中增加淋巴血管侵入来评估签名的独立性。签名以单变量(P<.001)和多变量分析(P<.001)独立进行。预后签名中基因的功能分析:接下来,要问测定是否检测了已知与结肠癌复发相关的生物过程。使用IngenuityPathwayAnalysis分析了634个探针组,并且鉴定了统计学显著路径的列表,其中最显著的是IGF-1信号传导。讨论如本文讨论的,开发了鉴定II期结肠癌手术后处于较高复发风险的患者的基于DNA微阵列的测定。具体地,该签名鉴定了独立验证组中具有2.53的复发HR和2.21的癌症相关死亡HR的高风险队列。使用完全单独组的预后测定的验证是避免训练组签名的性能高估所必要的。2.53的复发HR有利地与同时用于做出临床决定的通常具有大约1.5或更小HR的组织学因素相比较。而且,签名不需要个体解释,并且可以提供比常规组织病理学因素更标准化的方法。重要的是,该测定对FFPE组织进行,并且因此容易应用于目前的医疗实践。尽管已经公开了几种癌症类型中几种基于DNA微阵列的预后测试,但是仅一种被引入临床实践中,并且迄今没有一个用于结肠癌。这可能是由于两个主要因素。首先,已经从新鲜或冷冻组织开发了许多签名。第二,不适当的研究方法已导致了以独立数据组验证测试的失败。关于冷冻组织样本的使用,尽管该组织类型提供了优良的微阵列数据,但是从该组织产生的测试不可能在FFPE组织中充分进行。这可在收集足以开发和独立验证预后测试的样本中产生困难。此外,基于新鲜组织的测定的实施需要临床实践的变化,因为样本需要在手术时收集。FFPE是肿瘤归档的标准,并且已经存在用于测定开发的许多肿瘤库。重要的是,基于FFPE的测定的开发和临床实施不需要样本收集和加工的变化。开发了本公开方法以对FFPE组织起作用,但是使用DNA微阵列平台,从而相对于定量聚合酶链式反应技术大大增加了可检测的mRNA转录物和生物过程的数目。由于使用了具有微阵列平台的FFPE材料,需要考虑几种方法学组织。福尔马林固定导致mRNA转录物通过RNA与蛋白质交联的降解。大多数该降解即刻发生,但是一些转录物继续随时间降解。用于研究的DNA微阵列平台具有为mRNA转录物3’端设计的探针组,以增强检测降解的转录物的能力。此外,随时间分析了单独组的结肠癌样本,以确保我们没有并入检测不稳定或差异稳定的mRNA转录物的探针组作为签名的部分。签名的预测值高于并超过已知的预后临床共变量。该性能可以大大促进针对作为建立适当训练组的部分而进行的生物和技术因素的预后的初始平衡。考虑的生物因素包括已知的预后因素,例如pT阶段和等级,以及可能已经影响基因表达的其他非预后因素,包括肿瘤位置、患者年龄和性别。技术因素,例如FFPE块年龄和贡献中心也在训练组中高和低风险样本之间平衡。此外,进行操作者和试剂盒的随机化以避免技术因素和已知临床因素之间的混淆。这最大程度降低了测定取决于操作者或依赖于来自特定中心的样本的使用或特定批次试剂的使用的风险。因为测定被开发为独立于已知的预后因素,我们相信可能开发并入几种因素以产生甚至更准确的预后指示器的多参数测试。基因签名的功能分析揭示,IGF-1信号传导、TGF-β信号传导和HMGB1信号传导属于鉴定的最重要的路径。所有这些已经先前被报道在结肠癌中通过促进肿瘤生长、侵入和转移以及防止凋亡而赋予差预后。总之,本文公开了针对FFPE储存的肿瘤组织的II期结肠癌的经验证且强大的预后DNA微阵列签名。本公开的签名可以帮助医师在复发风险和受益于辅助化疗的可能性方面做出更明智的临床决定(Andre等人,AnnalsofSurgicalOncology13:887-898,2006;Diaz-Rubio等人,Clin.Transl.Oncol.7:3-11,2005;Monga等人,Ann.Surg.Oncol.13:1021-1134,2006;Sobrero,LancetOncol.7:515-516,2006)。而且,许多患者想知道他们的治愈可能性和治疗风险/益处(Gill等人,J.Clin.Oncol.22:1797-1806,2004;Kinney等人,Cancer91:57-65,2001;Carney等人,Ann.R.Coll.Surg.Engl.88:447-449,2006;Salkeld,HealthExpect7:104-1014,2004)。能够预测患者预后为医师和患者提供了对风险/益处和疗法选择的更好评估。提供个性化患者护理的能力将有希望为这些患者提供改善的存活和生活质量。过去,许多研究已暗示样本大小是缺乏可信统计学证据的主要原因,并且指出更大试验是证明辅助治疗益处所必需的。使用验证的预后标志物,例如本研究中产生的基因签名,II期患者可以被分成高和低风险亚群。该方法可以通过专注处于高复发风险的那些患者而帮助改善的临床实验设计,并且因此更可能推导辅助疗法的益处。因此,ColorectalCancerDSATM可以是有用的研究工具,用于分级患者以包括在临床试验中,用于关于辅助和新辅助治疗作出决策,和用于鉴定额外药物开发的新路径或分子靶。表6中报道的预后签名准确地预测了II期结肠癌的复发,并且基于独立的FFPE验证组来评价。针对该异质疾病的复发预测的总体准确性是实质的。基于20%差预后样本的群体流行,这意味着在5年内,具有预测的差预后的患者具有33%的复发概率,而具有预测的好预后的患者具有13%的复发概率。目前方法的主要优点之一是它基于FFPE组织的表达谱,其是针对大多数可用组织库的优选储存方法(AbramovitzProteomeSci.4:5,2006)。从FFPE组织样本提取的RNA往往由于降解和福尔马林诱导的修饰而具有较短的中值长度,这使得一般测定难以检测。当确定结肠癌转录组时,采用基于3’的测序方法,这有利于设计针对每个转录物的3’端的探针组。该方法确保高得多的 检测速率,并因此被优化设计以从新鲜冷冻和FFPE组织样本两者检测RNA转录物。本研究的结果显示,AlmacDiagnosticsColorectalCancerDSATM研究工具能够从FFPE导出组织产生生物上有意义且可重现的数据。实施例2癌症的预后本实施例描述了可以用于预后被诊断患有结肠癌的受试者的特定方法。然而,本领域技术人员将理解,还可以使用偏离这些特定方法的方法来成功地提供患有结肠癌的受试者的预后。肿瘤样本和相邻的非肿瘤样本获自受试者。例如使用细针穿刺对每个样本类型获得大约1-100μg组织。使用常规方法(例如使用商业试剂盒)从肿瘤和非肿瘤组织分离RNA和/或蛋白质。在一个实例中,通过微阵列分析或实时定量PCR在获自受试者的肿瘤样本中检测表1、2和/或6中转录物的2个或更多个的表达水平来确定结肠癌肿瘤的预后。例如,可以利用公开的基因签名。将肿瘤样本中的相对表达水平与对照(例如,从受试者的相邻非肿瘤组织分离的RNA)比较。在其他情况下,对照是参考值,例如获自一组健康受试者或癌症受试者的非肿瘤样本中存在的这种分子的相对量。鉴于本公开的原理可以应用的许多可能的实施方案,应该理解示例说明的实施方案。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1