用于内分泌治疗下的乳腺癌复发预测的方法

文档序号：10467182阅读：638来源：国知局

用于内分泌治疗下的乳腺癌复发预测的方法
【专利摘要】本发明涉及用于乳腺癌疾病结果的预后的方法、试剂盒和系统，所述方法包括：(a)确定来自所述患者的肿瘤样品中以下9个基因中的至少2个的RNA表达水平：UBE2C、BIRC5、RACGAP1、DHCR7、STC2、AZGP1、RBBP8、IL6ST和MGP；(b)数学地组合在该肿瘤样品中确定的所述组基因的表达水平值，从而得出组合得分，其中所述组合得分指示所述患者的预后；以及实施所述方法的试剂盒和系统。
【专利说明】
用于内分泌治疗下的乳腺癌复发预测的方法
[0001] 本申请为2012年09月28日提交的名称为"用于内分泌治疗下的乳腺癌复发预测的方法"的中国专利申请No. 201180016811.5的分案申请。本申请要求2010年03月31日提交的欧洲专利申请No. 10158561.0的优先权。
技术领域
[0002] 本发明涉及用于乳腺癌疾病结果的预后的方法、试剂盒和系统。更具体而言，本发明涉及基于乳腺癌患者的肿瘤样品中标记基因表达水平的测定对乳腺癌的预后。
【背景技术】
[0003] 在西方国家，乳腺癌是妇女癌症死亡的主要原因之一。更具体来说，仅在美国，乳腺癌每年夺走约40000名妇女的生命，并且每年约有200,000名妇女被诊断出患有乳腺癌。在过去几十年中，辅助性全身疗法已经大幅提升了早期乳腺癌的存活率。这种临床经验使得大家一致推荐给绝大多数的乳腺癌患者(EBCAG)提供辅助性全身治疗。在乳腺癌的治疗中，除了常规进行肿瘤的手术切除和随后的肿瘤床放疗外，还有多种治疗选择可以应用。三种主要的、概念上不同的策略是内分泌治疗、化学治疗和使用靶向治疗剂的治疗。采用内分泌药物的治疗的先决条件是肿瘤组织中激素受体的表达，即雌激素受体、孕激素受体或者两者的表达。当在大量患者群组(cohort)中测试时具有不同的作用模式和疾病结果差异的几种内分泌药物是可用的。他莫昔芬是过去三十年中内分泌治疗的主要药物。大量的临床试验表明，他莫昔芬显著地降低了肿瘤复发的风险。另一种治疗选择基于属于新的一类内分泌药物的芳香酶抑制剂。不同于作为雌激素结合的竞争性抑制剂的他莫昔芬，芳香酶抑制剂阻断了雌激素本身的产生，从而降低了对雌激素受体阳性肿瘤细胞的生长刺激。然而，有些患者尽管接受了内分泌治疗但会经历复发，尤其是这些患者可能受益于其他治疗药物。在雌激素受体阳性以及雌激素受体阴性的患者中，已经证明使用蒽环类抗生素、紫杉烷类和其他药物的化学治疗可以有效减少疾病的复发。NSABP-20研究在淋巴结阴性雌激素受体阳性患者中比较了单独的他莫昔芬和他莫昔芬加上化学治疗，表明联合治疗要比单独的他莫昔芬更有效。然而，比较了单独的他莫昔芬和他莫昔芬加上化学治疗的IBCSG IX研究却未能表明添加细胞毒性药物有任何显著的益处。最近，已经表明全身施用的抗肿瘤细胞表面上HER2/neu抗原的抗体可以使过表达Her2neu的肿瘤患者的复发风险降低数倍。然而，大部分（即使不是所有的)不同药物治疗都有许多潜在的副作用，可能会严重影响患者的生活质量(Shapiro和Recht，2001 ;Ganz等人，2002)。这使得必须在对个体患者进行认真的风险评估的基础上选择治疗策略以避免过度治疗以及不足的治疗。由于化学治疗的益处在以缺乏HER2/neu和雌激素受体表达为特征的HER2/neu阳性肿瘤(基底型）中比在HER2/neu阴性和雌激素受体阳性肿瘤（管腔型）中相对较大，最具有挑战性的治疗决定涉及管腔型肿瘤，针对管腔型肿瘤的典型临床因素，比如分级、肿瘤大小或淋巴结累及，不能对是否采用化学治疗这一问题给出明确的答案。已经开发了较新的分子工具，如21基因分析、基因组等级指数分析和其他工具，来解决这个医疗需求。
[0004] 治疗指南通常由本领域知名的专家开发。在欧洲，圣加仑指南（St Gallen gui de 1 ine s)从2009年开始向HER2阳性乳腺癌患者以及HER2阴性和ER阴性疾病患者推荐化学治疗。在HER2阴性和ER阳性疾病患者中存在关于化学治疗有效性的不确定性。为了对个体做出平衡的治疗决定，用癌症复发的可能性作为最有用的标准。诸如淋巴结状态、肿瘤分级、肿瘤大小等临床标准是有帮助的，因为它们提供关于复发风险的信息。最近，已经表明多基因分析比标准临床风险因素提供更好的或额外的信息。普遍认为，增殖标记似乎提供主要的预后信息。这些预测器化1'6(1；[01：01')的突出的例子是来自48611(113的1^11]111^口1'；[111：检测、来自Veridex的复发评分和Jules Bordet研究所开发并授权给Ipsogen的基因组等级指数。所有这些分析都是基于对至少70个基因的表达水平的测定，并且所有这些都已经针对未被福尔马林固定和石蜡包埋严重降解、但从新鲜组织中分离的RNA(在RNALaterTM中运输)进行了开发。另一种突出的多基因分析是Genomic Health Inc的复发评分检测。该检测在从福尔马林固定的、石蜡包埋的组织样品中提取RNA后测定16个癌症相关基因和5个参考基因的表达水平。
[0005] 然而，在最重要的临床风险组中，即那些基于标准临床参数具有中等复发风险的乳腺癌患者中，现有的工具苦于缺乏临床有效性和实用性。因此，需要更好的工具来根据患者的预后优化治疗决定。针对避免化学治疗的临床应用，需要具有高灵敏度和高阴性预测值的检测，以便不会发生对患者的治疗不足从而导致最终发生术后远端转移。关于在对辅助性治疗作出临床决定中有用的材料和方法的持续需求，本发明满足了对基于容易获得的临床和实验数据进行乳腺癌预后的先进方法的需求。

【发明内容】

[0006] 总体而言，本发明提供了评估淋巴结阴性或阳性、雌激素受体阳性和HER2/NEU阴性乳腺癌患者，特别是接受内分泌治疗的患者（例如用他莫昔芬治疗时）的复发风险的方法。雌激素受体状态一般用免疫组织化学来确定，HER2/NEU(ERBB2)状态一般用免疫组织化学和荧光原位杂交来确定。然而，为了本发明的目的，雌激素受体状态和ffiR2/NEU(ERBB2) 状态可用诸如免疫组织化学、荧光原位杂交(FISH)或RNA表达分析等任何合适的方法来确定。
[0007] 本发明涉及用于预测乳腺癌患者的雌激素受体阳性和HER2阴性肿瘤的乳腺癌结果的方法，所述方法包括：
[0008] (a)确定来自所述患者的肿瘤样品中以下9个基因中至少2个的RNA表达水平： UBE2C、BIRC5、RACGAP1、DHCR7、STC2、AZGP1、RBBP8、IL6ST和MGP;
[0009] (b)数学地组合在所述肿瘤样品中确定的所述组基因的表达水平值，从而得出组合得分，其中所述组合得分指示所述患者的预后。在一个实施方案中，至少选择3、4、5或6个基因。
[0010] 在本发明的进一步的实施方案中，该方法包括：
[0011] (a)确定来自所述患者的肿瘤样品中以下8个基因的RNA表达水平：UBE2C、 RACGAP1、DHCR7、STC2、AZGP1、RBBP8、IL6 ST和MGP;
[0012] (b)数学地组合在所述肿瘤样品中确定的所述组基因的表达水平值，从而得出组合得分，其中所述组合得分指示所述患者的预后。
[0013] 在进一步的实施方案中，本发明的方法包括：
[0014] (a)确定来自所述患者的肿瘤样品中以下8个基因的RNA表达水平:UBE 2C、BIRC5、 DHCR7、STC2、AZGP1、RBBP8、IL6ST和MGP;
[0015] (b)数学地组合在所述肿瘤样品中确定的所述组基因的表达水平值，从而得出组合得分，其中所述组合得分指示所述患者的预后。
[0016] 在本发明的又一实施方案中，
[0017] BIRC5 可以替换为 UBE2C 或 T0P2A 或 RACGAP1 或 AURKA 或 NEK2 或 E2F8 或 PCNA 或 CYBRD1 或DCN或ADRA2A或SQLE或CXCL12或EPHX2或ASPH或PRSS16或EGFR或CCND1或TRIM29或DHCR7 或PIP或TFAP2B或WNT5A或AP0D或PTPRT，条件是替换后选择8个不同的基因；且
[0018] UBE2C 可以替换为 BIRC5 或 RACGAP1 或 T0P2A 或 AURKA 或 NEK2 或 E2F8 或 PCNA 或 CYBRD1 或ADRA2A或DCN或SQLE或CCND1或ASPH或CXCL12或PIP或PRSS16或EGFR或DHCR7或EPHX2或 TR頂29，条件是替换后选择8个不同的基因；且
[0019] DHCR7可以替换为AURKA、BIRC5、UBE2C或任何其他可以代替BIRC5或UBE2C的基因，条件是替换后选择8个不同的基因；且
[0020] STC2 可以替换为 INPP4B 或 IL6ST 或 SEC14L2 或 MAPT 或 CHPT1 或 ABAT 或 SCUBE2 或 ESR1 或RBBP8或PGR或PTPRT或HSPA2或PTGER3，条件是替换后选择8个不同的基因；且
[0021] AZGP1可以替换为PIP或EPHX2或PLAT或SEC14L2或SCUBE2或PGR，条件是替换后选择8个不同的基因；且
[0022] RBBP8可以替换为CELSR2或PGR或STC2或ABAT或IL6ST，条件是替换后选择8个不同的基因；且
[0023] IL6ST 可以替换为 INPP4B 或 STC2 或 MAPT 或 SCUBE2 或 ABAT 或 PGR 或 SEC14L2 或 ESR1 或 GJA1或MGP或EPHX2或RBBP8或PTPRT或PLAT，条件是替换后选择8个不同的基因；且 [0024] MGP可以替换为AP0D或IL6ST或EGFR，条件是替换后选择8个不同的基因。
[0025] 根据本发明的一个方面，提供了如上所述的方法，其中所述组合得分表明从细胞毒性化学治疗中受益。
[0026] 在患者接受内分泌治疗之前使用本发明的方法允许预测内分泌治疗的疗效。
[0027] 下面的表2中示出了在接受内分泌治疗的患者中，每个上述标记基因的过表达是指示好结果还是指示坏结果。因此，技术人员可以考虑给定基因的效果来构建数学组合，即算法。例如，其过表达指示好结果的基因的求和或加权求和导致一种其中高风险得分指示好结果的算法。通过用临床记录分析患者的肿瘤样品，可以检查该算法的有效性，其中，例如，可以分别确定和比较好结果患者和坏结果患者的得分。技术人员、生物统计学家将知道运用进一步的数学方法如判别函数来得到优化的算法。例如可以针对灵敏度或特异性对算法进行优化。算法可通过调整而适应于用来测量标记基因的基因表达的特定分析平台，如定量PCR。
[0028] 根据本发明的一个方面，提供了如上所述的方法，其中所述内分泌治疗包括他莫昔芬或芳香酶抑制剂。
[0029] 根据本发明的一个方面，提供了如上所述的方法，其中预测发生复发的风险。
[0030] 根据本发明的一个方面，提供了如上所述的方法，其中所述表达水平作为非蛋白质表达水平进行确定。
[0031] 根据本发明的一个方面，提供了如上所述的方法，其中所述表达水平作为RNA表达水平进行确定。
[0032] 根据本发明的一个方面，提供了如上所述的方法，其中所述表达水平通过以下方法中的至少一种来确定
[0033] 基于PCR的方法，
[0034]基于微阵列方法，和 [0035]基于杂交的方法。
[0036] 根据本发明的一个方面，提供了如上所述的方法，其中所述表达水平的测定是在福尔马林固定的、石蜡包埋的肿瘤样品中或在新鲜冷冻的肿瘤样品中进行的。
[0037] 根据本发明的一个方面，提供了如上所述的方法，其中，所述至少一个标记基因的表达水平作为相对于至少一个参考基因或相对于计算的平均表达值的表达模式进行确定。
[0038] 根据本发明的一个方面，提供了如上所述的方法，其中，所述数学组合步骤包括对代表给定基因的表达水平的值应用算法的步骤。
[0039] 根据本发明的一个方面，提供了如上所述的方法，其中所述算法是所述代表给定基因表达水平的值的线性组合。
[0040] 根据本发明的一个方面，提供了如上所述的方法，其中代表给定基因的表达水平的值乘以一个系数。
[0041 ]根据本发明的一个方面，提供了如上所述的方法，其中，为所述组合得分确定一个、两个或两个以上的阈值，并且通过对所述组合得分应用该阈值，该阈值判别为高和低风险，高、中和低风险，或更多的风险组。
[0042]根据本发明的一个方面，提供了如上所述的方法，其中高组合得分表明从更具侵略性的治疗如细胞毒性化学治疗中受益。本领域技术人员理解，在这一点上，"高得分"涉及参考值或截止值。本领域技术人员进一步理解，取决于所用来得到组合得分的特定算法，低于截止值或参考值的"低"得分也可以表明受益于更具侵略性的治疗，如细胞毒性化学治疗。当与高转移风险具有正相关的基因代入具有正系数的算法，使得高总得分指示与高风险具有正相关的基因的高表达时，情况就是这样。
[0043] 根据本发明的一个方面，提供了如上所述的方法，其中，在数学地组合基因表达水平值以得出组合得分的步骤中处理关于患者的淋巴结状态的信息。
[0044] 根据本发明的一个方面，提供了如上所述的方法，其中，如果所述淋巴结状态为阴性，则所述关于淋巴结状态的信息为<〇的数值，而如果所述淋巴结状态为阳性或未知，则所述信息为>〇的数值。在本发明的示例性实施方案中，阴性淋巴结状态被赋予数值〇,未知淋巴结状态被赋予数值0.5,而阳性淋巴结状态被赋予数值1。也可选择其他值，以反映淋巴结状态在算法中的不同的权重。
[0045] 本发明还涉及用于执行如上所述的方法的试剂盒，所述试剂盒包含一组能够特异性结合基因组合中基因的序列或基因片段的序列的寡核苷酸，其中
[0046] (i)所述组合包括至少以下8个基因：UBE2C、BIRC5、DHCR7、STC2、AZGP1、RBBP8、 IL6ST和MGP;或
[0047] (ii)所述组合包括至少以下 10个基因：BIRC5、AURKA、PVALB、匪U、STC2、RBBP8、 PTGER3、CXCL12、CDH1和PIP;或
[0048] ( i i i )所述组合包括至少以下9个基因：BIRC5、DHCR7、RACGAP1、PVALB、STC2、 IL6ST、PTGER3、CXCL12和ABAT;或
[0049] (i v)所述组合包括至少以下9个基因：DHCR7、RACGAP 1、NMU、AZGP1、RBBP8、IL6ST和 MGP〇
[0050] 本发明还涉及用于执行权利要求1至17中任一项的方法的试剂盒的应用，所述试剂盒包含一组能够特异性结合基因组合中基因的序列或基因片段的序列的寡核苷酸，其中 [0051 ] (i)所述组合包括至少以下8个基因：UBE2C、BIRC5、DHCR7、STC2、AZGP1、RBBP8、 IL6ST和MGP;或
[0052] (i i)所述组合包括至少以下 10个基因：BIRC5、AURKA、PVALB、匪U、STC2、RBBP8、 PTGER3、CXCL12、CDH1和PIP;或
[0053] ( i i i )所述组合包括至少以下9个基因：BIRC5、DHCR7、RACGAP 1、PVALB、STC2、 IL6ST、PTGER3、CXCL12和ABAT;或
[0054] (iv)所述组合包括至少以下9个基因：DHCR7、RACGAP 1、NMU、AZGP 1、RBBP8、IL6ST和 MGP; 19.-种计算机程序产品，该产品通过数学地组合代表基因AKR1C3、MAP4和SPP1的表达水平的值以得出组合得分，能够处理所述值，其中，所述组合得分表明所述患者从细胞毒性化学治疗中受益。
[0055] 本发明还涉及一种计算机程序产品，该产品根据上述方法通过数学地组合代表基因组合的表达水平的值以得出组合得分，能够处理所述值，其中，所述组合得分指示所述患者从内分泌治疗获得的疗效或益处。
[0056] 所述计算机程序产品可存储在数据载体上，或在能够输出代表给定基因的表达水平的值的诊断系统如实时P CR系统上执行。
[0057] 如果计算机程序产品存储在数据载体上，或在计算机上运行，操作个人可以输入对于各自基因的表达水平获得的表达值。该计算机程序产品然后可以应用算法，以产生表明给定患者从细胞毒性化学治疗中受益的组合得分。
[0058] 本发明的方法具有以下优点：在仅仅使用少数基因的基础上，提供了对疾病结果的可靠的预测。现已发现，本发明的方法特别适合于分析携带被分类为ESR1阳性和ERBB2阴性的肿瘤的患者对内分泌治疗例如他莫昔芬治疗的响应。
【附图说明】
[0059]图1显示在ABCSG06和08研究的组合群以及个体治疗组中，使用远端转移作为终点，T5得分的具有95%置信区间的校正危险单位比的Forrest图。
[0060]图2显示根据T5得分值分成高或低风险的、来自ABCSG06和08组合群的ER+、HER-、 N0-3患者的Kaplan Meier分析。
[0061 ] 图3显示了在用RACGAP1取代BIRC5的实施例中，RACGAP1与BIRC5之间的表达值之间的联合分布。
【具体实施方式】
[0062] 定义
[0063] 除非另有定义，本文所用的技术和科学术语具有与本发明所属领域中的普通技术人员所通常理解的相同的含义。
[0064] 术语"癌症"不限于任何阶段、等级、组织形态学特征、攻击性或累及组织的恶性肿瘤或细胞聚集。
[0065] 本文中所用的术语疾病的"预测结果"意在包括对经历了给定治疗的患者的结果的预测和未经治疗的患者的预后。术语"预测结果"尤其可涉及患者发生转移、局部复发或者死亡的风险。
[0066] 本文所用的术语"预测"涉及在用给定疗法对肿瘤进行治疗的情况下，对肿瘤恶性程度的个别评估，或者患者的预期生存率(0AS，总生存率，或DFS，无病生存率）。与之相反，术语"预后"涉及在未对肿瘤进行治疗的情况下，对肿瘤恶性程度的个别评估，或者患者的预期生存率(0AS，总生存率，或DFS，无病生存率）。
[0067] 在本发明的含义中，"结果"是在疾病过程中所达到的定义的状况。这种疾病结果可以是，例如临床状况，如"疾病复发"、"转移发展"、"淋巴结转移发展"、"远端转移发展"、 "存活"、"死亡"、"肿瘤缓解率"、疾病分期或等级等。
[0068] "风险"可以理解为与受试者或患者发展或达到某一疾病结果的概率有关的数值。在本发明的上下文中，术语"风险"并不带有任何关于患者健康的积极或消极的暗示，而仅指给定状况的发生或发展的概率或可能性。
[0069] 术语"临床数据"涉及关于患者的健康状态的全部可得到的数据和信息，包括但不限于年龄、性别、体重、绝经/激素状态、疾病发生学数据、既往病史数据、通过体外诊断方法如组织病理学、血液或尿液检验获得的数据、通过成像方法如X-射线、计算机断层扫描、 1?1、？￡1\叩6(^、超声波获得的数据、电生理学数据、遗传分析、基因表达分析、活组织检查评估、术中发现。
[0070] 术语"淋巴结阳性"、"诊断为淋巴结阳性"、"结累及"或"淋巴结累及"是指患者以前被诊断为淋巴结转移。它应包括两种引流淋巴结:近淋巴结和远端淋巴结转移。这种以前的诊断本身并不构成本发明方法的一部分。相反，它是选择其样品可以用于本发明的一个实施方案的患者的先决条件。这种以前的诊断可能已经通过本领域中已知的任何合适的方法实现，所述方法包括但不限于淋巴结切除和病理学分析、活检分析、指示转移的生物标记的体外分析、成像方法(例如，计算机断层扫描、X-射线、磁共振成像、超声波)和术中发现。 [0071 ]在本发明的上下文中，"生物样品"是来自于生物有机体或与之有过接触的样品。生物样品的例子有:细胞、组织、体液、洗出液、涂片样品、活检标本、血液、尿液、唾液、痰、血浆、血清、细胞培养上清液等等。
[0072] "肿瘤样品"是含有肿瘤细胞的生物样品，不论是完整的还是降解的。样品可以是任何生物组织或流体的样品。这样的样品包括但不限于，痰、血液、血清、血浆、血细胞(如白细胞）、组织、中心或细针活检样品、含细胞的体液、尿液、腹膜液和胸膜液、脑脊液、泪液，或从它们中分离的细胞。这也可包括组织切片，例如为了组织学目的而制作的冷冻或固定切片，或显微切割的细胞或其细胞外部分。待分析的肿瘤样品可以是通过抽吸或穿刺、切除或通过任何其他获得活检或切除的细胞物质的手术方法从肿瘤病变处采集的组织材料。这些包括从患者获得的肿瘤细胞或肿瘤细胞片段。可在例如通过乳头抽吸、导管灌洗、细针活检或从刺激的或自发的乳头溢液中收集的细胞"涂片"中发现细胞。在另一实施方案中，样品是体液。这样的体液包括，例如，血液、血清、血浆、淋巴液、腹水液、妇科流体或尿液，但不限于这些体液。
[0073] "基因"是含有产生功能性RNA产物所必需的信息的一组核酸区段。"基因产物"是通过基因的转录或表达产生的生物分子，例如，mRNA、cDNA或翻译的蛋白质。
[0074] "mRNA"是基因的转录产物，且具有本领域技术人员所理解的通常含义。"由mRNA衍生的分子"是通过化学或酶方法从mRNA模板得到的分子，如cDNA。
[0075]术语"表达水平"是指确定的基因表达的水平。这可以是作为绝对值，或与参考基因（例如持家基因）相比，与两个或更多的参考基因的平均值相比，或与计算的平均表达值相比（例如，在DNA芯片分析中），或在不使用参考样品的情况下与另一个信息基因相比而确定的基因表达水平。基因的表达水平可以直接测量，例如通过获得信号，其中该信号强度与该基因的mRNA转录物的量相关，或者它可以在蛋白质水平上间接获得，例如通过免疫组织化学、CISH、ELISA或RIA方法。也可以通过与参考样品的竞争性反应获得表达水平。通过在分析中测量一些物理参数例如荧光发射而确定的表达值可以被赋予一个数值，该数值可用于进一步的信息处理。
[0076]在本发明的含义中，"表达水平的参考模式"应该被理解为可以用于同另一个表达水平模式进行比较的任何表达水平模式。在本发明的一个优选实施方案中，表达水平的参考模式是，例如，在健康个体组、患病个体组或已经接受特定类型治疗的患病个体组(作为参考组)或具有好或坏的结果的个体组中观察到的表达水平的平均模式。
[0077] 在本发明的含义内，术语"数学地组合表达水平"应被理解为从确定的基因表达水平推导出数值，以及对一个或多个这样的数值应用算法，以获得组合数值或组合得分。
[0078] "算法"是进行某些操作顺序以产生信息的过程。
[0079] "得分"是通过应用算法来数学地组合表达水平而推导出的数值。它也可以从表达水平和其他信息例如临床数据推导。得分可与患者的疾病结果相关。
[0080] "判别函数"是用于将对象或事件进行分类的一组变量的函数。因此，判别函数允许根据可从患者、样品或事件获得的数据或参数将所述患者、样品或事件分类到一个类别或多个类别中。这种分类是本领域技术人员所公知的标准统计分析工具。例如，根据从患者、样品或事件所获得的数据，可将所述患者分类为"高风险"或"低风险"、"高转移概率"或 "低转移概率"、"需要治疗"或"不需要治疗"。分类不限于"高与低"，而是可以分类到多种类另IJ、等级等。在更广泛的意义上，分类也应被理解为判别得分，其中，例如较高的得分代表了较高的远端转移可能性，例如，远端转移的（总)风险。允许分类的判别函数的例子包括但不限于，由支持向量机(SVM)、K_最近邻法(kNN)、（朴素）贝叶斯模型、线性回归模型定义的函数，或分段定义函数，例如，在亚组发现中，在决策树中，在数据的逻辑分析(LAD)中，等等。在更广泛的意义上，诸如相关系数、投影、支持向量机得分、其他基于相似性的方法、它们的组合等数学方法或算法的连续得分值是用于说明目的的例子。
[0081] 术语"治疗方式"、"治疗模式"、"方案"以及"治疗方案"是指用于癌症治疗的抗肿瘤、和/或抗血管、和/或免疫刺激、和/或血细胞增殖剂、和/或放射疗法、和/或高温疗法、和/或低温疗法的及时序贯或同时施用。这些的施用可以通过辅助和/或新辅助模式进行。这样的"方案"的组合在定义的治疗窗口内在单个治疗剂的剂量、应用的时限和施用频率方面可能会有所不同。目前，各种药物和/或物理方法的各种组合以及各种计划表正在研究中。
[0082] 术语"细胞毒性化学治疗"是指影响细胞的增殖和/或存活的各种治疗方式。治疗可包括烷化剂、抗代谢物、蒽环类、植物生物碱类、拓扑异构酶抑制剂和包括单克隆抗体和激酶抑制剂在内的其他抗肿瘤剂的给药。特别地，细胞毒性治疗可涉及紫杉烷治疗。紫杉烷类是植物生物碱类，它们通过防止微管功能来阻止细胞分裂。紫杉烷的原型是天然产物紫杉醇，最初被称为紫杉酚(Taxol)，最初来源于太平洋紫杉树的树皮。多西紫杉醇是紫杉醇的一种半合成类似物。紫杉烷类增强微管的稳定性，防止在细胞分裂后期染色体的分离。
[0083] 术语"内分泌治疗"或"激素治疗"（有时也被称为"抗激素治疗"）表示以激素信号传导为靶标的治疗，例如激素抑制、激素受体抑制、激素受体激动剂或拮抗剂的使用、清除剂或孤儿受体的使用、激素衍生物的使用和干扰激素产生。具体的例子是调节雌激素受体信号传导的他莫昔芬治疗或干扰类固醇激素产生的芳香酶治疗。
[0084] 他莫昔芬是口服活性的选择性雌激素受体调节剂(SERM)，用于治疗乳腺癌，是目前世界上用于这一目的的销量最大的药物。他莫昔芬以Nolvadex、Istubal和Valodex的商品名销售。然而，甚至在其专利到期之前，该药物仍然广泛地用它的通用名"他莫昔芬"来提及。他莫昔芬和他莫昔芬衍生物竞争性地结合肿瘤和其他组织靶标上的雌激素受体，产生减少RNA合成和抑制雌激素效应的核复合物。
[0085] 类固醇受体是执行类固醇激素的信号转导的细胞内受体(通常是细胞质的）。例子包括:1型受体，尤其是性激素受体，例如，雄激素受体、雌激素受体、孕激素受体;糖皮质激素受体、盐皮质激素受体;和II型受体，例如，维生素A受体、维生素D受体、类视黄醇受体、甲状腺激素受体。
[0086] 本文所用的术语"基于杂交的方法"是指提供将互补的单链核酸或核苷酸类似物组合成一个双链分子的过程的方法。核苷酸或核苷酸类似物在正常条件下将与它们的互补物结合，所以两个完全互补的链很容易相互结合。在生物分析中，经常使用标记的单链探针以便找到互补的靶序列。如果这样的序列存在于样品中，探针将与所述序列杂交，然后由于标记而能够被检测到。其他的基于杂交的方法包括微阵列和/或生物芯片方法。其中，探针被固定在固相上，然后将其暴露于样品。如果互补的核酸存在于样品中，它们将与探针杂交，并因此能够被检测到。这些方法也被称为"基于阵列的方法"。另一基于杂交的方法是 PCR，将在下文中描述。当涉及到表达水平的测定时，例如，基于杂交的方法可以用来确定给定基因的mRNA的量。
[0087] 能够特异性结合基因或其片段的序列的寡核苷酸涉及与基因或基因产物如基因的mRNA或cDNA或其片段特异性杂交的寡核苷酸。为了特异性检测基因或基因产物，不一定要检测整个基因序列。约20-150个碱基的片段将含有足够的序列特异性信息，以允许特异性杂交。
[0088] 本文所用的术语"基于PCR的方法"是指包括聚合酶链反应(PCR)的方法。这是一种通过体外的酶复制来指数扩增核酸例如DNA的方法。由于PCR是一种体外技术，它可以在不限制DNA的形式的情况下进行，并且可以被广泛地修改以执行多种遗传操作。当涉及到表达水平的测定时，基于PCR的方法例如可以用来通过以下步骤检测给定mRNA的存在：（1)在逆转录酶的帮助下将完整的mRNA池（即所谓的转录组)逆转录成cDNA，和（2)在各自的引物的帮助下检测给定cDNA的存在。这种方法通常被称为逆转录PCR(rtPCR)。
[0089] 此外，基于PCR的方法包括，例如，实时PCR，以及尤其适合表达水平分析的动力学或定量 PCR(qPCR)。
[0090]术语"定量PCR(qPCR)"是指允许对样品中的模板进行量化的任何类型的PCR方法。定量实时PCR包括不同的表现和产物检测技术，例如TaqMan技术或LightCycler技术。例如， TaqMan技术使用双标记的荧光探针。TaqMan实时PCR在PCR指数阶段经由荧光团检测产物的积累，而不是像在常规PCR中那样在终点检测。产物的指数性增加用于确定循环阈值，CT，即检测到荧光的显著指数性增加时的PCR循环数，并且与存在于反应中的DNA模板的拷贝数直接相关。该反应的设置与常规PCR非常相似，只是在允许测量PCR管中的荧光分子的实时热循环仪中进行。不同于常规PCR，在TaqMan实时PCR中向反应中添加探针，即与DNA模板内20-60个核苷酸的区段互补且位于两个引物之间的单链寡核苷酸。荧光报告分子或荧光团（例如，6-羧基荧光素，缩写:FAM，或四氯荧光素，缩写:TET)和猝灭剂(例如，四甲基罗丹明，缩写:TAMRA，或二氢环吡咯并吲哚三肽"黑洞猝灭剂"，缩写:BHQ)分别共价连接到探针的5 '和 3'末端[2]。荧光团与连接到探针上的猝灭剂之间的紧密接近抑制了荧光团发出的荧光。在 PCR过程中，当DNA合成开始时，Taq聚合酶的5 '到3 '外切核酸酶活性降低了已经与模板退火的探针的比例。探针的降解从中释放出荧光团，并且打破了与猝灭剂的紧密接近，从而减轻了猝灭效果，并允许荧光团发荧光。因此，在实时PCR热循环仪中检测到的荧光与释放的荧光团和PCR中存在的DNA模板的量成正比。
[0091 ] "阵列"或"矩阵"是指装置上可寻址的位置或"地址"的布置。位置可以以二维阵列、三维阵列或其他矩阵格式排布。位置的数目可以从几个到至少几十万个。最重要的是，每个位置代表一个完全独立的反应位点。阵列包括但不限于核酸阵列、蛋白质阵列和抗体阵列。"核酸阵列"是指含有核酸探针如寡核苷酸、核苷酸类似物、多核苷酸、核苷酸类似物的聚合物、吗啉代或基因的更大部分的阵列。阵列上的核酸和/或类似物优选为单链的。其中探针是寡核苷酸的阵列被称为"寡核苷酸阵列"或"寡核苷酸芯片"。"微阵列"在本文中也指"生物芯片"或"生物学芯片"，是具有至少约100/cm 2、优选至少约1000/cm2的离散区域密度的区域阵列。
[0092] 在本发明的含义内，"引物对"和"探针"具有分子生物学领域技术人员所公知的该术语的普通含义。在本发明的一个优选实施方案中，"引物对"和"探针"应被理解为具有与待检测或定量的靶多核苷酸区域相同、互补、同源的或与该区域的互补物同源的序列的多核苷酸分子。在另一实施方案中，也包含核苷酸类似物以用作引物和/或探针。用于动力学或实时PCR应用的探针技术可以是，例如，可从Applied Biosystems获得的TaqMan?系统，延伸探针如Sc_〇rpi〇n?Primers，双杂交探针（Dual Hybridisation Probes )，可从 Chemicon Internationa 1 Inc获得的AmpMUior1!).，或小沟结合剂（Minor Groove Binders)〇
[0093] 在本发明的含义内，"个别标记的探针"应理解为有助于探针的检测或定量的、含有多核苷酸、寡核苷酸或核苷酸类似物和标记物的分子探针。优选的标记物是荧光分子、发光分子、放射性分子、酶分子和/或猝灭分子。
[0094] 在本发明的含义内，"阵列化探针"应理解为固定的探针的集合，优选为有序排列。在本发明的优选实施方案中，个别的"阵列化探针"可根据它们各自在固体载体例如"芯片" 上的位置来鉴别。
[0095] 当用于单链核酸序列时，术语"基本上同源的"是指在如上所述的低严格性条件下能够与该单链核酸序列杂交(即，与之互补）的任何探针。
[0096]结合示例性实施方案和附图对本发明进行了说明：
[0097]图1显示在ABCSG06和08研究的组合群以及个体治疗组中，使用远端转移作为终点，T5得分的具有95%置信区间的校正危险单位比的Forrest图。
[0098]图2显示根据T5得分值分成高或低风险的、来自ABCSG06和08组合群的ER+、HER-、 N0-3患者的Kaplan Meier分析。
[0099] 本文公开了独特的标记基因组合，它们可以组合为用于本文提出的新预测检验的算法。从技术上讲，可以使用两种技术来实施本发明的方法:1)从新鲜或固定的肿瘤组织中分离总RNA，和2)分离的核酸的动力学RT-PCR。备选地，也考虑使用替代技术，例如通过微阵列或通过在蛋白质水平上测量，来测量表达水平。
[0100] 本发明的方法基于从肿瘤中分离的RNA种类的定量测定以得到表达值，和随后对所述确定的表达值的生物信息学分析。RNA种类可分离自任何类型的肿瘤样品，例如活检样品、涂片样品、切除的肿瘤物质、新鲜冷冻的肿瘤组织或石蜡包埋的、福尔马林固定的肿瘤组织。首先，如上所述确定编码基因 UBE2C、BIRC5、DHCR7、RACGAP1、AURKA、PVALB、NMU、STC2、 AZGP1、RBBP8、IL6ST、MGP、PTGER3、CXCL12、ABAT、CDH1 和 PIP 的特定组合的基因或其特定组合的RNA水平。基于这些表达值，通过数学组合，例如根据公式T5、T1、T4或T5b(见下文），计算出预后得分。高得分值表示发展远端转移的高风险，低得分值表示远端转移的低风险。因此，高得分也表明患者是高风险患者，将受益于更具侵略性的治疗，如细胞毒性化学治疗。
[0101] 本文的实例基于使用同样地在辅助设置下用他莫昔芬进行治疗的患者的肿瘤对预后基因的鉴定。此外，相关基因的鉴定也已限制在根据RNA表达水平被分类为ESR1阳性和 ERBB2阴性的肿瘤。另外，算法的开发也考虑允许分离中等风险例如2级肿瘤的基因。最后，进行从Affymetrix HG_U133a阵列到定量实时PCR的平台转移，以及从新鲜冷冻组织到FFPE 组织的样品类型转移，以确保独立于平台和组织类型的、稳定的算法表现。其结果是，如上所述对来自原发肿瘤的RNA种类的表达水平的确定和随后的复变和多变量分析提供了一种出色的方法，该方法用于预测被诊断为淋巴结阴性或阳性的早期乳腺癌患者在辅助设置下仅用他莫昔芬治疗时疾病复发的可能性。因此，该检验依赖于比竞争剂检验更少的基因，但可以提供出色的关于高灵敏度和阴性预测值的信息，尤其是用于基于标准临床因素被认为表现出中等复发风险的肿瘤。
[0102] 使用西门子的基于二氧化硅珠子的全自动化RNA分离方法，在Hamilton MICR0LAB STARLET液体处理自动装置（17)上，从一个IOmi的全FFPE组织切片中提取总RNA。自动装置、缓冲液和化学品是西门子VERS ANT? kPCR分子系统（Siemens Healthcare Diagno st i cs，Tarry town，NY;在美国无法商购）的部分。简言之，将150微升FFPE缓冲液(缓冲液FFPE，研究用试剂，Siemens Healthcare Diagnostics)加至每个切片，并在振摇下80 °C孵育30分钟，以熔化石蜡。冷却下来后，加入蛋白酶K，在65°C孵育30分钟。裂解后，通过在 65°C与40yl二氧化硅包被的氧化铁珠子孵育15分钟的步骤，从裂解液中移除剩余的组织碎片。用磁体分离具有表面结合的组织碎片的珠子，将裂解物转移到一个标准的2ml深孔板 (96孔）中。在孔中，总RNA和DNA结合到40yl未使用的珠子上，并在室温孵育。通过加入600yl 裂解缓冲液产生离液序列高的条件。然后，对珠子进行磁分离，并弃去上清液。之后，洗涤表面结合的核酸三次，然后磁化、抽吸并弃去上清液。之后，通过将珠子与l〇〇yl洗脱缓冲液在 70°C、振摇下孵育10分钟来洗脱核酸。最后，分离珠子，上清液与12yl DNase I混合物(2此 DNase I(不含RNase);10lil 10x DNase I缓冲液；Ambion/Applied Biosystems， Darmstadt，德国）孵育，以除去污染的DNA。在37°C孵育30分钟后，将不含DNA的总RNA溶液分为小份并储存在_80°C下或直接通过逆转录动力学PCR(RTkPCR)用于mRNA表达分析。所有样品都在ABiPRI:SM.?7900HT(Applied Biosystems，Darmstadt，德国）中通过一步RT-kPCR分析了多达3个参考基因（RPL37A、CALM2、0AZ1)和多达16个靶基因的基因表达。使用R0X(6-羧基 _X -罗丹明）的 SuperScript? 111 P丨atinurn? - 步定量 RT -P CR 系统（I n v i t r 〇 g e n， Karl sruhe，德国）根据制造商的说明使用。相应的探针和引物在表1中示出。PCR条件如下：在50 °C下30分钟，在95 °C下2分钟，随后在95 °C下15秒和在60 °C下30秒40个循环。所有PCR试验都平行进行三次。作为RNA收率的替代标记，如其他地方所述（17)，使用持家基因RPL37A 的循环阈值(Ct)。通过delta-Ct法使用下面的公式计算靶基因的相对基因表达水平：
[0103] 20-(Ct(靶标)-平均值(Ct(参考基因）））。
[0104] 从Affymetrix HG_U133a阵列（新鲜冷冻组织）到定量实时PCR(FFPE组织）的平台转移如下计算。用这两个平台测定来自于158名患者的材料以产生配对样品。从PCR数据计算Delta-Ct值。通过应用下界(将所有低于下界的值都设置为下界），然后计算以2为底的对数，从Affymetrix数据计算log2-表达。下界的应用降低了增大的相对测量噪音对低表达的基因/样品的影响；使用下界20,在0.1和200之间的下界也表现很好。通过最大化delta-Ct 值(来自PCR)与log2-表达(来自Affymetrix)之间的Pearson相关系数，为每个PCR测定的基因选择HG_U133a探针组。其他相关性量度也有很好的表现，例如Spearman相关系数。在大多数情况下，最相关的探针组属于预期的基因，对于其余的情况，移除PCR基因以便进一步处理。也移除在平台间表现出不佳相关性的那些基因，其中对Pearson相关系数使用阈值0.7 (在0.5和0.8之间的值），也表现很好。通过以下步骤完成平台变换:计算两个平台的无监督 z-变换并组合它们;然后通过以下步骤将单PCR-delta-Ct值转化为Affymetrix等级：（i)应用仿射线性变换，其中通过PCR数据的z-变换确定系数，（ii)应用逆仿射线性变换，其中通过Affymetrix数据的z-变换确定系数，（iii )对log2进行逆运算，即计算关于底数2的指数。两倍z-变换的替代方案为线性或更高阶的回归、稳健回归或基于主成分的方法，它们也表现很好。

[0107]下面的表2列出了在本发明方法中和在特定实施方案T5、T1、T4和T5b中所用的基因。表2也显示了给定基因的过表达在他莫昔芬治疗下是指示好结果还是坏结果。表2列出了基因的功能、细胞内的区室定位和它参与的细胞过程。 [0108] 表2:算法T5、T1、T4和T5b的基因列表
[0111] 下面的表3显示了用于每个算法的基因组合。
[0112] 表3:用于各个算法的基因组合：
[0114] 下面的表4显示了本发明标记基因的Af f y探针组标识号和TaqMan设计标识号映射。
[0115] 表4:基因符号、Affy探针组标识号和TaqMan设计标识号映射：

[0117] 下面的表5显示了本发明标记基因的全名、Entrez基因号、基因库收录号和染色体定位。
[0118] 正式符号正式全名 Entrez基收录号定位因号 IIBE2C 遍在蛋白缀合酶 11065 U73379 2:(k(13.12: E2C B1RC5 含杆状病毒 IAP 重 332 U75285 复区5 DHCR7 7-脱氢胆固醇还原酶丨7丨7 AF034544 ilq!3.4 STC2 司腺钙蛋白 2 8614 AB012664 5q35.2 RBBP8 视网膜母细胞瘤结5932 AF043431 18qll.2 合蛋白8_ IL6ST 白介素6信号转导物3572 M57230 5qll MGP 基质 Gla 蛋白 4256 M58549 12pl2.3 AZGP1 ?-2-糖蛋白 1,锌结 563 BC005306 llq22.1 口 RACGAP1 Rac C3TP:姆e :_化蛋魏 12:7 12ql3 白1 AURKA 极光激酶 4 6790 BC001280 20tjl3 PVALB 小清蛋白 5816 MV1 002854 22ql3.1
[0119] NMU 神经调节肽 U 10874 X76029 4ql2 PTGER3 前列腺素 E 受体 5733 X83863 lp31.2 3(EP3亚型） CXCL12 趋化因子(C-X-C 基 6387 L36033 lOqll 1 序)配体12(基质细胞衍生因子1) A BAT 4-氨基丁酸转氨酶 18 L32961 16pl3.2 CDH1 钙粘着蛋白 1，1 型，999 L08599 I6q22.1 E-钙粘着蛋白(上皮> PIP 催乳素诱导的蛋白 5304 NMM_002652 7q32-qter 质
[0120] 示例算法T5:
[0121] 算法T5是包括四个成员的委员会(committee)，其中每个成员是两个基因的线性组合。T5的数学公式如下所示;其符号与T1相同。T5可以仅由基因表达数据计算。
[0122] 风险成员 1 =0 ? 434039[0 ? 301 ? ? 0 ? 567]*(0 ? 939*BIRC5-3 ? 831)
[0123] -0.491845[-0.714..-0.270]*(0.707*RBBP8-0.934)
[0124] 风险成员2 = 0.488785[0.302. .0.675]*(0.794*UBE2C-1.416)
[0125] -0.374702[-0.570..-0.179]*(0.814*IL6ST-5.034)
[0126] 风险成员 3 = -0 ? 39169 [ -0 ? 541 ? ? -0 ? 242 ] * (0 ? 674*AZGP1 -0 ? 777)
[0127] +0.44229[0.256..0.628]*(0.891*DHCR7-4.378)
[0128] 风险成员4 = -0.377752[-0.543. .-0.212]*(0.485*MGP+4.330)
[0129] -0?177669[-0?267??-0?088]*(0?826*STC2-3?630)
[0130] 风险=风险成员1+风险成员2+风险成员3+风险成员4
[0131] 每行左边的系数作为C0X比例风险回归系数来计算，方括号中的数字表示这些系数的95 %置信区间。换句话说，可以不将项(0.939*BIRC5-3.831)乘以0.434039，而是将其乘以在0.301和0.567之间的任何系数，而仍然得到在95%置信区间内的预测结果。每行的右边在圆括号中的项表示从PCR到Affymetrix的平台转移:变量PVALB、CDH1、...表示用参考基因标准化的基于PCR的表达(delta-Ct值），圆括号内的整个项对应于相应探针组的 Affymetrix微阵列表达值的对数(底数2)。
[0132] 在他莫昔芬或阿那曲唑治疗的患者中测试了算法T5的表现，所述患者带有不超过 3个阳性淋巴结和ER+，HER2-肿瘤，参与随机化临床试验ABCSG06(n = 332)或ABCSG08(n = 1244)。如图1所示，Cox回归分析揭示，在所有测试群组中，T5得分与远端转移的发展有显著的相关性。
[0133] 在用预定的T5得分截止值对合并的ABCSG组的患者进行分类后，进行了Kaplan Meier分析。具有发展远端转移的低风险的患者具有2-9.3的T5得分，而具有发展远端转移的高风险的患者具有大于-9.3的T5得分。如图2所示，观察到两个风险组的高度显著的分离。
[0134] 重要的是，对照"在线辅助(Adjuvantlonline)"对T5得分进行了评估和比较，"在线辅助"是一个基于诸如肿瘤大小、肿瘤分级和淋巴结状态等临床参数的输入来帮助治疗选择的在线工具。当对照在线辅助复发风险得分通过双变量Cox回归检验T5得分时，两个得分同远端转移的发展保持显著的相关性。使用分别根据T5(截止值为-9.3)和在线辅助(截止值为8)分开的二分数据进行的双变量Cox回归，再次取得了非常显著和独立的与到转移 (作为临床终点）的时间的相关性。
[0135] 表6: T5和在线辅助的双变量Cox回归
[0137] 其中HR =危险比，95%CI = 95%置信区间，p = P值。
[0138] 示例性Kaplan Meyer曲线显示于图1中，其中根据预定的截止值，高=高风险组，低=低风险组。
[0139]高T5得分值表示在给定的期限内发生远端转移的风险增加。
[0140]已经证明对于已用他莫昔芬治疗的患者，以及已用芳香酶抑制剂治疗的患者，情况也是这样。
[0141] 示例算法T1:
[0142] 算法T1是包括三个成员的委员会，其中每个成员是多达四个变量的线性组合。通常，变量可以是基因表达或临床变量。在T1中，唯一的非基因变量为淋巴结状态，如果患者为淋巴结阴性，则编码为0,如果患者为淋巴结阳性，则编码为1。11的数学公式如下所示。
[0143] 风险成员1=+0.193935[0.108..0.280]*(0.792*卩7厶1^-2.189)
[0144] -0.240252[-0.400..-0.080]*(0.859*CDHl-2.900)
[0145] -0.270069[-0.385..-0.155]*(0.821*STC2-3.529)
[0146] +1.2053[0.534. .1.877]*淋巴结状态
[0147] 风险成员 2 = -0.25051 [-0.437 ? .-0.064]*(0.558*CXCL12+0.324)
[0148] -0.421992[-0.687..-0.157]*(0.715*RBBP8-1.063)
[0149] +0.148497[0.029..0.268]*(1.823*NMU-12.563)
[0150] +0?293563[0?108??0?479]*(0?989*BIRC5-4?536)
[0151] 风险成员3 = +0.308391[0.074. .0.543]*(0.812*AURKA-2.656)
[0152] -0.225358[-0.395..-0.055]*(0.637*PTGER3+0.492)
[0153] -0.116312[-0.202..-0.031]*(0.724*PIP+0.985)
[0154] 风险=+风险成员1+风险成员2+风险成员3
[0155] 每行左边的系数作为C0X比例风险回归系数来计算，方括号中的数字表示这些系数的9 5 %置信区间。每行的右边在圆括号中的项表示从PCR到Af f yme tr i x的平台转移:变量 PVALB、CDH1、...表示用参考基因标准化的基于PCR的表达，圆括号内的整个项对应于相应探针组的Af f ymetr ix微阵列表达值的对数(底数2)。
[0156] 示例算法T4:
[0157]算法T4是基序(motif)的线性组合。将Af fymetrix数据集和PCR数据的几项分析的前10个基因群聚成基序。不属于集群的基因用作单基因基序。在多变量分析中发现C0X比例风险回归系数。
[0158] 通常，基序可以是单基因表达或相关基因的平均基因表达。T4的数学公式如下所不。
[0159] prolif=((0.84[0.697.,0.977]*RACGAP1-2.174)+(0.85[0.713..0.988]
[0160] *DHCR7-3?808) + (0?94[0?786??1?089]*BIRC5-3?734))/3
[0161] m〇tiv2 = ((0.83[0.693. .0.96]*IL6ST-5.295) + (l.ll[0.930. .1.288]*
[0162] ABAT-7.019)+(0.84[0.701..0.972]*STC2-3.857))/3
[0163] ptger3 = (PTGER3*0.57[0.475. . 0.659]+l. 436)
[0164] cxcll2 = (CXCL12*0.53[0.446. .0.618]+0.847)
[0165] pvalb = (PVALB*0.67[0.558..0.774]-〇.466)
[0166] 每个基因的因子和偏移表示从PCR到Affymetrix的平台转移：变量RACGAP1、 DHCR7、...表示用CALM2和PPIA标准化的基于PCR的表达，圆括号内的整个项对应于相应探针组的Affymetrix微阵列表达值的对数(底数2)。方括号中的数字表示这些因子的95%置信区间。
[0167] 由于该算法在与临床变量结合时表现甚至更好，因此加入淋巴结状态。在T4中，如果患者为淋巴结阴性，则淋巴结状态编码为〇,如果患者为淋巴结阳性，则编码为1。于是，算法T4为：
[0168] M& = -0.32[-0.510..-0.137]*motiv2
[0169] +0.65[0.411.,0.886]*prolif
[0170] -0.24[-0.398..-0.08]*ptger3
[0171] -0.05[_0.225..0.131]*cxcll2
[0172] +0.09[0.019.,0.154]*pvalb
[0173] +淋巴结状态
[0174] 风险系数作为COX比例风险回归系数来计算，方括号中的数字表示这些系数的 95 %置信区间。
[0175] 算法T5b是包括两个成员的委员会，其中每个成员是四个基因的线性组合。T5b的数学公式如下所示，其符号与T1和T5相同。在T5b中，非基因变量为淋巴结状态，如果患者为淋巴结阴性，则编码为0,如果患者为淋巴结阳性，则编码为1，而如果淋巴结状态未知，则编码为0.5。了513定义为：
[0176] 风险成员 1=0.359536[0.153. .0.566]*(0.891*DHCR7-4.378)
[0177] -0.288119[-0.463..-0.113]*(0.485*MGP+4.330)
[0178] +0.257341[0.112.,0.403]*(1.118*NMU-5.128)
[0179] -0?337663[-0?499??-0?176]*(0?674*AZG卟0?777)
[0180] 风险成员2 = -0.374940[-0.611..-0.139]*(0.707*1^8?8-0.934)
[0181] -0?387371[-0?597??-0?178]*(0?814*IL6ST-5?034)
[0182] +0.800745[0.551..1.051]*(0.860*RACGAPl-2.518)
[0183] +0.770650[0.323. .1.219]*淋巴结状态
[0184] 风险=风险成员1+风险成员2
[0185] 本领域技术人员应当理解，这些算法代表特定的例子，并且基于表2中给出的关于基因表达与结果的相关性的信息，可以用常规技术建立替代算法。
[0186] 采用基因子集的算法简化
[0187] "示例算法T5"是一个由四个成员组成的委员会预测器，每个成员具有2个目标基因。每个成员都是独立的且自包含的远端复发预测器，每个附加的成员均有助于算法的稳健性和预测能力，以预测乳腺癌患者的到转移的时间、到死亡的时间或存活的可能性。下面的等式示出了"示例算法T5"；为便于读取，小数点后的位数已截短为2位;在方括号中的范围列出了系数的估计范围(平均值+/_3个标准差）。
[0188] T5 算法：
[0189] +0.41[0.21..0.61]*BIRC5-0.33[-0.57...09]*RBBP8
[0190] +0.38[0.15..0.61]*UBE2C-0.30[-0.55..-0.06]*IL6ST
[0191] -0.28[-0.43..-0.12]*AZGP1+0.42[0.16..0.68]*DHCR7
[0192] -0.18[-0.31..-0.06]*MGP-0.13[-0.25..-0.02]*STC2
[0193] c-指数:训练集= 0.724
[0194] 该算法中的基因名称表示该基因的mRNA表达与一个或多个如上所述的持家基因相比的差异。
[0195] 分析不同于发现群组(234个肿瘤样品）的群组，令人惊讶地发现，"原始T5算法"的一些简化仍然取得了没有明显差于原始T5算法的诊断表现。最直接的简化是将委员会预测器减少至仅有一个成员。"单成员委员会"的表现示例如下所示：
[0196] 仅成员1:
[0197] +0.41[0.21..0.61]*BIRC5-0.33[-0.57..-0.09]*RBBP8
[0198] c-指数：训练集=0 ? 653，独立群组=0 ? 681
[0199] 仅成员2:
[0200] +0.38[0.15..0.61]*UBE2C-0.30[-0.55..-0.06]*IL6ST
[0201] c-指数：训练集=0 ? 664，独立群组=0 ? 696
[0202]仅成员3:
[0203] -0.28[-0.43..-0.12]*AZGP1+0.42[0.16..0.68]*DHCR7
[0204] c-指数：训练集=〇 ? 666，独立群组=0 ? 601
[0205] 仅成员4:
[0206] -0.18[-0.31..-0.06]*MGP-0.13[-0.25..-0.02]*STC2
[0207] c-指数：训练集=0 ? 668，独立群组=0 ? 593
[0208] 与完整算法的表现相比，如在234个样品的独立群组中所示的单成员委员会的表现显著下降。不过，使用由较少的成员组成的委员会允许更简单、更低成本地估计乳腺癌复发或乳腺癌死亡的风险，这对于某些诊断目的来说可能是可以接受的。
[0209] 逐渐组合多于一个但少于四个的成员形成一个新的预后委员会预测器算法，往往会导致诊断表现与单成员委员会相比有小但显著的提升。令人惊讶地发现，一些委员会成员的组合会产生显著的改善而其他组合几乎没有改善。最初，假设如采用的基因所反映的、代表相似生物学基序的成员组合，与反映显著不同的生物学基序的组合成员相比，会产生较小的改善。然而，情况并不是这样。没有规则被确认可以预言一些基因的组合比另一基因组合产生表现出更强预测能力的算法。只能基于实验数据选择有希望的组合。
[0210] 经确认可以产生简化但强大的算法的组合委员会成员的组合如下所示。
[0211] 仅成员1和2:
[0212] +0.41[0.21..0.61]*BIRC5-0.33[-0.57..-0.09]*RBBP8
[0213] +0.38[0.15..0.61]*UBE2C-0.30[-0.55..-0.06]*IL6ST
[0214] c-指数：训练集= 0.675,独立群组= 0.712 [0215] 仅成员1和3:
[0216] +0.41[0.21..0.61]*BIRC5-0.33[-0.57..-0.09]*RBBP8
[0217] -0.28[-0.43..-0.12]*AZGP1+0.42[0.16..0.68]*DHCR7
[0218] c-指数：训练集=0 ? 697，独立群组=0 ? 688 [0219] 仅成员1和4:
[0220] +0.41[0.21..0.61]*BIRC5-0.33[-0.57..-0.09]*RBBP8
[0221] -0.18[-0.31..-0.06]*MGP-0.13[-0.25..-0.02]*STC2
[0222] c-指数：训练集=0.705，独立群组=0.679
[0223] 仅成员2和3:
[0224] +0.38[0.15..0.61]*UBE2C-0.30[-0.55..-0.06]*IL6ST
[0225] -0.28[-0.43..-0.12]*AZGP1+0.42[0.16..0.68]*DHCR7
[0226] c-指数：训练集=0 ? 698，独立群组=0 ? 670
[0227] 仅成员1、2和3:
[0228] +0.41[0.21..0.61]*BIRC5-0.33[-0.57..-0.09]*RBBP8
[0229] +0.38[0.15..0.61]*UBE2C-0.30[-0.55..-0.06]*IL6ST
[0230] -0.28[-0.43..-0.12]*AZGP1+0.42[0.16..0.68]*DHCR7 [0231 ] c-指数：训练集=0 ? 701，独立群组=0 ? 715
[0232] 不省略整个委员会成员而只省略不同委员会成员中的单个基因或多个基因也是可能的，但是需要对整个算法进行再训练。不过，它也有利于执行。通过省略整个成员或个别基因所产生的简化算法的表现在很大程度上是相同的。
[0233] 通过基因替换产生的算法变型
[0234] 上面描述的算法，如"示例算法T5"，也可以通过将一个或多个基因替换为一个或多个其他的基因来进行修改。这样修改的目的是将在特定平台上难以测定的基因替换为更易于在这个平台上分析的基因。虽然与起始算法相比，这种转移可能并不一定会产生改善的表现，但它可以产生将这种预后算法植入到特定诊断平台的线索。通常，通过将一个基因替换为具有高相关性的（例如，由Pearson相关系数所显示的)共表达基因，能够最佳地实现用另一个基因取代一个基因，同时保留预测算法的诊断力。不过，需要记住，在一个平台上高度相关的两个基因的mRNA表达当在另一个平台上评估时，可能会表现为完全相互独立。因此，当为了便于在实验上实践而减少时，这种表面上简单的替换可能会产生令人失望的糟糕结果，以及令人惊讶的好结果，这总是取决于所用平台的无法估量的因素。通过重复该过程，可以替换几个基因。
[0235] 通过在验证群组上评估T5算法得分及其变型的预测表现，可以证明这种方法的有效性。下表显示了在两个验证群组中关于终点远端复发的c-指数。
[0236] 表 7
[0239] 可以看到一个T5基因（此处以BIRC5为例示出）的省略显著降低了预测表现。将其替换为另一基因产生几乎相同的表现。
[0240] 替换一个基因的较好的方法是重新训练该算法。由于T5由四个独立的委员会成员组成，只需要重新训练含有替换的基因的成员。下面的公式显示了在234名乳腺癌患者的群组中训练的上述T5算法的基因替换。下面只示出了一个成员，对于c-指数计算，使用的其余成员与原始T5算法相比没有改变。在方括号中的范围列出了估计的系数范围：平均值+/-3 个标准差。
[0241] T5 的成员 1:
[0242] 原始成员1:
[0243] +0.41[0.21..0.61]*BIRC5-0.33[-0.57..-0.09]*RBBP8
[0244] c-指数：训练集=〇 ? 724，独立群组=0 ? 705
[0245] 将成员1中的BIRC5替换为T0P2A:
[0246] +0.47[0.24..0.69]*TOP2A-〇.34[-0.58...10]*RBBP8
[0247] c-指数：训练集=0 ? 734，独立群组=0 ? 694
[0248] 将成员1中的BIRC5替换为RACGAP1:
[0249] +0.69[0.37.,1.00]*RACGAPl-0.33[-0.57.,-0.09]*RBBP8
[0250] c-指数：训练集=0 ? 736，独立群组=0 ? 743
[0251] 将成员1中的RBBP8替换为CELSR2:
[0252] +0.38[0.19..0.57]*BIRC5-0.18[-0.41..0.05]*CELSR2
[0253] c-指数：训练集=0 ? 726，独立群组=0 ? 680 [0254] 将成员1中的RBBP8替换为PGR:
[0255] +0.35[0.15..0.54]*BIRC5-0.09[-0.23..0.05]*PGR
[0256] c-指数：训练集=0 ? 727，独立群组=0 ? 731
[0257] T5 的成员 2:
[0258]原始成员2:
[0259] +0.38[0.15..0.61]*UBE2C-0.30[-0.55..-0.06]*IL6ST
[0260] c-指数:训练集=0.724，独立群组=0.725
[0261] 将成员2中的UBE2C替换为RACGAP1:
[0262] +0.65[0.33..0.96]*RACGAPl-0.38[-0.62..-0.13]*IL6ST
[0263 ] c-指数:训练集=0 ? 735，独立群组=0 ? 718
[0264] 将成员2中的UBE2C替换为T0P2A:
[0265] +0.42[0.20..0.65]*T0P2A-0.38[-0.62..-0.13]*IL6ST
[0266] c-指数：训练集=0 ? 734，独立群组=0 ? 700
[0267] 将成员2中的IL6ST替换为INPP4B:
[0268] +0.40[0.17..0.62]*UBE2C-0.25[-0.55..0.05]*INPP4B
[0269] c-指数：训练集=0 ? 725，独立群组=0 ? 686
[0270] 将成员2中的IL6ST替换为MAPT:
[0271] +0.45[0.22..0.69]*UBE2C-0.14[-0.28..0.01]*MAPT
[0272 ] c-指数:训练集=0.727，独立群组=0.711
[0273] T5 的成员 3:
[0274] 原始成员3:
[0275] -0.28[-0.43..-0.12]*AZGP1+0.42[0.16..0.68]*DHCR7
[0276] c-指数:训练集=0 ? 724，独立群组=0 ? 705
[0277] 将成员3中的AZGP1替换为PIP:
[0278] -0.10[-0.18..-0.02]*PIP+0.43[0.16..0.70]*DHCR7
[0279] c-指数:训练集=0 ? 725，独立群组=0 ? 692
[0280] 将成员3中的AZGP1替换为EPHX2:
[0281] -0.23[-0.43..-0.02]*EPHX2+0.37[0.10..0.64]*DHCR7
[0282] c-指数：训练集=0 ? 719，独立群组=0 ? 698
[0283] 将成员3中的AZGP1替换为PLAT:
[0284] -0.23[-0.40..-0.06]*PLAT+0.43[0.18..0.68]*DHCR7
[0285] c-指数:训练集= 0.712,独立群组= 0.715
[0286] 将成员3中的DHCR7替换为AURKA:
[0287] -0.23[-0.39..-0.06]*AZGP1+0.34[0.10..0.58]*AURKA
[0288] c-指数：训练集=0 ? 716，独立群组=0 ? 733
[0289] T5 的成员 4:
[0290]原始成员4:
[0291] -0.18[-0.31..-0.06]*MGP-0.13[-0.25..-0.02]*STC2
[0292] c-指数:训练集=0 ? 724，独立群组=0 ? 705
[0293] 将成员4中的MGP替换为AP0D:
[0294] -0.16[-0.30..-0.03]*AP0D-0.14[-0.26..-0.03]*STC2
[0295] c-指数:训练集=0 ? 717，独立群组=0 ? 679
[0296] 将成员4中的MGP替换为EGFR:
[0297] -0.21[-0.37..-0.05]*EGFR-〇.14[-0.26...03]*STC2
[0298] c-指数:训练集= 0.715,独立群组= 0.708
[0299] 将成员4中的STC2替换为INPP4B:
[0300] -0.18[-0.30.,-0.05]*MGP-0.22[-0.53..0.08]*INPP4B
[0301] c-指数：训练集= 0.719,独立群组= 0.693
[0302] 将成员4中的STC2替换为SEC14L2:
[0303] -0.18[-0.31..-0.06]*MGP-0.27[-0.49..-0.06]*SEC14L2
[0304] c-指数：训练集=〇 ? 718，独立群组=0 ? 681
[0305] 可以看到，为了用动力学PCR进行定量而在实验上鉴定的单基因的替换通常影响 T5算法的预测表现，根据c-指数评估，其影响不显著。
[0306]下表(表8)显示了针对T5算法的基因的潜在替换候选基因。每个候选基因显示在一个单元格中：基因名称后接着是括号内的T5算法中原始基因和替换候选基因的表达的绝对Pearson相关系数，和HG-U133A探针组标识号。
[0307]表 8
[0309] 下表(表9)列出了用于上表的qRT-PCR引物和探针序列。
[0310] 表9

[0312]用于无监督选择可能的基因替换候选物的第二种替代方法仅基于Affymetrix数据。这具有仅基于已经公开的数据(例如来自www.ncbi .nlm.nih.gov/geo/)就能够完成的优点。下表(表10)列出了针对在算法T1-T5中使用的探针组的HG-U133a探针组替换候选基因。这基于这些算法的训练数据。列的标题中包含以粗体显示的基因名称和探针组标识号。然后，列出了 10个最相关的探针组，其中每个单元格包含探针组标识号、在括号内的相关系数和基因名称。
[0313]表 1〇
[0316]在选择基因或探针组后，必须定义在待取代的基因的表达值与新基因的表达值之间的数学映射。有几种替代方法在这里基于实施例"用RACGAP1取代BIRC5的delta-Ct值"进行了讨论。在训练数据中，表达的联合分布看起来类似于图3中的分布。
[0317] Pearson 相关系数为 0.73。
[0318] -种方法是通过回归创建从RACGAP1到BIRC5的映射函数。线性回归是第一选择，并且在该实例中得出
[0319] BIRC5 = 1.22*RACGAPl-2.85。
[0320] 使用该公式，可以很容易地用右手侧取代例如算法T5中的BIRC5变量。在稳健回归的其他例子中，多项式回归或单变量非线性预变换可能就足够了。
[0321 ]回归方法假定在BIRC5上有测量噪音，但在RACGAP1上无噪音。因此，在这两个变量的可交换性上映射不是对称的。对称映射方法将基于两个单变量z-变换。
[0322] z = (BIRC5-平均值(BIRC5))/标准差(BIRC5)和
[0323] z = (RACGAP1-平均值(RACGAP1))/标准差(RACGAP1)
[0324] z = (BIRC5-8 ? 09)/l ? 29 = (RACGAP1-8 ? 95)/0 ? 77
[0325] BIRC5 = 1.67*RACGAPl+-6.89
[0326] 另外，在其他实例中，其他变换可能是足够的：
[0327] 根据中间值和/或平均绝对差(mad)标准化，非线性映射，等等。
【主权项】
1. 用于预测乳腺癌患者的雌激素受体阳性和HER2阴性肿瘤的乳腺癌结果的方法，所述方法包括： (a) 确定来自所述患者的肿瘤样品中以下8个基因的RNA表达水平：UBE2C、RACGAP1、 DHCR7、STC2、AZGP1、RBBP8、IL6ST和MGP; (b) 数学地组合在所述肿瘤样品中值为确定的所述组的基因的表达水平值，从而得出组合得分，其中所述组合得分指示所述患者的预后。2. 根据权利要求1所述的方法，其中 UBE2C 可以替换为 BIRC5 或 T0P2A 或 AURKA 或 NEK2 或 E2F8 或 PCNA 或 CYBRD1 或 ADRA2A 或 DCN 或SQLE或CCND1或ASPH或CXCL12或PIP或PRSS16或EGFR或DHCR7或EPHX2或TRIM29;且 DHCR7可以替换为AURKA、BIRC5、UBE2C或任何其他可以代替BIRC5或UBE2C的基因；且而 STC2 可以替换为 INPP4B 或 IL6ST 或 SEC14L2 或 MAPT 或 CHPT1 或 ABAT 或 SCUBE2 或 ESR1 或 RBBP8或PGR或PTPRT或HSPA2或PTGER3;且 AZGP1 可以替换为 PIP 或 EPHX2 或 PLAT 或 SEC14L2 或 SCUBE2 或 PGR;且 RBBP8可以替换为CELSR2或PGR或STC2或ABAT或IL6 ST;且 IL6ST 可以替换为 INPP4B 或 STC2 或 MAPT 或 SCUBE2 或 ABAT 或 PGR 或 SEC14L2 或 ESR1 或 GJA1 或MGP或EPHX2或RBBP8或PTPRT或PLAT;且 MGP可以替换为APOD或IL6 ST或EGFR。3. 根据权利要求1或2所述的方法，其中，所述患者已经接受内分泌治疗或计划接受内分泌治疗。4. 如权利要求3所述的方法，其中所述内分泌治疗包含他莫昔芬或芳香酶抑制剂。5. 根据权利要求1至4中任一项所述的方法，其中，预测发生乳腺癌复发或癌症相关死亡的风险。6. 根据权利要求1所述的方法，其中，所述表达水平通过以下方法中的至少一种来确定：基于PCR的方法，基于微阵列的方法，和基于杂交的方法。7. 如前述权利要求中任一项所述的方法，其中，所述表达水平的确定是在福尔马林固定的、石蜡包埋的肿瘤样品中，或在新鲜冷冻的肿瘤样品中进行的。8. 如前述权利要求中任一项所述的方法，其中，至少一个标记基因的表达水平作为相对于至少一个参考基因或相对于计算的平均表达值的表达模式进行确定。9. 如前述权利要求中任一项所述的方法，其中，所述数学组合步骤包括对代表给定基因表达水平的值应用算法的步骤。10. 如权利要求9所述的方法，其中所述算法是所述代表给定基因表达水平的值的线性组合。11. 如权利要求10所述的方法，其中代表给定基因表达水平的值乘以一个系数。12. 如前述权利要求中任一项所述的方法，其中，为所述组合得分确定一个、两个或两个以上的阈值，通过对所述组合得分应用该阈值，其判别为高和低风险，高、中和低风险，或更多个风险组，高组合得分表明从细胞毒性化学治疗中受益。13. 如前述权利要求中任一项所述的方法，其中，在所述数学地组合基因表达水平值以得出组合得分的步骤中处理关于所述患者的淋巴结状态的信息。14. 如权利要求12或13所述的方法，其中，如果所述淋巴结状态是阴性的，则所述关于淋巴结状态的信息是一个数值;如果所述淋巴结状态是阳性的，则所述信息是一个不同的数值;如果所述淋巴结状态未知，则所述信息是一个不同或相同的数值。15. -种用于执行权利要求1至14中任一项所述的方法的试剂盒的用途，所述试剂盒包括一组能够特异性结合基因组合中基因的序列或基因片段的序列的寡核苷酸，其中，所述组合包括以下8个基因：UBE2C、RACGAP1、DHCR7、STC2、AZGP1、RBBP8、IL6ST和MGP。
【文档编号】C12Q1/68GK105821125SQ201610238134
【公开日】2016年8月3日
【申请日】2011年3月29日
【发明人】马瑞克·达特曼, 因克·赛宾·费德, 马蒂亚斯·格尔曼, 圭多·亨尼希, 卡斯滕·韦伯, 克里斯蒂安·冯托尔讷, 拉尔夫·克罗嫩维特, 克里斯托夫·佩特里
【申请人】斯维丹诊断有限责任公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马瑞克·达特曼;因克·赛宾·费德;马蒂亚斯·格尔曼;圭多·亨尼希;卡斯滕·韦伯;克里斯蒂安·冯托尔讷;拉尔夫·克罗嫩维特;克里斯托夫·佩特里;
技术所有人：斯维丹诊断有限责任公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
2、张老师：1.探索新型氧化还原酶结构-功能关系，电催化反应机制 2.酶电催化导向的酶分子改造 3.纳米材料、生物功能多肽对酶-电极体系的影响4. 生物电化学传感和生物电合成体系的设计与应用。
3、豆老师：1.环境纳米材料及挥发性有机化合物（VOCs） 2.CO污染物的催化氧化 3.低温等离子体 4.吸脱附等控制技术
4、赵老师：1.高分子材料改性及加工技术 2.微孔及过滤材料 3.环境友好高分子材料
5、邬老师：1.高分子材料的共混与复合 2.涉及材料功能化及结构与性能的研究；高分子热稳定剂的研发
如您是高校老师，可以点此联系我们加入专家库。