关于癌症诊断的材料和方法

文档序号：6016516阅读：1409来源：国知局

专利名称：关于癌症诊断的材料和方法
技术领域：
本发明涉及诊断癌症，特别是乳腺癌的材料和方法。本发明尤其但不仅仅涉及使用遗传鉴定者诊断乳腺癌存在或风险的方法和试剂盒。
乳腺癌是全世界女性人群死亡的主要原因之一和主要疾病。尽管在理解乳腺癌发生的分子和基因事件和临床筛选程序的导入方面有了快速进步，但是不幸的是，这个疾病的发病率和死亡率仍保持在无法接受的高水平。实际上，对于世界上很多部分，乳腺癌仍是当地女性人群中生长最快的癌症之一(Chia et al.，2000)。乳腺癌的诊断和治疗中一个主要的挑战是其临床和分子异质性。个体乳腺癌可以显示出临床表现、疾病迅速蔓延性和治疗反应的巨大差异(Tavassoli和Schitt，1992)，提示这个临床实体事实上可能表现为很多不同和有区别的癌症亚型的混合体。除了临床表现的差异，乳腺癌也可以在不同区域和人种群体显示出显著不同的发生模式。例如，在白种人群中，多数乳腺癌发生在平均和中值年龄分别是60和61岁的绝经后妇女(Giuliano，1998)。相比之下，亚洲人群的研究表明从40岁开始的双模式年龄的发生模式(Chia et al.，2000，见讨论)。因此，肿瘤生物学的一个突出问题是在遗传或环境因素基础上解释这些区域和人种差异，和确定使用白种人群获得的研究发现是否也可以在临床上转换给其它人种群体。
近来已经证明使用DNA微阵列的表达谱是研究肿瘤生物学多方面的极其有力和多用的方法。使用微阵列对乳腺癌的以前报道集中在新肿瘤亚型的鉴定，或在鉴定已知癌症亚组之间差异表达的基因(Perou etal.，2000，Gruvberger et al.，2001，Hedenfalk et al.，2001)。然而，因为这些研究主要集中于主要从白种人群获得的样品，所以这些报道描述的发现是否也将应用于来自其它人种群体的乳腺癌是一个悬而未决的问题。在分子谱的使用可以临床现实之前，也有很多其它关键问题需要探索。例如，目前几乎没有发表报道，其中一个机构的研究定义的表达标记和分子亚型被来自另一个中心的独立组独立证实。这种证实显然很重要，然而不同健康护理机构可能在很多方面不同，这将影响正在研究的肿瘤的表达谱，如在肿瘤样品的手术处理、阵列技术平台的选择和患者群体基础等方面。此外，因为在延长一段时期内抽取相同肿瘤样品通常不可行，所以通常不清楚使用这些方法定义的不同亚型是否真实地代表不同的生物学实体，或它们是否代表不同临床进展阶段中的单一肿瘤类型。如一个实例，在雌激素受体阴性(ER-)乳腺癌是否代表乳腺上皮的ER-祖细胞类型直接引起的生物学实体，或它们是否从最初ER+状态“进化”而来的领域，当前有相抵触的意见和资料(Kuukasjarri et al.，1996；Parl 2000；Gruvberger et al，2001)。
为了探索这些问题，发明人对得自亚洲患者的乳腺肿瘤进行了大规模表达谱方案。首先，使用监测和无监测聚类方法的组合，他们已能够定义一小组基因，当其组合使用时作为“遗传鉴定者”来区分中国人种血统患者的未知乳腺样品是正常或恶性的。这种“遗传鉴定者”的使用在特定患者人群分子诊断检测发展中有相当的应用。其次，使用主要成分分析(PCA)，发明人表明正常乳腺组织的表达谱比肿瘤谱的变异小很多。这个发现支持目前的乳腺癌发生模型，其中第一个近似中正常乳腺组织可以认为是相对恒定的“基础状态”，和各个肿瘤相关的广泛变异表达谱可能是它们从这个“基础状态”通过很多不同和非常不同的肿瘤发生途径而产生的标志。
第三，通过将来自中国患者的一系列扩散性乳腺癌的表达谱与使用主要是白种人来源的患者样品的发表报道比较，发现存在尽管内部方法学差异包括阵列技术平台的选择，但是很多关键基因标记和分子亚型在两种患者群体中明显保守，这提示使用基于表达的基因组学定义的分子亚型实际上非常有力。就发明人的所知，这是报道的这个类型乳腺癌的首次交叉机构证实研究。
第四，通过研究一系列原发管癌(原发管癌，或DCIS)的表达谱，他们也发现DCIS肿瘤表达与其扩散性对应物相关的很多“特征”亚型特异性表达标记。由于DCIS癌当前代表常规组织病理学可检测到的最早非扩散性恶性损害，因此这些结果提示这些研究中定义的分子亚型可能产生于肿瘤发生的相对较早阶段(即扩散前)并且代表不同的生物学实体，而不是不同进化阶段的单一癌症类型。
除了提供乳腺癌时间进展的分子框架，发明人的结果也支持使用基于表达的基因组技术进行临床癌症诊断和在不同健康护理机构间分类的可行性。
因此，最基本，本发明提供了使用特殊遗传鉴定者确定患者中癌症，尤其是乳腺癌的存在或风险的新诊断方法。此外，发明人确定了乳腺癌的一系列多基因分类物。
在第一个情况，发明人确定了一组20个基因(“遗传鉴定者”)，它们可以组合使用来预测未知乳腺组织样品是正常或恶性。
除了这第一个基因套组(它可以区分肿瘤和正常乳腺样品)，发明人也确定了其它基因套组，它们可以用作遗传鉴定者将肿瘤样品分为亚型。这不仅从研究立场来看很重要，而且可以确保提供最适当的治疗。
因此，发明人确定了下列基因套组，它们可以用于预测乳腺肿瘤和/或肿瘤类型的存在。
1)表2中提供的基因套组，当其组合使用时，允许使用者预测未知乳腺组织样品是正常或恶性，尤其是使用斑点cDNA微阵列。
2)另一套组基因(表4a和4b)当组合使用时也可以用于区分正常和肿瘤乳腺组织样品。这个基因套组更优选用于使用市场可上买得到的技术平台如基因芯片，如Affymetrix U133A Genechips，获得的表达谱，但也可以采用1)所述斑点cDNA微阵列技术而利用。
3)一套组基因(表5a)当组合使用时可以预测所证实的乳腺肿瘤样品的雌激素受体状态。第二套组基因(表5b)当组合使用时可以预测所证实的乳腺肿瘤样品的ERBB2状态。
4)一套组基因(表6)当组合使用时可以用于预测乳腺肿瘤样品的根据下列5个种类的“分子亚型”腔(Liminal)，基底，ERBB2，正常样和ER-阴性亚型II。在本发明的这个实施方案中，发明人使用两个不同类型的分类算法，即(1)一对全(one-vs-all)(OVA)支持载体机器(SVM)；和(2)基因算法(GA/最大可能判别式(MLHD))分析。不同组基因最佳地根据使用的分类算法类型来使用。因此，下面描述每个部分的不同套组基因。
5)组套基因(表7)当组合使用时可以用于预测亚洲乳腺癌患者的腔亚类。发明人确定了乳腺肿瘤的“腔”变异可以“分”成临床相关的两个不同亚型腔A和腔D。因此肿瘤已正式公认为本质是“腔”后，优选使用遗传鉴定者(表7)。当然这可以使用表6的多类预测者来完成。腔D肿瘤与也在高度蔓延性非腔肿瘤如ERBB2和基底型所发现的某些表达标记相关。这支持已知肿瘤亚型的临床重要性。
特定基因套组(遗传鉴定者)的确定允许根据组织中那些基因的表达模式将肿瘤样品分类(如肿瘤对正常)。例如，在第一个遗传鉴定者(肿瘤对正常)中，发明人确定了相对于正常细胞，在肿瘤细胞中通常上调的10个基因和相对于正常细胞，在肿瘤组织中通常下调的10个基因。通过研究这些特殊遗传鉴定者的表达模式，即测试样品中这些基因表达产物的混合水平，可能将样品分为恶性或正常。因此，表达产物能够提供可用于区分正常和恶性细胞的表达谱或“指纹图谱”。
在本发明的第一个方面，提供了创建乳腺肿瘤细胞的核酸表达谱的方法，包括步骤(a)从所述乳腺肿瘤细胞和正常乳腺细胞分离表达产物；(b)鉴定选自表2的大量基因的表达谱；对于肿瘤和正常细胞；(c)比较肿瘤细胞和正常细胞的表达谱；和(d)确定乳腺肿瘤细胞特征性的核酸表达谱。
为了诊断目的，获得肿瘤细胞特征性的表达谱很重要，即不同于等同正常细胞表达谱。根据第一个方面的方法确定了发明人鉴定作为乳腺肿瘤细胞“遗传鉴定者”的大量基因的表达谱(见表2)。
各个样品之间包含遗传鉴定者的各个基因的表达谱将轻微不同。然而，发明人认识到这些包含遗传鉴定者的特殊基因联合使用时的表达谱提供了肿瘤细胞中表达的特征性模式(表达谱)，它可识别地不同于正常细胞中的模式。
通过创建来自很多已知肿瘤或正常样品的遗传鉴定者的很多表达谱，可能产生正常和肿瘤样品的谱文库。表达谱数量越多，越容易创建可在诊断试验中用作对照的可靠的特征性表达谱标准(即包括统计学变异)。因此，标准谱可以是从大量各个表达谱设计的和在统计学变异内设计来代表肿瘤或正常细胞谱的。
因此，根据本发明第一个方面的方法包括步骤(a)从乳腺肿瘤细胞分离表达产物；将所述表达产物接触能够特异并独立结合选自表2的大量基因的表达产物的大量结合成员，由此创建肿瘤细胞的第一个表达谱；(b)从正常乳腺细胞分离表达产物；所述表达产物接触步骤(a)使用的大量结合成员，由此创建正常乳腺细胞的可比较的第二个表达谱；(c)比较第一个和第二个表达谱来确定乳腺肿瘤细胞特征性的表达谱。
优选表达产物是mRNA，或由所述mRNA产生的cDNA。或者，表达产物可以是表达的多肽。优选使用能够特异性鉴定表2鉴定基因的表达产物的结合成员实施表达谱的鉴定。例如，如果表达产物是cDNA，那么结合成员将是能够与该cDNA特异性杂交的核酸探针。
优选，表达产物或结合成员将被标记，使得可以检测两个成分的结合。优选选择标记使得能够检测表达产物的相对水平/量和/或绝对水平/量，使得能够基于包含遗传鉴定者的各个基因的上调或下调确定表达谱。换言之，优选结合成员不仅能够检测表达产物的存在，而且能够检测其相对丰度(即可获得产物的量)。
核酸表达谱的确定可以计算机化并且可以在某些以前设置参数内实施，来避免假阳性和假阴性。
计算机可以能够提供如上讨论的正常乳腺细胞和恶性乳腺细胞的特征性表达谱标准。确定的表达谱可以用于作为诊断方法将乳腺组织样品分为正常或恶性。
因此，在本发明的第二个方面，提供了包含正常和恶性乳腺细胞的大量基因表达谱的表达谱数据库，其中基因选自表2；可检存在于数据载体上。优选，该表达谱组成的数据库是根据第一方面的方法产生的。
根据特定遗传鉴定者的知识，可能设计确定细胞特定测试样品中基因表达模式或谱的很多方法。例如，使用标准分子生物学技术可以从细胞分离该表达的核酸(RNA、mRNA)。接着可以使用对该表达序列特异性的核酸引物在PCR中扩增对应于表2给出的遗传鉴定者的基因成员的表达核酸序列。如果分离的表达核酸是mRNA，那么这可以转换成cDNA使用标准方法进行PCR反应。
引物可以方便地将标记导入扩增的核酸，使得它可以被鉴定。理想地，该标记能够指示扩增事件后存在的核酸序列的相对量或比例，反映原始测试样品中存在的相对量或比例。例如，如果标记是荧光或放射性的，信号强度将指示表达序列的相对量/比例或甚至绝对量。每个遗传鉴定者的表达产物的相对量或比例将建立测试样品的特殊表达谱。通过将这个谱和已知谱或标准表达谱比较，可能确定测试样品来自正常乳腺组织或恶性乳腺组织。
或者，可以使用能够结合遗传鉴定者的表达产物的结合成员确定表达模式或谱，如mRNA、相应的cDNA或表达的多肽。通过标记表达产物或结合成员，可能鉴定表达产物的相对量或比例并确定遗传鉴定者的表达谱。这样通过将表达谱与已知谱或标准比较，样品可以分为正常或恶性。该结合成员可以是互补核酸序列或特异性抗体。下面更详细讨论了使用这种结合成员的微阵列试验。
在本发明的第三个方面，提供了确定患者乳腺癌存在或风险的方法，包括步骤(a)获得从怀疑具有乳腺癌或具有患乳腺癌风险的患者的乳腺组织细胞的表达产物；(b)将所述表达产物接触能够检测对应于表2鉴定的一个或多个基因的表达产物存在的一个或多个成员；和(c)基于乳腺组织细胞的表达产物与一个或多个结合成员的结合谱来确定所述患者中乳腺癌的存在或风险。
优选该患者是有亚洲血统的妇女，如中国人种血统。
确定乳腺癌存在或风险的步骤可以通过计算机来实施，该计算机能够比较测试的乳腺组织细胞的表达产物的结合谱与肿瘤存在或风险特征性的其它以前获得的谱和/或以前确定的“标准”谱的数据库。该计算机可以被编程报道测试下的谱和标准谱之间的统计学相似性，使得可以作出诊断。
如上提及，本发明人鉴定了在肿瘤细胞中具有与乳腺正常细胞相反的不同表达模式的几个关键基因。集中来说，这些基因包括“遗传鉴定者”。发明人显示(见下)了属于“遗传鉴定者”的基因的组合表达模式用于区分正常和肿瘤细胞。因此，通过检测乳腺组织样品中遗传鉴定者的表达模式，可能预测细胞(正常或恶性)的状态和那个患者是否具有乳腺癌或处于发展为乳腺癌的风险。
表2给出了包含遗传鉴定者的基因。显示了20个基因，其中10个相对于正常细胞，在肿瘤细胞中通常高度表达，其中10个相对于正常细胞，在肿瘤细胞中通常降低表达。使用肿瘤活检组织和正常组织活检组织确定基因的差异表达。通过检测测试样品中这些基因的表达产物水平，基于产生的表达谱可能将细胞分为正常和恶性，即相对于正常细胞中见到的标准模式或谱，它们的表达增加或降低。
因此，在本发明的另一方面，提供了将乳腺组织样品分为正常或恶性的方法，所述方法包括步骤(a)从乳腺组织样品获得表达产物；(b)将所述表达产物接触能够特异性结合选自表2的大量基因的表达产物的大量结合成员；和(c)基于样品的表达产物和结合成员的结合谱，将该样品分为正常或恶性。
优选乳腺组织的样品来自亚洲血统妇女，如中国人种血统。
如前，表达产物可以为转录的核酸序列或表达的多肽。转录的核酸序列可以是RNA或mRNA。表达产物也可以是由所述mRNA产生的cDNA。
结合成员可以是在合适的杂交条件下能够特异性结合转录核酸序列的互补核酸序列。典型地，使用cDNA或寡核苷酸序列。
当表达产物是表达的蛋白时，优选结合成员是所述表达的多肽特异性的抗体，或包含抗体结合结构域的分子。
为了检测目的，可以使用本领域已知标准步骤标记结合成员。或者，可以在从测试的样品中分离后标记表达产物。优选的检测工具是使用可以通过光量器检测的荧光标记。可供选择的检测工具包括电子信号。例如，Motorola e-传感系统具有两个探针，自由浮动的“捕获探针”和与成对作为电极表面的固相表面连接的“发信号的探针”。两个探针都作为表达产物的结合成员。当发生结合时，两个探针开始彼此紧密接近，导致可检测的电子信号产生。
如上讨论，结合成员可以是用于PCR(如multi-plexed PCR)而特异性扩增遗传鉴定者的表达产物数量的寡核苷酸引物。接着可以在凝胶上分析产物。然而，优选，结合成员是固定到固相支持体上的单一核酸探针或抗体。该表达产物接着就可以通过固相支持体，因此使得它们接触结合成员。固相支持体可以是玻璃表面，如显微镜玻片；珠子(Lynx)；或光学纤维。在珠子的情况下，每个结合成员可以固定到各个珠子上，接着它们在溶液中接触表达产物。
本领域存在确定特定基因套组表达谱的各种方法并且它们可以应用于本发明。基于珠子(Lynx)的方法或分子条码(Surromed)是已知技术。在这些情况下，每个结合成员与各自可读且自由浮动容易接触表达产物的念珠或“条码”连接。结合成员与表达产物(目标)的结合在溶液中完成，其后标记的念珠或条码通过装置(如流式细胞仪)并阅读。
确定表达谱的更多已知方法是由Illumina开发的器具，即光学纤维。在这种情况下，每个结合成员与光纤维电缆一端的特定“地址”连接。表达产物与结合成员的结合可以诱导荧光改变，它可以通过光纤电缆另一端的装置阅读。
本发明人成功使用了包含固定在固相支持体上的大量核酸序列的核酸微阵列。将代表表达基因的核酸序列如cDNA通过微阵列，它们能够产生来自乳腺组织的肿瘤细胞和正常细胞的表达产物特征性的结合谱。
本发明进一步提供了将乳腺组织样品分为恶性或正常的微阵列，包括收容有大量核酸序列的固相支持体，所述核酸序列能够特异性结合表2中鉴定的一个或多个基因的表达产物。样品的分类将得到患者乳腺癌的诊断。优选所述固相支持体将收容有能够特异并独立结合表2中鉴定的至少5个基因的表达产物的核酸序列，更优选，至少10个基因或至少15个基因。在最优选实施方案中，固相支持体将收容有能够特异并独立结合表2中鉴定的所有20个基因的表达产物的核酸序列。
典型地，高密度核酸序列，通常是cDNA或寡核苷酸，固定到固相支持体的很小的分散区域或点上。该固相支持体通常是显微镜玻片或滤膜，用基质包被(或芯片)。该核酸序列通常通过自动机系统传递(或印记)到包被的固相支持体上并接着固定到支持体上。
在优选实施方案中，典型地使用荧光标记来标记从样品得到的表达产物，接着将其接触固定的核酸序列。杂交后，使用检测器检测荧光标记，如高分辨率激光扫描仪。在可供选择的方法中，可以用非荧光标记如生物素，标记表达产物。杂交后，接着可以用结合第一个非荧光标记(如结合生物素的荧光标记的链霉抗生物素)的荧光染料“染”微阵列。
用数字图像软件分析每个分散点发射的信号而获得表示基因表达模式(表达模式或谱)的结合谱。接着实验样品的基因表达模式可以与对照的(即来自正常组织样品的表达谱)比较进行差异分析。
如上提及，对照或标准可以是以前判断为正常或恶性细胞特征性的一个或多个表达谱。这些一个或多个表达谱可以可获取地保存于数据载体上作为部分数据库。这在上面讨论过。然而，也可能将对照导入检测步骤。换句话说，测试样品可以“掺加”一种或多种“合成的肿瘤”或“合成的正常”表达产物，它可以用作待与测试样品中遗传鉴定者的表达水平相比的对照。
多数微阵列利用一种或两种荧光团。对于双色试验，典型地，最常使用的荧光团是Cy3(绿波激发)和Cy5(红波激发)。微阵列图像分析的目的是从每个表达产物提取杂交信号。对于单色试验，以给定目标(主要对于与单一样品杂交的阵列)的强度来测定信号。对于双色试验，以不同荧光标记的两个表达产物(如样品和对照(或者已知对照是“参照”))的比率来测定信号。
优选根据本发明的微阵列包含大量分散点，每个点含有一个或多个寡核苷酸并且每个点代表针对选自表2中的一个基因的表达产物的一个不同结合成员。在优选实施方案中，该微阵列将含有针对表2提供的20个基因中每一个的20个点。每个点将包含大量等同寡核苷酸，每个能够结合表2基因的表达产物，如mRNA或cDNA。
在本发明的另一方面，提供了将乳腺组织样品分为正常或恶性的试剂盒，所述试剂盒包括能够特异性结合表2中鉴定的一个或多个基因的表达产物的一个或多个结合成员，和检测工具。
优选，试剂盒中一个或多个结合成员(抗体结合结构域或核酸序列如寡核苷酸)固定到一个或多个固相支持体上，如用于微阵列或光纤维试验的单一支持体，或多个支持体如念珠。优选检测工具是标记测试下样品的表达产物的标记(放射性或染料，如荧光)。该试剂盒也可以包括检测和分析测试的表达产物的结合谱的工具。
或者，结合成员可以是能够结合表2中鉴定的基因的表达产物而使得它们可以在PCR中扩增的核苷酸引物。该引物可以进一步包括检测工具，即可以用于鉴定扩增序列和它们相对于其它扩增序列的丰度的标记。
该试剂盒也可以包括可获取的保存于数据载体上的用于与测试样品的表达谱进行比较的一个或多个标准表达谱。可以根据本发明的第一个方面产生一个或多个标准表达谱。
本发明进一步提供了诊断亚洲血统患者乳腺癌的存在或风险的方法，所述方法包括获得乳腺组织样品；从所述样品分离表达产物；标记所述表达产物；所述标记的表达产物接触代表选自表2的大量基因的大量结合成员；基于所述标记的表达产物和结合成员的结合谱，确定所述患者中乳腺癌的存在或风险。
乳腺组织样品可以切除的乳腺活检组织或细针抽出物获得。
再者，优选表达产物是mRNA或所述mRNA产生的cDNA。优选结合成员是固定到微阵列或念珠形式(见上)的一个或多个固相支持体上的寡核苷酸。优选通过能够检测用于标记表达产物的标记的检测器分析结合谱。通过比较样品的结合谱和对照如标准表达谱可以确定乳腺癌存在或风险。
在上述所有方面，优选使用能够特异性结合(和在核酸引物的情况下，扩增)所有20个遗传鉴定者的表达产物的结合成员。这是因为所有20个基因的表达水平构成测试下细胞特异性的表达谱。表达谱的分类越可靠，测试的基因表达水平数量越多。因此，优选估计5个以上选自表2的基因的表达水平，更优选，10个以上，甚至更优选，15个以上和最优选所有的20个基因。
上面提及的遗传鉴定者(表2)特别适合于斑点cDNA微阵列技术，其中已经特别为这个目的产生了微阵列(或其它类似技术)。然而，本发明人领会到本发明可以被改动使得可以使用市场上买得到的基因芯片，而不需烦琐地生产一个具体含有表2鉴定基因。想到这点，发明人鉴定了更多遗传鉴定者(表5a或5b)，尽管使用上述微阵列技术可以利用它，但是它也可以在市场上买得到的基因芯片上应用，如Affymetrix U133A基因芯片。
因此，使用表4a或4b的基因套组代替表2的那些也可以实施上述本发明的方面，此外它们可以在市场上买得到的基因芯片如AffymetrixU133A基因芯片上应用，或使用上述微阵列技术而应用。
本发明人也鉴定了另组套基因(表5a)，它可以用于基于雌激素受体(ER)状态对乳腺肿瘤进行分类。这在临床上很重要，因为ER+肿瘤可以用激素疗法(如他莫昔芬)治疗和ER-肿瘤典型地更具扩散性和对治疗更顽固。
同样，本发明人也鉴定了另组套基因(表5b)，它可以用于将乳腺肿瘤基于ERBB2+状态分类。知晓乳腺肿瘤的ERBB2+状态在临床上也很重要，因为ERBB2+肿瘤典型地具有很高迅速蔓延性并具有很差的临床预后。ERBB2+肿瘤也是Herceptin(抗癌药物)治疗的候选情况。
通过使用Affymetrix U133A基因芯片产生一组乳腺肿瘤样品的表达谱来确定表5a和5b中提供的基因套组。一系列统计学算法用于鉴定在ER+对ER-样品以及ERBB2+对ERBB2-样品中差异表达的组套基因。因此，本发明进一步提供了可以用在根据ER和ERBB2状态对乳腺肿瘤分类的方法中的基因套组。
因此，在本发明的更多方面，提供了根据其ER和/或ERBB2状态对乳腺肿瘤进行分类的方法，包括a)从肿瘤细胞获得表达产物；b)将所述表达产物接触能够特异性结合选自表5的大量基因的表达产物的大量结合成员；和c)基于来自样品的表达产物和结合成员的结合谱，对肿瘤细胞进行基于ER和/或ERBB2状态的分类。
如同本发明的第一个方面，优选大量结合成员是核酸序列和更优选固定于固相支持体的核酸序列，例如作为核酸微阵列。该核酸序列可以是寡核苷酸探针或cDNA序列。
基于表5鉴定基因的表达可以对肿瘤细胞进行根据其ER和/或ERBB2状态的分类。表5鉴定了每个基因在ER+或ERBB2+肿瘤中上调(+)或下调(-)。根据这个信息，可能确定测试下的乳腺肿瘤细胞是ER-和ER+和/或ERBB2+或ERBB2-。
如本发明的所有方面，选自确定的基因套组(表2-7，除了表6b)的大量基因在实际数量上可以变化。为了实施本发明，优选使用至少5个基因，更优选至少10个基因。当然，已知微阵列和基因芯片技术允许待利用的大量结合成员。因此，更优选方法将是使用代表每个基因套组中所有基因的结合成员。然而，本领域技术人员将领会到这些基因的比例可以忽略，且该方法仍以可靠和统计学精确模方式实施。在多数情况下，将优选使用代表每个各基因套组中至少70％，80％或90％基因的结合成员。
在本发明的更多方面，提供了按照其分子亚型对乳腺肿瘤细胞进行分类的方法，包括a)从肿瘤细胞获得表达产物；b)将所述表达产物接触能够特异性结合选自表6的大量基因的表达产物的大量结合成员；和c)基于来自肿瘤细胞的表达产物和结合成员的结合谱，对肿瘤细胞进行按照其分子亚型的分类。
优选分子亚型是腔，ERBB2，基底，ER型II和正常/正常样的。这些亚型在下文定义。
实践中，使用表6(表6a或6b依赖于使用的分类算法类型)所述的基因套组确定待分类的肿瘤样品的表达谱。其次，表达谱将与“参照”(对照)谱的数据库进行比较，其中每个“参照”(对照)谱，每个“参照”谱对应于属于那个特定分子类型的“平均”肿瘤。在这种情况下，不是仅具有正常或肿瘤，或ER+和ER-，“对照”谱将对应于五个不同亚型。第三，通过使用合适的分类算法，未知的肿瘤样品可以被记为其表达谱有很好参照匹配的具体亚型。
在选择能够结合表6a的大量基因的表达产物的大量结合成员情况下，使用的结合成员的数量将控制测试的可靠性。换句话说，不是必须使用能够特异并独立结合表6a鉴定的所有基因的结合成员，但是使用的结合成员越多，测试越好。因此，大量，优选是至少50％，更优选至少70％和甚至更优选90％的上面提及的基因。
在本发明的另一方面，提供了将乳腺肿瘤细胞进一步细分为腔A和腔D亚型的方法，包括a)从肿瘤细胞获得表达产物；b)将所述表达产物接触能够特异性结合选自表7的大量基因的表达产物的大量结合成员；和c)基于来自肿瘤细胞和的表达产物和结合成员的结合谱，对肿瘤细胞进行按照其分子亚型的分类。
优选，对从已经被分为“腔”型的乳腺肿瘤细胞获得的表达产物实施该方法，如使用表6a或6b的遗传鉴定者。
按照表6b提供的基因套组，优选基因套组中的所有基因用于分类。基因数量减少将带走可靠结果的可能性。这是因为这个基因套组是使用遗传算法选择的。
本发明人提供了很多遗传鉴定者(表2至7)，它们可以用于诊断和/或预测乳腺癌风险和，进一步，可用于对乳腺癌进行分类，尤其是对亚洲血统妇女。
这些遗传鉴定者的提供允许常规制作诊断工具如核酸微阵列并将其用于预测、诊断或对肿瘤进行亚分型。此外，这种诊断工具可以与计算机联合使用，该计算机被编程以确定用诊断工具(如微阵列)获得的表达谱，并根据使用的特定遗传鉴定者，将其与正常对肿瘤和/或分子亚型特征性的“标准”表达谱进行比较。实施过程中，计算机不仅给使用者提供了可以用于诊断患者中肿瘤的存在或类型的信息，同时该计算机还获得了更多表达谱，通过这些用表达谱确定“标准”表达谱并由此可以更新其自身数据库。
因此，本发明第一次允许制作含有对应于表2至7鉴定的基因套组的探针的专门芯片(微阵列)。该阵列的确切物理结构可以变化，范围从与2-二维固相基底连接的寡核苷酸探针至已被独特标记如“条码”“标记”的自由浮动探针。
可以创建对应各种生物学分类(如正常、肿瘤、分子亚型等)的数据库，它将由专门微阵列确定的各种乳腺组织的表达谱组成。接着可以处理和分析该数据库，使得它最终含有(i)对应于数据库中每个表达谱的数字数据，(ii)作为那个特定分类的正规谱的“标准”谱；和(iii)代表观察到的各个谱与“标准”谱的统计学变异的数据。
在实践中，为了估计患者样品，首先分离那个患者的乳腺细胞(通过切除活检组织或细针抽出物获得)的表达产物，和使用专门微阵列确定那个细胞的表达谱。为了对患者样品进行分类，将在上述数据库中再次查询那个患者样品的表达谱，查询可以以直接或间接方式进行。“直接”方式是患者的表达谱直接与数据库中其它个体的表达谱进行比较来确定哪个谱(并由此是哪个分类)递送了最佳匹配。或者，可以更“间接”地进行查询，例如，患者的表达谱可以与数据库中“标准”谱简单比较。间接方法的优点是“标准”谱，因为它们代表很多个体谱的集合体，数据不密集得多并可保存在相对廉价的计算机系统中，接着根据本发明可以形成试剂盒的一部分(即与微阵列联合)。在直接方法中，数据载体可能规模更大(如计算机服务器)，由于不得不保存很多个体谱。
通过比较患者表达谱和标准谱(间接方法)及预先确定的人群中的统计学变异，也可能传递关于患者表达谱如何紧密匹配“标准”正规谱的“置信值”。这个值将给临床医师提供关于分类可信度，和例如是否应该重复分析的有价值信息。
如上提及，也可能将患者表达谱保存在数据库中，并且这些可以在任何时候用于更新数据库。
现在将通过实施例，参照

本发明的方面和实施方案。更多方面和实施方案对本领域技术人员将很明显。本文提及的所有文件并入这里作为参考。
图1正常和肿瘤乳腺样品的无监测区分。各个表达谱接受标准数据选择过滤(见本文)，使用分级聚类对包括大约800个阵列目标的所得数据矩阵进行分类。正常样品(“xxxN”)被下划线，而肿瘤样品(“xxxT”)不被下划线。数字代表每个样品相关的NCC组织库的数量。树状分枝图分枝说明了生物学样品之间相似性的程度。正常和肿瘤样品单独分开，但仅在树状分枝图的二级水平。用于选择这个数据组的数据滤器上的微小变异也产生了高度相似的树状分枝图(P.Tan，未发表的观察结果)。
图2使用组合的异常值(outlier)基因套组(COG)进行正常和肿瘤样品区分的改进。(A)定义了正常(左)和肿瘤(右)样品的独立异常值基因套组。每个聚类图由生物学样品(柱)对阵列目标(排)的矩阵组成，浅灰色代表上调，而深灰色代表下调(见材料和方法的选择标准)。正常样品的异常值基因套组由60个基因组成，而肿瘤样品的异常值基因套组由75个基因组成。下面每个聚类图列出了用于建立异常值基因套组的具体正常和肿瘤样品。被下划线的样品号码表示相互杂交，其中使用Cy5标记肿瘤/正常样品和用Cy3标记对照样品。(B)使用COG进行正常和肿瘤样品的区分。使用标准分级聚类，包含COG的108个独特阵列目标用于区分来自图1的肿瘤和正常样品。与图1相比，正常(xxxN)和肿瘤(xxxT)样品的区分现在观察为含2个错误分类的初级类型区分。
图3使用最小的20元件遗传鉴定者进行正常和肿瘤样品的区分。来自COG(表2)的与肿瘤/正常类型区分最相关的20个阵列目标用于区分(A)来自图1和2b的训练组，和(B)10个正常和11个肿瘤的未经实验的测试组。在两种情况下，可以观察到在初级分类区分水平的正常和肿瘤样品的精确区分。
图4正常和肿瘤样品的表达谱变异比较。使用图3a和3b的组合样品(总和＝48个样品)建立各个正常和肿瘤数据组。使用PCA，这些数据组中大约8000个阵列目标的完整基因表达矩阵纳减为基本主要成分。Y轴描述了相对第1成分标准化的特征值标准化的每个成分的变异程度，x轴描述了主要成分号码，从第2成分开始(因为每组的第一成分是1)。为了观察信息“延迟”速度，每个数据组的成分以降级变异描述。与肿瘤相比，正常样品一致显示出它们成分之间较低的信息延迟速度。
图5使用不同基因套组，由分级聚类分析的包括56个癌性和6个正常组织的62个样品的基因表达模式。基于基因表达(图例)的差异，样品被分成6个亚型，是腔，(S1)；ERBB2+/ER+(S2，ERBB2+/er-(S3)，基底样(S4)，ER阴性亚型II(S5)，和正常/正常样(S6)。(a)使用1796个基因的数据组进行的无监测分级聚类。灰色下划线表示含有腔和ERBB2+/ER+样品混合物的类。(b)使用“共同内在基因套组”(CIS，292个基因)进行的半监测分级聚类。(c)使用CIS的完全聚类图。聚类图右侧的暗纹条代表基因聚类A-E(表3)，是(A)具有ER的腔上皮基因。(B)“新”基因。(C)基底上皮基因。(D)正常乳腺样基因。(E)ERBB2相关基因。
图6(a)-(d)本研究使用的DCIS样品的代表性实例。两个样品显示(a)/(b)，和(c)/(d)。通过检查样品((a)和(c)，HE)的石蜡苏木精和曙红切片，以及检查表达谱处理的实际样品的冰冻切片((b)和(d)，FS)证实每个样品的DCIS状态。(e)乳腺癌发展的“不同来源”和“进化”理论。“不同来源”假说提出不同分子亚型的癌症通过不同的肿瘤发生途径产生，因此组成不同的生物学实体。“进化”假说提出不同的分子亚型是由经历不同阶段表型发育的单一(或很少)癌症类型产生的。仅通过研究单一时间点获得的晚期扩散性癌症，不能区分两个假说之间的区别。
图7DCIS样品表达晚期癌症亚型的特征基因。DCIS样品以黑竖线表示。基于CIS基因套组，十二个DCIS样品中有六个聚类在ERBB2+组(S2和S3)，5个样品在腔组，和一个样品在正常样组。聚类图右侧的暗纹条表示图5所示的相同基因聚类。(A)具有ER的的腔上皮基因。(B)基底上皮基因。(C)正常乳腺样基因。(D)ERBB2。
图8腔A和ERBB2+肿瘤亚型的途径特异性和重叠基因的总结。“U”表示上调基因和“D”表示下调基因。例如，正常/DCIS(腔)转变过程中有245个基因上调和705个基因下调。粗体码是两个基因组之间的重叠基因。a)基于5％假发现率(FDR)的结果。B)当仅比较前100个最明显上调的独特基因的结果。
图9a)腔D亚型的发现。基于“增殖聚类”连接基因的分级聚类重新对一系列以前同源的腔A型肿瘤(由图5和7中CIS鉴定为亚型S1)进行分组。观察到两个大组，分别显示低(腔A)和高(腔D)“增殖聚类”表达水平。b)在其它蔓延性肿瘤类型中也观察到36个基因“增殖聚类”的高水平。腔D(17个样品中有15个，以样品号码下的黑条表示)，基底(ER-)和ERBB2+ve样品全部强烈表达36个基因的“增殖聚类”(聚类图下的条，左分支)，而腔A型(全部，除了一个边界情况)，正常样和肿瘤显示低水平表达。浅灰/白色表示上调，而深灰/黑色表述下调。
材料和方法乳腺组织样品在从库研究所和人种委员会机构获得适当批准后，从NCC组织库获得原代乳腺组织。一般，手术切除肿瘤过程中同时收集所有肿瘤和相匹配的正常组织。手术切除后，立即在操作场所粗略切割样品，并冰冻于液氮中。随后由新加坡国立医院病理科提供肿瘤状态的组织学证实。样品保存于液氮中直到进行处理。除了来自印度患者的1肿瘤和匹配的正常样品对，所有其它样品来自中国患者。本报道使用的组织样品的DCIS状态证实通过常规苏木精和署红染色档案样品，以及进行表达谱处理的实际样品的直接冰冻切片而获得。
样品制备和微阵列杂交对于包括Affymetrix基因芯片的杂交，使用Trizol试剂实际从组织提取RNA，通过Qiagen Spin柱纯化，并根据制造商的规程，接受Affymetrix基因芯片杂交处理。对于每个斑点cDNA微阵列杂交，在单轮线性扩增(Wang et al.，2000)后使用2-3μg总RNA。所有乳腺样品的斑点cDNA微阵列杂交与已经类似扩增的标准市场上买得到的mRNA对照库(strategene)相比较。标准步骤后制造cDNA微阵列(DeRisi etal.，1997)，使用从各种商业销售商(Incyte，Research Genetics)获得的cDNA克隆。除了特别提及，使用Cy3染料荧光标记样品，而用Cy5标记对照。使用Affymetrix U133A基因芯片实施杂交。杂交后，使用基于CCD微阵列的扫描仪(Applied Precision，Inc)捕获微阵列图像。
数据处理和分析对于斑点cDNA微阵列数据，对应于各个微阵列的荧光强度上载到集中的Oracle 8i数据库。使用标准SQL查询实施各种数据组和基因搜索的建立。使用程序Xcluster(斯坦福)实施分级聚类并使用程序Treeview(Eisen et al.，1998)显现。为了鉴定肿瘤和正常数据组中的异常值基因，选择对于正常数据组来说，在全部阵列的90％上，和对于肿瘤数据组来说，在全部阵列的80％上一致显示调节超过3倍的阵列元件。使用Golub et.al.(1999)采用的相似性尺度概念实施相关分析。简言之，计算每个基因的对应于正常/肿瘤类型区分的相似性尺度，接着基于它们相似性值的降级顺序对该基因进行分类。由它们与分类区分的正和负相关性分类后，选择每类型的前10个基因进行随后的聚类分析。通过将很多相关变量组成的基因表达矩阵线性转化为“较少”量不相关变量(主要成分)来实施PCA主要成分分析(PCA)。对于线性子空间的数据组，该数据可以不丢失太多信息同时简化了数据表示的方式进行压缩。第一主要成分解释了数据中的最大变异性，且每个后续成分解释了剩余变异性的部分。
对于Affymetrix基因芯片，使用市场上买得到的软件程序(Genedata Refiner)进行Raw Genechip扫描的质量控制并存放在中心数据保存设备中。通过除去在所有样品(即叫做“A”)中缺乏表达的基因，接受Log2转换，和用中值集中所有剩余基因和样品来标准化而过滤表达数据。接着使用基因数据表达软件分析包或使用常规电子表格申请实施数据分析。通过选择在所有很好测定的样品间显示标准差(SD)＞1的基因建立表1中使用的1796个基因的无监测数据组。使用CLUSTER程序实施平均连接分级聚类，且使用TREEVIEW(9)显示结果。基本如Tusher et al.，(2001)(10)所述，使用2倍改变切割和适当的delta值覆盖5％(0.05)基因假发现率(FDR)实施微阵列的显著性分析(SAM)。
共同内在基因套组(CIS)的创建以下列方式选择U133A基因芯片探针组和Perou et al.，(2000)定义的“内在”数据组的共同基因由456个cDNA克隆组成的原始“内在”组中，428个可能使用斯坦福Source数据库(Unigene Build 156)被分配给特定单基因聚类。除去重复基因后，这个数字接着减为403个基因。接着使用这个列表，查询U133A基因芯片探针，产生292个匹配，或原始“内在”组的72.5％(仅计算独特基因)。
结果使用无监测聚类区分正常和肿瘤乳腺标本发明人使用大约13000个元件的cDNA微阵列对从主要是中国人种患者(见材料和方法)得到的一组26个粗略切割乳腺组织标本(14个肿瘤，12个正常)产生基因表达谱。杂交和扫描后，发现大约8000阵列元件显示出显著高于背景水平的荧光信号，这些元件用于随后的分析。初次，本发明人发现基于很多通常使用的数据滤器的无监测聚类方法(如选择在至少4-5个阵列间显示至少3倍调节的基因)(见Perou etal.，1999，Wang et al.，2000)产生了图1显示的阵列聚类图。具体来说，该样品组分为两个大组，每个组由肿瘤和正常标本的混合体组成。然而，每个组内，发明人发现肿瘤和正常组织有效分为非常独立的亚支。使用无监测聚类可区分肿瘤和正常组织的观察结果提示存在可有效区分肿瘤和正常样品的特定基因。然而，在无监测数据大组中，也很清楚这些基因仅能够区分相关树状分枝图亚支中的正常和肿瘤样品，而不是在原始分类区分水平上。在其它乳腺癌表达谱研究项目(Perou etal.，2000)中也报道了类似发现，提示在整个转录小体(transcriptosome)水平，其它基因的表达水平可以“代替”肿瘤/正常类型区分中的基因所编码的信息(见讨论)。
使用异常值基因套组对正常和肿瘤样品进行分类发明人研究的主要目的之一是鉴定有明显诊断和治疗潜力的基因或基因亚组。要具有临床实用性的，需要鉴定可在原代水平，而不是次级，类型区分上准确预测未知乳腺组织样品是正常或恶性的基因类型。为了鉴定这些基因套组，或“遗传鉴定者”，以前已经描述了很多监测的学习策略，如邻近分析和人工神经网络(Golub et al.，1999，Khanet al.，2001)。然而，发明人使用了略微不同策略来鉴定这些元件，集中于使用高度可重复的异常值基因。在这个方法中，属于不同类型的样品最初鉴定为独立数据组。在每组内，接着鉴定在所有和接近所有阵列间一致上或下调(“异常值”)的基因。接着组合这些分开的“异常值组”，使用标准聚类方法估计基因组合组区分两种类型的能力。
发明人首次建立了正常和肿瘤群的异常值基因亚组。为了避免可能由荧光标记导入的偏差，它们也包括在每个组5个“相互”表达谱中，其中样品和对照RNA群相反标记。这个分析鉴定了正常组的60个高度可重复“异常值”基因，和肿瘤组的75个基因，它们在所有或接近所有阵列间一致上或下调(图2)。正常和肿瘤异常值组的交叉比较揭示两组间的很多共同基因(表1)，产生108个基因的最终组合异常值基因组(称作COG)。
接着COG用于对26个乳腺组织样品进行聚类。与图1观察到的大规模聚类图相比，发明人发现使用COG中发现的基因来聚类可有效将大多数肿瘤和正常样品分为两个主要分支，带有2个错误分类(图2a)。具体是，1个正常样品和1个肿瘤样品被错误分配，在前者情况下，基因表达值的质量检查揭示这个样品伴有很多所谓的“缺失”值(聚类图中的灰条)，它可能导致这个样品被错误分类。然而，多数样品被正确分组，这提示对于某些数据组，“异常值分析”可以用作在不同类型之间鉴定有区别基因的简单和有效方法。
乳腺组织中正常对肿瘤类型区分的最小遗传鉴定者的定义尽管出现了最初数据组基因数量的剧大减少(8000至108)，但是COG中包含的元件数量仍太大而不能可行地将其全部包括作为潜在诊断试验的一部分。理想地，诊断基因套组应该构成为i)最小数量元件，ii)高预测精确性，和iii)表现与有争论的类型区分正和负相关的基因的混合物。为进一步将组合异常值基因组减少至其最具信息性的元件，发明人使用相关分析鉴定和分级COG中与肿瘤/正常类型区分相关性最高的基因(见材料和方法)。接着估计10个最高度正和负相关的基因精确分类乳腺样品的能力。发明人发现了这个20个基因的最小组，称作“遗传鉴定者”，精确分类所有正常和肿瘤样品(图2b和表2)。组成“遗传预测者”的基因为已知包括在乳腺和肿瘤生物学中的基因，以及在肿瘤形成中的作用尚未描述过的其它基因(见讨论)。
20个基因的“遗传鉴定者”的预测能力对这点进行的所有分析在26个乳腺样品的同一“训练”组上实施，并由此尚未探寻20个元件的基因套组的预测能力。为了估计这个“遗传鉴定者”的强效性，发明人遵循Golub et al(1999)的策略并测试了最小预测者鉴定另外22个乳腺样品的未经实验的“测试组”的能力，其中12个样品是肿瘤和剩余10个是非恶性。以对训练组类似的方式，它们发现20个基因的遗传鉴定者也能够完全精确分类未经实验的组(图3b)。因此，看来“遗传鉴定者”预测给定乳腺样品是正常或恶性的能力不局限于产生它的训练组。反而，这个基因套组中的元件数量，尽管很低，可能具有给出预测值的足够敏感性和信息力量。
估计正常和肿瘤乳腺组织之间变异的普遍水平乳腺肿瘤的临床特征是在临床过程，疾病蔓延性和对药物治疗反应等方面的广泛变异。与这些广泛表型变异一致，已经发现个体乳腺肿瘤可显示出它们普遍基因表达模式的巨大变异(Perou et al.，2000)。解释这些广泛变异的一个通常假说是认为它们是肿瘤发生的多个独立途径的结果。然而，正常乳腺组织也具有高度环境和激素敏感性，而且特定患者的正常乳腺组织的具体状态常常依赖于很多人口学因素，如年龄、绝经状态和药物治疗史。因此，形式上肿瘤中观察到的表达状态的某些量的变异也可能可以反映在非恶性乳腺组织。由于发明人数据组由正常和恶性样品组成，它们能够比较正常和肿瘤样品彼此之间固有的变异性。为了实施这个比较，他们对8000个基因表达矩阵应用了主要成分分析(PCA)，包括共22个非恶性和26个肿瘤标本。使用PCA，发明人将总基因组减为一系列不同“成分”，其中每个成分代表了在原始数据组之间有限量的基因表达变异。它们假定数据中观察到的变异可能产生于多个来源，如内在生物学变异，以及实验引入的变异(如样品收集、杂交和标记条件中的差异等)。然而，由于在他们的实验中，正常和肿瘤样品同等收集，处理和加工，因此两组间应该同等具有由于实验条件和操作造成的变异。因此，肿瘤和正常组之间变异的任何不同最可能归于内在生物学变异。
发明人将正常和肿瘤数据组中观察到的变异量针对它们的主要成分进行了制图(图4)。为了有效比较两个数据组，每个成分标准化至那个数据组中的第一个成分，产生了描述数据组间总变异如何“延迟于”每个后续主要成分的图(通过常规，通常取第一个主要成分代表显示数据组间最大变异的元件)。发明人观察到作为一般规律，对应于肿瘤数据组的每个成分始终比正常数据组的类似成分显示出更高变异。这个数据表明与肿瘤谱相比，正常乳腺样品的基因表达谱明显更“稳定”或“不变”，这支持了肿瘤中观察到的基因表达的广泛变异可能是乳腺肿瘤产生于多个肿瘤发生途径的假说。
不同人种群体间乳腺癌分子亚型的保守性发明人接着使用Affmetrix基因芯片分析了从中国患者分离的56个扩散性乳腺癌和6个正常乳腺组织。粗表达谱扫描接受一轮质量控制，数据过滤和处理(见材料和方法)，无监测分级聚类算法用于基于转录相似性，将标准化的谱彼此分级。使用1796个基因的数据组，它组成了在全部样品至少70％内测定良好的和在样品间显示出相当的转录变异的基因(如由具有高标准差反映)发明人观察到多数样品分成可能与特殊组织病理学参数相关的几个可辨别组。例如，很多ER+肿瘤聚类在一起((S1)条，图5a)，如ERBB2+/ER-样品((S3)条)。正常乳腺样品也聚类为各个成员彼此显示很高相关性的可辨别的组，这提示正常乳腺组织与肿瘤相比具有较少转录变异。然而，很多样品不能通过无监测聚类算法(灰条)准确区分-可能这种“混合聚类”结果可能归因于原始组织样品中非恶性成分贡献的“噪声”，如正常乳腺上皮组织，淋巴细胞浸润物和反应性促结缔组织增生的组织。如前提及，使用cDNA微阵列平台获得类似观察，提示这个现象不依赖技术平台。
本研究的一个目的是确定以前发表的研究中定义的分子亚型和相伴表达标记是否在另外的患者群体中也可以检测到。发明人集中于将它们的表达结果与Perou et al(2000)的联系起来，后者是一个标志性研究，其中对来自美国和挪威患者的一系列乳腺癌标本实施了类似分析。简言之，在那个研究中和随后相关报道(Sorlie et al.，2001)中，作者确定了扩散性乳腺癌可被细分为至少5个不同分子亚型，基于表现为其转录变异主要由于恶性肿瘤成分造成的基因的“内在”基因套组。表1总结了代表每个特定亚型“特征”元件的特殊表达标记(以下这个数据组称作斯坦福研究)。斯坦福研究和发明人的工作之间，在方法和实验设计上有几个不同，如样品操作方案、患者群体和表达阵列平台(斯坦福研究中的2色cDNA微阵列相对于本发明研究的1色基因芯片，以及不同阵列探针序列)的不同。尽管存在这些不同，但是来自独立机构(斯坦福和本发明人)的两个不同乳腺癌表达数据组的可利用性由此允许本发明人检测一个机构的实验定义的分子亚型实际上是否足够强效以至可在另一个机构的研究中检测到。
为了实施本分析，发明人首次鉴定了Affymetrix U133A基因芯片上对应于属于斯坦福研究定义的“内在”组的基因的探针(见材料和方法)。斯坦福“内在”组中发现的403个独特基因中，292个基因，或内在组的72.5％，也在基因芯片阵列中发现。此后发明人将这个基因重叠组称作“共同内在组”(CIS)。重要的是，CIS仍含有很多“特征”基因，在斯坦福研究中它们的转录被报道可有效区分亚型，并且使用CIS，斯坦福肿瘤的重新聚类也产生了与使用全部内在组获得的分组(未显示数据)高度相似的分组。当发明人的系列的扩散性癌症基于CIS重新聚类时，他们观察到在区分模式中有突出改进，其中现在所有癌症样品分成非常不同的类型。接着本发明人对其研究中定义的分子亚型与斯坦福研究发现的那些(腔A，腔B/C，基底，正常样，和ERBB2+)进行比较(Perou et al.，2000；Sorlie et al.，2001)。
腔亚型依靠常规免疫组织化学，这个组的所有癌症是ER+。斯坦福研究定义了至少两个腔肿瘤组-腔A和腔B/C，后者伴有较差的临床预后(腔B和C肿瘤作为单一类型治疗，因为(Sorlie et al.，2001)报道了将它们分成两个不同组很困难)。与斯坦福研究一致，本发明人也观察到与斯坦福研究的腔A亚型非常类似的强分子亚型的存在，因为这个亚型的特征是ER和相关基因如GATA3，HNF3a和X盒结合蛋白1(条(S1))的高水平表达。然而，他们不能清楚区分standford研究定义的腔B/C亚型是否也存在于它们的患者群体中，基于B/C亚型伴有ER相关基因表达水平中等，和腔C亚型也表达高水平“新”基因簇的标准。发明人也观察到第二个腔亚类(ER+/ERBB2+)，它与腔A癌症不同在于这个其它亚类表达中等水平的ER相关基因(类似于腔B/C)和“新”簇中发现的基因(类似于腔C，条(S2))。然而，这个亚类也表达高水平ERBB2相关基因，并因此可能与斯坦福研究定义的腔C癌症不同，因为腔C癌症表达低水平的ERBB2基因簇。总之，发明人的结果表明腔A肿瘤(图5中的腔)构成可在不同患者群体中普遍发现的强分子亚型。相反，腔B/C和ER+/ERBB2+ve亚型可能代表不强的变异，它们的存在可能更明显受人种特异性、样品操作方案或阵列技术不同的影响。
如图5所见，属于腔类(S1亚型)的肿瘤在CIS基础上看来具有转录同源性。为了确定是否能够进一步细分属于这个亚型的肿瘤，发明人使用在以前报道中已经表明是组织细胞增殖状态标志的另一组套基因(Sorlie et al.，2001)对一大组腔肿瘤进行重新聚类。
在这些“增殖基因”基础上，它们发现腔肿瘤可以细分为两个不同类型，即，“纯”腔A和它们称作腔D亚型的另一个亚型(图9a)。可能腔A/D细分类在临床上有意义，因为在“增殖基因”基础上的不同组肿瘤的重新聚类产生了两个大的细分组，一个代表临床扩散性肿瘤(基底、ERBB2和腔D)，和另一个代表临床上更容易处理的肿瘤(腔、正常/正常样)(图9b)。
基底样斯坦福研究中报道了基底分子亚型的特征是高水平的两个表达标记-I)基底乳房上皮的标记物，如角蛋白5和17，和II)属于“新”簇的基因。与斯坦福研究一致，发明人也观察到基底亚型伴发类似表达标志(条(S4))，这表明基底分子亚型也非常强效。然而，此外，它们也检测了另一种亚型(条(S5))的明显存在，它不伴随斯坦福研究中所述的任何表达标记。
正常乳腺样“正常样”亚型伴发在正常乳腺组织中也高度表达的基因簇表达，且包括基因如四和一半LIM结构域1，水通道蛋白，和乙醇脱氢酶2(I类)β。发明人系列中的很多肿瘤也与正常乳腺组织聚类并显示出这个表达标记(条(S6))。因此，“正常样”分子亚型也可以认为是强亚型。
ERBB2+斯坦福研究也定义了最终ERBB2+亚型，其中这些肿瘤的特征是高水平的ERBB2相关基因的表达(柱E)，中等水平的“新”簇(柱B)，和缺乏ER相关基因的表达(柱A)。类似的ERBB2+亚型也清晰存在于发明人的系列中(条(S3))。与该表达数据一致，也通过常规免疫组织化学，他们随后也证实了属于这个分子亚型的肿瘤全部是ERBB2+。
总之，斯坦福研究定义的5个分子亚型中，发明人在他们自己的患者群体中清楚检测到至少4个亚型(腔A，基底样，正常乳腺样和ERBB2+)。使用CIS中的基因，他们不能清楚确定一个特定亚型(腔B/C)是否存在于它们的系列中，而且它们也检测到以前没有报道的2个另外亚型(ER+ERBB2+和ER-亚型II)的潜在存在。在发明人的研究中也清楚检测到多数(4/5)斯坦福分子亚型的发现提示尽管中心之间有很多方法差异，但是基于基因组的表达定义的分子亚型确实显著强效并且在不同患者群体之间很保守。
原发管癌(DCIS)表达扩散性癌症分子亚型的特征表达标记以前的结果表明乳腺癌的分子类似亚型确实可以发生并在不同人种群体间检测到。然而，这些研究的一个局限是它通常很难跨越延长的一段时间分析相同的癌症。这样，常常产生的一个问题是这些分子变异体是否代表确实不同的生物学实体的亚型，或者是它们简单反映了不同进化阶段中的单个或很少亚型。由于这两个不同类型，分别称作“不同来源”和“进化”假说(图6e)，对临床诊断和随后的进展和监测具有不同的意义，因此确定提出的这些机制中哪个是乳腺癌的情况很重要。不幸的是，仅通过研究在单一时间点取样的扩散性癌症不可能区分这两个模型，因为预期两个假说都产生类似于图5所示的结果。
在常规组织病理学中，原发管癌(或DCIS)长久以来被认为是扩散性乳腺癌的主要前体，并可能代表最早的形态学可检测的恶性非扩散性乳腺损伤。然而尽管它们的恶性状态，DCIS癌症在很多方面也与扩散性癌症不同。临床上，DCIS癌症治疗不同于扩散性癌症(DCIS病例主要用手术治疗，伴或不伴有辅助放疗)(Harris et al.，1997)，和DCIS和扩散性癌症在它们的具体癌症类型分布上也不同(Barnes et al.，1992；Tan et al.，2002)。如这些不同增加了尽管DCIS病例是恶性，但是它们也可能在一些方面与更多晚期扩散性癌症在分子学上不同的可能性。发明人推论“不同来源”和“进化”假说可以通过分析一系列DCIS癌症和将它们的谱和它们扩散性对应体比较来检测。每个假说带有不同的预测。如果“不同来源”假说是真的，那么代表“早期”癌症的DCIS癌症应该表达与它们更多成熟的扩散性对应体相伴的很多特征表达标记，如果不是全部的话。或者，如果“进化”假说是正确的，那么可以预期DCIS谱彼此的相似程度大于与其扩散性对应物的相似程度。发明人获得了12个DCIS组织样品，使用处理的实际样品的常规苏木精的曙红染色以及冰冻切片证实了它们的组织病理状态(图2a和b)。
然后产生了DCIS样品的表达谱并与它们的扩散性副本进行比较。使用CIS作为起始数据组，发明人发现在各种扩散性癌症样品中DCIS样品分成不同类型。具体是，5个DCIS样品分为腔亚型，4个分为ER/ERBB2+亚型，2个分为ER+/ERBB2+亚型，和1个分成“正常乳腺样”亚型。重要的是，在每个亚型内，发现每个DICS癌症强烈表达其特定分子类型的特征表达标记。有趣的是，发现没有DCIS样品聚类于基底或ER+亚型II分子亚型，这与以前提出的这些亚型可以没有(或具有及其短暂的)DCIS成分而发展的理论一致(Barnes et al.，1992)。这些结果提示甚至在乳腺癌肿瘤发生的DCIS阶段存在不同乳腺癌分子亚型，支持该亚型代表确实不同的生物学实体的假说，可能通过不同肿瘤发生途径产生(“不同来源”假说)。
与正常/DCIS/扩散性癌症转变相关的基因暗示乳腺肿瘤发生中普通早期事件的Wnt信号错调以及腔A和ERBB2+癌症显示出类似的扩散程序乳房肿瘤发生可以广泛分为两个主要步骤第一，正常乳腺上皮组织通过各种细胞途径的一致去调节转变成恶性状态(Hahn and Weinberg，2002)。第二，为了进展为扩散性癌症，也可以进一步执行各种不同的生物学分步，包括周围基膜的渗透，癌症扩散到邻近正常基质，和肿瘤营养和维持的内皮血管的血管发生募集(Hanahan and Weinberg，2000)。给定乳腺癌的分子学异质性，本领域中一个重要的问题是控制这两个关键步骤的基因程序是亚型特异性或所有乳腺癌亚型共同享有的程度。
为了鉴定正常乳腺组织、DCIS癌症和它们的扩散性对应体之间表达水平明显不同的基因，发明人使用微阵列的显著性分析(SAM)-一种以前报道(Tusher et al.，2001)中用于鉴定显著调节的基因的强效统计学方法。他们集中于研究腔和ERBB2+癌症，因为研究中的多数DCIS样品属于这两个分子亚型。首先，他们检验和证实了假说-DCIS癌症，尽管表达很多扩散性癌症的特征，但转录仍与扩散性癌症不同。发明人将5个腔DCIS癌症与5个腔扩散性癌症相比，并使用2倍切断标准和5％假发现率(FDR)确定存在有222个显著调节的基因。相比之下，在这些严格条件下，仅比较已随机分入2组的扩散性腔A癌症的对照分析不能鉴定任何显著调节的基因。对DCIS和属于ERBB2+亚型的扩散性癌症也获得了类似结果(未显示数据)，表明DCIS和属于腔A和ERBB2+亚型的扩散性癌症之间存在明显的转录差异。
然后SAM用于鉴定腔A和ERBB2分子亚型的正常/DCIS和DCIS/扩散性转变过程中显著调节的基因(FDR＝5％)。图8a总结了结果。总之，对于腔A亚型，在正常/DCIS转变过程中与上调的相比，更大量基因显著下调(705个基因下调对245个基因上调)，而对于DCIS/扩散性转变，与降低的相比，更多基因表达明显增加(56个基因降低对277个基因增加)。类似地，对于ERBB2亚型，在正常/DCIS转变过程中，367个基因显著下调和275个基因上调，而从DCIS向扩散性癌症转变过程中，113个基因下调和294个基因上调。
下面提供了如何确定表4，5，6和7的基因组的概要。
可区分正常对肿瘤乳腺样品的“遗传鉴定者”方法数据库95个乳腺组织样品(11个正常和84个肿瘤)步骤1通过中值集中5000荧光单位周围的每个表达谱使每个样品的数据标准化(基因芯片技术测定以荧光单位从0至65535表示的每个基因的表达丰度)。
步骤2应用强度过滤，使得仅保留具有强度值在200至100000范围的基因。
步骤3应用“有效值”过滤，使得保留选择正常或肿瘤或二者中至少70％存在(即超过最小阈值，通常大约200)的基因。
步骤4实施统计学T检验来选择在正常对肿瘤中以p＜0.00001的置信水平差异表达的基因。这使得选择了507个基因。
步骤5在507个基因中，应用高倍数改变过滤来选择在正常和肿瘤样品之间的表达显示出大差异(2.5倍和以上)的基因。这使得分别鉴定了49个基因(肿瘤中上调)和81个基因(正常中上调)。这些基因列在表4a。
步骤6为了以其能将未知乳腺样品分为肿瘤或正常组的重要性顺序对基因进行分级，使用支持载体机械基因分级法对130(49和81)个基因进行分级。实施之而得到可准确预测正常与肿瘤的一小亚组基因。前32个基因得到接近1％的错分。表4b给出了结果。
步骤7检测32个基因套组预测正常对肿瘤样品分类的准确度，使用剩一交叉证实(leave-one-out cross-validation)(LVO CV)检验。没有观察到错分。
支持载体机械(SVM)基因分级法这个方法用于根据能将未知样品分配到特定组的重要性，将数据组中的基因进行分级。典型地，数据组中的样品被分成(75％)训练和(25％)测试组。计算训练组的分隔两类型(如ER+对ER-)的最大边界超平面。
假定组中存在“m”基因，最大边界超平面的公式是H＝W1×G1+W2×G2+.......+Wi×Gi++Wm×Gm其中Wi是重量和Gi是指变量(基因)。
使用对应于各种前“N”重量(重量是在基因分类中的重要性的标志)的基因，预测了测试组中所有样品类型。为变化的前N基因的组建立预测规律。上面步骤重复100次，平均基因级别和错分比例。
可预测乳腺肿瘤样品的雌激素受体状态和ERBB2受体状态的“遗传鉴定者”方法数据组55个扩散性乳腺肿瘤样品。基于IHC(免疫组织化学)，将各个肿瘤分配到下列组中a)雌激素受体(ER)状态35个ER阳性和20个ER阴性样品b)c-erbB-2(ERBB2)状态21个ERBB2阳性和34个ERBB2阴性样品。
步骤1基因选择以鉴定在a)ER+对ER-肿瘤，和b)ERBB2+对ERBB2-样品之间差异表达的基因。使用三个独立的基因选择技术。
微阵列的显著性分析(SAM)-一种使用表达数据随机排列来估计“假发现率”，即特定基因被错认为差异表达的机会的统计学技术(Tusher et al.，2001)。接着用它们的“相对差异”对基因进行分级，类似于上面步骤6使用的分级。选择前100个显著性基因。
·噪声信号(S2N)策略用于基于与类型区分(ER+/ER-或ERBB2+/ERBB2-)的相关性对基因进行分级(Golub et al.，1999)。选择前100个基因。
·支持载体机械(SVM)分级策略用于根据将乳腺肿瘤样品分配为正确类别的重要性对基因进行分级(见下)。选择最佳基因套组(具最高准确率)。
步骤2共同基因套组(CGS)集合来自3个独立分析的基因，选择用全部三个方法选择的共同基因。因此这些基因不依赖方法并足够强效以用作“遗传鉴定者”来预测乳腺肿瘤样品的ER或ERBB2状态。
结果对于ER分类，CGS含有25个独体基因(18个上调，7个下调)。
对于ERBB2分类，CGS含有26个独特基因(19个上调，7个下调)。
表5列出了属于每个CGS的基因。最后，使用LVO CV检验来估计每个CGS对于肿瘤分类的准确度。使用的分类算法是支持载体机械(SVM)。平均交叉验证错误率＝对ER分类是7.286％(总体准确度92％)，和对ERBB2分类是6.26％(总准确度是93％)。
可预测乳腺肿瘤样品的分子亚型的“遗传鉴定者”方法数据组使用Affmetrix U133A基因芯片产生属于各种亚型的肿瘤的表达谱。上面描述了每个亚型特征性的特征表达标记。
a)腔(19)b)ERBB2(19)c)基底(7)d)ER阴性类型2(5)e)正常或正常样(12)A.使用一对全支持载体机械方法鉴定分类的最小基因组步骤1通过中值集中1000荧光单位周围的每个表达谱使每个样品的数据标准化(基因芯片技术测定以荧光单位从0至65535表示的每个基因的表达丰度)。
步骤2应用“有效值”过滤，使得选择所有样品中至少70％存在(即超过最小阈值，通常大约200)的基因。
步骤3忽略上面提及组中的一个并组合剩余四组来产生五个不同的数据组(即“一对全”)。
步骤4对于5个数据组的每一个，选择在组间显示出最小2倍改变的基因(均数比率用于计算两组间倍数改变)。
结果如下
步骤5对五个数据组的每一个实施支持载体机械基因分级分析来对基因进行分级，以将未知乳腺样品分配至适当类型(如ER或ERBB2状态，见上)的重要性为顺序。
对于数据组1，3，4和5，选择得到3％错分率的一个基因套组。在数据组2(ERBB2对剩余)的情况下，使用所有46个基因得到最小9.7的错误率。因此，所有46个用于预测组。表6显示了预测组。
步骤6样品全部组合为一个数据组并使用各种预测组实施一对全验证分析。使用7525(训练测试)随机分开的100个独立重复，产生了5.25％的总体交叉验证错误率(总体准确率94％)。
B.使用遗传算法/最大可能判别式(GA/MLHD)方法鉴定分类的最小基因套组GA/MLHD方法是用作A中所述OVA SAM的另一种不同的分类算法(Ooi和Tan，2003)。
步骤1样品分为下列类型
接着通过选择在所有样品中显示出最大标准差(SD)的基因建立1000个基因的截短数据组。
步骤2基于表4描述的类型区分，对62个乳腺癌样品实施24次GA/MLHD算法。用交叉验证和独立检验研究来估计GA/MLHD算法所选择的预测组的准确度。
GA/MLHD详细特性(a)交叉率0.7，0.8，0.9，1.0(b)突变率0.0005，0.001，0.002，0.0025，0.005，0.01(c)一致的交叉(d)选择随机的抽样(e)预测组大小范围Rmin＝1和Rmax＝80。
获得了各自大小范围从13至17个基因的30个最佳预测组。每个预测组伴有62个样品中1个错误的分类准确度。(错误率1.61％，总体分类准确度98％)。30个预测组中有10个错误地将腔A样品980221T分为正常样品。对于其它20个预测组，19个错将ERBB2+样品990262T分为ER-亚型II样品，而1个预测组错误将相同的990262T样品分为基底型样品。最佳预测组中的两个显示于表6b。
亚洲乳腺癌人群中腔D亚类的鉴定原来对白种人群实施的乳腺癌表达谱研究揭示存在高表达的雌激素受体相关基因如ESR1、GATA3和LIV-1为特征的“腔”亚型。此外，这些“腔”癌症可以进一步细分为至少另外两个亚型腔A和腔B/C。而腔A肿瘤表达很高水平的ER相关基因，腔B/C癌症表达中等水平的ER基因簇。此外，腔C肿瘤也表达高水平的“新”基因簇。发现腔B/C肿瘤显示出比腔A肿瘤更坏的临床预后，证明这些亚型实际上有临床相关性。
在新加坡实施的对中国患者的乳腺癌的类似研究证实了腔A亚型也存在于亚洲患者群体。然而，没有检测到腔B/C亚型。这个差异的原因可能是两个研究之间的方法学差异或患者人群之间的真实差异。
发明人对原始的白种人研究的仔细检查揭示了腔C肿瘤也伴发高水平的基因簇，该基因簇的成员涉及细胞增殖。相比之下，这个“增殖簇”在腔A肿瘤中表达很低。“增殖簇”中的高表达基因可能在功能上导致与腔C肿瘤相关的更差临床预后，因为在属于临床扩散性ERBB2+和基底(ER-)亚型的肿瘤中也见到了这个簇的高表达水平。因此，尽管在亚洲乳腺癌人群中没有观察到腔B/C亚型，发明人假定这个“增殖”簇中的基因也可以用于将以前亚洲人群中发现的同源的腔A肿瘤细分为不同的腔亚型。
结果在Affymetrix U133A基因芯片上鉴定“增殖簇”连接的基因在发明人的研究中，使用市场上买得到的Affymetrix U133A基因芯片获得几种乳腺肿瘤的表达谱。接着从该基因芯片中选择对应于原始“增殖”簇成员的基因。在包括原始“增殖簇”的65个基因中，发明人确定了36个(55％)也存在于基因芯片阵列中。
亚洲腔肿瘤人群的“腔D”亚型的发现发明人接着使用这个36个基因的套组对在他们以前分析中已经被同源分为腔A亚型的一组肿瘤进行重新聚类。如图1所见，36个基因组显著将肿瘤分成特征分别为36个基因组分别低和高水平表达的两个大组。前组自此以后称作真实“腔A”亚型，而后组称作“腔D”，因为其表达谱不同于以前鉴定的亚型。
在其它扩散性肿瘤亚型中也观察到36个基因的套组的高水平表达为了确定腔D肿瘤是否也比腔A肿瘤更具临床扩散性，发明人接着通过使用仅36个基因的“增殖簇”对他们的一大组肿瘤进行重新聚类，确定了在扩散性肿瘤亚型中是否也观察到这个簇的高水平表达。如图2所见，腔D肿瘤与ERBB2+和基底亚型肿瘤混杂，而腔A肿瘤与正常和“正常样”肿瘤混杂。这个结果提示腔D肿瘤可能含有更高扩散性肿瘤的某些特征，和腔D亚型可能有临床相关性。
腔D亚型的“遗传鉴定者”发明人接着进行开发腔D亚型的“遗传鉴定者”。在这个策略中，“遗传鉴定者”应该仅应用于已表征为腔性质的肿瘤，例如通过表5和6中所示的其它“遗传鉴定者”。
步骤1通过中值集中1000个荧光单位周围的每个代表品使已表征为腔A的19个肿瘤的一系列表达谱标准化。
步骤2应用“有效值”过滤，使得选择所有样品中至少70％存在(即超过最小阈值，通常大约200)的基因。
步骤3为了以更强效方式分开样品，接着使用36增殖基因套组，用主要成分分析(PCA)确定腔A和腔D亚组(图3)。
步骤4使用腔A(12个样品)对腔D(17个样品)分组，从在两组间显示最小2倍改变的完整表达谱中选择基因(均数比例用于计算两组之间的倍数改变)。在这个分析中鉴定了111个这样的基因。
步骤5接着对111个基因数据组实施SVM基因分级分析，以将腔乳腺癌样品分为腔A或腔D亚型的重要性的顺序对基因进行分级。前45个基因得到最小的错误率(大约12％)。腔D中18个基因被上调和在腔D中27个被下调。表7中描述了这些基因。
步骤6接着使用剩一交叉验证来估计45个基因的遗传鉴定者的准确度。没有观察到错分类。
讨论后基因组时代的一个突出挑战是将各种基因组测序计划产生的巨大量粗序列数据转化为改善健康护理和疾病治疗的应用。可被这些新来源的可利用性革新化的一个领域是分子诊断学领域，其中组织的病理分类，补充了常规组织病理学，也基于一组信息性分子标记。重要的是，该分子方法的一个优点是基于分子数据的分类方案可敏感到足以检测当前常规光学显微镜方法不能判断的临床上相关疾病亚型(Ash et al.，2000，Bittner et al.，2000)。
然而，在可充分认识分子诊断学潜力之前，应该遇到和克服很多困难。首先，对于很多普通疾病，应该鉴定能够区分相关疾病亚型的关键的信息性基因。其次，为了利用作为临床检测的一部分的可行性，这些基因应该“削减”降至综合起来仍传递高预测准确度的最小组(“遗传鉴定者”)。第三，因为很多疾病的临床表现在不同人种组和人群中可以广泛变化，所以需要定义对于具体患者人群使用这些“遗传鉴定者”的适当限制。
为了探究这些问题，发明人从事了对来自亚洲患者的乳腺组织的大规模表达谱方案。以前的报道主要集中于使用来自主要是白种人来源的患者的样品(Perou et al.，2000，Gruvberger et al.，2000，Hedenfalk et al.，2000)，确定从这些研究获得的发现是否可应用于其它人种群体很重要。由于这些不同人种组之间乳腺癌的流行病学和临床差异，情况尤其是这样。在白种人群体中，多数乳腺癌倾向于在绝经后妇女中发生。然而，在新加坡和日本，每年乳腺癌病例的绝对数量粗略是美国癌症的1/3，和这些人群中的乳腺癌发生率是双形式-第一峰，表示大多数乳腺癌发生于在40岁左右的绝经前妇女(Chia et al.，2000)。这第一个峰接着跟随在大约55-60岁的第二个峰。亚洲人群乳腺癌的较早发生率不可能是由于检测早，因为在这些国家的乳腺癌筛选程序与西方国家相比仍比较新颖。为了解释这些观察结果，一种可能性是这些组中观察到的乳腺癌可能代表由特殊基因和环境差异产生的不同异源亚型。例如，已知中国妇女的雌激素和孕激素水平倾向于基本上低于白种人(Lippman，1998)。
为了确保发明人分析中使用的表达谱的样本的最大多样性，发明人选择了从广泛人口学和临床背景的患者得到的样品，以及各种级别和外观的肿瘤。首先，发明人对什么可能是临床实用的最基本区别-即区别给定样品是“正常”或“恶性”鉴定了乳腺癌中的“遗传鉴定者”。尽管当前可以使用常规组织病理学由有资格的病理学家作出这个区别，但是这种分子检测仍在临床设置中有用，当需要快速诊断，或当病理学家可能不容易得到时有用。由集中于正常和肿瘤数据组中的高度可重复的“异常值”基因，发明人鉴定了明显能够准确预测相当样品量的训练组和未经实验组的未知乳腺样品是正常或恶性的20个基因的最小组。此外，使用主要成分分析，它们能够表明正常乳腺样品的表达谱是否看来比它们相应的肿瘤谱的变化少得多。在乳腺癌研究领域，使用DNA微阵列方法提供的相对无偏差方式直接探究区分正常和肿瘤组织的问题的文献的报道惊人地相对很少。在一个主要研究中，发现正常乳腺组织的表达谱足以相似使得使用无监测聚类方法可将它们共同区分(Perouet al.，2000)。然而，在那个报道中，发明人也发现了正常样品未分为不同于肿瘤样品的独立分支，反而分在“基底”或“肌上皮”的乳房上皮来源的广泛肿瘤类型。这个结果，最可能是由于在正常组织和这个亚类的肿瘤中表达基因的相似性，说明使用纯粹无监测方法来区分正常和肿瘤乳腺组织可能并非不重要。然而，尽管这看来是乳腺癌基因组学的一个问题，但是它不能应用于其它组织类型。例如，无监测聚类似乎能够区分正常和恶性结肠样品(Alon et al.，1999)。对此的一个原因可能是主要由APC/β-连环蛋白途径破坏产生的结肠肿瘤可能比乳腺肿瘤在遗传上更一致。
包括在20个基因的“遗传鉴定者”的基因属于很多不同的类型。如载脂蛋白D的基因是熟知的乳腺生物学中的终末分化基因，而MAGED2以前分离为在原始乳腺肿瘤中过度表达的基因，而不是在正常乳房组织或乳腺癌细胞系中(Kurt et al.，2000)。产生α-3/β-1整合蛋白的α-3亚基的另一个基因-ITA3已经表明与乳房肿瘤转移相关(Moriniet al.，2000)。以前也已经鉴定了将整合蛋白信号与Ras/ERK途径联系起来的CAV1蛋白是潜在的肿瘤抑制基因(Wary et al.，1998，Weichen et al.，2001)，它可能解释其在正常乳腺组织而不是肿瘤中的表达。除了在乳腺和肿瘤生物学中作用已知的基因外，鉴定了在肿瘤发生中的作用不清楚和未知的其它吸引人的基因。例如，近来已经表明在凝血级联中熟知其作用的凝血酶抑制肿瘤细胞生长，它可能解释其在正常而不是肿瘤乳腺样品中的表达(Huang et al.，2000)。另一个实例是啤酒糖酵母(S.cerevisiae)PWP2基因的人类似物，它在酵母细胞生长和分裂中起着主要作用(Shafaatian et al.，1996)。
为了获得亚洲人群中乳腺癌分子亚型的多样性的知识，发明人接着产生并分析了一系列扩散性乳腺癌和DCIS癌症的表达谱。这项工作的目的是使用另一个乳腺癌表达数据组试图验证斯坦福研究定义的分子亚型分型方案。通过将它们的表达谱与以前发表的使用主要是白种人来源的患者样品实施的研究进行比较，他们发现多数分子亚型和特征表达标记在两系列之间强效保守。尽管近来对前列腺癌也报道了类似的验证研究(Rhodes et al.，2002)，但是这个报道是首次对乳腺癌实施例了这种对比性分析。当认为研究之间存在很多方法学差异时，两个人群之间分子亚型的保守性是所有中更值得注意的。例如，一个重要的发现是发明人检测两个系列中类似亚型的能力，尽管阵列技术平台有差异。这个结果很重要，因为关于综合来自不同基因组表达技术的数据的可能性领域当前有冲突的数据。例如，Rhodes et al.，(2002)中，报道了来自斑点cDNA阵列的前列腺癌表达数据产生了与寡核苷酸阵列类似的数据。
相比之下，最近的另一个报道斑点和寡核苷酸阵列测定的细胞系表达谱的比较，其中报道了研究之间很低的相关性(Kuo et al.，2002)。发明人的结果提示来自不同技术平台的数据实际上可以比较，只要分析的亚型区分本质上相当强效。发明人的结果也提示尽管亚洲和白种人群之间乳腺癌有流行病学差异(见讨论部分的开头)，但是人种组之间的乳腺癌具有第一接近的高度分子类似。
发明人也发现DCIS癌症强烈表达很多亚型特异性基因表达标记，提示甚至可在扩散前阶段辨别这些分子亚型。因此，这些亚型不太可能代表进化癌症类型，而可能是具有不同肿瘤发生来源的不同生物学实体。尽管在DCIS癌中有亚型特异性表达标记的表达(如本研究报道)，但是本领域有其它证据表明DCIS癌症可能不同于扩散性癌症。例如，以前的回顾性报道已经表明多数低核级别的DCIS肿瘤经历了长期临床进化至扩散性癌症(Page et al.，1982；Betsill et al.，1978；和Rosen et al.，1980)，提示在它们变为扩散性之前，应该发生另外的遗传事件。此外，组织病理学研究已发现DCIS癌症对扩散性癌症的肿瘤类型的组织病理分布中有重要差异，ERBB2+癌症出现于DCIS比扩散性病例多得多(Barnes et al.，1992)。然而，尚不清楚这个观察结果应该解释为是指ER-ERBB2-癌症缺乏DCIS成分，还是ERBB2+癌症将最终进化为ERBB2-状态。发明人系列中DCIS癌症的区别分开提示前者是真实的，因为ERBB2+癌症已经表达很多ERBB2+扩散性特征。
最后，通过综合正常、DCIS和属于腔A和ERBB2+亚型的扩散性癌症的表达谱，发明人能够定义在正常、DCIS和扩散性癌症转变过程中以共同和亚型特异性模式调节的基因套组。尽管在作出任何确定的结论前需要更多实验工作来支持这些分析的结果，但是有很多吸引人的观察结果。发明人发现对于两个亚型，在正常向DCIS的转变过程中，Wnt信号途径的很多成分被普遍调节，暗示Wnt信号的去调节是乳腺癌形成中的重要共同事件。尽管以前的报道已经报道了Wnt途径参与人乳腺癌形成(Smalley et al.，2001)，但是这是早期或晚期事件仍不够清楚。发明人的结果提示前种可能性更可能。其次，两个亚型之间从DCIS至扩散性阶段被调节基因的显著共同特性提示细胞扩散、促结缔组织增生的反映、基质重建等的很多遗传过程可能很平常并且在不同乳腺癌亚型都具有。最后，发明人的结果也提示两个癌症亚型在代谢上可能非常不同，ERBB2+肿瘤更依赖离子相关过程，而腔A肿瘤可能处于慢性代谢压力状态下。这些结果极其重要，例如，腔A肿瘤的代谢负荷增加可能解释了为什么ER+肿瘤比ER-肿瘤更具有放射敏感性(Villalobos et al.，1996)，和钙信号可能在ERBB2+受体控制的肿瘤细胞能动性中起作用(Feldner和Brandt(2002)。
参考文献Alon，U.，N.Barkai，D.A.Notterman，K.Gish，S.Ybarra，D.Mack，and A.J.Levine(1999)Broad patterns of geneexpression revealed by clustering analysis of tumour andnormal colon tissues probed by oligonucleotide arrays.Proc Natl Acad Sci 96，Ash，A.A.，M.B.Eisen，R.E.Davis，C.Ma，I.S.Lossos，A.Rosenwald，J.C.Boldrick，H.Sabet，T.Truc，Y.Xin，J.I.Powell，L.Yang，G.E.Marti，T.Moore，J.Hudson，L.Lisheng，D.B.Lewis，R.Tibshirani，G.Sherlock，W.C.Chan，T.C.Greiner，D.D.Weisenburger，J.O.Armitage，R.Warnke，R.Levy，W.Wilson，M.R.Grever，J.C.Byrd，D.Botstein，P.O.Brown，and L.M.Staudt(2000)Distincttypes of diffuse large B-cell lymphoma identified by geneexpression profiling.Nature 403，503-511Barnes，D.M.，J.Bartkova，R.S.Champlejon，W.J.Gullick，P.J.Smith，and R.R.Millis(1992)Overexpression of c-erbB2 OncoproteinWhy does this occurmore frequently in ductal carcinoma in situ than ininvasive mammary carcinoma and is this of prognosticsignificance？Eur J Cancer 28，644-648Betsill，W.L.J.，P.P.Rosen，P.H.Lieberman，and G.F.Robbins(1978)Intraductal carcinoma.Long-term follow-upafter treatment by biopsy alone.JAMA 239，1863-1867Bittner，M.，P.Meltzer，Y.Chen，Y.Jiang，E.Seftor，M.Hendeix，M.Radmacher，R.Simon，Z.Yakhini，A.Ben-Dor，N.Sampas，E.Dougherty，E.Wang，F.Marincola，C.Gooden，J.Lueders，A.Glatfelter，P.Pollock，J.Carpten，E.Gillanders，D.Leja，K.Dietrich，C.Beaudry，M.Berens，D.Alberts，V.Sondak，N.Hayward，and J.Trent(2000)Molecular classification of cutaneous malignant melenoma bygene expression profiling.Nature 406，536-540Chia，K.S.，A.Seow，H.P.Lee，and K.Shanmugaratnam(2000)Cancer Incidence in Singapore，1993-1997.In(Singapore Cancer Registry)DeRisi，J.L.，V.R.Iyer，and P.O.Brown(1997)Exploringthe Metabolic and Genetic Control of Gene Expression on aGenomic Scale.Science 278，680-686Eisen，M.B.，P.T.Spellman，P.O.Brown，and D.Botstein(1998)Cluster analysis and display of genome-wideexpression patterns.Proc Natl Acad Sci 95，14863-14868Feldner，J.C.and B.H.Brandt(2002)Cancer cell motility-on the road from c-erbB-2 receptor steered signaling toactin reorganization.Exp Cell Res 272，93-108Giuliano，A.E.(1998)Breast.In Current Medical Diagnosisand Treatment，37，Ed.Tierney，L.M.S.J.McPhee and M.A.Papadakis(Appleton and Lange，Stamford)666-690Golob，T.R.，D.K.Slonim，P.Tamayo，C.Huard，J.P.Gaasenbeek，H.Coller，M.L.Loh，J.R.Downling，M.A.Caligiuri，C.D.Bloomfield，and E.S.Lander(1999)Molecular Classification of CancerClass Discovery andClass Prediction by Gene Expression Monitoring.Science286，531-537
Gruvberger，S.，M.Ringner，Y.Chen，S.Panavally，L.H.Saal，A.Borg，M.Ferno，C.Peterson，and P.Meltzer(2001)Estrogen Receptor Status in Breast Cancer is Associatedwith Remarkably Distinct Gene Expression Patterns.CancerResearch 61，5979-5984Hahn，W.C.and R.A.Weinberg(2002)Rules for makinghuman tumor cells.N Engl J Med 347，1593-1603Harris，J.R.，M.Morrow，and L.Norton(1997)MalignantTumors of the Breast.In CancerPrinciples and Practice ofOncology，Ed.Devita，V.T.S.Hellman and S.A.Rosenberg(Lippincott-Raven，Philadelphia/New York).
Hanahan，D.and R.A.Weinberg(2000)The hallmarks ofCancer.Cell 100，57-70Hedenfalk，I.，D.Duggan，Y.Chen，M.Radmacher，M.Bittner，R.Simon，P.Meltzer，B.Gusterson，M.Esteller，O.P.Kallioniemi，M.Wilfond，A.Borg，and J.Trent(2001)Gene Expression Profiles in Hereditary Breast Cancer.NEJM344，539-548Huang，Y.，J.Li，and S.Karpatkin(2000)Thrombin inhibitstumour cell growth in association with up-regulation ofp21(wafl/cipl)and Caspases via a p53-independent，STAT-l-dependent pathway.J.Biol.Chem.275，6462-6488Khan，J.，J.s.Wei，M.Ringner，L.H.Saal，M.Ladanyi，F.Westermann，F.Berthold，M.Schwab，C.R.Antonescu，C.Peterson，and P.S.Meltzer(2001)Classification anddiagnostic prediction of cancers using gene expressionprofiling and artificial neural networks.Nature Med 7，673-679Kurt，R.A.，W.J.Urba，and D.D.Schoof(2000)Isolationof genes overexpressed in freshly isolated breast cancerspecimens.Breast Cancer Res.Treat.59，41-48Kuo，W.P.，T.K.Jenssen，A.J.Butte，L.O.Machado，andI.S.Kohane(2002)Analysis of measured mRNA measurementsfrom two different microarray technologies.Bioinformatics18，405-412Kuukasjarvi，T.，J.Kononen，H.Helin，K.Holli，and J.Isola(1996)Loss of estrogen receptor in recurrent breastcancer is asociated with poor response to endocrinetherapy.J.Clin.Oncol.14，2584-2589Lippman(1998)Breast Cancer.In Harrison′s Principles ofInternal Medicine，91，Ed.Fauci，A.S.E.BraunwaldK.J.IsselbacherJ.D.WilsonJ.B.MartinD.L.KasperS.L.Hauserand D.L.Longo(McGraw-Hill，New York)562-568Morini，M.，M.Mottolese，N.Ferrari，G.Ghiorzo，S.Buglioni，R.Mortarini，D.M.Noonon，P.G.Natali，and A.Albini(2000)The alpha-3 beta l integrin is associatedwith mammary carcinoma cell metastasis，invation，andgelatinase B(MMP-9)activity.Int J Cancer 87，336-342Ooi C.H.and Patrick Tan(2003).Genetic algorithms appliedto multi-class prediction for the analysis of geneexpression data.Bioinformatics.19，37-44.
Page，D.，W.Dupont，L.Rogers，and M.Landenberger(1982)Intraductal carcinoma of the breastfollow-up after biopsyonly.Cancer 49，751-758.
Parl，F.F.(2000)Estrogens，Estrogen Receptor，and BreastCancer.(IOS Press)Perou，C.M.，S.S.Jeffrey，M.van de Rijn，C.A.Rees，M.B.Eisen，D.T.Ross，A.Pergemenschikov，C.F.Williams，S.X.Zhu，J.C.F.Lee，D.Lashkari，D.Shalon，P.O.Brown，and D.Botstein(1999)Distinctive gene expressionpatterns in human mammary epithelial cells and breastcancers.Proc Natl Acad Sci 96，9212-9217Perou，C.M.，T.Sorlie，M.B.Eisen，v.d.R.M.，S.S.Jeffrey，C.A.Rees，J.R.Pollack，D.T.Ross，H.Johnsen，L.A.Akslen，O.Fluge，A.Pergamenschikov，C.Williams，S.X.Zhu，P.E.Lonning，A.L.Borresen-Dale，P.O.Brown，and D.Botstein(2000)Molecular Portraits of Human BreastTumours.Nature 406，747-752Rhodes，D.R.，T.R.Barrette，M.A.Rubin，D.Ghosh，andA.M.Chinnaiyan(2002)Meta-analysis of MicroarraysInterstudy Validation of Gene Expression Profiles RevealsPathway Dysregulation in Prostate Cancer.Cancer Research62，4427-4433Rosen，P.，D.Braun，and D.Kinne(1980)The clinicalsignificance of pre-invasive breast carcinoma.Cancer 46，919-925
Shafaatian，R.，M.A.Payton，and J.D.Reid(1996)PWP2，amember of the WD-repeat family of proteins，is an essentialSaccharomyces cerevisiae gene involved in cell separation.Mol Gen Genet.252，101-114Smalley，M.J.and T.C.Dale(2001)Wnt signaling andmammary tumorigenesis.J Mammary Gland Biol Neoplasia 6，37-52Sorlie，T.，C.M.Perou，R.Tibshirani，T.Aas，S.Geisler，H.Johnsen，T.Hastie，M.B.Eisen，M.van de Rijn，S.S.Jeffrey，T.Thorsen，H.Quist，J.C.Matese，P.O.Brown，D.Botstein，P.E.Lonning，and A.L.Borresen-Dale(2001)Gene Expression Patterns of Breast Carcinomas DistinguishTumor Subclasses with Clinical Implications.Proc.Natl.Acad.Sci.98，10879-10874Tan，P.H.，K.L.Chuah，G.Chiang，C.Y.Wong，F.Dong，and B.H.Bay(2002)Correlation of p53 and cerbB2expression and hormonal receptor status withclinicopathological parameters in ductal carcinoma in situof the breast.Oncology Reports 9，1081-1086Tavassoli，F.A.and S.J.Schnitt(1992)Pathology of theBreast.In(Elsevier)Tusher，V.G.，R.Tibshirani，and G.Chu(2001)Significance Analysis of Microarrays Applied to theIonizing Radiation Response.Proc.Natl.Acad.Sci.98，5116-5121van′t Veer，L.J.，H.Dai，M.J.van de Vijver，Y.D.He，A.A.M.Hart，M.Mao，H.L.Peterse，K.van der Kooy，M.J.Marton，A.T.Witteveen，G.J.Schreiber，R.M.Kerkhoven，C.Roberts，P.S.Linsley，R.Bernards，and S.H.Friend(2002)Gene expression profiling predictsclinical outcome of breast cancer.Nature 415，530-536Villalobos，M.，d.Becerra，M.I.Nunez，M.T.Valenzuela，E.Siles，N.Olea，V.Pedraza，and J.M.Ruiz de Almodovar(1996)Radiosensitivity of human breast cancer cell linesof different hormonal responsiveness.Modulatory effects ofoestradiaol.Int J Radiat Biol 70，161-169Wang，E.，L.D.Miller，G.A.Ohnmacht，E.T.Liu，and F.M.Marincola(2000)High-fidelity mRNA amplification forgene profiling.Nature Biotech.18，457-459Wary，K.K.，A.Mariotti，c.Zurzolo，and F.G.Giancotti(1998)A requirement for caveolin-1 and associated kinaseFyn in integrin signaling and anchorage-dependent cellgrowth.Cell 94，625-634Wiechen，K.，L.Diatchenko，A.Agoulnik，K.M.Scharff，H.Schober，K.Arlt，B.Zhumabayeva，P.D.Siebert，M.Dietel，R.Schafer，and C.Sers(2001)Caveolin-1 is down-regulatedin human ovarian carcinoma and acts as a candidate tumoursuppressor gene.Am J Pathol.159，1635-1643
表1正常和肿瘤数据组中的共同基因
表2最小乳腺癌遗传鉴定者中的基因
基因根据它们与肿瘤/正常类型区分的相关性来排序。
表3与乳腺肿瘤亚型相关的表达标记的表格。亚类包括腔A((L-A_，腔B(L-B)，腔C(L-C_，基底(Bas)，正常样(Nor)，ERBB2(ERB)。表达水平用H(高表达)，I(中等表达)和A(无表达)表示。
表4a在肿瘤中上调的49个基因和在正常中上调的81个基因的套组在肿瘤中上调的在肿瘤中上调的
表4b对正常相对肿瘤进行分类的最小基因组
表5AER和ERBB2分类的CGSER分类的基因
表5bERBB2分类基因
表6a使用OVA SVM的分子亚型预测组腔A
本申请使用了如表1、2和3中所示的下述细菌菌株、质粒和引物。
表1使用的细菌菌株
*DSMZ德意志微生物保藏中心(Deutsche Sammlung vonMikroorganismen und Zellkulturen)，Brunswick。
218469_at半胱氨酸结亚家族1，BMP拮抗剂1Hs.40098 NM_013372.1219087_atasportin(LRR 1类)Hs.10760 NM_017680.1219454_atEGF样结构域，多个6 Hs.12844 NM_015507.2219734_at假定蛋白FLJ20174 Hs.114556NM_017699.1219773_atNADPH氧化酶4 Hs.93847 NM_016931.1220149_at假定蛋白FLJ22671 Hs.193745NM_024861.1220864_s_at 细胞死亡调节蛋白GRIM19 Hs.279574NM_015965.1221434_s_at 假定蛋白DC50 Hs.324521NM_031210.1221473_x_at 肿瘤差异表达的1 Hs.272168U49188.1221541_at假定蛋白DKFZp434B044 Hs.262958AL136861.1
表6b使用GA/MLHD算法的最佳预测组
表权利要求
1.一种创建乳腺肿瘤细胞特征性的表达谱的方法，所述方法包括步骤(a)从所述乳腺肿瘤细胞和正常乳腺细胞分离表达产物；(b)将所述肿瘤和正常乳腺细胞的表达产物接触能够特异性结合选自表2的一个或多个基因的表达产物的大量结合成员；由此创建对于肿瘤细胞和正常细胞的那些基因的表达谱；(c)比较肿瘤细胞和正常细胞的表达谱；和(d)确定乳腺肿瘤细胞特征性的表达谱。
2.一种创建乳腺肿瘤细胞特征性的表达谱的方法，所述方法包括步骤(a)从乳腺肿瘤细胞分离表达产物，将所述表达产物接触能够特异并独立结合选自表2的大量基因的表达产物的大量结合成员；由此创建肿瘤细胞的第一个表达谱；(b)从正常乳腺细胞分离表达产物，将所述表达产物接触步骤(a)使用的大量结合成员，由此创建正常乳腺细胞的可比较的第二个表达谱；及(c)比较第一个和第二个表达谱来确定乳腺肿瘤细胞特征性的表达谱。
3.一种创建乳腺肿瘤细胞的核酸表达谱的方法，所述方法包括步骤(a)从第一个乳腺肿瘤细胞分离表达产物，将所述表达产物接触能够特异并独立结合选自表2的大量基因的表达产物的大量结合成员；由此创建第一个表达谱；(b)对来自至少第二个乳腺肿瘤细胞的表达产物重复步骤(a)，由此创建至少第二个表达谱；(c)比较至少第一个和第二个表达谱而创建乳腺肿瘤细胞特征性的标准核酸表达谱。
4.根据前述权利要求任一项的方法，其中结合成员能够特异并独立结合选自表2的五个或更多基因。
5.根据前述权利要求任一项的方法，其中结合成员能够特异并独立结合表2提供的每个基因。
6.根据前述权利要求任一项的方法，其中表达产物是mRNA或cDNA。
7.根据前述权利要求任一项的方法，其中结合成员是核酸探针。
8.根据权利要求1-5任一项的方法，其中表达产物是多肽。
9.根据权利要求8的方法，其中结合成员是抗体结合结构域。
10.根据前述权利要求任一项的方法，其中结合成员被标记。
11.根据权利要求1-9任一项的方法，其中表达产物被标记。
12.一种确定个体中乳腺癌的存在或风险的方法，所述方法包括(a)从怀疑具有乳腺癌或具有患乳腺癌风险的个体的乳腺组织细胞获得表达产物；(b)将所述表达产物接触能够特异并独立结合对应于表2鉴定的大量基因的表达产物的结合成员；和(c)基于所述乳腺组织细胞的表达产物与一个或多个结合成员的结合，确定所述个体中乳腺癌的存在或风险。
13.根据权利要求12的方法，其中结合成员能够结合对应于表2鉴定的至少五个基因的表达产物。
14.根据权利要求12或权利要求13的方法，其中结合成员能够结合对应于表2鉴定的每个基因的表达产物。
15.根据权利要求12-14任一项的方法，其中通过将测试的乳腺组织细胞的表达产物的结合与乳腺肿瘤细胞特征性的表达谱比较来实施对所述个体中乳腺癌存在或风险的确定。
16.根据权利要求15的方法，其中所述乳腺肿瘤细胞特征性的表达谱由根据权利要求1-11任一项的方法创建。
17.根据权利要求12-16任一项的方法，其中个体是亚洲血统。
18.一种创建乳腺肿瘤细胞特征性的核酸表达谱的方法，所述方法包括步骤(a)从所述乳腺肿瘤细胞和正常乳腺细胞分离表达产物；(b)将所述肿瘤和正常乳腺细胞的表达产物接触能够特异性结合选自表4a的大量基因的表达产物的大量结合成员；由此创建对于肿瘤细胞和正常细胞的那些基因的表达谱；(c)比较肿瘤细胞和正常细胞的表达谱；和(d)确定乳腺肿瘤细胞特征性的核酸表达谱。
19.一种创建乳腺肿瘤细胞特征性的核酸表达谱的方法，所述方法包括步骤(a)从乳腺肿瘤细胞分离表达产物；将所述表达产物接触能够特异并独立结合选自表4a的大量基因的表达产物的大量结合成员；由此创建肿瘤细胞的第一个表达谱；(b)从正常乳腺细胞分离表达产物；将所述表达产物接触步骤(a)使用的大量结合成员；由此创建正常乳腺细胞的第二个可比较的表达谱；(c)比较第一个和第二个的表达谱来确定乳腺肿瘤细胞特征性的表达谱。
20.根据权利要求18或权利要求19的方法，其中所述大量基因选自表4b。
21.根据权利要求19的方法，其中至少五个基因选自表4a。
22.根据权利要求19的方法，其中至少二十个基因选自表4a。
23.根据权利要求19的方法，其中大量基因至少包括表4b提供的那些。
24.根据权利要求18-23任一项的方法，其中表达产物是mRNA或cDNA。
25.根据权利要求18-23任一项的方法，其中结合成员是核酸探针。
26.根据权利要求18-23任一项的方法，其中表达产物是多肽。
27.根据权利要求26的方法，其中结合成员是抗体结合结构域。
28.根据权利要求18-27任一项的方法，其中结合成员被标记。
29.根据权利要求18-27任一项的方法，其中表达产物被标记。
30.一种确定个体中乳腺癌的存在或风险的方法，所述方法包括(a)从怀疑具有乳腺癌或具有患乳腺癌风险的个体的乳腺组织细胞获得表达产物；(b)将所述表达产物接触能够结合对应于表4a鉴定的大量基因的表达产物的结合成员；和(c)基于所述乳腺组织细胞的表达产物与一个或多个结合成员的结合，确定所述个体中乳腺癌的存在或风险。
31.根据权利要求30的方法，其中至少五个基因选自表4a。
32.根据权利要求30的方法，其中至少二十个基因选自表4a。
33.根据权利要求23的方法，其中大量基因至少是表4b鉴定的那些。
34.根据权利要求30-33任一项或权利要求24的方法，其中通过将测试下的乳腺组织细胞表达产物的结合与乳腺肿瘤细胞特征性的表达谱比较来实施对所述个体中乳腺癌的存在或风险的确定。
35.根据权利要求34的方法，其中所述乳腺肿瘤细胞特征性的表达谱由根据权利要求18-29任一项的方法创建。
36.根据权利要求30-35任一项的方法，其中使用通过肿瘤细胞和正常细胞的各自的表达谱来区分它们的算法计算确定乳腺癌的存在或风险。
37.一种为了确定乳腺癌存在和/或类型的特征性的标准表达谱而获得大量基因表达谱的方法，所述方法包括a)从大量乳腺肿瘤样品获得细胞；b)破坏所述细胞以暴露基因表达产物；c)将所述基因表达产物接触与选自表2的一个或多个基因的表达产物特异的大量结合成员；和d)对各所述大量乳腺肿瘤样品基于所述表达产物与所述结合成员的结合确定乳腺癌的存在和/或类型特征性的基因表达谱。
38.一种为了确定乳腺癌存在和/或类型的特征性标准表达谱而获得大量基因表达谱的方法，所述方法包括a)从大量乳腺肿瘤样品获得细胞；b)破坏所述细胞以暴露基因表达产物；c)将所述基因表达产物接触与选自表4a的一个或多个基因的表达产物特异的大量结合成员；和d)对各所述大量乳腺肿瘤样品基于所述表达产物与所述结合成员的结合确定乳腺癌的存在和/或类型特征性的基因表达谱。
39.一种为了确定乳腺癌存在和/或类型的特征性标准表达谱而获得大量基因表达谱的方法，所述方法包括a)从大量乳腺肿瘤样品获得细胞；b)破坏所述细胞以暴露基因表达产物；c)将所述基因表达产物接触与选自表4b的一个或多个基因的表达产物特异的大量结合成员；和d)对各所述大量乳腺肿瘤样品基于所述表达产物与所述结合成员的结合确定乳腺癌的存在和/或类型特征性的基因表达谱。
40.一种为了确定乳腺癌存在和/或类型的特征性标准表达谱而获得大量基因表达谱的方法，所述方法包括a)从大量乳腺肿瘤样品获得细胞；b)破坏所述细胞以暴露基因表达产物；c)将所述基因表达产物接触与选自表5的一个或多个基因的表达产物特异的大量结合成员；和d)对各所述大量乳腺肿瘤样品基于所述表达产物与所述结合成员的结合确定乳腺癌的存在和/或类型特征性的基因表达谱。
41.一种为了确定乳腺癌存在和/或类型的特征性标准表达谱而获得大量基因表达谱的方法，所述方法包括a)从大量乳腺肿瘤样品获得细胞；b)破坏所述细胞以暴露基因表达产物；c)将所述基因表达产物接触与选自表6a的一个或多个基因的表达产物特异的大量结合成员；和d)对各所述大量乳腺肿瘤样品基于所述表达产物与所述结合成员的结合确定乳腺癌的存在和/或类型特征性的基因表达谱。
42.一种为了确定乳腺癌存在和/或类型的特征性标准表达谱而获得大量基因表达谱的方法，所述方法包括a)从大量乳腺肿瘤样品获得细胞；b)破坏所述细胞以暴露基因表达产物；c)将所述基因表达产物接触与选自表7的一个或多个基因的表达产物特异的大量结合成员；和d)对各所述大量乳腺肿瘤样品基于所述表达产物与所述结合成员的结合确定乳腺癌的存在和/或类型特征性的基因表达谱。
43.一种为了确定乳腺癌存在和/或类型的特征性标准表达谱而获得大量基因表达谱的方法，所述方法包括a)从大量乳腺肿瘤样品获得细胞；b)破坏所述细胞以暴露基因表达产物；c)将所述基因表达产物接触能够特异且独立结合表6b鉴定的基因的表达产物的大量结合成员；d)对各所述大量乳腺肿瘤样品基于所述表达产物与所述结合成员的结合确定乳腺癌的存在和/或类型特征性的基因表达谱。
44.根据权利要求37-43任一项的方法，进一步包括产生含有从所述大量乳腺肿瘤样品获得的大量表达谱的数据库的步骤。
45.根据权利要求37-43任一项的方法，进一步包括确定大量表达谱之间统计学变异的步骤。
46.由根据权利要求37或权利要求45的方法产生的包含乳腺癌或乳腺癌类型的特征性表达谱的数据库。
47.根据权利要求46的数据库，其中表达谱是核酸表达谱。
48.根据权利要求46的数据库，其中表达谱是蛋白表达谱。
49.一种基于雌激素受体(ER)状态对乳腺肿瘤细胞进行分类的方法，所述方法包括(a)从乳腺肿瘤细胞获得表达产物；(b)将所述表达产物接触能够结合对应于表5a鉴定的基因的表达产物的结合成员；和(c)基于所述乳腺肿瘤细胞的表达产物与一个或多个结合成员的结合，对乳腺肿瘤进行基于ER状态的分类。
50.一种基于ERBB2状态对乳腺肿瘤细胞进行分类的方法，所述方法包括(a)从乳腺肿瘤细胞获得表达产物；(b)将所述表达产物接触能够结合对应于表5b鉴定的基因的表达产物的结合成员；和(c)基于所述乳腺肿瘤细胞的表达产物与一个或多个结合成员的结合，对乳腺肿瘤进行基于ERBB2状态的分类。
51.一种基于其分子亚型对乳腺肿瘤细胞进行分类的方法，所述方法包括(a)从乳腺肿瘤细胞获得表达产物；(b)将所述表达产物接触能够结合对应于表6a鉴定的大量基因的表达产物的结合成员；和(c)基于所述肿瘤细胞的表达产物与结合成员的结合，对肿瘤细胞进行关于分子亚型方面的分类。
52.根据权利要求51的方法，其中结合成员能够特异且独立结合表6a中鉴定的至少5个基因。
53.根据权利要求51的方法，其中结合成员能够特异且独立结合表6a中鉴定的至少二十个基因。
54.根据权利要求51的方法，其中结合成员能够特异且独立结合至少表6b中鉴定的基因。
55.根据权利要求51-54任一项的方法，其中分子亚型选自腔、ERBB2、基底、ER型II和正常/正常样的。
56.一种基于其腔亚类对乳腺肿瘤细胞进行分类的方法，所述方法包括(a)从乳腺肿瘤细胞获得表达产物；(b)将所述表达产物接触能够结合对应于表7鉴定的大量基因的表达产物的结合成员；和(c)基于所述肿瘤细胞的表达产物与结合成员的结合谱，对肿瘤细胞进行基于其腔亚类的分类。
57.根据权利要求56的方法，其中所述肿瘤细胞以前已经被根据权利要求51-55任一项的方法分为腔分子亚型。
58.根据权利要求56或权利要求57的方法，其中腔亚类是腔D或腔A。
59.包含能特异且独立结合选自表4a的大量基因的表达产物的大量结合成员的诊断工具，所述大量结合成员固定到固相支持体上。
60.包含能特异且独立结合选自表4b的大量基因的表达产物的大量结合成员的诊断工具，所述大量结合成员固定到固相支持体上。
61.包含能特异且独立结合选自表5a的大量基因的表达产物的大量结合成员的诊断工具，所述大量结合成员固定到固相支持体上。
62.包含能特异且独立结合选自表5b的大量基因的表达产物的大量结合成员的诊断工具，所述大量结合成员固定到固相支持体上。
63.包含能特异且独立结合选自表6a的大量基因的表达产物的大量结合成员的诊断工具，所述大量结合成员固定到固相支持体上。
64.包含能特异且独立结合选自表7的大量基因的表达产物的大量结合成员的诊断工具，所述大量结合成员固定到固相支持体上。
65.包含能特异且独立结合选自表6b鉴定的基因的表达产物的大量结合成员的诊断工具，所述大量结合成员固定到固相支持体上。
66.根据权利要求59-65任一项的诊断工具，其中所述结合成员是cDNA或寡核苷酸。
全文摘要
本发明提供了很多遗传鉴定者(基因套组)，它们可以用作确定患者中乳腺癌的存在或风险的诊断工具。本发明也提供了可以用于基于其分子亚型对乳腺肿瘤细胞进行分类的基因套组。每一个所鉴定的基因套组可以用于生产用于乳腺肿瘤细胞的诊断和分类的常规特异性的核酸微阵列。
文档编号G01N33/574GK1643163SQ03806304
公开日2005年7月20日申请日期2003年2月20日优先权日2002年2月20日
发明者P·谭, Y·尾, A·阿加沃尔, C·H·奥伊申请人:Ncc技术投资私人有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：P.谭;Y.尾;A.阿加沃尔;C.H.奥伊
技术所有人：NCC技术投资私人有限公司
我是此专利的发明人

上一篇：一种区别组织化生与癌变或癌前病变的方法
上一篇：用于x射线计算机断层造影的检测器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、邢老师：1.机械设计及理论 2.生物医学材料及器械 3.声发射检测技术。
2、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
3、王老师：1.机器人 2.嵌入式控制系统开发
4、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。