作为用于乳腺癌风险评估、诊断、预后和治疗的标记的chr2和chr16的遗传性变型的制作方法

文档序号:570311阅读:1695来源:国知局
专利名称:作为用于乳腺癌风险评估、诊断、预后和治疗的标记的chr2和chr16的遗传性变型的制作方法
作为用于乳腺癌风险评估、诊断、预后和治疗的标记的 chr2和chr16的遗传性变型
背景技术
迄今为止,在世界范围内,乳腺癌是女性最常见的癌症。当前全球每年的发病率超 过1,151,000个新增诊断病例(Parkin et al.,2005)。乳腺癌发病率在发达国家是最高 的,特别是在北欧种族血统的群体中,并且这种发病率还在增加。在美国,每年年龄标化发 病率为每100,000群体大约131个病例,这超过世界平均水平的三倍。在北欧国家,比率同 样高。在2006年,估计在美国将新诊断214,650个侵袭性乳腺癌病例,并且41,430个人将 死于该疾病[Jemal,et al.,(2006),CACancer J Clin,56,106-30]。对于该数字必需增加 另外的61,980个在2006年预期的乳腺导管原位癌和小叶原位癌诊断。从个人角度看,在 美国女性中,形成乳腺癌的终生可能性为13. 2% (即每八个女性中的一个在其生命期间形 成乳腺癌)。对于大多数癌症,早期检测和适当治疗是重要因素。总的来说,乳腺癌的5-年 存活率为88 %。然而,在存在有区域型侵袭性疾病或转移性疾病的个体中,存活率分别降低 到 81%禾口 26% [Jemal, et al.,(2006),CA Cancer J Clin,56,106—30]。逐渐地,重点落在鉴定处于原发性乳腺癌或复发性乳腺癌的高风险的个体。这样 的个体可以通过更密集的筛选、预防性化学疗法、激素疗法以及预防性手术——在个体处 于极高风险的情况下——进行处理。群体筛选检查计划对卫生事业形成巨大的经济负担, 而预防性疗法具有相关联的风险与生活品质影响。乳腺癌的遗传诱因乳腺癌的两种主要类型的已知风险因素是内分泌因素和遗传。对于后者,大 约12%的乳腺癌患者具有一个或多个患有乳腺癌的一级亲属[(2001),Lancet, 358, 1389-99]。公知的主要乳腺癌诱因基因BRCAl和BRCA2赋予携带者大大增加的乳腺癌风 险,终生外显率估计值的范围为40-80%。BRCAl和BRCA2突变的存在可以解释大多数具 有6个或以上乳腺癌病例的家族和大部分包含乳腺癌和卵巢癌或男性乳腺癌的家族。然 而,这样的家族的确是非常罕见的。发现BRCAl和BRCA2突变在具有较少病例的家族中或 者在特征仅在于乳腺癌病例的家族中的频率低得多。合起来,BRCAl和BRCA2的突变可以 占15-20%的家族性乳腺癌风险。在非基础群体(non-founder population)中,如果可以 检测所有常见的BRCA突变,那么预期2-3%之间的乳腺癌发生患者将包含突变[Gorski, et al.,(2005),Breast Cancer Res Treat,92,19-24 ; (2000),Br J Cancer,83,1301—8]。 该低的“发现机会”统计将BRCA突变检测的可靠应用排除在具有明显的遗传诱因的家族之 外(Anon[(2003),J Clin Oncol,21,2397-406])。已知稀少、高外显率突变在 TP53 和 PTEN 基因中发生,然而,这些一起占不超过5%的乳腺癌的总遗传风险[Easton,(1999), Breast Cancer Res, 1,14-7]。连锁研究在鉴定任何更多的普遍的赋予高乳腺癌风险的突变中已经 基本上失败[Smith, et al.,(2006),Genes Chromosomes Cancer,45,646-55]。最近的流行病学研究已经表明多数乳腺癌病例在易生病、易感染的少数群体中 出现[Antoniou, et al.,(2002),Br J Cancer,86,76-83 ;Pharoah, et al.,(2002),Nat Genet, 31, 33-6]。来自孪生研究的数据和存活的原发性乳腺癌患者的对侧乳房中癌症恒定 的高发病率的观测表明乳腺癌的大部分的未表征风险与内源性因素相关,最可能与遗传因素相关[Lichtenstein,et al.,(2000),N Engl J Med,343,78—85 ;Petoand Mack, (2000), Nat Genet,26,411-4]。支持该普遍风险的遗传因素的知识是非常有限的。使用赋予低到中 等风险并且可彼此相互作用和与激素风险因素相互作用的风险等位基因,种族隔离分析预 测乳腺癌的非特征遗传风险很可能本质上是多基因的。然而,这些研究预测通过俘获这些 低到中等风险等位基因的遗传序型分析可限定的分布的最高和最低五分之一之间的相对 危险度的差异差不多有 40 倍[Antoniou,etal.,(2002),Br J Cancer, 86, 76-83 ;Pharoah, et al. , (2002), Nat Genet,31,33-6]。预期所有乳腺癌病例的88%在易感染的50%的 群体中出现,并且12%的最高风险的群体占所有乳腺癌病例的50% [Pharoah, et al., (2002),Nat Genet, 31, 33-6 ;Pharoah, (2003),Recent Results Cancer Res,163,7-18 ; discussion 264-6]。因此,许多关注集中于鉴定这样的遗传易感染个体并且对他们发展个 性化的医疗管理策略。我们和其他人已经示出冰岛具有显著的家族性乳腺癌风险,该风险延伸到至少第 五级亲属[Amundadottir,et al.,(2004),PLoSMed, 1,e65 ;Tulinius, et al.,(2002),J Med Genet,39,457-62]。在冰岛,BRCAl突变对家族性风险的作用被认为是最小的[Arason, et al. ,(1998),J Med Genet, 35,446-9 ;Bergthorsson,et al. ,(1998),Hum Mutat,Su ppl 1,S195-7]。在 BRCA2 基因(999del5)中单一基础突变(single foundermutation)存 在的携带者频率在普通冰岛人群体中为0. 6-0. 8%,而在女性乳腺癌患者中为7. 7-8.6% [Thorlacius, et al.,(1997),Am J Hum Genet, 60,1079-84 ;Gudmundsson,et al.,(1996), Am J Hum Genet,58,749-56]。估计该单一突变占对第一到第三级亲属大约40 %的遗传 乳腺癌风险[Tulinius, et al.,(2002), J Med Genet,39,457-62]。尽管该估计高于在非 基础群体中归因于组合的所有BRCA 1和2突变的15-25%的家族性风险,但是仍有大约 60%的冰岛人家族性乳腺癌风险有待解释。检测对BRCA2999del5阴性的患者的一级亲属 保持 1. 72 倍的乳腺癌的群体风险(95% CI 1. 49-1. 96) [Tulinius, et al.,(2002),J Med Genet,39,457-62]。对促进剩余的乳腺癌的遗传风险的遗传因素的理解是非常有限的。两种基因的 变体被严格证实为低显现率乳腺癌风险基因CHEK2和ATM[Renwick,et al.,(2006),Nat Genet,38,873-5 ; (2004),Am J Hum Genet,74,1175-82]。已经涉及许多其他的基因,然 而它们对乳腺癌风险的作用在使用非常大样品组的分析中还没有被证实[BreastCancer Association, (2006),J Natl Cancer Inst,98,1382-96]。在群体中,个体之中基因的细微差异赋予遗传风险。在个体之间的基因差异最经 常是由于单核苷酸多态性(SNP),尽管其他的变异同样重要。在人类基因组中,平均每1000 个碱基对上,存在SNP。因此,包含250,000个碱基对的典型的人基因可包含250个不同的 SNP。仅少数的SNP位于外显子中,并且改变由该基因编码的蛋白质的氨基酸序列。大多数 SNP可对基因功能具有很小或没有影响,而其他SNP可改变基因编码的mRNA的转录、剪接、 翻译或稳定性。人类基因组中另外的遗传多态性由短的或长的DNA序列的插入、缺失、易位 或倒位引起。因此,赋予疾病风险的遗传多态性可直接地改变蛋白质的氨基酸序列,可增加 从基因产生的蛋白质的数量,或可减少通过该基因产生的蛋白质的数量。因为揭示了赋予常见疾病风险的遗传多态性,对这样的风险因素的遗传检测对于 临床医学变得重要。实例是载脂蛋白E检测以在痴呆患者中鉴定apoE4多态性的遗传携带者以差别诊断阿尔茨海默病,以及凝血因子V莱顿突变(Factor V Leiden)检测,以检测深 静脉血栓倾向。更重要地,在癌治疗中,肿瘤细胞中遗传性变型的诊断用于对个体患者最适 当的治疗方案的选择。在乳腺癌中,雌激素受体表达或heregulin 2型(Her2)受体酪氨酸 激酶表达的遗传变异决定是否将抗雌激素药(他莫昔芬)或抗Her2抗体(赫赛汀)并入 治疗计划。在融合编码Bcr和Abl受体酪氨酸激酶的基因的费城染色体遗传易位的慢性髓 细胞样白血病(CML)诊断中,Bcr-Abl激酶的特异性抑制剂应该被用来治疗该癌症。对于具 有这样的遗传改变的CML患者,Bcr-Abl激酶的抑制导致迅速消除肿瘤细胞和减轻白血病。当前,没有可用的普遍成功的用于预防或治疗乳腺癌的方法。当前,乳腺癌的控制 依赖于初级预防、早期诊断、适当的治疗和二级预防的结合。存在明确的临床需求将遗传 检验整合到这些控制领域的所有方面。鉴定癌症易感性基因也可 揭示关键的分子通道,该 通道可被操作(例如使用小分子量或大分子量药物)并且可导致更有效的治疗。

发明内容
本发明涉及对乳腺癌风险评估的方法。这包括在个体中确定对乳腺癌易感性增加 的方法,以及确定对乳腺癌易感性降低的方法,或在个体中诊断对癌症的保护性,这通过评 估已被发现与乳腺癌相关联的某些标记或单元型而进行,如本文进一步描述的。在第一方面,本发明涉及在人类个体中确定对乳腺癌的易感性的方法,包括确定 至少一个多态标记的至少一个等位基因在从该个体获得的核酸样品中存在或不存在,或在 源自该个体的基因型数据集中存在或不存在,其中至少一个多态标记选自在表10、表15和 表19的任一个中列出的多态标记,和与它们连锁不平衡的标记,并且其中至少一个等位基 因的存在表示该个体对乳腺癌的易感性。在一个实施方式中,该方法可涉及确定至少一个 多态标记的至少一个等位基因在从该个体获得的核酸样品中存在或不存在。在另一个实施 方式中,该方法涉及确定至少一个多态标记的至少一个等位基因在源自该个体的基因型数 据集中存在或不存在。在某些实施方式中,基因型数据集可源自特定个体,这是由于包含在 基因型数据集中的信息与特定核酸样品模板有关,其中所述核酸样品包含来自单独个体的 核酸。确定多态标记的特定易感性等位基因存在给出了该等位基因赋予的特定易感性 存在的直接指示。另一方面,确定这种易感性等位基因不存在给出了在获得基因型样品或 基因型数据集的个体中不存在该特定易感性的指示。在具有两个可能的等位基因的多态标 记的特定情况中,例如SNP或插入/缺失多态性,确定这种特定等位基因不存在暗示在个体 中存在两个拷贝的替代等位基因(除非在该个体中特定基因组区域包含缺失或复制,其中 在该个体的基因组中也可能存在仅单一拷贝或两个以上拷贝的特定基因组区域)。在第二方面,本发明涉及在人类个体中诊断对乳腺癌的易感性的方法,该方法包 括确定至少一个多态标记的至少一个等位基因在从该个体获得的核酸样品中存在或不存 在,其中至少一个多态标记选自与rs4848543LD区段、rs3803662LD区段和rsl3387042LD区 段关联的标记,其中至少一个等位基因的存在表示对乳腺癌的易感性。在一个实施方式中, 与rs4848543LD区段、rs3803662LD区段和/或rsl3387042LD区段关联的标记是与这些LD 区段的一个或多个内的至少一个标记连锁不平衡的标记。在进一步的方面,本发明涉及在人类个体中诊断对乳腺癌的易感性的方法,该方法包括确定至少一个多态标记的至少一个等位基因在从该个体获得的核酸样品中存在或 不存在,其中至少一个多态标记选自与在表10、表15和表19中列出的标记和与它们连锁不 平衡的标记。在一个特定的实施方式中,与在表10、表15和表19中列出的标记连锁不平衡 的标记是r2的值大于0. 2的那些标记。在另一个实施方式中,与在表10、表15和表19中 列出的标记连锁不平衡的标记是在白种人群体,例如HapMap CEPH群体中r2的值大于0. 2 的那些标记。在另一方面,本发明涉及鉴定用于评估对乳腺癌的易感性的标记的方法,所述方 法包括a.鉴定与具有在SEQ ID NO :4、SEQ ID NO 5和SEQ ID NO 6中列出的序列的基 因组区段内的至少一个标记连锁不平衡的至少一个多态标记;b.确定诊断患有乳腺癌或 对乳腺癌具有易感性的个体的样品的基因型状态;和c.确定对照个体的样品的基因型状 态;其中与对照样品中至少一个等位基因的频率相比,在诊断患有乳腺癌或对乳腺癌具有 易感性的个体中至少一个多态性中至少一个等位基因的频率的显著性差异表示所述至少 一个多态性可用于评估对乳腺癌的易感性。在一个实施方式中,与对照样品中至少一个等 位基因的频率相比,在诊断患有乳腺癌或对乳腺癌具有易感性的个体中至少一个多态性 中至少一个等位基因的频率增加表示所述至少一个多态性可用于评估对乳腺癌的易感性 增加。在另一个实施方式中,与对照样品中至少一个等位基因的频率相比,在诊断患 有乳 腺癌或对乳腺癌具有易感性的个体中至少一个多态性中至少一个等位基因的频率降低表 示所述至少一个多态性可用于评估对乳腺癌的易感性降低或保护免受乳腺癌。在一个实 施方式中,与具有在SEQ ID N0:4、SEQ ID NO :5和SEQ ID NO :6中列出的序列的基因组 区段内的至少一个标记连锁不平衡的至少一个多态标记选自rs4848543 (SEQ ID NO :1)、 rs3803662(SEQID NO 3)和 rsl3387042(SEQ ID NO :2)。而且,本发明涉及基因型分型从处于乳腺癌风险或诊断患有乳腺癌的人类个体获 得的核酸样品的方法,其包括确定在样品中存在或不存在至少一个多态标记的至少一个等 位基因,其中至少一个标记选自表10、表15和表19中列出的标记,和与它们连锁不平衡的 标记,并且其中存在或不存在至少一个多态标记的至少一个等位基因表示对乳腺癌的易感 性。在一个实施方式中,至少一个标记选自rs4848543(SEQ ID NO :1)、rs3803662 (SEQ ID NO 3)和rsl3387042(SEQ ID NO :2)。在另一个实施方式中,基因型分型包括通过聚合酶链 式反应(PCR),使用在所述至少一个多态标记侧翼的核苷酸引物对,扩增包含所述至少一个 多态标记的核酸的片段。在进一步的实施方式中,使用选自等位基因-特异性探针杂交、等 位基因-特异性引物延伸、等位基因-特异性扩增、核酸测序、5’-核酸外切酶消化、分子信 标检测、寡核苷酸连接试验、粒度分析和单链构像分析的方法,进行基因型分型。在一个优 选的实施方式中,该方法包括等位基因-特异性探针杂交。在另一个优选的实施方式中,该 方法包括DNA测序。在特定优选的实施方式中,该方法包括下列步骤1)将核酸拷贝与检测 寡核苷酸探针和增强子寡核苷酸探针在寡核苷酸探针与核酸特异性杂交的条件下相接触; 其中a)检测寡核苷酸探针的长度为5-100个核苷酸,并且与其核苷酸序列由SEQ ID NO :4、 SEQ ID NO :5或SEQ ID NO :6给出的核酸的第一片段特异性杂交;b)检测寡核苷酸探针在 其3’端包含可检测标记,并且在其5’端包含猝灭部分(quenching moiety) ;c)增强子寡 核苷酸的长度为5-100个核苷酸,并且与所述核苷酸序列的第二片段互补,所述第二片段 相对于寡核苷酸探针位于5’端,以便当两个寡核苷酸都与所述核酸杂交时,增强子寡核苷酸相对于检测寡核苷酸探针位于3’端;和d)在第一片段和第二片段之间存在单碱基缺口, 以便当寡核苷酸探针和增强子寡核苷酸探针都与所述核酸杂交时,在寡核苷酸之间存在单 碱基缺口 ;2)当检测探针与核酸杂交时,用内切核酸酶处理核酸,所述内切核酸酶将可检 测标记从检测探针的3'端切割,以释放游离的可检测标记;和测量游离的可检测标记,其 中存在该游离的可检测标记表明检测探针与核酸的第一片段特异性杂交,并且表明多态位 点的序列为检测探针的互补体。本发明的进一步方面涉及评估个体对乳腺癌治疗剂应答的可能性的方法,包括 确定在从该个体获得的核酸样品中存在或不存在至少一个多态标记的至少一个等位基因, 其中至少一个多态标记选自表10、表15和表19中列出的多态标记和与它们连锁不平衡的 标记,其中存在至少一个标记的至少一个等位基因表示对治疗剂的阳性应答的可能性。在 一个实施方式中,治疗剂是化学治疗剂或激素治疗剂。在一个实施方式中,激素治疗剂是选 择性雌激素受体调节剂或芳香酶抑制剂。在优选的实施方式中,选择性雌激素受体调节剂 选自他莫昔芬和雷洛昔芬。在某些 实施方式中,芳香酶抑制剂选自依西美坦、阿那曲唑和来 曲唑。在其它的实施方式中,选择性雌激素受体调节剂与芳香酶抑制剂结合施用。本发明的又一方面涉及预测诊断患有乳腺癌的个体的预后的方法,该方法包括确 定在从该个体获得的核酸样品中存在或不存在至少一个多态标记的至少一个等位基因,其 中至少一个多态标记选自表10、表15和表19中列出的多态标记,和与它们连锁不平衡的标 记,其中至少一个等位基因的存在表示在个体中乳腺癌的更差预后。原则上,个体的预后可 涉及对该疾病的任何特征进展模式,其包括但不限于继发肿瘤的形成、肿瘤的快扩散、肿瘤 的等级(0级到IV级)和肿瘤的复发。本发明也涉及监视经历乳腺癌治疗的个体的治疗进展的方法,该方法包括确定在 从该个体获得的核酸样品中存在或不存在至少一个多态标记的至少一个等位基因,其中至 少一个多态标记选自表10、表15和表19中列出的多态标记,以及与它们连锁不平衡的标 记,其中确定至少一个等位基因的存在表示该个体的治疗结果。治疗可以是外科治疗、化学 疗法治疗、放射治疗、基因疗法或免疫疗法的任一种。这些疗法的任一种可以单独使用或组 合使用。例如,可进行外科治疗,然后进行化学疗法治疗和/或放射治疗。个体的治疗结果 与在治疗结束时个体的肿瘤进行性有关。这样的结果的量度包括但不限于肿瘤的复发率或 可能性、肿瘤扩散和继发肿瘤的形成。本发明的另一方面涉及用于在人类个体中评估对乳腺癌的易感性的试剂盒,该试 剂盒包括用于在个体的基因组中选择性检测至少一个多态标记的至少一个等位基因的试 齐U,其中多态标记选自表10、表15和表19中列出的标记和与它们连锁不平衡的标记,并且 其中至少一个等位基因的存在表示对乳腺癌的易感性。在一个实施方式中,至少一个多态 标记是rs4848543(SEQ ID NO 1)、rs3803662 (SEQ IDNO :3)或rsl3387042 (SEQ ID NO :2)。 在另一个实施方式中,试剂包括至少一种相邻寡核苷酸、缓冲液和可检测标记,所述至少一 种相邻寡核苷酸与包含所述至少一个多态标记的个体基因组的区段杂交。在另一个实施方 式中,所述试剂包括至少一对寡核苷酸,其与从对象获得的基因组核酸区段的相反链杂交, 其中每个寡核苷酸引物对被设计以选择性扩增个体的包含一个多态标记的基因组片段,并 且其中片段的大小为至少30个碱基对。在进一步的实施方式中,至少一种寡核苷酸与个 体基因组完全互补。在另一个实施方式中,所述寡核苷酸的长度为大约18到大约50个核苷酸。在另一实施方式中,寡核苷酸的长度为20-30个核苷酸。在优选的实施方式中,该 试剂盒包含a.检测寡核苷酸探针,其长度为5-100个核苷酸;b.增强子寡核苷酸探针,其 长度为5-100个核苷酸;和c.内切核酸酶;其中检测寡核苷酸探针与其核苷酸序列由SEQ ID N0:4、EQ IDNO :5或SEQ ID NO :6给出的核酸的第一片段特异性杂交,和其中检测寡核 苷酸探针在其3’端包含可检测标记,并且在其5’端包含猝灭部分;其中增强子寡核苷酸 的长度为5-100个核苷酸,并且与所述核苷酸序列的第二片段互补,所述第二片段相对于 寡核苷酸探针位于5’端,以便当两个寡核苷酸都与所述核酸杂交时,增强子寡核苷酸相对 于检测寡核苷酸探针位于3’端;其中在第一片段和第二片段之间存在单碱基缺口,以便当 寡核苷酸探针和增强子寡核苷酸探针都与所述核酸杂交时,在寡核苷酸之间存在单碱基缺 口 ;和其中当检测探针与所述核酸杂交时,用内切核酸酶处理所述核酸,将可检测标记从检 测探针的3'端切割,以释放游离的可检测标记。
本发明进一步方面涉及用于确定人类个体中乳腺癌的遗传指示物的装置,包括 计算机可读存储器;和储存在所述计算机可读存储器上的程序;其中所述程序适合在处理 器上执行以针对选自表10、表15和表19中列出的标记和与它们连锁不平衡的标记的至 少一个多态标记,分析至少一个人类个体的标记和/或单元型信息,并基于所述标记或单 元型信息产生输出,其中所述输出包括作为所述人类个体的乳腺癌的遗传指示物的至少一 个标记或单元型的个体风险量度。在一个实施方式中,程序进一步包括与至少一个标记 等位基因和/或单元型相关联的乳腺癌的风险量度,其中所述风险量度基于在诊断患有 乳腺癌的多个个体中的至少一个多态标记的至少一个等位基因和/或单元型的频率和在 多个参考个体中的至少一个多态标记的至少一个等位基因和/或单元型的频率的指示物 的比较,并且其中人类个体的个体风险基于人类个体的至少一个标记等位基因和/或单 元型的携带状态与至少一个标记等位基因和/或单元型的风险量度的比较。在一个实施 方式中,至少一个多态标记选自 rs4848543(SEQ ID NO :1)、rs3803662 (SEQ ID NO :3)或 rsl3387042(SEQ ID NO 2)和与它们连锁不平衡的标记。本发明也涉及寡核苷酸探针在制备用于在人类个体中诊断和/或评估对乳腺癌 的易感性的药剂中的应用,其中所述探针与其核苷酸序列由在SEQ ID N0:4、SEQ ID NO 5或SEQ ID N0:6中列出的核酸的片段杂交,其中所述探针的长度为15-500个核苷酸。0022a本发明进一步涉及计算机可读介质,在其上储存a.至少一个多态标记的标识符; b.在诊断患有乳腺癌的多个个体中所述至少一个多态标记的至少一个等位基因的频率的 指示物;和c.在多个参考个体中所述至少一个多态标记的至少一个等位基因的频率的指 示物;其中所述至少一个多态标记选自在表10、表15和表19中列出的多态标记和与它们 连锁不平衡的多态标记。在本发明的某些实施方式中,进一步评估在该个体中至少一种单元型的频率,其 中所述单元型包含至少两种标记,并且其中至少一种单元型的存在表示对乳腺癌的易感 性。在一个实施方式中,单元型是乳腺癌的风险单元型,即该单元型赋予增加的形成乳腺癌 的风险。在一个实施方式中,该单元型选自在表7、表8、表9、表13、表14和表18中列出的 单元型。在本发明的另一实施方式中,在单元型背景上存在至少一个多态标记的至少一个 等位基因,所述单元型背景选自在表9和表13中列出的单元型限定的单元型背景。在另一个实施方式中,本发明的方法涉及进一步进行分析乳腺癌的高外显遗传因素的步骤。在 一个实施方式中,这样的高外显遗传因素是BRCA2999del5。近来的证据表明与BRCAl和 BRCA2变体相关联的风险在一些情况中由在家族中簇集的其他遗传因素或环境因素所改变 (Antoniou,A. C. , et al. Am J HumGenet 2008 Mar 18 (Epub ahead of print))。因此,在某 些实施方式中,乳腺癌的其他高外显突变——例如在BRCAl和BRCA2基因中发现的那些,其 已经被充分记载并且是本领域技术人员已知的(参见,例如http://research, nhgri. nih. gov/bic/ 上的 Breast Cancer Mutation Data Base ;也参见 Fackenthal, J. D. &01opade,
0. I. ,Nature Reviews Cancer 7 :937_48 (2007),和其中引用的参考文献)-也可以被评
估并且与本文描述的与乳腺癌相关联的变体组合。在本发明的一个实施方式中,进行评估个体雌激素受体或孕酮受体状态的进一步 步骤。在一 个这样的实施方式中,雌激素阳性状态或孕酮阳性状态与风险增加相关联,所述 风险增加与rsl3387042等位基因A和rs3803662等位基因T以及与它们关联的标记—— 例如在表15和表19中列出的标记——相关联。在另一方面,本发明涉及在先前诊断患有乳腺癌的个体中评估形成至少一个第二 原发性肿瘤的风险的方法,该方法包括确定在从该个体获得的核酸样品中存在或不存在至 少一个多态标记的至少一个等位基因,其中至少一个多态标记选自与rs4848543LD区段、 rsl3387042LD区段和rs3803662LD区段相关联的标记,其中至少一个等位基因的存在表示 形成至少一个第二原发性肿瘤的风险。在一个实施方式中,至少一个多态标记选自在表10、 表15和表19的任一个中列出的标记。在另一个实施方式中,至少一个标记与rs4848543LD 区段相关联。在一个实施方式中,至少一个多态标记选自在表10、表15、表19、表20、表21 和表22中列出的多态标记和与它们连锁不平衡的标记。在另一个实施方式中,至少一个多 态标记选自与标记rs4848543强连锁不平衡的标记,如通过r2的值大于0. 2所限定的。在 又一实施方式中,至少一个多态标记选自表7、表8和表10中列出的标记。在另一个实施方 式中,至少一个多态标记选自表10中列出的标记。在进一步的实施方式中,至少一个多态 标记与STEAP3/TSAP6基因相关联。在优选的实施方式中,标记是rs4848543。在其它的实 施方式中,进行评估至少一种单元型在个体中频率的额外步骤。在一个实施方式中,该至少 一种单元型选自表7、表8和表9中列出的单元型。在其它的实施方式中,乳腺癌的高外显 遗传因素例如BRCA2999del5也被评估。在某些实施方式中,根据本文描述的发明的乳腺癌表型可选自所有乳腺癌、多原 发性乳腺癌、早发型乳腺癌或其它医学可接受的诊断方法限定的乳腺癌。在另一个实施方 式中,总家族史(ras)是与乳腺癌相关联的表型。在如本文描述的本发明的方法、应用、试剂盒或装置的具体实施方式
中,被评估的 人类个体是女性。本文公开的可用于检测对乳腺癌易感性的标记都可以在本文描述的各种本发明 的方法、试剂盒、装置和应用中使用。因此,在某些实施方式中,可用于实践本发明的至少 一个多态标记可选自在表20、21和22中列出的多态标记和与它们连锁不平衡的标记。在 另一个实施方式中,至少一个多态标记选自表10、表15和表19中列出的标记和与它们连 锁不平衡的标记。在某些实施方式中,至少一个多态标记位于具有SEQ ID N0:4、SEQ ID NO :5和SEQ ID NO :6的任一个列出的序列的基因组片段内。在一个优选的实施方式中,在SEQ IDNO :4内的至少一个标记选自在表20中列出的标记。在另一个优选的实施方式 中,在SEQ ID NO :5内的至少一个标记选自在表21中列出的标记。在又一优选的实施方 式中,在SEQ ID NO :6内的至少一个标记选自在表22中列出的标记。在另一个实施方式 中,至少一个多态标记选自在表7、8、10、14、15、18和19中列出的标记。在另一个实施方 式中,至少一个多态标记选自与标记rs4848543(SEQ ID NO 1)、rs3803662 (SEQ ID NO: 3)或rsl3387042(SEQ ID NO 2)强连锁不平衡的标记,如通过r2的值大于0. 2所限定的。 在优选的实施方式中,至少一个多态标记选自rs4848543(SEQ ID NO 1)、rs3803662 (SEQ ID NO :3)和rsl3387042(SEQ ID NO :2)。在另一个优选的实施方式中,至少一个多态 标记是rs4848543(SEQ ID NO :1)。在另一个优选的实施方式中,至少一个多态标记是 rs3803662(SEQ ID NO :3)。在又一实施方式中,至少一个多态标记是rsl3387042 (SEQ ID NO 2)。在进一步的实施方式中,至少一个多态标记与STEAP3/TSAP6基因、L0C643714基因 和/或TNRC9基因相关联(即,连锁不平衡)。在一个这样的实施方式中,至少一个多态标 记位于STEAP3/TSAP6基因、L0C643714基因和/或TNRC9基因内。在另一个优选的实施方 式中,至少一个多态标记选自 rs4848543、rsl3387042、rs3803662、rsl2922061、rs4784227 和 rsl72719510
在本发明的某些方法、应用、试剂盒或装置中,存在至少一个等位基因或单元型表 示对乳腺癌的易感性增加。在本发明的其它方法中,存在至少一个等位基因或单元型表示 对乳腺癌的易感性降低。在一个实施方式中,对乳腺癌的易感性增加存在于单元型背景上, 所述单元型背景选自由下列组成的单元型背景(i)rs8955398等位基因2、rs4848543等位 基因1、rs6759589等位基因1、rs838066等位基因2、rs838100等位基因3、rs838086等 位基因1、rsl2711924等位基因1和rs3731603等位基因4 ; (ii)rs8955398等位基因4、 rs4848543等位基因l、rs6759589等位基因l、rs838066等位基因2、rs838100等位基因3、 rs838086 等位基因 1、rsl2711924 等位基因 1 和 rs3731603 等位基因 4 ; (iii)rs8955398 等位基因4、rs4848543等位基因l、rs6759589等位基因l、rs838066等位基因2、rs838100 等位基因3、rs838086等位基因2、rsl2711924等位基因1和rs3731603等位基因4 ; (iv) rs8955398等位基因2、rs4848543等位基因l、rs6759589等位基因l、rs838066等位基因2、 rs838100等位基因3、rs838086等位基因2、rsl2711924等位基因1和rs3731603等位基因 3 ; (v)rs8955398 等位基因 4、rs4848543 等位基因 l、rs6759589 等位基因 l、rs838066 等位 基因2、rs838100等位基因3、rs838086等位基因1、rsl2711924等位基因1和rs3731603 等位基因3 ; (vi)rs8955398等位基因2、rs4848543等位基因1、rs6759589等位基因1、 rs838066等位基因2、rs838100等位基因3、rs838086等位基因l、rsl2711924等位基因1 和rs3731603等位基因4。在另一个实施方式中,对乳腺癌的易感性增加存在于单元型背景上,所述单元型 背景选自由下列组成的单元型背景(i)rsl0191184等位基因3、rs6435957等位基因4、 rsl0171745 等位基因 3、rs6716542 等位基因 1、rs4491709 等位基因 4、rsl2621130 等位 基因 l、rs6735174 等位基因 l、rs6435959 等位基因 2、rs2372943 等位基因 3、rsl3387042 等位基因l、rsl0490444等位基因l、rsl3011060等位基因3 ; (ii)rsl0191184等位基因3、 rs6435957等位基因4、rsl0171745等位基因3、rs6716542等位基因3、rs4491709等位基 因 4、rsl2621130 等位基因 l、rs6735174 等位基因 2、rs6435959 等位基因 4、rs2372943 等位基因3、rsl3387042等位基因l、rsl0490444等位基因3、rsl3011060等位基因3 ; (iii) rsl0191184等位基因3、rs6435957等位基因2、rsl0171745等位基因3、rs6716542等位基 因3、rs4491709等位基因4、rsl2621130等位基因l、rs6735174等位基因2、rs6435959等位 基因 4、rs2372943 等位基因 3、rsl3387042 等位基因 l、rsl0490444 等位基因 3、rsl3011060 等位基因3 ; (iv)rsl0191184等位基因3、rs6435957等位基因4、rsl0171745等位基因3、 rs6716542等位基因3、rs4491709等位基因4、rsl2621130等位基因1、rs6735174等位基 因 1、rs6435959 等位基因 2、rs2372943 等位基因 3、rsl3387042 等位基因 1、rsl0490444 等位基因3、rsl3011060等位基因3 ; (v)rsl0191184等位基因3、rs6435957等位基因4、 rsl0171745 等位基因 1、rs6716542 等位基因 3、rs4491709 等位基因 2、rsl2621130 等位 基因 l、rs6735174 等位基因 l、rs6435959 等位基因 2、rs2372943 等位基因 3、rsl3387042 等位基因l、rsl0490444等位基因l、rsl3011060等位基因3 ; (vi)rsl0191184等位基因3、 rs6435957等位基因4、rsl0171745等位基因3、rs6716542等位基因3、rs4491709等位基 因 4、rsl2621130 等位基因 l、rs6735174 等位基因 2、rs6435959 等位基因 4、rs2372943 等 位基因3、rsl3387042等位基因l、rsl0490444等位基因3、rsl3011060等位基因1 ; (vii) rsl0191184等位基因3、rs6435957等位基因4、rsl0171745等位基因3、rs6716542等位基 因l、rs4491709 等位基因4、rsl2621130等位基因l、rs6735174等位基因l、rs6435959等位 基因 2、rs2372943 等位基因 3、rsl3387042 等位基因 l、rsl0490444 等位基因 l、rsl3011060 等位基因1 ; (viii)rsl0191184等位基因3、rs6435957等位基因2、rsl0171745等位基因 3、rs6716542 等位基因 l、rs4491709 等位基因 4、rsl2621130 等位基因 l、rs6735174 等位 基因 l、rs6435959 等位基因 2、rs2372943 等位基因 3、rsl3387042 等位基因 l、rsl0490444 等位基因1、rsl3011060等位基因3 ; (ix)rsl0191184等位基因3、rs6435957等位基因4、 rsl0171745 等位基因 3、rs6716542 等位基因 1、rs4491709 等位基因 4、rsl2621130 等位 基因 l、rs6735174 等位基因 l、rs6435959 等位基因 2、rs2372943 等位基因 3、rsl3387042 等位基因1、rsl0490444等位基因3、rsl3011060等位基因1 ; (x)rsl0191184等位基因3、 rs6435957等位基因2、rsl0171745等位基因3、rs6716542等位基因3、rs4491709等位基 因 4、rsl2621130 等位基因 l、rs6735174 等位基因 l、rs6435959 等位基因 2、rs2372943 等 位基因3、rsl3387042等位基因l、rsl0490444等位基因l、rsl3011060等位基因3。在优选的实施方式中,赋予乳腺癌风险增加的至少一个等位基因或单元型是 rs4848543等位基因1。在进一步的实施方式中,风险增加的特征是至少1. 2的相对危险度 或优势比,其包括至少1. 25的风险、至少1. 3的风险、至少1. 4的风险、至少1. 55的风险、 至少1. 6的风险、至少1. 7的风险和至少2. 0的风险。在本发明的某些其它实施方式中,存在至少一个等位基因或单元型表示对乳腺癌 易感性降低(风险降低)。例如,至少一个等位基因或单元型可选自在表8、9、13、14和18中 列出的并且具有小于1的相对危险度(RR)或优势比(OR)值的标记等位基因和单元型。在 一个实施方式中,表示乳腺癌易感性降低的至少一个等位基因存在于单元型背景上,所述 单元型背景选自由下列组成的单元型背景(i)rs895398等位基因2、rs4848543等位基因 2、rs6759589等位基因3、rs838066等位基因4、rs838100等位基因l、rs838086等位基因 l、rsl2711924 等位基因 3 和 rs3731603 等位基因 3 ; (ii)rs895398 等位基因 2、rs4848543 等位基因2、rs6759589等位基因3、rs838066等位基因2、rs838100等位基因l、rs838086等位基因l、rsl2711924等位基因3和rs3731603等位基因3 ; (iii)rs895398等位基因2、 rs4848543等位基因2、rs6759589等位基因l、rs838066等位基因2、rs838100等位基因3、 rs838086 等位基因 2、rsl2711924 等位基因 3 和 rs3731603 等位基因 3 ; (iv)rs895398 等 位基因2、rs4848543等位基因2、rs6759589等位基因3、rs838066等位基因4、rs838100 等位基因3、rs838086等位基因2、rsl2711924等位基因3和rs3731603等位基因3 ; (ν) rs895398等位基因2、rs4848543等位基因2、rs6759589等位基因3、rs838066等位基因2、 rs838100等位基因3、rs838086等位基因2、rsl2711924等位基因3和rs3731603等位基因 3 ; (vi)rs895398 等位基因 2、rs4848543 等位基因 2、rs6759589 等位基因 l、rs838066 等位 基因2、rs838100等位基因3、rs838086等位基因1、rsl2711924等位基因1和rs3731603 等位基因4 ; (vii)rs895398等位基因2、rs4848543等位基因2、rs6759589等位基因3、 rs838066等位基因4、rs838100等位基因3、rs838086等位基因l、rsl2711924等位基因1 和 rs3731603 等位基因 4 ; (viii)rs895398 等位基因 2、rs4848543 等位基因 2、rs6759589 等位基因l、rs838066等位基因2、rs838100等位基因3、rs838086等位基因l、rsl2711924 等位基因3和rs3731603等位基因3 ;和(ix) rs895398等位基因2、rs4848543等 位基因2、 rs6759589等位基因3、rs838066等位基因2、rs838100等位基因l、rs838086等位基因1、 rsl2711924等位基因1和rs3731603等位基因4。 在另一个实施方式中,对乳腺癌的易感性降低存在于单元型背景上,所述单元型 背景选自由下列组成的单元型背景(i)rsl0191184等位基因3、rs6435957等位基因2、 rsl0171745 等位基因 3、rs6716542 等位基因 3、rs4491709 等位基因 2、rsl2621130 等位 基因 3、rs6735174 等位基因 l、rs6435959 等位基因 2、rs2372943 等位基因 3、rsl3387042 等位基因3、rsl0490444等位基因l、rsl3011060等位基因3 ; (ii)rsl0191184等位基因3、 rs6435957等位基因4、rsl0171745等位基因3、rs6716542等位基因3、rs4491709等位基 因 4、rsl2621130 等位基因 l、rs6735174 等位基因 l、rs6435959 等位基因 4、rs2372943 等 位基因l、rsl3387042等位基因3、rsl0490444等位基因3、rsl3011060等位基因1 ; (iii) rsl0191184等位基因l、rs6435957等位基因4、rsl0171745等位基因3、rs6716542等位基 因3、rs4491709等位基因4、rsl2621130等位基因l、rs6735174等位基因l、rs6435959等位 基因 4、rs2372943 等位基因 l、rsl3387042 等位基因 3、rsl0490444 等位基因 3、rsl3011060 等位基因1 ; (iv)rsl0191184等位基因3、rs6435957等位基因2、rsl0171745等位基因3、 rs6716542等位基因3、rs4491709等位基因2、rsl2621130等位基因3、rs6735174等位基 因 1、rs6435959 等位基因 2、rs2372943 等位基因 3、rsl3387042 等位基因 3、rsl0490444 等位基因1、rsl3011060等位基因1 ; (v)rsl0191184等位基因1、rs6435957等位基因2、 rsl0171745 等位基因 1、rs6716542 等位基因 3、rs4491709 等位基因 2、rsl2621130 等位 基因 l、rs6735174 等位基因 l、rs6435959 等位基因 2、rs2372943 等位基因 3、rsl3387042 等位基因3、rsl0490444等位基因3、rsl3011060等位基因3 ; (vi)rsl0191184等位基因3、 rs6435957等位基因4、rsl0171745等位基因3、rs6716542等位基因3、rs4491709等位基 因 4、rsl2621130 等位基因 l、rs6735174 等位基因 l、rs6435959 等位基因 4、rs2372943 等 位基因l、rsl3387042等位基因3、rsl0490444等位基因3、rsl3011060等位基因3 ; (vii) rsl0191184等位基因l、rs6435957等位基因2、rsl0171745等位基因3、rs6716542等位基 因3、rs4491709等位基因4、rsl2621130等位基因l、rs6735174等位基因l、rs6435959等位基因 4、rs2372943 等位基因 l、rsl3387042 等位基因 3、rsl0490444 等位基因 3、rsl3011060 等位基因1 ; (viii)rsl0191184等位基因3、rs6435957等位基因4、rsl0171745等位基因 3、rs6716542 等位基因 3、rs4491709 等位基因 4、rsl2621130 等位基因 l、rs6735174 等位 基因 l、rs6435959 等位基因 2、rs2372943 等位基因 3、rsl3387042 等位基因 3、rsl0490444 等位基因1、rsl3011060等位基因3 ; (ix)rsl0191184等位基因3、rs6435957等位基因2、 rsl0171745 等位基因 3、rs6716542 等位基因 3、rs4491709 等位基因 2、rsl2621130 等位 基因 l、rs6735174 等位基因 l、rs6435959 等位基因 2、rs2372943 等位基因 3、rsl3387042 等位基因3、rsl0490444等位基因1、rsl3011060等位基因3 ; (x)rsl0191184等位基因1、 rs6435957等位基因2、rsl0171745等位基因3、rs6716542等位基因3、rs4491709等位基 因 2、rsl2621130 等位基因 3、rs6735174 等位基因 l、rs6435959 等位基因 2、rs2372943 等 位基因3、rsl3387042等位基因3、rsl0490444等位基因1、rsl3011060等位基因3 ; (xi) rsl0191184等位基因3、rs6435957等位基因4、rsl0171745等位基因3、rs6716542等位基 因3、rs4491709等位基因4、rsl2621130等位基因l、rs6735174等位基因l、rs6435959等位 基因 4、rs2372943 等位基因 3、rsl3387042 等位基因 3、rsl0490444 等位基因 3、rsl3011060 等位基因1。
在某些实施方式中,对易感性降低的特征为小于0. 9的风险(相对危险度或优势 比),其包括小于0. 8的风险、小于0. 7的风险、小于0. 6的风险和小于0. 5的风险。原则上,评估本文示出的与乳腺癌相关联的标记和单元型可以与分析包含来自人 类个体的基因组DNA的样品或源自人类个体的基因型数据集中不与表10、表15和表19中 列出的标记的任何一个连锁不平衡的至少一个乳腺癌风险变体的至少一个风险等位基因 存在或不存在相结合。换句话说,不与本文描述的任意风险因素相连锁的遗传风险因素可 以与本发明的风险因素相结合,以基于多个风险因素获得对个体综合风险的评估。此外, 分析本文描述的一个以上的与乳腺癌相关联的风险因素可以被结合,以便获得总的组合风 险。在一个这样的实施方式中,对个体或来自个体的样品进行rs4848543 (SEQ IDNO=I), rs3803662(SEQ ID NO 3)和 rsl3387042 (SEQ ID NO 2)的分析,并且进行综合风险分析。 在另一个实施方式中,进行对 rs3803662(SEQID NO 3)和 rsl3387042 (SEQ ID NO 2)的分 析。在一些实施方式中,本发明方法的方法、应用、试剂盒和装置进一步包括分析非遗 传信息,以进行个体的风险评估、诊断或预后。在某些实施方式中,非遗传信息可包括年龄、 性别、种族、社会经济状况、前疾病诊断、患者病史、乳腺癌家族史、生化测量和/或临床测 量。遗传风险因素和非遗传风险因素的组合风险可通过本领域技术人员已知的方法进行。在本发明的某些实施方式中,遗传区段(例如标记)之间的连锁不平衡(LD)的特 征为连锁不平衡量度的某些值。如本文进一步描述的,连锁不平衡的特征可以是LD量度r2 和|D’ I的特定数值。在一个优选的实施方式中,连锁不平衡的特征为r2的值大于0.1。在 另一个优选的实施方式中,连锁不平衡的特征为r2的值大于0. 2。对于r2,也可能为其他截 断值,其包括但不限于 0. 3,0. 4,0. 5,0. 6,0. 7,0. 8,0. 9,0. 95,0. 96,0. 97,0. 98,0. 99。在另 一个优选的实施方式中,连锁不平衡的特征为|D’ ι的值大于0.5。在另一个优选的实施方 式中,连锁不平衡的特征为|D,ι的值大于0.8。对于|D,I,也可能为其他截断值,其包括 但不限于 0. 2,0. 3,0. 4,0. 6,0. 7,0. 8,0. 9,0. 95,0. 96,0. 97,0. 98 和 0. 99。在某些实施方式中,连锁不平衡的特征为ID’ I和r2的数字截断值。在一个这样的实施方式中,连锁不平衡 的特征为|D’ ι的数字截断值大于0.8或r2的数字截断值大于0.2,或两者。在某些实施 方式中,LD在特定群体中测定。在某些这样的实施方式中,群体选自白种人、中国人、日本 人和非洲人群体。在一个实施方式中,群体是白种人CEPH群体。在本发明的方法、应用、装置或试剂盒的某些其他实施方式中,个体是特定人类血 统。在一个实施方式中,血统选自黑人非洲人血统、白种人血统和华人血统。在另一个实施 方式中,血统是黑人非洲人血统。在另一个实施方式中,血统是非洲裔美国人血统。在另一 个实施方式中,血统是欧洲人血统。在另一个实施方式中,血统是白种人血统。在某些实施 方式中,血统是经历遗传分析或基因型分型的个体自我报告的。在其他实施方式中,血统通 过遗传性测定进行确定,其包括在来自个体的核酸样品中检测至少一个多态标记的至少一 个等位基因,其中该等位基因的存在或不存在表示该个体的血统。
附图描述
通过下列本发明的优选实施方式的更具体的描述,本发明的上述和其他目的、特 征和优点将显而易见。

图1示出染色体2上的区域的基因组结构,其包括本文示出的与乳腺癌相关联 的标记r S4848543。在该区域中,也发现与r s4848543连锁不平衡的标记,该区域在本 文也被称为rs4848543LD区段。该区域的特征为大量的连锁不平衡(高LD),并且它的 边界的特征为高重组区域。在白种人CEU HapMap群体中与rs4848543连锁不平衡的标 记——如通过LD量度r2的值大于0.2所限定,跨越NCBI Build 34中染色体2上的位置 120,023,583-120,117,062 JPNCBI Build 36 中的位置 19,644,908-119,738,387bp。在这 两个序列结构(build)中,这些标记跨越的区域为93,479bp。图2示出染色体2上的区域的基因组结构,其包括标记rsl3387042。在该区域中, 也发现与rsl3387042连锁不平衡的标记,该区域在本文也被称为rsl3387042LD区段。该 区域的特征为大量的连锁不平衡(高LD),并且它的边界的特征为高重组区域。在白种人 CEUHapMap群体中与rsl3387042连锁不平衡的标记——如通过LD量度r2的值大于0. 2所 限定,跨越 NCBI Build 34 中染色体 2 上的位置 218,059,508-218,141,061,和 NCBI Build 36中的位置217,565,211-217,646,764bp。在这两个序列结构中,这些标记跨越的区域为 81,553bp。图3示出染色体16上的区域的基因组结构,其包括标记rs3803662。在该区域 中,也发现与rs3803662连锁不平衡的标记,该区域在本文也被称为rs3803662LD区段。该 区域的特征为大量的连锁不平衡(高LD),并且它的边界的特征为高重组区域。在白种人 CEUHapMap群体中与rs3803662连锁不平衡的标记——如通过LD量度r2的值大于0. 2所 限定,跨越 NCBI Build 34 中染色体 16 上的位置 52,314,403-52,413,602,和 NCBI Build 36中的位置51,093,311-51,192,501bp。在这两个序列结构中,这些标记跨越的区域为 99,190bp。
发明详述本发明的优选的实施方式的描述如下。
本发明公开了已被发现与乳腺癌相关联的多态变体和单元型。已经发现在某些多 态标记(例如,标记rs4848543、标记rsl3387042和标记rs3803662,以及与它们连锁不平 衡的标记,与rs4848543LD区段、rsl3387042LD区段和rs3803662LD区段相关联的标记,例 如表10、表15、表19、表20、表21和表22的标记,例如表10、表15和表19中列出的标记) 处的特定等位基因和包含这些等位基因的单元型与乳腺癌相关联。这些标记和单元型可用 于乳腺癌的风险控制,如本文进一步详述的。本发明进一步的应用包括用于评估这些标记 的特定等位基因存在或不存在的试剂盒。定义除非另有说明,核酸序列以5’到3’的方向从左到右书写。说明书中引用的数字范 围包括限定该范围的数字,并且包括在该限定范围内的每一个整数或任何非整数分数。除 非另有限定,本文使用的所有技术和科学术语与本发明所涉及领域的普通技术人员的共同 理解的具有相同的含义。在本文的上下文中,下列术语具有所指出的意思“多态标记”,有时称为“标记”,如本文描述的,指基因组多态位点。每个多态标记 具有至少两个序列变异,该变异的特征为在多态位点具有特定等位基因。因此,对多态标记 的遗传关联暗示与该特定多态标记的至少一个特异性等位基因具有关联。标记可以包含在 基因组中发现的任何变体类型的任何等位基因,包括单核苷酸多态性(SNP)、微卫星、插入、 缺失、复制和易位。“等位基因”指染色体上给定基因座(位置)的核苷酸序列。因此,多态标记等位 基因指染色体上标记的组成(即序列)。对于任何给定的多态标记,来自个体的基因组DNA 包含两个等位基因(例如,等位基因_特异性序列),其代表每个染色体上的标记的每个拷 贝。本文使用的核苷酸的序列密码是A = 1、C = 2、G = 3、T = 4。对于微卫星等位基因, CEPH 样品(Centre d'Etudes du Polymorphisme Humain,genomicsrepository,CEPH 样品 1347-02)被用作参考,该样品中每个微卫星的较短的等位基因被设定为0,并且其他样品 中所有其他等位基因根据该参考进行编号。因此,例如等位基因1是比CEPH样品中较短的 等位基因长lbp,等位基因2是比CEPH样品中较短的等位基因长2bp,等位基因3是比CEPH 样品中较短的等位基因长3bp,等等,并且等位基因-1是比CEPH样品中较短的等位基因短 lbp,等位基因-2是比CEPH样品中较短的等位基因短2bp,等等。如本文描述的,序歹Ij conucleotide 错读(Sequenceconucleotide ambiguity)如 IUPAC-IUB所提出。这些密码与EMBL、GenBank和PIR数据库使用的密码一致。
核苷酸位置——在该位置,在群体(自然群体或合成群体,例如合成分子文库)中 一个以上序列是可能的——被称为“多态位点”。“单核苷酸多态性”或“SNP”是当在基因组的特定位置的单核苷酸在物种的成员之 间或个体中配对染色体之间不同时存在的DNA序列变异。多数SNP多态性具有两个等位基 因。在这种情况中,每个个体对于该多态性的一个等位基因是纯合的(即个体的两个染色 体拷贝在SNP位置具有相同的核苷酸),或者该个体是杂合的(即所述个体的两个姐妹染色 体包含不同的核苷酸)。如本文报告的SNP术语引用正式的参考SNP (rs) ID鉴定标签,如由 National Center for BiotechnologicalInformation(NCBI)分配给每个独特的 SNP。如本文所述的“变体”指与参考DNA不同的DNA片段。如本文定义的“标记”或“多 态标记”是变体。与参考不同的等位基因称为“变体”等位基因。“微卫星”是在特定位点具有多个小的重复碱基的多态标记,所述小的重复碱基的 长度为2-8个核苷酸(例如CA重复),其中重复长度的数量在一般群体中具有差异。“插入/缺失”是多态性的普通形式,其包括长度一般只有几个核苷酸的小的插入 或缺失。如本文描述的“单元型”指在DNA的一条链内的基因组DNA的片段,其特征为沿 着该片段排列的等位基因的特定组合。对于二倍体生物例如人,单元型包含每一多态标记 或基因座的等位基因对的一个成员。在某些实施方式中,单元型可以包含两个或更多个等位基因、三个或更多个等位基因、四个或更多个等位基因、或者五个或更多个等位基因。 单元型在本文中在标记名称和在该单元型中的标记的等位基因的背景下进行描述,例如 “lrs4848543”或“l-rs4848543”指在单元型中的标记rs4848543的1等位基因(A等位基 因),并且其等价于“rs4848543等位基因1 ”或“rs4848543等位基因A”。而且,对于各个 标记,单元型中的等位密码是1 = A、2 = C、3 = G和4 = Τ。如本文描述的,术语“易感性”指个体(或个体组)易于形成乳腺癌或比平均个体 更不能抵抗形成乳腺癌。该术语包括增加的易感性和降低的易感性。因此,本发明的特定 多态标记和/或单元型可具有乳腺癌的易感性增加(即风险增加)的特征,如特征为相对 危险度(RR)大于1或优势比(OR)大于1。可选地,本发明的标记和/或单元型具有乳腺癌 的易感性降低(即风险降低)的特征,如特征为相对危险度或优势比小于1。在本上下文中,术语“和/或”应该理解为表明,由其连接的项目的任一个或两个 被包括在内。换言之,该术语在本文应该理解为指“一个或另一个或两个”。在连锁遗传成分(基因和/或标记)的上下文中,术语“与……相关联”指该成分 处于连锁不平衡。优选地,该术语被用来指成分处于连锁不平衡,如通过连锁不平衡量度r2 的值大于0.2所确定。如本文描述的术语“查阅表”是这样的表,其将一种形式的数据与另一形式相关 联,或者将一种或多种形式的数据关联于与该数据相关的预测结果,例如表型或性状。例 如,查阅表可以包含至少一个多态标记的等位数据和特定性状或表型例如特定的疾病诊断 之间的相关性,包含该特定等位数据的个体可能显示所述相关性,或者比没有包含该特定 等位数据的个体更可能显示所述相关性。查阅表可以是多维的,即它们可以同时包含关于 单个标记的复等位基因的信息,或者它们可以包含关于多种标记的信息,并且它们也可包 含其他的因素,例如关于疾病诊断、种族信息、生物标记、生化测量、治疗方法或药物等的详 细资料。“计算机可读介质”是信息存储介质,其可以通过计算机,使用商业上可获得的或 定制的界面进行访问。示例性的计算机可读介质包括存储器(例如RAM、ROM、闪存等)、光 存储介质(例如CD-ROM)、磁存储介质(例如计算机硬盘、软盘等)、穿孔卡、或其他的商业 上可获得的介质。信息可以在目标系统和介质之间转移、在计算机之间转移、或在计算机和 用于存储信息的存储或访问的计算机可读介质之间转移。这样的转移可以通过电,或者通 过其他的可利用的方法例如IR连接、无线连接等。“核酸样品”是从个体获得的包含核酸(DNA或RNA)的样品。在某些实施方式—— 即特异性多态标记和/或单元型的检测——中,核酸样品包含基因组DNA。这样的核酸样品 可以从包含基因组DNA的任何来源获得,所 述来源包括如血样;羊水样品;脑脊液样品;或 来自皮肤、肌肉、口腔粘膜或结膜粘膜、胎盘、胃肠道或其他器官的组织样品。术语“乳腺癌治疗剂”指可用于改善或预防与乳腺癌相关的症状的药剂。如本文描述的,术语“乳腺癌关联核酸”指已被发现与乳腺癌关联的核酸。这包括 但不限于本文描述的标记和单元型,以及与它们强连锁不平衡(LD)的标记和单元型。在一 个实施方式中,乳腺癌关联核酸指特定基因组区域,例如LD-区段,发现其通过位于该区域 内的至少一个多态标记或与该区域相关联(即连锁不平衡)的至少一个多态标记与乳腺癌 相关联。
术语“所有乳腺癌”或“所有BC”指诊断患有乳腺癌的所有个体,而不管乳腺癌的
特定亚表型。术语“中等诱因(Medium Predisposition) ”乳腺癌或“MedPre”乳腺癌指乳腺癌的 亚表型。该表型的定义要求先证者满足下列标准的至少一个1.先证者是包含3个或以上 的在3次减数分裂事件的遗传距离(3M)内的受影响亲属的乳 腺癌病例群体的一员。2.先 证者是在3M内具有亲属关系的受影响对的一员,他们中的一个当年龄在50岁或更年轻时 被诊断。3.先证者是在3M内具有亲属关系的受影响对的一员,他们中的一个被诊断患有任 何类型的第二原发性肿瘤。4.先证者已被被诊断患有任何类型的第二原发性肿瘤。在本文提供的研究中,在分析的1600个冰岛患者中,653个满足MedPre标准 (40. 8% )。如本文描述的,术语“多原发性乳腺肿瘤”或“MPBC”指除了第一乳腺癌诊断之外 至少一个原发性肿瘤被诊断,并且两个肿瘤都通过临床和组织学证实为独立的原发性肿瘤 的病例,所述至少一个原发性肿瘤与第一乳腺癌同时出现,或在第一乳腺癌之后出现,并且 在对侧或同侧乳房中发生。如本文描述的,术语“家族史分数(family history score) ”或“H1S”,基于患有 乳腺癌的先证者的患有乳腺癌的亲属的数目进行定义。对于每一先证者,每一受影响的第 一级亲属被分配分数1,每一受影响的第二级亲属被分配分数0. 5和每一受影响的第三级 亲属被分配分数0. 25。如此获得的所有受影响亲属的总和代表总家族史分数或FHS。如本文描述的,术语“rs4848543LD区段”或“rs4848543连锁不平衡区段”指 NCBI (National Center for Biotechnology Information)Build 34 的位置 119,987,002 和 120,129,001 之间和 NCBI Build 36 中的位置 119,608,327 和 120,129,001 之间的染色 体2上的基因组区域。该rs4848543LD区段的大小为141,999bp。如本文描述的,术语“STEAP3基因”或“TSAP6基因”指前列腺六跨膜上 皮抗原(STEAP3)基因,其也被称为肿瘤抑制基因活化通道6 (Tumor Suppressor Activated Pathway 6)(TSAP6)基因。该基因位于染色体2ql4. 2上,并且跨越位置 120076561-120118373(NCBI Build34)。如本文描述的,术语“rsl3387042LD区段”或“rsl3387042连锁不平衡区段”指 NCBI (National Center for Biotechnologylnformation) Build 34 的位置 218,062,001 和 218,141,002之间的染色体2上的连锁不平衡(LD)区段。该LD区段跨越79,001个碱基对 (Build 34)。如本文描述的,术语“rs3803662LD区段”或“rs3803662连锁不平衡区段”指 NCBI (National Center for Biotechnology Information) Build 34 的位置 52,291,041 和 52,436,127之间的染色体16上的连锁不平衡(LD)区段。该LD区段跨越145,086个碱基 对(Build 34)。如本文描述的,术语“Daly单元型”指在给定LD区段(高LD区域)内的二-标 记单元型,其被鉴定为在HapMap项目中分型的另外一组SNP的有效替代物(r2 > 0. 8)。在 UTAH CEPH(CEU)HapMap样品中,这些另外的SNP具有> 5%的次要等位基因频率,并且它们 既不在Hap300SNP芯片上,它们也不能通过该芯片上的SNP进行有效标记[Pe' er,et al., (2006),Nat Genet,38,663-7]。
如本文定义的,术语“雌激素受体阳性乳腺癌”或“ER阳性乳腺癌”指确定为对雌 激素受体表达阳性的乳腺癌组织的样品。例如,雌激素受体的表达可以通过放射免疫测定 法或免疫组织化学测定。彡lOfmol/mg的放射性免疫测量或彡10%阳性核的免疫组织化学 评价被考虑为阳性。如本文定义的,术语“孕酮受体阳性乳腺癌”或“PR阳性乳腺癌”指确定为对孕酮 受体表达阳性的乳腺癌组织的样品。例如,孕酮受体的表达可以通过放射免疫测定法或免 疫组织化学测定。彡lOfmol/mg的放射性免疫测量或彡10%阳性核的免疫组织化学评被考 虑为阳性。通过诊断患有乳腺癌的个体群体的关联分析,已经发现在某些多态标记处的某些 等位基因与乳腺癌相关联。对于与癌症相关联的变体的全基因组分析显示,乳腺癌与在区 段Chr2ql4和Chr2q35内的染色体2的两个不同区域以及染色体16上的区域(Chrl6ql2) 相关联。在这些区域中,发现特定标记和单元型与乳腺癌的风险增加相关联。如在表1中所示,已经发现染色体2ql4. 2上的标记rs4848543的A等位基因(也 称为rs4848543A等位基因或rs48485431等位基因或A_rs4848543)与乳腺癌的风险增加 相关联。相对于4477个无癌症群体对照中,在1598个患者中MedPre乳腺癌表型分析产生 1.42的估计相对危险度(RR)值,其ρ-值8.3xl0_8。在对检验为在该实验所用的全基因组 芯片的一部分的317,089个SNP标记修正后,ρ-值为0. 026,即在全基因组水平下,该关联 性是显著的。与更宽的所有BC表型的关联性稍微较弱,其中RR-值为1.16(参见表1)。这 些结果已经在独立的冰岛乳腺癌人群中得以重复。rs4848543标记位于本文称为rs4848543LD区段的区域内。该SNP标记和与该标 记相关的标记(例如,在表10中列出的标记),被用于本发明的方法中。由于人基因组的局 部连锁不平衡方式,存在多个与本文示出的、与癌症相关联的rs4848543强LD的多态标记。 因此,这些相关标记(例如,在表10中列出的标记)——其包括已知的SNP或其他多态标记 例如微卫星或插入/缺失,以及其他的相关SNP或其他的多态标记——可单独或组合使用, 作为检测本文描述的与乳腺癌的关联性的替代标记。特别地,预期位于rs4848543LD区段 内的其他多态标记可用作本发明方法中的替代标记。通过全基因组关联性分析,染色体2上的第二区域(2q35)已被鉴定。标记 rsl3387042的等位基因A(也称为rsl3387042A等位基因或rsl33870421等位基因或 A-rsl3387042)已被发现与乳腺癌的风险增加相关联(参见表11)。该SNP位于染色体 2q35处,其为与STEAP3/TSAP6基因座不同的位置。对2,181个患有乳腺癌(所有BC)的个 体和12,441个群体对照的分析揭示rsl3387042的A等位基因赋予1. 19的风险,ρ-值为 4. OxlO-50发现MedPre乳腺癌中的危险度(RR)与任何BC的危险度相当。也可用于检测与 rs 13387042关 联性的替代标记在表15中列出。该结果在来自冰岛人群体(583个病例和7966个对照)的第二独立样品中得以 重复,其给出在该第二组中与所有BC相关联的rsl3387042的A等位基因的RR估计为 ^ ⑴-值修丨=3.8xl0_3)。因此,在独立的冰岛人样品中,最初发现明显被重复,并且具有 非常相似的RR点估计和总P-值《2. OxlO"7,其接近对检验的317,089个SNP的Bonferroni 修正后的显著性水平。观察到的rsl3387042等位基因A变体的频率和相对危险度与在冰 岛人群体中估计的15. 6%的群体归因危险度相应。
在西班牙人和瑞典人样品中的重复研究证实这些发现。来自西班牙的446个乳 腺癌病例和977个对照样品的分析给出1.21的RR(P_值为1. SxlO—2 ;表11)。在西班牙 对照样品中A-rs 13387042变体的频率比较高,这暗示该变体在西班牙人血统的群体中 可能更盛行,并因此促进更高的乳腺癌负担。两个瑞典人群——"Sweden Familial”和 "Sweden Consecutive”被分析。"Sweden Consecutive”人群表现对乳腺癌的显著RR,其为 1.31(卩-值=2.0Χ1(Γ4),而“Sweden Familial,,人群给出1. 11的相对危险度估计值,其不 是统计学显著的。然而,总体上组合的瑞典人群返回1. 22的显著相对危险度估计值(P-值 =8. IxliT4)。在联合分析中,使用Mantel-Haenszel模型,结合对冰岛、西班牙和瑞典 人群的估 计。结果是估计的相对危险度为1. 20,P-值为3. 8X10_"。这远在使用Bonferroni方法修 正调查的317,089个SNP而得到的全基因组显著性阈值之下。因此,我们推断在数个欧洲 人血统的群体样品中,rsl3387042等位基因A对乳腺癌赋予显著性和可重复的风险。估计 总群体归因危险度为16.4%。使用来自1600个乳腺癌患者和11563个对照的数据进行进一步全基因组SNP分 析,鉴定出SNP rs3803662的T等位基因(T_rs3803662 ;rs3803662等位基因T),其对任何 BC赋予估计的1. 23倍的风险增加(表16)。该结果在第二、独立的594个冰岛乳腺癌患者 和1433个对照的人群中得以证实。当对个体之间的亲缘关系修正后,这两组冰岛样品的组 合数据给出1.23的相对危险度估计值和2. 8xl0_7的P-值。这相应于估计的10. 的群 体归因危险度(表16)。可用于检测与rs3803662关联性的替代标记在表19中列出。在上面描述的瑞典和西班牙人群中进行该发现的重复分析,以及对来自荷兰 Nijmegen的558个乳腺癌病例和1384个对照进行分析。如在表16中所示,在所有这三个 复制人群中,观察到对rs3803662等位基因T的显著增加的风险。这三个非冰岛复制人群 的组合分析揭示总相对危险度估计值为1. 35,P-值为5. 1χ10_12。冰岛和复制人群的联合分 析表明组合的相对危险度估计值为1. 28,P-值为2. 7xl0_17。当对检验的SNP数修正时,这 远在全基因组显著性的阈值之下。相应的总群体归因危险度估计值为13.4% (表16)。研究rsl3387042等位基因A和rs3803662等位基因T与雌激素受体(ER)和孕酮 受体(PR)状态之间的关联性。包括rsl3387042等位基因A和rs3803662等位基因T的显 著性乳腺癌风险被明确限定于诊断患有ER阳性肿瘤的那些患者,并且ER阳性和ER阴性肿 瘤之间的OR差异也是显著的(表25)。相似地,优选地在诊断患有PR阳性肿瘤的患者中, 存在乳腺癌风险的倾向性。STEAP3/TSAP6的生物学STEAP3/TSAP6的cDNA从鼠骨髓LTR6细胞系中p53激活诱导的一系列mRNA之 一首次分离出来,所述细胞系含有温度敏感P53基因[Amson,et al. , (1996),Proc Natl Acad Sci U S A, 93, 3953-7] 0该鼠形式被称为肿瘤抑制基因活化通道6 (TSAP6)。随后, 在LTR6细胞中,该基因被证实为激活的p53可诱导的[Passer, et al.,(2003),ProcNatl Acad Sci U S A,100,2284-9]。大鼠版本——其被命名为pHyde,在设计来检测在具有不同 转移倾向性的两种细胞系中差异表达的基因的实验期间,从前列腺癌细胞系分离[Rinaldy and Steiner, (1999),DNACell Biol,18,829-36]。pHyde cDNA 被示出在大鼠和人前列腺 细胞系以及异种移植物中诱导细胞凋亡[Rinaldy,et al.,(2000), Gan To KagakuRyoho, 27 Suppl 2,215-22 ;Steiner, et al.,(2000),Cancer Res, 60,4419-25]。pHyde 诱导细胞凋亡随后被显示通过胱天蛋白酶-3通道起作用[Zhang,et al. , (2001), Oncogene, 20, 5982-90]。STEAP3/TSAP6的下调也已经被与肝细胞癌的进展相关联[Coulouarn,et al., (2005),J Hepatol,42,860-9] Passer等分离人版本的STEAP3/TSAP6的cDNA,并表明在乳腺癌细胞系MCF7中, 通过 p53 活化,mRNA 是可诱导的[Passer,et al.,(2003),Proc Natl Acad Sci USA, 100,2284-9]。p53的诱导在转录水平出现,并且被核苷酸-478和-357 (登录号AY214461 限定的序列)之间的STEAP3/TSAP6启动子内的保守p53应答元件所介导[Passer,et al.,(2003), Proc Natl Acad Sci U S A,100,2284-9]。该蛋白质被鉴定为 488 个氨基 酸,50-55kDa,6_ 次跨膜蛋白[Passer,et al.,(2003),Proc Natl AcadSci U S A,100, 2284-9]。靶向STEAP3/TSAP6的反义RNA抑制p53_依赖性细胞凋亡,其进一步支持了 STEAP3/TSAP6作为细胞凋亡的效应物起作用的观点[Passer,et al.,(2003),Proc Natl Acad Sci U S A,100,2284-9]。STEAP3/TSAP6物理上与参与细胞周期调控和细胞凋亡的
两种蛋白-Nix 和 Mytl-相互作用[Passer,et al.,(2003),Proc NatlAcad Sci U
S A,100,2284-9]。Nix (也称为BNIP3L)是线粒体的、Bcl2_相关的凋亡前体蛋白。Nix和 STEAP3/TSAP6 加强彼此的凋亡前体效应[Passer, et al.,(2003),Proc Natl Acad Sci U S A,100,2284-9]。Mytl是双特异性(Ser/Thr和Tyr)激酶,其通过磷酸化并因而抑制细胞 周期蛋白依赖性激酶P34-2而行使在G2/M检查点阻断细胞周期的功能。Mytl和TSAP6之 间的相互作用通过将Mytl保持在其低磷酸化、活化状态促进p34etk2的Mytl-依赖性磷酸化 [Passer,et al.,(2003), Proc Natl AcadSci U S A,100,2284—9]。有些矛盾地,STEAP3/TSAP6近来被鉴定为在nml054小鼠突变株中对小红细胞、低 色性贫血负责的基因[Ohgami,et al.,(2005), Nat Genet,37,1264-9]。通过来自肠、网 状内皮系统和肝脏的转铁蛋白(Tf),将细胞外的铁运输到体内的所有增殖细胞。Tf-结合 的铁通过转铁蛋白-受体(TfRl)介导的胞吞作用进入细胞。铁通过酸化在内体内从Tf释 放,在那里之后,其通过二价金属转运蛋白Dmtl被输送到细胞质。然后,Tf和TfRl再循环 到细胞外环境。环境的铁和Tf结合的铁主要以氧化Fe3+(三价铁)状态存在,并且在它可 被跨越细胞质膜转运以前其必须被还原成Fe2+(亚铁)。通过其与贫血的相关性,STEAP3/ TSAP6被鉴定为主要的铁还原酶,其在红细胞同系细胞中进行该反应,这表示其对铁摄取具 有很大的重要性
。STEAP3/TSAP6 也行使 铜还原酶活性,并且这些金属还原酶活性被STEAP家族的其他成员STEAP2和STEAP4共享 [Ohgami,et al.,(2006),Blood,108,1388—94]。STEAP3/TSAP6也已经被示出参与刺激蛋白质经由非经典的通道分泌。经典的蛋 白质分泌通过注定分泌的蛋白质上的氨基末端信号序列介导。该信号序列指引蛋白质通过 内质网/高尔基体通道,然后在分泌小泡中转运到质膜。在分泌小泡与 质膜融合后,分泌的 蛋白质被释放到细胞间隙。蛋白质分泌也可通过非经典的通道进行,其中胞内小泡可以在 内体的腔内萌发,形成所谓的多泡结构。多泡结构与质膜融合导致这些膜-被囊小泡释放 入细胞间隙。这些小泡被称为外来体。STEAP3/TSAP6已被示出以p53依赖性方式刺激外 来体产生[Amzallag, et al.,(2004),J Biol Chem,279,46104-12 ;Yu, et al.,(2006), Cancer Res,66,4795-801]。外来体可能涉及重要的抗致癌应答。响应p53_STEAP3/TSAP6 通道刺激,在外来体中分泌的蛋白质之一是Maspin(乳腺丝氨酸蛋白醇抑制剂),其已证明在乳腺肿瘤细胞中对血管发生、肿瘤侵入和转移的抑制作用[Sheng,et al. , (1996), Proc Natl Acad Sci US A,93,11669—74 ;Shi,et al.,(2001),Cancer Res,61,6945—51 ;Zhang, etal.,(1997),Mol Med, 3,49-59 ;Zou, et al.,(1994),Science, 263,526-9]。外来体可 以包含促炎因子(例如翻译调节肿瘤蛋白(TCTP)/组胺释放因子)和肿瘤特异性抗原(例 如 Her2/Neu 禾口 Marti)[Amzallag, et al.,(2004),J Biol Chem,279,46104—12 ;Andre,et al.,(2002),Lancet, 360, 295-305]。已经表明STEAP3/TSAP6介导的内体形成可能对所谓 的“旁观者”效应负责,其中被诱导表达P53的细胞在相邻细胞中可以产生细胞周期停滞、 凋亡前体应答和死亡[Yu,et al.,(2006), Cancer Res,66,4795-801]。对于STEAP3/TSAP6的可能的遗传性变型和癌症风险之间的关系几乎全部是未 知的。在前列腺癌细胞系、异种移植物和肿瘤样品中筛选突变发现在总共4个细胞系、8 个异种移植物和56个肿瘤样品(总共68个样品)中的异种移植物中存在2个错义突变 (Alal84Thr和Ile305Thr)。作者推测STEAP3/TSAP6在前列腺癌中不是经典的肿瘤抑制基 因。据我们所知,尚无任何其他类型的癌症中没有STEAP3/TS AP6遗传性变型的研究被报 道。应用STEAP3/TSAP6通道在改善的乳腺癌疗法的开发中的潜力我们观察,STEAP3/TSAP6LD区段中的遗传性变型暗示该基因作为乳腺癌发展 过程中的共同因子。因此,靶向STEAP3/TSAP6、其同系物和STEAP3/TSAP6通道上其他 组分的疗法可以被认为是治疗或预防乳腺癌的候选。这样的靶包括STEAP3/TSAP6自 身(0MIM#609671);同系物 STEAPl (0MIM#604415)、STEAP2/TIARP/STAMP1 (0MIM#605094) 和 STEAP4 (NM_024636);相互作用蛋白 Nix/BNIP3L (0MIM#605368)、Mytl (0MIM#602474)、 TCTP/组胺释放因子(0MIM#600763);通道蛋白p34cdc2 (0MIM#116940)、细胞周期蛋白 Bl (0MIM#123836)、HER2/Neu (0MIM#164870)、Maspin (0MIM#154790);和 STEP3/TSAP6 通道 的、然而没有鉴定或涉及的其他成员。疗法可以包括STEAP3/TSAP6、其同系物或通道组分 的小分子激动剂或拮抗剂;大分子试剂如STEAP3/TSAP6、其同系物或通道组分的激动剂或 拮抗剂;或在基因疗法或免疫疗法方案中应用STEAP3/TSAP6、其同系物或通道组分作为转 基因。STEAP3/TSAP6、其同系物或通道组分和/或影响它们活性的分子通过它们“旁观者效 应”的增强,也可被开发为细胞抑制或细胞毒素疗法(化学疗法、放射治疗、基因或免疫疗 法)的佐剂。评估标记和单元型当比较个体时,人群中的基因组序列是不同的。更确切地说,基因组在个体之间、 在基因组中的多个位置显示出序列可变性。序列中的这类变异通常被称为多态性,并且在 每个基因组内具有多个这样的位点。例如,人基因组显示平均每500个碱基对发生序列变 异。最普通的序列变体由在基因组中单个碱基位置发生的碱基变异组成,并且这样的序列 变体或多态性通常被称为单核苷酸多态性(“SNP”)。这些SNP被认为在单一突变事件中 已经发生,因此通常在每个SNP位点具有两种可能的等位基因;最初的等位基因和突变的 等位基因。由于自然的遗传漂变并且可能也由于选择压力,最初的突变导致多态性,其特征 在于在任何给定的人群中其等位基因的特定频率。在人基因组中,发现许多其他类型的序 列变体,包括微卫星、插入、缺失、倒位和拷贝数变化。多态微卫星在特定位点具有多个小的 重复碱基(例如CA重复,在互补链上的TG),其中重复长度的数量在一般群体中具有差异。 一般地说,对于多态位点,所述序列的每个版本代表多态位点的特异性等位基因。所有序列 变体可被称为多态性,其在所讨论的序列变体特有的特定多态位点发生。一般地说,多态性可以包含任何数量的特异性等位基因。因此,在本发明的一个实施方式中,多态性的特征为 在任何给定的人群中存在两种或更多种等位基因。在另一实施方式中,多态性的特征为存 在三种或更多种等位基因。在其他实施方式中,多态性的特征为四种或更多种等位基因、五 种或更多种等位基因、六种或更多种等位基因、七种或更多种等位基因、九种或更多种等位 基因、或者十种或更多种等位基因。所有这些多态性可以用于本发明的方法和试剂盒,并且 因此在本发明的范围内。在有些情况下,参考在多态位点的不同等位基因,而没有选择参考等位基因。可选 地,对于特定的多态位点,参考序列可以被提及。有时,参考等位基因被称为“野生型”等位 基因,并且其通常被选作第一测序的等位基因或选作来自“未受影响”的个体(例如没有显 示性状或疾病表型的个体)的等位基因。本文涉及的SNP标记的等位基因当它们在所使用的SNP分析中出现在多态位点 时,涉及碱基A、C、G或T。本文使用的SNP的等位基因密码如下1 = A、2 = C、3 = G、4 = Τ。然而,本领域普通技术人员将认识到通过分析或阅读相反DNA链,在所有情况下,可以测 量互补的等位基因。因此,对于特征为A/G多态性的多态位点(多态标记),使用的分析可 以被设计以特异性检测两种可能的碱基——即A和 G——的一种或两种的存在。可选地,通 过设计被设计来在DNA模板上检测相反链的试验,可以测量互补碱基T和C的存在。定量 上(例如,在相对危险度方面),从任一 DNA链(+链或-链)的测量将获得相同的结果。一般地,对于特定序列,参考序列得以参照。与该参考不同的等位基因有时被称为 “变体”等位基因。如本文使用的变体序列指与参考序列不同但是基本上相似的序列。在本 文描述的多态遗传标记处的等位基因是变体。另外的变体可以包括影响多肽的改变。当与 参考核苷酸序列比较时,序列差异可以包括导致移码的单核苷酸插入或缺失、或一个以上 核苷酸插入或缺失;导致编码氨基酸改变的至少一个核苷酸的改变;导致过早终止密码子 产生的至少一个核苷酸的改变;数个核苷酸的缺失,其导致由所述核苷酸编码的一个或多 个氨基酸缺失;导致阅读框的编码序列中断的一个或数个核苷酸的插入,例如通过不等重 组或基因转变;所有或部分序列的复制;易位;或核苷酸序列的重排。这样的序列变化可改 变核酸编码的多肽。例如,如果核酸序列的改变引起移码,那么移码可以导致编码的氨基酸 改变,和/或可以导致过早终止密码子的产生,这引起产生截短的多肽。可选地,与疾病或 性状相关联的多态性可以是一个或多个核苷酸的同义改变(即不导致氨基酸序列改变的 改变)。例如,这样的多态性可以改变剪接位点、影响mRNA的稳定性或转运、或者另外影响 编码的多肽的转录或翻译。它也可改变DNA,以增加在体细胞水平下发生结构改变例如扩增 或缺失的可能性。参考核苷酸序列编码的多肽是具有特定参考氨基酸序列的“参考”多肽, 并且变体等位基因编码的多肽称为具有变体氨基酸序列的“变体”多肽。单元型指DNA片段,其特征为沿着片段排列的等位基因的特定组合。对于二倍体 生物例如人,单元型包含每个多态标记或基因座的等位基因对的一个成员。在某一实施方 式中,单元型可以包含两种或多种等位基因、三种或多种等位基因、四种或多种等位基因或 五种或多种等位基因,每个等位基因相应于沿着该片段的特定多态标记。单元型可以包含 不同的多态标记的组合,例如SNP和微卫星,其在多态位点具有特定等位基因。因此,单元 型包含在不同的遗传标记处的等位基因的组合。检测特异性的多态标记和/或单元型可以通过本领域已知的检测多态位点处序列的方法完成。例如,可以使用对SNP和/或微卫星标记的存在进行基因型分型的标准 技术,例如基于荧光的技术(Chen, X.等,Genome Res. 9(5) :492_98 (1999)),其使用PCR、 LCR、嵌套式PCR和其他用于核酸扩增的技术。可用于SNP基因型分型的具体方法包括但 不限于TaqMan基因型分型分析和SNPlex平台(Applied Biosystems)、质谱法(例如,来 自 Sequenom 的 MassARRAY 系统)、微测序方法、实时 PCR、Bio-Plex 系统(BioRad)、CEQ 禾口 SNPstream 系统(Beckman)、分子侄Ij置探针排列技术(Molecular Inversion Probe array technology)(例如 Affymetrix GeneChip)禾口珠排列技术(BeadArray Technologies)(例 如Illumina GoldenGate和Infinium分析)。通过本领域普通技术人员可用的这些或其他 方法,可以鉴定在多态标记处的一种或多种等位基因,所述多态标记包括微卫星、SNP或其 它类型的多态标记。在本文描述的某些方法中,研究中的任何特定疾病或性状(例如乳腺癌)的易感 性增加(即风险增加)的个体是这样的个体,其中在赋予该疾病或性状易感性增加的一个 或多个多态标记处的至少一个特异性等位基因或单元型被鉴定(即风险标记等位基因或 单元型)。在一个方面,风险标记或单元型是赋予乳腺癌风险(或易感性)显著增加的标 记或单元型。在一个实施方式中,与标记或单元型关联的显著性通过相对危险度(RR)测 量。在另一实施方式中,与标记或单元型关联的显著性通过优势比(OR)测量。在进一步的 实施方式中,显著性通过百分比测量。在一个实施方式中,显著增加的风险被测量为至少 1. 2的风险(相对危险度和/或优势比),其包括但不限于至少1. 2、至少1. 3、至少1. 4、 至少1. 5、至少1. 6、至少1. 7、至少1. 8、至少1. 9、至少2. O、至少2. 5、至少3. O、至少4. O和 至少5. O。在具体的实施方式中,至少1. 2的风险(相对危险度和/或优势比)是显著的。 在另一具体的实施方式中,至少1. 3的风险是显著的。在又一实施方式中,至少1. 4的风 险是显著的。在进一步的实施方式中,至少大约1.5的相对危险度是显著的。在另一进一 步的实施方式中,风险显著增加至少大约1.7是显著的。然而,也考虑其他截断值,例如至 少1. 15,1. 25,1. 35等,并且这些截断值也在本发明的范围内。在其他实施方式中,显著的 风险增加是至少大约20%,其包括但不限于大约25%、30%、35%、40%、45%、50%、55%、 60%、65%、70%、75%、80%、85%、90%、95%、100%、150%、200%、300% 和 500%。在一个具体实施方式
中,显著的风险增加是至少20%。在其他实施方式中,显著的风险显著是至少 30 %、至少40 %、至少50 %、至少60 %、至少70 %、至少80 %、至少90 %和至少100 %。然而, 也考虑本领域普通技术人员认为适合表征本发明的其它截断值或范围,并且那些截断值或 范围也在本发明的范围内。在某些实施方式中,显著的风险增加由P值表征,例如小于0. 05 的P值、小于0.01的P值、小于0. 001的P值、小于0. 0001的P值、小于0. 00001的P值、小 于 0. 000001 的 P 值、小于 0. 0000001 的 P 值、小于 0. 00000001 的 P 值、或小于 0. 000000001 的P值。本发明的风险多态标记或单元型是,其中至少一个标记的至少一个等位基 因或单 元型与在比较组(对照)中其存在频率相比,在处于乳腺癌(受影响的)风险中的个体中 以更高频率存在,并且其中所述标记或单元型的存在表示对该疾病或性状的易感性。在一 个实施方式中,对照组可以是群体样品,即来自一般群体的随机样品。在另一实施方式中, 对照组由一组没有疾病的个体(例如没有被诊断患有乳腺癌的个体)代表。在一个实施方 式中,这类没有疾病的对照的特征是不存在一种或多种特异的疾病相关症状。在另一实施方式中,没有疾病的对照组的特征是不存在一种或多种疾病特异性风险因素。在一个实施 方式中,这些风险因素是至少一个环境风险因素。代表性的环境因素是自然产物、矿物质或 其他已知影响或考虑影响形成特异性疾病或性状的风险的化学品。其他环境风险因素是与 生活方式相关的风险因素,其包括但不限于饮食习惯、主要居住地的地理位置和职业风险 因素。在另一实施方式中,风险因素是至少一种遗传风险因素。作为相关性简单检验的实例,将是在二乘二列表上进行的Fisher-精确检验。对 于一组染色体,从包括两个标记或单元型、一个标记或单元型而不包括另一个、和不包括标 记或单元型的染色体数目中构造出该二乘二列表。也考虑技术人员已知的其它相关性统计 检验,并且其也在本发明的范围内。在本发明的其他实施方式中,对疾病或性状易感性降低(即风险降低)的个体是 这样的个体,其中在赋予疾病或性状易感性降低的一个或多个多态标记处的至少一个特异 性等位基因或单元型被鉴定。赋予风险降低的标记等位基因和/或单元型也被认为是保 护性的。在一个方面,保护性的标记或单元型是赋予疾病或性状风险(或易感性)显著降 低的标记或单元型。在一个实施方式中,显著降低的风险被测量为小于0. 9——包括但不 限于小于0. 9、小于0. 8、小于0. 7、小于0. 6、小于0. 5、小于0. 4、小于0. 3、小于0. 2和小于 0.1——的相对危险度。在一个具体实施方式
中,显著降低的风险为小于0.7。在另一实施 方式中,显著降低的风险为小于0.5。在又一实施方式中,显著降低的风险为小于0.3。在 另 一实施方式中,风险(或易感性)降低至少20%,包括但不限于至少25%、至少30%、至 少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少 75%、至少80%、至少85%、至少90%、至少95%和至少98%。在一个具体实施方式
中,风 险显著降低为至少大约30%。在另一实施方式中,风险显著降低至少大约50%。在另一实 施方式中,风险降低为至少大约70%。然而,也考虑本领域普通技术人员认为适合表征本发 明的其它截断值或范围,并且那些截断或范围在本发明的范围内。本领域技术人员将理解,对于两个等位基因存在于研究群体中并且其中发现一个 等位基因与对照相比在群体中具有性状或疾病的个体组中频率增加的标记,发现所述标记 的另一个等位基因与对照相比在具有性状或疾病的个体组中频率降低。在这样的情况下, 该标记的一个等位基因(被发现在具有性状或疾病的个体中频率增加的等位基因)将为风 险等位基因,而另一个等位基因将为保护性等位基因。与疾病或性状(例如乳腺癌)相关的遗传性变型(遗传性变体)可被单独使用以 预测给定基因型的疾病风险。对于双等位基因标记,例如SNP,有3种可能的基因型风险变 体的纯合子、杂合子和风险变体的非携带者。在多个基因座与变体相关的风险可用于评估 综合风险。对于多个SNP变体,具有k种可能的基因型,k = 3nX 2P ;其中η是常染色体基因 座的数量,而P是性染色体(gonosomal) (sexchromosomal (性染色体))基因座的数量。综 合风险评估计算通常假设不同的遗传性变型的相对危险度相乘,即与特定基因型组合相关 的综合风险(例如RR或0R)是每一基因座的基因型的风险值的乘积。与具有相匹配的性别 和种族的参考群体相比,如果存在的风险是人的相对危险度或人的特异性基因型,那么组 合风险是基因座特异性风险值的乘积,并且其也相应于与该群体比较的综合风险评估。如 果对人的风险是基于与风险等位基因的非携带者进行比较,那么组合风险相应于这样的评 估,其将在所有基因座处具有给的的基因型组合的人与一组在任何那些基因座处不携带风险变体的个体相比较。任何风险变体的非携带者组具有最低的评估风险并且与其本身(即 非携带者)相比具有1.0的组合风险,但是与所述群体相比具有小于1. O的综合风险。应 该注意到,非携带者组潜在地可以是非常小的,特别是对大量基因座而言,并且在那种情况 下,其相关性相应地小。乘积模型是简约模型(parsimonious model),其通常拟合复杂特性的数据相当 好。多重性偏差(Deviations from multiplicity)很少在常见疾病的常见变体的背景中 描述,并且如果报道,通常仅仅是暗示性的,这是因为通常需要非常大的样品规模以能显示 基因座之间的统计交互作用。作为实例,让我们考虑已经描述成与前列腺癌相关的总共8个变体 (Gudmundsson, J.等,Nat Genet 39 :631_7 (2007), Gudmundsson, J.等,Nat Genet 39 977-83(2007) ;Yeager, Μ.等,NatGenet 39 645-49 (2007), Amundadottir, L 等·,Nat Genet 38 652-8(2006) ;Haiman, C. A.等,Nat Genet 39 :638_44 (2007))。这些基因座的 7个是在常染色体上,剩下的基因座在染色体X上。那么,理论上的基因型组合的总数是 37X21 = 43740这些基因型类别中的一些是非常少见的,但是仍然是可能的,并且对于综合 风险评估而言应该加以考虑。可能的是,在多遗传性变型的情况中运用的乘积模型与非遗 传风险变体结合也是有效的,假设所述遗传性变型不明显与“环 境”因素相关。换言之,遗 传风险变体和非遗传风险变体可以在乘积模型中评估,以估计组合风险,假设非遗传风险 因素和遗传风险因素没有相互作用。使用相同的定量方法,可以评估与乳腺癌相关联的多个变体相关联的组合风险或 综合风险。在一个这样的实施方式中,评估标记rs4848543、rsl3387042和rs3803662或与 这些标记连锁不平衡的替代标记,并且计算基因型组合(33 = 27种可能的组合)的风险。 在另一个实施方式中,所述标记的两个(例如标记rsl3387042和rs3803662)基因型被组 合以给出综合风险。在其它的实施方式中,已知为乳腺癌诱因(例如高外显风险因素,例如 BRCA1、BRCA2、BARD1)的其他标记与本文描述的风险因素的一个或多个组合。连锁不平衡天然的重组现象——其对于每一染色体对在每个减数分裂事件期间平均发生一 次——代表其中自然提供序列(和因此生物学功能)变化的一种方式。已经发现重组在基 因组中不随机发生;相反地,在重组率的频率方面具有大的变化,这产生高重组频率的小的 区域(也称为重组热点)和低重组频率的大的区域,其通常被称为连锁不平衡(LD)区段 (Myers, S.等,Biochem Soc Trans 34:526-530(2006) Jeffreys, A. J. , Nature Genet 29:217-222(2001) ;May,C. A.,等,Nature Genet31 :272_275 (2002))。连锁不平衡(LD)指两种遗传成分的非随机分配。例如,如果特定的遗传成分(例 如多态标记的“等位基因”)在群体中以0. 50的频率(50%)发生,并且另一种以0. 50的 频率(50%)发生,那么人具有两种成分的预计发生率为0. 25(25%),假设成分随机分布。 然而,如果发现两种成分以高于0. 25的频率共同发生,那么所述成分被认为处于连锁不平 衡,这是因为它们倾向于以比它们的独立的等位基因发生频率(例如等位基因或单元型频 率)预计的更高的比率共同遗传。粗略地说,LD通常与两种成分之间的重组事件的频率相 关。在群体中,等位基因或单元型频率可以通过基因型分型群体中的个体并确定每种等位 基因或单元型在该群体中的发生来确定。对于二倍体群体,例如人类群体,对于每一遗传成 分(例如标记、单元型或基因),个体一般地具有两个等位基因。
已经提出许多不同的量度来评估连锁不平衡(LD)强度。大多数捕获双等位基因 位点对之间的关联强度。LD的两个重要成对量度是r2 (有时候指Δ2)和|D’ |。两个量度 的范围都是从0(没有不平衡)到1( ‘完全’不平衡),但是它们的解释稍微不同。这样定 义|D’ ι 如果仅仅存在可能单元型的两种或三种,那么其等于1,如果所有四种可能的单元 型都存在,那么其<1。所以,ID’ Ι的值< ι表示在两个位点之间可能已经发生历史重组 (频发突变也可能引起Id’ I < 1,但是对于单核苷酸多态性(SNP),通常认为这比重组可能 性更小)。量度r2表示两个位点之间的统计相关性,并且如果仅存在两种单元型,那么取1 的值。r2量度可论证地是关联作图(association mapping)的最相关的量度,这是因为 在r2与检测易感性基因座和SNP之间的相关性所需的样品大小之间存在简单的反比关系。 对于位点对,定义这些量度,但是对于一些应用,确定强LD如何越过包含多个多态位点的 完整区域可能是需要的(例如,检验LD的强度是否在基因座或整个种群中具有明显差异, 或者,在一个区域中与在特定模型下预测的相比是否存在更多或更少的LD)。沿着一区域测 量LD并不简单,但一个方法是应用量度r,其在群体遗传学中得以发展。大概说来,r测量 在特定群体模型中,需要多少重组以产生在数据中见到的LD。这类方法也可潜在地为确定 LD数据是否为重组热点的存在提供证据的问题提供统计上精确的方法。对于本文描述的 方法,显著 r2 值可以是至少 0. 1,例如至少 0. 1,0. 15,0. 2,0. 25,0. 3,0. 35,0. 4,0. 45,0. 5、 0. 55、0· 6、0· 65、0· 7、0· 75、0· 8、0· 85、0· 9、0· 91、0· 92、0· 93、0· 94、0· 95、0· 96、0· 97,0. 98、 0. 99或1. 0。在一个优选的实施方式中,显著r2值可以是至少0. 2。可选地,如本文描述的, 连锁不平衡指这样的连锁不平衡,其特征为|d,i的值为至少0.2,例如0.3、0.4、0.5、0.6、 0. 7,0. 8,0. 85,0. 9,0. 95,0. 96,0. 97,0. 98,0. 99。因此,连锁不平衡表示不同标记的等位基 因之间的相关性。通过相关系数或Id,|(r2可达1.0,而|D,|可达ι.ο)。在某些实施方 式中,根据r2和|D’ I两度的值定义连锁不平衡。在一个这样的实施方式中,显著连锁不平 衡被定义为r2> 0.1和/或|D,ι >0.8。在另一实施方式中,显著连锁不平衡被定义为 r2>0.2和|D,I >0.8。在另一实施方式中,显著连锁不平衡被定义为r2> 0.2和|D, >0.9。确定连锁不平衡的其它r2和|D’ I值的组合和排列也被考虑,并且也在本发明的范 围内。可以在单一人群中确定连锁不平衡,如本文定义的,或者可以在包括来自一个以上人 群的个体的样品集合中确定连锁不平衡。在本发明的一个实施方式中,在来自一个或多个 HapMap群体(白种人、非洲人、日本人、中国人)的样品中,确定LD,如所定义的(http:// www. hapmap. org)。在一个这样的实施方式中,在HapMap样品的CEU群体中,确定LD。在另 一实施方式中,在YRI群体中,确定LD。在又一实施方式中,在来自冰岛人群的样品中,确定 LD0在群体水平下,如果基因组中所有多态性是相同的,那么他们中的每一个将需要 在关联性研究中进行研究。然而,由于多态性之间的连锁不平衡,紧密连锁的多态性是强相 关的,这减少在关联性研究中为观察到显著关联性所需要研究的多态性的数量。LD的另一 个结果是许多多态性可发出关联信号,这是由于这些多态性是强相关的这一事实。
基因组LD图谱已经在整个基因组范围内产生,并且这类LD图谱已被提出作为绘 制疾病基因的构架(Risch, N. &Merkiangas, K, Science 273 1516-1517 (1996) ;Maniatis, N.,等,Proc Natl Acad SciUSA 99 :2228_2233 (2002) ;Reich,DE 等,Nature 411 199-204(2001))。现在认为,人基因组的许多部分可以被打断为一系列不连续的单元型区段,其包 含一些常见单元型;对于这些区段,连锁不平衡数据提供很少的表明重组的证据(参见 例如,Wall. , J. D. andPritchard, J. K. ,Nature Reviews Genetics 4 587-597 (2003); Daly, Μ. Nature Genet. 29 229-232 (2001) ;Gabriel, S. B. Science 296 2225-2229 (2002) ;Patil, N.等,Science 294 1719-1723 (2001) ;Dawson, Ε.等, Nature418 544-548 (2002) ;Phillips, Μ. S.等,Nature Genet. 33 :382_387 (2003))。有两个主要的定义这些单元型区段的方法区段可被定义为具有有限单元型多 样性的 DNA 的区域(参见例如,Daly, Μ.等,Nature Genet. 29 229-232 (2001) ;Patil, N.等,Science 294 1719-1723 (2001) ;Dawson, Ε.等,Nature 418:544-548(2002); Zhang, K.等,Proc. Natl. Acad. Sci. USA 99 :7335_7339 (2002)),或定义为具有使用连锁 不平衡鉴定的大量历史重组的过渡区之间的区域(参见例如,Gabriel, S. B.等,Science 296 2225-2229(2002) ;Phillips, Μ. S.等,Nature Genet. 33 :382_387 (2003) ;Wang, N.等,Am. J. Hum. Genet. 71 1227-1234 (2002) ;Stumpf,Μ. P.,and Goldstein, D. B.,Curr. Bio l. 13 1-8 (2003))。近来,在整个人基因组的范围中,已经产生重组率和相应热点的精 密标度的图谱(Myers, S.,等,Science 310 :321_32324(2005) ;Myers, S.等,BiochemSoc Trans 34 :526530 (2006))。该图谱显示,在整个基因组的范围内重组变化很大,其中重组率 在热点高达10-60cM/Mb,而在间插区中,重组率接近0,因此,这代表具有有限的单元型多 样性和高LD的区域。因此,该图谱可以被用于定义单元型区段/LD区段为重组热点侧翼的 区域。如本文使用的,术语“单元型区段”或“LD区段”包括由上述特征的任一个定义的区 段,或者由本领域普通技术人员使用来定义这样的区域的其它可选方法定义的区段。鉴定单元型区段的一些代表性方法例如在U. S公开的专利申请号20030099964、 20030170665、20040023237和20040146870中被列出。单元型区段可被用于使用包含多个 标记在内的单一标记或单元型绘制表型和单元型状态之间的关联性。在每个单元型区段 中,可鉴定主要的单元型,然后可鉴定一组“标签” SNP或标记(辨别单元型所需要的最小 组的SNP或标记)。然后,这些标签SNP或标记可被用于评估来自个体组的样品,以鉴定表 型和单元型之间的关联性。如果需要,可以同时评估相邻单元型区段,因为在单元型区段之 间,也可能存在连锁不平衡。公知地,连锁不平衡可以在群体之间变化,这是由于在各种群体中分类的历史速 率不同。在本发明的某些实施方式中,LD是指如在白种人样品中测定的LD。在具体的实施 方式中,LD在来自HapMap群体(如在http //www. hapmap. org上描述)的白种人CEPH样 品中测定。在其它的实施方式中,LD在非洲人群体、非洲裔美国人群体、西班牙人群体、日 本人群体、中国人群体中测定。在某些实施方式中,LD在来自中国、日本、非洲的HapMap样 品中测定,如所述(http//www. hapmap. org)。从而明显的是,对于任何给定的观察到的与基因组中多肽标记的关联性而言,基 因组中另外的标记也可能显示关联性。这是LD在整个基因组内不均勻分布的自然结果,如 通过重组率大量变化所观察到的。因此,用于检测关联性的标记在某种意义上代表与给定 的疾病或性状关联的基因组区域(即区段或LD区段)的“标签”,并且如此可用于本发明 该方法和试剂盒。一种或多种致病(功能的)变体或突变可存在于被发现与疾病或性状相关联的区域内。这样的变体可赋予比用来检测关联性的标签标记所观察到的更高的相对危 险度(RR)或优势比(OR)。因此,本发明涉及用来检测与疾病的关联性的标记,如本文所述 的,以及与所述标记连锁不平衡的标记。因此,在本发明的某些实施方式中,与本发明的标 记和/或单元型LD的标记——如本文所述的,可被用作替代标记。在一个实施方式中,所 述替代标记的相对危险度(RR)和/或优势比(OR)的值小于如本文所述的最初被发现与所 述疾病相关联的标记或单元型的相对危险度(RR)和/或优势比(OR)。在其他实施方式中, 替代标记的相对危险度(RR)和/或优势比(OR)的值大于如本文所述的最初被发现与疾病 相关联的标记或单元型的相对危险度(RR)和/或优势比(OR)。这样的实施方式的实例是 与最初发现与疾病相关的更常见变体(> 10%群体频率)连锁不平衡(LD)的稀少的或相 对稀少的(< 10%的等位群体频率)变体,例如本文描述的变体。如本文所述,鉴定和使用 这样的由本发明人发现的、用于检测关联性的标记可以通过本领域普通技术人员熟知的常 规方法进行,并且因此在本发明的范围内。确定单元型频率使用期望最大化算法可以估计患者组和对照组中单元型的频率(Dempster Α.等, J. R. Stat. Soc. B, 39 :1_38(1977))。可以处理缺失基因型和阶段不确定性的该算法的执行 工具可被使用。在零假设下,患者和对照被假设具有相同的频率。使用可能性方法,检验可 选假设,其中可包含本文描述的标记的候选风险单元型被允许在患者中比在对照中具有更 高频率,而其他单元型的频率的比率被假设为在两组中相同。在两个假设中分别最大化似 然性,并且使用相应的ι-df似然比率统计来评价统计显著性。例如,为了在连锁区域内寻找风险性和保护性标记和单元型,研究基因型标记的 所有可能组合的关联性,条件是那些标记跨越实质性区域。组合的患者和对照组可以被随 机地分成两组,其大小与原始的患者组和对照组的大小相等。然后,重复标记和单元型分 析,并且确定所记录的最显著的P值。可以重复该随机化方案,例如,超过100次,以构造P 值的经验分布。在优选的实施方式中,小于0. 05的ρ值表示显著的标记和/或单元型关联 性。单元型分析进行单元型分析的一个一般方法包括使用应用于NEstedModels的、基于似然性 的推理(Gretarsdottir S.,等,Nat. Genet. 35 131-38 (2003))。在程序 NEMO 中,实行该 方法,其考虑许多多态标记、SNP和微卫星。该方法和软件被明确地设计用于病例-对照研 究,其中目的是鉴定赋予不同风险的单元型组。它也是研究LD结构的工具。在NEMO中,在 EM算法的帮助下,对于观测数据,直接计算最大似然估计值、似然比和ρ值,处理其漏失数 据的问题。尽管可以依赖基于对于观测数据直接计算的似然性的似然比检验——其已经 捕获由于阶段不确定性和缺失基因型造成的信息丢失——以给出有效的P值,但是仍 然有兴趣知道多少信息由于信息不完全而丢失。单元型分析的信息量度在Nicolae和 Kong(TechnicalReport 537, Department of Statistics, University of Statistics, Universityof Chicago ;Biometri cs, 60 (2) :368_75 (2004))中描述为连锁分析定义的信 息量度的天然延伸,并且在NEMO中执行。对于与疾病的单一标记关联性,Fisher精确检验可用于计算每个个体等位基因的 双侧P值。通常,对于多重比较,除非明确地表明,所有的P值都在未调整的情况下给出。给 出的频率(对于微卫星、SNP和单元型而言)是等位频率,其与携带者频率相反。为了最小化由于被招募为进行连锁分析的家族的患者的亲缘关系引起的任何偏差,一级和二级亲属 可以从患者名单中除去。而且,对患者中的任何剩余的亲缘关系,可重复该检验以进行关联 性修正,这通过延伸在 Risch,N. &Teng,J. (Genome Res.,8 1273-1288 (1998))中描述的用 于血缘关系的差异调整程序——DNA池(DNA pooling(出处同上))——进行,以便它可以 被用于一般的家族关系,并且给出调整和未调整的P值,用于比较。一般而言,如所期望的, 差异非常小。为了评估对于多个检验修正的单一标记关联性的显著性,我们可以使用同一 基因型数据进行随机性检验。患者和对照组群可以被随机化,并且重新进行关联性分析多 次(例如,可达500,000次),并且p值是产生某一标记等位基因的p值的重复的分数,所述 某一标记等位基因的P值小于或等于我们使用最初的患者和对照组群观察到的P值。对于单一标记和单元型分析,可基于乘积模型(单元型相对危险度模型) (Terwilliger, J. D. &0tt, J. , Hum. Hered. 42 337-46(1992)and Falk, C. T. &Rubinstein, P,Ann. Hum. Genet. 51 (Pt 3) =227-33 (1987)),即人携带的两个等位基因/单元型的风险相 乘,计算相对危险度(RR)和群体归因危险度(PAR)。例如,如果RR是A相对于a的风险, 那么人纯合子AA的风险将为杂合子Aa的风险的RR倍和纯合子aa的风险的RR2倍。在受 影响群体内以及对照群体内,乘积模型具有简化分析和计算的良好性质——单元型是独立 的,即在哈迪-温伯格平衡中。因此,受影响的和对照的单元型计数每个具有多项分布,但 是在可选假设下,具有不同的单元型频率。具体而言,对于两个单元型,h和、,风险(h》/ 风险(hp =忧/^)/%/^),其中€和?分别指受影响的群体和对照群体中的频率。尽管 如果真实模型不是乘积的,那么具有一些幂损失(power loss),但是该损失除了极端情况, 往往轻微。最重要地,因为P值相对于零假设计算,所以P值总是有效的。使用NEM0的连 锁不平衡可以使用D,和r2的标准定义,计算标记对之间的LD(Lewontin,R.,Genetics 49 49-67(1964) ;Hill, ff. G. &Robertson, A. Theor.Appl. Genet. 22 :226_231(1968))。使用 NEM0,两个标记等位基因组合的频率通过最大似然进行估计,并且与连锁平衡的偏差通过 似然比检验进行评估。通过平均由边缘等位基因概率(marginal alleleprobabilities) 加权的两个标记的所有可能等位基因的组合的值,将D’和r2的定义延伸至包括微卫星。当 绘出所有标记组合以阐明在特定区域中的LD结构时,我们在左上角绘出D’并在右下角绘 出P-值。在LD绘图中,如果希望,标记可被等距离绘出,而不是根据它们的物理位置。风 险评估和诊断在任何给定的群体内,具有形成疾病或性状的绝对危险度,其被定义为人在给定 时间周期内形成特定疾病或性状的机会。例如,女性一生乳腺癌的绝对危险度是1/9。也就 是说,每九个女性中的一个在她们的生命的一些时刻将形成乳腺癌。一般地,通过观察非常 大量的人而不是特定个体,来测量风险。风险通常以绝对危险度(AR)和相对危险度(RR) 给出。使用相对危险度来比较与两个变体相关联的风险或两个不同组的人的风险。例如, 它可用于比较具有某一基因型的一组人与具有不同基因型的另一组。对于一种疾病,相对 危险度2指一组形成疾病的机会是另一组的两倍。通常地,对于人或人的特异性基因型,给 出的风险是与匹配的性别和种族的群体相比的相对危险度。相同性别和种族的两个个体的 风险可以以简单的方式进行比较。例如,如果与群体比较,第一个个体具有相对危险度1. 5, 而第二个具有相对危险度0. 5,则与第二个个体相比,第一个个体的风险是1. 5/0. 5 = 3。
如本文描述的,某些多态标记和包含这样的标记的单元型被发现可用于乳腺癌的 风险评估。风险评估可以包括应用用于诊断对乳腺癌的易感性的标记。发现多态标记的 特定等位基因在患有乳腺癌的个体中比在没有诊断出乳腺癌的个体中频率更高。因此,这 些标记等位基因在个体中具有检测乳腺癌或对乳腺癌的易感性的预测价值。包含风险标记 (例如本发明的标记)的单元型区段或LD区段内的标签标记,可被用作单元型区段或LD区 段内其他标记和/或单元型的替代物。具有r2值等于1的标记是风险变体的完美替代物, 即,一个标记的基因型完美地预测另一个标记的基因型。具有r2值小于1的标记也可以是 风险变体的替代物,或者可选地,表示其相对危险度值与风险变体同样高或可能甚至更高 的变体。鉴定的风险变体本身可以不是功能性变体,但是在这种情况中,其与其真正的功能 性变体连锁不平衡。本发明包括评估如本文公开的标记的这类替代标记。这类标记在公共 数据库中被注释、作图和列出,如本领域普通技术人员所熟知的,或者可以可选地在一组个 体中通过对由本发明的标记鉴定的区域或一部分区域进行测序,容易地加以鉴定,并且在 所形成的序列组中,鉴定多态性。因此,本领域普通技术人员可以容易地并且无需过多试 验,对与本文描述的标记和/或单元型连锁不平衡的替代标记进行基因型分型。在单元型 或LD区段内与所检测的风险变体LD的标签标记或替代标记也具有在个体中检测与乳腺癌 的关联性或对乳腺癌的易感性的预测价值。与本发明的标记LD的这些标签标记或替代标 记也可包含区别单元型的其他标记,因为这些类似地具有检测乳腺癌易感性的预测价值。在某些实施方式中,可以通过对包含来自个体的基因组DNA的样品评估本文描述 的与乳腺癌关联的变体的存在,来实践本发明。这样的评估包括检测至少一个多态标记的 至少一个等位基因的存在或不存在,其使用本领域普通技术人员公知的和本文进一步描述 的方法进行,并且基于这样的评估的结果,确定样品来源的个体是否处于增加或降低的乳 腺癌风险(增加或降低的易感性)中。可选地,本发明可以利用这样的数据集进行实践,所 述数据集包含关于本文描述的、与乳腺癌关联的至少一个多态标记(或与本文所示的、与 乳腺癌关联的至少一个标记连锁不平衡的标记)的基因型状态的信息。换言之,包含关于 这样的遗传状态的信息的数据集可以被用来查询某些风险等位基因在本发明人示出的、与 乳腺癌关联的某些多态标记处存在或不存在,所述信息例如以某个多态标记或多个标记处 的基因型计数(例如指示某些风险等位基因的存在或不存在)的形式、或一个或多个标记 的真实基因型的形式。与乳腺癌关联的变体(例如标记等位基因)的阳性结果,如本文所 示,表示数据集来源的个体处于乳腺癌的易感性增加(风险增加)。在本发明的某些实施方式中,通过将多态标记的基因型数据与查阅表——其包括 多态性的至少一个等位基因和乳腺癌之间的相关性——进行比较,将多态标记与乳腺癌相 关联。在一些实施方式中,该表包括一个多态性的相关性。在其他实施方式中,该表包括多 个多态性的相关性。在两种情况中,通过参看给出标记和乳腺癌之间相关性指示的查阅表, 可以在样品来源的个体中,鉴定乳腺癌的风险,或对乳腺癌的易感性。在一些实施方式中, 以统计学量度报道相关性。统计学量度可被报告为风险量度,例如相对危险度(RR)、绝对危 险度(AR)或优势比(OR)。本发明的标记和单元型,例如染色体2ql4. 2、染色体2q35和染色体16ql2上的多 态标记和单元型,例如表10、表15、表19、表20、表21和表22中给出的标记,和与它们连锁 不平衡的标记,例如标记rs4848543、rsl3387042和rs3803662,单独或联合,可用于风险评估和诊断目的。因此,甚至在由个体标记导致的风险增加相对有限(即10-30%数量级)的 情况下,关联性也可具有显著的牵连(implication)。因此,相对常见的变体可对综合风险 具有显著的贡献作用(群体归因危险度高),或者标记的组合可用于限定个体组,所述个体 组基于标记的组合风险处于形成该疾病的显著联合风险中。因此,在本发明的一个实施方式中,多个变体(标记和/或单元型)被用于综合风 险评估。在一个实施方式中,这些变体选自本文公开的变体。其他的实施方式包括联合应 用本发明的变体与已知可用于诊断对乳腺癌的易感性的其他变体。在这样的实施方式中, 确定在个体中多个标记和/或单元型的基因型状态,并且将个体的状态与关联变体的群体 频率、或临床上健康的对象例如年龄匹配和性别匹配的对象中变体的频率相比较。本领域 已知的方法,例如多元分析或联合风险分析,可随后用于确定基于在多个基因座处的基因 型状态赋予的综合风险。基于这类分析的风险评价可随后用于本发明的方法和试剂盒,如 本文描述的。如上所述,人基因组的单元型区段结构具有如此效果在与疾病或性状最初相关 联的变体连锁不平衡的大量变体(标记和/或单元型)可被用作评估与疾病或性状关联性 的替代标记。这样的替代标记的数量将取决于因素例如区域中的历史重组率、区域中的突 变频率(即区域中多态位点或标记的数量)和区域中LD的程度(LD区段的大小)。这些标 记通常位于如使用本文描述的方法或本领域普通技术人员已知的其他的方法所定义的、正 被讨论的LD区段或单元型区段的物理边界内。然而,有时标记和单元型关联性被发现延伸 超过所定义的单元型区段的物理边界。在那些情况中,这样的标记和/或单元型也可用作 物理上位于定义的单元型区段内的标记和/或单元型的替代标记和/或单元型。因此,与 本发明的标记和单元型LD(通常特征在于r2大于0. 1,例如r2大于0. 2,包括r2大约0. 3, 也包括r2大于0. 4)的标记和单元型也在本发明的范围内,即使它们物理上位于本文限定 的单元型区段的边界外。这包括本文描述的标记(例如,表10、表15和表19),但是也可包 括与在表10、表15和表19中列出的一种或多种标记的强LD(例如特征为r2大于0. 1,或 r2大于0. 2和/或|D,| > 0. 8)的其他标记。对于本文描述的SNP标记,与在患者中发现过量的等位基因(风险等位基因)相 对的等位基因被发现在乳腺癌中频率降低。这些标记以及处于LD中和/或包含这些标记 的单元型,因此保护免于遭受乳腺癌,即它们赋予携带这些标记和/或单元型的个体形成 乳腺癌的风险或易感性降低。在一些情况中,包括某些单元型的本发明的某些变体包含多种遗传标记的组合, 例如SNP和微卫星。因此,通过本领域已知的方法和/或本文描述的用于检测多态位点处 序列的方法,可进行检测单元型。而且,某些单元型或标记组和疾病表型之间的相关性可以 使用标准技术进行检验。相关性的简单检验的代表性实例将是在二乘二列表上进行Fisher 精确检验。在特定实施方式中,发现与乳腺癌相关联的标记等位基因或单元型(例如在表 10、表15、表19、表20、表21和表22中列出的标记等位基因和与它们连锁不平衡的标记)是 其中标记等位基因或单元型与在健康个体(对照)中存在的频率相比,在处于乳腺癌(受 影响)风险中的个体中以更高频率存在的标记等位基因或单元型,其中标记等位基因或单 元型的存在表示乳腺癌或对乳腺癌的易感性。在其他实施方式中,发现与乳腺癌关联的一种或多种标记(例如在表10、表15、表19、表20、表21和表22中列出的标记等位基因和与 它们连锁不平衡的标记)连锁不平衡的风险标记是标签标记,其与在健康个体(对照)中 存在的频率相比,在处于乳腺癌(受影响)的风险中的个体中以更高频率存在,其中标签标 记的存在表示对乳腺癌的易感性增加。在进一步的实施方式中,与发现与乳腺癌关联的一 种或多种标记(例如,在表10、表15、表19、表20、表21和表22中列出的标记等位基因和 与它们连锁不平衡的标记)连锁不平衡的风险标记等位基因(即赋予增加的易感性)是这 样的标记,其包含一种或多种等位基因,所述等位基因与在健康个体(对照)中存在的频率 相比,在处于乳腺癌风险中的个体中以更高频率存在,其中所述标记的存在表示对乳腺癌 的易感性增加。研究群体在一般意义上,本发明的方法和试剂盒可以用于包含来自任何来源即任何个体的 基因组DNA的样品。在优选的实施方式中,个体是人类个体。个体可以是成人、儿童或胎 儿。本发明也提供在个体中评估标记和/或单元型,所述个体是目标群体的成员。在一个 实施方式中,这样的目标群体是基于以下方面而处于形成该疾病的风险中的一群或一组个 体其他遗传因素、生物标记、生物物理参数(例如体重、BMD、血压)或一般的健康和/或生 活方式参数(例如疾病或相关疾病的历史、前疾病诊断、疾病家族史)。本发明提供实施方式,其包括来自特定年龄亚组的个体,例如那些超过40岁的; 超过45岁的;或超过50、55、60、65、70、75、80或85岁的。本发明的其他实施方式涉及其 他年龄组,例如年龄在85以下的个体,例如在80岁以下;在75岁以下;或在70、65、60、55、 50、45、40、35或30岁以下。其他实施方式涉及个体,其疾病开始时的年龄在上面描述的任 何年龄范围内。也考虑的是,在某些实施方式中,年龄范围可以是适中的,例如开始时年龄 超过45岁但是小于60岁。然而,也考虑其他的年龄范围,包括上面列出的年龄值包括的年 龄范围。而且,本发明涉及任一性别——男性或女性——的个体。在一个实施方式中,其涉 及评估男性对象。在另一个实施方式中,其涉及评估女性对象。冰岛群体是北欧血统的白种人群体。报告在冰岛群体中遗传连锁和关联的许多研 究已经在最近几年内出版。那些研究的许多显示在其他群体中变体的复制,所述变体最初 在冰岛群体中鉴定为与特定的疾病相关(Stacey,S.N.,等,Nat Genet. May 27 2007 (Epub aheadof print ;Helgadottir, A.,等,Science 316 :1491_93(2007) ;Steinthorsdottir, V.,等,Nat Genet. 39 770-75 (2007) ;Gudmundsson, J.,等,Nat Genet. 39 631-37 (2007); Amundadottir, L. T.,等,Nat Genet. 38 :652_58 (2006) ;Grant, S. F.,等,Nat Genet. 38 320-23(2006))。因此,一般而言,在冰岛群体中的遗传发现已经在包括来自非洲和亚洲的 群体在内的其他群体中复制。发现与乳腺癌相关的本发明的标记被认为在其他人类群体中显示相似的关联性。 因此,也考虑包含各个人类群体的特定实施方式,并且其在本发明的范围内。这样的实施 方式涉及来自一个或多个人类群体的人类对象,其包括但不限于白种人群体、欧洲人群体、 美洲人群体、欧亚人群体、亚洲人群体、中亚人/南亚人群体、东亚人群体、中东人群体、非 洲人群体、西班牙人群体和大洋洲人群体。欧洲人群体包括但不限于瑞典人、挪威人、芬兰 人、俄国人、丹麦人、冰岛人、爱尔兰人、凯尔特人、英国人、苏格兰人、荷兰人、比利时人、法 国人、德国人、西班牙人、葡萄牙人、意大利人、波兰人、保加利亚人、斯拉夫人、塞尔维亚人、 波斯尼亚人、捷克人、希腊人和土尔其人群体。此外,在其他的实施方式中,本发明可以在特定的人类群体中实践,所述人类群体包括班图人、Mandenk、约鲁巴人、桑人、Mbuti Pygmy、 奥克尼群岛人、Adygei、俄国人、撒丁岛人、托斯卡纳人、莫扎比特人(Mozabite)、贝多因 人、德鲁兹人(Druze)、巴勒斯坦人、俾路支人(Balochi)、布拉灰人(Brahui)、莫克兰人 (Makrani)、信德人、帕坦人、布鲁肖人(Burusho)、哈扎拉人、维吾尔人、卡拉什人、汉族人、 傣族人、达斡尔人、赫哲族人(Hezhen)、拉枯族人、苗族人、鄂伦春人、畲族人、土家族人、土 族人、锡伯族人、彝族人、蒙古族人、纳西族人、柬埔寨人、日本人、雅库特人、美拉尼西亚人、 巴布亚人、Karitianan、Surui、Colmbian、玛雅人和比马人。在一个实施方式中,本发明涉及群体,其包括黑人非洲人血统,例如包含非洲人血 统(descent)或系谱(lineage)的人的群体。黑人非洲人血统可通过自己报告确定为非洲 人-美国人、非洲裔美国人、黑人美国人,其为黑色种族成员或为黑人种族成员。例如,非洲 人美国人或黑人美国人是生活在北美洲并且起源于任何非洲黑色种族的那些人。在另一实 例中,自己报告的黑人非洲人血统的人可具有至少一个黑人非洲人血统的父母或至少一个 黑人非洲人血统的祖父母。个体对象中种族的作用也可通过遗传分析确定。血统的遗传分析可使用未连锁的 微卫星标记例如在Smith等在Am J HumGenet 74,1001-13 (2004)中提出的那些进行。在某些实施方式中,本发明涉及在如上所述的特定群体中鉴定的标记和/或单元 型。本领域普通技术人员将理解,当运用到不同的群体中时,连锁不平衡(LD)的量度可给 出不同的结果。这归因于不同的人类群体的不同的群体历史以及可能已经导致在特定的基 因组区域中的LD差异的差示选择压。本领域普通技术人员也熟知的是,某些标记例如SNP 标记,在一个群体中是多态的,而在另一个群体中不是多态的。然而,本领域普通技术人员 将运用可利用的和本文考虑的方法在任何给定的人类群体中实践本发明。这可包括评估本 发明的LD区域中的多态标记,以鉴定在特定的群体内给出最强关联性的那些标记。因此, 本发明的风险变体可存在于不同的单元型背景上,并且以不同频率存在于各种人类群体 中。然而,应用本领域已知的方法和本发明的标记,本发明可以在任何给定的人类群体中进 行实践。遗传检测的应用本领域普通技术人员将明白和理解,一般而言,本文描述的变体本身没有提供形 成乳腺癌的个体的绝对鉴定。然而,本文描述的变体确实表明携带本发明的风险性或保护 性变体的个体形成乳腺癌的可能性增加和/或降低。然而,该信息本身是极有价值的,如在 下面更详细概述的,因为其可用于疾病治疗和适当治疗选项的选择。关于赋予形成疾病(例如乳腺癌)风险的遗传性变型的知识提供这样的机会运 用遗传学检测来区分具有增加的形成疾病风险的个体(即风险变体的携带者)和那些具有 降低的形成疾病风险的个体(即保护性变体的携带者)。对于属于上述的两个组的个体而 言,遗传学检测的核心价值是能够在早期诊断该疾病或该疾病诱因,以及给临床医师提供 关于疾病的预后/攻击性的信息的可能性,以便能运用最适当的治疗。预测乳腺癌遗传风 险的模型乳腺癌风险评估的目标是对所有女性提供发展个人医疗管理策略的合理框架,其 目的是增加高风险女性的存活率和生活品质,同时最小化低风险女性的成本、不必要的介 入和忧虑。风险预测模型试图估计个体的乳腺癌风险,所述个体具有给定一组的先天风险 特性(例如家族史、在先的良性乳腺病变、早先的乳腺肿瘤)。最通常用于临床实践的乳腺癌风险评估模型通过考虑家族史估计遗传风险因素。该风险估计基于具有一个或多个以前 诊断患有乳腺癌的近亲属的个体风险增加的观察。他们没有考虑复杂的谱系结构。这些模 型具有如此进一步的缺点——其不能将具有乳腺癌易感突变的基因的携带者和非携带者 区分开。更完善的风险模型具有更好处理具体家族史的机制并具有考虑BRCA1和BRCA2 突变的携带者状态的能力。例如,疾病发生和携带者估计算法的乳腺和卵巢分析(Breast and Ovarian Analysis ofDisease Incidence and Carrier Estimation Algorithm) (BOADICEA) (Antoniou et al.,2004)通过血统分析程序MENDEL,基于个体谱系结构而考虑 家族史。关于已知的BRCA1和BRCA2状态的信息也被考虑。BOADICEA和目前应用的所有其他 的乳腺癌风险模型的主要的限制是它们没有并入来自其他诱因基因的基因型信息。当前的 模型强烈地依赖于家族史来用作替代物,以补偿非BRCA风险遗传决定子知识缺乏。因此, 可用的模型限于如此情况其中具有已知的疾病家族史。低外显率乳腺癌诱因基因在群体 中可能是相对共同的,并且可能不示出强的促进家族簇集的倾向,如BRCA1和BRCA2基因所 示出的倾向。具有相对高的诱因等位基因的遗传负荷的患者可能示出很少或没有疾病家族 史。因此需要构建模型,其并入通过基于基因的试验直接获得的遗传易感性数据。除使模型 更精确之外,这也将减少对家族史参数的依赖性,并帮助将该风险预测(risk profiling) 延伸到更广的风险群体,其中家族史不是如此关键的因素。将改善的遗传风险模型整合到 乳腺癌初级预防的临床管理目前临床初级预防选择可以分类为化学预防(或激素)治疗和预防手术。被鉴定 为高风险的患者可以被规定长期化学预防疗法。该概念在心血管医学领域得到充分的接 受,但是现在仅仅开始在临床肿瘤学中产生影响。最广泛使用的肿瘤学化学预防剂是他莫 昔芬,一种选择性雌激素受体调节剂(SERM)。他莫昔芬最初用作针对乳腺癌复发的佐剂治 疗,现在,他莫昔芬已经证明作为乳腺癌预防剂的效力(Cuzick et al. ,2003 ;Martino et al.,2004)。FDA已经批准应用他莫昔芬在某些高风险女性中作为化学预防剂。不幸地,长期使用他莫昔芬增加子宫内膜癌的风险大约2. 5倍,静脉血栓形成的 风险大约2.0倍。肺栓塞、中风和白内障的风险也被增加(Cuzick et al.,2003)。因此, 他莫昔芬用于减少乳腺癌发生率的益处可能不容易被转换为综合死亡率的相应降低。称为 雷洛昔芬的另一 SERM在预防模式中可能更有效,并且没有带来相同的子宫内膜癌的风险。 然而,血栓形成的风险在长期用雷洛昔芬治疗的患者中仍然升高(Cuzick et al. ,2003; Martino et al.,2004)。而且,他莫昔芬和雷洛昔芬都具有与它们相关的生活质量问题。在 化学预防模式中为了产生SERM治疗的合理的风险收益分析,存在鉴定处于乳腺癌最大风 险的个体的临床需要。假定乳腺癌的大比例风险是遗传的,在这方面清楚地存在定量个体 风险的遗传试验的临床需要。可以预期相似的问题从任何可能变成可用的未来癌症化学预 防治疗中出现,例如芳香酶抑制剂。此外,随着化学预防治疗越来越安全,鉴定这样的患者 的的需要增加,所述患者是遗传易感的,但是没有与BRCA1&2携带者相关联的大规模升高 的风险。鉴定为处于乳腺癌高风险的患者被考虑进行预防手术;两侧乳腺切除术或卵巢摘 除术或两者。明显地,这样的猛烈的治疗仅仅对察觉处于极端高风险的患者推荐。实际上, 这样的风险目前仅仅可以在携带BRCA1、BRCA2或已知涉及罕见的乳腺癌诱因综合症的基因如Li-Fraumeni综合症中的p53、Cowden综合症中的PTEN的个体中被鉴定。当BRCA1和BRCA2突变源自于多病例家族时它们的外显率的估计值倾向于比当它 们源自于基于群体的估计时更高。这是因为携带不同突变的家族显示不同的乳腺癌外显率 (参见例如Thorlaciuset al.,1997)。有助于该变化的一个主要因素是至今未知的诱因基 因的作用,其作用为修饰BRCA1和BRCA2突变的外显率。因此,携带BRCA1或BRCA2基因突 变的个体的绝对风险在缺少修饰基因存在和作用的知识的情况下不能被精确地量化。因为 BRCA1和BRCA2携带者的治疗选择可能是严重的,所以就此而言,以更大的准确性量化个体 BRCA携带者风险是重要的。因此,存在鉴定诱因基因并基于这些基因发展改善的风险评估 模型的需要,该诱因基因的作用为修饰BRCA1和BRCA2携带者中乳腺癌的外显率。此外,存在察觉到处于非常高的乳腺癌风险的个体,或许因为强的乳腺癌家族史, 但是在他们中,没有已知诱因基因的突变可以被鉴定。在此情况下,考虑预防手术是困难 的,因为不能检验个体以发现她是否已经遗传高外显率诱因基因。因此,个体风险不能被精 确地评估。因此,对于鉴定任何保持未被发现的高外显率诱因基因和发展相关联的用于初 级预防策略的遗传检验,存在明显的临床需要。早期诊断在大多数西方国家,乳腺癌的临床筛选由周期性临床乳房检查(CBE)和X射线乳 房X线照相术组成。有良好的证据表明CBE当用于好的乳房X线照相术筛选计划的情况中 时,具有很少的附加的利益。在英国,介于50和70岁年龄之间的女性被邀请每三年进行筛 选乳房X线照相术。在美国的情况根据医护人员而改变,然而,美国癌症学会推荐从40岁 每年进行乳房X线照相术筛选。乳房X线照相术筛选在减少超过50岁的筛选女性中的死 亡率方面已经证明有效。遗传检验将不可能永远用作降低现有乳房X线照相术筛选计划门槛的工具。然 而,乳房X线照相术筛选并非没有缺点,可以想到,遗传检验应该被用于选择用于增加的筛 选计划的人。乳房X线照相术筛选的缺点之一是其迄今不能证明对50岁以下筛选的女性 的改善生存方面的显著作用。乳房X线照相术在50岁以下女性中较不有效的一个原因可能是在较年轻女性中 乳房组织的密度更高,这使肿瘤的乳房X线照相术检测更困难。然而,在易感个体中乳腺癌 倾向于在年轻年龄组中发生,并且在高乳房密度和乳腺癌风险之间具有明显的关联性。因 此,在具有高诱因的个体的乳房X线照相术筛选中具有简单增加的问题,这是因为他们是 在最高风险的组中由不最理想地进行的技术所处理的。最近的研究已经表明与乳房X线照 相术筛选相比,对比增强磁共振成像(CE-MRI)更灵敏,并且在更早的阶段在该高风险组中 检测到肿瘤(Warner et al.,2004 ;Leach et al.,2005)。CE-MRI策略当与常规X射线乳房 X线照相术组合使用时,运行特别良好(Leach et al. 2005)。因为CE-MRI要求专员中心, 其招致高成本,所以在50岁以下的筛选必须限于处于最高风险的那些个体。目前的CE-MRI 试验限于具有BRCA1、BRCA2或p53突变或非常强的疾病家族史的那些个体进入。该筛选模 式扩展到较宽范围的高风险患者将通过提供基于基因的风险预测工具而得到极大的帮助。有很好的证据支持这样的概念在遗传易感女性中早期发作的乳腺癌和发生的癌 症比在年长的、较不强易感的女性中生长得更快。这来自在年轻女性中更高比率的间期癌 (interval cancer)这一观察结果,也就是说,在充分筛选的群体中,筛选访问之间的间期 中出现癌症在年轻女性中更多。因此,建议筛选间期——无论什么方法——对于年轻女性应该缩小。这里存在矛盾,因为似乎需要对乳腺癌总比率相当低的年龄组使用更昂贵的方 法进行更频繁的筛选。这里存在这样的明显临床需求早期鉴定处于形成该疾病的最强易 感性的那些年轻个体,并引导他们进入更昂贵的和广泛的筛选方案。治疗目前,原发性乳腺癌通过手术、辅助化学疗法、放射治疗,然后进行长期的激素疗 法来治疗。经常,使用三种或四种疗法的组合。具有相同疾病阶段的乳腺癌患者对于辅助化学疗法可以具有非常不同的反应,这 导致综合治疗结果方面较宽的变化。一致性方针(Consensus guidelines) (St Galen和NIH 标准)已被开发用于确定乳腺癌患者对于辅助化学疗法治疗的合格性。然而,甚至最强的 临床和组织学转移预测值也不能精确预测乳房肿瘤的临床反应(Goldhirsch etal. ,1998 ; Eifel et al.,2001)。化学疗法或激素疗法减少转移的风险仅仅大约1/3,然而,接受该治 疗的70-80%的患者没有它的情况下存活。因此,目前,大多数乳腺癌患者被提供无效的或 不必要的治疗。在预后量度的发展中明显存在改善的临床需要,所述预后量度将使临床医 师对将最受益的那些更适当地改变治疗。期望预测个体的遗传易感性可显示与他们的治疗 结果相关的信息并从而帮助合理治疗设计是合理的。几个先前研究例证了该概念当用辅助化学疗法治疗时,乳腺癌患者——其是 BRCA突变携带者——似乎示出更好的临床反应率和存活[Chappuis,et al. , (2002),J Med Genet, 39,608-10 ;Goffin, et al.,(2003),Cancer, 97,527-36]。对于卵巢癌,与非携 带者相比,BRCA突变携带者显示出对钼化学疗法具有改善的反应[Cass,et al.,(2003), Cancer, 97, 2187-95] 相似的考虑可运用于其中涉及的基因未知的易感患者。例如,已知 浸润小叶乳腺癌(ILBC)具有强的家族性成分,但是涉及的遗传性变型还没有被鉴定。ILBC 患者显示对常见化学疗法方案更差的反应[Mathieu,et al.,(2004),Eur J Cancer,40, 342-51]。遗传易感性模型不但可帮助治疗策略的个人化,而且可在这些策略的设计中起完 整的作用。例如,已发现,由于它们的缺陷DNA修复通路,BRCA1和BRCA2突变肿瘤细胞对 聚(ADP-核糖)聚合酶(PARP)抑制剂极度敏感[Farmer, et al.,(2005),Nature,434, 917-21]。考虑到它们特别用于BRCA携带者患者,这已经刺激靶向PARP的小分子药物的开 发。从这个实例可知,显然遗传易感性的知识可鉴定药物靶,其导致与遗传风险预测结合使 用的个人化化学疗法方案的发展。癌症化学疗法对正常组织特别是高度增殖造血和肠上皮细胞隔膜具有公知的剂 量限制的副作用。可以预期,在正常组织对细胞毒性药物的灵敏性方面存在基于遗传的个 体差异。这些因素的理解可能帮助合理治疗设计和开发被设计来保护正常组织免于化学疗 法副作用的药物。遗传预测也可有助于改善的放射治疗方法在进行标准放射治疗方案的乳腺癌患 者组内,一部分患者将经历对正常耐受的辐射剂量的不良反应。急性反应包括红疹、湿性脱 皮(moist desquamation)、浮肿和辐射性肺炎。包括毛细管扩张、浮肿、肺纤维化和乳房纤 维化的长期反应可在放射治疗许多年后出现。急性反应和长期反应都是发病的重要来源, 并且可能是致命的。在一个研究中,87%的患者被发现对放射治疗具有一些不良副作用, 而 11%具有严重的不良反应(LENT/S0MA Grade 3-4) ; [Hoeller, et al.,(2003),Int J Radiat OncolBiol Phys,55,1013-8]。对放射治疗经历不良反应的可能性主要是由于在正常的组织反应方面固有的个体差异,并且怀疑这些具有强的遗传成分。几个已知的乳腺癌 诱因基因(例如BRCA1、BRCA2、ATM)影响DNA双链断裂修复的通路。DNA双链断裂是放射 治疗诱发的主要的细胞毒性损害。这已经导致这样的顾虑通过携带属于这些通路的基因 变体而对乳腺癌遗传上易感的个体也可能处于遭受放射治疗引起的过量正常组织损伤的 更高风险。在群体中组成型放射敏感的个体的存在指大多数患者群体的放射治疗剂量率必 须被限制,以便保持不良反应的频率为可接受水平。因此,对于可鉴定对放射治疗的不良 反应风险升高的个体的可靠检验存在临床需要。这样的检验将对放射敏感的个体指出保 守的或替代治疗,而对相对耐辐射的大多数患者允许放射治疗剂量的增加。已经估计通过 简单地分类乳腺癌患者为放射敏感的、中等的和耐辐射的类型的试验使剂量不断增加成为 可能,这将导致大约35%的局部肿瘤控制增加以及后继的存活率的改善(Burnet et al., 1996)。暴露于电离辐射是促进乳房中肿瘤发生的一个被证实的因素(Dumitrescu和 Cotarla 2005)。已知的乳腺癌诱因基因编码对辐射诱导的DNA损伤进行细胞应答的通路 成分(Narod和Foulkes 2004)。因此,担忧第二原发性乳腺肿瘤的风险可能通过在放射治 疗区域内照射正常的组织而增加。对于BRCA携带者,这似乎没有任何来自放射治疗的可测 量的风险增加,然而它们的第二原发性肿瘤的风险已经特别高。有证据表明第二原发性肿 瘤的风险在放射治疗的ATM和CHEK2基因的乳腺癌易感等位基因携带者中增加(Bernstein et al.,2004 ;Broekset al.,2004)。预期来自放射治疗(和也许来自密集的乳房X线照相 术筛选)的第二原发性肿瘤的风险将通过在治疗计划阶段从患者获得精确的遗传风险概 况来更好地限定。二级预防大约30%的诊断患有1期或2期乳腺癌的患者将经历她们的原始肿瘤的局部_区 域性复发或远侧转移性复发。当已经进行乳房保守外科手术时,或者在对侧乳房或者在同 侧乳房,不具有原发性乳腺癌的患者也具有诊断患有第二原发性肿瘤的极大增加的风险。 二级预防指用于防止复发或第二原发性肿瘤发生的方法。目前应用的方法包含用他莫昔 芬或另一 SERM单独长期治疗或与芳香酶抑制剂交替长期治疗、对侧乳房的降低风险的乳 房切除术和减少风险的卵巢切除术(在处于家族性乳腺癌-卵巢癌的风险中的患者)。关 于利用他莫昔芬的考虑因素已在上面讨论。对于降低风险的手术选择,显然该风险需要尽 可能被量化,以便得到告知的成本收益分析。存在一些迹象对乳腺癌具有已知的遗传易感性的患者比大多数患者生活更差。 携带CHEK2基因llOOdelC变体的患者与非携带者相比,具有估计的2. 8倍的远侧转移风险 增加和 3. 9 倍的疾病复发风险增加[de Bock, et al.,(2004),J Med Genet,41,731-5]。 BRCA1节阴性肿瘤患者比没有携带BRCA1突变的相似患者具有更大的转移风险[Goffin, et al.,(2003), Cancer,97,527-36 ;Moller, et al.,(2002),Int JCancer,101,555—9 ; Eerola, et al.,(2001),Int J Cancer,93,368-72]。因此,遗传预测可用于帮助评估局部 复发和转移的风险,从而指导二级预防治疗的选择。一般而言,具有原发性肿瘤诊断的患者以0. 7%的年恒定发生率处于第二原发性 肿瘤的风险中(Peto和Mack 2000)。具有BRCA突变的患者比大多数乳腺癌患者处于明显 更大的第二原发性肿瘤风险中,其绝对风险在40-60%的范围内(Eastern 1999)。BRCA突变的携带者对于第二原发性肿瘤具有极大的风险增加[StaCey,et al.,(2006),PLoS Med, 3, e217 ;Metcalfe, et al.,(2004),J Clin Oncol, 22,2328-35]。具有 CHEK2 基因突变的 患者具有估计的5. 7倍增加的对侧乳腺癌风险[de Bock, et al.,(2004),J Med Genet, 41,731-5] BARD1 Cys557Ser变体的携带者以2. 7倍更可能诊断患有第二原发性肿瘤 [Stacey,et al.,(2006),PLoS Med, 3, e217]。遗传风险预测可用于在患者中评估第二原 发性肿瘤的风险,并且将告知预防措施应该为多大攻击性的决定。方法乳腺癌的风险评估和诊断的方法在本文描述,并且由本发明所包括。本发明也包 括评估个体应答乳腺癌治疗剂的概率的方法,以及预测乳腺癌治疗剂有效性的方法。本发 明也包括分析来自对象的样品以检测对乳腺癌的易感性的试剂盒。诊断和筛选分析在某些实施方式中,本发明涉及通过检测遗传标记处特定等位基因来诊断或辅助 诊断乳腺癌或对乳腺癌的易感性的方法,所述遗传标记处特定等位基因在乳腺癌对象或易 感乳腺癌的对象中以更高频率出现。在具体的实施方式中,本发明是通过检测至少一个多 态标记(例如,本文描述的标记)的至少一个等位基因来诊断对乳腺癌的易感性的方法。 本发明描述这样的方法,经由该方法,特定标记的特定等位基因或单元型的检测表示对乳 腺癌的易感性。这样的预示或预测分析也可用于在乳腺癌症状开始前,确定对象的预防治 疗。在一些实施方式中,本发明涉及诊断的临床应用的方法,例如通过医学专业人员进行的 诊断。在其他实施方式中,本发明涉及由非专业人员进行诊断或确定易感性的方法。基因 型分型技术中近来的技术的进步,包括SNP标记的高通量基因型分型,例如分子倒置探针 阵列技术(例如 Affymetrix GeneChip)和BeadArray 技术(例如 Illumina GoldenGate和 Infinium分析),已经使个体在相对低的成本下使他们自己的基因组同时得到高达一百万 SNP的评估成为可能。个体可获得的所形成的基因型信息可以与关于不同SNP相关的疾病 或性状风险相关的信息的公开文献进行比较。如本文描述的疾病相关等位基因的诊断运 用,因此可由个体通过他的/她的基因型数据分析进行,或由健康专业人员基于临床检验 的结果进行。换言之,基于遗传风险的易感性的诊断或评估可由健康专业人才、遗传顾问或 非专业人员,基于他的/她的基因型和关于不同风险因素的公开信息而进行。在本文中,术 语“诊断”、“易感性的诊断”和“确定易感性”旨在指任何可用的诊断方法,其包括上述的那 些。另外,在某些其他实施方式中,本发明涉及通过检测特定的遗传标记等位基因或 单元型,诊断或辅助诊断对乳腺癌的易感性降低的方法,所述遗传标记等位基因或单元型 在乳腺癌患者中比没有诊断出乳腺癌的个体中或一般群体中以更低频率出现。如本文描述和示例的,特定标记等位基因或单元型(例如,位于rs4848543LD区 段、rsl3387042LD 区段、rs3803662LD 区段、STEAP3/TSAP6 基因内的标记,在表 10、表 15、 表19、表20、表21和表22中列出的标记和单元型,以及与它们连锁不平衡的标记)与乳 腺癌(例如所有BC和/或MedPre乳腺癌)相关联。在一个实施方式中,标记等位基因或 单元型是赋予显著的乳腺癌风险或对乳腺癌的易感性的标记等位基因或单元型。在另一 实施方式中,本发明涉及在人类个体中诊断对乳腺癌的易感性的方法,该方法包括确定至 少一个多态标记的至少一个等位基因在从该个体获得的核酸样品中存在或不存在,其中所 述至少一个多态标记选自位于rs4848543LD区段、rsl3387042LD区段、rs3803662LD区段、 STEAP3/TSAP6基因内的多态标记,在表10、表15、表19、表20、表21和表22中列出的标记和单元型,以及与它们连锁不平衡的标记(例如定义为r2 > 0. 2)。在另一实施方式中,本 发明涉及在人类个体中诊断对乳腺癌的易感性的方法,其通过筛选至少一个标记等位基因 或单元型,例如位于 rs4848543LD 区段、rsl3387042LD 区段、rs3803662LD 区段、STEAP3/ TSAP6基因内的标记,在表10、表15、表19、表20、表21和表22中列出的标记和单元型,以 及与它们连锁不平衡的标记而进行。在另一实施方式中,所述标记等位基因或单元型与在 健康对象(对照,例如群体对照)中存在的频率相比,在患有或易感乳腺癌(受影响的,所 有BC或MedPre乳腺癌)的对象中以更高频率存在。在另一个实施方式中,本发明涉及在 人类个体中诊断对乳腺癌的易感性的方法,该方法包括确定至少一个多态标记的至少一个 等位基因在从该个体获得的核酸样品中存在或不存在,其中所述至少一个多态标记选自标 记rs4848543、标记rsl3387042、标记rs3803662和与它们连锁不平衡的标记。在某些实 施方式中,至少一个标记等位基因或单元型的关联性的显著性的特征为P值< 0. 05。在其 他实施方式中,关联性的显著性的特征为较小的P值,例如< 0.01、< 0. 001、< 0. 0001、 < 0. 00001、< 0. 000001、< 0. 0000001, < 0. 00000001 或< 0. 000000001。在这些实施方式中,至少一个标记等位基因或单元型的存在表示对乳腺癌的易感 性。这些诊断方法包括检测存在或不存在与乳腺癌相关的至少一个标记等位基因或单元 型。本文描述的单元型包括不同遗传标记(例如SNP、微卫星)处的等位基因的组合。组成 特定单元型的特定遗传标记等位基因的检测可以通过本文描述的和/或本领域已知的多 种方法进行。例如,遗传标记可以在核酸水平(例如,通过直接核苷酸测序或通过本领域普 通技术人员已知的其他方法)或在氨基酸水平——如果遗传标记影响乳腺癌关联核酸编码 的蛋白质的编码序列的话——(例如通过蛋白质测序或者通过使用识别这类蛋白质的免疫 测定)进行检测。本发明的标记等位基因或单元型相应于与乳腺癌相关的基因组DNA序列 的片段。这类片段包括正被讨论的多态标记或单元型的DNA序列,但是也可包括与所述标 记或单元型强LD (连锁不平衡)的DNA片段(例如,通过r2的值大于0.2和/或|D’ | > 0.8确定的)。在一个实施方式中,对乳腺癌的易感性的诊断可以使用杂交方法,例如DNA分析、 RNA 分析禾口 / 或原位杂交进行(参见 CurrentProtocols in Molecular Biology, Ausubel, F.等,eds. John Wiley&Sons,包括所有的附录)。来自检测对象或个体、具有基因组DNA、 RNA或cDNA的生物样品(“检测样品”)从怀疑患有、易感或易患乳腺癌的对象(“检测对 象”)获得。对象可以是成人、儿童或胎儿。检测样品可以来自包含基因组DNA的任何来源, 例如血样;羊水样品;脑脊液样品;或者来自皮肤、肌肉、口腔、或结膜粘膜、胎盘、胃肠道或 其他器官的组织样品。来自胎细胞或组织的DNA检测样品可以通过适当的方法获得,例如 通过羊膜穿刺术或绒毛膜绒毛取样。然后检验DNA、RNA或cDNA样品。特异性标记等位基因 的存在可以通过对特定等位基因特异性的核酸探针的序列特异性杂交来表示。一个以上特 异性标记等位基因或特异性单元型的存在可以通过使用数种序列特异性核酸探针来表示, 所述探针的每一个对特定的等位基因特异性。在一个实施方式中,单元型可以通过对特异 性单元型特异性(即与包含所述单元型特有的特异性标记等位基因的DNA链特异性杂交) 的单个核酸探针表示。序列特异性探针可以涉及与基因组DNA、RNA或cDNA杂交。如本文 使用的“核酸探针”可以是DNA探针或RNA探针,其与互补序列杂交。本领域普通技术人员 将明白如何设计这样的探针,以便序列特异性杂交将仅当特定等位基因存在于来自检测样品的基因组序列中时发生。为了诊断对乳腺癌的易感性,通过将含有乳腺癌关联核酸的检测样品(例如基因 组DNA样品)与至少一种核酸探针接触,形成杂交样品。检测mRNA或基因组DNA的非限定性 实例是标记的、能与本文描述的mRNA或基因组DNA序列杂交的核酸探针。核酸探针可以是 例如,全长核酸分子或其一部分,例如至少15、30、50、100、250或500个核苷酸长度的寡核 苷酸,其在严格条件下足以特异性地与适当的mRNA或基因组DNA杂交。例如,核酸探针可以 包含如本文描述的SEQ ID N0:4、SEQ IN N0:5或SEQ ID NO :6中列出的的核苷酸序列的全 部或一部分,rs4848543LD 区段、rsl3387042LD 区段、rs3803662LD 区段和 / 或 STEAP3/TSAP 基因的核苷酸序列的全部或一部分,任选地其包含本文描述的标记的至少一个等位基因或 本文描述的至少一个标记或单元型(例如表10、表15、表19、表20、表21和表22中列出的 标记和单元型,以及与它们连锁不平衡的标记),或者探针可以是这类序列的互补序列。在 具体的实施方式中,核酸探针是如本文描述的SEQ ID N0:4、SEQ IN NO :5或SEQ ID NO 6 中列出的的核苷酸序列的一部分;或rs4848543LD区段、rsl3387042LD区段、rs3803662LD 区段和/或STEAP3/TSAP基因的核苷酸序列的一部分,任选地其包含本文描述的标记的至 少一个等位基因(例如表10、表15、表19、表20、表21和表22中列出的标记和单元型,以 及与它们连锁不平衡的标记)或包含在本文描述的单元型内的至少一个等位基因,或者探 针可以是这类序列的互补序列。用于本发明的诊断分析的其他适合的探针在本文描述。 可以通过本领域普通技术人员已知的方法进行杂交(参见例如,Current Protocols in Molecular Biology, Ausubel, F.等,eds.,John Wiley&Sons,包括所有的附录)。在一个 实施方式中,杂交指特异性杂交,即没有错配的杂交(精确杂交(exact hybridization))。 在一个实施方式中,特异性杂交的杂交条件是高度严格的。特异性杂交——如果存在,那么使用标准方法检测。如果特异性杂交在核酸探针 与检测样品中乳腺癌关联核酸之间发生,那么该样品含有与在核酸探针中存在的核苷酸互 补的等位基因。可对本发明的其他标记或组成本发明单元型的标记重复该过程,或者同时 使用多个探针,以同时检测一个以上标记等位基因。也可能设计含有特定单元型的一个以 上标记等位基因的单一探针(例如含有与组成特定单元型的2个、3个、4个、5个或全部标 记互补的等位基因)。检测在样品中单元型中的特定标记表示所述样品的来源具有特定单 元型(例如单元型),因此是乳腺癌易感的。在一个优选的实施方式中,利用在其3’端包含荧光部分或基团并且在其5’端包 含猝灭剂的检测寡核苷酸探针、以及增强子寡核苷酸的方法被使用,如Kutyavin等描述 的(Nucleic Acid Res. 34 :el28 (2006))。荧光部分可以是 Gig Harbor Green 或 Yakima Yellow或其它适当的荧光部分。设计检测探针以与包含待检测的SNP多态性的短核苷酸 序列杂交。优选地,SNP是在从末端残基至自检测探针的3’端开始的_6残基之间的任何 地方。增强子是短的寡核苷酸探针,其与相对于检测探针的DNA模板3’端杂交。设计探针 以致当检测探针和增强子核苷酸探针都结合到模板时,在检测探针和增强子核苷酸探针之 间存在单核苷酸缺口。该缺口产生合成的、内切核酸酶例如内切核酸酶IV识别的脱碱基位 点。该酶将染料从完全互补的检测探针切割开,但是不切割包含错配的检测探针。因此,通 过测量释放的荧光部分的荧光,可以进行由检测探针的核苷酸序列限定的特定等位基因存 在性的评估。
检测探针可以是任何适当的大小,但是优选地探针是相对短的。在一个实施方式 中,探针的长度为5-100个核苷酸。在另一实施方式中,探针的长度为10-50个核苷酸,并 且在另一实施方式中,探针的长度为12-30个核苷酸。其他长度的探针是可能的,并且在本 领域普通技术人员的技术范围内。在优选的实施方式中,在检测之前,包含SNP多态性的DNA模板 通过聚合酶链式反 应(PCR)被扩增。在这样一个实施方式中,扩增的DNA作为检测探针和增强子探针的模板。检测探针、增强子探针和/或用来通过PCR扩增模板的引物的某些实施方式包括 应用修饰碱基,其包括修饰的A和修饰的G。修饰碱基的应用可以被用于根据模板DNA调节 核苷酸分子(探针和/或引物)的解链温度,例如用于在包含低百分比G或C碱基的区域 中增加解链温度,其中可以使用具有与其互补的T形成三个氢键的能力的修饰的A,或者用 语在包含高百分比的G或C碱基的区域中降低解链温度,例如通过使用修饰的G碱基,其在 双链DNA分子中与其互补的C碱基仅形成两个氢键。在优选的实施方式中,修饰碱基被用 于设计检测核苷酸探针。本领域技术人员已知的任何修饰碱基可在这些方法中被选择,并 且基于本文的教导和从技术人员已知的商业来源可获得的已知碱基,适当碱基的选择在本 领域普通技术人员的范围内。在另一个杂交方法中,RNA分析(参见Current Protocols inMolecular Biology, Ausubel, F.等,eds.,John ffiley&Sons,出处同上)被用于鉴定与乳腺癌相关的多态性的 存在。对于RNA分析,RNA检测样品通过适当方式从对象获得。如本文所述,核酸探针与来 自对象的RNA的特异性杂交表示与探针互补的特定等位基因。对于核酸探针应用的代表性 实例参见例如美国专利号5,288,611和4,851,330。另外或可选地,除了核酸探针之外或者代替核酸探针,在本文描述的杂交方法中 可以使用肽核酸(PNA)探针。PNA是具有肽样、无机骨架例如N-(2-氨乙基)甘氨酸单元 的DNA模拟型,其中有机碱基(A、G、C、T或U)经由亚甲基羰基连接子连接到甘氨酸氮(参 见例如,Nielsen, P.等,Bioconjug. Chem. 5 :3_7(1994))。PNA探针可以被设计,以与样品 中的分子特异性杂交,该样品被怀疑含有一个或多个与乳腺癌相关的标记等位基因或单元 型。因此,PNA探针的杂交对于乳腺癌或乳腺癌易感性是诊断性的。在本发明的一个实施方式中,收集含有从对象中获得的基因组DNA的检测样品, 并且使用聚合酶链式反应(PCR)扩增包含本发明的一个或多个标记或单元型的片段。如本 文描述的,鉴定与乳腺癌相关的特定标记等位基因或单元型可以使用多种方法来实现(例 如序列分析、通过限制性消化的分析、特异性杂交、单链构象多态性分析(SSCP)、电泳分析 等)。在另一实施方式中,通过使用定量PCR(动力学热循环)的表达分析完成诊断。该技术 可以例如利用商业可获得的技术例如TaqMan (Applied Biosystems, Foster City CA)。 该技术可以评估在由与乳腺癌关联的核酸编码的多肽或剪接变体(一种或多种)的表达或 组成方面变化的存在。此外,变体(一种或多种)的表达可以被量化为物理上或功能上不 同。在本发明的另一方法中,通过限制性消化的分析可用于检测特定的等位基因,如 果该等位基因导致相对于参考序列限制性位点产生或消除的话。可以进行限制性片段长度 多态性(RFLP)分析,例如,如在出处同上的Current Protocols in Molecular Biology中 描述的。相关DNA片段的消化模式表示该特定的等位基因在样品中存在或不存在。
序列分析也可以用于在与乳腺癌相关联的多态位点(例如表10、表15、表19、表 20、表21和/或表22的多态标记和单元型,以及与它们连锁不平衡的标记)处检测特异性 等位基因。因此,在一个实施方式中,确定特定标记等位基因或单元型存在或不存在包括对 从对象或个体获得的DNA或RNA检测样品进行序列分析。PCR或其他适当的方法可用于扩 增乳腺癌关联核酸的一部分,并且然后可通过测序样品中基因组DNA的多态位点(或单元 型中多个多态位点)而直接检测特异性等位基因的存在。等位基因-特异性寡核苷酸也可用于在乳腺癌关联核酸处检测特定等位基因的 存在性(例如表10、表15、表19、表20、表21和表22的多态标记和单元型,以及与它们连 锁不平衡的标记),这通过应用扩增的寡核苷酸与等位基因-特异性寡核苷酸(ASO)探针的 斑点印迹杂交(dot-blot hybridization)而进行(参见,例如,Saiki,R. et al·,Nature, 324 163-166 (1986))。“等位基因-特异性寡核苷酸”(本文也称为“等位基因_特异性寡 核苷酸探针”)是大约10-50个碱基对或大约15-30个碱基对的寡核苷酸,其与乳腺癌关 联核酸特异性杂交,并且其在多态位点包含特异性等位基因(例如本文描述的标记或单元 型)。对一个或多个特定乳腺癌关联核酸特异性的等位基因_特异性寡核苷酸探针可使用 标准方法进行制备(参见,例如Current Protocols in Molecular Biology,同上)。PCR 可被用于扩增期望的区域。含有该扩增区域的DNA可使用标准方法进行斑点-印迹(参见, 例如Current Protocols in Molecular Biology,同上),并且印迹可与寡核苷酸探针相接 触。然后,可以检测探针与扩增的区域的特异性杂交的存在。等位基因-特异性寡核苷酸探 针与来自对象的DNA特异性杂交表示在与乳腺癌相关联的多态位点的特异性等位基因(参 见,例如 Gibbs,R. et al.,Nucleic Acids Res. , 17 :2437_2448 (1989)和 WO 93/22456)。在加入这些类似物作为锁核酸(locked nucleic acid, LNA)的情况下,引物和探 针的大小可被减少至8个碱基。LNA是一类新的双环DNA类似物,其中呋喃糖环中的2'和 4 ‘位置经由0-亚甲基(氧-LNA)、S-亚甲基(硫-LNA)或氨基亚甲基(氨基-LNA)部分加 以连接。所有这些LNA变体的共同之处是对互补核酸的亲和性,到目前为止,这是对于DNA 类似物所报道的最高亲和性。例如,特定的全氧-LNA九聚体已示出当与互补DNA或RNA复 合时具有64°C和74°C的解链温度(Tm),与之相反,对于相应的DNA九聚体,对于DNA和RNA 为28°C。当LNA单体与标准DNA或RNA单体结合使用时,也获得Tm的实质性增加。对于引 物和探针,依赖于包括LNA单体的位置(例如,3'端、5'端或中间),Tm可以大量增加。在另一实施方式中,与来自对象的靶核酸序列片段互补的寡核苷酸探针阵列可被 用于鉴定乳腺癌关联核酸中的多态性(例如表10、表15、表19、表20、表21和表22的多态 标记和单元型,以及与它们连锁不平衡的标记)。例 如,可以使用寡核苷酸阵列。寡核苷酸 阵列一般包括在不同的已知位置与基底表面连接的多个不同寡核苷酸探针。这些寡核苷酸 阵列也称为“Genechips ”,其已在本领域普遍地描述(参见,例如美国专利号5,143,854、 PCT专利公布号WO 90/15070和92/10092)。通常,这些阵列可以使用机械合成方法生产,所 述方法合并照相平版印刷法和固相寡核苷酸合成法的组合,或通过本领域普通技术人员已 知的其他方法生产(参见例如Fodor,S.等,Science, 251 :767-773 (1991) ;Pirrung等,美 国专利号5,143,854 (也参见出版的PCT申请WO 90/15070);和Fodor. S.等,出版的PCT申 请TO 92/10092和美国专利号5,424,186,其每一篇的完整的教导被并入本文作为参考)。 使用机械合成方法合成这些阵列的技术在例如美国专利号5,384,261中描述;其完整的教导被并入本文作为参考。在另一个实例中,可以使用线性阵列。一旦寡核苷酸阵列被制备,目的核酸被允许与该阵列杂交。杂交检测是在目的核 酸中检测特定的等位基因。杂交和扫描通常通过本文所述的方法或本领域普通技术人员 已知的其他方法进行,例如在公布的PCT申请W092/10092和W095/11995以及美国专利号 5,424,186中描述的方法,其每一篇的全部教导通过引用被并入本文。简而言之,靶核酸序 列——其包括一个或多个先前鉴定的多态标记——通过公知的扩增技术(例如PCR)扩增。 一般地,这涉及应用从多态位点的上游和下游与靶序列的两条链互补的引物序列。不对称 PCR技术也可以被使用。然后,使扩增的靴——其通常并入标记——与该阵列在允许序列特 异性杂交的适当条件下杂交。在阵列的杂交和洗涤完成后,该阵列被扫描以确定该阵列上 的靶序列杂交的位置。从该扫描获得的杂交数据一般为荧光强度形式,其为该阵列上位置 的函数。
尽管主要在单一检测单元方面进行描述,例如用于单一多态位点的检测,但是阵 列可以包括多个检测单元,并且因此能分析多个特异性多态性(例如特定单元型的多个多 态性)。在可选的排列中,通常理解,检测单元可以在单一阵列内或在多个单独的阵列中进 行分组,以便在将靶与阵列杂交期间可以使用不同的最优条件。例如,经常期望提供对那些 落入基因组序列的富含G-C片段的多态性的检测,其与落入富含A-T片段的那些分开。这 允许对每一情况的杂交条件进行单独优化。应用寡核苷酸阵列检测多态性的另外的描述可见于例如美国专利号5,858,659 和5,837,832中,这两篇的完整的教导通过引用被并入本文。本领域普通技术人员可用的核酸分析的其他方法可用于检测与乳腺癌关联的 多态位点处的特定等位基因(例如,表10、表15、表19、表20、表21和表22的多态标 记和单元型,以及与它们连锁不平衡的标记)。代表性的方法包括例如,直接手动测序 (Church andGiIbert, Proc. Natl. Acad. Sci. USA, 81 :1991_1995 (1988) ;Sanger, F.,等, Proc. Natl. Acad. Sci. USA, 74 :5463_5467 (1977) ;Beavis,等,美国专利号 5,288,644); 自动荧光测序;单链构象多态性分析(SSCP);夹固变性凝胶电泳(clamped denaturing gel electrophoresis) (CDGE);变性梯度凝胶电泳(DGGE) (Sheffield, V.,等,Proc. Natl. Acad. Sci. USA, 86 :232_236 (1989))、迁移率变动分析(mobility shift analysis) (Orita, M·,等,Proc. Natl. Acad. Sci. USA,86 :2766_2770 (1989))、限制酶分析(Flavell, R.,等, Cell, 15 25-41(1978) ;Geever, R.,等,Proc. Natl. Acad. Sci. USA, 78 :5081_5085 (1981)); 异源双链分析;化学错配碱基裂解法(CMC) (Cotton, R.,等,Proc. Natl. Acad. Sci. USA, 85 4397-4401(1985)) ;RNase 保护测定(Myers, R.,等,Science, 230 1242-1246 (1985);识别 核苷酸错配的多肽的应用,例如大肠杆菌(E. C0li)mutS蛋白;和等位基因_特异性PCR。在本发明的另一实施方式中,在本发明的遗传标记(一种或多种)或单元型(一 种或多种)导致多肽的组成或表达改变的那些情况下,诊断乳腺癌或对乳腺癌的易感性可 以通过检验乳腺癌关联核酸编码的多肽的表达和/或组成来进行。因此,在本发明的遗传 标记或单元型导致多肽的组成或表达改变的那些情况下,诊断对乳腺癌的易感性可通过检 验这些多肽之一、或乳腺癌关联核酸编码的另一多肽的表达和/或组成来进行。显示出与 乳腺癌关联性的本发明的单元型和标记可通过它们对一个或多个这些附近基因的影响而 发挥作用。影响这些基因的可能的机制包括例如影响转录、影响RNA剪接、mRNA的选择性剪接形式的相对数量的改变、影响RNA稳定性、影响从原子核到细胞质的转运和影响翻译 的效率和准确度。因此,在另一个实施方式中,显示与乳腺癌关联性的本发明的变体(标记或单元 型)影响附近基因的表达。公知地,影响基因表达的调控元件可位于基因的启动子区域的 远处,甚至远至间隔数十个或甚至数百个千碱基。通过分析本发明的至少一个多态标记的 至少一个等位基因的存在或不存在,因此可能评估这样的附近基因的表达水平。因此考虑 的是,检测本发明的标记或单元型可被用于评估一种或多种STEAP3/TSAP6、L0C643714和 TNRC9基因的表达。多种方法可用于检测蛋白质表达水平,包括酶联免疫吸附测定(ELISA)、蛋白质印 迹、免测沉淀法和免疫荧光法。评估来自对象的检测样品在由乳腺癌关联核酸编码的多肽 的表达改变和/或组成改变的存在性。由乳腺癌关联核酸编码的多肽的表达的改变可以是 例如定量的多肽表达(即产生多肽的量)方面的改变。由乳腺癌关联核酸编码的多肽的组 成改变是定性的多肽表达(例如突变体多肽或不同剪接变体的表达)方面的改变。在一个 实施方式中,诊断对乳腺癌的易感性通过检测由乳腺癌关联核酸编码的特定剪接变体或剪 接变体的特定模式来进行。 这样的两种改变(定量的和定性的)也可都存在。如本文使用的,多肽表达或组 成的“改变”指与对照样品中乳腺癌关联核酸编码的多肽的表达或组成相比,检测样品中表 达或组成的改变。对照样品是相应于检测样品(例如来自同一类型的细胞)并且来自没有 受乳腺癌影响和/或不对乳腺癌具有易感性的对象的样品。在一个实施方式中,对照样品 来自不具有本文描述的标记等位基因或单元型的对象。类似地,与对照样品相比,在检测 样品中存在一种或多种不同剪接变体,或者在检测样品中存在显著不同数量的不同剪接变 体,可以表示对乳腺癌的易感性。在等位基因相对于对照样品中的参考改变剪接位点的那 些情况中,与对照样品相比,检测样品中多肽的表达或组成的改变可以表示特异性等位基 因。检查由乳腺癌关联核酸编码的多肽的表达或组成的不同方法可以被使用,其包括光谱 法、比色法、电泳、等电聚焦和免疫测定(例如David等美国专利号4,376,110)例如免疫印 迹(参见例如,Current Protocols in Molecular Biology,特别是第10章,出处同上)。例如,在一个实施方式中,能够与乳腺癌关联核酸编码的多肽结合的抗体(例如, 具有可检测标记的抗体)可被使用。抗体可以是多克隆的或单克隆的。完整的抗体或其片 段H^^nFv、Fab、Fab,、F(ab,)2)可被使用。对于探针或抗体,术语“标记的”,意图包括通 过将可检测的物质偶联(即物理连接)到探针或抗体而直接标记探针或抗体,以及通过与 直接标记的另一试剂的反应而间接标记探针或抗体。间接标记的实例包括使用标记的二抗 (例如荧光标记的二抗)检测一抗以及用生物素末端标记DNA探针,使得其可以用荧光标记 的链霉抗生物素检测。在该方法的一个实施方式中,将检测样品中由乳腺癌关联核酸(例如,编码 STEAP3/TSAP6、L0C643714或TNRC9基因的核酸)编码的多肽的水平或数量与对照样品中所 述多肽的水平或数量相比较。检测样品中多肽的水平或数量高于或低于对照样品中多肽的 水平或数量——使得差异是统计学显著的——表示由所述核酸编码的多肽的表达的改变, 并且对于对引起表达差异负责的特定等位基因或单元型而言是诊断性的。可选地,将检测 样品中多肽的组成与对照样品中多肽的组成相比较。在另一实施方式中,在检测样品中和对照样品中,多肽的水平或数量和组成可以都被评估。在另一实施方式中,诊断对乳腺癌的易感性通过检测本发明的至少一种标记或单 元型(表10、表15、表19、表20、表21和表22的标记和单元型以及与它们连锁不平衡的标 记的关联等位基因)与另外的基于蛋白质、基于RNA或基于DNA的分析联合进行。本发明 的方法也可与对象的家族史和风险因素(例如环境风险因素、生活方式风险因素)的分析 联合应用。试剂盒可用于本发明方法的试剂盒包括可用于本文描述的任何方法的组分,包括例如, 杂交探针、限制性内切酶(例如,用于RFLP分析)、等位基因-特异性寡核苷酸、与本文描述 的发明的核酸(例如包含本发明的至少一个多态标记和/或单元型的基因组区段)编码的 改变的多肽结合的抗体、或由本文描述的本发明的核酸编码的未改变的(天然的)多肽;扩 增乳腺癌关联核酸的工具;分析乳腺癌关联核酸的核酸序列的工具;分析由乳腺癌关联核 酸编码的多肽的氨基酸序列的工具;等。例如,试剂盒可以包括必要的缓冲液、用于扩增本 发明核酸(例如,本文描述的多态标记的一个或多个)的核酸引物和用于使用这样的引物 和必要的酶(例如DNA聚合酶)扩增的片段的等位基因-特异性检测的试剂。另外,试剂 盒可以提供用于与本发明的方法联合使用的分析试剂,例如用于乳腺癌诊断分析的试剂。在一个实施方式中,本发明是用于分析来自对象的样品以检测对象中乳腺癌存在 性或对乳腺癌易感性的试剂盒,其中试剂盒包括在个体基因组中选择性检测本发明的至少 一个多态性的至少一个等位基因所必需的试剂。在具体的实施方式中,试剂包括至少一种 与包含本发明的至少一个多态性的个体基因组的片段杂交的相邻寡核苷酸。在另一实施方 式中,试剂包含与从对象获得的基因组片段的相反链杂交的至少一对寡核苷酸,其中每个 寡核苷酸引物对被设计以选择性扩增包括至少一个多态性的个体基因组的片段,其中所述 多态性选自在表10、表15、表19、表20、表21和表22中列出的多态性和与它们连锁不平衡 的多态标记。在又一个实施方式中,片段的大小为至少20个碱基对。这样的寡核苷酸或核 酸(例如寡核苷酸引物)可以使用指示乳腺癌的多态性(例如SNP或微卫星)侧翼的核酸 序列的一部分进行设计。在另一实施方式中,试剂盒包含能够等位基因特异性检测一个或 多个与乳腺癌相关联的特异性多态标记或单元型的一种或多种标记的核酸,以及用于检测 该标记的试剂。适合的标记包括例如放射性同位素、荧光标记、酶标记、酶辅因子标记、磁标 记、_旋标记、表位标记。在具体的实施方式中,待由所述试剂盒的试剂检测的多态标记或单元型包括选自 表10、表15、表19、表20、表21和表22中的标记的一个或多个标记、两个或更多个标记、 三个或更多个标记、四个或更多个标记或者五个或更多个标记。在一个实施方式中,待被 检测的标记选自表10、表15或表19中的标记。在一个实施方式中,待被检测的标记选自 表10中的标记。在另一个实施方式中,待被检测的标记选自表15中的标记。在另一个实 施方式中,待被检测的标记选自表19中的标记。在优选的实施方式中,待被检测的标记是 rs4848543、rsl33 87042和/或rs3803662。其他优选的实施方式包括包含用于检测标记 rs4848543的试剂的那些实施方式,包含用于检测标记rsl3387042的试剂的那些实施方式 和包含用于检测标记rs3803662的试剂的那些实施方式。在另一个实施方式中,待被检测 的标记或单元型包括至少一个标记,其来自与选自表10、表15、表19、表20、表21和表22中 列出的标记的至少一个强连锁不平衡的标记组,所述强连锁不平衡如由r2的值大于0. 2所限定。在又一实施方式中,待被检测的标记或单元型包括选自标记rs4848543、rsl3387042 和rs3803662以及与它们连锁不平衡的标记的至少一个标记。在一个这样的实施方式中,标记或单元型的存在表示对乳腺癌的易感性(易感性 增加或易感性降低)。在另一实施方式中,标记是rs4848543等位基因A、rsl3387042等位 基因A、和/或rs3803662等位基因T,其存在表示乳腺癌(例如所有BC和/或MedPre乳 腺癌)的风险增加。在又一实施方式中,标记或单元型的存在表示对乳腺癌治疗剂的响应。 在另一实施方式中,标记或单元型的存在指示乳腺癌的预后。在又一实施方式中,标记或单 元型的存在指示治疗乳腺癌的进展。这样的治疗可包括通过手术、药物、放射治疗疗法或通 过其它方式(例如生活方式改变)干预。与本发明的多态性相关联的乳腺癌的诊断尽管诊断方法已在诊断对乳腺癌易感性的上下文中进行了一般性描述,但是该方 法也可以被用于诊断与本发明的多态标记相关联的乳腺癌。例如,具有乳腺癌或与乳腺癌 相关联的风险因素的个体可以被评估,以确定在该个体中存在本发明的多态性或单元型是 否可能在该个体已经成为乳腺癌促进因素。在一个实施方式中,鉴定与本发明的标记和/ 或单元型相关联的乳腺癌有助于治疗计划。例如,最小化形成乳腺癌的个体发生的预防治 疗可以被施用。这样的预防治疗也可以包括评估个体对于本发明的风险变体是杂合的或纯 合的。在本发明的其他实施方式中,治疗可以被设计,并且治疗被选择以靶向与本发明的多 态性和/或单元型相关联的适当的基因或蛋白质。 在其它的实施方式中,本发明涉及在对象中诊断和鉴定与本发明的多态性相关联 的乳腺癌的方法,这通过鉴定本发明的多态标记或单元型的存在而进行,如本文详细描述 的。例如,发现本文所述的多态标记和/或单元型在具有乳腺癌的对象中比在没有受乳腺 癌影响的对象中更频繁。因此,这些标记和/或单元型对诊断乳腺癌具有预测价值。在一 个实施方式中,对检测乳腺癌具有预测价值的标记或单元型包括选自表10、表15、表19、表 20、表21和表22中的标记的一个或多个标记。在另一个实施方式中,对诊断乳腺癌的具有 预测价值的标记选自标记rs4848543、rsl3387042和rs3803662,以及与它们连锁不平衡的 标记。在另一个实施方式中,对诊断乳腺癌具有预测价值的标记等位基因包括 rs4848543等位基因A、rsl3387042等位基因A和rs3803662等位基因T,以及与它们连锁 不平衡的标记。因此,本文描述的方法可用于评估来自对象的样品存在或不存在标记的特异性等 位基因、或单元型;存在或不存在标记的特异性等位基因、或单元型,表示对乳腺癌的敏感 性。在本发明的一个实施方式中,通过检测本发明的多态性,进行与本发明的多态性 和/或单元型相关联的乳腺癌的诊断。特定的多态性在本文描述(参见例如表10、表15、 表19、表20、表21和表22和与它们连锁不平衡的标记)。基因组DNA、RNA或cDNA的检测 样品从患有乳腺癌的对象获得以确定该疾病是否与本发明的一个或多个多态性相关联。然 后,检测DNA、RNA或cDNA样品以确定本发明的多态性的特异性等位基因或特异性单元型是 否被发现存在于该样品中。如果发现核酸样品含有多态性的特异性等位基因或单元型,那 么等位基因或单元型的存在表示与多态性和/或单元型相关联的乳腺癌。本领域普通技术人员已知的方法——其包括但不限于杂交方法例如RNA分析、DNA分析、定量PCR、原位杂交、限制消化或序列分析——可用于检测多态性。使用多种方法—— 其包括酶联免疫吸附测定(ELISA)、蛋白质印迹、免测沉淀和免疫荧光或其他本领域普通技 术人员已知的方法,通过检测与本发明的多态性相关联的核酸编码的多肽的表达和/或组 成,也可进行与本发明的多态性相关联的乳腺癌的诊断。治疗剂本发明的变体(例如,本发明的标记和/或单元型,例如在表10、表15和表19中 的任何一个中列出的标记)可用于鉴定乳腺癌的新型治疗靶标。例如,包含与乳腺癌相关 联的变体(标记和/或单元型)或与乳腺癌相关联的变体(标记和/或单元型)连锁不平 衡的基因或者它们的产物(例如,STEAP3/TSAP6基因、L0C643714基因和/或TNRC9基因的 一个或多个),以及受这些变体基因或它们的产物直接或间接调控或者与这些基因或它们 的产物相互作用的基因或它们的产物,可被靶向,以开发治疗乳腺癌的治疗剂。治疗剂可包 括例如非蛋白质和非核酸小分子、蛋白质、肽、蛋白质片段、核酸(DNA、RNA)、PNA(肽核酸) 或它们的衍生物或模拟物的一种或多种,其可调节靶基因或它们的基因产物的功能和/或 水平。本发明的核酸和/或变体,或包含它们的互补序列的核酸可被用作调控细胞、组 织或 器官中的基因表达的反义构建物。与反义技术相关的方法是技术人员公知的,并且 在 Antisense Drug Technology Principles, Strategies, and Applications, Crooke, ed.,Marcel Dekker Inc.,New York(2001)中描述和综述。一般而言,反义核酸分子被设 计为与基因表达的mRNA的区域互补,以便反义分子与mRNA杂交,因此阻断mRNA翻译为蛋 白质。数类反义寡核苷酸是本领域技术人员已知的,其包括切割剂(cleaver)和阻断剂 (blockers)。前者与靶RNA位点结合,激活胞内核酸酶(例如RnaseH或Rnase L),其切割靶 RNA。阻断剂与靶RNA结合,通过核糖体的位阻抑制蛋白质翻译。阻断剂的实例包括核酸、吗 啉化合物、锁定核酸和甲基膦酸酯(Thompson,Drug DiscoveryToday, 7 912-917 (2002)) 反义寡核苷酸可直接用作治疗剂,并且也可用于确定和验证基因功能,例如通过基因敲除 或基因敲低实验。反义技术进一步在下述中描述Lavery等,Curr. Opin. Drug Discov. Devel. 6 :561_569 (2003),Stephens 等,Curr. Opin. Mol. Ther. 5 118-122 (2003),Kurreck, Eur. J. Biochem. 270 1628-44 (2003) , Dias 等,Mol. Cancer Ter. 1 347-55 (2002), Chen, Methods Mol. Med. 75 :621_636(2003),Wang 等,Curr. Cancer Drug Targets 1 177-96(2001),和 Bennett,Antisense NuceicAcid Drug. Dev. 12 :215_24(2002)。本文描述的变体可被用于对特定变体特异性的反义试剂的选择和设计。使用关于 本文描述的变体的信息,特异性靶向含有本发明的一个或多个变体的mRNA分子的反义寡 核苷酸或其他反义分子可以被设计。用这样的方式,含有本发明的一个或多个变体(标记 和/或单元型)的mRNA分子的表达可被抑制或阻断。在一个实施方式中,设计反义分子为 特异性结合靶核酸的特定等位形式(即一个或数个变体(等位基因和/或单元型)),从而 抑制源于该特异性等位基因或单元型的产物的翻译,但是其没有结合于靶核酸分子的特异 性多态位点处的其他或可选变体。因为反义分子可用于失活mRNA以便抑制基因表达并因此抑制蛋白质表达,所以 该分子可用于治疗乳腺癌。该方法可包括通过含有与mRNA中的一个或多个区域互补的核 苷酸序列的核酶进行切割,这削弱了 mRNA被翻译的能力。这样的mRNA区域包括例如,蛋白 质编码区——特别是与催化活性相应的蛋白质编码区,底物和/或配体结合位点或蛋白质的其他功能结构域。RNA干扰(RNAi)现象自从其在线虫(C. elegans)中最初发现(Fire等,Nature 391 806-11(1998))已被活跃地研究了几十年,并且在近些年里,其在治疗人类疾病中 的潜在应用已被积极地探索(在Kim&Rossi,Nature Rev. Genet. 8 173-204(2007)中 综述)。RNA干扰(RNAi),也称为基因沉默,基于使用双链RNA分子(dsRNA)来关闭特 异性基因。在细胞中,细胞质的双链RNA分子(dsRNA)通过细胞复合体加工为小的干扰 RNA(siRNA)。siRNA指导蛋白质-RNA复合体靶向靶mRNA上的特异性位点,这导致mRNA的 切割(Thompson, Drug DiscoveryToday,7 :912_917 (2002))。一般而言,siRNA 分子的长度 为大约20、21、22或23个核苷酸。因此,本发明的一方面涉及分离的核酸分子,并且应用这 些用于RNA干扰的分子,即作为小的干扰RNA分子(siRNA)。在一个实施方式中,分离的核 酸分子的长度为18-26个核苷酸,优选长度为19-25个核苷酸,更优选长度为20-24个核苷 酸,并且更优选长度为21、22或23个核苷酸。对于RNAi介导的基因沉默的另一途径起源于内源编码的初级微RNA(pri-miRNA) 转录物,其在细胞内被加工以产生前体miRNA(pre-miRNA)。这些miRNA分子从核输出到 细胞质,在那里它们经历加工以产生成熟miRNA分子(miRNA),其通过认别mRNA的3’非 翻译区内的靶位点而指导翻译抑制,并且随后通过加工P-体(p-body)而降解mRNA(在 Kim&Rossi, Nature Rev. Genet. 8 173-204(2007)中综述)。RNAi的临床应用包括采用合成的siRNA双链体,其大小优选为20_23个核苷酸,并 且优选具有2个核苷酸的3’重叠序列。基因表达的敲低通过对靶mRNA的序列特异性设计 而建立。这样的分子的最优设计和合成的数个商业站点是本领域技术人员已知的。其他应用提供更长的siRNA分子(典型长度为25-30个核苷酸,优选大约27个 核苷酸),以及小的发夹RNAs (shRNA ;典型长度为大约29个核苷酸)。后者是自然表达 的,如Amarzguioui等所述的(FEBS Lett. 579 :5974_81 (2005))。对于体内加工,化学合 成的siRNA和shRNA是底物,并且在一些情况中,提供相比于较短设计更有效的基因沉 默(Kim 等,Nature Biotechnol. 23 :222_226 (2005) ;Siolas 等,NatureBiotechnol. 23 227-231 (2005))。一般而言,siRNA提供基因表达的短暂沉默,这是因为它们的细胞内浓 度通过后来的细胞分裂而稀释。与之相反,表达的shRNA介导长期、稳定的靶转录物敲 低,因为只要 shRNA 的转录发生(Marques 等,Nature Biotechnol. 23 :559_565 (2006); Brummelkamp 等,Science 296 :550_553 (2002))。因为RNAi分子——包括siRNA、miRNA和shRNA——以序列依赖性方式发挥作用, 所以本发明的变体(例如表10、表15和表19中列出的标记和单元型)可用于设计RNAi 试剂,所述试剂识别包含特异性等位基因和/或单元型(例如本发明的等位基因和/或单 元型)的特异性核酸分子,而不识别包含其他的等位基因或单元型的核酸分子。因此,这些 RNAi试剂可以识别和破坏靶核酸分子。在采用反义试剂的情况下,RNAi试剂可以用作治疗 剂(即用于关闭疾病相关基因或疾病相关基因变体),但是也可用于表征和验证基因功能 (例如通过 基因敲除或基因敲低实验)。可以通过大量本领域技术人员已知的方法进行RNAi的递送。利用非病毒递送的 方法包括胆固醇、稳定核酸脂质颗粒(SNALP)、重链抗体片段(Fab)、适配体和纳米颗粒。病 毒递送方法包括使用慢病毒、腺病毒和腺病毒相关病毒。在一些实施方式中,siRNA分子被化学修饰以增加它们的稳定性。这可以包括在核糖的2’位置的修饰,包括2’-0_甲基嘌呤 和2’-氟嘧啶,其提供对核糖核酸酶活性的抗性。其他的化学修饰是可能的,并且是本领域 技术人员已知的。下列参考文献提供RNAi的进一步综述,和使用RNAi靶向特异性基因的可能 个生Kim&Rossi, Nat. Rev. Genet. 8 173-184 (2007), Chen&Rajewsky, Nat. Rev. Genet. 8 93-103 (2007),Reynolds,等,Nat. Biotechnol. 22 :326_330 (2004),Chi 等,Proc. Natl. Acad. Sci. USA 100 :6343_6346 (2003),Vickers 等,J. Biol. Chem. 278 :7108_7118 (2003), Agami, Curr. Opin. Chem. Biol. 6 :829_834 (2002), Lavery,等,Curr. Opin. Drug Discov. Devel. 6 561-569 (2003), Shi, Trends Genet. 19 9-12(2003), Shuey 等,Drug Discov. Today 7 :1040-46 (2002),McManus 等,Nat. Rev. Genet. 3 :737_747 (2002),Xia 等,Nat. Biotechnol. 20 1006-10 (2002), Plasterk 等,curr. Opin. Genet. Dev. 10 562-7 (2000), Bosher 等,Nat. Cell Biol. 2 :E31_6 (2000),和 Hunter,Curr. Biol. 9 :R440_442 (1999)。
导致形成乳腺癌的诱因或风险增加的遗传缺陷或引起乳腺癌的遗传缺陷,可通过 给携带该缺陷的对象施用核酸片段来永久地纠正,所述核酸片段掺入在遗传缺陷的位点提 供正常的/野生型核苷酸(一个或多个)的修复序列。这样的位点特异性修复序列可包 括对促进对象的基因组DNA内源性修复起作用的RNA/DNA寡核苷酸。施用修复序列可通 过适当的载体(例如密封在阴离子脂质体中的具有聚乙烯亚胺(polyethelenimine)的复 合体)、病毒载体例如腺病毒载体、或适合促进施用的核酸胞内吸收的其他药物组合物而进 行。然后,可克服遗传缺陷,因为该嵌合寡核苷酸诱导正常序列并入对象的基因组,这导致 正常/野生型基因产物的表达。置换被扩增,因此致使与所述疾病或病症相关的症状得到 永久性修复和减轻。本发明提供用于鉴定可用于治疗和/或预防乳腺癌的化合物或药剂的方法。因此 本发明的变体可用作鉴定和/或开发治疗剂的标靶。在某些实施方式中,这样的方法包括 分析药剂或化合物调节包含至少一种本发明变体(标记和/或单元型)的核酸的活性和/ 或表达,或核酸——例如STEAP3/TSAP6基因、L0C643714基因和/或TNRC9基因的一个或 多个——的编码产物的能力。这又可用于鉴定抑制或改变所述核酸的编码产物的不期望活 性或表达的药剂或化合物。进行这样实验的分析可以在基于细胞的系统或在无细胞体系中 进行,如技术人员已知的。基于细胞的系统包括天然表达目的核酸分子的细胞或已被遗传 修饰以表达某一期望核酸分子的重组细胞。患者中变体基因表达可以通过含有变体的核酸序列(例如,含有本发明的至少一 个变体的基因,其可被转录为含有至少一个变体的RNA,并且又被翻译为蛋白质)的表达 来评估,或通过由于影响正常的转录物表达的水平或模式的变体(例如在基因的调节或 控制区域中的变体)造成的正常/野生型核酸序列的表达改变来评估。基因表达的分析 包括直接核酸分析(mRNA)、表达蛋白水平的分析或涉及通路例如信号通路的侧支化合物 (collateral compounds)的分析。此外,也可分析应答所述信号通路而上调或下调的基因 表达。一个实施方式包括将报道基因例如荧光素酶可操作连接到目的基因(一种或多种) 的调节区。在一个实施方式中,当将细胞与候选化合物或药剂接触并且mRNA的表达得以确 定时,可以鉴定基因表达的调节剂。将在存在候选化合物或药剂的情况下mRNA的表达水平与不存在所述化合物或药剂的情况下的表达水平进行比较。基于该比较,治疗和/或预防 乳腺癌的候选化合物或药剂可以被鉴定为调节变体基因的基因表达的那些化合物或药剂。 当与不存在候选化合物或药剂的情况下相比,在存在候选化合物或药剂的情况下,mRNA或 所编码的蛋白质的表达在统计学上显著更大时,那么该候选化合物或药剂被鉴定为核酸表 达的刺激剂或上调剂。当与不存在候选化合物或药剂的情况下相比,在存在候选化合物或 药剂的情况下,mRNA或所编码的蛋白质的表达在统计学上显著更小时,那么该候选化合物 或药剂被鉴定为核酸表达的抑制剂或下调剂。本发明进一步提供使用化合物进行治疗的方法,所述化合物通过药物(化合物和 /或药剂)筛选被鉴定为基因调节剂(即基因表达的刺激剂和/或抑制剂)。应答治疗剂 的似然性的评估方法、监视治疗进展的方法和治疗乳腺癌的方法如本领域已知的,个体可以对具体治疗(例如治疗剂或治疗方法,如本文进一步 描述的)具有差别应答。差别应答的基础可能部分是遗传决定的。药物基因组学致力于遗 传变异(例如本发明的变体(标记和/或单元型))如何由于改变的药物分布和/或异常 或改变的药物作用而影响药物应答的问题。因此,差别应答的的基础可部分在遗传学上加 以确定。由于遗传变异影响药物应答造成的临床结果可在某 些个体(例如本发明的遗传性 变型携带者或非携带者)内导致药物毒性,或药物治疗失败。本发明的变体可确定治疗剂 和/或方法作用于机体的方式,或者机体代谢治疗剂的方式。因此,在一个实施方式中,存在多态位点处的特定等位基因或者单元型,表示对特 定治疗方式的不同应答率。这意味着诊断患有乳腺癌并且携带本发明的多态处的特定等位 基因或单元型(例如本发明的风险和保护性等位基因和/或单元型)处携带某一等位基因 的患者将更好或更糟地应答用于治疗该疾病的特定治疗药物和/或其他治疗。因此,所述 标记等位基因或单元型存在或不存在可以辅助确定哪种治疗应用于患者。例如,对于新诊 断的患者,本发明的标记或单元型的存在性可被评估(例如通过检测源自血样的DNA,如本 文所述的)。如果患者对于标记等位基因或单元型呈阳性,那么医师推荐一个特定的治疗, 而如果患者对标记的至少一个等位基因、或单元型呈阴性,那么可以推荐不同的治疗过程 (其可包括推荐除了连续监视疾病进展,不进行直接治疗)。因此,患者的携带者状态可用 于帮助确定是否应该给予特定的治疗方式。其价值在于能在早期诊断疾病的可能性,以选 择最适当的治疗,并给临床医师提供关于疾病预后/攻击性的信息,以便能运用最适当的 治疗。如本文进一步描述的,目前乳腺癌的临床预防选择主要是化学预防(化学疗法或 激素疗法)和预防手术。最常见的化学预防是他莫昔芬和雷洛昔芬;其他选择包括芳香酶 抑制剂。治疗选择也包括放射治疗,对于放射治疗,一部分患者经历不良症状。如本文描述 的,本发明的标记可用来评估对这些治疗选择的响应,或预测使用这些治疗选择的任何一 个所取得的治疗进展。因此,基于个体的遗传状态遗传,遗传预测可用于选择适当的治疗策 略,或者它可用于预测特定的治疗选择的结果,并因此可用于治疗选择或可用治疗选择的 组合的策略选择。本发明也涉及监视乳腺癌治疗进展或有效性的方法。这可基于本发明的标记和单 元型的基因型和/或单元型状态,即通过评估本文公开的至少一个多态标记的至少一个等 位基因的存在或不存在来进行,或者通过监视与本发明的变体(标记和单元型)关联的基因表达来进行。风险基因mRNA或编码的多肽可以在组织样品(例如外周血液样品或活组 织检查样品)中测量。因此,表达水平和/或mRNA水平可在监视其有效性的治疗之前或期 间确定。可选地或伴随地,本文提供的乳腺癌的至少一个风险变体的基因型和/或单元型 状态在治疗之前或期间确定以监视其有效性。可选地,与本发明的标记和单元型相关的生物学网络或代谢途径可以通过确定 mRNA和/或多肽水平来监视。这可以通过例如在治疗前或期间采集的样品中通过监视属于 该网络和/或途径的数种基因的表达水平或多肽来进行。可选地,属于生物学网络或代谢 途径的代谢物可以在治疗前或期间确定。治疗的有效性通过比较在治疗期间观察到的表达 水平/代谢物水平的改变与从健康对象获得的相应数据来确定。在进一步的方面,本发明的标记可用于增加临床试验的功效和有效性。因此,为本 发明的风险变体的携带者的个体,即为赋予形成乳腺癌风险增加的的至少一个多态标记的 至少一个等位基因的携带者的个体,可以更可能应答特定治疗方式。在一个实施方式中,携 带在特定治疗(例如小分子药物)靶向的途径和/或代谢网络中的基因(一种或多种)的 风险变体的个体更可能是治疗的应答者。在另一实施方式中,携带基因的风险变体——所 述基因表达和/或功能由该风险变体改变——的个体更可能是靶向该基因、其表达或其基 因产物的治疗方式的应答者。在进一步的方面,本发明的标记和单元型可被用于为特定个体选择药剂。治疗方 式、生活方式改变或两者组合的个人化选择可以通过应用本发明的风险变体来实现。因此, 对本发明的特定标记的个体状态的知识,可用于选择靶向受本发明的风险变体影响的基因 或基因产物的治疗选择。变体的某些组合可适用于选择治疗选择,而其他基因变体组合可 靶向其他治疗选择。变体的这种组合可包括一种变体、两种变体、三种变体或四种或更多种 变体,如以临床上可靠准确度确定治疗模式的选择所需要的。计算机执行的方面本发明也涉及使用本文描述的、与乳腺癌关联的多态标记和单元型的计算机执行 的程序。这样的程序可用于存储、操作或以其他方式分析可用于本发明方法的基因型数据, 如本文描述的。一个实例涉及在可读介质上存储源自个体的基因型信息,以便能给第三方 (例如所述个体)提供基因型信息,或用于从基因型数据衍生信息,例如通过比较该基因型 数据与促进对乳腺癌的易感性增加的遗传风险因素相关的信息,并基于这样的比较报告结^ ο一个这样的方面涉及计算机可读介质。一般地说,这样的介质具有储存下述的能 力··⑴至少一个多态标记或单元型的标识符信息;(ii)在患有乳腺癌的个体中所述至少 一个标记的至少一个等位基因的频率或单元型的频率的指示物;和参考群体中所述至少一 个标记的至少一个等位基因的频率或单元型的频率的指示物。参考群体可以是无病的个体 群体。可选地,参考群体是来自一般群体中的随机样本,并且因此代表普遍群体。频率指示 物可以是计算的频率、等位基因和/或单元型拷贝的计数或适合于具体介质的真实频率的 归一化或其他方式处理的值。关于个体的附加信息可以被储存在介质上,例如家系信息,关于性别、体格属性或 特征(包括身高 和体重)、生化测量、治疗施用、治疗结果、药物、或在具体个体的基因型状 态的背景中期望储存或处理的其他有用信息。此外,本发明涉及适于确定或操作可用于确定人类个体中对乳腺癌的易感性的遗传数据的装置。这样的装置可以包括计算机可读存储器、操作在计算机可读存储器上储存 的数据的程序、和产生包括遗传数据量度在内的输出的程序。这样的量度可以包括值,例如 等位基因频率或单元型频率、基因型计数、性别、年龄、表型信息、优势比(OR)或相对危险 度(RR)的值、群体归因危险度(PAR)、或者其他有用信息,所述其他有用信息或者是原始基 因型数据的直接统计或者是基于遗传数据的计算。在某些实施方式中,本文显示的、与乳腺癌的易感性增加(例如风险增加)相关的 标记和单元型可用于解释和/或分析基因型数据。因此,在某些实施方式中,鉴定如本文所 示的乳腺癌的风险等位基因或风险单元型,或者本文所示的与乳腺癌关联标记和/或单元 型的任何一个LD的多态标记处的等位基因和/或单元型,表示基因型数据来源的个体处于 增加的乳腺癌风险中。在一个这样的实施方式中,产生本文所示的与乳腺癌相关的至少一 个多态标记或与它们连锁不平衡的标记的基因型数据。随后,第三方例如该基因型数据来 源的个体可例如经由通过互联网可访问的用户界面获得基因型数据,对该基因型数据的解 释,例如该基因型数据的形式为疾病(例如乳腺癌)的风险量度(例如绝对危险度(AR)、 风险比(RR)或优势比(OR))。在另一实施方式中,评估源自个体的基因型数据集中鉴定的 风险标记,并且个体可例如通过安全网络界面或通过其他的通信设备获得数据 集中这类风 险变体的存在所赋予的风险的评估结果。这样的风险评估的结果可以以数字形式(例如通 过风险值,例如绝对危险度、相对危险度和/或优势比,或通过与参考相比的风险增加百分 数)、通过图解法或通过适合给基因型数据来源的个体阐明风险的其它方式报告。在具体的 实施方式中,第三方例如医师、其他的保健工作者或遗传顾问可获得风险评估的结果。可用 于本发明不同方面的标记上述方法和应用都可用本发明的标记和单元型实践,本发明的标记和单元型在本 文在广义的方面被描述为可用于评估对乳腺癌的易感性。因此,通常情况下,这些应用通 常可以简化为使用表10、15、19、20、21和22的任一个中列出的标记以及与它们连锁不平 衡的标记进行实践。在某些实施方式中,标记或单元型存在于基因组区段内,所述基因组 区段的序列在SEQ ID NO :4、SEQ ID NO 5或SEQ IDNO 6中列出。在某些实施方式中,标 记存在于rs4848543LD区段、rsl3387042LD区段或rs3803662LD区段内。在具体的实施方 式中,标记选自在表10中列出的标记。在其它的实施方式中,标记选自在表15中列出的 标记。在其它的实施方式中,标记选自在表19中列出的标记。在一些实施方式中,标记选 自在表7和8中列出的标记。在一些其他的实施方式中,标记选自在表14中列出的标记。 在一些其他的实施方式中,标记选自在表18中列出的标记。在其它的实施方式中,标记是 rs4848543 (SEQ ID NO :1)、rsl3387042 (SEQ ID NO :2)或rs3803662 (SEQ ID NO :3)之一,其 任选地包括与它们连锁不平衡的标记。在一个实施方式中,标记是rs4848543(SEQ ID NO: 1)、rsl3387042(SEQ IDNO 2)和 rs3803662 (SEQ ID NO 3)之一。在某些优选的实施方式 中,标记是rs4848543(SEQ ID NO :1)。在其他优选的实施方式中,标记是rsl3387042 (SEQ ID NO :2)。在其他优选的实施方式中,标记是rs3803662(SEQ ID NO :3)。在具体的实施方 式中,连锁不平衡被定义为r2的数值大于0. 2。在另一个实施方式中,标记或单元型包括选 自rs4848543等位基因A、rsl3387042等位基因A和rs3803662等位基因T的至少一个标 记。核酸和多肽本文描述的核酸和多肽可被用于本发明的方法和试剂盒中,如上所述。如本文使用的,“分离的”核酸分子是与正常位于基因或核苷酸序列侧翼的核酸分开(如在基因组序 列中)和/或已经被完全地或部分地从其他的转录序列纯化的(例如如在RNA文库中)核 酸分子。例如,本发明的分离的核酸可以相对于其天然存在的复杂细胞环境被基本上分离, 或当通过重组技术产生时相对于培养基被基本上分离,或当化学合成时相对于化学前体或 其他化学品被基本上分离。在一些情况下,分离的物质将形成组合物(例如,含有其他物质 的粗提取物)、缓冲体系或试剂混合物的一部分。在其他的情况中,物质可以被纯化至基本 同质性,例如通过聚丙烯酰胺凝胶电泳(PAGE)或柱色谱法(例如HPLC)所确定的。本发明 的分离的核酸分子可以占存在的所有大分子种类的至少大约50%、至少大约80%或至少 大约90% (以摩尔计)。对于基因组DNA,术语“分离的”也可以指与基因组DNA天然关联的 染色体分离的核酸分子。例如,分离的核酸分子可以含有大约250kb、200kb、150kb、100kb、 75kb、50kb、25kb、10kb、5kb、4kb、3kb、2kb、lkb、0. 5kb 或 0. lkb 以下的核苷酸,所述核苷酸 位于细胞的基因组DNA中的核酸分子的侧翼,所述核酸分子来源于所述细胞。核酸分子可以与其他编码或调节序列融合,并且仍然被认为是分离的。因此,包 含在载体中的重组DNA被包括在本文使用的“分离的”定义中。同样地,分离的核酸分子包 括在异源寄主细胞或异源生物体中的重组DNA分子,以及在溶液中部分地或基本上纯化的 DNA分子。“分离的”核酸分子也包括本发明的DNA分子的体内和体外RNA转录物。分离的 核酸分子或核苷酸序列可以包括化学合成的或通过重组方法合成的核酸分子或核苷酸序 列。例如,这类分离的核苷酸序列可用于制造所编码的多肽,用作用于分离同源序列(例如 来自其他哺乳动物种类)、用于基因作图(例如通过与染色体原位杂交)或用于例如通过 RNA印迹分析或其他的杂交技术检测组织(例如人组织)中基因表达的探针。本发明也涉及在高严格杂交条件下——例如用于选择性杂交的条件——与本文 描述的核苷酸序列杂交的核酸分子(例如与含有本文描述的标记或单元型相关联的多态 位点的核苷酸序列特异性杂交的核酸分子)。这样的核酸分子可通过等位基因-或序列-特 异性杂交(例如在高严格条件下)检测和/或分离。核酸杂交的严格条件和方法是本领域 技术人员公知的(参见,例如 Current Protocols in Molecular Biology, Ausubel, F. et al, John Wiley&Sons, (1998),禾口 Kraus, M. and Aaronson, S. , Methods Enzymol. ,200 546-556 (1991),它们的完整教导通过引用被并入本文。两种核苷酸或氨基酸序列的同一性百分比可以通过以最优比较为目的(例如,空 位可以被引入第一序列的序列)进行比对序列来确定。然后,比较在相应位置的核苷酸或 氨基酸,并且两个序列之间的同一性百分比是序列共享的相同位置的数目的函数(即同一 性%=相同位置的数目/位置总数xlOO)。在某些实施方式中,用于比较目的而比对的序 列的长度为参考序列长度的至少30%、至少40%、至少50%、至少60%、至少70%、至少 80%、至少90%、或至少95%。两个序列的实际比较可以通过公知的方法例如使用数学算 法来完成。这类数学算法的非限定性实例在Karlin,S. and Altschul,S.,Proc. Natl. Acad. Sci. USA,90 5873-5877(1993)描述。这样的算法被并入 NBLAST 和 XBLAST 程序(2. 0 版 本),如在 Altschul,S.等,Nucleic Acids Res.,25 :3389_3402 (1997)中描述的。当应用 BLAST和Gapped BLAST程序时,可以使用各自的程序(例如NBLAST)的缺省参数。参见在 www. ncbi. nlm. nih. gov的环球网站点。在一个实施方式中,序列比较的参数可以设定为得 分=100、字长=12或可以进行改变(例如W= 5或W = 20)。
其他的实例包括Myers 和 Miller、CAB I OS (1989)、ADVANCE 和 ADAM 的算法, 如在 Torellis, A. and Robotti, C. , Comput. Appl. Biosci. 10 :3_5(1994)中描述;以及 在 Pearson,ff. and Lipman, D.,Proc. Natl. Acad. Sci. USA, 85 2444-48 (1988)中描述的 FASTA。在另一实施方式中,两个氨基酸序列之间的同一性百分比可以使用在GCG软件包 (Accelrys, Cambridge, UK)中的 GAP 程序完成。
本发明也提供分离的核酸分子,其含有在高严格条件下与包括下列核苷酸序列或 由下列核苷酸序列组成的核酸杂交的片段或部分包括表10、表15、表19、表20、表21和 表22中列出的多态标记以及与它们连锁不平衡的标记的核苷酸序列,和STEAP3/TSAP6、 L0C643714和TNRC9基因的核苷酸序列,或者这样的核苷酸序列,其包括这样的核苷酸序列 的互补体或由它们组成,这样的核苷酸序列包括表10、表15、表19、表20、表21和表22中 列出的多态标记以及与它们连锁不平衡的标记,和STEAP3/TSAP6、L0C643714和TNRC9基因 的核苷酸序列或它们的片段,其中核苷酸序列包括至少一个包含在本文描述的标记和单元 型中的多态等位基因。本发明的核酸片段的长度为至少大约15、至少大约18、20、23或25 个核苷酸,并且可以是30、40、50、100、200、500、1000、10,000或更多个核苷酸。本发明的核酸片段在诸如本文描述的那些分析中被用作探针或引物。“探针”或 “引物”是以碱基特异性方式与核酸分子的互补链杂交的寡核苷酸。除DNA和RNA之外,这 样的探针和引物包括多肽核酸(PNA),如在Nielsen, P.等,Science 254 1497-1500 (1991) 中描述的。探针或引物包括与核酸分子的至少大约15、典型大约20-25并且在某些实施方 式中大约40、50或75个连续核苷酸杂交的核苷酸序列的区域。在一个实施方式中,探针或 引物包含本文描述的至少一个多态标记的至少一个等位基因或至少一个单元型、或其互补 体。在具体的实施方式中,探针或引物可包含100个或更少核苷酸;例如,在某些实施方式 中,从6个到50个核苷酸,或者例如从12到30个核苷酸。在其他实施方式中,探针或引物 与邻近核苷酸序列或邻近核苷酸序列的互补体至少70%相同、至少80%相同、至少85%相 同、至少90%相同、或至少95%相同。在另一实施方式中,探针或引物能够与邻近核苷酸序 列或邻近核苷酸序列的互补体选择性杂交。通常,探针或引物进一步包含标记,例如放射性 同位素、荧光标记、酶标记、酶辅因子标记、磁标记、自旋标记、表位标记。本发明的核酸分子,例如上面描述的那些,可以使用技术人员公知的标准分子生 物学技术进行鉴定和分离。扩增的DNA可以被标记(例如放射性标记),并且用作筛选源自 人细胞的cDNA文库的探针。cDNA可以源自mRNA,并且包含在适当的载体中。相应的克隆 可以被分离,DNA可以在体内切除后获得,并且克隆的插入物可以通过本领域公认方法在一 个或两个方向测序,以鉴定编码具有适当分子量的多肽的正确阅读框。使用这些或相似的 方法,多肽和编码多肽的DNA可以被分离、测序并进一步表征。一般而言,本发明的分离的核酸序列可被用作DNA凝胶上的分子量标记,并用作 染色体标记,其被标记以绘制相关的基因位置。核酸序列也可被用于与患者内的内源性DNA 序列比较,以鉴定乳腺癌或对乳腺癌的易感性,并且可被用作探针,以便杂交和发现相关的 DNA序列或从样品扣除已知序列(例如扣除杂交法)。核酸序列可以进一步被用于衍生引 物,用于遗传指纹分析,以使用免疫技术产生抗多肽抗体,和/或用作抗原以产生抗DNA抗 体或引发免疫应答。抗体也提供与一种形式的基因产物特异性结合但是不与另一形式的基因产物特异性结合的多克隆抗体和/或单克隆抗体。也提供与含有多态位点或多个多态位点的变体或参 考基因产物的一部分结合的抗体。如本文使用的术语“抗体”指免疫球蛋白分子和免疫球 蛋白分子的免疫活性部分,即含有特异性结合抗原的抗原结合部位的分子。与本发明的多 肽特异性结合的分子是与样品例如生物样品中该多肽或其片段结合、但是基本上不结合其 他分子的分子,所述样品天然含有该多肽。免疫球蛋白分子的免疫学活性部分的实例包括 F(ab)和?(油’)2片段,其通过用酶例如胃蛋白酶处理抗体而产生。本发明提供与本发明的 多肽结合的多克隆和单克隆抗体。如本文使用的,术语“单克隆抗体”或“单克隆抗体组分” 指一群抗体分子,其仅含有能与本发明的多肽的特定表位发生免疫反应的抗原结合部位的 一个种类。因此,单克隆抗体组分一般显示对与其发生免疫反应的本发明特定多肽的单一 结合亲合性。多克隆抗体可以如上所述通过使用需要的免疫原例如本发明的多肽或其片段来 免疫适当的对象而加以制备。在免疫的对象中抗体效价可以通过标准技术,例如使用应 用固定化多肽的酶联免疫吸附测定(ELISA)随时间进行监视。如果需要,针对所述多肽 的抗体分子可以从哺乳动物(例如从血液)分离,并进一步通过公知的技术例如蛋白A 色谱法纯化,以获得IgG部分。在免疫之后的适当时刻,例如当抗体效价最高时,产生抗 体的细胞可以从对象获得,并用于通过标准技术例如Kohler和Milstein,Nature 256 495-497(1975)最初描述的杂交瘤技术、人B细胞杂交瘤技术(Kozbor等,Immunol. Today 4 72 (1983)), EBV ^^^ii^ (Cole Monoclonal Antibodies and Cancer Therapy, Alan R. Liss, 1985, Inc.,pp. 77-96)或三源杂交瘤技术,制备单克隆抗体。产生杂交瘤的技 术是公知的(一般参见 Current Protocols in Immunology (1994) Coligan 等,(eds.) John ffiley&Sons, Inc. , New York,NY)。简言之,将无限增殖细胞系(一般为骨髓瘤)与来自如 上所述用免疫原免疫的哺乳动物的淋巴细胞(一般为脾细胞)融合,并且筛选所形成的杂 交瘤细胞的培养物上清液以鉴定产生与本发明的多肽结合的单克隆抗体的杂交瘤。用来将淋巴细胞和无限增殖化细胞系融合的许多已知方案的任一个可用于产 生抗本发明多肽的单克隆抗体的目的(参见例如,Current Protocols in Immunology, supra ;Galfre 等,Nature 266:55052(1977) ;R. H. Kenneth, in Monoclonal Antibodies A New Dimension InBiological Analyses, Plenum Publishing Corp. , New York, New York(1980);和 Lerner,Yale J. Biol. Med. 54 :387_402 (1981))。而且,普通技术人员将理 解存在这类方法的许多变化,其也是可用的。作为制备分泌单克隆抗体的杂交瘤的替代方案,抗本发明多肽的单克隆抗体 可以通过用该多肽筛选重组组合免疫球蛋白文库(例如抗体噬菌体展示文库)从而 分离与该多肽结合的免疫球蛋白文库成员来鉴定和分离。产生和筛选噬菌体展示文 库的试剂盒是商业可获得的(例如,the Pharmacia Recombinant Phage Antibody System, CatalogNo. 27-9400—01 ;禾口 the Stratagene SurfZAP Phage Display Kit, CatalogNo. 240612)。另外,特别容易用于产生和筛选抗体展示文库的方法和试剂的实 例可见于例如,美国专利号5,223,409 ;PCT公布W0 92/18619 ;PCT公布W0 91/17271 ; PCT 公布 W0 92/20791 ;PCT 公布 W092/15679 ;PCT 公布 W0 93/01288 ;PCT 公布 TO 92/01047 ;PCT 公布 W0 92/09690 ;PCT 公布 W0 90/02809 ;Fuchs 等,Bio/Technology 9 1370-1372(1991) ;Hay 等,Hum. Antibod. Hybridomas 3:81-85(1992) ;Huse 等,Science246:1275-1281(1989);和 Griffiths 等,EMBO J. 12 :725_734 (1993)。另外,可使用标准重组DNA技术产生的包含人和非人部分的重组抗体,例如嵌合 和人源化单克隆抗体,在本发明的范围内。这样的嵌合和人源化单克隆抗体可以通过本领 域已知的重组DNA技术产生。一般而言,本发明的抗体(例如单克隆抗体)可用于通过标准技术例如亲和色谱 法或免测沉淀法分离本发明的多肽。多肽特异性抗体可以帮助从细胞纯化天然的多肽和 纯化在宿主细胞中表达的重组产生的多肽。而且,对本发明的多肽特异性的抗体可用于检 测多肽(例如在细胞溶胞产物、细胞上清液或组织样品中),以便评估多肽表达的丰度和模 式。作为临床试验过程的一部分,抗体可被诊断性地用于监视组织中蛋白水平,例如以确定 给定的治疗方案的功效。抗体可以与可检测物质偶联在一起,以帮助其检测。可检测物质的 实例包括多种酶、辅基、荧光物质、发光物质、生物发光物质、和放射性物质。适合的酶的实 例包括辣根过氧化物酶、碱性磷酸酶、3 “半乳糖苷酶或乙酰胆碱酯酶;适合的辅基复合体 的实例链霉抗生物素/生物素以及抗生物素蛋白/生物素;适合的荧光物质的实例包括伞 形酮、荧光素、异硫氰酸荧光素、若丹明、二氯三嗪胺荧光素(dichlorotriazinylamineflu orescein)、丹磺酰氯或藻红蛋白;发光物质的实例包括鲁米诺;生物发光物质的实例包括 荧光素酶、莹光素(luciferin)和水母发光蛋白;适合的放射性物质的实例包括1251、1311、 35S 或 3H。抗体也可用于药物基因组学分析。在这样的实施方式中,抗由本发明的核酸编码 的变体蛋白质——例如含有至少一种本发明的多态标记的核酸编码的变体蛋白质——的 抗体,可用于鉴定需要改变的治疗方式的个体。此外,抗体可用于评估疾病状态(例如在该疾病的进行期)中变体蛋白质的表达, 或在具有对与蛋白质功能相关的疾病特别是乳腺癌的诱因的个体中变体蛋白质的表达。 对于本发明的变体蛋白质——其由包含本文描述的至少一个多态标记或单元型的核酸编 码——特异性的抗体可用于筛查变体蛋白质的存在,例如以筛查由变体蛋白质的存在指示 的乳腺癌诱因。抗体可被用于其他的方法。因此,连同通过电泳迁移率、等电点、胰蛋白酶或其他 蛋白酶消化、或本领域技术人员已知的用于其他物理测定的分析,抗体可用作评估蛋白质 例如本发明的变体蛋白质的诊断工具。抗体也可用于组织分型。在一个这样的实施方式 中,特定变体蛋白质已被与在特定组织类型中的表达相关联,然后,对变体蛋白质特异性的 抗体可用于鉴定特定组织类型。包括变体蛋白质在内的蛋白质的亚细胞定位也可使用抗体确定,并且可被用于评 估所述蛋白质在不同组织的细胞中的异常亚细胞定位。这样的应用可以运用于遗传学检 测,也可以运用于监视特定治疗方式。在治疗目的在于纠正变体蛋白质的表达水平或存在 性或者变体蛋白质的异常组织分布或发育表达的情况下,对变体蛋白质或其片段特异性的 抗体可用于监视治疗功效。抗体进一步可用于抑制变体蛋白质功能,例如通过阻断变体蛋白质与结合分子或 配偶体的结合来进行。这样的应用也可运用于其中治疗包括抑制变体蛋白质功能的治疗情 况。例如,抗体可被用于阻断或竞争性抑制结合,从而调节(即激动或拮抗)蛋白质的活 性。可以制备针对含有特定功能所需的位点的特定蛋白质片段或针对与细胞或细胞膜相关的完整蛋白质的抗体。对于体内施用,抗体可以与其他的治疗负荷(therapeutic payload) 例如放射性核素、酶、免疫原表位或细胞毒素剂——其包括细菌毒素(白喉或植物毒素例 如篦麻毒素)——连接。抗体或其片段的体内半衰期可通过与聚乙二醇接合的聚乙二醇化 (pegylation)来增加。本发明进一步涉及用于在本文描述的方法中使用抗体的试剂盒。这包括但不限 于,用于检测变体蛋白质在检测样品中存在性的试剂盒。一个优选的实施方式包含抗体例 如标记的或可标记的抗体,和用于检测生物样品中变体蛋白质的化合物或试剂,确定在样 品中变体蛋白质的数量或存在和/或不存在的工具,和将所述样品中变体蛋白质的数量与 标准比较的工具,以及试剂盒应用的说明书。现在,本发明将通过下列非限定性实施例举例说明。实施例0269患者和对照 选择:National Bioethics Committee of Icelandand the Icelandic Data Protection Authority授权许可该研究。乳腺癌诊断记录从Icelandic Cancer Registry (ICR)获得。 记录包括所有在1955年1月1日到2005年12月31日在冰岛诊断的侵入性乳腺肿瘤和乳 腺导管原位癌和小叶原位癌的病例。在该时期,ICR包含4603个诊断个体的记录。包括所 有活着的患者(大约2840个)的传播人群可适宜招募入本研究。我们从2210个患者获得 知情同意书、血样和临床信息,回收率为大约78%。最初的对照组包括来自其他正在进行 的deCODE遗传学全基因组关联性研究的所有个体,并且在乳腺癌患者组被基因型分型时, 他们已经在Illumina SNP芯片上进行基因型分型。直到2005结束时在Icelandic Cancer Registry登记显示乳腺癌、前列腺癌或结肠直肠癌的个体从对照组排除,这导致4477个对 照的组。独立复制对照组包括另外7406个来自非乳腺癌项目的对象,其在该4477组之后 进行分型。在该7406组中,前列腺癌和结肠直肠癌患者没有被排除,因为我们已经获得表 明正在讨论的SNP的频率与这些或者样品中的对照不同的中间数据(interim data)。在每 个对照组中,在下面表8、9和14中列出的SNP的频率中,性别之间没有差异。因此,这些对 照组提供所研究的SNP的群体频率的合理代表。宗谱数据库decode Genetics保持冰岛人宗谱的计算机化数据库。该记录包括 几乎所有在前两个世纪生于冰岛的个体,并且对于该时期,大约95%的双亲关系是已知的 [Sigurdardottir, et al.,(2000), Am J Hum Genet,66,1599-609]。另外,对于大多数个 体,基于人口普查和教区记录,记录了居住县标识符。将该信息储存在亲属数据库中,其具 有与在生物样品上和ICR记录使用的那些相匹配的加密个人标识符,这允许对研究参与者 的基因型和表型与他们的宗谱进行交叉参考。样品处理在-20°C,在EDTA中保藏血样。使用 Qiagen(http://www. quiagen. com) 提取柱方法,从全血分离DNA。将DNA储存于4°C。基因型分型然后,随机选择一组1600个患者的样品,并且在Illumina Infinium Hap300 SNP珠微阵列(Illumina, San Diego, CA,USA)上进行基因型分型,所述珠微阵列 含有317,511个源自I期国际HapMap项目的SNP。4480个无癌症对照样品在同一平台 上基因型分型。在芯片上SNP的总数之中,170个没有产生基因型,而另外24个SNP具有 低于80%的得率。在对照中,另外61个SNP显示与哈迪-温伯格平衡(Hardy-Weinberg equilibrium)具有非常显著的失真(p < lxlO-10)。104个SNP是单态的,而58个SNP是近 单态的(即,组合的患者和对照的人群中,次要等位基因频率小于0.001)。最后,在内部正在进行的数个不同的全基因组关联性研究中,在特定区域和可能信号的研究后,确定5个 标记具有基因型分型问题。所有这些问题SN0从分析中除去。因此,在本文中最终的分析 使用317,089个SNP。检出率(call rate)低于98%的任何芯片也从该分析中排除。在该研究中检查的三个关键SNP的序列内容在下面给出rs4848543(SEQ ID NO 1) :caggataagattatttctgaggctgettccatcagtggttctgtgagetggcccatgtattcagccagt cagtaggccatcaagcatgcatctacgcaaggcactagaagggttacatacaatgggaaactgaggcccagaagg aggaaagatgaagtgcccaaagttaaggagataaaagcagaagtgcaggtaagagaaggagtattcatattactg caggaatccaaattctacaagaacatacgcttgttctttaaagggagccctcgctttaagcattatttgccgatc aatacc[A/C]attaataattacaggacatgggcaaatattctagcaaaggtcctgaggtcttcctagatgtgccca aaataacaaggactccccccgcaggtggcaccaaaagtcggaggatgtgttggaagctgaccttccccacctgtcc ctgcctcacccacagtcacccacccctctaggatgtaatggtgaatcattcaacacatgggccaccttgggaagtc gcttaacctctctcccttttcacgttataaaatgggcatagtcattacacaaatgcataaatcaacctcaattttc tcatctrsl3387042(SEQ ID NO :2) :ctgacatagccgcctgtgcaggtttttgggaccaggtctgccatctg tattcccaggctgggctggagcacctgaggctactatggttacagaaaggaacctggcatccgaaggtataggctca aatcccagctctcatgattgctagctttgaggtttcaggttcatttcttaagtgctctgagctttggtgccctcctc ttcaaaatgggaatgaggagcatgtctagctccctgttttgttgcagtgaatagctacatgaagaacagctaaacca gaacagaaagaaggcaaatgga[A/G]gctacagaaaccaaggatttccttgttgaatcgaatcttccttcaatctt ccttcaccacactagtggatctccctgtgggagggatgttgagagtgctccgtgttttttttgtttttttttttttt ttttttgtgatggagtctcactctgtcacccagactggaatgcagtggtgcgatctcggctcactgcaacctctgcc tcccaggttcaagtgattctcctgcctcagcttcccaagtagccaggactacaggcatatgccatcacacccagcta atttttgtatttttagtagrs3803662(SEQ ID NO :3) :gctagtccttggctgttctgtgatcaaatgcaatt gtttcccatttcttaagaaacagaatctttattagactcagttcttttcttggttatttttacaattttattgttct atggttattaaaaaataacatgtcatataaattaagcctagaaacatggatgtttatcaaagaaaggattgtcatcc aaagcaccaactatgagagatatctatgtgcaatggtatatagatctgtcatagaagggtttaattatatctgccta atgattttctctccttaatgcctctatagctgtc[C/T]cttagcgaagaataaaactgtggactgacccccaccca tttgcgaagaaagtactgggtcttcagctttcattgttcagccggtggtctttgtggacaacaccaggggcccctcc tgctgaagactgtctggacttcctgattttcactcctgtataaaccccctcccccattactacctttgtctccttgg ggaaaaaaaatgtttttcacttaagcaaaataataactacccagtatttgtttctggagtgaaattgtaaacttcat tgtacattcttcctggctttgatgcttatcg我们设计和测试分析以检测rS4848543LD区段中的许多SNP。这些分析基于 [Kutyavin, et al.,(2006),Nucleic Acids Res, 34, el28]中描述的 Centaurus SNP 分析技术。该分析和它们的引物为:SG02S733rs895398 (Build 34) chr2 =120,058, 180 正向弓丨物TTGGAACCTCCCACTGCCACA 反向引物ACAGCCCAGGTTTCAGGTTGGCATVIC-探 针AGCGACACTGFAM-探针GCGACACCG 增强子CCTG*AGATCCAGGCASG02S738rs484854 3 (Build 34)chr2 :120,061,096 正向引物AGGGAGCCCTCGCTTTAAGCATTA 反向引物 TTTGGGCACATCTAGGAAGACCTCVIC-探针GAT*CAATACCCFAM_ 探针CGAT*CAATACCA 增 强子TTAATAATTACAGGACATGSG02S739rs6759589 (Build 34) chr2 120,064,976 正 向弓丨物TCAGCAGCCTCTTGTCTCACTAAT 反向引物CTTCTTGCCCAGGCAGGACAGAVIC-探 针TAGACTGAGCCFAM-探针AAT*AGACTAAGCC 增强子CCATCCCCAACTAASG02S753rs895397 (Build 34) chr2 :120,072,400 正向引物CACTACTAGATCATGGGAGATGCCT 反向引 物GTTTCCTCAGTTGTAATGTAGACCVIC-探针TT*T*A*ACCCTTFAM-探针GTTTTAACCCCT 增强子60^0^^^六656025740『8838102(81^1(134)(;虹2:120,079,878 正向引 物GGTTTTGCATCCTTGCTCACTCACAT 反向引物GTGCCCTCTGCGTACTTGCGAATVIC-探 针TACTGCCACCFAM-探针CTTACTGCCACT 增强子TGTCTCCTCACTCSG02S741rs83 8100(Build 34)chr2 :120,083,710 正向弓丨物ACTTACCAACAGCAGGCTGGTG 反向引 物CCAGAAAGGGTGGCTCACCTCAVIC-探针GTCTGAGGCTFAM_ 探针GGTCTGAGGTT ±曾 强子TCAGGTCACTCGSG02S734rsl2711924 (Build 34) chr2 120,107,316 正向引 物:AACGCTTATCACAGAGCCAGGTAG 反向引物GGAAAACCATGAACACTGTGGCAAVIC-探 针CCCGCCGTFAM-探针GCCCGCCAT 增强子TTGTCTTTCTTGTGTCSG02S742rs373160 3 (Build 34)chr2 :120,117,062 正向引物AACA*CTCTAGGGAGTAAAGCTC 反向引物 GAGGA*CATTTGGAGTCCCCAATVIC-探针GACTGTCTTCAAFAM_ 探针ACTGT*CT*TCAC 增 强子AAGTCAGTCCTGAGSG02S728rsl3387042(Build 34)chr2 :218,108,374 正向引 物CCACTAGTGTGGTGA*AGGAAGATT 反向弓丨物GCTACATGA*AGAA*CAGCTAAACCVIC-探针 TTTCTGTAGCCTFAM-探针TT*T*CTGTAGCT*T 增强子CATTTGCCTTCTTTC* 表示修饰的碱基,如 [Kutyavin, et al.,(2006),Nucleic Acids Res, 34, el28]所述。BRCA2基因(999del5)的单一基础突变在普通冰岛人群体中以0. 6_0. 8%的携带 者频率存在,而在女性乳腺癌患者中以7. 7-8. 6%存在[Thorlacius, et al.,(1997),Am J Hum Genet,60,1079-84 ;Gudmundsson, et al.,(1996),Am J Hum Genet,58,749-56]。使用 微卫星型PCR分析(其被称为DG13S3727),在所述病例的1499个中测定BRCA2999del5突变 的可能存在。使用的引物为正向 TGTGAAAAGCTATTTTTCCAATC反向ATCACGGGTGACAGAGCAA通过DG13S3727 扩增的序列为DG13S3727 位置=chrl3 :30703058-30703261tgt gaaaagctatttttccaatcatgatgaaagtctgaagaaaaatgatagatttatcgcttctgtgacagacagtgaaa acacaaatcaaagagaagctgcaagtcatggtaagtcctctgtttagttgaactacaggtttttttgttgttgttgt tttgattttttttttttgaggtggagtcttgctctgtcacccgtgat统计方法采用乘积模型,我们计算SNP等位基因的相对危险度(RR)为RR = [p/ (l-p)]/[s/(l_s)],其中p和s分别是变体在患者和对照中的频率。基于标准似然比x平 方统计,计算与RR相关联的P-值。假设RR的估计值具有对数正态分布,计算置信区间。单元型频率通过最大似然估计,并且病例和对照之间的差异检验使用广义似然比 检验进行。单元型分析项目被称为NEM0,其代表NEsted模型,被用于计算所有的单元型结 果。为了处理阶段不确定性和漏失基因型,强调NEMO不使用通常的两步方法进行关联性检 验,其中单元型计数首先被估计,这可能使用EM算法,然后进行检验,处理估计的计数,就 像它们是真的计数一样,该方法有时候是有问题的,并且可能需要随机化以恰当评估统计 显著性。相反地,使用NEM0,直接对观测数据计算最大似然估计值、似然比和P值,因此由于 阶段不确定性和漏失基因型造成的信息损失由似然比自动地获取。在两个组内和两个组之间,一些冰岛人患者和对照都有亲缘关系。为了针对亲缘 关系校正该关联性结果,我们通过在冰岛人宗谱中遗传的等位基因来模拟基因型。对于每 次模拟,我们以与对真正基因型(real genotype)相同的方式进行病例-对照关联性检验, 即x平方似然比检验。我们计算N次模拟的x平方统计的平均值(其与相应Z-得分的方差相同),对于独立个体在零假设下,其必须为1,而对于有亲缘关系的个体,预期其稍微 更大。然后,通过将真正关联性的X平方统计值除以从模拟获得的平均值,进行针对亲缘 关系的校正。使用Mantel-Haenszel模型,进行多个病例-对照复制组的联合分析,其中使多个 组具有不同的等位基因、单元型和基因型群体频率,但是假定具有共同的相对危险度。所有P-值均以双侧报告。多原发性乳腺肿瘤的分析从ICR获得多原发性乳腺癌(MPBC)的诊断记录。除 了第一乳腺癌诊断之外,在临床上和通过组织学证实诊断的原发性肿瘤为独立的原发性肿 瘤,其与第一乳腺癌同时出现或在第一乳腺癌之后出现,并且在对侧或同侧乳腺发生。在临 床上和通过组织学分类为原始肿瘤的复发或多病灶单一原发性肿瘤的肿瘤被排除。直到 2005年12月最后,出现在登记资料中的诊断具有2个或更多个独立原发性肿瘤的患者被考 虑为MPBC。到2005年12月31日在ICR不具有第二原发性肿瘤诊断的患者被指定为单一 原发性乳腺癌(SPBC)病例。MPBC相对于SPBC的风险通过逻辑回归加以确定,这考虑从第 一乳腺癌诊断为协同变异的时刻之后的年数。使用NEMO软件,通过线性回归,评估发病年 龄比较。家族史分析对于每个受影响的先证者,使用宗谱数据库和ICR记录,分配家族史 分数。通过参考宗谱数据库,确定先证者周围的第一到第三级亲属的范围(circle)。然后, 亲缘关系的影响状态从ICR记录加以确定。对于每一受影响的第一级亲属,先证者被分配 家族史分数1,对于每一受影响的第二级亲属,先证者被分配家族史分数0.5,而对于每一 受影响的第三级亲属,先证者被分配家族史分数0. 25。然后,对于每一先证者,将总分数相 加。通过在JMP v4软件(S.A. S. Institute Inc.)上运行Wilcoxon检验,检验SNP标记基 因型和家族史分数之间的潜在关系。关联性分析表型对于关联性分析,我们使用两个相关的表型。第一个表型包括所 有1600个诊断患有乳腺癌的个体。该表型被指定为“所有乳腺癌”(所有BC)。第二表型 选择具有中度到高度诱因特征的个体,并且被指定为“中等诱因”(MedPre)。该表型的定义 要求先证者满足下列标准的至少一个1.先证者是包含3个或以上的在3次减数分裂事件 的遗传距离(3M)内的受影响亲属的乳腺癌病例群体的一员。2.先证者是在3M内具有亲属 关系的受影响对的一员,他们中的一个当年龄在50岁或更年轻时被诊断。3.先证者是在 3M内具有亲属关系的受影响对的一员,他们中的一个被诊断患有任何类型的第二原发性肿 瘤。4.先证者已被被诊断患有任何类型的第二原发性肿瘤。在Illumina Hap300芯片上分 型的1600个患者中,653个满足MedPre标准(40. 8% )0结果第一部分染色体2ql4. 2上 的rS4848543rS4848543等位基因A等位基因与乳腺癌风险增加相关联全基因组关联性分析表明rs4848543等位基因A与MedPre乳腺癌相关联。对 1598个患者(他们中的653个满足MedPre表型标准)和4477个无癌症对照,获得该SNP 的Illumina芯片数据。当对病例和对照组中的个体之间的亲缘关系校正时,与MedPre乳 腺癌相关联的rs4848543等位基因A的RR估计值为1. 42,其中P值为8. 3x10^ (表1)。在 对检验的317,089个SNP进行Bonferroni校正后,综合校正P_值为0. 026。rs4848543的 A等位基因也示出与所有BC表型具有标称显著关联性,其相对危险度估计值为1. 16 (表 1)。为了证实在来自冰岛人群体的独立样品中的该结果,我们设计并验证Centaurus SNP分析-SG02S738,以检验rs4848543SNP。SG02S738分析对另外573个BC患者进行,其
中198个符合MedPre表型定义。这些患者被再次检验,独立对照组包括7406个个体,使用 Illumina芯片或SG02S738分析对其进行rs4848543分型。在第二组中,与MedPre乳腺癌 相关联的rs4848543等位基因A的RR估计值为1.26( -值=3. 4xl(T2)。因此,在独立的 冰岛人样品中,最初发现以标称显著性得到复制。联合分析的结果——其中最初1598个患 者和573个复制患者组被组合并与11883个对照相比较——在表1中示出。联合分析显 示对所有BC表型具有标称显著风险,而对MedPre乳腺癌表型显示全基因组显著风险。对 MedPre乳腺癌的综合Bonferroni校正P-值为0. 0095 (对317,089个SNP进行校正)。该 值是全基因组显著的,即使所有BC和MedPre的两个表型的检验被考虑也是如此。因为ICR记录回溯到1955年,我们招募的患者的一些是长期癌症存活者。如果与 非携带者相比,携带rs4848543等位基因A变体的患者具有不同的长期存活的可能性,那么 在流行病例中的变体的频率可能被影响。为了研究这一点,我们鉴定包括883个个体的患 者亚组(subset),所述患者在2000年1月1日后诊断,并且从诊断到招募的时间小于5年。 在该最近诊断的患者人群中,rs4848543等位基因A的等位基因频率为0. 372945。我们也 鉴定了一组1338个患者,所述患者在2000年1月1日之前已被诊断,并且已经存活至招募 时。在该组中,rs4848543等位基因A的频率为0. 372749,其与最近诊断的患者中的频率没 有显著差异(P值=0.99)。因此,没有有说服力的证据表明差异存活影响在表1中示出 的风险估计值。我们另外注意到,不具有MedPre表型的乳腺癌患者没有显示rs4848543等位基因 A频率的任何增加(表1)。该观察的含意在下面进一步讨论。我们继续检查rs4848543等 位基因A和具有MedPre表型定义的各个组成之间的关联。rs4848543等位基因A不与早发 型乳腺癌显著相关联因为年轻的诊断年龄是在MedPre表型的定义中使用的标准之一,所以我们查找 诊断年龄和rs4848543基因型之间的关联性。在于Illumina芯片上分析的1598个患者中, 在rs4848543基因型和诊断年龄之间没有显著关联性(表2)。rs4848543等位基因A的风 险与乳腺癌家族史相关联对于研究中的每个患者先证者计算家族史分数。使用宗谱数据库,我们鉴定每一 先证者的第一到第三级亲属的范围。然后,通过参考ICR记录,我们鉴定他们自己已被诊断 患有乳腺癌的所有亲属。然后,我们对每一先证者产生相加的家族史分数(FHS),对于每一 受影响的第一级亲属,分配分数1,对于每一受影响的第二级亲属,分配分数0. 5和,而对于 每一受影响的第三级亲属,分配分数0. 25。然后,1598个已经在Illumina芯片上分型的先 证者被评估以寻找f^S和rs4848543基因型之间的关联性。如在表2中所示,增加H1S的 倾向性与rs4848543的A等位基因的携带相关联。仅仅基于rs4848543等位基因A变体在 所有BC患者中的相对危险度仅为1. 16这个观察,该结果不被期望;该相对危险度单独不 能产生乳腺癌病例的家族簇集[Stacey, et al.,(2006),PLoS Med, 3, e217]。然而,使用 MedPre表型,发现rs4848543等位基因A,在它的定义中,其具有大量家族史要素。这些观 察表明rs4848543等位基因A可以与较不常见的、较高外显率的变体连锁不平衡。可选地, rs4848543等位基因A可示出与另一高外显率诱因决定子的相互作用,这增加了它们的外 显率,并从而与乳腺癌的家族史相关联。rs4848543等位基因A的风险和乳腺癌家族史之间的关联性由携带BRCA2999del5突变的家族部分(但不完全)解释为了进一步研究rs4848543等位基因A和乳腺癌家族史之间的关联性,我们寻求 携带良好表征的冰岛BRCA2999del5突变的家族是否是携带rs4848543等位基因A的家族 展示的家族性簇集的原因。对于BRCA2999del5突变,我们从1600个患者的组分型出1499 个患者。如上所述我们重新计算HIS,此时排除了所有已示出携带BRCA2999del5突变的先 证者。如在表2中所示,rs4848543等位基因A和FHS的关联性在除去999del5突变携带者后 仍然显著,这表示关联性不能完全由BRCA999del5突变家族所解释。然而,当与999del5携 带者没有被排除时相比,P-值明显高,这导致我们怀疑BRCA2999del5可能涉及rs4848543 等位基因A展示的家族簇集的一些。rs4848543等位基因A的风险延伸至BRCA2999del5突 变携带者因为在冰岛BRCA2999del5突变家族性乳腺癌有实质性影响,所以我们考虑其 与rs4848543等位基因A变体的关系。一种可能的方案是rs4848543等位基因A变体赋 予BRCA2999del5携带者可忽略的额外风险,如CHEK2和BRCA突变之间相互作用所表示的 [(2004),Am J Hum Genet,74,1175-82 ;Meijers-Heijboer,et al.,(2002),Nat Genet,31, 55-9]。如果是这样,那么rs4848543等位基因A变体在受影响的BRCA2999del5携带者中的 频率将接近对照频率。相反地,如果rs4848543等位基因A变体在受影响的BRCA2999del5 携带者中的频率大于在群体对照中的频率,那么将表示rs4848543等位基因A赋予BRCA2 携带者风险在999del5突变赋予的风险之上。为了最大化BRCA2999del5携带者的数量,在 联合的冰岛Illumina和复制患者组中,进行下列分析。数据检查表明,rs4848543等位基 因A变体的频率在患有乳腺癌的BRCA2999del5携带者中为0. 463,这显著高于对照频率, 并且对应于1. 65的RR(表3)。因此,对于携带的每一 rs4848543等位基因A等位基因,使 BRCA2999del5携带者(其已经处于乳腺癌的高风险下)的风险乘以估计因子1. 65。没有 证据表明rs4848543基因型偏离该乘积模型。这些观察证明rs4848543等位基因A变体赋 予的乳腺癌风险增加延伸到BRCA2999del5携带者。因为BRCA2999del5是产生无功能蛋白 质的无效突变,所以这些结果表明rs4848543等位基因A赋予的风险延伸到所有BRCA2突 变携带者,其中突变致使所述蛋白质无功能。rs4848543等位基因A可与BRCA2999del5协 同相互作用rs4848543等位基因A风险延伸到BRCA2999del5携带者这一观察提出了这样的 问题与其对999del5非携带着相比,该变体是否对999del5携带者赋予了相同的相对危 险度。我们注意到rs4848543等位基因A在BRCA2999del5携带者中的相对危险度估计值 (1. 65)有些高于rs4848543等位基因A在BRCA2突变的非携带着中的相对危险度估计值 (1. 13,表3)。因此,我们检验rs4848543等位基因A赋予的相对危险度在BRCA2999del5背 景中是否与在非_999del5背景中不同。如在表3中所示,rs4848543等位基因A赋予的相 对危险度估计在999del5携带者中比在非携带着中高1. 46倍。这些观察与rs4848543等 位基因A以协同方式与BRCA2999del5相互作用的解释相一致。因为BRCA2999del5是产生 无功能蛋白质的无效突变,所以这些结果表明rs4848543等位基因A以协同方式与BRCA2 突变相互作用,其中突变致使所述蛋白质无功能。与BRCA2999del5的潜在相互作用也通过评估在患者中,患者携带的rs4848543的 变体等位基因数目和999del5之间是否存在显著相关性,来进行研究。如在表4中所示,在患者中,在携带的rs4848543等位基因A的数目和BRCA2999del5等位基因的携带之间存在 显著相关性。为了研究在患者中rs4848543等位基因A和BRCA2999del5等位基因之间的相 关性是否可能已经由于潜在群体分层(underlyingpopulation stratification)而出现, 我们检查在对照群体中是否存在相关性。在已经检验两种变体的5938个对照中,没有相关 性。乳腺癌患者从该5938个对照的组中排除。因为BRCA2999del5是乳腺癌的如此强的风 险因子,所以可能认为对照组排除了 999del5携带者(因为相对少的女性携带者可能未被 乳腺癌影响)。因此,我们使用包括已经检验过这两种变体的2925个男性的对照组重复该 检验。在该组中,rs4848543等位基因A和999del5携带之间,没有相关性的证据。因此, 我们推定没有可解释患者中rs4848543等位基因A和999del5的共遗传的潜在群体分层的 证据。因此,最可能的解释是rs4848543等位基因A和999del5以协同方式相互作用。然后,我们回到我们的观测当已知的BRCA2999de 15患者从分析中去除时, rs4848543等位基因A显示与家族史的关联性(表2)。我们寻求不是BRCA2999del5携带者 但是符合MedPre表型标准的高风险患者是否显示rs4848543等位基因A的频率增加。在 这些患者中,频率比对照中的高,这与1. 35的相对危险度对应(表3)。因此,与rs4848543 等位基因A的风险关联性延伸到不是999del5携带者但是其仍然具有MedPre特征的患者。如表1中所示,在不符合MedPre表型定义的患者中,没有可检测到的与rs4848543 等位基因A关联的风险。这暗示rs4848543等位基因A仅在MedPre表型背景中赋予风险。 如果相对稀少的、高外显率突变在rs4848543等位基因A变体的背景上存在,那么这可发 生。可选地,rs4848543等位基因A变体可以指示更常见的等位基因,其修饰BRCA2的外显 率,以及其他至今未鉴定的具有家族关联性的高外显率风险决定子。这样的未鉴定的风险 决定子可能是其他基因的高外显率变体、变体的多基因组合、或甚至在家族中簇集的环境 风险因素。为方便起见,我们将这类假设的高外显率风险决定子称为BRCAx。为了进一步研 究rs4848543等位基因A可能作为修饰基因这一观点,我们寻求在受影响的BRCA2999del5 携带者中rs4848543等位基因A是否以与其在受影响MedPre非BRCA携带者中相同的频率 发生。实际上,这询问与对具有BRCAx的个体相比,rs4848543等位基因A变体对999del5 的携带者是否赋予相似的风险。如在表3中所示,在这些组之间的rs4848543等位基因A 变体的频率没有显著性差异。然而,相对危险度的点估计值为1.22,这表示在999del5携 带者中作用可能更大。rs4848543等位基因A和rs4848543LD区段内的多个其他标记(与 rs4848543连锁不平衡)的携带者处于增加的多原发性乳腺癌风险多原发性乳腺肿瘤的发生是遗传诱因的指示,并且具有临床关联性。已经患有乳 腺癌的患者对于形成第二原发性肿瘤的风险大大增加。遗传易感性可构成该增加的风险的 实质组成。因此,我们研究多原发性乳腺癌(MPBC)是否在rs4848543等位基因A携带者中 比非携带者中以更高预期频率发生。源自Illumina芯片的数据表明rs4848543LD区段中 的其他标记能够至少与rs4848543 —样好地预测MPBC。因此,我们对该区段内的标记设计 并检测一组8个分析。在使用逻辑回归和针对患者追踪时间长度修正的MPBC风险评估中, 当与仅经历单一原发性乳腺癌(SPBC)诊断的患者相比时,8个SNP中的7个显示携带者中 MPBC风险增加(表5)。我们推定这7个SNP分析可以确定患者是否处于增加的MPBC风险。 在一个连锁不平衡区段中的多个SNP显示与所有BC和MedPre乳腺癌表型的关联性SNP rs4848543等位基因A在连锁不平衡(LD)区段中发现,基于NCBI Build 34,该连锁不平衡区段的定界坐标在表6中示出。LD区段被限定在重组热点之间延伸,如使用 如在[McVean, et al.,(2004),Science,304,581-4 ;ffinckler, et al.,(2005),Science, 308,107-11]描述的似然比检验,通过在牛津大学的Mathematical Genetics Group所限定 的。来自Illumina Hap300芯片的数据显示许多SNP处于与rs4848543等位基因A的同一 连锁不平衡区段中,并且示出与检验的两个乳腺癌诱因标称显著关联性。表7和8显示在 Illumina Hap300芯片上存在的LD区段中所有SNP的列表,以及从他们中获得的两个表型 的关联性值。我们也考虑该区段内的双标记单元型,其被鉴定为HapMap项目中分型的另外 的SNP组的有效替代物(r2 > 0. 8)(对HapMap数据的所有参考请参照release 20)。这些 另外的SNP在UTAH CEPH(CEU)HapMap样品中具有> 5%的次要等位基因频率,并且它们既 不在Hap300SNP芯片上,它们也不被该芯片上的SNP有效标记[Pe' er, et al.,(2006), Nat Genet,38,663-7]。这些所谓的“Daly”单元型的结果在表7和8中示出。对于MedPre 乳腺癌,29个单独SNP或两点“Daly”单元型表现出标称显著的p值。rs4848543等位基因 A-关联性风险存在于多单元型背景上为了设法区别rs4848543等位基因A标记相对稀少的、高外显率变体或表现为其 他高外显率决定子的常见改性物,我们研究其中rs4848543等位基因A出现的单元型背景 的多样性。rs4848543LD区段包含相对高重组的区域,其远端在核苷酸120034174附件。赋 予标称显著的乳腺癌风险的SNP位于该重组区的远侧(在右边)。因此,我们限定我们的 单元型多样性分析于该右侧的亚区段区域。使用在Illumina芯片上分型的SNP和样品,我 们应用NEMO软件以鉴定限定区域(nt 120034174至nt 120129001)内的单元型。区分单 元型所不必需的冗余SNP被除去,然后对每一得到的单元型评估相对危险度和频率。结果 在表9中示出。显然所有鉴定的携带rs4848543A等位基因的单元型具有大于1的相对危 险度估计值,并且在大多数情况下,RR估计值显著大于1。相反地,没有携带rs4848543C等 位基因的单元型具有大于1的RR估计值,以及所有显著的估计值小于1 (即,它们是保护性 的)。因此,我们不能将风险与含有rs4848543等位基因A的单元型分开。这表明致病变体 (即机械地赋予风险的变体)是rs4848543等位基因A或与rs4848543等位基因A强连锁 不平衡的变体。在多单元型背景上致病变体的存在暗示其频率可能很接近rs4848543等位 基因A的频率(即rs4848543等位基因A和致病变体之间的r2值高)。该观测支持如此观 点rs4848543等位基因A没有指出在rs4848543LD区段内稀少的、高外显率变体的存在, 而是其标记高外显率决定子例如BRCA2和以前限定的BRCAx的更常见的改性物。许多标记 通过它们的与rs4848543等位基因A的相关性可以示出BC风险关联性对HapMap项目数据(release 20)的参考揭示在CEU白种欧洲人群体样品中大量 已知的SNP与rs4848543相关联,其r2值大于0. 2。因为这些SNP与rs4848543显著相关, 所以它们可被用于测量与通过rs4848543本身测量相同的BC风险。这些SNP在表10中列 出。STEAP3/TSAP6基因是参与观察到的乳腺癌风险的最可能的基因在rs4848543LD区段区域中有三个目前已知的基因。这些是1.补体成分lq亚成 分样2基因C1Q12(NM_182528)2.六次跨膜前列腺上皮细胞抗原3 (STEAP3)基因(另外称为 肿瘤抑制基因活化通道6(TSAP6))、pHyde和Dudulin-2。该基因有三种主要的已知可选转 录物,其通过 RefSeq 号 NM_018234 (同种型 b)、NM_182915 (同种型 a)和 NM_001008410 (也 称为AF262322)加以标识。该基因的第四种转录物已被描述,并称为标识符AK024163。3.转录物,AK127773,与STEAP3基因重叠,并且从相反(左向)链转录。该基因已被称为假拟蛋 白(Hypothetical protein)FLJ45874。rs4848543LD区段包含相对高重组的区域,其远端在核苷酸120034174附近。赋予 标称显著乳腺癌风险的大多数SNP和Daly 2点单元型位于该重组区域的远侧(在右边)。 这暗示在C1Q12中和C1Q12附近的变体不是关联性信号的来源。确实与风险强关联的变体 位于STEAP3/TSAP6基因的5’以及为位于STEAP3/TSAP6基因之中。实际上,两个标称显 著的SNP——rs838100和rs3731603,在该基因的转录序列内,而另两个——rs838102和 rsl2711924——位于STEAP3/TSAP6内含子内。这两个SNP的后一个位于IVS4基因的3’剪 接位点附近。考虑这些观测和已知的STEAP3/TSAP6基因生物学(见下文),涉及观察到的 乳腺癌风险增加的最可能基因是STEAP3/TSAP6。第二部分染色体2q35上的rsl3387042rsl3387042A等位基因与冰岛乳腺癌风险增加相关联全基因组关联性分析示出13387042等位基因A与任何BC表型相关联(表11)。 该SNP位于染色体2q35处,在与STEAP3/TSAP6基因座不同的位置。对1598个患者和4475 个无癌症对照,获得该SNP的Illumina芯片数据。当对病例和对照组中的个体之间的亲缘 关系校正时,A-rsl3387042的RR估计值为1. 19,其中P值为4. OxlO—5。在MedPre乳腺癌 中,RR相似,P值为4. 4xl0_5。本质上,在对检测的317,089个SNP进行Bonferroni校正后,该结果没有达到被 考虑为全基因组显著性的水平。因此,在来自冰岛人群体的独立样品中,我们寻求证实该结 果,如同我们对rs4848543等位基因A所进行的。我们设计并检验Centaurus SNP分析—— SG02S738,以检验rsl3387042SNP。SG02S738分析对另外583个患者和包括7966个个体的 独立对照组进行,所述个体通过Illumina芯片或Centaurus方法,针对rsl3387042进行分 型。该7966对照组包含已经被诊断患有前列腺癌或结肠直肠癌的个体,但是该个体没有患 有乳腺癌。这得到我们的中间观测的证实rsl3387042等位基因A不赋予这些癌症可检测 的风险(数据没有示出)。在第二组中,与任何BC相关联的rsl3387042的A等位基因的 RR估计值为1. 20(p-值3. 8xl0-3)。因此,在独立的冰岛人样品中,最初发现被显著性 复制,具有非常相似的RR点估计值。联合分析的结果——其中最初1598个患者和583个 复制样品被组合并与12441个对照相比较——在表11中示出。联合分析显示1. 20的显著 相对危险度估计值(P-值2. OxlO—7),其在对检测的317,089个SNP进行Bonferroni 校正后接近于显著性水平。在冰岛人群体中,rsl3387042等位基因A变体的观测的频率和 相对危险度与15. 6%的估计的群体归因危险度相应。因为ICR记录回溯到1955年,我们招募的患者的一些是长期癌症存活者。如果与 非携带者相比,携带rsl3387042等位基因A变体的患者具有不同的长期存活的可能性,那 么在流行病例中的变体的频率可能被影响。为了研究这一点,我们鉴定包括837个个体的 患者的亚组,所述患者在2000年1月1日后诊断,并且从诊断到招募的时间小于5年。在 该最近诊断的患者人群中,rsl3387042等位基因A的等位基因频率为0. 498。我们也鉴定 了一组1344个患者,所述患者在2000年1月1日之前已被诊断,并且已经存活至招募时。 在该组中,rsl3387042等位基因A的频率为0. 492,其与最近诊断的患者中的频率没有显著 性差异(P值=0. 71)。因此,没有有说服力的证据表明差异存活影响在表11中示出的风 险估计值。在西班牙人病例对照样品中,rsl3387042A等位基因与乳腺癌风险增加相关联
为了进一步研究rsl3387042等位基因A在乳腺癌风险中的作用,我们检查了在西 班牙收集的一个独立的BC病例对照样品组。西班牙研究群体由从Oncology Department of Zaragoza Hospital inZaragoza,Spain招募的446个乳腺癌病例组成。一组977个对 照个体在University Hospital in Zaragoza, Spain研究,并且确认在他们被包括在该研 究之前没有患有乳腺癌。所有对象给出书面知情同意书。使用SG02S728Centaurus分析,针对rsl3387042对西班牙病例和对照样品进行基 因型分型。该结果在表11中提供。在该群体中,rsl3387042的等位基因A示出与乳腺癌 风险显著相关联,其RR的点估计值为1.21(P-值为l.SxlO—2)。rsl3387042等位基因A变 体的频率在西班牙对照样品中更高,这表示该变体可能更盛行,并因此在西班牙人采集的 群体中促进更高的乳腺癌负担。在瑞典人人病例/对照样品中,rsl3387042A等位基因与 乳腺癌的风险增加相关联为了进一步证实rsl3387042的A等位基因变体在乳腺癌风险中的作用,我们在两 个瑞典人群中分型SNP “Sweden Familial”人群包括已经访问Karolinska Institute, Stockholm 的致病机制咨询诊所(oncogenetic counseling clinic)的 346 个 BC 患者,用 于研究乳腺癌家族史。每一个患者来自不同的家庭。“Sweden Consecutive”人群包括参 与Karolinska Institute乳腺癌诊所的482个连续招募的BC患者。在选择该第二个人群 时,没有考虑家族史。对照是1300个来自Stockholm区域的献血者和434个结肠直肠癌病 例的无癌症配偶。在该对照中,A-rsl3387042频率在性别之间没有显著差异,在献血者和 无癌症对照组之间也没有显著差异。如在表11中所示,“Sweden Consecutive”人群显示1. 31的显著的乳腺癌的相对 危险度(P-值=2.0xl0_4)。“瑞典家族”人群相对危险度估计值为1. 11,其不是显著的,这 或许因为该组可携带遮蔽A-rsl3387042效应的高外显率基因。总之,组合的瑞典人群返回 1. 22的显著性相对危险度估计值(P-值=8. 1x10-4)。在联合分析中,使用Mantel-Haenszel模型,结合对冰岛、西班牙和瑞典人群的估 计。结果是估计的相对危险度为1. 20,P-值为3. 8X10_"。这远在使用Bonferroni方法对 研究的317,089个SNP进行校正得到的全基因组显著性阈值之下。因此,我们推断在数个 欧洲人血统的群体样品中,A-rsl3387042对乳腺癌赋予显著和可重复的风险。估计总群体 归因危险度为16.4%。rsl3387042等位基因A-关联风险存在于多单元型背景上rsl3387042SNP在连锁不平衡(LD)区段中发现,基于NCBI Build 34,该连锁不 平衡区段的定界坐标在表12中示出。LD区段被限定在重组热点之间延伸,如使用如在 [McVean, et al.,(2004),Science,304,581-4 ;ffinckler, et al.,(2005),Science,308, 107-11]描述的似然比检验,通过在牛津大学的Mathematical Genetics Group所限定的。 为了设法区别标记rsl3387042的A等位基因标记相对稀少的、高外显率变体或更常见的低 外显率变体,我们研究其中rsl3387042等位基因A出现的单元型背景的多样性。使用在 Illumina芯片上分型的SNP和样品,我们应用NEM0软件以鉴定LD区段内的单元型。区分 单元型所不必需的冗余SNP被消除,然后对每一得到的单元型评估相对危险度和频率。结 果在表13中示出。显然数个鉴定的携带rsl3387042等位基因的A等位基因的单元型赋 予大于1的相对危险度估计值,并且在若个情况下,RR估计值显著大于1。相反地,仅一个 稀少的携带rsl3387042等位基因的C等位基因的单元型示出大于1的RR估计值,以及含 71rsl3387042等位基因C的单元型的两个标称显著RR的估计值小于1 (即,它们是保护性 的)。两个携带rsl3387042的A等位基因的单元型没有产生大于1的RR估计值,并且这 些估计值的一个是标称显著的。总之,这些观测结果表明致病变体(即,机械地赋予风险 的变体)与rsl3387042等位基因A强LD,但是可能不是rsl3387042等位基因A本身。在 rsl3387042LD区段中多个SNP示出与BC风险相关联来自Illumina Hap300芯片的数据揭示多个SNP与rsl3387042存在于同一 LD区 段中。表14示出在该LD区段中所有SNP的列表,其存在于Illumina Hap300芯片上,并 且对于单点和两点“Daly”单元型分析,从它们获得关联值。可见,当针对对象中的家族亲 缘关系进行校正后,21个SNP或Daly单元型显示标称显著的P值。许多标记通过它们与 rsl3387042等位基因A的相关性可以显示出BC风险关联性对HapMap项目数据(release 20)的参考揭示在CEU白种欧洲人群体样品中大量 已知的SNP与rsl3387042相关联,其r2值大于0. 2。因为这些SNP与rsl3387042显著相 关联,所以它们可被用于测量与通过rsl3387042本身测量相同的BC风险。这些SNP在表 15中列出。第三部分染色体16ql2上的rs3803662rs3803662的T等位基因与乳腺癌风险相关联使用来自1600个乳腺癌患者和11563个对照的数据的进一步全基因组SNP分析 鉴定,SNP rs3803662的T等位基因赋予估计的1. 23倍的任何BC风险增加(表16)。该结 果在第二、独立的594个冰岛乳腺癌患者和1433个对照的人群中得以证实。当对个体之间 的亲缘关系修正后,这两组冰岛样品的组合数据给出1. 23的相对危险度估计值和2. 8xl0_7 的P-值。这相应于估计的10. 的群体归因危险度(表16)。rs3803662等位基因T与乳 腺癌风险的关联性在来自瑞典、西班牙和荷兰的乳腺癌病例对照人群中被复制。为了证实rs3803662等位基因T与乳腺癌风险的关联性,我们在三个独立的外国 人群中复制该发现。我们基因型分型上述的来自瑞典和西班牙人群的个体。我们也基因型 分型来自荷兰Ni jmegen的558个乳腺癌病例和1384个对照。该人群从在2005-2006年在 荷兰东部诊断的乳腺癌患者的基于群体的登记调查获得。在该期间所有在70岁以前诊断 患有乳腺癌的患者被邀请参加该研究。对照组在基于群体登记的随机样品从2002-2003进 行的调查(the Nijmengen BiomedicalStudy)收集。如在表16中所示,在所有这三个复制 人群中,对于rs3803662等位基因T观察到显著增加的风险。在这三个非冰岛复制人群的 组合分析中,总相对危险度估计值为1. 35,P-值为5. lxlO—12。冰岛和复制人群的联合分析 表明组合的相对危险度估计值为1. 28,P-值为2. 7xl0_17。当对检验的SNP数修正时,这远 在全基因组显著性的阈值之下。相应的总群体归因危险度估计值为13. 4% (表16)。含有 rs3803662的LD区段的限定和潜在候选基因的鉴定。rs3803662SNP在连锁不平衡(LD)区段中发现,基于NCBIBuild 34,该连锁不 平衡区段的定界坐标在表17中示出。LD区段被限定在重组热点之间延伸,如使用如在 [McVean, et al.,(2004),Science,304,581-4 ;ffinckler, et al.,(2005),Science,308, 107-11]描述的似然比检验,通过在牛津大学的Mathematical Genetics Group所限定 的。rs3803662存在于称为L0C643714的假拟蛋白的转录物内。因此,该假拟蛋白被暗 示为潜在诱癌基因。已知基因TNRC9的5’端也在本区段中存在。TNRC9是与高泳动族 (HMG)蛋白家族相关的染色质的成员,高泳动族(HMG)蛋白家族是一组已知包括转录因子和染色质重建剂的蛋白质。当与原发性乳腺癌相比时,减少的TNRC9蛋白表达已经在转移 性乳腺癌中发现(Olendrowitz,C. 2006,Bachelor of ScienceBioinformatics Thesis, Charite-Universitatsmedizin, Berlin)。靠近该基因5’端的SNP变体的鉴定表明该 变体与改变TNRC9蛋白功能表达的遗传因素连锁不平衡,这导致乳腺癌风险增加。在 rs3803662LD区段中多个SNP显示与BC风险相关来自Illumina Hap300芯片的数据揭示多个SNP与rs3803662存在于同一 LD区 段中。表18示出在该LD区段中所有SNP的列表,其存在于Illumina Hap300芯片上,并且 对于单点和两点“Daly”单元型分析,从它们获得关联值。可见,80个SNP或Daly单元型显 示标称显著的P-值。许多标记通过它们与rs3803662等位基因T的相关性可显示出BC风 险关联性对HapMap项目数据(release 20)的参考揭示在CEU白种欧洲人群体样品中大量 已知的SNP与rs3803662相关联,其r2值大于0. 2。因为这些SNP与rs3803662显著相关 联,所以它们可被用于测量与通过rs3803662本身测量相同的BC风险。这些SNP在表19 中列出。在数个不同的种族中,rs3803662等位基因T和/或相关的SNP赋予乳腺癌风险为了研究来自不同种族背景的患者中rs3803662等位基因T的发现的一般性,我 们在来自Multiethnic人群研究(MEC)的乳腺癌患者和对照的样品中,检验SNP关联性。 MEC由超过215,000个夏威夷和洛杉矶(以及来自加利福尼亚州的其他地方的另外的非洲 裔美国人)的男性和女性组成,并且在另外地方已经详细描写[Kolonel, et al. , (2000), Am J Epidemiol,151,346-57]。该人群主要包含非洲裔美国人、夏威夷土著人、日本裔美国 人、拉丁美州人和欧洲裔美国人,他们通过完成26页的自我管理的调查表而在1993和1996 年之间进入研究,所述调查表要求关于饮食习惯、人口因素、个人行为、在先医疗状况史、常 见癌的家族史的详细信息,并且对于女性,要求生育历史和外源激素应用的详细信息。参 与者的年龄在登记时介于45和75岁之间。在MEC中发生的癌症通过与覆盖夏威夷和洛 杉矶地区的基于群体的癌症监视、流行病学和最终结果(SEER)登记的人群连锁(cohort linkage)鉴定,以及与覆盖整个加利福尼亚州的California State Cancer Registry的人 群连锁鉴定。在1994开始,从MEC参与者的发生乳腺癌的病例和随机样品收集血样以用作 在人群中进行遗传分析的对照库。在嵌套的乳腺癌病例对照研究中合格的病例由到2002 年12月31前登记进入MEC后诊断患有发生的攻击性癌症的女性组成。对照是分别在进入 该人群之前并且直到2002年12月31日没有诊断的没有乳腺癌的参与者。基于人种/种 族和年龄(5年间隔),对照是与病例是频率匹配的。该研究由南加州大学和夏威夷大学的 Institutional Review Boards 批准。在来自MEC的欧洲裔美国人、拉丁美洲人和非洲裔美国人中,我们设法研究与 rs3803662相关联的风险。因为rsl3387042SNP和其他SNP之间的相关性在不同种族中可 能不同,我们选择一组SNP在这些样品中检验。对于非洲裔美国人和约鲁巴人(非洲裔), 源自HapMap项目数据(release 20)的SNP、它们的r2和D'值在表23中示出。对这些SNP 产生Centaurus分析,并且在MEC样品中进行基因型分型。为了更好地能比较SNP之间的结 果,通过单元型分析,我们使用考虑漏失基因型的广义似然比检验。对于不同的SNP,这具有 平衡病例和对照数目的作用,这使它们之间更容易比较。结果在表24中示出。首先,显然 来自rs3803662等位基因T的风险在欧洲裔美国人得到显著地复制。在欧洲裔美国人中,与rs3803662等位基因T相比,相关SNP的两个-rs4784227等位基因T和rsl7271951
等位基因C,显示出标称更高的相对危险度和更低的P值。这例证了如此概念与原来鉴定 的SNP相关联可能具有更高的相对危险度,因此提供出众的疾病风险标记。rs3803662等位基因T信号也在拉丁美洲人中显著地复制。在非洲裔美国人中,标 记rs3803662的T等位基因没有显著地复制,实际上,T-等位基因在非洲裔美国人样品中 是显著保护性的。这暗示在rs3803662等位基因T和推定的致病突变之间的LD相关性在 非洲裔美国人中是相当不同的。我们注意到三种相关的SNP等位基因——rsl2922061等
位基因T、rs4784227等位基因T和rsl7271951等位基因C-在欧洲人中与rs3803662
等位基因T强相关,但是该相关性在Yoruban非洲人中没有得以维持(表24)。然而,不像 rs3803662等位基因T,相关的SNP等位基因rsl2922061等位基因T、rs4784227等位基因 T和rsl7271951等位基因C都对乳腺癌显示相对危险度的标称增加,它们中的两个达到 1-侧水平的统计显著性(表24)。这显示使用相关SNP组可以提供适用于多种种族组的风 险标记。rs 13387042等位基因A和rs3803662等位基因T赋予雌激素受体阳性乳腺癌风险 增加如果它们有用,那么检查在该研究中的患者医疗记录。使用组合样品组,我们 寻找rsl3387042等位基因A和rs3803662等位基因T、诊断年龄、雌激素受体(ER)和 孕酮受体(PR)状态之间的关联性。没有任何一个变体显示与诊断年龄相关联。包括 rsl3387042等位基因A和rs3803662等位基因T的显著乳腺癌风险被清楚地限定于诊 断患有ER阳性肿瘤的那些,并且ER阳性和ER阴性肿瘤的OR之间的差异显著(表24)。 类似地,优选在诊断患有冊阳性肿瘤的患者中,具有对乳腺癌风险的倾向性,然而,PR阳 性和ra阴性OR之间的差异不显著。这表明ER阳性和阴性肿瘤可能具有稍微不同的 遗传病因学。表表1:SNP SG02S738(rs4848543)等位基因A与乳腺癌风险的关联性
13200.344118830.344
对个体之间的亲缘关系进行校正表2 :SNP SG02S738( )与乳腺癌诊断年龄和家 族史的关联性
表3 在BRCA2999del5携带者中,SNP SG02S738 (rs4848543)与乳腺癌风险的关联性
*针对个体之间的亲缘关系进行校正表4 :rs4848543等 位基因A禾口 B R C A 2 9 9 9 d e 1 5基因型之间的相关性
SNP与多原发性乳腺癌的关联性
表6: 染 色 体 2 上rs4848543LD 区 段 的 定 义 NCBI Build幵始结束
潜在群体分层进行调整。对于组合的非冰岛人和对于所有组合的人群,OR和P-值使用 Mantel-Haenszel方法计算,并且所显示的频率如对个体组的频率的简单(数学)平均
位置 Build 34名称120044735rsl3020459120045023rsl3015999120045027rsl2052957120045116rsl2468083120045623rs963662120046099rsl2472931120046932rs7579602120047249rs5833779120047386rsl3030441120047590rs991844120048218rsl3000062120048226rsl3022674120048234rs28579959120048244rs28719630120048434rsl3027917120048457rsl3027932120048632rsl2466475120049031rs4849767120049111rs4849768120049158rs4849769120049468rsl3017938120049808rsl1680905120049895rs2028852120050448rs2028851120050503rsl3410792120050761rsl3402151120050907rs7586792120051111rsl 1675684120051961rs4142753
rsl3387042连锁不平衡区段(位置从NCBI Build 34开始)中所有dbSNP125标
GGGTCATCTTAGGGGCACAGAAAATCTGAGT > rsl446128GAGACACTTTTCTGCCTGCCCAAAGTCACATAGC TCATTAGAGGCCAGGTTGGGCCTGGAGTCTCTGGCAGGAATAATAGCTGAACTTTCATTCATTCCCTAACCCACCTG TGTTGTGAGGGCCCTGAGGCCAGCATGTTCATGGCTGCAGCCTCCAACCAACTGAGCTAATTGACAAGAAATCTGCT CTGCCTGATGCT[A/G]TGGGGGATACTCAGATTTTCTGTGCCCCTAAGATGACCCAAAGCGTGGACATGCTTATTA GTGGGATTCTATCCCCTCAGTGAAGTTTTTGGTTCTTGCTTTTAATAATGGAGCAAGAGAAGCCAGTGGGAAGTCTG TTGACAAGGGAATGACTGCCACGTAGGCACTGGCAGGCTTTGGGTGAGGAGCTCAGCTTCCTG > rs4849766CC AGGCTCAAGAGAGAAAGCCAGACCCTCTCTCCTTCCACCTACCTGAGAGAGGCCTGTCCTCAGGTGTCTGGCTCACA GATGGGGGACCCAACTGGGAGTCACTCCCTTCTGGAAGCCCCAGGCCCTATAAACAGGTCCCCGGCCTCACTGCTGG GCCTCGGCCTGGAGACAGCGGCTCAGTGCAACACAACCACGCCA[C/G]AGCTGATCAGGGGAAACCCACGCAGCAG TTGAGGGGGCTGGGGCTTTGCGGGTGCAGTGAGGGGACTGCTTCCCTTCAGTGGAGTTGCTGCCGCAGGTGAGGGGA GGAAGATGAATCTGAAGGTTCTAACGTCAGCCCACAGGCTGAAGCGAAGGCTGGCCTGAAGTGTTCCACCTGGGCCC CCACCTGAGCGGCTGAAG > rs6715243TGGGCCCCCACCTGAGCGGCTGAAGAGTTCTGTTTCCTCAAGGCCCA CAGAGCTCCTCAGAGGGAAGCTTTAGTAGCTATTTCCTTAGGAAGGCAAGTATGTGTGCAACATTTCCTAATAAAAT GCAAAGGCTGTTGGAGGCACTCCAGCCCCCTCATTTAGCTCTGAGGTGTAATTAATACATAAATTAAGCTCCTGCA[ G/T]ACTCACAAATGTCCAAGAAAAAAAATGAAAAATATAATTAGTTTGCCCATCTGACTCCATCTGTCAGCTCTGA GCTCAATGCTCAACGTAGCAAATCCTGAGGGCTTTGGTCTCGCATTGGCTGGGCCCGGCGCTGCTCCTGCCCTGCTC CAGGGAAGTGGGCCCTCCGCAGCAGCTGCCCAGAGCCCGGGCTCTGGACT > rs895398TTACCAGCCCTCTCTC TCCCTTCTCCCCTTTGCCTTCCACACACAGCCTCTTGTCCAGCCACTCCCTCTTCCTGGAAGGGCCTTACTGACAGA GTGCTGGGGAGCCCTGTCAGCTGGCCACAGGTCTTAGCAAGGGCCACCCCCTCCTTCAGGCCTTCACCGTGTCTTGG AACCTCCCACTGCCACAGCCTCAGCGACAC[C/T]GTCCTTAGATCCAGGCAGGTGGGCTGTGACCCGGGACTGCAC TTTGGAAGGCCTTGCTATCCTCCTCTGGCCATCTCCTTCTCCAGGGCCCGAGGGATCTGCAGAACCGGAGGAACATG CCAACCTGAAACCTGGGCTGTCTTTATCCGGCTGTACTCCACCTGGGATTTTCTGCCCGGATGGCATCAAGATCGCT TCCA > rs11684731GCCTAAGCCAGAGGAGGCAGGAGGGTTTAGGGCACCAGCCAAGAAGTGCTTTCCAGATGC TGAGTGGGATCCCGAATAAGGGAAAGGGCATCTAACATAGAATGAGGAGGAGATAACACAAGGGTAGAAATAACCAA GAAAGGGGATTTCTCTCAGATGGCTTTAGAGGTGCTCCCAGCCATTGCTGGGCTCACATGGCT[C/T]ACATGTCAT AATTTTTGCCAAGGCGGTTTCACTGCCACCACCACCCCGCTCAGCCTCCAGTGGCTTGTCCACCCATGGCTGTGGCC TCTAACTGGGCAGGATTTTATAGGCTAGGAAGAAAAGTAGGGAATGTTAAGGGAGACGGAAGTCAAGTTCAACTTGG AACCATCCCAGAATGTCCAGCAGGAAAGGCCCATGGA > rsl2464139GACACCTCACCTTGACACGCAGCCACC TGCCAGTGTTCACAAATGTTGGTTTTCAGCTTTATGCGAGGGTAGGATCCAACAAGCTCATTCTTTAATGAAAAAGA ATGAAATTGTAAAATATCAGATCTTATTACATGTCCTAAGGGTAACTTTTATCTCATAACACTTTTGCTTCAATCAT GAGTGTATAATTTCTATTT[G/T]ATTTTGTGTCTATGGGGTTAGGTGTGCAATGTAGAAAAGCTTGAAAACCATTG CCTTATACCCATTTGAAAAATGAACCACCAAACAAAGGCTTAAAAACATGAATATTTGTCAACCAAAAGGAGAACTC CTGGGCCTGGAAGAAACATCACGATTCAAGTGCTGCAGCACGAAAGAAGTTGAGGCTGGATTTGTATTCA > rs67 54664TCCAACAAGCTCATTCTTTAATGAAAAAGAATGAAATTGTAAAATATCAGATCTTATTACATGTCCTAAGGG TAACTTTTATCTCATAACACTTTTGCTTCAATCATGAGTGTATAATTTCTATTTGATTTTGTGTCTATGGGGTTAGG TGTGCAATGTAGAAAAGCTTGAAAACCATTGCCTTATACCCATTTGAAAAA[G/T]GAACCACCAAACAAAGGCTTA AAAACATGAATATTTGTCAACCAAAAGGAGAACTCCTGGGCCTGGAAGAAACATCACGATTCAAGTGCTGCAGCACG AAAGAAGTTGAGGCTGGATTTGTATTCAGCTTGACTGTTTGTAAAGCACCATGCACCATGCAACTGCCTTCAGTTCC TTTTTTTTTTCTTTCTTTTTTTTTT > rs6754799TGAGTGTATAATTTCTATTTGATTTTGTGTCTATGGGGTTAGGTGTGCAATGTAGAAAAGCTTGAAAACCATTGCCTTATACCCATTTGAAAAATGAACCACCAAACAAAGGCTTAA AAACATGAATATTTGTCAACCAAAAGGAGAACTCCTGGGCCTGGAAGAAACATCACGATTCAAGTGCTGCAGCACGA AAGAAG[C/T]TGAGGCTGGATTTGTATTCAGCTTGACTGTTTGTAAAGCACCATGCACCATGCAACTGCCTTCAGT TCCTTTTTTTTTTCTTTCTTTTTTTTTTTTTTTTTTTTTGAGATGGAGTTTCGTTCTTGTCGCCCAGGCTGGAGTGC AATGGCACAATCTCGGCTCACTGCAATCTCCGCCTCCCAGGTTCAAGAGATTCTGCT > rs6759589GTGGGGGC AGCTCCTTGTTTTGTTCCTCACTGTCATTTTCCAAAAGGCAGACAAGCCCTGGCCGCCTTATGCCCAGGGCTGAGTC CACACCATGCTACACGAGCACCTGAGGGGAGGCTCCTCTCCAAAGTGCATTACCAGGGCCTGTGCTAAATTTTTCAG CAGCCTCTTGTCTCACTAATGGTCCCGGGAAATAGACT[A/G]AGCCTCCATCCCCAACTAAGTGCTCAGGCCTCCC CCACCTCTGTCCTGCCTGGGCAAGAAGCCCAGCGCCGCCCCACAGCCCAGCTCTCCATGCAGCCTCAGCTCCCAGTG GCCCTCTGCCAAGGACTTGCGCCTCTGCAGTGGGATGCAGTGCCTCATTTTATCCATAATTGTACGTGGTCCCTGTG TGATGTCCGGGG > rsl562256GGCCAGACCACACTCTGTGGGGTGTTGGGAGTTGGGTTTTCTTGCTGCAAGGA ATATATGTTCTTTAAGGCAGTCATCTGCCTTAAAGATCCTAAGGTGAGGAATTAGGGGAGCCTTATACTTGAAAGGG AGGTCCCCTTTGGGCCTGGGGAGCATTGGTCTGAAGGCTCAGGTATGGAGGATGCAGGAATATCTGCTGG[C/T]GA GGATTGAGCTGGAACCTCCCTCCTTCCCACTCCCATCTTAGTCCCTCCGGCCTTTAAAAAAATTTATTTTATTTTAT TTTTATTTTTTAAGATAGAGTTTCACTCTTGTCACCTAGGCTGGAGCGCAATGGCTCGATCTCGGCTCACTGCAATT TCCACCTCCTGGGTTCAAGTGATTCTCCTCCCTTAGCCTCCCAA > rs1446125GCTGGTCTCGAGCTGCAGACC TCAGGTGATCTGCCTGCCTCGGCCTCCCTAAGTGCTGGGATTACAGGTGAGAGCCACCGCGCCCAGCAGACCAGACC CTTTCTAATACCTTCTGACCCCAGCAGTGGGGCCCAGGCCCACCTAACATGGCAGCCTGGATGCACCTCTCTGTTCC TAGGCCTGGTGCCTGGCTCAGTAAA[C/T]GTTTTTTTTTTTAATGATTGAAAGCTCATCTTTATGGTACTTAAAGT CTGTTTCAATTACTAAGGGTCTTTGTCGCTTTTTTCTTAGGGCAGACTTGTCCAGGCCAGACCACACTCTGTGGGGT GTTGGGAGTTGGGTTTTCTTGCTGCAAGGAATATATGTTCTTTAAGGCAGTCATCTGCCTTAAAGATCCTAAGGTG > rsl446124GCTGGCTGGGATTACAGGTGCCCATCACTATGCCCAACTAATTTTTGTATTTTTAGTAGAGACGGG GTTTCACCATGTTGGCCAGGCTGGTCTCGAGCTGCAGACCTCAGGTGATCTGCCTGCCTCGGCCTCCCTAAGTGCTG GGATTACAGGTGAGAGCCACCGCGCCCAGCAGACCAGACCCTTTCTAATACCTTCTG[A/T]CCCCAGCAGTGGGGC CCAGGCCCACCTAACATGGCAGCCTGGATGCACCTCTCTGTTCCTAGGCCTGGTGCCTGGCTCAGTAAACGTTTTTT TTTTTAATGATTGAAAGCTCATCTTTATGGTACTTAAAGTCTGTTTCAATTACTAAGGGTCTTTGTCGCTTTTTTCT TAGGGCAGACTTGTCCAGGCCAGACCACACT > rsl1677262TGATACATTATTTATGGATCAGGTGGCACAGCA TTGCAGGCAGCAGCAGGGCAAAGACAGTGTGGAATCAGAGTCGGGCAGCGTTGGATGGGATTCCGGTTCTGCCACCA CTGGCTATGTGATGGAAATCTACCACATCTCTCCAAGCCTTGCTGTCCTGTTTTATCAAATGAGGACATTGTACTGA ATCACAAGGTCTG[C/T]ACAATGCCCGTGCATGTGCCTGGAATCTTCCCCTCTGGTGTCCCCTCAATGCCCATGGT GCTTCCTGCACAGGGTGTACCATAGTTGCTTGCTGTCTCCTGCTGAAGCCTGCTGTGAAGAGGGACTGTGTGGAGGT AAGGCAGTGGGCCTCTCCCTGTGAGGTCCTCAGGGGGCTGAAGGCAAAGTCAGAAGTAAAAAAA > rs756577IT CTTCTTCAGTATTTCCCTTCCTCTCTGAACACCGTTTCTTTTCCTTTCAGATTATCTGACAGCCTTTTAATGAACAC CTACTAAGTGCCCAGCACTTTCCTGGGAACTTAATTCTTACAACCTGTTAAGAGGTCTATACACTCATTTTACAGTG GAGGAAATGGAGACTTAGCGGAGATGTGAAATTTGAACCAGGTCC[A/G]TGTGGTTTCAAAGCCTGCGCATGTTCC TTTACCCTATGGAAGCCTCCAGAAGCCAAGGTCTCATCTCCCCTCTTCCCTGGAGGCCCCAAACCTGGGTAGCTGTG CCCCTAGACCTTTGAGGGAGGGTCTCGAGCCATTATCTCCCTTACCTTTTCTTGCAGTGACTTGGCTTCTCCCAGGC TGCCGTAACCAGCAAACGC > rs838066TCACCTTTCGTGGTCGTGGCACGTCCTCTGCTGGATTTTTGAGCCAA GGACAGAGGGTTTGGGAGAAGGAGGCCTCCTTGGACTTCTGCCAGGAGTTACTGAGAAAAGAAAACCCAACCAGCTGGGGGGCCAGTTGGGGGGAAATCTGCACAGGATGTTCACACTGTGCCCCTCCCTGCTTCTTTCCTGACCCCCAGAGC[ C/T]CACCTCAACACATCTGGAGTGTAGGGTGTTGTCTGCCCTGTCAGACCACTCTCCACACACAGCCTGGGGCAGG AACAATGGGACAGGTGGCTGGTGCTCACTCAGCACAGCAGGGGTGGTGGAAAGACACATGTCAGCTGAGGCTTGGCT TCAGGGCAGGCAAGTCACAGCCAAGTCACAGCCCAGCCCAGCATAGGCAA > rs895397TCAACGGTCTTGGCTT GTGACTAGACCAAGATCGCCAACCAGAATGGAGGGAGGCTGACCCAGCACATCCCGGAAGCATTTACAGAGCCAAGG AAGAGATTCTTCTTGCCCGTCTATGATAACATTGCATTGCCTTTCAGCTGGGGGCGATTAGAAAGGCACTCACTACT AGATCATGGGAGATGCCTGGGTTTTAACCC[C/T]TTGCTGCTCGGAAGGTGGTGATCATGATGGCCTGGGAGGGTT TTAGAATGGCAGAGTGTCAGGCCACCCCAAAGCTCCCAAATTAGAATGGCATTTTAACAAGACCCCCTAGGAGGTTG TATACGTGTTTAAGTTTGAGAAGCGCTGGTCTACATTACAACTGAGGAAACTCACTACTCCCTGAACACCTGCATCA AGGT > rs838059ATAAGGAGCTTCAGGTTATTTTTAGGAAGTCTAAGAATCCTGTTTTCTGGGGAGCCAGCCTC TGTTGGGGAGATAAGCCTCCGGAGGCCAGAGGCAGGAGCTGGGCCTCAAGGAAGGCCCCACAACTGGACCCCAAAGG GCACGGTGGGGAGGAAGAGGCAGAGCTCTGGTCTCCCTGTGGAGGGAGTGCTGCTGTAAAG[C/G]GCCTTTCCCTC CACCCCCAACTCCCGCCGAGAACCCCCCCACCCCCGCAGGCAGTTTGCTTTCCCCCTCCACAGCTTTCCTCCTACCC GAATACCCACCTCCCAGCTCTCTGCTCAGCCAGGGCCCAAGGCCAGAGCCTCTCTTCTCTTGCAAGAACTTTCCTGT CCCACCTTGCCCCAGGGCAACACCTCTTATGGCAA > rs838102CTAACTAACTGCCACATTCTCCTGTCCAAAT TCTGCCTCATCGGTTATTCATTCAACAAACACTTACCGAGCACTAACTTTGAGCCAGGCACTCTAAGACCAGCTGAG TCCCACTTCTGGCAGGATGAGTGTTGTTGTCATCAACCACCCCACAAACACCCGTGCCCTCTGCGTACTTGCGAATC TGAGTGAGGAGACAC[A/G]GTGGCAGTAAGGCTCAGGACCTATAGCTCATGTGAGTGAGCAAGGATGCAAAACCAA AGACACCCGCTCCCCTCACCCACTGAGCTGGAGGGATCAACCACTGTGCCTGCCATCAGGGCTGATGGGCGACTGCT TGTGGATCACAAACTCTTGCGTTGTCACTTCAACCCAGGGGCAGAGTGTGTTCCTCTTCAGGTGTG > rs376965 9GGGCCCAGCACTGTCTTGCTTCCTTCCCTTCCAGTTCCAGGCACCACCTTCTTTCTGGCCAGTCCAGAGACATCTC CAAGGGCCAGAGGGTCATCTCCAGAGGGCCTGGTGTCACTTCCCGCAGCTGCTCTGGCCTTTCACCCAGGTTGGGGC GATTTGATGGACAGTGGTGGGTCCCCTCAAACTCCACTGCATTCAGC[G/T]TGCTACTGACTCATGTGCAGGCCTG GGCAGTCACCCAGAAAGCCCCCCTGGATGCCAGCAAGCCCACTGTGGCAATGGGCAGGCCAGACCTCACCTGGAGGG CCCAGCTCACAGCCACTGTATCCTCTAGCTGTGCACCCAGAGTTCACCTTCAGAGAGACACTTGCCCTGACTGGGGG TATACTGTTACTCTCTCAAGC > rs865108AGCAGCCAGAAATCAGGGTGATGGGTGGGTGGAGGGGCAGGCATC TGGGAAAGCCCTGCCCTCCTGGTGTTCCCAGATCTGAAGGCTGGAGGCTGGAAACCTTGTGTCACCTGTGCTGGTGT GAGTTCCATTGGGGCTGCCGCTTACCCTCCCATGACCTTTAACATCTGGCATGGCTTGTGGGGGGTGCTGAGAGGAG G[A/G]GAAGTCTCAAGGCTGAGGGAGCTCAGGGTAGAGCCAAGGTCTCAGTGAGAACCCCAGGGGGCAGCTGTCAC AGCTGACCTGGAGCCCTCCAGGAACGCGTACTCTCCAGCTCCTGTACTCTCAAAAGCAACAGAAAGGTTTGCTTTCC TCAGGTGCGGTTTCCTCACAGTGCAGCTTCTCCAAAGAGATCTGGAGACCCC > rs708670GCAGGGACTGACTT CCACTACCCCTCCTTCCAGTCCCTGCCCACTCCACCCCCCACCACAGCCAATGGCATTCTTTCCATCTCCAATCTTG ACAACCTCCTGGCCCATCCCAATCCCCCTTCCTTAAAGATCCAGCCCAAGGCCTTGGGCACTTAAGGCACCTGCCAT CTCCCCCAACGCCCACCCCTGACAATCTCTCC[C/T]GGCTTTGAATTCAGACAGGCAGCTGTGTTAGTTGGGGGAC CTAGCTGGACAGAGATGTGTGTGAATTCCGGTCCAGCCATGTGCTAGCTGTGTGACGTTGGGTAGGTTGCTTTCCCT CTCTGTCCTGATGATTAAACAGTGAATATGAAACCCCTAAACACATGTCTTCCTTAGGACTGTTCTTGTGTGCACCT TTCCTT > rs708672CCTCATTGTTCTCTGACTGCTGTGGCCCCCTGGGTCTCCTCTCTTCTACTGGAGTGAAAG CCCCTGTGGGCAGGGCTAGATTCCTGAATCTCCGCGGAGTCTAACACAGGCCTGTAGGCAGGGACTGACTTCCACTA CCCCTCCTTCCAGTCCCTGCCCACTCCACCCCCCACCACAGCCAATGGCATTCTTTCCATCTC[A/C]AATCTTGACAACCTCCTGGCCCATCCCAATCCCCCTTCCTTAAAGATCCAGCCCAAGGCCTTGGGCACTTAAGGCACCTGCCATCT CCCCCAACGCCCACCCCTGACAATCTCTCCCGGCTTTGAATTCAGACAGGCAGCTGTGTTAGTTGGGGGACCTAGCT GGACAGAGATGTGTGTGAATTCCGGTCCAGCCATGTG > rs708673AAACAGATGACAGCACTTGTCTCCAGGGC AAAGCATGGACGGGGGCTGAAGAAGACACAGGCATGTTTCTGCTGGCTGGGGATGGCTTTTCAGTGGACCTTGGAGG CCACACCGGCAGCCCAAAGGAGGCTGGAGGTTTGGAAGCTTTTGCATTGTTGAAGTGAATTATGTGCAAGCCCATTC TTAGGGATAAGTGTATT[C/G]TATTGTTTTCAACTTGTTTGGAACCTAGCGATCTTGGAATAGGGCACATCTAAGT ATCCCGGGCATCTTTATCTCAAGCCCACATGCAGAACCTGTTTTTCAGATCCCTGAGCATCTGATAAACAGGTTCTG GGCAGGTTTCCCCTATCATCACCAAACACCAAGCCAAGGCCTCATTGTTCTCTGACTGCTGTGGCCCC > rs8381 OOATCAGTCACCACTCCCGGTCCAGCCCCTGTGGCCAAGAGCTGGCGTGCAGGCTGCGGGAGGCAGCTGGCTGTGCA AGACCCTGGCAGGGCCCTCGCCTCCTGAGAAACCGAGAGTCAGAACCAAAGCCAGGCTGTCCTGGTTGGAGACTGAG CCAGAAAGGGTGGCTCACCTCACGGTGAGGCTGTCGAGTGACCTGAGA[A/G]CCTCAGACCCTCACGTCAGCCGGA TGTCGCACCAGCCTGCTGTTGGTAAGTCTGGCTAGGACGCAGATCCAAGGGGGCATGGGTCGTGTGCAAACCCCTCC CACCAGCTCCCTCACCACCTGACCCCTGCCCTGCTGGAGGGTGCCCCTTGAATCTCCAGGAGGTCCGAGGAACTCGA CACCTCCCAGAGATCTGTACTG > rs838098AAATTTCAGGGGTTCAAGGATTTATCACACACAGTTGCGTGTGT GTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTTTAAGGATGTTAATGTTTATGATGCATTTCTGTGGAATGCA GGCCCATTGGGAATTGTAAATTTTTCTTATTGGTAACCATTTCTGCATTGGTTTAGCACGGAACTGCTGCTGCAAGT AA[A/T]TGAACCAGATTTTTCTGGAATGATTCGAAAATCTAGCTGTTTGTAAAAAGCTCTCTAAATTATTCATTCA CTTTTATTTTGCACAGTTGTGTGACGGTAAACTCTTTTCCATCAGACGAAACTTGCGCGCACGTGTATTTCTGCGGG GATTGGCTCGAGTGTGCTTGAGTTTTCTGTATTCTCTTTTGTAGGAACTTCTC > rs838096ATGCCCACAGAGA AAAATAGAAATCTACCAATTAGATGTGTGTGGCTATAAGTGAGCTTTTAAACCATGATTTGAGACTGGCATCCTCTG GCCTCTCTGCCCTCAGGTCAGCTGTGGGAGGCTAGGGGTGGGATAGCAAAAGGGACCTGGGATCAGGTGGGGCTTCC TGGACCCCAGGCCCAGTAAGAATGAAGCCTAGG[A/G]GTTCTAGGATAGGGGGCAGCCCTGGATTTGCAGAAACAG CCTGAGAATGAGGGGCTGGAAAGTATGAGTTGGAGCAGCTCAGTGAGGAGACAGAAAACTGAAGCAGAAGAAAGCAG AAGACACCAGAGTCTGGTGCTGACTGGGTGACTGGCTGTTACTCACATCCTGAGCAATGAGCCACAGACCCTCCCCA CCCCAGA > rs838092CATTTCCCTGAGGGCTAATGATGCTGAACATCTTTTCATGTGCATTTGTATATCTTTTT TGGAGAAGTGTCTTTTCCAGTCTTTTGCCCACTTTATGTAGGTTGTTTGTCTTTTTAATACCGAGGTGTAAGAGTTC TTCAGATATTTAGAAACAGGTCCCCTTATCAGTTATATGATTTCCTGAACTTTTCTCCATTCTG[A/T]GTTGGCTT TGCACTTTCTCGATGCTGTGCTCTTTCGATTTCGTCAGCAGCGAATTAGCAGGACCTGGGGGGCTTTAAGAGGTGAG CAGGCAGACAGACAGCGCCCACAAAGTCCTGAGGATGAGAGAAGAGGCAGAGCTTACACAAAGGCTCTGTGAAAACT GAAGATGGACCCCAGGCAGGTTGGGGTGATCCCTGGGG > rs838090TCAGCCTCCGGAGTAGCTGGGATTACAG GCACGTGCCAACACACCCAGGTAATTTTTGTATTTTTAGTAGAGATGGGGTATCACCATGTTGGCCAGGCTGTGTGC AAGAATTTATGTTTTCACTTGTGGCTTGCTGAGCCCTGGTGCTGGCTGTGGGCACATACTCGTTCACCCAGGGACAT GCACTGTTGATGGGTCCT[C/T]GCACTCTGGGCTATCTTGGGCCCCGTTTGCTCAATGCAGGCCCCTCTTTCTGAA GCGCTTTTCTTGGGCTCACTCTCAATTCGTCAAAGTTCGGCTCAGGCCCACCTCCTGCAGGAATCCTCCCAGTCCCC GCTGTCCGAAGTCAGTACCCTTGTCAGGAGACCTTAAACACTTTAGTCCACTGCCTGGCCCTCCCATGG > rsl24 67944AAGAGGCCGCCTAGGGAGCAGTACAAGGCAGCATTACAACCTGGCATTTTCCTGTTGCAGACTGCATTTTGG TGGCAAGAGAAGCTTTGGAGGTGCTTAACGTTTAGTTTGCATTTATCCTACCGCTGAAAAGCAGGGACCCTTAGGAC CATAAGTCTAGGACTTTTCATAGCACCCTAGACTGCTGGGGATGAAAGGGG[C/T]TTGGAGCTGAGCTGGTGCAGC AGCTCCTGTTAGAGAAGCCACCCAGAGAGGCCCAGGGACCTCCTATGTCCCAGCGCCAGTTAGGGGCAGACGTGGGACCAGCTCCCCTCGGCTGCAGCGGCCTCCATATCAGCTCCCTGGAAGGGAGCAGATGCCAAGTCAGGTTCTGAGCAAC ACCCTCAAGGCCCAGCCCTGGCAAT > rs10196144GACTTGGCCCTCCCGACCACAGGAGAAGAGGGATTTGAA TTCACCTCGGCCCAAATTGCAGATGCTGGCCTGCGAGCCCTGAGGCCATCTGCAAGGCTCCTGGGCTGACATAACTG TCACCCAGCTCTTCATCCTCCTTCCCCGGGGCTGAAGGGGTGCCTGCAGGGTCTTCTGCCCTCCCTCCACCTGGGCC CTACTGC[C/T]GGCACGGAGCTTCATTTCTGTTGGCAGCCAGTGTTTGCTTAGTGATTACTGAATGCCGTTTGCTG GGTGCTTATGATGTGCTCAGCACTGTTCTAAGTGCTTTACACAATTGACTTATTTACTCCTACAACCTGCCCATAAG GGAAGTGCTGCCATGGTCTCCCTTTTATAGCTGAGAAAACTGAGGCACAGATAGGTCC > rs6728660AGGCGGA CTGGCTCCAGAGCCCGGCTCCTGGACCGAGCAGCCTTGAGTAGGGACCTGGTGCAGACCCGCCTGCCGTGGACTCAC TATAGGATGGGTCAGGAGGCCCGTTGTCACCTACAAAATGTAGCCCACCACCCAGGAAACGCTCCCAGAACCAGGCA GAAAATACTGTCTCCTATTCACAGGGTGGCTGTGCCTGG[C/T]GTGAGTGTCTTGGCGGGTGCCTGCATGTCTGTG CAGGAGTGCCACCCCCATCTGTGGACTCGGAAAGCATGATCCCCACAAAAGCAACCCCTCAGAGTCTCAGCTCAGCC AATCCCTGTTATCCTGTGACAGGCAGGGCCATGTTTCAAAACCATGTTAAAGATGAGCAAGAGGCTAAGGAAGTTTC CCATGCTGGCAGA > rs10188946ATAATACCCATCGTAACAATAAATATAAATGGCTAATTTTCATCGAGTGCT GCCAGCATGCTCTTTTTGATATGTTATCATAACTAATCCTGCATCACTGCAAAATTCCATTTTACAGAACAGGAAAT TGTGGCTCAAAGACATTAATGATCTTACTGAAAATTCCATAGCTGGTAAGTTGGGATTTGAACCCAGTTCCT[A/G] TGGATCTGAAACCCATGTTCTTTCTGCTATGGTAACAGGGTTTCCTAGAGGGCAAGGAGGAAAAGGTTGATGGCTTT TTGCTATTTGGAGCCAAGAAGGAGAGAGACTTGGCTTTTAGAATTGGACTCAGAAGGAGGAAAGTAACACACTTATG TACCCGGCCCTGAGGAAGGCAGGCATGTCTCAAATTTTATCGTATT > rs895406AGGAGGAATAGGAGTTTGCA AGCTGTCAAGGTGTCCTGGGGTGGGCGTTCCAAGCCGAGAGGAATGAGCTCTGCCCATTTAGAGGACAGTATGGGAC CCAAGTGTTGACACGTCACAGGAGAAGGGGAGATGAGGCTGCGGAGGGAGTCTAGCTGCATAGTGAGGGTTCTACCA TTATCCCAAGGACACTGGGGTCACTG[A/G]ATCTTTTCAGCAGTGACATGGTCAGATGAGAGTTTCAGACCATCCT GTGCCAGCCATGTGCAGATGTAGCTTGGGGTGAAGGTAATAGGAGAACGGGGTGAAGGTAACAGGAGAACAGTGTGC AGGTTAAACATTTCTTTGATCTTGATCTTTGAGTTTGATGTTGAAATGTGTATTTCCAGGGAAATACACAAGCAAAT > rs708675TGGACCTCTGAGTCGGGTATGAAGTAGTGTGTAAGAAAAATAATAAAAAAGTATTTACAAAATGCAA CAGATTACAGAGGCAGGTATGGGGAAGTAAGGGGATAGTCTGGGGGAGCTTAACAGAGGTAGGGTTTTGAAGGAGGA ATAGGAGTTTGCAAGCTGTCAAGGTGTCCTGGGGTGGGCGTTCCAAGCCGAGAGGA[A/G]TGAGCTCTGCCCATTT AGAGGACAGTATGGGACCCAAGTGTTGACACGTCACAGGAGAAGGGGAGATGAGGCTGCGGAGGGAGTCTAGCTGCA TAGTGAGGGTTCTACCATTATCCCAAGGACACTGGGGTCACTGGATCTTTTCAGCAGTGACATGGTCAGATGAGAGT TTCAGACCATCCTGTGCCAGCCATGTGCAG > rs1867856CCATACTGTCCTCTAAATGGGCAGAGCTCATTCCT CTCGGCTTGGAACGCCCACCCCAGGACACCTTGACAGCTTGCAAACTCCTATTCCTCCTTCAAAACCCTACCTCTGT TAAGCTCCCCCAGACTATCCCCTTACTTCCCCATACCTGCCTCTGTAATCTGTTGCATTTTGTAAATACTTTTTTAT TATTTTTCTTA[C/T]ACACTACTTCATACCCGACTCAGAGGTCCATGACTGGGTCTTCTACACCTTGGGGTCCATG GTTCCTAACACAGGTTCACAGTGCATGCTCACTGAGTGACTGATTTTTAAATTGGCCACCACAGAGCCAATATCAGG CATCTTAAGAGGAGTGCACGTAGAGCTTGGAGCAAGAACTAGTCTAACTGCCTTGCTGCCAC > rsl2711924CC TGATCCCAGCTCTGCATCTGTTAGCTACATGTGACCTTGGGAAAGTGATTTGATCTTTGTGCCTCATTTCCTCCATC TCTAAAATGGGCTAATAGTGATCTCTACTTTGTGGGGTGGTTTTGAGGATTCGATGAGTTAATGCCTGAGAAACGCT TATCACAGAGCCAGGTAGCGTCAGGTGCAGTGTGAGCGCCCGCC[A/G]TCTTGTCTTTCTTGTGTCCTTCATCATT GCCCTCCCGGGGCACCAGCCTTTGCCACAGTGTTCATGGTTTTCCTTCCATCCATGTCAGGTCTTGGCCAACAAGAG CCACCTCTGGGTGGAGGAGGAGGTCTGGCGGATGGAGATCTACCTCTCCCTGGGAGTGCTGGCCCTCGGCACGTTGTCCCTGCTGGCCGTGACCT > rs1867749GGACTCAGGGACAGTGACAGCGTAATGCTCTTACGTAATCCAAATTA
ATTGCTCCTGACCAGGGATGCTTCACATCCATTGGAACAACACAGAGTTGTAGCCGTGTGTTTTTTAAAGTGTGTCT
GCCTCTGAATCTCCCTGGCTCTGCTCATCTCAGAAGGTCCCTGGAGGAGGGCTCATGGCTGACACATGTTAGCATA[
C/G]GAGAAGGGGAAGAATTTTATTTATCTGCCACTAATCCCCATGTGTCTCATACCCAAATCTAGGATTTTCCTCT
TCCCACCTGGAGTATCCGGCGTGCATGGTTTATCCACAATTAAAGCAGACTGCAGGCTGCTCCCCTCACCAGAAAGC
CGCTCCCTTAAGCAGCCATAGATTACATGCCCTGGCTCTGCCTGCCAGAG > rs838073TGCTCCAAGAGCCTCA
GTTTACACCCCTGAAAAATGGAGTTAATGCCTTACAGGGATTTTATGAGCCACAGTAAGAGATTATGTGTGAAAGAA
AAATAAAAAGCATTTTGCTATTATTCTTAGGGTATCTGGCCACATTTCCATTATCTCTGACTAAGGTACCAACCACC
GATTTCTGAGTTCAGTAGGAGACAGTGAGA[C/T]AGAGGCCAAGGAACCCCAACCCTGGGCCTAAAAGTGGTCCAG
TCAGTGTTTGCAAACTGGCGGACACTCACTAGTGGGTCATGCAATTGATTCCATGGATCACAAGCAGCATTTTAAAA
ATGAAATAAAATAGAATGACAAAGAAAACAGTGGAGTGTTTTGCATGGTGTCGGGATACTTTTTCAGTTATATGGAA
TTGC > rs838069CTGACCTCATGATCCGCCTGCCTCGGCCTTCCAAAGTGCTGGGATTATAGGCGTGAGCCACC
GCACCCAGCCTTCCTTTGGTATTTTTTTGTTATTGTTTTGGTTTGGTTTGGGTTGTGCTAAGTGTTTCAATTCAGCC
AGTTTTAACTGGCTGTTAGATATTAGACTGCAAAATACTCCAGTCAGAGCAGCTCACCTGC[A/G]CAGAAAAATGA
GGGTTCAGCTTTTAGAACCTAAGTTCTTTCCCAGAGTTAGAGGAACTGCCTGTGACCTTGCCCACTCCAGCCACCTG
CCTGAAATAATGACAAGACCAGCCTGACCCCAGCTTCATGAGCAATTGTCCAAAGCCCCTTTGTGCCGTAGTAATTG
AGCACCAGCAGGAGCTACAACGACCTGGCTGTTTC > rs3731603TCCTGTGGCCCCGGCGGTGCTCTTCCCTCT
TGTGCTTTGGGGCAGCAGCATTTTAGGTTTGTAGCTTTGGTGGAAAAGTTGCTCCCCACTGTTTTGAAGTGTAATGC
CCCATGAGGAGGAAGTTGGAGCCAGTGTGGTTTTCTGGGTCCTCTGCCAGAGGACATTTGGAGTCCCCAATATTTTT
CCTCAGGACTGACTTC[G/T]TGAAGACAGTCCTTCAGCCCAGGCAGGGCTCAACTCTGACGCCCGGGGAGCTTTAC
TCCCTAGAGTGTTTTCTCTTGCTCTCCCCCTTGGGCTGATTTCTAAAGGGTCTGCTCTAGGCCTTCCTGGGAGTCAT
TCAAACTGAAGATGGAAAGGGTGAGAAGGCACAGTGGTTTAAAGGACGCTCATCGCCAGGTTAAAGG 表 27.
rsl3387042 的侧翼序列和相关的 HapMap SNP 标记,其中 r2 > 0. 2 > rsl3387042CTGGCATC
CGAAGGTATAGGCTCAAATCCCAGCTCTCATGATTGCTAGCTTTGAGGTTTCAGGTTCATTTCTTAAGTGCTCTGAG
CTTTGGTGCCCTCCTCTTCAAAATGGGAATGAGGAGCATGTCTAGCTCCCTGTTTTGTTGCAGTGAATAGCTACATG
AAGAACAGCTAAACCAGAACAGAAAGAAGGCAAATGGA[A/G]GCTACAGAAACCAAGGATTTCCTTGTTGAATCGA
ATCTTCCTTCAATCTTCCTTCACCACACTAGTGGATCTCCCTGTGGGAGGGATGTTGAGAGTGCTCCGTGTTTTTTT
TGTTTTTTTTTTTTTTTTTTTTGTGATGGAGTCTCACTCTGTCACCCAGACTGGAATGCAGTGGTGCGATCTCGGCT
CACTGCAACCTC > rsl882419AGCCATGGGGGTGACACAAACTCCAACAAGCACCAGGGTCAAGTAGAAGCTAA
CTGACCCAGGAGAGAAAATAATTCTGTCAAGTTAAGTAATTTGCTGGTGTTCTCTGCTAACTCACATCTGCGTCCTG
GGTCTCCTTAGCTCTTCCTTGAAAAAGCAATGAATGTTTTCTAACTGTAGCTACCCCTAGTTCTTCAGCA[C/T]GT
CTGTGGCTGGCTGCTTGCCACCCAGGCATGAGAGGATGCTGTCCTCTGGGAGTCCCAGCCTTGTGGTAAAGAATGCA
GGCTGAGAAAGACTGTAAGATTCATATTCAGGATCTTCCACTTGGTGGGCAACCCTAAGAAACTCATTTAATCTTTA
TTAGCCTCCGTTTCCCCTTCTGTAATAGTACCTGCCTCACAGGG > rs2252488AGACATGGTCAGGGCCTCAGA
CCCTGTGTGTGGCCATTCAGCTTTGCCCTGTTCTGTGGCCACAGTCCATGCTCTAAGTACTGACCAGATGTCTTACA
ATGCACACGGCACACAGTTATGGTCTCTGTGGGGATGGGGGAATAAGGTGTGGACAAATCTGTTCAGCTCTAAATCC
TTGACCAGAGGAGCAGCTCAGAGCA[C/T]GAATCCACAGGGCAGTGGAGCCATGTGCAGGATCAAGCACAGCGGCA
TCACTGACTTGCAGGACACTGGAGTGCTGGGGCGTGGTTCTAGAGAAATGCCCTCAAGTCCTCGATAGATCCTAAAT
GTGGTTAGTTCTCTTCATTACAAAGACAGTGGAAGCTGAGGTCCATGCAGATTAAAAGGCTAAGCTGTACAGTAAT> rs2272525GGACCCTGGTCAGCCTTAACACAGGCTGTGATCATCTCAAACCTTTCGAGACCTTTATCCATAAGA AAATAAGAGGAAATTTTATTTCAAAGTAGCATGAAGTGATATGCCAACTCACTTGAACAGCATGACTATTTTCTGGT TCTGTTTTGTAGTTACTTTTCACGTGGAGGCCCCATCTGCAAAATAGGACAAAGGAA[A/G]ACTCACTGAGACCAA GTCTGGGATTCTGAACCCCAGACCACTTTCTTCCTCCTTCCCTCAAACACACTCACTCTCTCTCACTCTCTTCTCTT TCTCTCTCTCTTTTTTCTCTTTCTTTCTCTCTCTCTCTCTCAGGTCCTGGGGCACTCTGGACACAGTCTGAAAACCA TTGAGGTACAGCAAGTACCACAGAATGGAAT > rs4396687TTTCCAAGGACTTAAGCAAACAGAGTCAACTCCT CTGTTTTCCTTGTTTGGGTATATTTTTGAAAATGTCTCTTCTTCTTTCCTTTCATTTACATTTTACCGTTGTTTATC CACCTTTTCCTCTTCCTTCAAAGCTCTAGACCTGCCTCCCTGCCTGTTCTTAGCCCACTTTTGAGAAAGGACTTTCC AACCCCATCCTC[C/G]AAAGGGCAGGGTCTCTCTCCAGGGCTCCAACAGAGTTCTGAAAGAACACGGCTTCCACCA TTGTGTCTTCTCTGTTTTGTCAACTGCTGAAAGACTGACACAGTAGACAATGCTGCAGACCCCTTGGGAGATAGTCC AAGTTTAGGGTGGGGAGGGAATGGTGCATTCTGGGTGTCCACATATTTGTTGTTGCTTTAGGA > rsl2614767A CAAGAAAAGGGAGTGAAGTGTGTGGGGTTTTTAAAGTGGTGGTGGGGGGGCATTAGGAGATACCCAGAAGCTCTCAA GATTCCAAACAGTCTGCTTTTCTTTTCAGACATTACACTCCAAGAAAAGAAACTCTAGTGTATAACAGAGGGGCTCT GTCAAAATTTAACAACATAAATATTGGGCAAATGAAGTTGTTTCT[C/T]TGGTGCTATCTCAACCTGCCAATGGAG AAATATCTCAAAAAGTCAAGAATTGAAGCCATTACTCAGAGACAGCATCCTATGGCATGGTGATCCAAAACAAGTAC ACCTCTACCTTTTCCCTTTCAGCCCCAAACCCCAAAACACTGGAGAATATTGGGGCAGGCAAGGCCCGTGAATAGGT GAGCAGAGCTGGAAGAAGA > rs4571035AAAGGCTTTGCCAGTAGTGCAGCCCTCTCCTCCCAAAGTCCTAGAG GCAATTACTCTGAAATATGGAAGAAAGAGGCACATCTGAAAGCCCAGTGCTGTCTTCTTGTCCTCACATCCCTCAGG ATCTCAAGGTCAGCCTAGTAGAGGCATTGCTTTACCATAGTAGCAACTCAGGGAATATCTGTGGAACTGGATTCCTC [C/T]GAAGTTGGACAGTTGCTTTATCCCTGCTAGAGGCTCTCACTACTTAGACCCACACAGTCCTATAGATAGAAG AAACCTAGAGAGAACCACCTCTCACACTTTTATTTTATACATGGAGAACCAAAGGCCTCAAATGGTGGAGTGATTTG CTGGGGTGCTACAGTCATTGTCACAACTTACATTGTGACATGGGCTTCATA > rs10195963GCTGCAAGTCAAG TTCGACATTCAACTATTTCCTCGGGGTCCTTTTTTGGGAGAAGCAAGGCTTTGAGTTCACTCTTTGACTTCAAGTGA AGTCCATTTTCCTCTTAGACACTACCCCAGTGGTTCTCACACTCAAGGAAGCACCAAAGTCCCTGGAGGACCCGTCT AAATGAAGGATGCTAAGCCCCACCTCACAGAGA[G/T]TGATGCAGTACGTCCCAGGAATCTGCATGTTAAAGGAGC TCTGCAGGTGATTCTGATGGAGGTGGCCCTTGCAGGATGCTTTGAGAAACTATATGTTCTATCCCTCGAACTCTGCC TGCAGAACAGCCTGAGATGGCTCTTCCATGCTTTGACCATTTGGCCCTCCACAGTAGTCCCTGAGCTGCGTCTTCTT CGGACCA > rsl0207736TGTCTAACCCCCCTTTCATCTGGTTATAATGAATGCCATTGCTTGTGTATAGTTGCC TACATTAATAGACAACAATGCAATATTCTCCTTATGGAAACCCTACCTAGATTGGGAGGCACCATGAAGCCACTTTT TCTTCTTTCTCCATCTCTACCCTGATTAGCAAACATCTCTAATTATTGTGACTCCCAACCCCAGTC[A/T]GATCAT TTTATTCTTTTTCCAGTATCTATGCAGGGAAGCCTGGCAAAGGCTTAAGGGATGGGGTGGGGTGTAGCATGTCAGCA GGATTTGGAACTATGGGCCCCATACTTTTGGCACCTGCTGCATTTTCTCCCCACCTGCTGCACCATAATTCATCTGC TTGTATGAGTTTAGCAGAAAGAGCCCCCAGTTCCCTGTAA > rs12464018GGGAAATTTCAGTATACATAGAAG GCTTAATTCAAAATGATATAATGTCAACATTTGGTATAAGAAATTATTTATCTGGCAGAATATATACTCACAGATGT CAAAATGGGTCTAGAGAGTAGAGAATGGAGGCAATTATCCAGACACTGAGGCCCAAGGCACAATACTTTTAAGTAAT CATGCCCTCAACTGGCATTTCC[A/G]TAGTCTTAAGCCCAAAAGCATTGGGTGGAACCATTCTATAAGCAAAGCCT CAGCTATGAAAACAACTTTTAAAATTGACATTCAAAAGATAAGATCAACAACAGGTGCCCTTTGCTTTCGGCAGTAG GTGTGTTCTTGAAAAGTTGGTTGTCAATATTTCCTTTTCCCATTAATCTAATCACATTCTAAATATAACAGGG > r sl0932689GGCTCGAATTATGCTTGCACTGAACAAGGCTAGTCTAAGGTATGCAATTGCCCTGCTTCTTCACTACTTTCAAGTGTAAACAAATATGTCAGCATTATCCCTAGAAGGAGGGTTTAGGGGTTTTAAGTTGAATACTCTTCAGCTG AAGAAAATCCATTAATCTCCAGTTTTATTCTTGAGTTAGCTTTCAAATCTACATT[G/T]CGACAATAATTACTTTG GGATCTTTGAATTTTCTTTCATGCCTTTCTGTTCTATGAAGCCCACATGCGTAGTTTATGCATTTTCCAATTTAGGC TAGAAGTCCAATGTGCTGTCCATTGCACCACAGAGCCTGTTTGCTATGCATTTTTAAGAGTAAAATTTTCAGAAAAT ACTTAAATTAAAAAGATAGATTTGGAAAG > rs12613030TTAAATTAAAAAGATAGATTTGGAAAGCATATCCA AAATGTTGCTTTGAACTTCTTATTCTGGACAATTCCTGGACTGGGGAGAAGGCATGCCCAAGTACACATTGCTTGCA GTGGCACCTCCAAACCAATGCTGGTCGGGACTCTTCCTATTACCTCGCAACAGCAATGACTGGGCCCCATAATACAG CCACGGTCATT[A/G]TAAAAGATCATTACAAAGCATCAAATTAACTGCTATTAATGAAAGCCAGAAACACGTCATT CAGGAGGTCGAATGGCTGGGATGGAACATACAGGGTTGAATAATGGTAGGAGCCTGGGTTTGGAATTAGAAAACTGG GACAGGAATCCTACTTCTGCTATGAATCCATTGCAAGTGACTGGGCAAGTTGTTCCTCACTC > rs2888450CAG ATCTCAATCCGTCTTATCCTACCCTCTTCCTGACCTCTAGCTACAAGAACAGCAAGGCACAGCCCCCTGGTTTTG AG AATGCTAATGCTTGCCAGCATTCTTGTCCTGCAGGGCATGAAGTATAGTCCTGCACAACCAGCAGGCTCTGTGACTG CCTAACCTCATCCTTGGTCACTGACCTCTGTCTTAGTAGCAGT[A/T]CGTGCCATCCTACCTAGCTTTGCTGGGTC AAGTGCGTTCACATCTTAAAACCGTTTGAAGCGTTTGTCTAATTAACATGCAGAAAGCATATACTGATTTTTATTTT CACCACCATGTATGTGAGGGCCTATTTTATGGCATGCAAAGCATCTCATTTTTATTTCAATTCTCTGTCTTGTAACT TTAAATGAGGCTGAAAT > rs4254482TTTTCCGGTTTGTGACTTACCTTTTAATTTTGCTCATAAATTACTTTT AACTTACAGATAGTAATATTTTTGAAAGGTTACATTCATCAGTCTTTGTATTGTTAAAAAGAGTCTTTATTGTTATA CTTTTAAAGTAGCTTTTCCACTCCTAGTCAGATACTTTCACATATAATAGTTGTCTACTTTCCTCCTGAATTAAT[ A/G]GGGATTTATTTTGGCATATGGTGTGAAGTAAGAAGCTAAATTCTTTTTCTTTTCTCTGCATCATCAATGATCT CTTACACTGTTAAATAAACTAGTCTTTTCCTTCTGCTTTCCACACCCATTTAACCTAGCCCACTGTTGACATCGTCA GAGAAAACTTTTCATCAGAAAGTCTGAACAGCACAATTATACTGTATCAA > rs2372932TTACCTTTTAATTTT GCTCATAAATTACTTTTAACTTACAGATAGTAATATTTTTGAAAGGTTACATTCATCAGTCTTTGTATTGTTAAAAA GAGTCTTTATTGTTATACTTTTAAAGTAGCTTTTCCACTCCTAGTCAGATACTTTCACATATAATAGTTGTCTACTT TCCTCCTGAATTAATGGGGATTTATTTTGGC[A/G]TATGGTGTGAAGTAAGAAGCTAAATTCTTTTTCTTTTCTCT GCATCATCAATGATCTCTTACACTGTTAAATAAACTAGTCTTTTCCTTCTGCTTTCCACACCCATTTAACCTAGCCC ACTGTTGACATCGTCAGAGAAAACTTTTCATCAGAAAGTCTGAACAGCACAATTATACTGTATCAATCCAGCTTAAA TTACA > rs4255939TGATCATCGATATACATGATGTCAAAAATTTGGGTATAACTGAAGAATTTTAGTAATTTA AAGATTTCAGAATTTAAATAATGAAATATCTGATACATTCAATTGGAAATTTGGTTGAGATCAGCTGACTTGTTAAT TGGACTTCACTGATAAACATTTGCCTTAAAATCTGTAGAATCTAAAGCAGGGTATACCTAGTA[G/T]GCGAGTAAG ACATCATTTCTGGAATCAAGGGGGCTTTTCAGTGTTGACCAGATGTTTATCACTGCATGGGCAAATGGCCCAAGGAG TATGGTTGTGGCTTGGCTTATTTCTTCTTAACGCAGATGCAGTTGCTTTCTTTCTGGGTGGCAGTGTGGAGGATAAC TGGGGTCGGTGGGGACATAAAGTCTCACAAGGGGAGG > rsl0192415TTCTTTATTGTATCCAGTATAACATAC TCGAAGATGTATATATACACATATATAGATATACAAAGCATCTATACATCTAGACATGTATATATACATATATATAT ACACACACGTATATACTGTACTTCAATCATCTATATTAAATTGTGATAATATCACATTACCACATGTTGATGGCATT CTTGTAATCTGCCTGAAAT[C/T]CATGAAAACACATGCAGTGGTCTGGCTCATGTTGTCTCAGGGAGTGCATTCTG GCTCCCAGTGATCATCAATTACTTTTATAAAAGTTCACCAATCACTTGTTGGTTTCCGGAAAACAAATTTAAAGCAA ACATTATTAATGTCAAACTTACACATTTTGCTTTCTGGAATCAACTTTTTTATTTTAAAAATTGAGAATA > rs75 95393CAGGGTCCACGGTGTCCTTCGTGTCCCTCCCTGCCCAGCCTCAGCAGGAGCCCCCTGCTCCTAGACCACTCC CTTACTGAGTCCTGTAGATGTTCCAGCACACACAGTGCCTCCCTTCTCAAGGCCCCAGCCCCAGCCCCTTCTCAGGTCATTTGGGGGCTTACATCACCTGCTACCTGTGTGGAGATGGAGGTCTGTTT[C/G]CCAGCACTGCCTTGCTTTTCC TCCTGCCCCACTGCATTTAATCACTGTGATAAGAGGAAACAAAGAGGGAACGTCATTGGTCCCATTCCTCTGAATCT TGACCACGAAAATATCTTGAATTGCCTCCGTGTCCCCACCCAACATCGCCTCTTGCACTGCTACCTCTGCCTGAGTG CACATCAGCCAAGAGCCAGGAACCA > rs2372935CCCAGCCTAATGTGTACTTTTAAAAGCACTTTTCAAATAC TTCATCTTGTTTAATCTTCTTGGCAGTTCTGTAAAGTGTGAAGCATTGTACAAAGTTAACTCTCATTATTATATTGG AACCCAGGGTTTTCAGAGGAGAATCCTCAAGGAGATAGGGCTTTCCTGCCTTGTGCCCATATAAGGTTGTGGATCCC AAGGGA[C/G]GAAAGCATTTTCATCAGACTGGGAGAGGCAAGAAAAGGTCACTGGCAGTATAGATTCTTCTGGAGT TCACTGGCAACTTGTCCCACTTCAGTTCTCCCTTAATCTTTCCAGATGTGCAGATGTATAGCCTGGGTGGATGAGCC AAAATGAATTCAAGGCTAAACAGGTCAGCTGGCTCAGCCCATGGGAAGCATGCTCAT > rs6733648TGGAGAAA CCAAGAGGTTGATTTCCTCAGCCTTCAAGAGAGCTCATCCTCAGCTCTCTAAAGCTGACCAGAAAGAGGAGAGTGGG ACCTATGAAAACAGCAGGAGATGGGAGGGCTTGAATTCCTAATGCTATACCCATAGGTCATTGTGCCATGGTCCTCT GCACCCCCAACACCCCCAACACTGATCCTGAAGGTCTC[A/C]ACAATCTTCATCTGCCTCTCTCCTTTCACCTTCT TTACACTCTCATTGATAGCCTTGGTTTTTTCTATACCTCCAGTATTCCCATTCCCATGATAGCCATTTAAGGACAGG GCACTTCCTGGTCACCATAAGGAATATTGTGGGAATGTTCTGCTCATGGATATTGCATCAGAATAGGTCTGGAAATG AAACACACCAAC > rs6435957GAGACAGATGGAGAGTGAGAGAAGGGAGGCAGGTAGGTAGGCAGAAGAATGAG GAAGAAAGCAAAGGAGTTGAGACTGGGAATGGACAGAAGGAAACCTGTACATGCTGTGATCTGGGCTTTCTATGTTC CCTGATCCAGGGTCCTGAGATCTTGGGGTACTCGCCACTGCATTGTAAGTTTCTGTGGATGAAGCTGGCA[C/T]AT AAATACATCTGTAAAGCTGTAACTCCTGGGCATTGTCCCTGAAATTTTACTGATGTCTAGATTCTAGGTATGGGATT AAATGGGTCCACATTTTGTGTTTTTCTGAGTCACCAATTACAACAAAACTTGCTCATATACTTATGCCTATCTTAAA AAATAATTTATTTTAATAAAATAATAATAAGGCAAGAAAAAAAG > rs6723019TCATTATCTCCAGAAAGCTTT TCCAGCTTCCAGTCACTGCTTCACTCCAGTTTTCTTTCTTCTTTTTTCATCTTGGCTTATTTTAGTTGGCTTCTATG CCCATGACTATCACCCTCAACCAAAGACAGAGAGGCTCCAATGCAGGAGGCAGACAGATTTGGGCTTGAACCCAATG CCGCTTCCTTGCTGTGTGAGCTTTG[G/T]CAAGTTATTCTATTGCCTAATTTTTGGGGATTGTATTATGTTATGTT ACATGTTATGTTTTGTTACATGATATTGTGTTATATTACTATCTTCTTCATGGTGTTATTATATTATTAAGATTGAT GAGATAATGTGTGTCAGATTTCTAGCAGGTTTCTTGGCATATTGCAACCACCAATACACTGAACATATACTGTCTA > rsl2614773CCACATGTTTCTCATCCTCCTCCCAGGATTAGTGGGCAGCCCAAGCATGTCTTTCTTCAAAATGA TGCTGGATACATAAGAGAGCAAGCAAAAACATACATGGCTTCTTGAAGCCCAGGCTTGGAATTGGTATGCCATTGCT TTTACTGGCCAAGCAAGTCACATGGGTGGCATCAGGGATGGGCTTATGCATCATCTAC[C/T]GTGGGAGGAGTTTT CTAAGTATGATGAGGGCACAGATACAGGGAGCGGTGACCATTACGAACATTAATGCGAATCCTCCACACTGTGTTTC TTGATCTGCCAGGACAGGGTTCTCTGAAGGCCAGTAGAGGTTCAGTGCTTCCAAAAAAGGATGCTGGGCTCAGGTAG GTAGACAGAGTTCATCACCTCTATCATGACTG > rsl7833842TAACTTATAAATTGACTACAATCCTAATAATC ACATTAAAATTTTTTATAGTGAAATTGATACTGAAGTTATATGGAAAAAATAAGAATAACTAGAGAAATATTAAGAA ATTAAAAGAGAGCTACAATGAAAGATTAACTCTGCCTAAATTTAAAAGGCATTCTAAAGTTTCTGTGATTGAACTAG TAAGAACCTTGTGC[A/G]TAAGTGGAAAGACCAACTAATGAAATAAAATATGATCTGAAAGAGACCCATATGCATG TGAAAATTTAGTATATAATAAAAATGCAAGTTCTAATCACTTGATAGTCATTCCTTTAAAGAGATACAATGAAATCC ATACCTTAAACCATATAAAAGAATAAACCTCAAATGTATGAAAGATAGTATATATAGAAAATAAA > rsl017757 8TGACTAGGTAAAGTTTAGAAACAACAAATTTGAATGTTCAAAAATATTATCAGCAGTAAAGTCAAAAGCCAAGTGA CGAACTGGTAGAAAATGTTTCTATATATATCAGAGATAAAAAGTTAATGTCCCCAAAGTATAAAGAATTTTTGAAAT TGAGAATAAGCGGAAAACCAAAAACCAATATAAATGGGCAAAAGATA[C/T]GTTCATATAATTTAAGTGGTCCCTAAATATATAAAAATATCTTCAACTTTCAAATATCCTTAAACATATAAACATACATTCAAATATGTTTCTTGTAATAAG AGGAATGAAAATTAAATATAATGAGATACCATTTTTCACCTATCAGAATGGTAAAACAATTTTTTTTAAACTCTTAA CACACTGTTGACAAAGCTGTG > rsl2623304AAAAAAAAACTATGAAAAAATGATGGCGATATATCAAAAAGAC TCAGGATCCAGTGTGAGCAGCTCTTATTGGGCAAGTCTTGGAAATTTGAACAACAAAATCAACAACGGTTAGTTACA CATTAACATGTTTGACAAAATAAGAATCCATGAGTCCAGACTGATATAAATTAATGAGTGAATAAATGAATAGGTGA TTG[A/G]GAAGAAAGGAAAGCTTCTCTTCACAATAGAATGCCAATTAACAAATACAAAAGGAACAATGGAGTTAGA AAAGAGTTAGAACACTACCATTTTGCAGCAATTACAATAATAATTAGTTTAGGTAAGAATCATGAATGGGTGATACA TTTACG GAGACTGTTTGATGAGGAACTGGATATTACATAG CCTCACAGTGTTTC > rs6716542AGAACACCTTC CGCACAAGCTCTTCAAATATCTCAAGTTCTCTTTTCCAGTATGGTGTTGCAGGGTGTAGTGAAAAATGCATGAGTTT GGAGTCAAACAGATTCCCGTTCCATTTCTGGTTGTATCCTATATTACCACTTGGAGTTGTTGGCAGTCTTAGGTGAA CACAGGAGGCAATTCTTTTTTTACAGTGACTGACA[A/G]AGAGGTGAGCAAGAAATGTGAGTCTCTTATTTATTCC CAGCCCCTCTATCTTAACTTGTTGAAGGTAAAGACCAGTGGATCTGAATTTAGATTATTTACCCTCCCATGTGTGGG GAACACACACACGTGCACACACACACCAGGCTGGAATTTCTTCAGTTTGTTCCTCCGGGTCTACTCTATACTTCATG GAAGCTGAT > rsl7777330AGTCAGCAACATGTCTCCAATTAACATGACAGATTTTTTGGACCACAGATCTCTT TGGGAATCTTATGTAAGCTGTGAAACTTCTCCCTTAAAAAACCTACATATTTAATTCTGTCTGTAATTTTAGGACTT CACATATCCCCAAAGACCATTCATGATCCACCAGGGTTAAAGACTTGTTTTAAGTAAAGAAAATATTC[A/G]CAGC CTCTGGAGTAGTAGACATCTCCAGAGAAAGTCTGGCATTCTTTGGTAACTCATGGCATTTATTACATTAGCTTTGGA TGGAACAACCCCCAACCCCCAAGTCTGAGCATGTGGTTTGATGCTGCTTCCTTTCCATTTTCACTCTGCTCTCTTGG ATTCTATGTAGCAAAAAGGTACCTTTTCTAGGGTCACATGTC > rs10211546ATATTTCTAGGGTAGTTTAGGT AACATAGAACTTTGTAGCTCAGCAGTCTTGGAATCACTAGACTCTAAGCCCCATGTAGTCAGAGACTGCCTGCTTTT ATAATTCATCCCCAACAGCAGGCTATTGCATAACACATTGTTACCACCCACACCATTTTGTTGAGTAAATGAATGCA TGCATGAACGAATCAGAGGATTCT[A/G]TTGTCTAAATAAACTTTGGAGGTGACTTAGTCTTCTCTTCCCTCTGAT GCTTAGATCTTCTTTATCTCTCAGTTCAACATATATTGCTCAAATGGTTCCTAGGTGCAAGGGATCTGGAAGTTATT AAAATGAAATAGATTTTGGACCATGACCTTGACAAATTATGATCTACTAGGAGAGATAATATGGAAATCAGTATA > rs2372937GAAGTTATTAAAATGAAATAGATTTTGGACCATGACCTTGACAAATTATGATCTACTAGGAGAGATAA TATGGAAATCAGTATAATACTACAGAGACAGTAAAAAGGAAAAAGAAATGTTTGCACTTAATAATTATTCCACCATT GTTCCAAAAGTTTCAATTATAGGGAACTAAGTTCCACTACTAATAAAAGTCAATA[C/T]GCATTGTATGCTTACTG CATGCTAAATATATTATGTCATTATAATATTTATGTTCAGGTGTATACTATGATTGTATGTATTTTACGACAAGGAA ATTGAGGCTCAGAGAGGTTAAAGAACTTGCTCAAGGTGACAGAGCCAGTAGGTGGTAGAACAAAGACTCCTACATTC TGACCTAGTCCATATGTAAGCAGATTTAT > rs4315498TTCAATTATAGGGAACTAAGTTCCACTACTAATAAA AGTCAATACGCATTGTATGCTTACTGCATGCTAAATATATTATGTCATTATAATATTTATGTTCAGGTGTATACTAT GATTGTATGTATTTTACGACAAGGAAATTGAGGCTCAGAGAGGTTAAAGAACTTGCTCAAGGTGACAGAGCCAGTAG GTGGTAGAAC[A/G]AAGACTCCTACATTCTGACCTAGTCCATATGTAAGCAGATTTATTGCTAGAAATATCTTGAT GTTGCATTGAAATCTGCCTCTCCTTATTTTCCATTTGGAACTAATTCCACTCTCCCGAGCCAGAAAAACCAAGCCTC TCATTACTTGAAAAACCAATTAATGAGTTAAATTACATCAAGTTAGTTTAACAGTCAGCAA > rsl2998806TAG GTAAGTCTTCACAGAGAAACTGGTATTAGGGCTAAGATCTAGCGGAGGACTAGGGGCTTTCTAGACAGACAATGGAG GCAGGACACTTCTGAGAGAGGAATGAAGCCTTGAGGTGTGAGACAGCATGTGGTAGAGCATGGAGGGTTCAGGCACT TGGAGGAGTTGGGTATGGGGAGAAATACAGAGCACCTGTGAGA[A/G]CCTGGGGCATGGCTGGAGAGGTAGGCAGG GGCCGGCTTGCAAAGGGCTTTACCTGTCATGCTGAAGGGCTAACTGCTGTTCTGGAGAATTTGCAGAGCCACTGAAGGTTTTGAAGCATCCTAATGTTAGGATTCACTTCAAGTTTTAGAAAGTTTAGTCTTTTGGCTCAAGGGTGGGGAGGGA ATAAAAGAAGCGAGAGT > rs12465515CACCTACTCAGGAGGCTGAAGCGGGAGAATCGCTTGAACCTGGGAGG CGGAGGTTGCAGTGAGCTGAGTTGGCACCACTGCACCCCAGCCTGGGCAAAAAGAGTGAAACTCTGTCTCATAATAA ATAAATAGAGTGGACAAGGAAATACTGATGGGGGTGAGAAAACAATTTGAGAGACATTTGAGAAGTAGTGAGATAA[ C/G]ATTTGGTTACTGATTGAATATGGAGTGTTAGGATAACCCTGGGATCCTCATTTTGGGCAATCACAAAGCTACT GGCTACAGCAAAAGGAGGGGAAGAAAAGTGGTGGTGGGAGGGAGGCATGAGAAATTTGCTGCTGGCCATGTTAAGCT CCACCTCCTGTCACCAAGTGGTGATGCTCAGGAGATGTTTGTGTCCACAG > rs4491709ACCTCCTGTCACCAA GTGGTGATGCTCAGGAGATGTTTGTGTCCACAGGAGGAGAGTGATCTGGGTGGGAGGTTTACATGTCCCTCCTTCCA TCTCCCGGTCCTTCTTTCCCTCCTCCCTCTTTCTTTGTTTGGTACTTCCTTTCTTCTCTCTTTTCTTTTTCTGCCTT CTTTTGAGAATGAAACCTAAGAGTGTTTATA[C/T]GTAGAGGGAAAAAGTGGAGCTAGAAGTTTAAGACACAGGAA AGGGAGGAAAAATGTCCTAGTGTGAGATTCCAAGGAGGAAGAAGGGCCAGGATAAGGTGGGGAGAGGGATGCCTCTT TTGCTCATTGCCTTTATCTGTCTTTGTCTGTCCTGGATTGATTGTCCTATCCTTTTCTTCCACTTCGTGTCTTCTCC CGTAT > rs2372938GGATTGATTGTCCTATCCTTTTCTTCCACTTCGTGTCTTCTCCCGTATTTCTACACAAGG CACAGTCAAATAAGGGCTGGCACGTGCGCATCTTTGTGCACACATGTGTGTGCACAAGCATTGAGGGATGCACAGGT GCACACACCTTGTAGAGCCTCTAGTAGCTCAAGTCACATTTTTTCGCATTTCCAGATTGTAAG[C/G]CTTACTGAG GGGCAGATGGGACGTTCTCACAGGAAAAAGGCTGACCTCAGGGAGAAAGATGTGGCCCCCACCTACAAACCAA TGAT GTCTACTCCCAACAGGGGACGTCTTTCCCCTGCGTGAAGCAACAGGACAGATTTGGTTAGGTGTGGCATCGATGTCC TAATCTCCTATGAGCACACAATGAATGAAGGTGGGGG > rsl2621130GATGGGGCTCTGACCCAGTTTCCATTT GGCCAGCCGACTGGAAACAGCTACTCACTGGGCCACTGGGTTCTTTCCAAAGAACAGTGAAGAACAGTGGTTTGGGG TAGGTGGGGGCAGGGGCTGGTGGGGCAAGAATGTCAGAAGCAAATGCAGGCGTGGCTGGTCCAGTAGTTCCAGTACC AAAGAAGCCGCTATCTGGA[A/G]GAGTGGGACAACCCATCCTAAACATGGGAAGAAGAAACAGGAAATTTCAAAAG ATACAACTACTAATTAAATGAAAGCACTCCTTAACCACCCCTTTGATAATTAGATCATCTTCTCCTAGAATGAGAAG GAATATTAGTCTGACTTTGCCCTCCATATGGAGAAACATGGCAGGCAGGCTCTCTGTGCCTGGAGGGTCT > r s 13 399995GAAGGACACTGCAGCCAAGCTGAGCCTGTGTCCAGCTGAACACGGACATTTACTTCTGCTTCTGAGGGGAA ATATTGTCATGTCTTATGGGTGTACCCAGCAAAAGATGTTTCCACTAAAAGACTATAGAGAATTGCTTATTTCTAAG GACTGAATTCCGAATGTTTTTGGTCAGGTTCTCTCTGAACAGAGAACCATTG[C/T]CCCTGAGCAGAAGCGGTCTT CACACAACTAGCAACCATGTAGTGTTTTCTCATTCAAATGGCGTTTGGTATTCACCTGCCTGTCCTGGAACAAATGC AAAGTCAGGGTTGTTTCTAGCTCTCCCCCAATATTGGAAAAATGCTGATGAACTGAGCCTGGTTCCATTTTACACCT GACAAAAGGAACTCAGATGAGAGTGT > rsl2052807TGCTCTCATGTGTCTCCAGGAGAGTGTGGCCTGGGTTA GCTTAAGACTAGGAATGTGCTGACAGCTGGGAAGAAAGTCAAAAGAAGGCATGGCATGTGGTTATGGGGCCGGAGGG ACCGCTTGGGGGGAGAGGTGGAAGCGCTGACATGAGCTTGCTCTGCATCGCTGGTTCCCAGAGGTGGCCTGATAGGA GAGTGCCA[A/G]CTGGTGGTATGCCGTGGGCTCTGGGGAAGGGGCTAGAATGTTGTTGCAGCCCAGAGGGGCTGGG CTAGTGAGGAGCAAAAGAAAACATAAGCTGGGGGGAAACTGCCTAATAGACCAATTAGGAGACAGGGTTGTGCCCTA AGGGATGGGTGGGAGCAGGGGGTGCTAGAAGTAGACAGAGAGTAACTCTCAGCTCTGAA > rs10199394GCAAA CTCATCTCATTTGCTACTTGTCCTATAGGTAAGGATGGACACCAAACCCAAAGAGACTTTTGGGATGTGGATAAAAA TTGAAAACTTTGCCTCTCATTAATCCCTTGGAGAATATAGCATCTCCTTCAAACTGGACTGCTCTCCTTGATCCCTT GTCTTTACCTGAAAATATCTTTCAAGGCCTAGCTCATGCTA[C/T]CTTGGCCATAGGAACTTTCCTTATCACCTCC ATCAATGCTGTTTGTCCCTCCACTAGAATCTTCTGTTTTGGTACTCCTCTTACTCAGCCTCAAGTTAAATTTATGTG TACTGGTTTTAACCCCAGTACCCAGTAAAGGTTCTGAATACACGTGATGAAATAAGTCTCTCCTATCCCATGGCACCTAGTATAGCATTTAG > rs2372940AAGTTAAATTTATGTGTACTGGTTTTAACCCCAGTACCCAGTAAAGGTTC TGAATACACGTGATGAAATAAGTCTCTCCTATCCCATGGCACCTAGTATAGCATTTAGTTGCTATACTAATTATTAT AATTAGCATTTATTACGGGCTTACTATGTGCAAAGTGCCATTATTCCATTTATTATTCACAAAAATATTTAGT[C/ T]TCTACTATTCTCTAATTTATTAGATAACCTAATATAAATCTTTTTTGTTTTGATTGTTGCTAGCTGATTGAAGGA AATAGAATTGTGGTGTGGTAGTAGGGGATGTTGAGTGAGTCTTCCTCATTCTTAATATTTCCTTCCACTAGGATAAC GCCCCTGGGCTCTCTTCATCAGGGGAGGAGGAGTGACTTCATCTGATA > rs4583440CCTAATATAAATCTTTT TTGTTTTGATTGTTGCTAGCTGATTGAAGGAAATAGAATTGTGGTGTGGTAGTAGGGGATGTTGAGTGAGTCTTCCT CATTCTTAATATTTCCTTCCACTAGGATAACGCCCCTGGGCTCTCTTCATCAGGGGAGGAGGAGTGACTTCATCTGA TAGATTCGGAAGGGAAAATGTTACCCAGT[C/G]GCTTCTCAGTCCTCTTTCTCTTGGAGCGAGCCCATCTCTGGAG CACATACACTCTCCCCTGCTCCTGTAGGTCTCGAGTTCTCAGGGGAAGGGTTTGCCCTGTAAGAGAGCTTGTCCTTC TCCAGTGAGGCCTGTCACTGGGAAGATAATTCTGTACAGTGCTGGGATTCAAATTTAGAAAGCCCACTTGCCCCATA ATT > rs2372941TGTGGTGTGGTAGTAGGGGATGTTGAGTGAGTCTTCCTCATTCTTAATATTTCCTTCCACTA GGATAACGCCCCTGGGCTCTCTTCATCAGGGGAGGAGGAGTGACTTCATCTGATAGATTCGGAAGGGAAAATGTTAC CCAGTCGCTTCTCAGTCCTCTTTCTCTTGGAGCGAGCCCATCTCTGGAGCACATACACTCT[C/G]CCCTGCTCCTG TAGGTCTCGAGTTCTCAGGGGAAGGGTTTGCCCTGTAAGAGAGCTTGTCCTTCTCCAGTGAGGCCTGTCACTGGGAA GATAATTCTGTACAGTGCTGGGATTCAAATTTAGAAAGCCCACTTGCCCCATAATTAAGCCACATTCACCAGCTTTA ACAATGACAGAGGTGATATTGAGTTCTCCAGTGAT > rs6721811TACCAGGTCCTTCATTATCATATTCTACAC ATTGAAAATGAAGGTAAGAGAGCAAGCAACTTGCCCTAGGCTACCCAGGGAATAGGGAGGAAAGTCTGGATTTGAAC CTACTGCTGCCTGACTCCGAAGCCCTGTTCTTTCTCTCACCCTGGAGGATGGATGAGGGTGGGATGGGGCAGTTAAA AGTTGAGGGGTATCTC[C/T]AGGAGAAAGATGAGACACATGACCATTGGGTCTAAGGAGCCAGAGAGAGGCCATTG TGTCTGAGCCTGGACAGCCAAGCTTCCTAGAGACAGAGGATGGGATGAGATGACTTCTGGCTGACTCTGCCTCCTTG AGCTCTTTAGGATCCCCTGCAGAATCTCCCAAAATGATGCTCATTGGAAACAGAGAGAGCACATTCA > rs12615 418TAGAGATGGGGTTTCTCCATGTTGGTCAGCCTGTTCTCAAACTCCCGACCTCAGATGATCCACCTGCCTCAGCC TCCCAAAGTGCTGGGATTACAGGTGTGAGCCACCACACCCGGCCAATTTTTTTTTTTTTAAAATATGGCATTAAAAT GGTATTTATCTTGACTACTGAGTTTTTGGTTAACCCCTTACATTTTGTG[C/T]CCAAGACATCTCACTCATGTTAT CCTAGGCCCAGCATGGCTGGCCTTGTCTCTTAAATTCAAATTTTTAAATTTTTCATTCCTCAGGCTTCTCACTTGTA AAATAGAAATAATAATAGCATCTCCCCCACAGGCCTGTGCTGAGAGTGAAATGTGTTACTACACGTGCCTCACCTTC ATTTTCAACAGGACCTATTGCCA > rsl2621884CACACCCGGCCAATTTTTTTTTTTTTAAAATATGGCATTAA AATGGTATTTATCTTGACTACTGAGTTTTTGGTTAACCCCTTACATTTTGTGCCCAAGACATCTCACTCATGTTATC CTAGGCCCAGCATGGCTGGCCTTGTCTCTTAAATTCAAATTTTTAAATTTTTCATTCCTCAGGCTTCTCACTTGTAA AATAG[A/G]AATAATAATAGCATCTCCCCCACAGGCCTGTGCTGAGAGTGAAATGTGTTACTACACGTGCCTCACC TTCATTTTCAACAGGACCTATTGCCAGTAAGTGCTCGTTAATGTTAGCCATTATTCTTGGCATTGCTGTTGTTATTA GTGTCAGCCATCATTCTCTCAGCCAAGAGATCCTTCCAGAAGAGAAGTTCTCCATG > rs2372943CTTGAGTCT CAATTTCTTCAAGTTGGGAACATTACATGACAGGACAGGACTGTGAGGATTAAATGTAAACAACATTTTTTTTTTTT CTATAGAACATACTGTGGGGCCAGCACCATGCAAGGTGCTTTTATCTACAATTTATTTCTTTCCCTTCCCATGCCTT CTGCCTCTTTGAATAACTGCTGCAATGGCTGTAGAGA[A/G]ATAAATGCAGTAGACCAAGACTTTTAGTGATTTTT AAACAATGTTCTAGGGCAAATACATGGGTATGTTTACATACTCCACAAAGTGAAAAAATTATGCTAGTCAGTGTGCA AAGTGTGTTTTTCCAGACCTGCAAAAACTGAGATCAACTTCCATATTTCCAACTTCCATATTCCCTTCATCCCTTAA GCTACCAGGCA > rs4522583ATTTTTAAACAATGTTCTAGGGCAAATACATGGGTATGTTTACATACTCCACAAAGTGAAAAAATTATGCTAGTCAGTGTGCAAAGTGTGTTTTTCCAGACCTGCAAAAACTGAGATCAACTTCCATATTT CCAACTTCCATATTCCCTTCATCCCTTAAGCTACCAGGCAGAGGATGGGAGATAAAATTTGGCCATAAA[C/T]TTG TCATGGGTCCATCTTGGTCCTAATTAGAATTATCTACTTCCTAATCCATTAACTGCATGGATAGATAGTCTGAGGGC CTCAAGGGCAAGAGATGACTTCTACCCCTCCACCCATCCAGCCCTGACCCACCCTTCTCATATACATTGGAGAAAGC TCTGCTCTGTGTAAAACACATCAAGTGCAGGACATGGTTCTTT > rs2888451GTAGAGTTTGGGAAATGAGTAA CATGTAGATCTGTGAATAGATATGTCTGAGGAAGCACCAGGCAGCGGAAATAGCTGGTTGCAGGAGCAGTTTGTCCT GCCCACCTGAATCTTCAGGTTCCTTCAGCTAAGCCTTAGGAGAGGAGGCTGGAGAGCTGCTTTGCTGGATCATCTCC TTTGGCCCCCCTCAGACTAGAACT[C/G]CACCTCCTCTCTACCTAGCTCTGTGCTCCACAGGCTGCCTCTGGGCTG CACTGATGGGCTCCCTTGACTGCTGGCTCCTGTTCAGGGTTGGAGGAGGAGGATGAAGTCATGGAATAGTGTCCCCA TGCTGGGCTGCAGGTACAGTTGCTGCTTCTCTACTGAAGACCCCTGACAGCAACCCTGTCTTACAGCCAGGGTGT > rs2270398TCAGAGCAGGAGACATCATTTTCCCTTAATTCTATTCTGCCTTGTAACCCCTTTCTTAGACTCTCTGC TGAGTCTCTGCTTATGTGTTGGGATTGCATTGATGCAGATGCTTTAGGGCCACGTTGTGGAGGATACAAGATGATGA GACAGGAGGCAGCGTATGGTGAATCACTTCTCACAGCTCCTAACTAAGTTCTGGG[C/T]ACATGAATGGGTACTCA GCACATACCTACTGACCAAGCCTATGGAGAGCTGAAAACTCATAGGCTGACTTTGAAGCGAGGCCTTTGAAACCATC GTCCCAGGGGAAATAATCTAGGTCAAAGAGACGGCTGTGGCAAGGGTGCGAGCTGGCAAGCATGAGGGCTGACAAAG CAGGCAGCACTCCTCCTGAGCAGATGACC > rs13412666TATTCCCAGGCTGGGCTGGAGCACCTGAGGCTACT ATGGTTACAGAAAGGAACCTGGCATCCGAAGGTATAGGCTCAAATCCCAGCTCTCATGATTGCTAGCTTTGAGGTTT CAGGTTCATTTCTTAAGTGCTCTGAGCTTTGGTGCCCTCCTCTTCAAAATGGGAATGAGGAGCATGTCTAGCTCCCT GTTTTGTTGCA[A/G]TGAATAGCTACATGAAGAACAGCTAAACCAGAACAGAAAGAAGGCAAATGGAAGCTACAGA AACCAAGGATTTCCTTGTTGAATCGAATCTTCCTTCAATCTTCCTTCACCACACTAGTGGATCTCCCTGTGGGAGGG ATGTTGAGAGTGCTCCGTGTTTTTTTTGTTTTTTTTTTTTTTTTTTTTGTGATGGAGTCTCA > rsl3426489CA AGTGATTCTCCTGCCTCAGCTTCCCAAGTAGCCAGGACTACAGGCATATGCCATCACACCCAGCTAATTTTTGTATT TTTAGTAGAGACGGGGTTTCACCATGTTGGCCAGGATGGTCTCGATTTCTTGACCTTGTGATCTGCGCACCTCTGCC TCCCAAAGTGCTGGGATTACAGGTGTTAGCCACCACACCAGCCT[G/T]CTCTGTGTGTTTTTAATCAATAGCAATA TGTACCATATTTAGTAGGGACTATAAAGAAATTGTGCTAGAAACACCTGGTTATTTTACAGAACTTTGCCAGTGAGT ACAAAAATATGCGTAGCCCACAACCTCTCTCCCCTAGAAAATACCTCCTGTGGGTAGAATGAAATGGGTAGGTGTTC TTACCATTCATTAGCATT > rs6713249ATTAAACCCCTTCCTTATACATTACCCAGTCTCAGCTAGTTCTTTAT AGCAGTGTGAAAACAGACTAACACACTCTTAAAAGTAAATGTTATTACCCACCTTTTACAGATTAAGAAACTTAATA TTACATCAAGGAATTAGTTTATAGCACTGGATGATCTGGCCTCAAATCTCCAGTGTGATCAGTATCAAGCTTTTCT[ C/G]ACTGTATCAACAGAGTTTTCCTAACAAATCATAAGACACAAGTAGTTTCTCCAACTTAATCTATTATACCCAT AATTCACTTGCCTCCAGGGAAAAAAATTAGATGAAACAGACTGTAGTGGCTTTGTGTAAAACAGCAGCTCCATTCCT TTAGCCCTATTCTAAAACAATAGACCATGTGCTGATAGCTAGCTAACCTC > rsl2620095GCATTTGTTCCAAA CACATTTTACATGGATTATCCCATTTAATCTTTACACTAAAGTATAATACTCTTATTACCCCATTTTAAAGAAGAGA AAACTGAGGCACAGTGAGATTAAGGAATTCATCCAGTTTCTGCTGCAAGTAGGGTGGCTAGCATTGTAATCTGGGCA TTTGCCATGAAGCTGTGCCCTTAACCACTCCA[C/G]TATGTGCTATAAGGTGGAGCTGACTTCATGGGGGCTAATT CAACCAGGGGAGTGTGCTCATATTAACAGATCTGTGAACTCCCTGGTTTGTTTGTGAGACAATTATCTATTTGCTTA CCTGAATCACAGCAATAATAGTTATACCTCCCACTTACTGCATGCCTACTTGGTAGCATGTACCTGGACAGAAGGTT TTCATT > rs4621152GGCGTGAGCCACCCCGGCTGGTCGCATTCCTCTATTTAGTGTTAATACCCTAAGACTCC CCAGCTGACCACCAAATGTAGGCAGGTGGAGGGACTGACCTCCAGGGGGCACATGTCTCAGGTTGACAAACACATTTTCTCTTGATCCTTTTTTTCAGTATGATGAAGTATTCTACAAGACTCTCATTGAACCTTCTGATA[C/T]CACATTCT AACCATTTATATAAAAGTCAAAAGCTCCTTGTCTTCAGGATTCCAAAGTTCTTAGCACAAAGGTCCAGGAAGTGTCT GAATTCTTTGGTGTCTGGTTCAGTATGGATGTTCGGGTCCCTCTTAGACTTGAGATAGAACAGGAAAGAGATGAATA GACAATGACAGAGGTAGAGAAAGTACCAACCCTTCCCA > rsl2622764CCTCTCATCTCCTGAATGGCTGACCA GTGCTTGCTTCAAGTTAGATTAGAGTTTGAGCTTTGTAACATAAGTCCCCTTCTGTCTGATCAATGAAATGAGGGAT AGGTACTTGCCCGAGAGTTATGGGACCTGGCATTTAACGTGAGAACATGCATCTTCAGAAGCACTGGTGAGACTTCA GAATTCCTGAAAGCACTATT[C/G]TTGCAAGGCTTGAATGTACCTTCTCCACTCCACCATGTCCTCTCCCAACCCT ACTAGCATGATATCAAGCTTGGGTGGAGAGCTCGCTTGCAACTTTGTCAGATACCCATGAGCCACTCTTTGAATTTC TGACAATGAACAAGTATGTGGGAGGCCAACCCCATCCAACCTGACCCATCTGAACCCAATCACATGTTTTC > rs6 723013AGAAGAGTCCTTTGTGACTCTGATTGGCTTTGTGACTTCCTTGGGGCTGGTGTTGGTCTCAGGCTTGTGTC TCGCAGTCATCCAAAATGTGGGTGGGCCATGTCCCACCTTAACTGTGGTTGTGAACGCAGAGGATTCACTCAACTTT CAGCATGCAACAATAATCAAATGCAGTTTTATGGTTCACAGAGGGCTCCACC[G/T]TCATGATTTCATTTGATCCT CCTAACAACCCTGGGAGCTCAGAGAGACTAAGGAACTTGTCTCATATCACATACCCAGGAGTTGACTGCACGGCATC TGATGCCAGCTTCTGTACCACGTGTCCTCCTGGTGATACTAGAGTAAATAAAACATAACTAGACAAGTAAATATTTT GTACAAAGTAATCTGCTAAAAATGT > rs2372945GAGCATTTTCTCTTGGTAAGTTCTCATTTTCCCTTAATCA TTAGAAGACACGGCACAGTAAACGCGAGCTCATGAGCAGAAGGCTACATAGTTGTATACATGTGTGTGCTTTTTTTC ACACCAGAGTTTGATGAAGCAAAATACCCAAAGGTCTTTTAAAAGTAAAGAGGTTTTAAGAGTAAAGAAATTTAAGA AAAAAA[A/C]CAAAAAGAAGTAAAGATGGTTAGGTCTCCTGTTTGCTCTCCTTTTGCAATCAGTCTGTCTCGCTCT GTGAGCTGACTATGCTGCAGACTTTTCTTTTACCTCCAGCCTTTCGCTTGTAGGGTTTGAGGCTAGGGGCGGGGAGA GAGAGTTCAGCCCAGCAGGCAGCAAACCCTATGTGCAAACACGATGTGTGAACATT > rsl2694403TCACTCTC TACCCCTGCTGCCCTCCCAATGCTCAGGTGGGCCCTAGATTCATCCAGAAGCCAGGGTGTTGTGCTTCATGAAAGGG CCAATACCCCTAATGTGGGACCTATACAATAAAAGGCAAGGGCAGAAAGAGAGAAGAAATAAAAGGAAAAGGGGTGT CTTGAGGGGAGTACATGATAGACTCCTGTGCCTGGAAG[A/G]GACTAGGAAACTTATACTGACTGGTTCACTGCAT TTGCTCAAAGAGTATTCATCTTCTTGAGTTTGTCAGGTGACTGTAAGAGCTGGGTTCAAGTTCTTTGGTTCACTATT ATATGCCTAGCTGAGCACAATGCCTGGGACTTAGAGGGAAGGTCTGGGACTTCACCAGGATTCCCAAAATAGAACAA AGCATTTGTTA > rs12613955TGAAATATGCCAGCCAGCTTAAATTAGCAAAGCTGGAACTGTGGCAGAATGAA TAGCCCGTGTCTGAGTGAGAGGGAAGGAAAGGGTCTACTGTGTGATAGGCAATGGTTCCAAAGTAGGAGTAGGGGCC TAGTGTGGTCATGCCTTCTGATATGTCAAGAAAAGGCAAAAAGTTGATATTTATTTGAAATATTCTGATT[G/T]TA TAGGTTGGTGATCAATTAAAAAACTAACAAATACAGTTAACAAACATGTTTTAATGCTTGCAGACAGGATCCTTCCT GCCGATGTTTGGCCTTTGTCTTTAATGGAATTTGGGCTGCCCCATAACAGCCCACCCTAAGCAAAACTTCTTTTCTG CCTTTCTTTTATATTGTTTTTTATGGAATGTAGAGGGATTTTT > rsl1894340CTGCTTCTATGCTGTATTCTA GTCATTAAAGGAGACCATCTCACACTCAAGGGGAGAGACTACACAAGCCATAGTGCTGCCATGGCAACACAACCATT AGGATGATGCCTTGAGCCTTCCTTCTTCATATTTCTTAGACTTCCTTTCTGACCTAGAGGAGCCAGAAGGACTTGGG ACTTGTCATACCGTCCAATCCCAAG[A/G]AATGACAGGAATGAAGGAATTTTTAAAAATTCAACTCATTTCAACAC ACACACAAAAAATGAGAGAAGTGAGTCAATTTGAGAACTGAAATTCTGGTAGACTTTTGGGGAGACACTAGAAGGGC CATGTTCATGAGTAGGAACCATAGATTCTGAGTCAATTGGGCATGAAAGTTTTTCTCCTGGTGTCCCGATCTTGG > rsl7778329ATTGTGTTGGGGGAAGGGAGGCTTCTGAGACAGAGCTGAGAGTCCCCAGCAATGCCATCCCTGGCTT CTGGCCCATCTGAATGCCTTACTCTTTCATGTAAGCAAGACATGAGGTCCTGCTGTTTGAGTTGGCTTTGCCCTGCT CCGTGATTTCAGTTCCTTGTCTCTCCAGCGTGTGGGCTCATTTCCGTCCTCTGAGC[A/G]CTATTGTTTTTCTGACTTGAACAGTCATCCAGAAAACCTCAGTAATAAGGCTTTTGTATCATTATTTACTTTGCTAATTATATATGTCTTTCC CATCCCCAGTGCTTGAAGACATCAAATTGCAGTTGAAGTAACGGCAGAGGGAAAAGCAAGGGCAACAACAACAAACC ACTTCACTCCTCTGGGTGGAAACATGCAA > rs4442975AATTTTGGTGATGGGAGGTGTAGAGGGTAAACTCTT GATGATATCATTTGTGTACCTGGGTCCAGCCATGCCTGAACTTTTCAATTACTTGACCCAGTAAATTTCCTTATTCA TTTAAATGTTAGAGTTGAGTTTTGTCTCTTATAACTGAAAGAGTGACATGTGTTTATATTAAGTGCAGGTCACTAAT ATAGTCTATT[G/T]GTTTCCCCAGGCTTGTTCTCCTTTTCTCAAATAGGACTGATCAGATAGTAAGTGCTCCATAC CTGTAGGATACATAAAAGAGCAAATGAACAAGGAGCAGGAGATATGGTGGCTGACGGTTGGACTATAATTTTTTCTT GATTTTTCTGACTTTATTTTGGCTGTGATCTAGGAAGTGAAATCCAGGTCCTTCTAAACC > rsl0932693TTTA TTTTGGCTGTGATCTAGGAAGTGAAATCCAGGTCCTTCTAAACCCCAATTTAACTGTGGCTCCTGAGGGAGATTTTC AGATCTCAAATGATCTGTAAGTTTAAGGGAGGATGATTGGTCCCTGTACACTCTCTGTGAGAGTTCCTTTGGAATAC TGGTTTCAGAATGTACAGCCACACAGGTAACTGGATTAGGGA[C/G]GGCCAGTGGTTTTTTATGAATGCTATTGAA GACACTGAATGGAAGCAATTCTCACCAGAACTCTTTTTGCTGTCATCTTTCAGGGGCTAAGTTGACACTAGAACCAA TCAATGATCCCTGAACTGGGAGAAATGGGTGGCCTTGGCTGTGATTTTTGGTTGTGCTGCACATTTCAAGATGACAA TATTGTTTTAAATTA > rsl7778427TCATCCTGTTATCCATAATGAAGGAAGATTTTAGGATATTCCAGCTTAG ATCCAGGTGTCCCCAGCTTCTATACTCACTCTGAAGAAGTGTACTTTATCTACTCTTTTTACACCATTTATCCCATT TTGGCCATTTCTGAAAGGAAGATCCTAGAAGCCAGGCCTCTTGGAAGAAGTTGGAGCTACAGCATTGATAGGAA[A/ T]ACCTGACACCTAGAAAGGCAAGTCAGTTCTTCCCATGCAGTGGCTTTGGGGACTGTAATTTAACAAAGCTCTTTT TTACTTGTGTAAAGTGATCTCCATTCCACTTTTTTCTTGCACTGATTCTAATTAAGTGGAAGCAATTGTTATCATCA TTTAGGATTATAGTTAAAATACCCCTCAAATTGTTTCCATTTGGAAT > rsl7835044AAATATTTCTCTTGGTC ACTTGAGTCTAGCATCTAAGTCATATAATGCTATTATAGCCTTGTTTTGCTTTTGATTTAGGTCATATCTTCTTTTT CTGATCTTTCTTAAAGTGAAGGGACCATTTGCTATGCTCACAAAAATTCTCAAGGCTGGAACTACAGCATGCTCTGG TTTCTAAGCCATACACATCCAGGTAGAAG[G/T]GTCAATTTAATTGCCAATGATCTCAGCCTTTTCTAACACTGTT CCTTAAGTTTCTTTGGCACTGCATGGCAAGCAACTGAGTCATGCATGAAAATTTCTCTTCTAGACAACCCATACCTA CAGAGGGAGGATTTGGTTTACTGCAGATGCTGAGTGCTTCTGATGGCACACATTCCTTCTTATTAATATCCCCCTGG CC > rs7562029GAACAGTCAGCATTGTCTCCGCTTCCGCTCCACCCTGCAGTTCTGAGCTGAACAGATAATTTA TCTGTGGCACAACAAAGTATATGACTTGGAAGAATGTTAAAGATCAAGTCCACCTTCTCCTTGTATTATATGGCTCT GAGAGCCAGAGAGGGGAGGTGACCTTCCCAGAATGTGAATGTGGTAGAGCCTAGCTTACA[A/G]TTCATGTCCAAC TTAGGTGTGAAGTTCTATGAGACTATGCTGCCCTCTGCCTCACAATGCTTTCTCCCATGGGAGAGGAGGCTCAGAGG TACAAAGCAGCTGCAGAAAGACTCTCTCAAGCTATTGACTCTTGGATGACAACAATTAATGTTCAACTTGGCTTTAC CCCCAACATGCACTGCACAGATGCCTGCAGGTC > rsl3000023TGGCTCTGAGAGCCAGAGAGGGGAGGTGACC TTCCCAGAATGTGAATGTGGTAGAGCCTAGCTTACAATTCATGTCCAACTTAGGTGTGAAGTTCTATGAGACTATGC TGCCCTCTGCCTCACAATGCTTTCTCCCATGGGAGAGGAGGCTCAGAGGTACAAAGCAGCTGCAGAAAGACTCTCTC AAGCTATTGACTCTT[A/G]GATGACAACAATTAATGTTCAACTTGGCTTTACCCCCAACATGCACTGCACAGATGC CTGCAGGTCTACAATGCCGAGACCAAGTTTGGGGGGCATTTCCGCAGCTCTGTCTATTGTCCTCCTTTCCTCTTCTG TGGTCATTCTTCCCAAGGGATAGGCCTAGTCCAGGGTGGAGAAAAACAATTCTTGGTGGTAGGGG > rs735361G GTTTATAAGGCAACTCTTAGCTTGACCCACTCTACTCCTCCATCAAAATAAAGAAATAAATAAAGTTTTCAAACTAA AGAGCATTAAAGAATGATAACTTTTCTTTTTCTTGGTACTATCTATTGACCTATACCTGGTTTTCACTGTAACACAT TTGTGGTATGAAAAATGACAATATGATGTCAGAGAAAATGAGAGA[C/G]ACATTTTAGAATTTATCAGAATGTGAC TATGGTCACTTAAAGTCCAACTTTCTCATGTGGGTTTCAGCCTGTGCTGGAAACAAATAGCCTCTCTTACCTCTAAAGTACTTGGTTCTGTGCTCAAAGTGGCATATTAAGTTCTGCTGATTACATCAGAATTTGGATGGTGTCTCAGGATCTC AGTTTCCTATCAGTGGAA > rsl3409592TTAGAATAAGACTTCCCTAAGCAAATCAATGTGATGATTGATACAA ACAGCCATCACTGGGGCCTCCTCTATTTCCAATCTCTTCCTCAGTTTCCCAGTTCTTTCAGAACCTCACTGGGAAGT TCAGGGATATATGCCTGCAGGCTGGCCTGGCGCAGATGGATGATGAAGGGTCCTGCCTTGAGTGTAGGGTAGAGTGA [C/T]TCTGAGTGCTTTCCAACAGACTGTAAATTAAAGACACTCCAAAAAGCCCCTGGTGGGGATAGATGGGGAGAA GGGGTATCACTAAGTCTTCATCTTTTCTTCTAGGGCCAGGGTCAGTGGTTCAAATAAACATGGTGCCCCACAGAGAT GGCCTGTGGCCAAGTAGCTCTCAGTGGGTTGACTCAAAGTCACCTGGACA > rs2287289GATCCGGGATCTGGT GATCCTCGGCAGGACAACTCACCATTCTGTTCGGTTGCCCGCTTGCCTCCTCCCGCTGGCTCCAGCTTCTGTGCCTA CAATGAAGGCTGTGCCCATTCCCTCACGTGCCCGCCGTGGCCTGACACCTTCCTGGGCCCACCCTAACACATTCCTC CGTTGCTTTTAACGACTGTTTACAGCTCGCT[A/T]CCTCTAGGACGTGGCTTCTGATGAAAACTGTCCAGACGCTC TGCCTCCGGTGTAATTCAGAGCCCAGCTCTCCTCCTTAAAATTCTTTTACGCTATTTTCCACAAGCATGTGCTTCTG TTGGCAGTGCCATAAGTGTGATTGATCTTTACCATAAGTTCCTTGAACTTTGCTGTGACCTGGATGCTAAGGTGGCG GGAG > rs12329133AAAGTCCACGGGAGACACAGCTTCAGCCACCACCGGGGCTGCGACCTGTCCTCAGGATCC TCCTCAGCCCCCTCCAGGAGTCCTCAGCTTTCTGCTTTTAGCCCCAAACCCAGATTCACTTTCCCAGGCCATTCACC GTCTGAGGCAGCCCAGTCCGCTTTGTCCTTCCTCCTTCCCGAAGGCTCTCAGCCCCTGGGCAG[C/T]ATCAGAATT TCACTTTGATCTCCTTTTCCCTGGGAGCCAGAATAGCTTAGTCTCTTCAAAAGGAGAGTTAGAAAGTGTGCCGTTCA TCTAATAAAAATTAACTCCTGAGAGTTATCCAATCCCAATACAGGTCATTTCGCTGGAGGCTACCCCGACTAGGAAA CACATTTTAGGACATCAGCAGAGGTAAAGATGAGAG > rs13011060TAAATTTCAGCACATGCTATATAGTTTT CAGGATTAGTCCCTCTCTAGGTATTCATCTGGGGCTGGCGCCTCCTTGGCTGGCAGGGGCTGGTGATCGGGACTCCC CAGCGAGACAGATTGCACCCAGAGCAGTGAGGCCCCGAGCGCTTCCTGGAGCCTGGGGAAGATGGCATTCATTTTTA AAGTCCATTTATTGTGCA[A/G]TTGTTGAAAGTGGGACACAGAAATTTGGACTGATATGCCTAGGCCACATGACTA CTGATTGGGCCAGGGTAAATGCAGTCTTTTTGTTGATGGAGAAGGTCTTTTCTGGGCCCAGCACAAAGCAATGGATC TTCAGTCTTAAGAAATGCATTGAAAACCATCCTTGTGCAGTTTGGGGTCCCTGGTAGGCCAAGAGCTG > rsl301 1326ATATGCCTAGGCCACATGACTACTGATTGGGCCAGGGTAAATGCAGTCTTTTTGTTGATGGAGAAGGTCTTTT CTGGGCCCAGCACAAAGCAATGGATCTTCAGTCTTAAGAAATGCATTGAAAACCATCCTTGTGCAGTTTGGGGTCCC TGGTAGGCCAAGAGCTGGAAAGGCCCTTAGACTCTGAGTGCTGTAGCCCC[C/T]CTTCTAGGTGATGGTCAAAACT TGAAAACGGCTCTAGACTCTGGACAGAAATGCATGAGAATTGAGTGTTCAAAGCTTGGTGCTTTGACTTCTTTTAAC TTTCTGTAGACTGAAATATGAATAAGAGGAAGGCATGAGGCCCCTCTCAGTTTATGGAGCCATAGCTCCAAACCTCC CACTTTCCAACCCAGCAACCCTG > rs4674132AGAAATGCATTGAAAACCATCCTTGTGCAGTTTGGGGTCCCT GGTAGGCCAAGAGCTGGAAAGGCCCTTAGACTCTGAGTGCTGTAGCCCCCCTTCTAGGTGATGGTCAAAACTTGAAA ACGGCTCTAGACTCTGGACAGAAATGCATGAGAATTGAGTGTTCAAAGCTTGGTGCTTTGACTTCTTTTAACTTTCT GTAG[A/G]CTGAAATATGAATAAGAGGAAGGCATGAGGCCCCTCTCAGTTTATGGAGCCATAGCTCCAAACCTCCC ACTTTCCAACCCAGCAACCCTGTGTGTCCTAGGAATTGTAGCGGGTGTCCCAGAATGCAAAAATCACTCTGCTAGAA CTGGAAAAGGAGACGCCTGCCTTTTCTAGCACGATCTTTAGTAAATAGATTCAG 表 28. rs3803662 的侧翼序 列和相关的 HapMap SNP 标记,其中 r2 > 0. 2 > rs3803662TTTTATTGTTCTATGGTTATTAAAAAA TAACATGTCATATAAATTAAGCCTAGAAACATGGATGTTTATCAAAGAAAGGATTGTCATCCAAAGCACCAACTATG AGAGATATCTATGTGCAATGGTATATAGATCTGTCATAGAAGGGTTTAATTATATCTGCCTAATGATTTTCTCTCCT TAATGCCTCTATAGCTGTC[C/T]CTTAGCGAAGAATAAAACTGTGGACTGACCCCCACCCATTTGCGAAGAAAGTA CTGGGTCTTCAGCTTTCATTGTTCAGCCGGTGGTCTTTGTGGACAACACCAGGGGCCCCTCCTGCTGAAGACTGTCTGGACTTCCTGATTTTCACTCCTGTATAAACCCCCTCCCCCATTACTACCTTTGTCTCCTTGGGGAAAAA > rs478 4220AGAGAATTACTAATATTTTCTTCTCCAACCTTAATGCTCACTCCCTGAGCTATGTGGATTATACTAGTGAAAG TACTGCCTTAACCCACTAATGTAAACAGATTCCTTTTAAGAAGCCTCCCTATCGAGAATGGTCTGTAAGAGACAACC ATGTCAACAAGTAAAGTTCCTTCTGCCTTCCCTCCTGGGGTGGGCTAAGA[C/T]GGACCCTTCTCACCATTCCCAA TTACCTGCAGGAAGGCAGCAACAGAATAGAGAAGGAGGGTAACACAGTTTCCTGTACTTTAAATACCTCCCTGCCTC CGCAAGTAAAACTTGAGCCATGCCAATGAGGGAAAAAGTGGCCGCGATTTCCCAGGTGGCTTAGTAATACACAGTTT TCTGACACACTGCAACTCCATTC > rsl2598982CACTACCAAATAATATTGCTTCTTGCATTAAGTATAGCATT GGTTTGCTAGAATAATCCTAACAATGACAATGCAATGTACTTTAAATTGGGGTCAAAAAACTTTTTTCTTAAAGTAC CAGATAGTCAAGCTTTTAAGCTCTATGGGTCATCCACAGACACACTGCAACTATACAAACTATATCACCCCTGTTGC AACTA[C/T]ACGAAAAGCAGGAAAGCAACCACAGAAGACAGACAATACATAAACAAATGAGTATGACTGTGTTCCA ATAACATTTTATTAATAAAAACAGGCAACTGGCCCATGGGTGGTAATTTGCTGAAACTTGGTTTAAATTATTATTAG TATCTACCTTTTTTTAAAAGATGATGTTTTTTAGGGTCTTTCCATCATGAAAATT > rs4784222TAATGATACT ATAAAAACACCCAGCATAACGCCAGCATAAGGATGTGAATGAATGAGCAAATGAAAGGAGGGAGGGCAATGGCAAAA TTTTACCTTGGTTTCCAAGCTAAAGTATAACCTGAGTTTTTTAATGCTTTACAAAAAGGAAAGGCAATCAGAACCAT AATTAATATTTAAGCTGTACTGACAGGTTTTCCAGG[C/G]AAAATTCTATAGAACTTGTTATTCTCCAACTTCCAA AAATAAGCAATAAATTTTTTTTAAAGAGCTGTTATTTTAAGACTTTATTTGAACCAAAGAATGTGTTTATGGTAACA ACATACATGTTGTAAATTAATCAGTTTCAATGTTATAAAATAATACTTCCAAGAATAAATGTATCATATAATCTATG TACCTCATG > rs17271951TCATTGTTTGTAAAATCCAATTGTCATACTCTGGTATTTGTTCTCCAAAAGAATC ATCACTTTCATATTCACTACAGCATGAGATGAGATATTTAATAAATAATAGGACATCATAATCCAGGGATTAAGTAG TTTCTTTTAGCAAAATTTAATATGAGGGTAGCATATGCCAGCCGTTCCTAGTTGAGCAACAATTTCTG[C/T]GTTG GGAGAGGATAACAAAGCCAAGTATTTTCCCATAAGAAGTTCACACTCTAAAAGGCCAGGCGCGGTGGCTCACACCTA TAATCCCAGCACTTTGGGTGGCTGAGGCAGGCGGATCACTAGGTCAGGAGATCGAGACCATCCTGGCTAAGACGGTG AAACCCCGTCTCTACTAAAAATACAAAAAAATTAGCCAGGC > rs9933638GGAATAATTACAGATGATGCTAGG CAATATCACTAGATTGGGTTTTCATGAAGCTCGTGACTGGATTTTGCCACAAAAATCACTAACTGCTTTGGCTTCCA GAGAATGGCCTCATGGATAAGCCCCAAGTTCCAAAAACTACAAAATGTCAAAATCACATTCAACTAATTAATAATTT TATGTCACAATAAGAATTAGGA[A/G]TCTCTAGAAGGCTGGGTACAGTAGCTCATGTCTGTGATCCCAGCACTTTG GGAGATCGAGGCAGGCAGATCACTTAAGCCCAGCAGTTCAAGACCAGCCTGGGCAACATAGGGAGACCCCGTCCTAC AAAAAATATAAAAATCAGCTGGGCATGGTGGCACATGCCTGTAGTCCCAGCTACCCAGGAGGCTGAGGTGGG > rs 9302556AACACATAAGCCATTTTTTCCAAAGCTAGACAGCTTTTCTCTATCCACGTTCTTTCAAATATTTTACCTA AGACAGAGAATCTCATATTAAATTCAATTTCACACTTGCCAATCACACACGCCCACTCACAATTCCTCCAGATGATG CAATGTGGCCTAATGTGTATGCTTATGTATGTACATGTGCACACACAAACAGG[A/C]ATAATGTTTAAATACATAT AAACACATTCATTGCTAGGTATTGGTTAAAACAAACAGGCTTACAGCATACCAACTTATTAAACATAATGATTGATA TTAGTAGTTTCATTAATGTAATTAACCTTTAGATTTGAATTATCAAGTTCAAAGTCTAAGACCGAGAGCAGTGGTTC TCAGGCCGGTACAATAATGGCAAGTC > rs7190749CAGTCCTGCCCCTACCAGAAACCAGAGATATTTGCTGCT GGTAATAATGAGGAGGGGGTTTCTAAGTACAAGATCAGCTCTATTCTTTCATTCCCTGGAAATCTGCCCTCGCCTCT GATACCTCAAAAAATATCTGTTGCATTTCCAAGGGAAAGAACAATGATATAAGCCTTGCTGTTAAAAAAAAAAAAAA AAATGCC[A/G]CTACTTACAAGATAAAAGGCAAGGTGTTTTGTTTTTTTCCCCTTTCTCTTAGACTAGGCATGAAT AATCTCAAAATATTTGTTTGTCAATAAAGTGATTAAAATAAAGTGATAGACAAGACATAATGATTAGAGAAATGAAT CAAAGTAATATTTGGGACCAGGGTCTTACAAATCTAGAGTAAGTATGTTGAGCAGAA > rsl2443621AGATCAAGATGTCTAGCATAATTTGAAAGTATGTTTCTATTTGACAGAAACCTTGGCTTGGAAAAGTTAAACTCTAAATATTTG TACAGAAAGAAGTATTCTGGGTTTCATTCATTAAAAGTCATTGACCACTGCAGAAAAGGGAGAGCAAGAGATTTACA TATATTTTTCTTGACGTTTTATATGCATTAGGCCTGGCA[A/G]TGAACTTGAGGTAGGTATTACTATCTCCTTATT TCTAAGGGAATCAGAATACTGTAAACAAAGACATGGAGCTAAATAATGGAGTCAAATCCTGGCTTACTAGGCTCCAC ATCCATGTTGCTCCACTTATCAGACGGCCACCCAAACATACAAGTTTAACAAATTCCAAATTATTGGGGCCTAAATA GACACTTTTTTG > rs9933556CATGGAGCTAAATAATGGAGTCAAATCCTGGCTTACTAGGCTCCACATCCATG TTGCTCCACTTATCAGACGGCCACCCAAACATACAAGTTTAACAAATTCCAAATTATTGGGGCCTAAATAGACACTT TTTTGTTTCAATATTGCCCTTCTTCCCTTGTATTCTGAATATCATGTCAACCATGAATCATAAGCCAATG[C/T]TT ACAAATTTAACTTCACATTATGAGTTTTGAGCCCAACTGATGCCTAACCACTAAACCATTCATATAACACACTGAAA AGAAGCCATTTAAGAAATGAGAAAAATAGGTATTGTTTTCTCTGTATGGCTGTAAAAGCTGAGATAAGAACATTTTG GCAAGTTCAATAGAGCCGAAAGGCTTGTGAAGGCTATGGGAGG > rsl362546TCCACTATTTGCACTAGCATTA ATCAACATCCAAAAAGTGTACAAATTATTTTATCTTTATAATCAATCTTCTGAAATGCTAACTTGAAAATATAAACA GCACAATTACTTTTTTCTCTTTTCTTTCCCATTTGAAATGTGTGCTTGTGTGTGTGTGTGTGTGTGTATCTGAATCT GTACATATAAATCAAATACACACA[C/T]ATATACTTGTTTTAAAAAAATCCTCAAAGAATCAATCACATATTACAG AACTGAAGGAATATTGGAGTTCATCTGGTCCAAAGTGTTGGTATTGTAAAATCACTTTCAAATTTCACAGTTATCCA AATGGTAATGAATATTAATACCTAAGAAAATCAATCAAAGATTAACATTAAGACATTAGATTTTAAAAATCATT > rsl075367TTTTTAGCTACAAGGATATGTTTTTAAACCATATTGAATTACATAGAAAGCATTTCCATTTTCCTTTC AGGCTTTCTTATTACATCAGTGAGAAAATCTCAGTTTGGTGCGAATATGTCTTTAACACCTAATACTTGCTAATCTC TTTTTTAGCAGAGAGATTGAGACACATTATAGGGGAAGAGAGAGAGAGGGAGAGA[C/T]GGAGGAGATCATACAGG ACCCAGTTACAACCCTTCTGTAGCTTTGGTTTGCTAGAATTAAATAGATTATTTTGTATTTATTGTATTTATTTTGA TAGTTATGTGCTATTTATAGAAAGGAATACCAGTTTTCCATGTATGAAATAAAGTGTCCTTTTGTTAACAAAAAAGC ATATTAATTTTTATGCAAATGCATGAAT > rs8046979CAGCTTCAGTGGATGCAAGTATGATCTCTCCGATGAT CCTGGGTCCCTTCAGAGGCCTTTGGATGGTTCTGAGCAGTAGAACTCAAACTGTGATCCCAGGAAGGCAGCATCAGC ATCACCTAGCAACTTGTTAGAAATGCAAATTCTTGGGCCCTACCCCAGACCTACTGAATCAGAAACTCTGGGTGTGG AGCGGCAAC[A/G]TGGATTCTAACAAGGCGTTCAGGTGACTCTCATGCTCAGTGAAGTTTGAAAAGCCTGTGGGTA ACGAGCACAGTCTCTGGAACCTGCCTGTTGATTTGAAGGAATCCCAGATCAATCACCTCCTCACCTGAGACTTTGAA CAAGTTATTTAATTTCAGCCATGCTTCCATTTCCGTTTCTGTTAACTGGGACATTAATA > rsl420529ATGAAC TCTTCAGTGCCCTCCCCTTCCCACAGAGGGCTGAAAGGGACTCACTCTTGTTACAAGAACACGGCCACTCCTCCCTC TCTTCCTCTTCCCAGTCCATCCCTCACCCCAGTTTCAGCCACCATCCAAAAAGAAATCGCAGCATGGCCCTTGAAGC ACATTGAGCTTAAAAGTGCCTAGAAGATAAAGCCTAAACT[G/T]CAGCACGACAGGCAAGACCTTTCAAAATCTGG CCTCGACCATCCTCTCTGGGTCTCCTTTCTGAGAACCCCTATTTTCTGCCTTTTCACAACTCCACACTTATGCATGA TGCTGTTTTCCCTCCCTGGCTCACCCACCCCAGTGTTCTTCTTCTGTGATGGTAACCTCCCCAGAAAGTCTCTTGAG CTAGAGTGATCAT > rsll642645CTCGACCATCCTCTCTGGGTCTCCTTTCTGAGAACCCCTATTTTCTGCCTT TTCACAACTCCACACTTATGCATGATGCTGTTTTCCCTCCCTGGCTCACCCACCCCAGTGTTCTTCTTCTGTGATGG TAACCTCCCCAGAAAGTCTCTTGAGCTAGAGTGATCATTATTAAATTAAAAAAAAAAAAATCCTACTTTGTT[A/C] TATTCTGATTTCAAAAACCTGAAAGGCAAGATATTTGAGGGAAAAAAGAGAATATTGTTTTGTTGCTTTTTAAAAAA TAAATTTGCAGGTCCTGACAATCCCGTGCTTTGTGTGTGCTGATCACACTGCAATCTAATCAGGTACAGTAAATAAA ATGACTTGAGAACCTTTCTGACGAATGCAAAGGCTGATGATATTT > rs1420533TGTGATTTTTAAAAGGTAAG TAACAGGTGAATCAAAGCAAGGAAAAAGTAAATTTGAGAAAATAATAAAGCCTAGATGGCCAGCACACAGGAATGCATATCCTACTGCCCTAGACAGCTACTAAATGGGTTTCCTGTTTGACTCCAAGCTTCTTGGCCATCAATGCAAAGAAAG AACAAGAATGGTAAGATTAATGCCCA[A/G]TAAGATACAGCGAAGTGGATTTTTTTCAGTTCTTCTTGATATAGTA ACCTAAGAAGATTCTCTGTAAATCATCATTTAAAAAGACACCATGAGGTGTAATGAGCTATACATTGTAAATAGAAC TTTTTAAAAAAAATGATGTTCACGAAACTATTACTCATAATCCTCTCAATACAAAGTGAAGCCTTAATCAGTGTGC > rs1362548TTTTAAAAAAAATGATGTTCACGAAACTATTACTCATAATCCTCTCAATACAAAGTGAAGCCTTAA TCAGTGTGCAATTCAATAAAGCAGAGAGGGCCTGTGAAGGCAACTGTGAAGTGGGGTGCCACATAATATGCCATCGT GAGCATTCAGCTCTCTCACAAGTCTGGCAGAAATCTCTTATCAAATTAGGTTATCTG[C/G]ATGAACGGAAGGAAG CAAGGCATCTTCTTCATGCCATTCTCCTTAGATATATTATTTCTTCCAACAGATTTTATTAACACAAACTGGGCAGC AGGGACTTCAAGAAGGACAAAAATCCTGTGTCAAAACCATTACATATGTTGGCAACATTTATCATCAGGAAAAGCGT CCCAGGAAGTTGAATTCTAATGTATGTGTG > rs2193094CTGGGCCTGGACTCAAGGGTTCTTGTGTACTTTCC TGCTGTCCGAAATACTGCCATCATGAACAAGCCCAGGCTGGCGTGCTGGAGGTGAAAGATACATGCCAGAGAACTGA GGGACCCCGGTGGACAGCCAGCCAACCTCCTGAAGCAAACCCTCCCTGCCAATCTGCAGTTGACTGCAAACACATAA GAGACCCAGAA[G/T]AGGATAAGCACTGCCCTTCTGAGCCCAACCTAAATTGCTGACATGCAGAATCAGAAACAAA ATATGTGTTTTTGAAGTCACAAAGTTTAGAGGCGGTTTATCACTCGCGATAGATAACTGGTACAGACAACACGGGTC TGCCTAGAAAGTGAAAAACATACGAAGGCAAAACAGTAAGAGGTCAAGCTTTAGGAGGATA > rs4783780TCTC ATATCCATAGAATATCCAGGTGACCTATAGGTTTCTTGAAGGCAGACCACATCCAATCTCAGCCTCAACAAGAAGGG CGTTCCTAATATAAACAATATTTATGATATTTACATTACATAAGCACAGGCTCATTTTGGTTTCCACAAAGAATAAT AATAAACATAGACAATGGAAATCCTCAGAAATCTTCAAAATC[A/C]TCAAGCTTCACTCCAGTTAGCCGTTTCAAT GGACTTTGCTTTCCTATCCTACACCCACATTCTCTCATTGTGACATCAGCACTTTGTTTTTCCTCCGAAGAACCACT GCTCCATACTCTTAGCTCCTGTGGCTTCCAAGAAGATGACAGTGTCCAGCTCCCCCACTGGCATGCCTACGTGGCTA CGAGCCTGGGCATGG > rs3112581TTACATTCTCACAGCTCAGCCTCTTCAAGAGGGAGAGATTCTTTCTTGCA TGTTTCAGCAGCTTTTCTGGATCAAGTCTCATTGGATAGACTTGGGTCCCATGCCCAGGCTCGTAGCCACGTAGGCA TGCCAGTGGGGGAGCTGGACACTGTCATCTTCTTGGAAGCCACAGGAGCTAAGAGTATGGAGCAGTGGTTCTT[C/ T]GGAGGAAAAACAAAGTGCTGATGTCACAATGAGAGAATGTGGGTGTAGGATAGGAAAGCAAAGTCCATTGAAACG GCTAACTGGAGTGAAGCTTGATGATTTTGAAGATTTCTGAGGATTTCCATTGTCTATGTTTATTATTATTCTTTGTG GAAACCAAAATGAGCCTGTGCTTATGTAATGTAAATATCATAAATAT > rs3112580TTTTTTTTTTTTTTTATC ATATCAGCCAGGCTGTACTCAAGTAGTGGGAAGTTGTCCAGCAGCAGCTCCAAGTTACATTCTCACAGCTCAGCCTC TTCAAGAGGGAGAGATTCTTTCTTGCATGTTTCAGCAGCTTTTCTGGATCAAGTCTCATTGGATAGACTTGGGTCCC ATGCCCAGGCTCGTAGCCACGTAGGCAT[A/G]CCAGTGGGGGAGCTGGACACTGTCATCTTCTTGGAAGCCACAGG AGCTAAGAGTATGGAGCAGTGGTTCTTCGGAGGAAAAACAAAGTGCTGATGTCACAATGAGAGAATGTGGGTGTAGG ATAGGAAAGCAAAGTC CATTGAAACGGCTAACTGGAGTGAAGCTTGATGATTTTGAAGATTTCTGAGGATTTCCAT TG > rs9931232TTGAATTAAGATTAAAGATAGAATGTTAATCATACAAGAAGGGCCATTTTCCAGGGCCTGGCA TGTTTTACACAAGCATGAAACATATTTAAGAGAACATGGCCTCCCTGAGGAAGAGATTAAGGATACAAACCTAGGAA ACAAAGAAAATAAAACGATCTACCTCAAAGGGATAAGATTAACCTGTGAGAAGCTCATGC[A/G]GACCTTAAATAA AAGCCTCTACTCCTTATATTTTTAAACAGGATTTTTCTTTTTTTTTTAGAGCACTAATTCCACCTTCAAAATATATT TGAGTTTGTAAGTATACTCAACAAAAATCCTGTCCTTTCTTATTAACCATACTCAAAACAGATTCTCTAAAATAGTT ATGACACCATTAACATTTCATGAAATCCAAAAC > rsl123428CCTGGCTATATTTTATTTGAAGTTATTCTCCT ACTTGCAACGACTTTTGAACCCACAAAACTCTTTCATCCATTCTCCACAGACACAGTACACTTTCATGAGCACTGAC ATTTGAAAAGGATCCATATACTCACAGAATGTAAAGATAATACACATGCATATAATTGATACAAAGGACTCTGGTCATTTGTTAAAGAGAG[A/T]AATGAATGAAACCCTATTATTCACGGTTTGTAAATAAATTTAAAGATAAGCGCTAACT TTCACTTGTTAAGCCTAGAGCCAAGAGTTCGGTGTTTCTTCTAAAGTTTCCCAGATGGTCATTAAAACAAGAGAGGG AAGAAACATACTTTCTTTGAAATCCATCATTTCCCATCCAGAAAGATAATACATGTCATCAAAA > rs3095604T CATTCACTGCTCTGGGAGAGAAAATGTCCCTATTTTCCTAAAAGGTCCTAGCTGATTAACTTCCCCACTCTACACTC ACCCACCCCTCTTTATTTCTTTATCTTTCTTAAGCTCCATCTTTTTATTTAATTTTTTTTCTCATCGGCTTTATTGC TTTGAGTTAATCTGAGAGTTTGGCCTTCAGCCTTGGCGAAGGGAA[C/G]GGGCTTTATACTAAATGGGAACGTTGT GGAGAGGCCGTGAGATCTGCGCCCTCCCCAGTTTAGTTATCTGCCAGCTACTTTAACCAGAGTGGCGACATTCTGAA ATATTTCCTATGACACTCGCTAACAGTTTCATCCCCTGGTCACACCTTGCTGGCCCAGGGCCTGAGCTTTTTCAGAC AAGCATGACATGGGTTTT > rs4784227GAGTTGATCAGTAAATATTTGCTGAATGAAAGAATACATGAATGAAA AGTCAGAGCCCTATAGGTCAGCATGGACGGCGGTAAAGGAACCTGGCTGAGCCTGAAAGAGAATGTGATCTAAGATT AAATCCAGGATATGCTGGTAAATGTTTAACAGCCAACTCTTTGGGGAGGAAAAAAGTCCCAATTTGTAGTGTTTGC[ C/T] GATTATTGTGATGTAAATACTCCCATCATGACCAATTTCAAGCTACCAACATGCTGACACTGAACTTGGAGTT GGAAGGAGATGAACAGGCATAATCAGGTCTCGTGAGATGGCCCAAGCCGGCCCCAGCACTCCACTGTTATATATGAG GCTAGAATTACTACATAACTGGAATAGCAACTTTCTGGACCATATGCCT > rs12922061ACTTCATTTTGAGGA AAAGAACAGTTACTACCATTCATTCATTCACTCATCACACCAATATTACTGAATCCTACCCTGGACCAGCATTGTTA TGGTAGATCTTGATAATATAGTGACAGACAATACCATCCTTCCCACCATTTACATAGTAGACTGCCTGGGGCTCATA GTCTACTCACATCTCAGCACATGAGATAGTC[C/T]CATTATCACATTCTCTTCTATCTCTCTCACAGGCACTCACT CACCAGCCATGGAGAACTTAATGGGCATTAGGTTCTTAATCCTGCTGGGTATAATTGGAGATAACCACCCTGGCTGA CTGAGCACTATACCAGGCTACTCATGGATGATTTGGTTATTAGACGTAATCAGAGTGGCCCTTGTATGCTAAAAAGG AGAC 表 29.多种族人群> rs4784227GTAAATATTTGCTGAATGAAAGAATACATGAATGAAAAGTCAGA GCCCTATAGGTCAGCATGGACGGCGGTAAAGGAACCTGGCTGAGCCTGAAAGAGAATGTGATCTAAGATTAAATCCA GGATATGCTGGTAAATGTTTAACAGCCAACTCTTTGGGGAGGAAAAAAGTCCCAATTTGTAGTGTTTGC[C/T]GAT TATTGTGATGTAAATACTCCCATCATGACCAATTTCAAGCTACCAACATGCTGACACTGAACTTGGAGTTGGAAGGA GATGAACAGGCATAATCAGGTCTCGTGAGATGGCCCAAGCCGGCCCCAGCACTCCACTGTTATATATGAGGCTAGAA TTACTACATAACTGGAATAGCAACTTTCTGGAC > rs17271951TAAAATCCAATTGTCATACTCTGGTATTTGT TCTCCAAAAGAATCATCACTTTCATATTCACTACAGCATGAGATGAGATATTTAATAAATAATAGGACATCATAATC CAGGGATTAAGTAGTTTCTTTTAGCAAAATTTAATATGAGGGTAGCATATGCCAGCCGTTCCTAGTTGAGCAACAAT TTCTG[C/T]GTTGGGAGAGGATAACAAAGCCAAGTATTTTCCCATAAGAAGTTCACACTCTAAAAGGCCAGGCGCG GTGGCTCACACCTATAATCCCAGCACTTTGGGTGGCTGAGGCAGGCGGATCACTAGGTCAGGAGATCGAGACCATCC TGGCTAAGACGGTGAAACCCCGTCTCTACTAAAAATACAAAAAAAT
权利要求
在人类个体中确定乳腺癌的易感性的方法,包括确定至少一个多态标记的至少一个等位基因在从所述个体获得的核酸样品或源自所述个体的基因型数据集中存在或不存在,其中所述至少一个多态标记选自在表10、表15和表19任一个中列出的多态标记,和与它们连锁不平衡的标记,并且其中所述至少一个等位基因的存在表示所述个体对乳腺癌的易感性。
2.根据权利要求1所述的方法,其中所述至少一个多态标记位于具有如SEQID N0:4、 SEQ ID NO 5或SEQ ID NO 6中列出的序列的基因组区段内。
3.根据权利要求1或2所述的方法,其中所述至少一个多态标记选自表10、表15和表 19任一个中列出的标记。
4.根据前述权利要求任一项所述的方法,其中所述至少一个多态标记选自 rs4848543(SEQ ID NO 1)、rs3803662(SEQ ID NO 3)和 rsl3387042(SEQ ID NO :2)。
5.根据前述权利要求任一项所述的方法,进一步包括在所述个体中评估至少一种单元 型的频率。
6.前述权利要求任一项所述的方法,其中所述至少一个等位基因或单元型的存在赋予 的易感性是增加的易感性。
7.根据权利要求6所述的方法,其中所述等位基因A在标记rs4848543中存在、等位基 因T在标记rs3803662中存在和/或等位基因A在标记rsl3387042中存在表示对乳腺癌 的易感性增加。
8.根据权利要求6或7所述的方法,其中所述至少一个等位基因或单元型的存在表示 对乳腺癌的易感性增加,其中相对危险度(RR)或优势比(OR)为至少1. 20。
9.根据权利要求6或7所述的方法,其中所述至少一个等位基因或单元型的存在表示 易感性增加,其中相对危险度(RR)或优势比(0R)为至少1.25。
10.根据权利要求1-5的任一项所述的方法,其中所述至少一个等位基因或单元型的 存在赋予的易感性是降低的易感性。
11.前述权利要求任一项所述的方法,进一步包括分析包含来自人类个体的基因组 DNA的样品或源自人类个体的基因型数据集中存在或不存在不与表10、表15和表19列出 的标记的任何一个连锁不平衡的至少一个乳腺癌风险变体的至少一个风险等位基因。
12.权利要求1-9的任一项所述的方法,包括确定在至少两个多态标记中存在或不存 在至少一个等位基因,其中在所述至少两个多态标记中存在至少一个等位基因表示对乳腺 癌易感性增加。
13.根据前述权利要求任一项所述的方法,进一步包括确定在从所述个体获得的核酸 样品中或在源自所述个体的基因型数据集中存在或不存在乳腺癌的至少一种高外显遗传 因素的步骤。
14.根据权利要求13所述的方法,其中所述高外显遗传因素是BRCA2999del5。
15.根据前述权利要求任一项所述的方法,进一步包括评估所述个体的雌激素受体或 孕酮受体状态。
16.根据权利要求15所述的方法,其中在所述个体中雌激素受体阳性状态或孕酮受体 阳性状态与乳腺癌风险增加相关联。
17.根据权利要求16所述的方法,其中所述乳腺癌风险增加与rsl3387042等位基因A和/或rs3803662等位基因T以及与它们连锁不平衡的标记相关联。
18.前述权利要求任一项所述的方法,进一步包括分析非遗传信息以进行所述个体的 风险评估、诊断或预后。
19.权利要求18所述的方法,其中所述非遗传信息选自龄、性别、种族、社会经济状况、 前疾病诊断、患者病史、乳腺癌家族史、生化测量和/或临床测量。
20.权利要求11-19任一项所述的方法,进一步包括计算组合风险。
21.确定在先前诊断患有乳腺癌的个体中形成至少第二原发性肿瘤的风险的方法,所 述方法包括确定至少一个多态标记的至少一个等位基因在从所述个体获得的核酸样品或 源自所述个体的基因型数据集中存在或不存在,其中所述至少一个多态标记选自在表10、 表15和表19任一个中列出的多态标记,和与它们连锁不平衡的标记,并且其中所述至少一 个等位基因的存在表示形成至少第二原发性肿瘤的风险。
22.根据权利要求20所述的方法,其中所述至少一个多态标记是rs4848543(SEQ ID NO 1)和与它们连锁不平衡的标记。
23.在人类个体中评估对乳腺癌的易感性的试剂盒,所述试剂盒包括用于在所述个体 的基因组中选择性检测至少一个多态标记的至少一个等位基因的试剂,其中所述多态标记 选自表10、表15和表19中列出的标记和与它们连锁不平衡的标记,并且其中所述至少一个 等位基因的存在表示对乳腺癌的易感性。
24.权利要求23所述的试剂盒,其中所述至少一个多态标记是rs4848543(SEQID NO 1)、rs3803662(SEQ ID NO 3)或 rsl3387042(SEQ ID NO :2)。
25.根据权利要求23或24所述的试剂盒,其中所述试剂包括至少一种相邻寡核苷酸、 缓冲液和可检测标记,所述至少一种相邻寡核苷酸与包含所述至少一个多态标记的个体基 因组的片段杂交。
26.根据权利要求23-25任一项所述的试剂盒,其中所述试剂包括至少一对寡核苷酸, 其与从所述对象获得的基因组核酸片段的相反链杂交,其中每个寡核苷酸引物对被设计以 选择性扩增所述个体的基因组的片段,所述片段包含一个多态标记,并且其中所述片段的 大小为至少30个碱基对。
27.根据权利要求25或26所述的试剂盒,其中所述至少一种寡核苷酸与所述个体的基 因组完全互补。
28.根据权利要求23-27任一项所述的试剂盒,其中所述试剂盒包括a.检测寡核苷酸探针,其长度为5-100个核苷酸;b.增强子寡核苷酸探针,其长度为5-100个核苷酸;和c.内切核酸酶;其中所述检测寡核苷酸探针与其核苷酸序列由SEQ ID N0:4、EQID NO :5或SEQ ID NO 6列出的核酸的第一片段特异性杂交,和其中所述检测寡核苷酸探针在其3’端包含可检测标记,并且在其5’端包含猝灭部分;其中所述增强子寡核苷酸的长度为5-100个核苷酸,并且与所述核苷酸序列的第二片 段互补,所述第二片段相对于所述寡核苷酸探针位于5’端,以便当所述两个寡核苷酸都与 所述核酸杂交时,所述增强子寡核苷酸相对于所述检测寡核苷酸探针位于3’端;其中在所述第一片段和所述第二片段之间存在单碱基缺口,以便当所述寡核苷酸探针和所述增强子寡核苷酸探针都与所述核酸杂交时,在所述寡核苷酸之间存在单碱基缺口 ; 禾口其中当所述检测探针与所述核酸杂交时,用内切核酸酶处理所述核酸,将可检测标记 从所述检测探针的3'端切割,以释放游离的可检测标记。
29.确定人类个体中乳腺癌的遗传指示物的装置,包括计算机可读存储器;和储存在所述计算机可读存储器上的程序;其中所述程序适合在处理器上执行以针对选自表10、表15和表19中列出的标记和与 它们连锁不平衡的标记的至少一个多态标记,分析至少一个人类个体的标记和/或单元型 信息,并基于所述标记或单元型信息产生输出,其中所述输出包括作为所述人类个体的乳 腺癌的遗传指示物的至少一个标记或单元型的个体风险量度。
30.权利要求29所述的装置,其中所述程序进一步包括与所述至少一个标记等位基因 和/或单元型相关联的乳腺癌的风险量度,其中所述风险量度基于在诊断患有乳腺癌的多 个个体中的至少一个多态标记的至少一个等位基因和/或单元型的频率和在多个参考个 体中的至少一个多态标记的至少一个等位基因和/或单元型的频率的指示物的比较,并且 其中所述人类个体的个体风险基于所述个体的至少一个标记等位基因和/或单元型的携 带状态与所述至少一个标记等位基因和/或单元型的风险量度的比较。
31.根据权利要求29或30所述的装置,其中所述至少一个多态标记选自 rs4848543(SEQ ID NO 1)、rs3803662 (SEQ ID NO :3)或rsl3387042 (SEQ ID NO :2)和与它 们连锁不平衡的标记。
32.根据前述权利要求任一项所述的方法、试剂盒或装置,其中标记之间的连锁不平衡 的特征为r2和/或|D’ I的特定数值。
33.根据前述权利要求任一项所述的方法、试剂盒或装置,其中连锁不平衡的特征为r2 至少0. 2。
34.鉴定用于评估对乳腺癌的易感性的标记的方法,所述方法包括a.鉴定与具有SEQID N0:4、SEQ ID N0:5和EQ ID NO :6中列出的序列的基因组片段 中的至少一个标记连锁不平衡的至少一个多态标记;b.确定诊断患有乳腺癌或对乳腺癌具有易感性的个体的样品的基因型状态;和c.确定对照个体的样品的基因型状态;其中在诊断患有乳腺癌或对乳腺癌具有易感性的个体中至少一个多态性中至少一个 等位基因的频率与所述对照样品中所述至少一个等位基因的频率相比的显著性差异表示 所述至少一个多态性可用于评估对乳腺癌的易感性。
35.根据权利要求34所述的方法,其中与所述对照样品中所述至少一个等位基因的频 率相比,在诊断患有乳腺癌或对乳腺癌具有易感性的个体中所述至少一个多态性中所述至 少一个等位基因的频率增加表示所述至少一个多态性可用于评估对乳腺癌的易感性增加。
36.根据权利要求34或35所述的方法,其中与所述对照样品中所述至少一个等位基因 的频率相比,在诊断患有乳腺癌或对乳腺癌具有易感性的个体中所述至少一个多态性中所 述至少一个等位基因的频率降低表示所述至少一个多态性可用于评估对乳腺癌的易感性 降低或保护免受乳腺癌。
37.根据权利要求34-36任一项所述的方法,其中所述SEQIDN0 4中至少一个标记选 自表20中列出的标记。
38.根据权利要求34-36任一项所述的方法,其中所述SEQIDN0 5中至少一个标记选 自表21中列出的标记。
39.根据权利要求34-36任一项所述的方法,其中所述SEQIDN0 6中至少一个标记选 自表22中列出的标记。
40.根据权利要求34-36任一项所述的方法,其中与具有如SEQIDNO :4、SEQ ID NO 5 和SEQ ID NO :6中列出的序列的基因组区段的至少一个标记连锁不平衡的所述至少一个多 态标记选自 rs4848543 (SEQ ID NO :1)、rs3803662 (SEQ ID NO :3)和rsl3387042 (SEQ IDNO 2)。
41.基因型分型从人类个体获得的核酸样品的方法,所述人类个体处于乳腺癌风险中 或诊断患有乳腺癌,所述方法包括确定在所述样品中存在或不存在至少一个多态标记的至 少一个等位基因,其中所述至少一个标记选自表10、表15和表21中列出的标记,和与它们 连锁不平衡的标记,并且其中存在或不存在所述至少一个多态标记的所述至少一个等位基 因表示对乳腺癌的易感性。
42.权利要求41所述的方法,其中所述至少一个标记选自rs4848543(SEQID N0:1)、 rs3803662(SEQ ID NO 3)和 rsl3387042(SEQ ID NO :2)。
43.根据权利要求41或42所述的方法,其中基因型分型包括通过聚合酶链式反应 (PCR),使用在所述至少一个多态标记侧翼的核苷酸引物对,扩增包含所述至少一个多态标 记的核酸的片段。
44.根据权利要求41-43任一项所述的方法,其中使用选自等位基因_特异性探针杂 交、等位基因-特异性引物延伸、等位基因-特异性扩增、核酸测序、5’ -核酸外切酶消化、 分子信标检测、寡核苷酸连接试验、粒度分析和单链构像分析的方法,进行基因型分型。
45.根据权利要求44所述的方法,其中所述方法包括等位基因-特异性探针杂交。
46.根据权利要求45所述的方法,其中所述方法包括DNA测序。
47.根据权利要求41-45任一项所述的方法,包括1)将所述核酸的拷贝与检测寡核苷酸探针和增强子寡核苷酸探针在所述寡核苷酸探 针与所述核酸特异性杂交的条件下相接触;其中a)所述检测寡核苷酸探针的长度为5-100个核苷酸,并且与其核苷酸序列由SEQID NO :4、SEQ ID NO 5或SEQ ID NO 6给出的核酸的第一片段特异性杂交;b)所述检测寡核苷酸探针在其3’端包含可检测标记,并且在其5’端包含猝灭部分;c)所述增强子寡核苷酸的长度为5-100个核苷酸,并且与所述核苷酸序列的第二片段 互补,所述第二片段相对于所述寡核苷酸探针位于5’端,以便当两个寡核苷酸都与所述核 酸杂交时,所述增强子寡核苷酸相对于所述检测寡核苷酸探针位于3’端;和d)在所述第一片段和所述第二片段之间存在单碱基缺口,以便当所述寡核苷酸探针和 所述增强子寡核苷酸探针都与所述核酸杂交时,在所述寡核苷酸之间存在单碱基缺口 ;2)当所述检测探针与所述核酸杂交时,用内切核酸酶处理所述核酸,所述内切核酸酶 将可检测标记从所述检测探针的3'端切割,以释放游离的可检测标记;和3)测量游离的可检测标记,其中存在所述游离的可检测标记表明所述检测探针与所 述核酸的所述第一片段特异性杂交,并且表明所述多态位点的序列为所述检测探针的互补 体。
48.评估个体对乳腺癌治疗剂应答的可能性的方法,包括确定在从所述个体获得的 核酸样品中存在或不存在至少一个多态标记的至少一个等位基因,其中所述至少一个多态 标记选自表10、表15和表19中列出的标记和与它们连锁不平衡的标记,其中存在所述至少 一个标记的所述至少一个等位基因表示对乳腺癌治疗剂的阳性应答的可能性。
49.预测诊断患有乳腺癌的个体的预后的方法,所述方法包括确定在从所述个体获得 的核酸样品中存在或不存在至少一个多态标记的至少一个等位基因,其中所述至少一个多 态标记选自表10、表15和表19中列出的标记和与它们连锁不平衡的标记,其中所述至少一 个等位基因的存在表示在所述个体中乳腺癌的更差预后。
50.监视经历乳腺癌治疗的个体的治疗进展的方法,所述方法包括确定在从所述个体 获得的核酸样品中存在或不存在至少一个多态标记的至少一个等位基因,其中所述至少一 个多态标记选自表10、表15和表19中列出的标记和与它们连锁不平衡的标记,其中所述至 少一个等位基因的存在表示该个体的治疗结果。
51.根据权利要求48-50的任一项所述的方法,其中所述至少一个多态标记选自 rs4848543(SEQ ID NO 1)、rs3803662(SEQ ID NO 3)和 rsl3387042(SEQ ID NO :2)。
52.寡核苷酸探针在制造用于在人类个体中诊断和/或评估对乳腺癌易感性的试剂中 的应用,其中所述探针与其核苷酸序列在SEQ IDN0 :4、SEQ ID NO 5或SEQ ID NO 6中列 出的核酸的片段杂交,其中所述探针的长度为15-500个核苷酸。
53.计算机可读介质,在其上储存a.至少一个多态标记的标识符;b.诊断患有乳腺癌的多个个体中所述至少一个多态标记的至少一个等位基因的频率 的指示物;和c.多个参考个体中所述至少一个多态标记的至少一个等位基因的频率的指示物;其中所述至少一个多态标记选自表10、表15和表19中列出的多态标记,以及与它们连锁不平衡的多态标记。
54.根据权利要求53所述的介质,其中所述多态标记选自rs4848543(SEQID N0:1)、 rs3803662(SEQ ID NO 3)和rsl3387042 (SEQ ID NO 2)以及与它们连锁不平衡的标记。
55.根据权利要求53或54所述的介质,进一步包括所述多个个体的血统信息。
56.根据权利要求53-55任一项所述的介质,其中连锁不平衡的特征为r2的数值至少 0. 2和/或|D,|的值至少0.8。
全文摘要
本发明涉及作为乳腺癌易感性变体的某些Chr2q14、Chr2q35和Chr16q12上的遗传性变型。描述了使用这些变型对乳腺癌的易感性增加和/或降低的风险评估和诊断的方法。本发明进一步涉及诊断对乳腺癌的易感性的试剂盒。
文档编号C12Q1/68GK101874120SQ200880016394
公开日2010年10月27日 申请日期2008年3月26日 优先权日2007年3月26日
发明者安德烈·马诺列斯库, 帕特里克·舒莱姆, 西蒙·斯泰西 申请人:解码遗传学私营有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1