chr8q24.21上的癌症易感性变体的制作方法

文档序号:439343阅读:1288来源:国知局
专利名称:chr8q24.21上的癌症易感性变体的制作方法
chr8q24.21上的癌症易感性变体
背景技术
癌症一一恶性细胞的不受控制的生长,是现代医学时代主要的健 康难题,并且在发达国家,是死亡的主导因素之一。在美国,每四例 死亡中就有一例由癌症引起(Jemal,A.等,C纖e" C7/". 52:23-47
(2002) )。
在过去的几十年中,前列腺癌的发病率急剧上升,目前,在美国 和西欧,前列腺癌成为死亡的主导因素(Peschd, R.E.和J.W. Colberg, 丄fl"c" 4:233-41 (2003); Nelson, W.G.等,iV./ Med 349(^):366-81
(2003) )。在工业化国家中,前列腺癌是男性中诊断频率最高的非皮肤 性恶性肿瘤,在美国,8个男性中就有1个在其生命期中将发展出前列 腺癌(Simard, J.等,五油cW"o/ogy "柳:2029-40 (2002))。尽管环 境因素例如饮食因素和与生活方式有关的因素对前列腺癌的风险有贡 献,但遗传因素也已显示出扮演了重要角色。事实上,阳性家族史是 前列腺癌最强的流行病学风险因素之一,在同卵双生子中比较前列腺 癌的一致发生的双生子研究,也一致地显示出前列腺癌的风险中存在 着比任何其它类型癌症中更强的遗传成份(Nelson, W.G.等,iV. J Med 34外力:366-81 (2003); Lichtenstein P.等,TV.五"g/. / Med 3430:78-85 (2000))。此外,在一项全国范围内对冰岛从1955年到 2003年诊断的所有癌症病例的家族性研究中,在前列腺癌病例的第一 级到第五级亲属中观察到了增加的前列腺癌风险(Amundadottir等, 尸丄oSMe^"""":e65 (2004))。由亲属中增加的风险所强调的这种疾 病的遗传基础,得到了在特殊人群中进行的前列腺癌研究的进一步支
持例如,非洲裔美国人具有最高的前列腺癌发病率以及由该疾病造 成的死亡率;与欧洲裔美国人相比,他们发生前列腺癌的可能性是1.6
倍,死于该疾病的可能性是2.4倍(Ries, L.A.G.等,W///尸w6.(1999))。
患有前列腺癌的男性的寿命预期值平均减少40%。如果在转移和扩散到囊胞外之前较早地检测到,前列腺癌是可以治愈的(例如使用外科手术)。但是,如果在从前列腺扩散和转移后诊断到,前列腺癌一般是致命的疾病,治愈率低。尽管基于前列腺特异性抗原(PSA)的筛査对于前列腺癌的早期诊断有所帮助,但它的灵敏度和特异性不高(Punglia等,A^"g/JMW.猪,35-42 (2003))。这意味着测试将伴有高百分率的假阴性和假阳性诊断。结果是在许多情况下漏诊癌症,以及对于没有癌症的对象进行了不必需的后续活组织检查。多达65%到85%患有前列腺癌的个体(依赖于年龄)的PSA水平小于或等于4.0ng/mL,该值在传统上被用作正常PSA水平的上限(Punglia等,7V五"g/ /她d 猪W:335-42 (2003) ; Cookston, M.S., Ca訓r Co""o/Sf2,133-40 (2001); Thompson, I.M.等,V/ 350:2239-46(2004))。有很大部分具有低PSA水平的癌症的Gleason评分为7级或以上,这是侵略性前列腺癌的衡量标准。/^J:。
除了上面提到的灵敏性问题之外,PSA测试还有特异性和预后的问题。在没患有前列腺癌的对象中PSA水平可能是异常的。例如,良性前列腺增生症(BPH)是假阳性PSA测试的一种常见原因。此外,各种不同的非癌症病症可能升高血清的PSA水平,包括尿潴留,前列腺炎,剧烈的前列腺按摩和射精。局^丄。
在具有阳性PSA水平的患者中,如果肿瘤太小,不能通过超声看见的话,使用穿刺活检对前列腺癌进行随后的证实是困难的。 一般情况下,获取多个随机样品,但是由于仅仅取样少量的组织,前列腺癌的诊断可能被错过。直肠指检(DRE)也会错过许多癌症,因为只有前列腺后叶被检查到。因为早期癌症是不可触知的,通过DRE检测到的癌症可能已经扩散到前列腺外(Mistry K丄,S離d F謹./柳:95-101 (2003))。因此,对于能够促进早期前列腺癌的检测和预后,并有助于疾病的预防性和治愈性治疗的改进的诊断方法,显然存在着极大的需求。此外,对于能够更好地分辨更可能患有侵略性形式的前列腺癌的患者与更可能患有局部保留在前列腺中,对发病率和死亡率没有显著贡献的更良性形式的前列腺癌的患者的工具的开发,存在着需求。这有助于避免对没有显著风险的患者进行侵入性的和昂贵的操作。
与吝辨形式游蕨/y嚴,煮关游位点
在过去的几十年中,前列腺癌的发病率急剧上升。前列腺癌是一种多因素的疾病,其病因学中包含了遗传和环境的成份。其特征为不均匀的生长形式,从从缓慢生长的肿瘤到非常快速的高转移性病变。
尽管遗传因素是前列腺癌最强的流行病学风险因素之一,但搜索参与该疾病的遗传决定因子是一种挑战。研究显示,将候选遗传标记与前列腺癌相关联,比鉴定其它癌症例如乳腺癌,卵巢癌和结肠癌的易感性基因更困难。对于这种增加的困难性已经提出了几种理由前列腺癌通常在晚期被诊断出来的事实,使得难以从超过一代的活的患病个体获得DNA样品;在高风险谱系中与遗传和偶发形式之间缺少分辨性特征有关的拟表型的存在;以及前列腺癌的遗传不均一性,和随
之而来的为该复杂疾病开发适合的统计传播模型的困难(Simard, J.等,五m/ocr/"o/ogy "V。:2029-40 (2002))。
对于前列腺癌易感性基因已经进行了多种基因组扫描,已经报道了几个前列腺癌易感性位点。例如,己经提出HPC1 (lq24-q25), PCAP(lq42-q43), HCPX (Xq27-q28) , CAPB (lp36) , HPC20 (20ql3),HPC2/ELAC2 (17pU)和16q23作为前列腺癌易感性位点(Simard, J.等,£wc/ocn'"o/ogy "3(^:2029-40 (2002); Nwosu, V.等,//wm. Mo/.
川P0力2313-18 (2001))。在Smith等进行的基因组扫描中,连锁的最强迹象在HPC1位点处,尽管两点分析(two-point analysis)也揭示D4S430位点的LOD分值^ 1.5,几个位点包括Xq27-28位点的标 记物的LOD分值上1.0 (Ostrander E.A.禾口 J丄.Stanford,」m. / //謂.
67:1367-75 (2000))。另一项基因组扫描报道了使用常染色体遗 传显性模型时染色体10q, 12q和14q,使用遗传隐形模型时染色体lq, 8q, IOq和16p的两点LOD分值^1.5。厨J:。另一项基因组扫描在2q, 12p, 15q, 16q和16p上鉴定到了具有轻微连锁迹象的区域。使用一小 组犹他州高风险前列腺癌谱系和一组300个多态性标记物进行的前列 腺癌倾向性位点的基因组扫描,提供了与染色体17p上的位点连锁的 证据(Simard, J.等,五油m."o/,"柳:2029-40 (2002))。在2003 年下半年,公开了 8个新的连锁分析,描绘出了显著的不均一性。报 道了 II个LOD分值高于2.0的峰,它们之中没有重叠的(参见Actane 协会,Schleutker等,Wiklund等,Witte等,Janer等,Xu等,Lange 等,Cunningham等的文章;都公开在尸rcwto&, vol. 57 (2003)中)。
如上所述,参与前列腺癌的具体基因的鉴定具有挑战性。其中涉 及到的一个基因是RNASEL,它编码广泛表达的潜伏的内切核酸酶, 该酶参与干扰素诱导的RNA衰变途径,据信降解病毒和细胞的RNA, 该基因已经与HPC位点关联(Carpten, J.等,A^. Gen" 30:181-84 (2002); Casey, G.等,淑.浑,581-83 (2002)) 。 RNASEL的 突变与对前列腺癌的增加的易感性有关。例如,在一个家族中,四个 患有前列腺癌的兄弟在RNASEL中带有失活突变,而在另一个家族中, 六个患有前列腺癌的兄弟中的四人带有影响了 RNASEL的起始甲硫氨 酸密码子的碱基取代。周J:。其它研究显示,在患有家族性前列腺癌 的芬兰男性和德系犹太人群体中,突变的RNASEL等位基因与前列腺 癌的增加的风险相关(Rokman, A.等,, Ge"". 70:1299-1304
(2002); Rennert, H.等,Ge威77:981-84 (2002))。此外, 已经提出Ser217Leu基因型在年龄小于65岁的美国白人的所有散发病 例中占大约9% (Stanford, J丄.,Ca"cer E^/dem/o/. 5/oma尸A:e/^尸rev. "p力876-81 (2003))。但是,与这些阳性报告相反, 一些研究不能检 测到带有失活突变的RNASEL等位基因与前列腺癌之间的任何相关性
19(Wang,L.等,力w./^w. 77:116-23 (2002); Wiklund, F.等,
C〃". Omceri " 70(77」:7150-56 (2004); Maier, C.等,丑r / Ca"cer 9卿1159-64(2005))。
位于8p22的巨噬细胞清除受体1 (MSRl)已经被鉴定为候选的 前列腺癌易感性基因(Xu, J.等,A^. ":321-25 (2002))。在大
约3%患有非遗传性前列腺癌的男性中检测到了突变的MSRl等位基 因,但是在未患病的男性中只有0.4%被检测到。/^i:。但是,不是所 有后续的报道都证实了这些起初的发现(参见例如Lindmark, F.等, 7VWa^ j^Y": 132-40 (2004); Seppala, E.H.等,C//". C""cer 9(7":5252-56 (2003); Wang, L.等,J5f2」128-29 (2003); Miller, D.C.等,Ca"cer M(7" :3486-89 (2003)) 。 MSR1编码了巨 噬细胞清除受体的亚基,该受体能够结合多种不同的配体,包括细菌 脂多糖和脂胞壁酸,并氧化血清中的高密度脂蛋白和低密度脂蛋白 (Nelson, W.G.等,iV, Mec/, :366-81 (2003))。
17号染色体上的£Z^C2基因是从犹他州高风险前列腺癌家族克 隆到的第一个前列腺癌易感性基因(Tavtigian, S.V.,等,Wa . Ge"e〖. 27^:172-80 (2001))。在一个谱系中发现了移码突变(1641InsG)。 还发现了其它三个错义变化与前列腺癌的增加的风险相关Ser217Leu, Ala541Thr和Arg781His。已经发现,在带有Ser217Leu和Ala541Thr 的男性中前列腺癌的相对风险,将是没有在前列腺癌家族史的基础上 选择的群体中的2.37倍(Rebbeck, T.R.,等,^肌乂 //mw. Ge"e[ 67~力1014-19 (2000))。另一项研究描述了一个高前列腺癌发病率家族 中的新的终止突变(Glu216X)(Wang, L.,等,Ca"cer 6#/7力6494-99 (2001))。其它的报告没有证实与三个错义突变的强烈 相关性,并且最近的元分析表明,与这些突变相关的家族风险比在最 初报告中指出的要温和一些(Vesprini, D.,等, / Ge"e/. 6S(^):912-17 (2001); Shea, P.R.,等,//"m. 〃7(^-":398-400 (2002); Suarez, B.K.'等,C騰erM <5/(7":4982-84 (2001); Severi, G.,等,J 7Va仏Ca"cer/"W. 95(77」:818-24 (2003); Fujiwara, H.,等,J. Ge"w. 47(72」:641-48 (2002); Camp, N丄,等,Jm. //"m. GeW. 7/(^1:1475-78 (2002))。
参与雄激素作用的基因的多态性变异(例如雄激素受体(AR)基 因,细胞色素P-450cl7 (CYP17)基因和II型甾体-5-a-还原酶 (SRD5A2)基因)也已经被暗示与前列腺癌的增加的风险有关(Nelson, W.G.等,J Med 3邦(^):366-81 (2003))。对于编码雄激素受 体的AR来说,几项遗传流行病学研究已经显示了前列腺癌的增加的风 险与短的雄激素受体多聚谷氨酰胺重复的存在之间的相关性,然而其 它的研究不能检测到这样的相关性。y^J:。连锁数据也暗示,催化性 类固醇生物合成中的关键反应的CYP17的等位基因形式与前列腺癌相 关(Chang, B.等,O "cer 95:354-59 (2001))。编码前列腺中 5-a-还原酶的优势同工酶,其功能是将睾酮转化成更有效的二氢睾酮的 SRD5A2的等位基因变异,已经与前列腺癌的增加的风险和患有前列腺 癌的男性的不良的预后相关联(Makridakis, N.M.等,丄awcW "('975-78 (1999); Nam, R.K.等,57:199-204 (2001))。
简而言之,尽管经过了全世界许多研究组的努力,为绝大部分前 列腺癌风险负责的基因还没有被鉴定。尽管双生子研究表明遗传因素 在前列腺癌中可能是主要的,但仅仅鉴定到几个基因与前列腺癌的增 加的风险相关,并且这些基因仅占病例中的很低的比例。因此,显然 前列腺癌的大部分风险因子仍有待发现。有可能这些风险因子将包含 相当大量的低到中度风险的遗传变异。但是,这些低到中度风险的遗 传变异可能对绝大部分的前列腺癌负责,因此,它们的鉴定对公共卫 生有极大的益处。此外,还没有报道任何已公开的前列腺癌基因能够 预测出侵略性前列腺癌超出较低侵略性前列腺癌的更高的风险。
在最近的研究中,将含有前列腺癌患者的群体的扩展家谱信息与 强有力的基因共享方法相结合,对已经被证实在癌症(例如乳腺癌,前列腺癌,肺癌,黑色素瘤)中扮演了重要角色的染色体8q24.21上位 点迸行了作图。使用包含了 1100个微卫星标记物,平均标记物密度为 3-4 cM的基因组范围内的标记物组,对各种不同癌症患者以及他们的 亲属进行了基因分型(Amundadottir L.T.., A^,"re 3S「<5,:652-658 (2006))。在犹他州CEPH HapMap样品中,检测到了与128.414和 128.506 Mb (NCBIbuild34)位置之间的位点中的单个LD区块的相关 性。
乳腺癌在美国和全世界是女性的重要健康问题。尽管在该疾病的 检测和治疗方面已经作出了进展,但乳腺癌仍然是女性中与癌症相关 的死亡的第二主导原因,在美国每年侵染180,000以上的女性。对于北 美女性来说,在一生中患上乳腺癌的几率现在是八分之一。
目前尚没有通用的治疗或预防乳腺癌的成功方法。乳腺癌的控制 目前依赖于早期诊断(例如通过例行的乳腺筛查方法)和侵袭性治疗 的结合,侵袭性治疗可能包括多种治疗中的一种或多种,例如外科手 术,放疗,化疗和激素疗法。对于具体的乳腺癌来说,治疗过程通常 根据各种预后参数来进行选择,包括特异性肿瘤标记物的分析。参见 例如Porter-Jordan和Lippman, 5reaW Ca"cer 8:73-100 (1994)。
尽管BRCA1和BRCA2的发现是鉴定参与乳腺癌的关键遗传因子 中的重要步骤,但现在已经清楚,BRCA1和BRCA2中的突变仅能解 释对乳腺癌的一部分易感性(Nathanson, K丄.等,//mw朋Mo/. 70(7」:715-720 (2001); Anglican Breast Cancer Study Group. C薩er W(70」1301-08 (2000);以及Syrjakoski K.等,/ Omcer /w.
":1529-31 (2000))。尽管对乳腺癌的疗法进行了相当多的研究,但乳 腺癌仍然难以有效诊断和治疗,在乳腺癌患者中观察到的高死亡率表 明,在疾病的诊断,治疗和预防方面还需要改进。
在一项全国范围内对冰岛从1955年到2003年诊断的所有癌症病例的家族性研究中,deCODE已经证实了在乳腺癌病例的第一级到第五 级亲属中增加的乳腺癌风险(Amundadottir等,尸丄oS Med /f":e65 (2004); Lichtenstein P.等,TV.■/Med :78-85 (2000)),作
者在其中显示出,在接近45,000对双生子的群体中,乳腺癌是所有测 试的癌症中具有最高遗传性的癌症之一。
据估计,在女性中所有的乳腺癌中,只有5-10%与常染色体显性 基因例如BRCA1, BRCA2, p53, pTEN禾卩STK11/LKB1中的突变导致 的遗传易感性有关(Mincey, B.A. 0"co/og/W S:466-73 (2003))。已经 提出染色体8p上的一个遗传位点是乳腺癌易感性基因的位点,其基于 是有研究证实了在散发乳腺癌中该区域中存在等位基因缺失(Seitz, S. 等, / Oz"cer 76:983-91 (1997); Kerangueven, F.等,O"coge"e 70:1023 (1995))。研究也表明乳腺癌易感性基因可能位于13q21上 (Kai叫T.等,尸亂5W.固97:9603-08 (2000))。但是, 与前列腺癌相同,其它乳腺癌易感性基因的鉴定是困难的。
在世界范围内,肺癌导致的死亡比任何其它形式的癌症都要多 (Goodman, G.E., 7Tzora;c 57:994-999 (2002))。在美国,无论在男性还 是女性中,肺癌都是癌症死亡的首要原因。在2002年,肺癌导致的死 亡率据估计为134,900例死亡,超过乳腺癌,前列腺癌和结肠癌的总 和。肺癌在所有欧洲国家也是癌症死亡的主导原因,在发展中国家也 快速增长。尽管环境因素例如生活方式因素(例如吸烟)和饮食因素 在肺癌中扮演了重要角色,但遗传因素也对疾病有所贡献。例如,负 责致癌物活化,降解和随后的DNA修复的一类酶被暗示与肺癌的易感 性有关。研究显示,p53和RB/pl6途径中的缺陷对于肺上皮细胞的恶 性转化是必要的(Yokota, J.和T. Kohno, Oz匿,&〖.9柳197-204 (2004))。其它基因例如K-ras, PTEN和MY018B在肺癌细胞中遗传 变化的频率低于p53和RB/pl6,表明这些基因中的变化与进一步的恶 性发展或一部分肺癌细胞中的独特表型有关。在p53突变和RB/pl6缺 失的位点进行的分子足迹研究,进一步证实了在肺癌细胞中DNA修复活性和DNA双链断裂的非同源末端连接对于遗传变化的积累来说是重 要的。此外,研究鉴定到了候选的肺腺癌易感性基因,例如药物致癌
物代谢基因例如NQOl (NAD(P)H:醌氧化还原酶)禾。GSTT1 (谷胱 甘肽S-转移酶T1),以及DNA修复基因例如XRCC1 (X-射线交叉互 刮、'性纟且 1) (Yanagitani, N. 等,Ca"cer jEp/dew/o/. 5/omarA:en iVev. 72:366-71 (2003); Lin, P.等,r頻.co/.五聰'謂.58:187-97 (1999); Divine, K.K.等,MW。亡A仏4<5/:273-78 (2001); Sunaga, N.等, Ca"cer £^/t/em/o/. 5/ow。rfery iVev. ":730-38 (2002))。染色体19ql3.3 包含位点D19S246的区域,已经被建议含有与肺腺癌相关的基因 (Yanagitani, N. 等,Ctmcer五/ /c/emz'o/, _B/omarAers fVev. /2:366-71 (2003))。此外,通过分析在过去48年中在冰岛诊断的所有肺癌病例, deCODE的遗传学家们显示了核心家庭之外的家族成员的增加的风险。 这种增加的风险不能完全用吸烟来解释,表明遗传变异可能使某些个 体易患肺癌(Jonson等,X4M4 ,,2977-83 (2004); Amundadottir 等,尸ZoSM^/. 〃":e65 (2004))。
无论诊断时的疾病阶段如何,所有肺癌患者的5年存活率仅仅为 13%。这与疾病被检测到时仍在原位的病例中46%的5年存活率形成了 对比。但是,只有16%的肺癌在疾病扩散前被发现。早期诊断是困难 的,因为临床症状通常在疾病达到晚期后才能观察到。目前,通过使 用胸部X-射线,分析痰液中含有的细胞类型以及支气管光学纤维检查 来帮助诊断。治疗方式由癌症的类型和阶段所决定,包括外科手术, 放疗和/或化疗。尽管对这种以及其它的癌症的疗法进行了相当多的研 究,肺癌仍然难以有效诊断和治疗。因此,在本技术领域中存在着对 检测和治疗这些癌症的改进的方法的极大需求。
在北美,恶性黑色素瘤的发病率比任何其它类型的人类癌症增加 的更快(Armstrong等,Ca"cw 5Vv. 20:219-240 (1994))。尽管当 在早期阶段鉴定时,黑色素瘤是可治愈的,但需要在它扩散到远处位 点之前检测并移除原发肿瘤。恶性黑色素瘤具有极高的转移倾向,并对常规的癌症疗法例如化疗和—放射有显著的抗性。 一旦转移发生, 预后非常不良。因此,在黑色素瘤治疗和控制中,黑色素瘤的早期诊
断是至关重要的。
研究证实,遗传因素在正常色素细胞逐步发展到非典型的痣,再 到侵染性原发黑色素瘤,以及最后到具有侵略性转移能力的细胞的过
程中,扮演了重要角色(Kim, C丄,等,Ca"cw Co"&o/ :49-53 (2002))。例如,遗传畸变,诸如带有肿瘤抑制基因的1号染色体的重 排,可能与恶性黑色素瘤有关。但是,成年人皮肤的正常黑素细胞如 何转化成黑色素瘤细胞的分子和生物学机制仍不清楚。
各种研究显示遗传因素与黑色素瘤相关。例如,通过检查犹他州 人群数据库,注意到了早期发作的黑色素瘤的升高的家族性风险 (Cannon國Albright, L.A.,等,Omcer 5吖9力2378-85 (1994))。此 外,瑞典家庭癌症数据库报道了,在具有患病的父母或近亲的个体中, 皮肤恶性黑色素瘤(CMM)的家族标准化发病率(SIR)分别为2.54 和2.98。对于其父母患有多发性原初黑色素瘤的后代来说,SIR升高到 61.78 (Hemminki, K.,等, //"veW. DemK^o/. "0(9,217-23 (2003))。 在Amimdadottir等的基于冰岛人群的研究中(尸LoS ^3J:e65 (2004)),发现了相当的SIR值。尽管数字有所不同,但已报道大约 10%的CMM病例是家族性的(Hansen, C.B.,等,丄""ce/ (9"co/. 5(^):314-19 (2004))。由于黑色素瘤有已知的环境风险因素,除了遗传 学之外共享的环境可能影响了这些估算值。但是,家族性病例倾向于
具有较早的发作年龄和较高的多发性原发肿瘤的风险,表明了其中具 有遗传成份(参见例如Tucker M., O"coge"e "「26>」:3042-52 (2003))。 但是,正常黑素细胞如何转化成黑色素瘤细胞的分子和生物学机制, 仍不清楚。
一系列基于连锁的研究暗示Chr9p21上的CDKN2a是主要的 CMM易感性基因(Bataille, V"J. Ca"cw "降1341-47 (2003))。此后不久,CDK4被鉴定为途径候选物,但是,在全世界,CDK4的 突变仅仅在几个家族中被观察到(Zuo, L.,等,W处Ge"e/. "(7,97-99 (1996)) 。 CDKN2a编码周期蛋白依赖性激酶抑制剂p16,它抑制CDK4 和CDK6,从而阻止了从Gl期到S期的细胞周期转变。CKDN2a的另 一个转录本产生pl4ARF,它编码通过MDM2-p53途径起作用的细胞 周期抑制剂。可能CDKN2a突变型黑素细胞由于发育状态或对DNA损 伤作出相应,而缺少了细胞周期的控制或建立衰老(Ohtani, N.,等,J /"ve" 5/卩-力:146-53 (2004))。到80岁时,家族性CMM病例中 CDKN2a突变的总外显率为67%。但是,在黑色素瘤高度流行的地区, 外显率增加(Bishop, D.T"等, / 胸/. Ca"cer ,":894-903 (2002))。
黑色素瘤遗传学协会最近使用一组主要是澳大利亚人的与9p21 或CDK4不连锁的高风险家族,完成了对CMM的基因组范围的扫描 (Gillanders, E.,等,爿m. / //"m. 73(^」:301-13 (2003))。该10 cM
分辨率的扫描得出了在lp22区域中非参数性的多点LOD分值为2.06。 染色体4, 7, 14和18上的其它位置给出了超过l.O的LOD。使用针 对lp22的其它标记物并使用发病年龄的限制,观察到了超过5.0的非 参数性LOD分值。证据表明,在该位置中存在高外显率的肿瘤抑制基 因的突变,但是,LOH的图谱是复杂的(Walker, G丄,等,Ge"^ C7zr謹c^omes Ccmcer, 4/(7力56-64 (2004))。
另一个与CMM有关的遗传位点是编码黑素细胞皮质激素1受体 (MC1R)的位点。MC1R是G-蛋白偶联受体,参与促进从假黑色素 (pheomelanin)向真黑色素(eumelanin)合成的转变。已经发现大量 MC1R基因的已研究过性质的突变体与红发,白肤和雀斑倾向表型有 关。超过一半的红发个体带有至少一种这些MC1R变体(Valverde, P. 等,Waf. "(3力328-30 (1995); Palmer, J.S.等,/ /^m. C e"".
66(7力176-86 (2000))。后来,显示出同样的变体在单一变体时产生大 约2.0的CMM比值比,而在组合的杂合子时产生大约4.0的比值比。
26最近的研究显示,较强的MC1R变体增加了 CDKN2a突变的外显率, 并降低了发病年龄(Box, N.F.等,力w. / //mm. 69f"力:765-73 (2001); van der Velden, P.A.等,/im. J. i/"m. Ge""., (5Pf"":774-79 (2001))。
许多其它的候选基因被暗示与CMM有关。例如,癌症基因组学 中的一项划时代的研究在60%的黑色素瘤中鉴定出了 BRAF (v-raf鼠 肉瘤病毒致癌基因的人类Bl同源物)的体细胞突变(Davies, H.等, Nature 417(6892):949-54 (2002))。突变在典型的和非典型的痣中也是 常见的,表明突变是早期事件。^丄。生殖系突变还没有被报道,但 是,BRAF的生殖系SNP变体已经被暗示与CMM风险有关(Meyer, P. 等,/ O m'"og. 2(7力7 (2003))。其它通过相关研究鉴定的并被暗示与 CMM风险有关的候选基因包括例如XRCC3, XPD, EGF, VDR, NBS1, CYP2D6和GSTMl(Hayward, N.K., O"coge"e, "(^0力3053-62 (2003))。 但是,这些相关研究通常具有样品数少,依赖单一SNPs和潜在的群体 分层的问题。
显然,负责对具体形式的癌症(例如前列腺癌,乳腺癌,肺癌, 黑色素瘤,结肠癌,睾丸癌)的易感性的标记物和基因的鉴定,是目 前肿瘤学面对的主要挑战之一。某些在癌症下潜伏的途径在不同形式 的癌症中是共有的。因此,针对一种特定形式的癌症鉴定到的遗传风 险因子可能也代表了其它癌症类型的风险因子。因此,使用这些风险 因子的诊断和治疗方法可能具有通用性。因此,被开发的靶向这些风 险因子的治疗措施可能对癌症总体来说有意义,而不一定仅仅针对风 险因子最初从其中鉴定的癌症。对于用于对癌症具有遗传易感性的个 体进行早期检测,以便设立更具攻击性的筛查和干预方案进行癌症早 期诊断和治疗的鉴定手段,存在着需求。癌症基因也可以揭示出可以 被操纵的(例如使用小或大分子量药物)关键分子途径,可以导致产 生更有效的治疗,而不论具体的癌症首先被诊断出来时的癌症阶段。发明简述
正如本文所述,已经发现在染色体8q24.21的特定DNA片段中的 特定标记物单倍型对特定癌症易感性有指示作用。
第一方面,本发明涉及了用于在人类个体中诊断对癌症易感性的
方法,包括在从个体获得的核酸样品中测定至少一个多态性标记物的 至少一个等位基因的存在或不存在,其中至少一个多态性标记物与
SEQ ID NO:2有关,其中至少一个等位基因的存在是癌症易感性的指 示。在一个实施方案中,至少一个标记物与SEQ ID NO:l有关。在另 一个实施方案中,至少一个标记物位于其核苷酸序列显示在SEQ ID NO:2中的基因组区域内。在可选实施方案中,至少一个标记物位于其 核苷酸序列显示在SEQ ID NO:l中的基因组区域内。在一个优选实施 方案中,至少一个多态性标记物包括选自表5A, 5B和5C中显示的标 记物组中的至少一个标记物。
由于连锁不平衡的性质,本发明可以使用各种不同的处于连锁不 平衡中的多态性标记物来实施。因此,在另一个实施方案中,至少一 个标记物包括Chr8q24.21中与一个或多个选自表4A和4B中显示的标 记物的标记物强烈连锁不平衡的至少一个标记物,强烈连锁不平衡由 |0'|>0.8和/或一>0.2定义。在另一个实施方案中,至少一个多态性标 记物与HapC连锁不平衡。在一个优选实施方案中,至少一个标记物是 标记物rsl6901979 (SEQIDNO:73)以及与其连锁不平衡的标记物。 在另一个优选实施方案中,至少一个标记物选自表4A和4B中显示的 标记物。
在本发明的某些实施方案中,诊断癌症易感性的方法还包括评估 该个体中至少一个单倍型的频率。在一个这样的实施方案中,单倍型 包含标记物rsl456314等位基因G, rsl7831626等位基因T, rs7825414 等位基因G, rs6993569等位基因G, rs6994316等位基因A, rs6470494 等位基因T, rsl016342等位基因C, rsl031588等位基因G, rsl016343等位基因T, rsl551510等位基因G, rsl456306等位基因C, rsl378897 等位基因G, rsl456305等位基因T, rs7816535等位基因G。
在本发明的某些实施方案中,易感性用相对风险(RR)的值表示。 在其它实施方案中,易感性用比值比(OR)表示。在诊断癌症易感性 方法的某些实施方案中,易感性是增加的易感性,其特征为RR或OR 值大于l。在其它实施方案中,易感性是减小的易感性,其特征为RR 或OR值小于l。在本发明的具体实施方案中,增加的易感性的特征为 相对风险为至少1.5,包括相对风险至少1.7,相对风险至少2.0,相对 风险至少2.5,相对风险至少3.0,相对风险至少3.5,和相对风险至少 4.0。其它实施方案的特征为相对风险为至少1.75, 2.25, 2.75, 3.25, 3.75等。但是,其它相对风险值也在本发明的范围内。
在本发明的某些其它实施方案中,发现某些等位基因或单倍型在 患者中的频率低于在人群中的频率。因此,发现某些等位基因或单倍 型在被诊断患有具体癌症(例如前列腺癌)或具有患具体癌症风险的 个体中的频率低于在总人群中的频率。这种标记物是针对癌症的保护,.
或对发生这些疾病的降低的易感性的指示。在具体的实施方案中,降 低的易感性的特征为相对风险小于0.7,包括相对风险小于0.6,相对 风险小于0.5,相对风险小于0.4,相对风险小于0.35,相对风险小于 0.3和相对风险小于0.25。但是,其它表征降低的易感性或减小的风险 的相对风险值也是可能的,并在本发明的范围内,包括但不限于小于 0.8,小于0.75'小于0.65'小于0.55'小于0.45,小于0.20,等等。
在本发明方法的具体实施方案中,至少一个标记物或单倍型包括 rsl6901979等位基因1,该至少一个标记物或单倍型赋予了对癌症的增 加的易感性。在另一个这样的实施方案中,至少一个标记物或单倍型 是标记物rsl6901979等位基因1。在本发明方法的另一个具体实施方 案中,至少一个标记物或单倍型包括rsl6901979等位基因2,该至少 一个标记物或单倍型赋予了对癌症的增加的易感性。在另一个这样的实施方案中,至少一个标记物或单倍型是标记物rsl6901979等位基因 2。
在本发明方法的某些实施方案中,癌症选自前列腺癌,结肠癌, 乳腺癌,睾丸癌,肺癌和黑色素瘤癌症。在优选实施方案中,癌症是 前列腺癌。
在一个实施方案中,前列腺癌是由组合Gleason分值7(4+3)-10定 义的侵略性前列腺癌。在另一个实施方案中,前列腺癌是由组合Gleason 分值2-7(3+4)定义的侵略性较低的前列腺癌。在一个实施方案中,至少 一个标记物或单倍型是更具侵略性的前列腺癌和/或更糟的预后的指 示。
本发明的另一个实施方案涉及作为对象对具体治疗模式的不同反 应率的指示的标记物或单倍型的存在。在另一个实施方案中,至少一
个标记物或单倍型的存在表明了在肿瘤或其前体中Chr8q24.21的体细 胞重排的倾向性。在一个这样的实施方案中,体细胞重排选自扩增, 易位,插入和缺失。
在某些实施方案中,本发明的方法,应用和试剂盒可以涉及具有 特定血统的个体。因此。在本发明的一个实施方案中,个体具有特定 的血统。在另一个实施方案中,血统是非洲黑人血统。正如在本文中 进一步详细描述的那样,通过本发明的方法评估其它个体的血统也是 可能的,并且也在本发明的范围内。在一个实施方案中,血统是自己 报告的。在另一个实施方案中,血统是通过在个体的样品中检测至少 一个多态性标记物的至少一个等位基因来确定的,其中等位基因的存 在或不存在是个体血统的指示。
另一方面,本发明涉及用于评估癌症易感性的标记物的鉴定方法, 该方法包括a. 鉴定SEQ ID NO:2中的至少一个多态性标记物,或与其连锁不 平衡的至少一个多态性标记物;
b. 确定被诊断患有前列腺癌或具有前列腺癌易感性的个体的样品 的基因型状态;以及
c. 确定对照个体样品的基因型状态;
其中在被诊断患有前列腺癌或具有前列腺癌易感性的个体中至少 一个等位基因在至少一种多态性上的频率,与对照样品中至少一个等 位基因的频率相比的显著差异,表明至少一种多态性可用于评估对癌 症的易感性。
在一个具体的实施方案中,连锁不平衡的特征为r2的数值大于0.2 禾口/或ID'l大于0.8。在另一个实施方案中,至少一个多态性标记物与 HapC和/或标记物rsl6901979连锁不平衡,其特征为r2的数值大于0.2 和/或ID'l大于0.8。在另一个实施方案中,在被诊断患有癌症或具有癌 症易感性的个体中至少一个等位基因在至少一种多态性上的频率,与 对照样品中至少一个等位基因的频率相比的增加,表明至少一种多态 性可用于评估对癌症的增加的易感性。在另一个实施方案中,在被诊 断患有剥脱性综合症或具有剥脱性综合症易感性的个体中至少一个等 位基因在至少一种多态性上的频率,与对照样品中至少一个等位基因 的频率相比的降低,表明至少一种多态性可用于评估对癌症的减小的 易感性或针对癌症的保护。
另一方面,本发明涉及了对从具有癌症风险或被诊断患有癌症的 人类个体获得的核酸样品进行基因分型的方法,包括确定样品中至少 一个多态性标记物的至少一个等位基因的存在或不存在,其中至少一 个标记物选自表4A和4B中显示的标记物以及与其连锁不平衡的标记 物,其中至少一个多态性标记物的至少一个等位基因的存在或不存在 是癌症易感性的指示。在一个实施方案中,至少一个标记物是 rsl6901979 (SEQIDNO:73)以及与其连锁不平衡的标记物。在另一个 实施方案中,连锁不平衡由^的数值至少0.2和/或ID'l的数值至少0.8来确定。在另一个实施方案中,基因分型包括使用位于至少一个多态 性标记物侧翼的核苷酸引物对,通过聚合酶链反应(PCR)来扩增含有 至少一个多态性标记物的核酸片段。在另一个实施方案中,基因分型 使用选自等位基因特异性探针杂交,等位基因特异性引物延伸,等位 基因特异性扩增,核酸测序,5'-外切核酸酶消化,分子信标分析,寡 核苷酸连接分析,大小分析以及单链构象分析的方法来进行。在一个 这样的实施方案中,方法包括等位基因特异性探针杂交。在另一个实
施方案中,方法包括核酸测序。在另一个实施方案中,核酸测序是DNA测序。
本发明的基因分型方法的一个实施方案包括下列步骤 1)将核酸的拷贝与检测寡核苷酸探针和增强子寡核苷酸探针在 允许寡核苷酸探针与核酸特异性杂交的条件下相接触;其中
a) 检测寡核苷酸探针长度为5-100个核苷酸,并与含有至少一个多 态性位点,其核苷酸序列在SEQ ID NO:2中给出的核酸的第一个片段 特异性杂交;
b) 检测寡核苷酸探针在其3'末端含有可检测标记,在其5'末端含 有淬灭基团;
c) 增强子寡核苷酸长度为5-100个核苷酸,并与相对于寡核苷酸探 针5'方向的核苷酸序列的第二个片段互补,以便当这两个寡核苷酸都 与核酸杂交时,增强子寡核苷酸位于检测寡核苷酸的3'方向;以及
d) 在第一个片段和第二个片段之间存在单个碱基缺口,使得当寡
核苷酸探针和增强子寡核苷酸探针都与核酸杂交时,在寡核苷酸之间 存在单个碱基缺口;
2) 使用当检测探针与核酸杂交时将从检测探针的3'末端裂解可 检测标记以释放游离的可检测标记的核酸内切酶处理核酸;以及
3) 测量游离的可检测标记,其中游离的可检测标记的存在表明 检测探针与核酸的第一个片段特异性杂交,并表明多态性位点的序列 与检测探针互补。在具体的实施方案中,核酸的拷贝通过聚合酶链反应(PCR)扩 增来提供。在某些实施方案中,被检测的易感性是增加的易感性。在 其它实施方案中,易感性是降低的易感性。在具体的实施方案中,癌 症选自前列腺癌,结肠癌,乳腺癌,肺癌,睾丸癌和黑色素瘤。在优 选实施方案中,癌症是前列腺癌。在一个这样的实施方案中,前列腺
癌是由组合Gleason分值7(4+3)-10定义的侵略性前列腺癌。在另一个 这样的实施方案中,前列腺癌是由组合Gleason分值2-7(3+4)定义的侵 略性较低的前列腺癌。
在某些实施方案中,用于评估癌症易感性的标记物的鉴定方法和 基因分型的方法,施用在具有特定血统的个体上。 一个这样的实施方 案中,血统是非洲黑人血统。正如在本文中详细描述的那样,其它血 统也在本发明的范围内。在一个实施方案中,血统是自己报告的。在 另一个实施方案中,血统是通过在个体的样品中检测至少一个多态性 标记物的至少一个等位基因来确定的,其中等位基因的存在或不存在 是个体血统的指示。
本发明的另一方面涉及用于评估个体对预防和/或缓解与癌症相 关的症状的治疗剂的反应的可能性的方法,包括在从个体获得的核 酸样品中确定至少一个多态性标记物的至少一个等位基因的存在或不 存在,其中至少一个多态性标记物选自表5A, 5B和5C中列出的多态 性标记物,以及与其连锁不平衡的标记物,其中至少一个标记物的至 少一个等位基因的存在,表明对与剥脱性综合症和/或青光眼有关的症 状的治疗药剂作出阳性反应的可能性。本发明的另一方面涉及预测被 诊断患有癌症的个体的预后的方法,该方法包括确定从个体获得的核 酸样品中至少一个多态性标记物的至少一个等位基因的存在或不存 在,其中至少一个多态性标记物选自表5A, 5B和5C中列出的多态性 标记物,以及与其连锁不平衡的标记物,其中至少一个等位基因的存 在表明了个体中癌症的更糟的预后。本发明的另一方面涉及监测经历 癌症治疗的个体的治疗进展的方法,该方法包括确定从个体获得的核酸样品中至少一个多态性标记物的至少一个等位基因的存在或不存
在,其中至少一个多态性标记物选自表5A, 5B和5C中列出的多态性
标记物,以及与其连锁不平衡的标记物,其中至少一个等位基因的存 在表明了个体的治疗结果。在这些方面的任何一种情况下,在一个实
施例中,至少一个多态性标记物是rsl6901979 (SEQIDNO:73)以及 与其连锁不平衡的标记物。在另一个实施方案中,连锁不平衡由—的 数值为至少0.2和/或P'l的值为至少0.8来定义。在一个优选实施方案 中,癌症是前列腺癌。在一个这样的实施方案中,前列腺癌是由组合 Gleason分值7(4+3)-10定义的侵略性前列腺癌。在另一个实施方案中, 前列腺癌是由组合Gleason分值2-7(3+4)定义的侵略性较低的前列腺 癌°
本发明的方法可以照原样使用。在某些实施方案中,方法还可以 与在本文描述的方法中其他有用的方法组合使用。在一个这样的实施 方案中,方法还包括评估个体的样品中的至少一种生物标记物。生物 标记物可以是在本文描述的方法的基础上可用于帮助作出任何决定的 任何生物标记物。在一个实施方案中,生物标记物是PSA。在另一个 实施方案中,样品是血液样品或癌症活检样品。但是,其它可用于实 施本发明的样品类型也被考虑到了,并包含在本发明的范围内,例如 其它体液或来自任何人类组织类型的组织样品。
本发明的方法的其它实施方案还包括分析个体的非遗传信息以进 行风险评估,诊断或预后。在一个实施方案中,非遗传信息选自年龄, 性别,种族,社会经济状况,以前的疾病诊断,对象的医学史,癌症 的家族史,生物化学测量和临床测量。在优选实施方案中,该方法还 包括根据遗传和非遗传信息计算总风险。
本发明的另一方面涉及用于在人类个体中评估癌症易感性的试剂 盒,试剂盒含有选择性检测个体的基因组中至少一个多态性标记物的 至少一个等位基因的试剂,其中多态性标记物选自其序列显示在SEQ
34INN0:2中的片段中的多态性标记物,以及与其连锁不平衡的标记物,
其中至少一个等位基因的存在表明了对癌症的易感性。在一个实施方
案中,试剂盒含有至少一种选自表5A, 5B和5C中显示的标记物的多 态性标记物,以及与其连锁不平衡的标记物。在另一个实施方案中, 至少一个多态性标记物选自表4A和4B中显示的标记物。在一个优选 实施方案中,至少一个多态性标记物选自rsl6901979 (SEQIDNO: 73) 以及与其连锁不平衡的标记物。在另一个实施方案中,至少一个多态 性标记物是rsl6901979。在一个实施方案中,连锁不平衡由一的数值 为至少0.2和/或ID'l的值为至少0.8来定义。在另一个实施方案中,癌 症选自前列腺癌,结肠癌,乳腺癌,睾丸癌,肺癌和黑色素瘤癌症。 在优选实施方案中,癌症是前列腺癌。在一个这样的实施方案中,前 列腺癌是由组合Gleason分值7(4+3)-10定义的侵略性前列腺癌。在另 一个实施方案中,前列腺癌是由组合Gleason分值2-7(3+4)定义的侵略 性较低的前列腺癌。
本发明的试剂盒可用于本文描述的本发明的任何方法。因此,含 有本文描述的用于特异性检测至少一个多态性标记物的至少一个等位 基因的试剂的试剂盒,可用于实施本文描述的任何方法,这对于专业 技术人员来说将是显然的。
在本发明的试剂盒的一个实施方案中,试剂含有至少一个与个体 的基因组的含有至少一个多态性标记物的片段杂交的邻接的寡核苷 酸,缓冲液和可检测标记。在一个实施方案中,试剂含有至少一对与 从对象获得的基因组核酸片段的反向链杂交的寡核苷酸,其中每个寡 核苷酸引物对被设计成能选择性扩增个体的基因组中包含一个多态性 标记物的片段,其中片段的大小为至少30个碱基对。在优选实施方案 中,至少一个寡核苷酸与个体的基因组完全互补。在另一个实施方案 中,寡核苷酸的长度为大约18到大约50个核苷酸。在另一个实施方 案中,寡核苷酸的长度为20-30个核苷酸。在本发明的试剂盒的一个优选实施方案中,试剂盒含有
a. 长度为5-100个核苷酸的检测寡核苷酸探针;
b. 长度为5-100个核苷酸的增强子寡核苷酸探针;以及 C.内切核酸酶;
其中检测寡核苷酸探针与其核苷酸序列在SEQ ID NO: 2中给出的 核酸的含有至少一个多态性位点的第一个片段特异性杂交;并且
其中检测寡核苷酸探针在其3'末端含有可检测标记,在其5'末端 含有淬灭基团;
其中增强子寡核苷酸长度为5-100个核苷酸,并与相对于寡核苷 酸探针5'方向的核苷酸序列的第二个片段互补,以便当两个寡核苷酸 都与核酸杂交时,增强子寡核苷酸位于检测寡核苷酸探针的3'方向;
其中在第一个片段和第二个片段之间存在单个碱基缺口,使得当 寡核苷酸探针和增强子寡核苷酸探针都与核酸杂交时,在寡核苷酸之 间存在单个碱基缺口;以及
其中当检测探针与核酸杂交时,使用内切核酸酶处理核酸将从检 测探针的3'末端裂解可检测标记以释放游离的可检测标记。
本发明的另一方面涉及寡核苷酸探针在制造用于在人类个体中诊 断和/或评估癌症易感性的诊断试剂中的应用,其中探针与其核苷酸序 列在SEQ ID NO: 2中给出的核酸的含有至少一个多态性位点的片段杂 交,其中片段的长度为15-500个核苷酸。在一个实施方案中,多态性 位点选自表5A, 5B和5C中显示的多态性标记物,以及与其连锁不平 衡的多态性。在另一个实施方案中,多态性位点是rs16901979 (SEQID NO: 73)。在一个实施方案中,癌症选自前列腺癌,结肠癌,乳腺癌, 睾丸癌,肺癌和黑色素瘤癌症。在优选实施方案中,癌症是前列腺癌。 在一个这样的实施方案中,前列腺癌是由组合Gleason分值7(4+3)-10 定义的侵略性前列腺癌。在另一个实施方案中,前列腺癌是由组合 Gleason分值2-7(3+4)定义的侵略性较低的前列腺癌。
另一方面,本发明涉及了计算机可读介质,其中储存有a. 至少一个多态性标记物的识别符;
b. 该至少一个多态性标记物的至少一个等位基因在多个被诊断患
有癌症的个体中的频率的指示符;以及
C.该至少一个多态性标记物的至少一个等位基因在多个参比个体 中的频率的指示符;
其中至少一个多态性标记物选自表5A, 5B和5C中显示的多态性
标记物,以及与其连锁不平衡的多态性。
在一个实施方案中,多态性位点是标记物rsl6901979 (SEQ ID NO:73),以及与其连锁不平衡的标记物,它们由r2的数值为至少0.2 和/或ID'l的值为至少0.8所定义。在另一个实施方案中,癌症选自前列 腺癌,结肠癌,乳腺癌,睾丸癌,肺癌和黑色素瘤癌症。在优选实施 方案中,癌症是前列腺癌。在一个这样的实施方案中,前列腺癌是由 组合Gleason分值7(4+3)-10定义的侵略性前列腺癌。在另一个实施方 案中,前列腺癌是由组合Gleason分值2-7(3+4)定义的侵略性较低的前 列腺癌。
在某些实施方案中,本发明的计算机可读的介质可含有与多个个 体的血统有关的信息。在另一个实施方案中,被诊断患有癌症的多个 个体和多个参比个体具有特定的血统。在一个实施方案中,血统是非
洲黑人血统。在另一个实施方案中,血统是自己报告的。在另一个实 施方案中,血统是通过对多个多态性标记物进行基因分型以评估血统 而在遗传上确定的,正如在本文中进一步描述的那样。
本发明还涉及了用于在人类个体中测定遗传指示符的装置,包含:
计算机可读内存以及 储存在计算机可读内存中的例行程序;
其中例行程序适用于在处理器上执行,以分析至少一个人类个体 的至少一个多态性标记物的标记物和/或单倍型信息,其中该至少一个
多态性标记物选自表5A, 5B和5C中显示的标记物以及与其连锁不平衡的标记物,并根据标记物或单倍型信息产生输出,其中输出包括作
为人类个体的癌症遗传指示符的至少一个标记物或单倍型的风险测
量。在一个实施方案中,例行程序还包含多个被诊断患有癌症的个体 中至少一个多态性标记物或至少一个单倍型的至少一个等位基因的频
率的指示符,以及多个参比个体中至少一个多态性标记物或至少一个 单倍型的至少一个等位基因的频率的指示符,其中风险测量是基于人 类个体的至少一个标记物和/或单倍型状态与多个被诊断患有癌症的个 体的至少一个标记物和/或单倍型信息的频率指示符的比较。
在一个实施方案中,至少一个多态性标记物是rsl6901979(SEQ ID NO:73)以及与其连锁不平衡的标记物,它们由—的数值为至少0.2和 /或ID'I的值为至少0.8所定义。在另一个实施方案中,风险测量用比值 比(OR)和相对风险(RR)来表征。
附图简述
从下面对本发明的优选实施方案的更具体的描述并参考随附的图 的说明,本发明的上述以及其它的目标,特点和优点将变得明显。


图1描绘了 Chr8q24.21 LD区块C区域中的LD结构(HAPMAP)。 高加索人(CEU)的LD结构显示在(A)中,来自约鲁巴人(YRI) 的非洲人的LD结构显示在(B)中。粗的对角线表示LD区块C(SEQ IDNO:l)的位置。每个标记物以连续的顺序显示,两个相邻标记物之 间的距离相等。
图2描绘了 Chr8q24.21区域中LD区块C, (SEQ ID NO:2)的LD 结构。确定的LD区块与LD区块C重叠,表示对本文描述的与前列 腺癌相关的变体所位于的区域进行的精确的分析。高加索人(CEU) 的LD结构显示在(A)中,而来自约鲁巴人(YRI)的非洲人的LD结 构显示在(B)中。粗的对角线表示LD区块C的位置。每个标记物以 连续的顺序显示,两个相邻标记物之间的距离相等。
发明详述定义
在本发明的文本中,下面的术语将具有所指的意义.-本文描述的"多态性标记物",有时被称为"标记物",是指基 因组多态性位点。每种多态性标记物具有至少两个序列变体,代表了 具体的等位基因在多态性位点处的特征。因此,与多态性标记物的关 联表明存在与该具体多态性标记物的至少一个特定等位基因的关联。 标记物可以含有在基因组中发现的任何变体类型的任何等位基因,包 括单核苷酸多态性(SNPS),微卫星,插入,缺失,重复和易位。
"等位基因"是指染色体上给定位点(位置)的核苷酸序列。因 此,多态性标记物等位基因是指染色体上标记物的组成(即序列)。
来自个体的基因组DNA对于任何给定的多态性标记物来说含有两个等 位基因,代表了每条染色体上标记物的每个拷贝。
在本文中,在群体中(自然群体或合成的群体,例如合成分子的 文库)其上可能存在一种以上序列的核苷酸位置被称为"多态性位点"。
"单核苷酸多态性"或"SNP"是当基因组中特定位置上的单个 核苷酸在物种的成员之间或一个个体中成对的染色体之间不同时所发 生的DNA序列变异。大多数SNP多态性具有两个等位基因。在这种 情况下,每个个体或者是多态性的一个等位基因的纯合子(即个体的 两个染色体拷贝在SNP位置处具有同样的核苷酸),或者个体是杂合 子(即个体的两条姊妹染色体含有不同的核苷酸)。在本文中报告的 SNP的命名是指官方的参考SNP (rs) ID身份标签,是由国家生物技术 信息中心(NCBI)指定给每个独特的SNP的。
本文描述的"变体"是指与参比DNA不同的DNA区段。"标记 物"或"多态性标记物"按照本文的定义,是变体。与参比不同的等 位基因被称为"变体"等位基因。
39本文描述的核苷酸或蛋白"片段",包括核苷酸或蛋白的全部或 一部分。
本文描述的"动物"是指任何家畜(例如猫,狗等),农用动物 (例如牛,马,绵羊,鸡等)或实验动物(例如兔,小鼠,大鼠等),
也包括人类。
本文描述的"微卫星"是在特定位点具有多个小的长度为2-8个
核苷酸的碱基重复(例如CA重复)的多态性标记物,其中重复长度的
数量在总群体中是变化的。
本文描述的"插入缺失(indel)"是常见的多态性形式,含有一 般只有几个核苷酸长的小的插入或缺失。
本文描述的"单倍型"是指一条DNA链中的一段基因组DNA, 其特征为沿着区段排列有等位基因的特定组合。对于二倍体生物例如 人类来说,单倍型含有每个多态性标记物或位点的等位基因对的一个 成员。在某些实施方案中,单倍型可以含有两个或两个以上等位基因, 三个或三个以上等位基因,四个或四个以上等位基因,或五个或五个 以上等位基因。
本文描述的术语"易感性"包含了增加的易感性和降低的易感性。 因此,本发明的具体的多态性标记物和/或单倍型的特征可以是青光眼 的增加的易感性(即增加的风险),被表征为相对风险(RR)大于l。 或者,本发明的标记物和/或单倍型的特征在于是青光眼的降低的易感 性(即降低的风险),被表征为相对风险小于l。
本文描述的"核酸样品"是从个体获得的含有核酸(DNA或RNA) 的样品。在某些实施方案,即在特定多态性标记物和/或单倍型的检测 中,核酸样品包含基因组DNA。这样的核酸样品可以从任何含有基因组DNA的来源获得,包括例如血液样品,羊水样品,脑脊液样品,或 来自皮肤,肌肉,口腔或结膜粘膜(口腔拭子),胎盘,胃肠道或其 它器官的组织样品。
本文使用的"Chr8q24.21"和"8q24.21"是指染色体条带8q24.21, 粗略对应于UCSC Build 34 (来自于www.genome.ucsc.edu的UCSC基 因组浏览器Build 34)中的127,200,001-131,400,000 bp位置。
本文使用的"LD区块C"是指Chr8q24.21上的LD区块,在其中 观察到了变体与癌症,即前列腺癌,乳腺癌,肺癌和黑色素瘤的相关 性。该LD区块的NCBI Build 34位置是从128,032,278到128,094,256 bp (SEQIDNO:l)。
本文使用的"LD区块C,"是指Chr8q24.21上的LD区块,在其中 可以优选检测到变体与癌症的相关性。该LD区块的NCBI Build 34位置 是从128,029,113到128,126,447,其序列显示在SEQ ID N0:2 Bp中。在 NCBI Builds 35和36中,该区域的位置是从128,141,706位到128,239,040 位。LD区块C,区域在Builds 34, 35和36中是相同的,总跨度为97,335 bp。
在本文描述的术语"非洲血统"是指个体自己报告的非洲血统。
术语"癌症治疗药剂"是指可用于缓解或预防与癌症(即前列腺 癌,乳腺癌,肺癌和/或黑色素瘤)相关的症状的药剂。
术语"与SEQ IDN0:2相关","与SEQ ID NO:l相关","与 LD区块C相关"和"与LD区块C'相关",是指那些与SEQ IDNO:2, SEQ ID NO:l, LD区块C和LD区块C'代表的基因组区段连锁不平衡 (LD)的DNA区段(例如多态性标记物)。在某些实施方案中,这些 DNA区段与SEQ ID NO:2, SEQIDNO:l, LD区块或LD区块C,中的 一个或多个标记物连锁不平衡,测量到的ID'I值大于0.8和/或1"2值大于0.2。
与Ow^《^/.2/游关凝
正如上面讨论的,最近已经报道了与染色体8q24.21的连锁以及 与连锁区域中连锁不平衡(LD)区块的关联。正如本文描述的,现在 令人吃惊地发现,在染色体8q24.21区域中外延的LD (即另一个LD 区块)的另一个DNA区段中也存在有与癌症相关的变体(标记物和/ 或单倍型)。检测到的关联性不依赖于以前在该区域中检测到的关联 性,这是令本发明人吃惊的结果。在本发明的一个实施方案中,关联 性通过单倍型HapC检测,它含有标记物rsl456314等位基因G, rsl7831626等位基因T, rs7825414等位基因G, rs6993569等位基因G, rs6994316等位基因A, rs6470494等位基因T, rsl016342等位基因C, rsl031588等位基因G, rsl016343等位基因T, rsl551510等位基因G, rsl456306等位基因C, rsl378897等位基因G, rsl456305等位基因T 和rs7816535等位基因G。当与其它与人类性状有关的变体一起时,可 以描述到大量的替代变体(标记物和/或单倍型)。对于HapC来说一 个这样的替代标记物是标记物rsl6901979。最可能带有替代变体的区 域通常被定义为外延连锁不平衡区域,即本文中进一步描述的所谓连 锁不平衡区块(LD区块)。在一个实施方案中,含有与癌症相关的变 体的LD区块是序列显示在SEQ ID NO:l中的LD区块C。对本发明人 最初检测到的信号进行进一步精炼后,将染色体8q24.21上两个重组热 点之间的区域定义为LD区块C'。热点位于染色体8上大约128,029,113 和128,126,447的位置,由此确定的区域显示在SEQ ID NO:2中。HapC 的替代标记物和/或单倍型rsl6901979可以在所定义的任一个LD区块 (即SEQ ID NO:l和SEQ ID NO:2)中发现,并将在本文中进一步详 细描述。
在本发明的各种不同实施方案中,使用本文描述的方法鉴定的某 些标记物和/或单倍型,可用于诊断对癌症(例如前列腺癌)的增加的 易感性,也可用于诊断对癌症(例如前列腺癌)的降低的易感性,即用于鉴定对癌症(例如前列腺癌)具有保护性的变体。下面描述的诊 断分析方法可用于鉴定这些具体变体的存在或不存在。
Gleason评分时最经常使用的前列腺癌分级系统(DeMarzo, A.M. 等,la"ce"W:955-64 (2003))。该系统是基于发现了前列腺癌的预后 介于癌症的最优势型和第二优势型的预后之间。从前列腺肿瘤的组织 学样品中鉴定这些优势的和第二普遍的型,对每种进行评分,从l (分 化最高的)到5 (分化最低的),并将两个分值相加。因此,组合的 Gleason级别,也被称为Gleason总和或分值,范围从2(1型的一致肿 瘤)到10 (未分化的肿瘤)。许多具有不同型的病例,特别是在穿刺 活检的样品上,型的差异不会超过一个型。
Gleason分值是预后指示符,其中主要的预后转变在6和7之间, 因为Gleason分值7的肿瘤表现得更糟,与分值5或6的肿瘤相比导致 更高的发病率和更高的死亡率。分值7的肿瘤还可以被细分为3+4或 4+3 (第一个数字是活检肿瘤样品中的优势组织学亚型,第二个数字是 次优势组织学亚型),其中分值4+3与更糟的预后相关。患者的Gleason 分值也可以影响到治疗选择。例如,在穿刺活检样品上具有有限量的 Gleason分值5-6并具有低PSA浓度的较年轻男性可以仅仅进行监测, 而Gleason分值为7或以上的男性通常需要接受主动管理。在表1中, 显示了侵略性前列腺癌(即组合Gleason分值为7(只包括4+3)到10所 表明的)和较低侵略性前列腺癌(即组合Gleason分值为2到7(只包括 3+4)所表明的)的单倍型频率和相关的风险。但是,Gleason分值不 是预后的完善的预测指示符。因此,具有低Gleason分值肿瘤的患者仍 然可能患有高侵略性前列腺癌(由肿瘤超出了前列腺局部或通过远处 转移来定义)。
在本文描述的某些方法中,具有癌症(例如前列腺癌(侵略性或 高Gleason等级前列腺癌,低侵略性或低Gleason等级前列腺癌))风 险(增加的易感性)的个体,是被鉴定到风险标记物或单倍型的个体。在一个实施方案中,标记物或单倍型关联的强度由相对风险(RR)来 度量。RR是带有一个拷贝的标记物或单倍型的对象中病症的发生率与 不带有标记物或单倍型的对象中病症的发生率之间的比率。该比率等 价于带有两个拷贝的标记物或单倍型的对象中病症的发生率与带有一 个拷贝的标记物或单倍型的对象中病症的发生率之间的比率。
在一个实施方案中,本发明是诊断对前列腺癌(例如侵略性或高
Gleason等级前列腺癌,低侵略性或低Gleason等级前列腺癌)易感性 的方法,包括检测与LD区块C相关的标记物或单倍型(例如表5中 显示的标记物或单倍型,具有大于1的相对风险(RR)值表明标记物 与疾病的增加的易感性/疾病的增加的风险有关,因此是"有风险"变 体;具有小于1的RR值的标记物或单倍型表明标记物与疾病的降低的 易感性/疾病的降低的风险有关,因此是"保护性"变体),其中标记 物或单倍型的存在是对前列腺癌易感性的指示。
在另一个实施方案中,本发明是诊断对前列腺癌(例如侵略性或 高Gleason等级前列腺癌,低侵略性或低Gkason等级前列腺癌)易感 性的方法,包括检测标记物rsl6901979。在一个实施方案中,易感性 是增加的易感性,其中标记物rsl6901979处1等位基因的存在是对前 列腺癌的增加的易感性的指示。在另一个实施方案中,本发明是在其 血统包括非洲血统的个体中诊断对前列腺癌增加的易感性的方法,包 括检测标记物rsl6901979,其中标记物rsl6901979处1等位基因的存 在是对前列腺癌的增加的易感性或前列腺癌增加的风险的指示。在具 体的实施方案中,与前列腺癌易感性有关的标记物或单倍型具有至少 1.3的相对风险,例如至少1.5或至少1.7或至少2.0。在另一个实施方 案中,前列腺癌是侵略性前列腺癌,由组合Gleason分值为7(4+3)到 10所定义,和/或前列腺癌的晚期阶段(例如2到4期)。在另一个实 施方案中,前列腺癌是较低侵略性前列腺癌,由组合Gleason分值为2 到7(3+4)所定义,和/或前列腺癌的早期阶段(例如l期)。在另一个 实施方案中,与LD区块C有关的标记物或单倍型的存在,以及对象具有大于4 ng/ml的PSA水平,表明了更具侵略性的前列腺癌和/或更 糟的预后。在另一个实施方案中,在具有正常PSA水平(例如小于4 ng/ml)的患者中,标记物或单倍型的存在表明了更具侵略性的前列腺 癌和/或更糟的预后。
在另一个实施方案中,本发明是诊断对前列腺癌降低的易感性的 方法,包括检测与LD区块C有关的标记物或单倍型,其中该标记物 或单倍型的存在是对前列腺癌降低的易感性或针对前列腺癌的保护性 标记物或单倍型的指示。因此,在一个实施方案中,易感性是降低的 易感性,其中标记物rsl6901979处等位基因2的存在表明了对前列腺 癌的降低的易感性。在另一个实施方案中,本发明是在其血统包含非 洲人血统的个体中诊断对前列腺癌降低的易感性的方法,包括检测标 记物rsl6901979,其中标记物rsl6901979处s等位基因的存在是对前 列腺癌降低的易感性或前列腺癌降低的风险的指示。
本发明的染色体8q24.21上的区段已经被发现在其他形式的癌症 中扮演重要角色,例如乳腺癌,结肠癌,肺癌和黑色素瘤。已经发现, 在乳腺癌对象中,区域中特定DNA区段中特定的标记物和/或单倍型存 在的频率高于预期频率。因此,在一个实施方案中,本发明是诊断对 选自乳腺癌,结肠癌,肺癌和黑色素瘤的癌症的增加的易感性的方法, 包括检测与序列显示在SEQ ID NO:l或SEQ ID NO:2中的基因组区段 有关的标记物或单倍型,其中标记物或单倍型的存在是对癌症(例如 乳腺癌,结肠癌,肺癌和黑色素瘤)增加的易感性的指示。在具体的 实施方案中,与癌症(即乳腺癌,结肠癌,肺癌和黑色素瘤)的易感 性有关的标记物或单倍型具有至少1.3的相对风险,例如至少1.5,至 少1.7或至少2.0。在其它实施方案中,本发明涉及诊断对癌症(即乳 腺癌,肺癌和黑色素瘤)降低的易感性的方法,包括检测与序列显示 在SEQ ID NO:l或SEQ ID NO:2中的基因组区段有关的标记物或单倍 型,其中标记物或单倍型的存在是对癌症降低的易感性或针对乳腺癌 的保护性标记物或单倍型(针对癌症(即乳腺癌,肺癌和黑色素瘤)
45具有保护性)的指示。在具体的实施方案中,与癌症(即乳腺癌,肺 癌和黑色素瘤)的降低的易感性有关的标记物或单倍型具有小于0.9的
相对风险,例如小于0.8,小于0.7,小于0.6和小于0.5。在另一个实
施方案中,黑色素瘤是恶性皮肤性黑色素瘤。 鄉记餘卓谱麥鮮仿
当在个体间进行比较时,种群中的基因组序列是不相同的。相反, 个体间在基因组中的许多位置上表现出了序列变化性。这种序列的变 化通常被称为多态性,在每个基因组中有许多这样的位点。例如,人
类基因组表现出在平均每500个碱基对就发生序列变异。最常见的序 列变异包括基因组中单一碱基位置的碱基变化,这种序列变异或多态 性,通常被称为单核苷酸多态性("SNPs")。这些SNPs据信是在单 个突变事件中发生的,因此通常可能在每个SNP位点存在两个可能的 等位基因;原始的等位基因和突变的等位基因。由于自然遗传漂移并 可能也由于选择压力,最初的突变产生了多态性,其特征为在任何给 定的群体中其等位基因的特定频率。在人类基因组中发现了许多其它
类型的序列变异体,包括微卫星,插入,缺失,倒置和拷贝数变化。 多态性微卫星在特定位点含有多个小的碱基重复(例如CA重复,互补 链上的TG重复),重复的长度的数量在总群体中是变化的。概括地说, 多态性位点的每个版本的序列都代表了多态性位点的特定等位基因。 这些序列变体都可以被称为多态性,它们发生在特定多态性位点,表 明了所述序列变体的特征。概括地说,多态性可以包含任何数量的特 定等位基因。因此,在本发明的一个实施方案中,多态性的特征为在 任何给定群体中存在两种或两种以上等位基因。在另一个实施方案中, 多态性的特征为存在三种或三种以上等位基因。在其它实施方案中, 多态性的特征为四种或四种以上等位基因,五种或五种以上等位基因, 六种或六种以上等位基因,七种或七种以上等位基因,九种或九种以 上等位基因或十种或十种以上等位基因。所有这样的多态性都可用于 本发明的方法和试剂盒中,因此在本发明的范围内。在某些情况下,对多态性位点处不同等位基因进行参比而不选择 参比等位基因。或者,对于特定多态性位点可以指定参比序列。参比 等位基因有时被称为"野生型"等位基因,它通常被选为第一个被测 序的等位基因或来自"未染病的"个体(例如没有显示出性状或疾病 表型的个体)的等位基因。
本文指称的SNP标记物的等位基因,根据在使用的SNP分析中出
现在多态性位点上的碱基A, C, G或T进行指称。本文使用的SNPs 的等位基因编码如下1= A, 2=C, 3=G, 4=T。但是,本技术领域的 专业人员将会认识到,在每种情况下,通过分析或读取相反的DNA链, 可以测量到互补的等位基因。因此,对于其特征为A/G多态性的多态 性位点(多态性标记物)来说,使用的分析方法可以被设计成特异性 检测两种可能的碱基即A和G中的一种或两种的存在。或者,通过设 计分析方法,使得它被设计成检测DNA模板上的相反链,可以测量互 补碱基T和C的存在。从定量来说(例如根据相对风险),从任一条 DNA链(+链或-链)测量得到的结果是相同的。
典型情况下,对特定序列指定参比序列。与参比不同的等位基因 有时被称为"变体"等位基因。本文使用的变体序列是指与参比序列 不同但是基本上相似的序列。本文描述的多态性遗传标记物处的等位 基因是变体。其它的变体可以包含影响多肽的变化。当与参比核苷酸 序列进行比较时,序列差异可以包括单个核苷酸或一个以上核苷酸的 插入或缺失,从而导致阅读框移码;至少一个核苷酸的变化,导致了 所编码的氨基酸的变化;至少一个核苷酸的变化,导致产生了未成熟 的终止密码子;几个核苷酸的缺失,导致了核苷酸编码的一个或多个 氨基酸的缺失; 一个或几个核苷酸的插入,例如通过不对称重组或基 因转换,导致了阅读框编码序列的中断;序列的全部或一部分的复制; 易位;或核苷酸序列的重排。这样的序列变化可以改变核酸编码的多 肽。例如,如果核酸序列中的变化导致了阅读框移码,阅读框移码可
以导致编码的氨基酸的变化,禾n/或可以导致产生了未成熟的终止密码子,导致产生了截短的多肽。或者,与疾病或性状有关的多态性可以 是一个或多个核苷酸的同义变化(即变化不导致氨基酸序列的变化)。 这样的多态性可以例如改变剪接位点,影响mRNA的稳定性或运输, 或影响转录和编码的多肽的翻译。也可以改变DNA,以增加在体细胞 水平上发生结构变化,例如扩增或缺失的可能性。参比核苷酸序列编 码的多肽是具有特定的参比氨基酸序列的"参比"多肽,由变体等位 基因编码的多肽被称为具有变异的氨基酸序列的"变体"多肽。
单倍型是指DNA的区段,其特征为沿着区段排列有特定组合的等 位基因。对于二倍体生物例如人类来说,单倍型含有每个多态性标记 物或位点的一对等位基因中的一个成员。在某些实施方案中,单倍型 可以含有两个或两个以上等位基因,三个或三个以上等位基因,四个 或四个以上等位基因,或五个或五个以上等位基因,每个等位基因对 应于区段上的特定多态性标记物。单倍型可以含有在多态性位点具有 特定等位基因的各种多态性标记物的组合,例如SNPs和微卫星。因此, 单倍型含有各种不同遗传标记物等位基因的组合。
特定多态性标记物和/或单倍型的检测可以通过本技术领域已知 的检测多态性位点的序列的方法来完成。例如,可以使用用于基因分 型的标准技术检测SNPs和/或微卫星标记物的存在,例如基于荧光的 技术(Chen,X.等,Ge"ome 9^): 492-98 (1999)),利用PCR, LCR, 巢式PCR以及其它用于核酸扩增的技术。可用于SNP基因分型的具体 的方法包括但不限于TaqMan基因分型分析方法和SNPlex平台 (Applied Biosystems),质i普(例如来自Sequenom的MassARRAY系 统),微型测序方法,实时PCR, Bio-Plex系统(BioRad) , CEQ禾口 SNPstream系统(Beckman),分子倒置探针阵列技术(例如Affymetrix GeneChip)禾卩BeadArray技术(例如Illumina GoldenGate禾卩Infinium 分析方法)。通过这些以及其它本技术领域的专业人员可用的方法, 可以鉴定出多态性标记物包括微卫星,SNPs或其它类型的多态性标记 物的一个或多个等位基因。在本文描述的某些方法中,对任何特定疾病或正在研究的性状具有增加的易感性(即增加的风险)的个体,是在其中鉴定到了赋予对疾病或性状的增加的易感性的一个或多个多态性标记物的至少一个特定等位基因或单倍型(即风险标记物等位基因或单倍型)的个体。在一个方面,风险标记物或单倍型是赋予了对疾病或性状的显著增加的风险(或易感性)的标记物或单倍型。在一个实施方案中,与标记物或单倍型相关的显著性通过相对风险(RR)来测量。在另一个实施方案中,与标记物或单倍型相关的显著性通过比值比(OR)来测量。在另一个实施方案中,显著性通过百分比来度量。在一个实施方案中,
显著增加的风险被测量为风险(相对风险和/或比值比)为至少1.2,包括但不限于至少1.2,至少1.3,至少1.4,至少1.5,至少1.6,至少1.7,至少1.8,至少1.9,至少2.0,至少2.5,至少3.0,至少4.0和至少5.0。在具体的实施方案中,至少1.2的风险(相对风险和/或比值比)是显著的。在另一个特定实施方案中,至少1.3的风险是显著的。在另一个实施方案中,至少1.4的风险是显著的。在另一个实施方案中,至少大约1.5的相对风险是显著的。在另一个实施方案中,至少大约1.7的风险的显著增加是显著的。但是,也考虑到了其它的截止值,例如至少1.15, 1.25, 1.35等,这些截止值在在本发明的范围内。在另一个实施方案中,风险的显著增加是至少大约20%,包括但不限于大约25%,30%, 35。/。, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%,85%, 90%, 95%, 100%, 150%, 200%, 300%和500%。在一个具体的实施方案中,风险的显著增加是至少20%。在其它实施方案中,风险的显著增加是至少30%,至少40%,至少50%,至少60%,至少70%,至少80%,至少90%和至少100%。但是,也考虑到了本技术领域的专业技术人员认为适合于表明本发明的特征的其它截止值或范围,它们也在本发明的范围内。
本发明的风险多态性标记物或单倍型,是在具有疾病或性状(染病的)风险的个体中至少一个标记物的至少一个 位基因或单倍型的出现频率,与它在对比组(对照)中的出现频率相比更高的标记物或单倍型,其中标记物或单倍型的存在表明了对疾病或性状的易感性。在一个实施方案中,对照组可以是群体样品,即来自总群体的随机样品。在另一个实施方案中,对照组由一组没有患病的个体代表。在一个实施方案中,这些没有患病的对照的特征是不存在一种或多种与特定疾病相关的症状。在另一个实施方案中,没有患病的对照组的特征为没有一种或多种疾病特异性风险因子。在一个实施方案中,这样的风险因子是至少一种环境风险因子。代表性的环境因子是已知影响或被考虑到影响发生特定疾病或性状的风险的天然产物,矿物或其它化学物质。其它环境风险因子是与生活方式有关的风险因子,包括但不限于饮食习惯,主要居住地的地理位置和职业性风险因子。在另一个实施方案中,风险因子是至少一种遗传风险因子。
简单的相关性检验的例子是在2x2表上进行的Fisher-精确检验。
给定一组染色体,使用含有两种标记物或单倍型,含有一种标记物或单倍型而不含另一种,以及不含有标记物或单倍型的染色体的数量,
构建出2x2表。
在本发明的另一个实施方案中,对疾病或性状具有降低的易感性(即降低的风险)的个体,是在其中鉴定到了赋予对疾病或性状的降低的易感性的一个或多个多态性标记物的至少一个特定等位基因或单倍型的个体。赋予降低的风险的标记物等位基因和/或单倍型也被说成是保护性的。在一个方面,保护性标记物或单倍型是赋予了对疾病或性状的明显降低的风险(或易感性)的标记物或单倍型。在一个实施方案中,显著降低的风险被测量为相对风险小于0.9,包括但不限于小于0.9,小于0.8,小于0.7,小于0.6,小于0.5,小于0.4,小于0.3,小于0.2和小于0.1。在一个具体的实施方案中,显著降低的风险是小于0.7。在另一个实施方案中,显著降低的风险是小于0.5。在另一个实施方案中,显著降低的风险是小于0.3。在另一个实施方案中,风险(或易感性)的降低是至少20%,包括但不限于至少25%,至少30%,至少35%,至少40%,至少45%,至少50%,至少55°/。,至少60%,至少65%,至少70%,至少75%,至少80%,至少85%,至少90%,至少95%和至少98%。在一个具体实施方案中,风险的显著降低是至少大约30%。在另一个实施方案中,风险的显著降低是至少大约50%。在另一个实施方案中,风险的显著降低时至少大约70%。但是,也考虑到了本技术领域的专业技术人员认为适合于表明本发明的特征的其它截止值或范围,它们也在本发明的范围内。
本技术领域的专业人员将会认识到,在被研究的群体中存在标记物的两个等位基因(例如SNPs),其中一个等位基因被发现在群体中具有性状或疾病的个体组中的频率高于对照组,而标记物的另一个等位基因被发现在具有性状或疾病的个体组中的频率低于对照组。在这种情况下,标记物的一个等位基因(被发现在具有性状或疾病的个体中频率增加的等位基因)将是有风险等位基因,而另一个等位基因将
是保护性等位基因。逑徵不情
重组这种自然现象,对于每对染色体来说在每次减数分裂事件过程中平均发生一次,代表了自然界为序列(因此也为生物学功能)提供变异的一种方式。已经发现,基因组中的重组不是随机发生的;相反,在重组率的频率上存在很大的变化,产生了具有高重组频率的小区域(也被称为重组热点)和具有低重组频率的较大的区域,通常被称为连锁不平衡(LD)区块(Myers, S.等,祝oc/zem 5"oc 7>麵34:526-530(2006); Jeffreys, A丄,等,A^化re 29:217-222 (2001); May, C.A.
等,淑匿G潔"1:272-275(2002))。
连锁不平衡(LD)是指两个遗传元件的非随机的搭配。例如,如果特定遗传元件(例如多态性标记物的等位基因,或单倍型)在群体中出现的频率为0.50 (50%),另一个元件出现的频率为0.50 (50%),假设元件随机分配,那么一个个体具有两个元件的预计的发生率为0.25(25%)。但是,如果发现两个元件一起出现的频率高于0.25,那么元件被说成是连锁不平衡的,因为它们倾向于以比根据它们独立的出现频率(例如等位基因或单倍型频率)预测的比例更高的比例一起遗传。
粗略地说,LD—般与两个元件之间的重组事件的频率相关。群体中等
位基因或单倍型的频率可以通过对群体中的个体进行基因分型并确定群体中每个等位基因或单倍型出现的频率来测定。对于二倍体群体例
如人类群体来说,个体一般对每个遗传元件(例如标记物,单倍型或基因)具有两个等位基因。
为了评估连锁不平衡(LD)的强度已经提出了许多不同的测量方法。大多数捕获成对的双等位基因位点之间关联的强度。LD的两个重要的成对度量是r2 (有时称为A2)和p'l。两种度量的范围都是从0 (没有不平衡)到1 ("完全不平衡"),但是它们的解释稍微有些不同。ID,I被定义为如果仅存在两个或三个可能的单倍型则等于1,如果所有四个可能的单倍型都存在则小于1。因此,小于1的p'l值表明在两个位点之间可能在历史上已经发生过重组(回复突变也能导致ID'I小于1,但是对于单核苷酸多态性(SNPs)来说,通常认为这种情况发生的可能性比重组低)。度量—表示两个位点之间的统计学相关性,如果只出现两个单倍型则取值为l。
r2度量大概是相关性作图的最具相关性的度量,因为在1"2和检测易感性位点与SNPs的相关性所需的样品大小之间存在简单的反比关系。这些度量是针对成对位点定义的,但是对某些应用来说,可能需要确定在含有许多多态性位点的整个区域上LD有多强(例如,测试在位点之间或整个群体范围内LD的强度是否有显著的差别,或者区域中的LD比在特定模型下预测的更高还是更低)。对整个区域的LD的测量不是直接进行的,而是使用一种方法测量r,这种方法是在群体遗传学中开发的。简单来说,r测量了在特定的群体模型下为了产生在数据中观察到的LD将需要多少重组。这种类型的方法也可能可以为确定LD数据是否为重组热点的存在提供了证据的难题提供统计学上严格的方法。对于本文描述的方法来说,显著的一值可以是至少0.1,例如至
少O.l, 0.15, 0.2, 0.25, 0.3, 0.35, 0.4, 0.45, 0.5, 0.55, 0.6, 0.65, 0.7, 0.75, 0.8, 0.85, 0.9, 0.91, 0.92, 0.93, 0.94, 0.95, 0.96, 0.97, 0.98, 0.99或1.0。在一个优选实施方案中,显著的—值可以是至少0.2。 或者,本文描述的连锁不平衡是指其特征为ID'I的值为至少0.2,例如 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.85, 0.9, 0.95, 0.96, 0.97, 0.98, 0.99 的连锁不平衡。因此,连锁不平衡表示了不同标记物的等位基因之间 的相关性。它由相关性系数或ID,沐度量(—最高为l.O,ID,l最高为1.0)。 在某些实施方案中,连锁不平衡根据^和ID'I二者的测量值来定义。在 一个这样的实施方案中,显著的连锁不平衡被定义为r2> 0.1和ID'I >0.8。在另一个实施方案中,显著的连锁不平衡被定义为—〉0.2和ID'l X).9。用于确定连锁不平衡的戶和ID'I值的其它组合和排列也是可能的, 并在本发明的范围内。连锁不平衡可以如本文描述在单一人类群体中 测定,或者可以在含有来自一个以上人类群体的个体的样品集合中测 定。在本发明的一个实施方案中,LD在来自一个或多个HapMap群体 (高加索人(CEU),非洲人(YRI),日本人(JPT),中国人(CHB)) 的样品中,按照(http:〃www.hapmap.org)的定义来测定。在一个这样 的实施方案中,LD在HapMap样品的高加索人群体中测定。在另一个 实施方案中,LD在YRI群体中测定。在另一个实施方案中,LD在来 自冰岛人群体的样品中测定。
如果在群体水平上基因组中的所有多态性是一致的,那么它们中 每个单独的多态性将需要在关联性研究中进行调查。但是,由于多态
性之间的连锁不平衡,紧密连锁的多态性是强烈相关的,这减少了在 关联性研究中为了观察到显著相关性所需调查的多态性的数量。LD的 另一个结果是,许多多态性由于它们是强烈相关的事实,可能给出关 联性信号。
已经在基因组范围内产生了基因组LD谱图,这样的LD谱图已经 被建议用作框架对疾病基因进行作图(Risch, N. & Merkiangas, K,Sc/e"ce 273:1516-1517 (1996); Maniatis, N.等,尸度淑"ca""'脂 99:2228-2233 (2002); Reich,DE等,A^"re 411:199-204 (2001))。
现在已经确定,人类基因组的许多部分可以被分成一系列不连续 的含有几个共同的单倍型的单倍型区块;对于这些区块来说,连锁不 平衡数据几乎没有提供表明重组的证据(参见例如Wall., J.D.和 Pritchard, J.K., A^&re i evz'ews 4:587-597 (2003); Daly, M.等,
淑we ":229-232 (2001); Gabriel, S.B.等,Sc/e騰遷:2225-2229
(2002);Patil, N.等,Sc/e"ce "4:1719-1723 (2001); Dawson, E.等,A^a^re "S:544-548 (2002); Phillips, M.S.等,A^we Gg威W:382國387 (2003))。
有两种主要的方法用于定义这些单倍型区块区块可以被定义为
具有有限的单倍型多样性的DNA区域(参见例如Daly, M.等,A^f"^
":229-232 (2001); Patil, N.等,5We"ce 2^:1719-1723 (2001); Dawson, E.等,胸訓WS:544-548 (2002); Zhang, K.等,iVoc.淑/.爿cfi^.
":7335-7339 (2002)),或者被定义为使用连锁不平衡鉴定的 具有外延的历史的重组的过渡区之间的区域(参见例如Gabriel, S.B. 等,S".e"ce 29(5:2225-2229 (2002); Phillips, M.S.等,iW fwe ":382-387 (2003); Wang, N.等,//mw. 77:1227-1234 (2002); Stumpf, M.P.,和Goldstein, D.B., C", J5/o/. ": 1-8 (2003))。更 近些时候,在人类基因组范围上精细规模的重组率和相应的热点的图 谱已经被产生(Myers, S.等,化fe"ce 310:321-32324 (2005); Myers, S. 等,j5/oc/zem 7>mw 34:526530 (2006))。图谱显示出在基因组范围 内的重组中存在大量变化,在热点处重组率高达10-60 cM/Mb,而在过 渡区中接近于0,因此代表了有限单倍型多样性和高ID的区域。因此, 谱图可用于将单倍型区块/LD区块定义为重组热点侧接的区域。在本文 中使用的术语"单倍型区块"或"LD区块"包含了由任何上述的特征, 或本技术领域的专业人员用于定义这种区域所用的其它可选方法定义 的区块。用于鉴定单倍型区块的一些代表性方法显示在例如美国公幵的专
利申i青Nos. 20030099964, 20030170665, 20040023237和20040146870
中。使用单个标记物或含有多个标记物的单倍型,单倍型区块可用于 对表型和单倍型状态之间的相关性进行作图。可以在每个单倍型区块 中鉴定主要的单倍型,然后可以鉴定一组"标签"SNPs或标记物(在 单倍型中进行辨别所需的最小组的SNPs或标记物)。这些标签SNPs 或标记物然后可用于评估来自个体组的样品,以便鉴定表型和单倍型 之间的相关性。如果需要,可以对邻近的单倍型区块同时进行评估, 因为在单倍型区块之间也可能存在连锁不平衡。
因此,显然,对于任何给定的观察到的与基因组中的多态性标记 物的关联性来说,可能基因组中的其它标记物也显示出关联性。这是 基因组范围内LD的不均衡分布的自然结果,正如通过重组率的大的变 化所观察到的。因此,在某种意义上,用于检测关联性的标记物代表 了与给定疾病或性状有关的基因组区域(即单倍型区块或LD区块)的 "标签",并因此可用于本发明的方法和试剂盒中。在被发现与疾病 或性状有关的区域中可以存在有一个或多个引起结果的(功能性)变 体或突变。这样的变体可能赋予比用于检测关联性的标签标记物观察 到的更高的相对风险(RR)或比值比(OR)。因此,如本文所述,本 发明涉及了用于检测与疾病的关联性的标记物,以及与标记物连锁不 平衡的标记物。因此,在本发明的某些实施方案中,与本文所述的标 记物和/或单倍型连锁不平衡的标记物可以被用作替代标记物。在一个 实施方案中,替代标记物具有比最初被发现与本文所述的疾病相关的 标记物或单倍型更小的相对风险(RR)和/或比值比(OR)值。在另 一个实施方案中,替代标记物具有比最初被发现与本文所述的疾病相 关的标记物所最初测定的更大的RR或OR值。这样的实施方案的一个 例子是与最初被发现与疾病相关的更常见的变体(>10%群体频率)连 锁不平衡的稀有的或相对稀有的(<10%等位基因群体频率)变体,例 如本文描述的变体。鉴定和使用这些标记物用于检测本文描述的本发 明人发现的关联性,可以通过本技术领域的专业人员熟知的常规方法来进行,因此也在本发明的范围内。 縱卓微郝
患者和对照组中单倍型的频率可以使用期望最大化算法来估算
(Dempster A.等,JU。H S, 39:1-38 (1977))。可以使用这种算 法的推广形式来操作丢失的基因型和阶段的不确定性。在虚假设下, 患者和对照被假定具有同样的频率。使用或然性方法,测试可选的假 说,其中候选的有风险单倍型,其中可以包含本文描述的标记物,被 允许在患者中比对照中具有更高的频率,而两个组中其它单倍型的频 率的比率被假设是相同的。在两种假说下分别将或然性最大化,并使 用相应的l-df或然性比率统计数值来评估统计学显著性。
为了在连锁区域中寻找有风险和保护性标记物,研究了例如被基 因分型的标记物的所有可能组合的关联性,只要那些标记物分布在可 实践的区域中。可以将组合的患者和对照组随机分成两组,其大小与 原始的患者和对照组相等。然后重复标记物和单倍型分析,确定记录 的最显著的p-值。这种随机化的方案可以被重复例如超过100次,以 构建p-值的经验性分布。在优选实施方案中,p-值0.05是显著的标记 物和/或单倍型关联性的指示。
卓存麥分析
进行单倍型分析的一种通用方法包括将基于或然性的推论用于 NEsted Models (Gretarsdottir S.等,A^A Ge"ef. 35:131-38 (2003))。该 方法在NEMO程序中执行,允许使用许多多态性标记物,SNPs和微卫 星。方法和软件被特别设计用于病例-对照研究,其目的是鉴定赋予了 不同风险的单倍型组。它也是用于研究LD结构的工具。在NEMO中, 在EM算法的帮助下,直接计算了最大或然性估算值,或然性比率和 p-值,对于观察到的数据,将其作为缺失数据问题进行处理。
尽管基于从观察到的数据直接计算的或然率的或然率比 检验捕捉到了由于阶段的不确定性和缺失的基因型而丢失的信息,可用于给 出有效的p-值,但了解由于信息的不完整而丢失了多少信息,仍然是
有趣的。用于单倍型分析的信息计算描述在Nicolae和Kong (技术报 告537号,芝加哥大学统计学院统计学系;所o柳"/w, 60(2):368-75 (2004))中,作为为连锁分析定义的信息计算的自然延伸,并在NEMO 中执行。
对于与疾病相关的单个标记物来说,可以使用Fisher精确检验来 计算每个单独等位基因的双边p-值。通常来说,除非特别指明,所有 显示的p-值没有对多重比较进行调整。显示的频率(对于微卫星,SNPs 和单倍型来说)是与载体频率相反的等位基因频率。为了最小化由于 作为连锁分析的家庭召集的患者的亲缘性造成的任何偏差, 一级和二 级亲属可以从患者名单中消除。此外,通过扩展在Risch,N. &Teng, J.
(Ge"omei e&, 8:1273-1288 (1998))中描述的偏差调整步骤,合并具有 亲缘关系的DNA (y^J:)以便它可以适用于普通家族关系,并呈递调 整过的和未调整的p-值进行比较,可以重复检验,对患者间任何残留 的亲缘性进行关联性校正。差异一般来说正如预期一样非常小。为了 评估通过多次检验校正的单个标记物关联性的显著性,我们可以使用 同样的基因型数据执行随机测试。可以将患者和对照组随机化,将关 联性分析重做多次(例如多达500,000次),在某些重复中对某些标记 物等位基因产生的p-值小于或等于我们使用最初的患者和对照组时观 察到的p-值,这样的重复的分数即是p-值。
对于单个标记物和单倍型分析来说,通过假设的乘法模型(单倍 型相对风险模型)可以计算相对风险(RR)和群体归因风险度(PAR) (Terwilliger, J.D. & Ott, J., //ww. i/ered 42:337-46 (1992)和Falk, C.T. & Rubinstein, P, //ww. 5/ (Pf ":227-33 (1987)),即一个人
携带的两个等位基因/单倍型的风险的乘积。例如,如果RR是A相对 于a的风险,那么纯合子AA的人的风险将是杂合子Aa的人的风险的 RR倍,以及纯合子aa的人的风险的肌2倍。乘法模型具有简化分析和计算的良好性质一一单倍型在染病的群体中以及对照群体中是独立
的,即处于Hardy-Weinberg平衡。因此,染病的和对照单倍型的数量 每个都具有多项式分布,但是在可选假设下具有不同的单倍型频率。
具体来说,对于两个单倍型/z,和~来说,风险(/z,)/风险( )=(/;/a)/(/;/巧),
其中/和p分别是指染病的群体和对照群体中的频率。尽管如果真正的 模型不是乘法的将会损失一些效能,但除了极端情况下之外,损失趋 于轻微。最重要的是,p-值总是有效的,因为它们是针对虚假设计算 的。
舰7v五,,靜傳
成对标记物之间的LD可以使用标准定义的D'和r2来计算 (Lewontin, R., 伙49-67 (1964); Hill, W.G. & Robertson, A.
77zeor J/ ; /. Ge"e/. 22:226-231 (1968))。使用NEMO,通过最大或然 率来估算两个标记物等位基因组合的频率,通过或然性比率检验来评 估连锁不平衡的偏差。通过平均由边缘等位基因概率权重的两个标记 物的所有可能的等位基因组合的值,D'和r2的定义被扩展到包含微卫 星。当对所有标记物组合进行作图以阐明特定区域中的LD结构时,我 们将D'作图于左上角,将p-值作图于右下角。在LD图中,如果需要 的话,标记物可以等间距作图而不按照它们的物理位置作图。
顺伊絲珍銜学
正如本文所述,某些多态性标记物以及含有这些标记物的单倍型 被发现可用于癌症(例如前列腺癌(例如侵略性前列腺癌),肺癌, 结肠癌,乳腺癌,黑色素瘤)的风险评估。风险评估可以包括使用用 于诊断对癌症易感性的标记物。多态性标记物的特定等位基因在患有 癌症的个体中比没有诊断出癌症的个体出现得更频繁。因此,这些标 记物等位基因对于在个体中检测癌症或对癌症的易感性,具有预测价 值。含有风险标记物,例如本发明的标记物的单倍型区块或LD区块中 的标签标记物,可用作单倍型区块或LD区块中其它标记物和/或单倍 型的替代物。具有等于1的,值的标记物是风险变体的完美的替代物,即一个标记物的基因型完美地预测了另一个标记物的基因型。具有小 于1的,值的标记物也可以是风险变体的替代物,或者可选地代表具 有与风险变体一样高或可能甚至更高的相对风险值的变体。被鉴定到 的风险变体本身可以不是功能性变体,但在这种情况下与真正的功能 性变体连锁不平衡。本发明包括了为本文公开的标记物评估这样的替 代标记物。这样的标记物被标注,作图并列出在专业技术人员熟知的 公共数据库中,或者可选地可以通过对在个体组中通过本发明的标记 物鉴定到的区域或区域的一部分进行测序,并在获得的序列组中鉴定 多态性,来容易地鉴定。因此,本技术领域的专业人员可以容易地并 且不经过繁琐的实验,对与本文描述的标记物和/或单倍型连锁不平衡 的替代标记物进行基因分型。与检测到的风险变体连锁不平衡的标签 或替代标记物,对于在个体中检测与癌症或对癌症易感性的相关性, 也具有预测价值。这些与本发明的标记物连锁不平衡的标签或替代标 记物也可以含有在单倍型之间不同的其它标记物,这些对于检测对癌 症的易感性同样具有预测价值。
本发明的标记物和单倍型,例如在表4A, 4B, 5A, 5B, 5C中显 示的标记物,可单独或组合地用于风险评估和诊断目的。因此,即使 是在个体的标记物造成的风险增加相对温和,即在10-30%的级别的情 况下,关联性也可以具有显著的暗示。因此,相对普通的变体可能对 总的风险有显著的贡献(群体归因风险度高),或者标记物的组合可 用于定义基于标记物的组合风险,对发生疾病有显著的组合风险的个 体组。
因此,在本发明的一个实施方案中,多个变体(遗传标记物,生 物标记物和/或单倍型)被用于总体风险评估。在一个实施方案中,这 些变体选自本文公开的变体。其它实施方案包括了使用本发明的变体 与其它已知可用于诊断对癌症的易感性的变体的组合。在这样的实施 方案中,在个体中确定了多个标记物和/或单倍型的基因型状态,并将 个体的状态与相关变体的群体频率,或在临床健康的对象例如年龄匹配和性别匹配的对象中变体的频率进行比较。然后可以使用本技术领 域已知的方法,例如多变量分析或联合风险分析,来确定根据多个位 点处的基因型状态所赋予的总的风险。然后可以将基于这样的分析进 行的风险评估用于本文描述的本发明的方法和试剂盒中。
如上所述,人类基因组的单倍型区块结构具有这样的作用,即与 最初与疾病或性状相关的变体连锁不平衡的大量变体(标记物和/或单 倍型)可以用作替代标记物,用于评估与疾病和性状的关联性。这样 的替代标记物的数量依赖于几种因素,例如区域中的历史重组率,区 域中的突变频率(即区域中多态性位点或标记物的数量),以及区域 中连锁不平衡的程度(LD区块的大小)。这些标记物通常位于使用本 文描述的方法或通过本技术领域的专业人员已知的其它方法确定的所 述LD区块或单倍型区块的物理边界内。但是,有时会发现标记物和 单倍型关联性延伸到定义的单倍型区块的物理边界之外。在这样的情 况下,这些标记物和/或单倍型也可用作物理上位于定义的单倍型区块 内的标记物和/或单倍型的替代标记物和/或单倍型。因此,与本文描述
的标记物和单倍型连锁不平衡(典型的特征为—大于0.1,例如r2大 于0.2,包括—大于0.3,也包括—大于0.4)的标记物和单倍型也在本 发明的范围之内,即使它们在物理上位于所定义的单倍型区块的边界 之外。因此,本发明涉及了本文描述的标记物(例如表4A, 4B, 5A, 5B, 5C),但是也可以包括与本文列出的一种或多种标记物强烈连锁 不平衡(例如特征为—大于0.1或0.2,和/或ID'l > 0.8)的其它标记物。
对于本文描述的SNP标记物来说,与在患有特定癌症(例如前列 腺癌)的患者中被发现是过量的等位基因(风险等位基因)相对的等 位基因,在患有癌症的患者中被发现具有降低的频率。这些标记物和 单倍型与这样的标记物连锁不平衡和/或含有它们,因此对癌症具有保 护性,即它们赋予了携带有这些标记物和/或单倍型的个体以降低的发 生癌症的风险或易感性。在另一个实施方案中,含有至少两个多态性 标记物的单倍型在患有特定癌症的个体中出现频率降低,因此对癌症具有保护性。这样的标记物和单倍型可用于在个体中诊断对癌症的降 低的易感性。
本发明的某些变体,包括某些单倍型,在某些情况下含有各种不 同标记物的组合,例如SNPS和微卫星。单倍型的检测可以通过本技术 领域已知的方法和/或本文描述的用于检测多态性位点的序列的方法来 进行。此外,某些单倍型或标记物组与疾病表型之间的关联性可以使 用标准的技术来证实。用于关联性的简单检验的一个代表性例子是在
2x2表上进行的Fisher精确检验。
在特定实施方案中,被发现与癌症有关的标记物等位基因或单倍 型(例如表l, 2, 3, 4A和4B中列出的标记物等位基因),是其中标 记物等位基因或单倍型在具有癌症风险(染病的)的个体中出现的频 率比它在健康个体(对照)中出现的频率高的标记物等位基因或单倍 型,其中标记物等位基因或单倍型的存在是癌症或对癌症易感性的指 示。在另一个实施方案中,与一个或多个被发现与癌症有关的标记物 连锁不平衡的风险标记物,是在具有癌症风险(染病的)的个体中出 现的频率比它在健康个体(对照)中出现的频率高的标签标记物,其 中标签标记物的存在是对癌症增加的易感性的指示。在另一个实施方 案中,与一个或多个被发现与癌症有关的标记物连锁不平衡的风险标
记物等位基因(即赋予增加的易感性)(例如在表4A, 4B, 5A, 5B 和5C中列出的标记物等位基因),是含有一个或多个在具有癌症风险 的个体中出现的频率比它们在健康个体(对照)中出现的频率高的等 位基因的标记物,其中标记物的存在是对癌症增加的易感性的指示。
薪秀莽沐
从普遍意义上讲,本发明的方法和试剂盒可以使用含有来自任何 来源,即任何个体的基因组DNA的样品。在优选实施方案中,个体是 人类个体。个体可以是成年人,儿童或胎儿。本发明还提供了对属于 靶群体的成员的个体中标记物和/或单倍型的评估。在一个实施方案中,这样的靶群体是根据其它遗传因子,生物标记物,生物物理参数(例 如体重,BMD,血压),或总体健康和/或生活方式参数(例如疾病或 相关疾病史,以前对疾病的诊断,疾病的家族史)具有发生疾病的风 险的个体的群体或组。
本发明提供了包含特定年龄亚组的个体的实施方案,例如超过40
岁,超过45岁,或超过50, 55, 60, 65, 70, 75, 80或85岁的年龄 亚组。本发明的其它实施方案对应于其它的年龄组,例如年龄小于85 岁的个体,例如小于80岁,小于75岁,或小于70, 65, 60, 55, 50, 45, 40, 35或30岁。其它实施方案涉及发病时的年龄在任何上述年龄 范围内的个体。在某些实施方案中,还考虑到了年龄的范围可以是相 关的,例如发病时的年龄大于45岁但小于60岁。但是,其它的年龄 范围也被考虑到了,包括所有由上面列出的年龄值界定的所有范围。 本发明还涉及了任何性别,男性或女性的个体。
冰岛人群体是具有北欧血统的高加索人群体。在过去几年中,已 经公开了大量的研究,报道了冰岛人群体中遗传连锁和关联性的结果。 许多这些研究显示,最初在冰岛人群体中鉴定到的变体的复制,与其 它群体中特定的疾病有关联(Stacey, S.N.等,WW May 27 2007
(出版前的电子版);Helgadottir, A.等,Sc/e"ce 316:1491-93 (2007); Steinthorsdottir, V.等,胸G認/. 39:770-75 (2007); Gudmimdsson, J.等, 淑G匿/. 39:631-37 (2007); Amundadottir, L.T.等,胸d 38:652-58 (2006); Grant, S.F.等,淑Ge"". 38:320-23 (2006))。因此,在冰岛人 群体中的遗传发现已经被普遍复制到其它群体中,包括来自非洲和亚 洲的群体。
本发明的被发现与癌症(例如前列腺癌)相关的标记物据信在其 它人类群体中也显示了相似的关联性。因此,也考虑到了包含了个体 人类群体的具体实施方案,并包含在本发明的范围内。这样的实施方 案涉及来自一个或多个人类群体的人类对象,包括但不限于高加索人群体,欧洲人群体,美洲人群体,欧亚人群体,亚洲人群体,中/南亚 人群体,东亚人群体,中东人群体,非洲人群体,西班牙人群体和大 洋洲人群体。欧洲人群体包括但不限于瑞典人,挪威人,芬兰人,俄 罗斯人,丹麦人,冰岛人,爱尔兰人,凯尔特人,英国人,苏格兰人, 荷兰人,比利时人,法国人,德国人,西班牙人,葡萄牙人,意大利
人,波兰人,保加利亚人,斯拉夫人,塞尔维亚人,波斯尼亚人,Chech, 希腊人和土耳其人群体。在其它实施方案中,本发明还可以在特定的 人类群体中使用,包括班图人,Mandenka,约鲁巴人,San,木布提 矮人,奥克尼群岛人,Adygel,俄罗斯人,萨丁尼亚人,托斯卡尼人, 莫扎比特人,贝多因人,Druze,巴勒斯坦人,俾路支人,布拉灰人, 莫克兰人,信德人,帕坦人,布鲁肖人,哈扎拉人,维吾尔族人,卡 拉什人,汉族人,傣族人,达斡尔人,赫哲族人,拉祜族人,苗族人, 鄂伦春族人,畲族人,土家族人,土族人,锡伯族人,彝族人,蒙古 族人,纳西族人,柬埔寨人,日本人,雅库特人,美拉尼西亚人,巴 布亚人,加里提亚拿人,Surui,哥伦比亚人,玛雅人和皮玛族人。
在一个优选实施方案中,本发明涉及了含有非洲黑人血统的群体, 例如含有非洲人血统或谱系的人的群体。非洲黑人血统可以通过自己
报告确定为非洲裔美国人(African-Americans),非裔美国人 (Afro-Americans),美国黑人(Black Americans),是黑色人种的一 个成员,或尼格罗人种的一个成员。例如,非洲裔美国人或美国黑人 是居住在北美并且起源于任何非洲黑色人种组的人。在另一个例子中, 自己报告的非洲黑人血统的人可以具有至少一个非洲黑人血统的父 母,或至少一个非洲黑人血统的祖父母。
个体对象中的种族组成也可以通过遗传分析来确定。血统的遗传 分析可以使用不连锁的微卫星标记物来进行,例如在Smith等(^m / 1001-13 (2004))中提出的那些。在一个实施方案中,遗 传血统使用从大约2000个在以前描述的研究中(Pdtchard, J.K.等, /":945-59 (2000))使用多种族群体进行基因分型的微卫星中选择的一组微卫星标记物来估计。在一个这样的实施方案中,按照本
文的描述,使用了 35个欧洲裔美国人,88个非洲裔美国人,34个中 国人和29个墨西哥裔美国人的群体。可用于从该组中估算遗传血统的 一个具体的实施方案包含了 30个不连锁的微卫星标记物。选择的组是 Pdchard等描述的2000个标记物中在欧洲裔美国人,非洲裔美国人和 亚洲人之间差异最显著的标记物,同时也具有良好的质量和产率。因 此,在一个实施方案中,遗传血统通过对一组微卫星标记物进行基因 分型来确定,这组微卫星标记物由D1S2630, D1S2847, D1S466, D1S493, D2S166, D3S1583, D3S4011, D3S4559, D4S2460, D4S3014, D5S1967, DG5S802, D6S1037, D8S1719, D8S1746, D9S1777, D9S1839, D9S2168, DI0S1698, DI1S132I, D11S4206, D12S1723, D13S152, D14S588, D17S1799, D17S745, D18S464, D19S113, D20S878禾口 D22S1172。适合用于扩增含有标记物DG5S802的片段的引物对显示在 SEQ ID N0:4和SEQ ID N0:5中。专业技术人员将会认识到,微卫星 标记物的其它组合,或其它类型的多态性标记物(例如SNPs),也可 以用于估计遗传血统。
在某些实施方案中,本发明涉及如上所述在特定群体中鉴定的标 记物和/或单倍型。本技术领域的专业人员将会认识到,在对不同的群 体施用时,连锁不平衡(LD)测量将给出不同的结果。这是由于不同 人类群体的不同群体史,以及在特定基因组区域中导致LD差异的不同 选择压力。对于本技术领域的专业人员来说,某些标记物例如SNP标 记物在不同群体中具有不同的群体频率,或者在一个群体中是多态性 的但在另一个群体中不是,这种情况是熟知的。但是,本技术领域的 专业人员将使用方法,并如本文设想的在任何给定的人类群体中实施 本发明。这可以包括评估本发明的LD区域中的多态性标记物,以便鉴 定出那些与特定群体表现出最强关联性的标记物。因此,本发明的有 风险变体可以在不同的单倍型背景上,并以不同的频率存在于各种不 同人类群体中。但是,使用本技术领域已知的方法和本发明的标记物, 可以在任何给定人类群体中实施本发明。遗传^/试游^^遂
本技术领域的专业人员将会认识和了解到,本文描述的变体总的 来说本身不提供将发生特定癌症例如前列腺癌的个体的绝对鉴定。但 是,本文描述的变体表明了带有本发明的风险性或保护性变体的个体 将发生特定形式的癌症,以及与癌症有关的症状的增加的和/降低的可 能性。但是,正如在下面更详细指出的,该信息本身是极具价值的, 因为它可以用于例如在早期阶段启动保护性措施,进行经常性的身体 和/或心理检査,以监测症状的进展和/或出现,或以固定的间期安排检 查以识别癌症的早期信号,以便能够在早期阶段实施治疗。
关于赋予了发生癌症的风险的遗传变体的知识,为使用遗传测试 辨别具有发生癌症的增加的风险的个体(即风险变体的携带者)和具 有发生癌症的降低的风险的个体(即保护性变体的携带者)提供了机 会。对于属于上述两个组的个体来说,遗传测试的核心值是能够在早 期阶段诊断癌症的可能性,以及为临床医师提供关于癌症的预后/侵略 性的信息,以便能够实施最合适的治疗。例如,对癌症(例如前列腺
癌(侵略性或高Gleason级别前列腺癌,低侵略性或低Gleason级别前 列腺癌)实施遗传测试,可以为在早期阶段检测疾病,从而导致在较 早阶段实施治疗性措施提供机会,因此可以最小化症状的有害效应和 癌症造成的严重健康后果。用于癌症的遗传测试的一些优点包括
薪励孕菊检^
对前列腺癌施用遗传测试,可以为在较早期阶段检测疾病提供机 会,如果发现是局部的,可以导致较高的治愈率,并通过最小化胂瘤 的区域性和远距离扩散而提高存活率。对于前列腺癌来说,遗传测试 最有可能增加已经广泛使用的前列腺特异性抗原(PSA)化验和直肠指 检(DRE)的灵敏性和特异性。这可以导致较低比例的假阳性(因此 最小化了不必要的过程例如穿刺活检)和假阴性(因此增加了潜伏疾 病的检测并最小化了由PCA引起的发病率和死亡率)。2.嫁定虔够丝
遗传测试可以提供与诊断前预后指示符有关的信息,能够鉴定个体具有侵略性肿瘤类型的高的或低的风险,可以导致对筛査策略的修改。例如,被确定是发生侵略性前列腺癌的高风险等位基因的携带者
的个体,将可能经历更频繁的PSA化验,检查,并在存在异常PSA值
的情况下具有较低的穿刺活检的阈值。
此外,鉴定个体是侵略性肿瘤类型的高或低风险等位基因的携带者,将导致对治疗策略进行修改。例如,如果在作为赋予发生侵略性形式的前列腺癌的增加的风险的等位基因的携带者的个体中诊断出了前列腺癌,那么临床医师将可能建议更具侵略性的治疗策略例如前列腺切除术来代替侵略性较低的治疗策略。
正如在本技术领域中已知的,前列腺特异性抗原(PSA)是由前列腺的上皮细胞包括癌症细胞分泌的蛋白。在血液中升高的水平表明了前列腺的异常状况,可能是良性的或恶性的。PSA被用于检测前列腺腺体中可能的问题,以及跟踪前列腺癌治疗的进展。PSA水平高于4ng/ml表明存在前列腺癌(尽管正如本技术领域已知的,该化验既不非常特异,也不灵敏)。
在一个实施方案中,本发明的方法与PSA分析组合(之前,同时或之后)进行。在具体的实施方案中,标记物或单倍型的存在,与对象具有高于4 ng/ml的PSA水平一起,表明了更具侵略性的前列腺癌和/或更糟的预后。正如本文所述,特定的标记物和单倍型与高Gleason(即更具侵略性的)前列腺癌相关。在另一个实施方案中,在具有正常PSA水平(例如小于4ng/ml)的患者中标记物或单倍型的存在,表明了高Gleason (即更具侵略性的)前列腺癌和/或更糟的预后。当癌症更可能生长到超出前列腺腺体的边界之外,转移,逃脱治疗和/或杀死宿主时,发生"更糟的预后"或"不良的预后"。在一个实施方案中,标记物或单倍型的存在表明了在肿瘤或其前体中倾向于发生Chr8q24.21的体细胞重排(例如扩增,易位,插入和/或缺失中的一种或多种)。体细胞重排本身在随后可能导致更具侵略性形式的前列腺癌(例如由较高的Gleason分值或诊断时的较高阶段所反映的较高的组织学级别,前列腺癌的增加的进展(例如到较高的阶段),更糟的结果(例如根据发病率,并发症或死亡))。正如在本技术领域己知的,Gleason级别是广泛使用的用于对前列腺癌组织失去正常腺体结构(腺体的大小,性状和分化)的程度进行分级的方法。从1到5的级别被分别顺序地指派给检测的组织样品中存在的两种最优势的组织形式,并加在一起产生了总的或组合Gleason级别(分值从2-到10)。高的数字表示不良的分化,因此是更具侵略性的癌症。
侵略性前列腺癌是生长超出了前列腺,转移并且最终杀死患者的癌症。正如本文所述,侵略性的一个替代的度量是高的组合Gleason级别。级别在2-10的标度上越高,患者患有侵略性疾病的可能性越高。
在本文中使用的术语"阶段",除非另外指明,被用于定义癌症(例如前列腺癌)的大小和物理程度。对各种不同癌症进行分段的一种方法是TNM方法,其中在TNM首字母縮写词中,T代表肿瘤大小和侵染力(例如前列腺中的原发肿瘤);N代表淋巴结转移(例如已经扩散到淋巴结的前列腺癌);M表示转移(扩散到远处位点)的存在或不存在。
本发明还涉及了癌症(例如前列腺癌)的风险评估,包括诊断个体是否处于发生癌症的风险中。本发明的多态性标记物可以单独或组合使用,以及与其它因子包括其它遗传或非遗传风险因子或生物标记物(例如PSA)组合使用,用于个体对特定癌症(例如前列腺癌)的风险评估。许多可以影响个体发生癌症的风险的倾向性的因素在本技术领域中是已知的,并可以用于这样的评估中。这些因素包括但不限于年龄,性别,吸烟史和吸烟状态,身体活性,腰围臀围比,癌症家 族史,以前诊断的癌症,肥胖症,高甘油三酯血症,低HDL胆固醇,
高血压,升高的血压,胆固醇水平,HDL胆固醇,LDL胆固醇,甘油 三酯,载脂蛋白AI和B水平,纤维蛋白原,铁蛋白,C-反应性蛋白和 白三烯水平。可以使用本技术领域已知的方法进行这种全面风险评估, 包括多变量分析或逻辑回归。
发明方法
在本文中描述了用于诊断对癌症(例如前列腺癌(例如侵略性前 列腺癌),乳腺癌,肺癌,黑色素瘤)易感性的方法,并包含在本发 明中。用于分析来自对象的样品以检测对癌症(例如前列腺癌(例如 侵略性前列腺癌),乳腺癌,肺癌,黑色素瘤)易感性的试剂盒也包 含在本发明中。
珍靳界j^透分桥方法
在某些实施方案中,本发明涉及通过检测在癌症对象或对癌症易 感的对象中出现得更频繁的遗传标记物的特定等位基因,来诊断或帮 助诊断癌症或对癌症易感性的方法。在特定实施方案中,本发明是通 过检测一个或多个特定多态性标记物(例如本文描述的标记物或单倍 型),来诊断对前列腺癌(例如侵略性前列腺癌),乳腺癌,结肠癌, 肺癌和/或黑色素瘤的易感性的方法。通过本发明描述的方法,特定标 记物或单倍型的检测是对癌症(例如前列腺癌(例如侵略性前列腺癌), 乳腺癌,肺癌,黑色素瘤)易感性的指示。这样的预后或预测分析也 可用于在与这些癌症有关的症状发作之前,确定对象的预防性治疗。
此外,在某些其它实施方案中,本发明涉及通过检测在癌症中出 现频率低的特定遗传标记物等位基因或单倍型,来诊断或帮助诊断对 癌症的降低的易感性的方法。在特定实施方案中,本发明是通过检测 一个或多个特定遗传标记物(例如本文描述的标记物或单倍型),来 诊断对前列腺癌(例如侵略性前列腺癌),乳腺癌,结肠癌,肺癌和/或黑色素瘤的降低的易感性的方法。通过本发明描述的方法,特定标 记物或单倍型的检测是对癌症(例如前列腺癌(例如侵略性前列腺癌), 乳腺癌,肺癌,黑色素瘤)降低的易感性,或针对癌症的保护性标记 物或单倍型的指示。
正如本文描述和例举的,与Chr8q24.21 LD区块C(SEQ IDNO:l) 和LD区块C' (SEQIDNO:2)相关的特定标记物或单倍型与癌症(例 如前列腺癌(例如侵略性前列腺癌),乳腺癌,肺癌,结肠癌,黑色 素瘤)有关。在一个实施方案中,标记物或单倍型是赋予了对前列腺 癌,乳腺癌,肺癌,结肠癌和/或黑色素瘤的显著风险或易感性的标记 物或单倍型。在另一个实施方案中,本发明涉及通过筛选与SEQ ID NO:2有关的标记物或单倍型(例如在图5A, 5B和5C中显示的标记 物,以及与其连锁不平衡的标记物),在对象中诊断对癌症(例如前 列腺癌(例如侵略性前列腺癌),乳腺癌,肺癌,黑色素瘤)的易感 性的方法,其中与SEQ ID NO:2有关的标记物或单倍型在患有癌症或 对癌症易感的(染病的)对象中出现的频率比它在健康对象(对照) 中出现的频率高。在某些实施方案中,关联性的显著性的特征为较小 的p-值,例如< 0.01 , <0.001,<0.0001,<0.00001, 〈0.000001, 〈0.0000001, 〈O細OOOOI或O扁OOOOOl。
在这些实施方案中,标记物或单倍型的存在是对癌症(例如前列 腺癌(例如侵略性前列腺癌),乳腺癌,结肠癌,肺癌,黑色素瘤) 的易感性的指示。这些诊断方法包括检测本文描述的与癌症有关的标 记物或单倍型的存在或不存在。本文描述的单倍型包括各种不同遗传
标记物(例如SNPs,微卫星)的组合。构成特定单倍型的特定遗传标
记物的检测,可以通过本文描述的和/或本技术领域已知的各种不同方 法来进行。例如,遗传标记物可以在核酸水平上(例如通过直接的核 苷酸测序)检测,也可以在氨基酸水平上检测,如果遗传标记物影响
了与癌症相关的核酸,例如其序列显示在SEQ ID NO:l或SEQ ID NO:2
中的核酸编码的蛋白的编码序列的话(例如,通过蛋白测序或通过使用识别这样的蛋白的抗体的免疫分析)。本发明的标记物等位基因或 单倍型对应于与癌症(例如前列腺癌)有关的基因组DNA序列片段。
这样的片段含有所述多态性标记物或单倍型的DNA序列,但是也可以 含有与标记物或单倍型强烈LD (连锁不平衡)的DNA区段。在一个 实施方案中,这样的区段包括由rM直大于0.2禾口/或ID'l > 0.8所确定的 与标记物或单倍型连锁不平衡的基因组区段。这种与本发明的变体连 锁不平衡的区段的例子显示在SEQ ID N0:1和SEQ INN0:2中。
在一个实施方案中,对癌症(例如前列腺癌(例如侵略性前列腺 癌),乳腺癌,肺癌,黑色素瘤)的易感性的诊断可以使用杂交方法 来实现,例如Southern分析,Northern分析,和/或原位杂交(参见《分 子生物学现代方法》,Current Protocols in Molecular Biology, Ausubel, F. 等主编,John Wiley & Sons,包括所有附录)。来自测试对象或个体 的基因组DNA, RNA或cDNA样品("测试样品")是从怀疑患有癌 症,对癌症易感或对癌症有倾向性的对象("测试对象")获得的。 对象可以是成年人,儿童或胎儿。测试样品可以来自于任何含有基因 组DNA的来源,例如血液样品,羊水样品,脑脊液样品,或来自皮肤, 肌肉,口腔或结膜粘膜,胎盘,胃肠道或其它器官的组织样品。来自 胚胎细胞或组织的DNA测试样品可以通过适当的方法获得,例如通过 羊膜穿刺术或绒毛膜绒毛取样。然后检测DNA, RNA或cDNA样品。 特定标记物等位基因的存在可以通过特异性针对特定等位基因的核酸 探针的序列特异性杂交来指示。 一种以上特定标记物等位基因或特定 单倍型的存在可以通过使用几种序列特异性核酸探针来指示,每种探 针特异性针对特定等位基因。在一个实施方案中,单倍型可以通过特 异性针对特定单倍型(即与含有单倍型特征性的特定标记物等位基因 的DNA链特异性杂交)的单一核酸探针来指示。序列特异性探针可以 被导向以与基因组DNA, RNA或cDNA杂交。本文使用的"核酸探针" 可以是与互补序列杂交的DNA探针或RNA探针。本技术领域的专业 人员将了解如何设计这样的探针,使得只有在测试样品的基因组序列 中存在特定等位基因时,才发生序列特异性杂交。为了诊断对癌症(例如前列腺癌(例如侵略性前列腺癌),乳腺 癌,肺癌,黑色素瘤)的易感性,通过将含有癌症相关核酸的测试样
品与至少一种核酸探针相接触来形成杂交样品。用于检测mRNA或基 因组DNA的探针的非限制性例子是能够与本文描述的mRNA或基因 组DNA杂交的标记的核酸探针。核酸探针可以是例如全长的核酸分子 或其一部分,例如长度为至少15, 30, 50, 100, 250或500个核苷酸, 在严紧条件下足以与适当的mRNA或基因组DNA特异性杂交的寡核 苷酸。例如,核酸探针可以是SEQ IDNO:l的全部或一部分,或SEQ ID NO:2的全部或一部分,任选含有本文描述的单倍型中包含的至少一个 等位基因,或者探针可以是这样序列的互补序列。在特定的实施方案 中,核酸探针是SEQ ID NO:l的一部分或SEQ ID NO:2的一部分,任 选地含有本文描述的单倍型中包含的至少一个等位基因,或者探针可
以是这样序列的互补序列。其它适合用于本发明的诊断分析的探针在 本文中进行了描述。
杂交可以通过本技术领域的专业人员熟知的方法来进行(参见例 如《分子生物学现代方法》Current Protocols in Molecular Biology, Ausubel, F.等主编,John Wiley & Sons,包括所有附录)。在一个实施 方案中,杂交是指特异性杂交,即没有错配的杂交(精确杂交)。在 一个实施方案中,特异性杂交的杂交条件是高度严紧的。
特异性杂交,如果存在的话,使用标准方法来检测。如果在核酸 探针与测试样品的核酸之间发生了特异性杂交,那么样品含有与核酸 探针中存在的核苷酸互补的等位基因。对于本发明的任何标记物,或 构成本发明的单倍型的标记物可以重复这个过程,或者可以同时使用 多个探针在同一时间检测一个以上的标记物等位基因。设计含有一个 以上特定单倍型的标记物等位基因的单个探针(例如探针含有与构成 特定单倍型的2, 3, 4, 5个或所有标记物互补的等位基因),也是可 能的。样品中单倍型的特定标记物的检测表明样品源具有特定单倍型(例如单倍型),因此对癌症(例如前列腺癌)易感。
在一个优选实施方案中,使用的方法利用了在其3'末端含有荧光 基团或荧光团,在5'末端含有淬灭剂的检测寡核苷酸探针和增强子寡
核苷酸,如同Kutyavin等(脸c/e/c34:el28 (2006))描述的。 荧光基团可以是Gig Harbor Green或Yakima Yellow,或其它适合的荧 光基团。检测探针被设计成与含有被检测的SNP多态性的短核苷酸序 列杂交。优选情况下,SNP位于从末端残基到距离检测探针的3'末端 -6个残基之间的任何地方。增强子是在检测探针3'方向上与DNA模板 杂交的短寡核苷酸探针。探针被设计成当两个探针都与模板结合时, 在检测探针和增强子核苷酸探针之间存在单个核苷酸缺口。缺口产生 了合成的脱碱基位点,可以被内切核酸酶例如内切核酸酶IV识别。酶 将染料从完全互补的检测探针上切下,但是不能切开含有错配的检测 探针。因此,通过测量释放出的荧光基团的荧光,可以对由检测探针 的核苷酸序列定义的特定等位基因的存在进行评估。
检测探针可以具有任何适合的大小,尽管优选情况下探针相对较 短。在一个实施方案中,探针的长度为5-100个核苷酸。在另一个实施 方案中,探针长度为10-50个核苷酸,在另一个实施方案中,探针长度 为12-30个核苷酸。其它长度的探针也是可能的,并在本技术领域的专 业人员的普通技能的范围内。
在优选实施方案中,含有SNP多态性的DNA模板在检测前通过 聚合酶链反应(PCR)进行扩增。在这样的实施方案中,被扩增的DNA 被用作检测探针和增强子探针的模板。
在某些实施方案中,检测探针,增强子探针和/或用于通过PCR扩 增模板的引物,包括使用修饰的碱基,包括修饰的A和修饰的G。使 用修饰的碱基可用于调整核苷酸分子(探针和/或引物)与模板DNA的 熔解温度,例如在含有低百分率G或C碱基的区域中增加熔解温度,其中可以使用具有与其互补的T形成三个氢键的能力的修饰的A,或 者用于在含有高百分率G或C碱基的区域中降低熔解温度,例如使用
在双链DNA分子中与其互补的C碱基只能形成两个氢键的修饰的G
碱基。在优选实施方案中,修饰的碱基被用于设计检测核苷酸探针。 在这些方法中可以选择任何专业技术人员已知的修饰碱基,根据本文 的教导对适合的碱基进行选择也在专业人员的能力范围内,已知的碱 基可以从专业人员已知的商业来源获得。
在另一种杂交方法中,Northern分析(参见《分子生物学现代方 法》,Current Protocols in Molecular Biology, Ausubel, F.等主编,John Wiley &80115,同上)被用于鉴定与癌症(例如前列腺癌(例如侵略性前 列腺癌),乳腺癌,肺癌,黑色素瘤)或癌症的易感性有关的多态性 的存在。对于Northern分析来说,RNA测试样品通过适合的方法从对 象获得。如本文所示,核酸探针与来自对象的RNA的特异性杂交表明 了特定等位基因与探针互补。关于核酸探针的使用的代表性的例子, 参见例如美国专利Nos. 5,288,611和4,851,330。
此外,或者,在本文描述的杂交方法中可以在核酸探针以外或代 替核酸探针而使用肽核酸(PNA)探针。PNA是DNA模拟物,具有类 似肽的无机骨架例如N-(2-氨基乙基)甘氨酸单元,以及通过亚甲基羰基 连键连接到甘氨酸的氮上的有机碱基(A, G, C, T或U)(参见例如 Nielsen, P.等,5/oco">g. CTzew. 5:3-7 (1994)) 。 PNA探针可以被设计 成与怀疑含有一个或多个与癌症(例如前列腺癌(例如侵略性前列腺 癌),乳腺癌,肺癌,黑色素瘤)有关的单倍型的遗传标记物的样品 中的分子特异性杂交。PNA探针的杂交可用于诊断癌症或对癌症的易 感性。
在本发明的一个实施方案中,收集含有从对象获得的基因组DNA 的测试样品,并使用聚合酶链反应(PCR)扩增含有一个或多个本发明 的标记物或单倍型的片段。如本文所述,与癌症有关的特定标记物等位基因或单倍型的鉴定可以使用各种不同的方法来进行(例如序列分 析,限制性消化分析,特异性杂交,单链构象多态性分析(SSCP), 电泳分析等)。在另一个实施方案中,诊断通过使用定量PCR (动力 学热循环)的表达分析来实现。该技术可以使用例如商业化的技术,
例如TaqMan (Applied Biosystems, Foster City, CA)。该技术可以评估 由与癌症相关的核酸(例如其序列中包含SEQ ID NO:l或SEQ ID NO:2中显示的序列的全部或片段的核酸)编码的多肽或剪接变体的表 达或组成中存在的变化。此外,变体的表达可以作为物理上或功能上 的差异进行定量。
在本发明的另一个方法中,通过限制性消化进行的分析可用于检 测特定的等位基因,如果等位基因导致相对于参比序列来说产生或消 除了限制性位点的话。从对象获得含有基因组DNA的测试样品。可以 使用PCR从测试对象的测试样品中扩增SEQ ID NO:l或SEQ ID NO:2 的特定区域。可以进行限制性片段长度多态性(RFLP)分析,例如按 照《分子生物学现代方法》(y^J:)中的描述来进行。相关DNA片段 的消化图谱表明了样品中特定等位基因的存在或不存在。
序列分析也可用于检测与SEQ ID NO:l或SEQ ID NO:2相关的多 态性位点的特定等位基因。因此,在一个实施方案中,确定特定标记 物等位基因或单倍型的存在或不存在,包括了对从对象或个体获得的 DNA或RNA测试样品进行序列分析。可以使用PCR或其它适合的方 法扩增SEQ ID NO:l或SEQ ID NO:2的一部分,然后可以通过对样品 中基因组DNA的多态性位点(或者,单倍型中的多个多态性位点)进 行测序来直接检测特定等位基因的存在。
通过使用扩增的寡核苷酸与等位基因特异性寡核苷酸(ASO)探 针的斑点印迹杂交(参见例如Saiki, R.等,Atowe, 324:163-166 (1986)),
等位基因特异性寡核苷酸也可用于检测与癌症相关的多态性位点上特 定等位基因的存在。"等位基因特异性寡核苷酸"(在本文中也称为"等位基因特异性寡核苷酸探针")是大约10-50个碱基对或大约15-30
个碱基对的寡核苷酸,与SEQ ID N0:1或SEQ ID N0:2的区域特异性 杂交,并在多态性位点(例如本文描述的多态性)上含有特定等位基 因。特异性针对一个或多个与SEQ IDN0:1或SEQ ID N0:2有关的特 定多态性的等位基因特异性寡核苷酸探针,可以使用标准的方法来制 备(参见例如《分子生物学现代方法》,局^i:)。可以使用PCR来扩 增SEQ ID NO:l或SEQ ID NO:2中的所需区域。含有扩增的LD区块C 区域的DNA可以使用标准方法进行斑点印迹(参见例如《分子生物学 现代方法》,/^i:),并将印迹与寡核苷酸探针相接触。然后可以检 测探针与扩增区域的特异性杂交的存在。等位基因特异性寡核苷酸探 针与来自对象的DNA的特异性杂交,是与癌症(例如前列腺癌)相关 的多态性位点上特定等位基因的指示(参见例如Gibbs, R.等,A^c/e/c ^ M, 〃:2437-2448 (1989)和WO 93/22456)。
通过加入类似物例如锁核酸(LNAs),引物和探针的大小可以被 减小到8个碱基。LNA是一类新的双环状DNA类似物,其中呋喃糖环 中的2'和4'位置通过O-亚甲基(氧-LNA) , S-亚甲基(硫-LNA)或氨 基亚甲基(氨基-LNA)基团相连接。所有这些LNA变体的共同之处是 与互补核酸的亲和性,到目前为止在DNA类似物中是被报道的最多的。 例如特别是所有的氧-LNA九聚体当与互补的DNA或RNA复合时,熔 解温度(Tm)分别为64°C和74°C,相反,对应的DNA九聚体与DNA 和RNA的熔解温度均为28°C。当LNA单体与标准的DNA或RNA的 单体组合使用时,也可以获得Tm的显著增加。对于引物和探针来说, 依赖于含有LNA单体的位置(例如在3'末端,5'末端,或在中间), Tm可以得到相当大的提高。
在另一个实施方案中,与来自对象的靶核酸序列互补的寡核苷酸 探针的阵列,可用于在癌症相关核酸中鉴定多态性。例如,可以使用 寡核苷酸阵列。寡核苷酸阵列典型地包含多个连接到基质表面上不同
已知位置上的不同的寡核苷酸探针。这些寡核苷酸探针,也被称为"基因芯片"(GenechipsTM),在本技术领域中已经广泛描述过了 (参见 例如美国专利No. 5,143,854, PCT专利申请Nos. WO 90/15070和 92/10092)。 一般来说,这些阵列可以使用机械合成方法或组合了光蚀 刻方法和固相寡核苷酸合成方法的光指导的合成方法来生产(Fodor, S. 等,Sc/e"ce, Z5/:767-773 (1991); Pirmng等,美国专利No. 5,143,854 (也参见已出版的PCT申请No. W0 90/15070);和Fodor. S.等,已 出版的PCT申请No. WO 92/10092和美国专利No. 5,424,186,每个文 件的全部内容在此引为参考)。使用机械合成方法合成这些阵列的技 术描述在例如美国专利No. 5,384,261中,其全部内容在此引为参考。 在另一个实施方案中,可以使用线性阵列。
在制备了寡核苷酸阵列后,允许目标核酸与阵列杂交。杂交的检 测室对目标核酸中特定等位基因的检测。杂交和扫描一般通过本文描 述的方法来进行,也可以使用在例如公开的PCT申请Nos. WO 92/10092和WO 95/11995以及美国专利No. 5,424,186中描述的方法来 进行,每个专利申请在此以其全部教导引为参考。简单来说,通过众 所周知的扩增技术(例如PCR),对含有一个或多个以前鉴定的多态 性标记物的靶核酸序列进行扩增。典型情况下,这包括使用与靶序列 的两条链互补的,位于多态性位点的上游和下游的引物序列。也可以 使用不对称PCR技术。然后允许被扩增的靶,通常含有标记,与阵列, 在允许发生序列特异性杂交的适合条件下进行杂交。在杂交完成和清 洗了阵列后,对阵列进行扫描以确定阵列上杂交了靶序列的位置。从 扫描获得的杂交数据一般采用荧光强度作为阵列上位置的函数的形 式。
尽管主要根据单一检测区块进行描述,例如单一多态性位点的检 测,但阵列可以含有多个检测区块,因此能够分析多个特定的多态性 (例如特定单倍型(例如单倍型)的多个多态性)。在可选的安排中, 通常可以理解,检测区块可以在单一阵列中分组,或分成多个分开的 阵列,以便在耙与阵列的杂交过程中可以使用不同的最适条件。例如,通常希望将位于基因组序列中富含G-C区段的那些多态性的检测与位 于富含A-T区段中的检测分开提供。这允许对每种情况下的杂交条件 进行分别的最适化。
关于检测多态性的寡核苷酸阵列的使用的其它描述可以在例如美
国专利Nos. 5,858,659和5,837,832中发现,这两个专利在此以其全部 教导引为参考。
可以使用其它的核酸分析方法来检测与癌症相关的多态性位点处 的特定等位基因(例如与Chr8q24.21上其核苷酸序列由SEQ ID NO:l 和SEQIDNO:2中显示的序列代表的基因组区段有关的多态性位点)。 代表性的方法包括例如直接手动测序(Church和Gilbert, /Voc. JWz//.
Scz'. S/: 1991-1995 (1988); Sanger, F.等,尸rac. 7Va〃, ^cad Sc/. ,,74:5463-5467 (1977); Beavis等,美国专利No. 5,288,644);自动 化荧光测序;单链构象多态性分析(SSCP) ; clamped变性凝胶电泳 (CDGE);变性梯度凝胶电泳(DGGE) (Sheffield, V.等,尸亂淑/. 」c"d 园,56:232-236 (1989));迁移率变动分析(Orita, M.等, ZVoc.淑/. JcW. Sc/.园,S6:2766-2770 (1989));限制性酶分析(Flavell, R.等,CW/, 15:25-41 (1978); Geever, R.等;ZVoc.淑/.爿cad Sc/.固, 75:5081-5085 (1981));异源双链分析;化学错配裂解(CMC) (Cotton, R.等,iVoc. Wa".爿cad Sc/. S5:4397-4401 (1985)) ; RNase保护分 析(Myers,R.等,化/e"", "0:1242-1246 (1985));使用识别核苷酸错 配的多肽例如大肠杆菌mutS蛋白;以及等位基因特异性PCR。
在本发明的另一个实施方案中,对癌症或对癌症(例如前列腺癌 (例如侵略性前列腺癌),乳腺癌,肺癌,黑色素瘤)易感性的诊断, 在本文描述的遗传标记物或单倍型导致了多肽的组成或表达发生改变 的情况下,可以通过检查癌症相关的核酸编码的多肽的表达和/或组成 来进行。因此,对癌症(例如前列腺癌(例如侵略性前列腺癌),乳 腺癌,肺癌,黑色素瘤)易感性的诊断,在本文描述的遗传标记物或单倍型导致了多肽的组成或表达发生改变的情况下,可以通过检测这 些多肽中的一个,或与癌症相关的核酸编码的另一个多肽的表达和/或 组成来进行。本文描述的显示出与癌症的关联性的单倍型和标记物, 可能通过它们对这些邻近基因中的一个或多个的影响来发挥作用。影
响这些基因的可能机制包括例如影响转录,影响RNA剪接,改变mRNA 可选剪接形式的相对量,影响RNA稳定性,影响从细胞核向细胞质的 运输,以及影响翻译的效率和精确性。
Chr8q24.21上的c-w;/c基因编码c-MYC蛋白,它是在20多年前 作为禽骨髓细胞瘤反转录病毒的病毒致癌基因v-w^的细胞对应物被 鉴定的(Ve廳t画等,J JW, "773-79 (1982)) 。 c-MYC蛋白是 一种转录因子,在用促有丝分裂刺激物处理细胞后被快速诱导。通过 在与名为MAX的蛋白的异源二体复合物中结合E-盒(CACGTG), c-MYC调控许多基因的表达。许多受c-MYC调控的基因参与了细胞周 期控制。c-MYC促进细胞周期的进展,抑制细胞分化,并诱导凋亡。 c-MYC也对双链DNA修复具有负效应(Karlsson, A等,/Voc. 厶ac/.
, /卯<77」:9974-79 (2003)) 。 c-MYC还促进血管形成(Ngo, C.V. 等,Ce〃 GrowAD^e广"fi):201-10 (2000); Baudino T.A.等,Dev. 即":2530-43 (2002))。
c-m_yc基因在体外和体内高度致瘤。c-MYC与抑制凋亡的蛋白例 如BCL, BCL-X^协同作用,或在转基因小鼠的淋巴瘤生成中与p53或 ARF的丧失协同作用(Strasser等,A^a&re (19卯);Blyth, K.
等,O腳g, 70:1717-23 (1990); Elson, A.等,(9腳g騰":181-90 (1995); Eischen, CM.等,Ge"^Z)ev. 75:2658-69 (1999))。
在前列腺癌中观察到了 c-m;^基因的扩增和过表达,并通常与侵 略性肿瘤,激素不依赖性和不良预后相关(Jenkins, R.B.等,Ca"c^ 57":524-31 (1997); El Gedaily, A.等,尸醋驗即力184-90 (2001); Saramaki, O.等,J尸a组"柳:2089-94 (2001); Bubendorf, L.等,Ca"c"/ 仏WW:803-06 (1999))。在前列腺,乳腺和肺部肿瘤及黑色 素瘤中,c-m少c和Chr8q24.21区域被进一步放大(Blancato J.等, / C纖er 9柳1612-9 (2004); Kubokura, H.等,^肌7Tzo亂CW/o而c.
7卩"197-203 (2001); Treszl, A.等,Q;,om"o^ft8W:37-46 (2004); Kraehn, G.M.等,Owcer S《":72-79 (2001))。此外,许多其它 类型的肿瘤也显示出该区域的放大,包括结肠,肝脏,卵巢,胃,肠 和膀胱癌。综合所有的肿瘤类型,显示出Chr8q24.21是最频繁放大的 染色体区域,在大约17%的所有肿瘤类型中放大 (www.progenetix.com)。
作为将c-myc与免疫球蛋白增强子并置,从而激活了基因的表达 的易位的结果,致癌基因参与了 Burkitt's淋巴瘤(Dalla-Favera,R.等, 尸roc. W。".爿cad 79p":7824-27 (1982); Taub, R.等,iVoc.
Jew/. fAW 79(7力:7837-41 (1982))。它也通过人类乳头瘤病毒
(HPV)整合到基因附近而参与了宫颈癌。在大多数情况下,HPV整 合发生在c-myc基因的跨度为着丝粒方向500 kb和端粒方向200 kb的 区域内(Ferber, J.M.等,Cawcer C e""/cy Cyfogewe"" 1 -9 (2004); Ferber,M丄等,(9膽g, ":7233-7242 (2003))。
两个脆弱的位点FRA8C和FRA8D分别位于Chr8q24.21上c-m_yc
的着丝粒方向和端粒方向上。脆弱位点在存在制止DNA合成的试剂的 情况下倾向于断裂。脆弱位点的复制据信发生在S-期的较晚阶段并且 在诱导后甚至更晚。脆弱位点参与染色体扩增,易位和/或病毒插入, 可能与这些位点较晚复制有关,断裂起始于或接近于停滞的复制叉 (Hellman, A.等,Ce〃 7:89-97 (2002))。
本文描述的位于LD区块C (SEQIDNO:l)或LD区块C, (SEQ IDNO:2)中的或与LD区块C (SEQIDNO:l)或LD区块C, (SEQID NO:2)强烈连锁不平衡的(例如由卢大于0.2和/或|0'| 〉 0.8测量到的) 标记物或单倍型,能够影响区域的稳定性,导致c-m;;c基因或其它邻近基因的基因扩增,这是可能的。也就是说, 一个人可以从双亲中的
一个或两个遗传到SEQ ID NO:l或SEQ ID NO:2中显示的区域的特定 变体形式,从而随后在一个或多个细胞中更可能发生体细胞突变事件, 导致癌症发展成更具侵略性的形式。因此,在一个实施方案中,本发 明的标记物或单倍型(例如与SEQ ID NO:2或SEQ ID NO:l有关的标 记物或单倍型)的鉴定,可用于诊断对体细胞突变事件的易感性,体 细胞突变事件可以导致癌症发展成更具侵略性的形式。
在一个实施方案中,标记物或单倍型不含有位于c-myc开放阅读 框架(即NCBI Build 34中的chr8:128,705,092-128,710,260 bp)中的标 记物。在另一个实施方案中,标记物或单倍型不含有位于c-m;;c启动子 或开放阅读框架中的标记物。在另一个实施方案中,标记物或单倍型 不含有位于c-m;^启动子,增强子或开放阅读框架中的标记物。在其它 实施方案中,标记物或单倍型不含有位于c-m少c开放阅读框架1 kb, 2 kb, 5kb, 10kb, 15kb, 20 kb或25 kb内的标记物。
各种不同的方法可用于进行这样的检测,包括酶联免疫吸附分析 (ELISA) , Western印迹,免疫沉淀和免疫荧光。评估来自对象的测 试样品中由Chr8q24.21相关的核酸和/或与LD区块C (SEQIDNO:l) 或LD区块C' (SEQ IDNO:2)相关的核酸编码的多肽在表达中的变化 和/或组成中的变化的存在。由这样的核酸编码的多肽在表达中的变化 可以是例如定量的多肽表达(即产生的多肽的量)的变化。由核酸编 码的多肽的组成的变化是定性的多肽表达(例如突变体多肽的表达或 不同剪接变体的表达)的变化。在一个实施方案中,对癌症(例如前 列腺癌(例如侵略性前列腺癌),乳腺癌,结肠癌,肺癌,黑色素瘤) 易感性的诊断,通过检测由本文描述的癌症相关核酸(例如与 Chr8q24.21相关的核酸,与LD区块C (SEQIDNO:l)相关的核酸, 和/或与LD区块C' (SEQ ID NO:2)相关的核酸)编码的特定剪接变 体或剪接变体的特定形式来进行。也可以同时存在这两种变化(定量的和定性的)。本文中使用的 多肽表达或组成中的"变化",是指测试样品中多肽的表达或组成, 与对照样品中多肽的表达或组成相比的变化。对照样品是与测试样品 相应的样品(例如,来自于同样类型的细胞),来自于没有感染癌症, 禾口/或不具有对癌症易感性的对象(例如不具有本文描述的标记物或单 倍型的对象)。类似地,与对照样品相比,测试样品中一个或多个不 同剪接变体的存在,或测试样品中明显不同量的不同剪接变体的存在, 可以表明对癌症(例如前列腺癌(例如侵略性前列腺癌),乳腺癌, 结肠癌,肺癌,黑色素瘤)的易感性。在变体相对于对照样品中的参 比改变了剪接位点的情况下,与对照样品相比,测试样品中多肽的表 达或组成的变化可以指示特定的变体(例如标记物等位基因或单倍 型)。用于检测核酸编码的多肽的表达和组成的各种不同的方法对本 技术领域的专业人员来说是已知的,并可以使用,包括光谱法,比色
法,电泳,等电聚焦和免疫分析(例如David等,美国专利No. 4,376,110) 例如免疫印迹(参见例如《分子生物学现代方法》,特别是第10章, 周丄)。
例如,在一个实施方案中,可以使用能够与由本文描述的与癌症 有关的核酸编码的多肽结合的抗体(例如具有可检测标记的抗体)。 抗体可以是多克隆的,也可以是单克隆的。可以使用完整的抗体,也 可以使用其片段(例如Fv, Fab, Fab,, F(ab')2)。对于探针或抗体来 说,术语"标记的"意指包含了通过将可检测物质连接(即物理连接) 到探针或抗体上以对探针或抗体直接标记,以及通过与被直接标记的 另一种试剂具有反应性而对探针或抗体的间接标记。间接标记的例子 包括使用标记的第二抗体(例如荧光标记的第二抗体)检测第一抗体, 以及用生物素对DNA探针进行末端标记,以便可以使用荧光标记的链 亲和素来检测它。
在这种方法的一个实施方案中,将测试样品中与癌症(例如前列 腺癌)相关的核酸编码的多肽的水平或量,与对照样品中多肽的水平或量进行比较。测试样品中多肽的水平或量高于或低于对照样品中多 肽的水平或量,使得差异在统计学上显著,表明了核酸编码的多肽的 表达发生了变化,并且诊断了负责引起表达差异的特定等位基因。或 者,将测试样品中多肽的组成与对照样品中多肽的组成进行比较。在 另一个实施方案中,可以对测试样品和对照样品中的多肽的水平或量 以及组成二者都进行评估。
在另一个实施方案中,对癌症(例如前列腺癌(例如侵略性前列 腺癌),乳腺癌,结肠癌,肺癌,黑色素瘤)易感性的诊断,通过检
测本发明的至少一个标记物或单倍型(例如在表5A, 5B和5C中显示
的标记物,以及与其连锁不平衡的标记物或单倍型),以及与其它基
于蛋白的,基于RNA的或基于DNA的分析方法(例如其它癌症诊断 分析,包括但不限于PSA分析,癌胚抗原(CEA)分析,BRCA1分 析和BRCA2分析)相结合来进行。这样的癌症诊断分析方法在本技术 领域中是已知的,并且还包含了专业技术人员已知的癌症的其它遗传 风险因子。本发明的方法也可以与对象的家族史和风险因子(例如环 境风险因子,生活方式风险因子)的分析组合使用。
正如本技术领域已知的以及在本文中描述的,PSA检验有助于前 列腺癌的早期诊断,但是它既不是高灵敏性的,也不是特异性的 (Punglia等,M / M^/. 3^Y":335-42 (2003))。因此,单独的
PSA检验产生了高百分率的假阴性和假阳性诊断,导致在许多情况下 漏诊了癌症,以及对未患有癌症的人进行不必要的跟踪组织活检。在 一个实施方案中,前列腺癌或对前列腺癌易感性的诊断,通过检测至 少一个与Chr8q24.21相关的等位基因和/或与LD区块C相关的等位基 因,并与PSA分析相结合来进行。
試浙盒
用于本发明方法的试剂盒包含可用于本文描述的任何方法的组 分,包括例如杂交探针,限制性酶(例如用于RFLP分析),等位基因特异性寡核苷酸,与本文描述的本发明的核酸(例如含有至少一个本 发明的多态性标记物和/或单倍型的基因组区段)编码的改变的多肽, 或本文描述的本发明的核酸编码的未改变的(天然)多肽结合的抗体, 用于扩增与癌症有关的核酸的方法,用于分析与癌症有关的核酸的核 酸序列的方法,用于分析与癌症有关的核酸编码的多肽的氨基酸序列 的方法,等。试剂盒可以包含例如必需的缓冲液,用于扩增本发明的 核酸(例如一个或多个与癌症有关的多态性标记物,例如在表5A, 5B
和5C中显示的标记物)的核酸引物,以及用于使用这些引物扩增的片
段的等位基因特异性检测的试剂和必需的酶(例如DNA聚合酶)。此
夕卜,试剂盒可以提供与本发明的方法组合使用的分析方法用的试剂, 例如用于其它癌症诊断分析方法的试剂。
在一个实施方案中,本发明是用于分析从对象获得的样品,以帮
助在对象中检测特定癌症(例如前列腺癌(例如侵略性前列腺癌),
肺癌,结肠癌,乳腺癌,黑色素瘤)或对癌症(例如前列腺癌,肺癌,
结肠癌,乳腺癌,黑色素瘤)的易感性,其中试剂盒含有在个体的基
因组中选择性检测本发明的至少一种多态性的至少一个等位基因所需
的试剂。在特定的实施方案中,试剂含有能够与个体的基因组中含有 至少一个本发明的多态性的片段杂交的至少一个连续的寡核苷酸。在
另一个实施方案中,试剂含有至少一对与从对象获得的基因组区段的 相反链杂交的寡核苷酸,其中每个寡核苷酸引物对被设计成选择性扩 增个体的基因组中含有至少一个多态性的片段,其中多态性选自表5A, 5B和5C中显示的多态性,以及与其连锁不平衡的多态性标记物。在 另一个实施方案中,片段的大小为至少20个碱基对。这样的寡核苷酸 或核酸(例如寡核苷酸引物)可以使用表明了癌症的多态性(例如SNPs 或微卫星)侧接的核酸序列部分来设计。在另一个实施方案中,试剂 盒含有一个或多个标记的核酸,能够对与癌症有关的一个或多个特定
多态性标记物或单倍型进行等位基因特异性检测,以及用于检测标记 的试剂。适合的标记包括例如放射性同位素,荧光标记,酶标记,酶 辅助因子标记,磁标记,自旋标记,表位标记。在特定实施方案中,通过试剂盒的试剂检测的多态性标记物或单 倍型包含一种或一种以上标记物,两种或两种以上标记物,三种或三 种以上标记物,四种或四种以上标记物或五种或五种以上标记物,标
记物选自表5A,表5B和表5C中显示的标记物。在另一个实施方案中, 被检测的标记物或单倍型包含表4A和表4B中列出的标记物。在另一 个实施方案中,被检测的标记物或单倍型包含与表4A和表4B中列出 的标记物中的至少一组标记物强烈连锁不平衡的标记物组中的至少一 个标记物,其中强烈连锁不平衡由rM直大于0.2所定义。在优选实施方 案中,被检测的标记物或单倍型包含rsl6901979以及与其连锁不平衡 的标记物。在另一个优选实施方案中,被检测的标记物或单倍型包含 HapC (rsl456314等位基因G, rsl783626等位基因T, rs7825414等 位基因G, rs6993569等位基因G, rs6994316等位基因A, rs6470494 等位基因T, rsl016342等位基因C, rsl031588等位基因G, rsl016343 等位基因T, rsl551510等位基因G, rsl456306等位基因C, rsl378897 等位基因G, rsl456305等位基因T和rs7816535等位基因G)。
在一个优选实施方案中,用于检测本发明的标记物的试剂盒含有 与含有被检测的SNP多态性的模板DNA区段杂交的检测寡核苷酸探 针,增强子寡核苷酸探针和内切核酸酶。正如前面解释的,检测寡核 苷酸探针在其3'末端含有荧光基团或荧光团,在其5'末端含有淬灭剂, 增强子寡核苷酸按照Kutyavin #"(AAwc/e/c爿c/c/i " 34:el28 (2006))的 描述使用。荧光基团可以是Gig Harbor Green或Yakima Yellow,或其 它适合的荧光基团。检测探针被设计成与含有被检测的SNP多态性的 短核苷酸序列杂交。优选情况下,SNP位于从末端残基到离检测探针 的3'末端-6个残基之间的任何位置。增强子是在检测探针3'方向上与 DNA模板杂交的短寡核苷酸探针。探针被设计成当两个探针都与模板 结合时,在检测探针和增强子核苷酸探针之间存在单个核苷酸缺口。 缺口产生了合成的脱碱基位点,可以被内切核酸酶例如内切核酸酶IV 识别。酶将染料从完全互补的检测探针上切下,但是不能切开含有错配的检测探针。因此,通过测量释放出的荧光基团的荧光,可以对由 检测探针的核苷酸序列限定的特定等位基因的存在进行评估。
检测探针可以具有任何适合的大小,尽管优选情况下探针相对较 短。在一个实施方案中,探针的长度为5-100个核苷酸。在另一个实施 方案中,探针长度为10-50个核苷酸,在另一个实施方案中,探针长度
为12-30个核苷酸。其它长度的探针也是可能的,并在本技术领域的专
业人员的普通技能的范围内。
在优选实施方案中,含有SNP多态性的DNA模板在检测前通过 聚合酶链反应(PCR)进行扩增,并且用于这样的扩增的引物包含在试 剂盒中。在这样的实施方案中,被扩增的DNA被用作检测探针和增强 子探针的模板。
在某些实施方案中,检测探针,增强子探针和/或用于通过PCR扩 增模板的引物,包括使用修饰的碱基,包括修饰的A和修饰的G。使 用修饰的碱基可用于调整核苷酸分子(探针和/或引物)与模板DNA的 熔解温度,例如在含有低百分率G或C碱基的区域中增加熔解温度, 其中可以使用具有与其互补的T形成三个氢键的能力的修饰的A,或 者用于在含有高百分率G或C碱基的区域中降低熔解温度,例如使用 在双链DNA分子中与其互补的C碱基只能形成两个氢键的修饰的G 碱基。在优选实施方案中,修饰的碱基被用于设计检测核苷酸探针。 在这些方法中可以选择任何专业技术人员已知的修饰碱基,根据本文 的教导对适合的碱基进行选择也在专业人员的能力范围内,已知的碱 基可以从专业人员已知的商业来源获得。
在一个这样的实施方案中,标记物或单倍型的存在是对癌症(例 如前列腺癌(例如侵略性前列腺癌),肺癌,结肠癌,乳腺癌,黑色 素瘤)易感性(增加的易感性或降低的易感性)的指示。在另一个实 施方案中,标记物或单倍型的存在是对癌症治疗试剂的反应的指示。在另一个实施方案中,标记物或单倍型的存在是在个体中癌症预后的 指示。在另一个实施方案中,标记物或单倍型的存在是癌症治疗的进 展的指示。这样的治疗可以包括外科干预,药物治疗或通过其它方法 (例如生活方式改变)。
与本发欲游变沐,关游疾痈游珍銜
尽管本发明的方法主要在诊断对癌症(例如前列腺癌)的易感性 的背景下进行了描述,但方法也可用于诊断与本发明的多态性标记物 有关的癌症。例如,可以对患有癌症或有发生癌症的风险的个体迸行 评估,以确定个体中本发明的多态性或单倍型的存在是否可能成为在 个体中诊断癌症的有贡献的因素。在一个实施方案中,鉴定与本发明 的标记物和/或单倍型有关的癌症促进了治疗计划。例如,可以进行保 护性治疗以最小化个体发生癌症的发生率。这样的保护性治疗也可以 包括评估(i)个体对风险变体是杂合的还是纯合的;(ii)个体的年龄, 以及(iii)个体的性别,因为本发明的变体已经被显示出与冠状动脉病 和心肌梗塞的低龄发病有关。在本发明的其他实施方案中,可以设计 疗法并选择治疗手段,以靶向适合的与本发明的多态性和/或单倍型有 关的基因或蛋白。
在本发明的一个实施方案中,与本发明的标记物和/或单倍型有关 的癌症的诊断,通过检测本发明的多态性或单倍型来进行。具体的多 态性描述在本文中。在特定实施方案中,被检测的多态性标记物或单 倍型包含一个或一个以上标记物,两个或两个以上标记物,三个或三 个以上标记物,四个或四个以上标记物或五个或五个以上标记物,标
记物选自表5A,表5B和表5C中显示的标记物。在另一个实施方案中, 被检测的标记物或单倍型包含表4A和表4B中显示的标记物。在另一 个实施方案中,被检测的标记物或单倍型含有与表4A和表4B中列出 的标记物组中的至少一个强烈连锁不平衡的标记物组中的至少一个标 记物,其中强烈连锁不平衡由rM直大于0.2所定义。在优选实施方案中, 被检测的标记物或单倍型包含rsl6901979以及与其连锁不平衡的标记物。在另一个优选实施方案中,被检测的标记物或单倍型包含HapC (rsl456314等位基因G, rsl7831626等位基因T, rs7825414等位基 因G, rs6993569等位基因G, rs6994316等位基因A, rs6470494等位 基因T, rsl016342等位基因C, rsl031588等位基因G, rsl016343等 位基因T, rsl551510等位基因G, rsl456306等位基因C, rsl378897 等位基因G, rsl456305等位基因T和rs7816535等位基因G)。
从患有癌症的对象获得基因组DNA, RNA或cDNA测试样品, 以确定疾病是否与本发明的一个或多个多态性有关。然后检査DNA, RNA或cDNA样品,以确定在样品中是否发现了本发明的多态性的特 定等位基因或特定单倍型的存在。如果发现核酸样品含有多态性的特 定等位基因或特定单倍型,那么等位基因或单倍型的存在表明了癌症 与多态性和/或单倍型有关。
本技术领域的专业人员已知的方法,以及在本发明的方法和试剂 盒中进一步详细描述的方法,可用于检测多态性。
游浙
本发明的变体(例如本发明的标记物和/或单倍型,例如在表5A, 5B和5C中列出的标记物以及与其连锁不平衡的标记物,例如在表4A 和4B中列出的标记物)可用于鉴定新的癌症(例如前列腺癌)的治疗 性靶。例如,含有与癌症相关的变体(标记物和/或单倍型)的基因或 与其连锁不平衡的基因或它们的产物,以及被这些变体基因或它们的 产物直接或间接调控或与它们相互作用的基因或它们的产物,可以成 为开发治疗剂的耙,以治疗癌症,或预防或延迟与癌症有关的症状的 出现。在一个实施方案中,基因是c-m少c。治疗剂可以含有一种或多种 例如小的非蛋白和非核酸分子,蛋白,肽,蛋白片段,核酸(DNA, RNA) , PNA (肽核酸)或它们的可以调节耙基因或它们的基因产物 的功能和/或水平的衍生物或模拟物。本发明的核酸和/或变体,或含有它们的互补序列的核酸,可用作 反义构建物以控制细胞,组织或器官中的基因表达。与反义技术有关 的方法对于专业技术人员来说是众所周知的,被描述和综述在《反义
药物技术原理,策略与应用》中(J"toe似eDwg rec/z"o/ogy: Pn'""》/es, Sfr她g/ey, 々/ //ca/z'o/w, Crooke主编,Marcel Dekker Inc., New York (2001))。 一般来说,反义核酸分子被设计成与基因表达的mRNA的 区域互补,使得反义分子与mRNA杂交,从而阻断mRNA翻译成蛋白。 对于本技术领域的专业人员来说,已知有几类反义寡核苷酸,包括裂 解物和阻断物。前者与靶RNA位点结合,活化细胞内核酸酶(例如 RnaseH或RnaseL),并裂解革E RNA。阻断物与耙RNA结合,通过对 核糖体进行空间位阻来抑制蛋白的翻译。阻断物的例子包括核酸,吗 啉代化合物,锁核酸和甲基膦酸酯(Thompson, Z)n^Z)/"0ve7 To^y, 7:912-917 (2002))。反义寡核苷酸可直接用作治疗剂,也可用于确定 和证实基因的功能,例如通过基因敲除或基因击落(gene knock-down) 实验。反义技术被进一步描述在Lavery等,Cwr. Qp/". Z>wg ZXscov. Deve/. 6:561-569 (2003), Stephens等,Cz^r. ppfn. Afo/. TTzer 5:118-122 (2003), Kurreck,270:1628-44 (2003), Dias等,Mo/. O "cer Te广1:347-55 (2002), Chen, A/"/zo& Afo/. Med 75:621-636 (2003), Wang等,Ow. Omcer Z>wg r。rge& 1:177-96 (2001)禾卩Bennett, 勘〃"應脸c/ez'c ^c/t/Z>wg.Dev. 12:215-24 (2002)中。
本文描述的变体可用于选择和设计特异性针对特定变体的反义试 剂。使用关于本文描述的变体的信息,可以设计出特异性靶向含有本 发明的一个或多个变体的mRNA分子的反义寡核苷酸或其它反义分 子。通过这种方式,含有一个或多个本发明的变体(标记物和/或单倍 型)的mRNA分子的表达可以被抑制或阻断。在一个实施方案中,反 义分子被设计成与靶核酸的特定等位基因形式(即一个或几个变体(等 位基因和/或单倍型))特异性结合,从而抑制源自于该特定等位基因 或单倍型的产物的翻译,但是不与靶核酸分子在特定多态性位点上的 其它或可选的变体结合。由于反义分子可用于失活mRNA以便抑制基因表达,从而抑制蛋
白表达,因此该分子可用于治疗疾病例如癌症,包括前列腺癌(例如 侵略性前列腺癌),肺癌,结肠癌,乳腺癌,黑色素瘤。方法可以包
括用含有与mRNA中的一个或多个区域互补的核苷酸序列的核酶进行 裂解,以减弱mRNA被翻译的能力。这样的mRNA区域包括例如蛋白 编码区,特别是对应于蛋白的催化活性,底物和/或配体结合位点或其 它功能性结构域的蛋白编码区。
自从最初在线虫(C e/egfl/w)中发现以来(Fire等,7Wm^e 391:806-11 (1998)),在最近的十年中,对RNA干扰(RNAi)现象的 研究非常活跃,在近年中,也在积极推行它在治疗人类疾病中的潜在 应用(综述在Kim & Rossi,淑脏i ev, 8:173-204 (2007)中)。
RNA干扰(RNAi),也被称为基因沉默,其基础是使用双链RNA分 子(dsRNA)关闭特定的基因。在细胞中,细胞质双链RNA分子(dsRNA) 被细胞复合物加工成小干扰RNA (siRNA) 。 siRNA指导蛋白-RNA复 合物靶向靶mRNA上的特定位点,导致mRNA的裂解(Thompson, D&c0ve7 rocto乂 7:912-917 (2002))。典型情况下,siRNA分子长度为 大约20, 21, 22或23个核苷酸。因此,本发明的一个方面涉及了分 离的核酸分子,以及将那些分子用于RNA干扰,即作为小干扰RNA 分子(siRNA)。在一个实施方案中,分离的核酸分子的长度为18-26 个核苷酸,优选长度为19-25个核苷酸,更优选长度为20-24个核苷酸, 更优选长度为21, 22或23个核苷酸。
RNAi介导的基因沉默的另一个途径源自于内源性编码的原始微 型RNA (pri-miRNA)转录本,它在细胞中被加工以产生前体miRNA (pre-miRNA)。这些miRNA分子从细胞核输出到细胞质中,在这里 经历加工以产生成熟的miRNA分子(miRNA),它们通过识别mRNAs 的3'非翻译区中的靶位点,然后通过加工性P-体降解mRNA,来直接 抑制翻译(综述在Kim & Rossi, 7Va we i ev. 8:173-204 (2007)中)。
RNAi的临床应用包括掺入合成的siRNA双链体,它们优选大小 为20-23个核苷酸,并优选具有2个核苷酸的3'重叠。基因表达的降 低是通过靶mRNA的序列特异性设计建立起来的。几个用于最适设计 的商业化位点和这种分子的合成对于本技术领域的专业人员来说是已 知的。
其它的应用提供了较长的siRNA分子(典型长度为25-30个核苷 酸,优选为大约27个核苷酸),以及小的发夹RNAs (shRNAs;典型 长度为大约29个核苷酸)。后者是天然表达的,描述在Amarzguioui 等(i^5S丄e". 579:5974-81 (2005))中。化学合成的siRNAs和shRNAs 是体内加工的底物,在某些情况下提供了比较短的设计更强有力的基 因沉默(Kim等,iVa&" 5/o&c/mo/. 23:222-226 (2005); Siolas等,7W^we 5/o&c/z"o/. 23:227-231 (2005))。 一般来说,siRNAs提供暂时的基因表 达沉默,因为它们的细胞内浓度被随后的细胞分裂稀释了。相反,表 达的shRNAs介导长期的,稳定的耙转录本的降低,只要shRNA的转 录发生就行(Marques等,A^^we S/Wec/mo/. 23:559-565 (2006); B画melkamp等,296: 550-553 (2002))。
因为RNAi分子,包括siRNA, miRNA和shRNA,以序列依赖性 的方式起作用,因此本发明的变体(例如表5A, 5B和5C中显示的标 记物以及与其连锁不平衡的标记物,例如表4A和4B中显示的标记物 的核苷酸序列)可用于设计RNAi试剂,它们识别含有特定等位基因和 /或单倍型(例如本发明的等位基因和/或单倍型)的特定核酸分子,同 时不识别含有其它等位基因或单倍型的核酸分子。因此,这些RNAi 试剂可以识别并破坏耙核酸分子。与反义试剂相同,RNAi试剂可用作 治疗剂(即用于关闭与疾病相关的基因或与疾病相关的基因的变体), 但是也可以用于对基因功能进行表征和证实(例如通过基因敲除或基 因击落实验)。RNAi的递送可以通过本技术领域的专业人员已知的各种方法来 进行。使用非病毒递送的方法包括胆固醇,稳定的核酸-脂类颗粒
(SNALP),重链抗体片段(Fab),适体和纳米颗粒。病毒递送的方 法包括使用慢病毒,腺病毒和腺相关病毒。在某些实施方案中,siRNA 分子被化学修饰以增加它们的稳定性。这可以包括在核糖的2'位置的 修饰,包括2'-0-甲基嘌呤和2'-氟代嘧啶,它们提供了对Rnase活性的 抗性。其它的化学修饰也是可能的,并为本技术领域的专业人员所知。
下面的参考文献为RNAi以及使用RNAi靶向特定基因的可能性提 供了进一步的概述Kim & Rossi, 7Va/. i ev. Ge"e/. 8:173-184 (2007), Chen & Rajewsky,淑i ev. G潔Z, 8: 93-103 (2007), Reynolds等,舰 22:326-330 (2004), Chi等,尸roc. 7V^/. Sc/. C/5^
00:6343-6346 (2003), Vickers等, / CA皿278:7108-7118 (2003), Agami, C群.C^/". CTzew.飾/. 6:829-834 (2002), Lavery等,CW. 0—. Z)n/g Z)/"ov. Deve/. 6:561-569 (2003), Shi, 7Ve"A 19:9-12 (2003), Shuey等,ZV"gZ)/"ov. 7bd";; 7:1040-46 (2002), McManus等, 淑.i ev. 3:737-747 (2002), Xia等,淑.5/o&c/mo/. 20:1006-10
(2002), Plasterk等,cwr. Op/". Dev.10:562-7 (2000), Bosher
等,A^. Ce〃 5/o/. 2:E31-6 (2000)和Hunter, Cz^r. 5/。/. 9:R440-442 (1999)。
导致发展疾病包括癌症的增加的倾向性或风险的遗传缺陷,或引 起疾病的缺陷,可以通过给带有缺陷的对象施用整合有修复序列的核 酸片段,在遗传缺陷的位点处提供正常的/野生型核苷酸,来永久地校 正。这样的位点特异性修复序列可以包含促进个体的基因组DNA的内 源修复的RNA/DNA寡核苷酸。修复序列的施用可以通过适当的载体 来进行,例如与聚乙烯亚胺(polyethelenimine)复合,囊封在阴离子 脂质体中,病毒载体例如腺病毒载体,或其它适合于促进施用的核酸 的细胞内摄入的药物组合物。然后可以克服遗传缺陷,因为嵌合的寡核苷酸诱导正常的序列整合到对象的基因组中,导致正常的/野生型基 因产物的表达。替换是可遗传的,因此提供了永久性的修复和与疾病 或病症有关的症状的缓解。
本发明提供了鉴定可用于治疗癌症的化合物或药剂的方法。因此, 本发明的变体可用作鉴定和/或开发治疗剂的耙。这样的方法可以包括 分析药剂或化合物调节含有至少一个本发明的变体(标记物和/或单倍 型)的核酸或核酸编码的产物的活性和/或表达的能力。这反过来可用 于鉴定抑制或改变编码的核酸产物的不需要的活性或表达的药剂或化 合物。用于执行这样的实验的分析方法可以在专业技术人员已知的基 于细胞的系统或无细胞系统中进行。基于细胞的系统包括天然表达目 标核酸分子的细胞,或已经被遗传修饰以表达某些所需核酸分子的重 组细胞。
在患者中变体的基因表达可以通过含有变体的核酸序列的表达 (例如含有本发明的至少一个变体的基因,它可以被转录成含有至少 一个变体的RNA,并进一步翻译成蛋白),或通过由于变体影响了正 常转录本的表达水平或形式,例如在基因的调节或控制区域中的变体
而导致的正常/野生型核酸序列的改变的表达,来进行评估。用于基因
表达的分析方法包括直接的核酸分析(mRNA),表达的蛋白水平的分 析,或参与途径例如信号途径的并行化合物的分析。此外,对于信号 途径作出响应而被上调或下调的基因的表达,也可以被分析。 一个实 施方案包括了将报告基因例如荧光素酶与目标基因的调控区可操作连 接。
在一个实施方案中,将细胞与候选化合物或药剂相接触,并测定 mRNA的表达,可以鉴定基因表达的调节剂。将存在候选化合物或药 剂的情况下mRNA的表达水平与不存在化合物或药剂的情况下的表达 水平进行比较。根据这种比较,用于治疗癌症的候选化合物或药剂可 以被鉴定为调节变体基因的基因表达的化合物或药剂。当在存在候选化合物或药剂的情况下与不存在它的情况下相比,mRNA的表达或编
码的蛋白统计学显著地增加时,候选化合物或药剂被鉴定为核酸表达 的刺激剂或上调物。当在存在候选化合物或药剂的情况下与不存在它 的情况下相比,核酸的表达或蛋白水平统计学显著地降低时,候选化 合物被鉴定为核酸表达的抑制剂或下调物。
本发明还提供了使用通过药物(化合物和/或药剂)筛选被鉴定为 基因调节剂(即基因表达的刺激剂和/或抑制剂)的化合物进行治疗的 方法。
本发明的另一方面,提供了药物包(试剂盒),药物包包含治疗 齐IJ,以及一套本文公开的给人类施用治疗剂以诊断性测试本发明的一
种或多种变体的说明书。治疗剂可以是小分子药物,抗体,肽,反义
或RNAi分子,或其它治疗性分子。在一个实施方案中,被鉴定为本发 明的至少一种变体的携带者的个体被指导服用处方剂量的治疗剂。在 一个这样的实施方案中,被鉴定为本发明的至少一个变体的纯合携带 者的个体被指导服用处方剂量的治疗剂。在另一个实施方案中,被鉴 定为本发明的至少一个变体的非携带着的个体被指导服用处方剂量的 治疗剂。
伊仿对潜湖聘应脾激丝财法,微微舰展游方法颜 潜微方法
正如本技术领域已知的,个体对具体的疗法(例如治疗剂或治疗 方法)可能有不同的响应。药物基因组学致力于由于药物特性的改变 和/或药物作用的异常或变化,遗传变异(例如本发明的变体(标记物 和/或单倍型))是如何影响药物响应的问题。因此,响应差异的基础
可能部分是由遗传决定的。由于遗传变异影响药物响应而产生的临床 结果,在某些个体中(例如本发明的遗传变体的携带者或非携带者) 可能导致药物的毒性或药物的治疗失败。因此,本发明的变体可以确 定治疗剂和/或方法作用于身体的方式,或者身体代谢治疗剂的方式。因此,在一个实施方案中,多态性位点上特定等位基因或单倍型 的存在是对特定治疗方式的不同,例如不同响应率的指示。这意味着 被诊断有癌症(例如前列腺癌(例如侵略性前列腺癌),乳腺癌,肺 癌,结肠癌,黑色素瘤),或携带有本发明的多态性位点处的某些等 位基因或单倍型(例如本发明的有风险和保护性等位基因和/或单倍型) 的患者,将对特定的治疗,药物和/或用于治疗癌症的其它疗法具有较 好的,或较糟的响应。因此,标记物等位基因或单倍型的存在或不存 在,可以帮助确定对患者应该使用什么疗法。例如,对于新诊断的患 者来说,可以评估本发明的标记物或单倍型的存在(例如如本文描述 的通过测试源自于血液样品的DNA)。如果患者对标记物等位基因或 单倍型阳性(也就是说存在标记物的至少一个特定等位基因或单倍 型),那么医生可以推荐一种特定的疗法,而如果患者对标记物的至 少一个等位基因或单倍型阴性,那么可以推荐不同的疗法过程(可以 包括推荐进行除了连续监测疾病的进展之外不进行即时的疗法)。因 此,患者的携带者状态可用于帮助确定是否应该实施特定的治疗方式。 值位于能够在早期阶段诊断疾病的可能性的范围内,以选择最适合的 疗法,并给临床医生提供关于疾病的预后/侵略性的信息,以便能够施 用最适合的疗法。
本发明还涉及监测对特定癌症(例如前列腺癌(例如侵略性前列 腺癌),乳腺癌,肺癌,结肠癌,黑色素瘤)的治疗的进展或有效性 的方法。这可以根据本发明的标记物和单倍型的基因型和/或单倍型状 态来进行,即通过本文公开的评估至少一个多态性标记物的至少一个 等位基因的不存在或存在,或通过监测本发明的与变体(标记物和单 倍型)相关的基因的表达来进行。可以测量组织样品(例如外周血样
品或活检样品)中风险基因的mRNA或编码的多肽。因此,在治疗之 前或期间可以确定表达水平和/或mRNA水平,以监测其有效性。可选 地或同时地,在治疗之前或期间可以如本文给出的,测定至少一个癌 症风险变体的基因型和/或单倍型状态,以监测其有效性。或者,可以通过测定mRNA和/或多肽水平来监测与本发明的标记 物和单倍型有关的生物网络或代谢途径。这可以通过例如在治疗之前
和期间在所取的样品中监测属于网络和/或途径的几个基因的表达水平 或多肽来进行。或者,在治疗之前和期间可以测定属于生物网络或代 谢途径的代谢物。通过将治疗过程中观察到的表达水平/代谢物水平的 变化与正常对象的相应数据进行比较,可以确定治疗的有效性。
另一方面,本发明的标记物可用于增加临床试验的能力和有效性。 因此,是本发明的至少一个风险变体的携带者的个体,即是赋予发生 癌症的增加的风险的至少一个多态性标记物的至少一个等位基因或单 倍型的携带者的个体,可能更可能对特定的治疗方式做出响应。在一 个实施方案中,携带有特定的治疗(例如小分子药物)所耙向的途径 和/或代谢网络中的基因的风险变体的个体,更可能是所述治疗的响应 者。在另一个实施方案中,携带有其表达和/或功能被风险变体改变的 基因的风险变体的个体,更可能是靶向该基因,其表达或其基因产物 的治疗方式的响应者。本应用可以提高临床试验的安全性,但是也可 以增加临床试验证明出统计学显著的效能的机会,否则这种效能被限 于在群体的某些亚组。因此,这种试验的一个可能的结果是,某些遗 传变体例如本发明的标记物和单倍型的携带者,统计学显著地可能显 示出对治疗剂的阳性响应,即当按照处方服用治疗剂或药物时,经历 了与癌症有关的症状的缓解。
另一方面,本发明的标记物和单倍型可用于耙向对特定个体的药 物试剂的选择。利用本发明的风险变体,可以实现治疗方式的个性化 选择,生活方式的改变或二者的组合。因此,关于本发明的特定标记 物的个体状态的信息,在靶基因或基因产物受到本发明的风险变体影 响的情况下,可用于选择治疗选项。变体的某些组合可能适合于治疗 选项的一种选择,而其它基因变体组合可以靶向其它治疗选项。根据 需要,这样的变体组合可以包括一种变体,两种变体,三种变体或四种或四种以上的变体,以临床可靠的精确性确定治疗模式的选择。
除了本发明的变体的诊断和治疗应用之外,变体(标记物和单倍型)也可以是用于人类身份鉴定的有用标记物,可用于法医学,亲子鉴定和生物计量学。SNPS在法医学领域的具体应用由Gill(/M/. /丄egfl/
A/ed 114:204-10 (2001))进行了综述。个体之间基因组DNA的遗传差异可用作遗传标记物以鉴定个体,并将生物样品与个体相关联。遗传标记物,包括SNPs和微卫星,可用于区分个体。分析的标记物越多,在任何给定的个体中标记物的等位基因组合与无关个体(假设标记物是无关的,即标记物是完美的连锁平衡的)中相同的可能性越低。因此,用于这些目的的变体优选是无关的,即它们是独立遗传的。因此,优选的标记物可以选自可用的标记物,例如本发明的标记物,选择的标记物可以含有来自人类基因组不同区域的标记物,包括不同染色体上的标记物。
在某些应用中,用于法医检验的SNPs来自简并密码子位置(即某些密码子的第三个位置,以便SNP的变异不影响密码子编码的氨基酸)。在其它应用中,例如预测基因型特征包括种族,血统或身体特征的应用中,利用影响编码的蛋白的氨基酸序列的SNPs可能是有用的或需要的。在其它这样的实施方案中,变体(SNP或其它多态性标记物)影响了邻近基因的表达水平,从而导致了改变的蛋白表达。
微界微
如上所述,本文描述的核酸和多肽可用于本发明的方法和试剂盒。
本文使用的"分离"的核酸分子,是与正常情况下位于基因或核苷酸序列侧翼(例如在基因组序列中)的核酸分开的,和/或已经从其它转录的序列中(例如在RNA文库中)完全或部分纯化出的核酸分子。例如,本发明的分离的核酸,相对于它自然发生的复杂的细胞环境,或通过重组技术生产时的培养基,或化学合成时的化学前体或其它化学物质来说,是基本上分离的。在某些情况下,分离的物质形成的组合物(例如含有其它物质的粗提液),缓冲系统或试剂混合物的一部分。在其它情况下,物质可以被纯化到例如通过聚丙烯酰胺凝胶电泳
(PAGE)或柱层析(例如HPLC)测定时基本上均一。本发明的分离的核酸分子可以含有所有存在的大分子物质的至少大约50%,至少大约80%或至少大约90% (摩尔数的基础上)。对于基因组DNA来说,术语"分离的"也可以指从与基因组DNA天然关联的染色体分离出的核酸分子。例如,分离的核酸分子可以含有少于大约250 kb, 200 kb,150 kb, 100 kb, 75 kb, 50 kb, 25 kb, 10 kb, 5 kb, 4kb, 3 kb, 2 kb,1 kb, 0.5kb或0.1 kb的在核酸分子所源自的细胞的基因组DNA中位于核酸分子侧翼的核苷酸。
核酸分子可以与其它编码或调节序列融合,并仍被当作是分离的。因此,载体中包含的重组DNA包含在本文使用的"分离的"的定义内。分离的核酸分子也包含异源宿主细胞或异源生物体中的重组DNA分子,以及溶液中的部分纯化的或基本上纯化的DNA分子。"分离的"核酸分子也包括本发明的DNA分子的体外和体内RNA转录本。分离的核酸分子或核苷酸序列可以包括化学合成的或通过重组方法产生的核酸分子或核苷酸序列。这样的分离的核苷酸序列用于例如编码的多肽的制造,用于分离同源序列(例如从其它哺乳动物物种)的探针,用于基因作图(例如通过与染色体原位杂交),或用于检测组织(例如人类组织)中基因的表达,例如通过Northern印迹分析或其它杂交技术。
本发明还涉及在高度严紧条件下与本文描述的核苷酸序列杂交,例如选择性杂交的核酸分子(例如与含有本文描述的标记物或单倍型相关的多态性位点的核苷酸序列特异性杂交的核酸分子)。这样的核酸分子可以通过等位基因特异性或序列特异性杂交(例如在高度严紧条件下)来检测和/或分离。用于核酸杂交的严紧条件和方法对于专业技术人员来说是众所周知的(参见例如《分子生物学现代方法》,Cw"eW尸rotoco/s /" M。/ecw/ar _6/o/ogy, Ausubel, F.等,John Wiley &Sons, (1998), 以及 Kraus, M.禾口 Aaronson, S., Afe^zo<is £"z_ywo/.,200:546-556 (1991),在此以其全部教导引为参考)。
两个核苷酸或氨基酸序列的百分同一性可以通过出于最适比较的目的将序列进行比对(例如可以在第一个序列的序列中引入缺口)来确定。然后比较相应位置上的核苷酸或氨基酸,两个序列之间的百分同一性是序列共有的同样的位置的数量的函数(即%同一性=同一的位置的数量/总的位置的数量x 100)。在某些实施方案中,出于比较目的进行比对的序列的长度是参比序列的长度的至少30%,至少40%,至少50%,至少60%,至少70%,至少80%,至少90%或至少95%。两个序列的实际比较可以通过众所周知的方法来进行,例如使用数学算法。这样的数学算法的非限制性的例子描述在Karlin,S.和Altschul,S.,A^/. Jcad >SW. f/&4, 90:5873-5877 (1993)中。这样的算法被整合在NBLAST和XBLAST程序(2.0版)中,描述在Altschul, S.等,泡c/e/c ^c/^y Z5:3389-3402 (1997)中。在使用BLAST和带缺口
BLAST程序时,可以使用相应程序(例如NBLAST)的缺省参数。参见万维网ncbi.nlm.nih.gov网点。在一个实施方案中,用于序列比较的参数可以被设置为分值=100,字长=12,或可以改变(例如W=5或W=20)。
其它的例子包括了 Myers和Miller, CABIOS (1989)的算法,在Torellis, A.禾口 Robotti, C., Com-.柳/, 投3-5 (1994)中描述的
ADVANCE和ADAM算法;以及在Pearson, W.和Lipman, D., /Voc.TVa".」cad 55:2444-48 (1988)中描述的FASTA算法。
在另一个实施方案中,两个氨基酸序列之间的百分同一性可以使用GCG软件包(Accelrys, Cambridge, UK)中的GAP程序来完成。
本发明还提供了分离的核酸分子,它们含有的片段或一部分在高度严紧条件下,与含有或由SEQ ID NO:l或SEQ ID NO:2中显示的核 苷酸序列组成的核酸,或含有或由SEQ IDNO:l或SEQ ID NO:2中的 核苷酸序列的互补序列组成的核苷酸序列杂交,其中核酸序列含有本 文描述的标记物和单倍型中包含的至少一个多态性等位基因。本发明 的核酸片段的长度为至少大约15,至少大约18, 20, 23或25个核苷 酸,可以是30, 40, 50, 100, 200, 500, 1000, 10,000个或以上的核 苷酸长。
本发明的核酸片段在例如本文描述的分析方法中被用作探针或引 物。"探针"或"引物"是以碱基特异性的方式与核酸分子的互补链 杂交的寡核苷酸。除了DNA和RNA之外,这样的探针和引物包括多 月太核酸(PNA),它描述在Nielsen, P.等,&/e"ce "(1497-1500 (1991) 中。探针或引物含有与核酸分子的至少大约15个,典型为大约20-25 个,在某些实施方案中大约40, 50或75个连续的核苷酸杂交的核苷 酸序列区域。在一个实施方案中,探针或引物含有本文描述的至少一 个多态性标记物的至少一个等位基因或至少一个单倍型,或其互补序 列。在特定实施方案中,探针或引物可以含有100个或以下的核苷酸; 例如,在某些实施方案中从6到50个核苷酸,或例如从12到30个核 苷酸。在其它实施方案中,探针或引物与连续的核苷酸序列或连续的 核苷酸序列的互补序列至少70%同一,至少80%同一,至少85%同一, 至少90%同一或至少95%同一。在另一个实施方案中,探针或引物能 够与连续的核苷酸序列或连续的核苷酸序列的互补序列选择性杂交。 通常情况下,探针或引物还含有标记,例如放射性同位素,荧光标记, 酶标记,酶辅助因子标记,磁标记,自选标记和表位标记。
本发明的核酸分子,例如本文描述的那些,可以使用专业技术人 员熟知的标准分子生物学技术来鉴定和分离。可以将扩增的DNA标记
(例如放射性标记)并用作探针,筛选来自人类细胞的cDNA文库。 cDNA可以源自于mRNA并包含在适合的载体中。可以分离到相应的 克隆,在体内切除后可以获得DNA,然后可以通过本技术领域现有的方法在任一或两个方向上对克隆的插入片段进行测序,以鉴定编码具 有适合分子量的多肽的正确的阅读框架。使用这些以及类似的方法, 可以对多肽和编码多肽的DNA进行分离,测序和进一步表征。
一般来说,本发明的分离的核酸序列在Southern凝胶中可以用作 分子量标准品,并作为被标记的染色体标记物以对相关基因位置进行 作图。核酸序列也可用于与患者中的内源DNA序列进行比较,以鉴定 癌症(例如前列腺癌)或对癌症(例如前列腺癌)的易感性,以及作 为探针用于杂交和发现相关的DNA序列或从样品中扣除已知的序列 (例如扣除杂交)。核酸序列还可以用于产生引物,用于遗传指纹法, 使用免疫技术产生抗多肽抗体,和/或作为抗原产生抗DNA抗体或引发 免疫应答。
贫沐
还提供了特异性结合一种形式的基因产物但是不结合另一种形式 的基因产物的多克隆抗体和/或单克隆抗体。还提供了与含有多态性位 点或多个位点的变体或参比基因产物的一部分结合的抗体。本文使用 的术语"抗体"是指免疫球蛋白分子和免疫球蛋白分子的免疫活性部 分,即含有与抗原特异性结合的抗原结合位点的分子。与本发明的多 肽特异性结合的分子,是与该多肽或其片段结合,但是与样品,例如 天然含有多肽的生物学样品中的其它分子基本上不结合的分子。免疫 球蛋白分子的免疫活性部分的例子包括F(ab)禾卩F(ab')2片段,可以通 过用酶例如胃蛋白酶处理抗体来产生。本发明提供了与本发明的多肽 结合的多克隆和单克隆抗体。本文使用的术语"单克隆抗体"或"单 克隆抗体组合物"是指一群抗体分子,只含有一种能够与本发明的多 肽的特定表位发生免疫反应的抗原结合位点。因此,单克隆抗体组合 物典型地表现出对与其发生免疫反应的本发明的特定多肽的单一结合 亲和性。
多克隆抗体可以按照以前的描述通过用所需的免疫原例如本发明的多肽或其片段免疫适当的对象来制备。可以通过标准的技术随时间 监测被免疫的对象中的抗体滴度,例如使用固定化的多肽的酶联免疫 吸附分析(ELISA)。如果需要,可以从哺乳动物(例如从血液)中分 离针对多肽的抗体分子,并通过众所周知的技术例如蛋白A层析进一
步纯化以获得IgG级份。在免疫后适当的时间,例如当抗体滴度最高
时,可以从对象获得抗体生产细胞,用于通过标准技术制备单克隆抗
体,例如最初由Kohler和Milstein, Wa^re 256:495-497 (1975)描述的杂 交瘤技术,人类B细胞杂交瘤技术(Kozbor等,/mmm"o/. roc/a_y 4: 72 (1983)) , EBV杂交瘤技术(Cole等,《单克隆抗体与癌症疗法》 Mwoc/o"a/ /^z.6oWes Qmcer 77 era/ _y, Alan R. Liss,1985, Inc., pp. 77-96)或trioma技术。用于生产杂交瘤的技术是众所周知的(一般来 说,参见《免疫学现代方法》a/rre"Z /VWoco/j /" /www"o/og少(1994) Coligan等主编,John Wiley & Sons, Inc., New York, NY)。简单来说, 将永生的细胞株(典型为骨髓瘤)与用来自上述的免疫原免疫的哺乳 动物的淋巴细胞(典型为脾细胞)融合,并筛选获得的杂交瘤细胞的 培养上清液,以鉴定产生与本发明的多肽结合的单克隆抗体的杂交瘤。
多种众所周知的用于融合淋巴细胞和永生细胞株的方案中的任一 种都可用于产生针对本发明的多肽的单克隆抗体的目的(参见例如《免 疫学现代方法》CW"e"f /Vofoco/s /" 7m扁wo/ogy, 同上;Galfre等,A^we 266:55052 (1977); R.H. Kenneth,《单克隆抗体生物学分析中的新次 兀》Mowoc/owa/ v4"0力0(i/e5V X脸w D/me肌'on /" 」"a一ey, Plenum Publishing Corp., New York, New York (1980);以及Lerner,
M^/. 54:387-402 (1981))。此外,普通技术人员将会认识到, 这种方法的许多变化形式也将可以使用。
或者,为了制备分泌单克隆抗体的杂交瘤,可以通过用多肽筛选 重组组合免疫球蛋白文库(例如抗体噬菌体显示文库),从而分离与 多肽结合的免疫球蛋白文库成员,来鉴定和分离针对本发明的多肽的 单克隆抗体。用于产生和筛选噬菌体显示文库的试剂盒是可商购的(例如Pharmacia的重组噬菌体抗体系统,目录号No. 27-9400-01;以及 StratageneSi^/ZAPTM噬菌体展示试剂盒,目录号No. 240612)。此外, 特别适合用于产生和筛选抗体显示文库的方法和试剂的例子可以在下 列文献中发现,例如美国专利No. 5,223,409, PCT
发明者劳非·阿孟达多蒂尔, 奥古斯丁·孔, 安德烈·马诺列斯库, 尤利乌斯·格维兹门松, 帕特里克·舒莱姆 申请人:解码遗传学私营有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1