用于检测dna甲基化模式的方法

文档序号:581424阅读:833来源:国知局
专利名称:用于检测dna甲基化模式的方法
技术领域
本发明涉及用于检测与病症的存在或发生病症的素因相关的DNA甲基化标签 (signature )的方法,所述方法包括鉴定一个或多个在靶和参考样品中展示出差异DNA甲基化的候选基因,以及分别测定在所述差异甲基化的候选基因中核酸位点和DNA结合因子的识别位点,所述DNA结合因子各个识别这种差异甲基化的核酸位点,其中得到的差异甲基化的核酸位点的模式和DNA结合因子识别位点的模式一起表示DNA甲基化标签,所述标签指示靶样品中病症的存在或发生病症的素因。在具体应用中,这些DNA甲基化标签允许对患者样品分类,区分疾病亚型和/或疾病状态以及监测对治疗的应答性。
背景技术
DNA甲基化在多种生物(包括原核生物和真核生物)的基因组中被发现。在原核生物中,DNA甲基化发生在胞嘧啶和腺嘌呤碱基上并且包含部分宿主限制性系统。然而, 在多细胞真核生物中,甲基化似乎被限制在胞嘧啶碱基上并与被抑制的染色体状态和基因表达抑制相关(例如在 Wilson, G.G.和 Murray, N. Ε. (1991) Annu. Rev. Genet. 25, 585 - 627所综述的)。在哺乳动物细胞中,DNA甲基化主要发生在CpG 二核苷酸上,其不均衡分布并在基因组中被低估(underr印resented)。通常未甲基化的CpG簇(被称为CpG岛)在很多启动子区域被发现(例如在Li,E. (2002) Nat. Rev. Genet. 3,662-673中所综述的)。导致异常的基因沉默的DNA甲基化的变化已在几种人类癌症中被证明(例如在Robertson,K. D. 和Wolffe, A.P. (2000) Nat. Rev. Genet. 1,11-19中所综述的)。启动子的过度甲基化被证明是导致肿瘤抑制基因失活的常见机制(Bird,A. P. (2002) Genes Dev. 16,6_21)。DNA甲基化可通过两种不同机制的方法导致基因沉默第一种,在CpG 二核苷酸位点的甲基化阻止转录因子与其相关(Cognate)DNA识别序列结合;第二种,通过甲基-CpG的结合蛋白(MBD)家族识别甲基-CpG 二核苷酸位点,因此引起甲基化DNA的抑制潜能。存在多种方法用于实验上确定单个基因的差异甲基化(例如在Rein,Τ.等人. (1998) Nucleic Acids Res. 26,2255-2264中所综述的)。这些技术尤其包括亚硫酸氢盐测序、甲基化特异性PCR (MSP)、Methylight和焦磷酸测序(pyro-sequencing)。亚硫酸氢盐修饰将未甲基化的胞嘧啶残基转变为尿嘧啶但甲基化的胞嘧啶残基保持不受影响。亚硫酸氢盐测序通常被认为表示最合适的方法以便得到特定基因组序列的甲基化状态的全貌(overview)。MSP是文献中最普遍的方法,主要因为其能够在非常有限的生物材料量中分析DNA甲基化状态。Methylight和焦磷酸测序是基于定量PCR的方法。迄今几种基因组范围的方法学途径也已被建立,包括限制性标志性基因组扫描(RLGS)、甲基化间位点扩增(AIMS)、差异甲基化杂交(DMH)和甲基化DNA免疫沉淀(甲基-DIP)。然而,所有这些方法结束在基因序列的具体位点甲基化状态的物理分析上,但不提供此甲基化状态对具体基因沉默的功能影响的进一步信息。因此,对功能性地连接候选基因甲基化状态和转录基因调节的方法仍有需求。
4
发明目的和概述
本发明的目的之一是提供新方法用于检测一个或多个候选基因/基因座的DNA甲基化模式和用于功能性地将这些模式和所述候选基因的转录沉默相关联。因此获得的DNA甲基化标签可在筛查、诊断、预后和复发监控的靶向诊断测试中被用作分子标签。具体地,本发明的目的之一是提供用于检测与病症的存在或发生病症的素因相关的DNA甲基化标签的方法,所述方法基于鉴定一个或多个在靶和参考样品中展示出差异 DNA甲基化的候选基因/基因座,以及鉴定在所述差异甲基化的候选基因/基因座中各自的核酸位点和DNA结合因子的识别位点,所述DNA结合因子各个识别这种差异甲基化的核酸位点,其中得到的差异甲基化的核酸位点的模式和DNA结合因子识别位点的模式一起表示 DNA甲基化标签,所述标签指示靶样品中病症的存在或发生病症的素因。本发明的另一个具体目的是确定在特定的(生物学的)样品中存在的过度甲基化并因此可参与肿瘤抑制基因沉默的候选基因/基因座的子集,和甲基化不足并因此可与癌基因激活相关的候选基因的子集,以及通过鉴定在差异甲基化位点识别候选基因/基因座转的录因子和/或甲基化蛋白结合蛋白来评估各自的候选基因/基因座对基因沉默的潜在影响。这些目的以及其它将从随后的描述中变得明显的目的通过独立权利要求的主题来获得。一些优选的实施方案通过从属权利要求的主题来详细说明。在一个实施方案中,本发明涉及检测与病症的存在或发生病症的素因相关的DNA 甲基化标签的方法,所述方法包括
(a)提供多个匹配样品,所述多个包含至少一个靶样品和至少一个参考样品;
(b)在至少一个靶样品中鉴定一个或多个相对于至少一个参考样品展示出差异DNA甲基化的候选基因/基因座;
(c)确定包含在步骤(b)中获得的一个或多个差异甲基化的候选基因/基因座中的核酸位点;以及
(d)确定在步骤(b)中获得的一个或多个候选基因/基因座中DNA结合因子识别位点的存在,其中所述DNA结合因子各个识别在步骤(c)中确定的核酸位点;
其中在步骤(c)中获得的差异甲基化的核酸位点的模式和在步骤(d)中获得的DNA结合因子识别位点的模式一起表示DNA甲基化标签,所述标签指示在所述至少一个靶样品中病症的存在或发生病症的素因。在所述方法优选的实施方案中,包含在一个或多个差异甲基化的候选基因/基因座中的核酸位点是CpG 二核苷酸位点。差异DNA甲基化优选地通过选自以下的一个或多个方法来确定亚硫酸氢盐测序、焦磷酸测序、甲基化敏感的单链构象分析(MS-SSCA)、高分辨熔解分析(HRM)、甲基化敏感的单核苷酸引物延伸(MS-SnuPE)、碱基特异性切割/ MALDI-T0F,甲基化特异性PCR (MSP)、基于微阵列的方法和ife/71切割。在优选的实施方案中,所述方法的步骤(C)进一步包括将一个或多个差异甲基化的候选基因/基因座分为
-第一子集“m”,其为一个或多个包含在至少一个参考样品中甲基化和在至少一个靶样品中非甲基化的核酸位点的候选基因/基因座;和
-第二子集“Π”,其为一个或多个包含在至少一个参考样品中非甲基化和在至少一个靶样品中甲基化的核酸位点的候选基因/基因座。在另一个优选的实施方案中,所述方法的步骤(d)进一步包括对于一个或多个 DNA结合因子的第一子集“M”确定和选择识别位点,其中DNA结合因子的子集“M”的每一个成员选择性地识别子集“m”的一个或多个候选基因。在还另一个优选的实施方案中,所述方法的步骤(d)进一步包括对于一个或多个 DNA结合因子的第二子集“N”确定和选择识别位点,其中DNA结合因子的子集“N”的每一个成员选择性地识别子集“η”的一个或多个候选基因。特别优选地,DNA结合因子的子集“N”表示DNA甲基结合蛋白。在进一步具体的实施方案中,DNA甲基结合蛋白选自MBDl、MBD2、MBD3、MBD4、MIZF、Kaiso和MeCP2。在另一个具体的实施方案中,本发明的方法进一步包括对于选择的DNA结合因子的子集“M”每一个成员确定被识别的包含在子集“m”中的候选基因,和/或对于选择的DNA 结合因子的子集“N”每一个成员确定被识别的包含在子集“η”中的候选基因。在还另一个具体的实施方案中,本发明的方法进一步包括步骤(d)的一个或多个重复,其中每一个重复包括在一个或多个候选基因/基因座中确定一个或多个DNA结合因子的识别位点的存在,所述DNA结合因子尚未包括在之前重复的确定中。优选地,鉴定的DNA甲基化标签包含至少10个候选基因。在另一个优选的实施方案中,一个或多个鉴定的候选基因的DNA甲基化标签指示在至少一个靶样品中癌症的存在或发生癌症的素因。特别优选地,对于候选基因的子集“ m” 鉴定的DNA甲基化标签指示一个或多个癌基因的激活和/或对于候选基因的子集“η”鉴定的DNA甲基化标签指示一个或多个肿瘤抑制基因的失活。在进一步具体的实施方案中,所述方法在计算机上模拟进行(i/7 silica)。在进一步具体的实施方案中,本发明的方法进一步用于预测对在至少一个靶样品中存在的病症或倾向发生的病症的处理的治疗应答。在另一个实施方案中,本发明涉及如本文中所定义的DNA甲基化标签作为用于病症的筛查、诊断、治疗计划和/或复发监控的患者样品分类的生物标记的用途。在还另一个实施方案中,本发明涉及所述方法与其它患者数据和临床参数一起作为基于计算机的临床决定系统的整体部分的用途。


图1描述了用于确定包含在候选基因中的差异甲基化核酸位点的基于甲基化依赖的限制性分析的示例性方法的示意性说明。所述方法的原则在实验部分更详细地描述。图2显示了成簇的样品(列)对甲基化基因座(行)的示例性分布。获得的DNA甲基化模式允许区分肿瘤(顶部条的左边部分)和正常组织(顶部条的右侧部分)。图3表示根据本发明的方法的通常原则的示意性说明。图4 (A)显示差异甲基化基因座的列表(使用ifepl切割和MOMA阵列鉴定),其被发现指示区别不同的乳腺癌的亚型,即luminal A型对kisal and Her2型。(B)描述了表格,其包括甲基结合蛋白(MBP)、JfepI片段(MSP)(其中MBP结合位点被鉴定),到最近的基因的距离和所述最近的基因的名称。发明的具体描述
本发明基于确定DNA甲基化标签能够可靠检测特定样品中病症的存在和发生病症的素因的意外发现,所述DNA甲基化标签基于包含在一个或多个差异甲基化的候选基因/基因座中的核酸位点的模式和识别所述差异甲基化的核酸位点的DNA结合因子识别位点的模式。在下文中说明性地描述的本发明可适当地在任何要素或多个要素、限制或多个限制缺乏情况下实践,其不是本文中特别公开的。本发明将关于具体实施方案和参考某些图片进行描述,但本发明不限于此而只由权利要求限制。描述的图片只是示意性的并将认为是非限制性的。在术语“包含”(comprising)被用于本描述和权利要求中的情况下,其不排除其它元素和步骤。为了本发明的目的,术语“由……组成”(consisting of)被认为是术语“包含”(comprising of)的优选实施方案。如果在下文中一组被定义为包含至少某个数量的实施方案,也可理解为公开了优选只由这些实施方案组成的组。在使用不定冠词和定冠词的情况下,当涉及单数名词例如“一”和“其”(“a”或 “an”、“the”)时,这包括了该名词的复数,除非另外特别指出。另外,在说明书和权利要求中术语第一、第二、第三、(a)、(b)、(c)和类似术语用于区别相似的元素而对描述连续的或时间顺序是非必要的。应理解的是如此使用的术语在适当的环境中是可互换的,本文中所描述的本发明的实施方案能够以其它而非本文中描述或举例的顺序进行。术语的进一步定义将在术语应用的上下文中给出。以下术语或定义单独提供以帮助理解本发明并不解释为具有小于技术人员所理解的范围。在第一方面,本发明涉及检测与病症的存在或发生病症的素因相关的DNA甲基化标签的方法,所述方法包括
(a)提供多个匹配样品,所述多个包含至少一个靶样品和至少一个参考样品;
(b)在至少一个靶样品中鉴定一个或多个相对于至少一个参考样品展示出差异DNA甲基化的候选基因/基因座;
(c)确定包含在步骤(b)中获得的一个或多个差异甲基化的候选基因/基因座中的核酸位点;以及
(d)确定在步骤(b)中获得的一个或多个候选基因/基因座中DNA结合因子识别位点的存在,其中所述DNA结合因子各个识别在步骤(c)中确定的核酸位点;
其中在步骤(c)中获得的差异甲基化的核酸位点的模式和在步骤(d)中获得的DNA结合因子识别位点的模式一起表示DNA甲基化标签,所述标签指示在所述至少一个靶样品中病症的存在或发生病症的素因。本发明中所用的各自的靶样品和参考样品可以源自原核生物或真核生物来源。通常,所用的样品是哺乳动物样品,其可以是人类或非人类来源的,优选人类样品。本文中所用的术语“样品”应理解为不仅包括个体细胞还包括组织、器官和生物体。本文中所用的术语“靶样品”是指至少假定展示或具有发生病症的素因的样品,而术语“参考样品”(也称为“对照样品”)通常表示不具有这样病症的特征的野生型材料(例
7如健康细胞)。但是,在一些应用中,本发明的方法可用于分析和比较几种展示病症特征的样品(例如,疾病早期和疾病状态),例如为了监控疾病发展。在这样的情况中,如果不包括野生型(健康)对照样品,具有较轻疾病特征的样品通常作为“参考样品”。本文中所用的术语“匹配样品”表示多个至少两个彼此相关的样品。例如,被分析的样品对可包括一个源自患病(例如癌症)患者的靶样品和一个源自健康个体的参考样品。 但是本发明的方法不限于分析样品对。例如,也可能对比一个参考样品分析4个不同的靶样品,例如源自患相同疾病但受不同程度影响的患者的靶样品(例如3个不同的癌症前期状态和一个癌症样品)。因此,本文中所用的术语“多个匹配样品”表示任何偶数或奇数的彡2的样品(例如2、3、4、5、6、7、8、9、10、11、12等等),只要多个样品包含至少一个靶样品和至少一个参考样品。通常本发明中所用的靶样品和参考样品源自从被治疗的个体收集来的生物材料。 另外,为了确保获得的数据,“对比样品”也可从具有特定已知疾病状态的个体处收集。生物样品可包括身体组织(例如活检或切除)和/或体液,如血液、痰和尿。另外,生物样品可包含源自对象的细胞群的细胞抽提物或细胞群。任选地,细胞或细胞抽提物可从获得的身体组织和液体中纯化,如果必要然后用作生物样品。本发明的方法中所用的样品应通常以临床可接受的方式收集,优选以核酸或蛋白质被保存的方式。本文中所用的术语“病症”可最广义地理解。该术语表示(i)任何类型的医学情况,即靶样品(即细胞和/或组织)中相对于未受影响的(野生型)对照样品展示功能紊乱和 /或异常细胞表型特征的任何形态学和/或生理学改变;和/或(ii)在各自的靶样品和参考样品之间任何形态学、生理学和/或药理学差异。根据(i)的改变的实例可尤其涉及细胞大小和形状(增大或缩小)、细胞增殖(细胞数量增长)、细胞分化(生理状态改变)、凋亡(程序化细胞死亡)或细胞存活。根据(ii)的差异的实例包括尤其肿瘤样品对比健康对照(为了诊断或复发监控的目的)、浸润性对比非浸润性肿瘤样品(即不同肿瘤阶段和/或肿瘤亚型;为了预后分析的目的)、相关于治疗方案的情况如对特定病症/医学情况特殊治疗的应答性对比非应答性。因此术语病症可解释为两个或多个样品之间的基于所述样品可被区分和/或分类的任何种类差异。在优选的实施方案中,病症是癌症,即一类恶性瘤(也称为癌)包括尤其是结肠癌、 肺癌、肝癌、乳腺癌、卵巢癌和胰腺癌、黑色素瘤、神经细胞瘤(例如成胶质细胞瘤、星形细胞瘤、髓母细胞瘤)及其它。如本文中所用的术语“具有发生病症的素因”表示任何指示病症前期状态的细胞表型,即正常转化到异常表型的中间状态。换言之,该术语表示发生病症的危险状态。本文中所用的术语“鉴定一个或多个候选基因/基因座”应以从存在于特定样品中的经历差异甲基化的基因的组中“选择”至少一个候选基因的意义解释。如本文中所用的术语“候选基因”(本文也称为“候选基因座”)涉及在其核酸序列中包含一个或多个可以甲基化状态和非甲基化状态存在的核酸位点的任何基因座。在本发明的上下文中,术语基因不必要限制为编码蛋白的序列(开放读码框)也包括基因间的区域。选择(即选择的候选基因/基因座的数量和/或种类)可以改变,例如依赖于待分析的疾病或病症的治疗形式,包括对分析的样品取自的治疗个体的疾病的治疗干预、诊断标准如疾病阶段和疾病监控和监督。另外术语“鉴定”包含了确定在至少一个靶样品和至少一个参考样品中差异DNA甲基化的程度和比较获得的结果。鉴定的一个或多个候选基因/基因座可单独地进行进一步分析或其可被聚类到一个或多个候选基因/基因座标签,其中每个标签的实体被整体分析(即一起)。如本文中所用的术语“候选基因/基因座标签”表示至少两个彼此相关的候选基因/基因座的子集, 例如,编码功能相等的蛋白或参与相同的信号通路的蛋白或类似情况。本文中所用的术语“DNA甲基化”表示DNA的化学修饰类型,其包括添加甲基基团到DNA上,例如添加到胞嘧啶的嘧啶环的C5碳原子或添加到腺嘌呤的嘌呤环的N6氮原子, 其是本文中特别优选的第一选择。此修饰可遗传并随后不改变原始DNA序列地被移除。如此,其为表观遗传学编码的部分及最佳表征的表观遗传学机制。在胞嘧啶C5处的DNA甲基化已在每种检查的脊椎动物中被发现。在成年的体组织(somatic tissues)中,DNA甲基化通常发生在CpG 二核苷酸的情况中(参看下文)。非 CpG甲基化是普遍的,例如在胚胎干细胞中。DNA甲基化是可逆的DNA甲基转移酶催化甲基基团从S-腺苷-L-甲硫氨酸转移到胞嘧啶或腺嘌呤残基。在复制中DNA聚合酶不复制甲基化状态(例如在 Robertson, K. D.和 Wolffe, A. P. (2000),如上;Li, Ε. (2002),如上;Bird, A. P. (2002),如上综述的)。如本文中所用的术语“差异DNA甲基化”表示具体候选基因(包含在其序列中的一个或多个核酸位点上)在至少一个靶样品中甲基化但在至少参考样品中非甲基化的情况, 或者反之亦然,具体候选基因(包含在其序列中的一个或多个核酸位点上)在至少一个参考样品中非甲基化但在至少靶样品中甲基化的情况。通常地,一个或多个候选基因/基因座的差异DNA甲基化模式的确定可通过本领域已知的任何方法完成。在优选的实施方案中,差异DNA甲基化通过一个或多个选自以下的方法确定亚硫酸氢盐测序、焦磷酸测序、甲基化敏感的单链构象分析(MS-SSCA)、 高分辨熔解分析(HRM)、甲基化敏感的单核苷酸引物延伸(MS-SnuPE)、碱基特异性切割/ MALDI-TOF,甲基化特异性PCR (MSP)、基于微阵列的方法和i&pl切割构成(例如在Rein, Τ.等人.(1998),如上中综述的)。进一步适合的方法例如在美国专利申请2006/(^92564 Al中被公开。一个或多个候选基因/基因座的差异DNA甲基化模式的确定已包括鉴定如根据本发明的方法的步骤(c)中定义的包含在一个或多个的候选基因中的准确的核酸位点(即序列原件,遗传位点)。在本方法优选的实施方案中,包含在一个或多个差异甲基化的候选基因/基因座中的核酸位点是CpG 二核苷酸位点。如本文中所使用的术语“CpG 二核苷酸位点”(或者“CpG位点”)是指DNA区域,其中胞嘧啶核苷酸在线性序列上定位直接与鸟嘌呤核苷酸相邻。“CpG”表示通过磷酸分隔的胞嘧啶和鸟嘌呤(即-C-磷酸-G-)。“CpG”符号用于区分胞嘧啶接着鸟嘌呤和胞嘧啶碱基配对到鸟嘌呤。存在具有较高浓度的CpG位点的DNA区域,被称为CpG岛。哺乳动物基因组中很多基因具有与基因转录起始位点(包括启动子)相关的CpG岛。基因启动子中的CpG位点过度甲基化(即升高的甲基化水平)可引起基因的沉默,其为例如在多种人类癌症中发现的特征(例如癌症抑制基因的沉默)。相反,CpG位点的甲基化不足(即降低的甲基化水平)已与癌症细胞中的癌基因过表达相关(例如在Robertson, K. D.和 Wolffe, A. P. (2000),如上;Li, Ε. (2002),如上;Bird, Α. P. (2002),如上,· Klose, R.J.和 Bird, A. P. (2006) Trends Biochem. Sci. 31,89-97 中综述的)。在优选的实施方案中,所述方法的步骤(C)进一步包括将一个或多个差异甲基化的候选基因/基因座分为
-第一子集“m”,其为一个或多个包含在至少一个参考样品中甲基化和在至少一个靶样品中非甲基化的核酸位点的候选基因/基因座;和
-第二子集“n”,其为一个或多个包含在至少一个参考样品中非甲基化和在至少一个靶样品中甲基化的核酸位点的候选基因/基因座。在本发明的上下文中,候选基因/基因座可包含仅单个在至少一个靶样品和至少一个参考样品之间差异甲基化的核酸位点。但是,也可能的是具有多于一个这样的核酸位点的特定的候选基因/基因座,所述核酸位点可以是相同类型(即其全部属于如上定义的子集“m”或其全部属于如上定义的子集“η”)或不同类型(即至少其中一个属于如上定义的子集“m”并且至少一个其它的属于如上定义的子集“η”)。在多于一个包含在特定的候选基因/基因座中的差异甲基化核酸位点的情况中,随后的DNA结合因子识别位点分析,如根据本发明的方法的步骤(d)定义的,可对每一个单独的核酸位点分别进行或对候选基因以其整体进行。因此,术语“候选基因/基因座”和“核酸”可在本文中交替使用,依赖进行分析的的类型。因此,本发明的方法可包括选择和分析一个或多个候选基因、一个或多个核酸位点或者其组合。类似地,DNA甲基化状态(或水平)可涉及单独的核酸位点或包含多于一个核酸位点的候选基因/基因座的整个甲基化水平。如果多个核酸位点是相同类型的(参见上文), 后一种情况表现出不加鉴别的(uncritical)。但是,在多个核酸位点包含不同类型的实体的情况下,如果在至少一个靶样品中相对于至少一个参考样品比反之具有更高数量的非甲基化核酸位点变为甲基化,则候选基因/基因座被认为是处于“甲基化”状态。另一方面, 如果在至少一个靶样品中相对于至少一个参考样品比反之具有更高数量的甲基化核酸位点变为非甲基化的,则候选基因/基因座被认为是处于“非甲基化”状态。如本发明的方法的步骤(d)中定义的,确定在一个或多个候选基因/基因座中DNA 结合因子的识别位点的存在也可通过本领域已知的任何方法来完成。通常,此目标通过将一个或多个DNA结合因子的各自DNA识别(即结合)位点的一致序列(从文献或从数据库如 TRANSFAC 中获得;Wingender, E.等.Nucleic Acids Res. 24,21-25)与一个或多个待分析的候选基因的核酸序列比对来完成。在本发明中,仅考虑那些与差异甲基化位点相同或重叠的识别位点,以这样的方式,如本文中定义的DNA结合因子对识别位点的识别/结合阻止此位点的甲基化,或反之亦然,位点的甲基化阻止DNA结合因子识别/结合位点。换言之,在包含在候选基因中的特定的核酸位点上存在DNA甲基化和DNA结合因子识别的相互排斥性。如本文中所用的术语“DNA结合因子”表示结合靶DNA分子中特定序列元件的任何蛋白质,因此发挥关于所述DNA分子表达的任何作用,优选在转录水平上,即,激活(或增强) 或者抑制(或沉默)基因表达。因此,DNA结合因子通常也称为“转录因子”。这样的DNA结合因子的实例包括尤其是真核生物通常的参与转录预起始复合物组装的转录因子(TFIIA、 TFIIB、TFIID、TFIIE、TFIIF和TFIIH)、上游转录因子(结合起始位点上游某处以刺激或抑制转录)和可诱导的转录因子(类似于上游转录因子但需要激活或抑制)。后两类的具体实例包括例如螺旋-环-螺旋/亮氨酸拉链因子、锌指因子、螺旋-转角-螺旋因子(例如 homeo结构域因子、叉型头/翼螺旋因子、热休克因子)、β _支架因子(例如STAT因子,TATA 结合因子)及甲基化DNA结合蛋白,后者特别优选(参见下文)。如上文概述的,DNA甲基化可通过两种不同机制导致基因沉默第一,CpG 二核苷酸位点的甲基化阻止具有其同类DNA识别序列的转录因子结合到这样的位点;以及第二, 甲基-CpG结合蛋白(MBD)家族识别甲基-CpG 二核苷酸位点,因此引起甲基化的DNA的抑制潜能。在第一个提到的情况中,识别序列类似候选基因/差异甲基化核酸位点的第一子集“m”,其在至少一个参考样品中甲基化并在至少一个靶样品中非甲基化。在第二个情况中,识别序列类似候选基因/差异甲基化核酸位点的第二子集“n”,其在至少一个参考样品中非甲基化并在至少一个靶样品中甲基化。因此,DNA结合因子和DNA结合因子的识别位点的不同子集可以分别被定义。在优选的实施方案中,所述方法的步骤(d)进一步包括为一个或多个DNA结合因子的第一子集“M”确定和选择识别位点,其中DNA结合因子的子集“M”的每一个成员选择性地识别子集“m”的一个或多个候选基因。在另一个优选的实施方案中,所述方法的步骤(d)进一步包括为一个或多个DNA 结合因子的第二子集“N”确定和选择识别位点,其中DNA结合因子的子集“N”的每一个成员选择性地识别子集“η”的一个或多个候选基因。在本发明特别优选的实施方案中,DNA结合因子的子集“N”表示DNA甲基结合蛋白。最优选的,DNA甲基结合蛋白选自MBDl、MBD2、MBD3、MBD4、MIZF、Kaiso和MeCP22。如本文中所用的术语“DNA甲基结合蛋白”表示DNA结合因子的特定家族,其特异性识别甲基化的DNA序列,特别是甲基化的CpG 二核苷酸(mCpG)。DNA甲基结合蛋白在十几年前被鉴定(例如在 Bird, Α. P.和 Wolffe,Α. P. (1999) Cell 99,451-454; Wade, P. A. (2001) BioEssaysl ,, 1131-1137 ;Hendrich, B.禾口 Tweedie, S. (2003) Trends Genet. 19,269-277中综述的)。甲基-CpG-结合结构域(MBD)——负责结合甲基化的CpG 二核苷酸的蛋白基序——的特征促进共享此结构域的蛋白家族的生物信息鉴定。除了 MBD3(包含阻止结合到甲基-CpG上的氨基酸取代),哺乳动物的MBD蛋白(命名为MBD1-MBD4)和正在建立的(founding)成员MeCP2均特异性识别甲基_CpG。MIZF表示MBD2相互作用的锌指,其组成MeCPl组蛋白脱乙酰酶(HDAC)复合物的组分。名为Kaiso的新MBP缺乏MBD, 但通过锌指结构域识别甲基化的DNA。所有MBP可介导基因表达沉默。这通过将染色质重塑辅阻遏物复合物靶向到包含DNA甲基化的区域来完成。本文中特别提及的所有6个甲基 DNA结合蛋白是本领域众所周知的。它们的核酸序列及其DNA识别保守基序可从数据库如 GeneBank中得到。相应的6个人类基因的核苷酸序列保存在GenBank中,其具有以下登记号 MBD1 ΝΜ_015846 (异构体1 ;总共4个异构体)
MBD2: NM_003927 (异构体1 ;总共2个异构体) MBD3: NM 003926MBD4: NM_003925 MIZF NM_015517
MeCP2:NM_004992 (异构体1 ;总共2个异构体) Kaiso: NM_006777o根据本发明,对于确定DNA结合因子的识别位点的存在的以上分析可对包含在差异甲基化的候选基因/基因座中的单独的核酸位点、对包含在单独的候选基因/基因座中的2个或更多这样的位点和对2个或更多候选基因/基因座(每一个基因包含一个或多个差异甲基化位点)分别地进行,其中2个或多个位点可伴随地或顺序地分析。另外,任何这些分析可对于一个或多个DNA结合因子的识别位点进行,其中保守结合序列存在的评估可伴随地或者顺序地进行。在一些实施方案中,本发明的方法进一步在步骤(d)中包含一个或多个分析循环, 每一个循环包含在一个或多个鉴定的候选基因中确定DNA结合因子识别位点和随后选择 DNA结合因子识别位点的一个或多个子群,其存在于一个或多个候选基因/基因座中,或反之亦然,其在一个或多个候选基因/基因座中缺乏。随后仅选择的一个或多个子群(和因此仅包含各自结合位点的候选基因/基因座)进行另一轮分析。因此,本发明的方法可包括步骤(d)的一个或多个重复,其中每一个重复包括在一个或多个候选基因/基因座中确定一个或多个DNA结合因子的识别位点的存在,其尚未包括在之前重复的确定中。例如,在分析的第一轮中,如上文定义的DNA结合因子的子集N被选择。因此,只有那些包含对于DNA结合因子该子集N的结合位点的候选基因(即子集“η”的候选基因)将被进一步考虑。随后假定的是DNA结合因子的子集N包含转录因子的一个或多个(结构上和/或功能上相关的)家族,命名为子群Ni、Ν2、Ν3、Ν4、Ν5、Ν6等等。在第二轮,只有子群 Nl (例如甲基DNA结合蛋白)会被分析。因此,仅包含对于m识别位点的候选基因的相应子群“nl”将被选择并进行第三轮分析。现在,假定子群m包含多个单独的DNA结合因子, 命名为Ni” Nl2, Nl3、Nl4, Nl5, Nl6等等。在第三轮,只有Nl1和Nl2 (例如MBDl和MBD2)会被分析。因此,在三个选择循环后,只有那些表达受W1和附2的结合影响的候选基因保留。也可能的是组合分析阳性(存在特异性识别位点)和阴性特征(缺失另一个特异性识别位点)。因此,通过使用这种方法,遗传网络可被阐明,例如甲基化依赖表达的候选基因通过单个转录因子调节。因此,在具体实施方案中,本发明的方法进一步包括对于选择的DNA结合因子的子集“M”每一个成员确定被识别的包含在子集“m”中的候选基因,和/或对于选择的DNA 结合因子的子集“N”每一个成员确定被识别的包含在子集“η”中的候选基因。因此,本发明的方法导致确定包含在一个或多个候选基因/基因座中的差异甲基化核酸位点的模式和对于特异性结合差异甲基化核酸位点的DNA结合因子确定识别位点的模式。相关的这些模式加起来成为独特的DNA甲基化标签,其指示在至少一个靶样品中病症的存在或发生病症的素因。如本文中所用的术语“DNA甲基化标签”(也称为“生物标签”)表示一组一个或多个候选基因/基因座,其具有特定DNA甲基化相应的模式,以及存在于其核酸序列中的DNA 结合因子识别位点的相应特定模式。此独特的组合允许鉴定靶样品中能够将靶样品从参考样品中区分出的表型状态(例如病症)。
换言之,根据本发明,DNA甲基化标签以其总体(即一个或多个差异甲基化候选基因一起)指示病症的存在而不是仅仅任何像这样的单独的候选基因/基因座的差异甲基化可指示的。在本发明的上下文中,确定DNA结合因子的识别位点的模式也可被认为是“过滤系统”,用于增加DNA甲基化标签/生物标签用于具体应用(例如用于诊断特定的肿瘤亚型和将所述亚型从其他可能接近的相关亚型中区分出来)的意义。因此,这样的过滤器可被用于基于其调节潜力(即基于序列的保守值和其中调节元件的存在)区分包含在这样的生物标签中的候选基因/基因座的优先次序。在具体的实施方案中,DNA甲基化标签包含至少3个或至少5个候选基因。优选地,DNA甲基化标签包含至少10个候选基因(例如12、15、20、50、100、200、1000或更多个)。在进一步具体的实施方案中,所述方法在计算机中模拟进行。如本文中所用的术语“在计算机中模拟”、“inO可理解为“在计算机上或通过计算机模拟进行”。本发明的方法可通过计算机模拟完整地进行或至少部分地,即通过组合实验方法和计算机模拟进行。这可依赖于具体应用、待分析的样品的类型、待检查或诊断的情况等。用于进行这样的计算机模拟的方法和软件是商业上可获得的并且是本领域众所周知的。在另一个优选的实施方案中,一个或多个鉴定的候选基因/基因座的DNA甲基化标签指示在至少一个靶样品中癌症的存在或发生癌症的素因(也参见上文讨论的)。特别优选地,对于候选基因/基因座的子集“III”鉴定的DNA甲基化标签指示一个或多个癌基因的激活和/或对于候选基因/基因座的子集“η”鉴定的DNA甲基化标签指示一个或多个肿瘤抑制基因的失活。在进一步具体的实施方案中,本发明的方法进一步用于预测对在至少一个靶样品中存在的病症或倾向发生的病症的处理的治疗应答。在另一方面,本发明涉及如本文定义的DNA甲基化标签作为用于病症的筛查、诊断、治疗计划和/或复发监控的患者样品分类的生物标记的用途。在还另一个方面,本发明涉及所述方法与其它患者数据和临床参数一起用作基于计算机的临床决定系统的整体部分的用途。本发明进一步通过附图和以下实施例描述,其仅用于阐明本发明的具体实施方案的目的,并不解释为以任何方式限制本发明的范围。
实施例1.样品
患者样品从挪威奥斯陆挪威Radium医院获得。患者同意根据法律规定获得。2. CpG 岛
注释的CpG岛从UCSC基因组浏览器中获得。这些岛用Gardiner-Garden定义预测 (Gardiner-Garden, Μ·和Frommer, Μ. (1987) J. Mol. Biol. 196,洸1_82),其包括以下标准长度彡200 bp ;% GC彡50% ;观测的/预期的CpG彡0.6。在基因组中有在200bp 到2000bp的大小范围内的约沈219个CpG岛。这些岛用i&pl限制性片段化良好地覆盖。阵列由 Roche NimbleGen he. (Madison, WI, USA)生产,对下列说明使用 390K 格式。来自人类基因组构造33(hgl7)的CpG岛注释用于设计50mer的叠瓦式阵列(tiling array)。
13
50mer被转移到岛序列坐标的任意一侧以平均分配在岛上。390K格式具有367658 个可利用的特征,其不适合所有带有50mer瓦的岛。因此基于大小表示的岛的截止值仅用被测定的具有200bp到2000bp大小的CpG岛确定。设计对照探针以表示背景信号。样品制备基本上如之前描述的进行 (Lucito,R.等人Q003) Genome Res. 13,2291-2305), 除了以下修正(i)使用的主要限制性核酸内切酶是i&pl。(ii)在消化后,接头
和ASPIianer被连接。1 ^iier是非磷酸化的并且不会被连接。(iii)在连接后,材料通过酚 /氯仿抽提纯化、沉淀、离心和重悬。然后材料被分成两等份,一半用限制性核酸内切酶JfcrBC消化,另一半被模拟消化。4个250 μ 1管被用于每一个样品对的代表的PCR扩增,每一个具有100 μ 体积反应。 循环条件是95°C 1分钟,72°C 3分钟,15个循环,随后72°C延伸10分钟。然后每一对管中的内容物被集中起来。样品通过酚/氯仿抽提清洁、沉淀、重悬,DNA浓度被确定。DNA如描述的被标记(Lucito,R.等人O003),之前)除了小量改变。简要地, 2 μg DNA模板(溶解在TE缓冲液中,pH8.0)置于0.2 ml PCR管。5 μ 1随机九聚物 (Sigma-Aldrich Co. , St. Louis, MI, USA)被加入,用 dH20调节终体积至 25 μ ,样品被混勻。管在100°C孵育5分钟,然后在冰上5分钟。向每一个样品中加入5 μ 1 NEB Buffer 2 (New England Biolabs, Ipswich, MA, USA),5 μ 1 dNTPsCO. 6 nM dCTPU. 2 nM dATP、 dTTP、dGTP 的每一种)、5 μ 1 标记物(Cy3_dCTP 或 Cy5_dCTP ;GE Healthcare Bio-Sciences Corp.,Piscataway,NJ,USA)、2 μ 1 NEB Klenow 片段和 2 μ 1 dH20。杂交和洗涤的程序基本上如描述的(Lucito,R.等人0003),之前),除了杂交的烘烤温度上升至50°C。阵列用 GenePix 4000B 微阵列扫描仪(Molecular Devices, Inc.,Sunnyvale, CA, USA)以 5μπι 的像素大小扫描。GenePix Pro 4. 0软件用于定量阵列的强度。阵列数据被输入到S-PLUS统计软件用于进一步分析。3.数据分析
微阵列图片在GenePix 4000B微阵列扫描仪上扫描,数据用Nimblescan软件(Roche NimbleGen Inc.,Madison,WI,USA)提取。对每一个探针,对于每一个实验和其相关的染料互换(dye swap)计算McrBc和对照处理样品的比值的几何平均值(即GeoMeanRatio)。随后将数据集中所有样品的各自的几何平均值用分位数归一化方法归一化 (Bolstad, B. M.等.Q003) Bioinformatics 19,185-193)。每一个实验的归一化的比值随后组合以用中位数平滑模型(median polish model)对于在每一个i&pl片段的所有探针得到一个值。因此获得的数据随后用于进一步分析。变异分析用于鉴定最显著的岛。为了确定肿瘤和正常样品间甲基化最一致发生的变化,我们使用t检验方法。在对多重检测校正后使用0.001的P值截止(错误发现率; Benjamini, Y.禾口 Hochberg, Y. (1995) J. Roy. Stat. Soc.,Ser. B 57,289—300), 获得916个差异甲基化的片段的列表。监督式学习监督式机器学习分类器用于鉴定区别肿瘤样品和正常所需特征的数量。公众可获得的支持向量机(SVM)库(LibSVM Ver 2. 8)用于使用留一法(leave one out method) (Lin, C.J. (2001) Neural Computation 13,307-317)获得分类精确性。用于分类的甲基化特征首先在单独的训练数据中使用t检验选择。SVM然后在前10、50、100个特征中使用径向基函数(RBF)内核训练。
对于N个样品,t检验对(N-I)个样品进行以鉴定带有甲基化比值显著差异的片段。对于N个样品,此分析进行N次,在t检验计算中每次省略一个样品。来自(N-I)个样品的前10个片段特征的甲基化比值随后用于训练SVM。一个未训练的样品的比值用作对照。基于至少10个特征,完成94%的分类精确性。有趣地,两个在此分析中被归类为正常的来自肿瘤样组织的样品也是分别在基因表达和ROMA分析中最接近正常的。4.甲基化位点的检测
在一个实施方案中,所述方法包括从样品(如细胞系、组织或血液样品)中分离基因组 DNA。DNA提取可通过本领域普通技术人员标准方法来完成,包括使用去垢剂裂解、超声和玻璃珠涡旋。一旦核酸被提取,基因组双链DNA可用于分析。任选地,DNA可在进一步分析前切开。然后,处理基因组DNA样品以使5’位置未甲基化的胞嘧啶碱基被转换为尿嘧啶、胸腺嘧啶或另一个在杂交行为方面不像胞嘧啶的碱基。这在下文中将理解为‘预处理,。基因组DNA的处理优选用亚硫酸氢盐(bisulfite)(亚硫酸盐(sulfite)、酸式硫酸盐 (disulfite))和随后的碱性水解进行,导致未甲基化的胞嘧啶碱基转换为尿嘧啶。如果亚硫酸氢盐溶液用于反应,那么亲核加成在未甲基化的胞嘧啶上发生。另外变性试剂或溶剂及基团拦截器(radical interc印tor)必须存在。转变的DNA随后用于检测甲基化胞嘧啶残基(参见图1)。待分析的各自的DNA片段被扩增。因为统计学和实践的考虑,优选多于10个具有 100bp-2000bp长度的不同的片段被扩增。几个DNA片段的扩增可以同时在一个和相同的反应容器中进行。通常,扩增通过聚合酶链式反应(PCR)的方法进行。PCR中所用的寡核苷酸引物的设计对本领域普通技术人员是显而易见的。优选地, 引物不包含任何CpG 二核苷酸。设计所述引物寡核苷酸序列以选择性地退火到并扩增仅特异性的感兴趣的DNA片段,因此最小化背景或非相关DNA的扩增。在具体的实施方案中,在扩增中至少一个引物寡核苷酸结合到固相上。不同的寡核苷酸序列可以矩形或六边形格子的形式排列在平面的固相上,固相表面尤其由硅、玻璃、 聚苯乙烯、铝、钢、铁、铜、镍、银、或金、硝酸纤维素或塑料组成。获得的片段可携带可直接或间接检测的标记物。优选地,所用标记物是荧光标记物、放射性标记物或具有可被质谱仪检测的典型质量的可分开的分子片段。随后,分析核酸扩增子以确定处理前的基因组DNA的甲基化状态。几种处理过的核酸的甲基化状态特异性分析的方法是已知的,其它可选方法对本领域普通技术人员将是显而易见的。例如,分析可在扩增步骤中进行。在这样的情况中,在核酸中预先选择的CpG位置的甲基化状态可使用甲基化特异性引物寡核苷酸来检测(参见例如美国专利 6,265, 171)。图2显示成簇的样品(列)对于甲基化基因座(行)的示例性分布。获得的DNA甲基化模式允许区别肿瘤(顶部的条的左边部分)和正常组织(顶部的条的右边部分)。5. DNA甲基化模式的预测
首先,差异甲基化基因(或其他基因座)的数据集必须用低通量测定(如甲基化特异性 PCR(MSP))或高通量测定(例如MOMA、HELP测定、甲基DIP或Illumina’ s甲基化珠阵列技术)产生。在根据本发明的方法下的原理的示意性表示在图3中描述。用于区分乳腺癌的不同亚型的示例性DNA甲基化标签/生物标签在图4中显示。如果低通量测定如甲基化特异性PCR被使用,需要关于靶序列的进一步信息。通常,当用BLST基因组数据库(UCSC基因组生物信息组,SantaCruz, CA, USA)将测定中所用的相对应引物的DNA片段与人类基因组序列比对时,没有直接击中(direct hits)。因此, 引物序列需要和从人类基因组中获得的相应基因的基因组序列相比对。随意地,代替“湿生物学实验”计算机模拟PCR可在比对MSP引物和人类基因组之后用获得的引物进行。高通量方法如产生原始数据用于差异DNA甲基化分析。在一些具体的实施方案中,两个或多个杂交匹配的样品可以是浸润性相对于非浸润性癌症,或对治疗应答的患者相对于对治疗不应答的患者(如化疗、免疫治疗或组合治疗)。差异甲基化基因标签的自动选择此目标可通过使用传统统计学(例如斯氏t检验)或机器学习方法(例如SVM)完成。此步骤产生一个或多个候选基因(或一个或多个候选标签,每一个由一组基因组成)。进一步方法步骤目的在于提供方法用于整合关于通过甲基结合蛋白(和/或通过其它DNA结合因子如转录因子)的基因沉默的表观遗传学机制的生物学知识。一个或多个候选基因(在每一个标签中任选地)分成两组
(a)包含从非甲基化到甲基化状态改变的那些;在诊断/监控癌症状态的情况下,这样的“过度甲基化”指示肿瘤抑制基因失活(下文中,这些基因因此称为“T组”);及
(b)包含从甲基化到非甲基化状态改变的那些;在诊断/监控癌症状态的情况下,这样的“甲基化不足”指示癌基因激活(下文中,这些基因因此称为“0组”)。对于甲基化水平和DNA结合因子识别位点(转录因子结合位点)的存在的后续相关性,以下步骤是需要的
(1)为寻找转录因子结合位点(TFBk),T组中差异甲基化候选基因序列用作前景组及0组的那些作为背景组。如果候选位置具有(即差异甲基化位点)TFBS,那么其被包含在分析的下一个阶段中。如果基因座将发挥涉及肿瘤抑制基因的表观遗传学作用,那么转录因子(TF)因为甲基化不能结合这个基因座,所以部分信号网络被破坏。(2)为寻找TFBS,0组中差异甲基化候选基因序列用作前景组及T组的那些作为背景组。如果候选基因座具有TFBS,那么其被包含在分析的下一个阶段中。还必须证实的是各自的TF也未甲基化以便基因座是功能上重要的有更高的机会。在这样的情况下,未甲基化的基因座和未甲基化的TF被包含在最后的标签中。(3)对于T组中的每一个基因/基因座,进一步确定的是DNA甲基结合蛋白(如 MBD1、MBD2、MBD3和MBD4、Kaiso和MeCP2,即一类特定类型的TF)的保守结合序列是否存在。然后由单甲基结合蛋白调控的基因网络被得到。具有甲基蛋白结合位点的候选基因座包含在分析的下一个阶段中。下一步,基于以上提到的三个步骤,差异甲基化候选基因被评估成为甲基化标签的部分。基因/基因座需要参与至少一个分别的网络/子集。通路信息从通路数据库中的一个被包含(例如KEGG通路数据库)。剩余的基因座被放弃。如果如M得分(M_kore )公式中表示的,差异甲基化(M水平(M_Leve 1))、甲基结合蛋白位点(No_MBS)的存在和转录因子结合位点(No_TFBS)的存在的组合值高于某阈值, 候选基因在最后的组中M_Score = wl* M_Level + w2* No_MBS + w3*No_TFBS
此评估可确认在基因网络中现有的和新的从属(cbpendenc i es )和基因级联(gene cascades).这也将进一步阐明级联下的生物标记,其可用作DNA甲基化评估替代。对于所有这些基因/基因座,特异性基因座将在最终组里的更高置信度是需要的。以这种方式,具有更高潜能起表观遗传学作用的基因座被包括。当然为证实甲基化位点的功能性作用,应该进行功能性测定例如,细胞可用去甲基化试剂如5-氮杂胞苷处理, 然后通过基因表达方法测定以证实基因座的去甲基化与各自基因的调节相关。本发明可用于候选生物标记/生物标签的评估和选择。从此方法中获得的适当的生物标签可用于患者分类、筛查、诊断、预后、治疗计划和评估疾病(例如癌症)的复发。另外,此方法可用作计算机模拟分析途径的部分以在任何生物体中进行假设用于表观遗传学研究。除了此方法用于研究目的的用途,本发明的方法也可与其它患者数据和临床参数一起用在基于计算机的临床决定系统中。本文中示意性描述的本发明可适当地在任何要素或多个要素、限制或多个限制缺乏情况下实践,其不是本文中特别公开的。因此,例如术语“包含”、“包括”、“含有”等将被扩展地理解并且是非限制性的。另外,本文中所用的术语和表达已用作描述的术语并且是非限制性的,没有意图使用这样的术语和表达排除任何显示和描述的特征的等同物或其部分,但是公认的是在本发明权利要求的范围内各种修改是可能的。因此,应理解的是尽管本发明已通过实施方案和任选的特征具体公过,但是在其中体现的本发明的修改和变化可被本领域技术人员采用,并且这样的修改和变化被认为在本发明的范围中。本发明已在本文中被广泛地和一般地描述。每一个落入一般性公开中的更窄的种类和亚类分组也形成本发明的部分。这包括本发明的一般性描述,带有限制性或否定的限制以从该种类中排除任何主题,与排除的材料在本文中是否明确引用无关。其它实施方案在以下的权利要求中。另外,在本发明的特征或方面按照马库什组被描述的情况下,本领域的普通技术人员将认为本发明也因此以马库什组的任何单独成员或成员的子群被描述。
权利要求
1.用于检测与病症的存在或发生病症的素因相关的DNA甲基化标签的方法,所述方法包括(a)提供多个匹配样品,所述多个包含至少一个靶样品和至少一个参考样品;(b)在所述至少一个靶样品中鉴定一个或多个相对于所述至少一个参考样品展示出差异DNA甲基化的候选基因/基因座;(c)确定包含在步骤(b)中获得的所述一个或多个差异甲基化的候选基因/基因座中的核酸位点;以及(d)确定在步骤(b)中获得的所述一个或多个候选基因/基因座中DNA结合因子识别位点的存在,其中所述DNA结合因子各个识别在步骤(c)中确定的核酸位点;其中在步骤(c)中获得的差异甲基化的核酸位点的模式和在步骤(d)中获得的DNA结合因子识别位点的模式一起表示DNA甲基化标签,所述标签指示在所述至少一个靶样品中病症的存在或发生病症的素因。
2.权利要求1的方法,其中包含在一个或多个的差异甲基化的候选基因/基因座中核酸位点是CpG 二核苷酸位点。
3.权利要求1或2的方法,其中差异DNA甲基化通过选自以下的一个或多个方法来确定亚硫酸氢盐测序、焦磷酸测序、甲基化敏感的单链构象分析(MS-SSCA)、高分辨熔解分析(HRM)、甲基化敏感的单核苷酸引物延伸(MS-SnuPE)、碱基特异性切割/ MALDI-TOF,甲基化特异性PCR (#5P)、基于微阵列的方法和ife/71切割。
4.权利要求1到3中任意一项的方法,其中步骤(c)进一步包括将一个或多个差异甲基化的候选基因/基因座分为-第一子集“m”,其为一个或多个包含在至少一个参考样品中甲基化和在至少一个靶样品中非甲基化的核酸位点的候选基因/基因座;和-第二子集“n”,其为一个或多个包含在至少一个参考样品中非甲基化和在至少一个靶样品中甲基化的核酸位点的候选基因/基因座。
5.权利要求4的方法,其中步骤(d)进一步包括对于一个或多个DNA结合因子的第一子集“M”确定和选择识别位点,其中DNA结合因子的子集“M”的每一个成员选择性地识别子集“m”的一个或多个候选基因。
6.权利要求4或5的方法,其中步骤(d)进一步包括对于一个或多个DNA结合因子的第二子集“N”确定和选择识别位点,其中DNA结合因子的子集“N”的每一个成员选择性地识别子集“η”的一个或多个候选基因。
7.权利要求6的方法,其中所述DNA结合因子的子集“N”表示DNA甲基结合蛋白。
8.权利要求7的方法,其中所述DNA甲基结合蛋白选自MBD1、MBD2、MBD3、MBD4、MIZF、 Kaiso 和 MeCP2。
9.权利要求5到8中任意一项的方法,其进一步包括对于选择的DNA结合因子的子集 “M”每一个成员确定被识别的包含在子集“m”中的候选基因,和/或对于选择的DNA结合因子的子集“N”每一个成员确定被识别的包含在子集“η”中的候选基因。
10.权利要求1到9中任意一项的方法,其进一步包括步骤(d)的一个或多个重复,其中每一个重复包括在一个或多个候选基因/基因座中确定一个或多个DNA结合因子的识别位点的存在,所述DNA结合因子尚未包括在之前重复的确定中。
11.权利要求1到10中任意一项的方法,其中鉴定的DNA甲基化标签包含至少10个候选基因/基因座。
12.权利要求4到11中任意一项的方法,其中一个或多个鉴定的候选基因/基因座的 DNA甲基化标签指示在至少一个靶样品中癌症的存在或发生癌症的素因。
13.权利要求12的方法,其中对于候选基因/基因座的子集“m”鉴定的DNA甲基化标签指示一个或多个癌基因的激活。
14.权利要求12或13的方法,其中对于候选基因/基因座的子集“η”鉴定的DNA甲基化标签指示一个或多个肿瘤抑制基因的失活。
15.权利要求1到14中任意一项的方法,其进一步用于预测对在至少一个靶样品中存在的病症或倾向发生的病症的处理的治疗应答。
16.权利要求1到15中任意一项的方法,其中所述方法在计算机中模拟进行。
17.权利要求1到16中任意一项中定义的DNA甲基化标签作为用于病症的筛查、诊断、 治疗计划和/或复发监控的患者样品分类的生物标记的用途。
18.权利要求1到16中任意一项的方法与其它患者数据和临床参数一起作为基于计算机的临床决定系统的整体部分的用途。
全文摘要
本发明涉及用于检测与病症的存在或发生病症的素因相关的DNA甲基化标签的方法,所述方法包括鉴定一个或多个在靶和参考样品中展示出差异DNA甲基化的候选基因,以及分别测定在所述差异甲基化的候选基因中的核酸位点和DNA结合因子的识别位点,所述DNA结合因子各个识别这种差异甲基化的核酸位点,其中得到的差异甲基化的核酸位点的模式和DNA结合因子识别位点的模式一起表示DNA甲基化标签,所述标签指示靶样品中病症的存在或发生病症的素因。
文档编号C12Q1/68GK102257161SQ200980151020
公开日2011年11月23日 申请日期2009年12月14日 优先权日2008年12月18日
发明者C.米塔尔, N.迪米特罗瓦, S.卡马拉卡兰 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1