检测dna甲基化的方法和装置的制作方法

文档序号:395827阅读:422来源:国知局
专利名称:检测dna甲基化的方法和装置的制作方法
技术领域
本发明涉及DNA检测领域,更具体地说,本发明涉及检测DNA甲基化的方法和装置。
背景技术
一 · DNA甲基化与癌症5-甲基胞嘧啶是在DNA转甲基酶的催化作用下,某些胞嘧啶被转移上一个甲基所得的产物(图I),许多人称为“第五种碱基” [I],它的形成过程被称为“DNA甲基化”。研究证实,在哺乳动物和植物基因组中,包含约1% -6%的5-甲基胞嘧啶[2],它通过参与基因 表达的调控而影响生物体的发育、遗传、细胞的新陈代谢等过程[3],它的重要作用在近年来已经逐渐被人们重视,成为新的研究热点。根据目前的研究结果,5-甲基胞嘧啶在转录水平抑制基因表达的机制主要有
I.阻碍转录复合物(CF、CA等)与转录因子(E2F等)结合[4] ;2.与甲基化结合蛋白相结合,激发去乙酰化酶作用,改变染色质的结构,阻止转录进行[5] ;3.在其他条件的诱导下,甲基化区域发生去乙酰化作用,组蛋白空间上变得紧密,使染色质结构改变从而抑制转录。DNA甲基化与癌症发生有密切的关系,早在上世纪80年代,研究人员利用高效液相色谱方法(High performance liquid chromatography, HPLC),比较研究肿瘤细胞和正常细胞的5-甲基胞嘧啶的含量,发现肿瘤细胞,尤其是开始发生癌转移的恶性肿瘤细胞基因组中,DNA甲基化水平显著低于正常细胞[7]。L Dubeau, Efiala等人检测了 19组卵巢癌与正常卵巢表皮细胞的甲基化水平,有17组癌细胞的全局DNA甲基化水平低于正常细胞[8],同样,Cheng等发现卵巢癌细胞中的5-甲基胞嘧啶含量与正常细胞相比,平均少了25% [9] ο基因组的全局低甲基化现象在许多不同种类的癌症中都有报道,包括前列腺癌,白血病[11],肝癌[12],宫颈癌[13]等等,但同时局部的高甲基化也与疾病相关。在哺乳动物中,DNA甲基化只发生在CG 二核苷酸的胞嘧啶上[14],在他们的基因组中,存在一些CG特别密集的区域,被称作CpG岛(CpG island),国际上,对于CpG岛有一个统一的定义[15] :1.长度大于500bp;2.CG含量超过55%;3.CG出现数目的观察值与期望值的比大于O. 65。据统计,人类基因组中含有约3万个CpG岛。在正常组织中,位于基因启动子区域的CpG岛通常是非甲基化的,然而在肿瘤细胞中,经常会观察到这些区域的过甲基化现象。Costello等对98对原发性肿瘤细胞(包括乳腺癌,结肠癌,睾丸癌,肝癌,肺癌等)与正常组织细胞中1200个随机选取的CpG岛做研究[16],发现了不同程度的高甲基化现象,在同类型的肿瘤细胞中,甲基化水平也存在极大差异,甲基化程度最高的是结肠癌,而睾丸癌相对较低,只有12个CpG岛过量甲基化。发生高甲基化的CpG岛通常都位于基因的5’端附近,或是转录起始位点,并且,不局限于那些已知的癌症相关基因,一些与肿瘤似乎并不相关的基因也有过甲基化,如MYOD等[17],另外,乳腺癌细胞中,核糖体基因5’端CpG岛也被报道存在高水平甲基化[16、18]。二 · DNA甲基化与非侵入性产前诊断非侵入性产前检验对于包括妊娠期间并发症和胎儿遗传缺陷在内的妊娠相关状况的早期检测至关重要,因为这样能对母亲和胎儿进行早期医学干预。然而,常规检测方法是侵入性的,对母亲和胎儿均有风险。国家卫生局(The National Health Service)最近指出在侵入性羊膜穿刺和绒膜绒毛取样(CVS)检验后有1-2%的流产率。Lo等[19]和美国专利6,258,540指出可在母体血浆和血清中检测循环无细胞胎儿核酸,已经开发了这些侵入性方法的备选方法进行产前筛选,例如检测胎儿异常。PCT专利申请国际公布号W02010/033639描述了胎儿和母亲之间显示不同CpG甲基化模式的基因组DNA,因此,可根据母体样品中核酸的甲基化状态检测和定量测定所述样品中的胎儿核酸。三· DNA甲基化的研究方法 在过去几年,人们已经发明出一系列方法用于DNA甲基化的研究,这些方法可以大致概括为两步,第一步是对基因组DNA进行处理,甲基化位点和非甲基化位点处理后的结果会有区别,而第二步是用实验手段让这种区别体现出来。I.基因组DNA处理方法目前的基因组DNA处理方法大致有以下三种1)甲基化特异性酶切法。其依据是,一些限制性内切酶的敏感位点包含CG位点,当胞嘧啶被甲基化修饰后,会影响酶对位点的识别,因此,只有非甲基化区域会发生酶切作用,甲基化位点完全不受影响。此方法所使用的两个经典酶对是Hpa II-MspI (CCGG)和Sma I-Xma I (CCCGGG) [20],由于第二对限制酶识别序列非常罕见,所以一般使用Hpa II-MspI (CCGG)。这种方法简便易行,但受到酶切位点序列的限制,如对于Hpa II-MspI来说,只能检测CCGG形式的序列区域,应用范围比较狭窄。2)亚硫酸盐转换法。亚硫酸盐能够将未甲基化的胞嘧啶转为尿嘧啶[I],经过PCR扩增反应后,尿嘧啶即转为胸腺嘧啶,而对于甲基化修饰过的胞嘧啶则不会发生改变,因此从序列的差异上就能判断出哪些CG中的胞嘧啶为5-甲基胞嘧啶。此法可靠性与精确性极高,亚硫酸盐测序方法称为目前DNA甲基化研究的金标准。然而如果要检测全基因组的位点,则需耗费大量的试剂,时间与人力,成本问题是该方法的瓶颈。3)DNA甲基化结合蛋白富集法。此法类似于染色体免疫共沉淀(Chromatin ImmunoPrecipitation, ChIP)方法,先将DNA打断,用能够识别甲基化位点的DNA结合蛋白[21](如5-甲基胞嘧啶抗体,或MBD蛋白等)对DNA片段进行富集。富集区域所在染色体坐标通常就是甲基化位点。这种方法常用于全基因组甲基化谱的绘制,本发明对基因组DNA处理采用的是此方法。该方法弥补了Bisulfite-seq的缺陷,能够高通量检测全基因组的位点,然而位点识别的准确度却大大降低了。主要原因是富集度达不到预期要求,芯片质量参差不齐,同时缺少有效地芯片数据分析方法,因而只有当存在足够量的生物学重复的前提下,该方法的结果才能令人满意。2.检测位点的方法检测位点大致可分为低通量和高通量两种方法2. I低通量方法此法包括电泳、一代测序和PCR等,较为常用的亚硫酸盐测序(BSP)及甲基化特异性PCR(MSP) [22]即属于这类方法。
BSP方法指在DNA经过亚硫酸盐转换后,用一代测序检测序列与参考序列的差异如果参考序列为胞嘧啶(C),测序结果为胸腺嘧啶(T),表示该处为非甲基化位点,若测序结果仍为胞嘧啶(C),此处可以认定为甲基化位点[I]。MSP方法也是由亚硫酸盐处理,然后设计两种不同的引物,分别针对甲基化和非甲基化两种情况下的序列,对DNA进行扩增,根据两种引物条件下的扩增情况即可判断是否被甲基化修饰[22]。此类方法规模较小,但是准确性高,通常用于个别基因或CpG岛区域的甲基化水平检测。2. 2高通量方法包括芯片检测和闻通量测序两类。各大基因芯片制造商如Nimblegen、Agilent、Affymetrix等都有成熟的商业化芯片可以检测甲基化富集位点。他们主要采用的是TileArray技术,即对预先设计好的基因组区域,用平铺法设计探针[23]。杂交后,富集区 域的探针信号会显著高于其余探针,用合适的统计学方法对数据进行分析,即可得到甲基化位点所在坐标。Xiaoyu Zhang等2006年用5_甲基胞卩密唳抗体结合TileArray芯片的方法(称为MeDIP-chip)绘制了第一副拟南芥全基因组甲基化图谱[24],此后,人们将该技术及其改进方法用于各物种全基因组DNA甲基化的研究,得到了许多重要成果。然而,芯片检测法受到设计区域的限制,对于大型哺乳动物,目前制作工艺还不能使芯片覆盖到整个基因组,因而通常选取CpG岛和基因启动子区域进行设计。近年来高通量测序技术逐步成熟,在许多方面的研究都有取代芯片的趋势。对于DNA甲基化来说,高通量测序没有检测区域的限制,并且比芯片检测结果更为准确[25]。目前高通量测序技术较为成熟的有Roche公司的454,Illumina公司的产品GenomeAnalyzer,和Applied Biosystem公司的SOLiD,后两种产品一次测序数据都可以达至IJ 30G以上,相当于覆盖了基因组10倍,同时错误率也可以控制在O. 01%以内,这已经完全满足了我们检测需求。Cokus等用亚硫酸盐处理后结合高通量测序方法(称为BS-seq或MethylOseq)绘制了拟南芥的单碱基分辨率级别的甲基化图谱[26],Meissner等人用同样的方法绘制了小鼠基因组部分区域的甲基化谱[27],这些研究人员的尝试让人们看到全基因组高分辨率甲基化谱绘制的可能性。Ryan Lister等首次使用该方法绘制了人类Hl干细胞和IMR90胎儿肺纤维原细胞的甲基化谱,他们对每个细胞系产生了将近90G数据,包含12亿条短序列(Short Reads),覆盖了 86%的基因组范围[28]。BS-seq作为目前通量最高,准确性最好,分辨率最大的技术,其成本问题是它主要的瓶颈,对于大型哺乳动物,需要进行多轮测序才能获取一组样本的甲基化谱,如果有大量样本需要检测,该方法所耗的人力及财力是无法令人接受的。此时人们想到了一些较为折中的方法,如Capture-BS-seq, MeDIP-seq, MBD-seq等,他们牺牲了诸如覆盖度,分辨率等一些特性,来换取成本的降低。Emily等人用自行设计的微阵列,随机抓取了 324个CpG岛的DNA片段,用BS-seq分析其甲基化水平,这种方法即是Capture-BS-seq。当研究者只关心基因组上一部分区域,如启动子区,重复区或是CpG岛的甲基化位点时,没有必要对整个基因组进行深度测序,用此法既能获取到单碱基分辨率的甲基化位点,又大大节省了成本[29]。MeDIP-seq是用5_甲基胞嘧啶对DNA富集,再结合高通量测序的方法,他所产生的全基因组甲基化谱分辨率较低,通常用若干可能包含甲基化位点的区域来表示,无法得到具体的5-甲基胞嘧啶的坐标,因此如果研究人员只关心DNA甲基化水平存在差异的区域,MeDIP-seq将是比较合适的选择。MBD-seq与MeDIP-seq非常类似,差别在于用甲基化结合蛋白MBD代替5-甲基胞嘧啶抗体对DNA片段进行富集。四·甲基化结合蛋白家族(Methyl-CpG-BindingDomain, MBD)20世纪90年代初,人们发现了两种对甲基化DNA有亲和性的蛋白质,称为MeCPl和MeCP2[30]。MeCPl是由许多复杂亚结构组成的复合蛋白,他的具体结构至今仍存在争议。MeCP2的质量约为55kDa,它能特异性的结合于甲基化修饰的CpG位点[32]。通过对MeCP2结构的仔细研究,发现在其N端存在一个大约70个残基构成的功能域,MeCP2与DNA的结合主要依赖于该结构,于是将它称作甲基化结合蛋白(MBD) [33]。
研究人员用MBD的氨基酸序列在蛋白数据库中搜索,发现了一种蛋白,其N端具有一个与MBD非常相似的结构,开始人们称其为PCMl (含MBD的蛋白质),后来简称为MBD1,体外实验表明,该蛋白能够与甲基化DNA结合,并抑制其转录[33]。通过进一步对EST数据库的搜索,人们发现了另外三种基因,他们编码出的蛋白也具有类似MBD的结构,分别被称作Mbd2、Mbd3和Mbd4[34]。序列的对位排列结果(图2)显示Mbd4和MeCP2的MBD结构接近,而Mbdl,Mbd2, Mbd3的MBD更为接近[34]。Hendrich等人用凝胶滞后分析(gel retardation assay)方法,研究五种蛋白对甲基化DNA的亲和能力,发现在体外,只有Mbd3无法与甲基化DNA形成聚合物[34],这个结果非常出乎人们的意料,因为Mbd3与另一种有甲基化DNA亲和能力的MBD2b蛋白有极高的相似度,尤其是他们的MBD功能域,其原因目前尚未研究清楚,不过有一些假说认为Mbd3可能是专门识别一些特征序列。五.DNA甲基化富集测序分析方法DNA甲基化富集测序根据所使用的蛋白不同可分为,MeDIP-seq及MBD-seq,前者使用的是5-甲基胞嘧啶抗体,后者使用的是甲基化结合蛋白(MBD)。由于其实验步骤与免疫共沉淀测序(ChlP-seq)大致相同,数据分析也大多采用ChIP_seq的方法。I. DNA甲基化富集测序分析基本步骤Shirley Pepke等在其2009年发表在Nature上的一篇综述中,将ChlP-seq数据分析算法总结为五个基本步骤[35]I. I平滑信号谱测序所得短序列与参考序列比对后,得到每条序列的基因组坐标,扫描整个基因组可获取每个碱基的覆盖度,该值与ChlP-chip中的探针信号值相类似,于是通常我们也习惯地将覆盖度称为信号。但是,覆盖度由整数表示,是离散的,为了将其连续化,我们会采用一些平滑算法,比较常用的是移动平均值法,即计算每个位点周围一个固定长度窗口内的信号平均值,作为平滑后的信号。I. 2估计背景值背景值是由于富集不完全造成,并且也是无法避免的。如果实验设计中有对照样本,则可以直接把对照的信号作为背景,否则,需要对信号的分布建立模型,估计出每个位点的噪声范围。
I. 3设定阈值,进行初步筛选得到背景之后,将信号值减去背景,高于预先设定的阈值,那么将此位点作为候选进入下一步分析I. 4依据一定原则过滤初筛结果双链对称性是比较常用的原则,它的依据是富集片段属于正义链和负义链的概率相等,于是比对结果中两条链上序列数目应该接近。一些双链数目明显不等的区域很可能是由于比对错误,或扩增时引入的序列偏性导致的,可以从候选位点中剔除。I. 5计算每个位点的可信度(P-value)可信度的评估是为了进一步筛选富集位点,通常根据信号的分布,信号与背景的差异程度来计算得出。设定合适的可信度阈值,可以减少最后结果中的假阳性率。
多数ChlP-seq分析工具及算法都遵循这五个基本步骤,只是在每一步中采用了不同的算法,以期获得更高的检出率,同时降低假发现率。MACS(Model_based Analysis ofChlP-seq)是使用较为广泛的一个算法[36]。它首先根据序列的分布计算出位点的中心,然后将序列平移至该中心附近,这一做法符合ChlP-seq的数据特点,因为通常测序长度小于富集片段的长度,因此需要将正义链序列向3’平移,负义链序列向5’端平移。平移之后,计算每个位点的信号值,用泊松分布对信号建模,计算每个位点属于富集区域的可信度。除MACS 外还有诸如 Cisgenome,ERANGE,GLITR,PeakSeq,QuEST,SiSSRs,spp,USeq等其他算法,各自具有不同特点[37、38]。ChlP-seq分析方法统计整个基因组被序列覆盖的情况,按照一定的算法找出覆盖度特别高的区域,称为峰(Peak),而这些区域就被认为是可能的甲基化位点。在DNA富集程度较高,测序质量较好的情况下,所找到的位点确实有比较高的准确度。然而,实际应用过程中,这种方法存在以下不足第一.没有考虑序列构成。DNA甲基化发生在胞嘧啶,对于哺乳动物,则只发生在CG双核苷酸的胞嘧啶上。但是即使某一区域不含CG,用ChlP-seq方法也有可能被认定为甲基化位点;第二.在覆盖度不高的区域,检出率相对较低。多数算法采用的是通过比较局部与总体覆盖度的差异,来判断是否是富集区域,当这种差异不是非常显著时,通常算法拒绝认为这是一个甲基化位点;第三.当需要比较两组样品的甲基化情况时,由于找到的位点位置并不对应,会带来一定的困难。总结以上三点不足,我们认为最主要的原因在于,ChlP-seq的分析方法是一种相对通用的方法,对于甲基化数据的研究固然适用,但是这样就没有利用好甲基化数据本身的特征。2.其他算法并非所有的DNA甲基化富集测序数据分析都采用与ChlP-seq相同的方法。Yoshinao等用MeDIP-seq研究人类乳腺癌细胞的DNA甲基化水平变化情况[39],他们测得了将近I亿条序列,测序深度达到12倍。序列比对之后,他们将基因组划分成若干个IOOkb的区域,统计每个区域内的序列数目,通过与对照组对比,并设定2倍作为阈值,得到片段富集区域。这种方法有利于多个样本之间的比较,但只适用于数据量充足,基因组覆盖较完全的情况下使用。Tomas A Down等人通过观察MeDIP-seq数据和BSP验证得到的结果,发现MeDIP-chip和MeDIP-seq数据的信号值在一定程度上与CG的密度相关,他们用分别用线性模型和二次模型对CG密度因子和信号值进行拟合,发现在多数区域都能得到较好的拟合结果。于是他们用贝叶斯概率模型计算在试验观察到的数据下,各位点的甲基化程度(用后验概率表示),通过与BSP数据对比,发现结果吻合,他们的算法被称作BATMAN (Bayesiantool for methylation analysis)[40]。综上所述,本领域迫切需要一种能够快速、高通量且可靠地检测并分析全基因DNA甲基化位点的方法。

发明内容
本发明的一个目的是提供一种检测全基因组DNA甲基化位点的方法。本发明的另一目的是提供一种检测肝癌细胞或组织的全基因组DNA甲基化位点的方法。本发明还有另一目的是提供一种用于检测全基因组DNA甲基化位点的装置。 本发明还有另一目的是提供一种用于检测肝癌细胞或组织的全基因组DNA甲基化位点的装置。因此,在一方面,本发明提供一种检测全基因组DNA甲基化位点的方法,该方法包括I)获得细胞或组织的甲基化DNA片段的富集样本以及获得片段信息的步骤;和2)筛选可信的甲基化位点的步骤;其中步骤2)包括获得甲基化DNA片段在基因组上的坐标,S卩,染色体编号,起始位点,终止位点和方向(正义或反义链);再进行位点识别与可信度打分,根据预先设定好的阈值,筛选出可信的甲基化位点;其中位点识别与可信度打分包括a-1.划分 CpG 簇将基因组上CpG位点划分为N个子集(Pi, i = I... N),要求每个子集内部的位点在染色体上连续排列,且相邻两个位点之间距离小于等于L,而任意两个子集中的位点之间的距离大于L,按照上述方法划分出的一个子集定义为CpG簇,CpG簇中相距最远的两个位点在染色体上所跨越的范围定义为CpG簇区域;a-2.获得各CpG簇区域的覆盖度对于一个CpG簇,其CpG簇区域在染色体上的起点为Si,终点为Ei,获取所测序列中比对起点位点落于[SiH, Ei+21]范围内的序列子集R,I为超声破碎后片段的片段长度的期望值,获得CpG簇区域的覆盖度;a-3划分子区域将基因组划分为N’个区域(Q」,j = I. . . N’),每个区域内,相邻两个CpG位点间距离小于等于L’,而任意两区域内的CpG位点间距离大于L’,并且满足L’ > L ;a-4获得各子区域的覆盖度具体步骤同a_2 ; a-5获得各CpG簇包含甲基化位点的概率对于一个子区域Q」,其覆盖度为C,它包含了 k个CpG簇区域PiQ = I... k),各CpG簇区域覆盖度为Ci,获得Pi包含甲基化位点的概率。在优选的实施方式中,所述方法用于检测肝癌细胞或组织的全基因DNA甲基化位点。在优选的实施方式中,所述方法的步骤I)包括1-1.提取和纯化待测动物细胞及组织的DNA ;1-2. DNA 的片段化;1-3.亲和层析柱的准备;1-4.甲基化DNA的富集;和1-5.富集样本的测序。在另一优选的实施方式中,步骤1-3包括利用MBD2b蛋白。
在另一方面,本发明提供一种用于检测全基因DNA甲基化位点的装置,所述装置包括I)用于执行获得细胞或组织的甲基化DNA富集样本的测序数据的步骤的组件;和2)用于执行筛选可信甲基化位点的步骤的功能模块。在一优选实施方式中,所述装置用于检测肝癌细胞或组织的全基因DNA甲基化位点。在另一优选实施方式中,所述装置中用于执行所述细胞或组织的甲基化DNA富集样本的测序数据的步骤的组件包含MBD2b蛋白。本发明的其它方面由于本文的公开内容,对本领域的技术人员而言是显而易见的。


图I显示胞嘧啶在DNA转甲基酶的催化作用下,被转移上一个甲基,成为5-甲基胞嘧啶。图2显示五种甲基化DNA结合蛋白(MeCP2、MBDI、MBD2、MBD3和MBD4)的MBD区域的序列对位排列。图3显示覆盖度5X的情况。图4是CpG簇一致性系数的经验累积分布图,曲线从上到下分别是L = 300,275,250、225、200、175、150、125、100、75、50 和 25 的情况。图5是在不同L值的条件下高一致性的CpG簇所占比例。图6是韦恩图。图7显示序列比对情况随错配数的累积变化。图8是各染色体上的覆盖比例柱状图,黑色为肿瘤组织,灰色为癌旁组织(图中“ chr”=染色体)。图9是在不同P值的阈值条件下,所预测出的甲基化CpG位点所占比例。图10显示差异位点在各区域的比例。图11是过甲基化修饰的外显子根据编号分类的分布直方图,编号为I的柱形对应于第一外显子的数目,之后的柱形以此类推。图12是低甲基化修饰的外显子根据编号分类的分布直方图,编号为I的柱形对应于第一外显子的数目,之后的柱形以此类推。
具体实施方式
发明人发现利用易于获取且价格低廉的MBD2b蛋白,结合二代测序,能够高通量,准确地将富集结果与基因组位置对应,再利用我们开发的TAMD方法,所得的甲基化位点的假阳性率可以降低到O. 1%。在此基础上,完成了本发明。除非另行定义,文中所使用的所有专业与科学用语与本领域熟练人员所熟悉的意义相同。此外,任何与所记载内容相似或均等的方法及材料皆可应用于本发明中。文中所述的较佳实施方法与材料仅作示范之用。一.定义本文所用的术语“TAMD方法”表示MEDIP-seq和MBD-seq数据分析工具(Toolsfor Analyzing MeDIP-seq and MBD-seq Data)。本文所用的术语“二代测序”又称高通量测序,其主要特点是,能够同时对输入的 序列进行大规模并行测序,并且所得结果为大量的(一般为2千万左右)长度不超过200bp的短序列(454测序仪例外,他的读长大于lkbp,但序列较少,在200万左右)。本文所用的术语“覆盖度”指将二代测序所得序列与基因组序列进行比对,得到每条短序列的基因组坐标。于是,我们可以统计每个基因组位点有多少条序列比对上,该数目便称为覆盖度,例如图3所不的是覆盖度5X的情况。本文所用的术语“CpG簇”指基因组上连续分布且两两之间的距离不超过L的一群CpG位点。参数L控制CpG簇内位点的数目,其取值范围从I到无限大,L等于I时,一个CpG位点即为一个CpG簇,随着L增大,一些分布较密的位点逐渐合并。根据文献报道,一定区域内的CpG甲基化状态高度相关[41],因此,当L取合适的值时,CpG簇内的绝大多数位点的甲基化状态一致,在理想情况下,我们便可用整个CpG簇包含甲基化位点的概率来代替其中某个CpG被甲基化修饰的概率。经过MBD富集后,有一些并不含有甲基化位点的片段会残留在结果中,这些片段我们在文中称作噪声片段。而本文所用的术语“富集度”指的是除去噪声片段后,余下的片段数与总的片段数之比。一般来说,在相同的实验条件下,用同一批次蛋白得到的富集度比较稳定,它的数值可以通过实验测得,我们的实验中富集度是90 %。二 .TAMD方法介绍I.贝叶斯概率模型对于某个CpG簇,我们想知道,如果观察到η条片段(即,下文所述超声破碎断裂后得到的片段)落入该簇,那么有多大的概率可以认为该CpG簇被甲基化修饰。我们将这个概率记做P (ΜI n),M表示甲基化,根据贝叶斯公式
,,、P (η|Μ)Ρ(Μ)P (ΜI~ p(n|M)(l - P(M)) - Ρ(η|Μ) P (Μ )其中M表示非甲基化位点。全局的甲基化概率P(M),作为本模型的一个输入参数,可以从已报道的文献,或同源生物的情况推知。对于非甲基化片段,我们假设其在整个基因组上是随机均匀分布的,因而对于一条片段来说,它落入某一区域的概率等于I,d为区域的长度,D表示整个基因组的长度,因
此,某一区域内落入的非甲基化片段数目符合二项分布,即ο对于甲基化片段,我们假设其落在每个CpG簇内的概率与位点内甲基化胞嘧啶数目有关,根据我们对Hl细胞的BS-seq和MeDIP-seq的观察,这一假设也确实成立。因此,某区域内甲基化片段数目也同样符合二项分布,即·Β〔Κ;||·),其中,nc为位点内甲基化胞嘧啶数目,NC为甲基化胞嘧啶总数。在此,nc与NC都是未知的,我们观察到,距离较近的两个胞嘧啶甲基化状态是高度相关的,这与之前文献报道的结果也相符,因而对于一个甲基化位点来说,如果其中的胞嘧啶或CG的间隔较小,也就是L值较低的情况下,我们可以认为这个位点的甲基化胞嘧啶数目就是胞嘧啶总数,这样便大大简化了模型。接下来,对于NC,应该等于基因组内的甲基化位点数目,这在事先我们并无法获知,为此,我们采用类似于遗传算法中的淘汰机制,先假定所有位点都属于甲基化位点,计算所有位点的概率,根据预先设定的阈值,去除那些属于甲基化位点可能性较低的,剩下的数目作为新的NC,参与计算,如此循环,直到没有更多的位点被淘汰为止。2. TAMD 方法
TAMD方法的基本思想是,对全基因组上所有的候选甲基化位点一一排查,用贝叶斯推断的方法计算每个位点甲基化的可能性。这里所指的候选位点是指可以被甲基化修饰的胞嘧啶位置。例如,在哺乳动物中,指的即是所有的CG位点。用这种方法来分析甲基化富集测序数据就可以弥补之前提到的ChlP-seq分析方法的不足首先,由于我们只专注于胞嘧啶位置,就完全避免了将不可能发生甲基化的位置认为是甲基化位点的错误;第二,通过调节模型参数,可以让方法识别出覆盖度较低区域的甲基化位点,同时也能将假阳性率控制在合理的范围。第三,对于同一个基因组,我们找出的位点属于一个固定的集合,从不同样本找出的位点之间有明确的对应关系,可以十分方便地找出差异位点。本发明的TAMD方法包括以下步骤I)划分 CpG 簇将基因组上CpG位点划分为N个子集(Pi, i = I... N),要求每个子集内部的位点在染色体上连续排列,且相邻两个位点之间距离小于等于L,而任意两个子集中的位点之间的距离大于L。按照上述方法划分出的一个子集定义为CpG簇,CpG簇中相距最远的两个位点在染色体上所跨越的范围定义为CpG簇区域。2)计算各CpG簇区域的覆盖度对于一个CpG簇Pi,其CpG簇区域起点在染色体上的位置为Si,终点为Ei,获取所测序列中比对起点位点落于[SiH, Ei+21]范围内的序列子集R,I为超声破碎后片段的片段长度的期望值CpG簇区域的覆盖度Ci按如下公式计算
f I序列比对区域与CpG簇区域有童叠Ci = Floor ( Σ rER Γ ),其中Γ = ^ φ序列比对区域与GpG簇区域无童叠s等于序列起始位点到CpG簇区域边缘的距离,ζ为超声破碎后片段长度的标准偏差,Φ为标准正态分布的分布函数,Floor(X)函数表示取小于X的最大整数3)划分子区域将基因组划分为N’个区域(Qj, j = I...N’),每个区域内,相邻两个CpG位点间距离小于等于L’,而任意两区域内的CpG位点间距离大于L’,并且满足L’ > L0
根据定义,可推知,每个CpG簇区域必定包含于唯一的一个子区域4)计算各子区域的覆盖度计算方法同步骤二5)计算各CpG簇包含甲基化位点的概率对于一个子区域Q」,其覆盖度为C,它包含了 k个CpG簇区域PiQ = I... k),各CpG簇区域覆盖度为Ci,则Pi包含甲基化位点概率计算如下
权利要求
1.一种检测全基因组DNA甲基化位点的方法,该方法包括 1)获得细胞或组织的甲基化DNA片段的富集样本以及获得片段信息的步骤;和 2)筛选可信甲基化位点的步骤; 其中步骤2)包括获得甲基化DNA片段在基因组上的坐标,S卩,染色体编号,起始位点,終止位点和方向(正义或反义链);再进行位点识别与可信度打分,根据预先设定好的阈值,筛选出可信的甲基化位点; 其中位点识别与可信度打分包括 a-1.划分CpG簇 将基因组上CpG位点划分为N个子集(Pi, i = I... N),要求每个子集内部的位点在染色体上连续排列,且相邻两个位点之间距离小于等于L,而任意两个子集中的位点之间的距离大于L,按照上述方法划分出的一个子集定义为CpG簇,CpG簇中相距最远的两个位点在染色体上所跨越的范围定义为CpG簇区域;a-2.获得各CpG簇区域的覆盖度 对于ー个CpG簇,其CpG簇区域在染色体上的起点为Si,终点为Ei,获取所测序列中比对起点位点落于[Si-21,Ei+21]范围内的序列子集R,I为超声破碎后片段的片段长度的期望值,获得CpG簇区域的覆盖度;a-3划分子区域 将基因组划分为N’个区域(Qp j = I... N’),每个区域内,相邻两个CpG位点间距离小于等于L’,而任意两区域内的CpG位点间距离大于L’,并且满足L’ > L ;a-4获得各子区域的覆盖度具体步骤同a-2 ; a-5获得各CpG簇包含甲基化位点的概率 对于ー个子区域%,其覆盖度为C,它包含了 k个CpG簇区域Pi (i = I... k),各CpG簇区域覆盖度为Ci,获得Pi包含甲基化位点的概率。
2.如权利要求I所述的方法,其特征在于,所述细胞或组织是肝癌细胞或组织。
3.如权利要求I或2所述方法,其特征在于,步骤I)包括 1-1.提取和纯化待测动物细胞或组织的DNA ; 1-2. DNA的片段化; 1-3.亲和层析柱的准备; 1-4.甲基化DNA的富集;和 1-5.富集样本的测序。
4.如权利要求3所述的方法,其特征在于,所述步骤1-3包括利用MBD2b蛋白。
5.一种用于检测全基因组DNA甲基化位点的装置,所述装置包括 1)用于执行获得细胞或组织的甲基化DNA富集样本的测序数据的步骤的组件;和 2)用于执行筛选可信甲基化位点的步骤的功能模块。
6.如权利要求5所述的装置,其特征在于,所述细胞或组织是肝癌细胞或组织。
7.如权利要求5或6所述的装置,其特征在于,所述组件I)包含MBD2b蛋白。
全文摘要
本发明公开了检测DNA甲基化的方法,用于检测DNA甲基化的装置。所述方法包括获得细胞和组织的甲基化DNA富集样本的测序数据的步骤和筛选可信甲基化位点的步骤;所述装置包括用于执行获得细胞和组织的甲基化DNA富集样本的测序数据的步骤的组件;和用于执行筛选可信甲基化位点的步骤的功能模块。
文档编号C12Q1/68GK102776270SQ20111012317
公开日2012年11月14日 申请日期2011年5月12日 优先权日2011年5月12日
发明者刘世旭, 李明辉, 林剑, 肖华胜, 邵祥强 申请人:上海生物芯片有限公司, 中国科学院上海生命科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1