基于岭回归矫正MB-seq甲基化水平的方法及系统的制作方法

文档序号:8922841阅读:484来源:国知局
基于岭回归矫正MB-seq甲基化水平的方法及系统的制作方法
【技术领域】
[0001] 本发明属于基因工程技术领域,尤其涉及一种基于数学模型-岭回归矫正MB-seq 甲基化水平的方法及系统。
【背景技术】
[0002] DNA甲基化(DNAmethylation)是最早发现的修饰途径之一,大量研宄表明,DNA 甲基化能引起染色质结构、DNA构象、DNA稳定性及DNA与蛋白质相互作用方式的改变,从 而控制基因表达。早在1942年,C.H.Waddinton就提出了表观遗传学的概念,他指出,表观 遗传与遗传相对,主要研宄基因型和表型的关系。而现在,对于表观遗传学,比较统一的认 识是,其研宄在没有细胞核DNA序列改变的情况时,基因功能的可逆的可遗传的改变。也就 是说,在不改变基因组序列的前提下,通过DNA和组蛋白的修饰等来调控基因表达,其中又 以DNA甲基化(DNAmethylation)最为常见,DNA甲基化成为表观遗传学的重要组成部分。 随着人类基因组计划的开展,科学家们开始在基因组水平来研宄表观遗传学,逐步形成表 观基因组学(epigenomics)。表观基因组学就是要在整个基因组水平来研宄表观遗传过程 以及与这些过程密切相关的特定基因组区域的识别与鉴定。2000年10月,人类表观基因 组协会(HumanEpigenomeConsortium)由欧盟赞助,启动了旨在于人类6号染色体MHC区 域首先做出DNA的甲基化图谱的先导计划(PilotProject)。该计划顺利完成,引导启动 了 2003年的人类表观基因组计划(HumanEpigenomeProject,HEP)。2005年,美国国家卫 生院(NIH)下属的国立癌症研宄所启动了癌症基因组先导计划。2006年,该所与国立人类 基因组研宄所一起共同启动癌症基因组计划(CancerGenomeProject)。表观基因组学和 DNA甲基化与癌症的研宄成为新的热点。
[0003] 目前,人们认识到DNA甲基化对基因组正常功能维持是必要的,表观遗传水平的 改变可看作是复杂疾病(如癌症,精神疾病)发病机理的第一步(病因学上),以表观遗传 学为基础的药物对治疗复杂疾病将有巨大的潜力。但是,只有当我们的检测技术能够勾勒 出全基因组的DNA甲基化图谱时,对于DNA甲基化这一表观遗传修饰改变有关的疾病才有 可能得到全面的认识。因此,全基因组DNA甲基化检测技术的发展显得尤其重要,它的发展 是表观遗传学、表观基因组学研宄的重要基础,也将会给当今分子遗传学研宄带来新的变 革。
[0004] 而目前现有的检测技术,还是受到成本、分析周期、基因组覆盖度、分辨率及技术 可操作性等因素的影响:
[0005] (1)对于DNA甲基化检测技术领域,早期的检测手段是KristenH等结合454测序 仪对DNA甲基化进行了检测。该方法首先将基因组DNA进行亚硫酸盐处理,用含有公共接 头的引物对目的片段逐个扩增。利用454新一代测序仪对超过40例样本的25个相关基因 的CpG富集区靶点片段同时测序,共产生了 294631个序列。该方法首次利用高通量测序仪 精确定量检测了目的片段单个CpG位点的甲基化状态,初步展示了新一代测序仪的特点。
[0006] (2)ShawnJ等利用全基因组亚硫酸盐处理测序(WholeGenomeBisulfite Sequencing),简称WGBS或MethylC-seq,对拟南芥全基因组的DNA甲基化谱进行高通量测 序。他们通过对结果进行比较分析后发现,无论甲基化位点的密度和序列所含碱基如何, 芯片技术发现甲基化位点的能力远不及亚硫酸氢盐测序法,后者甚至还在结构相对简单、 富含转座子的区域发现了甲基化位点,而芯片技术由于交联反应的限制,很难发现这类甲 基化位点。因此,MethylC-seq被视为DNA甲基化组检测的金标准,它能够实现对被测物种 或样本的全基因组DNA甲基化谱的全面、深度、单碱基分辨率的检测。但是,MethylC-seq 需要获得被测物种至少30倍覆盖度的测序数据量。以人类为例,需要至少90Gb的测序数 据,用目前Illumina最新的TrueseqV4的测序试剂价格来衡量,需要约4万人民币;并且 90Gb的亚硫酸盐处理后测序数据需耗费较长的运算时间,目前分析亚硫酸盐处理后测序数 据的常用软件BSMAP,在8核24GB内存的情况下,需要约22天的时间方能得到最终甲基化 图谱。另外,在大部分哺乳动物和植物中,甲基化的胞嘧啶(5mC)主要发生在胞嘧啶一鸟嘌 呤二核苷酸(CpG)上,约只占了全基因组所有碱基数量的1-6%,这使得MethylC-seq所得 到的数据中,仅有20 - 30%数据是有效地提供了DNA甲基化的信息。因此,高额的成本和 费时的运算,大大限制了MethylC-seq的大规模推广应用,尤其是在进行大型基因组的物 种或多样本的DNA甲基化图谱比较研宄中。
[0007] 然而,不同的甲基化DNA富集方法为基于新一代测序技术的DNA甲基化图谱检测 的成本控制奠定了基础。这些富集方法主要包括免疫共沉淀和限制性内切酶等。免疫共沉 淀方法特异性高,而结合限制性酶的新一代测序方法将具有较高的灵敏度。虽然每种方法 都有一定的局限性,但是它们为在基因组范围选择功能区来研宄DNA甲基化图谱提供了更 多的选择。
[0008] (3)基于限制性酶切的测序方法
[0009] 限制性内切酶也多应用于甲基化相关基因的鉴定,是表观遗传学研宄的重要工具 之一。已有3种限制性酶在甲基化研宄中得到应用:第一,甲基化敏感性内切酶,如BstUI、 HpaII、HhaI、SmaI以及Notl。这些酶能够识别CG富集区中的非甲基化位点,而甲基化位点 因为受到甲基的保护而不被识别。第二,甲基化依赖型限制性酶,它能识别并酶切甲基化的 CG位点。McrBC是最有代表性且最常使用的甲基化依赖型限制性酶。具体而言,McrBC可 以识别两个甲基化的半位点(RmC,R=A或G)且这两个位点存在于40~3000bp之内,酶 切发生在两个位点之间。第三,CG甲基化不敏感的同裂酶。例如MspI是Hpall的同裂酶, 他们的识别位点相同但前者不受识别位点甲基化状态的影响。与MspI相似,Xmal是Smal 的同裂酶,它们都识别'CCCGGG'位点,但是Smal酶切后生成钝端而Xmal生成5'粘性末 端。基于此,通过以上几种甲基化敏感或不敏感的限制性内切酶,对被测基因组进行酶切 后,能够特异性的富集高CpG密度的区域,再对其进行二代测序文库的制备以及高通量测 序,从而能够得到单碱基分辨率的DNA甲基化图谱。此类方法中具有代表性的是RRBS和 MRE-seq。针对人类物种而言,RRBS利用MspI对基因组DNA酶切后,然后选取40_220bp的 区域的DNA片段进行亚硫酸盐处理以及高通量测序,仅需大约3Gb的测序数据,便能够覆盖 CpG岛(CGI)的40%左右和启动子区域20%左右的CpG位点,并且由于CGI和启动子区域 在基因表达调控中的重要性,RRBS得到大规模的推广应用。同样,MRE-seq通过甲基化敏感 性内切酶(Bstn、Hpall、Smal)对基因组DNA进行酶切后,进行文库制备和高通量测序,大 约能涵盖人类基因组6%的CpG位点,只需3Gb的总数据量,便能够达到饱和。但目前大量 有关于肿瘤发生过程中DNA甲基化组改变的研宄中发现,差异甲基化区域(Differential methylationregion,DMR)主要发生在CGI的侧翼区域(CGIshore),并且这些区域对于基 因表达的调控更为明显;同时重复序列元件(Repeatselement,RE) -般呈现高度甲基化, 这些元件上的甲基化状态与基因组的稳定性密切相关。而目前基于限制性内切酶的DNA甲 基化组测序技术,均不能很好的揭示CGIshore和RE区域上的DNA甲基化状态,因此它们得 到的DNA甲基化组不能够代表真正意义的全基因组DNA甲基化图谱。
[0010] (5)基于免疫共沉淀甲基化DNA片段的测序方法
[0011] 哺乳动物MBD家族由五个成员组成,包括MeCP2、MBD1、MBD2、MBD3和MBD4,甲基 化的CpG二核苷酸可被MBD特异性识别并结合。最近,一种基于重组抗体样蛋白MBD的结 合免疫沉淀和高通量测序技术的方法被应用于基因组DNA甲基化图谱的研宄,这种方法被 称为MBD-seq。另外,通过5-甲基胞嘧啶抗体也可用来进行富集甲基化DNA片段,而后结 合高通量测序技术,被称为甲基化DNA免疫共沉淀测序(MeDIP-seq)。基于免疫共沉淀原 理的DNA甲基化组检测技术,通过对甲基化修饰的DNA片段进行特异性富集,撇弃了非甲基 化修饰的DNA片段,对后续的数据产出量提供了良好的成本控制基础。以人类基因组为例, MeDIP-seq只需要大约25million的reads数量,便可涵盖80%的CpGs,大幅度的降低了测 序成本和分析周期。该方法具有较高的特异性,但是也有一定局限性一一它
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1