一种组织特异性差异甲基化区域检测方法和系统的制作方法

文档序号:587265阅读:474来源:国知局
专利名称:一种组织特异性差异甲基化区域检测方法和系统的制作方法
技术领域
本发明涉及基因组学和生物信息学领域,尤其涉及一种组织特异性差异甲基化区 域(tissue-specific differentially methylated region, tDMR)检测方法禾口系统。
背景技术
在哺乳动物中,DNA甲基化是基因组功能实现所必须的。现有许多全基因组的研究 表明哺乳动物的DNA甲基化profiles (译成图谱)具有组织特异性。tDMR(参考文献[1]) 是组织之间差异功能的重要实现方法,寻找不同组织之间的tDMR对基因组功能的研究具
有重要意义。常规方法通常在基因组的个别基因或者部分区域上对甲基化进行检查。现有的基 于芯片技术检测tDMR实验方法操作复杂,成功率低,成本高。目前基因芯片技术只能对已 知个别基因的调控区进行研究,而不能对大量基因尤其是未知基因的甲基化分析,且靶基 因和探针制备等芯片制作和检测过程操作复杂,实验成功率低,成本高。Vardhman Rakyan 等[1]的研究方法表明,用芯片找到感兴趣的区域,如果一个组织中的平均甲基化率在 60%以上,而另一个组织组织在40%以下就被定义为tDMR,阈值选取较武断,tDMR的阳性 预测值(positive predictive value)和敏感度(sensitivity)分别为 78%与 61 %,误差 较大。参考文献[1]Vardhman Rakyan, Thomas Down, Natalie Thorne, et al. An integrated resource for genome-wide identification and analysis of human tissue-specific differentially methylated regions(tDMRs)Genome Res. published online June 24, 2008[2]Petra Haj kova, Osman El-Maarri, DNA-Methylation Analysis by the Bisulfite—Assisted Genomic Sequencing Method Methods in Molecular Biology, 2002,Volume 200,143-154,DOI :10. 1385/1-59259-182-5 :14
发明内容
本发明要解决的一个技术问题是提供一种组织特异性差异甲基化区域检测方法, 实现了基于全基因组进行tDMR检测,且准确度高。本发明提供一种组织特异性差异甲基化区域tDMR检测方法,包括通过全基因组测序获得全基因组上单点甲基化信息;根据全基因组上单点甲基化信息基于预选条件确定全基因组上种子tDMR ;对种子tDMR向两侧延伸,基于延伸终止条件获得候选tDMR ;基于过滤条件对候选tDMR进行过滤,获得tDMR结果。根据本发明的检测方法的一个实施例,根据全基因组上单点甲基化信息基于预选 条件确定全基因组上种子tDMR包括通过滑动窗口扫描全基因组上单点甲基化信息,基于预选条件确定全基因组上种子tDMR。根据本发明的检测方法的一个实施例,以5个CpG为长度、1个CpG为步长的滑动 窗口来扫描全基因组上单点甲基化信息;该预选条件包括(1)卡方检验(结合fisher精确检验)的ρ <=0.05;(2) 二倍甲基化水平的显著差异;和(3)至少一个样本的甲基化水平在20%以上。根据本发明的检测方法的一个实施例,延伸终止条件包括(1)两个连续的CpG之间的距离超过200bp ;(2)两个样本的平均甲基化水平小于二倍差异;(3)两个样本的该区域的甲基化水平都小于20% ;(4)卡方检验的 ρ > 0. 01。过滤条件包括(I)FDR <= 0. 05 ;(2)得到的tDMR区域的平均覆盖度要大于20个reads ;(3)得到的CG位点单点的覆盖度要大于10个reads ;(4)对得到的tDMR中的CpG位点进行有放回抽样检验结果的正确率要在95%以上。根据本发明的检测方法的一个实施例,通过全基因组测序获得全基因组上单点甲 基化信息包括通过重亚硫酸盐使基因组的DNA中未发生甲基化的胞嘧啶脱氨基转变成尿 嘧啶,而甲基化的胞嘧啶保持不变;对经过处理的全基因组进行测序,并且与未经处理的全 基因组序列比较,确定全基因组上发生甲基化的CpG位点。本发明提供的检测方法,通过全基因组测序技术获得样本的全基因组上的单点甲 基化信息,在全基因组测序的基础上对两个测序样本进行分析处理,可以在全基因组范围 内提取tDMR ;通过种子tDMR选择、种子tDMR延伸、候选tDMR过滤等步骤,提高了检测的准确度。本发明要解决的一个技术问题是提供一种组织特异性差异甲基化区域检测系统, 实现了基于全基因组进行tDMR检测,且准确度高。本发明提供一种组织特异性差异甲基化区域tDMR检测系统,包括甲基化信息获取模块,用于通过全基因组测序获得全基因组上单点甲基化信息;种子区域确定模块,用于根据所述全基因组上单点甲基化信息基于预选条件确定 全基因组上种子tDMR ;种子区域延伸模块,用于对所述种子tDMR向两侧延伸,基于延伸终止条件获得候 选 tDMR ;候选区域过滤模块,用于基于过滤条件对所述候选tDMR进行过滤,获得tDMR结 果。
根据本发明检测系统的一个实施例,种子区域确定模块通过滑动窗口扫描所述全 基因组上单点甲基化信息,基于预选条件确定全基因组上种子tDMR ;其中,以5个CpG为长 度、1个CpG为步长的滑动窗口来扫描所述全基因组上单点甲基化信息;预选条件包括(1) 卡方检验(结合fisher精确检验)的p<=0. 05 ; (2) 二倍甲基化水平的显著差异;和(3)至少一个样本的甲基化水平在20%以上。根据本发明检测系统的一个实施例,延伸终止条件包括(1)两个连续的CpG之间 的距离超过200bp ;(幻两个样本的平均甲基化水平小于二倍差异;C3)两个样本的该区域 的甲基化水平都小于20% ; (4)卡方检验的ρ > 0. 01。过滤条件包括(I)FDR <= 0. 05 ; ⑵得到的tDMR区域的平均覆盖度要大于20个reads ; (3)得到的CG位点单点的覆盖度 要大于10个reads ; (4)对得到的tDMR中的CpG位点进行有放回抽样检验结果的正确率要 在95%以上。根据本发明检测系统的一个实施例,甲基化信息获取模块包括亚硫酸氢钠处理 设备,用于通过重亚硫酸盐使全基因组的DNA中未发生甲基化的胞嘧啶脱氨基转变成尿嘧 啶,而甲基化的胞嘧啶保持不变;全基因组比对设备,用于对经过处理的全基因组进行测 序,并且与未经处理的全基因组序列比较,确定全基因组上发生甲基化的CpG位点。本发明提供的检测系统,甲基化信息获取模块通过全基因组测序技术获得样本的 全基因组上的单点甲基化信息,后续各个模块在全基因组测序的基础上对两个测序样本进 行分析处理,可以在全基因组范围内提取tDMR ;通过种子区域确定模块进行种子tDMR选 择、通过种子区域延伸模块进行种子tDMR延伸,通过候选区域过滤模块对候选tDMR进行过 滤,提高了检测的准确度。


图1示出本发明的组织特异性差异甲基化区域检测方法的一个实施例的流程图;图2示出本发明的组织特异性差异甲基化区域检测方法的另一个实施例的流程 图;图3示出本发明的组织特异性差异甲基化区域检测系统的一个实施例的框图;图4示出本发明的组织特异性差异甲基化区域检测系统的另一个实施例的框图。
具体实施例方式下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。在 附图中,相同的标号表示相同或者相似的组件或者元素。图1示出本发明的组织特异性差异甲基化区域检测方法的一个实施例的流程图。如图1所示,在步骤102,通过全基因组测序获得样本全基因组上单点甲 基化信息。例如,在第二代高通量全基因组测序基础上,通过亚硫酸氢钠测序法 (Bisulfite-sequencing)(参考文献〔2〕)获得样本在全基因组上的单点甲基化信息。经 过步骤102的处理后,下面步骤104至108用于提取两个样本的差异甲基化区域。在步骤104,根据两个样本全基因组上单点甲基化信息基于预选条件确定两个样 本的全基因组上种子tDMR。在步骤106,对种子tDMR向两侧延伸,基于延伸终止条件获得候选tDMR。在步骤108,基于过滤条件对候选tDMR进行过滤,获得最终的tDMR结果。针对现有芯片技术检测tDMR实验方法操作复杂,成功率低,成本高等问题,上述 实施例通过全基因组测序技术获得样本的全基因组上的单点甲基化信息,在全基因组测序 的基础上对两个测序样本进行分析处理,可以在全基因组范围内寻找tDMR,简便、快速地从全基因组中提取出tDMR,大大提高了检测效率,降低了成本。此外,通过种子tDMR选择、种 子tDMR延伸、候选tDMR过滤等步骤,提高了检测的准确度和灵敏度。图2示出本发明的组织特异性差异甲基化区域检测方法的另一个实施例的流程 图。如图2所示,在步骤202,通过重亚硫酸盐使基因组的DNA中未发生甲基化的胞嘧 啶脱氨基转变成尿嘧啶,而甲基化的胞嘧啶保持不变。在步骤204,对经过处理的全基因组进行测序,并且与未经处理的全基因组序列比 较,确定全基因组上发生甲基化的CpG位点。在步骤206,通过滑动窗口扫描所述全基因组上单点甲基化信息,基于预选条件确 定全基因组上种子tDMR。以5个CpG为长度、1个CpG为步长的滑动窗口来扫描所述全基因组上单点甲基化 信息;预选条件包括(1)卡方检验(结合fisher精确检验)的ρ < = 0. 05 ;当ρ <= 0. 05的时候,可以认为该区域中两两样本间的甲基化存在显著性的差
已 升。(2) 二倍甲基化水平的显著差异;和(3)至少一个样本的甲基化水平在20%以上;找到的tDMR区域的其中一个甲基化 率需在20%以上,使所找到的区域具有生物学意义。在步骤208,对种子tDMR向两侧延伸获得候选tDMR,延伸终止条件为(1)两个连续的CpG之间的距离超过200bp ;如果两个连续的CpG之间的距离过长,这两个CpG之间的关联性不大,所以当这种 情况出现时,终止延伸,从而尽可能保证检测结果的可靠性。(2)两个样本的平均甲基化水平小于二倍差异;(3)两个样本的该区域的甲基化水平都小于20% ;(4)卡方检验的 ρ > 0. Ol0在步骤210,基于过滤条件对候选tDMR进行过滤,过滤条件包括(l)FDR(false discovery rate,错误发现率)<=0.05(2)得到的tDMR区域的平均覆盖度要大于20个reads (read,利用新一代测序技 术测序得到的具有一定读长的DNA序列)。(3)得到的CpG位点单点的覆盖度要大于10个reads(4)对得到的tDMR中的CpG位点进行有放回抽样检验(即从所有的CpG位点中中 抽取任意一个位点,进行检验,完成后,再放回总体中参加下一次抽选的方法),结果的正确 率要在95%以上。步骤212,通过过滤获得最终的tDMR结果。需要指出,上述实施例中检测CG位点,本领域的技术人员应当理解,本发明的方 法同样可以适用于CHH、CHG位点,其中H表示A、C、T中任意一个。上述实施例中,通过大量的实验研究和创造性工作,确定具体采用了 tDMR的预选 条件、延伸终止条件和过滤条件,准确性高。经后续验证,通过上述方法找到的tDMR准确率 在85%以上。
7
图3示出本发明的组织特异性差异甲基化区域检测系统的一个实施例的框图。如 图3所示,该实施例中检测系统包括甲基化信息获取模块31、种子区域确定模块32、种子区 域延伸模块33和候选区域过滤模块34。其中,甲基化信息获取模块31通过全基因组测序 获得全基因组上单点甲基化信息;种子区域确定模块32根据全基因组上单点甲基化信息 基于预选条件确定全基因组上种子tDMR ;种子区域延伸模块33对种子tDMR向两侧延伸, 基于延伸终止条件获得候选tDMR ;候选区域过滤模块34基于过滤条件对候选tDMR进行过 滤,获得tDMR结果。上述实施例中,甲基化信息获取模块通过全基因组测序技术获得样本的全基因组 上的单点甲基化信息,后续各个模块在全基因组测序的基础上对两个测序样本进行分析处 理,可以在全基因组范围内寻找tDMR,简便、快速地从全基因组中提取出tDMR,大大提高了 检测效率,降低了成本。而通过种子区域确定模块进行种子tDMR选择、通过种子区域延伸 模块进行种子tDMR延伸,通过候选区域过滤模块对候选tDMR进行过滤,提高了检测的准确 度和灵敏度。在一个实施例中,种子区域确定模块32通过滑动窗口扫描全基因组上单点甲基 化信息,基于预选条件确定全基因组上种子tDMR ;其中,以5个CpG为长度、1个CpG为步 长的滑动窗口来扫描所述全基因组上单点甲基化信息;预选条件包括(1)卡方检验(结合 fisher精确检验)的ρ < = 0. 05 ; (2) 二倍甲基化水平的显著差异;(;3)至少一个样本的甲 基化水平在20%以上。根据本发明的检测系统的一个实施例,上述延伸终止条件包括两 个连续的CpG之间的距离超过200bp ;两个样本的平均甲基化水平小于二倍差异;两个样本 的该区域的甲基化水平都小于20%;卡方检验的ρ > 0. 01。根据本发明的检测系统的一个 实施例,过滤条件包括FDR < = 0. 05 ;得到的tDMR区域的平均覆盖度要大于20个reads ; 得到的CG位点单点的覆盖度要大于10个reads ;对得到的tDMR中的CpG位点进行有放回 抽样检验结果的正确率要在95%以上。上述实施例中,通过大量的实验研究和创造性工作,确定具体采用了 tDMR的预选 条件、延伸终止条件和过滤条件,准确性高。经后续验证,通过上述方法找到的tDMR准确率 在85%以上。图4示出本发明的组织特异性差异甲基化区域检测系统的另一个实施例的框图。 图4中和图3具有相同标号的模块可以参见图3中的对应描述,为简洁起见,在此不再详细 描述。和图3相比,图4中的甲基化信息获取模块41包括亚硫酸氢钠处理设备411和全基 因组比对设备412。其中,亚硫酸氢钠处理设备411通过重亚硫酸盐使全基因组的DNA中未 发生甲基化的胞嘧啶脱氨基转变成尿嘧啶,而甲基化的胞嘧啶保持不变;全基因组比对设 备412对经过处理的全基因组进行测序,并且与未经处理的全基因组序列比较,确定全基 因组上发生甲基化的CpG位点。上述实施例中,亚硫酸氢钠处理设备以重亚硫酸盐使DNA中未发生甲基化的胞嘧 啶脱氨基转变成尿嘧啶,而甲基化的胞嘧啶保持不变;全基因组比对设备对经过处理的全 基因组进行测序,并且与未经处理的序列比较,判断是否CpG位点发生甲基化,能明确基因 组上每一个CpG位点的甲基化状态,有很高的可靠性和精确度。经过在多物种中验证(不仅限于哺乳动物),本发明的方法和系统较Vardhman Rakyan等的方法有更高的精确度和敏感度,有很高的可靠性和精确度。
下面介绍本发明的一个应用例。在该应用例中所用的样本数据为成纤维细胞imr90及YH —号的fasta数据。成 纤维细胞imr90及一号的fasta数据下载地址分别为imr90 :http//neomorph. salk. edu/human_methylome/data, htmlYH :http://www. ncbi. nlm. nih. gov/Traces/wgs/ ? val = ADDF在该应用例中,将技术方案中的多个处理步骤通过软件实现,软件的运行环境可 以是Unix/Linux操作系统,通过Unix/Linux命令行运行该软件。在下面的描述同时提供 软件运行的命令行参数。首先进行数据准备处理。数据下载后经过比对、去重复、提取甲基化信息等步骤处 理,得到和imr90的cout文件(记录胞嘧啶C位点的甲基化情况的文件),提取tDMR的 样本输入文件即为这两个cout文件。需要指出,本发明的方法可以用于任何能够得到COUt 文件的物种,并不限于实施例中列举的内容,所以应用范围极广。Cout文件的具体格式如下
权利要求
1.一种组织特异性差异甲基化区域tDMR检测方法,其特征在于,包括 通过全基因组测序获得全基因组上单点甲基化信息;根据所述全基因组上单点甲基化信息基于预选条件确定全基因组上种子tDMR ; 对所述种子tDMR向两侧延伸,基于延伸终止条件获得候选tDMR ; 基于过滤条件对所述候选tDMR进行过滤,获得tDMR结果。
2.根据权利要求1所述的检测方法,其特征在于,根据所述全基因组上单点甲基化信 息基于预选条件确定全基因组上种子tDMR包括通过滑动窗口扫描所述全基因组上单点甲基化信息,基于预选条件确定全基因组上种 子 tDMR。
3.根据权利要求2所述的检测方法,其特征在于,以5个CpG为长度、1个CpG为步长 的滑动窗口来扫描所述全基因组上单点甲基化信息;所述预选条件包括(1)卡方检验的P< = 0. 05 ;(2)二倍甲基化水平的显著差异;和(3)至少一个样本的甲基化水平在20%以上。
4.根据权利要求1所述的检测方法,其特征在于,所述延伸终止条件包括(1)两个连续的CpG之间的距离超过200bp;(2)两个样本的平均甲基化水平小于二倍差异;(3)两个样本的该区域的甲基化水平都小于20%;(4)卡方检验的ρ> 0.01。
5.根据权利要求1所述的检测方法,其特征在于,所述过滤条件包括(1)FDR<= 0. 05 ;(2)得到的tDMR区域的平均覆盖度大于20个reads;(3)得到的CG位点单点的覆盖度大于10个reads;(4)对得到的tDMR中的CpG位点进行有放回抽样检验结果的正确率在95%以上。
6.根据权利要求1所述的检测方法,其特征在于,通过全基因组测序获得全基因组上 单点甲基化信息包括通过重亚硫酸盐使基因组的DNA中未发生甲基化的胞嘧啶脱氨基转变成尿嘧啶,而甲 基化的胞嘧啶保持不变;对经过处理的全基因组进行测序,并且与未经处理的全基因组序列比较,确定全基因 组上发生甲基化的CpG位点。
7.一种组织特异性差异甲基化区域tDMR检测系统,其特征在于,包括甲基化信息获取模块,用于通过全基因组测序获得全基因组上单点甲基化信息; 种子区域确定模块,用于根据所述全基因组上单点甲基化信息基于预选条件确定全基 因组上种子tDMR ;种子区域延伸模块,用于对所述种子tDMR向两侧延伸,基于延伸终止条件获得候选 tDMR ;候选区域过滤模块,用于基于过滤条件对所述候选tDMR进行过滤,获得tDMR结果。
8.根据权利要求7所述的检测系统,其特征在于,所述种子区域确定模块通过滑动窗 口扫描所述全基因组上单点甲基化信息,基于预选条件确定全基因组上种子tDMR ;其中,以5个CpG为长度、1个CpG为步长的滑动窗口来扫描所述全基因组上单点甲基化信息;所 述预选条件包括(1)卡方检验的P< = 0. 05 ;(2)二倍甲基化水平的显著差异;和(3)至少一个样本的甲基化水平在20%以上。
9.根据权利要求7所述的检测系统,其特征在于,所述延伸终止条件包括(1)两个连续的CpG之间的距离超过200bp;(2)两个样本的平均甲基化水平小于二倍差异;(3)两个样本的该区域的甲基化水平都小于20%;(4)卡方检验的ρ> 0.01。 和/或所述过滤条件包括(1)FDR<= 0. 05 ;(2)得到的tDMR区域的平均覆盖度大于20个reads;(3)得到的CG位点单点的覆盖度大于10个reads;(4)对得到的tDMR中的CpG位点进行有放回抽样检验结果的正确率在95%以上。
10.根据权利要求7所述的检测方法,其特征在于,所述甲基化信息获取模块包括亚硫酸氢钠处理设备,用于通过重亚硫酸盐使全基因组的DNA中未发生甲基化的胞嘧 啶脱氨基转变成尿嘧啶,而甲基化的胞嘧啶保持不变;全基因组比对设备,用于对经过处理的全基因组进行测序,并且与未经处理的全基因 组序列比较,确定全基因组上发生甲基化的CpG位点。
全文摘要
本发明公开一种组织特异性差异甲基化区域tDMR检测方法和系统,该方法包括通过全基因组测序获得全基因组上单点甲基化信息;根据全基因组上单点甲基化信息基于预选条件确定全基因组上种子tDMR;对种子tDMR向两侧延伸,基于延伸终止条件获得候选tDMR;基于过滤条件对候选tDMR进行过滤获得tDMR结果。本发明的方法和系统能明确全基因组上每一个位点的甲基化状态,在全基因组范围确定tDMR,大大提高了检测效率,降低了成本。经后续验证,本发明找到的tDMR准确率在85%以上,经在多物种中验证(不仅限于哺乳动物),本发明的方法较Vardhman Rakyan等的方法有更高的精确度和敏感度。
文档编号C12Q1/68GK102061337SQ20101055713
公开日2011年5月18日 申请日期2010年11月24日 优先权日2010年11月24日
发明者余昶 申请人:深圳华大基因科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1