基于岭回归矫正MB-seq甲基化水平的方法及系统的制作方法_2

文档序号:8922841阅读:来源:国知局
们没有结合亚 硫酸盐处理或者甲基化敏感的限制性内切酶酶切,无法得到单碱基分辨率的DNA甲基化 图谱,其分辨率大约为l〇〇bp。
[0012] (6)针对免疫共沉淀甲基化DNA测序数据的分析方法
[0013] 由于MethylC-seq的高成本、RRBS和MRE-seq的基因组低覆盖度、MeDIP-seq 和MBD-seq的低分辨率,促使研宄人员利用生物信息算法去更好维持成本、基因组覆盖度 和分辨率之间的平衡,从而使得高通量测序更好服务于DNA甲基化组的研宄。基于免疫 共沉淀甲基化DNA的高通量测序数据,人们开发了一系列生物信息学算法,具体如下。针 对MBD-seq和MeDIP-seq的测序数据,MEDME和BayMeth分别被开发了出来,它们能够将 测序数据中得到的reads数量转换成窗口大小为100bp的区域甲基化水平(Riebleret al. 2014) ;MEDIPS可以将MelDP-seq数据进行计算,从而实现单碱基分辨率的DNA甲基化 图谱,但其得到的并非C的甲基化水平,而是介于1 一 1000的MEDIPS值,导致其得到的结 果无法和其他单碱基分辨率的DNA甲基化检测技术得到的结果相互比较;Batman是另一 款针对MeDIP-seq数据的生物信息学算法,其可实现单个CpG的DNA甲基化水平预测,但 所耗费的计算周期较长(Bock2012),且算法较为复杂,开发人员也未提供完整的代码安 装文件,使得其他研宄者无法很好的重复该算法,另外batman所得到CpG甲基化水平往往 较真实甲基化水平偏低(Riebleretal. 2014);近来,一种基于条件随机场算法的机器自 动学习工具被开发出来,用于MeDIP-seq和MRE-seq整合后数据的单碱基分辨率DNA甲基 化图谱预测,但其应用于人胚胎干细胞系H1所得到的结果,通过与MethylC-seq测序所得 到的结果进行相关性分析发现,pearson系数仅达到0.77(Stevensetal. 2013),并且由 于MethylCRF未考虑拷贝数变异对于DNA甲基化水平预测结果的影响,使得该方法在应用 于肿瘤发生时,可能会得到更失真的DNA甲基化组(Laird2010;Robinsonetal.2012; Riebleretal. 2014)〇
[0014] (7)做为本领域所公知的现有技术,MB-seq-甲基化DNA富集结合亚硫酸盐翻转 的甲基化检测技术(MeDIPbisulfitesequencing,MB-seq)拥有许多优点:它是一种高通 量的、单碱基分辨率的、低成本的、可适用于多种已知序列物种的DNA甲基化检测技术,但 是MB-seq存在甲基化水平的偏差,MB-seq甲基化水平被线性放大,所以MB-seq得到的单 个CpG位点的甲基化水平是相对甲基化水平。

【发明内容】

[0015] 针对现有技术中MB-seq-甲基化DNA富集结合亚硫酸盐翻转的甲基化检测技术 存在的甲基化水平的偏差的问题。发明人研发了一种基于岭回归矫正MB-seq甲基化水平 的方法及系统,考虑多种与DNA甲基化水平相关的因素,可以将MB-seq的相对甲基化水平 矫正到全基因组的胞嘧啶位点的绝对甲基化水平。
[0016] 本发明提供的基于岭回归矫正MB-seq甲基化水平的方法,包括以下步骤:
[0017] (1)提取信息
[0018] ⑵建模
[0019] (3)岭回归计算;
[0020] 其中,所述的步骤(1)需要提取的信息有:从参考基因组序列中提取基因组CpG密 度、GC含量和CpG-〇E值;从MB-seq高通量测序数据唯一比对结果中,提取已知基因组上每 个胞嘧啶的相对甲基化信息;从RRBS高通量测序数据唯一比对结果中,提取覆盖到的每个 胞嘧啶的绝对甲基化信息;
[0021] 所述的步骤(2)建模如下:
[0023]其中:
[0024]y:目标函数;为以RRBS高通量测序数据唯一比对结果中提取到的覆盖到的每个 胞嘧啶的绝对甲基化信息;
[0025] x:回归变量矩阵;包括行、列;每行代表每个CpG变量;每列分别为每个变量的 CpG密度、GC含量、CpG-〇E值以及相对甲基化信息;
[0026] 所述的步骤(3)岭回归计算具体是
[0028] 对求导,结果为
[0029] 2XT (Y-XW) -2 入W
[0030] 令其为0,求得的值:
[0032] 输入新的回归变量矩阵X即可获得新Y值,即而获得全基因组的胞嘧啶位点的绝 对甲基化水平。
[0033] 优选的,在所述的步骤(1)中提取信息后,将提取到的信息进行阈值过滤,过滤低 质量碱基和序列,并过滤adapter污染序列。以得到更为精确合理的甲基化水平。
[0034]优选的,在所述的步骤(3)计算之前,采用交叉验证评估模型进行数据训练和测 试:
[0035]a).将预测特征变量和真实的甲基化水平分成训练和测试数据集;随机抽取50% 的CpG位点作为训练数据,剩下的50%作为测试数据;
[0036]b).先使用训练数据训练模型;再计算预测甲基化水平值和RRBS测量的甲基化水 平值之间的相关性系数;这个过程重复N次,N次的平均相关性系数用来表示模型的预测精 度;优选的,N多1000。可以获得更为精确的数据。
[0037] 对于每个基因组元件,单独进行训练和岭回归测试;而对同时位于多个基因组元 件的CpG位点,;取多个预测值的平均值;
[0038] c).甲基化水平的预测是全基因组范围的,并且对于RRBS原本就覆盖的位点,采 取RRBS的观测值作为最终的甲基化水平;所有未被RRBS覆盖的CpG位点,一律认为其未被 甲基化,并且不用于岭回归,甲基化水平预测值小于0或者大于分别基于岭回归的原则规 整到0和1。
[0039] 优选的,在在模型数据训练时:
[0040]a).当变量间存在共线性的时候,通过引入lambda表达式以解决最小二乘回归得 到的系数不稳定,方差很大的问题;
[0041]b).当模型包含常数项时,岭回归函数对y进行中心化,以y的均值作为因子;对 X进行中心化和归一化,以x中各个变量的均值和标准差作为因子;这样对x和y处理后,x 和y的均值为〇,这使得回归平面经过原点,即常数项为〇 ;
[0042]c).当模型不包含常数项时,因为要强制通过原点,该模型假设各个变量的均值为 0,因此不对X和y进行中心化,但是对x进行归一化,而且归一化因子也是假设变量均值为 〇计算出来的该变量的标准差。
[0043] 优选的,在使用该模型进行测试的时候,需要首先对x和y进行中心化和归一化, 此时因子是使用训练模型时候进行中心化和归一化的因子,然后再与系数相乘得到预测结 果。
[0044] 优选的,在步骤(3)岭回归计算之后,进行如下对异常点处理:
[0045] 1)将MB-seq检测深度为0的位点定义为甲基化水平为0;
[0046]2)结合MB-seq甲基化水平的观测值(MB level),甲基化CpG个数(MB mCG),MB-seq测序深度(MB depth),当前CpG侧翼+/_100bp区域的MB-seq检测到的平均 甲基化水平(MB back),这200bp范围的甲基化CpG位点总数(MB mCG),以及每一个CpG位 点上下游l〇〇bp的基因组CpG密度、GC含量,CpG-〇E值等对甲基化水平检测的影响,利用 岭回归导入到模型中,并且机器学习得到某一胞嘧啶位点甲基化水平;
[0047] 3)将回归得到的甲基化水平超过1的位点自动归为甲基化水平为1,而回归的甲 基化水平值小于〇的位点自动归为甲基化水平为0。
[0048] 优选的,所述的相对甲基化信息包括:MB-seq甲基化水平的观测值MBlevel,甲 基化CpG个数MBmCG,MB-seq测序深度MBdepth,当前CpG侧翼+/_100bp区域的MB-seq 检测到的平均甲基化水平MBback,这200bp范围的甲基化CpG位点总数MBmCG。
[0049] 岭回归矫正MB-seq甲基化水平的系统,包括以下模块:
[0050] 提取模块:从参考基因组序列中提取基因组CpG密度、GC含量和CpG-〇E值;从 MB-seq高通量测序数据唯一比对结果中,提取已知基因组上每个胞嘧啶的相对甲基化信 息;从RRBS高通量测序数据唯一比对结果中,提取覆盖到的每个胞嘧啶的绝对甲基化信 息;所述的相对甲基化信息包括 :MB-seq甲基化水平的观测值MBlevel,甲基化CpG个数 MBmCG,MB-seq测序深度MBdepth,当前CpG侧翼+/_100bp区域的MB-seq检测到的平均 甲基化水平MBback,这200bp范围的甲基化CpG位点总数MBmCG ;
[0051] 建模模块:根据基因组信息和甲基化信
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1