基于岭回归矫正MB-seq甲基化水平的方法及系统的制作方法_3

文档序号:8922841阅读:来源:国知局
息,采用岭回归模型对真实甲基化水平 RRBSlevel和回归参数建立回归模型;
[0052] 回归模块:利用岭回归理论,并依据提取出来的基因组信息和甲基化信息,对基因 组上的胞嘧啶位点进行回归以得到甲基化水平的模块。
[0053] 与现有技术相比较,本发明具有如下有益效果:
[0054] 利用数学模型,对基因组上的RRBS未覆盖的胞嘧啶位点进行岭回归预测,使得甲 基化水平检测的准确度大于95%,从而消除MB-seq的偏差并得到全基因组甲基化图谱。利 用本发明可以从高通量测序MB-seq数据中,精确计算全基因组每一个CpG的甲基化水平。
[0055]
[0056]
【具体实施方式】
[0057] 基于岭回归矫正MB-seq甲基化水平的方法,包括以下步骤:
[0058] (1)提取信息⑵建模⑶岭回归计算;
[0059] 其中,所述的步骤(1)需要提取的信息有:从参考基因组序列中提取基因组CpG密 度、GC含量和CpG-〇E值;从MB-seq高通量测序数据唯一比对结果中,提取已知基因组上每 个胞嘧啶的相对甲基化信息;从RRBS高通量测序数据唯一比对结果中,提取覆盖到的每个 胞嘧啶的绝对甲基化信息;
[0060] 所述的步骤(2)建模如下:
[0062]其中:
[0063]y:目标函数;为以RRBS高通量测序数据唯一比对结果中提取到的覆盖到的每个 胞嘧啶的绝对甲基化信息;
[0064] X:回归变量矩阵;包括行、列;每行代表每个CpG变量;每列分别为每个变量的 CpG密度、GC含量、CpG-〇E值以及相对甲基化信息;
[0065] 所述的步骤(3)岭回归计算具体是
[0067] 对求导,结果为
[0068] 2XT(Y-XW) -2 入W
[0069] 令其为0,求得的值:
[0071] 输入新的回归变量矩阵X即可获得新Y值,即而获得全基因组的胞嘧啶位点的绝 对甲基化水平。在所述的步骤(1)中提取信息后,将提取到的信息进行阈值过滤,过滤低 质量碱基和序列,并过滤adapter污染序列。以得到更为精确合理的甲基化水平。在所述 的步骤(3)计算之前,采用交叉验证评估模型进行数据训练和测试:a).将预测特征变量和 真实的甲基化水平分成训练和测试数据集;随机抽取50%的CpG位点作为训练数据,剩下 的50%作为测试数据;b).先使用训练数据训练模型;再计算预测甲基化水平值和RRBS测 量的甲基化水平值之间的相关性系数;这个过程重复N次,N次的平均相关性系数用来表 示模型的预测精度;优选的,N多1000。可以获得更为精确的数据。对于每个基因组元件, 单独进行训练和岭回归测试;而对同时位于多个基因组元件的CpG位点,;取多个预测值的 平均值;c).甲基化水平的预测是全基因组范围的,并且对于RRBS原本就覆盖的位点,采取 RRBS的观测值作为最终的甲基化水平;所有未被RRBS覆盖的CpG位点,一律认为其未被甲 基化,并且不用于岭回归,甲基化水平预测值小于0或者大于分别基于岭回归的原则规整 到0和1。在在模型数据训练时:a).当变量间存在共线性的时候,通过引入lambda表达 式以解决最小二乘回归得到的系数不稳定,方差很大的问题;b).当模型包含常数项时,岭 回归函数对y进行中心化,以y的均值作为因子;对x进行中心化和归一化,以x中各个变 量的均值和标准差作为因子;这样对x和y处理后,x和y的均值为0,这使得回归平面经 过原点,即常数项为0 ;c).当模型不包含常数项时,因为要强制通过原点,该模型假设各个 变量的均值为〇,因此不对x和y进行中心化,但是对x进行归一化,而且归一化因子也是 假设变量均值为〇计算出来的该变量的标准差。在使用该模型进行测试的时候,需要首先 对x和y进行中心化和归一化,此时因子是使用训练模型时候进行中心化和归一化的因子, 然后再与系数相乘得到预测结果。在步骤(3)岭回归计算之后,进行如下对异常点处理: 1)将MB-seq检测深度为0的位点定义为甲基化水平为0 ;2)结合MB-seq甲基化水平的观 测值(MBlevel),甲基化CpG个数(MBmCG),MB-seq测序深度(MBd印th),当前CpG侧翼 +/-100bp区域的MB-seq检测到的平均甲基化水平(MBback),这200bp范围的甲基化CpG 位点总数(MBmCG),以及每一个CpG位点上下游100bp的基因组CpG密度、GC含量,CpG-〇E 值等对甲基化水平检测的影响,利用岭回归导入到模型中,并且机器学习得到某一胞嘧啶 位点甲基化水平;3)将回归得到的甲基化水平超过1的位点自动归为甲基化水平为1,而回 归的甲基化水平值小于0的位点自动归为甲基化水平为0。所述的相对甲基化信息包括: MB-seq甲基化水平的观测值MBlevel,甲基化CpG个数MBmCG,MB-seq测序深度MBdepth, 当前CpG侧翼+/_100bp区域的MB-seq检测到的平均甲基化水平MBback,这200bp范围 的甲基化CpG位点总数MBmCG。
[0072] 岭回归模型是采用岭回归实现的一种正则化线性回归。当多个预测因子含有非0 系数并且呈现正态分布的时候,岭回归是理想的回归方法,岭回归对每一个预测因子影响 小的模型尤其适用,并且它防止线性回归模型系数由于共线性而导致无法模拟和高变异 性。岭回归对共线预测因子的系数收缩并趋于零,例如,给出k相同的预测因子,都将获 得相同的系数等于1/k的单个因子的回归系数值。因此,岭回归不会使某个因子消失,不 能将某些因子摒弃来获得最优预测数据集。岭回归(2)估计解决回归问题(1)使用£2惩罚 最小二乘法:
[0073]y=yln+X|3 +e: (1)
[0074]y=(yi,…,yn)T其中是观察表型的向量,ln是一个n维列向量的,y是一种常 见的截距,是nXp矩阵的表示,|3表示回归系数的向量,61是残差的向量和
是残差的误差。
[0076]其中
[0078] 是U-normi(二次方程式)损失函数(即残差平方和),X,7是X向量的第i个 行。
[0080] AH:2-norm坫于|3罚分,入彡0是调优(罚分,正规化,或复杂化)参数,这 些参数通过相对重要性决定经验误差和惩罚调节罚分的强度(即线性收缩)。A值越大, 收缩量越大。A的值依赖于数据,通过数据驱动的方法(交叉验证)进行确定使用。
[0081] CpG密度、GC含量以及CpG-〇E值三者计算方法分别为:
[0082] CpG密度:某一个CpG上下游各100bp范围内CpG个数除于201bp长度得到此CpG 位点的CpG密度;
[0083] GC含量:某一个CpG上下游各100bp范围内C和G总数除于201bp长度得到此CpG 位点的GC含量;
[0084] CpG-〇E值:CpG上下游各100bp范围内CpG个数乘于210bp,然后除于C和G个数 的乘积。
[0085] 岭回归矫正MB-seq甲基化水平的系统,包括以下模块:
[0086] 提取模块:从参考基因组序列中提取基因组CpG密度、GC含量和CpG-〇E值;从 MB-seq高通量测序数据唯一比对结果中,提取已知基因组上每个胞嘧啶的相对甲基化信 息;从RRBS高通量测序数据唯一比对结果中,提取覆盖到的每个胞嘧啶的绝对甲基化信 息;所述的相对甲基化信息包括 :MB-seq甲基化水平的观测值MBlevel,甲基化CpG个数 MBmCG,MB-seq测序深度MBdepth,当前CpG侧翼+/_100bp区域的MB-seq检测到的平均 甲基化水平MBback,这200bp范围的甲基化CpG位点总数MBmCG ;
[0087] 建模模块:根据基因组信息和甲基化信息,采用岭回归模型对真实甲基化水平 RRBSlevel和回归参数建立回归模型;
[0088] 回归模块:利用岭回归理论,并依据提取出来的基因组信息和甲基化信息,对基因 组上的胞嘧啶位点进行回归以得到甲基化水平的模块。
[0089] 优选的,提取模块提取信息后,设置阈值过滤模块,还将提取到的信息进行阈值过 滤,过滤低质量碱基和序列,并过滤adapter污染序列。
[0090] 优选的,在回归模块计算之前,还设置数据训练和测试模块,采用交叉验证评估模 型进行数据训练和测试:
[0091] a).将预测特征变量和真实的甲基化水平分成训练和测试数据集;随机抽取50% 的CpG位点作为训练数据,剩下的50%作为测试数据;
[0092] b).先使用训练数据训练模型;再计算预测甲基化水平值和RRBS测量的甲基化水 平值之间的相关性系数;这个过程重复N次,N次的平均相关性系数用来表示模型的预测精 度;
[0093] 对于每个基因组元件,单独进行训练和岭回归测试;而对同时位于多个基因组元 件的CpG位点
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1