基于岭回归矫正MB-seq甲基化水平的方法及系统的制作方法_4

文档序号:8922841阅读:来源:国知局
,;取多个预测值的平均值;
[0094] c).甲基化水平的预测是全基因组范围的,并且对于RRBS原本就覆盖的位点,采 取RRBS的观测值作为最终的甲基化水平;所有未被RRBS覆盖的CpG位点,一律认为其未被 甲基化,并且不用于岭回归,甲基化水平预测值小于0或者大于分别基于岭回归的原则规 整到0和1。
[0095] 优选的,N彡 1000。
[0096] 数据训练和测试模块对模型数据训练时:
[0097] a).当变量间存在共线性的时候,通过引入lambda表达式以解决最小二乘回归得 到的系数不稳定,方差很大的问题;
[0098] b).当模型包含常数项时,岭回归函数对y进行中心化,以y的均值作为因子;对 X进行中心化和归一化,以x中各个变量的均值和标准差作为因子;这样对x和y处理后,x 和y的均值为〇,这使得回归平面经过原点,即常数项为〇 ;
[0099]c).当模型不包含常数项时,因为要强制通过原点,该模型假设各个变量的均值为 0,因此不对X和y进行中心化,但是对x进行归一化,而且归一化因子也是假设变量均值为 〇计算出来的该变量的标准差。
[0100] 数据训练和测试模块对模型进行测试的时候,需要首先对x和y进行中心化和归 一化,此时因子是使用训练模型时候进行中心化和归一化的因子,然后再与系数相乘得到 预测结果。
[0101] 在回归模块计算之后,设置异常点处理模块,用于对异常点处理:
[0102] 1)将MB-seq检测深度为0的位点定义为甲基化水平为0 ;
[0103] 2)结合MB-seq甲基化水平的观测值(MBlevel),甲基化CpG个数(MB mCG),MB-seq测序深度(MBdepth),当前CpG侧翼+/_100bp区域的MB-seq检测到的平均 甲基化水平(MBback),这200bp范围的甲基化CpG位点总数(MBmCG),以及每一个CpG位 点上下游l〇〇bp的基因组CpG密度、GC含量,CpG-〇E值等对甲基化水平检测的影响,利用 岭回归导入到模型中,并且机器学习得到某一胞嘧啶位点甲基化水平;
[0104] 3)将回归得到的甲基化水平超过1的位点自动归为甲基化水平为1,而回归的甲 基化水平值小于〇的位点自动归为甲基化水平为0。
【主权项】
1. 基于岭回归矫正MB-Seq甲基化水平的方法,其特征在于,包括以下步骤: (1) 提取信息 (2) 建模 (3) 岭回归计算; 其中,所述的步骤(1)需要提取的信息有:从参考基因组序列中提取基因组CpG密度、 GC含量和CpG-OE值;从MB-seq高通量测序数据唯一比对结果中,提取已知基因组上每个 胞嘧啶的相对甲基化信息;从RRBS高通量测序数据唯一比对结果中,提取覆盖到的每个胞 嘧啶的绝对甲基化信息; 所述的步骤(2)建模如下:其中: y:目标函数;为以RRBS高通量测序数据唯一比对结果中提取到的覆盖到的每个胞嘧 啶的绝对甲基化信息; X:回归变量矩阵;包括行、列;每行代表每个CpG变量;每列分别为每个变量的CpG密 度、GC含量、CpG-OE值以及相对甲基化信息; 所述的相对甲基化信息包括:MB-seq甲基化水平的观测值MB level,甲基化CpG个数 MB mCG, MB-seq测序深度MB depth,当前CpG侧翼+/-IOObp区域的MB-seq检测到的平均 甲基化水平MB back,这200bp范围的甲基化CpG位点总数MB mCG ; 所述的步骤(3)岭回归计算具体是对求导,结果为 2XT (Y-XW) -2 λ W 令其为〇,求得的值:输入新的回归变量矩阵X即可获得新Y值,即而获得全基因组的胞嘧啶位点的绝对甲 基化水平。2. 如权利要求1所述的基于岭回归矫正MB-seq甲基化水平的方法,其特征在于:在所 述的步骤(1)中提取信息后,还将提取到的信息进行阈值过滤,过滤低质量碱基和序列,并 过滤adapter污染序列。3. 如权利要求1所述的基于岭回归矫正MB-seq甲基化水平的方法,其特征在于:所述 的步骤(3)计算之前,采用交叉验证评估模型进行数据训练和测试: a) .将预测特征变量和真实的甲基化水平分成训练和测试数据集;随机抽取50%的 CpG位点作为训练数据,剩下的50%作为测试数据; b) .先使用训练数据训练模型;再计算预测甲基化水平值和RRBS测量的甲基化水平值 之间的相关性系数;这个过程重复N次,N次的平均相关性系数用来表示模型的预测精度; 对于每个基因组元件,单独进行训练和岭回归测试;而对同时位于多个基因组元件的 CpG位点,;取多个预测值的平均值; c).甲基化水平的预测是全基因组范围的,并且对于RRBS原本就覆盖的位点,采取 RRBS的观测值作为最终的甲基化水平;所有未被RRBS覆盖的CpG位点,一律认为其未被甲 基化,并且不用于岭回归,甲基化水平预测值小于O或者大于分别基于岭回归的原则规整 到O和1。4. 如权利要求3所述的基于岭回归矫正MB-seq甲基化水平的方法,其特征在于: N 彡 1000。5. 如权利要求3所述的基于岭回归矫正MB-seq甲基化水平的方法,其特征在于:在模 型数据训练时: a) .当变量间存在共线性的时候,通过引入lambda表达式以解决最小二乘回归得到的 系数不稳定,方差很大的问题; b) .当模型包含常数项时,岭回归函数对y进行中心化,以y的均值作为因子;对X进 行中心化和归一化,以X中各个变量的均值和标准差作为因子;这样对X和y处理后,X和 y的均值为〇,这使得回归平面经过原点,即常数项为〇 ; c) .当模型不包含常数项时,因为要强制通过原点,该模型假设各个变量的均值为0, 因此不对X和y进行中心化,但是对X进行归一化,而且归一化因子也是假设变量均值为0 计算出来的该变量的标准差。6. 如权利要求3所述的基于岭回归矫正MB-seq甲基化水平的方法,其特征在于:在使 用该模型进行测试的时候,需要首先对X和y进行中心化和归一化,此时因子是使用训练模 型时候进行中心化和归一化的因子,然后再与系数相乘得到预测结果。7. 如权利要求1所述的基于岭回归矫正MB-seq甲基化水平的方法,其特征在于:在步 骤(3)岭回归计算之后,进行如下对异常点处理: 1) 将MB-seq检测深度为0的位点定义为甲基化水平为0 ; 2) 结合MB-seq甲基化水平的观测值(MB level),甲基化CpG个数(MB mCG),MB-seq测 序深度(MB depth),当前CpG侧翼+/-IOObp区域的MB-seq检测到的平均甲基化水平(MB back),这200bp范围的甲基化CpG位点总数(MB mCG),以及每一个CpG位点上下游IOObp 的基因组CpG密度、GC含量,CpG-OE值等对甲基化水平检测的影响,利用岭回归导入到模 型中,并且机器学习得到某一胞嘧啶位点甲基化水平; 3) 将回归得到的甲基化水平超过1的位点自动归为甲基化水平为1,而回归的甲基化 水平值小于〇的位点自动归为甲基化水平为0。8. 岭回归矫正MB-seq甲基化水平的系统,其特征在于:包括以下模块: 提取模块:从参考基因组序列中提取基因组CpG密度、GC含量和CpG-OE值;从MB-seq 高通量测序数据唯一比对结果中,提取已知基因组上每个胞嘧啶的相对甲基化信息;从 RRBS高通量测序数据唯一比对结果中,提取覆盖到的每个胞嘧啶的绝对甲基化信息;所 述的相对甲基化信息包括:MB-seq甲基化水平的观测值MB level,甲基化CpG个数MB mCG, MB-seq测序深度MB depth,当前CpG侧翼+/-IOObp区域的MB-seq检测到的平均甲基 化水平MB back,这200bp范围的甲基化CpG位点总数MB mCG ; 建模模块:根据基因组信息和甲基化信息,采用岭回归模型对真实甲基化水平RRBS level和回归参数建立回归模型; 回归模块:利用岭回归理论,并依据提取出来的基因组信息和甲基化信息,对基因组上 的胞嘧啶位点进行回归以得到甲基化水平的模块。
【专利摘要】基于岭回归矫正MB-seq甲基化水平的方法,属于基因工程技术领域,利用机器学习岭回归理论,并依据RRBS检测出来的绝对MB-seq甲基化水平进行数据训练并建立预测模型,对基因组上的RRBS未覆盖的胞嘧啶位点进行岭回归预测,使得甲基化水平检测的准确度大于95%,从而消除MB-seq的偏差并得到全基因组甲基化图谱。本发明还公开了一种基于岭回归的甲基化水平计算系统。利用本发明可以从高通量测序MB-seq数据中,精确计算全基因组每一个CpG的甲基化水平。
【IPC分类】G06F19/12
【公开号】CN104899474
【申请号】CN201510313520
【发明人】张保荣, 王晓东, 张久文
【申请人】大连三生科技发展有限公司
【公开日】2015年9月9日
【申请日】2015年6月9日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1