一种蛋白质翻译后修饰甲基化位点的预测方法

文档序号:10535229阅读:926来源:国知局
一种蛋白质翻译后修饰甲基化位点的预测方法
【专利摘要】本发明公开了一种蛋白质翻译后修饰甲基化位点的预测方法,属于生物信息学领域。蛋白质甲基化修饰参与细胞功能及细胞过程的许多生命活动,识别其位点对理解细胞的生命活动有十分重要的意义。本发明融合序列信息、进化信息和物理化学性质对蛋白质甲基化序列进行特征编码,采用信息增益优化特征方法并结合支持向量机构建预测模型,独立测试结果表明本方法对蛋白质甲基化位点具有良好的预测性能,同时,开发了网络预测平台,用于对蛋白质甲基化位点的在线预测。
【专利说明】
一种蛋白质翻译后修饰甲基化位点的预测方法
技术领域
[0001] 本发明属于生物信息学领域,具体涉及一种蛋白质翻译后修饰甲基化位点的预测 方法。
【背景技术】
[0002] 蛋白质翻译后修饰(PTMs)对细胞的调控机制起着重要作用,影响蛋白的多种属 性,包括蛋白质折叠、活性及其生物功能,因此,深入研究PTMs对于理解人类疾病发病机制 具有重要作用。蛋白质甲基化是众多蛋白质翻译后修饰中最常见的一种,在甲基转移酶的 催化下,甲基基团由腺苷基甲硫氨酸转移至相应蛋白质。蛋白质甲基化不仅对真核细胞 染色质的遗传修饰具有重要作用,还对细胞分化、发育、基因表达、基因组稳定性、信号传递 以及人类疾病研究等具有十分重要的作用。虽然目前有多种实验方法可以对甲基化位点进 行识别,例如质谱技术、放射性化学方法和染色体免疫沉淀法等,但是,这些实验技术对甲 基化位点的识别效率较低、耗时长且费用高。近年来,采用生物信息学方法预测甲基化位点 越来越受欢迎,从2005年至今,已有数十种预测甲基化的方法和工具,例如,Xue等利用支持 向量机构建了第一个预测甲基化位点的平台。Shao等基于贝叶斯算法提取特征建立了一种 识别甲基化位点预测器。Shi等基于扩张的特征编码方案和支持向量机开发了蛋白质甲基 化预测工具。最近,Lee等基于氨基酸主成分和溶剂可及表面积等特征,建立了 MethK工具预 测组蛋白和非组蛋白的赖氨酸甲基化位点。虽然甲基化位点预测方法取得了很大进展,但 这些方法仍存在一些缺陷。如:构建模型时收集的训练样本比较少,特征编码时使用的特征 比较单一,构建的模型过于简单而没有进行详细分类等。随着现代技术的快速发展,越来越 多的甲基化位点被识别出来,现有模型和方法不能满足多类型和高精度的预测要求。因而 发展新方法改进现有蛋白质甲基化位点的预测非常关键。本发明发展了一种基于多特征编 码和信息增益优化方法构建不同物种的甲基化位点预测模型,通过独立测试集测试比对表 明,本方法构建的预测模型具有稳定、准确度高等优点。本发明的预测结果可以为实验验证 甲基化位点的研究提供很好的借鉴作用,对研究蛋白质甲基化的机理和生物功能有重大意 义。

【发明内容】

[0003] 本发明的目的在于提供一种蛋白质翻译后修饰甲基化位点的预测方法,它对蛋白 质甲基化位点的预测具有快速、高通量和准确度高的优点。
[0004] 本发明是这样实现的,一种蛋白质翻译后修饰甲基化位点的预测方法,其特征在 于:首先,收集实验验证的蛋白质甲基化数据,进行序列预处理后得到正负样本序列,对样 本序列进行序列信息、进化信息和物理化学性质等三方面的特征编码;然后,采用信息增益 方法优化特征,再采用支持向量机进行机器学习和构建预测模型,用评价指标判断预测模 型的性能;最后,构建蛋白质甲基化位点网络预测平台,用于蛋白质甲基化位点的在线预 测 。
[0005] 本发明采用以下技术方案:基于以上所述,本发明的具体步骤为: 步骤1),收集蛋白质甲基化数据:甲基化蛋白从蛋白质数据库中收集,正样本是经实验 验证标记的甲基化位点,负样本是从与正样本相同的蛋白中随机挑选的跟正样本数量相同 的未标记的精氨酸和赖氨酸序列; 步骤2),样本序列预处理:将收集的正负样本序列经过cd-hit工具去除30%的同源性, 再统一切割成以精氨酸或赖氨酸为中心,上游为9个氨基酸,下游为9个氨基酸,长度为19的 序列; 步骤3),样本序列特征编码:对正负样本序列的序列信息、进化信息和物理化学性质进 行特征编码; 步骤4),采用信息增益方法优化特征:由步骤3的特征编码得到的维数比较大,且有冗 余的信息,所以,采用信息增益的方法挑选重要的维数组成新的特征,不仅能减少维数,还 能提高预测的准确度;信息增益的原理是根据信息熵进行挑选,其具体步骤如下: 当一个特征向量定义为邪寸,其信息熵为:
[A]是油勺数值集中的一个子集,P(f)是^的先验概率; 滅E给定另一个组冲的条件熵定义为:
|乃)是龙合另外一个值乃的后验概率; 通过X熵的减少量反映对是供给戒]增加熵,称作信息增益:
以上理论表明,信息熵的值越大,该特征越重要; 步骤5),构建预测模型:采用步骤4的信息增益优化方法优化步骤3的样本序列特征编 码,得到最优特征向量,将最优特征向量输入支持向量机进行10倍交叉验证训练学习,以灵 敏度、特异度、准确度和马氏相关系数作为评价指标对模型进行评价,筛选出最优预测模 型;用筛选出的最优预测模型对独立测试集样本进行测试,验证预测模型的性能。
[0006] 上述方法中,步骤3)中样本序列进行特征编码的具体实施步骤如下: (1) 样本序列的序列信息编码:序列信息包括氨基酸出现频率、二进制编码和K-空间氨 基酸对;氨基酸出现频率是根据20种氨基酸在长度为19的序列中出现的频数进行编码;二 进制编码是把序列中每个氨基酸都转化为一个20维的向量;K-空间氨基酸对是查找不同氨 基酸对被间隔之后出现的频数,根据频数进行编码; (2) 样本序列的进化信息编码:基于K-近邻打分特征进行编码,比对未知的序列与已知 的甲基化序列进行相似性打分,当打分大于〇 . 5时认为是甲基化序列,,否则为非甲基化序 列;相似性主要是基于空间距离的比对,其距离的计算方法如下: 两条序列S1=[S1 (i)]和S2=[S2 (i)]的距离Dist (Si, S2)定义为:
P代表蛋白序列长度,Sim是氨基酸相似矩阵BL0SUM62,3和/7分别代表氨基酸残基,M是 置换矩阵,max{#}是矩阵最大值,mini#}是矩阵最小值; (3)样本序列的物理化学性质编码:把样本序列残基转化为对应的物理化学性质的数 值,用支持向量机对544种氨基酸物理化学性质一一编码测试,选取其中三个预测准确度最 高的物理化学性质,作为氨基酸物理化学性质编码。
[0007] 本发明还涉及一种蛋白质翻译后修饰甲基化位点的预测方法的应用:采用构建的 预测模型开发在线网络预测平台http: //bioinfo. ncu. edu. cn/PSSMe. aspx,只需在预测平 台的指定区域输入蛋白质名称或蛋白质序列,即可直接给出该蛋白质中可能出现的甲基化 位点预测信息,实现对蛋白质甲基化位点的在线预测;同时,在预测平台的指定区域输入多 条蛋白质序列,即可实现对蛋白质甲基化位点的高通量预测。
[0008] 本发明的技术效果是:本发明先从蛋白质数据库中收集甲基化蛋白质数据,经去 同源和切割预处理后得到正负样本序列,对样本序列进行序列信息、进化信息和物理化学 性质特征编码,并采用信息增益方法优化特征,将最优特征向量输入支持向量机进行10倍 交叉验证训练学习筛选出最优预测模型,基于最优模型开发在线网络预测平台,只需在预 测平台的指定区域输入蛋白质名称或蛋白质序列,即可直接给出该蛋白质中可能出现的甲 基化位点预测信息,该方法具有快速、高通量和准确性好的优点。
【附图说明】
[0009] 图1是采用K-近邻打分特征编码区分精氨酸甲基化与非甲基化序列结果图。(a) 人类、(b)老鼠和(c)大老鼠的甲基化序列打分,(e)人类、(d)老鼠和(f)大老鼠的非甲基化 序列打分。
[0010] 图2是采用K-近邻打分特征编码区分赖氨酸甲基化与非甲基化序列结果图。(a)人 类、(b)老鼠和(c)其他真核生物的甲基化序列打分,(e)人类、(d)老鼠和(f)其他真核生物 的非甲基化序列打分。
[0011] 图3是信息增益优化后的特征与单个特征对不同物种模型预测准确度的比较图: (a)精氨酸人类模型,(b)精氨酸老鼠模型,(c)精氨酸大老鼠模型,(d)精氨酸混合模型,(e) 赖氨酸人类模型,(f)赖氨酸老鼠模型,(g)赖氨酸其他真核生物模型,(h)赖氨酸混合模型。
[0012] 图4是B4DEH8蛋白甲基化位点的预测结果图。
【具体实施方式】
[0013]下面结合附图和具体实施例对本发明作进一步阐述,本发明并不限于此; 实施例1 从UniProt和PhosphoSite等蛋白质数据库中收集蛋白质甲基化数据,正样本是经实验 验证标记的甲基化位点,负样本是从与正样本相同的蛋白中随机挑选的跟正样本数量相同 的未标记的精氨酸(R)和赖氨酸(K)序列。将以上收集的蛋白序列经过cd-hit工具去除30% 的同源性,再统一切割成以R或K为中心、上游为9个氨基酸、下游为9个氨基酸、长度为19的 序列。对统一切割预处理后的正负样本序列按照以下步骤进行序列信息、进化信息和物理 化学性质特征编码: (1)样本序列的序列信息编码:序列信息包括氨基酸出现频率、二进制编码和K-空间氨 基酸对;氨基酸出现频率是根据20种氨基酸在长度为19的序列中出现的频数进行编码;二 进制编码是把序列中每个氨基酸都转化为一个20维的向量;K-空间氨基酸对是查找不同氨 基酸对被间隔之后出现的频数,根据频数进行编码。
[0014] (2)样本序列的进化信息编码:基于K-近邻打分特征进行编码,比对未知的序列与 已知的甲基化序列进行相似性打分,当打分大于0.5时认为是甲基化序列,否则为非甲基化 序列。相似性主要是基于空间距离的比对,其距离的计算方法如下: 两条序列S1=[S1 (i)]和S2=[S2 (i)]的距离Dist (si, S2)定义为:
P代表蛋白序列长度,Sim是氨基酸相似矩阵BL0SUM62,3和/7分别代表氨基酸残基,M是 置换矩阵,max{#}是矩阵最大值,mini#}是矩阵最小值。
[0015] 进化信息训练的结果如图1和图2所示,图1是精氨酸序列K-近邻打分,图2是赖氨 酸序列K-近邻打分。可见,当打分大于0.5时,该序列被认为能发生甲基化,而当打分小于 0.5时,则为非甲基化序列。该特征能显著区分甲基化和非甲基化位点,可用于对蛋白质甲 基化位点的预测。
[0016] (3)样本序列的物理化学性质编码:把样本序列残基转化为对应的物理化学性质 的数值,用支持向量机对544种氨基酸物理化学性质一一编码测试,选取其中三个预测准确 度最高的物理化学性质,作为氨基酸物理化学性质编码。
[0017] 由以上特征编码得到的维数比较大,且有冗余信息,而采用信息增益方法挑选重 要的维数组成新特征,不仅能减少维数,还能提高预测的准确度。信息增益的原理是根据信 息熵进行挑选,具体步骤如下: 当一个特征向量定义为邪寸,其信息熵为:
[^]是油勺数值集中的一个子集,P(^)是1的先验概率; 滅E给定另一个组冲的条件熵定义为:
I 7j)是^给另外一个值的后验概率; 通过X熵的减少量反映对是供给戒]增加熵,称作信息增益: IG(X \ Y) - //(,¥) - H(X \ F) 以上理论表明,信息熵的值越大,该特征越重要。
[0018]图3是信息增益优化后的特征与单个特征对不同物种模型预测准确度的比较。由 图可见,对精氨酸人类模型,采用单个特征得到的最高预测准确度为72.65%,而采用信息增 益优化后的特征得到的预测准确度为78.94%,提高了6.29%(图3a);对精氨酸老鼠模型,采 用单个特征得到的最高预测准确度为71.64%,而采用信息增益优化后的特征得到的预测准 确度为77.49%,提高了5.85%(图3b);对精氨酸大老鼠模型,采用单个特征得到的最高预测 准确度为73.67%,而采用信息增益优化后的特征得到的预测准确度为80.06%,提高了6.39% (图3c);对精氨酸混合模型,采用单个特征得到的最高预测准确度为71.49%,而采用信息增 益优化后的特征得到的预测准确度为75.82%,提高了 4.33%(图3d)。对赖氨酸人类模型,采 用单个特征得到的最高预测准确度为67.84%,而采用信息增益优化后的特征得到的预测准 确度为73.62%,提高了 5.78%(图3e);对赖氨酸老鼠模型,采用单个特征得到的最高预测准 确度为68.01%,而采用信息增益优化后的特征得到的预测准确度为81.18%,提高了 13.17% (图3f);对赖氨酸老鼠模型,采用单个特征得到的最高预测准确度为67.79%,而采用信息增 益优化后的特征得到的预测准确度为80.36%,提高了 12.57%(图3g);对赖氨酸混合模型,采 用单个特征得到的最高预测准确度为65.78%,而采用信息增益优化后的特征得到的预测准 确度为73.36%,提高了7.58%(图3h)。以上结果表明,采用信息增益的方法对特征进行优化 后,对蛋白质甲基化位点的预测准确度比单个特征预测的准确度显著提高,表明信息增益 能的方法可显著优化特征。
[0019]采用信息增益优化方法优化样本序列特征编码,得到最优特征向量,将最优特征 向量输入支持向量机进行10倍交叉验证训练学习,以灵敏度、特异度、准确度和马氏相关系 数作为评价指标对模型进行评价,筛选出最优预测模型,并用筛选出的最优预测模型对独 立测试集样本进行测试,验证预测模型的性能,建立了甲基化位点物种特异性预测模型 (PSSMe)。
[0020] 实施例2 为了方便蛋白质甲基化位点的预测应用,基于PSSMe并采用MATLAB和C#语言联合编程, 开发了在线预测平台(http://bioinfo. ncu.edu.cn/PSSMe.aspx)。只需在该网站的指定区 域输入需要预测蛋白在UniProt数据库中的蛋白名称或蛋白f asta格式序列,就可以进行该 蛋白可能的甲基化位点预测。例如,用户想预测蛋白名为"B4DH18"的序列的甲基化位点,只 需在网站的蛋白名处输入"B4DEH8",点击"Load"键,PSSMe工具将自动从UniProt数据库中 下载该蛋白序列并导入到指定区域,B4DEH8蛋白序列彳目息如下: >tr|B4DEH8|B4DEH8_HUMAN MEEEAEKLKELQNEVEKQMNMSPPPGNAGPVIMSIEEKMEADARSIYVGNVDYGATAEELEAHFHGCGSVNRV TILCDKFSGHPKGFAYIEFSDKESVRTSLALDESLFRGRQIKVIPKRTNRPGISTTDRGFPRARYRARTTNYNSSRS RFYSGFNSRPRGRVYRSG 当B4DEH8蛋白序列导入后,用户选择需要预测的是R甲基化还是K甲基化,即可预测出 该蛋白在精氨酸或赖氨酸上发生甲基化的位点。本方法还可以用于对不同物种蛋白质甲基 化位点的预测,用户只需选择所需预测的物种类型,即可预测出该物种蛋白质发生甲基化 的位点。当B4DEH8蛋白质选择精氨酸人类模型时,点击提交后,后台程序会自动进行该蛋白 质序列的预处理、特征编码、信息增益的特征优化及支持向量机的学习,最后给出甲基化位 点的预测信息,当预测概率大于0.5时被认定为甲基化位点,反之为非甲基化位点。图4为蛋 白名为"B4DEH8"的序列在精氨酸人类模型上发生甲基化的预测结果。由图可见,第一列为 蛋白名,第二列为甲基化位点在蛋白序列的位置,第三列为以甲基化位点为中心的长度为 19的蛋白序列,第四列为支持向量机预测该位置上的氨基酸发生甲基化的概率。采用本方 法构建的PSSMe预测出B4DEH8蛋白质共有11个位置的精氨酸能发生甲基化,分别是在序列 位置的第 110,112,131,135,137,141,151,159,161,163,166 处,且发生甲基化 的概率分别为0.77621,0.61148,0.73182,0.72489,0.65894,0.51302,0.66732, 0.63348,0.86128,0.90358,0.72676。预测概率越大,表明该位置的精氨酸发生甲基化 的可能性越大。用户可根据预测结果,方便快速地确定一些潜在的蛋白质甲基化位点,例 如,第一行,B4DEH8蛋白质序列位置为110处的R能发生甲基化,发生甲基化的概率为 0.77621,以该位点为中心的长度为19的序列残基为SLALDESLF-R-GRQIKDIPK。同时,当在预 测平台的指定区域输入多条蛋白质序列时,还可实现对蛋白质甲基化位点的高通量预测。 研究者可根据以上提供的预测结果进一步缩小研究范围,减少实验验证蛋白质甲基化位点 的次数,对理解蛋白质甲基化机理和相关功能具有重要意义。
【主权项】
1. 一种蛋白质翻译后修饰甲基化位点的预测方法,其特征在于:首先,收集实验验证的 蛋白质甲基化数据,进行序列预处理后得到正负样本序列,对样本序列进行序列信息、进化 信息和物理化学性质等三方面的特征编码;然后,采用信息增益方法优化特征,再采用支持 向量机进行机器学习和构建预测模型,用评价指标判断预测模型的性能;最后,构建蛋白质 甲基化位点网络预测平台,用于蛋白质甲基化位点的在线预测。2. 根据权利要求1所述的一种蛋白质翻译后修饰甲基化位点的预测方法,其特征在于: 具体步骤为: 步骤1 ),收集蛋白质甲基化数据:甲基化蛋白从蛋白质数据库中收集,正样本是经实验 验证标记的甲基化位点,负样本是从与正样本相同的蛋白中随机挑选的跟正样本数量相同 的未标记的精氨酸和赖氨酸序列; 步骤2),样本序列预处理:将收集的正负样本序列经过cd-hit工具去除30%的同源性, 再统一切割成以精氨酸或赖氨酸为中心,上游为9个氨基酸,下游为9个氨基酸,长度为19的 序列; 步骤3),样本序列特征编码:对正负样本序列的序列信息、进化信息和物理化学性质进 行特征编码; 步骤4),采用信息增益方法优化特征:由步骤3的特征编码得到的维数比较大,且有冗 余的信息,所以,采用信息增益的方法挑选重要的维数组成新的特征,不仅能减少维数,还 能提高预测的准确度;信息增益的原理是根据信息熵进行挑选,其具体步骤如下: 当一个特征向量定义为寸,其信息熇为:以上理论表明,信息熵的值越大,该特征越重要; 步骤5),构建预测模型:采用步骤4的信息增益优化方法优化步骤3的样本序列特征编 码,得到最优特征向量,将最优特征向量输入支持向量机进行10倍交叉验证训练学习,以灵 敏度、特异度、准确度和马氏相关系数作为评价指标对模型进行评价,筛选出最优预测模 型;用筛选出的最优预测模型对独立测试集样本进行测试,验证预测模型的性能。3. 根据权利要求2所述的一种蛋白质翻译后修饰甲基化位点的预测方法,其特征在于: 步骤3中样本序列特征编码的具体实施步骤如下: (1)样本序列的序列信息编码:序列信息包括氨基酸出现频率、二进制编码和K-空间氨 基酸对;氨基酸出现频率是根据20种氨基酸在长度为19的序列中出现的频数进行编码;二 进制编码是把序列中每个氨基酸都转化为一个20维的向量;K-空间氨基酸对是查找不同氨 基酸对被间隔之后出现的频数,根据频数进行编码; (2) 样本序列的进化信息编码:基于K-近邻打分特征进行编码,比对未知的序列与已知 的甲基化序列进行相似性打分,当打分大于〇. 5时认为是甲基化序列,,否则为非甲基化序 列;相似性主要是基于空间距离的比对,其距离的计算方法如下: 两条序列S1=[S1 (i)]和S2=[S2 (i)]的距离Dist (si, S2)定义为:P代表蛋白序列长度,Sim是氨基酸相似矩阵此05通62,3和/7分别代表氨基酸残基,M是 置换矩阵,max{#}是矩阵最大值,mini#}是矩阵最小值; (3) 样本序列的物理化学性质编码:把样本序列残基转化为对应的物理化学性质的数 值,用支持向量机对544种氨基酸物理化学性质一一编码测试,选取其中三个预测准确度最 高的物理化学性质,作为氨基酸物理化学性质编码。4.根据权利要求1所述的一种蛋白质翻译后修饰甲基化位点的预测方法的应用,其特 征在于:采用构建的预测模型开发在线网络预测平台http ://bioinfo. ncu . edu . cn/ PSSMe.aspx,只需在预测平台的指定区域输入蛋白质名称或蛋白质序列,即可直接给出该 蛋白质中可能出现的甲基化位点预测信息,实现对蛋白质甲基化位点的在线预测;同时,在 预测平台的指定区域输入多条蛋白质序列,即可实现对蛋白质甲基化位点的高通量预测。
【文档编号】G06F19/18GK105893787SQ201610447108
【公开日】2016年8月24日
【申请日】2016年6月21日
【发明人】邱建丁, 温平平, 施绍萍, 梁汝萍
【申请人】南昌大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1