利用整合工具预测水稻蛋白质磷酸化位点的方法

文档序号:6374687阅读:665来源:国知局
专利名称:利用整合工具预测水稻蛋白质磷酸化位点的方法
技术领域
本发明涉及基因组学和蛋白质组学研究中的蛋白质翻译后修饰技术领域,特别是一种利用整合工具预测水稻蛋白质磷酸化位点的方法。
背景技术
蛋白质磷酸化是最重要的蛋白质翻译后修饰过程之一,对细胞功能起着重要的调节作用。随着生物化学研究技术的不断发展,越来越多的蛋白质磷酸化位点得到鉴定,刺激了蛋白质磷酸化位点预测算法、工具的开发。当前有大量的蛋白质磷酸化位点预测工具可供在线检测。但由于蛋白质磷酸化位点预测工具存在数据采样的偏差,造成由特定数据训练开发的预测工具只对特定物种的蛋白质磷酸化位点具有较高的预测性能。不同物种的蛋白质在序列形态、空间结构及激酶类型等方面具有较大的差异性。而现有的蛋白质磷酸化位点数据大都来源于哺乳动物,因此,大部分预测软件的模板和算法也是以哺乳动物蛋白质磷酸化位点数据为训练集,使得现有大部分工具只适合预测哺乳动物蛋白质磷酸化位 点。前人也针对不同的物种,开发出相应的蛋白质磷酸化位点预测工具。如拟南芥的蛋白质磷酸化位点预测工具PhosphAt,酵母蛋白质磷酸化位点预测工具NetPhosYeast。其中,PhosphAt以经试验验证的拟南芥蛋白质磷酸化位点数据为训练集,用支持向量机(SVM)方法开发出拟南芥蛋白质丝氨酸磷酸化位点的预测工具。而NetPhosYeast是以神经网络方法建立酵母蛋白质磷酸化位点的预测工具。不同的蛋白质磷酸化位点预测工具适用于特定的物种,不同的预测工具可能采用不同的算法。为了配合快速发展的水稻基因组学和蛋白质组学研究,开发水稻蛋白质磷酸化位点预测工具势在必行。

发明内容
本发明的目的在于提供一种利用整合工具预测水稻蛋白质磷酸化位点的方法,该方法有利于提高蛋白质磷酸化位点的预测准确性。一种利用整合工具预测蛋白质磷酸化位点的方法,以在试验中检测到的水稻蛋白质磷酸化位点数据为训练集,以η种蛋白质磷酸化位点预测工具为子工具,通过一定的权重策略,为各子工具分配权重,将η种子工具整合而成水稻蛋白质磷酸化位点预测的整合工具,通过所述整合工具预测水稻蛋白质磷酸化位点。上述权重策略是建立于限制性网格搜索法和随机加权法基础上的基于网格的随机数加权法。本发明的有益效果是利用整合算法,将国际上新近开发、性能较优的蛋白质磷酸化位点预测工具综合起来,作为整合工具,用于预测水稻蛋白质的磷酸化位点,与新近开发的预测工具相比,本发明具有更优的预测性能。


图I是本发明实施例的实施流程图。
图中,I为已发表文献中的水稻蛋白质磷酸化位点数据;2为从蛋白质数据库下载的水稻蛋白质磷酸化位点数据;3为本发明试验验证的水稻蛋白质磷酸化位点数据;4为数据库整理技术;5为水稻蛋白质磷酸化位点数据库PhosRice ;6、7、…、12为若干种新近开发的蛋白质磷酸化位点预测工具;13为工具整合策略;14为由各子工具加权整合而成的水稻蛋白质磷酸化位点预测的Meta-sever工具;15为由基于网格的随机数加权法整合而成的整合工具PhosphoRice。
具体实施例方式本发明利用整合工具预测蛋白质磷酸化位点的方法,以在生物化学试验中检测到的水稻蛋白质磷酸化位点数据为训练集,以国际上新近开发的η种蛋白质磷酸化位点预测工具为子工具,在本实施例中筛选7种作为子工具,通过一定的权重策略,即工具整合策略,包括未加权表决法、减数加权表决法、加权表决法、限制性网格搜索法、基于网格的随机数加权法,为各子工具分配权重,将η种子工具整合而成水稻蛋白质磷酸化位点预测的整 合工具,通过所述整合工具预测水稻蛋白质磷酸化位点。经比较验证,由基于网格的随机数加权法整合而成的整合工具PhosphoRice预测性能最佳。因此,在本发明较佳实施例中,采用基于网格的随机数加权法作为本发明方法的权重策略。本发明一实施例的实施流程如图I所示。首先,选择已发表文献中的水稻蛋白质磷酸化位点数据(I)、从蛋白质数据库下载的水稻蛋白质磷酸化位点数据(2)以及本发明试验验证的水稻蛋白质磷酸化位点数据(3)作为训练集,通过数据库整理技术(4)进行整理,建立水稻蛋白质磷酸化位点数据库PhosRice (5)。所述数据库整理技术(4)包括提取蛋白质序列信息、剪取磷酸化位点前后各12个氨基酸残基的片段、删除不足25个位点的数据、去除冗余数据等。同时,以若干种国际上新近开发的蛋白质磷酸化位点预测工具(6)、
(7)、…、(12)为子工具,通过工具整合策略(13)进行整合,即通过未加权表决法、减数加权表决法、加权表决法、限制性网格搜索法、基于网格的随机数加权法等权重策略为各子工具分配权重,将各子工具加权整合而成水稻蛋白质磷酸化位点预测的Meta-sever工具(14)。经比较验证,由基于网格的随机数加权法整合而成的整合工具PhosphoRice (15)预测性能最佳。由此产生了水稻蛋白质磷酸化位点预测工具PhosphoRice (15)。下面对本发明作进一步的说明。首先用已经试验验证的水稻蛋白质磷酸化位点数据构建数据集,筛选7种新近开发的蛋白质磷酸化位点预测工具为子工具。通过不同的权重策略,包括未加权表决法、减数加权表决法、加权表决法、限制性网格搜索法、基于网格的随机数加权法等,对各子工具分配相应权重,整合而成水稻蛋白质磷酸化位点预测的Meta-sever工具。通过比较基于不同权重策略的所有Meta-sever工具的预测性能,基于网格的随机数加权法的整合工具PhosphoRice的预测性能最优。因此,在本实施例中通过所述蛋白质磷酸化位点预测工具PhosphoRice预测水稻蛋白质磷酸化位点。由于限制性网格搜索法的网格选择受到网点的限制,只能是一些离散的数值,从中可能无法获得最优解。为进一步优化算法,在加权表决算法的基础上,我们制定了一个随机搜索的策略来进一步选择不同子工具的权重,任何子工具的权重都被允许在一定范围内波动。波动的范围以限制性网格搜索法获得的结果为基础,波动范围处于上一个网格与下一个网格之间。随机数是专门的随机试验结果。如果所选择的预测方法有15种,对于每个方法都要产生一个随机数作为该预测方法的权重。对于每组随机数(即15个随机数)还需要一个阈值,作为判别每个位点是否为磷酸化位点的标准。因此,在每个随机数的Meta组合中一共需要16个参数。因此,我们启用一个随机数发生器,在有限循环次数内,如果满足下式,就判断结果为一个积极的预测,并得出结论。如果超过设定的循环次数,也会停止并给出在该循环中最佳的结果。
权利要求
1.一种利用整合工具预测水稻蛋白质磷酸化位点的方法,其特征在于以在试验中检测到的水稻蛋白质磷酸化位点数据为训练集,以η种蛋白质磷酸化位点预测工具为子工具,通过一定的权重策略,为各子工具分配权重,将η种子工具整合而成水稻蛋白质磷酸化位点预测的整合工具,通过所述整合工具预测水稻蛋白质磷酸化位点。
2.根据权利要求I所述的利用整合工具预测水稻蛋白质磷酸化位点的方法,其特征在于所述权重策略是建立于限制性网格搜索法和随机加权法基础上的基于网格的随机数加权法。
全文摘要
本发明涉及一种利用整合工具预测水稻蛋白质磷酸化位点的方法,其特征在于以在试验中检测到的水稻蛋白质磷酸化位点数据为训练集,以n种蛋白质磷酸化位点预测工具为子工具,通过一定的权重策略,为各子工具分配权重,将n种子工具整合成水稻蛋白质磷酸化位点预测的整合工具,通过所述整合工具预测水稻蛋白质磷酸化位点。其中,由基于网格的随机数加权法整合而成的整合工具PhosphoRice预测性能最佳。该方法有利于提高蛋白质磷酸化位点的预测准确性。
文档编号G06F19/10GK102819690SQ201210282068
公开日2012年12月12日 申请日期2012年8月9日 优先权日2012年8月9日
发明者何华勤 申请人:福建农林大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1