一种基于概率神经网络集成的信号肽预测方法

文档序号：6339224阅读：638来源：国知局

专利名称：一种基于概率神经网络集成的信号肽预测方法
技术领域：
本发明涉及一种基于概率神经网络集成的信号肽预测方法，应用于对信号肽的检测。
背景技术：
在人类基因组计划的实施下，蛋白质和核酸的测序数据以指数方式增加，通过对这些数据的分析，人们可以挖掘出具有生物学意义的信息和知识。如何判断蛋白质序列是否含有信号肽部分，并确定信号肽的位置是当前生物信息学研究的重要领域。鉴于信号肽预测的重要性，目前已经出现了针对该问题的大量研究文献。vonHeijne运用了权矩阵的方法预测信号肽，是目前应用最广泛的方法之一。Chou在权矩阵原理的基础上，提出了 {-3，-1，+1}子位点耦合模型。Henrik Nielsen等人提出用隐马尔可夫模型HMM 来分类信号肽。当前，对信号肽预测的主要方法还有人工神经网络、支持向量机和贝叶斯网络等。

发明内容
本发明的目的在于提供一种基于概率神经网络集成的信号肽预测方法，本发明具有很好的可行性和有效性，能有效满足对信号肽的预测。本发明的特征在于一种基于概率神经网络集成的信号肽预测方法，其特征在于，实现步骤如下
a.根据蛋白质性质对其进行编码，然后利用滑动窗口原理分割蛋白质序列；
b.建立一组概率神经网络子分类器，分别用蛋白质序列样本进行分类训练，训练后得到一组信号肽分类模型；
c.利用得到的各个模型分类测试数据集；
d.统计各模型输出的分类结果，产生信号肽剪切位点候选集；
e.采用多数投票法决策确定信号肽的剪切位点；
f.采用5折交叉验证预测结果。本发明的优点本发明比使用单分类器预测的准确率要高，并且算法运行速度快，算法结构简洁，能有效满足对信号肽的预测。

图1为本发明实施例算法模型。图2为概率神经网络结构图。
具体实施例方式参考图1和图2，一种基于概率神经网络集成的信号肽预测方法，实现步骤如下a.根据蛋白质性质对其进行编码，然后利用滑动窗口原理分割蛋白质序列；
b.建立一组概率神经网络子分类器，分别用蛋白质序列样本进行分类训练，训练后得到一组信号肽分类模型；
c.利用得到的各个模型分类测试数据集；
d.统计各模型输出的分类结果，产生信号肽剪切位点候选集；
e.采用多数投票法决策确定信号肽的剪切位点；
f.采用5折交叉验证预测结果。步骤a中的编码主要由以下三种方式，第一种编码方案，采用计算机能直接处理的数字序列来表示蛋白质序列；第二种编码方案，基于氨基酸残基物理化学特性来编码蛋白质；第三种编码方案，按照氨基酸的相对疏水值进行编码，转化成对应的十进制数；在经过编码之后，采用滑动窗口对编码后的蛋白质序列进行分割，并对样本分割后的样本进行抽样。具体实施如下
1.蛋白质序列编码及预处理
蛋白质序列编码是信号肽预测中，决定预测质量的关键因素，是指从一级序列中提取特征参数，把字母序列转换成数值序列。本发明用三种独立的蛋白质编码方案来学习氨基酸序列和信号肽剪切位点的映射。第一种编码方案采用计算机能直接处理的数字序列来表示蛋白质序列。用1 到21的整数来编码蛋白质，即1到20分别表示20种氨基酸，21表示空输入。第二种编码方案基于氨基酸残基物理化学特性来编码蛋白质。氨基酸的侧链决定氨基酸的种类，20种氨基酸侧链在大小、正负电性以及疏水性等方面都存在差异。见表2-2，根据氨基酸残基的10个性质来编码，将20种氨基酸分别转换成十进制数。第三种编码方案按照氨基酸的相对疏水值进行编码，转化成对应的十进制数。采用滑动窗口对编码后的蛋白质序列进行分割，并对样本分割后的样本进行抽样。2.概率神经网络集成预测方法
概率神经网络(ProbabilisticNeural Networks，PNN)是 1989年由D. F. Specht提出的，
是一种非线性分类方法，其本质是一种基于Bayes最小风险准则的并行算法。基于概率神经网络的集成算法的详细步骤如下
Step 1:建立一组概率神经网络子分类器，分别用训练集进行学习，生成分类模型；
Step 2:利用得到的各个模型分类测试数据集；
Step 3:统计各模型输出的分类结果，产生信号肽剪切位点候选集。假设蛋白质P经过分类器识别出以个分泌可切片段
权利要求
1.一种基于概率神经网络集成的信号肽预测方法，其特征在于，实现步骤如下a.根据蛋白质性质对其进行编码，然后利用滑动窗口原理分割蛋白质序列；b.建立一组概率神经网络子分类器，分别用蛋白质序列样本进行分类训练，训练后得到一组信号肽分类模型；c.利用得到的各个模型分类测试数据集；d.统计各模型输出的分类结果，产生信号肽剪切位点候选集；e.采用多数投票法决策确定信号肽的剪切位点；f.采用5折交叉验证预测结果。
2.根据权利要求1所述的一种基于概率神经网络集成的信号肽预测方法，其特征在于步骤a中的编码主要由以下三种方式，第一种编码方案，采用计算机能直接处理的数字序列来表示蛋白质序列；第二种编码方案，基于氨基酸残基物理化学特性来编码蛋白质；第三种编码方案，按照氨基酸的相对疏水值进行编码，转化成对应的十进制数；在经过编码之后，采用滑动窗口对编码后的蛋白质序列进行分割，并对样本分割后的样本进行抽样。
全文摘要
本发明涉及一种基于概率神经网络集成的信号肽预测方法，其特征在于，实现步骤如下a.根据蛋白质性质对其进行编码，然后利用滑动窗口原理分割蛋白质序列；b.建立一组概率神经网络子分类器，分别用蛋白质序列样本进行分类训练，训练后得到一组信号肽分类模型；c.利用得到的各个模型分类测试数据集；d.统计各模型输出的分类结果，产生信号肽剪切位点候选集；e.采用多数投票法决策确定信号肽的剪切位点；f.采用5折交叉验证预测结果。本发明比使用单分类器预测的准确率要高，并且算法运行速度快，算法结构简洁，能有效满足对信号肽的预测。
文档编号G06N3/08GK102012977SQ20101059673
公开日2011年4月13日申请日期2010年12月21日优先权日2010年12月21日
发明者孔祥增, 王怡, 郭躬德, 陈丽萍申请人:福建师范大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孔祥增;王怡;郭躬德;陈丽萍
技术所有人：福建师范大学
我是此专利的发明人

上一篇：机箱的制作方法
上一篇：在显示器中3d对象的点击响应方法和显示系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。