一种基于概率神经网络集成的信号肽预测方法

文档序号:6339224阅读:638来源:国知局
专利名称:一种基于概率神经网络集成的信号肽预测方法
技术领域
本发明涉及一种基于概率神经网络集成的信号肽预测方法,应用于对信号肽的 检测。
背景技术
在人类基因组计划的实施下,蛋白质和核酸的测序数据以指数方式增加,通过 对这些数据的分析,人们可以挖掘出具有生物学意义的信息和知识。如何判断蛋白质序列 是否含有信号肽部分,并确定信号肽的位置是当前生物信息学研究的重要领域。鉴于信 号肽预测的重要性,目前已经出现了针对该问题的大量研究文献。vonHeijne运用了权矩 阵的方法预测信号肽,是目前应用最广泛的方法之一。Chou在权矩阵原理的基础上,提 出了 {-3,-1,+1}子位点耦合模型。Henrik Nielsen等人提出用隐马尔可夫模型HMM 来分类信号肽。当前,对信号肽预测的主要方法还有人工神经网络、支持向量机和贝叶 斯网络等。

发明内容
本发明的目的在于提供一种基于概率神经网络集成的信号肽预测方法,本发明 具有很好的可行性和有效性,能有效满足对信号肽的预测。本发明的特征在于一种基于概率神经网络集成的信号肽预测方法,其特征在 于,实现步骤如下
a.根据蛋白质性质对其进行编码,然后利用滑动窗口原理分割蛋白质序列;
b.建立一组概率神经网络子分类器,分别用蛋白质序列样本进行分类训练,训练后 得到一组信号肽分类模型;
c.利用得到的各个模型分类测试数据集;
d.统计各模型输出的分类结果,产生信号肽剪切位点候选集;
e.采用多数投票法决策确定信号肽的剪切位点;
f.采用5折交叉验证预测结果。本发明的优点本发明比使用单分类器预测的准确率要高,并且算法运行速度 快,算法结构简洁,能有效满足对信号肽的预测。


图1为本发明实施例算法模型。图2为概率神经网络结构图。
具体实施例方式参考图1和图2,一种基于概率神经网络集成的信号肽预测方法,实现步骤如 下a.根据蛋白质性质对其进行编码,然后利用滑动窗口原理分割蛋白质序列;
b.建立一组概率神经网络子分类器,分别用蛋白质序列样本进行分类训练,训练后 得到一组信号肽分类模型;
c.利用得到的各个模型分类测试数据集;
d.统计各模型输出的分类结果,产生信号肽剪切位点候选集;
e.采用多数投票法决策确定信号肽的剪切位点;
f.采用5折交叉验证预测结果。步骤a中的编码主要由以下三种方式,第一种编码方案,采用计算机能直接处 理的数字序列来表示蛋白质序列;第二种编码方案,基于氨基酸残基物理化学特性来编 码蛋白质;第三种编码方案,按照氨基酸的相对疏水值进行编码,转化成对应的十进制 数;在经过编码之后,采用滑动窗口对编码后的蛋白质序列进行分割,并对样本分割后 的样本进行抽样。具体实施如下
1.蛋白质序列编码及预处理
蛋白质序列编码是信号肽预测中,决定预测质量的关键因素,是指从一级序列中提 取特征参数,把字母序列转换成数值序列。本发明用三种独立的蛋白质编码方案来学习 氨基酸序列和信号肽剪切位点的映射。第一种编码方案采用计算机能直接处理的数字序列来表示蛋白质序列。用1 到21的整数来编码蛋白质,即1到20分别表示20种氨基酸,21表示空输入。第二种编码方案基于氨基酸残基物理化学特性来编码蛋白质。氨基酸的侧链 决定氨基酸的种类,20种氨基酸侧链在大小、正负电性以及疏水性等方面都存在差异。 见表2-2,根据氨基酸残基的10个性质来编码,将20种氨基酸分别转换成十进制数。第三种编码方案按照氨基酸的相对疏水值进行编码,转化成对应的十进制 数。采用滑动窗口对编码后的蛋白质序列进行分割,并对样本分割后的样本进行抽 样。2.概率神经网络集成预测方法
概率神经网络(ProbabilisticNeural Networks,PNN)是 1989年由D. F. Specht提出的,
是一种非线性分类方法,其本质是一种基于Bayes最小风险准则的并行算法。基于概率神经网络的集成算法的详细步骤如下
Step 1:建立一组概率神经网络子分类器,分别用训练集进行学习,生成分类模型;
Step 2:利用得到的各个模型分类测试数据集;
Step 3:统计各模型输出的分类结果,产生信号肽剪切位点候选集。假设蛋白质P经过分类器识别出以个分泌可切片 段
权利要求
1.一种基于概率神经网络集成的信号肽预测方法,其特征在于,实现步骤如下a.根据蛋白质性质对其进行编码,然后利用滑动窗口原理分割蛋白质序列;b.建立一组概率神经网络子分类器,分别用蛋白质序列样本进行分类训练,训练后 得到一组信号肽分类模型;c.利用得到的各个模型分类测试数据集;d.统计各模型输出的分类结果,产生信号肽剪切位点候选集;e.采用多数投票法决策确定信号肽的剪切位点;f.采用5折交叉验证预测结果。
2.根据权利要求1所述的一种基于概率神经网络集成的信号肽预测方法,其特征在 于步骤a中的编码主要由以下三种方式,第一种编码方案,采用计算机能直接处理的 数字序列来表示蛋白质序列;第二种编码方案,基于氨基酸残基物理化学特性来编码蛋 白质;第三种编码方案,按照氨基酸的相对疏水值进行编码,转化成对应的十进制数; 在经过编码之后,采用滑动窗口对编码后的蛋白质序列进行分割,并对样本分割后的样 本进行抽样。
全文摘要
本发明涉及一种基于概率神经网络集成的信号肽预测方法,其特征在于,实现步骤如下a.根据蛋白质性质对其进行编码,然后利用滑动窗口原理分割蛋白质序列;b.建立一组概率神经网络子分类器,分别用蛋白质序列样本进行分类训练,训练后得到一组信号肽分类模型;c.利用得到的各个模型分类测试数据集;d.统计各模型输出的分类结果,产生信号肽剪切位点候选集;e.采用多数投票法决策确定信号肽的剪切位点;f.采用5折交叉验证预测结果。本发明比使用单分类器预测的准确率要高,并且算法运行速度快,算法结构简洁,能有效满足对信号肽的预测。
文档编号G06N3/08GK102012977SQ20101059673
公开日2011年4月13日 申请日期2010年12月21日 优先权日2010年12月21日
发明者孔祥增, 王怡, 郭躬德, 陈丽萍 申请人:福建师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1