一种蛋白质结构与功能的在线预测方法

文档序号:6514244阅读:431来源:国知局
一种蛋白质结构与功能的在线预测方法
【专利摘要】本发明公开了一种基于小波变换支持向量机对蛋白质功能与结构的在线预报方法,该方法包括如下步骤:1.建立蛋白质序列数据集的训练样本集;2.利用氨基酸的物理化学性质将蛋白质氨基酸序列转化为数值序列;3.利用小波变换进行特征提取;4.支持向量机训练生成的蛋白质特征数据集;5.需要预报的蛋白质序列的读入、数据转换及蛋白质结构与功能的在线预测。该方法能实现对未知蛋白质的家族及功能的预测,验证结果表明对G蛋白偶联受体、酶蛋白、蛋白质亚细胞结构、蛋白质二级结构均有好的预测准确率。在线预测时,用户只需在预报网页界面提供要预报的蛋白质序列,对其数据进行转换后利用小波变换对其进行特征提取,完成支持向量机的训练和目标的预报,输出预报结果。
【专利说明】一种蛋白质结构与功能的在线预测方法
【技术领域】
[0001]本发明涉及一种基于小波支持向量机的家族和功能的分类预测在线预报的实现方法。属于生物信息学领域。
【背景技术】
[0002]本发明的目的是克服现有技术中的不足,提供一种基于小波支持向量机的蛋白质结构与功能分类预测在线预报方法。该方法利用支持向量机分类技术在特征映射方法的突出优点,实现蛋白质家族与功能的分类预测在线预报,提高了预测准确率,为实验工作者提供有益参考。

【发明内容】

[0003]为了达到上述目的,本发面的技术解决方案如下:上述基于支持向量机对蛋白质家族与功能分类预测在线预报方法包括如下步骤:
(1)建立蛋白质序列数据集的训练样本:从互联网上蛋白质数据库SWISS-PR0T采集构建蛋白质序列数据集的训练样本,该蛋白质序列数据集的训练集的训练样本包括G蛋白偶联受体、酶蛋白、蛋白质亚细胞结构、蛋白质二级结构,并且根据需要可以添加或更新数据集,上述数据集分别包含两类:一类分为正样本,另一类分为负样本;
(2)蛋白质序列数据集转换:将上述步骤(I)得到的蛋白质序列数据集转换成可用于信号处理的数值序列,即对蛋白质序列数据集中的每个蛋白质序列利用其氨基酸物理化学性质转换成数值序列;
(3)利用小波变换技术进行特征提取:对上述步骤(2)得到的数值序列进行小波分解得到特征小波系数,并从这些系数中提取特征向量;
(4)用支持向量机学习训练蛋白质序列数据集:用支持向量机(SVM)学习训练的实质是利用支持向量机队上述步骤(3)生成的蛋白质特征数据集进行训练,得到支持向量机的蛋白质家族分类预测模型;
(5)需要预报蛋白质序列的读入、数据转换及其蛋白质家族及功能的预测:利用通过J2EE规范编写的Servlet组件读入Web客户端提交蛋白质序列数据后,Servlet组件先调用验证组件对用户提交数据进行检验,确定是否有效数据,若为无效数据告知可能原因,若为有效数据,调用预报器组件并使其完成初始化,再调用数据转换器组件对蛋白质序列转换为数值序列,然后利用小波变换进行特征提取,最后输入到预报器组件进行预报。
[0004]根据权利要求1所述的基于小波支持向量机对蛋白质家族和功能进行在线预报方法,其特征在于,上述步骤(5)需要预报蛋白质序列的读入、数据转换及其蛋白质家族及功能的分类预报,其具体步骤如下:
(5-1)用J2EE规范编写Servlet组件,从Web客户端读入预报蛋白质序列并在线对其数据转换;
(5-2)用户通过小波支持向量机预报器组件对蛋白质家族及功能进行分类预测,进而对其进行分类预报;
(5-3)调用上面的Servlet组件,将步骤(5_2)获得的蛋白质家族及功能分类类型预报结果输出到Web客户端在线页面显示。
[0005]本发明基于支持向量机的蛋白质家族与功能在线预报方法与现有技术相比较,具有以下突出实质性特点和显著优点:1.准确率高。该方法能够准确实现对未知蛋白质家族及功能进行预测。2.预报时间短。由于使用小波变换进行特征提起,有效降低了特征向量维数,使得运算速度更快。3.成本低。该发明需利用现有已知蛋白质作为训练集建立模型,这可以通过国际上一些免费蛋白质数据库获得。4.方便快捷。在线预报时,用户只需在预报网页界面提供符合要求的数据。通过对数据的转换,完成支持向量机的训练和目标类型预报,得到预报结果。
[0006]【专利附图】

【附图说明】:
图1是本发明基于支持向量机的蛋白质家族与功能在线预报方法的流程图。
【具体实施方式】,以下结合附图对本发明做进一步详细说明
(1)建立蛋白质序列数据集的训练样本:从互联网上蛋白质数据库SWISS-PR0T采集构建蛋白质序列数据集的训练样本,该蛋白质序列数据集的训练集的训练样本包括G蛋白偶联受体、酶蛋白、蛋白质亚细胞结构、蛋白质二级结构,并且根据需要可以添加或更新数据集,上述数据集分别包含两类:一类分为正样本,另一类分为负样本;
(2)蛋白质序列数据集转换:将上述步骤(I)得到的蛋白质序列数据集转换成可用于信号处理的数值序列,即对蛋白质序列数据集中的每个蛋白质序列利用其氨基酸物理化学性质转换成数值序列;
(3)利用小波变换技术进行特征提取:对上述步骤(2)得到的数值序列进行小波分解得到特征小波系数,并从这些系数中提取特征向量;
(4)用支持向量机学习训练蛋白质序列数据集:用支持向量机(SVM)学习训练的实质是利用支持向量机队上述步骤(3)生成的蛋白质特征数据集进行训练,得到支持向量机的蛋白质家族分类预测模型,利用该模型能复现训练数据的输入输出关系。
[0007]本发明的建模方法支持向量机是用Python编程语言实现的SVM算法。本发明采用三种核函数进行实验:
(1)线性核函数:A-巧
(2)径向基核函数:=e*p(-水-Xj-13)
(3)多项式核函数:尤(X^X)
(5)需要预报蛋白质序列的读入、数据转换及其蛋白质家族及功能的预测。其具体步骤如下:
(5-1)用J2EE规范编写Servlet组件,从Web客户端读入预报蛋白质序列并在线对其数据转换;
(5-2)用户通过小波支持向量机预报器组件对蛋白质家族及功能进行分类预测,进而对其进行分类预报;
(5-3)调用上面的Servlet组件,将步骤(5_2)获得的蛋白质家族及功能分类类型预报结果输出到Web客户端在线页面显示。
【权利要求】
1.一种基于小波变换和支持向量机对蛋白质结构与功能进行在线作用,其特征在于该方法包括如下步骤: (1)建立蛋白质序列数据集的训练样本:从互联网上蛋白质数据库SWISS-PROT采集构建蛋白质序列数据集的训练样本,该蛋白质序列数据集的训练集的训练样本包括G蛋白偶联受体、酶蛋白、蛋白质亚细胞结构、蛋白质二级结构,并且根据需要可以添加或更新数据集,上述数据集分别包含两类:一类分为正样本,另一类分为负样本; (2)蛋白质序列数据集转换:将上述步骤(I)得到的蛋白质序列数据集转换成可用于信号处理的数值序列,即对蛋白质序列数据集中的每个蛋白质序列利用其氨基酸物理化学性质转换成数值序列; (3)利用小波变换技术进行特征提取:对上述步骤(2)得到的数值序列进行小波分解得到特征小波系数,并从这些系数中提取特征向量; (4)用支持向量机学习训练蛋白质序列数据集:用支持向量机(SVM)学习训练的实质是利用支持向量机队上述步骤(3)生成的蛋白质特征数据集进行训练,得到支持向量机的蛋白质家族分类预测模型; (5)需要预报蛋白质序列的读入、数据转换及其蛋白质家族及功能的预测:利用通过J2EE规范编写的Servlet组件读入Web客户端提交蛋白质序列数据后,Servlet组件先调用验证组件对用户提交数据进行检验,确定是否有效数据,若为无效数据告知可能原因,若为有效数据,调用预报器组件并使其完成初始化,再调用数据转换器组件对蛋白质序列转换为数值序列,然后利用小波变换进行特征提取,最后输入到预报器组件进行预报。
2.根据权利要求1所述的基于小波支持向量机对蛋白质家族和功能进行在线预报方法,其特征在于,上述步骤(5)需要预报蛋白质序列的读入、数据转换及其蛋白质家族及功能的分类预报,其具体步骤如下: (5-1)用J2EE规范编写Servlet组件,从Web客户端读入预报蛋白质序列并在线对其数据转换; (5-2)用户通过小波支持向量机预报器组件对蛋白质家族及功能进行分类预测,进而对其进行分类预报; (5-3)调用上面的Servlet组件,将步骤(4_2)获得的蛋白质家族及功能分类类型预报结果输出到Web客户端在线页面显示。
3.根据权利要求2所述的基于小波支持向量机对蛋白质家族及功能在线预报方法,其特征在于,上述步骤(5-2)用户通过小波支持向量机预报器组件对蛋白质家族及功能进行分类预报,其具体步骤:进行蛋白质分类预报时,预报器组件从磁盘介质中读取蛋白质分类模型,载入模型完成初始化,读入由数据转换器输出的数据,载入的分类预测模型对此数据进行处理,获得该蛋白质的家族分类信息,输出结果。
【文档编号】G06F19/16GK103473483SQ201310459090
【公开日】2013年12月25日 申请日期:2013年10月7日 优先权日:2013年10月7日
【发明者】谢华林, 黄建华, 符靓 申请人:谢华林, 黄建华, 符靓
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1