基于支持向量机的蛋白质与核酸相互作用在线预报方法

文档序号:6482711阅读:454来源:国知局

专利名称::基于支持向量机的蛋白质与核酸相互作用在线预报方法
技术领域
:本发明涉及一种基于支持向量机的蛋白质与核酸(DNA-,RNA-,rRNA-)相互作用分类类型在线预报的实现方法。属于生物信息学领域。
背景技术
:与核酸作用的蛋白质在基因功能的许多方面扮演着极其重要的角色。与DNA作用的蛋白质在转录、包装、重排、修复等各种过程都起到了关键作用。与RNA作用的蛋白质则在蛋白合成过程中通过和各种RNAs作用来控制合成过程。因此,与核酸作用的蛋白质在过去三十年来受到广泛兴趣。自人类基因组计划以来,已测定的蛋白质序列逐渐增多,蛋白质各种数据资源急剧膨胀。而用实验方法来确定蛋白质和核酸相互作用将十分耗时且相当昂贵。因此在生物信息学领域,与核酸作用蛋白质的预测逐渐受到关注。有必要发展可靠的方法来预测蛋白质与核酸相互作用。经检索,未发现利用支持向量机对蛋白质与DNA、RNA、rRNA相互作用分类类型综合在线预报的报道,但有相关文献。2006年Cai等发表的"PredictingrRNA-,RNA-,andDNA-bindingproteinsfromprimarystructurewithsupportvectormachines,,(Yu,X.-J.,Cao,J.-P.,Cai,Y.-D.,Shi,T.-L,Li,Y.-X..Journaloftheoreticalbiology.[J]'2006,240(2):175-184.)在以前研究的基础上(Cai,C.-Z.,Han,L.-Y.,Ji,Z.-L,;Chen,X.,Chen,Y.-Z..Nucl.AcidsRes.[J],2003,31(13):3692-3697.)以蛋白质序列氨基酸组成和物理化学性质作为参数,用支持向量机建模分类。预测与rRNA,RNA,DNA作用蛋白质,其10折交叉验证的正确率分别为84%,78%,72%;但该文献只是实现离线预测,其他研究人员特别是生物实验人员不能使用。
发明内容本发明的目的是克服现有技术中的不足,提供一种基于支持向量机的蛋白质与核酸相互作用在线预报方法。该方法利用支持向量机分类技术在特征映射方法的突出优点,实现蛋白质与rRNA,RNA,DNA相互作用分类类型在线预报,还能提高其预报准确率,为实验工作者提供有益参考。为了达到上述目的,本发明的技术解决方案如下上述基于支持向量机对蛋白质与核酸4相互作用在线预报方法包括如下步骤(1)、建立蛋白质序列数据集的训练样本从互联网上蛋白质数据库SWISS-PROT采集构建蛋白质序列数据集的训练样本,该蛋白质序列数据集的训练样本包括与DNA作用蛋白质数据集、与RNA作用蛋白质数据集、与rRNA作用蛋白质数据集,并且根据需要可以添加或更新数据集,上述数据集分别包含两类一类是与DNA、RNA、rRNA作用蛋白质的序列;另一类是不与DNA、RNA、rRNA作用蛋白质的序列。(2)、蛋白质序列数据集转换将上述步骤(1)得到的蛋白质序列数据集转换成可用于模型训练的特征数据集。即对蛋白质序列数据集中的每个蛋白质序列转换成由氨基酸组成和氨基酸物理化学性质所构成的132个特征集。对于每个蛋白序列,特征向量是由氨基酸序列位置的代码描述及计算性的取代基性质,包括憎水值、预测的二级结构、预测的溶剂可及性及标准范德华体积、极性、极化率。(3)、用支持向量机学习训练蛋白质序列数据集用支持向量机(SVM)训练的实质是利用支持向量机对上述步骤(2)生成的蛋白质特征数据集进行学习训练,得到支持向量机的蛋白质与核酸相互作用分类类型模型。(4)、需要预报蛋白质序列的读入及其数据转换,蛋白质与核酸相互作用分类类型在线预报利用通过J2EE规范编写的Servlet组件读入Web客户端提交蛋白质序列数据后,Servlet组件先调用验证组件对用户提交数据进行检测,确定是否有效数据。若为无效数据,告知可能原因。若为有效数据,调用预报器组件并使其完成初始化,再调用数据转换器组件对蛋白质序列数据转换为132维的特征数据集。然后,输入到预报器组件进行预报。最后,Servlet组件返回给Web客户端预报结果。上述步骤(4)蛋白质与核酸相互作用分类类型在线预报,其具体步骤如下(4-1)、用J2EE规范编写Servlet组件,将Web客户端要预报蛋白质序列读入并在线对其数据转换;(4-2)、用户通过支持向量机预报器组件协同蛋白质与核酸相互作用分类模型器预报蛋白质是否与核酸相互作用;(4-3)、调用上面的Servlet组件,将步骤4-2获得的蛋白质与核酸相互作用分类类型预报结果输出到Web客户端在线页面上显示。5本发明的基于支持向量机的蛋白质与核酸作用在线预报方法与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点1.准确性高。该方法能够准确实现对未知与核酸作用的蛋白质是否与核酸作用。验证结果表明,对与rRNA、RNA、DNA作用蛋白质的10折交叉验证预报准确率分别达到93.75%、83.41%、81.85%。外部测试集验证所得模型分别有93.8%、84.2%、81.9%的预测正确率。2.预报时间短。每一轮预报的计算时间视要预报的蛋白质序列的长度而定。一般在2分钟左右。这远远小于通过实验手段来测定蛋白质是否与核酸相互作用的时间。3.成本低。该发明需利用现有已知与核酸作用蛋白质作为训练集建立模型,这可以通过国际上一些免费蛋白质数据库获得,无须其他设备和费用。4.方便快捷。在线预报时,用户只需在预报网页界面提供要预报的蛋白质序列。通过对该蛋白质序列的数据转换,完成支持向量机的训练和目标类型的预报,就可以输出预报结果。图1本发明的基于支持向量机的蛋白质与核酸作用在线预报方法的流程图。具体实施例方式以下结合附图对本发明作进一步详细说明。如图1所示,上述基于支持向量机对蛋白质与核酸相互作用在线预报方法包括如下歩骤(1)、建立蛋白质序列数据集的训练样本从互联网上蛋白质数据库SWISS-PR0T采集构建蛋白质序列数据集的训练样本,该蛋白质序列数据集的训练样本包括与DNA作用蛋白质数据集、与RNA作用蛋白质数据集、与rRNA作用蛋白质数据集,并且根据需要可以添加或更新数据集,上述数据集分别包含两类一类是与DNA、RNA、rRNA作用蛋白质的序列;另一类是不与DNA、RNA、rRNA作用蛋白质的序列。具体分布如下表1:表l各类蛋白在蛋白质序列数据集中的分布<table>tableseeoriginaldocumentpage6</column></row><table>(2)、蛋白质序列数据集转换将上述步骤(1)得到的蛋白质序列数据集转换成可用于模型训练的特征数据集。即对蛋白质序列数据集中的每个蛋白质序列转换成由氨基酸组成和氨基酸物理化学性质所构成的132个特征向量。对于每个蛋白序列,特征向量是由氨基酸序列位置的代码描述及计算性的取代基性质,包括憎水值、预测的二级结构、预测的溶剂可及性及标准范德华体积、极性、极化率。(3)、支持向量机训练,利用生成的蛋白质训练数据集用机器学习方法支持向量机(SVM)训练的实质是利用生成的蛋白质训练数据集,对上述步骤(2)中可用于模型训练的特征数据集用支持向量机预报器进行学习训练,输出支持向量机的蛋白质与核酸相互作用分类类型模型,利用该模型能复现训练数据的输入输出关系。本发明的建模方法支持向量机方法,是用java编程语言实现的SVM算法。本发明采用多项式形式的核函数(PolynomialKernelFunction,PKF),即《(X'X')=KXX')+1],对应SVM是一个q阶多项式分类器。(4)、需要预报蛋白质序列的读入及其数据转换,蛋白质与核酸相互作用分类类型在线预报,其具体步骤如下(4-1)、用J2EE规范编写Servlet组件,将Web客户端要预报蛋白质序列读入并在线对其数据转换;Web客户端提交蛋白质序列数据后,Servlet组件调用验证组件对用户提交蛋白质序列数据进行检测,确定是否有效数据。若为无效数据,告知原因。若为有效数据,调用预报器组件并使其完成初始化,再从Servlet组件调用数据转换器组件对蛋白质序列数据转换为132维的向量表示。该132维的向量分别由蛋白质氨基酸组成和蛋白质氨基酸物理化学性质构成。然后读入到预报器组件在线进行预报。(4-2)、用户通过支持向量机预报器组件协同蛋白质与核酸相互作用分类模型器预报蛋白质是否与核酸相互作用;进行蛋白质与核酸作用的分类预报时,预报器从磁盘介质中读取是否与核酸作用的蛋白质分类模型文件,载入模型完成初始化。输入由数据转换器输出的数据,载入的蛋白质与核酸作用分类模型对此数据进行处理,获得该蛋白质是否与核酸(DNA、RNA、rRNA)相互作用分类信息的预报结果,输出。(4-3)、调用上面的Servlet组件,将步骤(4-2)获得的蛋白质与核酸相互作用分类类型预报结果输出到Web客户端在线页面上显示。权利要求1、一种基于支持向量机对蛋白质与核酸相互作用在线预报方法,其特征在于该方法包括如下步骤(1)、建立蛋白质序列数据集的训练样本从互联网上蛋白质数据库SWISS-PROT采集构建蛋白质序列数据集的训练样本,该蛋白质序列数据集的训练样本包括与DNA作用蛋白质数据集、与RNA作用蛋白质数据集、与rRNA作用蛋白质数据集,并且根据需要可以添加或更新数据集,上述数据集分别包含两类一类是与DNA、RNA、rRNA作用蛋白质的序列,另一类是不与DNA、RNA、rRNA作用蛋白质的序列;(2)、蛋白质序列数据集转换将上述步骤(1)得到的蛋白质序列数据集转换成可用于模型训练的蛋白质特征数据集,即对蛋白质序列数据集中的每个蛋白质序列转换成由氨基酸组成和氨基酸物理化学性质所构成的132个特征集,对于每个蛋白序列,特征集是由氨基酸序列位置的代码描述及计算性的取代基性质,包括憎水值、预测的二级结构、预测的溶剂可及性及标准范德华体积、极性、极化率;(3)、用支持向量机学习训练蛋白质序列数据集用支持向量机(SVM)学习训练的实质是利用支持向量机对上述步骤(2)生成的蛋白质特征数据集进行学习训练,得到支持向量机的蛋白质与核酸相互作用分类类型模型;(4)、需要预报蛋白质序列的读入、数据转换及其蛋白质与核酸相互作用分类类型在线预报利用通过J2EE规范编写的Servlet组件读入Web客户端提交蛋白质序列数据后,Servlet组件先调用验证组件对用户提交数据进行检测,确定是否有效数据,若为无效数据,告知可能原因,若为有效数据,调用预报器组件并使其完成初始化,再调用数据转换器组件对蛋白质序列数据转换为132维的特征数据集,最后,输入到预报器组件进行预报。2、根据权利要求l所述的基于支持向量机对蛋白质与核酸相互作用在线预报方法,其特征在于,上述步骤(4)需要预报蛋白质序列的读入、数据转换及其蛋白质与核酸相互作用分类类型在线预报,其具体步骤如下(4-1)、用J2EE规范编写Servlet组件,从Web客户端读入预报蛋白质序列并在线对其数据转换;(4-2)、用户通过支持向量机预报器组件协同蛋白质与核酸相互作用分类模型器预报蛋白质是否与核酸相互作用;(4-3)、调用上面的Servlet组件,将步骤(4-2)获得的蛋白质与核酸相互作用分类类型预报结果输出到Web客户端在线页面上显示。3、根据权利要求3所述的基于支持向量机对蛋白质与核酸相互作用在线预报方法,其特征在于,上述步骤(4-2)用户通过支持向量机预报器组件协同蛋白质与核酸相互作用分类模型预报蛋白质是否与核酸相互作用,其具体步骤进行蛋白质与核酸作用的分类预报时,预报器组件从磁盘介质中读取是否与核酸作用的蛋白质分类模型文件,载入模型完成初始化,读入由数据转换器输出的数据,载入的蛋白质与核酸作用分类模型对此数据进行处理,获得该蛋白质是否与核酸(DNA、RNA、rRNA)相互作用分类信息的预报结果,输出。全文摘要本发明公开了一种基于支持向量机对蛋白质与核酸相互作用在线预报方法,该方法包括如下步骤1.建立蛋白质序列数据集的训练样本集;2.蛋白质序列数据集转换;3.支持向量机训练生成的蛋白质特征数据集;4.需要预报蛋白质序列的读入、数据转换及蛋白质与核酸相互作用分类类型在线预报。该方法能实现对未测出是否与核酸作用的蛋白质是否与核酸作用,验证结果表明,对与rRNA、RNA、DNA作用蛋白质的10折交叉验证预报准确率分别达到93.75%、83.41%、81.85%。外部测试集验证所得模型分别有93.8%、84.2%、81.9%的预测正确率,在线预报时,用户只需在预报网页界面提供要预报的蛋白质序列,对其数据转换,完成支持向量机的训练和目标类型的预报,输出预报结果。文档编号G06F19/00GK101630346SQ20091005387公开日2010年1月20日申请日期2009年6月26日优先权日2009年6月26日发明者亮刘,彭淳容,袁友浪,冰钮,陆文聪申请人:上海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1