基于核典型相关分析的固有不规则蛋白质结构预测方法

文档序号:6371829阅读:253来源:国知局
专利名称:基于核典型相关分析的固有不规则蛋白质结构预测方法
技术领域
本发明涉及的是ー种用信息学科常用的核典型相关分析方法处理生物问题的方法。具体地说是ー种用信息学科常用的核典型相关分析方法进行固有不规则蛋白质结构预测的方法。
背景技术
长期认为,蛋白质的特定规则结构是蛋白质具有功能的基础,缺失特定规则结构的蛋白质是不具有活性的。而固有不规则结构蛋白质的发现打破了这ー观点。固有不规则结构蛋白质不仅不是毫无用处的,恰恰在细胞中执行着重要功能。许多癌症都与不规则蛋白质有夫。由于固有不规则蛋白质发现比较困难,研究固有不规则蛋白质结构预测方法可有效引导这类蛋白质的发现,并为生物制药的研制提供基础。由于关于固有不规则蛋白质结构预测的研究不到十年,相应的预测方法不是很多。整体来看,融合多特征的预测器效果要好于基于单特征的预测器。融合多特征包括决策级融合和特征级融合两种方式。目前,可见报道的预测方法均采用决策级融合的方式(CDF it all:しonsensus prediction of intrinsically disordered proteins basedon various cumulative distribution functions, Bin Xue;Christopher J. Oldfield;A.Keith Dunker; Vladimir N. Uversky, FEBS Letters 2009; 583 (9) : 1469-1474.)。然而,相比于决策级融合,特征级融合由于利用了更多的可识别信息,因此,有着更好的识别性能。

发明内容
本发明的目的在于提供一种能有效提高固有不规则蛋白质结构的预测精度的基于核典型相关分析的固有不规则蛋白质结构预测方法。本发明的基于核典型相关分析的固有不规则蛋白质结构预测的方法,包括下列步骤(I)提取待预测蛋白质的结构特征和生化特征作为识别特征,所述结构特征指采用窗ロ法得到的蛋白质预测位点周围氨基酸的组合频率,所述生化特征指蛋白质预测位点氨基酸的Russell/Linding值、疏水性、极性和带电性;(2)采用核典型相关分析法对所提取的特征数据进行映射和融合,获取更有利于蛋白质结构识别的特征数据,核典型相关分析法的核函数采用径向基函数;(3)基于更有利于蛋白质结构识别的特征数据,进行蛋白质结构识别和预测。本发明即采用特征级融合的方式对固有不规则蛋白质的结构进行预测,具体为基于核典型相关分析的方式对固有不规则结构蛋白质的结构进行预测,能取得比现有方法更好的预测效果。本发明的有益效果在干本发明利用核典型相关分析对固有不规则蛋白质结构进行预测,在充分利用不同特征间离散度的同时,也利用不同特征的相关性进行多特征融合,使得预测精度得到有效提高。本发明有助于为固有不规则蛋白质的发现和确认提供前期依据,并为生物制药的研制提供基础。


图I基于核典型相关分析的固有不规则蛋白质结构预测方法流程图。
具体实施例方式下面举例对本发明做更详细的描述I.蛋白质结构特征提取I. I氨基酸的组合频率特征当对蛋白质的结构进行研究时,蛋白质的ー级结构,即组成蛋白质的氨基酸序列是基础研究内容。本发明首先采用窗ロ法获取蛋白质氨基酸序列的组合频率特征。定义氨基酸集』=.丨んr,/)'/ひソ入//,ん(/.'紙,V./ソん。集合』中的20个字母分别对应着20种不同的氨基酸,其中文名称见表I。以待进行蛋白质结构预测的氨基酸位点为中心,取一长度为I的窗ロ,对窗口内的每个氨基酸出现的频率进行统计,以反映该氨基酸位点周围的氨基酸对其结构倾向性的影响。为了保证前后对称,I 一般取为奇数。设蛋白质序列X的长度为M,那么氨基酸的组合频率特征可以描述为

权利要求
1.一种基于核典型相关分析的固有不规则蛋白质结构预测方法,其特征是 (1)提取待预测蛋白质的结构特征和生化特征作为识别特征,所述结构特征指采用窗ロ法得到的蛋白质预测位点周围氨基酸的组合频率,所述生化特征指蛋白质预测位点氨基酸的Russell/Linding值、疏水性、极性和带电性; (2)采用核典型相关分析法对所提取的特征数据进行映射和融合,获取更有利于蛋白质结构识别的特征数据,核典型相关分析法的核函数采用径向基函数; (3)基于更有利于蛋白质结构识别的特征数据,进行蛋白质结构识别和预测。
2.根据权利要求I所述的基于核典型相关分析的固有不规则蛋白质结构预测方法,其特征是所述采用窗ロ法得到的蛋白质预测位点周围氨基酸的组合频率的提取方法为 定义氨基酸集3 =认(',/)プ:,れ< ,//,/,1ム耽]\^,(^_ノア,『,7},集合^4中的20个字母分别对应着20种不同的氨基酸,以待进行蛋白质结构预测的氨基酸位点为中心,取一长度为I的窗ロ,对窗口内的每个氨基酸出现的频率进行统计,以反映该氨基酸位点周围的氨基酸对其结构倾向性的影响;1取为奇数,设蛋白质序列X的长度为M,那么氨基酸的组合频率特征描述为
全文摘要
本发明提供的是一种基于核典型相关分析的固有不规则蛋白质结构预测方法。(1)提取待预测蛋白质的结构特征和生化特征作为识别特征,所述结构特征指采用窗口法得到的蛋白质预测位点周围氨基酸的组合频率,所述生化特征指蛋白质预测位点氨基酸的Russell/Linding值、疏水性、极性和带电性;(2)采用核典型相关分析法对所提取的特征数据进行映射和融合,获取更有利于蛋白质结构识别的特征数据,核典型相关分析法的核函数采用径向基函数;(3)基于更有利于蛋白质结构识别的特征数据,进行蛋白质结构识别和预测。本发明的预测精度得到有效提高,有助于为固有不规则蛋白质的发现和确认提供前期依据,并为生物制药的研制提供基础。
文档编号G06F19/16GK102779240SQ20121020588
公开日2012年11月14日 申请日期2012年6月21日 优先权日2012年6月21日
发明者冯伟兴, 王科俊, 董彦生, 贺波, 陈若雷 申请人:哈尔滨工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1