一种蛋白质的β-转角结构预测及特征分析方法

文档序号:6461052阅读:979来源:国知局

专利名称::一种蛋白质的β-转角结构预测及特征分析方法
技术领域
:本发明涉及一种蛋白质的二级结构预测及特征分析方法,特别是一种蛋白质的|3-转角结构预测及特征分析方法。
背景技术
:蛋白质体系由a-螺旋,P-折叠,紧密转角,膨胀结构及无规则巻曲结构等构成。过去几十年,已发展多种预测a-螺旋与P-折叠预测方法,相比之下,紧密转角预测方法发展较少,(3-转角是紧密转角的一种,其由4个连续残基构成,可定义为Ca(i)与Ca(i+3)之间的距离小于0.7nm,且此4肽片断不存在于螺旋形构象之中。P-转角是蛋白质中已被认识的非重复性结构中最常见的类型,其在蛋白质结构与功能中具有重要作用。首先,其对蛋白质的折叠与稳定性至关重要;第二,P-转角通常出现在蛋白质的暴露表面,其可能参与分子识别及受体与底物相互作用过程。因此,发展有效的P-转角预测方法对蛋白质的折叠识别研究以及蛋白质的整个3D结构预测将很有益。现已发展的一些较好的|3-转角结构预测方法有Chou-Fasman方法(Biochemistry,1974,13:222)。1-4与2國3相关性模型(Zhang,etal.,Biopolymers,1997,41:673),其考虑了1与4,2与3残基之间的交互效应。序列连接模型(Chou,J.Pept.Res.,1997,49:120),该模型首次引入马尔可夫链,考虑了整个寡肽的序列相关效应。GORBTURN(v3.0)方法(Wilmot,eta1.,19卯,3:479),其应用位置频率与等价参数,从P-转角预测结果中剔除可能的helix与strand残基。Shepherd等(ProteinSci.,1999,8:1045)发展了一种基于神经网络的预测方法一BTPRED方法,Kaur等(Bioinformatics,2002,18:1508)曾对各种P-转角预测方法的同步评i"介结果显示,BTPRED方法正确率最高,其又进一步应用多元序列对比发展了一种改进的神经网络方法—BTPred2(ProteinSci.,2003,12:627),得马休斯相关系数(MCC)为0.43。更最近,Kim(Bioinfo腿tics,2004,20:40)用k-最近邻法及Zhang等(Bioinformatics,2005,21:2370)用支持向量才几都取得4交好的p-转角预测结果。纵观上述算法,其大多是基于位置倾向的经验方法,尽管p-转角是非重复结构中最常见的一种,但目前的二级结构预测方法提供关于P-转角的有用信息却较少(Kaur,etal"Bioinformatics,2002,18:1508)。
发明内容有鉴于此,为了解决上述问题,本发明提供了一种蛋白质的P-转角结构预测及特征分析方法,能够用于蛋白质P-转角结构预测及特征分析,并为蛋白质的折叠识别研究以及蛋白质的整个三维结构预测提供参考。本发明的目的是这样实现的一种蛋白质的P-转角结构预测及特征分析方法,包括如下步骤a)基于因子分析方法,构建氨基酸广义信息因子分析标度;b)应用氨基酸广义信息因子分析标度对蛋白质结构中足可解释|3-转角结构特征的7-残基滑动序列片断进行表征;c)用线性判别分析建立蛋白质的p-转角结构识别及特征分析模型;d)采取排除非巻曲区域中的残基和状态翻转规则两步过滤措施,保证p-转角预测结果的真实性。进一步,在于步骤a)具体包括如下步骤al)选取天然氨基酸的变量参数,按照相对负载大小、变量共同度、可解释性及对序列结构贡献的重要性进行变量筛选;a2)用因子分析法处理精选得到的变量,通过斜交旋转,并用主成分法提取疏水性、a-螺旋与转角倾向、体积性质、构成特征、局部柔性和静电性6个因子;a3)计算各因子得分,将得分矢量定义为氨基酸广义信息因子分析标度;进一步,步骤b)具体包括用氨基酸广义信息因子分析标度所涉及的疏水性、a-螺旋与转角倾向、体积性质、构成特征、局部柔性和静电性6个因子对蛋白质结构中足可解释(3-转角结构特征的7-残基滑动序列片断进行表征,其中的每个氨基酸残基用6个氨基酸广义信息因子分析标度矢量表征,并将表征结果作为P-转角结构识别模型的自变量;进一步,步骤c)具体包括如下步骤首先定义两个指示变量,分别用"l"表示p-转角结构,用"2,,表示非p-转角结构,以此指示变量作为p-转角结构预测模型的因变量,用线性判别分析建立p-转角结构预测模型;进一步,步骤d)具体包括如下步骤采取排除非巻曲区域中的残基和状态翻转规则两步过滤措施,保证P-转角预测结果的真实性。本发明的一种蛋白质的(3-转角结构预测及特征分析方法,其中选取的氨基酸广义信息因子分析标度所含信息量大、表征能力强、使用操作方便及物化意义明显;通过表征p-转角所在的7-残基滑动序列片断的结构特征,可全面地表征p-转角结构特征;线性判别分析建模具有简便且易解释等优点,对模型分析可以获得关于|3-转角的一些重要特征信息。本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书,权利要求书,以及附图中所特别指出的结构来实现和获得。为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中图1是本发明的线性判别分析模型的标准化系数图;图2是本发明的由4残基肽形成的P-转角结构示意图。具体实施例方式以下将参照附图,对采用本发明的方法用于426个蛋白样本中P-转角结构预测及特征分析进行详细的描述,包括以下步骤a)基于因子分析方法,构建氨基酸广义信息因子分析标度;从AAindex数据库(参见KawashimaS.,KanehisaM..NucleicAcidsRes.[J],2000,28:374)中选择20种天然氨基酸的516个变量参数。按照相对负载大小、变量共同度、可解释性及对序列结构贡献的重要性等原则对这516个变量进行篩选,得到335个变量。这些变量表征氨基酸的如下性质,a-螺旋与转角倾向性质,如p-转角构象参数及C末端螺旋的标准化频率等;P倾向性质,如N末端P-折叠的标准化频率等;疏水性,如三氟乙酸中的保留系数及疏水性指数等;物理化学性质,如表观偏特定体积及分子大小等;构成特征,如电荷转移给予能力参数及热能参数等;其它特性,如侧链角e及N末端非螺旋区域的标准化频率等。用因子分析法处理精选得到的变量,通过斜交旋转,并用主成分法提取6个因子,这6个因子解释了原始变量83.47%的信息,参见表l。表120种天然氩基酸的335个性质Wt的6个因子得分因子l:因子2:因子3:因子4:因子5:因子6:<table>tableseeoriginaldocumentpage7</column></row><table><table>tableseeoriginaldocumentpage8</column></row><table>20种天然氨基酸用常规的单个英文字母表示。对6个因子进行载荷分析发现,因子1涉及疏水性;因子2反映a-螺旋与转角倾向性质,其反映相关的二级结构特征信息,如p-转角构象参数及c末端螺旋的标准化频率等;因子3属于体积性质因子,因子4属于构成特征因子,因子5体现局部柔性因子,反映某些相关的二级结构性质,因子6为静电性因子。从上述6个因子的载荷分析看出,尽管第5和第6个因子解释相对较少的方差,但因它们具有明确的物理化学意义,所以其被考虑在内。因为每个因子都具有较明显的物理化学意义,因此可认为经因子分析得到的6个因子可行。进一步计算各因子得分,见表l,为方便,称此6个因子得分矢量为氨基酸广义信息因子分析标度,该表征体系涉及序列的疏水性、a-螺旋与转角倾向、体积性质、构成特征、局部柔性及静电性等重要性质,其综合了335个原始皿酸性质参数大部分信息,可以尝试将这6个因子得分矢量用于肽片段结构表征。b)应用氨基酸广义信息因子分析标度对蛋白质结构中足可解释p-转角结构特征的7-残基滑动序列片断进行表征;以疏水性、a-螺旋与转角倾向、体积性质、构成特征、局部柔性和静电性6个因子得分矢量对蛋白质结构中足可解释(3-转角结构特征的7-残基滑动序列片断进行表征,每个7-残基序列片断用7x6=42个变量串联表征,并将其作为(3-转角结构识别模型的自变量。c)用线性判别分析建立蛋白质的|3-转角结构识别模型;首先定义两个指示变量,分别用"r,表示(3-转角结构,用"2,,表示非|3-转角结构,以此指示变量作为(3-转角结构预测;漠型的因变量,用线性判别分析建立卩-转角结构预测模型,采取留l/7法交互检验验证模型的预测能力,即将426条蛋白分为7组,其中6组分别包含61条蛋白,另外1组含60条蛋白,首先将其中l组取出,然后用剩下的6组建模,依次循环,共进行7次,以此结果判断模型的预测能力。d)采取排除非巻曲区域中的残基和状态翻转规则两步过滤措施,保证P-转角预测结果的真实性。首先,因(3-转角位于蛋白质链的巻曲区域中,因此,用二级结构预测方法"^PSI-PRED(Jones,J.Mol.Biol.,1999,292:195),识别处于非巻曲区域中的残基,使那些被预测为处于非巻曲区域的残基都判别为非P-转角结构。第二,在进行预测时,只是对每个残基进行独立预测,没有考虑相邻氨基酸残基的作用,但因|3-转角由4个连续氨基酸残基构成,因此,用Shepherd等(Shepherd,etal.,ProteinSci.,1999,8:1045)提出的"state-flipping"规则,对其进行过滤首先使所有被隔离的非(3-转角变为(3-转角残基(即t-t—ttt,"t"表示p-转角,"-"表示非P-转角,下同),接着,将被隔离的p-转角或成对的(3-转角残基变为非卩-转角残基(即小—一或-tt-———),最后,对被隔离的3个连续p-转角残基或2个靠近的非|3_转角残基都变为p-转角残基(即-1-—tttt-或-tttt),这样便保证p-转角至少具有4个残基长度。若分别定:^ec为计算预测正确样本数目所占总样本数目百分比,Sp为预测正确的P-转角数目的百分比,^为预测正确的非P-转角数目的百分比,AfCC为马休斯相关系数等统计参数,则本发明方法以及其它预测方法所得结果列于表2中,可看出,经留l/7法交互验证,得Jcc,&,Sp及Jl/CC分别为75.6,67.6,78.2及0.42。因为球形蛋白质中(3-转角与非p-转角的比例不均衡(约为l:3),因此,MCC是评价参数中最为可靠与稳健的指标,经比较,本发明方法所得ACC高于其它所列方法的p-转角预测结果。表2p-转角预测结果比较<table>tableseeoriginaldocumentpage10</column></row><table>a仏bserved-O/(P+W)]xl00其中,/为被正确分类的|3-转角残基数目,"为被错误分类的非|3-转角残基数目,g。bserved惩罚欠预测(unde卬rediction)。据线性判别分析模型方程的标准化系数,可分析对P-转角识别结果影响显著的变量,并可进一步分析对其影响趋势及大小,从而可以获得关于P-转角的一些重要特征信息。图l显示了线性判别分析模型的标准化系数。首先观察到系数大于0.0的变量,最大的是变量20,其对应的是第4残基的a-螺旋与转角倾向性质,有两点引起我们的注意,其一,变量20来自于第4残基,而第4残基恰恰是7-残基片断的中心残基。其二,本发明方法表征的是该中心残基的特征及其所处的环境,从该残基对应的6个因子性质中,刚好提出了a-螺旋与转角倾向这一性质参数,这一点不是巧合,因为a-螺旋与转角倾向性质反映的就是关于残基的转角(tum)特性一个二级结构参数。变量20对应的系数大于0.0表明,其值越大,越容易出现P-转角。同时,这也从一个侧面表明选择7-残基片断表征其中心残基及其所处环境特征的有效性。其次,变量26、14及32对应的系数都大于O.O表明,这些变量的增大亦可促进p-转角的出现。这些变量对应的分别是第5残基、第3残基及第6残基的a-螺旋与转角倾向性质。上述分析表明,对|3-转角的形成产生正贡献4交大的变量,都与a-螺旋与转角倾向性质相关。从氨基酸广义信息因得分(表l)看出,谷氨酸(E)、曱^危氨酸(M)及亮氨酸(L)等氨基酸的a-螺旋与转角倾向参数较大,也就是说,在第3、4、5及6位点出现这些氨基酸残基,可能更易形成P-转角。除了这些变量之外,发现第3、4、5及6残基的疏水性大小与P-转角的形成亦呈现较大的正相关关系,由表l进一步看出,异亮氨酸(I)、缬氨酸(V)、苯丙氨酸(F)及亮氨酸(L)等氨基酸的疏水性参数较大,这表明,这些残基在3、4、5及6位点出现频率越高,可能越易导致(3-转角的出现。分析变量系数小于0.0的变量发现,其中系数最小的是变量ll,该变量对应第2残基的局部柔性,其次是变量29、41、42及5,其分别对应第5残基的局部柔性,第7残基的局部柔性与静电性质及第1残基的局部柔性,也就是说,这些变量的绝对值越大,越不利于P-转角的形成。在这些变量中,大多数属于相应残基的局部柔性属性。观察表1中因子5的各变量在其上的载荷分布发现,对该因子载荷贡献最大的是与联结子(Linker)相关的变量,这一点引起我们的注意,研究表明,P氨基酸是最易出现在Linker区域的氨基酸,这并不足为奇,因为P没有氨基氢,不能形成氬键,因此其可以从结构上将Linker从结构域中隔离开。从表l各因子得分也可以看出,P的因子得分(3.847)高于其它氨基酸因子得分,说明7残基片断中越易出现P,则越不利于p-转角形成。另外,需要注意的是,在对P-转角形成不利的因素中,第7残基的静电性质亦起着较显著的作用。Zhang等(Biopolymers,1997,41:673)考虑|3-转角的第l残基与第4残基、第2与第3残基的交互效应(couplingeffect)建立l-4与2-3相关模型预测p-转角,其观点是,当一个4残基肽折叠成为P-转角时,第1残基与第4残基、第2与第3残基之间的作用至关重要,特别地,可在第l残基的CO与第4残基的NH之间形成氬键,参见图2,这从另一方面进一步论证了P残基的出现不利于P-转角的形成的结论。另外,需要注意的是,在对(3-转角形成不利的因素中,第7残基的静电性质亦起着较显著的作用。以上所述仅为本发明的优选实施例,并不用于限制本发明,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。权利要求1.一种蛋白质的β-转角结构预测及特征分析方法,其特征在于包括如下步骤a)基于因子分析方法,构建氨基酸广义信息因子分析标度;b)应用氨基酸广义信息因子分析标度对蛋白质结构中足可解释β-转角结构特征的7-残基滑动序列片断进行表征;c)用线性判别分析建立蛋白质的β-转角结构识别及特征分析模型;d)采取排除非卷曲区域中的残基和状态翻转规则两步过滤措施,保证β-转角预测结果的真实性。2.根据权利要求1的一种蛋白质的p-转角结构预测及特征分析方法,其特征在于步骤a)具体包括如下步骤al)选取天然氨基酸的变量参数,按照相对负载大小、变量共同度、可解释性及对序列结构贡献的重要性进行变量筛选;a2)用因子分析法处理精选得到的变量,通过斜交旋转,并用主成分法提取疏水性、a-螺旋与转角倾向、体积性质、构成特征、局部柔性和静电性6个因子。a3)计算各因子得分,将得分矢量定义为氨基酸广义信息因子分析标度。3.根据权利要求2的一种蛋白质的P-转角结构预测及特征分析方法,其特征在于步骤b)具体包括用氨基酸广义信息因子分析标度所涉及的疏水性、a-螺旋与转角倾向、体积性质、构成特征、局部柔性和静电性6个因子对蛋白质结构中足可解释p-转角结构特征的7-残基滑动序列片断进行表征,序列片断中的每个氨基酸残基用6个氨基酸广义信息因子分析标度矢量表征,并将表征结果作为P-转角结构识别模型的自变量。4.根据权利要求3的一种蛋白质的P-转角结构预测及特征分析方法,其特征在于步骤c)具体包括如下步骤首先定义两个指示变量,分别用"l"表示P-转角结构,用"2,,表示非p-转角结构,以此指示变量作为P-转角结构预测模型的因变量,用线性判别分析建立P-转角结构预测;漠型。5.根据权利要求1至4中任一项的一种蛋白质的|3-转角结构预测及特征分析方法,其特征在于步骤d)具体包括如下步骤采取排除非巻曲区域中的残基和状态翻转规则两步过滤措施,保证P-转角预测结果的真实性。全文摘要本发明公开了一种蛋白质的β-转角结构预测及特征分析方法,能够用于蛋白质β-转角结构预测,并为蛋白质的折叠识别研究以及蛋白质的整个三维结构预测提供参考,包括如下步骤a)基于因子分析方法,构建氨基酸广义信息因子分析标度;b)应用氨基酸广义信息因子分析标度对蛋白质结构中足可解释β-转角结构特征的7-残基滑动序列片断进行表征;c)用线性判别分析建立蛋白质的β-转角结构识别及特征分析模型;d)采取排除非卷曲区域中的残基和状态翻转规则两步过滤措施,保证β-转角预测结果的真实性。文档编号G06F19/00GK101308527SQ20081006994公开日2008年11月19日申请日期2008年7月8日优先权日2008年7月8日发明者李志良,力杨,梁桂兆,虎梅申请人:重庆大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1