人类1型双载蛋白Src同源结构域3结合肽的亲和力预测及分析方法

文档序号:6436481阅读:333来源:国知局
专利名称:人类1型双载蛋白Src同源结构域3结合肽的亲和力预测及分析方法
技术领域
本发明属于计算机化学领域,涉及一种应用计算模型预测和分析多肽配体与蛋白质受体之间亲和力大小的方法。
背景技术
作为生物体系的重要组分之一,蛋白质在生命运作中发挥了不可替代的作用并行使着多样的生物学功能,如组织构建、物质运输、反应催化和免疫调控等。蛋白质相互作用 (protein- protein interaction, PPI)在信号转导及其它重要的生物过程中也扮演着极其重要的角色。通常,PPI由结构域所介导。Src同源结构域3(Src homology domain, SH3)是人类蛋白质组中最为丰富的结构域,广泛存在于各类蛋白如蛋白激酶、脂肪酶、GTP 酶及调节蛋白质中并引导了多样细胞生化过程。Src同源结构域3由50-70个氨基酸残基组成,包含由五个β折叠组成的两个片层结构,折叠模式具有高度保守性,倾向于识别富含脯氨酸的PXXP型肽链(P为脯氨酸,X为任意氨基酸)。人双载蛋白(amphiphysin)有两种型别amphiphySin 1和amphiphysin 2,它们与包涵素介导的胞吞作用、肌动蛋白功能性及信号通路等过程密切相关,在诸多生理和病理过程中扮演了极其重要的角色。既往研究表明,由人双载蛋白Src同源结构域3介导的PPI与一些肿瘤发生、增殖和转移过程以及骨髓增生症、巨颂症、多发性肾病等密切相关。因此,甄别人类基因组中可以被人双载蛋白 Src同源结构域3识别的肽基序,对于了解人双载蛋白Src同源结构域3介导的PPI的分子机制以及开发具有高亲和力和特异性的人双载蛋白Src同源结构域3结合肽类抑制剂均非常有益。但是,基于实验途径逐个合成人类基因组编码的所有可能肽基序(一般为10个氨基酸残基)并逐个检测其与人双载蛋白Src同源结构域3的亲和力是一件极度耗时耗力的工作;而既往文献报道的预测方法如采用自由能分析法研究Src同源结构域3与不同肽配体的结合热力学行为由于效率很低也不适合于Src同源结构域3结合肽的高通量筛选。因此,有必要发展一种有效的基于计算机的方法来精确预测和分析人双载蛋白Src同源结构域3结合肽的亲和力,以实现具有高亲和力的人类双载蛋白Src同源结构域3结合肽的高通量筛选,进而促进具有高亲和力和特异性的人类双载蛋白Src同源结构域3结合肽类抑制剂的开发研究。

发明内容
有鉴于此,本发明的目的在于提供一种人类1型双载蛋白Src同源结构域3结合肽的亲和力预测及分析方法,为高通量筛选具有高亲和力的人类1型双载蛋白Src同源结构域3结合肽提供有力的工具,进而促进具有高亲和力和特异性的人类1型双载蛋白Src 同源结构域3结合肽类抑制剂的开发研究。为达到上述目的,本发明提供如下技术方案
人类1型双载蛋白Src同源结构域3结合肽的亲和力预测及分析方法,包含如下步骤a.氨基酸理化性质归类得分的建立
选取氨基酸的电性性质参数、立体性质参数、疏水性质参数和氢键性质参数,采用主成分分析方法,获得足以表征氨基酸电性性质、立体性质、疏水性质和氢键性质的主成分,计算每个主成分得分矢量,将其定义为氨基酸理化性质归类得分;
b.肽序列结构的参数化描述
选择已知亲和力大小的人类1型双载蛋白Src同源结构域3结合肽,应用步骤a建立的氨基酸理化性质归类得分对肽序列中的每个氨基酸残基进行表征,获得组成肽的所有氨基酸残基的理化性质归类得分,作为肽序列结构参数;
c.与亲和力最为密切相关的特征参数的选取
采用遗传算法从步骤b所得的肽序列结构参数中挑选出与亲和力最为密切相关的特征参数;
d.亲和力预测及分析模型的建立
采用高斯过程方法建立步骤c所得特征参数与亲和力的关系模型即亲和力预测及分析模型;
e.肽的亲和力预测及分析
通过对步骤d建立的亲和力预测及分析模型的超参数进行分析,获得影响肽亲和力的结构因素;针对未知亲和力大小的肽,根据其氨基酸序列计算出步骤c选出的特征参数的具体数值,再输入步骤d建立的亲和力预测及分析模型中进行计算,即得到肽与人类1型双载蛋白Src同源结构域3的亲和力值。进一步,步骤a中所述电性性质参数包括净电荷(net charge)、分子极性 (polarity)、区域电子效应(localized electrical effect)禾口极化率(polarizability); 所述立体性质参数包括标准范德瓦耳斯体积(normalized van der Waals volume)、分子尺度(molecular size)、侧链体禾只(residue volume)、图形指数(graph shape index)禾口柔性参数(flexibility parameter);所述疏水性质参数包括溶剂化自由能(solvation free energy)、分配系数(partition coefficient)、色谱保留指数(retention index)、疏水矩 (hydrophobic moment)禾口溶剂可及面禾只(solvent accessible surface area);所述氧键性质参数包括氢键给受体数目(number of hydrogen bond donors/acceptors)和氢键贡献因子(hydrogen bond contribution factor) 进一步,步骤c中所述遗传算法参数设置如下初始种群大小为200,收敛标准为 100代循环,变异度为1%,目标函数用留一法交叉验证。进一步,步骤d是将肽对人类1型双载蛋白Src同源结构域3的亲和力指标BLU (Boehringer light unit)转换为对数形式IogBLU,再以IogBLU作为模型的因变量,使用高斯过程方法建立特征参数与该因变量之间的线性/非线性杂化回归模型,以留一法交叉验证和测试集外部预测验证模型的预测能力。本发明的有益效果在于本发明基于氨基酸理化性质归类得分和遗传算法-高斯过程方法建立了一种人类1型双载蛋白Src同源结构域3结合肽的亲和力预测及分析方法。首先,根据结构决定性质的原理,从全面解析肽序列结构角度出发,从目前公开的上千种氨基酸物理化学参数和形状几何指数中精心选取了 119种指标,这些指标具有意义明确、表征能力强、易于操作等优点,在此基础上应用主成分分析法建立的氨基酸理化性质归类得分,可以全面、有效地反映氨基酸的理化性质信息,继而实现对肽序列结构的参数化描述;其次,使用具有强大全局搜索能力的遗传算法挑选特征参数,能够在较短的时间内从大量肽序列结构参数中搜寻到全局最优解即与亲和力最为密切相关的特征参数用于后续建模;最后,考虑到肽序列结构与其生物活性之间存在非常复杂的关系,本发明选用高斯过程方法(一种线性/非线性杂化的机器学习建模方法)对特征参数与亲和力之间的内在定量关系进行统计学习,建立了简便可靠的亲和力预测及分析模型,实现了根据肽序列预测其亲和力的功能,可以为高通量筛选具有高亲和力的人类1型双载蛋白Src同源结构域3结合肽提供有力的工具,进而促进具有高亲和力和特异性的人类1型双载蛋白Src同源结构域3结合肽类抑制剂的开发研究。


图1为20个天然氨基酸在电性性质前2个主成分得分空间中的分布示意图。图2为20个天然氨基酸在立体性质前2个主成分得分空间中的分布示意图。图3为20个天然氨基酸在疏水性质前2个主成分得分空间中的分布示意图。图4为20个天然氨基酸在氢键性质前2个主成分得分空间中的分布示意图。图5为亲和力预测及分析模型对人类1型双载蛋白Src同源结构域3结合肽的亲和力预测值与实验值对比图。图6为亲和力预测及分析模型对人类1型双载蛋白Src同源结构域3结合肽的亲和力预测值的95%置信区间及预测值偏离实验值的程度示意图。图7为人类1型双载蛋白Src同源结构域3与十肽PLPRRPPRAA之间的非键作用
示意图。
具体实施例方式为了使本发明的目的、技术方案和优点更加清楚,下面将以十肽为例,结合附图, 对人类1型双载蛋白Src同源结构域3结合肽的亲和力预测及分析方法进行详细的描述。1、基于主成分分析法建立氨基酸理化性质归类得分
非键作用在肽与蛋白质相互识别和结合过程中扮演着重要的角色,主要表现为电子、 立体、疏水和氢键作用,其它作用如电荷转移、盐桥等均可视为前几者的特殊表现形式。考虑到肽和蛋白质主要是通过非键作用进行结合,而氨基酸是肽和蛋白质的基本结构模块, 本发明从各数据库和文献报道的上千种氨基酸理化性质参数中精选出20个天然氨基酸的 23种电性性质参数、37种立体性质参数、M种疏水性质参数和5种氢键性质参数。这些理化性质参数主要反映了氨基酸以下几方面的信息①电子特征如净电荷、分子极性、区域电子效应、极化率等;②立体特征如标准范德瓦耳斯体积、分子尺度、侧链体积、图形指数、 柔性参数等;③疏水特征如溶剂化自由能、分配系数、色谱保留指数、疏水矩、溶剂可及面积等;④氢键特征如氢键给受体数目、氢键贡献因子等。将上述精选出的氨基酸电性性质参数、立体性质参数、疏水性质参数和氢键性质参数分别组成4个原始变量矩阵,先采用自定标法(autoscaling)对各原始变量矩阵进行标准化处理以消除不同变量之间的单位差异,再采用主成分分析法对各原始变量矩阵进行信息压缩滤噪处理。结果发现,电性性质原始变量矩阵中前4个主成分(分别用Vi、V2、V3、V4表示)得分解释了电性性质原始变量矩阵74. 4%的方差;立体性质原始变量矩阵中前2 个主成分(分别用\、V6表示)得分解释了立体性质原始变量矩阵72. 7%的方差;疏水性质原始变量矩阵中前2个主成分(分别用V7、V8表示)得分解释了疏水性质原始变量矩阵 73. 8%的方差;氢键性质原始变量矩阵中前2个主成分(分别用\、V10表示)得分解释了氢键性质原始变量矩阵77. 2%的方差;据此可以认为,这10个主成分(V广Vltl)得分已经能够表征上述4个原始变量矩阵中的绝大多数信息。因此,对于每个氨基酸,可通过原始变量值与相应主成分得分系数的乘积分别计算出这10个主成分得分矢量,再以这10个主成分得分矢量作为氨基酸理化性质描述子,实现肽序列结构的参数化描述。在本发明中,将上述 10个主成分得分矢量命名为氨基酸理化性质归类得分。表1所示即为20个天然氨基酸的理化性质归类得分。 表1 20个天然氨基酸的理化性质归类得分
权利要求
1.人类1型双载蛋白Src同源结构域3结合肽的亲和力预测及分析方法,其特征在于, 包含如下步骤a.氨基酸理化性质归类得分的建立选取氨基酸的电性性质参数、立体性质参数、疏水性质参数和氢键性质参数,采用主成分分析方法,获得足以表征氨基酸电性性质、立体性质、疏水性质和氢键性质的主成分,计算每个主成分得分矢量,将其定义为氨基酸理化性质归类得分;b.肽序列结构的参数化描述选择已知亲和力大小的人类1型双载蛋白Src同源结构域3结合肽,应用步骤a建立的氨基酸理化性质归类得分对肽序列中的每个氨基酸残基进行表征,获得组成肽的所有氨基酸残基的理化性质归类得分,作为肽序列结构参数;c.与亲和力最为密切相关的特征参数的选取采用遗传算法从步骤b所得的肽序列结构参数中挑选出与亲和力最为密切相关的特征参数;d.亲和力预测及分析模型的建立采用高斯过程方法建立步骤c所得特征参数与亲和力的关系模型即亲和力预测及分析模型;e.肽的亲和力预测及分析通过对步骤d建立的亲和力预测及分析模型的超参数进行分析,获得影响肽亲和力的结构因素;针对未知亲和力大小的肽,根据其氨基酸序列计算出步骤c选出的特征参数的具体数值,再输入步骤d建立的亲和力预测及分析模型中进行计算,即得到肽与人类1型双载蛋白Src同源结构域3的亲和力值。
2.根据权利要求1所述的人类1型双载蛋白Src同源结构域3结合肽的亲和力预测及分析方法,其特征在于,步骤a中所述电性性质参数包括净电荷、分子极性、区域电子效应和极化率;所述立体性质参数包括标准范德瓦耳斯体积、分子尺度、侧链体积、图形指数和柔性参数;所述疏水性质参数包括溶剂化自由能、分配系数、色谱保留指数、疏水矩和溶剂可及面积;所述氢键性质参数包括氢键给受体数目和氢键贡献因子。
3.根据权利要求1所述的人类1型双载蛋白Src同源结构域3结合肽的亲和力预测及分析方法,其特征在于,步骤c中所述遗传算法参数设置如下初始种群大小为200,收敛标准为100代循环,变异度为1%,目标函数用留一法交叉验证。
4.根据权利要求1所述的人类1型双载蛋白Src同源结构域3结合肽的亲和力预测及分析方法,其特征在于,步骤d是将肽对人类1型双载蛋白Src同源结构域3的亲和力指标BLU转换为对数形式IogBLU,再以IogBLU作为模型的因变量,使用高斯过程方法建立特征参数与该因变量之间的线性/非线性杂化回归模型,以留一法交叉验证和测试集外部预测验证模型的预测能力。
全文摘要
本发明公开了一种人类1型双载蛋白Src同源结构域3结合肽的亲和力预测及分析方法,先选取氨基酸的电性性质、立体性质、疏水性质和氢键性质参数,采用主成分分析法建立氨基酸理化性质归类得分,再用该得分对肽序列中的每个氨基酸残基进行表征,实现肽序列结构的参数化描述,再用遗传算法从肽序列结构参数中挑选出与亲和力密切相关的特征参数,采用高斯过程方法建立特征参数与亲和力的关系模型即亲和力预测及分析模型,最后通过分析模型的超参数获得影响肽亲和力的结构因素,通过模型预测得到肽的亲和力值;本发明可以为高通量筛选具有高亲和力的人类1型双载蛋白Src同源结构域3结合肽提供有力的工具,进而促进人类1型双载蛋白Src同源结构域3结合肽类抑制剂的开发研究。
文档编号G06F19/18GK102509029SQ201110329028
公开日2012年6月20日 申请日期2011年10月26日 优先权日2011年10月26日
发明者任彦荣 申请人:重庆教育学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1