一种基于简约空间抽象凸下界估计的蛋白质构象优化方法

文档序号:8412772阅读:190来源:国知局
一种基于简约空间抽象凸下界估计的蛋白质构象优化方法
【技术领域】
[0001] 本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于简约空间抽象 凸下界估计的蛋白质构象优化方法。
【背景技术】
[0002] 生物信息学是生命科学和计算机科学交叉领域的一个研宄热点。目前,根据 Anf insen假设,直接从氨基酸序列出发,基于势能模型,采用全局优化方法,搜索分子系统 的最小能量状态,从而高通量、廉价地预测肽链的天然构象,已经成为生物信息学最重要的 研宄课题之一。对于序列相似度低或多肽(〈10个残基的小蛋白)来说,从头预测方法是唯 一的选择。从头预测方法必须考虑以下两个因素:(1)蛋白质结构能量函数;(2)构象空间 搜索方法。第一个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白质结 构对应的能量值。目前已经存在一些较为有效的结构能量函数,如:简单网格模型HP及更 实际的经验力场模型MM3, AMBER,CHARMM,GR0M0S,DISCOVER,ECEPP/3等;第二个因素本质 上属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速搜索,得到与某 一全局最小能量对应的构象。其中,蛋白质构象空间优化属于一类非常难解的NP-Hard问 题。2005年,D. Baker在Science中指出,构象空间优化方法是制约蛋白质从头预测方法预 测精度的一个瓶颈因素。
[0003] 因此,现有的构象空间优化方法存在采样效率、复杂度及预测精度方面存在不足, 需要改进。

【发明内容】

[0004] 为了克服现有的蛋白质构象优化方法的采样效率较低、复杂度较高、预测精度较 低的不足,本发明提出一种采样效率较高、复杂度较低、预测精度较高的基于简约空间抽象 凸下界估计的蛋白质构象优化方法。
[0005] 本发明解决其技术问题所采用的技术方案是:
[0006] -种基于简约空间抽象凸下界估计的蛋白质构象优化方法,所述构象空间优化方 法包括以下步骤:
[0007] 1)根据粗粒度能量模型,采用基于知识的Rosetta Score3能量模型作为目标函 数,
[0008] 如式(1)所示,并初始化种群:
[0009] (11
[?σι?] 其中#表示n,c,c^pcf原子的总数,r表示第i个原子的坐标κ34),?=ι, 2,…,及;
[0011] 2)对1)中的目标函数进行模型转换:
[0012] 2. 1)采用坐标变换方法,将计算模型转化为二面角优化空间能量模型f2:
[0013] f2{r)= ^or(Oi) (2)
[0014] 其中Γ = (h h,…,^Vsss)=祕肩,M U = 1,2,…,乂£5}为骨架二面角向量,Nkes表示残 基个数,Φ?,仍,Wi分别表示第i个残基中原子C-N-Ca-N, N-Ca-C-N, Ca-C-N-Ca的二面 角;
[0015] 2.2)采用超速形状识别方法,提取蛋白质结构的4个特征点,分别是:分子质心 CTD,离CTD最近的原子CST,离CTD最远的原子FCT,离FCT最远的原子FTF,通过计算蛋白质 分子粗粒度骨架模型中所有原子与四个特征点的平均距离,距离方差,以及距离偏差指标, 组成蛋白质结构的12维特征向量及 综合考虑精度和复杂度的因素,选择作为蛋白质结构特征坐标,基 于模型(1),得到如下特征空间能量模型f3:
[0016] (3)
[0017] 其中/Τ,Ο/?"表示蛋白质粗粒度骨架模型中所有原子与特征点 CTD, CST, FCT, FTF 的平均距离;
[0018] 2. 3)基于Karmarker摄影变换,将模型(3)转换为单位单纯形S约束下的非线性 优化问题f4:
[0019] ./4 (·ν,) = ./4 (·νι' ·ν:' ·γ'' ·γ4' ·ν?)' s-r- χ! - X^ ! .Vf = I, / = 1,2,3,4,5 (4)
[0020] 2. 4)针对f4,采用严格递增射凸函数变换方法,在目标函数项增加一个正常数,将 其转换为单位单纯形约束下的严格递增射凸函数f 5(?);
[0021] 2. 5)对于K个采样点,针对第i个采样点X 1,计算其抽象凸次微分,构建f5(?) 在采样点X 的支撑弱函数h(,i):
[0022]
【主权项】
1. 一种基于简约空间抽象凸下界估计的蛋白质构象优化方法,其特征在于:所述构象 空间优化方法包括以下步骤: 1) 根据粗粒度能量模型,采用基于知识的Rosetta Sc〇re3能量模型作为目标函数,如 式(1)所示,并初始化种群: (1) 其中#表示N,C,0和Cf原子的总数,表示第i个原子的坐标?Π Ji),/ = 1,2,···,没; 2) 对1)中的目标函数进行模型转换: 2. 1)采用坐标变换方法,将计算模型转化为二面角优化空间能量模型f2: ./;(γ)ξ (2) 其中r = (η,r:,…,)三祕肩,崎I / = 1,2,…,}为骨架二面角向量,Nkes表示残基个 数,φρ仍,Wi分别表示第i个残基中原子C-N-C a-N,N-Ca-C-N, Ca-C-N-Ca的二面角; 2. 2)采用超速形状识别方法,提取蛋白质结构的4个特征点,分别是:分子质心CTD,离 CTD最近的原子CST,离CTD最远的原子FCT,离FCT最远的原子FTF,通过计算蛋白质分子 粗粒度骨架模型中所有原子与四个特征点的平均距离,距离方差,以及距离偏差指标,组成 蛋白质结构的12维特征向量及= ,,淖,/^),综合 考虑精度和复杂度的因素,选择)作为蛋白质结构特征坐标,基于模 型(1),得到如下特征空间能量模型f3: 久(汾「)=石(Orwr) (3) 其中/广,/表示蛋白质粗粒度骨架模型中所有原子与特征点 CTD, CST, FCT, FTF 的平均距离; 2. 3)基于Karmarker摄影变换,将模型(3)转换为单位单纯形S约束下的非线性优化 问题 ./4 (·ν,) = ./4 (·νι' ·ν:' ·γ'' ·γ4' ·ν?)'Λ'··'· χ! - X^ ! .t7 = I, / = 1,2,3,4,5 (4) 2. 4)针对f4,采用严格递增射凸函数变换方法,在目标函数项增加一个正常数,将其转 换为单位单纯形约束下的严格递增射凸函数&(?); 2.5)对于K个采样点,针对第i个采样点X S计算其抽象凸次微分,构建f5(x')在 采样点X 的支撑弱函数h(,〇 : t f s^max-min
I6U ): f6 (X' ) = maxh (x D,i = 1,2,…,K (6) 2. 7)考虑K+l维支撑向量矩阵L : / · \
2. 8)建立N叉树来保存下界估计信息; 3) 构建简约空间低估模型: 3. 1)对初始种群中的每个构象建立支撑向量; 3. 2)找出N叉树中不满足条件Vv e Λλ \ H e / ://· 2 v,_ (M)的叶子节点,用构建的支撑 向量替换; 3. 3)判断替换后的节点是否满足V/,./,./e/,(I),满足,则保留这个节点, 不满足,则删除; 4) 执行搜索过程: 4. 1)设置终止条件; 4. 2)在种群中随机选出两个不同的个体; 4. 3)通过交叉变异产生新的个体:随机选择所选父代个体中相同长度的片段进行交 换,再对其做片段组装,生成新的个体; 4. 4)判断新生成的个体落在哪一个搜索区域; 4. 5)计算其下界估计值E' 4. 6)计算E' c与所选父代个体中能量值较小的个体的能量值的差值δ 1,如果δ 1>〇, 则跳出本次计算,若S 1〈〇,计算其真实能量Ε。; 4.7)计算Ec与所选父代个体中能量值较小的个体的能量值的差值δ 2,若δ 2〈0,则用 其替换种群中所选父代能量值较高的个体; 5) 判断是否满足终止条件,如否,转4.2);如是,则结束。
2.如权利要求1所述的基于简约空间抽象凸下界估计的蛋白质构象优化方法,其特征 在于:所述终止条件为迭代次数达到设置值。
【专利摘要】一种基于简约空间抽象凸下界估计的蛋白质构象优化方法,包括以下步骤:根据粗粒度能量模型,以Rosetta Score3为优化目标函数,将能量计算模型转换为二面角优化空间能量模型;通过特征向量提取,将高维二面角优化问题转换为实际可操作的笛卡儿空间优化问题;基于Karmarker射影变换,将笛卡儿空间能量模型转换成单位单纯形约束下的非线性优化问题,如此构建抽象凸下界支撑面,并进行更新;结合片段组装和Monte Carlo算法获得一系列亚稳态构象;最后,通过Rosetta服务器提供的Refinement服务获得高分辨率的蛋白质构象。本发明采样效率较高、复杂度较低、预测精度较高。
【IPC分类】G06F19-16
【公开号】CN104732115
【申请号】CN201410686664
【发明人】张贵军, 郝小虎, 周晓根, 程凯, 梅珊, 俞旭锋, 李章维
【申请人】浙江工业大学
【公开日】2015年6月24日
【申请日】2014年11月25日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1