预测膜蛋白的残基间的作用关系的方法

文档序号:6640618阅读:368来源:国知局
预测膜蛋白的残基间的作用关系的方法
【专利摘要】提供一种预测膜蛋白的残基间的作用关系的方法。所述方法包括:(A)基于膜蛋白的拓扑结构提取各残基对的特征;(B)采用支持向量机模型,基于提取的各残基对的特征来预测所述膜蛋白中的相互作用的残基对;(C)确定在步骤(B)中是否预测出相互作用的残基对;(D)当确定在步骤(B)中预测出相互作用的残基对时,输出在步骤(B)预测出的结果;(E)当确定在步骤(B)中没有预测出相互作用的残基对时,采用混合整数线性规划方法来预测所述膜蛋白中的相互作用的残基对;(F)输出在步骤(E)预测出的结果。根据所述方法,能够有效地提高预测膜蛋白的残基间的作用关系的精度、速度以及覆盖度。
【专利说明】预测膜蛋白的残基间的作用关系的方法

【技术领域】
[0001] 本发明设及蛋白质结构预测技术,更具体地讲,设及一种预测膜蛋白的残基间的 作用关系的方法。

【背景技术】
[0002] 目前已知的W及正在研究的药物祀点中,膜蛋白约占60%。然而,由于膜蛋白结构 的实验解析难度较大,在蛋白质数据库(Protein Data Bank-PDB)中,超过9万个的已知蛋 白质结构里,膜蛋白结构仅占1%。
[0003] 目前解析蛋白质的S维结构的生物学实验方法主要有X-RAY法和NMR法,但该些 方法不仅较为复杂,耗时,而且花费较高。由于实验解析法的该些不足,使得计算方法的发 展成为必然。目前用于预测蛋白质的S维结构的计算方法主要有同源模建法、折叠识别法 和从头预测法等。将残基间的作用关系应用到从头预测法中,不仅可W大大节约=维结构 的预测时间,还可W提高预测的精度。
[0004] 然而,目前大多数的蛋白质的残基间的相互作用关系的预测方法仅适用于球蛋 白,针对膜蛋白的预测方法不仅数量较少,而且速度较慢,精度较低。


【发明内容】

[00化]本发明的示例性实施例在于提供一种预测膜蛋白的残基间的作用关系的方法,W 克服现有技术中预测准确度、预测效率和覆盖度不理想的问题。
[0006] 本发明提供一种预测膜蛋白的残基间的作用关系的方法,包括:(A)基于膜蛋白 的拓扑结构提取各残基对的特征;炬)采用支持向量机模型,基于提取的各残基对的特征 来预测所述膜蛋白中的相互作用的残基对;(C)当在步骤炬)中预测出相互作用的残基对 时,输出在步骤炬)中预测出的相互作用的残基对W及所述残基对所在的a螺旋;值)当 在步骤炬)中没有预测出相互作用的残基对时,采用混合整数线性规划方法来预测所述膜 蛋白中的相互作用的残基对;巧)输出在步骤值)中预测出的相互作用的残基对W及所述 残基对所在的a螺旋。
[0007] 可选地,各残基对的特征包括W下项中的至少一项;残基对的PSSM特征、残基对 的各残基在a螺旋中的相对位置特征、残基对的序列间隔特征、残基对的残基类型特征、 残基对所在的膜蛋白的a螺旋个数特征和残基对所在的膜蛋白的序列长度特征。
[000引可选地,所述支持向量机模型通过下述方式训练得到;采用径向基核函数对训练 集进行"5-折"交叉验证W确定所述支持向量机模型的"代价"参数和"gamma"参数;对训 练集进行"去一"交叉验证W确定用于筛选相互作用的残基对的最优口限值。
[0009] 可选地,所述方法还包括;在步骤(A)之前,根据所述膜蛋白的一级结构来确定所 述膜蛋白的拓扑结构。
[0010] 可选地,所述膜蛋白是a跨膜蛋白。
[0011] 可选地,残基对的PSSM特征包括;W残基对中的第一残基和第二残基分别为中屯、 取第一预定大小的滑动窗口所得到的位置特异性得分矩阵、w及w第一残基和第二残基的 中间位置为中屯、取第二预定大小的滑动窗口所得到的位置特异性得分矩阵;残基对的各残 基在a螺旋中的相对位置特征为p/1,其中,P为残基对的残基在长度为1的a螺旋上的 相对位置;残基对的序列间隔特征指示残基对在一级序列中的位置间隔所属的区间;残基 对的残基类型特征指示残基对的各残基的氨基酸类型的组合;残基对所在的膜蛋白的a 螺旋个数特征指示残基对所在的膜蛋白所包含的a螺旋的个数所属的区间;残基对所在 的膜蛋白的序列长度特征指示残基对所在的膜蛋白的一级序列的长度所属的区间。
[0012] 可选地,残基对在一级序列中的位置间隔所属的区间为W下区间之一 ;25、25-50、 50-75、75-100、100-125、125-150、150-175、175-200 和 >200。
[0013] 可选地,残基对所在的膜蛋白所包含的a螺旋的个数所属的区间为W下区间之 一 ;2-4、5-7、8-10 和 >10。
[0014] 可选地,残基对所在的膜蛋白的一级序列的长度所属的区间为W下区间之一: <100、100-400、400-800 和 >800。
[0015] 根据本发明示例性实施例的预测膜蛋白的残基间的作用关系的方法,将支持向量 机方法和数学优化方法相结合,能够快速、准确地预测膜蛋白的残基间的作用关系,预测得 到的膜蛋白的残基间的作用关系可用于进一步预测膜蛋白的a螺旋间的相互作用关系W 及膜蛋白的S维结构,从而提高预测膜蛋白的a螺旋间的相互作用关系W及膜蛋白的S 维结构的精度和效率。
[0016] 将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点,还有一部 分通过描述将是清楚的,或者可W经过本发明总体构思的实施而得知。

【专利附图】

【附图说明】
[0017] 图1示出根据本发明示例性实施例的预测膜蛋白的残基间的作用关系的方法的 流程图。

【具体实施方式】
[0018] 现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标 号始终指的是相同的部件。W下将通过参照附图来说明所述实施例,W便解释本发明。
[0019] 图1示出根据本发明示例性实施例的预测膜蛋白的残基间的作用关系的方法的 流程图。所述方法可通过计算机程序来实现,也可由专口的设备来执行。
[0020] 参照图1,在步骤S10,基于膜蛋白的拓扑结构提取各残基对的特征。
[0021] 该里,膜蛋白可W是a膜蛋白、a跨膜蛋白等。膜蛋白的拓扑结构可根据膜蛋白 的一级结构来确定。例如,可使用MEMSAT3等来确定膜蛋白的拓扑结构。
[0022] 各残基对的特征可包括W下项中的至少一项;残基对的PSSM (Position-Specific Scoring Matrix,位置特异性得分矩阵)特征、残基对的各残基在a螺旋中的相对位置特 征、残基对的序列间隔特征、残基对的残基类型特征、残基对所在的膜蛋白的a螺旋个数 特征和残基对所在的膜蛋白的序列长度特征。应该理解,上述特征仅作为示例,也可采用其 他适合的残基对的特征。
[0023] 作为示例,残基对的PSSM特征可包括;W残基对中的第一残基和第二残基分别为 中屯、取第一预定大小的滑动窗口所得到的位置特异性得分矩阵、w及w第一残基和第二残 基的中间位置为中屯、取第二预定大小的滑动窗口所得到的位置特异性得分矩阵。
[0024] 具体说来,每个PSSM特征中每个残基都由一个20维的向量表示,指示20种氨基 酸在PSSM的相应位置出现的频率。例如,W残基对中的第一残基和第二残基分别为中屯、取 大小为7的滑动窗口,每个残基对即可得到2 X 7 X 20 = 280个PSSM特征;W第一残基和第 二残基的中间位置为中屯、取大小为3的滑动窗口,每个残基对即可得到3 X 20 = 60个PSSM 特征,每个残基对的PSSM特征的总数则为280+60 = 340个。
[0025] 残基对的PSSM特征可通过运行PSI-BLAST得到,运行PSI-BLAST时可采用数据库 UNIREF90数据库,迭代次数可设置为2, E-value截断值可设置为le-w。
[0026] 作为示例,残基对的各残基在a螺旋中的相对位置特征可为p/1,其中,P为残基 对的残基在长度为1的a螺旋上的相对位置。每个残基对可获得2个该特征。
[0027] 作为示例,残基对的序列间隔特征可指示残基对在一级序列中的位置间隔所属的 区间。残基对在一级序列中的位置间隔所属的区间可为W下区间之一 ;25、25-50、50-75、 75-100、100-125、125-150、150-175、175-200 和 >200。
[002引关于残基对的序列间隔特征,可利用9位二进制码来指示残基对在一级序列中的 位置间隔所属的区间。例如,9位二进制码中的第1位至第9位可依次对应W下区间;25、 25-50、50-75、75-100、100-125、125-150、150-175、175-200 和〉200,并且在 9 位二进制码 中,与残基对在一级序列中的位置间隔所属的区间对应的位被置为1,其他位被置为0。
[0029] 作为示例,残基对的残基类型特征可指示残基对的各残基的氨基酸类型的组合。
[0030] 具体说来,组成蛋白质的氨基酸共20种,根据氨基酸R基的极性性质可分为酸性 氨基酸(谷氨酸W及天冬氨酸)、碱性氨基酸(赖氨酸、精氨酸W及组氨酸)和中性氨基 酸,其中,中性氨基酸又可分为极性氨基酸(甘氨酸、丝氨酸、半脱氨酸、苏氨酸、酪氨酸、天 冬酷胺W及谷氨酷胺)和非极性氨基酸(丙氨酸、亮氨酸、异亮氨酸、苯丙氨酸、甲硫氨酸、 色氨酸、鄉氨酸W及脯氨酸)。根据该4种不同的氨基酸类型,每个残基对(对应两个氨基 酸)可W产生10种不同的组合。
[0031] 关于残基对的残基类型特征,可利用10位二进制码来指示残基对的氨基酸类型 的组合,10位二进制码中的第1位至第10位分别对应不同的两种氨基酸类型的组合,并且 在10位二进制码中,与残基对所属的氨基酸类型的组合对应的位被置为1,其他位被置为 0。
[0032] 作为示例,残基对所在的膜蛋白的a螺旋个数特征可指示残基对所在的膜蛋白 所包含的a螺旋的个数所属的区间。残基对所在的膜蛋白所包含的a螺旋的个数所属的 区间可为W下区间之一 ;2-4、5-7、8-10和>10。
[0033] 关于残基对所在的膜蛋白的a螺旋个数特征,可利用4位二进制码来指示残基对 所在的膜蛋白所包含的a螺旋的个数所属的区间。例如,4位二进制码中的第1位至第4 位可分别对应W下区间;2-4、5-7、8-10和>10,并且在4位二进制码中,与残基对所在的膜 蛋白所包含的a螺旋的个数所属的区间所对应的位被置为1,其他位被置为0。
[0034] 作为示例,残基对所在的膜蛋白的序列长度特征可指示残基对所在的膜蛋白的一 级序列的长度所属的区间。残基对所在的膜蛋白的一级序列的长度所属的区间可为W下区 间之一;<100、100-400、400-800 和 >800。
[0035] 关于残基对所在的膜蛋白的序列长度特征,可利用4位二进制码来指示残基对所 在的膜蛋白的一级序列的长度所属的区间。例如,4位二进制码中的第1位至第4位分别对 应W下区间;< 100、100-400、400-800和>800,并且4位二进制码中,与残基对所在的膜蛋白 的一级序列的长度所属的区间对应的位被置为1,其他位被置为0。
[0036] 应该理解,同一膜蛋白上的残基对具有相同的a螺旋个数特征和膜蛋白的序列 长度特征。
[0037] 综合上述示例所述,可使用340个残基对的PSSM特征,2个残基对的各残基在a 螺旋中的相对位置特征,9个残基对的序列间隔特征、10个残基对的残基类型特征,4个残 基对所在的膜蛋白的a螺旋个数特征,4个残基对所在的膜蛋白的序列长度特征,共计369 个特征。
[003引此外,应该理解,拓扑结构上的所有残基对可分别按编号构成特征矩阵中相应的 行,与每个残基对所对应的特征则可构成该特征矩阵中相应的列。
[0039] 在步骤S20,采用支持向量机模型,基于提取的各残基对的特征来预测所述膜蛋白 中的相互作用的残基对。
[0040] 关于蛋白质的相互作用的残基对的定义有多种,例如,基于原子的范德华距离的 定义,基于CA-CA原子距离的定义W及基于CB-CB原子距离的定义。作为示例,可将位于膜 蛋白的a螺旋上的CA-CA原子距离小于14 A的残基对定义为相互作用的残基对。
[0041] 具体说来,对于提取的各残基对的特征(例如,各残基对的特征所构成的特征矩 阵)使用已训练的支持向量机模型来确定各残基对属于相互作用的残基对,还是非相互作 用的残基对。
[0042] 作为示例,所述支持向量机模型可通过下述方式训练得到;采用径向基核函数对 训练集进行"5-折"(5-fold)交叉验证W确定所述支持向量机模型的"代价"(cost)参数 和"gamma"参数。
[0043] 该里,cost参数指示支持向量机模型对误差的宽容度,cost的值设置的越大,越 不能容忍出现误差。"gamma"参数是径向基核函数中的一个参数,隐含地决定了数据映射到 新的特征空间后的分布。
[0044] 对训练集进行"去一"(leave-one-out)交叉验证W确定用于筛选相互作用的残基 对的最优口限值。当支持向量机模型对某一残基对的打分大于最优口限值时,则确定该残 基对是相互作用的残基对。当支持向量机模型对某一残基对的打分不大于最优口限值时, 则确定该残基对是非相互作用的残基对。
[0045] 作为示例,用于训练支持向量机模型的原始训练样本包含133个a跨膜蛋白,去 除a螺旋个数在2个W下的a跨膜蛋白后,得到90个分辨率在3. 0 W下、序列相似度在 35% W下的a跨膜蛋白作为训练支持向量机模型的训练样本。根据相互作用的残基对的 定义,将a膜蛋白a螺旋上的所有残基对都标记为相互作用的残基对或非相互作用的残 基对,生成一个相互作用的残基对与非相互作用的残基对的数量比为1 ;62的数据集。为了 平衡训练集中两类数据的数量,并节约训练时间,保留了所有相互作用的残基对,并随即选 取了非相互作用的残基对,得到一个相互作用的残基对与非相互作用的残基对的数量比为 1 ;1的训练集。
[0046] 可通过LIB-SVM软件采用径向基核函数对上述训练集进行5-化Id交叉验证,根据 父叉验证结果将cost参数设置为1, gamma参数设置为30。
[0047] 可对上述训练集进行leave-one-out交叉验证,通过对验证结果进行分析得到; 当口限值设置为le^ 63时,预测结果更加可靠。因此可设置判定一个残基对为相互作用的残 基对还是非作用的残基对的最优口限值为;Threshold = le-63,即当支持向量机模型对某 一残基对的打分大于le^63时,确定该残基对为相互作用的残基对,反之,确定该残基对为非 相互作用的残基对。
[0048] 支持向量机针对现行可分情况进行分析,对于现行不可分情况,通过使用非线性 映射算法将低维输入空间线性不可分的样本转化为高维空间使其线性可分,从而使得高维 特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。
[0049] 在步骤S30,确定在步骤S20中是否预测出相互作用的残基对。
[0化日]在步骤S40,当确定在步骤S20中预测出相互作用的残基对时,输出在步骤S20中 预测出的相互作用的残基对W及所述残基对所在的a螺旋。
[0051] 并且,输出的预测结果可用于进一步预测膜蛋白的a螺旋间的相互作用关系W 及膜蛋白的S维结构,从而提高预测膜蛋白的a螺旋间的相互作用关系W及膜蛋白的S 维结构的精度和效率。
[0化2] 在步骤S50,当确定在步骤S20中没有预测出相互作用的残基对时,采用混合整数 线性规划方法来预测所述膜蛋白中的相互作用的残基对。
[0053] 具体说来,使用支持向量机模型来预测膜蛋白的残基间的作用关系精度较高、速 度较快。但如果在步骤S20中没有预测出相互作用的残基对时,即认为支持向量机模型对 该膜蛋白失效,可采用混合整数线性规划方法来预测所述膜蛋白中的相互作用的残基对。
[0054] 上述预测方式可通过式C = aCsvM+bCMi。表示,其中,a+b = 1, 1,如果 SVM scores〉! a-L g胃 ,CsvM指示使用支持向量机模型预测出的相互作用的残基对的 集合,C胃指示使用混合整数线性规划方法预测出的相互作用的残基对的集合,a和b是两 个二进制变量,它们的取值不能同时为1或同时为0, T指示最优口限值。
[0055] 关于所采用的混合整数线性规划方法,可使用各种适合的混合整数线性规划方法 来预测所述膜蛋白中的相互作用的残基对。
[0056] 作为示例,可采用最大化残基相互作用的概率的混合整数线性规划模型来实现本 发明。该方法设及到一些参数的选择,包括PR0B参数,SUBT参数和MXCT参数。其中,PR0B 参数是指模型所采用的概率集(MIN-lN、MIN-2N、AkP和AkT选其一);SUBT参数是指去除 螺旋与螺旋相互作用的个数(通常选0或1) ;MXCT参数是指螺旋m与螺旋n上的相互作用 对的最大个数(通常选1或2)。可将参数选择设置如下;对于a螺旋个数2-5的跨膜蛋 白,使用组合{MIN-2N;MXCT = 2 ;SUBT = 1};对于a螺旋个数为6-8的跨膜蛋白,使用组 合{MIN-2N ;MXCT = 2 ;SUBT = 0};对于a螺旋个数大于10的跨膜蛋白,使用组合{AkT ; MXCT = 2 ;SUBT = 0}。该里,本发明将组合{MIN-2N ;MXCT = 2 ;SUBT = 1}的适用范围进 一步扩大至a螺旋个数2-5的跨膜蛋白。从而,进一步提高上述方法的适用范围。
[0化7] 在步骤S60,输出在步骤S50中预测出的相互作用的残基对W及所述残基对所在 的a螺旋。
[005引根据本发明示例性实施例的预测膜蛋白的残基间的作用关系的方法,将支持向量 机方法和数学优化方法相结合,能够快速、准确地预测膜蛋白的残基间的作用关系,预测得 到的膜蛋白的残基间的作用关系可用于进一步预测膜蛋白的a螺旋间的相互作用关系W 及膜蛋白的S维结构,从而提高预测膜蛋白的a螺旋间的相互作用关系W及膜蛋白的S 维结构的精度和效率。
[0化9] 虽然已表示和描述了本发明的一些示例性实施例,但本领域技术人员应该理解, 在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下,可W对该些 实施例进行修改。
【权利要求】
1. 一种预测膜蛋白的残基间的作用关系的方法,其特征在于,包括: (A) 基于膜蛋白的拓扑结构提取各残基对的特征; (B) 采用支持向量机模型,基于提取的各残基对的特征来预测所述膜蛋白中的相互作 用的残基对; (C) 当在步骤⑶中预测出相互作用的残基对时,输出在步骤⑶中预测出的相互作用 的残基对以及所述残基对所在的a螺旋; (D) 当在步骤(B)中没有预测出相互作用的残基对时,采用混合整数线性规划方法来 预测所述膜蛋白中的相互作用的残基对; (E) 输出在步骤(D)中预测出的相互作用的残基对以及所述残基对所在的a螺旋。
2. 如权利要求1所述的方法,其特征在于,各残基对的特征包括以下项中的至少一项: 残基对的PSSM特征、残基对的各残基在a螺旋中的相对位置特征、残基对的序列间隔特 征、残基对的残基类型特征、残基对所在的膜蛋白的a螺旋个数特征和残基对所在的膜蛋 白的序列长度特征。
3. 如权利要求1所述的方法,其特征在于,所述支持向量机模型通过下述方式训练得 到: 采用径向基核函数对训练集进行"5-折"交叉验证以确定所述支持向量机模型的"代 价"参数和"gamma"参数; 对训练集进行"去一"交叉验证以确定用于筛选相互作用的残基对的最优门限值。
4. 如权利要求1所述的方法,其特征在于,所述方法还包括: 在步骤(A)之前,根据所述膜蛋白的一级结构来确定所述膜蛋白的拓扑结构。
5. 如权利要求1所述的方法,其特征在于,所述膜蛋白是a跨膜蛋白。
6. 如权利要求2所述的方法,其特征在于, 残基对的PSSM特征包括:以残基对中的第一残基和第二残基分别为中心取第一预定 大小的滑动窗口所得到的位置特异性得分矩阵、以及以第一残基和第二残基的中间位置为 中心取第二预定大小的滑动窗口所得到的位置特异性得分矩阵; 残基对的各残基在a螺旋中的相对位置特征为p/1,其中,p为残基对的残基在长度为 1的a螺旋上的相对位置; 残基对的序列间隔特征指示残基对在一级序列中的位置间隔所属的区间; 残基对的残基类型特征指示残基对的各残基的氨基酸类型的组合; 残基对所在的膜蛋白的a螺旋个数特征指示残基对所在的膜蛋白所包含的a螺旋的 个数所属的区间; 残基对所在的膜蛋白的序列长度特征指示残基对所在的膜蛋白的一级序列的长度所 属的区间。
7. 如权利要求6所述的方法,其特征在于,残基对在一级序列中的位置间隔所属的 区间为以下区间之一 :25、25-50、50-75、75-100、100-125、125-150、150-175、175-200 和 >200〇
8. 如权利要求6所述的方法,其特征在于,残基对所在的膜蛋白所包含的a螺旋的个 数所属的区间为以下区间之一 :2-4、5-7、8-10和>10。
9. 如权利要求6所述的方法,其特征在于,残基对所在的膜蛋白的一级序列的长度所 属的区间为以下区间之一:〈100、100-400、400-800和>800。
【文档编号】G06F19/10GK104504299SQ201410841355
【公开日】2015年4月8日 申请日期:2014年12月29日 优先权日:2014年12月29日
【发明者】张慧玲, 魏彦杰, 贝振东 申请人:中国科学院深圳先进技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1