一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法

文档序号:6598926阅读:291来源:国知局
专利名称:一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法
技术领域
本发明涉及的是一种基于机器学习的蛋白质二级结构的工程预测方法,特别涉及
一种将大间隔最近中心点方法与多序列比对特征相结合的方法,属于蛋白质二级结构的工 程预测方法领域。
背景技术
随着人类基因组图谱的公布,以及越来越多动物、植物、微生物的基因组全序列测 定的完成,生物科学进入了 "后基因组时代"。人类将在了解遗传物质DNA全部序列的基础 上研究和认识生命的奥秘,阐明基因编码产物(蛋白质)的功能己成为主要研究目标。一 系列的研究表明,一种蛋白质能够行使其特定的生物功能,是由它特定的结构所决定的。因 此,了解蛋白质的结构是对其功能获得彻底理解的先决条件。尽管采用X-ray晶体衍射和 核磁共振这两种实验方法可以测定蛋白质的三维结构,但由于其都具有周期长、成本高、技 术难度大等缺点,使得采用实验方法测定蛋白质结构的速度远远低于由大规模测序工程生 成的蛋白质序列的速度。为了縮小这一差距,采用理论预测蛋白质结构的方法势在必行。
蛋白质的氨基酸序列决定了它的三级结构,但是直接从氨基酸序列成功地预测蛋 白质三级结构就目前的技术水平而言仍然是一个艰难的任务。于是,本领域技术人员采用 一个折中却非常有效的步骤就是预测蛋白质二级结构,即将蛋白质序列中的每个氨基酸残 基归约为螺旋构象、折叠构象、或是巻曲构象。蛋白质二级结构预测提供的信息,不仅可用 于蛋白质三级结构的从头预测、蛋白质的互作与功能预测、蛋白质的分析和注释,还可以提 高蛋白质折叠识别的敏感性。 自20世纪60年代以来,已经有越来越多的科研人员致力于蛋白质二级结构预 测的研究并提出了各种各样的预测算法。按照算法的基本思想,它们大体上可以分为 三类l.基于规则的预测,包括生物规则、统计规则和组合规则。具有代表性的算法有 Chou-Fasman、Lim和GGBSM等。由于这类方法的预测精度普遍低于70%,目前已极少采用。 2.基于图模型的预测。由于图模型方法,包括隐马尔可夫模型、条件随机场和贝叶斯网等, 能够成功地处理序列数据问题,因此此类方法在蛋白质的二级结构预测中得到了广泛应 用。图模型方法是从生成模型的角度考虑蛋白质二级结构预测问题的。尽管图模型能融入 标签的相关性和长距离信息,但由于蛋白质的二级结构主要是由氨基酸残基间的局部相互 作用决定的,图模型并不适用于蛋白质二级结构的建模,长期的实验表明它们并不能给出 精确的蛋白质二级结构预测。3.基于机器学习的预测,比如神经网络和支持向量机。早期 的机器学习方法主要是基于单序列特征,它们的三态每残基预测精度只有65%左右。直到 1993, Rost和Sander把神经网络方法和多序列比对特征相结合,使得蛋白质二级结构预测 精度突破了70%。随后,Jones通过引入PSSM特征进一步改进了蛋白质二级结构预测精 度。目前,预测精度较好的蛋白质二级结构预测方法都是基于机器学习算法,其中基于集成 神经网络的蛋白质二级结构预测方法的预测精度已经达到了 80%左右。此外,基于支持向量机的预测方法也获得了较好的预测结果。 尽管神经网络或是支持向量机的方法都能获得较高的蛋白质二级结构预测精度, 但是它们都有不可克服的缺点。神经网络具有权值的训练存在局部极小值的风险,训练结 果的好坏显著地依赖初始权值的选择。支持向量机的缺点是训练蛋白质二级结构预测模型 会产生许多支持向量,因此不能快速地预测蛋白质二级结构。

发明内容
本发明的目的是针对现有蛋白质二级结构的预测方法在采用机器学习算法时,存 在的数据权值存在局部极小值、预测效率低的问题,提供了一种基于大间隔最近中心点的 蛋白质二级结构的工程预测方法。 本发明是通过下述方案予以实现的一种基于大间隔最近中心点的蛋白质二级结 构的工程预测方法,采用下列步骤实现 步骤一、下载发布的NCBI nr数据库和PDB格式的蛋白质结构数据,基于PDB格式 的蛋白质结构数据构造非冗余蛋白质二级结构训练数据集; 步骤二、给定目标蛋白质一级序列数据,根据步骤一提供的NCBI nr数据库为目标 蛋白质一级序列中的每个残基构造多序列比对特征向量; 步骤三、基于步骤二中构造的目标蛋白质序列的多序列比对特征向量,调用大间
隔最近中心点算法,获得目标蛋白质的二级结构预测数据, 在步骤三中,所述的大间隔最近中心点算法是通过以下步骤实现的 步骤三 一、基于步骤二中为非冗余蛋白质二级结构训练数据集中的所有残基构
造的多序列比对特征向量,以残基对应的二级结构作为特征向量的标签构造大间隔最近中
心点算法的训练样本集; 步骤三 二、基于步骤三 一构造的训练样本集,利用欧氏距离的K-means聚类算 法确定各类样本的中心点,其中,螺旋类样本、巻曲类样本和折叠类样本对应的K值分别为 3,3禾口 2 ; 步骤三 三、基于步骤三 二确定的各类样本的中心点和给定的初始超参数P , 利用子梯度投影算法,通过最小化目标损失函数求解大间隔最近中心点模型的线性变换矩 阵,其中,目标损失函数形式化为凸半定规划问题。 本发明基于确定的超参数P 、从PDB数据库导出的非冗余蛋白质二级结构训练集 以及多序列比对特征向量构造方法,构造一种基于大间隔最近中心点的蛋白质二级结构预 测系统。 本发明采用大间隔最近中心点算法模型可以形式化为凸半定规划问题,因此参数 求解不存在局部极小值问题。通过引入正则化技术,大间隔最近中心点算法克服了过学习 的问题。此外,本发明的预测模型仅仅基于8个中心点和3个线性变换矩阵,因此可以快速 高效地实现蛋白质二级结构预测。并且8个中心点分别对应二级结构的8种结构定义,因 此,采用本发明所述的方法能够很好地拟合蛋白质氨基酸序列与其空间构象的关系,实现 了快速高效的对蛋白质的二级结构进行预测。


图1是一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法的流程图; 图2是采用大间隔最近中心点算法流程图;图3是构造非冗余蛋白质二级结构训练数据集 的方法流程图;图4是为目标蛋白质一级序列中的每个残基构造多序列比对特征向量的方 法的流程图。
具体实施例方式
具体实施方式
一 下面结合图1、图2具体说明本实施方式。 一种基于大间隔最近 中心点的蛋白质二级结构的工程预测方法,采用下列步骤实现 步骤一、下载发布的NCBI nr数据库和PDB格式的蛋白质结构数据,基于PDB格式 的蛋白质结构数据构造非冗余蛋白质二级结构训练数据集; 步骤二、给定目标蛋白质一级序列数据,根据步骤一提供的NCBI nr数据库为目标 蛋白质一级序列中的每个残基构造多序列比对特征向量; 步骤三、基于步骤二中构造的目标蛋白质序列的多序列比对特征向量,调用大间
隔最近中心点算法,获得目标蛋白质的二级结构预测数据, 在步骤三中,所述的大间隔最近中心点算法是通过以下步骤实现的 步骤三 一、基于步骤二中为非冗余蛋白质二级结构训练数据集中的所有残基构
造的多序列比对特征向量,以残基对应的二级结构作为特征向量的标签构造大间隔最近中
心点算法的训练样本集; 步骤三 二、基于步骤三 一构造的训练样本集,利用欧氏距离的K-means聚类算 法确定各类样本的中心点,其中,螺旋类样本、巻曲类样本和折叠类样本对应的K值分别为 3,3禾口 2 ; 步骤三 三、基于步骤三 二确定的各类样本的中心点和给定的初始超参数P , 利用子梯度投影算法,通过最小化目标损失函数求解大间隔最近中心点模型的线性变换矩 阵,其中,目标损失函数形式化为凸半定规划问题。 本发明基于确定的超参数P 、从PDB数据库导出的非冗余蛋白质二级结构训练集以及 多序列比对特征向量构造方法,构造一种基于大间隔最近中心点的蛋白质二级结构预领孫统。
本发明采用大间隔最近中心点算法模型可以形式化为凸半定规划问题,因此参数 求解不存在局部极小值问题。通过引入正则化技术,大间隔最近中心点算法克服了过学习 的问题。此外,本发明的预测模型仅仅基于8个中心点和3个线性变换矩阵,因此可以快速 高效地实现蛋白质二级结构预测。并且8个中心点分别对应二级结构的8种结构定义,因 此,采用本发明所述的方法能够很好地拟合蛋白质氨基酸序列与其空间构象的关系,实现 了快速高效的对蛋白质的二级结构进行预测。 本发明构建的基于大间隔最近中心点算法模型主要特征包括两方面 —、鉴于蛋白质链氨基端和羧基端的二级结构形成方式与中间的形成方式不同,
使用两个中心点模型一个模拟蛋白质链两端的二级结构形成,一个模型蛋白质链中间的
二级结构形成。 二、基于DSSP定义8种二级结构,构造8个中心点分别对应二级结构的8种结构 定义,其中,螺旋构象中和巻曲构象中分别包括3个中心点,折叠构象中包括2个中心点。
7
本发明构建的基于大间隔最近中心点算法的功能 基于构建的大间隔最近中心点算法模型和目标蛋白质一级序列,预测算法把距离 目标蛋白质一级序列中残基的特征向量最近的中心点对应的蛋白质二级结构指派为目标 蛋白质一级序列中残基的二级结构,作为预测的蛋白质二级结构输出。
步骤三 一中所述的大间隔最近中心点是采用K-means聚类算法进行确定的。
将步骤二中获得的目标蛋白质一级序列中的每个残基构造多序列比对特征向量 与它所属的构象类别构造为训练数据集T,所述的训练数据集T表现形式记{(Xl,yi), (x2, y2) ,. . . , (xN, yN)},其中Xi是特征向量,yi为类别标签,是从1到C的自然数,N是训练数据 集中样本的数目,i是从l到N的自然数,(Xi,yi)为训练样本点。 基于类别标签yi把训练数据集划分为C个子集,采用欧氏距离的K-means聚类算 法分别对每个子集进行聚类,聚类后的聚类中心点作为对应类别的中心点。对于每个聚类, 把它的中心点称为其包含样本的目标中心点。 一个样本的目标中心点,就是在度量学习过 程中应该与其距离最近的中心点,目标中心点是在度量学习之前确定的并在学习过程中保 持不变。 采用K-means聚类算法来确定中心点,计算效率高、易操作。 步骤三 二中所述的大间隔最近中心点模型是指基于步骤三 一中所述的大间隔 最近中心点,学习一个线性变换矩阵L而实现的。 训练数据集T = {(Xl,yi), (x2,y2),... , (xN,yN)}中通过分别对每类的所有中心点 从l进行依次编号,可以用mjk唯一表示一个中心点,其中j G {1,2,...,C}是中心点对应 的类别,kG {l,2,...,nj}是中心点的编号,nj表示第j类样本聚类后的中心点数目。对 于每个聚类,把它的中心点称为其包含样本的目标中心点。 一个样本的目标中心点,就是在 度量学习过程中应该与其距离最近的中心点,目标中心点是在度量学习之前确定的并在学 习过程中保持不变。为了表示目标中心点的信息,为每个训练样本Xi增加一个代表其目标 中心点编号的标签ti。显然,"V,就是Xi的目标中心点。 对于每个训练样本点(Xi,yi) ,L满足公式一的约束对于任意一个不等于yi的j, k为任意值时, 公式一L(x,-wy,)
+ l<||L(x,- )||2 即每个样本点与其目标中心点的距离和它与其它类别中心点的距离应至少保持 一个单位间隔。维持一个单位间隔的目的是为了增加大间隔最近中心点分类的泛化能 力。为了训练大间隔最近中心点模型,引入一个目标损失函数e (L),所述的目标损失函数 e (L)包括两项第一项用来惩罚公式一的边界违背,第二项用来正则化线性变换矩阵L。 其中,线性变换矩阵L使得目标损失函数e (L)最小化 £(L) = S Z Z 1 + |L(X'—附w, )L — |L(X'—附
+ //(tr(L7 L)) = S E Z[1 + (x,— ,_ ,)一(x, _ L'LO'— )丄+ "W"")
,乂", "1 其中,函数[z]+ = maX(Z,0)表示铰链损失。当公式一中的不等式对任意样本Xi 都满足时,所有铰链损失[z]+的值都为0。此时,目标损失函数e (L)达到最小值。
8
因为由线性变换矩阵L表示的目标损失函数e (L)不是凸的,所以在使用梯度法 求解时易陷入局部极小值。为了克服这一问题,引入一个新的矩阵变量M二LTL。可以看出 矩阵M是半正定矩阵。通过用M替换L,可以把目标损失函数e (L)表示为
<formula>formula see original document page 9</formula> 上式中的目标损失函数e (L),是关于矩阵M中元素的分段线性凸函数。为将所 述的目标损失函数e (L)形式化为半正定规划问题,对其进行标准化,定义非负松弛变量 {lijk}来模拟上式中所有铰链损失[z]+的影响。M是半正定矩阵,因此,将目标损失函数 e (M)的最小化形式化为凸半正定规划
最小化SZi;^+Mtr(M》
制约条件为
<formula>formula see original document page 9</formula>
<formula>formula see original document page 9</formula> 对于一些非线性多类决策问题,特征空间的一个全局线性变换可能不足以充分地 改进最近中心点分类方法的预测精度。在这种情形下,对每一个样本类别分别学习一个线 性变换。 多度量大间隔最近中心点分类模型,尝试学习C个线性变换矩阵Lj,理想情况下, 每个样本点(Xi, y》,满足如下条件 公式二 !Ly, (X, - OT别)|〖+1 < (x,— )|; 其中,j为不等于yi的从1到C的自然数,k为任意值,与公式一不同之处在于,公 式二中样本与中心点的距离还依赖于中心点所对应的类别。为了获得满足条件的C个线性 变换矩阵,定义目标损失函数e (Lp . . . , Lc): <formula>formula see original document page 9</formula> 最小化目标损失函数e (Lp . . . , Lc),定义C个半正定矩阵M」=L/Lj,其中j为从 1到C的自然数,定义松弛变量(U,将目标损失函数e (Mj)的最小化形式化为凸半正定 规划最小化<formula>formula see original document page 9</formula>
制约条件为
<formula>formula see original document page 9</formula> 同理,C个线性变换矩阵可以用子梯度投影算法快速地求解,并且不存在局部极小值问题。
线性变换矩阵可以用快速的子梯度算法求解,具体过程如下 在第t次迭代中,令Mt—工为迭代开始时的半正定矩阵,则此时的目标损失函数 e (Mj)为 s(M,—,) = ZZ2[]+(x, -mM)7'Mw(x,- ,■,,)--m》rM,—,(x,- )]+ +/<tr(M,—,》
'勿,"1 上式中,由于Mt—工是分段线性的。定义一个三元组集V、当i、 j、k在U/t范围内 触发铰链损失[z]+,即lijk大于O时,可以计算目标损失函数e (Mt—》的梯度Gt: G, = Z
+ ,d 其中,I为单位矩阵。梯度Gt仅依赖于三元组集U/t。因此,连续两次迭代梯度的 改变仅由 <与11^+1之差决定。因此,基于第t次迭代的梯度Gt快速地计算第t+l次迭代 的梯度Gt+1 :
-ot械)0, _ wM f _ 0, _ m# )0, _ — S [(x,—附w)"—附别)7—0,—
对于小的梯度步长,三元组集Vt在连续两次迭代中的改变很小。因此,上式中的
梯度可以以极快的速度进行计算。 完成梯度Gt的计算后,目标损失函数e (Mj)应沿着子梯度方向下降一步。即根据 梯度步长a ,参数矩阵Mt—工应作如下更新
M' t = Mt—「aGt 为了保证更新后的参数矩阵是半正定矩阵,将M' t对角化。用M' t二PApT表示 M' t的特征分解,其中P是特征向量的正交矩阵,A是以对应的特征值为对角元素的对角 矩阵。将A中所有负特征值都变为O,可以得到一个新的对角矩阵A+, A+ = max(A,0)。 则M' t到半正定锥投影为Mt,Mt = PA+PT。 在实际求解过程中,用子梯度投影算法直接对其进行最小化运算,当梯度步长足 够小时,子梯度投影算法能够收敛到正确解。因此,大间隔最近中心点算法不会陷入局部极 小值。根据收敛时的半正定矩阵Mt = PA+pT,可以获得线性变换矩阵L :L = PT(A+)1/2。
具体实施方式
二 本实施方式是对具体实施方式
一中所述的一种基于大间隔最近 中心点的蛋白质二级结构的工程预测方法的进一步说明,步骤三 三中所述的初始超参数 P取值范围为0、0. 1、1、5、10或20,超参数i!在所述范围内的最优值是采用RS126非冗余
数据集来快速确定的。 由于从步骤一所述的PDB数据库导出的PDB数据训练集包含相当多的蛋白质链, 所述的PDB数据训练集的子梯度投影算法需要较长的时间才能收敛。因此,采用RS126非 冗余数据集来快速地确定超参数P,本实施方式中所述的超参数P是被用于正则化线性 变换矩阵。选取适合的超参数P可以防止过学习,避免学习的模型过分拟合训练数据。
具体实施方式
三下面结合图3具体说明本实施方式。本实施方式是对具体实施 方式一所述的一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法的进一步限 定,在步骤一中,构造非冗余蛋白质二级结构训练数据集是采用下列步骤实现的
步骤---、基于PDB数据库中发布的由X-ray晶体衍射测定的PDB格式的蛋白
质结构数据,应用DSSP程序将所述的PDB格式的蛋白质结构数据转化为DSSP格式的数据 文件; 步骤一 二、基于DSSP格式的定义把DSSP格式的数据文件转化为FASTA格式的 蛋白质序列数据文件。同时,将DSSP定义的8种二级结构归约为3类,其中,将H构象、G构 象、I构象归约为H构象,即螺旋类构象,将B构象、E构象归约为E构象,即折叠类构象,将 T构象、S构象、-构象归约为C构象,即巻曲类构象; 步骤一 三、调用序列一致性阈值为0. 4的CD-HIT算法,将步骤一 二中得到的
FASTA格式的蛋白质序列数据文件中冗余性蛋白质序列数据文件删除; 步骤一 四、调用Needleman-Wunsch算法对步骤一 三中所述的删除冗余性蛋白
质序列数据文件后的蛋白质序列数据文件两两进行比对,对序列一致性大于30%的两个蛋
白质链,只保留其中的一个,构造非冗余蛋白质二级结构训练数据集。 本实施方式中,所述的DSSP定义的8种二级结构是根据氢键模式来指定的,一 般是用单一英文字母来描述。其中,H是alpha helix简称、G是3whelix的简称、I是pi helix的简称、E是beta strand的简称、B是isolated beta-bridge的简称、T是turn的 简称、S是bend的简称、一是rest的简称。 蛋白质是由20种氨基酸组成的,然而由于许多可能的氨基酸片段组成从不出现 在蛋白质氨基酸的序列中,因此,PDB数据库中的蛋白质氨基酸序列含有高度的冗余性。而 且,许多蛋白质链间的序列一致性可以达到80%以上。由于蛋白质的氨基酸序列决定了蛋 白质二级结构序列,因此,蛋白质二级结构训练数据集应包含多样性的非冗余氨基酸序列。
具体实施方式
四下面结合图4具体说明本实施方式。本实施方式是对实施方式 一所述的一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法的进一步限定,在 步骤二中,基于NCBI nr数据库,为目标蛋白质一级序列中的每个残基构造多序列比对特征 向量是采用下列步骤实现的 步骤二 *一、调用pfilt程序,对步骤一中得到的NCBI nr数据库中的FASTA格式 的蛋白质序列数据进行过滤; 步骤二 二、调用formatdb程序,将步骤二 一中得到的过滤后的蛋白质序列数 据进行格式化,生成用于PSI-BLAST多序列比对的索引和数据文件; 步骤二 *三、调用3次迭代的blastpgp程序,将目标蛋白质一级序列与步骤二 *二 中得到的格式化后的NCBI nr数据库中的数据文件进行PSI-BLAST多序列比对,生成一个 二进制检查点文件; 步骤二 四、调用makemat程序,将二 三中得到的二进制检查点文件进行处理, 获得一个NX 20的矩阵,将所述的NX 20的矩阵中所有元素除以1000,获得的矩阵中的行向 量对应为目标蛋白质一级序列的残基,其中,N为目标蛋白质一级序列的长度;
步骤二 五、用长为13个残基的滑动窗口扫描目标蛋白质一级序列,将所述的窗
口中每个残基在矩阵中对应的行向量依次结合,为目标蛋白质一级序列中的每个残基构造 一个由260个元素构成的特征向量。 采用本实施方式所述的方法可以实现多序列比对特征的构造。 在步骤二 一中,调用pfilt程序对NCBI nr数据库中的FASTA格式的蛋白质序
11列数据进行过滤,能够删除低复杂性区域、跨膜区域和巻曲-巻曲片段。 在步骤二 ,五中,对于滑动窗口中没有对应残基的位置,用全零的元素表示其对应 的行向量。滑动窗口中心残基的二级结构就是其对应的多序列比对特征的标签,因此,给定 蛋白质一级序列中的每个残基都对应一个多序列比对特征向量。
具体实施方式
五本实施方式是对实施方式一所述的一种基于大间隔最近中心点 的蛋白质二级结构的工程预测方法的进一步限定,在步骤三中还包括以下步骤根据已知 的蛋白质二级结构数据,采用评估准则评判步骤三中得到的蛋白质二级结构预测数据的预 测可信度。
具体实施方式
六本实施方式是对实施方式五所述的一种基于大间隔最近中心点 的蛋白质二级结构的工程预测方法的进一步限定,所述的评估准则是采用三态单残基精度 计算的方式实现的, 三态单残基精度Q3可表示为
a = fx 100 其中,V是待预测残基序列中被正确预测的残基数目,U是待预测残基序列的残基 数目, 待预测序列属于H构象、E构象或C构象,单类型的三态单残基精度分别用QH、 QE 和Qv表示, Q=#xl00 其中,、是待预测序列中被正确预测的处于i构象的残基数目,"是待预测序列 中处于i构象的残基数目,i属于H构象、E构象或C构象。 本发明采用三态单残基精度Q3作为评价准则进行计算,蛋白质二级结构的工程预 测方法的预测精度可以达到了 80%以上。
具体实施方式
七本实施方式是对实施方式五所述的一种基于大间隔最近中心点
的蛋白质二级结构的工程预测方法的进一步限定,所述的评估准则是采用Matthews相关
系数计算的方式实现的, Matthews相关系数为
L」'如,+",)(A+o,)(",+"')(",+o') 其中,Pi是实际处于i构象且被正确预测为i构象的氨基酸残基数目,&是实际 不处于i构象且被正确预测为非i构象的氨基酸残基数目,Ui是实际处于i构象但未被预 测为i构象的氨基酸残基数目,Oi是实际不处于i构象但被错误地预测为i构象的氨基酸 残基数目,i属于H构象、E构象或C构象。 本实施方式中,对于任何一个给定的待评估预测结果,Pi与Ui之和、&与0i之和 均为常数,并且Ri的取值范围是从-1到l,Ri越大,预测的结果越好。当所有的构象都被正 确预测时,Ui和Oi为0,Ri为1。
具体实施方式
八本实施方式是对实施方式五所述的一种基于大间隔最近中心点 的蛋白质二级结构的工程预测方法的进一步限定,所述的评估准则是采用片段重叠度量的 方式实现的,
12
S(O = h n s2 # 0且、和^都处于/构象}
S'(O =化I对任意^,s, n& = 0且^和&都处于/构象} 其中,^为目标蛋白质的二级结构序列上的片段,82为预测蛋白质的二级结构序 列上的片段,(Sl,s2)为一个重叠的二级结构片段对,S(i)为处于i构象的重叠二级结构片 段对的集合,S' (i)为处于i构象且不和任意&片段重叠的A片段的集合,i属于H构 象、E构象或C构象, &v,=100x~^
r(/)
minov(A, s2) + S(s,, s2) maxov(A, 52)
7X0 = J] /e— ) + J] /e"(X ) S (s丄,s2) = min {(maxov (s丄,s2)-minov (s丄,s2)) ;minov (s丄,s2) ;int (len (s》/2); int(len(s2)/2)} 其中,SoVi为i构象的片段重叠度量,len(Sl)为片段Sl上的氨基酸残基数, min0V(Sl,S2)为片段81与片段S2的实际重叠长度,maxov(^,S2)为片段Sl与片段s2的总 扩展长度,T(i)为归一化因子,
1 z 2minov(^,A) + 5(5^2) ■5bv = 100x
maxov(A, ) 其中,
r= Z r(/),
Sov为总体三态的片段重叠度j具体实施方式
六至具体实施方式
八所述的三种蛋白质二级结构评估方法是目前
国际上比较通用的评估准则,基于已知的蛋白质二级结构数据,采用评估准则可以让用户 了解本发明的预测可信度。
1权利要求
一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法,其特征是采用下列步骤实现步骤一、下载发布的NCBI nr数据库和PDB格式的蛋白质结构数据,基于PDB格式的蛋白质结构数据构造非冗余蛋白质二级结构训练数据集;步骤二、给定目标蛋白质一级序列数据,根据步骤一提供的NCBI nr数据库为目标蛋白质一级序列中的每个残基构造多序列比对特征向量;步骤三、基于步骤二中构造的目标蛋白质序列的多序列比对特征向量,调用大间隔最近中心点算法,获得目标蛋白质的二级结构预测数据,在步骤三中,所述的大间隔最近中心点算法是通过以下步骤实现的步骤三·一、基于步骤二中为非冗余蛋白质二级结构训练数据集中的所有残基构造的多序列比对特征向量,以残基对应的二级结构作为特征向量的标签构造大间隔最近中心点算法的训练样本集;步骤三·二、基于步骤三·一构造的训练样本集,利用欧氏距离的K-means聚类算法确定各类样本的中心点,其中,螺旋类样本、卷曲类样本和折叠类样本对应的K值分别为3,3和2;步骤三·三、基于步骤三·二确定的各类样本的中心点和给定的初始超参数μ,利用子梯度投影算法,通过最小化目标损失函数求解大间隔最近中心点模型的线性变换矩阵,其中,目标损失函数形式化为凸半定规划问题。
2. 根据权利要求1所述的一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法,其特征是步骤三,三中所述的初始超参数P取值范围为0、0. 1、1、5、10或20,超参数P在所述范围内的最优值是采用RS126非冗余数据集来快速确定的。
3. 根据权利要求1所述的一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法,其特征是在步骤一中,构造非冗余蛋白质二级结构训练数据集是采用下列步骤实现的步骤---、基于PDB数据库中发布的由X-ray晶体衍射测定的PDB格式的蛋白质结构数据,应用DSSP程序将所述的PDB格式的蛋白质结构数据转化为DSSP格式的数据文件;步骤一 二、基于DSSP格式的定义把DSSP格式的数据文件转化为FASTA格式的蛋白质序列数据文件;同时,将DSSP定义的8种二级结构归约为3类,其中,将H构象、G构象、I构象归约为H构象,即螺旋类构象,将B构象、E构象归约为E构象,即折叠类构象,将T构象、S构象、-构象归约为C构象,即巻曲类构象;步骤一 *三、调用序列一致性阈值为0. 4的CD-HIT算法,将步骤一 .二中得到的FASTA格式的蛋白质序列数据文件中冗余性蛋白质序列数据文件删除;步骤一 四、调用Needleman-W皿sch算法对步骤一 三中所述的删除冗余性蛋白质序列数据文件后的蛋白质序列数据文件两两进行比对,对序列一致性大于30%的两个蛋白质链,只保留其中的一个,构造非冗余蛋白质二级结构训练数据集。
4. 根据权利要求1所述的一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法,其特征是在步骤二中,基于NCBI nr数据库,为目标蛋白质一级序列中的每个残基构造多序列比对特征向量是采用下列步骤实现的步骤二 *一、调用pfilt程序,对步骤一中得到的NCBI nr数据库中的FASTA格式的蛋白质序列数据进行过滤;步骤二 二、调用formatdb程序,将步骤二 一中得到的过滤后的蛋白质序列数据进行格式化,生成用于PSI-BLAST多序列比对的索引和数据文件;步骤二 三、调用3次迭代的blastpgp程序,将目标蛋白质一级序列与步骤二 二中得到的格式化后的NCBI nr数据库中的数据文件进行PSI-BLAST多序列比对,生成一个二进制检查点文件;步骤二 四、调用makemat程序,将二 三中得到的二进制检查点文件进行处理,获得一个NX20的矩阵,将所述的NX20的矩阵中所有元素除以1000,获得的矩阵中的行向量对应为目标蛋白质一级序列的残基,其中,N为目标蛋白质一级序列的长度;步骤二 五、用长为13个残基的滑动窗口扫描目标蛋白质一级序列,将所述的窗口中每个残基在矩阵中对应的行向量依次结合,为目标蛋白质一级序列中的每个残基构造一个由260个元素构成的特征向量。
5. 根据权利要求1所述的一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法,其特征是在步骤三中还包括以下步骤根据已知的蛋白质二级结构数据,采用评估准则评判步骤三中得到的蛋白质二级结构预测数据的预测可信度。
6. 根据权利要求5所述的一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法,其特征是所述的评估准则是采用三态单残基精度计算的方式实现的,三态单残基精度Q3可表示为其中,v是待预测残基序列中被正确预测的残基数目,u是待预测残基序列的残基数目,待预测序列属于H构象、E构象或C构象,单类型的三态单残基精度分别用QH、 QE和Qv表示,<formula>formula see original document page 3</formula>",其中,、是待预测序列中被正确预测的处于i构象的残基数目,Ui是待预测序列中处于i构象的残基数目,i属于H构象、E构象或C构象。
7. 根据权利要求5所述的一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法,其特征是所述的评估准则是采用Matthews相关系数计算的方式实现的,Matthews相关系数为<formula>formula see original document page 3</formula>其中,Pi是实际处于i构象且被正确预测为i构象的氨基酸残基数目,&是实际不处于i构象且被正确预测为非i构象的氨基酸残基数目,Ui是实际处于i构象但未被预测为i构象的氨基酸残基数目,0i是实际不处于i构象但被错误地预测为i构象的氨基酸残基数目,i属于H构象、E构象或C构象。
8. 根据权利要求5所述的一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法,其特征是所述的评估准则是采用片段重叠度量的方式实现的,<formula>formula see original document page 4</formula>0且^和s2都处于/构象}<formula>formula see original document page 4</formula>^和^都处于/构象}其中,81为目标蛋白质的二级结构序列上的片段,82为预测蛋白质的二级结构序列上的片段,(Sl,s2)为一个重叠的二级结构片段对,S(i)为处于i构象的重叠二级结构片段对的集合,S' (i)为处于i构象且不和任意s2片段重叠的Sl片段的集合,i属于H构象、E构象或C构象,<formula>formula see original document page 4</formula>其中,SoVi为i构象的片段重叠度量,len(s》为片段Sl上的氨基酸残基数,minov(sps2)为片段Sl与片段s2的实际重叠长度,maxov(s"s》为片段Sl与片段s2的总扩展长度,T(i)为归一化因子, <formula>formula see original document page 4</formula>其中7= Z T①,Sov为总体三态的片段重叠度量
全文摘要
一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法,属于蛋白质二级结构的工程预测方法领域,解决了现有蛋白质二级结构的预测方法在采用机器学习算法时,存在的数据权值存在局部极小值、预测效率低的问题。本发明所述的蛋白质二级预测方法是首先基于PDB数据库构造非冗余蛋白质二级结构训练数据集,然后基于NCBI nr数据库为目标蛋白质链构造多序列比对特征,最后调用大间隔最近中心点算法来构建蛋白质二级结构预测模型。所述的大间隔最近中心点算法利用欧氏距离的K-means聚类算法确定每类样本的中心点,通过最小化目标损失函数学习输入空间的线性变换。本发明实现了快速、高效率、高精度的蛋白质二级结构预测,适用于蛋白质的二级结构预测。
文档编号G06F17/30GK101794351SQ201010120350
公开日2010年8月4日 申请日期2010年3月9日 优先权日2010年3月9日
发明者左旺孟, 张宏志, 杨伟, 王宽全, 袁永峰 申请人:哈尔滨工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1