一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法与流程

文档序号:16848221发布日期:2019-02-12 22:30阅读:243来源:国知局
一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法与流程

本发明涉及一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,是针对非平衡分类模式下,利用集成学习分类模型识别锌结合蛋白质作用位点,属于蛋白质组学与计算机科学的交叉领域。



背景技术:

随着人类基因组计划的完成,生命科学进入了后基因组时代,基因所表达的蛋白质成为生命科学和自然科学领域重要的研究课题之一。蛋白质(protein)是构成细胞的基本有机物,是生命的物质基础,在生物生命过程中起着决定性作用。然而,这种决定性作用不是简单的由单个蛋白质就能决定的,绝大部分情况下,需要由蛋白质与其他蛋白质或者配体共同相互作用来完成特定的生物学功能。

在细胞中,蛋白质作为生命活动的体现者和承担者,通过与配体相互作用完成特定的关键性作用,比如dna合成、信号传导、基因转录激活、生命代谢过程、病毒防护等。其次,蛋白质作用在各种疾病的治疗方面也具有极大的推进作用,特别是一些病毒蛋白的侵扰,比如埃博拉病毒(ebolavirus),它能揭示某些疾病的发病机理,寻找某些药物的靶点和新药研发具有指导作用。

金属离子作为辅因子与蛋白质结合,对蛋白质发挥其生物学功能甚至一些生命过程起着决定性的作用。锌离子作为生物体中第二丰富的金属离子,仅次于铁,对生物体的生长发育、疾病控制、dna合成等具有重要的调控作用。锌离子缺乏会导致一些疾病,如年龄相关的退役性疾病,恶性肿瘤和wilson病。另外,锌对衰老、凋亡、免疫功能和氧化应激也具有重要作用。锌离子与蛋白质结合才行使催化、稳定结构和协调等生物学功能。

对锌结合蛋白质作用位点的识别主要采用的是生化实验方法。这些实验方法虽能测定蛋白质与锌离子间的相互作用位点,但由于实验测定成本太高,费时费力;而且,由于实验需要不同的限制条件,采用不同的实验原理,这样会使实验结果具有一定的假阴性和假阳性。因此,单纯依靠实验技术和手段发现这些数据的生物学意义已经远远不能满足生物学发展的需要。

随着信息技术的发展和海量生物数据的出现,利用一些计算方法如数据挖掘技术及机器学习相关算法自动识别锌结合蛋白质作用位点是一种发展的必然趋势。它具有成本低、速度快等优点,能弥补实验的缺陷,并进一步为代价高昂的生物实验测定相互作用提供直接的支撑和引领。

锌离子结合蛋白质作用位点预测是一个二分类问题,真正结合的作用位点很少,不结合的作用位点占比很高,锌结合蛋白质作用位点预测是一个典型的非平衡分类问题。目前已有的预测方法采用数据挖掘等方法建立分类模型,将两类样本同等对待,没有考虑到数据的不平衡性,致使锌结合蛋白质作用位点预测的精度很低。因此,研究锌结合蛋白质作用位点预测中的非平衡性,提高少数类的分类精确度具有重要的研究意义。



技术实现要素:

本发明的目的是针对锌结合蛋白质作用位点预测中的非平衡性分类问题,提供一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法。

为了解决上述技术问题,本发明采取的技术方案如下:

一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,包括如下步骤:

步骤一:针对锌结合蛋白质作用位点的特点,对蛋白质源数据进行预处理;

步骤二:借助随机下采样技术对锌结合蛋白质作用位点的非平衡性进行平衡化处理,得到若干个子平衡数据集;

步骤三:分别在若干个子平衡数据集上,选取有可区分性的蛋白质生化特征,进行特征表示,组成特征向量;

步骤四:分别把特征向量作为基分类器支持向量机的输入,计算样本权重,再构建基于样本加权的概率神经网络模型,最后整合基分类模型支持向量机和基于样本加权的概率神经网络模型得到预测模型;

步骤五:采用步骤四得到预测模型对目标样品中的锌结合蛋白质作用位点进行识别。

其中,步骤一中,所述预处理去除如下噪声数据:

(1)去除同源性高于70%的肽链结构;

(2)剔除重复的,较短的蛋白质链以及错误和不可靠的数据;

(3)去除满足序列冗余小于20%的链。

步骤二中,所述平衡化处理为随机下采样技术为对大类样本进行随机下抽样,每次抽取与小类样本相同的数量,构成若干子平衡数据集;所述大类样本为非结合的蛋白质作用位点,所述小类样本为锌结合的蛋白质作用位点。

步骤三中,所述可区分性的生化特征包括特征位置特异性得分矩阵、保守性得分和rw-grmtp(relativeweightofgaplessrealmatchestopseudocounts无间隙实匹配伪距的相对权重);对位置特异性得分矩阵进行归一化处理,并采用直方图和滑动窗口处理,得到一个20维的向量;把20维的保守性得分转换成一个值;对rw-grmtp进行归一化处理,得到一个2维向量;最终形成一个23维的特征向量。

步骤四中,在若干个子平衡数据集上分别训练基分类器svm支持向量机,根据式(1)和式(2)分别计算预测误差率ej和分类模型的重要程序权重αj;

其中,全体数据集为d,d={(x1,y1),(x2,y2),…,(xn,yn)},xi∈x,x代表分类问题的类域实例空间,yi∈{1,-1},i=1,2,…n,n是样本数;wmi为权重,初始值设为1/n,即w1=(w11,w12,...,w1n),其中w1i=1/n;i=1,2,…,n;m=1,2;在k个平衡数据集上分别使用基分类器svm进行训练,得到k个分类预测结果csvm_j(x),j=1,…,k。

计算当前样本权重并进行归一化处理,样本分类正确,减少相应的样本权值;若样本分类错误,增加相应的样本权值,计算公式如式(3):

构建基于样本加权的概率神经网络模型为对蛋白质特征数据进行加权,加权后的样本数据作为概率神经网络模型的输入,使用概率神经网络进行预测,该方法记作swpnn,预测结果为swpnn(x)。

整合基分类模型支持向量机和基于样本加权的概率神经网络模型得到预测模型sswpnn,sswpnn={svm,swpnn,kernelopt,spread,f},其中kernelopt,spread分别是svm和swpnn分类器的参数,f的定义如式(4)所示;同时根据错误率计算相应的权重βj;

其中,δ为阈值,csvm_j(x)和swpnn(x)分别是分类器svm和swpnn的分类结果,其值大于0,则预测为正类样本,小于0则预测为负类样本。若svm(x)的值为正且小于阈值δ,且swpnn(x)预测为反例时,最终集成预测结果判断为反例,其他情况下,以svm(x)结果为最终判断的结果。

步骤五中,在整个测试数据集上分别利用集成模型sswpnn进行预测,得出不同的分类结果,再对结果进行加权集成,最终识别出目标样品中锌结合蛋白质作用位点,如式(5)所示:

有益效果:

本发明所提的方法从机器学习的角度出发,针对非平衡模式下锌结合蛋白质作用位点的识别问题,提出了一种新颖的基于集成学习的锌结合蛋白质作用位点预测方法,有效解决了非平衡分类模式下锌结合蛋白质作用位点的预测,取得了一定的预测准确率。本发明经过扩展后,可以应用到其它类型金属离子结合蛋白质作用位点的预测识别。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明方法的总体框架图。

图2是基于svm和swpnn模型的锌结合蛋白质作用位点分类器框架图。

图3是sswpnn分类器的预测过程图。

具体实施方式

根据下述实施例,可以更好地理解本发明。

本发明的总体流程如图1所示。

本发明针对不平衡数据集下的锌结合蛋白质作用位点预测问题,使用向下采样技术对数据进行平衡化,使数据趋于稳定。利用集成技术构建基于支持向量机和样本加权的概率神经网络分类器模型,并使用模型对锌结合蛋白质作用位点进行分类识别。具体实施步骤如下:

1.平衡化处理

把锌结合的蛋白质作用位点称为小类样本(负类样本);非结合的蛋白质作用位点称为大类样本(正类样本)。对大类样本进行随机无放回下抽样,同时为了避免随机下采样可能会造成大类样本有用信息的丢失,采取数据全集上多重无放回抽样。对大类样本进行随机无放回下抽样,每次抽取与小类样本相同的数量,即把大类样本分成k个子集,每个子集和小类样本合成平衡数据集d1,d2,…,dk。其过程可用算法1描述:

算法1:数据平衡化处理算法

输入:蛋白质序列样本数据d

输出:子平衡数据集d1,d2,…,dk

1begin;

2divide(d);

3n=countup(minoritysample);

4for(i=1;i<=k;i++);

5extractedsamplei=randomextract(majoritysample,n);

6di=merge(minoritysample,extractedsamplei);

7majoritysample=majoritysample-extractedsamplei;

8endfor;

9end。

2.属性特征表示

选取有可区分性的生化特征:位置特异性得分矩阵,保守性得分和rw-grmtp(relativeweightofgaplessrealmatchestopseudocounts),进行特征表示,组成特征向量集。对位置特异性得分矩阵进行归一化处理,并采用直方图和滑动窗口处理,得到一个20维的向量;把20维的保守性得分转换成一个值;对rw-grmtp进行归一化处理,得到一个2维向量;最终形成一个23维的特征向量。

3.集成支持向量机和样本加权的概率神经网络模型

利用基分类器支持向量机进行训练,根据分类结果,对样本进行加权,对一些处于边界处容易分错的“难分样本”,训练基于加权的概率神经网络模型。

设全体数据集为d,d={(x1,y1),(x2,y2),…,(xn,yn)},xi∈x,x代表分类问题的类域实例空间,yi∈{1,-1},i=1,2,…n,n是样本数。过程为:

step1:在若干个子平衡数据集上分别训练svm分类器;

在k个子平衡数据集上分别使用基分类器svm进行训练,采用5-折叠交叉验证,得到k个分类预测结果csvm_j(x),j=1,…,k。预测的误差率记为ej,分类模型的重要程度权重为αj,计算如式(1)和(2)。式(1)中,wmi为权重,初始值设为1/n,即w1=(w11,w12,...,w1n),其中w1i=1/n;i=1,2,…,n;m=1,2。

step2:计算当前样本权重并进行归一化处理;

在第一轮基分类器svm预测后,如果某个样本分类正确,那么在下一轮预测中,降低它的权重;相反,如果某个样本分类错误,下一轮预测中,提高他的权重。样本权重函数的计算如公式(3):

step3:训练基于样本加权的pnn预测器swpnn;

使用step2中计算出的权重对特征样本数据进行加权,训练基于加权的概率神经网络模型,提出的方法记作swpnn,预测结果为swpnn(x)。基于svm和swpnn模型的锌结合作用位点分类器框架如图2所示。

step4:整合基分类模型svm和样本加权的swpnn分类器;

集成基分类器svm和样本加权的概率神经网络模型,提出一种新的预测方法sswpnn,即sswpnn={svm,swpnn,kernelopt,spread,f},其中kernelopt,spread分别是svm和swpnn分类器的参数,f的定义如式(4)所示。同时根据错误率计算相应的权重βj(该基本分类器在在最终分类器中的权重)。

其中δ为阈值,csvm_j(x)和swpnn(x)分别是分类器svm和swpnn的分类结果,其值大于0,则预测为正类样本,小于0则预测为负类样本。若svm(x)的值为正且比较小,小于阈值δ,且swpnn(x)预测为反例时,最终集成预测结果判断为反例,其他情况下,以svm(x)结果为最终判断的结果。

step5:在整个数据集上分别利用step4中的集成模型sswpnn进行预测,得出不同的分类结果,再对结果利用式(5)进行加权集成,最终识别出锌结合蛋白质作用位点。框架模型如图3所示。

在392条蛋白质链的数据集上进行测试,并与现有四种方法(meta-zincprediction、zincexplorer、zincfinder、zincpred)进行性能比较,不论是对四种残基(ched)的整体预测性能,还是其中任一残基的预测性能,本发明的方法都优于其他方法。

本发明提供了一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1