基于优化证据理论的K最近邻预测alpha螺旋的方法

文档序号:8223798阅读:410来源:国知局
基于优化证据理论的K最近邻预测alpha螺旋的方法
【技术领域】
[0001] 本发明涉及的是一种生物信息学及模式识别领域的技术,具体是一种基于优化证 据理论的K最近邻算法,适用于预测alpha螺旋的蛋白质结构。
【背景技术】
[0002] 近些年,随着生物信息学的迅速发展,大量的生物数据与计算机科学相结合进行 研究和分析,掲示更多生物数据所赋有的生命科学机理,其中,蛋白质作为生物信息的重要 组成部分,不断扩展的蛋白质数据库极大推动科学家对蛋白质结构和功能的研究。蛋白质 的功能往往由其特定的结构所决定,因此研究蛋白质结构有着举足轻重的作用。当前蛋白 质数据库中由实验解得蛋白质结构占绝大多数,但膜蛋白具有较强的疏水性不易结晶且结 构复杂,所W实验的方法难W解决。随着模式识别在生物信息学方面的应用,利用计算的方 法预测蛋白质结构可W更加快速、准确。
[0003] 膜蛋白alpha螺旋是一段嵌入生物膜的螺旋片段,W跨膜区域为界限,该种跨膜 片段通常被称为alpha螺旋结构。通常alpha螺旋具有疏水特性,因此早期的预测方法主 要是利用氨基酸疏水值及物理化学性质,预测准确性较低,之后一些基于统计的方法应运 而生,但单纯的统计方法不足W解决不规则alpha螺旋的特殊结构,随着近些年模式识别 方法的发展而得到了很好的应用。
[0004] 目前的方法大多只能针对常规长度的氨基酸序列进行预测,比如TOP - PR邸方 法(Claros MG, von Heijne TopPred II :An improved software for membrane protein struc1:ure predictions. Comput Appl Biosci 10:685 - 686.)只能够预测的 alpha 螺旋 结构长度在21个残基左右的蛋白质序列;另一种基于隐马尔科夫模型的方法TMHMM(Kro曲 A, Larsson B,von Heijne G, Sonnhammer EL(2001)Predicting tansmembrane protein topology with a hidden Markov model :application to complete genomes. J Mol Biol 305 ;567 - 580.)不能够预测序列长度小于16个残基或大于35个残基的情况;SISUI方法 (Hirokawa T, Boon -Chieng S, Mitaku, SOSUI :classification and secondary structure prediction system for membrane proteins. Bioinformatics) 14 :378 - 379.)不會長够预 测alpha螺旋长度大于25个残基的氨基酸序列,目前该些方法局限于长度区间在15至25 个残基的规则alpha螺旋结构,而且不能由于膜蛋白不仅结构复杂而且疏水性强,对于普 遍存在的alpha螺旋长度小于15或大于25个残基的蛋白质序列不具适应性。

【发明内容】

[0005] 本发明针对现有技术存在的上述不足,提出一种基于优化证据理论的K最近邻预 巧IJ alpha螺旋的方法,针对不同长度的alpha螺旋具有普遍适用性,利用动态阔值能够降低 分类错误率和多条alpha螺旋误合并现象。
[0006] 本发明是通过W下技术方案实现的,本发明将待测目标蛋白质序列用两种不同大 小的滑动窗口提取特征向量,然后进行融合优化,将合并后的特征向量用0ET -KNN(优化证 据理论 KNN 最近邻(Optimized evidence-theoretic K-nearest nei 曲 bor)预测算法进 行分类,得到氨基酸序列预测概率预测曲线,利用中值滤波的方法进行平滑,再用动态阔值 分割得到目标序列中每个氨基酸是否属于alpha螺旋的结果,本发明具体包括W下步骤: [0007] 步骤1)根据蛋白质序列从SWISS -PR0T蛋白质数据库中进行搜索,得到目标氨基 酸序列;
[000引步骤。特征提取;将待测蛋白质序列在SWISS - PR0T蛋白质数据库中进行搜索, 通过 PSI -BLAST 序列比对工具获取 PSSM(Position-specific scoring matrix,特异性位 置打分矩阵),PSSM中包含蛋白质序列的进化信息,因此将其作为蛋白质序列的特征;
[0009] 所述的PSSM由N行20列的矩阵组成,N代表氨基酸序列的长度,20表示氨基酸种 类,PSSM矩阵中的每个元素值表示序列中第i个氨基酸在进化过程中被第j种类的氨基酸 所替代的打分值。该分值通过SWISS - PR0T蛋白质数据库进行序列比对得到。
[0010] 步骤3)滑动窗口提取特征;根据数据集统计得到alpha螺旋的平均长度,将提取 的PSSM矩阵分别W两种滑动窗口提取特征向量,最后将特征向量进行融合;
[0011] 所述的滑动窗口提取特征的方法,既可W考虑相邻氨基酸之间的局部邻域特征又 可W包含序列信息,但窗口大小的选择上,窗口过大不能准确预测结构末端而且容易包含 噪声影响,过小不能包含氨基酸邻域信息,因此根据统计的方法选取合适的特征提取方法, 然后进行融合可W提高预测精度;所述的滑动窗口的大小优选为13和15。
[0012] 步骤4)信号平滑;对步骤3中得到的融合后的特征向量采用0ET - KNN预测算法 进行分类,得到氨基酸序列预测概率预测曲线,对该预测概率预测曲线采用中值滤波进行 平滑W消除毛刺;
[0013] 步骤5)动态阔值;采用动态阔值的分类方式得到目标序列中每个氨基酸是否属 于alpha螺旋跨膜结构的划分结果。
[0014] 所述的分类,具体通过0ET -KNN (优化证据理论的K最近邻算法)计算得到,其步 骤如下:
[0015] 1)对于膜蛋白的氨基酸序列中每个残基用i表示,对每个残 基是否归类于于跨膜al地a螺旋结构的属性表示为因此由表达式:
【主权项】
1. 一种基于优化证据理论的K最近邻预测alpha螺旋的方法,其特征在于,将待测目标 蛋白质序列用两种不同大小的滑动窗口提取特征向量,然后进行融合优化,将合并后的特 征向量用OET - KNN预测算法进行分类,得到氨基酸序列预测概率预测曲线,利用中值滤波 的方法进行平滑,再用动态阈值分割得到目标序列中每个氨基酸是否属于alpha螺旋的结 果。
2. 根据权利要求1所述的方法,其特征是,所述方法具体包括以下步骤: 步骤1)根据蛋白质序列从SWISS -PROT蛋白质数据库中进行搜索,得到目标氨基酸序 列; 步骤2)特征提取:将待测蛋白质序列在SWISS - PROT蛋白质数据库中进行搜索,通过 PSI - BLAST序列比对工具获取作为蛋白质序列的特征的PSSM ; 步骤3)滑动窗口提取特征:根据数据集统计得到alpha螺旋的平均长度,将提取的 PSSM矩阵分别以两种滑动窗口提取特征向量,最后将特征向量进行融合; 步骤4)信号平滑:对步骤3中得到的融合后的特征向量采用OET - KNN预测算法进行 分类,得到氨基酸序列预测概率预测曲线,对该预测概率预测曲线采用中值滤波进行平滑 以消除毛刺; 步骤5)动态阈值:采用动态阈值的分类方式得到目标序列中每个氨基酸是否属于 alpha螺旋跨膜结构的划分结果。
3. 根据权利要求2所述的方法,其特征是,所述的PSSM由N行20列的矩阵组成,N代 表氨基酸序列的长度,20表示氨基酸种类,PSSM矩阵中的每个元素值表示序列中第i个氨 基酸在进化过程中被第j种类的氨基酸所替代的打分值,该分值通过SWISS - PROT蛋白质 数据库进行序列比对得到。
4. 根据权利要求1或3所述的方法,其特征是,所述的滑动窗口的大小为13和15。
5. 根据权利要求2所述的方法,其特征是,步骤4所述的分类具体采用OET - KNN计算 得到,其步骤为: 1) 对于膜蛋白的氨基酸序列中每个残基用i表示,对每个残基是否归类于于跨膜 alpha螺旋结构的属性表不为Φ,因此由表达式:
2) 对氨基酸序列通过滑动窗口提取特征向量后,用向量bf表示一个残基,样本集用f
表示,: 其中:卩表示训练样本特征向量,Φ?表示属性类别, iI L代表滑动窗口的大小; 3) 用?]^表示K个训练样本向量#构建到目标向量bf的最短欧氏距离,基于目标向量选 取周围欧氏距离最近的训练样本向量,对于< e 中,< 表示属于类别Φ i的其中一种,根 据证据公式:
其中:Z)2〇f)是#与之间的最 近欧氏距离,这里是类别属性t的参数
在OET - KNN方法里,对参数进行优化时通过基于训练集中每个样本精度最高的方 式计算得到,
4) 根据最优理论K个最邻近原则,目标向量bf属于类别属性φ通过计算公式:
5) 证据规则化处理,SP
同时满足 Eiq1:, ψ = ?) -Eiq1,-, φ = 0) = I _ 6) 将窗口大小13和15的结果分别得到后进行合并,得到每个残基属于alpha螺旋的 概率值:
6.根据权利要求2所述的方法,其特征是,所述的动态阈值的方法具体是指:对长度小 于等于30的片段设定以0. 4为最初的阈值进行分割,大于阈值的片段为alpha螺旋结构; 对长度大于30的片段进行再次检测,从起始阈值按0. 05的大小开始增长,直到达到这个区 间中的波谷为止并以此点分割成两个螺旋片段。
【专利摘要】一种基于优化证据理论的K最近邻预测膜蛋白alpha螺旋的方法,涉及到模式识别算法和计算生物学相关技术。本发明能够在缺少高分辨率已知结构的蛋白质样本时,精确预测膜蛋白alpha螺旋结构。本发明通过计算生物的方法,包括蛋白质多序列比对,OET-KNN算法,融合多个滑动窗口提取特征向量进行优化,再用中值滤波的方法平滑噪声,然后对预测结果利用动态阈值的方法进行分割,最终得到膜蛋白alpha螺旋的结构。通过本发明将alpha螺旋的预测精度提高20%以上,而且能够预测alpha螺旋的末端并对预测长度小于15个氨基酸的不规则alpha螺旋有很好的效果。
【IPC分类】G06K9-66, G06F17-30, G06F19-16
【公开号】CN104537277
【申请号】CN201410820864
【发明人】沈红斌, 殷曦
【申请人】上海交通大学
【公开日】2015年4月22日
【申请日】2014年12月22日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1