一种用最近邻检索实现的蛋白质亚细胞定位预测方法

文档序号:9327189阅读:1422来源:国知局
一种用最近邻检索实现的蛋白质亚细胞定位预测方法
【技术领域】
[0001] 本发明属于生物信息学领域,尤其是一种使用机器学习技术实现的蛋白质亚细胞 定位预测方法,具体地说是一种用最近邻检索实现的蛋白质亚细胞定位预测方法。
【背景技术】
[0002] 蛋白质亚细胞定位是指某种蛋白或某种基因表达产物在细胞内的具体存在部位, 即根据所给出的蛋白质序列来预测其所在的亚细胞位置。蛋白质的亚细胞定位与其生物学 功能密切相关。蛋白细胞的知识位置在生物学,细胞生物学,药理学,医学中起着至关重要 的作用。虽然蛋白质的亚细胞定位可通过实验确定,但是耗时和昂贵。随着测序的基因组数 据的增加,用于预测蛋白质的亚细胞定位方法变得越来越重要,需要自动化和准确的工具。 近年出现了一些有效的定位预测方法,从单独分类器到集成机器学习研究,常见的单独分 类器算法包括:支持向量机,神经网络,隐马尔可夫模型,贝叶斯方法,K-最近邻等.集成 学习将多个弱分类器结合起来,构建一个强的集成分类器,可使得模型性能获得提高。单分 类器和集成分类器被人们不断尝试运用在亚细胞预测定位中,准确率已经很难提高,且这 些方法大部分都依赖比较复杂的模型训练过程,除非发明新的方法或者特征,否则准确率 很难再得到提高。

【发明内容】

[0003] 本发明的目的是针对蛋白质亚细胞定位的问题,提出一种用最近邻检索实现的蛋 白质亚细胞定位预测方法。该方法以简单的AAC向量作为蛋白序列的特征,用LSH算法将 训练集序列特征向量存放在多个哈希表中。预测时,用LSH方法计算出目标序列AAC特征 向量在每一个哈希表中对应的哈希值,得到相似序列向量的集合。再从得到的相似集,选 取离目标向量欧氏距离最近的Q个向量。用全局比对动态规划法计算向量间蛋白序列期望 距离,与目标序列期望距离最高的序列蛋白对应区间为预测区间。
[0004] 本发明的技术方案是:
[0005] -种用最近邻检索实现的蛋白质亚细胞定位预测方法,该方法包括以下步骤:
[0006] (1)、以AAC特征向量作为蛋白序列的特征,用LSH方法将训练集中的各蛋白序列 的AAC特征向量存放在多个哈希表中;
[0007] (2)、预测时,用LSH方法计算出目标序列AAC特征向量在每一个哈希表中对应的 哈希值,得到相似序列向量的集合;
[0008] (3)、从得到的相似序列向量的集合中选取离目标序列AAC特征向量欧氏距离最 近的Q个向量,用全局比对动态规划法计算目标序列AAC特征向量与前述Q个向量的向量 间蛋白序列期望距离,将Q个向量中与目标序列期望距离最高的序列蛋白对应区间作为预 测区间。
[0009] 本发明的步骤(1)具体包括以下步骤:
[0010] (A)、提取蛋白序列的AAC特征向量:
[0011] 设蛋白质序列P为:
[0012] P = R1R2R^Rt (1)其中:t为蛋白质序列的长度即氨基酸残基的 个数,R1为序列单词P中的第一个氨基酸残基,R2为第二个氨基酸残基,以此类推,Rt为第 t个氨基酸残基;
[0013] AAC特征提取:则蛋白质序列P的氨基酸组分信息即AAC特征向量为:
[0014] V = Iif1, f2,…,fd] ⑵
[0015] 其中fffVn采用下述公式求解:
[0017] 其中,fu(u = 1,2,…,d)为每个氨基酸的出现频率,d = 20,,t为一个蛋白质序 列的长度,i表示氨基酸残基的编号,A (u)为序号u对应的氨基酸残基;(B)、构建Hash表:
[0018] 对于训练集中的η个蛋白序列,将各蛋白序列的d维的AAC特征向量存放在L个 哈希表中,对于每一个向量,通过LSH方法,分别放入L个哈希表中对应的键值的桶中。
[0019] 本发明的步骤(B)具体包括以下步骤:
[0020] (B-I)、对于训练集中的η个蛋白序列,将各蛋白序列的维度为d的AAC特征向量, 用式(4)将V中的d个向量扩大C倍取整,转换为每个向量的坐标都为正整数的向量:
[0021] ν' = [CXv] (4)
[0022] 其中:□表示取整运算;
[0023] (B-2)、将d个向量做如下的变换:设r为向量V的一个坐标,则g(r) = 000··· 0111…1,其中左端全为0,右端全为1,1的个数为r的值的大小;
[0024] 采用运算符I连接相邻的两个坐标,那么向量ν'通过F(v')做转换:v"= F(v r ) = g(fl) |g(f2) |g(f3) I ··· |g(fd);
[0025] (6-3)、从0到Cd-I的整数中随机选取k个数为…,叫,设h(v",n)为 v"中第 η 个坐标,则 v" ' =G(v" ) =h(v" ,nXv",n2)…h(v",nk) ;G(v")便为 AAC特征向量v的一个hash值;
[0026] (B-4)、对于训练集中的η个蛋白序列,均按照步骤(B-3)得到η个hash值,建立 一张hash表;
[0027] (B-5)、为了提高相似碰撞率,按(B-3)-(B_4)步骤建立L张hash表。
[0028] 本发明的步骤(2)具体包括以下步骤:提取目标蛋白序列的AAC特征向量T,通过 LSH方法计算出AAC特征向量T在每一个哈希表中对应的哈希值:Λ、J 2、〃叉,提取各hash 表中的哈希值对应的向量,得到相似序列向量的集合;再从得到的集合中,选取离向量T欧 氏最近的Q个向量,用全局比对动态规划法计算向量T与Q个向量对应的蛋白序列期望距 离M,M最高的序列蛋白区间为预测区间。
[0029] 本发明的全局比对动态规划法计算方法为:设两个序列a和b,长度为X和y,这两 个序列间期望距离为M(a x,by),通过评价序列a中前i个位置和序列b中前j位置的距离 M(a〇 b),i e [1,X],j e [1,y],递归地得到距离 M(ax, by)。
[0030] 本发明的递归比对分为若干步,按取值范围i e [1,χ],j e [1,y]执行xXy次 每一步增加一个位置时有三种事件:
[0031] 从单元(i-1,j)向(i,j)的垂直移动,相当于在b序列中插入一个空位使相似序 列延伸,距离值减2 ;
[0032] 从单元(i-1,j_l)向(i,j)的对角线移动,相当于增加字母ajPb /吏相似序列延 伸,字母相同,距离值增1,字母不同,距离值减1 ;
[0033] 从单元(i,j_l)向(i,j)的水平移动,相当于在序列b中插入一个空位使相似序 列延伸,距离值减2 ;
[0034] 单元(i,j)的距离看成三个相邻单元的距离加上相应权重后的最小者,即
[0036] 其中,max指取三种可能得分中的最高分,M(a。,b。)= 0, S(i, j)指第i个字母与 第j个字母的比较,相同为1,不同为-1。
[0037] 本发明的有益效果:
[0038] 本发明提出一种基于LSH的近似最近邻搜索与全局比对动态规划方法的蛋白区 间定位预测模型,该预测模型不依赖于复杂的序列特征,且模型适应性强,即使调整训练集 序列元素,作为预测参数的LSH的hash表也无需全部重新计算。预测模型在基准数据集的 刀切法检验中获得较高的总体准确率,该预测方法能够快速、有效的获取目标序列的预测 结果。
【附图说明】
[0039] 图I Hash表数量实验的MAP曲线图
[0040] 图2 Hash表数量实验的MRR曲线图
[0041] 图3哈希表位数实验的MAP曲线图
[0042] 图4哈希表位数实验的MRR曲线图
【具体实施方式】
[0043] 下面结合附图和实施例对本发明作进一步的说明。
[0044] 1测试数据集的选取
[0045] 以从SWISS-PR0T数据库获得的包含317条凋亡蛋白质序列的数据集为例进行 说明。317条蛋白序列,分布于6个区间,其中细胞质蛋白(Cytoplasmic proteins) 112 条,膜蛋白(Membrane proteins) 55 条,线粒体蛋白(Mitochondrial proteins) 34 条,分 泌蛋白(Secreted proteins) 17条,细胞核蛋白(Nuclear proteins) 52条,内质网蛋白 (Endoplasmic reticulum proteins) 47 条。
[0046] 2实验评估方法和指标
[0047] 常见的预测评价有三种方法:自相容检验(Resubstitution)、K折交叉检验 (K-fold cross validation)和刀切法(Jackknife)。对于自相容检验,测试集包含待预测 序列,可以预见本文方法检测成功率是1〇〇%。与K折交叉检验比较,刀切法检验使用一对 多的预测模式,其在统计学中被认为是更客观和严格的验证方法,实施步骤中预测结果用 刀切法验证。
[0048] 实验使用敏感性、特异性、相关系数和总准确率三个评价指标,敏感性(SN1)、特异 性(SP 1)、相关系数(MCC1)和总准确率OA的定义如下:
[0049] SN1=TPy(TPfFN1)
[0050] SP1=TPy(TPfFP1)
[0052] OA =
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1