基于多实例多类标的马尔可夫链注释蛋白质功能的方法

文档序号:9887965阅读:321来源:国知局
基于多实例多类标的马尔可夫链注释蛋白质功能的方法
【技术领域】
[0001] 本发明涉及蛋白质组学技术领域,具体涉及基于多实例多类标的马尔可夫链注释 蛋白质功能的方法。
【背景技术】
[0002] 随着人类基因组计划的完成,生命科学研究进入了后基因组时代,即工作重点从 揭示生命的所有遗传信息转移到遗传信息的功能研究。基因是遗传信息的载体,而基因的 表达产物一蛋白质执行各种各样的生物功能。蛋白质的功能注释是在分子水平上阐明生命 本质,对病理机制研究、临床诊断、潜在药物靶标识别以及新医药开发等具有重要作用。随 着高通量测序技术的发展,各种各样的数据库已经存储了海量的蛋白质序列信息,但仅有 很少一部分具有功能注释。如UniProt全信息蛋白质数据库中完成蛋白质功能注释的不足 1%,因此,仅通过人工对蛋白质功能进行注释是不可能的。使用计算的方法来注释蛋白质 功能已经成为后基因组时代的重要研究课题之一。
[0003]目前已经有大量的计算方法用于注释蛋白质的功能,如基于蛋白质序列信息、结 构信息、网络信息或集成的方法。结构域是蛋白质中的一类结构单元,可以一个独立完成或 几个共同完成一项生理功能。通常,几个结构域共同组成一个具有多种功能的蛋白质。这和 多实例多类标学习框架的结构类似,为使用计算的方法来注释蛋白质功能提供了一种新的 可能。

【发明内容】

[0004] 本发明的目的是提供一种基于多实例多类标学习框架的注释蛋白质功能的方法, 本发明的目的可以通过采取如下方案实现。
[0005] 基于多实例多类标的马尔可夫链注释蛋白质功能的方法,其包括如下步骤:
[0006] S1、从蛋白质全信息数据库中获取生物三域系统的蛋白质序列数据,所述的蛋白 质中的每个结构域处理成一个特征向量,所述的蛋白质的功能是指基因本体中的分子功 能;
[0007] S2、计算蛋白质数据集中每两个蛋白质之间的Hausdorff距离,并使用距离的倒数 作为蛋白质之间的相似性度量;
[0008] S3、使用已经注释功能的蛋白质数据学习马尔可夫链模型,并根据学习的模型注 释未知功能的蛋白质。
[0009] 作为一种具体的实施方案,步骤S1中,所述的蛋白质,具体为蛋白质和其结构域分 别被视为多实例多类标学习框架中的对象和实例,蛋白质的功能被视为多实例多类标学习 框架中的类标。
[0010] 作为一种具体的实施方案,步骤S2中,所述的计算蛋白质数据集中每两个蛋白质 之间的Hausdorff距离,具体计算方法如下:
[0011 ] S21、分别计算每两个蛋白质之间的最大、最小和平均Hausdorff距离;
[0012] S22、每两个蛋白质之间的Hausdorff距离取三种距离的均值。
[0013] 作为一种具体的实施方案,步骤S3中,所述的马尔可夫链模型,具体如下式:
[0014] D=(l-a)Pfs(D)+aQ
[0015] 其中,D是蛋白质类标概率分布矩阵,P是类标概率转移矩阵,Q是已知的类标分布 矩阵,a是初始类标信息的比例参数,fs是类标概率分布矩阵的稀释函数。
[0016] 与现有技术相比,本发明具有如下优点和技术效果:
[0017] 本发明利用蛋白质中结构域的特征信息度量蛋白质之间的相似性,基于相似的蛋 白质可能具有相同的功能的假想,使用已经注释功能的蛋白质数据学习马尔可夫链模型, 该模型可以用来注释未知功能的蛋白质。
【附图说明】
[0018] 图1为本发明实施例1的一种基于多实例多类标的马尔可夫链注释蛋白质功能方 法的流程图。
[0019] 图2为本发明实施例1的使用已经注释功能的蛋白质数据学习马尔可夫链模型的 流程图。
[0020] 具体设施方式
[0021] 下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限 于此。
[0022] 实施例1:
[0023] 如图1所示,本实施例1的一种基于多实例多类标的马尔科夫链注释蛋白质功能的 方法,包括以下步骤:
[0024] S1、从蛋白质全信息数据库中获取生物三域系统的蛋白质序列数据,所述的蛋白 质中的每个结构域处理成一个特征向量,所述的蛋白质的功能是指基因本体中的分子功 能;
[0025] S2、计算蛋白质数据集中每两个蛋白质之间的Hausdorff距离,并使用距离的倒数 作为蛋白质之间的相似性度量;
[0026] S3、使用已经注释功能的蛋白质数据学习马尔可夫链模型,并根据学习的模型注 释未知功能的蛋白质。
[0027]所述的蛋白质,具体为蛋白质和其结构域分别被视为多实例多类标学习框架中的 对象和实例,蛋白质的功能被视为多实例多类标学习框架中的类标。
[0028]所述的计算蛋白质数据集中每两个蛋白质之间的Hausdorff距离,具体计算方法 如下:
[0029] S21、分别计算每两个蛋白质之间的最大、最小和平均Hausdorff距离,三种距离的 具体定义如下:
[0030] a、最大 Hausdorff 距离
[0031]
[0032] b、最小 Hausdorff 距离
[0033]
[0036] 其中,Xi是数据集中第i个蛋白质,x(1)是蛋白质的第i个结构域,Μ表示蛋白质中 结构域的个数,mindis(x w,Xi)的定义如下:
[0034]
[0035]
[0037]
[0038]其中,| | . | |表示两个结构域之间的欧式距离。
[0039] S22、每两个蛋白质之间的Hausdorff距离取三种距离的均值,均值的计算公式具 体如下:
[0040]
[0041] 所述的使用距离的倒数作为蛋白质之间的相似性度量,具体公式如下:
[0042]
[0043] 如图2所示,本实施例1的一种基于多实例多类标的马尔科夫链注释蛋白质功能的 方法,所述的使用已经注释功能的蛋白质数据学习马尔可夫链模型,具体的学习步骤如下: [0044] S31、十折交叉验证
[0045] 将已经注释功能的蛋白质数据集平均分成十份,依次将每份作为测试集,其余作 为训练集,测试当前参数设置下模型的性能。
[0046] S32、初始化
[0047] 1)类标概率转移矩阵
[0048]将已经注释功能的蛋白质数据集中蛋白质之间的Hausdorff相似性矩阵P列归一 化。
[0049] 2)类标概率分布矩阵
[0050]
[0051]其中,Dtrain和Dtest分别是蛋白质的训练数据集和测试数据集,(^表示第i个蛋白质 的功能集,L表示蛋白质的功能集,Lj表示第j个功能。
[0052] 3)已知的类标分布矩阵
[0053]
[0054]将已知的类标分布矩阵Q行归一化。
[0055] S33、稀释类标概率分布矩阵
[0056] 将类标概率分布矩阵D行归一化,使用稀释函数匕稀释类标概率分布矩阵,具体公 式如下:
[0057]
[0058]其中,Rank(Dij)是蛋白质i具有功能j的概率,m是稀释参数,表示蛋白质属于功能 的概率的可信个数。
[0059] S34、学习马尔可夫链模型
[0060] D=(l-a)Pfs(D)+aQ
[0061] 其中,D是蛋白质类标概率分布矩阵,P是类标概率转移矩阵,Q是已知的类标分布 矩阵,a是初始类标信息的比例参数,fs是类标概率分布矩阵的稀释函数。
[0062] S35、学习终止条件
[0063] 如果| |Dt-Dt-幻|〈e,学习终止,保存参数a、m和e;否贝ljt = t+l,回到步骤S33。其 中t是计算的第t个类别概率分布矩阵,初始值为0,e是两个矩阵的偏差。
[0064] S36、模型性能测试
[0065]根据最终计算的类标概率分布矩阵注释测试集中蛋白质的功能,并和实际的注释 功能做对比,使用多类标评估函数度量当前参数设置下模型的性能。
[0066] S37、选择最优模型
[0067]使用参数a、m和e的不同值计算蛋白质的类标概率分布矩阵,选择模型性能最优 时的参数设置作为最终的注释蛋白质功能的模型参数值。
[0068]综上所述,本发明使用多实例多类标学习框架中的计算方法注释蛋白质的功能, 使用Hausdorff距离计算蛋白质之间的相似性,学习马尔可夫链模型计算蛋白质的类标概 率分布,并根据概率分布注释未知功能的蛋白质。
[0069]以上所述,仅为本发明专利优选的实施例,但本发明专利的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技 术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。
【主权项】
1. 基于多实例多类标的马尔可夫链注释蛋白质功能的方法,其特征在于:包括以下步 骤: 51、 从蛋白质全信息数据库中获取生物三域系统的蛋白质序列数据,所述的蛋白质中 的每个结构域处理成一个特征向量,所述的蛋白质的功能是指基因本体中的分子功能; 52、 计算蛋白质数据集中每两个蛋白质之间的Hausdorff距离,并使用距离的倒数作为 蛋白质之间的相似性度量; 53、 使用已注释功能的蛋白质数据学习马尔可夫链模型,并根据学习的模型注释未知 功能的蛋白质。2. 根据权利要求1所述的基于多实例多类标的马尔可夫链注释蛋白质功能的方法,其 特征在于:步骤S1所述的蛋白质被视为对象,蛋白质的结构域被视为实例,蛋白质的功能被 视为类标。3. 根据权利要求1所述的基于多实例多类标的马尔可夫链注释蛋白质功能的方法,其 特征在于步骤S2所述的Hausdorff距离,具体计算方法如下: 521、 分别计算每两个蛋白质之间的最大、最小和平均Hau sdor f f距离; 522、 每两个蛋白质之间的Hausdorff距离取三种距离的均值。4. 根据权利要求1所述的基于多实例多类标的马尔可夫链注释蛋白质功能的方法,其 特征在于:步骤S3所述的马尔可夫链模型,如下式: D=(l-a)Pfs(D)+aQ 其中,D是蛋白质类标概率分布矩阵,P是类标概率转移矩阵,Q是已知的类标分布矩阵, a是初始类标信息的比例参数,fs是类标概率分布矩阵的稀释函数。
【专利摘要】本发明公开了一种基于多实例多类标的马尔可夫链注释蛋白质功能的方法,所述方法包括:从蛋白质全信息数据库中获取生物三域系统的蛋白质序列数据,所述的蛋白质中的每个结构域处理成一个特征向量,所述的蛋白质的功能是指基因本体中的分子功能;计算蛋白质数据集中每两个蛋白质之间的Hausdorff距离,并使用距离的倒数作为蛋白质之间的相似性度量;使用已注释功能的蛋白质数据学习马尔可夫链模型,并根据学习的模型注释未知功能的蛋白质。本发明使用多实例多类标学习框架中的计算方法注释蛋白质的功能,使用Hausdorff距离计算蛋白质之间的相似性,学习马尔可夫链模型计算蛋白质的类标概率分布,并根据概率分布注释未知功能的蛋白质。
【IPC分类】G06F19/00
【公开号】CN105653885
【申请号】
【发明人】吴庆耀, 谭明奎, 陈健, 韩超, 宋恒杰
【申请人】华南理工大学
【公开日】2016年6月8日
【申请日】2016年3月23日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1