一种识别蛋白质相互作用网络中关键蛋白质的方法

文档序号:9524431阅读:1068来源:国知局
一种识别蛋白质相互作用网络中关键蛋白质的方法
【技术领域】
[0001] 本发明设及生物信息学领域,尤其设及一种识别蛋白质相互作用网络中关键蛋白 质的方法。
【背景技术】
[0002] 蛋白质是构成生物组织器官的支架和主要物质,它是生理功能的执行者,在生命 活动中起着非常重要的作用。关键蛋白质在维持生物体正常生理过程中起着至关重要的作 用,一旦移除运些蛋白质会造成相关蛋白质复合物和功能模块的生物功能丧失,导致生物 体无法完成正常的生理活动,最终导致生物体生理活动失调或者死亡。有效的预测关键蛋 白质对研究细胞的生理调控机制具有非常重要的生物意义,对药物祀标设计也具有很重要 的实际价值。
[0003] 在生物学领域,一般采取基因敲除、RNA干扰等生物实验的方法控制相关蛋白后通 过观察生物体能否正常执行生命活动来判别一个蛋白是否是关键蛋白。利用生物实验的方 法预测关键蛋白的方法虽然比较准确,但是生物实验周期长而且代价高。近些年来,随着 高通量技术的发展,获得了大量的蛋白质相互作用、基因时序表达、基因功能注释信息等数 据,运为从网络水平上预测关键蛋白质提供了条件。
[0004] 已有的研究成果显示,一个蛋白质是否是关键蛋白质取决于运个蛋白质在生 物分子网络中所对应节点的拓扑特性和生物功能特性。近些年来,出现了大量的网络 中屯、性预测方法,典型的基于网络拓扑结构的有:度中屯、性(degreecentrality,DC), 介数中屯、性化etweennesscentrality,BC),边聚类系数中屯、性(edgeclustering coefficientcentrality,ECC),子图中屯、性(subgraphcentrality,SC)和特征向量中屯、 性(eigenvectorcentrality,EC)等。 阳〇化]由于目前通过高通量技术得到的蛋白质相互作用含有较大的假阳性、假阴性等噪 声数据,为了减少噪声的影响,近几年来出现了结合网络拓扑结构跟其它生物信息数据比 如基因表达数据等的方法有化C,CoEWC等方法。

【发明内容】

[0006] 本发明的目的在于提供一种识别蛋白质相互作用网络中关键蛋白质的方法,通过 计算蛋白质相互作用网络的边聚类系数、基因表达值的皮尔逊相关系数W及基因功能相似 性指数运Ξ个不同的层面来刻画关键蛋白的特性,有效的将运Ξ种特性结合起来预测关键 蛋白,本发明不需要借助已有关键蛋白信息,准确度高,有效解决了生物实验的昂贵成本和 时间周期长等问题。
[0007] 为解决上述技术问题,本发明采取的技术方案是:通过计算蛋白质相互作用网络 的边聚类系数、基因表达值的皮尔逊相关系数W及基因功能相似性指数,只需要根据网络 拓扑结构信息,基因表达谱信息W及基因功能相似性信息就能准确地预测未知关键蛋白, 本发明具体实现步骤为:1)根据蛋白质相互作用数据,构建无向图G,计算图的边聚类系 数;2)根据基因表达谱,找出蛋白质相互作用数据中蛋白质对应基因的表达谱,计算蛋白 质相互作用数据中任意一对蛋白质相互作用的两个蛋白对应基因表达谱的皮尔逊相关系 数,依次类推,计算所有相互作用蛋白质对的皮尔逊相关系数;3)根据蛋白质相互作用数 据中的任意一对蛋白质相互作用关系的两个蛋白,找出运两个蛋白对应基因的功能注释编 号,然后根据基因功能相似性计算方法计算运一对蛋白质之间的功能相似性,依次类推,计 算所有相互作用蛋白质对的功能相似性值;4)由上述步骤得到的网络边聚类系数,基因功 能相似性数据和基因表达相关性数据按照公式(3)计算每个蛋白质的关键值排名,值越大 说明运个蛋白质越重要。
[0008] 本发明的技术效果是:本发明与现有的技术相比,在考虑蛋白质相互作用网络拓 扑结构特性的基础上,结合基因表达谱数据和基因功能注释信息数据,整合运Ξ组数据来 预测关键蛋白,能有效的减少单个数据源数据噪声对预测准确性的影响,通过计算蛋白质 相互作用网络的边聚类系数、基因表达值的皮尔逊相关系数W及基因功能相似性指数运Ξ 类数据所体现的关键蛋白特性结合起来预测网络中关键蛋白,本发明可W显著提高蛋白质 相互作用网络中关键蛋白的识别准确度,并且可W-次预测出大量的关键蛋白质,解决了 生物实验方法的昂贵成本和耗时的问题。
【附图说明】
[0009] 图1为本发明TGE在结合Ξ种GO信息情况下与其它五种中屯、性度量方法 DC,BC,NC,C0EWC,Pec在测试数据1下关键蛋白预测结果的准确度比较图,其中N= 200 对应的子图表示预测的前200个关键蛋白质中各种方法预测正确的关键蛋白质个数比较; N= 400对应的子图表示预测的前400个关键蛋白质中各种方法预测正确关键蛋白质个数 比较;N= 600对应的子图表示预测的前600个关键蛋白质中各种方法预测正确关键蛋白 质个数比较。
[0010] 图2为本发明TGE在结合Ξ种GO信息情况下与其它五种中屯、性度量 DC,BC,NC,C0EWC,Pec在测试数据2下关键蛋白预测结果的准确度比较图,其中N= 200 对应的子图表示预测的前200个关键蛋白质中各种方法预测正确的关键蛋白质个数比较; N= 400对应的子图表示预测的前400个关键蛋白质中各种方法预测正确关键蛋白质个数 比较;N= 600对应的子图表示预测的前600个关键蛋白质中各种方法预测正确关键蛋白 质个数比较。 1 ] 图3为本发明TGE在结合Ξ种GO信息情况下与其它五种中屯、性度量DC,BC,NC,C0EWC,Pec在两组测试数据下化ckknife方法的验证比较图:图A为在测试数据 1下的比较结果,图B为在测试数据2下的比较结果。
【具体实施方式】
[0012] 下面将结合实施例详细说明本发明所具有的有益效果,旨在帮助阅读者更好地理 解本发明的实质,但不能对本发明的实施和保护范围构成任何限定。
[0013] 由于酵母是目前研究最为广泛的物种,而且积累了一些实验测定的酵母关键蛋白 质信息。为了证实本发明方法的有效性,将酵母的数据作为测试验证。本发明从DIP(蛋白 质相互作用数据库)中下载酵母的蛋白质相互作用网络数据,剔除掉重复的和自相互作用 数据后,最终得到一个包含5093个酵母蛋白质和24743对相互作用的网络作为测试数据1, 另外从文献库中捜集由质谱测量技术和酵母双杂交技术得到的综合的蛋白质相互作用网 络数据,剔除重复和自相互作用W及孤立点数据后得到一个包含3861个酵母蛋白,19165 对相互作用的网络数据作为测试数据2 ;
[0014] 从GE0(GeneExpressionOmnibus)数据库中下载酵母的基因表达时间序列值, 得到6, 777个基因产物对应的36个时间点的表达值;从G0(Gene化tology)数据库中下 载酵母的基因功能注释信息数据,截止日期是2015-3-4。实验测试所用的关键蛋白质数据 来源于MIPS(MunichInformationcenterforProteinSequences),SGD(Saccharomyces GenomeDatabase),DEG(DatabaseofEssentialGenes)和SGDP(SaccharomycesGenome DeletionProject)四个数据库,一共有1285个关键蛋白。经过统计,实验所用的酵母蛋白 质相互作用网络数据中共有5093个蛋白,其中1167个是关键蛋白,3591个是非关键蛋白, 剩余的335个蛋白质的关键性未知。
[0015] 通过对已知数据的研究发现网络中的关键蛋白总是会形成连接紧密的子网,从拓 扑结构来看它们之间的聚类系数较高,而且处在同一个连接子网里面的关键蛋白共表达的 概率很高;从基因表达值之间的关系来看,它们之间的相关系数较高;连接紧密的子网通 常是由一个或者多个复合物组成共同执行某个特定的生物过程,因此它们之间的功能相似
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1