基于基因表达与亚细胞定位信息的蛋白质网络精炼方法

文档序号:10570245阅读:1043来源:国知局
基于基因表达与亚细胞定位信息的蛋白质网络精炼方法
【专利摘要】本发明公开了基于基因表达与亚细胞定位信息的蛋白质网络精炼方法,利用时间相关模型与时间不相关模型过滤基因表达数据;对S?PIN中的每条边e(u,v),如果边e连接的两个蛋白质节点u和v在所有时间点都不同时满足活性的判决条件,则将边e(u,v)从S?PIN中移除;对S?PIN中的每条边e(u,v),如果边e连接的两个蛋白质节点u和v不出现在任意一个共同的亚细胞位置中,则将边e(u,v)从S?PIN中移除;输出过滤后的S?PIN的边集E,即为精炼后的蛋白质网络TS?PIN。有效提高基于网络的关键蛋白质预测方法预测关键蛋白质的准确率。
【专利说明】
基于基因表达与亚细胞定位信息的蛋白质网络精炼方法
技术领域
[0001] 本发明属于系统生物学技术领域,涉及蛋白质相互作用网络中关键蛋白质的识 另IJ,具体涉及基于基因表达与亚细胞定位信息的蛋白质网络精炼方法。
【背景技术】
[0002] 多物种全基因组测序的完成以及人类基因组计划的开展,使生命科学研究的重点 正在从基因组学向蛋白质组学转移。所有的生物,包括人类和细菌,蛋白质都是其构成所有 细胞和组织结构无法或缺的部分。它能构成维持机体新陈代谢所需要的各种酶类以及与机 体免疫反应息息相关的抗体,还参与构成调节人体各种生理机能的激素,是生命活动极其 重要的物质基础。Winzeler等通过基因剔除式突变将某些重要的蛋白移除后会造成相关的 蛋白质复合物失去功能,继而使生物体无法维持生存。所以我们认为在生命活动中,不同蛋 白质的重要性是有区别的。于是我们将蛋白质分为两类:关键蛋白质(essential proteins)和非关键蛋白质(non-essential proteins)。关键蛋白质是生物体生存和繁殖 所必需的蛋白质。由于关键蛋白质在生命活动中扮演重要角色,因此对于关键蛋白质的预 测与识别成为一项重要的研究工作。过去关键蛋白在生物学上的识别主要通过生物实验, 像RNA干扰、单基因敲除、条件性基因剔除等。与计算生物学相比,使用生物技术固然能得到 有效的结论,但是代价相对高而效率相对低,并且适用的物种范围有局限性。所以,使用计 算生物学的方法来预测关键蛋白质是该领域的又一个值得研究的方向。
[0003] 随着酵母双杂交、串联亲和纯化、质谱分析、蛋白质芯片和噬菌体显示等高通量蛋 白质组技术的发展,以及基于计算生物学的蛋白质相互作用预测技术的日趋成熟,可获得 的蛋白质相互作用数据迅速增长,大量的蛋白质相互作用数据已经被收录在公开数据库中 以供下载。然而,不管是根据高通量蛋白质组技术测定的还是通过生物信息学方法预测的 蛋白质相互作用数据,都普遍存在大量的假阳性数据和假阴性数据。假阳性和假阴性的存 在使数据集的可靠性大大降低,并且不同方法预测得到的相互作用数据差异较大,目前蛋 白质相互作用数据仍然存在较高的不准确性。数据的这种不准确性阻碍了蛋白质组学的相 关研究,也严重影响了基于网络水平的关键蛋白质识别的正确性。尽管基于拓扑的方法能 直接预测关键蛋白质而不需要已知的关键蛋白质集合,但这些方法同样存在一定的局限 性。我们所用到的PPI数据是不完整的,包含了许多假阳性和假阴性数据,这些数据会对预 测结果产生影响,而大多数中心性算法仅仅使用了网络的拓扑特性,这就对我们网络的准 确性提出了更高的要求。

【发明内容】

[0004] 本发明的目的是提供一种基于基因表达与亚细胞定位信息的蛋白质网络精炼方 法,提高基于网络的关键蛋白质预测方法预测关键蛋白质的准确率,解决现有预测方法对 蛋白质相互作用网络的噪声敏感的问题。
[0005] 本发明所采用的技术方案是,基于基因表达与亚细胞定位信息的蛋白质网络精炼 方法,具体按照以下步骤进行:
[0006] 步骤1,使用生物相关数据集,包括蛋白质相互作用网络、时间序列下的基因表达 数据、蛋白质亚细胞位置信息;
[0007] 步骤2,利用时间相关模型与时间不相关模型过滤时间序列下的基因表达数据;对 每一个蛋白质v计算其活性阈值Active_th(v),如果该蛋白质v在时刻i对应的基因表达值 大于活性阈值,即£7(>,;〇>4(31:;[¥6_1:11(>),则表明蛋白质¥在时刻;[是活跃的,记作1^(>)= 1;
[0008] 步骤3,对S-PIN中的每条边e(u,v),如果边e连接的两个蛋白质节点u和v在所有时 间点都不同时满足活性的判决条件,即在所有的时刻都不存在EV(u,i)>ActiVe_th(u)和EV (V,i)>Active_th(v)同时成立,则将边e(u,v)从S-PIN中移除;
[0009] 对S-PIN中的每条边e(u,v),如果边e连接的两个蛋白质节点u和v不出现在任意一 个共同的亚细胞位置中,则将边e(u,v)从S-PIN中移除;
[0010] 输出过滤后的s-p IN的边集E,即为精炼后的蛋白质网络TS-P IN。
[0011] 本发明的特征还在于,进一步的,具体按照以下步骤进行:
[0012] 步骤1,使用生物相关数据集,包括蛋白质相互作用网络、时间序列下的基因表达 数据、蛋白质亚细胞位置信息;
[0013] 称原始的蛋白质相互作用网络为S-PIN,它包含了在不同时间不同亚细胞位置表 达的蛋白质相互作用边,S-PIN用无向图G(V,E)表示,V = {vl,. . .,vn}蛋白质集合, Ed x {/表示蛋白质相互作用边的集合;
[0014] 时间序列下的基因表达数据提供了每个蛋白质对应的基因在m个不同时刻对应的 表达水平,对于每一个蛋白质v,它在某个时间点i的表达值用EV(v,i)表示,y(v)为1到m时 刻表达值的平均值,〇(v)为他的标准差;
[0015]蛋白质亚细胞位置信息提供了每个蛋白质所在的亚细胞位置信息,对于每一个蛋 白质¥,它的亚细胞定位信息可以看作一个1~维向量^=11儿(>)=(11,'",11,'"11〇,当蛋白 质v处于第i个亚细胞位置表示为h( v) = 1;
[0016] 步骤2,使用基因表达信息精炼化蛋白质相互作用网络,利用时间相关模型与时间 不相关模型过滤基因表达数据;
[0017] 首先将基因表达数据分为两类:时间相关与时间不相关;时间相关的基因表达数 据是可信的,而时间不相关的数据且均值低于〇 . 5则认为数据不可信;同时,因为动态表达 水平可以间接地反映蛋白质活性的动态性,想获得所有时刻的基因表达谱在实际中是不可 行的,因此一个细胞周期的基因表达数据通常只包含细胞周期中m个时刻点,相邻时刻点间 隔一定的时间;基于各个基因的表达特性,利用3-s igma方法为每个基因对应的基因产物计 算活性阈值,从而确定蛋白质在细胞周期的哪些时刻处于活性状态;
[0018] k为根据时间相关模型与时间不相关模型的测试检验结果,k取值2.5;F(v)表示曲 线的波动性,如果标准差越大,F(v)越小;
[0019] Active_th(v) =y(v)+k〇(v) X(l-F(v)) (1) (2) (3)
(4)
[0023]如果某个基因的表达值在某个时间点超过了其表达阈值,那么对应的蛋白质就被 视为在该时间点是表达的;对于每一个时间点来说,如果在静态蛋白质相互作用网络中发 生相互作用的两个蛋白质在同一时间点都是表达的,那么在该时间点蛋白质及其相互作用 就构成了动态蛋白质相互作用网络TS-PIN的一部分,不断重复这个过程直至创建TS-PIN 网络;
[0024]步骤3,使用亚细胞定位数据精炼化蛋白质相互作用网络;
[0025] 蛋白质要实现其功能,必须要处于对应的细胞器中,COMPARTMENT数据库中有11种 关于酵母的亚细胞定位信息,分别为:cytoskeleton,golgi apparatus,cytosol, endosome,mitochondrion,plasma membrane,nucleus,extracellular space,vacuole, endoplasmic,reticulum,p eroxisome;对于一条边(u,v) EE,只有当存在某个亚细胞位置 1使得1心)=11(>) = 1时,该对相互作用才可能发生,否贝11,边(11,¥)卽就要从集合£中被移 除。
[0026] 本发明的有益效果:利用蛋白质亚细胞定位数据与基因表达数据将蛋白质相互作 用网络精炼化。根据基因表达数据,结合时间相关模型将基因表达数据过滤,使基因表达数 据更加精确化。本文通过对蛋白质相互作用的边进行逐一分析,判断每条相互作用边上的 蛋白质是否在同一时刻表达,并且判断其表达是否在同一个亚细胞位置,判断的结果用来 衡量蛋白质边的可信度。本发明的方法简单易用,通过与已有的蛋白质相互作用网络比较, 提出的精炼方法使同样的关键蛋白质预测方法在精炼后的网络上的预测准确性、与已知关 键蛋白质匹配的敏感度和特异性等方面都有明显提高。本文的发明创造点就是利用基因表 达数据与亚细胞定位信息构建了更加精准的网络,可有效提高一系列基于网络的关键蛋白 质预测方法预测关键蛋白质的准确率。
【附图说明】
[0027] 图1是在酵母蛋白质相互作用网络上不同比例的具有较高排序得分的蛋白质作为 预测的关键蛋白质时,TS-PIN,S-PIN,NF-APIN网络中,10种拓扑中心性方法(DC,EC,SC,BC, CC,1C,LAC,NC,BN,DMNC)识别关键蛋白质的数量的比较图。
[0028] 图2是DC,EC,SC,BC,CC,1C,LAC,NC,BN,DMNC十种算法在三种不同网络上基于 jackkn i f e方法评价的比较图。
[0029] 图3是DC,EC, SC,BC,CC, IC,LAC,NC,BN,DMNC在三种不同网络上预测的前100个候 选关键蛋白的重叠性和差异性比较图。
【具体实施方式】
[0030] 下面结合附图和【具体实施方式】对本发明进行详细说明。
[0031] 1.发明中使用的生物相关数据集。
[0032]目前研究最为广泛的物种是酵母,其蛋白质相互作用网络和关键蛋白质数据在众 多物种中是最为完整和可靠的。首先基于酵母的数据进行数据分析和实验验证。酵母的蛋 白质相互作用网络来自于DIP数据库2010年10月的数据。除去自相互作用和重复的相互作 用,总共有5093个蛋白质,24743条边。基因表达数据来自GE0数据库的GSE3431,该基因表达 数据对应的6777个基因产物覆盖了静态蛋白质网络中的95%的蛋白质。三个连续的代谢周 期的基因表达数据包含了 36个时刻的基因表达不,其中每个周期包含12个时刻的基因表达 谱,相邻时间间隔25分钟左右。酵母蛋白质亚细胞定位注释信息来自COMPARTMENTS数据库, 该数据库集成了 UniProtKB、MGI、360、?1}^1^86、¥〇1'1111^86等数据库中基于实验的亚细胞定 位注释信息,酵母蛋白质分别被11种亚细胞定位注释。关键蛋白质信息来源于MIPS,SGD, DEG和SGDP四个数据库。在5093个蛋白质中1167个为关键蛋白质,剩余3926个蛋白质视作非 关键蛋白质。
[0033] 在本发明中,称原始的蛋白质相互网络为S_PIN(Static Protein Interaction Network),它包含了在不同时间不同亚细胞位置表达蛋白质边的蛋白质网络。S-PIN在本发 明中用无向图G(V,E)表示,V= {vl,. . .,vn}蛋白质集合,£ d/_ x Z表示蛋白质相互作用边 的集合。
[0034] 2.使用基因表达信息精炼化蛋白质相互作用网络。
[0035]基因有条件有时序地开启或关闭表达,因此不同条件、细胞周期不同阶段的基因 表达数据能够反映蛋白质出现的动态性。蛋白质在它的生命周期里并不总是处于活性状 态,只有在处于所需的特殊区间或者其他蛋白质形成复合物时才处于活性状态。而现有的 基因表达数据存在噪声,会降低筛选的品质。首先将基因表达数据分为两类:时间相关与时 间不相关,时间相关的基因表达数据我们认为是可信的,而时间不相关的数据且均值低于 0.5则认为数据不可信。同时,因为动态表达水平可以间接地反映蛋白质活性的动态性。想 获得所有时刻的基因表达谱在实际中是不可行的,因此一个细胞周期的基因表达数据通常 只包含细胞周期中m个时刻点,相邻时刻点间隔一定的时间。基于各个基因的表达特性,采 用3-sigma方法为每个基因对应的基因产物计算活性阈值,从而确定蛋白质在细胞周期的 哪些时刻处于活性状态。对于每一个基因 V,它在不同的时间点i的表达值用EV(v,i)表示,y (v)为1到m时刻表达值的平均值,〇(v)为他的标准差,k为根据时间相关模型与时间不相关 模型的测试检验结果,k取值2.5^(4表示曲线的波动性。如果标准差越大,F(v)越小。
[0040]在静态蛋白质相互作用网络中
相互作用的两个蛋白质在动态网络中并不一定总 是在相互作用,因为它们可能不是一直同时表达的。构建动态网络的目的是为了反应蛋白 质之间的动态相互作用,它们会随着时间与条件的变化而变化。动态相互作用是由蛋白质 的活性动力学决定的。如果某个基因的表达值在某个时间点超过了其表达阈值,那么对应 的蛋白质就被视为在该时间点是表达的。对于每一个时间点来说,如果在静态蛋白质相互 作用网络中发生相互作用的两个蛋白质在同一时间点都是表达的,那么在该时间点蛋白质 及其相互作用就构成了动态蛋白质相互作用网络TS-PIN的一部分,不断重复这个过程直至 创建TS-PIN网络。
[0041] 3.使用亚细胞定位数据精炼化蛋白质相互作用网络。
[0042] 蛋白质要实现其功能,必须要处于对应的细胞器中。COMPARTMENT数据库中有11种 关于酵母的亚细胞定位信息,分别为:cytoskeleton,golgi apparatus,cytosol, endosome,mitochondrion,plasma membrane,nucleus,extracellular space,vacuole, endoplasmic ,reticulum,p eroxisome。对于一个蛋白质u,他的亚细胞定位信息可以看作 一个1~维向量(>=11)儿(11) = (11,"_山,"_11〇。蛋白质11处于第;[个亚细胞位置表示为11(11) =1。对于一条边(11,¥)££,只有当存在某个亚细胞位置;[使得11(11) = 11(>) = 1时,该对相互 作用才可能发生,否则,边(u,v)GE就要从集合E中被移除。
[0043]以下为TS-PIN网络构建方法的算法描述。
[0044]输入:静态网络S-PIN,基因表达数据,亚细胞定位数据
[0045] 输出:TS-PIN
[0046] 步骤1:利用时间相关模型与时间不相关模型过滤基因表达数据;
[0047] 步骤2:对每一个蛋白质v计算其活性阈值Active_th(v),如果其对应的基因表达 值大于活性阈值,即EV(v, i)>Active_th(v),则ti(v) = l;
[0048] 步骤3:对S-PIN中的每条边e(u,v),如果边e连接的两个蛋白质节点u和v在所有时 间点都不同时满足活性的判决条件,即在所有的时刻都不存在EV(u,i)>Acti ve_th(u)和EV (V,i)>Active_th(v)同时成立,则将边e(u,v)从S-PIN中移除;
[0049] 步骤4:对S-PIN中的每条边e(u,v),如果边e连接的两个蛋白质节点u和v不出现在 任意一个共同的亚细胞位置中,则将边e(u,v)从S-PIN中移除;
[0050] 步骤5:输出过滤后的S-PIN的边集E,即为精炼后的蛋白质网络TS-PIN。
[00511具体算法如下:
[0052] Algorithm:Construction of TS-PIN
[0053] Input:S-PIN,gene expression profiles,subcellular location information
[0054] Output:TS-PIN
[0055] Step 1:filter noisy genes in gene expression profiles based on time-dependent model and time-independent model Respectively.
[0056] Step 2: for each gene v do calculate ils active thre'-hold AciimjMv) ibr /=! lo m do iT EV{\\ i)> Active_{h{v)
[0057] r,(y)-l end if' end for end for
[0058] Step 3:for each edge(u,v)^E in S-PIN do for /= 1 lo m do iflherc docs not exist a lime point / which salisfics f,(//)A/L/(v,)=l remove edge (//. v) Irom E
[0059] end if end for end (v)r
[0060] Step 4:for each edge(u,v)^E do for /=! lo /? do
[0061 ] i f there docs not exist a subGcIlular location / which satisfies li(u)= 1 arid //(v*)=l remove edge (//, v) !rom E end if
[0062] end for end Ibr
[0063] Step 5:Output edge set E
[0064] 4.对精炼后的网络(TS-PIN)的有效性验证D
[0065]为了评估TS-PIN方法的有效性,将TS-PIN网络方法分别与几种代表性的中心性方 法结合,如0(:,8(:,(:(:,5(^(:,1(:,1^(:川(:,8?^以及01?€,计算酵母所有蛋白质的关键性综合得 分,按降序排序;另外,只用按中心性方法对酵母的蛋白质相互作用网络中的蛋白质进行关 键性打分,按降序排序,作为对照试验。酵母的蛋白质相互作用网络来自于DIP数据库2010 年10月的数据,包含有5093个蛋白质,24743条边。酵母蛋白质亚细胞定位注释信息来自 COMPARTMENTS数据库,将DIP数据库里的酵母蛋白质相互作用网络分别映射到每个亚细胞 定位,一共构建了酵母的11个蛋白质亚细胞定位相互作用子网。来源于MIPS,SGD,DEG和 SGDP四个数据库的1167个关键蛋白质作为标准集,用来比较预测结果的准确性。
[0066] a.与六种中心性方法比较。
[0067] 选取降序排列在前100,200,300,400,500,600的蛋白质作为候选关键蛋白质。再 依据已知的关键蛋白质集合,对比预测结果^预测正确的蛋白质数量作为评价各个方法性 能的标准。这种评价方法已经被以前的研究广泛采用。本文选择不同比例的具有较高排序 得分的蛋白质作为预测的关键蛋白质,然后比较TS-PIN网络和S-PIN静态网络以及NF-APIN 动态网络上使用中心方法识别关键蛋白质的数量。
[0068]图1表明,相比于其他网络的预测结果,TS-PIN的网络极大提高了正确预测的关键 蛋白质数量。以DC为例,在前100个候选关键蛋白中,TS-PIN与S-PIN相比,TS-PIN将DC的准 确率提升了54.35% ;与NF-APIN相比,TS-PIN将DC的准确率提升了26.7 %。对于EC和SC,TS-PIN在前100个候选基因中的准确率比S-PIN提升了90%;即使是与NF-APIN相比,EC的预测 准确率也提升了29.0%,SC的预测准确率提升了36.84%在S-PIN上表现最差,体现出高 敏感性。BN在TS-PIN上的准确率比AF-APIN上提升了 54.28%,比3-?預上的准确性提升了 71.43% 1AC与NC因为考虑过假阳性因素,所以比其他8钟算法效果更好,但是即便如此, TS-PIN比S-PIN依然有10%的准确度提升。图1的结果表明,对蛋白质网络进行有效的精炼 能够提高基于网络的关键蛋白质预测方法预测关键蛋白质的准确率。
[0069 ] b.基于jackkn i f e曲线比较实验结果。
[0070] 本文用jackknife方法来进一步验证TS-PIN能提升蛋白质相互作用网络的关键蛋 白预测性能。在图2中,X轴代表的是代表每种方法的候选蛋白质个数,Y轴代表每种方法中 候选蛋白质中是真正关键蛋白的数量。从图2看出,10种依赖网络的算法,在TS-PIN上的预 测结果都好于S-PIN和NF-APIN。
[0071]为了进一步研究为何精炼化的网络能更准确地预测关键蛋白,我们研究了上述10 种算法在TS-PIN,NF-APIN和S-PIN上预测到的排在前100位的不同的蛋白质,计算它们的 重叠预测和差异预测。如图3(a)和3(b) JS-PIN中预测到的关键蛋白明显高很多,以DC为 例,TS-PIN与S-PIN预测的候选关键蛋白的交集为17个,也就是说有83个TS-PIN的候选蛋白 与S-PIN网络不一样。在83个TS-PIN中的候选蛋白质中,71.08%个蛋白质是真正的关键蛋 白质,而S-PIN中的候选蛋白质,只有40.96%是真正的关键蛋白质。以LAC为例,LAC在TS-PIN和S-PIN计算出来的候选蛋白质交叠最多,前100个候选关键蛋白中有33个相同。在67个 不同的候选关键蛋白中,TS-PIN的预测结果有82.35%是真正的关键蛋白,S-PIN中只有 64.71%个是真正的关键蛋白质。其余的8种算法也是类似的结果。图3(b)说明的是NF-APIN 与TS-PIN预测到的真正关键蛋白质的对比。
[0072] c.基于ACC方法比较实验结果。
[0073]关键蛋白预测的实验分析经常使用"排序一筛选"原则来对各种测度参数的识别 结果进行比较。真阳性(true p〇sitives,TP):关键蛋白质被正确地预测为关键蛋白质;假 阳性(false positives,FP):非关键蛋白质被错误地预测为关键蛋白质;真阴性(true negatives,TN):非关键蛋白质被正确地预测为非关键蛋白质;假阴性(false negatives, FN):关键蛋白质被错误地预测为非关键蛋白质。在此基础上,我们给出敏感度、特异性、阳 性预测值、阴性预测值、F-测度和准确率等六个医学检验中的统计学指标的定义。
[0074] 敏感度(Sensitivity,SN):关键蛋白质被正确地预测的比例。
[0076]特异性(SpeCificity,SP):非关键蛋白质被正确地排除掉的比例。
[0078] 阳性预测值(Positive Predictive Value,PPV):选出的蛋白质中被正确地预测 为关键蛋白质的比例。
[0080] 阴性预测值(Negative Predictive Value,NPV):排除的蛋白质中被正确预测为 非关键蛋白质的比例。
[0082] F-测度(F-measure,F):敏感度和阳性预测值的调和平均值。
准确率(Ac curacy,ACC):所有预测结果中正确结果的比例。
[0085] 为了进一步评估TS-PIN在关键蛋白预测提升的效率,我们引入了敏感度(SN),特 异性(SP),阳性预测值(PPV),阴性预测值(NPV),F-测度(F)和正确率(ACC)六个指标上也对 TS-PIN和NF-APIN以及S-PIN上的10种中心性测度进行了比较。在前期的数据收集和处理过 程中,我们已经知道实DIP20101010数据集里包含1167个关键蛋白质。因此,我们认定每种 预测方法排序在前1167的蛋白质为关键蛋白质,而将剩余的蛋白质作为非关键蛋白质。实 验结果如表1所示,TS-PIN的10种中心性测度均高于NF-APIN以及S-PIN的10种中心性测度, 从而说明TS-PIN网络能更好地提升预测准确率,降低了假阳性相互作用对中心性计算造成 的影响。
[0086] 综上所述,本文所提出的基于基因表达与亚细胞定位信息的蛋白质网络精炼方法 中,基因表达信息和亚细胞定位信息的合理利用对预测出来的关键蛋白质的准确性以及与 已知关键蛋白质匹配的敏感度和特异性等方面具有重要作用。
[0087] 表1方法LSED和6种拓扑中心性方法基于jackknife方法评价的比较

【主权项】
1. 基于基因表达与亚细胞定位信息的蛋白质网络精炼方法,其特征在于,具体按照以 下步骤进行: 步骤1,使用生物相关数据集,包括蛋白质相互作用网络、时间序列下的基因表达数据、 蛋白质亚细胞位置信息; 步骤2,利用时间相关模型与时间不相关模型过滤时间序列下的基因表达数据;对每一 个蛋白质v计算其活性阈值Active_th(v),如果该蛋白质v在时刻i对应的基因表达值大于 活性阈值,即EV(V,i)>Acti Ve_th(V),则表明蛋白质v在时刻i是活跃的,记作ti(v) = l; 步骤3,对S-PIN中的每条边e(u,v),如果边e连接的两个蛋白质节点u和v在所有时间点 都不同时满足活性的判决条件,即在所有的时刻都不存在EV(u,i)>Active_th(u)和EV(v, ;〇>厶(:1:;^6_1:11(>)同时成立,则将边6(11,¥)从3-?預中移除; 对S-PIN中的每条边e(u,v),如果边e连接的两个蛋白质节点u和v不出现在任意一个共 同的亚细胞位置中,则将边e(u,v)从S-PIN中移除; 输出过滤后的S-PIN的边集E,即为精炼后的蛋白质网络TS-PIN。2. 根据权利要求1所述的基于基因表达与亚细胞定位信息的蛋白质网络精炼方法,其 特征在于,具体按照以下步骤进行: 步骤1,使用生物相关数据集,包括蛋白质相互作用网络、时间序列下的基因表达数据、 蛋白质亚细胞位置信息; 称原始的蛋白质相互作用网络为S-PIN,它包含了在不同时间不同亚细胞位置表达的 蛋白质相互作用边,S-PIN用无向图G(V,E)表示,V={vl,. . .,vn}蛋白质集合,.五F表 示蛋白质相互作用边的集合; 时间序列下的基因表达数据提供了每个蛋白质对应的基因在m个不同时刻对应的表达 水平,对于每一个蛋白质v,它在某个时间点i的表达值用EV(v,i)表示,μ (v)为1到m时刻表 达值的平均值,σ(ν)为他的标准差; 蛋白质亚细胞位置信息提供了每个蛋白质所在的亚细胞位置信息,对于每一个蛋白质 ¥,它的亚细胞定位信息可以看作一个1"维向量^=11儿(>)=(11,...,]^,...11〇,当蛋白质 ν处于第i个亚细胞位置表示为h( ν) = 1; 步骤2,使用基因表达信息精炼化蛋白质相互作用网络,利用时间相关模型与时间不相 关模型过滤基因表达数据; 首先将基因表达数据分为两类:时间相关与时间不相关;时间相关的基因表达数据是 可信的,而时间不相关的数据且均值低于〇. 5则认为数据不可信;同时,因为动态表达水平 可以间接地反映蛋白质活性的动态性,想获得所有时刻的基因表达谱在实际中是不可行 的,因此一个细胞周期的基因表达数据通常只包含细胞周期中m个时刻点,相邻时刻点间隔 一定的时间;基于各个基因的表达特性,利用3-s i gma方法为每个基因对应的基因产物计算 活性阈值,从而确定蛋白质在细胞周期的哪些时刻处于活性状态; k为根据时间相关模型与时间不相关模型的测试检验结果,k取值2.5;F(v)表示曲线的 波动性,如果标准差越大,F(v)越小; Active_th(v)=y(v)+k〇(v)X(l~F(v)) (1) 如果某个基因的表达值在某个时间点超过了其表达阈值,那么对应的蛋白质就被视为 在该时间点是表达的;对于每一个时间点来说,如果在静态蛋白质相互作用网络中发生相 互作用的两个蛋白质在同一时间点都是表达的,那么在该时间点蛋白质及其相互作用就构 成了动态蛋白质相互作用网络TS-PIN的一部分,不断重复这个过程直至创建TS-PIN网络; 步骤3,使用亚细胞定位数据精炼化蛋白质相互作用网络;蛋白质要实现其功能,必须要处于对应的细胞器中,COMPARTMENT数据库中有11种关于 酵母的亚细胞定位信息,分别为:cytoskeleton,golgi apparatus,cytosol,endosome, mitochondrion,plasma membrane,nucleus,extracellular space , vacuo 1e, endoplasmic,reticulum,p eroxisome;对于一条边(u,v) eE,只有当存在某个亚细胞位置 1使得1心)=]^(>) = 1时,该对相互作用才可能发生,否贝11,边(11,¥)卽就要从集'部中被移 除。
【文档编号】G06F19/12GK105930684SQ201610266442
【公开日】2016年9月7日
【申请日】2016年4月26日
【发明人】李敏, 陈骁培, 王建新
【申请人】中南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1