基于蛋白-蛋白相互作用网络的基因集鉴定方法

文档序号:6621983阅读:646来源:国知局
基于蛋白-蛋白相互作用网络的基因集鉴定方法
【专利摘要】本发明涉及一种基因【技术领域】的基于蛋白-蛋白相互作用网络的基因集鉴定方法,所述方法包括如下步骤:从“数据集B”中找出和“集合A”发生直接相互作用的基因/蛋白,并命名为“节点集B”;统计“节点集B”中每个基因/蛋白和“集合A”发生直接相互作用的数目,命名为维度“i”;用具有不同最小维度“i”的“节点集B[i]”从“集合A”中调出那些相互作用的基因/蛋白,并被命名为“集合A[i]”;计算“集合A[i]”的聚集z值;具有最大聚集z值的“集合A[i]”为所得基因集。本发明的方法能够鉴定出和生物过程更加相关的基因集,有助于相关研究人员开展相关研究工作。
【专利说明】基于蛋白-蛋白相互作用网络的基因集鉴定方法

【技术领域】
[0001]本发明属于基因【技术领域】,具体涉及一种基于蛋白-蛋白相互作用网络的基因集鉴定方法。

【背景技术】
[0002]转录组/蛋白组的动态变化引起细胞功能的改变。基因/蛋白不是独立的发挥作用,而是在蛋白-蛋白相互作用网络中通过与其它蛋白的相互作用而发挥作用。因此,基于蛋白-蛋白相互作用网络的组学数据挖掘能够发现一些新的生物信息。基于此,如果组学数据能够在蛋白-蛋白相互作用信息的辅助下进行分析,分析结果将更加具有生物相关性。
[0003]目前,对于显著调变基因/蛋白的相互作用网络分析主要依赖于这些基因/蛋白之间的直接相互作用信息。但是,多个基因/蛋白的表达表明其可能和一个关键节点基因/蛋白(未发生显著调变)相互作用。该关键节点基因/蛋白同时亦可能和其它多个基因/蛋白相互作用。基于显著调变基因/蛋白直接相互作用的分析可能导致丢失那些通过关键节点基因/蛋白而间接相互作用的显著调变基因/蛋白。因此,进行基于蛋白-蛋白相互作用网络的组学数据分析,不能忽略那些关键节点基因/蛋白。


【发明内容】

[0004]本发明的目的在于克服现有技术的不足,提供一种基于蛋白-蛋白相互作用网络的基因集鉴定方法。本发明的方法能够鉴定出和生物过程更加相关的基因集,有助于相关研究人员开展相关研究工作。
[0005]本发明是通过以下的技术方案实现的,本发明涉及一种基于蛋白-蛋白相互作用网络的基因集鉴定方法,包括如下步骤:
[0006]步骤一,从“数据集B”中找出和“集合A”发生直接相互作用的基因/蛋白,并命名为“节点集B” ;“节点集B”中的基因/蛋白来自于“数据集B”,且和“集合A”没有共有基因/蛋白;
[0007]步骤二,统计“节点集B”中每个基因/蛋白和“集合A”发生直接相互作用的数目,该数目被命名为“节点集B”中基因/蛋白的维度“i”,“节点集B”中的基因/蛋白具有不同的维度;
[0008]步骤三,用具有不同最小维度“i”的“节点集B[i]”从“集合A”中调出那些相互作用的基因/蛋白,并被命名为“集合A[i] ”,“集合A”中剩余的基因/蛋白被命名为“集合A[i]余”;
[0009]步骤四,计算“集合A [i] ”的聚集z值;
[0010]步骤五,具有最大聚集z值的“集合A[i] ”为所鉴定的基于蛋白-蛋白相互作用网络的基因集。
[0011]优选地,步骤一中,所述数据集B为公共数据库中蛋白-蛋白相互作用数据。
[0012]优选地,步骤一中,所述集合A为从相关全基因转录组研究数据获得的显著调变,且具有生物功能富集的基因集。
[0013]优选地,步骤四中,所述聚集z值的计算包括如下步骤:
[0014]a)计算每个基因/蛋白的表达显著性,即生物样本感兴趣不同处理之间显著性比较的校正P值;
[0015]b)用I减去该校正P值,进而除以正态累积分布函数,生成z值;
[0016]c)相加“集合A[i] ”中所有基因/蛋白的z值,并除以“集合A[i] ”基因/蛋白数目的平方根,得到聚集Z值;通过聚集z值可以比较具有不同基因/蛋白数目“集合A[i] ”的相对表达变化,聚集z值越高,“集合A[i] ”表达越显著。
[0017]与现有技术相比,本发明具有如下的有益效果:
[0018]本发明的技术方案综合考虑了生物过程本身,即功能紧密相关的基因在应答信号刺激时,这些基因的调变可能受到某个关键基因(即“关键节点基因/蛋白”)的影响,而该关键基因可能未发生显著调变。关键节点基因/蛋白的关键性则通过其与显著调变基因/蛋白相互作用的数目,即维度“i”体现出来。维度“i”愈大,其愈关键。同时,亦综合考虑了所鉴定基因的整体表达调变信息,即聚集z值。聚集z值愈大,基因集调变愈显著。毫无疑问,无论是关键节点基因/蛋白的维度“i”,还是基因集的聚集Z值,都客观直接的反应了生物过程中的重要指标,利用了生物学中涉及的自然规律。
[0019]本发明的方法鉴定的基因集具有如下效果:鉴定出和生物过程更加相关的基因集。和基因集相互作用的节点基因/蛋白亦具有重要生物功能。基于该基因集和/或节点基因/蛋白,有助于相关研究人员开展下一步相关研究工作。比如基因功能分析、疾病诊断、疾病治疗预后等。

【专利附图】

【附图说明】
[0020]通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0021]图1为基于蛋白-蛋白相互作用网路基因集鉴定的分析流程。
[0022]图2为结核分枝杆菌(Mtb)感染THP-1细胞后,THP-1细胞转录谱的基于蛋白-蛋白相互作用数据的基因集鉴定的主要策略。
[0023]图3为采用不同最小维度的节点时,所鉴定基因集THPlr2Mtb_iNet[i]的聚集z值(A)及采用最小维度为14的节点时,所鉴定基因集TMtb-1Net,对应剩余基因集TMtb-1Ex,及原始基因集THPlr2Mtb-1nduced表达量的箱型图展示(B)。
[0024]图4为THPlr2Mtb-1Net[i]和THPlr2Mtb_iEx[i]基因启动子区的转录因子结合位点富集分析(A-C),以及采用最小维度为14的节点时,所鉴定基因集TMtb-1Net,对应剩余基因集TMtb-1Ex基因启动子区的转录因子结合位点富集分析(D)。
[0025]图5 为 THPlr2Mtb-1nduced 和 TMtb-1Net 的生物通路分析。
[0026]图6 为 THPlr2Mtb-1nduced (A)、TMtb-1Net (B)、和 TMtb-1Ex (C)与干扰素模块基因(M3.1)的基因重叠分析。
[0027]图7为THPlr2Mtb-1nduced、TMtb_iNet、和TMtb-1Ex与肺结核病人相关表达谱数据的相关性分析。

【具体实施方式】
[0028]下面结合具体实施例,进一步阐述本发明。这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件,例如 Sambrook 等分子克隆:实验室手册(New York:Cold Spring Harbor LaboratoryPress, 1989)中所述的条件,或按照制造厂商所建议的条件。
[0029]对于显著调变基因/蛋白的相互作用网络分析主要依赖于这些基因/蛋白之间的直接相互作用信息。但是,多个基因/蛋白的表达表明其可能和一个关键节点基因/蛋白(虽然未发生显著调变)相互作用。本发明综合考虑基因/蛋白的调变程度及其与关键节点基因/蛋白的相互作用情况,从通量数据中鉴定和生物过程更加相关的基因集。基因集鉴定具体考虑关键节点基因/蛋白与显著调变基因/蛋白的相互作用程度(维度)以及所鉴定基因集的整体表达情况(聚集z值)。表达最明显(最大聚集z值)的基因集为所鉴定的基因集。
[0030]本发明通过综合蛋白-蛋白相互作用信息和转录组基因调变信息,并综合考虑显著调变基因/蛋白和关键节点基因/蛋白(未发生显著调变)的相互作用情况,鉴定与生物过程更加相关的基因集。
[0031]在实施本发明的技术方案之前,需获得:1)相关全基因转录组研究数据的基因表达调变信息,并且获得了显著调变且具有一定生物功能富集的基因集,该基因集命名为“集合A”,且集合A的基因/蛋白在感兴趣状态下(具体时间点,具体处理等)或者一致上调;或者一致下调。如实施例中的“THPlr2Mtb-1nduced”,其基因在Mtb感染后18h都显著上调(相对于4h) ;2)公共数据库中蛋白-蛋白相互作用数据,该数据命名为“数据集B”,如实施例中的“STRING蛋白-蛋白相互作用数据”。
[0032]图1为基于蛋白-蛋白相互作用网路基因集鉴定的分析流程:
[0033]I)从“数据集B”中找出和“集合A”发生直接相互作用的基因/蛋白,即“数据集B”中的蛋白-蛋白相互作用对中只有一个蛋白来自于“集合A”,并命名为“节点集B”。“节点集B”中的基因/蛋白来自于“数据集B”,和“集合A”没有共有基因/蛋白。
[0034]2)统计“节点集B”中每个基因/蛋白和“集合A”发生直接相互作用的数目,即“节点集B”中的某个基因/蛋白和“集合A”中多少个基因/蛋白发生直接相互作用,该数目被命名为“节点集B”中基因/蛋白的维度“i”。“节点集B”中的基因/蛋白具有不同的维度。
[0035]3)用具有不同最小维度“i”的“节点集B[i] ”从“集合A”中调出那些相互作用的基因/蛋白,并被命名为“集合A[i]”,如实施例中的“THPlr2Mtb-1Net[i]”。“集合A[i]”中的基因/蛋白可能彼此直接发生相互作用,或通过具有不同最小维度“i”的“节点集B[i] ”而间接发生相互作用。对应的,“集合A”中剩余的基因/蛋白被命名为“集合A[i]余”,如实施例中的 “THPlr2Mtb-1Ex[i] ”。
[0036]4)计算“集合A[i] ”的聚集z值(aggregate z-score)1。具体的,聚集z值的计算如下:a)计算每个基因/蛋白的表达显著性,即生物样本感兴趣不同处理之间显著性比较的校正P值;b)用I减去该校正P值,进而除以正态累积分布函数(normal cumulativedistribut1n funct1n, normal CDF),生成 z 值;c)相加“集合 A[i] ” 中所有基因 / 蛋白的Z值,并除以“集合A[i] ”基因/蛋白数目的平方根,得到聚集z值。通过聚集z值可以比较具有不同基因/蛋白数目“集合A[i] ”的相对表达变化。聚集z值越高,“集合A[i] ”表达越显著;反之亦然。
[0037]5)具有最大聚集z值的“集合A[i]”为所鉴定的基于蛋白-蛋白相互作用网络的基因集。
[0038]以下进行具体阐述,下述实施例中的数据基于宿主巨噬细胞(THP-1细胞)抗结核分枝杆菌感染后的干扰素相关基因集(THPlrfMtb-1nduced,即权利要求书中的“集合A”)2,通过结合STRING蛋白-蛋白相互作用数据,及权利要求书中的“数据集B”3’4,进一步挖掘出的一个基于蛋白-蛋白相互作用网络的基因集,即TMtb-1Net,并进一步进行了相关验证。
[0039]实施例
[0040]I 方法
[0041]1.1蛋白-蛋白相互作用数据
[0042]蛋白-蛋白相互作用数据来自于STRING数据库3’4。STRING数据库包含多个物种的蛋白-蛋白物理和功能相互作用数据。发明人从中提取人特异的蛋白-蛋白相互作用数据,并且其相互作用的组合数值(combined socre)至少为0.7。该标准即保证了数据的高覆盖率,亦保证了数据的高质量性。
[0043]1.2从THPlr2Mtb_induced衍生基于蛋白-蛋白相互作用网络的基因集
[0044]首先,从STING蛋白-蛋白相互作用数据中找出和THPlr2Mtb-1nduced发生直接相互作用的基因/蛋白,命名为“节点集”,即前述的“节点集B”。节点集中的基因/蛋白来自于蛋白-蛋白相互作用数据,和THPlr2Mtb-1nduced没有共有基因/蛋白。其次,统计节点集中每个基因/蛋白和THPlr2Mtb-1nduced发生直接相互作用的数目,该数目被命名为节点集中基因/蛋白的维度“i”。如图2中所示的两个节点,一个节点的维度为3,另一个节点的维度为4。节点集中的基因/蛋白具有不同的维度。用具有不同最小维度“i”的节点集[i]从THPlr2Mtb-1nduced中调出那些相互作用的基因/蛋白,其被命名为“THPlr2Mtb-1Net[i]”,即权利要求书中的“集合A[i]”。THPlr2Mtb_iNet [i]中的基因/蛋白可能彼此直接发生相互作用,或通过具有不同最小维度“i”的节点集[i]间接发生相互作用。对应的,THPlr2Mtb-1nduced中剩余的基因/蛋白被命名为“THPlr2Mtb_iEx[i] ”,即权利要求书中的“集合A[i]余”。计算THPlr2Mtb-1Net[i]的聚集z值(aggregatez-score) 具体的,聚集z值的计算如下:a)计算每个基因/蛋白的表达显著性,即校正P值;b)用I减去该校正P值,进而除以正态累积分布函数(normal cumulativedistribut1n funct1n, normal CDF),生成 z 值;c)相加 THPlr2Mtb_iNet [i]中所有基因/蛋白的z值,并除以THPlr2Mtb-1Net [i]中基因/蛋白数目的平方根,得到聚集z值。通过聚集z值可以比较具有不同基因/蛋白数目THPlr2Mtb-1Net [i]的相对表达变化。聚集z值越高,THPlr2Mtb-1Net[i]表达越显著;反之亦然。具有最大聚集z值的THPlr2Mtb_iNet[i]为所鉴定的基于蛋白-蛋白相互作用网络的基因集。
[0045]2.3转录因子结合位点富集分析
[0046]PRomoter Integrat1n in Microarray Analysis (PRIMA)被用于相关基因集TFBS富集分析5。所分析启动子区域为转录起始位点上游2000bp到下游200bp。用全基因组基因作为背景。Bonferroni校正p值〈0.01被认为具有统计显著性。
[0047]2.4KEGG信号通路富集分析
[0048]通过在线数据库Database for Annotat1n, Visualizat1n and IntegratedDiscovery (DAVID) v6.7进行信号通路富集分析6。基于Benjamini and Hochberg校正的错误发现率(False Discovery Rate, FDR)进行统计分析。
[0049]2.5 针对肺结核(pulmonary tuberculosis, PTB)的基因集富集分析(gene setenrichment analysis, GSEA)
[0050]GSEA可以判断基因集在一个已经排序(根据表达量由高到低排序)的数据集中是主要分布在上面还是主要分布在下面7。发明人从NCBI GEO下载得到转录谱数据集GSE194918。
[0051]GSE19491 包含来自大量 PTB,潜伏感染(latent tuberculosis, LTB),和健康人(healthy control, HC)的全血表达谱数据。这些志愿者被分为多个组:1)训练组(training set),包括PTB、LTB、HC,其都来自于英国伦敦;2)检测组(test set),包括PTB、LTB、HC,其亦来自于英国伦敦;3)验证组(validat1n set),包括PTB、LTB,其来自于南非开普敦;4)检测组_分离(test set_seperated),包括分离自PTB和HC的中性粒细胞(neut)、单核细胞(mono)、CD4+(CD4)和 CD8+(CD8) T 细胞;5)治疗组(longitudinal),包括PTB治疗前、药物开始治疗2月(PTB_2m)、药物开始治疗12月(PTB_12m),以及HC。
[0052]GSEA 结果通过 NES (Normalized Enrichment Score)和 FDR(false discoveryrate)进行判断。正NES表明基因集在表达谱数据集的上方富集,说明该基因集和该表达谱数据集正相关,即在表达谱数据集中主要上调表达;负NES表明该基因集在表达谱数据集的下方富集,说明该基因集和该表达谱数据集负相关,即在表达谱数据集中主要下调表达。FDR< = 0.05表明NES具有统计显著性7。
[0053]2 结果
[0054]2.1从THPlr2Mtb-1nduced鉴定基于蛋白-蛋白相互作用网络的基因集,其体现了THPlr2Mtb-1nduced 的主要特征
[0055]基因/蛋白在分子网络中发挥作用,并且分子网络的扰动会影响细胞的表型9。因此通过整合蛋白-蛋白相互作用数据,THPlr2Mtb-1nduced可以进一步被精炼。如图2所示,发明人进一步从THPlrfMtb-1nduced中提取彼此相互作用的基因/蛋白,或者提取通过节点集间接相互作用的基因/蛋白。相互作用的基因集、剩余的基因集,以及
[0056]THPlr2Mtb-1nduced,进一步被用于针对病人相关表达谱数据的GSEA (图2)。从蛋白-蛋白相互作用数据库中挑选和THPlrfMtb-1nduced发生相互作用的基因/蛋白,即节点集。节点集中每个基因/蛋白和THPlr2Mtb-1nduced发生相互作用基因/蛋白的数目被命名为节点的维度,即i。THPlr2Mtb-1nduced中彼此相互作用或者通过最小维度为i的节点集[i]间接发生相互作用的一类基因/蛋白被命名为THPlr2Mtb-1Net[i]。
[0057]THPlr2Mtb-1nduced中剩余的基因被命名为THPlr2Mtb_iEx[i]。因为不同节点的维度不同,因此针对一系列的THPlr2Mtb-1Net[i],发明人分别计算其聚集z值。如图3A所示,当节点集的最小维度为14时,即节点集[i = 14],对应THPlr2Mtb-1Net[i = 14]的聚集z 值最大。发明人将 THPlr2Mtb-1Net[i = 14]简称为 TMtb-1Net,对应的 THPlr2Mtb_iEx[i=14]简称为TMtb-1Ex ο相比于TMtb-1Ex, TMtb-1Net上调表达更加显著(图3B)。
[0058]THPlr2Mtb-1nduced的基因启动子区显著富集三个和干扰素相关的转录因子结合位点,即 ISRE(IFN-stimulated response element)、 IRF-1(interferonregulatory factorl)、IRF-72。相一致的,发明人也详细分析了这三个转录因子结合位点在THPlr2Mtb-1Net[i]和THPlr2Mtb_iEx[i]基因启动子区的富集程度。如图4A、4B和4D所示,无论使用任何最小维度的节点集,ISRE和IRF-7都更加显著的富集在THPlr2Mtb-1Net[i]的基因启动子区。相反的,IRF-1在THPlr2Mtb_iNet [i]和THPlr2Mtb-1Ex[i]基因启动子区都显著富集,和节点集的维度无关(图4C和4D)。
[0059]相比于THPlr2Mtb_induced, TMtb-1Net 更加显著的富集 cytokine-cytokinereceptor interactoin、chemokine signalling、NOD-like receptor signalling 信号通路(图5)。TMtb-1Ex不富集任何信号通路。
[0060]综上所述,通过应用最小维度为14的节点集,发明人鉴定出一个基于蛋白-蛋白相互作用网络的基因集,即TMtb-1Net。TMtb-1Net表达调变最显著(最高的聚集z值),同时亦在其基因启动子区显著富集ISRE、IRF-7和IRF-1这三个转录因子结合位点。
[0061]2.2TMtb-1Net比TMtb-1Ex含有更多的干扰素相关基因
[0062]THPlr2Mtb-1nduced和干扰素过程相关2。同时,TMtb-1Net继承了THPlr2Mtb-1nduced的主要生物特征(图4和图5)。基于此,发明人进一步分析TMtb-1Net是否比TMtb-1Ex含有更多的干扰素相关基因。Chaussabel D等基于对多个疾病病人外周血单个核细胞的表达谱数据分析,构建了一系列基因模块。这些基因模块在多个疾病中呈现特异的一致表达。并且基于文献研究,作者将多个基因模块做了功能注释,其中包括一个干扰素相关模块,即M3.lm'THPlrfMtb-1nduced包含干扰素基因模块中将近一半的基因,级95个基因中的44个2。比较发现,TMtb-1Net包含了其中33个基因,而TMtb-1Ex只包含了其中11个基因(P = 4.32X 1-6)(图6)。该结果表明,基于蛋白_蛋白相互作用网络鉴定的基因集,即TMtb-1Net,比TMtb-1Ex包含更多的干扰素相关基因。并且证实了基于蛋白-蛋白相互作用网络鉴定基因集方法的合理性。
[0063]2.3 和 THPlr2Mtb-1nduced 或 TMtb-1Ex 相比,TMtb-1Net 和 PTB 病人的正相关程度较一致,但是和分离自PTB病人的特异细胞群的正相关程度较高
[0064]如图7的PTB_1&2所示,不论PTB来自于训练组还是测试组,TMtb-1Net和THPlr2Mtb-1nduced与PTB的正相关程度基本相当。而TMtb-1Ex与PTB的正相关程度则较低。该结果表明,基于蛋白-蛋白相互作用网络鉴定的TMtb-1Net与THPlr2Mtb-1nduced相比,在PTB病人全血中具有相似的上调表达程度。
[0065]发明人进一步分析TMtb-1Net与分离自PTB病人的中性粒细胞、单核细胞、⑶4+和⑶8+细胞的正相关程度。结果表明TMtb-1Net和这四种细胞亦呈显著性正相关。
[0066]TMtb-1Net 和 CD4+、CD8+T 细胞的正相关程度高于 THPlr2Mtb-1nduced。因为TMtb-1Net与中性粒细胞、单核细胞的正相关程度相似于THPlr2Mtb-1nduced,因此TMtb-1Net与⑶4+、⑶8+的更高正相关具有特异性。TMtb-1Ex与中性粒细胞、单核细胞的正相关程度较低;与⑶4+、⑶8+T细胞无显著性相关(图7的PTB_3-6)。
[0067]综上所述,和THPlr2Mtb_induced和TMtb-1Ex相比,基于蛋白-蛋白相互作用网络鉴定的基因集TMtb-1Net和PTB病人的正相关程度较一致,但是和分离自PTB病人的特异细胞群的正相关程度较高。
[0068]2.4 在 PTB 的治疗过程中,TMtb-1Net 比 THPlr2Mtb_induced 或 TMtb-1Ex 下降更快
[0069]如图7的PTB_7_9所示,在治疗开始两月后,TMtb-1Net与PTB的正相关性有所下降,但仍然具有显著性。但是在治疗开始12个月后,TMtb-1Net与PTB的相关性则不具有显著性。而不论是在治疗开始前,治疗开始两个月,还是治疗开始12个月,THPlr2Mtb-1nduced和TMtb-1Ex与PTB的正相关性确一直具有统计显著性。这些结果表明,基于蛋白-蛋白相互作用网络鉴定的基因集TMtb-1Net对PTB的治疗更加具有应答性。
[0070]综上所述,本发明综合考虑了生物过程本身,即功能紧密相关的基因在应答信号刺激时,这些基因的调变可能受到某个关键基因(即“关键节点基因/蛋白”)的影响,而该关键节点基因/蛋白可能未发生显著调变;
[0071]关键节点基因/蛋白的关键性则通过其与显著调变基因/蛋白相互作用的数目,即维度“i”体现出来。维度“i”愈大,其愈关键。同时,亦综合考虑了所鉴定基因的整体表达调变信息,即聚集z值。聚集z值愈大,基因集调变愈显著。毫无疑问,无论是关键节点基因/蛋白的维度“i”,还是基因集的聚集z值,都客观直接的反应了生物过程中的重要指标。
[0072]本发明的方法鉴定的基因集具有如下效果:鉴定出和生物过程更加相关的基因集。和基因集相互作用的节点基因/蛋白亦具有重要生物功能。基于该基因集和/或节点基因/蛋白,有助于相关研究人员开展下一步相关研究工作。比如基因功能分析、疾病诊断、疾病治疗预后等。
[0073]本发明涉及的参考文件列表如下:
[0074]1.1deker Tj Ozier O, Schwikowski B,Siegel AF.Discovering regulatory andsignalling circuits in molecular interact1n networks.B1informatics 2002 ;18Suppll:S233-S240.
[0075]2.Wu K,Dong D,Fang H et al.An interferon-related signature inthe transcript1nal core response of human macrophages to Mycobacteriumtuberculosis infect1n.PLoS One 2012 ;7 (6):e38367.
[0076]3.Snel Bj Lehmann Gj Bork Pj Huynen MA.STRING:a web-server to retrieve anddisplay the repeatedly occurring neighbourhood of a gene.Nucleic Acids Res2000 ;28(18):3442-3444.
[0077]4.Franceschini A, Szklarczyk Dj Franki I d S et al.STRINGv9.1:protein-protein interact1n networks, with increased coverage andintegrat1n.Nucleic Acids Res2013 ;41 (Database issue):D808_D815.
[0078]5.Ulitsky I, Maron-Katz A, Shavit S et al.Expander: from express1nmicroarrays to networks and funct1ns.Nat Protoc 2010 ;5 (2):303-322.
[0079]6.Huang dW, Sherman BT,Lempicki RA.Systematic and integrative analysisof large gene lists using DAVID b1informatics resources.Nat Protoc 2009 ;4(1):44-57.
[0080]7.Subramanian A, Tamayo Pj Mootha VK et al.Gene set enrichment analysis:aknowledge-based approach for interpreting genome-wide express1n profiles.ProcNatl Acad Sci U S A 2005 ; 102 (43):15545-15550.
[0081]8.Berry MPj Graham CM,McNab FW et al.An interferon-1nducibleneutrophil-driven blood transcript1nal signature in human tuberculosis.Nature2010 ;466(7309):973-977.
[0082]9.Vidal M,Cusick ME, Barabasi AL.1nteractome networks and humandisease.Cell2011 ;144(6):986-998.
[0083]10.Chaussabel D,Quinn C,Shen J et al.A modular analysis frameworkfor blood genomics studies: applicat1n to systemic lupus erythematosus.1mmunity2008 ;29(1):150-164.
[0084]11.Chaussabel D,Sher A.Mining microarray express1n data by literatureprofiling.Genome B1l 2002 ;3 (10): RESEARCH0055.
[0085]以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
【权利要求】
1.一种基于蛋白-蛋白相互作用网络的基因集鉴定方法,其特征在于,包括如下步骤: 步骤一,从“数据集B”中找出和“集合A”发生直接相互作用的基因/蛋白,并命名为“节点集B” 节点集B”中的基因/蛋白来自于“数据集B”,且和“集合A”没有共有基因/蛋白; 步骤二,统计“节点集B”中每个基因/蛋白和“集合A”发生直接相互作用的数目,该数目被命名为“节点集B”中基因/蛋白的维度“i”,“节点集B”中的基因/蛋白具有不同的维度; 步骤三,用具有不同最小维度“i”的“节点集B[i]”从“集合A”中调出那些相互作用的基因/蛋白,并被命名为“集合A[i]”,“集合A”中剩余的基因/蛋白被命名为“集合A[i]余”; 步骤四,计算“集合A[i] ”的聚集z值; 步骤五,具有最大聚集z值的“集合A[i]”为所鉴定的基于蛋白-蛋白相互作用网络的基因集。
2.如权利要求1所述的基于蛋白-蛋白相互作用网络的基因集鉴定方法,其特征在于,步骤一中,所述数据集B为公共数据库中蛋白-蛋白相互作用数据。
3.如权利要求1所述的基于蛋白-蛋白相互作用网络的基因集鉴定方法,其特征在于,步骤一中,所述集合A为从相关全基因转录组研究数据获得的显著调变,且具有生物功能富集的基因集。
4.如权利要求1所述的基于蛋白-蛋白相互作用网络的基因集鉴定方法,其特征在于,步骤四中,所述聚集z值的计算包括如下步骤: a)计算每个基因/蛋白的表达显著性,即生物样本感兴趣不同处理之间显著性比较的校正P值; b)用I减去该校正P值,进而除以正态累积分布函数,生成z值; c)相加“集合A[i]”中所有基因/蛋白的z值,并除以“集合A[i]”基因/蛋白数目的平方根,得到聚集z值;通过聚集z值可以比较具有不同基因/蛋白数目“集合A[i] ”的相对表达变化,聚集z值越高,“集合A[i] ”表达越显著。
【文档编号】G06F19/18GK104182654SQ201410370730
【公开日】2014年12月3日 申请日期:2014年7月30日 优先权日:2014年7月30日
【发明者】吴康, 黄家颖, 范小勇 申请人:上海市公共卫生临床中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1