一种基于PADOG识别基因通路的方法与流程

文档序号:11211633阅读:444来源:国知局
一种基于PADOG识别基因通路的方法与流程

本发明涉及系统生物学研究技术领域,尤其涉及一种基于padog识别基因通路的方法。



背景技术:

基于微阵列的高通量技术产生了大量的基因表达数据,如何从这些海量基因表达数据中获得洞察性的认识,进而理解生命现象的机制仍然是摆在世界各国科学家面前的一个严峻的挑战。生物通路是一组完成特定功能的基因之间的相互作用关系,主要有信号传导通路和代谢通路。在信号传导通路中,节点代表基因(或基因产物),边代表从一个基因转导到另一个基因的信号。在代谢通路中,节点代表生化化合物,边代表通过酶编码的化合物之间的生物化学反应,酶是为基因编码的。常用的通路数据库有kegg和reactome数据库,它们提供了基因之间相互作用的可视化形式。在过去十多年中,研究者开发了很多基于padog识别基因通路的方法,来识别各种癌症或疾病相关的通路。

从系统生物学的角度,基因之间的相互作用及其动力学的变化是导致各种疾病及癌症发生的主要原因,使得基于padog识别基因通路的已经成为识别各种癌症相关通路一种通用方法。由于通路的拓扑结构特征反应了基因在通路中的位置,重要性以及基因之间的相互作用,因此通路的识别应尽可能考虑到通路中包含基因的各种信息,如基因的上下游位置、调控基因的数量、基因之间的作用关系等等因素。

2005年,pnas上发表了两篇重要的通路分析方法的论文,一个是tian等人提出的基于功能的显著通路分析方法,这种方法综合考虑了一个基因集合中基因表达与集合外基因表达差异的显著性(行置换),以及该基因集基因表达与表型相关性的显著性(列置换)。另一个是subramanian等人提出著名的基因集富集分析方法gsea方法,其主要思想是根据通路中基因表达情况与给定表型之间的相关性对所有基因进行排序,然后确定给定通路p的kolmogorov-smirnov(斯米尔诺夫)统计量在排序列表中靠近极端处程度的得分。该方法中,kolmogorov-smirnov统计量的显著性根据样本的列置换确定。2006年,zahn等人使用vanderwaerden(范得瓦尔登)统计量代替kolmogorov-smirnov统计量并用自举抽样代替置换检验方法该方法考虑了通路中两个基因表达水平的相关性以及与其他因素的相关性。同年,efron等人用最大-均值统计量替代kolmogorov-smirnov统计量来计算通路分数,然后通过行置换方法对该分数进行标准化,最后利用列置换来检验通路分值的显著性,这就是著名的gsa方法。

在上述基因集富集分析方法gsea和基因集分析方法gsa的基础上,还有学者提出了信号通路影响分析方法spia和重叠基因降权方法padog。在信号通路影响分析方法spia中,只考虑了基因的上下游位置对扰动信号的传播的影响,却忽略了通路中调控大量基因的基因应比仅调控少量基因的基因更为重要,它们的差异对通路的功能具有更大的影响性,而在重叠基因降权方法padog中,虽结合了gsa方法的基础上,降低频繁出现在很多通路中的“公共基因”的影响,但是也未考虑到通路中调控大量基因的基因应比仅调控少量基因的基因更为重要,它们的差异对通路的功能具有更大的影响性。

因此,有必要考虑通路中调控大量基因的基因比仅调控少量基因的重要性,并以此为基础来提高通路的识别精度。



技术实现要素:

本发明实施例的目的在于提供一种基于padog识别基因通路的方法,能考虑到通路中调控大量基因的基因比仅调控少量基因的重要性,从而提高通路的识别精度。

为了解决上述技术问题,本发明实施例提供了一种基于padog识别基因通路的方法,所述方法包括:

a、获取样本,并确定所述样本的信号通路以及每一个信号通路所含基因,且按照每一个基因与表型间相关性对所有信号通路中所含基因进行排序,进一步根据所述排序后的基因,确定每一个基因的基因频度及基因出度;其中,所述基因频度为基因在所述确定的信号通路中出现的总次数,所述基因出度为基因在所述确定的信号通路中调控下游基因的数量;

b、根据所述确定的每一个基因的基因频度,统计出最大基因频度和最小基因频度,并根据所述统计出的最大基因频度和最小基因频度,确定每一个基因的基因频度权重;

c、确定每一个信号通路所含基因总数量和排序后每一个基因的矫正分数,并根据所述确定的每一个信号通路所含基因总数量和排序后的每一个基因的矫正分数及其对应的基因频度权重,计算出每一个信号通路的通路分数;

d、根据所述确定的每一个基因的基因出度,统计出最大基因出度和最小基因出度,并根据所述获取到的每一个基因的基因出度以及所统计出的最大基因出度和最小基因出度,计算出每一个基因的基因出度权重;

e、筛选出同一信号通路中所含基因对应的基因出度权重,并根据所筛选出的同一信号通路中所含基因对应的基因出度权重,对相应计算出的信号通路的通路分数进行修订,且进一步将所述修订后的每一个信号通路的通路分数进行排序,确定排序后最大通路分数所对应的信号通路出现变化的概率最大。

其中,所述步骤b具体包括:

获取每一个基因的基因频度,统计出最大基因频度max(f)和最小基因频度min(f);

根据公式得到每一个基因的基因频度权重;其中,f(gj)为排序后基因gj的基因频度;wf(gj)为排序后基因gj的基因频度权重。

其中,所述步骤c中的“每一个信号通路的通路分数”均通过公式来实现;其中,es0(s)为排序后基因gj所在信号通路s的通路分数;m为排序后基因gj所在信号通路s中所含基因总数量;t(gj)为排序后基因gj的矫正分数。

其中,所述步骤d具体包括:

获取每一个基因的基因出度,并统计出最大基因出度max(d)和最小基因出度min(d);

根据公式得到每一个基因的基因出度权重;其中,d(gj)为排序后基因gj的基因出度;wd(gj)为排序后基因gj的基因出度权重。

其中,所述每一个基因的基因出度权重的取值范围为[1,2]。

其中,所述步骤e具体包括:

筛选出同一信号通路中所含基因对应的基因出度权重,并将所述筛选出的同一信号通路中所含基因对应的基因出度权重全部进行相乘,所得到的乘积分别作为每一个信号通路的修正系数;

将所述得到的每一个信号通路的修正系数与其对应的信号通路的通路分数相乘,得到的乘积作为修订后的每一信号通路的通路分数,并将所述修订后的每一信号通路的通路分数进行排序,确定排序后最大通路分数所对应的信号通路出现变化的概率最大。

实施本发明实施例,具有如下有益效果:

在本发明实施例中,根据基因与表型间相关性对基因进行排序,并根据基因频度统计出每一个信号通路的通路分数,且进一步充分考虑调控基因的重要性,结合每一个基因的基因出度对所统计出的每一个信号通路的通路分数进行修订,以修订后的通路分数来识别通路的重要性,从而达到提高通路的识别精度的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例提供的基于padog识别基因通路的方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图1所示,为本发明实施例中,提出的一种基于padog识别基因通路的方法,所述方法包括:

步骤s1、获取样本,并确定所述样本的信号通路以及每一个信号通路所含基因,且按照每一个基因与表型间相关性对所有信号通路中所含基因进行排序,进一步根据所述排序后的基因,确定每一个基因的基因频度及基因出度;其中,所述基因频度为基因在所述确定的信号通路中出现的总次数,所述基因出度为基因在所述确定的信号通路中调控下游基因的数量;

具体过程为,获取样本,确定样本的信号通路以及每一信号通路所含基因,并进一步确定基因的基因频度分布及基因出度分布。基因在通路中出现的频度(即基因频度)实际上反映了一个基因的特异性,频繁出现在很多通路中的基因属于一些“公共基因”,它们对通路的影响相对较小,而仅在一条或几条通路中出现的基因其特异性高,它们的差异表达对通路的影响基因就大。同理,基因出度表示的是一个基因调控的下游基因的数量,因此出度越大的基因,对通路的影响就越大。

同时,还按照每一个基因与表型间相关性对所有信号通路中所含基因进行排序,以便于统计出基因之间的矫正分数。假定所有基因总数为n,给定一个信号通路s,该信号通路s中基因数为m,按照每个基因g与表型间相关性r(或t统计量)对n个基因排序l=[g1,...,gj,...gn]。

步骤s2、根据所述确定的每一个基因的基因频度,统计出最大基因频度和最小基因频度,并根据所述统计出的最大基因频度和最小基因频度,确定每一个基因的基因频度权重;

具体过程为,获取每一个基因的基因频度,统计出最大基因频度max(f)和最小基因频度min(f);

根据公式得到每一个基因的基因频度权重;其中,f(gj)为排序后基因gj的基因频度;wf(gj)为排序后基因gj的基因频度权重,该值反映基因在通路中特异程度,且该值越大则基因在通路中特异程度越高,反之则特异程度越低,wf(gj)的取值范围在[1,2]之间,即每一个基因的基因频度权重的取值范围为[1,2]。

步骤s3、确定每一个信号通路所含基因总数量和排序后每一个基因的矫正分数,并根据所述确定的每一个信号通路所含基因总数量和排序后的每一个基因的矫正分数及其对应的基因频度权重,计算出每一个信号通路的通路分数;

具体过程为,使用信号通路中所有基因的加权绝对矫正分数和的均值来计算每一个信号通路的通路分数,即可通过公式来实现每一个信号通路的通路分数的计算;其中,es0(s)为排序后基因gj所在信号通路s的通路分数;m为排序后基因gj所在信号通路s中所含基因总数量;t(gj)为排序后基因gj的矫正分数。

步骤s4、获取每一个基因的基因出度,并统计出最大基因出度和最小基因出度,且进一步根据所述获取到的每一个基因的基因出度以及所统计出的最大基因出度和最小基因出度,计算出每一个基因的基因出度权重;

具体过程为,获取每一个基因的基因出度,根据获取到的每一个基因的基因出度,统计出最大基因出度max(d)和最小基因出度min(d);

根据公式得到每一个基因的基因出度权重;其中,d(gj)为排序后基因gj的基因出度;wd(gj)为排序后基因gj的基因出度权重,该值反映基因在通路中的重要性,该值越大则基因在通路中重要程度越高;反之则基因在通路中重要程度越低,wd(gj)的取值范围在[1,2]之间,即每一基因的出度权重的取值范围为[1,2]。

步骤s5、筛选出同一信号通路中所含基因对应的基因出度权重,并根据所筛选出的同一信号通路中所含基因对应的基因出度权重,对相应计算出的信号通路的通路分数进行修订,且进一步将所述修订后的每一个信号通路的通路分数进行排序,确定排序后最大通路分数所对应的信号通路出现变化的概率最大。

具体过程为,筛选出同一信号通路中所含基因对应的基因出度权重,并将筛选出的同一信号通路中所含基因对应的基因出度权重全部进行相乘,所得到的乘积分别作为每一个信号通路的修正系数;

将得到的每一个信号通路的修正系数与其对应的信号通路的通路分数相乘,得到的乘积作为修订后的每一信号通路的通路分数,并将修订后的每一信号通路的通路分数进行排序,确定排序后最大通路分数所对应的信号通路出现变化的概率最大,即通路分数排名越靠前则该信号通路倾向作为研究的价值越高。

实施本发明实施例,具有如下有益效果:

在本发明实施例中,根据基因与表型间相关性对基因进行排序,并根据基因频度统计出每一个信号通路的通路分数,且进一步充分考虑调控基因的重要性,结合每一个基因的基因出度对所统计出的每一个信号通路的通路分数进行修订,以修订后的通路分数来识别通路的重要性,从而达到提高通路的识别精度的目的。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如rom/ram、磁盘、光盘等。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1