由连续的基因表达谱构建基因调控网络方法

文档序号:455682阅读:270来源:国知局
专利名称:由连续的基因表达谱构建基因调控网络方法
技术领域
本发明涉及生物芯片基因表达谱系统,大规模基因芯片连续表达谱数据的分析技术领域。特别是一种由连续的基因表达谱构建基因调控网络方法。
背景技术
基因表达谱芯片可以分为差异表达芯片和连续表达芯片。差异表达芯片可以同时检测正常组织和肿瘤组织的基因表达水平,发现异常表达的基因。连续表达芯片可以检测基因在组织中一段时间表达量的变化,发现基因表达量随时间变化的规律。发现基因变异和基因异常表达的检测芯片已经在临床上广泛应用,而连续表达芯片数据分析多应用在科学研究领域。
对连续表达芯片的分析目前仅停留在确定基因共表达的水平上。这种分析的方法应用于大规模基因表达谱数据的分析,起始于1998年建立的表达谱数据聚类的分析方法,当时的分析涉及了酵母细胞的6178个基因,共83个时间点的表达谱数据。聚类分析是利用基因两两之间表达谱的相似程度,确定共同表达的基因。
表达谱聚类分析的核心是确定基因两两之间的表达谱相似性的度量,直观的理解为基因两两之间的距离。基因间距离的计算有主要有三种方法即Pearson相关性、Euclidean距离和Spearman相关性。其中,Pearson相关性对基因表达水平起伏较大的调控关系敏感,而对基因绝对的表达量不敏感,是最常选用的基因间表达谱相似距离的计算方法。Euclidean距离的计算主要是根据基因的绝对表达量。如果在一段时间内,两个基因的表达十分一致,而它们的绝对表达量不同,它们之间的Euclidean距离也会很远。Spearman相关性分析主要是用在表达谱原始数据的分析上,因为它对数据中起伏较大的极值不敏感,其他方面它和Pearson相关性相当。
对表达谱进行基因调控关系的分析只能小规模的进行或者进行特定的分析。从大规模的基因表达谱数据提取基因调控网络信息是一个难题,原因如下,第一,基因数目多,调控关系复杂。例如,最简单的真核生物酵母有6000多个基因,人类估计有3-5万基因。这么多的基因,要实现总个生物体所有的生理功能,它们之间的调控关系的复杂性可想而知。
第二,现在对基因表达水平大规模测定的技术有限,不能准确地测定所有基因在一定时间范围内的表达水平。虽然基因芯片技术的发展可以同时测定成千上万个基因的表达水平,但是不能保证测定的这成千上万个基因的表达水平都具有很高的准确性,由这些数据来构造基因调控网络,准确性不会很高。

发明内容
本发明的目的在于提供一种由连续的基因表达谱构建基因调控网络方法。本发明的由连续的基因表达谱构建基因调控网络方法,很好的避免了上述从大规模的基因表达谱数据提取基因调控网络的局限。
本发明涉及的基因表达谱芯片数据,是利用基因芯片技术,对于特定生物组织(或细胞)采用按一定时间间隔取样的方法,在一定时间内(如一个细胞周期内),测定若干个基因多个时间点的表达水平。通过不同时间间隔来控制时间点的数目。通过选取较多的时间点(密的时间间隔),来降低基因芯片技术的本身的误差,使最终构建的基因调控网络更准确。
本发明设计的基因两两之间调控关系的距离计算方法,可以获得基因间的调控关系。这个距离表示了基因间表达量的时空关系,具有大小、方向和一定相位差。对于每两个基因,通过对多个相位差情况下分别计算调控关系的距离,取最优值,从而引入它们之间调控的相位信息。这样更有可能获得基因间真实的调控关系。这不同于对大规模芯片数据的基因共表达分析,后者只提供基因间没有相位差的距离。构建基因调控网络的方法是按照调控关系距离的绝对值大小顺序进行循环选择,全面考虑了基因之间的正调控和负调控。这种对正调控和负调控的考虑有别于普通的聚类方法。
在构建基因调控网络过程中,最新被选择的调控关系的两个基因和已经生成的调控网络当中的基因,如果有直接或间接的连接,在以后的选择过程中忽略它们之间的调控关系。这种策略简化了基因网络,只保留了最重要的调控关系,认为后生成的调控关系是对已生成的基因集团的调控。
这个方法可以应用到基因调控网络的研究,肿瘤组织相关基因网络的建立,疾病相关基因调控机制的研究等领域。利用这个方法和特定生理、病理的大规模的基因芯片表达谱数据,可以把连续表达芯片分析推广到临床应用领域。
发明技术方案一种由连续的基因表达谱构建基因调控网络方法,该方法包括如下步骤a)获得若干个基因的若干个时间点的连续表达谱基因芯片数据;b)确定所有基因两两之间的调控关系距离;c)选择特定基因间的调控关系距离构建基因调控网络。
所述步骤a)中的若干个基因的若干个时间点的连续表达谱基因芯片数据,是利用基因芯片技术,对于特定生物组织或细胞,采用按一定时间间隔取样的方法,在一段时间内(如一个细胞周期内),测定这些基因的多个时间点的表达水平。
所述步骤c)中构建基因调控网络,其方法是按照调控关系距离的绝对值大小顺序进行循环选择,每次循环增加两个基因间的一个调控关系进入待构建的基因调控网络。
所述基因调控网络的循环构建方法,在基因调控关系选择过程中,最新被选择的调控关系的两个基因和已经生成的调控网络当中的基因,如果有直接或间接的连接,在以后的选择过程中忽略它们之间的调控关系。
所述构建的基因调控网络是一个全连通的有权、有向网络,每个调控关系都具有大小、方向和相位,总个网络含有比所有基因的总数目少1的调控关系数。


图1是本发明的由连续的基因表达谱构建基因调控网络方法流程图。
图1中,显示了表达谱芯片数据的获得、基因调控关系距离计算,基因调控网路的生成等主要步骤。(以M个基因N个时间点为例)S1,利用基因芯片测定M个基因N个时间点的表达数据;S2,对于M个基因的每两个基因,通过对多个相位差情况下分别计算调控关系距离,取最优值作为它们间可能的调控关系;S3,用循环选择的方法构建基因调控网络,每次生成两个基因间的一个调控关系;S4,完成基因调控网络及对基因调控网络进行信息获取。
具体实施例方式
为实现上述目的,由连续的基因表达谱构建基因调控网络,需要以下四个步骤(见图1)1.获得连续表达谱芯片数据以M个基因为例,利用基因芯片测定M个基因的N个时间的基因表达谱数据。
对于特定的生物组织(或细胞),采用特定时间间隔取样的方法,利用基因芯片技术,测定M个基因的N个时间的表达谱数据。举例说明为人肝相关的2,000个基因在细胞培养的0分钟,5分钟,10分钟,15分钟,……,270分钟,275分钟,共56个时间点的表达水平就是一套连续的基因芯片表达谱数据。连续的基因芯片表达谱数据可以表示为M行N列组成的一个表,每一行表示一个基因,每一列是基因在各个时间点上的表达量。
2.基因两两间调控关系距离的确定对于M个基因的每两个,通过对多个相位差情况下分别计算调控关系距离,选取最优值作为它们间可能的调控关系。由计算过程中获得的调控关系距离的绝对值、正负符号和相位,确定这个调控关系的大小、方向和相位差。
以M个基因N个时间点的连续基因芯片表达谱数据为例。取M个基因每一个,和剩余的M-1个基因两两配对。对于调控关系距离的计算,可以是两个基因的相应的N个时间点对齐,也可以前后进行小于或等于k个错位。得到2k+1个相位调控关系距离D-k,D-k+1,D-k+2,……,D-1,D0,D1,……,Dk-1,Dk。
例如,计算相位差为p(取值[-k,k],k表示最大于允许相位差)的基因x和基因y间调控关系距离公式为Dp=Σi=max[1,p]min[N,N+p](xi-x‾)(yi+p-y‾)(Σi=1N(xi-x‾)2)(Σi=1N(yi-y‾)2),]]>其中,N表示总的时间点个数,xi和yi分别表示两基因的表达谱第i个时间点的表达量,x和y分别表示两个基因的N个时间点表达量的平均值,min和max分别指其中的最小值和最大值。
在2k+1个调控关系距离D-k,D-k+1,D-k+2,……,D-1,D0,D1,……,Dk-1,Dk,中取绝对值|Dp|最大的Dp作为基因x和基因y间可能的调控关系距离,距离Dp是-1和1之间的一个值。
调控关系方向由调控关系距离Dp中的p的符号确定p<0表示基因y调控基因x,p>0表示基因x调控基因y,p=0表示基因x和基因y互相调控(或者是共表达)。
调控关系相位由调控关系距离Dp的p等于绝对值|p|。
所述任两基因间的通过计算获得的2k+1个候选调控关系距离,选择其中绝对值最大的一个作为它们之间的调控关系距离。
所述被选择的调控关系距离,具有大小、方向和相位差,分别由该调控关系距离计算过程中获得的绝对值和正负符号和相位决定。
3.基因调控网络的构建方法以上计算出M个基因两两之间的调控关系的距离、方向和相位,利用循环选择的方法构建基因调控网络。按照调控关系距离的绝对值大小顺序进行循环选择,每次循环增加两个基因间的一个调控关系进入待构建的基因调控网络。在基因调控关系选择过程中,最新被选择的调控关系的两个基因和已经生成的调控网络当中的基因,如果有直接或间接的连接,在以后的选择过程中忽略它们之间的调控关系。具体方法如下a)找出调控关系距离的绝对值|Dp|最大两个基因,比如基因x和基因y,通过调控关系的距离、方向和相位确定基因x和基因y的相互关系。可能的调控关系是一下六种之一基因正x调控基因y(Dp>0;p>0)、基因正y调控基因x(Dp>0;p<0)、基因负x调控基因y(Dp<0;p>0)、基因负y调控基因x(Dp>0;p<0)、基因x与基因y共表达(Dp>0;p=0)和基因x与基因y抑制共表达(Dp<0;p=0)。如果基因x和基因y单向调控,调控的相位为|p|。纪录基因x和基因y的调控关系和相位。
b)把步骤a)已纪录的基因x和基因y合并成一个基因单元,去除它们之间的调控关系,在剩余的两两关系距离中重复步骤a)。
c)如果调控关系距离的绝对值|Dp|最大的两个基因,如x和y,其中之一或者两个都包含于已经合并的基因单元当中,在步骤b)中,把基因和基因单元或者基因单元和基因单元合并成更大的基因单元。在合成后生成的基因单元中,把所有基因间存在的调控关系删除。继续步骤b)。
经过M-1次循环,可以生成一个包含全部M个基因的调控关系的网络。基因间的调控是有方向和相位的,相位乘连续表达谱相邻时间间隔就是基因调控的时序。
4.基因调控网络的信息获取通过以上的步骤,形成了包含M个基因的基因调控关系的网络。利用以下的方法,可以对生成的这个网络的整体信息和局部信息进行抽提。
a)整体信息抽提整个网络就是所有M个基因的调控关系。
b)局部信息抽提在整个调控网络中去除最后生成的调控关系的两个基因之间的调控,就形成了两个子调控网络。每个子网络都可以按相同的方法去除当中最后生成的调控关系的两个基因间的调控,……,如此,循环可以遍历基因调控网络中任何的子调控网络的结构。
权利要求
1.一种由连续的基因表达谱构建基因调控网络方法,其特征在于该方法包括如下步骤a)获得若干个基因的若干个时间点的连续表达谱基因芯片数据;b)确定所有基因两两之间的调控关系距离;c)选择特定基因间的调控关系距离构建基因调控网络。
2.根据权利要求1所述的由连续的基因表达谱构建基因调控网络方法,其特征在于,所述步骤a)中的若干个基因的若干个时间点的连续表达谱基因芯片数据,是利用基因芯片技术,对于特定生物组织或细胞,采用按一定时间间隔取样的方法,在一段时间内,测定这些基因的多个时间点的表达水平。
3.根据权利要求1所述的由连续的基因表达谱构建基因调控网络方法,其特征在于,所述步骤b)中的两基因间的调控关系距离的计算方法,以基因x和y为例,它们之间调控关系距离的计算公式为Dp=Σi=max[1,p]min[N,N+p](xi-x‾)(yi+p-y‾)(Σi=1N(xi-x‾)2)(Σi=1N(yi-y‾)2),]]>其中,N表示总的时间点个数,xi和yi分别表示两基因的表达谱第i个时间点的表达量,x和y分别表示两个基因的N个时间点表达量的平均值,p为相位差(取值[-k,k],k表示最大于允许相位差),min和max分别指其中的最小值和最大值,通过计算,每对基因间有2k+1个候选的调控关系距离。
4.根据权利要求3所述的由连续的基因表达谱构建基因调控网络方法,其特征在于,所述任两基因间的通过计算获得的2k+1个候选调控关系距离,选择其中绝对值最大的一个作为它们之间的调控关系距离。
5.根据权利要求3或4所述的由连续的基因表达谱构建基因调控网络方法,其特征在于,所述被选择的调控关系距离,具有大小、方向和相位差,分别由该调控关系距离计算过程中获得的绝对值和正负符号和相位决定。
6.根据权利要求1所述的由连续的基因表达谱构建基因调控网络方法,其特征在于,所述步骤c)中构建基因调控网络,其方法是按照调控关系距离的绝对值大小顺序进行循环选择,每次循环增加两个基因间的一个调控关系进入待构建的基因调控网络。
7.根据权利要求6所述的由连续的基因表达谱构建基因调控网络方法,其特征在于,所述基因调控网络的循环构建方法,在基因调控关系选择过程中,最新被选择的调控关系的两个基因和已经生成的调控网络当中的基因,如果有直接或间接的连接,在以后的选择过程中忽略它们之间的调控关系。
8.根据权利要求6或7所述的由连续的基因表达谱构建基因调控网络方法,其特征在于,所述构建的基因调控网络是一个全连通的有权、有向网络,每个调控关系都具有大小、方向和相位,总个网络含有比所有基因的总数目少1的调控关系数。
9.根据权利要求1所述的由连续的基因表达谱构建基因调控网络方法,其具体步骤如下S1,利用基因芯片测定M个基因N个时间点的表达数据;S2,对于M个基因的每两个基因,通过对多个相位差情况下分别计算调控关系距离,取最优值作为它们间可能的调控关系;S3,用循环选择的方法构建基因调控网络,每次生成两个基因间的一个调控关系;S4,完成基因调控网络及对基因调控网络进行信息获取。
全文摘要
本发明涉及生物芯片基因表达谱系统,对大规模基因芯片连续表达谱数据的分析技术领域。特别是一种由连续的基因表达谱构建基因调控网络方法。该方法考虑基因调控的大小、方向和时间的相位差。通过大规模的基因芯片连续表达谱数据,考虑表达量随时间的变化情况,计算基因间的调控关系的距离,通过对基因间调控关系的距离的聚类分析,构建大规模的基因调控网络。其步骤a)获得若干个基因的若干个时间点的连续表达谱基因芯片数据;b)确定所有基因两两之间的调控关系距离;c)选择特定基因间的调控关系距离构建基因调控网络。
文档编号C12Q1/68GK1560271SQ200410005568
公开日2005年1月5日 申请日期2004年2月18日 优先权日2004年2月18日
发明者蔡伦, 李志广, 熊江辉, 蔡 伦 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1