基于调控-代谢网络整合模型预测微生物生长表型的方法

文档序号:9432869阅读:363来源:国知局
基于调控-代谢网络整合模型预测微生物生长表型的方法
【技术领域】
[0001] 本发明属于微生物技术领域,具体的说,涉及一种基因调控网络与代谢网络联合 建模的方法,其可用于预测微生物的生长表型。
【背景技术】
[0002] 目前,代谢网络建模是预测基因敲除对代谢表型影响的主要方法。代谢网络包含 所有酶、代谢物和生化反应之间的相互作用,全基因组范围代谢网络重构与分析能够发现 基因敲除、插入、异常表达、环境变化等对生物系统表型的影响。
[0003] 动力学模拟是分析代谢网络最直接有效的手段,但由于很多动力学参数未知使 得大规模网络的动力学分析受到限制。而基于约束的代谢流分析、基元模式和极端途经 分析、最优化方法等得到更加广泛的应用,其中流平衡分析最为常用。流平衡分析(Flux Balance Analysis)是一种基于约束的代谢网络分析方法,通过加入化学计量信息、热力学 信息、代谢能力约束等,将系统行为约束在一个封闭的解空间内,然后设置目标函数通过 线性规划得到最优解。通常目标函数设为细胞生物质合成最大、生长速率最快或某个目标 代谢物产量最高。
[0004] 以大肠杆菌和酵母为代表的微生物代谢模型研究中,流平衡分析能够比较准确地 模拟基因敲除对细胞生长的影响。流平衡分析可以不依赖于反应动力学参数等信息,快速 识别对生长或目标代谢物合成具有重要影响的必需基因,如果某个基因敲除造成生长速率 为零,则属于致死基因,不能改动;如果某个基因敲除或过表达能够提高目标代谢物产量, 则成为候选的改造基因。通过这种计算模拟的手段能够寻找可行的改造途径,对于代谢工 程高产菌株设计具有重要的指导意义。
[0005] 如果能够将基因调控网络整合进来,采用合理方式设定约束,将有助于提高代谢 流的预测,发现生物在不同环境下的响应变化,使得现有的代谢模型能更加精确地模拟基 因敲除对生长表型的影响。基因调控网络描述调控因子与目标基因之间的相互作用关系, 近年来有很多研究分别对两种网络进行构建和分析,但是将二者整合起来揭示转录调控对 代谢表型影响的研究较少。这是由于调控网络是基于统计推断的,而代谢网络是基于生化 知识的,如何实现基因组范围的调控网络与代谢网络整合是极富挑战的问题。

【发明内容】

[0006] 针对现有技术的不足,本发明的目的在于提供一种基于调控-代谢网络预测微生 物在不同环境下生长表型的方法。该方法简单、高效,预测结果准确。
[0007] 本发明提供一种基于调控-代谢网络整合模型预测微生物生长表型的方法,具体 步骤如下:
[0008] (1)首先构建基因调控网络,基于大量基因表达谱数据,用线性回归推断每个 目标基因随转录因子表达变化的线性方程,然后随机抽取部分表达谱数据进行若干次 bootstrap线性回归,根据转录因子和目标基因的调控关系在这若干个线性方程中出现与 否的概率,计算错误发现率FDR (False Discovery Rate),FDR表明该转录因子没有调控该 基因的比例。
[0009] (2)然后取FDR〈 = 0· 05的调控关系作为全局的调控网络;
[0010] (3)接着找出调控网络中调控代谢基因的转录因子,根据转录因子的类型,设定敲 除该转录因子时目标代谢基因表达的概率P (Gene = ON I Factor = OFF),如果是激活因子, 则P = FDR,如果是抑制因子,则P = I-FDR ;
[0011] (4)由代谢网络的流变分析FVA(Flux Variability Analysis)可得每个反应的最 大流值Vmax,对每个转录因子进行模拟敲除时,对每个反应施加相应的约束为Vmax*P,接 着进行目标函数为生长速率最大的流平衡分析,得出细胞生长速率对应的反应流值F。
[0012] (5)对于没有任何基因敲除的野生型代谢网络进行同样的流平衡分析得出最大细 胞生长速率Fmax,然后计算突变体相对于野生型的生长速率之比F/Fmax,即代表生长表型 的变化。
[0013] 本发明中,随机抽取部分表达谱数据进行150-300次bootstrap线性回归。
[0014] 本发明的有益效果在于,对比不施加其他约束的流平衡分析,结合了基因调控网 络的信息,使得分析的精确度提高,得以更好地预测微生物的生长表型。
【附图说明】
[0015] 图1是本发明方法预测生长表型的总体流程示意图。
[0016] 图2是以葡萄糖一铵为细胞生长底物时的ROC曲线的结果图示。
[0017] 图3是以半乳糖一铵为细胞生长底物时的ROC曲线的结果图示。
[0018] 图4是以葡萄糖一尿素为细胞生长底物时的ROC曲线的结果图示。
【具体实施方式】
[0019] 以下结合附图和实施例对本发明的技术方案作进一步描述。
[0020] 本发明的实施例中,采用的算法流程图如图1所示。本实施例以酵母为例,首先基 于已搜集的2929组酵母的基因表达谱数据,用线性回归推断每个目标基因随转录因子表 达变化的线性方程,若某转录因子在方程中的系数为正,则代表有激活作用,若系数为负, 则代表有抑制作用,若系数为零,则代表没有调控作用。然后随机抽取2929组表达谱数据 中的子集进行200次bootstrap线性回归,根据转录因子和目标基因的调控关系在这200 个线性方程中出现与否的概率,计算错误发现率FDR ;然后取FDR〈 = 0. 05的可靠调控关 系,形成包含2588对转录因子与目标基因的相互作用的酵母全局调控网络。
[0021] 接下来输入酵母的代谢网络,以Yeast6模型为例,该模型包含1888个反应,1458 个代谢物,900个编码酶的基因,用流平衡分析得出最大细胞生长速率Fmax。找出其中有调 控关系的代谢基因,根据调控其的转录因子类型,设定转录因子敲除时,该代谢基因表达的 概率P (Gene = ON I Factor = OFF),如果是激活因子,则P = FDR,如果是抑制因子,则P =I-FDR ;再对完整的Yeast6代谢网络进行流变分析,可得每个反应的最大流值Vmax,则对 每个转录因子进行模拟敲除时,将对每个反应施加新的约束为Vmax*P ;接着进行目标函数 为生长速率最大的流平衡分析,得出细胞生长速率的反应流值F ;最后计算突变体相对于 野生型的生长速率之比F/Fmax。
[0022] 下面验证预测结果的有效性,实验数据来源于文献i,共有三种环境下的实验数 据,分别以葡萄糖一铵,半乳糖一铵,葡萄糖一尿素为细胞生长的底物,对此我们也预测了 这三种情况下敲除转录因子的生长表型。将我们预测的突变体相对于野生型的生长速率之 比与实验中对应的比值进行比较,与实验对应上的有51个转录因子敲除的突变体,对每个 环境计算预测值与实验值这两组数据的Pearson相关性,结果如表1所示。
[0023] 表1预测值与实验值这两组数据的pearson相关性结果
[0025] 结果显示p值均小于0.05,可以认为我们的预测值与实验值显著线性相关。另外, 对实验值设定阈值,将数据二元化,表示是否影响生长;以此为标准,通过ROC曲线判断预 测结果是否能正确反映转录因子敲除对突变体生长的影响。
[0026] 图2、图3、图4分别显示了以葡萄糖一铵,半乳糖一铵,葡萄糖一尿素为细胞生长 底物的三种环境下ROC曲线的结果,其中对实验值设定了三个阈值分别为0. 2、0. 5和0. 8 ; 总体来说,所有的ROC曲线都在对角线之上,曲线下面积值如各图所示,因此说明预测的结 果可以有效判断转录因子敲除对生长的影响。综上,我们通过DIRAM方法可以有效地预测 酵母在三种不同环境下的生长表型。
[0027] 参考文献:
[0028] l、Fendt S Mj Oliveira A P,Christen S,et al. Unraveling condition - dependent networks of transcription factors that control metabolic pathway activity in yeast[J]. Molecular systems biology,2010, 6(I):432.
【主权项】
1. 一种基于调控-代谢网络整合模型预测微生物生长表型的方法,其特征在于将调控 与代谢两个层次有机结合,预测转录调控对生长表型的影响,具体步骤如下: (1) 首先构建基因调控网络,基于大量基因表达谱数据,用线性回归推断每个目标基因 随转录因子表达变化的线性方程,然后随机抽取部分表达谱数据进行若干次bootstrap线 性回归,根据转录因子和目标基因的调控关系在这若干个线性方程中出现与否的概率,计 算错误发现率FDR,FDR表明该转录因子没有调控该基因的比例; (2) 然后取FDR〈 = 0. 05的调控关系作为全局的调控网络; (3) 接着找出调控网络中调控代谢基因的转录因子,根据转录因子的类型,设定敲除该 转录因子时目标代谢基因表达的概率P(Gene= 0N|Factor=OFF),如果是激活因子,则P =FDR,如果是抑制因子,则P=I-FDR; (4) 由代谢网络的流变分析FVA可得每个反应的最大流值Vmax,对每个转录因子进行 模拟敲除时,对每个反应施加相应的约束为Vmax*P,接着进行目标函数为生长速率最大的 流平衡分析,得出细胞生长速率对应的反应流值F; (5) 对于没有任何基因敲除的野生型代谢网络进行同样的流平衡分析得出最大细胞生 长速率Fmax,然后计算突变体相对于野生型的生长速率之比F/Fmax,即代表生长表型的变 化。2. 根据权利要求1所述的方法,其特征在于,步骤(1)中,随机抽取部分表达谱数据进 行150-300次bootstrap线性回归。
【专利摘要】本发明公开了一种基于调控-代谢网络整合模型预测微生物生长表型的方法。该方法首先构建基因调控网络,基于大量基因表达谱数据,运行多次线性回归推断每个目标基因随转录因子表达变化的线性方程,计算错误发现率FDR;然后取FDR<=0.05的调控关系作为全局的调控网络,找出调控网络中调控代谢基因的转录因子,根据转录因子的类型,计算转录因子敲除时生长速率对应的反应流值F,并由原始代谢网络进行同样的流平衡分析得到最大细胞生长速率Fmax,通过计算F/Fmax预测微生物在转录因子敲除时的生长表型的变化。本发明方法使得分析的精确度提高,得以更好地预测微生物的生长表型。
【IPC分类】G06F19/00
【公开号】CN105184049
【申请号】CN201510484159
【发明人】王卓, 沈方舟
【申请人】上海交通大学
【公开日】2015年12月23日
【申请日】2015年8月10日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1