高表达基因组合和其他生物组分组合的计算机模拟预测的制作方法

文档序号:3254577阅读:229来源:国知局
专利名称:高表达基因组合和其他生物组分组合的计算机模拟预测的制作方法
技术领域
本披露涉及预测影响生物过程的生物组分,并且更具体地说涉及使用一种生物过程的模型来确定经过预测会产生该生物过程的一个令人希望的表型结果的组分。
背景技术
常规的主要发现成果典型地集中在一种单一生物组分来改进一个表型结果。例如,常规系统可能集中在获得单一基因来改进各种作物物种的性状。具体来说,各种常规系统集中在单一基因发现来改进复杂性状(如玉米产量),这时常仅取得有限的成功。这种有限的成功至少部分可归因于一种单一组分(如一种基因)对一种生物过程(如一种复杂代谢或基因调节网络)的贡献太小以致不能显著影响性状。例如,因为该单一基因与其他基因组合起作用,所以过度表达或敲低该单一基因可能不对该代谢或基因调节网络具有显著影响。这一问题还可以适于其他生物和/或化学反应,其中多种组分对一个具体结果负责,这样使得修饰一种单独的单一组分可能不会对该具体结果具有作用。例如,影响一种生物过程(如一种生物化学反应)的多种酶可以足够地复杂,以致使一种单一酶的各种特征减弱可能不对该生物化学反应具有显著作用。常规系统还未能确定可产生如通过一个计算机模型所预测的局部或总体最佳的表型结果的单一组分或组分组合的最佳特征。换句话说,常规系统未能优化特征以使得一个计算机模型得以预测局部或总体最 大化的(或最小化的)表型结果。需要的是能够鉴定可以影响一种生物过程的一个表型结果的单一组分和/或组分组合。例如,需要的是能够确定哪些基因与其他基因组合可以被过度表达和/或敲低来改进性状。此外,常规发现技术可以集中在仅发现最佳的特征,这些特征典型地未能考虑到与所预测的最佳值的偏差。然而,出于各种原因,典型地无法体外或体内实现这样的最佳值。因此,因为可能无法实现最佳值,所以真实世界的实验可能无法实现所预测的结果。因此,需要的是能够确定在跨越各个最佳值的范围内具有鲁棒性的单一组分或组分组合的最佳值。存在这些和其他问题。发明概述在此描述了用于使用一种生物过程的模型来预测可促进该生物过程的候选组分(如基因)和/或组分组合(如基因组合)的各种系统、计算机程序产品以及方法。根据本发明的各种实现方式,对于多个组合中的每一个,其中该多个组合各自包含多个组分,该多个组分各自直接地或间接地影响一种生物过程的一个表型结果,一种用于选择各自影响该生物过程的候选组分组合的方法可以包括:基于是否该计算机模型使用一个最佳特征预测该表型结果的一个总体或局部最佳值来确定该多个组分中每一个的该最佳特征。对于该多个组合中的每一个,该方法可以包括:使用该计算机模型确定该多个组合中的每一个围绕与该相应多个组分中的每一个相关的这些最佳特征的灵敏度。出于制造展现出或将展现该表型结果的一种生物产品的目的,该方法可以进一步包括:基于所模拟的表型结果和对应于该多个组合中的每一个所确定的灵敏度来选择该多个组合中的一个或多个。根据本发明的各种实现方式,对于各个候选组分,其中各个候选组分直接地或间接地影响一种生物过程的一个表型结果,其中该表型结果是通过该生物过程的一个计算机模型来预测,一种用于选择影响该生物过程的候选组分的方法可以包括:基于是否该计算机模型使用一个最佳特征预测该表型结果的一个总体或局部最佳值来确定各个候选组分的该最佳特征。对于各个候选组分,该方法可以包括:使用该计算机模型确定围绕该最佳特征的灵敏度。出于制造展现出或将展现该表型结果的一种生物产品的目的,该方法可以进一步包括:基于该表型结果和该确定的灵敏度来选择一种候选组分。附图简要说明

图1是一个框图,展示了根据本发明的各种实现方式被配置成选择可促进一种生物过程的单一候选组分或候选组分组合的一种系统的一个实例。图2是一个流程图,展示了根据本发明的各种实现方式选择可促进一种生物过程的候选组分组合的一种方法的一个实例。图3是一个数据流程图,展示了根据本发明的各种实现方式确定最佳特征的一种方法的一个实例。图4是一个数据流程图,展示了根据本发明的各种实现方式对最佳特征执行灵敏度分析的一种方法的一个实例。图5是一个流程图,展示了根据本发明的各种实现方式选择可促进一种生物过程的单一候选组分的一种方法的一个实例。图6是一个19862的质粒图,显示了一个二元载体中的SoFBP、SoPRK以及ZmP印C表达盒。“Pr-”前缀表示一个启动子;“i_”前缀表示一个内含子;“e_”前缀表示一个增强子;“c_”前缀表示一个编码序列;“t_”前缀表示一个终止子。图7是一个19863的质粒图,显示了一个二元载体中的SoFBP、SbPPDK以及SbNADP-MD表达盒。“pr_”前缀表示一个启动子;“i_”前缀表示一个内含子;“e_”前缀表示一个增强子;“c_”前缀表示一个编码序列;“t_”前缀表示一个终止子。发明详细说明图1是一个框图,展示了根据本发明的各种实现方式被配置成对影响一种生物过程的单一候选生物组分或候选生物组分组合进行选择的一种系统100。根据本发明的各种实现方式,系统100除其他之外可以包括一个用户界面102、一个数据库110、一个计算机模型120以及一个计算装置130。在一些实现方式中,计算装置130从以下中选择:各种候选组合140 (图1中示为组合140A、140B、……、140N ;下文“组合140”),如生物组分104 (图1中示为组分104A、104B、104C、……、104N;下文“组分104”)的基因组合,如影响该生物过程的基因。在本发明的一些实现方式中,计算装置130除其他之外可以包括一个处理器132和一个存储器134。在一些实现方式中,处理器132包括被配置成执行计算装置130的各种功能的一个或多个处理器。在本发明的一些实现方式中,存储器134包括一个或多个有形的(即非暂时性的)计算机可读媒体。存储器134可以包括一个或多个指令,该指令当由处理器132执行时将处理器132配置成执行计算装置130的功能。

在一些实现方式中,计算装置130可以确定组分104的最佳特征,其导致该生物过程的如通过计算机模型120所预测的一个令人希望的表型结果。在一些实现方式中,计算机模型120可以包括被配置成预测表型结果或以其他方式模拟一种生物过程的各种数学函数、计算和/或其他指令。在一些实现方式中,计算装置130可以执行围绕这些最佳特征的灵敏度分析。该灵敏度分析可以用来确定候选组合140是否在跨越这些最佳特征的范围内具有鲁棒性。在一些实现方式中,计算装置130可以基于该灵敏度分析和该表型结果从各种候选组合140中选择。该一个或多个所选择的组合(图1中示为所选择的组合150)可以在展现出或将展现所预测的表型结果的一种生物产品中使用。在这些实现方式中,可以选择组分组合,预测这些组分组合可产生一个令人希望的表型结果。在一些实现方式中,计算装置130可以确定一种单一组分104的最佳特征,其导致该生物过程的如通过计算机模型120所预测的一个令人希望的表型结果。在一些实现方式中,计算装置130可以执行围绕这些最佳特征的灵敏度分析。该灵敏度分析可以用来确定单一组分104是否在跨越这些最佳特征的范围内具有鲁棒性。在一些实现方式中,计算装置130可以基于该灵敏度分析和该表型结果从各种候选组分104中选择。该选择的组分(图1中示为所选择的单一组分145)可以在展现出或将展现所预测的表型结果的一种生物产品中使用。在这些实现方式中,可以选择一种单一组分104,预测该单一组分可产生一个令人希望的表型结果。因此,根据本发明的各种实现方式,如在此使用本披露将理解的,计算装置130可以被配置成执行在此描述的各种功能以选择单一组分104和/或组分104的组合140。该生物过程可以包括但不限于由组分104和/或生物组分104的组合140调节或以其他方式受组分104和/或生物组分104的组合140影响的一种过程,如光合成和/或其他过程。因此,在一些实现方式中,代替分析一种单独的组分104和其对该生物过程的影响,可以分析和/或优化不同组合140来确定它们对该生物过程的作用。在一些实现方式中,可以分析一种单独的组分104和其对该生物过程的影响。在一些实现方式中,组分104和/或它们与该生物过程的关联可以被存储在数据库110中。换句话说,数据库110除其他之外可以存储被认为或确定影响或以其他方式影响该生物过程的各种组分1 04。在一些实现方式中,组分104可以包括但不限于:一种核酸序列,如一种编码基因的序列、mRNA或其他序列;一种基因产物,如一种蛋白质;和/或与其他组分104组合而影响该生物过程的其他生物/化学物质。在一些实现方式中,一种候选组合140包括一种基因组合。在这些实现方式中,组分104包括当与该基因组合中的其他基因组合时一起影响该生物过程的基因。在一些实现方式中,一种候选组合140包括一起调节、参与或以其他方式影响该生物过程的多种蛋白质,如酶。因此,可以选择具体组合140以实现对该生物过程的一种所希望的作用。在本发明的一些实现方式中,组分104可以各自直接地或间接地影响该生物过程的一个表型结果。该表型结果可以包括该生物过程可以被测量、预测或以其他方式观测的结果。例如,该表型结果可以包括光合成生物过程中二氧化碳的光同化。在一些实现方式中,组分104可以通过参与可影响一个表型结果的一个或多个过程(如生物化学反应)而直接地影响该表型结果。例如,组分104可以包括一种基因,它对可催化一种生物化学反应或以其他方式参与该生物过程的酶进行编码。在一些实现方式中,组分104可以通过影响可影响一个表型结果的另一种生物组分而间接地影响该表型结果。例如,组分104可以调节(如抑制或促进)另一种组分但不直接地参与可影响该表型结果的一个或多个过程。在一些实现方式中,计算机模型120可以模拟该生物过程。在一些实现方式中,计算机模型120可以预测该生物过程的一个表型结果。因此,例如,可以使用计算装置130来对改进光合成期间二氧化碳的光同化的各种组分104和/或组合140进行分析。在组分104包括基因的实现方式中,计算机模型120可以通过基于一种基因型预测一个表型结果来提供该基因型与其表型之间的联系。如将理解的,前文仅是非限制性实例;可以对其他生物过程和表型结果进行建模和/或预测。在一些实现方式中,组分104可以各自与如(例如)以下的各种特征相关:表达水平(如一种基因的表达水平)、量(如量或浓度)、动力学性质(如催化速率)、结合性质(如结合速率)、稳定性(如降解速率)、磷酸化状态(如磷酸化或脱磷酸化的速率)、基于对一种基因或蛋白质进行化学修饰的其他活性状态、甲基化状态、或乙酰化状态和/或可以影响该生物过程的组分104的其他特征。在一些实现方式中,组分104的特征可以包括是否在计算机模型120中包括组分104。例如,计算机装置130可以用来模拟对一种基因进行“敲除”以确定是否该敲除的基因预测可产生一个令人希望的表型结果。在一些实现方式中,计算机模型120可以将表示该敲除的基因的一 种变量从计算机模型120中去除。在一些实现方式中,计算机模型120可以将一个表达水平或其他特征设定成零(或实质上是零)来实现这一作用。以此方式,从该模拟中的敲除或以其他方式消除的特征可以有助于预测敲除对该表型结果的作用。在一些实现方式中,一种组分104的各个特征的变化可以对该生物过程具有不同作用。例如,在其他酶的一种组合中一种具体酶的不同量可以对该生物过程具有不同作用。因此,可以优化组分104的特征,以使得可通过计算机模型120预测对该生物过程的一种令人希望的作用。在一些实现方式中,计算机模型120可以用来预测这样的作用。以此方式,可以预测组合140、组分104、组分的特征和/或输入参数的作用以确定其对该生物过程的单独或组合的作用,以使得可以实现一种所希望的作用。在一些实现方式中,该希望的作用可以测量为一个预定量和/或与该表型结果的一个基线水平的一个比较。例如,可以针对通过模型120所预测的一个具体的二氧化碳同化水平来测量对该生物过程的该希望的作用。在另一个实例中,该希望的作用可以是通过模型120所预测的二氧化碳同化水平相比于一个基线二氧化碳同化水平的一个具体的增加百分比。在本发明的一些实现方式中,计算机模型120除其他之外可以将有待修饰的一种单一候选组分和/或有待修饰的组合140作为输入,并且可以基于该单一候选组分和/或组合140来模拟一种生物过程。例如,计算机模型120可以基于对可以参与光合成的一种单一候选组分的修饰的作用和/或对各自包括可以参与光合成的组分104的各种组合140的修饰的作用来模拟光合成。在本发明的一些实现方式中,计算机模型120可以被配置成接受与组合140和/或组分104相关的各种输入。在本发明的一些实现方式中,这些输入中的至少一部分可以经由用户界面102被接受。因此,系统100的用户可以通过指示一个或多个组分104、与组分104相关的各种特征和/或有待包括在该模拟内的其他输入参数经由用户界面102指定有待测试的一个或多个组合140。以此方式,一名用户可以经由系统100初始化或以其他方式设置计算机模拟地运行的一个实验,这样使得计算装置130可以选择组合140和/或特征,预测该组合和/或特征可对该生物过程产生一种令人希望的作用。在一些实现方式中,计算装置130可以基于是否计算机模型120使用一个最佳特征预测该表型结果的一个总体或局部最佳值来确定组分104中每一个的该最佳特征,以使得可以实现对该生物过程的一种所希望的作用。一个“最佳特征”可以包括一种具体变体或包括围绕该最佳特征的一个窗的变体范围,预测该最佳特征可产生比与次最佳特征相关的其他表型结果更令人希望的某一个表型结果。换句话说,该最佳特征(如一个具体的基因表达水平或其他特征)可以包括一个特征,预测该特征可产生比一个非最佳的特征更为所希望的一个表型结果。在一些实现方式中,该希望的表型结果可以包括一个总体或一个局部最佳值。换句话说,各种特征可以致使计算机模型120预测各种表型结果,其中一些可以是局部最佳值(即大于或小于邻近结果的表型结果)或总体最佳值(即大于或小于实质上所有其他结果的表型结果)。在一些实现方式中,局部或总体表型结果表示令人希望的表型结果。因此,当优化特征时,可以取决于特征是否致使计算机模型120预测总体或局部最佳表型结果来将这些特征确定为最佳。在这些实现方式中,当计算机模型120预测总体或局部最佳表型结果时,可以将特征确定为最佳。在一些实现方式中,一个最佳特征可以包括基因表达(它导致(例如)一种蛋白质的表达)的水平或水平范围,预测该水平或水平范围可产生比与一个次最佳表达水平相关的一个表型结果更令人希望 的一个表型结果。例如,一种基因的一个最佳表达水平可以包括一种过度表达,该过度表达是通常出现或以其他方式预测为天然出现于一种植物中的基因的表达水平的150% (下文为方便起见1.5X )。在一些实现方式中,可以使用围绕并且包括该最佳特征的一个窗。例如,一个窗可以包括1.5X的最佳过度表达水平以及围绕该最佳水平的一个范围(如1.2X-1.5X、1.2X-1.6X、1.5X-1.7X等等)。如将理解的是,在此实例中,一个最佳表达水平可以高于一个次最佳表达水平,反之亦然。因为计算机模型120可以基于(例如)该基因和其表达水平来预测一个表型结果,所以可以模拟不同表达水平来预测其对该表型结果的作用。以此方式,计算装置130可以确定针对组分104中每一个的产生一个令人希望的表型结果的一个最佳特征或特征范围。 在一些实现方式中,该令人希望的表型结果可以包括该表型结果相比于一个基线结果的高于一个预定义的水平的一个增加。如将理解的,该令人希望的表型结果可以包括该表型结果相比于一个基线结果的低于一个预定义的水平的一个减少。在一些实现方式中,该基线结果可以包括当(例如)以正常表达水平表达一种基因组合的基因时通过模型120预测的一个表型结果,这样使得可以对该基因组合的基因的过度表达和/或欠表达的作用进行确定并且针对正常表达水平进行比较。在本发明的一些实现方式中,计算装置130可以执行一种最佳化过程,该最佳化过程确定对于一种单一候选组分和/或组合140的组分104中每一个的一个最佳特征。在一些实现方式中,就图3而进一步描述的最佳化过程可以使用一种演化算法。换句话说,在一些实现方式中,计算装置130可以执行一种最佳化过程(如图3中所示出的过程),该最佳化过程确定对于一种单一候选组分的一个最佳特征。在一些实现方式中,计算装置130可以执行一种最佳化过程(如图3中所示出的过程),该最佳化过程确定对于组合140的组分104中的每一个的一个最佳特征。在一些实现方式中,不论对单一候选组分和/或组合140,该演化算法都可以用来减少对计算装置130的计算负担。然而,如将理解的,可以使用其他最佳化过程。例如,最佳化过程可以包括但不限于一种基于梯度的例程、一种直接检索算法、一种遗传算法、一种粒子群算法、模拟的退火和/或其他最佳化例程。在一些实现方式中,对于一种单一候选组分和/或各个组合140,计算装置130可以使用计算机模型120确定该生物过程围绕与相应组分104中的每一个相关的最佳特征的灵敏度。在本发明的一些实现方式中,计算装置130可以通过执行一种灵敏度分析来确定灵敏度。在一些实现方式中,该灵敏度分析的结果可以用来选择在围绕最佳特征的特征范围内具有鲁棒性反应的单一候选组分和/或组合140。换句话说,可以使用该灵敏度分析的结果将在围绕相应组分104的最佳特征的范围内不展现出一个所希望的表型结果的一种单一候选组分或一种组合140过滤掉,该灵敏度分析就图4而进一步描述。因此,在一些实现方式中,当选择一种单一候选组分时,计算装置130可以执行灵敏度分析(如图4中所展示的灵敏度分析)。在一些实现方式中,当选择一种组合140时,计算装置130可以执行灵敏度分析(如图4中所展示的灵敏度分析)。在一些实现方式中,出于制造展现出或将展现该表型结果的一种生物产品的目的,计算装置130可以基于该表型结果和对应于组合140中的每一个所测定的灵敏度来选择一种单一候选组分或组合140中的一个或多个。该生物产品可以包括一种有机体、一种祖源(如种子)、一种生物构造(如一种细胞或核酸序列)和/或其中所选择的候选组分或组合140可以用来产生该表型结果的其他生物产品。在一些实现方式中,该生物产品可以根据如但不限于以下的常规技术来产生:对一种现有的有机体进行基因修饰或以其他方式工程改造、育种、选择等位基因和/或使用能够制造该生物产品的其他常规技术。在一些实现方式中,该选择的单一候选组分或组合140在最佳特征范围内具有鲁棒性反应。因为可能难以产生展现出该确切的最佳特征或以其他方式包括该确切的最佳特征的一种生物产品,所以该鲁棒性反应可以是所希望的。通过选择在最佳特征范围内具有鲁棒性反应的单一候选组分和/或组合140,尽管未能将这些最佳特征包括在内或以其他方式表现这些最佳特征,但该生物产品可以展现出所希望的表型结果。例如,可以预测对于包括组分104 (如基因)的一种组合140 (如一种基因组合)的一个令人希望的表型结果。可以基于该基因组合的各个基因的一个最佳表达水平来预测令人希望的表型结果。然而,当制造具有该基因组合的一种生物产品时,实际表达水平可以不同于如所预测的最佳表达水平。如果该基因组合在最佳表达水平内不具有稳定性,那么可能无法在该生物产品中观测到所预测的表型结果。如在此基于本披露将理解的,上述情况可以适用于单一基因候选者。在一些实现方式中,可以测定一种单一候选组分或组合140的灵敏度以确定其在相应组分104的最佳特征范围内的鲁棒性。在以上实例中,可以通过模拟围绕这些基因的各个最佳表达水平的表达水平范围并且预测相应表型结果来确定该基因组合的灵敏度。如果对于围绕各个最佳表达水平的表达水平范围所预测的表型结果在与该最佳表达水平相关的表型结果的预定义的 差异内,那么认为该组合140具有鲁棒性。另一方面,当对于围绕各个最佳表达水平的表达水平范围所预测的表型结果超出该预定义的差异时,可以认为该组合140不具有鲁棒性并且因此将它过滤掉。如将理解的,这些差异可以经由平均值、标准偏差和/或与所预测的表型结果相关的其他统计度量来测量。在一些实现方式中,通过执行灵敏度分析,计算装置130可以基于单一候选组分是否在最佳特征范围内具有鲁棒性来选择单一候选组分,以使得该选择的候选组分更有机会展现围绕最佳特征范围的所预测的表型结果。在一些实现方式中,通过执行灵敏度分析,计算装置130可以基于组合140是否在最佳特征范围内具有鲁棒性来选择组合140,以使得所选择的组合140更有机会展现围绕最佳特征范围的所预测的表型结果。在一些实现方式中,计算装置130可以基于该确定的灵敏度来确定该多个组分中每一个的一个第二最佳特征。例如,在确定一个具体特征是否在一个范围内具有鲁棒性时,计算装置130可以确定与该范围中不同的一个最佳特征。在一些实现方式中,该确定的第二最佳特征可以产生如通过计算机模型120所预测的比该最佳特征更令人希望的一个表型结果。在一些实现方式中,计算装置130可以确定选择标准,它可以用来选择可以影响该生物过程的各种单一候选组分。在一些实现方式中,计算装置130可以确定选择标准,它可以用来选择可以影响该生物过程的各种候选组合140。在一些实现方式中,计算装置130可以通过直接地确定该选择标准或以其他方式通过如从一个用户操作的用户界面102接受该选择标准来确定该选择标准。在本发明的一些实现方式中,该选择标准可以包括一种组分104在候选组合140中出现的频率(在选择组合140的实现方式中)、实验性实施的难度水平的指示、应或不应使用组分104的指示和/或可以用来进一步选择单一候选组分或候选组合140的其他标准。在选择组合140的一些实现方式中,该频率可以指示组分104是否是对该生物过程的一个重要影响因素。例如,不同基因组合中频繁`地出现、预测可影响一个表型结果的一种基因可能是一种重要基因。在另一个实例中,不同酶组合中出现、预测可影响该表型结果的一种具体酶可以显著影响该表型结果。因此,在一些实现方式中,计算装置130可以基于该频率来选择候选组合,以使得所选择的组合140包括具有一个具体频率的一个或多个组分104,其中组分104是各种组合140的一个成员。在一些实现方式中,计算装置130可以使用实验性实施的难度水平的指示来将组分104过滤掉。在选择组合140的一些实现方式中,计算装置130可以将包括组分104的候选组合140过滤掉。例如,计算装置130可以在接受到组分104 (如一种基因)难以操纵的一个指示后将组分104过滤掉。在另一个实例中,计算装置130可以在确定组分104(如一种蛋白质)难以在实验室中纯化或以其他方式以实验方式实施的指示后将组分104过滤掉。在另一个实例中,计算装置130可以基于组分104的阳性或阴性指示将组分104过滤掉或包括在内。例如,在确定因为组分104与所有权相关而不应使用它后,计算装置130可以将组分104过滤掉。另一方面,在确定组分104可自由地供使用后,计算装置130可以将组分104包括在内。如将理解的,这些和其他指示/选择标准可以被存储在数据库110中和/或经由用户界面102来输入。在操作中,计算装置130可以基于其对该生物过程的一个表型结果的所预测的影响来选择各种单一候选基因或各种基因组合。在一些实现方式中,计算装置130可以基于一名用户的输入来作出这一确定。例如,该用户可能希望确定具体基因或基因组合是否可以改进该表型结果。在一些实现方式中,计算装置130可以基于与该生物过程相关的信息来作出这一确定。例如,数据库Iio可以包括被认为或被确定参与该生物过程的各种组分104。在一些实现方式中,计算装置130可以测定一种候选基因或基因组合的各个基因的最佳过度表达水平。如将理解的,适当时,还可以确定该候选基因或基因组合的各个基因的最佳欠表达水平(包括零表达)。以此方式,可以对预测可产生一个令人希望的表型结果的基因的最佳表达水平进行确定。在一些实现方式中,计算装置130可以执行围绕该候选基因的最佳表达水平的灵敏度分析。在一些实现方式中,计算装置130可以执行围绕对于该基因组合的最佳表达水平的灵敏度分析。该灵敏度分析可以用来确定这些候选基因或基因组合是否在这些最佳表达水平范围内具有鲁棒性。在一些实现方式中,计算装置130可以基于该灵敏度分析和该表型结果来选择各种候选基因或基因组合。以此方式,可以确定这些候选基因或基因组合的鲁棒性,以使得即使当无法实现这些最佳表达水平时,仍然可以展现所预测的表型结果。如将理解的,前述操作 仅是出于示意性目的的一个非限制性实例。其他组合140、组分104和/或特征可以用来确定它们对生物过程的其他表型结果的影响。如将理解的,尽管图1中示为与彼此不同,但系统100的各个部分和它们相关的功能可以与其他部分一起包括在内。例如,用户界面102、数据库110和/或计算机模型120可以与计算装置130的一个存储器不同或包括在该存储器内。图2是一个数据流程图,展示了根据本发明的各种实现方式对影响一种生物过程的候选组分组合进行选择的一种方法200。在此更详细地描述了图2中(和其他图式中)所描绘的各种处理操作和/或数据流。可以使用上文详细地描述的一些或所有系统组件来实现对于流程图所描述的操作,并且在本发明的一些实现方式中,可以按不同顺序执行各种操作。根据本发明的各种实现方式,可以与所描绘的流程图中所示的一些或所有操作一起执行另外的操作。在另外的其他实现方式中,可以同时执行一个或多个操作。因此,如所示出(并且下文更详细地描述)的操作性质上是实例,并且因此不应被视作是限制性的。此外,如在此基于本披露将理解的,当选择单一候选组分和/或组合140时,可以应用图2中(和其他图式中)所描绘的各种处理操作和/或数据流。换句话说,在一些实现方式中,当选择单一候选组分时,可以使用图2中(和其他图式中)所描绘的各种处理操作和/或数据流。在一些实现方式中,当选择组合140时,可以使用图2中(和其他图式中)所描绘的各种处理操作和/或数据流。在一些实现方式中,方法200可以对影响一种生物过程的候选组分组合进行选择。在一些实现方式中,该多个组合各自包括多个组分。该多个组分可以各自直接地或间接地影响一个表型结果,其是通过模拟该生物过程的一个计算机模型来预测。在一个操作202中,方法200可以基于是否该计算机模型使用一个最佳特征预测该表型结果的一个总体或局部最佳值来确定该多个组分中每一个的该最佳特征。例如,可以基于如通过模拟光合成的一个模型所预测的一种基因组合的各个基因对二氧化碳同化的作用来测定它的一个最佳表达水平(以例如酶的量形式观测)。以此方式,一种候选基因组合例如可以包括基因和对应于一个所希望的表型结果的相关的最佳表达水平的组合。当通过该计算机模型所预测的二氧化碳同化水平处于一个总体或一个局部最佳值时,可以认为一个表达水平最佳。
在一个操作204中,对于该多个组合中的每一个,方法200可以使用该计算机模型确定对于该多个组合中每一个围绕与该相应多个基因中的每一个相关的最佳特征而言的该生物过程的灵敏度。例如,这些候选基因组合中的每一个的灵敏度分析可以用来确定这些候选基因组合是否对这些相应基因中的每一个的最佳表达水平的变化敏感。在一个操作206中,出于制造展现出或将展现该表型结果的一种生物产品的目的,方法200可以基于该表型结果和对应于该多个组合中的每一个所确定的灵敏度来选择该多个组合中的一个或多个。例如,可以基于其中预测一种基因组合可产生的一个表型结果并且基于该确定灵敏度来选择该候选基因组合。以此方式,即使当在例如实验室实验和/或制造期间未能在该生物产品中实现最佳表达水平时,对最佳表达水平的变化相对不敏感的候选基因组合也可以产生所预测的表型结果或可接受地接近(基于一个预定义的差异)于所预测的表型结果的一个表型结果。图3是一个数据流程图,展示了根据本发明的各种实现方式确定最佳特征的一种方法202的一个实例。在一些实现方式中,方法202使用一种演化算法来确定该最佳特征。在此描述的演化算法可以通过随机地调节(即引入一个变化)一个群体中一种组分或组分组合的一个或多个特征并且预测该调节对如通过一个模型(如计算机模型120)所预测的表型结果的作用来模拟迭代。可以选择基于通过模型的预测具有最大成功(即产生最令人希望的表型结果)的组分或组分的组合140用于下一个迭代或产生组分或组分组合,并且重复该过程直到满足收敛。在一个操作302中,方法202可以确定或以其他方式接受候选组分或组合140。在一些实现方式中,可以选择所有组分或组分104的组合。在这些实现方式中,组分104的数目可以是足够小的,以使得可以处理组分104的所有组合。在一些实现方式中,可以选择对组分104的所有组合的取样。在这些实现方式中,组分104的数目可以是足够大的,以使得处理组分104的所有组合可能是计算上禁止的。在一些实现方式中,可以基于对先前分析的组合140进行加权来对组合140取样。例如,可以使用回归分析来确定权重,其中一种回归因子可以包括对先前分析的组合140进行描述的变量,并且一种回归可以包括针对这些组合140所预测的特征(如表型结果)。在一些实现方式中,可以通过0-1 (“虚拟的”)变量来描述组合140,这些变量指示组合140中各个组分104 (如一种基因)的存在或不存在。在一些实现方式中,该回归因子可以包括相互作用项,其指示组合140中组分104对的存在或不存在。在一些实现方式中,该回归分析可以包括所测量的性状水平或基于先前对具体组合140的实验室研究所确定的其他特征、衍生自其他计算机模拟方法的预测和/或其他科学假设。在一些实现方式中,根据该回归分析的结果,可以将组合140的至少一些组分104加权成高于与一个令人希望的表型结果无关的其他组分104。然而,如将理解的,假如有足够的计算资源和/或时间,可以处理任何数目的组合 140。在一个操作304中,方法202可以将一个随机变化引入一种单一候选组分(如例如表I中所示出)或组合140内的组分104 (如例如表2中所示出)的特征中。例如,方法202可以指示在一个迭代中一种酶的表达水平是 该酶的基线表达水平的1.2X。在与组合140相关的一些实现方式中,组合140的至少一个组分104的特征可以是变化的。在与组合140相关的一些实现方式中,组合140的各个组分104的特征可以是变化的。在一个操作306中,方法202可以预测(或使得例如通过计算机模型120预测)该变化的表型结果。在以上实例中,方法202可以预测表达水平是基线水平的1.2X的酶的表型结果。在一些实现方式中,一种单一候选组分或组合140内的组分104的特征的随机变化可以被约束在一个具体的值或值的范围。在一些实现方式中,一种基因的表达水平可以被约束在一个可允许的表达范围。在这些实现方式中,在操作304中,方法202可以使最佳表达水平在该可允许的表达范围内变化。在一些实现方式中,一名用户可以使用一个界面(如用户界面102)来输入这些约束条件。例如,一名用户可以输入一个可允许的表达范围,以使得该最佳表达范围的变化不超出该可允许的表达范围。在一个操作308中,方法202确定是否满足收敛。在一些实现方式中,当所预测的表型结果在迭代数目的一个具体公差内从一个迭代到下一个迭代实质上保持相同时,满足收敛。在一些实现方式中,当执行了足够(一个具体数目)的迭代时,这些迭代自动地终止。在操作308中,如果不满足收敛,那么可以使处理进入一个操作310,其中选择有待变化的一个或多个特征。例如,概念上说,选择最合适的一代以便将一个变化引入该最合适的一代中。在一些实现方式中,可以在操作310中选择被预测可产生最好表型结果的一组特征。在选择后,可以使处 理返回到操作304,其中将一个变化引入所选择的这个或这些特征中。例如,具有1.3X表达水平的一个特征的一个随机变化可以产生相比于其他所测试的表达水平最好的表型结果。在此实例中,可以在操作310中选择具有1.3X表达水平的随机变化,以使得在操作304中将一个随机变化引入该1.3X表达水平中。返回到操作308,如果满足收敛,那么可以使处理进入一个操作312,其中可以选择对该表型结果具有影响的一个迭代作为最佳特征。在一些实现方式中,可以选择对该表型结果具有影响的最后一个迭代。在一些实现方式中,可以选择对该表型结果具有最大影响的最后一个迭代。例如,参考表I和2,表型结果P被表示为一个数目,其中越高的P值指示越令人希望的表型结果。表I展示了随机地改变一种单一候选组分的一个特征。表2展示了随机地改变组分1、2以及N的组合的特征。P值仅出于示意性目的而使用。在一些实现方式中,越低的P值可能是越令人希望的。在一些实现方式中,P值可以表示任何可测量的表型结果。根据表1,可以将特征的随机变化从一个迭代(I1、12、……、IN)引入下一个迭代,其相应表型结果P如通过一个计算机模型(如计算机模型120)所预测。在一些实现方式中,可以选择表I的迭代14作为对应于1.3 X过度表达的最佳过度表达水平。在一些实现方式中,可以选择表2的迭代14作为组分I的1.1X过度表达、组分2的1.0X表达、组分N的0.8X表达的最佳过度表达水平。如将理解的,表I和2中所示出的这些值仅是说明性的。此外,在优化组分组合的实现方式中,各个组分的特征可以在如表2中所示出的一个迭代中分别地随机地变化;或可以在一个迭代中一起随机地变化,以使得各个组分的特征以与彼此相同的方式变化(表2中未示出)。表1.
权利要求
1.一种用于选择各自影响一种生物过程的候选组分组合的计算机实施方法,该方法包括: 对于多个组合中的每一个,其中该多个组合各自包括多个组分,该多个组分各自直接地或间接地影响该生物过程的一个表型结果,其中该表型结果是通过该生物过程的一个计算机模型来预测, 通过至少一个计算装置的一个或多个处理器,基于是否该计算机模型使用一个最佳特征预测该表型结果的一个总体或局部最佳值来确定该多个组分中每一个的该最佳特征; 对于该多个组合中的每一个,通过该至少一个计算装置,使用该计算机模型确定该多个组合中的每一个围绕与该相应多个组分中的每一个相关的这些最佳特征的灵敏度;以及 出于制造展现出或将展现该表型结果的一种生物产品的目的,基于该表型结果和对应于该多个组合中每一个所测定的灵敏度来选择该多个组合中的一个或多个。
2.如权利要求1所述的计算机实施方法,其中该多个组合各自包括一种基因组合,该多个组分各自包括多个基因,并且这些最佳特征包括该多个基因中每一个的最佳表达水平。
3.如权利要求2所述的计算机实施方法,其中该多个基因包括至少两种基因。
4.如权利要求2所述的计算机实施方法,其中该多个基因包括三种或四种基因。
5.如权利要求1所述的计算机实施方法,其中该多个组分中的至少一个包括影响该生物过程的一种酶。
6.如权利要求1所述的计算机实施方`法,其中该最佳特征包括以下中的至少一种:表达水平、量、动力学性质、结合性质、稳定性、磷酸化状态、甲基化状态、或乙酰化状态。
7.如权利要求1所述的计算机实施方法,其中这些最佳特征各自包括围绕并且包括这些最佳特征的一个窗。
8.如权利要求1所述的计算机实施方法,进一步包括: 通过该至少一个计算装置,确定用于该多个组分中的至少一个的一种选择标准,其中选择该多个组合中的一个或多个是进一步基于所确定的选择标准。
9.如权利要求8所述的计算机实施方法,其中该选择标准包括以下中的一个或多个:该多个组分中的至少一个在该多个组合中出现的频率;该多个组分中的至少一个的实验性实施的难度水平的指示;或应或不应使用该多个组分中的至少一个的指示。
10.如权利要求1所述的计算机实施方法,进一步包括: 通过该至少一个计算装置,基于该多个组合中的每一个的所预测的表型结果来确定其等级,其中选择该多个组合中的一个或多个是进一步基于该确定的等级。
11.如权利要求1所述的计算机实施方法,进一步包括: 通过该至少一个计算装置,基于该灵敏度分析来确定一个鲁棒性评分,其中选择该多个组合中的一个或多个是进一步基于该鲁棒性评分和一个预定义的截止值。
12.如权利要求1所述的计算机实施方法,进一步包括: 通过该至少一个计算装置,基于该确定的灵敏度来确定该多个组分中每一个的一个第二最佳特征。
13.一种用于选择各自影响一种生物过程的候选组分组合的系统,该系统包括: 包括一个或多个处理器的一个计算装置,该一个或多个处理器被配置成:对于多个组合中的每一个,其中该多个组合各自包括多个组分,该多个组分各自直接地或间接地影响该生物过程的一个表型结果,其中该表型结果是通过该生物过程的一个计算机模型来预测, 基于是否该计算机模型使用一个最佳特征预测该表型结果的一个总体或局部最佳值来确定该多个组分中每一个的该最佳特征; 对于该多个组合中的每一个,使用该计算机模型确定该多个组合中每一个围绕与该相应多个组分中每一个相关的这些最佳特征的灵敏度;以及 出于制造展现出或将展现该表型结果的一种生物产品的目的,基于该表型结果和对应于该多个组合中的每一个所确定的灵敏度来选择该多个组合中的一个或多个。
14.如权利要求13所述的系统,其中该多个组合各自包括一种基因组合,该多个组分各自包括多个基因,并且这些最佳特征包括该多个基因中每一个的最佳表达水平。
15.如权利要求14所述的系统,其中该多个基因包括至少两种基因。
16.如权利要求14所述的系统,其中该多个基因包括三种或四种基因。
17.如权利要求13所述的系统,其中该多个组分中的至少一个包括影响该生物过程的一种酶。
18.如权利要求13所述的系统,其中该最佳特征包括以下中的至少一种:表达水平、量、动力学性质、结合性质、稳定性、磷酸化状态、甲基化状态、或乙酰化状态。
19.如权利要求13所述的系统,其中这些最佳特征各自包括围绕并且包括这些最佳特征的一个窗。
20.如权利要求13所述的系统,该一个或多个处理器进一步被配置成: 确定用于该多个组分中的至少一个的一种选择标准,其中选择该多个组合中的一个或多个是进一步基于该确定的选择标准。
21.如权利要求20所述的系统,其中该选择标准包括以下中的一个或多个:该多个组分中的至少一个在该多个组合中出现的频率;该多个组分中的至少一个的实验性实施的难度水平的指示;或应或不应使用该多个组分中的至少一个的指示。
22.如权利要求13所述的系统,该一个或多个处理器进一步被配置成: 基于该多个组合中每一个的所预测的表型结果来确定其等级,其中选择该多个组合中的一个或多个是进一步基于该确定的等级。
23.如权利要求13所述的系统,该一个或多个处理器进一步被配置成: 基于该灵敏度分析来确定一个鲁棒性评分,其中选择该多个组合中的一个或多个是进一步基于该鲁棒性评分和一个预定义的截止值。
24.如权利要求13所述的系统,该一个或多个处理器进一步被配置成: 基于该确定的灵敏度来确定该多个组分中每一个的一个第二最佳特征。
25.一种用于对影响一种生物过程的候选组分进行选择的计算机实施方法,该方法包括: 对于各个候选组分,其 中候选组分各自直接地或间接地影响该生物过程的一个表型结果,其中该表型结果是通过该生物过程的一个计算机模型来预测, 通过至少一个计算装置的一个或多个处理器,基于是否该计算机模型使用一个最佳特征预测该表型结果的一个总体或局部最佳值来确定各个候选组分的该最佳特征;对于各个候选组分,通过该至少一个计算装置,使用该计算机模型测定围绕该最佳特征的灵敏度;以及 出于制造展现出或将展现该表型结果的一种生物产品的目的,基于该表型结果和该确定的灵敏度来选择一种候选组分。
26.如权利要求25所述的计算机实施方法,其中该候选组分包括一种基因并且该最佳特征包括该基因的最佳表达水平。
27.如权利要求25所述的计算机实施方法,其中该候选组分包括影响该生物过程的一种酶。
28.如权利要求25所述的计算机实施方法,其中该最佳特征包括以下中的至少一种:表达水平、量、动力学性质、结合性质、稳定性、磷酸化状态、甲基化状态、或乙酰化状态。
29.如权利要求25所述的计算机实施方法,其中该最佳特征包括围绕并且包括该最佳特征的一个窗。
30.如权利要求25所述的计算机实施方法,进一步包括: 通过该至少一个计算装置,确定用于该候选组分的一种选择标准,其中选择该候选组分是进一步基于该确定的选择标准。
31.如权利要求25所述的计算机实施方法,进一步包括: 通过该至少一个计算装置,基于这些候选组分中的每一个的所预测的表型结果来确定其等级,其中选择该候选组分是进一步基于该确定的等级。
32.如权利要求25所述 的计算机实施方法,进一步包括: 通过该至少一个计算装置,基于该灵敏度分析来确定一个鲁棒性评分,其中选择该候选组分是进一步基于该鲁棒性评分和一个预定义的截止值。
33.如权利要求25所述的计算机实施方法,进一步包括: 通过该至少一个计算装置,基于该确定的灵敏度来确定该多个组分中的每一个的一个第二最佳特征。
34.一种用于对影响一种生物过程的候选组分进行选择并且测试的系统,该系统包括: 包括一个或多个处理器的一个计算装置,该一个或多个处理器被配置成: 对于各个候选组分,其中候选组分各自直接地或间接地影响该生物过程的一个表型结果,其中该表型结果是通过该生物过程的一个计算机模型来预测, 基于是否该计算机模型使用一个最佳特征预测该表型结果的一个总体或局部最佳值来确定各个候选组分的该最佳特征; 对于各个候选组分,使用该计算机模型确定围绕该最佳特征的灵敏度;以及 出于制造展现出或将展现该表型结果的一种生物产品的目的,基于该表型结果和该确定的灵敏度来选择一种候选组分。
将一种或多种候选组分引入到一种有机体中,并且表达候选组分分析有机体以证明所预测的表型结果
35.如权利要求34所述的系统,其中该候选组分包括一种基因并且该最佳特征包括该基因的最佳表达水平。
36.如权利要求34所述的系统,其中该候选组分包括影响该生物过程的一种酶。
37.如权利要求34所述的系统,其中该最佳特征包括以下中的至少一种:表达水平、量、动力学性质、结合性质、稳定性、磷酸化状态、甲基化状态、或乙酰化状态。
38.如权利要求34所述的系统,其中该最佳特征包括围绕并且包括该最佳特征的一个窗。
39.如权利要求34所述的系统,该一个或多个处理器进一步被配置成: 确定用于该候选组分的一种选择标准,其中选择该候选者组分中的一个或多个是进一步基于该确定的选择标准。
40.如权利要求34所述的系统,该一个或多个处理器进一步被配置成: 基于所预测的表型结果来确定候选组分的等级,其中选择该候选组分是进一步基于该确定的等级。
41.如权利要求34所述的系统,该一个或多个处理器进一步被配置成: 基于该灵敏度分析来确定一个鲁棒性评分,其中选择该候选组分是进一步基于该鲁棒性评分和一个预定义的截止值。
42.如权利要求34所述的系统,该一个或多个处理器进一步被配置成: 基于所确定的灵敏度来确定该多个组分中的每一个的一个第二最佳特征。
43.如权利要求34所述的系统,其中该有机体是一种植物、真菌、原核生物、藻类、或除了人类哺乳动物之外的哺乳动物。
44.如权利要求43所述的有机体,包括一种或多种候选组分的表达盒。
45.一种表达盒,包括通过如权利要求1所述的方法选择的候选组分。
46.一种表达盒,包括序列 SEQ ID N0.6、SEQ ID N0.7、以及 SEQ ID N0.8。
47.一种表达盒,包括序列SEQ ID N0.6、SEQ ID N0.7、以及SEQ ID N0.8中的至少一种。
48.一种表达盒,包括序列 SEQ ID N0.9, SEQ ID N0.10、SEQ ID N0.11、以及 SEQ IDN0.12。
49.一种表达盒,包括序列 SEQ ID N0.9, SEQ ID N0.10、SEQ ID N0.11、以及 SEQ IDN0.12中的至少一种。
全文摘要
描述了用于对影响一种生物过程的候选生物组分和/或生物组分组合进行选择的系统和方法。一个计算装置可以使用一个计算机模型来模拟该生物过程并且预测一个表型结果。可以使用该计算机模型来确定候选组分和组合的影响。该计算装置可以确定可产生如通过该计算机模型所预测的该生物过程的一个令人希望的表型结果的生物组分的最佳特征(如表达水平)。该计算装置可以执行围绕这些最佳特征的灵敏度分析。该灵敏度分析可以用来确定这些候选组合是否在这些最佳特征的范围内具有鲁棒性。该计算装置可以基于该灵敏度分析和所预测的表型结果来选择各种候选组分和组合。
文档编号C40B30/02GK103189550SQ201180053009
公开日2013年7月3日 申请日期2011年11月3日 优先权日2010年11月4日
发明者L·波特, M·努西奥, R·德怀尔 申请人:先正达参股股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1