多因素评分方法和系统与流程

文档序号:11142291阅读:637来源:国知局
多因素评分方法和系统与制造工艺
本专利申请要求2014年3月24日申请的英国专利申请第1405243.5号的公约优先权。
技术领域
用于为实验管线和生产管线,尤其是生物制造和生物检测的元件评分的方法和系统。
背景技术
:当装配生物合成工艺时,通常对于工艺中的每个操作和部件存在多个选择,例如使用的遗传构造的结构和同一性,用于完成诸如转化、纯化等步骤的具体方案等。因此,如何设计最有效的工艺的问题是这样一个问题:选择一组部件和操作,以满足设计标准,例如需要输出的最大产量等。在生物合成工艺中有大量的影响产物总产率的变量,例如选择的宿主有机体,以及使用的宿主物种的具体菌株,诸如温度、pH和氧有效性及反应时间的物理因素,仅举了几个例子。因此,在多维设计空间的情形下,必须做出构成多步工艺的合适部件和操作的选择。在设置工艺或管线时通常基于领域中的惯例、实验者或制造商可用的或所知,随意做出这些基本的设计决策。生物过程设计中的决策通常根据常规,或者基于实验室或工业组织内传下来的手工技术。随着时间和资源限制,这通常变得复杂,导致试错的发展,其中,通过替换独立的零件和操作,或者改变参数而调节管线,以改善开始管线的特征。这导致设计决策通常是次优的,或者需要大量的资源去鉴定可能仅仅符合要求的试剂、操作和参数。因此,由于与整体的优化策略相关的内在不确定性,一旦确定,对工艺的改变有相当大的制度上的阻力。现有技术,尤其是合成生物学中,存在如下需求:从试验台水平直至达到且包括工业级别生物反应器水平提供促进实验管线和生产管线的设计的方法和系统。根据这里提供的教导,本发明的这些和其他用途、特征和优点对本领域技术人员来说显而易见。技术实现要素:根据本发明,第一方面提供了一种用于对在由用户执行的生物过程内包括的单元操作进行评分的方法,所述方法包括:(a)记录步骤,其中,所述用户记录与数据库内的所述单元操作的使用实例相关的分数,其中,记录使用环境以及所述分数,并且其中,定义所述环境为被认为影响所述单元操作在所述生物过程中的性能的至少一个因素的值;以及(b)检索步骤,其中,所述用户指定推荐的单元操作和作为在所述数据库中查询的用于预期用途的推荐环境,并且提供用于相关记录的单元操作的分数,其中,至少部分地基于所述预期用途的环境与所述记录的用途的环境之间的相似性确定记录分数的相关性。通常,所述分数包括一个或多个用户定义的等级和/或一个或多个与所述部件或方案的用途相关的可测量的特征。在具体的实施方式中,在所述记录步骤或所述检索步骤中,提示所述用户指定具体因素的值。在本发明的其它实施方式中,所述用户可指定分数被包括或排除的标准。相称地,可返回距离所述推荐环境在用户限定距离内或在所述环境空间的用户指定区域中的记录的分数。在具体的实施方式中,所述检索阶段返回一组最大数目的备选部件或方案。在本发明的另一个实施方式中,分数与置信度度量相关。相称地,可限定置信度与限定所述分数的用户相关。在具体的实施方式中,基于用户提交的分数的数目以及用户的分数与其他用户一致的频率计算所述置信度。任选择地,可定义所述置信度与推荐的环境与记录分数的环境之间的相似度有关。在本发明具体的实施方式中,定义所述置信度与具有所述分数的环境信息的量有关。在具体的实施方式中,使用距离度量,相称地欧氏距离(Euclidiandistance)定义相似性。在本发明另一个实施方式中,基于可靠性的统计度量动态定义待考虑的分数的界限。在另一个实施方式中,部件、方案或单元操作的环境包括前面单元操作或后面单元操作的特征。任选择地,自动过滤不相容的选项。在本发明具体的实施方式中,所述用户在环境之间的相似性的评价中可优先考虑感兴趣的特征。相称地,所述用户可指定待比较的环境特征的权重或排序。在本发明具体的实施方式中,可调整多变量模型描述所述评分空间。本发明的第二方面提供了为生物过程中的部件或方案评分的系统,所述系统包括:(i)具有处理模块的服务器,所述服务器适于实施权利要求1~21的任一项包括的方法;(ii)用于记录所述分数、环境和用户信息的数据存储装置,所述数据存储装置可以由处理器访问;(iii)用于访问所述方法的界面。通常,所述数据存储装置为数据库,或者通过云服务提供所述数据。相称地,所述系统包括访问所述服务器的网站或移动装置或计算机应用程序。任选择地,所述系统可构成实验室信息管理系统的一部分。本发明的第三方面提供了用于执行生物过程的方法,所述方法包括:(a)定义完成所述生物过程所需要的至少一个查询单元操作,其中,所述查询单元操作包括方案,所述方案需要使用至少一个部件以完成所述方案;(b)提供数据库,其中,所述数据库包括多个评级的单元操作,其中,所述多个评级的单元操作的每个包括与其相关的多维评级;(c)用所述查询单元操作搜索所述数据库,以识别一个或多个兼容的评级的单元操作,其中,基于每个评级的单元操作的多维评级与至少一个查询单元操作之间的距离选择最兼容的评级单元操作;(d)使用被识别为所述工艺最兼容的评级单元操作实施所述生物过程。通常,需要至少两个单元操作以完成所述工艺。任选择地,需要多个单元操作以完成所述工艺。任选择地,所述方法可包括附加步骤:(e)在完成所述最兼容的评级单元操作后,向所述数据库提交分数,其中,所述分数包括至少一个与所述最兼容的评级单元操作在所述生物过程中的性能相关的用户定义的评级。相称地,所述分数可进一步包括至少一个与用于在所述生物过程中执行所述最兼容的评级单元操作的部件或方案相关的至少一个特征。本发明的第四方面提供了计算机可读介质,所述计算机可读介质包括数据库,并且所述数据库包括多个单元操作,每个单元操作适于在生物过程中使用,并且其中,定义每个单元操为方案,所述方案需要使用至少一个部件以完成所述方案,并且其中,每个单元操作与多维评分相关。在本发明具体的实施方式中,所述多维评分包括至少一个用户定义的评级。相称地,所述多维评分进一步包括至少一项环境信息,其中,所述至少一项的环境信息包括被认为影响所述单元操作在所述生物过程中的性能的至少一个因素的值。本发明的第五方面提供了一种设备,包括文中所述的上述计算机可读介质。在具体的实施方式中,所述设备包括一个或多个存储器和一个或多个处理器,并且,所述一个或多个存储器和所述一个或多个处理器彼此电子通信,所述一个或多个存储器有形地编码一组用于实施文中公开的上述方法。附图说明图1为根据本发明一个实施方式的部件或方案的适应度景观(fitnesslandscape)。图2是根据本发明一个实施方式的用户使用各种交互模块设计实验工艺或生物过程的计算机实现的平台的流程图。图3是根据本发明一个实施方式的分数显示窗口。图4是根据本发明一个实施方式的工艺设计的流程图。具体实施方式文中引用的全部文献通过引用的方式全部并入。除非另外定义,文中使用的全部技术和科学术语具有与本发明所属的
技术领域
中的普通技术人员通常理解相同的含义。在说明本发明之前,提供数个有助于理解本发明的定义。如文中使用,术语“包括”表示必然包含任何列举的元素,并且任选择地还包含其他元素。“基本上由……组成”表示必然包括任何列举的元素,在实质上影响所列举元素的基本特性和新特性的元素被排除,而任选地包括其它元素。“由……组成”表示排除所列举的元素之外的所有元素。由这些术语的每一个所定义的实施方式均落入本发明的范围。定义术语“过程”为变化事件的特定顺序,包括对原材料进行的单元操作,以获得特定的技术目的或目标。过程可导致原材料变成产物—在这个情形下,过程为“生产过程”。或者,所述过程可导致确定关于原材料的信息—在这个情形下,过程在性质上可为诊断性或预防性。整个过程可以再分成依次实施的单个过程步骤,以获得期望的结果。根据本发明的实施方式,过程为使用完整的活细胞或它们的部件获得期望产物的“生物过程”(例如原核细胞或真核细胞、酶或诸如叶绿体的细胞器)。本发明的过程包括应用于部件的步骤或单元操作,或者本发明的过程需要部件。因此,根据本发明,过程包括一组步骤—单元操作—应用于输入(至少包括物理输入)—部件—以产生输出(至少包括物理输出,例如产物,以及可能的附加数据输出)。本发明的实施方式可包括涉及导入一种或多种基因到微生物,然后表达这些基因编码的一种或多种蛋白质的工艺。蛋白质自身可为期望的产物,或者它作用为通路的一部分,所述蛋白质可有助于产生期望的产物。定义术语“单元操作”为过程中的任何步骤或子步骤,可认为其是独立的过程或有助于一组连续的步骤—或单元—共同用于构成完整工艺。相称地,单元操作可选自下面的一种或多种:转导,反应,纯化,结构组装步骤,检测或分析,例如定量产物、副产物或反应物,核酸测序,物理混合,离心,散布或物理涂布样品,诸如挑取菌落的选择性取样样本的亚种群,三维布置样品成构造矩阵,合成核苷酸或蛋白质/肽,发酵,细胞培养,繁殖,限制酶切,连接,突变,转化,诸如线性回归、序列比对或基于模型的预测的具体的计算分析,诸如层析的分离,过滤,浓缩,蒸发,干燥,洗涤,提取,产物的调节(例如用于储藏),以及扩增(例如关于核酸)。应理解,上述未表示潜在单元操作的详细清单,其通常依赖于将进行的过程的确切性质。术语“部件”是指在过程或单元操作中使用的任何物理元件。相称地,部件可为反应物、产物或对任何单元操作的输入、或在过程或单元操作中使用的任何一件设备或装置。典型的部件可选自下面的一种或多种:基因或多核苷酸的变体,基因构造,全细胞或细胞系,酶,抗体,小分子,溶液(例如缓冲液、试剂、培养基等),固体支持物,容器(例如反应罐、烧瓶、载玻片,珠子或物理相互作用基底等),肽,多肽,功能性或无功能的核酸,营养化合物,生长因子,细胞因子,元素,诸如有机或无极阳离子或阴离子的离子物质,以及过程的环境中的气体或蒸汽。应理解,上述不表示潜在部件的详细清单,其通常依赖于将进行的过程的确切性质。定义术语“产物”为过程的任何期望的物理产出。相称地,产物可包括真核有机体或原核有机体、病毒、纳米结构、蛋白质、多肽、多核苷酸、聚合物、组织、由所述过程生产的复合物或小分子。在一些过程中,产物实际上是信息客体,例如数字遗传序列,破坏性或非破坏性检测产生的系统属性的测量。应理解,上述不表示潜在产物的详细清单,其通常依赖于将进行的过程的确切性质。术语“方案”是指一组用于执行单元操作的指令。通常,所述的一组指令可为必须执行的动作及相关参数的非详细清单,使得方案设定一系列的变量,而其它变量通常留给用户。方案设定的典型变量可包括对于操作的输入的同一性和/或浓度,执行方案各个步骤的顺序和/或时机,对于方案的某些或全部步骤必须设定的物理参数的值(例如温度、pH、氧浓度、混合速度等)、使用的装备的特征,以及诸如在供选择的计算模型之间选择或计算推导的步骤分析技术等因素。应理解,上述不表示方案的潜在元素的详细清单,其通常依赖于将进行的过程的确切性质。本发明的过程经过称为因素的过程变量。文中使用术语“因素”表示任何限定的过程或方案的特征,或者在过程或方案内的特征,只要不改变过程的最终目的,可对其进行修改。这些因素共同构成过程的“环境”。根据本发明的一个实施方式,有两类因素:遗传因素和过程因素。“过程因素”相称地涉及与构造或宿主的遗传无关的过程的特征。典型的过程因素可包括装备特征(例如反应罐的大小、叶轮结构、探针的设置),环境(例如温度、pH、氧合、气压),方案(例如,诸如接种和诱导重要阶段或事项的时间控制),试剂(生长培养基的组成、营养水平、给料浓度、诱导物浓度)、细胞的操作(储存条件、反应器之间接种的大小)、过程设计(过程步骤的数目、反应锅的类型)的特征。应理解,上述不表示方案的潜在过程因素的详细清单,其通常依赖于将进行的过程的确切性质。“遗传因素”相称地涉及与过程包括的任何遗传材料相关的定性特征或定量特征,例如,诸如用于引入诸如DNA的新核酸到宿主中的具体遗传“构造”的特征(例如载体的同一性或组成),宿主微生物的特征(例如菌株、遗传背景(包括敲除不需要的基因及蛋白过表达,表观遗传因素),功能DNA的特征(例如启动子强度,核糖体位点结合强度,质粒的复制起点,终止子,密码子的使用策略,操纵子、激活子,基因变异)。应理解,上述不表示方案的潜遗传因素的详细清单,其通常依赖于将进行的过程的确切性质。术语“分数”是指对过程内的部件、单元操作或方案对于指定目的的合适度的任何可解释的主观或客观测量。相称地,分数可为如下形式:用户定义的等级(例如在星、点的数目的最小值至最大值的范围内,或Boolean赞(thumbsup)或踩(thumbsdown)),等级,一部分积极评价或者颜色(例如红绿灯排名)。在一些实施方式中,分数可为部件或操作的可量化或可测量特征的形态,例如数量、纯度、生产率、输出产物的效率,副产物或存在的杂质的数量,工艺的产量,以及部件或单元操作的费用、能量或时间效率。应理解,上述不表示潜在分数的详细清单,其通常依赖于将进行的工程的确切性质。文中使用的术语“环境”是指与具体用户相关的环境信息。用于多维评级或分数的环境为分数提供了值归因于分数的视角。应理解,事实上当为任何指定的单元操作提供评级时,每个用户具有独特的视角。环境将部分依赖于用户可用的部件,这些部件(例如装置、基础设施)成功执行单元操作,在过程中作为整体或与其它单元操作组合的单元操作的成功(例如与其它单元操作兼容)以及与用户相关的任何因素变量。在本发明具体的实施方式中,分数包括由与具体部件、方案或单元操作的用途实例相关的一个或多个用户定义的评估测量和/或与一个或多个可测量的特征的组合获得的多维评级。相称地,可从部件或方案的一个或多个方面(例如产量、易于实现、费用等)的一个或多个用户定义的评级获得分数—在这个情况下,评分将包括主观水平。或者,可从部件或方案的一个或多个测量特征获得分数,例如规定的输出产量,质量控制测量以及成功地完成对照实验。在这样的情形下,分数将包括更高水平的客观性。一个或多个测量因素的存在还有助于确定最终产生分数的多维评级。通常,在本发明的具体实施方式中,分数源自一个或多个用户定义的评级与一个或多个测量特征的组合。从一个或多个用户和/或部件、方案和/或单元操作的一个或多个用途实例相称地获得分数。过程中因素变量的值(即工艺的环境)通常有助于确定具体方案或部件的性能。换句话说,任何指定选择的合适性不必为所述方案或部件所固有,而是可依赖于预期用途的环境。通过举例的方式,在具体的单元操作中,用户对使用的宿主有机体的选择(即“部件”的选择)可影响可用的反应堆容器的类型(即选择另一“部件”)以及需要的培养条件(即选择“方案”)。因此,表征在设计空间的那个区域时,方案的特定部分可在单元操作内可靠地运行将变得至关重要。对对象评级的传统模型依赖于赋予绝对分数的能力或者,至少依赖于表示对象的固有价值的分数分布。所述评分系统的这些实例包括app在移动手机市场上的评级,书在门户网站上的评级、旅馆预定网站上的住宿评级,或者音乐或电影在视屏或音乐流媒体服务/零售服务上的评级。共同的度量为评级一星至五星,已经评级项目的所有用户的平均值显示为对象的最后“评级”。空间内另外的创新包括用版本的汇总评级追踪诸如软件应用的对象的版本(例如允许比较应用的当前版本和旧版本之间的分数,因为情况可变化),并允许查看分数的分布,例如收集了多少一星相对于五星的评级。后者在高度主观的对象的评级中,例如音乐和电影,是非常重要的,其可能不具有待确定的真实的绝对分数。一直忽视了对具有依赖环境的值的对象的评价系统。本发明提供了改良的方法,以确定部件或方案在生物过程的情况下执行单元操作的合适性。根据一个方面,本发明提供了新方法,涉及与单元操作有关的许多部件和方案的组合,在用户指定的环境下用户评级为所述部件或方案评分。本发明的具体实施方式提供了计算机实现的数据库,包括多个有助于实验或过程中的单元操作的部件和/或方案。在本发明的一个实施方式中,所述数据库包括多个部件及可使用这些部件的相关方案。任选择地,可在远程访问的服务器上托管数据库,例如通过互联网或内部网连接。用户能够访问数据库并选择单元操作,以完成期望的过程或实验管线。选择过程可完全公开,并根据用户自身的选择标准,或者,可参照用户个人的环境完全或部分地指导选择过程。在用户完成至少一部分方案后,通常一旦他们完成单元操作—提示用户评级使用的部件和/或方案,并且可记录任何相关因素的值以及评级。用户评级可与环境特异的其它附加信息结合。因此,用户提交的每个这样的评级定义了多维空间中的点,其中维度表示过程的多因素参数。多维空间的评级形成了适应度景观,允许比较新的实验或部件与已知评级的相似性。因此,应理解,本发明提供了在指定的过程或实验中为单元操作提供环境特异评级的方法。因此,当为其它过程选择单元操作时,用户能够从对于用户环境最合适的数据库中选择评定的部件、方案和单元操作。图2为显示用户使用各种交互模块设计实验或生物过程的计算机实现的平台的流程图。在本发明的一个实施方式中,用户可通过用户界面(105)访问平台,以访问工作流设计工具(101)。用户界面(105)可通过专用软件应用(“app”)、通过网站或任何其它合适的用户界面而包含在实验室信息管理系统(LIMS)软件包内。工作流设计工具(101)使得用户能够指定考虑中的实验或生物过程的类型,尤其是通过指定输入(例如原材料)和期望的输出(例如产物)。在定义实验或过程的目标时,工作流设计工具(101)使得用户能够访问实验设计模块(101a),实验设计模块(101a)提供分解实验或工程为一个或多个单元操作的机制。每个单元操作将包括一个或多个部件或一个或多个方案。在部件模块(101b)和方案模块(101c)内完成上述一个或多个单元操作的最适合组件的选择。部件模块(101b)和方案模块(101c)分别能够访问在部件表征模块(102)和方案定义模块(103)中包含的兼容的标准化部件和方案的库。完全组装工作流提供了过程管线,包括至少一个单元操作,更典型地多个单元操作,如图2中显示的那种。可测试完全组装工作流与用户可用部件的兼容性—包括实验室自动化设备—以在用户特定的环境中提供对工作流的验证。可通过分析模块(101d)进行验证。任选择地,使单元操作经过允许比较用户独特环境与建议的工作流的关联评级或评分标准。因此,工作流设计工具(101)提供了建立由用户独特环境部分地定义的设计空间的性能,这样做时,仅允许组装与用户情景化设计空间兼容的工作流。平台的一个重要方面为其允许用户修改单元操作的某些自由度,以改善与可用部件及相关方案的兼容性。有利地,这使得在设计空间内一定水平的灵活性以及单元操作的演变,以适应稍微不同的用户环境。一旦用户批准了验证的过程管线,可通过完全自动化的实验室系统或通过手工实施或两者的组合实施工作流。当完成管线内的单元操作时,提示实验室自动化设备和/或用户针对单元操作及整体的组装管线的成功性能提供反馈指标。在本发明的实施方式中,反馈指标包括分数和评级,以及例如关于反应条件、产品收率、完成方案需要的时间、产物的纯化等数据和信息的因素。反馈指标可与关于过程管线信息结合,并传递给标准化的引擎(104)。标准化引擎(104)提供了数据标准化的功能,包括对输入信息标准化、重新格式化和分析,所述输入信息包括用户做出的管线工艺组装和任何附加的修改,以及相关的度量和分数。数据标准化可包括去除外部的或不相关的信息,以及将数据或值标准化成常用形式或标准形式,例如通过参考查找表。在这样做时,标准化引擎(104)转变输入数据为值的常见表示,从而提供一致的记录。标准化引擎(104)可包括标准单元操作、部件或方案的数据库,任选择地,具有相关的多维评分。任选择地,标准化引擎(104)不包括数据库自身,但是在单独的模块(未显示)或者在工作流设计工具(101)内包括的一个或多个数据库内与数据库通信(未显示)。标准化引擎分别提供部件的标准表示给部件表征模块(102)和方案定义模块(103)。因此,计算机实现的平台提供了从标准化部件组装单元操作的迭代工艺以及根据用户的环境不断改善、改编和修改的工艺。当多个用户访问平台时,例如在多用户云或基于因特网的平台的情况下,用户将受益于新的和/或改善的部件、方案和相关单元操作的不断产生。根据本发明的实施方式,用户可全部或部分指定推荐的单元操作的参数空间。然后,这可用于检索在推荐的单元操作周围的参数空间区域中存在的潜在部件和/或方案(对于指定目的)的任何评级。这允许提取可用分数的子集,以便为完成指定目的提供依赖于环境的分数给数据库中的部件或方案。在发明的实施方式中,方法可自动地识别是否缺少任何可提供信息(informative)的评级的信息—即推荐的评级是否未包括充分的信息,以在多维空间内建立有意义的点,其中,所述维度表示工艺的多因素参数。可在评级记录步骤进行该验证程序,由此在记录对象评级时提示用户为与部件或方案的使用实例相关的相关因素提供值。或者,可在检索步骤这样做,由此提示用户在从数据库检索相关分数之前提供推荐单元操作的相关因素的值。相称地,在记录阶段和检索阶段都可这样做。如下面进一步详细描述,评分过程的全部或大部分方面可是自动的。在本发明的某些实施方式中,多维评级包括定性值和定量值的组合。任选择地,多维评级仅包括定性的值,例如Boolean赞和踩评级。相称地,全部评级维度可为定量的值。当全部的维度为定量的值时,可使用本领域中已知的距离度量,例如欧氏距离、曼哈顿距离或任何其他距离度量比较评级记录。相称地,可指定定性值给相同的数值(例如可给予1的分数给“赞”评级,给予“踩”分数0),并且技术可应用于定量数据。在其它实施方式中,所述方法包括工具,当用户比较评级分数时,所述工具指定优先考虑那个维度。相称地,用户可根据分数检索提供权重表。优选地,维度是定量的,并可计算加权的距离测量。在备选的实施方式中,用户可指定维度的排序。在一些实施方式中,任选择地,用户可排除特定的维度。根据本发明的一个实施方式,可对记录的实例和用户指定的潜在的单元操作之间的距离应用一个或多个标准,以检索最相关的分数。相称地,用户可指定距离的界限。在备选的实施方式中,用户可指定不同点数目的界限,其中点相应于具体的环境,并且可映射多个具有单独评级的实例到指定的环境。相称地,用户可指定多维空间的区域,用以提取相关分数。在一些实施方式中,用户可指定考虑应包含或排除的分数的标准。相称地,用户可仅指定将提取的最高置信度的分数。因此,可根据定义分数的用户定义分数的置信度。任选择地,可根据评级可复制性的测量定义分数的置信度。在一些实施方式中,可基于局部方差、噪声指标或任何其他定量变量的可靠性的统计度量的测量动态定义考虑的分数的界限。在本发明具体的实施方式中,对于选择的单元操作,推荐的实验空间和现有的分数记录之间的距离可用于返回置信度分数。相称地,向用户显示该分数以及单元操作自身提供的分数。在一些实施方式中,可考虑一些或全部参数的兼容性范围,以过滤不兼容的选项。可沿整个管线检查选择项目的兼容性,即连续的单元操作及相关的部分。相称地,分数的环境包括管线中的前面步骤的信息。分数的环境可包括关于管线中后续步骤的信息。在一些实施方式中,分数的环境包括关于管线的前面步骤之后使用的部件的信息。附加的任选特征允许为部件或方案评分的用户的出处,以进一步加权返回的数值,允许高质量用户的分数在一部分方案依赖于环境的评级中给予更大的权重。这样的出处或“信誉”评级可为指定用户在全部或具体的定时器期间提交的分数的数目的函数。相称地,可通过评定该用户分数与其他用户分数一致的频率而自动地获得该信誉评级。通常,仅比较落入评估用户的指定截止距离内的那些用户分数。在本发明的实施方式中,可调整多变量模型描述得分空间。相称地,当收集了足够的分数时,可调整多变量模型,以适应在合理噪声阈值内的模型。当评分标准表示诸如酶活性或温度的客观的“现实世界”的测量时,本发明的该实施方式特别有益,因为它允许从足够数目的用户产生实验分数直接产生更鲁棒的模型。然后,这些多因子模型改善了兼容对象的预测质量。也可计算预测区间或细粒度预测方差曲面,以提供与评分呼应的预测置信度分数的直接测量。在本发明具体的实施方式中,用户可选择部件、方案或单元操作,并直接访问关于所述部件或方案的信息。在本发明的一些实施方式中,可提供购买选择的部件或方案的选项给用户。因此,本发明可提供附加功能,包括链接一个或多个能够提供所述具体的部件、方案或单元操作的在线供应商。所述零售功能可存储于云服务器上。任选择地,在线商场可包括零售功能,在线商场可包含在本发明的计算机实现系统内,或附属于本发明的计算机实现系统。在本发明具体的实施方式中,可通过一个或多个计算机系统实施所述方法。根据其它实施方式,提供了包括一个或多个存储器和一个或多个处理器的装置,其中,一个或多个存储器和所述一个或多个处理器彼此电子通信,所述一个或多个存储器有形地编码一组用于实施本发明所述方法的指令。在另一个实施方式中,本发明提供了包括用于实施本发明方法的程序指令的计算机可读介质,其中,由计算机系统的一个或多个处理器执行程序指令,使得一个或多个处理器执行文中所述的步骤。相称地,所述数据可存储在数据库中,并且通过服务器访问。相称地,服务器具有接收和发送信息的通信模块、以及执行文中所述步骤的处理模块。在一些实施方式中,通过云服务器提供数据。在优选的实施方式中,通过网络服务访问所述方法。在一些实施方式中,用户可通过网站在浏览器中访问服务器,以记录和检索分数。在一些实施方式中,可提供计算机应用、平板电脑或智能手机以访问所述服务器。在本发明的一些实施方式中,所述方法构成实验室信息管理系统的一部分。在一个实施方式中,本发明如所述提供了实验室/制造业生物过程的设计方法,其中,用户可选择最合适的单元操作,以创造根据用户的需求和可用的资源配置的最合适的生物过程—即用户的起始环境。这样的资源可包括可用的装备、原材料、时间和/或费用。为了提供符合用户需求的最合适的生物过程,相应地评分工艺内的每个单元操作,并且用户能够选择最适于他们需求的那些。在这个方面,可在本发明的过程中确定用户特定的环境,使得用户的需求决定设计空间,进而限定他们可用的单元操作。在本发明使用中的具体的非限制描述中,用户需要由特定的微生物宿主表达修饰的酶产物的方案。这样的方案将由多个单元操作构成,所述单元操作可包括:(i)基因拼接步骤,以生成编码被修饰酶的基因;(ii)插入载体的步骤,以插入修饰的基因到合适的表达载体中;(iii)微生物宿主转化步骤;(iv)选择步骤,以鉴定和分离被载体成功转化的宿主克隆;(v)生长步骤,以扩增转化的宿主细胞;(vi)表达产物步骤;(vii)分离和纯化一种或多种产物的步骤;以及(viii)一个或多个验证步骤,以确定适当的产物质量控制。从该实验方案显然可见,用户不仅对于每个单独的单元操作,而且对于单元操作的组合具有大量的设计选项。多个因素将影响每个单元操作的性能以及相邻单元操作的相互作用。举例来说,微生物宿主的选择(例如原核生物相对于真核生物)将决定那种载体适于转化,以及确保有效生产期望酶产物必需的各种工艺步骤。然而,即使对系统有这样的限制,现有技术中存在的对于每个单元操作的多种可用的方案使得甚至最标准的生物过程可产生操作单元近无限数目的组合,所以决定了用户难于应付的多维设计空间。根据本发明的实施方式,通过提供完成所述工艺所必须的每个单元操作的情景分数,使得可组合单元操作的最佳组合,反映了用户自己的需求、可用的装置和资源限制(即在具体的设计空间内),从而降低了该设计问题的复杂性。由具有最高评级分数的单元操作过程的组合使得过程对于用户的特定环境最优化,从而促进更大的效率、结果的可预测性、再现性和产量。然后,潜在的候选路径的选择可转变为图表最大流的连通性问题,其中节点表示过程要素选项,并且边缘表示两个工程要素在当前推荐的实验空间中的相容性。然后,可使用许多现有的算法,包括dinic算法、MPM算法和二进制阻塞流算法,发现对于实验空间最优的兼容元素。应理解,上述算法不是最大流量计算的详细清单。图4是显示根据本发明实施方式包括多个单元操作的过程的工艺设计的流程图。在步骤200,用户可指定其中将执行所述工艺的推荐的实验空间。在步骤202,如果还没有获得(步骤201),则可以计算在所述过程中与所述元件有关的分数和置信度。然后在步骤203,所述评分的过程元件可用于产生工作流图。然后,可在步骤204使用工作流图发现最大流的路径。如果不能发现最大流的路径,那么可在步骤206通知用户未发现可能的方案。如果发现最大流的路径(步骤205),那么可在步骤207返回元件、相关分数和置信水平的候选集合。应理解,根据本发明的实施方式,全部用户交互过程是迭代的,所以用户交互的水平越高,获得的评级信息越多。因此,还改善了多维限定单元操作的能力。通过下面的非限制实施例进一步描述本发明。实施例实施例1–评价方案图1显示了三维情形的实例,其中模拟元素质量分数(主观或客观的)为两个输入变量的函数:酵母提取物浓度和预诱导时间。其发生的情形为编码用于在转基因宿主中表达蛋白质过程的元件,其中蛋白表达受诱导型启动子系统的控制。该元件具有两个输入参数:诱导蛋白质表达前的时间(预诱导时间)和具有营养的培养基成分的浓度(酵母提取物的浓度)。实例显示了使用多因子响应面实验表征元件,其中在两个参数的5个输入值进行11个运行。图中的颜色表示表示模拟的适应度景观的“高度”,其来源于使用客观测量的实验,表示对于输入的指定值产生的靶蛋白的量。适合所述问题的模型是线性模型,包含一阶项和二阶项两个输入,以及相互作用项和一个正态分布误差项。当仅作为预期的功能蛋白产量的函数测量时,这定义了元素在多元环境中的质量的一个方面,并且在该情形下显示对于两个输入的最小检测值,产量最小,对于高的酵母提取物浓度和中间的预诱导时间,产量最大。对于任何供选择的质量指标,例如另一个客观测量(生物量产量、转化的效率或任何其它这样的测量)或者对11个实验的每个给出主观用户评分,可精确地重复该过程。基于适应11个采用的测量,模型表面代表对于输入的所有值的预测–由于所有这样的预测经误差预测,重要的是提供对于输入变量的任何组合预测的预期质量值附近置信度的估计。预测误差的水平取决于使用的实验的结构以及系统的误差方差。在实施例中,预测方差对于通过最极端实验设计点的环限定的区域大体恒定,并在圆的外部迅速增加。可用与实际实验点的位置无关的模型以置信区间产生预测的质量值,产生处理缺失数据的方法:如何估计未检验状态的量。备选的实验设计包括特定设计方法,将产生不同的预测误差曲面,并且在大部分情况下产生更大变量水平的空间的不同部分之间预测误差。当因素为离散值而非连续值时,该方法较不适合,并且可能必须使用最邻近方法。在这个方法中,对于分类输入变量的某些组合可定义质量,并且可通过直接来源于数据集中最相似测量的值(其中使用许多适用的距离测度的一种,例如欧几里德距离、曼哈坦距离或者任何正式度量或非正式度量定义多元相似性)或者通过对被距离测度加权的值求平均数来估计对于输入变量值的新组合的值(单独检测其全部的值至少一次)。在这种情况下可使用通过交叉验证参数化的应用距离的函数模拟预测误差。在显示相应于输入值变化的参数的值的实施例中,变量体现了如下概念:每个维度的差异相关性在这些情况下有助于元件的质量。大的模型系数暗示考虑中的变量变化与最终质量高度相关,而较小的值表示低相关性。除了该固定效应模型,还可增加一层随机效应项,以模拟质量输出的变化依赖于输入变化的程度。这增加了对关联的附加定义:因素可通过促进测量输出的平均值或变量而与元件性能的质量高度相关。实施例2–基于环境选择相关的方案或部件两个不同的用户使用具体的方案“A”,然后对方案评分,并记录方案的每种用途实例的一系列工艺因素的值(表1)表1.方案A的样本分数表温度甘油含量孵化速度分数用户对象2050120051A252590022A3775150011A图3显示了基于表1中存储的数据,对于每个具体的环境获得的示例分数显示窗口。用户指定与方案A的预期用途相关的工艺因素。所述方法在该具体环境中使用该信息提取与所述用户最相关的分数,并显示方案A在该环境中的分数。还显示了置信度1,反应如下事实:基于单一用户的单一用途实例显示具体的环境分数。除非另外表明,本发明的实施使用化学、计算机科学、统计、分子生物学、微生物、重组DNA技术和化学方法的常规技术,它们在本领域普通技术人员能力的范围内。文献中也解释了这样的技术,例如T.Cormen,C.Leiserson,R.Rivest,2009,IntroductiontoAlgorithms,3rdEdition,TheMITPress,Cambridge,MA;L.Eriksson,E.Johansson,N.Kettaneh-Wold,J.Trygg,C.Wikstom,S.Wold,Multi-andMegavariateDataAnalysis,Part1,2ndEdition,2006,UMetrics,UMetricsAB,Sweden;M.R.Green,J.Sambrook,2012,MolecularCloning:ALaboratoryManual,FourthEdition,Books1-3,ColdSpringHarborLaboratoryPress,ColdSpringHarbor,NY;Ausubel,F.M.etal.(1995andperiodicsupplements;CurrentProtocolsinMolecularBiology,ch.9,13,and16,JohnWiley&Sons,NewYork,N.Y.);B.Roe,J.Crabtree,andA.Kahn,1996,DNAIsolationandSequencing:EssentialTechniques,JohnWiley&Sons;J.M.PolakandJamesO'D.McGee,1990,InSituHybridisation:PrinciplesandPractice,OxfordUniversityPress;M.J.Gait(Editor),1984,OligonucleotideSynthesis:APracticalApproach,IRLPress;以及D.M.J.LilleyandJ.E.Dahlberg,1992,MethodsofEnzymology:DNAStructurePartA:SynthesisandPhysicalAnalysisofDNAMethodsinEnzymology,AcademicPress。这些普通文本的每个通过引用合并于此。虽然文中已经详细公开了本发明的具体实施方式,这已经通过实施例的方式进行,并且仅用于描述的目的。上述实施方式不旨在限制下面所附权利要求书的范围。发明人预期可对本发明做出各种替换、改变和修改,而不背离权利要求书限定的本发明的精髓和范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1