酶变体的自动筛选的制作方法

文档序号:13766595阅读:409来源:国知局
本申请基于35U.S.C.§119(e)要求于2013年9月27日提交,标题为:AUTOMATEDSCREENINGOFENZYMEVARIANTS(酶变体的自动筛选)的美国临时专利申请号61/883,838的权益,为了所有的目的通过引用将其以其整体并入本文。背景蛋白设计长久以来被认为是艰巨的任务,只因为一个原因,构成可搜索的序列空间的可能分子的组合式激增。蛋白的序列空间是极大的,并且使用本领域目前已知的方法彻底地搜索是不可能的,本领域目前已知的方法通常被鉴定有用的多肽所需的时间和成本所限制。问题的一部分由必须要测序、筛选和测定的多肽变体的巨大的量而引起。定向进化方法提高了深入研究具有有益特征的候选生物分子的效率。如今,蛋白的定向进化由往往迭代进行的多种高通量筛选和重组方式主导。用于搜索序列-活性空间的多种计算技术也已被提出。相对来说,这些技术处于其初期,并仍然需要重大进展。因此,用于提高筛选、测序和测定候选生物分子的效率的新方法是高度期望的。概述本公开内容涉及分子生物学、分子进化、生物信息学和数字化系统的领域。还提供了用于执行这些方法的系统(包括数字化系统)和系统软件。本公开内容的方法在优化用于工业和治疗用途的蛋白方面具备实用性。所述方法和系统对于设计和开发对特定底物的催化反应具有期望的活性和选择性的酶是尤其有用的。本公开内容的某些方面涉及用于虚拟地筛选(virtuallyscreening)具有有益特征的蛋白和/或引导定向进化程序的方法。本公开内容提供了用于从复杂的生物分子文库或此类文库的组中鉴定具有期望的特性(或最适合朝向此类特性的定向进化)的生物分子的方法。本公开内容的一些实施方案提供了筛选酶的期望活性和选择性用于虚拟筛选对特定底物的催化反应的方法。一些实施方案结合筛选和定向进化,以设计并开发具有期望特性的蛋白和酶。还提供了实施这些方法的系统和计算机程序产品。本公开内容的一些实施方案提供了用于用底物筛选多个不同酶变体的活性的方法。在一些实施方案中,该方法使用包括一个或更多个处理器和系统存储器的计算机系统来实施。所述方法包括:(a)对于每一个酶变体,通过计算机系统将底物的计算表示与酶变体的活性位点的计算表示对接,其中,对接(i)产生底物在活性位点中的多个位姿(pose);以及(ii)鉴定底物在活性位点中的能量上有利的位姿;(b)对于每一个能量上有利的位姿,确定位姿是否是有活性的,其中,活性位姿满足使底物经历在活性位点中的催化的一个或更多个限制;以及(c)选择被确定为具有一个或更多个活性位姿的酶变体中的至少一个。在一些实施方案中,限制包括以下的一个或更多个:位置、距离、角度和扭转限制。在一些实施方案中,限制包括底物上的特定部分和活性位点中的特定残基或残基部分之间的距离。在一些实施方案中,限制包括配体上的特定部分和活性位点中的理想地定位的天然配体之间的距离。在一些实施方案中,底物的计算表示代表沿着对于酶活性的反应坐标的种类。所述种类选自底物、底物的反应中间体或底物的过渡态。在一些实施方案中,被筛选的变体选自可转换多个底物的一组酶,并且其中,该组的成员相对于参考序列具有至少一个突变。在一些实施方案中,至少一个突变是单残基突变。在一些实施方案中,至少一个突变位于酶的活性位点中。在一些实施方案中,多个变体包含能够催化选自以下的化学反应的一种或更多种酶:酮还原、转氨基作用、氧化、腈水解、亚胺还原、α,β-不饱和羰基化合物还原(enonereduction)、酰基水解和卤代醇脱卤作用。在一些实施方案中,酶选自酮还原酶、转氨酶、细胞色素P450、Baeyer–Villigerd单加氧酶、单胺氧化酶、腈水解酶、亚胺还原酶、α,β-不饱和羰基化合物还原酶、酰基转移酶和卤代醇脱卤素酶。然而,不意图本发明被限制为任何特定的酶或任何特定种类的酶,因为任何适合的酶可用在本发明的方法中。在一些实施方案中,变体是由体外和/或计算机模拟的一轮或更多轮的定向进化产生的文库的成员。在一些实施方案中,该方法筛选至少约十个不同的变体。在其他实施方案中,该方法筛选至少约一千个不同的变体。在一些实施方案中,活性位点的计算表示由对于多个变体的3-D同源模型提供。在一些实施方案中,提供了用于产生对于蛋白变体的3-D同源模型的方法。在一些实施方案中,该方法被应用于筛选多种底物。一些实施方案提供了这样的方法,该方法通过当天然底物经历由野生型酶催化的化学转化时鉴定天然底物的一个或更多个位姿、天然底物的反应中间体、或天然底物的过渡态来鉴定底物经历催化的化学转化的限制。一些实施方案提供了用于将一个或更多个酶限制的组应用于多个酶变体的方法,其中,一个或更多个酶限制与当天然底物在野生型酶的存在下经历催化的化学转化时野生型酶的限制相似。在一些实施方案中,底物的多种位姿通过包括以下的一个或更多个的对接操作来获得:高温分子动力学、随机旋转、通过基于网格的模拟退火的改进和最终的基于网格的最小化或全力场最小化。在一些实施方案中,配体的多个位姿包括底物在活性位点中的至少约10个位姿。在一些实施方案中,以上(c)中的变体的选择包括通过与其他变体比较鉴定被确定为具有大量活性位姿的变体。在一些实施方案中,(c)中的选择包括通过以下的一个或更多个对变体排序:变体具有的活性位姿的数目、活性位姿的对接得分以及活性位姿的结合能量。然后基于排序来选择变体。在一些实施方案中,对接得分是基于范德华力和静电相互作用。在一些实施方案中,结合能量是基于以下的一个或更多个:范德华力、静电相互作用和溶剂化能。在一些实施方案中,筛选方法还包括制备包含至少一个所选择的变体的至少一部分或编码至少一个所选择的变体的至少一部分的多个寡核苷酸。该方法还包括使用多个寡核苷酸进行一轮或更多轮定向进化。在一些实施方案中,制备多个寡核苷酸包括使用核酸合成仪合成寡核苷酸。在一些实施方案中,进行一轮或更多轮定向进化包括片段化和重组多个寡核苷酸。在一些实施方案中,进行一轮或更多轮的定向进化包括对多个寡核苷酸进行饱和诱变。在一些实施方案中,所筛选的酶变体具有期望的催化活性和/或选择性。一些实施方案的方法还包括合成从筛选中选择的酶。在一些实施方案中,筛选方法可被扩展以筛选除了酶以外的生物分子。一些实施方案提供了用于筛选多个蛋白变体与配体相互作用的方法。该方法包括:(a)对于每一个蛋白变体,通过计算机系统将配体的计算表示与酶变体的活性位点的计算表示对接,其中,对接(i)产生配体在活性位点中的多个位姿;以及(ii)鉴定配体在活性位点中的能量上有利的位姿;(b)对于每一个能量上有利的位姿,确定位姿是否是有活性的,其中,活性位姿满足配体经历与蛋白变体的特定相互作用的一个或更多个限制;以及(c)选择被确定为具有一个或更多个活性位姿的蛋白变体中的至少一种。在一些实施方案中,配体可选自底物、中间体、过渡态、产物、抑制剂、激动剂和/或拮抗剂。在一些实施方案中,还提供了实施用于筛选酶和蛋白的方法的计算机程序产品和计算机系统。下文参考相关附图展示这些特征以及其他特征。附图简述图1示出用于鉴定具有pro-R选择性的催化反应的活性位姿的几何限制,反应涉及具有酪氨酸部分的酮还原酶、苯乙酮底物和辅因子NADPH。图2是展示用于在一些实施方式中分析候选生物分子的潜在活性的工作流程的流程图。图3A是显示根据本公开内容的一些实施方案设计生物分子序列的工作流程的实例的流程图。图3B是显示用于设计生物分子序列的工作流程的实例的流程图,所述工作流程包括合成并测定从虚拟筛选获得的序列。图3C是显示用于设计生物分子序列的工作流程的实例的流程图,所述工作流程在每一轮的多个迭代中将体外定向进化和虚拟筛选相结合。图4示出了根据本公开内容的一些实施方案可被实施的示例性数字设备。图5提供了显示来自第二轮定向进化的10个最佳变体及第1轮(Rd1BB)和第2轮(Rd2BB)的骨架的结合能量和选择性的数据的图。图6A示出了使用来自根据一些实施方案的虚拟蛋白筛选系统的数据构建的序列活性模型的模型拟合。图6B示出了指示如在图6A中构建的序列活性模型在预测结合能量时准确的交叉验证数据。图6C示出了根据如图6A中构建的序列活性模型的多种突变的系数。图7示出了指示来自虚拟筛选由1,1,1-三氟丙烷-2-酮对映体选择性地产生(R)-1,1,1-三氟丙烷-2-醇的酮还原酶变体的X轴上的转化和Y轴上的选择性的量。图8示出了指示转化和来自P450将区域选择性的CH氧化为C-OH的虚拟定向进化的匹配物(hits)(具有一定改进水平的变体)的量。详述蛋白和酶的筛选可以以真实方式来执行,所述真实方式包括与配体和底物相互作用的蛋白分子和酶分子的化学特性和物理特性的测量。真实测量消耗时间和资源,且潜在的物理机制和化学机制常常难以可视化或操作。本文公开的“虚拟”筛选方法和系统提供了可视化或操作酶、蛋白及它们的底物和配体的结构和动力学的工具。这些工具可为研究这些分子节省时间和/或材料。在一些实施方案中,蛋白或酶的虚拟筛选被用于感兴趣的蛋白的定向进化中。在这些定向进化实施方案的多种阶段期间,使用虚拟筛选替代物理筛选,使得在不需要真实筛选所需的物理材料或时间的情况下研究大数目的分子和反应变得可能。这些实施方案可加速获得具有期望特性的蛋白和酶的过程。还可在过程中节省材料和资源。一些实施方案对于设计和开发对牵涉特定底物的催化反应具有期望的活性和/或选择性的酶是尤其有用的。I.定义除非本文另外定义,本文使用的所有技术和科学术语具有如本领域普通技术人员通常理解的相同含义。包含本文包括的术语的多本科学词典是本领域技术人员熟知并可获得的。与本文描述的那些方法和材料相似或等同的任何方法和材料在本文公开的实施方案的实践中具备实用性。通过整体地参考说明书,下文紧接着定义的术语可被更充分地理解。定义只是为了描述特定的实施方案并帮助理解本说明书中描述的复杂概念的目的。它们并非意图限制本公开内容的完整范围。特别地,要理解,本公开内容不限于所描述的特定序列、组合物、算法、系统、方法学、方案和试剂,因为这些可根据本领域技术人员使用它们的背景而变化。如本说明书和所附的权利要求书中使用的,单数形式“一(a)”、“一(an)”和“该(the)”包括复数的指代对象,除非该内容和上下文另外明确地指明。因此,例如,提及“一个装置(adevice)”包括两个或更多个此类装置的组合,诸如此类。除非另外指明,“或”连接意图以其作为布尔逻辑算符的正确含义使用,包括择一性的特征选择(A或B,其中选择A是与B互相排斥的)和合取性的特征选择(A或B,其中A和B两者均被选择)两者。如本文使用的“对接”指用于模拟和/或表征分子(例如,底物或配体)的计算表示与生物分子(例如,酶或蛋白)的活性位点的计算表示的结合的计算过程。对接通常使用“对接器”计算机程序在计算机系统中来实施。通常,对接过程的结果是在特定“位姿”中的活性位点中“对接”的分子的计算表示。多个对接过程可在分子的同一个计算表示和导致分子在活性位点中的多个不同“位姿”的活性位点的同一个计算表示之间来进行。活性位点的计算表示中的多个不同“位姿”的结构、构象和能量学的评价可将特定“位姿”鉴定为在能量上有利于配体和生物分子之间的结合。在一些实施方案中,从对接中产生的位姿被评价以确定它们对于与生物分子的期望的相互作用是否为“活性”的。“活性位姿”是满足用于考虑中的活性的一个或更多个限制的那些位姿。“限制”可限制位姿的结构、几何结构、构象、能量学等。在某些实施方案中,底物在酶的活性位点中的计算表示的“活性位姿”满足用于由酶催化的条件。当对接鉴定底物的计算表示的许多活性位姿在活性位点的计算表示中时,所表示的特定酶可被选为有利于催化底物为产物的化学转化。“对接器”是计算上模拟和/或表征在分子(例如,底物或配体)的计算表示和蛋白或其他生物分子中的感兴趣的活性位点的计算表示之间的对接过程。对接器通常被实现为可与诸如一个或更多个处理器的硬件相关联被暂时性地或永久性地存储的软件。市售可得的对接程序包含CDocker(Accelrys)、DOCK(加利福尼亚大学,旧金山)、AutoDock(斯克里普斯研究所)、FlexX(tripos.com)、GOLD(ccdc.cam.ac.uk)和GLIDE(schrodinger.com)。使用对接器的对接通常生成底物和配体相对于活性位点的计算表示的“位姿”。这些位姿可被用于生成对接得分或以其他方式评估对接。在一些实施方案中,位姿与由对接器计算的相互作用能量值相关。一些位姿在能量上比其他位姿更有利。在一些实施方案中,对接器允许使用者指定很多位姿(n)来用于评估对接。在评估对接中,仅具有最佳对接得分的前“n”个位姿被考虑。在一些实施方案中,仅具有满足定义的标准的有利的相互作用能量的位姿被选择以被归类为活性位姿或非活性的位姿。在一些实施方案中,如果底物或配体的一个或更多个位姿具有与生物分子的有利的相互作用能量,对接器可确定底物或配体可能与生物分子结合。结合的配体可作为激动剂或拮抗剂。多种对接器输出底物或配体和生物分子之间的结合的对接得分或其他测量值。对于生物分子活性位点与底物或配体的一些组合,对接程序将确定结合不可能发生。在此类情况下,对接程序将输出底物或配体不与生物分子结合的结论。对接器可被编程以输出配体将与生物分子的活性位点对接的可能性或此类对接的质量(如果此类对接发生)的评估。对接的可能性和质量指示配体将与生物分子结合的可能性。在一个层面上,对接器确定配体是否可能与生物分子的活性位点结合。如果对接器逻辑性地总结出结合是不可能的或者是高度不利的,其可输出“未找到精确位姿”的结果。当对接程序生成的所有构象与活性位点具有不利的范德华冲突和/或静电排斥时,这可能发生。在对接程序的以上实例中,如果第二个操作未能找到具有小于阈值的软能量的位姿,对接器可返回诸如“未找到精确位姿”的结果。因为软能量首先考虑包括范德华力和静电力的非键相互作用,因此未找到精确位姿的结果意味着对于给定数目的位姿配体与生物分子受体具有严重的空间冲突和/或静电排斥。在某些实施方案中,对接器输出代表配体和生物分子活性位点之间的相互作用的对接得分。对接器可计算配体-生物分子相互作用的多种特征。在一个示例中,输出仅仅是配体和生物分子之间的交互作用能量。在另一个实施方案中,总能量是输出。总能量可被理解为配体-生物分子交互作用能量和配体张力的组合。在某些实现中,可使用诸如CHARMm的力场来计算这种能量。在多种实施方案中,对接程序通过考虑配体在生物分子的活性位点中的多个位姿来生成此类输出。每个位姿将具有其自身的相关能量值。在一些实施方案中,对接程序对位姿排序并考虑与一个或多个高等级的位姿相关的能量。在一些情况下,它可对某些高等级位姿的能量进行平均或者以其他方式实施最高等级的位姿的统计分析。在其他实施方案中,它仅仅选择辅助靠前排序的位姿的值并将其输出为得到的能量,用于对接。在一些实施方案中,底物的计算表示对应于沿着能够将底物分子转化为期望的产物分子的酶促反应的反应坐标的分子种类。在一些实施方案中,底物的计算表示代表底物分子本身。在一些实施方案中,底物的计算表示代表沿着反应坐标形成的底物的中间体结构(即,“底物的反应中间体”)。在一些实施方案中,底物的计算表示代表沿着酶促反应坐标形成的过渡态结构(即,“底物的过渡态”)。在一些实施方案中,配体的计算表示可代表与酶或生物分子强烈结合但不沿着反应坐标继续进行为期望的产物的分子种类。例如,配体的计算表示可代表强抑制剂,以便筛选酶的抑制剂或蛋白的强结合的拮抗剂或激动剂(例如,受体)。“位姿”是底物或配体相对于生物分子的活性位点的位置或方位。在位姿中,配体的一些或所有原子的三维位置相对于活性位点中的原子的一些或所有位置是特定的。尽管配体的构象不为其位姿时-因为构象不考虑活性位点-构象可被用于确定位姿。在一些实施方案中,配体的方位和构象共同定义位姿。在一些实施方案中,只有当配体的方位/构象组合满足参考活性位点中的定义的阈值能量水平时,位姿才存在。对接器评价位姿以确定配体如何与结合位点相互作用。在一些实施方案中,它们通过基于以上提到的相互作用类型中的一种或更多种(例如,范德华力)计算相互作用的能量来完成这。该信息被用来表征对接,并且在一些情况中产生对接得分。在一些实施方案中,对接器基于对接得分来对位姿排序。在一些实施方案中,对接器将具有不良对接得分的位姿排除在考虑之外。在某些实施方案中,虚拟蛋白筛选系统评价位姿以确定该位姿是否是活性的。如果位姿满足限定的约束,则其被视为是活性的,所述限定的约束已知对于在考虑中的期望的活性是重要的。例如,虚拟蛋白筛选系统可确定位姿是否支持配体在结合位点中的催化转化。“配体”是与生物分子的结合位点相互作用以形成包含至少配体和生物分子的稳定的复合物的分子或复合物。除了配体和生物分子之外,稳定的复合物可包含(有时候需要)其他化学实体,诸如有机和无机辅因子(例如,辅酶和辅基)、金属离子等。配体可以是激动剂或拮抗剂。生物分子的“活性位点”是由生物分子的结构定义的位点,该位点能够包含和/或结合分子(例如,底物或配体)的所有或一部分。许多类型的活性位点被预期,并这些的一些在本文别处被描述。活性位点常常包含能够形成与底物或配体的结合相互作用的化学特性和/或物理特性(例如,氨基酸残基)。在一些实施方案中(例如,当生物分子是酶时),“活性位点”包含至少一个催化残基和多个结合残基,并有时候包含其他化学实体,诸如有机和无机辅因子(例如,辅酶和辅基)、金属离子等。活性位点的至少一个催化残基可包含催化底物的转化的催化部分。活性位点的结合残基提供与底物的结合相互作用,以使底物以立体选择和/或区域选择的方式保持在活性位点中。此类相互作用可包含范德华相互作用、静电相互作用、氢键键合、亲水相互作用、疏水相互作用、溶剂相互作用、共价键合等。在一些实施方案中,活性位点的计算表示可被用于对接底物或配体的计算表示,从而生成可被评价与活性位点有利的相互作用的位姿(例如,确定位姿的结合能量)。在一些实施方案中,活性位点的计算表示通过球体或其他形状几何上定义。在一些实施方案中,活性位点通过创建围绕具有被调整以包含它们的所选对象(例如,配体和/或结构模板中的其他化学实体)的几何中心的球体来定义。最小半径是但活性位点尺寸可通过将球体半径增加了等来扩展。在一些实施方案中,半径的尺寸被选择以捕获接近底物的残基。因此,较大的底物将与较大的半径相关,而小的底物将与较小的半径相关。不期望本公开内容被限制为任何特定的半径值。在一些实施方案中,活性位点可由受体腔来定义,在该受体腔处,活性位点来源于在结构模板中检测到的腔的一个。在一些实施方案中,活性位点可由蛋白数据库(PDB)网站记录来定,因为结构模板的PDB文件常常具有使用网站记录定义的活性位点。因为所有的同源模型将使用结构模版来创建,所定义的活性位点是可转移到所有的同源模型。在一些实施方案中,活性位点的计算表示可关于底物和/或酶上的部分通过多种三维形状,诸如使用者可定制的形状(例如,反映底物的结构的椭圆形或不规则形状)来定义。在一些实施方案中,活性位点的计算表示可被定义为包含氨基酸,所述氨基酸不与底物或配体分子在活性位点中直接相互作用(例如,经由范德华相互作用、静电相互作用、氢键键合),但其与活性位点的计算表示中的其他氨基酸相互作用,并从而影响底物或配体的位姿的评价。在一些实施方案中,有助于催化和/或结合的残基可退出如以上定义的活性位点的计算表示之外。在定向进化期间,此类残基可通过考虑在活性位点之外的残基作为用于突变或重组的候选者来修饰。“反应中间体”是在从底物到反应产物的转化中从底物产生的化学实体。底物的“过渡态”是对应于沿着反应途径最高势能的状态的底物。在趋于具有短暂存在的过渡态,碰撞反应物分子继续形成产物。在本公开内容中,有时候当在过程中描述底物时,中间体和过渡态也可适用于该过程。在此类情况中,底物、中间体和过渡态可被统一称为“配体”。在一些情况中,在底物的催化转化中生成多种中间体。在某些实施方案中,被选择用于分析的配体种类(底物或中间体或过渡态)是已知与催化转化中的限速步骤有关的配体种类。例如,在限速步骤中可以在化学上修饰与酶辅因子共价结合的底物。在此类情况中,底物-辅因子种类被用于为相互作用建模。“配体”是能够与生物分子结合的分子,并可包括能够结合并进一步经历催化化学转化的“底物”分子。一些配体与结合位点结合,但是不经历催化转化。实例包含在药物设计领域中评价的配体。此类配体可以是为了药理学目的针对其与靶生物分子非共价结合的能力而选择的小分子。在一些情况中,配体被评价其加强、活化或抑制生物分子的天然行为的能力。“生物分子(biomolecule)”或“生物分子(biologicalmolecule)”指通常在生物有机体中发现的或由生物有机体产生的分子。在一些实施方案中,生物分子包括具有多个亚单位的聚合生物大分子(即,“生物聚合物”)。典型的生物分子包括但不限于与天然存在的聚合物诸如RNA(由核苷酸亚单位形成)、DNA(由核苷酸亚单位形成)和肽或多肽(由氨基酸亚单位形成)共有一些结构特征的分子,包括例如RNA类似物、DNA类似物、多肽类似物、肽核酸(PNA)、RNA和DNA的组合(例如,嵌合体(chimeraplast))等。不意图生物分子被限制为任何特定的分子,因为任何合适的生物分子在本公开内容中具备实用性,包括但不限于,例如,脂质、碳水化合物或通过一种或更多种遗传上可编码的分子(例如,一种或更多种酶或酶通路)制备的其他有机分子等。本公开内容的一些方面特别感兴趣的是具有与配体相互作用以影响化学或生物转化(例如,底物的催化、生物分子的活化或生物分子的失活)的结合位点的生物分子。在一些实施方案中,“有益特性”或“活性”是以下中的一个或更多个的增加或降低:催化速率(kcat)、底物结合亲和力(KM)、催化效率(kcat/KM)、底物特异性、化学选择性、区域选择性、立体选择性、立体特异性、配体特异性、受体激动、受体拮抗、辅因子的转化、氧气稳定性、蛋白表达水平、溶解度、热活性、热稳定性、PH活性、PH稳定性(例如,在碱性pH或酸性pH)、葡萄糖抑制和/或对抑制剂(例如,乙酸、凝集素、单宁酸和酚类化合物)和蛋白酶的抗性。其他期望的活性可包括响应于特定刺激的改变的特征;例如,改变的温度和/或pH特征。在理性配体设计的背景中,靶向的共价抑制(TCI)的优化是一种类型的活性。在一些实施方案中,如本文描述的筛选的一种或更多种变体作用于同一个底物,但是对于以下活性中的一种或更多种不同:产物形成的速率、底物到产物的转化百分比、选择性和/或辅因子的转化百分比。不意图本公开内容限于任何特定的有益特性和/或期望的活性。在一些实施方案中,“活性”被用于描述酶催化底物到产物的转变的能力的更受限的概念。相关的酶特征是其对特定产物的“选择性”,所述特定产物诸如对映体或区域选择性产物。本文提出的“活性”的广义定义包括选择性,尽管传统上选择性有时候被视为与酶活性不同。术语“蛋白”、“多肽”和“肽”可互换地使用来表示通过酰胺键共价连接的至少两个氨基酸的聚合物,而不管长度或翻译后修饰(例如,糖基化、磷酸化、脂质化、豆蔻酰化、泛素化等)如何。在一些情况中,聚合物具有至少约30个氨基酸残基,并且通常具有至少约50个氨基酸残基。更通常地,它们含有至少约100个氨基酸残基。不意图将本发明限于任何特定长度的氨基酸序列。这些术语包括常规被认为是全长蛋白或肽的片段的组分。该定义包括D-氨基酸和L-氨基酸、以及D-氨基酸和L-氨基酸的混合物。本文描述的多肽不局限于遗传上编码的氨基酸。事实上,除了遗传上编码的氨基酸,本文描述的多肽可以全部或部分地由天然存在的和/或合成的非编码氨基酸组成。在一些实施方案中,多肽为全长的原型(ancestral)多肽或亲本多肽的一部分,与全长亲本多肽的氨基酸序列相比包含氨基酸添加或缺失(例如,空位)和/或取代,同时仍然保持功能活性(例如,催化活性)。“野生型(wildtype)”或“野生型(wildtype)”(WT)生物分子或有机体是具有当物种在自然界发生时的物种的通常形式的表型的生物分子或有机体。有时,野生型生物分子已从自然存在源分离。其他时候,它在实验室环境中得到。通常,与突变体基因组相比,野生型生物分子与正常基因组或参考基因组的基因序列相关或由正常基因组或参考基因组的基因序列编码。具有与天然形式相同的序列的多肽或多核苷酸的重组形式被包括在“野生型生物分子”的定义之内。与野生型生物分子交互作用的底物或配体有时候被视为“天然”底物或配体。如本文所使用的,术语“变体”、“突变体”、“突变体序列”和“变体序列”指在一些方面与标准序列或参考序列(例如,在一些实施方案中,亲本序列)不同的生物序列。该不同可被称为“突变”。在一些实施方案中,突变体是已通过至少一个取代、插入、交换(cross-over)、缺失和/或其他遗传操作改变的多肽序列或多核苷酸序列。为了本公开内容的目的,突变体和变体不限于特定的产生所述突变体和变体的方法。在一些实施方案中,突变体或变体序列与亲本序列相比具有增加的、减少的或基本上相似的活性或特性。在一些实施方案中,变体多肽与野生型多肽(例如亲本多肽)的氨基酸序列相比包含已突变的一个或更多个氨基酸残基。在一些实施方案中,在组成多种多肽的变体多肽中,与亲本多肽相比,多肽的一个或更多个氨基酸残基被保持恒定、是不变的、或未被突变。在一些实施方案中,亲本多肽被用作用于生成具有改进的稳定性、活性或其他期望的特性的变体的基础。如本文使用的,术语“酶变体”和“变体酶”被用来指与参考酶相似(尤其在它们的功能上),但是在其氨基酸序列中具有使其在序列上不同于野生型或另一种参考酶的突变的酶。可以通过本领域技术人员熟知的很多种不同的诱变技术制备酶变体。另外,诱变试剂盒也是从很多商业的分子生物学供应商可得的。对于在限定的氨基酸处形成特定的取代(定点)、在基因的局部区域中形成特定的或随机的突变(区域特定的)或在整个基因上形成随机诱变(例如,饱和诱变),方法是可得的。本领域的技术人员已知产生酶变体的许多合适的方法,包含但不限于利用PCR的单链DNA或双链DNA的定点诱变、盒式诱变、基因合成、易错PCR、重排、和化学饱和诱变或本领域已知的任何其他合适方法。在产生变体之后,可针对期望的特性(例如,高的或增长的或者低的或降低的活性、增加的热稳定性和/或碱稳定性)对其筛选。“酶组(apanelofenzymes)”是经选择以使得该组的每个成员催化相同的化学反应的一组酶。在一些实施方案中,组的成员可全体转化多个底物,每个底物经历相同的反应。通常选择组成员来有效转化多个底物。在一些情况中,组是市售可得的。在其他情况中,它们是实体专用的。例如,组可包括在筛选程序中被鉴定命中(hits)的多种酶。在某些实施方案中,组的一个或更多个成员只作为计算表示而存在。换言之,酶是虚拟酶。“模型”是生物分子或配体的结构的表示。其有时候被提供为用于被表示的实体的原子或部分的三维位置的集合。模型常常包含酶变体的结合位点或其他方面的计算上产生的表示。与本文的实施方案相关的模型的实例从使用诸如Rosetta(rosettacommons.org/software/)或MolecularDynamics模拟的程序的同源建模、蛋白线程或从头开始的蛋白建模产生。“同源模型”是至少包含在考虑中的配体的结合位点的蛋白或蛋白的一部分的三维模型。同源建模依赖于以下观察:在同源蛋白中蛋白结构趋于被保留。同源模型提供了包含主链和侧链的残基的三维位置。该模型从可能相似于建模的序列的结构的同源蛋白的结构模版生成。在一些实施方案中,结构模版被用于两个步骤中:“将序列与模板对齐”和“建立同源模型”。“将序列与模板对齐”步骤将模型序列与一个或更多个结构模版序列对齐并准备用于建立同源模型的输入序列对齐。对齐鉴定模型序列和结构模板序列之间空位和其他差异区域。“建立同源模型”使用结构模板的结构特征得到空间约束,该空间约束继而被用来使用共轭梯度和模拟退火优化程序产生例如模型蛋白结构。可从诸如NMR或X射线晶体学的技术获得模板的结构特征。此类技术的实例可在综述文章,“AGuidetoTemplateBasedStructurePrediction”,QuX,SwansonR、DayR、TsaiJ.CurrProteinPeptSci.2009年6月;10(3):270-85中找到。术语“活性构象”被用来指允许蛋白(例如,酶)导致底物经历化学转化(例如,催化反应)的该蛋白的构象。提及其中一个反应是氧化且相反是还原的可逆化学反应,术语“氧化还原”、“氧化-还原”和“氧化还原反应”可互换使用。术语还被用来指其中原子使其氧化态改变的所有化学反应;一般地,氧化还原反应牵涉种类之间的电子的转移。这可以是简单的氧化还原过程(诸如,碳的氧化产生二氧化碳(CO2)或碳通过氢气还原产生甲烷(CH4))或者复杂的过程(诸如,葡萄糖(C6H12O6)在人体中通过一系列复杂的电子转移过程的氧化)。“氧化还原酶”是催化氧化还原反应的酶。术语“转化”在本文中被用来指将官能基团从一个化合物转移至另一个化合物的化学反应。“转移酶”被用来指催化转化反应的多种酶的任一种。术语“水解”被用来指其中水与化合物反应产生其他化合物的化学反应,该反应牵涉通过来自水的另外的氢阳离子和氢氧根阴离子来拆分化学键。“水解酶”是催化水解反应的酶。术语“异构化”被用来指将化合物转化为同分异构体的化学反应。“异构酶”是催化异构化反应从而导致其底物变成同分异构形式的酶。术语“连接”在本文中被用来指通过形成新的化学键连接两个分子的任何化学反应。在一些实施方案中,连接反应牵涉依赖于较大分子中的一个的小的化学基团的水解。在一些实施方案中,酶催化两个化合物在一起的连接,例如,催化C-O、C-S、C-N等的连接。催化连接反应的酶被称为“连接酶”。“裂解酶”是通过除了水解和氧化以外的方式催化多种化学键的破坏的酶。在一些实施方案中,裂解酶反应形成新的双键或新的环结构。“酮还原酶”是通常使用辅因子NADPH立体专一地将酮基团还原为羟基基团的酶(参见,例如,公开在WO2008103248A2、WO2009029554A2,WO2009036404A2、WO2009042984A1、WO2009046153A1和WO2010025238A2中的变体)。“转氨酶(transaminase)”或“氨基转移酶(aminotransferase)”是催化氨基酸和α-酮酸之间的转氨基作用反应的酶,其中氨基酸上的氨基基团NH2与α-酮酸上的酮基团=O交换(参见,例如,在WO2010081053A2和WO2010099501A2中公开的变体)。“细胞色素”蛋白(缩写为“CYP”)是参与有机物质的氧化的酶。一个实例是细胞色素P450酶。CYP酶的底物包括,但不限于代谢中间体诸如脂类和类固醇激素以及诸如药物和其他有毒化学物质的非生物物质。CYP是参与药物代谢和生物活化的主要的酶。CYP使用多种小分子和大分子作为酶促反应中的底物。由细胞色素P450催化的最常见的反应是单加氧酶反应,例如,氧气中的一个原子插入进有机底物(RH)中,同时另一个氧原子被还原为水。细胞色素P450酶属于包含血红素辅因子的蛋白的超家族,并因此,为血红素蛋白。一般地,它们是电子传递链中的末端氧化酶。从Codexis可得的筛选板和酶对药物代谢物和新颖的前导化合物的生产有用(参见,例如,在WO2002083868A2、WO2005017105A2、WO2005017116A2和WO2003008563A2中公开的变体)。“Baeyer-Villiger单加氧酶”是采用NADPH和分子氧催化Baeyer-Villiger氧化反应的酶,其中,氧原子被插入进羰基底物的碳-碳键(参见,例如,在WO2011071982A2和WO2012078800A2中的变体)。“单胺氧化酶”(MAO)(EC1.4.3.4)是催化单胺的氧化的酶,该酶为包含由两个碳链(-CH2-CH2-)连接到芳环的一个氨基基团的神经传导物质和神经调节物质。MAO属于包含黄素的胺氧化还原酶的蛋白家族(参见,例如,WO2010008828A2中的变体)。“腈水解酶”或腈氨基水解酶(EC3.5.5.1)是催化腈水解为羧酸和氨而无“游离”酰胺中间体的形成的酶(参见,例如,WO2011011630A2中的变体)。“亚胺还原酶”是催化包含碳-氮双键的亚胺官能基团的通过引起电子供给到氮原子破坏双键的还原的酶。“α,β-不饱和羰基化合物还原酶”是催化包含烯烃和酮的共轭体系的α,β-不饱和羰基化合物官能基团的破坏酮或烯烃双键的还原的酶,所述α,β-不饱和羰基化合物官能基团(参见,例如,在WO2010075574A2中公开的变体)。“酰基转移酶”是催化酰胺键或酰脂键的水解裂解的酶(参见,例如,WO2010054319A2中的青霉素G酰基转移酶的变体)。“卤代醇脱卤酶”“HHDH”是参与邻位卤代醇的降解的酶。例如,在放射形土壤杆菌(Agrobacteriumradiobacter)AD1中,它催化卤代醇的脱卤作用,以产生对应的环氧化物(参见,在WO2010080635A2中公开的变体)。“密码子”指三个连续核苷酸的特定序列,其为遗传密码的一部分并限定蛋白中的特定氨基酸或者起始或终止蛋白合成。术语“基因”被广泛地用来指DNA或与生物功能相关的其他核酸的任何片段。因此,基因包括编码序列以及任选地其表达所需的调控序列。基因还任选地包括例如形成其他蛋白的识别序列的不表达的核酸片段。基因可从多种来源获得,包括从感兴趣的来源克隆或从已知的或预测的序列信息合成,并且基因可包含被设计为具有期望的参数的序列。“部分”是分子的一部分,其可包含整个功能组或功能组的部分诸如亚结构,而功能组是促成那些分子的特征性化学反应的分子内的原子或键的组。“筛选”指其中确定一个或更多个生物分子的一个或更多个特性的方法。例如,典型的筛选方法包括其中确定一个或更多个文库的一个或更多个成员的一个或更多个特性的那些筛选方法。可利用生物分子和生物分子的虚拟环境的计算模型来在计算上进行筛选。在一些实施方案中,针对选择的酶的期望的活性和选择性提供了虚拟蛋白筛选系统。“表达系统”是用于表达由基因或其它核酸编码的蛋白或肽的系统。“定向进化”、“导向进化”或“人工进化”指通过人工选择、突变、重组或其他操作来人工地改变一个或更多个生物分子序列(或表示该序列的字符串)的计算机模拟的、体外或体内过程。在一些实施方案中,定向进化发生在繁殖性群体中,其中(1)存在多种个体;(2)一些种类具有可遗传的遗传信息;并且(3)一些种类在适应度(fitness)方面不同。繁殖成功通过预先确定的特性诸如有益的特性的选择的结果来确定。繁殖性群体可以是例如,体外过程中的物理群体或计算机模拟过程中的计算机系统中的虚拟群体。定向进化方法可被容易地应用于多核苷酸,以产生可被表达、筛选和测定的变体文库。诱变和定向进化方法在本领域中是众所周知的(参见,例如,美国专利第5,605,793、5,830,721、6,132,970、6,420,175、6,277,638、6,365,408、6,602,986、7,288,375、6,287,861、6,297,053、6,576,467、6,444,468、5,811238、6,117,679、6,165,793、6,180,406、6,291,242、6,995,017、6,395,547、6,506,602、6,519,065、6,506,603、6,413,774、6,573,098、6,323,030、6,344,356、6,372,497、7,868,138、5,834,252、5,928,905、6,489,146、6,096,548、6,387,702、6,391,552、6,358,742、6,482,647、6,335,160、6,653,072、6,355,484、6,03,344、6,319,713、6,613,514、6,455,253、6,579,678、6,586,182、6,406,855、6,946,296、7,534,564、7,776,598、5,837,458、6,391,640、6,309,883、7,105,297、7,795,030、6,326,204、6,251,674、6,716,631、6,528,311、6,287,862、6,335,198、6,352,859、6,379,964、7,148,054、7,629,170、7,620,500、6,365,377、6,358,740、6,406,910、6,413,745、6,436,675、6,961,664、7,430,477、7,873,499、7,702,464、7,783,428、7,747,391、7,747,393、7,751,986、6,376,246、6,426,224、6,423,542、6,479,652、6,319,714、6,521,453、6,368,861、7,421,347、7,058,515、7,024,312、7,620,502、7,853,410、7,957,912、7,904,249号,和所有相关的非美国副本;Ling等人,AnalBiochem,254(2):157-78[1997];Dale等人,Meth.Mol.Biol.,57:369-74[1996];Smith,Ann.Rev.Genet.,19:423-462[1985];Botstein等人,Science,229:1193-1201[1985];Carter,Biochem.J.,237:1-7[1986];Kramer等人,Cell,38:879-887[1984];Wells等人,Gene,34:315-323[1985];Minshull等人,Curr.Op.Chem.Biol.,3:284-290[1999];Christians等人,Nat.Biotechnol.,17:259-264[1999];Crameri等人,Nature,391:288-291[1998];Crameri等人,Nat.Biotechnol.,15:436-438[1997];Zhang等人,Proc.Nat.Acad.Sci.U.S.A.,94:4504-4509[1997];Crameri等人,Nat.Biotechnol.,14:315-319[1996];Stemmer,Nature,370:389-391[1994];Stemmer,Proc.Nat.Acad.Sci.USA,91:10747-10751[1994];WO95/22625;WO97/0078;WO97/35966;WO98/27230;WO00/42651;WO01/75767;和WO2009/152336,其全部被通过引用并入本文)。在某些实施方案中,定向进化方法通过重组编码从亲本蛋白开发的变体的基因以及通过重组编码亲本蛋白变体文库中的变体的基因而产生蛋白变体文库。该方法可使用包含编码亲代变体文库中的至少一种蛋白的序列或子序列的寡核苷酸。亲代变体文库的一些寡核苷酸可以是密切相关的,只在选择替代性氨基酸的密码子方面不同,所述替代氨基酸被选择为通过与其他变体重组而被改变。所述方法可被进行一个或多个循环,直到实现期望的结果。如果使用多个循环,则每个循环通常包括筛选步骤以鉴定具有可接受的或改进的性能和待用于至少一个随后的重组循环的那些变体。在一些实施方案中,筛选步骤涉及用于确定酶对期望的底物的催化活性和选择性的虚拟蛋白筛选系统。在一些实施方案中,定向进化方法通过在特定残基处定点定向诱变来产生蛋白变体。通常通过结合位点的结构分析、量子化学分析、序列同源性分析、序列活性模型等来鉴定这些特定残基。一些实施方案采用饱和诱变,其中技术人员试图在特定位点或基因的窄区域处产生所有可能的(或尽可能接近于所有可能的)突变。“重排”和“基因重排”是通过一系列链延伸循环来重组亲本多核苷酸的片段的集合的定向进化方法类型。在某些实施方案中,一个或更多个链延伸循环是自引发的;即,除了片段自身之外不添加引物而进行。每个循环包括:通过杂交使单链片段退火,随后通过链延伸延长退火的片段,以及变性。在重排的过程中,生长的核酸链通常在有时被称作“模板转换”的过程中被暴露于多个不同的退火伴侣,所述“模板转换”包括将来自一个核酸的一个核酸区域与来自第二核酸的第二区域转换(即,第一和第二核酸在重排过程中充当模板)。模板转换经常产生嵌合序列,所述嵌合序列由在不同起源的片段之间引入交叉造成。交叉通过转换的模板在多个循环的退火、延伸和变性期间的重组产生。因此,重排通常导致变体多核苷酸序列的产生。在一些实施方案中,变体序列包括变体的“文库”(即,包括多个变体的组)。在这些文库的一些实施方案中,变体包含来自两个或更多个亲本多核苷酸的序列片段。当采用两个或更多个亲本多核苷酸时,个体亲本多核苷酸足够同源,以使得来自不同亲本的片段在重排循环中使用的退火条件下杂交。在一些实施方案中,重排允许具有相对有限/低同源性水平的亲本多核苷酸重组。经常地,个体亲本多核苷酸具有不同和/或独特的区域和/或其他感兴趣的序列特征。当使用具有不同的序列特征的亲本多核苷酸时,重排可产生高度多样性的变体多核苷酸。多种重排技术在本领域是已知的。参见,例如,美国专利第6,917,882、7,776,598、8,029,988、7,024,312和7,795,030号,其所有被通过引用以其全文并入本文。一些定向进化技术采用“重叠延伸基因拼接法”或“基因SOEing”,其为不依赖于限制位点重组DNA序列并直接体内生成突变的DNA片段的基于PCR的方法。在技术的一些实现中,初始PCR产生被用作第二PCR的模板DNA的重叠基因片段,以产生全长产物。内部PCR引物在中间片段上生成重叠、互补的3’末端,并引入核苷酸取代、插入或删除用于基因剪接。这些中间片段的重叠链在第二PCR的3'区域杂交并被延伸以产生全长产物。在多种应用中,全长产物通过侧翼引物扩增,所述侧翼引物可包含用于为了克隆目的将产物插入表达载体的限制酶位点。参见,例如,Horton等人,528-35[1990]。“诱变”是将至少一个突变引入标准或参考序列诸如亲本核酸或亲本多肽的过程。定点诱变用于引入突变的有用技术的一个实例,尽管任何合适的方法具备实用性。因此,可选地或另外地,突变体可通过以下来提供:基因合成、饱和随机诱变、残基的半合成组合文库、递归序列重组(“RSR”)(参见,例如,美国专利申请公布号2006/0223143,通过引用以其整体并入本文)、基因重排、易错PCR和/或任何其他合适的方法。合适的饱和诱变程序的一个实例被描述于美国专利申请公布号2010/0093560中,其被通过引用以其全文并入本文。“片段”为核苷酸或氨基酸序列的任何部分。片段可利用本领域已知的任何合适的方法产生,包括但不限于,裂解多肽或多核苷酸序列。在一些实施方案中,片段通过使用裂解多核苷酸的核酸酶来产生。在一些另外的实施方案中,片段利用化学技术和/或生物合成技术生成。在一些实施方案中,片段包含至少一个亲本序列的子序列,所述子序列利用互补核酸的部分链延长生成。在涉及计算机模拟的技术的一些实施方案中,计算上产生虚拟片段以模拟通过化学和/或生物技术产生的片段的结果。在一些实施方案中,多肽片段表现出全长多肽的活性,而在一些其他的实施方案中,多肽片段不具有由全长多肽表现出的活性“亲本多肽”、“亲本多核苷酸”、“亲本核酸”和“亲本”通常被用来指在多样性生成程序诸如定向进化中被用作起点的野生型多肽、野生型多核苷酸或变体。在一些实施方案中,亲本自身经由重排或其他多样性生成程序产生。在一些实施方案中,定向进化中使用的突变体与亲本多肽直接相关。在一些实施方案中,亲本多肽在暴露于极端的温度、pH和/或溶剂条件时是稳定的并可充当用于生成用于重排的变体的基础。在一些实施方案中,亲本多肽对于极端的温度、pH和/或溶剂条件是不稳定的,并且亲本多肽被演变以制备稳健的变体。“亲本核酸”编码亲本多肽。“文库”或“群体”指至少两个不同的分子、字符串和/或模型,诸如核酸序列(例如,基因、寡核苷酸等)或来自其的表达产物(例如,酶或其他蛋白)的集合。文库或群体通常包括很多不同的分子。例如,文库或群体通常包括至少约10个不同的分子。大的文库通常包括至少约100个不同的分子、更通常地至少约1000个不同的分子。对于一些应用,文库包括至少约10000或更多个不同的分子。然而,不意图本发明被限制于特定数目的不同分子。在某些实施方案中,文库包括通过定向进化程序产生的很多变异或嵌合的核酸或蛋白。当来自两种核酸的每一种的序列被组合以产生子代核酸时,所述两种核酸被“重组”。当两种核酸均是用于重组的底物时,所述两种核酸被“直接”重组。术语“选择”指其中一种或更多种生物分子被鉴定为具有一种或更多种感兴趣的特性的过程。因此,例如,技术人员可筛选文库以确定一个或更多个文库成员的一种或更多种特性。如果一个或更多个该文库的成员被鉴定为拥有感兴趣的特性,则其被选择。选择可包括分离文库成员,但这不是必需的。另外,选择和筛选可以并且经常是同时的。本文公开的一些实施方案提供了用于筛选并选择具有期望的活性和/或选择性的酶的系统和方法。术语“序列-活性模型”指描述一方面的生物分子的活性、特征或特性与另一方面的多种生物序列之间的关系的任何数学模型。“参考序列”为从其产生序列的变异的序列。在一些情形中,“参考序列”被用来限定变异。此类序列可以是被模型预测为具有期望的活性的最高值(或最高值中的一个)的序列。在另一种情形中,参考序列可以是原始蛋白变体文库的成员的序列。在某些实施方案中,参考序列为亲本蛋白或亲本核酸的序列。“下一代测序”或“高通量测序”是使测序过程并行化的测序技术,一次产生数千计或数百万计的序列。合适的下一代测序方法的实例包括但不限于,单分子实时测序(例如,PacificBiosciences,MenloPark,California)、离子半导体测序(例如,IonTorrent,SouthSanFrancisco,California)、焦磷酸测序(例如,454,Branford,Connecticut)、连接测序(例如,SOLidsequencingofLifeTechnologies,Carlsbad,California)、通过合成和可逆终止物的测序(例如,Illumina,SanDiego,California)、诸如透射电子显微术的核酸成像技术等。“遗传算法”是模仿进化过程的过程。遗传算法(GA)被用于很多领域来解决未被完全表征或太复杂以致不允许被完全表征的问题,但是对于所述问题一些分析评价是可获得的。即,GA被用来解决可通过对解的相对值(或至少一个可能的解相对于另一个解的相对值)的一些定量测量来评价的问题。在本公开内容的上下文中,遗传算法是用于在计算机中选择或操作字符串的过程,通常其中该字符串对应于一个或更多个生物分子(例如,核酸、蛋白等)或者被用于训练诸如序列活性模型或支持向量机的模型的数据。在一个典型实施中,在第一代算法中,遗传算法提供并评估字符串的群体。每个模型包含描述在至少一个自变量(IV)和因变量(DV)之间的关系的多个参数。“适应度函数”评价群体的成员模型并基于一个或更多个标准来将它们排序,所述一个或更多个标准诸如高的期望的活性或低的模型预测误差。群体的成员模型在遗传算法的上下文中有时候也被称为个体或染色体。在一些实施方案中,使用赤池信息标准(AIC)或贝叶斯信息标准(BIC)来评价模型适应度,其中,具有最小AIC或BIC值的个体被选作最适应的个体。选择高排序的模型用于升级到第二代和/或交配以产生“子代模型”的群体用于算法的第二代。第二代中的群体通过适应度函数来相似地评价,并将高排序的成员升级和/或与第一代交配。遗传算法继续以该方式用于后续的代数,直到满足“收敛标准”,在该点处,算法以一个或更多个高排序的个体(模型)结束。术语“遗传操作”(“GO”)指生物的和/或计算的遗传操作,其中任何类型的字符串的任何群体中(以及由此而来的由此类字符编码的物理对象的任何物理特性中)的所有改变可被描述为随机和/或预先确定地应用有限组的逻辑代数函数的结果。GO的实例包括但不限于扩增、交换、重组、突变、连接、片段化等。II.虚拟蛋白筛选在一些实施方案中,虚拟蛋白筛选系统被配置成进行与计算上鉴定可能具有期望活性(诸如,有效地并选择性地在限定的温度催化反应)的生物分子相关的多种操作。虚拟蛋白筛选系统可将意图与变体相互作用的一个或多于一个配体的表示作为输入值。系统可将生物分子变体或这些变体的至少活性位点的表示作为其他输入值。这些表示可包括配体和/或变体的原子和/或部分的三维位置。同源模型是生物分子变体的表示的实例。虚拟蛋白筛选系统可采用对接信息和活性约束来评价变体的功能。在某些实施方案中,虚拟蛋白筛选系统应用一个或更多个限制来区分活性位姿和非活性位姿。此类位姿可通过如以上描述的对接器或通过另一种工具来产生。配体位姿在其环境中被评价以确定配体的一个或更多个特征是否定位于该环境中以使得导致催化转化或其他定义的活性。所讨论的环境通常是酶或其他生物分子的活性位点。如果有人假设底物或其他配体与生物分子的活性位点结合,待问的问题是它是否以“活性”方式结合。典型的对接程序可告诉人们配体将是否会与活性位点结合,但不告诉人们它是否以“活性”方式结合。在某些实施方案中,活性通过考虑由对接器或其他工具产生的一个或更多个位姿来确定。每一个位姿被评价以确定它是否满足与感兴趣的活性(例如,“期望的活性”)相关的限制。活性位姿是其中配体可能经历催化转化或执行诸如与结合位点共价结合的一些期望的作用的位姿。当将底物的催化转化当做活性时,虚拟蛋白筛选系统可被配置成鉴定已知与特定反应相关的位姿。在一些实施方案中,这涉及到考虑反应中间体或过渡态,而不考虑底物自身。除了转化之外,可针对其他类型的活性评价位姿,所述其他类型的活性诸如,对映异构体的立体选择性合成、与被鉴定对药物发现、产物的区域选择性转化重要的靶生物分子的受体结合等。在一些情况中,活性是不可逆或可逆的共价结合,诸如,靶向共价抑制(TCI)。限制可直接地、人工地、自动地、根据经验或基于先前已知的信息来确定。在一种方法中,研究人员评价野生型蛋白的活性位点和天然底物。这是因为已知野生型蛋白对其天然底物自然进化并因此具有最佳催化常数(kcat)。在一些情况下,野生型蛋白和天然底物或中间体化合物的晶体结构已被解出。然后限制可基于结构分析来设置。这被称为用于确定限制的“直接方法”。在其中此类晶体结构不可用的情况下,例如,评价可用对接程序来执行。研究人员使用程序鉴定与野生型蛋白中的天然底物的催化转化相关的限制。这被称为用于确定限制的人工方法或根据经验的方法。在另一种方法中,限制使用量子力学计算来确定。例如,研究人员可使用量子力学在催化残基(例如,Tyr)和/或辅因子(例如,NADHP)的官能基团的存在下的优化底物或中间体或过渡态,并将限制设置成类似的那些状态。该方法有时被称为自动或从头开始的方法。使用该方法的商业工具的一个实例是从www|.|Gaussian.com.可得的Gaussian。限制可采用多种形式。在某些实施方案中,一些或所有这些限制是指定配体位姿中的一个或更多个原子在三维空间中的相对位置的几何限制。在一些实施方案中,空间可相对于活性位点中的原子的位置来定义。“几何限制”是评价两个或更多个参与部分或其他化学元素的几何结构的限制。在某些实施方案中,参与者中的一个是配体上的部分或其他化学种类。在一些实施方案中,参与者中的另一个是生物分子的活性位点的部分或其他化学特征。活性位点的部分或其他化学特征可与生物分子活性位点上的残基(例如,氨基酸残基侧链)、辅因子或通常与活性位点和/或催化相关的其他化合物上的特征等相关。作为实例,在酮还原酶蛋白对酮的还原中,底物的羰基基团可以是几何限制中的一个参与者,且酶活性位点的酪氨酸部分可以是几何限制中的第二参与者。一般地,几何限制一方面相对于配体且另一方面相对于结合环境的一个或更多个特征来进行。在一些实施方案中,环境可包括多肽骨架(或侧链)的残基位置和/或辅因子或通常驻留在活性位点中的其他非骨架材料。在几何限制中参与者的几何学可根据部分之间的距离、部分之间的角度、部分之间的扭转关系等来定义。有时,限制包括用来表征活性的多个基本几何限制。例如,对底物的位置的限制可通过两对或更多对原子之间的距离来定义。在图1中示出了一个实例。在扭转关系的情况下,当底物和活性位点环境的特性被视为共享共同的旋转轴的名义上平行的平面时,限制可以是适当的。围绕轴的这些平面的相对角度位置界定扭转限制。图1示出了可被用来鉴定用于鉴定活性位姿的几何限制的工作流程的实例。所示的工作流程假设野生型酶是酮还原酶且天然底物是苯乙酮。如在图1的左上角中示出的,自然反应通过立体选择性催化将苯乙酮转化为对应的醇。反应在酮底物的乙酰基的碳处引入手性中心。野生型酮还原酶控制该转化,使得仅R对映体被产生。反应在NADPH作为辅因子的存在下完成。反应在图1的左上角中示意性示出。在图1的右上角中,示出了催化和选择性的机制。当定义被用来区分活性位姿和非活性位姿的几何限制时考虑该机制。作为过程的一部分,研究人员或自动化系统确定苯乙酮底物相对于其在野生型酮还原酶中的催化环境的方位。一般地,相关环境包括当催化转化发生时存在的周围残基、辅因子等。在所示的实例中,活性位点环境在野生型酮还原酶中的相关特征是(a)野生型酶的骨架中的酪氨酸残基;以及(2)辅因子、NADPH中的原子的位置。底物在活性位姿中的其他相关环境特征是活性位点中的子袋(sub-pockets)。这些在图1中未示出。子袋中的一个容纳苯乙酮底物的苯基基团,而另一个容纳苯乙酮的甲基基团。这些子袋共同将底物保持在规定反应的立体专一性的方位中。在一些实施方案中,以上信息基于野生型酮还原酶和天然苯乙酮底物化合物的晶体结构的结构分析来收集。因此,几何限制可被直接定义。酮还原酶的催化机制由所示的排列中示出的一串箭头示出(图1的右上角)。特别地,NADPH通过与苯乙酮的羰基碳耦合的氢负离子供给电子。同时,来自苯乙酮的羰基氧的电子对被供给到酪氨酸残基的质子,且来自酪氨酸的羟基氧的电子对被供给到NADP(H)的核糖部分的质子,从而完成底物到对应醇的转化。如指出的,该反应继续进行,同时底物的苯基基团被保持在一个较大的子袋中,底物的甲基基团被保持在较小的子袋中,且底物的酮基团被保持为极为靠近地朝向酪氨酸羟基基团。如在图1中进一步示出的,野生型酮还原酶被演变成变体酮还原酶,所述变体酮还原酶立体专一地催化在本文中被称为“期望的底物”的不同底物的转化。如在图1的中部示出的,期望的反应是甲基叔丁基酮转化为对应的醇(1叔丁基乙醇)的S对映体。反应被假定为在为转化被优化的变体酶的活性位点中并在辅因子NADPH下被催化。为了确保反应以期望的立体专一性展开,一个或更多个限制应该被确定。应注意,天然底物被野生型酮还原酶转化为R对映体,且期望的底物被该变体转化为S对映体。因此,人们可考虑期望的底物的叔丁基基团应该定位于通常容纳天然苯乙酮底物的甲基基团的子袋中,且期望的底物的甲基基团应该定位于容纳天然底物的苯基基团的子袋中。出于这种考虑,一组位置限制可如图1的左下角所示的界定。如本文所示的,多种限制被相对于天然底物的三维位置来定义,因为天然底物在晶体结构中位于WT酶的活性位点中,以便获得最大的转化率(kcat)。换言之,天然底物的关键官能基团(包括决定催化转换率的羰基碳和羰基氧及指示立体选择性的挨着羰基碳的两个碳中的任一个)相对于图1的右上角中的图确定的方位被转换到X、Y、Z坐标中。因为所有变体的同源模型使用WT结构作为模板来构建,X、Y、Z坐标可针对这些变体移动。用该参考系,期望的底物的关键官能基团(C1(C2)C=O)的位置可与对应的天然底物的4个原子的位置进行比较,因为它们被预测为位于朝向催化性酪氨酸残基和NADPH辅因子的最佳方位中。值得注意的是,用于催化的残基(例如,酪氨酸)和用于辅因子(NADPH)结合的残基在所有的变体中是保守的,且仅微小的构象变化或位置变化被预期用于所有变体中的该酪氨酸和NADPH。出于这种考虑,在图1的左下角中示出的位置限制指定相对于天然底物的羰基碳原子、羰基氧原子和甲基碳原子的对应位置的期望的底物的羰基碳原子、羰基氧原子和中心叔丁基原子的位置的范围。在期望的底物的原子和天然底物的对应原子之间的位置差异的范围通过距离d1、d2和d3示出。作为实例,这些距离的每一个可被要求为1埃或更多或更少,以便期望的底物的位姿被认为是活性位姿。限制值通常被设置为允许反映变体中的催化酪氨酸和辅因子的微小构象变化的特定灵活度(flexibility)的范围。在一些实施中,用于这些距离的标准通过机器学习算法来精制。在以上实例中,期望的底物的三个相关原子的位置近似于天然底物的那些。与在满足以上位置限制的位姿中的期望的底物对接的酮还原酶变体被期望为催化活性的并且为S选择性的。一般地,虚拟蛋白筛选系统可应用多种类型的任一种的几何限制。在一些实施中,它应用参与者之间的绝对距离。例如,底物的羰基基团中的氧原子和活性位点的酪氨酸基团的原子之间的距离可被指定为限制(例如,这些原子之间的距离必须是±)。在另一个实例中,在由羰基基团中的碳原子和氧原子之间的轴定义的一个线和沿着在活性位点中的苯基基团的轴的另一个线之间的角度是120°±20°。图1的右下部示出几何限制的类型的实例,这些限制各自被界定在期望的底物的一个或更多个原子和酶或辅因子(或者其他实体)的位于结合袋中的一个或更多个原子之间。距离限制被定义为底物上的原子和活性位点残基、辅因子等上的原子之间的距离。角度限制是通过在界定于底物及其环境上的两个或更多个轴线之间的角度关系对位姿定义的。轴可以是共价键、底物的原子之间的线和结合袋中的部分等。例如,角度可在底物上的两个原子之间定义的一个轴和在残基上的原子和底物上的原子之间的间隔定义为的另一个轴之间来定义。在一些其他实施方案中,一个轴在残基侧链上的两个原子之间来定义,且另一个轴可由在底物上的原子和残基上的原子之间的间隔来定义。另外类型的几何限制被示出在图1的右下角中。该类型的限制被称为“扭转限制”并假设结合袋中的两个不同实体(其的一个通常是底物的所有或一部分)共享共同的旋转轴。扭转限制可通过围绕共同的旋转轴的实体中的一个相对于另一个的角度位置的范围来定义。一般地,几何限制可相对于底物部分在结合袋内的一些预置的几何位置或方位来应用。此类位置或方位可通过例如天然底物在结合袋中的活性部分的代表性位置来指定。作为实例,考虑中的底物的羰基基团的碳原子和氧原子一定在结合袋中的天然底物中的羰基基团的碳氧原子的位置的之内。参见图1的左下角中示出的位置限制。注意,图1的左下角中的位置限制存在于期望的底物和同质底物之间。然而,位置限制可被转换成期望的底物和酶变体之间的关系,所述关系对应于图1的中下部和右下角中的几何限制。除了直接手动或使用计算机自动确定几何限制之外,限制还可通过筛选结果精制。例如,如果通过实验室筛选对于期望的反应一个或多于一个变体被鉴定为活性的,同时一些其他被鉴定为非活性的,它们的位姿可被进一步分析且限制可被训练(trained)。尽管图1中示出的实例使用相对小和简单的分子(甲基叔丁基酮)作为期望的底物,大得多的和更复杂的底物常常在定向进化尝试(effort)中被评价。图2展示了用于在一些实施中分析候选生物分子的潜在活性的工作流程。尽管可考虑许多不同的活性,将在该实施方案中被强调的活性是底物的催化转化。该转化可以是对映体选择性或区域选择性。在此类情况下,变体是酶。在该图的描述中,当术语“底物”被使用时,概念延伸到相关配体诸如在底物为反应产物的催化转化中的定速步骤中重要的反应中间体或过渡态。如在图2中所示的,过程始于鉴定用于区分底物的活性位姿与非活性位姿的限制。参见模块201。在一些情况下,限制通过对接来鉴定。在此类过程中,研究人员考虑底物或反应中间体或过渡态与酶活性位点的相互作用。在该过程中,她鉴定导致期望的活性(例如,立体专一性催化转化底物)的限制。研究人员可在结构分析、对接程序和/或提出酶和相关底物、中间体或过渡态的表示的量子力学计算的辅助下做到这一点。用对接器完成的对接有时被称为“根据经验的”对接方法,且用量子力学工具完成的最佳化有时候被称为“从头开始的”方法。在一些实施方案中,对接用野生型酶和天然底物、中间体或过渡态来进行。参见模块201。如以上解释的,一些限制是代表如图1的左下角中所示的期望的底物中的部分和天然底物或相关辅因子中的部分的相对位置的几何限制。在一些实施中,限制可被定义为在期望的底物和酶变体之间的关系,诸如,图1的中下部和右下角中所示的几何限制。在一些情况下,活性位姿的限制可通过除了对接野生型酶中的天然底物之外的技术来鉴定。例如,使用量子力学和分子动力学工具鉴定对催化反应相关的部分并定义鉴定的部分之间的关系是可能的。返回到图2中所示的过程,虚拟蛋白筛选系统创建或接收用于将为活性考虑的多个变体生物分子的每一个的结构模型。参见模块203。如所解释的,结构模型是酶变体的活性位点或其他方面的计算上产生的三维表示。这些模型可被保存在数据库或其他数据存储库中,用于以后使用。在一些情况下,模型的至少一个被创建以用于工作流程中使用。在一些情况下,模型的至少一个先前已被创建,在这种情况下,过程简单地接收此类模型。多个模型,用于不同的生物分子序列的每一个的被用于图2所示的过程中。这应该与利用对接程序的常规工作流程形成对比。常规工作流程集中于单个靶或单个序列。在一些情况下,常规工作流程考虑受体的多个实例,但这些是基于同一个序列。实例的每一个具有由NMR或分子动力学模拟产生的不同的三维坐标。在图2过程中使用的结构模型通过在与活性位点相关的或与酶的序列中的一些其他位置相关的位置处的一个或更多个氨基酸残基的模型中的插入、缺失或置换彼此不同。结构模型可通过多种技术创建。在一个实施方案中,它们通过同源建模创建。用适当的活性限制和结构模型,虚拟蛋白筛选系统在已被选择用于考虑的变体上迭代。迭代的控制被模块205示出,模块205指示考虑中的下一个变体酶被选择用于分析。该操作和图2的剩余操作可通过软件或数字逻辑实施。对于当前考虑中的变体酶,虚拟蛋白筛选系统首先尝试将期望的底物与变体的活性位点对接。参见模块207。该过程可对应于常规的对接程序。因此,对接器可被用来确定底物是否能够与变体中的活性位点对接。该决定被表示在模块209中。注意,期望的底物有时不同于可能已被用来产生限制的天然底物。如果虚拟蛋白筛选系统确定对接成功是不可能的,过程控制指向模块220,在此处系统确定是否存在要考虑的任何另外的变体。如果不存在要考虑的另外的变体,如所示的,该过程用可选操作223来完成。另一方面,如果一个或更多个变体留下被考虑,过程控制指回过程步骤205,在此处选择用于考虑的下一个变体。然后,参考模块207和209如以上描述评价该变体其与考虑中的底物对接的能力。如果结果是考虑中的变体能够成功地与底物对接,过程控制指向算法的部分,在此处多个位姿被考虑并均被评估活性。如下文所述的,该分析由模块211、213、215和217所示。如示出的,过程在多个可用位姿上迭代。在多种实施方案中,对接器辅助选择位姿。如解释的,对接器可产生底物在活性位点中的多个位姿。它还可基于一个或更多个标准诸如对接评数、能量考虑等来排序位姿。如在别处所述,总能量和/或相互作用能量可被考虑。不管位姿如何被产生和/或排序,工作流程可被配置成考虑特定数目的位姿。待考虑的位姿的数目可被任意地设置。在一个实施方案中,至少约前10个位姿被考虑。在另一个实施方案中,至少约20个位姿或至少约50个位姿或至少约100个位姿被考虑。然而,不意图本发明被限制为特定数目的位姿。如在模块211处示出的,过程选择下一个位姿,用于分析。当前选择的位姿然后针对在模块201中鉴定的限制来评价,以便确定该位姿是否是活性位姿。如所解释的,此类限制可以是确定底物的一个或更多个部分是否位于活性位点之内、使得底物经历期望的催化转化是可能的几何限制。如果在模块213处进行的评价指示当前位姿不是活性位姿,虚拟蛋白筛选系统然后确定是否存在为考虑中的当前变体考虑的任何另外的位姿。参见模块215。假设存在要考虑的更多个位姿,过程控制指回模块211,在此处下一个位姿被考虑。假设虚拟蛋白筛选系统在模块213处确定考虑中的位姿是活性的,它记录该位姿用于以后考虑。参见模块217。在一些实施方案中,虚拟蛋白筛选系统可保持用于当前考虑中的变体的活性位姿的数目的运行记录(runningtally)。在适当地记录当前位姿为活性的之后,过程控制指向模块215,在此处虚拟蛋白筛选系统确定是否存在要考虑的任何另外的位姿。在重复考虑用于考虑中的变体的所有可用位姿之后,虚拟蛋白筛选系统确定不存在要考虑的另外的位姿,且过程控制指向表征当前变体的可能的活性的模块218。表征可通过多种技术做出,表征包括但不限于活性位姿的数目和用于考虑中的变体的相关对接得分以及如本文所述的其他考虑。在模块218的操作完成之后,过程控制指向确定是否存在要考虑的任何另外的变体的决定操作220。如果存在要考虑的另外的变体,过程控制返回模块205,在此处工作流程如以上描述来继续。在考虑工作流程中的所有变体之后,虚拟蛋白筛选系统可基于一个或更多个标准将它们排序,一个或更多个标准诸如变体具有的活性位姿的数目、活性位姿的一个或更多个对接得分和/或活性位姿的一个或更多个结合能量。参见模块223。仅被鉴定为活性位姿的位姿(模块217)需要在进行模块223的排序时被评价。以该方式,工作流程中的操作用来从活性位姿过滤非活性位姿并存储与排序变体相关的计算工作量。尽管未在图2中示出,变体可基于它们的排序来选择,用于进一步的调查。在某些实施方案中,计算结合能的协议被执行以评价变体的每个活性位姿的能量学。在一些实现中,该协议可考虑范德华力、静电相互作用和溶剂化能。在通过对接器进行的计算中通常不考虑溶剂化。多种溶剂化模型对于计算结合能是可用的,这些溶剂化模型包括但不限于距离依赖性电介质、具有配对求和的广义博恩(GeneralizedBorn,GenBorn)、具有隐含膜的广义博恩(GeneralizedBornwithImplicitMembrane,GBIM)、具有分子体积集成的广义博恩(GBMV)、具有简单转换的广义博恩(GBSW)以及具有非极性表面区域的Poisson-Boltzmann方程(PBSA)。用于计算结合能的协议不同于或独立于对接程序。它们通常产生比对接得分更准确的结果,部分地因为在它们的计算中包含溶剂化效应。在多种实现中,只对被视为是活性的位姿计算结合能。A.均包含活性位点的多个生物分子的模型的产生计算机系统可提供多个蛋白变体的三维模型。三维模型是蛋白变体的全长序列中的一些或全部的计算表示。通常,在最低限度上,计算表示覆盖至少蛋白变体的活性位点。在一些情况下,三维模型是使用适当设计的计算机系统准作的同源模型。三维模型采用结构模板,在所述结构模板中蛋白变体在其氨基酸序列上彼此不同。通常,结构模版是与模型序列同源的序列的先前通过X射线晶体学或NMR解决的结构。同源模型的质量依赖于结构模板的序列身份和分辨率。在某些实施方案中,三维模型可被存储在数据库中,以在需要时被用于当前项目或未来项目。使用适当设计的计算机系统准备的同源模型。蛋白变体的三维模型可通过除了同源建模之外的技术产生。一个实例是蛋白线程,其也需要结构模版。另一个实例是从头开始或重新蛋白建模,其不需要结构模板且基于基础物理原则。从头开始技术的实例包括分子动态模拟和使用Rosetta软件套件的模拟。在一些实施方案中,蛋白变体在其活性位点方面彼此不用。在一些情况中,活性位点通过活性位点的氨基酸序列中的至少一个突变彼此不同。可在野生型蛋白序列或一些其他参考蛋白序列中进行突变。在一些情况中,两个或更多个蛋白变体共有活性位点的相同氨基酸序列,但在蛋白的另一个区域的氨基酸序列中不同。在一些情况中,两个蛋白变体通过至少约2个氨基酸或至少约3个氨基酸或至少约4个氨基酸彼此不同。然而,不期望本发明限于蛋白变体之间特定数目的氨基酸差异。在某些实施方案中,多个变体包括通过一轮或更多轮定向进化产生的文库的成员。用于定向进化中的多样性产生技术包含基因重排、突变、重组等等。定向进化技术的实例被描述在美国专利申请公布号2006/0223143中,其通过引用以其全文并入本文)。在一些实施的过程中,多个变体包含至少约十个不同的变体或至少约100个不同的变体或至少约一千个不同的变体。然而,不意图本发明被限制为特定数目的蛋白变体。B.评价多个不同的蛋白变体中的配体如在本文中所解释的,对接通过使用配体的计算表示和产生的多个变体的活性位点的计算表示的适当编程的计算机系统来执行。作为实例,对接器可被配置成进行以下操作的一些或所有:1.利用高温分子动力学与随机种子产生一组配体构象。对接器可产生此类构象而在不考虑配体的环境。因此,对接器可通过只考虑特定于配体自身的内部张力或其他考虑来鉴定有利构象。要产生的构象数目可被任意地设置。在一个实施方案中,产生至少约10个构象。在另一个实施方案中,产生至少约20个构象、或者至少约50个构象、或者至少约100个构象。然而,不期望本发明限制于特定数目的构象。2.通过将配体的中心转移到受体活性位点内的特定位置并进行一系列的随机旋转来产生构象的随机方位。要精化的方位数目可被任意地设置。在一个实施方案中,产生至少大约10个方位。在另一个实施方案中,产生至少大约20个方位、或者至少大约50个方位、或者至少大约100个方位。然而,不期望本发明限制于特定数目的方位。在某些实施方案中,对接器计算“软化(softened)”能以产生方位和构象的另外的组合。对接器利用关于活性位点中的某些方位的容许性的物理上不现实的假设来计算软化能。例如,对接器可假设配体原子和活性位点原子能占据基本上相同的空间,基于Pauli排斥和空间考虑,这是不可能的。当探索构象空间时,该软化假设可通过例如采用伦纳德—琼斯势的松弛形式来实现。与使用物理上现实的能量考虑可获取的相比,通过使用软化能计算,对接器允许更完全的构象探索。如果特定方位中的构象退火能小于特定阈值,则保留该构象-方位。这些低能构象被保留为“位姿”。在某些实现中,该过程继续,直到找到期望的数目的低能位姿或找到最大数目的差位姿。3.使来自于步骤2的每个保留的位姿经受模拟退火分子动力学以精化位姿。温度被提高至高的值,然后被冷却至目标温度。对接器可完成这以提供比由软化能计算结果提供的在物理上更现实的方位和/或构象。4.使用非软化势(non-softenedpotential)来进行配体在刚性受体中的最终最小化。这为保留的位姿提供了更准确的能量值。然而,计算可只提供关于位姿能的部分信息。5.对于每个最终位姿,计算总能量(受体-配体相互作用能加上配体内部张力)和单独的相互作用能。可使用CHARMm进行计算。通过CHARMm能对位姿排序,并且得分靠前(最负的,因此对结合有利)位姿被保留。在一些实施方案中,该步骤(和/或步骤4)移出在能量上不利的位姿。以下参考提供对接器的运作的实例:Wu等人,DetailedAnalysisofGrid-BasedMolecularDocking:ACaseStudyofCDOCKER–ACHARMm-BasedMDDockingAlgorithm、J.ComputationalChem.,24卷,13号,1549-62页(2003),其被通过引用以其全部并入本文。对接器诸如本文描述的一种可提供被筛选系统使用的一个或更多个信息,以鉴定高性能变体。此类信息包含变体的身份,对于该变体,与期望的底物对接是不可能的。不需要评价此类变体的活性等。由对接器提供的其他信息包含可为活性考虑的位姿组(对于每一个变体一组)。其他的信息仍包含组中的位姿的对接得分。C.确定对接的配体的位姿是否是活性的对于成功地与配体对接的蛋白变体,虚拟蛋白筛选系统进行以下操作:(i)考虑配体在考虑中的蛋白变体的活性位点中的计算表示的多个位姿;以及(ii)如果多个位姿中的任一个是活性的,确定是哪一个。活性位姿是满足对配体的一个或更多个约束以在限定的条件(而不是任意的结合条件)下结合的位姿。如果配体是底物且蛋白是酶,则活性结合可以是允许底物经历催化的化学转化、特别地立体专一性转化的结合。在一些实施中,限制是定义配体中的一个或更多个原子和蛋白和/或与蛋白相关的辅因子中的一个或更多个原子的相对位置的范围的几何限制。在一些情况中,当原始底物通过野生型酶经历催化的化学转化时,从原始底物和/或随后的中间体鉴定限制。在某些实施方案中,限制包含:包括:(i)底物和/或随后的中间体上的特定部分和活性位点中的特定残基或残基部分之间的距离;(ii)底物和/或随后的中间体上的特定部分和活性位点中的特定辅因子之间的距离;和/或(iii)底物和/或随后的中间体上的特定部分和在活性位点中理想地放置的原始底物和/或随后的中间体上的特定部分之间的距离。在某些实施方案中,限制可包括化学键之间的角度、围绕轴的扭转或化学键处的张力。底物和/或随后的中间体的计算表示的多个位姿可相对于在考虑中的蛋白变体的计算表示产生。可通过多种技术产生该多个位姿。此类技术的普通实例包括关于可旋转键的系统的或随机的扭转搜索、分子动力学模拟和被设计以查找低能构象的遗传算法。在一个实例中,利用高温分子动力学来产生位姿,然后随机旋转、通过基于网格的模拟退火的精化和最后的基于网格的或力场最小化,以产生底物和/或随后的中间体在计算表示的活性位点中的构象和/或方位。这些操作中的一些是任选的,例如,通过基于网格的模拟退火精化和基于网格的或力场最小化。在某些实施方案中,所考虑的位姿数目为至少约10个、或至少约20个、或至少约50个、或至少约100个、或至少约200个、或至少大约500个。然而,不期望本发明限制于考虑的特定位姿数。如果项目是成功的,变体的至少一个被确定为具有是活性的且能量上有利的一个或更多个位姿。在某些实施方案中,为进一步的考虑所选的变体是被确定为相比其他变体具有大数目活性构象的变体。在某些实施方案中,变体通过基于它们具有的活性位姿数目、用于活性位姿的一个或更多个对接得分和/或活性位姿的一个或更多个对接能量排序变体来选择。作为实例,可被考虑的对接得分的类型包括基于范德华力和/或静电相互作用的得分。作为实例,可被考虑的结合能量的类型包含范德华力、静电相互作用和溶剂化量。被确定为支持一个或更多个活性位姿的蛋白变体可被选择用于进一步的研究、合成、产生等。在一个实例中,选择的蛋白变体被用来播种一个或更多个轮的定向进化。作为实例,一轮定向进化可包括(i)准备多个寡核苷酸,其包含或编码选择的蛋白变体的至少一部分;以及(ii)使用多个寡核苷酸进行一轮定向进化。寡核苷酸可通过任何适合的方法来制备,任何适合的方法包括但不限于基因合成、片段化编码选择的蛋白变体的一些或全部的核酸等。在某些实施方案中,该轮定向进化包括片段化或重组多个寡核苷酸。在某些实施方案中,该轮定向进化包括对多个寡核苷酸进行饱和诱变。在可使用限制筛选的催化的化学转化包括但不限于,例如,酮还原、转氨基作用、氧化、腈水解、亚胺还原、α,β-不饱和羰基化合物还原、酰基水解和卤代醇脱卤作用。可提供使用限制评价的多个变体的酶种类的实例包含但不限于酮还原酶、氨基转移酶、细胞色素P450、Baeyer–Villigerd单加氧酶、单胺氧化酶、腈水解酶、亚胺还原酶、α,β-不饱和羰基化合物还原、酰基转移酶和卤代醇脱卤素酶。在合理的配体设计的环境下,靶向共价抑制(TCI)的最佳化是可使用限制筛选的一种类型的活性。TCI应用的实例被描述在Singh等人的Theresurgenceofcovalentdrugs,NatureReviewsDrugDiscovery,卷10,307-317页(2011),其通过引用以其整体并入本文。在一些实施中,TCI活性通过鉴定蛋白中的亲核的氨基酸(例如,半胱氨酸)来发现。本文描述的过程可辅助鉴定满足限制的抑制剂,所述限制定义对于可与待抑制的生物分子反应的抑制(假定抑制剂)重要的亲电部分的理想方位。III.使用虚拟蛋白筛选系统设计酶一些实施方案提供使用虚拟蛋白筛选系统虚拟建模和筛选酶的过程,从而鉴定具有期望的活性的酶,期望的活性例如催化活性和选择性。在一些实施方案中,真实的酶家族可被虚拟地建模和筛选作为初始变体文库。一些实施方案可迭代地使用通过虚拟筛选从初始文库作为亲本多肽或参考序列选择的一个或更多个酶,以通过计算机模拟、体外或体内技术产生新的变体文库。在一些实施方案中,通过如本文描述的系统高度排序的一个或更多个酶被选择作为亲本多肽。新的变体文库包含不同于亲本多肽的序列和/或被使用作为前体以引入随后的变体的蛋白序列。在一些实施方案中,亲本多肽可通过进行诱变或基于重组的多样性生成机制在定向进化过程中来修改,以生成新的蛋白变体文库。在一些实施方案中,亲本多肽通过至少一个取代、插入、交换(cross-over)、缺失和/或其他遗传操作来改变。定向进化可直接地对多肽(例如,在计算机模拟的过程中)或间接地对编码多肽的氨基酸(例如,在体外过程中)来实施。新的文库可被用来产生用于进一步筛选和定向进化的新的同源模型。在一些实施方案中,酶的建模、筛选和进化在计算机上迭代地进行,直到遇到满足特定标准的一个或更多个酶。例如,标准可以是指定的结合能量或得分或其改进。其他实施方案可结合计算机模拟和物理(例如,体外或体内)技术。例如,使用由体外筛选和测序得到的酶开始酶设计过程是可能的。体外测序可通过下一代测序来进行。然后,酶设计过程可使用用于定向进化、建模和进一步筛选的计算机模拟的方法。该过程可最终使用体外和/或体内技术来验证生物系统中的酶。计算机模拟和物理技术的其他组合和顺序适合于多种应用。事实上,不意图本发明被限制为方法的任何特定的组合和/或顺序。在一些实施方案中,多肽序列的制备计算机模拟来实现。在其他实施方案中,多肽通过使用核酸合成仪合成寡核苷酸或核酸序列并翻译核苷酸序列以获得多肽来产生。如以上所述,一些实施方案中,选择的酶可通过进行一个或更多个基于重组的多样性生成机制来修饰,以生成新的蛋白变体文库。此类重组机制包括,但不限于,例如,改组(shuffling)、模板交换(templateswitching)、通过重叠延伸的基因剪接、易错PCR、残基的半合成组合文库、递归序列重组(recursivesequencerecombination)(“RSR”)(参见,例如,美国专利申请公布号2006/0223143,其通过引用以其整体并入本文)。在一些实施方案中,这些重组机制的一些可在体外实现。在一些实施方案中,这些重组机制的一些可计算机模拟计算实施,以模拟生物机制。一些实施方案包括选择在蛋白序列中的一个或更多个位置,以及实施定点突变方法诸如如此选择的一个或更多个位置处的饱和诱变。在一些实施方案中,位置通过评价活性位点的结构和/或如在文档的别处讨论的与催化反应相关的限制来选择。将虚拟筛选与序列活性模型结合在一些实施方案中有用。在这些实施方案中,定向进化的过程可通过评价序列活性模型的项的系数来选择位置,从而鉴定对感兴趣的活性有贡献的一个或更多个残基。美国专利号7,783,428(其通过引用以其整体并入本文)提供可被用来鉴定用于诱变的氨基酸的序列活性模型的实例。在一些实施方案中,所述方法包括选择待产生的新的蛋白变体文库中的一个或更多个成员。然后,这些变体中的一个或更多个可在表达系统中被合成和/或表达。在具体实施方案中,该方法以以下方式继续:(i)提供表达系统,选择的新的蛋白变体文库的成员可由该表达系统表达;以及(ii)表达选择的所述新的蛋白变体文库的成员。图3A-3C是显示用于设计生物分子序列的工作流程的实例的流程图,工作流程实施本文别处描述的元素的多种组合。图3A示出了用于过程300的流程图,过程300始于从生物分子组(诸如,酶组)接收多个起始序列的序列信息。参见模块302。过程然后使用虚拟蛋白筛选系统进行当前接收的序列的虚拟筛选。参见模块304。在一些实施方案中,虚拟蛋白筛选系统可创建起始序列的三维同源模型,并通过考虑如以上描述的底物的位姿将一个或更多个底物与同源模型对接,从而产生用于起始序列的对接得分。虚拟蛋白筛选系统还可计算对接参与者(酶和底物)的相互作用能量和内部能量。此外,虚拟蛋白筛选系统可评价位姿的多种限制以确定位姿是否是活性的,即,底物以可能导致该底物的催化转化的方式与酶结合。此外,在一些实施方案中,限制的评价还提供关于催化反应的产物是否是对映体选择性的和/区域选择性的推断。在一些实施方案中,过程基于通过虚拟筛选系统确定的结合能量、活性和选择性选择一个或更多个序列。参见模块306。过程然后评价进行在步骤308中选择的序列的更进一步研究是否有必要。如果有必要,在该实例中,过程计算上突变选择的序列。突变是基于以上描述的多种多样性生成机制,诸如,诱变或重组。参见模块310。计算上突变的序列然后被提供,用于通过虚拟蛋白筛选系统的新一轮的虚拟筛选。参见模块304。虚拟筛选和选择可迭代地进行,直到不需要序列的更进一步研究,这可通过预置的标准诸如特定数目的迭代和/或特定水平的期望的活性来确定。在这方面,设计生物分子(例如,酶)的过程在步骤312处结束。图3B示出了用于生物分子诸如酶的定向进化的过程320的流程图,该过程与过程300相比具有一些相似的元素和一些不同的元素。过程320始于生物分子(例如,酶)的多个起始序列的体外合成,当预先存在的生物分子组不可用时,这是必要的或有用的。参见模块322。合成的序列还可被测定以收集序列的数据,该数据可对设计期望的特性的生物分子有用,其中,数据不可通过虚拟筛选系统获得。该过程然后使用在模块324中示出的虚拟蛋白筛选系统进行合成的序列的虚拟筛选,这与过程300中的步骤304相似。该过程然后基于通过虚拟筛选系统确定的结合能量、活性和选择性选择一个或更多个序列。参见模块326。该过程然后评价进行在步骤328中选择的序列的更进一步的定向进化是否有必要。如果有必要,在该实例中,过程计算机模拟或体外突变选择的序列。突变是基于以上描述的多种多样性生成机制。参见模块330。突变的序列然后被提供,用于通过虚拟蛋白筛选系统的新一轮的虚拟筛选。参见模块324。虚拟筛选和选择可迭代地进行,直到不需要序列的更进一步进化,这可通过预置的标准诸如特定数目的迭代和/或特定水平的期望的活性来确定。在这方面,通过虚拟筛选系统选择的序列被合成并表达以产生真实的酶。参见模块332。可测定产生的酶的感兴趣的活性,这可被用来验证虚拟筛选过程的结果。参见模块334。在测定之后,定向进化过程在步骤336处结束。图3C示出了用于生物分子诸如酶的定向进化的过程340的流程图。过程340始于体外定向进化以导出生物分子(例如,酶)的多个起始序列。参见模块342。如在过程320中的,导出的序列被测定以确定序列是否满足特定标准诸如期望的活性或选择性。满足标准的序列被确定为匹配物,用于更进一步的发展。参见模块344。该过程然后使用在模块346中示出的虚拟蛋白筛选系统进行匹配的虚拟筛选,这与过程300种的步骤304相似。在一些实施方案中,该过程还基于由如以上描述的虚拟筛选系统确定的结合能量、活性和选择性选择一个或更多个序列。该过程然后评价进行在步骤348中选择的序列的更进一轮的定向进化是否有必要。如果有必要,该过程提供选择的序列,用于在新的迭代中的另一轮的体外定向进化,参见模块342。虚拟筛选和选择可迭代地进行,直到不需要序列的更进一步进化,这可通过预置的标准来确定。在这方面,设计生物分子(例如,酶)的过程在步骤350处结束。IV.产生蛋白变体文库蛋白变体文库包括具有因成员而异的一个或更多个残基的多种蛋白的组。这些文库可使用本文描述的方法和/或本领域已知的任何适合的方法来产生。在多种实施方案中,这些文库提供候选酶的虚拟蛋白筛选系统。在一些实施方案中,该文库可被提供并在初始轮中计算机模拟筛选,并且通过虚拟筛选系统从以后轮或最终轮选择的所得蛋白可体外测序和/或筛选。因为初始轮筛选计算机模拟来进行,用于筛选的时间和成本可被大大减少。与常规物理筛选相比,在一些实施中,包含在蛋白变体文库内的蛋白的数目可在初始轮筛选中容易地增加。不意图本公开内容被限制为本公开内容的方法中使用的蛋白文库中的任何特定数目的蛋白。也不意图本公开内容被限制为任何特定的一个或更多个蛋白变体文库。在一个实例中,蛋白变体文库由一种或更多种天然存在的蛋白产生,所述蛋白在一些实施方案中可由单基因家族编码,或在其他实施方案中可由一组酶编码。其他起点包括,但不限于已知蛋白和/或新型合成蛋白的重组体。文库可通过多种技术从这些“种子”(seed)蛋白或“起始”蛋白产生。在一种情况下,文库通过反映生物技术或化学技术的虚拟过程来产生,例如,如在Stemmer(1994)ProceedingsoftheNationalAcademyofSciences,USA,10747-10751和WO95/22625(其均通过引用并入本文)中描述的DNA片段化-介导的重组、如在Ness等人的(2002)NatureBiotechnology20:1251-1255和WO00/42561(其均通过引用并入本文)中描述的合成的寡核苷酸-介导的重组或者编码一个或更多个亲本蛋白的部分或所有的核酸。还可使用这些方法的组合(例如,DNA片段和合成的寡核苷酸的重组)以及本领域已知的其他基于重组的方法(例如,均被通过引用并入本文的WO97/20078和WO98/27230)。用于产生蛋白变体文库的任何适合的方法在本公开中具备实用性。实际上,不期望本公开受限于用于产生变体文库的任何特定方法。在一些实施方案中,单个的“起始”序列(其可以是“祖先”序列)可出于定义建模过程中使用的一组突变体的目的被采用。在一些实施方案中,存在多于一个的起始序列。在一些另外的实施方案中,至少一个起始序列是野生型序列。在某些实施方案中,突变(a)在文献中被鉴定为影响底物特异性、选择性、稳定性和/或任何其他感兴趣的特性,和/或(b)计算上被预测为改进蛋白的折叠形式(例如,包装蛋白的内部残基)、改进配体结合、改进亚基相互作用或者改进多个不同的同系物之间的家族改组方法等。不意图本发明被限制为感兴趣的一个/更多个特性或功能的任何特定选择。在一些实施方案中,可将突变虚拟地引入起始序列,且可虚拟地筛选蛋白的有利特性。尽管任何适合的方法具备实用性,定点诱变是对于引入突变有用的技术的一个实例。因此,可选地或另外地,突变体可通过基因合成、饱和随机诱变、残基的半合成组合文库、定向进化、递归序列重组(“RSR”)(参见,例如,美国专利申请公布号2006/0223143,其通过引用以整体并入本文)、基因改组、易错PCR和/或任何其他适合的方法。适合的饱和诱变程序的一个实例被描述在美国专利申请公布号2010/0093560中,其被通过引用以其整体并入本文。起始序列不必与野生型蛋白的氨基酸序列相同。然而,在一些实施方案中,起始序列是野生型蛋白的序列。在一些实施方案中,起始序列包含在野生型蛋白中不存在的突变。在一些实施方案中,起始序列是源自具有共同特性的一组蛋白,例如一个家族的蛋白的共有序列。在一些实施方案中,可使用虚拟筛选系统筛选的催化的化学转化包括,但不限于酮还原、转氨基作用、氧化、腈水解、亚胺还原、α,β-不饱和羰基化合物还原、酰基水解和卤代醇脱卤作用。可提供评价的多个变体的酶种类的实例包括,但不限于酮还原酶、转氨酶、细胞色素P450、Baeyer–Villigerd单加氧酶、单胺氧化酶、腈水解酶、亚胺还原酶、α,β-不饱和羰基化合物还原酶、酰基转移酶和卤代醇脱卤素酶。可用作亲本序列来源的多个家族或多种类别的酶的非限制性的代表性清单包括但不限于以下:氧化还原酶(E.C.1);转移酶(E.C.2);水解酶(E.C.3)、裂解酶(E.C.4);异构酶(E.C.5)和连接酶(E.C.6)。氧化还原酶的更具体但非限制性的亚组包括,脱氢酶(例如,醇脱氢酶(羰基还原酶)、木酮糖还原酶、醛还原酶、法尼醇脱氢酶、乳酸脱氢酶、阿拉伯糖脱氢酶、葡萄糖脱氢酶、果糖脱氢酶、木糖还原酶和琥珀酸脱氢酶)、氧化酶(例如,葡萄糖氧化酶、己糖氧化酶、半乳糖氧化酶和漆酶)、单胺氧化酶、脂肪氧合酶、过氧化物酶、醛脱氢酶、还原酶、长链酰基-[酰基-载体-蛋白]还原酶、酰基-CoA脱氢酶、烯-还原酶(ene-reductases)、合酶(例如,谷氨酸合酶)、硝酸还原酶、单加氧酶和双加氧酶和过氧化氢酶。转移酶的更具体但非限制性的亚组包括甲基转移酶、脒基转移酶和羧基转移酶、转酮醇酶、转醛缩酶、酰基转移酶、糖基转移酶、转氨酶、转谷氨酰胺酶和聚合酶。水解酶的更具体但非限制性的亚组包括酯水解酶、肽酶、糖基化酶、淀粉酶、纤维素酶、半纤维素酶、木聚糖酶、几丁质酶、葡萄糖苷酶、葡聚糖酶、葡糖淀粉酶、酰基转移酶、半乳糖苷酶、支链淀粉酶、植酸酶、乳糖酶、阿拉伯糖苷酶、核苷酶、腈水解酶、磷酸酶、脂酶、磷脂酶、蛋白酶、ATP酶和脱卤素酶。裂解酶的更具体但非限制性的亚组包括脱羧酶、醛缩酶、水合酶、脱水酶(例如,碳酸酐酶)、合酶(例如,异戊二烯合酶、蒎烯合酶和法呢烯合酶)、果胶酶(例如,果胶裂解酶)和卤代醇脱氢酶。异构酶的更具体但非限制性的亚组包括消旋酶、差向异构酶、异构酶(例如,木糖异构酶、阿拉伯糖异构酶、核糖异构酶、葡萄糖异构酶、半乳糖异构酶和甘露糖异构酶)、互变异构酶和变位酶(例如酰基转移变位酶、磷酸变位酶和氨基变位酶)。连接酶的更具体但非限制性的亚组包括酯合酶。可被用作亲本序列的来源的其他家族或类别的酶包括,转氨酶、蛋白酶、激酶和合酶。该清单尽管例示了本公开内容的可能的酶的某些特定方面,但仍未考虑详尽并且没有描述对本公开内容的限制或限制本公开内容的范围。在一些情况下,在本文描述的方法中有用的候选酶能够催化对映体选择性反应,诸如,例如对映选择性还原反应。此类酶可被用来制备在例如药物化合物的合成中有用的中间体。在一些实施方案中,候选酶选自内切木聚糖酶(EC3.2.1.8)、βE木糖苷酶(EC3.2.1.37)、αEC阿拉伯呋喃糖苷酶(EC3.2.1.55)、αE葡糖醛酸酶(EC3.2.1.139)、乙酰基木聚糖酯酶(EC3.1.1.72)、阿魏酰酯酶(EC3.1.1.73)、香豆酰酯酶(EC3.1.1.73)、α-半乳糖苷酶(EC3.2.1.22)、βE半乳糖苷酶(EC3.2.1.23)、βE甘露聚糖酶(EC3.2.1.78)、βE甘露糖苷酶(EC3.2.1.25)、内切-聚半乳糖醛酸酶(EC3.2.1.15)、果胶甲基酯酶(EC3.1.1.11)、内切-半乳聚糖酶(EC3.2.1.89)、果胶乙酰基酯酶(EC3.1.1.6)、内切-果胶裂解酶(EC4.2.2.10)、果胶酸裂解酶(EC4.2.2.2)、α鼠李糖苷酶(EC3.2.1.40)、外切-聚-外切半乳糖醛酸苷酶(EC3.2.1.82)、1,4-3.半乳糖醛酸苷酶(EC3.2.1.67)、外切聚半乳糖醛酸裂解酶(EC4.2.2.9)、鼠李糖半乳糖醛酸聚糖内切裂解酶(EC4.2.2.B3)、鼠李糖半乳糖醛酸聚糖乙酰酯酶(EC3.2.1.B11)、鼠李糖半乳糖醛酸聚糖半乳糖醛酸水解酶(rhamnogalacturonangalacturonohydrolase)(EC3.2.1.B11)、内切-阿拉伯聚糖酶(EC3.2.1.99)、漆酶(EC1.10.3.2)、锰依赖型过氧化物酶(EC1.10.3.2)、淀粉酶(EC3.2.1.1)、葡萄糖淀粉酶(EC3.2.1.3)、蛋白酶、脂酶和木质素过氧化物酶(EC1.11.1.14)。一种、两种、三种、四种、五种、或多于五种的酶的任何组合在本公开内容的组合物中具备实用性。不意图本发明被限制为任何特定数目的酶和/或酶的种类。不意图本发明被限制为用于产生系统地变异的序列的任何特定方法,因为任何适合的方法具备实用性。在本公开内容的一个或更多个实施方案中,一种起始序列以多种方式被修饰以产生文库。在一些实施方案中,文库通过系统地改变起始序列的单独的残基来产生。文库的系统地变异的序列的组可使用数据集中限定的序列的实验设计(DOE)方法学通过推理设计。可在Diamond,W.J.(2001)PracticalExperimentDesigns:forEngineersandScientists,JohnWiley&Sons中以及在“PracticalExperimentalDesignforEngineersandScientists”,WilliamJDrummond(1981)VanNostrandReinholdCoNewYork,“Statisticsforexperimenters”、GeorgeE.P.Box,WilliamGHunter和J.StuartHunter(1978)JohnWileyandSons,NewYork或者例如在itl.nist.gov/div898/handbook/处的万维网上可发现DOE方法的描述。存在可用来进行相关数学运算的若干计算包,包括StatisticsToolbox和DESIGN结果是系统地变异的和正交分布的序列的数据集,所述数据集适于通过本文公开内容的虚拟蛋白筛选系统筛选。基于DOE的数据集也可利用如本领域已知的Plackett-Burman或FractionalFactorialDesigns容易地产生。Diamond,W.J.(2001)。因为初始轮的筛选可高效地计算机模拟来进行,当变体数目通常太大而不能使用常规物理方法来筛选时,一些实施方案可使用一些或所有可用的序列以提供蛋白变体文库。例如,对于具有15个位置、其中每一个位置具有20个可能的氨基酸的序列,相对于氨基酸对存在300个可能的位置以及不同的变体序列。在一些实施中,取决于可用计算能力和应用需求,文库可包括来自这个可能的库的几百个、几千个、几万个、成千上万个或更多的变体。不意图本公开内容被限制为文库中的任何特定数目的变体。V.测序蛋白变体在一些实施方案中,物理蛋白变体被用来产生在如以上描述的虚拟筛选中使用的蛋白变体的活性位点的计算模型。在一些实施方案中,从虚拟筛选获得的蛋白变体使用如以上描述的多种方法物理上产生。在一些实施方案中,测定物理上产生的蛋白变体的其针对感兴趣的一个或更多个配体的反应。在多种实施方案中,物理蛋白变体的序列通过蛋白测序方法来确定,这些方法中的一些将在下文中被进一步描述。蛋白测序包括确定蛋白的氨基酸序列。一些蛋白测序技术还确定蛋白采用的构象和其与任何非肽分子复核的程度。质谱分析法和埃德曼降解反应可被用于直接确定蛋白的氨基酸的序列。埃德曼降解反应允许发现蛋白的有序的氨基酸组成。在一些实施方案中,自动埃德曼序列可被用于确定蛋白变体的序列。自动埃德曼序列能够对逐渐增长,例如,多达约50个氨基酸长的肽进行测序。在一些实施方案中,实现埃德曼降解的蛋白测序方法包括以下中的一个或更多个:--使用例如2-巯基乙醇的还原剂来打破蛋白中的二硫键。诸如碘乙酸的保护基团可被用于防止键重新形成。--如果有多于一条链,分离并纯化蛋白复合物的个体链。--确定每条链的氨基酸组成。--确定每条链的末端氨基酸。--将每条链打断为片段,例如,少于50个氨基酸长的片段。--分离并纯化片段。--利用埃德曼降解反应确定每个片段的序列。--应用不同的裂解模式来重复以上步骤,以提供氨基酸序列的另外的读段。--从氨基酸序列读段构建整个蛋白的序列。在多种实现中,长于大约50-70个氨基酸的肽被打断为小的片段,以利于通过埃德曼反应测序。较长序列的消化可通过诸如胰蛋白酶或胃蛋白酶的内切肽酶或通过诸如溴化氰的化学试剂来进行。不同的酶给出不同的裂解模式,且在片段之间的重叠可被用来构建整个序列。在埃德曼降解反应期间,待测序的肽被吸附到底物的固体表面上。在一些实施方案中,一个合适的底物是涂覆阳离子聚合物聚凝胺的玻璃纤维。埃德曼试剂、异硫氰酸苯酯(PITC)与三甲胺的弱碱性缓冲溶液一起被添加至被吸附的肽。该反应溶液与N-末端氨基酸的氨基反应。该末端氨基酸然后可通过添加无水酸被选择性地分离。随后衍生物异构化,以给出取代的乙内酰苯硫脲,其可被洗涤掉并通过色谱分析法鉴定。然后可重复该循环。在一些实施方案中,质谱分析法可被用于通过确定氨基酸序列的片段的质荷比来确定氨基酸序列。包含对应于多电荷片段的峰的质谱可被确定,其中在对应于不同的同位素的峰之间的距离与片段上的电荷成反比。质谱例如通过与先前测序的蛋白的数据库比较来分析,以确定片段的序列。然后用不同的消化酶重复该过程,且序列中的重叠被用来构建完整的氨基酸序列。肽通常比整个蛋白更容易制备并且对于质谱分析法更容易分析。在一些实施方案中,电喷射离子化被用来将肽传送到分光仪。蛋白被内切蛋白酶消化,且得到的溶液被传送到高压液相色谱柱。在该柱的末端,将所述溶液喷射到质谱仪中,所述溶液带有正电势。溶液液滴上带的电荷导致它们碎成单个离子。然后使肽片段化,并测量片段的质荷比。直接从编码蛋白的DNA或mRNA序列确定氨基酸序列也是可能的。核酸测序方法例如多种下一代测序方法可被用于确定DNA或RNA序列。在一些实现中,蛋白序列被新分离出,而不知道编码蛋白的核苷酸。在这种实现中,技术人员可利用直接的蛋白测序方法先确定短的多肽序列。可从该短序列确定蛋白的RNA的互补标记物。这然后可被用于分离编码蛋白的mRNA,其然后可在聚合酶链式反应中被复制以产生大量的DNA,然后可使用DNA测序方法来对其测序。然后可从DNA序列推断出蛋白的氨基酸序列。在推断中,考虑在mRNA已被翻译之后被移出的氨基酸是必要的。在一个或更多个实施方案中,核酸序列数据可被用于蛋白的定向进化的过程的多个阶段中。在一个或更多个实施方案中,序列数据可利用被认为是第一代测序方法的大量(bulk)测序方法来获得,包括例如桑格测序或Maxam-Gilbert测序。涉及使用带标记的双脱氧链终止剂的桑格测序是本领域熟知的;参见例如,Sanger等人,ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica74,5463-5467(1997)。涉及在核酸样品的片段上进行多部分化学降解反应,接着检测并分析所述片段来推断序列的Maxam-Gilbert测序也是本领域熟知的;参见例如Maxam等人,ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica74,560-564(1977)。另一种大量测量方法是通过杂交测序,其中样品的序列基于其与例如微阵列或基因芯片上的多个序列的杂交特性来推导;参见,例如,Drmanac等人,NatureBiotechnology16,54-58(1998)。在一个或更多个实施方案中,核酸序列数据利用下一代测序方法来获得。下一代测序也被称为高通量测序。这些技术使测序过程平行化,一次产生数以千计或数百万计的序列。合适的下一代测序方法的实例包括但不限于,单分子实时测序(例如,PacificBiosciences,MenloPark,California)、离子半导体测序(例如,IonTorrent,SouthSanFrancisco,California)、焦磷酸测序(例如,454,Branford,Connecticut)、连接测序(例如,LifeTechnologies,Carlsbad,California所有的SOLid测序)、合成测序和可逆性终止物测序(例如,Illumina,SanDiego,California)、核酸成像技术诸如透射电子显微术等。一般地,下一代测序方法通常利用体外克隆步骤以扩增个体DNA分子。乳液PCR(emPCR)分离伴随在油相内的水滴中的引物所包被的珠中的个体DNA分子。PCR产生与珠上的引物结合的DNA分子的拷贝,然后固定用于后续测序。emPCR被Marguilis等人(被454LifeSciences,Branford,CT商业化)、Shendure和Porreca等人(也称为“聚合酶克隆测序”)和SOLiD测序(AppliedBiosystemsInc.,FosterCity,CA)用于这些方法中。参见M.Margulies等人(2005)“Genomesequencinginmicrofabricatedhigh-densitypicolitrereactors”Nature437:376–380;J.Shendure等人(2005)“AccurateMultiplexPolonySequencingofanEvolvedBacterialGenome”Science309(5741):1728–1732。体外克隆扩增还可通过“桥式PCR”进行,在所述“桥式PCR”中,片段在引物附接至固体表面后被扩增。Braslavsky等人开发了省去该扩增步骤、直接将DNA分子固定至表面的单分子方法(由HelicosBiosciencesCorp.,Cambridge,MA商业化)。I.Braslavsky等人(2003)“SequenceinformationcanbeobtainedfromsingleDNAmolecules”ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica100:3960-3964。与表面自然结合的DNA分子可被平行地测序。在“合成测序”中,基于模板链的序列使用DNA聚合酶形成互补链,如染料-终止电泳测序,“可逆”终止剂法(由Illumina,Inc.,SanDiego,CA和HelicosBiosciencesCorp.,Cambridge,MA商业化)利用可逆形式的染料-终止剂,通过重复移除封闭基团以允许另一个核苷酸的聚合而一次添加一个核苷酸,并实时检测每个位置处的荧光。“焦磷酸测序”也利用DNA聚合,一次添加一个核苷酸并通过由所附接的焦磷酸的释放发射的光来检测和定量被添加到给定位置的核苷酸的数目(由454LifeSciences,Branford,CT商业化)。参见M.Ronaghi,等人(1996).“Real-timeDNAsequencingusingdetectionofpyrophosphaterelease”AnalyticalBiochemistry242:84-89。下文更详细地描述了下一代测序方法的具体实例。本发明的一个或更多个实施方案可利用以下测序方法的一种或更多种而不背离本发明的原理。单分子实时测序(也被称为SMRT)是PacificBiosciences开发的并行化单分子DNA合成测序技术。单分子实时测序利用零模式波导(ZMW)。单个DNA聚合酶被附着在ZMW的底部,单分子的DNA作为模板。ZMW是产生足够小以观察到被DNA聚合酶并入的DNA的仅单个核苷酸(也被称为碱基)的被照射的观察体积的结构。四种DNA碱基的每个被附接至四种不同的荧光染料之一。当核苷酸被DNA聚合酶并入时,荧光标签被裂解掉并从ZMW的观察区域扩散出来,在所述观察区域处其荧光不再可观察。检测器检测核苷酸并入的荧光信号,并根据相应的染料荧光进行碱基响应(basecall)。另一种可应用的单分子测序技术是HelicosTrueSingleMoleculeSequencing(tSMS)技术(例如,如HarrisT.D.等人,Science320:106-109[2008]中描述的)。在tSMS技术中,DNA样品被裂解成约100至200个核苷酸的链,并将多聚A序列添加至每条DNA链的3’末端。通过添加荧光标记的腺苷核苷酸来标记每条链。然后使DNA链与流动池杂交,所述流动池包含数以百万计的被固定至所述流动池表面的寡聚T捕获位点。在某些实施方案中,模板可以是约1亿模板/cm2的密度。然后将流动池装载至设备例如HeliScopeTM测序仪,并且激光照亮流动池的表面,显示出每个模板的位置。CCD摄像机可绘制模板在流动池表面上的位置。然后模板荧光标签被裂解并被冲走。测序反应通过引入DNA聚合酶和荧光标记的核苷酸开始。寡聚T核酸作为引物。聚合酶以模板指导的方式将带标记的核苷酸并入至引物。聚合酶和未并入的核苷酸被移出。具有荧光标记的核苷酸的指导性并入的模板通过对流动池表面成像来识别。成像后,裂解步骤移出荧光标签,并且用其他的荧光标记的核苷酸重复该程序直到达到期望的读段长度。随着每个核苷酸添加步骤收集序列信息。在测序文库的制备中,借助于单分子测序技术的整个基因组测序不包括或通常排除基于PCR的扩增,并且所述方法允许直接测量样品,而不是测量该样品的拷贝。离子半导体测序是基于检测DNA的聚合期间释放的氢离子的DNA测序方法。这是“合成测序”方法,在该方法期间,互补链基于模板链的序列形成。将包含待测序的模板DNA链的微孔用单一种类的脱氧核糖核苷三磷酸(dNTP)充满。如果所引入的dNTP与引导性模板核苷酸互补,则其被并入正在增长的互补链。这导致氢离子的释放,氢离子的释放引发ISFET离子传感器,其指示反应已经发生。如果均聚物的重复片段存在于模板序列中,则多个dNTP分子将在单个循环中被并入。这导致相应数目的释放的氢和成比例地更高的电子信号。该技术不同于其他测序技术,因为没有使用被修饰的核苷酸或光学。离子半导体测序也可被称作离子激流测序(iontorrentsequencing)、pH介导的测序、硅测序或半导体测序。在焦磷酸测序中,聚合反应释放的焦磷酸根离子通过ATP硫酸化酶与腺苷5'磷酰硫酸反应以产生ATP;然后ATP驱动荧光素通过荧光素酶转化为氧化荧光素加光。由于荧光是瞬时的,所以在该方法中不需要单独的消除荧光的步骤。一次添加一种类型的脱氧核糖核苷三磷酸(dNTP),并根据哪种dNTP在反应位点产生明显信号来鉴定序列信息。市购可得的RocheGSFLX仪器利用这种方法获得序列。例如在Ronaghi等人,AnalyticalBiochemistry242,84-89(1996)和Margulies等人,Nature437,376-380(2005)(勘误表在Nature441,120(2006))中详细地讨论了该技术及其应用。市购可得的焦磷酸测序技术为454测序(Roche)(例如,如在Margulies,M.等人Nature437:376-380[2005]中描述的)。在连接测序中,连接酶被用来将具有突出端的部分双链的寡核苷酸连接至具有突出端的正被测序的核酸;为了使连接发生,这些突出端必须是互补的。部分双链的寡核苷酸的突出端中的碱基可根据偶联至该部分双链的寡核苷酸和/或偶联至与该部分双链的寡核苷酸的另一部分杂交的第二寡核苷酸的荧光团而被鉴定。在获得荧光数据之后,连接的复合体在连接位点上游被裂解,诸如通过在离其识别位点(其被包含于该部分双链的寡核苷酸中)固定距离的位点处切割的II型限制酶例如Bbvl。该裂解反应使刚好在之前的突出端上游的新突出端暴露,并重复所述程序。例如,在Brenner等人,NatureBiotechnology18,630-634(2000)中详细讨论了该技术及其应用。在一些实施方案中,连接测序通过获得环状核酸分子的滚环扩增产物并将该滚环扩增产物用作连接测序的模板而适合于本发明的方法。连接测序技术的市购可得的实例是SOLiDTM技术(AppliedBiosystems)。在SOLiDTM连接测序中,基因组DNA被剪切成片段,并且衔接子被附接至片段的5’和3’末端以产生片段文库。可选地,内部衔接子可通过以下步骤而被引入:将衔接子连接至片段的5’和3’末端、使片段环化、消化环化的片段以产生内部衔接子,并将衔接子连接至所得到的片段的5’和3’末端以产生配对文库。接下来,在包含珠、引物、模板和PCR组分的微反应器中制备克隆珠群体。伴随PCR,模板被变性并且珠被富集以分离带有延伸的模板的珠。对所选择的珠上的模板进行3’修饰,所述3'修饰允许与载玻片结合。序列可通过特定的荧光团被鉴定的部分随机的寡核苷酸与中心的已确定的碱基(或碱基对)顺序性杂交和连接来确定。记录颜色之后,连接的寡核苷酸被裂解和移出,然后重复该程序。在可逆终止物测序中,荧光染料标记的核苷酸类似物即可逆的链种终止物由于封闭基团的存在而被掺入单碱基延伸反应。碱基的身份根据荧光团来确定;换言之,每个碱基与不同的荧光团配对。获得荧光/序列数据之后,荧光团和封闭基团通过化学方法移出,并重复该循环以获得序列信息的下一个碱基。IlluminaGA仪器通过该方法运行。例如,在Ruparel等人,ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica102,5932-5937(2005)和Harris等人,Science320,106-109(2008)中详细讨论了该技术及其应用。可逆终止剂测序方法的商业上可获得的实例是Illumina的合成测序和基于可逆终止剂的测序(例如,在Bentley等人,Nature6:53-59[2009]中描述的)。Illumina的测序技术依赖于片段化的基因组DNA与平面、任选地其上结合寡核苷酸锚的透明表面的附接。模板DNA的末端被修复以生成5'磷酸化的平末端,并且Klenow片段的聚合酶活性被用来将单个A碱基添加至平端的磷酸化DNA片段的3'末端。该添加制备了连接至寡核苷酸衔接子的DNA片段,所述寡核苷酸衔接子在其3'末端具有单个T碱基的突出端以增加连接效率。该衔接子寡核苷酸与所述流动池锚互补。在有限稀释条件下,衔接子修饰的单链模板DNA被添加至流动池并通过与锚的杂交而被固定。附接的DNA片段被延伸并被桥式扩增以生成具有数以亿计的簇的超高密度测序流动池,每个簇包含相同模板的~1,000个拷贝。这些模板利用稳健的四色DNA合成测序技术来测序,所述四色DNA合成测序技术采用具有可移除的荧光染料的可逆终止剂。高密度荧光检测利用激光激发和全内反射光学来完成。将约20-40bp例如36bp的短序列读段与重复片段-掩盖的(repeat-masked)参考基因组比对,并利用专门开发的数据分析流水线软件鉴定短序列读段在参考基因组上的独特位置。也可使用非重复片段-掩盖的参考基因组。不论使用重复片段-掩盖的参考基因组或非重复片段-掩盖的参考基因组,只计算独特地匹配至参考基因组的读段。第一次读取完成以后,可通过计算机模拟重新生成模板使得能够进行来自片段的相反末端的第二次读取。因此,可使用DNA片段的单末端或成对末端测序。进行对存在于样品中的DNA片段的部分测序,并对被绘制至已知参考基因组的包含预定长度例如36bp的读段的序列标签计数。在纳米孔测序中,例如利用电泳驱动力使单链核酸分子穿过孔,并通过分析随着单链核酸分子通过孔获得的数据来推导序列。数据可以是离子电流数据,其中每个碱基,例如通过部分地阻断通过孔的电流而将电流改变至不同的可辨别的程度。在另一个示例性但非限制性实施方案中,本文描述的方法包括利用透射电子显微术(TEM)获得序列信息。所述方法包括,利用选择性标记有重原子标记物的高分子量(150kb或更大)DNA的单原子分辨率透射电子显微成像,并将这些分子以具有一致的碱基间间距的超密(链和链之间3nm)平行阵列排列在超薄的膜上。电镜被用来对薄膜上的分子成像,以确定重原子标记物的位置并提取DNA中的碱基序列信息。所述方法被进一步描述于PCT专利公布WO2009/046445中。在另一个示例性但非限制性实施方案中,本文描述的方法包括利用第三代测序获得序列信息。在第三代测序中,具有带有很多小的(~50nm)孔的铝涂层的玻片被用作零模式波导(参见,例如,Levene等人,Science299,682-686(2003))。铝表面通过聚磷酸酯化学例如聚乙烯膦酸酯化学避免附连DNA聚合酶(参见例如Korlach等人,ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica105,1176-1181(2008))。这导致DNA聚合酶分子优先附连至铝涂层的孔中暴露的硅。该设置允许渐失波现象(evanescentwavephenomena)被用于减少荧光背景,允许使用较高浓度的荧光标记的dNTP。荧光团被附接至dNTP的末端磷酸根,以使得荧光在并入dNTP后释放,但荧光团不保持与新并入的核苷酸附接,意味着复合物立即准备好另一轮并入。通过该方法,dNTP至铝涂层的孔中存在的个体引物-模板复合物的并入可被检测到。参见,例如Eid等人,Science323,133-138(2009)。VI.测定基因和蛋白变体在一些实施方案中,结合本发明的方法产生的多核苷酸任选地被克隆到细胞中,以表达用于活性筛选的蛋白变体(或者被用于体外转录反应以制备被筛选的产物)。此外,编码蛋白变体的核酸可被富集、测序、表达、体外扩增或以任何其他常见的重组方法处理。描述在本文中有用的分子生物技术(包含克隆、诱变、文库构建、筛选测定、细胞结构等)的常规文本包括:Berger和Kimmel,GuidetoMolecularCloningTechniques,MethodsinEnzymology152卷AcademicPress,Inc.,SanDiego,CA(Berger);Sambrook等人,MolecularCloning-ALaboratoryManual(第二版),1-3卷,ColdSpringHarborLaboratory,ColdSpringHarbor,NewYork,1989(Sambrook)以及CurrentProtocolsinMolecularBiology,F.M.Ausubel等人编辑,CurrentProtocols,ajointventurebetweenGreenePublishingAssociates,Inc.andJohnWiley&Sons,Inc.,NewYork(2000年补编(Ausubel))。用核酸转化细胞包括植物细胞和动物细胞的方法通常是可得的,表达由此类核酸编码的蛋白的方法同样是可得的。除了Berger、Ausubel和Sambrook之外,对培养动物细胞有用的一般参考包括Freshney(CultureofAnimalCells,aManualofBasicTechnique,thirdeditionWiley-Liss,NewYork(1994))以及本文引用的参考Humason(AnimalTissueTechniques第四版W.H.FreemanandCompany(1979))和Ricciardelli等人,InVitroCellDev.Biol.25:10161024(1989)。植物细胞克隆、培养和再生的参考包括Payne等人(1992)PlantCellandTissueCultureinLiquidSystemsJohnWiley&Sons,Inc.NewYork,NY(Payne);以及Gamborg和Phillips(编辑)(1995)PlantCell,TissueandOrganCulture;FundamentalMethodsSpringerLabManual,Springer-Verlag(BerlinHeidelbergNewYork)(Gamborg)。多种细胞培养培养基被描述于Atlas和Parks(编辑)TheHandbookofMicrobiologicalMedia(1993)CRCPress,BocaRaton,FL(Atlas)。用于植物细胞培养的另外的信息发现于可商业获得的文献中,诸如来自Sigma-Aldrich,Inc(StLouis,MO)的LifeScienceResearchCellCultureCatalogue(1998)(“Sigma-LSRCCC”)和,例如,同样来自Sigma-Aldrich,Inc(StLouis,MO)的ThePlantCultureCatalogueandsupplement(1997)(“Sigma-PCCS”)。足以指导技术人员通过体外扩增方法用来例如扩增寡核苷酸重组核酸的技术的实例包括聚合酶链式反应(PCR)、连接酶链式反应(LCR)、Qβ-复制酶扩增和其他RNA聚合酶介导的技术(例如,NASBA)。这些技术被发现于Berger、Sambrook和Ausubel,同上,以及Mullis等人,(1987)美国专利第4,683,202号;PCRProtocolsAGuidetoMethodsandApplications(Innis等人编辑)AcademicPressInc.SanDiego,CA(1990)(Innis);Arnheim&Levinson(1990年10月1日)C&EN36-47;TheJournalOfNIHResearch(1991)3,81-94;Kwoh等人(1989)Proc.Natl.Acad.Sci.USA86,1173;Guatelli等人(1990)Proc.Natl.Acad.Sci.USA87,1874;Lomell等人(1989)J.Clin.Chem35,1826;Landegren等人,(1988)Science241,1077-1080;VanBrunt(1990)Biotechnology8,291-294;Wu和Wallace,(1989)Gene4,560;Barringer等人(1990)Gene89,117,以及Sooknanan和Malek(1995)Biotechnology13:563-564。克隆体外扩增的核酸的改进方法被描述在Wallace等人,美国专利第5,426,039中。通过PCR扩增大的核酸的改进方法被总结在Cheng等人(1994)Nature369:684-685以及本文的参考文献中,其中产生了多达40kb的PCR扩增子。技术人员将领会到使用反转录酶和聚合酶基本上可将任何RNA转化成适于限制性消化、PCR扩增和测序的双链DNA。参见,Ausubel、Sambrook和Berger,均同上。在一个优选的方法中,对重装序列(reassembledsequences)检查基于家族的重组寡核苷酸的并入。这可通过对核酸进行克隆并测序和/或通过限制性消化来完成,例如,如在Sambrook、Berger和Ausubel,同上中主要教导的。此外,可对序列PCR扩增并直接测序。因此,除了例如Sambrook、Berger、Ausubel和Innis(同上)之外,另外的PCR测序方法也是特别有用的。例如,通过在PCR期间选择性地将含硼核酸酶抗性核苷酸并入到扩增子中并用核酸酶消化扩增子以产生一定大小的模板片段来直接对PCR产生的扩增子测序已被进行(Porter等人(1997)NucleicAcidsResearch25(8):1611-1617)。在这些方法中,对模型进行四次PCR反应,在每次中PCR反应中,PCR反应混合物中的核苷三磷酸中的一种被2’脱氧核苷5’-[P-硼烷]-三磷酸部分地取代。在模板的一组嵌套PCR片段中,含硼核苷酸被沿着PCR扩增子在不同的位置处随机地并入到PCR产物。使用被并入的含硼核苷酸阻塞(blocked)的核酸外切酶来裂解PCR扩增子。然后利用聚丙烯酰胺凝胶电泳将被裂解的扩增子按大小分离,提供扩增子的序列。该方法的优势是它与进行PRC扩增子的标准桑格类测序相比使用更少的生物化学操作。合成基因服从传统的克隆和表达方法;因此,它们编码的基因和蛋白的特性在它们在宿主细胞中表达之后可被容易地检测。合成基因也可被用来通过体外(无细胞)转录和翻译生成多肽产物。多核苷酸和多肽可因此被检测其与多种预先确定的配体、小分子和离子或聚合和杂聚物质(包含其他蛋白和多肽表位)以及微生物细胞壁、病毒颗粒、表面和膜结合的能力。例如,许多物理方法可被用来检测编码与化学反应的催化相关的表型(phenotypes)的多核苷酸,所述检测通过多核苷酸直接或由编码的多肽进行。单纯为了说明的目的,并根据特定的预先确定的感兴趣的化学反应的特殊性,这些方法可包括本领域已知的说明底物和产物之间的物理差距、或者说明与化学反应相关的反应介质的变化(例如,电磁辐射、吸收、消耗和荧光的变化,不管是UV、可见的或红外的(热))的众多技术。这些方法还可选自以下的任何组合:质谱分析法;核磁共振;说明同位素分布或带标记的产物形成的同位素标记物、划分法和谱方法;检测反应产物的离子或元素组成的伴随变化(包含pH、无机离子和有机离子等的变化)的谱方法和化学方法。适用于本文的方法的其他物理测定方法可基于反应产物特异性生物传感器的使用,所述反应产物特异性生物传感器包括:包含具有报告物特性的抗体的那些;或者基于与报告基因的表达和活性偶联的体内亲和力识别的那些。用于反应产物检测的酶偶联测定和体内细胞生活-死亡-生长选择当适合时也可被使用。不管物理测定的特定特征,他们均被用于选择由感兴趣的生物分子提供或编码的期望的活性或者期望的活性的组合。用于选择的特定测定将取决于应用。用于蛋白、受体、配体、酶、底物等的许多测定是已知的。形式包括与固定的组分结合、细胞或有机体的生活力、报告物组分的产生等。高通量测定尤其适合用于筛选本发明中采用的文库。在高通量测定中,在单日内筛选出几千个不同的变体是可能的。例如,微量滴定板的每个孔可被用于运行独立的测定,或者,如果要观察浓度或孵育时间效应,每5-10个孔可测试单个变体(例如,以不同的浓度)。因此,单标准微量滴定板可测定大约100(例如,96)个反应。如果使用1536孔板,那么单个板可轻易地测定从大约100至大约1500个不同的反应。每天测定若干个不同的板是可能的;使用本发明的集成系统,测定筛选多达约6,000-20,000个不同的测定(即,涉及到不同的核酸、编码的蛋白、浓度等)是可能的。最近,例如CaliperTechnologies(MountainView,CA)已研发出了试剂操作的微流体方法,其可提供非常高通量的微流体测定方法。高通量筛选系统是市售可得的(参见,例如,ZymarkCorp.,Hopkinton,MA;AirTechnicalIndustries,Mentor,OH;BeckmanInstruments,Inc.Fullerton,CA;PrecisionSystems,Inc.,Natick,MA等)。这些系统通常自动化整个程序,包含所有样本和试剂的移液、液体分配、定时孵育以及在适合于测定的检测器中最终读取微板。这些可配置的系统提供高通量和快速启动以及高度的灵活性和用户化。此类系统的制造商提供了针对多种高通量筛选测定的详细方案。因此,例如,ZymarkCorp.提供了描述用于检测基因转录、配体结合等的调整的筛选系统的技术通报。多种市售可得的外围设备和软件可用于例如使用PC(Intelx86或者pentium芯片兼容的MACOS、WINDOWSTM系列或者基于UNIX的(例如,SUNTM工作站)计算机)来数字化、存储和分析数字化视频或数字化光图像或其他测定图像。用于分析的系统通常包含经特别编程以使用用于指导本文的一个或更多个方法的一个或更多个步骤的软件来执行专用算法的数字计算机,并且任选地还包含:例如,下一代测序平台控制软件、高通量液体控制软件、图像分析软件、数字解释软件、用于将溶液从源传输到可操作地连接到数字计算机的目的地的机械液体控制电枢、用于将数据输入到数字计算机以控制机械液体控制电枢的操作或高通量液体传输的输入设备(例如,计算机键盘)、以及任选地用于将来自带标记的测定组分的标记信号数字化的图像扫描仪。图像扫描仪可与图像分析软件交互以提供探针标记强度的测量值。通常,探针标记强度测量值通过数据解释软件解释,以示出带标记的探针是否与固体支持物上的DNA杂交。在一些实施方案中,包含体外寡核苷酸介导的重组产物或计算机模拟的重组核酸的物理实施物的细胞、病毒空斑、孢子等可在固体介质上被分离,以产生个体集落(或空斑)。使用自动集落挑选仪(例如,Q-bot,Genetix,U.K)鉴定、挑选集落或空斑,并将多达10,000个不同的突变体接种到包含两个3mm玻璃球/孔的96孔微量滴定盘中。Q-bot不挑选整个集落,而是通过集落的中心插入针,并带出细胞(或菌丝)和孢子(或空斑应用中的病毒)的小样本。针在集落中的时间、用于接种培养基的带出物的数目和针在该培养基中的时间,每一个均影响接种量,并且每一个参数可被控制并优化。诸如Q-bot的自动集落挑选仪的一致的过程降低了人类操作失误并增加了建立培养物的速率(大约10,000/4小时)。任选地在控制温度和湿度的培养箱中摇动这些培养物。微量滴定板中的任选的玻璃球与发酵罐的叶片相似发挥促进细胞的均匀通气以及细胞(例如,菌丝)碎片的分散的作用。可通过有限稀释来分离来自培养物的感兴趣的克隆。也如上文描述的,还可通过检测杂交、蛋白活性、与抗体结合的蛋白等对组成文库的空斑或细胞直接筛选蛋白的产生。为了增加鉴定足够大小的池的机会,可使用使处理的突变体的数目增加10-倍的预筛选。初筛选的目的是快速鉴定具有与亲株相等或比亲株更好的产物滴度的突变体,并只将这些突变体转向液体细胞培养基用于后续分析。筛选多样的文库的一种方法是使用大规模并行固相程序,以筛选表达多核苷酸变体,例如编码酶变体的多核苷酸的细胞。利用吸收、荧光或FRET的大规模并行固相筛选装置是可得的。参见,例如,美国专利第5,914,245号到Bylina等人(1999);还参见,http://www|.|kairos-scientific.com/;Youvan等人(1999)“FluorescenceImagingMicro-Spectrophotometer(FIMS)”Biotechnologyetalia,<www|.|et-al.com>1:1-16;Yang等人(1998)“HighResolutionImagingMicroscope(HIRIM)”Biotechnologyetalia,<www|.|et-al.com>4:1-20;以及在www|.|kairos-scientific.com发布的Youvan等人(1999)“CalibrationofFluorescenceResonanceEnergyTransferinMicroscopyUsingGeneticallyEngineeredGFPDerivativesonNickelChelatingBeads”。在通过这些技术筛选之后,利用本领域已知的技术,感兴趣的分子通常被分离,并任选地被测序。然后如本文列出的使用序列信息来设计新的蛋白变体文库。相似地,还已开发出许多已知的机械系统,用于在测定系统中使用的溶液相化学。这些系统包括:自动工作站,像由akedaChemicalIndustries,LTD(Osaka,Janpan)研发的自动合成装置,和使用机械臂的很多机械系统(ZymateII,ZymarkCorporation,Hopkinton,Mass.;Orca,BeckmanCoulter,Inc.(Fullerton,CA)),其模拟由科学家执行的手动合成操作。以上设备的任一个适合于与本发明一起使用,例如,用于高通量筛选由如本文描述地进化的核酸编码的分子。对于相关领域的技术人员,对这些设备的修改(如果有任何修改)以使得他们能如本文讨论的操作的本质和实施方式将是明显的。VII.数字装置和系统明显的是,本文描述的实施方案采用在指令的控制下行动的程序和/或储存在一个或更多个计算机系统中或经其转换的数据。本文公开的实施方案还涉及用于进行这些操作的系统和装置(例如,设备)。在一些实施方案中,所述装置针对所需的目的而被专门设计和/或构建,或其可以是通过计算机程序和/或储存于计算机中的数据结构选择性地激活或重新配置的通用型计算机。本公开内容提供的程序并不固有地与任何特定的计算机或其他特定装置有关。具体地,多种通用型机器在根据本文的教导书写的程序中具备实用性。但是,在一些实施方案中,构建专门的装置以进行所需方法的操作。下文描述了用于各种各样的这些机器的特定结构的一个实施方案。另外,本公开内容的某些实施方案涉及包括用于进行多种计算机实施的操作的程序指令和/或数据(包括数据结构)的计算机可读介质或计算机程序产品。计算机可读介质的实例包括但不限制于:磁性介质,诸如硬盘;光学介质,诸如CD-ROM设备和全息设备;磁-光介质;和半导体存储设备,诸如闪存存储器。诸如只读存储器设备(ROM)和随机访问存储器设备(RAM)的硬件设备可被配置成存储程序指令。诸如专用集成电路(ASIC)和可编程逻辑设备(PLD)的硬件设备可被配置成存执行并储程序指令不期望本公开内容被限制于包含用于执行计算机实施的操作的指令和/或数据的任何特定的计算机可读介质或任何其他计算机程序产品。程序指令的实例包括但不限于诸如由编译器产生的低阶码和可由计算机利用解释器执行的包含较高阶代码的文件。另外,程序指令包括但不限于直接或间接地控制根据本公开内容的计算机的操作的机器代码、源代码和任何其他代码。代码可规定输入、输出、计算、条件式、分支、迭代循环等。在一个示例性实施方案中,本文公开的表现代码体现方法在包含有逻辑指令和/或数据的固定的介质或可传输程序部件中体现,所述逻辑指令和/或数据当被加载到适当地配置的计算装置时导致所述设备进行对与一个或更多个配体相互作用的一个或多个生物分子进行的虚拟筛选。图4显示了示例性数字化装置800,其是一种逻辑装置,能够从介质817、网络端口819、用户输入键盘809、用户输入811或其他输入装置读取指令。装置800可其后使用那些指令以指导数据空间中的统计操作,例如,以便评估评价在配体部分和活性位点、辅因子等的一个或更多个特征之间的几何关系(例如,以便确定天然底物在活性位点中的位置和考虑中的底物在蛋白变体的活性位点中的位置之间的距离)。可体现所公开的实施方案的一种类型的逻辑装置是如包括CPU807、光学用户键盘输入设备809和GUI定点设备811,以及周围部件诸如磁盘驱动器815和监视器805(其显示GO修饰的字符串并提供用户对此类字符串的子集的简化的选择)的计算机系统800中的计算机系统。固定介质817被任选地用来为整个系统提供程序并可包括例如,盘式光学或磁性介质(disk-typeopticalormagneticmedia)或其他电子存储元件。通信端口819可被用来为系统提供程序并可代表任何类型的通信连接。某些实施方案还可体现于专用集成电路(ASIC)或可编程的逻辑设备(PLD)的电路中。在该情况中,所述实施方案以可被用来生成ASIC或PLD的计算机可读描述符实施。本公开内容的一些实施方案在各种各样的其他数字化装置的电路或逻辑处理器,例如PDA、笔记本电脑系统、显示器、图像编辑设备等内实施。在一些实施方案中,本公开内容涉及包括计算机可执行指令存储于其上的一个或更多个计算机可读存储介质的计算机程序产品,所述计算机可执行指令当被计算机系统的一个或更多个处理器执行时,导致计算机系统实施用于虚拟筛选蛋白变体和/或具有期望的活性的蛋白的计算机模拟定向进化的方法。该方法可以是本文描述的任何方法,诸如由附图和伪代码涵盖的那些方法。在一些实施方案中,例如,方法接收用于多个酶的序列数据,创建生物分子的三维同源模型,将酶的同源模型与底物的一个或更多个计算表示对接,并选择具有期望的催化活性和选择性的酶。在一些实施方案中,方法可从已通过筛选过程被高度排序的变体中更进一步开发变体文库。变体文库可被用于重迭代的定向进化和筛选,其可产生期望的有利特性的酶。在一些实施方案中,酶的同源模型与底物的一个或更多个计算表示的对接如本文描述通过计算系统上的对接程序来进行,所述对接程序使用配体的计算表示和多个变体的活性位点的计算表示。在多种实施方案中,用于确定对接的方法包括评价底物的位姿和酶之间的结合能量。对于成功地与配体对接的蛋白变体,虚拟蛋白筛选系统考虑配体在考虑中的蛋白变体的活性位点中的计算表示的多个位姿,并如果多个位姿中的任一个是活性的,确定是哪一个。在一些实施方案中,用于确定活性位姿的方法包括评价几何限制,该几何限制定义配体中的一个或更多个原子和蛋白和/或与蛋白相关的辅因子中的一个或更多个原子的相对位置的范围。VIII.网页和云计算中的实施方案互联网包括通过通信链路互相连接的计算机、信息用品和计算机网络。互相连接的计算机使用多种服务来交换信息,所述多种服务诸如电子邮件、ftp、万维网(“WWW”)和其他服务,包括安全服务。WWW服务可被理解为允许服务器计算机系统(例如,Web服务器或Web站点)向远程客户端信息设备或计算机系统发送信息的网页。远程客户端计算机系统然后可显示网页。通常,WWW的每一个资源(例如,计算机或网页)可被统一资源定位符(“URL”)唯一地识别。为了查看特定网页或与其交互,客户端计算机系统对所请求的该网页指定URL。该请求被转送到支持该网页的服务器。当服务器接收请求时,它将该网页发送给客户端信息系统。当客户端计算机系统接收该网页时,它可使用浏览器显示该网页或者可与该网页或以其他方式提供的界面交互。浏览器是影响网页的请求并显示网页或与网页交互的逻辑模块。当前,通常使用超文本标记语言(“HTML”)来定义可显示的网页。HTML提供定义如何显示网页的标准的标签组。HTML文档包含控制文本、图像、控件和其他特征的显示的多种标签。HTML文档可包含在该服务器计算机系统或其他服务器计算机系统上可获得的其他网页的URL。URL还可指示其他类型的界面,包含信息设备使用以与远程信息设备或服务器进行通信而不必然地向用户显示信息的如CGI脚本或可执行界面的事物。互联网尤其有利于向一个或更多个远程客户提供信息服务。服务可包括在互联网上向买家电子传递的项(items)(例如,音乐或股票报价)。服务还可包括处理可通过传统的分配渠道(例如,普通的载体)传送的项(例如,杂货、书或化学或生物化合物等)的订单。服务还可包括处理买家稍后访问的诸如航线或电影院预定的项的订单。服务器计算机系统可提供列出可得的项或服务的电子版界面。用户或潜在买家可使用浏览器访问界面并选择感兴趣的多个项。当用户已经完成选择期望的项时,服务器计算机系统然后可向用户提示完成服务所需要的信息。该交易特定的订单信息可包括买家的姓名或其他身份、用于支付的身份(诸如企业购买订单号或账号)或者完成服务所需的另外的信息,诸如,航班信息。在可在互联网上和在其他网络上提供的服务中特定感兴趣的是生物数据和生物数据库。此类服务包括由NationalInstitutesofHealth(NIH)的NationalCenterforBiotechnologyInformation(NCBI)提供的多种服务。NCBI承担创建存储并分析关于分子生物学、生物化学和遗传学的知识的自动系统;促进此类数据库和软件为研究和医疗界所使用;国家性地和国际性地协调为汇总生物技术信息做出努力;并研究用于分析生物学上重要分子的结构和功能的、基于计算机的信息处理的先进方法。NCBI负责DNA序列数据库。数据库已经从个体实验室提交的序列并通过与internationalnucleotidesequencedatabases、EuropeanMolecularBiologyLaboratory(EMBL)和DNADatabaseofJapan(DDBJ)数据交换而被构建,并包含被提交至U.S.PatentandTrademarkOffice的数据。除了之外,NCBI支持并分布医疗和科学界的多种数据库。这些包括与OnlineMendelianInheritanceinMan(OMIM)、3D蛋白结构的MolecularModelingDatabase(MMDB)、UniqueHumanGeneSequenceCollection(UniGene)、GeneMapoftheHumanGenome、TaxonomyBrowser和与NationalCancerInstitute合作的CancerGenomeAnatomyProject(CGAP)。Entrez是NCBI的搜索和检索系统,其向用户提供对于序列、映射、分类法和结构数据的集成访问。Entrez还提供了序列和染色体图的图形化视图。Entrez的特征是检索相关序列、结构和参考文献的能力。如本文描述的,BLAST是在NCBI开发用于鉴定基因和遗传特征的用于序列相似性搜索的程序,其可对整个DNA数据库执行序列搜索。由NCBI提供的另外的软件工具包括:OpenReadingFrameFinder(ORFFinder)、ElectronicPCR和序列提交工具SequinandBankIt。NCBI的多种数据库和软件工具是从WWW或通过FTP或通过电子邮件服务器可得的。其他信息在www|.|ncbi.nlm.nih.gov可得。在互联网上可得的一些生物数据是通常用特殊浏览器“插件(plug-in)”或其他可执行代码查看的数据。此类系统的一个实例是CHIME,允许分子结构包括生物分子结构的交互式虚拟3维显示的浏览器插件。关于CHIME的另外的信息在www|.|mdlchime.com/chime/可得。多个公司和研究所提供用于订购生物化合物的在线系统。在www|.|genosys.com/oligo_custinfo.cfm或www|.|genomictechnologies.com/Qbrowser2_FP.html可找到此类系统的实例。通常,这些系统接收期望的生物化合物(诸如,寡核苷酸、DNA链、RNA链、氨基酸序列等)的一些描述符,并且然后制备所请求的化合物并以液体溶液或其他合适的形式运送至客户。由于本文提供的方法可如以下进一步描述的被实现在网站上,可以通过互联网以与上文描述的生物信息和化合物相似的方式提供涉及通过本公开内容的一些实施方案产生的多肽或多核苷酸的计算结果或物理结果。为了进一步说明,本发明的方法可在本地的或分布式计算环境中被实现。在分布式环境中,该方法可在包括多个处理器的单个计算机上或在多个计算机上被实现。计算机可例如通过公共总线连接,但更优选地,计算机为网络上的节点。网络可以是通用网络或本地专用网络或广域网络,并在某些优选的实施方案中,计算机可以是内联网或互联网的组件。在一个互联网实施方案中,客户端系统通常执行Web浏览器并被耦合到执行Web服务器的服务器计算机上。Web浏览器通常为诸如IBM的WebExplorer、Microsoft的Internetexplorer、NetScape、Opera或Mosaic的程序。Web服务器通常是但并必然是诸如IBM的HTTPDaemon或其他www守护进程(例如,基于LINUX的形式的程序)的程序。客户端计算机在线路上或经由无线系统与服务器计算机双向耦合。反过来,服务器计算机与提供对实现本发明的方法的软件的访问权的网站(托管网站的服务器)双向耦合。如所提到的,连接到内联网或互联网的客户端的用户可使得客户端请求为网站的一部分的资源,所述网站托管提供本发明的方法的实现的应用。然后服务器程序处理该要求以返回指定的资源(假设它们当前是可得的)。标准命名约定(即,统一资源定位符(“URL”))包括若干类型的位置名,当前包括诸如超文本传输协议(“http”)、文件传输协议(“ftp”)、信息鼠和广域信息服务(“WAIS”)的子分类。当资源被下载时,其可包含另外的资源的URL。因此,客户端的用户可轻易地获悉他或她未特别地请求的新资源的存在。实现本发明的方法的软件可本地运行于真实的客户端-服务器架构中的托管网站的服务器上。因此,客户端计算机向主机服务器发布请要,主机服务器在本地运行所请要的过程并然后下载返回到客户端的结果。可选地,本发明的方法可以“多层”形式被实现,其中所述方法的组成部分可由客户端本地执行。客户端请求后,这可由从服务器下载的软件来实现(例如,Java应用),或者它可由在客户端上“永久性”安装的软件来实现。在一个实施方案中,实现本发明的方法的应用可被分为框架。在该范例中,甚至不将应用视为特征或功能的集合而是视为离散框架或视图的集合是有用的。例如,典型的应用通常包含一组菜单项,其每一个调用特定的框架-即表明应用的特定功能的形式。以该视角,应用不被视为代码的整体性主体,而是被视为小应用程序的集合或功能集。以此方式,用户可从浏览器之内选择网页链接,其反过来会调用应用的特定框架(即,子应用)。因此,例如,一个或更多个框架可提供用于将生物分子输入和/或编程到一个或更多个数据空间的功能,而另一个框架提供用于精化数据空间的模型的工具。在某些实施方案中,本发明的方法被实现为提供例如以下功能的一个或更多个框架:将两个或更多个生物分子编程为字符串以提供两个或更多个不同初始字符串的集合的功能,其中,所述生物分子的每一个包括一组选择的亚单位;从字符串选择至少两个子串的功能;连接子串以形成与一个或更多个初始字符串具有大约相同的长度的一个或更多个产物字符串的功能;将产物字符串添加(放置)到字符串的集合的功能;产生并操作酶和底物的计算表示/模型的功能;将底物(例如,配体)的计算表示与酶(例如,蛋白)的计算表示对接的功能;将分子动力学应用到分子模型的功能;计算影响涉及分子的化学反应的所述分子之间的多种约束(例如,在底物部分和酶活性位点之间的距离或角度)的功能;以及实现本文列出的任何特征的功能。这些功能中的一个或更多个还可在服务器上或在客户端计算机上被单独地实现。这些功能,例如用于产生并操作生物分子的计算模型的功能,可提供其中用户可插入或操作生物分子的表示的一个或更多个窗口。另外,这些功能还任选地提供通过局域网和/或内联网可访问的私人和/或公共数据库的访问权,数据库中包含的一个或更多个序列可藉以被输入到本发明的方法中。因此,例如,在一个实施方案中,用户可任选地具有请求搜索并将通过这种搜索返回的序列的一个或更多个输入到编码和/或多样性生成功能的能力。实现计算和/或数据访问过程的内联网和/或内联网实施方案的方法对于本领域技术人员是熟知的,并被很详细地记录(参见,例如,Cluer等人(1992)“AGeneralFrameworkfortheOptimizationofObject-OrientedQueries,”ProcSIGMODInternationalConferenceonManagementofData,SanDiego,California,1992年6月2-5日,SIGMODRecord,21卷,2期,1992年6月;Stonebraker,M.,编辑;ACMPress,383-392页;ISO-ANSI,WorkingDraft,“InformationTechnology-DatabaseLanguageSQL,”JimMelton,编辑,InternationalOrganizationforStandardizationandAmericanNationalStandardsInstitute,1992年7月;MicrosoftCorporation,“ODBC2.0Programmer'sReferenceandSDKGuideTheMicrosoftOpenDatabaseStandardforMicrosoftWindows.TMandWindowsNTTM,MicrosoftOpenDatabaseConnectivity.TM.SoftwareDevelopmentKit,”1992,1993,1994MicrosoftPress,3-30页和41-56页;ISOWorkingDraft,“DatabaseLanguageSQL-Part2:Foundation(SQL/Foundation),”CD9075-2:199.chi.SQL,1997年9月11日,等)。关于基于网络的应用的另外的相关细节可发现于Selifonov和Stemmer的标题为“METHODSOFPOPULATINGDATASTRUCTURESFORUSEINEVOLUTIONARYSIMULATIONS,”的WO00/42559中。在一些实施方案中,用于探索、筛选和/或开发多核苷酸或多肽序列的方法可被实现为具有多个处理单元和分布在计算机网络上的存储器的计算机系统上的多用户系统,其中网络可包括LAN上的内联网和/或互联网。在一些实施方案中,分布式计算架构涉及到“云”,其为在计算机网络上可得的计算机系统的集合,用于计算和数据存储。涉及云的计算环境被称为云计算环境。在一些实施方案中,一个或更多个用户可访问分布在内联网和/或互联网上的云的计算机。在一些实施方案中,用户可通过网络客户端来远程访问实现用于筛选和/或开发以上描述的蛋白变体的服务器计算机。在一些涉及到云计算环境的实施方案中,在服务器计算机上提供虚拟机(VM),且虚拟机的结果可被发回到用户。虚拟机(VM)是计算机的基于软件的仿真。虚拟机可基于假设的计算机的规格,或者模仿现实世界计算机的计算架构和功能。VM的结构和功能在本领域是熟知的。通常,VM被安装在包含系统硬件的主机平台上,且VM自身包含虚拟系统硬件和访客软件。用于VM的主机系统硬件包括一个或更多个中央处理器(CPU)、存储器、一个或更多个硬盘和多个其他设备。VM的虚拟系统硬件包括一个或更多个虚拟CPU、虚拟存储器、一个或更多个虚拟硬盘和一个或更多个虚拟设备。VM的访客软件包含访客系统软件和访客应用程序。在一些实现中,访客系统软件包含具有用于虚拟设备的驱动器的访客操作系统。在一些实现中,VM的访客应用程序包含以上描述的虚拟蛋白筛选系统的至少一个实例。在一些实施方案中,提供的VM的数量可与待解决的问题的计算负荷成比例。在一些实施方案中,用户可从云请求虚拟机,VM包含虚拟筛选系统。在一些实施方案中,云计算环境可基于用户请求来提供VM。在一些实施方案中,VM可存在于先前存储的VM图像中,VM图像可被存储在图像库中。云计算环境可搜索图像并将图像传送到服务器或用户系统。然后云计算环境可将图像引导到服务器上或用户系统上。IX.实施例实施例1以下实施例示出了实施多种实施方案的虚拟地筛选酶变体和开发具有期望的催化活性和选择性的酶的过程。概括性地,该过程包括创建真实的一组酶的3维同源模型和虚拟地筛选该组酶的成员以选择第一变体,其中所述第一变体(a)与活性位姿中的底物对接;(b)以pro-S构象对接;以及(c)具有在活性位姿中并以pro-S构象对接的那些变体中最低的总结合能量(或对接得分)。然后该过程使用第一变体作为第1轮骨架或亲本序列,以使用用于虚拟定向进化的虚拟诱变技术创建第1轮虚拟变体文库。然后,该过程创建了第1轮虚拟变体文库的成员的模型,筛选了第1轮虚拟变体文库,并使用如在选择第1轮骨架中相似的选择方法选择了第二变体作为第2轮骨架。该过程还从第1轮虚拟变体文库中选择了另外的变体。另外的变体(a)与活性位姿中的底物对接;以及(b)具有在活性位姿中对接的变体中最低的总结合能量(或对接得分)。然后该过程将第2轮骨架与另外的变体重组,以便将多样性引入进第2轮变体文库。最后,该过程通过计算机对变体进行建模、筛选和选择,产生与第1轮和第2轮骨架相比具有改进的活性和选择性的虚拟酶变体。更具体地,示例性过程始于创建真实组的酶的194个同源模型。这些酶催化与期望的底物在结构上或功能上相关的天然底物。该过程将期望的底物与同源模型对接,并虚拟地筛选了真实的该组酶的成员,仅发现一个变体,该变体(a)与活性位点中的期望的底物对接;以及(b)以pro-S构象对接。在活性位姿中的成功结合表明配体可能经历催化转化或执行一些期望的作用诸如与结合位点共价结合。期望的底物和该组成员的对接通过以上详细描述的对接方法来进行。期望的底物的功能上相关的部分与天然底物的比较通过将这两种底物放置于对接空间中的相同X、Y、Z坐标中进行。不管期望底物的位姿是否是有活性的,pro-S或pro-R通过期望的底物和天然底物的部分之间的距离来确定。对于该实施例,距离标准被设置在处。在不同应用中以及在不同轮次的定向进化处,可调整标准值和规则(要求距离的平均、最小值、最大值等小于该标准)。发现该变体可以以pro-S和pro-R两种构象结合底物。怀疑该变体的选择性可能不太大。为了获得对于期望的底物有活性的和S选择性的酶,该变体被选择作为第1轮的骨架,以通过计算机模拟的第一轮定向进化中的诱变创建第1轮变体文库。在该第1轮骨架中鉴定到15个活性位点位置,和对于每一个位置的可能的19个将不同于第1轮骨架变体的氨基酸,总计285个不同的可能的点突变。在第1轮进化中,对于第1轮变体文库产生了1000个突变体,每个突变体具有随机数目的突变,其中,随机数目是从平均值=4且SD=2的高斯分布中选出的。这些突变是从285个可能的点突变中随机选出的。然后,该过程使用了类似于以上用于真实酶的组的描述的那些方法的对接方法和筛选方法,不同之处是,与相对,确定位姿的活性和选择性的标准被设置为更严格的值该过程将一个变体鉴定为包含突变,所述变体具有将以有活性的和pro-S位姿结合的所有突变体之中最低的总结合能量。事实上,该变体中的突变防止底物被以不期望的pro-R构象结合,代表对选择性有益的突变。因此该过程选择该变体作为用于第2轮定向进化的骨架。然而,甚至与被确定的第1轮骨架的结合能量(-4.005kcal/mol)相比,在0.38303kcal/mol处的第2轮骨架的结合能量是相对高的,表明进化可进一步改进酶的有利特性。第2轮定向进化通过将29个突变引入进第2轮骨架通过计算机模拟来进行。29个突变来源于第1轮文库的29个变体,这29个变体具有从第1轮进化获得的所有变体中最低的结合能量。在第2轮进化中,产生1000个突变体以生成第2轮变体文库,每个突变体具有随机数目的突变,其中,随机数目选自平均值=6且SD=4的高斯分布。这些突变随机地从源于29个变体的29个可能的突变中选择。然后,该过程使用了类似于以上描述的那些方法的对接方法和筛选方法以确定仅以期望的pro-S构象结合底物的最有利的变体,且至少10个变体具有与第1轮骨架和第2轮骨架相比更好的结合能量。参见对于来自第2轮进化的改进的变体以及第1轮骨架和第2轮骨架的结合能量的表1。除了表1示出的数据之外,图5示出了来自第2轮进化的10个改进的变体以及第1轮骨架和第2轮骨架的选择性。该图示出了最初鉴定的具有低的结合能量、但不是S选择性的第1轮骨架的酶的组的虚拟筛选。然后该过程使用计算机模拟的定向进化(诱变)改进了S选择性,以获得第2轮骨架。该过程最终通过重组改进了第2轮进化中的底物结合,产生对期望的底物具有高亲和力并且是对映体选择性的酶变体。在两轮进化中提供的多样性通过受生物基因操作启发的诱变和重组来产生。在一些应用中,虚拟蛋白筛选方法可与指导定向进化方法的序列活性模型组合。序列活性模型根据美国专利号7,783,428中描述的方法用多元线性回归技术来构建。在图6A中,序列活性模型的预测结合能量被相对于通过虚拟筛选系统获得的对于测试组的序列观察到的能量作图。序列活性模型的交叉验证通过测试验证组的序列来进行,所述验证组的序列被测试组剔除(leftout)。该模型解释了测试组中90.9%的变化(R2=0.909)。图6B中的交叉验证数据示出了,序列活性模型在预测在特定位置处具有特定突变的序列的结合能量时是准确的,解释了验证组中82.9%的变化(R2=.829)。该模型可被用来鉴定用于诱变的氨基酸。在使用序列活性模型指导定向进化的其他方式之中,一种方式依赖于对于在特定位置处的特定残基的特定突变的回归系数,其反映突变对蛋白活性的贡献。具体地,定向进化的过程能够通过评价序列活性模型的项的系数鉴定对通过虚拟筛选系统计算的实质结合能量有贡献的一个或更多个氨基酸来选择用于突变的位置。例如,在该实施例中,突变1具有大的正系数,指示突变1很大程度上增加活性。参见图6C。相比之下,突变27具有大的负系数,表明应避免该突变,以便获得如在图6C中测量的高活性。实施例2实施例2提供了虚拟地筛选酮还原酶变体以便按照图7的顶部所示的反应由pro-手性酮(pro-chiralketone)获得手性醇的R-对映体的实验性验证。该过程包括,创建两个现有组的酮还原酶变体的3维同源模型(对于每一组96个孔的格式),和虚拟地筛选酮还原酶组的192个成员以选择变体,所述变体(a)与活性位姿中的底物对接;(b)以pro-R构象对接;以及(c)具有有利的对接得分。该过程鉴定了能够导致有活性的和能量上有利的位姿的24个变体,这些变体可被优先用于进一步开发和筛选。为了验证虚拟计算机模拟的筛选结果的实用性和有效性,该过程还进行了用标准方案计算机模拟筛选所有的192个成员,并用高效液相层析(HPLC)来检测底物/产物。结果在图7中被示出,其中,x轴是%转化率,按照(峰面积(R)-醇+峰面积(S)-醇)÷(峰面积(R)-醇+峰面积(S)-醇+峰面积酮)×100%计算,且y轴是对于期望的R产物的%e.e.(对映体选择性的指数),按照(峰面积(R)-醇-峰面积(S)-醇)÷(峰面积(R)-醇+峰面积(S)-醇)×100%计算。通过虚拟筛选优先化的24个变体被强调为红色的正方形,且剩余的变体被突出为蓝色的棱形。结果表明:1)虚拟筛选可在任何体外筛选之前辅助确定期望的转化用一组酶变体是否是可行的;2)尽管事实上,此类小的和柔性的底物通常被认为是建模的挑战,大量的所预测的变体确实给出高的活性(%转化率)和对映体选择性(%e.e.)。因此虚拟筛选可过滤掉对于体外筛选非常不可能的反应,并选择更少的样品来测试(在该情况下,24对192),这可导致节省大量的时间和成本。实施例3实施例3提供了按照图8的顶部处所示的反应将C=O立体选择性还原为CH-NH2的转氨酶的虚拟定向进化的实验性验证。该过程包括,创建来自骨架的12个活性位点位置的计算机模拟的饱和诱变的228个虚拟序列的3维同源模型(12个位置×19AA/位置=228个变体,1个突变/变体),并虚拟地筛选228个虚拟变体以选择变体,所述变体(a)与活性位姿中的底物对接;(b)以导致期望的立体选择性的构象对接;以及(c)具有在活性位姿中并以靶向构象对接的变体中具有最低的总结合能量。该过程然后鉴定了能够导致有活性的和能量上有利的位姿的12个变体或12个突变。12个突变被用来合成被体外筛选的文库。体外筛选用专有方案对360个变体(每个变体一个或多于一个突变)来进行。底物/产物用HPLC来检测。对于来自体外筛选的最佳变体的结果在图8中示出,其中,x轴是所筛选的样品,且y轴是FIOPC,被定义为相对于阳性对照的改进倍数并按照(%转化率变体-%转化率阴性对照)÷(%转化率阳性对照-%转化率阴性对照)×100%计算。阳性对照是虚拟筛选和体外筛选的骨架,而阴性对照是不含酶的空向量(emptyvector)。体外文库筛选产生13%的具有FIOPC>1.5的变体,以及5.3%的具有FIOPC>2的变体。最佳匹配物具有2.4的FIOPC。因此虚拟筛选可过滤掉体外筛选的有害突变,并辅助设计更具靶向性的文库,这可导致节省大量的时间和成本。例如,如果我们不得不做体外饱和诱变步骤,则将需要筛选至少800个另外的变体。虽然前面已经为了清楚和理解的目的以一定的细节进行了描述,但对于本领域技术人员通过阅读该公开内容将清楚的是,可进行多种形式和细节上的多种改变而不偏离本公开内容的真实范围。例如,以上描述的所有技术和装置可以多种组合使用。本申请中引用的所有出版物、专利、专利申请或其他文件为了所有的目的被通过引用以其全部并入,如同每个单独的出版物、专利、专利申请和其他文件被单独地指明为了所有目的被通过引用并入一样。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1