稳定的功能嵌合纤维二糖水解酶i类酶的制作方法

文档序号:406925阅读:461来源:国知局
专利名称:稳定的功能嵌合纤维二糖水解酶i类酶的制作方法
技术领域
本公开内容涉及生物分子工程和设计,以及工程化的蛋白和核酸。背景纤维素酶混合物在生物质转化过程中的表现除了取决于纤维素底物的物理状态和组成以外,还取决于许多酶特性,包括稳定性、产物抑制、不同纤维素酶组分之间的协作、生产性结合(productive binding)相对非生产性吸附(nonproductive adsorption)、以及pH依赖性。鉴于纤维素水解的多变量性质,具有多样的纤维素酶选择来优化用于不同应用和原料的酶制剂是令人期望的。概述本公开内容提供了大体纯化的嵌合多肽,其包括来自至少两个不同的亲本纤维二糖水解酶I (CBH I)多肽的至少两个结构域,其中这些结构域从N端到C端包含(区段
1)_(区段2)-(区段3)-(区段4)-(区段5)-(区段6)-(区段7)-(区段8);其中区段I包含与 SEQ ID NO 2( “1”)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3,,)、SEQ ID NO :8( “4”)或SEQ ID NO :10 (“5”)的氨基酸残基从大约I或从大约18或19到大约X1至少50-100%相同的序列;区段 2 包含与 SEQ ID NO :2(“1”)、SEQ ID NO :4( “2”)、SEQ ID NO :6( “3”)、SEQID NO :8( “4”)或 SEQ ID NO :10( “5”)的氨基酸残基 X1 到大约 X2 至少 50-100%相同的序列;区段 3 包含与 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸残基 X2 到大约 X3 至少 50-100%相同的序列;区段 4 包含与 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或 SEQ IDNO :10( “5”)的氨基酸残基 x3 到大约 x4 至少 50-100%相同的序列;区段 5 包含与 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸残基 X4 到大约 X5 至少 50-100%相同的序列;区段 6 包含与 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸残基 x5 到大约 x6 至少 50-100%相同的序列;区段 7 包含与 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或SEQ IDNO :10( “5”)的氨基酸残基X6到大约X7至少50-100%相同的序列;及区段 8 包含与 SEQ ID NO :2( “1,,)、SEQ ID NO :4( “2”)、SEQ ID NO :6( “3”)、SEQID NO :8( “4”)或SEQ ID NO :10( “5”)的氨基酸残基X7到大约X8至少50-100%相同的序列;且其中X1是SEQ ID NO :2、4、6或8的残基47、48、49、50、51或52,或是SEQ ID NO:10 的残基 48、49、50、51、52 或 53 ;x2 是 SEQ ID NO :2 或 10 的残基 92、93、94、95、96 或 97,或是 SEQ ID NO :4、6 或 8 的残基 91、92、93、94、95 或 96 ;x3 是 SEQ ID NO :2 的残基 127、128、129,130,131 或 132,或是 SEQ ID NO :4 或 6 的残基 125、126、127、128、129 或 130,或是 SEQID NO :8 的残基 126、127、128、129、130 或 131,或是 SEQ ID NO : 10 的残基 123、124、125、126、127 或 128 ;x4 是 SEQ ID NO :2 的残基 175、176、177、178、180 或 181,或是 SEQ ID NO 4或 SEQ ID NO :6 的残基 173、174、175、176、177 或 178,或是 SEQ ID NO :8 的残基 174、175、176、177、178 或 179,或是 SEQ ID NO : 10 的残基 171、172、173、174、175 或 176 ;x5 是 SEQ IDNO :2 的残基 221、222、223、224、225 或 226,或是 SEQ ID NO :4 或 SEQ ID NO :6 的残基 219、220、221、222、223 或 224,或是 SEQ ID NO 8 的残基 220、221、222、223、224 或 225,或是 SEQID NO :10 的残基 217、218、219、220、221 或 222 ;x6 是 SEQ ID NO :2 的残基 268、269、270、271、272 或 273,或是 SEQ IDNO :4 或 SEQ ID NO :6 的残基 266、267、268、269、270 或 271,或是 SEQID NO :8 的残基 267、268、269、270、271 或 272,或是 SEQ ID NO : 10 的残基 264、265、266、267、268 或 269 ;x7是SEQ ID NO :2 的残基 384、385、386、387、388 或 389,或是 SEQ IDNO :4 的残基 385、386、387、388、389 或 390,或是 SEQ ID NO :6 的残基 378、379、380、381、382或 383,或是 SEQ ID NO :8 或 10 的残基 383、384、385、386、387 或 388 ;并且 X8 是对应于 ·SEQID NO 2 的残基 454、SEQ ID NO 4 的残基 457、SEQID NO 6 的残基 458、SEQ ID NO 8 的残基 453、SEQ ID NO : 10 的残基 455、或者具有序列 SEQ ID N0:2、SEQ ID NO :4、SEQ ID NO:6、SEQ ID NO :8或SEQ ID NO :10的多肽的C端的氨基酸残基,且其中嵌合多肽具有纤维二糖水解酶活性和与包含SEQ ID NO :2、4、6、8或10的CBH I多肽相比改善的热稳定性、pH稳定性和/或表达。在前述的另一实施方案中,区段I包含SEQ ID N0:2(“1”)、SEQ ID NO:4( “2”)、SEQ ID NO 6( “3”)、SEQID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸残基从大约I或从大约18或19到大约X1并具有1-10个保守氨基酸取代;区段2是SEQ IDNO 2( “1”)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3,,)、SEQ ID NO :8( “4”)或 SEQ IDNO 10 (“5”)的从大约氨基酸残基X1到大约X2并具有大约1-10个保守氨基酸取代;区段3是SEQ ID NO :2( “I”)、SEQ ID NO 4( “2”)、SEQ ID NO 6( “3”)、SEQ ID NO 8( “4”)或SEQ ID NO :10( “5”)的从大约氨基酸残基X2到大约X3并具有大约1_10个保守氨基酸取代;区段 4 是 SEQ ID NO 2( “I”)、SEQ ID NO :4( “2”)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或SEQ IDNO :10( “5”)的从大约氨基酸残基X3到大约X4并具有大约1-10个保守氨基酸取代;区段 5 是 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2”)、SEQ ID NO :6( “3”)、SEQ ID NO :8 (“4”)或SEQ ID NO :10 (“5”)的从大约氨基酸残基x4到大约x5并具有大约1-10 个保守氨基酸取代;区段 6 是 SEQ ID NO :2( “1,,)、SEQ ID NO :4 ( “2”)、SEQ ID NO:6( “3”)、SEQ ID NO :8( “4”)或SEQ IDNO :10( “5”)的从大约氨基酸残基X5到大约X6并具有大约1-10个保守氨基酸取代;区段7是SEQ ID N0:2(“1,,)、SEQ ID NO :4 ( “2”)、SEQID NO :6( “3”)、SEQ ID NO :8( “4”)或 SEQ ID NO :10( “5”)的从大约氨基酸残基 X6 到大约X7并具有大约1-10个保守氨基酸取代;并且区段8是SEQ ID NO 2( “I”)、SEQ ID NO 4( “2”)、SEQ ID NO :6( “3”)、SEQ ID NO :8( “4”)或 SEQID NO :10( “5”)的从大约氨基酸残基X7到大约X8并具有大约1-10个保守氨基酸取代。在前述中的任一个的又一个实施方案中,多肽与选自由 SEQ IDNO :19、20、21、22、23、24、25、26、27、28、29、30、31、32、33 和 34组成的组的序列至少60-100%相同。在前述任一个的又一个实施方案中,多肽包括可操作地连接到N端氨基酸的前导序列。在前述任一个的又一个实施方案中,多肽还包括选自由SEQ ID NO :16、17和18组成的组的序列的C端CBM结构域。在前述任一个的又一个实施方案中,至少两个不同的亲本纤维二糖水解酶I (CBH I)多肽包括选自由SEQ ID NO :2、4、6、8和10组成的组的序列。在前述任一个的又一个实施方案中,多肽具有选自由以下组成的组的区段结构55153552、12153252、25152252、12152252、55152252、55515555、55555551、55515551、55525555、55555552、55525552、55555155、55555515、55555115、55555255、55555525,55555225,34152252 (SEQ ID NO 19),55153552(SEQ ID NO 20),32153252(SEQID NO 21),55155552 (SEQ ID NO 22),22153252 (SEQ ID NO 23),52152552(SEQ IDNO 24)、12153252(SEQ ID NO 25),45153252(SEQ ID NO 26) ,12153552(SEQ ID NO :27)、25152252 (SEQ ID NO 28),13152552 (SEQ ID NO 29),12152252 (SEQ ID NO :30)、55153252 (SEQ ID NO 31),55552252 (SEQ IDNO 32),55152552 (SEQ ID NO 33)和55152252(SEQ ID NO 34)。本公开内容还提供了编码如前述实施方案中任一个中所描述的多肽的多核苷酸,含有所述多核苷酸的载体,以及包含所述多核苷酸或载体的宿主细胞(例如植物或真菌细 胞)。本公开内容还提供了包含如以上以及本文中别处所述的多肽的酶制品。在又一实施方案中,酶制品还包含热稳定的纤维二糖水解酶II类酶嵌合体。本公开内容还提供了处理包含纤维素的生物质的方法,该方法包括使生物质与本公开内容的酶制品接触。本公开内容还提供了用于产生权利要求I所述的多肽的方法,所述多肽与一个亲本多肽或一类亲本多肽相比具有改善的活性或稳定性,该方法包括识别多个(P)进化上、结构上或者进化上和结构上相关的多肽;在多个相关多肽的至少第一多肽和至少第二多肽中选择包含N个肽区段的一组交叉位置;从具有稳定的功能表达的多个进化上、结构上或者进化上和结构上相关的多肽中选择亲本;产生多个嵌合体,所述嵌合体包含亲本的N-I个肽区段以及所述多个进化上、结构上或者进化上和结构上相关的多肽中另一个多肽的一个异源肽区段;识别具有增强活性或稳定性的改善的嵌合体以及识别异源肽区段作为改善的单体(monomera)中的活性/稳定性相关的肽区段;产生重新组合的重组蛋白的样品集UP”),所述重组蛋白包含所述至少第一多肽和第二多肽中的每一个的活性/稳定性相关的肽区段,其中X < I ;测量折叠表达的重新组合的重组蛋白的样品集的稳定性;产生包含一个或多个活性/稳定性相关的肽区段的多个嵌合多肽。附图简述图IA-B显示了 CBH I多肽的三维结构以及重组区块图。(A)CBH I催化结构域三维结构。形成二硫键的Cys残基由通过黑线连接的球体表示。(B)CBH I重组区块分割及二级结构图。区块间二硫键由栗色线表示,区块间二硫键由浅蓝色线表示,区块分割由黑色箭头表示。埃默森篮状菌(T. emersonii)CBH I的残基编号。图2显示了亲本CBH I以及32个单体的总分泌CBH I MUL-水解活性。单体含有从亲本1-4到亲本5 (来自埃默森篮状菌)的单区块取代。埃默森篮状菌的CBH I的总分泌CBH I MUL-水解活性由粉色棒表示。在45°C下将酵母分泌培养上清液用300 μ M可溶的荧光MUL底物孵育30分钟。三个独立的埃默森篮状菌分泌培养物的单一活性测量的平均值是2· 3X 1(T4 molMUL/(L · s),标准偏差是3. OX 10_5mol MUL/(L · s)。所有其它值代表单一培养物和测量。在图的底部的黑线表示T5tl测量的1.6X10_5mol MUL/(L-s)的活性阈值。图3显示了 28个CBH I单体相对于埃默森篮状菌(T5tl = 62. 9+/-0. 3°C )亲本的T5tl值(V )的改变。单体含有从亲本1-4到亲本5 (来自埃默森篮状菌)中的单区块取代。单体的误差棒代表两个重复测量的极值。亲本的误差棒代表3个重复到8个重复的标准偏差。嗜热毛壳菌(C. thermophilum)和嗜热子囊菌(T. aurantiacus)亲本CBH I的T5tl值分别是59. 9+/-0. 3°C和62. 2+/-0. 4°C。未分泌红褐肉座菌(H. jecorina)和嗜热支顶孢(A. thermophilum)亲本 CBH I。图4显示了亲本CBH I的T50值、总酵母分泌活性(moI MUL/ (L · s) X IO5)以及区块序列。单体的T5tl误差棒代表两个重复测量的极值,亲本的误差棒代表3个重复和8个重复之间的标准偏差。除亲本5 (埃默森篮状菌,对于三个独立培养物的单一测量,其具有(2· 3+/-0. 3) X 10_4 mo I MUL/(L* s)的平均值和标准偏差总酵母分泌活性)以外,总分泌活性值[mol MUL/(L · s)]是单一培养物的单一测量。亲本3 (红褐肉座菌)和亲本4(嗜·热支顶孢)的分泌水平低于T5tl测量的阈值。图5显示了亲和分离的CBH I亲本和嵌合体的标准化高温固体纤维素水解活性。所显示的值是相对于在50°C下的活性的在给定的温度下的活性。在50mM醋酸钠、pH 4.8中,用60mg/mL固体纤维素和14. 6 μ g/mL亲和分离的CBH I进行反应16小时。误差棒表示三个重复的标准偏差。*5表示具有稳定化子区块C插入的亲本5的区块7。图6显示了 CBH I亲本和嵌合体的针对固体纤维素的总酵母分泌活性。在4°C下,在50mM醋酸钠、pH 4. 8中用微晶纤维素孵育酵母培养上清液I小时以结合CBH I。随后将纤维素洗涤并允许在37°C下进行水解90分钟。误差棒代表三个重复的标准偏差。*5表示具有稳定化子区块C插入的亲本5的区块7。图7显示了 CBH I亲本催化结构域(分别是SEQ ID NO :2、4、6、8、10)的ClustalW多重序列比对,区块边界由黑线表示。图8显示了 CBH I亲本YPD酵母培养分泌上清液的SDS-PAGE分析。主要埃默森篮状菌CBH I条带出现在 62kDa处,并且由绿色矩形涵盖。相对于 53kDa的氨基酸分子质量的分子质量的增加可通过来自N-连接和O-连接糖基化的预期的额外的S-IOkDa来解释。在 62kDa以上的分子质量处的拖尾效应可能是由于糖基化异质性。蓝色数字表示相对于埃默森篮状菌CBH I的针对MUL的CBH I上清液活性。红色数字表示3个CBH I亲本的T5tl值,对于热稳定性测量来说,其分泌是足够的。图9显示了 CBH I单体的与破坏的接触数目(E)相比的总分泌CBH IMUL活性。圈出了区块7单体数据点。

图10显示了 Ni2+亲和分离的CBH I亲本和嵌合体针对MUL[ (molMUL/(L · μ gCBHI · s) X IO4]的比活性。在50mM醋酸钠中用300 μ M MUL和29. 2 μ g/亲和分离的CBHI进行反应30分钟。*5表示具有稳定化子区块C插入的亲本5的区块7。图11显示了 B7P2(嗜热子囊菌)和B7P5 (埃默森篮状菌)序列的比对。子区块圈在红色框中。子区块C起始于位置60并继续到比对的第二行中。图12显示了 Ni2+亲和分离的CBH I亲本和嵌合体样品的SDS PAGE分析。所有样品以I. 5ug蛋白每泳道加样。样品泳道1-亲本5、2_亲本1、5-121522*52 4-551535*52、5-551522*52、6-251522*52、7-121522*52。亲本2亲和分离的样品(未包括在凝胶中)蛋白浓度太低而无法进行考马斯蓝显色。由于存在嗜热毛壳菌接头和CBM而不是埃默森篮状菌接头和CBM,亲本I预期的分子量大于亲本5和嵌合体。*5表示具有稳定化子区块C插入的亲本5的区块7。图13显示了亲和分离的CBH I亲本和嵌合体的与温度相比的比活性。在50mM醋酸钠中,用60mg/mL固体纤维素和14. 6 μ g/mL亲和分离的CBH I进行反应16小时。误差棒表示三个重复的标准偏差。*5表示具有稳定化子区块C插入的亲本5的区块7。详述如在此处和在所附权利要求书中所用的那样,除非上下文另外清楚地指明,否则单数形式“一种”、“一个”和“该”包括多个指称。因此,例如,提及“一个结构域”包括多个这样的结构域,提及“该蛋白”包括提及一种或更多种蛋白,等等。同样,除非另外声明,“或”表示“和/或”。类似地,“包含(comprise) ”、“包含 (comprises) ”、“包含(comprising) ”、“包括(include) ”、“包括(includes)” 和“包括(including)”是可互换的并且不旨在限制。还应理解,在各实施方案的描述使用术语“包含”时,本领域技术人员将理解在一些具体情况下,实施方案能够可替代地使用语言“基本上由...组成”或“由...组成”描述。 尽管在本公开的方法和组合物的实施中可使用与本文所述的方法和材料相似或等同的方法和材料,但在此处描述了示例性方法、装置和材料。除非另外定义,否则本文所用的所有技术术语和科学术语具有与本公开所属技术领域的普通技术人员所通常理解的相同的含义。因此,如本申请通篇所使用的,以下术语应具有以下含义。鉴于已经证明的SCHEMA效用以及用于产生新的热稳定酶的单体区块筛选方法,将这种策略与改善酶热稳定性的其它方法比较和对照是有启示的。共有序列诱变(consensus mutagenesis)可能是最广泛利用的不应用高通量筛选的酶热稳定化策略。共有序列诱变是基于大量(例如,几十个或几百个)相关的酶序列的比对并识别在给定位置高频率出现的残基可能具有稳定化作用。由此预测,将给定位置的残基身份从低频率氨基酸改变为较高频率氨基酸改善进行了这种取代的酶的热稳定性。尽管成功地利用了共有序列诱变来预测改善酶的热稳定性的单残基取代,但是对大量的系统发生学上多样的序列来确保预测精度的需求是相当大的限制。共有序列诱变的成功应用加入了几十个(如果没有几百个)酶同源物序列。虽然CAZy数据库(参见全球网络cazy. org)含有多于四十个可用于将共有序列诱变应用于CBH I稳定化的CBH I或CBHI相关的基因序列,但是存在许多酶类,对于其,如此大量已知序列是不可获得的。此外,即使可获得许多序列,精确预测稳定化残基的能力受到酶由共同祖先进化而来的事实的限制。从小起始库的进化使完整的同源物组中的残基频率偏向亲本序列中出现的氨基酸,这破坏氨基酸可能具有的任何稳定化作用。考虑到SCHEMA重组仅需要亲本酶的序列以及亲本酶或同源物的晶体结构,我们所描述的单体区块筛选方法可能是用于改善稳定性的共有序列诱变的有效的替代方案。在工业相关的真菌CBH I的上下文中说明了通过SCHEMA重组的酶稳定化,所述工业相关的真菌CBH I是大规模生物质转化过程中使用的纤维素酶混合物的主要组分。众所周知,这些酶难以在异源宿主中表达,并且蛋白质工程计划很少得到改善的酶,尽管其具有工业重要性。迄今为止,所描述的最热稳定的CBH I是由重组酿酒酵母(S. cerevisiae)宿主分泌的含有三个额外的合理设计的二硫键G4C-A72C、N54C-P191C和T243C-A375C的埃默森篮状菌的变体。本文提供了用作SCHEMA重组亲本的单G4C-A72C工程化二硫键埃默森篮状菌催化结构域。如通过圆二色性(CD)所测得的,单二硫键和三二硫键变体的各自的Tm值被报道为80°C和84°C,并且在不存在底物的情况下其在70°C下的半衰期被报道为270分钟和320分钟。G4C-A72C突变体的这些数字与在酵母分泌培养上清液中的埃默森篮状菌CBHI亲本所观察到的T5tl值62. 9+/-0.3°C不匹配,并且还意味着热稳定性比我们在固体底物水解测定中观察到的更大,其中埃默森篮状菌亲本在65°C以上的温度下是非活性的。生物质到生物燃料的转化过程中常用的真菌纤维素酶混合物的高成本是实现从不可食用的植物物质经济上可行地生产运输燃料的主要限制之一。纤维素酶处理的操作成本可通过改善这些酶混合物的热稳定性来降低。纤维素酶操作的寿命随热稳定性而增加, 与其较不稳定的对应物相比,在生物质降解的过程中允许热稳定的纤维素酶每单位酶水解更多的纤维素。热稳定的纤维素酶还可在较高的温度下操作并且可从较高的比活性中获益。这种增强的水解降低了将纤维素生物质转化成可发酵糖所需的酶负载。除稳定性以外,性能诸如比活性、pH依赖性、产物抑制以及在固体底物的表面上的生产性相对非生产性吸附均对纤维素酶混合物的整体性能做出贡献。I类纤维二糖水解酶(CBH I或家族7糖基水解酶)是工业化纤维素酶混合物的主要组分并占由普遍的商业纤维素酶生产宿主(丝状真菌红褐肉座菌(T. reesei))分泌的纤维素酶的约60wt%。这样,CBH I已成为以改善CBHI热稳定性为主要目标的多种酶工程工作的主题。CBH I随机突变文库的高通量筛选(HTS)以及合理的二硫键设计已被应用于创建稳定的CBH I变体。HTS的适用性被限制于由足以实现文库特征化的水平的合适的异源宿主表达的CBH I。二硫键设计的适用性被限制于存在晶体结构的CBH I。这些方法中没有一个产生可导致以上列举的一组酶性能改善的CBH I基因序列多样性。本公开内容描述了用于工程化纤维素酶(及其它蛋白)的方法,并且还提供了这种组合物以及工程多肽,所述纤维素酶(及其它蛋白)可靠地改善热稳定性而同时维持功能并提供高水平的序列多样性。大多数的生物质转化过程利用真菌纤维素酶(主要是纤维二糖水解酶II类(CBH
II)、纤维二糖水解酶I类(CBH I)、内切葡聚糖酶和β-葡糖苷酶)的混合物来实现高水平的纤维素水解。产生一组多样的热稳定的CBH I酶嵌合体是构建稳定的高活性纤维素酶的清单的第一步,酶混合物可从这些稳定的高活性纤维素酶配制并被优化用于特定的应用和原料。本公开内容中的这些嵌合CBH I可以与其它纤维二糖水解酶(例如野生型CBH II和嵌合CBH II,参见,例如,PCT/US2010/027248和PCT/US2010/30133,其公开内容在此通过引用方式并入)组合使用。先前已使用SCHEMA来创建数百个活性CBH II、β -内酰胺酶和细胞色素Ρ450酶嵌合体的家族。SCHEMA利用蛋白结构数据来限定使<E>最小化的连续氨基酸“区块”的边界,<E>是当这些区块在不同亲本之间交换时破坏的氨基酸侧链接触的文库平均数目。已显示β_内酰胺酶嵌合体被折叠且具有活性的概率与该序列的E值负相关。RASPP(最短路径重组问题(Recombination as Shortest Path Problem))算法用于鉴定使<E>相对于突变的文库平均数目<m>最小化的区块边界。由β-内酰胺酶集合(collection)表征的包含来自3个亲本的8个区块(38 = 6,561条可能的序列)的 500种独特嵌合体中多于20%具有催化活性。类似方法产生了包含多于2,300种新颖的催化活性酶的3-亲本、8-区块细胞色素P450嵌合体家族。来自这两种集合的嵌合体特征在于从最近的亲本高数目的突变,分别为平均66个氨基酸和72个氨基酸。SCHEMA/RASPP因而使得设计具有显著的序列多样性和可观比例的功能成员的嵌合体家族成为可能。还已显示SCHEMA嵌合体的热稳定性能够基于小样品序列的序列稳定性数据来预测。184种细胞色素P450嵌合体的热失活数据的线性回归建模显示SCHEMA区块对热稳定性作出加性的贡献。通过这个模型预测多于300种嵌合体是热稳定的,并且所测试的所有44种比最稳定的亲本更稳定。据估计少至35次热稳定性测量可用于预测热稳定性最高的嵌合体。此外,热稳定的P450嵌合体展示独特的活性和特异性性质,表明嵌合(chimeragenesis)能产生另外有用的酶特性。本公开内容说明CBH II酶的SCHEMA重组能够产生在高温下经延长的时间和宽范围的PH对磷酸膨胀纤维素(PASC)具有活性的嵌合纤维素酶。·可通过交换序列区块而制得的嵌合体的总数是pb,其中P是亲本的数目且b是每个亲本分成的区块的数目。在SCHEMA重组家族的构建中包括更多的亲本酶产生更多潜在独特的嵌合体,并能够包括更多潜在有利的突变。然而,6,561个嵌合体可通过将3个亲本和8个区块重组而制得,再加入两个亲本序列增加家族大小至大于390,000o通过重组而开发的突变的数目取决于亲本序列同一性。对于CBH I,相对于埃默森篮状菌背景亲本(亲本5 (P5)),亲本I (嗜热毛壳菌)含有151个突变,亲本2 (嗜热子囊菌)增加43个独特的突变,亲本3 (红褐肉座菌)产生另外100个独特的突变,且亲本4 (嗜热支顶孢)增加了 52个突变计数,产生336的可由重组来搜索的突变的总数。用较大的嵌合体家族操作的缺点是必须表征更多的嵌合体以构建预测性稳定性模型。如果显著比例的样品嵌合体没有以功能形式表达,则这可能是高成本的。本公开内容说明,可用单体筛选方法来有效地识别期望的序列,其中在稳定的良好表达的亲本的背景中进行个体区块的取代。相对于选择用于测试区块之间的相互作用的嵌合体样品集,即背景序列的重要性,这一策略减少了构建的非生产性序列的数目。对背景亲本及32-成员CBH I单体集的28个分泌成员的稳定性测量允许评价构成5-亲本、8-区块CBH I嵌合体家族的40个区块的36个的稳定性贡献。假设在区块之中没有非线性的稳定性作用,并且区块7亲本5(B7P5)在全部嵌合体背景中在位置7处是最稳定的区块,这些测量允许预测58 = 390,625个CBH I嵌合体序列中最稳定的序列。这表明筛选效率相对于先前CBH II重组操作的增加,但是建立在如下假设之上区块对总稳定性加性地做出贡献并且没有测试线性模型。本公开内容说明用于从特征为大量的二硫键的亲本酶创建活性嵌合体的SCHEMA重组的稳定性。SCHEMA试图限定区块边界以便使区块之间的相互作用类似于亲本酶中发生的那些相互作用。然而,区块边界未考虑二硫键来限定。这样,10个二硫键(其中的5个连接位于不同区块的Cys残基)的存在提出了 SCHEMA产生导致大比例活性成员的嵌合体家族设计的能力的新测试。如32个单体中的28个和16中的16个所示,预测的稳定的嵌合体被分泌为活性纤维素酶,即使当蛋白由大量的二硫键交联时,SCHEMA重组可产生大比例的活性嵌合体。这些结果表明,SCHEMA重组保留了用于形成二硫键的Cys残基的合适的定位和定向。允许定量预测嵌合体热稳定性的线性区块稳定性贡献支持高序列多样性和大比例的活性成员作为SCHEMA嵌合体家族的可用特征。区块7是最大的区块,具有116个残基,其占CBH I催化结构域的27%。在此位置处进行取代的能力的下降显著地降低了由单体样品集筛选中所包含的突变的总数。具体地,32个单体样品集的总计336个独特的突变中的119个包含在区块7中。高E值不一定预测区块7对重组的抗性。为了测试,产生并重组了区块7的另外的子区块。不仅增加相应的单体的稳定性还增加其被取代进入的全部五个稳定嵌合体的稳定性的子区块被识别,并表明细分重组区块可产生进一步的稳定性改五亲本SCHEMA重组产生一组热稳定的CBH I嵌合体,其在可以配制应用特异性混合物的热稳定的真菌纤维素酶的清单的装配中是对前述热稳定的CBH II嵌合体7’8的关键补充。另外,该工作表明单体筛选策略使大家族中的期望的嵌合体序列的预测易于处理,因此增加了 SCHEMA用于开发大范围酶序列空间的功用。此外,观察到的嵌合体性能的改善以及活性重组酶的高比例表明SCHEMA重组可应用于含有广泛的翻译后修饰的酶。这样,这些结果不仅对于工业化生物质转化过程的上下文中的酶工程有重要意义,还对于工程化期望高序列多样性和/或其性能不易通过诱变和高通量筛选改善的其它蛋白有重要意义。使用本文所述的方法,产生了许多具有纤维二糖水解酶活性的嵌合多肽,其与野生型亲本CBH I蛋白相比具有改进的特征。使用相应于含有大于390,000个独特序列的8_区块、5_亲本家族的多样的CBH I嵌合体样品集。为了预测这种嵌合体家族的最稳定的成员而仍仅抽取一组有限的嵌合基因( 30-40),利用经验来简化样品集设计并使预期以功能形式分泌的样品基因的数目最大化。具体地,假定SCHEMA区块对嵌合体稳定性具有加性的贡献或至少累积的贡献。还进一步假设,利用高度表达的亲本作为背景(其中同源亲本的单一区块被取代)将增加样品序列将被分泌和具有功能的可能性。因此,在良好表达的亲本酶的背景下构建出含有单一区块取代的一组CBH I “单体”嵌合体。这是快速筛选用于稳定序列的区块的同源酶的有效方法。预测最稳定的嵌合体的任务被减少到进行亲本酶及该背景中制得的32个单体的稳定性测量。然后,可由具有稳定作用的且中性的区段装配多样的热稳定的嵌合体。“氨基酸”是具有如下结构的分子其中中心碳原子与氢原子、羧酸基团(其碳原子在此称为“羧基碳原子”)、氨基基团(其氮原子在此称为“氨基氮原子”)和侧链基团R相连。当加入到肽、多肽或蛋白中时,在连接一个氨基酸与另一个氨基酸的脱水反应中氨基酸失去其氨基酸羧基的一个或多个原子。结果,当加入到蛋白中时,氨基酸被称为“氨基酸残基'“蛋白”或“多肽”是指两个或更多个单独的氨基酸(不论是否为天然存在的)通过肽键相连的任何聚合物。术语“蛋白”被理解为包括术语“多肽”和“肽”(有时其在本文中可互换地使用)在其含义之内。另外,包含多个多肽亚基(例如,DNA聚合酶III、RNA聚合酶II)或其它组分(例如,如端粒酶中存在的RNA分子)的蛋白也将被理解为包括在本文所用的“蛋白”的含义之内。类似地,蛋白及多肽的片段也在本公开内容的范围内并可在此称为“蛋白”。在本公开内容的一个实施方案中,稳定化的蛋白包括两个或更多个亲本肽区段的嵌合体。给定蛋白的具体氨基酸序列(即,当从氨基端到羧基端书写时为多肽的“一级结构”)由mRNA的编码部分的核苷酸序列决定,mRNA进而由遗传信息指定,所述遗传信息通常为基因组DNA (包括细胞器DNA,例如线粒体DNA或叶绿体DNA)。因此,确定基因的序列帮助预测对应的多肽的一级序列和更特别的是预测由该基因或多核苷酸序列编码的多肽或蛋白的作用或活性。“融合的”、“可操作地连接的”和“可操作地关联的”在本文可互换使用来概括地指两种在其他方面不同的结构域或肽区段的化学偶联或物理偶联,其中每个结构域或肽区段当可操作地连接时能够提供具有期望活性的功能多肽。结构域或肽区段能够通过使得它们具有功能的肽接头直接连接或相连,或者能够通过其他的中间体或化学键融合。例如,两个结构域可以是同一编码序列的一部分,其中该多核苷酸是符合读框的以使得该多核苷酸在转录时编码一个mRNA,该mRNA在翻译时包括这两个结构域作为一个多肽。可替代地,两个 结构域可以被分别表达为个体多肽并且使用化学方法彼此融合。通常,编码结构域将被直接地或被肽接头分隔地“符合读框地”连接,并被一个多核苷酸编码。肽接头和肽的各个编码序列是本领域已知的。“多核苷酸”或“核酸序列”是指核苷酸的聚合形式。在一些情况下,多核苷酸是指不与在获取该多核苷酸的生物体的天然存在的基因组中与之紧密邻接的编码序列(一个在5'端且一个在3'端)中的任何一个紧密邻接的序列。该术语因此包括,例如,加入载体中的重组DNA ;加入自主复制质粒或病毒中的重组DNA ;或加入原核生物或真核生物的基因组DNA中的重组DNA,或作为独立于其他序列的单独分子(例如,cDNA)而存在的重组DNA0本公开内容的核苷酸可以是核糖核苷酸、脱氧核糖核苷酸或任何一种核苷酸的修饰形式。如本文所用的多核苷酸是指,除了其他之外,单链和双链的DNA,为单链和双链区域的混合物的DNA,单链和双链的RNA,以及为单链和双链的区域的混合物的RNA,包含可能为单链的或更通常为双链的或为单链和双链的区域的混合物的DNA和RNA的杂合分子。术语多核苷酸涵盖基因组DNA或RNA (取决于生物体,即病毒的RNA基因组)以及由基因组DNA编码的 mRNA、和 cDNA。“核酸区段”、“寡核苷酸区段”或“多核苷酸区段”是指较大多核苷酸分子的一部分。多核苷酸区段不必对应于蛋白的编码功能域;然而,在一些情况下该区段将编码蛋白的功能域。多核苷酸区段的长度可以是约6个核苷酸或更多(例如,长度为6-20、20-50、50-100,100-200,200-300,300-400个或更多核苷酸)。稳定性相关的肽区段可以被稳定性相关的多核苷酸区段编码,其中该肽区段与缺乏该肽区段的多肽相比促进稳定性、功能或折叠。“嵌合体”是指至少两个不同的亲本蛋白或多肽的至少两个区段或结构域的组合。如本领域技术人员所理解的,这些区段不必实际来自每个亲本,因为它是相关的特定序列,而不是实体核酸或肽本身。例如,嵌合真菌I类纤维二糖水解酶(CBH I纤维素酶)将具有来自两个不同的亲本CBH I多肽的至少两个区段。这两个区段是相连的以产生具有纤维二糖水解酶活性的新多肽。换言之,如果蛋白具有全长亲本中任一个的相同序列,那么该蛋白将不是嵌合体。嵌合多肽能够包含来自两个不同亲本蛋白的多于两个区段。例如,对于每个最终的嵌合体或嵌合体的文库来说可能有2、3、4、5-10、10-20个或更多个亲本。每个亲本多肽的区段可以是非常短的或非常长的,区段的连续氨基酸的长度范围可以是蛋白全长的1%到约90%、95%、98%或99%。在一个实施方案中,最小长度是10个氨基酸,但是长度可以是 15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100 个或更多个氨基酸。在一个实施方案中,确定了两个亲本的一个交叉点。交叉位置确定了一个亲本氨基酸区段停止和下一个亲本氨基酸区段开始的地方。因而,简单的嵌合体将只具有一个交叉位置,其中在该交叉位置之前的区段属于第一亲本而在该交叉位置之后的区段属于第二亲本。在一个实施方案中,嵌合体具有多于一个交叉位置。例如,2、3、4、5、6、7、8、9、10、11-30个或更多个交叉位置。这些交叉位置如何命名和定义均在以下讨论。在其中有两个交叉位置和两个亲本的实施方案中,将具有来自第一亲本的第一连续区段,紧跟着来自第二亲本的第二连续区段,紧跟着来自第一亲本或又一不同的亲本的第三连续区段。连续的旨在表示没有任何中断区段的含义。这些连续的区段相连形成连续的氨基酸序列。例如,来自嗜热毛壳菌(此后称“I”)和嗜热子囊菌(此后称“2”)的在49和94具有两个交叉点的CBH I嵌合体可具有来自I的前49个氨基酸,紧跟着来自2的接下来55个氨基酸,紧跟着来自I的剩余氨基酸,所有这些氨基酸连接在一个连续氨基酸链中。可选地,CBH I嵌合体可具有来 自2的前49个氨基酸,来自I的接下来55个氨基酸以及紧跟着来自2的剩余氨基酸。如本领域技术人员所理解的,存在嵌合体的变体以及准确序列。因而,如果是变异的嵌合体,则并非每个区段的100%必须存在于最终的嵌合体中。可通过额外的残基或残基的移除或变化而改变的量将按照术语变体所定义的那样定义。当然,如本领域技术人员所理解的,以上讨论不仅适用于氨基酸而且适用于编码氨基酸的核酸。“保守的氨基酸取代”是指具有类似侧链的残基的可交换性,且因此通常涉及多肽中的氨基酸由相同或类似定义类别的氨基酸中的氨基酸取代。作为实例而非限制,具有脂族侧链的氨基酸可由另一个脂族氨基酸取代,例如丙氨酸、缬氨酸、亮氨酸、异亮氨酸和甲硫氨酸;具有羟基侧链的氨基酸由具有羟基侧链的另一氨基酸取代,例如丝氨酸和苏氨酸;具有芳族侧链的氨基酸由具有芳族侧链的另一氨基酸取代,例如,苯丙氨酸、酪氨酸、色氨酸和组氨酸;具有碱性侧链的氨基酸由具有碱性侧链的另一氨基酸取代,例如,赖氨酸、精氨酸和组氨酸;具有酸性侧链的氨基酸由具有酸性侧链的另一氨基酸取代,例如,天冬氨酸或谷氨酸;以及疏水性或亲水性氨基酸分别由另一疏水性或亲水性氨基酸取代。“非保守取代”是指多肽中的氨基酸由具有显著不同的侧链性质的氨基酸取代。非保守取代可使用定义的组之间而不是定义的组之内的氨基酸,并影响(a)取代区域中多肽骨架的结构(例如,脯氨酸代替甘氨酸),(b)电荷或疏水性,或者(C)侧链体积。作为实例而非限制,示例的非保守取代可以是由碱性或脂族氨基酸取代酸性氨基酸;由小氨基酸取代芳族氨基酸;以及由疏水性氨基酸取代亲水性氨基酸。“分离的多肽”是指与其天然伴随的其他污染物例如蛋白、脂质和多核苷酸分离的多肽。该术语包括已自其天然存在环境或表达系统(例如,宿主细胞或体外合成)中移出或纯化的多肽。“基本上纯的多肽”是指如下组合物在其中多肽物类是存在的优势物类(即,在尔基础或重量基础上它比该组合物中的任何其他个体大分子物类更丰富),并且一般而言当目标物类构成存在的大分子物类的按摩尔或重量%计至少约50%时是基本上纯化的组合物。一般而言,基本上纯的多肽组合物将占该组合物中所存在的所有大分子物类的按摩尔或重量%计的约60%或更多、约70%或更多、约80%或更多、约90%或更多、约95%或更多以及约98%或更多。在一些实施方案中,将目标物类纯化至基本的均一性(即,通过常规检测方法不能在组合物中检测出污染物类),其中组合物基本上由单一大分子物类组成。溶剂物类、小分子(< 500道尔顿)、以及元素离子物类不被认为是大分子物类。“参考序列”是指用作序列比较的基础的限定序列。参考序列可以是较大序列的子部分,例如,全长基因或多肽序列的区段。一般而言,参考序列长度可为至少20个核苷酸或氨基酸残基,至少25个核苷酸或残基,至少50个核苷酸或残基,或核酸或多肽的全长。因为两个多核苷酸或多肽可以各自⑴包括在这两条序列之间相似的序列(即完整序列的一部分),以及(2)还可以包括在这两条序列之间相异的序列,所以在两条(或多条)多核苷酸或多肽之间的序列比较通常是通过在“比较窗口 ”上比较这两条多核苷酸或多肽的序列而进行的,以识别和比较局部区域的序列相似性。“序列同一性”表示在比较窗口上两条氨基酸序列基本上相同(即,在逐个氨基酸·的基础上)。术语“序列相似性”是指共有相同的生物物理特点的相似氨基酸。术语“序列同一性百分比”或“序列相似性百分比”是通过如下方式计算的在比较窗口上比较两条最佳比对的序列,确定两条多肽序列中存在相同的残基(或相似的残基)的位置数目以得出匹配的位置数目,用匹配的位置数目除以比较窗口中的位置的总数目(即,窗口大小),并且将结果乘以100得出序列同一性百分比(或序列相似性百分比)。关于多核苷酸序列,术语序列同一性和序列相似性具有对于蛋白质序列所述的类似的含义,其中术语“序列同一性的百分比”指示在比较窗口上两条多核苷酸序列是相同的(在逐个核苷酸的基础上)。这样,还可以计算多核苷酸序列同一性的百分比(或基于分析算法,多核苷酸序列相似性的百分比,例如,对于沉默取代或其他取代来说)。最大对应可通过使用本文所述的序列算法之一(或本领域普通技术人员可用的其他算法)或通过视觉检查来确定。当应用于多肽时,术语基本的同一性或基本的相似性表示当诸如通过使用缺省空位权重(default gap weight)的程序BLAST、GAP或BESTFIT或通过视觉检查进行最优比对时,两条肽序列享有序列同一性或序列相似性。类似地,在应用于两条核酸的上下文时,术语基本的同一性或基本的相似性表示当诸如通过使用缺省空位权重的程序BLAST、GAP或BESTFIT (如本文其他地方描述的)或通过视觉检查进行最优比对时,两条核酸序列享有序列同一性或序列相似性。适于确定序列同一性百分比或序列相似性百分比的算法的一个实例是FASTA算法,它描述于 Pearson,ff. R. &Lipman, D. J.,(1988) Proc. Natl. Acad. Sci. USA 85 :2444 中。还参见 W. R. Pearson, (1996)MethodsEnzymology 266:227-258。在计算同一性百分比或相似性百分比的DNA序列的FASTA比对中使用的优选的参数被优化,BL50 Matrix 15 :_5,k-tuple = 2 ;连接罚分(joining penalty) = 40,最优=28 ;空位罚分-12,空位长度罚分=~2 ;以及览度=16。有用的算法的另一个实例是PILEUP。PILEUP利用渐进的逐对比对从一组相关序列中创建多序列比对来显示关系和序列同一性百分比或序列相似性百分比。它还绘制树或系统树图,显示用于创建比对的聚类关系。PILEUP利用Feng & Doolittle, (1987) J. Mol.Evol. 35 :351-360的渐进比对方法的简化形式。所用的方法与Higgins & Sharp, CABIOS5:151-153,1989所述的方法类似。该程序可比对高达300条序列,各具有5,000个核苷酸或氨基酸的最大长度。多重比对步骤开始于两条最相似序列的逐对比对,产生两条比对序列的簇。然后这种簇与下一个最相关的序列或比对序列的簇进行比对。通过两个个体序列的逐对比对的简单延伸对序列的两个簇进行比对。通过一系列渐进的逐对比对实现最终的比对。通过指定具体的序列及其序列比对区域的氨基酸或核苷酸坐标和通过指定程序参数来运行该程序。使用PILEUP,利用以下参数将参考序列与其他测试序列进行比较来确定序列同一性百分比(或序列相似性百分比)关系缺省空位权重(3. 00)、缺省空位长度权重(O. 10)以及权重端空位(weighted end gap)。PILEUP可以从GCG序列分析软件包例如7· O版本获得(Devereaux 等人,(1984) Nuc. Acids Res. 12 :387-395) 适于多重DNA和氨基酸序列比对的算法的另一个实例是CLUSTALW程序(Thompson, J. D.等人,(1994) Nuc. Acids Res. 22 :4673-4680)。CLUSTALW 在序列组之间进行多重逐对比较并且基于序列同一性将它们装配成多重比对。空位开放罚分(Gap openpenalty)和空位扩展罚分(Gapextension penalty)分别是10和O. 05。对于氨基酸比对来说,BLOSUM算法可用作蛋白权重矩阵(protein weight matrix) (Henikoff 和 Henikoff, (1992)Proc. Natl. Acad. Sci. USA 89 :10915-10919)。“功能的”是指如下的多肽,其具有其天然产生的蛋白形式的天然生物活性,或任何特定的期望的活性,例如,如通过其结合到配体分子或进行酶促反应的能力来判断。本公开内容描述了基于纤维二糖水解酶家族和更具体地纤维二糖水解酶I酶的具体成员(例如,嗜热毛壳菌是亲本“I”(SEQ ID NO :2),嗜热子囊菌是亲本“2”(SEQ IDNO :4),红褐肉座菌是亲本“3”(SEQ ID NO :6),嗜热支顶孢是亲本“4”(SEQ ID NO :8)且埃默森篮状菌是亲本“5” SEQ ID NO :10))产生纤维二糖水解酶的定向SCHEMA重组文库。SCHEMA是用于预测哪些相关蛋白的片段可被重组而不影响蛋白的结构完整性的基于计算的方法(参见,例如,Meyer等人,(2003)Protein Sci. , 12 :1686-1693)。这种计算方法鉴定了 CBH I亲本蛋白中的七个重组点,从而容许形成CBH I嵌合多肽的文库,其中每个多肽包含例如从二至八个区段。通过利用序列稳定性数据的线性回归或通过依赖折叠蛋白与未折叠蛋白的MSA的共有序列分析而确定每个区段对总的稳定性的加性贡献,可鉴定具有较高稳定性的嵌合体。SCHEMA重组确保嵌合体通过保留重要的功能残基同时交换耐受残基而保持生物功能并显示高的序列多样性。因而,如通过本文的各种实施方案所显示的,本公开内容提供了包含亲本结构域的嵌合体的CBH I多肽。在一些实施方案中,多肽包含从N端到C端具有不同亲本CBH II蛋白的多个结构域的嵌合体(区段1)_(区段2)-(区段3)-(区段4)-(区段5)-(区段6)_(区段7)-(区段8);其中区段I 包含 SEQ ID NO 2( “1”)、SEQ ID NO :4( “2”)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或SEQ ID NO :10( “5”)的氨基酸残基从大约I或从大约18或19到大约 X1 ;区段 2 包含与 SEQ ID NO 2( “I”)、SEQ ID NO 4( “2”)、SEQ ID NO 6( “3”)、SEQ ID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸残基 X1 到大约 X2 至少 50-100%相同的序列;区段 3 包含与 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或 SEQID NO :10( “5”)的氨基酸残基 x2 到大约 x3 至少 50-100%相同的序列;区段 4 包含与 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸残基 X3 到大约 X4 至少 50-100%相同的序列;区段 5 包含与 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸残基 x4 到大约 x5 至少 50-100%相同的序列;区段 6 包含与 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或 SEQ IDNO :10( “5”)的氨基酸残基 x5 到大约 x6 至少 50-100%相同的序列;区段 7 包含与 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQID NO 8( “4”)或SEQ ID NO :10( “5”)的氨基酸残基X6到大约X7至少50-100%相同的序列;及区段 8 包含与 SEQ ID NO :2( “1,,)、SEQ ID NO :4( “2”)、SEQ ID NO :6( “3”)、SEQ ID NO :8( “4”)或 SEQ ID NO :10( “5”)的氨基酸残基 X7 到大约 X8 至少 50-100%相同的序列;其中X1 是 SEQ ID NO :2、4、6 或 8 的残基 47、48、49、50、51 或 52,或是 SEQ ID NO 10 的残基 48、49、50、51、52 或 53 ;x2是SEQ ID NO :2 或 10 的残基 92、93、94、95、96 或 97,或是 SEQ ID N0:4、6 或 8 的残基 91、92、93、94、95 或 96 ;x3是SEQ ID NO :2 的残基 127、128、129、130、131 或 132,或是 SEQ ID NO :4 或 6 的残基 125、126、127、128、129 或 130,或 是 SEQ ID NO :8 的残基 126、127、128、129、130 或 131,或是 SEQ ID NO :10 的残基 123、124、125、126、127 或 128 ;x4 是 SEQ ID NO 2 的残基 175、176、177、178、180 或 181,或是 SEQ IDNO :4 或 SEQ ID NO :6 的残基 173、174、175、176、177 或 178,或是 SEQ ID NO :8 的残基 174、175、176、177、178 或 179,或是 SEQ ID NO 10 的残基 171、172、173、174、175 或 176 ;x5 是SEQ ID NO :2 的残基 221、222、223、224、225 或 226,或是 SEQ ID NO :4 或 SEQ ID NO :6 的残基 219、220、221、222、223 或 224,或是 SEQ ID NO 8 的残基 220、221、222、223、224 或 225,或是 SEQ ID NO :10 的残基 217、218、219、220、221 或 222 ;x6 是 SEQ ID NO :2 的残基 268、269、270、271、272 或 273,或是 SEQ ID NO :4 或 SEQ ID NO :6 的残基 266、267、268、269、270或 271,或是 SEQ ID N0:8的残基267、268、269、270、271或272,或是SEQ ID N0:10 的残基264、265、266、267、268 或 269 ;x7 是 SEQ ID NO 2 的残基 384、385、386、387、388 或 389,或是 SEQ ID NO :4 的残基 385、386、387、388、389 或 390,或是 SEQ ID NO :6 的残基 378、379、380、381、382 或 383,或是 SEQ ID NO 8 或 10 的残基 383、384、385、386、387 或 388 ;并且 X8是对应于 SEQ ID NO :2 的残基 454、SEQ ID NO :4 的残基 457、SEQ ID NO :6 的残基 458、SEQIDNO 8 的残基 453,SEQ ID NO 10 的残基 455、或者具有序列 SEQ ID NO :2、SEQ ID NO :4、SEQ ID NO :6、SEQ ID NO 8或SEQ ID NO 10的多肽的C端的氨基酸残基。使用前述结构域参考,产生如表I所列出的大量嵌合结构。表I. 二硫键配对的CBH I嵌合体以及基础单体的总酵母分泌MUL活性和T5tl值。T50值误差棒代表2个重复测量的极值,MUL活性值为单一培养物的单一测量,300 μ M MUL,在45°C下孵育30分钟。NS表示对于T5tl测量不充足的分泌。
权利要求
1. 一种基本上纯化的嵌合多肽,包含来自至少两个不同的亲本纤维二糖水解酶I(CBHI)多肽的至少两个结构域,其中所述结构域从N端到C端包含(区段I)-(区段2)-(区段.3)-(区段4)-(区段5)-(区段6)-(区段7)-(区段8); 其中:区段 I 包含与 SEQ ID NO 2( “1”)、SEQ ID NO :4( “2”)、SEQ IDNO :6( “3”)、SEQ ID NO 8( “4”)或SEQ ID NO :10( “5”)的氨基酸残基从大约I或从大约18或19到大约X1至少50-100%相同的序列;区段2包含与SEQID NO :2 ( “ I”)、SEQ ID N0:4(“2”)、SEQ ID NO 6( “3”)、SEQ ID NO :8( “4”)或 SEQ ID NO :10( “5”)的氨基酸残基 X1 到大约 X2 至少 50-100%相同的序列;区段 3 包含与 SEQ ID NO 2( “I”)、SEQ ID NO 4( “2”)、SEQ ID NO 6( “3”)、SEQ ID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸残基 X2 到大约 X3 至少 50-100%相同的序列;区段 4 包含与 SEQ ID NO 2( “I”)、SEQ ID NO 4( “2”)、SEQ ID NO 6( “3”)、SEQ ID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸残基 X3 到大约 X4 至少 50-100%相同的序列;区段 5 包含与 SEQ ID NO 2( “I”)、SEQ ID NO 4( “2”)、SEQ ID NO 6( “3”)、SEQ ID NO :8( “4”)或 SEQ IDNO :10( “5”)的氨基酸残基 X4 到大约X5 至少 50-100%相同的序列;区段 6 包含与 SEQ ID NO :2 ( “ I”)、SEQ ID NO :4 ( “2”)、SEQID NO :6( “3”)、SEQID NO :8( “4”)或 SEQ ID NO :10( “5”)的氨基酸残基 X5 到大约 X6 至少 50-100%相同的序列;区段 7 包含与 SEQ ID NO :2 ( “ I”)、SEQ ID NO :4 ( “2”)、SEQ IDNO :6( “3”)、SEQ ID NO :8( “4”)或 SEQ ID NO :10( “5”)的氨基酸残基 X6 到大约 X7 至少 50-100%相同的序列;及区段 8 包含与 SEQ ID NO :2 ( “ I”)、SEQ ID NO :4 ( “2”)、SEQID NO 6( “3”)、SEQ ID NO 8( “4”)或 SEQID NO :10( “5”)的氨基酸残基 X7 到大约 X8至少50-100%相同的序列;其中 X1 是 SEQ ID NO :2、4、6 或 8 的残基 47、48、49、50、51 或 52,或是 SEQ ID N0:10 的残基 48、49、50、51、52 或 53 ;x2是SEQ ID NO :2 或 10 的残基 92、93、94、95、96 或 97,或是SEQ ID NO :4、6 或 8 的残基 91、92、93、94、95 或 96 ;x3是SEQ ID NO :2 的残基 127、128、129、.130、131 或 132,或是 SEQ ID NO :4 或 6 的残基 125、126、127、128、129 或 130,或是 SEQ IDNO 8 的残基 126、127、128、129、130 或 131,或是 SEQ ID NO 10 的残基 123、124、125、126、.127 或 128 ;x4 是 SEQ ID NO :2 的残基 175、176、177、178、180 或 181,或是 SEQ ID NO :4 或SEQ ID NO :6 的残基 173、174、175、176、177 或 178,或是 SEQ ID NO :8 的残基 174、175、176、.177、178 或 179,或是 SEQ ID NO :10 的残基 171、172、173、174、175 或 176 ;x5 是 SEQ ID NO:.2 的残基 221、222、223、224、225 或 226,或是 SEQ ID NO :4 或 SEQ ID NO :6 的残基 219、220、.221、222、223 或 224,或是 SEQ ID NO :8 的残基 220、221、222、223、224 或 225,或是 SEQ IDNO 10 的残基 217、218、219、220、221 或 222 ;x6 是 SEQ ID NO 2 的残基 268、269、270、271、.272 或 273,或是 SEQ ID NO :4 或 SEQ ID NO :6 的残基 266、267、268、269、270 或 271,或是SEQ ID NO :8 的残基 267、268、269、270、271 或 272,或是 SEQ ID NO : 10 的残基 264、265、.266、267、268 或 269 ;x7是SEQ ID NO :2 的残基 384、385、386、387、388 或 389,或是 SEQ IDNO :4 的残基 385、386、387、388、389 或 390,或是 SEQ ID NO :6 的残基 378、379、380、381、382或 383,或是 SEQ ID NO :8 或 10 的残基 383、384、385、386、387 或 388 ;并且 X8 是对应于 SEQID NO 2 的残基 454、SEQ ID NO 4 的残基 457、SEQ ID NO 6 的残基 458、SEQ IDNO 8 的残基 453、SEQ ID NO : 10 的残基 455、或者具有序列 SEQ ID N0:2、SEQ ID NO :4、SEQ ID NO:.6、SEQ ID NO 8或SEQ ID NO 10的多肽的C端的氨基酸残基,其中所述嵌合多肽具有纤维二糖水解酶活性和与包含SEQ ID NO :2、4、6、8或10的CBHI多肽相比改善的热稳定性、pH稳定性和/或表达。
2.如权利要求I所述的多肽,其中区段I包含SEQID NO :2(“1”)、SEQ ID NO:4(“2”)、SEQ ID NO :6( “3”)、SEQ ID NO :8( “4”)或 SEQ IDNO :10( “5”)的氨基酸残基从大约 I 或从大约18或19到大约X1并具有1-10个保守氨基酸取代;区段2是SEQ ID NO 2( “I”)、SEQ ID NO 4( “2,,)、SEQID NO :6( “3,,)、SEQ ID NO :8( “4”)或 SEQ ID NO 10( “5”)的从大约氨基酸残基X1到大约X2并具有大约1-10个保守氨基酸取代;区段3是SEQ IDNO 2( “1”)、SEQ ID NO :4( “2”)、SEQ ID NO :6( “3”)、SEQ ID NO :8( “4”)或 SEQ ID NO 10 (“5”)的从大约氨基酸残基X2到大约X3并具有大约1-10个保守氨基酸取代;区段4是SEQ ID NO :2( “I”)、SEQ ID NO 4( “2”)、SEQID NO 6( “3”)、SEQ ID NO 8( “4”)或SEQ ID NO :10( “5”)的从大约氨基酸残基X3到大约X4并具有大约1_10个保守氨基酸取代;区段 5 是 SEQ IDNO 2( “I”)、SEQ ID NO :4( “2”)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或SEQ ID NO 10( “5”)的从大约氨基酸残基x4到大约x5并具有大约1-10个保守氨基酸取代;区段 6 是 SEQ ID NO 2( “I”)、SEQ ID NO 4( “2”)、SEQID NO 6( “3”)、SEQ ID N08( “4”)或SEQ ID NO :10( “5”)的从大约氨基酸残基X5到大约X6并具有大约 1-10 个保守氨基酸取代;区段 7 是 SEQ IDNO :2( “I”)、SEQ ID NO :4( “2”)、SEQ IDN06( “3”)、SEQ ID NO :8( “4”)或 SEQ ID NO :10( “5”)的从大约氨基酸残基 X6 到大约X7并具有大约1-10个保守氨基酸取代;并且区段8是SEQ ID NO 2( “I”)、SEQ ID NO 4( “2”)、SEQ ID NO 6( “3”)、SEQ ID NO 8( “4”)或 SEQ ID NO :10( “5”)的从大约氨基酸残基X7到大约X8并具有大约1-10个保守氨基酸取代。
3.如权利要求I所述的多肽,其中所述多肽与选自由SEQID NO :19、20、21、22、23、24、25、26、27、28、29、30、31、32、33和34组成的组的序列至少60-100%相同。
4.如权利要求1、2或3所述的多肽,其中所述多肽包含可操作地连接到N端氨基酸的前导序列。
5.如权利要求1、2、3或4所述的多肽,还包括包含选自由SEQID N0:16、17和18组成的组的序列的C端CBM结构域。
6.如权利要求1、2、3、4或5所述的多肽,其中所述至少两个不同的亲本纤维二糖水解酶I (CBH I)多肽包括选自由SEQ ID NO :2、4、6、8和10组成的组的序列。
7.如前述权利要求中任一项所述的多肽,其中所述多肽具有选自由以下组成的组的区段结构55153552、12153252、25152252、12152252、55152252、55515555、55555551、55515551,55525555,55555552,55525552,55555155,55555515,55555115,55555255,55555525,55555225,34152252 (SEQ ID NO 19) ,55153552(SEQ ID NO 20),32153252(SEQID NO 21),55155552 (SEQ ID NO 22),22153252 (SEQ ID NO 23),52152552(SEQ IDNO 24)、12153252 (SEQ ID NO 25),45153252 (SEQ ID NO26),12153552(SEQ ID NO :27)、25152252 (SEQ ID NO 28),13152552 (SEQ ID NO 29),12152252 (SEQ ID NO :30)、55153252 (SEQ ID NO 31),55552252 (SEQ IDNO 32),55152552 (SEQ ID NO 33)和55152252(SEQ ID NO 34)。
8.—种编码权利要求1-7中任一项所述的多肽的多核苷酸。
9.一种包含权利要求8的多核苷酸的载体。
10.一种包含权利要求9所述的载体的宿主细胞。
11.如权利要求10所述的宿主细胞,其中所述宿主细胞是植物细胞或真菌细胞。
12.—种包含权利要求1-7中任一项的多肽的酶制品。
13.如权利要求12所述的酶制品,还包含热稳定的纤维二糖水解酶II类酶嵌合体。
14.一种处理包含纤维素的生物质的方法,所述方法包括使所述生物质与权利要求12或13的酶制品接触。
15.—种处理包含纤维素的生物质的方法,所述方法包括使所述生物质与权利要求10的生物质接触。
16.—种用于产生权利要求I的多肽的方法,所述多肽与一个亲本多肽或一类亲本多肽相比具有改善的活性或稳定性,所述方法包括 识别多个(P)进化上、结构上或者进化上和结构上相关的多肽; 在多个相关多肽的至少第一多肽和至少第二多肽中选择包含N个肽区段的一组交叉位置; 从具有稳定的功能表达的所述多个进化上、结构上或者进化上和结构上相关的多肽中选择亲本; 产生多个嵌合体,所述嵌合体包含所述亲本的N-I个肽区段以及所述多个进化上、结构上或者进化上和结构上相关的多肽中另一个多肽的一个异源肽区段; 识别具有增强活性或稳定性的改善的嵌合体以及识别所述异源肽区段作为改善的单体中的活性/稳定性相关的肽区段; 产生重新组合的重组蛋白样品集(xP”),所述重组蛋白包含所述至少第一多肽和第二多肽中的每一个的活性/稳定性相关的肽区段,其中x< I ;测量折叠表达的重新组合的重组蛋白的样品集的稳定性; 产生包含一个或多个活性/稳定性相关的肽区段的多个嵌合多肽。
17.如权利要求16所述的方法,其中所述改善的嵌合体通过进行回归分析来识别。
18.如权利要求16所述的方法,其中所述选择一组交叉位置包括比对所述多个进化上、结构上或者进化上和结构上相关的多肽的序列并识别序列同一性区域。
19.如权利要求18所述的方法,其中所述方法包括序列比对以及选自由以下组成的组的一种或多种方法X射线晶体学、NMR、搜索蛋白结构数据库、同源模建、从头蛋白折叠及计算蛋白结构预测。
20.如权利要求16所述的方法,其中所述选择一组交叉位置包括识别所述至少第一多肽中的残基对之间的偶联相互作用; 产生多个数据结构,每个数据结构代表包含所述至少第一多肽和第二多肽的重组的交叉突变体,其中每个重组具有不同的交叉位置; 对每个数据结构确定与由所述数据结构代表的交叉突变体中被破坏的偶联相互作用的数目相关的交叉破坏;及 在所述多个数据结构中识别具有低于阈值的交叉破坏的特定数据结构,其中由所述特定数据结构代表的交叉突变体的交叉位置是被识别的交叉位置。
21.如权利要求20所述的方法,其中偶联相互作用通过确定残基之间的构象能量来识别。
22.如权利要求20所述的方法,其中偶联相互作用通过确定残基之间的原子间距离来识别。
23.如权利要求20所述的方法,其中所述至少第一多肽和第二多肽的每一个的构象能量由所述第一多肽和第二多肽中的至少一个的三维结构来确定。
24.如权利要求22所述的方法,其中原子间距离由多个多肽中的至少一个多肽的三维结构来确定。
25.如权利要求20所述的方法,其中偶联相互作用通过高于阈值的残基之间的构象能量来识别。
26.如权利要求20所述的方法,其中所述阈值是所述多个数据结构的交叉破坏的平均水平。
27.如权利要求26所述的方法,其中交叉位置的识别包括基于序列同一性区域来识别所述多肽中的可能的切割点。
28.如权利要求26或27所述的方法,其中所述序列同一性区域必须包含至少4个残基。
29.如权利要求26所述的方法,其中稳定性的测量包括选自由以下组成的组的技术化学稳定性测量、功能稳定性测量和热稳定性测量。
30.如权利要求29所述的方法,其中所述化学稳定性测量包括化学变性测量。
31.如权利要求28所述的方法,其中所述热稳定性测量包括热变性测量。
32.如权利要求29所述的方法,其中所述功能稳定性测量包括配体或底物结合技术。
33.如权利要求16所述的方法,其中所述回归分析包括确定序列稳定性数据或折叠蛋白与未折叠蛋白的多重序列比对(MSA)的共有序列分析。
34.如权利要求33所述的方法,其中所述序列稳定性数据包括与稳定性测量可操作地 >联的序列信息。
35.如权利要求16所述的方法,还包括创建具有肽区段的片段的单体。
36.如权利要求16所述的方法,其中所述亲本包括与SEQID NO:15具有至少80% -100%同一性的序列。
全文摘要
本发明内容涉及CBH I嵌合体融合的多肽、编码该多肽的核酸以及用于产生该多肽的宿主细胞。
文档编号C12N15/62GK102884086SQ201180022906
公开日2013年1月16日 申请日期2011年6月1日 优先权日2010年6月1日
发明者弗朗西斯·H·阿诺德, 皮特·海因策尔曼 申请人:加州理工学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1