糖基水解酶及其在生物质水解方面的用途

文档序号:1662873阅读:1211来源:国知局
糖基水解酶及其在生物质水解方面的用途
【专利摘要】本发明涉及可用于水解生物质的组合物例如包含具有糖基水解酶(GH)家族61/内切葡聚糖酶活性的多肽和/或β-葡糖苷酶多肽的组合物,水解生物质材料的方法,以及使用此类组合物的方法。
【专利说明】糖基水解酶及其在生物质水解方面的用途
[0001]相关申请的交叉引用
[0002]本专利申请要求2011年3月17日提交的美国临时申请No. 61 / 453,931的优先权,该申请据此全文以引用方式并入。
1.【技术领域】
[0003]本发明整体涉及糖基水解酶,以及包含此类酶的工程改造的酶组合物、工程改造的发酵液组合物和其他组合物,以及所述酶和组合物的制备或在研究、工业或商业环境中使用的方法,例如用于使包含半纤维素和任选纤维素的生物质材料糖化或转化成可发酵糖。
2.【背景技术】
[0004]自20世纪70年代的石油危机以来,将可再生的木质纤维素生物质生物转化成随后进行发酵以产生作为液体燃料替代品的醇(例如乙醇)的可发酵糖已吸引了研究人员的广泛关注(Bungay, H. R. ,“Energy :the biomass options”. NY :ffiley, 1981 (Bungay,H. R.能源:生物质选择”,纽约威利出版社,1981年);01sson L, Hahn-Hagerdal B. EnzymeMicrob Technoll996,18 :312-31 (Olsson L> Hahn-Hagerdal Β·,《酶学微生物技术》,1996年,第 18 卷,第 312-331 页);Zaldivar, J etal. , Appl Microbiol Biotechnol2001, 56 :17-34 (Zaldivar, J等人,《应用微生物学与生物技术》,2001年,第56卷,第17-34页);Galbe, M etal.,Appl Microbiol Biotechnol2002, 59 :618-28 (Galbe, M 等人,《应用微生物学与生物技术》,2002年,第59卷,第618-628页))。过去几十年里,乙醇已在美国被用作汽油的10%共混物或在巴西被用作完全的车用燃料。随着石油价格的上涨及其来源的逐渐枯竭,燃料生物乙醇将变得愈发重要。另外,可发酵糖越来越多地用于生产塑料、聚合物和其他生物类材料。对可用于`替代石油类燃料原料的丰富的低成本可发酵糖的需求快速增长。
[0005]在可用的可再生生物质材料之中主要的是纤维素和半纤维素(木聚糖),它们可转化成可发酵糖。这些多糖向可溶性糖(例如葡萄糖、木糖、阿拉伯糖、半乳糖、甘露糖和/或其他己糖和戊糖)的酶促转化因各种酶的组合作用而发生。例如,内切_1,4-β-葡聚糖酶(EG)和外切纤维二糖水解酶(CBH)催化不溶性纤维素水解成纤维寡糖(例如纤维二糖为主要产物),而葡糖苷酶(BGL)将寡糖转化成葡萄糖。木聚糖酶与其他辅助蛋白(其非限制性例子包括L-α -阿拉伯呋喃糖酶、阿魏酸酯酶和乙酰木聚糖酯酶、葡萄糖醛酸酶和木糖苷酶)一起催化半纤维素的水解。
[0006]植物的细胞壁由通过共价和非共价方式相互作用的复杂多糖的不均匀混合物构成。高等植物细胞壁的复杂多糖包括例如纤维素(0_1,4葡聚糖),其通常占存在于细胞壁组分中的碳的35-50%。纤维素聚合物通过氢键、范德瓦尔斯相互作用和疏水相互作用自我结合形成半结晶纤维素微纤维。这些微纤维还包括非结晶区域,通常称为无定形纤维素。纤维素微纤维嵌入由半纤维素(包括例如木聚糖、阿拉伯聚糖和甘露聚糖)、果胶(例如聚半乳糖醛酸和半乳聚糖)以及各种其他β_1,3和β-I,4葡聚糖形成的基质中。这些聚合物通常被例如阿拉伯糖、半乳糖和/或木糖残基取代,得到高度复杂的阿拉伯糖基木聚糖、阿拉伯半乳聚糖、半乳甘露聚糖和木葡聚糖。半纤维素基质继而由多酚类木质素围绕。
[0007]为了由生物质材料获得可用的可发酵糖,通常将木质素透化以及将半纤维素破坏以允许纤维素水解酶接近。酶活性的联合对于在可以获得可发酵糖前分解生物质材料的复杂基质可能是必需的。
[0008]无论纤维素原料的类型如何,酶的成本和水解效率均是限制生物质生物转化工艺商业化的主要因素。微生物产生的酶的生产成本与产酶菌株的生产力和发酵的最终活力收率有关。多酶复合物的水解效率可取决于许多因素,例如各种酶的性质、它们之间的协同作用以及它们在多酶共混物中的比率。
[0009]本领域存在以下需求:鉴定能够以足够或增加的效率、提高的发酵糖产量和/或改善的作用于更多种类纤维素或半纤维素材料的能力将植物和/或其他纤维素或半纤维素材料转化成可发酵糖的酶和/或酶组合物。
3.
【发明内容】

[0010]本发明提供某些具有纤维素酶或纤维素分解活性的多肽,包括例如某些β -葡糖苷酶和内切葡聚糖酶多肽,以及某些具有半纤维素分解活性的多肽,包括例如木聚糖酶(例如内切木聚糖酶)、木糖苷酶(例如β -木糖苷酶)、阿拉伯呋喃糖酶(例如L-α-阿拉伯呋喃糖酶),它们在纤维素和/或半纤维素生物质材料的糖化中提供额外有益效果。本发明还提供编码这些多肽的核酸、表达这些核酸的重组细胞以及包含这些核酸的载体和表达盒。此外,本发明提供制备和使用多肽和核酸的方法。本发明还提供包含选自本发明多肽的2种或更多种(例如2种或更多种、3种或更多种、4种或更多种、5种或更多种等)酶的共混物或混合物的组合物,并且 合适比例或相对重量的多肽存在于组合物中以实现糖化或提供改善的糖化效力和/或效率。本发明的酶的一种或多种或全部可为宿主细胞异源的。另一方面,本发明的酶的一种或多种或全部可进行基因工程改造或修饰,使得它们以不同于在相应野生型宿主细胞中的水平表达。此外,本发明提供在研究环境、工业环境(例如生物燃料生产)或商业环境中的使用方法。
[0011]出于本发明的目的,酶可按本领域技术人员进行归类的酶分类而提及。它们也按其相应的酶活性提及。例如,木聚糖酶称为具有木聚糖酶活性的多肽或者可互换地称为木聚糖酶多肽。因此,本发明部分地基于对具有木聚糖酶活性、β-木糖苷酶活性、L-a-阿拉伯呋喃糖酶活性、β -葡糖苷酶活性和/或内切葡聚糖酶活性的某些新型酶和变体的发现。本发明还基于对包含具有这些半纤维素分解活性和/或纤维素分解活性的多肽的某些特定共混物或重量比的新型酶组合物的鉴定,这些组合物允许纤维素和半纤维素材料的高效糖化。
[0012]本发明的酶和/或酶组合物用于由生物质产生可发酵糖。糖然后可被微生物用于产生乙醇,例如通过发酵或其他培养手段,或可用于产生其他可用的生物产物或生物材料。本发明提供使用本文所述的酶和/或酶组合物的工业应用(例如糖化工艺、乙醇生产工艺)。在它们的多样化用途之中,本发明的酶和/或酶组合物可有利地降低许多工业过程中(包括如生物燃料生产中)酶的成本。[0013]相关地,本发明提供本发明的酶和/或酶组合物在商业环境中的用途。例如,本发明的酶和/或酶组合物可在合适的市场与使用酶和/或组合物的典型或优选方法的说明一起销售。因此,本发明的酶和/或酶组合物可在商业酶供应商模型中使用或商业化,其中将本发明的酶和/或酶组合物销售给生物乙醇制造商、燃料炼制厂或者从事燃料或生物产品生产的生物化学或生物材料制造商。在一些方面,本发明的酶和/或酶组合物可使用现场生物炼制模型推向市场或商业化,其中在燃料炼制厂或生物化学/生物材料制造商设施的工厂或其附近生产或制备酶和/或酶组合物,并且对本发明的酶和/或酶组合物以实时的方式针对燃料炼制厂或生物化学/生物材料制造商的具体需求而定制。此外,本发明涉及向这些制造商提供技术支持和/或使用酶和/或酶组合物的说明,使得可制造所需的生物产品(例如生物燃料、生物化学品、生物材料等)并推向市场。
[0014]因此,在第一方面,本发明涉及具有糖基水解酶活性的多种多肽,包括其变体。本发明涉及分离的多肽、变体以及编码所述多肽和变体的核酸。
[0015]在一些方面,本发明提供包含下述氨基酸序列的分离的、合成的或重组的多肽,所述氨基酸序列在至少约10(例如至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上或在全长催化结构域(CD)或全长碳水化合物结合结构域(CBM)上与SEQ ID NO :44、54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 的任一者具有至少约 60% (例如至少约 60%,65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或100%)的序列同一性。在某些实施例中,分离的、合成的或重组的多肽具有β_葡糖苷酶活性。在某些实施例中,分离的、合成的或重组的多肽为葡糖苷酶多肽,其包括例如变体、突变体和融合/杂合/嵌合葡糖苷酶多肽。对于本发明,术语“融合”、“杂合”和“嵌合”可互换使用并用作彼此的等同形式。在某些实施例中,本发明提供为两个或更多个β_葡糖苷酶序列的杂合体或嵌合体的具有葡糖苷酶活性的多肽。例如,所述两个或更多个β -葡糖苷酶序列的第一序列为至少约200 (例如至少约200、250、300、350、400或500)个氨基酸残基长,并包含SEQ ID NO =96-108的氨基酸序列基序的一者或多者或全部。在一些实施例中,所述两个或更多个β -葡糖苷酶序列的第二序列为至少约50 (例如至少约50、75、100、125、150、175或200)个氨基酸残基长,并包含SEQ ID NO :109-116的氨基酸序列基序的一者或多者或全部。具体地讲,两个或更多个葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO =197-202的氨基酸序列基序的至少2个(例如至少
2、3、4个或全部)的序列,而两个或更多个葡糖苷酶的第二序列为至少50个氨基酸残基长并包含SEQ ID Ν0:203。在一些实施例中,第一序列位于嵌合或杂合β -葡糖苷酶多肽的N端,而第二序列位于其C端。在一些实施例中,第一序列通过其C端残基连接到第二序列的N端残基。例如,第一序列紧邻或直接连接到第二序列。在其他实施例中,第一序列不紧邻第二序列,而是通过接头结构域将第一序列连接到第二序列。在一些实施例中,第一序列、第二序列或这两个序列包含I个或多个糖基化位点。在一些实施例中,第一或第二序列包含环序列或编码环状结构的序列。环序列可为约3、4、5、6、7、8、9、10或11个氨基酸残基长,并且包含 FDRRSPG(SEQ ID NO :204)或 FD(R / K)YNIT(SEQ ID NO :205)的序列。在其他实施例中,连接第一和第二序列的接头结构域包含这样的环序列。在一些实施例中,杂合或嵌合葡糖苷酶多肽与第一、第二或接头结构域序列每一者所来源的对应葡糖苷酶多肽相比具有改善的稳定性。改善的稳定性为例如改善的蛋白水解稳定性,反映在标准储存条件下的储存期间或标准表达/生产条件下的表达和/或生产期间对蛋白水解裂解改善的稳定性或耐性。例如,杂合/嵌合多肽不易在环序列内的残基处或非环序列内的残基或位置处发生蛋白水解裂解。
[0016]在某些实施例中,本发明提供具有葡糖苷酶活性的分离的、合成的或重组的多肽,其为至少2(例如2、3或甚至4)个β-葡糖苷酶序列的杂合体,其中至少2个β-葡糖苷酶序列的第一序列为至少约200 (例如至少约200、250、300、350或400)个氨基酸残基长并包含与 SEQ ID NO :44、54、56、58、62、64、66、68、70、72、74、76、78 和 79 的任一者的相等长度的序列具有至少约60% (例如至少约65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%)同一性的序列,而至少2个β-葡糖苷酶序列的第二序列为至少约50 (例如至少约50、75、100、125、150或200)个氨基酸残基长并包含与SEQ ID NO :60的相等长度的序列具有至少约60% (例如至少约65%、70%、75%、80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100% )同一性的序列。在可供选择的实施例中,本发明提供编码具有β_葡糖苷酶活性的多肽的分离的、合成的或重组的多肽,其为至少2 (例如2、3或甚至4)个β-葡糖苷酶序列的杂合体,其中至少2个β -葡糖苷酶序列的第一序列为至少约200 (例如至少约200、250、300、350或400)个氨基酸残基长并包含与SEQ ID NO :60的相等长度的序列具有至少约60% (例如至少约65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或100% )同一性的序列的序列,而至少2个β -葡糖苷酶序列的第二序列为至少约50 (例如至少约50、75、100、125、150或200)个氨基酸残基长并包含与SEQ ID NO :44、54、56、58、62、64、66、68、70、72、74、76、78和79的任一者的相等长度的序列具有至少约60% (例如至少约 65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%)同一性的序列的序列。具体地讲,两个或更多个葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO =197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个葡糖苷酶的第二序列为至少50个氨基酸残基长并包含SEQ ID NO` :203ο在一些实施例中,第一序列位于嵌合或杂合β -葡糖苷酶多肽的N端,而第二序列位于其C端。在一些实施例中,第一序列通过其C端残基连接到第二序列的N端残基。例如,第一序列紧邻或直接连接到第二序列。在其他实施例中,第一序列不紧邻第二序列,而是通过接头结构域将第一序列连接到第二序列。第一序列、第二序列或这两个序列可包含I个或多个糖基化位点。在一些实施例中,第一或第二序列包含环序列或编码环状结构的序列。在某些实施例中,环序列衍生自第三葡糖苷酶多肽,并为约 3、4、5、6、7、8、9、10 或 11 个氨基酸残基长,包含 FDRRSPG(SEQ ID NO :204)或 FD(R /K)YNIT(SEQ ID NO :205)的序列。在某些实施例中,连接第一和第二序列的接头结构域包含这样的环序列。
[0017]在一个示例性实施例中,本发明提供衍生自两个或更多个β -葡糖苷酶序列的杂合或嵌合β -葡糖苷酶多肽,其中第一 β -葡糖苷酶序列衍生自Fv3C并为至少约200个氨基酸残基长,而第二葡糖苷酶序列衍生自里氏木霉(T.reeSei)Bgl3(或“Tr3B”)多肽并为至少约50个氨基酸残基长。在一些实施例中,第一序列的C端连接到第二序列的N端。因此,第一序列紧邻或直接连接到第二序列。在其他实施例中,第一序列通过接头结构域序列连接到第二序列。在一些实施例中,第一或第二序列包含环序列。在一些实施例中,环序列衍生自第三葡糖苷酶多肽。在某些实施例中,环序列为约3、4、5、6、7、8、9、10或11个氨基酸残基长,包含 FDRRSPG (SEQ ID NO :204)或 FD(R / K) YNIT (SEQ ID NO :205)的序列。在某些实施例中,连接第一和第二序列的接头结构域序列包含这样的环序列。在某些实施例中,环序列衍生自Te3A多肽。在一些实施例中,杂合或嵌合葡糖苷酶多肽具有相比嵌合部分每一者所来源的对应β -葡糖苷酶多肽,例如相比Fv3C多肽、Te3A多肽和/或Tr3B多肽改善的稳定性。在一些实施例中,改善的稳定性为改善的蛋白水解稳定性,反映在标准储存条件下的储存期间或标准表达/生产条件下的表达和/或生产期间对环序列中的残基处或环序列外的残基或位置处的蛋白水解裂解易感性降低。
[0018]在某些方面,本发明提供编码葡糖苷酶多肽的分离的、合成的或重组的核苷酸,所述多肽在至少约 10(例如至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上或在全长催化结构域(CD)或全长碳水化合物结合模块(CBM)上与SEQ ID NO :44、54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 的任一者具有至少 60% (例如至少约 60%,65%,70%,75%,80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100% )的序列同一性。在一些实施例中,分离的、合成的或重组的核苷酸编码为两个或更多个葡糖苷酶序列的杂合体或嵌合体的葡糖苷酶多肽。在一些实施例中,杂合/嵌合的葡糖苷酶多肽包含至少约200 (例如至少约200、250、300、350、400或500)个氨基酸残基并具有SEQ ID NO :96-108的氨基酸序列基序的一者或多者或全部的第一序列。在一些实施例中,杂合/嵌合的葡糖苷酶多肽包含至少约50 (例如至少约50、75、100、125、150、175或200)个氨基酸残基并包含SEQ ID NO :109-116的氨基酸序列基序的一者或多者或全部的第二葡糖苷酶序列。具体地讲,两个或更多个葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO =197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个葡糖苷酶的第二序列为至少50个氨基酸残基长并包含SEQ ID Ν0:203。在某些实施例中,第一 β -葡糖苷酶序列的C端连接到第二葡糖苷酶序列的N端。或者,第一和第二葡糖苷酶序列通过编码接头结构域的第三核苷酸序列连接。第一、第 二或接头结构域可包含约3、4、5、6、7、8、9、10或11个氨基酸残基并具有 FDRRSPG (SEQ ID NO :204)或 FD(R / K) YNIT (SEQ ID NO :205)的氨基酸序列的环序列。在一些实施例中,环序列衍生自第三葡糖苷酶多肽。
[0019]在某些方面,本发明提供具有编码具有β_葡糖苷酶活性的多肽的分离的、合成的或重组的核苷酸,所述多肽为至少2 (例如2、3或甚至4)个β-葡糖苷酶序列的杂合体,其中至少2个β-葡糖苷酶序列的第一序列为至少约200 (例如至少约200、250、300、350或 400)个氨基酸残基并包含与 SEQ ID NO :44、54、56、58、62、64、66、68、70、72、74、76、78 和79的任一者的相等长度的序列具有至少约60 % (例如至少约65 %、70 %、75 %、80 %、85 %、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或 100% )同一性的序列,而至少2个β -葡糖苷酶序列的第二序列为至少约50 (例如至少约50、75、100、125、150或200)个氨基酸残基并包含与SEQ ID NO :60的相等长度的序列具有至少约60% (例如至少约65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或100%)同一性的序列。或者,本发明提供编码具有β_葡糖苷酶活性的多肽的分离的、合成的或重组的核苷酸,所述多肽为至少2(例如2、3或甚至4)个β-葡糖苷酶序列的杂合体,其中至少2个β-葡糖苷酶序列的第一序列为至少约200 (例如至少约200、250、300、350或400)个氨基酸残基长并包含与SEQ ID NO :60的相等长度的序列具有至少约60% (例如至少约 65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100% )同一性的序列,而至少2个β -葡糖苷酶序列的第二序列为至少约50(例如至少约50、75、100、125、150或200)个氨基酸残基长并包含与SEQ ID NO :44、54、56、58、62、
64、66、68、70、72、74、76、78和79的任一者的相等长度的序列具有至少约60% (例如至少约 65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%)同一性的序列的序列。具体地讲,两个或更多个β_葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO =197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个葡糖苷酶的第二序列为至少50个氨基酸残基长并包含SEQ ID Ν0:203。在一些实施例中,核苷酸编码位于嵌合或杂合β -葡糖苷酶多肽的N端的第一氨基酸序列和位于该多肽的C端的第二氨基酸序列。在一些实施例中,第一氨基酸序列的C端残基连接到第二氨基酸序列的N端残基。或者,第一氨基酸序列不紧邻第二氨基酸序列,而是通过接头结构域将第一序列连接到第二序列。在一些实施例中,第一氨基酸序列、第二氨基酸序列或接头结构域包含含有环序列或代表环状结构的序列的氨基酸序列,所述环序列或代表环状结构的序列为约3、4、5、6、7、8、9、10或11个氨基酸残基长,具有 FDRRSPG (SEQ ID NO :204)或 FD (R/K) YNIT (SEQ ID NO :205)的氨基酸序列。在某些实施例中,环序列衍生自第三葡糖苷酶多肽。
[0020]在一些方面,本发明提供与SEQID NO :53、55、57、59、61、63、65、67、69、71、73、75、77,92或94的任一者或与其至少约300 (例如至少约300、400、500或600)个残基长的片段具有至少 60% (例如至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100% )序列同一性的分离的、合成的或重组的核苷酸。在某些实施例中,提供了在低严格性、中等严格性、高严格性或极高严格性条件下能够杂交至Ij SEQ ID NO :53、55、57、59、61、63、65、67、69、71、73、75、77、92 或 94 的任一者或杂交到其至少约300个残基长的片段或`杂交到其互补序列的分离的、合成的或重组的核苷酸。
[0021]在某些实施例中,本发明提供在全长催化结构域(CD)或碳水化合物结合模块(CBM)上与 SEQ ID NO :44、54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 的任一者具有至少约 60% (例如至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100% )同一性的分离的、合成的或重组的多肽。该分离的、合成的或重组的多肽可具有β -葡糖苷酶活性。
[0022]在一些方面,本发明提供在至少约10(例如至少约10、15、20、25、30、35、40、45、
50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区
域上或在全长催化结构域(⑶)或碳水化合物结合结构域(CBM)上与SEQ ID NO :52、80-81、206-207 的任一者具有至少约 60% (例如至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或 100% )序列同一性的分离的、合成的或重组的多肽。在某些实施例中,该分离的、合成的或重组的多肽具有GH61 /内切葡聚糖酶活性。所谓“GH61 /内切葡聚糖酶活性”是指多肽具有糖基水解酶家族61酶活性和/或具有内切葡聚糖酶活性。在一些实施例中,本发明提供至少约50(例如至少约50、100、150、200、250或300)个氨基酸残基长,包含选自以下的序列基序的一者或多者的分离的、合成的或重组的多肽:(I) SEQ ID NO :84和 88 ;(2)SEQ ID NO :85和 88 ; (3) SEQ ID NO :86 ;(4)SEQ ID NO :87 ; (5) SEQ ID NO :84、88 和 89 ; (6) SEQ ID NO :85、88 和 89 ; (7) SEQ ID NO:
84、88和 90 ; (8)SEQ ID NO :85、88 和 90 ; (9) SEQID NO :84、88 和 91 ; (10) SEQ ID NO :85、88和 91; (11) SEQ ID NO :84、88、89 和 91 ; (12)SEQ ID NO :84、88、90 和 91 ; (13) SEQ ID NO:
85、88、89和91:以及(14) SEQ ID NO :85、88、90和91。在某些实施例中,该多肽为GH61内切葡聚糖酶多肽(例如得自微生物或另一合适来源的EGIV多肽,包括但不限于里氏木霉Eg4酶)。在一些实施例中,GH61内切葡聚糖酶多肽为衍生自里氏木霉Eg4的变体、突变或融合多肽(例如与SEQ ID NO :52具有至少约60%、65%、70%、75%、80%、85%、90%、91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的多肽)。
[0023]在一些方面,本发明提供编码如下多肽的分离的、合成的或重组的核苷酸,所述多肽在至少约 10(例如至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上或在全长催化结构域(CD)或碳水化合物结合结构域(CBM)上与SEQ ID NO :52、80-81和206-207的任一者具有至少约60% (例如至少约 60%,65%,70%,75%,80%,85%,90%,91%,92%,93%,94%,95%,
序列同一性。例如,该分离的、合成的或重组的核苷酸编码具有GH61 /内切葡聚糖酶活性的多肽。在一些实施例中,本发明提供编码如下多肽的分离的、合成的或重组的核苷酸,所述多肽具有至少约50(例如至少约50、100、150、200、250或300)个氨基酸残基长,包含选自以下的序列基序的一者或多者:(I)SEQ ID N0:84和88;
(2)SEQ ID NO :85 和 88 ; (3)SEQ ID NO :86; (4) SEQ ID NO :87; (5) SEQ ID N0:84、88 和 89;
(6)SEQ ID NO :85、88 和 89 ; (7)SEQ ID NO :84、88 和 90 ; (8) SEQ IDNO :85、88 和 90 ; (9) SEQID NO :84、88 和 91 ;(10)SEQ ID NO :85、88 和 91 ; (11) SEQ ID NO :84、88、89 和 91 ; (12) SEQID NO :84、88、90 和 91 ;(13)SEQ ID NO :85、88、89 和 91 :以及(14) SEQ ID N0:85、88、90 和91。例如,该核苷酸为编码与SEQ ID NO :52具有至少约60%、65%、70%、75%、80%、85%、90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的多肽的核苷酸。在一些实施例中,该核苷酸编码GH61内切葡聚糖酶多肽(例如来自合适生物体的EGIV多肽,例如但不限于里氏木霉Eg4)。
[0024]在一些方面,本发明提供在至少约10例如至少约15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300、325 或 350 个残基的区域上或在全长未成熟多肽、成熟多肽、催化结构域(CD)或碳水化合物结合结构域(CBM)上与SEQ ID NO :2、4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、43和45的任一者的多肽具有至少约70%例如至少约71%、72%、73%、74%、75%、76%、77%、78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 %,92%,93%、94%、95%、96%、97%、98%或99%或完全(100%)序列同一性的分离的、合成的或重组的多肽。
[0025]在一些方面,本发明提供编码如下多肽的分离的、合成的或重组的核苷酸,所述多肽在至少约 10 例如至少约 15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300、325或350个残基的区域上或在全长未成熟多肽、成熟多肽、催化结构域(CD)或碳水化合物结合结构域(CBM)上与SEQ IDNO :2、4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、43 和 45 的任一者的多肽具有至少约 70% (例如至少约 71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%,83%,84%,85%,86%,87%,88%,89%,90%,91 %,92%,93%,94%,95%,96%,97%、98%或99%或完全(100%))的序列同一性。在一些方面,本发明提供与SEQ IDNO :1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、和 41 的任一者或与其片段具有至少约 70% (例如至少约 71%、72%、73%、74%、75%、76%、77%、78%、79%、80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 %,92%,93%,94%,95%、96%、97%、98%或99%或完全(100%))序列同一性的分离的、合成的或重组的核苷酸。该片段可为至少约10、20、30、40、50、60、70、80、90、100个残基长。在一些实施例中,本发明提供在低严格性条件、中等严格性条件、高严格性条件或极高严格性条件下杂交到SEQID NO :1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39 和 41 任一者或杂交到其片段或子序列的分离的、合成的或重组的核苷酸。
[0026]本发明的多肽序列还包括由本发明的核酸编码的序列,例如在下文的第5. I.节中所述的那些。
[0027]本发明还提供包含多肽的至少一个结构域(例如⑶、CBM或两者)的嵌合或融合蛋白。所述至少一个结构域可操作地连接到第二氨基酸序列,例如信号肽序列。因此,本发明提供由表达如下核苷酸序列产生的第一类型的嵌合或融合酶,所述核苷酸序列包含本发明的多肽的信号序列,所述信号序列可操作地连接到第二核苷酸序列,所述第二核苷酸序列编码第二、不同的多肽,例如不与信号序列天然相关的异源多肽。本发明例如提供重组多肽,所述重组多肽包含例如SEQ ID NO :2、4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、
34、36、38、40、42、43、45、52、54、56、58、60、62、64、66、68、70、72、74、76、78-83、93 或 95 的第I至13位、第I至14位、第I至15位、第I至16位、第I至17位、第I至18位、第I至19位、第I至20位、第I至21位、第I至22位、第I至23位、第I至24位、第I至25位、第I至26位、第I至27位、第I至28位、第I至28位、第I至30位、第I至31位、第I至32位、第I至33位、第I至34位、第I至35位、第I至36位、第I至37位、第I至38位或第I至40位残基,以及不与其天然相关的多肽。另外的嵌合或融合多肽在下文的第5. I. I.节中描述。
[0028]本发明提供第二类型的嵌合或融合酶,其包含第一多肽序列的氨基酸残基的第一连续段,所述第一连续段可操作地连接到第二多肽序列的氨基酸残基的第二连续段。第一和/或第二连续段可任选地包含信号肽。因此,这种类型的嵌合或融合酶通过表达如下多核苷酸而获得,所述多核苷酸包含编码第一多肽序列的氨基酸残基的第一连续段的第一基因,以及编码第二多肽序列的氨基酸残基的第二连续段的第二基因,其中第一基因和第二基因直接地并且可操作地连接。在某些其他实施例中,嵌合或融合策略可用于可操作地连接得自不同酶的氨基酸残基的2个或更多个连续段,其中连续段不天然地或本来地连接或相关。在某些实施例中,可操作地连接的氨基酸残基的连续段可得自具有相似酶活性但彼此异源和/或与宿主细胞异源的酶。在又一个实施例中,可操作地连接的2个或更多个氨基酸残基连续段可进一步连接到合适的信号肽,如本文所述。在另一个实施例中,氨基酸残基的第一连续段和氨基酸残基的第二连续段通过接头结构域连接。在一些实施例中,氨基酸残基的第一连续段、氨基酸残基的第二连续段或接头序列可包含环序列,其为例如约3、4、5、6、7、8、9、10 或 11 个氨基酸残基长并具有 FDRRSPG(SEQ ID NO :204)或 FD(R / K)YNIT (SEQ ID NO :205)的氨基酸序列。在某些实施例中,环序列衍生自与第一和第二氨基酸残基连续段所来源的酶不同的酶。在一些实施例中,所得的嵌合或融合酶与获得嵌合部分所用的酶对应物的每一者相比具有改善的稳定性,例如反映在标准储存条件下的储存期间或标准表达或生产条件下的表达/生产期间对蛋白酶解或蛋白水解降解的稳定性。
[0029]对于本发明,嵌合或融合酶由嵌合序列所来源的原始酶之一的酶活性限定。例如,如果嵌合序列之一来源于葡糖苷酶或为葡糖苷酶的变体,则不论同一多肽的其他嵌合序列来源于何种酶,杂合/嵌合酶都称为β-葡糖苷酶多肽。出于本发明的目的,“X多肽”涵盖具有X酶活性的变体、突变体或嵌合/融合X多肽。
[0030]本发明因此提供多肽和/或编码具有半纤维素分解活性或纤维素分解活性的多肽的核苷酸或核酸。半纤维素分解活性包括但不限于木聚糖酶、β-木糖苷酶和/或L- α -阿拉伯呋喃糖酶活性。具有半纤维素分解活性的多肽包括但不限于木聚糖酶、β -木糖苷酶和/或L- α -阿拉伯呋喃糖酶。具有纤维素酶活性的多肽包括但不限于β -葡糖苷酶活性或富含β-葡糖苷酶的全纤维素酶活性,以及GH61 /内切葡聚糖酶活性或富含内切葡聚糖酶的纤维素酶活性。
[0031]本发明还提供包含本发明的核酸或其子序列的表达盒。例如,该核酸在至少约10个残基例如至少约 10、20、30、40、50、75、90、100、150、200、250、300、350、400 或 500 个残基的区域上与 SEQ ID NO :53、55、57、59、61、63、65、69、71、73、75、77、92、94 的核酸序列具有至少约 60%例如至少约 61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%,73%,74%,75%,76%,77%,78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98% 或 99% 的序列同一性。在一些方面,该核酸编码葡糖苷酶多肽,其可以例如为衍生自两种或更多种葡糖苷酶多肽的嵌合/融合多肽并包含两个或更多个β -葡糖苷酶序列,其中第一序列为至少约200个氨基酸残基长并包含 SEQ ID NO :96-108的一者或多者或全部,而第二序列为至少约50个氨基酸残基长,并包含SEQ ID NO :109-116的一者或多者或全部,以及还任选的第三序列为约3、4、5、6、7、8、9、10或11个氨基酸残基长并具有FDRRSPG(SEQ ID NO :204)或FD(R / K) YNIT(SEQ ID NO :205)的氨基酸序列,所述第三序列衍生自不同于第一或第二β-葡糖苷酶多肽的第三葡糖苷酶多肽。具体地讲,两个或更多个葡糖苷酶序列的第一序列为至少约20)0个氨基酸残基长并包含SEQ ID NO =197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个葡糖苷酶的第二序列为至少50个氨基酸残基长并包含SEQ ID Ν0:203,以及还任选的第三序列为约3、4、5、6、
7、8、9、10 或 11 个氨基酸残基长并具有 FDRRSPG (SEQ ID NO :204)或 FD (R/K) YNIT (SEQ IDNO :205)的氨基酸序列,所述第三序列衍生自不同于第一或第二葡糖苷酶多肽的第三β-葡糖苷酶多肽。
[0032]在一些方面,本发明提供包含编码如下多肽的核酸的表达盒,所述多肽与SEQ IDNO :52,80-81,206-207 的任一者具有至少约 60% (例如至少约 60 %、65 %、70 %、75 %、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或 99% )的序列同一性,或具有选自以下的序列基序的任一者:(I) SEQ ID NO :84和88 ; (2) SEQ ID NO :85和88 ; (3)SEQ ID NO :86 ; (4) SEQ ID NO :87 ; (5) SEQ ID NO :84、88 和 89 ; (6) SEQ IDNO :85、88 和 89 ;(7)SEQ ID NO :84,88 和 90 ; (8)SEQ ID NO :85,88 和 90 ; (9)SEQ ID NO :84,88 和 91 ; (10)SEQ ID NO :85、88 和 91 ;(11)SEQ ID NO :84、88、89 和 91 ; (12) SEQ ID NO :84、88、90 和 91 ;
(13)SEQ ID NO :85、88、89 和 91 :以及(14) SEQ ID NO :85、88、90 和 91。
[0033]在一些方面,本发明提供包含编码如下多肽的核酸的表达盒,所述多肽在至少约10 个残基例如至少约 10、20、30、40、50、75、90、100、150、200、250、300、350、400 或 500 个残基的区域上与 SEQ ID NO :2、4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、
40、42、43和45的任一者具有至少约70% (例如至少约70%、75%、80%、85%、90%、91 %、92%、93%、94%、95%、96%、97%、98%或99% )的序列同一性。在一些方面,本发明提供包含如下核酸的表达盒,所述核酸在低严格性条件、中等严格性条件或高严格性条件下杂交到 SEQ ID NO :1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39 和 41 的任一者或杂交到其片段或子序列,其中所述片段或子序列为至少约例如10、20、30、40、50、75、100、125、150、200、250 个残基长。
[0034]在一些方面,表达盒的核酸任选地可操作地连接到启动子。启动子可以是例如真菌、病毒、细菌、哺乳动物或植物启动子。启动子可以是可在例如丝状真菌中表达的组成型启动子或诱导型启动子。合适的启动子可衍生自丝状真菌。例如,启动子可以是得自里氏木霉的纤维二糖水解酶1( “cbhl”)基因启动子。
[0035]在一些方面,本发明提供重组细胞或本发明的表达盒,该重组细胞经工程改造而表达核酸。重组细胞有利地为是细菌细胞、哺乳动物细胞、真菌细胞、酵母细胞、昆虫细胞或植物细胞。例如,重组细胞为重组丝状真菌细胞,例如木霉属(Trichoderma)、腐质霉属(Humicola)、键刀菌属(Fusarium)、曲霉属(Aspergillus)、脉抱菌属(Neurospora)、青霉属(Penicillium)、头孢霉属(Cephalosporium)、绵霉属(Achlya)、柄孢壳菌属(Podospora)、内座壳属(Endo thia)、毛霉属(Mucor)、旋孢腔菌属(Cochliobolus)、梨孢属(Pyricularia)或金孢子菌属(Chrysosporium)细胞。
[0036]本发明还提供产生重组多肽的方法,该方法包括:(a)培养经工程改造以表达本发明多肽的宿主细胞;以及(b)回收多肽。多肽的回收包括例如回收包含多肽的发酵液。发酵液可通过最少的生产后加工(例如纯化、超滤、细胞杀灭步骤等)而使用,并且在此情况下称为将发酵液以全发酵液制剂使用。或者,多肽可使用进一步的纯化步骤回收。
[0037]在另一方面,本发明涉及某些包含2种或更多种、3种或更多种、4种或更多种、或5种或更多种本发明多肽(包括合适的变体、突变体或融合/嵌合多肽)的工程改造的酶组合物,其中该酶组合物可水解木质纤维素生物质材料的一种或多种组分。此类组分包括例如半纤维素以及任选地纤维素。合适的木质纤维素生物质材料包括但不限于种子、谷物、块茎、食品加工或工业加工的植物废料或副产物(例如茎杆)、玉米(包括例如玉米芯、稻杆等)、草(例如印度草,如黄假高粱(Sorghastrum nutans);或柳枝稷草,例如稷属(Panicum),如柳枝稷(Panicum virgatum))、多年生藤条(例如芦竹)、木材(包括例如木屑、加工废料)、纸、纸浆、回收纸(例如报纸)。酶共混物/组合物可用于水解在植物间存在差异的复杂结构的含β_1,4-连接葡萄糖部分的直链的纤维素,或半纤维素。
[0038]本发明的工程改造的酶组合物可包含许多不同的具有例如半纤维素酶活性或纤维素酶活性的多肽。半纤维素酶活性可以为木聚糖酶活性、阿拉伯呋喃糖酶活性或木糖苷酶活性。纤维素酶活性可以为葡糖苷酶活性、纤维二糖水解酶活性或内切葡聚糖酶活性。本发明的酶组合物的多肽可以是具有半纤维素酶活性和/或纤维素酶活性的一者或多者的多肽。例如,酶组合物的多肽可具有β_木糖苷酶活性和L-α-阿拉伯呋喃糖酶活性两者。另外,给定酶组合物的两种或更多种多肽可具有相同或相似的酶活性。例如,组合物中不止一种多肽可独立地具有内切葡聚糖酶、木糖苷酶或葡糖苷酶活性。
[0039]本发明的合适多肽可从天然存在的来源中分离。例如,一种或多种多肽可从天然存在的来源中纯化或基本上纯化。在另一个例子中,一种或多种多肽可通过工程改造的生物体,例如通过重组的细菌或真菌,以重组方式产生。一种或多种多肽可通过重组生物体过表达。一种或多种多肽可进行表达或与一种或多种异源(即,不天然存在于相同生物体中)多肽共表达。编码本发明的一种或多种多肽的基因可以整合到重组宿主生物体(例如宿主真菌细胞或宿主细菌细胞)的遗传物质中,然后可用于产生基因产物。
[0040]本发明的酶组合物可以是天然存在的或工程改造的组合物。术语“天然存在的酶组合物”是指在自然界中存在的组合物,例如直接来源于在其原生环境条件下生长的未修饰生物体的组合物。术语“工程改造的组合物”是指这样一种组合物,其中至少一种酶(I)以重组方式产生;(2)由生物体经异源基因的表达而产生;和/或(3)含量或相对重量百分比要比包含相同或相似类型酶的天然存在的酶组合物中的含量更高或更低。“重组产生的”酶是通过重组手段产生的酶。重组产生的酶可存在于混合物中,其中该重组产生的酶在非天然共存的其他酶的混合物之中。此外,工程改造的组合物还可以是由在不同于存在于其原生栖息地的条件下生长的存在于自然界中的生物体(即,未修饰的生物体)产生的组合物。
[0041]本发明的多肽、其混合物和/或工程改造的酶组合物可用于水解其他生物质材料或其他合适的原料。酶组合物有利地包含本发明的2种或更多种、3种或更多种、4种或更多种或甚至5种或更多种多肽的混合物,所述多肽选自木聚糖酶、木糖苷酶、纤维二糖水解酶、内切葡聚糖酶、葡糖苷酶以及任选的阿拉伯呋喃糖酶和/或可催化或有助于半纤维素材料消化或转化成可发酵糖的其他酶。合适的葡糖苷酶包括例如许多葡糖苷酶,包括但不限于在至少约 10(例如至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、
85、90、95、100、125、150`、175、200、225、250、275、300)个残基的区域上与SEQ ID NO :54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 的任一者具有至少约 60% (例如至少约60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98% 或99%)同一性的那些。合适的葡糖苷酶还包括例如包含两个或更多个葡糖苷酶序列的嵌合/融合β -葡糖苷酶多肽,其中衍生自第一 β -葡糖苷酶的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO :96-108的氨基酸序列基序的一者或多者或全部,而衍生自第二 β-葡糖苷酶的第二序列为至少约50个氨基酸残基长并包含SEQ ID NO =109-116的氨基酸序列基序的一者或多者或全部,以及还任选的第三序列为3、4、5、6、7、8、9、10或11个氨基酸残基长并编码衍生自第三β -葡糖苷酶的环序列,所述第三β -葡糖苷酶具有FDRRSPG (SEQ ID NO :204)或 FD(R / K) YNIT (SEQ ID NO :205)的氨基酸序列。具体地讲,两个或更多个葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ IDNO =197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个葡糖苷酶的第二序列为至少50个氨基酸残基长并包含SEQ ID Ν0:203,以及还任选的第三序列为约3、4、5、6、7、8、9、10或11个氨基酸残基长并具有FDRRSPG(SEQ ID NO:204)或FD(R / K) YNIT(SEQ ID NO :205)的氨基酸序列,所述第三序列衍生自不同于第一
或第二葡糖苷酶多肽的第三葡糖苷酶多肽。
[0042]合适的内切葡聚糖酶包括例如一种或多种GH61内切葡聚糖酶,包括但不限于在至少约 10 (例如至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与 SEQ ID NO :52、80_81、206-207 的任一者具有至少约 60% (例如至少约 60%,65%,70%,75%,80%,85%,90%,91%、92%、93%、94%、95%、96%、97%、98%或99% )序列同一性的那些。合适的内切葡聚糖酶还可包括含有选自以下的一个或多个序列基序的多肽:(1)SEQ ID勵:84和88;(2)SEQ ID NO :85 和 88 ; (3)SEQ ID NO :86; (4) SEQ ID NO :87; (5) SEQ ID NO :84、88 和 89 ; (6)SEQ ID NO :85、88 和 89 ; (7)SEQ ID NO :84、88 和 90 ; (8) SEQ IDNO :85、88 和 90 ; (9) SEQ IDNO :84、88 和 91 ;(10)SEQ ID NO :85、88 和 91 ; (11) SEQ ID NO :84、88、89 和 91 ; (12) SEQ IDNO :84、88、90 和 91 ; (13)SEQ ID NO :85、88、89 和 91 :以及(14) SEQ ID NO :85、88、90 和 91。
[0043]可消化半纤维素成可发酵糖的其他酶包括但不限于纤维素酶、半纤维素酶或者包含纤维素酶或半纤维素酶的组合物。其他合适的多肽也可存在,包括例如纤维二糖脱氢酶。本发明的工程改造的酶组合物可包含2种或更多种、3种或更多种、4种或更多种、或甚至5种或更多种本发明多肽的混合物,所述多肽选自木聚糖酶、木糖苷酶、阿拉伯呋喃糖酶以及一组纤维素酶。工程改造的酶组合物可任选地还包含一种或多种纤维二糖脱氢酶。全纤维素酶组合物可以是富含葡糖苷酶多肽的组合物、或富含内切葡聚糖酶多肽的组合物、或富含葡糖苷酶多肽和内切葡聚糖酶多肽两者的组合物。在一些实施例中,内切葡聚糖酶多肽可以是为GH61家族成员的多肽,例如在至少约10 (例如至少约10、15、20、25、30、
35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与SEQ ID NO :52、80-81、206-207的任一者具有至少约60% (例如至少约60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98% 或99%)序列同一性的多肽。内切葡聚糖酶多肽可以是包含选自以下的一个或多个序列基序的多肽:(I)SEQ ID NO : `84 和 88 ; (2) SEQ ID NO :85 和 88 ; (3)SEQ ID NO :86 ; (4) SEQ ID NO:87; (5) SEQ ID NO :84、88 和 89 ; (6) SEQ ID NO :85、88 和 89 ; (7) SEQ ID NO :84、88 和 90 ;
(8)SEQ ID NO :85、88 和 90 ;(9)SEQ ID NO :84、88 和 91 ; (10) SEQ ID NO :85、88 和 91 ; (11)SEQ ID NO :84、88、89 和 91 ; (12)SEQ ID NO :84、88、90 和 91 ; (13)SEQ ID NO :85、88、89 和91 :以及(14) SEQ ID NO :85、88、90和91。例如,内切葡聚糖酶多肽可以是来自合适生物体的EGIV,诸如里氏木霉Eg4。在一些实施例中,β-葡糖苷酶多肽可以是在至少约10(例如至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275 或 300)个残基的区域上与 SEQ ID NO :54、56、58、60、62、64、66、68、70、72、74、76、78、79、93和95的任一者具有至少约60% (例如至少约60% ,65% ,70% ,75%,80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或 99% )同一性的多肽。
[0044]本发明的工程改造的酶组合物的第一非限制性例子包含4种多肽:(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,(3)具有阿拉伯呋喃糖酶活性的第三多肽,以及(4)具有葡糖苷酶活性的第四多肽。在某些实施例中,具有葡糖苷酶活性的第四多肽在至少约10(例如至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与 SEQ IDNO :54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 的任一者具有至少约 60%(例如至少约 60%,65%,70%,75%,80%,85%,90%,91%,92%,93%,94%,95%,96%,97%、98(%或99(%)序列同一性。在某些实施例中,具有β_葡糖苷酶的第四多肽为包含两个或更多个β_葡糖苷酶序列的嵌合/融合多肽,其中衍生自第一葡糖苷酶的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO :96-108的序列基序的一者或多者或全部,而衍生自第二葡糖苷酶的第二序列为至少约50个氨基酸残基长并包含SEQ IDNO =109-116的序列基序的一者或多者或全部,以及任选3、4、5、6、7、8、9、10或11个氨基酸残基长的第三序列编码衍生自第三葡糖苷酶的环序列,所述第三葡糖苷酶具有FDRRSPG (SEQ ID NO :204)或 FD (R/K) YNIT (SEQ ID NO :205)的氨基酸序列。具体地讲,两个或更多个β-葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO:197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个β -葡糖苷酶的第二序列为至少约50个氨基酸残基长并包含SEQ IDNO :203,以及还任选的第三序列为约3、4、5、6、7、8、9、10或11个氨基酸残基长并具有FDRRSPG(SEQ ID NO:204)或FD (R/K) YNIT (SEQ ID NO :205)的氨基酸序列,所述第三序列衍生自不同于第一或第二葡糖苷酶多肽的第三葡糖苷酶多肽。例如,具有葡糖苷酶活性的第四多肽包含与Fv3C(SEQ ID NO :60)的至少200个残基段(例如从SEQ ID N0:60的N端或靠近N端的氨基酸位置起的至少200个残基段)具有至少约60%的序列同一性的第一序列,以及与里氏木霉Bgl3(Tr3B,SEQ ID NO :64)的至少50个残基段(例如从SEQ ID NO :64的C端或靠近C端的氨基酸位置起的至少50个残基段)具有至少约60%的序列同一性的第二序列。第四多肽还可以包含约3、4、5、6、7、8、9、10或11个氨基酸残基的第三序列,其衍生自Te3A(SEQ ID NO :66)的相等长度的序列,或包含FDRRSPG (SEQ ID NO :204)或FD(R/K)YNIT(SEQ ID NO :205)的氨基酸序列。在一些实施例中,第四多肽包含与SEQ ID NO :93或95或与SEQ ID NO :93或95的至少约20、30、40、50、60、70个或更多个残基的子序列或片段具有至少约60%序列同一性的序列。
[0045]在一些实施例中,工程改造的酶组合物还包含具有GH61 /内切葡聚糖酶活性的第五多肽或者富含GH61内切葡聚糖酶的全纤维素酶。例如,具有GH61 /内切葡聚糖酶活性的多肽为EGIV多肽,例如里氏木霉Eg4。富含GH61内切葡聚糖酶的全纤维素酶为富含EGIV多肽(例如里氏木霉Eg4)的全纤维素酶。在一些实施例中,第五多肽在至少约10(例如至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与 SEQ ID NO :52、80-81、206_207 的任一者具有至少约 60% (例如至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99% )的序列同一性,或包含选自以下的一个或多个序列基序:(I)SEQ ID NO :84和 88 ; (2) SEQ ID NO :85 和 88 ; (3) SEQ ID NO :86 ; (4) SEQ ID NO :87 ; (5)SEQ ID NO :84,88 和 89 ; (6) SEQ ID NO :85、88 和 89 ; (7) SEQ ID NO :84、88 和 90 ; (8) SEQIDNO :85,88 和 90 ; (9) SEQ ID NO :84、88 和 91 ; (10) SEQ ID NO :85、88 和 91 ;(儿)SEQ IDNO :84、88、89 和 91 ;(12)SEQ ID NO :84、88、90 和 91 ; (13) SEQ ID NO :85、88、89 和 91 ;以及
(14)SEQ ID NO :85、88、90和91。在一些实施例中,酶组合物还包含纤维二糖脱氢酶。
[0046]在一些实施例中,具有木聚糖酶活性的第一多肽与SEQ ID NO :24、26、42和43的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第一多肽为AfuXyn2、AfuXyn5、里氏木霉Xyn3或里氏木霉Xyn2。
[0047]在一些实施例中,具有木糖苷酶活性的第二多肽选自第I组或第2组木糖苷酶多肽。第I组β -木糖苷酶多肽与SEQ ID NO :2和10的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第I组β-木糖苷酶可以为Fv3A或Fv43A。第2组β-木糖苷酶多肽与SEQ ID Ν0:4、6、8、10、12、14、16、18、28、30和45的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第2组β -木糖苷酶可以为Pf43A、Fv43E、Fv39A、Fv43B、Pa51A、Gz43A、Fo43A、Fv43D、Pf43B 或里氏木霉 BxlI。
[0048]在一些实施例中,具有阿拉伯呋喃糖酶活性的第三多肽与SEQ ID NO :12,14,20,22和32的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第三多肽可以为Fv43B、Pa51A、Af43A、Pf51A 或 Fv51A。
[0049]第一、第二、第三、第四或第五多肽可以从天然存在的来源中分离或纯化。或者,其可以通过重组宿主细胞表达或过表达。其可以分离的或纯化的形式加入酶组合物中。其可以通过作为培养混合物例如发酵液的一部分的宿主生物体或宿主细胞表达或过表达。在一些实施例中,编码这种多肽的基因可以整合到宿主生物体的遗传物质中,其允许由该生物体表达编码的多肽。
[0050]本发明的工程改造的酶组合物的第二非限制性例子包含:(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,(3)具有阿拉伯呋喃糖酶活性的第三多肽,以及(4)富含葡糖苷酶的全纤维素酶组合物。在某些实施例中,富含葡糖苷酶的全纤维素酶组合物富含在至少约10 (例如至少约10、15、20、25、30、35、40、45、50、55、60、
65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与 SEQID NO :54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 的任一者具有至少约 60%(例如至少约 60%,65%,70%,75%,80%,85%,90%,91%,92%,93%,94%,95%,96%,97198%或99%)序列同一性的β-葡糖苷酶多肽。在某些实施例中,富含葡糖苷酶的全纤维素酶组合物富含包含2 个或更多个β-葡糖苷酶序列的嵌合/融合β-葡糖苷酶多肽,其中衍生自第一 β -葡糖苷酶的第一序列为至少约200个氨基酸残基长并包含SEQID NO :96-108的序列基序的一者或多者或全部,而衍生自第二 β-葡糖苷酶的第二序列为至少约50个氨基酸残基长并包含SEQ ID NO :109-116的序列基序的一者或多者或全部,以及还任选的第三序列为3、4、5、6、7、8、9、10或11个氨基酸残基长并编码衍生自第三β -葡糖苷酶的环序列,所述第三序列具有FDRRSPG(SEQ ID NO :204)或FD(R / K) YNIT(SEQ IDNO :205)的氨基酸序列。具体地讲,两个或更多个葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO =197-202的氨基酸序列基序的至少2个(例如至少
2、3、4个或全部)的序列,而两个或更多个葡糖苷酶的第二序列为至少约50个氨基酸残基长并包含SEQ ID Ν0:203,以及还任选的第三序列为约3、4、5、6、7、8、9、10或11个氨基酸残基长并具有 FDRRSPG (SEQ ID NO :204)或 FD(R / K) YNIT (SEQ ID NO :205)的氨基酸序列,所述第三序列衍生自不同于第一或第二 β-葡糖苷酶多肽的第三β-葡糖苷酶多肽。例如,富含葡糖苷酶的全纤维素酶组合物富含如下葡糖苷酶多肽,所述葡糖苷酶多肽包含与Fv3C(SEQ ID NO :60)的至少200个残基段(例如从SEQ ID N0:60的N端或从靠近N端的残基起的至少200个残基段)具有至少约60%的序列同一性的第一序列,以及与里氏木霉Bgl3(Tr3B,SEQ ID NO :64)的至少50个残基段(例如从SEQ ID NO :64的C端或从靠近C端的残基起的至少50个残基段)具有至少约60%的序列同一性的第二序列。富含葡糖苷酶的全纤维素酶组合物富含还包含约3、4、5、6、7、8、9、10或11个氨基酸残基的第三序列的β-葡糖苷酶多肽,所述第三序列衍生自Te3A(SEQ ID NO :66)的相等长度的序列,或具有 FDRRSPG (SEQ ID NO :204)或 FD(R / K) YNIT (SEQ ID NO :205)的氨基酸序列。在一些实施例中,第四多肽包含与SEQ ID NO :93或95或与SEQ ID NO :93或95的至少约20、30、40、50、60、70个或更多个残基的子序列或片段具有至少约60%序列同一性的序列。
[0051]在一些实施例中,工程改造的酶组合物还包含具有GH61 /内切葡聚糖酶活性的第四多肽或者富含GH61内切葡聚糖酶的全纤维素酶。例如,具有GH61 /内切葡聚糖酶活性的多肽为EGIV多肽,例如里氏木霉Eg4多肽。在一些实施例中,富含GH61内切葡聚糖酶的全纤维素酶为富含EGIV多肽(例如里氏木霉Eg4多肽)的全纤维素酶。
[0052]在一些实施例中,第四多肽为在至少约10 (例如至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与SEQ ID NO :52、80-81、206-207的任一者具有至少约60% (例如至少约60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98% 或 99% )同一性的多肽,或包含选自以下的一个或多个序列基序=(I)SEQ ID NO :84和88 ;(2)SEQ IDNO :85 和 88 ; (3) SEQ IDNO :86 ; (4) SEQ ID NO :87 ; (5) SEQ ID NO :84、88 和 89 ; (6) SEQ IDNO :85、88 和 89 ;(7)SEQ ID NO :84、88 和 90 ; (8) SEQ ID NO :85、88 和 90 ; (9) SEQ ID NO:84、88 和 91 ; (IO)SEQ ID NO :85、88 和 91 ; (11)SEQIDN0 :84、88、89 和 91 ; (12)SEQ ID NO:
84、88、90 和 91 ; (13) SEQ ID NO :85、88、89 和 91 :以及(14) SEQ ID NO :85、88、90 和 91。在一些实施例中,酶组合物还包含纤维二糖脱氢酶。
[0053]在一些实施例中,具有木聚糖酶活性的第一多肽与SEQ ID NO :24、26、42和43的任一者或与其成熟序列具有至少约70%`的序列同一性。例如,第一多肽为AfuXyn2、AfuXyn5、里氏木霉Xyn3或里氏木霉Xyn2。
[0054]在一些实施例中,具有木糖苷酶活性的第二多肽选自第I组或第2组木糖苷酶多肽。第I组β -木糖苷酶多肽与SEQ ID NO :2和10的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第I组β-木糖苷酶为Fv3A或Fv43A。第2组β -木糖苷酶多肽与SEQ ID NO :4、6、8、10、12、14、16、18、28、30和45的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第2组β -木糖苷酶可以为Pf43A、Fv43E、Fv39A、Fv43B、Pa51A、Gz43A、Fo43A、Fv43D、Pf43B 或里氏木霉 Bxl I。
[0055]在一些实施例中,具有阿拉伯呋喃糖酶活性的第三多肽与SEQ ID NO :12,14,20,22和32的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第三多肽可以为Fv43B、Pa51A、Af43A、Pf51A 或 Fv51A。
[0056]第一、第二、第三或第四多肽可以从天然存在的来源中分离或纯化。或者,其可以通过重组宿主细胞表达或过表达。其可以分离的或纯化的形式加入酶组合物中。其可以通过作为培养混合物例如发酵液的一部分的宿主生物体或宿主细胞表达或过表达。在一些实施例中,编码这种多肽的基因可以整合到宿主生物体的遗传物质中,其允许由该生物体表达编码的多肽。
[0057]本发明的工程改造的酶组合物的第三非限制性例子包含:(I)具有木聚糖酶活性的第一多肽;(2)具有木糖苷酶活性的第二多肽;(3)具有阿拉伯呋喃糖酶活性的第三多肽;以及(4)具有GH61 /内切葡聚糖酶活性的第四多肽或富含GH61内切葡聚糖酶的全纤维素酶。在一些实施例中,具有GH61 /内切葡聚糖酶活性的第四多肽为EGIV多肽。在一些实施例中,具有GH61 /内切葡聚糖酶活性的多肽为来自合适微生物的EGIV多肽,例如里氏木霉Eg4多肽。在一些实施例中,富含GH61内切葡聚糖酶的全纤维素酶为富含EGIV多肽(例如里氏木霉Eg4多肽)的全纤维素酶。在一些实施例中,第四多肽为在至少约10(例如至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与 SEQ ID NO :52、80-81、206_207 的任一者具有至少约 60% (例如至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99% )序列同一性的多肽,或包含选自以下的一个或多个序列基序的多肽:(I) SEQ ID NO :84 和 88 ;(2)SEQ ID NO :85 和 88 ; (3) SEQIDNO :86 ; (4) SEQ IDNO :87 ; (5)SEQ ID NO :84、88 和 89 ; (6)SEQ ID NO :85、88 和 89 ; (7)SEQ ID NO :84、88 和
90; (8)SEQ ID NO :85、88 和 90 ; (9)SEQ ID NO :84、88 和 91 ; (10)SEQ ID NO :85、88 和 91 ;
(Il)SEQ ID NO :84、88、89 和 91 ; (12)SEQ ID NO :84、88、90 和 91 ; (13)SEQ ID NO :85、88、89和91 :以及(14)SEQ ID NO :85、88、90和91。组合物还可以包含纤维二糖脱氢酶。
[0058]在一些实施例中,具有木聚糖酶活性的第一多肽与SEQ ID NO :24、26、42和43的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第一多肽可以为AfuXyn2、AfuXyn5、里氏木霉Xyn3或 里氏木霉Xyn2。
[0059]在一些实施例中,具有木糖苷酶活性的第二多肽可以为选自第I组或第2组β -木糖苷酶多肽的多肽。第I组β -木糖苷酶多肽与SEQ ID NO :2和10的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第I组β-木糖苷酶可以为Fv3A或Fv43A。第2组β-木糖苷酶多肽与SEQ ID NO :4、6、8、10、12、14、16、18、28、30和45的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第2组β-木糖苷酶可以为Pf43A、Fv43E、Fv39A、Fv43B、Pa51A、Gz43A、Fo43A、Fv43D、Pf43B 或里氏木霉 BxlI。
[0060]在一些实施例中,具有阿拉伯呋喃糖酶活性的第三多肽与SEQ ID NO :12,14,20,22和32的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第三多肽可以为Fv43B、Pa51A、Af43A、Pf51A 或 Fv51A。
[0061]第一、第二、第三或第四或其他多肽可以从天然存在的来源中分离或纯化。或者,其可以通过重组宿主细胞表达或过表达。其可以分离的或纯化的形式加入酶组合物中。其可以通过作为培养混合物例如发酵液的一部分的宿主生物体或宿主细胞表达或过表达。在一些实施例中,编码这种多肽的基因可以整合到宿主生物体的遗传物质中,其允许由该生物体表达编码的多肽。
[0062]本发明的工程改造的酶组合物的第四非限制性例子包含(I)具有木糖苷酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽(其不同于第一多肽),(3)具有阿拉伯呋喃糖酶活性的第三多肽,以及(4)具有β_葡糖苷酶活性的第四多肽。在某些实施例中,第四多肽在至少约 10(例如至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与SEQ ID NO :54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 的任一者具有至少约 60% (例如至少约 60%,65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98% 或 99% )的同一性。在某些实施例中,第四多肽为包含两个或更多个β-葡糖苷酶序列的嵌合/融合葡糖苷酶多肽,其中衍生自第一葡糖苷酶的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO :96-108的序列基序的一者或多者或全部,而衍生自第二 β-葡糖苷酶的第二序列为至少约50个氨基酸残基长并包含SEQ ID NO =109-116的序列基序的一者或多者或全部,以及还任选的第三序列为3、4、5、6、7、8、9、10或11个氨基酸残基长并编码衍生自第三β-葡糖苷酶的环序列,所述第三序列具有FDRRSPG (SEQ ID NO :204)或FD(R /K) YNIT (SEQ ID NO :205)的氨基酸序列。具体地讲,两个或更多个β -葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO :197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个β-葡糖苷酶的第二序列为至少约50个氨基酸残基长并包含SEQ ID NO :203,以及还任选的第三序列为约3、4、5、6、7、8、9、10或 11 个氨基酸残基长并具有 FDRRSPG (SEQ ID NO :204)或 FD (R/K) YNIT (SEQ ID NO :205)的氨基酸序列,所述第三序列衍生自不同于第一或第二葡糖苷酶多肽的第三葡糖苷酶多肽。例如,第四多肽包含与Fv3C(SEQ ID NO :60)的至少200个残基段(例如从SEQID NO :60的N端或从靠近N端的残基起的至少200个残基段)具有至少约60%的序列同一性的第一序列,以及与里氏木霉Bgl3(Tr3B,SEQ ID NO :64)的至少50个残基段(例如从SEQ ID NO :64的C端或从靠近C端的残基起的至少50个残基段)具有至少约60%的序列同一性的第二序列。第四多肽还可以包含约3、4、5、6、7、8、9、10或11个氨基酸残基的第三序列,其衍生自Te3A(SEQ ID NO :66)的相等长度的序列,或具有FDRRSPG (SEQ ID NO :204)或FD(R / K) YNIT(SEQ ID NO :205)的氨基酸序列。在一些实施例中,第四多肽与SEQ IDNO :93或95或与SEQ ID NO :93或95的至少约20、30、40、50、60、70个或更多个残基的子序列或片段具有至少约60%的序列同一性。
[0063]在一些实施例中,酶组合物还可以包含具有GH61 /内切葡聚糖酶活性的第五多肽或者富含GH61内切葡聚糖酶的全纤维素酶。例如,具有GH61 /内切葡聚糖酶活性的多肽为来自合适生物体(例如细菌或真菌)的EGIV多肽,例如里氏木霉Eg4。在一些实施例中,为GH61内切葡聚糖酶多肽的第五多肽在至少约10(例如至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80`、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与SEQ ID NO :52、80-81、206-207的任一者具有至少约60% (例如至少约60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98% 或 99% )的同一性,或包含选自以下的一个或多个序列基序的多肽:(1)SEQ ID N0:84和88 ;(2)SEQID NO :85 和 88 ; (3) SEQ ID NO :86 ; (4) SEQ ID NO :87 ; (5) SEQ ID NO :84、88 和 89 ; (6) SEQID NO :85、88 和 89 ; (7)SEQ ID NO :84、88 和 90 ; (8) SEQ ID NO :85、88 和 90 ; (9) SEQ IDNO :84、88 和 91 ; (IO)SEQ ID NO :85、88 和 91 ; (11) SEQ ID NO :84、88、89 和 91 ; (12) SEQ ID NO:
84、88、90 和 91 ; (13) SEQ ID NO :85、88、89 和 91 :以及(14) SEQ ID NO :85、88、90 和 91。酶组合物还可以包含纤维二糖脱氢酶。
[0064]在某些实施例中,具有木糖苷酶活性的第一多肽为选自第I组木糖苷酶多肽的多肽。第I组β -木糖苷酶多肽与SEQ ID NO :2和10的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第I组木糖苷酶可以为Fv3A或Fv43A。
[0065]在某些实施例中,具有木糖苷酶活性的第二多肽为选自第2组木糖苷酶多肽的多肽。第2组β-木糖苷酶多肽与SEQ ID NO :4、6、8、10、12、14、16、18、28、30和45的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第2组β-木糖苷酶可以为Pf43A、Fv43E、Fv39A、Fv43B、Pa51A、Gz43A、Fo43A、Fv43D、Pf43B 或里氏木霉 Bxl I。
[0066]在一些实施例中,具有阿拉伯呋喃糖酶活性的第三多肽与SEQ ID NO :12,14,20,22和32的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第三多肽可以为Fv43B、Pa51A、Af43A、Pf51A 或 Fv51A。
[0067]第一、第二、第三、第四、第五或其他多肽可以从天然存在的来源中分离或纯化。或者,其可以通过重组宿主细胞表达或过表达。其可以分离的或纯化的形式加入酶组合物中。其可以通过作为培养混合物例如发酵液的一部分的宿主生物体或宿主细胞表达或过表达。在一些实施例中,编码这种多肽的基因可以整合到宿主生物体的遗传物质中,其允许由该生物体表达编码的多肽。
[0068]酶组合物的第五非限制性例子包含(I)具有木糖苷酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽(不同于第一多肽),和(3)具有阿拉伯呋喃糖酶活性的第三多肽,以及(4)富含葡糖苷酶的全纤维素酶。在某些实施例中,富含葡糖苷酶的全纤维素酶富含在至少约 10(例如至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与 SEQ ID NO :54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 的任一者具有至少约 60% (例如至少约60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98% 或99%)序列同一性的多肽。在某些实施例中,富含β -葡糖苷酶的全纤维素酶富含包含两个或更多个葡糖苷酶序列的嵌合/融合葡糖苷酶多肽,其中衍生自第一葡糖苷酶的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO :96-108的氨基酸序列基序的一者或多者或全部,而衍生自第二 β -葡糖苷酶的第二序列为至少约50个氨基酸残基长并包含SEQ ID NO :109-116的氨基酸序列基序的一者或多者或全部,以及还任选的第三序列为3、4、5、6、7、8、9、10或11个氨基酸残基长并编码衍生自第三β-葡糖苷酶的环序列,所述第三序列具有FDRRSPG (S EQ ID NO :204)或FD (R/K) YNIT (SEQ ID NO :205)的氨基酸序列。例如,富含β-葡糖苷酶的全纤维素酶富含如下多肽,所述多肽包含与Fv3C(SEQ ID NO:60)的至少200个残基段(例如从SEQ ID NO :60的N端或从靠近N端的残基起的至少200个残基段)具有至少约60%的序列同一性的第一序列,以及与里氏木霉Bgl3(Tr3B,SEQ IDNO :64)的至少50个残基段(例如从SEQ IDNO :64的C端或从靠近C端的残基起的至少50个残基段)具有至少约60%的序列同一性的第二序列。在某些实施例中,富含葡糖苷酶的全纤维素酶富含还包含约3、4、5、6、7、8、9、10或11个氨基酸残基的第三序列的多肽,所述第三序列衍生自Te3A (SEQ ID NO :66)的相等长度的序列,或衍生自具有FDRRSPG (SEQID NO :204)或FD (R/K) YNIT (SEQ ID NO :205)的氨基酸序列的序列。例如,富含β _葡糖苷酶的全纤维素酶富含与SEQ ID NO :93或95或与SEQ ID NO :93或95的至少约20、30、40、50、60、70个或更多个残基的子序列或片段具有至少约60%序列同一性的多肽。
[0069]在某些实施例中,酶组合物还可以包含具有GH61 /内切葡聚糖酶活性的第四多肽或者富含GH61内切葡聚糖酶的全纤维素酶。例如,具有GH61 /内切葡聚糖酶活性的多肽为来自合适生物体(例如细菌或真菌)的EGIV多肽,例如里氏木霉Eg4。在一些实施例中,为GH61内切葡聚糖酶多肽的第五多肽在至少约10(例如至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与SEQ ID NO :52、80-81、206-207的任一者至少约60% (例如至少约60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或 99% )的同一性,或包含选自以下的一个或多个序列基序=(I)SEQ ID N0:84和88 ;(2)SEQ ID NO :85和 88; (3) SEQ ID NO :86 ; (4) SEQ ID NO :87 ; (5) SEQ ID NO :84、88 和 89 ; (6) SEQ ID NO:
85、88 和 89 ; (7)SEQ ID NO :84、88 和 90 ; (8) SEQ ID NO :85、88 和 90 ; (9) SEQ ID NO :84、88和 91; (10)SEQ ID NO :85、88 和 91 ; (Il)SEQ ID NO :84、88、89 和 91 ; (12)SEQ ID NO :84、88、90 和 91 ; (13)SEQ ID NO :85、88、89 和 91 :以及(14) SEQ ID NO :85、88、90 和 91。酶组合物还可以包含纤维二糖脱氢酶。
[0070]在某些实施例中,具有木糖苷酶活性的第一多肽为选自第I组木糖苷酶多肽的多肽。第I组β -木糖苷酶多肽与SEQ ID NO :2和10的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第I组木糖苷酶可以为Fv3A或Fv43A。
[0071]在某些实施例中,具有木糖苷酶活性的第二多肽为选自第2组木糖苷酶多肽的多肽。第2组β-木糖苷酶多肽与SEQ ID NO :4、6、8、10、12、14、16、18、28、30和45的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第2组β-木糖苷酶可以为Pf43A、Fv43E、Fv39A、Fv43B、Pa51A、Gz43A、Fo43A、Fv43D、Pf43B 或里氏木霉 BxlI。
[0072]在一些实施例中,具有阿拉伯呋喃糖酶活性的第三多肽与SEQ ID NO :12,14,20,22和32的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第三多肽可以为Fv43B、Pa51A、Af43A、Pf51A 或 Fv51A。
[0073]第一、第二、第三、第四或其他多肽可以从天然存在的来源中分离或纯化。或者,其可以通过重组宿主细胞表达或过表达。其可以分离的或纯化的形式加入酶组合物中。其可以通过作为培养混合物例如发酵液的一部分的宿主生物体或宿主细胞表达或过表达。在一些实施例中,编码这种多肽的基因可以整`合到宿主生物体的遗传物质中,其允许由该生物体表达编码的多肽。
[0074]本发明的工程改造的酶组合物的第六非限制性例子包含(I)具有木糖苷酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽(其不同于第一多肽),(3)和具有阿拉伯呋喃糖酶活性的第三多肽;以及(4)具有GH61 /内切葡聚糖酶活性的第四多肽或者富含EGIV的全纤维素酶。例如,具有GH61 /内切葡聚糖酶活性的多肽为来自合适生物体(例如细菌或真菌)的EGIV多肽,例如里氏木霉Eg4。在一些实施例中,为GH61内切葡聚糖酶多肽的第五多肽在至少约10(例如至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与SEQ ID NO :52、80-81、206-207 的任一者具有至少约 60 % (例如至少约 60 %、65 %、70 %、75 %、80 %、85 %、90%、91%、92%、93%、94%、95%、96%、97%、98%或 99% )的同一性,或为包含选自以下的一个或多个序列基序的多肽:⑴SEQ ID NO :84和88 ;⑵SEQ ID NO :85和88 ;⑶SEQID NO :86 ; (4) SEQ ID NO :87 ; (5) SEQ ID NO :84、88 和 89 ; (6) SEQ ID NO :85、88 和 89 ; (7)SEQ ID NO :84,88 和 90 ; (8)SEQ ID NO :85、88 和 90 ; (9)SEQ ID NO :84、88 和 91 ; (10)SEQID NO :85、88 和 91 ; (Il)SEQ ID NO :84、88、89 和 91;(12)SEQ ID NO :84、88、90 和 91;(13)SEQ ID NO :85、88、89和91 :以及(14) SEQ ID NO :85、88、90和91。酶组合物还可以包含纤维二糖脱氢酶。
[0075]在某些实施例中,具有木糖苷酶活性的第一多肽为选自第I组木糖苷酶多肽的多肽。第I组β -木糖苷酶多肽与SEQ ID NO :2和10的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第I组β-木糖苷酶可以为Fv3A或Fv43A。
[0076]在某些实施例中,具有木糖苷酶活性的第二多肽为选自第2组β -木糖苷酶多肽的多肽。第2组β-木糖苷酶多肽与SEQ ID NO :4、6、8、10、12、14、16、18、28、30和45的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第2组β-木糖苷酶可以为Pf43A、Fv43E、Fv39A、Fv43B、Pa51A、Gz43A、Fo43A、Fv43D、Pf43B 或里氏木霉 BxlI。
[0077]在一些实施例中,具有阿拉伯呋喃糖酶活性的第三多肽与SEQ ID NO :12,14,20,22和32的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第三多肽可以为Fv43B、Pa51A、Af43A、Pf51A 或 Fv51A。
[0078]第一、第二、第三、第四或其他多肽可以从天然存在的来源中分离或纯化。或者,其可以通过重组宿主细胞表达或过表达。其可以分离的或纯化的形式加入酶组合物中。其可以通过作为培养混合物例如发酵液的一部分的宿主生物体或宿主细胞表达或过表达。在一些实施例中,编码这种多肽的基因可以整合到宿主生物体的遗传物质中,其允许由该生物体表达编码的多肽。
[0079]本发明的工程改造的酶组合物的第七非限制性例子包含:(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,(3)具有木糖苷酶活性的第三多肽(不同于第二多肽),以及(4)具有葡糖苷酶活性的第四多肽。在某些实施例中,第四多肽在至少约 10(例如至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与 SEQ ID NO :54、56、58、60、62、64、
66、68、70、72、74、76、78、79、93和95的任一者具有至少约60% (例如至少约60%,65%,70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或 99% )的同一性。在某些实施例中,第 四多肽为包含两个或更多个葡糖苷酶序列的嵌合/融合β -葡糖苷酶多肽,其中衍生自第一 β -葡糖苷酶的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO :96-108的氨基酸序列基序的一者或多者或全部,而衍生自第二 β-葡糖苷酶的第二序列为至少约50个氨基酸残基长并包含SEQ ID NO =109-116的氨基酸序列基序的一者或多者或全部,以及还任选的第三序列为3、4、5、6、7、8、9、10或11个氨基酸残基长并编码衍生自第三β-葡糖苷酶的环序列,所述第三序列具有FDRRSPG (SEQ ID NO :204)或FD(R / K) YNIT(SEQ ID NO :205)的氨基酸序列。具体地讲,两个或更多个β _葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO :197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个葡糖苷酶的第二序列为至少约50个氨基酸残基长并包含SEQ ID勵:203,以及还任选的第三序列为约3、4、
5、6、7、8、9、10或11个氨基酸残基长并具有FDRRSPG(SEQ ID NO :204)或FD(R/K) YNIT(SEQID NO :205)的氨基酸序列,所述第三序列衍生自不同于第一或第二 β-葡糖苷酶多肽的第三β-葡糖苷酶多肽。例如,第四多肽包含与Fv3C(SEQ ID NO :60)的至少200个残基段(例如从SEQ ID NO :60的N端或从靠近N端的残基起的至少200个残基段)具有至少约60%的序列同一性的第一序列,以及与里氏木霉Bgl3(Tr3B,SEQ ID NO :64)的至少50个残基段(例如从SEQ ID NO :64的C端或从靠近C端的残基起的至少50个残基段)具有至少约60%的序列同一性的第二序列。在某些实施例中,第四多肽还包含约3、4、5、6、7、8、9、10或11个氨基酸残基的第三序列,其衍生自Te3A (SEQ ID NO :66)的相等长度的序列,或具有 FDRRSPG (SEQ ID NO :204)或 FD(R / K) YNIT (SEQ ID NO :205)的氨基酸序列。例如,第四多肽包含与SEQ ID NO :93或95或与SEQ ID NO :93或95的至少约20、30、40、50、60、70个或更多个残基的子序列或片段具有至少约60%序列同一性的序列。
[0080]酶组合物还可以包含具有GH61 /内切葡聚糖酶活性的第五多肽或者富含GH61内切葡聚糖酶的全纤维素酶。例如,具有GH61 /内切葡聚糖酶活性的多肽为来自合适生物体(例如细菌或真菌)的EGIV多肽,例如里氏木霉Eg4。在一些实施例中,为GH61内切葡聚糖酶多肽的第五多肽在至少约10(例如至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与SEQ ID NO :52、80-81、206-207 的任一者具有至少约 60% (例如至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或 99% )的同一性,或为包含选自以下的一个或多个序列基序的多肽=(I)SEQ ID NO :84和88 ;(2)SEQ ID NO :85和88; (3)SEQ ID NO :86 ; (4) SEQ ID NO :87 ; (5) SEQ ID NO :84、88 和 89 ; (6) SEQ ID NO :85、88 和 89 ;
(7)SEQ ID NO :84,88 和 90 ; (8)SEQ ID NO :85、88 和 90 ; (9)SEQ ID NO :84、88 和 91 ; (10)SEQ ID NO :85、88和91 ; (Il)SEQ ID NO :84、88、89和91;(12)SEQ ID NO :84、88、90和91 ;
(13)SEQ ID NO :85、88、89 和 91 :以及(14) SEQ ID NO :85、88、90 和 91。酶组合物还可以包含纤维二糖脱氢酶。
[0081]在一些实施例中,具有木聚糖酶活性的第一多肽与SEQ ID NO :24、26、42和43的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第一多肽可以为AfuXyn2、AfuXyn5、里氏木霉Xyn3或里氏木霉Xyn2。
[0082]在某些实施例中,具有木糖苷酶活性的第二多肽为选自第I组木糖苷酶多肽的多肽。第I组β -木糖苷酶多肽与SEQ `ID NO :2和10的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第I组木`糖苷酶可以为Fv3A或Fv43A。
[0083]在某些实施例中,具有木糖苷酶活性的第三多肽为选自第2组木糖苷酶多肽的多肽。第2组β-木糖苷酶多肽与SEQ ID NO :4、6、8、10、12、14、16、18、28、30和45的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第2组β-木糖苷酶可以为Pf43A、Fv43E、Fv39A、Fv43B、Pa51A、Gz43A、Fo43A、Fv43D、Pf43B 或里氏木霉 Bxl I。
[0084]第一、第二、第三、第四、第五或其他多肽可以从天然存在的来源中分离或纯化。或者,其可以通过重组宿主细胞表达或过表达。其可以分离的或纯化的形式加入酶组合物中。其可以通过作为培养混合物例如发酵液的一部分的宿主生物体或宿主细胞表达或过表达。在一些实施例中,编码这种多肽的基因可以整合到宿主生物体的遗传物质中,其允许由该生物体表达编码的多肽。
[0085]工程改造的酶组合物的第八非限制性例子包含:(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,(3)具有木糖苷酶活性的第三多肽(不同于第二多肽),以及富含葡糖苷酶的全纤维素酶。在某些实施例中,富含葡糖苷酶的全纤维素酶富含在至少约 10(例如至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、
85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与SEQ ID NO :54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 的任一者具有至少约 60% (例如至少约60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98% 或99% )同一性的多肽。在某些实施例中,富含葡糖苷酶的全纤维素酶富含包含两个或更多个β-葡糖苷酶序列的嵌合/融合β-葡糖苷酶多肽,其中衍生自第一 β-葡糖苷酶的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO :96-108的氨基酸序列基序的一者或多者或全部,而衍生自第二 β -葡糖苷酶的第二序列为至少约50个氨基酸残基长并包含SEQ ID NO :109-116的氨基酸序列基序的一者或多者或全部,以及还任选的第三序列为3、4、5、6、7、8、9、10或11个氨基酸残基长并编码衍生自第三β-葡糖苷酶的环序列,所述第三序列具有 FDRRSPG (SEQ ID NO :204)或 FD(R / K) YNIT (SEQ ID NO :205)的氨基酸序列。具体地讲,两个或更多个葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO =197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个β -葡糖苷酶的第二序列为至少约50个氨基酸残基长并包含SEQID NO :203,以及还任选的第三序列为约3、4、5、6、7、8、9、10或11个氨基酸残基长并具有FDRRSPG (SEQ ID NO :204)或 FD(R / K) YNIT (SEQ ID NO :205)的氨基酸序列,所述第三序列衍生自不同于第一或第二葡糖苷酶多肽的第三葡糖苷酶多肽。例如,富含葡糖苷酶的全纤维素酶富含如下多肽,所述多肽包含与Fv3C(SEQ ID NO :60)的至少200个残基段(例如从SEQ ID NO :60的N端或从靠近N端的残基起的至少200个残基段)具有至少约60%的序列同一性的第一序列,以及与里氏木霉Bgl3(Tr3B,SEQ ID NO :64)的至少50个残基段(例如从SEQ ID NO :64的C端或从靠近C端的残基起的至少50个残基段)具有至少约60%的序列同一性的第二序列。在一些实施例中,富含葡糖苷酶的全纤维素酶富含还包含约3、4、5、6、7、8、9、10或11个氨基酸残基的第三序列的多肽,所述第三序列衍生自Te3A(SEQ ID NO :66)的相等长度的序列,或具有FDRRSPG (SEQ ID NO :204)或FD(R/K)YNIT(SEQ ID NO :205)的氨基酸序列。例如,富含β _葡糖苷酶的全纤维素酶富含含有与SEQ ID NO :93或95或与SEQ ID NO :93或95的至少约20、30、40、50、60、70个或更多个残基的子序列或片段具有至少约60%序列同一性的序列的多肽。
[0086]酶组合物还可以包含具有GH61 /内切葡聚糖酶活性的第四多肽或者富含GH61内切葡聚糖酶的全纤维素酶。例如,具有GH61 /内切葡聚糖酶活性的多肽为来自合适生物体(例如细菌或真菌)的EGIV 多肽,例如里氏木霉Eg4。在一些实施例中,为GH61内切葡聚糖酶多肽的第四多肽在至少约10(例如至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与SEQ ID NO :
52,80-81,206-207 的任一者具有至少约 60% (例如至少约 60%,65%,70%,75%,80%,85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或 99% )的序列同一性,或为包含选自以下的一个或多个序列基序的多肽= (I)SEQ ID NO :84和88 ;(2)SEQ ID NO :85和88; (3) SEQ ID NO :86 ; (4) SEQ ID NO :87 ; (5) SEQ ID NO :84、88 和 89 ; (6) SEQ ID NO :85、88和 89 ; (7)SEQ ID NO :84、88和 90 ; (8)SEQ ID NO :85、88和 90 ; (9)SEQ ID NO :84、88和91 ; (IO)SEQ ID NO :85、88 和 91 ;(11)SEQ ID NO :84、88、89 和 91 ; (12)SEQ ID NO :84、88、90 和 91 ; (13) SEQ ID NO :85、88、89 和 91 :以及(14) SEQ ID NO :85、88、90 和 91。酶组合物还可以包含纤维二糖脱氢酶。
[0087]在一些实施例中,具有木聚糖酶活性的第一多肽与SEQ ID NO :24、26、42和43的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第一多肽可以为AfuXyn2、AfuXyn5、里氏木霉Xyn3或里氏木霉Xyn2。
[0088]在某些实施例中,具有木糖苷酶活性的第二多肽为选自第I组木糖苷酶多肽的多肽。第I组β -木糖苷酶多肽与SEQ ID NO :2和10的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第I组β-木糖苷酶可以为Fv3A或Fv43A。
[0089]在某些实施例中,具有木糖苷酶活性的第三多肽为选自第2组β -木糖苷酶多肽的多肽。第2组β-木糖苷酶多肽与SEQ ID NO :4、6、8、10、12、14、16、18、28、30和45的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第2组β-木糖苷酶可以为Pf43A、Fv43E、Fv39A、Fv43B、Pa51A、Gz43A、Fo43A、Fv43D、Pf43B 或里氏木霉 BxlI。
[0090]第一、第二、第三、第四或其他多肽可以从天然存在的来源中分离或纯化。或者,其可以通过重组宿主细胞表达或过表达。其可以分离的或纯化的形式加入酶组合物中。其可以通过作为培养混合物例如发酵液的一部分的宿主生物体或宿主细胞表达或过表达。在一些实施例中,编码这种多肽的基因可以整合到宿主生物体的遗传物质中,其允许由该生物体表达编码的多肽。
[0091]工程改造的酶组合物的第九非限制性例子包含:(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,(3)具有木糖苷酶活性的第三多肽(不同于第二多肽),(4)以及具有GH61 /内切葡聚糖酶活性的第四多肽或者富含GH61内切葡聚糖酶的全纤维素酶。在一些实施例中,具有GH61 /内切葡聚糖酶活性的第四多肽为来自合适生物体(例如细菌或真菌)的EGIV多肽,例如里氏木霉Eg4。在一些实施例中,为GH61内切葡聚糖酶多肽的第五多肽在至少约10 (例如至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与 SEQID NO :52、80-81、206-207 的任一者具有至少约 60% (例如至少约 60%,65%,70%,75%,80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或 99% )的同一性,或为包含选自以下的一个或多个序列基序的多肽=(I)SEQ ID NO :84和88 ;(2)SEQ ID NO :85和88; (3) SEQ ID NO :86 ; (4) SEQ ID NO :87 ; (5) SEQ ID NO :84、88 和 89 ; (6) SEQ ID NO :85、88和 89 ; (7)SEQ ID NO :84、88和 90 ; (8)SEQ ID NO :85、88和 90 ; (9)SEQ ID NO :84、88和
91; (IO)SEQ ID NO :85 、88和 91 ;(11)SEQ IDNO :84、88、89和91 ; (12)SEQ ID NO :84、88、90和 91 ; (13) SEQ ID NO :85、88、89 和 91 :以及(14) SEQ ID NO :85、88、90 和 91。酶组合物还可以包含纤维二糖脱氢酶。
[0092]在一些实施例中,具有木聚糖酶活性的第一多肽与SEQ ID NO :24、26、42和43的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第一多肽可以为AfuXyn2、AfuXyn5、里氏木霉Xyn3或里氏木霉Xyn2。
[0093]在某些实施例中,具有木糖苷酶活性的第二多肽为选自第I组木糖苷酶多肽的多肽。第I组β -木糖苷酶多肽与SEQ ID NO :2和10的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第I组木糖苷酶可以为Fv3A或Fv43A。
[0094]在某些实施例中,具有木糖苷酶活性的第三多肽为选自第2组木糖苷酶多肽的多肽。第2组β-木糖苷酶多肽与SEQ ID NO :4、6、8、10、12、14、16、18、28、30和45的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第2组β-木糖苷酶可以为Pf :43A、Fv43E、Fv39A、Fv43B、Pa51A、Gz43A、Fo43A、Fv43D、Pf43B 或里氏木霉 BxlI。
[0095]第一、第二、第三、第四或其他多肽可以从天然存在的来源中分离或纯化。或者,其可以通过重组宿主细胞表达或过表达。其可以分离的或纯化的形式加入酶组合物中。其可以通过作为培养混合物例如发酵液的一部分的宿主生物体或宿主细胞表达或过表达。在一些实施例中,编码这种多肽的基因可以整合到宿主生物体的遗传物质中,其允许由该生物体表达编码的多肽。
[0096]工程改造的酶组合物的第十非限制性例子包含:(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,(3)具有β_葡糖苷酶活性的第三多肽。在某些实施例中,第三多肽在至少约10(例如至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与SEQ ID NO :54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 的任一者具有至少约 60% (例如至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%)的同一性。在某些实施例中,第三多肽为包含两个或更多个葡糖苷酶序列的嵌合/融合葡糖苷酶多肽,其中衍生自第一葡糖苷酶的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO :96-108的氨基酸序列基序的一者或多者或全部,而衍生自第二 β-葡糖苷酶的第二序列为至少约50个氨基酸残基长并包含SEQ ID NO:109-116的氨基酸序列基序的一者或多者或全部,以及还任选的第三序列为3、4、5、6、7、8、
9、10或11个氨基酸残基长并编码衍生自第三β-葡糖苷酶的环序列,所述第三序列具有FDRRSPG (SEQ ID NO :204)或 FD(R / K) YNIT (SEQ ID NO :205)的氨基酸序列。具体地讲,两个或更多个β -葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ IDNO =197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个β -葡糖苷酶的第二序列为至少约50个氨基酸残基长并包含SEQ ID NO :203,以及还任选的第三序列为约3、4、5、6、7、8、9、10或11个氨基酸残基长并具有FDRRSPG (SEQ IDNO :204)或FD(R / K)YNIT(SEQ ID NO :205)的氨基酸序列,所述第三序列衍生自不同于第一或第二葡糖苷酶多肽的第三葡糖苷酶多肽。例如,第三多肽包含与Fv3C (SEQ IDNO :60)的至少200个残基段(例如从SEQ ID NO :60的N端或从靠近N端的残基起的至少200个残基段)具有至少约60%的序列同一性的第一序列,以及与里氏木霉Bgl3(Tr3B,SEQID NO :64)的至少50个残基段(例如从SEQ ID NO :64的C端或从靠近C端的残基起的至少50个残基段)具有至少约60%的序列同一性的第二序列。在某些实施例中,第三多肽还包含约3、4、5、6、7、8、9、10或11个氨基酸残基的第三序列,其衍生自Te3A(SEQ ID NO :66)的相等长度的序列;或包含 FDRRSPG` (SEQ ID NO :204)或 FD (R/K) YNIT (SEQ ID NO :205)的氨基酸序列。例如,第三多肽包含与SEQ ID NO :93或95或与SEQ ID NO :93或95的至少约20、30、40、50、60、70个或更多个残基的子序列或片段具有至少约60%序列同一性的序列。
[0097]酶组合物还可以包含具有GH61 /内切葡聚糖酶活性的第四多肽或者富含GH61内切葡聚糖酶的全纤维素酶。例如,具有GH61 /内切葡聚糖酶活性的多肽为来自合适生物体(例如细菌或真菌)的EGIV多肽,例如里氏木霉Eg4。在一些实施例中,为GH61内切葡聚糖酶多肽的第四多肽在至少约10(例如至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与 SEQID NO :52、80-81、206-207 的任一者具有至少约 60% (例如至少约 60%,65%,70%,75%,80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或 99% )的同一性,或包含选自以下的一个或多个序列基序:(I) SEQ ID NO :84和88 ;(2)SEQ ID NO :85和88 ; (3) SEQID NO :86 ; (4) SEQ ID NO :87 ; (5) SEQ ID NO :84、88 和 89 ; (6) SEQ ID NO :85、88 和 89 ; (7)SEQ ID NO :84,88 和 90 ; (8)SEQ ID NO :85,88 和 90 ; (9)SEQ ID NO :84,88 和 91 ; (10)SEQIDNO :85,88 和 91 ; (Il)SEQ ID NO :84、88、89 和 91 ; (12)SEQ ID NO :84、88、90 和 91 ; (13)SEQ ID NO :85、88、89和91 :以及(14) SEQ ID NO :85、88、90和91。酶组合物还可以包含纤
维二糖脱氢酶。
[0098]在一些实施例中,具有木聚糖酶活性的第一多肽与SEQ ID NO :24、26、42和43的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第一多肽可以为AfuXyn2、AfuXyn5、里氏木霉Xyn3或里氏木霉Xyn2。
[0099]在一些实施例中,具有木糖苷酶活性的第二多肽可以为选自第I组或第2组β -木糖苷酶多肽的多肽。第I组β -木糖苷酶多肽与SEQ ID NO :2和10的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第I组β-木糖苷酶可以为Fv3A或Fv43A。第2组β-木糖苷酶多肽与SEQ ID NO :4、6、8、10、12、14、16、18、28、30和45的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第2组β-木糖苷酶可以为Pf43A、Fv43E、Fv39A、Fv43B、Pa51A、Gz43A、Fo43A、Fv43D、Pf43B 或里氏木霉 Bxl I。
[0100]第一、第二、第三、第四或其他多肽可以从天然存在的来源中分离或纯化。或者,其可以通过重组宿主细胞表达或过表达。其可以分离的或纯化的形式加入酶组合物中。其可以通过作为培养混合物例如发酵液的一部分的宿主生物体或宿主细胞表达或过表达。在一些实施例中,编码这种多肽的基因可以整合到宿主生物体的遗传物质中,其允许由该生物体表达编码的多肽。
[0101]工程改造的酶组合物的第十一非限制性例子包含:(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,以及富含β-葡糖苷酶的全纤维素酶。在一些实施例中,富含β-葡糖苷酶的全纤维素酶富含在至少约10 (例如至少约10、15、20、25、30、35、40、45、50、55、60 、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与 SEQ ID NO :54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 的任一者具有至少约 60% (例如至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99% )同一性的多肽。在某些实施例中,富含β-葡糖苷酶的全纤维素酶富含包含两个或更多个β-葡糖苷酶序列的嵌合/融合β-葡糖苷酶多肽,其中衍生自第一 β -葡糖苷酶的第一序列为至少约200个氨基酸残基长并包含SEQID NO :96-108的氨基酸序列基序的一者或多者或全部,而衍生自第二 β-葡糖苷酶的第二序列为至少约50个氨基酸残基长并包含SEQ ID NO =109-116的氨基酸序列基序的一者或多者或全部,以及还任选的第三序列为3、4、5、6、7、8、9、10或11个氨基酸残基长并编码衍生自第三葡糖苷酶的环序列,所述第三序列具有FDRRSPG (SEQ ID NO :204)或FD(R /K) YNIT(SEQ ID NO :205)的氨基酸序列。具体地讲,两个或更多个β _葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO =197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个葡糖苷酶的第二序列为至少约50个氨基酸残基长并包含SEQ ID Ν0:203,以及还任选的第三序列为约3、4、5、6、7、
8、9、10 或 11 个氨基酸残基长并具有 FDRRSPG (SEQ ID NO :204)或 FD(R / K) YNIT (SEQ IDNO :205)的氨基酸序列,所述第三序列衍生自不同于第一或第二葡糖苷酶多肽的第三β-葡糖苷酶多肽。例如,富含葡糖苷酶的全纤维素酶富含如下多肽,所述多肽包含与Fv3C(SEQ ID NO :60)的至少200个残基段(例如从SEQ ID NO :60的N端或从靠近N端的残基起的至少200个残基段)具有至少约60%的序列同一性的第一序列,以及与里氏木霉Bgl3 (Tr3B, SEQ ID NO :64)的至少50个残基段(例如从SEQ ID NO :64的C端或从靠近C端的残基起的至少50个残基段)具有至少约60%的序列同一性的第二序列。在一些实施例中,富含β -葡糖苷酶的全纤维素酶富含还包含约3、4、5、6、7、8、9、10或11个氨基酸残基的第三序列的多肽,所述第三序列衍生自Te3A(SEQ ID NO :66)的相等长度的序列,或包^ FDRRSPG (SEQ ID NO :204)或 FD(R / K) YNIT (SEQ ID NO :205)的氨基酸序列。例如,富含葡糖苷酶的全纤维素酶富含含有与SEQ ID NO :93或95或与SEQ ID ΝΟ:93或95的至少约20、30、40、50、60、70个或更多个残基的子序列或片段具有至少约60%序列同一性的序列。
[0102]酶组合物还可以包含具有GH61 /内切葡聚糖酶活性的第三多肽或者富含GH61内切葡聚糖酶的全纤维素酶。例如,具有GH61 /内切葡聚糖酶活性的多肽为来自合适生物体(例如细菌或真菌)的EGIV多肽,例如里氏木霉Eg4。在一些实施例中,为GH61内切葡聚糖酶多肽的第三多肽在至少约10(例如至少约10、15、20、25、30、35、40、45、50、55、60、65、70、
75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与SEQ ID NO :
52,80-81,206-207 的任一者具有至少约 60% (例如至少约 60%,65%,70%,75%,80%,85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或 99% )的同一性,或包含选自以下的一个或多个序列基序:(I) SEQ ID NO :84 和 88 ;(2)SEQ ID NO :85 和 88 ; (3) SEQ IDNO :86 ; (4) SEQ ID NO :87 ; (5) SEQ ID NO :84、88 和 89 ; (6) SEQ ID NO :85、88 和 89 ; (7) SEQID NO :84、88 和 90 ;(8)SEQ ID NO :85、88 和 90 ; (9)SEQ ID NO :84、88 和 91 ; (10)SEQ IDNO :85、88和91;(Il)SEQ ID NO :84、88、89 和 91;(12)SEQ ID NO :84、88、90 和 91 ; (13)SEQID NO :85、88、89和91 :以及(14) SEQ ID NO :85、88、90和91。酶组合物还可以包含纤维二糖脱氢酶。
[0103]在一些实施例中,具有木聚 糖酶活性的第一多肽与SEQ ID NO :24、26、42和43的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第一多肽可以为AfuXyn2、AfuXyn5、里氏木霉Xyn3或里氏木霉Xyn2。
[0104]在一些实施例中,具有木糖苷酶活性的第二多肽可以为选自第I组或第2组β -木糖苷酶多肽的多肽。第I组β -木糖苷酶多肽与SEQ ID NO :2和10的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第I组β-木糖苷酶可以为Fv3A或Fv43A。第2组β-木糖苷酶多肽与SEQ ID NO :4、6、8、10、12、14、16、18、28、30和45的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第2组β-木糖苷酶可以为Pf43A、Fv43E、Fv39A、Fv43B、Pa51A、Gz43A、Fo43A、Fv43D、Pf43B 或里氏木霉 Bxl I。
[0105]第一、第二或其他多肽可以从天然存在的来源中分离或纯化。或者,其可以通过重组宿主细胞表达或过表达。其可以分离的或纯化的形式加入酶组合物中。其可以通过作为培养混合物例如发酵液的一部分的宿主生物体或宿主细胞表达或过表达。在一些实施例中,编码这种多肽的基因可以整合到宿主生物体的遗传物质中,其允许由该生物体表达编码的多肽。
[0106]工程改造的酶组合物的第十二非限制性例子包含:(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,(3)具有GH61 /内切葡聚糖酶活性的第三多肽,或者富含GH61内切葡聚糖酶的全纤维素酶。在一些实施例中,具有GH61 /内切葡聚糖酶活性的多肽为来自合适生物体(例如细菌或真菌)的EGIV多肽,例如里氏木霉Eg4。在一些实施例中,为GH61内切葡聚糖酶多肽的第三多肽在至少约10(例如至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上与SEQ ID NO :52、80-81、206_207的任一者具有至少约60% (例如至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%)的同一性,或包含选自以下的一个或多个序列基序:(1)SEQ ID N0:84和88;(2) SEQ ID NO :85 和 88 ; (3) SEQ ID NO :86 ; (4) SEQ ID NO :87 ; (5) SEQ ID NO :84、88 和 89 ;(6)SEQ ID NO :85、88 和 89 ; (7)SEQ ID NO :84、88 和 90 ; (8)SEQ ID NO :85、88 和 90 ; (9)SEQ ID NO :84、88和91 ;(10)SEQ ID NO :85、88和91 ; (11) SEQ ID NO :84、88、89和91 ; (12)SEQ ID NO :84、88、90 和 91 ;(13)SEQ ID NO :85、88、89 和 91 :以及(14) SEQ ID NO :85、88、
90和91。酶组合物还可以包含纤维二糖脱氢酶。
[0107]在一些实施例中,具有木聚糖酶活性的第一多肽与SEQ ID NO :24、26、42和43的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第一多肽可以为AfuXyn2、AfuXyn5、里氏木霉Xyn3或里氏木霉Xyn2。
[0108]在一些实施例中,具有木糖苷酶活性的第二多肽可以为选自第I组或第2组β -木糖苷酶多肽的多肽。第I组β -木糖苷酶多肽与SEQ ID NO :2和10的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第I组β-木糖苷酶可以为Fv3A或Fv43A。第2组β-木糖苷酶多肽与SEQ ID NO :4、6、8、10、12、14、16、18、28、30和45的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第2组β-木糖苷酶可以为Pf43A、Fv43E、Fv39A、Fv43B、Pa51A、Gz43A、Fo43A、Fv43D、Pf43B 或里氏木霉 Bxl I。
[0109]第一、第二、第三或其他多肽可以从天然存在的来源中分离或纯化。或者,其可以通过重组宿主细胞表达或过表达。其可以分离的或纯化的形式加入酶组合物中。其可以通过作为培养混合物例如发酵液的一部分的`宿主生物体或宿主细胞表达或过表达。在一些实施例中,编码这种多肽的基因可以整合到宿主生物体的遗传物质中,其允许由该生物体表达编码的多肽。
[0110]本文所述的工程改造的酶组合物为例如发酵液。发酵液为例如得自微生物的发酵液。微生物可以为细菌或真菌,例如丝状真菌或酵母。合适的丝状真菌包括但不限于木霉属、腐质霉属、键刀圃属、曲霉属、脉抱圃属、青霉属、头抱霉属、绵霉属、柄抱壳圃属、内座壳属、毛霉属、旋孢腔菌属、梨孢属或金孢子菌属。合适的木霉属真菌的例子为里氏木霉。合适的青霉属真菌的例子为绳状青霉(Penicillium funiculosum)。发酵液可以为例如无细胞的发酵液或全发酵液制剂。
[0111]本文所述的酶组合物当包含具有纤维素酶活性(例如纤维二糖水解酶活性、内切葡聚糖酶活性、GH61 /内切葡聚糖酶活性或β-葡糖苷酶活性)的酶时或当包含全纤维素酶时为纤维素酶组合物。纤维素酶组合物可以是例如细菌或真菌纤维素酶组合物。例如,丝状真菌纤维素酶组合物可以为木霉属、曲霉属或金孢子菌属,例如里氏木霉、黑曲霉(Aspergillus niger)、米曲霉(Aspergillus oryzae)或勒克瑙金抱子菌(ChrysosporiumIucknowence)纤维素酶组合物。纤维素酶组合物可适当地由丝状真菌例如由诸如里氏木霉的木霉属、由诸如黑曲霉或米曲霉的曲霉属或由诸如勒克瑙金孢子菌的金孢子菌属产生。作为另外一种选择,酶组合物可在诸如酵母的重组生物体中产生。[0112]本文的酶组合物的组分可使用本领域的已知方法测量。例如,SDS-PAGE可用于测量组分的相对量,但是此类测量不精确并且最多为半定量的。HPLC通常被视为更精确的酶组分测量法,但是甚至其准确度通常取决于可将测得的量与其结合的良好酶标准品的可用性和混合物的清洁度以及用于分离某些共洗脱组分的柱子的容量。组分还可使用超高效液相色谱(UPLC)测量,这种方法与HPLC相似在将某些蛋白彼此分离中具有局限,但是往往针对不同组的蛋白具有这些局限。因此,不能使用HPLC分离的蛋白有时可使用UPLC分离,反之亦然。用于这些方法的测量的条件在本文的实例中有所描述。如通过SDS-PAGE、HPLC或UPLC任一者所测量,在工程改造的组合物中具有木聚糖酶活性的多肽的组合重量可占酶组合物中组合或总蛋白重量的约0.05重量%至约80重量% (例如约0.05重量%至约75重量%、约O. I重量%至约70重量%、约I重量%至约60重量%、约5重量%至约50重量%、约10重量%至约40重量%、约O. 5重量%至约40重量%、约I重量%至约35重量%、约5重量%至约25重量%、约9重量%至约17重量%、约5重量%至约15重量%、约10重量%至约15重量%、约10重量%至约25重量%、约10重量%至约35重量%等)。在一个特定例子中,具有木聚糖酶活性的多肽的组合重量由包含这些木聚糖酶的组合物(例如本文所述的工程改造的酶组合物的任何一种)中里氏木霉Xyn2和里氏木霉Xyn3的量进行度量。在该混合物中木聚糖酶的总重量的量为组合物中蛋白总重量的约10重量%至约20重量%或约14重量%至约18重量%,如使用本文所述的方法通过SDS-PAGE、HPLC或UPLC测量的。
[0113]如通过SDS_PAGE、HPLC或UPLC所测量,具有β -木糖苷酶活性的多肽的组合重量可占工程改造的酶组合物中总蛋白的约0.05重量%至约75重量% (例如约0.05重量%至约70重量%、约O. I重量%至约60重量%、约I重量%至约50重量%、约10重量%至约40重量%、约20重量%至约30重量%、约2重量%至约45重量%、约5重量%至约40重量%、约10重量%至约35重量%、约2重量%至约30重量%、约5重量%至约25重量%、约5重量%至约10重量%、约9重量%至约15重量%、约10重量%至约20重量%等)。在一个特定例子中,具有β_木 糖苷酶活性的多肽的组合重量由包含那些β_木糖苷酶的组合物(例如本文工程改造的酶组合物的任何一种)中的第I组β-木糖苷酶和第2组β -木糖苷酶例如Fv3A和Fv43D的量进行度量。根据本文所述的方法,该混合物中β _木糖苷酶的总重量的量为约3重量%至约20重量%,例如约4重量%至约6重量% (如使用HPLC所测量);约10重量%至约14重量% (如使用UPLC所测量)以及约15重量%至约18重量% (如使用SDS-PAGE所测量)。
[0114]当本发明的工程改造的酶组合物包含具有β_木糖苷酶活性的第I组多肽和具有β_木糖苷酶活性的第2组多肽时,第I组多肽的组合重量可占组合物中总蛋白重量的约O. I重量%至约30重量% (例如约O. 2重量%至约25重量%、约O. 5重量%至约20重量%、约4重量%至约10重量%、约4重量%至约8重量%等),而第2组多肽的组合重量可占组合物中总蛋白重量的约O. I重量%至20重量% (例如约O. 2重量%至约18重量%、约0.5重量%至约15重量%、约5重量%至约10重量%等)。第I组β-木糖苷酶多肽重量与第2组β-木糖苷酶多肽重量的比率可为约I :10至约10 :1,例如约I :8至约8 :1、约I :6至约6 :1、约I :4至约4 :1、约I :2至约2 :1、或约I :1。
[0115]如使用SDS_PAGE、HPLC或UPLC所测量,具有L- α α-阿拉伯呋喃糖酶活性的多肽(如果存在的话)的组合重量可占工程改造的酶组合物中的组合或总蛋白重量的约0.05重量%至约20重量% (例如O. I重量%至约15重量%、1重量%至约10重量%、2重量%至约12重量%、4重量%至约10重量%、3重量%至约9重量%、5重量%至约9重量%等)。具有L- α -阿拉伯呋喃糖酶活性的多肽的组合重量例如由包含该L- α -阿拉伯呋喃糖酶的组合物(例如本文工程改造的酶组合物的任何一种)中Fv51A的量进行度量。根据本文所述的方法,该混合物中L- α -阿拉伯呋喃糖酶的总重量的量为约O. 2重量%至约2重量%,例如约O. 3重量%至约O. 5重量% (如使用HPLC测量);约0.8重量%至约1.2重量%(如使用UPLC和SDS-PAGE测量)。
[0116]如使用SDS-PAGE、UPLC或HPLC所测量,具有β -葡糖苷酶活性的多肽(包括变体、突变体或嵌合/融合β-葡糖苷酶多肽)的组合重量可占工程改造的酶组合物中组合或总蛋白重量的约0.05重量%至约50重量% (例如约O. I重量%至约45重量%、约I重量%至约42重量%、约2重量%至约45重量%、约2重量%至约40重量%、约2重量%至约30重量%、约2重量%至约25重量%、约5重量%至约50重量%、约9重量%至约17重量%、约10重量%至约50重量%、约20重量%至约50重量%、约25重量%至约50重量%、约30重量%至约50重量%等)。在一个特定例子中,具有β_葡糖苷酶活性的多肽的组合重量由包含此类酶的组合物(例如本文工程改造的酶组合物的任何一种)中例如SEQ ID NO:92和里氏木霉Bgl I的β -葡糖苷酶杂合体/嵌合体的量进行度量。根据本文所述的方法,该混合物中β_葡糖苷酶的总重量的量为约18重量%至约28重量%,例如约22重量%至约25重量% (若通过SDS-PAGE和UPLC测量)以及约18重量%至约22重量% (若使用HPLC测量)。
[0117]如通过SDS-PAGE、HPLC或UPLC测量,GH61内切葡聚糖酶多肽的总重量可相当于或占工程改造的酶组合物中组合或总蛋白重量的约2重量%至约50重量% (例如约2重量%至约45重量%、约2重量%至约40重量%、约2重量%至约30重量%、约2重量%至约25重量%、约4重量%至约16重量%、约5重量%至约50重量%、约10重量%至约50重量%、约20重量%至约50重量%、约25重量%至约50重量%、约30重量%至约50重量%等)。在一个特定例子中,具 有GH61 /内切葡聚糖酶活性的多肽的组合重量由包含此类酶的组合物(例如本文工程改造的酶组合物的任何一种)中里氏木霉Eg4多肽的量进行度量。根据本文所述的方法,该混合物中里氏木霉Eg4的总重量的量为约6重量%至约20重量%,例如约6重量%至约10重量% (若通过HPLC测量)以及约6重量%至约18重量% (若使用UPLC或SDS-PAGE测量)。
[0118]本发明的工程改造的酶组合物的例子根据使用本文实例中所述条件的HPLC测量法包含约4重量%至约6重量%的第I组β -木糖苷酶多肽,约5重量%至约9重量%组合重量的第2组β -木糖苷酶多肽与L-α -阿拉伯呋喃糖酶多肽,约9重量%至约17重量%的葡糖苷酶多肽,约9重量%至约17重量%的木聚糖酶,约4重量%至约16重量%的GH61内切葡聚糖酶。酶组合物还可以包含约25重量%至约45重量%的一种或多种纤维二糖水解酶。酶组合物还可以包含约7重量%至约20重量%的其他纤维素酶。
[0119]本发明的工程改造的酶组合物的例子根据使用本文实例中所述条件的UPLC测量法包含约4重量%至约6重量%的第I组β-木糖苷酶多肽,约5重量%至约9重量%的第2组β -木糖苷酶多肽,约O. 5重量%至约2重量%的L- α -阿拉伯呋喃糖酶多肽,约18重量%至约22重量%的β-葡糖苷酶多肽,约13重量%至约15重量%的木聚糖酶多肽以及约8重量%至约20重量%的GH61内切葡聚糖酶。酶组合物还可以包含约15重量%至约25重量%的纤维二糖水解酶,例如里氏木霉CBHl和CBH2。酶组合物还可以包含约2重量%至约8重量%的其他纤维素酶。
[0120]本发明的工程改造的酶组合物中至少一种(例如一种或多种、两种或更多种、三种或更多种、四种或更多种、五种或更多种或甚至六种或更多种)酶衍生自异源生物来源,例如不同于宿主细胞的微生物。在一个非限制性例子中,工程改造的酶组合物中的酶之一来自镰刀菌属的丝状真菌,而工程改造的酶组合物通过非镰刀菌属真菌的微生物产生。在另一个例子中,工程改造的酶组合物中的酶之一来自木霉属的丝状真菌,而工程改造的酶组合物通过非木霉属真菌的微生物(例如曲霉属或金孢子菌属)产生。
[0121]本文所述的工程改造的酶组合物中至少两种酶衍生自不同的生物来源。在一种示例性工程改造的酶组合物中,一种或多种酶衍生自镰刀菌属,而一种或多种其他酶衍生自非镰刀菌属的真菌。
[0122]工程改造的酶组合物适当地为例如发酵液组合物。发酵液为例如丝状真菌之一,包括但不限于木霉属、腐质霉属、键刀囷属、曲霉属、脉抱囷属、青霉属、头抱霉属、绵霉属、柄孢壳菌属、内座壳属、毛霉属、旋孢腔菌属、梨孢属或金孢子菌属。木霉属真菌的例子为里氏木霉。青霉属真菌的例子为绳状青霉。曲霉属真菌的例子为黑曲霉或米曲霉。金孢子菌属真菌的例子为勒克瑙金孢子菌。发酵液可以为例如无细胞的发酵液,任选地经受最少的生产后加工,包括例如超滤、纯化、细胞杀灭等,并因此可以全发酵液制剂使用。
[0123]工程改造的酶组合物还可以为纤维素酶组合物,例如真菌纤维素酶组合物或细菌纤维素酶组合物。纤维素酶组合物例如可以由丝状真菌,例如由木霉属、曲霉属、金孢子菌属;由酵母,例如由酿酒酵母(Saccharomyces cerevisiae)产生。
[0124]本发明的酶或工程改造的酶组`合物可用于食品行业,例如进行烘焙、水果和蔬菜加工;用于农业废料分解;用于动物饲料制造;用于纸浆和纸生产;用于织物制造或用于家庭和工业清洁剂。本文的酶可以例如各自独立地由诸如真菌或细菌的微生物产生。
[0125]本文的酶或工程改造的酶组合物还可例如在木材加工、纸浆和/或纸行业、在织物制造中、在家庭和工业清洁剂中和/或在生物质废料加工中用于消化任何合适来源的木质纤维素,包括所有生物来源,例如植物生物质,例如玉米、谷物、草(例如印度草,如黄假高粱;或柳枝稷草,例如稷属,如柳枝稷)、多年生藤条(例如芦竹)或者木材或木材加工副产品。本发明提供水解、分解或破坏纤维寡糖、阿拉伯木聚糖低聚物或者含葡聚糖或纤维素的组合物的方法,该方法包括将组合物与本发明的酶或酶组合物在合适的条件下接触,其中所述酶或酶组合物水解、分解或破坏纤维寡糖、阿拉伯木聚糖低聚物或者含葡聚糖或纤维素的组合物。
[0126]本发明提供包含本文的多肽或由本文的核酸编码的多肽的工程改造的酶组合物。在一些实施例中,该多肽具有选自木聚糖酶、木糖苷酶、L-α -阿拉伯呋喃糖酶、β -葡糖苷酶和/或GH61 /内切葡聚糖酶活性的一种或多种活性。工程改造的酶组合物用于或可用于将纤维素和半纤维素聚合物解聚成可代谢的碳部分。工程改造的酶组合物适当地为例如制造产品的形式。组合物可以例如为制剂并可以呈例如液体或固体的物理形式。
[0127]本文工程改造的酶组合物还可以任选地包含纤维素酶,例如全纤维素酶,其包含选自(I)内切葡聚糖酶、(2)纤维二糖水解酶和(3) β-葡糖苷酶的至少三种不同的酶类型;或选自(I)催化纤维素或半纤维素材料的内部β_1,4键裂解从而产生更短的葡萄糖寡糖的内切葡聚糖酶活性,(2)催化纤维二糖单元(例如β-1,4葡萄糖-葡萄糖二糖)以“外切”方式裂解和释放的纤维二糖水解酶活性,以及(3)催化从短纤维寡糖(例如纤维二糖)释放葡萄糖单体的葡糖苷酶活性的至少三种不同的酶活性。全纤维素酶可富含一种或多种葡糖苷酶多肽。全纤维素酶可在某些实施例中富含GH61内切葡聚糖酶多肽,例如EGIV多肽,如里氏木霉Eg4。在某些实施例中,全纤维素酶可富含葡糖苷酶多肽和GH61内切葡聚糖酶多肽。本发明的工程改造的酶组合物在下文的第5. 3.节中有进一步描述。
[0128]在另一方面,本发明提供加工生物质材料的方法,该方法包括将包含木质纤维素和/或可发酵糖的组合物与本文的酶或与本文核酸编码的多肽或与本文工程改造的酶组合物(例如制造产品或制剂)接触。包含木质纤维素的合适生物质材料可衍生自例如农作物、食品或饲料生产的副产品、木质纤维素废品、植物残留物或废纸或废纸产品。多肽可适当地具有选自纤维素酶、内切葡聚糖酶、纤维二糖水解酶、葡糖苷酶、木聚糖酶、甘露聚糖酶、β -木糖苷酶、阿拉伯呋喃糖酶和其他半纤维素酶活性的一种或多种酶活性。合适的植物残留物可包括谷物、种子、茎干、叶子、外壳、外皮、玉米芯、玉米秸杆、稻草、草、藤条、芦苇、木材、木屑、木浆和锯屑。草可以为例如印度草或柳枝稷草。芦苇可以为例如多年生藤条,例如芦竹。纸废弃物可以为例如丢弃的或用过的复印纸、计算机打印纸、笔记本纸、记事簿纸、打字纸、报纸、杂志、硬纸板和纸类包装材料。
[0129]本发明提供包含半纤维素和纤维素水解酶的混合物的组合物(包括酶或工程改造的酶组合物,例如制造产品或制剂),以及至少一种生物质材料。任选地,生物质材料包括衍生自农作物的木质纤维素材料,或为食品或饲料生产的副产品。合适的生物质材料还可以是木质纤维素废品、植物残留物、废纸或废纸产品,或包含植物残留物。植物残留物可以例如为包括谷物、种子、莖干、叶子、外壳、外皮、玉米芯、玉米稻杆、草、稻草、芦華、木材、木屑、木浆或锯屑的残留物。示例性草包括但不限于印度草或柳枝稷草。示例性芦苇包括但不限于某些多年生藤条,例如芦竹。示例性纸废弃物包括但不限于丢弃的或用过的复印纸、计算机打印纸、笔记本纸、记事 簿纸、打字纸、报纸、杂志、硬纸板和纸类包装材料。
[0130]因此,本发明提供可用于水解半纤维素材料、催化合适的生物质底物酶促转化成可发酵糖的组合物(包括酶或工程改造的酶组合物,例如制造产品或制剂)。本发明还提供制备此类组合物的方法以及在研究环境、工业环境或商业环境中使用或应用此类组合物的方法。
[0131]本文引用的截至提交目的所有公共可用的信息,包括例如出版物、专利、专利申请、GenBank序列和ATCC保藏物,据此均明确地以引用方式并入。
[0132]4.附图和附表说明
[0133]下述的图和表意欲举例说明而不是限制本文公开说明书或权利要求的范围和内容。
[0134]图I提供各种酶和序列基序的用在本发明中的序列标识的概述。
[0135]图2Α-2Β :图2Α提供通过序列比对推断的里氏木霉Eg4的保守残基以及TrEGb (或里氏木霉Eg7,也称为“TrEG7”)(蛋白质数据库登录号:pdb :2vtc的晶体结构)和TtEG(蛋白质数据库登录号:pdb :3EII的晶体结构)的已知结构。图2B提供通过与Tr6A、Tr7A的已知序列进行序列比对推断的保守CBM结构域残基。
[0136]图3 :提供基于与葡萄糖in-Ι亚位点复合的新阿波罗栖热袍菌(T. neapolitana)Bgl3B的晶体结构(蛋白质数据库登录号:pdb :2X41的晶体结构)预测的Fv3C同源物之中的保守活性位点残基。
[0137]图4 :提供通过里氏木霉整合菌株H3A产生的发酵液的酶组成。此组成的测定在实例2中描述。
[0138]图5 :列出单独地加到实例2的各样品中的酶(纯化的或未纯化的)以及这些酶的储备蛋白浓度。
[0139]图6 :提供实例4 (实验I)的里氏木霉Eg4剂量表。样品“#27”是如实例4中所述的H3A / Eg4整合菌株。所添加的纯化里氏木霉Eg4的量以重量%或质量(以mg蛋白/g G+X)列在“样品说明”下。
[0140]图7A-7B:图7A提供实例4(实验2)的另一里氏木霉Eg4剂量表。样品的描述与在图6中的那些相似。所添加的纯化里氏木霉Eg4的量以比实例4实验I (上文)的那些增量小的增量变化;图7B提供实例4(实验3)的另一里氏木霉Eg4剂量表。样品的描述与在图6和7A中的那些相似。所添加的纯化里氏木霉Eg4的量以比实例4实验I和2(上文)的那些增量甚至更细微的增量变化。
[0141]图8A-8B :图8A示出了如实例15中所述的CBH1、CBH2和里氏木霉Eg2混合物的各种比率。图8B列出了使用各种酶组合物的葡聚糖转化率)。实验条件在实例15中描述。
[0142]图9 :列出根据实例6使`用包含里氏木霉Eg4的酶组合物从经稀释的氨水预处理的玉米芯释放的木糖的百分比产率。
[0143]图10 :提供根据实例6使用包含里氏木霉Eg4的酶组合物从经稀释的氨水预处理的玉米芯释放的葡萄糖的百分比产率。
[0144]图11 :提供根据实例6使用包含里氏木霉Eg4的酶组合物从经稀释的氨水预处理的玉米芯释放的总可发酵单体的百分比产率。
[0145]图12 :对通过不含里氏木霉Eg4的酶组合物与通过含O. 53mg / g里氏木霉Eg4的酶组合物水解而释放的葡萄糖的量进行比较。该实验在实例7中描述。
[0146]图13 :列出多种葡糖苷酶同源物的葡糖苷酶活性,这些同源物包括里氏木霉Bgll (Tr3A)、黑曲霉Bglu (An3A)、Fv3C、Fv3D和Pa3C。根据实例18测量了对纤维二糖和CNPG底物两者的活性。
[0147]图14 :列出在实例19中测试的酶混合物/组合物中酶的相对重量。
[0148]图15 :提供酶组合物对稀氨水预处理的玉米芯的作用的比较。实验细节在实例21中描述。
[0149]图16A-16B :图16A示出Fv3A核苷酸序列(SEQ ID NO :1) ?图16B示出Fv3A氨基酸序列(SEQ ID N0:2)。预测的信号序列带有下划线。预测的保守结构域以黑体表示。
[0150]图17A-17B :图 17A 示出 Pf43A 核苷酸序列(SEQ ID NO :3)。图 17B 示出 Pf43A 氨基酸序列(SEQ ID NO :4) 0预测的信号序列带有下划线。预测的保守结构域以黑体表示,预测的碳水化合物结合模块(“CBM”)以大写字母表示,分隔CD与CBM的预测接头以斜体表不。[0151]图18A-18B :图 18A 示出 Fv43E 核苷酸序列(SEQ ID NO :5)。图 18B 示出 Fv43E 氨基酸序列(SEQ ID NO :6) 0预测的信号序列带有下划线。预测的保守结构域以黑体表示。
[0152]图19A-19B :图 19A 示出 Fv39A 核苷酸序列(SEQ ID NO :7)。图 19B 示出 Fv39A 氨基酸序列(SEQ ID NO :8) 0预测的信号序列带有下划线。预测的保守结构域以黑体表示。
[0153]图20A-20B :图 20A 示出 Fv43A 核苷酸序列(SEQ ID NO :9)。图 20B 示出 Fv43A 氨基酸序列(SEQ ID N0:10)。预测的信号序列带有下划线。预测的保守结构域以黑体表示,预测的CBM以大写字母表示,分隔保守结构域与CBM的预测接头以斜体表示。
[0154]图21A-21B :图 21A 示出 Fv43B 核苷酸序列(SEQ ID N0:11)。图 21B 示出 Fv43B氨基酸序列(SEQ ID N0:12)。预测的信号序列带有下划线。预测的保守结构域以黑体表
/Jn ο
[0155]图22A-22B :图 22k 示出 Pa51A 核苷酸序列(SEQ ID NO :13)。图 22B 示出 Pa51A氨基酸序列(SEQ ID NO :14)。预测的信号序列带有下划线。预测的L-α -阿拉伯呋喃糖酶保守结构域以黑体表示。对于在里氏木霉中的表达,对基因组DNA进行密码子优化以在里氏木霉中表达(参见图39Β)。
[0156]图23Α-23Β :图 23Α 示出 Gz43A 核苷酸序列(SEQ ID NO :15)。图 23B 示出Gz43A氨基酸序列(SEQ ID N0:16)。预测的信号序列带有下划线。预测的保守结构域以黑体表示。对于在里氏木霉中的表达,将预测的信号序列用里氏木霉CBHl信号序列(myrklavisaflatara(SEQ ID NO :117))替换。
[0157]图24A-24B :图 24A 示出 Fo43A 核苷酸序列(SEQ ID NO :17)。图 24B 示出Fo43A氨基酸序列(SEQ ID N0:18)。预测的信号序列带有下划线。预测的保守结构域以黑体表示。对于在里氏木霉中的 表达,将预测的信号序列用里氏木霉CBHl信号序列(myrklavisaf latara (SEQ ID NO :117))替换。
[0158]图25A-25B :图 25A 示出 Af43A 核苷酸序列(SEQ ID NO :19)。图 25B 示出 Af43A氨基酸序列(SEQ ID N0:20)。预测的保守结构域以黑体表示。
[0159]图26A-26B :图 26A 示出 Pf5IA 核苷酸序列(SEQ ID NO :21)。图 26B 示出 Pf5IA氨基酸序列(SEQ ID N0:22)。预测的信号序列带有下划线。预测的L-α -阿拉伯呋喃糖酶保守结构域以黑体表示。对于在里氏木霉中的表达,将预测的信号序列用里氏木霉CBHl信号序列(myrklavisaf latara (SEQ ID NO :117))替换,并对Pf51A核苷酸序列进行密码子优化以在里氏木霉中表达。
[0160]图27A-27B :图 27A 示出 AfuXyn2 核苷酸序列(SEQ ID NO : 23)。图 27B 示出 AfuXyn2氨基酸序列(SEQ ID N0:24)。预测的信号序列带有下划线。预测的GHll保守结构域以黑体表不。
[0161]图28A-28B :图 28A 示出 AfuXyn5 核苷酸序列(SEQ ID NO :25)。图 28B 示出 AfuXyn5氨基酸序列(SEQ ID N0:26)。预测的信号序列带有下划线。预测的GHll保守结构域以黑体表不。
[0162]图29A-29B :图 29A 示出 Fv43D 核苷酸序列(SEQ ID NO :27)。图 29B 示出 Fv43D氨基酸序列(SEQ ID NO :28)。预测的信号序列带有下划线。预测的保守结构域以黑体表
/Jn ο
[0163]图30A-30B :图 30A 示 出 Pf43B 核苷酸序列(SEQ ID NO :29)。图 30B 示出 Pf43B氨基酸序列(SEQ ID NO :30)。预测的信号序列带有下划线。预测的保守结构域以黑体表
/Jn ο
[0164]图31A-31B :图 31A 示出 Fv51A 核苷酸序列(SEQ ID NO :31)。图 31B 示出 Fv51A氨基酸序列(SEQ ID NO :32)。预测的信号序列带有下划线。预测的L-α -阿拉伯呋喃糖酶保守结构域以黑体表示。
[0165]图32Α-32Β :图 32Α 示出 Cg51B 核苷酸序列(SEQ ID NO :33)。图 32B 示出 Cg51B氨基酸序列(SEQ ID NO :34)。预测的信号序列带有下划线。预测的保守结构域以黑体表
/Jn ο
[0166]图33A-33B :图 33A 示出 Fv43C 核苷酸序列(SEQ ID NO :35)。图 33B 示出 Fv43C氨基酸序列(SEQ ID NO :36)。预测的信号序列带有下划线。预测的保守结构域以黑体表
/Jn ο
[0167]图34A-34B :图 34A 示出 Fv30A 核苷酸序列(SEQ ID NO :37)。图 34B 示出 Fv30A氨基酸序列(SEQ ID N0:38)。预测的信号序列带有下划线。
[0168]图35A-35B :图 35A 示出 Fv43F 核苷酸序列(SEQ ID NO :39)。图 35B 示出 Fv43F氨基酸序列(SEQ ID N0:40)。预测的信号序列带有下划线。
[0169]图36A-36B :图36A示出里氏木霉Xyn3核苷酸序列(SEQ ID NO :41)。图36B示出里氏木霉Xyn3氨基酸序列(SEQ ID NO :42)。预测的信号序列带有下划线。预测的保守结构域以黑体表示。`
[0170]图37A-37B :图37A示出里氏木霉Xyn2的氨基酸序列(SEQ ID NO :43)。信号序列带有下划线。预测的保守结构域以黑体表示。编码序列可见于‘etal. Biotechnology, 1992,10 :1461-65 ( T&rfnen等人,《生物技术》,1992 年,第 10 卷,第1461-1465页)中。图37Β示出Pa3C的氨基酸序列(SEQ ID NO :44),Pa3C是一种得自柄抱霉(P. anserina.)的 GH3 酶。
[0171]图38示出里氏木霉Bxll的氨基酸序列(SEQ ID NO :45)。信号序列带有下划线。预测的保守结构域以黑体表示。编码序列可见于Margolles-Clark et al. Appl. Environ.Microbiol. 1996,62(10) :3840-46 (Margolles-Clark 等人,《应用环境微生物学》,1996 年,第62卷,第10期,第3840-3846页)。
[0172]图 39A-39F :图 39A 示出 Pa51A 的推导 cDNA(SEQ ID NO :46)。图 39B 示出 Pa51A的密码子优化cDNA(SEQ ID NO :47)。图39C :包含位于编码成熟Gz43A的基因组DNA上游的CBHl信号序列(带下划线)的构建体的编码序列(SEQ ID NO :48)。图39D :包含位于编码成熟Fo43A的基因组DNA上游的CBHl信号序列(带下划线)的构建体的编码序列(SEQID NO :49)。图39E :包含位于编码Pf51A的密码子优化DNA上游的CBHl信号序列(带下划线)的构建体的编码序列(SEQ ID NO :50)。
[0173]图40A-40B :图40A示出里氏木霉Eg4的核苷酸序列(SEQ ID NO :51)。图40B示出里氏木霉Eg4的氨基酸序列(SEQ ID N0:52)。预测的信号序列带有下划线。预测的保守结构域以黑体字表示。预测的接头以斜体字表示。
[0174]图41A-41B :图 41A 示出 Pa3D 的核苷酸序列(SEQ ID NO :53)。图 41B 示出 Pa3D的氨基酸序列(SEQ ID N0:54)。预测的信号序列带有下划线。预测的保守结构域以黑体
字表不。[0175]图42A-42B :图 42A 示出 Fv3G 的核苷酸序列(SEQ ID NO :55)。图 42B 示出 Fv3G的氨基酸序列(SEQ ID N0:56)。预测的信号序列带有下划线。预测的保守结构域以黑体
子表不O
[0176]图43A-43B :图 43A 示出 Fv3D 的核苷酸序列(SEQ ID NO :57)。图 43B 示出 Fv3D的氨基酸序列(SEQ ID N0:58)。预测的信号序列带有下划线。预测的保守结构域以黑体
子表不O
[0177]图44A-44B :图 44A 示出 Fv3C 的核苷酸序列(SEQ ID NO :59)。图 44B 示出 Fv3C的氨基酸序列(SEQ ID N0:60)。预测的信号序列带有下划线。预测的保守结构域以黑体
子表不O
[0178]图45A-45B :图 45A 示出 Tr3A 的核苷酸序列(SEQ ID NO :61)。图 45B 示出 Tr3A的氨基酸序列(SEQ ID N0:62)。预测的信号序列带有下划线。预测的保守结构域以黑体
子表不O
[0179]图46A-46B :图 46A 示出 Tr3B 的核苷酸序列(SEQ ID NO :63)。图 46B 示出 Tr3B的氨基酸序列(SEQ ID N0:64)。预测的信号序列带有下划线。预测的保守结构域以黑体
子表不O
[0180]图47A-47B :图47A示出Te3A的密码子优化(以在里氏木霉中表达)核苷酸序列(SEQ ID NO :65)。图47B示出 Te3A的氨基酸序列(SEQ ID NO :66)。预测的信号序列带有下划线。预测的保守结构域以黑体字表示。
[0181]图48A-48B :图 48A 示出 An3A 的核苷酸序列(SEQ ID NO :67)。图 48B 示出 An3A的氨基酸序列(SEQ ID N0:68)。预测的信号序列带有下划线。预测的保守结构域以黑体
子表不O
[0182]图49A-49B :图 49A 示出 Fo3A 的核苷酸序列(SEQ ID NO :69)。图 49B 示出 Fo3A的氨基酸序列(SEQ ID N0:70)。预测的信号序列带有下划线。预测的保守结构域以黑体
子表不O
[0183]图50A-50B :图 50A 示出 Gz3A 的核苷酸序列(SEQ ID NO :71)。图 50B 示出 Gz3A的氨基酸序列(SEQ ID N0:72)。预测的信号序列带有下划线。预测的保守结构域以黑体
子表不O
[0184]图51A-51B :图 51A 示出 Nh3A 的核苷酸序列(SEQ ID NO :73)。图 5IB 示出 Nh3A的氨基酸序列(SEQ ID N0:74)。预测的信号序列带有下划线。预测的保守结构域以黑体
子表不O
[0185]图52A-52B :图 52A 示出 Vd3A 的核苷酸序列(SEQ ID NO :75)。图 52B 示出 Vd3A的氨基酸序列(SEQ ID N0:76)。预测的信号序列带有下划线。预测的保守结构域以黑体
子表不O
[0186]图53A-53B :图 53A 示出 Pa3G 的核苷酸序列(SEQ ID NO :77)。图 53B 示出 Pa3G的氨基酸序列(SEQ ID N0:78)。预测的信号序列带有下划线。预测的保守结构域以黑体
子表不O
[0187]图54 :示出Tn3B的氨基酸序列(SEQ ID NO :79)。标准信号预测程序Signal P未提供预测的信号序列。
[0188]图55 :示出某些β -葡糖苷酶同源物的氨基酸序列比对。[0189]图 56 :示出里氏木霉 Eg4 与 TrEGb (或 TrEG7(SEQ ID NO :80))和 TtEG (SEQ ID NO:81)的氨基酸序列比对。
[0190]图 57 :示出里氏木霉 Eg4 与 Tr6A(SEQ ID NO :82)和与 Tr7A (SEQ IDNO :83)的 CBM结构域的部分氨基酸序列比对以及得自嗜热子囊菌(T. aurantiacus)的两种GH61 /内切葡聚糖酶(SEQ ID NO :206 和 207)。
[0191]图58A-58D :图58A示出根据实例2通过添加含有图5的各种纯化或未纯化酶的酶组合物(加到里氏木霉整合菌株H3A中)对稀氨水预处理的玉米芯糖化后的葡萄糖释放。图58B示出根据实例2通过添加含有图5的各种纯化或未纯化酶的酶组合物(加到里氏木霉整合菌株H3A中)对稀氨水预处理的玉米芯糖化后的纤维二糖释放。图58C示出根据实例2通过添加含有图5的各种纯化或未纯化酶的酶组合物(加到里氏木霉整合菌株H3A中)对稀氨水预处理的玉米芯糖化后的木二糖释放。图58D示出根据实例2通过添加含有图5的各种纯化或未纯化酶的酶组合物(加到里氏木霉整合菌株H3A中)对稀氨水预处理的玉米芯糖化后的木糖释放。
[0192]图59A-59B :图59A示出如实例3中所述的表达盒pEGl-EG4_sucA ;图59B示出如实例3中所述含有表达盒pEGl-EG4-sucA的pCR Blunt IITOPO的质粒图谱。
[0193]图60 :示出根据实例3通过包含表达里氏木霉Eg4的里氏木霉整合菌株H3A转化体产生的酶的酶组合物实现的葡聚糖/木聚糖向纤维二糖/葡萄糖的转化量/百分比。
[0194]图61 :示出使用增加量的通过表达里氏木霉Eg4的H3A转化体产生的酶组合物而观察到的增加的葡聚糖转化百分比。实验细节在实例3中描述。
[0195]图62A-62G :图62A示出如实例23中所述含有pEGl-Fv51A表达盒的pCR-Blunt IITOPO质粒的质粒图谱;图628示出如实例23中所述包含具有cbhl终止子序列的pEGl_Fv3A的pCR-Blunt II TOPO质粒的`质粒图谱;图62C示出如实例23中所述包含Pcbh2_Fv43D的pCR-Blunt II TOPO质粒的质粒图谱;图62D示出如实例23中所述包含Pcbh2_Fv43D_als标记物(pSK49)的pCR-Blunt II-TOPO质粒的质粒图谱;图62E示出如实例23中所述具有Pcbh2-Fv43D (pSK42)的pCR-Blunt II-TOPO的质粒图谱;图62F示出如实例23中所述包含Fv3A序列的pTrex6g的质粒图谱;图62G示出如实例23中所述具有Fv43D序列的pTrex6G的质粒图谱。
[0196]图63A-63B :图63A示出根据实例16中所述的实验使用各种酶组合物通过玉米芯水解的葡萄糖产生;图63B示出根据实例16的描述使用各种酶组合物通过玉米芯水解的木
糖产生。
[0197]图64示出里氏木霉Eg4对通过稀氨水预处理的玉米芯的糖化释放葡萄糖的影响。Y轴是指在反应混合物中释放的葡萄糖或木糖的浓度。X轴列出酶组合物样品的名称/简述。实验细节在实例4中描述。
[0198]图65示出里氏木霉Eg4对通过稀氨水预处理的玉米芯的糖化释放木糖的影响。Y轴是指在反应混合物中释放的葡萄糖或木糖的浓度。X轴列出酶组合物样品的名称/简述。实验细节在实例4中描述。
[0199]图66A-66B :图66A示出如实例4中所述各种量(0.05mg / g至1.0mg / g)的里氏木霉Eg4对通过稀氨水预处理的玉米芯的糖化释放葡萄糖的影响。图66B示出如实例4中所述各种量(O. Img / g至O. 5mg / g)的里氏木霉Eg4对通过稀氨水预处理的玉米芯的糖化释放葡萄糖的影响。
[0200]图67 :示出如实例5中所述在各种固体含量下酶组合物中里氏木霉Eg4对通过稀氨水预处理的玉米秸杆的糖化释放葡萄糖和木糖的影响。
[0201]图68 :示出根据实例7因使用单独的纯化里氏木霉Eg4处理经氨水预处理的玉米芯而导致的葡萄糖单体释放。
[0202]图69 :示出并比较根据实例8在14mg / g的酶剂量下通过里氏木霉整合菌株H3A和整合菌株H3A / Eg4(菌株#27)产生的酶组合物对各种底物的糖化性能。
[0203]图70 :示出根据实例9在各种酶剂量下通过里氏木霉整合菌株H3A和整合菌株H3A / Eg4(菌株#27)产生的酶组合物对酸预处理的玉米秸杆的糖化性能。
[0204]图71 :示出根据实例10通过里氏木霉整合菌株H3A和整合菌株H3A / Eg4(菌株#27)产生的酶组合物对稀氨水预处理的玉米叶、茎杆或玉米芯的糖化性能。
[0205]图72A(左图)_72B (右图):图72A示出用于糖化的各种酶组合物的量;图72B示出通过对应于图72A的每种酶组合物产生的葡萄糖、葡萄糖+纤维二糖或木糖的量。实验细节见于实例14。
[0206]图73 :比较根据实例11通过里氏木霉整合菌株H3A和整合菌株H3A / Eg4 (菌株#27)产生的酶组合物在释放的葡萄糖或木糖的量方面的糖化性能。
[0207]图74 :示出根据实例12在增加量的通过里氏木霉整合菌株H3A / Eg4(菌株#27)产生的酶组合物下葡聚糖和木聚糖转化百分比的变化。
[0208]图75 :不出根据实例13部分A添加里氏木霉Eg4对稀氨水预处理的玉米芯糖化的影响。
[0209]图76 :示出根据实例13部分B通过里氏木霉Eg4进行的CMC水解。
[0210]图77 :示出根据实例13部分C通过里氏木霉Eg4进行的纤维二糖水解。
[0211]图78 :示出如实例17所述具有Fv3C开放阅读框的pENTR / D-TOPO载体。
[0212]图79A-79B :图79A示出如实例17中的表达载体pTrex6g。图79B示出如实例17的表达构建体pTrex6g / Fv3C。
[0213]图80示出如实例17所述的Fv3C基因组DNA序列的预测编码区。
[0214]图81A-81B :图8IA示出Fv3C的N端氨基酸序列。箭头表示推定的信号肽裂解位点。成熟蛋白的起点带有下划线。图81B示出根据实例17的从注释(I)和可供选择(2)起始密码子表达Fv3C的里氏木霉转化体的SDS-PAGE凝胶。
[0215]图82 :比较在50°C下全纤维素酶加β -葡糖苷酶混合物在磷酸溶胀纤维素的糖化中的性能。将IOmg蛋白/ g纤维素的全纤维素酶与5mg / gβ -葡糖苷酶共混,并将酶混合物用于在ΡΗ5. O下水解O. 7%纤维素的磷酸溶胀纤维素。在图中标记为背景的样品是不添加葡糖苷酶而仅由IOmg / g全纤维素酶获得的转化。反应在50°C下在微量滴定板中进行2h。样品根据实例19部分A —式三份地进行测试。
[0216]图83 :比较在50°C下全纤维素酶加β -葡糖苷酶混合物在酸预处理的玉米秸杆(PCS)的糖化中的性能。将IOmg蛋白/ g纤维素的全纤维素酶与5mg / g@_葡糖苷酶共混,并将酶混合物用于在PH5. O下水解13%固体含量的PCS。标记为背景的样品是不添加β-葡糖苷酶而仅由IOmg / g全纤维素酶获得的转化。反应在50°C下在微量滴定板中进行48h。样品根据实例19部分B —式三份地进行测试。[0217]图84 :比较在50°C下全纤维素酶加β -葡糖苷酶混合物在氨水预处理的玉米芯的糖化中的性能。将IOmg蛋白/ g纤维素的全纤维素酶与8mg / g半纤维素酶和5mg /gi3 -葡糖苷酶共混,并将酶混合物用于在PH5. O下水解20%固体含量的氨水预处理玉米芯。标记为背景的样品是不添加葡糖苷酶而仅由IOmg / g全纤维素酶加8mg / g半纤维素混合物获得的转化。反应在50°C下在微量滴定板中进行48h。样品根据实例19部分C 一式三份地进行测定。
[0218]图85 :比较在50°C下全纤维素酶加β -葡糖苷酶混合物在氢氧化钠(NaOH)预处理的玉米芯的糖化中的性能。将IOmg蛋白/g纤维素的全纤维素酶与5mg / -葡糖苷酶共混,并将酶混合物用于在PH5. O下水解17%固体含量的NaOH预处理玉米芯。标记为背景的样品是不添加β_葡糖苷酶而仅由IOmg / g全纤维素酶混合物获得的转化。反应在50°C下在微量滴定板中进行48h。各样品根据实例19部分D —式四份地进行测定。
[0219]图86 :比较在50°C下全纤维素酶加β-葡糖苷酶混合物在稀氨水预处理的柳枝稷草的糖化中的性能。将IOmg蛋白/ g纤维素的全纤维素酶与5mg / g@_葡糖苷酶共混,并将酶混合物用于在PH5. O下水解17%固体含量的柳枝稷草。标记为背景的样品是不添加β-葡糖苷酶而仅由IOmg / g全纤维素酶混合物获得的转化。反应在50°C下在微量滴定板中进行48h。各样品根据实例19部分E —式四份地进行测定。
[0220]图87 :比较在50°C下全纤维素酶加β -葡糖苷酶混合物在AFEX玉米秸杆的糖化中的性能。将IOmg蛋白/ g纤维素的全纤维素酶与5mg / gβ -葡糖苷酶共混,并将酶混合物用于在ΡΗ5. O下水解14%固体含量的AFEX玉米秸杆。标记为背景的样品是不添加β-葡糖苷酶而仅由IOmg / g全纤维素酶混合物获得的转化。反应在50°C下在微量滴定板中进行48h。各样品根据实例19部分F —式四份地进行测定。
[0221]图88A-88C:示出以O与50%之间的量在不同β -葡糖苷酶与全纤维素酶比率下通过20%固体含量的稀氨水预处理玉米芯获得的葡聚糖转化百分比。酶剂量对于各实验保持恒定。图88Α示出用里氏木霉Bgll`进行的实验。图88Β示出用Fv3C进行的实验。图88C示出用黑曲霉Bglu (An3A)进行的实验。实验细节见于本文的实例20。
[0222]图89 :示出根据实例21通过2. 5_40mg / g葡聚糖剂量水平下的三种不同酶组合物由20%固体含量的稀氨水预处理玉米芯获得的葡聚糖转化百分比。P标记通过AccelIerasel500+Multifect木聚糖酶观察到的葡聚糖转化,一标记用得自里氏木霉整合菌株H3A的全纤维素酶观察到的葡聚糖转化,标记用包含75重量%得自里氏木霉整合菌株H3A的全纤维素酶加25重量% Fv3C的酶组合物观察到的葡聚糖转化。
[0223]图90A-90I :图90A示出如实例22中所述用于在黑曲霉中表达的pRAX2_Fv3C表达质粒的图谱。图90B示出如实例2中所述的pENTR-TOPO-Bgl 1-943 / 942质粒。图90C示出如实例2中所述的pTrex3g943 / 942载体。图90D示出如实例2中所述的pENTR/里氏木霉Xyn3质粒。图90E示出如实例2中所述的pTrex3g /里氏木霉Xyn3表达载体。图90F示出如实例2中所述的pENTR-Fv3A质粒。图90G示出如实例2中所述的pTrex6g /Fv3A表达载体。图90H示出如实例2中所述的TOPO Blunt / Pegll_Fv43D质粒。图901示出如实例2中所述的TOPO Blunt / Pegll_Fv51A质粒。
[0224]图91 :示出里氏木霉β -木糖苷酶与Fv3A之间的氨基酸比对。
[0225]图92 :示出某些GH39 β -木糖苷酶的氨基酸序列比对。以黑体表示的带下划线残基是预测的催化广义酸碱残基(在比对上方用“A”标记)和催化亲核体残基(在比对上方用“N”标记)。在底部两个序列中以正常字体表示的带下划线残基在相应三维结构的活性
位点(分别为pdb :luhv和2bs9)中的底物的以内。预测Fv39A序列中带下划线的残基在活性位点中结合底物的4人以内。
[0226]图93 :示出某些GH43家族水解酶的氨基酸序列比对。在家族成员之中保守的氨基酸残基带有下划线并以黑体表示。
[0227]图94 :示出某些GH51家族酶的氨基酸序列比对。在家族成员之中保守的氨基酸残基以下划线和黑体表示。
[0228]图95A-95B :示出某些GHlO和GHll家族内切木聚糖酶的氨基酸序列比对。图95A :GHlO家族木聚糖酶的比对。以黑体表示的带下划线残基为催化亲核体残基(在比对上方用“N”标记)。图95B:GH11家族木聚糖酶的比对。以黑体表示的带下划线残基为催化亲核体残基和广义酸碱残基(在比对上方分别用“N”和“A”标记)。
[0229]图96 :示出多种GH3家族水解酶的氨基酸序列比对。在家族成员之中高度保守的氨基酸残基以下划线和黑体表示。
[0230]图97 :示出两种代表性镰刀菌属GH30家族水解酶的氨基酸序列比对。在家族成员之中保守的氨基酸残基以下划线和黑体表示。
[0231]图98列出GH61内切葡聚糖酶的多种氨基酸序列基序。
[0232]图99A-99D :图99A示出编码Fv3C /里氏木霉Bgl3嵌合/融合多肽的基因的示意图。图99B示出编码融合/嵌合多肽Fv3C /里氏木霉Bgl3的核苷酸序列(SEQ ID NO :
`92)。图99C示出编码融合/嵌合多肽Fv3C/里氏木霉Bgl3的氨基酸序列(SEQ ID NO:
93)。以黑体表示的序列来自里氏木霉Bgl3。实验细节在实例23中描述。
[0233]图100 :是如实例23中的pTTT-pyrG13_FV3C / Bgl3融合质粒的图谱。
[0234]图101A-101B :图IOlA示出编码Fv3C / Te3A/里氏木霉Bgl3嵌合体的核苷酸序列(SEQ ID NO :92);图IOlB示出编码Fv3C / Te3A /里氏木霉Bgl3嵌合体的氨基酸序列(SEQ I DNO :95)。
[0235]图102A-102B:图102A:是列出β -葡糖苷酶多肽(包括如其变体、突变体或融合/嵌合多肽)的合适氨基酸序列基序的表格。图102Β :是列出用于设计β -葡糖苷酶多肽杂合体/嵌合体的氨基酸序列基序的表格。
[0236]图103A-103C :图 103Α 示出 pTTT-pyrG13_FAB (即 Fv3C / Te3A / Bgl3 嵌合体)融合质粒;图 103B示出 pCR-Blunt II-Pcbh2-xyn3_cbhl 终止子质粒;图 103C示出 pCR-BluntII-TOPO / Pegll-Egl4-suc质粒。实验细节见于实例23。
[0237]图104示出并比较转化体对稀氨水预处理的玉米芯的糖化性能。根据实例23,选择具有良好木聚糖和葡聚糖转化的菌株进行进一步表征。
[0238]图105A-J :图105A示出从第一角度查看使得“插入I”的结构可见的Fv3C和Te3A以及里氏木霉Bgll的三维叠加结构。图105B示出从第二角度查看使得“插入2”的结构可见的相同叠加结构。图105C示出从第三角度查看使得“插入3”的结构可见的相同叠加结构。图10?示出从第四角度查看使得“插入4”的结构可见的相同叠加结构。图105E是均为环状结构的用插入1-4标记的里氏木霉Bgll(Q12715_TRI)、Te3A(ABG2_T_eme)和Fv3C(FV3C)的序列比对。图105F示出Fv3C(浅灰)、Te3A(深灰)和里氏木霉Bgll (黑色)的结构的叠加部分,表明残基W59 / W33与W355 / W325 (Fv3C / Te3A)之间的保守相互作用。图105G示出Fv3C(浅灰)、Te3A(深灰)和里氏木霉8811(黑色)的结构的叠加部分,表明第一对残基:S57 / 31和N291 / 261(Fv3C / Te3A)之间;以及第二组残基:Y55 / 29、P775 / 729和A778 / 732 (Fv3C / Te3A)之间的保守相互作用。图105H示出Fv3C(深灰)和里氏木霉Bgll (黑色)的结构的叠加部分,表明在K162处的Fv3C与“插入2”中V409的主链氧原子的氢键相互作用,一种在Te3A中保守但不存在于里氏木霉Bgll中的相互作用。图105I(a)-(b)示出在SEQ ID NO :201内的保守糖基化位点,其在Fv3C、Te3A以及SEQ ID NO :95的嵌合/杂合β-葡糖苷酶之中共有,(a)示出与Te3A (深灰)和里氏木霉Bgll (黑色)叠加的相同区域;(b)示出与SEQ ID NO:95的嵌合/杂合β -葡糖苷酶(浅灰)、Te3A(深灰)和里氏木霉Bgll (黑色)叠加的相同区域。黑色箭头指示在Te3A(也存在于SEQ ID NO :95的杂合β -葡糖苷酶中)中“插入3”的环结构,其似乎埋藏了糖基化聚糖。图105J示出Fv3C(浅灰)、Te3A(深灰)和里氏木霉Bgll (黑色)的结构的叠加部分,表明残基W386 / 355与Fv3C和Te3A的“插入2”的W95 / 68 (Fv3C / Te3A)相互作用之间的保守相互作用。该相互作用在里氏木霉Bgll中不存在。
[0239]图106A-B :图106A :示出如实例24中所述的酶组合物的代表性UPLC迹线。图106B :是列出在相同实例中的酶组合物的酶组分的测定量的表格。
5.【具体实施方式】
[0240]酶在传统上已按底物特异性和反应产物分类。在前基因组时代,功能被视为比较酶最适合(或许还是最有用)的基础,并且在过去多年中各种酶活性的测定法已得到了很好的开发,从而产生了熟悉的EC分类方案。作用于碳水化合物部分(或存在于硝基酚-糖苷衍生物中的碳水化合物与非碳水化合物部分)之间的糖苷键的纤维素酶和其他糖基水解酶在此分类方案下被命名为EC3. 2. I. _,其中最后一个数字表示裂解的键的精确类型。例如,内切作用的纤维素酶(1,4-β-内切葡聚糖酶)被命名为EC3. 2. 1.4。随着广泛的基因组测序项目的出现,测序数据已有利`于相关基因和蛋白的分析与比较。另外,已经得到了越来越多数量的能够作用于碳水化合物部分的酶(即碳水化物酶)的晶体并解析了它们的三维结构。此类分析已经鉴定了具有相关序列的不同家族的酶,这些酶包含能基于其氨基酸序列加以预测的保守三维折叠。另外,已表明,具有相同或相似三维折叠的酶表现出相同或相似的水解立体特异性,甚至在催化不同的反应时也是如此(Henrissat et al. ,FEBSLettl998,425 (2) :352-4 (Henrissat等人,《欧洲生化学会联合会快报》,1998年,第425卷,第 2 期,第 352-354 页);Coutinho and Henrissat, Genetics, biochemistry and ecologyof cellulose degradation,1999,T. Kimura. Tokyo,Uni Publishers Co : 15-23 (Coutinho和Henrissat,《纤维素降解的遗传学、生物化学和生态学》,1999年,T. Kimura,东京UniPublishers出版社,第15-23页))。这些发现构成了碳水化物酶模块的基于测序的分类基础,其可以互联网数据库的形式碳水化合物活性酶服务器(CAZy)在afmb. cnrs-mrs.fr / CAZY / index, html 获得(Carbohydrate-active enzymes :an integrated databaseapproach (碳水化合物活性酶:集成数据库方法)。参见Cantarel et al. , 2009, NucleicAcids Res. 37 (Database issue) :D233_38 (Cantarel 等人,2009 年,《核酸研究》,第 37 卷(数据库专刊),第D233-38页))。
[0241]CAZy定义了四大类可由所催化的反应的类型区别的碳水化物酶:糖基水解酶(GH)、糖基转移酶(GT)、多糖裂解酶(PL)和碳水化合物酯酶(CE)。本发明的酶为糖基水解酶。GH是一组水解两种碳水化合物之间的或碳水化合物与非碳水化合物部分之间的糖苷键的酶。按序列相似性分组的糖基水解酶的分类系统已导致定义了超过85个不同的家族。该分类可在CAZy网站上获得。
[0242]本发明的酶尤其属于糖基水解酶家族3、10、11、30、39、43、51和/或61。
[0243]糖苷水解酶家族3 ( “GH3”)酶包括例如B-葡糖苷酶(EC :3. 2. I. 21) ;B-木糖苷酶(EC :3. 2. I. 37) ;N-乙酰基β -氨基葡糖苷酶(EC :3. 2. I. 52);葡聚糖β_1,3_葡糖苷酶(EC :3. 2. I. 58);纤维糊精酶(EC :3. 2. I. 74);外切-I,3-1,4-葡聚糖酶(EC :3. 2. I);和β-半乳醣苷酶(EC3. 2. I. 23)。例如,GH3酶可以是那些具有β -葡糖苷酶、β -木糖苷酶、N-乙酰基氨基葡糖苷酶、葡聚糖β-1,3-葡糖苷酶、纤维糊精酶、外切-1,3-1,4-葡聚糖酶和/或半乳醣苷酶活性的酶。一般来讲,GH3酶是球状蛋白,并可由两个或更多个亚结构域组成。一种催化残基已作为葡糖苷酶中的天冬氨酸残基得到了鉴定,该残基位于肽N端第3位并处于氨基酸片段SDW内(Li et al. 2001, Biochem. J. 355 =835-840 (Li等人,2001年,《生物化学杂志》,第355卷,第835-840页))。得自里氏木霉的Bgll中的相应序列为T266D267W268 (从起始位置的甲硫氨酸开始计),而催化残基天冬氨酸为D267。羟基/天冬氨酸序列也在所测试的GH3P-木糖苷酶中为保守的。例如,里氏木霉Bxll中的相应序列为S310D311,而Fv3A中的相应序列为S290D291。
[0244]糖苷水解酶家族39 ( “GH39”)酶具有a -L-艾杜糖醛酸酶(EC :3. 2. I. 76)或β-木糖苷酶(EC :3. 2. I. 37)活性。已经解析了得自解糖梭菌(T. saccharolyticum)(Uniprot登录号P36906)和 嗜热脂肪地芽孢杆菌(G. stearothermophilus) (Uniprot登录号Q9ZFM2)的两种GH39P-木糖苷酶的三维结构(参见Yang et al. J. Mol. Biol. 2004,335(1) :155-65 (Yang等人,《分子生物学杂志》,2004年,第335卷,第I期,第155-165页)以及 Czjzek et al.,J. Mol. Biol. 2005,353 (4) :838-46 (Cz jzek 等人,《分子生物学杂志》,2005年,第335卷,第4期,第838-846页))。在这些酶中最高度保守的区域位于它们的N端部分,该部分具有经典的(α / β)8ΤΙΜ桶状折叠,而两个关键的活性位点谷氨酸位于β_链4(酸/碱)和7(亲核体)的C端末端。基于上述得自解糖梭菌和嗜热脂肪地芽孢杆菌的GH39 β -木糖苷酶与Fv39A的序列比对,预测Fv39A残基E168和E272分别作为催化酸-碱和亲核体发挥作用。
[0245]糖苷水解酶家族43 ( “GH43”)酶包括例如L- α -阿拉伯呋喃糖酶(EC3. 2. 1.55);β-木糖苷酶(EC3.2. 1.37);内切阿拉伯聚糖酶(EC3.2. 1.99);和/或半乳聚糖1,3-β-半乳糖苷酶(EC3. 2. I. 145)。例如,GH43酶可具有L-α -阿拉伯呋喃糖酶活性、β -木糖苷酶活性、内切阿拉伯聚糖酶活性和/或半乳聚糖1,3-β -半乳糖苷酶活性。GH43家族酶展示出五叶片β螺旋桨状(five-bladed-β-propeller-like)结构。螺旋桨状结构基于由四链β折叠片组成的叶片的五折叠重复。广义催化碱天冬氨酸盐、广义催化酸谷氨酸盐和调节广义碱pKa的天冬氨酸盐通过纤维弧菌(C. japonicus) CjAbn43A的晶体结构而鉴定,并通过定点诱变确认(参见Nurizzo et al. Nat. Struct. Biol. 2002,9 (9)665-8 (Nurizzo等人,《自然-结构与分子生物学》,2002年,第9卷,第9期,第665-668页))。催化残基被布置在三个保守区,这些保守区广泛分布于氨基酸序列中(Pons etal. Proteins-Structure, Function and Bioinformatics, 2004, 54 :424-432 (Pons 等人,《蛋白质:结构、功能和生物信息学》,2004年,第54卷,第424-432页))。在测试在生物质水解方面的有用活性的GH43家族酶之中,以图93序列中的黑体和带下划线残基显示了预测的催化残基。嗜热脂肪地芽孢杆菌木糖苷酶的晶体结构(Brux et al. J. Mol. Bio. ,2006,359 :97-109 (Brux等人,《分子生物学杂志》,2006年,第359卷,第97-109页))表明在此酶中可能对底物结合很重要的若干另外的残基。由于测试生物质水解的GH43家族酶具有不同的底物偏好,因此它们的残基在图93中进行比对的序列中不完全保守。然而,在所测试的木糖苷酶之中,通过疏水相互作用或通过氢键而有助于底物结合的若干保守残基是保守的并通过图93中的单条下划线注明。
[0246]糖苷水解酶家族51 ( “GH51”)酶具有L- α -阿拉伯呋喃糖酶(EC3. 2. I. 55)和/或内切葡聚糖酶(EC3. 2. I. 4)活性。得自嗜热脂肪地芽孢杆菌Τ-6的GH51L-a -阿拉伯呋喃糖酶的高分辨率晶体结构表明该酶为六聚体,而每个单体组织成两个结构域:8_桶状(β / α)结构域,和具有果酱卷(jelly-roll)拓扑结构的12链β三明治结构域(参见Hovel et al. EMBO J. 2003,22(19) :4922-4932( H5vel 等人,《欧洲分子生物学学会杂志》,2003年,第22卷,第19期,第4922-4932页))。可以预计,在家族的酶序列中催化残基将是酸性和保守的。当将Fv51A、Pf51A和Pa51A的氨基酸序列与更多样化序列的GH51酶进行比对时,8个酸性残基仍为保守的。那些残基在图94中以黑体显示并带有下划线。
[0247]糖苷水解酶家族10 ( “GH10”)酶也具有8桶状(β / α)结构。它们通过在广义酸/碱催化过程中使用至少一个酸性催化残基的保持机理以内切方式进行水解(Pellet al.,J. Biol. Chem.,2004,279 (10) :9597-9605 (Pell 等人,《生物化学杂志》,2004 年,第279卷,第10期,第9597-9605页))。已解析了在活性位点中与底物复合的简青霉(P. simplicissimum) (Uniprot P56588)和嗜热子囊菌(T. aurantiacus) (Uniprot P23360)的GHlO木聚糖酶的晶体结构(参见 Schmidt etal. Biochem.,1999,38 :2403-2412 (Schmidt等人,《生物化学》,1999年,第38卷,第2403-2412页);和Lo Leggio et al. FEBSLett. 2001,509 =303-308 (Lo Leggio等人,《欧洲生化学会联合会快报》,2001年,第509卷,第303-308页))。对底物结合和 催化很重要的里氏木霉Xyn3残基可根据与得自简青霉和嗜热子囊菌(图95A)的上述GHlO木聚糖酶的比对推导出。里氏木霉Xyn3残基E282预测为催化亲核残基,而残基 E91、N92、K95、Q97、S98、H128、W132、Q135、N175、E176、Y219、Q252、H254、W312和/或W320经预测涉及底物结合和/或催化。
[0248]糖苷水解酶家族11 ( “GH11”)酶具有果酱卷结构。它们通过在广义酸/碱催化过程中使用至少一个酸性催化残基的保持机理以内切方式进行水解。在其整个结构中分布的若干其他残基可有助于稳定在与通过水解而裂解的成对木糖单体相邻的底物中的木糖单元。测试了三种GHll家族内切木聚糖酶,并将它们的序列在图95Β中进行了比对。Ε118(或成熟里氏木霉Xyn2中的Ε86)和E209 (或成熟里氏木霉Xyn2中的E177)已被分别鉴定为里氏木霉Xyn2中的催化亲核体和广义酸碱残基(参见Havukainenet al. Biochem.,1996, 35 :9617-24 (Havukainen 等人,《生物化学》,1996 年,第 35 卷,第9617-9624 页))。
[0249]糖苷水解酶家族30 (“GH30”)酶是具有葡糖神经酰胺酶(EC3. 2. I. 45)、β -I,6_葡聚糖酶(EC3. 2. I. 75), β -木糖苷酶(EC3. 2. I. 37)、β -葡糖苷酶(3. 2. I. 21)活性的构型保持酶。第一个 GH30 晶体结构是由 Grabowski 等人(Crit Rev Biochem Mol Bioll990 ;25 (6) 385-414 (《生物化学和分子生物学评论》,1990年,第25卷,第6期,第385-414页))解析的戈谢病相关人β-葡糖脑苷脂酶。GH30具有(α / β )8--Μ桶状折叠,而两个关键的活性位点谷氨酸位于β -链4(酸/碱)和7(亲核体)的C端末端(Henrissat B, etal. Proc Natl Acad Sci U S A,92(15) :7090-4,1995(Henrissat B等人,《美国国家科学院院刊》,第 92 卷,第 15 期,第 7090-7094 页,1995 年);Jordan et al.,Applied MicrobiolBiotechnol,86 : 1647,2010 (Jordan等人,《应用微生物学与生物技术》,第86卷,第1647页,2010年))。Fv30A的第162位谷氨酸在14个比对的GH30蛋白(13个细菌蛋白和一个得自真菌链二孢属(Biospora)登录号ADG62369的内切-β-木聚糖酶)的14个中为保守的,而Fv30A的第250位谷氨酸在相同的14个蛋白的10个中为保守的,在另三个中为天冬氨酸,在一个中为非酸性的。存在其他中度保守的酸性残基,但无其他残基广泛保守。
[0250]糖苷水解酶61( “GH61”)酶已在真核生物中得以鉴定。对于得自红褐肉座菌(H. jecorina)的Cel61A,观察到了弱内切葡聚糖酶活性(Karlsson et al,Eur J Biochem,2001,268(24) :6498-6507 (Karlsson等人,《欧洲生物化学杂志》,2001年,第268卷,第24期,第6498-6507页))。GH61多肽促进纤维素酶对木质纤维素底物的酶促水解(Harriset al, 2010, Biochemistry, 49 (15),3305-16 (Harris 等人,2010 年,《生物化学》,第 49 卷,第15期,3305-3316页))。对涉及甲壳质降解的同源多肽的研究预测了 GH61多肽采用氧化水解机理,这种机理需要电子供体底物并且其中涉及二价金属离子(Vaaje-Kolstad,2010,Science, 330 (6001), 219-22 (Vaaje-Kolstad, 2010 年,《科学》,第 330 卷,第 6001期,第219-222页))。这与以下观察一致:GH61多肽对木质纤维素底物降解的协同作用依赖于二价离子(Harris et al, 2010, Biochemistry, 49 (15), 3305-16 (Harris 等人,2010年,《生物化学》,第49卷,第15期,第3305-3316页))。此外,GH61多肽的可用结构具有通过许多完全保守的氨基酸残基连接的二价原子(Karkehabadi,2008,J. Mol. Biol.,383 (I),144-54 (Karkehabadi,2008年,《分子生物学杂志》,第383卷,第I期,第144-154页);Harr is et al, 2010`, Biochemistry, 49 (15), 3305-16 (Harris 等人,2010 年,《生物化学》,第49卷第15期,第3305-3316页))。GH61多肽在通过保守残基形成的金属结合位点具有平坦的表面并可能涉及底物结合(Karkehabadi,2008,J. Mol. Biol.,383(1),144-54(Karkehabadi,2008年,《分子生物学杂志》,第383卷,第I期,第144-154页))。
[0251]如本文与诸如DNA或RNA的核酸一起使用的术语“分离的”是指分子分别与存在于核酸天然来源中的其他DNA或RNA分离。此外,所谓“分离的核酸”旨在包括不作为片段天然存在的并且将不以自然状态存在的核酸片段。术语“分离的”当与多肽一起使用时是指与其他细胞蛋白分离的那些多肽,或指纯化的和重组的多肽。术语“分离的”也指当通过重组DNA技术产生时基本上不含细胞物质、病毒物质或培养基的核酸或肽。如本文所用的术语“分离的”也指当通过化学方式合成时基本上不含化学前体或其他化学品的核酸或肽。
[0252]除非另外定义,否则本文使用的所有技术和科学术语具有本发明所属领域的普通技术人员通常理解的相同含义。Singleton,et al.,DICTIONARY OF MICROBIOLOGY ANDMOLECULAR BIOLOGY, 2D ED. , John Wiley and Sons, New York (1994) (Singleton 等人,微生物学和分子生物学词典,第2版,约翰成立父子出版公司,纽约,1994年),和Hale &Marham, The Harper Collins Dictionary of Biology, Harper Perennial, N. Y. (1991)(Hale 和 Marham, Harper Collins 生物学词典,Harper Perennial 出版社,纽约,1991 年)向技术人员提供本发明使用的多种术语的通用词典。虽然任何与本文所述的那些方法和材料相似或等同的方法和材料均可用于实施或测试本发明,但描述的是优选的方法和材料。数值范围包括限定该范围的数值。应当理解,本发明并不限于所述的具体方法、规程和试剂,它们可以有所不同。
[0253]本文提供的标题并不排除本发明的其他各个方面或实施例,这些方面或实施例都可以藉对说明书做整体参考而获致。因此,通过整体参考本说明书可更完全地限定下文定义的术语。
[0254]本发明提供包含具有糖基水解酶家族61 (“GH61”)/内切葡聚糖酶活性的多肽的组合物,编码所提供的多肽的核苷酸,包含所提供的核苷酸的载体以及包含所提供的核苷酸和/或载体的细胞。本发明还提供使用所提供的组合物水解生物质材料和/或降低生物质混合物粘度的方法。
[0255]如本文所用,多肽X的“变体”是指具有多肽X的氨基酸序列的多肽,其中一个或多个氨基酸残基发生了改变。变体可具有保守或非保守变化。确定可以置换、插入或缺失而不影响生物活性的氨基酸残基的指导原则可使用本领域熟知的计算机程序例如LASERGENE软件(DNASTAR)发现。本发明的变体包括与前体酶氨基酸序列相比包含改变的氨基酸序列的多肽,其中变体酶保持前体酶的特征性纤维素水解性质,但是可在一些特定的方面具有改变的特性,例如与前体酶相比增加或降低的最佳PH值、增加或降低的氧化稳定性、增加或降低的热稳定性以及增加或降低的对一种或多种底物的比活性水平。
[0256]术语“变体”在多核苷酸序列的背景下使用时可涵盖与基因或其编码序列的多核苷酸序列相关的多核苷酸序列。这一定义还可以包括例如“等位”、“剪接”、“物种”或“多态”变体。剪接变体可具有与参考多核苷酸显著的同一性,但由于在mRNA加工期间外显子的可变剪接通常将具有更大数目或更小数目的残基。相应的多肽可具有另外的功能结构域或不存在结构域。物种变体是在物种之间`不同的多核苷酸序列。所得的多肽通常将具有相对于彼此显著的氨基酸同一性。多态变体是指定物种的个体之间特定基因的多核苷酸序列的变化。
[0257]如本文所用,多核苷酸X的“突变体”是指其中一个或多个氨基酸残基已发生了氨基酸置换同时保持天然酶活性(即,催化某些水解反应的能力)的多肽。因此,由于在本文对该术语的定义,突变X多肽构成特定类型的多肽。突变X多肽可通过将一个或多个氨基酸置换进多肽的天然或野生型氨基酸序列而制备。在一些方面,本发明包括与前体酶氨基酸序列相比包含改变的氨基酸序列的多肽,其中变体酶保持前体酶的特征性纤维素水解或半纤维素水解性质,但是可在一些特定的方面具有改变的特性,例如与前体酶相比增加或降低的最佳PH值、增加或降低的氧化稳定性、增加或降低的热稳定性以及增加或降低的对一种或多种底物的比活性水平。确定可以置换、插入或缺失而不影响生物活性的氨基酸残基的指导原则可使用本领域熟知的计算机程序例如LASERGENE软件(DNASTAR)发现。氨基酸置换可以是保守的或非保守的,并且此类置换的氨基酸残基可以为或可以不为由遗传密码编码的残基。氨基酸置换可位于多肽碳水化合物结合结构域(CBM)中、多肽催化结构域(CD)中和/或CBM和CD两者中。标准二十个氨基酸“字母表”已基于其侧链的相似性分成化学家族。那些家族包括具有碱性侧链(如赖氨酸、精氨酸、组氨酸)、酸性侧链(如天冬氨酸、谷氨酸)、不带电极性侧链(如甘氨酸、天冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、酪氨酸、半胱氨酸)、非极性侧链(如丙氨酸、缬氨酸、亮氨酸、异亮氨酸、脯氨酸、苯丙氨酸、甲硫氨酸、色氨酸)、β -支化侧链(如苏氨酸、缬氨酸、异亮氨酸)和芳族侧链(如酪氨酸、苯丙氨酸、色氨酸、组氨酸)的氨基酸。“保守氨基酸置换”是其中氨基酸残基被具有化学相似侧链的氨基酸残基替换(即,将具有碱性侧链的氨基酸替换为具有碱性侧链的另一种氨基酸)的置换。“非保守氨基酸置换”是其中氨基酸残基被具有化学不同侧链的氨基酸残基替换(即,将具有碱性侧链的氨基酸替换为具有芳族侧链的另一种氨基酸)的置换。
[0258]如本文所用,宿主细胞“异源”的多肽或核酸是指不天然存在于宿主细胞中的多肽或核酸。
[0259]本文提及“约”值或参数包括(并描述)涉及该值或参数自身的变化。例如,提及“约X”的描述包括“X”的描述。
[0260]除非上下文另有明确表示,否则如本文和所附权利要求书中所用,单数形式“一”、“一个/ 一种”和“该/所述”包括多个指代物。
[0261]应当理解,本文所述的方法和组合物的多个方面和变型形式包括“由这些方面和变型形式组成”和/或“基本上由这些方面和变型形式组成”。术语“包含”比“由…组成”或“基本上由…组成”更广。
[0262]如本文所用,术语“可操作地连接”意指所选的核苷酸序列(例如,编码本文所述的多肽)与调控序列(例如启动子)紧邻以允许该序列调节所选DNA的表达。例如,按照转录和翻译的方向,启动子位于所选核苷酸序列的上游。所谓“可操作地连接”是指核苷酸序列和调控序列的连接方式使得在合适的分子(例如转录活化蛋白)结合到调控序列时允许基因表达。
[0263]如本文所用,术语“在低严格性、中等严格性、高严格性或极高严格性条件下杂交”描述杂交和洗漆的条件。进行杂交反应的指南可见于Current Protocols in MolecularBiology, John Wiley & Sons, N. Y. (1989),6. 3. 1-6.3.6(《(分子生物学现行方案》,约翰威立出版社,纽约,1989年,6. 3. 1-6. 3. 6)。含水和不含水的方法在该参考文献中有所描述,可以使用任一方法。本文提及的具体杂交条件如下:I)在约45°C下在6X氯化钠/柠檬酸钠(SSC)中的低严格性杂交条件,然后在至少50°C下在0. 2X SSC.0. 1% SDS中洗涤两次(洗涤的温度对于低严格性条件可增加到55°C) ;2)在约45°C下在6X SSC中的中等严格性杂交条件,然后在60°C下在0. 2X SSC、0. 1% SDS中洗涤一次或多次;3)在约45°C下在6XSSC中的高严格性杂交条件,然后在65°C下在0.2. X SSC、0. 1% SDS中洗涤一次或多次;以及优选地4)极高严格性杂交条件为65°C下的0. 5M磷酸钠、7% SDS,然后在65°C下在0. 2XSSCU% SDS中洗涤一次或多次。除非另外指明,否则极高严格性条件(4)是优选的条件。
[0264]5. I本发明的多肽
[0265]本发明提供包含下述氨基酸序列的分离的、合成的或重组的多肽,所述氨基酸序列在至少约 10(例如至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上或在全长催化结构域(CD)或全长碳水化合物结合结构域(CBM)上与SEQ ID N054、56、58、60、62、64、66、68、70、72、74、
76、78、79、93和95的任一者具有至少约60% (例如至少约60 %、65%、70%、75 %、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或 100% )的同一性。该分离的、合成的或重组的多肽可具有β_葡糖苷酶活性。在某些实施例中,该分离的、合成的或重组的多肽为β -葡糖苷酶多肽,其包括例如变体、突变体和杂合/嵌合β -葡糖苷酶多肽。在某些实施例中,本发明提供为两个或更多个葡糖苷酶序列的杂合体/嵌合体的具有葡糖苷酶活性的多肽,其中所述两个或更多个葡糖苷酶序列的第一序列为至少约200(例如至少约200、250、300、350、400或500)个氨基酸残基长并包含SEQ ID NO:96-108的氨基酸序列基序的一者或多者或全部,所述两个或更多个葡糖苷酶序列的第二序列为至少约50 (例如至少约50、75、100、125、150、175或200)个氨基酸残基长并包含SEQ ID NO :109-116的氨基酸序列基序的一者或多者或全部。具体地讲,两个或更多个β-葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO :197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个β-葡糖苷酶的第二序列为至少50个氨基酸残基长并包含SEQ ID Ν0:203。在一些实施例中,第一序列位于嵌合/杂合β -葡糖苷酶多肽的N端,而第二序列位于嵌合/杂合β -葡糖苷酶多肽的C端。在一些实施例中,第一序列通过其C端连接到第二序列的N端。例如,第一序列紧邻或直接连接到第二序列。或者,第一序列不紧邻第二序列,而是通过接头结构域连接第一和第二序列。在某些实施例中,第一序列、第二序列或第一和第二序列包含I个或多个糖基化位点。在一些实施例中,第一或第二序列包含环序列或编码环状结构的序列。在某些实施例中,环序列为约3、4、5、6、7、8、9、10或11个氨基酸残基长,包含FDRRSPG(SEQ IDNO :204)或FD(R / K) YNIT(SEQ ID NO :205)的氨基酸序列。在某些实施例中,第一和第二序列均不含环序列,而是连接第一和第二序列的接头结构域包含这样的环序列。杂合/嵌合葡糖苷酶多肽与第一、第二或接头结构域序列每一者所来源的对应葡糖苷酶相比具有改善的稳定性。在一些实施例中,改善的稳定性为改善的蛋白水解稳定性或在标准储存条件下的储存期间或标准表达和/或生产条件下的表达和/或生产期间对蛋白水解裂解的耐性,例如环序列中的残基处或环序列外的残基处的蛋白水解裂解。
[0266] 在某些方面,本发明提供分离的、合成的或重组的葡糖苷酶多肽,所述多肽为至少2(例如2、3或甚至4)个β-葡糖苷酶序列的杂合体,其中至少2个β-葡糖苷酶序列的第一序列为至少约200 (例如至少约200、250、300、350或400)个氨基酸残基长并包含与 SEQ ID NO : 54、56、58、 62、64、66、68、70、72、74、76、78 和 79 的任一者的相等长度的序列具有至少约 60% (例如至少约 65%,70%,75%,80%,85%,90%,91%,92%,93%,94%,95%、96%、97%、98%、99%或100%)同一性的序列的序列,而至少2个β-葡糖苷酶序列的第二序列为至少约50 (例如至少约50、75、100、125、150或200)个氨基酸残基长并包含与SEQ ID NO :60的相等长度的序列具有至少约60% (例如至少约65%、70%、75%、80%、85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100% )同一性的序列的序列。本发明还提供具有β_葡糖苷酶活性的分离的、合成的或重组的多肽,其为至少2(例如2、3或甚至4)个β-葡糖苷酶序列的杂合体,其中至少2个β-葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含与SEQ ID NO :60的相等长度的序列具有至少约60%同一性的序列的序列,而至少2个β -葡糖苷酶序列的第二序列为至少约500个氨基酸残基长并包含与 SEQ ID NO :54、56、58、62、64、66、68、70、72、74、76、78 和 79 的任一者的相等长度的序列具有至少约60%同一性的序列的序列。具体地讲,两个或更多个β-葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO :197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个β-葡糖苷酶的第二序列为至少50个氨基酸残基长并包含SEQ ID Ν0:203。在一些实施例中,第一序列位于嵌合或杂合β-葡糖苷酶多肽的N端,而第二序列位于嵌合或杂合β-葡糖苷酶多肽的C端。在一些实施例中,第一序列通过其C端连接到第二序列的N端,例如第一序列与第二序列相邻或直接连接到第二序列。或者,第一序列不与第二序列相邻,而是通过接头结构域将第一序列连接到第二序列。第一序列、第二序列或第一和第二序列可包含I个或多个糖基化位点。第一或第二序列可包含环序列或编码环状结构的序列,其衍生自第三葡糖苷酶多肽,其为约3、4、5、6、7、8、9、10或11个氨基酸残基长,包含H)RRSPG(SEQ ID NO :204)或FD(R/K)YNIT(SEQ ID NO :205)的氨基酸序列。在某些实施例中,第一和第二序列均不含环序列,而是连接第一和第二序列的接头结构域包含这样的环序列。在一些实施例中,杂合/或嵌合葡糖苷酶多肽与第一、第二或接头结构域序列每一者所来源的对应葡糖苷酶多肽相比具有改善的稳定性。在一些实施例中,改善的稳定性为改善的蛋白水解稳定性,从而使得融合/嵌合多肽不易在标准储存条件下的储存期间或标准表达/生产条件下的表达和/或生产期间发生环序列中的残基处或环序列外的残基或位置处的蛋白水解裂解。
[0267]在某些方面,本发明提供衍生自2个或更多个葡糖苷酶序列的融合/嵌合β -葡糖苷酶多肽,其中第一序列衍生自Fv3C并为至少约200个氨基酸残基长,而第二序列衍生自里氏木霉Bgl3(或“Tr3B”)并为至少约50个氨基酸残基长。在一些实施例中,第一序列的C端连接到第二序列的N端,使得第一序列紧邻或直接连接到第二序列。或者,第一序列通过接头结构域连接到第二序列。在一些实施例中,第一或第二序列包含衍生自第三β -葡糖苷酶多肽的环序列,其为约3、4、5、6、7、8、9、10或11个氨基酸残基长,并包含 FDRRSPG (SEQ ID NO :204)或 FD(R / K) YNIT (SEQ ID NO :205)的氨基酸序列。在某些实施例中,连接第一和第二序列的接头结构域包含环序列。在某些实施例中,环序列衍生自Te3A。在一些实施例中,融合/嵌合β -葡糖苷酶多肽与嵌合部分的每一者所来源的对应β-葡糖苷酶多肽相比,例如与Fv3C、Te3A和/或Tr3B相比,具有改善的稳定性。在一些实施例中,改善的稳定性为改善的蛋白水解稳定性,从而使得融合/嵌合多肽不易在标准储存条件下的储存期间或标准表达`/生产条件下的表达和/或生产期间发生环序列中的残基处或环序列外的残基或位置处的蛋白水解裂解。例如,融合/嵌合多肽在环序列C端上游的残基处与Fv3C多肽在相同的位置(例如当对嵌合体和Fv3C多肽的序列进行比对时)处相比不易发生蛋白水解裂解。
[0268]本发明还提供包含下述氨基酸序列的具有葡糖苷酶活性的分离的、合成的或重组的多肽,所述氨基酸序列在全长催化结构域(CD)或全长碳水化合物结合结构域(CBM)上与 SEQ ID NO :54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 任一者具有至少约 60% (例如至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%,96%,97%,98%,99%^; 100% )的序列同一性。
[0269]在一些方面,本发明提供包含下述氨基酸序列的分离的、合成的或重组的多肽,所述氨基酸序列在至少约10(例如至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上或在全长催化结构域(CD)或碳水化合物结合结构域(CBM)上与SEQ ID NO :52、80-81、206_207的任一者具有至少约 60% (例如至少约 60%,65%,70%,75%,80%,85%,90%,91%,92%,93%,94%、95%、96%、97%、98%、99%或100%)的同一性。在某些实施例中,该分离的、合成的或重组的多肽具有GH61 /内切葡聚糖酶活性。本发明还提供包含至少约50 (例如至少约50、100、150、200、250或300)个氨基酸残基长的氨基酸序列,包含选自以下的序列基序的一者或多者的分离的、合成的或重组的多肽= (I)SEQ ID N0:84和88 ;(2)SEQ ID NO :85和88; (3) SEQ ID NO :86 ; (4) SEQ ID NO :87 ; (5) SEQ ID NO :84、88 和 89 ; (6) SEQ ID NO :85、88和 89 ; (7)SEQ ID NO :84、88和 90 ; (8)SEQ ID NO :85、88和 90 ; (9)SEQ ID NO :84、88和
91; (IO)SEQ ID NO :85、88 和 91 ;(11)SEQ ID NO :84、88、89 和 91 ; (12)SEQ ID NO :84、88、90 和 91 ; (13) SEQ ID NO :85、88、89 和 91 :以及(14) SEQ ID NO :85、88、90 和 91。在某些实施例中,该多肽为GH61内切葡聚糖酶多肽,例如得自合适微生物的EG IV多肽,例如里氏木霉Eg4。在一些实施例中,GH61内切葡聚糖酶多肽为衍生自里氏木霉Eg4的变体、突变或融合多肽(例如与 SEQ ID NO :52 具有至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的多肽)。
[0270]本发明还提供在至少约10例如至少约15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300、325 或 350 个残基的区域上或在全长未成熟多肽、全长成熟多肽、全长催化结构域(CD)或碳水化合物结合结构域(CBM)上与SEQ ID NO :2、4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、43和45的任一者的多肽具有至少约70%例如至少约71%、72%、73%、74%、75%、76%、77%、78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 %,92%,93%、94%、95%、96%、97%、98%或99%或完全(100%)同一性的分离的、合成的或重组的多肽。
[0271]本发明在一些方面提供编码葡糖苷酶多肽的分离的、合成的或重组的核苷酸,所述β-葡糖苷酶多肽在至少约10(例`如至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上或在全长催化结构域(⑶)或碳水化合物结合结构域(CBM)上与SEQ ID NO :54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 的任一者具有至少约 60% (例如至少约 60%,65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或100% )的序列同一性。在一些实施例中,分离的、合成的或重组的核苷酸编码具有β-葡糖苷酶活性的融合/嵌合多肽,所述多肽包含第一序列和第二序列,第一序列为至少约200(例如至少约200、250、300、350、400或500)个氨基酸残基长并包含SEQ ID NO =96-108的氨基酸序列基序的一者或多者或全部,第二序列为至少约50 (例如至少约50、75、100、125、150、175或200)个氨基酸残基长并包含SEQ ID NO :109-116的氨基酸序列基序的一者或多者或全部。具体地讲,两个或更多个葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO =197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个葡糖苷酶的第二序列为至少50个氨基酸残基长并包含SEQ ID NO: 203 0在某些实施例中,第一序列的C端连接到第二序列的N端。在其他实施例中,第一和第二 β -葡糖苷酶序列通过接头结构域连接,所述接头结构域可包含环序列,其为约3、4、5、6、7、8、9、10或11个氨基酸残基长,并衍生自包含FDRRSPG(SEQ ID NO :204)或FD(R / K)YNIT(SEQ IDNO :205)的氨基酸序列的第三葡糖苷酶多肽。[0272]在某些方面,本发明提供编码β_葡糖苷酶多肽的分离的、合成的或重组的核苷酸,所述多肽为至少2(例如2、3或甚至4)个葡糖苷酶序列的杂合体,其中第一葡糖苷酶序列为至少约200 (例如至少约200、250、300、350或400)个氨基酸残基长并包含与 SEQ ID NO :54、56、58、62、64、66、68、70、72、74、76、78 和 79 的任一者的相等长度的序列具有至少约 60% (例如至少约 65%,70%,75%,80%,85%,90%,91%,92%,93%,94%,

同一性的序列的序列,而第二 β -葡糖苷酶序列为至少约50(例如至少约50、75、100、125、150或200)个氨基酸残基长并包含与SEQ ID NO :60的相等长度的序列具有至少约60% (例如至少约65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100% )同一性的序列的序列。本发明还提供编码具有β_葡糖苷酶活性的多肽的分离的、合成的或重组的核苷酸,所述多肽为至少2(例如2、3或甚至4)个β -葡糖苷酶序列的杂合体或融合体,其中第一序列为至少约200(例如至少约200、250、300、350或400)个氨基酸残基长并包含与SEQ ID NO :60的相等长度的序列具有至少约60% (例如至少约65%、70%、75%、80%、85%、90%、91%、92%、93%,94%,95%,96%,97%,98%,99%^ 100% )同一性的序列的序列,而第二序列为至少约50(例如至少约50、75、100、125、150或200)个氨基酸残基长并包含与SEQ ID Ν054、56、58、62、64、66、68、70、72、74、76、78和79的任一者的相等长度的序列具有至少约60%(例如至少约 65%,70%,75%,80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,
同一性的序列的序列。具体地讲,两个或更多个β_葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO :197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个β_葡糖苷酶的第二序列为至少50个氨基酸残基长并包含SEQ ID Ν0:203。在一些实施例中,核苷酸编码位于嵌合/融合β-葡糖苷酶多肽N端的第一氨基酸序列和位于嵌合/融合β-葡糖苷酶多肽C端的第二氨基酸序列,其中第一序列的C端连接到第二序列的N端。或者,第一序列通过接头结构域连接到第二序列。在一些 实施例中,第一氨基酸序列、第二氨基酸序列或接头结构域包含含有代表环状结构的序列的氨基酸序列,所述代表环状结构的序列衍生自第三β -葡糖苷酶多肽,为约3、4、5、6、7、8、9、10或11个氨基酸残基长,并包含FDRRSPG(SEQ ID NO :204)或 FD(R/K) YNIT(SEQ ID NO :205)的氨基酸序列。
[0273]在一些方面,本发明提供与SEQID NO :52、55、57、59、61、63、65、67、69、71、73、75、77,92或94的任一者或与其至少约300 (例如至少约300、400、500或600)个残基长的片段具有至少 60% (例如至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100% )同一性的分离的、合成的或重组的核苷酸。在某些实施例中,本发明提供在低严格性、中等严格性、高严格性或极高严格性条件下能够杂交到 SEQ ID NO :53、55、57、59、61、63、65、67、69、71、73、75、77、92 或 94 的任一者或杂交到其至少约300个残基长的片段或杂交到其互补序列的分离的、合成的或重组的核苷酸。
[0274]本发明还在某些方面提供编码具有GH61 /内切葡聚糖酶活性的多肽的分离的、合成的或重组的核苷酸,所述多肽包含在至少约10 (例如至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上或在全长催化结构域(⑶)或碳水化合物结合结构域(CBM)上与SEQ ID NO :52、80-81、206-207 的任一者具有至少约 60 % (例如至少约 60 %、65 %、70 %、75 %、80 %、85 %、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或 100% )同一性的氨基酸序列。在一些实施例中,本发明提供编码如下多肽的分离的、合成的或重组的多核苷酸,所述多肽包含至少约50 (例如至少约50、100、150、200、250或300)个氨基酸残基长的氨基酸序列,包含选自以下的序列基序的一者或多者=(I)SEQ ID NO :84和88 ;(2)SEQ ID NO :85和88 ;
(3)SEQ ID NO :86 ; (4) SEQ ID NO :87 ; (5) SEQ ID NO :84、88 和 89 ; (6) SEQ ID NO :85、88 和89; (7) SEQ ID NO :84、88 和 90 ; (8) SEQ ID NO :85、88 和 90 ; (9) SEQ ID NO :84、88 和 91 ;(IO)SEQ ID NO :85、88 和 91 ;(11)SEQ ID NO :84、88、89 和 91 ; (12)SEQ ID NO :84、88、90和 91;(13)SEQ ID NO :85、88、89 和 91 :以及(14) SEQ ID NO :85、88、90 和 91。在某些实施例中,该多核苷酸为编码与SEQ ID NO :52具有至少约60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或 100%序列同一性的多肽的多核苷酸。在一些实施例中,该多核苷酸编码GH61内切葡聚糖酶多肽(例如来自合适生物体的EG IV多肽,例如但不限于里氏木霉Eg4)。
[0275]在一些方面,本发明提供编码在至少约10例如至少约15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300、325 或 350 个残基的区域上或在全长未成熟多肽、成熟多肽、催化结构域(CD)或碳水化合物结合结构域(CBM)上与 SEQ ID NO :2、4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、43和45的任一者的多肽具有至少约70% (例如至少约71 %、72%、73%、74%、75%、76%,77%,78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91%、92%、93%、94%、95%、96%、97%、98%或 99%或完全(100%))同一性的多肽的分离的、合成的或重组的多核苷酸。在一些方面,本发明提供与SEQ ID NO :1、3、5、7、9、11、
13、15、17、19、21、23、25、27、29、31、33、35、37、39 和 41 的任一者或与其至少约 10、20、30、40、50、60、70、80、90、100个残基长的片段具有至少约70% (例如至少约71%,72%,73%,74%,75%,76%,77%,78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%、90%、91%、92%、93%、94 %、95%、96%、97%、98%或 99%或完全(100% ))同一性的分离的、合成的或重组的多核苷酸。在一些实施例中,本发明提供在低严格性条件、中等严格性条件、高严格性条件或极高严格性条件下杂交到SEQ ID NO :1、3、5、7、9、11、13、15、
17、19、21、23、25、27、29、31、33、35、37、39和41任一者或杂交到其片段或子序列的分离的、合成的或重组的多核苷酸。
[0276]本文所述的任何氨基酸序列可与至少I个(例如至少2、3、5、10或20个)位于指定氨基酸序列C端和/或N端末端每一个的侧翼的异源氨基酸和/或本发明酶的C端和/或N端末端的至少I个(例如至少2、3、5、10或20个)氨基酸的缺失一起或相结合产生。
[0277]其他变型形式在本发明的范围内。例如,可对一个或多个氨基酸残基进行修饰以增大或减小酶的pi。Pl值的变化可通过移除谷氨酸残基或将其置换为另一氨基酸残基而实现。
[0278]本发明具体提供β -葡糖苷酶多肽,包括例如Fv3C、Pa3D、Fv3G、Fv3D、Tr3A (或里氏木霉 Bgl I)、Tr3B (或里氏木霉 Bgl3)、Te3A、An3A、Fo3A、Gz3A、Nh3A、Vd3A、Pa3G 和 Tn3B多肽。在一些实施例中,葡糖苷酶多肽为包含2个或更多个β-葡糖苷酶序列的融合/嵌合葡糖苷酶,所述序列衍生自上述葡糖苷酶多肽的任一者(包括其变体或突变体)。例如,β -葡糖苷酶多肽为包含可操作地连接到Tr3B的一部分的Fv3C的一部分的嵌合/融合多肽。例如,β -葡糖苷酶多肽为包含第一部分、第二部分和第三部分的嵌合/融合多肽,所述第一部分包含从Fv3C的N端序列获取的至少约200个残基的连续段;所述第二部分包含接头结构域,所述接头结构域包含约3、4、5、6、7、8、9、10或11个残基长的环序列,所述环序列包含衍生自Te3A的序列(例如包含FDRRSPG (SEQ ID NO :204)或FD(R / K)YNIT (SEQ ID NO :205)的氨基酸序列);所述第三部分包含衍生自Tr3B的C端序列的至少约50个残基的连续段。
[0279]本发明还提供多种GH61内切葡聚糖酶多肽,包括例如里氏木霉Eg4(也称为“ TrEG4 ”)、里氏木霉Eg7 (也称为“ TrEG7 ”或“ TrEGb ”)、TtEG。在某些实施例中,本发明的GH61内切葡聚糖酶多肽为至少100个残基长,并包含选自以下的序列基序的一者或多者:
(I)SEQ ID NO :84 和 88 ; (2) SEQ ID NO :85 和 88 ; (3) SEQ ID NO :86 ; (4) SEQ IDNO :87 ; (5)SEQ ID NO :84、88 和 89 ; (6)SEQ ID NO :85、88 和 89 ; (7) SEQ ID NO :84、88 和 90 ; (8) SEQID NO :85,88 和 90 ; (9)SEQ ID NO :84、88 和 91 ; (IO)SEQ ID NO :85、88 和 91 ; (Il)SEQ IDNO :84、88、89 和 91 ; (12)SEQ ID NO :84、88、90 和 91 ; (13) SEQ ID NO :85、88、89 和 91 :以及
(14)SEQ ID NO :85、88、90 和 91。
[0280]本发明还提供多种纤维素酶多肽和半纤维素酶多肽,包括例如Fv3A、Pf43A、Fv43E、Fv39A、Fv43A、Fv43B、Pa51A、Gz43A、Fo43A、Af43A、Pf51A、AfuXyn2、AfuXyn5、Fv43D、Pf43B、Fv43B、Fv51A、里氏木霉Xyn3、里氏木霉Xyn2和里氏木霉Bxll。
[0281]这些酶的一种或多种(例如2种或更多种、3种或更多种、4种或更多种、5种或更多种或甚至6种或更多种)的组合适合存在于本发明的工程改造的酶组合物中,其中所述酶的至少2种衍生自不同的生物来源。在本发明的工程改造的酶组合物中所述酶的至少一种或多种相对于组合物中蛋白的组合重量适合以不同于其天然存在的组合物中的重量百分比的重量百分比存在,例如所述酶的至少一种可以过表达或低表达。
`[0282]Fv3A :Fv3A 的氡某酸序列(SEQ ID NO :2)在图 16B 和 91 中示出。SEQ ID NO :2是未成熟Fv3A的序列。Fv3A具有对应于SEQ ID NO :2的第I至23位残基的预测信号序列;信号序列的裂解预计会产生具有对应于SEQ ID NO :2的第24至766位残基的序列的成熟蛋白。预测的保守结构域在图16B中以黑体表示。例如,在使用对硝基苯基-β_吡喃木糖苷、木二糖、混合的直链木糖低聚物、得自半纤维素的支链阿拉伯木聚糖低聚物或稀氨水预处理的玉米芯作为底物的酶测定法中,Fv3A表现出具有β_木糖苷酶活性。预测的催化残基为D291,而侧翼残基S290和C292经预测涉及底物结合。Ε175和Ε213在其他GH3和GH39酶中为保守的并经预测具有催化功能。如本文所用,“Fv3A多肽”是指包含与SEQ IDNO :2的第24至766位残基之中的至少50个例如至少75、100、125、150、175、200、250、300、350、400、450、500、550、600、650或700个连续氨基酸残基具有至少约85%例如至少86%、87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的序列的多肽和/或其变体。与天然Fv3A相比,Fv3A多肽优选地在残基D291、S290、C292、E175和E213中无改变。Fv3A多肽优选地在如图91的比对中所示在Fv3A、里氏木霉Bxll和/或里氏木霉Bgll之中保守的氨基酸残基的至少70%、75%、80%、85%、90%、95 %、98 %或99 %中无改变。Fv3A多肽适当地包含如图16B中所示的天然Fv3A的全部预测保守结构域。本发明的Fv3A多肽具有β-木糖苷酶活性,具有与SEQ ID NO :2的氨基酸序列或与 SEQ ID NO :2 的⑴第 24-766 位、(ii)第 73-321 位、(iii)第 73-394 位、(iv)第395-622 位、(V)第 24-622 位或(vi)第 73-622 位残基至少 90 %、91 %、92 %、93 %、94%、95%,96%,97%,98%,99%^; 100% 的序列同一性。
[0283]Pf43A :Pf43A 的氨基酸序列(SEQ ID NO :4)在图 17B 和 93 中显示。SEQ ID NO :4是未成熟Pf43A的序列。Pf43A具有对应于SEQ ID NO :4的第I至20位残基的预测信号序列;信号序列的裂解预计会产生具有对应于SEQ ID NO :4的第21至445位残基的序列的成熟蛋白。在图17B中,预测的保守结构域以黑体表示,预测的CBM以大写字母表示,而预测的分隔CD与CBM的接头以斜体表示。例如在使用对硝基苯基-吡喃木糖苷、木二糖、混合的直链木聚糖低聚物或氨水预处理的玉米芯作为底物的酶测定法中,Pf43A表现出具有β -木糖苷酶活性。预测的催化残基包括D32或D60、D145和Ε206。在图93中带下划线的C端区域为预测的CBM。如本文所用,“Pf43A多肽”是指包含与SEQ ID NO :4的第 21 至 445 位残基中的至少 50、75、100、125、150、175、200、250、300、350 或 400 个连续氨基酸残基具有至少 85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性的序列的多肽和/或其变体。与天然Pf43A相比,Pf43A多肽优选地在残基D32或D60、D145和E206中无改变。Pf43A优选地在包括Pf43A的蛋白家族和图93比对中的1、2、3、4、5、6、7或所有8个其他氨基酸序列中保守存在的氨基酸残基的至少70%、80%、90%、95%、98%或99%中无改变。本发明的Pf43A多肽适当地包含以下结构域中的两个或更多个或全部:⑴预测的CBM,⑵预测的保守结构域,以及
(3)Pf43A的接头,如图17B中所示。本发明的Pf43A多肽具有β -木糖苷酶活性,与SEQID NO :4的氨基酸序列或与SEQ ID NO :4的⑴第21-445位、(ii)第21-301位、(iii)第21-323 位、(iv)第 21-444 位、(V)第 302-444 位、(vi)第 302-445 位、(vii)第 324-444 位或(viii)第 324-445位残基具有至少 90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性。该多肽适当地具有木糖苷酶活性。
[0284]Fv43E :Fv43E 的氨基酸序列(SEQ ID NO :6)在图 18B 和 93 中示出。SEQ ID NO :6是未成熟Fv43E的序列。Fv43E具有对应于SEQ ID NO :6的第I至18位残基的预测信号序列;信号序列的裂解预计会产生具有对`应于SEQ ID NO :6的第19至530位残基的序列的成熟蛋白。预测的保守结构域在图18B中以黑体标记。例如在使用4-硝基苯基-β-D-吡喃木糖苷、木二糖和混合的直链木聚糖低聚物或氨水预处理的玉米芯作为底物的酶测定法中,Fv43E表现出具有β-木糖苷酶活性。预测的催化残基包括D40或D71、D155和Ε241。如本文所用,“Fv43E多肽”是指包含与SEQ ID NO :6的第19至530位残基之中的至少50、75、100、125、150、175、200、250、300、350、400、450 或 500 个连续氨基酸残基具有至少 85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或 100%序列同一性的序列的多肽和/或其变体。与天然Fv43E相比,Fv43E多肽优选地在残基D40或D71、D155和E241中无改变。Fv43E多肽优选地在据发现在包括Fv43E的酶家族和图93比对中的1、2、3、4、5、6、7或所有其他8个氨基酸序列之中保守的氨基酸残基的至少70%、80%、90%、95%、98%或99%中无改变。本发明的Fv43E多肽优选地具有β-木糖苷酶活性,其与SEQ ID NO :6的氨基酸序列,或与SEQ ID NO :6的⑴第19-530位、(ii)第29-530 位、(iii)第 19-300 位或(iv)第 29-300 位残基具有至少 90%、91 %、92%、93%、94%,95%,96%,97%,98%,99%^; 100%序列同一性。
[0285]Fv39A :Fv39A 的氨基酸序列(SEQ ID NO :8)在图 19B 和 92 中示出。SEQ ID NO :8是未成熟Fv39A的序列。Fv39A具有对应于SEQ ID NO :8的第I至19位残基的预测信号序列;信号序列的裂解预计会产生具有对应于SEQ ID NO :8的第20至439位残基的序列的成熟蛋白。预测的保守结构域在图19B中以黑体显示。在例如使用对硝基苯基-β_吡喃木糖苷、木二糖或混合的直链木聚糖低聚物作为底物的酶测定法中,Fv39A表现出具有β -木糖苷酶活性。基于得自解糖梭菌(Uniprot登录号Ρ36906)和嗜热脂肪地芽孢杆菌(Uniprot登录号Q9ZFM2)的上述GH39木聚糖苷酶与Fv39A的序列比对,Fv39A残基E168和E272预测分别用作催化酸-碱和亲核体。如本文所用,“Fv39A多肽”是指包含与SEQ ID NO :8的第20至439位残基之中的至少50、75、100、125、150、175、200、250、300、350或400个连续氨基酸残基具有至少 85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性的序列的多肽和/或其变体。与天然Fv39A相比,Fv39A多肽优选地在残基E168和E272中无改变。Fv39A多肽优选地在包括Fv39A的酶家族以及得自解糖梭菌和嗜热脂肪地芽孢杆菌(参见上文)的木糖苷酶之中保守的氨基酸残基的至少70%、80%、90%、95%、98%或99%中无改变。Fv39A多肽适当地包含如图19B中所示的天然Fv39A的全部预测保守结构域。本发明的Fv39A多肽优选地具有β -木聚糖苷酶活性,与SEQ ID NO :8的氨基酸序列,或与SEQ ID NO :8的⑴第20-439位、(ii)第20-291 位、(iii)第 145-291 位或(iv)第 145-439 位残基具有至少 90%、91 %、92%、93%、94%,95%,96%,97%,98%,99%^; 100%序列同一性。
[0286]Fv43A :Fv43A 的氨基酸序列(SEQ ID NO :10)在图 20B 和 93 中提供。SEQ ID NO :10是未成熟Fv43A的序列。Fv43A具有对应于SEQ ID NO :10的第I至22位残基的预测信号序列;信号序列的裂解预计会产生具有对应于SEQ ID NO :10的第23至449位残基的序列的成熟蛋白。在图20B中,预测的保守结构域以黑体表示,预测的CBM以大写字母表示,分隔CD与CBM的预测接头以斜体表示。在例如使用4-硝基苯基-β -D-吡喃木糖苷、木二糖、混合的直链木聚糖低聚物、得自半纤维素的支链阿拉伯木聚糖低聚物和/或直链木聚糖低聚物作为底物的酶测定法中,Fv43A表现出具有β-木糖苷酶活性。预测的催化残基包括D34或D62、D148和E209。 如本文所用,“Fv43A多肽”是指包含与SEQ ID NO :10的第23至449位残基之中的至少50、75、100、125、150、175、200、250、300、350或400个连续氨基酸残基具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%、99%或100%序列同一性的序列的多肽和/或其变体。与天然Fv43A相比,Fv43A多肽优选地在残基D34或D62、D148和E209处无改变。Fv43A多肽优选地在包括Fv43A的酶家族和图93比对中的1、2、3、4、5、6、7、8或所有9个其他氨基酸序列之中保守的氨基酸残基的至少70 %、80 %、90 %、95 %、98 %或99 %中无改变。Fv43A多肽适当地包含天然Fv43A的全部预测CBM和/或天然Fv43A的全部预测保守结构域和/或Fv43A的接头,如图20B中所示。本发明的Fv45A多肽优选地具有β-木糖苷酶活性,与SEQ ID Ν0:10的氨基酸序列或与 SEQ ID NO :10 的⑴第 23-449 位、(ii)第 23-302 位、(iii)第 23-320 位、(iv)第23-448 位、(V)第 303-448 位、(vi)第 303-449 位、(vii)第 321-448 位或(viii)第 321-449位残基具有至少 90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100% 的序列同一I"生。
[0287]Fv43B :Fv43B 的氨基酸序列(SEQ ID NO :12)在图 21B 和 93 中示出。SEQ ID NO :12是未成熟Fv43B的序列。Fv43B具有对应于SEQ ID NO :12的第I至16位残基的预测信号序列;信号序列的裂解预计会产生具有对应于SEQ ID NO :12的第17至574位残基的序列的成熟蛋白。预测的保守结构域在图21B中以黑体表示。在例如使用4-硝基苯基-β -D-吡喃木糖苷和对硝基苯基- a -L-呋喃阿拉伯糖苷作为底物的第一酶测定法中,Fv43B表现出同时具有木糖苷酶和L-α-阿拉伯呋喃糖酶活性。已表明,在第二酶测定法中,其催化阿拉伯糖从支链阿拉伯糖-木糖低聚物释放以及在存在其他木糖苷酶的情况下催化从低聚物混合物中增加木糖的释放。预测的催化残基包括D38或D68、D151和Ε236。如本文所用,“Fv43B多肽”是指包含与SEQ ID NO :12的第17至574位残基之中的至少50、75、100、125、150、175、200、250、300、350、400、450、500或550个连续氨基酸残基具有至少 85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%序列同一性的序列的多肽和/或其变体。与天然Fv43B相比,Fv43B多肽优选地在残基D38或D68、D151和E236处无改变。Fv43B多肽优选地在包括Fv43B的酶家族和图93比对中的1、2、3、4、5、6、7、8或所有9个其他氨基酸序列之中保守的氨基酸残基的至少70%、80%、90%、95%、98%或99%中无改变。Fv43B多肽适当地包含如图21B和93中所示的天然Fv43B的全部预测保守结构域。本发明的Fv43B多肽优选地具有β -木糖苷酶活性、L- α -阿拉伯呋喃糖酶活性或β -木糖苷酶和L- α -阿拉伯呋喃糖酶活性两者,与SEQ ID NO :12的氨基酸序列或与SEQ ID NO :12的⑴第17-574位、(ii)第27-574位、
(iii)第 17-303 位或(iv)第 27-303 位残基具有至少 90%,91 %,92%,93%,94%,95%,96%,97%,98%,99%^; 100% 的序列同一性。
[0288]Pa51A :Pa51A 的氨基酸序列(SEQ ID NO :14)在图 22B 和 94 中示出。SEQ ID NO :14是未成熟Pa51A的序列。Pa51A具有对应于SEQ ID NO :14的第I至20位残基的预测信号序列;信号序列的裂解预计会产生具有对应于SEQ ID NO :14的第21至676位残基的序列的成熟蛋白。预测的L-α-阿拉伯呋喃糖酶保守结构域在图22B中以黑体表示。在例如使用人工底物对硝基苯基-β -吡喃木糖苷和对硝基苯基-a -L-呋喃阿拉伯糖苷的酶测定法中,Pa51A表现出同时具有木糖苷酶活性和L-α-阿拉伯呋喃糖酶活性。已表明,其催化阿拉伯糖从支链阿拉伯糖-木`糖低聚物释放以及在存在其他木糖苷酶的情况下催化从低聚物混合物中增加木糖的释放。保守的酸性残基包括E43、D50、E257、E296、E340、E370、E485和E493。如本文所用,“Pa51A多肽”是指包含与SEQ ID NO : 14的第21至676位残基之中的至少50、75、100、125、150、175、200、250、300、350、400、450、500、550、600或650个连续氨基酸残基具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%、97%、98%、99%或100%序列同一性的序列的多肽和/或其变体。与天然Pa51A相比,Pa51A 多肽优选地在残基 E43、D50、E257、E296、E340、E370、E485 和 E493 处无改变。Pa51A多肽优选地在如图94比对中所示的一组酶(包括Pa51A、Fv51A和Pf51A)中保守的氨基酸残基的至少70%、80%、90%、95%、98%或99%中无改变。Pa51A多肽适当地包含如图22B中所示的天然Pa51A的预测保守结构域。本发明的Pa51A多肽优选地具有β-木糖苷酶活性、L- α -阿拉伯呋喃糖酶活性或β -木糖苷酶和L- α -阿拉伯呋喃糖酶活性两者,与SEQ ID NO: 14的氨基酸序列或与SEQ ID NO :14的⑴第21-676位、(ii)第21-652位、(iii)第 469-652 位或(iv)第 469-676 位残基具有至少 90%、91 %、92%、93%、94%、95%,96%,97%,98%,99%^; 100% 的序列同一性。
[0289]Gz43A :Gz43A 的氨基酸序列(SEQ ID NO :16)在图 23B 和 93 中示出。SEQ ID NO :16是未成熟Gz43A的序列。Gz43A具有对应于SEQ ID NO :16的第I至18位残基的预测信号序列;信号序列的裂解预计会产生具有对应于SEQ ID NO :16的第19至340位残基的序列的成熟蛋白。预测的保守结构域在图23B中以黑体表示。在例如使用对硝基苯基_β -吡喃木糖苷、木二糖或混合和/或直链木聚糖低聚物作为底物的酶测定法中,Gz43A表现出具有木糖苷酶活性。预测的催化残基包括D33或D68、D154和Ε243。如本文所用,“Gz43A多肽”是指包含与SEQ ID NO: 16的第19-340位残基之中的至少50、75、100、125、150、175、200、250 或 300 个连续氨基酸残基具有至少 85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的序列的多肽和/或其变体。与天然Gz43A相比,Gz43A多肽优选地在残基D33或D68、D154和E243处无改变。Gz43A多肽优选地在包括Gz43A的一组酶和图93比对中的1、2、3、4、5、6、7、8或所有9个其他氨基酸序列之中保守的氨基酸残基的至少70%、80%、90%、95%、98%或99%中无改变。6243么多肽适当地包含图23B中所示的天然Gz43A的预测保守结构域。本发明的Gz43A多肽优选地具有β -木糖苷酶活性,与SEQ ID NO :16的氨基酸序列或与SEQ ID NO :16的⑴第19-340位、(ii)第53-340位、(iii)第19-383位或(iv)第53-383位残基具有至少90%、91 %、92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性。
[0290]Fo43A :Fo43A 的氡某酸序列(SEQ ID NO : 18)在图 24B和 93 中示出。SEQ ID NO :18是未成熟Fo43A的序列。Fo43A具有对应于SEQ ID NO :18的第I至20位残基的预测信号序列;信号序列的裂解预计会产生具有对应于SEQ ID NO :18的第21至348位残基的序列的成熟蛋白。预测的保守结构域在图24B中以黑体表示。在例如使用对硝基苯基_β -吡喃木糖苷、木二糖和/或混合的直链木聚糖低聚物作为底物的酶测定法中,Fo43A表现出具有β -木糖苷酶活性。预测的催化残基包括D37或D72、D159和E251。如本文所用,“Fo43A多肽”是指包含与SEQ ID NO: 18的第18至344位残基之中的至少50、75、100、125、150、175、200、250 或 300 个连续氨基酸残基具有至少 85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%序列同一性的序列的多肽和/或其变体。与天然Fo43A相比,Fo43A多肽优选地在残基D37或D72、D159和E251处无改变。Fo43A多肽优选地在包括Fo43A的一组酶和图93比对中的1、2、3、4、5、6、7、8或所有9个其他氨基酸序列之中保守的氨基酸残基的至少 70%、80%、90%、95%、98%或99%中无改变。本发明的Fo43A多肽优选地具有β-木糖苷酶活性,与SEQ ID NO : 18的氨基酸序列或与SEQ IDNO :18 的⑴第 21-341 位、(ii)第 107-341 位、(iii)第 21-348 位或(iv)第 107-348 位残基具有至少 90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100% 的序列同一性。
[0291]Af43A :Af43A 的氨基酸序列(SEQ ID NO :20)在图 25B 和 93 中示出。SEQ ID NO :20是未成熟Af43A的序列。预测的保守结构域在图25B中以黑体表示。在例如使用对硝基苯基-a -L-呋喃阿拉伯糖苷作为底物的酶测定法中,Af43A表现出具有L- α -阿拉伯呋喃糖酶活性。已表明,Af43A催化从经内切木聚糖酶作用而在半纤维素释放的一组低聚物中释放阿拉伯糖。预测的催化残基包括D26或D58、D139和E227。如本文所用,“Af43A多肽”是指包含与SEQ ID NO :20的至少50、75、100、125、150、175、200、250或300个连续氨基酸残基具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%、99%或100%序列同一性的序列的多肽和/或其变体。与天然Af43A相比,Af43A多肽优选地在残基D26或D58、D139和E227处无改变。Af43A多肽优选地在包括Af43A的一组酶和图93比对中的1、2、3、4、5、6、7、8或所有9个其他氨基酸序列之中保守的氨基酸残基的至少70%、80%、90%、95%、98%或99%中无改变。Af43A多肽适当地包含如图25B中所示的天然Af43A的预测保守结构域。本发明的Af43A多肽优选地具有L- α -阿拉伯呋喃糖酶活性,与SEQ ID NO :20的氨基酸序列或与SEQ ID NO :20的⑴第15-558位或(ii)第15-295 位残基具有至少 90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%的序列同一性。
[0292]Pf51A :Pf51A 的氨基酸序列(SEQ ID NO :22)在图 26B 和 94 中示出。SEQ ID NO :22是未成熟Pf51A的序列。Pf51A具有对应于SEQ ID NO :22的第I至20位残基的预测信号序列;信号序列的裂解预计会产生具有对应于SEQ ID NO :22的第21至642位残基的序列的成熟蛋白。预测的L- α -阿拉伯呋喃糖酶保守结构域在图26Β中以黑体表示。在例如使用4-硝基苯基-a -L-呋喃阿拉伯糖苷作为底物的酶测定法中,Pf51A表现出具有L-α -阿拉伯呋喃糖酶活性。已表明,Pf51A催化从经内切木聚糖酶作用而在半纤维素释放的一组低聚物中释放阿拉伯糖。预测的保守酸性残基包括E43、D50、E248、E287、E331、E360、E472和E480。如本文所用,“Pf51A多肽”是指包含与SEQ ID NO :22的第21至642位残基中的至少 50、75、100、125、150、175、200、250、300、350、400、450、500、550 或 600 个连续氨基酸残基具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%、99%或100%序列同一性的序列的多肽和/或其变体。与天然Pf51A相比,Pf51A多肽优选地在残基E43、D50、E248、E287、E331、E360、E472和E480处无改变。Pf51A多肽优选地在如图94比对中所示的Pf51A、Pa51A和Fv51A之中保守的氨基酸残基的至少70%、80 %、90 %、95 %、98 %或99 %中无改变。本发明的Pf 5IA多肽优选地具有L- α -阿拉伯呋喃糖酶活性,与SEQ ID NO :22的氨基酸序列或与SEQ ID NO :22的⑴第21-632位、(ii)第 461-632 位、(iii)第 21-642 位或(iv)第 461-642 位残基具有至少 90%、91 %、92%、93%,94%,95%,96%,97%,98%,99%^; 100% 的序列同一性。
[0293]AfuXvn2 :AfuXyn2 的氨基酸`序列(SEQ ID NO :24)在图 27B 和 95B 中示出。SEQ IDNO :24是未成熟AfuXyn2的序列。其具有对应于SEQ ID NO :24的第I至18位残基的预测信号序列;信号序列的裂解预计会产生具有对应于SEQ ID NO :24的第19至228位残基的序列的成熟蛋白。预测的GHll保守结构域在图27B中以黑体表示。观察发现,在存在木二糖糖苷酶的情况下酶对预处理的生物质或分离的半纤维素起作用时,AfuXyn2具有催化产生更多木糖单体的能力,这间接地证明了其具有内切木聚糖酶活性。保守的催化残基包括E124、E129和E215。如本文所用,“AfuXyn2多肽”是指包含与SEQ ID NO :24的第19至228位残基之中的至少50、75、100、125、150、175或200个连续氨基酸残基具有至少85%、86%、87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的序列的多肽和/或其变体。与天然AfuXyn2相比,AfuXyn2多肽优选地在残基E124、E129和E215处无改变。AfuXyn2多肽优选地在如图95B比对中所示的在AfuXyn2、AfuXyn5和里氏木霉Xyn2之中保守的氨基酸残基的至少70%、80%、90%、95%、98%或99%中无改变。AfuXyn2多肽适当地包含如图27B中所示的天然AfuXyn2的全部预测保守结构域。本发明的AfuXyn2多肽优选地具有木聚糖酶活性。
[0294]AfuXvn5 :AfuXvn5 的氡某酸序列(SEQ ID NO :26)在图 28B 和 95B 中示出。SEQID NO :26是未成熟AfuXyn5的序列。AfuXyn5具有对应于SEQ ID NO :26的第I至19位残基的预测信号序列;信号序列的裂解预计会产生具有对应于SEQ ID NO :26的第20至313位残基的序列的成熟蛋白。预测的GHll保守结构域在图28B中以黑体表示。观察发现,在存在木二糖糖苷酶的情况下酶对预处理的生物质或分离的半纤维素起作用时,AfuXyn5具有催化产生更多木糖单体的能力,这间接地证明了其具有内切木聚糖酶活性。保守的催化残基包括E119、E124和E210。预测的CBM在特征在于多个疏水残基的C端末端附近,并在氨基酸的富丝氨酸、苏氨酸长系列之后。该区域在图95B中以下划线示出。如本文所用,“AfuXyn5多肽”是指包含与SEQ ID NO :26的第20至313位残基之中的至少50、75、100、125、150、175、200、250 或 275 个连续氨基酸残基具有至少 85 %、86 %、87 %、88 %、89 %、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或 100%序列同一性的序列的多肽和/或其变体。与天然AfuXyn5相比,AfuXyn5多肽优选地在残基E119、E120和E210处无改变。AfuXyn5多肽优选地在如图95B比对中所示的AfuXyn5、AfuXyn2和里氏木霉Xyn2之中保守的氨基酸残基的至少70 %、80 %、90 %、95 %、98 %或99 %中无改变。AfuXyn5多肽适当地包含天然AfuXyn5的全部预测CBM和/或图28B中所示的天然AfuXyn5的全部预测保守结构域(带下划线)。本发明的AfuXyn5多肽优选地具有木聚糖酶活性。
[0295]Fv43D :Fv43D 的氨基酸序列(SEQ ID NO :28)在图 29B 和 93 中示出。SEQ ID NO :28是未成熟Fv43D的序列。Fv43D具有对应于SEQ ID NO :28的第I至20位残基的预测信号序列;信号序列的裂解预计会产生具有对应于SEQ ID NO :28的第21至350位残基的序列的成熟蛋白。预测的保守结构域在图29B中以黑体表示。在例如使用对硝基苯基_β -吡喃木糖苷、木二糖和/或混合的直链木聚糖低聚物作为底物的酶测定法中,Fv43D表现出具有木糖苷酶活性。预测的催化残基包括D37或D72、D159和Ε251。如本文所用,“Fv43D多肽”是指包含与SEQ ID NO :28的第21至350位残基之中的至少50、75、100、125、150、175,200,250,300 或 320 个连续氨基酸残基具有至少 85 %、86 %、87 %、88 %、89 %、90 %、91%、92%、93%、94%、95%、96%、97%、98%、99%或 100%序列同一性的序列的多肽和 /或其变体。与天然Fv43D相 比,Fv43D多肽优选地在残基D37或D72、D159和E251处无改变。Fv43D多肽优选地在包括Fv43D的一组酶和图93比对中的1、2、3、4、5、6、7、8或所有9个其他氨基酸序列之中保守的氨基酸残基的至少70%、80%、90%、95%、98%或99%中无改变。Fv43D多肽适当地包含图29B中所示的天然Fv43D的全部预测⑶。本发明的Fv43D多肽优选地具有β -木糖苷酶活性,与SEQ ID NO :28的氨基酸序列或与SEQ ID NO :28的⑴第20-341位、(ii)第21-350位、(iii)第107-341位或(iv)第107-350位残基具有至少 90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%的序列同一性。
[0296]Pf43B :Pf43B 的氨基酸序列(SEQ ID NO :30)在图 30B 和 93 中示出。SEQ ID NO :30是未成熟Pf43B的序列。Pf43B具有对应于SEQ ID NO :30的第I至20位残基的预测信号序列;信号序列的裂解预计会产生具有对应于SEQ ID NO :30的第21至321位残基的序列的成熟蛋白。预测的保守结构域在图30B中以黑体表示。保守结构域内的保守酸性残基包括D32、D61、D148和E212。在例如使用对硝基苯基-β -吡喃木糖苷、木二糖和/或混合的直链木聚糖低聚物作为底物的酶测定法中,Pf43B表现出具有β -木糖苷酶活性。如本文所用,“Pf43B多肽”是指包含与SEQ ID NO :30的第21-321位残基之中的至少50、75、100、125、150、175、200、250 或 280 个连续氨基酸残基具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100% 同一性的序列的多肽和/或其变体。与天然Pf43B相比,Pf43B多肽优选地在残基D32、D61、D148和E212处无改变。Pf43B多肽优选地在包括Pf43B的一组酶和图93比对中的1、2、3、4、5、6、7、8或所有9个其他氨基酸序列之中保守的氨基酸残基的至少70%、80%、90%、95%、98%或99%中无改变。Pf43B多肽适当地包含图30B中所示的天然Pf43B的预测保守结构域。本发明的Pf43B多肽优选地具有β -木糖苷酶活性,与SEQ ID NO :30的氨基酸序列具有至少90%、91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100% 的序列同一性。
[0297]Fv51A :Fv51A 的氨基酸序列(SEQ ID NO :32)在图 31B 和 94 中示出。SEQ ID NO :32是未成熟Fv51A的序列。Fv51A具有对应于SEQ ID NO :32的第I至19位残基的预测信号序列;信号序列的裂解预计会产生具有对应于SEQ ID NO :32的第20至660位残基的序列的成熟蛋白。预测的L-α-阿拉伯呋喃糖酶保守结构域在图31B中以黑体表示。在例如使用4-硝基苯基-a t-L-呋喃阿拉伯糖苷作为底物的酶测定法中,Fv51A表现出具有L-α-阿拉伯呋喃糖酶活性。已表明,Fv51A催化从经内切木聚糖酶作用而在半纤维素释放的一组低聚物中释放阿拉伯糖。保守的残基包括E42、D49、E247、E286、E330、E359、E479和E487。如本文所用,“Fv51A多肽”是指包含与SEQ ID NO :32的第20至660位残基之中的至少50、75、100、125、150、175、200、250、300、350、400、450、500、550、600或625个连续氨基酸残基具有至少 85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的序列的多肽和/或其变体。与天然Fv51A相比,Fv51A多肽优选地在残基E42、D49、E247、E286、E330、E359、E479和E487处无改变。Pf51A多肽优选地在如图94比对中所示的Fv51A、Pa51A和Pf51A之中保守的氨基酸残基的至少70%、80%、90%、95%、98%或99%中无改变。Fv51A多肽适当地包含图31B中所示的天然Fv51A的预测保守结构域。本发明的Fv51A多肽优选地具有L-α -阿拉伯呋喃糖酶活性,与SEQID NO :32的氨基酸序列或与SEQ ID NO :32的⑴第21-660位、(ii)第21-645位、(iii)第 450-645 位或(iv)第 450-660 位残基具有至少 90%、91 %、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性。
[0298]X1TiS :里氏木霉Xyn`3的氨基酸序列(SEQ ID NO :42)在图36B和95A中示出。SEQID NO :42是未成熟的里氏木霉Xyn3的序列。里氏木霉Xyn3具有对应于SEQ ID NO :42的第I至16位残基的预测信号序列;信号序列的裂解预计会产生具有对应于SEQ ID NO :42的第17至347位残基的序列的成熟蛋白。预测的保守结构域在图36B中以黑体表示。观察发现,在存在木二糖糖苷酶的情况下酶对预处理的生物质或分离的半纤维素起作用时,里氏木霉Xyn3具有催化产生更多木糖单体的能力,这间接地证明了其具有内切木聚糖酶活性。保守催化残基包括E91、E176、E180、E195和E282,如通过与另一 GHlO家族酶(得自郝氏链霉菌(Streptomyces halstedii)的 Xysldelta)进行比对而确定(Canals etal.,2003, Act Crystalogr. D Biol. 59 :1447-53 (Canals 等人,2003 年,《结晶学报 D 辑生物结晶学》,第59卷,第1447-1453页)),这种酶与里氏木霉XYn3具有33 %的序列同一性。如本文所用,“里氏木霉Xyn3多肽”是指包含与SEQ ID NO :42的第17至347位残基中的至少50、75、100、125、150、175、200、250 或 300 个连续氨基酸残基具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的序列的多肽和/或其变体。在残基E91、E176、E180、E195和E282处,与天然里氏木霉Xyn3相t匕,里氏木霉Xyn3多肽优选地为未改变的。里氏木霉Xyn3多肽优选地在里氏木霉Xyn3与Xysldelta之间保守的氨基酸残基的至少70%、80%、90%、95%、98%或99%中无改变。里氏木霉Xyn3多肽适当地包含图36B中所示的天然里氏木霉Xyn3的全部预测保守结构域。本发明的里氏木霉Xyn3多肽优选地具有木聚糖酶活性。
[0299]XH12:里氏木霉Xyn2的氨基酸序列(SEQ ID NO:43)示于图37和95B中。SEQ IDNO:43是未成熟里氏木霉Xyn2的序列。里氏木霉Xyn2具有对应于SEQ ID NO:43第I至33位残基的预测前体肽原序列;在第16位和17位之间的预测信号序列的裂解预测会产生前肽,该前肽经位于第32位和33位之间的kexin样蛋白酶处理,生成具有对应于SEQ IDNO:43第33至222位残基的序列的成熟蛋白质。预测的保守结构域在图37中以黑体表示。观察发现,在存在木二糖糖苷酶的情况下酶对预处理的生物质或分离的半纤维素起作用时,里氏木霉Xyn2具有催化产生更多木糖单体的能力,这间接地证明了其具有内切木聚糖酶活性。保守酸性残基包括E118、E123和E209。如本文所用,“里氏木霉Xyn2多肽”是指包含与SEQ ID NO:43第33至222位残基中的至少50、75、100、125、150、或175个连续氨基酸残基具有至少 85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%序列同一性的序列的多肽和/或其变体。在残基E118、E123和E209处,与天然里氏木霉Xyn2相比,里氏木霉Xyn2多肽优选地为未改变的。里氏木霉Xyn2多肽优选地如图95B的比对中所示的在里氏木霉Xyn2、AfuXyn2和AfuXyn5之中保守的氨基酸残基的至少70%、80%、90%、95%、98%、或99%中无改变。里氏木霉Xyn2多肽适当地包含图37所示的天然里氏木霉Xyn2的全部预测保守结构域。本发明的里氏木霉Xyn2多肽优选地具有木聚糖酶活性。
[0300]Bxll:里氏木霉Bxll的氨基酸序列(SEQ ID NO:45)示于图38和91中。SEQ IDNO:45是未成熟里氏木霉Bxll的序列。里氏木霉Bxll具有对应于SEQ ID NO:45第I至18位残基的预测信号序列;信号序列的裂解预测会产生成熟蛋白质,该蛋白质具有对应于SEQ ID NO:45第19至797位残基的序列。预测的保守结构域在图38以黑体表示。在例如使用对硝基苯基-β -吡喃木糖苷、木二糖、和/或混合的直链木糖低聚物作为底物的酶测定法中,里氏木霉Bxll表现出具有 β-木糖苷酶活性。保守酸性残基包括Ε193、Ε234和D310。如本文所用,“里氏木霉Bxll多肽”是指包含与SEQ ID NO:45第17至797位残基中的至少 50、75、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700、或750个连续氨基酸残基具有至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%序列同一性的序列的多肽和/或其变体。在残基Ε193、Ε234和D310处,与天然里氏木霉Bxll相比,里氏木霉Bxll多肽优选地为未改变的。里氏木霉Bxll多肽优选地在如图91的比对中所示的在里氏木霉Bxll和Fv3A之中保守的氨基酸残基的至少70%、80%、90%、95%、98%、或99%中无改变。里氏木霉Bxll多肽适当地包含图38所示的天然里氏木霉Bxll的全部预测保守结构域。本发明的里氏木霉Bxll多肽优选地具有β -木糖苷酶活性,其与SEQ ID NO:45的氨基酸序列具有至少90%、91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性。
[0301]単氐木霍Eg4:里氏木霉Eg4的氨基酸序列(SEQ ID NO:52)示于图40B和56中。SEQ ID NO: 52是未成熟里氏木霉Eg4的序列。里氏木霉Eg4具有对应于SEQ ID NO: 52第I至21位残基的预测信号序列;信号序列的裂解预测会产生成熟蛋白质,该蛋白质具有对应于SEQ ID NO:52第22至344位残基的序列。预测保守结构域对应于SEQ ID NO:52第22-256位和第307-343位残基,后者为预测碳水化合物结合结构域(CBM)。在例如使用羧甲基纤维素作为底物的酶测定法中,里氏木霉Eg4表现出具有内切葡聚糖酶活性。里氏木霉Eg4残基H22、H107、H184、Q193、Y195预测起到金属配位体的功能,残基D61和G63预测为保守表面残基,并且残基Y232经预测涉及活性,所述预测基于已知内切葡聚糖酶的氨基酸序列比对,例如,来自太瑞斯梭孢壳霉(T.terrestris)的内切葡聚糖酶(登录号ACE10234,本文中也称作“TtEG”)和另一种来自里氏木霉的内切葡聚糖酶Eg7(登录号ADA26043.1)(在本文中也称作“tEG7”或“TrEGb”)与里氏木霉Eg4的比对(参见图56)。如本文所用,“里氏木霉Eg4多肽”是指包含与SEQ ID勵:52第22至344位残基中的至少50、75、100、125、150、175、200、250、或 300 个连续氨基酸残基具有至少 85 %、86 %、87 %、88 %、89 %、90 %、91%,92%,93%,94%,95%,96%,97%,98%,99%^ 100% 同一性的序列的多肽和 / 或其变体。在残基H22、H107、H184、Q193、Y195、D6UG63和Y232处,与天然里氏木霉Eg4相t匕,里氏木霉Eg4多肽优选地为未改变的。里氏木霉Eg4多肽优选地在如图56的比对中所示的在TrEG7、TtEG和TrEG4之中保守的氨基酸残基的至少70 %、80 %、90 %、95 %、98 %、或99%中无改变。里氏木霉Eg4多肽适当地包含图56所示的天然里氏木霉Eg4的全部预测保守结构域。本发明的里氏木霉Eg4多肽优选地具有内切葡聚糖酶IV(EGIV)活性,其与SEQ ID NO:52的氨基酸序列,或与SEQ ID NO:52的⑴第22-255位残基、(ii)第22-343位残基、(iii)第307-343位残基、(iv)第307-344位残基、或(V)第22-344位残基具有至少 90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性。
[0302]Pa3D:Pa3D 的氨基酸序列(SEQ ID NO:54)示于图 41B 和 55 中。SEQ IDNO:54 是未成熟Pa3D的序列。Pa3D具有对应于SEQ ID NO:2第I至17位残基的预测信号序列;信号序列的裂解预测会产生成熟蛋白质,该蛋白质具有对应于SEQ ID NO:54第18至733位残基的序列。本文中,本发明的该多肽和其他多肽的信号序列预测使用SignalP-NN算法进行(http: / / www.cbs.dtu.dk)。预测出的保守结构域在图41B以黑体表示。本发明的该多肽和其他多肽的结构域预测基于Pfam、SMART或NCBI数据库进行。Pa3D残基E463和D262预测分别具有催化酸-碱和亲`核体的功能,该预测基于来自如下的多种GH3家族β -葡糖苷酶的序列比对:例如柄孢霉(P.anserina)(登录号XP_001912683)、大丽花轮枝孢(V.dahliae)、鞭毛藻丛赤壳菌(N.haematococca)(登录号XP_003045443)、玉蜀黍赤霉菌(G.zeae)(登录号 XP_386781)、尖孢镰刀菌(F.0xysporum)(登录号 BGL F0XG_02349)、黑曲霉(登录号CAK48740)、埃默森篮状菌(T.emersonii)(登录号AAL69548)、里氏木霉(T.reesei)(登录号AAP57755)、里氏木霉(T.reesei)(登录号AAA18473)、轮枝镰刀菌(F.verticillioides)和新阿波罗栖热袍菌(T.neapolitana)(登录号Q0GC07)等(参见图55)。如本文所用,“Pa3D多肽”是指包含与SEQ ID NO:54第18至733位残基中的至少50、75、100、125、150、175、200、250、300、350、400、450、500、550、600、650 或 700 个连续氨基酸残基具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%、99%、或100%序列同一性的序列的多肽和/或其变体。在残基E463和D262处,与天然Pa3D相比,Pa3D多肽优选地为未改变的。Pa3D多肽优选地在如图55的比对所示的在本文所述的GH3家族β-葡糖苷酶之中保守的氨基酸残基的至少70%、80%、90%、95%、98%、或99%中无改变。Pa3D多肽适当地包含图41B所示的天然Pa3D的全部预测保守结构域。本发明的Pa3D多肽优选地具有β -葡糖苷酶活性,其与SEQ ID NO:54的氨基酸序列,或与SEQ ID NO:54的⑴第18-282位残基、(ii)第18-601位残基、(iii)第18-733位残基、(iv)第356-601位残基、或(V)第356-733位残基具有至少90%、91%、92%、93%、94%,95%,96%,97%,98%,99%^; 100%序列同一性。
[0303]在某些实施例中,Pa3D多肽可为包含两个或更多个β -葡糖苷酶序列的融合或嵌合多肽,其中至少一个β -葡糖苷酶序列衍生自Pa3D多肽。例如,Pa3D多肽可为这样的嵌合/融合多肽,其包含至少约200个氨基酸残基长的多肽,该多肽衍生自Pa3D多肽或其变体N端的相同长度的序列,与SEQ ID NO:54具有至少约60%序列同一性。或者,Pa3D嵌合/融合多肽可包含至少约50个氨基酸残基长的多肽,该多肽衍生自Pa3D多肽或其变体C端的相同长度的序列,与SEQ ID NO:54具有至少约60%序列同一性。在某些实施例中,Pa3D嵌合/融合多肽可包含约3、4、5、6、7、8、9、10、或11个氨基酸残基长的环序列,该环序列包含 FDRRSPG (SEQ IDNO:204)或 FD (R/K) YNIT (SEQ ID NO:205)的氨基酸序列。
[0304]Fv3G:Fv3G 的氡某酸序列(SEQ ID NO:56)示于图 42B 和 55 中。SEQ ID NO:56是未成熟Fv3G的序列。Fv3G具有对应于SEQ ID NO:56第I至21位的预测信号序列;信号序列的裂解预测会产生具有对应于SEQ ID NO:56第22至780位的序列的成熟蛋白质。如上所述,与对本发明的其他多肽所进行的信号序列预测方法相同,信号序列预测使用SignalP-NN算法进行(http: / / www.cbs.dtu.dk)。预测的保守结构域在图42B中以黑体表示。与对本发明的其他多肽所进行的结构域预测方法相同,结构域预测基于Pfam、SMART或NCBI数据库进行。Fv3G残基E509和D272预测分别具有催化酸-碱和亲核体的功能,该预测基于对来自如下的上述GH3葡糖苷酶的序列比对:例如柄孢霉(P.anserina)(登录号XP_001912683)、大丽花轮枝孢(V.dahliae)、鞭毛藻丛赤壳菌(N.haematococca)(登录号XP_003045443)、玉蜀黍赤霉菌(G.zeae)(登录号XP_386781)、尖孢镰刀菌(F.0xysporum)(登录号 BGL F0XG_02349)、黑曲霉(A.niger)(登录号 CAK48740)、埃默森篮状菌(T.emersonii)(登 录号 AAL69548)、里氏木霉(T.reesei)(登录号 AAP57755)、里氏木霉(T.reesei)(登录号AAA18473)、轮枝镰刀菌(F.verticillioides)和新阿波罗栖热袍菌(T.neapolitana)(登录号Q0GC07)等(参见图55)。如本文所用,“Fv3G多肽”是指包含与 SEQ ID NO:56 第 20 至 780 位中的至少 50、75、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700、或 750 个连续氨基酸残基具有至少 85%、86%、87%、88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%,^; 100%序列同一性的序列的多肽和/或其变体。在残基E509和D272处,与天然Fv3G相比,Fv3G多肽优选地为未改变的。Fv3G多肽优选地在如图55的比对中所示的在本文所述的GH3家族β -葡糖苷酶之中保守的氨基酸残基的至少70 %、80 %、90 %、95 %、98 %、或99 %中无改变。Fv3G多肽适当地包含图42B所示的天然Fv3G的全部预测保守结构域。本发明的Fv3G多肽优选地具有β-葡糖苷酶活性,其与SEQ ID NO:56的氨基酸序列,或与SEQ ID NO:56的⑴第22-292位残基、(ii)第22-629位残基、(iii)第22-780位残基、(iv)第373-629位残基、或(V)第 373-780 位残基具有至少 90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%序列同一性。
[0305]在某些实施例中,Fv3G多肽是包含两个或更多个β -葡糖苷酶序列的融合/嵌合多肽,其中至少一个葡糖苷酶序列衍生自Fv3G多肽。例如,Fv3G嵌合/融合多肽可包含至少约200个氨基酸残基长的多肽,该多肽衍生自Fv3G多肽或其变体N端的相同长度的序列,与SEQ ID NO:56具有至少约60%的序列同一性。例如,Fv3G嵌合/融合多肽可包含至少约50个氨基酸残基长的多肽,该多肽衍生自Fv3G多肽或其变体C端的相同长度的序列,与SEQ ID NO:56具有至少约60%的序列同一性。在某些实施例中,Fv3G多肽还包含约3、4、5、6、7、8、9、10、或11个氨基酸残基长的环序列,该环序列衍生自Fv3G多肽或其变体相同长度的序列,包含 FDRRSPG (SEQ ID NO:204)或 FD(R / K) YNIT (SEQ ID NO:205)的氨基酸序列。
[0306]Fv3D:Fv3D 的氡某酸序列(SEQ ID NO:58)示于图 43B 和 55 中。SEQ ID NO:58是未成熟Fv3D的序列。Fv3D具有对应于SEQ ID NO:58第I至19位的预测信号序列;信号序列的裂解预测会产生具有对应于SEQ ID NO:58第20至811位的序列的成熟蛋白质。信号序列预测使用SignalP-NN算法进行。预测的保守结构域在图43B中以黑体表示。结构域预测基于Pfam、SMART或NCBI数据库进行。Fv3D残基E534和D301预测分别具有催化酸-碱和亲核体的功能,该预测基于对来自如下的上述GH3葡糖苷酶的序列比对:例如柄孢霉(P.anserina)(登录号XP_001912683)、大丽花轮枝孢(V.dahliae)、鞭毛藻丛赤壳菌(N.haematococca)(登录号 XP_003045443)、玉蜀黍赤霉菌(G.zeae)(登录号 XP_386781)、尖孢镰刀菌(F.0xysporum)(登录号BGL F0XG_02349)、黑曲霉(A.niger)(登录号CAK48740)、埃默森篮状菌(T.emersonii)(登录号AAL69548)、里氏木霉(T.reesei)(登录号AAP57755)、里氏木霉(T.reesei)(登录号 AAA18473)、轮枝镰刀菌(F.verticillioides)和新阿波罗栖热袍菌(T.neapolitana)(登录号Q0GC07)等(参见图55)。如本文所用,“Fv3D多肽”是指包含与SEQ ID NO:58第21至811位残基中的至少50、75、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700、或 750 个连续氨基酸残基具有至少 85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%序列同一性的序列的多肽和/或其变体。在残基E534和D301处,与天然Fv3D相t匕,Fv3D多肽优选地为未改变的。Fv3D多肽优选地在如图55的比对中所示的在本文所述的GH3家族β -葡糖苷酶之中保守的氨基酸残基的至少70 %、80 %、90 %、95 %、98 %、或99 %中无改变。Fv3D多肽适当地包含`图43B所示的天然Fv3D的全部预测保守结构域。本发明的Fv3D多肽优选地具有β -葡糖苷酶活性,其与SEQ ID NO:58的氨基酸序列,或与SEQID NO:58的⑴第20-321位残基、(ii)第20-651位残基、(iii)第20-811位残基、(iv)第 423-651 位残基、或(V)第 423-811 位残基具有至少 90%、91 %、92%、93%、94%、95%、96^^97^^98^^99%或100%序列同一性。该多肽适当地具有葡糖苷酶活性。
[0307]在某些实施例中,Fv3D多肽可为包含两个或更多个β -葡糖苷酶序列的融合/嵌合多肽,其中至少一个β -葡糖苷酶序列衍生自Fv3D多肽。例如,Fv3D嵌合/融合多肽可包含至少约200个氨基酸残基长的多肽,该多肽衍生自Fv3D多肽或其变体N端的相同长度的序列,与SEQ ID NO:58具有至少约60%的序列同一性。例如,Fv3D嵌合/融合多肽可包含至少约50个氨基酸残基长的多肽,该多肽衍生自Fv3D多肽或其变体C端的相同长度的序列,与SEQ ID NO:58具有至少约60%的序列同一性。在某些实施例中,Fv3D嵌合/融合多肽可包含约3、4、5、6、7、8、9、10、或11个氨基酸残基长的环序列,该环序列衍生自Fv3D多肽或其变体相同长度的序列,包含FDRRSPG (SEQ ID NO:204)或FD(R / K) YNIT (SEQ IDNO:205)的氨基酸序列。[0308]Fv3C:Fv3C 的氨基酸序列(SEQ ID NO:60)示于图 44B 和 55 中。SEQID NO:60 是未成熟Fv3C的序列。Fv3C具有对应于SEQ ID NO:60第I至19位的预测信号序列;信号序列的裂解预测会产生具有对应于SEQ ID NO:60第20至899位的序列的成熟蛋白质。信号序列预测使用SignalP-NN算法进行。预测的保守结构域在图44B中以黑体表示。结构域预测基于Pfam、SMART或NCBI数据库进行。Fv3C残基E536和D307预测分别具有催化酸-碱和亲核体的功能,该预测基于对来自如下的上述GH3葡糖苷酶的序列比对:例如柄孢霉(P.anserina)(登录号XP_001912683)、大丽花轮枝孢(V.dahliae)、鞭毛藻丛赤壳菌(N.haematococca)(登录号 XP_003045443)、玉蜀黍赤霉菌(G.zeae)(登录号 XP_386781)、尖孢镰刀菌(F.0xysporum)(登录号BGL F0XG_02349)、黑曲霉(A.niger)(登录号CAK48740)、埃默森篮状菌(T.emersonii)(登录号AAL69548)、里氏木霉(T.reesei)(登录号AAP57755)、里氏木霉(T.reesei)(登录号AAA18473)、轮枝镰刀菌(F.verticillioides)和新阿波罗栖热袍菌(T.neapolitana)(登录号Q0GC07)等(参见图55)。如本文所用,“Fv3C多肽”是指包含与SEQ ID NO:60第20至899位残基中的至少50、75、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700、750 或 800 个连续氨基酸残基具有至少 60%、65%、70%、75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%序列同一性的序列的多肽和/或其变体。在残基E536和D307处,与天然Fv3C相比,Fv3C多肽优选地为未改变的。Fv3C多肽优选地在如图55的比对中所示的在本文所述的GH3家族β -葡糖苷酶之中保守的氨基酸残基的至少60%、70%、80%、90%、95%、98%或99%中无改变。Fv3C多肽适当地包含图44B所示的天然Fv3C的全部预测保守结构域。本发明的Fv3C多肽优选地具有β_葡糖苷酶活性,其与SEQ ID NO:60的氨基酸序列,或与SEQ ID NO:60的⑴第20-327位残基、(ii)第22-600位残基、(iii)第20-899位残基、(iv)第428-899位残基、或(V)第428-660位残基具有至少 90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性。
[0309]在某些实施例中,Fv3C多肽可为包含两个或更多个β -葡糖苷酶序列的融合/嵌合多肽,其中至少一个葡糖苷酶序列衍生自Fv3C多肽。例如,Fv3C嵌合/融合多肽可包含至少约200个氨基酸残基长的多肽,该多肽衍生自Fv3C多肽或其变体N端的相同长度的序列,与SEQ ID NO:60具有至少约60%的序列同一性。例如,Fv3C嵌合/融合多肽可包含至少约50个氨基酸残基长的多肽, 该多肽衍生自Fv3C多肽或其变体C端的相同长度的序列,与SEQ ID NO:60具有至少约60%的序列同一性。在某些实施例中,Fv3C嵌合/融合多肽可包含约3、4、5、6、7、8、9、10、或11个氨基酸长的环序列,该环序列衍生自Fv3C多肽或其变体相同长度的序列,包含FDRRSPG (SEQ ID NO:204)或FD(R / K) YNIT (SEQ ID NO:205)的氨基酸序列
[0310]IxM:Tr3A 的氨基酸序列(SEQ ID NO:62)示于图 45B 和 55 中。SEQ ID NO:62是未成熟Tr3A的序列。Tr3A具有对应于SEQ ID NO:62第I至19位的预测信号序列;信号序列的裂解预测会产生具有对应于SEQ ID NO:62第20至744位的序列的成熟蛋白质。信号序列预测使用SignalP-NN算法进行。预测的保守结构域在图45B中以黑体表示。结构域预测基于Pfam、SMART或NCBI数据库进行。Tr3A残基E472和D267预测分别具有催化酸-碱和亲核体的功能,该预测基于对来自如下的上述GH3葡糖苷酶的序列比对:例如柄孢霉(P.anserina)(登录号XP_001912683)、大丽花轮枝孢(V.dahliae)、鞭毛藻丛赤壳菌(N.haematococca)(登录号 XP_003045443)、玉蜀黍赤霉菌(G.zeae)(登录号 XP_386781)、尖孢镰刀菌(F.0xysporum)(登录号BGL F0XG_02349)、黑曲霉(A.niger)(登录号CAK48740)、埃默森篮状菌(T.emersonii)(登录号AAL69548)、里氏木霉(T.reesei)(登录号AAP57755)、里氏木霉(T.reesei)(登录号AAA18473)、轮枝镰刀菌(F.verticillioides)和新阿波罗栖热袍菌(T.neapolitana)(登录号Q0GC07)等(参见图55)。如本文所用,“Tr3A多肽”是指包含与SEQ ID NO:62第20至744位残基中的至少50、75、100、125、150、175、200、250、300、350、400、450、500、550、600、650 或 700 个连续氨基酸残基具有至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的序列的多肽和/或其变体。在残基E472和D267处,与天然Tr3A相比,Tr3A多肽优选地为未改变的。Tr3A多肽优选地在如图55的比对中所示的在本文所述的GH3家族@-葡糖苷酶之中保守的氨基酸残基的至少70%、80%、90%、95%、98%、或99%中无改变。Tr3A多肽适当地包含图45B所示的天然Tr3A的全部预测保守结构域。本发明的Tr3A多肽优选地具有β -葡糖苷酶活性,其与SEQ ID NO:62的氨基酸序列,或与SEQ ID NO:62的⑴第20-287位残基、(ii)第22-611位残基、(iii)第20-744位残基、(iv)第362-611位残基、或(V)第 362-744 位残基具有至少 90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或 100%的同一性。
[0311]在某些实施例中,Tr3A多肽可为包含两个或更多个β -葡糖苷酶序列的融合/嵌合多肽,其中至少一个葡糖苷酶序列衍生自Tr3Α多肽。例如,Tr3Α嵌合/融合多肽可包含至少约200个氨基酸残基长的多肽,该多肽衍生自Tr3Α多肽或其变体N端的相同长度的序列,与SEQ ID NO:62具有至少约60%的序列同一性。例如,Tr3A嵌合/融合多肽可包含至少约50个氨基酸残基长的多肽,该多肽衍生自Tr3A多肽或其变体C端的相同长度的序列,与SEQ ID NO:62具有至少约60%的序列同一性。在某些实施例中,Tr3A嵌合/融合多肽可包含约3、4、5、6、7、8、9、10、或11个氨基酸残基长的环序列,该环序列衍生自Tr3A多肽或其变体相同长度的序列,包含FDRRSPG (SEQ ID NO:204)或FD(R / K) YNIT (SEQ IDNO:205)的氨基酸序列。
[0312]Tr3B:Tr3B 的氡某酸`序列(SEQ ID NO:64)示于图 46B 和 55 中。SEQ ID NO:64是未成熟Tr3B的序列。Tr3B具有对应于SEQ ID NO:64第I至18位的预测信号序列;信号序列的裂解预测会产生具有对应于SEQ ID NO:64第19至874位的序列的成熟蛋白质。信号序列预测使用SignalP-NN算法进行。预测的保守结构域在图46B中以黑体表示。结构域预测基于Pfam、SMART或NCBI数据库进行。Tr3B残基E516和D287预测分别具有催化酸-碱和亲核体的功能,该预测基于对来自如下的上述GH3葡糖苷酶的序列比对:例如柄孢霉(P.anserina)(登录号XP_001912683)、大丽花轮枝孢(V.dahliae)、鞭毛藻丛赤壳菌(N.haematococca)(登录号 XP_003045443)、玉蜀黍赤霉菌(G.zeae)(登录号 XP_386781)、尖孢镰刀菌(F.0xysporum)(登录号BGL F0XG_02349)、黑曲霉(A.niger)(登录号CAK48740)、埃默森篮状菌(T.emersonii)(登录号AAL69548)、里氏木霉(T.reesei)(登录号AAP57755)、里氏木霉(T.reesei)(登录号AAA18473)、轮枝镰刀菌(F.verticillioides)和新阿波罗栖热袍菌(T.neapolitana)(登录号Q0GC07)等(参见图55)。如本文所用,“Tr3B多肽”是指包含与SEQ ID NO:64第19至874位残基中的至少50、75、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700、750、800、或 850 个连续氨基酸残基具有至少 85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的序列的多肽和/或其变体。在残基E516和D287处,与天然Tr3B相比,Tr3B多肽优选地为未改变的。Tr3B多肽优选地在如图55所示的在本文所述的GH3家族β -葡糖苷酶之中保守的氨基酸残基的至少70 %、80 %、90 %、95 %、98 %、或99 %中无改变。Tr3B多肽适当地包含图46B所示的天然Tr3B的全部预测保守结构域。本发明的Tr3B多肽优选地具有β -葡糖苷酶活性,其与SEQ ID NO:64的氨基酸序列,或与SEQID NO:64的⑴第19-307位残基、(ii)第19-640位残基、(iii)第19-874位残基、(iv)第 407-640 位残基或(V)第 407-874 位残基具有至少 90%、91%、92%、93%、94%、95%、96%,97%,98%,99%^; 100%的同一性。
[0313]在某些实施例中,Tr3B多肽可为包含两个或更多个β -葡糖苷酶序列的融合/嵌合多肽,其中至少一个β -葡糖苷酶序列衍生自Tr3B多肽。例如,Tr3B嵌合/融合多肽可包含至少约200个氨基酸残基长的多肽,该多肽衍生自Tr3B多肽或其变体N端的相同长度的序列,与SEQ ID NO:64具有至少约60%的序列同一性。例如,Tr3B嵌合/融合多肽可包含至少约50个氨基酸残基长的多肽,该多肽衍生自Tr3B多肽或其变体C端的相同长度的序列,与SEQ ID NO:64具有至少约60%的序列同一性。在某些实施例中,Tr3B嵌合/融合多肽可包含约3、4、5、6、7、8、9、10、或11个氨基酸残基长的环序列,该环序列衍生自Tr3B多肽或其变体相同长度的序列,包含FDRRSPG (SEQ ID NO:204)或FD(R / K) YNIT (SEQ IDNO:205)的氨基酸序列。
[0314]Te3A:Te3A(SEQ ID NO:66)的氨基酸序列示于图 47B 和 55 中。SEQ ID NO:66 是未成熟Te3A的序列。Te3A具有对应于SEQ ID NO:66第I至19位的预测信号序列;信号序列的裂解预测会产生具有对应于SEQ ID NO:66第20至857位的序列的成熟蛋白质。信号序列预测使用SignalP-NN算法进行。预测的保守结构域在图47B中以黑体表示。结构域预测基于Pfam、SMART或NCBI数据库进行。Te3A残基E505和D277预测分别具有催化酸-碱和亲核体的功能,该预 测基于对来自如下的上述GH3葡糖苷酶的序列比对:例如柄孢霉(P.anserina)(登录号XP_001912683)、大丽花轮枝孢(V.dahliae)、鞭毛藻丛赤壳菌(N.haematococca)(登录号 XP_003045443)、玉蜀黍赤霉菌(G.zeae)(登录号 XP_386781)、尖孢镰刀菌(F.0xysporum)(登录号BGL F0XG_02349)、黑曲霉(A.niger)(登录号CAK48740)、埃默森篮状菌(T.emersonii)(登录号AAL69548)、里氏木霉(T.reesei)(登录号AAP57755)、里氏木霉(T.reesei)(登录号AAA18473)、轮枝镰刀菌(F.verticillioides)和新阿波罗栖热袍菌(T.neapolitana)(登录号Q0GC07)等(参见图55)。如本文所用,“Te3A多肽”是指包含与SEQ ID NO:66第20至857位残基中的至少50、75、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700、750、或 800 个连续氨基酸残基具有至少 85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的序列的多肽和/或其变体。在残基E505和D277处,与天然Te3A相t匕,Te3A多肽优选地为未改变的。Te3A多肽优选地在如图55所示的在本文所述的GH3家族@-葡糖苷酶之中保守的氨基酸残基的至少70%、80%、90%、95%、98%、或99%中无改变。Te3A多肽适当地包含图47B所示的天然Te3A的全部预测保守结构域。本发明的Te3A多肽优选地具有β -葡糖苷酶活性,其与SEQ ID NO:66的氨基酸序列,或与SEQ ID NO:66的⑴第20-297位残基、(ii)第20-629位残基、(iii)第20-857位残基、(iv)第396-629位残基、或(V)第 396-857 位残基具有至少 90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或 100%的同一性。
[0315]在某些实施例中,Te3A多肽可为包含两个或更多个β -葡糖苷酶序列的融合/嵌合多肽,其中至少一个β_葡糖苷酶序列衍生自Te3A多肽。例如,Te3A嵌合/融合多肽可包含至少约200个氨基酸残基长的多肽,该多肽衍生自Te3A多肽或其变体N端的相同长度的序列,与SEQ ID NO:62具有至少约60%的序列同一性。例如,Te3A嵌合/融合多肽可包含至少约50个氨基酸残基长的多肽,该多肽衍生自Te3A多肽或其变体C端的相同长度的序列,与SEQ ID NO:62具有至少约60%的序列同一性。在某些实施例中,Te3A嵌合/融合多肽可包含约3、4、5、6、7、8、9、10、或11个氨基酸残基长的环序列,该环序列衍生自Te3A多肽或其变体相同长度的序列,包含FDRRSPG (SEQ ID NO:204)或FD(R / K) YNIT (SEQ IDNO:205)的氨基酸序列。
[0316]An3A:An3A 的氨基酸序列(SEQ ID NO:68)示于图 48B 和 55 中。SEQ ID NO:6 是未成熟An3A的序列。An3A具有对应于SEQ ID NO:68第I至19位的预测信号序列;信号序列的裂解预测会产生具有对应于SEQ ID NO:68第20至860位的序列的成熟蛋白质。信号序列预测使用SignalP-NN算法进行。预测的保守结构域在图48B中以黑体表示。结构域预测基于Pfam、SMART或NCBI数据库进行。An3A残基E509和D277预测分别具有催化酸-碱和亲核体的功能,该预测基于对来自如下的上述GH3葡糖苷酶的序列比对:例如柄孢霉(P.anserina)(登录号XP_001912683)、大丽花轮枝孢(V.dahliae)、鞭毛藻丛赤壳菌(N.haematococca)(登录号 XP_003045443)、玉蜀黍赤霉菌(G.zeae)(登录号 XP_386781)、尖孢镰刀菌(F.0xysporum)(登录号BGL F0XG_02349)、黑曲霉(A.niger)(登录号CAK48740)、埃默森篮状菌(T.emersonii)(登录号AAL69548)、里氏木霉(T.reesei)(登录号AAP57755)、里氏木霉(T.reesei)(登录号AAA18473)、轮枝镰刀菌(F.verticillioides)和新阿波罗栖热袍菌(T.neapolitana)(登录号Q0GC07)等(参见图55)。如本文所用,“An3A多肽”是指包含与SEQ `ID NO:68第20至860位残基中的至少50、75、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700、750 或 800 个连续氨基酸残基具有至少 85%、86%、87%、88%、89%、90%、91 %、92%、93%、94%、95%、96% 50,,97%,98%、99%、或100%同一性的序列的多肽和/或其变体。在残基E509和D277处,与天然An3A相比,An3A多肽优选地为未改变的。An3A多肽优选地在如图55所示的在本文所述的GH3家族β-葡糖苷酶之中保守的氨基酸残基的至少70%、80%、90%、95%、98%或99%中无改变。Αη3Α多肽适当地包含图48Β所示的天然Αη3Α的全部预测保守结构域。本发明的Αη3Α多肽优选地具有β -葡糖苷酶活性,其与SEQ ID NO:68的氨基酸序列,或与SEQID NO:68的⑴第20-300位残基、(ii)第20-634位残基、(iii)第20-860位残基、(iv)第 400-634 位残基、或(V)第 400-860 位残基具有至少 90%、91%、92%、93%、94%、95%、96%,97%,98%,99%^; 100%的同一性。
[0317]在某些实施例中,An3A多肽可为包含两个或更多个β -葡糖苷酶序列的融合/嵌合多肽,其中至少一个葡糖苷酶序列衍生自Αη3Α多肽。例如,Αη3Α嵌合/融合多肽可包含至少约200个氨基酸残基长的多肽,该多肽衍生自Αη3Α多肽或其变体N端的相同长度的序列,与SEQ ID NO:68具有至少约60%的序列同一性。例如,Αη3Α嵌合/融合多肽可包含至少约50个氨基酸残基长的多肽,该多肽衍生自Αη3Α多肽或其变体C端的相同长度的序列,与SEQ ID NO:68具有至少约60%的序列同一性。在某些实施例中,An3A嵌合/融合多肽可包含约3、4、5、6、7、8、9、10、或11个氨基酸残基长的环序列,该环序列衍生自An3A多肽或其变体相同长度的序列,包含FDRRSPG (SEQ ID NO:204)或FD(R / K) YNIT (SEQ IDNO:205)的氨基酸序列。
[0318]Fo3A:Fo3A 的氡某酸序列(SEQ ID NO:70)示于图 49B 和 55 中。SEQ ID NO:70是未成熟Fo3A的序列。Fo3A具有对应于SEQ ID NO:70第I至19位的预测信号序列;信号序列的裂解预测会产生具有对应于SEQ ID NO:70第20至899位的序列的成熟蛋白质。信号序列预测使用SignalP-NN算法进行。预测的保守结构域在图49B中以黑体表示。结构域预测基于Pfam、SMART或NCBI数据库进行。Fo3A残基E536和D307预测分别具有催化酸-碱和亲核体的功能,该预测基于对来自如下的上述GH3葡糖苷酶的序列比对:例如柄孢霉(P.anserina)(登录号XP_001912683)、大丽花轮枝孢(V.dahliae)、鞭毛藻丛赤壳菌(N.haematococca)(登录号 XP_003045443)、玉蜀黍赤霉菌(G zeae)(登录号 XP_386781)、尖孢镰刀菌(F.0xysporum)(登录号BGL F0XG02349)、黑曲霉(A.niger)(登录号CAK48740)、埃默森篮状菌(T.emersonii)(登录号AAL69548)、里氏木霉(T.reesei)(登录号AAP57755)、里氏木霉(T.reesei)(登录号AAA18473)、轮枝镰刀菌(F.verticillioides)和新阿波罗栖热袍菌(T.neapolitana)(登录号Q0GC07)等(参见图55)。如本文所用,“Fo3A多肽”是指包含与SEQ ID NO:70第20至899位残基中的至少50、75、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700、750、800、或 850 个连续氨基酸残基具有至少 85%、86%、87%、88%、89%、90%、91 %、92%、93%、94%、95%、96% 50,、97 %、98 %、99 %、或100 %同一性的序列的多肽和/或其变体。在残基E536和D307处,与天然Fo3A相比,Fo3A多肽优选地为未改变的。Fo3A多肽优选地在如图55所示的在本文所述的GH3i3-葡糖苷酶之中保守的氨基酸残基的至少70%、80%、90%、95%、98%、或99%中无改变。Fo3A多肽适当地包含图49B所示的天然Fo3A的全部预测保守结构域。本发明的Fo3A多肽优选地具有β -葡糖苷酶活性,其与SEQ ID NO:70的氨基酸序列,或与SEQID NO:70的⑴第20-327位残基、(ii)第20-660位残基、(iii)第20-899位残基、(iv)第 428-660 位残基、或(V)第 428-899 位残基具有至少 90%、91%、92%、93%、94%、95%、96%,97%,98%,99%^; 100%的同一`性。
[0319]在某些实施例中,Fo3A多肽可为包含两个或更多个β -葡糖苷酶序列的融合/嵌合多肽,其中至少一个葡糖苷酶序列衍生自Fo3A多肽。例如,Fo3A嵌合/融合多肽可包含至少约200个氨基酸残基长的多肽,该多肽衍生自Fo3A多肽或其变体N端的相同长度的序列,与SEQ ID NO:70具有至少约60%的序列同一性。例如,Fo3A嵌合/融合多肽可包含至少约50个氨基酸残基长的多肽,该多肽衍生自Fo3A多肽或其变体C端的相同长度的序列,与SEQ ID NO:70具有至少约60%的序列同一性。在某些实施例中,Fo3A嵌合/融合多肽可包含约3、4、5、6、7、8、9、10、或11个氨基酸残基长的环序列,该环序列衍生自Fo3A多肽或其变体相同长度的序列,包含FDRRSPG (SEQ ID NO:204)或FD(R / K) YNIT (SEQ IDNO:205)的氨基酸序列。
[0320]Gz3A:Gz3A 的氡某酸序列(SEQ ID NO:72)示于图 50B 和 55 中。SEQ ID NO:72是未成熟Gz3A的序列。Gz3A具有对应于SEQ ID NO:72第I至18位的预测信号序列;信号序列的裂解预测会产生具有对应于SEQ ID NO -J2第19至886位的序列的成熟蛋白质。信号序列预测使用SignalP-NN算法进行。预测的保守结构域在图50B中以黑体表示。结构域预测基于Pfam、SMART或NCBI数据库进行。Gz3A残基E523和D294预测分别具有催化酸-碱和亲核体的功能,该预测基于对来自如下的上述GH3葡糖苷酶的序列比对:例如柄孢霉(P.anserina)(登录号XP_001912683)、大丽花轮枝孢(V.dahliae)、鞭毛藻丛赤壳菌(N.haematococca)(登录号 XP_003045443)、玉蜀黍赤霉菌(G.zeae)(登录号 XP_386781)、尖孢镰刀菌(F.0xysporum)(登录号BGL F0XG_02349)、黑曲霉(A.niger)(登录号CAK48740)、埃默森篮状菌(T.emersonii)(登录号AAL69548)、里氏木霉(T.reesei)(登录号 AAP57755)、里氏木霉(T.reesei)(登录号AAA18473)、轮枝镰刀菌(F.verticillioides)和新阿波罗栖热袍菌(T.neapolitana)(登录号Q0GC07)等(参见图55)。如本文所用,“Gz3A多肽”是指包含与SEQ ID NO:72第19至886位残基中的至少50、75、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700、750、800、或 850 个连续氨基酸残基具有至少 85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的序列的多肽和/或其变体。在残基E536和D307处,与天然Gz3A相比,Gz3A多肽优选地为未改变的。Gz3A多肽优选地在如图55所示的在本文所述的GH3家族@-葡糖苷酶之中保守的氨基酸残基的至少70%、80%、90%、95%、98%、或99%中无改变。Gz3A多肽适当地包含图50B所示的天然Gz3A的全部预测保守结构域。本发明的Gz3A多肽优选地具有β -葡糖苷酶活性,其与SEQ ID NO ,12的氨基酸序列,或与SEQID NO:72的⑴第19-314位残基、(ii)第19-647位残基、(iii)第19-886位残基、(iv)第 415-647 位残基、或(V)第 415-886 位残基具有至少 90%、91%、92%、93%、94%、95%、96%,97%,98%,99%^; 100%的同一性。
[0321]在某些实施例中,Gz3A多肽可为包含两个或更多个β -葡糖苷酶序列的融合/嵌合多肽,其中至少一个葡糖苷酶序列衍生自Gz3A多肽。例如,Gz3A嵌合/融合多肽可包含至少约200个氨基酸残基长的多肽,该多肽衍生自Gz3A多肽或其变体N端的相同长度的序列,与SEQ ID NO:72具有至少约60%的序列同一性。例如,Gz3A嵌合/融合多肽可包含至少约50个氨基酸残基长的多肽,该多肽衍生自Gz3A多肽或其变体C端的相同长度的序列,与SEQ C ID NO:72具有至少约60%的序列同一性。在某些实施例中,Gz3A嵌合/融合多肽可包含约3、4、5、6、7、 8、9、10、或11个氨基酸残基长的环序列,该环序列衍生自Gz3A多肽或其变体相同长度的序列,包含FDRRSPG (SEQ ID NO:204)或FD(R / K) YNIT (SEQ IDNO:205)的氨基酸序列。
[0322]Nh3A:Nh3A 的氨基酸序列(SEQ ID NO:74)示于图 51B 和 55 中。SEQ IDNO:74 是未成熟Nh3A的序列。Nh3A具有对应于SEQ ID NO:74第I至19位的预测信号序列;信号序列的裂解预测会产生具有对应于SEQ ID NO:74第20至880位的序列的成熟蛋白质。信号序列预测使用SignalP-NN算法进行。预测的保守结构域在图51B中以黑体表示。结构域预测基于Pfam、SMART或NCBI数据库进行。Nh3A残基E523和D294预测分别具有催化酸-碱和亲核体的功能,该预测基于对来自如下的上述GH3葡糖苷酶的序列比对:例如柄孢霉(P.anserina)(登录号XP_001912683)、大丽花轮枝孢(V.dahliae)、鞭毛藻丛赤壳菌(N.haematococca)(登录号 XP_003045443)、玉蜀黍赤霉菌(G.zeae)(登录号 XP_386781)、尖孢镰刀菌(F.0xysporum)(登录号BGL F0XG_02349)、黑曲霉(A.niger)(登录号CAK48740)、埃默森篮状菌(T.emersonii)(登录号AAL69548)、里氏木霉(T.reesei)(登录号AAP57755)、里氏木霉(T.reesei)(登录号 AAA18473)、轮枝镰刀菌(F.verticillioides)和新阿波罗栖热袍菌(T.neapolitana)(登录号Q0GC07)等(参见图55)。如本文所用,“Nh3A多肽”是指包含与SEQ ID NO:74第20至880位残基中的至少50、75、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700、750、800、或 850 个连续氨基酸残基具有至少 85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96% 50,、97%、98%、99%、或100%同一性的序列的多肽和/或其变体。在残基E523和D294处,与天然Nh3A相比,Nh3A多肽优选地为未改变的。Nh3A多肽优选地在如图55所示的在本文所述的GH3家族β-葡糖苷酶之中保守的残基的至少70%、80%、90%、95%、98%或99%中无改变。Nh3A多肽适当地包含图51Β所示的天然Nh3A的全部预测保守结构域。本发明的Nh3A多肽优选地具有β -葡糖苷酶活性,其与SEQ ID NO:76的氨基酸序列,或与SEQID NO:76的⑴第20-295位残基、(ii)第20-647位残基、(iii)第20-880位残基、(iv)第 414-647 位残基、或(V)第 414-880 位残基具有至少 90%、91%、92%、93%、94%、95%、96%,97%,98%,99%^; 100%的同一性。
[0323]在某些实施例中,Nh3A多肽可为包含两个或更多个β -葡糖苷酶序列的融合/嵌合多肽,其中至少一个葡糖苷酶序列衍生自Nh3A多肽。例如,Nh3A嵌合/融合多肽可包含至少约200个氨基酸残基长的多肽,该多肽衍生自Nh3A多肽或其变体N端的相同长度的序列,与SEQ ID NO:74具有至少约60%的序列同一性。例如,Nh3A嵌合/融合多肽可包含至少约50个氨基酸残基长的多肽,该多肽衍生自Nh3A多肽或其变体C端的相同长度的序列,与SEQ ID NO:74具有至少约60%的序列同一性。在某些实施例中,Nh3A嵌合/融合多肽可包含约3、4、5、6、7、8、9、10、或11个氨基酸残基长的环序列,该环序列衍生自Nh3A多肽或其变体相同长度的序列,包含FDRRSPG (SEQ ID NO:204)或FD (R/K) YNIT (SEQ ID NO:205)的氨基酸序列。
[0324]Vd3A:Vd3A 的氡某酸序列(SEQ ID NO:76)示于图 52B和 55 中。SEQ IDNO:76 是未成熟Vd3A的序列。Vd3A具 有对应于SEQ ID NO:76第I至18位的预测信号序列;信号序列的裂解预测会产生具有对应于SEQ ID NO:76第19至890位的序列的成熟蛋白质。信号序列预测使用SignalP-NN算法进行。预测的保守结构域在图52B中以黑体表示。结构域预测基于Pfam、SMART或NCBI数据库进行。在例如使用cNPG和纤维二糖进行的酶测定法中以及在使用经稀氨水预处理的玉米芯作为底物的水解中,Vd3A表现出具有β-葡糖苷酶活性。Vd3A残基E524和D295预测分别具有催化酸_碱和亲核体的功能,该预测基于对来自如下的上述GH3葡糖苷酶的序列比对:例如柄孢霉(P.anserina)(登录号XP_001912683)、大丽花轮枝抱(V.dahliae)、鞭毛藻丛赤壳菌(N.haematococca)(登录号XP_003045443)、玉蜀黍赤霉菌(G.zeae)(登录号XP_386781)、尖孢镰刀菌(F.0xysporum)(登录号BGL F0XG_02349)、黑曲霉(A.niger)(登录号CAK48740)、埃默森篮状菌(T.emersonii)(登录号AAL69548)、里氏木霉(T.reesei)(登录号AAP57755)、里氏木霉(T.reesei)(登录号AAA18473)、轮枝镰刀菌(F.verticillioides)和新阿波罗栖热袍菌(T.neapolitana)(登录号Q0GC07)等(参见图55)。如本文所用,“Vd3A多肽”是指包含与SEQ ID NO:76第19至890位残基中的至少 50、75、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700、750、800或850个连续氨基酸残基具有至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的序列的多肽和/或其变体。在残基E524和D295处,与天然Vd3A相比,Vd3A多肽优选地为未改变的。Vd3A多肽优选地在如图55所示的在本文所述的GH3家族β -葡糖苷酶之中保守的氨基酸残基的至少90%、95%、98%、或99%中无改变。Vd3A多肽适当地包含图52B中所示的天然Vd3A的全部预测保守结构域。本发明的Vd3A多肽优选地具有β-葡糖苷酶活性,其与SEQ ID NO:76的氨基酸序列,或与SEQ ID NO:76的⑴第19-296位残基、(ii)第19-649位残基、(iii)第19-890位残基、(iv)第415-649位残基、或(V)第415-890位残基具有至少90%、91 %、92%,93%,94%,95%,96%,97%,98%,99%^; 100% 的同一性。
[0325]在某些实施例中,Vd3A多肽可为包含两个或更多个β -葡糖苷酶序列的融合/嵌合多肽,其中至少一个葡糖苷酶序列衍生自Vd3A多肽。例如,Vd3A嵌合/融合多肽可包含至少约200个氨基酸残基长的多肽,该多肽衍生自Vd3A多肽或其变体N端的相同长度的序列,与SEQ ID NO:76具有至少约60%的序列同一性。例如,Vd3A嵌合/融合多肽可包含至少约50个氨基酸残基长的多肽,该多肽衍生自Vd3A多肽或其变体C端的相同长度的序列,与SEQ ID NO:76具有至少约60%的序列同一性。在某些实施例中,Vd3A嵌合/融合多肽可包含约3、4、5、6、7、8、9、10、或11个氨基酸残基长的环序列,该环序列衍生自Vd3A多肽或其变体相同长度的序列,包含FDRRSPG (SEQ ID NO:204)或FD(R / K) YNIT (SEQ IDNO:205)的氨基酸序列。
[0326]Pa3G:Pa3G 的氡某酸序列(SEQ ID NO:78)示于图 53B 和 55 中。SEQ ID NO:78是未成熟Pa3G的序列。Pa3G具有对应于SEQ ID NO:78第I至19位的预测信号序列;信号序列的裂解预测会产生具有对应于SEQ ID NO:78第20至805位的序列的成熟蛋白质。信号序列预测使用SignalP-NN算法进行。预测的保守结构域在图53B中以黑体表示。结构域预测基于Pfam、SMART或NCBI数据库进行。Pa3G残基E517和D289预测分别具有催化酸-碱和亲核体的功能,该预测基于对来自如下的上述GH3葡糖苷酶的序列比对:例如柄孢霉(P.anserina)(登录号XP_001912683)、大丽花轮枝孢(V.dahliae)、鞭毛藻丛赤壳菌(N.haematococca)(登录号 XP_003045443)、玉蜀黍赤霉菌(G.zeae)(登录号 XP_386781)、尖孢镰刀菌(F.0xysporum)(登`录号BGL F0XG_02349)、黑曲霉(A.niger)(登录号CAK48740)、埃默森篮状菌(T.emersonii)(登录号AAL69548)、里氏木霉(T.reesei)(登录号AAP57755)、里氏木霉(T.reesei)(登录号 AAA18473)、轮枝镰刀菌(F.verticillioides)和新阿波罗栖热袍菌(T.neapolitana)(登录号Q0GC07)等(参见图55)。如本文所用,“Pa3G多肽”是指包含与SEQ ID NO:78第20至805位残基中的至少50、75、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700、或 750 个连续氨基酸残基具有至少 85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的序列的多肽和/或其变体。在残基E517和D289处,与天然Pa3G相比,Pa3G多肽优选地为未改变的。Pa3G多肽优选地在如图55所示的在本文所述的GH3家族β-葡糖苷酶之中保守的氨基酸残基的至少70%、80%、90%、95%、98%、或99%中无改变。Pa3G多肽适当地包含图53B所示的天然Pa3G的全部预测保守结构域。本发明的Pa3G多肽优选地具有β -葡糖苷酶活性,其与SEQ ID NO:78的氨基酸序列,或与SEQ ID NO:78的⑴第20-354位残基、(ii)第20-660位残基、(iii)第20-805位残基、(iv)第449-660位残基、或(V)第 449-805 位残基具有至少 90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或 100% 的同一性。[0327]在某些实施例中,Pa3G多肽可为包含两个或更多个β _葡糖苷酶序列的融合/嵌合多肽,其中至少一个葡糖苷酶序列衍生自Pa3G多肽。例如,Pa3G嵌合/融合多肽可包含至少约200个氨基酸残基长的多肽,该多肽衍生自Pa3G多肽或其变体N端的相同长度的序列,与SEQ ID NO:78具有至少约60%的序列同一性。例如,Pa3G嵌合/融合多肽可包含至少约50个氨基酸残基长的多肽,该多肽衍生自Pa3G多肽或其变体C端的相同长度的序列,与SEQ ID NO:78具有至少约60%的序列同一性。在某些实施例中,Pa3G嵌合/融合多肽可包含约3、4、5、6、7、8、9、10、或11个氨基酸残基长的环序列,该环序列衍生自Pa3G多肽或其变体相同长度的序列,包含FDRRSPG (SEQ ID NO:204)或FD(R / K) YNIT (SEQ IDNO:205)的氨基酸序列。
[0328]Tn3B:Tn3B的氨基酸序列(SEQ ID NO:79)示于图54和55中。SEQ IDNO:79是未成熟Τη3Β的序列。SignalP-NN算法(http: / / www.cbs.dtu.dk)不提供预测信号序列。Tn3B残基E458和D242预测分别具有催化酸_碱和亲核体的功能,该预测基于对来自如下的上述GH3葡糖苷酶的序列比对:例如柄孢霉(P.anserina)(登录号XP_001912683)、大丽花轮枝孢(V.dahliae)、鞭毛藻丛赤壳菌(N.haematococca)(登录号XP003045443)、玉蜀黍赤霉菌(G.zeae)(登录号 XP_386781)、尖孢镰刀菌(F.0xysporum)(登录号 BGL F0XG_02349)、黑曲霉(A.niger)(登录号CAK48740)、埃默森篮状菌(T.emersonii)(登录号AAL69548)、里氏木霉(T.reesei)(登录号AAP57755)、里氏木霉(T.reesei)(登录号AAA18473)、轮枝镰刀菌(F.verticillioides.)和新阿波罗栖热袍菌(T.neapolitana)(登录号Q0GC07)等(参见图55)。如本文所用,“Tn3B多肽”是指包含与SEQ ID NO:79的至少50、75、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700、或 750 个连续氨基酸残基具有至少 85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的序列的多肽和/或其变体。在残基E458和D242处,与天然Tn3B相比,Tn3B多肽优选地为未改变的。Tn3B多肽优选地在如图55的比对中所示的在本文所述的GH3家族@-葡糖苷酶之中保守的氨基酸残基的至少70%、80%、90%、95%、98%、或99%中无改变。Tn3B多肽适当地包含图54所示的天然Tn3B的全部预测保守结构域。本发明的Tn3B多肽优选地具有β -葡糖苷酶活性。
[0329]在某些实施例中,Τη3Β多肽可为包含两个或更多个β -葡糖苷酶序列的融合/嵌合多肽,其中至少一个β -葡糖苷酶序列衍生自Τη3Β多肽。例如,Τη3Β嵌合/融合多肽可包含至少约200个氨基酸残基长的多肽,该多肽衍生自Τη3Β多肽或其变体N端的相同长度的序列,与SEQ ID NO:79具有至少约60%的序列同一性。例如,Τη3Β嵌合/融合多肽可包含至少约50个氨基酸残基长的多肽,该多肽衍生自Τη3Β多肽或其变体C端的相同长度的序列,与SEQ ID NO:79具有至少约60%的序列同一性。在某些实施例中,Τη3Β嵌合/融合多肽可包含约3、4、5、6、7、8、9、10、或11个氨基酸残基长的环序列,该环序列衍生自Τη3Β多肽或其变体相同长度的序列,包含FDRRSPG (SEQ ID NO:204)或FD(R / K) YNIT (SEQ IDNO:205)的氨基酸序列。
[0330]因此,本发明提供了多个如下所述的分离的、合成的或重组的多肽或变体:
[0331](I)与氨基酸序列具有至少 80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的多肽,所述氨基酸序列对应于(i)SEQ ID NO:2的第24至 766 位;(ii) SEQ ID NO:2 的第 73 至 321 位;(iii) SEQ ID NO:2 的第 73 至 394 位;(iv)SEQ ID NO:2 的第 395 至 622 位;(v) SEQ ID NO:2 的第 24 至 622 位;或(iv) SEQ ID NO:2的第73至622位;该多肽具有β -木糖苷酶活性;或者
[0332](2)与氨基酸序列具有至少 80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的多肽,所述氨基酸序列对应于(i)SEQ ID NO:4的第21至 445 位;(ii) SEQ ID NO:4 的第 21 至 301 位;(iii) SEQ ID NO:4 的第 21 至 323 位;(iv)SEQ ID NO:4 的第 21 至 444 位;(v) SEQ ID NO:4 的第 302 至 444 位;(vi) SEQ ID NO:4 的第 302 至 445 位;(vii) SEQ ID NO:4 的第 324 至 444 位;或(viii) SEQ ID NO:4 的第 324至445位;该多肽具有β -木糖苷酶活性;或者
[0333](3)与氨基酸序列具有至少 80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的多肽,所述氨基酸序列对应于(i)SEQ ID NO:6的第19至 530 位;(ii) SEQ ID NO:6 的第 29 至 530 位;(iii) SEQ ID NO:6 的第 19 至 300 位;或(iv) SEQ ID NO:6的第29至300位;该多肽具有β -木糖苷酶活性;或者
[0334](4)与氨基酸序列具有至少 80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的多肽,所述氨基酸序列对应于(i)SEQ ID NO:8的第20至 439 位;(ii) SEQ ID NO:8 的第 20 至 291 位;(iii) SEQ ID NO:8 的第 145 至 291 位;或(iv) SEQ ID NO:8的第145至439位;该多肽具有β -木糖苷酶活性;或者
[0335](5)与氨基酸序列具有至少 80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的多肽,所述氨基酸序列对应于(i)SEQ ID N0:10的第23至 449 位;(ii) SEQ ID NO:10 的第 23 至 302 位;(iii) SEQ ID NO: 10 的第 23 至 320 位;(iv) SEQ ID NO: 10 的第 23 至 448 位;(v) SEQ ID NO: 10 的第 303 至 448 位;(vi) SEQ IDNO:10 的第 303 至 449 位;(vii)SEQ ID NO: 10 的第 321 至 448 位;或(viii) SEQ ID NO:10的第321至449位;该多肽具有β -木糖苷酶活性;或者
[0336](6)与氨基酸序列具有至`少 80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的多肽,所述氨基酸序列对应于(i)SEQ ID N0:12的第17至 574 位;(ii) SEQ ID NO:12 的第 27 至 574 位;(iii) SEQ ID NO:12 的第 17 至 303 位;或(iv) SEQ ID NO:12的第27至303位;该多肽具有β -木糖苷酶活性和L- α -阿拉伯呋喃糖酶活性;或者
[0337](7)与氨基酸序列具有至少 80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的多肽,所述氨基酸序列对应于(i)SEQ ID N0:14的第21至 676 位;(ii) SEQ ID NO:14 的第 21 至 652 位;(iii) SEQ ID NO: 14 的第 469 至 652 位;或(iv)SEQ ID NO:14的第469至676位;该多肽既具有β -木糖苷酶活性又具有L-α -阿拉伯呋喃糖酶活性;或者
[0338](8)与氨基酸序列具有至少 80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的多肽,所述氨基酸序列对应于(i)SEQ ID N0:16的第19至 340 位;(ii) SEQ ID NO:16 的第 53 至 340 位;(iii) SEQ ID NO:16 的第 19 至 383 位;或(iv) SEQ ID NO:16的第53至383位;该多肽具有β _木糖苷酶活性;或者
[0339](9)与氨基酸序列具有至少 80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的多肽,所述氨基酸序列对应于(i)SEQ ID N0:18的第21至 341 位;(ii)SEQ ID NO:18 的第 107 至 341 位;(iii) SEQ ID NO:18 的第 21 至 348 位;或(iv)SEQ ID NO:18的第107至348位;该多肽具有β -木糖苷酶活性;或者
[0340](10)与氨基酸序列具有至少 80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的多肽,所述氨基酸序列对应于(i)SEQ ID NO:20的第15至558位;或(ii)SEQ ID NO:20的第15至295位;该多肽具有L-α -阿拉伯呋喃糖酶活性;或者
[0341](11)与氨基酸序列具有至少 80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的多肽,所述氨基酸序列对应于(i)SEQ ID NO:22的第 21 至 632 位;(ii) SEQ ID NO:22 的第 461 至 632 位;(iii) SEQ ID NO:22 的第 21 至 642位;或(iv) SEQ ID NO:22的第461至642位;该多肽具有L- α -阿拉伯呋喃糖酶活性;或

[0342](12)与氨基酸序列具有至少 80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的多肽,所述氨基酸序列对应于(i)SEQ ID NO:28的第 20 至 341 位;(ii) SEQ ID NO:28 的第 21 至 350 位;(iii) SEQ ID NO:28 的第 107 至341位;或(iv) SEQ ID NO:28的第107至350位;该多肽具有β _木糖苷酶活性;或者
[0343](13)与氨基酸序列具有至少 80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的多肽,所述氨基酸序列对应于(i)SEQ ID NO:32的第 21 至 660 位;(ii) SEQ ID NO:32 的第 21 至 645 位;(iii) SEQ ID NO:32 的第 450 至645位;或(iv) SEQ ID NO:32的第450至660位;该多肽具有L-α -阿拉伯呋喃糖酶活性;或者
[0344](14)与SEQ ID NO:52的氨基酸序列,或与SEQ ID NO:52的⑴第22-255位残基、(ii)第22-343位残基、(iii)第307-343位残基、(iv)第307-344位残基、或(v)第22-344 位残基具有至少 80%,`85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%或100%同一性的多肽;该多肽具有GH61 /内切葡聚糖酶活性;或者
[0345](15)与SEQ ID NO:54的氨基酸序列,或与SEQ ID NO:54的⑴第18-282位残基、(ii)第18-601位残基、(iii)第18-733位残基、(iv)第356-601位残基、或(V)第356-733 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%、或100%同一性的多肽;该多肽具有β_葡糖苷酶活性;或者
[0346](16)与SEQ ID NO:56的氨基酸序列,或与SEQ ID NO:56的⑴第22-292位残基、(ii)第22-629位残基、(iii)第22-780位残基、(iv)第373-629位残基、或(V)第373-780 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%、或100%同一性的多肽;该多肽具有β -葡糖苷酶活性;或者
[0347](17)与SEQ ID NO:58的氨基酸序列,或与SEQ ID NO:58的⑴第20-321位残基、(ii)第20-651位残基、(iii)第20-811位残基、(iv)第423-651位残基、或(V)第423-811 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%、或100%同一性的多肽;该多肽具有β_葡糖苷酶活性;或者
[0348](18)与SEQ ID NO:60的氨基酸序列,或与SEQ ID NO:60的⑴第20-327位残基、(ii)第22-600位残基、(iii)第20-899位残基、(iv)第428-899位残基、或(V)第428-660 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%、或100%同一性的多肽;该多肽具有β -葡糖苷酶活性;或者[0349](19)与SEQ ID NO:62的氨基酸序列,或与SEQ ID NO:62的⑴第20-287位残基、(ii)第22-611位残基、(iii)第20-744位残基、(iv)第362-611位残基、或(V)第362-744 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%、或100%同一性的多肽;该多肽具有β -葡糖苷酶活性;或者
[0350](20)与 SEQ ID NO:64 的氨基酸序列,或与 SEQ ID NO:64 的(i)第 19-307 位残基、(ii)第19-640位残基、(iii)第19-874位残基、(iv)第407-640位残基、或(V)第407-874 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%、或100%同一性的多肽;该多肽具有β_葡糖苷酶活性;或者
[0351](21)与SEQ ID NO:66的氨基酸序列,或与SEQ ID NO:66的⑴第20-297位残基、(ii)第20-629位残基、(iii)第20-857位残基、(iv)第396-629位残基、或(V)第396-857 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%、或100%同一性的多肽;该多肽具有β -葡糖苷酶活性;或者
[0352](22)与SEQ ID NO:68的氨基酸序列,或与SEQ ID NO:68的⑴第20-300位残基、(ii)第20-634位残基、(iii)第20-860位残基、(iv)第400-634位残基、或(V)第400-860 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%、或100%同一性的多肽;该多肽具有β_葡糖苷酶活性;或者
[0353](23)与SEQ ID NO:70的氨基酸序列,或与SEQ ID NO:70的⑴第20-327位残基、(ii)第20-660位残基、(iii)第20-899位残基、(iv)第428-660位残基、或(V)第428-899 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%、或100%同一性的多肽;该多肽具有β -葡糖苷酶活性;或者
[0354](24)与SEQ ID NO:72的氨基酸序列,或与SEQ ID NO:72的⑴第19-314位残基、(ii)第19-647位残基、(iii)第19-886位残基、(iv)第415-647位残基、或(v)第415-886 位残基具有至少 80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的多肽;该多肽具有β_葡糖苷酶活性;或者
[0355](25)与SEQ ID NO:74的氨基酸序列,或与SEQ ID NO:74的⑴第20-295位残基、(ii)第20-647位残基、(iii)第20-880位残基、(iv)第414-647位残基、或(V)第414-880 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%、或100%同一性的多肽;该多肽具有β -葡糖苷酶活性;或者
[0356](26)与SEQ ID NO:76的氨基酸序列,或与SEQ ID NO:76的⑴第19-296位残基、(ii)第 19-649 位残基、(iii)第 19-890 位残基、(iv)第 415-649 位残基或(V)第 415-890位残基具有至少 80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的多肽;该多肽具有β_葡糖苷酶活性;或者
[0357](27)与SEQ ID NO:78的氨基酸序列,或与SEQ ID NO:78的⑴第20-354位残基、(ii)第20-660位残基、(iii)第20-805位残基、(iv)第449-660位残基、或(V)第449-805 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%、或100%同一性的多肽;该多肽具有β -葡糖苷酶活性;或者
[0358](28)与 SEQ ID NO:79 的氨基酸序列具有至少 80%、85%、90%、91 %、92%、93%、94%、95%、96%、97%、98%、99%、或100%同一性的多肽;该多肽具有β _葡糖苷酶活性;或者[0359](29)至少约100(如,至少约150、175、200、225、或250)个氨基酸残基长并且包含一个或多个序列基序的多肽,所述序列基序选自=(I)SEQ ID NO:84和88 ;(2)SEQ ID NO:
85和 88; (3) SEQ ID NO:86 ; (4) SEQ ID NO:87 ; (5) SEQ ID NO:84、88 和 89 ; (6) SEQ ID NO:85、88 和 89 ; (7)SEQ ID NO:84、88 和 90 ; (8) SEQ ID NO:85、88 和 90 ; (9) SEQ ID NO:84、88和 91; (10)SEQ ID NO:85、88 和 91 ; (Il)SEQ ID NO:84、88、89 和 91 ; (12)SEQ ID NO:84、88、90 和 91 ;(13)SEQ ID NO:85、88、89 和 91:以及(14) SEQ ID NO:85、88、90 和 91,其中该多肽具有GH61 /内切葡聚糖酶活性;或者
[0360](30)包含至少2个或更多个β -葡糖苷酶序列的多肽,其中第一 β -葡糖苷酶序列为至少约 200(如,至少约 200、220、240、260、280、300、320、340、360、380、或 400)个残基长,包含SEQ ID NO:197-202中的一者或多者或全部,而第二 β-葡糖苷酶序列为至少约 50(如,至少约 55、60、65、70、75、80、85、90、95、100、120、140、160、180、200)个氨基酸残基长并且包含SEQ ID NO:203,其中所述多肽任选地还包含第三β -葡糖苷酶序列,该序列为约3、4、5、6、7、8、9、10、或11个氨基酸残基长,衍生自SEQ ID NO:66的环序列或包含FDRRSPG (SEQ ID NO:204)或 FD (R/K) YNIT (SEQ ID NO:205)的氨基酸序列,其中所述多肽具有葡糖苷酶活性。
[0361]本发明还提供经工程改造的酶组合物(如,纤维素酶组合物)或富含一种或多种上述多肽的发酵液。纤维素酶组合物可为,如,丝状真菌纤维素酶组合物,例如,木霉属、金孢子菌属或曲霉属纤维素酶组合物;酵母纤维素酶组合物,例如,酿酒酵母纤维素酶组合物,或细菌纤维素酶组合物,如,芽孢杆菌属纤维素酶组合物。发酵液可为丝状真菌的发酵液,例如,木霉属、腐质霉属、键刀圃属、曲霉属、脉抱圃属、青霉属、头抱霉属、绵霉属、柄抱壳菌属、内座壳属、毛霉属、旋孢腔菌属、梨孢属、或金孢子菌属发酵液。具体地讲,发酵液可为,例如,木霉属的一种,例如,里氏木霉,或青霉属,例如,绳状青霉菌。发酵液也可适当地经小量的制备后处理步骤处理,如,纯化、过滤、超滤或灭杀细胞步骤,然后用于全发酵液制剂中。
[0362]本发明还提供经重组 工程改造的宿主细胞,以表达上述多肽。宿主细胞可为,例如,真菌宿主细胞或细菌宿主细胞。真菌宿主细胞可为,如,丝状真菌宿主细胞,例如,木霉属、腐质霉属、键刀圃属、曲霉属、脉抱圃属、青霉属、头抱霉属、绵霉属、柄抱壳圃属、内座壳属、毛霉菌属、旋孢腔菌属、梨孢属或金孢子菌属细胞。具体地讲,宿主细胞可为,例如,木霉属细胞(例如,里氏木霉细胞)或青霉属细胞(例如,绳状青霉菌细胞)、曲霉菌细胞(例如,米曲霉或构巢曲霉(A.nidulans)细胞)或镰刀菌属细胞(例如,环珠状镰刀菌(F.verticilloides)或尖孢镰刀菌细胞)。
[0363]5.1.1融合或嵌合蛋白质
[0364]本发明提供融合/嵌合蛋白质,其包含附接到一个或多个融合片段的本发明的蛋白质结构域,所述融合片段通常与所述蛋白质异源(即,衍生自与本发明的蛋白质不同的来源)。合适的融合/嵌合片段包括但不限于可增强蛋白质稳定性、提供其他所需生物活性或增强水平的所需生物活性,和/或有利于蛋白质的纯化(如,通过亲和色谱法)的片段。合适的融合片段可为具有所需功能(如,赋予更高的稳定性、溶解度、反应或生物活性;和/或简化蛋白质的纯化)的任何大小的结构域。融合/杂交蛋白质可由2个或更多个融合/嵌合片段构造而成,每个或至少两个所述融合/嵌合片段衍生自不同的来源或微生物。融合/杂交片段可连接到本发明的蛋白质结构域的氨基和/或羧基末端。融合片段可易受裂解的影响。具有该易感性可能有一些优势,如,它可能实现对所关注的蛋白质的直接回收。融合蛋白质优选地通过培养转染了融合核酸的重组细胞制备,所述融合核酸编码这样的蛋白质,所述蛋白质包括附接到蛋白质的或其结构域的羧基或氨基末端任一者的融合片段,或附接到蛋白质的或其结构域的羧基和氨基末端两者的融虫合片段。
[0365]在一些方面,本发明提供某些嵌合/融合蛋白质,所述蛋白质经工程改造而包含2个或更多个序列,所述序列衍生自2种或更多种不同酶类的酶,或两种或更多种相同或相似种类但衍生自不同生物体的酶。在某些方面,本发明提供某些嵌合/融合蛋白质或多肽,所述蛋白质或多肽经工程改造以改善某些性质,使得嵌合/融合多肽更适用于所需工业应用,例如,在用于水解生物质材料时。在一些方面,经改善的性质可包括,例如,改善的稳定性。改善的稳定性可反映在改善的蛋白水解稳定性,如,通过在标准存储条件下某个储存时间后观察到的更小程度的蛋白水解裂解,通过在合适的表`达条件下在表达过程中宿主细胞表达蛋白质之后观察到的更小程度的蛋白水解裂解反映出来,或通过在如标准制备条件下在通过经工程改造的宿主细胞重组制备蛋白质后观察到的更小程度的蛋白水解裂解反映出来。
[0366]在某些实施例中,本发明提供嵌合/融合葡糖苷酶多肽。在一些方面,嵌合/融合葡糖苷酶包含2个或更多个β-葡糖苷酶序列,其中第一序列为至少约200 (例如,至少约200、250、300、350或400)个氨基酸残基长并且包含与SEQ ID NO:54、56、58、62、64、66、68、70、72、74、76、78和79的任一者的相等长度的序列具有至少约60% (如,至少约65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或100% )同一性的序列,而第二序列为至少约50 (如,至少约50、75、100、125、150或200)个氨基酸残基长的序列并且包含与SEQ ID NO:60的相等长度的序列具有至少约60% (如,至少约 65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%)同一性的序列。在一些方面,嵌合/融合葡糖苷酶包含2个或更多个β -葡糖苷酶序列,其中第一序列为至少约200 (如,至少约200、250、300、350或400)个氨基酸残基长并且包含与SEQ ID NO:60的相等长度的序列具有至少约60% (如,至少约65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或100% )同一性的序列,而第二序列为至少约50 (如,至少约50、75、100、125、150或200)个氨基酸残基长的序列并且包含与SEQ ID NO:54、56、58、62、64、66、68、70、72、74、76、78和79的任一者的相等长度的序列具有至少约60 % (如,至少约65 %、70 %、75 %、80 %、85 %、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或 100% )同一性的序列。具体地讲,两个或更多个β-葡糖苷酶序列的第一序列为至少约200个氨基酸残基长的序列,并且包含SEQ ID NO:197-202的氨基酸序列基序的至少2个(如,至少2、3、4个或全部),而两个或更多个β -葡糖苷酶的第二序列为至少50个氨基酸残基长并且包含SEQ ID NO:203。在某些实施例中,融合/嵌合β-葡糖苷酶多肽具有β-葡糖苷酶活性。在一些实施例中,第一序列位于嵌合/融合β -葡糖苷酶多肽的N端,而第二序列位于嵌合/融合β -葡糖苷酶多肽的C端。在一些实施例中,第一个序列通过其C端连接到第二序列的N端,例如第一序列紧邻或直接连接到第二序列。在其他实施例中,第一序列通过接头结构域连接到第二序列。在某些实施例中,第一序列、第二序列或第一和第二序列包含I个或多个糖基化位点。在一些实施例中,第一或第二序列包含环序列或编码环状结构的序列,其衍生自第三β -葡糖苷酶多肽,为约3、4、5、6、7、8、9、10或11个氨基酸残基长,并且包含FDRRSPG(SEQID NO:204)或FD(R / K)YNIT(SEQ ID NO:205)的氨基酸序列。在某些实施例中,第一和第二序列均不含环序列,而是连接第一和第二序列的接头结构域包含这样的环序列。在一些实施例中,融合/嵌合β -葡糖苷酶多肽与第一、第二或接头结构域序列每一者所来源的对应β -葡糖苷酶多肽相比具有改善的稳定性。在一些实施例中,改善的稳定性为改善的蛋白水解稳定性,反映在:更不易在环序列的残基或在环序列外的残基或位置处发生蛋白水解裂解,更不易在标准储存条件下的储存期间或标准表达/生产条件下的表达和/或生产期间发生蛋白水解裂解。
[0367]在某些方面,本发明提供衍生自2个或更多个葡糖苷酶序列的融合/嵌合β -葡糖苷酶多肽,其中第一序列衍生自Fv3C并且为至少约200个氨基酸残基长,而第二序列衍生自Tr3B并且为至少约50个氨基酸残基长。在一些实施例中,第一序列的C端连接到第二序列的N端,如,第一序列紧邻或直接连接到第二序列。在其他实施例中,第一序列通过接头序列连接到第二序列。在一些实施例中,第一或第二序列包含衍生自第三β -葡糖苷酶多肽的环序列,其为约3、4、5、6、7、8、9、10或11个氨基酸残基长,并且包含FDRRSPG (SEQ ID NO:204)或 FD(R / K) YNIT (SEQ ID NO:205)的氨基酸序列。在某些实施例中,第一和第二序列均不含环序列,而是连接第一和第二序列的接头序列包含这样的环序列。在某些实施例中,环序列衍生自Te3A多肽。在一些实施例中,融合/嵌合β-葡糖苷酶多肽与嵌合部分的每一者所来源的对应β_葡糖苷酶多肽相比具有改善的稳定性。例如,改善的稳定性超过了 Fv3C多肽、Te3A多肽和/或Tr3B多肽的稳定性。在一些实施例中,改善的稳定性为改善的蛋白水解稳定性,反映在:如,更不易在标准储存条件下的储存期间或在表达/生产条件的表达/生产期间发生环序列中的残基或在环序列外的残基或位置处的蛋白水解裂解。例如,融合/嵌合多肽在连接到环序列的C端的残基或位置处与Fv3C多肽在相同的位置(例如当对嵌合体和Fv3C多肽的序列进行比对时)处相比不易发生蛋白水解裂解。
`[0368]因此,本发明的蛋白质还包括基因融合(如,过表达的、可溶的和活性形式的重组蛋白质)的表达产物、诱变基因(如,具有增强基因转录和翻译的密码子修饰的基因)的表达产物,以及截短的基因(如,信号序列被去除或置换为异源信号序列的基因)的表达产物。
[0369]使用不溶底物的糖基水解酶通常是模块化的酶。它们通常包括添加到一个或多个非催化碳水化合物结合结构域(CBM)的催化模块。事实上,CBM被认为可促进糖基水解酶与其目标底物多糖的相互作用。因此,本发明提供具有改变的底物特异性的嵌合酶;包括,如,由于“拼接成”的异源CBM而具有多种底物的嵌合酶。本发明的嵌合酶的异源CBM还可被设计为模块,使得它们被添加到催化模块或催化结构域(“CD”,如,在活性位点),其可与糖基水解酶异源或同源。因此,本发明提供由CBM / CD模块组成或包含CBM / CD模块的肽和多肽,CBM / CD模块可同源成对或连接以形成嵌合/同源CBM / CD对。嵌合多肽/肽可用于提高或改变所关注的酶的性能。
[0370]因此,本发明提供嵌合酶,所述嵌合酶包含,如,酶或多肽的至少一种CBM,所述酶或多肽在至少约 10(如,至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上,与 SEQ ID NO:54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 的任一者具有至少约 60% (如,至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%)的同一性。在一些方面,本发明提供嵌合酶,所述嵌合酶包含,如,酶或多肽的至少一种CBM,所述酶或多肽在至少约10 (如,至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上,与SEQ ID NO:52、80-81、206-207 的任一者具有至少约 60% (如,至少约 60%、65%、70%、75%,80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100% )的同一性。在一些方面,本发明提供嵌合酶,所述嵌合酶包含,如,酶或多肽的至少一种CBM,所述酶或多肽具有至少约50 (如,至少约50、100、150、200、250或300)个氨基酸残基长,包含选自以下的序列基序的一者或多者:(I) SEQ ID NO:84和88 ;(2)SEQ ID NO:85和88 ; (3) SEQID NO:86 ; (4) SEQ ID NO:87 ; (5) SEQ ID NO:84、88 和 89 ; (6) SEQ ID NO:85、88 和 89 ; (7)SEQ ID NO:84,88 和 90 ; (8)SEQ ID NO:85、88 和 90 ; (9)SEQ ID NO:84、88 和 91 ; (10)SEQID NO:85、88 和 91 ; (Il)SEQ ID NO:84、88、89 和 91 ; (12) SEQ ID NO:84、88、90 和 91 ; (13)SEQ ID NO:85、88、89 和 91:以及(14)SEQ ID NO:85、88、90 和 91。在一些方面,本发明提供嵌合酶,所述嵌合酶包含,如,酶或多肽的至少一种CBM,所述酶或多肽在至少约10个,如,至少约 15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300、325 或 350 个残基的区域上,与 SEQ ID NO:2、4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、43 和 45 的任一者的多肽具有至少约 70%,如,至少约 71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98% 或 99% 或完全(100% )的同一性。
[0371]本发明的多肽可因此适当地为包含来自两种或更多种不同蛋白质的功能域的融合蛋白质(如,来自一种蛋白质的CBM与来自另一种蛋白质的CD相连)。
[0372]本发明的多肽可 适当地以“基本上纯的”形式获得和/或使用。例如,本发明的多肽占给定组合物的总蛋白的至少约80重量% (如,至少约85重量%、90重量%、91重量%、92重量%、93重量%、94重量%、95重量%、96重量%、97重量%、98重量%或99重量%),所述给定组合物还包含其他成分,例如,缓冲剂或溶液。
[0373]另外,本发明的多肽可适当地以培养液(如,丝状真菌培养液)的形式获得和/或使用。培养液可为经工程改造的酶组合物,例如,培养液可通过经工程改造以表达本发明的异源多肽的重组宿主细胞制备,或通过经工程改造以比内源性表达水平更大或更小的量(如,以比内源性表达水平多或少I倍、2倍、3倍、4倍、5倍或更多倍的量)表达本发明的内源性多肽的重组宿主细胞制备。此外,本发明的培养液可通过某些经工程改造来以需要的比率表达本发明的多个多肽的“整合”宿主细胞菌株制备。本文(例如,在以下5.3节)描述了示例性的所需比率。
[0374]5.2核酸和宿主细胞
[0375]本发明提供编码本发明多肽的核酸,例如,以上5.1节所述的多肽。
[0376]在一些方面,本发明提供编码葡糖苷酶多肽的分离的、合成的或重组的核苷酸,所述多肽在至少约 10(如,至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域,或在全长催化结构域或全长碳水化合物结合结构域(CBM)上,与SEQ ID NO:54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 中的任一者具有至少 60% (如,至少约 60%,65%,70%,75%,80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100% )的序列同一性。在一些实施例中,分离的、合成的或重组的核苷酸编码为两个或更多个葡糖苷酶序列的融合体/嵌合体的葡糖苷酶多肽。融合/嵌合的葡糖苷酶多肽可包含至少约200 (如,至少约200、250、300、350、400或500)个氨基酸残基长的第一序列,并且可包含SEQ ID NO =96-108的氨基酸序列基序的一者或多者或全部。杂合/嵌合的β -葡糖苷酶多肽可包含至少约50 (如,至少约50、75、100、125、150、175或200)个氨基酸残基长的第二β-葡糖苷酶序列,并且可包含SEQ ID NO:109-116的氨基酸序列基序的一者或多者或全部。具体地讲,两个或更多个葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO:197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个葡糖苷酶的第二序列为至少50个氨基酸残基长并包含SEQ IDΝ0:203。第一 β-葡糖苷酶序列的C端可连接到第二 β-葡糖苷酶序列的N端。在其他实施例中,第一和第二葡糖苷酶序列通过接头序列连接。接头序列可包含环序列,所述环序列为约3、4、5、6、7、8、9、10或11个氨基酸残基长,衍生自第三β -葡糖苷酶多肽,并且包含 FDRRSPG (SEQ ID NO:204)或 FD(R / K) YNIT (SEQ ID NO:205)的氨基酸序列。
[0377]在某些方面,本发明提供编码葡糖苷酶多肽的分离的、合成的或重组的核苷酸,所述多肽为至少2 (如,2、3,甚至4)个β -葡糖苷酶序列的杂交体,其中所述至少2个β-葡糖苷酶序列的第一序列为至少约200(如,至少约200、250、300、350或400)个氨基酸残基长,并且包含与 SEQ ID NO:54、56、58、62、64、66、68、70、72、74、76、78 和 79 的任一者的相等长度的序列具有至少约60% (如,至少约65%、70%、75%、80%、85%、90%、91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100% )同一性的序列,然而,所述 2个葡糖苷酶序列中的第二序列为至少约50(如,至少约50、75、100、125、150或200)个氨基酸残基长,并且包含与SEQ ID NO:60的相等长度的序列具有至少60% (如,至少约65%、70%、75%、80%、85%、9 0%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或100%)同一性的序列。在可供选择的实施例中,本发明提供编码β-葡糖苷酶多肽的分离的、合成的或重组的核苷酸,所述多肽为至少2(如,2、3或甚至4)个β-葡糖苷酶序列的杂合体,其中至少2个β-葡糖苷酶序列的第一序列为至少约200 (如,至少约200、250、300、350或400)个氨基酸残基长并包含与SEQ ID NO:60的相等长度的序列具有至少60% (如,至少约 65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100% )同一性的序列,而至少2个β -葡糖苷酶序列的第二序列为至少约50(如,至少约50、75、100、125、150或200)个氨基酸残基长并包含与SEQ ID NO:54、56、58、62、64、66、68、70、72、74、76、78和79的任一者的相等长度的序列具有至少约60% (如,至少约 65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100% )同一性的序列。在某些实施例中,核苷酸编码具有β -葡糖苷酶活性的融合/嵌合β-葡糖苷酶多肽。具体地讲,两个或更多个葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ IDNO =197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个β -葡糖苷酶的第二序列为至少50个氨基酸残基长并包含SEQ ID N0:203。在一些实施例中,核苷酸编码位于嵌合/融合β -葡糖苷酶多肽N端的第一氨基酸序列。在一些实施例中,核苷酸编码位于嵌合/融合β_葡糖苷酶多肽C端的第二氨基酸序列。第一氨基酸序列的C端可连接到第二氨基酸序列的N端。在其他实施例中,第一氨基酸序列不紧邻第二氨基酸序列,而是通过接头结构域将第一序列连接到第二序列。在一些实施例中,第一氨基酸序列、第二氨基酸序列或接头结构域包含具有环序列或呈现出环状结构的序列的氨基酸序列。在某些实施例中,环序列衍生自第三葡糖苷酶多肽,为约3、4、5、6、7、8、9、10或11个氨基酸残基长,并且包含FDRRSPG(SEQ ID NO:204)或 FD(R / K) YNIT (SEQ ID NO:205)的氨基酸序列。
[0378]在一些方面,本发明提供分离的、合成的或重组的核苷酸,所述核苷酸与SEQ IDNO:52、55、57、59、61、63、65、67、69、71、73、75、77、92 或 94 的任一者,或与 SEQ ID NO:53、55、57、59、61、63、65、67、69、71、73、75、77、92 或 94 的任一者的至少约 300 (如,至少约 300、400、500或600)个残基长的片段具有至少60% (如,至少约60%、65%、70%、75%、80%、85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100% )的序列同一性。在某些实施例中,本发明提供在低严格性、中等严格性、高严格性或极高严格性条件下能够杂交至Ij SEQ ID NO:53、55、57、59、61、63、65、67、69、71、73、75、77、92 或 94 的任一者或杂交到其至少约300个残基长的片段或杂交到其互补序列的分离的、合成的或重组的核苷酸。
[0379]在一些方面,本发明提供编码如下多肽的分离的、合成的或重组的核苷酸,所述多肽包含在至少约 10(如,至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上,或在全长催化结构域或全长碳水化合物结合结构域(CBM)上,与SEQ ID NO:52、80-81、206_207的任一者具有至少约 60% (-如,至少约 60%,65%,75%,80%,85%,90%,91%,92%,80%,94%,207%,96^^97^^98^^99%或100%)的序列同一性的氨基酸序列。在某些实施例中,分离的、合成的或重组的核苷酸编码具有GH61 /内切葡聚糖酶活性的多肽。在一些实施例中,本发明提供编码如下多肽的分离的、合成的或重组的多核苷酸,所述多肽包含至少约50(例如至少约50、100、150、200、250 或300)个氨基酸残基长的氨基酸序列,包含选自以下的序列基序的一者或多者:(I) SEQ ID NO:84 和 88 ; (2) SEQ ID NO:85 和 88 ; (3) SEQ ID NO:86 ; (4)SEQ ID NO:87 ; (5) SEQ ID NO:84、88 和 89 ; (6) SEQ ID NO:85、88 和 89 ; (7) SEQ ID NO:84、88 和 90; (8) SEQ ID NO:85、88 和 90 ; (9) SEQ ID NO:84、88 和 91 ; (10) SEQ ID NO:85、88和 91; (11) SEQ ID No:84、88、89 和 91 ; (12)SEQ ID NO:84、88、90 和 91 ; (13) SEQ ID NO:85、88、89和91:以及(14) SEQ ID NO:85、88、90和91。在某些实施例中,该多核苷酸为编码与 SEQ ID NO:52 具有至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%序列同一性的多肽的多核苷酸。在一些实施例中,该多核苷酸编码GH61内切葡聚糖酶多肽(例如来自合适生物体的EG IV多肽,例如但不限于里氏木霉Eg4)。
[0380]在一些方面,本发明提供编码如下多肽的分离的、合成的或重组的多核苷酸,所述多肽在至少约 10,如,至少约 15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300、325或350个残基的区域上,或在全长未成熟多肽、全长成熟多肽、全长催化结构域(CD)或全长碳氢化合物结合结构域(CBM)上,与SEQID NO:2、4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、43 和 45 的任一者的多肽具有至少约70% (如,至少约71%、72%、73%、74%、75%、76%、77%、78%、79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 %,92%,93%,94%、95%、96%、97%、98%或99%或完全(100%))的序列同一性。在一些方面,本发明提供分离的、合成的或重组的多核苷酸,其与SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39和41的任一者,或与其片段具有至少约70% (如,至少约71 72%,73%,74%,75%,76%,77%,78%,79%,80%,81 82%,83%,84%,85%,86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98% 或 99% 或完全(100%))的序列同一性。例如,该片段可为至少约10、20、30、40、50、60、70、80、90、100个残基长。在一些实施例中,本发明提供在低严格性条件、中等严格性条件、高严格性条件或极高严格性条件下杂交到 SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39和41任一者或杂交到其片段或子序列的分离的、合成的或重组的多核苷酸。
[0381]本发明因此特别地提供编码Fv3A、Pf43A、Fv43E、Fv39A、Fv43A、Fv43B、Pa51A、Gz43A、Fo43A、Af43A、Pf51A、AfuXyn2、AfuXyn5、Fv43D、Pf43B、Fv43B、Fv51A、里氏木霉 Xyn3、里氏木霉 Xyn2、里氏木霉 Bxll、里氏木霉 Eg4、Pa3D、Fv3G、Fv3D、Fv3C、Tr3A、Tr3B、Te3A、An3A、Fo3A、Gz3A、Nh3A、Vd3A、Pa3G或Tn3B多肽(包括其变体、突变体或融合体/嵌合体)的核酸。本发明还提供编码包含Fv3C—部分和Tr3B—部分的嵌合或融合酶的核酸。该嵌合或融合多肽在一些实施例中还可包含接头结构域,该接头结构域含有至少约3、4、5、6、7、
8、9、10或11个衍生自Te3A的氨基酸残基的环序列。例如,本发明提供与92或94具有至少约60%序列同一'丨生的分离的核苷酸。
[0382]例如,本发明提供分尚的核酸分子,其中该核酸分子编码:
[0383](I)包含与对应于如下位置的氨基酸序列具有至少80%、85%、90%、91%、92%、93%,94%,95%,96%,97%,98%,99%^ 100%序列同一性的氨基酸序列的多肽:(i) SEQID NO:2 的第 24 至 766 位;(ii)SEQ ID NO:2 的第 73 至 321 位;(iii) SEQ ID NO:2 的第73 至 394 位;(iv) SEQ ID NO:2 的第 395 至 622 位;(v) SEQ ID NO:2 的第 24 至 622 位;或(iv) SEQ ID NO:2的第73至62 2位;该多肽优选地具有β -木糖苷酶活性;或者
[0384](2)包含与对应于如下位置的氨基酸序列具有至少80%、85%、90%、91%、92%、93%,94%,95%,96%,97%,98%,99%^ 100%序列同一性的氨基酸序列的多肽:(i) SEQID NO:4 的第 21 至 445 位;(ii)SEQ ID NO:4 的第 21 至 301 位;(iii) SEQ ID NO:4 的第 21至 323 位;(iv) SEQ ID NO:4 的第 21 至 444 位;(v) SEQ ID NO:4 的第 302 至 444 位;(vi)SEQ ID NO:4 的第 302 至 445 位;(vii) SEQ ID NO:4 的第 324 至 444 位;或(viii) SEQ IDNO:4的第324至445位;该多肽优选地具有β -木糖苷酶活性;或者
[0385](3)包含与对应于如下位置的氨基酸序列具有至少80%、85%、90%、91%、92%、93%,94%,95%,96%,97%,98%,99%^ 100%序列同一性的氨基酸序列的多肽:(i) SEQID NO:6 的第 19 至 530 位;(ii) SEQ ID NO:6 的第 29 至 530 位;(iii) SEQ ID NO:6 的第19至300位;或(iv) SEQ ID NO:6的第29至300位;该多肽优选地具有β -木糖苷酶活性;或者
[0386](4)包含与对应于如下位置的氨基酸序列具有至少80%、85%、90%、91%、92%、93%,94%,95%,96%,97%,98%,99%^ 100%序列同一性的氨基酸序列的多肽:(i) SEQID NO:8 的第 20 至 439 位;(ii)SEQ ID NO:8 的第 20 至 291 位;(iii) SEQ ID NO:8 的第145至291位;或(iv) SEQ ID NO:8的第145至439位;该多肽优选地具有β -木糖苷酶活性;或者
[0387](5)包含与对应于如下位置的氨基酸序列具有至少80%、85%、90%、91%、92%、93%,94%,95%,96%,97%,98%,99%^ 100%序列同一性的氨基酸序列的多肽:(i) SEQID NO: 10 的第 23 至 449 位;(ii) SEQ ID NO: 10 的第 23 至 302 位;(iii) SEQ ID NO:10 的第23 至 320 位;(iv) SEQ ID NO:10 的第 23 至 448 位;(v) SEQ ID NO:10 的第 303 至 448 位;(vi)SEQ ID NO:10 的第 303 至 449 位;(vii) SEQ ID NO:10 的第 321 至 448 位;或(viii)SEQ ID NO:10的第321至449位;该多肽优选地具有β -木糖苷酶活性;或者
[0388](6)包含与对应于如下位置的氨基酸序列具有至少80%、85%、90%、91%、92%、93%,94%,95%,96%,97%,98%,99%^ 100%序列同一性的氨基酸序列的多肽:(i) SEQID NO:12 的第 17 至 574 位;(ii)SEQ ID NO:12 的第 17 至 574 位;(iii) SEQ ID NO:12 的第17至303位;或(iv) SEQ ID NO:12的第27至303位;该多肽优选地既具有β -木糖苷酶活性又具有L- α -阿拉伯呋喃糖酶活性;或者
[0389](7)包含与对应于如下位置的氨基酸序列具有至少80%、85%、90%、91%、92%、93%,94%,95%,96%,97%,98%,99%^ 100%序列同一性的氨基酸序列的多肽:(i) SEQID NO:14 的第 21 至 676 位;(ii)SEQ ID NO:14 的第 21 至 652 位;(iii) SEQ ID NO:14 的第469至652位;或(iv) SEQ ID NO:14的第469至676位;该多肽优选地具有β -木糖苷酶活性和L- α -阿拉伯呋喃糖酶活性;或者
[0390](8)包含与对应于如下位置的氨基酸序列具有至少80%、85%、90%、91%、92%、93%,94%,95%,96%,97%,98%,99%^ 100%序列同一性的氨基酸序列的多肽:(i) SEQID NO:16 的第 19 至 340 位;(ii)SEQ ID NO:16 的第 53 至 340 位;(iii) SEQ ID NO:16 的第19至383位;或(iv) SEQ ID NO:16的第53至383位;该多肽优选地具有β -木糖苷酶活性;或者
[0391](9)包含与对应于如下位置的氨基酸序列具有至少80%、85%、90%、91%、92%、93%,94%,95%,96%,97%,98%,99%^ 100%序列同一性的氨基酸序列的多肽:(i) SEQID NO:18 的第 21 至 341 位;(ii)SEQ ID NO:18 的第 107 至 341 位;(iii) SEQ ID NO:18 的第21至348位;或(iv) SEQ ID NO:18的第107至348位;该多肽优选地具有β -木糖苷酶活性;或者
[0392](10)包含与对应于如下位置的氨基酸序列具有至少80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100 %序列同一性的氨基酸序列的多肽:
(i)SEQ ID NO:20的第15至558位;或(ii)SEQ ID NO:20的第15至295位;该多肽优选地具有L- α -阿拉伯呋喃糖酶活性;或者
[0393](11)包含与对应于如下位置的氨基酸序列具有至少80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100 %序列同一性的氨基酸序列的多肽:
(i)SEQ ID NO:22 的第 21 至 632 位;(ii) SEQ ID NO:22 的第 461 至 632 位;(iii) SEQ IDNO:22的第21至642位;或(iv) SEQ ID NO:22的第461至642位;该多肽优选地具有L-α -阿拉伯呋喃糖酶活性;或者
[0394](12)包含与对应于如下位置的氨基酸序列具有至少80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100 %序列同一性的氨基酸序列的多肽:(i)SEQ ID NO:28 的第 20 至 341 位;(ii) SEQ ID NO:28 的第 21 至 350 位;(iii) SEQ IDNO:28的第107至341位;或(iv) SEQ ID NO:28的第107至350位;该多肽具有β _木糖苷酶活性;或者
[0395](13)包含与对应于如下位置的氨基酸序列具有至少80%、85%、90%、91 %、92%、93%、94%、95%、96%、97%、98%、99%或100 %序列同一性的氨基酸序列的多肽:
(i)SEQID NO:32 的第 21 至 660 位;(ii) SEQ ID NO:32 的第 21 至 645 位;(iii) SEQ IDNO:32的第450至645位;或(iv)SEQ ID NO:32的第450至660位;该多肽优选地具有L- α -阿拉伯呋喃糖酶活性;或者
[0396](14)包含与SEQ ID NO:52的氨基酸序列或与SEQ ID NO:52的⑴第22-255位、
(ii)第22-343 位、(iii)第 307-343 位、(iv)第 307-344 位或(v)第 22-344 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的氨基酸序列的多肽;该多肽优选地具有GH61 /内切葡聚糖酶活性;或者
[0397](15)包含与SEQ ID NO:54的氨基酸序列或与SEQ ID NO:54的⑴第18-282位、(ii)第 18-601 位、(iii)第 18-733 位、(iv)第 356-601 位或(V)第 356-733 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的氨基酸序列的多肽;该多肽优选地具有葡糖苷酶活性;或者
[0398](16)包含与SEQ ID NO:56的氨基酸序列或与SEQ ID NO:56的⑴第22-292位、(ii)第 22-629 位、(iii)第 22-780 位、(iv)第 373-629 位或(V)第 373-780 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的氨基酸序列的多肽;该多肽优选地具有葡糖苷酶活性;或者
[0399](17)包含与SEQ I D NO:58的氨基酸序列或与SEQ ID NO:58的⑴第20-321位、(ii)第 20-651 位、(iii)第 20-811 位、(iv)第 423-651 位或(V)第 423-811 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的氨基酸序列的多肽;该多肽优选地具有葡糖苷酶活性;或者
[0400](18)包含与SEQ ID NO:60的氨基酸序列或与SEQ ID NO:60的⑴第20-327位、(ii)第 22-600 位、(iii)第 20-899 位、(iv)第 428-899 位或(V)第 428-660 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的氨基酸序列的多肽;该多肽优选地具有葡糖苷酶活性;或者
[0401](19)包含与SEQ ID NO:62的氨基酸序列或与SEQ ID NO:62的⑴第20-287位、(ii)第 22-611 位、(iii)第 20-744 位、(iv)第 362-611 位或(V)第 362-744 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的氨基酸序列的多肽;该多肽优选地具有葡糖苷酶活性;或者
[0402](20)包含与SEQ ID NO:64的氨基酸序列或与SEQ ID NO:64的⑴第19-307位、(ii)第 19-640 位、(iii)第 19-874 位、(iv)第 407-640 位或(V)第 407-874 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的氨基酸序列的多肽;该多肽优选地具有葡糖苷酶活性;或者
[0403](21)包含与SEQ ID NO:66的氨基酸序列或与SEQ ID NO:66的⑴第20-297位、(ii)第 20-629 位、(iii)第 20-857 位、(iv)第 396-629 位或(V)第 396-857 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的氨基酸序列的多肽;该多肽优选地具有β -葡糖苷酶活性;或者
[0404](22)包含与SEQ ID NO:68的氨基酸序列或与SEQ ID NO:68的⑴第20-300位、(ii)第 20-634 位、(iii)第 20-860 位、(iv)第 400-634 位或(V)第 400-860 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的氨基酸序列的多肽;该多肽优选地具有葡糖苷酶活性;或者
[0405](23)包含与SEQ ID NO:70的氨基酸序列或与SEQ ID NO:70的⑴第20-327位、(ii)第 20-660 位、(iii)第 20-899 位、(iv)第 428-660 位或(V)第 428-899 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的氨基酸序列的多肽;该多肽优选地具有β -葡糖苷酶活性;或者
[0406](24)包含与SEQ ID NO:72的氨基酸序列或与SEQ ID NO:72的⑴第19-314位、
(ii)第 19-647 位、(iii)第 19-886 位、(iv)第 415-647 位或(V)第 415-886 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的氨基酸序列的多肽;该多肽优选地具有葡糖苷酶活性;或者
[0407](25)包含与SEQ ID NO:74的氨基酸序列或与SEQ ID NO:74的⑴第20-295位、
(ii)第 20-647 位、(iii)第 20-880 位、(iv)第 414-647 位或(v)第 414-880 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的氨基酸序列的多肽;该多肽优选地具有β -葡糖苷酶活性;或者
[0408](26)包含与SEQ ID NO:76的氨基酸序列或与SEQ ID NO:76的⑴第19-296位、
(ii)第 19-649 位、(iii)第 19-890 位、(iv)第 415-649 位或(V)第 415-890 位残基具有至少 80%,85%,90%,91%,92%,93%, 94%,95%,96%,97%,98%,99%^; 100%序列同一性的氨基酸序列的多肽;该多肽优选地具有葡糖苷酶活性;或者
[0409](27)包含与SEQ ID NO:78的氨基酸序列或与SEQ ID NO:78的⑴第20-354位、
(ii)第 20-660 位、(iii)第 20-805 位、(iv)第 449-660 位或(V)第 449-805 位残基具有至少 80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%^; 100%序列同一性的氨基酸序列的多肽;该多肽优选地具有β -葡糖苷酶活性;或者
[0410](28)包含与 SEQ ID NO:79 的氨基酸序列具有至少 80%、85%、90%、91 %、92%、93%、94%、95%、96%、97%、98%、99%或100%序列同一性的氨基酸序列的多肽;该多肽优选地具有β-葡糖苷酶活性;或者
[0411](29)至少约100 (如,至少约150、175、200、225或250)个残基长并且包含一个或多个序列基序的多肽,所述序列基序选自=(I)SEQ ID NO:84和88 ;(2)SEQ ID NO:85和88; (3) SEQ ID NO:86 ; (4) SEQ ID NO:87 ; (5) SEQ ID NO:84、88 和 89 ; (6) SEQ ID NO:85、88和 89 ; (7)SEQ ID NO:84、88和 90 ; (8)SEQ ID NO:85、88和 90 ; (9)SEQ ID NO:84、88和91 ; (IO)SEQ ID NO:85、88 和 91 ; (Il)SEQ ID NO:84、88、89 和 91 ; (12)SEQ ID NO:84、88、90 和 91 ; (13) SEQ ID NO:85、88、89 和 91:以及(14) SEQ ID NO:85、88、90 和 91,其中该多肽优选地具有GH61 /内切葡聚糖酶活性;或者
[0412](30)包含至少两个或更多个葡糖苷酶序列的多肽,其中第一葡糖苷酶序列为至少约 200 (如,至少约 200、220、240、260、280、300、320、340、360、380 或 400)个残基长,包含SEQ ID NO:96-108中的一者或多者或全部,而第二 β-葡糖苷酶序列为至少约 50(如,至少约 55、60、65、70、75、80、85、90、95、100、120、140、160、180、200)个氨基酸残基长并且包含SEQ ID NO:109-116中的一者或多者或全部,其中多肽任选地还包含第三β-葡糖苷酶序列,该序列为约3、4、5、6、7、8、9、10或11个氨基酸残基长,衍生自SEQ IDNO:66的环序列,其中所述多肽优选地具有β -葡糖苷酶活性。
[0413]本发明还提供:
[0414](I)与 SEQ ID NO:1 具有至少 80% (如,至少 80%、85%、90%、91 %、92%、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:1的互补序列或其片段杂交的核酸;或者
[0415](2)与 SEQ ID NO:3 具有至少 80% (如,至少 80%、85%、90%、91 %、92%、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:3的互补序列或其片段杂交的核酸;或者
[0416](3)与 SEQ ID NO:5 具有至少 80% (如,至少 80%、85%、90%、91 %、92%、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:5的互补序列或其片段杂交的核酸;或者
[0417](4)与 SEQ ID NO:7 具有至少 80% (如,至少 80%、85%、90%、91 %、92%、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:7的互补序列或其片段杂交的核酸;或者
[0418](5)与 SEQ ID NO:9 具有至少 80% (如,至少 80%、85%、90%、91 %、92%、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:9的互补序列或其片段杂交的核酸;或者
[0419](6)与 SEQ ID Ν0:11 具有至少 80% (如,至少 80%、85%、90%、91 %、92%、93%、94%,95%,96%,97%,98%、9 9%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO=Il的互补序列或其片段杂交的核酸;或者
[0420](7)与 SEQ ID Ν0:13 具有至少 80% (如,至少 80%、85%、90%、91 %、92%、93%、94%,95%,96%,97%,98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:13的互补序列或其片段杂交的核酸;或者
[0421](8)与 SEQ ID Ν0:15 具有至少 80% (如,至少 80%、85%、90%、91 %、92%、93%、94%,95%,96%,97%,98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:15的互补序列或其片段杂交的核酸;或者
[0422](9)与 SEQ ID Ν0:17 具有至少 80% (如,至少 80%、85%、90%、91 %、92%、93%、94%,95%,96%,97%,98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:17的互补序列或其片段杂交的核酸;或者
[0423](10)与 SEQ ID Ν0:19 具有至少 80% (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:19的互补序列或其片段杂交的核酸;或者
[0424](11)与 SEQ ID NO:21 具有至少 80 % (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:21的互补序列或其片段杂交的核酸;或者
[0425](12)与 SEQ ID Ν0:27 具有至少 80% (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:27的互补序列或其片段杂交的核酸;或者
[0426](13)与 SEQ ID NO:31 具有至少 80 % (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:31的互补序列或其片段杂交的核酸;或者
[0427](14)与 SEQ ID NO:51 具有至少 80 % (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:51的互补序列或其片段杂交的核酸;或者
[0428](15)与 SEQ ID N0:53 具有至少 80% (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:53的互补序列或其片段杂交的核酸;或者
[0429](16)与 SEQ ID N0:55 具有至少 80% (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:55的互补序列或其片段杂交的核酸;或者
[0430](17)与 SEQ ID N0:57 具有至少 80% (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:57的互补序列或其片段杂交的核酸;或者
[0431](18)与 SEQ ID NO:59 具有至少 80 % (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:59的互补序列或其片段杂交的核酸;或者
[0432](19)与 SEQ ID N0:61 具有至少 80% (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、 99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:61的互补序列或其片段杂交的核酸;或者
[0433](20)与 SEQ ID N0:63 具有至少 80% (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:63的互补序列或其片段杂交的核酸;或者
[0434](21)与 SEQ ID N0:65 具有至少 80% (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:65的互补序列或其片段杂交的核酸;或者
[0435](22)与 SEQ ID N0:67 具有至少 80% (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:67的互补序列或其片段杂交的核酸;或者
[0436](23)与 SEQ ID N0:69 具有至少 80% (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:69的互补序列或其片段杂交的核酸;或者
[0437](24)与 SEQ ID N0:71 具有至少 80% (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:71的互补序列或其片段杂交的核酸;或者
[0438](25)与 SEQ ID N0:73 具有至少 80% (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98 %、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:73的互补序列或其片段杂交的核酸;或者
[0439](26)与 SEQ ID N0:75 具有至少 80% (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:75的互补序列或其片段杂交的核酸;或者
[0440](27)与 SEQ ID N0:77 具有至少 80% (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:77的互补序列或其片段杂交的核酸;或者
[0441](28)与 SEQ ID N0:92 具有至少 80% (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:92的互补序列或其片段杂交的核酸;或者
[0442](29)与 SEQ ID N0:94 具有至少 80% (如,至少 80 %、85 %、90 %、91 %、92 %、93%、94%、95%、96%、97%、98%、99%或更多)序列同一性的核酸,或在高严格性条件下能与SEQ ID NO:94的互补序列或其片段杂交的核酸。
[0443]本发明还提供包含上述核酸的表达盒和/或载体。适当地,编码本发明的酶的核酸可操作地连接至启动子。特别地,当需要在丝状真菌宿主中重组表达时,启动子可为丝状真菌启动子。核酸可受控于异源启动子。核酸也可在组成型或诱导型启动子的控制下表达。可使用的启动子的例子包括但不限于纤维素酶启动子、木聚糖酶启动子、1818启动子(之前通过木霉EST图谱鉴定为高表达的蛋白)。例如,启动子可为纤维二糖水解酶、内切葡聚糖酶或葡糖苷酶启动子。一个特别合适的启动子可为,如,里氏木霉纤维二糖水解酶、内切葡聚糖酶或葡糖苷酶启动子。例如,`启动子为纤维二糖水解酶I(cbhl)启动子。启动子的非限制性例子包括 cbhl、cbh2、egll、egl2、egl3、egl4、egl5、pkil、gpdl、xynl,或xyn2启动子。启动子的另外非限制性例子包括里氏木霉cbhl、cbh2、egll、egl2、egl3、egl4、egl5、pkil、gpdl、xynl,或 xyn2 启动子。
[0444]如本文所用,术语“可操作地连接”意指所选的核苷酸序列(如,编码本文所述的多肽)与启动子接近,以允许启动子调节所选DNA的表达。此外,按照转录和翻译的方向,启动子位于所选核苷酸序列的上游。核苷酸序列和调控序列以这样的方式连接,使得当适当的分子(如,转录活化蛋白)结合到调控序列时允许基因表达。
[0445]本发明提供经工程改造以表达本发明的一种或多种酶的宿主细胞。合适的宿主细胞包括任何微生物的细胞(如,细菌、原生生物、水藻、真菌(如,酵母菌或丝状真菌)或其他微生物的细胞),并且优选地为细菌、酵母或丝状真菌的细胞。
[0446]合适的细菌属宿主细胞包括但不限于,埃希杆菌属(Escherichia)、芽孢杆菌属、乳酸杆菌(Lactobacillus)、假单胞菌属Pseudomonas)和链霉菌属(Streptomyces)的细胞。合适的细菌菌种细胞包括但不限于,大肠杆菌(E.coli)、枯草芽孢杆菌(B.subtilis)、地衣芽孢杆菌(B.1icheniformis)、短乳杆菌(L.brevis)、铜绿假单胞菌(P.aeruginosa)和变铅青链霉菌(S.1ividans)的细胞。
[0447]合适的酵母属宿主细胞包括但不限于,酵母属(Saccharomyces)、裂殖酵母属(Schizosaccharomyces)、假丝酵母属(Candida)、汉逊酵母属(Hansenula)、毕赤酵母属(Pichia)、克鲁维酵母属(Kluyveromyces)和法夫酵母属(Phaffia)的细胞。合适的酵母种细胞包括但不限于酿酒酵母(Saccharomyces cerevisiae)、粟酒裂殖酵母(Schizosaccharomyces pombe)、白假丝酵母(Candida albicans)、多形汉逊酵母(Hansenula polymorpha)、巴斯德毕赤酵母(Pichia pastoris)、加拿大毕赤酵母(P.canadensis)、马克斯克鲁维酵母(Kluyveromyces marxianus)和红法夫酵母(Phaffiarhodozyma)的细胞。
[0448]合适的丝状真菌宿主细胞包括真菌亚门(Eumycotina)的所有丝状形态。合适的丝状真菌属细胞包括,如,支顶孢属(Acremonium)、曲霉属(Aspergillus)、短梗霉属(Aureobasidium)、黑管菌属(Bjerkandera)、拟錯菌属(Ceriporiopsis)、金抱子菌属(Chrysoporium)、鬼伞属(Coprinus)、革盖菌属(Coriolus)、棒囊壳属(Corynascus)、毛壳菌属(Chaertomium)、隐球酵母属(Cryptococcus)、线黑粉酵母属(Filobasidium)、镰刀菌属(Fusarium)、赤霉菌属(Gibberella)、腐质霉属(Humicola)、大角间座壳菌属(Magnaporthe)、毛霉菌属(Mucor)、毁丝菌属(Myceliophthora)、毛霉菌属(Mucor)、新美鞭菌属(Neocallimastix)、脉抱菌属(Neurospora)、拟青霉属(Paecilomyces)、青霉属(Penicillium)、平革菌属(Phanerochaete)、射脉菌属(Phlebia)、瘤胃壶菌属(Piromyces)、侧耳属(Pleurotus)、柱顶抱属(Scytaldium)、裂糟菌属(Schizophyllum)、孢子丝菌属(Sporotrichum)、篮状菌属(Talaromyces)、嗜热子囊菌属(Thermoascus)、梭抱壳属Thielavia)、弯颈霉属Tolypocladium)、栓菌属(Trametes)和木霉属(Trichoderma)的细胞。
[0449]合适的丝状真菌种细胞包括但不限于泡盛曲霉(Aspergillus awamori)、烟曲霉(Aspergillus fumigatus)、臭曲霉(Aspergillus foetidus)、日本曲霉(Aspergillusjaponicus)、构巢曲霉(Aspergillus nidulans)、黑曲霉(Aspergillus niger)、米曲霉(Aspergillus oryzae)、勒克瑙金抱子菌(Chrysosporium Iucknowense)、拟棒座德刀菌(Fusarium bactridioides)、小麦德刀菌(Fusarium cerealis)、克地德刀菌(Fusariumcrookwellense)、黄色德刀菌(Fusarium cuImorum)、禾谷德刀菌(Fusarium graminearum)、禾赤德刀菌(Fusarium graminum)、异抱德刀菌(Fusarium heterosporum)、荆条德刀菌(Fusarium negundi) 、尖抱德刀菌(Fusarium oxysporum)、多枝德刀菌(Fusariumreticulatum)、粉红德刀菌(Fusarium roseum)、接骨木德刀菌(Fusarium sambucinum)、肤色德刀菌(Fusarium sarcochroum)、拟枝抱德刀菌(Fusarium sporotrichioides)、硫色镰刀菌(Fusarium sulphureum)、簇囊镰刀菌(Fusarium torulosum)、拟丝孢镰刀菌(Fusarium trichothecioides)、毒性德刀菌(Fusarium venenatum)、烟管菌(Bjerkanderaadusta)、干拟錯菌(Ceriporiopsis aneirina)、拟錯菌(Ceriporiopsis caregiea)、浅黄拟錯菌(Ceriporiopsis caregiea)、車乞拟錯孔菌(Ceriporiopsis gilvescens)、拟錯菌(Ceriporiopsis pannocinta)、环带拟錯菌(Ceriporiopsis rivulosa)、浅红拟錯菌(Ceriporiopsis subrufa)、虫拟錯菌(Ceriporiopsis subvermispora)、灰盖鬼伞(Coprinus cinereus)、毛云芝菌(Coriolus hirsutus)、特异腐质霉(Humicolainsolens)、绵毛状腐质霉(Humicola lanuginosa)、米赫毛霉(Mucor miehei)、嗜热毁丝菌(Myceliophthora thermophila)、粗糖脉抱菌(Neurospora crassa)、间型脉抱菌(Neurospora intermedia)、产紫青霉(Penicillium purpurogenum)、变灰青霉(Penicillium canescens)、离生青霉(Penicillium solitum)、绳状青霉(Penicilliumfuniculosum)、黄抱原毛平革菌(Phanerochaete chrysosporium)、射脉菌(Phlebiaradiate)、杏鲍燕(Pleurotus eryngii)、黄色篮状菌(Talaromyces flavus)、太瑞斯梭抱壳霉(Thielavia terrestris)、长绒毛栓菌(Trametes villosa)、变色栓菌(Trametesversicolor)、哈茨木霉(Trichoderma harzianum)、康宁木霉(Trichoderma koningii)、长枝木霉(Trichoderma 1ngibrachiatum)、里氏木霉(Trichoderma reesei)或绿色木霉(Trichoderma viride)的细胞。
[0450]本发明还在第一方面提供重组宿主细胞,该重组宿主细胞经工程改造以表达(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,(3)具有阿拉伯呋喃糖酶活性的第三多肽,以及(4)具有β-葡糖苷酶活性的第四多肽。本发明还在第二方面提供重组宿主细胞,该重组宿主细胞经工程改造以表达(I)具有木聚糖酶活性的第一多肽,
(2)具有木糖苷酶活性的第二多肽,(3)具有阿拉伯呋喃糖酶活性的第三多肽,以及(4)富含β__葡糖苷酶的全纤维素酶组合物。本发明还在第三方面提供重组宿主细胞,该重组宿主细胞经工程改造以表达(I)具有木聚糖酶活性的第一多肽;(2)具有木糖苷酶活性的第二多肽;(3)具有阿拉伯呋喃糖酶活性的第三多肽;以及(4)具有GH61 /内切葡聚糖酶活性的第四多肽或富含GH61内切葡聚糖酶的全纤维素酶。
[0451]本发明在第四方面提供重组宿主细胞,该重组宿主细胞经工程改造以表达(I)具有木糖苷酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽(其不同于第一多肽),(3)具有阿拉伯呋喃糖酶活性的第三多肽,以及(4)具有β -葡糖苷酶活性的第四多肽。本发明在第五方面提供重组宿主细胞,该重组宿主细胞经工程改造以表达(I)具有木糖苷酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽(与第一多肽不同),(3)具有阿拉伯呋喃糖酶活性的第三多肽,以及(4)富含葡糖苷酶的全纤维素酶。本发明还在第六方面提供宿主细胞,该宿主细胞经工程改造以表达(I)具有木糖苷酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽(其不同于第一多肽),(3)具有阿拉伯呋喃糖酶活性的第三多肽;(4)具有GH61 /内切葡聚糖酶活性的第四多肽或者富含EGIV的全纤维素酶。
[0452]本发明还在第七方面提供重组宿主细胞,该重组宿主细胞经工程改造以表达(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,(3)具有木糖苷酶活性的第三多肽(与第二多肽不同),以及(4)具有β-葡糖苷酶活性的第四多肽。本发明在第八方面提供重组宿主细胞,该重组宿主细胞经工程改造以表达(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,(3)具有木糖苷酶活性的第三多肽(与第二多肽不同),以及富含葡糖苷酶的全纤维素酶。本发明还在第九方面提供重组宿主细胞,该重组宿主细胞经工程改造以表达(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,(3)具有木糖苷酶活性的第三多肽(与第二多肽不同),以及(4)具有GH61 /内切葡聚糖酶活性的第四多肽或者富含GH61内切葡聚糖酶的全纤维素酶。
[0453]本发明在第十方面提供重组宿主细胞,该重组宿主细胞经工程改造以表达(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,(3)具有β_葡糖苷酶活性的第三多肽。本发明在第十一方面提供重组宿主细胞,该重组宿主细胞经工程改造以表达(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,以及富含β_葡糖苷酶的全纤维素酶。本发明还在第十二方面提供重组宿主细胞,该重组宿主细胞经工程改造以表达(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,以及
(3)具有GH61/内切葡聚糖酶活性的第三多肽或者富含GH61内切葡聚糖酶的全纤维素酶。[0454]在以上第一至第十二方面中任一方面的重组宿主细胞中,所述具有葡糖苷酶活性的多肽为在至少约 10(如,至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上,与 SEQ ID NO:54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 的任一者具有至少约 60% (如,至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%)序列同一性的多肽。在某些实施例中,具有葡糖苷酶的多肽为包含两个或更多个葡糖苷酶序列的嵌合/融合葡糖苷酶多肽,其中衍生自第一葡糖苷酶的第一序列为至少约200个氨基酸残基长并且包含SEQ ID NO:96-108的氨基酸序列基序的一者或多者或全部,而衍生自第二 β -葡糖苷酶的第二序列为至少约50个氨基酸残基长并且包含SEQ ID NO:109-116的氨基酸序列基序的一者或多者或全部,以及还任选的第三序列为3、4、5、6、7、8、9、10或11个氨基酸残基长并编码具有衍生自第三β -葡糖苷酶的FDRRSPG (SEQ ID NO:204)或 FD(R / K) YNIT (SEQ ID NO:205)的氨基酸序列的环序列,并且为融合或嵌合β -葡糖苷酶多肽。具体地讲,两个或更多个β -葡糖苷酶序列的第一序列为至少约200个氨基酸残基长并包含SEQ ID NO =197-202的氨基酸序列基序的至少2个(例如至少2、3、4个或全部)的序列,而两个或更多个葡糖苷酶的第二序列为至少50个氨基酸残基长并包含SEQ ID NO:203,以及还任选的第三序列为约3、4、5、6、7、8、9、10或11个氨基酸残基长并具有FDRRSPG (SEQ ID NO:204)或FD (R/K) YNIT (SEQ ID NO:205)的氨基酸序列,所述第三序列衍生自不同于第一或第二 β-葡糖苷酶多肽的第三β-葡糖苷酶多肽。在某些实施例中,具有葡糖苷酶活性的多肽为包含与Fv3C(SEQ ID NO:60)的至少200个残基段(例如从SEQ ID NO:60的N端起的至少200个残基段)具有至少约60%序列同一性的第一序列,以及与里氏木霉Bgl3(Tr3B,SEQ ID NO:64)的至少50个残基段(例如从SEQ ID NO:64的C端起的至少50个残基段)具有至少约60%序列同一性的第二序列。在某些实施例中,具有β -葡糖苷酶活性的包含如上所述的第一和第二序列的多肽还包含约3、4、5、6、7、8、9、10或11个氨基酸残基的第三序列,所述第三序列衍生自Te3A(SEQ ID NO:66)的相等长度的序列,具有如 FDRRSPG (SEQ ID NO:204)或FD (R/K) YNIT (SEQ ID NO:205)的氨基酸序列。在一些实施例中,所述多肽包含与SEQ ID NO:93或95或与SEQ ID NO:93或95的至少约20、30、40、50、6`0、70个或更多个残基的子序列或片段具有至少约60%序列同一'I"生的序列。
[0455]在以上第一至第十二方面中任一方面的重组宿主细胞中,所述重组宿主细胞经工程改造以表达具有GH61 /内切葡聚糖酶活性的多肽。在一些实施例中,具有GH61 /内切葡聚糖酶活性的多肽为EGIV多肽,如,里氏木霉Eg4多肽。在一些实施例中,所述多肽为在至少约 10(如,至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上,与 SEQ ID NO:52、80-81、206_207的任一者具有至少约 60% (如,至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99% )序列同一性的多肽,或包含选自以下的一个或多个序列基序的多肽:(I) SEQ ID NO:84 和 88 ;(2)SEQ IDNO:85 和 88 ; (3) SEQ ID NO:
86; (4)SEQ ID NO:87 ; (5)SEQ ID NO:84、88和 89 ; (6)SEQ ID NO:85、88和 89 ; (7)SEQ IDNO:84、88 和 90 ; (8)SEQ ID NO:85、88 和 90 ; (9)SEQ ID NO:84、88 和 91 ; (10)SEQ IDNO:85、88和91 ;(11)SEQ ID NO:84、88、89和91;(12)SEQ ID NO:84、88、90 和 91 ; (13)SEQ IDNO:85、88、89和91:以及(14) SEQ ID NO:85、88、90和91。在某些实施例中,所述重组宿主
细胞可经工程改造以还表达纤维二糖脱氢酶。
[0456]在以上第一至第十二方面中任一方面的重组宿主细胞中,所述重组宿主细胞经工程改造以表达具有木糖苷酶活性的多肽,所述多肽选自第I组β_木糖苷酶多肽。第I组β -木糖苷酶多肽包括与SEQ ID NO:2和10的任一者或与其成熟序列具有至少约70%序列同一性的多肽。例如,第I组木糖苷酶组可为Fv3A或Fv43A。所述重组宿主细胞还可经工程改造以表达具有木糖苷酶活性的多肽,所述多肽选自第2组β -木糖苷酶多肽。第2组β-木糖苷酶多肽包括与SEQ ID NO:4、6、8、10、12、14、16、18、28、30和45的任一者,或与其成熟序列具有至少约70%序列同一性的多肽。例如,第2组β-木糖苷酶可以为Pf43A、Fv43E、Fv39A、Fv43B、Pa51A、Gz43A、Fo43A、Fv43D、Pf43B 或里氏木霉 Bxl I。
[0457]在以上第一、第二和第三方面中任一方面的重组宿主细胞中,具有木聚糖酶活性的多肽为与SEQ ID NO:24、26、42和43的任一者或与其成熟序列具有至少约70%序列同一'I"生的多肽。例如,所述木聚糖酶多肽可为AfuXyn2、AfuXyn5、里氏木霉Xyn3或里氏木霉Xyn2。
[0458]在以上第四、第五和第六方面中任一方面的重组宿主细胞中,所述宿主细胞可经工程改造以表达具有阿拉伯呋喃糖酶活性的多肽,所述多肽与SEQ ID NO:12、14、20、22和32的任一者或与其成熟序列具有至少约70%的序列同一性。例如,第三多肽可以为Fv43B、Pa51A、Af43A、Pf51A 或 Fv51A。
[0459]本发明的重组宿主细胞可适当地为,如,重组真菌宿主细胞或重组生物体,如,丝状真菌,例如,重组里氏木霉。例如,重组宿主细胞适当地为里氏木霉宿主细胞。重组真菌适当地为重组里氏木霉。本发明提供,如,里氏木霉宿主细胞。
[0460]此外,本发明还提供经`工程改造以表达酶共混物的重组宿主细胞或重组真菌,所述酶共混物包含适于糖化的比率的合适的酶。所述重组细胞为,如,真菌宿主细胞。所述重组真菌为,如,重组里氏木霉、黑曲霉或米曲霉、或勒克瑙金孢菌(ChrisosporiumIucknowence) 0重组细菌宿主细胞可为芽孢杆菌属细胞。酶共混物中存在的合适的酶比例/量的例子在5.3.4节中描述。
[0461]5.3用于糖化的酶组合物
[0462]本发明提供能分解木质纤维素材料的酶组合物。本发明的酶组合物通常为多酶共混物,包含不止一种本发明的酶或多肽。本发明的酶组合物可适当地包含一种或多种衍生自其他微生物、植物或生物体的另外的酶。设想了协同的酶组合和相关方法。本发明包括确定酶组合物中包含的用于降解各种木质纤维素材料的酶的最佳比率的方法。这些方法包括,如,为了完成各种木质纤维素底物向其组分可发酵糖的有效转化而进行的确定本发明的酶组合物中包含的酶的最佳比例或相对重量的测试。以下实例包括可用于确定酶组合物中酶的最佳比例/相对重量的测定,从而在糖化过程中能有效地水解或分解各种木质纤维素材料。
[0463]5.3.1.【背景技术】
[0464]高等植物的细胞壁包含多种碳水化合物聚合物(CP)组分。这些CP通过共价和非共价方式相互作用,为植物提供形成刚性细胞壁和抵抗膨压所需的结构完整性。存在于植物中的主要CP为纤维素,其形成细胞壁的结构骨架。在纤维素生物合成期间,聚-β -1,4-D-葡萄糖链通过氢键和疏水相互作用自交联形成纤维素微纤丝,纤维素微纤丝进一步自交联形成更大的原纤维。纤维素微纤丝在结构上通常不规则,并且包含不同结晶度的区域。纤维素原纤维的结晶度取决于其组分纤维素链之间和之中氢键的紧密有序程度。低序键合因而更容易触及葡萄糖链的区域称为非晶区。
[0465]纤维素解聚为葡萄糖的通用模型与三种不同的酶活性的最小值有关。内切葡聚糖酶在增加可触及末端数量的过程中从内部将纤维素链裂解成短链,短链比完整的纤维素链对外切葡聚糖酶活性更敏感。这些外切葡聚糖酶(如,纤维二糖水解酶)特定作用于还原性末端或非还原性末端,在大部分情况下,释放葡萄糖的二聚体纤维二糖。累积的纤维二糖然后用纤维二糖酶(如,β-1,4-葡糖苷酶)裂解为葡萄糖。
[0466]纤维素仅包含脱水葡萄糖。相比之下,半纤维素包含多个不同的糖单体。例如,除葡萄糖以外,半纤维素中的糖单体还可包括木糖、甘露糖、半乳糖、鼠李糖和阿拉伯糖。半纤维素主要包含D-戊糖,有时包含少量L-糖。木糖的含量一般最大,但往往也存在甘露糖醛酸和半乳糖醛酸。半纤维素包括木聚糖、葡糖醛酸木聚糖、阿糖基木聚糖、葡甘露聚糖和木葡聚糖。
[0467]本发明的酶和多酶组合物用于半纤维素材料,包括,如,木聚糖、阿糖基木聚糖和含木聚糖或阿糖基木聚糖底物的糖化。阿糖基木聚糖是由木糖和阿拉伯糖构成的多糖,其中L-α -阿拉伯呋喃糖残基作为分支点连接到β -(1,4)-连接木糖聚合物主链。
[0468]大部分生物质来源相当复杂,含有纤维素、半纤维素、果胶、木质素、蛋白质和灰分以及其他组分。因此,在某些方面,本发明提供包含具有一系列底物特异性的酶的酶共混物/组合物,这些酶协同作用时能以最有效的方式将生物质降解为可发酵糖。本发明的多酶共混物/组合物的一个例子为纤维二糖水解酶、木聚糖酶、内切葡聚糖酶、β -葡糖苷酶、β-木糖苷酶和任选地辅助蛋白质的混合物。所述酶共混物/组合物适当地为非天然存在的组合物。
[0469]因此,本发明提供包 含木聚糖水解、半纤维素和/或纤维素水解酶的混合物的酶共混物/组合物(包括制品),所述混合物包括纤维素酶的至少一种、几种或全部,包括葡聚糖酶;纤维二糖水解酶山-α -阿拉伯呋喃糖酶;木聚糖酶;β -葡糖苷酶;和β -木糖苷酶。优选地,本发明的每种酶共混物/组合物包含本发明的至少一种酶。本发明还提供为非天然存在的组合物的酶共混物/组合物。如本文所用,术语“酶共混物/组合物”是指:(I)将各个组分酶进行组合而制备的组合物,所述各个组分酶或者为发酵液的形式,或者是部分地或完全地分离或纯化的;(2)通过经修饰可表达一种或多种组分酶的生物体制备的组合物;在某些实施例中,用来表达一种或多种组分酶的生物体可经修饰,删除一个或多个基因;在某些其他实施例中,用来表达一种或多种组分酶的生物体还可包含影响木聚糖水解、半纤维素水解和/或纤维素水解的蛋白质;(3)通过在糖化或发酵反应过程中同时、分别、或顺序地组合各个组分酶而制备的组合物;(4)如在糖化或发酵反应期间原位制备的酶混合物;以及(5)根据以上(1)-(4)的任何一项或全部制备的组合物。
[0470]如本文所用,术语“发酵液”是指通过发酵并且发酵后不经过或几乎不经过回收和/或纯化而制备的酶制品。例如,使微生物培养物生长至饱和,在碳源限制条件下孵育以允许蛋白质合成(如,酶的表达)。然后,一旦酶分泌到细胞培养基中就可使用发酵液。本发明的发酵液可包含发酵结束时得到的未分离的或分离的发酵材料内容物。例如,本发明的发酵液未被分离并且包含微生物细胞(如,丝状真菌细胞)经历发酵过程后存在的消耗培养基和细胞碎片。发酵液可适当地包含消耗的细胞培养基、胞外酶以及存活的或死亡的微生物细胞。或者,发酵液可被分离以除去微生物细胞。在这些情况下,发酵液可例如包含消耗的细胞培养基和胞外酶。
[0471]可将本文具体描述的任何酶与本文所述的任何一种或多种酶,或与任何其他可用和合适的酶组合,来制备合适的多酶共混物/组合物。本发明不受限于或局限于下列的具体示例性组合。
[0472]5.3.2.牛物质
[0473]本发明提供使用本发明的酶、酶共混物/组合物进行生物质糖化的方法和工艺。如本文所用,术语“生物质”是指包含纤维素和/或半纤维素(任选地,还有木质纤维素生物质材料中的木质素)的任何组合物。如本文所用,生物质包括但不限于种子、谷物、块茎、食品加工或工业加工的植物废料或副产物(例如茎杆)、玉米(包括例如玉米芯、秸杆等)、草(包括例如印度草,如黄假高梁;或柳枝稷草,例如稷属,如柳枝稷)、多年生藤条(例如芦竹)、木材(包括例如木屑、加工废料)、纸、纸浆、回收纸(包括例如报纸、打印纸等)。其他生物质材料包括但不限于土豆、大豆(如,油菜籽)、大麦、裸麦、燕麦、小麦、甜菜或鹿洛。
[0474]本发明提供糖化方法,所述方法包括使包含生物质材料,如包含木聚糖、半纤维素、纤维素和/或可发酵糖的材料的组合物与本发明的多肽、或本发明的核酸编码的多肽、或本发明的酶共混物/组合物或制品中的任何一种进行接触。
[0475]通过工艺例如微生物发酵和/或化学合成,可将经糖化的生物质(如,经本发明的酶处理的木质纤维素材料)制成多种生物基产品。如本文所用,“微生物发酵”是指在合适的条件下培养和收获发酵微生物的工艺。发酵微生物可以是任何适用于所需的生产生物基产品的发酵工艺的微生物。合适的发酵微生物包括但不限于真菌(如,丝状真菌)、酵母和细菌。通过发酵和/或化学合成,可`例如将经糖化的生物质制成燃料(例如,生物燃料,如生物乙醇、生物丁醇、生物甲醇、生物丙醇、生物柴油、喷气燃料等)。通过发酵和/或化学合成,还可例如将经糖化的生物质制成日用化学品(例如抗坏血酸、异戊二烯、1,3_丙二醇)、脂质、氨基酸、蛋白质和酶。
[0476]5.3.3.预处理
[0477]在糖化之前,为了使酶更容易触及或影响木聚糖、半纤维素、纤维素和/或木质素材料从而更易于被本发明的酶和/或酶共混物/组合物水解,优选地对生物质(如,木质纤维素材料)进行一个或多个预处理步骤。
[0478]在某些实施例中,预处理需要将生物质材料置于反应器中的包含强酸和金属盐的稀溶液的催化剂。生物质材料可例如为原材料或干燥材料。该预处理可降低纤维素水解的活化能或温度,最终允许更高产量的可发酵糖。参见,例如,美国专利N0.6,660,506、6,423,145。
[0479]预处理的另一个例子涉及使生物质材料经过第一水解步骤来水解生物质,该步骤在含水培养基中进行,所选择的温度和压力水平会实现半纤维素的初步解聚,而纤维素不会大量解聚为葡萄糖。该步骤产生浆液,其中液体水相包含半纤维素解聚得到的溶解单糖,固相包含纤维素和木质素。然后将该浆液在允许大部分的纤维素解聚的条件下进行第二水解步骤,产生包含溶解的/可溶的纤维素解聚产物的液体水相。参见,例如,美国专利N0.5,536,325。
[0480]方法的另一个例子涉及使用约0.4%至约2%的强酸,通过一个或多个阶段的稀酸水解来处理生物质材料;之后,通过碱法脱木素处理酸水解材料的未反应固体木质纤维素组分。参见,例如,美国专利N0.6,409,841。
[0481]方法的另一个例子包括在预水解反应器中对生物质(如,木质纤维素材料)进行预水解;将酸性液体加入固体木质纤维素材料制得混合物;将混合物加热至反应温度;保持反应温度一段时间,使之足够使木质纤维素材料分解成溶解部分和固体部分,所述溶解部分包含至少约20%得自木质纤维素材料的木质素,所述固体部分包含纤维素;将溶解部分和固体部分分开,在反应温度下或接近反应温度下移除溶解部分;以及回收溶解部分。使固体部分中的纤维素更易于被酶消化。参见,例如,美国专利N0.5,705,369。
[0482]其他预处理方法可涉及过氧化氢H2O2的使用。参见Gould, 1984, Biotech, andBioengr26:46-52 (Gould, 1984年,《生物技术和生物工程》,第26卷,46-52页)。
[0483]预处理还可包括使生物质材料接触化学计量的非常低浓度的氢氧化钠和氢氧化铵。参见 Teixeira et al., 1999, Appl.Biochem.and Biotech.77-79:19-34 (Teixeira 等人,1999年,《应用生物化学和生物技术》,第77-79卷,第19-34页)。预处理还可包括使木质纤维素在约9至约14的pH、适当温度、压力和pH下接触化学品(例如碱,如碳酸钠或氢氧化钾)。参见PCT专利公布W02004 / 081185。
[0484]氨用于例如优选的预处理方法。这样的预处理方法包括在高固体含量的条件下使生物质材料接触低浓度的氨。参见,例如,美国专利公布N0.20070031918和PCT专利公布W006110901。
[0485]5.3.4.酶鉬合物
[0486]本发明提供包含本发`明的多种(即,不止一种)酶的多种酶组合物。本发明的每种酶组合物的至少一种酶可由重组宿主细胞或重组生物体生成。酶组合物的至少一种酶可为通过例如在宿主细胞或宿主生物体中表达外源基因生成的外源酶。酶组合物的至少一种酶可由于在宿主细胞或宿主生物体中过表达或低表达内源基因而生成。酶组合物适当地为非天然存在的组合物。本发明提供本发明的工程改造的酶组合物的第一非限制性例子,其包含4种多肽:(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,(3)具有阿拉伯呋喃糖酶活性的第三多肽,以及(4)具有β_葡糖苷酶活性的第四多肽。本发明提供本发明的工程改造的酶组合物的第二非限制性例子,其包含(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,(3)具有阿拉伯呋喃糖酶活性的第三多肽,以及(4)富含β-葡糖苷酶的全纤维素酶组合物。本发明提供本发明的工程改造的酶组合物的第三非限制性例子,其包含(I)具有木聚糖酶活性的第一多肽;(2)具有木糖苷酶活性的第二多肽;(3)具有阿拉伯呋喃糖酶活性的第三多肽;以及(4)具有GH61 /内切葡聚糖酶活性的第四多肽或富含GH61内切葡聚糖酶的全纤维素酶。本发明提供本发明的工程改造的酶组合物的第四非限制性例子,其包含(I)具有木糖苷酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽(其不同于第一多肽),(3)具有阿拉伯呋喃糖酶活性的第三多肽,以及(4)具有β_葡糖苷酶活性的第四多肽。本发明提供本发明的酶组合物的第五非限制性例子,其包含(I)具有木糖苷酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽(与第一多肽不同),(3)具有阿拉伯呋喃糖酶活性的第三多肽,以及(4)富含β-葡糖苷酶的全纤维素酶。本发明提供本发明的工程改造的酶组合物的第六非限制性例子,其包含(I)具有木糖苷酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽(其不同于第一多肽),(3)具有阿拉伯呋喃糖酶活性的第三多肽;以及(4)具有GH61 /内切葡聚糖酶活性的第四多肽或者富含EGIV的全纤维素酶。本发明提供本发明的工程改造的酶组合物的第七非限制性例子,其包含(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,(3)具有木糖苷酶活性的第三多肽(与第二多肽不同),以及(4)具有β -葡糖苷酶活性的第四多肽。本发明提供第八非限制性例子,其包含(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,(3)具有木糖苷酶活性的第三多肽(与第二多肽不同),以及富含β-葡糖苷酶的全纤维素酶。本发明提供本发明的工程改造的酶组合物的第九非限制性例子,其包含(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,
(3)具有木糖苷酶活性的第三多肽(与第二多肽不同),以及(4)具有GH61 /内切葡聚糖酶活性的第四多肽或者富含GH61内切葡聚糖酶的全纤维素酶。本发明提供本发明的工程改造的酶组合物的第十非限制性例子,其包含(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,(3)具有β_葡糖苷酶活性的第三多肽。本发明提供本发明的酶组合物的第十一非限制性例子,其包含(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,以及富含β_葡糖苷酶的全纤维素酶。本发明提供本发明的工程改造的酶组合物的第十二非限制性例子,其包含(I)具有木聚糖酶活性的第一多肽,(2)具有木糖苷酶活性的第二多肽,以及(3)具有GH61 /内切葡聚糖酶活性的第三多肽或者富含GH61内切葡聚糖酶的全纤维素酶。
[0487]在以上示例性酶组合物的任一者中,具有葡糖苷酶活性的多肽为在至少约10 (如,至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上,与 SEQ ID NO:54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 的任一者具有至少约 60% (如,至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或 99% )序列同一性的多肽。在某些实施例中,具有葡糖苷酶的多肽为包含两个或更多个葡糖苷酶序列的嵌合/融合β -葡糖苷酶 多肽,其中衍生自第一 β -葡糖苷酶的第一序列为至少约200个氨基酸残基长并且包含SEQ ID NO:96-108的氨基酸序列基序的一者或多者或全部,而衍生自第二葡糖苷酶的第二序列为至少约50个氨基酸残基长并且包含SEQ ID NO:109-116的氨基酸序列基序的一者或多者或全部,以及还任选的第三序列为3、4、5、6、7、8、
9、10或11个氨基酸残基长并编码衍生自第三β -葡糖苷酶的环序列,并且为融合或嵌合β-葡糖苷酶多肽。在某些实施例中,具有葡糖苷酶活性的多肽为包含与Fv3C (SEQ IDNO:60)的至少200个残基段(例如从SEQ ID NO:60的N端起的至少200个残基段)具有至少约60%序列同一性的第一序列,以及与里氏木霉Bgl3(Tr3B,SEQ ID NO:64)的至少50个残基段(例如从SEQ IDNO:64的C端起的至少50个残基段)具有至少约60%序列同一性的第二序列。在某些实施例中,具有β_葡糖苷酶活性的包含如上所述的第一和第二序列的多肽还包含约3、4、5、6、7、8、9、10或11个氨基酸残基的第三序列,所述第三个序列衍生自Te3A(SEQ ID NO:66)的相等长度的序列。在一些实施例中,所述多肽包含与SEQ IDNO:93或95或与SEQ ID NO:93或95的至少约20、30、40、50、60、70个或更多个残基的子序列或片段具有至少约60%序列同一性的序列。[0488]在本文的酶组合物的任一者中,具有GH61 /内切葡聚糖酶活性的多肽为EGIV多肽,例如里氏木霉Eg4多肽。在某些实施例中,所述多肽在至少约10 (如,至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上,与SEQ ID NO:52、80-81、206-207的任一者具有至少约60% (例如至少约 60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99% )序列同一性的多肽,或包含选自以下的一个或多个序列基序的多肽:(I)SEQID NO:84 和 88 ; (2) SEQ ID NO:85 和 88 ; (3) SEQ ID NO:86 ; (4) SEQ ID NO:87 ; (5) SEQ IDNO:84、88 和 89 ;(6)SEQ ID NO:85、88 和 89 ; (7) SEQ ID NO:84、88 和 90 ; (8) SEQ ID NO:85、88 和 90 ; (9)SEQ ID NO:84、88 和 91 ; (10) SEQ ID NO:85、88 和 91 ; (11) SEQ ID NO:84、88、89 和 91 ; (12)SEQ ID NO:84、88、90 和 91 ; (13) SEQ ID NO:85、88、89 和 91:以及(14)SEQ ID N0:85、88、90和91。在某些实施例中,所述组合物还包含纤维二糖脱氢酶。
[0489]在本文的酶组合物的任一者中,具有木聚糖酶活性的多肽可为与SEQ IDNO:24、26,42和43的任一者或与其成熟序列具有至少约70%序列同一性的多肽。例如,所述木聚糖酶多肽可为AfuXyn2、AfuXyn5、里氏木霉Xyn3或里氏木霉Xyn2。
[0490]在本文的酶组合物的任一者中,具有木糖苷酶活性的多肽可为选自第I组或第2组木糖苷酶多肽的多肽。当组合物包含第一和第二木糖苷酶时,设想第一木糖苷酶为第I组木糖苷酶多肽,其可为与SEQ ID Ν0:2和10的任一者或与其成熟序列具有至少约70%序列同一性的多肽。例如,第I组β -木糖苷酶可为Fv3A或Fv43A。还设想第二 β-木糖苷酶为第2组β-木糖苷酶多肽,其可为与SEQ ID NO:4、6、8、10、12、14、16、18、28、30和45的任一者或与其成熟序列具有至少约70%序列同一性的多肽。例如,第2 组 β -木糖苷酶可为 Pf43A、Fv43E、Fv39A、Fv43B、Pa51A、Gz43A、Fo43A、Fv43D、Pf43B 或里氏木霉Bxll。
[0491]在上述酶组合物的任何一个例子中,具有阿拉伯呋喃糖酶活性的多肽可为与SEQID NO:12、14、20、22和32的任一者或与其成熟序列具有至少约70%序列同一性的多肽。例如,第三多肽可以为Fv43B、Pa5 1A、Af43A、Pf51A或Fv51A。
[0492]木聚糖酶:木聚糖酶适当地占本发明的酶组合物中的酶的约3重量%至约35重量%,其中重量%代表相对于给定组合物中所有酶的合并重量的木聚糖酶的合并重量。木聚糖酶的含量可在特定范围内,其中下限为3重量%、4重量%、5重量%、6重量%、7重量%、8重量%、9重量%、10重量%、12重量%、15重量%,并且上限为5重量%、10重量%、15重量%、20重量%、25重量%、30重量%、35重量%。适当地,本发明的酶组合物中一种或多种木聚糖酶的合并重量可占酶组合物中所有酶的总重量的例如约3重量%至约30重量% (例如,3重量%至20重量%、5重量%至18重量%、8重量%至18重量%、10重量%至20重量%等)。用于加入本发明的酶组合物中的合适木聚糖酶的例子在5.3.7节中有所描述。
[0493]L-α -阿拉伯呋喃糖酶:L_a -阿拉伯呋喃糖酶适当地占本发明的酶组合物中酶的约0.1重量%至约5重量%,其中重量%代表相对于给定组合物中所有酶的合并重量的L- a -阿拉伯呋喃糖酶的合并重量。L- a -阿拉伯呋喃糖酶的含量可在特定范围内,其中下限为0.1重量%、0.2重量%、0.5重量%、0.7重量%、0.8重量%、1重量%、2重量%、3重量%、4重量% ,并且上限为2重量%、3重量%、4重量% ,或5重量%。例如,一种或多种L-α -阿拉伯呋喃糖酶可适当地占本发明酶组合物中酶的总重量的约0.2重量%至约5重量% (例如,0.2重量%至3重量%、0.4重量%至2重量%、0.4重量%至I重量%等)。用于加入本发明的酶共混组合物中的合适L-α -阿拉伯呋喃糖酶的例子在5.3.8节有所描述。
[0494]β_木糖苷酶:β -木糖苷酶适当地占酶共混物/组合物中酶的总重量的约O重量%至约40重量%。如实例中所示,可使用已知的方法例如SDS-PAGE、HPLC和UPLC计算含量。很容易计算出任何一对蛋白质相对于彼此的比率。可设想包含可由本文所公开的重量百分比推导出的任何重量比的酶的共混物/组合物。β-木糖苷酶的含量可在特定范围内,其中下限为共混物/组合物中酶的总重量的约O重量%、1重量%、2重量%、3重量%、4重量%、5重量%、6重量%、7重量%、8重量%、9重量%、10重量%、12重量%、15重量%、20重量%、25重量%、30重量(%、35重量(%,并且上限为共混物/组合物中酶的总重量的约10重量%、15重量%、20重量%、25重量%、30重量%、35重量%或40重量%。例如,β-木糖苷酶适当地表示共混物/组合物中酶的总重量的2重量%至30重量% ;10重量%至20重量% ;或5重量%至10重量%。合适的β-木糖苷酶在本文如在5.3.7节有所描述。
[0495]5.3.5.纤维素酶
[0496]本发明的酶共混物/组合物可包含一种或多种纤维素酶。纤维素酶是水解纤维素(β_1,4-葡聚糖或者PD-糖苷键)而导致葡萄糖、纤维二糖、纤维寡糖等的形成的酶类。传统上将纤维素酶分为三大类:内切葡聚糖酶(EC3.2.1.4)( “EG”)、外切葡聚糖酶或纤维二糖水解酶(EC3.2.1.91) ( “CBH”)和β-葡糖苷酶(β-D-葡萄糖苷葡萄糖水解酶;EC3.2.1.21) ( “BG”)(Knowles et al., 1987, Trends in Biotechnology5 (9):255-261 (Knowles等人,1987年,《生物技术趋势》,第5卷,第9期,第255-261页);Shulein,1988, Methods in Enzymology, 160:234-242 (Shulein, 1988 年,《酶学方法》,第 160 卷,第234-242页))。内切葡聚糖酶主要作用在纤维素纤维的非晶部分,而纤维二糖水解酶还能够降解结晶纤维素。
`[0497]适合于本发明的方法和组合物的纤维素酶可从特别是以下一种或多种生物体获得或重组制备:柄毛皮伞(Crinipellis scapella)、菜豆炭腐病菌(Macrophominaphaseolina)、嗜热毁丝菌(Myceliophthora thermophila)、幾生幾壳菌(Sordariafimicola)、拟刺盘孢周刺座霉(Volutella colIetotrichoides)、太瑞斯梭孢壳霉(Thielavia terrestris)、支顶抱属(Acremonium sp.)、黑耳(Exidia glandulosa)、木蹄层孔菌(Fomes fomentarius)、绵皮孔菌属(Spongipellis sp.)、红根囊壶菌(Rhizophlyctis rosea)、微小根毛霉(Rhizomucor pusillus)、闪光须霉(Phycomycesniteus)、弗雷生剌枝霉(Chaetostylum fresenii)、棉色二抱(Diplodia gossypina)、异色尾孢藻(Ulospora bilgramii)、集孢粪盘菌(Saccobolus dilutelIus)、抚孢青霉(Penicillium verruculosum)、产黄青霉(Penicillium chrysogenum)、抚状顶抱霉(Thermomyces verrucosus)、合生腐皮壳菌(Diaporthe syngenesia)、黄瓜炭疽菌(Colletotrichum Iagenarium)、黑抱霉属(Nigrospora sp.)、团炭角菌(Xylariahypoxylon)、松色丛赤壳菌(Nectria pinea)、大抱幾壳菌(Sordaria macrospora)、嗜热梭抱壳霉(Thielavia thermophila)、突抱毛壳(Chaetomium mororum)、绿毛壳(Chaetomium virscens)、巴西毛壳(Chaetomium brasiliensis)、链丝毛壳菌(Chaetomium cunicolorum)、Syspastospora boninensis、多生枝鼻菌(Cladorrhinumfoecundissimum)、嗜热柱霉(Scytalidium thermophila)、链抱粘帚菌(Gliocladiumcatenulatum)、尖抱键刀菌番爺亚种(Fusarium oxysporum ssp.lycopersici)、尖抱键刀菌西番莲亚种(Fusarium oxysporum ssp.passiflora)、腐皮键刀菌(Fusarium solani)、蛇形镰刀菌(Fusarium anguioides)、梨孢镰刀菌(Fusarium poae)、黑腐质霉(Humicolanigrescens)、灰腐质霉(Humicola grisea)、网纹斑裙菌(Panaeolus retirugis)、血红栓菌(Trametes sanguinea)、裂裙菌(Schizophyllum commune)、粉红单端抱(Trichotheciumroseum)、小球壳抱菌(Microsphaeropsis sp.)、幾盘菌(Acsobolus stictoideus spej.)、点孔座壳(Poronia punctata)、多节抱属(Nodulisporum sp.)、木霉属(Trichoderma sp.)(如,里氏木霉)和柱孢属。
[0498]例如,用于本发明的方法和/或组合物的纤维素酶是全纤维素酶和/或能获得至少0.1 (如,0.1至0.4)分率产物,如以下6.1.11节描述的卡尔科弗卢尔测定法所测定。
[0499]5.3.5.1.β -葡糖苷酶
[0500]本发明的酶共混物/组合物可任选地包含一种或多种β -葡糖苷酶。如本文所用,术语“β-葡糖苷酶”是指分类为EC3.2.1.21的β-D-葡糖苷葡糖水解酶,和/或某些GH家族的成员,包括但不限于GH家族1、3、9或48的成员,其催化纤维二糖水解释放β-D-葡萄糖。
[0501]合适的葡糖苷酶可通过重组方式从多种微生物获得,或者可购自商业来源。来自微生物的葡糖苷酶的例子包括但不限于来自细菌和真菌的葡糖苷酶。例如,本发明的葡糖苷酶可来自丝状真菌。
[0502]β-葡糖苷酶可从如下获得或重组制备:特别是棘孢曲霉(A.aculeatus)(Kawaguchiet al.Genel996,173:287-288 (Kawaguchi 等人,《基因》,1996 年,第 173 卷,第 287-288 页))、白曲霉(A ka`wachi) (Iwashita et al.Appl.Environ.Microbiol.1999,65:5546-5553 (Iwashita等人,《应用环境和微生物》,1999年,第65卷,第5546-5553页))、米曲霉(A.0ryzae) (W02002 / 095014)、双氮纤维单胞菌(C.biazotea) (Wong etal.Gene, 1998, 207:79-86 (Wong 等人,《基因》,1998 年,第 207 卷,第 79-86 页))、绳状青霉(P.funiculosum) (W02004 / 078919)、复膜抱酵母菌(S.fibuligera) (Machida etal.Appl.Environ.Microbiol.1988, 54:3147-3155 (Machida 等人,《应用环境和微生物》,1988 年,第 54 卷,第 3147-3155 页))、裂殖酵母(S.pombe) (Wood et al.Nature2002,415:871-880 (Wood等人,《自然》,2002年,第415卷,第871-880页))或里氏木霉(如,β-葡糖苷酶I (美国专利N0.6,022,725)、β -葡糖苷酶3 (美国专利N0.6,982,159)、β -葡糖苷酶4 (美国专利N0.7,045,332)、β -葡糖苷酶5 (美国专利N0.7,005,289)、β -葡糖苷酶6 (美国专利公布N0.20060258554)、β -葡糖苷酶7 (美国专利公布N0.20060258554))。
[0503]葡糖苷酶可通过表达编码葡糖苷酶的内源或外源基因制备。例如,葡糖苷酶可例如通过革兰氏阳性生物体(如,芽孢杆菌或放线菌(Actinomycetes))或真核宿主(如,木霉、曲霉、酵母或毕赤酵母)分泌到细胞外间隙。葡糖苷酶可在某些情况下被过表达或低表达。
[0504]β_葡糖苷酶也可从商业来源获得。适用于本发明的市售β_葡糖苷酶制品的例子包括例如Aeeellemse? BG(丹尼斯科美国有限公司,杰能科(Danisco US Inc.,Genencor))的里氏木霉β -葡糖苷酶;N0V0ZYM?188 (得自黑曲霉的β-葡糖苷酶);购自美格兹密(爱尔兰的美格兹密国际爱尔兰有限公司(Megazyme InternationalIreland Ltd., Ireland))的农杆菌属(Agrobacterium sp.) β -葡糖苷酶和海栖热袍菌(T.maritima) β -葡糖苷酶。
[0505]此外,β -葡糖苷酶可为全纤维素酶的组分,如以下5.3.6.节所述。
[0506]本发明提供某些葡糖苷酶多肽,所述多肽为包含两个或更多个葡糖苷酶序列的融合/嵌合多肽。例如,第一 β -葡糖苷酶序列可包含至少约200个氨基酸残基长的序列,并且包含以下序列基序的一者或多者或全部:SEQ ID NO:96-108ο第二 β -葡糖苷酶序列可包含至少约50个氨基酸残基长的序列,并且包含序列基序SEQ ID NO:109-116的一者或多者或全部。在某些实施例中,第一葡糖苷酶序列位于融合/嵌合多肽的N端,而第二葡糖苷酶序列位于融合/嵌合多肽的C端。在某些实施例中,第一和第二β-葡糖苷酶序列紧邻。例如,第一葡糖苷酶序列的C端连接到第二 β-葡糖苷酶序列的N端。在其他实施例中,第一和第二葡糖苷酶序列未紧邻,而是第一和第二葡糖苷酶序列通过接头结构域相连。在一些实施例中,第一葡糖苷酶序列、第二葡糖苷酶序列或接头结构域可包含约3、4、5、6、7、8、9、10或11个氨基酸残基长的序列。在某些实施例中,第一 β -葡糖苷酶序列为至少约200个氨基酸残基长并且与在N端相同长度的Fv3C序列具有至少约60%的序列同一性。在某些实施例中,第二葡糖苷酶序列为至少约 50 个氨基酸残基长,并且与 SEQ ID NO:54、56、62、64、66、68、70、72、74、76、78 和 79 的任一者的C端相等长度的序列具有至少约60%的序列同一性。在某些实施例中,与嵌合/融合多肽的嵌合部分所来源的任何一种酶相比,融合/嵌合β-葡糖苷酶多肽具有改善的稳定性,如,改善的蛋白水解稳定性。在某些实施例中,第二葡糖苷酶序列为至少约50个氨基酸残基长的序列,并且与Tr3B的C端相等长度的序列具有至少约60%的序列同一性。在某些实施例中,位于第一葡糖苷酶序列中、第二葡糖苷酶序列中、或接头基序中的环序列为衍生自Te3A的3、4、5、6、7、8、9、10或11个氨基酸残基长的环序列。
[0507]β -葡糖苷酶活性可采用本领域已知的多种合适方式进行测定,例如,Chen等人在 Biochimica et Biophysica Actal992,121:54-60(《生物化学与生物物理学报》,1992年,第121卷,第54-60页)中所述的测定法,其中IpNPG表示在50°C (或122° F)和pH4.8下10分钟内从4-硝基苯基- β -D-批喃葡萄糖苷释放I μ moL硝基酹。
[0508]β -葡糖苷酶适当地占本发明的酶共混物/组合物中酶的总重量的约O重量%至约55重量%。可使用已知方法测定含量,所述方法包括,如实例中的SDS-PAGE、HPLC或UPLC方法。可计算出任何一对蛋白质相对于彼此的比率。可设想包含可由本文所公开的重量百分比推导出的任何重量比的酶的共混物/组合物。β_葡糖苷酶的含量可在特定范围内,其中下限为共混物/组合物中酶的总重量的约O重量%、1重量%、2重量%、3重量%、4重量%、5重量%、6重量% 7重量%、8重量%、9重量%、10重量%、12重量%、15重量%、20重量%、25重量%、30重量%、40重量%、45重量%或50重量% ,并且上限为共混物/组合物中酶的总重量的约10重量%、15重量%、20重量%、25重量%、30重量%、35重量%、40重量%、50重量%、55重量%。例如,β -葡糖苷酶适当地表示共混物/组合物中酶的总重量的2重量%至30重量% ;10重量%至20重量% ;或5重量%至10重量%。
[0509]5.3.5.2.内切葡聚糖酶[0510]除本文所述的GH61内切葡聚糖酶IV(EGIV)多肽以外,本发明的酶共混物/组合物还任选地包含一种或多种内切葡聚糖酶。除本发明的方法和组合物中的EGIV多肽以外,还可使用任何一种内切葡聚糖酶(EC3.2.1.4)。此类内切葡聚糖酶可通过表达内源或外源内切葡聚糖酶基因制备。内切葡聚糖酶可在某些情况下被过表达或低表达。
[0511]例如,在本发明的方法和组合物中适当地使用里氏木霉EGl (Penttila et al.,Genel986,63:103-112 (Penttila 等人,《基因》,1986 年,第 63 卷,第 103-112 页))和 / 或EG2 (Saloheimo etal.,Genel988,63:11-21 (Saloheimo 等人,《基因》,1988 年,第 63 卷,第11-21页))。如,在本发明的方法和组合物中使用热稳定的太瑞斯梭孢壳霉内切葡聚糖酶(Kvesitadaze et al., Applied Biochem.Biotech.1995,50: 137-143 (Kvesitadaze等人,《应用生物化学和生物技术》,1995年,第50卷,第137-143页)。此外,还可使用里氏木霉 EG3 (Okada et al.Appl.Environ.Microbiol.1988,64:555-563 (Okada 等人,《应用环境和微生物》,1988年,第64卷,第555-563页)、EG5 (Saloheimo etal.Molecular Microbiology 1994,13:219-228 (Saloheimo 等人,《分子微生物学》,1994 年,第13卷,第219-228页))、EG6(美国专利公布N0.20070213249)或EG7(美国专利公布N0.20090170181)、细胞溶解性醋酸弧菌(A.cellulolyticus)EI内切葡聚糖酶(美国专利N0.5,536,655)、特异腐质霉(H.1nsolens)内切葡聚糖酶V(EGV)(蛋白质数据库登录号4ENG)、大孢圆孢霉(S.coccosporum)内切葡聚糖酶(美国专利公布N0.20070111278)、棘孢曲霉内切葡聚糖酶 F1-CMC (0oi et al.Nucleic Acid Res.1990,18:5884 (Ooi 等人,《核酸研究》,1990年,第18卷,第5884页))、白曲霉IF04308内切葡聚糖酶CMCase-1 (Sakamotoet al.Curr.Genet.1995, 27:435-439 (Sakamoto 等人,《当代遗传学》,1995 年,第 27 卷,第 435-439 页))、胡萝卜软腐欧文氏菌(E.carotovara) (Saarilahti et al.Genel990,90:9-14(Saarilahti等人,《基因》,1990年,第90卷,第9-14页));或嗜热厌气性细菌(A.thermophilum)ALK04245内切葡聚糖酶(美国专利公布N0.20070148732)。另外合适的内切葡聚糖酶在如 W091 / 17243、W091 / 17244、W091 / 10732、美国专利 N0.6,001,639中有所描述。
[0512]具有GH61 /内切葡聚 糖酶活性的合适多肽由本发明提供。在一些实施例中,具有GH61 /内切葡聚糖酶活性的多肽为EGIV多肽,如,里氏木霉Eg4多肽。在某些实施例中,所述多肽为在至少约 10(如,至少约 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300)个残基的区域上,与 SEQ ID NO:52、80-81、206-207 的任一者具有至少约 60 % (例如至少约 60 %、65 %、70 %、75 %、80 %、85 %、90%、91%、92%、93%、94%、95%、96%、97%、98%或 99% )序列同一性的多肽,或包含选自以下的一个或多个序列基序的多肽=(I)SEQ ID NO:84和88 ;(2)SEQ ID NO:85和88; (3)SEQ ID NO:86 ; (4) SEQ ID NO:87 ; (5) SEQ ID NO:84、88 和 89 ; (6) SEQ ID NO:85、88 和 89 ;(7)SEQ ID NO:84,88 和 90 ; (8)SEQ ID NO:85、88 和 90 ; (9)SEQ ID NO:84、88 和 91 ; (10)SEQ ID NO:85、88和91 ;(11)SEQ ID NO:84、88、89 和 91;(12)SEQ ID NO:84、88、90 和 91 ;(13) SEQ ID NO:85、88、89 和 91:以及(14) SEQ ID NO:85、88、90 和 91。在某些实施例中,所述组合物还包含纤维二糖脱氢酶。
[0513]GH61内切葡聚糖酶占酶共混物/组合物中酶的总重量的约0.1重量%至约50重量%。可使用已知方法测定含量,所述方法包括,如实例中所述的SDS-PAGE、HPLC或UPLC。可根据这些测定结果计算一对蛋白质相对于彼此的比率。可设想包含可由本文的重量百分比推导出的任何重量比的酶的共混物/组合物。GH61内切葡聚糖酶的含量可在特定范围内,其中下限为共混物/组合物中酶的总重量的约O重量%、I重量%、2重量%、3重量%、4重量%、5重量%、6 Mfi% 7重量%、8重量%、9重量%、10重量%、12重量%、15重量%、20重量%、25重量%、30重量%、40重量%、45重量%,并且上限为共混物/组合物中酶的总重量的约10重量%、15重量%、16重量%、20重量%、25重量%、30重量%、35重量%、40重量%、50重量%。例如,GH61内切葡聚糖酶适当地表示共混物/组合物中酶的总重量的约2重量%至约30重量% ;约8重量%至约20重量% ;约3重量%至约18重量%、约4重量%至约19重量%、或约5重量%至约20重量%。
[0514]5.3.5.3.纤维二糖水解酶
[0515]任何纤维二糖水解酶(EC3.2.1.91) ( “CBH”)可任选地用于本发明的方法和共混物/组合物。纤维二糖水解酶可通过表达内源或外源纤维二糖水解酶基因制备。纤维二糖水解酶可在某些情况下被过表达或低表达。
[0516]例如,里氏木霉CBHI (Shoemaker et al.Bio / Technologyl983,1:691-696 (Shoemaker等人,《生物技术》,1983年,第I卷,第691-696页))和/或CBHII (Teeri et al.Bio /Technologyl983,1:696-699 (Teeri等人,《生物技术》,1983年,第I卷,第696-699页))可适当地用于本发明的方法和共混物/组合物中。
[0517]合适的CBH 可选自双孢蘑燕(A.bisporus) CBHl (Swiss Prot 登录号 Q92400)、棘抱曲霉(A.aculeatus) CBHl (Swiss Prot 登录号 059843)、构巢曲霉 CBHA (GenBank登录号 AF420019)或 CBHB (GenBank 登录号 AF420020)、黑曲霉 CBHA (GenBank 登录号AF156268)或 CBHB (GenBank 登录号 AF156269)、麦角菌(C.purpurea) CBHl (Swiss Prot 登录号 000082)、玉米圆斑病菌(C.carbonarum) CBHl (Swiss Prot 登录号 Q00328)、板栗疫病菌(C.parasitica) CBHl (Swiss Prot 登录号 Q00548)、尖抱键刀菌 CBHl (Cel7A) (SwissProt登录号P46238)、灰腐质霉CBH1`.2 (GenBank登录号U50594)、灰腐质霉高温变种CBHl (GenBank 登录号 D63515)和 CBH1.2 (GenBank 登录号 AF123441)或 exol (GenBank 登录号 AB003105)、热白丝菌(Malbomyces) Cel7B9 (GenBank 登录号 AJ515705)、粗糙脉孢菌CBHI (GenBank 登录号 X77778)、绳状青霉 CBHI (Cel7A)(美国专利公布 N0.20070148730)、微紫青霉(P.janthinellum) CBHI (GenBank 登录号 S56178)、黄抱原毛平革菌 CBH(GenBank登录号 M22220)或 CBH1-2 (Cel7D) (GenBank 登录号 L22656)、埃默森篮状菌 CBHlA (GenBank登录号 AF439935)、绿色木霉 CBHl (GenBank 登录号 X53931)或草菇(V.volvacea)V14CBH1 (GenBank 登录号 AF156693)。
[0518]5.3.6.全纤维素酶
[0519]本发明的酶共混物/组合物还包含全纤维素酶。如本文所用,“全纤维素酶”是指含天然存在的或非天然存在的纤维素酶的组合物,所述组合物包含至少3种不同的酶类型:(1)内切葡聚糖酶、(2)纤维二糖水解酶和(3) β-葡糖苷酶,或包含至少3种不同的酶活性:(1)内切葡聚糖酶活性,其催化内部β_1,4键的裂解,生成较短的葡寡糖,(2)纤维二糖水解酶活性,其催化纤维二糖单元(@-1,4葡萄糖-葡萄糖二糖)的“外切”型释放,以及(3) β-葡糖苷酶活性,其催化从短纤维寡糖(如,纤维二糖)释放葡萄糖单体。
[0520]“含天然存在的纤维素酶的”组合物是由天然来源制备的组合物,该组合物具有一种或多种纤维二糖水解酶类型、一种或多种内切葡聚糖酶类型以及一种或多种β -葡糖苷酶类型组分或活性,其中这些组分或活性各自以天然的、未受人工影响的比率和水平存在。因此,含天然存在的纤维素酶的组合物为例如这样的生物体所产生的组合物,该生物体未针对纤维素水解酶进行修饰,因此组分酶的比率和水平与自然界中天然生物体产生的无差另IJ。“含非天然存在的纤维素酶的组合物”是指通过以下方法产生的组合物:(I)将组分纤维素水解酶以天然存在的比率或非天然存在的(即改变的)比率混合;或(2)修饰生物体,使其过表达或低表达一种或多种纤维素水解酶;或(3)修饰生物体,使得至少一种纤维素水解酶缺失。“含非天然存在的纤维素酶的”组合物也可指调整天然存在生物体的培养条件,使得天然存在生物体在非天然条件下生长,产生水平或比率改变的酶,从而得到的组合物。因此,在一些实施例中,本发明的全纤维素酶制品可具有一种或多种缺失和/或过表达的EG和/或CBH和/或β -葡糖苷酶。
[0521]全纤维素酶制品可来自任何一种能水解纤维素材料的微生物。例如,全纤维素酶制品是丝状真菌全纤维素酶。例如,全纤维素酶制品可得自支顶孢属、曲霉属、裸胞壳属、键刀囷属、腐质霉属、毛霉囷属、毁丝囷属、脉抱囷属、青霉属、柱霉属、梭抱壳属、弯颈霉属或木霉属菌种。全纤维素酶制品是例如棘孢曲霉、泡盛曲霉、臭曲霉、日本曲霉、构巢曲霉、黑曲霉或米曲霉全纤维素酶。全纤维素酶制品可以是拟棒座镰刀菌、小麦镰刀菌、克地镰刀菌、黄色镰刀菌、禾谷镰刀菌、禾赤镰刀菌、异孢镰刀菌、荆条镰刀菌、尖孢镰刀菌、多枝镰刀菌、粉红镰刀菌、接骨木镰刀菌、肤色镰刀菌、拟枝孢镰刀菌、硫色镰刀菌、簇囊镰刀菌、拟丝孢镰刀菌或毒性镰刀菌(Fusarium venenatum)全纤维素酶制品。全纤维素酶制品也可以是特异腐质霉、绵毛状腐质霉、米赫毛霉、嗜热毁丝菌、粗糙脉孢菌、产紫青霉、绳状青霉、嗜热革节孢、勒克瑙金孢子菌或太瑞斯梭孢壳霉全纤维素酶制品。此外,全纤维素酶制品可以是哈茨木霉、康宁木霉、长枝木霉、里氏木霉(例如RL-P37 (Sheir-Neiss G et al.Appl.Microbiol.Biotechnology, 1984, 20, pp.46-53 (Sheir-Neiss G 等人,《应用微生物生物技术》,1984 年,第 20 卷,第 46-53 页))、QM9414(ATCC N0.26921)、NRRL15709、ATCC13631、56764、56466、56767)或绿色木霉(例如ATCC32098和32086全纤维素酶制品。
[0522]具体地讲,全纤维素酶制品可合适地为里氏木霉RutC30全纤维素酶制品,该制品以里氏木霉ATCC56765得自美`国典型培养物保藏中心(American Type CultureCollection)。例如,全纤维素酶制品也可合适地为绳状青霉的全纤维素酶,该全纤维素酶以绳状青霉ATCC号:10446得自美国典型培养保藏中心(American Type CultureCollection)。此外,全纤维素酶制品可为细菌全纤维素制品,如芽孢杆菌或大肠杆菌中的一种。
[0523]全纤维素酶制品也可以从商业来源获得。适用于本发明方法和组合物的市售纤维素酶制品的例子包括例如CELLUCLAST?和Cellic?(诺维信公司(Novozymes A /S))和 LAMINEX? BG, IndiAge?44L, Primafast?100, Primafast?200, Spezyme? CP、
Accellerase? iooo 和 Accellerase? 1500(丹尼斯科美国有限公司,杰能科(Danisco usInc., Genencor))。
[0524]全纤维素酶制品可以使用任何已知的微生物培养方法制备,使能够水解纤维素材料的酶得到表达。如本文所用,“发酵”是指摇瓶培养、小规模或大规模发酵,例如在允许纤维素酶和/或受关注的酶表达和/或分离的条件下,使用合适的培养基,在实验室或工业发酵罐中进行的连续、分批、分批补料或固态发酵。
[0525]—般来讲,在适于产生能够水解纤维素材料的酶的细胞培养基中培养微生物。培养使用本领域已知的步骤和变化在合适的营养培养基中进行,所述培养基包含碳源和氮源及无机盐。适于生长和纤维素酶产生的培养基、温度范围和其他条件是已知的。例如,通过里氏木霉制备纤维素酶的典型温度范围为24°C至28°C
[0526]通过发酵制备全纤维素酶制品后,即能够按原样使用,不需要回收和/或纯化或只需要最低程度地回收和/或纯化。例如,一旦纤维素酶分泌至细胞培养基中,即能够直接使用包含纤维素酶的细胞培养基。全纤维素酶制品可包含未分离的发酵材料内容物,其包括消耗的细胞培养基、胞外酶和细胞。另一方面,全纤维素酶制品也可经过多个常规步骤,例如沉淀、离心、亲和色谱、过滤等等进一步处理。例如,全纤维素酶制品可浓缩后直接使用无需进一步纯化。全纤维素酶制品可例如配制为包含发酵后降低细胞活力或杀死细胞的某些化学试剂。例如,可使用本领域已知的方法裂解或透化细胞。
[0527]全纤维素酶制品的内切葡聚糖酶活性可使用羧甲基纤维素(CMC)作为底物测定。合适的测定法测量酶混合物对CMC作用产生的还原末端,其中I个单位为释放IymoL产物 / min 的酶量(Ghose, T.K.,Pure&Appl.Chem.1987,59,pp.257-268 (Ghose, T.K.,《纯粹与应用化学》,1987年,第59卷,第257-268页))。
[0528]全纤维素酶可以为富含葡糖苷酶的纤维素酶。富含葡糖苷酶的全纤维素酶通常包含葡糖苷酶和全纤维素酶制品。富含葡糖苷酶的全纤维素酶组合物可通过重组方法制备。例如,此类全纤维酶制品可通过在能产生全纤维酶的微生物中表达
葡糖苷酶得到。富含葡糖苷酶的全纤维酶组合物还可例如包含全纤维素酶制品和葡糖苷酶。本文所述的任何一种葡糖苷酶多肽可为合适的,包括,例如,为嵌合/融合葡糖苷酶多肽的多肽。 例如,富含β-葡糖苷酶的全纤维素酶组合物可合适地包含基于该共混物/组合物中蛋白质的总重量计至少约5重量%、7重量%、9重量%、10重量%或14重量%以及至多约17重量%、约20重量%、25重量%、30重量%、35重量%、40重量%或50重量%的β-葡糖苷酶。
[0529]5.3.7.木聚糖酶和β -木糖苷酶
[0530]本发明的酶共混物/组合物例如可包含一种或多种木聚糖酶,其可为里氏木霉Xyn2、里氏木霉Xyn3、AfuXyn2或AfuXyn5。合适的里氏木霉Xyn2、里氏木霉Xyn3、AfuXyn2或AfuXyn5多肽在本文有所描述。
[0531]除一种或多种木聚糖酶之外或取代之,本发明的酶共混物/组合物任选地包含一种或多种木聚糖酶。任何木聚糖酶(EC3.2.1.8)可用作另外的一种或多种木聚糖酶。合适的木聚糖酶包括例如解糖梭菌木聚糖酶(Luthi et al.1990, Appl.Environ.Microbiol.56 (9):2677-2683 (Luthi等人,1990年,《应用环境微生物》,第56卷,第9期,第 2677-2683 页)、海栖热袍菌木聚糖酶(ffinterhalter&Liebel, 1995, Appl.Environ.Microbiol.61(5): 1810-1815 (Winterhalter 和 Liebel, 1995 年,《应用环境微生物》,第61卷,第5期,第1810-1815页))、栖热袍菌属(Thermatoga Sp.)菌株FJSS-B.1木聚糖酶(Simpson et al.1991, Biochem.J.277,413-417 (Simpson 等人,1991 年,《生物化学杂志》,第277卷,第413-417页))、环状芽孢杆菌(B.circulars)木聚糖酶(BcX)(美国专利 N0.5,405,769)、黑曲霉木聚糖酶(Kinoshita etal.1995, Journal of Fermentationand Bioengineering79 (5):422-428 (Kinoshita 等人,1995 年,《发酵和生物工程杂志》,第79卷,第5期,第422-428页))、变铅青链霉菌木聚糖酶(Shareck et al.1991,Genel07:75-82 (Shareck 等人,1991 年,《基因》,第 107 卷,第 75-82 页);Morosoli etal.1986Biochem.J.239:587-592 (Morosoli 等人,1986 年,《生物化学杂志》,第 239 卷,第587-592 页);Kluepfel et al.1990,Biochem.J.287:45-50 (Kluepfel 等人,1990 年,《生物化学杂志》,第287卷,第45-50页))、枯草芽孢杆菌木聚糖酶(Bernier et al.1983,Gene26(l):59-65 (Bernier等人,1983年,《基因》,第26卷,第I期,第59-65页))、粪肥纤维单胞菌(C.fimi)木聚糖酶(Clarke et al., 1996, FEMS Microbiology Lettersl39:27-35 (Clarke等人,1996年,《欧洲微生物学会联合会微生物学通讯》,第139卷,第27-35页))、突光假单胞菌(P.fIuorescens)木聚糖酶(Gilbert et al.1988, Journal ofGeneral Microbiologyl34:3239-3247 (Gilbert 等人,1988 年,《普通微生物学杂志》,第134 卷,第 3239-3247 页)、热纤梭菌(C.thermocellum)木聚糖酶(Dominguez et al.,1995, Nature Structural Biology2:569-576 (Dominguez 等人,1995 年,《自然结构生物学》,第2卷,第569-576页)、短小芽孢杆菌(B.pumilus)木聚糖酶(Nuyens et al.AppliedMicrobiology and Biotechnology2001, 56:431-434 (Nuyens 等人,《应用微生物学和生物技术》,2001 年,第 56 卷,第 431-434 页);Yang et al.1998,Nucleic Acids Res.16(14B):7187 (Yang等人,1998年,《核酸研究》,第16卷,第14B期,第7187页))、丙酮丁醇梭菌(C.acetobutylicum)P262 木聚糖酶(Zappe et al.1990, Nucleic Acids Res.18(8):2179 (Zappe等人,1990年,《核酸研究》,第18卷,第8期,第2179页))或哈茨木霉木聚糖酶(Rose et al.1987, J.Mol.Biol.194(4):755-756 (Rose 等人,1987 年,《分子生物学杂志》,第194卷,第4期,第755-756页))。
[0532]木聚糖酶可通过表达编码木聚糖酶的内源或外源基因制备。木聚糖酶可被例如过表达或低表达。
[0533]本发明的酶共混物/组合物例如可适当地包含一种或多种β -木糖苷酶。例如,β -木糖苷酶为第I组β -木糖苷酶`(如,Fv3A或Fv43A)或第2组β -木糖苷酶(如,Pf43A、Fv43D、Fv39A、Fv43E、Fo43A、Fv43B、Pa51A、Gz43A 或里氏木霉 Bxl I)。例如,本发明的酶共混物/组合物可适当地包含一种或多种第I组β-木糖苷酶和一种或多种第2组β -木糖苷酶。
[0534]除上述的第I组和/或第2组β-木糖苷酶以外或取代之,本发明的酶共混物/组合物可任选地包含一种或多种β -木糖苷酶。任何β -木糖苷酶(EC3.2.1.37)可用作另外的β-木糖苷酶。合适的β-木糖苷酶包括例如埃默森篮状菌Bxll (Reenet al.2003, Biochem Biophys Res Commun.305 (3):579-85 (Reen 等人,2003 年,《生物化学和生物物理研究通讯》,第305卷,第3期,第579-585页))、嗜热脂肪地芽孢杆菌 β -木糖苷酶(Shallom etal.2005, Biochemistry44:387-397 (Shallom 等人,2005年,《生物化学》,第44卷,第387-397页))、嗜热革节孢β_木糖苷酶(Zanoelo etal.2004,J.1nd.Microbiol.Biotechnol.31:170-176 (Zanoelo 等人,2004 年,《工业微生物学与生物技术杂志》,第31卷,第170-176页))、木素木霉(T.1ignorum) β -木糖苷酶(Schmidt, 1998, Methods Enzymo1.160:662-671 (Schmidt, 1998 年,《酶学方法》,第 160卷,第 662-671 页))、泡盛曲霉 β -木糖苷酶(Kurakake et al.2005, Biochim.Biophys.Actal726:272-279 (Kurakake等人,2005年,《生物化学与生物物理学报》,第1726卷,第272-279 页))、杂色曲霉(A.versicolor) β -木糖苷酶(Andrade et al.2004, ProcessBiochem.39:1931-1938 (Andrade 等人,2004 年,《过程生化》,第 39 卷,第 1931-1938页))、链霉菌属(Streptomyces sp.) β -木糖苷酶(Pinphanichakarn et al.2004,World J.Microbiol.Biotechnol.20:727-733 (Pinphanichakarn 等人,2004 年,《微生物学和生物技术世界杂志》,第20卷,第727-733页))、海栖热袍菌β -木糖苷酶(Xue andShao, 2004, Biotechnol.Lett.26:1511-1515 (Xue 和 Shao, 2004 年,《生物技术快报》,第 26 卷,第 1511-1515 页))、木霉属 SYP -木糖苷酶(Kim et al.2004, J.Microbiol.Biotechnol.14:643-645 (Kim等人,2004年,《微生物和生物技术杂志》,第14卷,第643-645页))、黑曲霉 β_ 木糖苷酶(Oguntimein and Reilly, 1980, Biotechnol.Bioeng.22:1143-1154(0guntimein和Reilly,1980年,《生物技术和生物工程》,第22卷,第1143-1154页))或沃特曼青霉(P.wortmanni) β -木糖苷酶(Matsuo et al.1987, Agric.Biol.Chem.51:2367-2379 (Matsuo 等人,1987 年,《农业生物化学》,第 51 卷,第 2367-2379 页))。
[0535]β-木糖苷酶可通过表达编码β-木糖苷酶的内源或外源基因制备。β-木糖苷酶可在某些情况下被过表达或低表达。
[0536]5.3.8.L-α-阿柃伯呋喃糖酶
[0537]本发明的酶共混物/组合物可例如合适地包含一种或多种L- α -阿拉伯呋喃糖酶。L- α -阿拉伯呋喃糖酶为例如 Af43A、Fv43B、Pf51A、Pa51A、Fv51A、Af43A、Fv43B、Pf51A、Pa51A 或 Fv51A 多肽。
[0538]除了前述的L-α -阿拉伯呋喃糖酶之外或取代之,本发明的酶共混物/组合物任选地包含一种或多种L-α -阿拉伯呋喃糖酶。来自任何合适的生物体的L-α -阿拉伯呋喃糖酶(EC3.2.1.55)可用作另外的L-α -阿拉伯呋喃糖酶。合适的L-α -阿拉伯呋喃糖酶包括例如以下物种的L-α -阿拉`伯呋喃糖酶:米曲霉(Numan&Bhosle, J.1nd.Microbiol.Biotechnol.2006,33:247-260 (Numan和Bhosle,《工业微生物学与生物技术杂志》,2006年,第33卷,第247-260页))、酱油曲霉(A.sojae) (Oshima et al.J.Appl.Glycosc1.2005,52:261-265 (Oshima等人,《应用糖质科学》,2005年,第52卷,第261-265页))、短芽孢杆菌(B.brevis)(Numan&Bhosle, J.1nd.Microbiol.Biotechnol.2006, 33:247-260(Numan和Bhosle,《工业微生物学与生物技术杂志》,2006年,第33卷,第247-260页))、嗜热脂肪芽抱杆菌(B.stearothermophilus) (Kim et al., J.Microbiol.Biotechnol.2004,14:474-482 (Kim等人,《微生物学和生物技术杂志》,2004年,第14卷,第474-482页))、短双歧杆菌(B.breve) (Shin et al.,Appl.Environ.Microbiol.2003,69:7116-7123 (Shin 等人,《应用环境和微生物》,2003年,第69卷,第7116-7123页)、长双歧杆菌(B.1ongum)(Margolles et al., Appl.Environ.Microbiol.2003, 69:5096-5103 (Margolles 等人,《应用环境和微生物》,2003年,第69卷,第5096-5103页))、热纤梭菌(Taylor et al.,Biochem.J.2006,395:31-37 (Taylor 等人,《生物化学杂志》,2006 年,第 395 卷,第 31-37页))、尖抱键刀菌(Panagiotou et al., Can.J.Microbiol.2003,49:639-644(Panagiotou等人,《加拿大微生物学杂志》,2003年,第49卷,第639-644页))、尖孢镰刀菌石竹专化型(F.0xysporum f.sp.dianthi)(Numan&Bhosle, J.1nd.Microbiol.Biotechnol.2006,33:247-260 (Numan和Bhosle,《工业微生物学与生物技术杂志》,2006年,第33卷,第247-260 页))、嗜热脂肪地芽孢杆菌 T-6 (Shallom et al.,J.Biol.Chem.2002,277:43667-43673 (Shallom等人,《生物和化学杂志》,2002年,第277卷,第43667-43673页))、大麦(H.vulgare) (Lee et al.,J.Biol.Chem.2003,278:5377-5387 (Lee 等人,《生物和化学杂志》,2003 年,第 278 卷,第 5377-5387 页))、产黄青霉(Sakamoto et al., Biophys.Acta2003,1621:204-210 (Sakamoto 等人,《生物物理学报》,2003 年,第 1621 卷,第 204-210页))、青霉属(Rahman et al., Can.J.Microbiol.2003,49:58-64(Rahman 等人,《加拿大微生物学杂志》,2003 年,第 49 卷,第 58-64 页))、P.cellulosa (Numan&Bhosle, J.1nd.Microbiol.Biotechnol.2006, 33:247-260 (Numan 和 Bhosle,《工业微生物学与生物技术杂志》,2006年,第33卷,第247-260页))、微小根毛霉(Rahman et al.,Carbohydr.Res.2003,338: 1469-1476 (Rahman 等人,《糖类研究》,2003 年,第 338 卷,第 1469-1476页))、教酒链霉菌(S chartreusis)、热紫链霉菌(S.thermoviolacus)、嗜热厌氧乙醇:菌(T.ethanolicus)、解木聚糖耐热芽抱杆菌(T.xylanilyticus) (Numan&Bhosle, J.1nd.Microbiol.Biotechnol.2006, 33:247-260 (Numan 和 Bhosle,《工业微生物学与生物技术杂志》,2006 年,第 33 卷,第 247-260 页))、禾草腥黑粉菌(T.FUsca) (Tuncer and Ball,Folia Microbiol.2003,(Praha) 48: 168-172 (Tuncer 和 Ball,《微生物学报》,2003 年,布拉格,第 48 卷,第 168-172 页))、海栖热袍菌(Miyazaki, Extremophiles2005,9:399-406 (Miyazaki,《极端微生物》,2005年,第9卷,第399-406页))、木霉属SY(Junget al.Agric.Chem.Biotechnol.2005,48:7_10 (Jung 等人,《农业化学和生物技术》,2005 年,第 48 卷,第 7-10 页))、白曲霉(Koseki et al., Biochim.Biophys.Acta2006,1760 =1458-1464 (Koseki等人,《生物化学和生物物理学报》,2006年,第1760卷,第1458-1464 页))、尖抱键刀菌石竹专化型(Chacon-Martinez et al., Physiol.Mol.PlantPathol.2004,64:201-208 (Chacon-Martinez等人,《生理与分子植物病理学》,2004年,第64 卷,第 201-208 页))、解木聚糖耐热芽孢杆菌(Debeche et al., Protein Eng.2002,15:21-28 (Debeche等人,《蛋白质工程》,2002年,第15卷,第21-28页))、特异腐质霉、奇岗(M.giganteus)(Sorensen et al., Biotechnol.Prog.2007,23: 100-107(Sorensen 等人,《生物技术进展》,2007年,第23卷,第100-107页))或萝卜(R.sativus) (Kotake etal.J.Exp.Bot.2006,57:2353-2362 (Kotake 等人,《实验植物学杂志》,2006 年,第 57 卷,第2353-2362 页))。
[0539]L-α -阿拉伯呋喃糖酶可通过表达编码L-α -阿拉伯呋喃糖酶的内源或外源基因制备。L- α -阿拉伯呋喃糖酶可在某些情况下被过表达或低表达。
[0540]5.3.9.纤维二糖脱氧酶
[0541]术语“纤维二糖脱氢酶”是指E.C.1.1.99.18的氧化还原酶,在存在受体的情况下,其催化纤维二糖转化为纤维二糖-1,5-内酯和被还原的受体。2,6_ 二氯靛酚,如铁、分子氧、泛醌或细胞色素C,或另一种多酚,可用作受体。纤维二糖脱氢酶的底物包括但不限于纤维二糖、纤维寡糖、乳糖和D-葡糖基-1,4-β-D-甘露糖、葡萄糖、麦芽糖、甘露二糖、硫纤维二糖、半乳糖基-甘露糖、木二糖和木糖。电子供体包括在还原端具有葡萄糖或甘露糖的β-1-4 二己糖、α-1-4-己糖苷、己糖、戍糖和β-1-4-五聚体。参见Henriksson et al.,1998,Biochimica et Biophysica Acta-Protein Structure and Molecular Enzymology,1383:48-54 (Henriksson等人, 1998年,《生物化学与生物物理学报-蛋白质结构与分子酶学》,第 1383 卷,第 48-54 页);Schou et al.,1998,Biochem.J.330:565-571 (Schou 等人,1998年,《生物化学杂志》,第330卷,第565-571页))。
[0542]纤维二糖脱氢酶的两个家族即家族I和家族2可适当地包含在本发明的酶组合物中或通过本文的经工程改造的宿主细胞表达。这两个家族差别在于纤维素结合基序(CBM)存在于家族I中而不存在于家族2中。纤维二糖脱氢酶的三维结构指示两个球状结构域,每个包含以下两个辅因子中的一个:血红素或黄素。活性位点位于所述两个结构域之间的裂缝处。纤维二糖脱氢酶的催化循环遵循顺序序列机理。通过从纤维二糖到黄素的2电子转移使纤维二糖发生氧化,生成纤维二糖-1,5-内酯和被还原的黄素。然后通过电子转移到血红素基团再次生成活性FAD,留下被还原的血红素。通过在第二活性位点与氧化性底物反应再次生成天然状态的血红素。
[0543]所述氧化性底物可为铁氰化物、细胞色素C或被氧化的酚化合物,如比色测定法中使用的常用底物二氯靛酚(DCIP)。金属离子和O2也是这些酶的合适底物,但就这些底物而言与在铁或有机氧化剂用作底物时相比,纤维二糖脱氢酶的反应速率明显更低。在纤维二糖内酯释放后,产物可自发进行开环,生成纤维二糖酸。参见Hallberg et al.,2003,J.Biol.Chem.278:7160-66 (Hallberg 等人,2003 年,《生物和化学杂志》,第 278 卷,第7160-7166 页)。
[0544]5.3.10.其他鉬分
[0545]本发明经工程改造的酶组合物可例如合适地进一步包含一种或多种辅助蛋白质。辅助蛋白质的例子包括但不限于甘露聚糖酶(例如内切甘露聚糖酶、外切甘露聚糖酶、和β_甘露糖苷酶)、半乳聚糖酶(例如内切和外切半乳聚糖酶)、阿拉伯糖酶(例如内切阿拉伯糖酶和外切阿拉伯糖酶)、木质酶、淀粉酶、葡糖醛酸酶、蛋白酶、酯酶(例如阿魏酸酯酶、乙酰木聚糖酯酶、香豆 酸酯酶或果胶甲基酯酶)、脂肪酶、其他糖苷水解酶、木葡聚糖酶、CIPU CIP2、膨胀因子、扩展蛋白、和纤维素破坏蛋白。在特定实施例中,纤维素破坏蛋白是纤维素结合模块。
[0546]5.4.方法与工艺
[0547]本发明因此还提供包含半纤维素并任选地包含纤维素的生物质材料的糖化工艺。示例性生物质材料包括但不限于玉米芯、柳枝稷草、高粱和/或蔗渣。因此,本发明提供包括糖化工艺,所述糖化工艺包括用本文所述的酶共混物/组合物处理本文的生物质材料,所述生物质材料包含半纤维并任选地包含纤维二糖。本发明的此类工艺中所用的酶共混物/组合物包含每千克生物质材料半纤维素Ig至40g (如,2g至20g、3g至7g、lg至5g、或2g至5g)具有木聚糖酶活性的多肽。此类工艺中所用的酶共混物/组合物还可包含每千克生物质材料半纤维素Ig至50g(如,2g至40g、4g至20g、4g至10g、2g至10g、3g至7g)具有β_木糖苷酶活性的多肽。本发明的此类工艺中所用的酶共混物/组合物可包含每千克生物质材料半纤维素0.5g至20g(如,Ig至10g、lg至5g、2g至6g、0.5g至4g、或Ig至3g)具有L- α -阿拉伯呋喃糖酶活性的多肽。酶共混物/组合物还可包含每千克生物质材料纤维素Ig至100g(如,3g至50g、5g至40g、10g至30g、或12g至18g)具有纤维素酶活性的多肽。任选地,具有β_葡糖苷酶活性的多肽的含量最多占具有纤维素酶活性的多肽的总重量的50%。
[0548]本发明的合适工艺优选地从经处理的生物质材料的半纤维素木聚糖中生产60%至90%的木糖。合适的生物质材料包括,如,玉米芯、柳枝稷草、高粱和/或蔗渣中的一种或多种。因此,本发明的工艺优选地从一种或多种这些生物质材料的半纤维素木聚糖中生产至少70% (如,至少75%、至少80%)的木糖。例如,该工艺从包含半纤维素的生物质材料的半纤维素木聚糖中生产60%至90%的木糖,所述生物质材料包括但不限于玉米芯、柳枝稷草、高粱和/或蔗渣。
[0549]本发明的工艺任选地还包括回收单糖。除了生物质的糖化外,本发明的酶和/或酶共混物还可用于工业、农业、食品与饲料以及食品与饲料补充剂加工工艺。应用实例在以下有所描述。
[0550]5.4.1.木材、纸和纸衆 处理
[0551]本发明的酶、酶共混物/组合物和方法可用于木材、木制品、木材废料或副产物、纸、纸制品、纸浆或木浆、牛皮纸浆、或木材或纸回收处理或工业工艺。这些工艺包括例如木材、木浆、纸废弃物、纸或纸浆的处理、或木材或纸的脱墨。本发明的酶、酶共混物/组合物可例如用于处理/预处理纸浆或回收纸或纸浆等。当包括在纸、纸浆、回收纸或纸浆处理/预处理中时,本发明的酶、酶共混物/组合物可用于增加纸的“白度”。应认识到,纸的等级越高,白度越高;白度可影响光学扫描设备的扫描能力。因此,酶、酶共混物/组合物和方法/工艺可用于制造高等级、“白度”纸,包括喷墨、激光和光刻印刷质量纸。
[0552]本发明的酶、酶共混物/组合物可用于加工或处理多种其他纤维素材料,包括例如来自木材、棉花、大麻、亚麻或亚麻布的纤维。
[0553]因此,本发明提供使用本发明的酶、酶共混物/组合物的木材、木浆、纸、纸浆、纸废弃物或者木材或纸回收处理工艺。
[0554]本发明的酶、酶共混物/组合物用于对印刷废纸(如报纸)进行脱墨,或用于对非接触印刷废纸(例如,静电印刷和`激光印刷纸)以及接触和非接触印刷废纸的混合物进行脱墨,如美国专利 N0.6,767,728 或 6,426,200 ;Nco,J.Wood Chem.Tech.1986,6(2):147 (Neo,《木材化学技术杂志》,1986年,第6卷,第2期,第147页)中所述。它们也可用于在工艺中从造纸用阔叶纸浆产生木糖,该工艺涉及将纸浆中所含的木聚糖萃取到液相中,将所得液相中所含的木聚糖置于足以使木聚糖水解成木糖的条件下,以及回收木糖。萃取步骤例如可包括使用酶或酶共混物/组合物对纸浆的水性悬浮液或碱溶性材料进行至少一种处理(参见美国专利N0.6,512,110)。本发明的酶、酶共混物/组合物可用于从纤维素纤维中溶出纸浆,所述纤维素纤维例如由阔叶木纤维、阔叶木纤维和针叶木纤维的混合物、废纸制成的回收纸产品,所述废纸例如来自未印刷信封、脱墨信封、未印刷帐薄纸、脱墨帐薄纸等,如在例如美国专利N0.6,254,722中所述。
[0555]5.4.2.处理纤维和纺织物
[0556]本发明提供使用本发明的一种或多种酶、酶共混物/组合物处理纤维和织物的方法。所述酶、酶共混物/组合物可用于本领域已知的任何纤维处理方法或织物处理方法。参见,例如,美国专利 N0.6,261,828 ;6,077,316 ;6,024,766 ;6,021,536 ;6,017,751 ;5,980, 581 ;美国专利公布N0.20020142438A1。例如,本发明的酶、酶共混物/组合物可用于纤维和/或织物退浆。织物的手感和外观可例如通过包括将织物与本发明的酶或酶共混物/组合物在溶液中接触的方法得到改善。任选地,在压力下用该溶液处理织物。本发明的酶、酶共混物/组合物还可用于去除污溃。[0557]本发明的酶、酶共混物/组合物可用于处理多种其他纤维素材料,包括纤维(例如,来自棉花、大麻、亚麻或亚麻布的纤维)、缝制或非缝制织物,例如,由棉花、棉共混物或天然或人造纤维素或其共混物制成的针织品、机织物、斜纹粗棉布、纱线和毛巾料。该纺织物处理工艺可与其他纺织物处理结合使用,如精练和/或漂白。精练例如是从棉纤维中除去非纤维素材料,例如,表皮(主要由蜡组成)和初生细胞壁(主要由果胶、蛋白质和木葡聚糖组成)。
[0558]5.4.3.处理食品和食品加工
[0559]本发明的酶、酶共混物/组合物在食品加工行业中有许多应用。它们可例如用于改善从富含油脂的植物材料,如富含油脂的种子中提取油。本发明的酶、酶共混物/组合物可用于从大豆中提取大豆油、从橄榄中提取橄榄油、从油菜籽中提取油菜籽油、或从葵花籽中提取葵花油。
[0560]本发明的酶、酶共混物/组合物还可用于分离植物细胞材料的组分。例如,它们可用于将植物细胞分离成组分。本发明的酶、酶共混物/组合物还可用于将农作物分离成蛋白质、油和外壳部分。可使用已知的方法进行所述分离过程。
[0561]除了上述用途外,本发明的酶、酶共混物/组合物还可用于增加水果或蔬菜汁、糖浆、提取物等制备的产率。它们还可用于多种植物细胞壁来源的材料或废料(例如来自谷物、粮食、酒或果汁生产)或农业废弃物(诸如蔬菜皮、菜豆外壳、糖用甜菜浆、橄榄浆、马铃薯浆等)的酶处理。此外,它们还可用于改进经加工的水果或蔬菜的稠度和/或外观。它们还可用于处理植物材料以有利于植物材料(包括食物)的加工、植物组分的纯化或提取。本发明的酶和共混物/组合物可用于提高饲料价值、降低水结合能力、改进在废水处理厂中的降解能力和/或改进植物材料向青忙饲料的转化等。
[0562]本文的酶、酶共混物/组`合物可用于烘焙应用中。例如,它们用于制作非粘性面团,从而易于加工并减小饼干大小。它们还用于水解阿糖基木聚糖以防止烘焙产品迅速再水化,再水化可导致丧失松脆性并缩短货架期。例如,将它们用作面团加工的添加剂。
[0563]5.4.4.动物饲料和食品或饲料或食品添加剂
[0564]提供了使用本发明的酶和共混物/组合物处理动物饲料/食品和食品或饲料添加剂(补充剂)的方法。动物包括哺乳动物(如,人类)、鸟类、鱼类等。本发明提供包含本发明的酶、酶共混物/组合物的动物饲料、食品和添加剂(补充剂)。用酶处理动物饲料、食品和添加剂可增加动物饲料或添加剂(补充剂)中的营养素如淀粉、蛋白质等的利用度。通过分解难以消化的蛋白质或间接或直接暴露淀粉(或其他营养素),所述酶和共混物/组合物可使得营养素更易被其他内源或外源酶接触到。它们也可仅仅引起易消化和易吸收的营养素和糖的释放。
[0565]当加入到动物饲料时,本发明的酶、酶共混物/组合物改进植物细胞壁材料的体内分解,这部分地通过降低肠道粘度(参见,例如Bedford et al.,Proceedings of thelstSymposium on Enzymes in Animal Nutrition, 1993, pp.73-77 (Bedford 等人,《第一届有关动物营养中的酶的研讨会论文集》,1993年,第73-77页)),从而实现动物更好地利用植物营养素。因此,通过在饲料中使用本发明的酶、酶共混物/组合物,动物的生长速率和/或饲料转化率(即所摄取饲料的重量相对于体重增加的比例)可得到改进。
[0566]本发明的动物饲料添加剂可以是可与饲料组分容易混合的粒状酶制品。或者,本发明的饲料添加剂可形成预混合物的组分。本发明的粒状酶制品可以是包衣的或不包衣的。酶颗粒的粒度可与饲料和/或预混合物组分的粒度相容。这提供了将酶掺入饲料中的安全且方便的方法。或者,本发明的动物饲料添加剂可以是稳定化的液体组合物。这可以是水基或油基浆液。参见例如美国专利N0.6,245,546。
[0567]本发明的酶、酶共混物/组合物可通过在转基因饲料作物(例如,转基因植物、种子等)中直接表达所述酶来提供,所述转基因饲料作物诸如粮食、谷物、玉米、大豆、油菜籽、羽扇豆等。如上所讨论,本发明提供包含编码本发明的多肽的核酸序列的转基因植物、植物部分或植物细胞。表达所述核酸,使得以可回收的量产生本发明的酶。可从任何植物或植物部分回收木聚糖酶。或者,含有重组多肽的植物或植物部分可原样使用,以改进食品或饲料的质量,例如,改进营养价值、口味和流变特性,或破坏抗营养因子。
[0568]本发明提供用于在动物受试者消耗之前使用本发明的酶、酶共混物/组合物从饲料中去除低聚糖的方法。在这个过程中,形成具有提高的代谢能值的饲料。除了本发明的酶、酶共混物/组合物之外,还可使用本文的半乳糖苷酶、纤维素酶以及它们的组合。
[0569]本发明提供利用本发明的酶、酶共混物/组合物作为动物饮食中的营养补充剂的方法,利用方式是制备含有本发明的重组酶的营养补充剂,并对动物施用所述营养补充剂以提高由动物摄取的食物中含有的半纤维素酶的利用。
[0570]5.4.5废物处理
[0571]本发明的酶、酶共混物/组合物可用于多种其他工业应用中,如,可用于废物处理中。例如,在一方面,本发明提供使用本发明的酶、酶共混物/组合物进行的固体废物消化工艺。该方法可包括减少基本上未处理固体废物的质量和体积。可在控制的温度下,在存在酶溶液(包括本发明的酶、酶共混物/组合物)的情况下用酶消化工艺处理固体废物。这就使得反应时不会发生所加入的微生物的明显细菌发酵。固体废物被转化为液化废物和残余固体废物。可将所得的液化废物`从所述任何残余固化废物中分离出来。参见,例如美国专利 N0.5,709,796。
[0572]5.4.6洗涤剂、消毒剂和清洁组合物
[0573]本发明提供包含本发明的一种或多种酶、酶共混物/组合物的洗涤剂、消毒剂或清洁剂(清洁或清洗)组合物,以及制备和使用这些组合物的方法。本发明结合了所有已知的制备和使用洗涤剂、消毒剂或清洁剂组合物的方法。参见,例如美国专利N0.6,413,928 ;6,399,561 ;6,365,561 ;6,380,147。
[0574]在具体的实施例中,洗涤剂、消毒剂或清洁剂组合物可以是一部分和两部分水性组合物、非水性液体组合物、浇注固体、颗粒状形式、微粒形式、压片、凝胶和/或糊料和浆料形式。本发明的酶、酶共混物/组合物还可以固体或液体形式用作洗涤剂、消毒剂或清洁剂添加剂产品。此类添加剂产品旨在补充或增强常规洗涤剂组合物的性能并且可以在清洁过程的任何阶段加入。
[0575]本发明提供清洁组合物,包括用于清洁硬质表面的洗涤剂组合物、用于清洁织物的洗涤剂组合物、盘碟洗涤组合物、口腔清洁组合物、假牙清洁组合物和隐形眼镜清洁溶液。
[0576]当本发明的酶是适用于洗衣机洗涤方法的组合物的组分时,除本发明的酶、酶共混物/组合物之外,所述组合物还可包含表面活性剂和助洗化合物。它们可另外包含一种或多种洗涤剂组分,例如,有机聚合化合物、漂白剂、另外的酶、抑泡剂、分散剂、钙皂分散剂、土壤悬浮液以及抗再沉积剂和腐蚀抑制剂。
[0577]本发明的衣物洗涤组合物还可含有软化剂作为另外的洗涤剂组分。此类含碳水化合物分解酶的组合物当作为衣物洗涤剂组合物配制时,可提供织物清洁、污溃去除、白度保持、软化、颜色外观、染料转移抑制和消毒。
[0578]5.4.7.工业、商业和营业方法
[0579]本发明的纤维素酶和/或半纤维素酶还可用于工业和/或商业环境中。因此,还设想了方法或制造、营销或者说是将本发明的非天然存在的纤维素酶和/或半纤维素酶组合物商业化的方法。
[0580]在一个具体的实施例中,包括例如以下的纤维素酶多肽:内切葡聚糖酶多肽(如,GH61内切葡聚糖酶,例如里氏木霉Eg4多肽)、β -葡糖苷酶多肽(如,本文中的Pa3D、Fv3G、卩¥30、卩¥3(:、1^3六、1^38、163六、六113六、卩03六、623六、池3六、¥(13六、?336和 Tn3B 多肽、与 SEQ IDNO:54、56、58、60、62、64、66、68、70、72、74、76、78 和 79 的任一者具有至少约 60 % 序列同一性的多肽,和/或含至少两个β-葡糖苷酶序列的融合/嵌合多肽,其中第一 β -葡糖苷酶序列为至少约200个氨基酸残基长的序列并包含SEQ ID NO:96-108的一者或多者或全部,而第二 β -葡糖苷酶序列为至少约50个氨基酸残基长的序列并包含SEQ ID NO =109-116的一者或多者或全部),纤维二糖水解酶多肽和半纤维素酶多肽(包括β_木糖苷酶多肽、木聚糖酶多肽和L- α -阿拉伯呋喃糖酶),以及包含上述多肽的纤维素酶组合物和/或半纤维素酶组合物,可供应给或销售给某些乙醇(生物乙醇)精炼厂或其他生化或生物材料制造商。在第一例子中,非天然存在的纤维素酶和/或半纤维素酶组合物可在专用于以工业规模生产酶的酶生产设备中生产。然后可将非天然存在的纤维素酶和/或半纤维素酶组合物进行包装或销售给酶制造 商的客户。该运营策略在本文中称为“商业酶供应模式”。
[0581]在另一种运营策略中,本发明的非天然存在的纤维素酶和半纤维素酶组合物可在最先进的酶生产系统中生产,酶制造商将该酶生产系统建在位于生物乙醇精炼厂或生化/生物材料制造商处或其附近的地点(“现场”)。在一些实施例中,酶供应协议由酶制造商和生物乙醇精炼厂或生化/生物材料制造商执行。酶制造商在现场设计、控制并运行酶生产系统,使用本文所述的宿主细胞、表达和生产方法来生产非天然存在的纤维素酶和/或半纤维素酶组合物。在某些实施例中,优选地经过本文所述的适当预处理的合适生物质,可在生物乙醇精炼厂或生化/生物材料生产设备处或其附近使用本文的糖化方法和酶和/或酶组合物水解。然后可对所得的可发酵糖在相同的设备或附近的设备上进行发酵。该运营策略在本文中称为“现场生物精炼模式”。
[0582]该现场生物精炼模式相比商业酶供应模式具有某些优势,包括例如提供自给自足操作,从而最大程度降低了对来自商业酶供应商的酶供应的依赖。这继而允许生物乙醇精炼厂或生化/生物材料制造商根据实时或几乎实时的需求来更好地控制酶供应。在某些实施例中,设想了现场酶生产设备可由相互邻近的两个生物乙醇精炼厂和/或生化/生物材料制造商之间或者两个或更多个生物乙醇精炼厂和/或生化/生物材料制造商之间分享,从而降低运输和储存酶的费用。此外,这还实现了在酶生产设备现场的更直接“及时”(drop-1n)技术改进,减少了酶组合物改进之间的时间延迟,从而获得了更高产率的可发酵糖和最终的生物乙醇和生化制品。[0583]现场生物精炼模式在生物乙醇和生化制品的工业生产和商业化中具有更普遍的适用性,因为它不仅可用于制备、供应和生产本文中的纤维素酶和非天然存在的半纤维素酶组合物,而且可用于制备、供应和生产对淀粉(如,玉米)进行加工而允许更高效且有效地将淀粉直接转化成生物乙醇/生化制品的酶和酶组合物。加工淀粉的酶可在某些实施例中在现场生物精炼厂制备,然后方便地合并到生物乙醇精炼厂或生化/生物材料生产设备中,以生产生物乙醇。
[0584]因此,在某些方面,本发明还涉及在生产和营销某些生物乙醇、生物燃料、生化制品或其他生物材料中应用本文的酶(如,某些葡糖苷酶多肽(包括变体、突变体或嵌合多肽)和某些GH61内切葡聚糖酶(包括变体、突变体等))、细胞、组合物和工艺的某些业务营业方法。在一些实施例中,本发明涉及在现场生物精炼模式中应用此类酶、细胞、组合物和工艺。在其他实施例中,本发明涉及在商业酶供应模式中应用此类酶、细胞、组合物和工艺。
[0585]6.实例
[0586]6.1实例1:测定法/方法
[0587]下述的实例中一般使用以下测定法/方法。与下文提供的方案的任何偏离均在具体的实例中指出。
[0588]6.1.LA.牛物质底物的预处理
[0589]在酶促水解之前,根据W006110901Α所述的方法和加工范围(除非另有指明)对玉米芯、玉米秸杆和柳枝稷草进行预处理。这些关于预处理的参考文献还包括在 US-2007-0031918-A1、US-2007-0031919-A1、US-2007-0031953-A1 和 / 或US-2007-0037259-A1 的公开内容中。
[0590]经氨纤维膨胀处理( AFEX)的玉米秸杆购自密歇根国际生物技术研究所(Michigan Biotechnology Institute International (MBI))。使用国家可再生能源实验室(National Renewable Energy Laboratory (NREL))工序 NREL LAP-002 (Teymouri, F etal.Applied Biochemistry and Biotechnology, 2004,113:951-963 (Teymouri,F 等人,《应用生物化学和生物技术》,2004年,第113卷,第951-963页))测定玉米秸杆的组成。可在如下网站获取 NREL 工序:http: / / www.nrel.gov / biomass / analytical_procedures.html。
[0591]FPP 纸浆和纸底物购自法国的 SMURFIT KAPPA CELLULOSE DUPIN。
[0592]经蒸汽膨胀的甘鹿禮:(SEB)购自SunOpta (Glasser, WG et al.BiomassandBioenergyl998,14(3) =219-235 (Glasser, WG 等人,《生物质和生物能源》,1998 年,第 14卷,第 3 期,第 219-235 页);Jollez, P et al.Advances in thermochemical biomassconversion, 1994, 2:1659-1669 (Jollez, P等人,《热化学生物质转化进展》,1994年,第2卷,第 1659-1669 页))。
[0593]6.1.2.B.牛物质的鉬成分析
[0594]采用在《生物质中的结构糖类和木质素的测定》(Determination of structuralcarbohydrates and lignin in the biomass)(科罗拉多州戈尔登的国家可再生能源实验室(National Renewable Energy Laboratory, Golden, CO),2008http: / / www.nrel.gov / biomass / pdfs / 42618.pdf)中描述的两步酸水解方法来测定生物质底物的组成。按照相对于由底物中葡聚糖和木聚糖的初始含量得到的理论产量的百分比转化率,在本文对采用该方法的酶促水解结果进行报告。
[0595]6.1.3.C.总蛋白质测丨定法
[0596]BCA蛋白质测定是一种比色测定法,它使用分光光度计测量蛋白质的浓度。根据制造商的建议使用BCA蛋白质测定试剂盒(皮尔斯化学公司(Pierce Chemical),产品编号23227)。使用50mM醋酸钠pH5缓冲液在试管中制备酶稀释液。将稀释后的酶溶液(0.1mL)加入至含有lmL15%三氯乙酸(TCA)的2mL艾本德(Eppendorf)离心管中。润旋离心管,然后放置在冰浴中lOmin。然后将样品以14000rpm离心6min。将上清液倾出,将沉淀物重悬于ImL0.1N NaOH中,并涡旋离心管,直至沉淀物溶解。采用2mg / mL的储备溶液制备BSA标准溶液。将0.5mL的试剂B与25mL的试剂A混合,制备BCA工作液。将0.1mL的酶重悬样品加入到3个艾本德(Eppendorf)离心管中。将2mL的Pierce BCA工作液加入到每个样品和BSA标准品艾本德(Eppendorf)离心管中。将所有离心管在37°C水浴中温育30min。然后将样品冷却至室温(15min)并使用分光光度计测量其在562nm处的吸光度。
[0597]计算出每个标准品的蛋白质吸光度的平均值。以吸光度为X轴,以浓度为(mg /mL)为y轴,绘制平均蛋白质标准品的曲线。将各点拟合成线性方程:
[0598]y = mx+b
[0599]通过将吸光度代入X值计算出酶样品的原始浓度。通过乘以稀释因子,计算出总蛋白质浓度。
[0600]经纯化的样品的总蛋白质通过A280 (Pace, CN, et al.Protein Science, 1995,4:2411-2423 (Pace、CN等人,《蛋白质科学》,1995年,第4卷,第2411-2423页))测定。
[0601]一些蛋白质样品使用经`Weichselbaum和Gornall改良的双缩脲法以牛血清白蛋白作为校准品进行测定(ffeichselbaum, T.Amer.J.Clin.Path.1960,16:40 (ffeichselbaum, T.,《美国临床病理学杂志》,1960年,第16卷,第40页);GomalI, A.etal.J.Biol.Chem.1949,177:752 (GornalI,A.等人,《生物和化学杂志》,1949 年,第 177 卷,第752页))。
[0602]发酵产物的总蛋白含量有时以总氮量测定,总氮量的测定采用凯氏法(Kjeldahl)(rtech 实验室(rtech laboratories) ,www.rtechlabs.com)或内部米用杜马斯法(DUMAS)(TruSpec CN, www.lec0.com)(Sader, A.P.0.et al., Archives of Veterinary Science,2004,9 (2):73-79 (Sader,A.P.0.等人,《兽医学文献集》,2004年,第9卷,第2期,第73-79页)),通过燃烧、捕集和测量释放出的氮气实现。对于复杂的含蛋白样品,如发酵液,使用平均16%的N含量及氮与蛋白质的6.25换算因子。在一些情况下,测量出总的可沉淀蛋白质以排除干扰的非蛋白氮。采用12.5%的最终TCA浓度,并且将含有蛋白质的TCA沉淀物重悬于0.1M NaOH中。
[0603]在一些情况下,根据制造商的推荐使用Coomassie Plus-the Better BradfordAssay(伊利诺斯州罗克福德的赛默科技公司(Thermo Scientific, Rockford, IL),产品编号 23238)。
[0604]6.1.4D.俥用ABTS测定葡萄糖
[0605]用于葡萄糖测定的ABTS (2,2’ -联氮-双(3-乙烯噻唑啉_6)_磺酸)测定法基于这样的原理:在存在O2的情况下,葡萄糖氧化酶催化葡萄糖的氧化,同时产生化学计量的过氧化氢(H2O2)。该反应之后是辣根过氧化物酶(HRP)催化的ABTS氧化,其与H2O2的浓度线性相关。被氧化的ABTS的出现通过变成绿色指示,在405nm OD处定量。在50mM醋酸钠缓冲液(pH5.0)中制备2.74mg / mL ABTS粉末(西格玛公司(Sigma) ),0.1U / mLHRP (西
格玛公司(Sigma))和IU / mL葡萄糖氧化酶(Ox丨HP L5000,丹尼斯科美国有限公
司,杰能科(Genencor,Danisco USA))的混合物,并放置在黑暗中。在50mM醋酸钠缓冲液(ρΗ5.0)中制备葡萄糖标准品(为0、2、4、6、8、IOnmol)。将十(10) μ L的标准品一式三份单独加入到96孔平底微量滴定板中。还将十(10) μ L的连续稀释样品加入到板上。将一百(100) μ L的ABTS底物溶液加入到每个孔,并将板放置在分光光度读板机上。在405nm下读取ABTS氧化物5min。
[0606]替代地,温育15-30min,接着使用含有50mM醋酸钠缓冲液(pH5.0)和2% SDS的淬灭混合物淬灭反应,然后测量样品在405nm处的0D。
[0607]6.1.5.E.俥用HPLC讲行糖分析
[0608]通过如下方式制备来自玉米芯糖化水解的样品:使用0.22 μ m尼龙Spin-X离心管过滤器(纽约康宁集团康宁公司(Corning, Corning, NY))进行离心、过滤,将不溶物质去除掉,并且将可溶性糖使用蒸馏水稀释至所需的浓度。在配有6X50mm SH-1OllP保护柱的8X300mm 的 ShodexSugar SH-G SHlOll (www.shodex.net)上测定单体糖。使用的溶剂为0.01NH2SO4,并以0.6mL / min的流速进行色谱操作。柱温保持在50°C,并通过折射率进行检测。替代地,使用伯乐(BioRad)Aminex HPX-87H色谱柱和沃特世(Waters) 2410折射率检测器分析糖的含量。分析时间为约20min,进样体积为20 μ L,流动相为0.01N硫酸,使硫酸通过0.2 μ m过滤器过滤并脱气,流速为0.6mL / min,并且柱温保持在60°C。将葡萄糖、木糖和阿拉伯糖的外标与每个样品组一起运行。
[0609]使用尺寸排阻色谱法来分离和鉴定低聚糖。使用7.5mmX60cm的Tosoh BiosepG2000PW色谱柱。使用蒸馏水洗脱糖。采用0.6mL / min的流速,并且色谱柱在室温下运行。六碳糖标准品包括水苏糖、棉子糖、纤维二糖和葡萄糖;五碳糖标准品包括木己糖、木戊糖、木四糖、木三糖、木二糖和木糖。木糖低聚物标准品是购买的(美格兹密(Megazyme))。通过折射率进行检测。使用以百分比表示的峰面积单位或相对峰面积报告结果。
[0610]通过经离心和过滤净化的样品(上层)的水解测定总可溶性糖。使用0.SN H2SO4以1:1稀释经净化的样品。将所得溶液在加盖小瓶中在121°C下高压消毒lh。在不校正水解过程中单体糖损失的情况下报告结果。
[0611]6.1.6.F.从玉米芯制备低聚物以及酶测定法
[0612]采用如下方式通过里氏木霉Xyn3水解玉米芯制备低聚物:在50mMpH5.0醋酸钠缓冲液中,将8mg里氏木霉Xyn3每g葡聚糖+木聚糖与250g干重的经稀氨水预处理的玉米芯一起温育。反应在48°C下进行72h,以180rpm旋转振荡。以9,OOOXG离心上清液,然后通过0.22 μ m Nalgene过滤器过滤,回收可溶性糖。
[0613]6.1.7.G.玉米芯糖化测定法
[0614]对于本文的典型例子而言,玉米芯糖化测定根据以下工序以微量滴定板形式进行,除非特定例子指明了具体的变型形式。将生物质底物,如经稀氨水预处理的玉米芯,在水中稀释,并且使用硫酸调整PH,以形成pH5、7%的纤维素浆液,该纤维素浆液不做进一步处理用于测定中。根据玉米芯底物中的mg总蛋白每g纤维素(如使用上文的常规组成分析法测定的)加载酶样品。将酶在50mM醋酸钠(pH5.0)中稀释,获得所需的加载浓度。将四十(40) μ L的酶溶液加入到70mg经稀氨水预处理的每孔7%的纤维素(等同于最终每孔4.5%的纤维素)的玉米芯中。然后用铝板密封物将测定板覆盖,在室温下混合,并在50°C和200rpm下温育3天。在温育阶段结束时,通过向每个孔加入100 μ L的IOOmM甘氨酸缓冲液(ρΗΙΟ.0)淬灭糖化反应,然后将板以3,OOOrpm离心5min。在96孔的HPLC板中,将十(10) μ L的上清液加入到200 μ L的密理博(MilliQ)水中,并且使用HPLC测定可溶性糖。
[0615]6.L 8.H.纤维二糖水解测定法
[0616]使用Ghose, Τ.K.Pure and Applied Chemistry,1987,59(2),257-268(Ghose,T.K.,《纯粹与应用化学》,1987年,第59卷,第2期,第257-268页)的方法测定纤维二糖酶活性。将纤维二糖单位(按Ghose所述的方法衍生而得)定义为,0.815除以在测定条件下释放0.1mg葡萄糖所需的酶量。
[0617]6.1.9.1.氯-硝基-苯基-葡糖苷(CNPG)水解测定法
[0618]将两百(200) μ L的50mM醋酸钠缓冲液(pH5)加入到微量滴定板的各个孔中。将孔覆盖起来,并使之在37°C下在艾本德恒温混匀仪(Eppendorf Thermomixer)中平衡15min。还将稀释于50mM醋酸钠缓冲液(pH5)中的五(5) μ μ L的酶加入到各个孔中。再次将板覆盖,并使之在37°C下平衡5min。将在密理博(Millipore)水中制备的二十(20)μ L的2mM2-氯-4-硝基苯基-β -D-吡喃葡萄糖苷(CNPG,加拿大埃德蒙顿的Rose科学公司(Rose Scientific Ltd., Edmonton, CA))加入单独的孔并将板快速地转移至分光光度计(SpectraMax250,分子仪器公司(Molecular Devices))。在0D405nm处进行动力学读数15min,并将数据记录为Vmax。采用CNP的消光系数将Vmax的单位从OD /秒换算为μ M CNP /秒。比活(PM CNP /秒/毫克蛋白质)通过将PM CNP /秒除以测定中使用的酶蛋白的毫克数测得。
`[0619]6.1.10..1.微暈滴定板糖化测定法
[0620]根据底物中每克纤维素的总蛋白质(以毫克计)以一定量将经纯化的纤维素酶和全纤维素酶无菌株细胞产品引入糖化测定中。根据底物的木聚糖含量加载经纯化的半纤维素酶。将包括,如经稀酸预处理的玉米秸杆(PCS)、经氨纤维膨胀(AFEX)的玉米秸杆、经氨水预处理的玉米芯、经氢氧化钠(NaOH)预处理的玉米芯以及经氨水预处理的柳枝稷草的生物质底物以指示的固体百分比含量进行混合,并且将混合物的PH调至5.0。将板用铝板密封物覆盖,并放置在温度预设为50°C的培养箱中。温育进行两天,同时伴以振荡。通过在单独的孔中加入100 μ LlOOmM甘氨酸(ρΗΙΟ),使反应终止。充分混合后,将板离心,并将上清液在包含100 μ LlOmM甘氨酸缓冲液(ρΗΙΟ)的HPLC板中稀释10倍。使用纤维二糖水解测定法(下文)中描述的HPLC测量生成的可溶性糖的浓度。将百分比葡聚糖转化率定义为[mg葡萄糖+(mg纤维二糖XL 056+mg纤维三糖X L 056)] / [mg底物中的纤维素X1.111];将木聚糖转化率%定义为[mg木糖+(mg木二糖X 1.06) ]/[mg底物中的木聚糖 X1.136] ο
[0621]6.L 11.K.卡尔科弗卢尔测定法
[0622]使用的所有化学品均为分析等级。Avicel PH-101购自宾夕法尼亚费城的FMC生物聚合物公司(FMC BioPolymer(Philadelphia,PA))。纤维二糖和卡尔科弗卢尔荧光增白剂购自密苏里州圣路易斯的西格玛公司(Sigma(St.LOuise,M0))。磷酸溶胀纤维素(PASC)使用如下文献的修订方案从 Avicel PH-1Ol 制备:ffalseth, TAPPI1971, 35:228 (ffalseth,TAPPI,1971 年,第 35 卷,第 228 页)和 Wood,Biochem.J.1971,121:353-362 (Wood,《生物化学杂志》,1971年,第121卷,第353-362页)。简而言之,将Avicel溶解于浓磷酸中,然后使用冷去离子水沉淀。在收集到纤维素并且用更多的水洗涤以中和PH后,将其在50mM醋酸钠(PH5)中稀释至1%固体。
[0623]将所有的酶溶液制备成50mM醋酸钠缓冲液(pH5.0)。将GC220纤维素酶(丹尼斯科美国有限公司,杰能科(Danisco US Inc.,Genencor))稀释至2.5、5、10和15mg蛋白质/ G PASC,以绘制线性校准曲线。将待测试的样品稀释至校准曲线的范围内,即得到0.1至0.4分率产物的响应。将150 μ L的冷10A PASC加入到96孔微量滴定板中的20 μ L的酶溶液中。将板覆盖,并在50°C、200rpm下在Innova培养箱/摇床中温育2h。使用IOOyL在IOOmM甘氨酸(ρΗΙΟ)中的SOyg / mL卡尔科弗卢尔淬灭反应。在荧光微板读数器(分子仪器公司(Molecular Devices)的SpectraMax M5)上以激发波长Ex = 365nm和发射波长Em = 435nm读取荧光。根据以下公式得到结果,以分率产物表示:
[0624]FP = 1-(Fl样品-含纤维二糖的Fl缓冲液)/ (Fl起点酶-含纤维二糖的Fl缓冲液),
[0625]其中FP为分率产物,并且Fl =荧光单位
[0626]6.L 12.L槐糖水解测定法
[0627]使用购自西格玛奥德里奇公司(Sigma Aldrich)的槐糖(S1404)以微量滴定板的规模进行测试β_葡糖苷酶的槐糖活性的测定法。将槐糖悬浮于50mM醋酸钠(pH5.0)中,以形成5mg / mL的储备溶液,并且在室温下将其放置在旋转搅拌器上30min。将槐糖(每孔50 μ L)分配到平底、非结合96孔微量滴定板(康宁公司(corning), 04809009)中。将分配的底物在室温下储存5min。在第二平底96孔微量滴定板(康宁公司(corning),04809009)中,将β-葡糖苷酶分子 在50mM醋酸钠(pH5.0)中以10倍连续地稀释。使用铝板密封物(E&K科技公司(E&K scientific))将反应板密封起来,并在37°C和600rpm下温育30min (ThermoCycler)。在温育阶段结束时,将整个板上的反应物在50mM醋酸钠(pH5.0)中以2倍连续稀释。在第三平底96孔微量滴定板(康宁公司(corning) ,04809009)中,将10 μ L的稀释酶样品或葡萄糖标准品加入到90 μ L的ABTS试剂中。在420nm处观察反应的动力学5min,每15秒一次。使用葡萄糖标准品(5mg / mL)测定葡萄糖浓度。
[0628]6.2实例2:早.氏木霉整合型表达菌株的构建
[0629]构建里氏木霉整合型表达菌株,使之共表达五个基因:里氏木霉β -葡糖苷酶基因bgl 1、里氏木霉内切木聚糖酶基因xyn3、轮枝镰刀菌β -木糖苷酶基因fν3Α、轮枝镰刀菌β -木糖苷酶基因fv43D以及轮枝镰刀菌α -阿拉伯呋喃糖酶基因fv51A。
[0630]这些不同基因的表达盒构建和里氏木霉的转化在下文中描述。
[0631]6.2.LA.g-葡糖苷酶表达载体的构建
[0632]天然里氏木霉葡糖苷酶基因bgll的N端部分通过DNA2.0(美国门洛帕克(Menlo Park, USA))进行密码子优化。该合成部分由编码区域的最开始447个碱基构成。该片段使用引物SK943和SK941进行PCR扩增。使用引物SK940和SK942,从提取自里氏木霉菌株RL-P37的基因组DNA样品对天然bgl I基因的剩余区域进行PCR扩增(Sheir_Nei ss,G et al.Appl.Microbiol.Biotechnol.1984,20:46-53 (Sheir-Neiss, G 等人,《应用微生物学和生物技术》,1984年,第20卷,第46-53页)。bgl I基因的这两个PCR片段在融合PCR反应中使用引物SK943和SK942融合在一起:正向引物SK943: (5’-CACCATGAGATATAGAACAGCTGCCGCT-3,) (SEQ ID NO:118)
[0633]反向引物SK941: (5,-CGACCGCCCTGCGGAGTCTTGCCCAGTGGTCCCGCGACAG-3,) (SEQ IDNO:119)
[0634]正向引物(SK940): (5,-CTGTCGCGGGACCACTGGGCAAGACTCCGCAGGG CGGTCG-3,) (SEQID NO:120)
[0635]反向引物(SK942):(5’ -CCTACGCTACCGACAGAGTG-3’ ) (SEQ ID NO:121)
[0636]将所得的融合PCR片段克隆到Gateway?入门载体pentr? / D- τ()ΡΟ?5并转
化进大肠杆菌One Shot9 T0P10化学感受态细胞(英杰公司(Invitrogen)),形成中间载体pENTR-T0P0-Bgll(943 / 942)(图90B)。测定插入的DNA的核苷酸序列。使用由英杰公司(Invitrogen)概括的LR elonase?反应方案,将带有正确bgll序列的pENTR-943 / 942载
体与pTrex3g进行重组。LR clonase反应混合物被转化进大肠杆菌One Shot9 TOPlO化学感受态细胞(英杰公司(Invitrogen)),形成最终的表达载体pTrex3g943 / 942 (图90C)。该载体还包含编码乙酰胺酶的构巢曲霉amdS基因,作为里氏木霉转化的选择标记物。使用引物SK745和SK771通过PCR扩增表达盒,以生成用于里氏木霉转化的产物。
[0637]正向引物SK771: (5,-GTCTAGACTGGAAACGCAAC-3,) (SEQ ID NO:122)反向引物SK745: (5’ -GAGTTGTGAAGTCGGTAATCC-3’ ) (SEQ ID NO:123)
[0638]6.2.2B.内切木聚糖酶表达`盒的构建
[0639]使用引物Xyn3F_2和xyn3R_2,从提取自里氏木霉的基因组DNA样品对天然里氏木霉内切木聚糖酶基因xyn3进行PCR扩增。
[0640]正向引物xyn3F-2: (5,-CACCATGAAAGCAAACGTCATCTTGTGCCTCCTGG-3,) (SEQ IDNO:124)反向引物 xyn3R-2: (5,-CTATTGTAAGATGCCAACAATGCTGTTATATGCCGGCTTGGGG-3’ )(SEQ ID NO:125)
[0641]将所得的PCR片段克隆到Gateway?入门载体pentr? / d-tqpg?,并转化进
大肠杆菌One Shot? TOPlO化学感受态细胞,参见图90D。测定插入的DNA的核苷酸序
列。使用由英杰公司(Invitrogen)概括的LR clonase?反应方案,将带有正确xyn3序列的pENTR / Xyn3载体与pTrex3g进行重组。LR clonase反应混合物被转化进大肠杆菌One Shot? T0P10化学感受态细胞(英杰公司(Invitrogen)),形成最终的表达载体pTrex3g / Xyn3 (图90E)。该载体还包含编码乙酰胺酶的构巢曲霉amdS基因,作为里氏木霉转化的选择标记物。使用引物SK745和SK822通过PCR扩增表达盒,以生成用于里氏木霉转化的产物。
[0642]正向引物SK745: (5,-GAGTTGTGAAGTCGGTAATCC-3,) (SEQ ID NO:126)
[0643]反向引物SK822: (5,-CACGAAGAGCGGCGATTC-3,) (SEQ ID NO:127)
[0644]6.2.3.C.β -木糖苷酶Fv3A表汰载体的构律
[0645]使用引物MHl24和MHl25从轮枝镰刀菌基因组DNA样品扩增轮枝镰刀菌β -木糖苷酶fv3A基因。
[0646]正向引物MH124:(5,-CAC CCA TGC TGC TCA ATC TTC AG-3,) (SEQ ID NO:128)
[0647]反向引物MH125:(5,-TTA CGC AGA CTT GGG GTC TTG AG-3,) (SEQ ID NO:129)
[0648]将PCR片段克隆到Gateway?入门载体pentr? / D- TOPO?,并转化进大
肠杆菌One Shotm T0P10化学感受态细胞(英杰公司(Invitrogen)),形成中间载体pENTR-Fv3A(图90F)。测定插入的DNA的核苷酸序列。使用由英杰公司(Invitrogen)概括的LR donase?.反应方案,将带有正确fv3A序列的pENTR-Fv3A载体与pTrex6g (图79A)
重组。LR clonase反应混合物被转化进大肠杆菌One SkoP TOPlO化学感受态细胞(英杰公司(Invitrogen)),形成最终的表达载体pTrex6g/Fv3A (图90G)。该载体还包含天然里氏木霉乙酰乳酸合酶(als)基因的氯嘧磺隆抗性突变体,该突变体被指定为alsR,与其天然启动子和终止子一起用作里氏木霉转化的选择标记物(W02008 / 039370A1)。使用引物SK1334、SK1335和SK1299,对表达盒进行PCR扩增,以生成用于里氏木霉转化的产物。
[0649]正向引物SK1334: (5,-GCTTGAGTGTATCGTGTAAG-3,) (SEQ ID NO:130)
[0650]正向引物SK1335: (5,-GCAACGGCAAAGCCCCACTTC-3,) (SEQ ID NO:131)
[0651]反向引物SK1299: (5,-GTAGCGGCCGCCTCATCTCATCTCATCCATCC-3,) (SEQ ID NO:132)
[0652]6.2.4.P.β -木糖苷酶Fv43D表汰盒的构律
[0653]对于轮枝镰刀菌β-木糖`苷酶Fv43D表达盒的构建,使用引物SK1322和SK1297从轮枝镰刀菌基因组DNA样品扩增fv43D基因产物。使用引物SK1236和SK1321,通过PCR从提取自菌株RL-P37的里氏木霉基因组DNA样品扩增内切葡聚糖酶基因egll的启动子区域。随后使用引物SK1236和SK1297,在融合PCR反应中使这两个PCR扩增DNA片段融合在一起。将所得融合PCR片段克隆到pCR-Blunt I1-TOPO载体(英杰公司(Invitrogen))中,从而
产生质粒TOPO Blunt / Pegll-Fv43D(图90H),并且使用该质粒转化大肠杆菌One Shot?TOPlO化学感受态细胞(英杰公司(Invitrogen))。从数个大肠杆菌克隆中提取质粒DNA,并通过限制性消化确认。
[0654]正向引物SK1322: (5,-CACCATGCAGCTCAAGTTTCTGTC-3,) (SEQ ID NO:133)
[0655]反向引物SK1297: (5,-GGTTACTAGTCAACTGCCCGTTCTGTAGCGAG-3,) (SEQ ID NO:134)
[0656]正向引物SK1236: (5,-CATGCGATCGCGACGTTTTGGTCAGGTCG-3’ ) (SEQ ID NO:135)
[0657]反向引物SK1321: (5,-GACAGAAACTTGAGCTGCATGGTGTGGGACAACAAGAAGG-3’ ) (SEQID NO:136)
[0658]使用引物SK1236 和 SK1297,从 TOPO Blunt / Pegll_Fv43D 对表达盒进行 PCR 扩增,以生成用于里氏木霉转化的产物。
[0659]6.2.5.E.α -阿拉伯呋喃糖酶表达盒的构建
[0660]对于轮枝镰刀菌α -阿拉伯呋喃糖酶基因fv51A表达盒的构建,使用引物SK1159和SK1289从轮枝镰刀菌基因组DNA样品扩增fv51A基因产物。使用引物SK1236和SK1262,通过PCR从提取自菌株RL-P37的里氏木霉基因组DNA样品扩增内切葡聚糖酶基因egll的启动子区域。随后使用引物SK1236和SK1289,在融合PCR反应中使这两个PCR扩增DNA片段融合在一起。将所得融合PCR片段克隆到pCR-Blunt I1-TOPO载体(英杰公司(Invitrogen))中,从而产生质粒TOPO Blunt / Pegll_Fv51A(图901),并且使用该质粒转
化大肠杆菌OneTOPlO化学感受态细胞(英杰公司(Invitrogen))。
[0661]正向引物SKl 159: (5,-CACCATGGTTCGCTTCAGTTCAATCCTAG-3,) (SEQ ID NO:137)
[0662]反向引物SK1289: (5,-GTGGCTAGAAGATATCCAACAC-3,) (SEQ ID NO:138)
[0663]正向引物SK1236: (5,-CATGCGATCGCGACGTTTTGGTCAGGTCG-3,) (SEQ ID NO:139)
[0664]反向引物SK1262: (5,-GAACTGAAGCGAACCATGGTGTGGGACAACAAGAA GGAC-3’ ) (SEQID NO:140)
[0665]使用引物SK1298和SK1289,对表达盒进行PCR扩增,以生成用于里氏木霉转化的产物。
[0666]正向引物SK1298: (5,-GTAGTTATGCGCATGCTAGAC-3,) (SEQ ID NO:141)
[0667]反向引物SK1289: (5,-GTGGCTAGAAGATATCCAACAC-3,) (SEQ ID NO:142)
[0668]6.2.6.F.g -葡糖苷酶和内切木聚糖酶的里氏木霉表达盒的其转化
[0669]衍生自RL-P3 7 (Sheir-Neiss, G et al.Appl.Microbiol.Biotechnol.1984, 20:46-53 (Sheir-Neiss,G等人,《应用微生物学和生物技术》,1984年,第20卷,第46-53页))且为高纤维素酶产量而选的里氏木霉突变株使用β-葡糖苷酶表达盒(cbhl启动子、里氏木霉β -葡糖苷酶I基因、cbhl终止子和amdS标记)和内切木聚糖酶表达盒(cbhl启动子、里氏木霉xyn3和cbhl终止子)共转化,所述共转化采用PEG介导的转化(Penttila,M et al.Genel987,61(2): 155-64 (Penttila,M 等人,《基因》,1987 年,第 61 卷,第 2 期,第155-164页))。分离出许多转化体并对它们的β -葡糖苷酶和内切木聚糖酶生产进行检测。称为里氏木霉菌株#229的转化体用于通过其他表达盒进行转化。
[0670]6.2.7.G.使用两个β -木糖苷酶和一个α -阿拉伯呋喃糖酶的表达盒进行里氏木霉菌株#229的共转化
[0671]里氏木霉菌株#229使用β-木糖苷酶fv3A表达盒(cbhl启动子、fv3A基因、cbhl终止子和alsR标记)、β -木糖苷酶fv43D表达盒(egll启动子、fv43D基因、天然fv43D终止子)和fv51Aa-阿拉伯呋喃糖酶表达盒(egll启动子、fv51A基因、fv51A天然终止子)通过电穿孔(参见,如W008153712)进行共转化。在含有氯嘧磺隆(80ppm)的Vogels琼脂板上挑选转化体。每升Vogels琼脂按以下步骤制备。
[0672]50 X Vogel浪者备溶液(配方见下)2OmL
[0673]BBL 琼脂20g
[0674]使用去离子H2O定容至980mL
[0675]灭菌处理后添加:
[0676]50% 葡萄糖 20mL
[0677]50X Vogels储备溶液,每升:
[0678]在750mL去离子H20中相继溶解:
[0679]
【权利要求】
1.一种经工程改造的酶组合物,包含: a)具有木聚糖酶活性的多肽;以及 b)具有木糖苷酶活性的多肽,其选自第I组或第2组β-木糖苷酶;以及 c)具有L-α -阿拉伯呋喃糖酶活性的多肽;以及 d)具有β_葡糖苷酶活性的多肽或富含所述具有β_葡糖苷酶活性的多肽的全纤维素酶, 其中所述酶组合物能够水解木质纤维素生物质材料。
2.—种经工程改造的酶组合物,包含: a)具有木糖苷酶活性的多肽,其选自第I组木糖苷酶;以及 b)具有木糖苷酶活性的多肽,其选自第2组β-木糖苷酶;以及 c)具有L-α -阿拉伯呋喃糖酶活性的多肽;以及 d)具有β_葡糖苷酶活性的多肽或富含所述具有β_葡糖苷酶活性的多肽的全纤维素酶, 其中所述酶组合物能够水解木质纤维素生物质材料。
3.一种经工程改造的酶组合物,包含: a)具有木聚糖酶活性的多肽;以及 b)具有木糖苷酶活性的多肽,其选自第I组木糖苷酶;以及 c)具有木糖苷酶活性的多肽,其选自第2组木糖苷酶;以及 d)具有β_葡糖苷酶活性的多肽或富含所述具有β_葡糖苷酶活性的多肽的全纤维素酶, 其中所述酶组合物能够水解木质纤维素生物质材料。
4.一种经工程改造的酶组合物,包含: a)具有木聚糖酶活性的多肽;以及 b)具有木糖苷酶活性的多肽,其选自第I组或第2组β-木糖苷酶;以及 c)具有β_葡糖苷酶活性的多肽或富含所述具有β_葡糖苷酶活性的多肽的全纤维素酶, 其中所述酶组合物能够水解木质纤维素生物质材料。
5.根据权利要求1-4中任一项所述的酶组合物,还包含具有GH61/内切葡聚糖酶活性的多肽或富含所述具有GH61 /内切葡聚糖酶活性的多肽的全纤维素酶。
6.一种经工程改造的酶组合物,包含: a)具有木聚糖酶活性的多肽;以及 b)具有木糖苷酶活性的多肽,其选自第I组或第2组β-木糖苷酶;以及 c)具有L-α -阿拉伯呋喃糖酶活性的多肽;以及 d)具有GH61/内切葡聚糖酶活性的多肽或富含所述具有GH61 /内切葡聚糖酶活性的多肽的全纤维素酶, 其中所述酶组合物能够水解木质纤维素生物质材料。
7.一种经工程改造的酶组合物,包含: a)具有木糖苷酶活性的多肽,其选自第I组木糖苷酶;以及 b)具有木糖苷酶活性的多肽,其选自第2组β-木糖苷酶;以及c)具有L-α -阿拉伯呋喃糖酶活性的多肽;以及 d)具有GH61/内切葡聚糖酶活性的多肽或富含所述具有GH61 /内切葡聚糖酶活性的多肽的全纤维素酶, 其中所述酶组合物能够水解木质纤维素生物质材料。
8.一种经工程改造的酶组合物,包含: a)具有木聚糖酶活性的多肽;以及 b)具有木糖苷酶活性的多肽,其选自第I组木糖苷酶;以及 c)具有木糖苷酶活性的多肽,其选自第2组β-木糖苷酶;以及 d)具有GH61/内切葡聚糖酶活性的多肽或富含所述具有GH61 /内切葡聚糖酶活性的多肽的全纤维素酶, 其中所述酶组合物能够水解木质纤维素生物质材料。
9.一种经工程改造的酶组合物,包含: a)具有木聚糖酶活性的多肽;以及 b)具有木糖苷酶活性的多肽,其选自第I组或第2组β-木糖苷酶;以及 c)具有GH61/内切葡聚糖酶活性的多肽或富含所述具有GH61 /内切葡聚糖酶活性的多肽的全纤维素酶, 其中所述酶组合物能够水解木质纤维素生物质材料。
10.根据权利要求1-9中任一项所述的经工程改造的酶组合物,其中所述具有木聚糖酶活性的多肽:选自包含与SEQ ID NO:24、26、42或43,或与其成熟序列具有至少70%同一性的氨基酸序列的多肽;或由与SEQ ID NO :23、25或41具有至少70%同一性的核苷酸编码,或由能在高严格条件下与SEQ ID NO :23、25或41,或与其互补序列杂交的核苷酸编码。
11.根据权利要求ι-?ο中任一项所述的经工程改造的酶组合物,其中: a)所述具有第I组β-木糖苷酶活性的多肽包含与SEQ ID NO :2或10或与其成熟序列具有至少70%同一性的氨基酸序列,并且所述具有第2组β -木糖苷酶活性的多肽包含与SEQ ID Ν0:4、6、8、10、12、14、16、18、28、30或45或与其成熟序列具有至少70%同一性的氨基酸序列;或者 b)所述具有第I组β-木糖苷酶活性的多肽由核苷酸编码,包含与SEQ ID NO :2或10或与其成熟序列具有至少70%同一性的氨基酸序列,并且所述具有第2组β -木糖苷酶活性的多肽包含与SEQ ID NO :4、6、8、10、12、14、16、18、28、30或45或与其成熟序列具有至少70%同一性的氨基酸序列;或者 c)所述具有第I组β-木糖苷酶活性的多肽由与SEQ ID NO :1或9具有至少70%同一性的核苷酸编码;以及所述具有第2组β -木糖苷酶活性的多肽由与SEQ ID NO :3、5、7、9、11、13、15、17、27或29具有至少70%同一性的核苷酸编码;或者 d)所述具有第I组β-木糖苷酶活性的多肽能在高严格条件下与SEQ ID NO :1或9,或与其互补序列杂交;以及所述具有第2组β -木糖苷酶活性的多肽能在高严格条件下与SEQ ID NO :3、5、7、9、11、13、15、17、27 或 29,或与其互补序列杂交。
12.根据权利要求1-11中任一项所述的经工程改造的酶组合物,其中所述具有L-α -阿拉伯呋喃糖酶活性的多肽为: a)包含与SEQ ID NO :12、14、20、22或32或与其成熟序列具有至少70%同一性的氨基酸序列的多肽;或者 b)由与SEQ ID NO :11、13、19、21或31具有至少70%同一性的核苷酸,或能在高严格条件下与SEQ ID NO :11、13、19、21或31杂交的核苷酸编码的多肽。
13.根据权利要求1-12中任一项所述的经工程改造的酶组合物,其中所述具有β-葡糖苷酶活性的多肽为: a)包含与SEQ ID NO :54、56、58、60、62、64、66、68、70、72、74、76、78、79、93 和 95 具有至少约60%同一性的氨基酸序列的多肽;或者 b)包含2个或更多个β-葡糖苷酶序列的杂合多肽,其中衍生自第一β-葡糖苷酶的所述第一序列为至少200个氨基酸残基长,并且包含SEQ ID NO :96-108的一者或多者或全部,而衍生自第二 β -葡糖苷酶的所述第二序列为至少50个氨基酸残基长,并且包含SEQID NO =109-116的一者或多者或全部,以及任选的衍生自第三β _葡糖苷酶的第三序列为3、4、5、6、7、8、9、10或11个氨基酸残基长,编码包含SEQ ID NO :204或205的环序列;或者 c)由与SEQ ID NO :53、55、57、59、61、63、65、67、69、71、73、75、77、92 或 94 具有至少约60%的同一性的核苷酸编码的多肽,或能在高严格条件下与SEQ ID NO :53、55、57、59、61、63、65、67、69、71、73、75、77、92或94或与其互补序列杂交的核苷酸编码的多肽。
14.根据权利要求1-13中任一项所述的经工程改造的酶组合物,其中所述具有GH61/内切葡聚糖酶活性的多肽为: a)包含在至少100个残基的区域上,与SEQID NO :52、80-81、206_207的任一者具有至少70%序列同一性的氨基酸序列的多肽;或者 b)至少200个残基长、具有GH61/内切葡聚糖酶活性并且包含选自以下的一个或多个序列的多肽:(I)SEQ ID NO :84 和 88 ; (2) SEQ ID NO :85 和 88 ; (3) SEQ ID NO :86 ; (4) SEQID NO :87 ; (5) SEQ ID NO :84、88 和 89 ; (6) SEQ ID NO :85、88 和 89 ; (7) SEQ ID NO :84、88和 90; (8) SEQ ID NO :85、88 和 90 ;(9)SEQ ID NO :84、88 和 91 ; (10) SEQ ID NO :85、88 和91 ; (Il)SEQ ID NO :84、88、89 和 91 ; (12)SEQ ID NO :84、88、90 和 91 ; (13)SEQ ID NO :85、88、89 和 91 :以及(14) SEQ ID NO :85、88、90 和 91 ;或者 c)由与SEQID NO :51具有至少70%序列同一性的核苷酸编码的多肽,或能在高严格条件下与SEQ ID NO :51或与其互补序列杂交的核苷酸编码的多肽。
15.根据权利要求1-14中任一项所述的经工程改造的酶组合物,其中所述具有β-葡糖苷酶活性的多肽是包含2个或多个β -葡糖苷酶序列的杂合多肽,其中衍生自第一β -葡糖苷酶的所述第一序列为至少200个氨基酸残基长,并且包含SEQ ID NO =197-202的一者或多者或全部,而衍生自第二 β -葡糖苷酶的所述第二序列为至少50个氨基酸残基长,并且包含SEQ ID NO :203,以及任选的第三多肽序列为3_11个氨基酸残基长,包含SEQID NO :204 或 SEQ ID NO :205。
16.根据权利要求1-15中任一项所述的经工程改造的酶组合物,其为培养混合物、表达一个或多个所述多肽的宿主细胞的发酵液,或所述发酵液的全发酵液制剂。
17.根据权利要求16所述的经工程改造的酶组合物,其中所述宿主细胞为细菌或真菌中的一者。
18.根据权利要求17所述的经工程改造的酶组合物,其中所述细菌为芽孢杆菌属或大肠杆菌。
19.根据权利要求17所述的经工程改造的酶组合物,其中所述真菌为酵母、曲霉菌、金抱霉或木霉属。
20.根据权利要求1-19中任一项所述的经工程改造的酶组合物,还包含具有纤维二糖水解酶活性的多肽和/或具有内切葡聚糖酶活性的多肽。
21.根据权利要求1-19中任一项所述的经工程改造的酶组合物,还包含全纤维素酶。
22.根据权利要求1-21中任一项所述的经工程改造的酶组合物,其中相对于所述酶组合物中蛋白质总量,木聚糖酶的量为约10重量%至约20重量%。
23.根据权利要求1-21中任一项所述的经工程改造的酶组合物,其中相对于所述酶组合物中蛋白质总量,β_木糖苷酶的量为约5重量%至约20重量%。
24.根据权利要求1-23中任一项所述的经工程改造的酶组合物,其中相对于所述酶组合物中蛋白质总量,β_葡萄糖苷酶的量为约18重量%至约30重量%。
25.根据权利要求1-24中任一项所述的经工程改造的酶组合物,其中相对于所述酶组合物中蛋白质总量,L-a-阿拉伯呋喃糖酶的量为约O. 2重量%至约2重量%。
26.根据权利要求1-25中任一项所述的经工程改造的酶组合物,其中相对于所述酶组合物中蛋白质总量,具有GH61 /内切葡聚糖酶活性的多肽的量为约6重量%至约20重量%。
27.根据权利要求1-26中任一项所述的经工程改造的酶组合物,其中相对于所述酶组合物中蛋白质总量,具有纤维二糖水解酶活性的多肽的量为约15重量%至约25重量%。
28.根据权利要求2-5、7-8和10-27中任一项所述的经工程改造的酶组合物,其中第I组β-木糖苷酶的重量与第2组β-木糖苷酶的重量的比率为I : 10至10 : I、1:9至9:1、1 :8 至 8 :1、1 :7 至 7 :1、1 :6 至 6 :1、1 :5 至 5 : I、I :4 至 4 :1、I :3 至 3 : 1、1:2 至 2:I、或 I :1。
29.根据权利要求1-28中任一项所述的经工程改造的酶组合物,其中所述多肽中的至少1、2或3个与经工程改造以表达所述多肽的所述宿主细胞异源。
30.根据权利要求1-28中任一项所述的经工程改造的酶组合物,其中所述多肽的至少2个衍生自不同的微生物。
31.根据权利要求30所述的经工程改造的酶组合物,其中所述多肽的至少一个来自镰刀菌属或木霉属。
32.—种水解或消化包含半纤维素、纤维素或半纤维素和纤维素的木质纤维素生物质材料的方法,包括将根据权利要求1-31中任一项所述的酶组合物与所述木质纤维素生物质混合物接触。
33.根据权利要求32所述的方法,其中所述木质纤维素生物质混合物包括农作物、食品/饲料生产的副产品、木质纤维素废品、植物残留物或废纸。
34.根据权利要求33所述的方法,其中所述植物残留物选自谷物、种子、茎干、叶子、外壳、外皮、玉米芯、玉米秸杆、土豆、大豆、大麦、黑麦、燕麦、小麦、甜菜、甘蔗渣、高粱、稻草、草、藤条、芦苇、木材、木屑、木浆或锯屑。
35.根据权利要求33所述的方法,其中所述草选自印度草或柳枝稷草。
36.根据权利要求32所述的方法,其中对所述木质纤维素生物质混合物中的所述生物质材料进行预处理。
37.根据权利要求32-36中任一项所述的方法,其中所述木质纤维素生物质混合物还包含可发酵糖。
38.根据权利要求36所述的方法,其中所述预处理是酸或碱预处理。
39.根据权利要求38所述的方法,其中所述碱预处理使用稀氨水。
40.根据权利要求38所述的方法,其中所述酸预处理使用稀酸。
41.一种生产乙醇的方法,包括将木质纤维素生物质材料与根据权利要求1-31中任一项所述的酶组合物接触,以生成一种或多种可发酵糖,之后使用产乙醇微生物将所述可发酵糖发酵成乙醇。
42.根据权利要求41所述的方法,其中在其接触所述酶组合物之前对所述木质纤维素生物质材料进行预处理。
43.根据权利要求41或42所述的方法,其中所述产乙醇微生物为酵母或运动发酵单胞菌。
44.根据权利要求32-43中任一项所述的方法,其中所述酶组合物包含所述生物质材料中每千克半纤维素约2g至约20g具有木聚糖酶活性的多肽。
45.根据权利要求32-44中任一项所述的方法,其中所述酶组合物包含所述生物质材料中每千克半纤维素约2g至约40g具有β -木糖苷酶活性的多肽。
46.根据权利要求32-45中任一项所述的方法,其中所述酶组合物包含所述生物质材料中每千克纤维素约3g至约50g具有纤维素酶活性的多肽。
47.根据权利要求46所述的方法,其中具有β_葡糖苷酶活性的多肽的量最多占具有纤维素酶活性的多肽的总重量的约50%。
48.根据权利要求32-47中任一项所述的方法,其中所述酶组合物使用的量和条件以及持续时间足以将所述生物质材料中60%至90%的所述木聚糖转化为木糖。
49.一种在工业或商业环境中使用根据权利要求1-31中任一项所述的酶组合物的方法,其遵循商业酶供应模式策略或现场生物精炼模式策略。
【文档编号】D21C5/00GK103502444SQ201280013821
【公开日】2014年1月8日 申请日期:2012年3月16日 优先权日:2011年3月17日
【发明者】C·米奇森, S·基姆, M·K·福达拉, M·席, K·D·温, W·D·希茨 申请人:丹尼斯科美国公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1