专利名称:纤维素酶、编码它们的核酸及其制备和应用的方法
技术领域:
本发明涉及分子和细胞生物学和生物化学。一方面,本发明提供具有纤维素酶活性一例如,内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性一的多肽、编码这些多肽的多核苷酸,以及制备和使用这些多核苷酸和多肽的方法。一方面,本 发明涉及具有纤维素酶活性例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性——包括热稳定的和耐热的活性——的多肽,和编码这些酶的多核苷酸,以及制备和使用这些多核苷酸和多肽。本发明的多肽可用于各种制药、农业和工业环境中。
背景技术:
纤维素是地球上最丰富的可再生资源。它由重复单元是纤维二糖的β _1,4葡萄糖单元的线性链组成,纤维二糖是具有如图5所示结构的葡萄糖二聚体。该高分子通过一组酶进行降解,包括随机水解纤维素高分子的内切葡聚糖酶(EG)以及从纤维素除去末端纤维二糖残基的纤维二糖水解酶(CBH)。纤维二糖和纤维寡糖被β -葡糖苷酶(BG)水解成葡萄糖。所有这三种酶对于纤维素完全分解成葡萄糖是必需的。对于这三种酶的每一种,存在行使相同功能的不同结构的变体。此外,除了不同结构变体外,已知真菌和细菌还产生多种形式的相同结构变体。已知一些厌氧细菌和真菌以多酶复合物的形式产生这些酶,这一事实进一步使该系统复杂化,所述多酶复合物含有都附着于酶支架上的多种酶,分子量在2百万道尔顿以上。为什么这样的酶复合系统对于这样的简单分子是必需的? 一些研究者认为该复杂性原因在于底物的顽拗性质。纤维素链形成微纤维,其通过相邻链的氢键键合堆积成晶体基质。该结构对于化学降解或酶促降解是高度耐受的。由于它们对纤维素的酶促攻击性质,CBH被认为是该晶体纤维素降解中的关键酶。与CBH不同,EG具有开放的裂缝,其以垂直角度攻击纤维素链。CBH通过含有活性位点的坑道直接攻击所述链。目前认为,纤维素链进入所述坑道,同时,相邻的氢键键合被破坏。一旦纤维二糖水解酶在该底物上建立起“立足点”,然后,EG可以进来,并更容易攻击底物。已知的CBH的一个主要缺陷是其低的催化活性。一些观点认为,低活性是源于如下事实来自水解的能量被转化成动能,以破坏氢键并使酶能够沿着底物移动。CBH是外切作用酶并在90个糖基水解酶家族中的6个家族中发现。它们包括家族5、6、7、9、10和48。家族5含有许多不同类型的糖基水解酶,包括纤维素酶、甘露聚糖酶和木聚糖酶。尽管在该家族中大部分纤维素酶是内切葡聚糖酶,仍存在纤维二糖水解酶的例子,最为人知的是来自热纤梭菌(Clostridium thermocellum)的CelO。家族6仅含有内切葡聚糖酶或纤维二糖水解酶,其中纤维二糖水解酶成员比内切葡聚糖酶更多。该酶具有反向机制(invertingmechanism),并且晶体学研究表明,所述酶具有扭曲的α/β桶结构,其含有七个而非八个平行的β链。家族7酶也由内切葡聚糖酶和纤维二糖水解酶组成,其中纤维二糖水解酶更多,并且已知的成员仅来自真菌。该酶具有保持机构(retaining mechanism),并且晶体结构示出了胶冻卷结构。家族9含有内切葡聚糖酶、纤维二糖水解酶和β-葡糖苷酶,其中内切葡聚糖酶占优势。然而,嗜热放线菌(Thermobifida fusca)产生内切/外切_1,4_葡聚糖酶,其晶体结构显示出(0/^)6桶状折叠。该酶具有内切和外切葡聚糖酶CBH的特征。家族10仅含有2个成员,被描述为纤维二糖水解酶,其余主要被描述为木聚糖酶。家族10的纤维二糖水解酶和木聚糖酶具有对甲基-伞形基纤维二糖苷的活性。家族48主要含有细菌和厌氧真菌纤维二糖水解酶和内切葡聚糖酶。结构是类似于家族9的(α/α)6桶状折叠。存在对用于公路车辆的较不昂贵和可再生的燃料来源的需求。如果新的燃料来源·在燃烧之后产生无害的终产物,则它们将更加有吸引力。乙醇提供了石油基燃料的有吸引力的可替代选择,并且可以通过衍生自淀粉或木质纤维素的单体糖发酵获得。然而,目前的经济学不支持乙醇的广泛使用,原因在于生产乙醇的高成本。一个目标在于降低成本的研究领域是增加用于从木质纤维素产生可发酵糖类的酶的技术效率。更有效地消化原料的酶的开发将转变成降低的乙醇生产成本。更有效的工艺将降低美国对进口油的依赖以及与该依赖性相关的价格波动。使用更清洁的运输燃料例如生物乙醇还可以降低净CO2排放,其被认为是造成全球变暖的部分原因。
发明概述本发明提供了纤维素酶,例如,内切葡聚糖酶、纤维二糖水解酶和/或β -葡糖苷酶(多种β_葡糖苷酶),以及制备和使用它们的方法。一方面,本发明的酶具有增加的催化速率,以改善底物水解过程。在催化速率上这种增加的效率导致在生产糖类上增加的效率,这可用于工业应用中,例如,如此产生的糖可被微生物用于乙醇生产。一方面,本发明提供了高活性(例如,具有增加的催化速率)的纤维二糖水解酶、内切葡聚糖酶和β -葡糖苷酶。本发明提供了工业应用(例如,生物物质(biomass)转化为乙醇),其利用了本发明的具有降低的酶成本的酶,例如,在生物物质转化为乙醇的过程中降低的成本。因此,本发明提供了由任何生物质生产生物乙醇和含生物乙醇的组合物的有效率的工艺,所述含生物乙醇的组合物包括含有生物乙醇的燃料。一方面,本发明的酶具有葡聚糖酶例如内切葡聚糖酶活性,例如催化内部内-β-1,4-和/或β-1,3-葡聚糖键的水解。一方面,内切葡聚糖酶活性(例如,内切1,4-β -D-葡聚糖4-葡聚糖水解酶活性)包括水解纤维素、纤维素衍生物(例如羧甲基纤维素和羟乙基纤维素)地衣聚糖(Iichenin)中的1,4_和/或β _1,3-β-D-糖苷键、混合的β-1,3葡聚糖中的β-1,4键,例如谷类β-D-葡聚糖或木葡聚糖以及含有纤维质部分的其它植物材料。一方面,本发明的酶具有内切葡聚糖酶(例如,内切_β -1,4-葡聚糖酶,EC3.2.1.4;内切-β_1,3(1)-葡聚糖酶,EC 3. 2. 1.6;内切-β _1,3-葡聚糖酶,EC3. 2. I. 39)活性并且可以水解纤维素和葡聚糖中的内部0-1,4-和/或0-1,3-糖苷键,以产生较小分子量的葡萄糖和葡萄糖寡聚体。本发明提供了使用本发明的这些酶产生更小分子量的葡萄糖和葡萄糖寡聚体的方法。一方面,本发明的酶用于产生葡聚糖,例如,由1,4-β-和/或1,3-糖苷键接的D-吡喃葡糖形成的多糖。一方面,本发明的内切葡聚糖酶被用在食品工业中如烘焙及水果和蔬菜加工、农业废物的分解、动物饲料的生产、纸浆和纸的生产、纺织物生产以及家用和工业清洁剂。一方面,通过微生物如真菌和/或细菌,生产本发明的酶,例如内切葡聚糖酶。一方面,本发明的酶如内切葡聚糖酶被用于水解葡聚糖,葡聚糖是谷物主要的非淀粉多糖。根据品种和生长条件,多糖的葡聚糖含量可显著变化。该多糖的物理化学性质是在氧化条件下产生粘性溶液或者甚至是凝胶。此外,葡聚糖具有高的水结合能力。所有这些特征给几个行业带来了问题,包括酿造、烘焙、动物营养。在酿造应用中,葡聚糖的存在导致麦芽汁过滤性和形成浑浊的问题。在烘焙应用中(尤其对于曲奇和脆饼),葡聚糖可产生发粘面团,其难以进行机械加工和减小饼干尺寸。因此,本发明的酶如内切葡聚糖酶被用于降低含β_葡聚糖的组合物中β_葡聚糖的量,例如,本发明的酶被用在降低溶液或 凝胶的粘度的工艺中;用于降低组合物例如含β_葡聚糖的组合物的水结合能力;在酿造工艺中(例如,用于增加麦芽汁过滤性和降低混浊),用于降低面团的粘性,例如,用于制作曲奇、面包、饼干等等的面团。此外,碳水化合物(例如,β -葡聚糖)参与烘焙产品的快速再水化,导致松脆性损失和缩短的货架期。因此,本发明的酶,例如内切葡聚糖酶,被用于保持松脆性、增加松脆性或降低松脆性的损失速率,以及增加任何含碳水化合物食品、饲料或饮料的货架期,例如含β -葡聚糖的食品、饲料或饮料。本发明的酶,例如内切葡聚糖酶,被用于降低消化道内容物(例如,在动物中,如反刍动物或人中)的粘性,例如,含有谷物膳食的那些。因此,在可选的方面,本发明的酶,例如内切葡聚糖酶,被用于正面影响食品或饲料的可消化性以及动物(例如,人或家畜)生长速率,以及在一方面,被用于产生更高的饲料转化效率。对于谷物食物的单胃动物饲料应用,β -葡聚糖是消化道内容物的粘性的促成因素,并且从而负面影响饲料的可消化性和动物生长速率。对于反刍动物,这些β_葡聚糖代表纤维摄入的基本成分,而葡聚糖的更完全的消化将促进更高的饲料转化效率。因此,本发明提供了含有本发明的内切葡聚糖酶的动物饲料和食品,并且在一方面,这些酶在动物消化道中是有活性的,例如在胃和/或肠中是有活性的。本发明的酶,例如内切葡聚糖酶,被用于消化纤维素或任何含β-1,4_连接葡聚糖的合成或天然的材料,包括在任何植物材料中发现的那些。本发明的酶,例如内切葡聚糖酶,被用作例如在木材加工、纸浆和/或纸工业中、在纺织品制造中以及在家用和工业清洁剂中和/或在生物物质废物处理中消化纤维素的商业酶。一方面,本发明提供了含有本发明的酶、多肽或多核苷酸的组合物(例如,药物组合物、食物、饲料、药物、饮食补充物)。这些组合物可以以各种形式加以配制,例如片剂、凝胶、丸剂、植入物、液体、喷剂、粉末、食物、饲料小丸或任何类型的胶囊化形式。本发明提供了分离的或重组的核酸,包括在至少大约10、15、20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、I100、I150、1200、1250、1300、1350、1400、1450、1500、1550、1600、1650、1700、1750、1800、1850、1900、1950、2000、2050、2100、2200、2250、2300、2350、2400、2450、2500或更多残基的区域内,与本发明的示例性核酸具有至少大约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性的核酸序列,本发明的示例性核酸包括SEQ ID NO: I, SEQ ID NO: 3, SEQ ID NO: 5, SEQ ID NO: 7, SEQ ID NO: 9, SEQID NO:11,SEQ ID NO:13,SEQ ID NO:15,SEQ ID NO:17,SEQ ID NO:19,SEQ ID NO:21,SEQID NO:23,SEQ ID NO:25,SEQ ID NO:27,SEQ ID NO:29,SEQ ID NO:31,SEQ ID NO:33,SEQID NO:35,SEQ ID NO:37,SEQ ID NO:39,SEQ ID NO:41,SEQ ID NO:43,SEQ ID NO:45,SEQID NO:47,SEQ ID NO:49,SEQ ID NO:51, SEQ ID NO:53, SEQ ID NO:55, SEQ ID NO:57, SEQID NO:59,SEQ ID NO:61,SEQ ID NO:63,SEQ ID NO:65, SEQ ID NO:67, SEQ ID NO:69, SEQID NO:71,SEQ ID NO:73,SEQ ID NO:75,SEQ ID NO:77,SEQ ID NO:79,SEQ ID NO:81,SEQID NO:83,SEQ ID NO:85,SEQ ID NO:87,SEQ ID NO:89,SEQ ID NO:91,SEQ ID NO:93,SEQID NO:95,SEQ ID NO:97,SEQ ID NO:99,SEQ ID NO:101,SEQ ID NO:103,SEQ ID NO:105,SEQ ID NO: 107,SEQ ID NO: 109,SEQ ID NO: 111,SEQ ID NO: 113,SEQ ID NO: 115,SEQ ID·NO:117,SEQ ID NO:119,SEQ ID NO:121,SEQ ID NO:123,SEQ ID NO:125,SEQ ID NO:127,SEQ ID NO: 129,SEQ ID NO: 131,SEQ ID NO: 133,SEQ ID NO: 135,SEQ ID NO: 137,SEQ IDNO:139,SEQ ID NO:141,SEQ ID NO:143,SEQ ID NO:145,SEQ ID NO:147,SEQ ID NO:149,SEQ ID NO: 151,SEQ ID NO: 153,SEQ ID NO: 155,SEQ ID NO: 157,SEQ ID NO: 159,SEQ IDNO: 161,SEQ ID NO: 163和SEQ ID NO: 165 ;也参见下面的表1、2和3、实施例I和4,以及序列表;以及在可选的方面,这些核酸编码至少一个具有纤维素酶活性例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽,或者编码能够产生可特异性结合本发明多肽的抗体的多肽,或者,这些核酸可用作鉴别或分离编码纤维素酶的核酸的探针,或用于抑制表达纤维素酶的核酸的表达(所有这些方面都称为“本发明的核酸”)。一方面,所述序列同一性通过运用了序列比较算法的分析或通过视觉观察来确定。本发明的核酸也包括,编码本发明的示例性酶的分离的或重组的核酸,本发明的示例性酶包括具有如下所示序列的多肽SEQ ID NO:2, SEQ ID NO:4, SEQ ID NO:6, SEQ IDNO:8, SEQ ID NO: 10,SEQ ID NO: 12,SEQ ID NO: 14,SEQ ID NO: 16,SEQ ID NO: 18,SEQ IDNO:20,SEQ ID NO:22,SEQ ID NO:24,SEQ ID NO:26,SEQ ID NO:28,SEQ ID NO:30,SEQ IDNO:32,SEQ ID NO:34,SEQ ID NO:36,SEQ ID NO:38,SEQ ID NO:40,SEQ ID NO:42,SEQ IDNO:44,SEQ ID NO:46,SEQ ID NO:48,SEQ ID NO:50,SEQ ID NO:52,SEQ ID NO:54,SEQ IDNO:56,SEQ ID NO:58,SEQ ID NO:60,SEQ ID NO:62,SEQ ID NO:64,SEQ ID NO:66,SEQ IDNO:68,SEQ ID NO:70,SEQ ID NO:72,SEQ ID NO:74,SEQ ID NO:76,SEQ ID NO:78,SEQ IDNO:80,SEQ ID NO:82,SEQ ID NO:84,SEQ ID NO:86,SEQ ID NO:88,SEQ ID NO:90,SEQID NO:92,SEQ ID NO:94,SEQ ID NO:96,SEQ ID NO:98,SEQ ID NO: 100,SEQ ID NO: 102,SEQ ID NO: 104,SEQ ID NO: 106,SEQ ID NO: 108,SEQ ID NO: 110,SEQ ID NO: 112,SEQ IDNO:114,SEQ ID NO:116,SEQ ID NO:118,SEQ ID NO:120,SEQ ID NO:122,SEQ ID NO:124,SEQ ID NO: 126,SEQ ID NO: 128,SEQ ID NO: 130,SEQ ID NO: 132,SEQ ID NO: 134,SEQ IDNO:136,SEQ ID NO:138,SEQ ID NO:140,SEQ ID NO:142,SEQ ID NO:144,SEQ ID NO:146,SEQ ID NO: 148,SEQ ID NO: 150,SEQ ID NO: 152,SEQ ID NO: 154,SEQ ID NO: 156,SEQ IDNO: 158,SEQ ID NO: 160, SEQ ID NO: 162,SEQ ID NO: 164 和 SEQ ID NO: 166,也参见下面的表1、2和3、实施例I和4,和序列表,及其子序列和其变体。一方面,该多肽具有纤维素酶活性,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性。一方面,本发明提供了编码纤维素酶的核酸,例如编码内切葡聚糖酶、纤维二糖水解酶和/或葡糖苷酶的核酸,其共同的新颖性在于它们来源于混合培养物。本发明提供了从混合培养物分离的编码纤维素降解酶的核酸,其包括本发明的多核苷酸,例如在至少大约 50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150或更多残基的区域内,与本发明的示例性核酸具有至少大约 10%、15%、20%、25%、30%、35%、40%、45%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性的序列,本发明的示例性核酸例如SEQID NO: I, SEQ ID N0:3, SEQ ID N0:5, SEQ ID N0:7, SEQ ID N0:9, SEQ ID NO: 11, SEQ ID·NO:13,SEQ ID NO:15,SEQ ID NO:17,SEQ ID NO:19,SEQ ID NO:21,SEQ ID NO:23,SEQ IDNO:25,SEQ ID NO:27,SEQ ID NO:29,SEQ ID NO:31,SEQ ID NO:33,SEQ ID NO:35,SEQ IDNO:37,SEQ ID NO:39,SEQ ID NO:41,SEQ ID NO:43,SEQ ID NO:45,SEQ ID NO:47,SEQ IDNO:49,SEQ ID NO:51,SEQ ID NO:53,SEQ ID NO:55,SEQ ID NO:57,SEQ ID NO:59, SEQ IDN0:61,SEQ ID NO:63,SEQ ID NO:65,SEQ ID NO:67, SEQ ID NO:69, SEQ ID NO:71, SEQ IDNO:73,SEQ ID NO:75,SEQ ID NO:77,SEQ ID NO:79,SEQ ID N0:81,SEQ ID NO:83,SEQ IDNO:85,SEQ ID NO:87,SEQ ID NO:89,SEQ ID N0:91,SEQ ID NO:93,SEQ ID NO:95,SEQ IDN0:97, SEQ ID N0:99, SEQ ID NO: 101, SEQ ID NO: 103, SEQ ID NO: 105, SEQ ID NO: 107,SEQ ID NO: 109,SEQ ID NO: 111,SEQ ID NO: 113,SEQ ID NO: 115,SEQ ID NO: 117,SEQ IDNO:119,SEQ ID NO:121,SEQ ID NO:123,SEQ ID NO:125,SEQ ID NO:127,SEQ ID NO:129,SEQ ID NO: 131,SEQ ID NO: 133,SEQ ID NO: 135,SEQ ID NO: 137,SEQ ID NO: 139,SEQ IDNO:141,SEQ ID NO:143,SEQ ID NO:145,SEQ ID NO:147,SEQ ID NO:149,SEQ ID NO:151,SEQ ID NO: 153, SEQ ID NO: 155,SEQ ID NO: 157, SEQ ID NO: 159,SEQ ID NO: 161,SEQ IDNO: 163和SEQ ID NO: 165 ;也参见下面的表1、2和3、实施例I和4,以及序列表。一方面,本发明提供了编码纤维素酶的核酸,例如编码内切葡聚糖酶、纤维二糖水解酶和/或β -葡糖苷酶的核酸,包括本发明的示例性多核苷酸序列,也参见下面的表1、2和3、实施例I和4,和序列表,以及由它们编码的多肽,包括本发明的酶,诸如本发明的示例性多肽,如 SEQ ID NO:2,SEQ ID NO:4,SEQ ID NO:6,SEQ ID NO:8,SEQ ID NO: 10,SEQ IDNO:12,SEQ ID NO:14,SEQ ID NO:16,SEQ ID NO:18,SEQ ID NO:20,SEQ ID NO:22,SEQ IDNO:24,SEQ ID NO:26,SEQ ID NO:28,SEQ ID NO:30,SEQ ID NO:32,SEQ ID NO:34,SEQ IDNO:36,SEQ ID NO:38,SEQ ID NO:40,SEQ ID NO:42,SEQ ID NO:44,SEQ ID NO:46,SEQ IDNO:48,SEQ ID NO:50,SEQ ID NO:52,SEQ ID NO:54,SEQ ID NO:56,SEQ ID NO:58,SEQ IDNO:60,SEQ ID NO:62,SEQ ID NO:64,SEQ ID NO:66,SEQ ID NO:68,SEQ ID NO:70,SEQ IDNO:72,SEQ ID NO:74,SEQ ID NO:76,SEQ ID NO:78,SEQ ID NO:80,SEQ ID NO:82,SEQ IDNO:84,SEQ ID NO:86,SEQ ID NO:88,SEQ ID NO:90,SEQ ID NO:92,SEQ ID NO:94,SEQ IDNO:96, SEQ ID NO:98, SEQ ID NO: 100, SEQ ID NO: 102, SEQ ID NO: 104, SEQ ID NO: 106,SEQ ID NO: 108,SEQ ID NO: 110,SEQ ID NO: 112,SEQ ID NO: 114,SEQ ID NO: 116,SEQ IDNO:118,SEQ ID NO:120,SEQ ID NO:122,SEQ ID NO:124,SEQ ID NO:126,SEQ ID NO:128,SEQ ID NO: 130,SEQ ID NO: 132,SEQ ID NO: 134,SEQ ID NO: 136,SEQ ID NO: 138,SEQ IDNO:140,SEQ ID NO:142,SEQ ID NO:144,SEQ ID NO:146,SEQ ID NO:148,SEQ ID NO:150,SEQ ID NO: 152,SEQ ID NO: 154,SEQ ID NO: 156,SEQ ID NO: 158,SEQ ID NO: 160,SEQ IDNO: 162, SEQ ID N0:164和SEQ ID NO: 166,也参见表I和序列表,其共同的新颖性在于它们来源于共同的来源,例如环境来源。一方面,本发明也提供了编码纤维素酶的核酸,例如编码内切葡聚糖酶、纤维二糖水解酶和/或β_葡糖苷酶的核酸,其共同的新颖性在于它们来源于环境来源,例如混合的环境来源。一方面,序列比较算法是BLAST 2. 2. 2版本算法,其中过滤设置(filteringsetting)被设置为blastall -p blastp - d “nr pataa” -F F,所有其它选项被设置为缺
省。 本发明的另一方面是分离的或重组的核酸,包括本发明的核酸序列的至少10、15、
20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、I100、I150、1200、1250、1300、1350、1400、1450、1500、1550、1600、1650、1700、1750、1800、1850、1900、1950、2000、2050、2100、2200、2250、2300、2350、2400、2450、2500或更多个连续碱基、与其基本相同的序列、以及与其互补的序列。一方面,所述分离的或重组的核酸编码具有纤维素酶活性的多肽,例如,具有内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽,其是热稳定的。该多肽在包括如下温度范围的条件下可以保持纤维素酶活性大约37°C到大约95°C之间;大约55°C到大约85°C之间;大约70°C到大约95°C之间;或大约90°C到大约95°C之间。该多肽在如下范围内的温度下可以保持纤维素酶活性在大约1°C到大约5°C之间,大约5°C到大约15 °C之间,大约15 °C到大约25 °C之间,大约25 °C到大约37 °C之间,大约37 °C到大约95 °C、96 °C、97 °C、98 °C或99 °C之间,大约55 °C到大约85 °C之间,大约70 V到大约75 °C之间,或大约90 V到大约99 °C,或95 °C、96 °C、97 °C、98 V或99 °C,或更高温度。另一方面,所述分离的或重组的核酸编码具有纤维素酶活性的多肽,例如,具有内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性的多肽,其是耐热的。该多肽在暴露于如下范围内的温度后可以保持纤维素酶活性37°C以上到大约95°C,或55°C以上到大约85°C的范围之内的任何温度。该多肽在暴露于如下范围内的温度后可以保持纤维素酶活性在大约1°C到大约5°C之间,大约5°C到大约15°C之间,大约15°C到大约25°C之间,大约25°C到大约37°C之间,大约37°C到大约95°C、96°C、97°C、98°C或99°C之间,大约55 °C到大约85 °C之间,大约70 V到大约75 °C之间,或大约90 V到大约95 °C之间,或更高温度。一方面,该多肽在暴露于如下范围内的温度后保持纤维素酶活性90°C以上到大约99°〇,或95°〇、961、971、981或991,在大约 pH 4. 5,或更高。本发明提供了分离的或重组的核酸,包括在严紧条件下与本发明的核酸杂交的序列,所述本发明的核酸包括本发明的示例性序列,例如如下所示的序列SEQ ID NO: I, SEQID NO:3, SEQ ID NO:5, SEQ ID NO:7, SEQ ID NO:9,SEQ ID NO: 11,SEQ ID NO: 13,SEQ IDNO:15,SEQ ID NO:17,SEQ ID NO:19,SEQ ID NO:21,SEQ ID NO:23,SEQ ID NO:25, SEQ IDNO:27,SEQ ID NO:29,SEQ ID NO:31,SEQ ID NO:33, SEQ ID NO:35, SEQ ID NO:37,SEQ IDNO:39,SEQ ID NO:41,SEQ ID NO:43,SEQ ID NO:45,SEQ ID NO:47,SEQ ID NO:49,SEQ IDNO:51,SEQ ID NO:53,SEQ ID NO:55,SEQ ID NO:57,SEQ ID NO:59,SEQ ID N0:61,SEQ IDNO:63,SEQ ID NO:65,SEQ ID NO:67,SEQ ID NO:69,SEQ ID NO:71,SEQ ID NO:73,SEQ IDNO:75,SEQ ID NO:77,SEQ ID NO:79,SEQ ID N0:81,SEQ ID NO:83,SEQ ID NO:85,SEQ IDNO:87,SEQ ID NO:89,SEQ ID N0:91,SEQ ID NO:93,SEQ ID NO:95, SEQ ID NO:97, SEQ IDNO:99, SEQ ID NO: 101, SEQ ID NO: 103, SEQ ID NO: 105, SEQ ID NO: 107, SEQ ID NO: 109,SEQ ID NO: 111,SEQ ID NO: 113,SEQ ID NO: 115,SEQ ID NO: 117,SEQ ID NO: 119,SEQ IDNO:121,SEQ ID NO:123,SEQ ID NO:125,SEQ ID NO:127,SEQ ID NO:129,SEQ ID NO:131,SEQ ID NO: 133,SEQ ID NO: 135,SEQ ID NO: 137,SEQ ID NO: 139,SEQ ID NO: 141,SEQ IDNO:143,SEQ ID NO:145,SEQ ID NO:147,SEQ ID NO:149,SEQ ID NO:151,SEQ ID NO:153,SEQ ID NO:155,SEQ ID NO:157,SEQ ID NO:159,SEQ ID NO:161,SEQ ID NO:163或SEQ IDNO: 165 (也参见下面的表1、2和3、实施例I和4),或其片段或其子序列。一方面,该核酸编码具有纤维素酶活性的多肽,例如,具有内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/ 或葡糖苷酶活性。该核酸的长度可以是至少大约10、15、20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200或更多残基,或基因的全长或转录物的全长。一方面,严紧条件包括洗涤步骤,包括在O. 2Χ SSC中在大约65°C的温度洗涤大约15分钟。本发明提供了核酸探针,其用于鉴定或分离编码具有纤维素酶活性——例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性一的多肽的核酸,其中所述探针含有核酸序列的至少大约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950,1000或更多个连续碱基,所述核酸序列包括本发明的序列或其片段或其子序列,其中所述探针通过结合或杂交来鉴定核酸。该探针可以包括寡核苷酸,该寡核苷酸含有核酸序列的至少大约10到50、大约20到60、大约30到70、大约40到80或大约60到100个连续碱基,所述核酸序列包括本发明的序列或其片段或其子序列。本发明提供了核酸探针,其用于鉴定或分离编码具有纤维素酶活性——例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶活性一的多肽的核酸,其中所述探针包括含有本发明核酸的至少大约10、15、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000 或更多残基所示的序列的核酸,所述本发明核酸例如与本发明的示例性核酸具有至少大约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或更高或完全的(100%)序列同一性的多核苷酸。一方面,序列同一性通过运用序列比较算法的分析或通过视觉观察来确定。在可选的方面中,该探针可以包括寡核苷酸,该寡核苷酸含有本发明的核酸序列或其子序列的至少大约10到50、大约20到60、大约30到70、大约40到80或大约60到100个连续碱基。本发明提供了扩增引物序列对,其用于扩增(例如,通过PCR)编码具有纤维素酶活性一例如,内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性一的多肽的核酸,其中该引物对能够扩增含有本发明的序列或其片段或子序列的核酸。扩增引物序列对的一个或每一个成员可以包括寡核苷酸,该寡核苷酸包括该序列的至少大约10到50个或更多个连续碱基,或者包括该序列的大约10、11、12、13、14、15、16、17、18、19、20、
21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36 或更多个连续碱基。本发明提供了扩增引物对,其中所述引物对包括第一成员和第二成员,第一成员具有本发明核酸的大约前(5,)12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36或更多个残基所示的序列,第二成员含有第一成员的互补链的大约前(5’)12、13、
14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36 或更多个残基所不的序列。本发明提供了通过扩增产生的编码纤维素酶的核酸,例如编码内切葡聚糖酶、纤维二糖水解酶和/或β -葡糖苷酶的核酸,所述扩增例如聚合酶链反应(PCR),其中使用本发明的扩增引物对。本发明提供了通过扩增产生的编码纤维素酶的核酸,例如编码内切葡·聚糖酶、纤维二糖水解酶和/或β -葡糖苷酶的核酸,所述扩增例如聚合酶链反应(PCR),其中使用本发明的扩增引物对。本发明提供了通过扩增制备纤维素酶——例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶——的方法,所述扩增例如聚合酶链反应(PCR),其中使用本发明的扩增引物对。一方面,所述扩增引物对从文库例如基因文库诸如环境文库扩增核酸。本发明提供了扩增核酸的方法,所述核酸编码具有纤维素酶活性的多肽,例如具有内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽,所述方法包括用能扩增本发明的核酸序列或其片段或子序列的扩增引物序列对扩增模板核酸。本发明提供了包含本发明的核酸或其子序列的表达序列盒。一方面,表达序列盒可以包含可操作地连接到启动子上的核酸。启动子可以是病毒、细菌、哺乳动物或植物启动子。一方面,植物启动子可以是马铃薯、稻、玉米、小麦、烟草或大麦启动子。启动子可以是组成型启动子。组成型启动子可以包括CaMV35S。另一方面,启动子可以是诱导型启动子。一方面,启动子可以是组织特异性启动子或环境调节型或发育调节型启动子。因此,启动子可以是,例如种子特异性、叶特异性、根特异性、茎特异性或脱落诱导启动子。一方面,表达序列盒可以进一步包括植物或植物病毒表达载体。本发明提供了克隆载体,包括本发明的表达序列盒(例如载体)或本发明的核酸。克隆载体可以是病毒载体、质粒、曬菌体(phage)、曬粒、粘粒(cosmid)、fos-质粒(fosmid)、细菌曬菌体(bacteriophage)或人工染色体。病毒载体可以包括腺病毒载体、逆转录病毒载体或腺相关病毒载体。克隆载体可以包括细菌人工染色体(BAC)、质粒、细菌噬菌体Pl衍生载体(PAC)、酵母人工染色体(YAC)或哺乳动物人工染色体(MAC)。本发明提供了包含本发明的核酸或本发明的表达序列盒(例如载体)或本发明的克隆载体的转化细胞。一方面,转化细胞可以是细菌细胞、哺乳动物细胞、真菌细胞、酵母细胞、昆虫细胞或植物细胞。一方面,植物细胞可以是大豆、油菜籽、含油种子、番茄、甘蔗、谷类、马铃薯、小麦、稻、玉米、烟草或大麦细胞。本发明提供了包含本发明核酸或本发明表达序列盒(例如载体)的转基因非人动物。一方面,该动物是小鼠、大鼠、猪、山羊或绵羊。
本发明提供了包含本发明核酸或本发明表达序列盒(例如载体)的转基因植物。转基因植物可以是谷类植物、玉米植物、马铃薯植物、番茄植物、小麦植物、含油种子植物、油菜籽植物、大豆植物、水稻植物、大麦植物或烟草植物。本发明提供了包含本发明核酸或本发明表达序列盒(例如载体)的转基因种子。转基因种子可以是谷类种子、玉米种子、小麦粒、含油种子、油菜籽、大豆种子、棕榈核、向日葵种子、芝麻种子、花生或烟草植物种子。本发明提供了包含与本发明的核酸互补的核酸序列或能与本发明的核酸在严紧条件下杂交的核酸序列的反义寡核苷酸。本发明提供了抑制纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶信息在细胞中翻译的方法,该方法包括给细胞施用反义寡核苷酸或在细胞中表达反义寡核苷酸,所述反义寡核苷酸包括与本发明的核酸互补的核酸序列或能与本发明的核酸在严紧条件下杂交的核酸序列。一方面,所述反义寡核苷酸的长度在大约10到50、大约20到60、大约30到70、大约40到80或大约60到100 个碱基之间,例如长度为 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100或更多个碱基。本发明提供了抑制纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、甘 露聚糖酶和/或β -葡糖苷酶信息在细胞中翻译的方法,该方法包括给细胞施用反义寡核苷酸或在细胞中表达反义寡核苷酸,所述反义寡核苷酸包括与本发明的核酸互补的核酸序列或能与本发明的核酸在严紧条件下杂交的核酸序列。本发明提供了含有本发明的序列的子序列的双链抑制RNA (RNAi或RNA干扰)分子(包括小干扰性RNA,或siRNA,用于抑制转录,以及微RNA或miRNA,用于抑制翻译)。在一个方面,siRNA的长度为大约21至24个残基之间,或大约至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、55、60、65、70、75、80、85、90、95,100或更多个双链核苷酸。本发明提供了抑制纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶在细胞中的表达,所述方法包括向所述细胞施用双链抑制RNA (siRNA或miRNA)或在所述细胞中表达双链抑制RNA (siRNA或miRNA),其中所述RNA含有本发明的序列的子序列。本发明提供了分离的或重组的多肽,包括在至少大约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300、325、350 或更多个残基的区域内或者在多肽的全长区域内,与本发明的示例性多肽或肽具有至少大约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或更高或完全的(100%)序列同一性的氨基酸序列。一方面,序列同一性通过运用序列比较算法的分析或通过视觉观察来确定。本发明的示例性多肽或肽序列包括SEQ ID N0:2, SEQ ID NO:4, SEQ ID N0:6, SEQ IDNO:8, SEQ ID NO: 10,SEQ ID NO: 12,SEQ ID NO: 14,SEQ ID NO: 16,SEQ ID NO: 18,SEQ IDNO:20,SEQ ID NO:22,SEQ ID NO:24,SEQ ID NO:26,SEQ ID NO:28,SEQ ID NO:30,SEQ IDNO:32,SEQ ID NO:34,SEQ ID NO:36,SEQ ID NO:38,SEQ ID NO:40,SEQ ID NO:42,SEQ IDNO:44,SEQ ID NO:46,SEQ ID NO:48,SEQ ID NO:50,SEQ ID NO:52,SEQ ID NO:54,SEQ IDNO:56,SEQ ID NO:58,SEQ ID NO:60,SEQ ID NO:62,SEQ ID NO:64,SEQ ID NO:66,SEQ IDNO:68,SEQ ID NO:70,SEQ ID NO:72,SEQ ID NO:74,SEQ ID NO:76,SEQ ID NO:78,SEQ IDNO:80,SEQ ID NO:82,SEQ ID NO:84,SEQ ID NO:86,SEQ ID NO:88,SEQ ID NO:90,SEQID NO:92,SEQ ID NO:94,SEQ ID NO:96,SEQ ID NO:98,SEQ ID NO: 100,SEQ ID NO: 102,SEQ ID NO: 104,SEQ ID NO: 106,SEQ ID NO: 108,SEQ ID NO: 110,SEQ ID NO: 112,SEQ IDNO:114,SEQ ID NO:116,SEQ ID NO:118,SEQ ID NO:120,SEQ ID NO:122,SEQ ID NO:124,SEQ ID NO: 126,SEQ ID NO: 128,SEQ ID NO: 130,SEQ ID NO: 132,SEQ ID NO: 134,SEQ IDNO:136,SEQ ID NO:138,SEQ ID NO:140,SEQ ID NO:142,SEQ ID NO:144,SEQ ID NO:146,SEQ ID NO: 148,SEQ ID NO: 150,SEQ ID NO: 152,SEQ ID NO: 154,SEQ ID NO: 156,SEQ IDNO: 158,SEQ ID NO: 160, SEQ ID NO: 162, SEQ ID NO: 164 和 SEQ ID NO: 166 (也参见下面的表1、2和3、实施例I和4,和序列表)及其子序列和其变体。示例性多肽还包括长度为至少大约 10、15、20、25、30、35、40、45、50、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600或更多个残基的片段,或者为酶的全长区域内的片段。本发明的多肽或肽序列包括由本发明的核酸编码的序列。本发明的多肽或肽序列包括由本发明的抗体特异性结合的多肽或肽(例如,表位),或可产生本发明的抗体的多肽或肽(例如,免疫原)。一方面,本发明的多肽具有至少一种纤维素酶活性,例如内切葡聚糖酶、纤维二糖 水解酶、甘露聚糖酶和/或β_葡糖苷酶活性。在可选的方面,本发明的多核苷酸编码具有至少一种纤维素酶活性的多肽,例如具有内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶活性的多肽。一方面,纤维素酶活性,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或 葡糖苷酶活性,是热稳定的。多肽在包括如下温度范围的条件下可以保持纤维素酶活
性,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性:大约rc到大约5 °C之间,大约5 0C到大约15 °C之间,大约15 °C到大约25 °C之间,大约25 °C到大约37 °C之间,大约37°C到大约95°C之间,大约55°C到大约85°C之间,大约70°C到大约75°C之间,或大约90°C到大约95°C之间,或更高温度。在另一方面,纤维素酶活性,例如,内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性,可以是耐热的。该多肽在暴露于如下范围内的温度后可以保持纤维素酶活性,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性37°C以上到大约95°C,或55°C以上到大约85°C的范围内。一方面,该多肽在PH 4. 5时暴露于90°C以上到大约95°C的温度后可以保持纤维素酶活性,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性。本发明的另一方面提供了分离的或重组的多肽或肽,包括本发明的多肽或肽序列、与其基本上相同的序列、与其互补的序列的至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150或更多个连续碱基。该肽可以是例如免疫原性片段、基序(例如结合位点)、信号序列、前原序列(prepro sequence)或活性位点。本发明提供了分离的或重组的核酸,包括编码具有纤维素酶活性例如,内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽和信号序列的序列,其中所述核酸包括本发明的序列。信号序列可以来源于另一种纤维素酶,例如,内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶,或者非纤维素酶,例如非内切葡聚糖酶、非纤维二糖水解酶和/或非β_葡糖苷酶(异源)。本发明提供了分离的或重组的核酸,包括编码具有纤维素酶活性,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或
葡糖苷酶活性的多肽的序列,其中所述序列不含有信号序列,所述核酸包括本发明的序列。一方面,本发明提供了分离的或重组的多肽,包括本发明的多肽,其缺少信号序列的全部或部分。一方面,所述分离的或重组的多肽可以包括本发明的多肽,其含有异源信号序列,例如异源纤维素酶信号序列如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶信号序列,或非纤维素酶信号序列如非内切葡聚糖酶、非纤维二糖水解酶和/或非β-葡糖苷酶信号序列。—方面,本发明提供了嵌合蛋白,其包括含有本发明的信号序列的第一结构域和至少第二结构域。该蛋白可以是融合蛋白。第二结构域可以包括酶。该酶可以是非酶(non-enzyme)ο本发明提供了嵌合多肽,包括含有本发明的信号肽(SP)、前原序列和/或催化结构域(CD)的至少第一结构域以及含有异源多肽或肽的第二结构域,其中所述异源多肽或肽不与所述信号肽(SP)、前原序列和/或催化结构域(CD)天然相关。一方面,所述异源多肽或肽不是纤维素酶,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶。所述异源多肽或肽可以在所述信号肽(SP)、前原序列和/或催化结构域(CD)的氨基端、羧基端或两端。·本发明提供了编码嵌合多肽的分离的或重组的核酸,其中所述嵌合多肽包括含有本发明的信号肽(SP)、前原结构域和/或催化结构域(CD)的至少第一结构域以及含有异源多肽或肽的第二结构域,其中所述异源多肽或肽不与所述信号肽(SP)、前原结构域和/或催化结构域(CD)天然相关。本发明提供了分离的或重组的信号序列(例如,信号肽),其包括本发明的多肽的残基 I 至 14、I 至 15、I 至 16、I 至 17、I 至 18、I 至 19、I 至 20、I 至 21、I 至 22、I 至 23、I 至24、1 至 25、1 至 26、1 至 27、1 至 28、1 至 28、1 至 30、1 至 31、1 至 32、1 至 33、1 至 34、1 至35、I 至 36、I 至 37、I 至 38、I 至 40、I 至 41、I 至 42、I 至 43、I 至 44、I 至 45、I 至 46 或 I 至47所示的序列或由本发明的多肽的残基I至14、I至15、I至16、I至17、I至18、I至19、I 至 20、1 至 21、1 至 22、1 至 23、1 至 24、1 至 25、1 至 26、1 至 27、1 至 28、1 至 28、1 至 30、I 至 31、I 至 32、I 至 33、I 至 34、I 至 35、I 至 36、I 至 37、I 至 38、I 至 40、I 至 41、I 至 42、I至43、I至44、I至45、I至46或I至47所示的序列组成,本发明的多肽例如示例性的SEQID NO:2,SEQ ID NO:4,SEQ ID NO:6,SEQ ID NO:8,SEQ ID NO: 10,SEQ ID NO: 12,SEQ IDNO:14,SEQ ID NO:16,SEQ ID NO:18,SEQ ID NO:20,SEQ ID NO:22,SEQ ID NO:24,SEQ IDNO:26,SEQ ID NO:28,SEQ ID NO:30,SEQ ID NO:32,SEQ ID NO:34,SEQ ID NO:36,SEQ IDNO:38,SEQ ID NO:40,SEQ ID NO:42,SEQ ID NO:44,SEQ ID NO:46,SEQ ID NO:48,SEQ IDNO:50,SEQ ID NO:52,SEQ ID NO:54,SEQ ID NO:56,SEQ ID NO:58,SEQ ID NO:60,SEQ IDNO:62,SEQ ID NO:64,SEQ ID NO:66,SEQ ID NO:68,SEQ ID NO:70,SEQ ID NO:72,SEQ IDNO:74,SEQ ID NO:76,SEQ ID NO:78,SEQ ID NO:80,SEQ ID NO:82,SEQ ID NO:84,SEQ IDNO:86,SEQ ID NO:88,SEQ ID NO:90,SEQ ID NO:92,SEQ ID NO:94,SEQ ID NO:96,SEQ IDN0:98, SEQ ID NO: 100,SEQ ID NO: 102,SEQ ID NO: 104,SEQ ID NO: 106,SEQ ID NO: 108,SEQ ID NO: 110,SEQ ID NO: 112,SEQ ID NO: 114,SEQ ID NO: 116,SEQ ID NO: 118,SEQ IDNO:120,SEQ ID NO:122,SEQ ID NO:124,SEQ ID NO:126,SEQ ID NO:128,SEQ ID NO:130,SEQ ID NO: 132,SEQ ID NO: 134,SEQ ID NO: 136,SEQ ID NO: 138,SEQ ID NO: 140,SEQ IDNO:142,SEQ ID NO:144,SEQ ID NO:146,SEQ ID NO:148,SEQ ID NO:150,SEQ ID NO:152,SEQ ID NO: 154,SEQ ID NO: 156,SEQ ID NO: 158,SEQ ID NO: 160,SEQ ID NO: 162,SEQ IDNO: 164或SEQ ID NO: 166(也参见下面的表1、2和3、实施例I和4,以及序列表)。一方面,本发明提供了信号序列,其包括本发明的多肽的前14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70 或更多个氨基端残基。一方面,纤维素酶活性,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性,包括在大约37°C每毫克蛋白大约I到大约1200单位,或每毫克蛋白大约100到大约1000单位的范围内的比活性。另一方面,纤维素酶活性,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性,包括每毫克蛋白从大约100到大约1000单位,或从大约500到大约750单位的比活性。可以选择地,纤维素酶活性,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性,包括在37°C每毫克蛋白从大约I到大约750单位,或每毫克蛋白大约500到大约1200单位的范围内的比活性。一方面,纤维素酶活性,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶 活性,包括在37°C每毫克蛋白从大约I到大约500单位,或每毫克蛋白大约750到大约1000单位的范围内的比活性。另一方面,纤维素酶活性,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性,包括在37°C每毫克蛋白从大约I到大约250单位的范围内的比活性。可选地,纤维素酶活性,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性,包括在37°C每毫克蛋白从大约I到大约100单位的范围内的比活性。另一方面,耐热性包括在被加热到高温后,保持在37°C时纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的比活性的至少一半。可以选择地,耐热性可以包括在被加热到高温后,保持在37°C每毫克蛋白从大约I到大约1200单位,或每毫克蛋白大约500到大约1000单位的范围内的比活性。另一方面,耐热性可以包括在被加热到高温后,保持在37°C每毫克蛋白从大约I到大约500单位的范围内的比活性。本发明提供了本发明的分离的或重组的多肽,其中所述多肽包括至少一个糖基化位点。一方面,糖基化可以是N-连接糖基化。一方面,多肽可以在毕赤酵母(P. pastoris)或裂变酵母(S. pombe)中被表达后被糖基化。一方面,多肽可以在包括大约pH 6. 5、pH 6、pH 5. 5、pH 5、pH 4· 5或pH4的更酸性的条件下保持纤维素酶活性,例如,内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性。另一方面,多肽可以在包括大约PH 7、pH 7. 5、pH 8. O、pH 8. 5, pH 9、pH 9. 5、pH 10、pH 10. 5或pH 11或更碱性的条件下保持纤维素酶活性,例如,内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性。一方面,多肽可以在暴露于包括大约pH 6. 5、pH 6、pH 5. 5、pH 5、pH4. 5或pH 4的更酸性pH的条件下保持纤维素酶活性,例如,内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性。另一方面,多肽可以在暴露于包括大约 pH 7、pH 7. 5, pH 8. O, pH 8. 5, pH 9、pH 9. 5, pH 10、pH 10. 5或pH 11或更碱性pH的条件下保持纤维素酶活性,例如,内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性。一方面,本发明的纤维素酶,例如,内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶,在碱性条件下,例如在肠道如小肠的碱性条件下,具有活性。一方面,多肽在暴露于胃的酸性PH后保持活性。本发明提供了含有本发明的多肽(包括肽)的蛋白制剂,其中该蛋白制剂包括液体、固体或凝胶。本发明提供了包含本发明的多肽和第二蛋白或结构域的异二聚体。该异二聚体的第二成员可以是不同的纤为素酶,例如,内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶,不同的酶或另一种蛋白。一方面,第二域结构可以是多肽,异源二聚体可以是融合蛋白。一方面,第二结构域可以是表位(epitope)或标记物(tag)。一方面,本发明提供了包含本发明的多肽的同型二聚体。本发明提供了具有纤维素酶活性例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的固定化多肽(包括肽),其中所述固定化多肽包括本发明的多肽、由本发明的核酸编码的多肽、或含有本发明的多肽和第二结构域的多肽。一方面,多肽可以被固定在细胞、金属、树脂、聚合物、陶瓷、玻璃、微电极、石墨颗粒、珠子、凝胶、平板、阵列或毛细管上。本发明还提供了包含本发明的固定化核酸的阵列,包括,例如本发明的探针。本发 明还提供了包含本发明的抗体的阵列。本发明提供了分离的或重组的抗体,其与本发明的多肽或与由本发明的核酸编码的多肽特异性结合。本发明的这些抗体可以是单克隆或多克隆抗体。本发明提供了包含本发明的抗体的杂交瘤,所述抗体例如,与本发明的多肽或与由本发明的核酸编码的多肽特异性结合的抗体。本发明提供了编码这些抗体的核酸。本发明提供了分离或鉴定具有纤维素酶活性如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽的方法,该方法包括如下步骤(a)提供本发明的抗体;(b)提供包含多肽的样品;和((3)将步骤(b)的样品与步骤(a)的抗体在所述抗体能与所述多肽特异性结合的条件下接触,从而分离或鉴定具有纤维素酶活性如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽。本发明提供了制备抗纤维素酶抗体——例如抗内切葡聚糖酶抗体、抗纤维二糖水解酶抗体和/或抗β -葡糖苷酶抗体——的方法,该方法包括以足够的量向非人动物施用本发明的核酸或本发明的多肽或其子序列,所述的量足以产生体液免疫应答,由此制备抗纤维素酶抗体,例如,抗内切葡聚糖酶抗体、抗纤维二糖水解酶抗体和/或抗β -葡糖苷酶抗体。本发明提供了产生抗纤维素酶免疫应答(细胞应答或体液应答)——例如抗内切葡聚糖酶免疫应答、抗纤维二糖水解酶免疫应答和/或抗β -葡糖苷酶免疫应答一的方法,该方法包括以足以产生免疫应答(细胞应答或体液应答)的量向非人动物施用本发明的核酸或本发明的多肽或其子序列。本发明提供了产生重组多肽的方法,包括如下步骤(a)提供与启动子可操作地连接的本发明的核酸;和(b)在允许多肽表达的条件下表达步骤(a)的核酸,从而产生重组多肽。一方面,该方法可进一步包括用步骤(a)的核酸转化宿主细胞,随后表达步骤(a)的核酸,从而在转化细胞中产生重组多肽。本发明提供了用于鉴定具有纤维素酶活性如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽的方法,该方法包括如下步骤(a)提供本发明的多肽;或由本发明的核酸编码的多肽;(b)提供纤维素酶底物,例如内切葡聚糖酶底物、纤维二糖水解酶底物、甘露聚糖酶底物和/或β -葡糖苷酶底物;和((3)用步骤(b)的底物接触步骤(a)的多肽或其片段或其变体,并且检测底物量的降低或反应产物量的增加,其中底物量的降低或反应产物量的增加检测出具有纤维素酶活性如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性的多肽。一方面,底物可以是含纤维素的化合物。本发明提供了用于鉴定纤维素酶底物的方法,如内切葡聚糖酶底物、纤维二糖水解酶底物、甘露聚糖酶底物和/或β -葡糖苷酶底物,包括如下步骤Ca)提供本发明的多肽;或由本发明的核酸编码的多肽;(b)提供测试底物;和((3)用步骤(b)的测试底物接触步骤(a)的多肽,并且检测底物量的降低或反应产物量的增加,其中底物量的降低或反应产物量的增加检测出作为纤维素酶底物如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶的测试底物。本发明提供了确定测试化合物是否与多肽特异性结合的方法,包括如下步骤
(a)在允许核酸翻译为多肽的条件下表达核酸或包含核酸的载体,其中所述核酸包括本发明的核酸,或提供本发明的多肽;(b)提供测试化合物;(C)用测试化合物接触多肽;和((1)·确定步骤(b)的测试化合物是否与多肽特异性结合。本发明提供了用于鉴定纤维素酶活性如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的调节剂的方法,包括如下步骤Ca)提供本发明的多肽,或由本发明的核酸编码的多肽;(b)提供测试化合物;和((3)用步骤(b)的测试化合物接触步骤(a)的多肽,并测定纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的活性,其中在存在测试化合物的情况下测定的纤维素酶活性一如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性——与不存在测试化合物的情况下测定的活性相比的变化,确定了该测试化合物调节纤维素酶活性,如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性。一方面,纤维素酶活性,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性,可以通过提供纤维素酶底物,例如内切葡聚糖酶底物、纤维二糖水解酶底物、甘露聚糖酶底物和/或β -葡糖苷酶底物,并检测底物量的降低或反应产物量的增加,或底物量的增加或反应产物量的降低来测量。与没有测试化合物时底物或反应产物的量相比,有测试化合物时底物量的降低或反应产物量的增加鉴定出作为纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的激活剂的测试化合物。与没有测试化合物时底物或反应产物量相比,有测试化合物时底物量的增加或反应产物量的降低鉴定出作为纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性的活性的抑制剂的测试化合物。本发明提供了计算机系统,该系统包括处理器和数据存储设备,其中所述数据存储设备上已经存储了本发明的多肽序列或核酸序列(例如由本发明的核酸编码的多肽或肽)。一方面,计算机系统可以进一步包括序列比较算法和数据存储设备,其中数据存储设备上已经存储了至少一个参考序列。另一方面,序列比较算法包括可指出多态现象(多态性)的计算机程序。一方面,计算机系统可以进一步包括在所述序列中鉴定一个或多个特征的鉴定器(标识符,identifier)。本发明提供了计算机可读介质,其上已经存储了本发明的多肽序列或核酸序列。本发明提供了用于鉴定序列中的特征的方法,包括如下步骤(a)使用可鉴定序列中的一个或多个特征的计算机程序读取序列,其中所述序列包括本发明的多肽序列或核酸序列jP(b)用所述计算机程序鉴定序列中的一个或多个特征。本发明提供了将第一序列与第二序列进行比较的方法,包括如下步骤(a)通过使用可比较序列的计算机程序读取第一序列和第二序列,其中第一序列包括本发明的多肽序列或核酸序列;和(b)用所述计算机程序确定第一序列和第二序列之间的差异。确定第一序列和第二序列之间差异的步骤可以进一步包括鉴定多态性的步骤。一方面,该方法可以进一步包括可鉴定序列中的一个或多个特征的鉴定器。另一方面,该方法可以包括使用计算机程序读取第一序列,并鉴定该序列中的一个或多个特征。本发明提供了从环境样品中分离或回收核酸的方法,所述核酸编码具有纤维素酶活性如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽,该方法包括如下步骤(a)提供用于扩增编码具有纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽的核酸的扩增引物序列对,其中所述引物对能扩增本发明的核酸;(b)从环境样品中分离核酸,或处理环境样品,以便样品中的核酸可实现与扩增引物对杂交;和((3)将步骤(a)的扩增引物对与步骤(b)的核酸结合,并从环境样品中扩增核酸,从而从环境样品中分离或回收编码具有纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性的多肽的核酸。扩增引物序列对的一个或每一成员可以包括寡核苷酸,该寡核苷酸包括本发明的扩增引物序列对,例如,具有本发明 的序列的至少大约10到50个连续碱基。本发明提供了从环境样品中分离或回收核酸的方法,所述核酸编码具有纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽,该方法包括如下步骤(a)提供包含本发明的核酸或其子序列的多核苷酸探针;(b)从环境样品分离核酸,或处理环境样品,以便样品中的核酸可实现与步骤(a)的多核苷酸探针杂交;(c)将步骤(a)的多核苷酸探针与步骤(b)的分离的核酸或处理的环境样品结合;和(d)分离与步骤(a)的多核苷酸探针特异性杂交的核酸,从而从环境样品中分离或回收编码具有纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽的核酸。环境样品可以包括水样品、液体样品、土壤样品、空气样品或生物样品。一方面,生物样品可以来源于细菌细胞、原生动物细胞、昆虫细胞、酵母细胞、植物细胞、真菌细胞或哺乳动物细胞。本发明提供了产生编码具有纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽的核酸变体的方法,该方法包括如下步骤Ca)提供包括本发明的核酸的模板核酸jP(b)在模板序列中修饰、删除或添加一个或多个核苷酸,或进行修饰、删除和添加的组合,以产生模板核酸的变体。一方面,该方法可以进一步包括表达变体核酸,以产生变体纤维素酶多肽,如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶多肽。修饰、添加或删除通过包括如下方法中的方法来引入,包括易错PCR、改组(重排,shuffling)、寡核苷酸诱导的定向突变、装配PCR、有性PCR诱变、体内诱变、盒式诱变、递归整体诱变(recursive ensemble mutagenesis)、指数整体诱变、位点特异性诱变、基因再装配、基因位点饱和诱变(GSSM)、合成连接重装配(SLR)、染色体饱和诱变(CSM)或其组合。另一方面,修饰、添加或删除通过如下方法的方法引入包括重组、递归序列重组、硫代磷酸酯修饰的DNA诱变、含尿卩密唳模板诱变、缺口双重诱变(gapped duplexmutagenesis)、点错配修复诱变、修复缺陷型宿主株诱变、化学诱变、放射诱变、缺失诱变、限制选择诱变、限制纯化诱变、人工基因合成、整体诱变、嵌合核酸多聚体生成及其组合。
一方面,该方法可以被反复重复,直到产生与模板核酸编码的多肽相比具有改变的或不同的活性或者改变的或不同的稳定性的纤维素酶,如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶。一方面,变体纤维素酶多肽,如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶多肽,是耐热的,在暴露于升高的温度之后可以保持一些活性。另一方面,与模板核酸编码的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶相比,变体纤维素酶多肽,如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶多肽,具有增加的糖基化。可以选择地,变体纤维素酶多肽,如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶多肽,在高温下具有纤维素酶活性,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性,其中由模板核酸编码的纤维素酶,如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶,在高温下没有活性。一方面,该方法可以被反复重复,直到产生具有与模板核酸的密码子使用有所不同的密码子使用的纤维素酶编码序列,如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶编码序列。另一方面,该方法可以被反复重复,直到产生具有比模板核酸的信息表达或稳定性更高或更低水平的信息表达或稳定性的纤维素酶基因,如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶基因。
本发明提供了在编码具有纤维素酶活性一如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性——的多肽的核酸中修饰密码子以增加其在宿主细胞中的表达的方法,该方法包括如下步骤(a)提供编码具有纤维素酶活性——如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性——的多肽的本发明的核酸;和(b)鉴定步骤(a)的核酸中非优选或较不优选的密码子,用优选的或中度使用(neutrallyused)的密码子来代替,所述优选或中度使用的密码子编码与被取代的密码子相同的氨基酸,其中优选密码子是在宿主细胞的基因的编码序列中过度表现的密码子,非优选或较不优选密码子是在宿主细胞的基因的编码序列中表现不足的密码子,从而修饰核酸以增加其在宿主细胞中的表达。本发明提供了在编码具有纤维素酶活性一如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性——的多肽的核酸中修饰密码子的方法,该方法包括如下步骤(a)提供本发明的核酸;和(b)鉴定步骤(a)的核酸中的密码子,并用不同的密码子来代替,所述不同的密码子编码与被取代的密码子相同的氨基酸,从而修饰在编码纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的核酸中的密码子。本发明提供了在编码具有纤维素酶活性一如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性——的多肽的核酸中修饰密码子以增加其在宿主细胞中的表达的方法,该方法包括如下步骤(a)提供编码纤维素酶多肽如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶多肽的本发明核酸;和6)鉴定步骤(a)的核酸中的非优选或较不优选密码子,并用优选的或中度使用的密码子来代替,所述优选或中度使用的密码子编码与被取代的密码子相同的氨基酸,其中优选密码子是在宿主细胞的基因的编码序列中过度表现的密码子,非优选或较不优选密码子是在宿主细胞的基因的编码序列中表现不足的密码子,从而修饰核酸以增加其在宿主细胞中的表达。本发明提供了在编码具有纤维素酶活性——如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性一的多肽的核酸中修饰密码子以降低其在宿主细胞中的表达的方法,该方法包括如下步骤(a)提供本发明的核酸;和(b)鉴定步骤(a)的核酸中的至少一个优选密码子,并用非优选的或较不优选的密码子来代替,所述非优选或较不优选的密码子编码与被取代的密码子相同的氨基酸,其中优选密码子是在宿主细胞的基因的编码序列中过度表现的密码子,非优选或较不优选的密码子是在宿主细胞的基因的编码序列中表现不足的密码子,从而修饰核酸以降低其在宿主细胞中的表达。一方面,宿主细胞可以是细菌细胞、真菌细胞、昆虫细胞、酵母细胞、植物细胞或哺乳动物细胞。本发明提供了用于产生核酸文库的方法,所述核酸编码一系列的被修饰的纤维素酶一例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶一活性位点或底物结合位点,其中被修饰的活性位点或底物结合位点来源于第一核酸,所述第一核酸包含编码第一活性位点或第一底物结合位点的序列,该方法包括如下步骤(a)提供第一核酸,其编码第一活性位点或第一底物结合位点,其中所述第一核酸序列包括在严紧条件下与本发明的核酸杂交的序列,所述核酸编码纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性位点或纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶底物结合位点;(b)提供一组诱变寡核苷酸,其在第一核酸的·多个目标密码子处编码天然发生的氨基酸变体;和((3)使用该组诱变寡核苷酸,产生一组编码活性位点或编码底物结合位点的变体核酸,其在被诱变的每一氨基酸密码子处编码一定范围的氨基酸变化,从而产生编码多个被修饰的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性位点或底物结合位点的核酸文库。一方面,该方法包括通过包括如下方法中的方法诱变步骤(a)的第一核酸优化的定向进化系统、基因位点饱和诱变(GSSM)、合成连接重装配(SLR)、易错PCR、改组、寡核苷酸诱导的定向突变、装配PCR、有性PCR诱变、体内诱变、盒式诱变、递归整体诱变、指数整体诱变、位点特异性诱变、基因再装配及其组合。另一方面,该方法包括通过包括如下方法中的方法诱变步骤(a)的第一核酸或变体重组、递归序列重组、硫代磷酸酯修饰的DNA诱变、含尿嘧啶模板诱变、缺口双重诱变、点错配修复诱变、修复缺陷型宿主株诱变、化学诱变、放射诱变、缺失诱变、限制选择诱变、限制纯化诱变、人工基因合成、整体诱变、嵌合核酸多聚体生成及其组合。本发明提供了产生小分子的方法,包括如下步骤(a)提供多个能合成或修饰小分子的生物合成酶,其中这些酶中的一种酶包括由本发明的核酸编码的纤维素酶,如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶;(b)为步骤(a)的至少一种酶提供底物;和((3)将步骤(b)的底物与这些酶在能促进多个生物催化反应的条件下通过一系列生物催化反应进行反应,以产生小分子。本发明提供了修饰小分子的方法,包括如下步骤(a)提供纤维素酶,如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶,其中该酶包括本发明的多肽,或由本发明的核酸编码的多肽,或其子序列;(b)提供小分子;和((3)将步骤(b)的小分子与步骤(a)的酶在能促进由纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶催化的酶促反应的条件下进行反应,从而通过纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶酶促反应修饰小分子。一方面,该方法可以包括为步骤(a)的酶提供多个小分子底物,从而产生通过由纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶催化的至少一种酶促反应产生的被修饰小分子的文库。一方面,该方法可以包括多个其它的酶,在有助于这些酶介导的多个生物催化反应的条件下使用这些酶,以形成由多个酶促反应产生的被修饰小分子的文库。另一方面,该方法可以进一步包括测试该文库以确定该文库中是否存在表现出期望活性的特定被修饰小分子的步骤。测试该文库的步骤可以进一步包括系统地去除所有但保留一个用于产生文库中多个被修饰小分子中的一部分的生物催化反应,方法是通过测试被修饰小分子的所述部分中存在或不存在具有期望活性的特定被修饰小分子,鉴定出产生具有期望活性的特定修饰小分子的至少一个特定生物催化反应。本发明提供了确定纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶的功能片段的方法,包括如下步骤(a)提供纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶,其中该酶包括本发明的多肽或由本发明的核酸编码的多肽、或其子序列jP(b)从步骤(a)的序列删除多个氨基酸残基,并测试剩余的子序列的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性,从而确定纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的功能片段。一方面,纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶活性通过提供纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶底物并检测底物量的减少或反应产物量的增加来测量。 本发明提供了通过使用实时代谢流(real-time metabolic flux)分析进行新的或修饰的表型的全细胞工程改造的方法,该方法包括如下步骤(a)通过修饰细胞的遗传组成产生修饰的细胞,其中所述遗传组成通过将本发明的核酸加入到细胞来修饰;(b)培养修饰的细胞以产生多个修饰的细胞;(c)通过实时监控步骤(b)的细胞培养物来测量该细胞的至少一个代谢参数;和(d)分析步骤(C)的数据,以确定被测量的参数是否与在类似条件下未修饰细胞中的参照测量值不同,从而使用实时代谢流量分析鉴定细胞中的工程表型。一方面,细胞的遗传组成可以通过包括在细胞中序列的删除或序列的修饰,或敲除基因的表达的方法来修饰。一方面,该方法可以进一步包括选择含有新的工程表现型的细胞。另一方面,该方法可以包括培养被选择的细胞,从而产生包含新的工程表型的新细胞株。本发明提供了增加纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶的多肽的耐热性或热稳定性的方法,该方法包括糖基化纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的多肽,其中该多肽包括本发明的多肽或由本发明的核酸序列编码的多肽的至少三十个连续氨基酸,从而增加纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的多肽的耐热性或热稳定性。一方面,纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶的比活性可以在大于大约37°C到大约95°C的温度范围内是热稳定的或耐热的。本发明提供了在细胞中过量表达重组纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的多肽的方法,该方法包括表达含有核酸的载体,该核酸包括本发明的核酸或本发明的核酸序列,其中序列同一性通过使用序列比较算法的分析或通过视觉观察来确定,其中过量表达通过使用高活性启动子、双顺反子(dieistronic)载体或通过该载体的基因扩增来实现。本发明提供了产生转基因植物的方法,该方法包括如下步骤(a)将异源核酸序列引入细胞中,其中异源核酸序列包括本发明的核酸序列,从而产生转化的植物细胞;和
(b)从转化的细胞产生转基因植物。一方面,步骤(a)可以进一步包括通过植物细胞原生质体的电穿孔或显微注射引入异源核酸序列。另一方面,步骤(a)可以进一步包括通过DNA微粒轰击(DNA particle bombardment)将异源核酸序列直接引入植物组织中。可以选择地,步骤(a)可以进一步包括使用根瘤农杆菌(Agrobacterium tumefaciens)宿主将异源核酸序列引入植物细胞DNA中。一方面,植物细胞可以是甘蔗、甜菜、大豆、番茄、马铃薯、玉米、稻、小麦、烟草或大麦细胞。本发明提供了在植物细胞中表达异源核酸序列的方法,该方法包括如下步骤(a)用与启动子可操作地连接的的异源核酸序列转化植物细胞,其中异源核酸序列包括本发明的核酸;(b)在异源核酸序列可在植物细胞中表达的条件下培养所述植物。本发明提供了在植物细胞中表达异源核酸序列的方法,该方法包括如下步骤(a)用与启动子可操作地连接的的异源核酸序列转化植物细胞,其中异源核酸序列包括本发明的序列;(b)在异源核酸序列可在植物细胞中表达的条件下培养所述植物。本发明提供了饲料或食物,其含有本发明的多肽或本发明的核酸编码的多肽。一方面,本发明提供了食品、饲料、液体如饮料(如果汁或啤酒)、面包或面团或面包产品、或饮料前体(例如,麦芽汁),其含有本发明的多肽。本发明提供了动物的食物或营养补充剂,其 含有本发明的多肽,例如,由本发明的核酸编码的多肽。一方面,食物或营养补充剂中的多肽可以被糖基化。本发明提供了可食用的酶输送基质,其含有本发明的多肽,例如,由本发明的核酸编码的多肽。一方面,该输送基质包括丸剂。一方面,多肽可被糖基化。一方面,纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶的活性是耐热的。另一方面,纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的活性是热稳定的。本发明提供了含有本发明的多肽的食物、饲料或营养补充剂。本发明提供了将纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶用作动物饮食中的营养补充剂的方法,所述方法包括制备含有纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的营养添加物,所述纤维素酶包含本发明的多肽的至少三十个连续氨基酸;以及向动物施用所述营养添加物。动物可以是人、反刍动物或单胃动物。通过在选自细菌、酵母、植物、昆虫、真菌和动物的生物体中表达编码纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶的多核苷酸,可以制备纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶。所述生物体可选自裂变酵母(S. pombe)、酿酒酵母(S. cerevisiae)、毕赤酵母(Pichia. pastoris)、大肠杆菌(E. coli.)、链霉菌属某种(Streptomyces sp.)、杆菌属某种(Bacillus sp.)和乳酸杆菌属某种(Lactobacillus sp.)。本发明提供了可食用的酶输送基质,其含有热稳定的重组纤维素酶,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶,如本发明的多肽。本发明提供了向动物输送纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶补充剂的方法,所述方法包括制备丸剂形式的可食用的酶输送基质,其含有粒状可食用载体以及热稳定的重组纤维素酶,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶,其中所述丸剂容易将包含在其中的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶分散入含水介质中,以及向所述动物施用该可食用酶输送基质。重组纤维素酶,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶,可以包括本发明的多肽。纤维素酶,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶,可被糖基化,以在压丸条件下提供热稳定性。该输送基质可以通过对含有谷物胚芽和纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的混合物进行压丸而形成。压丸条件可包括蒸汽的应用。压丸条件可包括应用超过约80°C的温度约5分钟,而该酶保持每毫克蛋白至少大约350到大约900单位的比活性。一方面,本发明提供了药物组合物,其含有本发明的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶,或者本发明的核酸编码的多肽。一方面,药物组合物作为助消化剂。在某些方面,含纤维素化合物与具有纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的本发明多肽在约ΡΗ3. O至9. O、10. O、11. O或更高的范围的PH下接触。在其它方面,含纤维素化合物与纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或3-葡糖苷酶在约551、601、651、701、751、801、851、901或更高的温度下接触。
本发明的一个或多个方面的细节如附图和下面的描述所示。本发明的其它特征、目标和优点将通过说明书和附图以及权利要求而更加清楚。此处引述的所有出版物、专利、专利申请、GenBank序列和ATCC保藏物均被特意地引入,以作为参考,用于所有目的。
下面的附图是本发明的方面的例证性说明,而不意图限制权利要求书所包括的本发明的范围。图I是一个计算机系统的框图。图2是一个流程图,该图示意性说明了用于将新核苷酸或蛋白序列与序列数据库进行比较以确定该新序列与数据库中序列之间的同源性水平的过程的一个方面。图3是一个流程图,该图示意性说明了在计算机中确定两个序列是否同源的过程的一个方面。图4是一个流程图,该图示意性说明了检测序列中特征的存在的鉴定过程300的
一个方面。图5是纤维二糖结构的示意图。图6和7示意性说明了来自纤维己糖的反应产物的TLC分析结果,如在下面的实施例I中所详细讨论的。图8以图形数据进行例证性说明,显示了通过本发明的示例性酶22/22a(CBH)从PASC释放纤维二糖,如在下面的实施例2所详细讨论的。图9以图形数据进行例证性说明,显示了通过本发明的示例性酶22/22a(CBH)从AVl( tL. 5MCC释放纤维二糖,如在下面的实施例2所详细讨论的。图10以图表数据进行了例证性说明,显示了典型的GIGAMATRIX breakout,其中表达能够水解甲基伞形基纤维二糖苷的活性克隆被鉴定,如下面的实施例4所详细讨论的。图11以图表数据进行了例证性说明,通过毛细管电泳(CE)分析显示了所选择的酶对憐酸溶胀纤维素(phosphoric acid-swollen cellulose, PASC)的活性,如下面的实施例4所详细讨论的。图12以图表数据进行了例证性说明,数据来自本发明的示例性酶和亚克隆变体在/WlC'hL : Microcrystalline Cellulose (MCC)中的分析,其中通过BCA还原糖测定来分析反应产物,如下面的实施例4所详细讨论的。图13以图表数据进行了例证性说明,数据来自一级GSSM筛选分析,如下面的实施例4所详细讨论的。图14以图表数据进行了例证性说明,数据来自二级GSSM筛选分析,如下面的实施例4所详细讨论的。图15以图表数据进行了例证性说明,数据来自混合的或“掺合的”GSSM筛选分析,如下面的实施例4所详细讨论的。 在不同的附图中同样的标记符号表示同样的要素。
发明详述本发明提供了具有纤维素酶活性例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽、编码它们的多核苷酸、以及制备和使用这些多核苷酸和多肽的方法。本发明还提供了纤维素酶,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶,编码这些酶的多核苷酸、这类多核苷酸和多肽的应用。一方面,本发明提供了纤维素酶,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶,其具有增强的催化速率,改善了底物水解过程。在催化速率上的这种增加的效率导致在生产糖类上增加的效率,所述糖类随后可被微生物用于乙醇生产。一方面,产生本发明的酶的微生物与产乙醇微生物一起使用。因此,本发明提供了生产乙醇和制备基于乙醇的“清洁燃料”的方法,例如,用于利用生物乙醇进行的运输。一方面,本发明提供了组合物(例如,酶制剂、饲料、药物、饮食补充物),其包括本发明的酶、多肽或多核苷酸。这些组合物可以以各种形式加以配制,例如液体、凝胶、丸剂、片剂、喷剂、粉末、食物、饲料小丸或包括纳米胶囊剂型在内的胶囊剂型。测量纤维素酶活性如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的分析试验,例如用于确定多肽是否具有纤维素酶活性,如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性的分析试验,在本领域中是熟知的,并且在本发明的范围内;参见,例如Baker WL, PanowA, Estimation of cellulaseactivity using a glucose-oxidase-Cu(II)reducing assay for glucose, J BiochemBiophys Methods. 1991 Dec, 23(4):265-73;Sharrock KR, Cellulase assay methods:areview, J Biochem Biophys Methods. 1988 Oct, 17(2):81-105;Carder JH, Detectionand quantitation of cellulase by Congo red staining of substrates in acup-plate diffusion assay, Anal Biochem. 1986Feb 15,153 (I):75-9;CanevasciniG. , A cellulase assay coupled to cellobiose dehydrogenase, Anal Biochem. 1985Jun, 147 (2) :419-27;Huang JS,Tang J,Sensitive assay for cellulase anddextranase. Anal Biochem. 1976Jun, 73(2):369-77。本发明使用的反应条件的pH是本发明提供的另一个可变参数。在某些方面,反应的pH在约3. O至约9. O的范围内。在其它方面,pH为约4. 5,或pH为约7. 5或pH为约9。在碱性条件下进行的反应条件也可能是有利的,例如,在本发明的酶的一些工业应用或制药应用中。本发明提供了各种形式和配方的本发明的纤维素酶,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶多肽。在本发明的方法中,本发明的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶多肽以各种形式和配方使用。例如,纯化的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶多肽可以用在酶制剂中,该酶制剂在生物乙醇的生产中或制药或饮食助剂应用中使用。可选地,本发明的酶可直接用在生产生物乙醇、制备清洁燃料、处理生物废物、加工食物、液体或饲料等等的各种工艺中。可选地,本发明的纤维素酶,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶多肽,可使用本领域已知的方法在微生物中表达。在其它方面,本发明的纤维素酶,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶多肽,可在用于本发明的方法之前固定在固体支持物上。将酶固定在固体支持物上的方法在本领域中广为人知,例如 J. Mol. Cat. B:Enzymatic 6 (1999) 29-39; Chivata et al. Biocatalysis: Immobilized cells and enzymes, J Mol. Cat. 37(1986) 1-24:Sharma etal. , Immobilized Biomaterials Techniques and Applications, Angew. Chem. Int. Ed. Eng1.21(1982)837-54:Laskin(Ed. ), Enzymes and Immobilized Cells in Biotechnolog0
核酸、探针和抑制分子(Inhibitory Molecules)本发明提供了分离的和重组的核酸,例如参见下面的表1、2和3,实施例I和4,以及序列表;编码多肽的核酸,包括本发明的示例性多核苷酸序列,例如,参见表I和序列表;包括表达序列盒,例如含有本发明的核酸的表达载体和各种克隆载体。本发明还包括使用本发明的核酸发现、鉴定或分离新的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶多肽序列的方法。本发明还包括使用本发明的核酸抑制编码纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的基因和转录物的表达的方法。还提供了修饰本发明的核酸的方法,包括通过例如合成连接重装配、优化的定向进化系统和/或饱和诱变例如基因位点饱和诱变(GSSM)产生本发明的核酸变体的方法。术语“饱和诱变”、基因位点饱和诱变或“GSSM”包括使用简并寡核苷酸引物将点突变引入多核苷酸的方法,如在下面所详细描述的。术语“优化的定向进化系统”或“优化的定向进化”包括用于重新装配相关的核酸序列的片段的方法,所述的相关核酸序列例如相关的基因,下面对其进行了详细解释。术语“合成连接重装配”或“SLR”包括以非随机方式连接寡核苷酸片段的方法,下面进行了详细解释。术语“变体”是指在一个或多个碱基对、密码子、内含子、外显子或氨基酸残基处被(分别地)修饰的本发明的多核苷酸或多肽,然而它们仍然保持本发明的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶生物学活性。变体可以通过许多种方法产生,包括的方法诸如,例如易错PCR、改组、寡核苷酸诱导的定向突变、装配PCR、有性PCR诱变、体内诱变、盒式诱变、递归整体诱变、指数整体诱变、位点特异性诱变、基因再装配、GSSM及其任意组合。本发明的核酸可以通过,例如cDNA文库的克隆和表达、通过PCR进行的信息或基因组DNA扩增以及类似的技术来制造、分离和/或操纵。例如,本发明的示例性核酸最初来源于环境来源。因此,一方面,本发明提供了编码纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的核酸,以及由它们编码的多肽,其共同的新颖性在于它们来源于共同的来源,例如环境来源、混合的培养物或细菌来源。在本发明方法的实践中,同源基因可以通过操纵模板核酸加以修饰,如同在文中所描述的。本发明可以与本技术领域已知的任何方法或程序或设备一起实践,这些方法、程序或设备在科学和专利文献中有很好的描述。如本文所使用,短语“核酸”或“核酸序列”是指寡核苷酸、核苷酸、多核苷酸,或者寡核苷酸、核苷酸、多核苷酸中任意一种的片段,或者基因组的或合成来源的DNA或RNA,它们可以是单链或双链,并且可以代表正义链或反义(互补)链,或者是指肽核酸(PNA)或者天然或合成来源的任何DNA样或RNA样的物质。短语“核酸”或“核酸序列”包括寡核苷酸、核苷酸、多核苷酸,或者寡核苷酸、核苷酸、多核苷酸中任意一种的片段,或者基因组的或合成来源的DNA或RNA (例如mRNA、rRNA、tRNA、iRNA),它们可以是单链或双链,并且可以代表正义链或反义链,还包括肽核酸(PNA)或者天然或合成来源的任何DNA样或RNA样的物·质,例如包括iRNA、核糖核蛋白(例如双链iRNA,例如iRNPs)。该术语包括含有天然核苷酸的已知类似物的核酸,例如寡核苷酸。该术语也包括具有合成骨架的核酸样结构,例如参见Mata (1997)Toxicol. Appl. Pharmacol. 144:189-197;Strauss-Soukup(1997)Biochemistry36:8692-8698; Samstag (1996) Antisense Nucleic Acid Drug Dev 6:153-156。“寡核昔酸”或者包括单链的多脱氧核苷酸,或者包括两个互补的多脱氧核苷酸链,它们可以是化学合成的。这样的合成的寡核苷酸没有5’磷酸,因此如果不在存在激酶的情况下采用ATP添加磷酸,该合成寡核苷酸便不会连接到另一个寡核苷酸上。合成的寡核苷酸可以连接到没有被去磷酸化的片段上。特定多肽或蛋白的“编码序列”或编码特定多肽或蛋白的“核苷酸序列”是这样的核酸序列,其当置于合适的调节序列的调控下时被转录和翻译成多肽或蛋白质。术语“基因”意指在产生多肽链中所涉及的DNA片段;其包括编码区之前的区域和之后的区域(前导区(leader)和尾区(trailer)),以及在适用的情况下,可以包括各个编码片段(外显子)之间的间插序列(内含子)。启动子序列“可操作地连接到”编码序列上,此时RNA聚合酶可以在启动子处起始转录,将编码序列转录成mRNA。正如此处所用,“可操作地连接(operablylinked)”是指两个或更多个核酸(例如DNA)片段之间的功能关系。“可操作地连接”可以指转录调控序列与被转录序列的功能关系。例如,如果启动子刺激或调节编码序列例如本发明的核酸在适当的宿主细胞或其它表达系统中的转录,那么该启动子便是可操作地连接到编码序列。通常,可操作地连接到被转录序列的启动子转录调控序列与被转录序列是物理上相邻的,即它们是顺式作用。然而,一些转录调控序列,如增强子,不需要与编码序列物理相邻或者位于与编码序列接近的位置,但这些转录调控序列仍能增强编码序列的转录。正如本文所用,术语“表达序列盒(expression cassette)”指能影响结构基因(即蛋白编码序列,例如,编码本发明的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶的序列)在与这样的序列相容的宿主中的表达的核苷酸序列。表达序列盒包括至少一个与多肽编码序列可操作地连接的启动子;并且任选地,可以与其它序列例如转录终止信号序列可操作地连接。也可以使用其它的在实现表达的方面必需的或有用的因子,例如增强子、α -因子。因此,表达序列盒也包括质粒、表达载体、重组病毒、任何形式的重组“裸DNA”载体,以及类似物。“载体”包括可以感染、转染、短暂或永久地转导细胞的核酸。应该认识到,载体可以是裸核酸、或与蛋白或脂质复合的核酸。该载体任选地包含病毒或细菌核酸和/或蛋白,和/或膜(例如细胞膜、病毒脂质包被等等)。载体包括但不限于复制子(例如RNA复制子、细菌噬菌体),DNA片段可以连接到这些复制子上从而可被复制。因此,载体包括但不限于RNA、自主复制环状或线状DNA或RNA (例如质粒、病毒以及类似物,例如参见美国专利5,217,879),并且包括表达质粒和非表达质粒。在重组微生物或细胞培养物被描述为“表达载体”的宿主的情况下,该载体包括染色体外环状和线状DNA,它们可以已经被整合到宿主染色体中。在载体通过宿主细胞来维持的情况下,该载体或者可以作为自主结构在有丝分裂过程中被细胞稳定地复制,或者被整合进宿主的基因组中。正如此处所用,术语“重组的”包括与“骨架”核酸相邻的核酸,这些核酸在其天然环境中与该“骨架”核酸是不相邻的。一方面,为了被富集,核酸表现为在核酸骨架分子群体中有大约5%或更多数量的核酸插入物。本发明的“骨架分子”包括核酸,如表达载体、自主复制核酸、病毒、整合核酸,以及用于维持或操纵感兴趣的核酸插入物的其它载体或核酸。一方面,富集的核酸表现为在重组的骨架分子群体中有大约15%或更多数量的核酸插入物。一方面,富集的核酸表现为在重组的骨架分子群体中有大约50%或更多数量的核酸 插入物。一方面,富集的核酸表现为在重组的骨架分子群体中有大约90%或更多数量的核酸插入物。本发明的一方面是分离的或重组的核酸,包括本发明的序列之一,或者含有本发明的核酸的至少 10、15、20、25、30、35、40、50、75、100、150、200、300、400 或 500 或更多个连
续碱基的片段。该分离的或重组的核酸可以包含DNA,包括cDNA、基因组DNA和合成DNA。DNA可以是双链或单链,并且如果是单链,可以是编码链或非编码(反义)链。可选地,该分离的或重组的核酸包含RNA。 本发明的分离的或重组的核酸可用于制备本发明的多肽之一,或者含有本发明的多肽之一的至少5、10、15、20、25、30、35、40、50、75、100或150或更多个连续氨基酸的片段。因此,本发明的另一方面是分离的或重组的核酸,其编码本发明的多肽的一种,或者含有本发明的多肽之一的至少5、10、15、20、25、30、35、40、50、75、100或150或更多个连续氨基酸的片段。这些核酸的编码序列可以与本发明的核酸之一的编码序列之一相同或者可以是不同的编码本发明的多肽之一的编码序列,所述的多肽具有本发明的多肽之一的至少5、10、15、20、25、30、35、40、50、75、100或150或更多个连续氨基酸,这是遗传密码子的冗余性或简并性的结果。遗传密码子对于本领域技术人员是熟知的,并可以例如在B. Lewin, GenesVI, Oxford University Press, 1997 的第 214 页上得到。编码本发明的多肽的核酸包括但不限于本发明的核酸的编码序列和另外的编码序列,例如前导序列或蛋白原序列(proprotein sequences),以及非编码序列,例如内含子,或编码序列的5’和/或3’非编码序列。因此,如在本发明中所使用,术语“编码多肽的多核苷酸”包括多核苷酸,其包括多肽的编码序列以及包含另外的编码和/或非编码序列的多核苷酸。一方面,使用常规技术,例如定点诱变或本领域技术人员熟悉的其它技术,本发明的核酸序列被诱变,以将沉默改变引入本发明的多核苷酸。如本文所使用,“沉默改变(silent changes)”包括,例如不改变由所述多核苷酸编码的氨基酸序列的改变。这样的改变可能是期望的,以通过引入在宿主微生物中频繁发生的密码子或密码子对而增加由宿主产生多肽的水平,该宿主含有编码所述多肽的载体。本发明还涉及具有核苷酸改变的多核苷酸,所述核苷酸改变在本发明的多肽中导致氨基酸取代、添加、缺失、融合和截短。使用技术例如定点诱变、随机化学诱变、外切核酸酶III删除和其它重组DNA技术,可以导入这样的核苷酸改变。可选地,这样的核苷酸改变可以是天然存在的等位基因变体,其通过鉴定在本文所提供的高严紧条件、中度严紧条件或低严紧条件下特异性杂交到探针的核酸而分离出,所述探针含有本发明的序列(或其互补序列)之一的至少 10、15、20、25、30、35、40、50、75、100、150、200、300、400 或 500 或更多个连续碱基。
一般技术用于实践本发明的核酸,不管是RNA、siRNA、miRNA、反义核酸、cDNA、基因组DNA、载体、病毒或其杂合体,都可以从多种来源分离、进行遗传工程改造、扩增和/或表达/重组产生。从这些核酸产生的重组多肽(例如纤维素酶,如内切葡聚糖酶、纤维二糖水解酶、甘露 聚糖酶和/或β_葡糖苷酶)可以被单独地分离或克隆,并且可测试其期望活性。可以使用任何重组表达系统,包括细菌、哺乳动物、酵母、昆虫或植物细胞表达系统。可以选择地,这些核酸可以通过熟知的化学合成技术体外合成,正如例如 Adams (1983)J.Am.Chem.Soc. 105:66 I ;BeIousov (1997)Nuc Ieic AcidsRes.25:3440-3444;Frenkel(1995)Free Radic.Biol.Med.19:373-380;Blommers(1994)Biochemistry 33:7886-7896;Narang(1979)Meth. EnzymoI. 68:90;Brown(1979)Meth.Enzymol. 68:109; Beaucage (1981)Tetra. Lett. 22:1859 ;美国专利 4, 458, 066 中所描述的。用于操纵核酸的技术,例如亚克隆、标记探针(例如使用Klenow聚合酶的随机引物标记、切口平移、扩增)、测序、杂交以及类似的技术在科学和专利文献中有很好的描述,例如参见 Sambrook 编著,MOLECULAR CLONING: A LABORATORY MANUAL (2ND ED. ),1-3卷,Cold Spring Harbor Laboratory, (1989);CURRENT PROTO⑶LS IN MOLECULARBIOLOGY, Ausubel, ed. John ffiley&Sons, Inc.,New York(1997);LABORATORY TECHNIQUESIN BIOCHEMISTRY AND MOLECULAR BIOLOGY:HYBRIDIZATION WITH NUCLEIC ACIDPROBES, Part I.Theory and Nucleic Acid Preparation,Tssen,ed. Elsevier, N.Y. (1993)。获得和操纵用于实践本发明的方法的核酸的另一个有用方法是从基因组样品中克隆,并且如果期望的话,筛选和再克隆插入物,插入物可以分离或扩增自例如基因组克隆或cDNA克隆。用于本发明的方法中的核酸的来源包括基因组或cDNA文库,所述文库可以包含在例如哺乳动物人工染色体(MACs),例如参见美国专利5,721,118 ;6,025,155 ;人类人工染色体,例如参见Rosenfeld (1997) Nat. Genet. 15 :333-335 ;酵母人工染色体(YAC);细菌人工染色体(BAC) ;P1人工染色体,例如参见Woon (1998) Genomics 50 :306-316 ;P1来源的载体(PACs),例如参见Kern (1997) Biotechniques 23 :120-124 ;粘粒、重组病毒、噬菌体或质粒中。一方面,编码本发明的多肽的核酸与能指导翻译出的多肽或其片段的分泌的前导序列以适当的位置关系进行装配。
本发明提供了融合蛋白和编码这些融合蛋白的核酸。本发明的多肽可以被融合到异源肽或多肽上,如N-末端鉴定肽,其给予了期望的特性,如增加的稳定性或简化的纯化特性。本发明的肽和多肽也可以作为融合蛋白被合成和表达,其中所述融合蛋白中连接有一个或多个额外的结构域,例如用于产生免疫原性更强的肽、以便更易于分离重组合成的肽、以便鉴定和分离抗体和表达抗体的B细胞,等等。有利于检测和纯化的结构域包括,例如金属螯合肽,如多组氨酸标记和组氨酸-色氨酸模块,其允许在固定的金属上纯化,还包括蛋白A结构域,其允许在固定的免疫球蛋白上纯化,还包括在FLAGS延伸/亲和纯化系统中所使用的结构域(Immunex Corp, Seattle WA)。在纯化结构域和含有基序的肽或多肽之间包含可切裂的连接子序列有助于纯化,这样的连接子序列例如Xa因子或肠激酶(Invitrogen, San Diego CA)。例如,表达载体可以包括编码表位的核酸序列,其连接到六组氨酸残基上,还连接有硫氧还蛋白和肠激酶切割位点(例如参见Williams (1995)Biochemistry 34:1787-1797 ;Dobeli (1998)Protein Expr. Purif. 12 :404-414)。组氨酸残基有助于检测和纯化,而肠激酶切割位点提供了将表位与融合蛋白的剩余部分纯化分离开的手段。关于编码融合蛋白的载体的技术以及融合蛋白的应用在科学和专利文献中进行了很好的描述,例如参见 Kroll (1993) DNA Cell. Biol.,12:441-53。
转录和翻译控制序列本发明提供了可操作地连接到一个或多个表达(例如转录或翻译)控制序列上的本发明的核酸(例如DNA)序列,所述控制序列例如启动子或增强子,它们可以指导或调节RNA合成/表达。表达控制序列可以在表达载体中。示例性的细菌启动子包括lacI、lacZ、T3、T7、gpt、λ PR、PL和trp。示例性的真核启动子包括CMV即时早期启动子、HSV胸苷激酶启动子、早期和晚期SV40启动子、来自逆转录病毒的LTR启动子以及鼠金属硫蛋白I启动子。如本文所使用,术语“启动子”包括能够驱动编码序列在细胞中如植物或动物细胞中转录的所有序列。因此,在本发明的构建物中所用的启动子包括顺式作用转录控制元件和调节序列,它们涉及调节或调控基因转录的时间和/或速率。例如,启动子可以是顺式作用转录控制元件,包括增强子、启动子、转录终止子、复制起点、染色体整合序列、5’和3’非翻译区或内含子序列,它们均涉及转录的调节。这些顺式作用序列通常与蛋白或其它生物分子互相作用来执行(打开/关闭、调节、调控等等)转录。“组成型”启动子是那些在大部分环境条件和发育状态或细胞分化状态下持续地驱动表达的启动子。“诱导型”或“可调控型”启动子在环境条件或发育条件的影响下指导本发明的核酸的表达。可以通过诱导型启动子影响转录的环境条件的实例包括无氧条件、增高的温度、干旱或光的存在。“组织特异性”启动子是仅仅在特定细胞或组织或器官中有活性的转录控制元件,例如在植物或动物的特定细胞或组织或器官中有活性。组织特异性调节可以通过某些内在因子来实现,这些内在因子确保对给定组织特异的蛋白编码基因被表达。这样的因子已知存在于哺乳动物和植物中,以便允许特异性组织的发育。适合于在细菌中表达多肽的启动子包括大肠杆菌Iac或trp启动子、IacI启动子、IacZ启动子、T3启动子、T7启动子、gpt启动子、λ PR启动子和λ PL启动子、来自编码糖酵解酶如3-磷酸甘油酯激酶(PGK)的操纵子的启动子、以及酸性磷酸酶启动子。真核启动子包括CMV即时早期启动子、HSV胸苷激酶启动子、热激启动子、早期和晚期SV40启动子、来自逆转录病毒的LTRs、以及小鼠金属硫蛋白-I启动子。也可以使用已知在原核或真核细胞或它们的病毒中控制基因表达的其它启动子。适合于在细菌中表达多肽或其片段的启动子包括大肠杆菌Iac或trp启动子、IacI启动子、IacZ启动子、T3启动子、T7启动子、gpt启动子、入匕启动子和λ匕启动子、来自编码糖酵解酶如3-磷酸甘油酯激酶(PGK)的操纵子的启动子、以及酸性磷酸酶启动子。真菌启动子包括α-因子启动子。真核启动子包括CMV即时早期启动子、HSV胸苷激酶启动子、热激启动子、早期和晚期SV40启动子、来自逆转录病毒的LTRs以及小鼠金属硫蛋白-I启动子。也可以使用已知在原核或真核细胞或它们的病毒中控制基因表达的其它启动子。
组织特异性植物启动子本发明提供了可以以组织特异性方式表达的表达序列盒,例如可以以组织特异性方式表达本发明的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶的表达序列盒。本发明也提供了以组织特异性方式表达本发明纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的植物或种子。组织特异性可以是种子特异性、茎特异性、叶特异性、根特异性、果实特异性以及类似的方式。 术语“植物”包括全植物、植物部分(例如叶、茎、花、根等等)、植物原生质体、种子和植物细胞以及它们的后代。可以用于本发明的方法中的植物的种类很广泛,广泛至能用转化技术进行处理的高等植物,包括被子植物(单子叶植物和双子叶植物),以及裸子植物。它们包括各种倍数性水平的植物,包括多倍体、二倍体、单倍体和半合子植物。正如此处所用,术语“转基因植物”包括异源核酸序列已经被插入到其中的植物或植物细胞,所述异源核酸序列例如本发明的核酸和各种重组构建物(例如表达序列盒)。一方面,组成型启动子如CaMV 35S启动子可以被用于在植物或种子的特定部分或在整个植物中的表达。例如,为了过度表达,可以使用植物启动子片段,其将指导核酸在植物例如再生植物的一些或所有组织中表达。此处,这样的启动子被称作“组成型”启动子,它们在大部分环境条件和发育或细胞分化状态下是有活性的。组成型启动子的实例包括花椰菜花叶病毒(CaMV) 35S转录起始区、来自根瘤农杆菌的T-DNA的I’或2’启动子、以及来自本技术领域已知的多种植物基因的其它转录起始区。这样的基因包括,例如来自拟南芥(Arabidopsis)的 ACTll (Huang (1996) Plant Mol. Biol. 33:125-139);来自拟南芥的 Cat3 (Genbank No. U43147, Zhong (1996)Mol. Gen. Genet. 251:196-203);来自甘蓝型油菜(Brassica napus)的编码硬酯酰基-酰基载体蛋白去饱和酶的基因(Genbank No. X7 4782, Solocombe (1994) Plant Physiol. 104:1167-1176);来自玉米的GPcl (Genbank No.X15596;Martinez(1989)J. Mol. Biol. 208:551-565);来自玉米的Gpc2 (Genbank No. U45855; Manjunath (1997) Plant. Mol. Biol. 33:97-112);在美国专利4,962,028; 5, 633,440中描述的植物启动子。本发明使用来自病毒的组织特异性或组成型启动子,这些启动子可以包括,例如烟草花叶病毒亚基因组启动子(Kumagai (1995)Proc. Natl. Acad. Sci. USA92:1679-1683 ;稻米东格鲁杆状病毒(RTBV),该病毒仅在受感染稻米植物中的韧皮细胞中复制,它的启动子驱动强的韧皮特异性报道基因的表达;木薯脉带花叶病毒(CVMV)启动子,其在导管、叶中轴细胞、根尖中具有最高活性(Verdaguer (1996)Plant Mol. Biol. 31:1129-1139)。一方面,植物启动子指导表达纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的核酸表达于特定组织、器官或细胞类型中(即,组织特异启动子),或者可以在更加精确的环境或发育控制下或在诱导型启动子的控制下指导表达纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的核酸的表达。可以影响转录的环境条件的例子包括厌氧条件、提高温度、有光或喷撒化学品/激素。例如,本发明包括玉米的干旱诱导型启动子(Busk (1997)如上),马铃薯的寒冷、干旱、高盐诱导型启动子(Kirch (1997) Plant Mol. Biol. 33:897909)。一方面,组织特异性启动子只在该组织的发育阶段的某个时间段内促进转录。参见,例如描述拟南芥LEAFY基因启动子的Blazquez (1998)Plant Celll0:791_800。也见,描述转录因子 SPL3 的 Cardon (1997)Plant J 12:367-77,SPL3 识别拟南芥(A. thaliana)的调节植物分生组织形成的基因(meristem identity gene) API的启动子区域的保守序列基序;和描述分生组织启动子eIF4的Mandel (1995) Plant Molecular Biology,29卷,995-1004页。可以使用在特定组织的整个生命周期都具有活性的组织特异性启动子。一方面,本发明的核酸与主要在棉花纤维细胞中有活性的启动子可操作地连接。一方面,本发明的核酸与主要在棉花纤维细胞伸长的阶段具有活性的启动子可操作地连接,例如,Rinehart (1996) supra所描述的。核酸可以与Fbl2A基因启动子可操作地连接, 这样它将偏好在棉花纤维细胞(Ibid)中表达。也见John (1997) Proc. Natl. Acad. Sci.USA 89:5769-5773 John等,美国专利5,608,148和5,602,321,描述了用于构建转基因棉花植物的棉花纤维特异性启动子和方法。也可以使用根特异性启动子来表达本发明的核酸。根特异性启动子的例子包括乙醇脱氢酶基因中的启动子(DeLisle (1990) Int. Rey.Cytol. 123:39-60)。也可以使用别的启动子来表达本发明的核酸,包括,例如,胚珠特异的、胚芽特异的、胚乳特异的、珠柄特异的、种皮特异的启动子或它们的组合;叶特异的启动子(见,例如,Busk (1997) Plant J. 11:12851295,描述玉米的叶特异的启动子);发根农杆菌(Agrobacterium rhizogenes)的0RF13启动子(0RF13启动子在根部表现出高活性,见,例如Hansen (1997)如上);玉米花粉特异性启动子(见,例如Guerrero (1990) Mol. Gen.Genet. 224:161168);番茄启动子,其在果实成熟、变老、从叶上脱落的过程中有活性,在花中具有低一些的活性(见,例如,Blume (1997)Plant J. 12:731746);马铃薯SK2基因的雌蕊特异性启动子(见,例如 Ficker (1997) Plant Mol. Biol. 35:425431);豌豆的 Blec4 基因,Blec4基因在蔬菜的表皮组织和转基因苜蓿的花梗顶中具有活性,这使它成为使外源基因靶向表达于活跃地生长的芽或纤维的表皮层的有用工具;胚珠特异的BELl基因(见,例如,Reiser (1995) Cell 83:735-742,GenBank 号:U39944);和 / 或 Klee,美国专利 5,589,583中的启动子,描述了一种植物启动子区域,其可导致在分生组织和/或快速分裂细胞中的高水平转录。一方面,经由对植物激素例如植物生长素的暴露便能被诱导的植物启动子可用于表达本发明的核酸。例如,本发明可以使用大豆(Glycine max L.)的植物生长素响应元件El 启动子片段(AuxREs) (Liu (1997)Plant Physiol. 115:397-407);植物生长素响应的拟南芥GST6启动子(也对水杨酸和过氧化氢产生响应)(Chen (1996)Plant J. 10:955-966);烟草的植物生长素诱导的ParC启动子(Sakai (1996) 37:906-913);植物生物素响应元件(Streit (1997) Mol. Plant Microbe Interact. 10:933-937);和对应激激素脱落酸产生响应的启动子(Sheen (1996) Science 274:1900-1902)。
本发明的核酸也可以与植物启动子可操作地连接,所述植物启动子暴露于施用于植物的化学试剂例如除草剂或抗生素,便能够被诱导。例如,可以使用由苯磺酰胺除草剂安全剂活化的玉米 In2-2 启动子(De Veylder (1997) Plant Cell Physiol. 38:568-577);不同的除草剂安全剂的应用诱导不同的基因表达模式,包括在根中、排水器中和芽尖分生组织中的表达。编码序列可以处于例如四环素诱导的启动子的控制下,例如,针对含有燕麦(Avena sativa L. ) (oat)精氨酸脱羧酶基因的转基因烟草植物所描述的(Masgrau(1997)Plant J. 11:465-473);或者处于水杨酸响应元件的控制之下(Stange (1997)PlantJ. 11:1315-1324 )。使用化学(例如,激素或杀虫剂)诱导的启动子,S卩,对施用于田间的转基因植物的化学剂发生响应的启动子,本发明的多肽的表达可以在植物发育的特定阶段被诱导。所以,本发明也提供含有可诱导基因的转基因植物,所述可诱导基因编码本发明的多肽,其宿主范围局限于靶向植物种类,例如玉米、稻、大麦、大豆、番茄、小麦、马铃薯或别的作物,并且所述可诱导基因在作物发育的任何阶段都可被诱导。本领域技术人员会认识到,组织特异性的植物启动子可能驱动可操作地连接的序列在不是靶组织的组织中表达。因此,一方面,组织特异性启动子是驱动在靶组织或细胞类型中产生优势表达的启动子,但是也可以导致在别的组织中的一些表达。 本发明的核酸也可以与在暴露于化学试剂时被诱导的植物启动子可操作地连接。这些试剂包括例如,除草剂、合成的植物生长激素或抗生素,它们可以通过例如喷雾施用于转基因植物。本发明的产生纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的核酸的诱导型表达将允许栽培者对具有最佳的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶表达和/或活性的植物进行选择。植物部分的发育也可以因此被控制。这样,本发明提供了促进植物和植物部分的收获的方法。例如,在许多实施方式中,玉米的由苯磺酰胺除草剂安全剂活化的玉米Ιπ2-2启动子被使用(De Veylder (1997) Plant Cell Physiol. 38:568-577);应用不同的除草剂安全剂诱导出不同的基因表达模式,包括在根中、排水器中、芽尖分生组织中的表达。本发明的编码序列也可以处于四环素诱导的启动子的控制之下,例如,对含有燕麦(Avena sativa L. ) (oat)精氨酸脱羧酶基因的转基因烟草植物的描述(Masgrau(1997)Plant J. 11:465-473);或者,可以由水杨酸响应元件控制(Stange (1997) Plant J. 11:1315-1324)。在一些方面,适当的多肽表达可能要求在该编码区域的3’端具有多聚腺苷酸化区域。多聚腺苷酸化区域可以源自天然基因、各种类别的其它植物(或者动物或其它)基因或者农杆菌T-DNA中的基因。
表达载体和克隆载体本发明提供包括本发明的核酸例如编码本发明的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶的序列的表达载体和克隆载体。本发明的表达载体和克隆载体可以包括病毒颗粒、杆状病毒、噬菌体、质粒、噬菌粒(phagemi ds )、粘粒、fos-质粒(fosmids)、细菌人工染色体、病毒DNA (例如疫苗、腺病毒、禽痘病毒、伪狂犬病病毒和SV40的衍生物)、Pl衍生的人工染色体、酵母质粒、酵母人工染色体和任何别的对感兴趣的特定宿主(例如,杆状菌、曲霉和酵母)有特异性的载体。本发明的载体可以包括染色体、非染色体和合成的DNA序列。大量的合适的载体对于本领域技术人员都是已知的,并且可以商业获得。典型的载体包括细菌=PQE载体(Qiagen)、pBLUESCRIPT 质粒、pNH载体、λ -ZAP 载体(Stratagene);ptrc99a、PKK223_3、pDR540、pRIT2T (Pharmacia);真核细胞的PXTl、pSG5 (Stratagene)、pSVK3、pBPV、pMSG、pSVLSV40 (Pharmacia)。然而,也可以使用任何别的质粒或别的载体,只要它们可以在宿主中复制和维持下去。可以在本发明中使用低拷贝数或高拷贝数的载体。“质粒”可以商购得到,在不受限制的基础上可以公开获得,或可以根据已公开的程序用可获得的质粒来构建。与本文描述的那些质粒等价的质粒在本技术领域是已知的,并且对于普通技术人员是显而易见的。表达载体可以包括启动子、用于起始翻译的核糖体结合位点和转录终止子。载体也可以包括用于扩增表达的合适序列。哺乳动物表达载体可以包括复制原点、任何必需的核糖体结合位点、聚腺苷酸化位点、剪接供体和受体位点、转录终止序列、5’侧翼非转录序列。在一些方面,衍生于SV40剪接子和聚腺苷酸化位点的DNA序列可以用于提供所需要的非转录基因元件。
在一个方面,表达载体含有一个或多个选择性标记基因,使得可以对含有该载体的宿主细胞进行选择。这样的选择性标记包括编码二氢叶酸还原酶的基因和使得真核细胞培养物具有新霉素抗性的基因、使得大肠杆菌(E. coli)具有四环素或氨苄青霉素抗性的基因和酿酒酵母(S. cerevisiae)TRP1基因。启动子区域可以从任何期望的基因中选择出来,使用氯霉素转移酶(CAT )载体或具有选择标记的别的载体。在一个发明,用于在真核细胞中表达多肽或其片段的载体含有增强子,以增加表达水平。增强子是DNA的顺式作用元件,一般长度为大约10到大约300bp。它们作用于启动子,增强其转录。示例性增强子包括在复制原点下游侧IOObp到270bp的SV40增强子、巨细胞病毒早期启动子增强子、在复制原点下游侧的多瘤增强子,和腺病毒增强子。核酸序列可以通过各种程序插入载体中。一般而言,将插入物和载体用合适的限制性内切酶消化后,序列可以连接到载体中的所希望的位置。可选择地,插入物和载体的平末端可以被连接。在本领域已知多种克隆技术,例如在Ausubel和Sambrook中描述的。这样的程序和别的程序被认为在本领域技术人员的范围内。载体可以是质粒、病毒颗粒或噬菌体的形式。别的载体包括染色体的、非染色体的和合成的DNA序列,SV40的衍生物;细菌质粒、噬菌体DNA、杆状病毒、酵母质粒、衍生于质粒和噬菌体DNA的组合的载体、病毒DNA例如牛痘、腺病毒、禽痘病毒和伪狂犬病病毒DNA。在原核和真核宿主中使用的各种克隆和表达载体被例如Sambrook描述。可以使用的特定的细菌载体包括商业上可获得的质粒,其包括以下已知的克隆载体的遗传元件pBR322 (ATCC 37017)、pKK223_3 (Pharmacia FineChemicals, Uppsala, Sweden)> GEMl (Promega Biotec, Madison, WI, USA)、pQE70、pQE60、pQE-9 (Qiagen)、pDIO、psiX174pBluescript II KS、pNH8A、pNH16a、pNH18A、pNH46A(Stratagene)> ptrc99a> pKK223_3、pKK233_3、DR540、pRIT5 (Pharmacia)、pKK232_8 和pCM7。特定的真核载体包括 pSV2CAT、p0G44、pXTl、pSG (Stratagene) pSVK3、pBPV、pMSG 和PSVL (Pharmacia)。然而,可以使用任何别的载体,只要它可以在宿主细胞中复制和维持。本发明的核酸可以在表达序列盒、载体或病毒中表达,在植物细胞和种子中短暂地或稳定地表达。一个示例性的短暂表达系统应用了附加体(印isomal)表达系统,例如,通过含有超螺旋DNA的附加小染色体的转录而在核中产生的花椰菜花叶病毒(CaMV)病毒RNA,见,例如,Covey (1990)Proc. Natl. Acad. Sci. USA87:1633-1637。作为选择,编码序列,即本发明的序列的全部或子片段,可以插入到植物宿主细胞基因组中,而成为该宿主染色体DNA的整合部分。正义和反义转录子可以以这种方式被表达。包含本发明的核酸的序列(例如,启动子或编码区域)的载体可以包含赋予植物细胞或种子选择性表型的标记基因。例如,所述标记可以编码生物杀灭剂抗性,特别是抗生素抗性,例如对卡那霉素、G418、博来霉素、潮霉素或除草剂的抗性,例如对氯磺隆或Basta的抗性。可以在植物中表达核酸和蛋白的表达载体在本领域中是熟知的,可以包括,例如,根瘤农杆菌的载体、马铃薯病毒X (见,例如,Angell (1997) EMBO J. 16:3675-3684)、烟草花叶病病毒(见,例如,Casper (1996) Gene 173:69-73)、番茄丛矮病毒(见,例如,Hillman (1989) Virology 169:42-50)、烟草蚀纹病毒(见,例如,Dolja (1997)Virology234:243-252)、菜豆金色花叶病毒(见,例如,Morinaga (1993) Microbiolinimunol. 37:471-476)、花椰菜花叶病毒(见,例如,Cecchini (1997) Mol. Plant MicrobeInteract. 10:1094-1101)、玉米 Ac/Ds 转座兀件(见,例如,Rubin (1997) Mol. Cell.Biol. 17:6294-6302 ;Kunze (1996)Curr. Top.Microbiol. Inimunol. 204:161-194),和玉米抑制基因-突变基因(Spm)转座元件(见,例如Schlappi (1996) Plant Mol.Biol. 32:717-725);和它们的衍生物。·在一个方面,表达载体可以有两套复制系统,使其可以在两种生物中保持,例如在哺乳动物或昆虫细胞中表达,在原核宿主中克隆和扩增。进一步,对于整合表达载体,该表达载体可以包括至少一个与宿主细胞基因组同源的序列。它可以在该表达构建物的两侧包含两个同源序列。通过选择包含入载体的合适的同源序列,可以将该整合载体定位到宿主细胞的特定位置。整合载体的构建在本领域是已知的。本发明的表达载体也可以包括选择性的标记基因,以便对已经转化的细菌株进行选择,例如,使细菌对药物,例如氨苄青霉素、氯霉素、红霉素、卡那霉素、新霉素和四环素产生抗性的基因。选择性的标记也可以包括生物合成基因,例如在组氨酸、色氨酸和亮氨酸生物合成途径中的基因。表达载体中的DNA序列被可操纵连接到合适的表达控制序列(一种或多种)(启动子),以指导RNA合成。具体命名的细菌启动子包括lacl、lacZ、T3、T7、gpt、λ Ρκ、λ P1和trp。真核启动子包括CMV即时早期启动子、HSV胸苷激酶启动子、早期和晚期SV40启动子、来自逆转录病毒的LTRs以及小鼠金属硫蛋白-I启动子。选择合适的载体和启动子在本领域技术人员的水平之内。表达载体还可以包括用于起始翻译的核糖体结合位点和转录终止子。载体也可以包括用于扩增表达的合适序列。启动子区域可以从任何期望的基因中选择出来,使用氯霉素转移酶(CAT)载体或具有选择标记的别的载体。此外,在一个方面,表达载体含有一个或多个选择性标记基因,以提供用于选择被转化的宿主细胞的表型特征,例如用于真核细胞培养的二氢叶酸还原酶或新霉素抗性,或例如大肠杆菌中的四环素或氨苄青霉素抗性。哺乳动物表达载体还可以包括复制原点、任何必需的核糖体结合位点、聚腺苷酸化位点、剪接供体和受体位点、转录终止序列和5’侧翼非转录序列。在一些方面,衍生于SV40剪接子的DNA序列和聚腺苷酸化位点可以用于提供所需要的非转录基因元件。用于在真核细胞中表达多肽或其片段的载体也可以含有增强子,以增加表达水平。增强子是DNA的顺式作用元件,一般长度为大约10到大约300bp,其作用于启动子,增强其转录。示例性增强子包括在复制起点下游侧IOObp到270bp的SV40增强子、巨细胞病毒早期启动子增强子、在复制起点下游侧的多瘤增强子,和腺病毒增强子。此外,表达载体含有一个或多个选择性标记基因,使得可以对含有该载体的宿主细胞进行选择。这样的选择性标记包括编码二氢叶酸还原酶的基因和使得真核细胞培养物具有新霉素抗性的基因、使得大肠杆菌(E. coli)具有四环素或氨苄青霉素抗性的基因和酿酒酵母(S. cerevisiae) TRPl 基因。在一些方面中,编码本发明的多肽之一或含有其至少大约5、10、15、20、25、30、35、40、50、75、100或150或更多个连续氨基酸的片段的核酸与能指导翻译出的多肽或其片段的分泌的前导序列以适当的位置关系进行装配。一方面,该核酸可以编码融合蛋白,其中本发明的多肽之一或含有其至少大约5、10、15、20、25、30、35、40、50、75、100或150或更多个连续氨基酸的片段被融合到异源肽或多肽,例如N-末端鉴定肽,其给予了期望的特性,如增加的稳定性或简化的纯化特性。合适的DNA序列可以通过各种程序插入载体中。一般而言,将插入物和载体用合 适的限制性内切酶消化后,DNA序列可以连接到载体中的所希望的位置。可选择地,插入物和载体的平末端可以被连接。多种克隆技术被公开于Ausubel et al. Current Protocolsin Molecular Biology, John Wiley 503 Sons, Inc. 1997 和 Sambrook et al, MolecularCloning:A Laboratory Manual 2nd Ed. , Cold Spring Harbor Laboratory Press (1989)。这样的程序和别的程序被认为在本领域技术人员的范围内。载体可以是例如质粒、病毒颗粒或噬菌体的形式。别的载体包括染色体的、非染色体的和合成的DNA序列,SV40的衍生物;细菌质粒、噬菌体DNA、杆状病毒、酵母质粒、衍生于质粒和噬菌体DNA的组合的载体、病毒DNA例如牛痘、腺病毒、禽痘病毒和伪狂犬病病毒DNA。在原核和真核宿主中使用的各种克隆和表达载体在Sambrook, et al, MolecularCloning:A Laboratory Manual, 2nd Ed. , Cold Spring Harbor, N. Y. , (1989)中描述。
宿主细胞和转化细胞本发明也提供了包含本发明的核酸序列的转化细胞,所述核酸序列例如编码本发明的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的序列,或本发明的载体。宿主细胞可以是本领域技术人员熟悉的任何宿主细胞,包括原核细胞,真核细胞,例如,细菌细胞、真菌细胞、酵母细胞、哺乳动物细胞、昆虫细胞或植物细胞。示例性的细菌细胞包括链霉菌属、葡萄球菌属或杆菌属的任何种,或者示例性种大肠杆菌、枯草芽孢杆菌(Bacillus subtil is)、腊状芽孢杆菌(Bacillus cereus)、鼠伤寒沙门氏菌(Salmonella typhimurium)。示例性的昆虫细胞包括草地夜蛾属(Spodoptera)或果蚬属(Drosophila)的任何种,包括果蝇S2和草地夜蛾(Spodoptera)Sf9。示例性的动物细胞包括CH0、C0S或黑色素瘤细胞或任何鼠或人的细胞系。合适的宿主的选择在本领域技术人员的能力范围内。转化各种高等植物种类的技术是已知的,在技术和科学文献中有描述,见,例如,Weising (1988) Ann. Rey. Genet. 22:421-477 ;美国专利 5,750,870。载体可以使用各种技术导入宿主细胞中,包括转化、转染、转导、病毒感染、基因枪或者Ti介导的基因转移。具体的方法包括磷酸钙转染、DEAE-Dextran介导的转染、月旨转染法(Iipofection)或电穿孔(Davis, L.,Dibner, M.,Battey, I. , Basic Methods inMolecular Biology,(1986))。
一方面,本发明的核酸或载体导入细胞是为了筛选,所以,所述核酸是以合适于该核酸的后续表达的方式进入细胞。导入的方法大体上由靶细胞类型决定。示例性的方法包括CaPO4沉淀法、脂质体融合、脂转染法(例如,LIP0FECTIN )、电穿孔法、病毒感染法,等等。候选的核酸可以稳定地整合到宿主细胞基因组中(例如,用反转录病毒导入)或者可以短暂的或稳定的存在于细胞质中(即,通过使用传统的质粒,利用标准的调控序列、选择标记,等等)。因为许多药学上重要的筛选要求人或模型哺乳动物靶细胞,所以可以使用能够转染这些靶的反转录病毒载体。在适当的情况下,工程宿主细胞可以在传统的营养培养基中培养,所述营养培养基经改良而适于激活启动子、选择转化子或扩增本发明的基因。在合适的宿主株被转化和宿主株生长到合适的细胞密度之后,用合适的方法(例如,温度变化或化学诱导)诱导被选择的启动子,细胞再培养一段时期,使得它们产生所需的多肽或其片段。细胞可以通过离心收获,通过物理或化学方法破碎,保留得到的粗提物以用于进一步的纯化。被用来表达蛋白质的微生物细胞可以用任何常规方法破碎,包括冷冻-融解循环、超声波裂解法、机械破碎法或使用细胞裂解试剂。这些方法为本领域技术人员所熟·知。表达的多肽或其片段可以从重组细胞培养物中通过包括硫酸铵或乙醇沉淀、酸提取、阴离子或阳离子交换色谱、磷酸纤维素色谱、疏水作用色谱、亲和色谱、羟基磷灰石色谱和凝集素色谱在内的方法回收和纯化。假如必要的话,可以应用蛋白质重折叠来完成多肽的构象。假如需要的话,在最终的纯化步骤中可以采用高效液相色谱(HPLC)。宿主细胞中的构建物可以以传统方式用于产生由重组序列编码的基因产物。取决于重组生产方法中所用的宿主,由含有载体的宿主细胞产生的多肽可以糖基化或者非糖基化。本发明的多肽也可以包括或不包括起始甲硫氨酸残基。也可以采用无细胞的翻译系统来产生本发明的多肽。无细胞翻译系统可以应用由DNA构建物转录得到的mRNA,所述DNA构建物包括与编码所述多肽或其片段的核酸可操作地连接的启动子。在一些方面,该DNA构建物在进行体外转录反应之前可以被线性化。转录得到的mRNA然后与合适的无细胞翻译提取物例如兔网状细胞提取物温育,产生所需的多肽或其片段。表达载体可以含有一个或多个选择性标记基因,为选择转化宿主细胞提供表型特征,例如真核细胞培养物的二氢叶酸还原酶或新霉素抗性,或者例如大肠杆菌的四环素或
氨苄青霉素抗性。含有感兴趣多核苷酸如本发明的核酸的宿主细胞可以在传统的营养培养基中培养,所述营养培养基经改良而适于激活启动子、选择转化子或扩增基因。培养条件例如温度、PH和类似条件是先前选择宿主细胞用于表达所使用的培养条件,对于普通技术人员是明显的。然后,被鉴定为具有指定的酶活性的克隆被测序,以鉴定编码具有增强活性的酶的多核苷酸序列。本发明提供了在细胞中过度表达重组纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的方法,该方法包括表达含有本发明的核酸的载体,本发明的核酸例如包含在至少约100个残基的区域内与本发明的示例性序列具有至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或更高的序列同一性的核酸序列的
核酸,其中序列同一性通过使用序列比较算法的分析或通过视觉观察来确定;或者在严紧条件下与本发明的核酸序列杂交的核酸。过度表达通过任何方式例如使用高活性启动子、双顺反子(dicistronic)载体或通过该载体的基因扩增来实现。本发明的核酸可以在任何体外或体内表达系统中被表达或过度表达。任何细胞培养系统可被用于表达或过度表达重组蛋白,包括细菌、昆虫、酵母、真菌或哺乳动物培养物。通过启动子、增强子、载体(例如,复制子载体、双顺反子载体的使用(见,例如Gurtu(1996)Biochem. Biophys. Res. Commun. 229:295_8))、培养基、培养系统等等的合适选择,可以实现过度表达。一方面,使用选择标记如谷氨酰胺合酶(见,例如Sanders (1987) Dev. Biol.Stand. 66:55-63)在细胞系统中进行的基因扩增被用于过度表达本发明的多肽。宿主细胞可以是本领域技术人员熟悉的任何宿主细胞,包括原核细胞,真核细胞,例如,细菌细胞、真菌细胞、酵母细胞、哺乳动物细胞、昆虫细胞或植物细胞。合适的宿主的选择在本领域技术人员的能力范围内。
载体可以使用各种技术导入宿主细胞中,包括转化、转染、转导、病毒感染、基因枪或者Ti介导的基因转移。具体的方法包括磷酸钙转染、DEAE-Dextran介导的转染、月旨转染法(Iipofection)或电穿孔(Davis, L.,Dibner, M.,Battey, I. , Basic Methods inMolecular Biology,(1986))。在适当的情况下,工程宿主细胞可以在传统的营养培养基中培养,所述营养培养基经改良而适于激活启动子、选择转化子或扩增本发明的基因。在合适的宿主株被转化和宿主株生长到合适的细胞密度之后,用合适的方法(例如,温度变化或化学诱导)诱导被选择的启动子,细胞再培养一段时期,使得它们产生所需的多肽或其片段。细胞可以通过离心收获,通过物理或化学方法破碎,保留得到的粗提物以用于进一步的纯化。被用来表达蛋白质的微生物细胞可以用任何常规方法破碎,包括冷冻-融解循环、超声波裂解法、机械破碎法或使用细胞裂解试剂。这些方法为本领域技术人员所熟知。表达的多肽或其片段可以从重组细胞培养物中通过包括硫酸铵或乙醇沉淀、酸提取、阴离子或阳离子交换色谱、磷酸纤维素色谱、疏水作用色谱、亲和色谱、羟基磷灰石色谱和凝集素色谱在内的方法回收和纯化。假如必要的话,可以应用蛋白质重折叠来完成多肽的构象。假如需要的话,在最终的纯化步骤中可以采用高效液相色谱(HPLC)。各种哺乳动物细胞培养系统也可以被用于表达重组蛋白。哺乳动物表达系统的实例包括猴肾成纤维细胞的C0S-7系(由Gluzman,Cell, 23:175,1981描述),以及能从相容载体表达蛋白的其它细胞系,如C127、3T3、CH0、HeLa和BHK细胞系。宿主细胞中的构建物可以以传统方式用于产生由重组序列编码的基因产物。根据重组产生方法中所用的宿主,由含有载体的宿主细胞产生的多肽可以糖基化或者非糖基化。本发明的多肽也可以包括或不包括起始甲硫氨酸残基。可选地,本发明的多肽,或者含有其至少大约5、10、15、20、25、30、35、40、50、75、
100或150或更多个连续氨基酸的片段,可以通过常规肽合成仪合成产生,例如,如下面所讨论。在其它方面,通过肽合成,所述多肽的片段或部分可以被用于产生相应的全长多肽;因此,所述片段可用作产生全长多肽的中间物。也可以采用无细胞的翻译系统来产生本发明的多肽之一或含有其至少大约5、10、15、20、25、30、35、40、50、75、100或150或更多个连续氨基酸的片段,其应用由0嫩构建物转录得到的mRNA,所述DNA构建物包括与编码所述多肽或其片段的核酸可操作地连接的启动子。在一些方面,该DNA构建物在进行体外转录反应之前可以被线性化。转录得到的mRNA然后与合适的无细胞翻译提取物例如兔网状细胞提取物温育,产生所需的多肽或其片段。核酸的扩增在本发明的实践中,本发明的核酸和编码本发明的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的核酸,或本发明的修饰的核酸,可以通过扩增来增殖,例如,通过PCR。扩增也可以被用于克隆或修饰本发明的核酸。因此,本发明提供了用于扩增本发明核酸的扩增引物序列对。本技术领域技术人员能设计用于这些序列的任何部分或全长的扩增弓I物序列对。一方面,本发明提供了通过本发明的扩增引物对扩增的核酸,所述扩增引物对例如本发明的核酸的大约前(5’)12、13、14、15、16、17、18、19、20、21、22、23、24或25或更多个残基以及互补链的大约前(5’) 15、16、17、18、19、20、21、22、23、24或25或更多个残基所示的引物对。本发明提供了用于扩增核酸的扩增引物序列对,所述核酸编码具有纤维素酶如 内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的多肽,其中所述引物对能够扩增含有本发明的序列或其片段或子序列的核酸。扩增引物序列对的一个成员或每一成员可以包含寡核苷酸,该寡核苷酸包含所述序列的至少约10至50个或更多个连续碱基,或所述序列的约12、13、14、15、16、17、18、19、20、21、22、23、24或25或更多个连续残基。本发明提供了扩增引物对,其中所述引物对包括第一成员和第二成员,第一成员具有本发明核酸的大约前(5,)12、13、14、15、16、17、18、19、20、21、22、23、24或25或更多个碱基所示的序列,第二成员具有第一成员的互补链的大约前(5’)12、13、14、15、16、17、18、19、20、21、
22、23、24或25或更多个碱基所示的序列。本发明提供了通过扩增产生的纤维素酶,例如编码内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶,所述扩增例如聚合酶链反应(PCR),使用本发明的扩增引物对。本发明提供了通过扩增制备纤维素酶,例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的方法,所述扩增例如PCR,使用本发明的扩增引物对。一方面,所述扩增引物对从文库例如基因文库诸如环境文库扩增核酸。扩增反应也可以被用于量化样品中核酸的量(如细胞样品中信息的量)、标记核酸(例如将其应用于阵列或印迹)、检测核酸,或量化样品中特异性核酸的量。在本发明的一个方面,扩增从细胞或cDNA文库分离出的信息。技术人员可以选择和设计合适的寡核苷酸扩增引物。扩增方法在本技术领域也是已知的,包括,例如聚合酶链式反应PCR (例如参见PCR PROTOCOLS, A⑶IDE TO METHODSAND APPLICATIONS,ed. Innis, Academic Press, N. Y. (1990)和PCR STRATEGIES(1995), ed.Innis, Academic Press, Inc. N. Y.,连接酶链式反应(LCR)(例如参见 Wu (1989)Genomics4:560; Landegren (1988) Science 241:1077; Barringer (1990) Gene 89:117);转录扩增(例如参见Kwoh (1989) Proc. Natl. Acad. Sci. USA 86:1173);和自主维持序列复制(例如参见 Guatelli (1990)Proc. Natl. Acad. Sci. USA 87:1874) ;Q β 复制酶扩增(例如参见Smith(1997) J. Clin. Microbiol. 35:1477-1491),自动 Q-β 复制酶扩增测定法(例如参见Burg(1996)Mol. Cell. Probes 10:257-271)和其它的 RNA 聚合酶介导技术(例如 NASBA, Cangene, Mississauga, Ontario);也参见 Berger (1987)Methods Enzymol. 152:307-316; Sambrook; Ausubel;美国专利 4, 683, 195 和 4, 683, 202 ;Sooknanan (1995) Biotechnology13:563-564。
确定核酸和多肽的序列同一,性本发明提供了核酸,所述核酸包括与本发明的示例性核酸(参见表1、2和3,下面的实施例 I 和 4,以及序列表)在至少大约 50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、I100、1150、1200、1250、1300、1350、1400、1450、1500、1550或更多残基的区域内具有至少大约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性(同源性)的序列。本发明提供了多肽,该多肽包括与本发明的示例性多肽(参见表1、2和3,下面的实施例I和4,以及序列表)具有至少大约 50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、 83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或更高或完全的(100%)序列同一性的序列。序列同一性(同源性)的程度可以使用任何计算机程序和相关参数来确定,包括本文描述的那些,如BLAST 2. 2. 2或FASTA 3. 0t78版本,参数为默认值。本发明的核酸序列可以包括本发明的示例性序列和与其基本上相同的序列的至少 10、15、20、25、30、35、40、50、75、100、150、200、300、400 或 500 或更多个连续核苷酸。本发明的核酸序列的同源序列和片段可以指与这些序列具有至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一1丨生(同源性)的序列。同源性(序列同一性)可以使用本文所描述的任何计算机程序和参数来确定,包括FASTA 3. 0t78版本,参数为默认值。同源序列还包括RNA序列,其中尿嘧啶取代本发明核酸序列中的胸腺嘧啶。同源序列可以使用本文描述的任意一种方法获得,或者从对测序错误的纠正中产生。应该意识到,本发明的核酸序列可以以传统的单字母格式表示(例如参见Stryer, Lubert.Biochemistry, 3rd Ed. , W. H Freeman&Co. , New York),或以在序列中记录核苷酸的身份的任何其它格式表示。在各个方面,本文描述的序列比较程序被用于本发明的该方面,S卩,确定核酸或多肽序列是否在本发明的范围之内。然而,蛋白和/或核酸序列同一性(同源性)可以使用本技术领域已知的任何序列比较算法或程序来评价。这样的算法和程序包括,但不限于,TBLASTN、BLASTP、FASTA、TFASTA 和 CLUSTALW(参见,例如 Pearson and Lipman, Proc. Natl.Acad. Sci. USA 85(8) :2444-2448, 1988; Altschul 等人,J. Mol. Biol. 215(3) :403-410, 1990; Thompson 等人,Nucleic Acids Res. 22 (2) : 4673-4680,1994; Higgins 等人,Methods Enzymol. 266:383-402,1996;Altschul 等人,J. Mol. Biol. 215(3) :403-410, 1990;Altschul等人,Nature Genetics 3:266-272,1993)。一方面,同源性或同一性可以使用序列分析软件来测量(例如,地址为1710University Avenue, Madison, WI 53705的威斯康星大学生物技术中心遗传学计算机组(Genetics Computer Group)的序列分析软件包)。这样的软件通过对各种缺失、取代和其它的修饰赋予同源性度数来匹配相似的序列。一方面,用于表示两个或者更多个核酸或者多肽序列之间的关系的术语“同源性”和“同一性”,是指当两个或更多个序列或子序列在某一比较窗口(comparison window)或者指定区域内被比较和联配以确定最大一致性时,这些序列是相同的,或者具有特定百分比例的相同氨基酸残基或核苷酸,其可以应用各种序列比较算法或者通过人工联配和视觉观察来确定。一方面,对于序列比较,将一个序列作为参考序列,而将测试序列与之进行比较。当使用序列比较算法时,将测试序列和参考序列输入到计算机中,指定子序列坐标,如果必要,也指定序列算法程序参数。可以使用默认的程序参数,或者可以指定别的参数。然后基于程序参数,序列比较算法计算出测试序列相对于参考序列的序列同一性百分比。正如本文所用,“比较窗口 ”包括参考具有任意数目的连续位置的片段,所述数目选自从20到600、通常大约50到大约200,更经常大约100到大约150,其中在序列和参考序列进行最优化联配后,序列可与具有相同数目的连续位置的参考序列作比较。用于比较的联配方法在本技术领域是熟知的。可以通过如下方法进行用于比较的序列的最优化联 配例如 Smith 和 Waterman, Adv. Appl. Math. 2 :482, 1981 的局部同源性算法,Needleman和 ffunsch, J. Mol. Biol. 48:443, 1970 的同源性联配算法,person 和 Lipman, Proc. Nat,I.Acad. Sci. USA 85 :2444, 1988的查找相似性的方法,这些算法的计算机化实施(WisconsinGenetics Software Package 中的 GAP、BESTFIT、FASTA 和 TFASTA, Genetics ComputerGroup, 575Science Dr. ,Madison, WI),手工联配和观察检验。除了 BLAST程序(生物信息国家中心的基本局域联配搜索工具(Basic Local Alignment Search Tool))外,用于确定同源性或者同一性的其它的算法包括,例如,ALIGN、AMAS (多重联配序列分析(Analysis ofMultiply Aligned Sequences))、AMPS (蛋白多重序列联配(Protein Multiple SequenceAlignment))、ASSET (联配片段统计评估工具(Aligned Segment Statistical EvaluationTool))、BANDS、BESTSC0R、BI0SCAN (生物学序列比较分析节点(Biological SequenceComparative Analysis Node))>BLIMPS(BLocks IMProved Searcher)、FASTA、Intervals &Points,BMB、CLUSTAL V、CLUSTAL W、CONSENSUS、LCONSENSUS、WCONSENSUS、Smith-ffaterman算法、DARWIN、Las Vegas 算法、FNAT(强迫核苷酸联配工具(Forced Nucleotide AlignmentTool))、Framealign> Framesearch、DYNAMIC、FILTER、FASP (Fristensky 序列分析软件包)、GAP (全局联配程序(GlobalAlignment Program))、GENAL、GIBBS、GenQuest、ISSC(灵敏性序列比较(Sensitive Sequence Comparison))> LALIGN (局部序列联配(LocalSequence Alignment))、LCP (局部内容程序(Local Content Program))> MACAW (多重联配构建和分析工作台(Multiple Alignment Construction & Analysis Workbench))>MAP (多重联配程序(Multiple Alignment Program))、MBLKP、MBLKN、PIMA (模式诱导的多重序列联配(Pattern-Induced Multi-sequence Alignment))、SAGA (通过遗传算法的序列联配(Sequence Alignment by Genetic Algorithm))和 WHAT-IF。这样的联配程序也可以用于筛查基因组数据库,以鉴定具有大体上相同的序列的多核苷酸序列。大量的基因组数据库是可利用的,例如,作为人类基因组测序工程的构成部分的人类基因组的实质部分可以被利用(Gibbs,1995)。至少二i^一个其它基因组已经测定,如,生殖器支原体(M. genitalium) (Fraser 等,1995)、甲烧球菌(M. jannaschii) (Bult 等,1996)、流行性感冒杆菌(H. influenzae) (Fleischmann 等,1995)、大肠杆菌(E. coli) (Blattner 等,1997)和酵母(酿酒酵母(S. cerevisiae)) (Mewes 等,1997)和黑腹果妮(D. melanogaster)(Adams等,2000)。在模式生物的基因组序列的测序上已经取得了很大的进展,如小鼠,线虫(C. elegans)和拟南芥(Arabadopsis sp.)。含有基因组信息并且注释有一些功能性信息的一些数据库由不同组织维护,可以通过互联网登录。一方面,BLAST和BLAST 2. O算法被使用,其分别被描述于Altschul (1997) Nuc.Acids Res.25:3389-3402,1997 和 Altschul (1990) J. Mol.Biol.215:403-410,1990。用于实施BLAST分析的软件可以通过美国国家生物技术信息中心公开获得。这一算法涉及首先通过鉴别待询序列(query sequence)中长度为W的短的字串来确定高分序列对(highscoring sequence pairs, HSPs),所述高分序列对在与数据库序列中同样长度的字串联配时,匹配或者满足某个正值的阈值T。T是指邻近字串(neighborhood word)的分数阈值(Altschul等,如上)。这些初始的邻近字串被用来启动搜索以发现包含有它们的更长的HSPs0所述字串沿着每一个序列向两个方向延伸,只要累积的联配分数在增加。对于核苷酸序列,使用参数M (—对匹配的残基的奖励分数;总是大于O)来计算累积分数。对于氨·基酸序列,使用记分矩阵来计算累计分数。出现下面情况时,字串在各个方向上的延伸便停止累积的联配分数由达到的最大值下降了数量X ;由于一个或者多个记分为负的残基联配的累积,累积分数达到O或者O以下;或者延伸到了任一序列的末端。BLAST算法的参数W、T和X决定了联配的灵敏度和速率。BLASTN程序(对于核苷酸序列)默认的是字串长度(W)为11,期望值(E)为10,M=5, N=-4,对两条链进行比较。对于氨基酸序列,BLASTP程序默认字串长度为3,期望值(E)为10,BL0SUM62记分矩阵(参见Henikoff和Henikoff(1989) Proc. Natl. Acad. Sci. USA 89:10915)联配(B)为 50,期望值(E)为 10,M=5,N=_4,对两条链进行比较。BLAST算法也进行两个序列之间的相似性的统计学分析(参见,例如,Karlin和Altschul (1993)Proc. Natl. Acad. Sci. USA 90:5873)。由 BLAST 算法提供的一种相似性量度是最小合计概率(smallest sum probability, P (N)),其表示两个核苷酸或者氨基酸序列间的匹配将偶然发生的概率。例如,在测试核酸和参考核酸的比较中,如果最小合计概率小于大约O. 2,更优选的是在一方面中小于O. 01,最优选的是在一方面中小于大约O. 001,就认为该核酸与参考序列相似。一方面,应用基本局域联配搜索工具(“BLAST”)来评价蛋白和核酸序列同源性。具体而言,五个特定的BLAST程序可以用来进行以下的任务
(1)BLASTP和BLAST3把氨基酸待询序列与蛋白质序列数据库进行比较;
(2)BLASTN把核苷酸待询序列与核苷酸序列数据库进行比较;
(3)BLASTX把待询核苷酸序列(两条链)的六个阅读框架的概念上的翻译产物与蛋白序列数据库进行比较;
(4)TBLASTN把待询蛋白序列与核苷酸序列数据库的所有六个阅读框架(两条链)的翻译结果进行比较;和
(5)TBLASTX把核苷酸待询序列的六个框架的翻译结果与核苷酸序列数据库的六个框架的翻译结果进行比较。
BLAST程序通过确定相似片段来确定同源序列,所述相似片段在此是指在待查询的氨基酸或核酸序列与受测序列之间的“高分片段对(high-scoring segment pairs)”,该受测序列一方面从蛋白或者核酸序列数据库得到。高分片段对一方面利用记分矩阵来鉴定(即,联配),很多的记分矩阵在本领域是已知的。一方面,应用的记分矩阵为BL0SUM62矩阵(Gonnet (1992),Science 256 :1443-1445 ;Henikoff 和 Henikoff (1993), Proteins17:49-61)。较不优选地,在一方面,也可以应用PAM或者PAM250矩阵(参见如,Schwartz和 Dayhoff, eds.,1978,Matrices for Detecting Distance Relationshfps:Atlasof protein Sequence and Structure, Washingion: National Biomedical ResearchFoundation)。BLAST 程序通过美国国家医学图书馆(U. S. National Library ofMedicine)可以获得。根据所研究的序列长度和同源性程度,上述算法使用的参数可以被调整。在一些方面,在无用户的指示的情况下,所述参数使用算法所采用的默认参数。
机算机系统和计算机程序产品 本发明提供了计算机、计算机系统、计算机可读取的介质、计算机程序产品以及其上记录或存储了本发明的核酸和多肽序列的类似设备。此外,在实践本发明的方法中,例如,为了确定和鉴定序列同一性(为了确定核酸是否在本发明的范围之内)、结构同源性、基序等等,本发明的核酸或多肽序列可以在可通过计算机读取和访问的任何介质上存储、记录和操作。正如此处所用,词语“记录”和“存储”指在计算机介质上存储信息的过程。熟练技术人员能容易地采用任何已知方法,在计算机可读取的介质上存储信息,以产生包括本发明的一个或多个核酸和/或多肽序列的产品。正如本文所用,术语“计算机”、“计算机程序”和“处理器”以它们在最广的普通语境中的含义被使用,包括了所有这样的设备,例如下面所详细描述的。特定多肽或蛋白的“编码序列”或“编码特定多肽或蛋白的序列”是指当被置于适当的调控序列的控制下时可被转录和翻译成多肽或蛋白的核酸序列。本发明的多肽包括本发明的示例性序列和与其基本上相同的序列以及前述序列的任一个的子序列(片段)。一方面,基本上相同的、或同源的多肽序列是指与本发明的示例性序列具有至少 50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或更高或完全的(100%)序列同一性(同源性)的多肽序列。同源性(序列同一性)可以使用本文所描述的计算机程序和参数的任一种进行确定。本发明的核酸或多肽序列可以在可通过计算机读取和访问的任何介质上存储、记录和操作。正如此处所用,词语“记录”和“存储”指在计算机介质上存储信息的过程。熟练技术人员能容易地采用任何目前已知的方法,在计算机可读取的介质上存储信息,以产生包括本发明的一个或多个核酸序列、本发明的一个或多个多肽序列的产品。本发明的另一方面是其上记录有至少2、5、10、15或20或更多个本发明的核酸或多肽序列的计算机可读取介质。本发明的另一方面是其上记录有本发明的一个或多个核酸序列的计算机可读取介质。本发明的另一方面是其上记录有本发明的一个或多个多肽序列的计算机可读取介质。本发明的另一方面是其上记录有至少2、5、10、15或20或更多个如上面所述的核酸或多肽序列的计算机可读取介质。计算机可读取介质包括磁性可读取介质、光学可读取介质、电子可读取介质和磁/光学介质。例如,计算机可读取的介质可以是硬盘、软盘、磁带、CD-ROM、数字化视频光盘(DVD)、随机存取存储器(RAM)或只读存储器(ROM)以及本领域的技术人员已知的其它类型的其它介质。本发明的方面包括系统(例如基于因特网的系统),例如计算机系统,它们存储和操纵本文描述的序列信息。计算机系统100的一个实例以框图形式示意性地描述在图I中。正如此处所用,“计算机系统”指硬件部分、软件部分以及数据存储部分,它们用于分析本发明的核酸序列的核苷酸序列或本发明的多肽序列。一方面,计算机系统100包括用于处理、访问和操纵序列数据的处理器。处理器105可以是任何熟知类型的中央处理单元,如来自英特尔公司的奔腾III,或来自Sun、Motorola、Compag> AMD或IBM公司的类似处理器。一方面,计算机系统100是一个通用的系统,该系统包括处理器105和用于存储数 据的一个或多个内部数据存储部件110,以及用于检索数据存储部件上存储的数据的一个或多个数据检索设备。技术人员能容易地意识到,任何一种当前可获得的计算机系统都是合适的。在一个特定的方面,计算机系统100包括连接到总线上的处理器105,总线连接到主存储器115 (在一方面,以RAM来实现)和一个或多个内部数据存储设备110,例如其上已经存储了数据的硬盘驱动器和/或其它计算机可读介质。在一些方面,计算机系统100进一步包括一个或多个数据检索设备118,用于读取在内部数据存储设备110上存储的数据。数据检索设备118可以是,例如软盘驱动器、压缩磁盘驱动器、磁带驱动器或能连接到远程数据存储系统的调制解调器(例如通过因特网)等等。在一些方面中,内部数据存储设备110是可移动的计算机可读介质,例如含有控制逻辑和/或其上记录的数据的软盘、压缩磁盘、磁带等等。计算机系统100可以有利地包括适当的软件或用适当的软件编程,用于当数据存储部件被插入到数据检索设备中时从数据存储部件读取控制逻辑和/或数据。计算机系统100包括显示器120,用于给计算机用户显示输出。也应用注意到,计算机系统100可以被连接到网络或广域网中的其它计算机系统125a-c,以便给计算机100提供集中访问。用于访问和处理本发明的核酸序列的核苷酸或本发明的多肽序列的软件(例如,检索工具、比较工具和建模工具等等)在执行过程中可驻留于主存储器115中。在一些方面,计算机系统100可以进一步包括序列比较算法,其用于比较存储于计算机可读介质上的本发明核酸序列或本发明多肽序列与存储于计算机可读介质上的参考核苷酸或多肽序列。“序列比较算法”指在计算机系统100上执行(本地或远程)的一种或多种程序,以比较核苷酸序列和数据存储设备中存储的其它核苷酸序列和/或化合物。例如,序列比较算法可以将计算机可读介质上存储的本发明的核酸序列的核苷酸序列或本发明的多肽序列与计算机可读介质上存储的参考序列进行比较,以鉴定同源性或结构基序。图2是示意性说明过程200的一个方面的流程图,该过程用于将新的核苷酸或蛋白序列与序列数据库进行比较,以便确定新序列和数据库中的序列之间的同源性水平。序列数据库可以是存储于计算机系统100上的个人数据库,或可以通过因特网获得的公共数据库如GENBANK。过程200在起始状态201开始,然后转到状态202,其中要被比较的新序列被存储于计算机系统100的存储器上。正如上面所讨论的,该存储器可以是任何类型的存储器,包括RAM或内部存储设备。然后过程200转到状态204,其中打开序列数据库以进行分析和比较。然后过程200转到状态206,其中数据库中存储的第一个序列被读取到计算机的存储器中。然后在状态210进行比较,以确定第一个序列是否与第二个序列相同。重要的是应该注意到,该步骤不限于进行新序列和数据库中第一个序列之间的精确比较。用于比较两个核苷酸或蛋白序列的熟知的方法对于本技术领域的普通技术人员是已知的,即使所述两个核苷酸或蛋白序列不完全相同。例如,可以在一个序列中引入空位,以提高两个测试序列之间的同源性水平。控制空位或其它特征在比较过程中是否被引入到序列中的参数通常由计算机系统的用户输入。一旦已经在状态210进行两个序列的比较,在决策状态210就要作出两个序列是 否相同的判断。当然,术语“相同的”不限于绝对相同的序列。在过程200中,在由用户输入的同源性参数范围内的序列都将被标记为“相同的”。如果作出两个序列相同的判断,过程200转到状态214,其中来自数据库的序列的名称被显示给用户。该状态通知用户,具有显示的名称的序列满足所输入的同源性限制。一旦所存储序列的名称被显示给用户,过程200转到决策状态218,其中作出数据库中是否存在更多序列的判断。如果数据库中不存在更多的序列,那么过程200在结束状态220终止。然而,如果数据库中确实存在更多的序列,那么过程200转到状态224,其中指针被指向数据库中的下一个序列,以便与新序列进行比较。以这种方式,将新序列与数据库中的每一序列联配并进行比较。应该注意到,如果已经在决策状态212已经作出了序列不同源的判断,那么过程200将立即转到决策状态218,以便确定用于比较的数据库中的任何其它序列是否可利用。因此,本发明的一个方面是计算机系统,该系统包括处理器、其上已经存储了本发明核酸序列或本发明的多肽序列的数据存储设备、其上以可检索方式存储了待与本发明的核酸序列或本发明的多肽序列比较的参考核苷酸序列或多肽序列的数据存储设备、以及用于进行比较的序列比较器。该序列比较器可以指出被比较的序列之间的同源性水平,或鉴定上述的本发明的核酸序列的核酸密码或者本发明的多肽序列中的结构基序,或者该比较器可以鉴定与这些核酸密码和多肽密码进行比较的序列中的结构基序。在一些方面中,数据存储设备可以在其上已经存储了至少2、5、10、15、20、25、30或40个或更多个本发明的核酸序列或本发明的多肽序列的序列。本发明的另一方面是确定本发明的核酸序列或本发明的多肽序列和参考核苷酸序列之间的同源性水平的方法。所述方法包括通过使用确定同源性水平的计算机程序读取核酸密码或多肽密码以及参考核苷酸或多肽序列,以及用该计算机程序确定核酸密码或多肽密码与参考核苷酸或多肽序列之间的同源性水平。所述计算机程序可以是确定同源性水平的许多计算机程序的任何一种,包括本文中具体罗列的那些程序(例如,BLAST2N,具有默认参数或任何调整的参数)。所述方法可以使用上述的计算机系统执行。所述方法还可以如下进行通过使用所述计算机程序读取至少2、5、10、15、20、25、30或40个或更多个上述的本发明的核酸序列或本发明的多肽序列,以及确定核酸密码或多肽密码与参考核苷酸或多肽序列之间的同源性水平。
图3是示意性说明计算机中实施的过程250的一个方面的流程图,该过程用于确定两个序列是否同源。过程250在起始状态252开始,然后转到状态254,其中要被比较的第一个序列被存储到存储器上。然后要被比较的第二个序列在状态256被存储到存储器上。然后过程250转到状态260,其中读取第一个序列中的第一个字符,然后转到状态262,其中读取第二个序列的第一个字符。应该理解到,如果序列是核苷酸序列,那么字符将通常是A、T、C、G或U。如果序列是蛋白序列,那么字符一方面可以是单字母氨基酸密码,以便第一个序列和第二个序列可以被容易地比较。然后在决策状态264作出两个字符是否相同的判断。如果它们相同,那么过程250转到状态268,其中第一个和第二个序列中的下一个字符被读取。然后作出该下一个字符是否相同的判断。如果它们相同,那么过程250继续循环,直到两个字符不相同。如果作出的判断是这两个字母不相符,那么过程250转到决策状态274,以确定是否有更多的字符或者序列可以读取。如果没有可读取的任何更多的字符,那么过程250转到状态276,其中第一个和第二个序列之间的同源性水平被显示给用户。同源性水平通过计算序列之间相同的字符在第一个序列的序列总数中的比例来确定。因此,如果第一个100个核苷酸序列中的每一个字符都与第二个序列中的每一个字符联配,那么同源性水平将是100%。可以选择地,计算机程序可以是这样的计算机程序,其将本发明所示的核酸序列的核苷酸序列与一个或多个参考核苷酸序列进行比较,以确定本发明的核酸密码是否在一个或多个位置上与参考核酸序列不同。任选地,这样的程序记录,相对于参考多核苷酸序列或者本发明的核酸序列,被插入、删除或取代的核苷酸的长度和身份。一方面,计算机程序可以是确定本发明的核酸序列是否相对于参考核苷酸序列含有单核苷酸多态性(SNP)的程序。因此,本发明的另一方面是确定本发明的核酸序列是否在一个或多个核苷酸处与参考核苷酸序列不同的方法,所述方法包括通过使用鉴定核酸序列之间的差异的计算机程序读取核酸密码和参考核苷酸序列,并用该计算机程序鉴定核酸密码和参考核苷酸序列之间的差异。在一些方面,计算机程序是鉴定单核苷酸多态性的程序。该方法可以通过上面描述的计算机程序和图3所示意性说明的方法执行。所述方法还可以如下进行通过使用所述计算机程序读取至少2、5、10、15、20、25、30或40个或更多个本发明核酸序列和参考核苷酸序列,以及用该计算机程序鉴定核酸密码与参考核苷酸序列之间的差异。在其它方面,基于计算机的系统可以进一步包括鉴定器,其用于鉴定本发明的核酸序列或本发明的多肽序列中的特征。“鉴定器”指在本发明的核酸序列或本发明的多肽序列中鉴定某些特征的一个或多个程序。一方面,鉴定器可以包括在本发明的核酸序列中鉴定开放阅读框(ORF)的程序。图4是示意性说明鉴定器过程300的一个方面的流程图,即用于检测序列中特征的存在。过程300在起始状态302开始,然后转到状态304,其中将被检查特征的第一个序列存储在计算机系统100的存储器115上。然后过程300转到状态306,其中打开序列特征数据库。这样的数据库包括每一特征的属性以及该特征的名称的列表。例如,特征名称是“起始密码子”,属性是“ATG”。另一个实例是特征名称“TAATAA序列盒”,特征属性是“TAATAA”。这样的数据库的实例由威斯康星大学遗传学计算机组(University ofWisconsin Genetics Computer Group)开发。可以选择地,这些特征可以是结构多肽基序如α螺旋、β折叠,或功能多肽基序如酶活性位点、螺旋-转角-螺旋基序或本技术领域技术人员已知的其它基序。一旦在状态306打开特征数据库,过程300就转到状态308,其中从数据库读取第一个特征。然后在状态310将第一个特征的属性与第一个序列进行比较。接着在决策状态316作出在第一个序列中是否发现该特征的属性的判断。如果发现了属性,那么过程300转到状态318,其中所发现的特征的名称被显示给用户。然后,过程300转到决策状态320,其中作出数据库中是否存在更多特征的判断。如果不存在更多特征,那么过程300在结束状态324终止。然而,如果数据库中确实存在更多的特征,那么过程300在状态326读取下一个序列特征,循环回到状态310,其中将下一个特征的属性与第一个序列进行比较。应当注意,如果在决策状态316在第一个序列中没有发现特征属性,那么过程300直接转到决策状态320,以便确定数据库中是否存在更多特·征。因此,本发明的另一方面是鉴定本发明的核酸序列或本发明的多肽序列中的特征的方法,所述方法包括通过使用鉴定其中特征的计算机程序读取核酸密码或多肽密码,并用该计算机程序鉴定核酸密码中的特征。一方面,计算机程序包括鉴定开放阅读框(ORF)的计算机程序。所述方法可以如下进行通过使用所述计算机程序读取本发明的核酸序列或本发明的多肽序列中的一个序列或至少2、5、10、15、20、25、30或40个或更多个序列,以及用该计算机程序鉴定核酸密码或多肽密码中的特征。本发明的核酸序列或本发明的多肽序列可以以多种格式在各种数据处理器程序中存储和操作。例如,本发明的核酸序列或本发明的多肽序列可以以文本文件存储在字处理文件中,如Microsoft WORD 或WORDPERFECT ,或以ASCII文件存储在本领域技术人员熟悉的各种数据库程序中,例如DB2 、SYBASE 或ORACLE 。此外,许多计算机程序和数据库可以被用作序列比较算法、鉴定器或与本发明的核酸序列或本发明的多肽序列进行比较的参考核苷酸序列或多肽序列的来源。下面的罗列不意图限制本发明,而是提供对本发明的核酸序列或本发明的多肽序列有用的程序和数据库的指导。可以使用的程序和数据库,包括但不限于MACPATTERN (EMBL).DISCOVERYBASE (Molecular Application Group)、GENEMI NE (Molecular Application Group)、LOOK (Molecular Application Group)> MACL00K (Molecular Application Group)、BLAST 和BLAST2 (NCBI)、BLASTN 和 BLASTX (Altschul 等人,J. Mol. Biol. 215:403,1990)、FASTA(Pearson and Lipman, Proc. Natl. Acad. Sci. USA, 85:2444, 1988)> FASTDB (Brutlag 等人,Comp. App. Biosci.6:237-245,1990)、CATALYST (Molecular Simulations Inc·)、Catalyst/SHAPE (Molecular Simulations Inc. )、Cerius2. DBAccess (MolecularSimulations Inc. )>HypoGen (Molecular Simulations Inc. )>INSIGHT II (MolecularSimulations Inc. )、DISCOVER (Molecular Simulations Inc. )、CHARMm (MolecularSimulations Inc. )、FELIX (Molecular Simulations Inc. )、DELPHI (MolecularSimulations Inc. )、QuanteMM (Molecular Simulations Inc. )、Homology (MolecularSimulations Inc. )、MODELER (Molecular Simulations Inc. )、ISIS (MolecularSimulations Inc. )、Quanta/Protein Design (Molecular Simulations Inc. )、WebLab(Molecular Simulations Inc. )、WebLab Diversity Explorer (Molecular SimulationsInc. )、Gene Explorer(Molecular Simulations Inc. )>SeqFold(Molecular SimulationsInc. )> MDL Available Chemicals Directory 数据库、MDL Drug Data Report 数据库、Comprehensive Medicinal Chemistry 数据库、Derwent’ s World Drug Index 数据库、BioByteMasterFile数据库、Genbank数据库和Genseqn数据库。基于本发明的公开内容,许多其它程序和数据库对于本技术领域的技术人员是显而易见的。可以用上述程序检测的基序包括编码亮氨酸拉链的序列、螺旋-转角-螺旋基序、糖基化位点、泛素化位点、α螺旋和β折叠、编码指导被编码的蛋白分泌的信号肽的信号序列、在转录调节中涉及的序列如同源框、酸性伸展物(acidic stretches)、酶活性位点、底物结合位点和酶切割位点。
核酸的杂交 本发明提供了分离的或重组的核酸,这些核酸与本发明的示例性序列(例如SEQID NO: I, SEQ ID N0:3, SEQ ID N0:5, SEQ ID N0:7, SEQ ID NO:9, SEQ ID NO: 11, SEQ IDNO:13,SEQ ID NO:15,SEQ ID NO:17,SEQ ID NO:19,SEQ ID NO:21,SEQ ID NO:23,SEQ IDNO:25,SEQ ID NO:27,SEQ ID NO:29,SEQ ID NO:31,SEQ ID NO:33,SEQ ID NO:35,SEQ IDNO:37,SEQ ID NO:39,SEQ ID NO:41,SEQ ID NO:43,SEQ ID NO:45,SEQ ID NO:47,SEQ IDNO:49,SEQ ID NO:51,SEQ ID NO:53,SEQ ID NO:55,SEQ ID NO:57,SEQ ID NO:59, SEQ IDN0:61,SEQ ID NO:63,SEQ ID NO:65,SEQ ID NO:67, SEQ ID NO:69, SEQ ID NO:71, SEQ IDNO:73,SEQ ID NO:75,SEQ ID NO:77,SEQ ID NO:79,SEQ ID N0:81,SEQ ID NO:83,SEQ IDNO:85,SEQ ID NO:87,SEQ ID NO:89,SEQ ID N0:91,SEQ ID NO:93,SEQ ID NO:95,SEQ IDN0:97, SEQ ID N0:99, SEQ ID NO: 101, SEQ ID NO: 103, SEQ ID NO: 105, SEQ ID NO: 107,SEQ ID NO: 109,SEQ ID NO: 111,SEQ ID NO: 113,SEQ ID NO: 115,SEQ ID NO: 117,SEQ IDNO:119,SEQ ID NO:121,SEQ ID NO:123,SEQ ID NO:125,SEQ ID NO:127,SEQ ID NO:129,SEQ ID NO: 131,SEQID NO: 133,SEQ ID NO: 135,SEQ ID NO: 137,SEQ ID NO: 139,SEQ IDNO:141,SEQ ID NO:143,SEQ ID NO:145,SEQ ID NO:147,SEQ ID NO:149,SEQ ID NO:151,SEQ ID NO: 153, SEQ ID NO: 155,SEQ ID NO: 157, SEQ ID NO: 159,SEQ ID NO: 161,SEQ IDNO: 163或SEQ ID NO: 165 (也参见表1、2和3、下面的实施例I和4,以及序列表))在严紧条件下杂交。严紧条件可以是高度严紧性条件、中度严紧性条件和/或低度严紧性条件,包括本文描述的高的和降低的严紧性的条件。一方面,正如下面所讨论的,洗涤条件的严紧性提供了决定核酸是否在本发明范围内的条件。“杂交”指这样一个过程,即,通过该过程核酸链与互补链通过碱基配对而结合。杂交反应可以是灵敏的并且是选择性的,以便感兴趣的特定序列可以被鉴定,甚至在其以低浓度存在的样品中也可以被鉴定。适度的严紧条件(stringent conditions)可以通过,例如预杂交和杂交溶液中盐或甲酰胺的浓度来定义,或者通过杂交温度来定义,这些严紧条件在本技术领域是已知的。在可选的方面,严紧性可以通过降低盐的浓度、增加甲酰胺的浓度或升高杂交温度来增加。在可选择的方面,本发明的核酸通过它们在各种严紧条件(例如强、中等和低严紧条件)下杂交的能力来定义,正如本文所示。
一方面,高度严紧性下的杂交包括在大约37°C到42°C的温度下大约50%的甲酰胺。一方面,杂交条件包括在大约30°C到35°C下在大约35%至25%的甲酰胺中降低的严紧性条件。一方面,杂交条件包括高度严紧性条件,例如,在42°C、在50%甲酰胺、5X SSPE,O. 3%SDS中,和200n/ml的剪切和变性鲑精DNA。一方面,杂交条件包括这些降低的严紧性条件,但在降低的温度35°C在35%甲酰胺中。相应于特定的严紧性水平的温度范围可以通过计算目标核酸中的嘌呤嘧啶比并相应调节温度而进一步缩小。上述范围和条件的变化在本领域中是熟知的。在可以选择的方面中,本发明的核酸,正如通过它们在严紧条件下杂交的能力所定义的,可以在本发明的核酸的大约五个残基到全长之间;例如它们的长度可以是至少5、10、15、20、25、30、35、40、50、55、60、65、70、75、80、90、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000 或更多残基。也包括小于全长的核酸。
这些核酸可以用作,例如杂交探针、标记探针、PCR寡核苷酸探针、siRNA或miRNA (单链或双链)、反义或编码抗体结合肽(表位)、基序、活性位点的序列以及类似序列。
一方面,本发明的核酸通过它们在高度严紧性下杂交的能力定义,高度严紧性包括在大约37°C到42°C的温度下大约50%的甲酰胺的条件。一方面,本发明的核酸通过它们在降低的严紧性下杂交的能力定义,降低的严紧性包括在大约30°C到35°C在大约35%至25%的甲酰胺中的条件。可以选择地,本发明的核酸通过它们在高度严紧性下杂交的能力定义,高度严紧性包括的条件为在42°C、在50%甲酰胺、5X SSPE、0. 3%SDS中,和封闭核酸的重复序列,如cot-1或鲑精DNA(例如200n/ml的剪切和变性鲑精DNA)。一方面,本发明的核酸通过它们在降低的严紧性条件下杂交的能力定义,降低的严紧性条件包括在35°C或42°C的降低温度下的35%或40%甲酰胺中。在核酸杂交反应中,用于得到特定严紧性水平的条件将根据杂交中的核酸的性质变化。例如,所述核酸的杂交区域的长度、互补程度、核苷酸序列组成(例如GC和AT含量)和核酸类型(例如RNA和DNA)可以在选择杂交条件时加以考虑。另外的考虑因素是核酸之一是否被固定,例如固定在滤膜上。杂交可以在低度严紧性、中度严紧性或高度严紧性的条件下进行。作为核酸杂交的一个实例,含有固定化的变性核酸的聚合物膜首先在45°C在含有如下成分的溶液中预杂交 30 分钟0. 9M NaCl、50mM NaH2PO4, pH 7. 0、5· OmM Na2EDTA、0. 5%SDS、10X Denhardt’s 和0. 5mg/ml多核糖腺苷酸。然后在该溶液中加入大约2X 107cpm(比活性为4-9X 108cpm/ug)的32P末端标记的寡核苷酸探针。在温育12-16小时后,在室温下在含有O. 5%SDS的IX SET(150mM NaCl、20mM Tris盐酸,pH 7. 8、lmM Na2EDTA)中将膜洗涤30分钟,随后,在该寡核苷酸探针的Tm-10°C的温度,在新鲜的IX SET中洗涤30分钟。然后将膜暴露于放射自显影胶片,以检测杂交信号。所有的前述杂交将被认为在高严紧性条件下。杂交后,洗涤滤膜以除去任何非特异性结合的可检测探针。用于洗涤滤膜的严紧性也可以根据如下方面进行变化被杂交的核酸的性质、被杂交的核酸的长度、互补程度、核苷酸序列组成(例如GC和AT含量)和核酸类型(例如RNA和DNA)。逐步增高的严紧性条件洗涤的实例如下'TL SSC, O. 1%SDS,室温下洗涤15分钟(低度严紧性);0. IX SSC, O. 5%SDS,室温下洗涤30分钟到I小时(中度严紧性);0. IX SSC, O. 5%SDS,杂交温度和68°C之间洗涤15到30分钟(高度严紧性);和O. 15M NaCl,72°C洗涤15分钟(极高严紧性)。最终的低严紧性洗涤可以在O. IX SSC在室温下进行。上述的实例仅仅是可用于洗涤滤膜的一组条件的示例性说明。本领域技术人员将知道,对于不同严紧性的洗涤,可以有多种方案。下面给出了一些其它实例。一方面,杂交条件包括洗涤步骤,其包括在室温下在含有IX 150mM NaCl,20mMTris盐酸,pH 7. 8、ImM Na2EDTA、0. 5%SDS的溶液中洗涤30分钟,然后在新鲜溶液中洗涤30分钟。通过放射自显影或其它常规技术,鉴定已杂交至探针的核酸。可以对上述方法进行修饰,以鉴定与探针序列具有降低水平的序列同一性(同源性)的核酸。例如,为了获得与可检测的探针具有降低的序列同一性(同源性)的核酸,可以使用较低严紧性的条件。例如,杂交温度可以以5°C的梯度变化从68°C降低到42°C,杂交缓冲液的Na+浓度为大约1M。在杂交后,用2X SSC、0. 5%SDS在杂交温度下洗涤滤膜。这些条件在高于50°C被认为是“中度”条件,在低于50°C被认为是“低度”条件。特定实例的·“中度”杂交条件是当上述杂交在55°C进行。特定实例的“低度严格性”杂交条件是当上述杂交在45°C进行。可以选择地,杂交可以在含有甲酰胺的缓冲液如6X SSC中在42°C的温度下进行。在这种情况下,杂交缓冲液中甲酰胺的浓度可以以5%的梯度变化从50%降低到0%,以鉴定与探针具有降低水平的同源性的克隆。在杂交后,用6X SSC、0. 5%SDS在50°C洗涤滤膜。这些条件在高于25%的甲酰胺被认为是“中度”条件,在低于25%甲酰胺被认为是“低度”条件。特定实例的“中度”杂交条件是当上述杂交在30%甲酰胺中进行。特定实例的“低度严格性”杂交条件是当上述杂交在10%甲酰胺中进行。然而,杂交形式的选择不是关键性的一洗涤条件的严紧性是决定核酸是否在本发明范围内的条件。用于鉴定本发明范围内的核酸的洗涤条件包括,例如在PH 7大约O. 02M的盐浓度,至少大约50°C或大约55°C到大约60°C的温度;或者在72 V大约O. 15MNaCl的盐浓度下大约15分钟;或者在至少大约50°C或大约55°C到大约60°C的温度下大约O. 2X SSC的盐浓度下大约15到大约20分钟;或者用溶液将杂交复合物洗涤两次,所述溶液的盐浓度为含有O. 1%SDS的大约2X SSC,在室温下洗涤15分钟,然后用含有O. 1%SDS的O. IX SSC在68°C洗涤15分钟,洗涤两次;或者等同的条件。参见Sambrook, Tijssen和Ausubel对于SSC缓冲液和等同条件的描述。这些方法可以被用于分离或鉴定本发明的核酸。例如,前述方法可用于分离或鉴定核酸,所述核酸具有与选自本发明的序列或含有其至少大约10、15、20、25、30、35、40、50、75、100、150、200、250、300、350、400或500个连续碱基的片段以及其互补序列之一的核酸序列具有至少大约 50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98% 或 99% 或更高的序列同一性(同源性)的序列。序列同一性(同源性)可以使用联配算法来测量。例如,同源多核苷酸可以具有编码序列,该编码序列是本文描述的编码序列之一的天然发生的等位基因变体。当与本发明的核酸比较时,这样的等位基因变体可以具有一个或多个核苷酸的取代、删除或添加。另外,上述的方法可用于分离编码多肽的核酸,所述多肽与本发明的多肽或者包含其至少5、10、15、20、25、30、35、40、50、75、100或150个连续氨基酸的片段具有至少大约99%、至少大约95%、至少大约90%、至少大约85%、至少大约80%、至少大约75%、至少大约70%、至少大约65%、至少大约60%、至少大约55%或至少大约50%的序列同一性(同源性),正如使用序列联配算法(例如FASTA3. 0t78版本算法,参数为默认值)所确定的。
寡核苷酸探针及使用这些寡核苷酸探针的方法本发明也提供了核酸探针,例如可以用于鉴定、扩增或分离编码具有纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽的核酸或其片段,或用于鉴定纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的基因。一方面,该探针包括本发明核酸中的至少大约10个连续碱基。可以选择地,本发明的探针可以是如本发明核酸中所示序列的至少大约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、60、70、80、90、100、110、120、130、150 或大约10到50、大约20到60或大约30到70个连续碱基。这些探针通过结合和/或杂交来鉴定核酸。这些探针可以在本发明的阵列中使用,参见下面的讨论,包括例如毛细管阵列。本发明的探针也可以用于分离其它核酸或多肽。 本发明的分离或重组的核酸、与其互补的序列、或含有本发明的序列之一的至少约 10、15、20、25、30、35、40、50、75、100、150、200、300、400 或 500 个连续碱基的片段、或与其
互补的序列,也可用作探针,以确定生物样品如土壤样品是否含有具有本发明的核酸序列的生物体或从中可得到所述核酸的生物体。在这样的方法中,获得潜在地具有从中可分离出所述核酸的生物体的生物样品,并从样品中获得核酸。将这些核酸在允许探针与样品中存在的任何互补序列特异性杂交的条件下与探针接触。在必要的时候,允许探针与互补序列特异性杂交的条件,可以通过将探针与来自样品的互补序列以及对照序列进行接触来确定,所述样品已知含有互补序列,所述对照序列不含有互补序列。杂交条件,如杂交缓冲液的盐浓度、杂交缓冲液的甲酰胺浓度或杂交温度,可以被改变以确定允许探针与互补核酸特异性杂交的条件。如果该样品含有从中可分离出核酸的生物体,那么探针的特异性杂交被检测到。杂交可以通过用可检测的试剂标记探针来检测,所述可检测的试剂如放射性同位素、荧光染料或能催化可检测产物形成的酶。使用标记探针来检测样品中互补核酸的存在的许多方法对于本领域技术人员是熟知的。这些方法包括Southern印迹、Northern印迹、集落杂交方法和斑点印迹。这些方法中的每一种方法的方案在 Ausubel et al. Current Protocols in Molecular Biology,John Wiley 503 Sons, Inc. (1997)和Sambrook et al, Molecular Cloning:A LaboratoryManual 2nd Ed. , Cold Spring Harbor Laboratory Press (1989)中提供。可以选择地,多于一种的探针(其中至少一种探针能与核酸样品中存在的任何互补序列特异性杂交)可以在扩增反应中使用,以确定样品是否包含含有本发明的核酸的生物体(例如从中可分离出所述核酸的生物体)。一方面,这些探针包括寡核苷酸。一方面,扩增反应可以包括PCR反应。PCR实验方案在在Ausubel和Sambrook, supra中有所描述。可选地,扩增可以包括连接酶链式反应、3SR或链置换反应(见Barany,F.,〃The LigaseChain Reaction in a PCR World〃,PCR Methods and Applications j_:5-16,1991;E.Fahy et ah, "Self-sustained Sequence Replication(3SR) : An I sothermalTranscription-based Amplification System Alternative to PCR〃,PCR Methodsand Applications 丄:25-33,1991;以及 Walker G. T. et ah, "Strand DisplacementAmplification-an Isothermal in vitro DNA Amplification Technique", Nucleic AcidResearch迎1691-1696, 1992)。在这样的方法中,将样品中的核酸与探针接触,进行扩增反应,检测所得到的扩增产物。扩增产物可以通过在反应产物上进行凝胶电泳并用嵌入剂如溴化乙啶染色凝胶来检测。可以选择地,可以用放射性同位素标记一种或多种探针,放射性扩增产物的存在在凝胶电泳后通过放射自显影术来检测。衍生自本发明核酸的末端附近的序列的探针也可以在染色体步移(chromosomewalking)方法中使用,以鉴定含有临近本发明的序列的基因组序列的克隆。这样的方法允许从宿主生物中分离编码额外蛋白的基因。一方面,本发明的分离或重组的核酸、与其互补的序列、或含有本发明的序列之一的至少 10、15、20、25、30、35、40、50、75、100、150、200、250、300、350、400 或 500 个连续碱基
的片段、或与其互补的序列,被用作探针,以鉴定和分离相关的核酸。在一些方面,该相关的 核酸可以是来自生物体的cDNA或基因组DNA,这些生物体并不是最初从中分离出所述核酸的生物体。例如,其它生物体可以是相关生物体。在这样的方法中,核酸样品在允许探针与相关序列特异性杂交的条件下与探针接触。然后用上面描述的任意一种方法检测探针与来自相关生物体的核酸的杂交。通过改变用于鉴定与可检测探针杂交的核酸例如cDNA或基因组DNA的杂交条件的严紧性,可以鉴定并分离与探针具有不同同源性水平的核酸。严紧性通过在低于探针的解链温度的变化温度下进行杂交来改变。解链温度Tm是50%的靶序列与完全互补的探针杂交时的温度(在确定的离子强度和PH下)。选择非常严紧的条件,使其与特定探针的Tm相等,或比Tm低大约5°C。可以使用下述公式计算探针的解链温度
对于长度在14到70个核苷酸的探针,使用如下公式计算解链温度(Tm):Tm = 81.5 +16.6 (log[Na+])+0. 41 (G + C的比例分数)一(600/N),其中N是探针的长度。
如果杂交在含有甲酰胺的溶液中进行,解链温度使用如下等式计算Tm = 81. 5+16.6(log[Na+] ) +0. 41 (G + C的比例分数)—(0. 63%甲酰胺)—(600/N),其中N是探针的长度。预杂交在6X SSC、5X DenhardtJ s试剂、0. 5%SDS、100 μ g变性的片段化鲑精DNA或6X SSC、5X Denhardt’ s试剂、0. 5%SDS、100 μ g变性的片段化鲑精DNA,50%甲酰胺中进行。SSC和Denhardt ’ s溶液的配方已在Sambrook等,supra中列出。一方面,杂交通过将可检测探针加入到上面所列出的预杂交溶液中来进行。在探针包括双链DNA的情况下,在加入到杂交溶液之前对探针变性。一方面,将滤膜与杂交溶液接触充足的时间,以允许探针与含有与其互补的序列或与其同源的序列的cDNA或基因组DNA杂交。对于长度超过200个核苷酸的探针,杂交可以在比Tm低15_25°C的温度进行。对于更短的探针,如寡核苷酸探针,杂交在比Tm低5-10°C的温度进行。一方面,6X SSC中的杂交在大约68°C进行。通常,在含有50%甲酰胺的溶液中的杂交是在大约42°C进行的。
抑制纤维素酶的表达本发明提供了与本发明的核酸例如编码纤维素酶的核酸互补的核酸(例如本发明的核酸的反义序列),例如包括反义序列、siRNA、miRNA、核酶的核酸。含有反义序列的本分明核酸能抑制编码纤维素酶的基因的转运、剪接或转录。抑制可通过将基因组DNA或信使RNA作为靶标来实现。作为靶标的核酸的转录或功能可以被抑制,例如通过杂交和/或切害I]。本发明提供的一组示例性的抑制剂包括寡核苷酸,这些寡核苷酸能结合纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶基因或信息,在两种情况下都阻止或抑制纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的产生或功能。结合可通过序列特异性杂交来完成。另一类有用的抑制剂包括引起纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的信息失活或切割的寡核苷酸。该寡核苷酸可具有引起此类切割的酶活性,如核酶。可以对寡核苷酸进行化学修饰,或与能切割互补核酸的酶或组分偶联。可以对许多不同的这样的寡核苷酸的库进行筛选来寻找那些具有期望活性的寡核苷酸。因此,本发明提供了在核酸和/或蛋白水平抑制纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶表达的各种组合物,例如,含有本发明的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶序列的反义序列、siRNA、miRNA和核酶,以及抗纤维素酶抗体,如本发明的抗内切葡聚糖酶抗体、抗纤维二糖水解酶抗体、抗甘露聚糖酶抗体和/或抗β -葡糖苷酶抗体。
纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶表达的抑制可以具有各种工业应用。例如,抑制纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶的表达可以减慢或防止变坏。一方面,本发明的抑制纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的表达和/或活性的组合物的使用,例如抗体、反义寡核苷酸、核酶、siRNA和miRNA的使用,被用于减慢或防止变坏。因此,一方面,本发明提供了方法和组合物,包括将本发明的抗体、反义寡核苷酸、核酶、siRNA和miRNA应用于植物或者植物产品(如,谷物、谷粒、果实、种籽、根、叶等),以阻止或者延缓变坏。这些组分也可以由植物(如,转基因植物)或者其它生物(如,用本发明的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的基因转化的细菌或者其它微生物)表达。用于抑制纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶表达的本发明的组分(例如,反义序列、iRNA、核酶、抗体)可用作药物组合物,例如,抗病原剂,或用在其它治疗中,例如用作抗微生物剂,如用于沙门氏菌属。
反义寡核苷酸本发明提供了能结合纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶信息的反义寡核苷酸,一方面,其能通过以mRNA作为靶标来抑制纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶活性。设计反义寡核苷酸的策略在科学和专利文献中有很好的描述,技术人员能使用本发明的新试剂设计这样的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶寡核苷酸。例如,筛选有效的反义寡核苷酸的基因步移/RNA作图方法在本技术领域是熟知的,例如参见Ho (2000)Methods Enzymol. 314:168-183,该文献描述了 RNA作图分析法,该分析法是基于标准的分子技术,以提供用于有效的反义序列选择的一种简单且可靠的方法。也参见Smith(2000) Eur. J. Pharm. Sci. 11:191-198。自然发生的核酸被用作反义寡核苷酸。该反义寡核苷酸可以是任意长度;例如,在可选择的方面,该反义寡核苷酸在大约5到100之间,大约10到80之间,大约15到60之间,大约18到40之间。最适长度可以通过常规筛选来决定。这些反义寡核苷酸可以以任意浓度存在。最适浓度可通过常规筛选来决定。广泛种类的合成的、非天然发生的核苷酸和核酸类似物是已知的,它们可以解决这一潜在的问题。例如,可以使用含有非离子骨架的肽核酸(PNAs),如含有N-(2-氨基乙基)甘氨酸单元。也可以使用具有硫代磷酸酯键的反义寡核苷酸,正如在如下文献中所描述的WO 97/03211 ;W0 96/39154 ;Mata (1997) ToxicolApplPharmacol144:189-197 ;Antisense Therapeutics, ed. Agrawal(Humana Press, Totowa, N.J.,1996)。正如上面所描述的,本发明提供的具有合成DNA骨架类似物的反义寡核苷酸也可以包括二硫代磷酸酯、甲基膦酸、氨基磷酸酯、烷基磷酸三酯、氨基磺酸酯、3’-硫代乙缩醛、亚甲基(甲基亚氨)、3' -N-氨基甲酸酯和吗啉代氨基甲酸酯核酸。组合化学方法学可用于产生大量能被快速筛选特异性寡核苷酸的寡核苷酸,所述特异性寡核苷酸对任何靶标具有适当的结合亲和性和特异性,例如本发明的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶正义和反义序列(例如参见 Gold(1995)J. ,Biol. Chem. 270:13581-13584)。
抑制性核酶本发明提供了能结合纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶的信息的核酶。这些核酶能抑制纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶的活性,例如通过以mRNA作为靶标。设计核酶和选择用于靶向的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶特异性反义序列的策略在科学和专利文献中有很好的描述,熟练技术人员能使用本发明的新试剂来设计这样的核酶。核酶通过核酶的靶RNA结合部分来与靶RNA结合,从而发挥作用,核酶的靶RNA结合部分与该RNA上切割靶RNA的酶促部分非常接近。这样,通过互补的碱基配对,核酶识别和结合靶RNA,而且一旦结合于正确的位置,便以酶促活性作用来切割靶RNA和使其失活。如果切割发生在编码序列中,以这样的方式切割靶RNA将会破坏其引导合成编码的蛋白的能力。核酶结合和切割其RNA靶之后,它可以从结合的RNA上释放出来并且重复切割新的靶。在一些情况下,核酶的酶促性质会优于其它的技术,如反义技术(其中核酸分子仅结合于核酸靶来阻止其转录、翻译或者与其它分子的联系),因为实现治疗效果所必要的核酶有效浓度可能低于反义寡聚核苷酸的浓度。这一潜在的优点反映出核酶可以以酶促方式进行作用的能力。因此,单个核酶分子可以切割靶RNA的多个分子。一方面,核酶是高度特异性的抑制物,其抑制作用的特异性不仅依赖于碱基配对的结合机制,也依赖于该分子抑制与其结合的RNA的表达的机制。即,所述抑制是由切割靶RNA引起的,因此特异性定义为靶RNA的切割率与非靶RNA的切割率的比值。除了涉及碱基配对的那些因素,这种切割机制还依赖于另外的因素。这样,核酶作用的特异性比结合于同样的RNA位点的反义寡聚核苷酸强。本发明的核酶,例如,具有酶活的核酶RNA分子,可以形成锤头状基序、发夹基序,如肝炎S病毒基序、I类内含子基序和/或与RNA引导序列(guide sequence)相联系的 RNaseP 样 RNA。银头状基序的例子在如 Rossi (1992) Aids Research and HumanRetroviruses 8:183 中有说明;发夹基序在 Hampel (1989) Biochemistry 28:4929 和Hampel (1990) Nuc. Acids Res. 18:299 中有说明;肝炎 δ 病毒基序在 Perrotta (1992)Biochemistry 31:16 中有说明;RNaseP 基序在 Guetrier-Takada (1983) Cell 35:849 中有说明;1类内含子在Cech美国专利4,987,071中有说明。这些特定基序的引述并不是限制性的。本领域技术人员将认识到本发明的核酶,如,本发明的有酶活的RNA分子,可以有与一个或者多个靶基因的RNA区域互补的特异性底物结合位点。本发明的核酶可以在底物结合位点内或者其周围具有赋予了该分子RNA切割活性的核苷酸序列。
RNA 干扰(RNAi )在一个方面,本发明提供了被称为“RNAi”分子的RNA抑制性分子,其含有本发明的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶序列。RNAi分子可以包括双链RNA (dsRNA)分子,例如siRNA和/或miRNA。RNAi分子,例如siRNA和/或miRNA,可抑制纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶基因的表达。在一个方面,RNAi分子如siRNA和/或miRNA的长度大约为15、16、17、18、19、20、21、22、23、24、25或更多个核苷酸的双链。本发明不限于任何特殊的作用机制,RNAi可进入细胞中,引起相似或相同序列的单链RNA(ssRNA)的降解,包括内源性mRNA。当 细胞暴露于双链RNA (dsRNA)时,来自同源基因的mRNA被称为RNA干扰(RNAi)的过程选择性地降解。RNAi的一个可能的基本机制是将与特定的基因序列匹配的双链RNA (dsRNA)打断成为称为短的干扰RNA的短的碎片,它可触发与其序列匹配的mRNA的降解。在一个方面,本发明的RNAi可用于基因沉默(gene-silencing)疗法中,见,例如Shuey (2002)DrugDiscov. Today 7:1040-1046。在一个方面,本发明提供了使用本发明的RNAi如siRNA和/或miRNA选择性降解RNA的方法。该过程可在体外、离体或体内实施。在一个方面,本发明的RNAi分子可用来在细胞、器官或动物中产生丧失功能的突变。制备和应用可选择性降解RNA的RNAi分子如siRNA和/或miRNA的方法在本领域中是为人所熟知的,见,例如美国专利 6,506,559; 6, 511,824; 6, 515,109; 6, 489,127。
核酸的修饰——制备本发明的酶变体本发明提供了产生本发明的核酸的变体的方法,所述本发明的核酸例如那些编码纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶的核酸。这些方法可以被重复或者以多种组合使用,以产生具有与模板核酸编码的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶有所改变的或不同的活性或有所改变的或不同的稳定性的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶。这些方法也可以被重复或以多种组合使用,从而例如在基因/信息表达、信息翻译或信息稳定性方面产生变化。另一方面,细胞的遗传组成可以被改变,例如通过同源基因的离体修饰,随后再将其插入到细胞中。例如,一方面,本发明提供了分离的或重组的核酸,其具有包含SEQ ID NO: 163的至少一个核苷酸碱基残基修饰的序列,其中所述修饰包括下列改变的一个或多个位置265至267的任何一处的核苷酸被修饰为CGT、CGC、CGA、CGG、AGA或AGG ;位置307至309的任何一处的核苷酸被修饰为GGT、GGC、GGA或GGG ;位置328至330的任何一处的核苷酸被修饰为GGT、GGC、GGA或GGG ;位置340至342的任何一处的核苷酸被修饰为TTA、TTG、CTT、CTC、CTA或CTG ;位置469至471的任何一处的核苷酸被修饰为TCT、TCC、TCA、TCG、AGT或AGC ;位置1441至1443的任何一处的核苷酸被修饰为TTT或TTC ;位置1648至1650的任何一处的核苷酸被修饰为AAT或AAC ;或者,位置1768至1770的任何一处的核苷酸被修饰为CGT、CGC、CGA、CGG、AGA或AGG。另一方面,本发明提供了分离的或重组的多肽,其具有包含SEQ ID NO: 164的至少一个氨基酸残基修饰的序列,其中所述修饰包括下列改变的一个或多个氨基酸位置89的甲硫氨酸被修饰为精氨酸;氨基酸位置103的苯丙氨酸被修饰为甘氨酸;氨基酸位置110的脯氨酸被修饰为甘氨酸;氨基酸位置114的酪氨酸被修饰为亮氨酸;氨基酸位置157的丙氨酸被修饰为丝氨酸;氨基酸位置481的色氨酸被修饰为苯丙氨酸;氨基酸位置550的脯氨酸被修饰为天冬酰胺;或者,氨基酸位置590的甘氨酸被修饰为精氨酸。另一方面,本发明提供了分离的或重组的核酸,其具有包含本发明的示例性序列(例如,SEQ ID NO:1、SEQ ID NO:3,SEQ ID NO:5,SEQ ID NO:7,SEQ ID N0:9、SEQ ID NO:11等等)的核苷酸残基序列修饰的序列,其中所述修饰包括下列改变的一个或多个SEQ IDNO: 163的位置265至267的任何一处的相当位置的核苷酸变为CGT、CGC、CGA、CGG、AGA或AGG ;SEQ ID NO: 163的位置307至309的任何一处的相当位置的核苷酸变为GGT、GGC、GGA或GGG ;SEQ ID NO: 163的位置328至330的任何一处的相当位置的核苷酸变为GGT、GGC、·GGA或GGG;SEQ ID NO: 163的位置340至342的任何一处的相当位置的核苷酸变为TTA、TTG、CTT、CTC、CTA或CTG ;SEQ ID NO: 163的位置469至471的任何一处的相当位置的核苷酸变为TCT、TCC、TCA、TCG、AGT或AGC ;SEQ ID NO: 163的位置1441至1443的相当位置的核苷酸变为TTT或TTC ;SEQ ID NO: 163的位置1648至1650的任何一处的相当位置的核苷酸变为AAT或AAC ;或者,SEQ ID NO: 163的位置1768至1770的任何一处的相当位置的核苷酸变为CGT、CGC、CGA、CGG、AGA或AGG。另一方面,本发明提供了分离的或重组的核酸,其具有包含本发明的任何核酸的核苷酸残基序列修饰的序列,其中所述修饰包括下列改变的一个或多个SEQ ID NO: 163的位置265至267的任何一处的相当位置的核苷酸变为CGT、CGC、CGA、CGG、AGA或AGG ;SEQ ID NO: 163的位置307至309的任何一处的相当位置的核苷酸变为GGT、GGC、GGA或GGG ;SEQ ID NO: 163的位置328至330的任何一处的相当位置的核苷酸变为GGT、GGC、GGA或GGG ;SEQ ID NO: 163的位置340至342的任何一处的相当位置的核苷酸变为TTA、TTG、CTT、CTC、CTA或CTG ;SEQ ID NO: 163的位置469至471的任何一处的相当位置的核苷酸变为TCT、TCC、TCA、TCG、AGT或AGC ;SEQ ID NO: 163的位置1441至1443的相当位置的核苷酸变为TTT或TTC ;SEQ ID NO: 163的位置1648至1650的任何一处的相当位置的核苷酸变为AAT或AAC ;或者,SEQ ID NO: 163的位置1768至1770的任何一处的相当位置的核苷酸变为CGT、CGC、CGA、CGG、AGA或AGG。另一方面,本发明提供了分离的或重组的多肽,其具有包含本发明的示例性序列(例如,SEQ ID NO:2, SEQ ID NO:4、SEQ ID NO:6, SEQ ID NO:8, SEQ ID N0:10 等等)的氨基酸残基修饰的序列,其中所述修饰包括下列改变的一个或多个SEQ ID NO: 164的氨基酸位置89的甲硫氨酸相当的氨基酸变为精氨酸;SEQ ID NO: 164的氨基酸位置103的苯丙氨酸相当的氨基酸变为甘氨酸;SEQ ID NO: 164的氨基酸位置110的脯氨酸相当的氨基酸变为甘氨酸;SEQ ID NO: 164的氨基酸位置114的酪氨酸相当的氨基酸变为亮氨酸;SEQ IDNO: 164的氨基酸位置157的丙氨酸相当的氨基酸变为丝氨酸;SEQ IDNO: 164的氨基酸位置481的色氨酸相当的氨基酸变为苯丙氨酸;SEQ ID NO: 164的氨基酸位置550的脯氨酸相当的氨基酸变为天冬酰胺;或者,SEQ ID NO: 164的氨基酸位置590的甘氨酸相当的氨基酸变为精氨酸。
另一方面,本发明提供了分离的或重组的多肽,其具有包含本发明的任何多肽的氨基酸残基修饰的序列,其中所述修饰包括下列改变的一个或多个SEQ ID NO: 164的氨基酸位置89的甲硫氨酸相当的氨基酸变为精氨酸;SEQ ID NO: 164的氨基酸位置103的苯丙氨酸相当的氨基酸变为甘氨酸;SEQ ID NO: 164的氨基酸位置110的脯氨酸相当的氨基酸变为甘氨酸;SEQ ID NO: 164的氨基酸位置114的酪氨酸相当的氨基酸变为亮氨酸;SEQ IDNO: 164的氨基酸位置157的丙氨酸相当的氨基酸变为丝氨酸;SEQ ID NO: 164的氨基酸位置481的色氨酸相当的氨基酸变为苯丙氨酸;SEQ ID NO: 164的氨基酸位置550的脯氨酸相当的氨基酸变为天冬酰胺;或者,SEQ ID NO: 164的氨基酸位置590的甘氨酸相当的氨基酸变为精氨酸。本发明的核酸可以通过任何方法来改变。例如,随机(random或stochastic)方法、或者非随机、或者“定向进化”的方法,参见如,美国专利6,361,974。基因的随机突变方法在本领域是已知的,参见如,美国专利5,830, 696。例如,可以应用突变剂来对基因进行随机突变。突变剂包括,如,紫外线或者Y辐射,或者化学诱变剂,如,丝裂霉素,亚硝酸,光活化的补骨脂内酯,它们单独使用或者组合使用来诱导DNA的断裂,其可以通过重组被修复。另外的化学诱变剂包括,如,亚硫酸氢钠、亚硝酸、羟胺、肼或者甲酸。其它的诱变剂是核苷酸前体的类似物,如,亚硝基胍、5-溴尿嘧啶、2-氨基嘌呤或者吖啶。这些试剂可以加入到PCR反应中替换核苷酸前体,从而突变该序列。也可以应用嵌入试剂如普罗黄素、吖啶黄、奎纳克林和类似物。可以应用分子生物学上的任何技术,如随机PCR诱变,参见,如,Rice (1992)Proc.Natl. Acad. Sci. USA 89:5467-5471 ;或者组合式多重盒式诱变,参见如,Crameri (1995)Biotechinques 18:194-196。可选择地,核酸,如基因,可以在随机片段化后重新装配,参见,如,美国专利 6,291,242 ;6,287,862 ;6,287,861 ;5,955,358 ;5,830,721 ;5,824,514,5,811,238 ;5,605,793.。在可选择的方面,修饰、增加或者删除可以通过易错PCR、改组、寡核苷酸诱导的定点突变、装配PCR、有性PCR诱变、体内诱变、盒式诱变、递归整体诱变、指数整体突变、位点专一性诱变、基因再装配、基因位点饱和诱变(GSSM)、合成连接重装配(SLR)、重组、递归序列重组(recursive sequence recombination)、硫代磷酸酯修饰的DNA诱变、含有尿卩密唳模板的诱变、缺口双重诱变(gapped dup I ex mutagenesi s )、点错配修复诱变(point mismatch repair mutagenesis)、修复缺陷型宿主株诱变、化学诱变、放射诱变、缺失诱变、限制选择诱变(restrict ion-select ion mutagenesis)、限制纯化诱变(restriction-purification mutagenesis)、人工基因合成、整体诱变、嵌合核酸多聚体生成、染色体饱和诱变(CSM)和/或者这些方法和其它方法的组合产生。以下的出版物描述了可以整入到本发明的方法中的各种递归重组程序和/或方 Stemmer(1999Molecular breeding of viruses for targeting and other clinical
properties,,Tumor Targeting 4:1-4 ;Ness (1999) Nature Biotechnology 17:893-896 ;Chang (1999) “Evolution of a cytokine using DNA family shuffling” NatureBiotechnology 17:793-797 ;Minshull (1999) “Protein evolution by molecularbreeding,,Current Opinion in Chemical Biology 3:284-290 ;Christians (1999)“Directed evolution of thymidine kinase for AZT phosphorylation using DNAfamily ShufflingnNature Biotechnology 17:259-264 ;Crameri (1998)iiDNA shufflingof a family of genes from diverse species accelerates directed evolutionnNature391:288-291 ;Crameri (1997) “Molecular evolution of an arsenate detoxificationpathway by DNA shuffling” Nature Biotechnology 15:436-438 ;Zhang ( 1997)uDirected-evoIution of an effective fucosidase from a galactosidase by DNAshuffling and screening,,Proc. Natl. Acad. Sci. USA 94:4504-4509 ;Patten 等(1997)“Applications of DNA Shuffling to Pharmaceuticals and Vaccines’’Current Opinionin Biotechnology 8:724-733 ;Crameri 等(1996) “Construction and evolution ofantibody-phage libraries by DNA shuffling”Nature Medicine 2:100-103 ;Gates 等(1996)“Affinity selective isolation of ligands from peptide libraries throughdisplay on a lac repressor’headpiece dimer’ ,,Journal of Molecular Biology255:373-386 ;Stemmer (1996) “Sexual PCR andAssembly PCR”In:The Encyclopedia ofMolecular Biology. VCH Publishers, New York. 447-457 页;Crameri 和 Stemmer (1995)“Combinatorial multiple cassette mutagenesis creates all the permutations of mutant and wildtype cassettes^BioTechniques 18:194-195 ;Stemmer 等(1995)“Single-step assembly of a gene and entire plasmid form large numbers of oIigodeoxyribonucleotides^Genej 164:49-53 ;Stemmer ( 1995) “The Evolution ofMolecular Computation,,Science 270:1510 ;Stemmer (1995) “Searching SequenceSpace,,Bio/Technology 13:549-553 ;Stemmer (1994) “Rapid evolution of a proteinin vitro by DNA shuffling”Nature 370:389-391 ;和 Stemmer (1994) “DNA shufflingby random fragmentation and reassembly:In vitro recombination for molecularevolution” Proc. Natl. Acad. Sci. USA 91:10747-10751。产生多样性的突变方法包括,例如,定点诱变(Ling等.(1997) "Approachesto DNAmutagenesis:an overview” Anal Biochem. 254 (2):157-178 ;Dale 等(1996)uOligonucIeotide-directed random mutagenesis using the phosphorothioatemethod”Methods Mol. Biol. 57: 369-374 ;Smith (1985) “In vitro mutagenesis” Ann.Rev. Genet. 19:423-462 ;Botstein&Shortle (1985) “Strategies and applicationsof in vitro mutagenesis”Science 229:1193-1201 ;Carter (1986) “Site-directedmutagenesis”Biochem.J. 237:1-7 ;和 Kunkel ( 1987) “The efficiency ofoligonucleotide directed mutagenesis” 在 Nucleic Acids&Molecular Biology(Eckstein, F.和 Lilley,D. M. J. eds.,SpringerVerlagj Berlin));使用含有尿啼唳的模板的诱变(Kunkel (1985) “Rapid and efficient site-specific mutagenesiswithout phenotypic selection” Proc. Natl. Acad. Sci. USA 82: 488-492 ;KunkeI 等(1987) “Rapid and efficient site-specific mutagenesis without phenotypicselection’^Methods in Enzymol. 154,367-382 ;和 Bass 等(1988 )“Mutant Trp repressorswith new DNA-binding specificities” Science 242:240-245);寡核苷酸诱导的定点诱变(Methods in Enzymol. 100:468-500 (1983) ;Methods in Enzymol. 154:329-350(1987) ;Zoller (1982) “Oligonucleotide-directed mutagenesis using M 13-derivedvectors:an efficient and general procedure for the production of pointmutations in any DNA fragment,,Nucleic Acids Res. 10:6487-6500 ;Zoller&Smith(1983) “Oligonucleotide-directed mutagenesis of DNA fragments cloned into M13vectors Methods in Enzymol. 100:468-500 和 Zoller (1987)01igonucleotide_directedmutagenesis:a simple method using two oligonucleotide primers and asingle-stranded DNA template ^Methods in Enzymol. 154:329-350);硫代憐酸酯修饰的DNA 诱变(Taylor (1985)“The use of phosphorothioate-modified DNA in restrictionenzyme reactions to prepare nicked DNA,,NucI. Acids Res. 13:8749-8764 ;Taylor(1985) “The rapid generation of oligonucleotide-directed mutations at highfrequency using phosphorothioate-modified DNA” NucI. Acids Res. 13:8765-8787
(1985);Nakamaye (1986) “Inhibition of restriction endonuclease Nci I cleavageby phosphorothioate groups and its application to oligonucleotide-directedmutagenesis” Nucl.Acids Res. 14:9679-9698 ;Sayers (1988) “Y_T Exonucleasesin phosphorothioate-based oligonucleotide-directed mutagenesis,,Nucl.Asids Res. 16:791-802 ;和 Sayers 等(1988) “Strand specific cleavage of phosphorothioate-containing DNA by reaction with restriction endonucleasesin the presence of ethidiumbromide” Nucl. Acids Res. 16:803-814);使用缺口双链体 DNA 的诱变(Kramer 等(1984) “The gapped duplex DNA approach tooligonucleotide-directed mutation construction,,Nucl. Acids Res. 12:9441-9456 ;Kramer&FritzC1987)Methods in Enzymol. uOligonucleotide-directed construction ofmutations via gapped duplex DNA,,154:350-367 ;Kramer( 1988)“ Improved enzymatic invitro reactions in the gapped duplex DNA approach to oligonucleotide-directedconstruction of mutations” Nucl. Acids Res. 16:7207 ;和 Fritz ( 1988)“Oligonucleotide-directed construction of mutations:a gapped duplex DNAprocedure without enzymatic reactions in vitro”Nucl. Acids Res. 16:6987-6999)。可以用于实践本发明的另外的实验方案包括点错配修复(Kramer (1984) “PointMismatch Repair” Cell 38:879-887),应用修复缺陷型宿主株的诱变(Carter 等(1985)“Improved oligonucleotide site-directed mutagenesis using M13 vectors,,Nucl.Acids Res. 13 :4431_4443 和 Carter (1987) “Improved oligonucleotide-directedmutagenesis using M13 vectors,,Methods in Enzymol. 154:382-403), 缺失诱变(Eghtedarzadeh (1986) “Use of oligonucleotides to generate largedeletions^Nucl. Acids Res. 14:5115),限制-选择和限制-纯化(Wells 等(1986)“Importance of hydrogen-bond formation in stabilizing the transition state ofsubtilisin” Phil. Trans. R. Soc. Lond. A 317:415-423),通过全基因合成的诱变(Nambiar等(1984) “Total synthesis and cloning of a gene coding for the ribonucleaseS protein” Science 223:1299-1301 ;Sakamar 和 Khorana (1988) “Total synthesisand expression of a gene for the a—subunit of bovine rod outer segmentguanine nucleotide-binding protein (transducin),,Nucl. Acids Res. 14:6361-6372 ;WelIs 等(1985) “Cassette mutagenesis:an efficient method for generationof multiple mutations at defined sites,,Gene 34:315-323 和 Grundstrom 等(1985) iiOligonucIeotide-directed mutagenesis by microscale ‘shot-gun’ genesynthesis^Nucl. Acids Res. 13:3305-3316),双链断裂修复(Mandecki (1986),Arnold(1993) “Protein engineering for unusual environments,,Current Opinion inBiotechnology 4:450-455. “Oligonucleotide-directed double-strand break repairin plasmids of Escherichia coli:a method for site-specific mutagenesis,,Proc.Natl. Acad. Sci. USA,83:7177-7181)。很多以上的方法的另外的细节在Methods inEnzymology的154卷中有说明,其中也描述了用于解决各种诱变方法中所会遇到的问题的有用策略。在例如下列的文件中描述了可以用于实践本发明的实验方案,如Stemmei'的美国专利 5,605,793 (1997. 2. 25),“Methods for In Vitro Recombination” ;Stemmer 等的美国专利 5,811,238 (1998. 9. 22) “Methods for Generating Polynucleotides havingDesired Characteristics by Iterative Selection and Recombination,,;Stemmer 等的美国专利 5,830,721 (1998. 11. 3),“DNA Mutagenesis by Random Fragmentati on andReassembly” ;Stemmer 等的美国专利 5,834,252 (1998. 11. 10),“End-ComplementaryPolymerase Reaction” ;Minshull 等的美国专利 5,837,458 (1998.11. 17) “Methodsand Compositions for Cellular and Metabolic Engineering,,;W0 95/22625,Stemmer和 Crameri,“Mutagenesis by Random Fragmentation and Reassembly” ;W0 96/33207,Stemmer 和 Lipschutz,“End Complementary Polymerase Chain Reaction,,;W0 97/20078,Stemmer 和 Crameri 的“Methods for Generating Polynucleotides having DesiredCharacteristics by Iterative Selection and Recombination,,;W0 97/35966,Minshull 和 Stemmer,“Methods and Compositions for Cellular and MetabolicEngineerin’’;W0 99/41402,Punnonen 等,“Targeting of Genetic Vaccine Vectors” ;W099/41383,Punnonen 等,“Antigen Library Immunization” ;W0 99/41369,Punnonen 等,“Genetic Vaccine Vector Engineering” ;W0 99/41368,Punnonen 等,“Optimization ofImmunomodulatory Properties of Genetic Vaccines” ;EP 752008,Stemmer 和 Crameri,“DNA Mutagenesis by Random Fragmentation and Reassembly,,;EP 0932670,Stemmer,“Evolving Cellular DNA Uptake by Recursive Sequence Recombination, ;W0 99/23107,Stemmer 等,“Modification of Virus Tropism and Host Range by Viral GenomeShuffling” ;W0 99/21979,Apt 等,“Human Papillomavirus Vectors” ;W0 98/31837,del Cardayre 等,“Evolution of Whole Cells and Organisms by Recursive SequenceRecombination” ;W0 98/27230,Patten 和 Stemmer,“Methods and Compositions forPolypeptide Engineering” ;W0 98/27230,Stemmer 等,“Methods for Optimizationof Gene Therapy by Recursive Sequence Shuffling and Selection,,;W0 00/00632,“Methods for Generating Highly Diverse Libraries” ;W0 00/09679,“Methods forObtaining in Vitro Recombined Polynucleotide Sequence Banks and ResultingSequences” ;W0 98/42832, Arnold 等,“Polynucleotide Sequences Using Random orDefined Primers”;W0 99/29902,Arnold 等,“Method for Creating Polynucleotide andPolypeptide Sequences”;W098/41653,Vind,“An in Vitro Method for Construction ofa DNA Library”;W098/41622,Borchert 等,“Method for Constructing a Library UsingDNA Shuffling”;以及 WO 98/42727, Pati 和 Zarl ing, “Sequence Alterations usingHomologous Recombination,,。在例如下列的文件中描述了可以用于实践本发明的方案(提供了关于产生不同多样性的方法的细节),如美国专利申请系列号(USSN) 09/407, 800,Patten等的“SHUFFLINGOF C0D0NALTERED GENES”,于 1999 年 9 月 28 日提交;del Cardayre 等的 “EVOLUTIONOF WHOLE CELLS AND ORGANISMS BY RECURSIVE SEQUENCE RECOMBINATION”,美国专利6,379,964 ;Crameri 等的 “OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION”,美国专利 6,319,714 ;6, 368,861 ;6, 376,246 ;6, 423,542 ;6, 426,224 和 PCT/US00/01203 ;Welch 等的“USE OF ⑶DON-VARIED OLIGONUCLEOTIDE SYNTHESIS FOR SYNTHETICSHUFFLING”,美国专利 6,436,675 ;Selifonov 等的 “METHODS FOR MAKING CHARACTERSTRINGS, POLYNUCLEOTIDES &P0LYPEPTIDES HAVING DESIRED CHARACTERISTICS”,2000 年I 月 18 日提交,(PCT/US00/01202)和,如 Selifonov 等的“METHODS FOR MAKING CHARACTERSTRINGS, POLYNUCLEOTIDES &POLYPEPTIDES HAVING DESIRED CHARACTERISTICS”,2000年7月 18 日提交,(美国系列号 09/618,579);Selifonov和 Stemmer 的“METHODS OF POPULATINGDATA STRUCTURES FOR USE IN EVOLUTIONARY SMULATIONS”,2000 年 I 月 18 日提交(PCT/ US00/01138),和 Affholter 的“SINGLE-STRANDED NUCLEIC ACID TEMPLATE-MEDIATEDRECOMBINATION AND NUCLEIC ACID FRAGMENT ISOLATION”,2000年 9 月 6 日提交(美国系列号 09/656,549),和美国专利 6,177,263 ;6,153,410。非随机或“定向进化”方法包括,例如饱和诱变如基因位点饱和诱变(GSSM )、合成连接重装配(SLR)或其组合,它们被用于修饰本发明的核酸,以产生具有新的或改变的特性(例如在高度酸性或碱性条件下的活性,在高温或低温的活性,等等)的纤维素酶,如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶。由修饰的核酸编码的多肽可以在测试葡聚糖水解或其它活性之前被筛选活性。可以使用任何形式或实验方案,例如使用毛细管阵列平台。例如参见美国专利6,361,974 ;6,280,926 ;5,939,250。
基因位点饱和诱变或GSSM本发明提供了使用基因位点饱和诱变或GSSM制备酶的方法,如在本文中以及美国专利6,171,820和6,579,258所述的。一方面,含有简并N, N, G/T序列的密码子引物被用于将点突变引入多核苷酸中,例如纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶或本发明的抗体,以便产生一组子代多肽,其中在每一氨基酸位置上可表现出全范围的单氨基酸取代,取代发生的位置例如酶活性位点中的氨基酸残基,或将要被修饰的配体结合位点。这些寡核苷酸可以包括相邻的第一同源序列,简并N,N, G/T序列,和任选地第二同源序列。由使用这些寡核苷酸而得到的下游子代翻译产物包含沿着多肽的每一氨基酸位点上的所有可能的氨基酸变化,这是由于N,N, G/T序列的简并性包括了所有20个氨基酸的密码子。一方面,一个这样的简并寡核苷酸(例如包括一个简并N,N, G/T序列盒)被用于使亲本多核苷酸模板中的每一原始密码子进行完全范围的密码子取代。另一方面,使用至少两个简并序列盒,或在相同的寡核苷酸中或不同的寡核苷酸中,用于使亲本多核苷酸模板中的至少两个原始密码子进行完全范围的密码子取代。例如,一个寡核苷酸中可以包含一个以上N,N, G/T序列,以便在多于一个的位点上引入氨基酸突变。这些多个N, N, G/T序列可以直接相邻,或由一个或多个额外的核苷酸序列分隔开。另一方面,用于弓I入插入和删除的寡核苷酸可以单独使用,或者与含有N,N, G/T序列的密码子组合使用,以便引入氨基酸插入、删除和/或取代的任何排列组合。一方面,两个或更多个连续氨基酸位置的同时诱变是使用含有相邻N,N, G/T三联体的寡核苷酸进行的,即简并(N,N, G/T) η序列。另一方面,使用与N,N, G/T序列相比具有较低简并性的简并序列盒。例如,在一些情况下,可能期望(例如,在寡核苷酸中)使用仅包括一个N的简并三联体序列,其中所述的N可以在三联体的第一、第二或第三位置上。在该三联体的剩余两个位置上,可以使用包括任意排列组合的任何其它碱基。可以选择地,在一些情况下可能期望使用(例如在寡聚体中)简并N,N, N三联体序列。一方面,使用简并三联体(例如N,N, G/T三联体)允许在多肽中的每一和每个氨基酸位置上系统且容易地产生完全范围的可能的天然氨基酸(总共20种氨基酸)(在可以选择的方面,这些方法也包括在每一氨基酸残基或密码子、位置产生低于所有可能种类的取代)。例如,对于100个氨基酸的多肽,可以产生2000个不同种类(即每个位置上的20种可能氨基酸X 100个氨基酸位置)。通过使用含有简并N,N, G/T三联体的寡核苷酸或一组寡 核苷酸,32种不同序列可编码所有20种可能的天然氨基酸。因此,在其中使用至少一种这样的寡核苷酸对亲本多核苷酸序列进行饱和诱变的反应容器中,产生了编码20种不同多肽的32种不同的子代多核苷酸。相反,在定点诱变中使用非简并寡核苷酸在每个反应容器中仅仅导致一种子代多肽。非简并寡核苷酸可以任选地与所公开的简并引物组合使用;例如,非简并寡核苷酸可以被用于在工作多核苷酸中产生特异性点突变。这提供了产生特异性沉默点突变、导致相应的氨基酸变化的点突变、以及导致产生终止密码子和多肽片段的相应表达的手段。一方面,每一饱和诱变反应容器含有编码至少20种子代多肽(例如纤维素酶,如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶)分子的多核苷酸,以便所有的20种天然氨基酸都会出现在对应于亲本多核苷酸中被诱变的密码子位置的特定氨基酸位置(其它方面使用了少于20个天然的组合)。从每一饱和诱变反应容器产生的32倍简并的子代多肽可以被克隆扩增(例如使用表达载体克隆到合适的宿主中,例如大肠杆菌宿主中),并进行表达筛选。当单个子代多肽通过筛选鉴定,显示出有利的特性变化时(当与亲本多肽相比时,如在碱性或酸性条件下增高的葡聚糖水解活性),可以对其测序以鉴定其中所含的相应的有利氨基酸取代。一方面,如本文所公开的,应用饱和诱变对亲本多肽的各个和所有的氨基酸位置进行诱变后,可以在超过一个的氨基酸位置确定出的有利的氨基酸变化。可以产生一个或多个新的子代分子,其含有所有或部分这些有利的氨基酸取代的组合。例如,如果在多肽的3个氨基酸位置的每一个氨基酸位置处鉴定出2个特异的有利的氨基酸变化,那么出现的排列就包括每一位置上的3种可能性(与原始氨基酸没有变化的可能性,以及两个有利变化中的每一个的可能性)和3个位置。因此,总共有3X3X3或27种可能性,其中包括了先前被检验的7种可能性,即6个单点突变(即三个位置的每一个位置有2个)和在任何位置上没有变化的点突变。另一方面,位点饱和诱变可以与改组、嵌合、重组和其它诱变方法以及筛选一起使用。本发明提供了以反复的方式使用任何诱变方法,包括饱和诱变。在一个实例中,任何诱变方法的反复使用结合筛选使用。
本发明还提供了使用专有密码子引物(含有简并N,N,N序列)将点突变引入多核苷酸中,以便产生一组子代多肽,其中在每一氨基酸位置上可表现出全范围的单氨基酸取代(基因位点饱和诱变(GSSM))。这些寡聚体包括相邻的第一同源序列,简并N,N,N序列,以及一方面不必须包括第二同源序列。由使用这些寡聚体而得到的下游子代翻译产物包含沿着多肽的每一氨基酸位点上的所有可能的氨基酸变化,这是由于N,N,N序列的简并性包括了所有20个氨基酸的密码子。一方面,一个这样的简并寡聚体(包括一个简并N, N, N序列盒)被用于使亲本多核苷酸模板中的每一原始密码子进行完全范围的密码子取代。另一方面,使用至少两个简并N, N, N序列盒,或在相同的寡聚体中或不同的寡聚体中,用于使亲本多核苷酸模板中的至少两个原始密码子进行完全范围的密码子取代。因此,一个寡聚体中可以包含一个以上N,N, N序列,以便在多于一个的位点上引入氨基酸突变。这些多个N,N,N序列可以直接相邻,或由一个或多个额外的核苷酸序列分隔开。另一方面,用于引入插入和删除的寡聚体可以单独使用,或者与含有N,N,N序列的密码子组合使用,以便引入氨基酸插入、删除和/或取代的任何排列组合。·
一方面,使用含有相邻N, N, N三联体的寡聚体,即简并(N, N, N)n序列,进行两个或更多个连续氨基酸位置的同时诱变是可能的。另一方面,本发明提供了使用与N,N,N序列相比具有较低简并性的简并序列盒。例如,在一些情况下可能期望使用(例如在寡聚体中)仅包括一个N的简并三联体序列,其中所述的N可以在三联体的第一、第二或第三位置上。在三联体的剩余两个位置上,可以使用包括任意排列组合的任何其它碱基。可以选择地,在一些情况下可能期望使用(例如在寡聚体中)简并N,N, N三联体序列、N, N, G/T或N,N, G/C三联体序列。一方面,由于若干个原因,使用简并三联体(例如N,N, G/T或N,N, G/C三联体序列)是有利的。一方面,本发明提供了在多肽中的每一和每个氨基酸位置上系统且相对容易地产生完全范围的可能的天然氨基酸(总共20种氨基酸)的取代的方法。因此,对于100个氨基酸的多肽,本发明提供了系统且相对容易地产生产生2000个不同种类(即每个位置上的20种可能氨基酸X 100个氨基酸位置)的方法。可以理解,通过使用含有简并N,N,G/T或N, N, G/C三联体序列的寡聚体,32种不同序列可编码所有20种可能的天然氨基酸。因此,在其中使用至少一种这样的寡聚体对亲本多核苷酸序列进行饱和诱变的反应容器中,产生了编码20种不同多肽的32种不同的子代多核苷酸。相反,在定点诱变中使用非简并寡聚体在每个反应容器中仅仅导致一种子代多肽。本发明还提供了非简并寡聚体的使用,其可以任选地与所公开的简并引物组合使用。可以理解,在一些情况中,使用非简并寡聚体在工作多核苷酸中产生特异性点突变是有利的。本发明提供了产生特异性沉默点突变、导致相应的氨基酸变化的点突变、以及导致产生终止密码子和多肽片段的相应表达的手段。因此,在本发明的一方面,每一饱和诱变反应容器含有编码至少20种子代多肽分子的多核苷酸,以便所有的20种天然氨基酸都会出现在对应于亲本多核苷酸中被诱变的密码子位置的特定氨基酸位置。从每一饱和诱变反应容器产生的32倍简并的子代多肽可以被克隆扩增(例如使用表达载体克隆到合适的大肠杆菌宿主中),并进行表达筛选。当单个子代多肽通过筛选鉴定,显示出有利的特性变化时(当与亲本多肽相比时),可以对其测序以鉴定其中所含的相应的有利氨基酸取代。一方面,如本文所公开的,应用饱和诱变对亲本多肽的各个和所有的氨基酸位置进行诱变后,可以在超过一个的氨基酸位置确定出的有利的氨基酸变化。可以产生一个或多个新的子代分子,其含有所有或部分这些有利的氨基酸取代的组合。例如,如果在多肽的3个氨基酸位置的每一个氨基酸位置处鉴定出2个特异的有利的氨基酸变化,那么出现的排列就包括每一位置上的3种可能性(与原始氨基酸没有变化的可能性,以及两个有利变化中的每一个的可能性)和3个位置。因此,总共有3X3X3或27种可能性,其中包括了先前被检验的7种可能性,即6个单点突变(即三个位置的每一个位置有2个)和在任何位置上没有变化的点突变。本发明提供了结合另外的诱变方法使用饱和诱变,例如其中两个或更多个相关多核苷酸被引入合适的宿主细胞的方法,以便通过重组和还原性重配产生杂合多核苷酸。除了沿着基因的全序列进行诱变之外,本发明提供了 诱变可用于取代多核苷酸序列中任意数量的碱基的每一个,其中待被诱变的碱基的数量在一个方面为从15至 100, 000中的每一个整数。因此,并不是沿着分子诱变每一个位置,可以对每一个或独立数目的碱基(在一个方面为总共15至100,000的亚组)进行诱变。一方面,单独的核苷酸被用于沿着多核苷酸序列诱变每一个位置或一组位置。待被诱变的3个位置可以是密码子。使用诱变引物可以引入突变,该诱变引物含有异源序列盒,也称为诱变序列盒。示例性的序列盒可以具有I至500个碱基。在这样的异源序列盒中每一个核苷酸位置可以是N、A、C、G、T、A/C、A/G、A/T、C/G、C/T、G/T、C/G/T、A/G/T、A/C/T、A/C/G 或 E,其中 E 是非 A、C、G 或 T的任何碱基(E可以被称为设计寡聚体(designer oligo))。一方面,饱和诱变包括诱变有待诱变的限定多核苷酸序列(其中待诱变的序列长度一方面为约15至100,000个碱基)中的一整组诱变序列盒(其中每一个序列盒的长度一方面为约1-500个碱基)。因此,一组突变(从I至100个突变)被引入每一个待诱变的序列盒。在应用一轮饱和诱变的过程中,一组待被引入到一个序列盒的突变可以与第二组待被引入到第二个序列盒的突变不同或相同。这样的分组通过缺失、插入、特定密码子的分组以及特定核苷酸序列盒的分组加以例示。一方面,待被诱变的限定序列包括全基因、通路、cDNA、整个开放阅读框(ORF)以及整个启动子、增强子、阻抑物/反式激活蛋白、复制原点、内含子、操纵子或任何多核苷酸功能组。通常,为了此目的,“限定序列(defined sequence)”可以是15碱基多核苷酸序列的任何多核苷酸以及长度在15个碱基和15,000个碱基的多核苷酸序列(本发明特别指出中间的每一个整数)。选择密码子分组时的考虑因素包括由简并诱变序列盒编码的氨基酸类型。—方面,可被引入到诱变序列盒中的突变分组,本发明特别提供了在每一个位置编码 2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19 和 20 种氨基酸的简并密码子取代(使用简并寡聚体)以及由此编码的多肽文库。
合成连接重装配(SLR)本发明提供了非随机的基因修饰系统,命名为“合成连接重装配”或简单地称作“SLR”,这是一种“定向进化方法”,可以产生具有新的或改变的特性的多肽,例如本发明的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶或本发明的抗体。SLR是将寡核苷酸片段非随机地连接在一起的一种方法。该方法与随机寡核苷酸改组不同的地方在于,核酸构件(building blocks)没有被随意地改组、连接或嵌合,而是被非随机地装配。例如参见美国专利 6,773,900; 6,740,506; 6,713,282; 6,635,449; 6,605,449;6, 537,776。一方面,SLR包括下述步骤(a)提供模板多核苷酸,其中模板多核苷酸包含编码同源基因的序列;(b)提供多个构件多核苷酸,其中这些构件多核苷酸被设计成可在预定的序列处与模板多核苷酸交换重装配(cross-over reassemble),所述构件多核苷酸包含作为同源基因变体的序列和与变体序列两侧的模板多核苷酸同源的序列;(C)将构件多核苷酸与模板多核苷酸组合在一起,以便构件多核苷酸与模板多核苷酸交换重装配,以产生包含同源基因序列变异体的多核苷酸。SLR不依赖于将被重新排列的多核苷酸之间存在高度同源性。因此,该方法可以被用于非随机地产生包括超过10·个不同嵌合体的子代分子的文库(或集合)。SLR可以被用于产生包括超过IOicicitl个不同子代嵌合体的文库。因此,本发明的一些方面包括产生一组最终嵌合的核酸分子的非随机方法,所述最终嵌合的核酸分子具有按设计所选择的整个装配 次序。该方法包括按设计产生多个特异性核酸构件的步骤,以及装配这些核酸构件的步骤,这样可获得依设计而定的整个装配次序,所述的多个特异性核酸构件具有可被应用的互相相容的可连接末端。将被装配的核酸构件的互相相容的可连接末端被认为对于这种类型的有序装配是“有用的”,如果它们能使这些构件以预定次序结合。因此,核酸构件可以被偶联的整个装配次序是由可连接末端的设计来确定。如果使用多于一个的装配步骤,那么核酸构件可被偶联的总装配次序也由装配步骤的连续次序来确定。一方面,用酶例如连接酶(例如T4DNA连接酶)处理退火的结构片段,以实现结构片段的共价结合。一方面,寡核苷酸构件的设计通过分析一组祖先核酸序列模板来获得,所述祖先核酸模板作为产生最终嵌合的多核苷酸的子代集合的基础。这些亲本寡核苷酸模板因此作为序列信息的来源,它们在将被诱变例如被嵌合或改组的核酸构件的设计中有用。在该方法的一个方面,多个亲本核酸模板的序列被联配,以便选择一个或多个分界点。这些分界点可以位于同源区域,由一个或多个核苷酸构成。这些分界点优选地由至少两个祖先模板共享。从而这些分界点可以被用于描绘将要产生的寡核苷酸构件的边界,以便重排列亲本多核苷酸。在祖先分子中鉴定和选择的分界点作为最终嵌合的子代分子的装配中的潜在嵌合点。分界点可以是由至少两个亲本多核苷酸序列分享的同源区域(包括至少一个同源性核苷酸碱基)。可以选择地,分界点可以是由至少一半的亲本多核苷酸序列分享的同源区域,或者可以是由至少三分之二的亲本多核苷酸序列分享的同源区域。甚至更优选地,有用的分界点是由至少四分之三的亲本多核苷酸序列分享的同源区域,或者可以是由几乎所有的亲本多核苷酸序列分享的同源区域。一方面,分界点是由所有亲本多核苷酸序列分享的同源区域。一方面,连接再装配过程被彻底地进行,以便产生含有尽量可能多的子代嵌合多核苷酸的文库。换句话说,核酸构件的所有可能的有序组合都呈现在最终嵌合的核酸分子集合中。同时,另一方面,在每一组合中的装配次序(即各个最终嵌合核酸的5’到3序列中每一构件的装配次序)是如上所述地遵循预先的设计(或非随机地)。由于本发明的非随机特性,大大地降低了不需要的副产品的可能性。另一方面,连接再装配方法被系统地进行。例如,实施该方法,以便产生子代分子的系统区分化的文库,该文库分成能被系统地筛选的数个部分,例如可以逐个地筛选。换句话说,通过选择性的和审慎的应用特定的核酸构件,再加上选择性的和审慎的应用连续的分步骤的装配反应,本发明使得这样一种设计可以实现,即可以在各个反应容器中制备出各自特定的一系列子代产物。这样的设计允许进行系统的检查和筛选步骤。因此,这些方法允许很可能非常大量的子代分子以更小的组被系统地检查。由于其具有以高度变通而又彻底和系统的方式进行嵌合化反应的能力,尤其是当祖先分子之间具有低水平的同源性时,这些方法可以产生包含大量子代分子的文库(或集合)。由于本发明的连接再装配的非随机特性,所产生的子代分子一方面包含有最终嵌合核酸分子的文库,这些核酸分子具有按设计而选择的总装配次序。饱和诱变和优化的定向进化方法也可以被用于产生不同的子代分子种类。应该意识到,本发明在分界点的选择、核酸构件的大小和数量以及偶联的大小和设计方面提供了选择的自由度和可控制性。进一步,应该意识到,就本发明的可操作性而言,对分子间同源性的要求大大地放宽了。事实上,甚至可以在有很少的分子间同源性或没有分子间同源性的区域内选择分界点。例如,由于密码子的摆动,即密码子的简并性,可以 将核苷酸取代引入核酸构件,同时又不会改变在相应的祖先模板中最初编码的氨基酸。可以选择地,可以改变密码子,从而改变对原始氨基酸的编码。在本发明中,这样的取代可以被引入到核酸构件中,以便增加分子间同源分界点的发生率,从而使得在构件之间可获得的偶联的数量增加,而这又允许产生更多数量的子代嵌合分子。
合成基因再装配一方面,本发明提供了非随机的方法,命名为合成基因重装配,其在一定程度上与随机改组相关,只是核酸构件不随机改组、连接或嵌合,而是被非随机地装配。例如参见美国专利 6,537,776。合成基因重装配法不依赖于将被改组的多核苷酸之间存在高度同源性。本发明可以被用于非随机地产生包括超过10·个不同嵌合体的子代分子的文库(或集合)。可以想象地,合成基因重装配可以被用于产生包括超过10·°个不同子代嵌合体的文库。因此,一方面,本发明提供了产生一组最终嵌合的核酸分子的非随机方法,所述最终嵌合的核酸分子具有按设计所选择的整个装配次序,该方法包括按设计产生多个特异性核酸构件的步骤,以及装配这些核酸构件的步骤,这样可获得依设计而定的整个装配次序,所述的多个特异性核酸构件具有可被应用的互相相容的可连接末端。将被装配的核酸构件的互相相容的可连接末端被认为对于这种类型的有序装配是“有用的”,如果它们能使这些构件以预定次序结合。因此,一方面,核酸构件可以被偶联的整个装配次序是由可连接末端的设计来确定,并且如果使用多于一个的装配步骤,那么核酸构件可被偶联的总装配次序也由装配步骤的连续次序来确定。在本发明的一方面,用酶例如连接酶(例如T4DNA连接酶)处理退火的结构片段,以实现结构片段的共价结合。另一方面,核酸构件的设计通过分析一组祖先核酸模板的序列来获得,所述祖先核酸模板作为产生最终嵌合的多核苷酸的子代集合的基础。这些祖先核酸模板因此作为序列信息的来源,它们在将被诱变例如被嵌合或改组的核酸构件的设计中有用。在一个示例中,本发明提供了相关基因的家族和它们编码的相关产物的家族之间的嵌合。在具体的示例中,编码的产物是酶。根据本文描述的方法,本发明的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶可以被诱变。因此,根据本发明的一个方面,多个祖先核酸模板序列(例如本发明的多核苷酸)被联配,以便选择一个或多个分界点,这些分界点可以位于同源区域。这些分界点可以被用于描绘将要产生的寡核苷酸构件的边界。因此,在祖先分子中鉴定和选择的分界点作为子代分子的装配中的潜在嵌合点。一方面,有用的分界点是由至少两个祖先模板分享的同源区域(包括至少一个同源核苷酸碱基),但分界点可以是由至少一半的祖先模板、至少三分之二的祖先模板、至少四分之三的祖先模板以及一方面可以是由几乎所有的祖先模板分享的同源区域。甚至仍在一方面,有用的分界点是由所有祖先模板分享的同源区域。一方面,基因再装配过程被彻底地进行,以便产生含有尽量可能多的文库。换句话说,核酸构件的所有可能的有序组合都呈现在最终嵌合的核酸分子集合中。同时,另一方面,在每一组合中的装配次序(即各个最终嵌合核酸的5’到3序列中每一构件的装配次序)·是设计的(或非随机地)。由于本发明的非随机特性,大大地降低了不需要的副产品的可能性。另一方面,基因再装配过程在所述方法中被系统地进行,以便例如产生子代分子的系统区分化的文库,该文库分成能被系统地筛选的数个部分,例如可以逐个地筛选。换句话说,通过选择性的和审慎的应用特定的核酸构件,再加上选择性的和审慎的应用连续的分步骤的装配反应,本发明使得这样一种设计可以实现,即可以在各个反应容器中制备出各自特定的一系列子代产物。这样的设计允许进行系统的检查和筛选步骤。因此,这些方法允许很可能非常大量的子代分子以更小的组被系统地检查。由于其具有以高度变通而又彻底和系统的方式进行嵌合化反应的能力,尤其是当祖先分子之间具有低水平的同源性时,本发明可以产生包含大量子代分子的文库(或集合)。由于本发明的基因再装配的非随机特性,所产生的子代分子一方面包含有最终嵌合核酸分子的文库,这些核酸分子具有按设计而选择的总装配次序。在特别的方面,这样的所产生的文库包括大于IO3至IOicicitl种不同的子代分子种类。一方面,如所述产生的一组最终嵌合的核酸分子包括编码多肽的多核苷酸。根据一方面,该多核苷酸是基因,其可以是人造基因。根据另一方面,该多核苷酸可以是基因通路,其可以是人造基因通路。本发明产生的一种或更多种人造基因在本发明中可以掺入人造基因途径,例如在真核生物体(包括植物)中可操纵的途径。在另一个示例中,产生构件的步骤的合成属性允许设计和引入核苷酸(例如一个或多个核苷酸,例如可以是密码子或内含子或调控序列),这些核苷酸随后可以在体外过程中(例如通过诱变)或者在体内过程中(例如通过利用宿主生物体的基因剪接能力)被任选地去除。应该意识到,在许多情况下,除了产生有用的分界点的好处之外,还有许多其它原因也使得可能期望引入这些核苷酸。因此,根据另一方面,核酸构件在本发明中被用于引入内含子。这样,功能性内含子在本发明中被引入到本发明的人造基因中。功能性内含子在本发明中还可以被引入本发明的人造基因通路中。因此,本发明提供了嵌合多核苷酸的产生,该嵌合多核苷酸是含有一个(或多个)人工引入的内含子的人造基因。
本发明还提供了嵌合多核苷酸的产生,该嵌合多核苷酸是含有一个(或多个)人工引入的内含子的人造基因通路。一方面,人工引入的内含子在一种或多种宿主细胞的基因剪接中发挥作用,其发挥作用的方式与天然发生的内含子在基因剪接中发挥作用的方式在很大程度上是相同的。本发明提供了产生含人造内含子的多核苷酸的方法,该多核苷酸将被引入宿主生物体中,用于重组和/或剪接。使用本发明产生的人造基因也可作为底物发挥作用,用于与另一核酸重组。同样,使用本发明产生的人造基因途径也可作为底物发挥作用,用于与另一核酸重组。一方面,重组由人造的含内含子基因和作为重组伙伴的核酸之间的同源区域促进,或发生在人造的含内含子基因和作为重组伙伴的核酸之间的同源区域。一方面,重组伙伴也可以是本发明产生的核酸,包括人造基因或人造基因途径。重组可以由人造基中一个(或多个)人工引入的内含子上存在的同源区域促进,或发生在由人造基中一个(或多个)人工引入的内含子上存在的同源区域。一方面,本发明的合成基因再装配方法使用多种核酸构件,其每一种一方面具有 两个可连接末端。在每一个核酸构件上的两个可连接末端可以是两个平端(即,每一个末端具有零个核苷酸的突出),或者一方面可以是一个平端和一个突出端,或者一方面可以是两个突出端。一方面,用于该目的的一个有用的突出端可以是3’突出端或5’突出端。因此,核酸构件可以具有一个3’突出端或可选地具有一个5’突出端或可选地具有两个3’突出端或可选地具有两个5’突出端。核酸构件被装配来形成最终嵌合的核酸分子的整个装配次序通过有目的试验设计确定并且是非随机的。一方面,通过化学合成两个单链核酸(也称为单链寡聚体)并使它们接触促以便允许它们退火形成双链核酸构件来生成核酸构件。双链核酸构件可以具有不同的大小。这些构建的大小可以是小的或大的。构件的示例性大小在I碱基对(不包括任何突出端)至100,000碱基对(不包括任何突出端)之间。还提供了其它示例性大小,其具有Ibp至10,OOObp (包括中间的每一个整数)的下限和Ibp至100,OOObp (包括中间的每一个整数)的上限。存在许多方法,通过这些方法,可以产生可用于本发明的双链核酸构件;并且这些方法在本领域中是已知的,且普通技术人员容易进行。根据一个方面,通过首先产生两个单链核酸并使它们退火形成双链核酸构件,从而产生双链核酸构件。双链核酸构件的两条链可以在每个核苷酸处互补,除了形成突出端的任何一个核苷酸;从而除了任何突出端外不含有错配。根据另一方面,双链核酸构件的两条链可以在比除了形成突出端外的每个核苷酸更少的核苷酸处互补。因此,根据一方面,双链核酸构件可用于引入密码子简并性。一方面,使用本文描述的位点饱和诱变,使用一个或多个N,N, G/T序列盒,或者可选地,使用一个或多个N,N, N序列盒,引入密码子简并性。本发明的体内重组方法可以在未知杂合体或具体多核苷酸或序列的等位物的库上进行盲试。然而,不必须知道所述具体多核苷酸的精确DNA或RNA序列。采用混合基因群内的重组的方法可用于产生任何有用的蛋白质,例如,本发明的纤维素酶或其变体。该方法可用于产生具有改变的特异性或活性的蛋白质。该方法还可以用于产生杂合核酸序列,例如,基因的启动子区、内含子、外显子、增强子序列、3’未翻译区或5’未翻译区。因此,该方法在研究重复DNA序列中也是有用的。最终,该方法可用于制备本发明的核酶或适体。
一方面,本文中描述的发明涉及还原性重配、重组和选择的重复循环应用,其使得可以通过重组实现高度复杂的线性序列例如DNA、RNA或蛋白质的定向分子进化。
优化的定向进化系统本发明提供了一种非随机的基因修饰系统,命名为“优化的定向进化系统”,其可以用来生产具有新的或者改变的性质的多肽,如本发明的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶或者抗体。一方面,优化的定向进化涉及还原性重配(reductive reassortment)、重组和选择的重复循环应用,其使得可以通过重组实现核酸的定向分子进化。优化的定向进化允许产生大量的进化出的嵌合序列,其中产生的群体显著地富集了具有预定数目遗传交换事件(crossover events)的序列。遗传交换事件是在嵌合序列中的一个点,在这里,从一个亲本变异体到另一个亲本变异体的序列转换发生。这样的点一般在来自两个亲本的寡聚核苷酸连接在一起形成单个序列的连接处。这一方法允许计算寡聚核苷酸序列的正确浓度,这样,序列的最终嵌合群体富集了选定数目的遗传交换事件。这也提供了对选择具有预定数目的遗传交换事件的嵌合突变体的更多控制。 此外,这一方法与其他系统相比,提供了一种用于探究大数量的可能蛋白变异体的方便手段。以前,例如,如果在反应中产生了 IO13个嵌合分子,测试这样大数目的嵌合突变体的特定活性将会非常困难。此外,子代群体的相当部分将具有很高数目的遗传交换事件,其中得到的蛋白较不可能具有增高水平的特定活性。通过应用这些方法,嵌合分子的群体可以富集那些含有特定数目的遗传交换事件的变异体。因此,尽管在反应中可以仍然产生IO13嵌合分子,但是所选择的用于进一步分析的每一个分子很可能具有,例如,仅仅三个遗传学交换事件。因为得到的子代群体可以偏向于具有预定数目的遗传交换事件,所以嵌合分子之间的功能多样性的范围缩少了。当要计算在最初的亲本多核苷酸中的哪一个寡核苷酸可能影响到特定的性质时,这便提供了更加可控数目的变量。产生嵌合子代多核苷酸序列的一个方法是产生对应于每一个亲本序列的片段或者部分的寡核苷酸。每一个寡核苷酸一方面包括重叠的独特区域,这样把所述寡核苷酸混合,得到具有以正确顺序装配的每个寡核苷酸片段的新的变异体。可选地,实践本发明的方法的方案可以在美国专利 6,773,900; 6,740,506; 6,713,282; 6,635,449; 6,605,449; 6,537,776;6, 361,974 中找到。对应于每一个亲本变异体产生的寡核苷酸数目与在最终产生的嵌合分子中得到的交换的总的数目具有一定的关系。例如,为了发现具有如在高温下的更高活性的嵌合变异体,可以提供三个亲本核苷酸序列变异体来进行连接反应。作为一个例子,对应于每一个亲本变异体的每一部分可以产生总共50个寡核苷酸序列。相应地,在连接再装配过程中,在每一个嵌合序列中就有可能有多达50个交换事件。产生的每一个嵌合多核苷酸都以交替的顺序含有来自各个亲本变异体的寡核苷酸的可能性很低。如果每一个寡核苷酸片段以同样的摩尔量存在于连接反应中,有可能在一些位置上来自同一亲本多核苷酸的寡核苷酸将与相邻的彼此连接,而不导致遗传交换事件。如果在这一例子的任何连接步骤中,来自每一个亲本的每一种寡核苷酸的浓度都保持不变,那么将会有三分之一的机会(假定3个亲本)来自同一个亲本变异体的寡核苷酸连接于嵌合序列内而不产生交换。因此,可以确定概率密度函数(PDF),预测在一个连接反应的每一步中可能发生的遗传交换事件的总数,其中给定了一套具有确定数目的亲本变异体、对应于每种变体的寡核苷酸、以及在连接反应的每个步骤中的每种变异体的浓度。在确定HF中应用到的统计学和数学在下面被描述。通过应用这些方法,可以计算这样的概率密度函数,而且这样就富集了来源于特定连接反应的具有预定数目的遗传交换事件的嵌合子代群体。此外,可以预先确定遗传交换事件的目标数目,然后对该系统进行程序化,以计算在该连接反应的每一个步骤中,每种亲本寡聚核苷酸的起始量,从而得到以遗传交换事件的预先确定的数目为中心的概率密度函数。这些方法涉及还原性重配、重组和选择的重复循环应用,通过重组实现编码多肽的核酸的定向分子进化。该系统允许产生大量的进化出的嵌合序列,其中产生的群体显著地富集了具有预定数目遗传交换事件的序列。遗传交换事件是在嵌合序列中的一个点,在这里,从一个亲本变异体到另一个亲本变异体的序列转换发生。这样的点一般是在两个亲本的寡聚核苷酸连接在一起形成单个序列的连接处。这一方法允许计算寡聚核苷酸序列的正确浓度,这样,序列的最终嵌合群体富集了选定数目的遗传交换事件。这也提供了对选择具有预定数目的遗传交换事件的嵌合突变体的更多控制。此外,这些方法与其他系统相比,提供了一种用于探究大数量的可能蛋白变异体的方便手段。通过应用在这里描述的方法,嵌合分子的群体可以富集那些含有特定数目的遗传交换事件的变异体。因此,尽管在反应中可以仍然产生IO13个嵌合分子,但是所选择的·用于进一步分析的每一个分子很可能具有,例如,仅仅三个遗传学交换事件。因为得到的子代群体可以倾向于具有预定数目的遗传交换事件,所以造成嵌合分子之间的功能多样性的界线减少。当计算出在最初的亲本多聚核苷酸中的哪一个可能影响到特定的性质时,便提供了更加可控制的变量。一方面,该方法通过产生对应于每一个亲本序列的片段或者部分的寡聚核苷酸,产生嵌合子代多核苷酸序列。每一个寡核苷酸优选地包括重叠的独特区域,这样把所述寡聚核苷酸混合,得到具有以正确顺序装配的寡核苷酸片段的新的变异体。也可参见美国专利 6,773,900; 6,740,506; 6,713,282; 6,635,449; 6,605,449; 6,537,776; 6,361,974。
确定交换事件本发明的多个方面包括系统和软件,它们以所需的遗传交换的概率密度函数(PDF)、待再装配的亲本基因的数目以及在再装配中的片段数目作为输入量。该程序输出“片段roF”,它可以用于确定用于获得重新装配的基因和那些基因的估计的遗传交换I3DF的具体方法。在此描述的过程一方面在MATLAB 中进行(TheMathworks, Natick, Massachusetts), MATLAB 是一种用于技术计算的程序语言和开发环境。
迭代处理本发明的任何过程可以被迭代重复,例如,可以鉴定出编码本发明的改变的或者新的纤维素酶表型如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶的核酸,再分离,再修饰,再测试活性。这一过程可以重复直到工程化得到所需的表型。例如,完整的生物化学合成代谢或分解代谢途径可以被工程化到细胞中,例如包括纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的细胞。类似地,如果确定了某特定寡核苷酸对于所期望的特性(例如新的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶表型)不会造成任何影响,则可以合成包括这段待除去的序列在内的更大的亲本寡核苷酸,从而将这段序列从变量中除去。由于将这段序列合并到更大的序列中,可以避免任何遗传交换事件,所以在子代多核苷酸中,这一序列不再有任何变异。确定哪些寡核苷酸与所需的性质最有关系,以及哪些与所需的性质无关的重复实践可以更有效地探寻所有可能的具有特定性质或者活性的蛋白变异体。
体内改组在各个方面,分子的体内改组在本发明的方法中使用,提供本发明的多肽的变体,例如本发明的抗体、本发明的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶以及类似物。体内改组可以利用细胞重组多聚体的天然特性进行。尽管体内重组是提供分子多样性的主要天然途径,但遗传重组仍然是一种相对复杂的过程,该过程涉及I)同源性识别;2)链切割,链侵入,和导致产生重组交叉(recombination chiasma)的代谢步骤;和最后3)交叉消除,得到分离的重组分子。交叉的形成需要同源序列的识别。另一方面,本发明包括一种方法,用于由至少第一多核苷酸和第二多核苷酸获得 杂合多核苷酸。本发明也用于产生杂合多核苷酸,通过将共享至少一个部分序列同源的区域的至少第一多核苷酸和第二多核苷酸(例如,一个或两者都是不例性的纤维素酶,例如本发明的内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶)引入到合适的宿主细胞中实现。部分序列同源的区域促进了导致产生杂合多核苷酸的序列再组织过程。正如此处所用,术语“杂合多核苷酸”是从本发明的方法产生的任何核苷酸序列,其含有来自至少两个原始多核苷酸序列的序列。这样的杂合多核苷酸可以来自可促进DNA分子间序列整合的分子间重组事件。此外,这样的杂合多核苷酸可以来自于分子内还原重配过程,该过程利用重复序列来改变DNA分子内的核苷酸序列。一方面,体内重装配集中在“分子间”的过程上,统称为“重组”;在细菌中,它一般被视为是“RecA-依赖”的现象。本发明可以依赖于宿主细胞的重组过程来重组和重装配序列,或者依赖于细胞介导还原过程的能力,通过缺失来减少细胞中的准-重复序列的复杂性。该“还原性重配”过程通过“分子内的”、RecA-依赖过程而发生。在本发明的另一方面,通过还原性重装配过程,产生新型的多核苷酸。该方法包括产生含有连续序列(起始的编码序列)的构建物,它们插入到合适的载体中,并且然后将它们引入到合适的宿主细胞。单个分子同一性的重装配通过在构建物中具有同源性区域的连续序列间的组合过程,或者准-重复单位间的组合过程而发生。重装配过程重组和/或降低重复序列的复杂性和程度,并且导致产生新型的分子种类。可以应用各种处理来提高重装配效率。这些处理包括用紫外光,或者损坏DNA的化学试剂处理,和/或使用表现增高水平的“遗传不稳定性”的宿主细胞系。因此,这样的重装配过程可以涉及同源重组或者准-重复序列指导它们自身进化的天然特性。重复或者“准重复(quasi-r印eated)”序列在遗传不稳定性中起作用。一方面,“准重复”是并不限于它们起初的单元结构的重复。准重复单元可以在构建物中以序列的排列出现;以相似序列的连续单元出现。一旦连接,在连续序列之间的连接处变得基本上无形,并且得到的构建物的准重复性质在分子水平现在是连续的。细胞在准重复序列之间进行的缺失过程降低了得到的构建物的复杂性。准重复单位提供了一个实际上没有限制的模板内容,在模板上可以发生滑移事件。一方面,含有准重复的构建物有效地提供了足够的分子弹性,缺失(和潜在的插入)事件实际上可以在准重复单元内的任何地方发生。当准重复序列全部以相同方向连接,例如,头对尾或者反之亦然,细胞就不能区别各个单元。因此,还原过程可以在整个序列中发生。相反地,例如,当所述单元以头对头存在,而不是头对尾,相邻单元的头尾倒置,这样缺失的形成将有利于不连续单元的失去。因此,优选地,待重装配序列是处于相同的方向。准重复序列的随机定向将会导致重装配效率的损失,而序列的一致定向将会为序列的定向提供最高的效率。然而,虽然具有较少的相同方向的连续序列会降低效率,但是仍然可以为新型分子的有效回收提供足够的弹性。用定向相同以允许更高效率的准重复序列制备构建物。应用各种方法中的任何一种,可以将序列装配成头对尾的定向,包括以下方法
a)可以使用包括poly-A头和poly-Τ尾的引物,当制成单链时,包括poly-Α头和poly-Τ尾的引物将提供定向。这通过具有由RNA制备引物的头几个碱基来完成,而且随后用RNaseH可以很容易去除RNA。
b)可以应用包括独特的限制酶切割位点的引物。这需要多个位点、一组独特的序列、和重复的合成和连接步骤。
c)引物的内部几个碱基可以被硫醇化,并且用外切酶来产生合适的具有尾巴的分子。—方面,重装配序列的回收依赖于具有下降的重复指数(RI)的克隆载体的确定。被重装配的编码序列可以随后通过扩增回收。产物被再克隆和表达。具有降低的RI的克隆载体的回收可以这样被完成,即
1)应用仅仅当构建物的复杂性下降时才能稳定地维持的载体。
2)通过物理程序对缩短的载体进行物理回收。在这一情况下,克隆载体将应用标准的质粒分离程序进行回收,或者在具有低分子量截留的琼脂糖凝胶或者柱子上利用标准程序进行大小分离。
3)插入物的大小下降时,对含有可以选择的断裂基因的载体进行回收。
4)应用表达载体以及适当的选择,使用定向选择技术。相关的生物体的编码序列(例如,基因)可以表现出高度的同源性,并且编码相当多样化的蛋白产物。这些类型的序列特别可作为准重复序列用在本发明中。然而,尽管下面所描述的例子证明了几乎相同的起始编码序列(准-重复)的再装配,这一过程并不限于这种几乎相同的重复。下面的例子展示了本发明的示例性方法。描述了来自三个(3)独特种的编码性核酸序列(准-重复)。每一序列编码具有一套不同特征的蛋白质。每一个序列在序列的唯一位置只有一个或者几个碱基对的不同。准-重复序列分别地或者共同被扩增并且被连接到随机的装配体中,以便所有可能的排列和组合可以在连接的分子群体中获得。准-重复单位的数目可以通过装配条件来控制。在构建物中,准-重复单位的平均数目通过重复指数(RI)来定义。一旦形成,构建物可以,或不必按照出版的方法通过琼脂糖凝胶来按大小分离,插入到克隆载体,并且转染到合适的宿主细胞中。然后细胞进行繁殖,并且进行“还原性重装配”。如果需要,还原性重装配过程的速率可以通过引入DNA损伤来刺激。RI的降低是通过一种“分子内”的机制在重复序列间形成缺失来介导,还是通过“分子间”的机制由类似重组的事件来介导是不重要的。最终的结果是分子被重装配,得到所有可能的组合。
任选地,本方法包括一个额外的步骤,即对改组的文库成员进行筛选,以确定个别的改组文库成员,其具有与一种预定的大分子如蛋白质受体、寡糖、病毒颗粒或者其它的预定的化合物或者结构结合或者不同方式地相互作用,或者催化特定的反应(如,酶的催化结构域)的能力。从这样的文库所鉴定得到的多肽可以用于治疗、诊断、研究和相关目的(例如,催化剂,用于增加水溶液的渗透性的溶质等等)和/或可以进行改组和/或选择的一个或者多个另外的循环。在另一方面,可以预见,在重组或重装配之前,或者在重组或重装配的过程中,通过本发明的方法产生的多核苷酸可以用试剂处理或进行加工,这些处理或加工促进突变引入到原始的多核苷酸中。引入这样的突变将会增加得到的杂合多核苷酸及由其编码的多肽的多样性。促进诱变的试剂和过程可以包括,但不限于(+)-CC-1065,或者合成的类似物如(+)-CC-1065-(N3-腺嘌呤)(参见Sun和Hurley,(1992);能够抑制DNA合成的N-乙 酰化或者脱乙酰基的4’ -氟-4-氨基联苯加合物(见,例如,van de Poll等(1992)),或者能够抑制DNA合成的N-乙酰化或者脱乙酰基的4-氨基联苯加合物(也见,van de Poll等
(1992),751-758页);三价铬、三价铬的盐、可以抑制DNA复制的多环芳香烃(PAH) DNA加合物,如7-溴甲基-苯[a]蒽(“BMA”)、三(2,3-二溴丙基)磷酸盐(“Tris-BP”)、1,2-二漠_3_氣丙烧(“DBCP”)、2_漠丙稀醒(2BA)、苯并[a]花-7,8- 二氧二醇-9-10-环氧化物(“BPDE”)、钼(II)卤素盐、N-羟基-2-氨基-3-甲基咪唑[4,5_f]-喹啉(“N-羟基-IQ”)、和N-羟基-2-氨基-I-甲基-6-苯基咪唑[4,5-f]-吡啶(“N-羟基-PhIP”)。用于减慢或者停止PCR扩增的示例性方法由紫外线(+)-CC-1065和(+)-CC-1065-(N3-腺嘌呤)组成。特别包含的方法是DNA加合物或者来自多核苷酸或者多核苷酸库的含有DNA加合物的多核苷酸,在进一步的处理前,其可以通过包括加热含有所述多核苷酸的溶液的过程进行释放或者去除。另一方面,本发明涉及产生具有生物活性的重组蛋白,其通过在根据本发明产生杂合或再装配多核苷酸的条件下处理含有编码野生型蛋白的双链模板多核苷酸的样品。
产生序列变异体本发明也提供了用于产生本发明核酸(例如纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶)序列的序列变异体的其它方法。本发明也提供了使用本发明的核酸和多肽分离纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或葡糖苷酶的其它方法。一方面,本发明提供了本发明的纤维素酶如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶编码序列(例如基因、cDNA或信息)的变异体,这些变异体可以通过任何方法来产生,如上所描述,例如包括随意或随机方法、或非随机或“定向进化”方法。被分离的变异体可以是天然发生的。变异体也可以在体外产生。变异体也可以应用基因工程技术来产生,如定点诱变、随机的化学诱变、核酸外切酶III缺失方法和标准的克隆技术。可选择地,可以应用化学合成或者修饰方法来产生这样的变异体、片段、类似物或者衍生物。本领域技术人员也熟悉制备变异体的其它方法。这些方法包括这样的程序,其中,从天然分离物中获得的核酸序列经过修饰而产生编码具有某些特征的多肽的核酸,所述的特征使这些多肽在工业或者实验室应用中具有更高的价值。在这样的程序中,大量的变异体序列被获得和表征,这些变异体序列与从天然分离物中得到的序列相比,有一个或者多个核苷酸的差异。这些核苷酸的差异可能引起相对于天然分离得到的核酸序列编码的多肽的氨基酸变化。例如,变异体可以通过易错PCR产生。在易错PCR的一个方面中,PCR在DNA聚合酶的复制保真性较低的情况下进行,这样便在全长的PCR产物中得到较高的点突变率。易错 PCR 在例如,Leung, D. W.,等,Technique, I :11 15,1989 和 Caldwell, R. C.和 JoyceG. F. , PCR Methods Applic.,2:28-33,1992中描述。简要地说,在这样的程序中,待诱变的核酸与PCR引物、反应缓冲液、MgCl2, MnCl2, Taq聚合酶以及适当浓度的dNTP混合,在全长的PCR产物中得到高的点突变率。例如,反应可以使用20fmol待诱变的核酸进行,每种PCR引物 30pmol,反应缓冲液包括 50mM KClUOmM Tris HCl (pH8. 3)和 O. 01 % 明胶、7mM 的MgCl2、0. 5mM MnCl2、5units 的 Taq聚合酶、O. 2mM dGTP、0. 2mM dATPUmM dCTP和 ImM dTTP。PCR可以进行30个循环,每个循环为94°C I分钟;45°C I分钟;和72°C I分钟。然而,应该意识到,这些参数可以适当地变化。诱变的核酸克隆到一个适当的载体,并评价由诱变核酸编码的多肽的活性。·
一方面,变异体也可以用寡核苷酸诱导的定向突变产生,在任何感兴趣的克隆DNA中产生位点特异性的突变。寡核苷酸诱变在,例如,Reidhaar-Olson (1988) Science241:53-57中描述。简要地说,在这样的程序中,合成多个具有将要被导入被克隆的DNA中的一个或多个突变的双链寡聚核苷酸,将这些寡聚核苷酸插入到待诱变的克隆DNA中。一方面,回收含有诱变DNA的克隆,表达,并评估它们编码的多肽的活性。另一种产生变异体的方法是装配PCR。装配PCR涉及由小DNA片段的混合物来装配PCR产物。大量不同的PCR反应在相同的容器中平行地发生,一个反应的产物引发另一个反应的产物。装配PCR已经被描述,例如在美国专利5,965,408中。一方面,有性PCR诱变是产生本发明的变异体的示例性方法。在有性PCR诱变的一个方面中,由于基于序列同源性的DNA分子随机片段化,在不同的但是高度相关的DNA序列的DNA分子之间,在体外强行发生同源重组,然后通过PCR反应的引物延伸,遗传交换得到固定。有性 PCR 诱变在,例如,Stemmer (1994)Proc. Natl. Asad. Sci. USA 91:10747-10751中描述。简要地说,在这样的程序中,多个待重组的核酸用DNase消化,产生具有50到200个核苷酸的平均大小的片段。纯化具有所需的平均大小的片段,重悬于PCR混合物中。在有利于核酸片段重组的条件下进行PCR反应。例如,PCR可以这样进行将纯化的片段重悬于含有 O. 2mM 的各种 dNTP,2. 2mM MgCl2、50mM KClUOmM 的 Tris-HCl, pH 9. O 以及 O. 1%的Triton X-100的溶液中,其浓度为liKBOng/y I。以100 :1的比例在反应混合物中加入2. 5Units的Taq聚合酶,用以下的条件进行PCR:94°C 60秒,94°C 30秒,50_55°C 30秒,720C 30秒(30-45次),然后72°C进行5分钟。然而,可以意识到,这些参数可以进行适当的变化。在一些方面,寡聚核苷酸可以被包括在该PCR反应中。在其它方面,DNA聚合酶I的Klenow片段可以用于第一轮PCR反应,而Taq聚合酶可以用于后续的PCR反应。重组序列被分离,并评估它们编码的多肽的活性。一方面,变异体也可以通过体内诱变产生。在一些方面,感兴趣的序列中的随机突变通过在细菌菌株中增殖该感兴趣的序列而产生,所述细菌菌株例如在一个或者多个DNA修复途径中具有突变的大肠杆菌菌株。这样的“突变”菌株具有比野生型亲本更高的随机突变率。在一种这样的菌株中进行DNA的繁殖,最终可产生DNA中的随机突变。适于在体内诱变中应用的突变菌株在,例如,PCT
发明者D·百隆, J·耿斯奇, M·迪凯科 申请人:维莱尼姆公司