来自淡青链霉菌的假寡糖生物合成基因的分离及其应用的制作方法

文档序号:451254阅读:445来源:国知局
专利名称:来自淡青链霉菌的假寡糖生物合成基因的分离及其应用的制作方法
技术领域
本发明涉及编码α-淀粉酶抑制剂即假寡糖(pseudooligosaccharides)的生物合成的酶的基因的分离。所述的基因特别是指来源于链霉菌属的菌株淡青链霉菌(Streptomyces glaucescens)GLA.O(DSM 40716)的基因。另外,本专利描述了在淡青链霉菌GLA.O的辅助下,这些基因用于制备阿卡糖及其同源物质的用途,为提高并稳定产量将这些基因在其它产生假寡糖的菌株(如,游动放线菌(Actinoplanes sp)SE50/100)中进行的异源性表达,以及在其它微生物中这些基因的异源表达,例如大肠杆菌,枯草芽孢杆菌(Bacillus subtilis),放线菌目(Actinomycetales),如链霉菌属(Streptomyces)、游动放线菌属和小瓶菌属(Ampullariella)、链孢子囊菌属(Streptoporangium)的菌株,吸水链霉菌柠檬变种(Streptomyces hygroscopicus var.limoneus)、淡青链霉菌,以及生物技术相关的真菌(例如,黑曲霉(Aspergillus niger)和产黄青霉(Penicilliumchrysogenum))和酵母(例如啤酒酵母(Saccharomyces cerevisiae))。本发明也涉及其它微生物中的同源基因及其分离方法。
淡青链霉菌GLA.O可产生两种抗生素羟基链霉素(Hutter(1967)Systematik der Streptomyceten链霉菌分类学(Taxonomy of theStreptomycetes)Basel,Karger Verlag)和丁省霉素(tetracenomysin)(Weber等(1979)微生物学文献(Arch.Microbiol)121:111-116)。众所周知,链霉菌能够合成结构各异的天然产物。然而生成这些化合物的条件经常未知,或者是这些物质仅微量产生而检测不到。
α-淀粉酶抑制剂阿卡糖(acarbose)已从多种游动放线菌菌株(SE50,SE82和SE18)(Schmidt等(1977)Naturwissenschaften64:535-536)中分离出来,这种活性物质在从游动放线菌属、小瓶菌属和链孢子囊菌属中筛选α-淀粉酶抑制剂时被发现。阿卡糖是假四聚糖,包含一个独特的键合了一种氨基糖,即4,6-双脱氧4-氨基-D-吡喃型葡萄糖的不饱和环多醇单位。附加的以α-1,4-糖苷键键合的D-吡喃型葡萄糖单位可键合于该氨基糖上。这样,例如阿卡糖,可含有两分子额外的D-葡萄糖。此生产菌株合成具有不同长度糖基侧链的假寡糖产物的混合物(Schmidt等(1977)Naturwissenschaften 64:535-536)。阿卡糖环多醇残基与来自吸水链霉菌柠檬变种的抗菌素有效霉素A(Iwasa等(1979)抗生素杂志(J.Antibiot.)32:595-602)的一个组分化合物valienamine相同。
阿卡糖可由游动放线菌菌株发酵生产,并因作为糖尿病的治疗剂而具有重要经济价值。尽管游动放线菌合成的是α-淀粉酶抑制剂产物的混合物,但阿卡糖仅为相对分子量为645.5的化合物(即含两个葡萄糖单位的acarviosin(Truscheit(1984)第8届医药化学国际研讨会报告(ⅧthInternational Symposium on Medicinal Chemistry,Proc),卷1,瑞典药学科学院(Swedish Academy of Pharmaceutical Sciences),Stockholm,Sweden),阿卡糖这个名称即由acarviosin派生)。选择了发酵条件以保证阿卡糖为发酵主产物。另外采用了主产物为阿卡糖的特定的筛选株和菌株或者应用纯化方法以实现选择性分离(Truscheit(1984)第8届医药化学国际研讨会报告(Ⅷth International Symposium onMedicinal Chemistry,Proc),卷1,瑞典药学科学院(Swedish Academyof Pharmaceutical Sciences),Stockholm,Sweden)。也可以通过对混合产物进行化学改造最后得到目的产物阿卡糖。
同链霉菌属相比,目前并没有从遗传角度对游动放线菌属进行深入的研究。为研究链霉菌建立的方法不能或不能总是适用于游动放线菌。为了应用分子生物学方法有目的地优化阿卡糖产量,必须分离和鉴定阿卡糖生物合成基因。本文提出了建立一种游动放线菌属的宿主/载体系统的可能性,然而鉴于当前对游动放线菌的研究相对肤浅这一事实,该方法非常的冗长而复杂。
本专利申请所描述的发明达到了克隆阿卡糖和同源假寡糖的生物合成基因的目的,上述基因是从已在遗传学方面彻底研究过的链霉菌属的淡青链霉菌GLA.O中克隆的(Crameri等(1983)普通微生物学杂志(J.Gen.Microbiol.)129:519-527;Hintermann等(1984)分子与普通遗传学(Mol.Gen.Genet.)196:513-520;Motamedi和Hutchinson(1987)PNAS USA 84:4445-4449;Geistlich等(1989)分子微生物学(Mol.Microbiol.)3:1061-1069),令人惊讶的是淡青链霉菌GLA.O是阿卡糖的产生菌。在含有淀粉的培养基中,淡青链霉菌GLA.O产生具有分子量645、807和970的假寡糖。
因而,从淡青链霉菌GLA.O中分离相应的生物合成基因并用其分离毗邻的DNA区以探查出该生物合成基因的基因簇的全部基因是本发明的部分主题。
分离和鉴定假寡糖的生物合成基因对于更好地了解假寡糖的生物合成及其调节非常重要。这样,就可通过已建立的经典的和分子生物学的方法提高淡青链霉菌GLA.O生产阿卡糖的产量。除此之外,编码假寡糖生物合成的完整基因簇或基因簇中的单独基因可表达于其它生物技术相关的微生物以使假寡糖(诸如阿卡糖)产量进一步提高或简化制备方法。生物合成基因的特异性修饰可用于获得专一生产分子量为645的阿卡糖的菌株。因抗生素生物合成基因通常成簇出现且经常高度保守(Stockmann和Piepersberg(1992)FEMS Microbiol.Letters 90:185-190;Malpartida等(1987)自然(Nature)314:642-644),淡青链霉菌GLA.O基因也可作为一种探针用于从诸如游动放线菌属中分离编码阿卡糖的基因。调节基因或编码生物合成中限速步骤的基因的表达可导致淡青链霉菌GLA.O、游动放线菌属或相关的生产菌株的产量增加。产量的提高也可通过关闭(敲除或诱变)在生物合成中起抑制作用的阿卡糖生物合成基因而达到。
克隆从前未分离出来的抗生素生物合成基因的一个可能策略是使用基因特异性探针(Stockmann和Piepersberg(1992)FEMS Microbiol.Letters90:185-190;Malpartida等(1987)自然(Nature)314:642-644)。这些探针可以是p32标记的或以其它途径标记的DNA片段;或者用变性PCR引物和分离的作为模板的染色体DNA直接从所用菌株中扩增合适的基因。
本研究应用后一种方法。假寡糖,如阿卡糖含有一个4,6-脱氧葡萄糖的构建单位作为结构元件。已知dTDP-葡萄糖4,6-脱水酶参与4,6-脱氧葡萄糖的生物合成(Stockmann和Piepersberg(1992)FEMS Microbiol.Letters90:185-190)。由于脱氧糖是天然产物和抗生素的常有组分,因此这种酶可能用于分离相应抗生素生物合成基因。由于这些基因常成簇存在所以,这对初始化分离一个基因是足够的;接着就可以进行毗邻DNA区的分离和鉴定。
例如一种dTDP-葡萄糖4,6-脱水酶在淡青链霉菌GLA.O中催化羟基链霉素生物合成过程中的一步(Retzlaff等(1993)工业微生物,基础与实用分子遗传学ASM(Industrial Microorganisms.Basic and appliedmolecular genetics ASM)华盛顿特区,美国)。而且dTDP-葡萄糖4,6-脱水酶已从其它微生物,如灰色链霉菌(Streptomyces griseus)(Pissowotzki等(1991)分子与普通遗传学(Mol.Gen.Genet.)231:113-123)、弗氏链霉菌(Streptomyces fradiae)(Merson-Davies和Cundcliffe(1994)分子微生物学(Mol.Microbiol.)13:349-355)和紫红链霉菌(Streptomyces violaceoruber)(Bechthold等(1991)分子与普通遗传学(Mol.Gen.Genet.)248:610-620)中分离出来。
接下来可以从已知生物合成基因的氨基酸序列推出用于扩增dTDP-葡萄糖4,6-脱水酶的PCR引物序列。为得到该序列,从这些酶蛋白质序列中选出保守区域,并将氨基酸序列翻译为与遗传密码相对应的核酸序列。蛋白质序列取自EMBL和Genbank数据库,使用了如下序列灰色链霉菌;登记号X62567基因strE(日期1993年10月30日);紫红链霉菌;登记号L37334基因graE(日期1995年4月10日);红色糖多孢菌(Saccharopolyspora etythraea);登记号L37354基因gdh(日期1994年11月9日)。因遗传密码的简并性得到大量可能的引物序列。链霉菌密码子第三位通常包含一个G或C这一事实(Wright和Bibb(1992)基因(gene)113:55-65)减少了需合成引物的数量。这些引物混合物即可被用来对被研究菌的DNA进行PCR扩增,并能获得理想的扩增DNA片段。对于高保守性蛋白质,这一片段具有可预测的长度,这一长度是由相应基因引物间的核酸序列距离得来的。然而,这种性质的实验混合物并不是不可避免地必然导致扩增。引物可能因特异性太低而扩增出大量的片段;或者若染色体上没有所制备的PCR引物的互补结合位点,则不会得到PCR产物。
对链霉菌菌株淡青链霉菌GLA.O的研究得到了一个如预计长度550bp的扩增DNA片段(acbD*)。进一步研究显示,除含有生物合成羟基链霉素的dTDP-葡萄糖-4,6-脱水酶基因外,此菌株意外地含有用于生物合成假寡糖如阿卡糖的另一种dTDP-葡萄糖4,6-脱水酶基因。尽管两基因表现出有高度的同源性。但在氨基酸水平上两者只有65%相同性。
AcbD*探针(见实施例2及表2A)用于从淡青链霉菌GLA.O中分离一个6.8Kb的PstI DNA片段,此片段编码参与假寡糖生物合成的多个基因(acbA,acbB,acbC,acbD,acbE和acbF)。
缺失acbBCD基因(氨基转移酶,acbB,dTDP-葡萄糖合酶,acbC,dTDP-葡萄糖-4,6-脱水酶,acbD,见实施例6)导致在生产培养基中不再产生任何假寡糖的淡青链霉菌GLA.O突变株的产生。因此,缺失相应基因座可证实acbBCD基因参与了假寡糖合成。
从透彻研究过的同源酶功能可以得出结论,dTDP-葡萄糖合酶和dTDP-葡萄糖4,6-脱水酶这两类基因应该参与假寡糖中脱氧糖的生物合成(见上)。氨基转移酶(由基因acbB编码)可能负责将氨基转移到糖残基或环多醇残基。通过分析acbB的蛋白质序列,发现一个参与结合磷酸吡哆醛的氨基酸基序。此基序为典型Ⅲ型氨基转移酶(EC2.6.1.11;EC2.6.1.13;EC2.6.1.18;EC2.6.1.19;EC2.6.1.62;EC2.6.1.64;EC5.4.3.8)。只有进一步研究假寡糖的生物合成,才可阐明acbB精确的酶功能。acbE编码一种与具有螺旋-转角-螺旋基序的DNA结合蛋白(如枯草芽孢杆菌DegAP37947:Swiss-Prot数据库)有很多相似之处的转录调节蛋白。因而,例如在葡萄糖存在下,来自枯草芽孢杆菌的转录激活剂CcpA抑制α-淀粉酶的形成(Henkin等(1991)分子微生物学(Mol.Microbiol.)5:575-584)。此类的其它代表物是识别特定的糖结构单元并能对代谢途径中生物合成有正性或负性作用的蛋白质。假寡糖生物合成在淡青链霉菌GLA.O中也受调节。从前只有在含淀粉的培养基中才可证明假寡糖的合成。尽管此方法表明acbE可能负责调节假寡糖合成,但确切机制仍未知。然而,现在可用分子生物学方法特异性修饰基因使假寡糖生物合成率提高。另外,acbE结合的DNA位点可由所谓的凝胶迁移法确定(Miwa等(1994)微生物学(Microbiology)140:2576-2575)。确定并修饰负责假寡糖基因转录的启动子和其它DNA调节区域可提高阿卡糖生物合成率。
目前,acbF的功能仍未确定。其相应基因产物表现出与糖结合蛋白例如来源于变异链球菌(Streptococcus mutans)的糖结合蛋白(MsmE;Q00749:SwissProt数据库)的同源性,因而它有可能与假寡糖生物合成有关。基因acbA的产物表现出与已知的细菌ATP结合蛋白的同源性(如波赛链霉菌(Streptomyces peucitus)DrrA,P32010:SwissProt数据库)。AcbA蛋白具有典型的ATP/ADP结合基序,即所谓P环。这些蛋白质组成了一个在生物膜上参与代谢物主动转运的名为ABC转运蛋白的重要成分(Higgins(1995)细胞(Cell)82:693-696)。因而,AcbA可能负责将假寡糖运出细胞或参与向细胞内转运用于生物合成α-淀粉酶抑制剂的糖结构单元,如麦芽糖。
目前已经分析过的所有用于生物合成次级代谢产物的链霉菌基因都是成簇分布的。因此,可以假定本申请所述阿卡糖生物合成基因也是以这种基因簇的方式分布的。因而,也可通过分离与本发明所述6.8Kb PstI DNA片段相邻的DNA区域而得到与假寡糖生物合成相关的其余基因。而且如上所述,也很可能从除淡青链霉菌GLA.O以外的微生物中分离出同源性基因簇。
因此,本发明涉及一种包含用于生物合成阿卡糖和同源性假寡糖基因的重组DNA分子,尤其涉及一种重组DNA分子,其上分布了多个单个基因,其中这些基因的转录方向和顺序如图3所示,和/或具有如图3所示的限制性酶切图谱,优选地涉及了一种重组DNA分子,其(a)包含了如表4的一种DNA序列或其部分;(b)包含了在严格条件下,其能与如(a)的DNA分子或其部分杂交的一种DNA序列;或(c)包含了因为遗传密码简并性而不同于如(a)或(b)的DNA分子的一种DNA序列,此DNA序列允许应用如(a)或(b)的DNA分子或其部分所相应地表达的蛋白质的表达。
本发明还涉及一种包含acbA基因的重组DNA分子,尤其是特征在于包含如表4的核苷酸1到720的DNA序列或其部分的DNA分子;还涉及一种包含acbB基因的重组DNA分子,尤其是特征在于包含如表4的核苷酸720到2006的DNA序列或其部分的DNA分子;还涉及一种包含acbC基因的重组DNA分子,尤其是特征在于包含如表4的核苷酸2268到3332的DNA序列或其部分的DNA分子;还涉及一种包含acbD基因的重组DNA分子,尤其是特征在于包含如表4的核苷酸3332到4306的DNA序列或其部分的DNA分子;还涉及一种包含acbE基因的重组DNA分子,尤其是特征在于包含如表4的核苷酸4380到5414的DNA序列或其部分的DNA分子;还涉及一种包含acbF基因的重组DNA分子,尤其是特征在于如包含如表4的核苷酸5676到6854的DNA序列或其部分的DNA分子。
本发明还涉及如上述用于含有生物合成阿卡糖和同源性假寡糖基因的重组DNA分子PCR扩增的寡核苷酸引物,这些引物特别是含有如表1的序列。
本发明还涉及包含上一段之前的一、二段中所述的DNA分子的一种重组DNA分子的一种载体,尤其是其特征在于该载体是一种表达型载体并且上述DNA分子可操纵性地地连接于一个启动子序列,并且该载体优选地适于在选自大肠杆菌、枯草芽孢杆菌、放线菌目,如链霉菌属、游动放线菌属、小瓶菌属和链孢子囊菌属的菌株,吸水链霉菌柠檬变种、淡青链霉菌以及生物技术相关的真菌(例如,黑曲霉、产黄青霉)和酵母(例如啤酒酵母)的宿主体内表达,特别优选淡青链霉菌GLA.O或游动放线菌属。由于该DNA分子与载体启动子序列可操纵地连接仅是本发明一个优选的实施方案,因此使用与该DNA分子相关的内源性启动子序列也可以实现表达,例如在各种情况下的天然启动子,或为优化阿卡糖产量而经诱变的天然启动子。这些启动子也是如本发明的DNA分子的一部分。
本发明还涉及包括一种如本发明的DNA分子的载体,该载体用于从产生阿卡糖的微生物中去除或改变阿卡糖自身生物合成基因。该载体优选取自含有pGM160的组中及如欧洲专利EP0334282和EP0158872中所述的载体。
本发明还涉及用某一上述DNA分子或载体进行转化的一种宿主细胞,其特征在于该宿主细胞选自大肠杆菌,枯草芽孢杆菌,放线菌目,如链霉菌属、游动放线菌属、小瓶菌属和链孢子囊菌属,吸水链霉菌柠檬变种或淡青链霉菌以及生物技术相关的真菌(例如黑曲霉、产黄青霉)和酵母(例如啤酒酵母),特别优选的选自淡青链霉菌GLA.O或游动放线菌属。
本发明还涉及一种通过表达如本发明重组DNA分子的基因而得到的蛋白质混合物,其中该DNA分子包含阿卡糖生物合成基因和同源性假寡糖基因,特别是该DNA分子特征在于(a)包含了如表4的一种DNA序列或其部分;(b)包含了在严格条件下能与如(a)的DNA分子或其部分杂交的一种DNA序列;或(c)包含了因为遗传密码简并性而不同于如(a)或(b)的DNA分子的一种DNA序列,此DNA序列允许应用如(a)或(b)的DNA分子或其部分所相应地表达的蛋白质的表达。
本发明还涉及可通过表达前面段落中所述的DNA分子编码的基因而得到分离的蛋白质以下陈述适用于本发明所确定的所有单个基因,为求清晰一并陈述本发明还涉及如上上一段中所述的一种重组DNA分子编码的一种蛋白质,尤其是其特征在于DNA分子包含如表4的核苷酸1到720或720到2006或2268到3332或3332到4306或4380到5414或5676到6854的分子,或其部分;特别优选由acbA或acbB或acbC或acbD或acbE或acbF基因编码的,包含如表4的氨基酸序列或其部分的蛋白质。
本发明还涉及作为本发明部分主题的用于获得如上所述蛋白质的方法,此方法特征在于(a)蛋白质在合适的宿主细胞中表达,特别是其特征在于宿主细胞选自大肠杆菌,枯草芽孢杆菌,放线菌目,如链霉菌属、游动放线菌属、小瓶菌属和链孢子囊菌属的菌株,吸水链霉菌柠檬变种或淡青链霉菌以及生物技术相关的真菌(例如,黑曲霉和产黄青霉)和酵母(例如啤酒酵母),最优选的宿主细胞选自淡青链霉菌GLA.O和游动放线菌属,并(b)得以分离。
本发明还涉及制备阿卡糖的方法,其特征在于(a)在合适的宿主细胞中表达重组DNA分子上的一个或多个基因,该重组DNA分子包含如表4的一种DNA序列或其部分,或包含在严格条件下能与如表4的DNA分子或其部分杂交的一种DNA序列,或包含因为遗传密码简并性而不同于刚刚提到的DNA分子的一种DNA序列,此DNA序列允许应用上述这些DNA分子或其中一部分所相应地表达的蛋白质的表达,特别的,该宿主细胞选自如上段所述的那些宿主细胞,并且(b)从上述宿主细胞的培养基上清液中分离阿卡糖。
本发明还涉及制备阿卡糖的方法,其特征在于(a)从一种产生阿卡糖的宿主细胞中去除重组DNA分子的一个或多个基因,该重组DNA分子包含如表4的一种DNA序列或其部分,或包含在严格条件下能与如表4的DNA分子或其部分杂交的一种DNA序列,或包含因为遗传密码简并性而不同于刚刚提到的DNA分子的一种DNA序列,此DNA序列允许应用上述这些DNA分子或其中一部分所相应地表达的蛋白质的表达,特别的,该宿主细胞为淡青链霉菌GLA.O和游动放线菌属,并且(b)从上述宿主细胞中分离阿卡糖。
在这方面,一个或多个基因的去除可用标准的分子生物学方法完成,例如使用上述载体(pGM160以及其它载体)。被去除的基因例如可以是可能有调节功能的acbE基因。为得到作为单一发酵产物的纯的阿卡糖且不再得到同源假寡糖的混合物,可以用同种方法去除基因(见上)。优选地使用上述用于此目的的载体来去除这些基因。
本发明还涉及制备阿卡糖的方法,其特征在于将前面两段所述的阿卡糖制备方法互相结合起来,这样可以做到人为地表达一个或多个上述基因以及去除一个或多个上述基因。
本发明还涉及改变内源性阿卡糖生物合成基因表达的方法,其是通过突变各自的基因启动子使阿卡糖产量提高。在本文中,可以使用已知的同源性重组方法将突变引入待改进的生产菌株。这些突变可以是转换、删除和/或增加。“增加”,例如可以是增加一个或多个核苷酸,或一个或多个有正性调节效应从而增强一种生物合成阿卡糖内源性基因表达的DNA序列;相反情况下,即增加有负性调节效应的一种DNA序列从而抑制一种内源性阿卡糖生物合成基因也是增加的一种优选形式。“转换”,例如可以是核苷酸的交换,从而减弱或增强起负性或正性作用的调节元件的效应。“删除”可用于去除起负性或正性作用的调节元件。此方法的内源性基因优选地存在于放线菌目,如链霉菌属、游动放线菌属、小瓶菌属或链孢子囊菌属的菌株,吸水链霉菌柠檬变种或淡青链霉菌;尤其特指存在于淡青链霉菌GLA.O和游动放线菌属。
本发明还涉及淡青链霉菌GLA.O用于制备阿卡糖的用途。
本发明还涉及淡青链霉菌GLA.O以“经典途径”获得其突变株的用途,突变株使获得的阿卡糖产量更高。获得改进的天然产物生产菌株的方法已问世很长时间,通常使用突变和筛选这类经典方法。
本发明还涉及探查出生物合成如表4的阿卡糖和同源性多糖的基因簇的全部基因的方法,其特征在于a)制备源自如表4DNA分子的杂交探针,b)这些杂交探针用于从获自淡青链霉菌GLA.O的DNA文库中基因组筛选,并且c)分离和鉴定所获克隆。
本发明还涉及探查出生物合成如表4的阿卡糖和同源性假寡糖的基因簇的全部基因的方法,其特征在于,从如表4的重组DNA分子开始a)制备PCR引物,b)这些PCR引物要与所用的载体系统序列杂交的引物相结合以用于累积源自淡青链霉菌GLA.O的基因组的DNA片段,c)分离和鉴定所累积的片段。
本发明还涉及从除淡青链霉菌GLA.O以外其它产阿卡糖微生物中分离生物合成阿卡糖和同源性假寡糖基因簇的方法,其特征在于,从如权利要求4的重组DNA分子开始,a)制备杂交探针,b)这些杂交探针用于从获自相应微生物的DNA文库中进行基因组或cDNA筛选,且c)分离和鉴定所获克隆。
本发明还涉及从除淡青链霉菌GLA.O以外其它产阿卡糖微生物中分离生物合成阿卡糖和同源性假寡糖的基因簇的方法,其特征在于,从如权利要求4的重组DNA分子开始,a)制备PCR引物,b)这些PCR引物用于累积来自相应微生物基因组DNA或cDNA的DNA片段,c)分离和鉴定所累积的片段,且d)合适时,应用如前面段落所述的一种方法。
所述的从除淡青链霉菌GLA.O以外其它产阿卡糖微生物中分离生物合成阿卡糖和同源性假寡糖的基因簇的方法其特征在于,这些微生物选自放线菌目,如链霉菌属、游动放线菌属、小瓶菌属或链孢子囊菌属的菌株,吸水链霉菌柠檬变种和淡青链霉菌,优选地选自淡青链霉菌GLA.O和游动放线菌属。
本发明还涉及淡青链霉菌GLA.O在分离阿卡糖中的用途。
通过实施例、表格和更详细地解释本发明,而不意在限制。
所有的质粒分离过程都按照制造商说明书使用Macherey和Nagel(Duren,德国)分离试剂盒(Nucleobond)进行。分子生物学操作按照标准方案(Sambrock等(1989)分子克隆实验室手册,第2版(Molecularcloning:A Laboratory Manual,2nd),Cold Spring Harbor出版社,美国)或依照各个制造商说明书进行。DNA和蛋白质序列的检索应用GeneticsComputer Group Software,Version 8(程序FastA、TfastA、BlastX、Motifs、GAP和CODONPREFERENCE)和SwissProt(release 32)、EMBL(release 46)及Prosite(release 12.2)数据库。淡青链霉菌和游动放线菌的分子生物学操作(DNA的分离和DNA转化)依据Hopwood等链霉菌的遗传操作实验室手册(Genetic Manupulation of Streptomyces:ALaboratory Manual)The John Innes Foundation,Norwich,英国1985和Motamedi及Hutchinson,淡青链霉菌的蒽环类抗肿瘤抗生素丁省霉素C生物合成基因簇的克隆和异源性表达(Cloning and heterologous expressionof a gene cluster for the biosynthesis of tetracenomycin C,theanthracycline antitumor antibiotic of Streptomyces glaucescens.),美国国家科学院学报(Proc.Natl.Acad.Sci.USA)84:4445-4449(1987)所述。
通常,用Boehringer Mannheim(Cat.No.1175033)的“非放射性DNA标记试剂盒”进行杂交。用Boehringer Mannheim(Cat.No.1363514)的“发光检测试剂盒”检测DNA。在本专利申请所给的所有实施例中,在严格条件下进行杂交68℃,16小时,5XSSC,0.1%N-十二烷基肌氨酸,0.02%SDS,1%封闭剂(Boehinger Mannheim)。SSC指0.15MNaCl/0.015M柠檬酸钠。此处所给的“严格条件”的定义适用于本发明所有方面提到的“严格条件”。在这点上,获得此严格条件,即所述的杂交条件的方法并非特意施以限制性的影响,因为本领域专业人员可以选择其它条件以获得相同的严格条件,例如通过结合其它温度使用其它杂交溶液的方法。实施例1:PCR引物的合成和测序以及源自淡青链霉菌GLA.O的片段的扩增标准条件下进行PCR,各种情况下均在100μl反应液中加100pmol引物1和引物2PCR缓冲液110μlPCR引物 各种情况下2.5μldNTPs 各种情况下0.2mMBSA(10mg/ml) 1μl模板DNA 1μg(1μl)Taq聚合酶2(5单位/ml) 1.5μlH2O 加至100μl1:Promega2:Boehringer Mannheim在样品上铺75μl矿物油,使用Perkin Elmer TC1 DNA热循环仪进行扩增。
参数循环温度时间
1 96℃5分钟74℃5分钟30 95℃1.5分钟74℃1.5分钟1 74℃5分钟表1列出了变性引物的序列,这些引物用于扩增源于不同链霉菌的dTDP-葡萄糖脱水酶。
表1用于扩增dTDP-葡萄糖-4,6-脱水酶的引物的序列引物1CSGGSGSSGCSGGSTTCATSGG(SEQ ID NO:1)引物2GGGWVCTGGYVSGGSCCGTAGTTG(SEQ ID NO:2)此表中,S=G或C,W=A或T,V=A或G,和Y=T或C。
实施例2分离于淡青链霉菌GLA.O的PCR片段的DNA序列采用Sanger等(PNAS USA,74:5463-5467(1977))的双脱氧链终止法进行测序,根据制造商说明书用Pharmacia Biotech(Freiburg,德国)自读测序试剂盒进行反应。用Pharmacia Biotech(Freiburg,德国)的ALF DNA测序仪进行分离和检测。
将PCR片段随后克隆进大肠杆菌载体pUC18(Sure Clone Kit,Pharmacia Biotech,Freiburg),且对此片段测序,证实了此片段编码dTDP-葡萄糖4,6-脱水酶的设想。然而分离到两个都与dTDP-葡萄糖4,6-脱水酶具有高度同源性但互不相同的基因。据此后面分别命名为acbD*和HstrE*。
分离到的PCR片段的序列见表2A和2B,推导出的HstrE*和acbD*的氨基酸序列的同源性比较见表2C。两蛋白仅表现出65%相同性。表2A:acbD*的DNA序列(引物结合位点下加直线,SEQ ID No.:3)
引物11 CCCGGGCGGG GCGGGGTTCA TCGGCTCCGC CTACGTCCGC CGGCTCCTGT51 CGCCCGGGGC CCCCGGCGGC GTCGCGGTGA CCGTCCTCGA CAAACTCACC101 TACGCCGGCA GCCTCGCCCG CCTGCACGCG GTGCGTGACC ATCCCGGCCT151 CACCTTCGTC CAGGGCGACG TGTGCGACAC CGCGCTCGTC GACACGCTGG201 CCGCGCGGCA CGACGACATC GTGCACTTCG CGGCCGAGTC GCACGTCGAC251 CGCTCCATCA CCGACAGCGG TGCCTTCACC CGCACCAACG TGCTGGGCAC301 CCAGGTCCTG CTCGACGCCG CGCTCCGCCA CGGTGTGCGC ACCCTCGTGC351 ACGTCTCCAC CGACGAGGTG TACGGCTCCC TCCCGCACGG GGCCGCCGCG401 GAGAGCGACC CCCTGCTCCC GACCTCGCCG TACGCGGCGT CGAAGGCGGC451 CTCGGACCTC ATGGCGCTCG CCCACCACCG CACCCACGGC CTGGACGTCC501 GGGTGACCCG CTGTTCGAAC AACTACGGCC CGCACCAGTT CCCGGG引物2表2B:HstrE*的DNA序列(引物结合位点下加直线,SEQ ID No.:4)引物21 CCCCGGGTGC TGGTAGGGGC CGTAGTTGTT GGAGCAGCGG GTGATGCGCA51 CGTCCAGGCC GTGGCTGACG TGCATGGCCA GCGCGAGCAG GTCGCCCGAC101 GCCTTGGAGG TGGCATAGGG GCTGTTGGGG CGCAGCGGCT CGTCCTCCGT151 CCACGACCCC GTCTCCAGCG AGCCGTAGAC CTCGTCGGTG GACACCTGCA201 CGAAGGGGGC CACGCCGTGC CGCAGGGCCG CGTCGAGGAG TGTCTGCGTG251 CCGCCGGCGT TGGTCCGCAC GAACGCGGCG GCATCGAGCA GCGAGCGGTC301 CACGTGCGAC TCGGCGGCGA GGTGCACGAC CTGGTCCTGG CCGGCCATGA351 CCCGGTCGAC CAGGTCCGCG TCGCAGATGT CGCCGTGGAC GAAGCGCAGC401 CGGGGGTGGT CGCGGACCGG GTCGAGGTTG GCGAGGTTGC CGGCGTAGCT451 CAGGGCGTCG AGCACGGTGA CGACGGCGTC GGGCGGCCCG TCCGGACCGA501 GGAGGGTGCG GACGTAGTGC GAGCCCATGA ACCCCGCCGC C引物1表2C推导出的PCR产物HstrE*和acbD*的氨基酸序列的同源性比较(程序GAP)
质量 196.3长度 182比率 1.091区间 0相似百分比77.654 相同百分比65.363PCRstrE.Pep×PCRacbD.Pep
在每种情况中,上行SEQ ID No:5在每种情况中,下行SEQ ID No:6实施例3利用源于淡青链霉菌GLA.O的染色体DNA和分离到并标记的PCR片段进行的Southern分析在R2YENG培养基中培养细胞30小时后收集分离DNA。从淡青链霉菌GLA.O中分离染色体DNA,如Hopwood等(链霉菌的遗传操作实验手册(Genetic Manupulation of Streptomyces:A LaboratoryManual)The John Innes Foundation,Norwich,英国(1985))所述。
用包含acbD*和HstrE*PCR片段的标记探针和经PstⅠ,、BglⅡ和BamHⅠ酶解的淡青链霉菌GLA.O生产菌株的染色体DNA进行Southern杂交。根据制造商说明书(Boehringer Mannheim;Mannheim),用毛地黄毒苷(digoxygenin)标记两个PCR片段,并且在琼脂糖凝胶上分离淡青链霉菌GLA.O生产菌株染色体DNA的酶解液。将DNA通过毛细管作用转移至尼龙膜,杂交后可见与标记探针同源的DNA区域。
两个基因标记不同的DNA序列(

图1和图2),被HstrE*标记的片段必定为源于淡青链霉菌GLA.O羟基链霉素生物合成的基因片段。虽然此DNA片段尚未共公开,但由HstrE*推导出的蛋白质序列和源于灰色链霉菌N2-3-11链霉素生物合成的StrE(Pissowotzki等(1991)分子及普通遗传学(Mol.Gen.Genet.)231:113-123)有很高的同源性(82%同源性),以及HstrE*-标记的DNA片段和已公开的淡青链霉菌GLA.O羟基链霉素基因簇(Retzlaff等(1993)工业微生物,基础与应用分子遗传学ASM(Industrial Microorganisms.Basic and applied molecular genetics ASM)华盛顿特区,美国)的限制性图谱相一致都支持这一结论。acbD*探针标记的片段(图2)属于一个尚未研究的DNA区域。此区域编码生物合成淡青链霉菌GLA.O假寡糖的酶。
实施例4:6.8Kb PstⅠ片段的克隆除了其它以外,acbD*PCR片段标记了一个6.8KbPstⅠDNA片段(图2)。此DNA片段按下述方法分离。用刀片将凝胶上的这一区域切下,用Pharmacia Biotech的分离试剂盒将此DNA从凝胶中分离出来,并克隆进经限制性酶PstⅠ切过的质粒pUC19(质粒pacb1);然后将后一质粒转化进大肠杆菌菌株DH5α。从这些平皿中挑出单个克隆传代培养并用这些克隆进行质粒DNA分离。用上述引物1和2(表1)对源于这些克隆(250)的DNA进行PCR扩增。据此,可分离到包含有6.8Kb PstⅠ片段的适宜的大肠杆菌克隆。
实施例5分离到的6.8Kb PstⅠDNA片段的测序用不同的限制性内切酶酶解此DNA,单个DNA片段克隆进pUC19。然后确定完整片段的DNA序列,见表4(SEQ ID No.:7)。反义链的互补测序仅仅部分证实了6.8Kb PstⅠDNA序列。发现了几种编码不同蛋白质的开放阅读框架(程序CODONPREFERENCE和BlastX)。共发现了6个编码区,即一个与ATP结合蛋白高度同源的基因acbA,一个氨基转移酶acbB,一个dTDP-葡萄糖合酶acbC,一个dTDP-葡萄糖脱水酶acbD,一个与Lacl蛋白家族具有同源性的调节基因acbE以及一个与糖结合蛋白类似的acbF。acbA和acbF基因序列仅仅部分确定。与数据库中其它蛋白的同源性和推定蛋白的性质概括于表3。图3以扼要的形式显示了此片段的限制性图谱,其中包含有本文提及的最重要的限制性酶切位点以及已确定的开放阅读框架。表3源自淡青链霉菌GLA.O的6.8Kb PstⅠ片段上已确定的开放阅读框架的分析
*不完整开放阅读框架;§Swiss-Prot数据库(release 32)实施例6源自淡青链霉菌GLA.O染色体上的假寡糖生物合成基因acbBCD的缺失下面给出了已确定的编码假寡糖生物合成基因的DNA片段的证据。一个3.4Kb基因区域(EcoRⅠ/SstⅠ片段b,图3)被红霉素抗性基因(1.6Kb)替换并与源自6.8Kb PstⅠ片段(pacb1)的侧翼DNA序列共同克隆进温度敏感型质粒pGM160。按下述步骤构建质粒质粒pacb1的2.2Kb EcoRⅠ/HindⅢ片段(c,图3)克隆进pGEM7zf(Promega,Madison,WI,美国;质粒pacb2),pacb1的1Kb SstⅠ片段(a,图3)克隆进pUC19(质粒pacb3)。用下面的片段进行连接。用BamHⅠ/HindⅢ酶切质粒pGM160(Muth等(1989)分子及普通遗传学(Mol.Gen Genet.)219:341-348),用XbaⅠ/BamHⅠ酶切质粒pacb2(c,图3),用EcoRⅠ/HindⅢ酶切质粒pacb3(a,图3),以及用EcoRⅠ/XbaⅠ酶切质粒pIJ4026(Bibb等(1985)基因(Gene)38:215-226)以分离1.6Kb的ermE抗性基因。这些片段混合连接后转化进大肠杆菌DH5α并以氨苄青霉素筛选。得到的质粒,即pacb4从大肠杆菌DH5α中分离出来,用限制性酶解法检测其正确性后,通过原生质体转化将其转入淡青链霉菌GLA.O中。27℃时在R2YENG琼脂上以硫链丝菌肽筛选出转化子。然后在非允许温度39℃下培养转化子,并用已建立的同源重组方法将此质粒整合进基因组(用硫链丝菌肽(25μg/ml)和红霉素(50μg/ml)筛选)。在这些条件下,能够生长的均为质粒已整合进其基因组的那些克隆。分离相应的克隆,使其形成孢子(培养基1,见下)并涂布于含红霉素的琼脂上(培养基1)。再次从这种平板中分离出单个克隆,并在含硫链丝菌肽的培养基和含红霉素的培养基上均划线培养。分析抗红霉素但不再抗硫链丝菌肽的克隆。这些克隆中acbBCD基因已被ermE替代。检测几个克隆后最后选择淡青链霉菌GLA.O Δacb菌株为参考菌株(抗红霉素,硫链丝菌肽敏感)用于进一步的研究。培养基1酵母抽提物4g/l麦芽抽提物10g/l葡萄糖4g/l琼脂 15g/lPH7.2进一步实验检测了相应菌株是否仍能产阿卡糖。培养一些克隆并研究其在一种生物测定中α-淀粉酶抑制剂的合成;然而未检测到活性。接着用Southern杂交进一步鉴定突变株。在预计位点上已发生基因ermE的整合。图4显示野生型和淡青链霉菌GLA.OΔacb缺失突变株进行的Southern杂交。用源于pabc3的SstⅠ片段为探针。从野生型和突变型中分离染色体DNA,用酶PstⅠ和PstⅠ/HindⅢ酶解。得到的缺失突变株片段样式与推测的重组情况相吻合。野生型显示出未改变的6.8Kb PstⅠ片段,而突变型却显示出被截短1.8Kb的片段(比较泳道1和3,图4)。ermE抗性基因的整合额外地在PstⅠ片段引入一个内部HindⅢ酶切位点(比较泳道2和4,图4)。
实施例7阿卡糖对α-淀粉酶的抑制用酶测试检测淀粉(TC-淀粉,Boehringer-Mannheim,Cat.No.297748),可能证实从淡青链霉菌GLA.O分离出的化合物抑制α-淀粉酶。测试原理淀粉葡糖苷酶将淀粉酶切分解成D-葡萄糖。己糖激酶将葡萄糖转变为葡萄糖-6-磷酸。后者再由葡萄糖-6-磷酸脱氢酶转化为D-葡糖酸-6-磷酸。此反应产生NADPH,其可由光度法检测到其形成。阿卡糖抑制α-淀粉酶,因此阻断D-葡萄糖形成最终也抑制NADPH的形成。
实施例8用于淡青链霉菌GLA.O生长和生产阿卡糖的培养基27℃下,配有侧挡板的内装100ml培养基2的500ml锥形瓶在定轨摇床上以120转/分进行发酵。2或3天后终止发酵。如实施例9所述用平板扩散实验检测假寡糖。如果使用培养基3,则不能产生α-淀粉酶抑制剂。这意味着葡萄糖能抑制假寡糖的产生。也可考虑其它糖如麦芽糖和蔗糖,或复合糖源(麦芽抽提物)用于淡青链霉菌GLA.O生产假寡糖。培养基2大豆粉 20g/l淀粉20g/lPH 7.2培养基3大豆粉20g/l葡萄糖20g/lpH7.2实施例9使用米黑毛霉进行生物测定将米黑毛霉(Mucor miehei)菌株的孢子悬浮液倒入琼脂(培养基5)(105孢子/ml),在各种情况下将10ml此混合液倒入培养皿。在纸测试盘(直径6mm)上加10μl阿卡糖[腔隙](1mg/ml)或取自淡青链霉菌GLA.O培养基的样品并置于测试平板上,37℃孵育。含淀粉的培养基5上出现抑制圈。以葡萄糖(培养基4)取代淀粉制备的平板作为对照。在此培养基上,装有活性化合物的滤盘周围无抑制圈。培养基4和5KH2PO4×3H2O 0.5gMgSO4×7H2O 0.2gNaCl 0.1g硫酸铵 5g酵母氮源基质 1.7g葡萄糖(4)或淀粉(5) 5g琼脂 15g实施例10淡青链霉菌GLA.O的转化按Motamedi和Hutchinson((1987)PNAS USA 84:4445-4449)所述分离淡青链霉菌菌株的原生质体,按Hopwood等(链霉菌的遗传操作实验室手册(Genetic Manupulation of Streptomyces:A LaboratoryManual)The John Innes Foundation,Norwich,英国(1985))说明使用PEG转化法将分离出的质粒DNA转进细胞。原生质体于30℃在R2YENG培养基上再生(Motamedi和Hutchinson(1987)PNAS USA84:4445-4449)。18小时后,在琼脂平板上覆盖含有硫链丝菌肽的溶液,30℃培养(硫链丝菌肽终浓度20μg/ml)。
实施例11从淡青链霉菌GLA.O中分离假寡糖、高效液相色谱分析和质谱分离过滤菌丝体以分离出培养液。用此方法得到的培养基滤液加入XAD16柱,用水清洗该柱之后,活性化合物用30%甲醇洗脱。洗脱液浓缩至水相,后者用乙酸乙酯抽提以除去脂溶性杂质。水相继续浓缩,进一步将活性物质用biogel P2柱在5%甲醇中纯化,在分部收集器中收集各个流分。用米黑毛霉生物检测分析各个流分。活性洗脱液再次层析,在biogel P2上用5%甲醇分离以进一步纯化。以此方法分离的物质用高效液相色谱和质谱进行分析。高效液相色谱分离柱 Nucleosil100C-18洗脱液 0.1%磷酸=A/乙腈=B梯度15分钟内B从0到100%检测215nm流速2ml/min上样体积10-20μl用高效液相色谱不能区别从淡青链霉菌GLA.O中得到的假寡糖制备物和真正的阿卡糖。在此洗脱系统中,两种成分的滞留时间和紫外吸收光谱完全一样。在这些条件下假寡糖混合物各成分不能分离。质谱分析(MS)用电喷雾质谱分析可确定真正的阿卡糖和源于淡青链霉菌GLA.O的假寡糖的分子量和断裂方式。对从购于Bayer公司的阿卡糖(Glucobay)进行分析,在645.5有一质量峰(阿卡糖)。源于淡青链霉菌GLA.O的纯化样品包含具有不同长度糖基侧链的假寡糖的混合物969(阿卡糖+2个葡萄糖单位),807(阿卡糖+1个葡萄糖单位),645(对应于真正的阿卡糖)。阿卡糖和从淡青链霉菌GLA.O分离出来并且分子量为645的化合物在断裂裂的时候,会形成同样的分子片段,即145(4-氨基-4,6-脱氧葡萄糖),303(Avarviosin)和465(303加一个葡萄糖单位)。
游动放线菌属SE50也会产生一种具有不同长度糖基侧链的阿卡糖分子的混合物(Truscheit(1984)第8届医药化学国际研讨会报告(ⅧthInternational Symposium on Medicinal Chemistry,Proc),卷1,瑞典药物科学院(Swedish Academy of Pharmaceutical Sciences),Stockholm,瑞典)。选择不同的发酵参数和营养液的基质会影响糖基侧链的长度。
实施例12用游动放线菌属SE50/100(ATCC31044)进行Southern杂交从游动放线菌SE50/100中分离染色体DNA并用限制性酶(PstⅠ和BamHⅠ)酶解。用包括源于淡青链霉菌GLA.O的dTDP-葡萄糖4,6-脱水酶acbD的编码区(片段d,图3)的探针进行Southern杂交。此探针和源于游动放线菌属SE50/100的特定区带杂交(图5,泳道1和2)。这使分离源于游动放线菌属SE50/100和其它菌株系的相应片段成为可能。这些DNA区域实际上是否参与阿卡糖的生物合成需要在接下来的研究中证实。另外,PCR引物1和2(表1)也可用来扩增源于游动放线菌属的dTDP-葡萄糖4,6-脱水酶。
图表说明图1用淡青链霉菌GLA.O进行的Southern杂交。泳道1:PstⅠ,泳道2:BamHⅠ,泳道3:BglⅡ。标记的PCR片段HstrE*用作探针。参与生物合成羟基链霉素的DNA片段的标记。图2用淡青链霉菌GLA.O进行的Southern杂交。泳道1:PstⅠ,泳道2:BamHⅠ,泳道3:BglⅡ。标记的PCR片段acbD*用作探针。参与生物合成假寡糖的DNA片段的标记。图3源于淡青链霉菌GLA.O的6.8Kb PstⅠ片段的限制性图谱。用箭头指示开放阅读框架和其转录的方向。片段a,b,c和d代表文中详细说明的DNA区域。图4用淡青链霉菌Δacb进行的Southern杂交泳道1:PstⅠ,泳道2:PstⅠ/HindⅢ,用淡青链霉菌GLA.O进行的Southern杂交泳道3:PstⅠ,泳道4:PstⅠ/HindⅢ。标记的1.0Kb SstⅠ片段a(图3)用作探针。图5用游动放线菌属SE50/100进行的杂交泳道1:PstⅠ,泳道2:BamHⅠ,用淡青链霉菌GLA.O进行的Southern杂交泳道3:PstⅠ。标记的1.0Kb Smal/EcoRⅠ片段d(dTDP-葡萄糖4,6-脱水酶,图3)作为探针。用箭头指示标记的DNA片段(BamHⅠ:2.1和0.7Kb,PstⅠ:~11-12Kb)。表4源于淡青链霉菌GLA.O的6.8Kb PstⅠ片段的DNA序列(SEQ IDNo.:7)。在此DNA序列下面给出已确定的开放阅读框架的推导出的氨基酸顺序(SEQ ID No.:8-13)。起始和终止密码子以及可能的核糖体结合位点下划横线。
acbA:SEQ ID No.:8acbB:SEQ ID No.:9acbC:SEQ ID No.:10acbD:SEQ ID No.:11acbE:SEQ ID No.:12acbF:SEQ ID No.:13表4:(SEQ ID NO.:7,8,9,10,11,12,13)PBtICTGCAGGGTTCCCTGGTGCACGACCCGCCCCTGGTCGACGACCAGGGCGCTGTCGCAGAT---------+---------+---------+---------+---------+---------+60GACGTCCCAAGGGACCACGTGCTGGGCGGGGACCAGCTGCTGGTCCCGCGACAGCGTCTAQ L T G Q H V V R G Q D V V L A S D C I-CGCGGCGATGTCGGCGATGTCGTGGCTGGTGAGCACCACGGTGGTGCCCAGTTCCCGGTG---------+---------+----------+------------------+---------+120GCGCCGCTACAGCCGCTACAGCACCGACCACTCGTGGTGCCACCACGGGTCAAGGGCCACA A I D A I D H S T L V V T T G L E R H-GGCGCGGTTGACCAGCCGGCGCACCGCGTCCTTCAGCACCATGTCGAGGCCGATCGTGGG---------+---------+---------+---------+---------+---------+180CCGCGCCAACTGGTCGGCCGCGTGGCGCAGGAAGTCGTGGTACAGCTCCGGCTAGCACCCA R N V L R R V A D K L V M D L G I T P-CTCGTCCCAGAACAGCACGGCCGGGTCGTGCAGCAGGCTCGCCGCGATCTCGGCGCGCAT---------+---------+---------+---------+---------+---------+240GAGCAGGGTCTTGTCGTGCCGGCCCAGCACGTCGTCCGAGCGGCGCTAGAGCCGCGCGTAE D W F L V A P D H L L S A A I E A R M-SPhIGCGCTGTCCGAGGCTGAGCTGCCGCACGGGGGTGGACCCCACCGCGTCGATGTCGAGGAG---------+---------+---------+---------+---------+---------+300CGCGACAGGCTCCGACTCGACGGCGTGCCCCCACCTGGGGTCGCGCAGCTACAGCTCCTCR Q G L S L Q R V P T S G L A D I D L L-GTCCCGGAACAGGGCGAGGTTGCGCCGGTAGACCGGTCCGGGGATGTCGTAGATGCGGCG---------+---------+---------+---------+---------+---------+360CAGGGCCTTGTCCCGCTCCAACGCGGCCATCTGGCCAGGCCCCTACAGCATCTACGCCGCD R F L A L N R R Y V P G P I D Y I R R-KPnICAGGATGCGGAAGGAGTCGGGTACCGACAGGTCCCACCAGAGCTGGCTGCGCTGGCCGAA---------+---------+---------+---------+---------+---------+420GTCCTACGCCTTCCTCAGCCCATGGCTGTCCAGGGTGGTCTCGACCGACGCGACCGGCTTL I R F S D P V S L D W W L Q S R Q G F-GACGACGCCGATCGTGCGGGCGTTGCGCTGCCGGTGCCGGTAGGGCTCCAGCCCGGCGAC---------+---------+---------+---------+---------+---------+480CTGCTGCGGCTAGCACGCCCGCAACGCGACGGCCACGGCCATCCCGAGGTCGGGCCGCTGV V G I T R A N R Q R H R Y P E L G A V-CGTGCAGCGGCCGGAGGTGGGGGTCATGATGCCGGTCAGCATCTTGATCGTGGTCGACTT---------+---------+---------+---------+---------+---------+540GCACGTCGCCGGCCTCCACCCCCACTACTACGGCCAGTCGTAGAACTAGCACCAGCTGAAT C R G S T P T M I G T L M K I T T S K-GCCGGCTCCGTTGGCGCCGATGTAGGCGGTCTTCGTGCCGGCCGGTATCTCGAAGGAGAC---------+---------+---------+---------+---------+---------+600CGGCCGAGGCAACCGCGGCTACATCCGCCAGAAGCACGGCCGGCCATAGAGCTTCCTCTGG A G N A G I Y A T K T G A P I E F S V-KPnIGTCGTCGACGGCGCGCACGACGCGGTACCGGCGGGTCAGGAGGGTGGAGAGGCTGCCGAG---------+---------+---------+---------+---------+---------+660CAGCAGCTGCCGCGCGTGCTGCGCCATGGCCGCCCAGTCCTCCCACCTCTCCGACGGCTCD D V A R V V R Y R R T L L T S L S G L-CAGGCCGGGCTCGCGTTCGGCCAGCCGGAACTCCTTGACGAGGTGTTCGGCCACGATCAC---------+---------+---------+---------+---------+---------+720GTCCGGCCCGAGCGCAAGCCGGTCGGCCTTGAGGAACTGCTCCACAAGCCGGTGCTAGTG* -L G P E R E A L R F E K V L H E A V I V-------- acbAGCGATCACCCGCTCGACGGCCGTCTCCAGCAGGCGCAGGCCCTCGTCGAGCAGCGCCTCG---------+---------+---------+---------+---------+---------+780CGCTAGTGGGCGAGCTGCCGGCAGAGGTCGTCCGCGTCCGGGAGCAGCTCGTCGCGGAGCA I V R E V A T E L L R L G E D L L A E -TCGAGGGTGAACGGCGGTGCCAGCCGCAGGATGTGGCCGCCCAGGGAGGTGCGCAGCCCC---------+----------+---------+---------+---------+---------+ 840AGCTCCCACTTGCCGCCACGGTCGGCGTCCTACACCGGCGGGTCCCTCCACGCGTCGGGGD L T F P P A L R L I H G G L S T R L G -SmaIAGGTCGAGGGCGGTGGTGTAGACGGCCCGGGCGGTCTCGGGGGCGGGTGCCCGGCCGACG---------+---------+---------+---------+---------+---------+900TCCAGCTCCCGCCACCACATCTGCCGGGCCCGCCAGAGCCCCCGCCCACGGGCCGGCTGCL D L A T T Y V A R A T E P A P A R G V -GCGTCGGTGACGAACTCCAGGCCCCACAGCAGTCCGAGGCCGCGTACCTGGCCGAGCTGG---------+---------+---------+---------+---------+---------+960CGCAGCCACTGCTTGAGGTCCGGGGTGTCGTCAGGCTCCGGCGCATGGACCGGCTCGACCA D T V F E L G W L L G L G R V Q G L Q -SStIGGGAAGCGGGACTCCAGGGCGCGCAGCCGCTCCTGGATGAGCTCGCCGAGGACGCGCACG---------+---------+---------+---------+---------+---------+1020CCCTTCGCCCTGAGGTCCCGCGCGTCGGCGAGGACCTACTCGAGCGGCTCCTGCGCGTGCP F R S E L A R L R E Q I L E G L V R V -CGGTCGATCAGCCGGTCGCGCTCGACGACCTCCAGCGTGGCGCGGGCGGCGGCGATCCCC---------+---------+---------+---------+---------+---------+1080GCCAGCTAGTCGGCCAGCGCGAGCTGCTGGAGGTCGCACCGCGCCCGCCGCCGCTAGGGGR D I L R D R E V V E L T A R A A A I G -
SmaIAGTGGGTTGCTCGCGTACGTCGAGGCGTACGCCCCGGGGTGGCCGCCTCCGGCCTGCGCA---------+---------+---------+---------+---------+---------+1140TCACCCAACGAGCGCATGCAGCTCCGCATGCGGGGCCCCACCGGCGGAGGCCGGACGCGTL P N S A Y T S A Y A G P H G G G A Q A -GCTTCCGCGCGTCCGGCCAGCACGGCGAAGGGGAATCCGCTCGCGGTGCCCTTGGACAGC---------+---------+---------+---------+---------+---------+1200CGAAGGCGCGCAGGCCGGTCGTGCCGCTTCCCCTTAGGCGAGCGCCACGGGAACCTGTCGA E A R G A L V A F P F G S A T G K S L -ATCGCCAGGTCCGGCTCGATGCCGAACAGTTCGCTGGCGAGGAAGGCGCCGGTGCGCCCG---------+---------+---------+---------+----------+--------+1260TAGCGGTCCAGGCCGAGCTACGGCTTGTCAAGCGACCGCTCCTTCCGCGGCCACGCGGGCM A L D P E I G F L E S A L F A G T R G -CCGCCGGTGAGGACCTCGTCGGCGACGAGCAGCACGCCGCCGTCCCGGCAGGCGCCGGCG---------+---------+---------+---------+---------+---------+1320GGCGGCCACTCCTGGAGCAGCCGCTGCTCGTCGTGCGGCGGCAGGGCCGTCCGCGGCCGCG G T L V E D A V L L V G G D R C A G A -ATCCGCTCCCAGTAGCCGGGGGGCGGCACGATGACGCCTGCCGCGCCGAGGACGGGTTCG---------+---------+---------+---------+---------+---------+1380TAGGCGAGGGTCATCGGCCCCCCGCCGTGCTACTGCGGACGGCGCGGCTCCTGCCCAAGCI R E W Y G P P P V I V G A A G L V P E -AAGACCAGGGCCGAGACGTTGGGCTTCTCCGCGATGTGCCGGCGCACGAGGGTCGCGCAC---------+---------+---------+---------+---------+---------+1440TTCTGGTCCCGGCTCTGCAACCCGAAGAGGCGCTACACGGCCGCGTGCTCCCAGCGCGTGF V L A S V N P K E A I H R R V L T A CCGCACGTCGCACGAGGGGTACTCCAGGCCCAGGGGACAGCGGTAGCCAGTAGGGGCTGTA---------+---------+---------+---------+---------+---------+1500GCGTGCAGCGTGCTCCCCATGAGGTCCGGGTCCCCTGTCGCCATCGGTCATCCCCGACATR V D C S P Y E L G L P C R Y G T P A T -GCCAGCACGCTGTTGCCGCTGAAGGCCTGGTGGCCGATGTCCCAGTGGACCAGCATCCGG---------+---------+---------+---------+---------+---------+1560CGGTCGTGCGACAACGGCGACTTCCGGACCACCGGCTACAGGGTCACCTGGTCGTAGGCCA L V S N G S F A Q H G I D W H V L M RGCGCCCATGGTCTTGCCGTGGAAGCCGTGGCGCAGGGCGCAGATCCGGTTGCGGCCCGGC---------+---------+---------+---------+---------+---------+1620CGCGGGTACCAGAACGGCACCTTCGGCACCGCGTCCCGCGTCTAGGCCAACGCCGGGCCGA G M T K G H F G H R L A C I R N R G PGCGGCGGTCGCCTGGACGACCCGCAGGGCGGCCTCGACCACCTCCGCGCCGGTGGAGAAG---------+---------+---------+---------+---------+---------+1680CGCCGCCAGCGGAGCTGCTGGGCGTCCCGCCGGAGCTGGTGGAGGCGCGGCCACCTCTTCA A T A Q V V R L A A E V V E A G T S F -AAGGCGTAGGTGTCGAGCTGTTCGGGCAGCAGCCTGGCGAGCAGTTCCAGCAGGCCGGCG---------+---------+---------+---------+---------+---------+1740TTCCGCATCCACAGCTCGACAAGCCCGTCGTCGGACCGCTCGTCAAGGTCGTCCGGCCGCF A Y T D L Q E P L L R A L L E L L G A -CGGTCCGGCGTGGCGCTGTCGTGGACGTTCCACAGGCGGCGGGCCTGGGTGGTGAGTGCC---------+---------+---------+---------+---------+---------+1800GCCAGGCCGCACCGCGACAGCACCTGCAAGGTGTCCGCCGCCCGGACCCACCACTCACGGR D P T A S D H V N W L R R A Q T T L A -TCGACGACCTCCGGGTGCCCGTGGCCCAGTGACTGGGTGAGGGTCCCGGCCGCGAAGTCG---------+---------+---------+---------+---------+---------+1860AGCTGCTGGAGGCCCACGGGCACCGGGTCACTGACCCACTCCCAGGGCCGGCGCTTCAGCE V V E P H G H G L S Q T L T G A A F D -AGGTACTGGTTGCCGTCCAGGTCGGTCAGAACGGGACCGCGTCCCTCGGCGAAGACCCGG---------+---------+---------+---------+---------+---------+1920TCCATGACCAACGGCAGGTCCAGCCAGTCTTGCCCTGGCGCAGGGAGCCGCTTCTGGGCCL Y Q N G D L D T L V P G R G E A F V R -CGTCCGTGGACGGCTTCCTCGGAGGCGCCCGGCGCCAGGTGGCGGGCCTCCCGTGCCAGG---------+---------+---------+---------+---------+---------+1980GCAGGCACCTGCCGAAGGAGCCTCCGCGGGCCGCGGTCCACCGCCCGGAGGGCACGGTCCR G H V A E E S A G P A L H R A E R A LTGCTGTGTCTGCCGTAAGCCTGTCATCGCTGCCTCTGCTCGTCGGACCGGCTGACGCGAT---------+---------+---------+---------+---------+---------+2040ACGACACAGACGGCATTCGGACAGTAGCGACGGAGACGAGCAGCCTGGCCGACTGCGCTAH Q T Q R L G T M------- acbBCGCCGGCGAACTGCGTTGTGGCGCACCACGGTTGGGGCGGCTCGGCGCTGAGTCAAACAC---------+---------+---------+---------+-----------+-------+2100GCGGCCGCTTGACGCAACACCGCGTGGTGCCAACCCCGCCGAGCCGCGACTCAGTTTGTGTTGAACACACACCGCTGCAAGAGTTTGCGGGTTGTTTCAGAAAGTTGTTGCGAGCGGCCC---------+---------+---------+---------+---------+---------+2160AACTTGTGTGTGGCGACGTTCTCAAACGCCCAACAAAGTCTTTCAACAACGCTCGCCGGGCGGCACTCTGGTTGAGTCGACGTGCTTACGGCGCCACCACGCCTCACGTTCGAGGAGGGA---------+---------+---------+---------+---------+---------+2220GCCGTGAGACCAACTCAGCTGCACGAATGCCGCGGTGGTGCGGAGTGCAAGCTCCTCCCTCCTGTGAGAACAAGCCGCAGACCGACCCGCTCCCGCGGAGGGCCGAGGTGAAGGCCCTGG---------+--------+---------+---------+----------+---------+2280GGACACTCTTGTTCGGGCGTCTGGCTCGGGCGAGGCGCCTCCGGCTCCACTTCCGGGACCV K A L V-acbC ------PVuIITCCTGGCAGGTGGAACCGGCAGCAGACTGAGGCCGTTCACCCACACCGCCGCCAAGCAGC---------+---------+---------+---------+---------+---------+2340AGGACCGTCCACCTTGGCCGTCGTCTGACTCCGGCAAGTGGGTGTGGCGGCGGTTCGTCGL A G G T G S R L R P F T H T A A K Q L-TGCTCCCCATCGCCAACAAGCCCGTGCTCTTCTACGCGCTGGAGTCCCTCGCCGCGGCGG---------+---------+---------+---------+---------+---------+2400ACGAGGGGTAGCGGTTGTTCGGGCACGAGAAGATGCGCGACCTCAGGGAGCGGCGCCGCCL P I A N K P V L F Y A L E S L A A A G-GTGTCCGGGAGGCCGGCGTCGTCGTGGGCGCGTACGGCCGGGAGATCCGCGAACTCACCG---------+---------+---------+---------+---------+---------+2460CACAGGCCCTCCGGCCGCAGCAGCACCCGCGCATGCCGGCCCTCTAGGCGCTTGAGTGGCV R E A G V V V G A Y G R E I R E L T G-GCGACGGCACCGCGTTCGGGTTACGCATCACCTACCTCCACCAGCCCCGCCCGCTCGGTC---------+---------+---------+---------+---------+---------+2520CGCTGCCGTGGCGCAAGCCCAATGCGTAGTGGATGGAGGTGGTCGGGGCGGGCGAGCCAGD G T A F G L R I T Y L H Q P R P L G L-TCGCGCACGCGGTGCGCATCGCCCGCGGCTTCCTGGGCGACGACGACTTCCTGCTGTACC---------+---------+---------+---------+---------+---------+2580AGCGCGTGCGCCACGCGTAGCGGGCGCCGAAGGACCCGCTGCTGCTGAAGGACGACATGGA H A V R I A R G F L G D D D F L L Y L-TGGGGGACAACTACCTGCCCCAGGGCGTCACCGACTTCGCCCGCCAATCGGCCGCCGATC---------+---------+---------+---------+---------+---------+2640ACCCCCTGTTGATGGACGGGGTCCCGCAGTGGCTGAAGCGGGCGGTTAGCCGGCGGCTAGG D N Y L P Q G V T D F A R Q S A A D P-CCGCGGCGGCCCGGCTGCTGCTCACCCCGGTCGCGGACCCGTCCGCCTTCGGCGTCGCGG---------+---------+---------+---------+---------+---------+2700GGCGCCGCCGGGCCGACGACGAGTGGGGCCAGCGCCTGGGCAGGCGGAAGCCGCAGCGCCA A A R L L L T P V A D P S A F G V A E-AGGTCGACGCGGACGGGAACGTGCTGCGCTTGGAGGAGAAACCCGACGTCCCGCGCAGCT---------+---------+---------+---------+---------+---------+2760TCCAGCTGCGCCTGCCCTTGCACGACGCGAACCTCCTCTTTGGGCTGGAGGGCGCGTCGAV D A D G N V L R L E E K P D V P R S S-CGCTCGCGCTCATCGGCGTGTACGCCTTCAGCCCGGCCGTCCACGAGGCGGTACGGGCCA---------+---------+---------+---------+---------+---------+2820GCGAGCGCGAGTAGCCGCACATGCGGAAGTCGGGCCGGCAGGTGCTCCGCCATGCCCGGTL A L I G V Y A F S P A V H E A V R A I -TCACCCCCTCCGCCCGCGGCGAGCTGGAGATCACCCACGCCGTGCAGTGGATGATCGACC---------+---------+---------+---------+---------+---------+2880AGTGGGGGAGGCGGGCGCCGCTCGACCTCTAGTGGGTGCGGCACGTCACCTACTAGCTGGT P S A R G E L E I T H A V Q W M I D R-GGGGCCTGCGCGTACGGGCCGAGACCACCACCCGGCCCTGGCGCGACACCGGCAGCGCGG---------+---------+---------+---------+---------+---------+2940CCCCGGACGCGCATGCCCGGCTCTGGTGGTGGGCCGGGACCGCGCTGTGGCCGTCGCGCCG L R V R A E T T T R P W R D T G S A E-AGGACATGCTGGAGGTCAACCGTCACGTCCTGGACGGACTGGAGGGCCGCATCGAGGGGA---------+---------+---------+---------+---------+---------+3000TCCTGTACGACCTCCAGTTGGCAGTGCAGGACCTGCCTGACCTCCCGGCGTAGCTCCCCTD M L E V N R H V L D G L E G R I E G K-AGGTCGACGCGCACAGCACGCTGGTCGGCCGGGTCCGGGTGGCCGAAGGCGCGATCGTGC---------+---------+---------+---------+---------+---------+3060TCCAGCTGCGCGTGTCGTGCGACCAGCCGGCCCAGGCCCACCGGCTTCCGCGCTAGCACGV D A H S T L V G R V R V A E G A I V R-GGGGGTCACACGTGGTGGGCCCGGTGGTGATCGGCGCGGGTGCCGTCGTCAGCAACTCCA---------+---------+---------+---------+---------+---------+3120CCCCCAGTGTGCACCACCCGGGCCACCACTAGCCGCGCCCACGGCAGCAGTCGTTGAGGTG S H V V G P V V I G A G A V V S N S S-GTGTCGGCCCGTACACCTCCATCGGGGAGGACTGCCGGGTCGAGGACAGCGCCATCGAGT---------+---------+---------+---------+---------+---------+3180CACAGCCGGGCATGTGGAGGTAGCCCCTCCTGACGGCCCAGCTCCTGTCGCGGTAGCTCAV G P Y T S I G E D C R V E D S A I E Y-ACTCCGTCCTGCTGCGCGGCGCCCAGCTCGAGGGGGCGTCCCGCATCGAGGCGTCCCTCA---------+---------+---------+---------+---------+---------+3240TGAGGCAGGACGACGCGCCGCGGGTCCAGCTCCCCCGCAGGGCGTAGCTCCGCAGGGAGT5 V L L R G A Q V E G A S R I E A S L I-TCGGCCGCGGCGCCGTCGTCGGCCCGGCCCCCCGTCTCCCGCAGGCTCACCGACTGGTGA---------+---------+---------+---------+---------+---------+3300AGCCGGCGCCGCGGCAGCAGCCGGGCCGGGGGGCAGAGGGCGTCCGAGTGGCTGACCACTG R G A V V G P A P R L P Q A H R L V I-TCGGCGACCACAGCAAGGTGTATCTCACCCCATGACCACGACCATCCTCGTCACCGGCGG---------+---------+---------+---------+---------+---------+3360AGCCGCTGGTGTCGTTCCACATAGAGTGGGGTACTGGTGCTGGTAGGAGCAGTGGCCGCCH T T T I L V T G G -G D H S K V Y L T P *acbD ---------SmaIAGCGGGCTTCATTCGCTCCGCCTACGTCCGCCGGCTCCTGTCGCCCGGGGCCCCCGGCGG---------+---------+---------+---------+---------+---------+3420TCGCCCGAAGTAAGCGAGGCGGATGCAGGCGGCCGAGGACAGGGGGCCCCGGGGGCCGCCA G F I R S A Y V R R L L S P G A P G G -CGTCGCGGTGACCGTCCTCGACAAACTCACCTACGCCGGCAGCCTCGCCCGCCTGCACGC---------+---------+---------+---------+---------+---------+3480GCAGCGCCACTGGCAGGAGCTGTTTGAGTGGATGCGGCCGTCGGAGCGGGCGGACGTGCGV A V T V L D K L T Y A G S L A R L H A -GGTGCGTGACCATCCCGGCCTCACCTTCGTCCAGGGCGACGTGTGCGACACCGCGCTCGT---------+---------+---------+---------+---------+---------+3540CCACGCACTGGTAGGGCCGGAGTGGAAGCAGGTCCCGCTGCACACGCTGTGGCGCGAGCAV R D H P G L T F V Q G D V C D T A L V -CGACACGCTGGCCGCGCGGCACGACGACATCGTGCACTTCGCGGCCGAGTCGCACGTCGA---------+---------+---------+---------+---------+---------+3600GCTGTGCGACCGGCGCGCCGTGCTGCTGTAGCACGTGAAGCGCCGGCTCAGCGTGCAGCTD T L A A R H D D I V H F A A E S H V D -CCGCTCCATCACCGACAGCGGTGCCTTCACCCGCACCAACGTGCTGGGCACCCAGGTCCT---------+---------+---------+---------+---------+---------+3660GGCGAGGTAGTGGCTGTCGCCACGGAAGTGGGCGTGGTTGCACGACCCGTGGGTCCAGGAR S I T D S G A F T R T N V L G T Q V L -GCTCGACGCCGCGCTCCGCCACGGTGTGCGCACCTTCGTGCACGTCTCCACCGACGAGGT---------+---------+---------+---------+---------+---------+3720CGAGCTGCGGCGCGAGGCGGTGCCACACGCGTGGAAGCACGTGCAGAGGTGGCTGCTCCAL D A A L R H G V R T F V H V S T D E V -GTACGGCTCCCTCCCGCACGGGGCCGCCGCGGAGAGCGACCCCCTGCTTCCGACCTCGCC---------+---------+---------+---------+---------+---------+3780CATGCCGAGGGAGGGCGTGCCCCGGCGGCGCCTCTCGCTGGGGGACGAAGGCTGGAGCGGY G S L P H G A A A E S D P L L P T S P -GTACGCGGCGTCGAAGGCGGCCTCGGACCTCATGGCGCTCGCCCACCACCGCACCCACGG---------+---------+---------+---------+---------+---------+3840CATGCGCCGCAGCTTCCGCCGGAGCCTGGAGTACCGCGAGCGGGTGGTGGCGTGGGTGCCY A A S K A A S D L M A L A H H R T H G -CCTGGACGTCCGGGTGACCCGCTGTTCGAACAACTTCGGCCCCCACCAGCATCCCGAGAA---------+---------+---------+---------+---------+---------+3900GGACCTGCAGGCCCACTGGGCGACAAGCTTGTTGAAGCCGGGGGTGGTCGTAGGGCTCTTL D V R V T R C S N N F G P H Q H P E K -GCTCATACCGCGCTTCCTGACCAGCCTCCTGTCCGGCGGCACCGTTCCCCTCTACGGCGA---------+---------+---------+---------+---------+---------+3960CGAGTATGGCGCGAAGGACTGGTCGGAGGACAGGCCGCCGTGGCAAGGGGAGATGCCGCTL I P R F L T S L L S G G T V P L Y G D -CGGGCGGCACGTGCGCGACTGGCTGCACGTCGACGACCACGTCAGGGCCGTCGAACTCGT---------+---------+---------+---------+---------+---------+4020GCCCGCCGTGCACGCGCTGACCGACGTGCAGCTGCTGGTGCAGTCCCGGCAGCTTGAGCAG R H V R D W L H V D D H V R A V E L V -BglIICCGCGTGTCGGGCCGGCCGGGAGAGATCTACAACATCGGGGGCGGCACCTCGCTGCCCAA---------+---------+---------+---------+---------+---------+4080GGCGCACAGCCCGGCCGGCCCTCTCTAGATGTTGTAGCCCCCGCCGTGGAGCGACGGGTTR V S G R P G E I Y N I G G G T S L P N -SstICCTGGAGCTCACGCACCGGTTGCTCGCACTGTGCGGCGCGGGCCCGGAGCGCATCGTCCA---------+---------+---------+---------+---------+---------+4140GGACCTCGAGTGCGTGGCCAACGAGCGTGACACGCCGCGCCCGGGCCTCGCGTAGCAGGTL E L T H R L L A L C G A G P E R I V H -CGTCGAGAACCGCAAGGGGCACGACCGGCGCTACGCGGTCGACCACAGCAAGATCACCGC---------+---------+---------+---------+---------+---------+4200GCAGCTCTTGGCGTTCCCCGTGCTGGCCGCGATGCGCCAGCTGGTGTCGTTCTAGTGGCGV E N R K G H D R R Y A V D N E K I T A -NruIGGAACTCGGTTACCGGCCGCGCACCGACTTCGCGACCGCGCTGGCCGACACCGCGAAGTG---------+---------+---------+---------+---------+---------+4260CCTTGAGCCAATGGCCGGCGCGTGGCTGAAGCGCTGGCGCGACCGGCTGTGGCGCTTCACE L G Y R P R T D F A T A L A D T A K W -GTACGAGCGGCACGAGGACTGGTGGCGTCCCCTGCTCGCCGCGACATGACGTCGGGCCGG---------+---------+---------+---------+---------+---------+4320CATGCTCGCCGTGCTCCTGACCACCGCAGGGGACGAGCGGCGCTGTACTGCAGCCCGGCCY E R H E D W W R P L L A A T *ACCGCAACCACCGGCCCCGGCCGGCACACCGCCGCCCGCGGCCGGTGGCCGGCCGGTCAG---------+---------+---------+---------+---------+---------+4380TGGCGTTGGTGGCCGGGGCCGGCCGTGTGGCGGCGGGCGCCGGCCACCGGCCGGCCAGTC* -CGTCCGTGAGCCGGGCGCCGGCCGCCCCGCGGGCCGGCGGCGGTGGACCCCCGGACCACC---------+---------+---------+---------+---------+---------+4440GCAGGCACTCGGCCCGCGGCCGGCGGGGCGCCCGGCCGCCGCCACCTGGGGGCCTGGTGGR G H A P R R G G R P G A A T S G R V V -
EcORIAGTTCCGGCATGAAGACGAATTCGGTGCGCGGCGGCGGCGTTCCGCTCATCTCCTCCAGC---------+---------+---------+---------+---------+---------+4500TCAAGGCCGTACTTCTGCTTAAGCCACGCGCCGCCGCCGCAAGGCGAGTAGAGGAGGTCGL E P M F V F E T R P P P T G S M E E L -AGTGCGTCCACGGCGACCTGCCCCATCGCCTTGACGGGCTGTCTGATGGTGGTCAGGGGA---------+---------+---------+---------+---------+---------+4560TCACGCAGGTGCCGCTGGACGGGGTAGCGGAACTGCCCGACAGACTACCACCAGTCCCCTL A D V A V Q G M A K V P Q R I T T L P -GGGTCGGTGAAGGCCATGAGCGGCGAGTCGTCGAAGCCGACCACCGAGATGTCACCGGGA---------+---------+---------+---------+---------+---------+4620CCCAGCCACTTCCGGTACTCGCCGCTCAGCAGCTTCGGCTGGTGGCTCTACAGTGGCCCTP D T F A M L P S D D F G V V S I D G P -ACCGTGAGACCCCGCCGGCGCGCGGCCCGCACGGCGCCGAGGGCCATCATGTCGCTGGCG---------+---------+---------+---------+---------+---------+4680TGGCACTCTGGGGCGGCCGCGCGCCGGGCGTGCCGCGGCTCCCGGTAGTACAGCGACCGCV T L G R R R A A R V A G L A M M D S A -CACATGACGGCGGTGCAGCCCAGGTCGATCAGCGCGGACGCGGCGGCCTGGCCCCCCTCC---------+---------+---------+---------+---------+---------+4740GTGTACTGCGGCGACGTCGGGTCCAGCTAGTCGCGCCTGCGCCGCCGGACCGGGGGGAGGC M V A T C G L D I L A S A A A Q G G E -SstIAGGGAGAACAGCGAGTGCTGCACGAGCTCCTCGGACTCCCGCGCCGACACTCCCAGGTGC---------+---------+---------+---------+---------+---------+4800TCCCTCTTGTCGCTCACGACGTGCTCGAGGAGCCTGAGGGCGCGGCTGTGAGGGTCCACGL S F L S H Q V L E E S E R A S V G L H -TCCCGCACGCCGGCCCGGAACCCCTCGATCTTCCGCTGCACCGGCACGAAGCGGGCGGGC---------+---------+---------+---------+---------+---------+4860AGGGCGTGCGGCCGGGCCTTGGGGAGCTAGAAGGCGACGTGGCCGTGCTTCGCCCGCCCGE R V G A R F G E I K R Q V P V F R A P -CCGACGGCGAGGCCGACGCGCTCGTGCCCCAGCTCCGCCAGGTGCGCCACGGCCAGGCGC---------+---------+---------+---------+---------+---------+4920GGCTGCCGCTCCGGCTGCGCGAGCACGGGGTCGAGGCGGTCCACGCGGTGCCGGTCCGCGG V A L G V R E H G L E A L H A V A L R -ATCGCGGCCCGGTCGTCCGGGGAGACGAAGGGTGCCTCGATCCGGGGCGAGAACCCGTTC---------+---------+---------+---------+---------+---------+4980TAGCGCCGGGCCAGCAGGCCCCTCTGCTTCCCACGGAGCTAGGCCCCGCTCTTGGGCAAGM A A R D D P S V F P A E I R P S F G N -ACGAGGACGAAGGGCACCTGCCGCTCGTGCAGCCGGCCGTACCGTCCGGTCTCGGCGGTG---------+---------+---------+---------+---------+---------+5040TGCTCCTGCTTCCCGTGGACGGCGAGCACGTCGGCCGGCATGGCAGGCCAGAGCCGCCACV L V F P V Q R E H L R G Y R G T E A T -GTGTCCGCGTGCAGTCCGGAGACGAAGATGATGCCGGACACCCCGCGGTCCACGAGCATC---------+---------+---------+---------+---------+---------+5100CACAGGCGCACGTCAGGCCTCTGCTTCTACTACGGCCTGTGGGGCGCCAGGTGCTCGTAGT D A H L G S V F I I G S V G R D V L M -SmaITCCGTGAGTTCGTCCTCGGTCGAGCCGCCCGGGGTCTGCGTGGCGAGCACGGGCGTGTAG---------+---------+---------+---------+---------+---------+5160AGGCACTCAAGCAGGAGCCAGCTCGGCGGGCCCCAGACGCACCGCTCGTGCCCGCACATCE T L E D E T S G G P T Q T A L V P T Y -CCCTGACGCGTGAGCGCCTGCCCCATCACCTGGGCCAGTGCGGGGAAGAAGGGGTTGTCC---------+---------+---------+---------+---------+---------+5220GGGACTGCGCACTCGCGGACGGGGTAGTGGACCCGGTCACGCCCCTTCTTCCCCAACAGGG Q R T L A Q G M V Q A L A P F F P N D -AGTTCGGGGGTGACCAGTCCGACCAGCTCGGCGCGGCGCTGTCGCGCCGGCTGCTCGTAG---------+---------+---------+---------+---------+---------+5280TCAAGCCCCCACTGGTCAGGCTGGTCGAGCCGCGCCGCGACAGCGCGGCCGACGAGCATCL E P T V L G V L E A R R Q R A P Q E Y -CCCAGCGCGTCCAGTGCGGTCAGCACCGAGTCGCGGGTGCCGGTGGCCACACCGCGCGCA---------+---------+---------+---------+---------+---------+5340GGGTCGCGCAGGTCACGCCAGTCGTGGCTCAGCGCCCACGGCCACCGGTGTGGCGCGCGTG L A D L A T L V S D R T G T A V G R A -SmaICCGTTCAGCACCCGGCTGACCGTGGCCTTGCTGACGCCCGCCCGGGCTGCGATGTCGGCG---------+---------+---------+---------+---------+---------+5400GGCAAGTCGTGGGCCGACTGGCACCGGAACGACTGCGGGCGGGCCCGACGCTACAGCCGCG N L V R S V T A K S V G A R A A I D A -AGCCGCATGGTCATGGCAACGCACTCTACCTGTCGGGGCGTCAGGGCGTGCCCACCGCGC---------+---------+---------+---------+---------+---------+5460TCGGCGTACCAGTAGCGTTGCGTGAGATGGACAGCCCCGCAGTCCCGCACGGGTGGCGCGL R M T M-------- acbEGCGGAACCGGCGGACTGCGGGGCACGGCCCGTCCGCCGCCCACGGACCACGCGCCCGAAA---------+---------+---------+---------+---------+---------+5520CGCCTTGGCCGCCTGACGCCCCGTGCCGGGCAGGCGGCGGGTGCCTGGTGCGCGGGCTTTCGATGGCTGAAAATGCTTGCAGCAAATTGCCGCAACGTCTTTCGGCGGCTTTTCGATCCT---------+---------+---------+---------+---------+---------+5580GCTACCGACTTTTACGAACGTCGTTTAACGGCGTTGCAGAAAGCCGCCGAAAAGCTAGGAGTTACGTTCCTGGCAACCCCGGCGCCGCGCAGAAGCGGTTGGCGTGAGGCGTCCAGACCT---------+---------+---------+---------+---------+---------+5640CAATGCAAGGACCGTTGGGGCCGCGGCGCGTCTTCGCCAACCGCACTCCGCAGGTCTGGACCGCCCGATTCCGGGATCACTCAGGGGAGTTCACAATGCGGCGTGGCATTGCGGCCACCG---------+---------+---------+---------+---------+---------+5700GGCGGGCTAAGGCCCTAGTGAGTCCCCTCAAGTGTTACGCCGCACCGTAACGCCGGTGGCM R R G I A A T A-acbF --------CGCTGTTCGCGGCTGTGGCCATGACGGCATCGGCGTGTGGCGGGGGCGACAACGGCGGAA---------+---------+---------+---------+---------+---------+5760GCGACAAGCGCCGACACCGGTACTGCCGTAGCCGCACACCGCCCCCGCTGTTGCCGCCTTL F A A V A M T A S A C G G G D N G G S-KpnIGCGGTACCGACGCGGGCGGCACGGAGCTGTCGGGGACCGTCACCTTCTGGGACACGTCCA---------+---------+---------+---------+---------+---------+5820CGCCATGGCTGCGCCCGCCGTGCCTCGACAGCCCCTGGCAGTGGAAGACCCTGTGCAGGTG T D A G G T E L S G T V T F W D T S N-ACGAAGCCGAGAAGGCGACGTACCAGGCCCTCGCGGAGGGCTTCGAGAAGGAGCACCCGA---------+---------+---------+---------+---------+---------+5880TGCTTCGGCTCTTCCGCTGCATGGTCCGGGAGCGCCTCCCGAAGCTCTTCCTCGTGGGCTE A E K A T Y Q A L A E G F E K E H P K-AGGTCGACGTCAAGTACGTCAACGTCCCGTTCGGCGAGGCGAACGCCAAGTTCAAGAACG---------+---------+---------+---------+---------+---------+5940TCCAGCTGCAGTTCATGCAGTTGCAGGGCAAGCCGCTCCGCTTGCGGTTCAAGTTCTTGCV D V K Y V N V P F G E A N A K F K N A-CCGCGGGCGGCAACTCCGGTGCCCCGGACGTGATGCGTACGGAGGTCGCCTGGGTCGCGG---------+---------+---------+---------+---------+---------+6000GGCGCCCGCCGTTGAGGCCACGGGGCCTGCACTACGCATGCCTCCAGCGGACCCAGCGCCA G G N S G A P D V M R T E V A W V A D-ACTTCGCCAGCATCGGCTACCTCGCCCCGCTCGACGGCACGCCCGCCCTCGACGACGGGT---------+---------+---------+---------+---------+---------+6060TGAAGCGGTCGTAGCCGATGGAGCGGGGCGAGCTGCCGTGCGGGCGGGAGCTGCTGCCCAF A S I G Y L A P L D G T P A L D D G S-CGGACCACCTTCCCCAGGGCGGCAGCACCAGGTACGAGGGGAAGACCTACGCGGTCCCGC---------+---------+---------+---------+---------+---------+6120GCCTGGTGGAAGGGGTCCCGCCGTCGTGGTCCATGCTCCCCTTCTGGATGCGCCAGGGCGD H L P Q G G S T R Y E G K T Y A V P Q-AGGTGATCGACACCCTGGCGCTCTTCTACAACAAGGAACTGCTGACGAAGGCCGGTGTCG---------+---------+---------+---------+---------+---------+6180TCCACTAGCTGTGGGACCGCGAGAAGATGTTGTTCCTTGACGACTGCTTCCGGCCACAGCV I D T L A L F Y N K E L L T K A G V E-AGGTGCCGGGCTCCCTCGCCGAGCTGAAGACGGCCGCCGCCGAGATCACCGAGAAGACCG---------+---------+---------+---------+---------+---------+6240TCCACGGCCCGAGGGAGCGGCTCGACTTCTGCCGGCGGCGGCTCTAGTGGCTCTTCTGGCV P G S L A E L K T A A A E I T E K T G-GCGCGAGCGGCCTCTACTGCGGGGCGACGACCCGTACTTGGTTCCTGCCCTACCTCTACG---------+---------+---------+---------+---------+---------+6300CGCGCTCGCCGGAGATGACGCCCCGCTGCTGGGCATGAACCAAGGACGGGATGGAGATGCA S G L Y C G A T T R T W F L P Y L Y G-GGGAGGGCGGCGACCTGGTCGACGAGAAGAACAAGACCGTCACGGTCGACGACGAAGCCG---------+---------+---------+---------+---------+---------+6360CCCTCCCGCCGCTGGACCAGCTGCTCTTCTTGTTCTGGCAGTGCCAGCTGCTGCTTCGGCE G G D L V D E K N K T V T V D D E A G-GTGTGCGCGCCTACCGCGTCATCAAGGACCTCGTGGACAGCAAGGCGGCCATCACCGACG---------+---------+---------+---------+---------+---------+6420CACACGCGCGGATGGCGCAGTAGTTCCTGGAGCACCTGTCGTTCCGCCGGTAGTGGCTGCV R A Y R V I K D L V D S K A A I T D A-CGTCCGACGGCTGGAACAACATGCAGAACGCCTTCAAGTCGGGCAAGGTCGCCATGATGG---------+---------+---------+---------+---------+---------+6480GCAGGCTGCCGACCTTGTTGTACGTCTTGCGGAAGTTCAGCCCGTTCCAGCGGTACTACCS D G W N N M Q N A F K S G K V A M M V-TCAACGGCCCCTGGGCCATCGAGGACGTCAAGGCGGGAGCCCGCTTCAAGGACGCCGGCA---------+---------+---------+---------+---------+---------+6540AGTTGCCGGGGACCCGGTAGCTCCTGCAGTTCCGCCCTCGGGCGAAGTTCCTGCGGCCGTN G P W A I E D V K A G A R F K D A G N-ACCTGGGGGTCGCCCCCGTCCCGGCCGGCAGTGCCGGAGAGGGCTCTCCCCAGGGCGGGT6600TGGACCCCCAGCGGGGGCAGGGCCGGCCGTCACGGCCTGTCCCGAGAGGGGTCCCGCCCAL G V A P V P A G S A G Q G S P Q G G W-GGAACCTCTCGGTGTACGCGGGCTCGAAGAACCTCGACGCCTCCTACGCCTTCGTGAAGT6660CCTTGGAGAGCCACATGCGCCCGAGCTTCTTGGAGCTGCGGAGGATGCGGAAGCACTTCAN L S V Y A G S K N L D A S Y A F V K Y-
SstIACATGAGCTCCGCCAAGGTGCAGCAGCAGACCACCGAGAAGCTGAGCCTGCTGCCCACCC---------+---------+---------+---------+---------+---------+6720TGTACTCGAGGCGGTTCCACGTCGTCGTCTGGTGGCTCTTCGACTCGGACGACGGGTGGGM S S A K V Q Q Q T T E K L S L L P T R-GCACGTCCGTCTACGAGGTCCCGTCCGTCGCGGACAACGAGATGGTGAAGTTCTTCAAGC---------+---------+---------+---------+---------+---------+6780CGTGGAGGCAGATGCTCCAGGGCAGGCAGCGCCTGTTGCTCTACCACTTCAAGAAGTTCGT S V Y E V P S V A D N E M V K F F K P-CGGCCGTCGACAAGGCCGTCGAACGGCCGTGGATCGCCGAGGGCAATGCCCTCTTCGAGC---------+---------+---------+---------+---------+---------+6840GCCGGCAGCTGTTCCGGCAGCTTGCCGGCACCTAGCGGCTCCCGTTACGGGAGAAGCTCGA V D K A V E R P W I A E G N A L F E P-PstICGATCCGGCTGCAG---------+---- 6854GCTAGGCCGACGTCI R L Q -序列表(1)一般信息(ⅰ)申请人(A)姓名Hoechst Aktiengesellschaft(B)街道(C)城市Frankfurt(D)联邦州(E)国家德国(F)邮政编码(ZIP)65926(G)电话069-305-3005(H)传真069-35-7175(I)电传(ⅱ)发明名称来自淡青链霉菌的假寡糖生物合成基因的分离及其应用(ⅲ)序列数目13(ⅳ)计算机可读信息(A)介质类型软盘(B)计算机IBM PC兼容机(C)操作系统PC-DOS/MS-DOS(D)软件PatentIn Release#1.0,Version#1.25(EPO)(2)SEQ ID NO:1的信息(ⅰ)序列特征(A)长度22个碱基对(B)类型核酸(C)链型单链(D)拓扑类型线性(ⅱ)分子类型DNA(ⅸ)特征(A)名称/关键词外显子
(B)位置1..22(ⅹⅰ)SEQ ID NO:1的序列描述CSGGSGSSGC SGGSTTCATS GG 22(2)SEQ ID NO:2的信息(ⅰ)序列特征(A)长度24个碱基对(B)类型核酸(C)链型单链(D)拓扑类型线性(ⅱ)分子类型DNA(ⅸ)特征(A)名称/关键词外显子(B)位置1..24(ⅹⅰ)SEQ ID NO:2的序列描述GGGWVCTGGY VSGGSCCGTA GTTG24(2)SEQ ID NO:3的信息(ⅰ)序列特征(A)长度546个碱基对(B)类型核酸(C)链型单链(D)拓扑类型线性(ⅱ)分子类型DNA(基因组)(ⅸ)特征(A)名称/关键词外显子(B)位置1..546(ⅹⅰ)SEQ ID NO:3的序列描述CCCGGGCGGG GCGGGGTTCA TCGGCTCCGC CTACGTCCGC CGGCTCCTGT CGCCCGGGGC 60CCCCGGCGGC GTCGCGGTGA CCGTCCTCGA CAAACTCACC TACGCCGGCA GCCTCGCCCG120CCTGCACGCG GTGCGTGACC ATCCCGGCCT CACCTTCGTC CAGGGCGACG TGTGCGACAC180CGCGCTCGTC GACACGCTGG CCGCGCGGCA CGACGACATC GTGCACTTCG CGGCCGAGTC240GCACGTCGAC CGCTCCATCA CCGACAGCGG TGCCTTCACC CGCACCAACG TGCTGGGCAC300CCAGGTCCTG CTCGACGCCG CGCTCCGCCA CGGTGTGCGC ACCCTCGTGC ACGTCTCCAC360CGACGAGGTG TACGGCTCCC TCCCGCACGG GGCCGCCGCG GAGAGCGACC CCCTGCTCCC420GACCTCGCCG TACGCGGCGT CGAAGGCGGC CTCGGACCTC ATGGCGCTCG CCCACCACCG480CACCCACGGC CTGGACGTCC GGGTGACCCG CTGTTCGAAC AACTACGGCC CGCACCAGTT540CCCGGG 546(2)SEQ ID NO:4的信息(ⅰ)序列特征(A)长度541个碱基对(B)类型核酸(C)链型单链(D)拓扑类型线性(ⅱ)分子类型DNA(基因组)(ⅸ)特征(A)名称/关键词外显子(B)位置1..541(ⅹⅰ)SEQ ID NO:4的序列描述CCCCGGGTGC TGGTAGGGGC CGTAGTTGTT GGAGCAGCGG GTGATGCGCA CGTCCAGGCC 60GTGGCTGACG TGCATGGCCA GCGCGAGCAG GTCGCCCGAC GCCTTGGAGG TGGCATAGGG120GCTGTTGGGG CGCAGCGGCT CGTCCTCCGT CCACGACCCC GTCTCCAGCG AGCCGTAGAC180CTCGTCGGTG GACACCTGCA CGAAGGGGGC CACGCCGTGC CGCAGGGCCG CGTCGAGGAG240TGTCTGCGTG CCGCCGGCGT TGGTCCGCAC GAACGCGGCG GCATCGAGCA GCGAGCGGTC300CACGTGCGAC TCGGCGGCGA GGTGCACGAC CTGGTCCTGG CCGGCCATGA CCCGGTCGAC360CAGGTCCGCG TCGCAGATGT CGCCGTGGAC GAAGCGCAGC CGGGGGTGGT CGCGGACCGG420GTCGAGGTTG GCGAGGTTGC CGGCGTAGCT CAGGGCGTCG AGCACGGTGA CGACGGCGTC480GGGCGGCCCG TCCGGACCGA GGAGGGTGCG GACGTAGTGC GAGCCCATGA ACCCCGCCGC540C541(2)SEQ ID NO:5的信息(ⅰ)序列特征
(A)长度180氨基酸(B)类型氨基酸(C)链型单链(D)拓扑类型线性(ⅱ)分子类型蛋白质(ⅸ)特征(A)名称/关键词PCRstrE.Pep(B)位置1..180(ⅹⅰ)SEQ ID NO:5的序列描述Ala Ala Gly Phe Met Gly Ser His Tyr Val Arg Thr Leu Leu Gly Pro1 5 10 15Asp Gly Pro Pro Asp Ala Val Val Thr Val Leu Asp Ala Leu Ser Tyr20 25 30Ala Gly Asn Leu Ala Asn Leu Asp Pro Val Arg Asp His Pro Arg Leu35 40 45Arg Phe Val His Gly ASp Ile Cys Asp Ala Asp Leu Val Asp Arg Val50 55 60Met Ala Gly Gln Asp Gln Val Val His Leu Ala Ala Glu Ser His Val65 70 75 80Asp Arg Ser Leu Leu Asp Ala Ala Ala Phe Val Arg Thr Asn Ala Gly85 90 95Gly Thr Gln Thr Leu Leu Asp Ala Ala Leu Arg His Gly Val Ala Pro100 105 110Phe Val Gln Val Ser Thr Asp Glu Val Tyr Gly Ser Leu Glu Thr Gly115 120 125Ser Trp Thr Glu Asp Glu Pro Leu Arg Pro Asn Ser Pro Tyr Ala Thr130 135 140Ser Lys Ala Ser Gly Asp Leu Leu Ala Leu Ala Met His Val Ser His145 150 155 160Gly Leu Asp Val Arg Ile Thr Arg Cys Ser Asn Asn Tyr Gly Pro Tyr165 170 175Gln His Pro Gly180(2)SEQ ID NO:6的信息(ⅰ)序列特征(A)长度181氨基酸
(B)类型氨基酸(C)链型单链(D)拓扑类型线性(ⅱ)分子类型蛋白质(ⅸ)特征(A)名称/关键词PCRacbD.Pep(B)位置1..181(ⅹⅰ)SEQ ID NO:6的序列描述Pro Gly Gly Ala Gly Phe Ile Gly Ser Ala Tyr Val Arg Arg Leu Leu1 5 10 15Ser Pro Gly Ala Pro Gly Gly Val Ala Val Thr Val Leu Asp Lys Leu20 25 30Thr Tyr Ala Gly Ser Leu Ala Arg Leu His Ala Val Arg Asp His Pro35 40 45Gly Leu Thr Phe Val Gln Gly Asp Val Cys Asp Thr Ala Leu Val Asp50 55 60Thr Leu Ala Ala Arg His Asp Asp Ile Val His Phe Ala Ala Glu Ser65 70 75 80His Val Asp Arg Ser Ile Thr Asp Ser Gly Ala Phe Thr Arg Thr Asn85 90 95Val Leu Gly Thr Gln Val Leu Leu Asp Ala Ala Leu Arg His Gly Val100 105 110Arg Thr Leu Val His Val Ser Thr Asp Glu Val Tyr Gly Ser Leu Pro115 120 125His Gly Ala Ala Ala Glu Ser Asp Pro Leu Leu Pro Thr Ser Pro Tyr130 135 140Ala Ala Ser Lys Ala Ala Ser Asp Leu Met Ala Leu Ala His His Arg145 150 155 160Thr His Gly Leu Asp Val Arg Val Thr Arg Cys Ser Asn Asn Tyr Gly165 170 175Pro His Gln Phe Pro180(2)SEQ ID NO:7的信息(ⅰ)序列特征(A)长度6854个碱基对(B)类型核酸
(C)链型双链(D)拓扑类型线性(ⅱ)分子类型DNA(基因组)(ⅸ)特征(A)名称/关键词阿卡糖生物合成基因簇(B)位置1..6854(ⅹⅰ)SEQ ID NO:7的序列描述CTGCAGGGTT CCCTGGTGCA CGACCCGCCC CTGGTCGACG ACCAGGGCGC TGTCGCAGAT 60CGCGGCGATG TCGGCGATGT CGTGGCTGGT GAGCACCACG GTGGTGCCCA GTTCCCGGTG 120GGCGCGGTTG ACCAGCCGGC GCACCGCGTC CTTCAGCACC ATGTCGAGGC CGATCGTGGG 180CTCGTCCCAG AACAGCACGG CCGGGTCGTG CAGCAGGCTC GCCGCGATCT CGGCGCGCAT 240GCGCTGTCCG AGGCTGAGCT GCCGCACGGG GGTGGACCCC AGCGCGTCGA TGTCGAGGAG 300GTCCCGGAAC AGGGCGAGGT TGCGCCGGTA GACCGGTCCG GGGATGTCGT AGATGCGGCG 360CAGGATGCGG AAGGAGTCGG GTACCGACAG GTCCCACCAG AGCTGGCTGC GCTGGCCGAA 420GACGACGCCG ATCGTGCGGG CGTTGCGCTG CCGGTGCCGG TAGGGCTCCA GCCCGGCGAC 480CGTGCAGCGG CCGGAGGTGG GGGTCATGAT GCCGGTCAGC ATCTTGATCG TGGTCGACTT 540GCCGGCTCCG TTGGCGCCGA TGTAGGCGGT CTTCGTGCCG GCCGGTATCT CGAAGGAGAC 600GTCGTCGACG GCGCGCACGA CGCGGTACCG GCGGGTCAGG AGGGTGGAGA GGCTGCCGAG 660CAGGCCGGGC TCGCGTTCGG CCAGCCGGAA CTCCTTGACG AGGTGTTCGG CCACGATCAC 720GCGATCACCC GCTCCACGGC CGTCTCCAGC AGGCGCAGGC CCTCGTCGAG CAGCGCCTCG 780TCGAGGGTGA ACGGCGGTGC CAGCCGCAGG ATGTGGCCGC CCAGGGAGGT GCGCAGCCCC 840AGGTCGAGGG CGGTGGTGTA GACGGCCCGG GCGGTCTCGG GGGCGGGTGC CCGGCCGACG 900GCGTCGGTGA CGAACTCCAG GCCCCACAGC AGTCCGAGGC CGCGTACCTG GCCGAGCTGG 960GGGAAGCGGG ACTCCAGGGC GCGCAGCCGC TCCTGGATGA GCTCGCCGAG GACGCGCACG1020CGGTCGATCA GCCGGTCGCG CTCGACGACC TCCAGCGTGG CGCGGGCGGC GGCGATCCCC1080AGTGGGTTGC TCGCGTACGT CGAGGCGTAC GCCCCGGGGT GGCCGCCTCC GGCCTGCGCA1140GCTTCCGCGC GTCCGGCCAG CACGGCGAAG GGGAATCCGC TCGCGGTGCC CTTGGACAGC1200ATCGCCAGGT CCGGCTCGAT GCCGAACAGT TCGCTGGCGA GGAAGGCGCC GGTGCGCCCG1260CCGCCGGTGA GGACCTCGTC GGCGACGAGC AGCACGCCGC CGTCCCGGCA GGCGCCGGCG1320ATCCGCTCCC AGTAGCCGGG GGGCGGCACG ATGACGCCTG CCGCGCCGAG GACGGGTTCG1380AAGACCAGGG CCGAGACGTT GGGCTTCTCC GCGATGTGCC GGCGCACGAG GGTCGCGCAC1440CGCACGTCGC ACGAGGGGTA CTCCAGGCCC AGGGGACAGC GGTAGCCAGT AGGGGCTGTA1500GCCAGCACGC TGTTGCCGCT GAAGGCCTGG TGGCCGATGT CCCAGTGGAC CAGCATCCGG1560GCGCCCATGG TCTTGCCGTG GAAGCCGTGG CGCAGGGCGC AGATCCGGTT GCGGCCCGGC1620GCGGCGGTCG CCTGGACGAC CCGCAGGGCG GCCTCGACCA CCTCCGCGCC GGTGGAGAAG1680AAGGCGTAGG TGTCGAGCTG TTCGGGCAGC AGCCTGGCGA GCAGTTCCAG CAGGCCGGCG1740CGGTCCGGCG TGGCGCTGTC GTGGACGTTC CACAGGCGGC GGGCCTGGGT GGTGAGTGCC1800TCGACGACCT CCGGGTGCCC GTGGCCCAGT GACTGGGTGA GGGTCCCGGC CGCGAAGTCG1860AGGTACTGGT TGCCGTCCAG GTCGGTCAGA ACGGGACCGC GTCCCTCGGC GAAGACCCGG1920CGTCCGTGGA CGGCTTCCTC GGAGGCGCCC GGCGCCAGGT GGCGGGCCTC CCGTGCCAGG1980TGCTGTGTCT GCCGTAAGCC TGTCATCGCT GCCTCTGCTC GTCGGACCGG CTGACGCGAT2040CGCCGGCGAA CTGCGTTGTG GCGCACCACG GTTGGGGCGG CTCGGCGCTG AGTCAAACAC2100TTGAACACAC ACCGCTGCAA GAGTTTGCGG GTTGTTTCAG AAAGTTGTTG CGAGCGGCCC2160CGGCACTCTG GTTGAGTCGA CGTGCTTACG GCGCCACCAC GCCTCACGTT CGAGGAGGGA2220CCTGTGAGAA CAAGCCCGCA GACCGACCCG CTCCCGCGGA GGCCGAGGTG AAGGCCCTGG2280TCCTGGCAGG TGGAACCGGC AGCAGACTGA GGCCGTTCAC CCACACCGCC GCCAAGCAGC2340TGCTCCCCAT CGCCAACAAG CCCGTGCTCT TCTACGCGCT GGAGTCCCTC GCCGCGGCGG2400GTGTCCGGGA GGCCGGCGTC GTCGTGGGCG CGTACGGCCG GGAGATCCGC GAACTCACCG2460GCGACGGCAC CGCGTTCGGG TTACGCATCA CCTACCTCCA CCAGCCCCGC CCGCTCGGTC2520TCGCGCACGC GGTGCGCATC GCCCGCGGCT TCCTGGGCGA CGACGACTTC CTGCTGTACC2580TGGGGGACAA CTACCTGCCC CAGGGCGTCA CCGACTTCGC CCGCCAATCG GCCGCCGATC2640CCGCGGCGGC CCGGCTGCTG CTCACCCCGG TCGCGGACCC GTCCGCCTTC GGCGTCGCGG2700AGGTCGACGC GGACGGGAAC GTGCTGCGCT TGGAGGAGAA ACCCGACGTC CCGCGCAGCT2760CGCTCGCGCT CATCGGCGTG TACGCCTTCA GCCCGGCCGT CCACGAGGCG GTACGGGCCA2820TCACCCCCTC CGCCCGCGGC GAGCTGGAGA TCACCCACGC CGTGCAGTGG ATGATCGACC2880GGGGCCTGCG CGTACGGGCC GAGACCACCA CCCGGCCCTG GCGCGACACC GGCAGCGCGG2940AGGACATGCT GGAGGTCAAC CGTCACGTCC TGGACGGACT GGAGGGCCGC ATCGAGGGGA3000AGGTCGACGC GCACAGCACG CTGGTCGGCC GGGTCCGGGT GGCCGAAGGC GCGATCGTGC3060GGGGGTCACA CGTGGTGGGC CCGGTGGTGA TCGGCGCGGG TGCCGTCGTC AGCAACTCCA3120GTGTCGGCCC GTACACCTCC ATCGGGGAGG ACTGCCGGGT CGAGGACAGC GCCATCGAGT3180ACTCCGTCCT GCTGCGCGGC GCCCAGGTCG AGGGGGCGTC CCGCATCGAG GCGTCCCTCA3240TCGGCCGCGG CGCCGTCGTC GGCCCGGCCC CCCGTCTCCC GCAGGCTCAC CGACTGGTGA3300TCGGCGACCA CAGCAAGGTG TATCTCACCC CATGACCACG ACCATCCTCG TCACCGGCGG3360AGCGGGCTTC ATTCGCTCCG CCTACGTCCG CCGGCTCCTG TCGCCCGGGG CCCCCGGCGG3420CGTCGCGGTG ACCGTCCTCG ACAAACTCAC CTACGCCGGC AGCCTCGCCC GCCTGCACGC3480GGTGCGTGAC CATCCCGGCC TCACCTTCGT CCAGGGCGAC GTGTGCGACA CCGCGCTCGT3540CGACACGCTG GCCGCGCGGC ACGACGACAT CGTGCACTTC GCGGCCGAGT CGCACGTCGA3600CCGCTCCATC ACCGACAGCG GTGCCTTCAC CCGCACCAAC GTGCTGGGCA CCCAGGTCCT3660GCTCGACGCC GCGCTCCGCC ACGGTGTGCG CACCTTCGTG CACGTCTCCA CCGACGAGGT3720GTACGGCTCC CTCCCGCACG GGGCCGCCGC GGAGAGCGAC CCCCTGCTTC CGACCTCGCC3780GTACGCGGCG TCGAAGGCGG CCTCGGACCT CATGGCGCTC GCCCACCACC GCACCCACGG3840CCTGGACGTC CGGGTGACCC GCTGTTCGAA CAACTTCGGC CCCCACCAGC ATCCCGAGAA3900GCTCATACCG CGCTTCCTGA CCAGCCTCCT GTCCGGCGGC ACCGTTCCCC TCTACGGCGA3960CGGGCGGCAC GTGCGCGACT GGCTGCACGT CGACGACCAC GTCAGGGCCG TCGAACTCGT4020CCGCGTGTCG GGCCGGCCGG GAGAGATCTA CAACATCGGG GGCGGCACCT CGCTGCCCAA4080CCTGGAGCTC ACGCACCGGT TGCTCGCACT GTGCGGCGCG GGCCCGGAGC GCATCGTCCA4140CGTCGAGAAC CGCAAGGGGC ACGACCGGCG CTACGCGGTC GACCACAGCA AGATCACCGC4200GGAACTCGGT TACCGGCCGC GCACCGACTT CGCGACCGCG CTGGCCGACA CCGCGAAGTG4260GTACGAGCGG CACGAGGACT GGTGGCGTCC CCTGCTCGCC GCGACATGAC GTCGGGCCGG4320ACCGCAACCA CCGGCCCCGG CCGGCACACC GCCGCCCGCG GCCGGTGGCC GGCCGGTCAG4380CGTCCGTGAG CCGGGCGCCG GCCGCCCCGC GGGCCGGCGG CGGTGGACCC CCGGACCACC4440AGTTCCGGCA TGAAGACGAA TTCGGTGCGC GGCGGCGGCG TTCCGCTCAT CTCCTCCAGC4500AGTGCGTCCA CGGCGACCTG CCCCATCGCC TTGACGGGCT GTCTGATGGT GGTCAGGGGA4560GGGTCGGTGA AGGCCATGAG CGGCGAGTCG TCGAAGCCGA CCACCGAGAT GTCACCGGGA4620ACCGTGAGAC CCCGCCGGCG CGCGGCCCGC ACGGCGCCGA GGGCCATCAT GTCGCTGGCG4680CACATGACGG CGGTGCAGCC CAGGTCGATC AGCGCGGACG CGGCGGCCTG GCCCCCCTCC4740AGGGAGAACA GCGAGTGCTG CACGAGCTCC TCGGACTCCC GCGCCGACAC TCCCAGGTGC4800TCCCGCACGC CGGCCCGGAA CCCCTCGATC TTCCGCTGCA CCGGCACGAA GCGGGCGGGC4860CCGACGGCGA GGCCGACGCG CTCGTGCCCC AGCTCCGCCA GGTGCGCCAC GGCCAGGCGC4920ATCGCGGCCC GGTCGTCCGG GGAGACGAAG GGTGCCTCGA TCCGGGGCGA GAACCCGTTC4980ACGAGGACGA AGGGCACCTG CCGCTCGTGC AGCCGGCCGT ACCGTCCGGT CTCGGCGGTG5040GTGTCCGCGT GCAGTCCGGA GACGAAGATG ATGCCGGACA CCCCGCGGTC CACGAGCATC5100TCCGTGAGTT CGTCCTCGGT CGAGCCGCCC GGGGTCTGCG TGGCGAGCAC GGGCGTGTAG5160CCCTGACGCG TGAGCGCCTG CCCCATCACC TGGGCCAGTG CGGGGAAGAA GGGGTTGTCC5220AGTTCGGGGG TGACCAGTCC GACCAGCTCG GCGCGGCGCT GTCGCGCCGG CTGCTCGTAG5280CCCAGCGCGT CCAGTGCGGT CAGCACCGAG TCGCGGGTGC CGGTGGCCAC ACCGCGCGCA5340CCGTTCAGCA CCCGGCTGAC CGTGGCCTTG CTGACGCCCG CCCGGGCTGC GATGTCGGCG5400AGCCGCATGG TCATGGCAAC GCACTCTACC TGTCGGGGCG TCAGGGCGTG CCCACCGCGC5460GCGGAACCGG CGGACTGCGG GGCACGGCCC GTCCGCCGCC CACGGACCAC GCGCCCGAAA5520CGATGGCTGA AAATGCTTGC AGCAAATTGC CGCAACGTCT TTCGGCGGCT TTTCGATCCT5580GTTACGTTCC TGGCAACCCC GGCGCCGCGC AGAAGCGGTT GGCGTGAGGC GTCCAGACCT5640CCGCCCGATT CCGGGATCAC TCAGGGGAGT TCACAATGCG GCGTGGCATT GCGGCCACCG5700CGCTGTTCGC GGCTGTGGCC ATGACGGCAT CGGCGTGTGG CGGGGGCGAC AACGGCGGAA5760GCGGTACCGA CGCGGGCGGC ACGGAGCTGT CGGGGACCGT CACCTTCTGG GACACGTCCA5820ACGAAGCCGA GAAGGCGACG TACCAGGCCC TCGCGGAGGG CTTCGAGAAG GAGCACCCGA5880AGGTCGACGT CAAGTACGTC AACGTCCCGT TCGGCGAGGC GAACGCCAAG TTCAAGAACG5940CCGCGGGCGG CAACTCCGGT GCCCCGGACG TGATGCGTAC GGAGGTCGCC TGGGTCGCGG6000ACTTCGCCAG CATCGGCTAC CTCGCCCCGC TCGACGGCAC GCCCGCCCTC GACGACGGGT6060CGGACCACCT TCCCCAGGGC GGCAGCACCA GGTACGAGGG GAAGACCTAC GCGGTCCCGC6120AGGTGATCGA CACCCTGGCG CTCTTCTACA ACAAGGAACT GCTGACGAAG GCCGGTGTCG6180AGGTGCCGGG CTCCCTCGCC GAGCTGAAGA CGGCCGCCGC CGAGATCACC GAGAAGACCG6240GCGCGAGCGG CCTCTACTGC GGGGCGACGA CCCGTACTTG GTTCCTGCCC TACCTCTACG6300GGGAGGGCGG CGACCTGGTC GACGAGAAGA ACAAGACCGT CACGGTCGAC GACGAAGCCG6360GTGTGCGCGC CTACCGCGTC ATCAAGGACC TCGTGGACAG CAAGGCGGCC ATCACCGACG6420CGTCCGACGG CTGGAACAAC ATGCAGAACG CCTTCAAGTC GGGCAAGGTC GCCATGATGG6480TCAACGGCCC CTGGGCCATC GAGGACGTCA AGGCGGGAGC CCGCTTCAAG GACGCCGGCA6540ACCTGGGGGT CGCCCCCGTC CCGGCCGGCA GTGCCGGACA GGGCTCTCCC CAGGGCGGGT6600GGAACCTCTC GGTGTACGCG GGCTCGAAGA ACCTCGACGC CTCCTACGCC TTCGTGAAGT6660ACATGAGCTC CGCCAAGGTG CAGCAGCAGA CCACCGAGAA GCTGAGCCTG CTGCCCACCC6720GCACGTCCGT CTACGAGGTC CCGTCCGTCG CGGACAACGA GATGGTGAAG TTCTTCAAGC6780CGGCCGTCGA CAAGGCCGTC GAACGGCCGT GGATCGCCGA GGGCAATGCC CTCTTCGAGC6840CGATCCGGCT GCAG 6854(2)SEQ ID NO:8的信息(ⅰ)序列特征(A)长度240氨基酸(B)类型氨基酸(C)链型单链(D)拓扑类型线性(ⅱ)分子类型蛋白质(ⅸ)特征(A)名称/关键词acbA(B)位置1..240(ⅹⅰ)SEQ ID NO:8的序列描述Val Ile Val Ala Glu His Leu Val Lys Glu Phe Arg Leu Ala Glu Arg1 5 10 15Glu Pro Gly Leu Leu Gly Ser Leu Ser Thr Leu Leu Thr Arg Arg Tyr20 25 30Arg Val Val Arg Ala Val Asp Asp Val Ser Phe Glu Ile Pro Ala Gly35 40 45Thr Lys Thr Ala Tyr Ile Gly Ala Asn Gly Ala Gly Lys Ser Thr Thr50 55 60Ile Lys Met Leu Thr Gly Ile Met Thr Pro Thr Ser Gly Ars Cys Thr65 70 75 80Val Ala Gly Leu Glu Pro Tyr Arg His Arg Gln Arg Asn Ala Arg Thr85 90 95Ile Gly Val Val Phe Gly Gln Arg Ser Gln Leu Trp Trp Asp Leu Ser100 105 110Val Pro Asp Ser Phe Arg Ile Leu Arg Arg Ile Tyr Asp Ile Pro Gly115 120 125Pro Val Tyr Arg Arg Asn Leu Ala Leu Phe Arg Asp Leu Leu Asp Ile130 135 140Asp Ala Leu Gly Ser Thr Pro Val Arg Gln Leu Ser Leu Gly Gln Arg145 150 155 160Met Arg Ala Glu Ile Ala Ala Ser Leu Leu His Asp Pro Ala Val Leu165 170 175Phe Trp Asp Glu Pro Thr Ile Gly Leu Asp Met Val Leu Lys Asp Ala180 185 190Val Arg Arg Leu Val Asn Arg Ala His Arg Glu Leu Gly Thr Thr Val195 200 205Val Leu Thr Ser His Asp Ile Ala Asp Ile Ala Ala Ile Cys Asp Ser210 215 220Ala Leu Val Val Asp Gln Gly Arg Val Val His Gln Gly Thr Leu Gln225 230 235 240(2)SEQ ID NO:9的信息
(ⅰ)序列特征(A)长度429氨基酸(B)类型氨基酸(C)链型单链(D)拓扑类型线性(ⅱ)分子类型蛋白质(ⅸ)特征(A)名称/关键词acbB(B)位置1..429(ⅹⅰ)SEQ ID NO:9的序列描述Met Thr Gly Leu Arg Gln Thr Gln His Leu Ala Arg Glu Ala Arg His1 5 10 15Leu Ala Pro Gly Ala Ser Glu Glu Ala Val His Gly Arg Arg Val Phe20 25 30Ala Glu Gly Arg Gly Pro Val Leu Thr Asp Leu Asp Gly Asn Gln Tyr35 40 45Leu Asp Phe Ala Ala Gly Thr Leu Thr Gln Ser Leu Gly His Gly His50 55 60Pro Glu Val Val Glu Ala Leu Thr Thr Gln Ala Arg Arg Leu Trp Asn65 70 75 80Val His Asp Ser Ala Thr Pro Asp Arg Ala Gly Leu Leu Glu Leu Leu85 90 95Ala Arg Leu Leu Pro Glu Gln Leu Asp Thr Tyr Ala Phe Phe Ser Thr100 105 110Gly Ala Glu Val Val Glu Ala Ala Leu Arg Val Val Gln Ala Thr Ala115 120 125Ala Pro Gly Arg Asn Arg Ile Cys Ala Leu Arg His Gly Phe His Gly130 135 140Lys Thr Met Gly Ala Arg Met Leu Val His Trp Asp Ile Gly His Gln145 150 155 160Ala Phe Ser Gly Asn Ser Val Leu Ala Thr Ala Pro Thr Gly Tyr Arg165 170 175Cys Pro Leu Gly Leu Glu Tyr Pro Ser Cys Asp Val Arg Cys Ala Thr180 185 190Leu Val Arg Arg His Ile Ala Glu Lys Pro Asn Val Ser Ala Leu Val195 200 205Phe Glu Pro Val leu Gly Ala Ala Gly Val Ile Val Pro Pro Pro Gly210 225 220Tyr Trp Glu Arg Ile Ala Gly Ala Cys Arg Asp Gly Gly Val Leu Leu225 230 235 240Val Ala Asp Glu Val Leu Thr Gly Gly Gly Arg Thr Gly Ala Phe Leu245 250 255Ala Ser Glu Leu Phe Gly Ile Glu Pro Asp Leu Ala Met Leu Ser Lys260 265 270G1y Thr Ala Ser Gly Phe Pro Phe Ala Val Leu Ala Gly Arg Ala Glu275 280 285Ala Ala Gln Ala Gly Gly Gly His Pro Gly Ala Tyr Ala Ser Thr Tyr290 295 300Ala Ser Asn Pro Leu Gly Ile Ala Ala Ala Arg Ala Thr Leu Glu Va1305 310 315 320Val Glu Arg Asp Arg Leu Ile Asp Arg Val Arg Val Leu Gly Glu Leu325 330 335Ile Gln Glu Arg Leu Arg Ala Leu Glu Ser Arg Phe Pro Gln Leu Gly340 345 350Gln Val Arg Gly Leu Gly Leu Leu Trp Gly Leu Glu Phe Val Thr Asp355 360 365Ala Val Gly Arg Ala Pro Ala Pro Glu Thr Ala Arg Ala Val Tyr Thr370 375 380Thr Ala Leu Asp Leu Gly Leu Arg Thr Ser Leu Gly Gly His Ile Leu385 390 395 400Arg Leu Ala Pro Pro Phe Thr Leu Asp Glu Ala Leu Leu Asp Glu Gly405 410 415Leu Arg Leu Leu Glu Thr Ala Val Glu Arg Val Ile Ala420 425(2)SEQ ID NO:10的信息(ⅰ)序列特征(A)长度355氨基酸(B)类型氨基酸(C)链型单链(D)拓扑类型线性(ⅱ)分子类型蛋白质(ⅸ)特征(A)名称/关键词acbC(B)位置1..355(ⅹⅰ)SEQ ID NO:10的序列描述Val Lys Ala Leu Val Leu Ala Gly Gly Thr Gly Ser Arg Leu Arg Pro1 5 10 15Phe Thr His Thr Ala Ala Lys Gln Leu Leu Pro Ile Ala Asn Lys Pro20 25 30Val Leu Phe Tyr Ala Leu Glu Ser Leu Ala Ala Ala Gly Val Arg Glu35 40 45Ala Gly Val Val Val Gly Ala Tyr Gly Arg Glu Ile Arg Glu Leu Thr50 55 60Gly Asp Gly Thr Ala Phe Gly Leu Arg Ile Thr Tyr Leu His Gln Pro65 70 75 80Arg Pro Leu Gly Leu Ala His Ala Val Arg Ile Ala Arg Gly Phe Leu85 90 95Gly Asp Asp Asp Phe Leu Leu Tyr Leu Gly Asp Asn Tyr Leu Pro Gln100 105 110Gly Val Thr Asp Phe Ala Arg Gln Ser Ala Ala Asp Pro Ala Ala Ala115 120 125Arg Leu Leu Leu Thr Pro Val Ala Asp Pro Ser Ala Phe Gly Val Ala130 135 140Glu Val Asp Ala Asp Gly Asn Val Leu Arg Leu Glu Glu Lys Pro Asp145 150 155 160Val Pro Arg Ser Ser Leu Ala Leu Ile Gly Val Tyr Ala Phe Ser Pro165 170 175Ala Val His Glu Ala Val Arg Ala Ile Thr Pro Ser Ala Arg Gly Glu180 185 190Leu Glu Ile Thr His Ala Val Gln Trp Met Ile Asp Arg Gly Leu Arg195 200 205Val Arg Ala Glu Thr Thr Thr Arg Pro Trp Arg Asp Thr Gly Ser Ala210 215 220Glu Asp Met Leu Glu Val Asn Arg His Val Leu Asp Gly Leu Glu Gly225 230 235 240Arg Ile Glu Gly Lys Val Asp Ala His Ser Thr Leu Val Gly Arg Val245 250 255Arg Val Ala Glu Gly Ala Ile Val Arg Gly Ser His Val Val Gly Pro260 265 270Val Val Ile Gly Ala Gly Ala Val Val Ser Asn Ser Ser Val Gly Pro275 280 285Tyr Thr Ser Ile Gly Glu Asp Cys Arg Val Glu Asp Ser Ala Ile Glu290 295 300Tyr Ser Val Leu Leu Arg Gly Ala Gln Val Glu Gly Ala Ser Arg Ile305 310 315 320Glu Ala Ser Leu Ile Gly Arg Gly Ala Val Val Gly Pro Ala Pro Arg325 330 335Leu Pro Gln Ala His Arg Leu Val Ile Gly Asp His Ser Lys Val Tyr340 345 350Leu Thr Pro355(2)SEQ ID NO11的信息(ⅰ)序列特征(A)长度325氨基酸(B)类型氨基酸(C)链型单链(D)拓扑类型线性(ⅱ)分子类型蛋白质(ⅸ)特征(A)名称/关键词acbD(B)位置1..325(ⅹⅰ)SEQ ID NO:11的序列描述Met Thr Thr Thr Ile Leu Val Thr Gly Gly Ala Gly Phe Ile Arg Ser1 5 10 15Ala Tyr Val Arg Arg Leu Leu Ser Pro Gly Ala Pro Gly Gly Val Ala20 25 30Val Thr Val Leu Asp Lys Leu Thr Tyr Ala Gly Ser Leu Ala Arg Leu35 40 45His Ala Val Arg Asp His Pro Gly Leu Thr Phe Val Gln Gly Asp Val50 55 60Cys Asp Thr Ala Leu Val Asp Thr Leu Ala Ala Arg His Asp Asp Ile65 70 75 80Val His Phe Ala Ala Glu Ser His Val Asp Arg Ser Ile Thr Asp Ser85 90 95Gly Ala Phe Thr Arg Thr ASn Val Leu Gly Thr Gln Val Leu Leu Asp100 105 110Ala Ala Leu Arg His Gly Val Arg Thr Phe Val His Val Ser Thr Asp115 120 125Glu Val Tyr Gly Ser Leu Pro His Gly Ala Ala Ala Glu Ser Asp Pro130 135 140Leu Leu Pro Thr Ser Pro Tyr Ala Ala Ser Lys Ala Ala Ser Asp Leu145 150 155 160Met Ala Leu Ala His His Arg Thr His Gly Leu Asp Val Arg Val Thr165 170 175Arg Cys Ser Asn Ash Phe Gly Pro His Gln His Pro Glu Lys Leu Ile180 185 190Pro Arg Phe Leu Thr Ser Leu Leu Ser Gly Gly Thr Val Pro Leu Tyr195 200 205Gly Asp Gly Arg His Val Arg Asp Trp Leu His Val Asp Asp His Val210 215 220Arg Ala Val Glu Leu Val Arg Val Ser Gly Arg Pro Gly Glu Ile Tyr225 230 235 240Ash Ile Gly Gly Gly Thr Ser Leu Pro Asn Leu Glu Leu Thr His Arg245 250 255Leu Leu Ala Leu Cys Gly Ala Gly Pro Glu Arg Ile Val His Val Glu260 265 270Asn Arg Lys Gly His Asp Arg Arg Tyr Ala Val Asp His Ser Lys Ile275 280 285Thr Ala Glu Leu Gly Tyr Arg Pro Arg Thr Asp Phe Ala Thr Ala Leu290 295 300Ala Asp Thr Ala Lys Trp Tyr Glu Arg His Glu Asp Trp Trp Arg Pro305 310 315 320Leu Leu Ala Ala Thr325(2)SEQ ID NO12的信息(ⅰ)序列特征(A)长度345氨基酸(B)类型氨基酸(C)链型单链(D)拓扑类型线性(ⅱ)分子类型蛋白质(ⅸ)特征(A)名称/关键词acbE(B)位置1..345(ⅹⅰ)SEQ ID NO:12的序列描述Met Thr Met Arg Leu Ala Asp Ile Ala Ala Arg Ala Gly Val Ser Lys1 5 10 15Ala Thr Val Ser Arg Val Leu Asn Gly Ala Arg Gly Val Ala Thr Gly20 25 30Thr Arg Asp Ser Val Leu Thr Ala Leu Asp Ala Leu Gly Tyr Glu Gln35 40 45Pro Ala Arg Gln Arg Arg Ala Glu Leu Val Gly Leu Val Thr Pro Glu50 55 60Leu Asp Asn Pro Phe Phe Pro Ala Leu Ala Gln Val Met Gly Gln Ala65 70 75 80Leu Thr Arg Gln Gly Tyr Thr Pro Val Leu Ala Thr Gln Thr Pro Gly85 90 95Gly Ser Thr Glu Asp Glu Leu Thr Glu Met Leu Val Asp Arg Gly Val100 105 110Ser Gly Ile Tle Phe Val Ser Gly Leu His Ala Asp Thr Thr Ala Glu115 120 125Thr Gly Arg Tyr Gly Arg Leu His Glu Arg Gln Val Pro Phe Val Leu130 135 140Val Asn Gly Phe Ser Pro Arg Ile Glu Ala Pro Phe Val Ser Pro Asp145 150 155 160Asp Arg Ala Ala Met Arg Leu Ala Val Ala His Leu Ala Glu Leu Gly165 170 175His Glu Arg Val Gly Leu Ala Val Gly Pro Ala Arg Phe Val Pro Val180 185 190Gln Arg Lys Ile Glu Gly Phe Arg Ala Gly Val Arg Glu His Leu Gly195 200 205Val Ser Ala Arg Glu Ser Glu Glu Leu Val Gln His Ser Leu Phe Ser210 215 220Leu Glu Gly Gly Gln Ala Ala Ala Ser Ala Leu Ile Asp Leu Gly Cys225 230 235 240Thr Ala Val Met Cys Ala Ser Asp Met Met Ala Leu Gly Ala Val Arg245 250 255Ala Ala Arg Arg Arg Gly Leu Thr Val Pro Gly Asp Ile Ser Val Val260 265 270Gly Phe Asp Asp ser Pro Leu Met Ala Phe Thr Asp Pro Pro Leu Thr275 280 285Thr Ile Arg Gln Pro Val Lys Ala Met Gly Gln Val Ala Val Asp Ala290 295 300Leu Leu Glu Glu Met Ser Gly Thr Pro Pro Pro Arg Thr Glu Phe Val305 310 315 320Phe Met Pro Glu Leu Val Val Arg Gly Ser Thr Ala Ala Gly Pro Arg325 330 335Gly Gly Arg Arg Pro Ala His Gly Arg340 345(2)SEQ ID NO:13的信息(ⅰ)序列特征(A)长度393氨基酸(B)类型氨基酸(C)链型单链(D)拓扑类型线性(ⅱ)分子类型蛋白质(ⅸ)特征(A)名称/关键词acbF(B)位置1..393(ⅹⅰ)SEQ ID NO:13的序列描述Met Arg Arg Gly Ile Ala Ala Thr Ala Leu Phe Ala Ala Val Ala Met1 5 10 15Thr Ala Ser Ala Cys Gly Gly Gly Asp Asn Gly Gly Ser Gly Thr Asp20 25 30Ala Gly Gly Thr Glu Leu Ser Gly Thr Val Thr Phe Trp Asp Thr Ser35 40 45Asn Glu Ala Glu Lys Ala Thr Tyr Gln Ala Leu Ala Glu Gly Phe Glu50 55 60Lys Glu His Pro Lys Val Asp Val Lys Tyr Val Asn Val Pro Phe Gly65 70 75 80Glu Ala Asn Ala Lys Phe Lys Asn Ala Ala Gly Gly Asn Ser Gly Ala85 90 95Pro Asp Val Met Arg Thr Glu Val Ala Trp Val Ala Asp Phe Ala Ser100 105 110Ile Gly Tyr Leu Ala Pro Leu Asp Gly Thr Pro Ala Leu Asp Asp Gly115 120 125Ser Asp His Leu Pro Gln Gly Gly Ser Thr Arg Tyr Glu Gly Lys Tbr130 135 140Tyr Ala Val Pro Gln Val Ile Asp Thr Leu Ala Leu Phe Tyr Asn Lys145 150 155 160Glu Leu Leu Thr Lys Ala Gly Val Glu Val Pro Gly Ser Leu Ala Glu165 170 175Leu Lys Thr Ala Ala Ala Glu Ile Thr Glu Lys Thr Gly Ala ger Gly180 185 190Leu Tyr Cys Gly Ala Thr Thr Arg Thr Trp Phe Leu Pro Tyr Leu Tyr195 200 205Gly Glu Gly Gly Asp Leu Val Asp Glu Lys Asn Lys Thr Val Thr Val210 215 220Asp Asp Glu Ala Gly Val Arg Ala Tyr Arg Val Ile Lys Asp Leu Val225 230 235 240AsP Ser Lys Ala Ala Ile Thr Asp Ala Ser Asp Gly Trp Asn Asn Met245 250 255Gln Asn Ala Phe Lys Ser Gly Lys Val Ala Met Met Val Asn Gly Pro260 265 270Trp Ala Ile Glu Asp Val Lys Ala Gly Ala Arg Phe Lys Asp Ala Gly275 280 285Asn Leu Gly Val Ala Pro Val Pro Ala Gly Ser Ala Gly Gln Gly Ser290 295 300Pro Gln Gly Gly Trp Asn Leu ger Val Tyr Ala Gly Ser Lys Asn Leu305 310 315 320Asp Ala Ser Tyr Ala Phe Val Lys Tyr Met Ser Ser Ala Lys Val Gln325 330 335Gln Gln Thr Thr Glu Lys Leu Ser Leu Leu Pro Thr Arg Thr Ser Val340 345 350Tyr Glu Val Pro Ser Val Ala Asp Asn Glu Met Val Lys Phe Phe Lys355 360 365Pro Ala Va1 Asp Lys Ala Val Glu Arg Pro Trp Ile Ala Glu Gly Asn370 375 380Ala Leu Phe Glu Pro Ile Arg Leu Gln385 390
权利要求
1.包含阿卡糖生物合成基因的DNA分子。
2.如权利要求1的DNA分子,其包含生物合成阿卡糖和同源假寡糖的基因。
3.如权利要求1或2的DNA分子,其特征在于其基因已按照它们的转录方向和顺序排列,如图3中所绘。
4.如权利要求1、2或3中任一项的DNA分子,其特征在于其显示了一个限制性内切酶切点图谱,如图3所绘。
5.如权利要求1至4中的一项或多项的DNA分子,其特征在于(a)其包含了如表4的一种DNA序列或其部分;或(b)其包含了在严格条件下能与如(a)的DNA分子或其部分杂交的一种DNA序列;或(c)其包含了因为遗传密码简并性而不同于如(a)或(b)的DNA分子的一种DNA序列,此DNA序列允许应用如(a)或(b)的DNA分子或其部分所相应地表达的蛋白质表达。
6.如权利要求5的DNA分子,其特征在于其包含如(a)中提到的序列,即如表4核苷酸1-720的DNA序列(acbA基因)或其部分。
7.如权利要求5的DNA分子,其特征在于其包含如(a)中提到的序列,即如表4核苷酸720-2006的DNA序列(acbB基因)或其部分。
8.如权利要求5的重组DNA分子,其特征在于其包含如(a)中提到的序列,即如表4核苷酸2268-3332的DNA序列(acbC基因)或其部分。
9.如权利要求5的重组DNA分子,其特征在于其包含如(a)中提到的序列,即如表4核苷酸3332-4306的DNA序列(acbD基因)或其部分。
10.如权利要求5的重组DNA分子,其特征在于其包含如(a)中提到的序列,即如表4核苷酸4380-5414的DNA序列(acbE基因)或其部分。
11.如权利要求5的重组DNA分子,其特征在于其包含如(a)中提到的序列,即如表4核苷酸5676-6854的DNA序列(acbF基因)或其部分所示。
12.用于如权利要求5的DNA分子的PCR扩增的寡核苷酸引物。
13.如权利要求12的具有如表1的序列的寡核苷酸引物。
14.包含如权利要求1至11中的一项或多项的DNA分子的载体。
15.如权利要求14的载体,其用于在产生阿卡糖的微生物中去除或改变天然的阿卡糖生物合成基因的方法中。
16.如权利要求15的载体,其特征在于其选自pGM160或相关的载体。
17.如权利要求14的载体,其特征在于其是一种表达载体而且该DNA分子可操纵地连接到一种启动子序列上。
18.如权利要求17的适合在宿主体内表达的载体,其中宿主选自大肠杆菌、枯草芽孢杆菌、链霉菌属、游动放线菌属、小瓶菌属和链孢子囊菌属的菌株,吸水链霉菌柠檬变种、淡青链霉菌以及黑曲霉、产黄青霉和啤酒酵母。
19.如权利要求17的载体,其适合在淡青链霉菌GLA.O或游动放线菌属中表达。
20.用如权利要求1到11中的一项或多项所述的一种DNA分子或如权利要求14到19中的任一项所述的一种载体转化的宿主细胞。
21.如权利要求20的宿主细胞,其特征在于其选自大肠杆菌、枯草芽孢杆菌、链霉菌属、游动放线菌属、小瓶菌属和链孢子囊菌属的菌株,吸水链霉菌柠檬变种、淡青链霉菌以及黑曲霉、产黄青霉和啤酒酵母。
22.如权利要求21的宿主细胞,其特征在于其选自淡青链霉菌GLA.O和游动放线菌属。
23.可以通过表达如权利要求1到5中的一项或多项的基因簇中的基因而获得的蛋白质混合物。
24.可以通过表达如权利要求6到11中的一项或多项所述的一种基因而获得的经过分离的蛋白质。
25.由如权利要求6的DNA编码的蛋白质(acbA基因产物)。
26.由如权利要求7的DNA编码的蛋白质(acbB基因产物)。
27.由如权利要求8的DNA编码的蛋白质(acbC基因产物)。
28.由如权利要求9的DNA编码的蛋白质(acbD基因产物)。
29.由如权利要求10的DNA编码的蛋白质(acbE基因产物)。
30.由如权利要求11的DNA编码的蛋白质(acbF基因产物)。
31.获得如权利要求23至30中的任一项的蛋白质的方法,其特征在于(a)这些蛋白质在一种合适的宿主细胞内表达,并且(b)得以分离。
32.如权利要求31的方法,其特征在于宿主细胞选自大肠杆菌、枯草芽孢杆菌、链霉菌属、游动放线菌属、小瓶菌属和链孢子囊菌属的菌株,吸水链霉菌柠檬变种、淡青链霉菌以及黑曲霉、产黄青霉和啤酒酵母。
33.如权利要求31的方法,其特征在于宿主细胞选自淡青链霉菌GLA.O和游动放线菌属。
34.制备阿卡糖的方法,其特征在于(a)如权利要求6至11中的一项或多项的一种或多种基因用于在合适的宿主细胞内表达,并且(b)从上述宿主细胞的培养基上清液中分离阿卡糖。
35.如权利要求34的制备阿卡糖的方法,其特征在于选用如权利要求21或22中的一项的宿主细胞。
36.制备阿卡糖的方法,其特征在于(a)从天然产生阿卡糖的宿主细胞中去除如权利要求6到11中的一项或多项的一种或多种基因,并且(b)从上述宿主细胞中分离阿卡糖。
37.如权利要求36的制备阿卡糖的方法,其特征在于选用如权利要求22所述的宿主细胞。
38.制备阿卡糖的方法,其特征在于如权利要求34至35中的一项方法与如权利要求36至37中的一项方法联合使用。
39.探查出如权利要求5所述的阿卡糖生物合成基因簇的全部基因的方法,其特征在于(a)应用来源于如权利要求5的DNA分子的杂交探针,通过杂交方法分离毗邻的基因组DNA区域,并且(b)对这些DNA区域进行测序。
40.探查出如权利要求5的阿卡糖生物合成基因簇的全部基因的方法,其特征在于(a)应用来源于如权利要求5的DNA分子的DNA序列的PCR引物和具有一个允许与所应用的载体系统的序列杂交的序列的引物,通过PCR方法将毗邻的基因组DNA区域分离,并且(b)对这些DNA区域进行测序。
41.从除淡青链霉菌GLA.O以外的其它产生阿卡糖的微生物中分离生物合成阿卡糖和同源假寡糖的基因簇的方法,其特征在于由如权利要求5的重组DNA分子开始,(a)制备杂交探针,(b)用这些杂交探针从获自相应微生物的DNA文库中筛选基因组DNA或cDNA,并且(c)分离和鉴定所获克隆。
42.从除淡青链霉菌GLA.O以外的其它产生阿卡糖的微生物中分离生物合成阿卡糖和同源假寡糖的基因簇的方法,其特征在于,由如权利要求5的重组DNA分子开始,(a)制备PCR引物,(b)用这些PCR引物从相应微生物中累积基因组DNA和cDNA的DNA片段,(c)分离和鉴定所累积的片段,并且(d)合适时用于如权利要求41的方法。
43.如权利要求41或42的一种方法,其特征在于微生物选自放线菌目、链霉菌属、游动放线菌属、小瓶菌属和链孢子囊菌属的菌株,吸水链霉菌柠檬变种和淡青链霉菌。
44.如权利要求43的方法,其特征在于微生物特别的选自淡青链霉菌GLA.O和游动放线菌属。
45.淡青链霉菌GLA.O用于获得阿卡糖的用途。
46.淡青链霉菌GLA.O用于制备更高产量的阿卡糖的此菌株的突变株的用途。
47.通过改变内源性阿卡糖生物合成基因的基因表达来提高阿卡糖产量的方法,其中(a)在一个或多个各基因启动子处引入突变,并且(b)所得的阿卡糖产生菌株与出发菌株比较阿卡糖产量。
48.如权利要求47的方法,其特征在于突变为(a)转换(b)删除和/或(c)增加。
全文摘要
本发明涉及以下内容:一种包含阿卡糖和同源假寡糖生物合成基因的重组DNA分子;用于该分子PCR扩增的寡核苷酸引物;经定位于该分子上的基因表达可获得的蛋白质;含有该DNA分子的载体和宿主细胞;该DNA分子所编码的蛋白质;在上述宿主细胞内由上述载体所表达的蛋白质;在相应宿主生物体内通过融入和/或排除特定的基因而产生阿卡糖的方法;探查出阿卡糖生物合成基因的基因簇的全部基因的方法;在除淡青链霉菌GLA.O外的其它生物体中分离类似的基因簇的方法;诱变内源性阿卡糖生物合成基因启动子以增加阿卡糖产量的方法;淡青链霉菌GLA.O用于阿卡糖制备的用途;和以阿卡糖产量为标准优化的淡青链霉菌GLA.O突变株。
文档编号C12N15/52GK1223687SQ97195885
公开日1999年7月21日 申请日期1997年5月30日 优先权日1996年6月7日
发明者H·德克尔 申请人:赫彻斯特股份公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1