Nrps-pks基因簇及其操纵和应用的制作方法

文档序号:3566225阅读:1667来源:国知局
专利名称:Nrps-pks基因簇及其操纵和应用的制作方法
技术领域
本发明涉及编码用于合成聚酮化合物巨内酰胺(macrolactam)BE-14106的生物合 成机构的基因簇的克隆和测序,所述生物合成机构基因簇包含非核糖体肽合成酶(NRPS) 腺苷酰化结构域和模块型聚酮化合物生物合成酶或酶复合物(PKS ;聚酮化合物合酶或酶 复合物)。因此所述生物合成机构包含杂合NRPS-PKS酶系统。所以本发明涉及编码用 于合成巨内酰胺BE-14106的生物合成机构的新型基因和核酸分子,包括涉及BE-14106 生物合成的模块型NRPS-聚酮化合物生物合成酶或酶系统,并且所述生物合成机构包含 模块型NRPS-聚酮化合物合酶酶系统或其复合物(以及其组分)。本发明还涉及这些基 因、核酸分子、机构、酶和酶系统或其复合物在促进BE-14106生物合成中的应用以及在 BE-14106衍生物合成和新型巨内酰胺结构合成中的应用。
背景技术
聚酮化合物或聚酮化合物类结构或聚酮化合物相关结构是由细菌、真菌、植物 和动物合成的天然产物,或形成了上述天然产物的基础,其中许多具有作为药物或作为 农业产品或兽医产品的应用潜力,例如作为抗生素、抗真菌剂、细胞生长抑制剂、抗胆 甾醇血症药、抗寄生物剂、抗球虫剂、动物生长促进剂和天然杀虫剂。革兰氏阳性细菌链霉菌(Streptomyces)是聚酮化合物和聚酮化合物类分子的主要 生产者,并且这些生物体中聚酮化合物生物合成的遗传学和生物化学已得到较好的表征 (McDanielR等;ChemRev.2005Feb ; 105(2) 543-58.)。其它生产者包括其它放线菌。已知有多种不同聚酮化合物类(或聚酮化合物相 关)分子,其中巨内酰胺代表一类。OgasawaraY.等于ChemBiol.2004Jan ; 11(1) 79-98 和 Udwary 等于 Proc Natl Acad Sci USA 2007Jun 19 ; 104(25) 10376-81 已经分别报道 了用于合成巨内酰胺文森他汀(vicenistatin)和萨利内酰胺(salinilactam)的生物合成基因簇。BE_14106(另一名称为GT-32A)是具有如

图1所示化学结构的巨内酰胺抗生 素。其已经从类球形链霉菌(Streptomyces spheroide)菌株中得到分离,并且表明其具 有针对白血病细胞系的细胞毒性作用,以及针对许多所测试生物体的抗微生物活性, 针对H-ras转化BALB3T3细胞系的抗增殖活性和针对混合淋巴细胞反应的抑制活性 (JP4001179, Kojiri 等 1992Journal of Antibiotics, 868-74 ; Takahashi 等 1997,Journal of Antibioticsl86-8)。还已经从未指明的链霉菌属(Streptomyces)物种分离出8-脱氧类似 物(GT-32B),并且显示其与BE-14106共有多种活性(Takahashi等,出处同上)。巨内酰胺化合物如BE-14106可以如下形成用激活的氨基酸激活和启动PKS系 统,以与脂肪酸生物合成类似的方式通过使用聚酮化合物合酶(PKS)重复缩合简单的羧 酸使氨基酸残基(氨酰基链)延伸。因此,与“起始单元”是羧酸残基的简单聚酮化合物 链的情况不同,在这种情况下,PKS的起始单元是由氨基酸和酰基链合成的氨酰基中间 体。PKS可以组织成以循环方式再利用结构域的迭代(iterative)PKS,或组织成含有一串分开模块(separate module)(或重复单元)并且不再利用结构域的模块型(I型)PKS。每 一模块负责聚酮化合物链合成中的一个缩合循环,并且含有各种酶结构域。在BE-14106 的情况下,严格而言,“聚酮化合物”链是杂合氨基酸-聚酮化合物链,或氨酰基链, 但是本文称之为“聚酮化合物链”。因此,除了通过酮酰合酶(KS)结构域催化而 将下一个羧酸缩合到生长中的聚酮化合物链的结构域之外,I型PKS的模块可以含有具有 β-酮还原酶(KR)活性、脱水酶(DH)活性或烯酰基还原酶(ER)活性的结构域,其确 定导入的延伸单元的还原状态。存在于每一模块中的酰基转移酶(AT)和酰基载体蛋白 (ACP)结构域分别负责延伸单元的选择和PKS上生长中的聚酮化合物链的保持。一旦完 成合成,通过硫酯酶(TE)的作用使聚酮化合物链从PKS释放,所述硫酯酶还可能涉及 最终产物的环化。因此,I型PKS表示聚酮化合物生物合成的装配线,其可以通过改变 模块的数量、其对羧酸的特异性,或通过失活或插入活性减少的结构域来操纵(Weissman 禾口 Leadlay,Nat.Rev.Microbiol.2005Dec ; 3(12) 925-36.)。聚酮化合物部分合成并环化 形成大环内酯(macrolactone)(或巨内酰胺)环后,可以经由羟基化、糖基化、甲基化和/ 或酰基化对其修饰。这些修饰对于某些聚酮化合物类产物的生物活性可能是重要的。在 导致本发明的工作中,编码BE-14106NRPS-PKS酶系统(BE-14016 “基因簇”)的基因 已被克隆和测序,并且已经 确定BE-14106NRPS-PKS酶系统含有几个I型PKS,其中各 PKS以模块方式组织,并且由重复单元(模块)组成,下文将对此进行更详细的描述。链霉菌(Streptomyces)中聚酮化合物生物合成的基因通常以簇的形式组织,已经 鉴定出许多这种簇,负责各种天然产物的合成。已经描述了链霉菌(Streptomyces)的几 种大环内酯抗生素基因簇的分子克隆和完成的DNA测序,包括除虫霉素(avermectin)、 苦霄素(pikromycin)禾口雷中白霄素(rapamycin) (Ikeda H., Omura S. (2002) .Biosynthesis, Regulation, and Genetics of Macrolide Production.在 Macrolide Antibiotics Chemistry, Biology and Practice,第二版(由 S.Omura 编),第 286—326 页,Academic Press, New York.) 如上所述,还已经报道了某些巨内酰胺抗生素的生物系统的基因簇。如上指出以及如下所述,本发明基于用于迄今为止不可得到的BE-14106的生物 合成的新型基因簇的鉴定、克隆和测序。克隆基因的分析进一步阐明BE-14106的生物 合成途径。因此,现在提出BE-14106合成的正常过程通过合成起始单元(C17-C25)而 启动,此处酰基部分从1个丙酸酯和2个乙酸酯单元合成。NRPS腺苷酰化结构域激活甘 氨酸分子,并将激活的甘氨酸加载到肽基载体蛋白上,从而继续起始单元的合成。甘氨 酸的氧化脱氨基释放铵,其对C-17羰基进行亲核攻击从而形成C-17亚氨基,该C-17亚 氨基随后被还原成氨基。氨酰基链从肽基载体蛋白的释放导致羧酸的形成,该羧酸随后 被腺苷酰化并与辅酶A(CoA)连接。所得的激活的氨酰基-CoA通过酰基转移酶将转移 至IjPKS的ACP结构域,并通过以下更详细描述的PKS系统中的酶的顺续作用而延伸和修 饰。各模块中的酮酰合酶(KS)酶结构域催化由酰基转移酶(AT)模块确定的合适的 羧酸(例如乙酸酯或丙酸酯)的缩合。具有β _酮还原酶(KR)或脱水酶(DH)活性的 酶结构域确定导入的延伸单元的还原状态。BE-14106的C20-C25烃侧链由起始单元的部分组成,并由巨内酰胺环的环化产
生。最后,巨内酰胺环的进一步修饰经由羟基化发生。BE-14106生物合成基因簇还编码或包括各种调节元件和用于转运所合成分子的蛋白质。由于诸如BE-14106等化合物的化学合成是高度复杂的,在实践中需要使用生物 合成途径,因此需要从合适的宿主分离或纯化所述化合物。如本领域已经意识到的,这 为操纵PKS基因簇的基因从而改变生物合成,并由此导致新型聚酮化合物或聚酮类化合 物或经修饰的聚酮化合物或聚酮类化合物的合成提供了机会。虽然已经描述了修饰许多 PKS基因簇可导致各种新型化合物的合成,但仍然需要并期望增加可获得化合物(特别是 抗生素)的清单,和/或改进现有药物的性质(例如,功效,毒性,水溶性等)。本发明 针对这些目标,并基于BE-14106生物合成基因簇的克隆和DNA测序。这首次提供了这 些抗生素生物合成基因的序列,以及为修饰BE-14106的表达水平或性质和/或生产生物 体,或为获得新型的潜在有用的化合物提供了遗传操纵工具。就此而言,虽然已知抗生 素BE-14106,在链霉菌(Streptomyces)中合成的多种聚酮化合物类分子和相应地多种生物合成基因簇的背景下,鉴定和克隆正确的BE-14106基因簇不是简单的事情,需要序列 分析和探针设计或选择方面的可观努力和独创性。

发明内容
本发明人已经从之前未知的来源,细菌分离株MP28-13,分离和纯化了 BE-14106,据认为细菌分离株MP28-13为链霉菌属(Streptomyces)的新菌株(于2008 年1月25日保藏于德国微生物菌种保藏中心(Deutsche Sammlung von Mikroorganismem und Zellkulturen GmbH (DSMZ)),保藏号DSM21069),该菌株分离自挪威的特隆赫姆峡 湾(Trandheim fjord)中的浅水区沉淀物。该新型微生物的分离使得本发明人能够克隆和 测序完整的BE-14106生物合成基因簇。该簇含有22个基因,这些基因编码推定参与 BE-14106分子的生物合成的蛋白质(参见表1)。为了进行该克隆,使用特别设计的寡核苷酸引物来扩增来自分离株MP28-13的 KS结构域编码区,所述引物代表编码酮基合酶(ketosynthase) (KS)结构域的部分的序 列。一旦获得并表征所扩增的序列,基于复杂深入的生物信息学分析,选择所述序列中 的一个作为探针。使用该探针来筛选为MP28-13构建的基因组文库。分析以此方式鉴 定的粘粒,并对其测序以提供完整的生物合成簇。如图2A和2B所示,已经对所述序列 进行注释,并且说明了 BE-14106生物合成的两部分途径。起始氨酰基单元的生物合成途 径的第一部分示于图2A,第二部分,即氨酰基链的延伸、导致巨内酰胺环形成的所述链 的环化和PKS后修饰,示于图2B。因此,提出了 BE-14106生物合成基因簇编码第一酶 系统或复合物,所述第一酶系统或复合物包含PKS和其它用于合成氨酰基链的酶或蛋白 质;以及用于所述氨酰基链延伸的另外的PKS酶系统或酶复合物,以及用于所述分子的 PKS后修饰的酶、用于调节所述途径的蛋白质,和抗性/外排蛋白(efflux protein)。基于对所述序列的了解,开发了链霉菌属(Streptomyces)物种MP28-13的遗传 操纵的方法。以此方式可以表明,所述新型序列确实负责BE-14106生物合成。另外,对已经鉴定出的新型生物合成基因簇内的功能性DNA序列的操纵,可以 导致合成功能或性质改变(例如改进)的新型分子结构,例如BE-14106衍生物或类似 物,以下将进行更详细的描述。这样,可以操纵BE-14106基因簇,以不仅获得有益的 新BE-14106衍生物或类似物,还可以改进和促进生物合成生产方法(例如改进产率,或生产条件,或扩展可利用的宿主细胞的范围),或更优选提供具有新活性和/或性质的新 型化合物。BE-14106生物合成基因簇的完整编码序列(即,编码BE-14106生物合成基因 簇的完整核苷酸序列)示于SEQ ID No.l。已经显示其含有许多基因或ORF,所述基因 或ORF编码负责BE-14106生物合成所需的活性的各种蛋白质和多肽。 所述生物合成基因簇含有据认为编码正常BE-14106生物合成所需的所有蛋白质 和多肽的基因和ORF。然而,不是所有的编码蛋白质和多肽都在生物合成中起作用,因 此可能不是所有所述簇的编码蛋白质或多肽都是BE-14106生物合成所必需的。各种基因 和ORF可以编码催化一种以上生化反应的酶,或编码不具有催化活性但是参予诸如调节 BE-14106合成过程、或BE-14106转运过程等其它过程的蛋白质。所述酶中的几种是聚酮化合物合酶(PKS),并且虽然尚未确定,但是许多所述 PKS可能物理相连以形成酶复合物。本文将这样的一组或一套酶称为聚酮化合物生物合 成酶系统或聚酮化合物生物合成酶复合物或PKS酶系统或PKS酶复合物,虽然不需要所 述系统/复合物中的所有酶/蛋白质都是实际的聚酮化合物合酶,即具有聚酮化合物合 酶活性;它们可以在BE-14106合成中具有其它活性或功能作用。例如,非核糖体肽合 成酶(NRPS)的离散腺苷酰化结构域(BecL)连同由所述簇编码的一些其它辅助蛋白(例 如,BecJ、BecS> BecU),通过激活一个氨基酸(推定为甘氨酸)而参与用于生物合成 BE-14106的起始单元的合成,以及将其加载到几个BE-14106PKS模块中的一个上以进 一步延伸。其它蛋白质,例如BecO,执行C-8处巨内酰胺的羟基化。包含所述NRPS 结构域和PKS酶的一组酶或一套酶可以称为杂合NRPS-PKS酶系统或酶复合物。由基 因簇编码的蛋白质和多肽的组作为一个整体总称为用于BE-14106生物合成的生物合成机 构。因此在一方面,本发明提供一种核酸分子,所述核酸分子包含(a) SEQ ID No.l所示的核苷酸序列;或(b)与SEQ ID No.l互补的核苷酸序列;或(c)与SEQ ID No.l简并的核苷酸序列;或(d)与SEQ ID No.l具有至少85%序列同一性(优选具有至少87%、90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98 % 或 99 %序列同一性)的核苷酸序 列;或(e) (a) (d)中任一个的一部分,其中所述部分优选包含与BE-14106生物合成 基因或开放阅读框(ORF)对应的序列,或与上述序列互补或与上述序列简并。更具体而言,所述核酸分子编码一种以上多肽(或包含编码一种以上多肽的核 苷酸序列),或包含一种以上在合成聚酮化合物或巨内酰胺分子(特别是合成BE-1406或 其衍生物,或BE-1406相关分子)中具有功能活性的遗传元件,或者其是所述核酸分子 的互补物。这些功能活性可以是酶活性,例如涉及聚酮化合物或巨内酰胺分子合成或转 运或转移(其可以是聚酮化合物链或巨内酰胺环合成,或有助于其的任何步骤,或巨内 酰胺环或聚酮化合物链修饰等)的活性,和/或其可以是调节活性,例如调节涉及合成的 基因(例如转录调节子)或蛋白质的表达,或调节合成过程,和/或其可以是“转运体活 性”。因此,通常所包括的是涉及聚酮化合物或巨内酰胺部分转移或转运(例如将使所合成的分子转运或排出细胞内部或外部)的转运蛋白。尽管根据本发明优选编码所期望产物的核苷酸序列,但还包括的是包含诸如启 动子、启动子_操纵子区域、增强子、其它调节序列等功能性遗传元件的核苷酸序列。 因此,本发明的核酸分子不必包含全部PKS基因簇,而是可以包含基因簇的一部分,例 如编码具有特定功能的多肽或调节序列的部分。其可以包含一种以上基因,和/或调节 序列,和/或一种以上模块,或酶结构域,或非编码功能性遗传元件或编码功能性遗传 元件(例如,控制基因表达、转录、翻译等的元件)。通常而言,本发明的核酸分子会包 含许多不同的可导致聚酮化合物类分子或巨内酰胺分子(例如BE-14106衍生物或经修饰 的BE-14106分子)合成的基因和/或调节序列。下面进一步定义“BE-14106生物合成基因或ORF”,但在以上章节(e)的情况 下简单而言是指编码在BE-14106或BE-14106衍生物或类似物或BE-14106相关分子的 生物合成过程中起作用的蛋白质或多肽的基因或OEF。如上所述,其可以是涉及起始氨 基酸的激活、激活的氨基酸/氨酰基链到PKS酶的转移、聚酮化合物链或其修饰物的产 生的酶,或调节所需的蛋白质、或在其生物合成的任何阶段转运或转移分子所需的蛋白 质。本发明的核酸分子可以是分离的核酸分子(换言之,与在自然中发现时通常与 其在一起的成分分离或分开),或其可以是重组核酸分子或合成核酸分子。如本文其它本分所讨论的,BE-14106生物合成基因簇是较大的核酸分子,含有 编码生物合成BE-14106分子或BE-14106衍生物或类似物或BE-14106相关分子所需的蛋 白质或肽的各种遗传元件或不同基因或ORF。各BE-14106生物合成基因或ORF编码在 BE-14106分子或BE-14106衍生物或类似物或BE-14106相关分子的生物合成中具有功能 或据认为具有所述功能的单独的多肽链(作为选择还可描述为蛋白质)。已经鉴定出22个 所述基因或ORF (参见表1)。如图2A和2B所示,这些中的14个在生物合成BE-14106 中起直接作用。如下面进一步所解释的,据认为或提出某些其它基因或ORF在BE-14106 生物合成中起作用。因此例如,据认为becH和M编码调节子,据认为BecL涉及甘氨酸 激活,据认为BecU介导BecC和PCP BecS的ACP之间的蛋白质相互作用,据认为BecN 涉及排出和/或抗性,据认为BecP辅助巨内酰胺环的环化,并且据认为BecQ涉及起始 氨酰基链从BecC-BecU-BecS复合物的释放。某些所述蛋白质具有酶活性,并因而可以被定义为酶。各种这些酶可以描述为 聚酮化合物合酶(PKS)。所述酶包含一个或多于一个模块,并且各模块可以含有1 6个,优选2个、3个、4个或5个酶结构域,各结构域承担生物合成BE-14106分子或 BE-14106衍生物或类似物或BE-14106相关分子中的不同活性。因此,在这些PKS中, 多个活性位点可以存在于一个多肽或酶中。
例如,酶BecB是PKS,并且具有3个模块;模块1 (图2B中的“加载模块”) 具有单一活性位点或结构域(ACP),模块2和3的每一个(图2B中的模块1和模块2)具 有五个具有KS、AT、DH、KR和ACP活性的活性位点或结构域。由所述基因簇编码的 其它PKS为BecA、BecC> BecD> BecG、BecF禾Π BecE。所述PKS可以含有许多结构 域,每个结构域拥有延伸和/或改变聚酮化合物结构的催化活性。所述聚酮化合物沿所 述蛋白质行进,从而在生长中的聚酮化合物链上依次实施不同的活性。如上讨论,由所述基因簇编码的各种PKS可以相连,从而形成生物合成酶复合物。本发明的核酸分子编码一些,或更优选全部的参与BE-14106分子或BE-14106 衍生物或类似物或BE-14106相关分子的生物合成的多肽或蛋白质(或者本发明的核酸分 子包含编码所述多肽或蛋白质的核苷酸序列)。例如,所述核酸分子可以含有22种基因 或ORF中的每一个,因此编码表1中所示的参与BE-14106分子的生物合成的蛋白质中的 每一个,或者其可以包含核苷酸序列SEQ ID No.l的部分,例如编码由BE-14106生物合 成基因簇内的单一基因或ORF编码的单一蛋白质或多肽的序列。所涵盖的有包含例如至 少 11、12、13、14、15、16、17、18、19、20、21,或至多 2、3、4、5、6、7、8、9、 10、11 (例如 1 21、2 20、3 19、4 18、5 17、6 16、7 15、8 14、 9 13、10 12)种基因或ORF的部分。优选本发明的核酸分子编码所有表1所示的参 与BE-1410 6分子生物合成的蛋白质。作为选择,其可以包含除了 becR和ORF6中的任 一种或多种之外的所有表1中所示的ORF/基因。由于表1列出了所有已经被表征的基 因或0RF,可以将表1中所示的编码所有参与BE-14106分子生物合成的蛋白质的核酸分 子定义为包含BE-14106生物合成基因簇的序列。因此,本发明的核酸分子编码一种或多种参与BE-14106或BE-14106衍生物或 类似物或BE-14106相关分子的生物合成的多肽,或在BE-14106或BE-14106衍生物或 类似物或BE-14106相关分子的合成中具有功能活性的多肽。作为选择,所述核酸分子 可以编码一种或多种其功能等效变体或功能等效物。如上所限定,本发明的核酸分子可 以包含SEQ ID Nal的功能等效变体,并且所述变体包括部分、简并序列或由与SEQ ID No.l的序列同一性百分比限定的同源物。所述功能等效变体编码具有如上所述功能活性 的蛋白质/多肽。所述功能活性可以是酶活性,例如涉及聚酮化合物部分或巨内酰胺分 子的合成或转运或转移(这可以是链或环合成或有助于其的任何步骤,或者生物合成的 任何阶段的修饰等,例如 BecA、BecU、BecB> BecJ> BecK、BecS> BecO> BecD> BecG、BecF> BecE、BecT> BecQ> BecP> BecC> Becl、BecL)的活性;和 / 或其可以 是调节活性,例如调节参与合成的基因或蛋白质的表达,或调节合成过程,例如BecH, BecM ;和/或其可以是“转运体活性”或抗性,例如BecN。因此,通常包括的是涉及 将所合成分子转移入/转移出、转运入/转运出或排入/排出所述细胞的转运蛋白。还 涵盖的是编码一个或多个模块或酶结构域的序列。这些分子的长度可以是至少200个碱基,更优选至少300、500、600、700、 800、 900、 1000、 1500、 2000、 3000、 5000、 10000、 15000、 20000、 30000 或 50000 个 碱基。因此代表性的片段长度可以包括长度为IOObp 18000bp,例如IOObp 3000bp、 200bp 2500bp、 2000bp 8000bp、 3000bp 5000bp、 4000bp 17000bp、 7000bp 12000bp或8000bp IlOOObp的片段。如上所述,在SEQ ID NO 1内已经鉴定出许多 基因和ORF,包含所述基因或ORF的部分或片段代表SEQ ID NO: 1的优选“部分”或 片段。将这些在下表1中列出表 1名称|SEQIDNO: llSEQIDNO l|所编码蛋白质的推定功能ISEQIDNO
_中的起始位置中的终止位置_(核酸/蛋白质)
^^458 —3313 —LuxR-型转录调节子 2/3 “ becA 3664 20412 I型PKS,加载+模块1+模块2 +不E ___完整的模块3__
bed 21832 20744 C 甘氨酸氧化酶/FAD-依赖性氧化还 ___^__
^C 23913—21829 C—I 型 PKS,不完整的模块 3
becU 2450S23945 C阿维链霉菌(S. avermitilis) SAV_606 10/11
___的同源物,推定的NRPS辅助j白__
becB 350SS24505 CI 型 PKS,模块 1、2 和 3 12/13
3675235154 C-推定的酰基辅酶A合酶/连接酶 14/15
becK 3694737918酰基转移酶 16/17
^"3817037934 C—肽基/酰基载体蛋白 18/19
38288—39805—NRPS,腺苷酰化结构域
^gcM4038439788 C -型转录调节子 22/23
4048642060型外排泵 24/25
6ecO 4338842153 C^"o 单加氧酶 26/27
b^D 5355343435 CI 型 PKS,模块 4 &5 ~ 28/29
5450253561 CL-氨基酸酰胺酶/脯氨酸亚氨基肽酶30/31
b^G 60565~54605 C_I 型 PKS,模块 9+ TE 结构域 32/33 “
^gcF 7070660573 CI 型 PKS,模块 7 和 8 34/35
becE156A970754 CI 型 PKS,模块 6 36/37
becT 7624175954 CSimX2-样蛋白,丙酰基 Coa 羧化酶 38/39
___的推定亚基__
becQ 7656377336硫酯酶,II 型 40/41
7748978202PlsC-型磷脂/甘油酰基转移酶 42/43
^Φ [79912[78302 C|三肽基氨基肽酶,分泌的 +44/45在上表中,“C”表示所述蛋白质由互补链编码。因此以上列出的序列代表ΒΕ-14106生物合成基因或ORF。换言之,发现所 述基因/ORF位于ΒΕ-14106生物合成基因簇内,并且编码在链霉菌(Streptomyces)的 ΒΕ-14106生物合成中起作用或提出在链霉菌(Streptomyces)的ΒΕ-14106生物合成中起作 用的蛋白质或多肽。术语“ΒΕ-14106生物合成基因”或“ΒΕ-14106生物合成ORF” 还包括编码与上述蛋白质具有相同活性或功能(例如如本文其他部分所讨论的,具有相 同的高水平的序列同一性)的蛋白质的基因和ORF。作为选择可以将它们描述为“功能 等效变体”或“功能等效物”。通常术语“基因”包括编码蛋白质的ORF,以及诸如启动子等任何调节序列一 起,而术语“ORF”仅指负责编码蛋白质的基因的部分。本文涉及的“功能等效变体”或“功能等效物”保留与它们相关(或衍生它们) 的实体的至少一种功能,例如编码具有基本上相同性质的蛋白质,或展示基本上相同的 调节或其 它功能性质或活性的蛋白质。可以使用本领域已知的标准技术测试所述性质或 活性。
尽管根据本发明优选编码所期望产物的核苷酸序列,但还包括的是包含诸如启 动子、启动子_操纵子区域、增强子、其它调节序列等功能性遗传元件的核苷酸序列。 因此,本发明的核酸分子不必包含整个基因簇,而是可以包含其一部分,例如编码具有 特定功能的多肽的部分或调节序列。其优选包含一种以上的基因和/或调节序列。还涵 盖的是通常小于其并编码一个以上模块、或酶结构域的序列,或非编码功能遗传元件或 编码功能遗传元件(例如控制基因表达、转录、翻译等的元件)的序列。因此,本发明扩展到这样的核酸分子该核酸分子包含选白SEQ IDNO : 2、 4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42 和 44的核苷酸序列(如表1所示,通过参考SEQ IDNo. 1的核苷酸起始和终止位置而确定) 或与上述核苷酸序列互补或与其简并的核苷酸序列。 还提供的是这样的核酸分子该核酸分子包含展示与SEQ ID NO: 2、4、6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42 和 44 中 任一种具有至少 80% (优选至少 85%、87%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%或99% )序列同一性的核苷酸序列或与上述核苷酸序列互补或与其简 并的核苷酸序列。本发明还涉及这样的核酸分子该核酸分子包含编码一种以上选自SEQID NO: 3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、
41、43或45的氨基酸序列的核苷酸序列或与上述核苷酸序列互补或与其简并的核苷酸序 列。还提供的是这样的核酸分子该核酸分子包含编码一种以上展示与SEQ ID NO: 3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、 41、43和45中任一种具有至少80% (优选至少85%、87%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%或99% )序列同一性的氨基酸序列的核苷酸序列或与上 述核苷酸序列互补或与其简并的核苷酸序列。在每一情况下,所述核酸分子优选是如本文定义的BE-14106生物合成基因或 ORF。可以通过任何常规方法评价核苷酸或氨基酸序列同一性。然而,为了确定 序列之间的序列同一性的程度,可使用进行序列多重比对的计算机程序,例如Clustal W (Thompson, J.D 等.,1994, “ CLUSTAL W Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice “ .Nucleic Acids Res 22 4673-4680)。为此目的还可使用对 序列对进行比较和比对的程序,例如ALIGN (E.Myers和W.Miller,1988, “ Optical Alignments in Linear Space",CABIOS 4 11-17)、FASTA(W.R.Pearson 和 D.J.Lipman, 1988, ‘‘ Improved tools for biological sequence analysis ",PNAS 85 2444-2448, 禾口 W.R.Pearson, 1990, " Rapid and sensitive sequence comparison with FASTP and FASTA “ Methods in Enzymology 183 63-98)禾口 空位 BLAST(Altschul,S.F.,等, 1997, “ Gapped BLAST and PSI-BLAST a new generation of protein database search programs “ .Nucleic Acids Res.25 3389-3402)。 另外,位于欧洲生物信息学研究所 (European Bioinformatics institute)的Dali服务器提供蛋白质序列的基于结构的比对(Holm, 1993,J.of Mol.Biology, 233 123-38 ; Holm, 1995,Trends in Biochemical Sciences, 20: 478-480 ; Holm, 1998,Nucleic Acid Research, 26: 316-9)。例如,可以使用来自威斯康星大学的Genetics Computer Group (GCG) Version 10 软件包的BestFit程序确定核苷酸序列同一性。该程序使用Smith和Waterman的局部 同源性算法,使用以下默认值空位形成罚分=50,空位延伸罚分=3,平均匹配= 10,000,平均错配=-9.000。本发明的核苷酸序列可以展示与SEQ ID NO 1具有至少85%、87%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%或 99%序列同一性,并且所述序列 优选编码一些或所有参与BE-14106分子生物合成的蛋白质,或与编码一些或所有参与 BE-14106分子生物合成的蛋白质的序列互补。满足本文定义的%序列同一性标准的核苷 酸序列可以认为是“基本上同一的”序列。本发明的另一方面提供由本文定义的本发明的核酸分子编码的多肽。如上讨论,SEQ ID NO: 1编码几种蛋白质或多肽,因此本发明的这一方面提供 一种多肽,所述多肽包含(a) SEQ ID Nos.3, 5、7、9、11、13、15、17、19、21、23、25、27、29、31、
33、35、37、39、41、43或45的任何一种或多种所示的氨基酸序列的全部或部分;或(b)与 SEQIDNos.3、5、7、9、11、13、15、17、19、21、23、25、27、29、
31、33、35、37、39、41、43或45的任何一种或多种具有至少80%序列同一性的氨基酸 序列的全部或部分。具体而言,所述氨基酸序列可以展示与SEQ ID Nos.3、5、7、9、11、13、15、 17、19、21、23、25、27、29、31、33、35、37、39、41、43 或 45 的任何一种的多肽具 有至少 80%、85%, 87%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 或99%同一性。作为选择,所述氨基酸序列可以展示与SEQ ID Nos.3、5、7、9、11、 13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43 或 45 的任何一 种的多肽具有至少 80%、85%, 87%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%或99%相似性。满足本文%序列同一性或相似性标准的氨基酸(多肽)序列被认为是“基本上同 _■”。本发明的多肽可以是分离的多肽、纯化的多肽或合成的多肽。本文使用术语 “多肽”来包括两个以上氨基酸的任何氨基酸序列,即包括短肽或长度较长的肽(即,多
肽或蛋白质)。上面提到用于确定氨基酸序列同一性的程序,例如可以使用来自威斯康星大学 的Genetics Computer Group (GCG) Version 10软件包的BestFit程序确定氨基酸序列同一性 或相似性。该程序使用Smith和Waterman的局部同源性算法,使用以下默认值空位形 成罚分-8,空位延伸罚分=2,平均匹配=2.912,平均错配=-2.003。SEQ ID Nos.3、 5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43 或 45的任何一种的氨基酸序列(或如上定义“基本上同一的”序列)的“部分”可以包含 至少20个相邻的氨基酸,优选至少30、40、50、70、100、150、200、300、400、500、1,000、2,000、5,000或10,000个相邻的氨基酸。所述多肽,以及优选其部分,根据上述定义具有功能活性,例如在BE-14106或
BE-14106衍生物或其经修饰版本的生物合成中具有酶活性,或具有调节或转送功能活
性。因此所述部分可以对应或包含如上讨论的活性位点或结构域或模块。已经表征了本发明的核苷酸序列和多肽序列,并且已经鉴定出其内的各种功能
区域。所述功能区域形成本发明的不同方面。因此本文定义的“部分”优选对应于至
少一个模块或酶结构域或非编码功能遗传元件或编码功能遗传元件。下表2显示用编码
PKS酶的SEQ ID No.l中鉴定出的ORF的翻译产物鉴定出的功能区域。^t 2BE-14106PKS蛋白中的结构域界限BecA(SEO ID No.5)分子BecA,5582aas蛋白
权利要求
1.一种核酸分子,所述核酸分子包含(a)SEQ ID No.l所示的核苷酸序列;或(b)与SEQID No.l互补的核苷酸序列;或(C)与SEQIDNal简并的核苷酸序列;或(d)与SEQID No.l具有至少85%序列同一性(优选具有至少87%、90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%或99%序列同一性)的核苷酸序列;或(e)(a) (d)中任一个的一部分,其中所述核酸分子编码一种或多种多肽,或与编码一种或多种多肽的核酸分子互 补,或包含在聚酮化合物类分子或巨内酰胺分子的合成中具有功能活性的一种或多种遗 传元件,或与包含在聚酮化合物类分子或巨内酰胺分子的合成中具有功能活性的一种或 多种遗传元件的核酸分子互补。
2.如权利要求1所述的核酸分子,其中所述分子编码用于聚酮化合物类分子或巨内酰 胺分子合成的NRPS-PKS生物合成系统。
3.如权利要求1或2所述的核酸分子,其中所述分子包含SEQIDNos 2、4、6、8、 10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42 或 44 中的任 一个所示的核苷酸序列,或与其互补的核苷酸序列或与其简并的核苷酸序列或与其具有 至少85%序列同一性的核苷酸序列。
4.如权利要求1或2所述的核酸分子,其中所述分子包含的核苷酸序列编码选自SEQ ID No 3、 5、 7、 9、 11、 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33、 35、 37、 39、41、43或45中的一种或多种氨基酸序列,或与所述氨基酸序列具有至少80% (优选 至少 85%、97%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%或 99%) 序列同一性的氨基酸序列。
5.由权利要求1 4中任一项所限定的核酸分子编码的多肽。
6.如权利要求5所述的多肽,其中所述多肽包含(a)SEQ ID Nos.3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43或45中的任何一个或多个所示的氨基酸序列的全部或部分;(b)与SEQIDNos.3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、 33、35、37、39、41、43或45中的任何一个或多个具有至少80%序列同一性,优选至少 80%序列同一'性、85%, 87%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%或99%同一性的氨基酸序列的全部或部分。
7.权利要求1 6中任一项所限定的核酸分子在制备经修饰BE-14106生物合成基因 簇中的用途,所述经修饰BE-14106生物合成基因簇用以制备经修饰的BE-14106分子。
8.制备编码经修饰BE-14106NRPS-PKS系统的核酸分子的方法,所述方法包括对编 码所述BE-14106NRPS-PKS系统的权利要求1 4中任一项所述的核酸分子进行修饰。
9.如权利要求8所述的方法,其中通过对编码一种或多种由所述核酸分子编码的活性 或蛋白质的序列进行导入、突变、缺失、替换或失活,从而对所述核酸分子进行修饰。
10.如权利要求8或9所述的方法,其中对选自以下核苷酸序列的一种或多种核苷酸 序列进行修饰SEQ ID Nos 2、4、6、8、10、12、14、16、18、20、22、24、26、28、 30、32、34、36、38、40、42或44中任一所示的核苷酸序列,或与其互补的核苷酸序列,或与其简并的核苷酸序列,或与其具有至少85%序列同一性的核苷酸序列。
11.如权利要求8 10中任一项所述的方法,其中以以下方式中的一种或多种对所述 核酸分子进行修饰(i)修饰PKS编码序列以修饰加载模块的结构域,从而改变起始单元的性质;(ii)修饰PKS编码序列以改变模块的数量,优选减少模块的数量;(iii)修饰PKS编码序列以修饰AT结构域,从而改变其对延伸单元的特异性;(iv)修饰PKS编码序列以改变脱水酶(DH)或酮还原酶(KR)结构域的活性,优选使 DH或KR结构域失活或缺失;(ν)修饰羟化酶编码序列(becO ; SEQ ID No.26)以使所述羟化酶失活或改变其特异性;(vi)使PKS编码序列缺失或修饰PKS编码序列以使所编码的PKS酶失活;(vii)导入编码糖基化酶的核苷酸序列。
12.如权利要求11所述的方法,其中所述核苷酸分子的修饰包括以下一种或多种(i)使表3中所示的DH结构域编码核苷酸序列缺失或失活;(ii)使表4中所示的KR结构域编码核苷酸序列缺失或失活;(iii)使becA(SEQIDNo.5)或其模块缺失或失活;(iv)使编码表2中所示的核苷酸位置所定义的模块BecB、BecD,BecE, BecF或 BecG的一种或多种核苷酸序列缺失或失活;(ν)使 becO (SEQ ID No.26)缺失或失活。
13.如权利要求8 12中任一项所述的方法,其中所述核酸分子内源性存在于产生 BE-14106或其衍生物的微生物中,并且所述方法在所述微生物中进行。
14.如权利要求13所述的方法,其中所述微生物是2008年1月25日以保藏号 DSM21069保藏在DSMZ的链霉菌(Streptomyces sp),或其产生BE-14106或其衍生物的 突变菌株或经修饰菌株。
15.制备经修饰BE-14016NRPS-PKS系统的方法,所述方法包括在微生物中表达根 据权利要求8 14中任一项获得的经修饰核酸分子。
16.制备聚酮化合物类分子或巨内酰胺分子的方法,所述方法包括在微生物中表达根 据权利要求8 14中任一项获得的经修饰核酸分子。
17.如权利要求16所述的方法,所述方法还包括回收所述聚酮化合物类分子或巨内酰 胺分子。
18.—种微生物,所述微生物含有根据权利要求8 14中任一项获得的经修饰核酸分子。
19.一种以保藏号DSM21069保藏在DSMZ的链霉菌属(Streptomyces)菌株或其突变 菌株或经修饰菌株,所述菌株或其突变菌株或经修饰菌株产生BE-14106或其衍生物。
20.通过权利要求16所述方法产生或能够获得的BE-14106类似物,但不包括 BE-14106的8-脱氧类似物。
21.—种BE-14106类似物,所述BE-14106类似物包含选自下组的任何一个或多个的 修饰,所述组包括3_、5_、7_、11-、13-、15-、17-或 23-羟基 BE-14106,3_、5_、 7_,9_、11-、13-、15-、17-或23-氧代BE-14106或其组合;或包含8-脱氧基团与选自在3、5、7、11、13、15、17或23位导入羟基或氧基或在9位导入氧基的一种或多种 修饰 的组合的类似物。
全文摘要
本发明提供一种核酸分子,所述核酸分子包含(a)SEQ ID No.1所示的核苷酸序列;或(b)与SEQ ID No.1互补的核苷酸序列;或(c)与SEQID No.1简并的核苷酸序列;或(d)与SEQ ID No.1具有至少85%序列同一性(优选具有至少87%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%序列同一性)的核苷酸序列;或(e)(a)~(d)中任一个的一部分,其中所述核酸分子编码一种或多种多肽,或与编码一种或多种多肽的核酸分子互补,或包含在聚酮化合物类分子或巨内酰胺分子的合成中具有活性的一种或多种遗传元件,或与包含在聚酮化合物类分子或巨内酰胺分子的合成中具有活性的一种或多种遗传元件的核酸分子互补。特别是,本发明涉及编码用于合成聚酮化合物巨内酰胺BE-14106的生物合成机构的本发明核酸分子的修饰,包括在微生物中表达经修饰的核酸分子。在某些方面所述修饰包括对编码一种或多种由所述核酸分子编码的活性或蛋白质的序列进行导入、突变、缺失、替换或失活。本发明的其它方面包括含有经修饰和未经修饰核酸的微生物,以及从所述微生物回收所述聚酮化合物类分子或巨内酰胺分子。
文档编号C07G11/00GK102015756SQ200980113971
公开日2011年4月13日 申请日期2009年3月20日 优先权日2008年3月20日
发明者佩尔·布鲁海姆, 克里斯廷·弗勒格斯塔·德格涅斯, 吉尔·科林贝尔, 埃斯彭·夫加尔威克, 汉恩内·约尔根森, 特龙德·厄尔灵·埃林森, 谢尔盖·佐特切夫, 阿瓦尔·斯列塔 申请人:辛文特公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1