制造雄烯二酮的组合物和方法

文档序号:571351阅读:975来源:国知局
专利名称:制造雄烯二酮的组合物和方法
技术领域
本发明总体涉及生物和药物。本发明提供产生提高纯度的雄烯二酮(AD,或4-雄 烯-3,17- 二酮)和例如通过ksdA、CXgA、CXgB、CXgC或cxgD基因或基因活性的缺失或失活 调节其产生的方法。本发明也提供用于生产1,4_雄二烯-3,17-二酮(ADD)和相关途径化 合物(pathway compound)——包括20-(羟甲基)孕-4-烯-3-酮和20-(羟甲基)孕-1, 4- 二烯-3-酮——的方法和组合物,包括编码酶的核酸。
背景技术
雄烯二酮,也称为4-雄烯-3,17- 二酮,是肾上腺和性腺中产生的19-碳留类激 素,作为产生雄性激素睾酮和雌激素雌酮和雌二醇的生物化学途径中的中间步骤。雄烯二酮是男性和女性性激素的共同前体。一些雄烯二酮也被分泌进入血浆,并 可以在外周组织中被转化为睾酮和雌激素。雄烯二酮来源于脱氢表雄酮的转化或来源于 17-羟孕酮。脱氢表雄酮转化为雄烯二酮需要17,20裂合酶;17-羟孕酮需要17,20裂合酶用 于它的合成。产生雄烯二酮的两个反应都直接或间接地依赖于17,20裂合酶。雄烯二酮被 进一步地转化为睾酮或雌激素。雄烯二酮转化为睾酮需要酶,17 β -羟类固醇脱氢酶,而雄 烯二酮转化为雌激素(例如雌酮和雌二醇)需要酶,芳化酶。分支杆菌属(MyCObaCterium)B3683是可以用于从大豆或妥尔油植物留醇产生雄 烯二酮(AD)的细菌菌株。为了用该菌株产生足够纯度的雄烯二酮,先前必须使用多步结晶 以除去污染的1,4_雄二烯-3,17-二酮(ADD)、20-(羟甲基)孕-4-烯-3-酮(在此称为 化合物XI)和20-(羟甲基)孕-1,4-二烯-3-酮(在此称为化合物X2)。这种方案在成本 上是不允许的。通过常规突变发生生成的用于固醇转化的已知菌株,例如MarShek(1972)Applied Microbiology 23 (1) :72_77),没有特定地缺失或敲除产生污染化合物ADD、Xl和X2的基因。在较早的使用分支杆菌属B3683生产AD的中试规模试验中(Marshek (1972)见上),由于通过多步结晶除去这些污染化合物的高成本,产生的大量ADD和化合物Xl及X2 限制了这种方法的经济效用。因此,需要经济地产生纯度显著提高的AD。发明概述本发明提供用于制造雄烯二酮(4-雄烯-3,17-二酮或AD)的方法,包括体 内方法,包括产生污染化合物1,4_雄二烯-3,17-二酮(ADD)、化合物20-(羟甲基) 孕-4-烯-3-酮(称为化合物XI)和20-(羟甲基)孕-1,4-二烯-3-酮(称为化合物X2) 的基因的特定失活。在一个实施方式中,本发明提供基本没有杂质ADD、X1和X2的、相对纯 的雄烯二酮(AD)溶液。本发明也提供用于生产1,4_雄二烯-3,17-二酮(ADD)和相关途径化合物——包 括20-(羟甲基)孕-4-烯-3-酮和20-(羟甲基)孕-1,4-二烯-3-酮——的方法和组合 物,包括编码酶的核酸。本发明也提供用于制造AD的原核系统例如分支杆菌(Mycobacterial)系统,其缺 少产生污染化合物ADD、Xl和X2的活性基因。在可选的实施方式中,在本发明的原核系统 和细胞中,只有这些相关基因被影响,即,只有产生“污染”化合物ADD、X1和X2的基因的活 性被降低或消除(在目的是制备更纯、或相对纯或基本纯的AD情况下的“污染”)。在可选 的实施方式中,产生“污染”化合物ADD、X1和X2的基因的活性在蛋白质和/或核酸例如基 因或转录(mRNA,信息)水平上被降低或消除。例如,产生污染化合物ADD、X1和X2的基因 可以被部分地或完全地敲除;产生污染化合物ADD、Xl和X2的基因的转录调控序列(例如 启动子、增强子)可以被部分地或完全地丧失能力;经过其转录调控序列(例如启动子、增 强子)打开产生污染化合物ADD、X1和X2的基因的转录的反式作用因子可以被部分地或完 全地丧失能力;产生污染化合物ADD、Xl和X2的基因的基因可以被突变,例如,通过碱基改 变、插入破裂(insertional disruptions)、缺失等等;它们转录的过程或表达可以被部分 地或完全地阻断,和/或它们表达的多肽酶的活性可以被部分地或完全地阻断。在一个实 施方式中,本发明针对的产生污染化合物ADD、Xl和X2的基因包括或由ksdA、cxgA, cxgB、 cxgC和/或cxgD组成。因此,在可选的实施方式中,本发明提供这样的方法和组合物(例 如细胞、原核系统),其中编码酶的ksdA、cxgA, cxgB, cxgC和/或cxgD的序列被修饰(例 如丧失能力),它们的转录调控序列被修饰(例如,被抑制),它们的反式作用因子被修饰 (例如丧失能力),它们的转录物(mRNAs)被修饰和/或它们编码的酶被修饰。在可选的实施方式中,本发明提供产生提高纯度(例如,基本纯的)的雄烯二酮 (AD)和调节AD产生的组合物和方法,例如通过缺失或失活基因ksdA、cxgA, cxgB、cxgC或 cxgD ;它们的转录调控序列、反式作用因子或转录物和/或它们编码的酶。本发明也提供编码产生1,4_雄二烯-3,17-二酮(ADD)和相关途径化合物Xl及 X2的蛋白质的分离、合成或重组的核酸,其包括包含这些核酸的表达载体(例如,载体、质 粒)和细胞。在可选的实施方式中,本发明的方法旨在避免(用于AD表达和制造的)整个宿主 生物例如原核宿主细胞诸如分支杆菌中引入随机突变,该随机突变可能导致宿主细胞的性 能或强壮性降低。本发明首先提供产生上述杂质即污染化合物ADD、X1和X2所需的核酸例如基因的 组合、和宿主细胞中的基因组合以及所生成的编码的重组蛋白质。
在可选实施方式中,本发明的核酸例如基因也可以用于生产ADD、Xl和X2或增加 ADD、X1和X2的生产,其作为甾族中间体(steroidal)也具有商业价值。本发明提供分离、合成或重组的核酸,其包括(a)编码多肽的核酸序列,所述序列具有与SEQ ID NO 1至少大约75%、76%、 77%,78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 92%、93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100% )序列同一性,和 所述多肽具有KsdA多肽或3-留酮-Δ 1-脱氢酶活性;(b)编码多肽和其酶活性片段的核酸序列,所述多肽具有SEQ IDNO 2中所列的氨 基酸序列,并具有KsdA多肽或3-甾酮-Δ 1-脱氢酶活性;(c)编码多肽的核酸序列,所述序列具有与SEQ ID NO 9至少大约75%、76%、 77%,78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 92%、93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100% )序列同一性,和 所述多肽具有CxgA多肽或乙酰辅酶A-乙酰转移酶/硫解酶活性;(d)编码多肽和其酶活性片段的核酸序列,所述多肽具有SEQ IDNO 10或SEQ ID NO=Il中所列的氨基酸序列,并具有CxgA多肽或乙酰辅酶A-乙酰转移酶/硫解酶活性;(e)编码多肽的核酸序列,所述序列具有与SEQ ID NO 17至少大约75%、76%、 77s 78%,79%,80%,81%,82%,83%,84%,85%,86%,87%,88%,89%,90%,91%, 92%、93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100% )序列同一性,和 所述多肽具有CxgB多肽或DNA-结合蛋白活性;(f)编码多肽和其DNA-结合活性片段的核酸序列,所述多肽具有SEQ ID NO :18中 所列的氨基酸序列,并具有CxgB多肽或DNA-结合蛋白活性;(g)编码多肽的核酸序列,所述序列具有与SEQ ID NO 24至少大约75%、76%、 77%,78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 92%、93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100% )序列同一性,和 所述多肽具有CxgC多肽或DNA-结合蛋白活性;(h)编码多肽和其酶活性片段的核酸序列,所述多肽具有SEQ IDNO 25中所列的 氨基酸序列,并具有CxgC多肽或酰基-辅酶A脱氢酶/FadE活性;(i)编码多肽的核酸序列,所述序列具有与SEQ ID NO :31至少大约75%、76%、 77%,78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 92%、93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100% )序列同一性,和 所述多肽具有CxgD多肽或TetR样调节蛋白/KstR活性;(j)编码多肽和其酶活性片段的核酸序列,所述多肽具有SEQ IDNO 32中所列的 氨基酸序列,并具有CxgD多肽或TetR样调节蛋白/KstR活性;(k) (a)至(j)任一的核酸,其中序列同一性通过序列比较算法分析或通过视觉观 察测定;(1) (k)的核酸,其中所述序列比较算法是BLAST版本2. 2. 2算法,其中过滤设置 (filtering setting)设定为 blastall-p blastp-d" nr pataa" -F F和所有其它选项设 定为默认,或者是使用默认参数的FASTA版本3. 0t78 ;(m)在严格条件下与由 SEQ ID NO =USEQ ID NO :9、SEQ IDNO 17、SEQ ID NO 24和/或SEQ ID NO 31组成的核酸杂交的核酸序列,且所述核酸分别编码具有KsdA多肽或 3-甾酮-Δ 1-脱氢酶活性、CxgA多肽或乙酰辅酶A-乙酰转移酶/硫解酶活性、CxgB多肽或 DNA-结合蛋白质活性、CxgC多肽或酰基-辅酶A脱氢酶/FadE活性、或CxgD多肽或TetR 样调节蛋白/KstR活性,其中所述严格条件包括包含在约65 °C的温度、在0. 2X SSC中洗涤约15分钟的洗 涤步骤;(n) (a)至(m)任一的核酸,其编码缺少信号序列或蛋白原序列、或缺少同源启动 子序列的多肽;(ο) (a)至(η)任一的核酸,其还包括编码异源氨基酸序列的序列,或所述核酸还 包括异源核苷酸序列;(ρ) (ο)的核酸,其中所述异源氨基酸序列包括或由编码异源(前导)信号序列、或 标记物或表位的序列组成,或者所述异源核苷酸序列包括异源启动子序列;(q) (ο)或(ρ)的核酸,其中所述异源核酸序列编码异源(前导)信号序列,该信号 序列包括或由靶向内质网(ER)或内膜或靶向细菌内质网(ER)或内膜系统的N-端和/或 C-端突出组成,或所述异源序列编码限制位点;(r) (ρ)的核酸,其中所述异源启动子序列包括或由以下组成组成型或诱导型启 动子,或细胞型特异性启动子,或植物特异性启动子、或细菌特异性启动子或分支杆菌属特 异性启动子;(s) (a)至(r)的任一的核酸,其中所述酶活性是耐热的;或(t)与(a)至(S)的任一的核苷酸序列完全互补的核酸序列。本发明提供探针,其用于分离或鉴定编码KsdA、CXgA、CXgB、CXgC或CxgD的核酸, 所述核酸包括本发明的核酸。本发明提供载体、表达盒或克隆载体(a)包括本发明的核酸(多核苷酸)序列; 或,(b)(a)的载体、表达盒或克隆载体,其包括或包含在以下之中病毒载体、质粒、噬菌 体、噬粒、黏粒、F黏粒、细菌噬菌体、人工染色体、腺病毒载体、反转录病毒载体或腺相关病 毒载体;或细菌人工染色体(BAC)、质粒、细菌噬菌体Pl-来源的载体(PAC)、酵母人工染色 体(YAC)或哺乳动物人工染色体(MAC)。本发明提供宿主细胞或转化细胞(a)包括本发明的核酸(多核苷酸),或本发 明的载体、表达盒或克隆载体;或,(b)(a)的宿主细胞或转化细胞,其中所述细胞是细菌细 胞、哺乳动物细胞、真菌细胞、酵母细胞、昆虫细胞或植物细胞。本发明提供转基因非人动物(a)包括本发明的核酸(多核苷酸)的序列,或本发 明的载体、表达盒或克隆载体;或本发明的宿主细胞或转化细胞;或(b) (a)的转基因非人 动物,其中所述动物是小鼠、大鼠、山羊、兔子、绵羊、猪或牛。本发明提供转基因的植物或种子(a)包括本发明的核酸(多核苷酸)的序列,或 本发明的载体、表达盒或克隆载体;或本发明的宿主细胞或转化细胞;(b) (a)的转基因植 物,其中所述植物是玉米植物、高粱植物、马铃薯植物、番茄植物、小麦植物、含油种子植物、 油菜籽植物、大豆植物、稻植物、大麦植物、草、棉籽、棕榈、芝麻植物、花生植物、向日葵植物 或烟草植物;(a)的转基因种子,其中所述种子是玉米种子、小麦粒、含油种子、油菜籽、大 豆种子、棕榈仁、向日葵种子、芝麻种子、稻米、大麦、花生、棉籽、棕榈、花生、芝麻种子、向日葵种子、或烟草植物种子。本发明提供反义寡核苷酸,其包括与本发明核酸(多核苷酸)序列互补或能够在 严格条件下与本发明核酸(多核苷酸)序列杂交的核酸序列。本发明提供抑制细胞中信息(mRNA)的翻译的方法,其包括给予细胞反义寡核苷 酸或在细胞中表达反义寡核苷酸,所述反义寡核苷酸包括本发明的核酸(多核苷酸)序列。本发明提供分离的、合成的或重组的多肽,其包括(a)多肽和其酶活性片段,所述多肽具有与SEQ ID NO 2至少大约75%、76%、 77%,78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 92%、93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100% )序列同一性,并 具有ksdA多肽或3-留酮-Δ 1-脱氢酶活性;(b)多肽和其酶活性片段,所述多肽具有与SEQ ID NO 10或SEQID NO 11至少大 约 75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、 90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100% )序列 同一性,并具有cxgA多肽或乙酰辅酶A-乙酰转移酶/硫解酶活性;(c)多肽和其酶活性片段,所述多肽具有与SEQ ID NO 18至少大约75%、76%、 77%,78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 92%、93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100% )序列同一性,并 具有cxgB多肽或DNA-结合蛋白活性;(d)多肽和其酶活性片段,所述多肽具有与SEQ ID NO 25至少大约75%、76%、 77%,78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 92%、93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100% )序列同一性和具 有cxgC多肽或DNA-结合蛋白活性;(e)多肽和其酶活性片段,所述多肽具有与SEQ ID NO 32至少大约75%、76%、 77%,78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 92%、93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100% )序列同一性和具 有cxgD多肽或TetR样调节蛋白/KstR活性;(f) (a)至(e)任一的多肽,其中所述序列同一性通过序列比较算法分析或通过视 觉观察测定;(g) (f)的多肽,其中所述序列比较算法是BLAST版本2. 2. 2算法,其中过滤设置设 SSblastall-p blastp-d" nr pataa" -F F和所有其它选项设置为默认,或者是使用默 认参数的FASTA版本3. 0t78 ;(h)本发明的任一的核酸编码的多肽;(i) (a)至(h)任一的多肽,其缺少信号序列或蛋白原序列;(j) (a)至(i)的任一多肽,其还包括异源氨基酸序列;(k) (j)的多肽,其中所述异源氨基酸序列包括或由异源(前导)信号序列、或标记 物或表位组成;(1) (j)的多肽,其中所述异源(前导)信号序列包括或由以下组成靶向内质网 (ER)或内膜或靶向细菌内质网(ER)或内膜系统的N-端和/或C-端突出;(m) (a)至⑴的任一多肽,其中所述酶活性是耐热的;或
17
(n) (a)至(m)的任一多肽,其中所述多肽是糖基化的,或所述多肽包括至少一个 糖基化位点,(ii)(i)的多肽,其中所述糖基化是N-连接的糖基化或者0-连接的糖基化; (iii) (i)或(ii)的多肽,其中在酵母细胞中被表达后,所述多肽被糖基化。本发明提供包括本发明多肽的蛋白质制品,其中所述蛋白质制品包括液体、固体 或凝胶。本发明提供异源二聚体(a)包括本发明的多肽和第二结构域;或(b) (a)的异源 二聚体,其中所述第二结构域是多肽和所述异源二聚体是融合蛋白,或者所述第二结构域 是表位或标记物。本发明提供包括本发明多肽的同型二聚体。本发明提供固定化多肽(a)其中所述多肽包括本发明的多肽;或(b) (a)的固定 化多肽,其中所述多肽被固定在细胞、金属、树脂、聚合物、陶瓷、玻璃、微电极、石墨颗粒、珠 子、凝胶、平板、阵列或毛细管上。本发明提供分离的、合成的或重组的抗体(a)其与本发明的多肽特异性结合; 或,(b)(a)的分离的、合成的或重组的抗体,其中所述抗体是单克隆抗体或多克隆抗体、或 者其抗原结合片段。本发明提供包括本发明抗体的杂交瘤。本发明提供阵列,其包括本发明的固定化核酸、多肽和/或抗体,或者本发明的核 酸、多肽(包括分离的、合成的或重组的形式和融合蛋白)和/或抗体的组合。本发明提供分离或鉴定具有KsdA、CxgA, CxgB, CxgC或CxgD活性的多肽的方法, 其包括(a)提供本发明的抗体;(b)提供包括多肽的样品;和(c)使步骤(b)的样品和步骤(a)的抗体在其中所述抗体可以与所述多肽特异性 结合的条件下接触,由此分离或鉴别具有KsdA、CxgA, CxgB, CxgC或CxgD活性的多肽。本发明提供制备抗KsdA、CxgA, CxgB, CxgC或CxgD抗体的方法,其包括给与非人 动物以下(a)本发明的编码KsdA、CXgA、CXgB、CXgC或CxgD的核酸(多核苷酸)序列,其量 足以产生体液免疫反应,由此制备抗KsdA、CxgA, CxgB, CxgC或CxgD抗体;或(b)本发明的多肽,其量足以产生体液免疫反应,由此制备抗KsdA、CxgA, CxgB, CxgC或CxgD抗体。本发明提供生产重组多肽的方法,其包括(A) (a)提供可操作地连接到启动子的核酸,其中所述核酸包括本发明的核酸(多 核苷酸)序列;和(b)在允许多肽表达的条件下表达步骤(a)的核酸,由此生产重组多肽; 或(B) (A)的方法,还包括用步骤(a)的核酸转化宿主细胞,随后表达步骤(a)的核 酸,由此在转化细胞中生产重组多肽。本发明提供鉴定具有KsdA、CxgA, CxgB, CxgC或CxgD活性的多肽的方法,其包括(a)提供本发明的多肽;(b)提供KsdA、CxgA, CxgB, CxgC或CxgD结合蛋白或底物;和(c)使所述多肽与步骤(b)的底物接触并检测底物量的减少或反应产物量的增 加,其中底物量的减少或反应产物量的增加检测具有KsdA、CxgA, CxgB, CxgC或CxgD活性的多肽。本发明提供鉴定KsdA、CXgA、CXgB、CXgC或CxgD结合蛋白或底物的方法,其包括(a)提供本发明的 KsdA、CxgA, CxgB, CxgC 或 CxgD 多肽;(b)提供试验结合蛋白或底物;和(c)使步骤(a)的KsdA、CxgA, CxgB, CxgC或CxgD多肽与步骤(b)的试验结合蛋 白或底物接触,并检测结合蛋白或底物量的减少或反应产物量的增加,其中底物量的减少 或反应产物量的增加鉴定试验底物为KsdA、CxgA, CxgB, CxgC或CxgD结合蛋白或底物。本发明提供测定试验化合物是否与KsdA、CxgA, CxgB, CxgC或CxgD多肽特异性地 结合的方法,其包括(a)在容许核酸翻译为多肽的条件下表达核酸或包括所述核酸的载体,其中所述 核酸具有本发明的核酸(多核苷酸)序列;(b)提供试验化合物;(c)使所述KsdA、CxgA, CxgB, CxgC或CxgD多肽与所述试验化合物接触;和(d)测定步骤(b)的试验化合物是否与所述KsdA、CxgA, CxgB, CxgC或CxgD多肽 特异性地结合。本发明提供测定试验化合物是否与KsdA、CxgA, CxgB, CxgC或CxgD多肽特异性地 结合的方法,其包括(a)提供本发明的 KsdA、CxgA, CxgB, CxgC 或 CxgD 多肽;(b)提供试验化合物;(c)使多肽与试验化合物接触;和(d)测定步骤(b)的试验化合物是否特与所述KsdA、CxgA, CxgB, CxgC或CxgD多 肽特异性地结合。本发明提供鉴定KsdA、CxgA, CxgB, CxgC或CxgD多肽的调节剂的方法,其包括(A) (a)提供本发明的 KsdA、CxgA, CxgB, CxgC 或 CxgD 多肽;(b)提供试验化合物;(c)骤(a)的多肽与步骤(b)的试验化合物接触并测量所述KsdA、CxgA, CxgB, CxgC或CxgD多肽的活性,其中与在试验化合物不存在下的活性相比,在试验化合物存在 下测量的KsdA、CxgA, CxgB, CxgC或CxgD活性的变化提供所述试验化合物调节所述KsdA、 CxgA, CxgB, CxgC或CxgD活性的测定结果;(B) (A)的方法,其中所述KsdA、CXgA、CXgB、CXgC或CxgD活性通过以下测量提供 KsdA、CxgA, CxgB, CxgC或CxgD底物,和检测所述底物量的减少或反应产物量的增加、或所 述底物量的增加或反应产物量的减少;(c) (B)的方法,其中与没有所述试验化合物的情况下所述底物或所述反应产物的 量相比较,具有所述试验化合物的情况下所述底物量的减少或所述反应产物量的增加鉴定 所述试验化合物为KsdA、CxgA, CxgB, CxgC或CxgD活性的激活剂;或(d) (B)的方法,其中与没有试验化合物的情况下底物或反应产物的量相比较,具 有试验化合物的情况下底物量的增加或反应产物量的减少鉴定试验化合物为KsdA、CxgA, CxgB, CxgC或CxgD活性的抑制剂。本发明提供计算机系统,其包括
19
(a)处理器和数据储存设备或机器可读存储设备,其中所述数据储存设备在其上 已经储存多肽序列或核酸序列,其中所述多肽序列包括本发明的多肽(氨基酸)序列,由本 发明的核酸(多核苷酸)序列编码的多肽;(b) (a)的计算机系统,还包括序列比较算法和在其上储存有至少一个参比序列的 数据储存设备或机器可读存储设备;(c) (b)的计算机系统,其中所述序列比较算法包括指出多态性的计算机程序;或(d) (a)至(C)的任一计算机系统,还包括鉴定所述序列中一个或多个特征的标识 符(identifier)。本发明提供在其上存储有多肽序列或核酸序列的计算机可读介质(一种或多种) 或机器可读存储设备,其中所述多肽序列包括本发明的多肽(氨基酸)序列;或,由本发明 的核酸(多核苷酸)序列编码的多肽。本发明提供鉴定序列中特征的方法,其包括(a)使用功能性地储存(嵌入)计算 机或机器可读存储设备中的计算机程序读取序列,其中所述计算机程序鉴定序列中的一个 或多个特征,其中所述序列包括多肽序列或核酸序列,其中所述多肽序列包括本发明的多 肽(氨基酸)序列;由本发明的核酸(多核苷酸)编码的多肽;和(b)用所述计算机程序鉴 定所述序列中的一个或多个特征。本发明提供从样品中分离或回收编码具有KsdA、CXgA、CXgB、CXgC或CxgD活性的 多肽的核酸的方法,其包括(A) (a)提供包括本发明的核酸(多核苷酸)序列的多核苷酸探针;(b)从所述样品分离核酸或者处理所述样品,使得所述样品中的核酸易于与步骤 (a)的多核苷酸探针杂交;(c)将步骤(b)的分离的核酸或处理的样品与步骤(a)的多核苷酸探针结合;和(d)分离与步骤(a)的多核苷酸探针特异性杂交的核酸,由此从样品分离或回收 编码具有KsdA、CxgA, CxgB, CxgC或CxgD活性的多肽的核酸;(B) (A)的方法,其中所述样品是或包括环境样品;(C) (B)的方法,其中所述环境样品是或包括水样品、液体样品、土壤样品、空气样 品或生物样品;或(D) (C)的方法,其中所述生物样品来自细菌细胞、原生动物细胞、昆虫细胞、酵母 细胞、植物细胞、真菌细胞或哺乳动物细胞。本发明提供生成编码具有KsdA、CxgA, CxgB, CxgC或CxgD活性的多肽的核酸的变 体的方法,其包括(A) (a)提供包括本发明核酸(多核苷酸)序列的模板核酸;和(b)在所述模板序列中修饰、缺失或添加一个或多个核苷酸,或它们的组合,以生 成所述模板核酸的变体,(B) (A)的方法,还包括表达该变体核酸,以生成变体KsdA、CxgA, CxgB, CxgC或 CxgD多肽;(C) (A)或⑶的方法,其中修饰、添加或缺失通过包括下列的方法 引入易错PCR (error-prone PCR)、改组(shuffling)、寡核苷酸定点诱变 (oligonucleotide-directed mutagenesis)、装配 PCR(assembly PCR)、有性 PCR 诱变(sexual PCR mutagenesis)、体内诱变(in vivo mutagenesis)、盒式诱变(cassette mutagenesis)、递归整体诱变(recursive ensemble mutagenesis)、指数整体诱变 (exponential ensemble mutagenesis)、位点专一诱变(site-specific mutagenesis)、基 因重装配(gene reassembly)、基因位点饱禾口诱变(Gene Site Saturation Mutagenesis) (GSSM)、合成连接重装配(synthetic ligation reassembly) (SLR)和它们的组合;(D) (A)至(C)的任一的方法,其中修饰、添加或缺失通过包括下列的方法引入 重组、递归序列重组(recursive sequence recombination)、硫代磷酸酯修饰的DNA诱变 (phosphothioate-modified DNA mutagenesis)、含尿P密PH莫板诱变(uracil-containing template mutagenesis)、缺 口双链体诱变(gapped duplex mutagenesis)、点错 配修复诱变(point mismatch repair mutagenesis)、修复-缺陷型宿主株诱变 (repair-deficient host strain mutagenesis)、化学诱变(chemical mutagenesis)、放 身寸诱变(radiogenic mutagenesis)、缺失诱变(deletion mutagenesis)、限制-选择诱变 (restriction-selection mutagenesis)、限制-纯化诱变(restriction-purification mutagenesis)、人工基因合成(artificial gene synthesis)、整体诱变(ensemble mutagenesis)、嵌合核酸多聚体产生(chimeric nucleic acid multimer creation)禾口它 们的组合;(E) (A)至(D)任一的方法,其中所述方法被反复重复,直至产生与由所述模板核 酸编码的多肽相比具有改变的或不同的(变体)活性、或改变的或不同的(变体)稳定性 的(变体)KsdA、CXgA、CXgB、CxgC或CxgD多肽,或者产生与由所述模板核酸编码的多肽相 比改变或不同的(变体)二级结构,或者产生与由所述模板核酸编码的多肽相比改变或不 同的(变体)翻译后修饰;(F) (E)的方法,其中所述变体KsdA、CXgA、CXgB、CXgC或CxgD多肽是耐热的,并且
在被暴露于升高温度后仍保留一些活性;(G) (E)的方法,其中与由模板核酸编码的KsdA、CxgA, CxgB, CxgC或CxgD活性相 比,变体KsdA、CxgA, CxgB, CxgC或CxgD多肽具有增加的糖基化;(H) (E)的方法,其中变体KsdA、CxgA、CxgB、CxgC或CxgD多肽在高温下具有KsdA、 CxgA, CxgB, CxgC或CxgD活性,其中由模板核酸编码的KsdA、CxgA, CxgB, CxgC或CxgD多 肽在所述高温下没有活性;(I) (A)至(H)的任一的方法,其中该方法被反复重复,直至产生与模板核酸相比 具有改变的密码子使用的KsdA、CxgA, CxgB, CxgC或CxgD多肽编码序列;或(J) (A)至(H)的任一的方法,其中所述方法被反复重复,直至产生与所述模板核 酸相比具有更高或更低水平的信息表达或稳定性的ksdA、cxgA, cxgB, cxgC或cxgD基因。本发明提供修饰编码具有KsdA、CxgA、CxgB、CxgC或CxgD活性的多肽的核酸中密 码子以增加其在宿主细胞中的表达的方法,该方法包括(a)提供编码具有KsdA、CXgA、CXgB、CXgC或CxgD活性的多肽的核酸,其包括本发 明的核酸(多核苷酸)序列;和(b)鉴定步骤(a)的核酸中非偏爱(non-preferred)密码子或较不偏爱(less preferred)密码子,并用编码相同氨基酸的偏爱(preferred)或中等使用(neutrally used)的密码子 为替代密码子替换它,其中偏爱密码子是在宿主细胞的基因的编码序列中过度表现(over-r印resented)的密码子,而非偏爱密码子或较不偏爱密码子是在宿主 细胞的基因的编码序列中表现不足(under-r印resented)的密码子,从而修饰核酸以便增 强其在宿主细胞中的表达。本发明提供修饰编码KsdA、CXgA、CXgB、CXgC或CxgD多肽的核酸中密码子的方法, 该方法包括(a)提供编码具有KsdA、CXgA、CXgB、CXgC或CxgD活性的多肽的核酸,其包括本发 明的核酸(多核苷酸)序列;和,(b)鉴定步骤(a)的核酸中的密码子,并用编码相同氨基酸的不同密码子作为替 代密码子替换它,从而修饰编码KsdA、CxgA, CxgB, CxgC或CxgD多肽的核酸中的密码子。本发明提供修饰编码KsdA、CxgA、CxgB、CxgC或CxgD多肽的核酸中的密码子以增 强其在宿主细胞中的表达的方法,该方法包括(a)提供编码KsdA、CxgA, CxgB, CxgC或CxgD多肽的核酸,其包括本发明的核酸 (多核苷酸)序列;和(b))鉴定步骤(a)的核酸中的非偏爱密码子或较不偏爱密码子,并用编码相同氨 基酸的偏爱或中等使用的密码子作为替代密码子替换它,其中偏爱密码子是在宿主细胞的 基因的编码序列中过度表现的密码子,而非偏爱密码子或较不偏爱密码子是在宿主细胞的 基因的编码序列中表现不足的密码子,从而修饰核酸以增强其在宿主细胞中的表达。本发明提供修饰编码具有KsdA、CxgA、CxgB、CxgC或CxgD活性的多肽的核酸中的 密码子以降低其在宿主细胞中的表达的方法,该方法包括(A) (a)提供编码KsdA、CxgA, CxgB, CxgC或CxgD多肽的核酸,其包括本发明的核 酸(多肽)序列;和(b)鉴定步骤(a)的核酸中的至少一个偏爱密码子,并用编码相同氨基酸的非偏 爱或较不偏爱的密码子作为替代密码子替换它,其中偏爱密码子是在宿主细胞的基因的编 码序列中表现过度的密码子,非偏爱密码子或较不偏爱的密码子是在所述宿主细胞的基因 的编码序列中表现不足的密码子,从而修饰所述核酸以便降低其在宿主细胞中的表达;或(B) (A)的方法,其中所述宿主细胞是细菌细胞、真菌细胞、昆虫细胞、酵母细胞、植 物细胞或哺乳动物细胞。本发明提供增加KsdA、CXgA、CXgB、CXgC或CxgD多肽的耐热性或热稳定性的方法, 所述方法包括糖基化KsdA、CxgA, CxgB, CxgC或CxgD多肽,其中所述多肽包括本发明的多 肽的至少30个相连氨基酸,或糖基化本发明的核酸(多核苷酸)序列编码的多肽,由此增 加KsdA、CxgA, CxgB, CxgC或CxgD多肽的耐热性或热稳定性。本发明提供了在细胞中过度表达重组KsdA、CxgA、CxgB、CxgC或CxgD多肽的方法, 其包括表达包含本发明核酸(多核苷酸)序列的载体,其中过度表达通过应用高活性启动 子、双顺反子载体或通过载体的基因扩增实现。本发明提供制造转基因植物的方法,其包括(A) (a)向细胞中引入异源核酸序列,其中所述异源核酸序列包括本发明的核酸 (多核苷酸)的序列,从而生成转化的植物细胞;和(b)从所述转化细胞产生转基因植物;(B) (A)的方法,其中步骤(A) (a)还包括通过电穿孔或微注射植物细胞原生质体 引入异源核酸序列;或
(C) (C)的方法,其中步骤(A) (a)包括通过DNA粒子轰击或通过使用根癌农杆菌宿 主向植物组织中直接引入所述异源核酸序列。本发明提供在植物细胞中表达异源核酸序列的方法,包括下列步骤(a)用与启动子可操作连接的异源核酸序列转化植物细胞,其中所述异源核酸序 列包括本发明的核酸(多核苷酸)序列;和(b)在其中异源核酸序列在所述植物细胞中表达的条件下培养植物。本发明提供调节细胞中雄烯二酮(AD或4-雄烯二酮)、雄二烯二酮 (androstadienedione) (ADD 或 1,4_ 雄二烯-3,17-二酮)、20_(羟甲基)孕 _4_ 烯-3-酮 和/或20-(羟甲基)孕-1,4- 二烯-3-酮的产生的方法(过程),其包括(a) (i)在细胞中过量或不足表达任一的、或数个的、或所有的KsdA-、CxgA-、 CxgB-XxgC-和 / 或 CxgD-编码核酸和 / 或 KsdA-、CxgA-、CxgB-、CxgC-和 / 或 CxgD 多肽, 或(ii)在细胞中缺失任一的、数个的、或所有的KsdA-、CXgA-、CXgB-、CXgC-和/或CxgD-编 码核酸和 / 或 KsdA-、CxgA-、CxgB-、CxgC-和 / 或 CxgD 多肽;(b) (a)的方法,其中细胞是原核细胞或真核细胞;(c) (b)的方法,其中所述原核细胞是细菌细胞,或所述真核细胞是酵母或真菌细 胞;(d) (c)的方法,其中所述细菌细胞是放线菌属(Actinobacteria)的成员或分支 杆菌禾斗(Mycobacteriaceae)的成员;(e) (d)的方法,其中所述分支杆菌科的成员是命名为B3683和/或B3805的分支 杆菌属菌株、或分支杆菌属ATCC 29472 ;(f) (a)至(e)的任一的方法,其中任一的、或数个的、或所有的KsdA-、CxgA-、 CxgB-、CxgC-和/或CxgD-编码的核酸通过包括缺失、突变或破裂ksdA、cxgA、cxgB、cxgC 和/或cxgD基因的转录调控序列的方法被过量或不足表达,其中所述转录调控序列的缺失、突变或破裂导致ksdA、cxgA、cxgB、cxgC和/或 cxgD基因的过量表达和/或不足表达,和/或KsdA-、CxgA-、CxgB-、CxgC-和/或CxgD多 肽编码信息(mRNA)的过量表达和/或不足表达;(g) (f)的方法,其中所述转录调控序列是启动子和/或增强子;(h) (a)至(e)的任一的方法,其中任一的、或数个的、或所有的KsdA-、CxgA-、 CxgB-、CxgC-和/或CxgD-编码的核酸通过包括缺失、突变或破裂反式作用因子的方法过 量或不足表达,所述反式作用因子调节ksdA、cxgA、cxgB、cxgC和/或cxgD基因的转录,其中所述反式作用因子的缺失、突变或破裂导致ksdA、cxgA、cxgB、cxgC和/或 cxgD基因的过量表达和/或不足表达;(i) (a)至(e)的任一的方法,其中任一的、或数个的、或所有的KsdA-、CxgA-、 CxgB-、CxgC-和/或CxgD编码的核酸通过包括上调、缺失、突变或破裂KsdA-、CxgA-、 CxgB-、CxgC-和/或CxgD编码的核酸的信息(mRNA)的方法过量或不足表达,其中所述信息(mRNA)的上调、缺失、突变或破裂导致所述KsdA、CxgA、CxgB、CxgC 和/或cxgD多肽的过量表达和/或不足表达;(j) (i)的方法,其中KsdA-、CxgA-、CxgB-、CxgC-和/或CxgD-编码的核酸的信息 (mRNA)的表达通过对KsdA-、CxgA-、CxgB-、CxgC-和/或CxgD-编码的核酸的信息(mRNA)
23特异的反义、核酶和/或RNAi缺失或破裂;(k) (a)至(e)的任一的方法,其中在所述细胞中任一的、或数个的、或所有的所述 KsdA-, CxgA-, CxgB-, CxgC-和 / 或 CxgD 多肽通过加入所述 KsdA-、CxgA-, CxgB-, CxgC-和 /或CxgD多肽活性的抑制剂或激活剂被过量或不足表达;(1) (k)的方法,其中所述KsdA-、CxgA-, CxgB-, CxgC-和/或CxgD多肽活性的抑 制剂或激活剂是小分子或所述KsdA-、CxgA-, CxgB-, CxgC-和/或CxgD多肽的活性的抗体 抑制剂或激活剂;(m) (a)至(1)任一的方法,其中 KsdA-、CxgA_、CxgB_、CxgC-和 / 或 CxgD-编码的 核酸包括本发明的核酸;或(n) (a)至(1)的任一的方法,其中 KsdA-、CxgA-, CxgB-, CxgC-和 / 或 CxgD 多肽 包括本发明的多肽。本发明提供生产相对纯的、或基本没有雄二烯二酮(ADD或1,4-雄二烯_3,17_ 二 酮)、20-(羟甲基)孕-4-烯-3-酮和/或20-(羟甲基)孕-1,4- 二烯-3-酮的雄烯二酮 (AD或4-雄烯-3,17- 二酮)的基于细胞的方法(过程),其包括(a) (i)制备细胞,所述细胞在细胞中不足表达(与野生型细胞相比)或不表达任 一的、或数个的、或所有的KsdA-、CXgA-、CXgB-、CXgC-和/或CxgD-编码核酸和/或KsdA-、 CxgA-, CxgB-, CxgC-和/或CxgD多肽;和(ii)在其中产生所述雄烯二酮的条件下培养所 述细胞,其中在细胞中不足表达KsdA-、CxgA-、CxgB_、CxgC-和/或CxgD-编码的核酸和/ 或KsdA-、CxgA-, CxgB-, CxgC-和/或CxgD多肽导致产生相对纯的、或基本没有雄二烯二 酮(ADD)、20-(羟甲基)孕-4-烯-3-酮和/或20-(羟甲基)孕-1,4-二烯-3-酮的雄烯 二酮(AD);或(b) (a)的方法,其中通过实施本发明的方法,进行所述KsdA-、CxgA-、CxgB-、 CxgC-和/或CxgD-编码核酸和/或所述KsdA-、CxgA-、CxgB-、CxgC-和/或CxgD多肽在 所述细胞中的不足表达;(c)其中所述细胞至少大约 1.0%、2. 0%、3. 0%、4. 0%、5. 0%、10. 0%、15%、 20. 0%,25. 0%,30. 0%,35. 0%,40. 0%,45. 0%,50. 0%,55. 0%,60. 0%,65. 0%,70. 0%, 75. 0%,80. 0%,85. 0%,90. 0%或 95. 0%或更多地不足表达 KsdA-、CxgA-、CxgB-、CxgC-和 /或CxgD-编码核酸(与野生型或未操纵的细胞相比);(d) (a)或(b)的方法,其中所述细胞至少大约1. 0%,2. 0%,3. 0%A. 0%,5. 0%, 10. 0%U5%,20. 0%,25. 0%,30. 0%,35. 0%,40. 0%,45. 0%,50. 0%,55. 0%,60. 0%, 65. 0%、70. 0%、75. 0%、80. 0%、85. 0%或90. 0%或更多地产生(生成)相对纯的、或基本 没有雄二烯二酮(ADD)、20-(羟甲基)孕-4-烯-3-酮和/或20-(羟甲基)孕_1,4_ 二 烯-3-酮的雄烯二酮(AD);(e) (a)至(d)的任一的方法,其中在所述AD合成过程中所述细胞产生至少大约 1. 0%,2. 0%,3. 0%,4. 0%,5. 0%U0. 0%U5%,20. 0%,25. 0%,30. 0%,35. 0%,40. 0%, 45. 0%,50. 0%,55. 0%,60. 0%,65. 0%,70. 0%,75. 0%,80. 0%,85. 0%,90. 0%或 95. 0%
或更多%的较少的(较小量的)杂质;或(f) (e)的方法,其中较少的杂质 括较少的(较小量的)雄二烯二酮(ADD)、20-(羟甲基)孕-4-烯-3-酮和/或20-(羟甲基)孕-1,4-二烯-3-酮。本发明提供生产相对纯的、或基本没有雄二烯二酮(ADD、或1,4_雄二烯-3,17-二 酮)、20-(羟甲基)孕-4-烯-3-酮和/或20-(羟甲基)孕-1,4-二烯-3-酮的雄烯二酮 (AD或4-雄烯-3,17- 二酮)的基于细胞的方法(过程),其包括(a) (i)制备细胞,该细胞在细胞中不足表达(与野生型或未操纵细胞相比)或不 表达任一的、或数个的、或所有的KSdA-、CxgA-、CxgB-、CxgC-和/或CxgD多肽;和(ii)在 其中产生雄烯二酮的条件下培养细胞,其中在所述细胞中不足表达或抑制所述KsdA-、CxgA-, CxgB-, CxgC-和/或CxgD 多肽的活性导致基本纯的、或基本没有雄二烯二酮(ADD)、20-(羟甲基)孕-4-烯-3-酮和 /或20-(羟甲基)孕-1,4-二烯-3-酮的雄烯二酮(AD)的产生;(b) (a)的方法,其中在所述细胞中不足表达或抑制所述KsdA-、CxgA-, CxgB-, CxgC-和/或CxgD多肽的活性是通过实施本发明的方法;(c) (a)或(b)的方法,其中细胞至少大约 1·0%、2·0%、3·0%、4·0%、5·0%、 10. 0%U5%,20. 0 %,25. 0%,30.0%,35. 0%A0. 0%,45.0%,50. 0 %,55. 0 %,60. 0 65. 0%,70. 0%,75. 0%,80. 0%,85. 0%或 90. 0%或更多地不足表达 KsdA-、CxgA-、CxgB-、 CxgC-和/或CxgD多肽(与野生型或未操纵细胞相比);(d) (a)或(b)的方法,其中所述细胞至少大约1. 0%,2. 0%,3. 0%A. 0%,5. 0%, 10. 0%U5%,20. 0%,25. 0%,30. 0%,35. 0%,40. 0%,45. 0%,50. 0%,55. 0%,60. 0%, 65. 0%、70· 0%、75· 0%、80· 0%、85. 0%或90. 0%或更多地不足生产相对纯的、或基本没有 雄二烯二酮仏00)、20-(羟甲基)孕-4-烯-3-酮和/或20-(羟甲基)孕-1,4-二烯-3-酮 的雄烯二酮(AD);(e) (a)至(d)的任一的方法,其中在AD合成过程中细胞生产至少大约1. 0 %、 2.0 %,3. 0 %A. 0 %,5. 0 %U0. 0 %U5 %,20. 0 %,25. 0 %,30. 0 %,35. 0 %A0. 0 45. 0%,50. 0%,55. 0%,60. 0%,65. 0%,70. 0%,75. 0%,80. 0%,85. 0%,90. 0%或 95. 0%
或更多%的较少的(较少量的)杂质;或(f) (e)的方法,其中所述较少的杂质包括较少的(较少量的)雄二烯二酮(ADD)、 20-(羟甲基)孕-4-烯-3-酮和/或20-(羟甲基)孕-1,4-二烯-3-酮。发明提供试剂盒,其包括(a)本发明的核酸;本发明的探针;本发明的载体、表达 盒或克隆载体;或本发明的宿主细胞或转化细胞;或(b) (a)的试剂盒,还包括实施任一本 发明的方法的说明书。本发明提供试剂盒,其包括(a)本发明的多肽;本发明的抗体或杂交瘤;本发明 的阵列;本发明的异源二聚体,或,(b)(a)的试剂盒,还包括实施任一本发明的方法的说明 书。本发明的一个或多个方面的细节在下面的附图和描述中阐述。从说明书和附图以 及权利要求书可清楚本发明的其它特征、目的和益处。本文引用的所有出版物、专利、专利申请、GenBank序列和ATCC保藏物通过弓|用明 确并入本文,用于所有目的。附图简述以下附图是说明本发明的各方面,而不意欲限制如权利要求包括的本发明的范
25围。

图1图解示例性的AD至ADD转化试验的数据图IA图解随机Tn5突变体的数据; 图IB图解ksdA Tn5突变体的数据,显示不存在AD至ADD的转化;如在以下的实施例1中 具体讨论的。图2图解示例性胆固醇转化试验的数据(只有X2)图2A使用随机Tn5突变体,和 图2Β使用cxgB Τη5突变体1,显示没有化合物Χ2产生;如以下的实施例1中具体讨论的。图3图解示例性胆固醇转化试验的数据(XI和Χ2),显示不存在化合物Xl和Χ2的 产生图3Α使用随机Τη5突变体,图3Β使用cxgA Τη5突变体,和图3C使用cxgA Tn5突变 体3 ;如在以下的实施例1中具体讨论的。图4以图形图解显示通过野生型和Δ ksdA/Δ cxgB突变体将胆固醇转化为AD和 ADD的时间过程的数据;如在以下的实施例1中具体讨论的。图5以图形图解显示通过野生型和Δ ksdA/ Δ cxgB突变体将胆固醇转化为化合物 Xl和X2的时间过程的数据;如在以下的实施例1中具体讨论的。图6是示例性的染色体插入位点和在消除AD至ADD转化的3_甾酮-Δ 1-脱氢酶 突变周围的基因组织的示意图解;如在以下的实施例1中具体讨论的。图7是示例性的染色体插入位点和“cxg基因”即cxgA、cxgB、cxgC或cxgD基因 的组织的示意图解;如在以下的实施例1中具体讨论的。不同附图中的同一指代符号表示相同的要素。发明详述本发明提供生产“提高”纯度的雄烯二酮(AD或4-雄烯-3,17-二酮)(例如,更 纯的、或相对纯的、或基本纯的AD)和调节AD生产的方法,例如通过缺失或失活核酸,例如 编码 ksdA、cxgA、cxgB、cxgC 或 cxgD(分别为 SEQ ID NO =USEQ ID N0:9、SEQ ID N0:17、 SEQ IDN0:24和SEQ ID NO 31)的基因。本发明也提供编码产生1,4-雄二烯-3,17-二酮 (ADD)和相关途径化合物——包括20-(羟甲基)孕-4-烯-3-酮和20-(羟甲基)孕-1, 4- 二烯-3-酮——的蛋白质的核酸。在可选的实施方式中,这些蛋白质包括基于示例性氨 基酸序列 SEQ ID N0:2、SEQ ID N0:10(禾口 SEQ ID N0:11)、SEQ ID NO 18、SEQ ID NO :25、 SEQ ID NO 32 的种类。本发明提供具有包括多肽KsdA的编码序列——包括基因序列ksdA (SEQ ID NO 1)——的序列的分离的、重组的和分离的核酸,和ksdA编码的氨基酸序列(SEQ ID NO 2) 以及其酶活性片段,其中所述酶活性包括3-留酮-△ 1-脱氢酶活性。在一个实施方式中,本 发明也提供功能活性的ksdA核酸和KsdA多肽变体(例如,分别为分离的、重组的和分离的 核酸或多肽),其分别包括与SEQ ID NO :1或SEQ ID NO 2具有至少大约75%、76%、77%、 78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 93%、94%、95%、96%、97%、98%、99%或更高或完全(100%)的序列同一性的序列,其中 功能活性或酶活性(包括酶活性片段的活性)包括3-留酮-Δ 1-脱氢酶活性。一方面,通 过序列比较算法的分析或通过视觉观察测定序列同一性。在一个实施方式中,本发明提供的分离的、重组的和分离的多肽,其包括与氨基 酸序列 SEQ ID N0:2、SEQ ID NO :3、SEQ ID NO :4、SEQ ID NO :5、SEQ ID NO :6、SEQ ID NO: 7 禾口 / 或 SEQ ID NO :8 具有至少大约 75%、76%、77%、78%、79%、80%、81%、82%、83%、
2684%,85%,86%,87%,88%,89%,90%,91 %,92%,93%,94%,95%,96%,97%,98%, 99%或更高或完全(100%)的序列同一性的氨基酸序列,或在氨基酸序列SEQ ID NO :2、 SEQ ID N0:3、SEQ ID N0:4、SEQ ID NO :5的两个或多个之间的共有序列,或者所有氨基酸 序列 SEQ ID NO :2、SEQ ID NO :3、SEQ ID NO :4、SEQ ID NO :5、SEQ ID NO :6、SEQ ID NO 7和/或SEQ ID NO :8中的共有序列;其中多肽的酶活性包括3-甾酮-Δ1-脱氢酶活性。 一方面,序列同一性通过序列比较算法分析或通过视觉观察测定。一方面,本发明包括和提 供编码本发明任何多肽——包括这些共有序列多肽——的核酸。在一个实施方式中,本发明提供分离的、重组的和分离的核酸,其包括与基因序列
cxgA、cxgB、cxgC、cxgD-如在 SEQ ID NO :9、SEQ ID NO 17,SEQ ID N0:24 禾口 SEQ ID NO:
31中分别列出的——具有至少大约75%、76%、77%、78%、79%、80%、81%、82%、83%、 84%,85%,86%,87%,88%,89%,90%,91 %,92%,93%,94%,95%,96%,97%,98%, 99%或更高或完全(100% )序列同一性的核酸序列;和CxgA、CxgB, CxgC, CxgD氨基酸序 列,其包括在 SEQ ID NO 10 (禾口 SEQ ID N0:11)、SEQ ID NO 18、SEQ ID NO 25 禾Π SEQ ID NO 32中分别列出的序列,以及它们酶活性或DNA结合片段;其中CxgA、CxgB, CxgC, CxgD 的酶或蛋白质活性(包括酶活性片段)分别包括乙酰辅酶A-乙酰转移酶/硫解酶活性 (CxgA)、DNA-结合蛋白活性(CxgB)、酰基-辅酶A脱氢酶/FadE蛋白活性(CxgC)和TetR 样调节蛋白/KstR活性(CxgD)。在一个实施方式中,本发明提供分离的、重组的和分离的多肽,其包括与以下氨 基酸序列具有至少大约 75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、 86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或更高或 完全(100% )序列同一性的多肽序列(1)氨基酸序歹Ij SEQ ID NO :10、SEQ ID NO :11 禾口 SEQ ID NO 12 之间的各个共有 序列,或氨基酸序列 SEQ ID NO: 10、SEQ ID NO: 11、SEQ ID NO: 12、SEQ ID NO: 13、SEQ ID NO :14、SEQ ID NO 15和SEQ ID NO 16的两个或多个或所有中的共有序列;其中多肽是 CxgA酶活性,例如乙酰辅酶A-乙酰转移酶/硫解酶活性;(2)氨基酸序歹Ij SEQ ID NO :18、SEQ ID NO 19 和 SEQ ID NO 20 之间的各个共有 序列,或氨基酸序列 SEQ ID N0:18、SEQ ID NO: 19、SEQ ID NO: 20、SEQ ID N0:21、SEQ ID NO 22和SEQ ID NO 23的两个或多个或所有中的共有序列;其中多肽具有CxgB蛋白质活 性,例如DNA-结合活性;(3)氨基酸序歹Ij SEQ ID NO :25、SEQ ID NO 26 和 SEQ ID NO 27 之间的各个共有 序列,或氨基酸序列 SEQ ID N0:25、SEQ ID NO: 26、SEQ ID NO: 27、SEQ ID NO: 28、SEQ ID N0:29和SEQ ID NO :30的两个或多个或所有中的共有序列;其中多肽具有CxgC酶活性,例 如酰基-辅酶A脱氢酶/FadE酶活性;和/或(4)氨基酸序歹Ij SEQ ID NO :32、SEQ ID NO 33 和 SEQ ID NO 34 之间的各个共有 序列,或氨基酸序列 SEQ ID NO :32、SEQ ID NO :33、SEQ ID NO :34、SEQ ID NO 35 和 SEQ ID NO :36的两个或多个或所有中的共有序列;其中多肽具有CxgD酶活性,例如TetR-样调 节蛋白/KstR活性。一方面,本发明包括和提供编码本发明的任何多肽——包括这些共有序列多 肽——的核酸。
27
本发明还提供调节ADD和相关途径化合物——包括20-(羟甲基)孕_4_烯_3_酮 和20-(羟甲基)孕-1,4- 二烯-3-酮——生产的方法,例如通过过量或不足表达KsdA、 CxgA、CxgB, CxgC 和 / 或 cxgD (分别是 SEQ IDNO :1、SEQ ID NO :9、SEQ ID NO :17、SEQ ID NO 24和SEQ IDNO 31)的任一个、数个或全部。本发明提供负责雄二烯二酮和化合物1,4_雄二烯-3,17-二酮(ADD)、20_(羟甲 基)孕-4-烯-3-酮(本文称为化合物XI)和20-(羟甲基)孕-1,4-二烯-3-酮(本文 称为化合物X2)生产的核酸,例如基因和/或酶编码序列。在一个实施方式中,本发明提供 缺失和/或失活(例如通过碱基突变、加成(例如插入)、缺失)一个或所有的这些核酸例 如基因和/或酶编码序列以生成经济生产雄烯二酮、Xl和/或X2的新宿主的方法和这些 方法产生的宿主细胞,例如修饰的宿主细胞,使得用于雄烯二酮、Xl和/或X2的它们基因 和/或编码序列(例如,信息、mRNA)被缺失或失活(其将包括大量最具活性形式的去除、 修饰或缺失)。一方面,本发明的修饰的宿主细胞是细菌细胞,例如,分支杆菌属菌株,例如 命名为B3683或B3805的分支杆菌属菌株。核酸、表达载体和系统及宿主细胞一方面,本发明提供分离的、重组的和合成的核酸,其与本发明的示例性序列例 如 SEQ ID NO :1,SEQ ID N0:9,SEQ ID NO 17, SEQID N0:24 和 SEQ ID NO :31 等具有序列 同一性;编码本发明多肽的核酸,例如本发明的示例性多肽,例如SEQ ID N0:2、SEQ ID NO 10 (禾口 SEQ ID N0:11)、SEQ ID NO: 18、SEQ ID NO : 25、SEQ ID NO : 32 等,包括编码本发明 多肽的表达盒例如表达载体。在一个实施方式中,本发明提供制备细胞的方法,所述细胞在 细胞中不足表达(与野生型或未操纵细胞相比)或不表达任一的、或数个的或所有编码多 肽的核酸ksdA-、cxgA-、cxgB-、cxgC-和/或cxgD(分别为SEQ ID NO =USEQ IDN0:9、SEQ ID NO :17、SEQ ID NO 24 和 SEQ ID NO 31)。本发明的核酸可以通过例如cDNA文库的克隆和表达、通过PCR扩增信息或基因组 DNA以及类似的技术制造、分离和/或操纵。例如,本发明的示例性序列最初衍生自环境来 源。关于用于说明书和权利要求书目的的术语“衍生”,在一些方面,物质“衍生”自生物或 来源,如果以下任一个或多个是真实的话1)物质在生物/来源中存在;2)物质从天然宿 主移出;或,3)物质从天然宿主移出并通过例如诱变进化。如本文所用,短语“核酸”或“核酸序列”是指寡核苷酸、核苷酸、多核苷酸或者是指 它们中的任何之一的片段,是指基因组或合成来源的DNA或RNA,其可以是单链或双链的, 并且可以代表有义链或反义(互补)链,是指肽核酸(PNA)或是指任何DNA样或RNA样物 质,其来源是天然的或合成的。短语“核酸”或“核酸序列”包括寡核苷酸、核苷酸、多核苷 酸、或者是指它们中的任何之一的片段,是指基因组或合成来源的DNA或RNA(例如,mRNA、 rRNA、tRNA、iRNA),其可以是单链或双链的,并且可以代表有义链或反义链,是指肽核酸 (PNA)或者是指任何DNA样或RNA样物质,其来源是天然的或合成的,包括例如iRNA、核糖 核蛋白(例如,例如,双链iRNAs,例如iRNPs)。该术语包括核酸,即,寡核苷酸,其含有天然 核苷酸的已知类似物。该术语也包括带有合成骨架的核酸样结构,参见,例如,Mata (1997) Toxicol.Appl.Pharmacol. 144 189-197 ;Strauss-Soukup(1997) Biochemistry 36 8692-8698 ;Samstag(1996)Antisense Nucleic Acid Drug Dev 6 :153_156。“寡核苷酸,,包 括单链多脱氧核苷酸或两条互补的多脱氧核苷酸链,它们可以是化学合成的。这种合成的 寡核苷酸在5’没有磷酸,因此在激酶存在时,不通过ATP加入磷酸的情况下,不能连接于另一个寡核苷酸。合成的寡核苷酸将连接于没有脱磷酸化的片段。特定多肽或蛋白质的“编码序列”或“编码特定多肽或蛋白质的核苷酸序列”是当 置于合适的调节序列的调控之下时,被转录和翻译成多肽或蛋白质的核酸序列。术语“基 因”意味着参与产生多肽链的DNA片段;它包括编码区之前和之后的区域(前导区和尾随 区)以及在各个编码片段(外显子)之间的间插序列(内含子),如果适用的话。如本文所 用,“可操作连接”是指两个或更多个核酸(例如DNA)片段之间的功能关联。一般地,它是 指转录调节序列和被转录序列之间的功能关联。例如,如果启动子在合适的宿主细胞或其 它表达系统中刺激或调节编码序列的转录,则该启动子与该编码序列例如本发明的核酸可 操作连接。一般而言,与被转录序列可操作连接的启动子转录调节序列在物理上与被转录 序列连接,即,它们是顺式作用的。然而,一些转录调节序列如增强子,不需要与其转录被它 们增强的编码序列在物理上连接或位置上密切接近。在实施本发明方法中,同源基因可以通过操纵模板核酸来修饰,如本文所述。本发 明可以与本领域已知的任何方法或方案或设备联合实施,所述方法、方案和设备在科技文 献和专利文献中充分描述。在可选的实施方式中,用于实施本发明的核酸可以包括DNA——包括cDNA、基因组 DNA和合成DNA。DNA可以是双链或单链,并且如果是单链,可以是编码链或非编码(反义) 链。可选地,用于实施本发明的核酸可以包括RNA例如mRNA、RNAi等等。本发明的核酸可以用于制备本发明的多肽,多肽包括其酶活性片段。在可选的实 施方式中,编码本发明多肽的核酸包括本发明核酸的多肽编码序列,和任选地额外的编码 序列,例如前导序列(leader sequences)或蛋白原序列(proprotein sequences)禾口非编 码序列诸如内含子或编码序列的5’和/或3’非编码序列。因此,如本文所用,术语“编码 多肽的多核苷酸”包括含有蛋白质编码序列的多核苷酸和含有额外的编码和/或非编码序 列例如转录或翻译调节序列的多核苷酸序列。在可选的实施方式中,可以应用常规技术如定点诱变、或本领域技术人员熟悉的 其它技术对本发明的核酸序列进行诱变,以便将沉默改变引入本发明的多核苷酸。如本文 所用,“沉默改变(silent changes)”包括,例如,不改变由多核苷酸编码的氨基酸序列的变 化。这样的变化可能是期望的,目的是通过引入在宿主生物体中频繁发生的密码子或密码 子对,增加含有编码多肽的载体的宿主细胞所产生的多肽的水平。本发明也包括具有核苷酸改变的多肽,所述核苷酸改变产生本发明的多肽中的 氨基酸替代、加成、缺失、融合和截短;对ksdA-、CXgA-、CXgB-、cxgC-和/或cxgD编码核酸 (例如基因)(分别是 SEQ ID NO =USEQID N0:9、SEQ ID NO 17, SEQ ID NO 24 和 SEQ ID NO 31)作出这些改变以生成过量或不足表达这些核酸的一个、数个或全部的细胞的方法。 这种核苷酸改变可以被引入核酸中,包括直接引入这种改变进入细胞中,使用技术如定点 诱变、随机化学或放射诱变、外切核酸酶III缺失和插入转座子和其它重组突变诱导技术。 可选地,这样的核苷酸改变可以使用天然发生的等位基因变体制备。术语“变体”指本发明的多核苷酸或多肽,其在一个或多个碱基对、密码子、内含 子、外显子或氨基酸残基(分别地)处被修饰,但仍然保留生物学活性。变体可以通过很多 种方法产生,包括方法,例如,易错PCR、改组、寡核苷酸定点诱变、装配PCR、有性PCR诱变、 体内诱变、盒式诱变、递归整体诱变、指数整体诱变、位点专一诱变、基因重装配、GSSM和它们的任意组合。一般技术用于实践本发明的核酸,不论是RNA、siRNA, miRNA、反义核酸、cDNA、基因组DNA、 载体、病毒或它们的杂合体,可以从多种来源分离、遗传改造、扩增和/或表达/重组产生。 从这些核酸生成的重组多肽(例如,示例性KsdA-、CxgA-, CxgB-, CxgC-和/或CxgD酶) (分别是 SEQ ID N0:2、SEQ ID NO 10 (禾口 SEQ ID NO: 11)、SEQ ID NO 18、SEQ ID NO :25、 SEQ ID NO 32)可以单独分离或克隆,并测试其期望活性。可以应用任何重组表达系统,包括细菌(例如分支杆菌)、哺乳动物、真菌、酵母、 昆虫或植物细胞表达系统。“重组的”多肽或蛋白质是指通过重组DNA技术产生的多肽或蛋 白质;即,从用编码期望的多肽或蛋白质的外源DNA构建物转化的细胞产生。“合成的”多肽 或蛋白质是通过化学合成制备的那些多肽或蛋白质。固相化学肽合成方法也可以用于合成 本发明的多肽或片段。这种方法从20世纪60年代早期已经在本领域中已知(Merrifield, R. B.,J. Am. Chem. Soc. ,85 :2149_2154,1963)(也参见 Stewart, J. Μ. and Young, J. D., Solid Phase Peptide Synthesis,2nd Ed. , Pierce Chemical Co. , Rockford, 111., pp. 11-12)),并且近来在商业上可得的实验室肽设计和合成试剂盒(Cambridge Research Biochemicals)中应用。这样的商业上可得的实验室试剂盒可以如在H. M. Geysen et al, Proc. Natl. Acad. Sci.,USA,81 =3998(1984)中描述地使用,例如在多个“杆(rods)” 或“钉 (pins) ”的顶端合成肽,所有的杆或者钉都被连接到一块板上。在一个实施方式中,术语“重 组的”指核酸邻近于其在自然环境中不邻近的“骨架”核酸。在一个实施方式中,用于实施本发明的核酸通过熟知的化学合成技术在体 夕卜合成,例如,在以下描述的:Adams (1983) J.Am. Chem. Soc. 105 661 ;Belousov (1997) Nucleic Acids Res. 25 3440-3444 ;Frenkel(1995)Free Radic. Biol. Med. 19 373-380 ; Blommers(1994)Biochemistry33 7886-7896 ;Narang(1979)Meth. Enzymol. 68 90 ; Brown (1979) Meth. Enzymol. 68 109 ;Beaucage (1981) Tetra. Lett. 22 1859 ;美国专利 4,458,066。用于操作核酸的技术如,例如,亚克隆、标记探针(例如,应用Klenow聚合酶的 随机引物标记、切口平移、扩增)、测序、杂交和类似技术在科技文献和专利文献中充分描 述,参见,例如,Sambrook, ed.,MOLECULAR CLONING :A LABORATORY MANUAL(2ND ED.), Vols. 1-3,Cold Spring Harbor Laboratory, (1989) ;CURRENT PROTOCOLS IN MOLECULAR BIOLOGY,Ausubel,ed. John Wiley &Sons,Inc.,New York(1997) ;LABORATORY TECHNIQUES IN BIOCHEMISTRY AND MOLECULAR BIOLOGY HYBRIDIZATION WITH NUCLEIC ACID PROBES, Part I.Theory and Nucleic Acid Preparation, Tijssen, ed.Elsevier, N. Y. (1993)。在一个实施方式中,获得和操作用于实施本发明的核酸包括从基因组样品中克 隆,如果需要,对分离自或扩增自例如基因组克隆或cDNA克隆的插入物进行筛选和再克 隆。用于实施本发明的核酸的来源包括基因组文库或cDNA文库,其包含在例如哺乳动物人 工染色体(MACs)中,参见,例如,美国专利5,721,118 ;6, 025, 155 ;人类人工染色体中,参 见,例如,Rosenfeld(1997)Nat. Genet. 15 :333_335 ;酵母人工染色体(YAC)中;细菌人工染 色体(BAC)中;Pl人工染色体中,参见例如,Woon(1998)Genomics 50 :306_316 ;Pl衍生载 体(PACs)中,参见例如Kern (1997) Biotechniques 23 120—124 ;黏粒,重组病毒,噬菌体或质粒中。在一个实施方式中,如本文所用,术语“分离的,,指从其天然宿主中移出的任何物 质;物质不需要被纯化。例如,“分离核酸”指与两个序列不紧密邻接的天然存在的核酸,其 在所衍生自的生物的天然存在的基因组中与所述两个序列是紧密邻接的(一个在5’端和 一个在3’端上)。在一个实施方式中,分离的核酸没有限制地可以是任何长度的重组DNA 分子,只要在天然存在的基因组中通常发现紧邻该重组DNA分子侧翼的核酸序列之一被去 除或不存在。在一个实施方式中,分离核酸包括这样的重组DNA,其存在为分离分子(例如 通过PCR或限制核酸内切酶处理产生的cDNA或基因组DNA片段)、独立于其它序列以及并 入载体、自动复制的质粒、病毒(例如,反转录病毒、腺病毒或疱疹病毒)中、或并入原核或 真核的基因组DNA中的重组DNA。在一个实施方式中,分离的核酸可以包括是杂交或融合核 酸序列一部分的重组DNA分子。一方面,术语“分离的”意味着,物质(例如本发明的蛋白质或核酸)从其原始环 境(例如,如果它是天然存在的,其原始环境是天然环境)中被移出。例如,活的动物中存 在的天然存在的多核苷酸或多肽不是分离的,但是与天然系统中的一些或所有共存物质分 离的相同的多核苷酸或多肽是分离的。这样的多核苷酸可以是载体的一部分和/或这样的 多核苷酸或多肽可以是组合物的一部分并且仍然是被分离的,原因是载体或组合物不是其 天然环境的一部分。一方面,提及核酸使用的术语“分离”也可以包括任何非天然存在的核酸,因为非 天然存在的核酸序列在自然界中没有发现,并且在天然出现的基因组中没有紧密邻接序 列。例如,非天然存在核酸例如工程核酸被认为是分离的核酸。工程核酸可以使用普通的 分子克隆或化学核酸合成技术制备。分离的非天然存在的核酸可以独立于其它序列,或被 并入载体、自动复制的质粒、病毒(例如,反转录病毒、腺病毒或疱疹病毒)、或原核或真核 的基因组DNA中。另外,非天然存在的核酸可以包括是杂交或融合核酸序列一部分的核酸 分子。在一个实施方式中,如本文使用的,术语“纯的(纯化的),,或“相对纯净”不要求 绝对的纯净,相反,“纯的”和“相对纯净”意图作为相对的术语。因此,例如,纯的或相对纯 的期望产物例如雄烯二酮(AD)、或多肽、或核酸,可以是其中该期望产品(例如,AD)、多肽 或核酸的浓度高于将处于(或已使其处于)生物内其自然环境中(例如在未操作细胞中) 的期望产物、多肽或核酸的那些,或浓度高于其被移出或被发现(被产生)的、在未操作细 胞中的环境中的那些。在一个实施方式中,术语“纯的”或“相对纯净”包括术语“富集的”;和在一方 面,“被富集”或具有“相对高纯度”的核酸、多肽或期望产物例如雄烯二酮(AD或(4-雄 烯-3,17-二酮)具有至少大约 1. 0%,2. 0%,3. 0%,4. 0%,5. 0%U0. 0%U0. 5%,20. 0%, 25. 0%,30. 0%,35. 0%,40. 0%,45. 0%,50. 0%,55. 0%,60. 0%,65. 0%,70. 0%,75. 0%, 80.0%、85.0%或90.0%或更多的较少的(较小的)杂质,包括例如在AD合成过程中 较少的(较小的)杂质,例如较少的杂质包括较少的雄二烯二酮(ADD)、20-(羟甲基) 孕-4-烯-3-酮、20-(羟甲基)孕-1,4- 二烯-3-酮和在基于细胞AD合成过程中被认为是 “杂质”或“污染物”的相关化合物。转录和翻译调控序列
31
本发明提供本发明的核酸(例如,DNA)序列和可操作地连接到表达(例如,转录 或翻译)调控序列(一个或多个)例如启动子或增强子的抑制性序列(例如,对于示例性 ksdA、cxgA、cxgB、cxgC和/或cxgD)(分别是SEQ ID NO =USEQ ID N0:9、SEQ ID NO :17、 SEQ ID N0:24和SEQ ID NO :31),以便指导或调控核酸(例如,RNA、信息)合成/表达。表 达调控序列可以在表达载体例如载体中。示例性细菌启动子包括lacl、lacZ、T3、Τ7、gpt、 λ ΡΚ、Ρ[和trp。示例性真核启动子包括CMV即时早期、HSV胸苷激酶、早期和晚期SV40、反 转录病毒的LTRs和小鼠金属硫蛋白I。在可选的实施方式中,适于在实施本发明中使用的启动子,例如用于细胞中表达 多肽,例如细菌,包括大肠杆菌Iac或trp启动子、IacI启动子、IacZ启动子、T3启动子、 T7启动子、gpt启动子、λ Pe启动子、λ Pl启动子、来自编码糖酵解酶如3-磷酸甘油酸激酶 (PGK)的操纵子的启动子,和酸性磷酸酶启动子。真核启动子包括CMV即时早期启动子、HSV 胸苷激酶启动子、热激启动子、早期和晚期SV40启动子、来自反转录病毒的LTRs和小鼠金 属硫蛋白-I启动子。在可选的实施方式中,可以应用已知在原核或真核细胞或病毒中调控 基因表达或转录的任何其它启动子或增强子。在可选的实施方式中,适于在实施本发明中使用的启动子包括能够在细胞例如细 菌、酵母、真菌或植物细胞等中驱动编码序列转录的所有序列。因此,本发明构建体中应用 的启动子可以包括参与调节或操纵基因转录时间和/或速率的顺式作用转录调控元件和 调节序列。在可选的实施方式中,启动子可以是顺式作用转录调控元件,包括增强子、启动 子、转录终止子、复制起点、染色体整合序列、5’和3’非翻译区或内含子序列,它们参与转 录调节。在可选的实施方式中,顺式作用序列可以与蛋白质或其它生物分子相互作用,以执 行(启动/关闭、调节、调控等)转录。在可选的实施方式中,使用“组成型”启动子, 其在 大多数环境条件下和发育或细胞分化状态下持续驱动表达。在可选的实施方式中,使用“诱 导型”或“可调节”启动子,其在环境条件或发育条件的影响下引导核酸的表达。可以影响 通过诱导型启动子转录的环境条件的例子包括厌氧条件、增加的温度、干旱或光的存在。在 可选的实施方式中,使用“组织特异性”启动子,其仅在特定细胞或组织或器官,例如在某些 细菌、组织或器官、植物或动物中具有活性。组织特异性调节可以通过某些内在因子实现, 这些内在因子确保编码对特定组织特异性的蛋白质的基因被表达。表达盒、载体和克隆载体本发明提供包括本发明核酸的表达盒和载体以及克隆载体,本发明的核酸例如编 码本发明的 KsdA、CxgA、CxgB、CxgC和 / 或 CxgD(分别是 SEQ ID NO :2、SEQ ID NO 10 (禾口 SEQ ID N0:11)、SEQ ID N0:18、SEQ ID NO 25、SEQ ID NO 32)酶种类的序列。在可选的 实施方式中,本发明的表达载体和克隆载体可以包括病毒颗粒、杆状病毒、噬菌体、质粒、噬 粒、黏粒、F黏粒、细菌人工染色体、病毒DNA(例如疫苗、腺病毒、禽痘病毒、伪狂犬病病毒和 SV40的衍生物)、基于Pl的人工染色体、酵母质粒、酵母人工染色体和对特定感兴趣宿主特 异的任何其它载体例如分支杆菌科(Mycobacteriaceae)、卡氏菌科(Nocardiaceae)、芽胞 杆菌禾斗(Bacillaceae)、发菌禾斗(Trichocomaceae)或酵母禾斗(Saccharomycetaceae)的成 员。本发明的载体可以包括染色体、非染色体和合成的DNA序列。在可选的实施方式中,可 以使用本领域技术人员已知的或商业可获得的任何合适的载体。示例性载体包括细菌 PQE 载体(Qiagen)、pBLUESCRIPT 质粒、pNH 载体、λ -ZAP 载体(Stratagene) ;ptrc99a、PKK223-3、pDR540、pRIT2T (Pharmacia);真核细胞的pXTl、pSG5 (Stratagene)、pSVK3、 pBPV、pMSG、pSVLSV40 (Pharmacia)。然而,也可以使用任何别的质粒或别的载体,只要它们 可以在宿主中复制和存活下去。可以在本发明中使用低拷贝数或高拷贝数的载体。“质粒” 可以经商业途径得到、可以没有限制地公开得到、或者可以根据公开途径从可利用的质粒 构建。与本文所述质粒等价的质粒是本领域已知的,并对本领域普通技术人员将是显而易 见的。在可选的实施方式中,使用包括这样核苷酸序列的“表达盒”,该核苷酸序列能 够影响与这样的序列相容的宿主中的结构基因(即,KsdA-, CxgA-, CxgB-, CxgC-和/或 CxgD-编码核酸)的表达。在可选的实施方式中,表达盒至少包括可操作地连接至编码多 肽的序列上的启动子;和任选地,带有其它的序列,例如,转录终止信号。在可选的实施方式 中,也可以使用完成表达所必需的或有帮助的额外的因子,例如,增强子、α因子。在可选 的实施方式中,表达盒也包括质粒、表达载体、重组病毒、任何形式的重组“裸DNA ”载体和类 似物。在可选的实施方式中,本发明的“载体”包括可以感染、转染、瞬时或永久转导细胞 的核酸。在可选的实施方式中,载体可以是裸核酸或与蛋白质或脂类复合的核酸。载体任 选地包括病毒或细菌核酸和/或蛋白质,和/或膜(例如细胞膜、病毒的脂包膜等)。载体 包括但不限于复制子(如,RNA复制子,细菌噬菌体),DNA片段可以连接到其上,并被复制。 因此,载体包括但不限于RNA、自动自主复制的环状或线性DNA或RNA(例如质粒、病毒和类 似物,参见,例如,美国专利5,217,879),并且包括表达质粒和非表达质粒二者。在可选的 实施方式中,在本文被描述为容纳“表达载体”的重组微生物或细胞培养物可以包括染色体 外环状和线性DNA和/或已被并入宿主染色体(一个或多个)的DNA。在可选的实施方式 中,当载体被宿主细胞维持时,载体可以在有丝分裂期间作为自主结构由细胞稳定复制,或 整合入宿主基因组中。在可选的实施方式中,表达载体可以包括启动子、用于起始翻译的核糖体结合位 点和转录终止子。载体也可以包括用于扩增表达的合适序列。哺乳动物表达载体可以包括 复制起始点、任何必需的核糖体结合位点、聚腺苷酸化位点、剪接供体和受体位点、转录终 止序列、5’侧翼非转录序列。在一些方面,衍生于SV40剪接子和聚腺苷酸化位点的DNA序 列可以用于提供所需要的非转录基因元件。—方面,表达载体含有一个或多个选择性标记基因,使得可以对含有该载体的宿 主细胞进行选择。这样的选择性标记包括编码二氢叶酸还原酶的基因或使得真核细胞培养 物具有新霉素抗性的基因、使得大肠杆菌(E. coli)具有四环素或氨苄青霉素抗性的基因 和酿酒酵母(S. cerevisiae)TRPl基因。启动子区域可以从任何期望的基因中选择出来,使 用氯霉素转移酶(CAT)载体或具有选择标记的其它载体。在可选的实施方式中,表达用于实施本发明的多肽或核酸的载体也可以含有增强 子,以增加表达水平。增强子是DNA的顺式作用元件,其长度为大约10到大约300bp。它 们可以作用于启动子以增强转录。示例性增强子包括在复制起点下游侧IOObp到270bp上 的SV40增强子、巨细胞病毒早期启动子增强子、在复制起点下游侧上的多瘤增强子和腺病 毒增强子。在可选的实施方式中,核酸序列通过各种方法插入载体中;例如,在将插入物和载体用合适的限制性内切酶消化后,序列可以连接到载体中的期望位置。可选地,插入物和载 体的平末端可以被连接。在本领域已知多种克隆技术,例如在Ausubel和Sambrook中描述 的。这样的方法和其它方法被认为在本领域技术人员已知的范围内。在可选的实施方式中,可以使用的细菌载体包括商业上可获得的质粒,其包 括以下熟知的克隆载体的遗传元件:pBR322 (ATCC 37017)、pKK223_3 (Pharmacia Fine Chemicals, Uppsala, Sweden)、GEMl(Promega Biotec, Madison, WI, USA)、pQE70、 pQE60, pQE-9 (Qiagen) 、pDIO、psiX174 pBluescript II KS, pNH8A, pNH16a, pNH18A, pNH46A (Stratagene)、ptrc99a、pKK223_3、pKK233_3、DR540、pRIT5 (Pharmacia)、pKK232_8 和 pCM7。特定的真核载体包括 pSV2CAT、pOG44、pXTl、pSG (Stratagene) pSVK3、pBPV、pMSG 和PSVL(Pharmacia)。然而,可以使用任何其它载体,只要它可以在宿主细胞中复制和维持。本发明的核酸可以在表达盒、载体或病毒中表达,并在包括细菌、植物细胞和种子 的任何细胞中短暂或稳定地表达。一个实例性短暂表达系统使用附加体(印isomal)表达 系统,例如,通过含有超螺旋DNA的附加小染色体的转录而在核中产生的花椰菜花叶病毒 (CaMV)RNA,见,例如,Covey (1990)Proc. Natl. Acad. Sci. USA 87 :1633_1637。可选地,编码 序列,即本发明的序列的全部或子片断,可以插入到植物宿主细胞基因组中,而成为该宿主 染色体DNA的整合的一部分。有义或反义转录物可以以这种方式被表达。包含本发明的核 酸的序列(例如,启动子或编码区域)的载体可以包含用于赋予细胞例如细菌细胞、植物细 胞或种子选择性表型的标记基因。例如,所述标记可以编码生物杀灭剂抗性,特别是抗生素 抗性,例如对卡那霉素、G418、博来霉素、潮霉素或除草剂的抗性,例如对氯磺隆或Basta的 抗性。在可选的实施方式中,可以使用在本领域中是熟知的、在植物中表达核酸和蛋白 的表达载体,其包括,例如,根瘤农杆菌(Agrobacteriumspp.)的载体、马铃薯病毒X(见, 例如,Angell (1997)EMBO J. 16 :3675_3684)、烟草花叶病病毒(见,例如,Casper (1996) Gene 173 :69_73)、番茄丛矮病毒(见,例如,Hillman(1989) Virology 169 :42_50)、烟 草蚀纹病毒(见,例如,Dolja(1997) Virology 234 :243_252)、菜豆金色花叶病毒(见, 例如,Morinaga(1993)Microbiol inimunol. 37 :471_476)、花椰菜花叶病毒(见,例 如,Cecchini (1997)Mol. Plant Microbe Interact. 10 :1094_1101)、玉米 Ac/Ds 转座 元件(见,例如,Rubin (1997)Mol. Cell. Biol. 17 :6294-6302 ;Kunze (1996) Curr. Top. Microbiol. Inimunol. 204 161-194)和玉米抑制基因-突变基因(Spm)转座元件(见,例 如 Schlappi (1996)Plant Mol. Biol. 32 717-725);和它们的衍生物。一方面,表达载体可以有两套复制系统,使其可以在两种生物中保持,例如在植 物、哺乳动物或昆虫细胞中表达和在原核宿主例如细菌细胞中克隆和扩增。此外,对于整合 表达载体,该表达载体可以包括至少一个与宿主细胞基因组同源的序列。它可以在该表达 构建物的两侧包含两个同源序列。通过选择包含入载体的合适的同源序列,可以将该整合 载体定位到宿主细胞的特定基因组。整合载体的构建物在本领域是已知的。本发明的表达载体也可以包括选择性的标记基因,以便对已经转化的细菌株进行 选择,例如,使细胞对药物,例如氨苄青霉素、氯霉素、红霉素、卡那霉素、新霉素和四环素产 生抗性的基因。选择性的标记也可以包括生物合成基因,例如在组氨酸、色氨酸和亮氨酸生 物合成途径中的基因。
34
表达载体中的DNA序列与合适的表达调控序列(一个或多个)(启动子)可操作 连接,指导RNA合成。特别指定的细菌启动子包括lacI、lacZ、T3、T7、gpt、XPioPl和trp。 真核启动子包括CMV即时早期启动子、HSV胸苷激酶启动子、早期和晚期SV40启动子、来自 反转录病毒的LTRs和小鼠金属硫蛋白I启动子。对合适载体和启动子的选择在本领域技 术人员的水平之内。表达载体也含有用于翻译起始的核糖体结合位点和转录终止子。载体 也可以包括用于扩增表达的合适序列。应用氯霉素转移酶(CAT)载体或带有选择性标记的 其它载体,可以从任意期望的基因中选择启动子区。此外,一方面,表达载体含有一个或多 个选择性标记基因,为选择转化宿主细胞提供表型性状,例如真核细胞培养物的二氢叶酸 还原酶或新霉素抗性,或者大肠杆菌的例如四环素或氨苄青霉素的抗性。此外,表达载体典型地含有一个或多个选择性标记基因,允许选择含有所述载体 的宿主细胞。这样的选择标记包括编码二氢叶酸还原酶的基因或使得真核细胞培养物具有 新霉素抗性的基因、使分支杆菌科或大肠杆菌具有四环素或氨苄青霉素抗性的基因或酿酒 酵母TRPl基因。宿主细胞和转化细胞本发明也提供包括本发明核酸序列——例如本发明的编码KsdA、CXgA、CXgB、CXgC 和/或CxgD的核酸、或本发明载体的转化细胞。本发明也提供生产雄烯二酮(AD)、雄二烯 二酮(ADD)、20-(羟甲基)孕-4-烯-3-酮和/或20-(羟甲基)孕_1,4-二烯-3-酮的细 胞,其中在可选的实施方式中,细胞包括在细胞中过量或不足表达编码KsdA、CxgA, CxgB, CxgC和/或CxgD的核酸和/或KsdA-、CxgA-、CxgB-、CxgC-和/或CxgD多肽的任一个、数 个或全部,或在细胞中缺失编码KsdA、CxgA, CxgB, CxgC和/或CxgD的核酸和/或KsdA-、 CxgA-, CxgB-, CxgC-和/或CxgD多肽的任一个或数个或全部的表达。在可选的实施方式中,可以使用任何宿主细胞,例如,本领域技术人员熟悉的任 何宿主细胞,包括原核细胞,真核细胞,如细菌细胞、真菌细胞、酵母细胞、哺乳动物细胞、 昆虫细胞或植物细胞。示例性细菌细胞包括放线菌(Actinobacteria)的任何成员,或 分支杆菌科的任一成员,链霉菌(Str印tomyces)、葡萄球菌(Staphylococcus)、假单胞 菌(Pseudomonas)或杆菌(包括大肠杆菌、枯草芽孢杆菌(Bacillus subtilis)、荧光假 单胞菌(Pseudomonas fluorescens)、蜡状芽孢杆菌(Bacillus cereus)或伤寒沙门氏菌 (Salmonella typhimurium))的任一种类。示例性真菌细胞包括曲霉菌(Aspergillus) 的任何种类。示例性酵母细胞包括毕赤酵母(Pichia)、酵母(Saccharomyces)、裂殖酵 母(Schizosaccharomyces)或许旺酵母(Schwanniomyces)的任何种类,包括巴斯德毕 赤酵母(Pichia pastoris)、酿酒酵母(Saccharomyces cerevisiae)或粟酒裂殖酵母 (Schizosaccharomyces pombe)。示例性昆虫细胞包括草地夜蛾(Spodoptera)或果蝇 (Drosophila)的任何种,包括果蝇S2和草地夜蛾Sf9。示例性动物细胞包括CHO、COS或 Bowes黑素瘤或任何小鼠或人类细胞系。对合适宿主的选择在本领域技术人员的能力范 围内。转化各种高等植物种类的技术是公知的,在科学文献和技术文献中描述。参见例如 ffeising(1988)Ann. Rev. Genet. 22 :421_477 ;美国专利 5,750,870。在可选的实施方式中,载体可以使用各种技术导入宿主细胞中,包括转化、转 染、转导、病毒感染、基因枪或者Ti介导的基因转移。具体的方法包括磷酸钙转染、 DEAE-Dextran 介导的转染、脂转染法(Iipofection)或电穿孔(Davis, L.,Dibner, M.,Battey, I. , Basic Methods in Molecular Biology, (1986))。一方面,本发明的核酸或载体被导入细胞以便筛选,所以,所述核酸是以合适于该 核酸的后续表达的方式进入细胞。导入的方法主要由靶细胞类型决定。示例性方法包括 CaPO4沉淀法、脂质体融合、脂转染法(例如,LIP0FECTIN )、电穿孔法、病毒感染法,等等。 候选的核酸可以稳定地整合到宿主细胞基因组中(例如,用反转录病毒导入)或者可以短 暂的或稳定的存在于细胞质中(即,通过使用传统的质粒,利用标准的调控序列、选择标 记,等等)。因为许多药学上重要的筛选要求人或模型哺乳动物细胞靶标,所以可以使用能 够转染这些靶标的反转录病毒载体。在可选的实施方式中,工程宿主细胞可以在传统的营养培养基中培养,所述营养 培养基经改良而适于激活启动子、选择转化子或扩增本发明的基因。在合适的宿主株被转 化和宿主株生长到合适的细胞密度之后,用合适的方法(例如,温度变化或化学诱导)诱导 被选择的启动子,细胞可以再培养一段时期,使得它们产生所需的多肽或其片段。在可选的实施方式中,细胞可以通过离心收获,通过物理或化学方法破碎,保留得 到的粗提物以用于进一步的纯化。被用来表达蛋白质的微生物细胞可以用任何常规方法 破碎,包括冷冻_融解循环、超声波、机械破碎法或使用细胞裂解试剂。这些方法为本领域 技术人员所熟知。表达的多肽或其片断可以从重组细胞培养物中通过包括硫酸铵或乙醇 沉淀、酸提取、阴离子或阳离子交换色谱、磷酸纤维素色谱、疏水相互作用色谱、亲和色谱、 羟基磷灰石色谱和凝集素色谱在内的方法回收和纯化。假如必要的话,可以应用蛋白质重 折叠步骤来完成多肽的构象。假如需要的话,在最终的纯化步骤中可以采用高效液相色谱 (HPLC)。可以以传统的方式应用宿主细胞中的构建体,产生重组序列编码的基因产物。取 决于重组生产方法中应用的宿主,含载体宿主细胞产生的多肽可以被糖基化或可以未被糖 基化。本发明的多肽也可以包括起始甲硫氨酸残基或可以不包括起始甲硫氨酸残基。也可以采用无细胞的翻译系统来产生本发明的多肽。无细胞翻译系统可以应用由 DNA构建物转录得到的mRNA,所述DNA构建物包括与编码所述多肽或其片段的核酸可操作 地连接的启动子。在一些方面,该DNA构建物在进行体外转录反应之前可以被线性化。转 录得到的mRNA然后与合适的无细胞翻译提取物例如兔网状细胞提取物温育,产生所需的 多肽或其片段。表达载体可以含有一个或多个选择性标记基因,为选择转化的宿主细胞提供表型 特征,例如真核细胞培养物的二氢叶酸还原酶或新霉素抗性,或者例如大肠杆菌的四环素 或氨苄青霉素抗性。含有感兴趣的多核苷酸例如本发明核酸的宿主细胞可以在传统的营养培养基中 培养,所述培养基被改良为适于激活启动子、选择转化子或扩增基因。培养条件如温度、PH 值等等,是以前被选择用于进行表达的宿主细胞所应用的那些条件,对本领域普通技术人 员是显而易见的。鉴定为具有特定酶活性的克隆可以随后被测序,以鉴定编码具有增强活 性的酶的多核苷酸序列。本发明核酸可以在任何体外或体内表达系统中表达或过量表达。可以应用任何细 胞培养系统表达或过量表达重组蛋白,包括细菌、昆虫、酵母、真菌或哺乳动物培养物。过 量表达可以通过对启动子、增强子、载体(例如,应用复制子载体、双顺反子载体(参见例
36如,Gurtu(1996)Biochem. Biophys. Res. Commun. 229 :295_8)、培养基、培养系统和类似因素 的适当选择来实现。一方面,在细胞系统中应用选择标记,如谷氨酰胺合成酶(参见例如 Sanders (1987) Dev. Biol. Stand. 66 :55_63)进行基因扩增,用来过量表达本发明的多肽。核酸的扩增在实施本发明中,可以通过扩增来复制本发明核酸,例如示例性的编码KsdA、 CxgA、CxgB, CxgC 和 / 或 CxgD 的核酸(分别包括例如 SEQ ID NO =USEQ ID NO :9、SEQ ID N0:17、SEQ ID NO 24和SEQ ID NO :31)。也可以用扩增来克隆或修饰本发明的核酸。因 此,本发明提供了用于扩增本发明核酸的扩增引物序列对,包括本发明的示例性序列。本领 域技术人员能够设计用于这些序列的任何部分或全长的扩增引物序列对。在一个方面,本发明提供了由本发明引物对扩增的核酸,所述引物对例如,由本发 明核酸的约前(5,)11、12、13、14、15、16、17、18、19、20、21、22、23、24 或 25 或更多个残基和 互补链的约前(5,)11、12、13、14、15、16、17、18、19、20、21、22、23、24 或 25 或更多个残基所 示的引物对。本发明提供扩增引物序列对,用于扩增编码多肽例如KsdA、CxgA, CxgB, CxgC和/ 或CxgD的核酸,其中引物对能够扩增包括本发明序列或其片段或子序列的核酸。扩增引 物序列对中的一个成员或每一成员可以包括寡核苷酸,所述寡核苷酸含有序列的至少约10 至 50 或更多个连续碱基,或序列的约 11、12、13、14、15、16、17、18、19、20、21、22、23、24 或 25 或更多个连续碱基。本发明提供了扩增引物对,其中引物对包括第一成员和第二成员,第一 成员具有本发明核酸的约前(5,)11、12、13、14、15、16、17、18、19、20、21、22、23、24 或 25 或 更多个残基列出的序列,第二成员具有第一成员的互补链的约前(5’)11、12、13、14、15、16、 17、18、19、20、21、22、23、24或25或更多个残基列出的序列。本发明提供了应用本发明的扩增引物对通过扩增例如聚合酶链式反应(PCR)生 成的 KsdA、CxgA、CxgB、CxgC和/或CxgD(分别是SEQ ID N0:2、SEQ ID NO 10 (和 SEQ ID N0:11)、SEQ ID NO 18,SEQ ID NO 25、SEQ ID NO 32)酶。本发明提供了应用本发明的扩 增引物对通过扩增例如聚合酶链式反应(PCR)制备KsdA、CxgA, CxgB, CxgC和/或CxgD酶 的方法。一方面,扩增引物对扩增来自文库的核酸,所述文库例如,基因文库,如环境文库。也可以用扩增反应对样品中的核酸进行定量(如细胞样品中信息的量)、标记核 酸(例如,将其应用于阵列或印迹)、检测核酸或对样品中的特定核酸量进行定量。在本发 明的一个方面,来自细胞或cDNA文库的信息被扩增。技术人员可以选择和设计合适的寡核苷酸扩增引物。扩增方法也是本领域熟 知的,包括,例如,聚合酶链式反应PCR(参见例如PCR PROTOCOLS, A GUIDE TO METHODS AND APPLICATIONS, ed. Innis,Academic Press, N. Y. (1990)和 PCR STRATEGIES (1995), ed. Innis, Academic Press, Inc.,N. Y.,连接酶链式反应(LCR)(参加例如 Wu (1989) Genomics 4560 ;Landegren(1988)Science 241 1077 ;Barringer(1990)Gene 89 117); 转录扩增(参见例如Kwoh (1989) Proc. Natl. Acad. Sci. USA 86:1173);和自主维持序列复 制(参见例如 Guatelli (1990)Proc. Natl. Acad. Sci. USA 87 1874) ;Q β 复制酶扩增(参见 例如 Smith (1997) J.Clin. Microbiol. 35 :1477-1491),自动 Q3 复制酶扩增试验(参见例 如Burg(1996)Mol. Cell. Probes 10 :257_271)和其它 RNA聚合酶介导的技术(例如 NASBA, Cangene, Mississauga, Ontario) ;iii#jAL Berger (1987)Methods Enzymo 1. 152 307-316 ;Sambrook ;Ausubel ;美国专禾丨J 4,683,195 禾口 4,683,202 ;Sooknanan(1995)Biotechnology 13 :563-564。测定序列同一性程度本发明提供包括与本发明示例性核酸或多肽(包括其酶活性片段)具有至少大 约 70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、 85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或 更高或完全(100%)序列同一性(同源性)的序列的核酸以及编码它们的核酸(包括两种 链,即,有义和无义,编码或非编码)。可以用任何计算机程序和相关参数,包括本文所述的 那些,例如BLAST 2. 2. 2.或FASTA版本3. 0t78测定序列同一性(同源性)的程度,参数为 默认值。本发明的核酸序列可以包括本发明示例性序列的至少10、15、20、25、30、35、40、 50、75、100、150、200、300、400或500个连续核苷酸和与其基本上相同的序列。可以用本文所述的任何计算机程序和参数,包括FASTA版本3. 0t78和默认参数测 定序列同一性(同源性)。在可选的方面,同源序列也包括其中尿苷替换了本发明核酸序列 中的胸苷的RNA序列。同源序列可以用本文所述的任何方法获得,或者可以从对测序错误 的校正中得到。应该理解,本发明的核酸序列可以表示为传统的单字母格式(参见Stryer, Lubert. Biochemistry, 3rd Ed. , W. H Freeman & Co. , New York ^iMΞ.) $以i己歹[J 中核苷酸的身份的任何其它格式表示。如本文所用,术语“计算机”、“计算机程序”和“处理器”以其最宽泛的一般意义应 用,包括所有这样的设备,如下文详细描述。特定多肽或蛋白质的“编码序列”或“编码特定 多肽或蛋白质的序列”是当置于合适的调节序列的控制之下时,被转录和翻译成多肽或蛋 白质的核酸序列。在可选的实施方式中,可以使用任何计算机应用任何序列比较程序。在可选 的实施方式中,蛋白和/或核酸序列同一性(同源性)可以使用本技术领域已知的各 种序列比较算法和程序中的任意一种以及计算机来评价;例如,这样的算法和程序包括 TBLASTN、BLASTP, FASTA, TFASTA 禾口 CLUSTALW(参见,例如 Pearson and Lipman, Proc. Natl. Acad. Sci. USA 85(8) =2444-2448,1988 ;Altschul 等,J. Mol. Biol. 215 (3) 403-410, 1990 ;Thompson Nucleic Acids Res. 22(2) :4673-4680,1994;Higgins φ, Methods Enzymo 1. 266 :383_402,1996 ;Altschul 等,J. Mol. Biol. 215(3) 403-410,1990 ;Altschul 等,Nature Genetics3 -.266-272,1993)。在可选的实施方式中,使用嵌在计算机中的序列分析软件测量同源性或同一性, 例如,使用Genetics Computer Group,University of Wisconsin Biotechnology Center, 1710 University Avenue,Madison, WI 53705的序列分析软件包。在可选的实施方式中,软 件通过对各种缺失、取代和其它修饰赋予序列同一性(同源性)程度来匹配相似序列。在 两个或者多个核酸或者多肽序列的上下文中,术语“同源性”和“序列同一性”指当两个或更 多个序列或子序列在某一比较窗口(comparison window)或者指定区域内被比较和比对以 确定最大一致性时,这些序列是相同的,或者具有特定百分比的相同氨基酸残基或核苷酸, 其可以应用各种序列比较算法或者通过人工比对和视觉观察来测定。在可选的实施方式中,对于序列比较,一个序列作为参考序列,测试序列与之进行
38比较。当使用序列比较算法时,将测试序列和参考序列输入到计算机中,指定子序列坐标, 如果必要,也指定序列算法程序参数。可以使用默认的程序参数,或者可以指定可选的参 数。在可选的实施方式中,然后基于程序参数,序列比较算法计算出测试序列相对于参考序 列的序列同一性百分比。如本文所用,“比较窗口(comparison window) ”包括参考选自20至600、通常是约 50至约200、更通常是约100至约150的任一数目的连续位置的片段,其中在两个序列最佳 比对之后,一个序列可以和具有相同数目的连续位置的参考序列进行比较。对序列进行比 对用于比较的方法是本领域熟知的。在可选的实施方式中,例如,通过Smith & Waterman, Adv. Appl. Math. 2 :482,1981 的局部同源性算法,通过 Needleman & Wunsch,J. Mol. Biol 巡443,1970 的同源性比对算法,通过 person & Lipman,Proc. Nat ‘ 1. Acad. Sci. USA 85 :2444,1988的查找相似性方法,通过这些算法的计算机化实施(GAP 、BESTFIT 、FASTA 禾口 TFASTA,在 Wisconsin Genetics Software Package, Genetics Computer Group,575 Science Dr.,Madison, WI),或者通过人工比对和视觉观察,可以对序列进行最佳比对用于 比较。在可选的实施方式中,确定同源性或同一性的算法,除了 BLAST程序(Bas i c Local Alignment Search Tool,在 the National Center for Biological Information) 之外,还包括例如ALIGN 、AMAS(多重比对序列分析(Analysis of Multiply Aligned Sequences))、AMPS (蛋白质多重序列比对(Protein Multiple Sequence Alignment))、 ASSET(比对片段统计学评价工具(Aligned Segment Statistical Evaluation Tool))、 BANDS、BESTSC0R、BI0SCAN(生物学序列比较分析节点(Biological Sequence Comparative Analysis Node))>BLIMPS(BLocks IMProved Searcher)>FASTA>Intervals & Points、BMB、 CLUSTAL V、CLUSTALW、CONSENSUS、LCONSENSUS,WCONSENSUS、Smith-ffaterman 算法、DARWIN、 Las Vegas 算法、FNAT (Forced Nucleotide Alignment Tool) ,RAMEALIGN , FRAME SEARCH , DYNAMIC 、FILTER 、FSAPTM(Fristensky 序列分析软件包(Fristensky Sequence Analysis Package))、GAP(全局比对程序(Global Alignment Program))、GENAL 、GIBBS 、 GENQUEST 、ISSC (灵敏性序列比较(Sensitive Sequence Comparison) )、LALIGN (局部 序列比对(LocalSequence Alignment))、LCP (局部内容程序(Local Content Program))、 MACAW (多重比对构建和分析工作台(Multiple Alignment Construction & Analysis Workbench) )、MAP (多重比对程序(Multiple Alignment Program))、MBLKP 、MBLKN 、 PIMA (模式诱导的多重序列比对(Pattern-Induced Multi-sequence Alignment))、 SAGA (通过遗传算法的序列比对(Sequence Alignment by Genetic Algorithm))和 WHAT-IF 。也可以用这些比对程序筛选基因组数据库,确定具有基本上相同序列的多核苷 酸序列。在可选的实施方式中,使用BLAST和BLAST 2. O算法,例如在Altschul等,Nuc. Acids Res. 25 :3389_3402,1977 and Altschul 等,J. Mol. Biol. 215 :403_410,1990 中分 别描述。进行BLAST分析的软件可以通过美国国家生物技术信息中心(National Center for Biotechnology Information)公开得到。这一算法涉及首先通过鉴别待询序列(query sequence)中长度为W的短的字串来确定高分序列对(high scoring sequence pairs, HSPs),所述字串在与数据库序列中同样长度的字串比对时,匹配或者满足某个正值的阈值
39T0 T是指邻近字串(neighborhood word)的分数阈值(Altschul等,同上)。这些初始的 邻近字串命中(hit)被用作启动搜索以发现包含有它们的更长的HSPs的种子。所述字串 命中沿着每一个序列向两个方向延伸,只要可以增加累积的比对分数。对于核苷酸序列,使 用参数M(—对匹配的残基的奖励分数;总是大于0)来计算累积分数。对于氨基酸序列,应 用计分矩阵计算累积分数。出现下面情况时,字串命中在各个方向上的延伸便停止累积的 比对分数由达到的最大值下降了数量X ;由于一个或者多个记分为负的残基比对的累积, 累积分数达到0或者0以下;或者延伸到了任一序列的末端。BLAST算法的参数W、T和X 决定了比对的灵敏度和速率。BLASTN程序(对于核苷酸序列)默认的是字串长度(W)为 11,期望值(E)为10,M = 5,N = -4,对两条链进行比较。对于氨基酸序列,BLASTP程序默 认字串长度为3,期望值(E)为10,BL0SUM62记分矩阵(参见Henikoff和Henikoff (1989) Proc. Natl. Acad. Sci. USA89 10915)比对(B)为 50,期望值(E)为 10,M = 5,N =-4,对两 条链进行比较。BLAST算法也对两条序列之间的相似性进行统计学分析(参见例如Karlin & Altschul,Proc. Natl. Acad. Sci. USA 90 :5873,1993)。由 BLAST 算法提供的一种相似性量 度是最小合计概率(smallest sum probability, P(N)),其表示两个核苷酸或者氨基酸序 列间的匹配将偶然发生的概率。例如,在测试核酸和参考核酸的比较中,如果最小合计概率 在大约0.2以下,更多地在一个方面是0.01以下,最多地在一个方面是大约0. 001以下,就 认为该核酸与参考序列相似。一方面,应用基本局域比对搜索工具(Basic Local Alignment Search Tool) (“BLAST”)来评价蛋白和核酸序列同源性。具体而言,应用5个特定的BLAST程序执行下 列任务(I)BLASTP和BLAST3将氨基酸待询序列与蛋白质序列数据库进行比较;(2)BLASTN将核苷酸待询序列与核苷酸序列数据库进行比较;(3)BLASTX将待询核苷酸序列(两条链)的6框架概念翻译产物与蛋白质序列数 据库进行比较;(4)TBLASTN将待询蛋白质序列与以所有6框架可读框(两条链)翻译的核苷酸序 列数据库进行比较;和(5) TBLASTX将核苷酸待询序列的6框架翻译产物与核苷酸序列数据库的6框架翻 译产物进行比较。在可选的实施方式中,BLAST程序用于通过鉴定待询氨基酸序列或核酸序列 和测试序列之间的相似片段来鉴定同源序列,本文中将所述相似片段称为“高分数片段 对(high-scoring segment pairs) ”,在一个方面,测试序列获自蛋白质或核酸序列数据 库。在一个方面,通过计分矩阵的方式鉴定(即,比对)高分数片段对,许多计分矩阵是本 领域已知的。在一个方面,应用的计分矩阵是BL0SUM62矩阵(Gonnet等,Science 256 1443-1445,1992 ;Henikoff and Henikoff, Proteins 17:49-61,1993)。较少地在一个方 面,也可以应用PAM或PAM250矩阵(参见例如Schwartz and Dayhoff,eds. , 1978,Matrices for Detecting Distance Relationships :Atlas of Protein Sequence and Structure, Washington :National Biomedical Research Foundation)。BLAST 禾呈序可以由美国国立 医学图书馆(U. S. National Library of Medicine)得到。
根据所研究的序列长度和同源性程度,上述算法应用的参数可以调整。在某些方 面,在不存在使用者的指示时,参数可以是算法所用的默认参数。计算机系统和计算机程序产品在一种实施方式中,本发明提供包括处理器和数据储存或机器可读存储设备的计 算机系统,其中所述数据存储设备在其上存储有多肽序列或核酸序列,其中所述多肽序列 包括本发明的多肽(氨基酸)序列或由本发明的核酸(多核苷酸)序列编码的多肽。为了测定和识别序列同一性、结构同源性、模体和类似性质,可以在可由计算机读 取和访问的任何介质上对本发明的核酸或多肽序列进行存储、记录和操作。在可选的实施 方式中,本发明提供其上记录或存储了本发明的核酸和多肽序列的计算机、计算机系统、计 算机可读介质、计算机程序产品和类似设备。如本文所用,词语“记录(recorded)”和“存储 (stored) ”是指在计算机介质上存储信息的过程。技术人员可以容易地采用任何已知方法, 在计算机可读介质上记录信息,产生包括本发明一个或多个核酸和/或多肽序列的制品。可以使用本文描述的、可操作地保存在计算机上的任一计算机程序和参数测定 同源性(序列同一性)。本发明的核酸序列或多肽序列可以在任何介质上存储、记录和操 作,所述介质可以由计算机读取和访问。如本文所用,词语“记录(recorded)”和“存储 (stored) ”是指在计算机介质上存储信息的过程。技术人员可以容易地采用任何现在已知 方法在计算机可读介质上记录信息,产生包括本发明一个或多个核酸序列、本发明一个或 多个多肽序列的制品。本发明的另一方面是计算机可读介质,其上记录了本发明的至少2、 5、10、15或20或更多个核酸或多肽序列。本发明的另一方面是计算机可读介质,其上记录了本发明的一个或多个核酸序 列。本发明的另一方面是计算机可读介质,其上记录了本发明的一个或多个多肽序列。本 发明的另一方面是计算机可读介质,其上记录了如以上所列的至少2、5、10、15或20或更多 个核酸或多肽序列。计算机可读介质包括磁性可读介质、光可读介质、电子可读介质和磁/光介质。例 如,计算机可读介质可以是硬盘、软盘、磁带、CD-ROM、数字化视频光盘(DVD)、随机存取存储 器(RAM)或只读存储器(ROM)以及本领域技术人员已知的其它类型的其它介质。在可选的实施方式中,被操作地保存和用计算机使用的程序和数据库包 括例如MacPattern (EMBL)、DiscoveryBase (Molecular Applications Group)、 GeneMine (Molecular Applications Group)、Look (Molecular Applications Group)、MacLook (Molecular Applications Group)、BLAST 禾口 BLAST2 (NCBI)、 BLASTN 禾口 BLASTX (Altschul 等,J. Mol. Biol. 215 403, 1990) , FASTA (Pearson and Lipman, Proc. Natl. Acad. Sci. USA,M :2444,1988) 、 FASTDB (Brutlag 等 Comp. App. Biosci. 6 237-245, 1990) 、 Catalyst (Molecular Simulations Inc. ) 、 Catalyst / SHAPE (Molecular Simulations Inc. )> Cerius2. DBAccess (Molecular Simulations Inc.)>HypoGen (Molecular Simulations Inc.)>Insight II 、(Molecular Simulations Inc. ) > Discover (Molecular Simulations Inc. ) > CHARMm (Molecular Simulations Inc. )> Felix (Molecular Simulations Inc. )、DelPhi 、(Molecular Simulations Inc. )、QuanteMM 、(Molecular Simulations Inc. )、Homology (Molecular Simulations Inc. ) > Modeler (Molecular Simulations Inc.)> ISIS (Molecular SimulationsInc. ) > Quanta /Protein Design(Molecular Simulations Inc. ) > WebLab (Molecular Simulations Inc. ) > WebLab Diversity Explorer(Molecular Simulations Inc.)、 Gene Explorer (Mo1ecu1ar Simulations Inc.)> SeqFold (Molecular Simulations Inc.) > MDL Available Chemicals Directory—_、MDL Drug Data Report—_、 Comprehensive Medicinal Chemistry 数据库、Derwents’ s World Drug Index 数据库、 BioByteMasterFile 数据库、Genbank 数据库和 Genseqn 数据库。可用上述程序检测的模体包括编码亮氨酸拉链、螺旋_转角-螺旋模体、糖基化位 点、泛素化位点、α螺旋和β片层的序列、编码指导被编码的蛋白进行分泌的信号肽的信 号序列、参与转录调节的序列如同源框、酸性伸展(acidic stretches)、酶活性位点、底物 结合位点和酶切割位点。核酸的杂交本发明提供分离的、合成的或重组的核酸,其在严格条件下与包括本发明的示例 性序列在内的本发明序列杂交。严格条件可以是高度严格条件、中度严格条件和/或低度 严格条件,包括本文所述的高度严格条件和降低的严格条件。一方面,洗涤条件的严格性阐 明了确定一个核酸是否处于本发明范围内的条件,如下所论述。在一个实施方式中,“杂交”是指核酸链通过碱基配对与互补链结合的过程;杂交 反应可以是灵敏性的和选择性的,使得可以鉴定出甚至在样品中以低浓度存在的感兴趣的 特定序列。在可选的实施方式中,严格条件可以通过预杂交液和杂交液中的盐或甲酰胺浓 度,或者由杂交温度来限定,并且是本领域中熟知的。具体而言,通过降低盐浓度、增加甲酰 胺浓度或增高杂交温度,严格性可以增加。在可选的方面,本发明的核酸通过它们在各种严 格条件(例如,高度、中度和低度)下杂交的能力来定义,如本文所阐明。在可选的实施方式中,在高严格条件下的杂交包括约37°C至42°C,约50%甲酰胺 的条件。在可选的实施方式中,降低的严格条件包括在约30°C至35°C、约35%至25%甲酰 胺的条件。一方面,在例如42°C、50%甲酰胺中、5X SSPE.0. 3% SDS和200 μ g/ml经剪切 和变性的鲑精DNA中的高度严格条件下,杂交发生。一方面,在这些降低严格条件下,但是 在35%甲酰胺中、在35°C的降低温度下,杂交发生。通过计算感兴趣核酸中的嘌呤与嘧啶 比率和相应地调整温度,相应于特定严格性水平的温度范围可以进一步缩窄。对上述范围 和条件的变化是本领域熟知的。在可选的方面,由它们在严格条件下与本发明示例性核酸杂交的能力所限定的本 发明核酸(例如,示例性SEQ ID NO =USEQ ID NO :9、SEQ ID NO 17,SEQ ID NO 24、SEQ ID NO 31);例如,它们的长度可以是至少 5、10、15、20、25、30、35、40、50、55、60、65、70、75、80、 90、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、 1000或更多个残基。也包括短于全长的核酸。这些核酸可以用作例如杂交探针、标记探针、 PCR寡核苷酸探针、iRNA (siRNA或miRNA,单链或双链)、反义或编码抗体结合肽(表位)、 模体、活性位点等的序列。一方面,本发明的核酸通过它们在高度严格性下杂交的能力定义,高度严格性包 括在大约37°C到42°C的温度下大约50%的甲酰胺的条件。一方面,本发明的核酸通过 它们在降低的严格性下杂交的能力定义,降低的严格性包括在大约30°C到35°C在大约 35% -25%的甲酰胺中的条件。可选地,本发明的核酸通过它们在高度严格性下杂交的能力定义,高度严格性包括的条件为在42°C、在50%甲酰胺、5X SSPE、0. 3% SDS中,和封闭 核酸的重复序列,如cot-1或鲑精DNA (例如200 μ g/ml的剪切和变性鲑精DNA)。一方面, 本发明的核酸通过它们在降低的严格性条件下杂交的能力定义,降低的严格性条件包括在 35 °C的降低温度下的35 %甲酰胺中。在可选的实施方式中,核酸杂交反应包括用于获得特定的严格性水平的条件且可 以根据正在被杂交的核酸性质改变。例如,在选择杂交条件时,可以考虑核酸杂交区域的长 度、互补程度、核苷酸序列组成(例如,GC与AT含量)和核酸类型(例如RNA与DNA)。其 它的考虑是核酸之一是否被固定,例如,被固定在滤膜(filter)上。在可选的实施方式中,杂交可以在低度严格性、中度严格性或高度严格性条件下 进行。本发明的任何杂交反应可以被定义为包括洗涤,例如在缓冲液中室温洗涤30分钟, 缓冲液例如含有 0. 5% SDS 的 IX SET(150mM NaCl、20mM Tris 盐酸、pH 7. 8、lmM Na2EDTA), 随后在新鲜的缓冲液例如IX SET中洗涤30分钟。一方面,杂交条件包括洗涤步骤,其包括 在包含 IX 150mM NaCl、20mM Tris 盐酸、pH 7. 8、ImM Na2EDTA、0. 5% SDS 的溶液中在室温 洗涤30分钟,随后在新鲜的溶液中洗涤。在可选的实施方式中,核酸杂交反应包括使用含有固定化变性核酸的聚合物 膜,其首先在 45°C、在由 0. 9M NaCl、50mM NaH2PO4, pH 7. 0,5. OmM Na2EDTA^O. 5% SDUOX Denhardt' s和0. 5mg/ml多核糖腺苷酸组成的溶液中预杂交30分钟。大约2X 107cpm(比 活性4-9X108cpm/ug)的32P末端标记寡核苷酸探针随后加入溶液中。温育12-16小时之 后,在含有 0. 5% SDS 的 IX SET(150mM NaCl、20mMTris 盐酸、pH 7. 8、ImM Na2EDTA)中室温 下洗涤膜30分钟,随后在新鲜的IX SET中、于Tm-10°C洗涤30分钟,洗涤寡核苷酸探针。随 后使膜暴露于放射自显影胶片,用于检测杂交信号。杂交之后,滤膜可以被洗涤以去除任何非特异性结合的可检测探针。根据被杂交 核酸的性质、被杂交核酸的长度、互补程度、核酸序列组成(例如,GC与AT含量)和核酸类 型(例如RNA与DNA),用于洗涤滤膜的严格性也可以变化。可以使用的渐增的严格条件洗 涤的例子如下:2X SSC、0. 1% SDS,室温下15分钟(低度严格性);0. IX SSC、0. 5% SDS,室 温下30分钟至1小时(中度严格性);0. IX SSC、0. 5% SDS, 15至30分钟,在杂交温度和 68°C之间(高度严格性);和0. 15M NaCl,15分钟,72°C (非常高度的严格性)。最后的低 度严格性洗涤可以在0. 1XSSC、室温下进行。上面的例子仅仅阐述了可用于洗涤滤膜的一组 条件。本领域技术人员会知道,对于不同严格性的洗涤有许多配方。一些其它例子在下文
全A屮
口 QQ ο 与探针杂交的核酸通过放射自显影或其它常规技术鉴定。可以对上面的步骤进行修改,以鉴定出与探针序列具有降低的同源性水平的核 酸。例如,为了得到与可检测探针有降低同源性的核酸,可以应用较不严格的条件。例如, 在Na+浓度约IM的杂交缓冲液中,杂交温度可以从68°C至42°C以5°C逐步降低。杂交之 后,可以用2XSSC、0. 5% SDS在杂交温度下洗涤滤膜。认为这些条件在高于50°C时是“中 度”条件,在低于50°C时是低度条件。“中度”杂交条件的一个具体例子是在55°C进行上述 杂交时。“低度严格性”杂交条件的一个具体例子是在45°C进行上述杂交时。可选地,杂交可以在含有甲酰胺的缓冲液如6X SSC中、在42°C的温度下进行。在 此情况下,杂交缓冲液中的甲酰胺浓度可以从50%至0%以5%逐步降低,以鉴定与探针具
43有降低的同源性水平的克隆。杂交之后,可以用6X SSC、0.5% SDS在50°C洗涤滤膜。认为 这些条件在高于25%甲酰胺时是“中度”条件,在低于25%甲酰胺时是低度条件。“中度” 杂交条件的一个具体例子是在30%甲酰胺下进行上述杂交时。“低度”杂交条件的一个具 体例子是在10%甲酰胺下进行上述杂交时。然而,对杂交形式的选择不是关键性的——是洗涤条件的严格性提出了决定核酸 是否在本发明范围内的条件。用于鉴定本发明范围内核酸的洗涤条件包括,例如,盐浓度约 0.02摩尔、pH 7和温度至少约50°C或约55°C至约60°C;或者,盐浓度约0. 15M NaCl,72°C, 约15分钟;或者,盐浓度约0. 2X SSC,温度至少约50°C或约55°C至约60°C,约15至约20 分钟;或者,用含有0. 1%SDS的盐浓度约2X SSC的溶液洗涤杂交复合物2次,室温下15分 钟,随后用含0. 1 % SDS的0. IXSSC洗涤2次,68°C 15分钟;或者等价条件。对于SSC缓冲 液和等价条件的描述,参见Sambrook、Tijssen和Ausubel。寡核苷酸探针和使用它们的方法本发明也提供可以用于例如鉴定编码具有KsdA、CxgA, CxgB, CxgC或CxgD (分别 是 SEQ ID N0:2、SEQ ID NO 10 (禾口 SEQ IDNO 11)、SEQ ID NO: 18、SEQ ID NO 25, SEQ ID NO 32)酶活性的多肽的核酸的核酸探针。在可选的实施方式中,本发明的探针可以是至少 大约 5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、 55、60、65、70、75、80、85、90、95、100、110、120、130、150、或大约 10 至 50、大约 20 至 60、大约 30至70个本发明的核酸序列的连续碱基。探针通过结合和/或杂交鉴定核酸。探针可以 用在本发明阵列中,参见下面的论述,包括,例如,毛细管阵列。本发明探针也可以用于分离 其它核酸或多肽。本发明的分离的核酸、与其互补的序列、或包括本发明的序列之一的至少10、15、 20、25、30、35、40、50、75、100、150、200、300、400或500个连续碱基的片段、或与其互补的序
列也可以用作探针,以确定生物样品如土壤样品是否含有具有本发明核酸序列的生物体或 从中可得到所述核酸的生物体。在这样的方法中,获得潜在地含有从其中分离出所述核酸 的生物体的生物样品,并且从样品中得到核酸。在允许探针与来自本文所述序列的任何互 补序列特异杂交的条件下,使核酸与探针接触。在必要的情况下,通过使探针与来自已知含有所述互补序列的样品的互补序列以 及不含有所述互补序列的对照序列接触,可以确定允许探针与互补序列特异杂交的条件。 杂交条件如杂交缓冲液的盐浓度、杂交缓冲液的甲酰胺浓度或杂交温度可以变化,以鉴定 使探针与互补核酸特异杂交的条件。如果样品含有从其中分离出核酸的生物体,则检测到探针的特异杂交。通过用可 检测试剂如放射性同位素、荧光染料或能够催化可检测产物形成的酶标记探针,可以检测 杂交。使用标记探针检测样品中互补核酸存在情况的许多方法是本领域技术人员熟悉 的。这些方法包括DNA印迹、RNA印迹、集落杂交方法和斑点印迹。这些方法中的每一种方 法的方案提供在 Ausubel 等 Current Protocols in Molecular Biology, John Wiley 503 Sons,Inc. (1997) and Sambrook 等,Molecular Cloning :A Laboratory Manual 2nd Ed., Cold Spring Harbor Laboratory Press (1989)中提供。可选地,可以在扩增反应中使用一种以上的探针(其中至少一种探针能够与核
44酸样品中存在的任何互补序列特异性杂交)来确定样品中是否包括含有本发明核酸序列 的生物(例如,从其分离出所述核酸的生物)。典型地,探针包括寡核苷酸。一方面,扩增 反应可以包括PCR反应。PCR方案描述于上述Ausubel和Sambrook文献中。可选地,扩 增可以包括连接酶链式反应、3SR或链置换反应(参见Barany,F.,“The Ligase Chain Reaction in a PCR World", PCR Methods and Applications! :5_16,1991 ;E. Fahy 等, "Self-sustained Sequence Replication(3SR) :An Isothermal Transcription-based Amplification System Alternative to PCRPCR Methods and Applications 丄25_33, 1991 ;禾口Walker G. T.等,“Strand Displacement Amplification-an Isothermal in vitro DNA Amplification Technique”,Nucleic Acid Research 巡1691—1696,1992)。在这样 的方法中,样品中的核酸与探针接触,进行扩增反应,检测任何得到的扩增产物。通过对反 应产物进行凝胶电泳和用嵌入剂如溴化乙啶对凝胶染色,可以检测扩增产物。可选地,可以 用放射性同位素标记一种或多种探针,在凝胶电泳之后,通过放射自显影可以检测放射性 扩增产物的存在。通过改变用于鉴定与可检测探针杂交的核酸如cDNA或基因组DNA的杂交条件的 严格性,可以鉴定和分离与探针具有不同的同源性水平的核酸。通过在低于探针解链温度 的变化温度下进行杂交,严格性可以变化。解链温度1是50%的靶序列与完全互补的探针 杂交的温度(在限定的离子强度和PH下)。选择非常严格的条件,使其与特定探针的Tm相 等,或比Tm低大约5°C。应用下列公式可以计算探针的解链温度对于长度在14和70个核苷酸之间的探针,用公式Tm = 81.5+16.6(log[Na+])+0.41(G+C比例分数)_ (600/N)计算解链温度(Tm),其中N是探针的 长度。如果杂交在含有甲酰胺的溶液中进行,可以用等式Tm = 81. 5+16. 6 (log[Na+] )+0. 41 (G+C 比例分数)-(0. 63 % 甲酰胺)-(600/N)计算解链温度,其 中N是探针的长度。预杂交可以在6X SSC、5X Denhardt' s试剂、0. 5% SDS、100 μ g变性片段化鲑精 DNA 或 6X SSC、5X Denhardt ‘ s 试剂、0. 5% SDS、100 μ g 变性片段化鲑精 DNA、50% 甲酰胺 中进行。SSC和Denhardt ‘ s溶液的配方在Sambrook等,见上中列出。通过将可检测探针加入上面列出的预杂交液进行杂交。当探针包括双链DNA时, 在将其加入杂交液之前对其变性。使滤膜与杂交液接触足够长时间,使探针与含有与其互 补或与其同源的序列的cDNA或基因组DNA杂交。对于长度超过200个核苷酸的探针,杂 交可以在低于Tm 15-25°C下进行。对于较短的探针,如寡核苷酸探针,杂交可以在低于Tm 5-10°C下进行。一方面,对于在6XSSC中的杂交,杂交在约68°C进行。在一个方面,对于在 含有50 %甲酰胺的溶液中杂交,杂交在约42 °C进行。抑制KsdA-、CxgA-, CxgB-, CxgC-和 / 或 CxgD 的表达本发明提供与编码KsdA、CxgA, CxgB, CxgC或CxgD的核酸互补(例如与其反义的 序列)的核酸,包括含有反义、iRNA、核酶的核酸。用于实施本发明的核酸可以包括能够抑 制KsdA、CxgA, CxgB, CxgC或CxgD编码基因的转运、剪接或转录的反义序列。在可选的实 施方式中,KsdA、CxgA, CxgB, CxgC和/或CxgD编码核酸的信息(mRNA)的表达被对KsdA、 CxgA, CxgB, CxgC或CxgD编码核酸的信息(mRNA)特异的反义、核酶和/或RNAi缺失或干扰。在可选的实施方式中,抑制可以通过靶向于基因组DNA或转录物(mRNA)来实现。 例如通过杂交和/或切割,靶核酸的转录或功能可以受到抑制。在可选的实施方式中,使用 能够结合KsdA、CxgA, CxgB, CxgC或CxgD的编码核酸、基因或信息以阻止或抑制这些多肽 的生产或功能的寡核苷酸。结合可以通过序列特异性杂交进行。在可选的实施方式中,可以使用的抑制剂包括使ksdA、cxgA, cxgB, cxgC和/或 cxgD (分别是 SEQ ID NO =USEQ ID N0:9、SEQ ID NO: 17、SEQ ID NO 24 and SEQ ID NO: 31)信息失活或切割的寡核苷酸。寡核苷酸可以具有引起这种切割的酶活性,如核酶。寡核 苷酸可以被化学修饰或连接到能够切割互补核酸的酶或组分。可以对一组许多不同的这些 寡核苷酸进行筛选,筛选具有所需活性的那些寡核苷酸。因此,本发明提供了在核酸和/或 蛋白质水平上抑制KsdA-、CXgA-、CXgB-、CxgC-和/或CxgD-表达的各种组合物,例如,包括 本发明ksdA、cxgA, cxgB, cxgC和/或cxgD序列的反义分子、iRNA(例如siRNA、miRNA)和 核酶以及本发明抗体(包括抑制KsdA、CXgA、CXgB、CXgC和/或CxgD表达或活性的抗体)。反义寡核苷酸本发明提供能够结合ksdA、cxgA, cxgB、cxgC和/或cxgD信息的反义寡核苷酸, 一方面,其通过可以靶向mRNA抑制KsdA、CxgA, CxgB、CxgC和/或cxgD的活性。设计反义 寡核苷酸的策略充分描述于科技文献和专利文献中,技术人员可以使用本发明的新试剂设 计该 ksdA、cxgA、cxgB、cxgC和 / 或 cxgD (分别是 SEQ ID NO =USEQ ID N0:9、SEQ ID NO: 17、SEQ ID N0:24和SEQ ID NO 31)寡核苷酸。例如,筛选有效的反义寡核苷酸的基因步 移/RNA绘图方案是本领域公知的,参见,例如,Ho (2000)Methods Enzymol. 314 =168-183, 其描述了 RNA绘图分析,它基于标准的分子技术,为选择有效的反义序列提供简便和可靠 的方法。也参见 Smith (2000)Eur. J. Pharm. Sci. 11 :191_198。天然存在的核酸被用作反义寡核苷酸。反义寡核苷酸可以是任意长度;例如,在可 选方面,这些反义寡核苷酸在大约5到100之间,大约10到80之间,大约15到60之间,大 约18到40之间。最适长度可以通过常规筛选来决定。这些反义寡核苷酸可以以任意浓度 存在。最适浓度可通过常规筛选来决定。各种合成的、非天然发生的核苷酸和核酸类似物是 已知的,它们可以解决这一潜在的问题。例如,可以使用含有非离子骨架的肽核酸(PNAs), 如N-(2-氨基乙基)甘氨酸单元。也可以使用具有硫代磷酸酯键的反义寡核苷酸,正如在 如下文献中所描述的W0 97/03211 ;WO 96/39154 ;Mata(1997)Toxicol Appl Pharmacol 144 189-197 ;Antisense Therapeutics,ed. Agrawal(Humana Press,Totowa,N. J. ,1996)。 正如上面所描述的,本发明提供的具有合成DNA骨架类似物的反义寡核苷酸也可以包括二 硫代磷酸酯、甲基膦酸、氨基磷酸酯、烷基磷酸三酯、氨基磺酸酯、3'-硫代乙缩醛、亚甲基 (甲基亚氨)、3' -N-氨基甲酸酯和吗啉代氨基甲酸酯核酸。组合化学方法学可用于产生大量能被快速筛选特异性寡核苷酸的寡核苷酸,所述 特异性寡核苷酸对任何靶标具有适当的结合亲和性和特异性,所述靶标例如本发明的有义 和反义脱氨酶的酶序列,脱氨酶诸如苯丙氨酸脱氨酶、酪氨酸脱氨酶和/或组氨酸脱氨酶 (参见,例如 Gold (1995) J. of Biol. Chem. 270 13581-13584)。抑制性核酶本发明提供能够结合ksdA、cxgA、cxgB、cxgC和/或cxgD (分别是SEQ ID NO :1、
46SEQ ID NO :9、SEQ ID NO :17、SEQ ID NO 24 和 SEQ ID NO 31)信息的核酶。通过例如靶 向mRNA,这些核酶可以抑制KsdA、CxgA, CxgB, CxgC和/或CxgD活性。设计核酶和选择用 于靶向的ksdA、cxgA, cxgB, cxgC和/或cxgD特异性反义序列的策略在科学和专利文献中 有很好的描述,技术人员能使用本发明的新试剂来设计这样的核酶。核酶通过核酶的靶RNA 结合部分来与靶RNA结合,从而发挥作用,核酶的靶RNA结合部分与该RNA的切割靶RNA的 酶促部分非常接近。因此,通过互补的碱基配对,核酶识别和结合靶RNA,而且一旦结合于正 确的位置,便以酶的活性作用来切割靶RNA和使其失活。如果切割发生在编码序列中,以这 样的方式切割靶RNA将会破坏其引导合成编码的蛋白的能力。核酶结合和切割其RNA靶之 后,它可以从该RNA释放出来并且重复结合和切割新的靶标。在一些情况下,核酶的酶性质会优于其它的技术,如反义技术(其中核酸分子仅 仅结合于核酸靶,以阻止其转录、翻译或者与其它分子的联系),因为实现治疗效果所必要 的核酶有效浓度可能低于反义寡聚核苷酸的浓度。这一潜在的优点反映出核酶可以以酶的 方式进行作用的能力。因此,单个核酶分子可以切割靶RNA的多个分子。此外,核酶典型地 是一种高度特异性的抑制物,其抑制作用的特异性不仅依赖于碱基配对的结合机制,也依 赖于该分子抑制与其结合的RNA的表达的机制。即,所述抑制是由切割靶RNA引起的,因此 特异性定义为靶RNA的切割率与非靶RNA的切割率的比值。除了涉及碱基配对的那些因素, 这种切割机制还依赖于另外的因素。这样,核酶作用的特异性比结合于同样的RNA位点的 反义寡聚核苷酸强。本发明的核酶,例如,具有酶活的核酶RNA分子,可以形成锤头型模体、发夹型模 体、丁型肝炎病毒模体、I组内含子模体和/或与RNA引导序列相联系的RNaseP样RNA。锤 头型模体的例子由例如 Rossi (1992) Aids Research 和 Human Retroviruses 8:183 描述; 发夹型模体由 Hampel (1989)Biochemistry 28 4929 和 Hampel (1990)Nuc. Acids Res. 18 299描述;丁型肝炎病毒模体由Perrotta(1992)Biochemistry 31 :16描述;RNaseP模体由 Guerrier-Takada (1983) Cell 35 849 描述,I 组内含子模体由 Cech 美国专利 4,987,071 描 述。对这些特定模体的叙述不意图是限制性的。本领域技术人员将认识到本发明的核酶, 如,本发明的有酶活的RNA分子,可以有与一个或者多个靶基因RNA区域互补的特异的底物 结合位点。本发明的核酶可以在底物结合位点内或者其周围具有赋予了该分子RNA切割活 性的核苷酸序列。RNA 干扰(RNAi)一方面,本发明提供提供RNA抑制性分子,所谓的“RNAi”分子,其包括本发明的 ksdA、cxgA, cxgB, cxgC 禾口 / 或 cxgD(分别是 SEQ ID NO :1、SEQ ID NO :9、SEQ ID NO :17、 SEQ ID N0:24 禾口 SEQ ID NO 31)序列。RNAi 分子包括双链 RNA(dsRNA)分子。RNAi 分子 例如siRNA和/或miRNA可以抑制ksdA、cxgA、cxgB、cxgC和/或cxgD基因的表达。一方 面,RNAi 分子如 siRNA 和 / 或 miRNA 的长度大约为 15、16、17、18、19、20、21、22、23、24、25 或 更多个双链核苷酸。尽管本发明不限于任何特殊的作用机制,RNAi可进入细胞中,并引起相似或相同 序列的单链RNA(ssRNA)的降解,包括内源性mRNA。当细胞与双链RNA (dsRNA)接触时,来 自同源基因的mRNA被称为RNA干扰(RNAi)的过程选择性地降解。RNAi的一个可能的基 本机制是将与特定的基因序列匹配的双链RNA(dsRNA)打断成为称为小分子干扰RNA的短的碎片,它触发与其序列匹配的mRNA的降解。一方面,本发明的RNAi可用于基因沉默 (gene-silencing)疗法中,见,例如 Shuey (2002)Drug Discov. Today 7:1040-1046。在一 个方面,本发明提供了使用本发明的RNAi例如siRNA和/或miRNA选择性降解RNA的方法。 一方面,微抑制性RNA(miRNA)抑制翻译,而siRNA抑制转录。该过程可在体外、先体外后体 内或体内实施。在一个方面,本发明的RNAi分子可用来在细胞、器官或动物中产生丧失功 能的突变。制备和使用可选择性降解RNA的RNAi分子例如siRNA和/或miRNA的方法在本 领域中是为人所熟知的,见,例如美国专利6,506,559 ;6, 511,824 ;6, 515, 109 ;6, 489, 127。转基因非人动物本发明提供包括本发明的核酸、多肽(例如,KsdA、CXgA、CXgB、CXgC和/或CxgD)、 表达盒或载体或转染细胞或转化细胞的转基因非人动物。本发明也提供制备和使用这些转 基因非人动物的方法。转基因非人动物可以是,例如,包括本发明核酸的山羊、兔、绵羊、猪(包括所有的 猪(swine)、食用猪(hogs)和相关动物)、牛、大鼠和小鼠。这些动物可以用作为,例如,研 究KsdA、CxgA, CxgB, CxgC和/或CxgD活性的体内模型,或者筛选改变体内KsdA、CxgA, CxgB, CxgC和/或CxgD体内活性的试剂的模型。在转基因非人动物中待表达的多肽的 编码序列可以设计为组成型,或者处于组织特异性、发育特异性或诱导型转录调节因子的 控制之下。转基因非人动物可以应用本领域已知的任何方法设计和产生,参见,例如,美 国专利 6,211,428,6, 187,992,6, 156,952,6, 118,044,6, 111,166,6, 107,541,5, 959,171、 5,922,854,5,892,070,5,880,327,5,891,698,5,639,940,5,573,933,5,387,742, 5,087,571,它们描述了制备和使用转化细胞和卵,以及转基因小鼠、大鼠、兔、绵羊、猪和 牛。也参见,例如,Pollock(1999) J. Immunol. Methods 231 :147_157,其描述了在转基因 产乳动物中产生重组蛋白;Baguisi (1999)Nat. Biotechnol. 17 :456_461,说明了转基因山 羊的产生。美国专利6,211,428描述了制备和应用非人哺乳动物,在它们的脑中表达包括 DNA序列的核酸构建体。美国专利5,387,742描述了注射被克隆的重组体或合成DNA序列 进入受精小鼠卵中、将被注射的卵植入代孕雌性中、以及使其生长为转基因小鼠。美国专利 6,187,992描述了制备和应用转基因小鼠。也可以用“基因敲除动物(knockout animals) ”或“基因敲除细胞(knockout cells) ”实施本发明方法。例如,在一个方面,本发明的转基因动物或修饰动物或细胞包括 “基因敲除动物”或基因敲除细胞,例如,基因敲除小鼠或小鼠细胞,其被加工为不表达内源 性ksdA、cxgA、cxgB、cxgC和/或cxgD(分别为SEQ ID NO =USEQ ID NO :9、SEQ IDNO 17、 SEQ ID N0:24和SEQ ID NO 31)基因,并且任选地,敲除的基因被替换成表达另一种(例 如,异源的)的 KsdA、CxgA, CxgB, CxgC 和 / 或 CxgD、或包括 KsdA、CxgA, CxgB, CxgC 和 / 或 CxgD的融合蛋白的基因、或与野生型相比具有比较低的例如非常低的水平的表达的相似编 石马S1IS (comparable encoding gene)。转基因植物和种子本发明提供了包括本发明核酸、多肽(例如,KsdA、CXgA、CXgB、CXgC和/或CxgD)、 表达盒或载体或转染细胞或转化细胞的转基因植物和种子。本发明也提供植物产品,如油、 种子、叶、提取物和类似物,它们包括本发明核酸和/或多肽(例如,KsdA、CxgA, CxgB, CxgC 和/或CxgD)。本发明也提供植物产品,如油、种子、叶、提取物和类似物,它们包括本发明核酸和 / 或多肽(例如,KsdA, CxgA, CxgB, CxgC 和 / 或 CxgD)。在可选的实施方式中,本发明提供包括其中编码KsdA、CxgA, CxgB, CxgC和/或 CxgD的核酸已被缺失或丧失能力的转基因植物和种子。转基因植物可以是双子叶的(双子叶植物)或单子叶的(单子叶植物)。本发明 也提供了制备和使用这些转基因植物和种子的方法。表达本发明多肽的转基因植物或植物 细胞可以根据本领域已知的任何方法构建。参见,例如,美国专利6,309,872。本发明的核酸和表达构建体可以通过任何方式被引入植物细胞。例如,核酸或表 达构建体可以被引入所需植物宿主的基因组,或者,核酸或表达构建体可以是附加体。向所 需植物基因组的引入可以如此,使得宿主的KsdA、CxgA, CxgB, CxgC和/或CxgD生产通过 内源性转录和/或翻译调控元件调节。本发明也提供了“基因敲除植物”,其中通过例如同源重组的基因序列的插入破坏 了同源基因的表达,例如,ksdA、cxgA, cxgB, cxgC和/或cxgD的宿主细胞的等同物。产生 “基因敲除”植物的手段是本领域公知的,参见,例如,Strepp (1998) Proc Natl. Acad. Sci. USA95 4368-4373 ;Miao (1995)Plant J 7 :359_365。本发明的核酸和多肽在任何原核、真核或植物细胞、植物或种子中表达或者被插 入它们中,包括例如 KsdA、CxgA、CxgB, CxgC 和 / 或 cxgD(分别是 SEQ ID NO :1、SEQ ID N0:9、SEQ ID N0:17、SEQ ID NO 24 和 SEQ ID NO 31) “敲除”形式中的插入和 / 或表 达。本发明的转基因植物可以是双子叶的或单子叶的。本发明的单子叶转基因植物的例 子是草,如牧草(蓝草,早熟禾属Poa),饲料草如羊茅属,黑麦草属,温带草,如剪股颖属 (Agrostis),和谷类,如,小麦、燕麦、黑麦、大麦、水稻、蜀黍和玉米(corn)。本发明的双子叶 转基因植物的例子是烟草、豆类,如羽扇豆、马铃薯、甜菜、豌豆、蚕豆和大豆,以及十字花科 植物(Brassicaceae科),如花椰菜,油菜籽,和紧密相关的模式生物拟南芥(Arabidopsis thaliana)。因此,本发明的转基因植物和种子包括很宽范围的植物,包括,但不限于,以下 属的种腰果属(Anacardium)、落花生属(Arachis)、天冬属(Asparagus)、茄属(Atropa)、 燕麦属(Avena)、芸苔属(Brassica)、柑桔属(Citrus)、Citrullus、辣椒属(Capsicum)、 Carthamus,椰子(Cocos)、咖啡(Coffea)、香瓜属(Cucumis)、南瓜属(Cucurbita)、 Daucus、Elaeis、Fragaria、大豆属(Glycine)、棉属(Gossypium)、向曰葵属(Helianthus)、 Heterocallis、大麦属(Hordeum)、天仙子属(Hyoscyamus)、莴苣属(Lactuca)、亚麻 属(Linum)、黑麦草属(Lolium)、羽扇豆属(Lupinus)、番爺属(Lycopersicon)、苹果属 (Malus) >7K W M (Manihot) > Majorana> WHM (Medicago) > ^M (Nicotiana) > 01ea> Oryza>Panieum>Pannisetum>ftf^cM (Persea)、 Μ (Phaseolus) >Pistachia>Pisum>^c 属(Pyrus)、李属(Prunus)、萝卡属(Raphanus)、蓖麻属(Ricinus)、黑麦属(Secale)、千里 光属(Senecio)、Sinapis、爺属(Solanum)、高梁属(Sorghum)、Theobromus、Trigonella、小 麦属(Triticum)、野豌豆属(Vicia)、Vitis、Vigna 和玉蜀黍属(Zea)。本发明也提供了用于产生大量本发明多肽(例如,多肽或抗体)的转基因植 物。例如,参见 Palmgren(1997)Trends Genet. 13 348 ;Chong(1997)Transgenic Res. 6 289-296,用植物生长素诱导的双向甘露氨酸合酶(masl' ,2')启动子和根癌农杆菌介导 的叶盘转化方法在转基因马铃薯植物中产生人乳蛋白酪蛋白。应用已知的程序,技术人员可以通过检测在转基因植物中转基因mRNA或者蛋白
49的增加或者减少来筛选本发明的植物。检测和定量mRNA或者蛋白的方法是本领域熟知的。多肽和肽一方面,本发明提供以下分离的、合成的或重组的多肽和其酶活性片段所述多肽 与 SEQ ID NO :2 具有至少大约 75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、 85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或 更高或完全(100%)序列同一性,并具有KsdA多肽或3-甾酮-Δ1-脱氢酶活性;SEQ ID NO 10 (和SEQ ID NO: 11)和其酶活性片段,并具有CxgA多肽或乙酰辅酶A-乙酰转移酶/ 硫解酶活性;SEQ ID NO 18和其酶活性片段,并具有CxgB多肽或DNA-结合蛋白活性;SEQ ID NO 25和其酶活性片段,并具有CxgC多肽或DNA-结合蛋白活性;和SEQ IDNO 32和其 酶活性片段,并具有CxgD多肽或TetR-样调节蛋白/KstR活性(所有这些多肽是本发明的 多肽)。在一个实施方式中,本发明也提供能够与本发明的这些多肽结合的抗体形式的多 肽。在一个实施方式中,本发明的多肽也包括含有本发明的示例性多肽序列(例如, SEQ ID NO :2,SEQ ID NO :12,SEQ ID NO :13,SEQ ID NO :14,SEQ ID NO 15)、但具有至少 一个氨基酸残基的保守取代而仍然保留其活性(例如,3-留酮-△ 1-脱氢酶活性,或KsdA、 CxgA, CxgB, CxgC或CxgD活性)的氨基酸序列,其中任选地保守取代包括用另一个脂族 氨基酸取代脂族氨基酸;用苏氨酸取代丝氨酸,或反之亦然;用另一个酸性残基取代酸性 残基;用具有酰胺基的另一个残基取代具有酰胺基的残基;用另一个碱性残基交换碱性残 基;或,用另一个芳香残基取代芳香残基,或它们的组合,和任选地脂族残基包括丙氨酸、缬 氨酸、亮氨酸、异亮氨酸或它们的合成等同物;酸性残基包括天冬氨酸、谷氨酸或它们的合 成等同物;包括酰胺基的残基包括天冬氨酸、谷氨酸或它们的合成等同物;碱性残基包括 赖氨酸、精氨酸或它们的合成等同物;或,芳香残基包括苯丙氨酸、酪氨酸或它们的合成等 同物。本发明的多肽也可以比示例性多肽的全长要短。在可以选择的方面,本发明提供 大小范围在大约5到本发明的多肽全长之间的多肽(肽、片段);示例性的大小为大约5、 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、100、125、150、175、200、250、 300、350、400、450、500、550、600、650、700或更多个残基。本发明的肽(例如,本发明的示例
性多肽的子序列)可以用作,例如标记探针、抗原、耐受原、模体、脱氨酶例如苯丙氨酸脱氨 酶、酪氨酸脱氨酶和/或组氨酸脱氨酶的酶活性位点(例如,“催化结构域”)、信号序列和/ 或前体结构域。在一个实施方式中,“氨基酸”或者“氨基酸序列”包括寡肽、肽、多肽、或者蛋白 质序列,或者这些序列中的任何序列的片段、部分或亚基,并且是指天然存在的或者合成的 分子。在一个实施方式中,“氨基酸”或者“氨基酸序列”包含寡肽、肽、多肽、或者蛋白质 序列,或者这些序列中的任何序列的片段、部分或亚基,并且是指天然存在的或者合成的分 子。在一个实施方式中,“多肽”包括通过肽键或者修饰的肽键彼此连接的氨基酸,即,肽 等构物(P印tide isosteres),并可以含有除了 20个基因编码的氨基酸外的修饰氨基酸。 多肽可以被天然过程如翻译后加工修饰,或者被本领域公知的化学修饰技术修饰。修饰可 以在多肽中的任何位置发生,包括肽骨架、氨基酸侧链和氨基端或羧基端。在可选的实施 方式中,相同类型的修饰可以在给定多肽中以相同的或者不同的程度在几个位点存在。给定多肽也可以具有很多类型的修饰。在可选的实施方式中,修饰包括乙酰化、酰化作用、 ADP-核糖基化作用、酰胺化作用、共价连接核黄素、共价连接血红素组分、共价连接核苷酸 或核苷酸衍生物、共价连接脂质或脂质衍生物、共价连接磷脂酰肌醇、交联的环化作用、形 成二硫键、去甲基作用、形成共价交联、形成半胱氨酸、形成焦谷氨酸、甲酰基化作用、Y-羧 化作用、糖基化作用、形成GPI锚、羟基化作用、碘化作用、甲基化作用、肉豆蔻酰基化作用、 氧化作用、聚乙二醇化、葡聚糖水解过程、磷酸化作用、异戊烯作用、外消旋作用、硒化作用、 硫酸盐化作用,和转移RNA介导氨基酸添加到蛋白质中,如精氨酰化。(参见,Creighton, Τ. Ε. , Proteins-Structure and Molecular Properties 2nd Ed. , W. H. Freeman and Company, New York(1993) ;Posttranslational Covalent Modification of Proteins, B. C. Johnson, Ed.,Academic Press, New York, 1-12 页(1983))。本发明的Jj太和多Jj太也包 括所有的“模拟物”和“肽模拟物”形式,如下文进一步详细描述。在一个实施方式中,“分离的”意味着,物质例如本发明的多肽或通过本发明的方 法制备的产物,例如AD、ADD、Xl或X2,从其原始环境中被移出,例如如果是天然存在的,从 天然环境移出。例如,活的动物中存在的天然存在的多核苷酸或多肽或方法的产物不是分 离的,但是与天然系统中的一些或所有共存物质分离的相同的多核苷酸或多肽或方法产物 是分离的。在一个实施方式中,多核苷酸是载体的一部分和/或这样的多核苷酸或多肽可 以是组合物的一部分并且仍然是分离的,因为该载体或组合物不是其自然环境的一部分。在一个实施方式中,术语“纯化的”,例如指本发明的多肽或通过本发明的方法制 备的产物,例如,AD、ADD、X1或X2,不要求绝对的纯净;相反,其意图作为相对的定义。例如, 在一个实施方式中,当实施本发明的方法时,细胞(例如,与野生型细胞相比,其在细胞中 不足表达,或不表达KsdA、CxgA、CxgB、CxgC或CxgD编码核酸和/或KsdA、CxgA、CxgB、CxgC 或CxgD多肽的任一个、或数个、或全部)以至少大约1.0%、2. 0%、3. 0%、4. 0%、5. 0%、 10. 0%U0. 5%,20. 0%,25. 0%,30. 0%,35. 0%,40. 0%,45. 0%,50. 0%,55. 0%,60. 0%, 65. 0%、70· 0%、75· 0%、80· 0%、85· 0%、90· 0%或 95. 0%或更高地,产生(生成)相对更 高纯度的雄烯二酮(AD)、或基本没有雄二烯二酮(ADD)、20-(羟甲基)孕-4-烯-3-酮和/ 或20-(羟甲基)孕-1,4-二烯-3-酮。本发明提供融合蛋白和编码它们的核酸。本发明多肽可以与异源的肽或者多肽融 合,如N-末端鉴定肽,其赋予了所需的特征,如增加的稳定性或者简化的纯化。本发明的肽 和多肽也可以以与一个或者多个连接到其上的额外的结构域形成融合蛋白的形式合成并 表达,从而,例如,产生更具免疫源性的肽,更容易分离重组合成肽,鉴定和分离抗体和表达 抗体的B细胞,和类似作用。有利于检测和纯化的结构域包括,例如,允许在固定化金属上 进行纯化的金属螯合肽,如聚组氨酸序列(polyhistidine tracks)和组氨酸-色氨酸模 块(histidine-tryptophanmodules),允许在固定化免疫球蛋白上进行纯化的蛋白A结构 域,和在 FLAGS 延伸 / 亲和纯化系统(FLAGS extension/affinity purification system, Immunex Corp, Seattle WA)中应用的结构域。在纯化结构域和含基序肽或多肽之间,包含 可切割的接头序列如因子Xa或肠激酶(Invitroger^San Diego CA)以便协助纯化。例如, 表达载体可以包括连接于六个组氨酸残基的编码表位的核酸序列,随后是硫氧还蛋白和肠 激酶切割位点(参见,例如,Williams (1995)Biochemistry34 1787-1797 ;Dobeli (1998) Protein Expr. Purif. 12 :404_414)。组氨酸残基协助检测和纯化,而肠激酶切割位点提
51供了从融合蛋白的残余部分纯化出表位的手段。一方面,编码本发明的多肽的核酸被装配 在合适的相中,与能够引导翻译蛋白或其判断分泌的前导序列在一起。与编码融合蛋白 的载体相关的技术以及融合蛋白的应用,在科技文献和专利文献中充分描述,参见,例如, Kroll (1993)DNA Cell. Biol.,12 :441_53。在可选的实施方式中,本发明的肽和多肽包括所有的“模拟物(mimetic) ”和“肽 模拟物(ρ印tidomimetic) ”形式。术语“模拟物”和“肽模拟物”是指具有与本发明的多肽 实质上相同的结构和/或功能特征的合成的化学化合物。该模拟物或者可以完全由合成的 非天然的氨基酸类似物组成,或者是部分天然的肽氨基酸和部分非天然的氨基酸类似物的 嵌合分子。所述模拟物也可以包括任意数量的天然氨基酸保守取代,只要这样的取代本质 上也不改变该模拟物的结构和/或活性。对于作为保守性变体的多肽或本发明的多肽类的 成员,常规实验将确定模拟物是否在本发明的范围内,即,其结构和/或功能没有实质上的 改变。因此,一方面,如果模拟物组合物具有KsdA、CxgA, CxgB, CxgC或CxgD活性,它是在 本发明的的范围内。本发明的多肽模拟物组合物可以包含非天然结构成分的任何组合。在可供选择 的方面,本发明的模拟物组合物包括以下三种结构基团中的一种或所有a)除了天然酰胺 键(“肽键”)连接之外的残基连接基团;b)取代天然存在的氨基酸残基的非天然残基;或 者c)诱导二级结构拟态(mimicry)的残基,即,诱导或者稳定二级结构,如β转角、Y转 角、β折叠、α螺旋构象,以及类似的结构。例如,当一个多肽的所有残基或者一些残基 通过非天然肽键的化学方式连接时,本发明的多肽可以作为模拟物来表征。各个肽模拟物 残基可以通过肽键、其它的化学键或者偶联方式连接,如,通过戊二醛、N-羟基琥珀酰亚胺 酯、双功能马来酰亚胺、N, N' - 二环己基碳二亚胺(DCC)或者N,N' - 二异丙基碳二亚 胺(DIC)连接。可以替代传统的酰胺键(“肽键”)连接的连接基团包括,如,酮基亚甲基 (如,-C( = 0)-CH2-代替-C( = 0)-NH-)、氨基亚甲基(CH2-NH)、亚乙基、烯烃(CH = CH)、 醚(CH2-O)、硫醚(CH2-S)、四唑(CN4-)、噻唑、逆酰胺(retroamide)、硫代酰胺或者酯(参 见如,Spatola(1983)在 Chemistry and Biochemistry of Amino Acids, Peptides and Proteins, H 7 267-357 ^/'Peptide Backbone Modifications "Marcel 1 Dekker,NY)。本发明的多肽作为模拟物时,其特征也可以是含有全部或者部分替代了天然发生 的氨基酸残基的非天然氨基酸残基。在科学和专利文献中描述了非天然的残基;作为天然 氨基酸残基的模拟物的一些典型的非天然化合物及指导在下面有描述。芳香族氨基酸的模 拟物可以通过用以下的取代来产生,如,D-或L-萘基丙氨酸;D-或L-苯基甘氨基,D-或 L-2噻吩(thieneyl)丙氨酸;D-或L_l,_2,3-或4-芘基丙氨酸;D-或L_3噻吩丙氨酸; D-或L- (2-吡啶基)-丙氨酸;D-或L- (3-吡啶基)-丙氨酸;D-或L- (2-吡嗪基)-丙氨 酸,D-或L- (4-异丙基)-苯基甘氨酸;D-(三氟甲基)-苯基甘氨酸;D-(三氟甲基)-苯基 丙氨酸;D-对-氟-苯基丙氨酸;D-或L-对-二苯基苯基丙氨酸;D-者L-对-甲氧基-二 苯基苯基丙氨酸;D-或L-2-吲哚(烷基)丙氨酸;和,D-或L-烷基丙氨酸,其中的烷基可 以是取代的或非取代的甲基、乙基、丙基、己基、丁基,戊基、异丙基、异丁基、仲异基、异戊基 或者非酸性氨基酸。非天然氨基酸的芳香环包括,如噻唑基、苯硫基、吡唑基、苯并咪唑基、 萘基、呋喃基、吡咯基和吡啶基芳香环。酸性氨基酸的模拟物可以通过用以下的取代来产生,如,保持有负电荷的非羧酸氨基酸;(膦酰基)丙氨酸;硫酸化的苏氨酸。羧基侧链(如,天冬氨酰基或者谷氨酰基) 也可以通过与碳二亚胺(R' -N-C-N-R')反应进行选择性的修饰,所述碳二亚胺如1-环 己基-3 (2-吗啉基-(4-乙基)碳二亚胺或者1-乙基_3 (4-氮鐺-4,4- 二甲基戊基)碳二 亚胺。天冬氨酰基或者谷氨酰基也可以通过与铵离反应转化为天冬酰胺酰基残基和谷氨酰 胺酰基残基。碱性氨基酸的模拟物可以通过用如,(除了赖氨酸和精氨酸外)鸟氨酸、瓜氨 酸、或者(胍基)_乙酸,或者(胍基)烷基-乙酸的取代产生,其中烷基如以上定义。腈衍 生物(如,含有取代COOH的CN-部分)可以取代天冬酰胺或者谷氨酰胺。天冬酰胺酰基残 基和谷氨酰胺酰基残基可以脱氨基成为相应的天冬氨酰基或者谷氨酰基。精氨酸残基模拟 物可以通过精氨酰基与例如一种或者多种常规试剂在一个方面为碱性的条件下反应而产 生,所述的常规试剂包括如苯乙二醛、2,3- 丁二酮、1,2-环己二酮或者茚三酮。酪氨酸残基 模拟物可以通过酪氨酰基与例如芳香重氮化合物或者四硝基甲烷反应而产生。N-乙酰咪唑 (acetylimidizol)和四硝基甲烷可以分别用于形成0_乙酰基酪氨酰物质和3_硝基衍生 物。半胱氨酸残基模拟物可以通过半胱氨酰残基与例如α-卤素乙酸例如2-氯乙酸或者 氯乙酰胺和相应的胺反应而产生;得到羧甲基或者羧酰胺甲基衍生物。半胱氨酸残基模拟 物也可以通过半胱氨酰残基与例如溴代-三氟丙酮、α-溴-β-(5-咪唑基(imidozoyl)) 丙酸;氯乙酰磷酸、N-烷基马来酰亚胺、3-硝基-2-吡啶基二硫化物;甲基2-吡啶基二硫 化物;对_氯汞苯甲酸盐;2-氯汞-4硝基苯酚,或者,氯-7-硝基苯并-氧杂-1,3- 二唑反 应而产生。可以通过赖氨酰基与例如琥珀酸或者其它的羧酸酸酐反应而产生赖氨酸模拟物 (和改变氨基端残基)。赖氨酸和其它的含有α-氨基的残基模拟物也可以通过与亚氨酸 酯例如甲基吡啶亚胺甲酯(methyl picolinimidate)、磷酸吡哆醛、吡哆醛、氯硼氢化物、三 硝基-苯磺酸、0-甲基异脲、2,4,戊二酮的反应,和与乙醛酸的转酰胺基酶催化的反应而产 生。甲硫氨酸的模拟物可以通过与例如甲硫氨酸亚砜反应而产生。脯氨酸的模拟物包括,例 如,2-哌啶酸、四氢噻唑羧酸、3-或4-羟脯氨酸、脱氢脯氨酸、3-或4-甲基脯氨酸,或者3, 3,- 二甲基脯氨酸。组氨酸残基模拟物可以通过组氨酰基与例如二乙基原碳酸酯或对溴苯 甲酰甲基溴化物反应而产生。其它的模拟物包括,例如,由脯氨酸和赖氨酸的羟基化作用产 生的模拟物;由丝氨酰或者苏氨酰的羟基的磷酸化作用产生的模拟物;由赖氨酸、精氨酸 和组氨酸的α氨基基团的甲基化作用产生的模拟物;由N-末端胺的乙酰化作用而产生的 模拟物;由主链酰胺残基的甲基化或用N-甲基氨基酸取代而产生的模拟物;或者,由C-末 端羧基的酰胺化而产生的模拟物。本发明的多肽的残基例如氨基酸也可以用相反手性的氨基酸(或者肽模拟物残 基)替代。因此,任何天然发生的L-构型(也可以被称为R或者S,取决于化学实体的结 构)的氨基酸都可用相同化学结构类型但是具有相反手性的氨基酸或者肽模拟物替代,相 反手性的氨基酸称为D-氨基酸,但也可以称为R-或者S-型。本发明也提供了通过天然过程,如,翻译后加工(如,磷酸化,酰化等)或者化学修 饰技术修饰本发明的多肽的方法,以及得到的被修饰的多肽。修饰可以发生在所述多肽的 任何地方,包括肽骨架、氨基酸侧链和氨基端或者羧基端。可以理解,相同类型的修饰可以 在已知的多肽中以相同的或者不同的水平在给定多肽的几个位点处发生。给定多肽也可以 具有很多类型的修饰。修饰包括乙酰化、酰化作用、ADP-核糖基化作用、酰胺化作用、共价连 接核黄素、共价连接血红素部分、共价连接核苷酸或核苷酸衍生物、共价连接脂质或脂质衍生物、共价连接磷脂酰肌醇、交联的环化作用、形成二硫键、去甲基作用、形成共价交联、形 成半胱氨酸、形成焦谷氨酸、甲酰基化作用、Y-羧化作用、糖基化作用、形成GPI锚、羟基化 作用、碘化作用、甲基化作用、肉豆蔻酰基化作用、氧化作用、聚乙二醇化、蛋白水解过程、磷 酸化作用、异戊烯作用、外消旋作用、硒化作用、硫酸盐化作用,和转移RNA介导氨基酸添加 至IJ蛋白质中,如精氛酷化。参见,如,Creighton,T. E. . Proteins-Structure and Molecular Properties 2nd Ed. , W. H. Freeman 禾口 Company, New York (1993) ;Posttranslational Covalent Modification ofProteins,B. C. Johnson,Ed. ,Academic Press,New York,11-12 页(1983)。固相化学肽合成方法也可以用于合成本发明的多肽或者片段。这样的方法自二十 世纪六十年代早期起就是本领域已知的方法(Merrifield,R. B.,J.Am. Chem. Soc. ,85 2149-2154,1963)(也参见Stewart,J. M.和Young,J. D. ,Solid Phase Peptide Synthesis, 第二版,Pierce Chemical Co.,Rockford,III,11-12页),并且这些方法已经可以通过商业 上可获得的实验室肽设计和合成试剂盒(Cambridge Research Biochemicals)而被应用。 这样的商业上可获得的实验室试剂盒一般是利用H. M. Geysen等,Proc. Natl. Acad. Sci., USA,81 =3998(1984)的方法,它们让肽合成在多个“杆”或者“钉”的顶端进行,而所有的 “杆”或者“钉”都被连接到一块板上。当使用这样的系统时,一个板的杆或者钉被倒转并插 入到另一个板的相应孔或者贮存器中,所述孔或者贮存器含有用于将一种适合的氨基酸附 着或固定在杆或钉的顶端的溶液。通过重复这样的处理步骤,即是,反转和插入所述杆和钉 的顶端至适当的溶液中,将氨基酸构建成所要的肽。此外,大量的FMOC肽合成系统是可利 用的。例如,应用Applied Biosystems,Inc.的M0del431A 自动肽合成仪可以在固体支持 物上装配多肽或者片段。这些设备使得本发明的肽容易获得,或者通过直接的合成或者通 过用其它已知的技术将一系列片段偶联起来的合成。信号序列、前体(prepro)结构域和催化结构域在可选的实施方式中,本发明的多肽包括信号序列(例如,信号肽(SPs))、前体结 构域和催化结构域(CD)。SPs、前体结构域和/或CDs可以是分离的、合成的或重组的肽,或 可以是融合蛋白的一部分,例如作为嵌合蛋白的异源结构域。本发明提供了编码这些催化 结构域(CDs)、前体结构域和信号序列(SPs,例如具有包含本发明多肽的氨基端残基/由本 发明多肽的氨基端残基组成的序列的肽)的核酸。本发明提供分离的、合成的或重组的信号序列(例如,信号肽),所述肽包含如下 的序列/由如下的序列组成本发明的多肽的残基1到11、1到12、1到13、1到14、1到15、 1 至Ij 16、1 至Ij 17、1 至Ij 18、1 至Ij 19、1 至Ij 20、1 至Ij 21、1 至Ij 22、1 至Ij 23、1 至Ij 24、1 至Ij 25、1 至Ij 26、 1 至Ij 27、1 至Ij 28、1 至Ij 28、1 至Ij 30、1 至Ij 31、1 至Ij 32、1 至Ij 33、1 至Ij 34、1 至Ij 35、1 至Ij 36、1 至Ij 37、 1 至Ij 38、1 至Ij 39、1 至Ij 40,1 至Ij 41、1 至Ij 42、1 至Ij 43、1 至Ij 44、1 至Ij 45、1 至Ij 46,1 至Ij 47、1 至Ij 48,1 到49、1到50、或更长残基所示的序列。一方面,本发明提供信号序列,其包括本发明多肽的 前 14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、 39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、 64、65、66、67、68、69、70或更多个氨基端残基。鉴定“前体”结构域序列和信号序列的方法在本领域中是公知的,参见,例如,Van de Ven(1993)Crit. Rev. Oncog. 4(2) :115_136。例如,为了鉴定前体序列,蛋白质从细胞外空间纯化出来,测定N端蛋白序列,并与未加工的形式进行比较。本发明包括具有或没有信号序列和/或前体序列的多肽。本发明包括具有异源信 号序列和/或前体序列的多肽。前体序列(包括用作异源前体结构域的本发明序列)可以 位于蛋白质的氨基端或羧基端。本发明也包括含有本发明序列的分离的、合成的或重组的 信号序列、前体序列和催化结构域(例如“活性位点”)。包含本发明的信号序列的多肽可 以是本发明的多肽或者另一个脱氨酶例如苯丙氨酸脱氨酶、酪氨酸脱氨酶和/或组氨酸脱 氨酶或另一种酶或其它多肽。筛选方法和“在线”监控设备在实践本发明的方法时,多种仪器和方法可以与本发明的多肽和核酸一起使用, 例如,以筛选多肽的KsdA、CxgA, CxgB, CxgC或CxgD活性,以筛选作为KsdA、CxgA, CxgB, CxgC或CxgD的潜在调节剂的化合物,例如激活剂或抑制剂,以筛选与本发明的多肽结合 的抗体,以筛选与本发明的核酸杂交的核酸,以筛选表达本发明的多肽的细胞,等等。除了 下面详细描述的用于筛选样品的阵列形式,其它的形式也可用于实践本发明的方法。这样 的形式包括,例如质谱仪、色谱仪,例如高通量HPLC和其它形式的液相色谱,以及更小的形 式,如1536孔平板、384孔平板等等。高通量筛选仪器可以被适当改造并用于实践本发明的 方法,例如参见美国专利申请号20020001809。如本文使用的术语“阵列”或者“微阵列”或者“生物芯片”或者“芯片”是许多靶 元素,每一个靶元素包括确定量的一个或者多个多肽(包括抗体)或者固定于底物表面的 确定区域上的核酸,如下面进一步具体讨论。毛细管阵列本发明的核酸或多肽可被固定或应用于阵列上。阵列可用来筛选或监测化合物 (例如,小分子、抗体、核酸等)的文库,以发现它们结合本发明的核酸或多肽或者调节本发 明的核酸或多肽的活性的能力。毛细管阵列,如GIGAMATRIX ,戴弗萨公司,San Diego5CA ; 和描述在例如美国专利申请20020080350A1 ;WO 0231203A ;W00244336A中的阵列,提供了 容纳和筛选样品的可供选择的装置。一方面,毛细管阵列包括多个毛细管,它们形成具有相 互邻近的毛细管的阵列,其中所述的每个毛细管含有至少一个壁,其限定了一个用以保留 样品的内腔。这个内腔可以是圆柱形的、正方形的、六边形的或其它任何几何形状,只要所 述壁能够形成内腔以保留住液体或样品。毛细管阵列的毛细管可相互靠近,联合在一起形 成一个面状的构造。毛细管可通过融合(例如,当毛细管由玻璃制成时)、粘合、键合或面对 面的夹合而结合在一起。可选择地,毛细管阵列可以包括在阵列中相邻毛细管之间放置的 间质材料(interstitial material),从而形成含有多个穿通孔(through-holes)的固体 平面装置。毛细管阵列可由任何数量的单个毛细管形成,例如,100至4,000, 000个毛细管。 进一步,具有大约100,000或更多个单个毛细管的毛细管阵列可形成标准大小和形状的 Microtiter 板,其适合于标准的实验室设备。通过毛细作用或使用细针的微注射,人工或 自动地将腔充满。随后可以从单个毛细管中移出感兴趣的样品以进行进一步的分析或定 性。例如,安置细针样的探头,使其与选择的毛细管能够液体连通,从而可以向腔内加入材 料或移出材料。单区筛选分析(single-pot screening assay)中,分析成分在插入到毛细管阵列
55中之前被混合在一起,产生感兴趣的溶液。当至少一部分阵列被浸入感兴趣溶液中时,通过 毛细作用充满内腔。在每个毛细管中的化学或生物学反应和/或活性被监测,以发现可检 测到的事件。所述的可检测到的事件常常被称为“命中事件(hit)”,其常常可以通过光学 检测与产生“非命中事件(non-hit)”的毛细管区分开来。因此,毛细管阵列可整体地并行 检测“命中事件”。在多区筛选分析(multi-pot screening assay)中,多肽或核酸,例如,配体可被 导入进第一成分中,该成分被导入进毛细管阵列的至少一部分毛细管中。然后将气泡导入 进第一成分后面的毛细管中。然后将第二成分导入进毛细管内,其中所述的第二成分与第 一成分通过气泡相隔。通过在毛细管阵列的两侧施加静水压挤破气泡将第一和第二成分混 合在一起。然后监测毛细管阵列中由于两个成分的反应或非反应而发生的可检测到的事 件。在结合筛选分析(binding screening assay)中,感兴趣的样品可作为用可检测 颗粒标记的第一液体导入进毛细管阵列的毛细管中,其中为了使可检测颗粒与内腔结合, 毛细管的内腔包被了一种结合材料。然后第一液体可从毛细管中移去,其中结合的可检测 颗粒仍保留在毛细管内,可以将第二液体导入进毛细管内。然后监测毛细管中由于颗粒与 第二液体的反应或非反应而发生的可检测到的事件。阵列或“生物芯片”本发明的核酸或者多肽可以固定于或者应用于阵列。可以应用阵列来筛选或者监 测组合物(例如,小分子、抗体、核酸等等)的文库,所述筛选或者监测是针对它们结合本发 明的核酸或多肽或者调控本发明的核酸或多肽的活性的能力。例如,在本发明的一方面,一 个被监测的参数是ksdA、CXgA、CXgB、CXgC和/或cxgD基因的转录表达。细胞的一种或多 种或所有的转录物都可以通过阵列或“生物芯片”上的固定化核酸与包含细胞转录物、或代 表细胞转录物的核酸、或与细胞转录物互补的核酸的样品的杂交来测定。通过在微型芯片 上应用核酸“阵列”,细胞的一些或所有的转录物可以同时被定量。可选择地,包含基因组 核酸的阵列也可以用于确定通过本发明的方法制造的新型的工程菌株的基因型。“多肽阵 列”也可以用于同时定量多种蛋白。本发明可以用任何已知的“阵列”进行实践,所述“阵 列”也指“微阵列”或“核酸阵列”或“多肽阵列”或“抗体阵列”或“生物芯片”,或者它们的 变体。阵列一般是多个“点”或者“靶元素”,每一个靶元素包括确定数量的一种或多种生物 分子,例如,固定于基底表面的确定区域、用于特异结合一种样品分子如mRNA转录物的寡 核苷酸。在实践本发明的方法时,任何已知的阵列和/或制备和应用阵列的方法都 可以被全部或者部分地并引入,或者引入它们的变化,例如在下列文献中说明的 美国专利 6,277,628 ;6,277,489 ;6,261,776 ;6,258,606 ;6,054,270 ;6,048,695 ; 6,045,996 ;6,022,963 ;6,013,440 ;5,965,452 ;5,959,098 ;5,856,174 ;5,830,645 ; 5,770,456 ;5,632,957 ;5,556,752 ;5,143,854 ;5,807,522 ;5,800,992 ;5,744,305 ; 5, 700, 637 ;5, 556, 752 ;5, 434, 049 ;也参见,例如,WO 99/51773 ;WO 99/09217 ;WO 97/46313 ;WO 96/17958 ;也参见,例如,Johnston(1998)Curr. Biol. 8 :R171_R174 ; Schummer (1997)Biotechinques 23 1087-1092 ;Kern (1997)Biotechniques 23 :120_124 ; Solinas-Toldo(1997)Genes, Chromosomes & Cancer 20 399-407 ;Bowtell(1999)NatureGenetics Supp. 21 :25_32。也参见公布的美国专利申请 20010018642 ;20010019827 ; 20010016322 ;20010014449 ;20010014448 ;20010012537 ;20010008765。酶活性筛选方案在一些实施方式中,实施本发明的方法和组合物包括针对KsdA、CxgA, CxgB, CxgC 或CxgD活性筛选多肽;筛选作为KsdA、CXgA、CXgB、CxgC或CxgD多肽的潜在调节剂的化合 物,调节剂例如激活剂或抑制剂;和/或筛选与本发明多肽结合和在一些实施方式中抑制 多肽活性的抗体。在实施这些实施方式中,可以使用测定KsdA、CXgA、CXgB、CXgC或CxgD活 性的任何方法、过程或方案。例如,测定多肽是否具有KsdA活性的示例性方案被以下描述,例如,van der Geize 等(2000)Applied and Environm. Microbiol. 66(5) 2029-2036 ;van der Geize 等 (2001)FEMS Microbiol Lett. 205(2) 197-202) ;van der Geize 等(2002)Microbiology 148 (PtlO) 3285-3292 ;Knol 等(2008)Biochem J. 410(2) :339_346。测定多肽是否具有CXgA、CXgB、CXgC或CxgD活性的示例性方案包括如本文描述, 在缺失或关闭(丧失能力)多肽的活性后,基于细胞的表型确定多肽的活性。例如,如果在 “敲除”相应的KsdA、CXgA、CXgB、CXgC或CxgD基因或者用其它方法缺失或关闭相应的信息 或多肽后,多肽能够补充(例如,替代、恢复)野生型表型,那么多肽具有KsdA、CXgA、CXgB、 CxgC或CxgD活性。如果通过将所考虑的多肽加回到“关闭(丧失能力)”的细胞,野生型 表型被恢复,那么多肽具有需要的活性,例如酶或结合活性。例如,如果在细胞中KsdA基因 和/或KsdA多肽被缺失或用其它方法关闭,那么细胞缺少3-留酮-Δ 1-脱氢酶活性;而 如果将所考虑的多肽加回到修饰的细胞恢复了 3-留酮-△ 1-脱氢酶活性,那么该多肽对于 3-甾酮-Δ 1-脱氢酶活性和KsdA活性筛选为阳性。类似地,如果细胞中CxgA基因和/或 CxgA多肽被缺失或用其它方法关闭,那么细胞缺少乙酰辅酶A-乙酰转移酶/硫解酶活性; 而如果将所考虑的多肽加回到那个修饰的细胞恢复了乙酰辅酶A-乙酰转移酶/硫解酶活 性,那么那个多肽对于乙酰辅酶A-乙酰转移酶/硫解酶活性和CxgA活性筛选为阳性;等寸。抗体和基于抗体的筛选方法本发明提供了分离的、合成的或重组的抗体,所述抗体与本发明的多肽特异性结 合。这些抗体可用于分离、鉴定或定量本发明的KsdA、CxgA, CxgB, CxgC或CxgD或相关多 肽。这些抗体可用于分离本发明范围内的其它多肽,或其它相关KsdA、CxgA、CxgB、CxgC或 CxgD蛋白质。所述抗体被设计成与KsdA、CxgA, CxgB, CxgC或CxgD的活性位点结合。因 此,本发明提供了使用本发明的抗体抑制KsdA、CxgA, CxgB, CxgC或CxgD的方法。术语“抗体”包括衍生自、建模自(modeled after)或者实质上编码自一种或多 种免疫球蛋白基因或其片段的肽或者多肽,其能够特异地结合于抗原或者表位,参见,例 如 Fundamental Immunology, Third Edition, W. B.Paul, ed. , Raven Press, N.Y. (1993); Wilson(1994)J. Immunol. Methods 175 267-273 ;Yarmush(1992)J. Biochem. Biophys. Methods 25 :85-97。术语抗体包括抗原结合部分,即,“抗原结合位点”(例如,片段、子序列、 互补决定区(⑶Rs)),其保持了结合抗原的能力,包括(i)Fab片段,由VL, VH, CL和CHl结 构域组成的单价片段;(ii)F(ab’)2片段,包括在铰链区通过二硫键连接两个Fab片段的二 价片段;(iii)由VH和CHl结构域组成的Fd片段;(iv)由抗体单臂的VL和VH结构域组成的 Fv 片段,(ν)由 VH 结构域组成的 dAb 片段(Ward et al.,1989) Nature 341 544-546); 以及(vi)分离的互补决定区(CDR)。单链抗体通过引用也被包括于术语“抗体”中。本发明提供本发明多肽的子序列,例如,本发明酶的酶活性或免疫原性片段,包括 本发明多肽的免疫原性片段。本发明提供了包括本发明多肽或肽和辅剂或载体和类似物的 组合物。抗体可以在免疫沉淀、染色、免疫亲合柱以及类似的程序中被使用。如果需要的 话,编码特异抗原的核酸序列可以通过免疫方法生成,随后分离出多肽或核酸,进行扩增或 克隆,将多肽固定在本发明的阵列上。可选择地,本发明的方法可以用于修饰由细胞产生的 待修饰的抗体的结构,如,抗体的亲和性可以增加或者降低。而且,制备或修饰抗体的能力 可以是通过本发明的方法加工进入细胞的表型。免疫接种、产生和分离抗体(多克隆的或单克隆的)的方法是本领域技术人员 所了解的,并且在科学和专利文献中有描述,参见,如,Coligan,CURRENT PROTOCOLS IN IMMUNOLOGY,Wiley/Greene, NY(1991) ;Stites (eds.)BASIC AND CLINICAL IMMUNOLOGY(第 7 版)Lange Medical Publications, Los Altos, CA( “Stites”);Goding, MONOCLONAL ANTIBODIES PRINCIPLES AND PRACTICE (第 2 版)Academic Press, New York, NY(1986); Kohler(1975)Nature 256 495 ;Harlow(1988)ANTIBODIES, A LABORATORY MANUAL, Cold Spring Harbor Publications, New York。除了使用动物的传统的体内方法外, 抗体也可以在体外产生,例如,应用表达重组抗体结合位点的噬菌体展示文库。参见如, Hoogenboom(1997)Trends Biotechnol. 15 :62_70 ;Katz (1997)Annu.Rev. Biophys. Biomol. Struct. 26 :27-45。本发明的多肽或包括其至少约5、10、15、20、25、30、35、40、50、75、100或150个连
续氨基酸的片段,也可以用于产生与所述多肽或片段特异结合的抗体。所得到的抗体可以 在免疫亲和层析方法中使用,以分离或纯化多肽或确定生物样品中是否存在多肽。在这样 的方法中,蛋白制剂,如提取物,或生物样品与抗体接触,所述抗体能与本发明的多肽之一 或包括其至少约5、10、15、20、25、30、35、40、50、75、100或150个连续氨基酸的片段特异接触。在免疫亲和方法中,抗体被附着在固相支持物上,如珠子或其它柱基质。在抗体与 本发明的多肽之一或其片段特异结合的条件下,蛋白制剂与抗体接触放置。在洗涤去除非 特异结合的蛋白质后,洗脱特异性结合的多肽。生物样品中蛋白与抗体结合的能力可以使用本领域技术人员熟悉的多种方法中 的任意方法确定。例如,结合可以通过用可检测标记如荧光试剂、酶标记物或放射性同位素 对抗体进行标记来确定。可选地,抗体与样品的结合可以使用其上具有这样的可检测标记 物的二抗来检测。特定的测定法包括ELISA测定法、夹心测定法、放射免疫测定法和蛋白质 印迹。针对本发明的多肽或包括其至少约5、10、15、20、25、30、35、40、50、75、100或150
个连续氨基酸的片段产生的多克隆抗体可以通过将多肽直接注入到动物或通过将多肽施 用到动物上来获得,所述动物例如非人动物。如此获得的抗体然后将结合多肽本身。以这 样的方式,甚至编码多肽的仅仅一个片段的序列可以用于产生可能与整个天然多肽结合的 抗体。这样的抗体然后被用于从表达所述多肽的细胞中分离多肽。
为了制备单克隆抗体,可使用通过连续细胞系培养来产生抗体的任何技术。实例 包括杂交瘤技术(Kohler and Milstein,Nature,256 :495_497,1975)、trioma 技术、人B 细 胞杂交瘤技术(Kozbor 等,Immunology Today 4 :72,1983)和 EBV-杂交瘤技术(Cole 等, 1985, Monoclonal Antibodies and Cancer Therapy, Alan R. Liss, Inc. ,pp.77-96)。所描述的用于产生单链抗体的技术(美国专利4,946,778)可以适于产生针对本 发明多肽或包括其至少约5、10、15、20、25、30、35、40、50、75、100或150个连续氨基酸的片 段的单链抗体。可选地,转基因小鼠可用于表达针对这些多肽或其片段的人源化抗体。针对本发明多肽或包括其至少约5、10、15、20、25、30、35、40、50、75、100或150个 连续氨基酸的片段产生的抗体可以用于从其它生物体和样品中筛选类似多肽。在这样的技 术中,来自生物体的多肽与抗体接触,并检测那些特异性结合抗体的多肽。上面所描述的 任何方法可以用于检测抗体结合。一种这样的筛选试验描述于“Methods for Measuring Cellulase Activities,,,Methods in Enzymology, Vol 160, pp. 87-116。试剂盒本发明提供了试剂盒,其包括组合物,如本发明的KsdA、CXgA、CXgB、CXgC或CxgD 和例如本发明的核酸、表达盒、载体、细胞、转基因种子或植物或植物部分、多肽(例如, KsdA, CxgA, CxgB, CxgC或CxgD)和/或抗体。如本文描述,试剂盒也可以含有教导本发明 的方法学和工业应用的指导材料。以下的实施例意欲说明而不是限制本发明。虽然实施例中描述的方法是可以用于 实施本发明的某些方面的典型的方法,但是也可以使用本领域技术人员已知的其它方法。
实施例实施例1 制备和使用本发明的示例性基因和宿主细胞本实施例描述制备和使用本发明的示例性宿主细胞以制备1,4_雄二烯-3,17-二 酮(ADD)和相关途径化合物,相关途径化合物包括20-(羟甲基)孕-4-烯-3-酮和20-(羟 甲基)孕-1,4-二烯-3-酮。一方面,本发明提供的本发明的修饰的宿主细胞是细菌细胞,例如分支杆菌属 菌株,诸如名称为 B3683(参见例如,P6rez 等(1995)Biotechnology Letters 17(11) 1241-1246)和 B3805(参见例如,Golahska (1998) Acta Microbiol Pol. 47(4) :335_343) 的分支杆菌属菌株。分支杆菌属B3683从土壤分离物通过诱变生产,以消除植物留醇的完 全降解并能够产生ADD和AD。因为B3683菌株产生的ADD比AD显著地多,所以分支杆菌 属B3805通过诱变衍生自B3683,以减少ADD产生而有利于AD。分支杆菌属B3805相对于 其突变仍然是未表征的,并被报道仍然产生小量的ADD,参见,例如Goren (1983) J. Steroid Biochem. 19(6) 1789-1797。在菌株B3683和B3805的原始描述中,参见,例如Marshek(1972)见上,它也说明 产生了 20-(羟甲基)孕-1,4-二烯-3-酮(化合物X2)。化合物X2被认为是植物留醇烷 基侧链的不完全去除产生的最终副产物。发明人确定该菌株能够产生化合物XI,其通过转 化AD为ADD的相同3-甾酮-Δ 1-脱氢酶活性转化为化合物Χ2。菌株改良1)用作菌株培育基础的生物的表征
59
分支杆菌属B3683 (ATCC29472)从美国模式培养物保存中心(the American Type Culture Collection)(马纳萨斯,弗吉尼亚)获得并划线于MYM琼脂板上培养以得到单个 菌落。看到三个不同的菌落形态或形态型,一种先前描述为多个分支杆菌种类的现象。选 择单独的形态型并连续地传代以获得每一个的纯的培养物。随后每一个进一步的表征说明一种形态型变体2,由于其在液体培养基中 的连片生长的特征是最易培养的。另外,通过制备电转感受态细胞(电感受态细胞, electrocompetent cell)、电穿孔和选择卡那霉素抗性的克隆,测试每个变体作为 EZ: :TN <R6K y ori/KAN-2>TRANSP0S0ME (Epicentre,Madison,WI)的基因受体的能力。另 外,确定形态型变体2是最易进行这种基因操作的,并被选择作为进一步生成突变体和鉴 别相关基因的背景。2)分支杆菌属B3683转座子突变体的生成变体2的电转感受态细胞被用EZ: TN<R6Kori/Kan-2>TRANSP0S0ME 电穿孔,并被 铺板于含有50μ g/ml的卡那霉素的L-琼脂上。从多次电穿孔获得大约6000个集落。每个 集落被排布在每个孔含有200 μ 1 2χΥΤ的96孔板的单独孔中,用透气膜密封,和在HIGR0 培养箱(Genomic Solutions, Ann Arbor,MI)中以 400rpm、30°C生长 48 小时,间歇通气。通 过加入和混合20 μ 1甘油并在-80°C冷冻,制备用于贮存的细胞。3)不能够转化AD为ADD的突变体的鉴定测定每个转座子突变体转化AD为ADD的能力(如下描述进行测定)。从该筛选 中,一个突变体被鉴定为不能够转化AD为ADD,如在图IB中图解。该突变体被一式三份重 复测试,并且确定其在该转化中为完全缺乏的。图1图解示例性AD至ADD转化试验的数据图IA图解随机Tn5突变体的数据;图 IB图解ksdA Tn5突变体的数据,显示不存在AD至ADD的转化。Y-轴值代表LC/MS/MS峰 面积响应而不是产物的绝对定量。4)鉴定负责AD至ADD转化的基因收获突变体的培养物并用于通过标准实验室方法制备染色体DNA。该DNA用 两种限制性酶BglII或EcoRI中的一种消化直至完全。在限制性酶失活后,稀释消化 的DNA,并且每种用T4DNA连接酶温育以生成环状分子内连接产物。连接产物随后电穿 孔进入大肠杆菌菌株EPI300,具有pir基因的染色体拷贝,使作为含有EZ: :Tn<R6Kori/ Kan-2>TRANSP0S0ME 的环状连接产物的质粒能够复制。选择、克隆纯化和生长卡那霉素抗 性的转化体,以制备含有转座子的质粒DNA。使用从已知转座子序列的末端向外延伸进入未表征的侧翼序列的引物,测序质粒 DNA。在通过引物步移测序的进一步延伸后,确定转座子插入与推定的3-留酮- Δ 1-脱氢 酶具有明显同源性的可读框,如对于具有能够转化AD为ADD的能力的酶所预期的,如在图6 和图7中图解。图6是示例性的染色体插入位点和在消除AD至ADD转化的3-甾酮-Δ 1-脱 氢酶突变周围的基因组织的示意性图解。图7是示例性的染色体插入位点和“cxg基因”即 cxgA, cxgB, cxgC或cxgD基因的组织的示意性图解。为了命名的目的,该基因将被称为ksdA(甾酮类脱氢酶)。只有红平红球菌 (Rhodococcus erythropolis)禾口睾酮假单孢菌(Comamonas testosteroni)同系物已经 被试验测定具有脱氢酶活性;参见,例如van der Geize (2002) Microbiology 148(10)3285-3292 ;Horinouchi(2003)App. &Env. Microbiology 69(8) :4421_4430。5)鉴别不能够转化胆固醇为化合物X1/X2的突变体测定每个转座子突变体转化胆固醇为产物的能力(如下描述进行测定)。大约一 半突变体用于将胆固醇转化为AD、ADD、睾酮和化合物X2的筛选。发现一个突变体与野生 型菌株相比产生显著降低水平的X2,见使用Tn突变体1的图2。图2图解示例性胆固醇转 化试验的数据(只有X2)图2A使用随机Tn5突变体,和图2Β使用cxgB Tn5突变体1,显 示不存在化合物Χ2的产生。Y-轴值代表LC/MS/MS峰面积响应而不是产物的绝对定量。鉴定两个另外的突变体,与野生型相比,其产生显著降低水平的Xl和Χ2,参见图 3,使用Tn突变体2和3。图3图解来自示例性胆固醇转化试验(XI和Χ2)的数据,显示不 存在化合物Xl和Χ2的产生图3Α使用随机Τη5突变体,图3Β使用cxgA Tn5突变体2,和 图3c使用cxgA Tn5突变体3。Y-轴值代表LC/MS/MS峰面积响应而不是产物的绝对定量。所有三个突变体然后一式三份重复测试,并确定产生Xl和Χ2的能力被损害。以 上描述的ksdA基因中的Tn5突变体不能够从胆固醇产生ADD或化合物X2,这确认了负责 Xl转化为X2的3-甾酮-Δ 1-脱氢酶活性的缺乏。6)鉴定负责转化胆固醇为X1/X2的候选基因如以上描述,含有转座子诱变的和邻近的染色体序列的质粒DNA被从每个突变体 中分离并测序。根据这个起始的特征,额外的序列将对确定这种转化所需的一个基因或多 个基因的性质是有用的。这些通过分支杆菌属B3683基因组F黏粒文库与衍生自已知序列 的探针的杂交和从分离F黏粒的测序的进一步延伸获得。根据这个测序工作,确定三个突变体中的转座子插入位于由四个可读框组成的操 纵子中,见图7,也在以上讨论。两个插入在操纵子的第一个基因中发现并且一个插入在操 纵子的第二个基因中发现。为了命名的目的,操纵子中的基因将被称为cxgA-D (化合物X 基因)。GenBank数据库的BlastX检索显示多肽CxgA (SEQ ID NO 12)与未鉴定的副结核 分枝杆菌(Mycobacterium avium paratuberculosis)ORF MAP4302C 以及假设的乙酰辅酶 A-乙酰转移酶/硫解酶具有显著的同源性,它们通常参与脂肪酸代谢。发现多肽CxgB(SEQ ID NO 13)与副结核分枝杆菌的MAP4301C具有显著同源性和与多个推定的DNA-结合蛋白 具有有限的同源性。多肽CxgC(SEQ ID NO 14)显示与推定的酰基-辅酶A脱氢酶/FadE 蛋白质的显著同源性。发现多肽CxgD(SEQ IDNO 15)与多个推定的TetR-样调节蛋白具有 显著同源性,TetR-样调节蛋白包括KstR——红平红球菌(Rhodococcus erythropolis)中 类固醇代谢的负调节物。插入的位点在图6和7中图解,而cxgA、cxgB, cxgC和cxgD的核 苷酸和蛋白质序列在以下列出。cXgA、CXgB、CXgC和cxgD的基因序列分别在SEQ ID NO :8、 SEQ ID N0:9、SEQ ID NO: 10 禾口 SEQ IDNO 11 中列出;和多肽 cxgA、cxgB、cxgC 和 cxgD 氨 基酸序列分别在 SEQ ID N0:12、SEQ ID NO: 13、SEQ ID NO: 14 禾口 SEQ ID NO: 15 中列出。7)负责AD转化为ADD的基因的缺失为了生成负责AD转化为ADD的ksdA基因(SEQ ID NO 1)的定向缺失,无标记基 因替代策略被如下使用。通过PCR生成在ORF任一侧侧翼的Ikb序列,并通过引入的Type IIS酶位点连接在一起以生成2kb片段。这个片段随后被引入包含TopoTA克隆位点和卡 那霉素抗性决定子的克隆载体。向这个构建物中,引入含有枯草芽胞杆菌(B. subtilis)的sacB蔗糖合成酶基因的额外片段。生成的质粒被电穿孔进入电转感受态分支杆菌属B3683 中,在含有50 μ g/ml卡那霉素的L-琼脂上选择卡那霉素抗性转化体。在通过DNA杂交确认正确共整合进入染色体中后,两个独立的克隆被培育,其中 没有卡那霉素选择,然后平铺在含有5%蔗糖的L-琼脂上以选择蔗糖抗性的、卡那霉素敏 感的克隆。当这些通过染色体中基因复制的重组分解引发时,它们可以产生于用野生型序 列的定向缺失或重新引入替代染色体ksdA基因(SEQ ID NO :1)。测试八个克隆的AD至ADD 的转化,而75%的克隆被发现不能够进行这种转化。通过PCR和DNA杂交进行ksdA (SEQ ID NO 1)缺失的确认。8)测定和缺失负责胆固醇转化为X1/X2的基因由于发现降低胆固醇的X1/X2转化的转座子插入在四个基因操纵子中,有必要构 建多种缺失以确定在下游表达中的极性作用。当对于构建cxgA(SEQ ID NO 8)中缺失的有 限侧翼序列可得时,我们构建了 cxgB(SEQ ID NO :9)、cxgC(SEQ ID NO 10)和 cxgD(SEQ ID NO 11)以及所有三个组合中的单独缺失。使用类似于以上章节中描述的方法进行缺失。从 这些缺失的分析中,测定cxgB (SEQ ID NO 9)对于胆固醇转化为化合物Xl和X2是必需的。 另外,测定cxgD(SEQ ID N0:11)编码操纵子表达的可能的负调节物,因为其缺失导致比野 生型菌株高的Xl和X2生产率。缺失cxgC (SEQ ID NO 10)对于Xl或X2的生产没有影响。 cxgB (SEQ ID NO :9)、cxgC (SEQ ID NO 10)和 cxgD(SEQ ID NO 11)的组合缺失使得 Xl 和 X2的生产丧失。操纵子中的第一个基因cxgA (SEQ ID NO 8)对于胆固醇转化为Xl和X2也 是必需的。因为CxgB (SEQ ID NO 13)和可能 CxgA (SEQ ID NO 12)积极参与化合物 Xl 和 X2 的生产,这些基因可以被过量表达或被修饰以提高Xl和X2的生产。另外,CXgD基因(SEQ ID NO=Il)的消除将具有类似的效果。9)组合缺失突变体的生成因为用于生成单独缺失的方法不产生抗生素抗性标记的引入,产生ADD和X1/X2 生产的丧失的两个突变的组合通过每个连续地缺失进行;开始是ksdA缺失(SEQ ID NO 8),然后缺失cxgB (SEQ ID NO :9)。最终的菌株通过DNA杂交确认和胆固醇转化表型在摇 瓶试验中测定。如在图4和图5中显示,最终的突变体没有产生可检测水平的AD和产生非常低水 平的Xl和X2。与野生型菌株相比,这种双缺失突变体产生稍微高水平的睾酮。图4图形图 解显示通过野生型和Δ ksdA/ Δ cxgB突变体将胆固醇转化为AD和ADD的时间过程的数据。 图5图形图解显示通过野生型和Δ ksdA/ Δ cxgB突变体将胆固醇转化为化合物Xl和Χ2的 时间过程的数据。对于图4和图5 :Υ-轴值代表LC/MS/MS峰面积响应而不是产物的绝对定 量。10)在中试工厂规模的样品分析以下的双缺失突变体的分支杆菌属菌株在500升发酵罐中以中试工厂规模培养菌株1 野生型分支杆菌属ATCC 29472。如先前说明的,从ATCC获得的样品在MYM 琼脂培养基上划线培养并观察多个菌落形态(“形态型”)。在进一步表征这些形态型后, 测定具有圆形、湿的、黄色表型的菌株最容易进行遗传操作。菌株2 分支杆菌属ADDX。这个菌株衍生自野生型菌株并且负责ADD和杂质X生产的基因被去除。该菌株没有产生可检测水平的ADD和产生非常低水平的杂质X。菌株3 分支杆菌属ADDX: :Tnl干燥菌落变体#8。这个菌株通过转座子的插入衍 生自菌株2,产生干燥、扩散的菌落形态。它也不产生ADD和产生非常低水平的杂质X。菌株4 分支杆菌属ADDX :Tnl干燥菌落变体#2。类似于菌株3,这个菌株通过转 座子的插入衍生自菌株2,产生干燥、扩散的菌落形态。它与菌株3的形态稍微不同,但是也 类似地不产生ADD和产生非常低水平的杂质X。菌株5 分支杆菌属ADDX :Tn3。这个菌株也通过转座子的插入衍生自菌株2,但 是具有其亲代的相同圆形、湿的、黄色表型。它表现出比菌株2产生显著多的AD。三种独立的方法被用于评估样品的组成,LC/MS/MS、GC/FID和NMR,如下a) LC/MS/MS该方法用于可得到的标准品AD、ADD、睾酮和化合物Xl及X2。该分析中没有包括
植物甾醇。结果表明不存在可检测水平的ADD或X2。虽然在粗制备物中存在痕量的XI,但是 在结晶样品中没有检测到。除了一批之外,在样品中发现小于0.5%的睾酮。b) GC/FID该方法被发展来检测样品中尽可能多的化合物,包括底物植物留醇。清楚的是,粗 样品包含另外的未鉴定组分。如果有的话,非常少的底物植物留醇可以被看见。另外,没有 检测到ADD和X2和在粗样品中只有痕量的Xl存在。除了一批之外,所有样品包含< 0. 3%的睾酮。结晶样品的睾酮水平与LC/MS/MS 数据的任何差异可以通过以下事实解释与LC/MS/MS相比,所有可检测化合物都通过该方 法以%计算计入。可选地,差异也可能产生于该方法中睾酮与AD的有限分离和精确积分特 定峰面积的困难。关于“其它的”化合物,不能够从可得到标准品识别。在结晶样品中,虽 然“其它化合物”的总水平是1 %和1. 2%,但任何单个种类的最高水平是0. 3-0. 4%。c) NMR该方法主要用于确认前面的方法并局限于AD、ADD和睾酮水平的分析。如在前面 的方法中,没有检测到ADD。取决于峰积分点设定在何处,睾酮水平是0. 4-0. 5%。试验1) AD转化为ADD的微量滴定试验被测试AD转化为ADD的克隆从菌落接种进入96孔微量滴定板中的200 μ 1的2xYT 培养基中,并在间歇通气的HIGR0 培养箱(400rpm)中于30°C温育24小时。加入20 μ 1的 AD (2χΥΤ中100 μ Μ)等分试样(10 μ M AD的终浓度),并且培养物又温育16至18小时。通 过每个孔中的整个培养物体积与800 μ 1乙腈在相应的聚丙烯96深孔微量滴定盘中混合, 终止转化反应。在离心去除细胞碎片后,去除100 μ 1等分试样并转移到另外一个96孔微 量滴定盘,用于LC/MS/MS分析(参见以下)。2)胆固醇转化的微量滴定试验被测试分析胆固醇转化的克隆基本同以上描述进行培育。胆固醇-葡萄糖溶液 的20 μ 1等分试样(通过将在5%吐温-20中的1/10体积的100mg/ml胆固醇悬浮液加至 40%葡萄糖中制备)被加入板窝(cell)中,使终浓度为lmg/ml胆固醇、0.05%吐温-20和 4%葡萄糖。在30°C又温育16至18小时后,通过加入每个孔中的体积至96深孔微量滴定板中的800 μ 1乙腈中,停止转化反应。在离心去除细胞碎片后,转移100 μ 1等分试样用于 LC/MS/MS分析(参见以下)。3)胆固醇转化的摇瓶试验待测试菌株的单个菌落在250ml瓶中25ml的2xYT中、在220rpm和30°C培养过 夜。在获得0. 2-0. 3的OD600后,将5ml的培养物转移至50ml含有5mg/ml胆固醇和0. 25% 吐温-20的新鲜2xYT培养基中。然后在不同时间点取出100 μ 1的培养物并加至96深孔 板中的900μ 1乙腈中,以停止转化和提取产物。在完成试验以后,该板被离心5分钟以去 除细胞碎片,并且100 μ 1上清液通过LC/MS/MS分析(参见以下)。4)转化产物的LC/MS/MS分析LC/MS/MS分析条件如下使用CTCPAL (CTCPal)自动加样器(LEAP Technologies,Carrboro,NC),样品从96孔板注射进入45/55的水/乙腈(0. 甲酸)的 等梯度混合物中。该混合物通过LC-10ADVPTM(LC-10ADvp)泵(Shimadzu,Kyoto,日本)提 供,以 1. 0ml/min 通过 SYNERGI MAXRP (Phenomenex, Torrance CA) 50x 2mm 柱以及进入 API4000 TURB0I0N-SPRAY 三重四极杆质谱仪(Applied Biosystems,Foster City,CA)中。 对于阳离子模式的感兴趣分析物,进行离子喷雾和MRM(多反应监测),并且每个分析持续 1. 2分钟。以下母体/碎片离子组合被用于监测感兴趣的化合物雄烯二酮,287. 26/97. 85 ; 雄二烯二酮,285. 23/121. 65 ;睾酮,289. 21/97. 75 ;21-羟基-20-甲基孕 _1,4-二烯-3-酮 329. 30/121. 42 ;21-羟基-20-甲基孕 _4_ 烯-3-酮,331. 30/109. 45。雄烯二酮、雄二烯二酮、睾酮和标准品从Sigma Chemicals (St. Louis, MO)购买。 21-羟基-20-甲基孕-1,4-二烯-3-酮(化合物 X2)从 Fisher Scientif ic (Pittsburgh, PA)购买。21-羟基-20-甲基孕-4-烯-3-酮(化合物XI)通过使用ksdA Tn5突变体的 大规模胆固醇转化的提取制备,由于3-留酮-Δ1-脱氢酶的缺乏,其不能够生产化合物Χ2。 急骤层析被用于纯化化合物XI,并且通过NMR确认其身份。5) DNA杂交用于确认突变体待测试的菌株在2χΥΤ中生长至饱和,并且Iml的培养物用于制备染色体DNA—— 使用EPICENTRE 基因组DNA纯化试剂盒(Epicentre,Madison, WI)。DNA用合适的限制酶 消化,通过琼脂糖凝胶电泳分离,转移至尼龙过滤器,并与来自缺失侧翼相应区域的32P-放 射性标记的PCR产物杂交。放射自显影法用于测定杂交染色体片段的大小,以证实预期的缺失。ksdA 的基因序列(SEQ ID NO 1)ATGACTGAACAGGACTACAGTGTCTTTGACGTAGTGGTGGTAGGGAGCGGTGCTGCCGGCATGGTCGCCGCCCTCACCGCCGCTCACCAGGGACTCTCGACAGTAGTCGTTGAGAAGGCTCCGCACTATGGCGGTTCCACGGCGCGATCCGGCGGCGGCGTGTGGATTCCGAACAACGAGGTTCTGCAGCGTGACGGGGTCAAGGACACCCCCGCCGAGGCACGCAAATACCTGCACGCCATCATCGGCGATGTGGTGCCGGCCGAGAAGATCGACACCTACCTGGACCGCAGTCCGGAGATGTTGTCGTTCGTGCTGAAGAACTCGCCGCTGAAGCTGTGCTGGGTTCCCGGCTACTCCGACTACTACCCGGAGACGCCGGGCGGTAAGGCCACCGGCCGCTCGGTCGAGCCCAAGCCGTTCAATGCCAAGAAGCTCGGTCCCGACGAGAAGGGCCTCGAACCGCCGTACGGCAAGGTGCCGCTGAA
CATGGTGGTGCTGCAACAGGACTATGTCCGGCTCAACCAGCTCAAGCGTCACCCGCGCGGCGTGCTGCGCAGCATCAAGGTGGGTGTGCGGTCGGTGTGGGCCAACGCCACCGGCAAGAACCTGGTCGGTATGGGCCGGGCGCTGATCGCGCCGCTGCGCATCGGCCTGCAGAAGGCCGGGGTGCCGGTGCTGTTGAACACCGCGCTGACCGACCTGTACCTCGAGGACGGGGTGGTGCGCGGAATCTACGTTCGCGAGGCCGGCGCCCCCGAGTCTGCCGAGCCGAAGCTGATCCGAGCCCGCAAGGGCGTGATCCTCGGTTCCGGTGGCTTCGAGCACAACCAGGAGATGCGCACCAAGTATCAGCGCCAGCCCATCACCACCGAGTGGACCGTCGGCGCAGTGGCCAACACCGGTGACGGCATCGTGGCGGCCGAAAAGCTCGGTGCGGCATTGGAGCTCATGGAGGACGCGTGGTGGGGACCGACCGTCCCGCTGGTGGGCGCCCCGTGGTTCGCCCTCTCCGAGCGGAACTCCCCCGGGTCGATCATCGTCAACATGAACGGCAAGCGGTTCATGAACGAATCGATGCCCTATGTGGAGGCCTGCCACCACATGTACGGCGGTCAGTACGGCCAAGGTGCCGGGCCTGGCGAGAACGTCCCGGCATGGATGGTCTTCGACCAGCAGTACCGTGATCGCTATATCTTCGCGGGATTGCAGCCCGGACAACGCATCCCGAAGAAATGGATGGAATCGGGCGTCATCGTCAAGGCCGACAGCGTGGCCGAGCTCGCCGAGAAGACCGGTCTTGCCCCCGACGCGCTGACGGCCACCATCGAACGGTTCAACGGTTTCGCACGTTCCGGCGTGGACGAGGACTTCCACCGTGGCGAGAGCGCCTACGACCGCTACTACGGTGATCCGACCAACAAGCCGAACCCGAACCTCGGCGAGATCAAGAACGGTCCGTTCTACGCCGCGAAGATGGTACCCGGCGACCTGGGCACCAAGGGTGGCATCCGCACCGACGTGCACGGCCGTGCGTTGCGCGACGACAACTCGGTGATCGAAGGCCTCTATGCGGCAGGCAATGTCAGCTCACCGGTGATGGGGCACACCTATCCCGGCCCGGGTGGCACAATCGGCCCCGCCATGACGTTCGGCTACCTCGCCGCGTTGCATCTCGCTGGAAAGGCCTGA(SEQ ID NO 1)KsdA 的蛋白质序列(SEQ ID NO:2)MTEQDYSVFDVVVVGSGAAGMVAALTAAHQGLSTVVVEKAPHYGGSTARSGGGVWIPNNEV
LQRDGVKDTPAEARKYLHAIIGDVVPAEKIDTYLDRSPEMLSFVLKNSPLKLCWVPGYSDYYPETPGGKATGRSVEPKPFNAKKLGPDEKGLEPPYGKVPLNMVVLQQDYVRLNQLKRHPRGVLRSIKVGVRSVffANATGKNLVGMGRALIAPLRIGLQKAGVPVLLNTALTDLYLEDGVVRGIYVREAGAPESAEPKLIRARKGVILGSGGFEHNQEMRTKYQRQPITTEWTVGAVANTCDGIVAAEKLGAALELMEDAWWGPTVPLVGAPWFALSERNSPGSIIVNMNGKRFMNESMPYVEACHHMYGGQYGQGAGPGENVPAWMVFDQQYRDRYIFAGLQPGQRIPKKWMESGVIVKADSVAELAEKTGLAPDALTATIERFNGFARSGVDEDFHRGESAYDRYY⑶PTNKPNPNLGEIKNGPFYAAKMVPGDLGTKGGIRTDVHGRALRDDNSVIEGLYAAGNVSSPVMGHTYPGPGGTIGPAMTFGYLAALHLAGKA(SEQ ID NO 2)分支杆菌B3683KsdA和同系物的比对B3683 =分支杆菌B36833-留酮-Δ 1-脱氢酶(SEQ ID NO 1)MAP =副结核分支杆菌MAP0530c(SEQ ID NO:3)MT =结核分支杆菌(Mycobacterium tuberculosis)推定的3-甾酮-Δ 1-脱氢酶(SEQ ID NO 4)NF =皮疽诺卡氏菌(Nocardia farcinica)推定的3_甾酮-Δ 1-脱氢酶
(SEQ ID NO 5)
SA=阿维链霉菌(Sti^ptomyces avermitilis)推定的 3--甾酮-Δ1-
(SEQ ID NO 6)
RE =红平红球菌(RhodococcuserythropoliLS)3-甾酮-△ ι-脱氢酶
(SEQ ID NO 7)
CT =I_酮假单孢菌(Comomonastestosteroni) 3_ 甾酮-Δ 1-脱氢酶
(SEQID NO 8)
150
B3683........MTEQDYSVFDVVVVGSGAAGMVAALTAAHQGLSTVVVEKAPH
MAP........MFYMSAQEYDVVVVGSGGAGMVAALTAAHRGLSTIVIEKAPH
MT........MFYMTVQEFDVVVVGSGAAGMVAALVAAHRGLSTVVVEKAPH
NFMTDPVLDPHSYDVVVVGSGAAGMTAALTAAHHGLRVVVLEKAAH
SA........MTAALTAAKQGLSCVVVEKAAT
REMAKNQAPPATQAKDIVVDLLVIGSG. TGMAAALTANELGLSTLIVEKTQY
CT MAEQEYDLIVVGSGAGAMLGAIRAQEQGLKTLVVEKTEL
51100
B3683YGGSTARSGGGVffIPNNEVLQRDGVKDTPAEARKYLHAIIGDWPAEKID
MAPFGGSTARSGGGVffIPNNEVLKRDGVKDTPEAARTYLHGIIGDWEPERID
MTYGGSTARSGGGVffIPNNEVLKRRGVRDTPEAARTYLHGIVGEIVEPERID
NFYGGSTARSGGGVffIPGNKALRASGRPDDREEARTYLHSIIGDWPKERID
SAFGGSAARSGAGIffIPNNPVILAAGVPDTPAKAAAYLAAVVGPDVSADRQR
REVGGSTARSGGAFWMPANPILAKAGA⑶TVERAKTYVRSVVGDTAPAQRGE
CTFGGTSALSGGGIffIPLNYDQKTAGIKDDLETAFGYMKRCVRGMATDDRVL
101150
B3683TYLDRSPEMLSFVLKNSPLKLCffVPGYSDYYPETPGGKATGRSVEPKPFN
MAPTYLERGPEMLSFVLKHTPLKMCffVPRYSDYYPESPGGRAEGRSIEPKPFN
MTAYLDRGPEMLSFVLKHTPLKMCffVPGYSDYYPEAPGGRPGGRSIEPKPFN
NFTYIDRGAEAFDFVLDHTPLQMKffVPGYSDYYPEAPGGRGEGRSCEPKPFD
SAAFLGHGPAMISFVMANSPLRFRWMEGYSDYYPELSGGLPNGRSIEPDQLD
REAFVDNGAATVDMLYRTTPMKFFffAKEYSDYHPELPGGSAAGRTCECLPFD
CTAYVETASKMAEYLRQIG. IPYRAMAKYADYYPHIEGSRPGGRTMDPVDFN
151200
B3683AKKLGPDEKGLE. . . . PPYG KVPLNMVVLQQDYVRLNQLKRHP. RGVLRS
MAPARKLGPDEAGLE.· · · PAYGKVPLNVVVMQQDYVRLNQLKRHP. RGVLRS
MTARKLGADMAGLE. · · · PAYGKVPLNVVVMQQDYVRLNQLKRHP. RGVLRS
NFLKVLGPEKDKLE. · · · PAYAKAPLNVVVMQADFVRLNLIRRHP. KGMLRA
SAGNILGAELAHLN. · · · PSYMAVPAGMVVFSADYKffLTLSAVSA. KGLAVA
REASVLGAERGRLR.…PGLMEAGLPMPVTGADYKWMNLMVKKPSKAFPRI
CTAARLGLAALE LFGRMSISAFEAHSMLSRELKSRFTILGIM
GCGGCGCCTCGGGCGCGGCCATGGTGTGGCGCGCGGCGGCGGCGATCGAACTGGGGCTCTGCCAGGCGGTGCTGTGCGCCATCCCAGCCAACTACCTGACCCCGATGTCGGCGGAGCGTCCCTACGATCCCGGCGACGCGCTGTACTACGGGGCGTCCAGCTTCCGGTACGGCTCGCCGCAGGCCGAGTTCGAGATTCCCTACGGCTACCTCGGACAGAACGGTCCGTACGCGCAGGTCGCCCAGATGTACTCGGCCGCATACGGATACGACGAGACCGCGATGGCCAAGATCGTCGTCGACCAGCGGGTGAACGCCAACCACACACCCGGGGCGGTGTTCCGGGACAAACCGGTGACCATCGCCGATGTCCTGGACAGCCCGATCATCGCGTCTCCGCTGCACATGCTGGAAATCGTCATGCCGTGCATGGGGGGATCGGCAGTGCTCGTCACCAATGCCGAACTGGCCCGCGCCGGCCGCCACCGACCGGTCTGGATCAAGGGGTTCGGCGAACGGGTGCCCTACAAGTCCCCGGTCTATGCCGCCGATCCGCTCCAGACACCGATGGTGAAGGTCGCCGAATCCGCCTTCGGGATGGCCGGCCTGACCCCGGCCGACATGGACATGGTGTCGATCTACGACTGCTACACCATCACCGCCCTGCTGACGTTGGAGGACGCGGGTTTCTGTGCCAAGGGCACGGGAATGCGGTTCGTCACCGACCACGACCTGACCTTCCGCGGTGACTTCCCGATGAACACCGCAGGCGGACAGCTCGGCTACGGCCAGCCCGGCAATGCCGGTGGCATGCACCATGTGTGCGATGCCACCCGGCAGCTGATGGGACGCGCCGGGGCAACCCAGGTCGCGGACTGTCACCGCGCCTTCGTCTCGGGCAACGGTGGCGTGCTCAGCGAACAAGAAGCTCTCGTCCTGGAGGGGGAT(SEQ ID NO 9)CxgA 的蛋白质序列(SEQ ID NO 10)MGLRGDAAIVGFHELPATRKPTGTAEFTIEQWARLAAAAVADAGLSVQQVDGLVTCGVMESQLFVPSTVAEYLGLAVNFAEIVDLGGASGAAMVWRAAAAIELGLCQAVLCAIPANYLTPMSAERPYDP⑶ALYYGASSFRYGSPQAEFEIPYGYLGQNGPYAQVAQMYSAAYGYDETAMAKIVVDQRVNANHTPGAVFRDKPVTIADVLDSPIIASPLHMLEIVMPCMGGSAVLVTNAELARAGRHRPVWIKGFGERVPYKSPVYAADPLQTPMVKVAESAFGMAGLTPADMDMVSIYDCYTITALLTLEDAGFCAKGTGMRFVTDHDLTFRGDFPMNTAGGQLGYGQPGNAGGMHHVCDATRQLMGRAGATQVADCHRAFVSGNGGVLSEQEALVLEGD分支杆菌B3683CxgA和同系物的比对B3683 =分支杆菌 B3683CxgA(SEQ ID NO 11)MAPI =副结核分支杆菌MAP4302c(SEQ ID NO: 12)MAP =副结核分支杆菌MAP1462(SEQ ID NO: 13)PSP =极单胞菌属某种(Polaromonas sp)乙酰辅酶A乙酰转移酶(SEQ ID NO: 14)RE =富养罗尔斯通氏菌(Ralstonia eutropha)乙酰辅酶A乙酰转移酶(SEQ ID N0:15)RP=沼泽红假单胞菌(Rhodopseudomonas palustris)推定的硫解酶(SEQ ID N0: 16)150B3683 .................LGL RGDAAIVGFH ELP. ATRKPT GTAEFTIEQffMAPI ................. MGL RGEAAIVGYV ELPPERLSKA SPAPFVLEQff
69
MAP2......MTGLRGEAAIVGIAELP. AERRPTGPPRFTLDQY
PSPMIVGVADLPLKDGK. VLRPMSVLEAQ
RE.......MTLNGSAYIVGAYEHPTRK....ADDLSVARLH
RPMDSGLAPRGAPRNDERDGVCNRQAAIMSYITGVGLTRFGKIDGSTTLSLM
51100
B3683ARLAAAAVADAGLSVQQVDGLVTCG. · · VMESQLFVPSTVAEYLGLAVNF
MAPIAEPGAAALQDAGLPGEVVNGIVASH. . . LAESEIFVPSTIAEYLGVGARF
MAP2ALLAKLVIEDAGVDPGRVNGLLTHG. · · VAESAMFAPATLCEYLGLACDF
PSPALVARDALKDAGIPMSEVDGLLTAGLffGVPGPGQLPTVTLSEYLGITPRF
READVARGALADAGLTAADVDGYFCAG. · DAPGLG. . . TTTIVEYLGLKPRH
RPREAAEAAIADAGLKRGDIDGLLCGYS. · TTMPHIMLATVFAEHFGILPSH
101150
B3683AEIVDLGGASGAAMVffRAAAAIELGLCQAVLCAIPANYLTPMSAERPYDP
MAPIAEHVVLGGASAAAMVffRAAAAIELGICDAVLCALPARYITPSSKKKPRPM
MAP2GERVDLGGASSAGMVffRAAAAVELGICEAALA WPGSASVPHSARRP. . P
PSPIDSTNIGGSAFEAHVAHAAMAIEAGRCEVALITYGSLQ
REVDSTECGGSAPILHVAHAAEAIAAGRCNVALITLAGRPRA
RPCHAVQVGGATGMAMAMLAYQLVESGAAKNILVVGGENRLTG.........
151200
B3683GDALYYGASSFRYGSPQAEFEIPYGYLGQNGPYAQVAQMYSAAYGYDETA
MAPIVDAMFFGSSSNQYGSPQAEFEIPYGNLGQNGPYGQVAQRYAAVYGYDERA
MAP2PESNWYGASSNNYGSPQAEFEIPYGNVGQNAPYAQIAQRYAAEFGYDPAA
PSP KSEMSRNLAGRPAVLTMQYETPffGMPTPV GGYAMAAKRHMHEYGTTSEQ
RE.AGAALALRAPDPDAPDVAFELPFGPATQN.LYGMVAKRHMYEFGTTSEQ
RP · QSRDASVQALAQVGHPIYEVPLGPTIPA YYGLVASRYMHDHGVTEED
201250
B3683MAKIVVDQRVNANHTPGAVFRDKPVTIADVLDSPIIASPLHMLEIVMPCM
MAPIMAKIVVDQRVNANHTDGAIffRDTPLTVEDVLASPVIADPLHMLEIVMPCV
MAP2LAKIAVDQRTNACAHPGAVFFGTPITAADVLDSPMIADPIHMLETVMRVH
PSPLAEIAVATRQWAALNPAATMRD. PLSIEDVLKSPMVCDPMHLLDICLVTD
RELAffIKVAASHHAQHNPHAMLRN. VVTVEDVVNSPMVADPLHRLDCCVMSD
RPLAEFAVLMRSHAITHPGAQFHE.PISVAEVMASKPIASPLKLLDCCPVSD
251300
B3683GGSAVLVTNAELARAGRHRPVffIKGFGERVPYKSPVYAAD.PLQTPMVKV
MAPIGGAAVVVANADLAKRARHRPVffVKGFGEHVPFKTPTYAED LLRTPIAAA
MAP2GGAAVLIANADLARRGRHRPVffIKGFGEHIAFKTPTYAED LLSTPIARA
PSPGGGAVVMTTAEHARALGRKAVHVRGYGESHTHWTIAAMPDLARLTAAEVA
REGGGALIVARPEIARQLRRPLVKVRGTGEAPKHAMGGNID..LTffSAAAffS
RPGGAALVIS.. RE. PTTAHQIKVRGCGQAHTHQHVTAMP.AAGPSGAELS0712]3013500713]B3683AESAFGMAGLTPADMDMVSIYDCYTITALLTLEDAGFCAKGTGMRFVTDH0714]MAPIADTAFAMTGLSRAQMDMVSIYDCYTITVLLSLEDAGFCEKGRGMEFVADH0715]MAP2AERAFAMAGLDRPDVDVASIYDCYTITVLMSLEDAGFCAKGQGMQffIGDH0716]PSPGRDAFAMAGIGHDAIDVVEVYDSFTITVLLTLEALGFCQRGESGAFVSNQ0717]REGPAAFAEAGVTPADIKYASLYDSFTITVLMQLEDLGFCKKGEGGKFVADG0718]RPIARAffATSGVEIADVKYAAVYDSFTITLLMLLEDLGLAARGEAAARARDG0719]3514000720]B3683 DLTFRGDFPMNTAGGQLGYGQPGNAGGMHHVCDATRQLMGRAGAT. QVA0721]MAPI DLTFRGDFPLNTAGGQLGFGQAGLAGGMHHVCDATRQIMGRAGAA. QVP0722]MAP2 DLTHRGDFPLNTAGGQL3FGQAGMAGGMHHVVDGARQIMGRA⑶A. QVP0723]PSP RTAPGGAFPLNTNGGGLSYAHPGMYG. IFLLIEAVRQLRGECGPR. QIA0724]REGLISGVGRLPFNTDGGGLCNNHPANRGGVTKVIEAVRQLRGEAHPAVQVS0725]RP.YFSRTGAMPLNTHGGLLSYGHCGVGGAMAHLVETHLQMTGRA⑶R. QVR
0726
0727
0728
0729
0730
0731
0732
0733
0734
0735
0736
0737
0738
0739
0740
0741
0742
0743
0744
0745
0746
0747
0748
0749
0750
EALVLEGD (401) TTLILEGD(400) VALLLQGE(402) ATCILSTR(383) ATLILERE(387) VSMILERVR(404)
401
B3683 DCHRAFVSGN GGVLSEQ. · · MAPI DCNRAFVSGN GGILSEQ. . · MAP2 GCHTAFVTGN GGIMSEQ... PSP NAVTALVHGT GGTLSS. . . G RE NCDLALASGI GGALASRHTA RP DASLALLHGD GGVLSSH... 与B3683同一性/相似性 MAPI69/81%
MAP263/76%
PSP34/49%
RE37/50%
RP34/46%
cxgB 的基因序列(SEQ ID NO: 17)
ATGACCGAGTCGTCGGCCCGGCCAGTGCCACTGCCCACGCCGACCTCGGCACCGTTCTGGGATG
GCCTGCGCCGGCACGAGGTGTGGGTGCAATTCTCACCGTCATCGGATGCCTACGTGTTCTATCC
GCGCATCCTGGCGCCCGGCACCCTGGCCGATGATCTGTCCTGGCGCCAGATCTCCGGTGATGCC
ACCCTGGTCAGCTTCGCCGTCGCACAGCGACCGGTCGCCCCTCAGTTCGCCGATGCCGTTCCGC
ATCTGCTCGGCGTGGTGCAGTGGACCGAGGGGCCGCGGCTGGCCACCGAGATCGTCGGCGTCGA
TCCGGCTCGACTGCGCATCGGTATGGCCATGACGCCGGTGTTCACCGAACCCGACGGCGCCGAT
ATCACCCTGTTGCACTACACCGCCGCCGAA(SEQ ID NO 17)
CxgB的蛋白质序列(SEQ ID NO 18)
MTESSARPVPLPTPTSAPFWDGLRRHEVWVQFSPSSDAYVFYPRILAPGTLADDLSWRQIS⑶A TLVSFAVAQRPVAPQFADAVPHLLGVVQWTEGPRLATEIVGVDPARLRIGMAMTPVFTEPDGAD ITLLHYTAA(SEQ ID NO 18)0751]分支杆菌B3683CxgB和同系物的比对0752]B3683=分支杆菌B3683CxgB0753](SEQ ID NO 18)0754]MAPI ==副结核分支杆菌MAP4301C0755](SEQ ID NO 19)0756]RE =1Et养罗尔斯通氏菌推定的核酸结合蛋白,Zn指蛋白0757](SEQ ID NO 20)0758]PSP =极单胞菌属某种推定的核酸结合蛋白,Zn指蛋白0759](SEQ ID NO 21)0760]SA =阿维链霉菌假定的蛋白质0761](SEQ ID NO 22)0762]MAP2 ==副结核分支杆菌MAP4296C0763](SEQID NO 23)0764]1500765]B3683 ·· · MTESSARPVPLPTP.TSAPFffDGLRRHEVffVQFSPSSDAYVFYPRI0766]MAPIMTTFERPMPVKTP.TTAPFffDALAQHRIVIQYSPSLQSYVFYPRV0767]REMAIGHYMDTAAFffAATRERRLLVQFCTQTGRffQAYPRP0768]PSP.......MYDKPLPVIDG.ESRPYffDALKQHRLTLKRCQDCGKHHFYPRA0769]SAMSGRRFDEPETDA. FTRPYffDAAAEGVLLLRRCAGCGRTHHYPRE0770]MAP2MTAEPLRPQTGPVPHASSPLSVPFffEGCRSRQLRYQRCRACDLANFPPTE0771]511000772]B3683LAPGTLADDLSffRQISGDATLVSFAVAQRPVAPQFADAVPHLLGVVQffTE0773]MAPIRAPRTLADDLEffREISGMGSLYSYTVAHRPVSPHFADAVPQLLAIVEffDE0774]REGSVYTGRRRLAWREVSGDGVLASWTVDR. ·MNTPAAADAPRMHAffIDLVE0775]PSPLCPHCHSDAVEffVDACGTGTIYSYTIARRPAGPAFKADTPYVVAVIDLDE0776]SAFCPHCffSDDVTffERASGRATLYTffSVVHRNDLPPFGERTPYVAA WDLAE0777]MAP2HCRQCLSDDIGffQQSGGRGEIYSffTVVHRPVTAEFIP. · PNAPAIITLDE0778]1011500779]B3683GPRLATEIVGVDPARLRIGMAMTPVFTEPDGADITLLHYTAAE (138)0780]MAPIGPRFSTEMVNVDPAQLRVGMRVQPVFCDYPEHDVTLLRYQPAD (137)0781]REGARILSffLVDCDPARLRVGLAVRVAffISLPDGffQffPAFTIAAHSGGPNGKAP0782]PSPGARMMTNIVTDDVEAVRIGQRVT. VQYDDVTEEVTLPKFRLL (133)0783]SAGPRMMTEVVECAAAELRVGMELEAAFRPAGEVTVPVFRPRG(143)0784]MAP2GYQMLTNVVGVPPGDLRVGLRVR. VQFHTVAADVTLPYFTDETDGS (135)0785]与B3683同一性/相似性0786]MAPI59/76%0787]RE36/52%0788]PSP33/53%0789]SA33/50%MAP232/49%
cxgC 的基因序列(SEQ ID NO 24)
ATGGCGCTGGCACTCACCGATGAACAGGTACAGCTGACCGAGGCGATGGCGGGTTTCGCCCGCA
GGCACGGCGGACTGGAACTGACCCGGTCGCAGTTCGACGCCCTCGCAGCCGGGGAACGCCCGGC
GTTCTGGGCGGCCTTGGTCGCCAACGGACTGCACGGGGTTCAATTGCCCGAGCAGGGTGGGGGT
TTCGTCGATGCCGCCTGCGTCATCGACGCCGCGGGCTACGGTCTGCTGCCCGGCCCGCTGCTGC
CCACGATGATCGCCGGTGCCGTCATTGCAGACCTGCCGGAACAACCGGCGGTGCGCGCCGCGCG
CGAGGCCCTCGCCGCGGGTGGCCCGATGGCGGTGTTGCTGCCGAGCGATGGCGTGCTGCGGGCC
GAACCCGACGGCGCAGGGTGGCGGCTGACCGGCGCGGCCGGACCGCAGCTCGGCGTGGCCGCCG
CGGAGCATGTGATCGTTGCCGCCGATACCGATGCGGCGCAAAGACTCTGGTTTCTGATCAACGC
TGCCGGGCCGGGGGTGGTGGTGCAGGCGGCCGCCCCGACCGATCTGACCCGGGATGTCGGCACC
CTGTCGTGCGCCGACGCACCCGTCGCGGCCGATGCCGTGCTGGCCGGTGTCGACCCGGTGCGGG
CGCGGTGCCATGCGATCGGCCTGATGGCGGCCGAGGCAGCGGGGATCGCGCGCTGGTGTGTGGA
CAATGTGGTCGCCTATCTGAAGGTGCGCGAACAGTTCGGACGCCGCATCGGGGCGTTCCAGGCC
CTGCAGCACAAGGCGGCCATGCTGTTCATCGACAGTGAACTTGCCGCCGCCGCCGCATGGGATG
CGGTGCGCGGCGCCGAACAACCGATCGAGCAACACGAGATCGCCGCCGCAGGCGCTGCCATCGC
GGCGATCGGCAAGCTGCCGGATCTGGTGGTCGATGCGCTGACGATGTTCGGGGCCATCGGGTAC
ACCTGGGAGCACGACCTGCACCTGTACTGGAAGCGGTCGATCAGCCTGGCCGCCGCCGCGGGCG
GTGTCGCCGAATGGGCCGAGCTGCTCGGGGAACCCGACCGGCAGCCAAGAGATTTCGGCATCGA
GCTGGCCGGTGTGGAAGAGCGGTTCCGGGGGCAGATCGCCGCGCTGATCGACGCCGCGGCGCAG
CTGGACAACGAGGCGCCGGGCCGGCAGAACCCCGAGTACGAGGACTTCTGGACCGGTCCGCGCC
GGACCGCACTGGCCGATGCCGGACTCGTCGCGCCATATCTGCCCGCGCCGTGGGGGCTGGACGC
CACGCCGGCCCAACAGCTCGTCATCGACGAGGAATTCGACCGGCGGCCAACGCTTACCCGGCCA
TCGTTGGGAATCGCACAGTGGATACTGCCGACGGTTATCGCCGAAGGCACCGACGGCCAACGGG
AGCGCTTCGCGGTGCCGACGCTGCGCGGTGAGATCGGGTGGTGTCAGCTGTTCTCCGAACCCGG
CGCCGGATCGGATCTGGCGTCCTTGACGACCAGGGCGACCAAGGTCGAGGGCGGCTGGCGGATC
GACGGGCAGAAGGTGTGGACCTCCTCGGCGCAGCGCGCCGACTGGGGTGCGCTGCTGGCCAGGA
CGGATCCGCAGGCCGCCAAGCACCGGGGCATCGGCTACTTCCTGATCGATATGACGAGCCCGGG
CATCACCATCCGGCCGCTGCGAACCGCCAGCGGTGACGAGCATTTCAACGAGGTGTTCTTCGAC
GATGTCTTCGTGCCCGATGACATGCTGGTCGGTGAGCCGACCGCGGGCTGGTCGCATGCGCTGG
CCACGATGGCCAACGAACGGGTGGCCATCGGTGCCTACGCCAAACTGGACAAGGAACGTGAATT
GCGGGCGCTGGCCCGTCAGGCCGGTCCGGCGGGTGTCATGGTGCGGCACGCGTTGGGCCGGGTA
CGGGCCGCCACCAACGCCATCGGCGCGCTCGCGGTGCGCGACACCCTGCGCCGGCTCGCCGGAC
ACGGGCCCGGCCCGGCGTCCAGCGTCGGCAAGGTCGGCACCGCACTGTTGGTGCGCCGGGTGAC
CGCCGACGCGCTGGCTTTCAGCGGTCGGGCCGCCATGGTGGGTGGCGCCGACCACCCCGCAGTG
GCCGACACGTTGATGATGCCTGCGGAGGTCATCGGCGGTGGCACCGTCGAGATCCAGCTCAATA
TCATCGCCACCATGATCCTCGGACTACCGCGCGCA(SEQ ID NO 24)
CxgC的蛋白质序列(SEQ ID NO 25)
MALALTDEQVQLTEAMAGFARRHGGLELTRSQFDALAAGERPAFffAALVANGLHGVQLPEQGGG
FVDAACVIDAAGYGLLPGPLLPTMIAGAVIADLPEQPAVRAAREALAAGGPMAVLLPSDGVLRAEPDGAGWRLTGAAGPQLGVAAAEHVIVAADTDAAQRLWFLINAAGPGVVVQAAAPTDLTRDVGTLSCADAPVAADAVLAGVDPVRARCHAIGLMAAEAAGIARWCVDNVVAYLKVREQFGRRIGAFQALQHKAAMLFIDSELAAAAAWDAVRGAEQPIEQHEIAAAGAAIAAIGKLPDLVVDALTMFGAIGYTWEHDLHLYWKRSISLAAAAGGVAEWAELLGEPDRQPRDFGIELAGVEERFRGQIAALIDAAAQLDNEAPGRQNPEYEDFWTGPRRTALADAGLVAPYLPAPWGLDATPAQQLVIDEEFDRRPTLTRPSLGIAQWILPTVIAEGTDGQRERFAVPTLRGEIGWCQLFSEPGAGSDLASLTTRATKVEGGWRIDGQKVWTSSAQRADWGALLARTDPQAAKHRGIGYFLIDMTSPGITIRPLRTASGDEHFNEVFFDDVFVPDDMLVGEPTAGWSHALATMANERVAIGAYAKLDKERELRALARQAGPAGVMVRHALGRVRAATNAIGALAVRDTLRRLAGHGPGPASSVGKVGTALLVRRVTADALAFSGRAAMVGGADHPAVADTLMMPAEVIGGGTVEIQLNIIATMILGLPRA(SEQ ID NO 25)分支杆菌B3683CxgC和同系物的比对
B3683 =分支杆菌 B3683CxgC(SEQ ID NO 25)MAP =副结核分支杆菌MAP4303c(SEQ ID NO 26)NF =皮疽诺卡氏菌(Nocardi^Farcinica)推定的乙酰辅酶A脱氢酶(SEQ ID NO 27)MTl =结核分支杆菌可能的乙酰辅酶A脱氢酶FADE34(SEQ ID NO 28)MT2 =结核分支杆菌可能的乙酰辅酶A脱氢酶FADE6(SEQ ID NO 29)MT3 =结核分支杆菌可能的乙酰辅酶A脱氢酶FADE22
(SEQID NO 30)
150
B3683 · MALALTDEQVQLTEAMAGFARRHGGLELTRSQFDALAAGER.......
MAP · MTLGLSPEQQELGDAVGQFAARNAPIAATRDSFAELAAGRL.......
NFMIVPVALTADQAALAESVGGFAARHATREYTRRNTEQLKRGER.......
MTl..MVATVTDEQSAARELVRGWARTAASGAAATAAVRDMEYGFEEGNADAff
MT2..MSIAITPEHYELADSVRSLVARVAPSEVLHAALESPVENP........
MT3 · MGIALTDDHRELSGVARAFLTSQKVRffAARASLDAAG.DAR.......
51100
B3683PAFffAALVANGLHGVQLPEQGGG. . . . FVDAACVIDAAGYGLLPGPLLPT
MAPPRffffDGLVANGFHAVHLPEELGGQGGRLMDAACVLESAGKSLLPGPLLPT
NFPAFffPELVATGLTGVHLPDEVGGQGGAVADIAVVVAEAGRALLPGPLLPS
MTlRPVFAGLAGLGLFGVAVPEDCGGAGGSIEDLCAMVDEAARALVPGPVATT
MT2PPYffQAAAEQGLQGVHLAESVGGQGFGILELA WLAEFGYGAVPGPFVPS
MT3PPFffQNLAELGffLGLHIDERHGGSGYGLSELVVVIEELGRAVAPGLFVPT
101150
B3683MIAGAVIADLPEQPAVRAAREALAAGGPMAVLLPSDGVLRAEPDGAGffRL
MAPVAAGAVALLADPAPAARSVLRDLAAGIPAAWLPGDGDLHAGAGDGHWLL
NFVVASAIVATAATGAGTEKALRHFAEGGTGAVLLPEHGVAVSG. · · GEARL
MTlAVATLVVSDPKLR.......SALASGERFAGVAIDGGVQVDP. · · KTSTA
MT2AIASALIAAHDP. . . QAKVLAELATGAAIAAYALDSGLTATRHG. DVLVI
MT3VIASAVVAKEGTDDQRARLLPALIDGTLTAGVGLDSQVQVTDG.…VAD
151200
B3683TGAAGPQLGVAAAEHVIVAADTDAAQRLffFLINAAGPGVVVQAAAPTDLT
MAPSGASEVTAGVCAARIVLVGARTRDGELVffAAVDTEKPTATVEPISGTDLV
NFSGRSGLVLGAPGAELFVVAAGSR WFLVERSAPGVGVEIEDGADLG
MTlSGTVGRVLGGAPGGVVLLPADGN WLLVDTACDEVVVEPLRATDFS
MT2RGEVRAVPAAAQASVLVLPVAIESR. · · DEWVVLRNDQLEIEAVKSLDPL
MT3 GEAGIVLGAGLAELLLVAAGDD VLVLERGRKGVSVDVPENFDPT
201250
B3683RDVGTLSCADAPVAADAVLAGVDPVRARCHAIGLMAAEAAGIARffCVDNV
MAPADAGVLRLDNHRVLDSEVLTGIDPERARCVVLGLVAATTAGVIQffCVQAV
NFRDLG. . RVAFQDVTPAAELDGIDGDRAADIAVAFLAVEAAGVIRffCSDTA
MTlLPLAR. · · · MVLTSAPVTVLEVSGERVEDLAATVLAAEAAGVARffTLDTA
MT2RPIAHVRANAVDVSDDALLSNLTMTTAHALMSTLLSAEAVGVARffATDTA
MT3RRSGRVRLDNVRVTTDDILLGAYES. ALARARTLLAAEAVGGAADCVDSA
251300
B3683VAYLKVREQFGRRIGAFQALQHKAAMLFIDSELAAAAAffDAVRGAEQPIE
MAPTAHLRIREQFGKVIGTFQALQHSAAMLLVSSELATAAAffDAVRAGDESLE
NFTEYVQARKQFGRPIGAFQAVQHRTAQLLITSELATAAAffDAVRGLDDEPD
MTlVAYAKVREQFGKPIGSFQAVKHLCAQMLCRAEQADVAAADAARAAADSDG
MT2SAYAKIREQFGRPIGQFQAIKHKCAEMIADTERATAAVffDAARALDDAGE
MT3VAYAKVRQQFGRTIATFQAVKHHCA匪LVAAESAIAAVffDAARAAAEDEE
301350
B3683QH. . . EIAAAGAAIAAIGKLPDLVVDALTMFGAIGYTffEHDLHLYffKRSI
MAPQH. · · RMAAAGAAVMAISPAPDLVLDALTMFGAIGFTffEHDLHLYffRRAI
NFQR. · · AHAVAGAALITLGNAVHAAVECLALHGAIGFTffEHDLHLYffRRAI
MTlTQLS. · IAAAVAASIGIDAAKANAKDCIQVLGGIGCTffEHDAHLYLRRAH
MT2SSSDVEFAAAVAATLAPATAQRCTQDCIQVHGGIGFTffEHDTNVYYRRAL
MT3QF. . . RLAAAVAAALAFPAYARNAELNIQVHGGIGFTffEHDAHLHLRRAL
351400
B3683SLAAAAGGVAEffAELLGEPDRQ. . PRDFGIELAGVEERFRGQIAALIDAA
MAPSLAASIGPANRffARRLGELTCTR. QRDMAVNLGDAESELRAKVAETLDAA
NFTLAGLAGPGERffERRLGEVALRG. PRTFTVPLPETDTTFRQffVSGILDTA
MTlGIGGFLGGSGRffLRRVTALTQAGVRRRLGVDLAEVAG. LRPEIAAAVAEV
分支杆菌B3683CxgD和同系物的比对0986]B3683=分支杆菌B3683CxgD0987](SEQ ID NO 32)0988]NF=皮疽诺卡氏菌推定的转录调节子(SEQ[D NO 33)0989]MT=结核分支杆菌推定的调节蛋白质(SEQ[D NO 34)0990]RE =红平红球菌KstR0991](SEQ ID NO 35)0992]SA =阿维链霉菌推定的转录调节子0993](SEQID NO 36)0994]1500995]B3683.........MTTGDTELPDY KRARRAQIVDAALDLLKSQD0996]NF.MASPSRSQP AAARPATVTTLSEDELSSAAQRERRKRILDATLALASKGG0997]MT.......MAVLAESELGSEAQRERRKRILDATMAIASKGG0998]RE........MMGATLPRIAEVRDAAEPSSDEQRARHVRMLEAAAELGTEKE0999]SAMPAEAKVEASTGARAARPAVQPASPPLTERQEARRRRILHASAQLASRGG1000]511001001]B3683YEQIQMRDVADHARVALGTLYRYFSSKEHVYAAVLMQffAQPVFAA. . . AE1002]NFYDAVQMRAVAERADVAVGTLYRYFPSKVHLLVSALAREFEQFESK. . RKP1003]MTYEAVQMRAVADRADVAVGTLYRYFPSKVHLLVSALGREFSRIDAKTDRSA1004]RELSRVQMHEVAKRAGVAIGTLYRYFPSKTHLFVAVMVEQIDQIGDSFAKHQ1005]SAFDAVQMREVAESSQVALGTLYRYFPSKVHLLVATMQAQLEHMHGTLRKKP1006]1011501007]B3683AVRPATEQQVREKMRGIITSFERRPAFFKVCMLLQNTTDANARDLMDRFA1008]NFLAGATPRERMHLLLTQITRMMQRDPLLTEAMTRAFMFADASAAAEVDRVG1009]MTVAGATPFQRLNFMVGKLNRAMQRNPLLTEAMTRAYVFADASAASEVDQVE1010]REVQSANPQDAVYEVLVRATRGLLRRPALSTAMLQSSSTANVATVPDVGKID1011]SAPAGDTAAERVAE TLMRAFRALQREPHLADAMVRALTFADRSVSPEVDQVS1012]1512001013]B3683SVAQRTLATDFAAMG. EQGSADTAIMAffGIISTMLSASILRDLPMAD1014](174)1015]NFKVMDRVFARAMNDGEPDERQLAIARVISDVWLSNLVAffLTRRASATDVSD1016]MTKLIDSMFARAMANGEPTEDQYHIARVISDVWLSNLLAffLTRRASATDVSK1017]RERGFRQIILDAAGIENPTEEDNTGLRLLMQLWFGVIQSCLNGRISIPDAEY1018]SARQTTVIILDAMGLDDPTPEQLSAVRVIEHTWHSALITffLSGRASIAQVKI1019]2011020]B36831021]NFRLELTVDLLLGDKE (208)1022]MTRLDLAVRLLIGDQDSA (211)1023]REDIRKGCDLLLVNLSRH(199)
78[1024]SA DIETVCRLID LTEADETP(218)与B3683同一性/相似性NF 34/50%MT 33/48%RE 32/53%SA 28/48%本发明的许多实施方式已经被描述。然而,应该理解,可以对其进行各种修改而不 背离本发明的精神和范围。因此,其它实施方式包含在权利要求书的范围内。
权利要求
分离的、合成的或重组的核酸,其包括(a)编码多肽的核酸序列,所述序列具有与SEQ ID NO1至少大约75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100%)序列同一性,和所述多肽具有KsdA多肽或3 甾酮 Δ1 脱氢酶活性;(b)编码多肽和其酶活性片段的核酸序列,所述多肽具有SEQ IDNO2中所列的氨基酸序列,并具有KsdA多肽或3 甾酮 Δ1 脱氢酶活性;(c)编码多肽的核酸序列,所述序列具有与SEQ ID NO9至少大约75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100%)序列同一性,和所述多肽具有CxgA多肽或乙酰辅酶A 乙酰转移酶/硫解酶活性;(d)编码多肽和其酶活性片段的核酸序列,所述多肽具有SEQ IDNO10或SEQ ID NO11中所列的氨基酸序列,并具有CxgA多肽或乙酰辅酶A 乙酰转移酶/硫解酶活性;(e)编码多肽的核酸序列,所述序列具有与SEQ ID NO17至少大约75%、76%、77s%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100%)序列同一性,和所述多肽具有CxgB多肽或DNA 结合蛋白活性;(f)编码多肽和其DNA 结合活性片段的核酸序列,所述多肽具有SEQ ID NO18中所列的氨基酸序列,并具有CxgB多肽或DNA 结合蛋白活性;(g)编码多肽的核酸序列,所述序列具有与SEQ ID NO24至少大约75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100%)序列同一性,和所述多肽具有CxgC多肽或DNA 结合蛋白活性;(h)编码多肽和其酶活性片段的核酸序列,所述多肽具有SEQ IDNO25中所列的氨基酸序列,并具有CxgC多肽或酰基 辅酶A脱氢酶/FadE活性;(i)编码多肽的核酸序列,所述序列具有与SEQ ID NO31至少大约75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100%)序列同一性,和所述多肽具有CxgD多肽或TetR样调节蛋白/KstR活性;(j)编码多肽和其酶活性片段的核酸序列,所述多肽具有SEQ IDNO32中所列的氨基酸序列,并具有CxgD多肽或TetR样调节蛋白/KstR活性;(k)(a)至(j)任一项所述的核酸,其中所述序列同一性通过序列比较算法分析或通过视觉观察测定;(l)(k)所述的核酸,其中所述序列比较算法是BLAST版本2.2.2算法,其中过滤设置设定为blastall p blastp d″nr pataa″ F F和所有其它选项设定为默认,或者是使用默认参数的FASTA版本3.0t78;(m)在严格条件下与由SEQ ID NO1、SEQ ID NO9、SEQ IDNO17、SEQ ID NO24和/或SEQ ID NO31组成的核酸杂交的核酸序列,且所述核酸分别编码具有KsdA多肽或3 甾酮 Δ1 脱氢酶活性、CxgA多肽或乙酰辅酶A 乙酰转移酶/硫解酶活性、CxgB多肽或DNA 结合蛋白活性、CxgC多肽或酰基 辅酶A脱氢酶/FadE活性、或CxgD多肽或TetR样调节蛋白/KstR活性的多肽,其中所述严格条件包括包含在约65℃的温度、在0.2X SSC中洗涤约15分钟的洗涤步骤;(n)(a)至(m)任一项所述的核酸,其编码缺少信号序列或蛋白原序列、或缺少同源启动子序列的多肽;(o)(a)至(n)任一项所述的核酸,其还包括编码异源氨基酸序列的序列,或所述核酸还包括异源核苷酸序列;(p)(o)所述的核酸,其中所述异源氨基酸序列包括或由编码异源(前导)信号序列、或标记物或表位的序列组成,或者所述异源核苷酸序列包括异源启动子序列;(q)(o)或(p)所述的核酸,其中所述异源核苷酸序列编码异源(前导)信号序列,该信号序列包括或由靶向内质网(ER)或内膜或靶向细菌内质网(ER)或内膜系统的N 端和/或C 端突出组成,或所述异源序列编码限制位点;(r)(p)所述的核酸,其中所述异源启动子序列包括或由以下组成组成型或诱导型启动子,或细胞型特异性启动子,或植物特异性启动子、或细菌特异性启动子或分支杆菌属特异性启动子;(s)(a)至(r)任一项所述的核酸,其中所述酶活性是耐热的;或(t)与(a)至(s)任一项所述的核苷酸序列完全互补的核酸序列。
2.探针,其用于分离或鉴定编码KsdA、CXgA、CXgB、CXgC或CxgD的核酸,该核酸包括权 利要求1所述的核酸。
3.载体、表达盒或克隆载体(a)包括权利要求1所述的核酸(多核苷酸)序列;或, (b) (a)所述的载体、表达盒或克隆载体,其包括或包含在以下之中病毒载体、质粒、噬菌 体、噬粒、黏粒、F黏粒、细菌噬菌体、人工染色体、腺病毒载体、反转录病毒载体或腺相关病 毒载体;或细菌人工染色体(BAC)、质粒、细菌噬菌体Pl来源的载体(PAC)、酵母人工染色体 (YAC)或哺乳动物人工染色体(MAC)。
4.宿主细胞或转化细胞(a)包括权利要求1所述的核酸(多核苷酸)序列,或权利要 求3所述的载体、表达盒或克隆载体;或,(b) (a)所述的宿主细胞或转化细胞,其中所述细 胞是细菌细胞、哺乳动物细胞、真菌细胞、酵母细胞、昆虫细胞或植物细胞。
5.转基因非人动物(a)包括权利要求1所述的核酸(多核苷酸)的序列,或权利要求 3所述的载体、表达盒或克隆载体;或权利要求4所述的宿主细胞或转化细胞;或(b) (a)所 述的转基因非人动物,其中所述动物是小鼠、大鼠、山羊、兔子、绵羊、猪或牛。
6.转基因的植物或种子(a)包括权利要求1所述的核酸(多核苷酸)序列,或权利要 求3所述的载体、表达盒或克隆载体;或权利要求4所述的宿主细胞或转化细胞;(b) (a)所 述的转基因植物,其中所述植物是玉米植物、高粱植物、马铃薯植物、番茄植物、小麦植物、 含油种子植物、油菜籽植物、大豆植物、稻植物、大麦植物、草、棉籽、棕榈、芝麻植物、花生植 物、向日葵植物或烟草植物;(a)所述的转基因种子,其中所述种子是玉米种子、小麦粒、含 油种子、油菜籽、大豆种子、棕榈仁、向日葵种子、芝麻种子、稻米、大麦、花生、棉籽、棕榈、花 生、芝麻种子、向日葵种子、或烟草植物种子。
7.反义寡核苷酸,其包括与权利要求1所述的核酸(多核苷酸)序列互补或能够在严格条件下与权利要求1所述的核酸(多核苷酸)序列杂交的核酸序列。
8.一种抑制细胞中信息(mRNA)的翻译的方法,其包括给予所述细胞反义寡核苷酸或 在所述细胞中表达反义寡核苷酸,所述反义寡核苷酸包括权利要求1所述的核酸(多核苷 酸)序列。
9.分离的、合成的或重组的多肽,其包括(a)多肽和其酶活性片段,所述多肽具有与SEQID而2至少大约75%、76%、77%、 78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100% )序列同一性,并具有 ksdA多肽或3-留酮-Δ 1-脱氢酶活性;(b)多肽和其酶活性片段,所述多肽具有与SEQID N0:10或SEQID NO :11至少大约 75%,76%,77%,78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%, 90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100% )序列 同一性,并具有cxgA多肽或乙酰辅酶A-乙酰转移酶/硫解酶活性;(c)多肽和其酶活性片段,所述多肽具有与SEQID而18至少大约75%、76%、77%、 78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100% )序列同一性,并具有 cxgB多肽或DNA-结合蛋白活性;(d)多肽和其酶活性片段,所述多肽具有与SEQID而25至少大约75%、76%、77%、 78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100% )序列同一性和具有 cxgC多肽或DNA-结合蛋白活性;(e)多肽和其酶活性片段,所述多肽具有与SEQID而32至少大约75%、76%、77%、 78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 93%、94%、95%、96%、97%、98%、99%、或更多、或完全的(100% )序列同一性和具有 cxgD多肽或TetR样调节蛋白/KstR活性;(f)(a)至(e)任一项所述的多肽,其中所述序列同一性通过序列比较算法分析或通过 视觉观察测定;(g)(f)所述的多肽,其中所述序列比较算法是BLAST版本2. 2. 2算法,其中过滤设置设 SSblastall-p blastp-d" nr pataa" -F F和所有其它选项设置为默认,或者是使用默 认参数的FASTA版本3. 0t78 ;(h)权利要求1(a)至权利要求I(S)的任一项所述的核酸编码的多肽;(i)(a)至(h)任一项所述的多肽,其缺少信号序列或蛋白原序列;(j) (a)至(i)任一项所述的多肽,其还包括异源氨基酸序列;(k) (j)所述的多肽,其中所述异源氨基酸序列包括或由异源(前导)信号序列、或标记 物或表位组成;(1) (j)所述的多肽,其中所述异源(前导)信号序列包括或由以下组成靶向内质网 (ER)或内膜或靶向细菌内质网(ER)或内膜系统的N-端和/或C-端突出;(m) (a)至(1)任一项所述的多肽,其中所述酶活性是耐热的;或(n) (a)至(m)任一项所述的多肽,其中所述多肽是糖基化的,或所述多肽包括至少一个糖基化位点,( ) (i)所述的多肽,其中所述糖基化是N-连接的糖基化或者0-连接的糖 基化;(iii) (i)或(ii)所述的多肽,其中在酵母细胞中被表达后,所述多肽被糖基化。
10.包括权利要求9所述的多肽的蛋白质制品,其中所述蛋白质制品包括液体、固体或凝胶。
11.一种异源二聚体(a)包括权利要求9所述的多肽和第二结构域;或(b) (a)所述的 异源二聚体,其中所述第二结构域是多肽和所述异源二聚体是融合蛋白,或者所述第二结 构域是表位或标记物。
12.同型二聚体,其包括权利要求9所述的多肽。
13.固定化多肽(a)其中所述多肽包括权利要求9所述的多肽;或(b)(a)所述的固定 化多肽,其中所述多肽被固定在细胞、金属、树脂、聚合物、陶瓷、玻璃、微电极、石墨颗粒、珠 子、凝胶、平板、阵列或毛细管上。
14.分离的、合成的或重组的抗体(a)其与权利要求9所述的多肽特异性结合;或, (b) (a)所述的分离的、合成的或重组的抗体,其中所述抗体是单克隆抗体或多克隆抗体、或 者其抗原结合片段。
15.杂交瘤,其包括权利要求14所述的抗体。
16. 一种阵列,其包括固定化核酸、多肽和/或抗体,其中所述核酸包括权利要求1所 述的核酸,或所述多肽包括1中所列的多肽;和/或所述抗体包括权利要求14所述的抗体, 或者它们的组合。
17.分离或鉴定具有KsdA、CxgA,CxgB, CxgC或CxgD活性的多肽的方法,其包括(a)提供权利要求14所述的抗体;(b)提供包括多肽的样品;和(c)使步骤(b)的样品和步骤(a)的抗体在其中所述抗体可以与所述多肽特异性结合 的条件下接触,由此分离或鉴定具有KsdA、CxgA, CxgB, CxgC或CxgD活性的多肽。
18.制备抗KsdA、CxgA,CxgB, CxgC或CxgD抗体的方法,其包括给与非人动物以下(a)权利要求1所述的编码KsdA、CXgA、CXgB、CXgC或CxgD的核酸(多核苷酸)序列, 其量足以产生体液免疫反应,由此制备抗KsdA、CxgA, CxgB, CxgC或CxgD抗体;或(b)权利要求9所述的多肽,其量足以产生体液免疫反应,由此制备抗KsdA、CxgA, CxgB、CxgC 或 CxgD 抗体。
19.生产重组多肽的方法,其包括(A)(a)提供可操作地连接到启动子的核酸,其中所述核酸包括权利要求1所述的核酸 (多核苷酸)序列;和(b)在允许多肽表达的条件下,表达步骤(a)的核酸,由此生产重组 多肽;或(B)(A)所述的方法,其还包括用步骤(a)的核酸转化宿主细胞,随后表达步骤(a)的核 酸,由此在转化细胞中生产重组多肽。
20.鉴定具有KsdA、CxgA,CxgB, CxgC或CxgD活性的多肽的方法,其包括(a)提供权利要求9所述的多肽;(b)提供KsdA、CxgA,CxgB, CxgC或CxgD结合蛋白或底物;和(c)使所述多肽与步骤(b)的底物接触并检测底物量的减少或反应产物量的增加,其 中底物量的减少或反应产物量的增加检测具有KsdA、CXgA、CXgB、CXgC或CxgD活性的多肽。
21.鉴定KsdA、CxgA,CxgB, CxgC或CxgD结合蛋白或底物的方法,其包括(a)提供权利要求9所述的KsdA、CxgA,CxgB, CxgC或CxgD多肽;(b)提供试验结合蛋白或底物;和(c)使步骤(a)的KsdA、CxgA、CxgB、CxgC或CxgD多肽与步骤(b)的试验结合蛋白或 底物接触,并检测结合蛋白或底物量的减少或反应产物量的增加,其中所述底物量的减少 或反应产物量的增加鉴定试验底物为KsdA、CxgA、CxgB、CxgC或CxgD结合蛋白或底物。
22.测定试验化合物是否与KsdA、CXgA、CXgB、CXgC或CxgD多肽特异性结合的方法,其 包括(a)在容许核酸翻译为多肽的条件下表达核酸或包括所述核酸的载体,其中所述核酸 具有权利要求1所述的核酸(多核苷酸)序列;(b)提供试验化合物;(c)使所述KsdA、CxgA、CxgB、CxgC或CxgD多肽与所述试验化合物接触;和(d)测定步骤(b)的试验化合物是否与所述KsdA、CxgA、CxgB、CxgC或CxgD多肽特异性结合。
23.测定试验化合物是否与KsdA、CXgA、CXgB、CXgC或CxgD多肽特异性结合的方法,其 包括(a)提供权利要求9所述的KsdA、CxgA、CxgB、CxgC或CxgD多肽;(b)提供试验化合物;(c)使所述多肽与所述试验化合物接触;和(d)测定步骤(b)的所述试验化合物是否与所述KsdA、CxgA、CxgB、CxgC或CxgD多肽 特异性结合。
24.鉴定KsdA、CxgA、CxgB、CxgC或CxgD多肽的调节剂的方法,其包括(A)(a)提供权利要求9所述的KsdA、CxgA、CxgB、CxgC或CxgD多肽;(b)提供试验化合物;(c)使步骤(a)的所述多肽与步骤(b)的所述试验化合物接触并测量所述KsdA、CxgA、 CxgB、CxgC或CxgD多肽的活性,其中与在所述试验化合物不存在下的活性相比,在所述试 验化合物存在下测量的所述KsdA、CxgA、CxgB、CxgC或CxgD活性的变化提供所述试验化合 物调节所述KsdA、CxgA、CxgB、CxgC或CxgD活性的测定结果;(B)(A)所述的方法,其中所述KsdA、CXgA、CXgB、CXgC或CxgD活性通过以下测量提供 KsdA、CxgA、CxgB、CxgC或CxgD底物,和检测所述底物量的减少或反应产物量的增加、或所 述底物量的增加或反应产物量的减少;(c)(B)所述的方法,其中与没有所述试验化合物的情况下所述底物或所述反应产物的 量相比较,具有所述试验化合物的情况下所述底物量的减少或所述反应产物量的增加鉴定 所述试验化合物为KsdA、CxgA、CxgB、CxgC或CxgD活性的激活剂;或(d)(B)所述的方法,其中与没有所述试验化合物的情况下所述底物或所述反应产物的 量相比较,具有所述试验化合物的情况下所述底物量的增加或所述反应产物量的减少鉴定 所述试验化合物为KsdA、CxgA、CxgB、CxgC或CxgD活性的抑制剂。
25.计算机系统,其包括(a)处理器和数据储存设备或机器可读存储设备,其中所述数据储存设备在其上已经储存多肽序列或核酸序列,其中所述多肽序列包括权利要求9所述的多肽(氨基酸)序列, 由权利要求1所述的核酸(多核苷酸)序列编码的多肽;(b)(a)所述的计算机系统,还包括序列比较算法和在其上储存有至少一个参比序列的 数据储存设备或机器可读存储设备;(c)(b)所述的计算机系统,其中所述序列比较算法包括指出多态性的计算机程序;或(d)(a)至(c)任一项所述的计算机系统,还包括鉴定所述序列中一个或多个特征的标 识符。
26.在其上存储有多肽序列或核酸序列的计算机可读介质或机器可读存储设备,其中 所述多肽序列包括权利要求9所述的多肽(氨基酸)序列;权利要求1所述的核酸(多核 苷酸)序列编码的多肽。
27.鉴定序列中特征的方法,其包括(a)使用功能性地储存(嵌入)计算机或机器可 读存储设备中的计算机程序读取所述序列,其中所述计算机程序鉴定序列中的一个或多个 特征,其中所述序列包括多肽序列或核酸序列,其中所述多肽序列包括权利要求9所述的 多肽(氨基酸)序列;由权利要求1所述的核酸(多核苷酸)序列编码的多肽;和(b)用所 述计算机程序鉴定所述序列中的一个或多个特征。
28.从样品中分离或回收编码具有KsdA、CxgA,CxgB, CxgC或CxgD活性的多肽的核酸 的方法,其包括(A)(a)提供包括权利要求1所述的核酸(多核苷酸)序列的多核苷酸探针;(b)从所述样品分离核酸或者处理所述样品,使得所述样品中的核酸易于与步骤(a) 的多核苷酸探针杂交;(c)将步骤(b)的分离的核酸或处理的样品与步骤(a)的多核苷酸探针结合;和(d)分离与步骤(a)的多核苷酸探针特异性杂交的核酸,由此从样品分离或回收编码 具有KsdA、CxgA, CxgB, CxgC或CxgD活性的多肽的核酸;(B)(A)所述的方法,其中所述样品是或包括环境样品;(C)(B)所述的方法,其中所述环境样品是或包括水样品、液体样品、土壤样品、空气样 品或生物样品;或(D)(C)所述的方法,其中所述生物样品来自细菌细胞、原生动物细胞、昆虫细胞、酵母 细胞、植物细胞、真菌细胞或哺乳动物细胞。
29.生成编码具有KsdA、CXgA、CXgB、CXgC或CxgD活性的多肽的核酸的变体的方法,其 包括(A)(a)提供包括权利要求1所述的核酸(多核苷酸)序列的模板核酸;和(b)在所述模板序列中修饰、缺失或添加一个或多个核苷酸,或它们的组合,以生成所 述模板核酸的变体,(B)(A)所述的方法,还包括表达该变体核酸,以生成变体KsdA、CxgA, CxgB, CxgC或 CxgD多肽;(C)(A)或(B)所述的方法,其中所述修饰、添加或缺失通过包括下列的方法引入易 错PCR、改组、寡核苷酸定点诱变、装配PCR、有性PCR诱变、体内诱变、盒式诱变、递归整体诱 变、指数整体诱变、位点专一诱变、基因重装配、基因位点饱和诱变(GSSM)、合成连接重装配 (SLR)和它们的组合;(D)(A)至(C)任一项所述的方法,其中所述修饰、添加或缺失通过包括下列的方法引 入重组、递归序列重组、硫代磷酸酯修饰的DNA诱变、含尿嘧啶模板诱变、缺口双链体诱 变、点错配修复诱变、修复-缺陷型宿主株诱变、化学诱变、放射诱变、缺失诱变、限制-选择 诱变、限制_纯化诱变、人工基因合成、整体诱变、嵌合核酸多聚体产生和它们的组合;(E)(A)至(D)任一项所述的方法,其中所述方法被反复重复,直至产生与由所述模板 核酸编码的多肽相比具有改变的或不同的(变体)活性、或改变的或不同的(变体)稳定 性的(变体)KsdA, CxgA, CxgB, CxgC或CxgD多肽,或者产生与由所述模板核酸编码的多肽 相比改变或不同的(变体)二级结构,或者产生与由所述模板核酸编码的多肽相比改变或 不同的(变体)翻译后修饰;(F)(E)所述的方法,其中所述变体KsdA、CXgA、CXgB、CXgC或CxgD多肽是耐热的,并且 在被暴露于升高温度后仍保留一些活性;(G)(E)所述的方法,其中与由模板核酸编码的KsdA、CxgA, CxgB, CxgC或CxgD活性相 比,所述变体KsdA、CxgA, CxgB, CxgC或CxgD多肽具有增加的糖基化;(H)(E)所述的方法,其中所述变体KsdA、CxgA, CxgB, CxgC或CxgD多肽在高温下具有 KsdA、CxgA, CxgB, CxgC或CxgD活性,其中由所述模板核酸编码的KsdA、CxgA, CxgB, CxgC 或CxgD多肽在所述高温下没有活性;(I)(A)至(H)任一项所述的方法,其中所述方法被反复重复,直至产生与所述模板核 酸相比具有改变的密码子使用的KsdA、CxgA, CxgB, CxgC或CxgD多肽编码序列;或(J) (A)至(H)任一项所述的方法,其中所述方法被反复重复,直至产生与所述模板核 酸相比具有更高或更低水平的信息表达或稳定性的ksdA、cxgA, cxgB, cxgC或cxgD基因。
30.修饰编码具有KsdA、CxgA,CxgB, CxgC或CxgD活性的多肽的核酸中密码子以增加 其在宿主细胞中的表达的方法,所述方法包括(a)提供编码具有KsdA、CXgA、CXgB、CXgC或CxgD活性的多肽的核酸,其包括权利要求 1所述的核酸(多核苷酸)的序列;和(b)鉴定步骤(a)的核酸中非偏爱密码子或较不偏爱密码子,并用编码相同氨基酸的 偏爱或中等使用的密码子作为替代密码子替换它,其中偏爱密码子是在所述宿主细胞的基 因的编码序列中过度表现的密码子,而非偏爱密码子或较不偏爱密码子是在所述宿主细胞 的基因的编码序列中表现不足的密码子,从而修饰所述核酸以便增强其在宿主细胞中的表 达。
31.修饰编码KsdA、CXgA、CXgB、CXgC或CxgD多肽的核酸中密码子的方法,所述方法包括(a)提供编码具有KsdA、CXgA、CXgB、CXgC或CxgD活性的多肽的核酸,其包括权利要求 1所述的核酸(多核苷酸)序列;和(b)鉴定步骤(a)的核酸中的密码子,并用编码相同氨基酸的不同密码子作为替代密 码子替换它,从而修饰编码KsdA、CxgA, CxgB, CxgC或CxgD多肽的核酸中的密码子。
32.修饰编码KsdA、CxgA,CxgB, CxgC或CxgD多肽的核酸中的密码子以增强其在宿主 细胞中的表达的方法,所述方法包括(a)提供编码KsdA、CXgA、CXgB、CXgC或CxgD多肽的核酸,其包括权利要求1所述的核 酸(多核苷酸)序列;和(b)鉴定步骤(a)的核酸中的非偏爱密码子或较不偏爱密码子,并用编码相同氨基酸 的偏爱或中等使用的密码子作为替代密码子替换它,其中偏爱密码子是在宿主细胞的基因 的编码序列中过度表现的密码子,而非偏爱密码子或较不偏爱密码子是在宿主细胞的基因 的编码序列中表现不足的密码子,从而修饰所述核酸以增强其在宿主细胞中的表达。
33.修饰编码具有KsdA、CxgA,CxgB, CxgC或CxgD活性的多肽的核酸中的密码子以降 低其在宿主细胞中的表达的方法,所述方法包括(A)(a)提供编码KsdA、CxgA, CxgB, CxgC或CxgD多肽的核酸,其包括权利要求1所述 的核酸(多肽)序列;和(b)鉴定步骤(a)的核酸中的至少一个偏爱密码子,并用编码相同氨基酸的非偏爱或 较不偏爱的密码子作为替代密码子替换它,其中偏爱密码子是在宿主细胞的基因的编码序 列中过度表现的密码子,非偏爱密码子或较不偏爱的密码子是在所述宿主细胞的基因的编 码序列中表现不足的密码子,从而修饰所述核酸以便降低其在宿主细胞中的表达;或(B)(A)所述的方法,其中所述宿主细胞是细菌细胞、真菌细胞、昆虫细胞、酵母细胞、植 物细胞或哺乳动物细胞。
34.增加KsdA、CXgA、CXgB、CXgC或CxgD多肽的耐热性或热稳定性的方法,所述方法包 括糖基化KsdA、CxgA, CxgB, CxgC或CxgD多肽,其中所述多肽包括权利要求9所述的多肽 的至少30个相连氨基酸,或糖基化权利要求1所述的核酸(多核苷酸)序列编码的多肽, 由此增加所述KsdA、CxgA, CxgB, CxgC或CxgD多肽的耐热性或热稳定性。
35.在细胞中过度表达重组KsdA、CXgA、CXgB、CXgC或CxgD多肽的方法,其包括表达包 含权利要求1所述的核酸(多核苷酸)序列的载体,其中过度表达通过应用高活性启动子、 双顺反子载体或通过所述载体的基因扩增实现。
36.制造转基因植物的方法,其包括(A)(a)向细胞中引入异源核酸序列,其中所述异源核酸序列包括权利要求1所述的核 酸(多核苷酸)序列,从而生成转化的植物细胞;和(b)从所述转化细胞产生转基因植物;(B)(A)所述的方法,其中步骤(A) (a)还包括通过电穿孔或微注射植物细胞原生质体 引入所述异源核酸序列;或(C)(C)所述的方法,其中步骤(A) (a)包括通过DNA粒子轰击或通过使用根癌农杆菌宿 主向植物组织中直接引入所述异源核酸序列。
37.在植物细胞中表达异源核酸序列的方法,包括下列步骤(a)用与启动子可操作连接的异源核酸序列转化所述植物细胞,其中所述异源核酸序 列包括权利要求1所述的核酸(多核苷酸)序列;和(b)在其中所述异源核酸序列在所述植物细胞中表达的条件下培养所述植物。
38.调节在细胞中雄烯二酮(AD或4-雄烯二酮)、雄二烯二酮(ADD或1,4-雄二烯-3, 17- 二酮)、20_ (羟甲基)孕-4-烯-3-酮和/或20-(羟甲基)孕-1,4- 二烯-3-酮的产 生的方法,其包括(a) (i)在所述细胞中过量或不足表达任一的、或数个的、或所有的KsdA-、CxgA-, CxgB-XxgC-和 / 或 CxgD-编码核酸和 / 或 KsdA-、CxgA-、CxgB-、CxgC-和 / 或 CxgD 多肽, 或(ii)在所述细胞中缺失任一的、或数个的、或所有的KsdA-、CxgA-、CxgB-、CxgC-和/或 CxgD-编码核酸和 / 或 KsdA-、CxgA-、CxgB-、CxgC-和 / 或 CxgD 多肽;(b)(a)所述的方法,其中所述细胞是原核细胞或真核细胞;(c)(b)所述的方法,其中所述原核细胞是细菌细胞,或所述真核细胞是酵母或真菌细胞;(d)(C)所述的方法,其中所述细菌细胞是放线菌属的成员或分支杆菌科的成员;(e)(d)所述的方法,其中所述分支杆菌科的成员是命名为B3683和/或B3805的分支 杆菌属菌株、或分支杆菌属ATCC 29472 ;(f)(a)至(e)的任一项所述的方法,其中所述任一的、或数个的、或所有的KsdA-、 CxgA-, CxgB-, CxgC-和/或CxgD-编码核酸通过包括缺失、突变或破裂ksdA、cxgA、cxgB、 cxgC和/或cxgD基因的转录调控序列的方法被过量或不足表达;其中所述转录调控序列的缺失、突变或破裂导致所述ksdA、cxgA, cxgB, cxgC和/或 cxgD基因的过量表达和/或不足表达,和/或KsdA-、CxgA-、CxgB-、CxgC-和/或CxgD多 肽编码信息(mRNA)的过量表达和/或不足表达;(g)(f)所述的方法,其中所述转录调控序列是启动子和/或增强子,(h)(a)至(e)的任一项所述的方法,其中所述任一的、或数个的、或所有的KsdA-、 CxgA-、CxgB-、CxgC-和/或CxgD-编码核酸通过包括缺失、突变或破裂反式作用因子的方 法过量或不足表达,所述反式作用因子调节ksdA、cxgA、cxgB、cxgC和/或cxgD基因的转 录,其中所述反式作用因子的缺失、突变或破裂导致所述ksdA、cxgA、cxgB、cxgC和/或 cxgD基因的过量表达和/或不足表达;(i)(a)至(e)的任一项所述的方法,其中所述任一的、或数个的、或所有的KsdA-、 CxgA-、CxgB-、CxgC-和/或CxgD-编码核酸通过包括上调、缺失、突变或破裂KsdA-、CxgA-、 CxgB-、CxgC-和/或CxgD-编码核酸的信息(mRNA)的方法过量或不足表达,其中所述信息(mRNA)的上调、缺失、突变或破裂导致所述KsdA、CxgA、CxgB、CxgC和/ 或CxgD多肽的过量表达和/或不足表达;(j) (i)所述的方法,其中KsdA-、CxgA-、CxgB-、CxgC-和/或CxgD-编码核酸的信息 (mRNA)的表达通过对KsdA-、CxgA-、CxgB-、CxgC-和/或CxgD-编码核酸的信息(mRNA)特 异的反义、核酶和/或RNAi缺失或破裂;(k) (a)至(e)的任一项所述的方法,其中在所述细胞中所述任一的、或数个的、或所有 的所述 KsdA-、CxgA-、CxgB-、CxgC-和 / 或 CxgD 多肽通过加入所述 KsdA-、CxgA-、CxgB-、 CxgC-和/或CxgD多肽活性的抑制剂或激活剂被过量或不足表达;(1) (k)所述的方法,其中所述KsdA-、CxgA-、CxgB-、CxgC-和/或CxgD多肽活性的所 述抑制剂或激活剂是小分子或所述KsdA-、CxgA-、CxgB-、CxgC-和/或CxgD多肽的活性的 抗体抑制剂或激活剂;(m) (a)至(1)任一项所述的方法,其中所述KsdA-、CXgA-、CXgB-、CXgC-和/或CxgD-编 码核酸包括权利要求1中所列的核酸;或(n) (a)至(1)的任一项所述的方法,其中所述KsdA-、CxgA-、CxgB-、CxgC-和/或CxgD 多肽包括权利要求9中所列的多肽。
39.生产相对纯的、或基本没有雄二烯二酮(ADD或1,4_雄二烯-3,17-二酮)、20-(羟 甲基)孕-4-烯-3-酮和/或20-(羟甲基)孕-1,4- 二烯-3-酮的雄烯二酮(AD或4-雄烯-3,17-二酮)的基于细胞的方法,其包括(a)(i)制备细胞,所述细胞在细胞中不足表达(与野生型细胞相比)或不表达任一 的、或数个的、或所有的KsdA-、CxgA-, CxgB-, CxgC-和/或CxgD-编码核酸和/或KsdA-、 CxgA-, CxgB-, CxgC-和/或CxgD多肽;和(ii)在其中产生所述雄烯二酮的条件下培养所 述细胞,其中在所述细胞中不足表达所述KsdA-、CxgA-, CxgB-, CxgC-和/或CxgD-编码核酸 和/或KsdA-、CxgA-, CxgB-, CxgC-和/或CxgD多肽导致产生相对纯的、或基本没有雄二 烯二酮仏00)、20-(羟甲基)孕-4-烯-3-酮和/或20-(羟甲基)孕-1,4-二烯-3-酮的 雄烯二酮(AD);或(b)(a)所述的方法,其中通过实施权利要求38所述的方法,进行所述KsdA-、CxgA-, CxgB-, CxgC-和 / 或 CxgD-编码核酸和 / 或所述 KsdA-、CxgA-, CxgB-, CxgC-和 / 或 CxgD 多肽在所述细胞中的不足表达;(c)(a)或(b)所述的方法,其中所述细胞至少大约1. 0%,2. 0%,3. 0%A. 0%,5. 0%, 10. 0%U5%,20. 0%,25. 0%,30. 0%,35. 0%,40. 0%,45. 0%,50. 0%,55. 0%,60. 0%, 65. 0 %,70. 0 %,75. 0 %,80. 0 %,85. 0 %,90. 0 % 或 95. 0 % 或更多地不足表达 KsdA-、 CxgA-, CxgB-, CxgC-和/或CxgD-编码核酸(与野生型或未操纵的细胞相比);(d)(a)或(b)所述的方法,其中所述细胞至少大约1. 0%,2. 0%,3. 0%A. 0%,5. 0%, 10. 0%U5%,20. 0 %,25. 0%,30.0%,35. 0%A0. 0%,45.0%,50. 0 %,55. 0 %,60. 0 65. 0%、70. 0%、75. 0%、80. 0%、85. 0%或90. 0%或更多地产生(生成)相对纯的、或基本 没有雄二烯二酮(ADD)、20-(羟甲基)孕-4-烯-3-酮和/或20-(羟甲基)孕_1,4_ 二 烯-3-酮的雄烯二酮(AD);(e)(a)至(d)的任一项所述的方法,其中在所述AD合成过程中所述细胞产生至少大约 1. 0%,2. 0%,3. 0%,4. 0%,5. 0%U0. 0%U5%,20. 0%,25. 0%,30. 0%,35. 0%,40. 0%, 45. 0%,50. 0%,55. 0%,60. 0%,65. 0%,70. 0%,75. 0%,80. 0%,85. 0%,90. 0%或 95. 0% 或更多%的较少的(较小量的)杂质;或(f)(e)所述的方法,其中所述较少的杂质包括较少的(较小量的)雄二烯二酮(ADD)、 20-(羟甲基)孕-4-烯-3-酮和/或20-(羟甲基)孕-1,4-二烯-3-酮。
40.生产相对纯的、或基本没有雄二烯二酮(ADD、或1,4_雄二烯-3,17-二酮)、20-(羟 甲基)孕-4-烯-3-酮和/或20-(羟甲基)孕-1,4- 二烯-3-酮的雄烯二酮(AD或4-雄 烯-3,17-二酮)的基于细胞的方法,其包括(a)(i)制备细胞,所述细胞在细胞中不足表达(与野生型或未操纵细胞相比)或不表 达任一的、或数个的、或所有的KsdA-、CXgA-、CXgB-、CxgC-和/或CxgD多肽;和(ii)在其 中产生雄烯二酮的条件下培养所述细胞,其中在所述细胞中不足表达或抑制所述KsdA-、CxgA-、CxgB-、CxgC-和/或CxgD多肽 的活性导致基本纯的、或基本没有雄二烯二酮(ADD)、20-(羟甲基)孕-4-烯-3-酮和/或 20-(羟甲基)孕-1,4-二烯-3-酮的雄烯二酮(AD)的产生;(b)(a)所述的方法,其中在所述细胞中不足表达或抑制所述KsdA-、CxgA-, CxgB-, CxgC-和/或CxgD多肽的活性是通过实施权利要求38的方法;(c)(a)或(b)所述的方法,其中所述细胞至少大约1. 0%,2. 0%,3. 0%A. 0%,5. 0%,·10. 0%U5%,20. 0%,25. 0%,30. 0%,35. 0%,40. 0%,45. 0%,50. 0%,55. 0%,60. 0%, 65. 0%,70. 0%,75. 0%,80. 0%,85. 0%或 90. 0%或更多地不足表达 KsdA-、CxgA-、CxgB-、 CxgC-和/或CxgD多肽(与野生型或未操纵细胞相比);(d)(a)或(b)所述的方法,其中所述细胞至少大约1. 0%,2. 0%,3. 0%A. 0%,5. 0%, 10. 0%U5%,20. 0 %,25. 0%,30.0%,35. 0%A0. 0%,45.0%,50. 0 %,55. 0 %,60. 0 65. 0%、70· 0%、75· 0%、80· 0%、85· 0%或90. 0%或更多地不足生产相对纯的、或基本没有 雄二烯二酮仏00)、20-(羟甲基)孕-4-烯-3-酮和/或20-(羟甲基)孕-1,4-二烯-3-酮 的雄烯二酮(AD);(e)(a)至(d)的任一项所述的方法,其中在所述AD合成过程中所述细胞生产至少大约 1. 0%,2. 0%,3. 0%,4. 0%,5. 0%U0. 0%U5%,20. 0%,25. 0%,30. 0%,35. 0%,40. 0%, 45. 0%,50. 0%,55. 0%,60. 0%,65. 0%,70. 0%,75. 0%,80. 0%,85. 0%,90. 0%或 95. 0%或更多%的较少的(较少量的)杂质;或(f)(e)所述的方法,其中所述较少的杂质包括较少的(较少量的)雄二烯二酮(ADD)、 20-(羟甲基)孕-4-烯-3-酮和/或20-(羟甲基)孕-1,4-二烯-3-酮。
41.试剂盒,其包括(a)权利要求1所述的核酸;权利要求2所述的探针;权利要求3 所述的载体、表达盒或克隆载体;或,权利要求4所述的宿主细胞或转化细胞;或(b) (a)所 述的试剂盒,还包括实施权利要求17至权利要求24、或权利要求27至权利要求40的任一 方法的说明书。
42.试剂盒,其包括(a)权利要求9所述的多肽;权利要求14所述的抗体;权利要求 15所述的杂交瘤;权利要求16所述的阵列;权利要求11所述的异源二聚体,或,(b) (a)所 述的试剂盒,还包括实施权利要求17至权利要求24、或权利要求27至权利要求40的任一 方法的说明书。
全文摘要
本发明提供生产提高纯度的雄烯二酮(4-雄烯二酮)和调节其生产的组合物和方法,例如通过缺失或失活ksdA、cxgA、cxgB、cxgC或cxgD。本发明也提供用于生产1,4-雄二烯-3,17-二酮(ADD)和相关途径化合物的方法和组合物,所述组合物包括编码酶的核酸,所述相关途径化合物包括20-(羟甲基)孕-4-烯-3-酮和20-(羟甲基)孕-1,4-二烯-3-酮。本发明的组合物包括核酸、探针、载体、细胞、转基因植物和种子、转基因动物、试剂盒和阵列。
文档编号C12N5/10GK101918436SQ200880124768
公开日2010年12月15日 申请日期2008年11月13日 优先权日2007年11月16日
发明者C·普约奥, D·南恩, K·查特曼 申请人:维莱尼姆公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1