富伦霉素基因簇的制作方法

文档序号:450846阅读:417来源:国知局
专利名称:富伦霉素基因簇的制作方法
技术领域
本发明涉及与微生物方法生产的抗菌素富伦霉素B,特别是从玫瑰暗黄链霉菌生产的抗菌素富伦霉素B相关的基因的鉴定,分离和测序。
聚酮化合物是一个大的,结构上有各种变化的天然产物的家族,显示具有各种各样的生物学活性包括抗菌性和药物学特性。例如,聚酮化合物的典型代表是抗菌素四环素和红霉素,抗癌剂柔毛霉素,免疫抑制剂FK506和纳巴霉素,和兽药制品例如富伦霉素,莫能菌素和阿夫曼菌素。
聚酮化合物合成酶(PKSs)是与脂肪酸合成酶(FASs)相关的多功能酶。PKSs通过使酰基硫酯,通常是乙酰基,丙酰基,丙二酰基或甲基丙二酰基之间重复进行claisen缩合而催化聚酮化合物的生物合成。在执行每个缩合步骤时,他们通过催化整个还原环或其部分或没有催化还原环包括在逐渐形成的聚酮化合物链的β-酮基进行酮基还原,脱水,和烯酰基还原而在该产物中导入了结构变异性。在碳链形成了各个特定产物的长度特征后,通过硫解和酰基转移而从合成酶中释放出碳链。因此,PKSs由在一起工作而产生给定聚酮化合物的酶家族组成。在链长,构链单位的选择,以及按遗传计划将还原环进入各个PKS的受控制的变异归功于在天然存在的聚酮化合物之间看到的变异。
链霉菌属是芳香族聚酮化合物的放线菌生产者;在链霉菌属中,已知PKS介导的合成依赖于至少三个PKS开放式阅读框架(ORFs)的产物。PRF1编码酮基合成酶(KS)和酰基转移酶(AT)的活性位点;ORF2编码类似于ORF1产物但失去KS和AT基序的蛋白质;ORF3编码一个分离的酰基载体蛋白(ACP)。
富伦霉素B是广泛地用作为家养动物和鸟类的抗球孢子药的萘醌聚酮化合物。在J.Antibiotics,3110,959-965(1978)中Iwai等人报道了从玫瑰暗黄色链霉菌菌株No.AM-3867,一种土壤分离株的发酵肉汤中分离富伦霉素组的两种抗菌素AM-3867I和II。AM-3867I被发现是一种后来命名为富伦霉素B的新抗菌素,而后者AM-3867II被鉴定为脱氧富伦霉素。
Bibb等人在Gene,142,31-39(1994)报道了来自玫瑰暗黄色链霉菌的10.2kb的DNA片段的克隆,据推测该片段含有编码聚酮化合物合成酶(PKS)的基因(fren),该基因决定富伦霉素和七尾霉素的产生。该DNA的一个5530bp的连续片段被测序了。对该序列分析结果显示五个完整的开放式阅读框架(ORFs)以一个方向转录(ORFs 1,2,3,5,4)以及位于ORF3和ORF5之间的一个(ORFX)以另一相反方向转录。推测到的ORFs 1,2,3,4和5的氨基酸序列分别类似接近于来自链霉菌属的II型PKSs的已知成分的序列假设的异源二聚体(ORF1+2)酮基合成酶,酰基载体蛋白,环化酶和酮还原酶。ORF4产物的N-末端和C-末端一半之间的相似性也发现于来自其他异氧杂萘满苯醌抗菌素生产者的相应基因中,这暗示着编码环化酶的基因可能有成双源点。ORFX似乎代表不仅存在于fren簇,而且还存在于链霉菌各个种的其他簇的芳香族抗菌素生物合成基因中的未知功能的新的一类基因。据报道通过基因分裂的方法将这些基因导入到AK24158菌株中以便证明fren基因的确是那些编码富伦霉素PKS的基因的尝试没有成功。
本发明的一个目的是提供编码富伦霉素的基因簇的全长序列并且分离和鉴定了该基因簇的开放式阅读框架。
本发明的另一目的是提供用任意或所有分离到的富伦霉素PKS基因转化的遗传工程方法得到的宿主细胞。
本发明的再一目的是改善富伦霉素生物合成生产的产量。
本发明提供了一个分离到的基因簇,该基因簇包括编码在原核细胞中催化富伦霉素生物合成的蛋白质的SEQ ID NO22,并且提供了经修饰的基因簇,该基因簇与SEQ ID NO22具有足够的生化功能等同性,另外它也编码催化富伦霉素生物合成的蛋白质。还包括含有可操作连接到表达控制序列上的基因簇的载体以及由该载体转化的宿主细胞。
还提供了五个分离出的基因亚簇,他们负责富伦霉素合成的特定方面编码用于生产富伦霉素的溢出泵的离体的第一基因亚簇,它包括编码列于SEQ ID NOS1,2,3,4,和6中的蛋白质和所说蛋白质的生化特性等同突变蛋白的基因;
编码用于生产富伦霉素的丁酸起始物合成酶的离体的第二基因亚簇,它包括编码列于SEQ ID NOS8,9,10,和11中的蛋白质和所说蛋白质的生化特性等同突变蛋白的基因;编码用于生产富伦霉素的聚酮化合物合成酶的离体的第三基因亚簇,它包括编码列于SEQ ID NOS12,13和14中的蛋白质和所说蛋白质的生化特性等同突变蛋白的基因;编码用于生产富伦霉素的半缩酮酶,酮基还原酶,和环化酶/脱氢酶的离体的第四基因亚簇,它包括编码列于SEQ ID NOS15,16,17,和18中的蛋白质和所说蛋白质的生化特性等同突变蛋白的基因;编码用于生产富伦霉素的酮基/烯酰还原酶和羟化酶的离体的第五基因亚簇,它包括编码列于SEQ ID NOS19和20中的蛋白质和所说蛋白质的生化特性等同突变蛋白的基因。
在另一个实施方案中,将各个基因单独地插入到载体中并且可操作地连接到表达控制序列上。
在另一个实施方案中,提供了富伦霉素的生物合成的方法,该方法包括a)用含有SEQ ID NO22基因簇的重组载体转化宿主细胞;b)在所说宿主细胞中表达所说载体;和c)分离由此产生的富伦霉素。
还提供了重组生物合成抗菌素富伦霉素B的方法,该方法包括a)用含有SEQ ID NO22基因簇的载体转化宿主细胞;b)在所说宿主细胞中表达所说载体;和c)分离由此产生的富伦霉素;d)将富伦霉素混合物氧化以便基本上将所有分离到的产物转化为富伦霉素B。
还提供了SEQ ID NOS1-20的分离到的蛋白质以及其生化特性等同变异体,提供了编码所说蛋白质的离体基因。
本发明的又一目的是提供了含有至少下列序列之一的DNA序列a)SEQ ID NO22的636到2948的碱基。
b)SEQ ID NO22的2945到3916的碱基。
c)SEQ ID NO22的4020到4844的碱基。
d)SEQ ID NO22的4841到6415的碱基。
e)SEQ ID NO22的6533到7183的碱基。
f)SEQ ID NO22的7344到8897的碱基。
g)SEQ ID NO22的9164到10012的碱基。
h)SEQ ID NO22的10621到10105的碱基。
i)SEQ ID NO22的11628到10618的碱基。
k)SEQ ID NO22的11809到12066的碱基。
l)SEQ ID NO22的13209到12154的碱基。
m)SEQ ID NO22的13409到14686的碱基。
n)SEQ ID NO22的14767到16047的碱基。
o)SEQ ID NO22的16120到16371的碱基。
p)SEQ ID NO22的16935到16453的碱基。
q)SEQ ID NO22的17088到17903的碱基。
r)SEQ ID NO22的17903到18898的碱基。
s)SEQ ID NO22的18895到19839的碱基。
t)SEQ ID NO22的20907到19990的碱基。
w)SEQ ID NO22的22094到20904的碱基。或者提供了为具有与a)-w)限定的DNA序列编码的蛋白质等同的生化特性的变异体编码的DNA序列,更具体地说,提供了这样一种DNA序列,它包括a)-w)限定的,优选地以相同于SEQ ID NO22的方式描述的所有DNA序列,或者提供了这样一种DNA序列,其中至少由a)-w)限定的DNA序列之一由编码其生化特性等同变异体的蛋白质的DNA序列所替代,进一步具体地说提供了一种DNA序列,它包括SEQ ID NO22的DNA序列,或者一种DNA序列,它编码是其生化特性等同变异体的蛋白质。
本发明的再一目的是提供了含有可操作连接到表达控制序列上的所说DNA序列的载体,提供了用所说载体转化的宿主细胞,特别是其中宿主细胞是链霉菌属的成员,例如玫瑰暗黄色链霉菌。
本发明的还有一个目的是提供了由上述a)-w)定义的DNA序列编码的蛋白质或者具有SEQ ID NO1-21给出的氨基酸序列和其生化特性等同的变异体的蛋白质,提供了用于制备富伦霉素或所说富伦霉素的生物合成中间体的方法,该方法的特征在于在合适的培养条件下培养上述定义的细胞以及从所说培养物或细胞中分离富伦霉素,以及提供了制备富伦霉素的方法,其特征在于采用本领域内已知的化学和其他方法将上述定义的方法获得的生物合成中间体转化为所说的富伦霉素,提供了制备富伦霉素B的方法,其中将上文中定义的方法获得的富伦霉素或富伦霉素的混合物氧化为富伦霉素B。
本发明的还有一个目的是提供了制备饲料组合物的方法,其特征在于实施上文中定义的一种方法,将获得的富伦霉素与其他的饲料组合物配料混合。
下面的附图用于阐明本发明附

图1富伦霉素基因簇的限制性酶切图谱。
附图2假设的富伦霉素生物合成途径,其中说明了各种基因亚簇的功能。
附图3转化载体pSSVtsr和pSSVaph的构建。
附图4合成的ermE和tipA启动子的序列。
附图5用于在玫瑰暗黄色链霉菌中进行基因表达的载体的构建。这里显示了转录活化基因构建体。
下列定义用于阐明和限定各种术语的含义和范围,所说术语用于描述本发明。
“宿主细胞”是从原核微生物衍生得到的细胞,它可用作为重组载体的受体,所说载体含有DNA,尤其是本发明富伦霉素基因簇。该术语包括已被转化的原始细胞的子代。由于偶然的或有意的突变,单个亲代细胞的子代在形态上或其基因组或总DNA装备不是必然完全等同于原始亲代。该定义也包括完全类似于亲本的亲代细胞的子代,所谓类似是由相关特性例如存在特定的DNA序列定性的。
针对核酸序列例如编码序列,控制序列而言时术语“异源的”是指正常情况下不与重组构建体的一个区域相关的序列,和/或正常情况下不与特定细胞相关的序列。因此,一个核酸构建体的“异源的”区域是另一个核酸分子内或吸附到另一个核酸分子上的一个可鉴定的核酸片段,在自然界中它不与其他分子结合存在。例如一种构建体的异源区域包括编码区,在自然状态其两侧序列不与该编码序列结合存在。异源编码序列的另一个例子是其中的编码序列本身不存在于自然界中的构建体(例如,具有不同于天然基因的密码子的合成序列)。类似地,用正常情况下不存在于宿主细胞中的构建体转化的宿主细胞被认为适用于本发明目的异源。等位变异或自然出现的突变事件并不产生异源DNA,如本文所述。
“编码序列”是指一种核酸序列,在置于合适的调节序列控制下该核酸序列可在体内或体外转录(对于DNA)或转译为(对于mRNA)多肽。由5’(氨基)末端的转译起始密码子和3’(羧基)末端转译终止子密码子决定了该编码序列的边界。通常转录终止序列定位于编码序列的3’末端。
“核酸序列”包括,但不限于,原核和真核mRNA,来自原核和真核mRNA的cDNA,基因组DNA,和合成DNA和RNA序列,他们含有天然的核苷碱基腺嘌呤,鸟嘌呤,胞嘧啶,胸腺嘧啶和尿嘧啶。该术语还包括含有一个或多个其他碱基的序列,包括但不限于4-乙酰基胞嘧啶,8-羟基-N6-甲基腺嘌呤,氮丙啶基胞嘧啶,假异胞嘧啶,5-(羧基羟基甲基)尿嘧啶,5-氟尿嘧啶,5-溴尿嘧啶,5-羧基羟基甲基氨基甲基-2-硫尿嘧啶,5-羧基甲基氨基甲基尿嘧啶,二氢尿嘧啶,次黄苷,N6-异戊烯基-腺嘌呤,1-甲基腺嘌呤,1-甲基假尿嘧啶,1-甲基鸟嘌呤,1-甲基-次黄苷,2,2-二甲基鸟嘌呤,2-甲基腺嘌呤,2-甲基鸟嘌呤,3-甲基-胞嘧啶,5-甲基胞嘧啶,N6-甲基腺嘌呤,7-甲基鸟嘌呤,5-甲基氨基甲基胞嘧啶,5-甲氧基氨基甲基-2-硫尿嘧啶,β-D-甘露糖queosine,5’-甲氧基羰基甲基尿嘧啶,5-甲氧基尿嘧啶,2-甲基硫-N6-异戊烯基腺嘌呤,尿嘧啶-5-氧乙酸甲酯,尿嘧啶-5-氧化乙酸,oxybutoxosine,假尿嘧啶,queosine,2-硫胞嘧啶,5-甲基-2-硫尿嘧啶,2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,和2,6-二氨基嘌呤。
核酸“控制序列”是指转译起始和终止密码子,启动子序列,核糖体结合位点,聚腺苷酸化信号,转录终止序列,上游调节区,加强子,等等,在限定的宿主细胞中对于给定编码序列的转录和转译这些是必要的和足够的。不是所有这些控制序列必须要存在于重组载体中,只要存在那些对所需基因的转录和转译来说是必要的和足够的元件即可。
“可操作地或可操作地连接”是指编码和控制序列的构型可以执行所需的功能。因此,可操作地连接到一个编码序列上的控制序列能够实现该编码序列的表达。在细胞中将一个编码序列可操作地连接到转录调节区或处于转录调节区控制之下,当DNA聚合酶结合到启动子序列上,可将该编码序列转录为mRNA,该mRNA进一步转译为所编码的蛋白质。该编码序列不必定要与编码序列邻接,只要他们具有指导该编码序列的表达即可。因此,例如在启动子序列和编码序列之间可以存在未转译的但转录的间隔序列,并且该启动子序列被认为“可操作地连接”到编码序列上。
“选择性标记”是指任何遗传标记,利用该遗传标记可选择在其基因组中携带该标记的细胞群体。选择性标记的例子包括营养缺陷型标记,利用这种标记根据在有或没有一种营养物或补充物例如胸腺嘧啶,二氨基庚二酸或生物素的基本培养基上生长的能力选择细胞;代谢标记,利用这种标记根据在含有合适的糖作为唯一碳源的基本培养基上生长的能力或者根据细胞在含有合适的染料或生色底物的培养基上形成带色菌落的能力而选择细胞;以及药物抗性标记,利用这种标记根据在含有一种或多种合适药物,例如,四环素,氨苄青霉素,卡那霉素,链霉素或萘啶酮酸的培养基上生长的能力选择细胞。
通常核酸构建体是以转录盒的形式提供的。在构建体中非强制性地包括一个内含子,优选的是3100bp并且置于编码序列5’末端。通常,优选的是该构建体不会整合到宿主细胞基因组并且该构建体导入到细胞中作为非整合表达盒的组成部分。
用于本发明的构建体包括载体,转录盒,转译盒和质粒。转录和转译起始序列优选地包括转录起始调节区(有时也指“启动子”)和含有“核糖体结合位点”的5’未转译序列的转译起始调节区,以便使核糖体结合到mRNA并且在起始密码子处驱动转译。优选的是起始控制区的转录和转译功能元件来源于或获自于相同的基因。在一些实施例中通过叠加或缺失序列,或用另一种序列替代可对启动子序列进行修饰。“可获得的”是指与天然基因的那些有足够相似性的调节序列以便为所需DNA序列的转录和转译提供所需的特异性。它包括天然和合成序列以及合成和天然序列组合的序列。对于转录起始区,或者启动子元件,可使用任何区域,条件是它提供所需水平的DNA序列的转录。转录起始区可以是宿主细胞本身产生的或者是与宿主细胞同源的,和/或是待转录的DNA序列产生的或同源的,或者与宿主细胞不相干的或异源的,和/或与待转录的DNA序列不相干的或异源的。“与宿主细胞不相干”是指在宿主中不存在该转录起始区,而含有该转录起始区的构建体将被插入到该宿主中。“与待转录的DNA序列不相干的”是指正常情况下该转录起始区不与所需DNA序列结合。
位于转录起始调节区下游并且受其控制的是用于插入所需核酸序列的多个克隆位点,所需核酸序列将导致宿主基因型一种或多种变化以及调节宿主表现型。为了方便,可将多个克隆位点以有效的方式用于各种各样的核酸序列。插入到克隆位点的核酸序列具有编码所需多肽的开放式阅读框架,条件是当该编码序列编码所需多肽时,它应该缺失cruptic的拼接位点,所述位点可能阻碍合适的mRNA分子产生和/或产生畸变拼接的或异常mRNA分子。该核酸序列可以是cDNA;也可以是与基因组序列互补的序列,其中基因组序列可以是一个或多个开放式阅读框架,一个内含子,一个非编码引导序列,或任何其他序列,其中互补序列抑制转录,信使RNA的加工,例如拼接或转译。
由于相对而言终止区似乎是可交换的,因此主要使用的终止区是较便利的一种。终止区可能是所需核酸序列本身产生的,或可能是其他来源的。
构建转录载体时,将特定的编码序列定位于具有合适调节序列的载体中,编码序列相对于控制序列的位置和方向应该是编码序列的转录受控制序列的“控制”。为达到该目的对编码特定蛋白质的序列进行修饰是人们所期望的。例如,在某些情况下修饰该序列以便使之以合适的方向结合到控制序列上;或者使之保持阅读框架是必要的。可在插入到载体中之前将控制序列和其他调节序列连接到编码序列上。另一种可选择的方法,将编码序列直接克隆到表达载体中,所述载体已经含有控制序列和位于阅读框架内的合适的限制性位点,所述阅读框架受该控制序列的调节控制。
术语“生化性质等同变异体”是指在某些方面不同于本发明公开的特定的序列的蛋白质或核酸序列,但是,显示具有相同或基本相同的功能。例如,对于cDNA的情况,是指含有除特异性公开以外的其他核酸序列的修饰序列,条件是该候补的cDNA编码依次编码本发明蛋白质的mRNA。这样的修饰包括仅几种核酸或更多的核酸的替代。这种修饰涉及简并的编码序列的替代,或用另一种编码序列替代其中的一种编码序列;也包括导入非天然核酸。假如满足功能标准,该候补的DNA与本发明公开的核酸杂交不是必要的。类似地,对于本发明的蛋白质而言,可以使之氨基酸序列发生不影响功能的变化。所述“生化特性等同的突变蛋白”涉及用另一种氨基酸替代一种氨基酸,涉及侧链修饰的或非天然氨基酸的使用和涉及截断。本领域内熟练的技术人员将认识到那一个位点最经得起变化而不影响基本功能。大多数这样的候补序列显示与本发明公开的序列至少有50%的同源性,优选的是,至少75%,最优选的是至少90%。
用于对24kb富伦霉素簇进行测序的方案是从大规模基因组测序使用的方法得到的。将该基因簇片段随机地消化为400-1800bp片段,从这些片段构建文库用于自动测序。利用DNA Star软件在Macintosh Quandra上收集序列数据并且操作。
如在限制性图谱(附图1)中看到的,利用NotI可便利地将24kb基因簇消化为三个大片段(7.5,9.0和9.5kb)和一个较小片段(1.5kb)。较小的NotI片段位居于富伦霉素生物合成基因簇的PKS区的中央并且较大的NotI片段位居于两侧。分别将附图1中从左到右的各个NotI片段亚克隆到pBluescript中,得到的克隆分别命名为Not6,Not7,Not2和Not3。将三个较大的NotI片段用于产生各自的MspI片段文库,实施shotgun测序方案。对NotI片段的3’和5’末端测序分析得到的“锚”序列有利于将序列资料与制成酶切图谱的基因簇进行调准。通过在用MspI部分消化后进行凝胶电泳分离出0.4到1.8kb的片段而从各个NotI亚克隆构建随机文库。将这些片段连接到pBluescript的AccI位点并且转化到合适的大肠杆菌宿主(DH5α或XL1-Blue)以便形成单个的文库。将这些文库平板培养并且选择足够量的亚克隆用作为双链测序的模板。
利用Applied Biosystems(Foster City,CA)Taq dye-双脱氧终止循环测序反应对这些模板进行测序,该反应利用了聚合酶链反应和荧光标记的核苷酸。读出测序的凝胶,收集数据,用ABI373A自动测序仪分析序列。在获得序列数据后,将他们与以前测定的序列进行校直,以形成重叠的,邻接区域的序列(重叠群)。根据积累的序列数据,将重叠群结合为较大的重叠群。在两条链的大多数区域,进行了三至四次的测序,尽可能提供整个基因簇的确定的序列。
将基因以开放式阅读框架(ORFs)的形式定位于该序列中,该基因中第三位的密码子G或C出现的频率高,这是链霉菌属基因的一般特性(BibbMJ,et al.,Gene 30157(1884))。将以这种方式定位的基因的氨基酸序列与SWISS-PROT数据库中的序列进行比较。当SWISS-PROT数据库似乎没有某些的序列时,可将推测的该基因的核苷酸序列与GenBank数据库中的链霉菌属DNA序列进行比较。以这种方式找到其序列与富伦霉素基因簇中基因类似的基因并且指定推测的功能。
富伦霉素基因簇的整个序列描述于SEQ ID NO22中。下面从该基因簇的左末端开始讨论各个基因。假设的富伦霉素生物合成途径显示于附图2中,在该途径中指明了推测的各个基因产物的作用。所注明的基因的功能概括于表1中。该基因簇中基因的顺序似乎与生物合成步骤相平行。以前已经报道在大环内酯途径中存在该特征(Donadio S,et al.,1991,Science252675),但在芳香簇聚酮化合物途径中不存在。
据认为基因A(编码SEQ ID NO1蛋白质的SEQ ID NO22的636碱基-2948碱基)是该基因簇的第一个基因,因为该基因上游有1kb的非编码区并且该基因上游5’末端的部分基因与序列数据库中任何序列不同源。基因A-D和F含有一个亚簇,它可能参与富伦霉素的溢出。基因A-D的产物代表ABC运输系统的成分。ABC运输系统特征性特点包括各具有两个保守序列基元的两个ATP结合区,和各具有六个跨膜序列的两个膜区(Higgins CF,Ann Rev Cell Biol 867(1992))。两个ATP结合区和两个膜区可能都在相同多肽上,如具有真核的多个药物抗性蛋白,在这种情况下多肽由代表内部复制品的两个半个组成(Chen C et al.,1986,Cell47381)。细菌系统经常在不同的多肽上有不同的区,但是几乎在所有情况下膜和ATP结合成分被装配成一个多聚复合物,以便在所有运输系统中其三维空间定位是类似的。细菌摄取系统通常在膜的外面具有一个附加成分,该成分结合待运输的底物;溢出系统没有该成分(Reizer J,et al.,Prot Sci11326(1992))。
基因A和B(编码SEQ ID NO2蛋白质的SEQ ID NO22的2945碱基-3916碱基)和基因C(编码SEQ ID NO3蛋白质的SEQ ID NO22的4020碱基-4844碱基)和基因D(编码SEQ ID NO4蛋白质的SEQID NO22的4841碱基-6415碱基)的转译结合在一起进行的(指一个基因的终止密码子邻接另一个基因的起始密码子),这通常是共表达的基因具有精确的化学计量学。基因D编码一个可溶性的524氨基酸蛋白质,它含有各具有两个保守的序列基元的两个ATP结合区。该基因D蛋白质由两个同源的半个组成,各与推测的波赛链霉菌,DrrB溢出系统的可溶性成分(Guilfoyle PG & Hutchinson CR,Proc Natl Acad Sci 888553(1991))具有同源性,有人提出该蛋白质是将anthracyclines,阿霉素和道诺红霉素泵出细胞外。该基因D产物与来自许多生物体的多种药物抗性泵具有同源性。基因C编码一个274氨基酸蛋白质,它具有此类蛋白质的典型的六个推测的跨膜区并且与几种细菌肽透性酶的两种膜成分具有很好的相似性。由基因C编码的蛋白质也含有在独立于摄取系统的结合蛋白的膜成分中经常看到的一个基元。与基因A结合在一起转译的基因B也编码有六个推测的跨膜序列和具有与上面提到相同的细菌肽透性酶的其他膜成分相似的序列。由于基因A和B结合在一起转译的,因此可能基因A具有某些运输的作用;但是,基因A与序列数据库中的其他序列没有显著的同源性。
基因F(编码SEQ ID NO6蛋白质的SEQ ID NO22的7344碱基-8897碱基)与放线菌紫素actVA-ORF1基因(Caballero JL,et al.,MolGen Genet 230;401(1991))同源并且与actII-ORF2基因(Fernandez-Moreno MA,et al.,Cell66769(1991))几乎没有同源性。有人推测这两类基因参与放线菌紫素的溢出。基因F也与Nocardia lacamdurans的头霉素C基因簇的cmcT基因(Coque JJR,et al.,EMBO J12631(1993))类似。因此基因F可能与基因A,B,C和D一起起作用,或代表了一个独立的不是直接由ATP水解驱动的溢出系统。在基因D和F之间是基因E(编码SEQ ID NO5蛋白质的SEQ ID NO22的6533碱基-7183碱基),它编码一个与数据库中的其他基因不具有显著相似性的216氨基酸可溶性蛋白质。
基因G(编码SEQ ID NO7蛋白质的SEQ ID NO22的9164碱基-10012碱基)编码与其他聚酮化合物基因簇转录激活子,包括放线菌紫素基因簇中的actII-ORF4基因(Fernandez-Moreno MA,et al.,Cell 66769(1991))和道诺红霉素基因簇中的dnrI(Stutzman-Engwall KJ,etal.,JBact 174144(1992))具有显著相似性的蛋白质。可能它通过与下文中讨论的推测的启动子基元发生相互作用激活该基因簇中的其他许多基因。
基因H,I,J和K一套基因都位居于一个可能参与二酮化合物起始单位(例如,丁酰-ACP,丁烯酰-ACP,羟基丁酰-ACP或乙酰乙酰-ACP)的合成并且将其转移到聚酮化合物合成酶以便起动富伦霉素的生物合成。基因I(SEQ ID NO9)的蛋白质与大肠杆菌的fabH蛋白质具有显著的同源性,它催化乙酰CoA与丙二酰-CoA缩合形成乙酰乙酰-ACP,据信,在II型系统中它起动脂肪酸合成(Tsay J-T,et al.,1994,J Biol Chem 2676807)。尽管在柔毛霉素的基因簇(YeJ,et al.,1994,J Bacteriol 1766270)和阿霉素基因簇中(Grimm A,et al.,1994,Gene1511)中已经看到与fabH具微弱相似性的基因,但是这是第一次在芳香簇聚酮化合物基因簇(该基因簇有保守序列基元环绕活性位点半胱氨酸)中发现fabH同系物。在放线菌紫素基因簇中不存在fabH同系物。尽管当与其他聚酮化合物合成酶基因在异源系统中共表达时基因M似乎提供松散的链长度特异性(McDaniels R,et al.,1993,J Am Chem Soc 11511671),但是本发明讨论的玫瑰暗黄色链霉菌菌株仅产生18碳富伦霉素而不是16碳结构例如七尾霉素或卡拉真菌素。因此,基因I(编码SEQ ID NO9蛋白质的SEQ ID NO22的11628碱基-10618碱基)可能在起动富伦霉素的生物合成和确保18碳长度中具有关键的作用。与基因I结合在一起转译的是基因H(编码SEQ ID NO8蛋白质的SEQ ID NO22的10621碱基-10105碱基),它与各种氧化还原酶基因和与放线菌紫素基因簇的actI-ORF2区域具有微弱的相似性。基因H的产物可能参与乙酰乙酰-ACP还原为丁酰-ACP。
基因J(编码SEQ ID NO10蛋白质的SEQ ID NO22的11809碱基-12066碱基)编码不同于基因N产物(见下文)的酰基载体蛋白,基因I的蛋白质(与基因H蛋白质一起)利用该产物形成起始单位。基因K(编码SEQ ID NO11蛋白质的SEQ ID NO22的13209碱基-12154碱基)蛋白质与来自阿霉素(Grimm A,et al.,1994,Gene 1511)和柔毛霉素(YeJ,et al.,1994,JBacteriol 1766270)的基因簇的两个推测的酰基转移酶同源。他们都含有酰基转移酶典型的活性位点基元(GlyHisSer)。放线菌紫素基因簇不含有基因I或基因K的同源区。
基因L,M和N编码核心的聚酮化合物合成酶复合物并且与放线菌紫素基因簇的actI基因(Fernandez-Moreno MA,et al.,1992,J BiolChem 26719278)同源。基因L(编码SEQ ID NO12蛋白质的SEQ IDNO22的13409碱基-14686碱基)蛋白质含有β-酮酰基合成和酰基转移的活性位点基元。基因M(编码SEQ ID NO13蛋白质的SEQ ID NO22的14767碱基-16047碱基)与基因L同源,但是没有活性位点基元。它是功能性聚酮化合物合成酶复合物所必须的。基因N(SEQ ID NO22的16120碱基-16371碱基)编码SEQ ID NO14蛋白质,它是一个酰基载体蛋白。基于这些基因的近似性,似乎聚酮化合物合成酶利用了基因N酰基载体蛋白,其中fabH同系物利用基因J酰基载体蛋白。
基因O,P,Q,和R组成了第四个亚簇。基因O(编码SEQ ID NO15蛋白质的SEQ ID NO22的16935碱基-16453碱基)与放线菌紫素基因簇的actVI-ORFA基因(Fernandez-Moreno MA,et al.,1992,JBiol Chem 26924854)同源,有人认为它催化涉及半缩酮结构的形成和脱水。基因P(SEQ ID NO22的17088碱基-17903碱基)编码与放线菌紫素基因簇的actIII酮基还原酶(Hallam SE,et al.,1988,Gene 74305)同源的SEQ ID NO16的蛋白质。基因Q(SEQ ID NO22的17903碱基-18898碱基)编码与放线菌紫素基因簇的actVII环化酶/脱水酶(Fernandez-Moreno MA,et al.,1992,J Biol Chem 26719278)同源的SEQ IDNO17的蛋白质。,有人认为它催化第一个环化反应。基因R(SEQ IDNO22的18895碱基-19839碱基)编码与放线菌紫素基因簇的actIV蛋白质,一种参与第二个环化反应的环化酶/脱水酶(Fernandez-MorenoMA,et al,1992,J Biol Chem 26719278)高度相似的SEQ ID NO18的蛋白质。由于基因R与基因Q结合一起转译,而基因Q与基因P结合一起转译,因此这三个基因在一个转译单位内。
基因S(编码SEQ ID NO19蛋白质的SEQ ID NO22的20907碱基-19990碱基)显示与一定区域内的actVA-ORF4,actVI-ORF1和actVI-ORF2基因具有微弱的相似性。有人认为actVI-ORF1和actVI-ORF2基因产物可分别催化立体特异性酮还原和立体特异性烯酰还原(Fernandez-Moreno MA,et al.,1992,J Biol Chem 26924854)。由于基因T(编码SEQ ID NO20蛋白质的SEQ ID NO22的22094碱基-20904碱基)高度类似于actVA-ORF5(Caballero JL,et al.,1991,MolGenGenet 230;401),actVA-ORF5催化actVA产物的水解(Cole SP,etal.,1987,J Antibiot 40340),基因T可能编码富伦霉素生物合成中的水解酶类似物。因此,基因S可能编码上文提到的一个或两个立体特异性还原。
在放线菌紫素和富伦霉素基因簇中推测的启动子基元(由7个碱基精确地分隔开的两个或多个TGCA序列)位于几个推测的操纵子的第一个ORF的起始密码子上游20-50bp。该基元仅存在于isochromanequinone生物合成基因簇的推测的启动子区域表明它可能代表参与转录激活的因子的结合位点。在含有该基元的放线菌紫素基因簇中从启动子开始转录的基因已知是由actII-ORF4基因产物调节的(Gramajo HC,et al.,1993,MolMicrobiol7837)。因此,富伦霉素基因簇中的基因G(它与放线菌紫素基因簇中的actII-ORF4基因同源)很可能是参与激活含有该基元的富伦霉素基因簇中的启动子的调节因子。含有该基元的许多启动子可能提供双向转录。
在该基因簇的右末端的基因与来自各种各样的生物体编码甘油醛-3-磷酸脱氢酶(G3PDH)的基因高度类似。该基因簇中不可能定位G3PDH基因,因此它可能定位于该基因簇的右边界。但是,可观察到(FrohlichK-U,et al.,1989.J Bacteriol 1716696)在沙场链霉菌生产pentalenolactone过程中,对pentalenolactone敏感的G3PDH被对该产物有抗性的遗传上不同的异构体替代。因此,可能与pentalenolactone类似,富伦霉素也抑制GAPDH,并且在生产过程中也产生抗性异构体。
在经过测序的富伦霉素基因簇的区域没有基因明显地显示编码脱氧富伦霉素环氧酶或富伦霉素B还原酶。可能编码这些活性物质之一的基因仅是A和E,他们不与数据库中的任何序列匹配并且其功能未知。富伦霉素对链霉菌属和其他细菌有毒,富伦霉素B可能是最毒的,脱氧富伦霉素低毒,环氧化富伦霉素毒性最低。因此,如果从富伦霉素基因簇中失去富伦霉素B还原酶或脱氧富伦霉素环氧酶活性,由此产生的产物将毒害转化子。
为了在玫瑰暗黄色链霉菌和其他链霉菌中使用富伦霉素基因簇基因,构建几个大肠杆菌/链霉菌属穿梭载体。为了在链霉菌属中进行复制,这些载体使用了来自质粒pSG5(Muth G et al.,1988,Mol Gen Genet 211424;Muth G et al.,1989,Mol Gen Genet 219341)的温度敏感性复制子,该复制子在S.ghanaensis的基因组中其拷贝数约为15并且具有较宽的宿主范围。这些复制子的明显的优点是在升高的温度(35℃而不是28℃)下转化子生长时阻止了自主复制,从而可以选择质粒与染色体的整合,这是提供用于工业生产的遗传稳定的菌株必须的。这些载体在大肠杆菌中繁殖的主链是石蕊28或38(New England Biolabs,Beverly,Mass.,USA),它是以pUC载体为基础的。由于已经显示利用单链DNA转化链霉菌宿主比用双链形式的相同载体可以将特异性整合的频率提高10-100倍(HillemannD,et al.1991,Nucleic Acids Res 19777),可以使用石蕊载体,因为他们包括一个M13源点,可以通过用M13辅助噬菌体感染大肠杆菌而使单链DNA分离。
为了使本发明的DNA序列尤其是来自富伦霉素基因簇的基因(或转录单位)过量表达,将DNA序列,基因或操纵子连接到链霉菌强启动子特别是tipA和ermE*启动子(附图4)上。为此,利用提供所需限制性位点的引物进行PCR扩增所需的基因或区域,将PCR产物克隆到合适的载体pErmE或pTipA(附图5)上。然后利用限制性位点方便地将各个启动子-基因嵌合构建体移动到上文描述的穿梭载体,所述限制性位点重新构建了两个半个的选择性标记(例如,利用氨苄青霉素抗性基因中的独特的AseI位点)。所需的基因或区域也可由其本身的启动子表达,通过修饰启动子或通过导入多拷贝的构建体可以获得较高水平的表达。如果这些基因的过量表达导致更高的富伦霉素效价,则通过在较高温度下保持选择压力消除质粒,通过强制发生同源性整合这些载体可产生稳定生产的菌株。
在链霉菌中用于起动转录的有效的启动子元件包括tipA和ermE*,以及来源于已知以高水平表达的许多基因的启动子。利用各种各样的标准技术包括在预定的位置制造独特的选择性位点的位点特异性诱变技术(Kunkel TA,1985,Proc.Natl Acad.Sci.U.S.A.,82488-492),合成寡核苷酸接头,或利用制备所需限制性位点的引物进行PCR扩增,可将调节序列连接到所需基因。在理想的实施例中,将所需序列连接到该调节序列上以便在基因的#1密码子起动转译。
用于重组生产富伦霉素的宿主细胞可来源于具有携带本发明重组富伦霉素基因簇或相应DNA序列能力的任何生物体。因此,本发明的宿主细胞可来源于原核或真核生物体。但是,优选的宿主细胞是那些从放线菌构建得到的,放线菌是一类许多聚酮化合物的丰富生产者的丝状细菌。用于本发明的特定的优选的属是链霉菌属。例如,生二素链霉菌,生金色链霉菌,S.avermitilis,天蓝色链霉菌S.azureus,肉桂地链霉菌,天蓝色链霉菌,古腊科链霉菌,红霉素链霉菌,弗氏链霉菌,加利利链霉菌,淡青链霉菌,吸水链霉菌,淡紫青链霉菌,小小链霉菌,波赛链霉菌,龟裂链霉菌,麦瑰暗黄色链霉菌,嗜热链霉菌,紫红链霉菌,及其他,可提供用于本发明的便利的宿主细胞,而玫瑰暗黄色链霉菌是优选的。参见,例如,Hopwood,D.A.和Sherman,D.H.Ann Rev Genet(1990)2437-66;O’Hagan,D.The Polyketide Metabolite(Ellis Horwood Limited,1991),描述了各种产生聚酮化合物的生物体和其天然产物。例如从任何已知的保藏库,例如美国典型培养物保藏中心(ATCC),Centraalbureau voorSchimmelcultures(CBS)或德国微生物和细胞培养物收集处GmbH(DSM)或在杂志“Industrial Property”[(1991)1,pp29-40]列出的其他保藏机构获得的所述宿主也可用于分离富伦霉素基因簇DNA序列。例如玫瑰暗黄色链霉菌可从ATCC获得,保藏号为ATCC19921或ATCC19805或从CBS获得,保藏号为CBS577.68。在该文中应该记住基于本文描述的序列信息,利用本领域内已知的方法或描述于例如EP747 483的方法,也可合成制备本发明的DNA序列。
利用标准的方法例如通过同源重组,缺失天然存在的PRS基因可用遗传工程方法制备上文描述的细胞(参见,例如,Khosla,C.et al.,1992,Molec.Microbiol.63237)。利用本领域技术人员已知的方法可将集合在一起编码替代的富伦霉素基因簇的基因序列或本发明的DNA序列或其功能等同物插入到一种或多种表达载体中。表达载体包括可操作连接到所需的富伦霉素编码序列上的控制序列。用于本发明的合适的表达系统包括在真核和原核宿主细胞起作用的系统。但是,如上文解释的,优选的是原核系统,特别是与链霉菌相容的系统是特别有利的。用于所述系统的控制元件包括启动子,非强制性地含有操纵子序列,和核糖体结合位点。特别优选的启动子包括来源于PKS基因簇的控制序列,例如在放线菌紫素和富伦霉素基因簇的转译单位的5’存在的那些。但是,其他启动子,例如来源于以高水平表达的基因的启动子也可用于本发明的构建体中。例子包括来源于编码分解代谢酶(蛋白酶或糖苷酶),生物合成酶(例如在色氨酸操纵子中的那些),抗菌素抗性蛋白(例如β-内酰胺酶)或噬菌体结构蛋白的基因的启动子序列。另外,在自然界中不存在的合成启动子,例如tac启动子(美国专利No.4,551,433)也可用于本发明的构建体中。其他调节序列也是令人满意的,可用于调节富伦霉素替代序列相对宿主细胞的生长而表达。调节序列是本领域内技术人员已知的,并且举例包括引起基因的表达对化学或物理刺激物包括存在的调节化合物反应而开启或关闭的那些。其他类型的调节元件也可存在于载体例如,那些来自于在特定生长期间表达的基因的元件。在重组表达载体中包括各种可选择的标记。已知许多标记物可用于选择转化细胞,并且通常含有一个基因,当细胞在合适的选择性培养基上生长时该基因表达后给转化细胞提供可选择性表现型。所述标记包括例如提供抗菌素抗性的基因或能够在基本培养基上生长。
可将所需的各种富伦霉素生物合成酶基因(和其功能性亚单位)或本发明的DNA序列克隆到一个或多个重组载体上,以便他们分别处于各自的启动子控制之下。另一种可选择方法,将基因组成为处于例如单个启动子控制之下的操纵子(他们天然存在于富伦霉素基因簇中或合成制备的)。功能性亚单位序列可包括侧面的选择性位点以便其他亚单位容易缺失和/或插入,从而可以制备杂合的PKSs。所述独特的限制性位点的设计对本领域内技术人员来说是已知的并且可利用上文描述的技术例如定位诱变技术和PCR来完成。用于将本发明的重组载体导入到合适的宿主中的方法对本领域内技术人员来说是已知的。对于链霉菌,通常通过用溶菌酶消化细胞壁制备原生质体,并且用转化DNA与各种刺激其吸收的试剂例如聚乙二醇和二价阳离子来处理原生质体(Hopwood DA,et al.,1985,Genetic Manipulation ofStreptomyces-A Laboratory Manual,John Innes Foundation,Norwich,UK)。随后使原生质体再生为完整细胞并且选择转化子。也可以采用电穿孔的方法将DNA导入到链霉菌和其他细菌中。一旦PKS基因被表达,可以利用已知技术鉴别产生聚酮化合物的菌落并且分离。由转化子产生的聚酮化合物可在合适的条件下进一步被加工。
由Iwai et al.,J.Antibiotics 31959(1987)和Omura et al.在美国专利No.4,199,514上描述了发酵的典型方案。可在合适的碳源和氮源例如,鱼肝油,玉米油,葡萄糖,麦芽糖等等作为碳源,黄豆粉,蛋白胨,酵母等等作为氮源中培养用本发明载体转化的微生物例如玫瑰暗黄色链霉菌。通过在好氧条件下,20-35℃培养约100-150小时完成发酵。将培养肉汤与细胞分离并且过滤,用亲水有机溶剂例如乙酸乙酯,丁酸乙酯,苯等等从滤液提取富伦霉素。然后采用常规技术例如凝胶层析将富伦霉素互相分离并且中间产物化合物(环氧和脱氧富伦霉素)转化为富伦霉素B。另一种可选择的方法,在大气压下,室温,pH8-10条件下,将无细胞发酵液氢化以便将环氧化物转化为脱氧富伦霉素。在氢化之后,将pH调节到5.5并且在60℃向反应混合物中吹入空气以便将脱氧富伦霉素转化为富伦霉素B。然后提取富伦霉素B并且沉淀。
实施例1附图3显示链霉菌/大肠杆菌穿梭载体pSSVtsr和pSSVaph的构建。从载体pGM160(Muth et al.,1989)分离表达盒形式的pSG5链霉菌复制子和硫链丝菌肽抗性基因,通过缺失HindIII插入物形式的转座子可从载体pCZA168(Solenberg和Baltz,1991)获得pGM160本身。将pGM160用BamHI完全消化和用BclI部分消化,凝胶分离出含有pSG5链霉菌复制子的2.6kb片段并且连接到石蕊28和石蕊38(New England Biolabs)。重新构建得到最接近于在石蕊载体的多接头中的SnaBI的BamHI位点的SG5插入物的定位方向的选择应该得到质粒pL28SG5和pL38SG5。按照Muthet al.,1988描述,基于对基本复制子pSG5的测定,按如下所述,将非必要DNA序列缺失以便得到pL28SG 5a和pL38SG5a。
用KasI消化pL38SG5并且将凝胶分离得到的4.8kb片段重新连接得到pL38SG5a。用KasI和BamHI消化pL38SG5并且将凝胶分离得到的4.8kb片段连接到下文显示的合成接头得到pL38SG5a。
GATCCGCAGTACTGCC
GCGTATGACGGCGCG从pCZA168分离出1.1kb BclI/EcoRI片段形式的硫链丝菌肽抗性标记并且将其克隆到石蕊28的BamHI/EcoRI位点得到pL28tsr。从pIJ680(Hopwood,et al.,1985)分离1.0kb SaccI片段形式的弗氏链霉菌的新霉素抗性基因(aph)并且将其克隆到pBluescript SK-(Stratagene,La Jolla,CA,USA)得到pBSaph。
用NdeI切割pL28tsr并通过用大肠杆菌DNA聚合酶I的Klenow片段填充位点制备平齐末端。然后将该载体用HindIII切割,凝胶分离得到的1.1kb片段。用HindIII和HpaI切割pL38SG5a,凝胶分离5.2kb片段。然后将这两个片段连接得到pSSVtsr。通过用BamHI和BglII切割并且重新连接从pSSVtsr*得到pSSVtsr。
用SpeI切割pBSaph,通过用大肠杆菌DNA聚合酶I的Klenow片段填充使位点成平齐末端。然后用Tsp509I切割该载体,凝胶分离出1.1kb片段。用EcoRI和HpaI切割pL38SG5a,凝胶分离5.2kb片段。然后将这两个片段连接得到pSSVaph。
实施例2用方便的限制性位点合成tipA和ermE*启动子。在ABI 392 DNA合成仪上合成一系列重叠的寡核苷酸并且随后用T4多核苷酸激酶使之磷酰化。然后通过加热到90℃并且慢慢冷却而使这些寡核苷酸退火。在退火之后,室温下用T4连接酶将这些片段连接4小时并且然后用KpnI和BamHI切割。将凝胶分离得到的片段克隆到石蕊28的KpnI和BamHI位点得到pTipA和pErmE(附图5)。
通过PCR扩增富伦霉素基因簇中的各种基因,克隆到pTipA和/或pErmE,然后采用基本上与描述用于基因G的转录激活子(下文)相同步骤转移到穿梭载体(附图5)。按下文的描述构建用于过量表达选定的基因的载体。利用下文显示的引物将基因G进行PCR扩增。用BamHI消化得到的PCR产物(对于待连接到pTipA的产物的情况要加NdeI),凝胶分离,并且克隆到pErmE的BamHI位点或pTipA的BamHI和NdeI位点之间分别得到pErmTA和pTipTA。
向前(5’)PCR引物,用于扩增与ermE*融合的基因GCGGGAICCAGCGGGTGGGAGATCAAGTACATGGGTCAGTTGACC向前(5’)PCR引物,用于扩增与tipA融合的基因GCGCATATGGAGATCAAGTACATGGGTCAGTTGACC逆转(3’)PCR引物,用于扩增克隆到pErmE或pTipA的基因GGCGGATCCGTGTCAGTCGTGCGAGCGCGCCGCGGTGGC用AseI和StuI切割pErmTA和pTipTA载体并且凝胶分离较大(2.8kb)片段。在同时,用AseI和SnaBI切割pSSVtsr和pSSVaph载体,凝胶分离较大的(3.9kb)片段。将pErmTA和pSSVtsr片段连接在一起得到SSVtsr-ermTA。将pTipA和pSSVaph片段连接在一起得到SSVaph-tipTA。为了借助于TipA启动子构建表达基因,利用新霉素抗性基因选择,以便利用硫链丝菌肽进行诱导。由于富伦霉素基因簇中缺失AseI,SnaBI,StuI,BamHI和NdeI位点,利用该方案可表达任何富伦霉素基因。
为了制备设计为允许该基因簇中的特定基因分离的载体,将该基因内部的片段克隆到石蕊28或38,并且利用同样的方案将片段转移到穿梭载体中。例如,将跨越大部分基因L和基因G 5’末端的1.6kb的SalI片段连接到石蕊38并且将得到的载体与pSSVtsr连接得到SSVtsr-deltaLM.
实施例3将用于转化链霉菌的载体在甲基化缺陷型(dam-)(dcm-)大肠杆菌菌株中繁殖。从该菌株分离到的载体DNA用于转化变青链霉菌,天蓝色链霉菌,玫瑰暗黄色链霉菌。用以前描述的修饰步骤(HopwoodDA,et al.,1985,Genetic Manipulation of Streptomyces-A Laboratory Manual,TheJohn Innes Foundation,Norwich,UK)转化包括玫瑰暗黄色链霉菌的链霉菌属。用孢子悬浮液接种到一个250ml带隔板的烧瓶中,该烧瓶中有25ml的改良的YEME培养基(每升3g Difco酵母抽提物,5g Difco细菌用蛋白胨,3g Difco麦芽抽提物,10g葡萄糖,250g蔗糖;在高压蒸汽灭菌之后将MgCl2和甘油分别加入至5mM和0.1%终浓度)并且在30℃以220RPM的转速振荡培养5-8天。得到的菌丝体在10.3%蔗糖中洗二次,重新悬浮于4ml裂解缓冲液(Hopwood et al.,1985,ibid.)中,该缓冲液含有0.5mg/ml溶菌酶和0.5mg/ml无色肽(achromopeptides)。在室温下使细胞壁消化10-15分钟并且用显微镜监测。通过将消化产物透过棉布塞子而除去留下的菌丝体,将原生质体在新鲜原生质体缓冲液(Hopwood etal.,1985,ibid.)中洗涤二次并且储存于-80℃。
在室温下通过在含有10μl痕量元素和500μl溶于转化缓冲液(Hopwood et al.,1985,ibid.)的25%PEG6000的溶液中用0.5-5ug质粒DNA保温50μl冻融的原生质体样品完成转化1分钟。将转化物与500μl原生质体缓冲液混合并且将100-500μl样品平铺在再生平板(CM1-2,含有10.3%蔗糖)上。在30℃培养24小时之后用含有硫链丝菌肽(至终浓度为30mg/l)或新霉素(至终浓度为10mg/l)的软琼脂培养基覆盖在平板上,并且分离得到的转化细胞。
表1基因(SEQ ID NO) 所编码的蛋白质的特性A(SID1)80kD,没有高度同源性的非膜蛋白B(SID2)与A结合一起转录的膜蛋白;可能与运输有关C(SID3)具有六个跨膜区的蛋白质D(SID4)与C结合一起转译的ABC运输系统的可溶性ATP结合成分E(SID5)功能未知;在数据库中无同源序列;不是膜蛋白F(SID6)与actVA-ORF1相关的推测的溢出泵;12-14跨膜区G(SID7)与actII-ORF4相关的转录激活子H(SID8)与基因I结合一起转译I(SID9)fabH的同系物;可能合成四碳起始物单位J(SID10) 可能由fabH的同系物利用的ACP以便起始物单位K(SID11) 酰基转移酶;可从ACP(J)上将起始物单位转移到PKSL(SID12) PKS酮酰基合成酶亚单位M(SID13) 其他的PKS亚单位;称之为“链长度因子”N(SID14) 由PKS利用的ACPO(SID15) 与actVI-ORFA相关;可能是一个半缩酮脱氢酶P(SID16) 与actIII相关的酮基还原酶Q(SID17) 与actII相关的环化酶/脱氢酶R(SID18) 与actIV相关的环化酶/脱氢酶S(SID19) 与actVI因子微弱相关的氧化还原酶T(SID20) 与actVA-ORF5相关的形成苯醌的羟化酶序列表(1)一般资料(i)申请人(A)姓名F.HOFFMANN-LA ROCHE AG(B)街道Grenzacherstrasse 124(C)城市Basle(D)州 BS(E)国家瑞士(F)邮政编码(ZIP)CH-4002(G)电话061-688 25 05(H)传真061-688 13 95(I)电传962292/965542 hlr ch(ii)发明名称富伦霉素基因簇(iii)序列数22(iv)计算机可读形式(A)介质类型Floppy disk(B)计算机IBM PC兼容机(C)可操作系统PC-DOS/MS-DOS(D)软件PatentIn Release#1.0,版本#1.30(2)SEQ ID NO1的资料(i)序列特征(A)长度770个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO1Met Ala Gly Ser Gly Tyr Ala Tyr Tyr Gln His Leu Ser Gly Asn Ile15 10 15Asp Lys Ile Asp Val Gly Asp Ala Gly Asn Lys Asp Ala Ala Pro Asp20 25 30Gly Pro Ile Asn Ile Leu Ile Ile Gly Thr Asp Lys Arg Thr Gly Lys35 40 45Gly Asn Glu Gly Cys Gly Gly Lys Asp Ser Pro Gly His Ala Asp Thr50 55 60Asn Ile Leu Leu Arg Val Ser Ala Asp Arg Thr Asn Thr Thr Gly Leu65 70 75 80Ser Ile Pro Arg Asp Leu Ile Thr Asn Ile Pro Asp Cys Leu Thr Thr85 90 95Gln Asp Asp Gly Ser Lys Lys Thr Ile Pro Gly Thr Gln Asn Val Arg100 105 110Phe Asn Thr Ser Leu Gly Gln Glu Gly Arg Asp Pro Gly Cys Thr Met115 120125Arg Thr Val Thr Glu Leu Thr Gly Leu Lys Val Asp His Phe Met Met130 135 140Ala Asp Phe Asn Ala Val Lys Asn Leu Thr Thr Ala Val Asn Gly Val145 150 155 160Glu Val Cys Val Ala Lys Asp Val Asp Asp Pro Asp Ser His Leu Lys165 170 175Leu Ser Ala Gly Thr His Lys Val Gln Gly Glu Gln Ala Leu Ala Phe180 185 190Val Arg Thr Arg His Ser Phe Gly Asn Gln Gly Asp Leu Asp Arg Ile195 200 205Lys Val Gln Gln Gln Phe Leu Gly Ser Leu Ala Arg Gln Leu Lys Ser210 215 220Glu Asp Thr Leu Thr Ser Pro Lys Lys Leu Tyr Lys Val Ala Glu Ala225 230 235240Ala Thr Asp Ala Leu Thr Val Asp Ser Gly Ile Gly Ser Ile Thr Lys245 250 255Leu Met Ser Leu Ala Lys Glu Leu Gln His Ile Asn Pro Lys Asn Ile260 265 270Thr Phe Val Thr Leu Pro Val Val Asp Asn Pro Ala Glu Lys Val Lys275280 285Ala Thr Val Val Leu Asn Glu Thr Asp Ala Asp Pro Gln Gln Ser Ala290 295 300Leu Gly Gln Ser Leu Asp Val Gly Arg Gln Leu Val Asp Ser Leu Thr305 310 315 320Asp Gln Asp Pro Arg Asp Gly Lys Thr Val Pro Trp Leu Ala Thr Arg325 330 335Trp Lys Ala Asp Pro Glu Ala Thr Arg Phe Thr Phe Thr Leu Arg Ala340 345 350Gly Ala Thr Phe Ser Asp Gly Thr Pro Val Asp Ala Arg Ala Val Lys355 360 365Ala Asn Phe Asp Ala Val His Glu Leu Gly Ala Ala Ala Ser Arg Gly370 375 380Ala Val Tyr Leu Asp Gly Tyr Arg Glu Thr Arg Val Ser Gly Ala Arg385 390 395 400Thr Leu Thr Val Val Phe Asp Lys Pro Asn Ala Gln Phe Leu Arg Gly405 410 415Thr Ser Thr Val Ser Leu Gly Leu Leu Ser Pro Gly Ser Leu Arg Arg420 425 430Thr Pro Gln Glu Arg Cys Thr Gly Arg Leu Val Gly Ser Gly Pro Phe435 440 445Val Leu Asp Arg Tyr Arg Pro Asn Thr Ser Val Thr Leu Asp Arg Arg450 455 460Lys Gly Tyr Ser Trp Gly Ser Arg Leu Trp Gln Arg Glu Gly Gly Ala465 470 475 480Tyr Leu Glu Gly Val Glu Tyr Arg Ile Val Pro Glu Asn Thr Thr Arg485 490 495Ser Gly Ala Leu Ser Ala Gly Gln Leu Asp Val Ala Thr Ala Leu Ala500 505 510Pro Gln Asp Arg Glu Arg Phe Ser Ala Pro Gly Trp Ser Leu Leu Thr515 520 525Arg Thr Ala Pro Gly Val Asp Leu Ser Leu Tyr Val Asn Ala Arg Arg530 535 540Thr Ala Leu Arg Glu Ala Ala Val Arg Gln Ala Leu Gln Lys Gly Ile545 550 555 560Asp Arg Glu Ala Val Ala Thr Thr Phe Leu Ser Ser Arg Lys Leu Ala565 570 575Ala Thr Ser Val Leu Ser Ser Thr Thr Pro Gly Tyr Thr Asp Leu Gly580 585 590Asp Arg Leu Ala His Asp Pro Ala Gly Ala Arg Arg Leu Leu Asp Lys595 600 605Ala Gly Trp Arg Pro Gly Ala Asp Gly Ile Arg Val Lys Asn Gly Val610 615620Arg Leu Arg Leu Asp Ala Val Phe Val Arg Gln Gln Ser Leu Glu Leu625 630 635 640Val Gln Gln Gln Leu Lys Asp Ile Gly Val Glu Leu Arg Leu Arg Gln645 650 655Leu Thr Val Ser Arg Phe Pro Glu Val Leu Ala Ala Gly Ser Tyr Asp660 665 670Leu Ser Leu Gln Ser Ala Asn Arg Ala Asp Pro Asp Val Leu Thr Thr675 680 685Ala Phe Ala Gly Gly Thr Pro Val Ala Asp Ala Arg Leu Arg Ser Glu690 695 700Leu Arg Arg Ala Thr Ser Ser Thr Asp Glu Ala Thr Arg Ser Ser Leu705 710 715 720Phe Ala Ala Ala Gln Arg Arg Leu Val Asp Glu Gly His Val Leu Pro725 730 735Leu Asn Glu Thr Glu Glu Thr Ala Ala Leu Ser Thr Arg Val His Gly740 745 750Leu Thr Arg Asp Ala Ser Asn Arg Leu Val Leu His Asp Thr Trp755 760 765Thr Thr Gly770(2)SEQ ID NO2的资料(i)序列特征(A)长度323个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO2Met Thr Ala Arg Tyr Leu Ala Arg Arg Leu Gly Arg Val Val Leu Val1 5 10 15Val Trp Ala Ala Tyr Thr Leu Ser Phe Ala Val Leu Tyr Leu Leu Pro20 25 30Gly Asp Pro Val Gln Thr Met Leu Ser Gly Ala Ala Gly Gly Asp Gly35 40 45Ala Ala Val Asp Pro His Glu Ala Gln Arg Leu Arg His Thr Leu Gly50 55 60Leu Asp Arg Pro Leu Ala Val Gln Tyr Thr Ser Met Leu Gly His Ala65 70 75 80Leu Arg Gly Asp Leu Gly Thr Ser Ile Arg Ser Gly Ala Pro Val Arg85 90 95Gly Gln Leu Ala Gln Ala Leu Pro Asp Thr Leu Ser Val Ala Leu Pro100 105 110Ala Leu Val Leu Ser Val Leu Val Ala Leu Cys Leu Ala Leu Leu Gly115 120 125Ala Trp Pro Arg Arg Arg Ala Leu Arg Arg Ala Ala Thr Ala Leu Pro130 135 140Ser Leu Gly Thr Ala Met Pro Ser Phe Trp Leu Gly Leu Leu Leu Ala145 150 155160Gln Trp Val Ser Phe Arg Trp Gly Leu Leu Pro Ala Thr Gly Gly Gly165 170 175Arg Ser Pro Arg Ala Thr Leu Leu Ala Ala Leu Thr Leu Ala Leu Pro180 185 190Ile Gly Cys Val Leu Ala Gln Val Leu Gly Arg Gly Leu Arg Ala Ala195 200 205Leu Ala Glu Pro Tyr Ala Asp Val Ala Arg Ser Arg Gly Ala Gly Arg210 215 220Ala Arg Leu Leu Leu Ala Arg Ala Leu Arg Asn Ala Ser Val Ala Ala225 230 235 240Leu Ala Leu Leu Gly Val Val Cys Gly Gln Leu Leu Ala Gly Ala Val245 250 255Leu Val Glu Thr Val Phe Ala Arg Gly Gly Ile Gly Arg Leu Ala Met260 265 270Asp Ala Val Thr Tyr Gln Asp Leu Pro Val Val Gln Gly Val Val Val275 280 285Leu Ala Ala Leu Val Ala Ala Leu Val Asn Leu Val Val Asp Leu Leu290 295 300Leu Pro Leu Leu Glu Pro Arg Thr Ala Ser Glu Ala Ala Asp Ala Val305 310 315 320Pro Ala His(2)SEQ ID NO3的资料(i)序列特征(A)长度274个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO3Met Ala Leu Arg Arg Val Ala Ala Leu Trp Arg Ala Pro Gly Leu Ala1 5 10 15Leu Ser Leu Leu Val Leu Leu Leu Val Leu Gly Trp Ala Leu Leu Pro20 25 30Gly Leu Phe Thr Ala Ala Asp Pro Leu Arg Ala Asp Ala Ala His Arg35 40 45Leu Leu Ala Pro Gly Ala Gly His Pro Leu Gly Ala Asp His Val Gly50 55 60Arg Asp Leu Tyr Ala Arg Val Val His Gly Thr Ala Arg Ser Leu Gly65 70 75 80Thr Ala Phe Ala Ala Val Ala Leu Gly Val Leu Ala Gly Gly Ala Leu85 90 95Gly Ala Val Ala Gly Val Ala Gly Arg Ala Val Asp Ala Val Val Met100 105 110Arg Val Val Asp Val Leu Leu Ala Val Pro Gly Leu Leu Leu Ser Leu115 120 125Ala Val Val Ser Ala Leu Gly Phe Gly Thr Ala Gln Val Ala Cys Ala130 135 140Val Gly Val Gly Thr Val Gly Gly Ile Ala Arg Val Ser Arg Ala Gln145 150 155 160Val Arg Arg Val Arg Gly Gly Glu Tyr Val Glu Ala Ala Arg Leu Ala165 170 175Gly Val Ala Gly Pro Leu Ile Leu Leu Arg His Ile Val Pro Asn Ala180 185 190Ala Pro Pro Val Leu Ala Leu Ala Val Thr Glu Cys Gly Thr Ala Val195 200 205
Leu Gly Val Ala Ser Leu Gly Phe Leu Gly Phe Gly Ala Pro Pro Pro210 215 220Ala Pro Glu Trp Gly Ala Leu Ile Ser Thr Gly Arg Asp Tyr Leu Val225 230 235 240Ser Ala Trp Trp Leu Thr Thr Leu Pro Gly Leu Val Leu Val Ala Leu245 250 255Val Val Ala Leu His Arg Val Gly Arg Ala Leu Glu Arg Glu Glu Arg ThrGly260 265 270(2)SEQ ID NO4的资料(i)序列特征(A)长度524个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO4Met Thr Pro Ala Asp Lys Pro Thr Asp Glu Arg Ser Pro Val Leu Asp1 5 10 15Leu Ser Gly Val Ser Val Ala Tyr Gly Thr Arg Thr Val Leu His Gly20 25 30Ile Asp Leu Arg Leu Ala Pro Gly Gln Val Leu Ala Val Leu Gly Ala35 40 45Ser Gly Ser Gly Lys Ser Thr Leu Ala Gln Ala Ala Leu Gly Leu Leu50 55 60Pro Pro Gly Gly Arg Val Thr Ala Gly Arg Val Thr Val Ala Gly His65 70 75 80Asp Ile Thr Ala Leu Ala Pro His Arg Leu Arg Ala Leu Arg Gly Thr85 90 95Val Thr Gly Leu Val Pro Gln Asp Gln Ala Val Ser Leu Asp Pro Leu100 105 110Val Arg Val Gly Ala Gln Val Thr Glu Thr Leu Arg Ala His Arg Leu115 120 125Glu Asp Arg Arg Glu Ala Ala Arg Arg Ala Val Pro Leu Leu Gly Glu130 135 140Ala Gly Ile Glu Ala Pro Gly Pro Leu Ala Arg Ala Tyr Pro His Ala145 150 155 160Leu Ser Gly Gly Gln Arg Gln Arg Val Leu Val Ala Gly Ala Phe Ala165 170 175Ala Arg Pro Pro Leu Val Val Ala Asp Glu Pro Thr Ser Ala Leu Asp180 185 190Ala Thr Val Arg Arg Arg Val Met Asp Arg Phe Ala Ala Leu Val Ala195 200 205Ala His Gly Thr Ala Val Leu Leu Val Thr His Asp Phe Arg Leu Ala210 215 220Arg GluArg Ala Asp Gln Val Ala Val Leu Ala Asp Gly Arg Leu Val225230 235 240Glu Ser Gly Pro Ala Ala Arg Val Leu Asp Arg Pro Ala His Pro Tyr245 250 255Thr Arg Arg Leu Thr Gly Ala Gly Arg Arg Val Ala Ala Arg Gly Thr260 265 270Ala Pro Arg Ala Ser Gly Thr Pro Val Val Arg Ala Arg Asp Leu Val275 280 285Lys Glu Tyr Arg Arg Asp Gly Arg Arg Val Arg Ala Val Asp Gly Val290 295 300Gly Phe Thr Val Arg Glu Gly Glu Phe Phe Ala Leu Val Gly Glu Ser305 310 315320Gly Ser Gly Lys Ser Thr Thr Ala Arg Leu Val Thr Gly Leu Thr Ala325 330 335Pro Thr Ser Gly Ala Val Glu His Ala Pro Ala Pro Val Arg Pro Gln340 345 350Leu Val Gln Gln Ser Pro Tyr Ala Ala Phe Asp Pro Arg Trp Thr Val355 360 365Arg Arg Ile Val Glu Glu Pro Leu Arg Ala Arg His Val Pro Gly Ala370 375 380Arg Arg Arg Ala Arg Leu Arg Glu Leu Leu Ala Leu Val Gly Leu Asp385 390 395 400Glu Glu Leu Leu Ala Arg Arg Pro Arg Glu Leu Ser Gly Gly Gln Arg405 410 415Gln Arg Val Ala Leu Ala Arg Ala Leu Ala Pro Glu Pro Arg Leu Leu420 425 430Val Cys Gly Glu Pro Val Ala Ala Leu Asp Pro Val Ala Arg Glu Arg435 440 445Val Val His Leu Leu Glu Arg Leu Arg Ala Glu Leu Gly Leu Thr Cys450 455 460Leu Phe Val Ser His Glu Leu Asp Val Val Arg Arg Leu Cys Gly Arg465 470 475 480Val Ala Val Met Arg Gly Gly Arg Leu Leu Glu Ser Gly Pro Val Gly485 490 495Glu Val Leu Ser Ala Pro Ser Gln Pro Tyr Thr Arg Ala Leu Leu Ala500 505 510Ala Glu Ala Gly Pro Ser Asp Thr Pro Gly Ala Gly515 520(2)SEQ ID NO5的资料(i)序列特征(A)长度216个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO5Met Asn Glu Ile Thr Val Glu Ile Trp Thr Asp Val Val Cys Pro Trp1 5 10 15Cys Tyr Ile Gly Lys Arg Arg Phe Glu Arg Ala Leu Ala Ala Phe Asp20 25 30Ala Lys Glu Asp Val Arg Val His Trp Arg Ser Phe Glu Leu Asp Pro35 40 45Ala Ala Leu Arg Val Thr Asp Glu Thr Ile Pro Glu Arg Met Leu Arg50 55 60Arg Gln Gly Ile Pro Pro Glu Gln Ala Ala Glu Leu Leu Ala Gly Val65 70 75 80Ser Ala Gln Ala Glu Ala Glu Gly Leu Glu Tyr His Leu Asp Arg Ala85 90 95Arg Pro Cys Asn Thr Phe Asp Ala His Arg Leu Ala His His Ala Gly100 105 110Thr Arg Gly Leu Ala Glu Thr Phe Gln Glu Arg Leu Met Cys Ala Tyr115 120 125Thr Ala Glu Gly Val Ser Val Gly Asp His Pro Thr Leu Leu Ala Leu130 135 140Ala Glu Glu Ala Gly Leu Asp Ala Ala Ala Ala Ala Glu Val Leu Ala145 150 155160Gly Asp Ala His Ala Glu Asp Val Arg Ala Asp Glu Asp Arg Ala Ala165 170 175Arg Leu Gly Val Gly Gly Val Pro Ala Phe Val Ile Gly Gly Arg Trp180 185 190Ser Val Ser Gly Ala Gln Pro Ala Glu Leu Leu Thr Gly Leu Leu Glu195 200 205Arg Ala Arg Thr Ala Ala Ala Ala210 215(2)SEQ ID NO6的资料(i)序列特征(A)长度517个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO6Met Ser Ser Ser Pro Pro Ala Pro Ala Thr Pro Gly Val Ala Pro His1 5 10 15Ser Pro Pro Ala Pro Arg Leu Gly Leu Val Leu Leu Val Cys Cys Leu20 25 30Ala Gln Phe Leu Val Thr Leu Ser Val Ala Ile Val Asn Val Ala Leu35 40 45Pro Asp Ile Gln Arg Gly Leu Gly Phe Ser Ala Glu Ser Leu Gln Trp50 55 60Val Val Asn Ala Tyr Thr Val Thr Phe Ala Gly Phe Leu Leu Leu Gly65 70 75 80Gly Arg Ile Ala Asp Leu Phe Gly Arg Arg Arg Ile Phe Leu Ala Gly85 90 95Val Ala Leu Phe Ala Leu Ala Ser Leu Ala Gly Gly Leu Ser Gln Asn100 105 110Ala Gly Thr Leu Val Ala Ala Arg Ala Val Gln Gly Leu Ala Ala Ala115 120 125Val Ile Ala Pro Thr Thr Leu Ala Val Leu Gly Thr Ser Phe Lys Asp130 135 140Pro His Gln Arg His Arg Ala Phe Gly Ala Trp Gly Ala Val Ser Gly145 150 155 160Ala Gly Gly Ala Phe Gly Ala Leu Ala Gly Gly Ala Leu Thr Asp Ala165 170 175Phe Ser Trp Arg Trp Val Leu Phe Val Asn Leu Pro Ile Gly Val Leu180 185 190Leu Leu Ala Gly Ile Ala Trp Gly Ile Ser Glu Leu Arg His Ala Gly195 200 205Glu Asp Arg Arg Ile Asp Val Ala Gly Ala Leu Thr Val Thr Leu Gly210 215 220Leu Leu Ala Leu Val Leu Gly Ile Val Gln Ser Gly Pro His Gly Trp225 230 235 240Gly Ser Ala Ala Thr Leu Val Pro Leu Leu Gly Gly Leu Ala Leu Leu245 250 255Gly Ala Phe Val Leu Val Glu Gly Arg Phe Ala Pro Gln Pro Leu Ile260 265 270Pro Leu Gly Ile Phe Arg Ser Arg Ser Val Val Ala Ala Asn Val Val275 280 285Ala Met Thr Ser Gly Ala Ala Leu Phe Ser Met Phe Tyr Phe Leu Thr290 295 300Leu Phe Leu Asn Gln Val Arg Asp Tyr Ser Pro Leu Arg Thr Gly Phe305 310 315 320Ala Tyr Leu Pro Leu Ala Leu Ala Ile Met Val Ala Ala Gln Phe Ser325 330 335Ala Ala Leu Val Arg Val Leu Gly Pro Arg Thr Thr Leu Leu Val Ser340 345 350Met Ala Leu Thr Ala Ala Gly Leu Leu Trp Leu Ser Arg Leu Thr Glu355 360 365Asp Ser Gly Phe Ala Gly Gly Leu Leu Gly Pro Thr Leu Val Val Gly370 375 380Ile Gly Gln Gly Ile Ser Met Ser Ala Ser Ala Ile Ala Gly Val Ala385 390 395 400Gly Val Arg Pro Gln Gln Ala Gly Leu Ala Ser Gly Leu Leu Asn Ala405 410 415Thr Arg Gln Leu Gly Gly Ala Leu Gly Leu Ala Val Val Ala Ala Val420 425 430Ala Thr Ser Arg Ala Asp Gly Leu Leu Asp Gly Val Ala Arg Pro Thr435 440 445Ala Glu Leu Ala Arg His Ala Gln Ala Ser Gly His Pro Leu Ser Ile450 455 460Ala Val Ala Ala Ala Leu Ser Ala Val Gly Leu Leu Ala Ser Leu Ala465 470 475 480Ala Pro Gly Arg Ser Pro Ala Pro Thr Gly Thr Arg Thr Gly Gly Asp485 490 495Ser Ala Ala Pro Ala Pro Ala Ala Ala Pro Ala Ala Thr Gly Thr Thr500 505 510Gly Pro Gly Glu Ile515(2)SEQ ID NO7的资料(i)序列特征(A)长度282个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO7Met Glu Ile Lys Tyr Met Gly Gln Leu Thr Met Arg Trp Glu Gly Arg1 5 10 15Glu Lys Leu Pro Ser Ala Arg Lys Pro Arg Thr Val Leu Ala Leu Leu20 25 30Leu Leu Asn Asp Lys Thr Pro Val Thr Thr Ser Ala Leu Ile Thr Glu35 40 45Leu Trp Gly Glu Asn Pro Pro Arg Ser Ala Leu Thr Thr Leu Gln Thr50 55 60Tyr Ile Leu Gln Leu Arg Lys Cys Leu Ala Ala Met Ser Gly Arg Ser65 70 75 80Leu Ala Cys Ile Ser Glu Lys Thr Leu Val Thr Trp Pro Cys Gly Tyr85 90 95Leu Ala Arg Leu Pro Ala Asp Ala Thr Ser Asp Val Ala Glu Phe Arg100 105 110Arg Phe Ala Arg Glu Gly Arg Glu Ala Glu Arg Arg Gly His Leu Ala115 120 125Glu Ala Val Arg Ser Tyr Arg Ala Ala Leu Ser Leu Ser Gln Gly Pro130 135 140Leu Leu Ala Asp Ile Glu His Gly Pro Leu Leu Arg Ala Glu Ala Val145 150 155160Arg Met Glu Glu Cys Arg Leu Ser Leu Val Glu Arg Ser Ile Glu Gly165 170 175Asp Leu Leu Leu Gly Arg His Arg Glu Val Val Ser Glu Leu Ser Ala180 185 190Leu Val Ala Gln Tyr Pro Tyr His Glu Gln Leu Thr Gly Gln Leu Met195 200 205Val Ala Leu Val Arg Cys Gly Arg Arg Gln Asp Ala Leu Ala Val His210 215 220Gln Arg Leu Arg Ala Arg Met Val Glu Asp Leu Gly Leu Glu Pro Ser225 230 235240Ser His Leu Arg Ala Leu Gln Ser Ala Val Leu Ser Gly Glu Pro Leu245 250 255Pro Gly Pro Pro Gly Thr Gly Gly Glu Ile Pro Thr Pro Tyr Ala Gly260 265 270Ala Phe Ala Thr Ala Ala Arg Ser His Asp275 280(2)SEQ ID No8的资料(i)序列特征(A)长度171个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO8Met Asn Glu Thr Arg Thr Ala Ala Arg Thr Gly Gln Val Gly Pro Val1 5 10 15Asp Ala Glu Gly Phe Arg Ala Ala Met Ser Cys Phe Pro Ala Gly Val20 25 30Val Leu Val Thr Thr Arg Glu Glu Asp Gly Thr Pro Arg Gly Phe Thr35 40 45Ala Ser Ser Phe Cys Ser Val Ser Leu Ala Pro Pro Leu Val Ser Val50 55 60Cys Gln Gly Thr Gly Ala Gln Ser Tyr Gly Ala Phe Gln Glu Cys Ala65 70 75 80Arg Phe Ala Val Ser Val Leu Arg Ser Gly Gln Arg Glu Leu Ala Ser85 90 95Arg Phe Ala Thr Arg Gly Ala Asp Lys Phe Gly Gly Gly Gly Leu Val100 105 110Ala Leu Glu Gly Ser Gly Leu Leu Val Ala Ala Asp Ala Leu Val Thr115 120 125Leu Glu Cys Ala Val His Ala Arg His Leu Ala Gly Asp His Val Ile130 135 140Leu Val Gly Glu Val Arg Gly Val Gly Gln Gly Glu Gly Glu Pro Leu145 150 155 160Val His Trp Glu Arg Gly Phe Arg Ala Leu Arg165 170(2)SEQ ID NO9的资料(i)序列特征(A)长度336个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO9Met Thr Gly Glu Ala Glu Met Leu Gly Thr Arg Pro Val Val His Ser1 5 10 15Arg Leu Leu Gly Val Gly Gly Tyr Arg Pro Arg Arg Ser Val Asp Asn20 25 30Ala Glu Leu Cys Ala Thr Val Ala Ser Thr Pro Glu Trp Ile Glu Thr35 40 45Arg Ser Gly Ile Arg Ala Arg Gly Phe Ala Ala Pro Asp Glu Thr Leu50 55 60Arg Phe Met Gly Arg Ala Ala Ala Glu Lys Ala Leu Ala Arg Ala Gly65 70 75 80Val Leu Pro Asp Gly Ile Asp Leu Val Leu Val Ala Ser Met Ser Arg85 90 95Leu Glu Gln Thr Pro Pro Leu Ala Val Leu Leu Ala Glu Asp Leu Gly100 105 110Ala Arg Ala Ala Ala Gly Leu Asp Val Ser Gly Ala Cys Ala Gly Phe115 120 125Cys His Ala Leu Ala Leu Ala Ser Asp Ala Val Arg Ala Gly Ser Ala130 135 140Arg His Val Leu Val Val Gly Thr Glu Arg Met Thr Asp Leu Val Glu145 150 155160Arg Ala Asp Arg Thr Val Ser Val Leu Phe Ala Asp Gly Ala Gly Ala165 170 175Ala Val Val Gly Pro Ser Ala Arg Pro Gly Ile Ser Pro Pro Ala Arg180 185 190Gly Ala Ala Gly Arg Tyr Ala Gly Ala Leu Arg Met Asp Arg Gly Trp195 200 205Asp Thr Phe Ala Ala Asp Pro Ser Leu Gly Arg Pro Trp Met Arg Met210 215 220Asp Gly Arg Arg Val Phe Arg Trp Ala Met Asp Glu Val Thr Pro Arg225 230 235 240Ala Ala Glu Leu Leu Arg Glu Ser Gly Ile Glu Pro Glu Ala Leu Asp245 250 255Ala Phe Val Pro His Gln Ala Asn Leu Arg Met Ile Glu Leu Met Ala260 265 270Glu Arg Leu Gly Leu Pro Glu Arg Thr Ala Val Ala Arg Asp Val Val275 280 285Arg Ala Gly Asn Thr Ser Ala Ala Ser Val Pro Leu Ala Leu Glu Ala290 295 300Leu Leu Asp Ser Gly Glu Val Gly Ser Gly Asp Arg Ala Leu Leu Val305 310 315 320Gly Phe Gly Ala Gly Leu Asn Tyr Ala Ala Gln Val Val Glu Leu Pro325 330 335(2)SEQ ID NO10的资料(i)序列特征(A)长度85个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO10Met Ser Ala Phe Thr Leu Thr Glu Phe Lys Lys Leu Val Glu Gln Ser1 5 10 15Tyr Asp Ala Glu Ser Ala Glu Ala Leu His Gly Gln Ala Leu Asp Thr20 25 30Ser Phe Thr Asp Leu Gly Tyr Asp Ser Leu Thr Val Tyr Glu Ile Val35 40 45Thr Arg Ile Gln Asp Glu His Gly Val Thr Val Pro Asp Glu Glu Leu50 55 60Asp Leu Leu Asp Thr Pro Arg Ala Leu Ile Ala Tyr Val Asp Ala Arg65 70 75 80Ala Gly Ser Arg Thr85(2)SEQ ID NO11的资料(i)序列特征(A)长度351个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO11Met Arg Ser Glu Gly Gly Thr Glu Glu Glu Gly Ala Pro Val Val Ala1 5 10 15Leu Leu Leu Pro Gly Gln Gly Ala Gln Arg Ala Arg Met Ala Ala Gly20 25 30Leu His Gly Val Val Pro Glu Phe Thr Thr Ala Val Glu Glu Cys Phe35 40 45Ala Val Trp Gly Thr Trp Gly Glu Glu Leu Arg Ala Arg Trp Leu Asp50 55 60Gly Ala Gly Gly Glu Glu Ala Leu Glu Arg Ala Ala Val Ala Gln Pro65 70 75 80Leu Leu Phe Ala Val Gly Tyr Gly Leu Gly Arg Ala Leu Gly Ala Gly85 90 95Ala Gln Gly Ala Pro His Leu Leu Leu Gly His Ser Val Gly Glu Leu100 105 110Ala Ala Ala Ala Leu Ala Gly Val Cys Ala Pro Gly Ala Ala Leu Arg115 120 125Leu Leu Ala Glu Arg Asp Ala Val Leu Arg Ala Ala Pro Ser Gly Gly130 135 140Met Leu Ala Val Ala Ala Pro Val Asp Asp Leu Arg Pro Tyr Val Gly145 150 155 160Ala Asp Val Val Val Gly Ala Val Asn Gly Pro Arg Gln Thr Val Leu165 170 175Cys Gly Pro Glu Ala Pro Leu Arg Ala Val Ala Arg Arg Leu Ala Asp180 185 190Asp Gly Leu Thr Ala Arg Arg Leu Gln Ala Asp Val Pro Phe His Ser195 200 205Pro Ala Leu Ala Gly Ala Ala Arg Arg Leu Thr Arg Ala Ser Ala Glu210 215 220Arg Val Ala Arg Trp Arg Pro Pro Ala Val Pro Leu Trp Ser Gly Arg225 230 235 240Thr Gly Arg Ala Leu Thr Pro Gly Glu Ala Val Arg Ala Ala Phe Trp245 250 255Cys Gly Gln Leu Ala Ala Pro Val Leu Tyr Trp Pro Ala Leu Gly Asn260 265 270Leu Leu Ala Thr Ala Thr Ala Thr Ala Thr Thr Thr Gly Gly Gly Arg275 280 285Gly Val Val Leu Leu Asp Ala Ser Pro Asp Gly Ser Leu Gly Ala Pro290 295 300Ala Arg Arg His Pro Ala Val Arg Ser Gly Ala Ala Arg Val Val Arg305 310 315 320Leu Leu Pro Ala Arg Pro Gly Asp Pro Ala Asp Asp Val Arg Ala Phe325 330 335Arg Ala Ala Leu Gln Gln Ala Gly Gln Val Val Arg Asp Gly Gly340 345 350(2)SEQ ID NO12的资料(i)序列特征(A)长度425个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO12Met Asn Arg Gln Val Ala Val Thr Gly Ile Gly Val Val Ala Pro Gly1 5 10 15Gly Ile Gly Arg Lys Pro Tyr Trp Glu Gln Leu Thr Ser Gly Arg Thr20 25 30Ala Thr Arg Ala Ile Ser Phe Phe Asp Ala Ser Pro Phe Arg Ser Arg35 40 45Ile Ala Ala Glu Val Asp Phe Asp Pro Ala Ala Ala Gly Leu Ser Pro50 55 60Arg Glu Val Arg Arg Met Asp Arg Ala Ala Gln Phe Ala Val Val Ser65 70 75 80Ala Arg Glu Ser Leu Ala Asp Ser Gly Leu Asp Val Ala Asp Leu Asp85 90 95Pro His Arg Ile Gly Val Ser Ile Gly Ser Ala Val Gly Gly Thr Thr100 105 110Ser Leu Glu Arg Glu Tyr Leu Ala Leu Ser Asp Ser Gly Arg Gln Trp115 120 125Glu Leu Asp Leu Ser Tyr Leu Ser Pro His Leu Tyr Asp Ala Phe Thr130 135 140Pro Ser Ser Leu Ala Arg Glu Val Ala Gly Val Ile Gly Ala Glu Gly145 150 155 160Pro Ala Ala Val Val Ser Thr Gly Cys Thr Ser Gly Ile Asp Ser Leu165 170 175Gly His Ala Arg Asp Leu Ile Ala Glu Gly Ser Ala Asp Val Val Leu180 185 190Ala Gly Gly Thr Asp Thr Pro Ile Ser Pro Ile Ala Val Ala Cys Phe195 200 205Asp Ala Ile Lys Ala Thr Ser Pro Ser Asn Asp Asp Pro Ala His Ala210 215 220Ser Arg Pro Phe Asp Arg Glu Arg Asn Gly Phe Val Leu Ala Glu Gly225 230 235 240Ala Ala Val Leu Val Leu Glu Glu Leu Gly His Ala Arg Ala Arg Asp245 250 255Ala His Val Tyr Ala Leu Val Ser Gly Tyr Ala Thr Arg Cys Asn Ala260 265 270Tyr His Met Thr Gly Leu Thr Pro His Gly Arg Glu Met Ala Glu Ala275 280 285Ile Arg His Ala Leu Ala Glu Ser Gly Thr Asp Pro Ala Ala Val Asp290 295 300Tyr Val Asn Ala His Gly Ser Gly Thr Lys Gln Asn Asp Arg His Glu305 310 315 320Thr Ala Ala Phe Lys Ala Thr Leu Gly Glu Arg Ala Arg Ser Val Pro325 330 335Val Ser Ser Ile Lys Ser Met Ile Gly His Ser Leu Gly Ala Ile Gly340 345 350Ser Leu Glu Ile Ala Ala Trp Ala Leu Ala Met Glu Tyr Gly Val Val355 360 365Pro Pro Thr Ala Asn Leu Asp Thr Pro Asp Pro Glu Cys Asp Leu Asp370 375 380Tyr Val Pro His Glu Ala Arg Glu Thr Arg Val Asp Arg Val Leu Ser385 390 395 400Val Gly Ser Gly Phe Gly Gly Phe Gln Ser Ala Met Val Leu Thr Arg405 410 415Asp Thr Gly Ala Arg Leu Pro Thr Ala420 425(2)SEQ ID NO13的资料(i)序列特征(A)长度426个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO13Met Thr Thr Ala Pro Ser Arg Thr Ala Gln Gly Ala Pro Pro Gly Ala1 5 10 15Ala Leu Pro Pro Val Phe Thr Gly Ile Gly Val Ala Ala Pro Asn Gly20 25 30Leu Gly Thr Glu Glu Trp Trp Ala Ala Thr Leu Arg Gly Glu His Gly35 40 45Leu Arg Pro Val Thr Glu Tyr Asp Ala Ser Gly His Pro Gly Gly Leu50 55 60Val Gly Arg Val Pro Asp Phe Asp Ala Ala Arg His Leu Pro Gly Arg65 70 75 80Leu Leu Pro Gln Thr Asp Arg Val Thr Arg Leu Ala Leu Val Ala Ala85 90 95Asp Glu Ala Leu Lys Asp Ala Ala Val Asp Pro Ala Arg Leu Pro Glu100 105 110Tyr Gly Ala Ser Ala Val Thr Ser Asn Ala Thr Gly Gly Phe Glu Phe115 120 125Thr His Arg Glu Ile Arg Lys Leu Trp Thr Glu Gly Pro Ala Arg Val130 135 140Ser Val Tyr Glu Ser Phe Ala Trp Phe Tyr Ala Val Asn Thr Gly Gln145 150 155 160Ile Ser Ile Arg His Gly Met Arg Gly Pro Gly Ala Val Val Val Ala165 170 175Asp Gln Ala Gly Gly Leu Asp Ala Leu Gly Gln Ala Arg Arg Val Leu180 185 190Arg Lys Gly Gly Val Leu Ala Val Ser Gly Gly Val Glu Ser Ala Leu195 200 205Asp Pro Trp Gly Leu Ala Ala His Ala Ser Ser Gly Thr Leu Ser Arg210 215 220Ser Gly Asp Pro Ala Thr Ala Tyr Leu Pro Phe Asp Arg Arg Ala Leu225 230 235 240Gly Thr Val Val Gly Glu Gly Gly Ala Leu Leu Thr Leu Glu Thr Pro245 250 255Arg His Ala Glu Glu Arg Asp Ala Pro Arg Ile Tyr Gly Glu Leu Ala260 265 270Gly Tyr Ala Ala Thr Phe Asp Pro Pro Ala Gly Ser Gly Arg Pro Pro275 280 285Gly Leu Glu Arg Ala Ala Arg Leu Ala Leu Ala Asp Ala Gly Leu Ala290 295 300Pro Gly Asp Val Asp Val Val Phe Ala Asp Ala Ala Gly Leu Pro Ala305 310 315 320Ala Asp Ala Ala Glu Ala Ala Ala Leu Arg Ala Leu Phe Gly Pro Gly325 330 335Gly Val Pro Val Ser Val Pro Lys Thr Gln Thr Gly Arg Leu Ala Ser340 345 350Gly Gly Pro Ala Leu Asp Val Ala Ala Ala Leu Leu Ala Leu Arg Asp355 360 365Gly Leu Val Pro Pro Ala Val His Leu Asp Glu Val Asp Pro Ala Tyr370 375 380Gly Leu Asp Leu Val Arg Asp Thr Pro Arg Ala Leu Pro Leu Arg Thr385 390 395 400Ala Leu Val Leu Ala Arg Gly His Gly Gly Phe Asn Ala Ala Val Val405 410 415Val Arg Gly Arg Arg Arg Pro Arg Thr Ala420 425(2)SEQ ID NO14的资料(i)序列特征(A)长度83个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO14Met Ser Ala Leu Thr Val Asp Asp Leu Lys Lys Leu Leu Ala Glu Thr1 5 10 15Ala Gly Glu Asp Asp Ser Val Asp Leu Ala Gly Glu Leu Asp Thr Pro20 25 30Phe Val Asp Leu Gly Tyr Asp Ser Leu Ala Leu Leu Glu Thr Ala Ala35 40 45Val Leu Gln Gln Arg Tyr Gly Ile Ala Leu Thr Asp Glu Thr Val Gly50 55 60Arg Leu Gly Thr Pro Arg Glu Leu Leu Asp Glu Val Asn Thr Thr Pro65 70 75 80Ala Thr Ala(2)SEQ ID NO15的资料(i)序列特征(A)长度160个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO15Met Thr Thr Thr Thr Pro Pro Asp Asp Val Arg Ala Gly Ser Leu Pro1 5 10 15Gly Asp Ala Ala Arg Ser Ala Ala Leu Tyr Thr Glu Val Gln Ala Phe20 25 30Tyr Ala Arg Gln Ala His His Leu Asp Ala Val Arg Ala Glu Glu Phe35 40 45Ala Ala Thr Phe Ala Ala Glu Gly Val Phe Ala His Ser Pro Asp Thr50 55 60Pro Ala Ala Arg Gly Arg Ala Ala Ile Ala Glu Glu Val Arg Gly Phe65 70 75 80Asn Ala Arg Arg Phe Ala Asp Asp Pro Val Gln Arg Arg His Trp Phe85 90 95Ser Met Leu Asp Val Arg Pro Gly Glu Asp Gly Ala Val Glu Thr Glu100 105 110Phe Tyr Ala Leu Val Val Val Thr Arg Pro Asp Ala Ala Leu Pro Val115 120 125Ile Gly Pro Ser Cys Val Val Arg Asp Val Leu Val Arg Glu Gly Gly130 135 140Glu Leu Arg Thr Leu Ser Arg Gln Val Thr Gln Asp Arg Thr Leu Leu145 150 155 160(2)SEQ ID NO16的资料(i)序列特征(A)长度274个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO16Met Thr Thr Ala Ala Pro His Thr Arg Pro Gly Glu Ala Gly Thr Thr1 5 10 15Arg Gly Pro Ala Leu Val Thr Gly Ala Thr Arg Gly Ile Gly Leu Ala20 25 30Val Ala Glu Ala Leu Val Ala Arg Gly Tyr Pro Val Val Val Cys Ala35 40 45Arg Asp Ala Glu Ala Val Ala Arg Thr Val Lys Glu Leu Ala Ala Gly50 55 60Gly Ala Arg Val Glu Gly Val Val Ala Asp Val Thr Asp Ala Ala Ser65 70 75 80Val His Glu Leu Val Ala Thr Thr Val Ala Arg Phe Gly Pro Val Glu85 90 95Val Leu Val Asn Asn Ala Gly Arg Ser Gly Gly Gly Val Thr Ala Glu100 105 110Leu Ser Glu Ser Leu Trp Asp Asp Val Ile Ala Thr Asn Leu Lys Ser115 120 125Val Phe Leu Val Thr Arg Glu Val Leu Thr Thr Gly Gly Met Thr Gly130 135 140Arg Gly Arg Gly Val Val Asn Ile Ala Ser Thr Gly Gly Lys Gln Gly145 150 155 160Val Val Phe Gly Ala Pro Tyr Ser Ala Ser Lys His Gly Val Val Gly165 170 175Phe Thr Lys Ala Leu Gly Leu Glu Leu Ala Arg Ser Gly Ile Thr Val180 185 190Asn Ala Val Cys Pro Gly Tyr Val Glu Thr Pro Met Ala Ala Gly Val195 200 205Arg Arg His Tyr Ala Asp Leu Trp Asp Val Thr Glu Glu Asp Val Leu210 215 220Ala Arg Phe Glu Ala Lys Ile Pro Leu Gly Arg Tyr Thr Arg Pro Asp225 230 235 240Glu Val Ala Ala Leu Val Asp Tyr Leu Val Thr Asp Ala Ala Ala Ala245 250255Val Thr Ala Gln Ala Leu Asn Val Cys Gly Gly Leu Gly Asn Tyr260 265 270(2)SEQ ID NO17的资料(i)序列特征(A)长度331个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO17Met Thr Thr Thr Thr Thr Gly His Gln Arg Pro Gly Ser Ala Glu His1 5 10 15Ser Ala Arg Leu Ala Ala Pro Pro Ala Ser Ala Tyr Glu Leu Val Ala20 25 30Asp Val Thr Arg Trp Pro Leu Leu Phe Thr Pro Cys Leu His Ala Glu35 40 45Val Leu Glu Ser Gly Pro Gly Thr Glu Arg Val Arg Leu Trp Ala Leu50 55 60Thr Gly Glu Gln Val Arg Gly Trp Thr Ser Arg Arg Thr Leu Asp Ser65 70 75 80Glu Gly Leu Arg Val Gly Phe Arg Gln Glu Asp Ser Ala Pro Pro Leu85 90 95Ala Ala Met Gly Gly Glu Trp Arg Phe Thr Glu Glu Gly Glu Asp Thr100 105 110Arg Ala Val Leu Ala His Asp Trp Thr Leu Thr Glu Pro Gly Ala Ala115 120 125Pro His Arg Trp Val Thr Glu Thr Leu Asp Arg Asn Ser Thr Ala Glu130 135 140Ile Gly Ala Val Thr Ala Trp Ala Ala Arg Thr His Ala Ala Gly Gly145 150 155 160Ala Asp Ala Leu Leu Phe Ser Phe Thr Asp Ser Leu Asp Ile Ala Ala165 170 175Pro Ala Pro Asp Val Tyr Ala Phe Leu Asp Ala Ala Asp Gln Trp Pro180 185 190Ala Arg Leu Pro His Val Ser Arg Val Ala Phe Ser Thr Thr Pro Ala195 200 205Thr Pro Leu Thr Ala Gly Ala Glu Val Gln His Leu Glu Met Glu Thr210 215 220Arg Ala Asp Asp Gly Thr Arg His Leu Thr Arg Ser Ile Arg Leu Gly225 230 235 240Phe Ala Gly Arg Leu Leu Val Tyr Lys Gln Thr Thr Leu Pro Ala Pro245 250 255Leu Leu Gly His Ala Gly Ser Trp Ala Leu Glu Pro Leu Pro Gly Gly260 265 270Gly Thr Arg Val Thr Ala Arg His Arg Val Ala Leu Asp Pro Asp Ala275 280 285Val Thr Glu Arg Phe Gly Ala Gly Thr Thr Leu Ala Ala Ala Arg Asp290 295 300Thr Val Arg Ala Leu Leu Gly Gly Asn Ser Arg Arg Thr Leu Glu Ala305 310 315 320Ala Arg Ala His Thr Glu Ser Ala Gly Glu Arg325 330(2)SEQ ID NO18的资料(i)序列特征(A)长度314个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO18Met Thr Thr Thr Gly Pro Ala Thr Pro Leu Ala Pro Gly Pro Ala Ser1 5 10 15Ala Glu Thr Val Ala Leu Ala Asp Gly Val His Ser Trp Leu Gln Pro20 25 30Asp Gly Gly Trp Cys Val Ser Asn Ala Gly Ile Leu Leu Ala Pro Asp35 40 45Arg Val Ala Leu Val Asp Thr Ala Ala Thr Glu Ala Arg Ser Arg Ala50 55 60Leu Gly Ala Ala Val Ala Gly Leu Ser Pro His Pro Val Arg Leu Leu65 70 75 80Val Asn Thr His Phe His Gly Asp His Ser Phe Gly Asn Gly Ile Leu85 90 95Gly Lys Asp Ala Val Ile Val Ala His Glu Arg Thr Arg Thr Glu Met100 105 110Ala Glu Ala Gly Leu Gly Leu Thr Gly Leu Trp Pro Gly Val Asp Trp115 120 125Gly His Val Asp Pro Val Leu Pro Gln Leu Thr Tyr Arg Arg Arg Leu130 135 140Thr Leu His His Gly Asp Leu Arg Val Glu Leu Ile His Pro Gly Pro145 150 155 160Ala His Thr Thr Asn Asp Thr Leu Val Trp Leu Pro Glu Gln Arg Val165 170 175Leu Phe Ala Gly Asp Val Leu Leu Pro Gly Ala Thr Pro Phe Val Leu180 185 190Met Gly Ser Val Thr Gly Ser Leu His Thr Leu Arg Leu Leu Arg Arg195 200 205Leu Gly Pro Arg Val Val Val Gly Gly His Gly Pro Leu Ala Gly Pro210 215 220Glu Val Ile Glu Glu Thr Glu Arg Tyr Leu Leu Arg Leu Arg Arg Ile225 230 235 240Ala Thr Glu Gly His Ala Ala Gly Leu Thr Pro Leu Glu Ala Ala Arg245 250255Arg His Gly Pro Gly Pro Phe Ala His Trp Ser Glu Pro Glu Arg Leu260 265 270Ala Ala Asn Leu His Arg Ala Tyr Ala Glu Leu Gly Pro Ala Pro Leu275 280 285Gly Thr Pro Leu Asp Val Leu Ala Cys Phe Gly Asp Leu Ile Ala Tyr290 295 300Asn Asp Gly Glu Leu Pro Val Ser His Ala305 310(2)SEQ ID NO19的资料(i)序列特征(A)长度305个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO19Met Thr Gly Arg Val Thr Gly Thr Met Ala Gly Pro Leu Pro Gly Thr1 5 10 15Val Leu Val Ala Gly Ala Ser Gly Ala Val Gly Gly Arg Leu Val Ser20 25 30Arg Leu Leu Asp Ser Gly Val Pro Val Arg Ala Leu Val Arg Ser Ala35 40 45Ala Arg Gly Arg Ala Leu Ala Ala Val Gly Ala Glu Thr Val Val Gly50 55 60Asp Leu Ala Asp Thr Ala Ser Leu Ala Ala Ala Leu His Gly Val Glu65 70 75 80Arg Ala Phe Leu Leu Leu Gln Asp Glu Ala Gly Ala Pro Phe Ala Arg85 90 95Ala Ala Ala Lys Ala Arg Gly Leu Arg Glu Val Val Val Leu Ser Ala100 105 110Thr Ala Ala Ala His Pro Glu Tyr Asp Asn Pro Met Phe Gln Lys His115 120 125Val Arg Gly Glu Arg His Val Arg Gly Ser Gly Val Pro Trp Val Phe130 135 140Leu Arg Pro Gly Ala Phe Ala Ser Leu Ala Leu Leu Trp Ala Pro Ala145 150 155 160Leu His Gly Asp Gly Val Val Arg Val Pro His Ala Gly Leu Ala Val165 170 175Pro Leu Ile Asp Pro Arg Asp Ile Ala Asp Val Ala Ala Ala Val Leu180 185 190Thr Ala Pro Val Glu Arg Trp Ala Gly Lys Ala Val Pro Leu Ser Gly195 200 205Pro Glu Val Leu Thr Leu Pro Gly Arg Thr Ala Val Leu Ala Ala Glu210 215 220Leu Gly Arg Pro Leu Arg Val Glu Pro Val Pro Glu Glu Glu Trp Val225 230 235 240Gln Leu Thr Ala Arg His Ile Pro Glu Pro Tyr Ala Arg Ala Leu Ala245 250 255Gly Val Glu Arg Phe Phe Thr Glu His Pro Pro Ala Val Ser Pro Gly260 265 270Val Thr Asp Val Thr Gly Arg Pro Ala Arg Ser Phe Ala Thr Trp Val275 280 285Arg Asp His Ala Ala Ser Phe Ala Pro Gly Pro Pro Thr Val Val Gly290 295 300Gly305(2)SEQ ID NO20的资料(i)序列特征(A)长度396个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO20Met Thr Glu Gln Ser Thr Thr Leu Ala Ala Pro Ala His Ala Glu Arg1 5 10 15Thr Gly Arg Arg Thr Lys Gly Pro Gly Arg Pro Pro Asp Arg Ser Arg20 25 30Asn Gly Pro Gly Arg Ser Pro Arg Ser Arg Pro Gly Thr Arg Ala Ala35 40 45Val Arg Arg Ser Gly Val Ser Pro Gly Lys Ser Ser Ala Gly Ile Val50 55 60Ala Ala Gly Phe Ala Arg His Phe Val Pro Ala Ala His Gly Gly Ala65 70 75 80Glu Gly Gly Phe Gly Glu Leu Ala Glu Ala Val Leu Arg Leu Gly Thr85 90 95Gly Cys Thr Ser Ala Ala Trp Ala Ala Ser Leu Ser Ala Tyr Ala Gly100 105 110Arg Tyr Ala Ala Tyr Leu Pro Glu Glu Gly Gln Ala Glu Val Trp Ala115 120 125Glu Gly Pro Asp Ala Leu Leu Ala Gly Ala Leu Val Pro Ser Gly Thr130 135 140Val Thr Pro Val Pro Gly Gly Trp Arg Leu Asp Gly Ala Trp Pro Tyr145150 155 160Ile Ser Gly Val Arg His Ala Ala Trp Val Leu Ala Cys Ala Thr Val165 170 175Pro Gly Gly Glu Gly Glu Glu Gly Pro Glu Val Arg Phe Phe Ala Gly180 185 190Pro Arg Ala Ala Pro Arg Val Glu Arg Thr Trp Asn Thr Thr Gly Met195 200 205Arg Ala Thr Gly Ser Asp Thr Leu Val Leu Asp Asp Val Leu Val Pro210 215 220Ala His Arg Ser Phe Pro Arg Thr Arg Val Leu Ala Gly Gln Arg Pro225 230 235240Arg Val Ala Gly Ala Val Pro Thr Val Arg Met Ala Arg Val Gly Ala245 250 255Leu Pro Val Val Thr Pro Leu Val Gly Ala Ala Arg Gly Ala Leu Arg260 265 270Ala Trp Thr Glu Arg Ala Ala Gln Gly Arg Ala Pro Ser Pro Gly Ala275 280 285Leu Gly Glu Leu Ser Arg Ala Ala Gly Glu Ala Asp Ala Ala Glu Leu290 295 300Leu Val Leu Arg Ala Ala Ala Ala Ala Asp Gly Thr Val Ser Leu Pro305 310 315 320Glu Pro Ala Ala Ala Val Arg Gly Lys Arg Asp Thr Ala Leu Ala Ala325 330 335Glu Leu Ala Val Gly Ala Val Gln Arg Leu Val Arg Ala Ser Gly Thr340 345 350Ser Gly Gln Ser Pro His Asp Pro Val Gln Arg Phe Trp Arg Asp Val355 360 365Gln Thr Gly Ala Ser His Val Ala Leu Ser Pro Glu Ala Ala Gly Ala370 375 380Ala Tyr Gly Ala Trp Ala Val Gln Glu Ala Asn Arg385 390 395(2)SEQ ID NO21的资料(i)序列特征(A)长度108个氨基酸(B)类型氨基酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO21Met Ser Gly Gly His Met Val Thr Met Ile Asn Gln Met Leu Leu1 5 10 15His Gly Asp Glu Ser Arg Phe Leu Ala Val Leu Glu Glu Ile Cys20 25 30Ala His Met Arg Ala Gln Pro Gly Phe Leu Ser Leu Arg Leu His35 40 45Arg Ser Pro Asp His Pro Glu Arg Trp Ala Met Leu Ala Asp Trp50 55 60Ser Asp Ala Ala Ala His Arg Ala Ala Ala Ser Ala Pro Gly Ile65 70 75Arg Pro Ala Phe Ala Arg Leu Arg Ala Glu Ala His Thr Ala Pro80 85 90Gln Val Tyr Ala Pro Val Pro Thr Pro Gly Ala Pro Ala Gly Asp95 100 105Ser Leu Ala(2)SEQ ID NO22的资料(i)序列特征(A)长度24379个碱基对(B)类型核酸(C)链数单链(D)几何结构线性(ii)分子类型蛋白质(iii)假设的不是(iv)反意义不是(ix)序列描述SEQ ID NO22CAATTGCCAT GGAATGCCCG GTTATAAGGG AAGTGGAATG TGTCACCGCC GTCGTCGCGT60GGGGCGGTGG GCGGCTAATG TGAGCGATCC CGGTGGCCGC GACCGTACTC ATCGCGGCGC120GTCACCGATT GACCCGAGTG CCTCCCGCCG CGTCTCCACC CCACCTGGAG GGCGGGTCGG180CGCCGCGTGC CCCGTGACGG AGGATTTGGA CAACCGTGGA CGCGCAAGGC CGTGGGCGGG240GGGAAGAATT CGACCCCGCA GACCAATGGG TACTCAATCC GCAGACCGGC GAATACGAAC300TGCGACTCGG CGGCTCCGCT GAGCAGTCGC AGGAGCCGCC GGGGTCCGGC GGCGGGGCCT360GGGACCACGT CGACGGGTCC GCGCGTCCCC GCAGAACCGA GCCGTACCGC TCCGAGCCCC420GGGTGTCCGA GGCAGCGGCG GCTCCCCGCG CACGGAGAAC GCCCCGCGCG CATGGCGGTC480GCGCGGCGGC GCAGTAGGAG GCGGCGGCCG GCGGTCGTCC CTCGGCCCGC AAACAGGCTT540CCGGGCGGGC CGCCTCGCGC AAGGCGCGCA AGGGCGGCGG CAAGAAGAAG GCGCTGCTGT600GGACGGCCGG GGGGCTCGGT TTCGCGCTCG TCGCGGTGGC CGGCAGCGGC TACGCGTACT660ACCAGCACCT CAGCGGCAAC ATCGACAAGA TTGACGTCGG CGACGCGGGC AACAAGGACG720CCGCCCCCGA CGGGCCGATC AACATCCTGA TCATCGGCAC CGACAAGCGC ACCGGCAAGG780GCAACGAGGG GTGCGGGGGC AAGGACAGCC CTGGCCACGC GGACACCAAC ATCTTGCTGC840GCGTCTCCGC CGACCGCACC AACACGACCG GCCTGAGCAT TCCGCGTGAC CTCATCACGA900ACATCCCGGA CTGCCTGACC ACCCAGGACG ACGGTTCGAA GAAGACGATC CCCGGCACGC960AGAACGTCCG CTTCAACACG AGCCTCGGGC AGGAGGGCCG CGACCCCGGC TGCACGATGC1020GCACGGTCAC CGAGCTGACC GGGCTCAAGG TCGACCACTT CATGATGGCC GACTTCAACG1080CGGTCAAGAA CCTGACGACG GCCGTGAACG GCGTCGAGGT GTGCGTGGCG AAGGACGTCG1140ACGACCCCGA CTCGCACCTC AAGCTCTCGG CGGGGACGCA CAAGGTGCAG GGCGAGCAGG1200CGCTCGCCTT CGTCCGCACC CGGCACAGCT TCGGCAACCA GGGCGACCTC GACCGCATCA1260AGGTCCAGCA GCAGTTCCTC GGTTCGCTCG CGCGGCAGCT CAAGTCCGAG GACACGCTGA1320CGAGTCCGAA GAAGCTCTAC AAGGTCGCCG AGGCGGCGAC CGACGCGCTG ACCGTGGACT1380CGGGGATCGG CAGCATCACG AAACTGATGT CGCTGGCCAA GGAGTTGCAG CACATCAATC1440CGAAGAACAT CACCTTCGTG ACGCTCCCCG TGGTCGACAA CCCGGCCGAG AAGGTCAAGG1500CGACGGTCGT CCTCAATGAG ACGGACGCTG ATCCGCAGCA GTCGGCTCTC GGGCAGAGTC1560TCGACGTGGG CCGCCAGCTC GTCGACTCGC TCACCGACCA GGACCCGCGC GACGGCAAGA1620CCGTCCCGTG GCTCGCGACG CGCTGGAAGG CCGACCCCGA GGCCACCCGC TTCACCTTCA1680CCCTGCGCGC GGGCGCCACT TTCAGCGACG GCACACCGGT CGACGCGCGC GCGGTCAAGG1740CCAACTTCGA CGCCGTGCAC GAGCTCGGCG CCGCCGCCTC GCGGGGGGCC GTGTACCTCG1800ACGGCTACCG CGAGACGCGC GTCAGCGGCG CCCGTACGCT CACGGTCGTC TTCGACAAGC1860CGAACGCCCA GTTCCTGCGC GGCACGTCCA CCGTCTCACT GGGCCTGCTC TCGCCGGGCA1920GCCTGCGCCG CACCCCGCAG GAGCGCTGCA CCGGGCGCCT CGTCGGCTCC GGTCCCTTCG1980TGCTCGACCG CTACCGGCCG AACACCTCCG TCACGCTGGA CCGGAGAAAG GGCTACTCCT2040GGGGCTCGCG CCTGTGGCAA CGGGAGGGCG GCGCGTACCT GGAGGGGGTC GAGTACCGGA2100TCGTGCCCGA GAACACGACC CGCTCGGGCG CCCTGTCCGC CGGTCAGCTC GACGTCGCCA2160CCGCGCTCGC GCCGCAGGAC AGGGAGCGGT TCTCCGCCCC CGGCTGGTCG CTGCTGACCC2220GTACCGCGCC CGGCGTCGAC CTCAGCCTGT ACGTCAACGC GCGCCGCACG GCGCTGCGCG2280AGGCGGCGGT GCGCCAGGCC CTCCAGAAGG GCATCGACCG CGAAGCCGTC GCCACGACCT2340TCCTCAGTTC CCGCAAGCTC GCGGCGACCA GCGTGCTCTC CTCCACGACC CCCGGCTACA2400CCGACCTCGG CGACCGCCTC GCCCACGACC CTGCGGGTGC GAGGCGGCTG CTCGACAAGG2460CCGGATGGCG GCCCGGGGCG GACGGCATCA GGGTCAAGAA CGGCGTCAGG CTGCGACTCG2520ACGCCGTCTT CGTCCGGCAG CAGAGCCTCG AACTCGTGCA GCAGCAGCTC AAGGACATCG2580GCGTCGAACT GCGGCTGAGA CAGCTCACCG TCTCCCGTTT CCCCGAAGTG CTCGCCGCGG2640GCAGCTACGA CCTGAGCCTC CAGAGCGCCA ACCGCGCCGA TCCCGACGTC CTCACCACGG2700CCTTCGCGGG CGGCACCCCC GTCGCCGACG CGCGCCTGCG CTCCGAACTG CGCCGGGCCA2760CCTCCTCCAC CGACGAGGCG ACGCGCTCCT CGCTCTTCGC CGCGGCGCAA CGGCGTCTCG2820TCGACGAGGG GCACGTCCTG CCGCTCAACG AGACCGAGGA GACCGCCGCG CTCTCGACGC2880GGGTGCACGG GCTGACGCGG GACGCCTCCA ACCGGCTGGT CCTGCACGAC ACCTGGACCA2940CCGGGTGACG GCCCGCTACC TGGCCCGCCG GCTGGGCCGC GTCGTCCTCG TCGTCTGGGC3000CGCGTACACC CTGTCCTTCG CCGTCCTCTA CCTGCTGCCG GGAGATCCCG TGCAGACCAT3060GCTGAGCGGC GCGGCGGGCG GGGACGGGGC GGCCGTCGAC CCGCACGAGG CCCAGCGGCT3120GCGCCACACG CTCGGCCTCG ACCGCCCGCT CGCCGTCCAG TACACCAGCA TGCTGGGGCA3180CGCCCTGCGC GGAGACCTCG GCACCTCGAT CCGCAGCGGG GCGCCCGTAC GCGGGCAACT3240CGCCCAAGCG CTGCCCGACA CCCTCTCGGT GGCCCTCCCC GCGCTCGTCC TCAGCGTGCT3300CGTCGCGCTC TGCCTCGCCC TCCTCGGGGC CTGGCCCCGG CGACGAGCCC TGCGCAGGGC3360GGCGACCGCC CTGCCCTCGC TCGGCACCGC GATGCCCAGC TTCTGGCTGG GGCTGCTCCT3420CGCCCAGTGG GTCTCCTTCC GCTGGGGACT GCTCCCCGCC ACGGGCGGCG GGCGCTCGCC3480CCGGGCCACC CTGCTGGCCG CGCTGACCCT CGCCCTGCCC ATCGGCTGCG TGCTCGCCCA3540GGTGCTGGGG AGGGGCCTGC GCGCCGCGCT CGCCGAGCCG TACGCGGACG TGGCGCGCTC3600GCGCGGCGCG GGGCGGGCCA GGCTGCTGCT CGCGCGCGCG CTGCGCAACG CCTCGGTGGC3660CGCCCTGGCC CTGCTCGGCG TCGTGTGCGG GCAACTCCTC GCCGGGGCCG TCCTGGTGGA3720GACCGTCTTC GCCAGGGGCG GCATCGGGCG CCTCGCCATG GACGCCGTCA CCTACCAGGA3780CCTGCCCGTC GTGCAGGGCG TGGTGGTGCT CGCCGCCCTC GTCGCGGCGC TGGTCAACCT3840CGTGGTGGAC CTCCTCCTCC CGCTCCTCGA GCCGCGTACC GCCTCGGAGG CCGCCGATGC3900CGTCCCTGCC CACTGACTCC CCGGGCCCCG CCCCGTACCC GGCCCCTCCC GCCCAGCCGG3960TCACGGACCG CGCCGAGGGC CCGGAGCCCC GGGAGGCGGG AGCGCGCCGC GCGGGCCGCG4020TGGCGCTCCG GCGCGTCGCC GCGCTGTGGC GGGCGCCCGG ACTGGCCCTG TCCCTGCTCG4080TCCTCCTGCT CGTCCTCGGC TGGGCGCTGC TGCCCGGCCT GTTCACGGCG GCCGACCCTC4140TGCGGGCCGA CGCCGCGCAC CGCCTGCTCG CCCCCGGCGC CGGACACCCG CTCGGCGCCG4200ATCACGTCGG CCGCGACCTC TACGCGCGGG TCGTGCACGG CACCGCGCGC TCGCTGGGCA4260CGGCGTTCGC CGCCGTCGCG CTCGGGGTGC TCGCCGGCGG TGCGCTCGGG GCCGTGGCCG4320GAGTGGCGGG GCGCGCGGTG GACGCCGTCG TCATGCGCGT CGTGGACGTC CTCCTGGCCG4380TCCCCGGGCT GCTGCTCTCG CTCGCGGTGG TCTCCGCGCT CGGCTTCGGC ACCGCGCAGG4440TCGCCTGCGC GGTCGGCGTG GGCACCGTCG GCGGGATCGC CAGGGTGAGC CGTGCGCAGG4500TGCGGCGCGT GCGCGGCGGC GAGTACGTCG AGGCCGCGCG CCTCGCCGGG GTCGCGGGGC4560CGCTGATCCT GCTGCGCCAC ATCGTGCCCA ACGCGGCTCC GCCCGTGCTC GCGCTCGCCG4620TCACCGAGTG CGGCACCGCG GTACTCGGCG TCGCGTCCCT CGGCTTCCTC GGCTTCGGCG4680CGCCGCCGCC CGCCCCGGAG TGGGGCGCCC TCATCTCCAC CGGCCGGGAC TACCTCGTCT4740CCGCCTGGTG GCTCACCACC CTGCCGGGCC TCGTGCTCGT CGCCCTCGTC GTCGCCCTGC4800ACCGCGTCGG CCGCGCCCTG GAACGAGAGG AACGCACCGG ATGACCCCGG CGGACAAGCC4860GACCGACGAG CGCTCACCTG TCCTGGACCT CAGTGGTGTC AGCGTCGCCT ACGGGACGCG4920CACCGTGCTG CACGGCATCG ATCTGCGCCT CGCGCCGGGG CAGGTGCTCG CGGTGCTCGG4980CGCCTCGGGT TCCGGCAAGA GCACCCTCGC GCAGGCGGCT CTCGGCCTCC TGCCCCCCGG5040CGGCCGGGTG ACGGCAGGGC GCGTCACGGT CGCCGGGCAC GACATCACCG CGCTCGCGCC5100GCACCGGCTG CGCGCGCTGC GCGGCACGGT CACCGGACTC GTGCCGCAGG ACCAGGCGGT5160CTCCCTCGAC CCCCTCGTCC GCGTCGGCGC GCAGGTCACC GAGACGCTGC GCGCCCATCG5220CCTGGAGGAC CGCCGCGAGG CCGCCCGGCG CGCCGTGCCC TTGCTCGGCG AGGCGGGGAT5280CGAGGCCCCC GGGCCGCTCG CCCGCGCCTA CCCGCACGCG CTCTCCGGCG GCCAACGCCA5340ACGCGTCCTC GTCGCCGGGG CCTTCGCGGC CCGCCCCCCG CTGGTCGTCG CCGACGAGCC5400GACGAGCGCG CTCGACGCGA CCGTGCGGCG CCGGGTCATG GACCGCTTCG CCGCCCTCGT5460CGCCGCGCAC GGCACGGCCG TCCTCCTCGT CACCCACGAC TTCCGGCTCG CGAGGGAACG5520CGCCGACCAG GTCGCCGTCC TCGCGGACGG CCGTCTCGTG GAGAGCGGCC CCGCCGCACG5580GGTCCTCGAC CGGCCCGCCC ACCCGTACAC CCGCCGCCTC ACGGGGGCCG GCCGCCGCGT5640GGCCGCACGG GGCACGGCGC CGCGCGCGTC GGGCACCCCC GTGGTGCGCG CCCGCGACCT5700CGTCAAGGAG TACCGGCGGG ACGGGCGGCG GGTGCGCGCC GTGGACGGGG TCGGCTTCAC5760GGTCCGCGAA GGCGAGTTCT TCGCCCTCGT CGGCGAGTCG GGCTCGGGCA AGTCCACGAC5820CGCCCGGCTC GTGACGGGTC TGACCGCGCC CACGTCGGGC GCGGTGGAGC ACGCGCCCGC5880TCCGGTGCGG CCCCAGCTCG TCCAGCAGAG CCCGTACGCG GCCTTCGACC CGCGCTGGAC5940CGTGCGCCGC ATCGTGGAGG AGCCGCTGCG GGCGCGGCAC GTGCCCGGGG CGCGGCGGCG6000GGCGCGGCTG CGCGAACTGC TCGCGCTCGT CGGCCTCGAC GAGGAGCTGC TCGCGCGGCG6060GCCCCGGGAG CTGTCCGGCG GGCAGCGGCA GCGGGTGGCG CTCGCCCGCG CGCTCGCCCC6120GGAACCGCGC CTGCTCGTGT GCGGCGAACC CGTCGCCGCC CTCGACCCCG TCGCGCGCGA6180GCGCGTCGTC CACCTCCTGG AGCGGCTGCG GGCGGAGCTG GGCCTCACGT GCCTCTTCGT6240CTCCCACGAG CTGGACGTCG TGCGGCGGTT GTGCGGTCGC GTCGCCGTCA TGCGGGGCGG6300GCGGCTACTG GAGAGCGGAC CGGTGGGGGA GGTGCTGTCG GCGCCCTCGC AGCCGTACAC6360GCGGGCGCTG CTCGCCGCGG AGGCGGGCCC TTCCGACACG CCCGGAGCGG GGTGAGCTGC6420GTCACGTCGG GAGGGGCTTG CGCGGCCCCC GCCAGCCCGC CTACGCGAAG GGAGGGGGCT6480TACCTGGAGG TATGGGCTTA CCCGGGGAAA GTCTGCAGCC TAGGCTCGCC CCGTGAACGA6540GATCACTGTC GAGATCTGGA CCGACGTCGT CTGCCCGTGG TGCTACATCG GCAAGCGGCG6600CTTCGAGCGG GCGCTGGCCG CCTTCGACGC GAAGGAGGAC GTGCGCGTCC ACTGGCGCAG6660CTTCGAACTC GACCCCGCCG CCCTGCGGGT CACCGACGAG ACCATCCCCG AGCGCATGCT6720GCGCCGCCAG GGCATCCCGC CCGAGCAGGC CGCCGAACTC CTCGCCGGGG TGAGCGCCCA6780GGCCGAGGCC GAAGGGCTGG AGTACCACCT CGACCGCGCC CGGCCCTGCA ACACCTTCGA6840CGCGCACCGG CTCGCCCACC ACGCGGGCAC GCGGGGCCTC GCGGAGACCT TCCAGGAACG6900GCTGATGTGC GCCTACACCG CCGAGGGCGT CTCGGTGGGC GACCACCCCA CCCTGCTGGC6960CCTCGCCGAG GAGGCGGGGC TCGACGCGGC CGCCGCCGCC GAGGTGCTGG CCGGTGACGC7020GCACGCCGAG GACGTACGGG CCGACGAGGA CCGGGCCGCC CGGCTCGGCG TCGGAGGGGT7080GCCCGCCTTC GTGATCGGCG GACGCTGGTC CGTCTCGGGC GCCCAGCCCG CCGAACTCCT7140CACCGGTCTC CTGGAACGGG CCCGGACCGC AGCCGCCGCC TGACGGTCAC CCGGACCGTC7200CGCGGGGCGG ACGCGGCCGG GTACCGCGCC GCAGTCTCCG CACCCCGCTT CACCCCTCCA7260CGCCCGCACC GGTCCCGTCC GCCCCCGGGC CGTCCCGCCC GGGGGCCGGT CGCCCCTTCC7320GCCGTCCCAA GGAAAGCGTC GCCATGTCCT CCTCCCCGCC CGCCCCCGCC ACCCCGGGCG7380TTGCCCCGCA CTCGCCGCCC GCTCCGCGCC TCGGCCTCGT GCTCCTCGTG TGCTGCCTGG7440CGCAGTTCCT CGTGACGCTC AGCGTCGCCA TCGTCAACGT GGCGCTCCCC GACATCCAGC7500GCGGGCTCGG CTTCAGCGCC GAGAGCCTCC AGTGGGTCGT CAACGCCTAC ACCGTCACCT7560TCGCGGGCTT CCTGCTCCTC GGCGGACGGA TCGCCGACCT CTTCGGGCGG CGCCGCATCT7620TCCTCGCGGG TGTCGCGCTC TTCGCCCTCG CGAGCCTCGC CGGGGGCCTA AGCCAGAACG7680CGGGGACCCT CGTCGCCGCG CGCGCCGTGC AGGGCCTCGC CGCCGCCGTC ATCGCGCCCA7740CCACCCTCGC CGTGCTCGGC ACGAGCTTCA AGGACCCGCA CCAGCGCCAC CGCGCCTTCG7800GCGCCTGGGG CGCGGTCTCC GGTGCGGGCG GCGCCTTCGG CGCCCTCGCG GGCGGCGCGC7860TCACGGACGC GTTCTCCTGG CGCTGGGTGC TCTTCGTCAA CCTCCCGATC GGCGTGCTCC7920TGCTCGCCGG GATCGCCTGG GGCATCAGCG AGTTGCGGCA CGCGGGCGAG GACCGCCGCA7980TCGACGTCGC GGGCGCCCTC ACCGTGACGC TCGGTCTCCT CGCGCTCGTC CTCGGCATCG8040TGCAGAGCGG CCCGCACGGC TGGGGCTCCG CCGCCACCCT CGTCCCGCTC CTCGGCGGCC8100TCGCCCTGCT CGGTGCCTTC GTTCTCGTCG AGGGGCGGTT CGCGCCGCAG CCGCTCATAC8160CGCTCGGCAT CTTCCGCTCC CGCTCCGTCG TCGCGGCCAA CGTCGTGGCG ATGACCAGCG8220GCGCCGCGCT CTTCAGCATG TTCTACTTCC TCACCCTCTT CCTCAACCAG GTACGGGACT8280ACAGCCCGCT GCGCACCGGC TTCGCCTATC TGCCGCTCGC GCTCGCCATC ATGGTCGCCG8340CGCAGTTCTC CGCCGCGCTC GTGCGCGTCC TCGGCCCCCG TACGACCCTG CTCGTGTCCA8400TGGCTCTCAC CGCCGCCGGA CTGCTCTGGC TCTCGCGGCT CACCGAGGAC TCCGGGTTCG8460CGGGCGGACT CCTCGGCCCG ACCCTGGTCG TCGGCATCGG ACAGGGCATC TCGATGTCCG8520CCTCCGCGAT CGCGGGGGTC GCCGGGGTGC GCCCGCAGCA GGCCGGGCTC GCCTCCGGGC8580TGCTCAACGC GACCCGGCAG CTCGGCGGCG CCCTCGGCCT CGCGGTCGTC GCCGCCGTCG8640CCACCTCGCG CGCCGACGGA CTCCTCGACG GGGTCGCGCG GCCCACGGCG GAACTCGCCC8700GGCACGCCCA GGCGTCCGGG CACCCGCTCT CCATCGCCGT GGCCGCGGCG CTGTCCGCCG8760TCGGCCTGCT CGCCTCGCTC GCCGCCCCGG GCCGCTCTCC GGCCCCCACC GGCACCCGCA8820CGGGCGGCGA CTCCGCCGCA CCGGCTCCCG CGGCGGCCCC CGCCGCCACC GGGACCACCG8880GCCCCGGCGA GATCTGAGCG CTCCCCCCGG TGACCGCCCG CTCCGGCGGG GCGGTCACCG8940GGGACGGCGC GGCCTGCGTA TAAACATGCG CGGGCCTTTT GCATGTGTGG GAAAGATGCG9000GGGCGTGCAC ATAATCACCG GCTTGCGCGC CGCGACTGTG TGCTGCGTCA CGTTTCACGT9060GGTGTCTATA TTTCCCTGTC TATTCTTGGC ACCGCTCGGA GGGGGACCGG TGCGCGCTGC9120CGTTTATCCC GCCGGACGTC ATGATGTCCA CCGGGAGGGA AACGTGGAAA TCAAGTACAT9180GGGTCAGTTG ACCATGCGGT GGGAGGGGCG GGAAAAGCTC CCCTCGGCGC GCAAGCCGCG9240CACCGTGCTC GCCCTTCTGC TCCTCAACGA CAAGACACCC GTCACGACCA GCGCACTCAT9300CACGGAACTC TGGGGCGAGA ACCCGCCGCG CAGCGCCCTG ACCACCCTCC AGACCTATAT9360TCTCCAGCTC CGGAAATGCC TCGCGGCGAT GAGCGGGCGA AGCCTCGCCT GCATATCCGA9420GAAAACCCTG GTGACGTGGC CCTGCGGTTA TCTGGCGCGG CTTCCGGCGG ACGCCACTTC9480GGATGTGGCT GAATTCCGTC GGTTTGCCAG GGAGGGGCGG GAAGCGGAAC GCAGGGGTCA9540TCTTGCCGAG GCCGTCCGCT CCTACCGCGC GGCGCTGTCA CTGAGCCAGG GACCACTCCT9600CGCCGATATC GAGCACGGGC CGCTGCTGCG CGCCGAGGCG GTACGCATGG AGGAGTGCCG9660GCTTTCGCTC GTCGAACGCT CCATCGAGGG CGACCTGCTC CTCGGCCGGC ACCGGGAGGT9720CGTCAGCGAA CTGTCCGCCC TCGTCGCCCA GTACCCCTAC CACGAACAGC TCACGGGGCA9780GCTCATGGTC GCGCTCGTGC GCTGTGGCCG CCGGCAGGAC GCGCTCGCCG TGCACCAACG9840GCTCCGGGCC CGCATGGTGG AGGACCTCGG CCTCGAACCG AGCAGCCACC TGCGCGCCCT9900GCAGTCCGCC GTCCTCAGCG GCGAGCCGCT GCCGGGACCG CCCGGAACCG GTGGCGAGAT9960CCCCACCCCC TACGCGGGCG CTTTCGCCAC CGCGGCGCGC TCGCACGACT GACCCCGCCC10020GGGGCCCGGT CCACCCGTCG CCGTCGCCGG GTGGAAGGGC TGGACGGAGA ACAGGCCCTC10080TCCTTCCCGC CGCCGGGGCC CGCGCTCAGC GCAGCGCGCG AAACCCCCGC TCCCAGTGCA10140CGAGCGGTTC GCCCTCACCC TGCCCCACCC CGCGCACCTC GCCGACGAGG ATCACGTGGT10200CCCCGGCCAG GTGCCGGGCG TGTACCGCGC ACTCCAGCGT GACGAGCGCG TCCGCCGCGA10260CCAGCAGCCC CGAGCCCTCC AGCGCCACGA GCCCCCCGCC CCCGAACTTG TCCGCCCCGC10320GCGTCGCGAA CCGCGAGGCC AGCTCCCGCT GTCCGCTCCG CAGCACGCTC ACCGCGAACC10380GCGCGCACTC CTGGAACGCC CCGTAGGACT GCGCGCCCGT GCCCTGGCAC ACCGACACCA10440GCGGGGGAGC GAGCGACACC GAGCAGAAGG AACTCGCCGT GAAACCGCGG GGGGTGCCGT10500CCTCCTCGCG CGTCGTCACG AGGACCACCC CCGCGGGGAA GCACGACATC GCGGCGCGGA10560AGCCCTCGGC ATCGACCGGC CCGACCTGCC CCGTCCGCGC GGCCGTCCGT GTCTCGTTCA10620CGGGAGCTCC ACCACCTGGG CCGCGTAGTT GAGCCCCGCG CCGAACCCCA CGAGGAGCGC10680GCGGTCCCCG CTGCCCACCT CGCCGGAGTC GAGGAGCGCC TCCAGCGCGA GCGGGACCGA10740GGCCGCCGAG GTGTTCCCGG CGCGCACCAC GTCCCGCGCC ACGGCCGTGC GCTCCGGCAG10800GCCGAGCCGT TCGGCCATCA GCTCGATCAT GCGCAGGTTC GCCTGGTGCG GGACGAAGGC10860GTCCAGCGCC TCCGGCTCGA TCCCGCTCTC CCGCAGCAGT TCCGCCGCCC GCGGGGTCAC10920CTCGTCCATC GCCCAGCGGA ACACCCGCCG TCCGTCCATC CGCATCCACG GCCTGCCGAG10980CGAGGGATCG GCGGCGAACG TGTCCCAGCC CCTGTCCATC CGCAGCGCTC CGGCGTACCG11040GCCCGCCGCA CCACGCGCCG GCGGCGAGAT CCCCGGCCGC GCCGAAGGCC CCACCACAGC11100GGCTCCCGCC CCGTCCGCGA AGAGCACGGA GACGGTGCGG TCCGCACGCT CCACGAGATC11160CGTCATCCGC TCCGTGCCCA CCACCAGGAC GTGCCGGGCG CTCCCGGCGC GCACCGCGTC11220CGAAGCGAGC GCCAGCGCGT GGCAGAAACC GGCGCAGGCG CCGGACACGT CCAGCCCCGC11280CGCCGCCCGC GCGCCGAGGT CCTCGGCGAG GAGCACGGCG AGCGGGGGCG TCTGCTCCAG11340CCGCGACATG CTCGCCACCA GCACCAGATC GATCCCGTCC GGCAGCACCC CCGCCCGCGC11400GAGCGCCTTC TCGGCCGCCG CCCGCCCCAT GAACCGCAAG GTCTCGTCCG GCGCGGCGAA11460GCCGCGCGCA CGGATACCGC TGCGGGTCTC TATCCACTCC GGGGTCGACG CGACCGTGGC11520ACACAGTTCG GCGTTGTCCA CACTGCGCCG GGGCCGGTAA CCCCCCACCC CCAAGAGCCT11580GCTGTGCACG ACAGGCCGCG TACCGAGCAT CTCCGCCTCG CCGGTCACTG TCCCTCCCTC11640CCGCCAGGGG CCCGGTGCCT CCGGCCGCTG ACAGCCTCCG GGCCGCCTCT TGAGCCCGGA11700TCGAGCCGAG ATCGAGACCC CGGCCGGATG CTGGGGCCGT CACTCCCCGG CGCCGGCCGG11760GGGCCGAGGG GACCGGGCTC CGGGTCCCCA GGAAGGAACA CACGCGGCAT GAGCGCCTTC11820ACTCTCACCG AGTTCAAGAA GCTGGTCGAG CAGAGCTACG ACGCCGAATC GGCCGAAGCC11880CTCCACGGGC AGGCCCTCGA CACGAGCTTC ACCGATCTGG GTTACGACTC GCTGACGGTC11940TACGAGATCG TCACCCGCAT CCAGGACGAG CACGGAGTCA CCGTGCCCGA CGAGGAGCTG12000GACCTCCTCG ACACCCCGCG CGCCCTCATC GCGTACGTCG ACGCGCGCGC GGGTTCCCGC12060ACCTGACCCG ACGGGAGGGT GCGGGGAGGG CGGGGCCGGA GCGGGCGGGG CGCGGCGGCG12120GTACGACGCC GCCGCGCCCC GGGCGGCAGG CGCTCAGCCC CCGTCCCGTA CGACCTGACC12180CGCCTGTTGG AGCGCGGCGC GAAAGGCCCG CACGTCGTCC GCGGGGTCGC CGGGACGCGC12240GGGCAGGAGC CGAACGACAC GGGCCGCGCC CGAGCGGACG GCCGGATGAC GGCGCGCCGG12300GGCGCCGAGA CTGCCGTCCG GCGAGGCGTC GAGCAGCACC ACGCCACGCC CGCCGCCCGT12360GGTCGTCGCC GTCGCCGTCG CCGTCGCGAG CAGGTTCCCC AGCGCCGGCC AGTACAGGAC12420GGGGGCGGCG AGCTGACCGC ACCAGAACGC GGCGCGCACC GCCTCGCCCG GCGTGAGCGC12480GCGACCCGTC CGGCCCGACC ACAGGGGCAC GGCGGGTGGC CGCCACCGCG CGACCCGTTC12540CGCGCTCGCC CTGGTCAGAC GCCGCGCCGC CCCGGCGAGG GCGGGGGAGT GGAAGGGTAC12600GTCCGCCTGG AGGCGGCGCG CCGTCAGCCC GTCGTCGGCC AGGCGCCGCG CCACCGCGCG12660CAGCGGCGCC TCCGGCCCGC ACAGCACCGT CTGACGCGGC CCGTTCACCG CGCCCACCAC12720CACGTCGGCC CCCACGTACG GGCGCAGGTC GTCCACCGGC GCGGCCACGG CGAGCATGCC12780CCCGGACGGC GCCGCGCGCA GCACCGCGTC CCGTTCGGCG AGCAGCCGGA GCGCCGCCCC12840CGGCGCGCAC ACCCCGGCGA GCGCGGCGGC GGCGAGTTCG CCGACGCTGT GCCCGAGCAA12900CAGGTGCGGC GCACCCTGCG CCCCCGCGCC GAGCGCCCGC CCGAGCCCGT ACCCCACGGC12960GAAGAGCAAC GGCTGCGCGA CAGCGGCCCG TTCCAGCGCC TCCTCGCCGC CCGCCCCGTC13020CAGCCACCGC GCGCGCAACT CCTCCCCCCA GGTGCCCCAC ACGGCGAAGC ACTCCTCCAC13080CGCGGTCGTG AACTCCGGCA CCACGCCGTG GAGTCCGGCC GCCATCCGGG CCCGCTGCGC13140GCCCTGACCG GGCAGCAGCA GGGCCACCAC CGGGGCGCCC TCCTCCTCCG TACCGCCCTC13200GCTCCGCACT CTTCCGCCTC CTCGTCCCGC CGACTCCTGC CGGTACCGAG CCTCGCCCTT13260GCCGCTCGAC GGCCGGTGGA CTCCCGCTCC AGCGCGGCCC GCCCGGGGCG CCACCGAGCC13320TCAAGCCCGC TTCGAGGGAC GTCTTCCAAG GTCGGGTCGA GGCCGTGAAC GGCACCGCGC13380CGTCCAGGAC GCCCAAGGGG GTCGTGCAGT GAACCGACAA GTCGCCGTCA CCGGCATCGG13440CGTGGTGGCT CCGGGAGGGA TCGGGCGCAA GCCGTACTGG GAGCAGCTCA CCTCCGGACG13500CACCGCCACG CGCGCCATCT CCTTCTTCGA CGCCTCGCCC TTCCGCTCGC GGATCGCCGC13560CGAGGTCGAC TTCGACCCCG CGGCGGCGGG CCTGAGCCCG CGCGAGGTCC GCCGCATGGA13620CCGGGCCGCG CAGTTCGCCG TCGTGAGCGC CAGGGAGAGC CTCGCCGACA GCGGACTCGA13680CGTCGCCGAC CTCGACCCCC ACCGGATCGG GGTGAGCATC GGCAGCGCCG TGGGCGGGAC13740CACCTCGCTG GAACGCGAGT ACCTCGCCCT CAGCGACAGC GGGCGACAGT GGGAACTCGA13800CCTCTCCTAC CTCTCGCCGC ACCTCTACGA CGCCTTCACC CCCAGCTCGC TCGCCCGCGA13860GGTGGCCGGG GTGATCGGCG CGGAGGGGCC CGCGGCAGTC GTCTCCACCG GCTGCACCTC13920CGGCATCGAC TCGCTCGGCC ACGCCCGCGA CCTCATCGCC GAGGGCAGCG CCGACGTCGT13980GCTCGCGGGC GGCACCGACA CCCCCATCTC GCCGATCGCC GTCGCCTGCT TCGACGCCAT14040CAAGGCCACC TCGCCCAGCA ACGACGACCC GGCGCACGCC TCGCGCCCCT TCGACAGGGA14100ACGCAACGGC TTCGTCCTCG CGGAGGGCGC CGCCGTCCTC GTGCTGGAGG AGCTGGGGCA14160CGCGCGGGCC CGCGACGCCC ACGTCTACGC TCTCGTGTCC GGCTACGCCA CGCGCTGCAA14220CGCGTACCAC ATGACCGGGC TCACCCCGCA CGGCAGGGAG ATGGCCGAGG CGATCCGGCA14280CGCGCTCGCC GAGAGCGGGA CCGACCCCGC CGCCGTGGAC TACGTCAACG CCCACGGCTC14340CGGCACCAAG CAGAACGACC GGCACGAGAC CGCCGCCTTC AAGGCCACGC TCGGCGAGCG14400GGCCAGGAGC GTGCCGGTCA GCTCCATCAA GTCGATGATC GGCCACTCGC TCGGTGCCAT14460CGGTTCGCTG GAGATCGCGG CCTGGGCGCT CGCCATGGAG TACGGCGTGG TGCCGCCCAC14520CGCCAACCTC GACACGCCCG ACCCCGAGTG CGACCTCGAC TACGTGCCCC ACGAGGCGCG14580CGAGACGCGG GTGGACAGGG TCCTGAGCGT CGGCAGCGGC TTCGGCGGTT TCCAGAGCGC14640CATGGTCCTC ACCCGGGACA CGGGCGCCCG CCTCCCGACG GCCTGACACC CGCTCACCGC14700ACGCCCCGCA CCGGCCCGGA CGGCCGGCCA GGTCCCGCAC CGCTCGCACA CGGAAGGCAC14760CCGCCCATGA CCACCGCCCC CTCCCGCACC GCCCAGGGCG CCCCTCCCGG GGCCGCCCTG14820CCCCCCGTCT TCACCGGCAT CGGCGTCGCC GCCCCCAACG GGCTCGGCAC CGAGGAGTGG14880TGGGCGGCCA CCCTGCGCGG GGAGCACGGT CTGCGGCCCG TCACGGAGTA CGACGCGAGC14940GGCCACCCCG GTGGACTCGT CGGCCGCGTC CCGGACTTCG ACGCCGCCCG CCACCTGCCC15000GGCCGCCTCC TGCCGCAGAC CGACCGGGTC ACCCGGCTCG CGCTCGTCGC CGCCGACGAG15060GCACTGAAGG ACGCCGCCGT CGACCCGGCC CGGCTGCCCG AGTACGGGGC GAGCGCCGTC15120ACCTCCAACG CCACCGGCGG CTTCGAGTTC ACCCACCGCG AGATCCGCAA ACTCTGGACC15180GAGGGCCCGG CCCGCGTCAG CGTCTACGAG TCCTTCGCCT GGTTCTACGC CGTCAACACC15240GGCCAGATCT CCATCCGGCA CGGCATGCGC GGCCCCGGCG CCGTCGTCGT GGCCGACCAG15300GCGGGCGGCC TCGACGCCCT CGGCCAGGCC CGCCGCGTAC TGCGCAAGGG CGGGGTGCTG15360GCGGTGAGCG GCGGCGTGGA GTCCGCGCTC GACCCCTGGG GCCTGGCCGC CCACGCCTCG15420TCGGGCACCC TCAGCCGCTC CGGCGACCCG GCCACCGCCT ACCTCCCCTT CGACCGGCGT15480GCCCTCGGCA CCGTCGTCGG CGAGGGCGGC GCCCTCCTCA CCCTGGAGAC ACCCCGGCAC15540GCCGAGGAGC GCGACGCACC CCGGATCTAC GGCGAACTCG CCGGGTACGC CGCCACGTTC15600GACCCGCCCG CGGGCTCCGG ACGGCCCCCC GGCCTCGAAC GCGCCGCGCG CCTCGCCCTC15660GCCGACGCGG GCCTGGCACC CGGGGACGTC GACGTCGTCT TCGCGGACGC GGCGGGGCTC15720CCCGCCGCCG ACGCCGCCGA GGCCGCCGCC CTGCGCGCGC TCTTCGGCCC CGGCGGCGTT15780CCGGTGAGCG TGCCGAAGAC CCAGACCGGG CGGCTCGCCT CGGGCGGCCC GGCCCTCGAC15840GTCGCCGCCG CCCTCCTCGC CCTGCGCGAC GGCCTCGTGC CCCCGGCCGT CCACCTCGAC15900GAGGTCGATC CCGCGTACGG CCTCGACCTC GTCCGCGACA CCCCGCGCGC CCTCCCGCTG15960CGCACGGCGC TCGTCCTCGC GCGCGGCCAC GGCGGCTTCA ACGCGGCCGT CGTCGTCCGC16020GGGCGGCGGC GGCCCCGTAC CGCCTGAGGG CCTGCCCCGG GTGCGCCGCC GCGGCCGCAC16080CCGCCGTCCA CCGCCCCGCA CACCCCACAA GGAGTTCCCA TGAGCGCACT GACCGTCGAC16140GACCTCAAGA AACTGCTCGC CGAGACCGCC GGGGAGGACG ACAGCGTCGA CCTCGCCGGA16200GAACTCGACA CGCCCTTCGT GGACCTCGGC TACGACTCCC TCGCGCTGCT GGAGACGGCC16260GCCGTGCTCC AGCAGCGGTA CGGCATCGCG CTGACTGACG AGACGGTCGG CCGGCTGGGC16320ACCCCGCGCG AACTGCTCGA CGAGGTCAAC ACCACCCCGG CCACCGCCTG AGCGGGCGGC16380GCACGCGAAC GAAGGGTCCG GCCCCACCCC CCGCGCGGGG GGTGGGGCCG GACCCTTCGT16440TCGCGGCGGA CCTCACAGCA AGGTGCGGTC CTGGGTCACC TGCCGCGACA GCGTGCGCAG16500TTCCCCGCCC TCCCGCACCA GGACGTCCCG TACGACGCAA CTGGGACCGA TCACCGGGAG16560CGCCGCGTCC GGCCGGGTCA CCACGACCAG CGCGTAGAAC TCCGTCTCGA CGGCGCCGTC16620CTCACCCGGG CGTACGTCCA GCATCGAGAA CCAGTGCCGC CGCTGGACGG GGTCGTCGGC16680GAACCGGCGG GCGTTGAAGC CGCGCACCTC CTCCGCGATC GCCGCCCTGC CCCGGGCCGC16740CGGGGTGTCG GGGGAGTGGG CGAAGACGCC CTCCGCCGCG AAGGTGGCCG CGAACTCCTC16800GGCCCGTACC GCGTCCAGGT GGTGTGCCTG GCGCGCGTAG AACGCCTGTA CCTCGGTGTA16860GAGCGCCGCG GAACGCGCCG CGTCGCCCGG CAGGGACCCG GCCCTCACGT CGTCCGGCGG16920GGTGGTGGTC GTCACGGGAG CCTCCCAGAA GGTGTCTGAC CTGTCCCGGC AAGCCTCCGC16980GCCGTGGCTC GACGGCCCCT TGAGCCCCCC TCAAGGGAGC GCCGCGAGGC TGGCACCAGC17040ACCGCGGCGT CACCACCGAC GCCCCCGCGC CGAGGAGGAA GGCCATCATG ACCACAGCAG17100CTCCGCACAC CCGCCCCGGG GAGGCAGGCA CCACCCGGGG ACCCGCTCTC GTGACCGGCG17160CGACCCGGGG CATCGGCCTC GCCGTCGCCG AGGCGCTCGT CGCGCGCGGC TATCCCGTGG17220TGGTCTGCGC CCGCGACGCC GAGGCGGTCG CGCGCACCGT CAAGGAGCTG GCAGCGGGCG17280GCGCCCGCGT CGAGGGCGTC GTCGCCGACG TCACCGACGC CGCCTCCGTG CACGAACTCG17340TCGCCACCAC CGTCGCCCGC TTCGGCCCCG TCGAGGTCCT CGTCAACAAC GCGGGCCGGT17400CCGGCGGCGG AGTGACCGCC GAACTCAGCG AGTCCCTGTG GGACGACGTC ATCGCCACCA17460ACCTCAAGAG CGTCTTCCTG GTCACCCGGG AGGTGCTCAC CACGGGCGGG ATGACCGGGC17520GCGGCCGCGG CGTCGTCAAC ATCGCCTCCA CGGGCGGCAA GCAGGGCGTC GTCTTCGGCG17580CCCCCTACTC GGCGTCCAAG CACGGCGTCG TCGGCTTCAC CAAAGCCCTC GGCCTCGAAC17640TGGCCCGGAG CGGCATCACC GTCAACGCCG TCTGCCCCGG CTACGTCGAG ACGCCGATGG17700CCGCCGGAGT GCGCCGCCAC TACGCCGACC TGTGGGACGT CACCGAGGAG GACGTGCTGG17760CCCGCTTCGA GGCGAAGATC CCGCTCGGCC GGTACACCCG CCCCGACGAG GTCGCCGCCC17820TCGTCGACTA CCTGGTCACC GACGCCGCCG CGGCCGTCAC CGCCCAGGCC CTCAACGTGT17880GCGGCGGACT GGGGAACTAC TGATGACCAC CACCACGACC GGGCACCAGC GCCCCGGCTC17940CGCCGAACAC TCCGCGCGCC TCGCCGCCCC GCCCGCCTCC GCCTACGAAC TCGTCGCCGA18000CGTGACGCGC TGGCCCCTCC TCTTCACCCC GTGCCTGCAC GCCGAGGTGC TGGAGAGCGG18060TCCCGGCACC GAACGCGTGC GGCTGTGGGC CCTCACCGGC GAGCAGGTGC GCGGCTGGAC18120CTCGCGGCGC ACCCTCGACA GCGAGGGCCT GCGCGTCGGC TTCCGCCAGG AGGACAGCGC18180CCCGCCGCTC GCCGCGATGG GCGGGGAGTG GCGCTTCACC GAGGAGGGCG AGGACACGCG18240CGCCGTACTC GCGCACGACT GGACGCTCAC CGAGCCGGGC GCCGCACCGC ACCGCTGGGT18300CACCGAGACA CTCGACCGCA ACAGCACCGC CGAGATCGGG GCCGTGACCG CCTGGGCCGC18360GCGCACCCAC GCGGCGGGCG GCGCCGACGC GCTGCTCTTC TCCTTCACCG ACAGCCTCGA18420CATCGCCGCC CCCGCGCCCG ACGTGTACGC CTTCCTCGAC GCCGCCGACC AGTGGCCCGC18480GCGGCTCCCG CACGTCAGCC GGGTCGCCTT CTCGACCACC CCGGCGACGC CGCTCACGGC18540GGGCGCGGAG GTGCAGCACC TGGAGATGGA GACGCGCGCG GACGACGGCA CGCGCCACCT18600CACCCGCTCG ATCCGCCTCG GCTTCGCGGG CCGTCTCCTC GTCTACAAGC AGACCACGTT18660GCCCGCCCCG CTCCTCGGCC ACGCCGGCTC CTGGGCGCTG GAGCCGCTGC CCGGCGGCGG18720CACCCGGGTC ACCGCCCGCC ACCGGGTGGC ACTCGACCCG GACGCCGTGA CCGAACGCTT18780CGGCGCGGGG ACCACGCTCG CGGCGGCGCG GGACACGGTA CGGGCGCTGC TCGGCGGCAA18840CAGCAGGCGC ACCCTGGAGG CGGCCCGCGC CCACACCGAG TCGGCGGGGG AGCGATGACC18900ACGACCGGCC CCGCGACTCC CCTGGCCCCC GGGCCCGCAT CCGCCGAGAC CGTCGCGCTC18960GCCGACGGCG TGCACTCCTG GCTCCAGCCC GACGGCGGCT GGTGCGTCAG CAACGCGGGC19020ATCCTGCTCG CGCCCGACCG CGTCGCGCTC GTCGACACCG CCGCCACCGA GGCGCGCTCC19080CGCGCGCTCG GCGCCGCGGT CGCCGGACTC AGCCCGCATC CCGTGCGACT GCTCGTCAAC19140ACCCACTTCC ACGGGGACCA CAGCTTCGGC AACGGCATCC TCGGCAAGGA CGCCGTCATC19200GTCGCCCACG AGCGCACCCG CACCGAGATG GCCGAGGCCG GACTCGGGCT CACCGGACTG19260TGGCCGGGCG TGGACTGGGG GCACGTGGAC CCGGTCCTGC CCCAGCTCAC GTACCGCAGG19320CGCCTCACGC TCCACCACGG GGACCTCCGC GTCGAGCTGA TCCACCCCGG CCCGGCGCAC19380ACCACCAACG ACACCCTGGT GTGGCTCCCC GAGCAGCGCG TCCTGTTCGC GGGGGACGTA19440CTCCTGCCGG GGGCGACGCC CTTCGTGCTG ATGGGCTCGG TGACCGGCTC GCTGCACACC19500CTGCGTCTGC TGCGCCGCCT CGGCCCCCGC GTCGTCGTCG GCGGGCACGG CCCCCTCGCG19560GGGCCCGAGG TGATCGAGGA GACGGAGCGC TACCTGCTGC GGCTGCGGCG CATCGCCACC19620GAGGGCCACG CCGCGGGGCT CACCCCGCTG GAGGCGGCAC GGCGCCACGG CCCCGGGCCC19680TTCGCCCACT GGAGCGAGCC GGAACGACTC GCCGCCAATC TGCACCGGGC GTACGCCGAA19740CTCGGCCCCG CACCACTGGG CACGCCGCTC GACGTCCTCG CCTGCTTCGG CGACCTCATC19800GCCTACAACG ACGGCGAGCT GCCGGTCAGC CACGCCTGAA CAGCCCGGCC ACCGGCCGCT19860CACGGACCGC GCCGCGCCCT GCCCCGGTCC GCCCCGCCCC TGCCCGCGCG AACGACCGGC19920GCGGGCCGCC CCCGAGGGGA ACGGGCCGCG CCGGTCATCC GTGCGGACAG GGCGAGCAGG19980CCGCGCCGCT CACCCGCCGA CCACGGTGGG CGGTCCGGGC GCGAAGCTCG CCGCGTGGTC20040GCGCACCCAA GTGGCGAAGG ACCGCGCGGG CCGACCGGTC ACGTCGGTGA CACCCGGGCT20100CACGGCCGGT GGGTGCTCCG TGAAGAACCG CTCGACGCCC GCGAGCGCCC GCGCGTACGG20160CTCGGGGATG TGCCGGGCCG TCAGCTGCAC CCACTCCTCC TCCGGCACCG GCTCCACGCG20220CAGCGGGCGG CCCAGTTCCG CGGCGAGCAC GGCGGTCCGC CCGGGCAGCG TCAGCACCTC20280GGGACCCGAG AGCGGCACCG CCTTTCCGGC CCACCGCTCC ACGGGCGCCG TGAGAACCGC20340GGCGGCCACG TCGGCGATGT CCCGCGGGTC GATCAGCGGC ACCGCGAGCC CGGCGTGCGG20400GACCCGCACC ACACCGTCCC CGTGGAGCGC GGGCGCCCAC AGCAGCGCGA GCGAGGCGAA20460GGCGCCCGGA CGCAGGAACA CCCAGGGCAC CCCGCTCCCG CGCACGTGCC GCTCGCCGCG20520GACGTGCTTC TGGAACATCG GGTTGTCGTA CTCCGGGTGA GCCGCCGCCG TCGCGGAGAG20580CACCACCACC TCGCGCAGCC CCCGCGCCTT CGCCGCCGCC CGCGCGAAGG GCGCGCCGGC20640CTCGTCCTGG AGCAGCAGGA ACGCCCGCTC CACGCCGTGC AGCGCCGCCG CGAGCGAAGC20700CGTGTCCGCC AGGTCCCCGA CGACCGTCTC GGCGCCGACC GCGGCGAGCG CCCGCCCGCG20760CGCGGCCGAG CGCACCAGGG CGCGCACCGG CACCCCGGAG TCGAGCAGCC GGGACACGAG20820GCGCCCCCCG ACCGCGCCGC TCGCCCCGGC CACCAGCACT GTTCCCGGCA GTGGTCCCGC20880CATCGTTCCC GTCACCCTTC CCGTCACCGG TTCGCTTCCT GTACCGCCCA GGCGCCGTAG20940GCGGCGCCCG CGGCCTCGGG GGAGAGCGCG ACGTGCGAGG CGCCGGTCTG CACGTCCCGC21000CAGAACCGCT GCACGGGGTC GTGCGGGCTC TGCCCGGACG TCCCGCTCGC ACGGACGAGC21060CGCTGCACCG CCCCGACGGC CAACTCGGCG GCGAGGGCCG TGTCCCGCTT GCCGCGCACC21120GCGGCGGCGG GCTCGGGAAG GGAAACGGTG CCGTCGGCCG CCGCCGCCGC GCGCAGCACG21180AGCAGCTCGG CCGCGTCGGC CTCCCCGGCC GCCCGGCTCA GCTCCCCGAG TGCTCCGGGC21240GAAGGCGCCC GCCCCTGCGC GGCGCGCTCG GTCCACGCCC GCAGGGCGCC CCGCGCCGCG21300CCGACGAGCG GCGTCACGAC GGGCAGTGCC CCGACCCGCG CCATCCGCAC CGTGGGCACC21360GCGCCCGCGA CGCGGGGGCG CTGCCCCGCG AGGACACGGG TGCGCGGGAA GGAACGGTGC21420GCGGGGACGA GGACGTCGTC GAGCACGAGG GTGTCGCTGC CCGTCGCGCG CATCCCCGTC21480GTGTTCCAGG TCCGTTCGAC GCGGGGTGCC GCGCGCGGCC CCGCGAAGAA CCGGACCTCG21540GGGCCCTCCT CGCCCTCGCC GCCCGGCACG GTCGCGCAGG CGAGCACCCA GGCGGCGTGC21600CGCACGCCGC TGATGTAGGG CCAGGCCCCG TCGAGCCGCC AGCCGCCGGG GACGGGCGTC21660ACGGTCCCCG AGGGGACGAG GGCGCCCGCG AGCAGCGCGT CCGGGCCCTC GGCCCACACC21720TCGGCCTGCC CCTCCTCGGG CAGGTACGCG GCGTACCGCC CGGCGTAGGC GGAGAGCGAG21780GCCGCCCACG CGGCCGAGGT GCAGCCCGTC CCGAGGCGCA GGACGGCCTC GGCGAGTTCC21840CCGAAGCCGC CTTCGGCGCC GCCGTGGGCC GCGGGCACGA AGTGGCGGGC GAAGCCCGCC21900GCCACGATGC CCGCGGACGA CTTCCCCGGC GAGACCCCGC TCCTCCTCAC CGCGGCGCGC21960GTGCCCGGCC GCGAGCGCGG CGAGCGCCCC GGCCCGTTCC GCGAGCGGTC CGGGGGGCGT22020CCCGGCCCCT CGTCCGGCGC CCCGGTCCGC TCGGCGTGTG CCGGTGCGGC GAGGGTGGTC22080GATTGCTCCG TCATCGGTAC GTCACCTCCA CGCCGAACAT CTCCCGGCCT GCTGGAGGCG22140CGCTCGACTC GCGCTGGACG AGGCGGGGCG GCGAGCCCTC AGGCGAGGGA GTCCCCGGCC22200GGTGCGCCGG GCGTGGGCAC CGGGGCGTAG ACCTGCGGCG CGGTGTGGGC CTCGGCGCGC22260AGCCGCGCGA AGGCGGGCCG GATGCCGGGG GCGCTCGCCG CCGCCCGGTG GGCGGCGGCG22320TCGCTCCAGT CGGCGAGCAT GGCCCACCGC TCGGGGTGGT CGGGCGAGCG GTGCAGGCGC22380AGGGAGAGGA AGCCGGGCTG CGCGCGCATG TGGGCGCAGA TCTCTTCGAG GACCGCGAGG22440AAACGGCTCT CGTCGCCGTG CAGGAGCATC TGGTTGATCA TGGTCACCAT GTGTCCACCC22500GACACCGTCC CGCTTGAGTC CCGCTTGAAG AGGCACCGCC GACACGCGGG CGGGTGCGGG22560GAGTGAGGGG TACGGAGGCG TCCGGTGACG CGTACGGGGC GTCCGGTGAC GCTTTCGGAG22620GCGGCCGGTG ACGCGCGGGG GCCGCCGGTG GGGGTTTCTC ACCGGCGGCC CCGGGCCGTG22680CGTGCTCAGC CGAGCGGTGC GGGGAAGGTC GGGTACTCGA CGCCCGAGAC GTGCTGGACG22740ACCCGTACGA CCTGGCACGA GTAGCCGAAC TCGTTGTCGT ACCAGAGGTA GAGGATCGCG22800TTGTCGCCGT CGACCTTGGT CGCCCCGGCG TCCACGATCG AGGCGTGGCG CGAGCCGACG22860AAGTCGCTGG AGACGGCGTC GGCGGAGGTG GTGAAGTCGA TCTGGCGGCG CAGCGGCGAG22920GTGAGGGAGA CCTCGCGCAG GTGGGTGAGG ACCTCCTCGC GGCTCGTCCC GCGGCTCAGC22980CGGAGGTTCA GGATCGCGAT CGACACATCG GGGACGGGAA CGCGGATCGA GCTGCCGCTG23040ATCTTCGCCC CGAGGTCCGG CAGAGCCTTC GCGACGGCCG AGGCGGCACC CGTCTCGGTG23100AGGACCATGT TGAGCGGCGC GGACCGCCCT CGCCGGTCGG ACTTGTGGTA ATTGTCCAGC23160AGGTTCTGGT CGTTGGTGAA GGAGTGCACC GTCTCGACGT GGCCGCTCTC GACGCCGAAC23220TCGTCGGCCA TCGCCTTGAG CGGCGGCACG ATGGCGTTCG TCGTGCAGGA GGCGCAGGAG23280ATGATCCGCT CGTCCGGCTT GATCGTCTCG TGGTTCACGC CGTGCACGAT GTTCGGCACG23340TCGCCCTTGC CGGGCGCGGT GAGGACGACC TTCGCGACAC CCGGGCGCAG ATGCTGCGAG23400AGGCCCGCGC GGTCGCGCCA GCGGCCCGTG TTGTCGACGA GGATCGCGTC GTTGATGCCG23460TAGGCGGTGT AGTCCACGGT CGCCGGGTCG TCGGAGTAGA TGAACCGGAT CGCGTTGCCG23520TTCGCGATGA GGGTGTCGTT CTCCTCGTCC ACGATGATCG TGCCCTGGAA CTGGCCGTGC23580ACGGAGTCGC GGCGCAGCAG TGAGGCGCGC TTGACGAGGT CCTGACCGGC GGTCTTGCGG23640ACCACGACGG CGCGCAGACG CAGGCCGTTG CCCGAGCCGG CCTTCTCGAT GAGCAGCCGG23700GCGAGGAGCC GCCCGATCCG CCCGAAGCCG TAGAGGACGA CGTCGCGCGG GGCGGCGCGC23760TCGATCTTCC GCTCGCCGGT CGCGCCCTCG ACGGGCCGCG CGGTGAACTC GGCGACGCCC23820AGGCCCCGGT CGTCGCTCTT GTAGGTCTCG GCGAGCATGC CGATGTCGAT CTGGGAGGGG23880CCGAGGTCGA GCGTCGTGAG CGCCTGGAGG AACGGCATGG TCTCGGTGAC CGACAGCTCC23940TCGCCCGCGA TCTGCCGGGC GAATCGGTGG GTCTTGAGAA TCCCGACCAC CGACTTGTTC24000ACCAGCGAGC GGCTGTGCAG CAGCACGGTG ACGTCCCGTT GCCGCTGGAG CCTGCCGATG24060ACGGGGATCA TCGATTCCGC GATCTCCTCG CGGGTCTTCC AGTTGGTGAA CGAGTCCTCG24120TTGACAGTCA CAGATCCATC TTTCGAGCTA GGCGGCGCTC ATATGTTAAC CCGATGGGTG24180TGATCATCTG CCGGGCGCGG GTGTGATGTA CGACCAGCTC GGGGCGGGTG CGGGACGTCG24240GGGATGGGGG CGCGGAGCAC CGGGTGCGGG GTGTGGGTGG CCGGTGGGGG GACGTGCGGC24300GGGGGTGCAG TACGTGCGGT GCGGGTGCGG AACGTGCGGC GAGGTGCGGA ACGTGCGGTG24360CGGGTGCGGA ACGTGCGGC24379
权利要求
1.一种DNA序列,含有至少下列DNA序列之一a)SEQ ID NO22的636到2948的碱基,b)SEQ ID NO22的2945到3916的碱基,c)SEQ ID NO22的4020到4844的碱基,d)SEQ ID NO22的4841到6415的碱基,e)SEQ ID NO22的6533到7183的碱基,f)SEQ ID NO22的7344到8897的碱基,g)SEQ ID NO22的9164到10012的碱基,h)SEQ ID NO22的10621到10105的碱基,i)SEQ ID NO22的11628到10618的碱基,k)SEQ ID NO22的11809到12066的碱基,l)SEQ ID NO22的13209到12154的碱基,m)SEQ ID NO22的13409到14686的碱基,n)SEQ ID NO22的14767到16047的碱基,o)SEQ ID NO22的16120到16371的碱基,p)SEQ ID NO22的16935到16453的碱基,q)SEQ ID NO22的17088到17903的碱基,r)SEQ ID NO22的17903到18898的碱基,s)SEQ ID NO22的18895到19839的碱基,t)SEQ ID NO22的20907到19990的碱基,w)SEQ ID NO22的22094到20904的碱基,或者含有一种DNA序列,它编码由a)-w)限定的DNA序列编码的蛋白质的生化特性等同的变异体。
2.根据权利要求1所述的DNA序列,其中含有由a)-w)限定的所有DNA序列,优选的是他们的结构类似于SEQ ID NO22的描述。或者含有这样的DNA,其中至少一种由a)-w)限定的DNA序列被一种DNA序列替代,用于替代的DNA序列编码一种其生化特性等同变异体的蛋白质。
3.根据权利要求2所述的DNA序列,其中含有SEQ ID NO22的的DNA序列或者一种编码其生化特性等同变异体的蛋白质的DNA。
4.含有权利要求1-3中任何一项所述的DNA序列的载体,其中所述的DNA与表达控制序列可操作地连接。
5.用权利要求4定义的载体转化的宿主细胞。
6.权利要求5所述的转化细胞,其中宿主细胞是链霉菌属的成员。
7.权利要求6所述的转化细胞,其中宿主细胞是玫瑰暗黄色链霉菌。
8.一种蛋白质和其生化特性功能等同变异体,它由权利要求1中a)-w)限定的DNA序列编码或者具有SEQ ID NO1-21给出的氨基酸序列。
9.用于制备富伦霉素或所述富伦霉素的生物合成中间体的方法,其特征在于在合适的培养条件下培养权利要求5-7中任何一项所述的细胞并且从培养物或细胞分离富伦霉素。
10.用于制备富伦霉素的方法,其特征在于由权利要求9所述方法获得的生物合成中间体用本领域内技术人员已知的化学方法转化为所述富伦霉素。
11.用于制备富伦霉素B的方法,其中将权利要求9或10所述方法获得的或富伦霉素混合物氧化为富伦霉素B。
12.用于制备饲料组合物的方法,其特征在于实施权利要求9-11所述方法并且将获得的富伦霉素与其他饲料组合物配料混合。
13.本文中前面描述的发明。
全文摘要
本发明提供了含有编码酶的DNA序列,所述酶在原核细胞中催化富伦霉素的生物合成,提供了含有所述DNA序列的载体,由所述DNA序列编码的蛋白质,由所述DNA序列转化的宿主细胞以及利用所述转化细胞生产富伦霉素,尤其是富伦霉素B的方法。
文档编号C12N15/52GK1171443SQ97109799
公开日1998年1月28日 申请日期1997年5月6日 优先权日1996年5月7日
发明者C·D·里夫斯, C·L·索丽黛 申请人:弗·哈夫曼-拉罗切有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1