耐高温分支酸合酶基因及其编码的多肽和制备方法

文档序号:579673阅读:240来源:国知局
专利名称:耐高温分支酸合酶基因及其编码的多肽和制备方法
技术领域
本发明涉及遗传工程领域,具体地,涉及一种耐高温分支酸合酶基因及其编码的多肽及制备该多肽的方法。
背景技术
本发明所涉及的分支酸合酶(chorismate synthase)是一种氨基酸生物合成酶。该酶的作用为催化3-磷酸5-羧基莽草酸生成分支酸,而该反应为可逆反应。
在莽草酸合成的路径中,目前认为有四种酶参加了调控,分支酸合酶是其中的一种。分支酸合酶转化3-磷酸5-羧基莽草酸(5-enopyruvyl shikimate3-phosate(EPSP))为分支酸。
同时,分支酸合酶参与了合成芬芳族氨基酸和相关的化合物。在细菌,真菌,植物中有重要的作用。这种酶的研究对发展新型的抗生素和除草剂有重要的作用,有可能成为新一代的抗菌药物。因此该酶的最可能的应用前景为开发新型的抗生素,除草剂,抗真菌剂。
本发明涉及的腾冲嗜热厌氧菌(Thermoanaerobacter tangcongensis),是生活在我国云南省腾冲县的热泉中的一种微生物,是一种嗜热的真细菌(eubacteria),最适生长温度为75摄氏度,厌氧生长,革兰氏染色反应呈阳性。它是由中国科学院微生物所首先发现并进行了分类学上的分析。菌种保存在中国微生物保存中心MB4T(Chinese collection of microorganisms AS 1.2430T=JCM 11007T)。该嗜热厌氧菌是我国特有的一个物种,其体内所具有的耐高温分支酸合酶也具有自己特有的结构。

发明内容
本发明的目的之一是提供一种分离的,编码具有耐高温分支酸合酶活性的多肽的核苷酸序列。
本发明的目的之二是提供一种分离的具有耐高温分支酸合酶活性多肽。
本发明的目的还提供了含有编码耐高温分支酸合酶的DNA的重组载体、含有前述重组载体的宿主细胞,以及制备该蛋白的方法。
本发明的第一方面提供了一种编码具有耐高温分支酸合酶活性的多肽的核苷酸序列。该核苷酸序列能编码具有SEQ ID NO.2中的氨基酸序列的多肽或所述多肽的修饰形式,该修饰形式功能上相当或与分支酸合酶相关。核苷酸序列具有SEQ ID NO.1的多核苷酸序列以及它的突变形式,突变类型包括缺失、无义、插入、错义。
本发明的第二方面提供了一种耐高温分支酸合酶活性的多肽。该多肽具有SEQ ID NO.2中的氨基酸序列的多肽、或其保守性变异多肽、或其活性片段、或其活性衍生物。
本发明还提供了制备耐高温分支酸合酶的方法,该方法包括如下步骤1)分离出编码耐高温分支酸合酶基因的核苷酸序列SEQ ID NO.1;2)构建含有SEQ ID NO.1的核苷酸序列的表达载体;3)将步骤2)中表达载体转入宿主细胞,形成能生产耐高温分支酸合酶的重组细胞;4)培养步骤3)中的重组细胞;5)分离、纯化得到耐高温分支酸合酶。
本发明涉及嗜热厌氧菌的分支酸合酶基因的分离及表达。以腾冲嗜热厌氧菌全基因组测序与分析为基础,克隆分离了耐高温分支酸合酶基因。运用该基因生产耐高温分支酸合酶的转基因微生物或动植物,并回收获得该基因编码的酶。另外,本发明还提供了具有耐高温分支酸合酶活性的多肽的氨基酸序列及功能等同体。同时,本发明还提供了制备,分离,纯化具有耐高温分支酸合酶活性的多肽的方法。


图1是测序文库构建步骤流程图;图2是测序与数据分析流程图。
具体实施例方式
本发明提供了分离的,编码耐高温分支酸合酶活性的多肽的核苷酸分子,该核苷酸分子是通过对腾冲嗜热厌氧菌全基因组测序与分析而获得的,具有SEQ.ID NO.1所示的核苷酸序列。它编码了具有耐高温分支酸合酶活性的有350氨基酸的多肽,该多肽的推测分子量为38673道尔顿。
本发明还提供一种重组载体,该载体包含本发明的分离的核苷酸分子,以及包含有重组载体的宿主细胞。同时,本发明包括构建该重组载体和宿主细胞的方法,以及利用重组工程技术生产耐高温分支酸合酶的方法。
本发明进一步地提供了一种分离的耐高温分支酸合酶或多肽,它具有SEQ.ID NO.2所示的氨基酸序列,或至少70%相似,更佳地,至少具有90%,95%,99%的相同。
在本发明中,“分离的”DNA是指该DNA或片段已从天然状态下位于其两侧的序列中分离出来,还指该DNA或片段已经与天然状态下伴随核酸的组份分开,而且已经与在细胞中伴随其的蛋白质分开。
在本发明中,“耐高温分支酸合酶基因”指编码具有耐高温分支酸合酶活性的多肽的核苷酸序列,如SEQ ID NO.1的核苷酸序列及其简并序列。该简并序列是指该序列中有一个或多个密码子被编码相同氨基酸的简并密码子所取代后而产生的序列。由于公知的密码子的简并性,所以与SEQ ID NO.1核苷酸序列同源性低至约70%的简并序列也能编码出SEQ ID NO.2所述的氨基酸序列。该术语还包括能在中度严谨条件下,更佳地在高度严谨条件下与SEQ IDNO.1的核苷酸序列杂交的核苷酸序列。该术语还包括与SEQ ID NO.1核苷酸序列同源性至少70%,较佳地至少80%,更佳地至少90%,最佳地至少95%的核苷酸序列。
在本发明中,“分离的”蛋白的多肽是指其至少占样品总物质的至少20%,较佳地至少50%,更佳地至少80%,最佳地至少90%(按干重或湿重计)。纯度可以用任何合适的方法进行测量,如用柱层析,PAGE或HPLC法测量多肽的纯度。分离的多肽基本上不含天然状态下的伴随其的组份。
在本发明中,“耐高温分支酸合酶”指具有耐高温分支酸合酶活性的SEQID NO.2序列的多肽。该术语还包括SEQ ID NO.2序列的变异体,这些变异体具有与天然耐高温分支酸合酶相同的功能。这些变异体包括(但不限于)若干个氨基酸的缺失,插入和/或取代,以及在C末段和/或N末端添加一个或数个氨基酸,也可以是不影响序列的修饰形式上的差异。例如,为本领域所公知的,用性能相近或相似的氨基酸进行取代时,通常不会改变蛋白质的功能。又比如,在C末段和/或N末端添加一个或数个氨基酸通常也不会改变蛋白质的功能。该术语还包括耐高温分支酸合酶的活性片段和活性衍生物。
在本发明中,可选用本领域已知的各种载体,如市场上销售的各种质粒、粘粒、噬菌体及反转录病毒等。在生产本发明的耐高温分支酸合酶时,可以将耐高温分支酸合酶基因序列可操作地连于表达调控序列,从而形成耐高温分支酸合酶表达载体。该表达载体含有复制起始点和表达调控序列,启动子,增强子和必要的加工信息位点。表达载体还必须含有可供选择的标记基因,如a)提供对抗生素或其它毒性物质(氨苄青霉素,卡那霉素,氨甲蝶呤等)的抗性的蛋白质或b)互补营养缺陷型蛋白质或c)提供复合培养基中没有的必需营养成分的蛋白质。各种不同宿主的合适标记基因是本领域中所熟知或生产厂商说明书注明的。这些表达载体可以用本领域技术人员所公知的重组DNA技术制备,如可参考Sambrook等人的做法(1989),或Ausubel等人的做法(1992)。重组表达载体可以用本领域熟知的方法引入宿主细胞,这些方法包括电转化法,氯化钙法,基因枪法等。将外源重组载体导入宿主细胞的过程称为“转化”。通过培养宿主细胞,诱导所需蛋白的表达,并通过本领域所熟知的蛋白分离技术,如柱层析等得到所需的蛋白质。也可采用固相技术等人工合成该蛋白质。在本发明中,术语“宿主细胞”包括原核细胞和真核细胞。常用的原核细胞如大肠杆菌,枯草杆菌等。常用的真核细胞如酵母细胞,或各种动植物细胞。
本发明的耐高温分支酸合酶基因全长序列或其片段通常可以用PCR(聚合酶链式反应)扩增法,重组法,或人工合成的方法获得。对于PCR扩增法,可根据本发明所公开的有关核苷酸序列来设计引物,用本领域技术人员已知的常规方法制备的嗜热厌氧菌全基因组DNA为模板,扩增而得到有关序列。一旦获得了有关序列,就可以将其克隆入有关载体,再转入宿主细胞,然后通过常规方法从增殖后的宿主细胞中分离得到大批量的有关序列。
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件,例如Sambrook等人,分子克隆实验室手册(NewYorkCold Spring Harbor Laboratory Press,1989)中所述的条件,或按照制造厂商所建议的条件。
实施例1构建测序文库测序文库的构建采用全基因组霰弹法(shotgun)进行。首先培养腾冲嗜热厌氧菌,培养方法按(Yanfen Xue,2000)改进的MB培养基(Balch et al.,1979),按Marmur(1961)方法收集细菌,提取总DNA。为了保证测序文库构建的随机性,最大程度地避免产生断裂热点的问题,采用多种方法、不同条件的建库原则。先采用物理剪切方法(包括超声波法及用Hydroshear Machine进行剪切),其次根据该菌基因组特征选用AluI进行随机部分酶切。物理剪切时采用不同强度处理样品,酶切时通过设置酶量梯度处理样品。处理后的样品经平末端处理后,采用电泳分部收集1.5-4kb DNA片段,与去磷酸化的经SmaI酶切的pUC18进行连接,连接产物通过电转化E.coli DH5α构建了随机测序的文库。同时,为了便于以后重叠群(contig)的搭接还构建了长插入片段(10kb左右)的测序文库(将基因组DNA以Sau3AI随机部分酶切,电泳收集10kb左右的片段,与去磷酸化的经BamHI酶切的pUC18进行连接、构建文库)。该文库经两个末端的测序在构建完成图(finishing)的过程中可以得到重叠群(contig)之间的关系,并可以解决较大的洞(gap)对补洞造成的困难。建库流程如(见图1)。
实施例2基因组测序在完成腾冲嗜热厌氧菌基因组的测序时,主要使用了两种全自动测序仪ABI377和MegaBACE 1000。这两种测序仪都是利用电泳原理进行测序(见图2),每次可完成96个样品。ABI377是ABI公司的产品,是ABI系列的一种。它属于平板凝胶电泳测序仪。MegaBACE 1000是法玛西亚公司的产品,属于毛细管凝胶电泳测序仪。
实施例3数据分析1)Basecalling和测序质量监控所谓Basecalling是指从测序仪上得到的原始数据文件中得到正确的碱基序列的过程。由于测序仪上得到的是A,T,G,C四种碱基对应的不同波长的光的强度变化轨迹(trace),需要用计算机采取一定的算法从中正确识别出不同的轨迹对应的碱基。我们使用的是Phred软件(Ewing B,Hillier L,1998),原因是其结果更可靠,并且其结果输出更便于同一软件包中的其他程序进行进一步的分析。
Phred进行Basecalling的算法原理,是根据轨迹中各个峰的形状,间距,以及信噪比等因素,判断碱基类型,同时对这个碱基给出可信度信息,即碱基的测序质量。
在大规模测序中,测序质量的监控是十分重要的,它直接影响对测序的决策,包括文库的构建,覆盖率的大小。同时对测序实验中可能出现的失误能及时反馈。
2)序列拼接所谓序列拼接,就是把全基因组霰弹法(又称鸟枪法)随机测序得到的样品序列组装成连续的重叠群(contig),主要利用它们之间的重叠序列作参考。考虑到测序中存在载体的影响,需要先对样品序列进行去载体处理。这里所用的软件cross match和后面拼接所用的软件Phrap都是美国Washington大学的软件(Gordon D,Abajian C,1998),其基本原理为Swith-Waterman算法(WatermanMS,1990)。这是一种动态算法,在考虑了两两序列之间的比较之后,可以得到一组序列的公有序列(consensus sequence)。去除载体后的样品序列再用Phrap进行拼接。在拼接时,碱基的测序质量也被考虑了,所得到的公有充列各碱基的可信度,由组成该公有序列的样品的测序质量计算得到。
3)基因注释在大体得到基因组的大部分序列(完成工作框架图)后,就需要对基因组进行注释,包括进行开放阅读框架(Open Reading Frame,ORF)的预测,基因功能的预测,以及特殊RNA片段的分析等。
第一步采用缺省参数的GLIMMER2.0(Delcher,A.L.,Harmon,D.1999)和ORPHEUS(Frishman,D.1998)软件预测基因编码序列,然后所有预测的开读框和非编码区(intergenic region)都用BLAST软件(Altschul,S.F.et al.1997)与NCBI(美国国家生物技术信息中心)的无冗余蛋白数据库(non-redundant proteindatabase)比较来发现可能漏掉的基因。在判断一个基因的起始点时,将参考各种相关信息,如序列同源性,核糖体结合位点,可能的信号肽序列和启动子序列等。如果在一个开放阅读框内出现多个启动子时,一般采用第一个启动子作为基因的起始点。采用Trans Term软件(Ermolaeva,M.D.2000)在非编码区预测不依赖于Rho(ρ)因子的转录终止子。如果该终止子位于一个基因的下游区的太远处,则可能暗示一个小基因的丢失或测序错误人为地缩短了该基因,可作为进一步分析的参考。在确定移框突变和点突变时,主要根据与数据库中的蛋白质的相似性来判断。如果出现一个蛋白质对应于两个彼此相邻的编码序列的情况,则被认为是一个无活性基因(假基因seudogenes),因为这说明这两个编码序列之间由于突变而产生异常中止现象,进而使基因失去活性。所有分析结果再用Artemis sequence viewer软件(Rutherford,K.et al.2000)进行手工分析。一些明显与其它编码序列有重叠的开读框,长度小于150碱基对并且在已有数据库中没有同源性和其中没有明显的启动子或终止区域的开放阅读框将被去除。
蛋白质的功能片段(motif)和功能区域(domain)分别采用与Pfam、PRINTS、PROSITE、ProDom和SMART数据库进行比对分析,结果再用InterPro数据库(Apweiler,R.et al.2001)进行汇总分析。根据NCBI的COGs数据库(Tatusov,R.L.et al.2001)并且参照其他数据库的查询结果来确定蛋白质在COGs分类中的功能分类和可能的代谢途径。用TMHMM软件(Krogh,A.et al.2001)来确认膜蛋白、ABC转运蛋白和跨膜功能域。采用革兰氏阴性菌为参数,用SIGNALP2.0软件(Nielsen,H.et al.1999)分析信号肽区域。4)补洞在完成基因组的工作框架图之后,就要进行更加困难的补洞工作,即完成整个基因组100%的测序,得到一个环形基因组。主要工作就是把前面得到的contig连接起来。主要方法包括A.利用测序中的正反向测序样品信息在测序过程中,我们有意对某些样品进行了双向测序,即同时测序某个插入片段的两端,再将所得序列与其他序列一起进行拼接。由于这一对序列在基因组上的关系一定,它们之间的距离大致已知,根据这一信息,一可以确认某段contig是否可靠,二是当这一对序列分别位于不同的contig上时,可以确定这两个contig的方向关系和位置关系,为进一步设计实验提供参考。
B.长插入片段及装备型载体粘粒(Cosmid)末端测序基于同样的原理,我们可以构建不同长度的插入片段文库,只对其两端测序,然后拼接,分析其具体位置。这些文库包括长度为9-12Kb的长插入片段库和20-40Kb左右的Cosmid文库。具体分析方法同上所述。
C.PCR和末端延伸(Walking)实验根据上述步骤A和B所提供的contig的方向和位置关系,进一步的生物化学实验就可以进行了。如设计一对引物进行PCR扩增,或以某一contig末端序列合成引物进行末端延伸(Walking)来补洞等。
实施例4分支酸合酶的制备和提纯根据实施例中基因注释得到的分支酸合酶基因全长编码序列(SEQ IDNO.1),设计出能扩增出完整编码阅读框的引物,并在正反引物上分别引入限制性内切酶位点,以便构建表达载体。以实施例1中获得的测序文库的质粒DNA为模板,经PCR扩增后,在保证阅读框正确的前提下重组至pGEX-2T载体(Pharmacia,Piscataway,NJ)。再将重组载体转化入大肠杆菌DH5α中(转化方法为CaCL2法或电转化法)。筛选鉴定得到的含有表达载体的工程菌DH5α-pGEX-2T-AroC。
挑取单菌落的工程菌DH5α-pGEX-2T-AroC于3ml含100μg/ml氨苄青霉素的LB培养基中振摇培养37℃过夜,按1∶100的浓度吸取培养液于新的LB培养基(含100μg/ml氨苄青霉素)中培养约3小时,至OD600达0.5后,加入IPTG至终浓度1mmol/L,继续于37℃分别培养0,1,2,3小时。取培养时间不同的1ml菌液离心,在细菌沉淀物中加入裂解液(2×SDS上样缓冲液50μl,蒸馏水45μl,二巯基乙醇5μl),混悬细菌沉淀,沸水浴中煮5分钟,10000rpm离心1分钟,上清加入12%SDS-PAGE胶中电泳。染色后观察预期分子量大小的蛋白量随IPTG诱导时间增加而增加的菌株即为表达所需蛋白的工程菌。
按上述方法诱导表达所需蛋白的工程菌后,将细菌离心沉淀,按每400ml菌加入20ml PBS饱和的50%谷胱苷肽Sepharose 4B,37℃振摇结合30分钟,10000rpm离心10分钟沉淀结合了所需蛋白的谷胱苷肽Sepharose 4B,弃上清。
按每毫升超声液所得沉淀加入100μl还原型谷胱苷肽洗脱液,室温置10分钟,上清即为洗脱的蛋白。重复洗脱两次。洗脱的上清保存于-80℃,并进行SDS-PAGE SEQ ID NO.1电泳,检测纯化效果。在38673道尔顿处的蛋白质条带即为分支酸合酶。
序列表1、EQ ID NO.1(1)序列特征a.长度1053碱基对b.类型DNAc.链型双链d.几何结构线性(2)分子类型核苷酸(3)序列描述atgagatatcttacagctggagaatcacacggggaggctttgattgccattattgaagggcttccttcaaatctttttattgatgcagaatttatcaataaagagctggaaagaagacaaaaaggctacggcagaggaggaaggatggctattgaaaaagatgaaatacatataataagtggggtaagggatgggaagactactggtgcccctcttgcaatggagattaaaaatagggattataaaaactggaaggataaaaaggttcctcctgtcacaaggcccaggccaggacatgcagatttacccggttctattaagtataaccagagggatataagaaatattttggaaagagccagtgccagagagacggcggcaagggtggcagttggaagtgttgccaagcttctcttgaaagaattgaatatatctttaaaaagcagagttttggagattggaggagcaaaaagagaagaaaagtggaaaaggcttattgaaaaagcgaaaaaagaaggggatactctgggaggaataatagagattgtgattgaaggggtgcctgttgggctgggaagccatgctcagtgggatagaaagttggatgcgttactcgcttatcatgtgatgagcgttcaaggcataaaaggtgttgaatttggactgggatttgaggcggcaagacttcccggatcgctggtgcacgatgatatatattacaaggaaaacgagggtttttatagaaagacgaataatgccggaggcattgagggaggcatgtcaaacgggaatcctatagtgataagggctgctatgaagccaattcccactcttttacggcctcttgactctgtggatatagctacaaaagaagagacaaaagctatttatgaaaggtcggatgtcactgctgttgaagctgctgcttgtgttttggaggctgtctgtgcatgggtgattgctgatgaatgccttaaaaaatttggcggtgattcagttgaggagctaaaaagaaactatgatacttatttagcatatgtgagaagtttttga2.SEQ ID NO.2(1)序列特征a.长度350氨基酸b.类型多肽c.链型单链d.几何结构立体(2)分子类型蛋白质(3)序列描述MRYLTAGESHGEALIAIIEGLPSNLFIDAEFINKELERRQKGYGRGGRMAIEKDEIHIISGVRDGKTTGAPLAMEIKNRDYKNWKDKKVPPVTRPRPGHADLPGSIKYNQRDIRNILERASARETAARVAVGSVAKLLLKELNISLKSRVLEIGGAKREEKWKRLIEKAKKEGDTLGGIIEIVIEGVPVGLGSHAQWDRKLDALLAYHVMSVQGIKGVEFGLGFEAARLPGSLVHDDIYYKENEGFYRKTNNAGGIEGGMSNGNPIVIRAAMKPIPTLLRPLDSVDIATKEETKAIYERSDVTAVEAAACVLEAVCAWVIADECLKKFGGDSVEELKRNYDTYLAYVRSF
权利要求
1.一种分离的DNA分子,其特征在于是编码具有耐高温分支酸合酶蛋白活性的多肽的核苷酸序列。
2.如权利要求1所述的DNA分子,其特征在于所说的核苷酸序列编码具有SEQ ID NO.2中的氨基酸序列的多肽或该多肽的修饰形式,该修饰形式在功能上与耐高温分支酸合酶相当或相关。
3.如权利要求1所述的DNA分子,其特征在于所说的核苷酸序列具有SEQ ID NO.1的多核苷酸序列以及它的突变形式,突变类型包括缺失、无义、插入、错义。
4.一种分离出的多肽,其特征在于它具有耐高温分支酸合酶活性。
5.如权利要求4所述的多肽,其特征在于它具有SEQ ID No.2中的氨基酸序列的多肽、或其保守性变异多肽、或其活性片段、或其活性衍生物。
6.一种载体,其特征在于它含有权利要求1中之DNA。
7.一种宿主细胞,其特征在于它是用权利要求6所述载体转化的原核细胞或真核细胞。
8.一种制备耐高温分支酸合酶的方法,其特征在于该方法包括如下步骤1)分离出编码耐高温分支酸合酶基因的核苷酸序列SEQ ID NO.1;2)构建含有SEQ ID NO.1的核苷酸序列的表达载体;3)将步骤2)中表达载体转入宿主细胞,形成能生产耐高温分支酸合酶的重组细胞;4)培养步骤3)中的重组细胞;5)分离、纯化得到耐高温分支酸合酶。
全文摘要
本发明公开了一种耐高温分支酸合酶基因及其编码的多肽和制备方法。它涉及编码具有耐高温分支酸合酶活性或其功能等同变异体的分离的DNA及利用重组DNA技术以所述分离的DNA生产具有耐高温分支酸合酶活性的多肽或其功能等同变异体。本发明以腾冲嗜热厌氧菌全基因组测序与分析为基础,克隆分离了耐高温分支酸合酶基因。利用该基因生产耐高温分支酸合酶的转基因微生物或转基因动植物,并回收获得该基因编码的酶。另外,本发明还提供了具有耐高温分支酸合酶活性的多肽的氨基酸序列及功能等同体。同时,本发明还提供了制备、分离、纯化具有耐高温分支酸合酶活性的多肽的方法。
文档编号C12N15/52GK1367249SQ0114558
公开日2002年9月4日 申请日期2001年12月27日 优先权日2001年12月27日
发明者汪建, 于军, 卢小羽, 冯小黎, 胡松年 申请人:杭州华大基因研发中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1