专利名称:Arcelin-5启动子及其应用的制作方法
技术领域:
本发明主要涉及植物遗传学领域。更具体地,本发明涉及植物中的基因表达。本发明提供了能在植物中高水平转录外源核酸序列的启动子,以及修饰、制备和应用所述启动子的方法。本发明还提供了含有高表达启动子的转化的宿主细胞,转基因植物,和种子,以及它们的制备和应用方法。
背景技术:
植物和种子为人类和牲畜提供食用蛋白的重要来源。但植物和种子的蛋白营养通常不全面。例如,很多植物和种子蛋白缺少一或多种必需氨基酸。这种缺陷可通过遗传手段强化天然蛋白、使它们具有营养更全面的氨基酸组成(或其它一些所需特点)来克服。或者,可将具有所需特性的非天然(或异源)蛋白引入植物或种子。这些方法可用于制备具有重要的农业特性(如杀虫特性)、营养特性和药用特性的蛋白。
尽管目前已有多种分子工具,但由于基因工程蛋白的积累量不足,致使对植物和种子的遗传修饰仍常常受到限制。多种细胞内过程可能影响蛋白积累总量,所述过程包括转录、翻译、蛋白装配和折叠、甲基化、磷酸化、转运、以及蛋白裂解。对一或多种这样的过程进行干预可增加基因工程改造的植物和种子中所产生的蛋白的量。
例如,提高胞质中mRNA的稳态水平通常可增加翻译出的蛋白的积累量。很多因素可导致胞质中mRNA的稳态水平提高,包括由启动子强度所控制的转录速度和其它调节特性,mRNA加工的效力,和mRNA的总体稳定性。
在这些因素中,基因的启动子部分起关键作用。沿启动子区,可集合转录机制并启动转录。这一早期步骤与产生蛋白质的后续阶段相比常常为限速步骤。在启动子位置发生的转录起始可通过多种途径调节。例如,在有特定化合物存在的情况下诱导启动子,仅在特定组织中表达基因,或对编码序列进行组成型表达。因此,可将编码序列与具有不同调节特性的启动子可操作连接,以此修饰编码序列的转录。
来自种子贮藏蛋白的基因的启动子通常能进行高水平的表达。例如,菜豆(Phaseolus vulgaris)的种子通常包含大量的菜豆蛋白(36-46%,w/w),球蛋白-2(5-12%),清蛋白(12-16%)和谷醇溶蛋白(2-4%)。因此,来自这些基因的启动子可用于表达高水平的异源结构核酸序列。
但即使是这些强启动子的转录活性在不同植物之间也有差异。例如,多种启动子在烟草、矮牵牛和拟南芥中比7Sα’启动子具有更强的活性。但这些启动子没有一种被证实在转基因大豆植物中具有可比拟的活性。因此,在一种植物物种或品种中具有功能的启动子,在另一种植物物种或品种中可能不具有相似水平或形式的功能。
Romero等报道了一种新的种子蛋白,它来自产于Arcelia,Mexico的菜豆(P.vulgaris)(登录号PI 325690;CIAT 12882B)。因此将这种蛋白称为Arcelin(Andreas等,1986;Osborn等,1986)。后来又报道了数种Arcelin变体(例如,登录号为PI 417683的Arcelin-3(CIAT No.G12922);登录号为PI417775的Arcelin-4(CIAT No.G12949))。其中一种变体,Arcelin-5由Lioi等报道(Lioi and Bollini,1989)。Arcelin-5的cDNA由Goossens等描述(Goossens等,1994)。
Arcelin-5的一种基因组克隆包括未限定的5’和3’区,据报道它在转基因植物中表达。该未限定区包括Arcelin-5编码区5’侧的约1.8kb碱基对。在拟南芥和Phaseolus acutifolius中都报道了表达(Goossens等,1999)。但这种表达比最初鉴定出Arcelin-5的野生型菜豆中的表达水平低。可见,遗传背景对于调节Arcelin-5的表达很重要。而且,由于Goosens使用的是Arcelin-5的完整基因组克隆,因此Arcelin-5启动子的相对强度并不清楚。尽管报道了各种Arcelin的表达,但目前对这类Arcelin启动子在诸如玉米和大豆等作物中的效力仍一无所知。所以该领域仍需要能在重要的作物物种(如玉米和大豆)中进行相对高水平转录的启动子。
发明简述本发明提供了能在植物中高水平转录异源结构核酸序列的启动子,以及修饰、制备、和应用所述启动子的方法。本发明还提供了含有高表达的所述启动子的组合物、转化的宿主细胞、转基因植物、和种子,以及它们的制备和应用方法。
本发明包括并提供了一种转化的大豆植物细胞,它含有一种核酸分子,所述分子沿5’-3’方向依次包含具有与SEQ ID NO1至少94%相同的核酸序列的启动子;可操作连接至结构核酸序列;其中所述启动子与所述结构核酸序列来源不同。
本发明包括并提供了一种转基因大豆植物细胞,它含有一种核酸分子,所述分子沿5’-3’方向依次包含具有与SEQ ID NO1至少94%相同的核酸序列的启动子;可操作连接至结构核酸序列;其中所述启动子与所述结构核酸序列来源不同。
本发明包括并提供了一种转化的大豆植物细胞,它含有一种核酸分子,所述分子沿5’-3’方向依次包含启动子以及与其可操作连接的异源结构核酸序列。所述启动子优选在严格条件下与SEQ ID NO1或其互补序列杂交;或者与SEQ ID NO1至少94%相同。
本发明包括并提供了一种转基因大豆植物细胞,它含有一种核酸分子,所述分子沿5’-3’方向依次包含启动子以及与其可操作连接的异源结构核酸序列。所述启动子优选在严格条件下与SEQ ID NO1或其互补序列杂交;或者与SEQ ID NO1至少94%相同。
本发明包括并提供了一种转化的植物细胞,它含有一种核酸分子,所述分子沿5’-3’方向依次包含启动子以及与其可操作连接的异源结构核酸序列。所述启动子优选在严格条件下与SEQ ID NO1或其互补序列杂交;或者与SEQ ID NO1至少94%相同。
本发明包括并提供了一种转基因植物细胞,它含有一种核酸分子,所述分子沿5’-3’方向依次包含启动子以及与其可操作连接的异源结构核酸序列。所述启动子优选在严格条件下与SEQ ID NO1或其互补序列杂交;或者与SEQ ID NO1至少94%相同。
本发明包括并提供了一种转化植物细胞的方法。所述方法主要包括提供一种核酸分子并用所述核酸分子来转化植物细胞,其中所述核酸分子沿5’-3’方向包含启动子以及与其可操作连接的异源结构核酸序列。所述启动子优选在严格条件下与SEQ ID NO1或其互补序列杂交;或者与SEQ IDNO1至少94%相同。
本发明包括并提供了一种制备转基因植物的方法。所述方法主要包括提供一种核酸分子、用所述核酸分子来转化植物细胞、并在能产生植物的条件下培养已被转化的植物细胞,其中所述核酸分子沿5’-3’方向包含启动子以及与其可操作连接的异源结构核酸序列。所述启动子优选在严格条件下与SEQ ID NO1或其互补序列杂交;或者与SEQ ID NO1至少94%相同。
序列简述SEQ ID NO1是菜豆引进种基因型(exotic genotype)G02771 Arcelin-5启动子序列的截短型。
SEQ ID NO2是菜豆引进种基因型G02771 Arcelin-5启动子序列的截短型。
SEQ ID NO3是GmHSP17.9 5’UTR序列。
SEQ ID NO4是PetHSP70 5’UTR序列。
SEQ ID NO5是GmdSSU 5’UTR序列。
SEQ ID NO6是ADR12 3’终止子序列。
SEQ ID NO7是E9 3’终止子序列。
SEQ ID NO8是Arc5 3’终止子序列。
SEQ ID NO9是Arcelin-3启动子序列,如图1所示。
SEQ ID NO10是Arcelin-4启动子序列,如图1所示。
SEQ ID NO11是Arcelin-5启动子序列,如图1所示。
SEQ ID NO12是Arcelin-3启动子序列,如图4a-e所示。
SEQ ID NO13是Arcelin-4启动子序列,如图4a-e所示。
SEQ ID NO14是Arcelin-5启动子序列,如图4a-e所示。
图1是Arcelin-3,Arcelin-4,和Arcelin-5启动子的部分核酸序列的序列比对。序列之间的差异已经标明。
图2比较了Arcelin-3,Arcelin-4,和Arcelin-5启动子在瞬时转化的大豆组织中的启动子活性。
图3比较了Arcelin启动子与7Sα’启动子在转基因大豆种子中的启动子活性。
图4a,4b,4c,4d,和4e显示Arcelin-3,Arcelin-4,和Arcelin-5启动子全长核酸序列的序列比对。
图5显示各种具有Arcelin-5启动子序列的构建体。
图6显示pMON55540的质粒图谱。
图7为柱形图,显示具有Arcelin-5启动子序列的各种构建体的活性。
定义以下定义有助于理解发明详述。
术语“Arcelin-5启动子”是指由Arcelin-5编码序列的转录起始位点的5’侧区域衍生或构建的启动子区。Arcelin-5启动子进一步被限定为不同于Arcelin-1(Osborn等Science,240207-210,1988),-2(John等,Gene 86171-176,1990),-3,或-4(Mirkov等,Plant Mol.Biol.,261103-1113,1994)启动子。
术语“编码序列”,“结构序列”以及“结构核酸序列”是指一种包含有序排列的核酸的物理结构。所述核酸以一组核酸三联体的形式排列,其中每一个三联体形成一个密码子。每一密码子编码一种具体的氨基酸。因此,编码序列、结构序列、和结构核酸序列编码一系列氨基酸,这些氨基酸形成蛋白、多肽、或肽序列。编码序列,结构序列,和结构核酸序列可以包含在较大的核酸分子、载体等结构中。此外,这些序列中核酸的有序排列可以用序列表、附图、附表、电子媒介等形式进行描述。
术语“DNA序列”和“核酸序列”是指一种包含有序排列的核酸的物理结构。所述DNA序列或核酸序列可以包含在较大的核酸分子、载体等结构中。此外,这些序列中核酸的有序排列可以用序列表、附图、附表、电子媒介等形式进行描述。
术语“表达”是指基因转录,产生相应的mRNA,并翻译该mRNA以产生相应的基因产物(即,肽,多肽,或蛋白)。
术语“反义RNA的表达”是指对DNA进行转录,从而产生第一种RNA分子,后者能与第二种RNA分子杂交。RNA-RNA杂合体的形成可抑制第二种RNA分子翻译出基因产物。
术语“基因”是指编码肽、多肽、蛋白、或RNA分子的染色体DNA、质粒DNA、cDNA、合成的DNA、或其它DNA。
“同源性”是指两个或多个核酸序列或氨基酸序列之间以位置同一性百分比表示的相似性(即,序列相似性或同一性)。同源性还指不同的核酸或蛋白之间相似的功能特性的概念。
术语“异源”是指两个或更多个不同来源的核酸序列或蛋白序列之间的关系。例如,启动子如果在自然界通常的情况中不与编码序列组合在一起,那么该启动子相对于该编码序列是异源的。此外,一个具体序列可以相对于它插入至其中的细胞或生物为“异源”的(即,并非该具体细胞或生物所天然具有的)。
“杂交”是指一条核酸链与一条互补链通过碱基配对来相连的能力。当两条核酸链中的互补核酸序列在适当条件下彼此相遇,就可发生杂交。
术语“可操作相连”是指两个或更多个核酸区域或核酸序列的功能性空间排列。例如,启动子区相对于核酸序列的位置可以使该核酸序列在该启动子区的指导下进行转录。此时,该启动子区与该核酸序列“可操作相连”。
术语“启动子”或“启动子区”是指通常发现于编码序列上游(5’)的、能指导该核酸序列转录为mRNA的一种核酸序列。启动子或启动子区通常提供RNA聚合酶的识别位点以及转录的正确起始所需的其它因子。本文中,启动子或启动子区包括通过插入或缺失调节区,对启动子进行随机或定点诱变等方式而进行改变的启动子。启动子的活性或强度如下测量将其在细胞或组织中产生的RNA的量,或积累的蛋白的量,与已经评估过转录活性的启动子进行比较。
术语“重组载体”是指诸如质粒、粘粒、病毒、自我复制序列、噬菌体、线性或环状单链或双链DNA或RNA核苷酸序列等任何物质。重组载体可以来自任何来源,它能进行基因组整合或自我复制,它包含与一或多个核酸序列可操作相连的启动子核酸序列。重组载体通常用于将所述可操作相连的序列引入适当的宿主。
“调节序列”是指位于编码序列上游(5’)、内部或下游(3’)的核苷酸序列。编码序列的转录和表达通常受到调节序列存在与否的影响。
术语“充分同源”是指,根据本文所述BestFit程序(版本10;GeneticsComputer Group,Inc.,University of Wisconsin Biotechnology Center,Madison,WI)以默认参数测定,序列同一性至少90%的两个序列。
术语“转化”是指核酸引入受体宿主的过程。术语“宿主”是指细菌细胞,真菌,动物和动物细胞,植物和植物细胞,或任何植物部分或组织包括原生质体,愈伤组织,根,块茎,种子,茎,叶,幼苗,胚和花粉。
优选实施方案详述本发明提供能在植物中高水平转录异源结构核酸序列的启动子,以及修饰、制备和应用该启动子的方法。本发明还提供含有该高表达启动子的组合物,转化的宿主细胞,转基因植物,和种子,以及它们的制备和应用方法。
启动子本发明提供一种启动子,它具有与SEQ ID NO1杂交的核酸序列,其互补链,或其任何片段。本发明还提供一种启动子,它具有SEQ ID NO1的核酸序列,其互补链,或其任何片段。
本发明提供一种启动子,它具有与SEQ ID NO2杂交的核酸序列,其互补链,或其任何片段。本发明还提供一种启动子,它具有SEQ ID NO2的核酸序列,其互补链,或其任何片段。
本发明提供一种启动子,它具有与SEQ ID NO14杂交的核酸序列,其互补链,或其任何片段。本发明还提供一种启动子,它具有SEQ ID NO14的核酸序列,其互补链,或其任何片段。
核酸杂交是DNA操作领域技术人员已知的技术。一对具体核酸的杂交特性可指示它们的相似性或同一性。
可用低严格度条件选出与靶核酸序列同一性较低的核酸序列。所述条件可以是,约0.15M-约0.9M氯化钠,约20℃-约55℃。
可用高严格度条件选出与已公开的核酸序列(Sambrook等,1989)同一性较高的核酸序列。
高严格度条件通常包括在约2X-约10X SSC(由含有3M氯化钠和0.3M柠檬酸钠的20X SSC原液,pH 7.0用蒸馏水稀释而成),约2.5X-约5X Denhardt溶液(由含有1%(w/v)牛血清白蛋白,1%(w/v)ficoll,和1%(w/v)聚乙烯吡硌烷酮的50X原液用蒸馏水稀释而成),约10mg/mL-约100mg/mL鱼精DNA,以及约0.02%(w/v)-约0.1%(w/v)SDS中进行核酸杂交,于大约50℃-大约70℃保温数小时-过夜。优选高严格度条件为6X SSC,5X Denhardt溶液,100mg/mL鱼精DNA,和0.1%(w/v)SDS,55℃保温数小时。
杂交之后通常进行数个洗涤步骤。洗涤组合物通常包含约0.5X-约10X SSC,以及0.01%(w/v)-约0.5%(w/v)SDS,约20℃-约70℃保温15分钟。优选地,当在0.1X SSC中65℃洗涤至少一次以后,核酸片段仍保持杂交。
启动子的核酸序列优选在低或高严格度条件下与SEQ ID NO1,其互补链,或其任何片段杂交。最优选,启动子在高严格度条件下与SEQ ID NO1,其互补链,或其任何片段杂交。
在另一实施方案中,启动子包含与SEQ ID NO1至少有85%相同的核酸序列,更优选至少86,87,88,89,90,91,92,93,94,95,96,97,98,或99%相同。最优选启动子包含或就是SEQ ID NO1。
启动子的核酸序列优选在低或高严格度条件下与SEQ ID NO2,其互补链,或其任何片段杂交。最优选,启动子在高严格度条件下与SEQ ID NO2,其互补链,或其任何片段杂交。
在另一实施方案中,启动子包含与SEQ ID NO2至少有85%相同的核酸序列,更优选至少86,87,88,89,90,91,92,93,94,95,96,97,98,或99%相同。最优选启动子包含或就是SEQ ID NO2。
启动子的核酸序列优选在低或高严格度条件下与SEQ ID NO14,其互补链,或其任何片段杂交。最优选,启动子在高严格度条件下与SEQ ID NO14,其互补链,或其任何片段杂交。
在另一实施方案中,启动子包含与SEQ ID NO14至少有85%相同的核酸序列,更优选至少86,87,88,89,90,91,92,93,94,95,96,97,98,或99%相同。最优选启动子包含或就是SEQ ID NO14。
序列同一性百分比优选用序列分析软件包(版本10;Genetics ComputerGroup,Inc.,University of Wisconsin Biotechnology Center,Madison,WI)的“Best Fit”或“Gap”程序来确定。“Gap”是利用Needleman和Wunsch的算法(Needleman and Wunsch,1970)来找出两个序列的对比排列,它使匹配数最大并使空隙数最小。“BestFit”是对两个序列之间的最相似片段进行最佳对比排列,它还插入空隙以便使匹配数最大,它利用Smith和Waterman的局部同源性算法(Smith and Waterman,1981;Smith等,1983)。同一性百分比最优选用“Best Fit”程序来确定。
本发明还提供了SEQ ID NO1的核酸分子片段,与具有SEQ ID NO1的核酸分子杂交的核酸分子片段,与SEQ ID NO1有序列同一性的核酸分子片段,以及上述任一种分子的互补体。
本发明还提供了SEQ ID NO2的核酸分子片段,与具有SEQ ID NO2的核酸分子杂交的核酸分子片段,与SEQ ID NO2有序列同一性的核酸分子片段,以及上述任一种分子的互补体。
本发明还提供了SEQ ID NO14的核酸分子片段,与具有SEQ ID NO14的核酸分子杂交的核酸分子片段,与SEQ ID NO14有序列同一性的核酸分子片段,以及上述任一种分子的互补体。
在另一实施方案中,所述片段的长度为250-15个核苷酸,更优选150-15个核苷酸,更优选100-15个核苷酸,50-15个核苷酸或25-15个核苷酸。在另一优选实施方案中,所述片段的长度为250-50个核苷酸,更优选150-15个核苷酸,更优选100-50个核苷酸,50-25个核苷酸或25-20个核苷酸。在另一实施方案中,所述片段的长度为250-100个核苷酸,更优选150-100个核苷酸,更优选100-75个核苷酸。
启动子活性启动子的活性或强度可用RNA的量或该RNA所特别产生的蛋白积累量相对于细胞性RNA或蛋白的总量来定量。所述启动子优选表达可操作连接的核酸序列,其水平占细胞性RNA或蛋白总量的2.5%以上;更优选占5,6,7,8,或9%以上;还更优选占10,11,12,13,14,15,16,17,18,或19%以上;最优选占20%以上。
或者,启动子的活性或强度可表示为已知启动子(其转录活性已经过评估)的相对量。例如,可将一种了解不多的启动子与报告序列(例如,GUS)可操作相连,并将其引入特定类型的细胞。用类似方法制备已知启动子(例如7Sα’启动子),将其引入相同的细胞内环境中。通过比较相对于已知启动子而言的报告分子表达量,可确定未知启动子的转录活性。在此公开的启动子的活性优选在相同的细胞内环境中与7Sα’启动子的活性强度相同。细胞内环境优选canola,大豆,或玉米;最优选大豆。
结构核酸序列本发明的启动子可与异源结构核酸序列可操作相连。该结构核酸序列通常是希望提高转录水平的任何核酸序列。优选结构核酸序列编码一种适于掺入人或动物膳食之中的多肽。适当的结构核酸序列包括编码下列蛋白的那些种子贮藏蛋白,抗除草剂蛋白,抗病蛋白,脂肪酸生物合成酶,维生素E生物合成酶,氨基酸生物合成酶,或杀虫蛋白。优选的结构核酸序列包括,但不限于,γ甲基转移酶、叶绿基异戊烯转移酶、β-酮脂酰-CoA合酶、脂酰CoA还原酶、脂酰CoA脂醇转酰酶、邻氨基苯甲酸合酶、苏氨酸脱氨酶、乙酰羟酸合成酶、天冬氨酸激酶、二羟酸合成酶、天冬氨酸激酶、二氢吡啶甲酸合成酶、硫酯酶、7Sα’种子贮藏蛋白、11S种子贮藏蛋白、大豆球蛋白、β-conglycinin、菜豆蛋白、玉米球蛋白-1、玉米醇溶蛋白、种子清蛋白、或种子凝集素。
或者,可通过设计启动子和结构核酸序列来下调特定的核酸序列。这通常通过将启动子与反义取向的结构核酸序列相连来实现。本领域技术人员很熟悉这类反义技术。简短说,转录出反义核酸序列后,它与互补核酸序列杂交并使后者被封闭(sequester)在细胞内侧。这种双链RNA分子不能通过细胞的翻译机制翻译出蛋白。如此一来,由于后续翻译步骤中断,细胞中的互补序列被有效下调。
任何核酸序列都可以通过这种方式进行负调节。这种调节作用的目标包括含有较少量的必需氨基酸、但在特定组织中以相对较高的水平表达的多肽。例如,β-conglycinin和大豆球蛋白都能在种子中大量表达,但在营养方面欠缺必需氨基酸。这种反义方法也可以用于有效除去植物性食品中的其它不想要的蛋白,如拒食剂(例如,凝集素),清蛋白,和变应原。
修饰的结构核酸序列本发明的启动子还可与异源的修饰型结构核酸序列相连。可以对结构核酸序列进行修饰,以便提供各种所需特性。例如,可以对结构核酸序列进行修饰以增加必需氨基酸的含量,促进对氨基酸序列的翻译,改变翻译后修饰(例如,磷酸化位点),将翻译出的产物转运至细胞的内侧或外侧的空间中,增加蛋白的稳定性,插入或删除细胞信号传递基序,等等。
在一优选实施方案中,结构核酸序列被强化,使得能编码如下的多肽,该多肽中至少1种,更优选2,3,或4中选自下组的必需氨基酸的含量增加组氨酸,赖氨酸,甲硫氨酸和苯丙氨酸。必要时,也可以添加非必需氨基酸以强化多肽的结构和营养性。特别适于这类强化作用的结构核酸序列包括,编码表达水平相对较高和/或必需氨基酸的含量特别低的天然多肽的那些。实例如种子贮藏蛋白,如大豆球蛋白和β-conglycinin。其它合适的目标包括菜豆蛋白,凝集素,玉米醇溶蛋白和清蛋白。
在另一实施方案中,结构核酸序列经过修饰后,相对于改造前的结构核酸序列,能编码瘤胃抗性增强和/或对蛋白裂解性降解作用的抗性增强的多肽。修饰的结构核酸序列通常编码适于掺入动物膳食中的任何多肽。修饰的结构核酸序列优选编码在给定的植物组织中以相对较高的浓度表达的多肽,如种子贮藏蛋白。
结构核酸序列中的密码子应用特点由于遗传密码的简并性,可以用不同的核苷酸密码子编码给定的氨基酸。宿主细胞常常表现出优选的密码子应用模式。优选结构核酸序列经过构建能利用给定宿主细胞的密码子应用模式。这通常能增强该结构核酸序列在转化的宿主细胞中的表达。可对上述任一种核酸或氨基酸序列进行修饰,以反映容纳它们的宿主细胞或生物优选的密码子应用特性。在植物中修饰结构核酸序列,使密码子应用最优化的方法可参见美国专利5,689,052。
对结构核酸序列的其它修饰上述结构核酸序列中的其它变化可编码出与改造前的蛋白相比等效或更优秀的蛋白。突变包括对基序序列进行缺失,插入,截短,取代,融合,改组等。
对结构核酸序列的突变可通过特定方式或随机方式引入,这两种方式都是分子生物学领域技术人员已知的。定点诱变技术有很多种,它们通常利用寡核苷酸将突变引入结构核酸序列中的特定位置。实例包括单链挽救(Kunkel等,1985),唯一位点的消除(Deng和Nickloff,1992),缺口保护(Vandeyar等,1988),及PCR(Costa等,1996)。随机或非特异性突变,可通过化学试剂产生(综述参见,Singer和Kusmierek,1982),如亚硝基胍(Cerda-Olmedo等,1968;Guerola等,1971)和2-氨基嘌呤(Rogan和Bessman,1970);或通过生物学方法产生,如由突变株传代(Greener等,1997)。
修饰可以在氨基酸序列中导致保守或非保守的改变。保守改变源自对结构核酸序列进行不改变蛋白的最终氨基酸序列的添加、缺失、取代等。在一个优选实施方案中,蛋白包含0-500个保守改变,更优选0-300个保守改变,还更优选0-150个保守改变,最优选0-75个保守改变。
非保守改变包括能导致氨基酸序列发生改变的那些添加、缺失和取代。在一优选实施方案中,蛋白包含0-250个非保守氨基酸改变,更优选0-100个非保守氨基酸改变,还更优选0-50个非保守氨基酸改变,最优选0-30非保守氨基酸改变。
产生上述改变的其它方法可参见Ausubel等(1995);Bauer等(1985);Craik(1985);Frits Eckstein等(1982);Sambrook等(1989);Smith等(1981);以及Osuna等(1994)。
可以对本发明的蛋白序列以及编码它们的核酸节段进行修饰但保留所述分子的所需特性。以下是关于对蛋白的氨基酸序列进行改变来产生等效,或者可能更优良的第二代分子的讨论。氨基酸改变可以通过改变结构核酸序列的密码子来实现,密码子参见表1。
表1氨基酸的密码子简并性
可以在不明显损失所需活性的前题下,将蛋白序列中特定的氨基酸取代为其它氨基酸。从这一点上来看,可以在所公开的蛋白序列的肽序列,或它们的相应核酸序列中进行多种改变而不明显损失生物活性。
在制造这类改变时,可考虑氨基酸的疏水/亲水倾向性指数。氨基酸的疏水/亲水倾向性指数在赋于蛋白质以交互式生物功能方面的重要性已为领域内广泛理解(Kyte和Doolittle,1982)。可以接受的是,氨基酸的相对疏水/亲水倾向性决定所得蛋白的二级结构,而后者又限定了该蛋白与其它分子,如酶,底物,受体,DNA,抗体,抗原等的相互作用。
每种氨基酸基于其疏水性和荷电特性而分配了一个疏水/亲水倾向性指数。具体是异亮氨酸(+4.5);缬氨酸(+4.2);亮氨酸(+3.8);苯丙氨酸(+2.8);半胱氨酸/半胱氨酸(+2.5);甲硫氨酸(+1.9);丙氨酸(+1.8);甘氨酸(-0.4);苏氨酸(-0.7);丝氨酸(-0.8);色氨酸(-0.9);酪氨酸(-1.3);脯氨酸(-1.6);组氨酸(-3.2);谷氨酸/谷氨酰胺/天冬氨酸/天冬酰胺(-3.5);赖氨酸(-3.9);精氨酸(-4.5)。
本领域已知,特定氨基酸可以被具有相似疏水/亲水倾向性指数或评分的其它氨基酸取代,所得蛋白质仍具有相似的生物活性,即,仍能获得生物功能性蛋白。在制造这类改变时,疏水/亲水倾向性指数在±2以内的氨基酸的取代为优选,在±1以内的为更优选,在±0.5以内的为最优选。
本领域也能理解,可以在亲水性的基础上有效地进行相似氨基酸的取代。美国专利4,554,101(Hopp,T.P.,1985年11月19日授权)称,一种蛋白质上受其邻接氨基酸的亲水性控制的最大局部平均亲水性与该蛋白的生物学特性相关。氨基酸的亲水值如下精氨酸/赖氨酸(+3.0);天冬氨酸/谷氨酸(+3.0±1);丝氨酸(+0.3);天冬酰胺/谷氨酰胺(+0.2);甘氨酸(0);苏氨酸(-0.4);脯氨酸(-0.5±1);丙氨酸/组氨酸(-0.5);半胱氨酸(-1.0);甲硫氨酸(-1.3);缬氨酸(-1.5);亮氨酸/异亮氨酸(-1.8);酪氨酸(-2.3);苯丙氨酸(-2.5);色氨酸(-3.4)。
可理解,一种氨基酸可以被具有相似的亲水评分值的另一种氨基酸取代,所得蛋白质仍具有相似的生物活性,即,仍能获得生物功能性蛋白。在制造这类改变时,疏水/亲水倾向性指数在±2以内的氨基酸的取代为优选,在±1以内的为更优选,在±0.5以内的为最优选。
综上所述,氨基酸取代因此是基于氨基酸侧链取代基的相对相似性,例如,它们的疏水性,亲水性,电荷,大小,等等。涉及上述多种特性的取代实例为本领域众所周知,它们包括精氨酸和赖氨酸;谷氨酸和天冬氨酸;丝氨酸和苏氨酸;谷氨酰胺和天冬酰胺;缬氨酸,亮氨酸,和异亮氨酸。对于不能预计有利的那些改变,如果能使所得的蛋白质与原始未经改造的多肽相比,瘤胃抗性增强和/或对蛋白裂解性降解作用的抗性增强,则也可以使用。
重组载体上述任何启动子和结构核酸序列都可提供在重组载体中。重组载体通常按5’至3’方向依次包含能指导结构核酸序列转录的启动子,以及结构核酸序列。重组载体还可根据需要而包含3’转录终止子,3’聚腺苷酸化信号,其它非翻译核酸序列,转位及靶向核酸序列,选择标记,增强子,和操纵子。
制备重组载体的方式为本领域已知。制备特别适于植物转化的重组载体的方法可参见美国专利4,971,908,4,940,835,4,769,061和4,757,011。对这些类型的载体已有综述(Rodriguez等,1988;Glick等,1993)。
用于在高等植物中进行核酸表达的典型载体为本领域已知,包括来自根癌土壤杆菌(Agrobacterium tumefaciens)的肿瘤诱导(Ti)质粒的载体(Rogers等,1987)。其它可用于植物转化的重组载体,包括pCaMVCN转移控制载体,也已有记载(Fromm等,1985)。
重组载体中的启动子重组载体中所用的启动子优选能在植物中高水平转录异源结构核酸序列。更优选,所述启动子与SEQ ID NO1,其互补链,或其任何片段杂交。适当的杂交条件如上所述。优选启动子的核酸序列在低度或高度严格条件下与SEQ ID NO1,其互补链,或其任何片段杂交。最优选启动子在高度严格条件下与SEQ ID NO1,其互补链,或其任何片段杂交。
在另一实施方案中,启动子包含与SEQ ID NO1有至少85%相同的序列,更优选至少86,87,88,89,90,91,92,93,94,95,96,97,98或99%相同。最优选启动子包含或者本身就是SEQ ID NO1。计算两个或更多个核酸序列的同一性百分比的优选方法如上所述。在另一实施方案中,启动子是如上所述的片段。
在另一实施方案中,所述启动子与SEQ ID NO2,其互补链,或其任何片段杂交。适当的杂交条件如上所述。优选启动子的核酸序列在低度或高度严格条件下与SEQ ID NO2,其互补链,或其任何片段杂交。最优选启动子在高度严格条件下与SEQ ID NO2,其互补链,或其任何片段杂交。
在另一实施方案中,启动子包含与SEQ ID NO2有至少85%相同的序列,更优选至少86,87,88,89,90,91,92,93,94,95,96,97,98或99%相同。最优选启动子包含或者本身就是SEQ ID NO2。计算两个或更多个核酸序列的同一性百分比的优选方法如上所述。在另一实施方案中,启动子是如上所述的片段。
在另一实施方案中,所述启动子与SEQ ID NO14,其互补链,或其任何片段杂交。适当的杂交条件如上所述。优选启动子的核酸序列在低度或高度严格条件下与SEQ ID NO14,其互补链,或其任何片段杂交。最优选启动子在高度严格条件下与SEQ ID NO14,其互补链,或其任何片段杂交。
在另一实施方案中,启动子包含与SEQ ID NO14有至少85%相同的序列,更优选至少86,87,88,89,90,91,92,93,94,95,96,97,98或99%相同。最优选启动子包含或者本身就是SEQ ID NO14。计算两个或更多个核酸序列的同一性百分比的优选方法如上所述。在另一实施方案中,启动子是如上所述的片段。
重组载体中的附加启动子重组载体中还可提供一个或更多个附加启动子。这些启动子可与上述任何结构核酸序列可操作相连。或者,所述启动子可与其它核酸序列,如编码转位肽、可选择的标记蛋白的那些序列、或反义序列,可操作相连。
这些附加启动子可根据载体所要插入的细胞类型来选择。在细菌、酵母和植物中具有功能的启动子为本领域已知。附加的启动子还可以根据它们的调节特性来选择。这些特性的实例包括对转录活性、诱导能力、组织特异性、以及发育阶段特异性的强化作用。已有文献描述了植物中的诱导型启动子,病毒来源的或合成的启动子,组成型启动子,时间调节型启动子,以及空间调节型启动子(Poszkowski等,1989;Odell等,1985;Chau等,1989)。
常用的组成型启动子包括CaMV 35S启动子(Odell,J.T.等,1985),增强型CaMV 35S启动子,玄参花叶病毒(FMV)启动子(Richins等,1987),甘露氨酸合成酶(mas)启动子,胭脂氨酸合成酶(nos)启动子,以及章鱼氨酸合成酶(ocs)启动子。
有用的诱导型启动子包括由水杨酸或聚丙烯酸诱导的启动子(PR-1;Williams,S.W.等,1992),由于应用安全剂而诱导的启动子(安全剂如取代的苯磺酰胺除草剂;Hershey,H.P.and Stoner,T.D.,1991),热休克启动子(Ou-Lee等,1986;Ainley等,1990),来源于菠菜亚硝酸根还原酶结构核酸序列的硝酸根诱导型启动子(Back等,1991),激素诱导型启动子(Yamaguchi-Shinozaki等,1990;Kares等,1990),与RuBP羧化酶和LHCP家族的小亚单位结合的光诱导型启动子(Kuhlemeier等,1989;Feinbaum,R.L.等,1991;Weisshaar,B.等,1991;Lam,E.and Chua,N.H.,1990;Castresana,C.等,1988;Schulze-Lefert等,1989)。
有用的组织特异性、发育调节型启动子的实例包括β-conglycinin 7Sα’启动子(Doyle,J.J.等,1986;Slighton and Beachy,1987),和种子-特异性启动子(Knutzon,D.S.等,1992;Bustos,M.M.等,1991;Lam and Chua,1991;Stayton等,1991)。可用于在种子质体中优先表达的植物功能性启动子,包括来自植物贮藏蛋白的启动子,以及来自与含油种子中脂肪酸生物合成有关的蛋白的启动子。这类启动子的实例包括下列结构核酸序列的5’调节区napin(Kridl等,1991),菜豆蛋白,玉米醇溶蛋白,大豆胰蛋白酶抑制剂,ACP,硬脂酰-ACP去饱和酶,和油质蛋白。对种子-特异性调节作用的描述可参见EP 0 255 378。
另一例组织特异性启动子是凝集素启动子,它特异于种子组织。大豆种子中的凝集素蛋白由单个结构核酸序列(Lel)编码,该序列仅在种子成熟期表达,它占种子中总mRNA的大约2-5%。凝集素结构核酸序列和种子特异性启动子目前已被全面鉴定,并用于指导转基因烟草植物中的种子特异性表达(Vodkin等,1983;Lindstrom等,1990)。
重组载体中特别优选的附加启动子包括携带在根癌土壤杆菌肿瘤诱导质粒上的胭脂氨酸合成酶(nos)启动子,甘露氨酸合成酶(mas)启动子,以及章鱼氨酸合成酶(ocs)启动子;花椰菜花叶病毒(CaMV)19S和35S启动子;增强型CaMV 35S启动子;玄参花叶病毒(FMV)35S启动子;核酮糖-1,5-二磷酸羧化酶(ssRUBISCO)小亚单位的光诱导型启动子;烟草EIF4A启动子(Mandel等,1995);谷物蔗糖合成酶1(Yang和Russell,1990);谷醇脱氢酶l(Vogel等,1989);谷物光收获复合物(Simpson,1986);谷物热休克蛋白(Odell等,1985);拟南芥壳多糖酶启动子(Samac等,1991);花椰菜LTP(脂转移蛋白)启动子(Pyee等,1995);矮牵牛查耳酮异构酶(Van Tunen等,1988);菜豆甘氨酸富集蛋白1(Keller等,1989);土豆patatin(Wenzler等,1989);玉米遍在蛋白启动子(Christensen等,1992);以及水稻肌动蛋白启动子(McElroy等,1990)。
附加启动子优选具有种子选择性,组织选择性,为组成型或诱导型。最优选的启动子为胭脂氨酸合成酶(nos),章鱼氨酸合成酶(ocs),甘露氨酸合成酶(mas),花椰菜花叶病毒19S和35S(CaMV19S,CaMV35S),增强型CaMV(eCaMV),核酮糖-1,5-二磷酸羧化酶(ssRUBISCO),玄参花叶病毒(FMV),CaMV衍生的AS4,烟草RB7,小麦POX1,烟草EIF-4,凝集素蛋白(Lel),或水稻RC2的启动子。
重组核酸载体中的结构核酸序列重组载体中的启动子优选与结构核酸序列可操作相连。结构核酸序列及其修饰形式的实例见上文详述。本发明的启动子可与相对于该启动子为异源的结构核酸序列可操作相连。一方面,结构核酸序列一般可以是需要提高转录水平的任何核酸序列。结构核酸序列优选编码适于掺入人或动物膳食中的多肽。适当的结构核酸序列包括编码种子贮藏蛋白,除草剂抗性蛋白,疾病抗性蛋白,脂肪酸生物合成酶,维生素E生物合成酶,氨基酸生物合成酶,或杀虫蛋白的那些。优选的结构核酸序列包括,但不限于,γ甲基转移酶、叶绿基异戊烯转移酶、β-酮脂酰-CoA合酶、脂酰CoA还原酶、脂酰CoA脂醇转酰酶、邻氨基苯甲酸合酶、苏氨酸脱氨酶、乙酰羟酸合成酶、天冬氨酸激酶、二羟酸合成酶、天冬氨酸激酶、二氢吡啶甲酸合成酶、硫酯酶、7Sα’种子贮藏蛋白、11S种子贮藏蛋白、大豆球蛋白、β-conglycinin、菜豆蛋白、玉米球蛋白-1、玉米醇溶蛋白、种子清蛋白、或种子凝集素。
或者,可设计启动子和结构核酸序列以便下调特定核酸序列。这通常通过将启动子与反义方向的结构核酸序列相连来实现。本领域技术人员很熟悉这类反义技术。简短说,转录出反义核酸序列后,它与互补核酸序列杂交并使后者被封闭在细胞内侧。这种双链RNA分子不能通过细胞的翻译机制翻译为蛋白。这就使细胞内的互补核酸序列由于后续翻译步骤的中断而被有效下调。
任何核酸序列都可能以这种方式进行负调节。这类调节作用的目标可包括必需氨基酸含量低、但在特定组织中以相对较高水平表达的多肽。例如,β-conglycinin和大豆球蛋白都在种子中大量表达,但在营养方面缺少必需氨基酸。这种反义方法也可用于有效除去植物来源的食物中其它不想要的蛋白,如拒食剂(例如,凝集素),清蛋白,和变应原。
带有附加的结构核酸序列的重组载体重组载体还可包含一或多个附加的结构核酸序列。这些附加结构核酸序列通常为适于在重组载体中使用的任何序列。这样的结构核酸序列包括上述任一种结构核酸序列及其修饰形式。附加结构核酸序列还可与上述任一种启动子可操作相连。所述一或多个结构核酸序列可分别与不同(separate)启动子可操作相连。或者,多个结构核酸序列可与单个启动子可操作相连(即,单个操纵子)。
附加结构核酸序列优选编码种子贮藏蛋白,除草剂抗性蛋白,疾病抗性蛋白,脂肪酸生物合成酶,维生素E生物合成酶,氨基酸生物合成酶,或杀虫蛋白。优选的结构核酸序列包括,但不限于,γ甲基转移酶、叶绿基异戊烯转移酶、β-酮脂酰-CoA合酶、脂酰CoA还原酶、脂酰CoA脂醇转酰酶、邻氨基苯甲酸合酶、苏氨酸脱氨酶、乙酰羟酸合成酶、天冬氨酸激酶、二羟酸合成酶、天冬氨酸激酶、二氢吡啶甲酸合成酶、硫酯酶、7Sα’种子贮藏蛋白、11S种子贮藏蛋白、大豆球蛋白、β-conglycinin、菜豆蛋白、玉米球蛋白-1、玉米醇溶蛋白、种子清蛋白、或种子凝集素。
或者,可将第二种结构核酸序列设计成能下调特定的核酸序列。这通常通过将第二种结构氨基酸按照反义方向与启动子可操作相连来实现。本领域技术人员很熟悉这类反义技术。该方法也已在上文中简述。任何核酸序列都可能以这种方式进行负调节。优选的目标核酸序列包含低含量的必需氨基酸、但在特定组织中以相对较高水平表达。例如,β-conglycinin和大豆球蛋白都在种子中大量表达,但在营养方面缺少必需氨基酸。这种反义方法也可用于有效除去植物来源的食物中其它不想要的蛋白,如拒食剂(例如,凝集素),清蛋白,和变应原。
选择标记重组载体还可包含选择标记。能用作选择标记的核酸序列产生细胞表型,使这些细胞比不含该标记的细胞更容易被鉴定。
选择标记的实例包括,但不限于neo基因(Potrykus等,1985),它编码卡那霉素抗性基因,可用卡那霉素,G418等进行筛选;bar基因,它编码bialaphos抗性;突变的EPSP合成酶基因(Hinchee等,1988),它编码草甘膦抗性;腈水解酶基因,它赋予对溴苯腈的抗性(Stalker等,1988);突变的乙酰乳酸合成酶基因(ALS),它赋予对咪唑啉酮或磺脲的抗性(欧洲专利申请0154204);绿色荧光蛋白(GFP);以及氨甲喋呤抗性DHFR基因(Thillet等,1988)。
选择标记的其它实例包括β-葡萄糖醛酸糖苷酶或uidA基因(GUS),它编码一种酶,该酶的多种显色底物是已知的(Jefferson(I),1987;Jefferson(II)等,1987);一种R-座基因,它编码一种产物,该产物调节植物组织中花色素苷(红色)的产生(Dellaporta等,1988);β-内酰胺酶基因(Sutcliffe等,1978),它编码一种酶,该酶的多种显色底物是已知的(例如,PADAC,一种显色的头孢菌素);萤光素酶基因(Ow等,1986);xylE基因(Zukowsky等,1983),它编码一种儿茶酚双加氧酶,此酶可转化显色型儿茶酚;α-淀粉酶基因(Ikatu等,1990);酪氨酸酶基因(Katz等,1983),它编码一种能将酪氨酸氧化为DOPA和多巴醌(dopaquinone,进一步浓缩为黑色素)的酶;α-半乳糖苷酶,可使显色的α-半乳糖底物发生转变。
术语“选择标记”还包括编码选择标记的基因,所述选择标记是指其检测可作为鉴定或筛选转化细胞的手段的那些。实例包括编码可通过抗体相互作用予以鉴定的分泌型抗原的标记物,或甚至可通过催化检测的分泌型酶。分泌型选择标记蛋白可分为数类,包括可通过(例如,ELISA)检测的小分子可扩散型蛋白,可在胞外溶液中检测到的小分子活性酶(例如,α-淀粉酶,β-内酰胺酶,膦丝菌素转移酶),或者插入或陷落在细胞壁中的蛋白(如包含前导序列的蛋白,如发现于延伸的表达单元中的蛋白,或烟草PR-S)。其它可能的选择标记基因对本领域技术人员而言是显而易见的。
选择标记优选为GUS,绿色荧光蛋白(GFP),新霉素磷酸转移酶II(nptII),萤光素酶(LUX),抗生素抗性编码序列,或除草剂(例如,草甘膦)抗性编码序列。选择标记最优选卡那霉素,潮霉素,或除草剂抗性标记。
重组载体中的其它元件各种具有顺式作用的非翻译5’和3’调节序列也可以包括在重组核酸载体中。任何这类调节序列可在重组载体中伴有其它调节序列。可通过设计或改变这类组合来产生所需的调节特征。调节序列的组合的实例包括,但不限于表2所列的那些。
3’非翻译区通常提供转录终止信号,聚腺苷酸化信号,后者在值物中能导致腺苷酸添加在mRNA的3’末端。这可通过下述序列的3’区实现胭脂氨酸合成酶(nos)编码序列,大豆7Sα’贮藏蛋白编码序列,Arcelin-5编码序列,清蛋白编码序列,以及豌豆ssRUBISCO E9编码序列。特别优选的3’核酸序列包括Arcelin-5 3’,nos 3’,E9 3’,adrl2 3’,7Sα’3’,11S 3’,USP 3’,以及清蛋白3’。
位于距聚腺苷酸化位点数百个碱基对的下游处的核酸序列通常可终止转录。这些区是转录的mRNA进行有效腺苷酸化所必需的。
重组载体中还可掺入翻译增强子。因此,重组载体优选包含一或多个5’非翻译前导序列,以便增强核酸序列的表达。这类增强子序列预计能增强或改变所得mRNA的翻译效力。优选的5’核酸序列包括dSSU 5’,PetHSP705’,和GmHSP17.95’。
重组载体还可包含编码转位肽的核酸序列。这种肽可用于将蛋白引到胞外空间,叶绿体,或细胞内侧或外侧的其它空间中(参见,例如欧洲专利申请
发明者王 琦, 帕特里克·杜波依斯, 梁继红, 蒂姆·乌尔马索夫 申请人:孟山都技术公司