在单子叶植物中调控表达的表达盒的制作方法

文档序号:415253阅读:269来源:国知局
专利名称:在单子叶植物中调控表达的表达盒的制作方法
技术领域
本发明涉及表达盒,包括至少一个可从如下单子叶植物基因中获得的转录调控核苷酸序列:咖啡酰-CoA-O-甲基转移酶基因、CS, 7-固醇异构酶基因、富含羟脯氨酸的糖蛋白(HRGP)基因、乳酸脱氢酶基因以及叶绿体蛋白12样基因。更优选转录调控序列可从玉米(Zea mays)或稻(Oryza sativa)中获得。所述转录调控序列对于根/仁偏好性表达、叶/胚乳偏好性表达、根/穗丝/仁偏好性表达或者组成型表达尤其有用。
背景技术
操作植物以改变和/或改善表型特征(如生产力或品质)需要在植物组织中表达异源基因。这类基因操作依赖于用于驱动和控制所需基因表达的方法的可用性。例如,基因操作依赖于在植物中有效并在转基因植物中调控基因表达以产生期望效果的适当启动子的可用性和使用。在需要在植物发育的所有(或大部分)时间在所有(或大部分)组织中表达的情况下优选组成型启动子。在单子叶植物中有功能的组成型启动子的数量是有限的,并且包括稻肌动蛋白 l(Wang 1992;US 5,641,876)、CaMV35S(Odell 1985)、CaMV 19S(Lawton1987)和玉米遍在蛋白启动子(Christensen 1996)。尽管以序列描述了双子叶植物的几种组成型和组织特异性启动子(例如,欧芹的咖啡酰-CoA-O-甲基转移酶基因(Grimmig1997)、杨树(Chen 1 998)和松树(Li 1999)的启动子),但是在异源基因表达方面,仅表征了非常有限的启动子。与双子叶启动子相比,单子叶植物的启动子仍然非常有限。最好可以选择多种不同启动子,以便可以选择对特定基因、构建体、细胞、组织、植物或环境最适宜的启动子。此外,随着对用多重植物转录单位(PTU)共转化植物日益增长的兴趣,以及与用于这些目的的共有调控序列的使用有关的潜在问题,我们应该获得多种启动子序列。根优选的或根特异性的启动子有益于改变根组织的功能、改良生长速度、改进对根偏好性病原体、害虫、除草剂或不利天气条件的抗性,有益于土壤解毒以及扩大植物可生长的土壤或环境的范围。根丰富的或根特异性基因表达将提供一种机制,据此可改变形态学和代谢,以改善产量并生产更大量的有用蛋白质。特别是,根特异性启动子可有益于表达防御相关基因,包括赋予昆虫抗性和胁迫耐性的那些基因,例如,盐、寒冷或干旱耐性,以及用于改变养分摄取的基因。在单子叶植物中有功能的根偏好性和根特异性启动子的数量非常有限。这些包括玉米MR7启动子(美国专利N0.5,837,848)、玉米ZRP2启动子(美国专利N0.5,633,363)和玉米MTL启动子(美国专利N0.5,466,785和6,018,099)。这些实例中的许多公开了表达模式限于有限数量根组织的启动子。其他的不能提供所选基因表达所需的根特异性。最好可以选择多种不同的启动子,以便可选择对特定基因、构建体、细胞、组织、植物或环境最适宜的启动子。此外,随着对用多重植物转录单位(PTU)共转化植物日益增长的兴趣,以及与用于这些目的的共有调控序列的使用有关的潜在问题,我们应该获得多种启动子序列。因此,本领域技术中非常需要鉴定新的序列,其可用于在经济上最重要的单子叶植物,尤其是在稻和玉米中表达所选的转基因。因此本发明的目的是提供用于在单子叶植物中表达转基因的新的和可选择的表达盒,更优选借此调节表达的组织特异性。附图的简短说明

图1 Os.CCoAMTI启动子::玉米遍在蛋白内含子::⑶S(PIV2):: CCoAMTI终止子嵌合构建体(PBPSMM325)图。该质粒包含表达构建体,所述表达构建体含有有效连接于玉米遍在蛋白内含子的Os.CCoAMTl启动子、β葡糖醛酸糖苷酶基因(⑶S,包括马铃薯转化酶[PIV]2内含子)以及Os.CCoAMTI的非翻译区和转录终止区。SM盒代表选择标记(ahas)盒。图2玉米中受稻(Os) CCoAMTI启动子构建体(pBPSMM325)控制的⑶S表达。上面一组(I)代表用GUS染色的原始照片,而下面的一组(II)表示被阴影区域覆盖的清楚地被染成蓝色的区域。(A)叶+根:5叶期⑶叶:开花期

(C)仁(授粉前)(D)仁:授粉后 30 天(30 DAP)照片代表15个T1单拷贝株系的可重复表达模式。图3A:0s.CCoAMTl启动子::玉米遍在蛋白内含子::⑶S(PIV2)::N0S终止子融合构建体(PBPSMM271)图。该质粒包含表达构建体,所述表达构建体含有有效连接于玉米遍在蛋白内含子的Os.CCoAMTl启动子、β葡糖醛酸糖苷酶基因(⑶S,包括马铃薯转化酶[PIV]2内含子)以及胭脂碱合酶(NOS)终止子。SM盒代表选择标记(ahas)盒。B:玉米中受(Os) CCoAMTl启动子构建体(pBPSMM271)控制的⑶S表达。上面一组(I)代表用GUS染色的原始照片,而下面的一组(II)表示被阴影区域覆盖的清楚地被染成蓝色的区域。(A)叶和根:5叶期⑶叶:开花期(C)仁(授粉后 30 天:30 DAP)照片代表15个T1单拷贝株系的可重复表达模式。图4A:0s.SI::玉米遍在蛋白内含子::⑶S(PIV2)::N0S终止子融合构建体(PBPSMM331)图。该质粒包含表达构建体,所述表达构建体含有有效连接于玉米遍在蛋白内含子的Os.SI启动子、β葡糖醛酸糖苷酶基因(⑶S,包括马铃薯转化酶[PIV]2内含子)以及NOS终止子的表达构建体。SM盒代表选择标记盒。B:玉米中受Os.SI启动子构建体(pBPSMM331)控制的⑶S表达。上面一组(I)代表用GUS染色的原始照片,而下面的一组(II)表示被阴影区域覆盖的清楚地被染成蓝色的区域。⑷叶和根:5叶期(B)叶:5叶期;卩十:开花期(C)仁(授粉后 30 天:30 DAP)照片代表15个T1单拷贝株系的可重复表达模式。图5A:Zm.HRGP::玉米遍在蛋白内含子::⑶S (PIV2)::Zm.HRGP终止子融合构建体(pBPSET003)图。该质粒包含表达构建体,所述表达构建体含有有效连接于玉米遍在蛋白内含子的Zm.HRGP启动子、β葡糖醛酸糖 苷酶基因(GUS,包括马铃薯转化酶[PIV]2内含子)以及HRGP终止子。SM盒代表选择标记(ahas)盒。B:玉米中受玉米Zm.HRGP启动子构建体(pBPSET003)控制的⑶S表达。上面一组(I)代表用GUS染色的原始照片,而下面的一组(II)表示被阴影区域覆盖的清楚地被染成蓝色的区域。(A)叶和根:5叶期(B)叶:5叶期;卩十:开花期(C)仁(授粉后 30 天:30 DAP)照片代表15个T1单拷贝株系的可重复表达模式。图6A:Zm.LDH::玉米遍在蛋白内含子::⑶S(PIV2)::N0S终止子融合构建体(PBPSMM272)图。该质粒包含表达构建体,所述表达构建体含有有效连接于玉米遍在蛋白内含子的Zm.LDH启动子、β葡糖醛酸糖苷酶基因(GUS,包括马铃薯转化酶[PIV]2内含子)以及NOS终止子。SM盒代表选择标记(ahas)盒。B:玉米中受玉米Zm.LDH启动子构建体(pBPSMM272)控制的⑶S表达。上面一组(I)代表用GUS染色的原始照片,而下面的一组(II)表示被阴影区域覆盖的清楚地被染成蓝色的区域。含有PBPSMM272或pBPSET007的转基因植物显示出同样的表达模式。(A)叶和根:5叶期(B)叶:5叶期;口十:开花期(C)仁(授粉后 30 天:30 DAP)照片代表8个T1单拷贝株系的可重复表达模式。图7A:Zm.LDH::玉米遍在蛋白内含子::⑶S(PIV2)::Zm.LDH终止子融合构建体(pBPSET007)图。该质粒包含表达构建体,所述表达构建体含有有效连接于玉米遍在蛋白内含子的Zm.LDH启动子、β葡糖醛酸糖苷酶基因(⑶S,包括马铃薯转化酶[PIV]2内含子)以及LDH终止子。SM盒代表选择标记(ahas)盒。B:玉米中受玉米Zm.LDH启动子构建体(pBPSET007)控制的⑶S表达。上面一组(I)代表用GUS染色的原始照片,而下面的一组(II)表示被阴影区域覆盖的清楚地被染成蓝色的区域。(A)叶和根:5叶期
⑶叶:开花期(C)仁(授粉后 30 天:30 DAP)照片代表15个T1单拷贝株系的可重复表达模式。图8A:0s.CP12::玉米遍在蛋白内含子::⑶S(PIV2)::N0S终止子融合构建体(pBPSMM304)图。该质粒包含表达构建体,所述表达构建体含有有效连接于玉米遍在蛋白内含子的
0S.CP12启动子、β葡糖醛酸糖苷酶基因(⑶S,包括马铃薯转化酶[PIV]2内含子)以及NOS终止子。SM盒代表选择标记盒。B:玉米中受玉米Os.CP12启动子构建体(pBPSMM304)控制的⑶S表达。上面一组(I)代表用GUS染色的原始照片,而下面的一组(II)表示被阴影区域覆盖的清楚地被染成蓝色的区域。(A)叶和根:5叶期⑶叶:开花期(C)仁(授粉后 30 天:30 DAP)照片代表15个T1单拷贝株系的可重复表达模式。图9干旱胁迫诱导的玉米中Zm.LDH启动子构建体(pBPSMM272)的表达。将5叶期转基因植物通过停止供水进行干旱胁迫。在所示的时间点从叶上采集样品。从叶样品中分离RNA,并以定量RT- PCR进行分析。将GUS表达对每个样品中的内对照基因进行标准化。将结果表示为与O时间点相比表达水平增加的倍数,其中将O时间点的表达设定为I。图10A-B稻乳酸脱氢酶(LDH)蛋白与玉米(I)、稻(2)、大麦(3)、稻(4)、拟南芥(Arabidopsis) (5、6)、番爺(7)、马铃薯(8)LDH蛋白的蛋白质序列比对。区分单子叶LDH蛋白和其他双子叶LDH蛋白的序列基序加框表示(用“ + ”标记相应的不同氨基酸)。本领域技术人员基于本序列比对可以很容易地鉴定更多的这类序列基序。图11稻C8,7固醇异构酶(SI)蛋白与拟南芥(1_3)和稻(4) SI蛋白的蛋白质序列比对。图12稻咖啡酰-CoA-O-甲基转移酶I (CCoAMTl)与烟草⑴、桉树⑵、杨树(3)、玉米(4、5、6)和稻(7) CCoAMTl蛋白的蛋白质序列比对。区分单子叶CCoAMT蛋白和其他双子叶CCoAMT蛋白的序列基序加框表示(用“ + ”标记相应的不同氨基酸)。本领域技术人员基于本序列比对可以很容易地鉴定更多的这类序列基序。发明概述因此,本发明的第一个实施方案涉及用于在单子叶植物中调控表达的表达盒,包括i)至少一个单子叶植物基因的转录调控核苷酸序列,所述的单子叶植物基因选自咖啡酰-CoA-O-甲基转移酶基因、C8,7-固醇异构酶基因、富含羟脯氨酸的糖蛋白(HRGP)基因、乳酸脱氢酶基因以及叶绿体蛋白12样基因,和与之功能性相连的ii)至少一个核苷酸序列,其与所述转录调控序列是异源的。
优选转录调控核苷酸序列可从多肽编码基因的单子叶植物基因组DNA中获得,其中所述多肽al)包含单子叶植物乳酸脱氢酶蛋白的至少一个序列基序,所述序列基序选自如下氨基酸序列:i) SLSELGFDA (SEQ ID NO:76),ii) VIGAGNVGMA (SEQ ID NO:77),iii) IVTAGARQI (SEQ ID NO:78),iv) L (F/Y) RKIVP (SEQ ID NO:79),V) GFPASRV(SEQ ID NO:80),vi) RF (L/1) AEHL (SEQ ID NO:81),vii) QAYMVGEH(SEQ ID NO:82),viii) ALEGIRRAV (SEQ ID NO:83),和ix) GYSVAS (L/I) A (SEQ ID NO:84),或者bl)编码单子叶植物乳酸脱氢酶蛋白,与选自SEQ ID NO:26、60和65所述的多肽具有至少90%的氨基酸序列同一性,或者a2)包含单子叶植物咖啡酰-CoA-O-甲基转移酶蛋白的至少一个序列基序,所述序列基序选自如下氨基酸序列:X) EQKTRHSE(SEQ ID NO:85),xi) L (I/L) KLIGAK (SEQ ID NO:86),xii) KTMEIGVY(SEQ ID NO:87),xi ii) HERL (L/M) KLV (SEQ ID NO:88),xiv) CQLPVGDG(SEQ ID NO:89),和XV) TLCRRVK(SEQ ID NO:90),或者b2)编码单子叶植物咖啡酰-CoA-O-甲基转移酶蛋白,与选自SEQ ID NO:5和70所述的多肽具有至少90%的氨基酸序列同一性,或者b3)编码单子叶植物富含羟脯氨酸的糖蛋白,与选自SEQ ID NO:18和75所述的多肽具有至少90%的氨基酸序列同一性,或者b4)编码单子叶植物C8,7-固醇异构酶蛋白,与SEQ ID NO:10所述的多肽具有至少90 %的氨基酸序列同一性,或者b5)编码单子叶植物叶绿体蛋白12样蛋白,与SEQ ID NO:31所述的多肽具有至少90 %的氨基酸序列同一性。 优选转录调控核苷酸序列来自玉米或稻植物。甚至更优选转录调控核苷酸序列是选自稻咖啡酰-CoA-O-甲基转移酶基因、稻C8,7-固醇异构酶基因、玉米富含羟脯氨酸的糖蛋白(HRGP)基因、玉米乳酸脱氢酶基因、稻叶绿体蛋白12样基因的植物基因及其功能等同物。优选功能等同物编码的多肽与选自SEQ ID NO:5、10、18、26、31、60、65、70和75所述多肽具有至少90 %的氨基酸序列同一性。在更优选的实施方案中,转录调控核苷酸序列选自如下序列:
i)由 SEQ ID NO:1、2、3、6、7、8、11、12、13、14、15、16、19、20、21、22、23、24、27、28、
29、56、57、58、61、62、63、66、67、68、71、72 和 73 所述的序列,和ii) i)中序列的至少50个连续碱基的片段;和iii)与 SEQ ID NO:1、2、3、6、7、8、11、12、13、14、15、16、19、20、21、22、23、24、27、28、29、56、57、58、61、62、63、66、67、68、71、72或73所述转录调控核苷酸序列基本上相似的
核苷酸序列(优选具有至少60%的序列同一性;更优选通过BLASTN程序以如下默认参数测量:字长(W)为11、期望值(E)为10、截断为100、M= 5、N = -4,并进行两条链的比较);和iv)能与 SEQ ID NO:1、2、3、6、7、8、11、12、13、14、15、16、19、20、21、22、23、24、27、28、29、56、57、58、61、62、63、66、67、68、71、72或73所述的转录调控核苷酸序列或其互补物
杂交的核苷酸序列;和V)能与如下核酸杂交的核苷酸序列,其中所述核酸包含SEQ ID NO:1、2、3、6、7、8、
11、12、13、14、15、16、19、20、21、22、23、24、27、28、29、56、57、58、61、62、63、66、67、68、71、72或73所述的转录调控核苷酸序列或其互补物的50-200个或更多连续核苷酸(优选在 %十二烷基硫酸钠(SDS)、0.5Μ NaPO4UmM EDTA 中于 50°C杂交,用 2X SSC、0.1% SDS 于 50°C洗涤;更优选在7%十二烷 基硫酸钠(SDS)、0.5MNaP04、lmM EDTA中于50°C杂交,用I X SSC、0.1% SDS于50°C洗涤,还更优选在7%十二烷基硫酸钠(SDS)、0.5M NaPO4UmM EDTA中于50°C杂交,用0.5XSSC、0.1% SDS于50°C洗涤,甚至更优选在7 %十二烷基硫酸钠(SDS)、0.5M NaPO4UmM EDTA 中于 50°C杂交,用 0.1 X SSC、0.1 % SDS 于 50°C洗涤,最优选在 7 %十二烷基硫酸钠(SDS)、0.5M NaPO4UmM EDTA 中于 50°C杂交,用 0.1 X SSC、0.1 % SDS 于65°C洗涤);和vi)上述i)至V)核苷酸序列中任一的互补物或反向互补物核苷酸序列。另一优选的实施方案涉及用于在单子叶植物中调控表达的表达盒,其包括:a)至少一个在单子叶植物中有功能的转录调控核苷酸序列,其包含选自如下序列的至少一个序列:i)SEQ ID NO:1、2、3、6、7、8、11、12、13、14、15、16、19、20、21、22、23、24、27、28、29、56、57、58、61、62、63、66、67、68、71、72 和 73 所述的序列,和ii)i)中序列的至少50个连续碱基的片段;和iii)与 SEQ ID NO:1、2、3、6、7、8、11、12、13、14、15、16、19、20、21、22、23、24、27、28、29、56、57、58、61、62、63、66、67、68、71、72或73所述转录调控核苷酸序列基本上相似的
核苷酸序列(优选具有至少60%的序列同一性;更优选通过BLASTN程序以如下默认参数测量:字长(W)为11、期望值(E)为10、截断为100、M= 5、N = -4,并进行两条链的比较);和iv)能与 SEQ ID NO:1、2、3、6、7、8、11、12、13、14、15、16、19、20、21、22、23、24、27、28、29、56、57、58、61、62、63、66、67、68、71、72或73所述的转录调控核苷酸序列或其互补物杂交的核苷酸序列(优选在7%十二烷基硫酸钠(SDS)、0.5M NaPO4UmM EDTA中于50°C杂交,用2父33(:、0.1%303于501:洗涤;更优选在7%十二烷基硫酸钠(SDS)、0.5M NaPO4,ImM EDTA中于50°C杂交,用1XSSC、0.1% SDS于50°C洗涤,还更优选在7%十二烷基硫酸钠(SDS) ,0.5M 似卩04、1111]\^^六中于501:杂交,用0.5\55(:、0.1%503于501:洗涤,甚至更优选在7%十二烷基硫酸钠(SDS)、0.5M NaPO4UmM EDTA中于50°C杂交,用0.1XSSC、0.1%SDS于50°C洗涤,最优选在7%十二烷基硫酸钠(SDS)、0.5M NaPO4UmM EDTA中于50°C杂交,用 0.1 X SSC,0.1 % SDS T 65°C洗涤);和V)能与如下核酸杂交的核苷酸序列,其中所述核酸包含SEQ ID NO:1、2、3、6、7、8、
11、12、13、14、15、16、19、20、21、22、23、24、27、28、29、56、57、58、61、62、63、66、67、68、71、72或73所述的转录调控核苷酸序列或其互补物的50-200个或更多连续核苷酸;和Vi)上述i)至V)核苷酸序列中任一的互补物或反向互补物核苷酸序列,和b)至少一个核苷酸序列,其与所述转录调控序列是异源的。优选上段中ii)、iii)、iv)、v)和vi)中定义的序列能够在单子叶植物细胞或生物体中修饰转录。更优选ii)、iii)、iv)、V)和vi)中定义的所述序列与SEQ ID NO:1、2、
3、6、7、8、11、12、13、14、15、16、19、20、21、22、23、24、27、28、29、56、57、58、61、62、63、66、67、68、71、72或73所述的转录调控核苷酸序列基本上具有相同的转录调控活性。
`
还优选上述iii)中定义的序列与 SEQ ID NO:1、2、3、6、7、8、11、12、13、14、15、
16、19、20、21、22、23、24、27、28、29、56、57、58、61、62、63、66、67、68、71、72 或 73 所述序列具有至少60 %、优选70 %或80 %、更优选90 %或95 %的序列同一性,其中同一性优选通过BLASTN程序以如下默认参数测量:字长(W)为11、期望值(E)为10、截断为100、M = 5、N=_4,并进行两条链的比较。更优选上述iv)或V)中定义的序列在严谨条件下,优选在中等严谨条件下,最优选在高严谨条件下(如在7%十二烷基硫酸钠(SDS)、0.5M NaPO4UmM EDTA中于50°C杂交,用0.1 X SSC、0.1 % SDS于65°C洗涤)与指定的靶序列杂交。在本发明表达盒的一个优选的实施方案中,核酸序列的表达导致蛋白质的表达,或者反义RNA、正义或双链RNA的表达。本发明表达盒的表达谱可依靠转录调控核苷酸序列与增强表达的内含子和/或转录终止序列的结合进行调控。在本发明表达盒的优选实施方案中,这包括至少一种选自如下的额外元件:a) 5’非翻译区,和b)内含子编码序列,和c)转录终止序列。内含子编码序列优选编码单子叶植物的表达增强内含子。更优选内含子序列是遍在蛋白、肌动蛋白或醇脱氢酶基因的内含子。优选将内含子插入到表达构建体中欲表达核酸序列的5’非翻译区(即,位于转录调控核苷酸序列与蛋白质编码序列(开放读框)或欲表达核酸序列之间)。优选5’非翻译区来自与转录调控序列相同的基因。转录终止序列优选也包括诱导多聚腺苷化作用的序列。转录终止序列可以异源于转录调控核苷酸序列和/或待表达核酸序列,但也可以是所述转录调控核苷酸序列和/或所述待表达的核酸序列基因的天然转录调控核苷酸序列。在本发明一个优选的实施方案中,转录调控核苷酸序列是转录调控序列基因的天然转录调控核苷酸序列。优选转录终止序列选自SEQ ID NO:32、34和35所述的序列。本发明的转录调控序列尤其可用于单子叶植物中组成型或根/仁偏好性表达或根/仁特异性表达。然而不排除在其他植物(例如,双子叶或裸子植物)和其他组织中的应用。已经证明,本发明的转录调控序列的组织特异性能够最好通过结合内含子和/或转录终止序列进行调控。表达盒可用于多种表达目的,例如用于蛋白质的表达,或者反义RNA、正义或双链RNA的表达。优选核酸序列的表达赋予植物农艺学上有价值的性状。本发明有些转录调控序列甚至如所述的那样是新的(即,如所分离的核苷酸序列)。因此,本发明的另一个实施方案涉及分离的核苷酸序列,其包含至少一个如SEQ IDNO:6、7、8、11、12、13、19、20或21所述的转录调控核苷酸序列。本发明的其他实施方案涉及含有本发明表达盒的载体,以及含有本发明表达盒或载体的转基因宿主细胞或非人生物。优选生物是植物,更优选是单子叶植物,最优选选自玉米、稻、小麦(Triticum aestivum)、大麦(Hordeum vulgare)和燕麦(Avena sativa)。本发明的另一个实施方案涉及用于在单子叶植物中鉴定和/或分离转录调控核苷酸序列的方法,其特征在于所述鉴定和/或分离利用如SEQ ID NO:5、10、18、26、31、60、65,70或75所述氨基酸序列的编码核酸序列,或者至少15个碱基的所述核酸序列的部分。优选所使用的核酸序列为SEQ ID NO:4、9、17、25、30、59、64、69或74,或者至少15个碱基的所述核酸序列的部分。优选所述鉴定和/或分离通过选自聚合酶链式反应、杂交和数据库筛选的方法实现。本发明的另一个实施方案涉及提供用于在单子叶植物中进行异源表达的转基因表达盒的方法,包括步骤:1.利用至少一个核酸序列或其部分从单子叶植物中分离转录调控核苷酸序列,其中所述序列编码SEQ ID NO:5、10、18、26、31、60、65、70或75所述的多肽,或者至少15个碱基的所述核酸序列的部分,和I1.将所述转录调控核苷酸序列功能性连接于其他目的核苷酸序列,后者与所述转录调控核苷酸序列异源。对于上述两类方法,优选分离所述转录调控核苷酸序列所采用的核苷酸序列编码这样的多肽,所述多肽包含:al)单子叶植物乳酸脱氢酶蛋白的至少一个序列基序,其中序列基序选自如下氨基酸序列:i) SLSELGFDA (SEQ ID NO:76),ii) VIGAGNVGMA (SEQ ID NO:77),iii) IVTAGARQI(SEQ ID NO:78),iv) L (F/Y) RKIVP (SEQ ID NO:79),v)GFPASRV(SEQ ID NO:80),vi) RF (L/I) AEHL (SEQ ID NO:81),vii) QAYMVGEH(SEQ ID NO:82),
viii) ALEGIRRAV(SEQ ID NO:83),和ix) GYSVAS (L/I) A (SEQ ID NO:84),或者a2)单子叶植物咖啡酰-CoA-O-甲基转移酶蛋白的至少一个序列基序,其中序列基序选自如下氨基酸序列:X)EQKTRHSE(SEQ ID NO:85),xi) L (I/L) KLIGAK (SEQ ID NO:86),xii) KTMEIGVY(SEQ ID NO:87),xiii) HERL(L/M)KLV (SEQ ID NO:88),xiv) CQLPVGDG(SEQ ID NO:89),和xv) TLCRRVK(SEQ ID NO:90)。定义 应当理解的是,本发明不限于所述的特定方法、方案、细胞系、植物物种或属、构建体以及试剂身。也应当理解的是,这里所使用的术语仅用于描述特定实施方案的目的,而非旨在限制本发明的范围,后者将仅通过所附的权利要求书进行限定。必须注意到,如文中和所附权利要求书中所使用的,单数形式的“一个”、“一种”和“该”包括复数,除非上下文清楚地另行指示。因此,例如,提及“载体”时是指一种或多种载体,包括本领域技术人员已知的其等同物,等等。文中所使用的术语“约”是指近似地、粗略地、左右或附近。当术语“约”与数值范围一起使用时,其通过扩展所示数值的上下边界而修饰该范围。通常,文中所使用的术语“约”以所示值上下20%的方差、优选上下(高低)10%的方差修饰数值范围。如这里所使用的,措辞“或”是指特定列单中的任何一个成员,也包括该列单中成员的任意组合。术语“基因”广泛地指与生物功能有关的任何核酸节断。因此,基因包括编码序列和/或它们表达必需的调控序列。例如,基因指表达mRNA或功能性RNA,或者编码特定蛋白质的核酸片段,并且包括调控序列。基因也包括非表达的DNA节断,例如,构成其他蛋白质的识别序列。基因可从多种来源获得,包括从目的来源中克隆,或者根据已知的或预测的序列信息合成,并且可包括设计用于具有期望参数的序列。术语“内含子”指基因内的DNA区段(间插序列),其不编码基因所产生的蛋白质的部分,并且在从细胞核中输出前,其在从基因中转录的mRNA中被剪接掉。内含子序列指内含子的核酸序列。因此,内含子是DNA序列中那些随编码序列(外显子)一起被转录,但是在成熟mRNA的形成期间被除去的区域。内含子可位于实际的编码区内或者位于前mRNA(未剪接的mRNA)的5’或3’非翻译前导区。将初级转录物中的内含子切除,并将编码序列同时精确地连接起来,从而形成成熟mRNA。内含子和外显子的接点形成剪接位点。内含子的序列以GU开始并以AG结束。此外,在植物中,已经描述了两例AU-AC内含子:拟南芥(Arabidopsis thaliana)的RecA-样蛋白基因的内含子14和G5基因的内含子7是AU-AC内含子,含有内含子的前mRNA具有三个短序列,除了其他序列之外,这三个短序列是内含子准确剪接必需的。这些序列是5’剪接位点、3’剪接位点和分支点。mRNA剪接是除去初级mRNA转录物中存在的间插序列(内含子)并结合或连接外显子序列。这也被称作顺式剪接,其在除去间插序列(内含子)的同一 RNA上连接两个外显子。内含子的功能元件包括被剪接体的特异性蛋白组分识别并结合的序列(例如,内含子末端的剪接共有序列)。功能性元件与剪接体的相互作用导致从未成熟的mRNA中除去内含子序列并将外显子序列重新连接。内含子具有三个短序列,是内含子被准确剪接所必要的,但并非充分条件。这些序列是5’剪接位点、3’剪接位点和分支点。分支点序列在植物的剪接和剪接位点选择中很重要。分支点序列通常位于3’剪接位点上游10-60核苷酸处。植物序列就分支点而言显示出序列偏差,共有序列是CURAY或YURAY。术语“天然的”或“野生型”基因指未转化细胞的基因组中存在的基因,即,没有已知突变的细胞。“标记基因”编码可选择的或可筛选的性状。术语“嵌合基因”指任何基因,其包括I) DNA序列,包括并非在自然界中连在一起的调控和编码序列,或者2)编码非天然毗邻的蛋白质部分的序列,或者3)非天然毗邻的启动子部分。因此,嵌合基因可包括源自不同来源的调控序列和编码序列,或者包括源自同一来源的调控序列和编码序列,但是以不同于天然发现的方式排列。“转基因”指已通过转化引入到基因组内并稳定维持的基因。转基因可包括,例如,与待转化的特定植物的基因异源或同源的基因。另外,转基因可包括插入到非天然生物体内的天然基因,或者嵌合基因。术语“内源基因”指生物体基因组中其天然位置中的天然基因。“外源”基因指通常未在宿主生物体中发现,但通过基因转移被引入的基因。与本发明的核苷酸序列对应的“寡核苷酸”,例如用于探测或扩增反应,长度可以是约30个或更少核苷酸(例如,9、12、15、18、20、21或24,或者是9-30的任意数)。通常,特异性引物长度超过14个核苷酸。对于最适特异性和成本效率来说,长度为16-24个核苷酸的引物可能是优选的。 本领域技术人员通晓用于如PCR方法的引物设计。如果必需的话,可用这里所公开的基因的整套限制性片段进行探测,其长度可以是100个或者甚至是
1,000个核苷酸。术语“蛋白质”、“肽”和“多肽”这里可互换使用。可将本发明的核苷酸序列引入到任何植物中。可在表达盒中方便地使用待引入的基因,用于任何目的植物中的引入和表达。这类表达盒将包括与目的核苷酸序列相连的本发明的转录起始区。优选的启动子包括组成型、组织特异性、发育特异性、诱导型和/或病毒启动子。提供具有多个限制性位点的这类表达盒,用于将目的基因插入到调控区的转录调控下。表达盒可另外含有可选择的标记基因。该盒在5' -3'转录方向上将包括在植物中有功能的转录和翻译起始区、目的DNA序列,以及转录和翻译终止区。终止区可以是转录起始区的天然终止区,可以是目的DNA序列的天然终止区,或者可以来自其他来源。合适的终止区可从根癌农杆菌(Agrobacterium tumefaciens)的T1-质粒中获得,如,章鱼碱合酶和胭脂喊合酶终止区(也见,Guerineau 1991 ;Proudfoot 1991 ;Sanfacon 1991 ;Mogen1990 ;Munroel990 ;Ballas 1989 ;Joshi 1987)。“编码序列”指编码特定氨基酸序列并排除非编码序列的DNA或RNA序列。其可构成“不间断的编码序列”,即,缺乏内含子,如在cDNA中,或者其可包括由适当的剪接接点为界限的一个或多个内含子。“内含子”是RNA序列,初级转录物中含有该序列,但是在细胞内通过RNA的裂解和再连接被除去以产生可被翻译成蛋白质的成熟mRNA。术语“开放读框”和“0RF”指编码序列的翻译起始和终止密码子之间所编码的氨基酸序列。术语“起始密码子”和“终止密码子”指编码序列中三个相邻核苷酸单位(“密码子”),其分别规定蛋白质合成(mRNA翻译)的起始和链终止。“功能性RNA”指反义RNA、双链RNA、核糖核酸酶,或不被翻译的其他RNA。术语“ RNA转录物”指由RNA聚合酶催化DNA序列的转录所产生的产物。当RNA转录物是DNA序列的完全互补拷贝时,其被称作初级转录物,或者其可以是源于初级转录物的转录后加工的RNA序列并被称作成熟RNA。“信使RNA” (mRNA)指无内含子并且可被细胞翻译成蛋白质的RNA。“cDNA”指与mRNA互补并源于其的单链或双链DNA。 “转录调控核苷酸序列”、“调控序列”,和“适当的调控序列”,每个都指影响转录、RNA加工或稳定性、或者相关(或功能性相连的)待转录核苷酸序列的翻译的核苷酸序列。相对于待转录的核苷酸序列,转录调控核苷酸序列的定位可有多处。转录调控核苷酸序列可位于待转录序列(例如,编码序列)的上游(5'非编码序列),之内或下游(3'非编码序列)。转录调控序列可选自增强子、启动子、翻译前导序列、内含子、5'非翻译序列、3'非翻译序列以及多聚腺苷酸化信号序列。它们包括天然的和合成的序列,可以是合成的和天然序列的组合。如上所述,术语“转录调控序列”不限于启动子。然而,优选本发明的转录调控核苷酸序列包括至少一个启动子序列(例如,位于基因的转录起点上游,能诱导下游序列的转录的序列)。在本发明的一个优选的实施方案中,本发明的转录调控核苷酸序列包括相应基因的启动子序列,任选且优选所述基因的天然5'非翻译区。此外,也可使用所述基因的3,非翻译区和/或多聚腺苷酸化区。“5'非编码序列”指位于编码序列5'(上游)的核苷酸序列。其位于经过充分加工的mRNA的起始密码子的上游,并且可以影响初级转录物加工成mRNA、影响mRNA稳定性或翻译效率(Turner 1995)。“3'非编码序列”指位于编码序列3'(下游)的核苷酸序列,并且包括多聚腺苷酸化信号序列和编码能影响mRNA加工或基因表达的调控信号的其他序列。通常,多聚腺苷酸化信号的特征是影响向mRNA前体的3'末端添加多聚腺苷酸束。Ingelbrecht等,1989举例说明了不同3'非编码序 列的用途。术语“翻译前导序列”指基因的启动子和编码序列之间的DNA序列部分,其转录成RNA并且位于经过充分加工的mRNA的转录起始密码子的上游(5,)。翻译前导序列可影响初级转录物加工成mRNA、影响mRNA稳定性或翻译效率。“信号肽”指多肽的氨基末端延伸,其与多肽一起翻译,形成前体肽,并且对于其进入分泌途径是必需的。术语“信号序列”指编码信号肽的核苷酸序列。如这里所使用的术语“转运肽”指所表达的多肽的一部分(优选指多肽的氨基末端延伸),其与多肽一起翻译,形成前体肽,并且对于其进入细胞器是必需的(如质体(例如,叶绿体)或线粒体)。术语“转运序列”指编码转运肽的核苷酸序列。“启动子”指通常位于编码序列上游(5')的核苷酸序列,通过提供对正确转录所必需的RNA聚合酶和其他因子的识别,控制编码序列的表达。“启动子”包括短DNA序列的最小启动子,其由TATA盒和用于指定转录起始位点的其他序列构成,向其添加调控元件用于表达的控制。“启动子”也指包括最小启动子加上能用于控制编码序列或功能性RNA表达的调控元件的核苷酸序列。该类型的启动子序列由近侧和更远侧的上游元件构成,后者通常称作增强子。因此,“增强子”是这样的DNA序列,其可刺激启动子活性,并且可以是启动子的先天元件或者是插入的异源元件,以增强启动子的水平或组织特异性。其在两个方向上都能发挥功能(正常的或翻转的),并且甚至当移动到启动子的上游或下游时仍然有功能。增强子和其他上游启动子元件都与介导其效应的序列特异性的DNA结合蛋白结合。启动子可整体源自天然基因,或者由不同元件构成,源自天然所发现的完全不同的启动子,或者甚至由合成的DNA片段构成。启动子也可含有参与蛋白因子结合的DNA序列,其控制响应生理或发育条件的转录起始的效率。“起始位点”是围绕第一核苷酸的位置,是所转录序列的一部分,其也被定义为位置+1。相对于此位点对基因的所有其他序列和其控制区进行编号。将下游序列(即,3'方向上其余蛋白质编码序列)命名为正,而将上游序列(5'方向上控制区的大部分)命名为负。将启动子元件,特别是TATA元件,在缺乏上游激活时无活性或者启动子活性极度降低,称作“最小或核心启动子”。在存在适当的转录因子时,最小启动子起允许转录的功能。“最小或核心启动子”因此仅由转录起始所必需的所有基本元件构成,即,TATA盒和/或起始子。“组成型表达”指使用组成型或可调型启动子的表达。“组织非依赖性的”、“组织通用的”或“组成型”旨在指大部分时间在整个植物的细胞中和在大部分组织中的表达。与归为“组成型”的其他启动子(例如,遍在蛋白)一样,可以在不同组织或阶段的绝对表达水平存在一些变动。然而,组成型启动子通常在大多数组织中,优选在所有组织中,以及在大多数发育阶段,优选在所有发育阶段都高水平或中等水平表达。“有条件的”和“可调的表达”指受可调型启动子控制的表达。“组成型启动子”指这样的启动子,其能在植物的所有或几乎所有发育阶段期间在所有或几乎所有植 物组织中表达受其控制的开放读框(ORF)。各转录激活元件都不显示绝对的组织特异性,但在大多数植物部分中介导的转录激活水平至少为在转录最活跃的植物部分中所达水平的1%。“可调型启动子”指指导基因非组成型表达,而以时间和/或空间调控的方式表达的启动子,并且包括组织特异性和诱导型启动子。其包括天然的和合成序列,可以是合成的和天然序列的组合。不同启动子可在不同组织或细胞类型中,或在不同的发育阶段,或者响应不同的环境条件指导基因的表达。在植物细胞中有用的多种类型的新启动子不断地被发现,众多实例可见于Okamuix)等(1989)的汇编出版物。在植物中有用的典型的可调型启动子包括但不限于安全剂诱导型启动子、源于四环素诱导型系统的启动子、源于水杨酸诱导型系统的启动子、源于醇诱导型系统的启动子、源于糖皮质激素诱导型系统的启动子、源于病原体诱导型系统的启动子,以及源于蜕皮激素诱导型系统的启动子。“组织特异性启动子”指不在所有植物细胞中表达,而仅在特定器官(如叶或种子)、特定组织(如胚或子叶)中的一种或多种细胞类型中表达、或仅在特定细胞类型(如叶实质或种子储藏细胞)中表达的可调型启动子。这些也包括时间调控的启动子,如在早期或晚期胚发生中,在发育种子或果实的果实成熟期间,在完全分化的叶中,或者在衰老开始发生时。在本发明上下文中,术语“根”是指通常为地下的植物器官,其缺乏芽或叶或节,吸收水分和矿物盐,并通常将植物固定在地面。植物根由许多细胞类型构成,如表皮细胞、根冠、轴柱、皮层、中柱鞘、维管细胞和形成根毛的生毛细胞,组织起来形成根组织或根区,例如,根尖、根表皮、分生组织区、初生根、侧根、根毛和维管组织。分离为根特异性或根偏好的转录调控序列可在一种或几种这些细胞类型中调控表达。该细胞特异性活性可用于特异性应用,如仅在分生细胞区中调控分生组织活性,或者仅在线虫害虫接触的细胞类型中调控杀线虫基因的表达。在本发明上下文中,就某组织或组织群(例如,根和仁)而言的术语“组织特异性转录”是指转录调控元件如此转录核酸序列,从而在整个植物中在其发育的任何一个阶段期间,所述核酸序列在所述组织或组织群中的转录占由所述核酸序列转录的全部RNA量的90%以上,优选95%以上,更优选99%以上。在本发明上下文中,就某组织或组织群(例如,根和仁)而言的术语“组织偏好的转录”是指转录调控元件如此转录核酸序列,从而在整个植物中在其发育的任何一个阶段期间,所述核酸序列在所述组织或组织群中的转录占由所述核酸序列转录的全部RNA量的50%以上,优选70%以上,更优选80%以上。“诱导型启动子”指可在一种或多种细胞类型中被外部刺激,例如化学品、光、激素、胁迫或病原体开启的那些可调型启动子。“有效连接”指单链核酸片段上核酸序列的结合,使得一个核酸序列的功能受另一个核酸序列的影响。例如,如果调控DNA序列与编码RNA或多肽的DNA序列的排布使得调控DNA序列影响编码DNA序列的表达(即,编码序列或功能性RNA在启动子的转录控制下),则调控DNA序列被表述为“有效连接于”或“连于”编码RNA或多肽的DNA序列。可将编码序列以正义或反义方向有效连接到调控序列上。“表达”指植物中内源基因、ORF或其部分、或者转基因的转录和/或翻译。例如,在反义构建体的情况中,表达可以仅指反义DNA的转录。另外,表达还指正义(mRNA)或功能性RNA的转录和稳定累积。表达也可指蛋白质的产生。“特异性表达 ”是基因产物的表达限于一种或几种植物组织(空间限制)和/或限于植物的一个或几个发育阶段(时间限制)。普遍认为几乎不存在真正的特异性:启动子似乎优选在一些组织中开启,而在其他组织中可能不开启或者仅有很小的活性。这种现象被称作渗漏表达。然而,在本发明中特异性表达意味着在一个或几个植物组织中的偏好表达。启动子的“表达模式”(有或无增强子)是表达水平的模式,其表明在植物中何处、在哪个发育阶段,转录由所述启动子引发。当一个启动子的表达模式显示与其他启动子的表达模式几乎不重叠时,将这组启动子的表达模式称作是互补的。可通过测量标准的转录报道分子mRNA的“稳态”浓度,确定启动子的表达水平。这种测量是间接的,因为报道分子mRNA的浓度不仅依赖于其合成速率,而且也依赖于mRNA被降解的速率。因此,稳态水平是合成速率和降解速率的乘积。然而,当所转录的序列相同时,降解速率可视为以固定速率进行,因此这个值可作为合成速率的衡量值。当以这种方式比较启动子时,本领域技术人员可利用的技术是杂交Sl-RNAse分析、Northern印迹和竞争性RT-PCR。该技术列表决不代表所有可利用的技术,而仅仅是说明分析转录活性和mRNA的表达水平的常用方法。在几乎所有启动子中,转录起点的分析已经显示转录起点通常不是单个碱基,而是一组或多或少簇集的起始位点,其中的每一个都是mRNA的某些起点。由于该分布随着启动子不同而变化,因此群体各个体中报道分子mRNA的序列相互之间也将不同。由于每种mRNA物质或多或少易于降解,因此不能预测不同报道分子mRNA的单个降解速度。对于多种真核启动子序列来说,已证明围绕起始位点(起始子)的序列在决定由该特定启动子所指导的RNA表达水平中起着重要的作用。这也包括部分转录序列。因此启动子与报道序列的直接融合将导致转录的亚适度水平。通常所使用的用于分析表达模式和水平的方法是通过测定细胞中蛋白质累积的“稳态”水平。对于报告基因来说,本领域技术人员已知的通常使用的候选物是β_葡糖醛酸糖苷酶(⑶S)、氯霉素乙酰转移酶(CAT)和具有荧光特性的蛋白质,如Aequora victoria的绿色荧光蛋白(GFP)。然而,原则上,更多蛋白质适于这个目的,只要所述蛋白质不干扰基本的植物功能。许多工具适合定量和测定定位。例如,可很容易地创建或者获得基于免疫化学、酶促、荧光检测和定量的检测系统。可使用蛋白质表达的原位分析测定植物组织提取物中或完整组织中的蛋白质水平。通常,具有嵌合启动子报道构建体的单个转化系的报道基因的表达水平将不同。也常常观察到这类转化体不表达任何可检测产物(RNA或蛋白质)的现象。尽管通常不清楚这种失活的分子机制基础, 但是表达的变异性通常归咎于“位置效应”。“过表达”指转基因细胞或生物体中表达的水平超过正常或者未转化(非转基因)细胞或生物体中的表达水平。“反义抑制”指反义RNA转录物的产生能抑制内源性基因或转基因的蛋白质表达。“基因沉默”指病毒基因、转基因,或内源性核基因的依赖同源性的抑制。基因沉默可以是转录水平的,此时的抑制是由于受影响基因的转录降低,或者是转录后水平的,此时的抑制是由于与受影响的基因同源的RNA物质的周转(降解)增加(English 1996)。基因沉默包括病毒诱导的基因沉默(Ruiz等1998)。术语“异源DNA序列”、“外源DNA片段”或“异源核酸”,如这里所使用的,每一个都指源于与特定宿主细胞异源来源的序列,或者如果来自同一来源,那么是从其原来形式中经过修饰的。因此,宿主细胞中的异源基因包括是特定宿主细胞的内源性基因,但是已经通过例如使用DNA改组进行过修饰。该术语也包括天然存在的DNA序列的非天然发生的多个拷贝。因此,该术语指外源的或与细胞异源,或者与细胞同源但是元件不在平常发现的宿主细胞核酸内的位置上的DNA片段。表达外源DNA片段以生产外源多肽。“同源”DNA序列是与其所引入的宿主细胞天然相关的DNA序列。在核苷酸序列同一性的上下文中,“同源”指两核酸分子的核苷酸序列或者两蛋白质分子的氨基酸序列之间的相似性。通过本领域技术人员充分理解的在严谨条件下的DNA-DNA 或 DNA-RNA 杂交(如在 Haines 和 Higgins (编辑),Nucleic Acid Hybridization,IRL Press, Oxford, U.K.所描述的),或者通过两核酸或蛋白质之间的序列相似性的比较提供这种同源性的评估。术语“基本上相似”指代表这里所具体公开的玉米或稻的转录调控序列的功能和/或结构等同物的核苷酸和氨基酸序列。在其最广泛的意思中,当谈到核苷酸序列时,这里所使用的术语“基本上相似的”是指核苷酸序列是基因的一部分,其编码与由参照核苷酸序列的基因所编码的多肽具有基本上相同结构和功能的多肽,例如,核苷酸序列包括是与参照核苷酸序列相应基因的直向同源物的基因的启动子,以及在结构上与这里所举例说明的启动子序列相关的启动子序列,g卩,基本上相似的启动子序列与这里所举例说明的启动子序列的互补物在高或极高严谨条件下杂交。例如,仅仅反映遗传密码的简并性、但编码与特定氨基酸序列相同氨基酸序列的改变了的核苷酸序列,与该特定序列基本上相似。术语“基本上相似”也包括序列已被修饰以例如优化特定细胞内的表达的核苷酸序列,以及相对于由参照序列所编码的(未修饰的)多肽,编码具有一个或多个氨基酸取代的变体多肽的核苷酸序列,其中,相对于未修饰的多肽,取代不改变变体多肽的活性。在其最广泛的意思中,当谈到多肽时,这里所使用的术语“基本上相似的”是指多妝与参照多妝具有基本上相同的结构和功能。另外,与特定序列基本上相似的氣基酸序列是与本发明序列的全部氨基酸同一性至少为65%或者更高的那些。产生等同核苷酸或氨基酸序列的修饰在本领域的常规技术内。基本上相似的多肽和参照多肽之间的氨基酸序列同一性百分比为至少 65%、66%、67%、68%、69%、70%,例如 71 % ,72 % ,73 % ,74 %,75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%,甚至 90%或者更高,例如 91%、92%、93%、94%、95%、96%、97%、98%,直至至少 99%,其中参照多肽是由具有SEQ ID NO:1、2、3、6、7、8、11、12、13、14、15、16、19、20、21、22、23、24、27、28、29、56、57、58、61、62、63、66、67、68、71、72或73中任一序列的启动子的基因所编码的多肽,包括具有SEQ ID NO:4、9、17、25、30、59、64、69或74中任一序列的开放读框的核苷酸序列,其编码SEQ ID NO:5、10、18、26、31、60、65、70或75中任一序列。除了具有基本上相同的功能之外,两多肽相互之间基本上相似的一个指标还在于:特异性结合一条多肽的物质(例如抗体),也特异性结合另一条。可使用Smith-Waterman 序列比对算法(见,例如,Waterman(1995)或者 http://www ht0.usc.edu/software/seqaln/index.html)进行序列比较。优选使用具有如下参数的1calS程序,1.16版:匹配:1,错配罚分:0.33,开放缺口罚分:2,延伸缺口罚分:2。此外,将与参照核苷酸序列“基本上相似”的核苷酸序列称作参照核苷酸序列的“等同物”。技术人员能够认识到,本发明所包含的等同核苷酸序列也可通过它们在低、中等和/或严谨条件下(例如, 0.1 X SSC, 0.1% SDS, 650C )与本发明权利要求的文字范围内的核苷酸序列杂交的能力来定义。当谈到多核苷酸或多肽片段使用时,“基本上相同的活性”是指该片段具有全长多核苷酸或者全长多肽活性的至少65%、66%、67%、68%、69%、70%,例如71%、72%、73%,74%,75%,76%,77%,78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%、89%,甚至 90% 或更高,例如 91%、92%、93%、94%、95%、96%、97%、98%,直至至少 99%。“靶基因”指复制子上的基因,表达期望的靶编码序列、功能性RNA或蛋白质。靶基因不是复制子复制必需的。另外,靶基因可包括插入到非天然生物体内的天然非病毒基因,或者嵌合基因,并且将在适当的调控序列的控制下。因此,靶基因中的调控序列可来自任何来源,包括病毒。靶基因可包括与待转化的特定植物的基因异源或同源的编码序列。然而,靶基因不包括天然病毒基因。典型的靶基因包括,但不限于结构蛋白、种子储藏蛋白、传达除草剂抗性的蛋白,以及传达昆虫抗性的蛋白的编码基因。由靶基因编码的蛋白质称作“外源蛋白”。靶基因在植物中的表达一般地将产生改变的植物性状。
术语“改变的植物性状”是指相对于野生型或非转基因植物宿主,转基因植物中的表型或基因型的改变。“复制基因”指编码病毒复制蛋白的基因。除了复制蛋白的ORF外,复制基因也可含有其他重叠或非重叠0RF,如自然界在病毒序列中所发现的。这些额外的ORF尽管不是复制必需的,却可以增强复制和/或病毒DNA累积。这类额外ORF的实例分别是ACMV和TGMV双生病毒中的AC3和AL3。“嵌合反式作用复制基因”指不同于天然病毒复制基因的复制基因,其中复制蛋白的编码序列在可调型植物启动子的控制下,或者修饰的天然病毒复杂基因,例如,其中在5’转录但不翻译的区域中插入位点特异性序列。这种嵌合基因也包括在启动子和转录起始位点之间插入结合复制蛋白的已知位点,削弱病毒复制蛋白基因的转录。“染色体整合的”指外源基因或DNA构建体通过共价键整合到宿主DNA内。如果基因不是“染色体整合的”,它们可以是“瞬时表达的”。基因的瞬时表达指没有被整合到宿主染色体组内但独立地起作用,例如,作为自主复制的质粒或表达盒的一部分,或者作为另一个生物系统如病毒的一部分的基因的表达。

术语“转化”指核酸片段转移到宿主细胞的基因组内,导致遗传上的稳定遗传。将含有转化核酸片段的宿主细胞称作“转基因”细胞,将包括转基因细胞的生物体称作“转基因生物体”。转化植物和植物细胞方法的实例包括农杆菌(Agrobacterium)介导的转化(DeBlaere 1987)和粒子轰击技术(US 4,945,050)。整个植物可通过技术人员公知的方法从转基因细胞中再生(见,例如,Fromm 1990)。“转化的”、“转基因的”和“重组的”指已引入异源核酸分子的宿主生物体,如细菌或植物。可通过本领域技术中通常已知的和公开的方法(Sambrook 1989 ;Innis 1995 ;Gelfand 1995 ;Innis & Gelfand 1999)将核酸分子稳定地整合到基因组内。已知的PCR法包括,但不限于,使用成对引物、嵌套引物、单特异性引物、简并引物、基因特异性引物、载体特异性引物、部分错配引物等引物的方法。例如,“转化的”、“重组的”和“转基因的”植物或愈伤组织已经历转化过程并含有整合到其染色体内的外源基因。术语“未转化的”指没有经历转化过程的正常植物。“瞬时转化的”指已引入转基因和外源DNA (例如,通过如农杆菌介导的转化或生物射弹轰击这样的方法),但未经稳定维持选择的细胞。“稳定转化的”指已经选择并在转化后在选择培养基上再生的细胞。“瞬时表达”指在通过病毒感染或通过如农杆菌介导的转化、电穿孔或生物射弹轰击这样的方法引入病毒或转基因,但未经稳定维持选择的细胞表达。“遗传上稳定的”和“可遗传的”指在植物中稳定维持并由子代通过连续传代而稳定遗传的染色体整合的遗传元件。“初级转化体”和“TO代”指与最初转化的组织同一遗传代的转基因植物(即,自转化后没有经历减数分裂和受精)。“次级转化体”和“T1、T2、T3代等”指初级转化体通过一个或多个减数分裂和受精周期得到的转基因植物。它们可来自初级或次级转化体的自体受精或者初级或次级转化体与其他转化的或未转化植物的杂交。“野生型”指天然发现的没有任何已知突变的病毒或生物体。
“基因组”指生物体的全部遗传物质。术语“核酸”指以单链或双链形式的脱氧核糖核苷酸或核糖核苷酸及其多聚体,由含糖、磷酸盐和碱基的单体(核苷酸)构成,其中碱基是嘌呤或嘧啶。除非特别限定,该术语包括含有天然核苷酸的已知类似物的核酸,其具有与参照核酸类似结合特性,并且以与天然存在的核苷酸类似的方式代谢。除非有其他指示,特定核酸序列也包括其保守修饰的变体(例如,简并密码子取代)和互补序列以及明确表示的序列。具体地,可通过用混合碱基和/或脱氧肌苷残基取代所选的一个或多个(或者所有)密码子的第三位所产生的序列来实现简并密码子取代(Batzer 1991 ;0htsuka 1985 ;Rossolinil994)。“核酸片段”是给定核酸分子的一部分。在高等植物中,脱氧核糖核酸(DNA)是遗传物质,而核糖核酸(RNA)参与将DNA内所含的信息传递给蛋白质。术语“核苷酸序列”指DNA或RNA的多聚体,其可以是单链或双链,任选地含有能整合到DNA或RNA多聚体内的合成的、非天然的或改变的核苷酸碱基。术语“核酸”或“核酸序列”也可与基因、cDNA、DNA和由基因所编码的RNA交换使用。本发明包括分离的或基本上纯的核酸或蛋白质组合物。在本发明的上下文中,“分离的”或“纯化的” DNA分子或者“分离的”或“纯化的”多肽是通过人工方法获得的,远离其天然环境存在的DNA分子或多肽,因此不是自然的产物。分离的DNA分子或多肽可以纯化形式存在或者可存在于非天然环境如转基因宿主细胞中。例如,“分离的”或“纯化的”核酸分子或蛋白质或其生物活性部分,当通过重组技术生成时,基本上无其他细胞材料或培养基,或者当通过化学方法合成时,基本上无化学前体或其他化学品。优选“分离的”核酸不含核酸来源生物体基因组DNA中天然位于该核酸两侧(B卩,位于核酸的5'和3'端的序列)的序列(优选编码蛋白质的序列)。例如,在多个实施方案中,分离的核酸分子可含有小于约5kb、4kb、3kb、2kb、lkb、0.5kb或0.1kb的侧接核苷酸序列,其中所述侧接核苷酸序列在核酸所来源的细胞的基因组DNA中天然地位于核酸分子的两侧。基本上不含细胞材料的蛋白质包括具有小于约30%、20%、10%、5% (以干重计)污染蛋白的蛋白质或多妝制品。当通过重组生成本发明的蛋白质或其生物活性部分时,优选培养基代表小于约30%、20%、10%或5% (以干重计)的化学前体或非蛋白目的化学品。本发明的核苷酸序列包括天然存在的序列以及突变体(变体)形式。这类变体将继续具有期望的活性,即,启动子活性或者由非变体核苷酸序列的开放读框所编码的产物的活性。就序列(例如,多肽或核苷酸序列,例如本发明的转录调控核苷酸序列)而言,术语“变体”旨在表示基本上相似的序列。对于包括开放读框的核苷酸序列,变体包括那些由于遗传密码子的简并性而存在的编码天然蛋白质的相同氨基酸序列的那些序列。天然发生的等位基因变体如可使用公知的分子生物学技术,例如用聚合酶链式反应(PCR)和杂交技术鉴定的这些。变体核苷酸序列也包括合成来源的核苷酸序列,例如通过使用定点诱变所产生的那些;以及对于开放读框而言,编码天然蛋白质,以及相对于天然蛋白质,编码具有氨基酸取代的多肽的那些。通常,本发明的核苷酸序列变体与天然(野生型或内源)核苷酸序列相比,将具有至少40%、50%、60%,至70%,例如优选71%、72%、73%、74%、75%、76%、77%、78%,至 79%,通常至少 80%,例如 81% -84%,至少 85 %,例如,86 %、87 %、88%、89%、90%、91%、92%、93%、 94%、95%、96%、97%,至 98% 以及 99% 的核苷酸序列同一I"生。特定核酸序列“保守修饰的变异”指编码相同或基本上相同氨基酸序列的那些核酸序列,或者其中核酸序列不编码氨基酸序列,指基本上相同的序列。由于遗传密码子的简并性,大量功能上相同的核酸编码任何指定的多肽。例如,密码子CGT、CGC、CGA、CGG、AGA和AGG都编码氨基酸精氨酸。因此,在精氨酸用密码子表示的每个位置上,可将该密码子变为所述相应密码子中的任何一个,而不改变所编码的蛋白质。这种核酸变异是“沉默变异”,其是“保守性修饰变异”中的一种。这里所述的每个编码多肽的核酸序列,也记述了每种可能的沉默变异,除非有其他注释。本领域技术人员将会意识到可通过标准技术修饰核酸中的每个密码子(除了 ATG,其平常仅是甲硫氨酸的密码子)以产生功能相同的分子。因此,编码多肽的核酸的每个“沉默变异”是每个所述序列中固有的。可“优化”本发明的核酸分子以提高目的植物中的表达(见,例如,WO 91/16432 ;Perlak 1991 ;Murray 1989)。在该方式中,可利用植物偏好的密码子合成基因的开放读框或基因片段(见,例如,Campbell & Gowri,1990对宿主偏好密码子使用的讨论)。因此,可优化核苷酸序列用于任何植物的表达。人们公认,可优化或合成基因序列的全部或者任何一部分。换句话说,也可以使用合成的或部分优化的序列。变体核苷酸序列和蛋白质也包括,从诱变和重组方法如DNA改组中获得的序列和蛋白质。可用这类方法操作一个或多个不同的编码序列,以产生具有期望特性的新多肽。在该方式中,从大量包括序列基本上相同并能在体外或在体内同源重组的序列区域的相关序列多核苷酸群中产生重组多核苷酸文库。这种DNA改组的策略在本领域技术中是公知的(见,例如,Stemmer 1994 ;Stemmer1994 ;Crameri 1997 ;Moore 1997 ;Zhang 1997 ;Crameri 1998 ;以及 US 5,605,793 和5,837,458)。“变体”多肽是指源自天然蛋白质的多肽,通过在天然蛋白质的N末端和/或C末端缺失(所谓的截短)或者添加一个或多个氨基酸;在天然蛋白质的一个或多个位点上缺失或添加一个或多个氨基酸;或者在天然蛋白质的一个或多个位点上取代一个或多个氨基酸。这种变体可以由于,例如,遗传多态性或人为操作所产生。这类操作的方法通常是本领域已知的。 因此,可以多种方式改变多肽,包括氨基酸取代、缺失、截短和插入。这种操作的方法通常是本领域已知的。例如,可通过DNA突变制备多肽的氨基酸序列变体。诱变和核苷酸序列改变的方法是本领域公知的(见,例如,Kunkel 1985 ;Kunkel 1987 ;US 4,873, 192 ;Walker & Gaastra,1983及其中所引用的参考文献)。可在Dayhoff等(1978)的模型中发现对不影响目的蛋白质的生物活性的适当氨基酸取代的指导。优选保守取代,如氨基酸与其他具有相似性质的氨基酸的交换。在编码序列中,改变、添加或缺失单个氨基酸或小百分比的氨基酸(一般小于5%,更一般地小于1% )的个别取代、缺失或添加是“保守性修饰变异”,其中,该改变导致用化学上相似的氨基酸取代另一个氨基酸。提供功能相似氨基酸的保守取代表是本领域公知的。如下五组中,每组都含有彼此是保守性取代的氨基酸:脂肪族氨基酸:甘氨酸(G)、丙氨酸(A)、缬氨酸(V)、亮氨酸(L)、异亮氨酸(I);芳香族氨基酸:苯丙氨酸(F)、酪氨酸(Y)、色氨酸(W);含硫氨基酸:甲硫氨酸(M)、半胱氨酸(C);碱性氨基酸:精氨酸(R)、赖氨酸(K)、组氨酸(H);酸性氨基酸:天冬氨酸(D)、谷氨酸(E)、天冬酰胺(N)、谷胺酰胺(Q)。也见,Creighton,1984。另外,编码序列中改变、添加或缺失单个氨基酸或小百分比氨基酸的个别取代、缺失或添加也是“保守性修饰变异”。这里所使用的“表达盒”是指能在适当的宿主细胞中指导特定核苷酸序列表达的DNA序列,包括有效连接于目的核苷酸序列的启动子,其任选地有效连接于终止信号和/或其他调控元件。表达盒也可包括核苷酸序列的正确翻译所必需的序列。编码区通常编码目的蛋白质,但也可编码目的功能性RNA,例如正义或反义方向的反义RNA或非翻译的RNA。包括目的核苷酸序列的表达盒可以是嵌合的,是指其至少一个组分对于其至少一个其他组分来说是异源的。表达盒也可以是这样的表达盒,其是天然存在的,但以用于异源表达的重组体形式获得。表达盒可以完全在细胞外装配(例如,通过重组体克隆技术)。然而,表达盒也可以使用部分内源组分进行装配。例如,表达盒可通过将启动子序列置于(插入)内源序列上游获得,其因此形成功能上相连的并通过所述启动子序列控制的表达盒。同样地,可将待表达核酸序列置于(或插入)内源性启动子序列的下游,由此形成表达盒。表达盒中核苷酸序列的表达可在保守性启动子的控制下,或者在仅在宿主细胞暴露于某些特定外部刺激时引起转录的诱导型启动子的控制下。在多细胞生物体的情况中,启动子也可以特异于特定的组织或器官或发育阶段(例如,根/仁特异性或偏好性)。“载体”定义为包括,特别地,双链或单链线性或环型的任何质粒、粘粒、噬菌体或农杆菌双载体,其可以或者不能自我传递或移动,并且其可通过整合到细胞基因组内或者在染色体外存在(例如,具有复制起点的自主复制质粒)来转化原核或真核宿主。特别包括穿梭载体,其意味着天然地或通过设计,能在两种不同宿主生物体中复制的DNA载体,其可选自放线菌属(Actinomycetes)和相关物种、细菌和真核生物(例如,高等植物、哺乳动物、酵母或真菌细胞)。优选载体中的核酸在适当的启动子或其他调控元件的控制下,并与之有效连接,用于在宿主细胞如微生物,例如细菌,或者植物细胞中进行转录。载体可以是在多个宿主中起作用的双功能表达载体。在基因组DNA的情况`中,这可以包含其自己的启动子或者其他调控元件,在cDNA的情况中,这可以是在用于在宿主细胞中表达的适当启动子或者其他调控元件的控制下。“克隆载体”一般含有一个或少量限制性核酸内切酶识别位点以及适于在用克隆载体转化的细胞的鉴定和选择中使用的标记基因,可在所述内切酶识别位点上以可测定的方式插入外源DNA序列,而不丧失载体的基本生物功能。标记基因一般包括提供四环素抗性、潮霉素抗性或氨苄青霉素抗性的基因。“转基因植物”为具有含表达载体的一个或多个植物细胞的植物。“植物组织”包括分化的和未分化的组织或植物,包括但不限于,根、茎、叶、花粉、种子、肿瘤组织以及多种形式细胞和培养物,如单细胞、原生质体、胚以及愈伤组织。植物组织可以在植物或在器官中,可以是组织或细胞培养物。如下术语用于描述两个或多个核酸或者多核苷酸之间的序列关系:(a) “参照序列”,(b) “比较窗”,(C) “序列同一性”,(d) “序列同一性百分比”和(e) “基本相同”。(a)如这里所使用的,“参照序列”是用作序列对比基础的定义序列。参照序列可为指定序列的子集或全部;例如,为全长cDNA或基因序列的片段,或者全长cDNA或基因序列。
(b)如这里所使用的,“比较窗”涉及多核苷酸序列的连续指定片段,其中与用于两序列最佳比对的参照序列(其不包括添加或缺失)相比,比较窗中的多核苷酸序列可包括添加或缺失(即,缺口)。通常,比较窗至少为20个连续的核苷酸,任选地可以是30、40、50、100或者更长。本领域技术人员理解,为了避免由于多核苷酸序列中包含缺口而与参照序列具有高相似性,一般地引入缺口罚分并从匹配数中减去。用于比较的序列比对的方法是本领域公知的。因此,可使用数学算法完成任何两个序列之间同一性百分比的测定。优选这类数学算法的非限制性实例是Myers和Miller,1988的算法;Smith等1981的局部同源性算法;Needleman和Wunsch 1970的同源性比对算法;Pearson 和 Lipman 1988 的搜索相似性法;Karlin 和 Altschul, 1990 的算法,在 Karlin和Altschul,1993中予以改进。可利用计算机执行这些数学算法用于序列的比较以确定序列同一性。这类执行包括,但不限于:PC/Gene 程序(可从 Intelligenetics, Mountain View, Calif.获得)中的 CLUSTAL ;ALIGN 程序(2.0 版)以及 Wisconsin Genetics 软件包,8 版(可从 GeneticsComputer Group (GCG), 575 Science Drive,Madison,Wis.,USA 中获得)中的GAP、BESTFIT、BLAST、FASTA和TFASTA。可使用默认参数进行使用这些程序的比对。已充分描述了 CLUSTAL程序(Higgins 1988,1989 ;Corpet 1988 ;Huang 1992 ;Pearson 1994)。ALIGN 程序是基于Myers 和 Miller 的算法,同前。Altschul 等,1990 的 BLAST 程序是基于 Karlin 和 Altschul的算法,同前。公众可通过国立生物技术信息中心(National Center for BiotechnologyInformation) (http://www.ncb1.nlm.nih.gov/)获得进行 BLAST 分析的软件。该算法包括通过鉴定查询序列中长度为W的短字节,首先鉴定高得分序列对(HSP),当与数据库序列中同样长度的字节比对时,其匹配或满足某些正数阈值得分T。将T称作邻近字节得分阈值(Altschul 1990)。这些最初的邻近字节命中事件作为种子起始搜索,以发现含有它们的更长HSP。然后在两个方向上沿着每个序列延伸字节命中,只要累积比对得分增加。使用参数M(匹配残基对的奖励得分;总是>0)和N(错配残基的罚分;总是<0)计算核苷酸序列的累积得分。对于氨基酸序列,使用评分矩阵计算累积得分。当累积比对得分从其获得的最大值下降量达X,累积得分由于一个或多个得负分的残基比对的累积而变为零或者零以下,或者到达序列的一端时,停止每个方向上字节命中的延伸。除了计算序列同一性百分比,BLAST算法也进行两个序列之间相似性的统计学分析(见,例如Karlin & Altschul (1993)。由BLAST算法所提供的相似性的一个测量值是最小总概率(P (N)),为两核苷酸或氨基酸序列之间将偶然发生匹配的概率指数。例如,如果在测试核酸序列与参照核酸序列的比较中最小总概率小于约0.1,更优选小于约0.01,且最优选小于约0.001,那么认为测试核酸序列与参照序列相似。为了获得用于比较目的的缺口比对,可如Altschul等1997所述利用GappedBLAST (BLAST 2.0)。可选地,可使用PS1-BLAST (BLAST 2.0)进行检测分子之间的远关系的重复搜索(见Altschul等,同前)。当利用BLAST、Gapped BLAST、PS1-BLAST时,可使用相应程序的默认参数(例如, 用于核苷酸序列的BLASTN,用于蛋白质的BLASTX)。BLASTN程序(用于核苷酸序列)使用如下默认值:字长(W)为11、期望值(E)为10、截断为100、M = 5、N = _4,并且比较两条链。对于氨基酸序列,BLASTP程序使用字长(W)为3、期望值(E)为10 作为默认值,以及 BL0SUM62 评分矩阵(见,Henikoff & Henikoff,1989)。见 http://www.ncb1.nlm.nih.gov。也可通过目测人工进行比对。对于本发明的目的,优选使用具有默认参数的BlastN程序(1.4.7版或更新的版本)或者任何等同程序进行核苷酸的比较,用于测定与这里所公开的启动子序列的序列同一性百分比。“等同程序”是指任何序列比较程序,当与通过优选程序所产生的相应比对比较时,其对于任何两个所讨论的序列都产生具有相同核苷酸或氨基酸残基匹配和相同百分比序列同一性的比对。(C)如这里所使用的,在两核酸或多肽序列的上下文中,“序列同一性”或“同一性”是指在指定比较窗进行比对以获得最大对应性时,两序列中相同的残基。当使用序列同一性百分比涉及蛋白质时,公认不相同的残基位置常常由于保守性氨基酸取代而不同,其中将氨基酸残基用具有相似化学特性(例如,电荷或疏水性)的其他氨基酸残基取代,因此不改变分子的功能特性。当序列因保守性取代而不同时,可上调序列同一性百分比以修正取代的保守性。将由于这种保守取代而不同的序列称作具有“序列相似性”或“相似性”。进行这种调整的方法是本领域技术人员公知的。一般这包括保守性取代作为部分而不是完全错配进行评分,因此提高序列同一性百分比。因此,例如,对相同的氨基酸给I分,非保守性取代给O分,保守性取代给O和I之间的记分。计算保守性取代的得分,例如,如在程序PC/GENE (Intelligenetics, Mountain View, Calif.)中进行的那样。(d)如这里所使用的,“序列同一性百分比”是指通过将两个最佳比对序列对比较窗进行比较所测定的值,其中与用于两个序列最佳比对的参照序列(其不包括添加或缺失)相比,比较窗中的多核苷酸序列中的部分可包括添加或缺失(即,缺口)。如下计算百分比:测定两个序列中出现相同核酸碱基或氨基酸残基的位置数以产生匹配的位置数,将匹配的位置数除以比较窗中的总的位置数,并将结果乘以100以产生序列同一性百分比。(e) (i)术语“基本上相同”的多核苷酸序列是指与参照序列相比,多核苷酸包括具有至少 70%、71%、72%、73%、74%、75%、76%、77%、78%,或 79%,优选至少 80%,81%,82%、83%、84%、85%、86%、87%、88%,或 89%,更优选至少 90 %、91 %、92 %、93 %,或94 %,以及最优选至少95 %、96 %、97 %、98 %,或99 %序列同一性的序列,用所述使用标准参数的比对程序之一。本领域技术人员将会意识到,通过考虑密码子简并性、氨基酸相似性、阅读框位置分布等因素,可将这些值适当地进行调整以确定相应的由两个核苷酸序列所编码的蛋白质的同一性。用于这些目的的基本相同的氨基酸序列通常意味着至少70%的序列同一性,更优选至少80%、90%,且最优选至少95%。核苷酸序列基本上相同的另一指标是两个分子是否在严谨条件下相互杂交(见下文)。通常,选择严谨条件低于固定离子强度和PH时特定序列的热解链温度(Tm)约5°C。然而,严谨条件包括约1°C到约20°C的温度范围,取决于期望的严谨度,如文中别处所限定的那样。如果它们编码的多肽基本上相同,那么严谨条件下不相互杂交的核酸仍然基本上相同。这可以发生,例如,当使用遗传密码子所允许的最大密码子简并性产生核酸的拷贝时。两个核酸序列基本上相同的一个指标是由第一个核酸所编码的多肽与由第二个核酸所编码的多肽在免疫学上发生交叉反应。(ii)在肽的上下文中,术语“基本上相同”表示在所指定的比较窗上,肽包括与参照序列具有至少 70%、71%、72%、73%、74%、75%、76%、77%、78%,或79%,优选80%、81 %,82 %,83 %,84%,85 %,86 %,87 %,88 %,或 89 %,更优选至少 90 %、91 %、92 %、93%,或94%,或者甚至优选95%、96%、97%、98%或99%序列同一性的序列。优选使用Needleman和Wunsch(1970)的同源性比对算法进行最佳比对。两个多肽序列基本上相同的指标是一个肽与针对第二个肽所产生的抗体在免疫学上发生反应。因此,肽与第二个肽基本上相同,例如,其中两个肽仅由于保守性取代而不同。对于序列比较,一般一个序列作为与测试序列比较的参照序列。当使用序列比较算法时,将测试和参照序列输入到计算机中,如果必要的话,指定序列坐标,并指定序列算法程序参数。然后,基于指定的程序参数,序列比较算法计算测试序列相对于参照序列的序列同一性百分比。如上所指出的,两个核酸序列基本上相同的另一个指标是两个分子在严谨条件下相互杂交。当序列以复杂混合物(例如,总细胞DNA或RNA)存在时,术语“特异性杂交于”指在严谨条件下分子仅与特定核苷酸序列结合、形成双链体或杂交。“基本上结合”指探针核酸和靶核酸的互补杂交,并且包括可通过降低杂交介质的严谨性提供较小的错配,以达到靶核酸序列的期望检测。在核酸杂交试验如Southern和Northern杂交的上下文中严谨杂交条件”和“严谨杂交洗涤条件”是序列依赖性的,并且在不同环境参数下是不同的。Tm是50%的靶序列与完全匹配的探针杂交的温度(在固定的离子强度和PH条件下)。特异性一般是杂交后洗涤的函数,关键因素是离子强度和最后的洗涤溶液的温度。对于DNA-DNA杂交,Tm可从Meinkoth和Wahl, 1984的等式中估计:Tm = 81.50C +16.6 (1g10 M) +0.41(% GC)-0.61 (% 甲酰胺)-500/L其中,M是单价阳离子的摩尔浓度,% GC是DNA中鸟苷和胞嘧啶核苷酸的百分t匕,%甲酰胺是杂交溶液中甲酰胺的百分比,L是杂合体的碱基对长度。每发生1%错配,Tm减少约1°C ;因此,可调整Tm、杂交,和/或洗涤条件以与期望同一性的序列杂交。例如,如果寻找具有> 90%同一性的序列,那么可将Tm降低10°C。通常,选择严谨条件低于固定离子强度和PH时阿到序列和其互补物的热解链温度I约5°C。然而,严格严谨条件可在比热解链温度I低1、2、3或4°C时进行杂交和/或洗涤;中等严谨条件可在比热解链温度I低6、7、8、9或10°C时进行杂交和/或洗涤;低严谨条件可在比热解链温度I低11、12、13、14,15或20°C时进行杂交和/或洗涤。利用该等式、杂交和洗涤组合物以及期望的T,普通技术人员将会理解,杂交和/或洗涤溶液的严谨性的变动已予以内在地描述。如果期望的错配程度导致T小于45°C (水溶液)或32°C (甲酰胺溶液),那么优选增加SSC浓度以便可使用更高的温度。有关核酸杂交的详尽指导可见Tijssen,1993。通常,选择高严谨杂交和洗涤条件低于固定离子强度和PH时特定序列的热解链温度Tm约5°C。
高严谨洗涤条件的实例是0.15M NaCl,72°C约15分钟。严谨洗涤条件的实例是于65°C用0.2XSSC洗涤15分钟(见,Sambrook,下文,对SSC缓冲液的描述)。常常,高严谨洗涤之前是低严谨洗涤,以除去背景探针信号。对于双链体,例如100个以上核苷酸,中等严谨洗涤的实例是在45°C用I X SSC洗涤15分钟。对于双链体,例如100个以上核苷酸,低严谨洗涤的实例是在40°C用6X SSC洗涤15分钟。对于短探针(例如,约10-50个核苷酸),严谨条件一般包括小于约1.5M的盐浓度,优选约0.01-1.0M,pH 7.0-8.3的钠离子浓度(或者其他盐),温度一般是至少约30°C,对于长探针(例如,>50个核苷酸)至少约60°C。也可通过添加去稳定剂如甲酰胺获得严谨条件。通常,在特定杂交测定中,信噪比为无关探针所观察到的2倍(或者更高),表示特异性杂交的检测。如果它们编码的蛋白质基本上相同,那么严谨条件下不相互杂交的核酸仍然是基本上相同的。这发生在,例如,当使用由遗传密码子所允许多最大密码子简并性产生核酸拷贝时。选择非常严谨的条件是与特定探针的Tm相等。Southern或Northern印迹中滤膜上具有100个以上互补残基的互补核酸的严谨杂交条件的实例是在50%甲酰胺,例如,在50%甲酰胺,IM NaCl,l% SDS中于37°C杂交,以及在0.1父55(:中于60-651:洗涤。示范性的低严谨条件包括在37°C用30-35%甲酰胺、IM NaCl, I % SDS (十二烷基硫酸钠)的缓冲液杂交,并在50-55°C,在IX至2XSSC(20XSSC = 3.0M NaCl/0.3M柠檬酸三钠)中洗涤。示范性的中等严谨条件包括在37°C在40-45%甲酰胺、1.0M NaCl, I % SDS (十二烷基硫酸钠)中杂交,以及在55-60°C,在0.5X至IXSSC中洗涤。如下是可用于克隆与本发明的参照核苷酸序列基本上相同的直向同源物核苷酸序列的杂交/洗涤条件设置的实例:参照核苷酸序列优选在7%十二烷基硫酸钠(SDS)、0.5M NaPO4UmM EDTA中与参照核苷酸序列于50°C杂交,用2 X SSC、0.1%505于501:洗涤;还更期望在7%十二烷基硫酸钠(SDS)、0.5M NaPO4UmM EDTA中于50°C杂交,用I X SSC、0.1% SDS于50°C洗涤;还更期望在7%十二烷基硫酸钠(SDS)、0.5M NaPO4UmM EDTA中于50°C杂交,用0.5XSSC、0.1% SDS于50°C洗涤;优选在7%十二烷基硫酸钠(SDS)、0.5MNaPO4UmM EDTA中于50°C杂交,用0.1 X SSC,0.1% SDS于50°C洗涤;更优选在7%十二烷基硫酸钠(SDS) ,0.5M NaPO4UmM EDTA 中于 50°C杂交,用 0.1 X SSC,0.1 % SDS 于65°C洗涤。“DNA改组”是在DNA分子中引入突变或重排(优选随机),或者在两个或多个DNA分子之间发生DNA序列的交换(优选随机)的方法。由DNA改组所得到的DNA分子是改组的DNA分子,是从至少一个模板DNA分子中获得的非天然发生的DNA分子。改组的DNA优选编码对由模板DNA所编码的多肽进行修饰的变体多肽,并且相对于由模板DNA所编码的多肽,可以具有改变的生物学活性。

“重组DNA分子”是使用重组DNA技术和用于将DNA序列连接在一起的方法连接在一起的DNA序列的组合,所述技术和方法如Sambrook等,1989所述。用语“植物”指任何植物,特别是农艺上有用的植物(例如,种子植物),“植物细胞”是植物的结构和生理单位,其包括细胞壁但也可指原生质体。植物细胞可以为分离的单细胞或培养细胞的形式,或者作为高级的有组织的单元的一部分,例如,植物组织,或者分化成存在于植物发育的任何阶段的结构的植物器官。这类结构包括一种或多种植物器官,包括但不限于:果实、枝条(shoot)、茎、叶、花瓣等。优选术语“植物”包括整个植物、枝条营养器官/结构(例如,叶、茎和块茎)、根、花和花器官/结构(例如,苞、萼片、花瓣、雄蕊、心皮、花药和胚珠)、种子(包括胚、胚乳和种皮)和果实(成熟子房)、植物组织(例如,维管组织、基本组织等)及细胞(例如,保卫细胞、卵细胞、毛状体等),及其子代。可在本发明中使用的植物的种类通常与适用于转化技术的高等或低等植物的种类一样宽,包括被子植物(单子叶和双子叶植物)、裸子植物、蕨类以及多细胞藻类。其包括多种倍性水平的植物,包括非整倍体、多倍体、二倍体、单倍体和半合子。包括在本发明范围内的是植物界的高等和低等植物的所有属和种。此外包括成熟植物、种子、枝条和幼苗,以及从其衍生的部分、繁殖材料(例如,种子和果实)和培养物,例如细胞培养物。
一年生、多年生的单子叶植物和双子叶植物是用于产生转基因植物的优选的宿主生物体。此外,在所有观赏植物、林业、果实,或观赏树木、花、切花、灌木或草皮中使用重组系统或者根据本发明的方法是有利的。所述植物可包括但不限于:苔藓植物如苔纲(Hepaticae)(猜耳细辛属(hepaticas))和藓纲(Musci)(藓类(mosses));蕨类植物(pteridophyte)如蕨(fern)、马尾(horsetail)和石松类(clubmosses);裸子植物如松柏纲(conifers)、苏铁纲(cycads)类植物、银杏纲(ginkgo)以及买麻藤纲(Gnetaeae);藻类如绿藻纲(Chlorophyceae)、褐藻纲(Phaeophpyceae)、红藻纲(Rhodophyceae)、粘藻纲(Myxophyceae)、黄藻纲(Xanthophyceae)、娃藻纲(Bacillariophyceae)(娃藻(diatoms))和裸藻纲(Euglenophyceae)。用于本发明目的的植物可包括蔷薇科(Rosaceae)家族如玫瑰,杜鹃花科(Ericaceae)如北美杜醇花(rhododendrons)和杜醇花(azaleas),大戟科(Euphorbiaceae)如猩猩木(poinsettias)和巴豆(croton),石竹科(Caryophyllaceae)如石竹花(pinks),爺科(Solanaceae)如矮牵牛花(petunias),苦苣苔科(Gesneriaceae)如非洲紫罗兰(African violet),凤仙花科(Balsaminaceae)如凤仙花(touch-me-not),兰科(Orchidaceae)如兰花(orchids),鳶尾科(Iridaceae)如唐菖蒲(gladioli)、鳶尾属植物(iris)、小苍兰(freesia)、番红花(crocus),菊科(Compositae)如万寿菊(marigold),牛儿苗科(Geraniaceae)如天竺葵(geraniums),百合科(Liliaceae)如 Drachaena,桑科(Moraceae)如格树(ficus),天南星科(Araceae)如蔓绿绒(philodendron)和许多其他植物。此外,根据本发明的转基因植物选自双子叶农作物植物,如,例如选自豆科(Leguminosae)的植物如豌豆、苜猜和大豆;伞形科(Umbelliferae),特别是胡萝卜属(Daucus)(非常特别地是胡萝卜(D.carota))和芹属(Apium)(非常特别地是旱芹(A.graveolens var.dulce))以及许多其他植物;爺科,特别是番爺属(Lycopersicon)和爺属(Solanum),非常特别地是番爺(L.esculentum)、马铃薯(S.tuberosum)和爺子(S.melongena)、烟草和许多其他植物;辣椒属(Capsicum),非常特别地是辣椒(C.annum)和许多其他植物;豆科(Leguminosae),特别是大豆属(Glycine),非常特别地是大豆(G.max)和许多其他植 物;十字花科(Cruciferae),特别是芸苔属(Brassica),非常特别地是甘蓝型油菜(B.napus)(油料种子油菜)、白菜型油菜(B.campestris)(甜菜)、甘蓝(B.0leracea cv Tastie)、花挪菜(B.0leracea cv Snowball Y)和挪菜(B.0leracea cvEmperor);拟南芥属(Arabidopsis),非常特别地是拟南芥(A.thaliana)和许多其他植物;菊科(Compositae),特别是莴苣属(Lactuca),非常特别地是莴苣(L.sativa)和许多其他植物。另外优选是树木,如苹果树、梨树、温柏、李树、樱桃树、桃树、油桃树、杏树、番木瓜树、芒果树以及包括针叶树和落叶树的其他木本物种,如杨树、松树、美洲杉、雪松、橡树等。最优选根据本发明的转基因植物可选自单子叶作物植物。当指根据本发明的转基因植物或指本发明的转录调控序列的来源时,术语“单子叶植物”旨在包括单子叶植物的所有科、属和种。优选是禾本科(Gramineae)植物如,例如,谷类如玉米、稻、小麦、大麦、高粱、栗、黑麦、黑小麦,或燕麦,以及其他非谷类单子叶植物如甘蔗或香蕉。尤其优选是谷物(玉米)、稻、大麦、小麦、黑麦和燕麦。最优选是玉米和稻的所有品种。“显著增加”是大于测量技术固有误差界限的增加,优选增加约2倍或更多。
“显著减少”是指大于测量技术固有误差界限的减少,优选减少约2倍或更多。发明详述本发明提供分离的核酸分子,其包括在植物细胞中优选在单子叶植物中指导有效连接的核酸片段转录的植物核苷酸序列。具体地,本发明提供用于在单子叶植物中调控表达的表达盒,包括i)至少一个单子叶植物基因的转录调控核苷酸序列,所述的单子叶植物基因选自咖啡酰-CoA-O-甲基转移酶基因、C8,7-固醇异构酶基因、富含羟脯氨酸的糖蛋白(HRGP)基因、乳酸脱氢酶基因以及叶绿体蛋白12样基因,和与之功能性相连的 ii)至少一个核苷酸序列,其与所述转录调控序列是异源的。优选本发明的转录调控核苷酸序列包括至少一个相应基因的启动子序列(例如,位于相应基因的转录起点上游,能诱导下游序列转录的序列)。本发明的转录调控核苷酸序列可包括所述基因的启动子序列,但可进一步包括其他元件如5’ -非翻译序列、增强子、内含子等。优选所述启动子序列指导有效连接的核苷酸片段在植物或植物细胞中的转录,例如,连接的植物DNA包括结构或调控基因的开放读框。本发明的转录调控序列可与多种5’非翻译区、内含子(优选表达增强内含子)以及转录终止序列(在下文所更详细地描述)组合。已证明,通过与内含子和/或转录终止序列的组合,可有利地调控本发明的转录调控序列的组织特异性。在大多数组合中,所得的表达盒显示在根和仁中偏好性或特异性表达。然而,可获得其他表达特异性(例如,组成型表达)。在根中具有表达活性的转录调控序列可用于改变根组织的功能,改进生长速度,改善对根偏好的病原体、害虫、除草剂或不利天气调控的抗性,用于土壤的解毒以及扩大植物可生长的土壤或环境的范围。根丰富的或根特异性基因表达将提供一种机制,据此可改变形态学和代谢,以改善产量并生产更大量的有用蛋白质。然而,在某些组合中,转录调控序列可显示强组成型表达谱。在需要在植物发育的所有(或者大部分)时间在所有(或者大部分)组织中表达的情况下,优选组成型启动子。其他组织特异性可以取决于与本发明的转录调控序列组合使用的调控元件。下表I举例说明优选从中分离本发明启动子的基因、所述基因的功能、所述基因编码的cDNA,以及由所述基因编码的蛋白质(ORF)。表1:优选从中分离本发明启动子的基因、所述基因的推定功能、由所述基因编码的cDNA和蛋白质
权利要求
1.在单子叶植物中调控表达的表达盒,包括 i)至少一个单子叶植物基因的转录调控核苷酸序列,所述的单子叶植物基因为叶绿体蛋白12样基因, 和与之功能性相连的 )至少一个核苷酸序列,其与所述转录调控序列是异源的。
2.权利要求1的表达盒,其中转录调控核苷酸序列可从多肽编码基因的单子叶植物基因组DNA中获得,其中所述多肽编码单子叶植物叶绿体蛋白12样蛋白,与SEQ ID N0:31所述的多肽具有至少90%的氨基酸序列同一性。
3.权利要求1或2的表达盒,其中转录调控核苷酸序列来自玉米或稻植物。
4.权利要求1至3中任一项的表达盒,其中转录调控核苷酸序列来自选自稻叶绿体蛋白12基因及其功能等同物的植物基因。
5.权利要求4的表达盒,其中功能等同物基因编码与选自SEQID NO:31所述多肽具有至少90 %氨基酸序列同一性的多肽。
6.在单子叶植物中调控表达的表达盒,包括 a)至少一个在单子叶植物中有功能的转录调控核苷酸序列,其包含选自如下序列的至少一个序列: i)SEQID NO:27、28和29所述的序列,和 ii)i)中序列的至少50个连续碱基 的片段;和 iii)与SEQID NO:27、28或29所述转录调控核苷酸序列基本上相似、具有至少60%序列同一性的核苷酸序列;和 iv)能与SEQID NO: 27、28或29所述的转录调控核苷酸序列或其互补物在7%十二烷基硫酸钠(SDS)、0.5M NaPO4UmM EDTA 中于 50°C杂交,用 2XSSC、0.1%SDS 于 50°C洗涤的条件下杂交的核苷酸序列;和 V)能与如下核酸杂交的核苷酸序列,其中所述核酸包含SEQ ID N0:27、28或29所述的转录调控核苷酸序列或其互补物的50至200个或更多个连续核苷酸;和vi)上述i)至V)核苷酸序列中任一的互补物或反向互补物核苷酸序列, 和 b)至少一个核酸序列,其与所述转录调控序列是异源的。
7.权利要求1至5中任一项的表达盒,其中转录调控核苷酸序列如权利要求6中所定义。
8.权利要求6或7的表达盒,其中权利要求6的ii)、iii)、iv)、v)和vi)中所定义的序列能够在单子叶植物细胞或生物体中修饰转录。
9.权利要求6或7的表达盒,其中权利要求6的ii)、iii)、iv)、v)和vi)中所定义的序列与SEQ ID N0:27、28或29所述的转录调控核苷酸序列基本上具有相同的转录调控活性。
10.权利要求6的表达盒,其中权利要求6的iv)或V)中所定义的序列在7%十二烷基硫酸钠(SDS)、0.5M NaPO4UmM EDTA 中于 50°C杂交,用 0.1 X SSC,0.1%SDS 于 65°C洗涤的严谨条件下与所指定的靶序列杂交。
11.权利要求1至10中任一项的表达盒,其中核酸序列的表达导致蛋白质的表达,或者反义RNA、正义或双链RNA的表达。
12.权利要求1至11中任一项的表达盒,其中表达盒还包括至少一种选自如下的元件: a)植物表达基因的5’非翻译区,和 b)植物表达基因的内含子序列,和 c)植物表达基因的转录终止序列。
13.权利要求12的表达盒,其中转录终止序列选自SEQID NO: 32、34和35所述的序列。
14.权利要求12的表达盒,其中5’非翻译区与转录调控序列来自相同的基因。
15.权利要求12的表达盒,其中内含子序列具有增强表达的特性。
16.权利要求12或15的表达盒,其中内含子序列是遍在蛋白、肌动蛋白或醇脱氢酶基因的内含子。
17.权利要求1至16中任一项的表达盒,其中核酸序列的表达赋予植物农艺学上有价值的性状。
18.分离的核酸序列,包含至少一个如SEQID NO:27、28或29所述的转录调控核苷酸序列。
19.载体,含有权利要求1至17中任一项所述的表达盒。
20.转基因宿主细胞或者非人生物体,含有权利要求1至17中任一项所述的表达盒或者权利要求19所述的载体。
21.转基因植物,含有权利要求1至17中任一项所述的表达盒或者权利要求19所述的载体。
22.用于在单子叶植物中鉴定和/或分离转录调控核苷酸序列的方法,其特征在于所述鉴定和/或分离利用如SEQ ID NO:31所述氨基酸序列的编码核酸序列,或者至少15个碱基的所述核酸序列的部分。
23.权利要求22的方法,其中核酸序列如SEQID NO:30、所述,或其至少15个碱基的部分。
24.权利要求22或23的方法,其中所述鉴定和/或分离通过选自聚合酶链式反应、杂交和数据库筛选的方法实现。
25.提供用于在单子叶植物中进行异源表达的转基因表达盒的方法,包括步骤: ·1.利用至少一个核酸序列或其部分从单子叶植物分离转录调控核苷酸序列,其中所述序列编码SEQ ID NO:31所述的多肽,或者至少15个碱基的所述核酸序列的部分,和 I1.将所述转录调控核苷酸序列功能性连接于其他目的核苷酸序列,后者与所述转录调控核苷酸序列异源。
全文摘要
本发明涉及在单子叶植物中调控表达的表达盒,包括至少一个可从如下单子叶植物基因中获得的转录调控核苷酸序列咖啡酰-CoA-O-甲基转移酶基因、C8,7-固醇异构酶基因、富含羟脯氨酸的糖蛋白(HRGP)基因、乳酸脱氢酶基因以及叶绿体蛋白12样基因。更优选转录调控序列可从玉米或稻中获得。所述转录调控序列对于根/仁偏好性表达、叶/胚乳偏好性表达、根/穗丝/仁偏好性表达或组成型表达尤其有用。
文档编号C12N15/82GK103184218SQ201210499439
公开日2013年7月3日 申请日期2006年2月8日 优先权日2005年2月9日
发明者H-S·宋, M·莫拉, C·达曼, C·E·罗赫, E·托伦, A·多布森 申请人:巴斯福植物科学有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1