用于在植物中胚-特异性表达的表达盒的制作方法

文档序号:393310阅读:704来源:国知局
专利名称:用于在植物中胚-特异性表达的表达盒的制作方法
技术领域
本发明涉及包含转录调控核苷酸序列的表达盒,该转录调控核苷酸序列在可以获得自玉米的植物中具有整个种子和/或胚特异性的表达特性。该调控核苷酸序列优选表现出强表达活性,尤其是在整个种子中,特别是在胚乳中。
背景技术
操纵植物以改变和/或改良表型特征(例如生产力或质量)需要在植物组织中表达异源基因。此类遗传操纵依赖于驱动和控制所需基因表达的手段的可用性。例如,遗传操纵依赖于合适的启动子的可用性和使用,该启动子在植物中是有效的,并调控基因表达使得转基因植物产生理想的效应。
可育玉米植株包含雄性和雌性生殖组织二者,其通常分别称为雄花穗和谷穗。雄花穗组织形成每个颗粒中具有两个核的单倍体花粉粒,其在开花期散发时接触雌谷穗的穗丝。谷穗可以在与散发花粉的植株相同的植株上,或者在不同的植株上。花粉细胞发育为称为花粉管的结构,其向下伸长穿过单个雌穗丝,到达胚珠。两个雄核通过此管到达穗丝基底处的单倍体雌卵。雄核中的一个与雌单倍体卵核融合并使其受精形成合子,其在染色体数目上是二倍体,且将成为谷粒内的胚。另一个雄核与第二雌核融合并使其受精形成初生胚乳核,其在染色体数目上是三倍体,且将成为玉米植株的谷粒或种子的胚乳。未受精的胚珠不产生谷粒,未受精的组织最后退化。谷粒由许多部分组成,一些部分衍生自母体组织,其他部分衍生自受精过程。在母体遗传上,谷粒遗传了许多组织,包括保护性周围果皮和花梗。花梗是短柄样组织,其将谷粒附着于穗轴,并提供从母体组织至谷粒的营养物转移。谷粒包含源自受精活动的组织,包括新的胚,以及胚乳。胚由将发育为下一代玉米植株的根和枝条的细胞组成。它还是谷粒中贮存油和质量蛋白质的组织。胚乳作为营养组织发挥作用,并在萌发和胚的最初生长所需的贮存淀粉和蛋白质的形成中提供能量。考虑到高等植物的胚和谷粒发育过程中发生的复杂调控,且考虑到通常将谷物用作动物和人类的主要营养来源,发展可以用来从营养角度改善这些组织的关键工具很重要。这类工具中的一类可以是转录启动子,该转录启动子可以驱动营养增强基因在这些组织中的特异性表达。不幸的是,仅鉴定出了相对少的特异性指导此表达模式的启动子。因此,本领域存在对在谷粒发育过程中,更具体而言,在胚发育过程中驱动表达的新的启动子序列的需要。胚特异性的启动子可用于表达基因,以及用于产生大量的蛋白质,用于表达参与油或目标蛋白合成的基因,例如抗体、用于增加整个种子营养价值的基因、和尤其胚等。有多种不同的启动子供选择是有利的,使得可以根据特定的基因、构建体、细胞、组织、植物或环境选择最合适的启动子。此外,对用多种植物转录单元(PTU)共转化植物日益增加的兴趣,和与使用用于这类目的的常规调控序列相关的潜在问题值得有多种可利用的启动子序列。
仅克隆和详细研究了少数胚或整个种子特异性启动子;这些包括种子贮藏蛋白基因的启动子,例如球蛋白启动子(Wu等人,(1998)Plant Cell Physiol 39 (8)885-889)、菜豆蛋白启动子(美国专利号5,504,200)和油菜籽蛋白启动子(美国专利号5,608,152)。贮藏蛋白一般大量存在,使其相对易于分离贮藏蛋白质基因和基因启动子。即使如此,可利用的种子特异性启动子数量仍然有限。此外,大部分这类启动子都有若干缺点;其只可在种子发育过程中有限的时间段驱动表达,并且也可以在其他组织中表达。例如,贮藏蛋白基因启动子主要在胚发育阶段的中期至后期表达(Chen等人,Dev. Genet. ,10(2)112-122(1989) ;Keddie 等人,Plant Mol. Biol. , 19(3) :443-53(1992) ;Sjodahl 等人,Planta.,197(2) :264-71(1995) ;Reidt 等人,Plant J. ,21(5) :401-8 (2000)),并且也在其他组织中具有活性,例如花粉、雄蕊和/或花药(例如,菜豆蛋白启动子,如Ahm,V,等人,Plant Phys 109 :1151-1158 (1995)报道的;或 zmHyPRP 启动子,如 Gene 356(2005),146-152中所述;或如美国专利5,912,414所述的启动子)。因此,现有技术对于鉴别可用于在重要经济植物中表达选定的转基因的新序列存在巨大的需求。因而,本发明的目的是提供新的和备选的表达盒,用于转基因在植物中的胚表达。本发明解决了该问题。
发明概述因此,本发明的第一个实施方案涉及用于调控目的多核苷酸的种子特异性表达的表达盒,该表达盒包含选自以下序列的转录调控核苷酸序列(a) SEQ ID NO :1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、或 18 的核酸序
列,或其变体;(b)与 SEQ ID NO :1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、或 18 中的任
一个所示的核酸序列至少80%相同的核酸序列;(c)在严紧条件下与SEQ ID NO :1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、
或18的核酸序列杂交的核酸序列,或其变体;(d)与位于 SEQ ID NO :19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35
或36的可读框序列上游的核酸序列杂交的核酸序列,或其变体;(e)与位于下述可读框序列上游的核酸序列杂交的核酸序列,其中该可读框序列编码 SEQ ID NO :37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53 或 54 的氨基酸序列,或其变体;(f)与位于下述可读框序列上游的核酸序列杂交的核酸序列,其中该可读框序列与 SEQ ID NO :19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35 或 36 的可读框序
列至少80%相同,且其中该可读框编码种子蛋白质;(g)与位于下述可读框上游的核酸序列杂交的核酸序列,其中该可读框编码与SEQID NO :37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53 或 54 的氨基酸序列至少
80 %相同的氨基酸序列,其中该可读框编码种子蛋白质;(h)核酸序列,其可以自 SEQ ID NO :19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35或36所示的可读框序列的第一外显子出发,在基因组DNA上,通过5'基因组步行或热不对称交错聚合酶链式反应(TAIL-PCR)获得;以及(i)核酸序列,其可以自下述可读框序列的第一外显子出发,在基因组DNA上,通过5'基因组步行或TAIL-PCR获得,其中该可读框序列与SEQ ID NO :19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35或36所示的可读框序列至少80%相同,且其中该可读框编码种子蛋白质;以及(j)核酸序列,其可以自下述可读框序列的第一外显子出发,在基因组DNA上,通过5'基因组步行或TAIL-PCR获得,其中该可读框序列编码与SEQ ID NO :37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53或54所示的可读框编码的任一氨基酸序列至少80 %相同的氨基酸序列,且该可读框编码种子蛋白质。在优选的实施方案中,表达盒还包含有效连接到转录控制核苷酸序列上的至少一个目的多核苷酸,该目的多核苷酸优选与转录控制核苷酸序列异源。在另一个方面,本发明涉及包含本发明的表达盒或载体的转基因植物组织、植物器官、植物或种子。优选的,该转基因植物是单子叶植物。在另一个方面,本发明涉及用于产生转基因植物组织、植物器官、植物或种子的方 法,该方法包括(a)将本发明的表达盒或载体引入植物细胞中;以及(b)再生该植物细胞来形成植物组织、植物器官、植物或种子。在另一方面,本发明涉及用于产生转基因植物组织、植物器官、植物或种子的方法,该方法包括(a)将本发明的表达盒或载体整合到植物细胞的基因组中;(b)再生该植物细胞来形成植物组织、植物器官、植物或种子,和(C)针对本发明的表达盒或载体的存在选择该植物细胞来形成植物组织、植物器官、植物或种子。本发明的其他实施方案涉及包含本发明的表达盒的载体,和包含本发明的表达盒或载体的转基因宿主细胞或转基因植物,和产生该转基因宿主细胞或转基因植物的方法。附图简述图I :KG候选物的q-RT-PCR结果,显示整个种子或胚特异性或优选的表达模式。[根_dv :授粉(DAP)后5、15、30天的根的混合物;叶_如:DAP后5、15、30天的叶的混合物;穗5和10DAP的穗的混合物;全种子15、20、30DAP的全种子的混合物;胚乳15、20、30DAP的胚乳的混合物;胚15、20、30DAP的胚的混合物^_V2+V4 V2和V4阶段的根的混合物;枝条/叶_V2+V4 V2枝条和V4叶的混合物;花_GS :花和萌发种子的混合物]图2 :二元KG载体的示意图⑷和⑶。图3 :具有RHF155的转基因玉米中由p_KG24驱动的⑶S在不同发育阶段的不同组织中的表达。图4 :具有RKF109的转基因玉米中由p_KG37驱动的⑶S在不同发育阶段的不同组织中的表达。图5 :具有RKF106的转基因玉米中由p_KG45驱动的⑶S在不同发育阶段的不同组织中的表达。图6 :具有RKF107的转基因玉米中由p_KG46驱动的⑶S在不同发育阶段的不同组织中的表达。图7 :具有RKF108的转基因玉米中由p_KG49驱动的⑶S在不同发育阶段的不同组织中的表达。图8 :具有RKF125的转基因玉米中由p_KG56驱动的⑶S在不同发育阶段的不同组织中的表达。图9 :具有RHF128的转基因玉米中由P-KG103驱动的⑶S在不同发育阶段的不同组织中的表达。

图10 :具有RHF138的转基因玉米中由p_KG119驱动的⑶S在不同发育阶段的不同组织中的表达。图11 :具有RTP1047的转基因玉米中由P-KG129驱动的⑶S在不同发育阶段的不同组织中的表达。图12 MA候选物的q-RT-PCR结果[根_dy :授粉(DAP)后5、15、30天的根的混合物;叶_如:DAP后5、15、30天的叶的混合物-M 5和10DAP的穗的混合物;全种子15、20、 30DAP的全种子的混合物;胚乳15、20、30DAP的胚乳的混合物;胚15、20、30DAP的胚的混合物;根_V2+V4 V2和V4阶段的根的混合物;枝条/叶_V2+V4 V2枝条和V4叶的混合物;花_63 :花和萌发种子的混合物]图13 :用于MAWS启动子的载体RCB 1006。图14 :具有RTP1060的转基因玉米中由p_MAWS23驱动的⑶S在不同发育阶段的不同组织中的表达。图15 :具有RTP1059的转基因玉米中由p_MAWS27驱动的⑶S在不同发育阶段的不同组织中的表达。图16 :具有RTP1053的转基因玉米中由p_MAWS30驱动的⑶S在不同发育阶段的不同组织中的表达。图17 :具有RTP1049的转基因玉米中由p_MAWS57驱动的⑶S在不同发育阶段的不同组织中的表达。图18 :具有RTP1056的转基因玉米中由p_MAWS60驱动的⑶S在不同发育阶段的不同组织中的表达。图19 :具有RTP1048的转基因玉米中由p_MAWS63驱动的⑶S在不同发育阶段的不同组织中的表达。图20 :具有RTP1061的转基因玉米中由p_MAEMl驱动的⑶S在不同发育阶段的不同组织中的表达。图21 :具有RTP1064的转基因玉米中由p_MAEM20驱动的⑶S在不同发育阶段的不同组织中的表达。图 22 Zm. 8705. I. Sl_at 的 qRT-PCR 结果。图23 :在1% w/v的琼脂糖凝胶上运行且用溴化乙锭染色的GenomeWalk(GW)的数字图像。泳道(L)代表如下(LI) Ikb加序列梯(Promega, Madison, WI,美国),(L2)没有DNA(用无菌重蒸水代替GW库),作为阴性对照;(L3)由试剂盒提供的人类PvuII Gff库和来自人类组织类型胞浆素原活化体的引物,作为阳性对照,(L4)B73 PvuIIGW库,(L5)B73EcoRV GW库,(L6)B73 DraI GW库,(7)B73 StuI GW库。L3使用由试剂盒提供的来自人类组织类型胞浆素原活化体(tPA)的引物。L2和L4到L7使用ZmNP28特异性引物。图24 :最终二元载体RLN 90(A)和RLN 93(B);图24(C)是RHF160的示意图,图24(D)是RHF158的示意图。图25 (A)具有RLN90的转基因玉米中由pZmNP28_655驱动的⑶S在不同发育阶段的不同组织中的表达;(B)具有RLN93的转基因玉米中由pZmNP28_507驱动的⑶S在不同发育阶段的不同组织中的表达;(C)具有RHF158的转基因玉米中由pZmNP28_1706驱动的⑶S在不同发育阶段的不同组织中的表达;(D)具有RHF160的转基因玉米中由pZmNP28_2070驱动的GUS在不同发育阶段的不同组织中的表达。参照启动子的序列识别号说明
启动子 CDS 氣基酸I载体I基因I EST I变体I变休2片段 I
"MAWS6F1 — 19 3755 ~W91 TW!27I MAlMl^ ^2 20|38"J6^ 74^ 92^TH 128............................................................................
ICG 56 3 |2l[39^57 I 75 I 93 Illl I 129 1145 [
KG 129 4_I 22I 40I 58 j 76 I 94 112 130 146
MAEM20 5__23 4159_ 77 95 113 131—
MAWS27 6__24 4260 78_ 96 Hi^ 132
MAWS63 7 25 43 ,79 Wf SB i33
KGT 49 8 26"一 Ti62 80 98 116 134 147
KG—24 927^63 M 99 117 135 148
KG 37 10 28^ 4664 82 118 136 149
KG 45 11_.....29......................."47.....65....................~83^.....101..................119....................137…150.........—
KG 46 12 30^4866 84 TMHO iH BI
KG 103 13 311567 IS 103121 139 152
..........KG^l 19 14"SiSI SI W4^ '122......................丽.....................153....................................
MAWS23 ~I5 33 IT^ If 105123 141
—MAWS30 16 34 5270 Si illIM 142
"MAWS57 Tf 35 5371 SI 107125 143
ZmNP28 18 36|~54|72^|9i—^|lgr^|T26^]144^
_0] 一般定义可以理解,本发明不限于描述的特定的方法、规程、细胞系、植物种或属、构建体和试剂。还可以理解,本文使用的术语仅出于描述特定实施方案的目的,而并非意在限制本发明的范围,所述范围仅由所附权利要求限制。必须注意到,除非上下文另外清楚的指出,本文和所附权利要求中使用的单数形式“一”、“和”及“该”包括复数指代。因此,例如提到“载体”是指代一个或多个载体,并包括本领域技术人员已知的其等价体等。术语“约”在本文中意指大致、大约、左右或在一定范围内。当术语“约”与数值范围联用时,它通过将边界延伸到所述数值的上下来修饰所述范围。一般而言,本文使用的术语“约”用于修饰高于和低于所述值20%变量,优先高或低(大于或小于)所述值10%的变量。本文使用的词语“或”意指特定列表的任一成员,也包括所述列表的成员的任何组

口 o“表达盒”在本文中意指线性或环状的核酸分子。涵盖了能够指导特定核苷酸序列在恰当宿主细胞中表达的DNA和RNA序列。一般而言,包括与目的多核苷酸有效连接的启动子,其任选的是与终止信号和/或其他调控元件有效连接的。本发明的表达盒的特征是其应该包括后文定义的转录调控核苷酸序列。表达盒还可以包括核苷酸序列正确翻译所需的序列。编码区通常编码目标蛋白,但在正义或反义方向也编码目标功能RNA,例如反义RNA或非翻译的RNA。包含目的多核苷酸序列的表达盒可以是嵌合的,意指至少一个其组分与其至少一个其他组分是异源的。表达盒还可以是天然存在的,但以用于异源表达的有效重组形成获得的。表达盒可以完全是胞外装配的(例如,重组克隆技术)。然而,表达盒还可以部分使用内源组分装配。例如,可以通过在内源序列的上游替换(或插入)启动子序列来获得表达盒,从而使得该内源序列与该启动子功能连接,并受该启动子序列控制。同样的,待表达的核酸序列还可以替换(或插入)到内源启动子序列的下游,从而形成表达盒。表达盒中的核苷酸序列的表达可处于组成型启动子或诱导型启动子的控制下,后者仅当宿主细胞暴露在一些特定的外部刺激下时才启动转录。在多细胞生物体的情况下,启动子还可以是特定组织、器官或发育阶段(例如,本发明种子优先或胚特异性启动子)特异性的。在优选的实施方案中,此类表达盒包括与目标核苷酸序列连接的本发明的转录起始区。此类表达盒优选提供复数的限制性酶切位点,供插入目标基因在调控区的转录调控下。表达盒可额外的含有可选择的标记基因。盒按5’ -3’转录方向包括在植物中有功能的转录和翻译起始区、目标DNA序列,和转录和翻译终止区。终止区可以是转录起始区天然的,可以是目标DNA序列天然的,或者可以源自另一种来源。常规的终止区可获得自根癌农杆菌(A. tumefaciens)的Ti-质粒,例如章鱼碱合酶和胭脂碱型合酶终止区,以及下文所描述的 (还参见 Guerineau 1991 ;Proudfoot 1991 ;Sanfacon 1991 ;Mogen 1990 ;Munroe 1990 ;Balias 1989 Joshi 1987)。表达盒还可以包括多克隆位点。在此情况下,多克隆位点优选以这样的方式排列,该方式允许待导入到多克隆位点中的多核苷酸与转录调控序列有效连接。除上述组分外,本发明的表达盒优选可包括同源重组所需组分,即,来自靶位置的侧翼基因组序列。然而,还考虑基本上由如下文定义的转录调控核苷酸序列组成的表达盒。“启动子”指通常位于其编码序列上游(5,)的核苷酸序列,通过提供RNA聚合酶和正确转录所需的其他因子的识别,来控制编码序列的表达。“启动子”包括短DNA序列的基础启动子,在一些情况下,其包括TATA框和作用是具体说明转录起始位点的其他序列,该基础启动子上可添加用于增强表达的调控元件。“启动子”还指包括基础启动子和调控元件的核苷酸序列,其能够控制编码序列或功能性RNA的表达。该类型的启动子序列包括近端和更远距离的上游元件,后一类元件通常被称为增强子。因而,“增强子”是刺激启动子活性的DNA序列,并可以是启动子内在的元件或插入的异源元件,以增强启动子的水平或组织特异性。它可以在两个方向(正常方向或折返的方向)发挥作用,即使当移动到启动子上游或下游时,也能够发挥功能。增强子和其他上游启动子元件都结合介导其效应的序列特异性的DNA结合蛋白。启动子可以整个源自天然基因,或包括源自天然可见的不同启动子的不同元件,或者甚至包括合成的DNA片段。启动子还可以含有蛋白质因子结合所涉及的DNA序列,其响应生理的或发育的条件,控制转录起始的效率。“起始位点”是围绕第一核苷酸周围的位置,第一核苷酸是转录序列的一部分,也定义为位置+1。基因的所有其他序列及其控制区根据该位点编号。下游序列(即,3’方向的其他蛋白质编码序列)命名为正的,而上游序列(5’方向上的大部分控制区)命名为负的。在缺少上游激活的条件下失活的或启动子活性极大降低的启动子元件,例如TATA元件,被称为“基础”或“核心”启动子。在存在合适的转录因子的条件下,基础启动子发挥允许转录的功能。因而,“基础”或“核心”启动子仅由转录起始需要的所有基本元件构成,例如TATA框和/或起始物(initiator)。“组成型启动子”指能够在植物的所有的或几乎所有的发育阶段过程中,在所有的或几乎所有的植物组织中表达可读框的启动子(ORF)。每种转录激活元件都不表现出绝对的组织特异性,而以达到转录活性最高的植物组织中至少I %的水平在大部分植物组织中介导转录激活。“组成型表达”指使用组成型启动子的表达。“受调控的启动子”指非组成型的,而是以时间和/或空间上受调控的方式指导基因表达的启动子,包括组织特异性启动子和诱导型启动子。包括天然的和合成的序列,以及合成和天然序列的组合。不同的启动子可以指导基因在不同的组织或细胞类型中表达,或在不同的发育阶段表达,或者响应不同的环境条件表达。不断发现可用于植物细胞中的各种类型的新启动子,大部分实例可见于Okamuix)等人,(1989)的编著中。可用于植物中的典型的受调控的启动子包括但不限于安全剂诱导型启动子、源自四环素诱导型系统的启动子、源自水杨酸诱导型系统的启动子、源自醇类诱导型系统的启动子、源自糖皮质激素诱导型系统的启动子、源自病原体诱导型系统的启动子,和源自蜕皮素诱导型系统的启动子。“条件化的”和“受调控的表达”指由受调控的启动子控制的表达。“诱导型启动子”指可以通过外部刺激在一种或多种细胞类型中开启的受调控的启动子,例如化学品、光照、激素、胁迫或病原体。 如本文中使用的,“转录调控核苷酸序列”指这样的核苷酸序列,其影响待转录的相关(或功能上关联的)核苷酸序列的转录、RNA加工或稳定性或翻译。转录调控核苷酸序列相对于待转录的核苷酸序列可具有各种分布。转录调控核苷酸序列可位于待转录核苷酸序列(例如,编码序列)的上游(5’非编码序列)、内部、或下游(3’非编码序列)。转录调控核苷酸序列可选自增强子、启动子、翻译前导序列、内含子、5’非翻译序列、3’非翻译序列和多聚腺苷酸信号序列。包括天然的和合成的序列,以及合成和天然序列的组合。如上所示,术语“转录调控核苷酸序列”不限于启动子。然而,本发明的转录调控核苷酸序列优选包括至少一个启动子序列(例如,能够诱导下游序列转录的位于基因转录起点上游的序列)。在一个优选的实施方案中,本发明的转录调控核苷酸序列包括相应基因的启动子序列,和任选及优选的,该基因的天然5’非翻译区。此外,还可以使用该基因的3’非翻译区和/或多聚腺苷酸区。本文中使用的术语“顺式调控元件”或“启动子基序”指这样的顺式作用转录调控元件,该元件产生基因表达整体控制的一方面。顺式元件可以发挥结合转录因子的功能,该转录因子是调控转录的反式作用蛋白质因子。一些顺式元件结合一种以上的转录因子,转录因子可以不同的亲和力与一种以上的顺式元件相互作用。本发明的启动子理想的含有可以产生或调节基因表达的顺式元件。可以通过多种技术鉴别顺式元件,包括删除分析,即从启动子的5 ‘末端或中间删除一个或多个核苷酸;使用DNA酶I足迹的DNA结合蛋白质分析;甲基化干扰、电泳移动性迁移测定;由连接介导PCR的体内基因组足迹,和其他的常规测定;或通过常规的DNA序列比较方法,用已知的顺式元件进行DNA序列相似性分析。可以通过诱变(或取代)一个或多个核苷酸,或通过其他常规方法,进一步研究顺式元件的精细结构。可以通过化学合成,或通过从包括此类元件的启动子中分离,来获得顺式元件,还可以合成含有额外的侧翼核苷酸的顺式元件,该侧翼核苷酸含有促进序列操作的有效的限制性酶切位点。启动子(有或无增强子)的“表达模式”是表达水平的模式,显示该启动子在植物中的何处和哪个发育阶段起始转录。当一个启动子的表达模式表现出与其他启动子的表达模式极少重叠时,认为该组启动子的表达模式是互补的。可以通过测量标准转录的报告子mRNA的“稳态”浓度,来确定启动子的表达水平。该测量是间接的,因为报告子mRNA的浓度不仅取决于其合成速率,而且取决于mRNA降解的速率。因此,稳态水平是合成速率和降解速率的产物。然而,当转录序列相同时,可认为降解速率以固定的速率进行,因而该值可作为合成速率的测量。当以该方式比较启动子时,本领域技术人员可获得的技术是杂交Sl-RNA酶分析、Northern印迹和竞争性RT-PCR。该技术列表并非以任何方式代表所有可获得的技术,而是描述用于分析转录活性和mRNA表达水平的常用程序。实践上,所有启动子的转录起点分析揭示,转录开始处通常不仅有单个碱基,而是或多或少成簇的起始位点集合,每种负责mRNA的若干起点。由于该分布在启动子与启动子之间不同,故每群的报告子mRNA序列也彼此不同。由于每种mRNA或多或少倾向于降解,因此预期不同的报告子mRNA没有单一的降解速率。已显示,对于多种真核启动子序列,围绕起始位点(“起始物”)的序列在确定由该特定的启动子指导的RNA表达水平中扮演了重要角色。这还包括部分的转录序列。因而启动子与报告子序列的直接融合导致亚优化的转录水平。分析表达模式和水平的常用程序是通过确定细胞中蛋白质积累的“稳态”水平。本领域技术人员已知的报告子基因的常用候选物是P -葡糖醛酸糖苷酶(GUS)、氯霉素乙酰转移酶(CAT)和有荧光特性的蛋 白质,例如水母(Aequora victoria)的绿色突光蛋白(GFP)。然而,原则上,更多蛋白质适合该目的,只要该蛋白质不干扰基本的植物功能。多种工具适用于定量和确定分布。检测系统是可以方便的创造的,或者基于例如免疫化学、酶学、荧光检测和定量是可获得。使用原位分析蛋白质表达,可以确定植物组织提取物或完整组织中的蛋白质水平。一般而言,具有一个嵌合的启动子报告子构建体的单个转化系可随其报告子基因的表达水平而改变。还经常观察到的是这样的现象,即此类转化体不表达任何可检测的产物(RNA或蛋白质)。表达的变化通常归因于为“位置效应”,虽然该失活的分子机制通常尚不清楚。“组织特异性启动子”指这样的受调控的启动子,该启动子不是在所有的植物细胞中表达,而仅在特定器官(例如叶或种子)、特定组织(例如胚或子叶)或特定的细胞类型(例如叶薄壁组织或种子贮藏细胞)的一种或多种细胞类型中表达。这也包括时间上受调控的启动子,例如在早期或晚期胚胎发生中、在发育的种子或果实的果实成熟的过程中、在完全分化的叶中,或在开始衰老时。为了本发明的目的,“组织特异性”优选的指“种子特异性”或“种子优先”或胚特异性或胚优先。本文中使用的“种子”优选指整个种子、胚乳和胚组织,更优选的指胚组织。本发明中“特异性”意指,当存在于植物中时,有效连接本文所指的转录调控核苷酸序列的目的多核苷酸将优势地在所指定的组织或细胞中表达。本文意味的优势地表达的特征是相对于其他植物组织,在该组织或细胞中可检测转录物的量统计学显著的更高。统计学显著更高的转录的量优选是这样的量,所述量是在至少一种具有可检测的转录的其他组织中发现的量的至少2倍、3倍、4倍、5倍、10倍、100倍、500倍或1000倍。可选的,它是所指定组织或细胞中这样的表达,其他组织或细胞中的转录量少于(整株植物)表达总量的1%、2%、3%、4%或最优选5%。转录量与细胞或组织内存在的转录物(即RNA)或由转录物编码的多肽的量直接相关。基于RNA或多肽的用于测量转录的合适技术是本领域普遍已知的。除上述外,组织或细胞特异性可选的和优选的意指该表达限于或大部分限于所指定的组织或细胞,即在其它组织中基本没有可检测的转录。本文中的几乎限于意指在少于10种、少于5种、少于4种、少于3种、少于2或I种其它组织中可检测到非特异的表达。“种子优选的”或“胚优选的”在本发明的上下文中意指转录调控元件对核酸序列的转录方式使该核酸序列在种子中的表达在植物的任何发育阶段,都占该核酸序列在整个植物中转录的RNA总量的超过50 %,优选超过70 %,更优选超过80 %。“表达”指内源基因、ORF或其部分、或转基因在植物中的转录和/或翻译。例如,在反义构建体的情况下,表达可以仅指反义DNA的转录。此外,表达指正义(mRNA)或功能性RNA的转录和稳定积累。表达还指广生蛋白质。种子特异性表达能够被确定,例如通过在以下组织和发育阶段中,比较有效连接到表达控制序列上的目的核酸(例如,葡糖醛酸糖苷酶(CTS)报告基因)的表达1)5叶期的根和叶,2) V-7期的莖,3)开花期出现第一个穗丝的叶、壳(husk)和穗丝(silk),4)授粉时的小穗(spikelets)/雄花穗(tassel), 5)授粉后5、10、15、20和25天的谷穗(ear)或籽粒(kernel)。优选地,目的核酸的表达可以在授粉后5、10、15、20和25天的穗或籽粒 中在附图所示的分析试验中测定。目的多核苷酸的表达可以通过各种熟知的技术被测定,例如通过Northern印迹或WO 02/102970中所描述的原位杂交技术测定,优选地按附于本发明的实施例所述的GUS组化分析方法测定。用于分析种子特异性表达的转基因植物也能够通过技术人员所熟知、并在本说明书其它地方讨论的技术产生。术语“核酸“指脱氧核糖核苷酸或核糖核苷酸及其单链或双链形式的聚合物,包括含有糖、磷酸和碱基的单体(核苷酸),该碱基是嘌呤或嘧啶。除非具体限制,该术语涵盖了含有天然核苷酸的已知类似物的核酸,其与参照核酸具有相似的结合特性,并以与天然存在的核苷酸相似的方式代谢。除非另外指出,特定的核酸序列还暗示性的涵盖了保守修饰的变体(例如,简并密码子取代)和互补的序列,以及明确述及的序列。具体而言,可以通过产生这样的序列来实现简并密码子取代,该序列中一个或多个选定(或所有)密码子的第3位被混合的碱基和/或脱氧次黄甘残基取代(Batzer 1991 ;0htsuka 1985 ;Rossolini1994)。“核酸片段”是给定核酸分子的部分。在高等植物中,脱氧核糖核酸(DNA)是遗传材料,而核糖核酸(RNA)参与DNA内所含信息向蛋白质中转移。术语“核苷酸序列”指可以是单链或双链的DNA或RNA的聚合物,任选的含有能够整合到DNA或RNA聚合物中的合成的、非天然的或改变的核苷酸碱基。术语“核酸”或“核酸序列”还可以与基因、cDNA、DNA和基因编码的RNA互换的使用。本发明涵盖了分离的或基本纯化的核酸或蛋白质组合物。在本发明的上下文中,“分离的”或“纯化的” DNA分子,或“分离的”或“纯化的”多肽是籍人力,脱离其天然环境而存在的DNA分子或多肽,因而不是天然产物。分离的DNA分子或多肽可以以纯化的形式存在,或者可以存在于非天然的环境中,例如转基因宿主细胞中。例如,“分离的”或“纯化的”核酸分子或蛋白质,或其生物学活性部分,是基本不含其他细胞材料,或者当通过重组技术产生时基本不含培养基,或者当合成产生时基本不含化学前体或其他化学品。优选的,“分离的”核酸不含核酸所来源的生物体的基因组DNA中天然位于核酸侧翼(S卩,位于核酸的5’或3’端的序列)的序列(优选蛋白质编码序列)。例如,在各实施方案中,分离的核酸分子可以含有少于约5kb、4kb、3kb、2kb、lkb、0. 5kb或0. Ikb的核苷酸序列,该核苷酸序列核酸是在核酸所来源的生物体的基因组DNA中天然位于核酸侧翼的。基本不含细胞材料的蛋白质包括具有少于约30%、20%、10%、5% (按干重计)的污染蛋白的蛋白质或多妝制品。当本发明的蛋白质或其生物学活性部分是重组产生的时,优选培养基占少于约30%、20%、10%或5% (按干重计)的化学前体或非目标蛋白质的化学品。本发明的核苷酸序列包括天然存在的序列以及突变(变体)形式。此类变体仍然具有理想的活性,即,启动子活性或由非变体核苷酸序列的可读框编码的产物的活性。术语“变体”涉及序列(例如,多肽或核酸序列一例如,本发明的转录调控核苷酸序列)时,意在表示基本相似的序列。对于包含可读框的核苷酸序列,变体包括这样的序列,由于遗传密码的简并性,该序列编码与天然蛋白质相同的氨基酸序列。天然存在的等位变体可以使用例如普遍已知的分子生物学技术鉴别,如聚合酶链式反应(PCR)和杂交技术。变体核苷酸序列还包括合成来源的核苷酸序列,例如使用定点诱变产生的,和编码天然蛋白质的可读框,以及编码相对于天然蛋白质具有氨基酸取代的多肽的序列。一般而言,本发明的核苷酸序列变体与天然的(野生型或内源)核苷酸序列,即,例如与SEQ ID N01至 18 或 19 至 36 具有至少 40、50、60 至 70%,例如优选 71%、72%、73%、74%、75%、76%、77%、78% 至 79%,一般至少 80%,例如 81% -84%,至少 85%,例如 86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%至 98%和 99%核苷酸序列同一性。 可以“优化”本发明的核酸分子用于增强在目标植物中的表达(参见例如WO91/16432 ;Perlak 1991 ;Murray 1989)。以该方式,可以利用植物优选的密码子合成基因或基因片段中的可读框(参见例如CampbeIl&Gowri, 1990关于宿主优选的密码子用法的讨论)。因而,可以优化核苷酸序列用于在任何植物中表达。认识到可以优化或合成所有的或任何部分的基因序列。即,还可以使用合成的或部分优化的序列。变体核苷酸序列和蛋白质还涵盖了源自诱变和重组程序的序列和蛋白质,例如DNA改组。使用此类程序,可以操作一种或多种不同的编码序列,来产生具有理想特性的新的多肽。以此方式,从相关多核苷酸序列的群体中产生重组多核苷酸的文库,该多核苷酸序列包含具有实质的序列同一性的序列区域,并可以在体外或体内同源重组。此种DNA改组的策略是本领域已知的(参见例如Stemmer 1994 ;Stemmer 1994 ;Crameri 1997 ;Moore 1997 ;Zhang 1997 ;Crameri 1998 ;和 US 5,605,794,6,8,10 和 12,837,458)。下列术语用于描述两条或多条核酸或多核苷酸之间的序列关系(a) “参考序列”、(b) “比较窗口”、(c) “序列同一性”、(d) “百分比序列同一性”和(e) “实质相同”。(a)本文中使用的“参考序列”是用作序列比较基础的确定序列。参考序列可以是具体序列的子集或整体;例如作为全长cDNA或基因序列的一部分,或完整的cDNA或基因序列。(b)本文中使用的“比较窗口”指代连续的和具体的多核苷酸序列的片段,其中,为了两条序列的最佳比对,比较窗口中的多核苷酸序列相比参考序列(其不包含添加或缺失)可包括添加或缺失(即,空位)。一般而言,比较窗口的长度至少是20个连续的核苷酸,任选可以是30、40、50、100个或更长。本领域技术人员理解,为了避免由于多核苷酸序列中包含空位而与参考序列高度相似,通常引入空位罚分,并从匹配数中减去。用于比较的序列比对方法是本领域普遍已知的。因而,可以使用数学算法实现确定任何两条序列之间的百分比同一性。优选的,此类数学算法的非限制性实例是Myers和Miller, 1988的算法;Smith等人,1981的局部同源性算法;Needleman和Wunsch 1970的同源性比对算法;Pearson和Lipman 1988的查询相似性方法;Karlin和Altschul, 1990的算法,Karlin和Altschul, 1993中修饰的算法。可以利用计算机执行这类数学算法,用于比较序列,来确定序列同一性。此类执行法包括但不限于PC/Gene程序中的CLUSTAL(可获得自Intelligenetics, MountainView, Calif.) ;ALIGN 程序(2. 0 版)!Wisconsin Genetics 软件包,第 8 版中的 ALIGN程序(2. 0 版)和 GAP、BESTFIT、BLAST、FASTA 和 TFASTA (可获得自 Genetics ComputerGroup (GCG), 575Science Drive, Madison, Wis. ,USA)。可以使用默认参数实施利用这些程序的比对。CLUSTAL 程序是详细描述的(Higgins 1988,1989 ;Corpet 1988 ;Huang 1992 ;Pearson 1994)。ALIGN程序是基于Myers和Miller,见上文的算法的。Altschul等人,1990的BLAST程序是基于Karlin和Altschul,见上文的算法。优选使用Clustal W算法实施多重比对(即,比对2条以上的序列)(Thompson 1994 ;例如,在软件VectorNTI ,第9版;Invitrogen Inc.),使用默认设定的评分矩阵BL0SUM62MT2 (空位开发罚分15/19,空位延伸罚分6. 66/0. 05 ;空位分离罚分范围8 ;比对延迟的%同一性40 ;使用残基特异性空位和亲水残基空位)。
进行BLAST分析的软件是通过美国国立生物技术信息中心(http://www.ncbi.nlm. nih. gov/)公众可获得的。该算法涉及首先通过鉴别查询序列中长度W的短字节,来鉴别高分序列对(HSP),该字节当与数据库序列中相同长度的字节比对时,是匹配的或满足某些正值的阈值分数T。T被称为相邻字节分数阈值(Altschul 1990)。以这些初步的相邻字节命中为种子,发动查询,发现包含它们的更长的HSP。然后,沿着每条序列的两个方向延伸该字节命中,只要可以增加累积的比对分数。对于核苷酸序列,使用参数M(—对匹配残基的回报分数;总是> 0)和N(错配残基的罚分;总是< 0)计算累积分数。对于氨基酸序列,使用评分矩阵来计算累积分数。当累积的比对分数从其最大达到的值跌落X的量,或者当累积分数由于积累一个或多个负分残基比对而变成零或低于零,或者当达到任一条序列的末端时,停止两个方向的字节延伸。除计算百分比序列同一性外,BLAST算法还实施两条序列之间的相似性统计学分析(参见例如,KarlinMltschul (1993))。BLAST算法提供的一种相似性测量是最小总或然性(P(N)),其提供了对两条核苷酸或氨基酸序列之间偶然发生匹配的可能性的提示。例如,如果在测试核酸序列与参照核酸序列的比较中,最小总或然性小于约0. I,更优选小于约0. 01,最优选小于约0. 001,则认为测试核酸序列与参考序列是相似的。为了获得出于比较目的的空位比对,可以利用Gapped BLAST(在BLAST 2. 0中),如Altschul等人,1997所述。可选的,可以使用PSI-BLAST(在BLAST 2. 0中)实施互作查询,来检测分子之间的远距离关系。参见Altschul等人,见上文。当利用BLAST、GappedBLAST、PSI-BLAST时,可以使用各程序的默认参数(例如BLASTN用于核苷酸序列,BLASTX用于蛋白质)。BLASTN程序(用于核苷酸序列)使用字节长度(W) 11、期望值(E) 10、截留100、M = 5、N = -4,和比较两条链,作为默认。对于氨基酸序列,BLASTP程序使用字节长度(W) 3、期望值(E) 10和BL0SUM62评分矩阵作为默认(参见Henikoff&Henikoff,1989)。参见http://www. ncbi. nlm. nih. gov。还可以通过目测手动实施比对。为了本发明的目的,优选使用BlastN程序(I. 4. 7版或更新版)及其默认参数(字节长度(W) 11、期望值(E) 10、截留100、M = 5、N = -4,和比较两条链)或任何等价的程序,来进行核苷酸序列的比较,确定与具体的核苷酸序列(例如,本文公开的启动子序列)的百分比序列同一性。“等价的程序”意指任何这样的序列比较程序,当与优选程序所产生的相应比对比较时,该程序对于任何两条探讨的序列,产生的比对具有相同的核苷酸或氨基酸残基匹配,和相同的百分比序列同一性。为了本发明的目的,优选使用BlastP程序(L 4. 7版或更新版)及其默认参数(字节长度(W)3、期望值(E) 10 和 BL0SUM62 评分矩阵(Henikoff&Henikoff,1989);参见http://www. ncbi. nlm. nih. gov)或任何等价的程序,来进行多肽或氨基酸序列的比较,确定与具体的多肽或氨基酸序列的百分比序列同一性/同源性。“等价的程序”意指任何这样的序列比较程序,当与优选程序所产生的相应比对比较时,该程序对于任何两条探讨的序列,产生的比对具有相同的核苷酸或氨基酸残基匹配,和相同的百分比序列同一性。(C)本文中使用的“序列同一性”或“同一性”在两条核酸或多肽序列的上下文中指,当比对具体比较窗口的最大对应程度时,两条序列中的残基是相同的。当序列同一性 的百分比用于指蛋白质时,应认识到不相同的残基位置通常是由于保守氨基酸取代而不同的,其中氨基酸残基被具有相似化学特性(例如,电荷或疏水性)的其他氨基酸残基取代,因此不改变分子的功能特性。当序列以保守取代而不同时,可以上调百分比序列同一性,校正取代的保守性质。由此类保守性取代而不同的序列被称为具有“序列相似性”或“相似性”。进行该调节的手段是本领域技术人员普遍已知的。典型的,这涉及将保守性取代按部分而非完全错配来打分,从而增加了百分比序列同一性。因而,例如,当相同的氨基酸得分为1,非保守性取代得分为0时,保守性取代的得分在0和I之间。保守性取代的评分按例如程序 PC/GENE (Intelligenetics, Mountain View, Calif.)中执行的计算。(d)本文中使用的“百分比序列同一性”意指在比较窗口比较两条最佳比对的序列所确定的值,其中对于两条序列的最佳比对,相比参考序列(其不包含添加或缺失),比较窗口中的部分多核苷酸序列可包括添加或缺失(即,空位)。百分比如下计算,通过确定两条序列中存在相同核酸碱基或氨基酸残基的位置数,产生匹配位置数,将匹配位置数除以比较窗口中的位置总数,并将结果乘以100,得到百分比序列同一性。(e)术语多核苷酸序列“实质相同”意指多核苷酸包括这样的序列,使用所述比对程序之一,利用标准参数与参考序列比较,该序列具有至少38%,例如39%、44%,46%,48%,50%,52%,54%,56%,58%,60%,62%,64%,65%,66%,67%,68%,69%、70%、71%、72%、73%、74%、75%、76%、77%、78%或 79%,优选至少 80%、81 %、82%、83%、84%、85%、86%、87%、88% 或 89%,更优选至少 90 %、91 %、92 %、93 % 或94%,和最优选至少95%、96%、97%、98%或99%序列同一性。本领域技术人员将认识到,通过考虑密码子简并性、氨基酸相似性、读码框位置等,可以恰当的调节这些值,以确定由两条核苷酸序列编码的蛋白质的相应的同一性。出于这些目的,氨基酸序列基本相同通常意指至少38%、50%或60%,优选至少70%或80%,更优选至少90%、95%,和最优选至少98%序列同一性。核苷酸序列基本相同的另一种指针(indication)是如果两个分子彼此在严紧条件下(见下文)杂交。一般而言,严紧条件选自在定义的离子强度和PH下,比具体序列的热融点(Tm)低约5°C。然而,严紧条件涵盖了约1°C至约20°C的温度范围,取决于本文另外限定的理想的严紧程度。如果其编码的多肽基本相同,则在严紧条件下彼此不杂交的核酸仍然是基本相同的。这可以在使用遗传密码允许的最大密码子简并性所产生的核酸拷贝中发生。两条核酸序列基本相同的一个指针是当第一核酸编码的多肽与第二核酸编码的多肽免疫学交叉反应时。(ii)在多肽条件下,术语“基本相同”表示肽包括这样的序列,该序列在具体的比较窗口中,与参考序列具有至少38%,例如39%,40%,42%,44%,46%,48%,50%,52%,54%,56%,58%,60%,62%,64%,65%,66%,67%,68%,69%,70%,71 %,72%,73%,74%、75%、76%、77%、78% 或 79%,优选 80 %、81 %、82 %、83 %、84 %、85 %、86 %、87 %、88% 或 89%,更优选至少 90%、91%、92%、93%或94%,和最优选95%、96%、97%、98%或99%序列同一性。优选的,使用Needleman和Wunsch (1970)的同源性比对算法进行最佳比对。两条肽序列基本相同的指针是一种肽与针对第二种肽的抗体免疫学交叉反应。因而,例如当两种肽仅以保守性取代而不同时,肽与第二种肽是基本相同的。对于序列比较,通常以一条序列作为参考序列,将测试序列与之比较。当使用序列比较算法时,测试序列和参考序列都被输入计算机,需要时指定序列坐标,并指定序列算法 程序参数。然后,序列比较算法计算测试序列相对于参考序列的百分比序列同一性,基于所指定的程序参数。如上所示,两条核酸序列基本相同的另一个指针是两个分子彼此在严紧条件下杂交。词组“特异性的杂交于”指当序列存在于DNA或RNA的复杂混合物(例如,总细胞的)中时,分子在严紧条件下只与特定的核苷酸序列结合、二聚体化或杂交。“实质上结合”指在探针核酸和靶核酸之间的互补杂交,包括通过降低杂交基质的严紧度可以容忍的微小错配,以实现理想的检测靶核酸序列。“严紧的杂交条件”和“严紧的杂交洗涤条件”在核酸杂交实验(例如Southern和Northern杂交)的上下文中,是序列依赖性的,并且在不同的环境参数下是不同的。Tm是50%的靶序列与完全匹配的探针杂交的温度(在定义的离子强度和pH下)。特异性通常是杂交后洗涤的函数,其关键的因子是最终洗涤溶液的离子强度和温度。对于DNA-DNA杂合体,Tm可以由Meinkoth和Wahl, 1984的等式近似得到Tm = 81. 5°C +16. 6 (Iog10M) +0. 41(% GC)-0. 61(% form) -500/L其中,M是单价阳离子的摩尔浓度,% GC是鸟苷和胞苷核苷酸在DNA中的百分t匕,% form是甲酰胺在杂交溶液中的百分比,而L是杂合体按碱基对计的长度。每1%的错配降低Tm约1°C ;因而可以调节Tm、杂交和/或洗涤条件,来杂交具有理想同一性的序列。例如,如果查找具有> 90%同一性的序列,则可以减少Tm 10°C。一般而言,选择的严紧条件比特定序列与其互补体在定义的离子强度和PH下的热熔点I低约5°C。然而,严格的严紧条件可以使用在比热熔点I低约1、2、3或4°C下杂交和/或洗涤;中等的严紧条件可以使用在比热熔点I低约6、7、8、9或10°C下杂交和/或洗涤;低严紧条件可以使用在比热熔点I低约11、12、13、14、15或20°C下杂交和/或洗涤。使用该等式,杂交和洗涤组成,以及理想的T,本领域技术人员将理解杂交和/或洗涤溶液的严紧条件中的变化是被内在描述的。如果理想的错配程度导致低于45°C (含水溶液)或32°C (甲酰胺溶液)的T,则优选的增加SSC浓度,使得可以使用更高的温度。对核酸杂交的广泛性指导可见于Tijssen,1993中。一般而言,高严紧的杂交和洗涤条件选择比特定序列在定义的离子强度和pH下的热熔点Tm低约5°C。高严紧的洗涤条件的实例是在72 °C的0. 15M NaCl中约15分钟。严紧的洗涤条件的实例是在65°C的0. 2x SSC中洗涤15分钟(参见,Sambrook,见上文,关于SSC缓冲液的描述)。通常,在高严紧的洗涤之前进行低严紧的洗涤,以去除背景探针信号。对例如超过100个核苷酸的二聚体的示例性中等严紧的洗涤是在45°C的Ix SSC中15分钟。对例如超过100个核苷酸的二聚体的示例性低严紧的洗涤是在40°C的4至6x SSC中15分钟。对于短的探针(例如,约10至50个核苷酸),严紧条件典型的涉及在pH 7.0至8. 3下,少于约
I.5M的盐浓度,更优选约0. 01至I. OM的Na离子(或其他盐)浓度,温度典型的是至少约300C,而对于长探针(例如,> 50个核苷酸)是至少约60°C。还可以用添加破坏稳定的试剂(例如甲酰胺)来实现严紧的条件。一般而言,信号噪声比是特定杂交测定中不相关探针所观察到的2X(或更高),提示检测到特异性杂交。如果编码的蛋白质是基本相同的,即使在严紧条件下彼此不杂交的核酸也仍然是基本相同。这发生在例如当使用遗传密码允许的最大密码子简并性产生核酸拷贝时。非常严紧的添加选择是与特定的探针的Tm相等的。对在滤膜上具有超过100个互补残基的互补核酸的高严紧杂交条件的实例是50%甲酰胺,例如在37°C下,在50%甲酰胺、IM NaClU% SDS中杂交,和在60至65°C下在0. Ix SSC中洗涤。示例性低严紧条件包 括在37°C下,用30至35%甲酰胺、IM NaClU% SDS(十二烷基磺酸钠)的缓冲溶液杂交,在50至55°C下,在Ix至2x SSC(20X SSC = 3. OM NaCl/0. 3M柠檬酸三钠)中洗涤。示例性中等严紧添加包括在37°C下,在40至45%甲酰胺、I. OMNaClU % SDS中杂交,和在55至60°C下,在0. 5x至Ix SSC中洗涤。以下是可用于克隆核苷酸序列的杂交/洗涤条件组合的实例,该核苷酸序列与本发明的参照核苷酸序列是基本相同的;参照核苷酸序列优选在50°c的7%十二烷基磺酸钠(SDS)、0. 5M NaPO4UmM EDTA中与参照核苷酸序列杂交,在50°C的2X SSC, 0. 1% SDS中洗涤(非常低的严紧条件),更理想的是在50°C的7%十二烷基磺酸钠(SDS)、0. 5M NaPO4UmMEDTA中杂交,用50°C的IX SSC, 0. I % SDS洗涤(低严紧条件),更理想的是在50°C的7%十二烷基磺酸钠(SDS)、0. 5M NaPO4UmMEDTA 中杂交,用 50。。的 0. 5X SSC,0. 1% SDS 洗涤(中等严紧条件),优选在50°C的7%十二烷基磺酸钠(SDS)、0. 5M NaPO4UmM EDTA中杂交,用50°C的0. IX SSC, 0. 1% SDS洗涤(高严紧条件),更优选在50°C的7%十二烷基磺酸钠(SDS)、0. 5M NaPO4UmM EDTA 中杂交,用 65。。的 0. IX SSC, 0. 1% SDS 洗涤(非常高严紧条件)术语“可读框”和“0RF”指由编码序列的翻译起始和终止密码子之间编码的氨基酸序列。术语“起始密码子”和“终止密码子”指编码序列中的3个相邻核苷酸的单元(“密码子”),分别说明蛋白质合成(mRNA翻译)的起始和链终止。“编码”或“编码序列”指排除了非编码序列的、编码具体氨基酸序列的DNA或RNA序列。它可构成“未间断的编码序列”,即缺少内含子的,例如在cDNA中,或者它可以包括一个或多个由恰当的剪切连接而界定的内含子。“内含子”是包含在初级转录物中的RNA序列,但通过细胞内的RNA切割和再连接而被去除,产生可翻译成蛋白质的成熟mRNA。“有效连接”或“功能性连接”优选的指核酸序列与单个核酸片段的关联,使得一个的功能受另一个的影响。例如,如果两条序列的放置使得调控DNA序列影响编码DNA序列的表达(即,编码序列或功能性RNA处于启动子的转录控制下),则认为调控DNA序列是与编码RNA或多肽的DNA序列“有效的连接”或“相关联的”。编码序列可以在正义或反义方向上与调控序列有效的连接。如本文中使用的,术语“异源DNA序列”、“外源DNA片段”或“异源核酸”都指起源自特定宿主细胞以外的来源的序列,或者,如果来自相同的来源,则根据其原始形态得到修饰的。因而,宿主细胞中的异源基因包括对特定宿主细胞而言是内源的基因,但其已通过例如使用DNA改组而进行了修饰。术语还包括天然存在的DNA序列的非天然存在的多拷贝。因而,该术语指对细胞是外来的或异源的DNA片段,或者对细胞是同源的,但其在宿主细胞核酸中处于该元件原始不可见的位置。表达外源DNA片段来产生外源多肽。“同源”DNA序列是与其导入的宿主细胞天然相关的DNA序列。“同源”在核苷酸序列同一性的上下文中指两个核酸分子的核苷酸序列之间,或两个蛋白质分子的氨基酸序列之间的相似性。此类同源性的评估由严紧条件下的DNA-DNA或DNA-RNA杂交来提供,是本领域技术人员普遍理解的(如Haines和Higgins (编著),Nucleic Acid Hybridization, IRL Press, Oxford, U. K.所述),或由两个核酸或蛋白质之间的序列相似性比较来提供。 “载体”定义为尤其包括双链或单链线状或环状形式的任何质粒、粘粒、噬菌体或农杆菌二元核酸分子,可以是能或不能自我传播或固定的,并可以通过整合到细胞基因组中或以染色体外存在来转化原核或真核宿主(例如,有复制起点的自主复制质粒)。具体包括了穿梭载体,其意指天然的或按设计的,能够在两种不同的宿主生物体中复制的DNA载体,其可以选自放线菌和相关的物种、细菌和真核生物(例如,高等植物、哺乳动物、酵母或真菌细胞)。优选的,载体中的核酸处于恰当的启动子或其他调控元件的控制下,或与其有效的连接,用于在宿主细胞如微生物(例如细菌)或植物细胞中转录。载体可以是在多个宿主中发挥功能的双功能表达载体。在基因组DNA的情况下,其可以含有自身的启动子或其他调控元件,在cDNA的情况下,其可以处于恰当的启动子或其他调控元件的控制下,用于在宿主细胞中表达。“克隆载体”通常含有一种或少数的限制性内切核酸酶识别位点,该位点中可以以可确定的方式插入外源性DNA序列,而不丧失载体的基本生物学功能,也含有标志物基因,其适合用于鉴别和选择用该克隆载体转化的细胞。标志物基因典型的包括提供四环素抗性、潮霉素抗性、卡那霉素抗性、链霉素抗性或青霉素抗性的基因。“转基因”或“转基因的”指已通过转化导入基因组中,并稳定或瞬时维持的。转基因可包括例如对待转化的特定植物的基因是异源或同源的基因。此外,转基因可包括插入到非天然的生物体中的天然基因,或嵌合基因。术语“内源基因”指在生物体的基因组的天然位置上的天然基因。“外源”基因指在宿主生物体并非正常可见的,但通过基因转移导入的基因。术语“转化”指将核酸片段转移到宿主细胞基因组中。含有转化的核酸片段的宿主细胞被称为“转基因”细胞,包含“转基因”细胞的生物体被称为“转基因生物”。转化植物和植物细胞的方法的实例包括农杆菌介导的转化(De Blaere 1987)和微粒轰击技术(US4,945,050)。可以通过本领域技术人员普遍已知的方法从转基因细胞再生完整的植物(参见例如 Fromm 1990)。“转化的”、“转基因的”和“重组的”指这样的宿主生物,例如其中已经导入了异源核酸分子的细菌或植物。核酸分子可以稳定的整合到基因组中,这是本领域普遍已知的和已公开的(Sambrook 1989 ;Innis 1995 ;Gelfand 1995 ;Innis&Gelfand 1999)。例如,“转化的”、“转基因的”和“重组的”植物或愈伤组织已经历了转化过程,并含有整合到其基因组中的外源基因。术语“未转化的”指没有经历转化过程的正常植物。“瞬时转化的”指已经导入了转基因和外源DNA的细胞(例如,通过农杆菌介导的转化或微粒轰击的方法),但没有进行稳定维持的选择。“稳定转化的”指在转化后,已经在选择基质上进行了选择和再生的细胞。“染色体整合的”指外源基因或DNA构建体通过共价键整合到宿主基因组中。当基因不是“染色体整合的”时,其可以是“瞬时表达的”。基因的瞬时表达指这样的基因的表达,该基因没有整合到宿主染色体中,但作为自主复制质粒或表达盒的一部分,或例如作为另一个生物学系统(例如病毒)的一部分,独立的发挥功能。“遗传稳定的”和“可遗传的”指在植物中稳定维持的,或在后续世代中被后代稳定继承的染色体整合型遗传元件。“转基因植物”是具有一个或多个这样的植物细胞的植物,该植物细胞含有后文在 详细描述中定义的表达载体。“初代转化体”和“TO世代”指与初始转化的组织遗传世代相同的转基因植物(即,自转化后,没有经历减数分裂和受精过程)。“次代转化体”和“Tl、T2、T3等世代”指通过一次或多次减数分裂和受精循环,源自初代转化体的转基因植物。其可以来源自初代或次代转化体的自体受精,或者初代或次代转化体与其他转化或未转化植物的杂交。“植物组织”包括分化或未分化的组织或植物,包括但不限于根、茎、枝条、叶、花粉、种子、肿瘤组织和各种类型的细胞和培养物,例如单细胞、原生质体、胚和愈伤组织。植物组织可以在植物中,或在器官、组织或细胞培养物中。术语“改变的植物性状”意指转基因植物相对于野生型或非转基因植物宿主的任何表型的或基因型的改变。词语“植物”指任何植物,特别是农业上有用的植物(例如,种子植物),“植物细胞”是植物的结构和生理学单位,其包括细胞壁,但也指原生质体。植物细胞可以是分离的单细胞或培养细胞的形式,或者作为更高级组织结构的单元的一部分,例如植物组织或分化成某结构的植物器官,该结构可存在于植物发育的任何阶段。此类结构包括一种或多种的植物器官,包括但不限于果实、枝条、茎、叶、花瓣等。优选的,术语“植物”包括完整的植物、枝条的营养器官/结构(例如,叶、茎和块茎)、根、花和花器官/结构(例如,苞片、萼片、花瓣、雄蕊、心皮、花粉囊和胚珠)、种子(包括胚、胚乳和种皮)和果实(成熟的卵)、植物组织(例如,维管组织、基本组织等)和细胞(例如,保卫细胞、卵细胞、毛状体(trichomes)等),及植物的后代。可用于本发明方法中的植物的类别一般是可接受转化技术的所有高等和低等植物的类别,包括被子植物(单子叶和双子叶植物)、裸子植物、蕨类植物和多细胞藻类。包括多种倍性水平的植物,包括非整倍体、多倍体、二倍体、单倍体和半合子,本发明的范围内包括了植物界的高等和低等植物的所有属和种。进一步包括了成熟的植物、种子、枝条和幼苗,以及源自它们的部分、繁殖材料(例如种子和果实)和培养物,例如细胞培养物。发明详述
本发明因而提供了分离的核酸分子,该核酸分子包含植物核苷酸序列,该序列指导与其有效连接的核酸片段在植物细胞中的种子优先的或种子特异性的转录。具体而言,本发明提供了用于调控目的多核苷酸的种子特异性表达的表达盒,该表达盒包含选自以下的转录调控核苷酸序列(a) SEQ ID NO :1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、或 18 的核酸序 列,或其变体;(b)与 SEQ ID NO :1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、或 18 中的任
一个所示的核酸序列至少80%相同的核酸序列;(c)在严紧条件下与SEQ ID NO :1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、
或18的核酸序列杂交的核酸序列;(d)与位于 SEQ ID NO :19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35
或36的可读框序列上游的核酸序列杂交的核酸序列;(e)与位于可读框序列上游的核酸序列杂交的核酸序列,其中该可读框序列编码SEQ ID NO :37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53 或 54 的氨基酸序列;(f)与位于可读框序列上游的核酸序列杂交的核酸序列,其中该可读框序列与SEQID NO :19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35 或 36 的可读框序列至少
80%相同,且其中该可读框编码种子蛋白质;(g)与位于可读框上游的核酸序列杂交的核酸序列,其中该可读框编码与SEQ IDNO :37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53 或 54 的氨基酸序列至少
80 %相同的氨基酸序列,其中该可读框编码种子蛋白质;(h)核酸序列,其可以自 SEQ ID NO :19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35或36所示的可读框序列的第一外显子出发,在基因组DNA上,通过5'基因组步行或热不对称交错聚合酶链式反应(TAIL-PCR)获得;以及(i)核酸序列,其可以自可读框序列的第一外显子出发,在基因组DNA上,通过5'基因组步行或TAIL-PCR获得,其中该可读框序列与SEQID NO :19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35或36所示的可读框序列至少80%相同,且其中该可读框编码种子蛋白质;以及(j)核酸序列,其可以自可读框序列的第一外显子出发,在基因组DNA上,通过5'基因组步行或TAIL-PCR获得,其中该可读框序列编码与SEQ ID NO :37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53或54所示的可读框编码的氨基酸序列至少80%相同的氨基酸序列,且该可读框编码种子蛋白质。优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ ID NO 81的106至1612位的ATG (1610-1612)上游约25至3000的连续片段,包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约1507,125至约1507,250至约1507,400至约1507,600至约1507个核苷酸,其包括了基础启动子区。在本发明的特定的实施方案中,该包括了 50至2000,或100至500,和至多1000或1500个连续核苷酸(例如,40至约2500,60至约1507,125至约1507,250至约1507,400至约1507,600至约1507个核苷酸)的约25至3000的连续片段,与位于SEQ ID NO 81的1610-1612位的ATG上游约25至3000的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选95%的核酸序列同一性,其中该相应的连续片段包括50至2000,或100至500,和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约1507,125至约1507,250至约1507,400至约1507,600至约1507个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表22所示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID NO 9中所示的核酸序列,或其变体。优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ ID NO 82的825至1735位的ATG (1748-1750)上游约25至3000的连续片段,包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约910,125至约910,250至约910,400至约910,600至约910个核苷酸,其包括了基础启动子区。在本发明的特定的实施方案中,该包括了 50至2000或100至500和至多1000或1500个连续核苷酸(例如,40至约2500,60至约910,125至约910,250至约910,400至约 910,600至约910个核苷酸)的约25至3000的连续片段与位于SEQ ID NO 82的825至1735位的ATG(1748-1750)上游约25至3000的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选至少95%的核酸序列同一性,其中该相应的连续片段包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约910,125至约910,250至约910,400至约910,600至约910个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表23中所示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID NO :10中所示的核酸序列,或其变体。优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ ID NO 83的44至1174位的ATG (1185-1160)上游约25至3000的连续片段,包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约1131,125至约1131,250至约1131,400至约1131,600至约1131个核苷酸,其包括了基础启动子区。在本发明的特定的实施方案中,该包括了 50至2000或100至500和至多1000或1500个连续核苷酸(例如,40至约2500,60至约1131,125至约1131,250至约1131,400至约1131,600至约1131个核苷酸)的约25至3000的连续片段与位于SEQ ID NO 83的44至1174位的ATG (1185-1160)上游约25至3000的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选至少95%的核酸序列同一性,其中该相应的连续片段包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约 2500,60 至约 1131,125 至约 1131,250 至约 1131,400 至约 1131,600 至约 1131 个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表24中所示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID NO :11中所示的核酸序列,或其变体。优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ ID NO 84的52至614位的ATG (624-626)上游约25至3000的连续片段,包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约563,125至约563,250至约563,400至约563个核苷酸,其包括了基础启动子区。
在本发明的特定的实施方案中,该包括了 50至2000或100至500和至多1000或1500个连续核苷酸(例如,40至约2500,60至约563,125至约563,250至约563,400至约563个核苷酸)的约25至3000的连续片段与位于SEQ ID NO 84的52至614位的ATG (624-626)上游约25至3000的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选至少95%的核酸序列同一性,其中该相应的连续片段包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约563,125至约563,250至约563,400至约563个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表25中所示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID NO :12中所示的核酸序列,或其变体。优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ ID NO 80的46至1233位的ATG (1234-1236)上游约25至3000的连续片段,包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约1188,125至约1188,250至约1188,400至约1188,600至约1188个核苷酸,其包括了基础启动子区。
在本发明的特定的实施方案中,该包括了 50至2000或100至500和至多1000或1500个连续核苷酸(例如,40至约2500,60至约1188,125至约1188,250至约1188,400至约1188,600至约1188个核苷酸)的约25至3000的连续片段与位于SEQ ID NO 80的46至1233位的ATG (1234-1236)上游约25至3000的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选至少95%的核酸序列同一性,其中该相应的连续片段包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约 2500,60 至约 1188,125 至约 1188,250 至约 1188,400 至约 1188,600 至约 1188 个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表26中所示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID NO :8中所示的核酸序列,或其变体。优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ IDNO 75的435至2379位的ATG(2428-2430)上游约25至3000的连续片段,包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约1945,125至约1945,250至约1945,400至约1945,600至约1945个核苷酸,其包括了基础启动子区。在本发明的特定的实施方案中,该包括了 50至2000或100至500和至多1000或1500个连续核苷酸(例如,40至约2500,60至约1945,125至约1945,250至约1945,400至约1945,600至约1945个核苷酸)的约25至3000的连续片段与位于SEQ ID NO 75的435 至 2379 位的 ATG(2428-2430)上游约25至3000的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选至少95%的核酸序列同一性,其中该相应的连续片段包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60 至约 1945,125 至约 1945,250 至约 1945,400 至约 1945,600 至约 1945 个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表27中所示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID NO :3中所示的核酸序列,或其变体。优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ IDNO 85的4至994位的ATG (996-998)上游约25至3000的连续片段,包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约991,125至约991,250至约991,400至约991,600至约991个核苷酸,其包括了基础启动子区。在本发明的特定的实施方案中,该包括了 50至2000或100至500和至多1000或1500个连续核苷酸(例如,40至约2500,60至约991,125至约991,250至约991,400至约991,600至约991个核苷酸)的约25至3000的连续片段与位于SEQ ID NO 85的4至994位的ATG (996-998)上游约25至3000的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选至少95%的核酸序列同一性,其中该相应的连续片段包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约991,125至约991,250至约991,400至约991,600至约991个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表28中所 示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID NO 13中所示的核酸序列,或其变体。优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ ID NO 86的I至2519位的ATG (2511-2513)上游约25至3000的连续片段,包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约2519,125至约2519,250至约2519,400至约2519,600至约2519个核苷酸,其包括了基础启动子区。在本发明的特定的实施方案中,该包括了 50至2000或100至500和至多1000或1500个连续核苷酸(例如,40至约2500,60至约2519,125至约2519,250至约2519,400至约2519,600至约2519个核苷酸)的约25至3000的连续片段与位于SEQ ID NO 86的I至2519位的ATG (2511-2513)上游约25至3000的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选至少95%的核酸序列同一性,其中该相应的连续片段包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约 2500,60 至约 2519,125 至约 2519,250 至约 2519,400 至约 2519,600 至约 2519 个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表29中所示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID N0:14中所示的核酸序列,或其变体。优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ ID NO 76的47至558位的ATG (678-680)上游约25至3000的连续片段,包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,0至约2500,60至约512,125至约512,250至约512,400至约512个核苷酸,其包括了基础启动子区。在本发明的特定的实施方案中,该包括了 50至2000或100至500和至多1000或1500个连续核苷酸(例如,40至约2500,60至约512,125至约512,250至约512,400至约512个核苷酸)的约25至3000的连续片段与位于SEQ ID NO 76的47至558位的ATG (678-680)上游约25至3000的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选至少95%的核酸序列同一性,其中该相应的连续片段包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约512,125至约512,250至约512,400至约512,600至约512个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表30中所示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID NO :4中所示的核酸序列,或其变体。优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ IDN0:87的I至1264位的ATG (1341-1343)上游约25至3000的连续片段,包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约1264,125至约1264,250至约1264,400至约1264,600至约1264个核苷酸,其包括了基础启动子区。在本发明的特定的实施方案中,该包括了 50至2000或100至500和至多1000或1500个连续核苷酸(例如,40至约2500,60至约1264,125至约1264,250至约1264,400至约1264,600至约1264个核苷酸)的约25至3000的连续片段与位于SEQ ID NO 87的I 至1264位的ATG (1341-1343)上游约25至3000的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选至少95%的核酸序列同一性,其中该相应的连续片段包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约 2500,60 至约 1264,125 至约 1264,250 至约 1264,400 至约 1264,600 至约 1264 个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表49中所示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID N0:15中所示的核酸序列,或其变体。优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ ID NO 78的I至1355位的ATG (1357-1359)上游约25至3000的连续片段,包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约1355,125至约1355,250至约1355,400至约1355,600至约1355个核苷酸,其包括了基础启动子区。在本发明的特定的实施方案中,该包括了 50至2000或100至500和至多1000或1500个连续核苷酸(例如,40至约2500,60至约1355,125至约1355,250至约1355,400至约1355,600至约1355个核苷酸)的约25至3000的连续片段与位于SEQ ID NO :78的I至1355位的ATG (1357-1359)上游约25至3000的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选至少95%的核酸序列同一性,其中该相应的连续片段包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约 2500,60 至约 1355,125 至约 1355,250 至约 1355,400 至约 1355,600 至约 1355 个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表50中所示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID NO 6中所示的核酸序列,或其变体。优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ ID NO 88的I至623位的ATG(695-697)上游约25至3000的连续片段,包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约623,125至约623,250至约623,400至约623,500至约623个核苷酸,其包括了基础启动子区。
在本发明的特定的实施方案中,该包括了 50至2000或100至500和至多1000或1500个连续核苷酸(例如,40至约2500,60至约623,125至约623,250至约623,400至约623,500至约623个核苷酸)的约25至3000的连续片段与位于SEQ ID NO 88的I至623位的ATG (695-697)上游约25至3000的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选至少95%的核酸序列同一性,其中该相应的连续片段包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约623,125至约623,250至约623,400至约623,500至约1355个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表51中所示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID NO :16中所示的核酸序列,或其变体。优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ ID NO 89的700至2649位的ATG (2700-2702)上游约25至3000的连续片段,包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约1950,125至约1950,250至约1950,400至约1950,600至约1950个核苷酸,其包括了基础启动子区。 在本发明的特定的实施方案中,该包括了 50至2000或100至500和至多1000或1500个连续核苷酸(例如,40至约2500,60至约1950,125至约1950,250至约1950,400至约1950,600至约1950个核苷酸)的约25至3000的连续片段与位于SEQ ID NO 89的700至2649位的ATG (2700-2702)上游约25至3000的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选至少95%的核酸序列同一性,其中该相应的连续片段包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约 2500,60 至约 1950,125 至约 1950,250 至约 1950,400 至约 1950,600 至约 1950 个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表52中所示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID NO :17中所示的核酸序列,或其变体。优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ ID NO 73的I至1106位的ATG (1220-1222)上游约25至3000的连续片段,包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约1106,125至约1106,250至约1106,400至约1106,600至约1106个核苷酸,其包括了基础启动子区。在本发明的特定的实施方案中,该包括了 50至2000或100至500和至多1000或1500个连续核苷酸(例如,40至约2500,60至约1106,125至约1106,250至约1106,400至约1106,600至约1106个核苷酸)的约25至3000的连续片段与位于SEQ ID NO :73的I至1106位的ATG (1220-1222)上游约25至3000的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选至少95%的核酸序列同一性,其中该相应的连续片段包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约 2500,60 至约 1106,125 至约 1106,250 至约 1106,400 至约 1106,600 至约 1355 个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表53中所示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID NO 1中所示的核酸序列,或其变体。
优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ ID N0:79的302至2242位的ATG (2303-2305)上游约25至3000的连续片段,包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约1941,125至约1941,250至约1941,400至约1941,600至约1941个核苷酸,其包括了基础启动子区。在本发明的特定的实施方案中,该包括了 50至2000或100至500和至多1000或1500个连续核苷酸(例如,40至约2500,60至约1941,125至约1941,250至约1941,400至约1941,600至约1941个核苷酸)的约25至3000的连续片段与位于SEQ ID NO 79的302至2242位的ATG (2303-2305)上游约25至3000的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选至少95%的核酸序列同一性,其中该相应的连续片段包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约 2500,60 至约 1941,125 至约 1941,250 至约 1941,400 至约 1941,600 至约 1355 个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表54中所示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID NO :7中所示的核酸序列,或其变体。
优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ ID NO 74的I至922位的ATG(923-925)上游约25至3000的连续片段,包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约922,125至约922,250至约922,400至约922,600至约922个核苷酸,其包括了基础启动子区。在本发明的特定的实施方案中,该包括了 50至2000或100至500和至多1000或1500个连续核苷酸(例如,40至约2500,60至约922,125至约922,250至约922,400至约922,600至约922个核苷酸)的约25至3000的连续片段与位于SEQ ID NO :74的I至922位的ATG (923-925)上游约25至3000的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选至少95%的核酸序列同一性,其中该相应的连续片段包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约922,125至约922,250至约922,400至约922,600至约1355个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表55中所示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID NO :2中所示的核酸序列,或其变体。优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ ID NO 77的I至698位的ATG(699-671)上游约25至3000的连续片段,包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约698,125至约698,250至约698,400至约698,500至约698个核苷酸,其包括了基础启动子区。在本发明的特定的实施方案中,该包括了 50至2000或100至500和至多1000或1500个连续核苷酸(例如,40至约2500,60至约698,125至约698,250至约698,400至约698,500至约698个核苷酸)的约25至3000的连续片段与位于SEQ ID NO :77的I至698位的ATG (699-671)上游约25至3000的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选至少95%的核酸序列同一性,其中该相应的连续片段包括50至2000或100至500和至多1000或1500个连续的核苷酸,例如,40至约2500,60至约698,125至约698,250至约698,400至约698,500至约1355个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表56中所示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID NO :5中所示的核酸序列,或其变体。优选地,本发明的转录调控核苷酸序列和启动子包括位于SEQ ID NO :196的656至658位的ATG上游约25至3500的连续片段,包括50至3000或100至500和至多1000或1500个连续的核苷酸,例如,40至约3500,60至约3000,125至约2500,250至约2300,400至约2000,600至约1700个核苷酸,其包括了基础启动子区。在本发明的特定的实施方案中,该包括了 50至2000或100至500和至多1000或1500个连续核苷酸(例如,40至约2500,60至约922,125至约922,250至约922,400至约922,600至约922个核苷酸)的约25至3000的连续片段与位于SEQ ID NO :196的656至658位的ATG上游约25至3500的相应的连续片段具有至少50%或60%,优选至少70%或80%,更优选至少90%和最优选至少95%的核酸序列同一性,其中该相应的连续片段包括 50至3000或100至500和至多1000或1500个连续的核苷酸,例如,40至约3500,60至约3000,125至约2500,250至约2300,400至约2000,600至约1700个核苷酸,其包括了基础启动子区。上文定义的连续的核苷酸片段优选包含一个或多个启动子基序,如表61中所示,优选选自TATA框、GC框、CAAT框和转录起始位点。本发明的表达盒中包含的优选的转录调控核苷酸序列具有如SEQ ID NO :18中所示的核酸序列,或其变体。在尤其优选的实施方案中,该连续的核苷酸片段包含SEQ ID N0:18的核苷酸1440至2112,SEQ ID NO : 18的核苷酸1600至2112,甚至更优选SEQ ID NO : 18的核苷酸1740至2112,和最优选SEQ ID NO :18的核苷酸1740至1999。本发明还考虑源自如SEQID NO :1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17或18所示转录调控核苷酸序列的转录调控核苷酸序列。该转录调控核苷酸序列能够(优选在严紧条件下)与 SEQ ID NO :19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35或36所示可读框的上游序列或其变体杂交,即与SEQ ID NO :1、2、3、4、5、6、7、8、9、10、
11、12、13、14、15、16、17或18所示转录调控核苷酸序列或其变体杂交。本文中,严紧杂交条件意指,在6x氯化钠/柠檬酸钠(SSC)中在约45 °C杂交,之后在 0. 2x SSC,0. 1% SDS 中在 53 至 65°C,优选在 55°C、56°C、57°C、58°C、59°C、60°C、61°C、62°C、63°C、64°C或65°C进行一个或多个洗涤步骤的条件。本领域技术人员知道这些杂交条件依据核酸种类以及例如是否存在有机溶剂,就温度和缓冲液的浓度而言,可以是不同的。“一般性定义”章节中给出了严紧杂交条件的实例。此外,本发明的转录调控核苷酸序列不仅可见于上述具有如SEQ ID NO :19,20,
21、22、23、24、25、26、27、28、29、30、31、32、33、34、35或 36 所示核酸序列的可读框的上游。而且,转录调控核苷酸序列也能够在直向同源基因、旁系同源基因或同源基因(即,可读框)的上游发现。因此,也优选,由本发明的表达盒包含的转录调控核苷酸序列变体具有与可读框序列的上游核酸序列杂交的核酸序列,其中该可读框序列与SEQ ID NO :19、20、21、
22、23、24、25、26、27、28、29、30、31、32、33、34、35或 36 所示的序列至少 70%、更优选地至少80%、至少90%、至少91 %、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%或至少99%相同。该变体可读框编码的多肽具有SEQ ID NO :19、20、21、22、
23、24、25、26、27、28、29、30、31、32、33、34、35或36所示的可读框所编码的相应多肽的生物活性。在本文中应该被提到的是 SEQ ID NO :19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35 或 36 所示的可读框编码具有 SEQ ID NO :37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53或54所示的氨基酸序列的多肽,优选地编码种子蛋白。还优选地,本发明的变体转录调控核苷酸序列是(i)自SEQ ID NO :19,20,21,
22、23、24、25、26、27、28、29、30、31、32、33、34、35 或 36 所示的可读框序列、由 5'基因组步行或 TAIL-PCR 可获得的,或(ii)自与 SEQ ID NO :19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35或36所示的可读框至少80%相同的可读框序列、由5'基因组步行或TAIL-PCR可获得的。表达控制序列变体可以很容易由基因组步行技术或热不对称交错聚合酶链式反应(TAIL-PCR)获得,这些技术可以按Liu和Huang, Plant Molecular BiologyReporter, 1998, Vol. 16,页 175 到 181,和本文参考文献,或 Liu 等人,The Plant Journal,1995,Vol. 8,页457-463中所描述的方式、和本文参考文献、利用例如可商业获得的试剂盒来进行。
对应于本发明的核苷酸序列的合适的寡核苷酸长度可以是约30个核苷酸或更少(例如,9、12、15、18、20、21、22、23或24个,或在9至30个之间的任何数目),该寡核苷酸在探测反应或例如上述PCR扩增反应中用作引物。一般而言,特定的引物长度达14个核苷酸。为了最佳的特异性和成本效率,长度为16至24个核苷酸的引物是优选的。本领域技术人员精通于设计用于例如PCR方法中的引物。需要时,可以用本文公开的基因的限制性酶切片段作为探针,其长度可以是100或者甚至1000个核苷酸。本说明书中就SEQ ID NO :9所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表22中所列的至少10个、至少20个、至少30个或所有的序列基序。本说明书中就SEQ ID NO :10所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表23中所列的至少10个、至少20个、至少30个或所有的序列基序。本说明书中就SEQ ID NO 11所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表24中所列的至少10个、至少20个、至少30个或所有的序列基序。本说明书中就SEQ ID NO :12所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表25中所列的至少10个、至少20个、至少30个或所有的序列基序。本说明书中就SEQ ID NO :8所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表26中所列的至少10个、至少20个、至少30个或所有的序列基序。本说明书中就SEQ ID NO :3所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表27中所列的至少10个、至少20个、至少30个或所有的序列基序。本说明书中就SEQ ID NO :13所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表28中所列的至少10个、至少20个、至少30个或所有的序列基序。本说明书中就SEQ ID NO :14所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表29中所列的至少10个、至少20个、至少30个或所有的序列基序。本说明书中就SEQ ID NO :4所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表30中所列的至少10个、至少20个、至少30个或所有的序列基序。本说明书中就SEQ ID NO :15所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表49中所列的至少10个、至少20个、至少30个或所有的序列基序。本说明书中就SEQ ID NO :6所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表50中所列的至少10个、至少20个、至少30个或所有的序列基序。本说明书中就SEQ ID NO :16所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表51中所列的至少10个、至少20个、至少30个或所有的序列基序。本说明书中就SEQ ID NO :17所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表52中所列的至少10个、至少20个、至少30个或所有的序列基序。本说明书中就SEQ ID NO :I所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表53中所列的至少10个、至少20个、至少30个或所有的序列基序。本说明书中就SEQ ID NO :7所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表54中所列的至少10个、至少20个、至少30个或所有的序列基序。本说明书中就SEQ ID NO :2所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表55中所列的至少10个、至少20个、至少30个或所有的序列基序。 本说明书中就SEQ ID NO :5所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表56中所列的至少10个、至少20个、至少30个或所有的序列基序。本说明书中就SEQ ID NO :18所示的转录调控核苷酸序列提及的变体转录调控核苷酸序列优选地包含表61中所列的至少10个、至少20个、至少30个或所有的序列基序。优选的变体转录调控核苷酸序列的例子如SEQ ID NO :109至126以及127至144中所示。与相应的转录调控核苷酸序列相比,上述变体(如SEQ ID NO :109至144)不包含起始密码子(ATG) o 起始密码子被 BVH(SEQ ID NOs :109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126)取代或被BVH加上位于任何两个起始密码子之间的终止密码子(SEQ ID NOs :127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144)取代(根据IUPAC命名法B代表C或G或T,v代表A或C或G,H代表A或C或T)。因此,变体转录调控核苷酸序列可以通过如上所描述的对推定的起始密码子进行突变而获得。本发明的转录调控核苷酸序列中的非必需序列可以被删除而不显著破坏所提到的特性。也可以利用例如PLACE程序("Plant Cis-acting Regulatory DNA Elements")(Hi go K 等(1999) Nucleic Acids Res 27 :1,297-300)的计算机程序(参见表 5)或BI0BASE 数据库 “Transfac” (Biologische Datenbanken GmbH, Braunschweig),将表达调控核苷酸序列界定到特定的必需调控区域。利用这样的方法,上述的转录调控核苷酸序列变体可以人为地产生。此外,突变核酸序列的程序为技术人员所知,它包括例如使用与需要被突变的区域相比包含一个或多个突变(例如,在框架内的位点特异性诱变)的寡核苷酸。典型地是利用具有约15至75或更多个核苷酸的引物,其中优选约10至约25或更多个核苷酸残基位于待修饰序列的两侧。该诱变方法的具体细节和操作程序为技术人员所熟知(Kunkel 等(1987)Methods Enzymol 154 :367-382 ;Tomic 等(1990)Nucl Acids Res 12:1656 ;Upender 等(1995) Biotechniques 18(1) :29-30 ;U. S. Pat. No. 4,237,224)。诱变也可以通过用例如羟胺等诱变剂处理例如包含本发明转录调控核苷酸序列的载体而实现。诱变也导致上述的本发明表达盒变体的产生。一般而言,本发明的转录调控核苷酸序列和启动子可用于在植物中表达与该启动子有效连接的核酸片段(例如可读框)或其部分、反义序列、编码双链RNA序列的序列,或转基因。因此,本发明的其他实施方案——本发明的表达盒包含有效连接到转录调控核苷酸序列和/或至少一个终止序列或转录本上的至少一个目的多核苷酸。因而,本发明的表达盒优选的包括用于表达至少一个目的多核苷酸的转录调控核苷酸序列。然而,本发明还考虑包括转录调控核苷酸序列的表达盒,其中有至少2、3、4或5或者甚至更多个转录调控核苷酸序列用于目的多核苷酸。术语“目的多核苷酸”指应在本发明所述转录调控核苷酸序列的控制下被表达的核酸。优选地,目的多核苷酸编码多肽,其中该多肽在本发明所述的细胞或植物种子中的存在是期望的。此多肽可以是种子贮藏化合物合成所需要的酶,或者可以是种子贮藏蛋白。应理解的是,如果目的多核苷酸编码多肽,可能需要该核酸转录成RNA以及转录后的RNA翻译成多肽。同样优选地,目的多核苷酸包括生物学活性RNA分子,更优选地,反义RNA、核酶、microRNA或siRNA。例如,种子中不期望的酶活性能够由于种子特异性表达反义RNA、核酶、microRNA或siRNA而减少。上述生物活性RNA分子所基于的生物学作用原理为技术人员所熟知。此外,技术人员熟知怎样去获得编码这种生物活性RNA分子的核酸。可以理解的是, 生物活性RNA分子可以通过目的多核苷酸的转录而直接获得,即不需要翻译成多肽。优选地,至少一个在本发明的转录调控核苷酸序列的控制下待表达的目的多核苷酸和该转录调控核苷酸序列是异源的,即该核酸非天然地受该转录调控核苷酸序列控制,该控制是以非天然地方式(例如通过遗传工程的方法)而产生的。有效连接包括例如,本发明的转录调控核苷酸序列(例如SEQ ID N0:l、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17或18描述的序列)——与待表达的核酸序列——和任选的额外的调控元件(例如多聚腺苷酸或转录终止元件、增强子、内含子等)的顺序连接,连接的方式使转录调控核苷酸序列可以完成它在恰当条件下目标核酸序列表达过程中的功能。术语“恰当条件”优选的意指植物细胞中存在表达盒。优选的排列是待表达的目标核酸序列置于本发明的转录调控核苷酸序列的下游(即,在3’方向),使两条序列都共价的连接。任选的额外序列可插入到两条序列之间。此类序列可以是例如接头或多克隆位点。此外,可以插入编码部分融合蛋白的序列(在意图表达目标核酸编码的蛋白质的融合蛋白的情况下)。优选的,待表达的目的多核苷酸与本发明的转录调控核苷酸序列之间的距离不超过200bp,优选不超过IOObp,更优选不超过50bp。可以通过本领域已知的各种方法,包括体外和体内方法,实现与任何或本发明的表达盒的有效的连接。因而,可以使用本领域普遍已知的标准重组和克隆技术,实现本发明的表达盒或包含此类表达盒的载体(参见例如,Maniatis 1989 ;Silhavy 1984 ;Ausubel1987)。还可以通过将本发明的转录调控核苷酸序列(例如SEQ ID NO :1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17或18描述的序列)插入到植物基因组中,来装配表达盒。
此类插入将导致与目标核酸序列的有效连接,如同已存在于基因组中一样。通过插入,目标核酸以种子优先的或种子特异性的方式表达,原因在于转录调控核苷酸序列的转录调控特性。插入可以是定向的或偶然的。插入优选是定向的,通过例如同源重组来实现。通过该方法,本发明的转录调控核苷酸序列可以与天然启动子交换,从而修饰内源基因的表达特性。转录调控核苷酸序列还可以这样的方式插入,该方式使得表达内源基因的反义mRNA,从而诱导基因沉默。相似的,目的多核苷酸可以插入到植物基因组中来表达,该植物基因组的天然基因组环境中就包含转录调控核苷酸序列(即,与其天然的基因连接),使得插入的序列与转录调控核苷酸序列有效连接,从而形成本发明的表达盒。表达盒可用于多种表达目的,例如表达蛋白质,或表达反义RNA、正义或双链RNA。优选的,核酸序列的表达使植物产生农业上有价值的性状。与本发明的转录调控核苷酸序列连接的目的多核苷酸可获得自昆虫抗性基因、疾病抗性基因例如细菌疾病抗性基因、真菌疾病抗性基因、病毒疾病抗性基因、线虫疾病抗性基因、除草剂抗性基因、修饰谷物组成(composition)或品质的基因、营养利用基因、降低真菌毒素的基因、雄性可育基因、选择标志物基因、可筛选的标志物基因、负选择标志物、正选择标志物、影响植物的农业特征的基因(即,产量、抗倒伏性等),或环境或胁迫抗性基因,即,一种或多种这样的的基因,该基因产生除草剂抗性或耐受性、昆虫抗性或耐受性、疾病(病毒、细菌、真菌、oomycete或线虫)抗性或耐受性、胁迫抗性或耐受性(例如对干旱、 热、寒冷、冰冻、湿度过大、盐胁迫或氧胁迫)、增加产量、食物量和组成、物理外观、雄性可育、drydown、抗倒伏性、生产力、淀粉数量和质量、油数量和质量、氨基酸或蛋白质组成等。“抗性”意指作为施用试剂、感染病原体或暴露在胁迫下的结果,植物基本不表现出任何表型的改变。“耐受性”意指植物虽然表现出一些表型的改变作为感染的结果,但具有基本不减少的繁殖能力或基本不改变的代谢。种子特异性的转录调控核苷酸序列(例如,启动子)用于表达多种基因,包括改变代谢通路、产生疾病抗性、用于蛋白质产生(例如,抗体产生)或改良营养摄入等的多种基因。可以修饰种子特异性的转录调控核苷酸序列(例如,启动子),使其可调控,例如可诱导。本文所述的基因和转录调控核苷酸序列(例如,启动子)可用于鉴别直向同源基因及其转录调控核苷酸序列(例如,启动子),该直向同源基因也可能在特定组织中和/或以特定的发育方式表达。此外,直向同源的转录调控核苷酸序列(例如,启动子)可用于表达相连的可读框。此外,通过比对这些直向同源物的转录调控核苷酸序列(例如,启动子)可以鉴别新的顺式元件,用于产生合成的转录调控核苷酸序列(例如,启动子)。本发明的另一个目标涉及包含本发明的表达盒的载体。术语“载体”,优选地包括噬菌体、质粒、病毒或逆转录病毒载体,以及人工染色体,例如细菌或酵母人工染色体。此外,该术语也涉及靶向构建体,该构建体允许靶向构建体随机或定点整合到基因组DNA中。优选地,该靶向构建体包含长度足够用于进行如下所详细描述的同源或异源重组的DNA。包含本发明多核苷酸的载体优选地进一步包含用于在宿主中进行扩增和/或选择的选择标记。载体可以用技术人员熟知的各种技术导入到宿主细胞中。如果被导入到宿主细胞中,载体可以存在于细胞质中或可以整合到基因组中。在后一情况中,可以理解的是,载体可以进一步包含允许进行同源重组或异源插入的核酸序列。载体可以利用常规的转化或转染技术被导入到真核或原核细胞中。本文中所使用的术语“转化”与“转染”以及接合与转导,旨在包括将外源核酸(例如DNA)导入到宿主细胞中的多种现有技术,包括磷酸钙或氯化铷或氯化钙共沉淀、DEAE-葡聚糖介导的转染、月旨转染、天然感受态、碳基簇、化学介导的转移、电穿孔或微粒轰击(例如“基因枪”)。宿主细胞(包括植物细胞)转化或转染的合适方法能够在Sambrook等(Molecular Cloning A Laboratory Manual,2nd ed., Cold Spring Harbor Laboratory, Cold Spring HarborLaboratory Press, Cold Spring Harbor, NY, 1989)和其它实验手册(例如 Methods inMolecular Biology,1995,Vol. 44,Agrobacterium protocols,Ed. GartIand and Davey,Humana Press, Totowa, New Jersey)中找到。可选的,质粒载体可以通过热激或电穿孔技术导入。当载体是病毒时,可以在用于宿主细胞前,使用恰当的包装细胞系在体外包装。逆转录病毒可以是胜任复制的或复制缺陷的。在后一种情况下,病毒增殖一般仅在互补宿主/细胞中发生。优选地,本发明所述载体适合作为克隆载体,即在微生物系统中可以复制。这样的载体可以确保在细菌、优选地在酵母或真菌中的有效克隆,和使得植物稳定转化成为可能。必须提到的载体系统尤其是各种适合于进行T-DNA介导的转化的双元和共整合载体系统。这样的载体系统通常具有这样的特征它们至少包含农杆菌介导的转化所需要的vir基因、以及界定T-DNA的序列(T-DNA边界序列)。优选地,这些载体系统也进一步包含顺式调控区域(例如启动子、终止子)和/或用于鉴别合适的已转化的宿主细胞或生物体的选择标记。共整合载体系统具有位于相同载体中的vir基因和T-DNA序列,而双元系统基于至少两个载体,其中一个载体包含vir基因但没有T-DNA,而另一载体包含T-DNA但没有vir基 因。其结果是,后面述及的载体相对较小、易于操作并能在大肠杆菌和农杆菌两者中复制。关于双兀载体及其使用的综述见Hellens等,Trends in Plant Science (2000) 5,446-451。此外,通过使用合适的克隆载体,本发明的表达盒能够被导入到宿主细胞或生物体(例如植物或动物)中,从而被用于转化植物,例如在以下文献中公布和引用的那些PlantMolecular Biology and Biotechnology(CRC Press, Boca Raton, Florida), chapter6/7, pp. 71-119(1993) ;F. F. White, Vectors for Gene Transfer in Higher Plants ;in Transgenic Plants,vol. I,Engineering and Utilization,Ed. Kung and R. Wu,AcademicPress,1993,15-38 ;B. Jenes等,Techniques for Gene Transfer,in Transgenic Plants,vol.I, Engineering and Utilization, Ed. Kung and R. Wu, Academic Press (1993),128-143 ;Potrykus, Annu. Rev.Plant Physiol. Plant Molec.Biol. 42(1991),205225。更优选的,本发明的载体是表达载体。在此类表达载体中,表达盒包括如上说明的转录调控核苷酸序列,允许在真核细胞或其分离的级分中表达。除本发明的表达盒外,表达载体还可以包括其他的调控元件,包括转录和翻译增强子。优选的,表达载体还是基因转移或靶向载体。源自病毒(例如,逆转录病毒、痘病毒、腺相关病毒、疱疹病毒或牛乳头瘤病毒)的表达载体可用于递送本发明的表达盒或载体到靶细胞群体中。本领域技术人员普遍已知的方法可用于构建重组病毒载体;参见例如Sambrook, Molecular CloningA Laboratory Manual, Cold Spring Harbor Laboratory(1989)N. Y. and Ausubel,Current Protocols in Molecular Biology, Green Publishing Associates and WileyInterscience, N. Y. (1994)中描述的技术。优选的,合适的表达载体骨架源自本领域已知的表达载体,例如Okayama-BergcDNA 表达载体 pcDVl (Pharmacia)、pCDM8、pRc/CMV、pcDNAl、pcDNA3 (Invitrogene)或pSPORTl (GIBC0 BRL)。典型的融合表达载体的其他实例是pGEX(Pharmacia BiotechInc ;Smith、D. B.和 Johnson, K. S. (1988)Gene 67 :31-40)、pMAL(New England Biolabs,Beverly,MA)和 pRIT5 (Pharmacia, Piscataway, NJ),其中谷胱;甘妝 S_转移酶(GST)、麦芽糖E-结合蛋白和蛋白A分别与编码待表达的蛋白质的目标核酸融合。pTrc载体的靶基因表达是基于宿主RNA聚合酶对杂合的trp-lac融合启动子的转录的。pET Ild载体的靶基因表达是基于17-gnlO-lac融合启动子的转录的,其受共表达的病毒RNA聚合酶(Hgnl)的介导。该病毒聚合酶是由宿主菌株BL21(DE3)或HMS174(DE3)中驻留的入_原噬菌体提供的,该原噬菌体包括了处于lacUV5启动子转录控制下的Hgnl基因。用于在酿酒酵母中表达的载体的实例包括 pYepSecl (Baldari 等人,(1987) Embo J. 6 229-234) >pMFa (Kurjan andHerskowitz (1982) Cell 30 :933-943)、pJRY88 (Schultz 等人,(1987) Gene 54 :113-123)和 pYES2 (Invitrogen Corporation, San Diego, CA)。适合用于其他真菌(例如,丝状真菌)中的载体和用于构建该载体的方法包括在以下文献中详细描述的van den Hondel,C. A. M. J. J. , &Punt, P. J. (1991) “Gene transfer systems and vector development forfilamentous fungi, in Applied Molecular Genetics of fungi, J. F. Peb erdy 等人编著,第 1-28 页,Cambridge University Press Cambridge, or in More Gene Manipulationsin Fungi (J. W. Bennett&L. L. Lasure 编著,第 396-428 页Academic Press : San Diego)。其他的合适的酵母载体是例如pAG-1、YEp6、YEp13或pEMBLYe23。
包含表达盒的本发明的载体必须在合适的生物体(即在表达宿主)中增殖和扩+
>曰o因此,本发明的另一个实施方案涉及包含本发明的表达盒的转基因宿主细胞或非人转基因生物。优选是原核和真核生物。包括了微生物和高等生物。优选的微生物是细菌、酵母、藻类和真菌。优选的细菌是埃希氏菌属(Escherichia)、欧文氏菌属(Erwinia)、农杆菌属(Agrobacterium)、产黄菌属(Flavobacterium)、产喊菌属(Alcaligenes)、假单胞菌属(Pseudomonas)、芽抱杆菌属(Bacillus)或 Cyanobacterim,例如 BrockBiology ofMicroorganisms 第 8 版(A-8、A_9、A10 和 All 页)中描述的集胞蓝细菌属(Synechocystis)和其他细菌。更优选的包含本发明的表达盒的转基因细胞或非人的转基因生物是植物细胞或植物(如上文定义的),更优选用于产油的植物,例如欧洲油菜(Brassica napus)、芥菜(Brassica juncea)、亚麻(Linum usitatissimum)、大豆、山茶(Camelina)或向日葵。尤其优选的是能够感染植物并将DNA转移到其基因组中的微生物,尤其是农杆菌属的细菌,优选根癌农杆菌(Agrobacterium tumefaciens)和发根农杆菌(Agrobacteriumrhizogenes)。优选的酵母是假丝酵母属(Candida)、酵母菌属(Saccharomyces)、汉逊氏酵母属(Hansenula)和毕赤酵母属(Pichia)。优选的真菌是曲霉属(Aspergillus)、木霉属(Trichoderma)、棉阿舒囊霉属(Ashbya)、脉孢霉属(Neurospora)、镰刀霉属(Fusarium)和白僵菌属(Beauveria)。在本发明的优选的实施方案中,宿主细胞涉及植物细胞、植物、植物种子、非人动物或多细胞微生物。因此,本发明还涉及包含本发明的表达盒或载体的转基因植物细胞、植物组织、植物器官或植物种子。表达盒或载体可以存在于生物的原生质体中,或通过异源或同源重组整合到基因组中。可以将宿主细胞,特别是从植物或动物获得的宿主细胞,导入到发育的胚中,以获得包含本发明的宿主细胞的镶嵌的或嵌合的生物体,即转基因生物体,即转基因植物。合适的转基因生物体优选是适合重组基因表达的所有生物。
转基因植物细胞的本质不受限制,例如,植物细胞可以是单子叶植物细胞,或双子叶植物细胞。优选的,转基因植物、转基因植物组织、植物器官、植物或种子是单子叶植物或来自单子叶植物的植物细胞、植物组织、植物器官、植物种子。可用于本发明的转基因植物细胞的实例包括源自以下属的细胞(或完整植物或植物部分)菠萝属(Ananas)、色蕉属(Musa)、葡萄属(Vitis)、草莓属(Fragaria)、百脉根属、苜猜属(Medicago)、驴食草属(Onobrychis)、车轴草属(Trifolium)、胡芦巴属(Trigonella)、紅豆属、柑橘属、木瓜属(Carica)、鳄梨属(Persea)、李属(Prunus)、Syragrus、可可属(Theobroma)、咖啡属、亚麻属、天竺葵属、木薯属、胡萝卜属(Daucus)、拟南芥属、芸苔属、萝卜属(Raphanus)、白芥属(Sinapis)、颠煎属(Atropa)、辣椒属、曼陀罗属、天仙子属、番煎属(Lycopersicon)、烟草属、煎属、碧冬煎属、洋地黄属、Majorana、芒果属(Mangifera)、菊苣属(Cichorium)、向日葵属、萬苣属(Lactuca)、麦雀属(Bromus)、芦荟属(Asparagus)、金鱼草属、萱草属(Heterocallis)、龙面花属(Nemesia)、天竺葵属(Pelargonium)、黍属(Panicum)、狼尾草属(Pennisetum)、毛茛属、狗舌草属(Senecio)、喇口八舌属(Salpiglossis)、南瓜属、香瓜属(Cucumis)、Browaalia、黑麦草属(Lolium)、 苹果属(Malus)、序菜属(Apium)、棉属(Gossypium)、野豌豆属(Vicia)、香豌豆属(Lathyrus)、羽扇豆属(Lupinus)、豆薯属(Pachyrhizus)、紫藤属、Stizolobium^ 剪股颖属(Agrostis)、梯牧草属(Phleum)、鸭茅属(Dactylis)、高粱属(Sorghum)、狗尾草属(Setaria)、玉蜀黍属(Zea)、稻属(Oryza)、小麦属(Triticum)、黑麦属(Secale)、燕麦属(Avena)、大麦属(Hordeum)、甘鹿属(Saccharum)、早熟禾属(Poa)、羊茅属(Festuca)、钝叶草属(Stenotaphrum)、狗牙根属(Cynodon)、薏该属(Coix)、北美箭竹属(Olyreae)、郝属(Phareae)、大豆属(Glycine)、豌豆属(Pisum)、番石植属(Psidium)、西番莲属(Passiflora)、鹰嘴豆属(Cicer)、菜豆属(Phaseolus)、Lens 和落花生属。优选地,用于本发明的转基因植物细胞包括禾本科(poaceae)的细胞,例如大麦属、黑麦属、燕麦属、高粱属、须芒草属、绒毛草属、黍属、稻属、玉蜀黍属、小麦属等属,例如大麦(Hordeum vulgare)、芒颖大麦草(Hordeum j ubatum)、Hordeum murinum、Hordeum secalinum、二棱大麦(Hordeum distichon)、Hordeum aegiceras、六棱大麦(Hordeum hexastichon)、六行大麦(Hordeum hexastichum)、不规则型大麦(Hordeumirregulare)、大麦(Hordeum sativum)、Hordeum secalinum、黑麦(Secale cereale)、燕麦(Avena sativa)、野燕麦(Avena fatua)、比赞燕麦(Avena byzantina)、普通栽培燕麦(Avena fatua var. Sativa)、杂种燕麦(Avena hybrida)、高梁(Sorghum bicolor)、石茅(Sorghum halepense)、舌甘高梁(Sorghum saccharatum)、高梁(Sorghum vulgare)、Andropogon drummondii、Holcus bicolor、Holcus sorghum、Sorghum aethiopicum、Sorghum arundinaceum、卡佛尔高梁(Sorghum caffrorum)、弯头高梁(Sorghum cernuum)、舌甘高梁(Sorghum dochna)、Sorghum drummondii、硬杆高梁(Sorghum durra)、Sorghumguineense、Sorghum lanceolatum、多脉高梁(Sorghum nervosum)、舌甘高梁(Sorghumsaccharatum)、Sorghum subglabrescens、Sorghum verticil I if Iorum^ Sorghum vulgare、Holcus halepensis、Sorghum miliaceum、稷(Panicum militaceum)、稻(Oryza sativa)、阔叶稻(Oryza latifolia)、玉米(Zea mays)、普通小麦(Triticum aestivum)、硬粒小麦(Triticum durum)、圆柱小麦(Triticum turgidum)、Triticum hybernum、马卡小麦(Triticum macha)、普通小麦(Triticum sativum)或普通小麦(Triticum vulgare)的属和种。特别的是,用作根据本发明的转基因植物的优选植物是包含大量脂类化合物的油料作物,例如花生、油菜、卡诺拉(canola)、向日葵、红花、I!粟、芥子、大麻、蓖麻油植物、橄榄、芝麻、金盏草、石榴、月见草、毛蕊花、蓟、野蔷薇、榛、杏、昆士兰果、鳄梨、月桂、南瓜/美国南瓜、亚麻、大豆、阿月浑子果、琉璃苣、木本(油棕、椰子、核桃)或作物,例如玉米、小麦、黑麦、燕麦、黑小麦、稻、大麦、棉花、木薯、胡椒、万寿菊、爺科(Solanaceae)植物,例如马铃薯、烟草、茄子和西红柿、野豌豆属物种、豌豆、苜蓿或灌木(咖啡、可可、茶)、柳属物种和多年生草本和饲料作物。根据本发明的优选的植物是油料作物,例如花生、油菜、卡诺拉、向日葵、红花、罂粟、芥子、大麻、蓖麻油植物、橄榄、金盏草、石榴、月见草、南瓜/美国南瓜、亚麻、大豆、琉璃苣、木本(油棕、椰子)。在另一个方面,本发明涉及用于产生转基因植物组织、植物器官、植物或种子的方法,其包括 (a)将本发明的表达盒或载体引入到植物细胞中;以及(b)再生该植物细胞来形成植物组织、植物器官、植物或种子。可以以多种本领域已知的方式将表达盒导入到植物细胞中。可以通过DNA介导的植物细胞原生质体转化,用本发明的DNA构建体转化植物物种,之后根据本领域普遍已知的程序从转化的原生质体再生植物。可以用本发明的载体转化任何能够在之后克隆增殖的植物组织,不论是通过器官发生还是胚胎发生。术语“器官发生”在本文中意指从分生中心顺序发育出枝条和根的过程;术语“胚胎发生”在本文中意指不论是从体细胞还是从配子,茎和根以一致的方式(非顺序的)一起发育的过程。所选定的特定组织将根据可获得的,并最适合转化特定物种的克隆增殖系统而改变。示例性的组织靶包括叶盘、花粉、胚、子叶、下胚轴、雌配子体、愈伤组织、已有的分生组织(例如,顶端分生组织、腋芽和根分生组织)和诱导的分生组织(例如,子叶分生组织和下胚轴(ultilane)分生组织)。本发明的植物可以采用多种形式。植物可以是转化的细胞和未转化的细胞的嵌合体;植物可以是克隆的转化体(例如,所有细胞都经转化含有表达盒);植物可以包括转化的和未转化的组织的嫁接(例如,柑橘属物种中,用转化的砧木来嫁接未转化的接穗)。可以通过多种方式繁殖转化的植物,例如通过克隆繁殖或经典的育种技术。例如,第一代(或Tl)转化的植物可以自花授粉,产生纯合的第二代(或T2)转化植物,而T2植物进一步通过经典的育种技术繁殖。可以将显性的可选择标志物(例如nptll)与表达盒相关联,来帮助育种。用单个DNA分子或多个DNA分子(即,共转化)进行植物的转化,两种技术都适用于本发明的表达盒。可获得多种转化载体用于植物转化,本发明的表达盒可以与任何此类载体联合使用。载体的选择取决于优选的转化技术和用于转化的靶物种。多种用于将构建体导入植物细胞宿主中的技术是可获得的且是本领域技术人员已知的。这些技术一般包括使用根癌农杆菌或发根农杆菌作为转化试剂的DNA转化、月旨质体、PEG沉淀、电穿孔、DNA注射、直接DNA摄入、微粒轰击、颗粒加速等(参见例如,EP295959和EP 138341)(见下文)。然而,可以用本发明的表达盒转化植物细胞以外的细胞。关于植物表达载体和报告子基因,以及农杆菌和农杆菌介导的基因转移的一般性描述可见于 Gruber 等人,(1993)中。可以将含有基因组或合成片段的表达载体导入到原生质体中,或完整的组织或分离的细胞中。将优选的表达载体导入到完整的组织中。例如Maki等人,(1993)和Phillips等人,(1988)中提供了培养植物组织的一般方法。优选的,使用直接的基因转移方法将表达载体导入到玉米或其他植物组织,例如微粒介导的递送、DNA注射、电穿孔等。更优选的,使用基因枪设备用微粒介导的递送将表达载体导入到植物组织中。参见例如,Tomes等人,(1995)。本发明的载体不仅可用于表达结构基因,而且还可用于外显子捕获克隆,或启动子捕获程序,来检测多种组织中的差异基因表达(Lindsey 1993 ;Auch&Reth 1990)。特别优选的是使用农杆菌的二元载体Ti和Ri质粒。Ti来源的载体转化多种高度植物,包括单子叶和双子叶植物,例如大豆、棉花、油菜、烟草和稻(Pacciotti 1985 Byrne1987 ;Sukhapinda 1987 ;Lorz 1985 ;Potrykus, 1985;Park 1985 Hiei 1994)。T-DNAffi于转化植物细胞已受到了广泛的研究和充分的描述(EP 120516 ;Hoekema, 1985 ;Knauf, 1983 jPAnl985)。为了导入植物中,可以将本发明的嵌合基因插入到实施例所述的二元载体中。本领域技术人员可利用其他转化方法,例如直接摄入外源DNA构建体(参见EP 295959)、电穿孔技术(Fromm 1986)或用包被了核酸构建体的金属颗粒的高速弹轰击(Kline 1987和US 4,945,050)。一旦被转化,本领域技术人员可以再生细胞。特别相关的是目前描述的用于将外源基因转化到重要经济作物中的方法,例如油菜(De Block 1989)、向日葵(Everettl987)、大豆(McCabe 1988 ;Hinchee 1988 ;Chee 1989 ;Christou 1989 ;EP 301749)、稻(Hiei 1994)和玉米(Gordon-Kamm 1990 ;Fromm 1990)。本领域技术人员可以理解,方法的选择取决于转化针对的植物的类型,S卩,单子叶或双子叶。转化植物细胞的合适方法包括但不限于显微注射(Crossway 1986)、电穿孔(Riggs 1986)、农杆菌介导的转化(Hinchee 1988)、直接基因转移(Paszkowski 1984)和使用可获得自 Agracetus, Inc.,Madison, Wis. And BioRad, Hercules, Calif 的设备进行弹道颗粒加速(参见例如,US 4,945,050和McCabe 1988)。还参见Weissinger 1988 ;Sanford 1987 (洋葱);Christou 1988(大豆);McCabe 1988(大豆);Datta 1990(稻);Klein 1988(玉米);Klein 1988(玉米);Klein 1988(玉米);Fromm 1990(玉米);和Gordon-Kamm 1990(玉米);Svab 1990(烟草叶绿体);Koziel 1993(玉米);Shimamoto1989 (稻);Christou 1991 (稻);欧洲专利申请EP 0332581 (鸭茅和其他禾本科);Vasil1993(小麦);ffeeks 1993(小麦)。在另一个实施方案中,本发明的核苷酸序列被直接转化到质体基因组中。质体转化技术广泛的描述在US 5,451,513,5, 545, 817 5, 545,818中,在PCT申请号WO95/16783中和在McBride等人,1994中。用于叶绿体转化的基础技术涉及将两侧有可选择标志物的克隆质体DNA区域与目标基因一起导入到合适的靶组织中,例如使用基因枪或原生质体转化(例如,氯化钙或PEG介导的转化)。被称为靶向序列的I至I. 5kb侧翼区有利于与质体基因组直向同源重组,因而允许对质体基因组的特定区域的替换或修饰。最初,产生对壮观霉素和/或链霉素的抗性的叶绿体16S rRNA和rpsl2基因中的点突变被用作转化的可选择标志物(Svab 1990 ;Staub 1992)。这导致稳定的同型转化,频率为约每轰击靶叶片100次发生I次。在这些标志物中存在的克隆位点允许产生用于导入外源基因的质体靶向载体(Staub 1993)。通过用显性可选择标志物一编码壮观霉素脱毒酶氨基糖苷-3N-腺苷转移酶的细菌aadA基因,替换隐性的rRNA或r_蛋白抗生素抗性基因,获得转化频率的实质性增加(Svab 1993)。用于质体转化有效的其他可选择标志物是本领域已知的,且涵盖在本发明的范围内。典型的,需要在转化后约15-20个细胞分裂周期,来达到同型状态。质体表达利用了相比核表达基因更庞大的拷贝数优势,允许表达水平可以轻易的超过总可溶性植物蛋白质的10%,在质体表达中,基因通过同源重组插入到每个植物细胞中都存在的数千拷贝的环状质体基因组中。在优选的实施方案中,本发明的核苷酸序列被插入到质体靶向载体中,并转化到理想植物宿主的质体基因组中。获得了对于含有本发明的核苷酸序列的质体基因组同型的植物,优选的能够高表达核苷酸序列。含有包含本发明表达盒的载体的根癌农杆菌细胞可用于制造转化植物的方法,其中该载体包括Ti质粒。如上所述,用根癌农杆菌感染植物细胞,产生转化的植物细胞,然后从转化的植物细胞再生植物。已知多种可用于携带本发明的农杆菌载体系统。可以使用各种农杆菌菌株,优选已卸甲(disarmed)的根癌农杆菌 (Agrobacterium tumefaciens)和发根农杆菌(Agrobacterium rhizogenes)菌株。在优选的实施方案中,用于实践本发明的农杆菌菌株包括章鱼碱型菌株,例如LBA4404,或农杆碱型菌株,例如EHAlOl或EHA105。用于DNA转移的根癌农杆菌的合适菌株是例如EHAlOl [pEHAlOl] (Hood 1986)、EHA105 [pEHA105] (Li 1992)、LBA4404 [pAL4404] (Hoekema1983)、C58C1 [pMP90] (Koncz&Schell 1986)和 C58C1 [pGV2260] (Deblaere 1985)。其他合适的菌株是根癌农杆菌C58,一株胭脂碱型菌株。其他合适的菌株是根癌农杆菌C58C1 (VanLarebeke 1974)、A136 (Watson 1975)或 LBA4011 (Klapwi jk 1980)。在另一个优选的实施方案中,土生的细菌是发根农杆菌菌株K599(NCPPB 2659)的卸甲变体。优选的,这些菌株包括Ti或Ri质粒的卸甲型质粒变体,提供了将T-DNA转移到植物细胞中所需的功能(例如,vir基因)。在优选的实施方案中,用植物酚类化合物预培养用于转化植物组织的农杆菌菌株,其含有L,L-琥拍碱型(succinamopine)Ti质粒,优选卸甲的,例如pEHAlOl。在另一个优选的实施方案中,用植物酚类化合物预培养用于转化植物组织的农杆菌菌株,其含有章鱼碱型Ti质粒,优选卸甲的,例如pAL4404。一般而言,当使用章鱼碱型Ti质粒或辅助质粒时,优选virF基因是删除的或失活的(Jarschow 1991)。本发明的方法还可以与特定的农杆菌菌株组合使用,进一步增加转化效率,例如由于存在变体或嵌合的virA或VirG基因,而改变了 vir基因表达和/或其诱导的农杆菌菌株(例如,Hansen 1994 ;Chen和 Winans 1991 ;Scheeren-Groot, 1994)。优选的是根癌农杆菌菌株LBA4404 (Hiei 1994)与超毒质粒的进一步组合。优选基于pT0K246的载体(Ishida1996)。可以通过常规的DNA重组技术修饰二元载体或任何其他的载体,在E. coli中扩增,并通过例如电穿孔或其他转化技术(Mozo&Hooykaas 1991)导入到农杆菌中。以与Ishida(1996)中描述相似的方式生长和使用农杆菌。包含载体的农杆菌菌株可以例如在补充了恰当的抗生素(例如,50mg/l壮观霉素)的YP培养基(5g/l酵母提取物、10g/l蛋白胨、5g/l NaCl、15g/l琼脂、pH6.8)上生长3天。用环从固体培养基上收集细菌,并重悬。在本发明的优选的实施方案中,通过使用在_80°C冷冻的等分试样开始农杆菌培养。可以仅通过将靶组织与农杆菌接触,进行农杆菌对靶组织(例如,未成熟的胚)的转化。用于感染和共培养的农杆菌浓度可能需要改变。例如制备群体密度为约IO5-IO11,优选IO6至101(1,更优选约IO8细胞或cfu/ml的农杆菌细胞悬浮液,并将靶组织浸泡在该悬浮液中约3至10分钟。然后,在固体培养基上一起培养所获得的靶组织与农杆菌若干天。优选的,以IO6至101(lCfu/ml的浓度使用细菌。在共培养步骤的优选的实施方案中,将共培养基质中约I至IOul的土生细菌(例如,农杆菌)悬浮液直接用于各靶组织外植体上,并空气干燥。这节省劳动力和时间,并降低由于过度使用农杆菌造成的无意的农杆菌介导的损伤。对于农杆菌处理,将细菌重悬在植物相容的共培养基质中。共培养基质补充了抗氧化剂(例如,硝酸银)、酚吸附性化合物(如聚乙烯吡咯烷酮,Perl 1996)或巯基化合物(例如,二硫苏糖醇、L-半胱氨酸,Olhoft 2001),可以减少由于植物防御反应(如酚氧化)造成的组织坏死,可进一步改善农杆菌介导的转化的效率。在另一个优选的实施方案中,共 培养基质包括至少一种巯基化合物,优选选自硫代硫酸钠、二硫苏糖醇(DTT)和半胱氨酸。优选的,浓度在约ImM和IOmM的L-半胱氨酸,0. ImM至5mMDTT和/或0. ImM至5mM硫代硫酸钠之间。优选的,在共培养期间使用的基质包括从约IuM至约IOyM硝酸银,和从约50mg/L至约1,000mg/L of L-半胱氨酸。这导致极大降低了靶组织对农杆菌介导的损伤(例如,诱导坏死)的易损性,和极大改善了整体的转化效率。各种载体系统可用于与农杆菌组合。优选的是二元载体系统。常规的二元载体是基于“广宿主范围的”质粒,如源自P型质粒RK2的pRK252 (Bevan 1984)或pTJS75 (Watson1985)。大部分这类载体是pBIN19(Bevan 1984)的衍生物。各种二元载体是已知的,一些是可商购的,例如 pBIlOl. 2 或 pBIN19 (Clontech Laboratories, Inc. USA)。针对大小和操作改良其他载体(例如,pPZP ;Hajdukiewicz 1994)。WO 02/00900中也描述了改良的载体系统。使用直接基因转移或农杆菌介导的转移的方法通常但不必需用可选择的标志物进行,该标志物可提供对抗生素(例如,卡那霉素、潮霉素或氨甲喋呤)或除草剂(例如草胺磷(phosphinothricin))的抗性。然而,用于植物转化的可选择标志物的选择对本发明而目不是关键的。对于某些植物物种,不同的抗生素或除草剂选择标志物是优选的。转化中常规使用的选择标志物包括对卡那霉素和相关的抗生素产生抗性的nptll基因(Messing&Vierra, 1982 ;Bevan 1983)、对除草剂草胺憐产生抗性的 bar 基因(White 1990,Spencer 1990)、对抗生素潮霉素产生抗性的hph基因(Blochlinger&Diggelmann),产生对氨甲喋呤的抗性的dhfr基因(Bourouis 1983)。用于产生和进一步表征稳定转化的植物的方法是本领域技术人员普遍已知的。作为实例,将转基因植物细胞置于恰当的选择培养基中,用于选择转基因细胞,然后生长为愈伤组织。从愈伤组织生长出枝条。通过在生根培养基中生长,从枝条产生试管苗。各种构建体一般连接成用于选择植物细胞的标志物。常规而言,该标志物可以是对杀生剂(特别是抗生素,例如卡那霉素、G418、博来霉素、潮霉素、氯霉素、除草剂等)有抗性的。特定的标志物允许比较缺少所导入的DNA的细胞,来选择转化的细胞。可以从序列制备包括本发明的转录盒的DNA构建体的组分,该序列对宿主是天然的(内源)或外来的(外源)。“外来”意指序列不可见于导入构建体的野生型宿主中。异源构建体可含有至少一个区域对于转录起始区所来源的基因而言不是天然的。为了验证转基因在转基因细胞和植物中的存在,可以实施多种测定。此类测定包括例如本领域技术人员普遍已知的“分子生物学”测定,例如Southern和Northern印记、原位杂交 和基于核酸的扩增方法,如PCR或RT-PCR或Taqman ;“生物化学”测定,例如通过免疫学手段(ELISA和Western印迹)或通过酶功能检测蛋白质产物的存在;植物部分测定,例如种子测定;以及通过分析完整再生植物的表型,例如疾病或害虫抗性。可以通过使用本领域技术人员普遍已知的技术,从细胞系或任何植物部分中分离DNA,来确定预先选定的核酸片段的存在。注意并非总存在完整的序列,可能是由于细胞内序列的重排或缺失。可以通过聚合酶链式反应(PCR)确定通过本发明方法导入的核酸元件的存在。使用这些技术扩增核酸的离散片段,并通过凝胶电泳检测。该类型的分析允许确定预先选定的核酸片段是否以稳定的转化子的形式存在,但不能验证所导入的预先选定的核酸片段是否整合到宿主细胞基因组中。此外,使用PCR技术不能确定转化子是否具有外源基因导入到基因组的不同位点中,即,转化子是否是独立来源的。考虑使用PCR技术将能够克隆与所导入的预先选定的DNA片段相邻的宿主基因组DNA的片段。已知的PCR方法包括但不限于使用成对引物、巢式引物、单特异性引物、简并引物、基因特异性引物、载体特异性引物、部分错配的引物等的方法。可以使用Southern杂交技术,确定DNA整合到宿主基因组中的肯定性证据,以及转化子的独立身份。使用该技术,可以鉴别导入到宿主基因组中的特定DNA序列以及侧翼的宿主DNA序列。因而,给定转化子的Southern杂交模式可发挥鉴别该转化子的特征的作用。此外,可以通过Southern杂交验证所导入的预先选定的DNA片段在高分子量DNA中的存在,即,验证所导入的预先选定的DNA片段已经整合到宿主细胞基因组中。Southern杂交技术提供了使用PCR获得的信息,例如,存在预先选定的DNA片段,但也证实了与基因组的整合以及表征了各个单个的转化子。考虑使用Southern杂交技术的修饰形式——点或缝印迹杂交技术,可以获得与源自PCR的相同的信息,例如存在预先选定的DNA片段。 PCR和Southern杂交技术都可用于证实向后代传递了预先选定的DNA片段。在大部分例子中,给定转化子的特征性Southern杂交模式将在后代中分离为一个或多个孟德尔遗传的基因(Spencer 1992) ;Laursen 1994),表不基因的稳定继承。种系传递,以及在愈伤组织、RO植物和转化基因分离的Rl后代中,转化DNA的相同的Southern印迹杂交模式和强度,都提示愈伤组织和亲代转化子(RO)的非嵌合性质。DNA分析技术可以使用从植物的任何部分分离的DNA来进行,而RNA可能只在特定的细胞或组织类型中表达,因而必需从这些组织制备用于分析的RNA。PCR技术还可用于检测和定量从导入的预先选定的DNA片段产生的RNA。在该PCR应用中,首先必须将RNA逆转录成DNA,使用酶例如逆转录酶,然后通过使用常规的PCR技术扩增DNA。在大部分例子中,PCR技术虽然有效,但却不能证实RNA产物的完整性。通过Northern印迹可以获得关于RNA产物性质的其他信息。该技术将证实RNA样本的存在,并给出关于该RNA完整性的信息。还可以使用点或缝印迹Northern杂交,来确定RNA样本的存在或缺少。这些技术是修饰的Northern印迹,且仅证实RNA样本的存在或缺少。虽然Southern印迹和PCR可用于检测所讨论的预先选定的DNA片段,但它们没有提供关于预先选定的DNA片段是否表达的信息。可以通过特异性鉴别所导入的预先选定的DNA片段的蛋白质产物,或评估由其表达产生的表型改变,来评估表达。对特定蛋白质的产生和鉴别的测定可利用蛋白质的物理化学、结构学、功能或其他的特性。独特的物理化学或结构特性允许通过电泳方法分离和鉴别蛋白质,例如天然的或变性的凝胶电泳或等电聚焦,或者通过色谱技术例如离子交换或凝胶排阻色谱。单个蛋白质的独特结构提供了使用特定抗体以诸如ELISA测定的模式检测其的存在的机会。可以使用具有甚至更高特异性的方法的组合,例如Western印迹,其中抗体用于定位已通过电泳技术分离的单个基因产物。可以使用其他技术绝对验证目标产物的身份,例如通过纯化后氨基酸测序来评估。虽然上述是最常使用的,但也可以额外使用其他程序。还可以使用测定程序,通过蛋白质功能,尤其是酶催化涉及特定底物和产物的特 定化学反应的能力,来鉴别蛋白质的表达。通过物理或化学程序供应和定量底物的损失或反应产物的生成,可以跟踪这些反应。实例随分析的酶而改变。经常通过评估基因产物表达的表型结果,来确定基因产物的表达。这些测定还可以采用多种形式,包括但不限于分析植物的化学组成、形态学或生理学特性的改变。形态学的改变可包括更高的株高或更粗的茎杆。在被称为生物测定的更细致控制的条件下,评估植物或植物部分响应所施加的处理的最常见改变。下列章节提供了特定的目的多核苷酸的实例,其可以与本发明的表达盒有效的连接。I、示例性转基因I. I除草剂抗性编码草铵膦乙酰转移酶(bar和pat)、草甘膦耐受性EPSP合酶基因、编码草甘膦氧化还原酶的草甘膦降解酶基因g0X、deh(编码失活茅草枯的脱卤素酶)、除草剂抗性(例如,硫酰脲类和咪唑啉酮类)乙酰乳酸合酶和bxn基因(编码降解溴苯腈的腈水解酶)是用于转化的除草剂抗性基因的好例子。bar和pat基因编码酶——草铵膦乙酰转移酶(PAT),该酶失活除草剂草铵膦,并阻止该化合物抑制谷氨酸合酶。酶5-烯醇丙酮莽草酸3-磷酸合酶(EPSP合酶)通常受除草剂N-(膦酸甲基)甘氨酸(草甘膦)的抑制。然而,已知编码草甘膦抗性的EPSP合酶的基因。Deh基因编码茅草枯脱卤素酶,产生对除草剂茅草枯的抗性。Bxn基因编码特定的腈水解酶,将溴苯腈转化为非除草剂的降解产物。I. 2昆虫抗性本发明的一个重要方面涉及将产生昆虫抗性的基因导入到植物中。可以导入的潜在的昆虫抗性基因包括苏云金芽孢杆菌晶体毒素基因或Bt基因(Watrud 1985)。Bt基因可以提供对鳞翅目或鞘翅目害虫的抗性,例如欧洲玉米螟(ECB)和玉米食根虫(CRW)。用于此类实施方案的优选的Bt毒素基因包括CryIA(b)和CryIA(c)基因。这方面也可以使用苏云金芽孢杆菌的其他物种的影响昆虫生长或发育的内毒素基因。蛋白酶抑制剂也可以提供昆虫抗性(Johnson 1989),因而在植物转化中具有实用性。预计使用马铃薯或西红柿的蛋白酶抑制剂II基因——PinII是特别有效的。甚至更有利的是组合使用PinII基因和Bt毒素基因,本发明人已发现其组合效应产生协同的杀虫活性。编码昆虫消化系统抑制剂的其他基因,或者编码有利于抑制剂产生的酶或辅助因子的基因,也是有效的。半胱氨酸蛋白酶抑制剂(Cystatin)和淀粉酶抑制剂,例如小麦和大麦的,可以作为该组别的示例。此外,编码植物凝聚素的基因可产生额外的或可选的杀虫特性。植物凝聚素(最初称为植物血球凝聚素)是多价的碳水化合物结合蛋白,能够使多个物种的红血球聚合。最近,植物凝聚素被鉴别为具有抗象鼻虫、ECB和食根虫活性的杀虫剂(Murdock 1990 ;Czapla&Lang, 1990)。植物凝聚素基因被认为是有效的,包括例如大麦和小麦胚凝聚素(WGA)和稻凝聚素(Gatehouse 1984),WGA是优选的。构成本发明另一方面的是这样的基因,当导入昆虫害虫时该基因控制抗昆虫的活性大多肽或小多肽的产生,例如溶解肽、肽激素和毒素或毒液。例如,认为针对特定昆虫害虫的保幼激素酯酶的表达也可以导致杀虫活性,或者可能导致变态的中止(Hammock1990)。表达这样的基因的转基因植物也构成本发明另一方面,该基因编码影响昆虫表 皮完整性的酶。此类基因包括编码几丁质酶、蛋白酶、脂肪酶的基因,以及产生尼克霉素(nikkomycin)的基因,尼克霉素是抑制几丁质合成的化合物,导入任何上述基因都被认为产生了昆虫抗性的玉米植物。编码影响昆虫蜕皮的活性物质的基因也落入本发明的有效转基因的范围内,例如影响蜕皮甾醇Μ)Ρ-糖基转移酶产生的基因。编码有利于产生这样的化合物的酶的基因也涵盖在本发明内,该化合物降低宿主植物对昆虫害虫的营养质量。例如,可以通过改变植物的固醇类组成,使植物产生杀虫活性。昆虫通过饮食获得固醇,用于激素合成和膜稳定性。因此,通过表达新基因改变植物的固醇组成可能对昆虫生长和/或发育具有负面影响,因而赋予植物杀虫活性,该新基因例如直接促进产生不理想的固醇或将理想的固醇转化为不理想形式的基因。脂肪加氧酶是天然存在的植物酶,显示表现出对昆虫的抗营养效应,和降低昆虫饮食的营养质量。因此,本发明的其他实施方案涉及具有增强的脂肪加氧酶活性的转基因植物,该活性抵抗昆虫喂含本发明还提供了实现植物次生代谢物的定性或定量改变的方法和组合物。一个实例涉及产生DMBOA的转化植物,该植物被认为产生对欧洲玉米螟、食根虫和若干其他玉米害虫的抗性。特别考虑用于该方面的候选基因包括位于bx基因座的那些基因,已知其涉及合成性DIMBOA通路(Dunn, 1981)。还考虑导入可以调控玉米可凝性球蛋白(maysin)产生的基因,和参与高粱中蜀黍苷产生的基因,分别促进对棉铃虫和食根虫的抗性。鸭茅状摩擦禾(Tripsacum dactyloides)是一类抗某些昆虫的杂草,包括玉米食根虫。预期将从摩擦禾中分离出编码对昆虫有毒的蛋白质的基因,或参与对昆虫有毒的化合物的生物合成的基因,并将这些新基因用于产生对昆虫的抗性。已知摩擦禾中的昆虫抗性的基础是遗传的,因为该抗性已经通过有性杂交转移到玉米中(Branson&Guss, 1972)。编码特征是具有潜在杀虫活性的蛋白质的其他基因也可用作根据本文的转基因。此类基因包括例如豇豆胰蛋白酶抑制剂(CpTI ;Hilder 1987),其可用作食根虫威慑剂;编码除虫菌素(avermectin)的基因(Campbell 1989 ;Ikeda 1987),其经证实是特别有效的玉米食根虫威慑剂;核糖体失活蛋白基因;甚至调控植物结构的基因。还考虑这样的转基因玉米,该转基因玉米包括抗昆虫抗体基因,和编码可以将用于植物外部的无毒杀昆虫剂(前杀昆虫剂)在植物内部转化为杀昆虫剂的酶的基因。I. 3环境或胁迫抗性还可以通过表达异源基因,或过表达同源基因,来实现植物耐受各种环境胁迫能力的改良,例如但不限于干旱、过高的湿度、寒冷、冰冻、高温、盐和氧胁迫。可以如下实现益处,如通过导入“抗冻”蛋白增加对冰冻温度的抗性,例如Winter Flounder (Cutler 1989)的“抗冻”蛋白或其合成基因衍生物。还可以通过增加叶绿体中的甘油-3-磷酸乙酰转移酶的表达,来产生改善的寒冷耐受性(Murata 1992 ;ffolter 1992)。通过表达超氧化物歧化酶可以产生对氧胁迫(通常被例如寒冷温度与高光强度组合的条件加剧)的抗性(Gupta1993),并可以通过谷胱甘肽还原酶改善(Bowler 1992)。此类对策允许对新出现土地中的冰冻的耐受性,并且使晚熟高产变种拓展到相对早熟区域。有利影响植物水含量、总水势、渗透势和膨压的新基因的表达可以增强植物耐受干旱的能力。如本文中使用的,术语“干旱抗性”和“干旱耐受性”用于指植物增加对于由水利用度相比正常环境降低而导致的胁迫的抗性或耐受性,以及植物在较低水利用度环境 中发挥功能和存活,以及以相对优异的方式实施的能力。在本发明的这一方面,假设例如编码生物合成渗透活性溶质的基因的表达可以产生对抗干旱的保护作用。在这类基因中包括编码甘露醇脱氢酶(Lee和Saier,1982)和海藻糖_6_磷酸合酶(Kaasen 1992)的DNA。通过细胞中的天然磷酸酶的后续作用或者通过导入和共表达特定的磷酸酶,这些导入的基因将分别导致甘露醇或海藻糖的积累,两者都是普遍记载的能够减轻胁迫效应的保护性化合物。甘露醇在转基因烟草中的积累已经过验证,初步的结果提示表达高水平的这一代谢物的植物能够耐受所施加的渗透胁迫(Tarczynski 1992)。相似的,其他代谢物在保护酶功能(例如,阿兰碱(alanopine)或丙酸)或膜完整性(例如,阿兰碱)中的效果也已记载(Loomis 1989),因此,表达编码这些化合物生物合成的基因可以以与甘露醇相似的方式产生干旱抗性。天然存在的渗透活性和/或在干旱和/或脱水过程中提供一些直接保护效应的代谢物的其他实例包括糖和糖类衍生物,例如果糖、赤藓醇(Coxson 1992)、山梨醇、卫矛醇(Karsten 1992)、甘油葡糖苷(Reed 1984 ;Erdmann 1992)、鹿糖、水苏糖(Koster&Leopold 1988 ;Blackman 1992)、4_0_ 甲基内消旋肌醇和松醇(Vernon&Bohnert 1992),以及棉杆糖(Bernal-Lugo&Leopold 1992)。其他非糖类的渗透活性溶剂包括但不限于脯氨酸和甘氨酸-甜菜碱(Wyn-Jones and Storey,1981)。通过导入和表达例如上述控制渗透活性化合物和其他此类化合物的基因,可以提高在胁迫时间过程中的持续树冠生长和增加繁殖适合度,如肌醇-ο-甲基转移酶的一个示例性实施方案所示。考虑特定蛋白质的表达还可以增加干旱耐受性。基于结构相似性已经命名了三类胚发生晚期蛋白(参见Dure 1989)。在成熟的(即,干燥)种子中已经证实了所有这三类蛋白质。在这3类蛋白质中,11型(脱水蛋白(dehydrin)型)一般涉及植物营养部分中的干旱和 / 或脱水耐受(例如,Mundy 和 Chua, 1988 ;Piatkowski 1990 ;Yamaguchi-Shinozaki1992)。近期,发现III型LEA(HVA-I)在烟草中的表达影响植物高度、成熟和干旱耐受性(Fitzpatrick,1993)。因此,所有三组结构基因的表达都可以产生干旱耐受。在水胁迫过程中诱导的其他类型的蛋白质包括巯基蛋白酶、醛缩酶和跨膜转运子(Guerrero 1990),可以在干旱胁迫过程中产生各种保护性和/或修复类型的功能。影响脂类生物合成,因而影响膜组成的基因的表达也可以用于在植物中产生干旱抗性。改善干旱抗性的许多基因具有互补的作用模式。因而,这些基因的组合可能对改善玉米的干旱抗性具有附加的和/或协同的效应。许多这类基因还改善冰冻耐受(或抗性);在冰冻和干旱过程中发生的生理胁迫性质上是相似的,并可以以相似的方式减轻。可以通过这些基因的组成型表达或组织特异性表达产生益处,但这些新基因的优选表达方式是通过使用膨压诱导型启动子(例如Guerrero等人,1990和Shagan 1993中描述的膨压诱导型基因的启动子)。这些基因的空间和时间表达模式使玉米能够更好的抵抗胁迫。涉及特定形态学性状的基因的表达是有益的,该形态学性状允许增加从干燥土壤中吸取水。例如,改变根特征的基因的导入和表达可以增强水摄取。增强胁迫时间过程中的繁殖适合度的基因的表达具有重要的价值。例如,改善花粉散发的同步性和雌花部分(即,穗丝)感受度的DNA的表达是有益的。此外,表达使胁迫时间过程中籽粒吸收最小化的基因将增加收获籽粒的量,因而是有价值的。通过导入和表达具有恰当调控序列的异戊烯基转移酶基因,调控单子叶植物(例如玉米)中的细胞分裂素水平,可以改善单子叶植物胁迫抗性和产量(Gan, 1995)。 考虑到水在决定产量中的整体作用,考虑通过导入和表达新基因,使植物能够更有效地利用水,将改善整体的性能,即使当土壤水分利用度不受限制时。通过导入改善植物在各种胁迫下相对于水利用度最大化水利用能力的基因,可以实现产量稳定性或产量性能的一致性。还可以通过例如过表达短角床杜父鱼(Myoxocephalus scorpius) (W000/00512)、长角床杜父鱼(Myoxocephalus octodecemspinosus)的抗冻多肽、拟南芥转录激活子CBF1、谷氨酸脱氢酶(W0 97/12983、WO 98/11240)、钙依赖性蛋白激酶基因(TO98/26045)、钙调磷酸酶(W0 99/05902)、酵母的酪蛋白激酶(W0 02/052012)、法尼酰基转移酶(W0 99/06580 ;Pei ZM 等人,(1998) Science 282 :287-290)、铁蛋白(Deak M 等人,(1999)Nature Biotechnology 17 :192-196)、草酸氧化酶(TO 99/04013 ;DunwellJM(1998) Biotechn Genet Eng Rev 15 :1-32)、DREB1A 因子(“脱水响应元件 BlA”;KasugaM等人,(1999)Nature Biotech 17 :276-286)、甘露醇或海藻糖合成的基因例如海藻糖磷酸合酶或海藻糖磷酸盐磷酸酶(W0 97/42326),或者通过抑制基因例如海藻糖酶(W097/50561),来实现植物对非生物胁迫因子的改善的保护作用,例如干旱、热或寒冷。I. 4疾病抗性假设可以通过将基因导入到植物周期中,实现对疾病增加的抗性。可以产生对由病毒、细菌、真菌、根际病原体、昆虫和线虫导致的疾病的抗性。还考虑可以通过表达导入的基因实现控制产生真菌毒素的生物。可以通过表达新基因来产生对病毒的抗性。例如,已证实在转基因植物中表达病毒衣壳蛋白可以对该病毒对植物的感染产生抗性,并且可能对其他密切相关的病毒产生抗性(Cuozzo 1988,Hemenway 1988,Abel 1986)。考虑表达祀向关键病毒功能的反义基因可以产生对该病毒的抗性。例如,靶向负责病毒核酸复制的基因的反义基因可以抑制该复制,并导致对病毒的抗性。认为通过使用反义基因干扰其他病毒功能也可以增加对病毒的抗性。此外,假设可以通过其他方法实现对病毒的抗性,包括但不限于使用卫星病毒。假设通过导入新基因可以实现对由细菌和真菌导致的疾病的抗性。考虑这样的基因是有效的,该基因编码所谓的“肽抗生素”、病理发生相关(PR)蛋白、毒素抗性和影响宿主病原体相互作用(例如形态学特征)的蛋白质。肽抗生素是多肽序列,对细菌和其他微生物的生长是抑制性的。例如,被称为杀菌肽(cecropin)和爪蟾抗菌肽(magainin)的肽类型抑制许多种类的细菌和真菌的生长。假设PR蛋白在植物中的表达可用于产生对细菌疾病的抗性。这些基因是在病原体攻击宿主植物后诱导的,分为至少5类蛋白质(Bol,1990)。包括在PR蛋白中的是β -I,3-葡聚糖酶、几丁质酶和渗透蛋白,和其他被认为在植物抗疾病生物中发挥功能的蛋白质。已鉴别其他基因具有抗真菌的特性,例如UDA(次荨麻凝聚素)和橡胶蛋白(Broakgert 1989 ;Barkai-Golan 1978)。已知某些植物疾病是由于植物毒素的产生而导致的。可以通过表达新基因实现对这些疾病的抗性,该新基因编码能够降解或者失活该植物毒素的酶。表达改变宿主植物和病原体之间相互作用的新基因可有效地降低疾病生物侵入宿主植物组织中的能力,例如,增加叶表皮的蜡质或其他的形态学特征。植物寄生性线虫是许多植物疾病的原因。假设可以通过表达新基因使植物抗这些生物。预期通过改变线虫识别或附着宿主植物的能力,和/或使植物能够产生杀线虫化合物,包括但不限于蛋白质,来实现对线虫感染的控制。 此外,可以通过靶向积累某些代谢物或蛋白质,来实现对真菌、昆虫、线虫和疾病的抗性。此类蛋白质包括但不限于芥子油苷(抗食草动物的防御)、几丁质酶或葡聚糖酶和其他破坏寄生虫的细胞壁的酶、核糖体失活蛋白(RIP),以及当植物受伤或受微生物攻击时,或者化学上受例如水杨酸、茉莉酸或乙烯或非植物来源的溶菌酶(例如T4溶菌酶或多种哺乳动物的溶菌酶)时,所诱导的其他植物抗性和胁迫反应的蛋白、杀虫蛋白质例如苏云金芽孢杆菌内毒素、α-淀粉酶抑制剂或蛋白酶抑制剂(豇豆胰蛋白酶抑制剂)、植物凝聚素例如麦胚凝聚素、RNA酶或核酶。其他例子是编码哈茨木霉(Trichoderma harzianum)chit42内切几丁质酶(GenBank检索号S78423)或高粱的N-羟基化的多功能细胞色素P450 (CYP79)蛋白(GenBank检索号U32624)或其功能等价物的核酸。积累芥子油苷作为害虫防护(Rask L 等人,(2000)Plant Mol Biol 42 :93-113 ;Menard R 等人,(1999)Phytochemistry 52 :29-35)、表达苏云金芽抱杆菌内毒素(Vaeck 等人,(1987)Nature328 :33-37)或通过表达几丁质酶保护免受真菌的攻击,例如豆类几丁质酶(Broglie等人,(1991) Science 254 :1194-1197),是有利的。可以通过表达雪花莲(Galanthus nivalis)植物凝聚素实现对害虫的抗性,例如对水稻植物中的水稻害虫褐飞虱(Ni Iaparvatalugens) (Rao 等人,(1998)Plant J 15(4) :469-77)。合成的 crylA(b)和 crylA(c)基因的表达可以在多种植物中产生对昆虫害虫的抗性,该基因编码鳞翅目特异性的苏云金芽孢杆菌 D-内毒素(Goyal RK 等人,(2000) Crop Protection 19(5) :307-312)。适合防御病原体的其他靶基因包括多聚半乳糖醛酸酶-抑制性蛋白(PGIP)、索马甜(thaumatine)、转化酶和抗微生物肽,例如乳铁蛋白(Lee TJ等人,(2002) J Amer Soc Horticult Sci127(2) :158-164)。可有利的用于本文中的其他核酸序列包括用于昆虫控制(美国专利号6,063,597 ;6,063,756 ;6,093,695 ;5,942,664 和 6,110,464)、真菌疾病抗性(美国专利号 5,516,671 ;5,773,696 ;6,121,436 ;6,316,407 和 6,506,962)、病毒抗性(美国专利号5,304,730和6,013,864)、线虫抗性(美国专利号6,228,992)和细菌疾病抗性(美国专利号5,516,671)的性状。I. 5降低/消除真菌毒素
由于植物相关的真菌产生的真菌毒素,包括黄曲霉素和富马毒素(fumonisin),是致使谷物失效的重要因素。这些真菌生物不导致疾病症状和/或干扰植物的生长,但它们产生对动物有毒的化学物质(真菌毒素)。抑制这类真菌的生长将降低这类毒性物质的合成,因而降低由于真菌毒素污染造成的谷物损失。可以向植物中导入抑制真菌毒素合成而不干扰真菌生长的新基因。编码能够致使真菌毒素无毒的酶的新基因的表达对于实现降低谷物的真菌毒素污染是有效的。任何上述机制的结果都将是谷物上存在的真菌毒素降低。I. 6籽粒(grain)的组成或质量可以向植物,特别是重要的经济谷类(例如玉米、小麦或稻)导入基因,以改善作为生长谷类主要原因的籽粒。根据籽粒的特定的最终用途,可以设想以该方式产生的多种新型转基因植物。例如,玉米籽粒的最大用途是用作饲料或食品。导入改变籽粒组成的基因可以极大的提高饲料或食品的价值。玉米籽粒的主要组分是淀粉、蛋白质和油。玉米籽粒的每种这类主要组分都可以通过改变其水平或组成来改善。出于示例性目的,可以提及一些实例, 但所述实例不是以任何方式提供的可能性的穷举列表。许多谷类籽粒的蛋白质对于饲料和食品目的而言是亚优的,尤其是当喂养猪、家禽和人时。蛋白质的若干氨基酸是缺乏的,而该氨基酸是这些物种的饮食中必需的,需要向籽粒中添加补充物。有限的必需氨基酸可包括赖氨酸、甲硫氨酸、色氨酸、苏氨酸、缬氨酸、精氨酸和组氨酸。一些氨基酸仅当籽粒中补充了其他用于饲料配方的添料后才成为有限的。例如,当籽粒中补充豆餐以满足赖氨酸需求时,甲硫氨酸成为有限的。可以提供以下机制提高种子和籽粒中的这些必需氨基酸的水平,该机制包括但不限于导入增加氨基酸生物合成、减少氨基酸降解、增加蛋白质中的氨基酸贮藏或增加氨基酸向种子或籽粒中运输的基因。增加氨基酸生物合成的一种机制是导入去调控氨基酸生物合成通路的基因,使植物不再充分的控制产生水平。这可以通过去调控或绕过在氨基酸生物合成路径中正常受该路径的氨基酸终产物水平调控的步骤来实现。实例包括,导入编码去调控型的天冬氨酸激酶或二氢吡啶二羧酸(DHDP)合酶的基因来增加赖氨酸和苏氨酸的产生,以及导入编码去调控型的邻氨基苯甲酸合酶的基因来增加色氨酸产生。降低氨基酸的分解代谢可以通过导入如下DNA序列来实现,该DNA序列能降低或消除催化分解代谢途径中的步骤的酶(例如赖氨酸-酮戊二酸还原酶)的编码基因的表达。可以用各种方法改变籽粒的蛋白质组成以改善氨基酸的平衡,这些方法包括提升天然蛋白质的表达、降低那些具有不良组成的蛋白质的表达、改变天然蛋白质的组成、或导入编码具有优良组成的全新蛋白质的基因。可以导入能降低储存蛋白中的玉米醇溶蛋白家族成员的表达的DNA。该DNA可以编码核酶或反义序列定向地降低玉米醇溶蛋白的表达或降低玉米醇溶蛋白表达的调控物(例如opaque-2基因产物)的表达。籽粒的蛋白质组成可以通过共抑制现象来改变,即,通过表达经转化导入的、与内源基因一样的结构基因或基因片段来抑制内源基因的表达(Goring 1991)。此外,所导入的DNA可以编码降解玉米醇溶蛋白的酶。玉米醇溶蛋白表达的降低可伴随着具有更期望的氨基酸组成的蛋白质的增加或其它主要种子组分例如淀粉的增加。或者,可以导入嵌合基因,该嵌合基因包含编码具有合适氨基酸组成的天然蛋白质(例如一种球蛋白或玉米的IOkD玉米醇溶蛋白)的序列和启动子或设计用于增加该蛋白质表达的其它调控序列。该基因的编码序列可以包括编码必需氨基酸的额外密码子或置换密码子。此外,可以使用来源于其它物种的编码序列、或部分或完全合成的序列,其中该序列编码设计用于增强种子的氨基酸组成的完全独特的肽序列。导入改变籽粒的油含量的基因,可能是有价值的。油含量的增加可以导致用于饲料和食品的种子的可代谢能量的含量和密度的增加。所导入的基因可以编码除去或降低脂肪酸或脂质生物合成中的限速或调节步骤的酶。这样的基因包括但不限于编码乙酰辅酶A羧化酶、ACP-酰基转移酶、β -酮脂酰-ACP合酶以及其它熟知的脂肪酸生物合成活性的基因。其他的可能性是编码不具有酶活性的蛋白质的基因,例如酰基载体蛋白。其他实例包括2-乙酰转移酶、油质蛋白丙酮酸脱氢酶复合体、乙酰CoA合酶、ATP柠檬酸裂解酶、ADP葡萄糖焦磷酸酶和肉毒碱-CoA-乙酰-CoA穿梭载体的基因。期望与油类生物合成相关的基因的表达可靶向质体,故使用质体转运肽序列,和优选的在种子胚中表达。可以导入改变油中存在的脂肪酸的平衡的基因,提供更健康或更有营养的饲料。导入的DNA还可以编码这样的序列,该序列阻断涉及脂肪酸生物合成的酶的表达,改变籽粒中存在的脂肪酸的比例,例如下文所述。可以导入基因以增加籽粒中淀粉组分的营养价值,例如通过增加淀粉的分支度,延缓淀粉的代谢从而改进淀粉在母牛中的利用。
除了影响籽粒的主要组分外,可以导入基因,以影响用于饲料或食品的籽粒的多种其他营养物、加工或其他的质量方面。例如,可以增加或减少籽粒的色素。在一些动物饲料中,黄色色素的增强和稳定是理想的,可以通过导入这样的基因来实现,该基因导致叶黄素和胡萝卜素的产生增强,消除其产生中的限速步骤。此类基因可编码改变形式的八氢番茄红素合酶、八氢番茄红素去饱和酶或番茄红素合酶。可选的,无色素的白色玉米对于产生许多食物产品是理想的,可以通过导入这样的DNA来产生,该DNA阻断或消除色素产生通路中的步骤。饲料和食品所包含的一些籽粒具有不足量的维生素,因而必须加以补充以提供充分的营养价值。可以考虑导入增加种子中维生素的生物合成的基因,包括例如维生素Α、Ε、B12、胆碱等。例如,玉米粒还不具有最佳营养价值的足量矿物质含量。影响含磷、硫、钙、锰、锌和铁等的化合物的积累或利用度的基因将是有价值的。一个例子是导入降低植酸产生或编码植酸酶的基因,该酶增强植酸降解。这些基因将增加饮食中可利用的磷酸盐的水平,降低补充磷酸盐矿物质的需求。可描述多种改善用于饲料和食品目的的谷类的其他实例。该改善甚至不必涉及籽粒,而可以例如改善籽粒用于青贮的价值。导入实现该目的的DNA包括改变木质素产生的序列,例如导致与优秀的牛饲料价值相关的“棕色中脉”表型的序列。除直接改善饲料或食品价值外,还可以导入改善籽粒加工或改善加工所获得的产品价值的基因。加工某些籽粒(例如玉米)的主要方法是通过湿磨法。可以通过表达增加效率和降低加工成本(例如,减少浸泡时间)的新基因,来改善玉米。改善湿磨产品价值包括改变淀粉、油、玉米麸质(corn gluten meal)或玉米麸质饲料(corn gluten feed)的组分的数量或质量。可以通过鉴别和消除淀粉生物合成中的限速步骤,或者通过减少籽粒中其他组分的水平,导致淀粉比例增加,来实现提高淀粉。前者的实例是导入编码具有改变的调控活性或以更高的水平表达的ADP-葡糖糖焦磷酸化酶的基因。后者的实例包括在籽粒发育后期阶段过程中表达的蛋白质或油类生物合成的选择性抑制剂。可以通过改变直链淀粉与支链淀粉的比率、淀粉分子的大小、或淀粉的分支模式,对淀粉的特性进行有利的改变。通过这些改变,许多特性可以被改良,这些特性包括但不限于糊化温度、糊化热、膜和糊的透明度、神学特性(Theological properties)等。为了实现这些特性改变,可以单独或以组合的方式导入编码颗粒结合性或可溶性淀粉合酶活性或分支酶活性的基因。也可以用DNA例如反义构建体来降低这些酶的内源性活性水平。导入的基因或构建体可具有调控序列,控制它们在淀粉生物合成和淀粉粒发育中以特定的时间间隔表达。此外,导入和表达这样的基因是可取的,该基因导致淀粉分子的葡萄糖部分在体内衍生化或其他修饰作用。可考虑与任何分子共价连接,仅受催化衍生化作用的酶的存在和淀粉颗粒中恰当底物的可接近程度的限制。重要的衍生化作用的例子包括添加官能团,例如氨基、羧基或磷酸基,为后续在体外衍生化提供位点,或通过导入离子电荷影响淀粉特性。其他修饰作用的实例包括葡萄糖单位的直接改变,例如丢失羟基,或氧化为醛基或羧基。

油是玉米和其他籽粒的另一种湿磨产物,其价值受基因的导入和表达的改善。通过上文关于饲料和食品所述的方法,可以提高湿磨法提取的油的数量。还可以改变油的特性,以改善它在生产和在烹饪油、起酥、润滑剂或其他油类来源产品的应用中的性能,或改善它用于食品相关应用时的健康品质。还可以合成新的脂肪酸,其在提取后可作为化学合成的起始材料。可以通过改变油中存在的脂肪酸的类型、水平或脂类排列,实现油特性的改变。反过来可以通过添加这样的基因,或通过增加天然脂肪酸的水平同时可能降低前体的水平来实现,该基因编码催化新型脂肪酸合成和具有该新型脂肪酸的脂类合成的酶。可选的,可以导入这样的DNA序列,该序列减慢或阻断脂肪酸生物合成中的步骤,导致前体脂肪酸中间体的增加。可添加的基因包括去饱和酶、环氧酶、水合酶、脱水酶和其他催化涉及脂肪酸中间体的反应的酶。可以阻断的催化步骤的代表性例子包括硬脂酸去饱和为油酸,和油酸去饱和为亚麻酸,分别导致硬脂酸和油酸的积累。还可以通过导入基因获得新植物,实现其他主要谷类湿磨产品、麸质和麸质饲料的改善。代表性的可能性包括但不限于上文所述用于改善食品和饲料价值的。此外,还可以考虑,使用植物产生或制备在该植物中原先根本不产生或不以相同水平产生的有用生物学化合物。可以利用转化方法导入并表达基因来制备产生这些化合物的新型植物。可能性包括但不限于目前由任何生物产生的任何生物学化合物,例如蛋白质、核酸、初级和中间代谢物、碳水化合物聚合物等。化合物可以由植物产生,在收获和/或加工后进行提取,并用于任何目前公认的用途,例如作为药品、香料、工业用酶等。用于示例通过在转基因植物中导入基因可能编码的籽粒性状或特性的范围的其他可能性包括出于运输目的具有较低的破损敏感性的籽粒,或通过导入增强Y-玉米醇溶蛋白合成的基因而在干磨法加工时具有较大的研磨尺寸,通过增加果皮厚度而具有改善的爆裂音、质量和扩大体积的爆米花,通过导入有效阻断涉及色素产生通路的酶表达的基因而具有用于食品用途的白色籽粒的玉米,和通过导入影响甜玉米风味的基因(例如shrunken基因(编码鹿糖合酶))而改善醇类饮料或甜玉米的质量。I. 7块茎或种子的组成或质量尤其可以有利的在种子或块茎中表达各种性状,来改善组成或质量。可以与本发明的启动子核酸序列组合并提供改善的终产物性状的有效核酸序列包括但不限于那些编码种子贮藏蛋白的、脂肪酸通路酶、生育酚生物合酶、氨基酸生物合酶和淀粉分支酶的有效核酸序列。用于修饰植物表型的不例性异源DNA的讨论可见于美国专利号6,194, 636 ;6,207,879 ;6,232,526 ;6,426,446 ;6,429,357 ;6,433,252 ;6,437,217 ;6,515,201 和6,583,338中,以及PCT公开WO 02/057471中,其均通过引用全文整合到本文中。此类性状包括但不限于-用于食品和饲料领域的代谢酶的表达,例如植酸酶和纤维素酶。尤其优选的是这样的核酸,例如编码微生物植酸酶(GenBank检索号A19451)或其功能等价物的人工cDNA。-产生精细化学品积累的基因的表达,例如生育酚、生育三烯酚(tocotrienol)或类胡萝卜素。可提及的一个实例是八氢番茄红素去饱和酶。优选的是编码黄水仙(Narcissus pseudonarcissus)八氧番爺红素去饱和酶(GenBank检索号X78815)或其功能等同物的核酸。优选的生育酚生物合酶包括tyrA、slrl736、ATPT2、dxs、dxr、GGPPS,HPPD, GMT, MTU tMT2、AANT1、slrl737,和用于尿黑酸加双氧酶的反义构建体(Kridl等人,Seed Sci. Res. , I :209 :219(1991) ;Keegstra, Cell, 56 (2) :247-53(1989) ;Na wrath等人,Proc. Natl. Acad. Sci. USA, 91 :12760-12764(1994) ;Xia 等人,J. Gen. Microbiol.,138 :1309-1316(1992) ;Lois 等人,Proc. Natl. Acad. Sci. USA, 95 (5) :2105-2110(1998);Takahashi 等人,Proc. Natl. Acad. Sci. USA, 95 (17) :9879-9884(1998) ;Norris 等人,Plant Physiol. ,117 1317-1323(1998) ;Bartley and Scolnik, Plant Physiol. ,104:1469-1470(1994) ;Smith 等人,Plant J.,11 :83-92 (1997) ;W0 00/32757 ;W0 00/10380 ;Saint Guily 等人,Plant Physiol. , 100(2) :1069-1071(1992) ;Sato 等人,J. DNA Res.,7 (I) :31-63 (2000)),其均通过引用整合到本文中。-淀粉产生(美国专利号5,750,876和6,476,295)、高蛋白质产生(美国专利号6,380,466)、果实成熟(美国专利号5,512,466)、增强的动物和人的营养(美国专利号5,985,605和6,171,640)、生物聚合物(美国专利号5,958,745和美国专利
发明者H-S·宋, J·A·布朗, K·弗朗西斯, 扶惠华 申请人:巴斯夫植物科学有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1