增强表达的内含子序列的制作方法

文档序号:414201阅读:676来源:国知局
专利名称:增强表达的内含子序列的制作方法
技术领域
本发明涉及用于鉴定并使用具有增强基因表达特性的内含子的方法。根据本发明教导能够鉴定引起内含子介导性基因表达增强(ME)的内含子。本发明还涉及包含与启动子序列和核酸序列有效连接的所述IME内含子的重组表达构建体和重组表达载体。本发明还涉及用这些重组表达构建体或载体所转化的转基因植物或转基因植物细胞,涉及从其衍生的培养物、部分或繁殖材料,并涉及它们用于制备食品、动物饲料、种子、药物或精细化学品的用途,涉及改善植物生物量、产量或提供需要的表型。发明背景 植物生物技术的目标是产生具备有利的新特性如抗虫性和抗病性、环境胁迫(例如干旱)抗性、改善的品质(例如高产量)或用于产生某些化学品或药物的植物。适宜的基因表达速率在得到所需要的表型中发挥重要作用。基因表达速率主要受到特定基因的启动子、位于5'非转录区和5'非翻译区内的额外DNA序列及终止子序列的调节。启动子是位于基因5'末端的部分DNA序列,其含有RNA聚合酶启动转录以至于蛋白质合成随后可以继续进行的信号。位于5'非转录区内的调节性DNA序列调节应答特定生物性刺激(例如病原体感染)或非生物刺激(例如盐胁迫、热胁迫、干旱胁迫)的基因表达。此外,已经鉴定了以不依赖位置和方向的方式提高位于附近基因的表达水平的其它所谓“增强子”序列。除了位于基因非转录区内的元件(例如启动子、增强子)以外,已报道了类型广泛的生物(例如线虫(nematode)、昆虫、哺乳动物和植物)中的一些内含子具有增强基因表达的特性。在植物中,相对于缺少内含子的构建体而言,在基因构建体内包含一些内含子导致增加mRNA和蛋白质累积。这种效应已被称作基因表达的“内含子介导性增强”(ME)(Mascarenhas 等(1990)Plant Mol. Biol. 15 :913_920)。已知在植物中刺激表达的内含子已经在玉米基因(例如 tubAl、Adhl、Shi、Ubil [Jeon 等(2000) Plant Physiol. 123 1005-1014;Callis等(1987)Genes Dev. I 1183-1200;Vasil ^ (1989)Plant Physiol 911575-1579 ;Christiansen 等(1992)Plant Mol. Biol. 18 :675_689])和在稻基因内(例如salT、tpi [McElroy 等(1990)Plant Cell 2 :163-171 ;Xu 等(1994)Plant Physiol 106 459-467])中得到鉴定。类似地,已经发现来自双子叶植物基因的内含子,如来自碧冬茄(petunia)(例如 rbcS)、马铃薯(例如 st-lsl)和来自拟南芥菜(Arabidopsis thaliana)(例如ubq3和patl)的那些内含子提高基因表达速率(Dean等(1989)Plant Celll 201-208 ;Leon 等(1991)Plant Phyisiol. 95 :968_972 ;Norris 等(1993)Plant Mol Biol
21:895-906 ;Rose 和 Last (1997)Plant J 11:455-464)。已经证实在内含子剪接位点内的缺失或突变降低基因表达,表明剪接作用可能是頂E所需要的(Mascarenhas等(1990)Plant Mol Biol 15 :913_920 ;Clancy 和 Hannah (2002) Plant Physiol 130:918-929)。然而,已经通过在来自拟南芥菜的patl基因剪接位点内点突变证实对于双子叶植物中的某些頂E,并不需要剪接作用本身(Rose 和 Beliakoff (2000)Plant Physiol 122:535-542)。通过内含子增强基因的表达不是普遍现象,因为向重组表达盒插入一些内含子未能增强表达(例如来自双子叶植物基因的内含子(来自豌豆的rbcS基因、来自菜豆(bean)的菜豆蛋白基因和来自马铃薯(Solanumtuberosum)的stls_l基因)和来自玉米基因的内含子(adhl基因第九内含子、hsp81基因第一内含子))(Chee等(1986)Gene41 :47_57 ;Kuhlemeier 等(1988)Mol Gen Genet 212 :405_411 ;Mascarenhas 等(1990)Plant MolBioll5 :913_920 ;Sinibaldi和Mettler (1992)在WE Cohn,K Moldave编辑的《Progress inNucleic Acid Research and Molecular Biology》第 42 卷,Academic Press, New York,第 229-257 页;Vancanneyt 等 1990 Mol GenGent 220:245-250)。因此,并非可以采用每一内含子以便在转基因植物中操纵外源基因或内源基因的基因表达水平。内含子序列内必须存在何种特征性或特异性序列特点以增强给定基因表达在现有技术内是未知的,并且从现有技术不可能预测给定的植物内含子在异源使用时是否将引起IME。将外来基因导入新的植物宿主并不总是导致引进基因高表达。此外,若处理复杂 性状,有时候需要以时间差异表达方式或空间差异表达方式调节数个基因。内含子原则上可提供如此调节。然而,相同内含子在一种植物中的多重使用已经显示出表现不利之处。在这些情况下,需要拥有用于构建适宜的重组DNA元件的基础控制元件集合。然而,可获得的具有增强表达特性的内含子集合是有限的并且需要替代物。因此,对包括启动子、调节序列(例如诱导元件、增强子)或内含子序列在内的影响基因表达速率的基本控制元件的需要仍持续增长。本发明的目的因此是提供用于鉴定具有增强表达特性的内含子的高度可重复和可靠的方法。该目标通过本发明中提供的方法得到实现。发明简述本发明的第一主题物因而涉及用于鉴定具有在植物中增强表达特性的内含子的方法,包括从植物基因组中选择内含子,其中所述的内含子具有至少如下特征I)内含子长度短于1,000碱基对,并且II)存在包含二核苷酸序列5' -GT-3' (SEQ ID NO :78)的5'剪接位点,并且III)存在包含三核苷酸序列5' -CAG-3' (SEQ ID NO :79)的3'剪接位点,并且IV)在3'剪接位点上游存在类似于共有序列5' -CURAY-3' (SEQ IDNO :75)的分支点,并且V)从5'剪接位点向下游100个核苷酸范围至少40%的腺嘌呤加胸腺嘧啶含量,并且VI)从3'剪接位点向上游100个核苷酸范围至少50%的腺嘌呤加胸腺嘧啶含量,并且VII)整个内含子范围至少50%的腺嘌呤加胸腺嘧啶含量和至少30%的胸腺嘧啶含量。在另一实施方案中,本发明涉及用于在植物内含子群体中富集具有在植物中增强表达特性的内含子数目至所述群体的至少50%的方法,该方法包括从所述群体内选择内含子,其中该内含子具有至少如下特征
I)内含子长度短于1,000碱基对,并且II)存在包含二核苷酸序列5' -GT-3' (SEQ ID NO :78)的5'剪接位点,并且III)存在包含三核苷酸序列5' -CAG-3' (SEQ ID NO :79)的3'剪接位点,并且IV)在3'剪接位点上游存在类似于共有序列5' -CURAY-3' (SEQ IDNO :75)的分支点,并且V)从5'剪接位点向下游100个核苷酸范围至少40%的腺嘌呤加胸腺嘧啶含量,并且VI)从3'剪接位点向上游100个核苷酸范围至少50%的腺嘌呤加胸腺嘧啶含量,并且VII)整个内含子范围至少50%的腺嘌呤加胸腺嘧啶含量和至少30%的胸腺嘧啶 含量。优选地,选择用于富集具有在植物中增强基因表达特性的内含子的植物内含子群体包含在基因组DNA序列数据库或植物基因组DNA文库中代表植物基因组的基本上全部的内含子。在优选的实施方案中,在植物中具有增强基因表达的特性的内含子(“IME内含子”)通过本发明的用于鉴定IME内含子的方法或本发明的用于在植物内含子群体中富集ME内含子的数目的方法进行选择。优选地,所述内含子选自位于编码蛋白质的两个外显子之间的内含子或位于相应基因的5'非翻译区内部的内含子。在特别优选的实施方案中,IME内含子通过本发明的方法之一从基因的组或群中鉴定或富集,其中所述基因代表在使用植物细胞、植物组织或完整植物所开展的基因表达分析实验中具有最高表达速率的基因的10%部分。本发明还涉及方法,在该方法中用于鉴定或富集ME内含子的基因序列信息存在于DNA序列数据库内,并且鉴定或富集所述内含子的选择步骤使用自动化方法、优选地通过使用计算机装置和算法开展,其中所述算法定义了为完成鉴定或富集所述内含子的选择步骤所需要的指令。此外,本发明涉及定义指令的计算机算法,其中所述指令是完成从植物基因组或这样的内含子群体中鉴定或富集頂E内含子的选择步骤所需要的,其中所述的内含子群体选自位于编码蛋白质的两个外显子之间的内含子,和/或位于相应基因的5'非翻译区内部的内含子和/或位于基因的DNA序列内的内含子,其中所述的基因代表在使用植物细胞、植物组织或完整植物所开展的基因表达分析实验中具有最高表达速率的基因的10%部分。本发明还涉及包含如上所述算法的计算机装置或数据存储装置。在优选的实施方案中,本发明涉及用于分离、提供或产生ME内含子的方法,包括步骤如上所述开展ME内含子的鉴定或富集并提供已鉴定或已富集的所述ME内含子的序列信息,并提供已鉴定或已富集的所述頂E内含子的物理核苷酸序列及评估分离的内含子在体内(in vivo)表达实验或体外(in vitro)表达实验中增强基因表达的特性,以及从在体内表达实验或体外表达实验中已测试的内含子的群体中分离ME内含子。优选地,IME内含子增强基因表达特性的评估在植物细胞内完成并且其中ME内含子增强给定核酸的表达至少两倍。本发明的另一主题物涉及重组DNA表达构建体,其包含在植物细胞中有功能的至少一个启动子序列、至少一个核酸序列和选自SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21和22所描述序列及其功能性等效物中的至少一个内含子,其中所述启动子序列和至少一个所述内含子序列功能性地连接于所述核酸序列,并且其中所述内含子对所述核酸序列或对所述启动子序列是异源的。此外,本发明涉及重组表达构建体,其包含在植物细胞中有功能的至少一个启动子序列、至少一个核酸序列和由序列 SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21和22中任意一个所描述内含子的至少一个功能性等效物,其中所述的功能性等效物包含内含子的功能性元件并且具有如下特征a)该序列具有由 SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、
21或22中任意一个所述的内含子序列的至少50个连续碱基对,或b)与由 SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21 或 22
中任意一个所述的序列的跨越至少95个连续核酸碱基对的序列具有至少80%同一性,或c)在高度严格条件下与由 SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、
18、19、20、21或22中任意一个所描述核酸分子中至少50个连续碱基对的核酸片段杂交,其中所述的启动子序列和至少一个所述的内含子序列功能性地连接于所述核酸序列,并且其中所述的内含子对所述的核酸序列或对所述的启动子序列是异源的。在另一实施方案中,本发明的重组DNA表达构建体还含有与启动子功能性连接的一种和多种额外的调节序列。这些调节序列可以选自热休克应答元件、厌氧应答元件、病原体应答元件、干旱应答元件、低温应答元件、ABA应答元件、5'非翻译基因区、3'翻译基因区、转录终止子、多腺苷酸化信号和增强子。本发明重组DNA表达构建体的核酸序列可以引起由所述的核酸序列编码的蛋白质和/或有义RNA、反义RNA或双链RNA的表达。在另一实施方案中,编码本发明转基因表达构建体的核苷酸序列是双链的。在又一个实施方案中、编码本发明转基因表达构建体的核苷酸序列是单链的。仍在本发明的另一个替代性实施方案中,重组表达构建体包含编码选择标记蛋白质、筛选标记蛋白质、合成活性蛋白质、分解活性蛋白质、抗生物胁迫蛋白质或抗非生物胁迫蛋白质、雄性不育蛋白质或影响植物农学特征的蛋白质的核酸序列。本发明还涉及含有本发明转基因表达构建体的载体。此外,本发明涉及包含表达载体的转基因细胞或转基因非人生物,如细菌、真菌、酵母或植物,其中所述的表达载体含有本发明的转基因表达构建体。在优选的实施方案中,用本发明的表达构建体转化的转基因细胞或转基因非人生物是单子叶植物或衍生自该植物。在又一个更优选的实施方案中,单子叶植物选自大麦属(Hordeum)、燕麦属(Avena)、黑麦属(Secale)、小麦属(Triticum)、高粱属(Sorghum)、玉蜀黍属(Zea)、甘鹿属(Saccharumu)和稻属(Oryza)。本发明的其它实施方案涉及细胞培养物、部分或繁殖材料,其衍生自用本发明载体转化的或含有本发明重组表达构建体的非人生物,如细菌、真菌、酵母和/或植物,优选地是单子叶植物,最优选地是大麦属、燕麦属、黑麦属、小麦属、高粱属、玉蜀黍属、甘蔗属和稻属的植物。本发明还涉及用于提供增强植物或植物细胞中核酸序列表达的表达盒的方法,包括步骤:将选自 SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21 和22 的至少一个序列与所述核酸序列功能性地连接。
本发明还涉及用于增强植物或植物细胞中核酸序列表达的方法,包括步骤将选自 SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21 和 22 的至少一个序
列与所述核酸序列功能性地连接。本发明另外的实施方案涉及方法a)用于提供增强植物或植物细胞中核酸序列表达的表达盒,或b)用于增强植物或植物细胞中核酸序列表达,所述的方法包括将选自SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、
19、20、21和22的至少一个序列与所述核酸序列功能性地连接,其中在植物中有功能的启动子序列还与所述核酸序列连接。优选地、选自SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21
和22的至少一个序列经同源重组插入植物基因组内而与核酸序列连接。优选地,所述的同源重组包括至少如下步骤a)在体内或在体外提供包含在两侧具有如此序列(“重组底物”)的内含子的DNA构建体,其中所述的序列允许在所述表达盒的启动子和核酸之间与预先存在的表达盒发生同源重组,和b)用包含步骤a)内所述表达盒转化受体植物细胞并再生转基因植物,其中所述的内含子已插入所述植物的基因组。优选地,整合至所述植物基因组内的位点通过步骤a)中的重组底物的DNA序列确定,其中与所述的基因组靶DNA序列共有足够同源性(如本文中所定义的)的所述序列允许经同源重组在所述的基因组靶DNA基因座处发生序列特异性整合。在本发明优选的实施方案中,所述的受体植物或受体植物细胞是单子叶植物或单子叶植物细胞,更优选地是选自的大麦属、燕麦属、黑麦属、小麦属、高粱属、玉蜀黍属、甘蔗属和稻属的植物,最优选地是玉米植物。优选地,与本发明的内含子之一功能性地连接的核酸序列编码选择标记蛋白质、筛选标记蛋白质、合成活性蛋白质、分解活性蛋白质、抗生物胁迫蛋白质或抗非生物胁迫蛋白质、雄性不育蛋白质或影响植物农学特征的蛋白质和/或有义RNA、反义RNA或双链RNA。此外,本发明涉及本发明的转基因生物或衍生自该转基因生物的细胞培养物、部分或转基因繁殖材料的用途,用于产生食品、动物饲料、种子、药物或精细化学品。本发明还涉及重组DNA表达构建体,包含a)在植物或植物细胞中有功能的至少一个启动子序列,和b)选自在植物或植物细胞内具有增强表达特性的内含子中的至少一个内含子,其具有至少如下特征I)内含子长度短于1,000碱基对,并且II)存在包含二核苷酸序列5' -GT-3' (SEQ ID NO :78)的5'剪接位点,并且III)存在包含三核苷酸序列5' -CAG-3' (SEQ ID NO :79)的3'剪接位点,并且IV)在3'剪接位点的上游存在类似于共有序列5' -CURAY-3' (SEQID NO 75)的分支点,并且V)从5'剪接位点向下游100个核苷酸范围至少40%的腺嘌呤加胸腺嘧啶含量,并且
VI)从3'剪接位点向上游100个核苷酸范围至少50%的腺嘌呤加胸腺嘧啶含量,并且VII)整个内含子范围至少55%的腺嘌呤加胸腺嘧啶的含量和至少30%的胸腺嘧啶含量,和c)至少一个核酸序列,其中所述的启动子序列和至少一个所述的内含子序列功能性地连接于所述核酸序列,并且其中所述的内含子对所述核酸序列和/或对所述的启动子序列是异源的。附图
简述图 I :pBPSMM291(SEQ ID NO 109)的图谱 该载体包含玉米遍在蛋白启动子,其后是BPSI. I,随后是⑶SintORF(包含马铃薯转化酶[PIV]2内含子以防止细菌性表达),再后是胭脂氨酸合成酶(NOS)终止子。该载体含有attLl和attL2位点以使该载体兼容于来自InvitrogenTM的Gateway .克隆技术的修饰。该载体以基于PUC的表达载体pBPSMM267为基础。XmaI-RsrII消化的BPSI. IPCR产物与XmaI-RsrII消化的pBPSMM267连接以产生pBPSMM291。相应地,产生载体pBPSMM293、PBPSMM294 和 pBPSMM295 (见表 6 和 I. 6. I)。图 2 pBPSMM305 (SEQ ID NO 110)的图谱表达载体PBPSMM305包含无内含子(所述内含子能推动⑶Sint ORF表达(包含马铃薯转化酶[PIV]2内含子以防止细菌性表达))的玉米乳酸脱氢酶(LDH)启动子,随后是NOS终止子。已经使用该载体来产生基于pUC的表达载体pBPSJB041、pBPSJB042、PBPSJB043、pBPSJB044、pBPSJB045、pBPSJB046 和 pBPSJB050 (见实施例 2. 3)。图3 pBPSMM350 (SEQ ID NO :111)的图谱载体pBPSMM350包含玉米遍在蛋白启动子,其后是BPSL 1,随后是⑶Sint ORF(包含马铃薯转化酶[PIV]2内含子以防止细菌性表达),再后是胭脂氨酸合成酶(NOS)终止子。表达盒已经使用来自Invitrogen 的(ii'丨teway⑩克隆技术从载体中进行转移。相应地产生载体 pBPSMM353、pBPSMM312 和 pBPSMM310 (见表 6 和实施例 I. 6. 2)。图 4 pBPSLM139(SEQ ID NO 112)的图谱载体pBPSLM139包含选择标记表达盒。为产生载体pBPSLI017至pBPSLI023,PmeI/PacI 片段自载体 pBPSJB-042、-043、-044、-045,046 和 050 中分离并克隆至 PmeI-PacI 消化的PBPSLM130 (见实施例2. 3和2. 4)。图5a_f :用于从NCBI基因库文件中检索序列信息的计算机算法。图6 :在5叶阶段㈧、开花阶段⑶和结种子阶段(C)测试转基因植物的GUS表达,其中所述转基因植物含有带BPSI. I内含子的启动子构建体(除PBPSLM229以外的全部)或带BPSI. 5内含子的启动子构建体(仅PBPSLM229)。所示是从至少15个独立事件中得到的代表性染色模式的实例。全部样品在GUS溶液中染色16个小时。构建体中的启动子是稻叶绿体蛋白12(0s.CP12 ;pBPSMM355)、玉米羟脯氨酸丰富糖蛋白(Zm. HRGP ;PBPSMM370)、稻P-咖啡酰辅酶A 3-0-甲基转移酶(Os. CCoAMTI ;pBPSMM358)、玉米球蛋白-I启动子W64A(Zm.Glbl ;EXS1025)、推定的稻H+转运ATP合酶启动子(Os. V-ATP酶;PBPSMM369)、Zm. LDH(pBPSMM357)、稻 C-8,7 固醇异构酶启动子(Os. C8, 7 SI ;pBPSMM366)、稻晚期胚胎发生丰富蛋白启动子(Os. Lea ;pBPSMM371)和玉米乳酸脱氢酶启动子(ZM. LDH ;PBPSLM229)。一般定义应当理解本发明不受如本文中所述的具体方法学、方案、细胞系、植物种和植物属、构建体和试剂限制。必须指出如本文中所用和在后续的权利要求书内,单数形式“a”和“the”包括复数指称,除非上下文清楚地说明。因此,对一个载体的指称是对一个和多个载体的称谓并且包括本领域技术人员已知的其等效物。约术语“约”在本文中用于指大致、大体、左右和在范围内。当术语“约”与数字范围一起使用时,它通过使界限延伸高于和低于所述数值而修饰该范围。通常,术语“约”在本文中用于修饰数值高于和低于所述数值达20%的变异、优选地是10%以上和以下(更高或更低)。如本文中所用,词“或”意指特定列中的任一成员。农杆菌(Agrobacterium):指引起冠瘿的土生性革兰氏阴性杆状植物病原性细菌。术语“农杆菌”包括,但不限于根癌农杆菌菌株(Agrobacteriumtumefaciens)(其通 常在感染的植物中引起冠瘿)和发根农杆菌菌株(Agrobacterium rhizogenes)(其在感染的植物中引起毛发状根病)。用农杆菌感染植物细胞通常引起感染的细胞产生冠瘿碱(例如胭脂氨酸、农杆碱、章鱼碱等)。因此,将引起胭脂氨酸产生的农杆菌菌株(例如菌株LBA4301、C58、A208)称作“胭脂氨酸型”农杆菌;将引起章鱼碱产生的农杆菌菌株(例如菌株LBA4404、Ach5、B6)称作“章鱼碱型”农杆菌,并且将引起农杆碱产生的农杆菌菌株(例如菌株EHA105、EHA101、A281)称作“农杆碱型”农杆菌。算法如本文中所用指计算机处理信息的方式,因为计算机程序实质上是告诉计算机(以何种具体顺序)实施哪些具体步骤以便执行指定任务(如鉴定一套基因的编码区)的算法。因此,可以将算法视作可以由计算机系统实施的操作的任何顺序。通常,当算法与处理信息结合时,数据从输入来源或输入装置中读出,书写至输出器或输出装置和/或为其它用途储存。对于任何此类计算方法,算法必须严格经过定义以如此方式加以指定以致于它可以适应于可能出现的全部可能环境内。因此,任何条件性步骤必须系统地逐案处理;用于每一案例的标准必须是清晰的(和可计算的)。因为算法是精确步骤的精确列表,计算的顺序几乎总是对算法的功能至关重要。通常假定指令得到清晰地列出并且描述为“从顶部”开始并“下行至底部”,该概念通常更正式地由流程控制描述。在计算机应用中,脚本是自动操作一类任务的计算机程序,否则用户可能要在键盘上交互地完成所述的任务。广泛用来书写此类脚本的语言称作脚本化语言。此类众多语言非常复杂并已经用于书写复杂的程序,这些程序常常仍称作脚本,即便它们已经远远不止是使用户任务的简单顺序自动化。人们出于多种目的和不同类型的任务及编程风格创造了计算机语言。脚本编程语言(通常叫脚本化语言或脚本语言)是设计用于使计算机操作教本化的计算机编程语言。早期的脚本语言通常叫做批处理语言或工作控制语言。脚本语言的实例是ACS、ActionScript、ActiveServerPages(ASP)、AppleScript、Awk> BeanShell (用于 Java 的脚本)、bash、Brain、CobolScript、csh、ColdFusion、Dylan、Escapade (服务器端脚本)、Euphoria、Groovy、Guile、Haskell、Hype;rTalk、ICI、IRC 脚本、JavaScript、mIRC 脚本、MS-DOS batch、Nwscript、Perl、PHP> Pike、ScriptBasic。反义理解为具有与靶序列例如信使RNA(mRNA)互补的序列的核酸。如本文中所用。术语“互补的”或“互补性”用来指因碱基配对原则而相关的核苷酸序列。例如,序列5, -AGT-3,与序列5, -ACT-3'是互补的。互补可以是“部分的”或“全部的”。“部分”互补是根据碱基配对原则一个或多个核酸碱基不匹配的情况。核酸间“全部”或“完全”互补是每一和所有核酸碱基在碱基配对原则下与另一碱基配对。核酸链之间互补的程度对核酸链之间杂交的效率和强度有显著的影响。有义理解为意指具有与靶序列(例如与剪接体的蛋白质因子结合的序列)同源或完全相同的序列的核酸。轰击、“轰击“”和“生物射弹轰击”:指这样的方法,其使粒子(微抛射体)向生物学靶样品(例如细胞、组织等)加速运动以造成生物学靶样品中的细胞的细胞膜损伤和/或使粒子穿入生物学靶样品。用于生物射弹轰击的方法在本领域是已知的(例如US5,584,807,其内容在本文引用作为参考),并且是可商业获得的(例如氦气驱动的微抛射体加速仪(PDS-1000/He) (BioRad))。细胞指单个细胞。术语“多个细胞”指细胞群。细胞群可以是包含一种细胞的纯 细胞群。类似地,细胞群可以包含多于一种细胞类型。在本发明中,对细胞群可以包含的细胞类型的数目不加以限制。细胞可以是同步化的或不是同步化的,细胞优选地是同步化的。染色体DNA或染色体DNA序列应当理解为与细胞周期状态无关的细胞核的基因组DNA。染色体DNA因此可以是组织于染色体或染色单体内的,它们可以是压缩的或解螺旋状的。对染色体DNA的插入可以通过本领域已知的多种方法进行证实并分析,例如聚合酶链式反应(PCR)分析、DNA印迹分析、荧光原位(in situ)杂交(FISH)和原位PCR。编码区或编码序列(CDS):当用来指基因时,是编码存在于作为mRNA分子翻译结果的新生多肽内氨基酸的核酸序列。在真核生物内,编码区的5'侧为编码起始甲硫氨酸的核苷酸三联体“ATG”并且3'侧为作为终止密码子(即TAA,TAG,TGA)的三个三联体之一。核酸序列的互补序列如本文中所用指其核酸与该核酸序列的核酸完全互补的核苷酸序列。十分位数当与统计数据一起使用时,是将分类的数据划分成10个相等部分的10个值中的任意值,以致于每个部分代表样品或群体的1/10。因此第一位十分位数分出数据中最低的10%,第九位十分位数分出数据中最低的90%或数据中最高的10%。四分位数是将分类的数据划分成4个相等部分的3个值中的任意值,以致于每个部分代表样品或群体的1/4 (第三个四分位数=较高的四分位数=分出数据中最高的25 %或最低的75 % =第75个百分位数)。百分位数是将分类的数据划分成100个相等部分的99个值中的任意值,以致于每个部分代表样品或群体的1/100。因此,第一位百分位数数分出数据中最低的1%,第98位百分位数分出数据中最低的98%并且第25位百分位数分出数据中最低的25%。DNA数据库在生物信息学领域中,DNA序列数据库是储存在计算机内的DNA序列的庞大集合。数据库可以包括仅来自一种生物的序列,或它可以包括来自其DNA序列已经测序的全部生物的序列。富集当与选择本发明内含子一起使用时,指在内含子群体(例如代表存在于基因组DNA序列数据库内的植物基因组中全部内含子的内含子群体)中鉴定具有增强基因表达特性的内含子的成功率的增加。富集通过使用本发明的方法或本发明的选择标准减少候选内含子的数目得以实现。作为实例,若通过使用本文中所述的用于测量基因表达增强的方法,从给定内含子群体中鉴定具有增强表达特性的内含子的成功率是10个已分析内含子中的I个内含子,富集应当被理解为通过使用本发明的方法,增加已鉴定的具有增强基因表达特性的内含子的数目至10个已分析内含子中的至少5个内含子。因此,通过使用作为预选择方法或过滤方法的本发明方法,将需要进行分析以鉴定一个本发明内含子的内含子数目减少至两个内含子。增强表达特性的评估评估内含子的增强表达特性可以使用本领域已知的方法完成。例如,待测定其基因表达增强效应的候选内含子序列可以插入编码报告基因(例如可见的标记蛋白、选择标记蛋白质)的核酸序列的5' UTR,处于在植物或植物细胞内有活性的适宜启动子控制下以产生报告载体。此报告载体和缺少候选内含子的完全相同的对照报告载体可以使用本文中所述的方法导入植物组织,并且可以测量并比较依赖于候选内含子存在的报告基因的表达水平(例如检测所编码mRNA或所编码蛋白质的存在或由报告基因编码的蛋白质的活性),具有增强表达特性的内含子将产生比参考值高的表达速率,其中所述参考值在不改变其它条件下用缺少候选内含子的完全相同的对照报告载体得到。报告基因可以表达可见的标记。表达可见的标记的报告基因系统包括葡糖醛酸糖苷酶及其底物(X-Gluc)、萤光素酶及其底物(萤光素)和半乳糖苷酶及其底物·(X-Gal),它们不但广泛地用来鉴定转化体,而且还用来对源于具体载体系统的瞬时或稳定蛋白质的表达量定量(Rhodes (1995)Methods Mol Biol 55:121-131)。极特别地优选用β_葡糖醒酸糖苷酶(GUS)的测定法(Jefferson等,GUS fusions beta-glucuronidase asa sensitive andversatile gene fusion marker in higher plants. EMBO J. (1987)Dec20 ;6 (13) =3901-3907)。β -葡糖醛酸糖苷酶(GUS)的表达通过组织与5-溴-4-氯-3-吲哚基-β -D-葡糖醛酸温育时的蓝色进行检测。选择标记基因可以提供抗生素耐抗性或除草剂抗性。报告基因的实例包括但不限于提供甲氨喋呤抗性的dhfr基因(Wigler (1980)Proc. Natl. Acad. Sci 77 =3567-3570);提供氨基糖甙类新霉素和G-418抗性的npt (Colbere-Garapin (1981) J. Mol. Biol. 150 :1_14)和分别提供氯磺隆和草铵膦乙酰基转移酶的als或pat。期望值当在DNA序列比对或DNA序列数据库搜索环境下使用时,指可能在整个数据库的搜索中期望特定匹配或更佳的匹配纯粹偶然发生的次数。因此,期望值越低,输入序列与匹配之间的相似性越高。期望值(E)是这样的参数,它描述人们在搜索特定大小的数据库时可以仅因偶然而“期望”看到的命中数。期望值随着对两种序列间匹配所赋予的相似性记分(S)呈指数性下降。相似性记分越高,E值越低。实际上,E值描述了对于序列间匹配存在的随机背景噪声。期望值作为便利的手段用于产生报道结果的显著性阈值。对命中所赋予的E值I可以解释为意指在目前大小的数据库内,你可能期望看到纯粹偶然地具有相似性记分的I个匹配。E值受a)序列长度(询问的序列越长,询问在数据库内因偶然而找到一个序列的概率越低),b)数据库大小(数据库越大,询问因偶尔而找到匹配的概率越高),c)记分矩阵(记分矩阵的严格性越小,询问在数据库内因偶尔而找到一个序列的概率越高)影响。表达序列标签(EST):指从单次末端DNA测序中所得到的cDNA序列。EST序列指衍生自转录并因而来自已转录基因的序列。可表达的核酸序列如本发明上下文中所用是能够转录成RNA(例如mRNA、反义RNA、形成双链的RNA等)或翻译成特定蛋白质的任何核酸序列。
表达指基因产物的生物合成,例如在结构基因的例子中,表达包括结构基因转录成mRNA和(任选地)随后mRNA翻译成一种或多种多肽。功能性等效物就本发明内含子而言应当理解为SEQ ID NO :1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21或22中任意一个所描述的该内含子的天然突变或人工突变。突变可以是不减少所述内含子的增强表达特性的一个或多个核苷酸的插入、缺失或置换。这些功能性等效物与如SEQ ID NO :1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21或22中任意一个所描述内含子序列具有至少80%、优选地是85%、更优选地是90 %、最优选地是多于95 %、非常特别优选地至少98 %的同一性,但小于100 %的同一性,其中所述的同一性跨越序列的至少95个连续碱基对、优选地至少150个连续碱基对、更优选地至少200个连续碱基对进行测定,其中所述的序列由SEQID N0:l、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21 或 22 中任意一个描述并具有与如 SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21 或 22 中任意一个所示内含子序列基本上相同的ME效应特征。
功能性等效物特别是衍生自其它植物的所述内含子的同系物。当用来指内含子时,同系物指自编码如下蛋白质的基因组核酸序列中分离的具有增强表达特性的内含子(i)所述的蛋白质在氨基酸水平与从中已经分离具有SEQ ID N0:l、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21或22的本发明内含子的基因编码的蛋白质共有多于60 %,优选地是65 %、70 %、75 %、80 %,更优选地是85 %、90 %、95 %或最优选地是多于95 %的序列同一性,或(ii)如从中已经分离具有 SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、
18、19、20、21或22的本发明内含子的基因编码的蛋白质那样催化相同的酶反应,或(iii)显示出与从中已经分离本发明内含子SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21或22的基因编码的蛋白质可比的时间表达谱或空间表达
-i'TfeP曰。当与本发明内含子相比时,如上所述的“功能性等效物”可以具有降低的或增加的基因表达增强效应。在此上下文中,功能性等效内含子的基因表达增强效应比用SEQ IDNO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21 或 22 中所示的任意内含子在不改变其它条件下得到的参考值高至少50%、优选地是至少100%、特别优选地至少300%,非常特别优选地至少500%。功能性连接的或有效连接的应当理解为意指例如调节性元件(例如启动子)与待表达的核酸序列和根据需要的其它调节性元件(如例如终止子)以如此方式顺序排列,以致于每一种调节性元件均可以实现其预期的功能以允许、修饰、促进或影响所述核酸序列的表达。表达可以依赖于与有义RNA或反义RNA有关的核酸序列的排列而发生。为此目的,实际上不需要化学意义上的直接连接。遗传控制序列例如增强子序列还可以从距离更远处,或甚至从其它DNA分子上对靶序列发挥其功能。术语“功能性连接的”、“有效连接的”、“处于有效的组合中”和“以有效的顺序”如本文中所用涉及具有增强基因表达的特性本发明内含子时,指至少一个所述内含子与核酸序列以如此方式的连接以致于实现表达增强效应,并且若已包括功能性剪接位点,则内含子可以通过负责剪接过程的细胞的因子被剪接出来。在本发明的优选实施方案中,将内含子导入核酸序列的5'非编码区。在实施例内展示本发明的表达构建体,其中本发明的内含子与核酸序列功能性地连接。更优选这样的排列,即其中在内含子介导性增强表达中具有功能的内含子插入启动子与核酸序列之间,优选地插入已转录的核酸序列内,或在编码蛋白质的核酸序列的例子中,插入核酸序列的5'非翻译区。启动子序列与待重组性表达的核酸序列间的距离优选地少于200个碱基对、特别优选地少于100个碱基对、非常特别优选地少于50个碱基对。有效连接和表达盒可以通过如在例如 Maniatis T, Fritsch EF 和 Sambrook J(1989) ((Molecular Cloning A Laboratory Manual)), Cold Spring HarborLaboratory, Cold Spring Harbor(NY)、在Silhavy TJ, Berman ML 和 Enquist Lff(1984) 《Experiments with Gene Fusions》, ColdSpringHarbor Laboratory,Cold Spring Harbor(NY)、在 Ausubel FM 等(1987) 《CurrentProtocols in Molecular Biology》,Greene Publishing Assoc, andffiley Interscience以及在Gelvin等(1990)《Plant Molecular BiologyManual》中所述的常用重组技术和克隆技术生成。然而还可以在这两种序列之间安置例如充当带限制性酶特异性切割位点的接头或充当信号肽的其它序列。序列的插入还可以导致融合蛋白的表达。优选地,由启动子、内含子和待表达的核酸序列的连接组成的表达构建体可以以载体整合的形式存在并可以例如通过转化插入植物基因组。
基因指与适宜的调节序列有效连接的编码区,其中所述的调节序列能够以某种方式调节多肽表达。基因包括DNA中位于编码区(开方读码框,ORF)之前(上游)和之后(下游)的不翻译的调节区域(例如启动子、增强子、抑制子等),并且在间插序列可应用时,包括在各编码区(即外显子)之间的间插序列(即内含子)。基因还可以包括存在于RNA转录物内的位于序列5’末端和Y端的序列。这些序列称作“侧翼”序列或区域(这些侧翼序列坐落在存在于RAN转录内的不翻译序列的5'或3' )。5'侧翼区域可以含有控制或影响基因转录的调节序列,如启动子和增强子。3'侧翼区域可以含有指导转录终止、转录后切割或多腺苷酸化作用的序列。增强基因表达特性、基因表达增强效应或内含子介导性基因表达增强(IME):当涉及内含子序列时指内含子的如此能力,该能力定量地增强作为(如本文中所定义)重组/转基因DNA表达盒中部分的核酸序列(例如基因)的表达水平,在不改变其它条件下与只缺少内含子而其它完全相同的表达构建体相比,其测量以已转录RNA、mRNA、蛋白质的量或蛋白质活性为基础。增强基因表达的特性在植物中涉及这样的内含子,其在不改变其它条件下与只缺少内含子而其它完全相同的表达构建体相比,能够定量地增强植物衍生性核酸序列在植物或植物细胞中的表达水平并增强非植物衍生性核酸在植物或植物细胞中的基因表达速率。在本发明的优选实施方案中,将表达增强效应理解为在不改变其它条件下与只缺少内含子而其它完全相同的表达构建体相比,RNA的稳定状态水平、蛋白质的稳定状态水平或核酸序列或相应蛋白质的蛋白质活性(例如报告基因或蛋白质)增加至少50%、或至少 100%、或至少 200%、300%、400%或至少 500%、600%、700%、800%、900%或至少1,000%、或多于1,000%。此外,应当将表达增强效应或内含子介导性增强理解为内含子的能力,所述的能力改变作为本发明表达盒中部分的核酸序列(例如基因)的组织特异性表达谱、器官特异性表达谱或细胞特异性表达谱。改变作为本发明表达盒中部分的核酸序列的组织特异性表达谱、器官特异性表达谱或细胞特异性表达谱指这样的事实,即因存在本发明的内含子,相应基因的表达水平(mRNA或所编码的蛋白质的稳定状态水平、或蛋白质的活性)得到增加,高于所用检测方法的检测阈值。基因沉默可以通过反义RNA或双链RNA或通过共抑制(有义抑制)实现。技术人员知道其可以使用其它的cDNA或对应基因作为合适的反义构建体的初始模版。“反义”核酸优选地与靶蛋白的编码区或其部分互补。然而,“反义”核酸优选地与非编码区或其部分互补。从靶蛋白上的序列信息出发,考虑Watson和Crick碱基配对原则,反义核酸可以用技术人员熟悉的方式进行设计。反义核酸可以与靶蛋白的全部或部分核酸序列互补。类似地所包含的是如上所述序列在有义方向上的用途,如技术人员已知,该用途可以导致共抑制(有义抑制)。已经证实表达有义核酸序列可以减少或关闭相应基因表达,其类似于已对反义方法所作的描述(Goring(1991)Proc. Natl Acad. Sci. USA 88:1770-1774 ;Smith(1990)M01. Gen. Genet. 224447-481 ;Napoli(1990)Plant Cell 2 279-289 ;Van der Krol (1990)Plant Cell 2:291-299)。在这种条件下,导入的构建体可以代表待完全或仅部分地进行减弱的基因。翻译的可能性是不需要的。特别优选借助双链RNAi的基因调节方法(“双链RNA干扰”)的用途。此类方法是本领域技术人员已知的 (例如 Matzke 2000 ;Firel998 ;W0 99/32619 ;W099/53050 ;W0 00/68374 ;W0 00/44914 ;W000/44895 ;W0 00/49035 ;W0 00/63364)。在所述参考文献中描述的过程和方法公开地进行参考。如本文中所用,生物的基因组和基因组DNA是生物的完整遗传信息,其编码于DNA (或对于某些病毒则是RNA)内。这包括基因序列和非编码序列。所述的基因组DNA包含胞核DNA (也称作染色体DNA)和质体(例如叶绿体)或其它细胞器(例如线粒体)的DNA。术语“基因组或基因组DNA”优选地指胞核的染色体DNA。术语“染色体DNA”或“染色体DNA序列”应当理解为与细胞周期状态无关的细胞核的基因组DNA。染色体DNA可能因此在染色体或染色单体内得以组织,它们可能是压缩的或解螺旋的。染色体DNA的插入可以通过本领域已知的多种方法进行证实和分析,例如聚合酶链式反应(PCR)分析、DNA印迹分析、荧光原位杂交(FISH)和原位PCR。异源的相对于核酸序列指这样的核苷酸序列,该核苷酸序列与在自然界中不与该核苷酸序列连接的或在自然界中与该核苷酸序列在不同位置处连接的核酸序列连接。杂交如本文中所用包括“任何的如此过程,核酸的链通过该过程与互补链经碱基配对结合”(Coombs 1994, Dictionary of Biotechnology, Stockton Press, New YorkN.Y.)。杂交和杂交的强度(即核酸间结合的强度)受如此因素的影响,如核酸间的互补程度、所涉及条件的严格性、所形成杂交体的Tm以及核酸内的G :C比率。如本文中所用,术语“Tm”是用来指“解链温度”。解链温度是这样的温度,在此温度上双链核酸分子群体的一半解离成单链。用于计算核酸Tm的等式在本领域内众所周知。如标准参考文献所提及的那样,Tm值的简单估计可以由如下等式计算Tm = 81. 5+0. 41 (% G+C),此时核酸处于IM NaCl的水溶液内[见例如 Anderson 和 Young, Quantitative Filter Hybridization, ((NucleicAcidHybridization)) (1985)]。其它参考文献包括了考虑用于计算Tm的结构特征和序列特征的更复杂计算。本领域技术人员完全知道可以采用多种杂交条件以包含低度严格条件或高度严格条件;考虑了如此的因素,如探针长度和性质(DNA、RNA、碱基组成)和靶标的性质(DNA、RNA、碱基组成、存在于溶液内或经固定等)以及盐和其它成分的浓度(例如存在或不存在甲酰胺、硫酸葡聚糖、聚乙二醇),并且可以改变杂交溶液以产生低的杂交严格性或高的杂交严格性。本领域技术人员知道优选较高的严格性以减少或消除本发明内含子与其它核酸序列之间的非特异性结合,而优选较低的严格性来检测与本发明的核苷酸序列具有不同同源性的较大数目的核酸序列。此类条件例如由Sambrook(《MolecularCloning ;ALaboratoryManual》第二 版,Cold Spring Harbor LaboratoryPress, Cold SpringHarbor, NY(1989))或在《Current Protocols in Molecular Biology》,JohnWiley&Sons,N. Y. (1989)6. 3. 1-6. 3. 6内描述。优选的杂交条件是详细描述的公开内容。同一性当与核酸联系使用时,指互补程度。将两种核酸间的同一性理解为意指在每一例子中跨越序列全部长度的核酸序列的同一性,此同一性借助具有如下设置的参数的程序算法GAP (Wisconsin Package第10. O版,威斯康辛大学,Genetics ComputerGroup (GCG), Madison,美国)通过比较进行计算
·
空位权重12 长度权重4平均匹配2,912 平均非匹配_2,003例如,将在核酸水平与序列SEQ ID NO :1具有至少95%同一性的序列理解为意指这样的序列,当通过以上具有所设置的参数的程序算法与序列SEQ ID NO :1比较时,此序列具有至少95%的同一性。可以存在部分的同一性(即少于100%的部分同一性)或完全的同一性(即100%的完全同一性)。导入重组DNA表达构建体在植物细胞中指将通过转化导入植物基因组并且得到稳定维持的重组DNA表达构建体。术语“导入”包括方法,例如转染、转导或转化。鉴定、“鉴定”或“选择”:就植物的转化而言,应当理解为鉴定和选择在其中重组表达构建体已经稳定导入基因组的那些植物细胞的筛选方法。就具有增强基因表达特性的内含子而言,“鉴定”指从内含子群体中选择所述内含子的方法。优选地,“鉴定”指使用本发明方法的选择标准的计算机法(in silico)选择方法,更优选地是自动化的计算机法选择方法。此类计算机法鉴定方法可以例如包括如下步骤(I)以存在于DNA序列数据库内(例如经互联网可公开获得的基因组DNA数据库)的DNA序列为基础生成内含子序列数据库,(2)为了得到具有增强基因表达特性的内含子,使用本发明方法的标准筛选已生成的内含子DNA序列数据库或含有基因组DNA序列的其它数据库,其中(使用本发明方法的标准)检索或生成DNA序列的步骤、内含子特异性DNA序列数据库的生成及这些DNA序列的筛选将借助适宜的计算机算法和计算机装置开展。内含子指基因中这样的DNA部分(间插序列),该DNA部分不编码此基因所产生蛋白质的部分并且从该基因所转录的并从细胞核中输出之前的mRNA内剪接下来。内含子序列指内含子的核酸序列。因此,内含子是DNA序列中的如此区域,它们随编码序列(外显子)一起转录但在成熟的mRNA形成期间被去除。内含子可以位于实际的编码区内或在前mRNA(未剪接的mRNA)的Y或:V非翻译前导序列内。初级转录物中的内含子可以被剪除并且编码序列同时而精确地连接以形成成熟mRNA。内含子与外显子的汇合处形成剪接位点。内含子的序列以⑶开始并以AG结束。此外,在植物中,已经描述两种AU-AC内含子的实例来自拟南芥菜的RecA样蛋白基因的第14内含子和G5基因的第7内含子是AT-AC内含子。含有内含子的前mRNA除其它序列以外,还具有对精确剪接内含子必需的三个短序列。这三个短序列是5'剪接位点、3'剪接位点和分支点。mRNA的剪接是除去存在于mRNA初级转录物内的间插序列(内含子)和汇合或连接外显子序列。这也称作顺式剪接,使两个外显子在同一 RNA内连接,同时移除间插序列(内含子)。内含子的功能性元件包括由剪接体中(例如在内含子末端剪接共有序列的)特异性蛋白质成分所识别和结合的序列。功能性元件与剪接体相互作用导致内含子序列从不成熟的mRNA中去除和外显子序列再连接。内含子具有对精确剪接内含子必需(尽管不充分)的三个短序列。这三个短序列是5'剪接位点、3'剪接位点和分支点。分支点序列在植物内剪接和选择剪接位点中是重要的。分支点序列通常位于3'剪接位点上游10-60个核苷酸。植物的分支点序列具有变异,共有序列是 5' -CURAY-3' (SEQ ID NO :75)或 5' -YURAY-3' (SEQ ID NO :76)。“IME内含子”或内含子介导性增强(IME)内含子当涉及内含子序列时,指如本文中定义的具有在植物中增强基因表达特性的内含子(见“增强基因表达的特性、基因表达增强效应或内含子介导性基因表达增强)。分离或分离的当相对于内含子或基因使用时,如在“内含子序列的分离”或“基 因的分离”中指这样的核酸序列,该核酸序列在其相应来源生物的染色体核酸序列环境中鉴定并从中分离或分开。分离的核酸处于这样的形式或环境下,该形式或环境与它在自然中存在的形式或环境不同。相反,未分离的核酸是以其在自然中存在状态下找到的核酸,如DNA和RNA。例如,在宿主细胞染色体上靠近毗邻的基因找到给定的DNA序列(例如基因);内含子序列以内含子和外显子的交替顺序内嵌至基因的核酸序列内。分离的核酸序列可以以单链形式或双链形式存在。当分离的核酸序列待用于表达蛋白质时,核酸序列将至少含有有义链或编码链的至少一部分(即核酸序列可以是单链的)。或者,它可以含有有义链和反义链(即核酸序列可以是可以是双链的)。核酸指处于单链或双链的有义或反义形式的脱氧核糖核苷酸、核糖核苷酸或其聚合物或杂交体。除非另外说明,特定的核酸序列还内在地包含其经保守性修饰的变体(例如间并密码子置换)和互补序列,并且该序列得到清楚地说明。“核酸”可用于描述“基因”、“cDNA”、“DNA”、“mRNA”、“寡核苷酸”和“多核苷酸”。核酸序列如本文中所用指DNA片段(寡核苷酸、多核苷酸、基因组DNA、cDNA等)的脱氧核糖核苷酸或核糖核苷酸(核苷酸)的连续序列,只要所述的连续序列可以通过DNA测序技术得到作为一列代表核苷酸的缩写、字母、字符或字即可。器官就植物(或“植物器官”)而言意指植物的部分并可以包括(但不应当限于)例如根、果实、苗、茎、叶、花药、萼片、花瓣、花粉、种子等。其它不改变的条件意指例如通过待进行比较的表达构建体之一所启动的表达没有受额外的遗传控制序列(例如增强子序列)调节并且在相同环境内(例如相同植物物种)在相同发育阶段和相同生长条件下完成。植物通常理解为意指能够进行光合作用的任何单细胞生物或多细胞生物或它们的细胞、组织、器官、部分或繁殖材料(如种子或果实)。为本发明的目的包括植物界的高等植物和低等植物中的全部属和种。优选一年生、多年生的单子叶植物和和双子叶植物。本术语包括成熟植物、种子、苗和幼苗和它们所衍生的部分、繁殖材料(如种子或小孢子)、植物器官、组织、原生质体、愈伤组织和其它培养物例如细胞培养物,以及结成群以产生功能性单位和结构性单位的任何其它类型的植物细胞。成熟植物指处在除幼苗以外的任何所需要发育阶段内的植物。幼苗指在早期发育阶段内的年幼的不成熟植物。一年生、二年生的单子叶植物和双子叶植物是用于产生转基因植物的优选宿主生物。基因的表达更有利地是在全部观赏植物、用材树木或观赏树木、花、切花、灌木或草坪草内。可以通过举例方式提到而不限于此的植物是被子植物(angiosperm)、苔藓植物(bryophyte)例如苔纲(Hepaticae)(地钱(liverwort))和藓纲(Musci)(藓(mosse));蕨类植物(Pteridophytes)如蕨(fern)、问荆(horsetail)和石松(club mosses);裸子植物(gymnosperms)如针叶类(conifer)、苏铁类(cycad)、银杏(ginkgo)和买麻藤类(Gnetatae);藻类(algae)如绿藻纲(Chlorophyceae)、Phaeophpyceae、红藻纲(Rhodophyceae)、粘藻纲(Myxophyceae)、黄藻纲(Xanthophyceae)、娃藻纲(Bacillariophyceae)(娃藻(diatom))和裸藻纲(Euglenophyceae)。优选用作食用或饲用目的的植物如豆科(Leguminosae)如豌豆、苜猜(alfafa)和大豆(soya);禾本科(Gramineae)如稻、玉米、小麦、大麦、高粱(sorghum)、黍(millet)、黑麦(rye)、小黑麦(triticale)或燕麦(oat);伞形科(Umbelliferae),特别是胡萝卜属(Daucus)、极特别地是野胡萝卜种(Dauus carota)(胡萝卜(carrot)),和IfM (Apium)、极特别地是旱疗种(Graveolens dulce)(疗菜(celery))和众多其它种;
爺科(Solanaceae),特别是番爺属(Lycopersicon)、极特别地是番爺种(Lycopersiconesculentum)(番爺),和爺属(Solanum),极特别地是马铃薯种(Solanum tuberosum)(马铃薯)和爺种(Solanu_elongena)(爺子)以及众多其它种(如烟草(tobacco));和辣椒属(Capsicum),极特别地是辣椒种(Capsicum annuum)(辣椒(pepper))和众多其它种;豆科(Leguminosae),特别是大豆属(Glycine),极特别地是大豆种(Glycine max)(大豆(soybean))、苜猜、豌豆、紫花苜猜(lucerne)、菜豆或落花生(peanut)和众多其它种;和十字花科(Cruciferae) (Brassicacae)、特别是芸苔属(Brassica),极特别地是欧洲油菜种(Brassica napus)(油菜(oil seedrape))、芸笞种(Brassica campestris)(甜菜(beet))、甘蓝栽培品种 Tastie (Brassica oleracea cv Tastie)(卷心菜(cabbage))、甘蓝栽培品种 Snowball Y (Brassica oleracea cv Snowball Y)(花椰菜(cauliflower))和甘蓝栽培品种 Emperor (Brassica oleracea cv Emperor)(绿花菜(broccoli));和拟南芥属(Arabidopsis),极特别地是拟南芥菜种和众多其它种;菊科(Compositae),特别是莴苣属(Lactuca),极特别地是莴苣种(Lactucasativa)(莴苣(lettuce))和众多其它种;菊科(Asteraceae)如向日葵(sunflower)、万寿菊(Tagetes)、莴苣或金盖花(Calendula)和众多其它种;葫芦科(Cucurbitaceae)如甜瓜(melon)、南瓜(pumpkin/squash)或西葫芦(zucchini)和亚麻(linseed)。更优选棉花(cotton)、甘鹿(sugarcane)、大麻(hemp)、亚麻(flax)、辣椒(chillies)和各种树、坚果和藤本物种。提供当相对于内含子使用时,如在“物理性提供内含子”中指对来自目的植物的代表所述内含子的DNA序列进行克隆并在适合于本发明内含子的进一步克隆工作和后续应用的载体和质粒内物理性提供的该内含子。产生当相对于内含子使用时,如在“产生内含子”中指基于本发明内含子的DNA序列信息合成了 DNA分子。启动子、启动子元件或启动子序列如本文中所用,指能够在与目的核苷酸序列连接时控制目的核苷酸序列转录成mRNA的DNA序列。因此,启动子是DNA序列上如此的识别位点,该识别位点提供了用于基因的表达控制元件并且RNA聚合酶特异性地可与该识别位点结合并启动所述基因的RNA合成(转录)。启动子通常(尽管不是必须)位于目的核苷酸序列的5'(即上游)(例如接近结构基因的转录起始位点)。启动子可以是组织特异性或细胞特异性的。术语“组织特异性”在应用于启动子时,指这样的启动子,该启动子能够在特定类型的组织(例如花瓣)中指导目的核苷酸序列选择性表达,而在不同类型的组织(例如根)内则相对缺乏同一目的核苷酸序列的表达。启动子可以是组成型的或可调节的。术语“组成型的”当指启动子时,意指该启动子能够在缺乏刺激物(例如热休克、化学品、光等)下指导有效连接的核酸序列转录。通常,组成型启动子能够指导转基因在基本上任何细胞和任何组织内表达。相反,“可调节的”启动子是这样的启动子,其能够在存在刺激物(例如热休克、化学品、光等)时指导有效连接的核酸序列以这样一种水平转录,其不同于在缺乏刺激物下有效连接的核酸序列的转录水平。将植物中有功能的启动子序列理解为原则上意指能够控制基因(尤其外来基因)在植物或植物部分、植物细胞、植物组织或植物培养物内表达的任何启动子。在此条件下,表达可是是例如组成型的、诱导型的或发育依赖型的。组成型启动子是在其中RNA聚合酶结合和启动的速率是大致恒定的并相对与外界刺激物无关的启动子。有用的启动子是这样的组成型启动子(Benfey 等(1989)EMBO J. 8 :2195_2202),如源自植物病毒如 35S CAMV(Franck 等(1980 )Cell 21 :285-294)、19S CaMV(还见US5352605和WO 84/02913)、34S FMV(Sanger等(1990)Plant Mol. Biol. , 14 :433-443)的那些组成型启动子、欧疗(parsley)遍在蛋白启动子或在US4,962,028中描述的植物启动子如Rubisco小亚基启动子或植物启动子PRPl [Ward等(1993)Plant Mol. Biol. 22 361-6],SSU,PGELl,OCS [Leisner(1988)Proc. Natl. Acad. Sci.USA 85(5) :2553-2557]、lib4、usp、mas[Comai(1990)Plant Mol Biol 15(3) :373_381]、STLSl、ScBV (Schenk (1999) Plant Mol Biol 39 (6) : 1221-1230)、B33、SADl 或 SAD2 (flax启动子,Jain 等(1999) Crop Science 39(6) : 1696-1701)或 nos [Shaw 等(1984) NucleicAcids Res. 12(20) =7831-7846] 0诱导启动子是在其中RNA聚合酶结合和启动的速率受到外界刺激物调节的启动子。此类刺激包括光、热、厌氧胁迫、营养条件的改变、代谢物的有或无、配体的存在、微生物侵袭、创伤等等(综述见Gatz (1997) Annu. Rev. Plant Physiol.Plant Mol.Biol.48 :89-108)。化学诱导启动子在需要以时间特异性方式表达基因时特别合适。化学诱导启动子的实例是水杨酸诱导启动子(W0 95/19443)、以及脱落酸诱导启动子(EP335528)、四环素诱导启动子(Gatz等(1992) Plant J. 2 397-404)、环己醇或乙醇诱导启动子(W0 93/21334)或如本文中所述的其它化学诱导启动子。病毒启动子是具有与病毒基因5'末端内找到的启动子基本相似的DNA序列的启动子。常见的病毒启动子存在于由Huang等((1981) Cell 27 :245)所述的MMTV的编码p21蛋白的基因5’末端处。合成的启动子是化学合成的而非生物衍生的启动子。合成的启动子通常包含优化RNA聚合酶启动效率的序列改变。时间调节性启动子是其中RNA聚合酶结合和启动的速率在发育期间的特定时间内受调节的启动子。时间调节性启动子实例在Chua等[(1989) Science244:174-181]中给出。空间调节性启动子是其中RNA聚合酶结合和启动的速率在生物的特定结构内如叶、茎或根内受调节的启动子。空间调节性启动子的实例在Chua等[(1989)Science244 :174-181]中给出。时空调节性启动子是其中RNA聚合酶结合和启动的速率在发育期间的特定时间内在生物的特定结构内受调节的启动子。常见的时空调节性启动子是Chua等[(1989) Science 244 :174_181]所述的EPSP合成酶-35S启动子。合适的启动子还有欧洲油菜的油菜籽蛋白基因启动子(US5,608,152)、蚕豆(Vicia faba)USP启动子;Btoinileln 等(I 991) Mo I GenGenet 225(3) :459_67)、拟南芥的油质蛋白启动子(WO98/45461)、菜 (Phaseolus vulgaris)的菜 球蛋白启动子(US 5,504,200)、芸苔 Bce4启动子(W0 91/13980)、菜豆arc5启动子、胡萝卜DcG3启动子或豆球蛋白B4启动子(LeB4 ;等(1992)Plant Journal 2(2) :233_9),以及在单子叶植物如玉米、大麦、小
麦、黑麦、稻等中引起种子特异性表达的启动子。有利的种子特异性启动子是蔗糖结合蛋白质启动子(W0 00/26388)、菜豆球蛋白启动子和油菜籽蛋白启动子。必须考虑的合适启动子是大麦lpt2或Iptl基因启动子(W0 95/15389和WO 95/23230)和在WO 99/16890中所述的启动子(来自大麦的大麦醇溶蛋白基因、稻的谷蛋白基因、稻的水稻素基因、稻的谷醇溶蛋白基因、小麦的麦醇溶蛋白基因、小麦的谷蛋白基因、玉米的玉米醇溶蛋白基因、燕麦的谷蛋白基因、高粱的kasirin基因和黑麦的裸麦醇溶蛋白基因的启动子)。其它的合适启动子是 Amy32b、Amy 6-6 和 Aleurain [US 5,677,474]、Bce4 (欧洲油菜)[US 5,530,149]、大豆球蛋白(大豆KEP 571 741]、磷酸烯醇丙酮酸羧化酶(大豆)[JP 06/62870]、ADR12_2 (大豆)[W0 98/08962]、异柠檬酸裂解酶(欧洲油菜)[US 5,689,040]或α淀粉酶(大麦)[EP 781 849]的启动子。可获得用于在植物中表达基因的其它启动子是叶特异性启动子, 如在DE-A19644478中所述的那些叶特异性启动子,或光调节性启动子,例如豌豆petE启动子。其它的合适植物启动子是胞质FBP酶启动子或马铃薯ST-LSI (Stockhaus等(1989)EMBO J. 8 :2445)、大豆磷酸核糖焦磷酸氨基转移酶启动子(GenBank登录号U87999)或在EP-A-O 249676中所述的节结特异性启动子。其它的合适启动子是对生物性或非生物性胁迫条件作出反应的合适启动子,例如病原体诱导性PRPl基因启动子(Ward等(1993)PlantMol. Biol. 22 :361-366)、番茄热诱导性hsp80启动子(US 5,187,267)、马铃薯寒冷诱导性α淀粉酶启动子(W0 96/12814)或创伤诱导性pinll启动子(ΕΡ-Α-0 375 091)或如本文中所述的其它启动子。特别适合的其它启动子是引起质体特异性表达的那些启动子。合适的启动子如病毒RNA聚合酶启动子在WO 95/16783和WO 97/06250中描述,并且拟南芥clpP启动子在WO 99/46394中描述。除了数个以上提及的病毒启动子和细菌启动子以外,用于在种类尽可能多的组织内(当然尤其在叶内)强烈表达异源序列的其它启动子还优选地是植物的肌动蛋白基因或遍在蛋白基因的启动子,例如,稻的肌动蛋白I启动子。植物的组成型启动子的其它实例是甜菜(sugarbeet) V-ATP酶启动子(W0 01/14572)。合成的组成型启动子的实例是Super启动子(W0 95/14098)和衍生自G-盒的启动子(W0 94/12015)。根据需要,还可以使用化学诱导启动子,比较EP-A 388 186、EP-A 335 528、WO 97/06268。以上所列的启动子可以包含影响对植物激素(Xu等,1994,Plant Cell 6(8) 1077-1085),生物性或非生物性环境刺激例如胁迫条件做出应答的基因表达的其它调节性元件,其中所述的胁迫调节例如是干旱(Tran等(2004)Plant Cell 16(9) :2481_2498)、热、寒冷、冰冻、盐胁迫、氧化胁迫(US 5,290,924)或生物性胁迫源,如细菌、真菌或病毒。多肽、肽、寡肽、基因产物、表达产物和蛋白质可互换使用以意指连续氨基酸残基的聚合物或寡聚物。重组或转基因的DNA表达构建体就例如核酸序列(包含所述核酸序列的表达构建体、表达盒或载体)指源自实验操作的全部构建体,在其中a)所述的核酸序列,或b)与所述核酸序列有效连接的遗传控制序列例如启动子,或
c) (a)和(b)未处于其天然遗传环境内或已经通过实验操作得到修饰,修饰的实例是一个或多个核苷酸残基的置换、添加、缺失、倒置或插入。天然遗传环境指来源生物中天然的染色体基因座或指存在于基因组文库中。以基因组文库为例,核酸序列的天然遗传环境优选地得以保留,至少部分得以保留。该环境在核酸序列的至少一侧分布并具有长度至少50bp、优选地至少500bp、特别优选地至少1,OOObp、非常特别优选地至少5,OOObp的序列。天然存在的表达构建体,例如启动子与相应基因的天然存在的组合,当其受到非天然的、合成的、“人工”方法如例如诱变修饰时,变成转基因表达构建体。此类方法已经得到描述(US5,565, 350 ;W0 00/15815)。重组多肽或蛋白质指这样的多肽或蛋白质,其通过重组DNA技术产生,即从用编码所需要的多肽或蛋白质的外源性重组DNA构建体转化的细胞中产生 。重组核酸和多肽还可以包含如此的分子,其在自然界中不存在,但受到人的修改、改变、突变或其它操作。本发明内含子的重要用途将是增强核酸序列的表达,其中所述的核酸序列编码可干扰正常转录或翻译的特定蛋白质、多肽或DNA序列,例如干扰RNA或反义RNA。在本发明的一个实施方案中,重组DNA表达构建体赋予一种或多种核酸分子的表达。所述的重组DNA表达构建体根据本发明有利地包含在植物中有功能的启动子、在植物中有功能的额外调节性或控制性元件或序列、在植物中具有增强表达特性的内含子序列和在植物中有功能的终止子。此夕卜,重组表达构建体可以含有额外的功能性元件,如赋予例如正向选择标记和负向选择标记、报告基因、重组酶或核酸内切酶表达的表达盒,它们影响着本发明的表达盒、载体或重组生物的产生、扩增或功能。此外,重组表达构建体可以包含与目的植物基因具有同源性的核酸序列,其具有足够长度以便在导入植物后在目的基因的基因座内诱导发生同源重组(HR)事件。本发明的重组转基因表达盒(或包含所述转基因表达盒的转基因载体)可以通过(例如在 Maniatis 1989,《Molecular Cloning A Laboratory Manual》,第二版,ColdSpring Harbor Laboratory,Cold Spring Harbor(NY) ;Silhavy 1984,《Experiments withGene Fusions》,Cold Spring Harbor Laboratory, Cold Spring Harbor, NY 和在 Ausubel1987,〈〈Current Protocols inMolecular Biology)),Greene Publishing Assoc, and WileyInterscience)所述的常规重组技术和克隆技术产生。导入本发明的表达盒至生物或其细胞、组织、器官、部分或种子(优选地至植物或植物细胞、组织、器官、部分或种子)可以使用包含以上所述核酸、启动子、内含子、终止子、调节或控制元件和功能性元件的载体有利地实行。再生如本文中所用意指从植物细胞、植物细胞组、植物部分或植物碎片(例如来自原生质体、愈伤组织、原胚体样体或组织部分)中生长出完整植物。调节序列指DNA的启动子、增强子或其它节段,在其中调节蛋白如转录因子结合并因而影响给定基因的转录速率。在基因组DNA序列数据库或基因组DNA文库内所代表的植物基因组中的基本上全部内含子指全部内含子中大于80%、优选地大于90%、更优选地大于95%、仍更优选地大于98%的内含子存在于作为制备基因组DNA序列数据库或基因组DNA文库来源所使用的植物的基因组内。构建基因组文库和随后对基因组DNA测序以及使用已得到的序列信息构建基因组序列数据库或基因组DNA序列数据库在本领域内已充分建立(Mozo等(1998)Mol. Gen. Genet. 258 :562-570 ;Choi 等(1995)Weeds World2 17-20 ;Lui 等(1999)Proc.Natl.Acad. Sci. USA 96 6535-6540 ;TheArabidopsis Genome initiative, Nature 402 761-777 (1999) ;TheArabidopsis Genome initiative, Nature 408:796-826(2000)。结构基因如本文中所用,意指转录成mRNA的DNA序列,其中所述的mRNA随后翻译成作为具体多肽的特征的氨基酸序列。足够长度就包含于DNA构建体内的同源性序列(例如同源性序列A或B)而言理解为包含长度至少100个碱基对、优选地至少250个碱基对、更优选地至少500个碱基对、特别优选地至少1,000个碱基对、最优选地至少2,500个碱基对的序列。术语“足够的同源性”就包含于DNA构建体内的同源性序列(例如同源性序列A或B)而言将理解为包含如此序列,该序列与包含于染色体DNA内的相应靶序列(例如靶序列A'或B')具有至少70%、优选地至少80%、更优选地至少90%、特别优选地至少95%、更特别优选地至少99%、最优选地100 %的同源性,其中所述的同源性延续跨越至少50个碱基对、优选地至少100个碱基对、更优选地至少250个碱基对、最优选地至少500个碱基对的长度。 靶区域/序列核酸序列的靶区域/序列是待鉴定的核酸序列的一部分。核酸序列的“编码区”是核酸序列中这样的部分,当其处于适宜的调节序列的控制下时以序列特异性方式得到转录和翻译以产生特定的多肽或蛋白质。据称编码区编码如此的多肽或蛋白质。组织就植物(或“植物组织”)而言意指多个植物细胞的排列,包括植物中分化的和未分化的组织。植物组织可以构成植物器官的部分(例如植物叶的表皮),但还可以构成肿瘤组织和多种培养中的细胞(例如单个细胞、原生质体、胚、愈伤组织、原胚体样体等)。植物组织可以在原有植物内(inplanta)、在器官培养、组织培养或细胞培养内。转化或转化如本文中所用,指遗传材料(例如转基因)导入细胞。细胞的转化可以是稳定的或瞬时的。术语“瞬时转化”或“瞬时地转化”指在转基因未整合至宿主细胞基因组内的情况下,将一种或多种转基因导入细胞。瞬时转化可以通过例如检测一种或多种转基因所编码多肽的存在的酶联免疫吸附测定(ELISA)检测。备选地,瞬时转化可以如本文中所示[例如实施例I. 6和2. 4,通过用X-gluc染色的⑶S酶活性的组织化学测定,其中所述的X-gluc在⑶S酶存在下产生蓝色沉淀物;以及使用⑶S-光试剂盒(Tropix)的⑶S酶活性的化学发光测定]通过检测转基因(例如UidA基因)所编码的蛋白质(例如β-葡糖醛酸糖苷酶)的活性进行检测。术语“瞬时转化体”指短暂地包含一种或多种转基因的细胞。相对而言,术语“稳定转化”或“稳定地转化”指一种或多种转基因导入和整合至细胞的基因组内,优选地产生经历减数分裂的染色体性整合和稳定遗传力。细胞的稳定转化可以通过细胞基因组DNA与能够与一种或多种转基因结合的核酸序列发生DNA印迹杂交进行检测。备选地,细胞的稳定转化还可以通过扩增转基因序列的细胞基因组DNA聚合酶链式反应进行检测。术语“稳定的转化体”指使得一种或多种转基因稳定整合至基因组DNA内的细胞。因此,稳定的转化体与瞬时转化体相区别在于其中来自稳定转化体的基因组DNA含有一种或多种转基因,而来自瞬时转化体的基因组DNA不含转基因。转化还包括以涉及染色体外复制和基因表达的植物病毒载体形式将遗传材料导入植物细胞,这可以表现出相对于减数分裂稳定性的可变特性。转基因的或重组当用来指细胞时,指含有转基因的细胞,或其基因组已经通过导入转基因得到改变的细胞。术语“转基因的”当用来指组织或指植物时,分别指这样的组织或植物,其包含含有转基因的或其基因组已经通过导入转基因得到改变的一个或多个细胞。转基因的细胞、组织和植物可以通过数种方法产生,包括通过人类干预如通过本文中所述方法,将包含核酸(通常是DNA)的“转基因”导入靶细胞或将此转基因整合至靶细胞的染色体。野生型、天然的或天然来源的就生物、多肽或核酸序列而言意指所述的生物、多肽或核酸序列是天然存在的或可以在至少一种天然存在的生物、多肽或核酸序列中得到,未受到人工改变、突变或其它操作。载体是能够在宿主细胞内复制的DNA分子。质粒和粘粒是示例性载体。此外,术语“载体”和“媒介”可互换使用以指将DNA片段从一种细胞转移至另一种细胞的核酸分子,因此细胞不必要属于相同的生物(例如将DNA片段从农杆菌细胞转移至植物细胞)。术语“表达载体”如本文中所用,指含有所需要的编码序列和在特定宿主生物中表达有效连接的编码序列所需要的适宜核酸序列的重组DNA分子。发明详述根据本发明的教导可以鉴定引起内含子介导性基因表达增强(ME)的内含子。此夕卜,本发明提供分离的植物内含子,若该植物内含子与在植物中有功能的启动子和核酸片段功能性地组合,则可以增强所述的核酸在植物或植物细胞中的表达速率。本发明的第一实施方案涉及用于鉴定具有植物基因增强表达特性的内含子的方法,包括从植物基因组中选择内含子,其中所述内含子具有至少如下特征I)内含子长度短于1,000碱基对,并且II)存在包含二核苷酸序列5' -GT-3' (SEQ ID NO :78)的5'剪接位点,并且III)存在包含三核苷酸序列5' -CAG-3' (SEQ ID NO :79)的3'剪接位点,并且IV)在3'剪接位点的上游存在类似于共有序列5' -CURAY-3' (SEQID NO 75)的分支点,和V)从5'剪接位点向下游100个核苷酸范围至少40%的腺嘌呤加胸腺嘧啶含量,并且VI)从3'剪接位点向上游100个核苷酸范围至少50%的腺嘌呤加胸腺嘧啶含量,并且VII)整个内含子范围至少50%的腺嘌呤加胸腺嘧啶含量和至少30%的胸腺嘧啶含量。在另一实施方案中,本发明涉及用于在植物内含子群体中富集具有在植物中增强表达特性的内含子数目至所述群体的至少50%的方法,所述方法包括从所述群体内选择内含子,该内含子具有至少如下特征I)内含子长度短于1,000碱基对,并且II)存在包含二核苷酸序列5' GT-3' (SEQ ID NO :78)的5'剪接位点,并且III)存在包含三核苷酸序列5' -CAG-3' (SEQ ID NO :79)的3'剪接位点,并且IV)在3'剪接位点上游存在类似于共有序列5' -CURAY-3' (SEQ IDNO :75)的分支点,并且V)从5'剪接位点向下游100个核苷酸范围至少40%的腺嘌呤加胸腺嘧啶含量,并且
VI)从3'剪接位点向上游100个核苷酸范围至少50%的腺嘌呤加胸腺嘧啶含量,并且VII)整个内含子范围至少50%的腺嘌呤加胸腺嘧啶含量和至少30%的胸腺嘧啶含量。在受玉米(Zea mays)遍在蛋白启动子驱动的β _葡糖醒酸糖苷酶基因(OTS)的5'非翻译区(UTR)中包含通过 SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、
19、20、21或22所描述的本发明内含子已经导致在玉米原生质体(Black Mexican Sweet)悬浮细胞和稳定转化的植物中的报告基因强烈的表达增强(见实施例)。此外,可以证实所述内含子的增强基因表达特性是与从文献中已知的那些增强基因表达特性可比的(例如在表达分析中作为阳性对照使用的玉米遍在蛋白基因的第一内含子)。在优选的实施方案中,将通过应用本发明富集方法鉴定的内含子群体中具有增强 基因表达特性的内含子的数目富集达到至少50 %、优选地至少55 %、更优选地至少60 %、特别优选地至少65%或非常特别优选地至少70% (即通过使用本发明方法所预选的100个内含子给定群体将包含至少50个、优选地至少55个、更优选地至少60个、特别优选地至少65个或70个具有增强基因表达特性的内含子)。更优选地,使通过应用本发明富集方法鉴定的内含子群体中具有增强基因表达特性的内含子的数目富集达到至少50%,其中所选 择的内含子,若作为重组DNA表达构建体的部分,在不改变其它条件下与仅缺少内含子而其它完全相同的表达构建体相比,导致增加给定基因的基因表达至少300%。最优选地,富集是至少60%,其中所选择的内含子增加受给定启动子驱动的基因的转录至少200%。特别优选地,富集是至少70%,其中所选择的内含子增加受给定启动子驱动的基因的转录至少 50%。优选地,本发明ME内含子的长度优选地短于1,000个碱基对,更优选地短于900bp、最优选地短于800bp。在优选的实施方案中,本发明方法所鉴定的内含子的分支点序列由核苷酸序列 5' -CURAY-3' (SEQ ID N0:75)或 5' -YURAY-3' (SEQ ID NO :76)描述,其中U和A是必需核苷酸并且分别在位置3和5处的嘌呤和嘧啶是优选的核苷酸。在位置I中,嘧啶为优选,并且C对U为优选。环绕GT双核苷酸的5'剪接位点的序列可以变化。优选序列是5' -RR/GT(RT) (RT) (GY)-3' (SEQ ID NO 77)的5'剪接位点,其中R代表核苷酸G或Α,Υ代表核苷酸C或Τ。在括号内给出的核苷酸描述了在各自位置内的替代性核苷酸。在本发明优选的实施方案中,本发明内含子在全序列范围内的腺嘌呤/胸腺嘧啶含量是至少50%、更优选地是至少55%、甚至更优选地是至少60%。在本发明优选的实施方案中,将应用于本发明方法的植物内含子群体包含a)DNA序列数据库内或b)植物基因组DNA文库内所代表的植物基因组的基本上全部内含子。在本发明额外的实施方案中,将应用于本发明方法的内含子群体选自a)位于编码蛋白质的两个外显子之间的内含子,和b)位于相应基因的5'非翻译区内部的内含子。为了鉴定具有在植物或植物细胞中增强表达特性的位于编码区内(在两个蛋白质编码性外显子之间)或在给定基因5'非翻译区内的内含子,可以筛选来自(例如存在于序列数据库内的)一套基因的编码区和5'非翻译区以确定位于所述区域内的内含子的存在,并且已鉴定的内含子随后使用本发明的方法之一加以筛选。使用本领域技术人员已知的生物信息工具的计算机法鉴定方法可以通过筛选a)特定的DNA序列数据库(例如专一含有编码区或5'非翻译区)或b)其它公众可用的含有基因组DNA序列的数据库开展。在本发明优选的实施方案中,具有增强表达特性的位于5'非翻译区内的内含子通过包括如下步骤的方法鉴定a.鉴定存在于序列数据库中的一套基因内的编码序列,和b.鉴定与(a)中所鉴定的基因相对应的EST序列,和c.将所述的编码序列和EST序列与各个基因的基因组序列相比较,和d.选择包含5'非翻译区的EST序列,和e.鉴定位于5'非翻译区内的内含子。优选地,(例如使用本发明方法的标准)搜索或生成DNA序列或生成特定DNA序列数据库并筛选同一 DNA序列数据库的步骤可借助技术人员已知的适宜生物信息计算机 算法和适宜计算机装置开展。在优选的实施方案中,其中选自于内含子群体的内含子衍生自单子叶植物,特别优选的是选自大麦属、燕麦属、黑麦属、小麦属、高粱属、玉蜀黍属、甘蔗属和稻属的单子叶植物。在本发明又一个更优选的实施方案中,将应用于本发明方法的内含子群体选自这样的植物基因群体,所述的植物基因群体代表在使用植物细胞、植物组织或完整植物所开展的基因表达分析实验中具有最高表达速率的基因的10%部分(第九位十分位数)。为测定基因表达水平,提出了多种不同的技术(Milosavljevic, A.等(1996)Genome Res. 6 132-141 ;Shoemaker, D.等(1996)Nature Genet. 14450-456 ;Sikela,J. M.和 Auffray, C. (1993)Nature Genet. 3 :189_191 ;Meier-Ewert S.等(1998)NucleicAcids Research 26(9) =2216-2223) 因此,可以根据本发明采用多种不同的基因表达分析系统,包括但不限于微阵列分析、“数字化RNA印迹法”、利用“通过杂交法的DNA测序”对 cDNA 文库的克隆分布分析(Strezoska, Z.等(1991)Proc. Natl. Acad. Sci. USA88 10089-10093)和基因表达的系列分析(SAGE, Velculescu, V. E.等(1995) Science 270 484-487)。通过使用cDNA微阵列杂交技术,可以一次监测数千个基因的表达谱。DNA阵列分析已经变成分子生物实验室中用于监测基因表达的标准技术。阵列可以通过预先合成的DNA产物的机械点样或通过寡核苷酸在固体基质(通常是衍生化的载玻片)上的从头合成而制造。通常,阵列用于检测已转录自不同基因并编码不同蛋白质的mRNA的存在。该RNA从多种细胞或从单一细胞类型中提取,随后转换成cDNA或CRNAt5RNA的拷贝可以通过(RT-)PCR “扩增”。荧光标签可以用酶方式加入新合成的链中或可以化学地结合至DNA或RNA的新链中。含有与单链探针序列之一互补的序列的cDNA或cRNA分子将与已附着互补探针的斑点经碱基配对发生杂交或粘附。该斑点随后在使用微阵列扫描仪检查时发出荧光。增加或减少的荧光强度表明样品中的细胞最近已经转录或停止转录含有所探测序列的基因。荧光的强度与存在的特定mRNA的拷贝数成正比,并且因而大致地显示该基因的活性或表达水平。可商业地获得可以根据本发明所采用的阵列(和开展表达分析实验所需要的相应设备)。产自Affimetrix (SantaClara,CA)的基因芯片拟南芥ATHl基因组阵列含有代表大约24,000个基因的超过22,500个探针组。该阵列基于来自2000年12月正式完成的国际拟南芥测序计划的信息(http://www. affymetrix. com)。因此,已分析的基因的表达速率可以(根据杂交过程后各个基因的荧光强度)进行归类并且可以通过使用微阵列分析鉴定10 %的显不最闻基因表达速率的基因。通过互联网可公开地获得含有微阵列表达谱结果的数据库,例如诺丁汉姆拟南芥忙存中心微阵列数据库(Nottingham Arabidopsis StockCenter’s microarray database)或OSMID(渗透胁迫微阵列信息)数据库。诺丁汉姆拟南芥贮存中心微阵列数据库含有大范围选择的来自 Affimetrix基因芯片(http://affymetrix. arabidopsis. info)的微阵列数据。OSMID数据库(http://www.osmid.org)含有在亚利桑那大学开展的大约100个微阵列实验的结果。该数据库包括对NaCl、寒冷和干旱处理拟南芥菜、稻(Oryzasativa)、大麦(Hordeumvulgaris)、冰叶日中花(Mesembryanthemum crystalIinum)和玉米的分析。因此通过使用存在于序列/表达数据库内的表达谱,基因的表达速率可以(根据文库中相应cDNA的克隆分布)进行归类并且可以鉴定10%的显示最高(丰度)基因表达速率的基因。“数字化RNA印迹”通过对数千个从相关cDNA文库中随机选择的克隆进行部分测 序而生成。差异性表达的基因可以随后从它们同族序列标签的计数变异得以检测。基于序列标签的方法由自3'方向的区域性非归一化cDNA文库生成的大量(数千个)表达序列标签(EST)组成。“数字化RNA印迹”比较的概念如下据报道众多标签同用于形成cDNA文库的组织类型或细胞类型中同族转录物的丰度成正比。在存储于计算机数据库内的这些标签的相对频率的变异随后用于说明相应基因的差异性表达(Okubo等1992 ;Matsubara和Okubo 1994)。此技术的进一步发展是仅需要9个核苷酸作为标签因此允许更大通量的SAGE方法。因此,通过使用“数字化RNA印迹分析的基因的表达速率可以(根据文库中相应基因的标签的丰度)进行归类并且可以鉴定10%的表现最闻(丰度)基因表达速率的基因。使用在美国专利US 5,667,972、US 5,492,806、US 5,695,940、US5, 972,619、US6,018,041、US 6,451,996、US 6,309,824中所述的“通过杂交方法的测序”,有可能开展完整的cDNA文库的计算机法克隆分布分析。所述的美国专利的全部内容引用作为参考。本项技术是可商业获得的并且可以与HySeq Inc.合作开展定制的实验。为使用“通过杂交方法的测序”或“HySeq技术”确定克隆分布,将植物在多种条件和处理下生长,并且收集处于不同发育阶段的组织。这以一种策略性方式完成以便使收获至少一个或多个文库中的所有可表达基因的概率最大化。随后从已收集的每一份样品内提取mRNA并用于产生文库。文库可以从在寡dT柱上纯化的mRNA产生。随机挑取来自cDNA文库所转化大肠杆菌(E. coli)的菌落并置于微量滴定平板内并随后将DNA点样至一个表面。将来自微量滴定平板中每一克隆的cDNA插入物进行PCR扩增并点样至尼龙膜上。随后将288个33_p标记的7聚体寡核苷酸组依次与此膜杂交。杂交后,在磷光成像仪扫描期间捕获印迹图像以生成每个单一寡核苷酸的图谱。绝对同一性通过条形码成像盒、滤膜和盒内的方向得到维持。随后使用相对温和的条件处理滤膜以去除结合的探针并随后将滤膜返回杂交室用于下一轮杂交。重复杂交和成像循环直至用完整组288个寡聚物。在杂交结束后,每一个点(代表cDNA插入物)将记录自288个7聚体寡核苷酸内每一 7聚体寡核苷酸产生的放射信号的量。将何种寡聚物与每一独立cDNA插入物(膜上的点)结合,结合至何种程度的图谱定义为生成自该克隆的签名。将每个克隆的签名与来自同一生物的所有其它签名进行比较以鉴定相关签名的簇。这个过程将来自一种生物的全部克隆在测序前“分类”成所谓的“簇”。在成簇的过程中,复杂的或组织特异性cDNA文库使用一系列288个7碱基对寡核苷酸进行“挖掘”。通过在这些寡聚物的杂交签名上收集数据,文库中随机成组的克隆可以分类成“簇”。簇用于说明特定文库中每一基因的丰度并且因此是单个基因的基因表达速率的度量。因此,基因的表达速率可以使用“HySeq”技术进行分类并且可以鉴定属于表现最高(丰度)基因表达速率的10 %的基因。选择用于鉴定本发明内含子的基因、cDNA或表达序列标签为10%、优选地5%、更优选地3%、最优选地I %的在基因表达分析实验中显不最闻基因表达速率的基因,其中基因表达速率可以通过使用以上所述的方法间接地计算。在本发明优选的实施方案中,10%的显示最高基因表达速率的基因的核酸序列用来通过使用杂交方法或RACE克隆技术(cDNA末端快速扩增)或染色体步移技术筛选例如适宜的含有DNA序列的数据库或基因组DNA或基因组DNA文库而分离相应基因的(包括内含子序列的)完整基因组DNA序列。在测定相应候选基因的已分离的完整基因组DNA的序列后,存在于所述基因内的内含子序列使用如上所述的鉴定具有增强表达特性的那些内含子的标准进行筛选。用于选择具有增强表达特性的内含子的所述计算机方法具有高的成功概率,但是所述方法的效率可以通过与其它方法组合进一步得到提高。因此在本发明一个优选的实施方案中,独立验证在基因表 达分析实验中显示最高基因表达速率的10%的基因使用替代性基因表达分析工具如RNA印迹分析或实时PCR分析(见实施例)完成。在本发明优选的实施方案中,使用自动化方法、更优选地使用计算机装置和算法,将用于鉴定或富集具有在植物中增强基因表达特性的内含子的方法应用于DNA序列数据库,其中所述算法定义如此指令,该指令是实现在已筛选的DNA序列群体中鉴定或富集具有在植物中增强基因表达特性的内含子的选择步骤所需要的。本发明的又一个实施方案是定义指令的计算机算法,所述的指令是实现如上所述的用于鉴定或富集具有增强植物基因表达特性的内含子的选择步骤所需要的。有用的计算机算法在生物信息学领域或计算生物学领域内众所周知。生物信息学或计算生物学通过创造或使用计算机程序、数学模型或二者,利用数学技术和信息技术来分析序列数据(例如生成序列数据、序列比对、筛选序列数据)。生物信息学的一个主要领域是对已汇集的不同来源的数据进行数据挖掘和分析。其它领域是序列比对、蛋白质结构预测。生物信息学在序列分析中的另一个方面是自动检索基因组内的基因或调节序列(例如基因组DNA范围内的内含子序列)。序列数据库可以使用多种方法进行搜索。最常见的搜索可能是搜索与特定靶基因相似的序列,其中靶基因的序列是用户已知的。这种类型方法的有用程序是BLAST(基本局部比对搜索工具)程序。BLAST是用于比较生物学序列如不同基因的DNA序列的算法。给定序列的文库或数据库,BLAST搜索可以使搜索者寻找特定序列。BLAST算法和执行该算法的计算机程序由美国国立生物技术信息中心(NCBI)的Stephen Altschul开发并可在网络上在http://www. ncbi.nlm. nih. gov/BLAST获得。BLAST程序可以下载并作为命令行应用“blastall”运行,或通过网络免费登录。由NCBI主控的BLAST网络服务器允许任何人用网络浏览器针对蛋白质和DNA持续更新的数据库开展相似性搜索,其中所述的数据库包括大部分最近已测序的生物。BLAST实际上是程序家族(blastall所包含的程序均可执行),除其它以外还包括核苷酸-核苷酸BLAST (BLASTN)。在给出DNA查询时,该程序从用户指定的DNA数据中返回最相似的序列。本领域技术人员知道如何从例如公共序列数据库中产生或检索序列数据库和如何设计算法以便以定制的方式筛选成套的序列(见实施例)。
此外,本发明涉及定义指令的计算机算法,其中所述的指令是实现从植物基因组或内含子群体中鉴定或富集具有在植物中增强基因表达特性的内含子的选择步骤所需要的,其中所述内含子群体选自位于编码蛋白质的两个外显子之间的内含子,和/或位于相应基因的5'非翻译区内部的内含子,和/或位于如此基因的DNA序列内的内含子,其中所述的基因代表在使用植物细胞、植物组织和/或完整植物所开展的基因表达分析实验中具有最高表达速率的基因的10%部分。本发明的另一个实施方案是包含算法的计算机装置或数据存储装置。存储装置可以是“硬盘”(或“硬盘驱动器”)或光学数据存储介质如CD-ROM( “压缩的只读存储光盘” (ROM)或DVD (数字化通用光盘)或任何机械的、磁的或光的数据存储介质。本发明另一个实施方案涉及用于分离、提供或产生具有在植物中增强基因表达特性的内含子的方法,包括如下步骤a)如上所述开展具有在植物中增强基因表达特性的内含子的鉴定或富集并提供所述的已鉴定或已富集的内含子的序列信息,和
b)提供在a)中已鉴定或已富集的所述内含子的物理核苷酸序列,和c)评估在b)中提供的内含子序列在体内或体外表达实验中的增强基因表达特性,和d)从所述的表达实验c)中分离显示增强表达特性的内含子。优选地,评估分离的内含子的增强基因表达特性包括Cl)通过功能性地将来自步骤b)的各个核苷酸序列与至少一个在植物或植物细胞中有功能的启动子序列和至少一个可轻易定量的核酸序列连接而提供重组表达构建体,和c2)将所述的重组DNA表达构建体导入植物细胞并评估所分离内含子的增强基因表达特性。优选地,增强基因表达特性的评估在植物细胞或稳定转化的植物内完成并且其中所述分离的内含子增强给定基因的表达至少两倍(见实施例)。本发明的额外主题物涉及重组DNA表达构建体,其包含在植物细胞中有功能的至少一个启动子序列、至少一个核酸序列和选自SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21和22所描述序列中的至少一个内含子及其功能性等效物,其中所述的启动子序列和所述的至少一个内含子序列功能性地连接于所述核酸序列,并且其中所述内含子对所述的核酸序列或对所述的启动子序列是异源的。此外,本发明涉及重组表达构建体,其包含在植物细胞中有功能的至少一个启动子序列、至少一个核酸序列和由序列SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21 和 22 中任意一个所描述内含子的至少一个功能性等效物。优选地,所述的功能性等效物包含内含子的功能性元件,其中所述启动子序列和至少一个所述的内含子序列功能性地连接于所述的核酸序列,并且其中所述内含子对所述的核酸序列或对所述的启动子序列是异源的。更优选地,该功能性等效物还如下进一步加以表征i)具有 SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21 或 22
中任意一个所描述内含子序列的至少50个连续碱基对,或
ii)与SEQ ID NO : 1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21或22 中
任意一个所描述序列的跨越至少95个连续核酸碱基对具有至少80%同一性,或iii)在高度严格条件下与 SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21或22中任意一个所描述核酸分子中至少50个连续碱基对的核酸片段杂交。在本发明优选的实施方案中,内含子包含分别毗邻于内含子5'和3'剪接位点的序列/外显子5'和3'的至少50个碱基对、更优选地至少40个碱基对、最优选地30个碱基对。在本发明的另一个实施方案中,本发明的重组DNA表达构建体还包含与与启动子功能性连接的一个或多个额外的调节序列。这些调节序列可以选自热休克应答元件、厌氧应答元件、病原体应答元件、干旱应答元件、低温应答元件、ABA应答元件、5'非翻译基因区、3'非翻译基因区、转录终止子、多腺苷酸化信号和增强子。参与ABA诱导性基因表达的顺式作用因子和反式作用因子由Bray (1997) Plant Mol. Biol. 2 :48_54 ;Busk等(1998)Plant Mol. Biol. 37 :425_435 和 Shinozaki 和 Yamaguchi-Shinozaki(2000)Curr. Opin. Plant Biol. 3 :217_223综述。众多ABA诱导性基因在其启动子区域内含有保守的ABA应答性顺式作用元件,称作 ABRE (ABA 应答元件;PyACGTGGC) (Guiltinan 等(1990) Science250 267-271 ;Mundy 等(1990)Proc. Natl. Acad. Sci. USA 87:406-410)。分析了 rd29A 基因的启动子区域并且在核苷酸序列中鉴定了负责脱水诱导性和寒冷诱导性表达的新的顺式作用兀件(Yamaguchi-Shinozaki 和 Shinozaki (1994)Plant Cell 6:251-264)。称作脱水应答元件(DRE)的9-bp保守序列TACCGACAT对调节脱水应答性基因表达是必需的。DRE相关的基序已经在寒冷诱导型基因和干旱诱导型基因如kinl、cor6. 6和rdl7的启动子区域内得到报道(Wang 等(1995)Plant Mol. Biol. 28 :605_617 ;Iwasaki 等(1997)PlantPhysiol. 115 :1287)。热休克基因的温度诱导性归因于热休克因子(HSF)的激活。HSF通过高度保守的热休克启动子元件(HSE)发挥作用,其中所述的热休克启动子元件已经定义为毗邻且倒转的重复基序 5' -nGAAn-3' (Amin 等(1988)Mol Cell Biol 8 :3761_3769)。防御应答元件或病原体应答元件的实例是W盒(TTGACY)和W盒样元件,其代表参与植物发育和植物对环境胁迫应答的植物特异性WRKY转录因子的结合位点(Eulgem等(2000) TrendsPlant Sci 5 199-206 ;Robatzek S等(2001)Plant J28 :123-133),以及Myc元件(CACATG)(Rushton PJ 等(1998)Curr OpinPlant Biol 1:311-315)。可以与所述的启动子一起使用的此类调节序列或元件包括5'非翻译区、增强子序列和植物多腺苷酸化信号。可提及的翻译增强子的实例是烟草花叶病毒5'前导序列(Gallie等(1987)Nucl Acids Resl5 8693-8711),来自章鱼碱合酶基因的增强子等等。此外,翻译增强子可以促进组织特异性(Rouster J等(1998) Plant J 15:435-440)。重组DNA表达构建体通常将包含与:V末端核酸序列连在一起的目的基因,其中所述的3'末端核酸序列作为终止转录信号并随后作为RNA的多腺苷酸化信号发挥作用。优选的植物多腺苷酸化信号是基本上与来自根癌农杆菌、尤其来自 Ti 质粒 pTiACHS(Gielen 等(1984) EMBO J 3 :835_46)中 T-DNA (章鱼碱合酶)的基因3的T-DNA多腺苷酸化信号或其功能性等效物相对应的多腺苷酸化信号。基本上合适的终止子序列的实例是OCS (章鱼碱合酶)终止子和NOS (胭脂氨酸合成酶)终止子。表达盒和衍生自该表达盒的载体可以包含其它的功能性元件。术语“功能性元件”应在较宽泛的意义上理解并指影响本发明的表达盒、载体或重组生物的生成、扩增或功能的全部元件。功能性元件可以通过举例的方式提及,但不限于此
I.选择标记选择标记用于选择和分离已成功转化或同源重组的细胞。为选择已成功发生同源重组的细胞或选择已转化的细胞,通常需要导入赋予已成功发生重组的细胞对杀生物剂(例如除草剂)、代谢抑制剂如2-脱氧葡萄糖-6-磷酸(W0 98/45456)或抗生素抗性的选择标记。选择标记允许从未转化的细胞中选择出已转化的细胞(McCormick等(1986)PlantCell Reports 5 :81_84)。·I. I负向选择标记选择标记赋予对杀生物化合物如代谢抑制剂(例如2-脱氧葡萄糖-6-磷酸,WO98/45456)、抗生素(例如卡那霉素、G418、博来霉素或潮霉素)或除草剂(例如草丁膦或草甘膦的抗性)。特别优选的负向选择标记是赋予除草剂抗性的的那些负向选择标记。可提及的实例是-草丁膦乙酰基转移酶(PAT,也称作Bialophos抗性;bar;de Block等(1987)EMBO J 6 2513-2518)-5-烯醇式丙酮基莽草酸-3-磷酸合成酶(EPSPS),赋予草甘膦抗性(N_(磷酰甲基)甘氨酸),-草甘膦降解酶(草甘膦氧化还原酶,gox),-茅草枯失活性脱卤素酶(deh),-磺酰脲失活乙酰乳酸合成酶和咪唑啉酮失活乙酰乳酸合成酶((例如具有例如S4和/或Hra突变的突变ALS变体),-溴苯腈降解性腈水解酶(bxn)-卡那霉素抗性或G418抗性基因(NPTII;NPTI),编码例如新霉素磷酸转移酶,-2-脱氧葡萄糖-6-磷酸磷酸酯酶(D0GR1-基因产物;W0 98/45456 ;EP0807836),赋予 2-脱氧葡萄糖抗性(Randez-Gil 等,1995 Yeastll :1233_1240)。其它合适的负向选择标记是赋予抗生素壮观霉素抗性的aadA基因、赋予链霉素抗性的链霉素磷酸转移酶(SPT)基因和介导潮霉素抗性的潮霉素磷酸转移酶(HPT)基因。特别优选的是赋予对D-氨基酸例如D-丙氨酸和D-丝氨酸所施加的毒性效应具有抗性的负向选择标记(W0 03/060133 ;Erikson 2004)。作为本文中特别优选的负向选择标记是来自瘦弱红酵母(Rhodotorula gracilis)(圆红冬酵母(Rhodosporidium toruloides))的daol基因(EC 1. 4. 3. 3 ;GenBank登录号U60066)和大肠杆菌基因dsdA(D_丝氨酸脱水酶(D-丝氨酸脱氨基酶)[EC 4. 3. I. 18 ;GenBank 登录号 J01603]。I. 2)反向选择标记反向选择标记特别适合选择如此生物,其具有包含所述标记的明确的失的序列(Koprek T等(1999)Plant J 19(6) :719_726)。反向选择标记的实例包括胸苷激酶(TK)、胞嘧啶脱氨基酶(Gleave AP 等(1999)Plant Mol Biol. 40(2) :223_35 ;Perera RJ 等(1993) Plant Mol. Biol 23(4) 793-799 ;StougaardJ. (1993) Plant J 3 :755_761)、细胞色素 P450 蛋白(Koprek 等(1999)Plant J16 :719_726)、卤烷脱卤素酶(Naested H(1999)Plant J 18:571-576)、iaaH 基因产物(Sundaresan V 等(1995)Gene & Development 9:1797-1810)、胞嘧啶脱氨基酶 codA(Schlaman HRM 和 Hooykaas PJJ(1997)Plant Jll 1377-1385)或 tms2 基因产物(Fedoroff NV & Smith DL,1993,Plant J3 :273_289)。
I. 3正向选择标记此外,可以采用正向选择标记。基因如来自根癌农杆菌(菌株;P022 ;GenBank登录号AB025109)的作为细胞分裂素生物合成关键酶的异戊烯基转移酶可以促进转化植物的再生(例如通过在无细胞分裂素培养基上选择)。描述了相应的选择方法(Ebinuma 2000a、b)。与非转化植物相比,赋予转化植物生长优势的其它正向选择标记在例如EP-A O 601092内描述。生长刺激选择标记可以包括(但不应当限于)葡糖醛酸糖苷酶(与例如细胞分裂素葡糖苷酸组合)、甘露糖-6-磷酸异构酶(与甘露糖组合)、UDP-半乳糖-4-差向异构酶(与例如半乳糖组合),其中特别优选与甘露糖组合的甘露糖-6-磷酸异构酶。2)报告基因报告基因编码可轻易定量的蛋白质,并通过它们的颜色或酶活性能够评估转化效 率、表达的位点或表达的时间。在本上下文中极特别优选编码报告蛋白的基因(SchenbornE 和 Groskreutz D. (1999)Mol Biotechnol. 13 (I) :29_44),如绿色突光蛋白(GFP) (Sheen等(1995)Plant Journal8 (5) :777_784;Haseloff 等(1997)Proc.Natl. Acad. Sci.USA94(6) 2122-2127 ;Reichel 等(1996)Proc. Natl. Acad. Sci. USA93(12) =5888-5893 ;Tian 等(1997)Plant Cell Rep 16:267-271 ;W0 97/41228 ;Chui WL 等(1996)Curr Biol6 325-330 ;Leffel SM 等(1997)Biotechniques. 23(5) :912_8)、氯霉素转移酶、萤光素酶(Ow等(1986)Science 234 :856_859 ;Millar等(1992)Plant Mol Biol Rep 10:324-414)、水母发光蛋白基因(Prasher等(1985)Biochem Biophys Res Commun 126(3) :1259_1268)、β-半乳糖苷酶、R基因座基因(编码植物组织中调节花青素苷色素(呈红色)的产生因而能够对启动子活性直接分析而无需添加其它辅助物质或生色底物的蛋白质;Dellaporta等(1988) Chromosome Structure and Function Impact of NewConcepts,18th StadlerGenetics Symposium 11 :263_282),极特别地优选β -葡糖醒酸糖苷酶(Jefferson等(1987)EMBO J. 6 :3901_3907)。3)复制起点,其确保本发明的表达盒或载体在例如大肠杆菌内扩增。可提及的实例是 ORI (DNA 复制起点)、pBR322ori 或 P15A ori (Sambrook 等Molecular Cloning ALaboratory Manual,第二版,Cold SpringHarbor LaboratoryPress,Cold Spring Harbor,NY,1989)。4)农杆菌介导性植物转化所需要的元件,例如T-DNA的右边界或左边界或vir区域。本发明的重组表达构建体地还含有除了编码标记蛋白的核酸序列外的可表达的核酸序列,或者与编码标记蛋白核酸序列不同的可表达的核酸序列。在本发明优选的实施方案中,重组DNA表达构建体包含编码i)蛋白质或ii)有义RNA、反义RNA或双链RNA序列的核酸序列。在本发明又一个优选的实施方案中,重组DNA表达构建体含有编码蛋白质的核酸序列。在本发明的又一个实施方案中,重组DNA表达构建体可以含有这样的DNA,其目的是表达影响植物表型而又不被翻译成蛋白质的RNA转录物。此类不表达蛋白质的序列包括反义RNA分子、有义RNA分子、具有核酶活性的RNA分子、形成双链的RNA分子(RNAi)。本发明的转基因表达构建体可以用于通过“基因沉默”抑制或减少内源性靶基因的表达。技术人员知道优选的基因或蛋白质,它的抑制导致有利的表型。此类实例包括但不限于下调拟南芥G蛋白的β-亚基以增加根的生物量(Ullah等(2003) Plant Celll5 :393_409)、使环核苷酸门控离子通道(CNGC)失活以改善抗病性(W02001007596)和下调4-香豆酸-CoA连接酶(4CL)基因以改变木质素和纤维素含量(US 2002138870)。在本发明又一个优选的实施方案中,本发明的转基因表达构建体含有在转录时产生RNA酶(核酶)的核酸,其中所述的RNA酶可以作为核酸内切酶发挥作用并催化具有所选择序列的RNA分子。切割所选择的RNA可以导致减少它们编码的多肽产物的产生。核酶具有具备核酸内切酶活性的特异性催化结构域(Kim 和 Ceck 1987, Proc. Natl. Acad. Sci. USA, 84 =8788-8792 ;Gerlach 等,1987,Nature, 328 802-805 ;Forster 和 Symons,1987,Cell,49 :211_220)。已经描述具有 RNA 切割活性的数种不同的核酶基序(Symons, 1992, Annu. Rev. Biochem. ,61 :641_671)。实例包括来自包括烟草环斑病毒在内的I组自我剪接型内含子的序列(Prody等,1986,Science,231 :1577-1580)。其它合适的核酶包括来自具有切割活性的RNA酶P的序列(Yan等(1992)Proc. Natl. Acad. Sci. USA87 :4144_4148)、发夹核酶结构(Berzal-Herranz 等(1992) Geneand Devel. 98 :1207-1210)和基于丁型肝炎病毒的核酶(美国专利第5,625,047号)。已经详细讨论了核酶指导的RNA切割活性的常规设计和优化(Haseloff和Gerlach(1988)Nature 224 :585_591 ;Symons (1992) Annu. Rev. Biochem. 61 :641_671 )。待送递至宿主细胞或宿主植物的特定核酸序列的挑选取决于转化目的。通常,产生转基因植物的主要目的是向植物添加一些有益的性状。在本发明的另一个实施方案中,重组表达构建体包含编码选择标记蛋白质、筛选标记蛋白质、合成活性蛋白质、分解活性蛋白质、抗生物胁迫蛋白质或抗非生物胁迫蛋白质、雄性不育蛋白质或影响植物农学特征的蛋白质的核酸序列。此类性状包括但不限于,除草剂抗性或耐性、昆虫抗性或耐性、(病毒、细菌、真菌、线虫)疾病抗性或耐性;如对干旱、热、寒冷、冰冻、盐胁迫、氧化胁迫的胁迫耐性;增加产量、食品含量、雄性不育、淀粉数量和质量、油含量和质量、维生素含量和质量(例如维生素E)等等。人们可能需要引入赋予任何此类所需要性状的一种或多种核酸序列。此外,本发明的重组表达构建体可以包含人工转录因子(例如锌指型蛋白质;Beerli (2000)Proc. Natl. Acad. Sci. USA 97(4) 1495-500) 这些因子结合至待表达或待抑制的内源性基因的调节区域内(这取决于因子的设计),引起内源性基因的表达或抑制。如下可以通过举例方式而不通过限制方式提及作为可用于这些应用的核酸序列或多肽。通过过表达例如来自短角床杜父鱼(Myoxocephalus scorpius) (W000/00512) >多刺床杜父鱼(Myoxocephalus octodecemspinosus)的抗冰冻多肽、拟南芥菜转录激活物CBF1、谷氨酸脱氢酶(W0 97/12983,W098/11240)、晚期胚胎发生基因(LEA),例如来自大麦(W0 97/13843)、钙依赖性蛋白激酶基因(W0 98/26045)、神经钙蛋白(W0 99/05902)、法尼基转移酶(W0 99/06580, Pei 1998)、铁蛋白(Deak 1999)、草酸氧化酶(W099/04013 ;Dunwell 1998)、DREBlA因子(脱水应答元件B IA ;Kasugal999)、甘露醇或海藻糖合成基因如海藻糖磷酸合酶或海藻糖磷酸磷酸酯酶(W0 97/42326)或通过抑制基因如海藻糖基因(W0 97/50561)改善了对植物胚胎抗生物性胁迫如干旱、高温或低温的保护。特别优选的核酸是编码来自拟南芥菜的转录激活物CBFl (GenBank登录号U77378)或多刺床杜父鱼抗冰冻蛋白(GenBank登录号AF306348)或其功能性等效物的那些核酸。为了在植物中表达,核酸分子必须与合适的启动子有效地连接。本发明重组表达构建体的植物特异性启动子、调节性元件和终止子不需要是植物来源的,并且可以源自病毒或微生物,尤其例如来自侵袭植物细胞的病毒。本发明的又一个主题物是将本发明的内含子序列经同源重组(HR)导入靶核酸序列。作为重组表达构建体与基因组靶核酸序列之间发生HR的前提,重组表达构建体必须含有具有足够长度和同源性的靶核酸序列的片段。在本发明优选的实施方案中,将必须经HR插入目的基因的内含子序列放置在(重组表达构建体内)与优选插入位置的5'和3'区域完全相同的一对DNA序列之间。在此情况下,重组表达构建体可以仅包含内含子序列和为诱导HR事件所需要的核酸序列。在本发明优选的实施方案中,侧翼分布有靶DNA的核酸序列的内含子序列含有能够表达选择标记蛋白质的表达盒,该表达盒允许选择已在转化后发生同源重组或无效重组的转基因植物。驱动选择标记蛋白质表达的表达盒可以在侧翼分布有特异性核酸内切酶或重组酶可识别的HR控制序列,以便于从基因组中去除此表达盒。此类所谓的标记切除法例如cre/lox技术允许从宿主生物基因组中组织特异性地去除表达盒,其根据需要可是诱导性去除(Sauer B (1998)Methods. 14(4) :381_92)。在这种方法中,特异性侧翼序列(Iox序列)与靶基因连接,其中特异性侧翼序列允许稍后借助ere重组酶加以去除。
具体地,本发明涉及包含如下具有在植物中增强基因表达特性的内含子的转基因表达盒I)分离自稻金属硫蛋白样基因的第一内含子序列(BPSI. 1,SEQ IDN01)(GeneBank登录号AP002540,稻(日本栽培变种)基因组DNA,染色体1,PAC克隆P0434B04,基因标识号=“P0434B04. 31”,蛋白质标识=“BAB44010. 1”,互补的连接序列142304.·142409、143021. · 143098、143683. · 143747 ;Hsieh, H. Μ.等,RNA expressionpatterns of a type 2metallothioneine_like gene from rice. Plant Mol. Biol. 32(3),525-529(1996))。该基因包含两个内含子和三个外显子。稻金属硫蛋白样基因的第一内含子(BPSI. I, SEQ ID NO 1)在侧翼分布着5'剪接位点(5'-⑶-3',SEQ ID NO 1中的碱基对(bp) 1-2)和3'剪接位点(5' -CAG-3',SEQID NO: I中的碱基对582-584)。在本发明优选的实施方案中,稻金属硫蛋白样基因的第一内含子(BPSI. 1,SEQ ID NO 1)包含分别与内含子(SEQ IDN0:82)的5'和3'剪接位点毗邻的5'和3'序列的至少28个碱基对、更优选地至少40个碱基对、最优选地至少50个碱基对。在核苷酸水平,稻金属硫蛋白样基因与来自其它单子叶植物或双子叶植物的正向同源基因的编码区共有高的同源性或同一性,例如与玉米CL1155 3mRNA序列(登录号AY109343)具有89%的同一性、与偏生早熟禾(Poa secunda)金属硫蛋白样蛋白质2型mRNA (登录号AF246982. I)具有88%的同一性、与普通小麦(Triticumaestivum)金属硫蛋白mRNA部分编码序列(登录号AF470355. I)具有93%的同一性、与Nicotiana plumbaginifolia金属硫蛋白样蛋白mRNA(登录号NPU35225)具有89%的同一性与甘蓝栽培变种Green King金属硫蛋白样蛋白质2 (登录号AF200712)具有86%的同一1丨生,分别与栽培大麦(Hordeumvulgare subsp. vulgare)金属硫蛋白2型mt2b(登录号HVU511346)和mtb2a(登录号HVU511345)基因的部分mRNA具有95%和88%的同一性(同一性使用BLASTN 2. 2. 9算法计算[2004年5月I日]Altschul,StephenF.等,(1997), Gapped BLAST and PSI-BLAST a new generation of proteindatabasesearch programs, Nucleic Acids Res. 25 :3389_3402)。2)分离自稻蔗糖UDP葡糖基转移酶-2基因的第一内含子序列(BPSI. 2,SEQID NO 2) (GeneBank登录号AC084380,稻(日本栽培变种)基因组DNA,染色体3,BAC0SJNBa0090P23,基因标识号=“0SJNBa0090P23. 15”,蛋白质标识号=AAK5219. 1,互补结合(核苷酸 62884 至 65255,65350. · 65594,65693. · 66011,66098. · 66322,66427. · 66593、66677..66793,66881..67054,67136..67231,67316..67532,67652..67770、67896. · 68088,68209. · 68360,68456. · 68585,69314. · 69453 和 70899. · 72082)。该基因包含13个内含子和14个外显子。稻蔗糖UDP葡糖基转移酶_2基因的第一内含子(BPSI. 2,SEQ ID NO 2)的侧翼分布着5'剪接位点(5' -GU-3',在SEQ ID NO :2中的bpl_2)和3'剪接位点(5' -CAG-3',在SEQ ID NO :2中的bp726_728)。在本发明优选的实施方案中,稻蔗糖Μ)Ρ葡糖基转移酶-2基因的第一内含子(SEQ ID NO :2)包含内含子(SEQ IDNO83)5/ -剪接位点的5'序列的至少19个碱基对和内含子(SEQ ID NO :83) 3'-剪接位点的3'序列/外显子的23个碱基对。在特别优选的实施方案中,内含子BPSI. 2包含分别与内含子5'和3'剪接位点毗邻的5'和3'序列的至少40个碱基对、更优选地是至少50个碱基对。3)分离自稻蔗糖UDP葡糖基转移酶_2基因的第二内含子序列(BPSI. 3,SEQ ID NO 3) ο所述的第二内含子在侧翼分布着5' -GU-3',在SEQ ID NO :3中的bpl_2)和3' (5' -CAG-3',在 SEQ ID NO :3 中的 bp93-953)剪接位点。在本发明优选的实施方案中,稻蔗糖UDP葡糖基转移酶-2基因的第二内含子(SEQID NO: 3)包含内含子(SEQ ID N0:84)5'-剪接位点的5'序列的至少25个碱基对和内含子(SEQ ID N0:84)3'-剪接位点的3'序列的30个碱基对。在特别优选的实施方案中,内含子BPSI. 3包含分别与内含子5'和3'剪接位点毗邻的5'和3'序列的至少40个碱基对、更优选地至少50个碱基对。在核苷酸水平,稻蔗糖Μ)Ρ葡糖基转移酶_2基因与来自其它单子叶植物或双子叶植物的正向同源基因的编码区共有高的同源性或同一性,例如与玉米蔗糖合成酶(SusI)mRNA(登录号L22296. I)具有88%同一性、与普通小麦蔗糖合成酶2型的mRNA(登录号AJ000153)具有85 %的同一性,与大麦(H. vulgare)蔗糖合成酶的mRNA (登录号X69931)具有85%同一性、与甘蔗的蔗糖合成酶-2的mRNA (登录号AF263384. I)具有80%同一性、与稻蔗糖合成酶(S464基因)的mRNA部分序列(登录号D10418)具有95%同一性、与大豆蔗糖合成酶1^應(登录号4 03231)具有79%同一性。同一性已经使用 BLASTN 2. 2. 9 算法计算[2004 年 5 月 I H ]Altschul, StephenF.等,(1997),Gapped BLAST and PSI-BLAST a new generation of protein databasesearch programs,Nucleic Acids Res. 25 :3389_3402)。4)分离自编码蔗糖转运蛋白的稻基因(GeneBank登录号AF280050)的第八内含子序列(BPSI.5,SEQ ID NO :5)。此第八内含子(SEQ ID NO 5)的侧翼分布着5'剪接位点(5' -GU-3 ',在 SEQ ID NO :中的 bpl_2)和 3 '剪接位点(5' -CAG-3 ',在 SEQ IDN05中的bp223-225)。在本发明优选的实施方案中,编码蔗糖转运蛋白的稻基因的第八内含子(SEQ ID NO 5)包含内含子(SEQID NO 86)5/ -剪接位点的5'序列的至少35个碱基对和内含子(SEQ IDNO :86) 3'-剪接位点的3'序列的30个碱基对。在特别优选的实施方案中,内含子BPSI. 5包含分别与内含子的5'和3'剪接位点毗邻的5'和3'序列的至少40个碱基对、更优选地至少50个碱基对。在更优选的实施方案中,第八内含子(BPSI. 5, SEQ ID NO 5)的5'和3'剪接位点使用PCR诱变法进行修饰(SEQID NO 87)以便匹配对于5'剪接位点是5' -AG: :GTAAGT-3' (SEQ ID N0:80)和对于3'剪接位点是5' -CAG: IGT-Si (SEQ ID NO 81)的植物共有序列。5)分离自稻基因(GeneBank登录号BAA94221)的第四内含子序列(BPSI. 6,SEQID NO :6),其中所述的稻基因编码与来自克隆T22013、F12K2的编码推定性脂酶的拟南芥菜染色体II序列(AC006233)具有同源性的未知蛋白质。此第四内含子(SEQ ID NO 6)的侧翼分布着5'剪接位点(5' -GU-3',在SEQ ID NO :6中的bpl_2)和3'剪接位点(5' -CAG-3',在SEQ IDNO :6中的bp768_770)点。在本发明优选的实施方案中,稻基因(登录号BAA94221)的第四内含子(SEQ ID NO 6)包含内含子(SEQ ID NO 88)5/ -剪接位点的5'序列的至少34个碱基对和内含子(SEQ ID NO 88) 3'-剪接位点的3'序列的34个碱基对。在特别优选的实施方案中,内含子BPSI. 6包含分别与内含子的5'和3'剪接位点毗邻的5'和3'序列的至少40个碱基对、更优选地至少50个碱基对。在更优选的实施方案中,第四内含子(BPSI.6,SEQ IDNO :6)的5'和3'剪接位点使用PCR诱变方法进行修饰(SEQ ID NO 89)以便匹配对于5'剪接位点是5' -AG: : GTAAGT-3' (SEQ ID NO: 80)和对于3,剪接位点是5' -CAG::GT-3' (SEQ ID NO 81)的植物共有序列。6)分离自编码推定的肉桂醇脱氢酶的稻基因(登录号BAB90130)的第四内含子序列(BPSI.7,SEQ ID NO :7)。此第四内含子(SEQ ID NO 7)的侧翼分布着5'剪接位点(5' -GU-3',在 SEQ ID NO :7 中的 bpl-27)和 3'剪接位点(5' -CAG-3',在 SEQ IDN0:7中的713-715bp)。在本发明优选的实施方案中,稻基因(登录号BAB90130)的第四内含子(SEQ ID NO 7)包含内含子(SEQID NO 90)5/ -剪接位点的5'序列的至少34个碱基对和内含子(SEQ IDNO 90) 3'-剪接位点的3'序列的26个碱基对)。在特别优选的实施方案中,内含子BPSI. 7包含分别与内含子的5'和3'剪接位点毗邻的5'和3'序列的至少40个碱基对、更优选地至少50个碱基对。在更优选的实施方案,第四内含子(BPSI. 7, SEQ ID NO 7)的5'和3'剪接位点使用PCR诱变方法进行修饰(SEQID NO 91)以便匹配对于5'剪接位点是5' -AG: :GTAAGT-3' (SEQ ID N0:80)和对于3'剪接位点是5' -CAG^GTI' (SEQ ID NO 81)的植物共有序列。7)分离自编码推定的蛋白激酶的稻基因(登录号AP003300)的第三内含子序列(BPSI. 10,SEQ ID N0:10)。此第三内含子(SEQ ID NO 10)的侧翼分布着5'剪接位点(5' -GU-3',在 SEQ ID NO : 10 中的 bpl_2)和 3'剪接位点(5' -CAG-3',在 SEQ ID NO:10中的536-538bp)。在本发明优选的实施方案中,稻基因(登录号AP003300)的第三内含子(SEQ ID NO 10)包含内含子(SEQ ID NO :94)5'-剪接位点的5'序列的至少31个碱基对和内含子(SEQ IDNO :94) 3'-剪接位点的3'序列的31个碱基对。在特别优选的实施方案中,内含子BPSI. 10包含分别与内含子的5'和3'剪接位点毗邻的5'和3'序列的至少40个碱基对、更优选地至少50个碱基对。在更优选的实施方案中,第三内含子(BPSI. 10,SEQ ID NO :10)的Y和:V剪接位点使用PCR诱变方法进行修饰(SEQ ID NO 95)以便匹配对于5'剪接位点是5' -AG: :GTAAGT-3' (SEQID NO :80)和对于3'剪接位点是5' -CAG::GT-3' (SEQ ID NO :81)的植物共有序列。8)分离自编码MADS3盒蛋白的稻基因(登录号L37528)的第一内含子序列(BPSI.11, SEQ ID N0:11)。此第一内含子(SEQ ID N011)的侧翼分布着5'剪接位点(5' -GU-3',在 SEQ ID NO :11 中的 bpl-2)和 3'剪接位点(5' -CAG-3',在 SEQ ID NO 11中的bp329-331)。在本发明优选的实施方案中,稻基因(登录号L37528)的第一内含子(SEQ ID NO 11)包含内含子(SEQID NO 96)5/ -剪接位点的5'序列的至少35个碱基对和内含子(SEQ IDNO 96)3/ -剪接位点的3'序列的34个碱基对。在特别优选的实施方案中,内含子BPSI. 11包含分别与内含子的5'和3'剪接位点毗邻的5'和3'序列的至少40个碱基对、更优选地至少50个碱基对。在更优选的实施方案,第一内含子(BPSI. 11,SEQ ID N011)的5'和3'剪接位点使用PCR诱变方法进行修饰(SEQ ID NO 97)以便匹配对于5'剪接位点是5' -AG: :GTAAGT-3' (SEQ IDNO :80)和对于Y剪接位点是5' -CAG^GTI' (SEQ ID NO 81)的植物共有序列。9)分离自编码推定的腺苷甲硫氨酸脱羧酶的稻基因(登录号CB625805)的第一内含子序列(BPSI. 12,SEQ ID N0:12)。此第一内含子(SEQ IDNO 12)的侧翼分布着5'剪接位点(5' -GU-3',在SEQ ID NO : 12中的bpl_2)和3'剪接位点(5' -CAG-3',在SEQ ID N0:12中的bp959-961)。在本发明优选的实施方案中,稻基因(登录号CB625805) 的第一内含子(SEQ ID NO 12)包含内含子(SEQ ID NO 98)5/ -剪接位点的5'序列的至少26个碱基对和内含子(SEQ ID NO 98)3/ -剪接位点的3'序列的26个碱基对。在特别优选的实施方案中,内含子BPSI. 12包含分别与内含子的5'和3'剪接位点毗邻的5'和3'序列的至少40个碱基对、更优选地至少50个碱基对。10)分离自编码天冬氨酸蛋白酶的稻基因(登录号CF297669)的第一内含子序列(BPSI. 13, SEQ ID NO 13)0此第一内含子(SEQ ID NO 13)的侧翼分布着5'剪接位点(5' -GU-3',在 SEQ ID NO : 13 中的 bpl_2)和 3'剪接位点(5' -CAG-3',在 SEQ ID NO:13中的bp593-595)。在本发明优选的实施方案中,稻基因(登录号CF297669)的第一内含子(SEQ ID NO 13)包含内含子(SEQ ID NO -.99)5'-剪接位点的5'序列的至少26个碱基对和内含子(SEQ IDNO :99) 3'-剪接位点的3'序列的24个碱基对。在特别优选的实施方案中,内含子BPSI. 13包含分别与内含子的5'和3'剪接位点毗邻的5'和3'序列的至少40个碱基对、更优选地至少50个碱基对。11)分离自编码Lec 14b蛋白质的稻基因(登录号CB674940)的第一内含子序列(BPSI. 14,SEQ ID N0:14)。此第一内含子(SEQ ID NO 14)的侧翼分布着5'剪接位点(5' -GU-3',在 SEQ ID NO :14 中的 bpl_2)和 3'剪接位点(5' -CAG-3',在 SEQ ID NO:14中的bpl43-145)。在本发明优选的实施方案中,稻基因(登录号CB674940)的第一内含子(SEQ ID NO 14)包含内含子(SEQ ID NO 100)5/ -剪接位点的5'序列的至少26个碱基对和内含子(SEQID N0:100)3'-剪接位点的3'序列的25个碱基对。在特别优选的实施方案中,内含子BPSI. 14包含分别与内含子的5'和3'剪接位点毗邻的5'和3'序列的至少40个碱基对、更优选地至少50个碱基对。12)分离自编码推定的SalT蛋白质前体的稻基因(登录号BAD37295. I)的5' UTR的第一内含子序列(BPSI. 15,SEQ ID NO : 15)。此第一内含子(SEQID NO 15)的侧翼分布着5'剪接位点(5' -GU-3',在SEQ ID NO :15 中的bpl_2)和 3'剪接位点(5' -CAG-3',在SEQ ID N0:15中的bp312-314)。在本发明优选的实施方案中,稻基因(登录号BAD37295. I)的第一内含子(SEQ IDNO 15)包含内含子(SEQ ID NO :101)5'-剪接位点的5'序列的至少26个碱基对和内含子(SEQ ID NO : 101) 3'-剪接位点的3'序列的25个碱基对。在特别优选的实施方案中,内含子BPSI. 15包含分别与内含子的5'和3'剪接位点毗邻的5'和3'序列的至少40个碱基对、更优选地至少50个碱基对。13)分离自编码推定的reticulon的稻基因(登录号BX928664)的第一内含子序列(BPSI. 16, SEQ ID NO 16)0此第一内含子(SEQ ID NO 16)的侧翼分布着5'剪接位点(5' -GU-3',在 SEQ ID NO : 16 中的 bpl_2)和 3'剪接位点(5' -CAG-3',在 SEQ ID NO:16中的bp650-652)。在本发明优选的实施方案中,稻基因(登录号BX928664)的第一内含子(SEQ ID NO 16)包含内含子(SEQ ID NO 102)5/ -剪接位点的5'序列的至少26个碱基对和内含子(SEQID N0:102)3'-剪接位点的3'序列的23个碱基对。在特别优选的实施方案中,内含子BPSI. 16包含分别与内含子的5'和3'剪接位点毗邻的5'和3'序列的至少40个碱基对、更优选地至少50个碱基对。14)分离自编码葡糖酸氧化酶的稻基因(登录号AA752970)的第一内含子序列(BPSI. 17, SEQ ID N0:17)。此第一内含子(SEQ ID NO 17)的侧翼分布着5'剪接位点(5' -GU-3',在 SEQ ID NO :17 中的 bpl_2)和 3'剪接位点(5' -CAG-3',在 SEQ ID NO:17中的bp266-268)。在本发明优选的实施方案中,稻基因(登录号AA752970)的第一内含 子(SEQ ID NO 17)包含内含子(SEQ ID NO 103)5/ -剪接位点的5'序列的至少26个碱基对和内含子(SEQID N0:103)3'-剪接位点的3'序列的35个碱基对。在特别优选的实施方案中,内含子BPSI. 17包含分别与内含子的5'和3'剪接位点毗邻的5'和3'序列的至少40个碱基对、更优选地至少50个碱基对。15)分离自与AT4g33690相似的稻克隆GI40253643 (登录号AK064428)的第一内含子序列(BPSI. 18,SEQ ID N0:18)。此第一内含子(SEQ IDNO : 18)的侧翼分布着Y剪接位点(5' -GU-3',在 SEQ ID N0:18 中的 bpl-2)和 3'剪接位点(5' -CAG-3',在 SEQID NO :18中的bp544-546)。在本发明优选的实施方案中,稻基因(登录号AK064428)的第一内含子(SEQ ID NO 18)包含内含子(SEQ ID N0:104)5'-剪接位点的5'序列的至少26个碱基对和内含子(SEQ ID NO :104)3'-剪接位点的3'序列的21个碱基对。在特别优选的实施方案中,内含子BPSI. 18包含分别与内含子的5'和3'剪接位点毗邻的5'和
序列的至少40个碱基对、更优选地至少50个碱基对。16)分离自稻克隆GI51091887(登录号AK062197))的第一内含子序列(BPSI. 19,SEQ ID N0:19)。此第一内含子(SEQ ID NO 19)的侧翼分布着5'剪接位点(5' -GU-3',在 SEQ ID NO :19 中的 bpl-2)和 3 '剪接位点(5' -CAG-3 ',在 SEQ ID N0:19 中的bp810-812)。在本发明优选的实施方案中,稻基因(登录号AK062197)的第一内含子(SEQID NO: 19)包含内含子(SEQ ID NO 105)5/ -剪接位点的5'序列的至少26个碱基对和内含子(SEQID N0:105)3'-剪接位点的3'序列的26个碱基对。在特别优选的实施方案中,内含子BPSI. 19包含分别与内含子的5'和3'剪接位点毗邻的5'和3'序列的至少40个碱基对、更优选地至少50个碱基对。17)分离自编码假设的蛋白质克隆(GI33657147)的稻基因(登录号CF279761)的第一内含子序列(BPSI.20,SEQ ID NO :20)。此第一内含子(SEQ ID NO 20)的侧翼分布着5'剪接位点(5' -GU-3',在 SEQ ID NO :20 中的 bpl_2)和 3'剪接位点(5' -CAG-3',在SEQ ID NO :20中的bp369-371)剪接位点。在本发明优选的实施方案中,稻基因(登录号CF279761)的第一内含子(SEQ ID NO 20)包含内含子(SEQ ID NO 106)5/ -剪接位点的5'序列的至少26个碱基对和内含子(SEQ ID NO 106)3/ -剪接位点的3'序列的27个碱基对。在特别优选的实施方案中,内含子BPSI. 20包含分别与内含子的5'和3'剪接位点毗邻的5'和3'序列的至少40个碱基对、更优选地至少50个碱基对。18)分离自编码推定的膜转运蛋白的稻基因(登录号CF326058)的第一内含子序列(BPSI.21,SEQ ID NO :21)。此第一内含子(SEQ ID NO 21)的侧翼分布着5'剪接位点(5' -GU-3',在 SEQ ID NO :21 中的 bpl_2)和 3'剪接位点(5' -CAG-3',在 SEQ ID NO:21中的bp720-722)。在本发明优选的实施方案中,稻基因(登录号CF326058)的第一内含子(SEQ ID NO 21)包含内含子(SEQ ID NO 107)5/ -剪接位点的5'序列的至少26个碱基对和内含子(SEQID N0:107)3'-剪接位点的3'序列的25个碱基对。在特别优选的实施方案中,内含子BPSI. 21包含分别与内含子的5'和3'剪接位点毗邻的5'和3'序列的至少40个碱基对、更优选地至少50个碱基对。19)分离自编码推定的ACT结构域重复蛋白的稻基因(登录号C26044)的第一内含子序列(BPSI.22,SEQ ID NO :22)。此第一内含子(SEQ IDNO 22)的侧翼分布着5'剪接位点(5' -GU-3',在 SEQ ID N0:22 中的 bpl-2)和 3'剪接位点(5' -CAG-3',在 SEQID NO :22中的bp386-388)。在本发明优选的实施方案中,稻基因(登录号C26044)的第 一内含子(SEQ ID NO 22)包含内含子(SEQ ID NO 108)5/ -剪接位点的5'序列的至少26个碱基对和内含子(SEQ ID NO 108) 3'-剪接位点的3'序列的28个碱基对。在特别优选的实施方案中,内含子BPSI. 22包含分别与内含子的5'和3'剪接位点毗邻的5'和
序列的至少40个碱基对、更优选地至少50个碱基对。表I :从中优选地分离本发明内含子的基因,该基因推定的功能、由该基因编码的cDNA和蛋白质
权利要求
1.重组DNA表达构建体,包含a)至少一个在植物或植物细胞中有功能的启动子序列,和b)选自SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21 和 22 所描述序列的至少一个内含子及其功能性等效物,和c)至少一个核酸序列,其中至少一个所述的启动子序列和至少一个所述的内含子序列功能性地连接于至少一个所述的核酸序列,并且其中所述的内含子对所述的核酸序列和/或对所述的启动子序列是异源的。
2.权利要求I所述的重组DNA表达构建体,其中所述其功能性等效物包含内含子的功能性元件并且由如下序列表征,其中所述序列1.具有SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21 或 22 中任意一个所描述内含子序列的至少50个连续碱基对,或2.与由SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、20、21 或 22 中任意一个所描述序列的跨越至少95个连续核酸碱基对的序列具有至少80%同一性,或3.在高度严格条件下与SEQ ID NO :1、2、3、5、6、7、10、11、12、13、14、15、16、17、18、19、 20,21或22中任意一个所描述核酸分子中至少50个连续碱基对的核酸片段杂交。
3.权利要求I至2所述的重组DNA表达构建体,还包含与所述启动子功能性连接的一种或多种额外的调节序列。
4.权利要求3所述的重组DNA表达构建体,其中调节序列选自热休克应答元件、厌氧应答元件、病原体应答元件、干旱应答元件、低温应答元件、ABA应答元件、5'-非翻译基因区、3'-非翻译基因区、转录终止子、多腺苷酸化信号和增强子。
5.权利要求I至4中任意一项所述的重组DNA表达构建体,其中所述的核酸编码i)蛋白质或ii)有义RNA、反义RNA或双链RNA序列。
6.权利要求I至5中任意一项所述的重组DNA表达构建体,其中所述的核酸序列编码选择标记蛋白质、筛选标记蛋白质、合成活性蛋白质、分解活性蛋白质、抗生物胁迫蛋白质或抗非生物胁迫蛋白质、雄性不育蛋白质或影响植物农学特征的蛋白质。
7.权利要求I至6中任意一项所述的重组DNA表达构建体,其中在植物或植物细胞中有功能的所述启动子序列选自a)如SEQID NO 113中核苷酸I至854所述的稻叶绿体蛋白12启动子,或与所述片段具有至少60%同一性的序列,或在严格条件下与所述片段杂交的序列,或包含所述片段中至少50个连续核苷酸的序列,和b)如SEQID NO :114中核苷酸I至1184所述的玉米羟脯氨酸丰富糖蛋白启动子,或与所述片段具有至少60%同一性的序列,或在严格条件下与所述片段杂交的序列,或包含所述片段中至少50个连续核苷酸的序列,和c)如SEQID NO : 115中核苷酸I至1034所述的p-咖啡酰辅酶A 3-0-甲基转移酶启动子,或与所述片段具有至少60%同一性的序列,或在严格条件下与所述片段杂交的序列, 或包含所述片段中至少50个连续核苷酸的序列,和d)如SEQID NO :116中核苷酸I至1440所述的玉米球蛋白-UZmGlbl]启动子(W64A),或与所述片段具有至少60%同一性的序列,或在严格条件下与所述片段杂交的序列,或包含所述片段中至少50个连续核苷酸的序列,和e)如SEQID NO :117中核苷酸I至1589所述的推定的稻H+转运ATP合酶启动子,或与所述片段具有至少60%同一性的序列,或在严格条件下与所述片段杂交的序列,或包含所述片段中至少50个连续核苷酸的序列,和f)如SEQID NO 118中核苷酸I至796所述的推定的稻C-8,7固醇异构酶启动子,或与所述片段具有至少60%同一性的序列,或在严格条件下与所述片段杂交的序列,或包含所述片段中至少50个连续核苷酸的序列,和g)如SEQID NO 119中核苷酸I至1062所述的玉米乳酸脱氢酶启动子,或与所述片段具有至少60%同一性的序列,或在严格条件下与所述片段杂交的序列,或包含所述片段中至少50个连续核苷酸的序列,和h)如SEQID NO 121中核苷酸I至1386所述的稻Lea启动子,或与所述片段具有至少60%同一性的序列,或在严格条件下与所述片段杂交的序列,或包含所述片段中至少50 个连续核苷酸的序列。
8.权利要求I至7中任意一项所述的重组DNA表达构建体,其中所述表达构建体包含权利要求7的启动子与选自如下的内含子的组合i)如SEQID NO :113中核苷酸888至1470所述的BPSI. I内含子,或与所述片段具有至少60%同一性的序列,或在严格条件下与所述片段杂交的序列,或包含所述片段中至少 50个连续核苷酸的序列;和ii)如SEQ ID NO: 120中核苷酸1068至1318所述的BPSI. 5内含子,或与所述片段具有至少60%同一性的序列,或在严格条件下与所述片段杂交的序列,或包含所述片段中至少50个连续核苷酸的序列。
9.权利要求I至8中任意一项所述的重组DNA表达构建体,其中所述的表达构建体包含选自如下的启动子与内含子的组合i)如SEQ ID NO :113、114、115、116、117、118、119、120 或 121 中任意一个所描述的序列,和ii)具有SEQ ID NO :113、114、115、116、117、118、119、120 或 121 中任意一个所描述序列中至少50个连续核苷酸的序列,和iii)与SEQ ID NO :113、114、115、116、117、118、119、120 或 121 中任意一个所描述序列具有至少60 %同一性的序列,和iv)与SEQ ID NO :113、114、115、116、117、118、119、120 或 121 中任意一个所描述序列在严格条件下杂交的序列。
10.表达载体,包含权利要求I至9中任意一项所述的重组表达构建体。
11.转基因细胞或转基因非人生物,包含如权利要求10的表达载体或权利要求I至9 中任意一项所述的表达构建体。
12.权利要求11所述的细胞或非人生物,选自细菌、真菌、酵母和植物。
13.权利要求11或12所述的转基因细胞或非人生物,其中所述的细胞或生物是选自大麦属(Hordeum)、燕麦属(Avena)、黑麦属(Secale)、小麦属(Triticum)、高粱属(Sorghum)、 玉蜀黍属(Zea)、甘鹿属(Saccharum)和稻属(Oryza)的单子叶植物细胞或生物。
14.衍生自权利要求11至13所述转基因细胞生物的细胞培养物、部分或繁殖材料。
15.提供用于增强核酸序列在植物或植物细胞中表达的表达盒的方法,包括将如权利要求I至2中所述的至少一个内含子功能性地连接于所述核酸序列的步骤。
16.用于增强核酸序列在植物或植物细胞中表达的方法,包括将如权利要求I至2中所述的至少一个内含子功能性地连接于所述核酸序列。
17.如权利要求15至16所述的方法,其中在植物中有功能的启动子序列还与所述的核酸序列连接。
18.如权利要求15至16所述的方法,其中内含子经同源重组插入植物基因组DNA内而与所述核酸序列连接。
19.权利要求15至18中任意一项所述的方法,其中所述的植物或植物细胞是单子叶植物或植物细胞。
20.权利要求15至19所述的方法,其中所述的核酸编码如权利要求6中所述的蛋白质或有义RNA、反义RNA或双链RNA。
21.如权利要求11至13所述的转基因生物或从其中衍生的如权利要求14所述的细胞培养物、部分或转基因繁殖材料的用途,用于产生食品、动物饲料、种子、药物或精细化学品O
全文摘要
本发明涉及增强表达的内含子序列,用于鉴定并使用具有增强基因表达特性的内含子的方法。根据本发明教导能够鉴定引起内含子介导性基因表达增强(IME)的内含子。本发明还涉及包含与启动子序列和核酸序列有效连接的所述IME内含子的重组表达构建体和重组表达载体。本发明还涉及用这些重组表达构建体或载体所转化的转基因植物或转基因植物细胞,涉及从其衍生的培养物、部分或繁殖材料,并涉及它们用于制备食品、动物饲料、种子、药物或精细化学品的用途,涉及改善植物生物量,产量或提供需要的表型。
文档编号C12N1/21GK102925479SQ20121040555
公开日2013年2月13日 申请日期2006年3月7日 优先权日2005年3月8日
发明者H-S·宋, C·达曼, M·莫拉, J·A·布朗, L·邢, H·贾 申请人:巴斯福植物科学有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1