人工植物微染色体的制作方法

文档序号:571501阅读:608来源:国知局
专利名称:人工植物微染色体的制作方法
技术领域
本发明涉及植物生物工程领域;具体地讲,涉及人工微染色体以及在植物中制备 这类微染色体的方法。背景目前在染色体工程上的进展使得改变植物基因组成为可能,因此可改变其表型。 当转基因整合到植物基因组时,通常是以随机方式,而且拷贝数无法预知。因此,研究工作 直接针对更好地控制转基因整合。如果有这样的需要,研究人员想知道答案是否在于使用人工微染色体。它们是由 顺式作用(cis-acting) DNA序列元件构建的人工制备的线状或环状DNA分子,所述序列元 件可提供所构建微染色体的复制和分配。据信,人工染色体的产生将会减少或消除与随机基因组整合到天然植物染色体相 关的问题,例如因转基因与宿主植物基因组材料结合而造成的连锁拖曳(linkage drag) 0 人工染色体也可提供比标准转化载体多10-100倍的基因的递送方法,并提供大染色体区 段,用于互补和/或基于图谱的克隆。对于人工染色体复制、稳定性和维持/遗传,已经鉴定出3种组分(i)作为复制 起点的自主复制序列;(ii)起到稳定和维持线状染色体末端作用的端粒;和(iii)作为动 粒装配位点的着丝粒,用于有丝分裂和减数分裂中染色体的适当分离。来自单细胞生物 (例如酵母)的分离着丝粒在高等真核生物中不起作用。美国专利5,270,201 (1993年12月14日授予Richards等人)描述了基于端粒和 任选着丝粒的植物人工染色体。美国专利7,119,250(2006年10月10日授予Luo等人)描述了植物着丝粒的组成。美国专利7,132,240(2006年11月7日授予Richards等人)描述了从任何生物
的着丝粒中有效分离甲基化着丝粒DNA的可行方法。美国专利7,193,128(2007年3月20日授予Copenhaver等人)描述了用植物着 丝粒的核酸序列来产生或增加作物收益的方法。2007年3月15日公布的公布号为WO 2007/030510的PCT申请描述了用自主微染 色体转化植物的制备方法。概述本发明涉及包含功能性着丝粒的人工植物微染色体,其包含(a)至少2个反向 CentC串联重复序列阵列,其中第1阵列包含至少50个拷贝的CentC,第2阵列包含至少50 个拷贝的CentC ;和(b)至少一个拷贝的反转录转座元件,其中反转录转座元件位于第1阵 列和第2阵列之间。在第2个实施方案中,本发明的人工植物微染色体包含选自CentA、CRMl和CRM2 的反转录转座元件。在第3个实施方案中,本发明的人工植物微染色体还包含至少一个功能性端粒。
在第4个实施方案中,人工植物微染色体所包含的功能性着丝粒与着丝粒蛋白 C(CENPC)特异性结合。在第5个实施方案中,玉米植物(corn plant)可包含任何本发明的人工微染色 体。在第6个实施方案中,本发明涉及包含功能性着丝粒的人工植物微染色体,其中 着丝粒与着丝粒蛋白C(CENPC)特异性结合。在第7个实施方案中,本发明涉及分离的多核苷酸,其包含(a)至少2个反向 CentC串联重复序列阵列,其中第1阵列包含至少10个拷贝的CentC,第2阵列包含至少10 个拷贝的CentC ;和(b)至少一个拷贝的反转录转座元件,其中反转录转座元件位于第1阵 列和第2阵列之间。在第8个实施方案中,本发明的分离多核苷酸包含选自CentA、CRMl和CRM2的反 转录转座元件。在第9个实施方案中,本发明涉及分离的多核苷酸,其包含(a)至少一个CentC 串联重复序列阵列,该阵列包含至少10个拷贝的CentC;和(b)至少一个拷贝的选自 CentA、CRMl和CRM2的反转录转座元件。在第10个实施方案中,本发明涉及分离的多核苷酸,其包含(a)至少一个CentC 串联重复序列阵列,该阵列包含至少10个拷贝的CentC ;和(b)CentA、CRMl和CRM2各自至 少一个拷贝。在第11个实施方案中,本发明涉及重组构建体以及包含这类重组构建体的转基 因玉米植物,所述构建体包含本发明的分离多核苷酸。在第12个实施方案中,本发明涉及包含具有功能性着丝粒的人工植物微染色体 的转基因玉米植物的制备方法,所述方法包括(a)使至少一个玉米植物细胞与包含本发明重组构建体的混合物接触;(b)鉴定来自步骤(a)并包含具有功能性着丝粒的人工植物微染色体的至少一个 玉米植物细胞;和(c)使来自步骤(b)的玉米植物细胞再生出能育的玉米植物,其中所述玉米植物 包含具有功能性着丝粒的人工植物微染色体。所述混合物还可包含编码用于刺激细胞生长 的多肽的多核苷酸,其中该多肽选自wuSChel、baby boom、R印A或Lecl。附图简述根据作为本申请组成部分的以下详述和附图及序列表,可以更全面地理解本发 明。

图1.来自Hi-II转化CMC3库1事件#14的玉米胚胎发生愈伤组织(embryogenic calli)的有丝分裂染色体铺片(spread)的荧光原位杂交(FISH)。愈伤组织源自用Tn5_3 改型(retrofit)的线性化BAC克隆库1转化的未成熟胚。前中期(左)和中期(右)核 都显示出20条天然染色体和1条微染色体(箭头和插图)。这两种微染色体对CentC(绿 色一颜色;白色一灰度)着丝粒特异性重复序列和对转化构建体具有特异性的独特标记 探针23715 (红色一颜色;白色一灰度)都呈阳性,其中CentC和23715基本上共同定位 (colocalize)于微染色体(插图)。图2.来自Hi-II转化CMC3库1事件#14的玉米胚胎发生愈伤组织的有丝分裂染色体铺片的FISH。愈伤组织源自用Tn5-3改型的线性化BAC克隆库1转化的未成熟胚。 图A显示中期核,显示出20条天然染色体和2条微染色体(方框)。这两种微染色体对 CentC (绿色一颜色;白色一灰度)着丝粒特异性重复序列和对转化构建体具有特异性的独 特标记探针23715 (红色一颜色;白色一灰度)都呈阳性。图B-D是该方框的更高放大倍数 图,显示出微染色体(箭头),其中=B-RDAPI ;C-DAPI+23715探针(红色一颜色;白色一 灰度);和D-DAPI+CentC探针(绿色一颜色;白色一灰度)。图3.来自Hi-II转化CMC3库1事件#14的玉米胚胎发生愈伤组织的有丝分裂染 色体铺片的免疫荧光。愈伤组织源自用Tn5-3改型的线性化BAC克隆库1转化的未成熟 胚。图A显示中期核,显示出20条天然染色体和1条微染色体(箭头)。天然染色体和微 染色体的所有着丝粒对着丝粒蛋白C(即CENPC,一种着丝粒/动粒特异性蛋白)(红色一 颜色;白色一灰度)都呈阳性。图B-C是微染色体的更高放大倍数图,其中=B-RDAPI ;和 C-DAPI+CENPC(红色一颜色;白色一灰度)。CENPC的形态和免疫学定位表明,微染色体由 各自具有功能性着丝粒的两条姐妹染色单体组成。图4.图A-来自Hi-II转化CMC3库1事件#14的玉米胚胎发生愈伤组织的有丝 分裂染色体铺片的免疫荧光。愈伤组织源自用Tn5-3改型的线性化BAC克隆库1转化的未 成熟胚。在分裂后期观察到天然染色体和微染色体(方框)的姐妹染色单体分离。天然染 色体和微染色体的所有着丝粒对着丝粒蛋白C(即CENPC,一种着丝粒/动粒特异性蛋白) (红色一颜色;白色一灰度)都呈阳性。图B是A中方框的更高放大倍数图,显示出微染色 体姐妹染色单体的分离(双箭头),表明微染色体同正常染色体一样,在有丝分裂中可以分
1 O图5.来自Hi-II转化CMC3库3事件#12的玉米胚胎发生愈伤组织的有丝分裂 染色体铺片的FISH。愈伤组织源自用Tn5-3改型的线性化BAC克隆库3转化的未成熟胚。 显示了四-非整倍体(tetra-aneuploid) (39条染色体,缺乏1个拷贝的染色体6)中期 核,显示出天然染色体和1条微染色体(箭头)。微染色体对CentC (绿色一颜色;白色一 灰度)着丝粒特异性重复序列和对转化构建体具有特异性的独特标记探针23715(红色一 颜色;白色一灰度)都呈阳性。图B-D是方框区的更高放大倍数图,显示出微染色体(箭 头)和天然染色体,其中A-仅DAPI ;B-DAPI+CentC探针(绿色一颜色;白色一灰度);和 D-DAPI+23715探针(红色一颜色;白色一灰度)。如微染色体的FISH染色所示,CentC重 复序列的两极定位表明它是由两条姐妹染色单体组成,这与天然染色体中所观察的一样。图6.来自Hi-II转化CMC3库3事件#12的玉米胚胎发生愈伤组织的有丝分裂染 色体铺片的FISH。愈伤组织源自用Tn5-3改型的线性化BAC克隆库3转化的未成熟胚。图 A-四-非整倍体(39条染色体,缺乏1个拷贝的染色体6)中期核,显示出天然染色体和2 条微染色体(箭头)。微染色体对CentC (绿色一颜色;白色一灰度)着丝粒特异性重复序 列和对转化构建体具有特异性的独特标记探针23715 (红色一颜色;白色一灰度)都呈阳 性。图B是2条微染色体的更高放大倍数图,显示出CentC重复序列和独特标记23715的 丰度的变化。图7.来自Hi-II转化CMC3库3事件#12的玉米胚胎发生愈伤组织的有丝分裂染 色体铺片的FISH。愈伤组织源自用Tn5-3改型的线性化BAC克隆库3转化的未成熟胚。图 A-四-非整倍体(39条染色体,缺乏1个拷贝的染色体6)核,显示出在早后期天然染色体和2条微染色体(方框)的姐妹染色单体的分离。2条微染色体的姐妹染色单体对CentC(绿 色一颜色;白色一灰度)着丝粒特异性重复序列和对转化构建体具有特异性的独特标记探 针23715 (红色一颜色;白色一灰度)都呈阳性。图B-C是2条微染色体(双箭头)的更高 放大倍数图,显示出B-DAPI+CentC探针(绿色一颜色;白色一灰度);和C-DAPI+23715探 针(红色一颜色;白色一灰度)。在后期,微染色体姐妹染色单体的分离表明,功能性着丝 粒的存在允许在有丝分裂期间进行分离。图8.来自Hi-II转化CMC3库3事件#12的玉米胚胎发生愈伤组织的有丝分裂染 色体铺片的免疫荧光。愈伤组织源自用Tn5-3改型的线性化BAC克隆库3转化的未成熟胚。 图A表明四-非整倍体(39条染色体,缺乏1个拷贝的染色体6)中期核,显示出39条天然 染色体和2条微染色体(箭头)。天然染色体和微染色体的所有着丝粒对着丝粒蛋白C (即 CENPC,一种着丝粒/动粒特异性蛋白)(红色一颜色;白色一灰度)都呈阳性。图B-C是微 染色体的更高放大倍数图。CENPC免疫学定位模式(每条微染色体2次聚焦)表明,微染色 体由两条姐妹染色单体组成,而且各自具有能形成动粒复合物的功能性着丝粒。图9.来自Hi-II玉米转化事件的再生植物根尖的有丝分裂染色体铺片的FISH。 植物源自用Tn5-3改型的线性化hem. pkl28. j21转化的未成熟胚。图A显示非整倍体中期 核,显示出19条天然染色体和1条微染色体(箭头)。微染色体对CentC (绿色一颜色;白 色一灰度)着丝粒特异性重复序列和对转化构建体具有特异性的独特标记探针23715(红 色一颜色;白色一灰度)呈阳性。图B-D是微染色体的更高放大倍数图,其中B-仅DAPI ; C-DAPI+CentC探针(绿色一颜色;白色一灰度);和D-DAPI+23715探针(红色一颜色;白 色一灰度)。图10.来自Hi-II玉米转化事件的再生植物根尖的有丝分裂染色体铺片的免疫荧 光。植物源自用Tn5-3改型的线性化bacm.pkU8. j21转化的未成熟胚。图A显示非整倍体 中期核,显示出19条天然染色体和1条微染色体(箭头)。天然染色体和微染色体的所有 着丝粒对着丝粒蛋白C(即CENPC,一种着丝粒/动粒特异性蛋白)(红色一颜色;白色一灰 度)都呈阳性。图B-C是微染色体的更高放大倍数图,其中=B-RDAPI ;和C-DAPI+CENPC。 CENPC免疫学定位模式(每条微染色体2次聚焦)表明,微染色体由两条姐妹染色单体组 成,而且各自具有能形成动粒复合物的功能性着丝粒。图11.经纤维-FISH显示的玉米着丝粒精细结构。4个着丝粒重复序列CentC (绿 色一颜色;白色一灰度)以及CentA、CRMl和CRM2的总和(红色一颜色;灰色一灰度)用 于含单条玉米染色体的燕麦-玉米附加系(addition line)的伸展DNA纤维的多色FISH。 这显示了长达百万碱基的杂交延伸,这对每条染色体都是唯一的。图12.玉米着丝粒模型。着丝粒的组成用玉米着丝粒重复序列名称来表示。CentC 的连续阵列可由成百上千个重复元件组成。其它玉米着丝粒特异性反转录转座元件(例如 CentAXRMl和/或CRM2)可整合到CentC阵列中,在彼此之间和/或在着丝粒区中。除了 着丝粒特异性反转录转座子以外,其它反转录转座子可整合在阵列中,整合到元件(例如 CentA、CentC、CRMl和CRM2)中和/或整合而形成中断CentC串联重复序列阵列的插入序 列。该图表示玉米CentC元件(箭头)的一个组成模型,构成2组头尾串联的重复序列。可 发现相反方向的CentC阵列,形成着丝粒DNA的大区段。减数分裂后期染色体的纤维-FISH 和FISH以及克隆着丝粒DNA区段的斑点杂交分析表明,具有高密度的所有4个着丝粒重复序列(CentC、CRMl、CentA和CRM2)的区域都参与了动粒的形成。图13. BAC克隆的改型和体外转化到线状人工微染色体中。BAC克隆DNA用定制的 转座子Tn5-3改型,所述转座子Tn5-3包含氨苄青霉素抗性基因(AF),复制起点(ori),选 择标记(MO-PAT)和可见标记(DS-RED2)标记(处于泛蛋白启动子(UBIIZM PRO)之下), 被卡那霉素抗性gen(KAN1O基因分开的处于反向的端粒序列(TEL),以及归巢限制酶I-Ppo I>I-Ceu I和PI-Sce I的位点。ME位于转座子嵌合末端。用归巢限制酶I-Ceu I消化BAC 构建体,将环状BAC转化为邻接端粒序列的线状DNA分子。图14.对于来自CMC3库1事件#14的愈伤组织中期核,探测着丝粒和端粒元件。 用荧光标记探针,对着丝粒特异性CentC重复序列(绿色一颜色;白色一灰度)和端粒特异 性telo-31重复序列(红色一颜色;白色一灰度)进行FISH分析。标明这些探针的定位,用 于天然染色体,CentC用星号(*)标明,telo-31用双箭头标明。图B-E显示微染色体的更 高放大倍数图。图B-DAPI+Cent C+telo31 (绿色/红色一颜色;白色一灰度);C-仅DAPI ; D-DAPI+CentC探针(绿色一颜色;白色一灰度);和E-DAPI+23715探针(红色一颜色;白 色一灰度)。telo-31杂交模式表明,微染色体(箭头)具有与天然染色体类似的功能性端 粒。图15.对于来自CMC3亚库1. 3事件#27的愈伤组织中期核,探测着丝粒和端粒元 件。用荧光标记探针,对着丝粒特异性CentC重复序列(绿色一颜色;白色一灰度)和端粒 特异性telo-31重复序列(红色一颜色;白色一灰度)进行FISH分析。标明这些探针的定 位,用于天然染色体,CentC用星号(*)标明,telo-31用双箭头标明。图B-E显示微染色体 的更高放大倍数图。图B-DAPI+Cent C+telo-31 (绿色/红色一颜色;白色一灰度);C-仅 DAPI ;D-DAPI+CentC探针(绿色一颜色;白色一灰度);和E-DAPI+23715探针(红色一颜 色;白色一灰度)。telo-31杂交模式表明,微染色体(箭头)具有与天然染色体类似的功 能性端粒。详述本文所提出的各参考文献的公开内容通过引用全部结合到本文中。除非另有说明,否则本文和所附权利要求书所用的术语前未加数词修饰时包括其 复数形式。因此,例如“植物”包括多种(个)这样的植物;“细胞”包括一种(个)或多种 (个)细胞以及本领域技术人员已知的等价物,等等。就本说明书而言,使用了大量术语和缩略语。提供以下定义。“可读框”缩写为0RF。“美国典型培养物保藏中心(American Type Culture Collection) ”缩写为 ATCC。本文所用的术语“人工植物微染色体(artificial plant minichromosome) ”是指 包含着丝粒和端粒的任何人工产生的染色体,其具有与天然染色体类似的性质,例如在有 丝分裂和减数分裂期间可复制和分离并因而在细胞分裂期间是自主的并可传递。术语人工 微染色体、微染色体和人工染色体在本文中可互换使用。术语“功能性着丝粒”是指真核细胞的染色体纺锤体附着区,其功能与天然染色体 的着丝粒类似。它是染色体的最凝聚和缢缩区,在有丝分裂期间纺锤丝与它连接在一起。在 典型的动植物细胞有丝分裂期间,每条染色体纵向分裂成2个姐妹染色体,最终分离并进 入有丝分裂纺锤体的两极。在有丝分裂一开始,当姐妹染色体分裂但仍成对时,每条染色体沿其长度附着在纺锤体特定位点。该位点称为着丝粒或纺锤体附着区。着丝粒由高度重复 DNA组成,也就是说DNA序列在基因组中存在许多拷贝。术语“阵列”是指元件的有序排列。术语“串联重复序列”是指呈相同方向的相同碱基序列的多个拷贝。因此,它们是 例如沿染色体方向多次重复的串联核苷酸序列的拷贝。任何串联重复序列阵列可包括单个 元件的多个拷贝,或者可具有至少一个散布在阵列内或阵列元件内的其它元件。术语“相反方向,,是指相同序列的两个或更多拷贝呈相反形式。术语“反转录转座元件”和“反转录转座子”在本文中可互换使用,是指可转移到 DNA新位置上的遗传元件,即可通过先制备本身的RNA拷贝,再用逆转录酶制备该RNA的 DNA拷贝,然后将该DNA拷贝插入靶DNA。反转录转座子是可在基因组中扩增自己的遗传元 件,是在许多真核生物DNA中广泛存在的组分。它们是转座子的一个亚类。它们在植物中 特别丰富,常常是植物细胞核DNA的主要成分。术语“功能性端粒”是指在真核细胞染色体末端发现的结构。端粒的功能是通过保 护染色体末端,以免重组、与其它染色体融合或被核酸酶降解。它们允许细胞区分随机DNA 断裂与染色体末端。它们在确定正常细胞分裂次数方面也起到重要作用。端粒是线状染色 体末端的高度重复DNA区,其功能是作为可任意使用的缓冲物质(disposable buffer)。每 当线状真核染色体在晚S期复制时,DNA聚合酶复合物不能一路复制到染色体末端;如果没 有端粒,这将会很快导致维持细胞活性所需的重要遗传信息的丢失。本文所用的“核酸”是指多核苷酸,包括脱氧核糖核苷酸或核糖核苷酸碱基的单链 或双链多聚体。核酸也可包括片段和修饰核苷酸。因此,术语“多核苷酸”、“核酸序列”、“核 苷酸序列”或“核酸片段”是可互换使用的,是指单链或双链RNA或DNA的多聚体,任选包含 合成、非天然或改变的核苷酸碱基。核苷酸(通常呈5'-单磷酸形式)用如下单字母命 名“A”代表腺苷或脱氧腺苷(分别对于RNA或DNA),“C”代表胞苷或脱氧胞苷。“G”代表 鸟苷或脱氧鸟苷。“U”代表尿苷,“T”代表脱氧胸苷,“R”代表嘌呤(A或G),“Y”代表嘧啶 (C或T),“K”代表G或T,“H”代表A或C或T,“ I,,代表肌苷,“N”代表任何核苷酸。术语“在功能上等同的亚片段”和“功能等同的亚片段”在本文中可互换使用。这 些术语是指分离的核酸片段的一部分或亚序列,其中保留了改变基因表达或产生某种表型 的能力,无论所述片段或亚片段是否编码活性酶。例如,片段或亚片段可用于设计嵌合基 因,以在转化植物中产生所需表型。可设计嵌合基因,用于通过连接核酸片段或其亚片段而 进行抑制,无论它是否编码活性酶、相对于植物启动子序列而言呈有义或反义方向。术语“保守区”或“基序”是指在进化相关蛋白质的比对序列的特定位置上保守的 一组氨基酸。尽管在其它位置的氨基酸可在同源蛋白质之间变化,但是在特定位置上高度 保守的氨基酸表明是蛋白质结构、稳定性或活性必不可少的氨基酸。因为它们通过蛋白质 同源物家族比对序列的高度保守而鉴定,所以它们可用作标识物或“标记(signature) ”,以 确定具有新测定序列的蛋白质是否属于先前已鉴定的蛋白质家族。术语“同源性”、“同源”、“基本相似”、“基本相同”和“基本对应”在本文中可互换 使用。它们是指这样的核酸片段其中一个或多个核苷酸碱基的改变不影响核酸片段介导 基因表达或产生某种表型的能力。这些术语也指本发明核酸片段的修饰(例如缺失或插 入一个或多个核苷酸),而与未修饰的原始片段相比,基本上不改变所得核酸片段的功能特性。这些术语还指具有或没有修饰、缺失、插入或取代的氨基酸序列、多肽或肽片段,与未修 饰的原始序列相比,所述修饰、缺失、插入或取代基本上不改变功能特性。因此,本领域技术 人员可以理解,本发明包括的不止是具体的示例性序列。此外,技术人员知道,本发明所包括的基本相似的核酸序列也可按照它们与本文 举例的序列杂交(在中等严格性条件下,例如0. 5XSSC、0. 1% SDS, 60°C )的能力,或与本文 所公开的核苷酸序列的任何部分和本文所公开的任何核酸序列的功能等同物杂交的能力 来定义。严格性条件可调节到从筛选中度类似片段(例如远缘相关生物体的同源序列),到 筛选高度类似片段(例如能复制密切相关生物的功能性酶的基因)。杂交后洗涤确定严格 性条件。术语“选择性杂交”包括这样的杂交在严格性杂交条件下,核酸序列与特定核 酸靶序列杂交,检测到其杂交程度比其与非靶核酸序列杂交程度高(例如超过背景至少2 倍),因而可基本上排除非靶核酸。选择性杂交序列通常彼此具有约至少80%序列同一性, 或90%序列同一性,至多100%序列同一性并包括100%序列同一性(即完全互补)。术语“严格性条件”或“严格性杂交条件”包括探针将会与其靶序列选择性杂交的 条件。严格性条件是序列依赖性的,在不同情况下将会不同。对于控制杂交和/或洗涤条 件的严格性而言,可鉴定出与探针100%互补的靶序列(同源探测)。或者,严格性条件可 调节到允许序列中的某些错配,使得可检测较低程度的相似性(异源探测)。通常,探针长 度小于约1000个核苷酸,任选小于500个核苷酸。通常,严格性条件如下其中盐浓度小于约1. 5M Na离子,通常约0. 01-1. OM Na离 子浓度(或其它盐),pH 7.0-8.3,而温度至少约301(对于短探针,例如10-50个核苷酸) 和至少约60°C (对于长探针,例如大于50个核苷酸)。通过添加去稳定剂(destabilizing agent)例如甲酰胺,也可得到严格性条件。示例性的低严格性条件包括在缓冲液(30_35% 甲酰胺、IM NaCl、l% SDS(十二烷基硫酸钠))中在37°C杂交,并在1X-2X SSC(20X SSC = 3. OM NaCl/0. 3M柠檬酸三钠)中在50_55°C洗涤。示例性的中等严格性条件包括在40-45% 甲酰胺、IM NaCl、l% SDS中在37°C杂交,并在0. 5X-1X SSC中在55_60°C洗涤。示例性的 高严格性条件包括在50%甲酰胺、IM NaCl、l% SDS中在37°C杂交,并在0. IX SSC中在 60-65 °C 洗涤。特异性通常因杂交后洗涤而异,关键因素是最终洗涤液的离子强度和温度。对于 DNA-DNA 杂合体,Tm 可按 Meinkoth 等((1984)Anal Biochem 138 :267-284)的等式来求 出=Tm = 81. 5°C +16. 6 (log Μ) +0.41(% GC)-0. 61 甲酰胺)-500/L ;其中 M 是单价阳离 子的体积摩尔浓度,% GC是鸟苷酸和胞苷酸在DNA中所占的百分率,%甲酰胺是杂交溶 液中甲酰胺的百分率,而L是按碱基对计杂合体的长度。Tm是50%互补靶序列与完全匹 配的探针杂交的温度(在指定离子强度和PH下)。每错配1%,Tm降低约1°C ;因此,Tffl, 杂交和/或洗涤条件可调整到与所需同一性的序列杂交。例如,如果寻找具有>90%同 一性的序列,则1可下降10°C。通常,在指定离子强度和pH下,对于特定序列及其互补序 列而言,选择严格性条件比热解链温度(Tm)低约5°C。然而,高严格性条件可使用在比热 解链温度(Tm)低1°C、2°C、3°C或4°C的温度下进行杂交和/或洗涤;中等严格性条件可使 用在比热解链温度(Tm)低6°C、7°C、8°C、9°C或10°C的温度下进行杂交和/或洗涤;低严 格性条件可使用比热解链温度(Tm)低irC、12°C、13°C、14°C、15°C或20°C的温度下进行杂交和/或洗涤。用该等式、杂交和洗涤液组成以及所需要的Tm,本领域普通技术人员将 会知道杂交和/或洗涤液严格性的变化如上所述是固有的。如果所需错配程度导致Tm低 于45°C (水溶液)或32°C (甲酰胺溶液),最好提高SSC浓度,使得可以使用更高温度。 有关核酸杂交的更详细指南可参见Ti jssen, Laboratory Techniques in Biochemistry and Molecular Biology—Hybridization with Nucleic Acid Probes,第 I 部分,第 2 章, “Overview of principles of Hybridization and the strategy of Nucleic Acid Probe assays", Elsevier, New York(1993);禾口 Current Protocols in Molecular Biology,第 2 章,Ausubel 等主编,Greene Publishing and ffiley-Interscience, New York(1995)。杂 交和/或洗涤条件可用至少10分钟、30分钟、60分钟、90分钟、120分钟或240分钟。对于核酸或多肽序列而言,术语“序列同一性”或“同一性”是指两个序列中的核 酸碱基或氨基酸残基当在特定比较窗口比对最大对应性时是相同的。术语“ %序列同一性” 是指通过在一个比较窗口比较两个优化比对序列所求出的值,其中对于两个序列优化比对 而言,当与参考序列(其不包括插入或缺失)比较时,在比较窗口中多核苷酸或多肽序列 部分可包括插入或缺失(即空位)。百分率是这样求出的通过测定两条序列中存在的相 同核酸碱基或氨基酸残基的位置数而得到匹配位置数,再用匹配位置数除以比较窗口的总 位置数,并将结果乘以100,就得到%序列同一性。%序列同一性的有用实例包括但不限于 50%、55%、60%、65%、70%、75%、80%、85%、90%或 95%、或 50% -100%之间的任何整 数百分数。这些同一性可用本文所述的任何程序来测定。用设计用于测定同源序列的各种比较方法,可进行序列比对和%同一性或相似性 计算,这些方法包括但不限于LASERGENE生物信息学计算程序集(suite)的MegAlign 程 序(DNASTAR Inc. ,Madison,WI) 0就本申请的内容而言,可以理解,当用序列分析软件进行 分析时,分析结果可根据所用程序的“默认值”,除非另有说明。本文所用的“默认值”是指软 件在首次初始化时原本带有的任何一组数值或参数。术语“Clustal V比对方法”相当于标 记为 Clustal V 的比对方法(描述于 Higgins 和 Sharp (1989) CABIOS 5:151-153 ;Higgins 等(1992)Comput Appl Biosci 8:189-191)并可参见LASERGENE生物信息学计算程序集的 MegAlign 程序(DNASTAR Inc.,Madison, WI)。对于多重比对,默认值相当于空位罚分= 10,空位长度罚分=10。采用Clustal方法,对于成对比对和蛋白质序列的%同一性计算的 默认参数为KTUPLE = 1,空位罚分=3,WINDOW = 5和DIAG0NALSSAVED = 5。对于核酸,这些 参数为 KTUPLE = 2,空位罚分=5,WIND0W = 4和DIAGONALS SAVED = 4。当用 Clustal V程 序比对序列后,可通过查看同一程序中的“序列距离”表而得到“%同一性”。术语“Clustal W比对方法”相当于标记为Clustal W的比对方法(描述于Higgins和Sharp (1989) CABIOS 5 :151-153 ;Higgins 等(1992) Comput Appl Biosci 8 :189-191)并可参见 LASERGENE 生物 信息学计算程序集的MegAlign 第6. 1版程序(DNASTAR Inc.,Madison,WI)。多重比对的 默认参数是空位罚分=10,空位长度罚分=0.2,延迟发散序列(%) =30,0嫩转换权重= 0. 5,蛋白质权重矩阵=Gonnet kries,DNA权重矩阵=IUB。当用Clustal W程序比对序 列后,可通过查看同一程序中的“序列距离”表而得到“%同一性”。术语“BLASTN比对方法” 是由国立生物技术信息中心(National Center forBiotechnology Information,NCBI) 供的算法,用于用默认参数比较核苷酸序列。本领域技术人员都知道,多个水平的序列同一性可用于从其它物种中鉴别出多肽,其中这样的多肽具有相同或相似功能或活性。%同一性的有用实例包括但不限于50%、 55%、60%、65%、70%、75%、80%、85%、90%、或 95% 或 50% -100 % 的任何整数百分率。 的确,50% -100%的任何整数的氨基酸同一性可用于描述本发明,例如51^^52^^53%, 54%,55%,56%,57%,58%,59%,60%,61 %,62%,63%,64%,65%,66%,67%,68%, 69%,70%,71 %,72%,73%,74%,75%,76%,77%,78%,79%,80%,81 %,82%,83%, 84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98% 或 99%。术语“基因”是指表达特定蛋白质的核酸片段,其包含编码序列之前(5'非编码序 列)和之后(3'非编码序列)的调节序列。“天然基因”是指在自然界发现的带有其自身调 节序列的基因。“嵌合基因”是指并非天然基因的任何基因,其包含在自然界中不在一起的 调节序列和编码序列。因此,嵌合基因可包含来自不同来源的调节序列和编码序列,或来自 同一来源、但与自然界中所排列方式不同的调节序列和编码序列。“外源”基因是指在宿主 生物中并非正常存在的、而是通过基因转移而导入宿主生物的基因。外源基因可包含插入 到非天然生物体或嵌合基因中的天然基因。“转基因”是通过转化方法导入基因组的基因。术语“基因组”当用于植物细胞时,不仅包括细胞核内染色体DNA,而且还包括细胞 的亚细胞组分(例如线粒体或质体)内的细胞器DNA。“密码子优化基因”或“密码子优选基因”是指经设计其密码子使用频率模拟宿主 细胞的优选密码子使用频率的基因。“等位基因”是占据染色体上特定位置的基因的若干替代形式之一。当在染色体上 特定位置存在的所有等位基因都相同时,则植物在该基因座上就是纯合的。如果在染色体 上特定位置存在的等位基因不同,则植物在该基因座上就是杂合的。术语“编码序列,,是指编码特定氨基酸序列的多核苷酸序列。“调节序列,,是指位 于编码序列上游(5'非编码序列)、中间或下游(3'非编码序列)并可影响转录、RNA加 工或稳定性、或所连接编码序列的翻译的核苷酸序列。调节序列可包括但不限于启动子、 翻译前导序列、内含子、聚腺苷酸化识别序列、RNA加工位点、效应物结合位点和茎-环结构 (stem-loop structure)0术语“启动子”是指能控制编码序列或功能性RNA的表达的DNA序列。启动子序 列由近侧和远侧上游元件组成,后者常称为增强子。因此,“增强子”是能刺激启动子活性 的DNA序列,它可以是启动子的天然元件或者是插入其中以增强启动子水平或组织特异性 的异源元件。启动子可全部来自天然基因,或者是由来自在自然界发现的不同启动子的不 同元件组成,或者甚至包含合成DNA区段。本领域技术人员知道,不同启动子可指导不同组 织或细胞类型或不同发育时期的基因表达、或响应不同环境条件的基因表达。本领域技术 人员还知道,因为在大多数情况下并未完全界定调节序列的准确边界,所以某些变异的DNA 片段可具有相同的启动子活性。在大多数细胞种类中、在大多数时间都能使基因得以表达 的启动子通常称为“组成型启动子”。不断发现用于植物细胞的不同类型的新启动子;大量 实例可参见 Okamuro 禾口 Goldberg(1989)Biochemistry of Plants 15:1—82。术语“翻译前导序列”是指位于基因的启动子序列与编码序列之间的多核苷酸序 列。翻译前导序列存在于翻译起始序列的完全加工的mRNA上游。翻译前导序列可影响初级 转录物成为mRNA的加工、mRNA稳定性或翻译效率。翻译前导序列的实例已有描述(Turner禾口 Foster(1995)Mol Biotechnol 3:225-236)。术语“3'非编码序列”、“转录终止子”或“终止序列”是指位于编码序列下游的DNA 序列,包括聚腺苷酸化识别序列和编码调节信号的其它序列,所述信号能够影响mRNA加工 或基因表达。聚腺苷酸化信号通常表征为影响聚腺苷酸链添加到mRNA前体的3'端。不同 3'非编码序列的使用实例可参见hgelbrecht等(1989)Plant Celll :671_680。术语“RNA转录物”是指由RNA聚合酶催化DNA序列转录而产生的产物。当RNA转 录物是DNA序列的完全互补拷贝时,它就称为初级转录物。当初级转录物经转录后加工而 得到RNA序列时,该RNA转录物则称为成熟RNA。“信使RNA”或“mRNA”是指不含内含子并 可由细胞翻译为蛋白质的RNA。“cDNA”是指采用逆转录酶由mRNA模板合成并与之互补的 DNA。cDNA可以是单链或使用DNA聚合酶I克列诺(Klenow)片段而转化为双链形式。“有 义”RNA是指包含mRNA并可在细胞内或体外翻译为蛋白质的RNA转录物。“反义RNA”是指 与靶初级转录物或mRNA的全部或部分互补的RNA转录物,其可阻断靶基因的表达(美国专 利5,107,065)。反义RNA可以与特定基因转录物的任何部分(即5'非编码序列、3'非编 码序列、内含子或编码序列)互补。“功能性RNA”是指不能翻译、但能影响细胞加工的反义 RNA、核酶RNA或其它RNA。对于mRNA转录物而言,术语“互补”和“反向互补”在本文中可 互换使用,用于限定反义信使RNA。术语“有效连接”是指单一核酸片段上核酸序列的连接使得一个序列的功能由其 它序列调节。例如,当启动子能够调节编码序列的表达(即编码序列处于启动子的转录控 制之下),则该启动子与编码序列的连接就是有效连接。编码序列可以有义或反义方向与调 节序列有效连接。在另一实例中,本发明的互补RNA区可直接或间接地有效连接到靶mRNA 的5'、或靶mRNA的3'、或连接在靶mRNA内,或第一互补区为靶mRNA的5‘,而其互补序 列为靶mRNA的3'。本文所用的标准重组DNA和分子克隆技术是本领域众所周知的,详见Sambrook 等,Molecular Cloning :A Laboratory Manual ;Cold Spring Harbor Laboratory:Cold Spring Harbor,NY(1989)。转化方法是本领域技术人员众所周知的,在下文进行描述。“PCR”或“聚合酶链式反应”是特定DNA区段的合成技术,由一系列重复的变性、退 火和延伸循环组成。通常,双链DNA经热变性,与靶区段的3'边界互补的两个引物在低温 下退火,然后在中温下延伸。一组这样的3个连续步骤称为一次“循环”。术语“重组”是指两个不同的分离的序列区段的人工组合,例如通过化学合成或通 过遗传工程技术操作分离的核酸区段。术语“质粒”、“载体”和“盒”是指额外的染色体元件,其通常携带并非细胞重要代 谢组成部分的基因,通常呈环状双链DNA片段形式。这样的元件可以是自主复制序列、基因 组整合序列、噬菌体或核苷酸序列、线状或环状、单链或双链DNA或RNA,来自任何来源,其 中许多核苷酸序列连接或重组成独特构建体,这样的构建体可将启动子片段和选定基因产 物的DNA序列以及合适的3'非翻译序列引入细胞中。“转化盒”是指含有外源基因以及除 外源基因以外的能促进特定宿主细胞转化的元件的特定载体。“表达盒”是指含有外源基因 以及除外源基因以外的能允许该基因在外源宿主中表达的元件的特定载体。术语“重组构建体”、“表达构建体”、“嵌合构建体”、“构建体”和“重组DNA构建体” 在本文中可互换使用。重组构建体包含核酸片段的人工组合,例如在自然界并不在一起的调节序列和编码序列。例如,嵌合构建体可包含来自不同来源的调节序列和编码序列,或来 自同一来源、但排列方式与自然界不同的调节序列和编码序列。这样的构建体可单独使用 或与载体联用。如果使用载体,则载体的选择取决于转化宿主细胞所用的方法,这是本领域 技术人员众所周知的。例如,可使用质粒载体。技术人员非常清楚,遗传元件必须存在于载 体中,以便成功地转化、选择和扩增含有任何本发明分离核酸片段的宿主细胞。技术人员也 将会知道,不同的独立转化事件可导致不同水平和模式的表达(Jones等(1985)EMB0 J 4 2411-2418 ;De Almeida 等(1989)Mol Gen Genet 218 :78-86),因此必须筛选多个事件,以 便获得表现出所需表达水平和模式的品系。可通过DNA的DNA印迹分析、mRNA表达的RNA 印迹分析、蛋白质表达的免疫印迹分析或表型分析等方法来完成这样的筛选。本文所用的术语“表达”是指产生功能性终产物(例如前体或成熟形式的mRNA或 蛋白质)。术语“导入”是指将核酸(例如表达构建体)或蛋白质导入细胞中。导入包括将核 酸导入真核细胞或原核细胞中并结合到细胞基因组中,还包括将核酸或蛋白质瞬时提供给 细胞。导入包括稳定或瞬时转化方法,以及有性杂交。因此,就将核酸片段(例如重组DNA 构建体/表达构建体)插入到细胞中而言,“导入”是指“转染”或“转化”或“转导”并包括 将核酸片段导入真核细胞或原核细胞中,在其中核酸片段可结合到细胞基因组(例如染色 体、质粒、质体或线粒体的DNA)上,转变成为自主复制子或瞬时表达(例如转染mRNA)。术语“成熟”蛋白质是指经翻译后加工的多肽(即已除去初级翻译产物中存在的 任何前肽(pr印印tide)或肽原(prop印tide)的多肽)。“前体”蛋白是指mRNA翻译的初 级产物(即仍然含有前肽和肽原)。前肽和肽原可能是但不限于胞内定位信号。术语“稳定的转化”是指核酸片段转移到宿主生物基因组(包括核基因组和细胞 器基因组)中而产生遗传稳定的遗传。相反,“瞬时转化”是指核酸片段转移到宿主生物的 细胞核或含DNA的细胞器中而导致非整合或非稳定遗传的基因表达。含转化核酸片段的宿 主生物称为“转基因”生物。术语“转基因”是指基因组内含有异源多核苷酸的植物或细胞。优选异源多核苷 酸是稳定整合到基因组中,使多核苷酸可连续传代。异源多核苷酸可单独整合到基因组上 或作为表达构建体的组成部分而整合。本文所用的转基因包括其基因型已因异源核酸的存 在而改变的任何细胞、细胞系、愈伤组织、组织、植物部分或植物,其包括起先这样改变的转 基因以及由起先的转基因经有性杂交或无性繁殖而产生的那些。本文所用的术语“转基因” 不包括由常规植物育种方法或天然发生事件导致基因组(染色体或染色体外)的改变,例 如随机交叉受精、非重组病毒感染、非重组细菌转化、非重组转座或自发突变。术语“植物”是指整株植物、植物器官、植物组织、种子、植物细胞、种子及其后代。 植物细胞包括但不限于来自种子、悬浮培养物、胚、分生组织区、愈伤组织、叶、根、芽、配子 体、孢子体、花粉和小孢子的细胞。植物部分包括分化和未分化组织,包括但不限于以下 根、茎、芽、叶、花粉、种子、肿瘤组织以及各种细胞和培养物形式(例如单细胞、原生质体、 胚和愈伤组织)。植物组织可以在植物或植物器官、组织或细胞培养物中。术语“植物器官” 是指组成形态和功能独特的植物部分的植物组织或一组组织。术语“基因组”是指以下(1) 在生物体、或病毒或细胞器的每个细胞中都存在的遗传材料的完全互补序列(基因和非编 码序列);和/或( 作为来自一个亲本的(单倍体)单位而遗传的一整套染色体。“后代”包括植物的任何后续世代。本发明涉及包含功能性着丝粒的人工植物微染色体,其包含(a)至少2个反向的 CentC串联重复序列阵列,其中第1阵列包含至少50个拷贝的CentC,第2阵列包含至少50 个拷贝的CentC ;和(b)至少一个拷贝的反转录转座元件,其中反转录转座元件位于第1阵 列和第2阵列之间。优选反转录转座元件选自CentA、CRMl和CRM2。人工染色体包含具有CentC串联重复序列阵列的功能性着丝粒。每个CentC重 复序列阵列可包含至少 30、40、50、60、70、80、90、100、120、140、150、160、180、200、220、240、 250、260、280、300、320、340、360、380、400、450 或 500 个拷贝的 CentC。此外,每个 CentC 串 联重复序列阵列中可间插另一序列元件,包括但不限于反转录转座子(其插入到CentC拷 贝之间或CentC元件内或反转录转座子内),或阵列中的任何其它序列元件。反转录转座子 包括但不限于CentA、CRMl和CRM2。在大多数真核生物中,着丝粒作为染色体中动粒形成和纺锤体附着的位点,嵌入 异染色质中。酿酒酵母(S. cerevisiae)染色体缺乏随体序列,而具有精确定位的小着丝 粒,它限定纺锤体连接 125bp DNA(Blackburn 和 Szostak(1984)Ann Rev Biochem 53: 163-194)。然而,来自其它真菌谱系的着丝粒包含与动植物中发现的更类似的重复序列阵 列(Fishel等(1988)Mol Cell Biol 8 =754-763) 0在高等真核生物中,细胞学研究和生 物化学研究显示出串联重复的随体DNA、着丝粒区和特定着丝粒相关蛋白之间的物理连 接(Henikoff 等(2001)Science 293 :1098-1102 ;Yu ^P Dawe(2000) J Cell Biol 151 131-142)。尽管缺乏通用序列基序,但大多数着丝粒随体重复序列在不同生物体间都具有 明显类似的单元长度,例如基本随体单元为171bp(灵长类)、186bp(鱼金头鲷(Sparus aurata))禾口 155bp (昆虫Chironomus Pallidivittatus) (Henikoff 等(2001) Science 293 1098-1102)。植物着丝粒具有类似单元长度重复序列,例如,156bp重复序列(玉米) (Ananiev 等(1998) Proc Natl Acad Sci USA 95 13073-13078)、168bp 重复序列(水稻) (Dong 等(1998)Proc Natl Acad Sci USA 95:8135-8140)和 180bp 重复序列(拟南芥 (Arabidopsis)) (Copenhaver (2003) Chromosome Res 11 :255-262)。在拟南芥中,着丝粒通 常含有2. 8-4Mb串联重复的178bp随体序列段(Hall等Q004)Curr Opin Plant Biol 7 108-114)。在玉米中,完整功能的额外B染色体着丝粒含有约5001Λ串联重复序列,其中部 分缺失减少了传递(Alfenito 和 Birchler (1993) Genetics 135:589-597)。含有额外 B 染 色体的玉米染色体铺片与来自位于A染色体着丝粒区的不同重复元件(包括CentC、CRM和 CentA)的探针杂交。这些重复元件(主要存在于A染色体着丝粒附近)与不同于B染色体 着丝粒的许多位点杂交(Lamb 等(2005) Chromosoma 113:337-349)。至少两个实例违背了着丝粒随体DNA基础上的着丝粒形成的基本原则。首先,外 来着丝粒(alien centromere)在体细胞杂合体或燕麦-玉米渐渗系中的明确正常功能 (Ananiev 等(1998)Proc Natl Acad Sci USA 95:13073-13078)表明保留了着丝粒功能和 相应蛋白质复合物。支持含无关着丝粒随体DNA的外来着丝粒功能的所有着丝粒蛋白明显 都由宿主提供(Jin等(2004) Plant Cell 16:571-81)。第二,新着丝粒是最近描述于人和果蝇(Drosophila)的基于非重复DNA的一类新型着丝粒(Williams (1998) Nat Genet 18: 30-37 ;Choo (1997) Am J Hum Genet 61 1225-1233)。新着丝粒在正常染色体经多次染色体 重排的衍生物中存在,新着丝粒在明显的常染色质DNA区形成,缺乏通常与着丝粒功能相 关重复序列。具有新着丝粒的染色体具有不同的有丝分裂或减数分裂稳定性。着丝粒的特性和功能尚未完全清楚,还需要更多分析。迄今为止,大多数人工 染色体都具有基于天然着丝粒随体DNA的功能性着丝粒。knob重复序列,例如ISObp和 350bp (TRI)可用作新着丝粒的组分。已经知道某些knob在减数分裂玉米染色体中可获得 着丝粒功能,这些新着丝粒仅包含ISObp和350bp的串联重复序列。对人和低等生物的新 着丝粒进行研究,解决了先前未知的着丝粒DNA动态特性的现象(Choo等(1997) Am J Hum Genet. 61 :1225-33)。在该现象的核心中,着丝粒功能看来并不是特定DNA序列的需要;而 响应合适的外来影响的大量序列看来才提供该功能。对着丝粒序列的深入表征来自对酵母的研究,例如酿酒酵母(S. cerevisaie)和 粟酒裂殖酵母(S. pombe),已经定义了功能性酵母着丝粒元件和组构。例如在酿酒酵母着 丝粒中,3个必需区域(CDEI, CDEII和CDEI11)的结构和功能总共才125bp,即占每条染 色体的 0. 006-0. 06% (Carbon 等(1990)New Biologist 2 :10-19 ;Bloom(1993)Cell 73: 621-624)。粟酒裂殖酵母着丝粒介于40-1001Λ之间,由重复元件组成,占每条染色体的 1-3% (Baum等(1994)Mol Cell Biol 5:747-761)。后续研究表明,不到1/3的天然粟酒 裂殖酵母着丝粒对着丝粒功能而言是足够的(Baum等(1994)Mol Cell Biol 5:747-761)。 在粟酒裂殖酵母中,已经知道反向重复序列区是着丝粒功能必不可少的,但是无论是中部 核心(central core)还是反向重复序列的一条臂都不能赋予功能。侧接中部核心的重复 序列部分的缺失对有丝分裂分离功能或微染色体分离成为单倍体后代的减数分裂都没有 影响,但在减数分裂I期间能显著破坏着丝粒介导的对同源姐妹染色单体配对的维持。在 粟酒裂殖酵母3条不同染色体之间有明显变异性,不同粟酒裂殖酵母菌株之间的任何特定 染色体的着丝粒都具有明显变异性。然而,基础DNA结构基序(即反向重复序列)是粟酒 裂殖酵母着丝粒的通用参数(Clarke 等(1993) Cold Spring Harb Symp Quant Biol 58: 687-695)。高等真核生物着丝粒很少有表征。虽然已鉴定出与高等真核生物着丝粒区杂交 的DNA片段,但是对这些序列的结构、组织和/或功能的了解甚少。然而,水稻却是个例 外,因其具有不同的着丝粒大小。虽然某些水稻染色体具有的着丝粒与其它物种大小类 似(> 1Mb),但一些染色体的着丝粒却惊人地小,可以被采用标准技术构建的BAC毗连群 (contig)完全覆盖。水稻着丝粒4和8的完全测序表明,染色体区段内存在认为是着丝粒 的着丝粒串联重复序列的反向区组(inverted block),类似于酵母中观察到的反向重复 序列结构(Zhang 等(2004)Nucl Acids Res 32 :2023-2030 ;Wu 等(2004)Plant Cell 16: 967-976)。就许多情况而言,着丝粒重复序列的探针与着丝粒位置具有细胞学和遗传学关 系,许多这样的序列以串联重复随体元件和分散重复序列形式存在,其阵列长度范围为 300-5000kb (ffi 1 lard (1990) Trends Genet 6:410-416)。原位杂交已经显示出每个人类着 丝粒中都存在 alphoid 随体 171bp 重复序列(Tyler-Smith 等(1993) Curr Biol 390-397)。尚未确定这些重复序列是否组成功能性着丝粒,但看来需要其它基因组DNA赋予DNA遗传 性。用alphoid随体转染细胞系,得到新染色体,但这些新染色体也含有宿主DNA,其可影 响着丝粒活性(Haaf 等(1992)Cell 70 :681-696 ;Willard(1997)Nat Genet 15 :345-354)。 此外,新染色体可显示出其全长alphoid DNA铺片仅具有一个着丝粒缢痕,这表明alphoid DNA区组可能不足以赋予着丝粒功能。植物着丝粒的遗传表征采用染色体片段的分离分析,包括分析携带遗传标记的端 着丝粒片段的三体品系(例如Koornneef (1983) Genetica 62:33-40)。已经鉴定出与着丝 粒遗传连锁(Richards 等(1991))Nucl Acids Res 19 :3;351_3357 或物理连接(Alfenito 等(1993)Genetics 135 :589-597 ;Maluszynska ^ (1991)Plant J 1 :159-166)的植物着 丝粒重复元件,但是涉及着丝粒功能的这些序列的重要性尚未充分表征其功能。在拟南芥(Arabidopsis thaliana)中进行的细胞学研究,已经找出着丝粒结构 与重复序列之间的关系。用非特异性荧光DNA结合剂(例如4',6-二脒基-2-苯基吲哚 (DAPI))染色,可观察到中期染色体的着丝粒染色质区。针对180bp pALI重复序列的荧 光原位杂交(FISH)探针与所有5条拟南芥(Arabidopsis)染色体着丝粒附近的DAPI标 记共同定位(Maluszynska 等(1991)Plant J 1 159-166 ;Martinez_Zapater 等(1986) Mol Gen Genet 204 :417-423)。提出了 pALI的功能性作用,但新近研究没有检测到拟南芥 (Arabidopsis)密切相关物种的着丝粒附近的该序列(Maluszynska等(1993)Ann Botany 71 :479-484)。据信,所检测的一个物种小拟南芥(A. pumila)是拟南芥(A. thaliana)与另 一密切相关物种杂交而来的双二倍体(Maluszynska等(1991)Plant J 1 =159-166 ;Price 等(1995)载于 Arabidopsis, Somerville 禾口 Meyerowitz (主编)Cold Spring Harbor Press, NY)。另一重复序列(pAtl2)遗传作图到1号染色体着丝粒5cM和5号染色体中心 区之内(Richards等(1991)Nucl Acids Res 19 :3351-3357),但它在着丝粒功能上的作用 仍然不清楚。植物着丝粒区主要由着丝粒特异性重复序列、着丝粒反转录转座子和主要分散在 植物基因组中的少量其它重复元件组成。例如着丝粒重复序列(例如CentO和CRR)已知 来自水稻。已经描述了玉米的4个着丝粒重复元件CentA、CentC、CRMl和CRM2 (SEQ ID NO :1-4)。在玉米中,第一个发现的串联重复着丝粒特异性元件是CentC (Ananiev等(1998) Proc Natl Acad Sci USA 95:13073-13078)。CentC形成多个不同长度的串联阵列,其中 一些串联阵列包含多达1千个拷贝的CentC重复序列。CentC串联重复序列与着丝粒核小 体中的CENH3蛋白相互作用。根据玉米着丝粒特异性元件CentA的结构和性质,看来它是反转录转座子 (Ananiev 等(1998)Proc Natl Acad Sci USA 95 :13073-13078 ;GenBank AF078917)。玉 米的另一高度保守的着丝粒特异性反转录转座子CRM2于2003年发现(Nagaki等Q003) Genetics 163 :759-770 ;GenBank AY129008) 通过公开的两个玉米着丝粒BAC克隆 DNA序列(Nagaki等Q003)Genetics 163:759-770)和有产权的玉米基因组DNA序列 (Ananiev (2005)未公开)的比较分析,鉴定出第4个着丝粒特异性反转录转座子CRMl (SEQ ID NO :3)。在密切相关物种的着丝粒重复元件中检测到某些同源性,所述物种例如高粱和 甘蔗(Miller 等(1998)Genetics 150 :1615-1623 ;Nagaki 等(1998)Chromosome Res 6 295-302 ;Zwick 等(2000) Am J Bot 87:1757-1764);以及玉米和水稻(Ananiev 等(1998)Proc Natl Acad Sci USA 95:13073-13078) ;Cheng等 0002)Plant Cell 14:1691-1704)。另外,植物着丝粒含有冗余反转录转座子(CR),在谷物中,许多CR元件属于高度 保守的Ty3/gypsy元件种系发生进化枝(Miller等(1998)Theor Appl Genet 96:832-839; Presting 等(1998)Plant J 16 :721-728 ;Langdon 等(2000)Genetics 156:313-325)。 DNA同源性足够高,使得来自高粱或短柄草(Brachypodium sylvaticum)的CR探针可鉴定 大多数或所有农业上重要谷物的着丝粒,这些谷物例如水稻、玉米、小麦、高粱、大麦和黑麦 (Aragon-Alcaide^ (1996) Chromosomal05 :261-268 Jiang^ (1996) Proc Natl Acad Sci USA 93 :14210-14213 ;Miller 等(1998)Theor Appl Genet 96 :832-839)。反转录转座子(也称为进化枝I转座元件)由2个亚型(长末端重复序列(LTR) 和非LTR反转录转座子)组成。长末端重复序列亚型具有直接LTR,其大小范围为 IOObp 至51Λ。根据LTR反转录转座子的序列相似性程度和所编码基因产物的顺序,将其进一步分 为 Tyl-copia 样组(Pseudoviridae)和 Ty3_gypsy 样组(Metaviridae)。反转录转座子的 Tyl-copia组和Ty3-gypsy组通常在大基因组植物中具有高拷贝数(每个单倍体核中高达 几百万拷贝)。Tyl-copia反转录转座子在包括单细胞藻类到苔藓植物、裸子植物和被子植 物在内的物种中含量丰富。Ty3-gypsy反转录转座子的分布也很广泛,包括裸子植物和被 子植物。LTR反转录转座子占人类基因组的约8%。非LTR反转录转座子由两个亚型(长 散在核元件(LINE)和短散在核元件(SINE))组成。它们在植物中也具有高拷贝数(高达 250,000)。有关植物转座子(包括反转录转座子)的综述可参见!^eschotte等Q002)Nat Rev Genet 3 :3四_341。有关植物反转录转座子的综述可参见Kumar和Bennetzen (1999) Ann Rev Genet 33 :479-532。根据用于系统发育和分类学研究的逆转录元件统一分类,可以鉴别着丝粒反转 录转座子。完整的反转录元件和逆转录病毒包含编码单种蛋白或多蛋白的两个或更多 个可读框(0RF)。元件中基因的顺序不同,根据逆转录酶(RT)、RNA酶H 15(RH)、整合酶 (INT)和天冬氨酸蛋白酶(PR)基因和保守半胱氨酸-组氨酸(CH)锌指样结构域中的氨 基酸比对和关键保守残基或结构域来分类。反转录元件也包含侧接反转录元件内部区的 长末端重复(LTR)序列。反转录转座子的每个家族都具有不同的非交叉杂交LTR,家族 内的组分在其LTR序列中可不同(0-50%)。在转座过程中,两个LTR在插入时间通常相 同,但随时间变化,替代可引起序列趋异。已知许多反转录元件,包括着丝粒特异性反转录 转座子(参见例如 SanMiguel 等(1998)Nat Genet 20 :43-45 ;Turcotte 等(2001)Plant J 25 :169-179 ;Feng 等 Q002)Nature 420 316 ;Nagaki 等 Q004)Nat Genet 36:138; Nagaki 等(2003)Geneticsl63 :750-770 :ffu 等(2004)Plant Cell 16 :967-976 ;Hansen 和 Haslop-Harrison(2004)Adv Bot Res 41:165-193)。就相对大小和重复序列组成而言,不同玉米染色体着丝粒之间存在明显差异。在 玉米不同染色体中,CentC簇可小至约1001Λ或大于约20001Λ,但是常见范围为约2001Λ至 约3001Λ。假设更小的大小范围,可能在单个BAC克隆中发现玉米着丝粒区的完整中心部 分。所观察到的结构多态性表明,玉米着丝粒由多个功能性区组(block)组成,每个区组都 可支持着丝粒功能。在不同玉米染色体中观察到受到CentC着丝粒串联重复序列的长度和 /或拷贝数限制的着丝粒大小上的显著(至少10倍)差异。在不同的近交系的同源染色体 着丝粒之间也具有明显差异。
另一方面,本发明的人工植物微染色体可包含至少一个功能性端粒。端粒是线状真核染色体末端的核蛋白封端(cap),是维持染色体末端必不可少的。 端粒DNA是通过端粒末端转移酶、具有逆转录酶活性的核糖核蛋白而合成的(McKnight等 (2002)Plant Mol Biol48 :331-337)。端粒末端转移酶通过在其RNA亚基内拷贝短模板序 列,而将端粒DNA加到染色体3'端。大多数生物的端粒由高度保守的不对称短重复序列组 成。已知许多端粒重复序列,包括CCCCAA (C4A2,四膜虫属("Tetrahymena)和草履虫 属(Paramectum)) ;C4A4(尖毛虫属(Oxytricha)和游仆虫属(Euplotes)) ;C3TA(锥虫 属(Trypanosoma)、利什曼原虫属(Leishmania)和绒泡菌属(Physarum)) ;C1-3A (酵 母属(Saccharomyces)) ;C1_8T(网柄菌属(Dictyostelium));和 C3TA3 (拟南芥属 (Arabidopsis)、人类、小鼠、新小杆线虫属(Caenrhabditis))。在各生物的天然染色体中观 察到的重复序列数差异很大,例如某些纤毛虫具有约50个重复序列,而在拟南芥中观察到 小于350个重复序列,在酵母属中观察到重复序列共约300-500bp。植物的端粒长度(通常范围为约2-751Λ)受到遗传因素和发育因子的控制。已 经从拟南芥中分离出端粒区,显示串联重复序列的大小不同(Richards和Ausubel,(1988) Cell 53 :127-136)。在玉米近亲交配系中,端粒长度有25倍差异,范围为小于21Λ (WF9系) 至约40kb (CM37系)(Burr等(1992) Plant Cell4 :953-960)。越靠近着丝粒,经常发现正 则端粒重复序列与植物基因组的其它重复元件混合。相比之下,果蝇属(Drosophila)在其 染色体末端使用转座子。在每条染色体末端都发现多拷贝的转座子(HeT-A和TART元件)。 通过新转座子重复序列转座到末端,可以逆转端粒的逐渐缩短。与端粒末端转移酶对端粒 的维持类似,果蝇的转座模型采用这样的机制使用RNA转座媒介,通过逆转录酶将其转化 到末端DNA上。DNA复制是这样的过程通过该过程,细胞在细胞分裂前制造其遗传信息的一个 完整拷贝。在大肠杆菌(E. coli)、哺乳动物病毒和酿酒酵母(S. cerevisiae)中,DNA复制 的起始受到反式作用起始蛋白的控制,反式作用起始蛋白又与顺式作用DNA复制基因序列 相互作用。对于酿酒酵母,复制基因包含100-200bp并包括DNA合成开始的主要复制起始 位点。这些复制基因含有保守Ilbp自主复制序列(ARS),其结合起始识别复合物(ORC)产 生前复制复合物(prer印lication complex)的核酸形成(Gilbert (2001) Science 294 96-100)。在高等真核生物中,DNA复制可在成百上千个染色体位点上同时开始。限定的起 点序列是不需要的,存在许多潜在复制起点,由接近间隔的起始位点的广泛区域组成,其中 的有些可能会频繁使用。然而,已知若干特定真核细胞的复制起点,例如18S46S rDNA的复制起点,其位于 非转录间隔区内(Ivessa和Zakian Q002)Genes Devl6 J459-2464)。该区能促进转基因构 建体的扩增(Hemann等(1994)DNA Cell Biol 13:437-445)。另一特定起点是在中国仓鼠 卵巢(CHO)细胞的二氢叶酸还原酶(DHFR)基因下游区内发现的(Altman和FarmingOOOl) Mol Cell Biol 21:1098-1110)。在含有chorion基因的果蝇染色体区段中也发现了优选 的复制起始位点(Levine 和 Spradling (1985) Chromosoma 92 :136-142)。动植物细胞的复制机器很可能可复制任何类型的渐渗DNA,包括整合构建体、附加体、完整染色体或其片段(Gilbert Q001)kience294 :96-100)。人工微染色体是由顺式作用DNA序列元件构建的线状或环状DNA分子,所述元件 负责适当复制并将染色体分配给子细胞。顺式作用元件包括复制起点(ori),DNA复制的 起始位点(也称为自主复制序列(ARS));着丝粒,动粒装配位点,用于在有丝分裂和减数分 裂中适当分离复制的染色体;和端粒,特化DNA重复序列结构,其可使线状染色体末端稳定 并促进染色体末端的完全复制。产生真核微染色体的若干策略是可行的,包括但不限于通过真核细胞中的内源 细胞染色体维持机器,自组分元件体内自我装配微染色体,自原核细胞中的组分元件装配 真核微染色体,以及自组分元件体外装配真核微染色体。人工微染色体首先是在酿酒酵母中构建的(Murray等(1986)Mol Cell Biol 6 3166-3172 ;Blackburn 和 Szostak (1984) Ann Rev Biochem 53:163-194)。通过常规重组 DNA技术,装配环状质粒,其包含酵母125bp着丝粒、复制起点、选择标记和回文排列的两 个延伸端粒DNA,然后通过原生质球转化引入酵母,在其中成为简单线状分子。含着丝粒、 复制起点和两个端粒且长度为501Λ的线状构建体,在有丝分裂时复制并分离,准确度为 99%,并在分裂培养物中维持至少20代。YAC的世代显示出在其它真核生物例如动植物中 装配人工染色体的潜力。在YAC上进行的实验表明,需要3个顺式作用DNA序列以构建人 工染色体端粒、复制起点和着丝粒。可通过两种不同方法产生动物人工染色体自克隆DNA区段,从头合成染色体; 或通过天然染色体的断裂和重排(Brown等Q000)iTrends Biotechnol 18:402-403; Cooke (2001) Cloning Stem Cells 3 :243-249 ;Lipps 等(2003),Gene 304:23-33)。从头 合成方法(即装配或自下而上(bottom-up)方法)通过组合必需的克隆组分产生人工染色 体。用人类alphoid DNA、端粒、人类基因组DNA和选择标记的混合物共转染HT1080细胞, 导致形成微染色体(Harrington 等(1997)Nat Genet 15:345-355)。微染色体的表征表明,它们都具有复杂的细胞遗传结构,并且在没有任何选择时 能稳定维持。结论是,可通过复合物重排,自输入DNA从头合成微染色体及其着丝粒。此后, 其它研究小组也使用HT1080细胞以引入含人alphoid DNA和在YAC、PAC或BAC中克隆的 端粒的线状或环状 DNA 构建体(Compton 等(1999) Nucl Acids Res 27 :1762-1765 ;Grimes 等OOO 1)EMB0 Rep 2:910-914)。观察到不同频率的微染色体,显示出不同的有丝分裂稳 定性。所产生的所有微染色体都明显大于原始构建体,变动范围为5-10Mb。因此,可自克隆 DNA (作为从头装配的主链)开始产生完整功能的哺乳动物染色体。保留着丝粒和端粒区的天然染色体的断裂和重排是产生微染色体的另一策略。小 染色体片段可通过脉冲场凝胶电泳进行分离,用所需基因改型,再重新导入宿主细胞中。在 辐射后,在癌细胞和其它细胞类型中观察到断裂的微染色体,但是,片段太大则无法分离, 而且无法控制基因组成。一个控制降低染色体大小的方法是根据端粒相关的染色体断裂(TACF)或端粒定 向截短(TDT) (Heller 等(1996)Proc Natl Acad Sci USA 93 :7125-7130 ;Shen 等(1997) Hum Mol Genet 6:1375-1382)。该方法涉及特定人类宿主染色体连续断裂成较小的微染 色体,使用打靶载体,其包含末端端粒区段、选择标记和有时包含靶染色体的同源区。所得 “工程微染色体”保留自主并能正常分离。已经产生小至0. 5Mb的微染色体,其含有alphoidDNA,作为人、仓鼠-人体细胞杂合系或鸡细胞的功能性着丝粒序列。目前,人类人工染色体用于产生转染色体-克隆的牛,其能产生人免疫球蛋白。在 同源重组的鸡DT40细胞中,由Cre/loxP介导的染色体易位和端粒定向的染色体截短而构 建人类微染色体(HAC)载体,通过微细胞介导的染色体转移(MMCT),将该载体导入牛的原 代胎儿成纤维细胞。将来自具有HAC的胎儿成纤维细胞的分离核转移到去核的成熟卵母细 胞中,产生克隆牛(Kuroiwa等Q002)Nat Biotechnol20 :889-894)。根据诱导哺乳动物细 胞内在的大规模扩增机制,已经开发出在体内产生人工染色体的方法。将着丝粒随体DNA 和非转录的rDNA间隔区定向整合到特定染色体上,导致着丝粒区的大规模扩增。这些扩 增的染色体不稳定,经历明显重排,产生优先由随体DNA组成的稳定微染色体(Kereso等 (1996)Chromosome Res 4:226-239 ;Hadlaczky(2001)Curr Opin Mol Ther 3:125-132)。开发出含多个序列特异性重组接受位点的人工染色体(ACE平台)。在打靶载体中 提供目标序列,用λ (lambda)整合酶催化ACE平台和打靶载体间的重组。在植物中也观察到类似过程。观察到植物天然染色体的自发断裂。在拟南芥 (Murata 等(2006) Chromosoma,2006 年 4 月 11 日在线公布)和玉米(Brock 和 Pryor (1996) Chromosoma 104 :575-584 ;Kato等(2005)Cytogenet Genome Res 109 :156-165)中发现了 微染色体。在某些情况下,电离辐射可诱导微染色体(Riera-Lizarazu等Q000)Genetics 156 :327-339)。已经构建了水稻着丝粒5的物理图谱,可用于产生水稻人工染色体(Nonomura和 Kurata, (2001)Chromosoma 110:284-291)。提出构建人工染色体的类似方法,用于平匐甜 菜(Beta procumbens) (Gindullis 等 Q001)Genome 44:846-855)。在植物转化事件中可 发现转基因构建体多联体化、连接和重排。用标准构建体的通用植物转化可产生复杂的重 排、多联体化和构建体扩增(Svitashev 和 Somers (2001) Genome 44 :691-697 ;Svitashev 等000 Plant J 32:443-445)。用多个质粒共转化植物,可产生含不同转基因组合的转 基因基因座OVu等O002) "rransgene Res 11 :533-541)。类似于在动物细胞中进行的研究, 在植物细胞中可通过各组分的自发多联体化和连接,从头装配人工微染色体(参见图1-10 和 14-15)。本发明涉及包含功能性着丝粒的人工植物微染色体,其中着丝粒与着丝粒蛋白C 特异性结合。动粒将着丝粒DNA与纺锤丝连接在一起。在着丝粒附近特异性结合的人类自身抗 体可促进着丝粒相关蛋白的克隆(CENP,Rattner(1991)Bioassays 13:51-56)。这些蛋白 质中的至少一种属于微管动力蛋白的驱动蛋白超家族(Yen(1991)EMB0 J 10 =1245-1254) 0 通过遗传和生化研究已经鉴定出酵母着丝粒结合蛋白(Bl00m(199;3)Ce1173 =621-624 ; Lechner等(1991)Cell 64:717-725)。CENH3是取代着丝粒中的组蛋白H3的高度保守蛋 白,认为它能募集染色体运动所需的其它蛋白质。CENH3在整个细胞周期中都存在,并与减 数分裂细胞中的动粒着丝粒蛋白C(CENPC)共同定位。可使用着丝粒相关蛋白的特异性抗体,以证实DNA构建体和/或微染色体中的着 丝粒装配。CENP (例如CENH3和/或CENPC)免疫定位在微染色体着丝粒上,表明形成包含 着丝粒DNA元件和相关结合蛋白的功能性着丝粒。制备针对玉米着丝粒组蛋白H3(CENH3, 17kD)的抗血清,并在天然玉米染色体上进行了测试(2110叫等^)02)Plant Cell 14:2825-2836)。染色质免疫沉淀表明,CentC和CRM2与CENH3特异性相互作用。约38%和 33% CentC和CRM2在染色质免疫沉淀测定中沉淀下来,证明大部分CENH3与CentC共同定 位。Dawe等((1999)Plant Cell 11 :1227-1238)分离出哺乳动物CENPC的玉米同源物,其 显示出是玉米动粒的组分。使用来自氨基端结构域的20个氨基酸的保守肽,产生对玉米 CENPC具有特异性的抗血清,其经直接标记并用于证明CENPC特异性定位到玉米天然和人 工微染色体的着丝粒上(参见例如图3、4、8和10)。着丝粒重复元件CentA, CentC, CRMl 和 CRM2 包括与 SEQ ID NO :1_4 中的 CentA、 CentCXRMl和CRM2的玉米序列基本相同的序列。基本相同的序列包括彼此高度同源的序 列,例如具有显著%序列同一性和/或在严格性条件下与CentA、CentC、CRMl或CRM2 (SEQ ID NO 1-4)或其互补序列选择性杂交。在严格性杂交条件下选择性杂交的序列包括这样的 序列其与靶序列杂交比背景至少高2倍并可基本上排除非靶核酸。选择性杂交序列通常 与靶序列具有约至少80%、85%、90%、95%、96%、97%、98%、99%或100%序列同一性。 可使用本领域已知的任何合适杂交条件和缓冲液,其实例在本文中有描述。序列同一性可 用于比较两个多核苷酸或多肽序列的一级结构。序列同一性测定两个序列中的相同残基, 当比对最大对应性时。可用计算机执行的算法来分析序列关系。两个或更多个多核苷酸、 或者两个或更多个多肽之间的序列关系测定如下通过测定序列的最佳比对,给比对中的 匹配和空位打分,得到%序列同一性和%序列相似性。根据比较各自所编码的多肽,也可描 述多核苷酸的关系。已知许多用于序列比较和分析的程序和算法。除非另有说明,否则本 文提供的序列同一性/相似性值是指用GAP第10版(GCG,Accelrys, San Diego, CA)并用 以下参数得到的值对于核苷酸序列的%同一性和%相似性,用空位权重(GAP Weight)为 50和长度权重(Length Weight)为3,nwsgapdna. cmp打分矩阵;对于氨基酸序列的%同一 性和%相似性,用空位权重(GAP Weight)为8和长度权重(Length Weight)为2,BL0SUM62 打分矩阵(Henikoff 和 Henikoff (1992) Proc Natl Acad Sci USA 89:10915-10919)。GAP 使用Needleman和Wunsch ((1970) J Mol Biol 48:443-453)的算法,得到两个完整序列最 大匹配数和最小空位数的比对。基本相同包括具有至少80%、85%、90%、91%、92%、93%、 94^^95^^96^^97^^98^^99%或更高序列同一性的序列,其中序列有望保留天然功能, 根据总体%序列同一性、序列相似性、一级序列的总体比对、保守残基区组的存在、保守元 件和/或结构域的存在、保守功能性结构域的存在、结合区的存在、催化残基的存在、预测 的二级和/或三级结构、已知三维结构的可利用性和本领域技术人员采用的其它标准,来 鉴定和预测任何特定序列的功能性同源序列。与天然多核苷酸相比,多核苷酸变异体包括在5'端、3'端、和/或内部位点(包 括内含子或外显子)中的至少一个具有至少一个缺失、添加和/或取代的多核苷酸。多核 苷酸变异体包括天然存在的变异体以及人工衍生的多核苷酸,例如,用定点诱变产生的那 些。保守变异体包括这样的序列与天然多核苷酸相比,所述序列保留其功能,编码相同的 多肽,或编码具有基本类似的同一性、功能和/或活性的多肽变异体。用聚合酶链式反应 (PCR)和/或杂交技术等已知技术可鉴定变异体。通常,特定多核苷酸的变异体与特定多 核苷酸具有至少约 40%,45%,50%,55%,60%,65%,70%,75%,80%,85%,90%,91%, 92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性。也可采用标准比对程 序和参数,通过比较所编码多肽间的%序列同一性,评价多核苷酸变异体。当通过比较各自所编码的两个多肽共享的%序列同一性时,这两个所编码的多肽的%序列同一性通常为 至少约 40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、 94%、95%、96%、97%、98%、99% 或更高序列同一性。与天然多肽相比,蛋白变异体包括在N-末端、C-末端和/或内部位点中的至少一 个具有至少一个缺失、添加和/或取代的蛋白质。蛋白变异体具有蛋白质所需生物活性。变 异体包括天然存在的多肽,以及通过人工操作的那些。经序列比对程序测定,蛋白质的生物 活性变异体通常与天然蛋白的氨基酸序列具有至少约40 %、45 %、50 %、55 %、60 %、65 %、 70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或更高序 列同一性。蛋白质的生物活性变异体与所述蛋白质的差异可能仅在1-15个氨基酸残基 上。保守取代通常是指一个氨基酸被另一个具有相似特性的氨基酸交换。例如Dayhoff等 (1978)Atlas of Protein Sequence and Structure(Natl Biomed Res Found,Washington, D. C.)的模型提供了不希望影响蛋白质生物活性的氨基酸取代的指南。多核苷酸和蛋白质变异体包含来自诱变和/或重组方法(例如诱变和/或DNA改 组)的序列。诱变和改变核苷酸序列的方法是已知的(参见例如Kunkel (1985)Natl Acad Sci USA 82 :488-492 ;Kunkel 等(1987)Methods Enzymol 154 :367-382 ;美国专利 4,873,192 ;Walker 禾口 Gaastra编著(1983) Techniques in Molecular Biology (MacMillan Publ. Co.,NY)及其中引用的参考文献)。例如,可操作一个或多个不同的重组酶编码序列, 产生和选择具有所需特性的新的重组酶蛋白。通常,从相关序列群体中产生重组多核苷酸 文库,并且可在体外或体内同源重组(参见例如Memmer (1994)Proc Natl Acad Sci USA 91 :10747-10751 ;Stemmer(1994)Nature 370 :389-391 ;Crameri等(1997)Nat Biotechnol 15 :436-438 ;Moore 等(1997)J Mol Biol 272 :336-347 ;Zhang 等(1997)Proc Natl Acad Sci USA 94 :4504-4509 ;Crameri 等(1998)Nature 391 :288-291 ;和美国专利 5,605,793 和5,837,458)。通常,编码多肽的多核苷酸的修饰不应改变读框,或产生和/或改变DNA或 mRNA的二级结构。参见EP专利申请公布号75,444。重叠寡核苷酸(缩写为overgo)是长度跨越约40bp的引物对,通常由在3 ‘端 具有8bp重叠区的2个Mbp寡核苷酸组成。该特征允许重叠寡核苷酸引物对彼此引导, 并通过克列诺(Klenow)填补法,用标记核苷酸合成其互补链(McPherson (1999)Genome Analysis :A Laboratory Manual,4 :207-213, Birren 等 主 编,Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY)。可使用各种标记核苷酸,包括但不限于放 射性标记的核苷酸或荧光标记的核苷酸。这用于产生探针,用于不同的杂交方法,包括但不 限于菌落杂交、斑点印迹、DNA印迹和原位杂交,例如FISH。对于文库杂交而言,与常规探针 相比,重叠寡核苷酸探针的主要优势在于可选择用于设计重叠寡核苷酸的序列,因此可避 免常规DNA片段探针中存在的重复序列;因此,可减少大基因组DNA文库筛选中经常会出现 的交叉杂交问题。因为有该优势,所以重叠寡核苷酸杂交结合探针库策略(Cai等(1998) Genomics 54 :387-397 ;Chang 等 O001) Genetics 159 :1231-1242 ;Tao 等 O001) Genetics 158 :1711-1724 ;Romanov等(2003)Cytogenet Genome Res 101 :277-281)已经成为用于高 通量BAC文库筛选的方法,用于克隆鉴定和物理基因作图。在某些实例中,与DNA构建体一起或在该构建体内提供可增强或刺激细胞生长的 基因或所编码的多肽。增强或刺激细胞生长的基因包括这样的基因其参与转录调节、同源异型基因调节、干细胞维持和增殖、细胞分裂和/或细胞分化,例如WUS同源序列(Mayer等
(1998)Cell95 :805-815 ;W001/0023575 ;US2004/0166563) ;aintegumenta(ANT) (Klucher 等(1996)Plant Cell 8 :137-153 ;Elliott 等(1996)Plant Cell 8 :155-168 ;GenBank 检索号 U40256、U41339、Z47554) ;clavata(例如 CLVU CVL2、CLV3) (W003/093450 ;Clark 等(I997)Cell 89 575-585 Jeong 等(I999)Plant Cell 11 J925-I9M ;Fletcher 等
(1999)Science 283 :1911-1914) ;Clavata 和 Embryo Surround region 基因(例如 CLE) (Sharma 等 U003) Plant Mol Biol 51 :415-425 ;Hobe 等 U003)Dev Genes Evol 213 371-381 ;Cock 禾口 McCormick,(2001) Plant Physiol 126 :939-942 ;Casamitjana—Martinez 等(2003) Curr Biol 13 :1435-1441) ;baby boom (例如 BNM3、BBM、ODPl、0DP2) (W000/75530 ;Boutileir ^ (2002) Plant Cell 14 :1737-1749) ;Zwille (Lynn 等(1999) Dev 126 :469-481) ;leafy cotyledon (例如 Lecl、Lec2) (Lotan 等(1998) Cell93 : 1195-1205 ;W000/28058 ;Stone 等 U001)Proc Natl Acad Sci USA 98 :11806-11811 ;美 国专利 6,492,577) ;Shoot Meristem-Iess(STM)(Long ^ (1996)Nature 379 :66-69); ultrapetala(ULT) (Fletcher (2001)Dev 128 :1323-1333);促分裂原激活蛋白激酶(MAPK) (Jonak 等(2002)Curr Opin Plant Biol 5 :415);激酶相关蛋白磷酸酶(KAPP) (Williams 等(1997)Proc Natl Acad Sci USA 94 :10467-10472 ;Trotochaud 等(1999)Plant Cell 11 :393-406) ;ROP GTPase(Wu 等(2001)Plant Cell 13 :2841-2856 ;Trotochaud 等(1999)Plant Cell 11 :393-406) ;fasciata(例如 FAS1、FAS2) (Kaya 等(2001) Cell 104 :131-142);细胞周期基因(美国专利 6,518,487 ;W099/61619 ;W002/074909)、 Shepherd(SHD) (Ishiguro 等(2002)EMB0 J 21:898-908) ;Poltergeist (Yu 等(2000) Dev 127 :1661-1670 ;Yu 等(2003) Curr Biol 13:179-188) ;Pickle (PKL) (Ogas 等(1999) Proc Natl Acad Sci USA 96:13839-13844) ;knox 基因(例如 KNl、KNAT1) (Jackson 等 (1994) Dev 120 :405-413 ;Lincoln 等(1994) Plant Cell 6 1859-1876 ;Venglat 等 Q002) Proc Natl Acad Sci USA 99 :4730-4735);受精独立性胚乳(fertilization independent endosperm (FIE) (Ohad 等(1999) Plant Cell 11 :407-415)等等。多核苷酸组合包括多拷贝 的任何一个目标多核苷酸,而且组合可具有上调和下调所组合多核苷酸表达的任何组合。 组合可以在或不在一个用于转化宿主细胞的构建体上组合,因此可相继或同时提供。宿主 细胞可以是野生型或突变型的细胞,以正常或非整倍体状态。位点特异性重组酶系统可以与任何微染色体系统一起使用。在植物细胞中建立了 DNA构建体或微染色体之后,能催化正向和反向反应的整合酶和重组酶都可用于引入修饰。 可进行不同分子内的修饰,例如给定序列的缺失或倒位。此外,可进行分子间的插入和交 换,包括用含有相容的位点特异性重组位点的内源染色体来易位。也可使用重组酶系统,在 微染色体内建立靶位点(泊靠位点),用于随后通过任何方法(包括杂交或直接递送)进行 目标多核苷酸的位点特异性整合。可使用来自重组系统的元件,例如重组酶和重组位点,例如在DNA构建体内、靶位 点和/或转移盒中。靶位点包括整合到基因组的多核苷酸,所述多核苷酸包含有效连接至 少一个重组位点的启动子。转移盒包括有效连接目标多核苷酸和/或编码选择标记的多 核苷酸的至少一个第一重组位点,其中第一重组位点是用靶位点中的重组位点重组产生 的。中靶种子或植物已将DNA构建体稳定结合在其基因组中,所述构建体是通过使用重组系统而产生和/或操作的。可以采用导致不同整合、改变和/或切除事件而产生所述的 DNA构建体的位点特异性重组方法,得到中靶种子。参见例如W099/25821、W099/25854, W099/25840、W099/25855、W099/25853、W099/23202、W099/55851、W001/07572、W002/08409 和 W003/08045。重组酶是在其相容重组位点间催化位点特异性重组的多肽,包括天然存在的重组 酶序列、变异体和/或保留活性的片段。重组位点是由重组酶特异性识别的核苷酸序列,包 括天然存在的重组位点序列、变异体和/或保留活性的片段。有关位点特异性重组酶的综 述可参见 Sauer (1994) Curr Op Biotech 5 :521-527 ;Sadowski (1993) FASEB 7:760-767; Groth和 Calos“2004)J Mol Biol 335 :667-678 ;和 Smith和 Thorpe (2002) Mol Microbiol 44 :299-307。任何重组系统或系统组合都可采用,包括但不限于重组酶和来自整合酶和/ 或解离酶家族的重组位点、生物活性变异体和其片段、和/或任何其它天然存在的或重组 产生的酶或其变异体(其催化特定重组位点间的保守位点特异性重组)、和天然存在的或 修饰的重组位点或其变异体(其由重组酶特异性识别而产生重组事件)。所用的重组位点可以是相应位点或不相似位点。相应重组位点、或一组相应重组 位点是具有相同核苷酸序列的位点。在合适重组酶存在下,一组相应重组位点将会与彼此 有效重组。不相似重组位点具有不同序列,彼此间含有至少一个核苷酸差异。一组不相似 重组位点中的重组位点可以彼此重组或不重组。一组不相似位点中的每个重组位点都具有 生物活性,可以与相同位点重组。在合适重组酶的存在下,致重组位点能彼此重组。致重 组位点包括这样的位点其中在切除测定中,在标准条件下,与野生性对照相比,致重组位 点之间重组的相对切除效率在检出限之上,通常高出2%、5%、10%、20%、50%、100%或更 高。在合适重组酶存在下,非致重组位点彼此不重组,或位点之间的重组无法检出。非致 重组的重组位点包括这样的位点在切除测定中,在标准条件下,与野生性对照相比,其彼 此重组的频率低于检出限,通常低于2%U. 5%U%>0. 75%,0. 5%,0. 25%,0. 1%,0. 075、 0. 005%,0. 001%。任何合适的非致重组的重组位点都可利用,包括FRT位点或其活性变异 体、Iox位点或其活性变异体、att位点或其活性变异体、其任何组合、或非致重组的重组位 点的任何其它组合。一组致重组的重组位点中的同向重复的重组位点以同一方向排列,这 些位点之间的重组导致间插DNA序列的切除。一组致重组的重组位点中的反向重组位点以 相反方向排列,这些位点之间的重组导致间插DNA序列的倒位。重组酶的整合酶家族成员超过100个,包括例如FLP、Cre、Dre、Int和R。对于 整合酶家族的其它成员,参见例如hposito等(1997)Nucl Acids Res 25:3605-3614; Nunes-Duby^ (1998) Nucl Acids Res 26 :391-406 ;Abremski φ (1992) Protein Eng 5 87-91 ;Groth 和 Calos, (2004) J Mol Biol 335 :667-678 ;和 Smith 和 Thorpe, (2002) Mol Microbiol 44:299-307。其它重组系统包括例如链霉菌噬菌体phiC31 (Kuhstoss等 (1991) J Mol Biol 20 :897-908);噬菌体 λ (Landy, (1989) Ann Rev Biochem 58 :913-949 和 Landy,(1993)Curr Op Genet Dev 3 :699-707);希氏硫化叶菌(Sulfolobus shibatae) 的 SSVl 位点特异性重组系统(Maskhelishvili 等(1993)Mol Gen Genet 237 :334-342); 和基于逆转录病毒整合酶的整合系统(Tanaka等(1998)Gene 17:67-76)。在某些实例中, 重组酶是不需要辅因子或超螺旋底物的酶。这样的重组酶包括Cre、FLP、phiC31 Mt、突 变λ Int. R、SSVUDre或其活性变异体或其片段。FLP重组酶催化两个FRT位点间的位点特异性反应,并在DNA复制期间参与扩增酿酒酵母2 μ质粒的拷贝数。FLP蛋白已克隆并 表达。参见例如 Cox,(1993)Proc Natl Acad Sci USA 80:4223-4227。所用的 FLP 重组 酶可来自酵母属。在某些实例中,采用由植物优选密码子编码的重组酶合成的多核苷酸。 由包含玉米优选密码子的核苷酸序列编码的催化位点特异性重组事件的FLP酶(FLPm)是 已知的(美国专利5,929,301)。额外的功能性变异体和FLP片段是已知的。参见例如 Buchholz 等(1998) Nat Biotechnol 16 :617_618,Hartung 等(1998) J Biol Chem 273 22884-22891,Saxena 等(1997)Biochim Biophys Acta 1340 187-204,Hartley 等(1980) Nature 286:860-864, Shaikh 和 &idowski, (2000)J Mol Biol 302 :27-48, Voziyanov 等 (2002)Nucl Acids Res 30 :1656-1663 和 Voziyanov 等 Q003) J Mol Biol 326:65-76。 噬菌体Pl重组酶Cre催化两个Iox位点之间的位点特异性重组。参见例如Guo等(1997) Nature 389 :40-46 ;Abremski 等(1984) J Biol Chem 259 :1509-1514 ;Chen 等(1996) Somat Cell Mol Genet 22 :477-488 ;Shaikh等(1977) J Biol Chem 272 :5695-5702 ;和Buchholz 等(1998)Nat Biotechnol 16:617-618。Cre多核苷酸序列也可使用植物优选密码子来 合成,例如moCre (参见例如WO 99/25840),其它变异体是已知的,参见例如Vergunst等 (2000)Science 290 :979-982, Santoro 和 Schulz(2002)Proc Natl Acad Sci USA 99: 4185-4190,ShaiWi 和 SadowskU2000) J Mol Biol 302 :27_48,Rufer 和 Sauer U002) Nucl Acids Res 30 :2764_2771,Wierzbicki 等(1987)Mol Biol 195 :785_794,卩6{71^等 U004) J Biol Chem 279 :37040-37048, Hartung 和 Kisters-Wolke(1998)J Biol Chem 273 22884-22891,Koresawa 等(2000) J Biochem(Tokyo) 127 :367-372,美国专利 6,890,726 和 Buchholz 和 Mewart (2001) Nat Biotechnol 19:1047-1052。在 Pl 相关噬菌体中已经 鉴定出Cre同源序列,从噬菌体D6中分离的重组酶称为Dre,它是与Cre密切相关的酪氨 酸重组酶,但它识别不同 32bp rox 位点(Sauer 和 McDermott Q004) Nucl Acids Res 32: 1-10)。phiC31 整合酶和变异体是已知的(Kushtoss 等(1991) J Mol Biol 222:897-908, W003/066867,W005/017170,US2005/0003540 和 klimenti 等(2001)Nucl Acids Res 29: 5044-5051。λ 整合酶和辅因子(Hoess等(1980)Proc Natl Acad Sci USA 77 :2482-2486, Blattner等(1997) Science 277:1453-1474)及其变异体是已知的,包括辅因子-独立型 Int 变异体(Miller 等(1980) Cell 20:721-729,Lange-Gustafson 和 Nash (1984) J Biol Chem 259 :12724-12732,Christ 等(1998)J Mol Biol 288 :825-836 和 Lorbach 等(2000) J Mol Biol 296 :1175-1181)、att 位点识别变异体(Dorgai 等(1995) J Mol Biol 252 178-188,Yagu 等(1995) J Mol Biol 252 163-167 和 Dorgai 等(1998) JMol Biol 277 1059-1070)、以及玉米密码子优化的Mt、变异体和辅因子序列(W003/08045)。其它整合酶 和变异体是已知的,例如HK022整合酶(Kolot等(1999)Mol Biol Rep 26 :207-213)和变异 体,例如 att 位点识别变异体(Dorgai 等(1995) J Mol Biol 252 178-188,Yagu 等(1995) JMol Biol 252 :163-167 和 Dorgai 等(1998)J Mol Biol 277:1059-1070)。
野生型重组位点、突变型或者野生型和/或突变型位点的任何组合都可使 用。这样的重组位点包括例如野生型的lox、FRT和att位点,以及突变型的lox、FRT 和att位点。突变型Iox位点的重组活性分析可参见Lee等(1998)Gene 216:55-65。 其它重组位点和变异体是已知的,参见例如Hoess等(1982)Proc Natl Acad Sci USA 79 :3398-3402 ;Hoess 等(1986)Nucl Acids Res 14 :2洲7_2300 ;Thomson 等(2003)Genesis 36 :162-167 ;Schlake 和 Bode (1994)Biochemistry 33 :12746-12751 ;Siebler 禾口 Bode(1997)Biochemistry 36 1740—1747 ;Huang 等(1991)Nucl Acids Res 19: 443-448 ;Sadowski(1995)载于 Progress in Nucleic Acid Research and Molecular Biolory 51 :53-91 ;Cox (1989)载于 Mobile DNA, Berg 和 Howe (主编)American Society of Microbiology, Washington D. C.,第 116-670 页;Dixon 等(1995)Mol Microbiol 18: 449-458 ;Umlauf 和 Cox (1988)EMBO J 7:1845-1852 ;Buchholz 等(1996)Nucl Acids Res 24 :3118-3119 ;Kilby 等(1993)Trends Genet 9 :413-421 ;Rossant 和 Geagy (1995)Nat Med 1 :592-594 ;Bayley 等(1992)Plant Mol Biol 8 :353-361 ;Odell 等(1990)Mol Gen Genet 223 :369-378 ;Dale 和 Ow(1991)Proc Natl Acad Sci USA 88 :10558-10562 ;Qui 等(1994) Proc Natl Acad Sci USA 91 :1706-1710 ;Stuurman 等(1996) Plant Mol Biol 32 :901-913 ;Dale 等(1990) Gene 91 :79-85 ;Albert 等(1995) Plant J 7 :649_659,美国 专利6,465,254,W001/23545, W099/55851和W001/11058。在某些实例中,可使用多组不 相似和相应重组位点,例如来自不同重组系统的位点。因此,任何合适的重组位点或重组 位点组都可使用,包括FRT位点、FRT位点的生物活性变异体、Iox位点、Iox位点的生物活 性变异体、att位点、att位点的生物活性变异体、其任何组合或重组位点的任何其它组合。 FRT位点的实例包括例如最小野生型FRT位点(FRTl)和各种突变型FRT位点,包括但不限 于卩肌5、?肌6和?肌7(参见美国专利6,187,994)。额外的变异FRT位点是已知的,(参 见例如W001/23545和美国专利申请公布说明书2007/0015195,通过引用结合到本文中)。 可使用的其它重组位点包括att位点,例如以下文献中公开的那些=Landy (1989)Arm Rev Biochem 58:913-949,Landy (1993) Curr Op Genet Dev 3 :699_707,美国专利 5,888,732, W001/07572 和 Thygarajan 等 Q001)Mol Cell Biol 21:3926-3934。所用的位点特异性 重组酶取决于靶位点和转移盒中的重组位点。如果使用FRT位点,则提供FLP重组酶,当 使用Iox位点时,则提供Cre重组酶,当使用λ att位点时,则提供λ Int,当使用phiC31 att位点时,则提供phiC31 Int0如果所用的重组位点包括来自不同系统的位点,例如FRT 和Iox位点,可提供这两种重组酶活性,无论是作为独立的实体还是嵌合重组酶,例如FLP/ Cre (参见例如 WO 99/25840)。提供标记,用于鉴定和/或选择表达标记的细胞、植物和/或种子。标记包括例如 筛选标记、可见标记和/或选择标记。选择标记是任何这样的标记当以足够量表达时,赋 予对选择试剂的抗性。例如可使用可见标记鉴定含有导入DNA构建体的转化细胞。在一个 实例中,可见标记是荧光蛋白。这样的荧光蛋白包括但不限于黄色荧光蛋白(YFP)、绿色荧 光蛋白(GFP)、蓝色荧光蛋白(CFP)和红色荧光蛋白(RFP)。在再一个实例中,可见标记是由 具有玉米优选密码子的多核苷酸所编码的。在又一个实例中,可见标记包括GFPnuAmCyan、 ZsYellow 或 DsRed。参见 Wenck 等 Q003)Plant Cell R印· 22 :244-251。选择标记及其相应选择试剂包括但不限于除草剂抗性基因和除草剂;抗生素抗 性基因和抗生素;和其它化学抗性基因及其相应的化学试剂。细菌药物抗性基因包括但 不限于新霉素磷酸转移酶II (nptn)(其赋予对卡那霉素、巴龙霉素、新霉素和G418的抗 性)和潮霉素磷酸转移酶(hph)(其赋予对潮霉素B的抗性)。另见Bowen (1993)Markers for Plant Gene Transfer, Transgenic Plants,第 1 Engineering and Utilization ; Everett 等(1987)Bio/technology 5 :1201-1204 ;Bidney 等(1992)Plant Mol Biol 18:301-313 ;和 W097/05829。若干类群也可赋予除草剂抗性,包括氨基酸合成抑制剂、光合作用抑制剂、脂质抑 制剂、生长调节剂、细胞膜破坏剂、色素抑制剂、幼苗生长抑制剂,包括但不限于咪唑啉酮、 磺酰脲、三唑并嘧啶、草甘膦、烯禾啶、嘿唑禾草灵、草铵膦、草丁膦、均三氮苯类、溴苯腈等。 参见例如 Holt (1993) Ann Rev Plant Physiol Plant Mol Biol 44 :203-2 ;和 Miki 等 (2004)J Biotechnol 107:193-232。选择标记包括赋予除草剂抗性的序列,包括但不限于 bar基因,其编码赋予草铵膦抗性的膦丝菌素乙酰转移酶(PAT) (Thompson等(1987)EMB0 J 6 :2519-2523);草甘膦氧化还原酶(GOX)、草甘膦N-乙酰转移酶(GAT)和5-烯醇丙酮酰莽 草酸-3-磷酸合酶(EPSPS),其赋予对草甘膦的抗性(Barry等,(1992)载于Biosynthesis and Molecular Regulation of Amino Acids in Plants, Singh 等(主编)第 139-145 页; Kishore 等(1992)Weed Tech 6 :626-634 ;Castle(2004)Science 304 :1151-1154 ;Zhou 等
(1995)PlantCell Rep 15 :159-163 ;W097/04103 ;W002/36782 ;和 W003/092360)。其它选 择标记包括二氢叶酸还原酶(DHFR),其赋予对甲氨蝶呤的抗性(参见例如Dhir等(1994) Improvements of Cereal Quality by Genetic Engineering, Henry(主编),Plenum Press, New York ;和 Hauptmann 等(1988)Plant Physiol 86:602-606)。乙酰羟酸合酶 (AHAS或ALS)突变序列导致对咪唑啉酮类(imidiazolinones)和/或磺酰脲类(例如咪 草烟和/或氯磺隆)的抗性(参见例如等(2000)Nat Biotechnol 18 :555-558 ;美国专 利 6,444,875 和 6,660,910 ;Sathasivan 等(1991)Plant Physiol 97 :1044-1050 ;Ott 等
(1996)J Mol Biol 263 :359-368 ;和 Fang 等(1992)Plant Mol Biol 18:1185-1187)。另外,化学物质抗性基因还包括赋予4-甲基色氨酸G-mT)抗性的色氨酸脱羧酶 (Goodijn等(1993)Plant Mol Biol 22:907-912);和赋予溴苯腈抗性的溴苯腈腈水解酶。 选择标记可包括氨腈水合酶(Cah),参见例如Greiner等(1991)Proc Natl Acad Sci USA 88 :4260-4264 ;和 W^eeks 等(2000) Crop Sci 40 :1749_1754。氨腈水合酶将氨腈转化为脲, 因而赋予氨腈抗性。氨腈的任何形式或衍生物都可用作选择试剂,包括但不限于氰氨基钙 (Perlka (SKff,Trotberg Germany)和氰胺(Dormex (SKW))。另见美国专利 6,096,947 和6J68J47。氨腈水合酶的多核苷酸和/或多肽的变异体将会保留氨腈水合酶活性。氨 腈水合酶的生物活性变异体将会保留将氨腈转化为脲的能力。这类活性的测定方法包括测 定表达氨腈水合酶的植物对氨腈的抗性。额外的测定包括氨腈水合酶比色测定(参见例如 Weeks 等(2000) Crop Sci 40 :1749-1754 ;和美国专利 6,268,547)。本发明也涉及分离的多核苷酸,其包含(a)至少2个反向CentC串联重复序列阵 列,其中第ι阵列包含至少10个拷贝的CentC,第2阵列包含至少10个拷贝的CentC ;和 (b)至少一个拷贝的反转录转座元件,其中反转录转座元件位于第1阵列和第2阵列之间。 合适的反转录转座元件讨论同上。本发明范围之内还包括分离的多核苷酸,其包含(a)至少一个CentC串联重复序 列阵列,该阵列包含至少10个拷贝的CentC ;和,(b)至少一个拷贝的选自CentA、CRMl和 CRM2的反转录转座元件。再一方面,本发明涉及分离的多核苷酸,其包含(a)至少一个CentC串联重复序 列阵列,该阵列包含至少10个拷贝的CentC ;和,(b)CentA、CRMl和CRM2各自至少一个拷 贝。
分离的多核苷酸包含至少一个CentC串联重复序列阵列。每个CentC重复序列 阵列可包含至少 5、10、15、20、25、30、40、50、60、70、80、90、100、120、140、150、160、180、200、 220,240,250,260,280或300个拷贝的CentC。此外,每个CentC串联重复序列阵列中可间 插另一序列元件,包括但不限于反转录转座子(其插入到CentC拷贝之间或CentC元件内 或反转录转座子内),或阵列中的任何其它序列元件。反转录转座子包括但不限于CentA、 CRMl 禾口 CRM2。多核苷酸包括任何核酸分子,并且包含天然存在的、合成的和/或修饰的核糖核 苷酸、脱氧核糖核苷酸以及核糖核苷酸和脱氧核糖核苷酸的组合。多核苷酸包括所有序列 形式,包括但不限于单链、双链、线状、环状、分枝、发夹、茎-环结构等。本发明范围之内还包括重组构建体,其包含本发明的任何分离的多核苷酸。重组DNA构建体包含多核苷酸,当存在于植物基因组中时,所述多核苷酸是对植 物基因组的该染色体位置而言是异源的或外源的。在制备DNA构建体中,可操作不同片段, 以提供合适方向和/或合适读框的序列。连接基或接头可用于连接各片段。可使用其它操 作以提供方便的限制位点、除去冗余DNA或除去限制位点。例如,可使用体外诱变、引物修 复、限制、退火、重新取代、转换、倒位或重组系统。目标多核苷酸是指DNA构建体中包含的 用于任何目的的任何核酸分子,包括但不限于非翻译区、调节区、转录起始区、翻译起始区、 内含子、外显子、编码RNA的多核苷酸、选择标记、筛选标记、表型标记、编码重组酶的多核 苷酸、重组位点、靶位点、转移盒、限制位点、识别位点、绝缘子、增强子、间隔/填充序列、复 制起点、端粒序列、操纵基因等,都可在DNA构建体中提供。构建体可包含与合适序列有效 连接的5'和3'调节序列。DNA构建体可包含在植物中有功能的、以5'至3'方向转录的 至少一个以下区域转录和翻译的起始区、多核苷酸、和转录和翻译的终止区。或者,DNA构 建体可缺乏至少一个5'和/或3'调节元件。例如,可设计DNA构建体,使得一旦导入细 胞且存在合适的重组酶时,在靶位点的重组事件将5'和/或3'调节区与DNA构建体的合 适序列有效连接。根据所用的多核苷酸元件、重组位点、转移盒和/或靶位点,可按多种方式使用调 节元件。在某些实例中,间插序列可存在于有效连接元件之间而不破坏功能性连接。例如, 启动子和目标多核苷酸之间的有效连接允许启动子启动和介导目标多核苷酸的转录。在某 些实例中,翻译起始位点与重组位点有效连接。在某些实例中,重组位点位于内含子中。盒可另外含有至少一个要导入植物的额外序列。或者,可分别提供额外序列。可 给DNA构建体提供多个限制位点或重组位点,用于操作不同组分和元件。DNA构建体可另外 含有选择标记基因。转录起始区对植物宿主或目标多核苷酸而言可以是天然的、类似的、外源或异源 的,并且可以是天然序列、修饰序列或合成序列。大量启动子可用于表达编码序列。有关用于植物的各种启动子的综述可参见Potenza等^004) Vitro Cell Dev Biol Plant 40:1-22。在某些实例中,表达选择标记的启动子在种子中具有活性。在种子 中具有活性的启动子包括组成型启动子,例如,Rsyn7启动子的核心启动子和以下文献中公 开的其它组成型启动子1099/43838和美国专利6,072,050 ;核心CaMV 35S启动子(Odell 等(1985)Nature 313 :810-812) ;MVV(紫茉莉花叶病毒)启动子(Dey 和Maiti (1999)Plant Mol Biol 40 :771-782);水稻肌动蛋白(McElroy 等(1990)Plant Cell 2:163-171);泛蛋白(Christensen 等(1989)Plant Mol Biol. 12 :619-632 和 Christensen 等(1992) Plant Mol Biol 18:675-689) ;pEMU(Last 等(1991)Theor Appl Genet 81:581-588); MAS(Velten 等(1984)EMBO J 3 :2723-2730) ;ALS 启动子(美国专利 5,659,026)等。 其它组成型启动子包括以下文献中公开的那些例如美国专利5,608,149,5,608, 144、 5,604,121,5, 569,597,5, 466,785,5, 399,680,5, 268,463,5, 608,142 和 6,177,611。启动子可以是组织优选的启动子,以便在特定植物组织中增强表达。在某些实 例中,种子优选的启动子用于表达选择标记。种子优选的启动子包括种子特异性启动子 (其在种子发育中具有活性)以及种子萌发启动子(其在种子萌发中具有活性)。参见 Thompson等(1989)BioEssays 10:108。种子优选的启动子包括但不限于Ciml (细胞分 裂素诱导的信息);CZ19B1(玉米19kDa玉米醇溶蛋白);milps (肌醇-1-磷酸合酶)(参 见恥00/11177和美国专利6,225,529)、豆类β -菜豆蛋白、油菜籽蛋白、β -伴大豆球蛋 白、大豆凝集素、十字花科蛋白(crucif erin)、玉米15kDa玉米醇溶蛋白、22kDa玉米醇溶蛋 白、27kDa玉米醇溶蛋白、糯质蛋白(waxy)、超甜蛋白1 (shrunken 1)、超甜蛋白2 (shrunken 2)、球蛋白 Uendl 和 end2 启动子(W000/12733)等。化学物质调节的启动子可通过利用外源化学调节剂来调节种子中的表达。启动子 可以是化学物质诱导型启动子(其中利用化学物质诱导基因表达)或化学物质阻遏型启动 子(其中利用化学物质阻遏基因表达)。化学物质诱导型启动子包括但不限于玉米M2-2 启动子(由苯磺酰胺除草剂类安全剂(safener)活化);玉米GST启动子(由疏水亲电化 合物(例如某些芽前除草剂)活化);和烟草PR-Ia启动子(由水杨酸活化)。其它化学 物质调节的目标启动子包括留体响应型启动子(参见例如糖皮质激素诱导型启动子,参见 khena 等(1991)Proc Natl Acad Sci USA 88 10421-10425 和 McNellis 等(1998)Plant J 14 =247-257)以及四环素诱导型和四环素阻遏型启动子(参见例如feitz等(1991)Mol Gen Genet227 :229-237 和美国专利 5,814,618 和 5,789,156)。DNA构建体可包含表达单元。表达单元可具有包括但不限于以下的元件内含子、 增强子、前导序列、绝缘子、间隔序列、RNA编码区、标记基因、重组位点、终止区、重组酶的编 码序列、增强子、接头、识别位点等。另外,DNA构建体可包含转移盒、靶位点或其任何部分或 组合。可以各种方式修饰DNA构建体,包括但不限于位点特异性重组/整合方法或基于转座 子的转座,以使DNA构建体中具有各种变化。可以修饰多核苷酸序列,用于在植物中表达。 参见例如Campbell和Gowri (1990)Plant Physiol 92:1-11。合成植物优选基因的方法包 括例如美国专利 5,380,831、5,436,391 和 Murray 等(1989) Nucl Acids Res 17:477-498。已知额外的序列修饰在细胞宿主内能增强基因表达。这些修饰包括消除编码 假聚腺苷酸化信号的序列、外显子-内含子剪接位点信号、转座子样重复序列和对基因 表达有害的其它已充分表征的序列。序列的G-C含量可调节到给定宿主的平均水平,该 水平是通过参考该宿主中表达的内源基因而求出的。也可修饰序列以避免二级mRNA结 构。DNA盒中可另外含有5'前导序列,其可起到增强翻译的作用。翻译前导序列包括 例如 pimaizeavirus 前导序列例如 EMCV 前导序列(Elroyltein 等(1989) Proc Natl Acad Sci USA 86:6126-6130);马铃薯Y病毒(Potyvirus)前导序列例如TEV前导序列 (Gallie 等(1995)Gene 165 :233-238)、MDMV 前导序列(Kong 等(1988)Arch Virol 143 1791-1799)和人免疫球蛋白重链结合蛋白(BiP) (Macejak 等(1991)Nature 353 :9094);苜蓿花叶病毒外壳蛋白mRNA的非翻译前导序列(AMV RNA 4) (Jobling等(1987)Nature 325 :622-625);烟草花叶病毒前导序列(TMV) (Gallie 等(1989)载于 Molecular Biology of RNA, ed. Cech (Liss, New York),第237-256页);和玉米褪绿斑驳病毒前导序列(MCMV) (Lommel 等(1991) Virology 81:382-385)。另见 Della-Cioppa 等(1987)Plant Physiol 84 :965-968。已知能增强翻译的其它方法或序列也可采用,例如内含子等。目标序列包括例如锌指、激酶、热激蛋白、转录因子、DNA修复、农艺学性状、抗虫 性、抗病性、除草剂抗性、不育性、油、蛋白质、淀粉、可消化性、果仁大小、成熟度、营养组 成、含量或代谢等。抗虫基因可编码对害虫的抗性,例如根虫(线虫)、地老虎、欧洲玉米 螟等。这样的基因包括例如苏云金芽孢杆菌(B. thuringiensis)毒蛋白基因(美国专利 5,366,892 ;5,747,450 ;5,736,514 ;5,723,756 ;5,593,881 ;Geiser 等(1986)Gene 48 109)等。抗病性状包括解毒基因,例如针对伏马毒素(fumonosin)的基因(美国专利 5,792,931);减毒(avr)和抗病(R)基因(Jones 等(1994) Science 266 :789 ;Martin 等 (1993)Science262 :1432 ;Mindrinos 等(1994) Cell 78 :1089)等。除草剂抗性性状包括编 码除草剂抗性的基因,包括磺酰脲型除草剂(例如ALS的S4和/或Hra突变)、抑制谷氨 酰胺合酶作用的除草剂,例如草丁膦或草铵膦(basta)(例如bar基因)、EPSPS (美国专利 6,867,293 ;5,188,642 和 5,627,061)、GOX(Zhou 等(1995)Plant Cell Rep 15:159-163) 和GAT (美国专利6,395,485)。也可使用抗生素抗性基因,例如编码抗生素卡那霉素和庆大 霉素抗性的nptll基因。也可使用不育基因,例如作为去雄的替代方法,包括雄性组织优选 的基因和具有雄性不育表型的基因例如QM(例如美国专利5,583,210)、激酶和编码对雌雄 配子体发育具有毒性的化合物的基因。需要降低特定基因的活性、沉默和/或抑制。用于基因沉默的许多技术是已知 的,包括但不限于反义技术(参见例如Sheehy等(1988)Proc Natl Acad Sci USA 85: 8805-8809 ;和美国专利 5,107,065 ;5,453,566 和 5,759,829);共抑制(例如 Taylor (1997) Plant Cell 9 1245 Jorgensen(1990)Trends Biotech 8 :340-344 ;Flavell(1994)Proc Natl Acad Sci USA91 :3490-3496 ;Finnegan 等(1994)Bio/technology 12 :883-888 ;和 Neuhuber 等(1994)Mol Gen Genet 244:230-241) ;RNA干扰(Napoli 等(1990)Plant Cell 2 :279-289 ;美国专利 5, 034, 323 ;Sharp (1999) Genes Dev 13 :139-141 ;Zamore 等(2000) Cell 101 :25-33 Javier (2003)Nature 425 :257-263 ;和 Montgomery 等(1998)Proc Natl Acad Sci USA 95 :15502-15507)、病毒诱导的基因沉默(Burton 等 Q000)Plant Cell 12 :691-705 ;和 Baulcombe (1999) Curr Op Plant Bio 2 :109-113);靴向 RNA 特异性核 酶(Haseloff 等(1988)Nature 334:585-591);发夹结构(Smith 等(2000)Nature 407 319-320 ;W099/53050 ;W002/00904 和 W098/53083);核酶(Steinecke 等(1992) EMBO J 11 1525 ;美国专利 4,987,071 ;和 Perriman 等(1993)Antisense Res Dev 3 :253);寡核苷酸 介导的定向修饰(例如W003/076574 ;和W099/25853) ;Si指靶向分子(例如W001/5^20 ; W003/048345和W000/42219);和其它方法或上述方法的组合。终止区可以是天然的,转录起始区可天然带有有效连接的目标DNA序列,或可来 自另一来源。方便的终止区可得自根癌土壤杆菌(Agrobacterium tumefsciens)Ti-质粒, 例如章鱼碱合酶和胭脂碱合酶的终止区。另见Guerineau等(1991)Mol Gen Genet 262 141-144 ;Proudfoot(1991)Cell 64 :671-674 ;Sanfacon 等(1991)Genes Dev 5:141-149;Mogen 等(1990)Plant Cell 2:1261-1272 ;Munroe 等(1990)Gene 91 :151-158 ;Ballas 等 (1989)Nucl Acids Res 17 :7891-7903和 Joshi 等(1987)Nucl Acids Res 15:9627-9639。再一方面,本发明涉及包含具有功能性着丝粒的人工植物微染色体的转基因玉米 植物的制备方法,所述方法包括(a)使至少一个玉米植物细胞与包含本发明重组构建体的混合物接触;(b)鉴定来自步骤(a)并包含具有功能性着丝粒的人工植物微染色体的至少一个 玉米植物细胞;和(c)使来自步骤(b)的玉米植物细胞再生出能育的玉米植物,其中所述玉米植物 包含具有功能性着丝粒的人工植物微染色体。混合物还可包含编码用于刺激细胞生长的多肽的多核苷酸。刺激细胞生长的多肽 的实例包括但不限于wuschel、baby boom、RepA或Lecl0将序列导入植物的任何方法都可使用,只要多核苷酸或多肽能够进入至少一个细 胞内部。将序列导入植物的方法是已知的,包括但不限于稳定转化、瞬时转化、病毒介导的 方法和有性育种。稳定结合是指导入的多核苷酸整合到基因组中并由后代遗传下去。瞬时 转化是指导入的序列没有整合到基因组中,使得从宿主遗传给后代。所用的植物和种子可 具有稳定结合在其基因组上的DNA构建体。任何方案都可使用,以导入DNA构建体、任何组 分的位点特异性重组系统、多肽或任何其它目标多核苷酸。提供包含将任何多肽和/或多 核苷酸与任何其它所述组分结合在一起的任何方法。任何方法都可采用,以将靶位点、转移 盒和合适的重组酶结合在一起,所述方法包括例如稳定转化、瞬时递送和有性杂交(参见 例如W099/25884)。在某些实例中,可提供多肽或mRNA形式的重组酶。可采用一系列方案, 以将不同组分结合在一起。例如,可通过各种方法将这些组分中的至少一种提供给细胞,所 述方法包括瞬时和稳定的转化方法;将重组酶DNA、mRNA或蛋白质直接共同引入细胞;使用 可表达重组酶的生物(例如株或品系);或让携带靶位点的细胞或生物生长/培养,与表达 活性重组酶蛋白的生物杂交,然后在后代选择事件。当转移盒主要在靶位点整合时,得到简 单的整合模式。能够在生物体内调节表达的任何启动子,包括组成型、诱导型、发育型、时间 和/或空间调节型启动子等,都可使用。转化方案以及将多肽或多核苷酸序列引入植物的方案因转化所靶向的植物或 植物细胞种类不同而异。将多肽或多核苷酸引入植物细胞的合适方法包括显微注射 (Crossway 等(1986)Biotechniques4 :320-334,美国专利 6,300,543 ;和美国专利申请 号11/427,947和11/427,371,所有这些文献都通过引用结合到本文中)、电穿孔(Riggs 等(1986)Proc Natl Acad Sci USA 83 :5602-5606)、土壤杆菌介导的转化(美国专利 5,563,055 和 5,981,840)、直接基因转移(Paszkowski 等(1984)EMBO J 3:2717-2722) 和生物射弹粒子加速(ballistic particle acceleration)(美国专利 4,945,050 ; 5,879,918 ;5,886,244 和 5,932,782 ;Tomes 等(1995)载于 Plant Cell, Tissue, and Organ Culture -Fundamental Methods, Gamborg 禾口 Phillips 主编(Springer-Verlag, Berlin) ;McCabe 等(1988)Biotechnology 6 :923-926);禾口 Lecl 转化(W000/28058)。另 见 Weissinger 等(1988)Ann Rev Genet 22 :421-477 ;Sanford 等(1987)Particulate Science and Technology 5:27-37(洋葱);Christou 等(1988)Plant Physiol 87: 671-674(大豆);Finer和McMullen(1991) In Vitro Cell Dev Biol 27P :175-182(大豆);Singh 等(1998) Theor Appl Genet 96 :319-324 (大豆);Datta 等(1990)Biotechnology 8 :736-740(水稻);Klein 等(1988)Proc Natl Acad Sci USA 85 :4305-4309 (玉米); Klein 等(1988) Biotechnology 6 :559-563 (玉米);美国专利 5,240,855 ;5,322,783 和 5,324,646 ;Klein 等(1988)Plant Physiol 91 :440-444(玉米);Fromm 等(1990) Biotechnology 8:833-839(玉米);Hooykaas-Van Slogteren 等(1984)Nature 311 763-764 ;美国专利 5,736,369 (谷物类);Bytebier 等(1987) Proc Natl Acad Sci USA 84 :5345-5349(百合科(Liliaceae)) ;De Wet 等(1985)载于 The Experimental Manipulation of Ovule Tissues, Chapman 等主编(Longman, New York),第 197-209 页 (花粉);Ka印pier 等(1990)Plant Cell Rep 9 :415_418,Ka印pier 等(1992)Theor Appl Genet 84 :560-566 (颈须(whisker)介导的转化);D' Halluin 等(1992)Plant Cell 4 1495-1505(电穿孔);Li 等(1993)Plant Cell Rep 12 :250-255 ;Christou 和 Ford(1995) Ann Bot 75 :407-413(水稻);Osjoda 等(1996)Nat Biotechnol 14 :745-750(玉米, 通过*艮癌土壤杆菌);禾口载于 Advances in Cellular and Molecular Biology of Plants,第 5 卷,第 8 章,第 189-253 页,Vasil 主编,Kluwer Acad Publ (Dordrecht, The Netherlands)1999。不同化合物可与任何直接递送方法一起用于将任何多核苷酸、多肽或其组合(任 选包含其它组分)导入植物细胞中。例如,在阳离子型脂质溶液、脂质体溶液、阳离子型聚 合物、DNA结合蛋白、阳离子蛋白、阳离子肽、阳离子聚氨基酸或其组合的存在下,可通过使 DNA构建体与微弹结合而制备用于基因枪(particle gun)方法的微弹。在某些实例中,在 以下物质存在下,通过使DNA构建体与微弹相结合,制备用于基因枪方法的微弹Tfx-10、 Tfx-20、Tfx-50、脂转染试剂(Lipofectin)、脂转染胺试剂(Lipofectamine)、细胞转染 试剂(Cellfectin)、Effectene、细胞转染试剂 GSV(Cytofectin GSV)、Perfect Lipids、 D0TAP、DMRIE-C、FuGENE-6、Superfect、Polyfect、聚乙烯亚胺、脱乙酰壳多糖、鱼精蛋白 Cl、 DNA结合蛋白、组蛋白HI、组蛋白CENH3、聚-L-赖氨酸、DMSA等。可通过用病毒或病毒核酸与植物接触,将多核苷酸导入植物中。通常,这样的方法 包括将所需多核苷酸结合在病毒DNA或RNA分子中。序列开始可合成在病毒多蛋白中,然 后在体内或体外加工产生所需蛋白质。有用的启动子包括病毒RNA聚合酶转录所用的启动 子。将多核苷酸(包括病毒DNA或RNA分子)引入植物并表达所编码的蛋白质的方法是 已知的,参见例如美国专利 5,889,191 ;5,889,190 ;5,866,785 ;5,589,367 ;5,316,931 ;和 Porta 等(1996)Mol Biotech 5:209-221。使用各种瞬时方法,可将不同组分(包括来自位点特异性重组系统的那些)提供 给植物。这样的瞬时转化方法包括但不限于向植物中直接引入重组酶或其活性片段或其 变异体、引入重组酶mRNA或使用非整合方法、或引入低水平的DNA。这样的方法包括例如 显微注射、粒子轰击、病毒载体系统和/或多核苷酸沉淀,其中转录是自结合粒子的DNA发 生的,而基本不自粒子中释放或不整合到基因组中,这样的方法通常使用包被聚乙烯亚胺 (polyethylimine)的粒子(参见例如 Crossway 等(1986)Mol Gen Genet 202:179-185; Nomura 等(1986)Plant Sci 44 :53-58 ;!fepler 等(1994)Proc Natl Acad Sci USA 91: 2176-2180 ;和 Hush 等(1994) J Cell Sci 107:775-784)。采用标准方案和介质,可将转化细胞再生为植物,参见例如McCormick等(1986)Plant Cell Rep 5 :81_84。然后可培养这些植物并自花授粉、回交和/或远交,鉴定具有所 需性状的所得后代。培养两代或更多代,以保证性质能稳定维持并遗传,然后收获种子。按 照该方法,提供具有所述DNA构建体稳定地结合在基因组的转化/转基因种子。具有稳定 结合的DNA构建体的植物和/或种子可进一步表征其表达、位点特异性整合潜力、农业经济 学和拷贝数(参见例如美国专利6,187,994)。可使用目标重组位点、重组酶、选择标记和核苷酸序列的片段和变异体,除非另有 说明,否则是指所述变异体或片段保留了至少某些原始组成的活性/功能。就多核苷酸编 码蛋白质而言,多核苷酸片段可编码保留全长蛋白生物活性的蛋白片段。多核苷酸片段的 范围为至少约20个核苷酸、约50个核苷酸、约100个核苷酸和至多全长多核苷酸。编码 蛋白质生物活性部分的多核苷酸片段通常编码至少15、25、30、50、100、150、200、250、300、 325、350、375、400、420或450个连续氨基酸,或该范围内的任何整数,至多并包括全长蛋白 质所含的氨基酸总数。可通过分离编码目标多肽部分的一个多核苷酸部分而制备多肽的生 物活性片段,然后表达蛋白质片段并评价其活性。或者,可通过选择性化学裂解或蛋白酶裂解全长多肽而制备多肽的生物活性片 段,再测定其活性。例如,编码重组酶多肽片段的多核苷酸可包括这样的核苷酸序列其 包含至少 16、20、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、800、 900、1,000、1,100、1,200、1,300或1,400个核苷酸,或该范围内的任何整数,至多并包括全 长多核苷酸的核苷酸总数。另外,在合适的重组酶存在下,在经历重组事件后,重组位点片 段保留重组位点的生物活性。重组位点片段的范围为至少约5、10、15、20、25、30、35、40个 核苷酸,至多达全长重组位点。例如全长FRT、Iox、attB和attP位点是已知的,其范围为约 50个核苷酸至约250个核苷酸,而完全活性的最小值是已知的,范围为约20、25、30、35、40、 45和50个核苷酸。重组位点和重组酶生物活性的测定是已知的(参见例如knecoll等(1988) J Mol Biol 201 :406-421 ;Voziyanov 等 Q002)Nucl Acids Res 30 :7 ;美国专利 6,187,994 ; W001/00158 ;Albert 等(1995) Plant J 7 :649-659 ;Hartang ^ (1998) J Biol Chem 273 22884-22891 ;Saxena 等(1997)Biochim Biophys Acta 1340 :187-204 ;和 Hartley 等 (1980)Nature280-860-864)。重组酶活性测定通常测定酶对含重组位点的DNA底物的总体 活性。例如,为了测定FLP的活性,可检测含两个反向FRT位点的环状质粒中的DNA序列倒 位,因为限制酶位点的位置发生改变(参见例如Vetter等(1983)ft~OC Natl Acad Sci USA 80:7观4)。或者,可以测定从线状分子切除的DNA或由酶诱导的分子间重组频率(参见例 如Babineau等(1985) J Biol Chem 洸0 :12313 ;Meyer_Leon等(1987)Nucl Acids Res 15: 6469 ;和 Gronostajski 等(1985) J Biol Chem 260 12328) 也可测定重组酶活性,即通过 切除致重组FRT位点侧接的序列,以激活可测定的标记基因。
实施例以下实施例进一步界定了本发明,其中份和百分比以重量计,温度以摄氏度计,除 非另有说明。应当理解,当这些实施例表示本发明的优选实施方案时,它们仅用于说明性目 的。根据以上讨论和这些实施例,本领域技术人员可以确定本发明的基本特征,而且在不偏 离其精神和范围下,可对本发明作出不同的改动和修饰,以适用于不同用途和条件。因此,根据上述描述,对本发明进行除本文所示和所述之外的各种修饰,将会是本领域技术人员 显而易见的。这样的修饰也落入所附权利要求书的范围之内。缩略语的含义如下“SeC”表示秒,“min”表示分钟,“h”表示小时,“d”表示天, “ μ 1 ”表示微升,“mL”表示毫升,“L”表示升,“ μ Μ”表示微摩尔浓度,“rnM”表示毫摩尔浓 度,“M”表示摩尔浓度,“mmol”表示毫摩尔,“ μ mole”表示微摩尔,“g”表示克,“ μ g”表示 微克,“ng”表示纳克,“U”表示单位,“bp”表示碱基对,“kB”表示千破基对。实施例1.玉米着丝粒的鉴定和分离为了评价单个着丝粒的大小、组成和结构组织,单独和/或在合剂中使用对 CentC, CentA, CRMl和/或CRM2具有特异性的标记探针,用于对玉米减数分裂粗线期、中 期、后期I的染色体进行荧光原位杂交(FISH)和对延伸DNA分子进行荧光原位杂交(纤 维-FISH)。这4个探针也用于筛选基因组玉米BAC文库。A.原位杂交玉米中期染色体的多色FISH表明,这4个着丝粒重复序列是着丝粒特异性的并共 同定位于体细胞所有染色体的着丝粒区。FISH分析表明,反转录转座子CRMl、CRM2和CentA 占据在玉米着丝粒中大致相同的区域。在不同玉米染色体的着丝粒之间,重复序列的组成 和重复序列区相对大小有显著差异。FISH结果表明,CentA探针具有最微弱的杂交信号;CRMl探针表现出梯度样杂交 模式,在中期染色体最初缢痕周围具有最强信号,在着丝粒区外围信号逐渐减弱;而CRM2 探针表现出最清楚而致密的杂交信号。CentC重复序列的FISH信号强度高度依赖于CentC 拷贝数,这在不同玉米染色体着丝粒之间是不同的。在某些着丝粒中,CentC紧密簇集,表 现出与其它着丝粒重复序列的轻微重叠,在其它染色体中,CentC重复序列分布显示出与所 有其它重复序列更多的重叠。具有所有4个着丝粒重复序列的花粉母细胞减数分裂后期I 染色体的FISH表明,这一时期的着丝粒区高度延伸,完整着丝粒区中仅有小区段实际上与 动粒连接。所有4个重复序列共同定位于微管连接区段,这表明天然功能性着丝粒区包含 所有4个着丝粒重复序列。延伸DNA分子的纤维-FISH用于以更高分辨率进一步表征着丝 粒重复序列的分布和排列。燕麦与玉米杂交产生的Fl胚保留一条或多条玉米染色体(参见例如 Riera-Lizarazu^ (1996) Theor Appl Genet 93 :123-135 ;Ananiev φ (1997) Proc Natl Acad Sci USA 94 =3524-3529) 0这些品系提供了研究一条玉米染色体、而没有其它9条玉 米染色体的复杂背景的方法。大量燕麦-玉米附加系可得自明尼苏达大学(University of Minnesota, St. Paul, MN, USA)的 Ron Phillips,包括本文所用的 Seneca 60、A188 和 B73 燕麦-玉米附加系。燕麦-玉米染色体附加系的DNA用于分析一条玉米染色体的着丝粒区。燕麦-玉 米染色体附加系的多色纤维-FISH显示每条染色体独特的长达百万碱基的着丝粒重复序 列杂交延伸(图11)。在染色体1、7和8中,所有4个重复序列分散在整个着丝粒区中。在 其它染色体中,CentC呈现出比较短的延伸(约3001Λ),其侧接其它3个着丝粒重复序列的 “松散”阵列。经FISH观察,不同玉米染色体之间着丝粒区的总长度有很大差异。在该重复 序列的丰度方面,CentC表现出一条染色体的着丝粒之间的显著多态性,在任何给定基因型 中观察到的差异高达10倍。在中期和粗线期染色体中,染色体7具有最大的CentC串联重复序列区组。同样,具有玉米染色体7的燕麦-玉米附加系具有最长延伸的DNA纤维,其与 CentC探针杂交。相反,在中期染色体中,玉米染色体4的着丝粒却具有最小段的CentC重 复序列区组,而最小的CentC在燕麦-玉米染色体4附加系、尤其是在玉米系B73染色体4 中。当通过纤维-FISH分析时,着丝粒反转录转座子CentA、CRMl和CRM2显示出斑点样模 式,在阳性杂交信号之间具有大的缺口。当这3个反转录转座子的探针混合在一起并用作 一个混合探针时,它们显示出分散在CentC重复序列区组中的更连续的标记DNA纤维。连 续标记着丝粒反转录转座子的侧翼显示出沿DNA分子的斑点样模式,表明其它类型的DNA 序列散布在着丝粒反转录转座子中,包括非着丝粒特异性元件。着丝粒反转录转座子在具 有小的CentC重复序列区组的染色体(例如染色体4)着丝粒中可形成至多1Mb的松散阵 列。玉米杂种Zapalote chico具有额夕卜的(supernumary)B—染色体。Zapalote chico的 减数分裂染色体的FISH表明,玉米B-染色体功能性着丝粒含有所有4个着丝粒重复序列, 与在所有A-染色体中观察到的一样。然而,在B-染色体长臂的若干非着丝粒位点中也发 现了 CentC重复序列簇集。这些位点显然不含其它着丝粒重复序列。有丝分裂和减数分裂染色体的FISH和纤维FISH的结果表明,负责在玉米染色体 上形成动粒的功能性天然着丝粒区段通常包含CentC串联重复序列阵列以及其它3个着丝 粒重复序列CRM1、CRM2和CentA (图12)。B. BAC 文库BAC载体允许克隆大片段的基因组DNA,其大小至多达约3001Λ,其在细菌宿主(典 型的是大肠杆菌)中可维持。已经从动植物中产生了各种各样的BAC文库并成为公众可 得的,参见例如以下信息Clemson University Genome hstitute (CUGI ;参见以下网站 genome.clemson.edu)禾口 Children' s Hospital Oakland Research Institiute(CHORI ; 参见以下网站chori. org)。使用多种酶,用分别代表Dent和Lancaster杂种群的两种不 同玉米基因型(B73和Mol7)进行文库构建,筛选大于13X覆盖面的玉米基因组BAC文库中 的玉米着丝粒序列。i.玉米Mol7基因组BAC文库自 pBAC108L (Shizuya 等(1992) Proc Natl Acad Sci USA 89 :8794-8797)开发 出 pIndigoBac536(Shizuya,未发表)和 pBeloBACll (Kim 等(1996) Genomics 34 :213-218) BAC克隆载体。PBAC108L是基于小F因子的质粒。F因子编码调节其自身在细胞中的复制 和拷贝数的基因。载体pBeloBACll是通过引入LacZ基因而产生,以便通过蓝色或无色(白 色)表型而鉴定重组克隆。pBeloBACll具有3个独特的克隆位点BamHI、SphI和HindIII, 这些位点侧接T7和SP6启动子。稀有切点酶(rare-cutter)限制位点NotI, EagI, XmaI, SmaI、BglI和SfiI可用于切除来自pBeloBACll的插入序列。在载体pIndigoBac536中, EcoRI位点在氯霉素(CMk)基因中被修饰,使得克隆位点中的EcoRI位点可用于文库构建。 pBeloBACll载体和phdigoBac536载体具有2个选择标记(LacZ和CMk)用于转化体的选 择。基本上按照Kim等((1996)Genomics 34:213-218)所述,在与加州理工学院 (California Institute of Technology)的 Shizuya 实验室的合同之下,自玉米Mol7 公用 近交系,在pBeloBACll或pIndig0Bac536中构建了有产权的玉米基因组BAC文库。简而言 之,Mol7基因组DNA用HindIII或EcoRI限制酶部分消化。在琼脂糖凝胶中对DNA片段进行大小分级分离后,克隆在PBeloBACll HindIII位点或pIndigoBac536 EcoRI位点中。平 均插入序列大小为约1501Λ。完整Mol7基因组BAC文库由433个384孔板或总共166,272 个BAC克隆组成。包括214板的文库的一半含有具有HindIII插入序列的BAC克隆,而包 括219板的文库的另一半则含有具有EcoRI插入序列的BAC克隆。BAC克隆维持在大肠杆 菌 DHlOB (BRL Life Technologies)中。ii.玉米B73基因组BAC文库得到两个公用玉米B73基因组BAC文库。文库ZMMBBb可得自Clemson University Genome Institute (CUGI, University of Georgia,Athens,GA,USA) 。 ZMMBBb BAC
CUGI产生,即通过将HindIII部分消化的玉米B73基因组DNA克隆到包含氯霉素(CMk)抗 性基因&phdigoBac536载体中。ZMMBm3 BAC文库包含总共M7, 680个BAC克隆,平均插 入序列大小为约13 Λ,代表14X基因组的覆盖度。第二个B73BAC文库CH0RI-201(ZMMBBc) 是由 Chil dren' s Hospital Oakland Research Institiute (CHORI)的 Pieter de Jong 实验室的制备的,该文库可得自CHORI的BACPAC Resource Center。为了构建该文库,从 玉米B73核中分离出基因组DNA。用经EcoRI和EcoRI甲基化酶的组合部分消化的DNA构 建了文库的第一区段,用MboI部分消化的DNA构建了第二区段。将经大小选择的DNA克隆 到pTARBAC2. 1载体(区段1,板1-288)的EcoRI位点之间,并克隆到pTARBACl. 3载体(区 段2,板观9-576)的BamHI位点之间。用连接产物转化大肠杆菌DHlOB电感受态细胞(BRL Life Technologies) 0将每个载体中用于各文库区段的BAC克隆排列到288个384孔微量 滴定板中。区段1包含106,637个单个BAC克隆,平均插入序列大小为1631Λ,代表6. 9X基 因组覆盖度。区段2包含105,579个单个BAC克隆,平均插入序列大小为167吐,代表7.0父 基因组覆盖度。总ZMMBBc文库包含212,216个单个BAC克隆,平均插入序列大小为1651Λ, 代表13. 9X基因组覆盖度。C. BAC文库筛选用4个针对着丝粒序列CentA、CentC、CRMl和CRM2的单独探针筛选玉米B73和 Mol7 BAC文库。探针经设计成为40bp长的OVERGO寡核苷酸,并且对每个着丝粒元件而言都 是独特的。通过使用合适标记,这些探针可用于菌落、和斑点杂交以及FISH和纤维-FISH。i.重叠寡核苷酸探针重叠寡核苷酸探针通常设计为具有8bp互补重叠区的两个短寡核苷酸。短寡核苷 酸通常范围为23-28bp,其中Mbp是最常用的。退火后,寡核苷酸形成二聚体,其中16bp单 链DNA位于两侧。标记部分双链探针,即在标记核苷酸存在下,通过用克列诺(Klenow)酶 的聚合活性填补凹进的3'端。最终重叠寡核苷酸探针包含标记双链40bp探针。表1列出 引物和探针,用于产生、筛选和表征BAC克隆、DNA构建体和玉米微染色体事件。表 权利要求
1. 一种包含功能性着丝粒的人工植物微染色体,所述着丝粒与着丝粒蛋白C(CENPC) 特异性结合,其中所述微染色体在严格性杂交条件下与选自以下的多核苷酸特异性杂交(a)包含至少一个植物着丝粒元件的多核苷酸,其中所述多核苷酸选自bacm.pkl28. j21、bacm2. pk023. e24、bacm2. pkll6. gl6、bacm2. pkl74. e04、bacm. pkl35. 106 禾口 bacm. pkll9. a23 ;(b)包含至少一个植物着丝粒元件的多核苷酸,其中所述多核苷酸由选自以下的 美国典型培养物保藏中心指定号的ATCC保藏物提供PTA-9214、PTA-9213、PTA-9215、 PTA-9216、PTA-9217 和 PTA-9218 ;(c)包含来自kiCm2.pkl70. a08的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ ID NO :194-242 ;(d)包含来自bacb.pk243. 115的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ ID NO :243-323 ;(e)包含来自bacm.pkl47. d02的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ ID NO :324-373 ;(f)包含来自bacm.pkl84. c21的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ ID NO :374-396 ;(g)包含来自bacm.pk024. f21的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ ID NO :397-446 ;(h)包含来自bacm.pkl55. 113的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ ID NO :437-519 ;(i)包含来自bacm.pk010.m07的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ ID NO 188 和 520-566 ;(j)包含来自bacm. pk007. bl6的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ ID NO :567-590 ;(1)包含来自bacm. pkl28. j21的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ ID NO :191,591-603 和 695-696 ;(m)包含来自bacm. pkl08. hl5-2的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ ID NO :186-187 和 604-651 ;(η)包含来自bacm. pk044. al9的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ ID NO :652-663 ;(ο)包含来自bacb. pkl55. hl5的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ ID NO :664-694 ;(P)包含来自bacm2. pk023. e24的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ ID NO :697-705 ;(q)包含来自bacm2.pkll6.gl6的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ ID NO :706-728 ;(r)包含来自kiCm2. pkl74. e04的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ ID NO :729-744 ;(s)包含来自bacm. pkl35. 106的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ IDNO :745-763 ;和(t)包含来自bacm. pkl 19. a23的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ ID NO :764-810 ;和(u)与(a)至(t)中任一项的多核苷酸具有至少90%序列同一性的多核苷酸。
2.一种包含功能性着丝粒的人工植物微染色体,所述着丝粒与着丝粒蛋白C(CENPC) 特异性结合,其中所述功能性着丝粒包含至少2个反向CentC串联重复序列阵列,其中第 1阵列包含至少50个拷贝的CentC,第2阵列包含至少50个拷贝的CentC ;和至少一个拷 贝的反转录转座元件,其中所述反转录转座元件位于第1阵列和第2阵列之间,其中所述微染色体在严格性杂交条件下与选自以下的多核苷酸特异性杂交(a)来自bacm.pkl28. j21的多核苷酸;(b)美国典型培养物保藏中心保藏物指定号PTA-9214提供的多核苷酸;(c)包含来自bacm.pkl28. j21的核酸序列的多核苷酸,其中所述多核苷酸选自SEQ ID NO :191,591-603 和 695-696 ;和(d)与(a)至(c)中任一项的多核苷酸具有至少90%序列同一性的多核苷酸。
3.权利要求10的人工植物微染色体,其中所述反转录转座元件选自CentA、CRMl和 CRM2。
4.权利要求1-3中任一项的人工植物微染色体,其中所述微染色体还包含至少一个功 能性端粒。
5.权利要求1-4中任一项的人工植物微染色体,其中所述微染色体介于至少约5Mb至 约50Mb之间。
6.包含权利要求1-5中任一项的人工微染色体的植物细胞。
7.权利要求6的植物细胞,其中所述植物细胞选自玉米、水稻、小麦、燕麦、大麦、高粱、 黍、大豆、向日葵、红花、芸薹(Brassica)、苜蓿、棉花和拟南芥(Arabidopsis)。
8.权利要求6或7的植物细胞,其中所述植物细胞来自玉米。
9.包含权利要求1-5中任一项的人工微染色体的植物。
10.权利要求8的植物,其中所述植物选自玉米、水稻、小麦、燕麦、大麦、高粱、黍、大 豆、向日葵、红花、芸薹(Brassica)、苜蓿、棉花和拟南芥(Arabidopsis)。
11.权利要求9-10的植物,其中所述植物是玉米。
全文摘要
描述了包含能特异性结合着丝粒蛋白C(CENPC)的功能性着丝粒的人工植物微染色体以及所述微染色体的制备方法。
文档编号C12N15/82GK102131932SQ200880130827
公开日2011年7月20日 申请日期2008年7月29日 优先权日2008年6月20日
发明者E·阿纳尼耶夫, M·A·钱伯林, S·斯维塔舍, W·J·戈顿-凯姆, 吴成仓 申请人:先锋国际良种公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1