模块式dna结合结构域及使用方法

文档序号:391827阅读:3359来源:国知局
专利名称:模块式dna结合结构域及使用方法
模块式DNA结合结构域及使用方法
技术领域
本发明涉及通过多肽选择性识别靶DNA序列中碱基对的方法,特异性识别DNA序列中一个或多个碱基对的修饰多肽,被修饰而使它可以被多肽特异性识别的DNA,所述多肽和DNA在特异性DNA靶向中的用途,以及调节靶基因在细胞中表达的方法。
背景技术
黄单胞菌属(Xanthomonas)的植物病原细菌导致许多重要农作物的严重疾病。 所述细菌通过III型分泌系统将一批效应子转移至植物细胞,所述效应子包括大转录激活子样(TAL)/AvrBs3 样效应子家族的成员(Kay&Bonas Q009) Curr. Opin. Microbiol. 12 37-43,ffhite&Yang(2009)Plant Physiol, doi :10.1104/pp. 1109. 139360 ;Schornack 等 (2006) J. Plant Physiol. 163 :256-272)。TAL效应子是黄单胞菌属的主要致病因子,含有串联重复序列的中央结构域、核定位信号(NLS)和激活结构域(AD),并用作植物细胞的转录因子(Kay 等(2007)Science318 :648-651 ;R6mer等 Q007)kience 318 :645-648 ;Gu 等(2005)Nature 435,1122-1125 ;Fig. la)。该效应子家族的类型成员,来自野油菜黄单胞菌辣椒斑点病菌(Xanthomonas campestris pv. vesicatoria)的 AvrBs3,含有 17. 5个重复序列并诱导包括Bs3抗性基因的UPA在辣椒植物中表达(被AvrBs3上调)(Kay等Q007) Science 318 :648-651 ;R6mer 等 Q007)kience 318 :645-648 ;Marois 等 Q002)Mol. Plant-Microbe Interact. 15 :637-646)。TAL效应子中重复序列的数目和顺序决定其具体活性(Herbers等(1992) Nature 356:172-174)。显示重复序列对于AvrBs3的DNA结合是必要的,并且构成新型的DNA结合结构域(Kay等Q007)kience 318 :648-651)。该结构域如何接触DNA以及什么决定特异性还是未知的。选择性基因表达通过蛋白转录因子与基因调控区内特定核苷酸序列的相互作用来介导。DNA结合蛋白结构域能够区别不同DNA序列的方式在理解诸如分化和发育中控制基因表达的关键过程中是重要问题。特别设计和产生识别预期DNA靶的DNA结合结构域的能力在生物技术中是非常期望的。这种能力可用于开发具有在靶DNA结合时调节基因表达的能力的定制转录因子。实例包括通过设计对预期靶DNA序列特异性的定制锌指DNA结合蛋白而完成的大量工作(Choo 等(1994)Nature 372 :645 ;Pomerantz 等,(1995)kience 267 :93-96 ;Liu 等, Proc. Natl. Acad. Sci. USA 94:5525-5530(1997) ;Guan 等(2002)Proc. Natl. Acad. Sci. USA 99 :13296-13301 ;美国专利号7, 273,923 ;美国专利号7,220,719)。而且,含有设计 DNA结合结构域的多肽可用于通过加入DNA修饰结构域来修饰实际靶DNA序列,所述DNA 修饰结构域例如多肽内的核酸酶催化结构域。此类实例包括与非特异性核酸酶结构域结合的大范围核酸酶/归巢内切酶DNA识别位点的DNA结合结构域(参见美国专利申请 2007/0141038),修饰的大范围核酸酶DNA识别位点和/或来自相同或不同大范围核酸酶的核酸酶结构域(参见美国专利申请公布20090271881),和与具有核酸酶活性的结构域组合的锌指结构域,通常来自IIS型限制内切酶,例如R)kl (Bibikova等(2003) Science 300 764 ;Urnov 等 O005)Nature 435,646 ;Skukla,等 O009)Nature 459,437-441 ;Townsend 等 O009)Nature459 :442445 ;Kim 等(1996)Proc. Natl Acad. Sci USA 93:1156-1160; 美国专利号7,163,824)。目前用于鉴定定制锌指DNA结合结构域的方法采用基于组合选择的方法,利用大的随机文库(通常大小> IO8)以产生具有预期DNA特异性的多指结构域(Greisman&Pabo(1997)kience 275 :657-661 ;Hurt 等 U003)Proc Natl Acad Sci USAlOO :12271-12276 ;Isalan 等 Q001)Nat Biotechnol 19:656-660。此类方法是耗费时间的,有技术要求的,并且可能非常昂贵。用于工程化DNA结合多肽的简单的识别代码的鉴定将代表超过目前用于设计识别预期核苷酸靶的DNA结合结构域的方法的显著进步。发明概述本发明提供了一种制备选择性识别DNA序列中碱基对的多肽的方法,所述方法包括合成包含重复序列结构域的多肽,其中所述重复序列结构域包含至少一个衍生自转录激活子样(TAL)效应子的重复序列单元,其中所述重复序列单元包含决定所述DNA序列中碱基对的识别的高变区,其中所述重复序列单元负责所述DNA序列中一个碱基对的识别。本发明的这些多肽包含本发明的重复序列单元,并且能够通过模块化方法构建,通过在靶载体中预装配重复序列单元,所述靶载体可以随后被装配成最终目的载体。本发明提供了由该方法制备的多肽以及编码所述多肽的DNA序列和包含这种DNA序列的宿主生物和细胞。本发明提供了通过多肽选择性识别靶DNA序列中碱基对的方法,其中所述多肽包含至少一个包含重复序列单元的重复序列结构域,其中所述重复序列单元各自包含决定所述靶DNA序列中碱基对的识别的高变区。更具体说,本发明人已经确定了 DNA结合多肽中负责选择性识别靶DNA序列中碱基对的那些氨基酸。通过阐明识别代码,已经确定了通过多肽中选定氨基酸识别靶DNA序列中特定碱基对的一般原理。本发明发现,作为重复序列单元阵列的一部分的不同长度的不同类型的重复序列单元具有识别一个确定/特定碱基对的能力。在每一个形成重复序列结构域的重复序列单元中,高变区负责靶DNA序列中碱基对的特异性识别。因此,本发明不仅提供了通过包含至少一个包含重复序列单元的重复序列结构域的多肽选择性识别靶DNA序列中碱基对的方法,还提供了其中可以产生被多肽中的重复序列结构域选择性识别的靶DNA序列的方法。本发明还提供了用于构建识别特定DNA序列的多肽的方法。本发明的这些多肽包含本发明的重复序列单元,并且可以通过模块化方法构建,通过在靶载体中预装配重复序列单元,所述靶载体可以随后被装配成最终目的载体。本发明还提供了用于靶向调节基因表达的方法,通过构建对关注的靶DNA序列特异性的模块式重复序列单元,通过添加所述重复序列单元来修饰多肽以使所述多肽能够立刻识别所述靶DNA,将所述修饰的多肽引入原核或真核细胞并使之表达以使所述修饰的多肽能够识别所述靶DNA序列,并借助这种识别来调节所述靶基因在所述细胞中的表达。本发明还提供了用于靶向修饰靶DNA序列的方法,通过构建包含至少一个识别所述靶DNA序列的本发明重复序列结构域的多肽,并且所述多肽还含有能够修饰所述靶 DNA(例如,通过供体靶序列的位点特异性重组、限制酶切或整合)的功能结构域,从而在复杂基因组中实现靶向DNA修饰。本发明还提供包含至少一个包含重复序列单元的重复序列结构域的修饰多肽的制备,其中所述重复序列单元的每一个中的高变区决定靶DNA序列中碱基对的选择性识别。在本发明进一步实施方案中,提供了编码如上所述含有重复序列结构域的多肽的 DNA。在本发明更进一步实施方案中,提供了被修饰以包含位于靶DNA序列中的一个或多个碱基对的DNA,使得所述碱基对的每一个可以被包含具有相应重复序列单元的重复序列结构域的多肽特异性识别,每个重复序列单元包含决定所述DNA中相应碱基对的识别的高变区。在本发明更进一步实施方案中,提供了那些多肽和DNA的用途。还提供了经本发明的分离的核酸分子转化的植物、植物部分、种子、植物细胞和其他非人宿主细胞和由本发明编码序列编码的蛋白或多肽。而且,本文描述的多肽和DNA可以被引入动物和人细胞以及其他生物,例如真菌或植物。总结,本发明关注通过多肽选择性识别靶DNA序列中碱基对的方法,其中所述多肽包含至少一个包含重复序列单元的重复序列结构域,其中每个重复序列单元含有决定所述靶DNA序列中碱基对的识别的高变区,其中连续的重复序列单元对应于所述靶DNA序列中连续的碱基对。

图1TAL效应子的DNA-靶特异性的模型(A)TAL效应子含有中央串联重复序列单元(红色)、核定位信号(NLS)和激活结构域(AD)。AvrBs3的第一重复序列的氨基酸序列。高变氨基酸12和13有灰色阴影。(B) 17. 5AvrBs3重复序列单元的位置12和13的高变氨基酸与UPA-框共有序列比对。(C)TAL效应子的重复序列单元和诱导基因的启动子中预测的靶序列被人工比对。对应于每个重复序列中高变氨基酸的上部DNA链中的核苷酸根据以下八个效应子和实验确定的靶基因的组合来计数AvrBs3/Bs3,UPAlO, UPA12,UPA14,UPA19,UPA20, UPA21, UPA23, UPA25, AvrBs3 Δ repl6/Bs3-E, AvrBs3 Δ repl09/Bs3, AvrHahl/Bs3, AvrXa27/Xa27, PthXol/Xal3, PthXo6/0sTFXl, PthXo7/0sTFIIA y 1 (参见图 5)。占优势的组合(η > 4)有灰色阴影。星号表示氨基酸13在该重复序列类型中缺失。(D)重复序列类型基于高变氨基酸12和13的DNA靶特异性代码(R = A/G ;N = A/C/G/T)(在该研究中实验证实)。图2Hax2、Hax3和Hax4的靶DNA序列(A)Hax2、Hax3和Hax4重复序列单元的氨基酸12和13和预测的靶DNA特异性 (Hax-框)。(B)Hax-框在最小Bs4启动子之前被克隆入⑶S报告载体。(C)Hax效应子对Hax-框的特定诱导性。⑶S报告构建体经农杆菌 (A. tumefaciens)分别与!35S-驱动的hax2、hax3、hax4和空T-DNA (-)共递送入本塞姆氏烟草(N. benthamiana)(误差棒指示 SD ;η = 3 个样品;4-MU,4-甲基-伞形酮).35S: :uidA(+) 用作对照。叶盘用X-Gluc (5-溴-4-氯-3-吲哚基-β -D-葡糖苷酸)染色。
图3重复序列类型的DNA碱基对识别特异性(A)Hax4-和ArtX-框-衍生物在最小Bs4启动子之前被克隆入⑶S报告载体。(B) NG-,HD-,NI-和NS-重复序列单元的特异性。Hax4_框衍生物的Hax4_诱导性在重复序列类型靶碱基中完全变化(灰色背景)(C) NN-重复序列单元的特异性。人工效应子ArtXl和预测的靶DNA序列。ArtXl 框衍生物的ArtXl-诱导性在NN-重复序列靶碱基中完全变化(灰色背景)。 (D)人工效应子ArtX2和ArtX3和衍生的DNA靶序列。(E)人工效应子对ArtX-框的特定诱导性。(A) - (E) GUS报告构建体经农杆菌分别与!35S-驱动的hax4、artXl、artX2或artX3 和空T-DNA(-) —起共递送入本塞姆氏烟草。35S::uidA(+)用作对照。叶盘用X-Gluc染色。关于定量数据,参见图11。图4最小数目的重复序列单元是转录激活所需的。(A)具有不同数目(0. 5-15. 5)的HD-重复序列单元的人工ArtHD效应子(共计 1. 5至16. 5重复序列单元)。(B)由TA和17C组成的ArtHD靶框在最小Bs4启动子之前被克隆入⑶S报告载体。(C)通过具有不同数目的重复序列单元的ArtHD效应子的启动子激活。35S-驱动的效应子基因或空T-DNA (-)经农杆菌与GUS-报告构建体一起共递送入本塞姆氏烟草(误差棒指示SD ;n = 3个样品;4-MU)。35S: :uidA(+)用作对照。叶盘用X-Gluc染色。图5诱导基因的启动子中DNA靶序列与TAL效应子重复序列单元的高变氨基酸 12和13的比对。(A)AvrBs3、AvrBs3 Δrepl6> AvrBs3 Δrepl09 禾口 AvrHahl 的重复序列单元与辣椒ECW-30R Bs3基因(访问EU078684)的启动子中UPA-框比对。AvrBs3 Δ repl6和 AvrBs3 Δ r印109是AvrBs3的缺失衍生物,其中分别缺失重复序列单元11-14和重复序列单元 12-14。AvrBs3、AvrBs3 Δ r印 109 和 AvrHahl 而非 AvrBs3 Δ repl6 在 ECW-30R 植物中诱导HR。(B)AvrBs3、AvrBs3 Δ repl6> AvrBs3 Δ repl09 禾口 AvrHahl 的重复序列单元与辣椒 ECff Bs3-E基因(访问:EU078683)的启动子中UPA-框比对。AvrBs3 Δ r印16而非AvrBs3、 AvrBs3 Δ r印109或AvrHahl在辣椒ECff植物中诱导HR。(C)AvrXa27的重复序列单元与稻米)Ca27基因的启动子中推定靶序列比对。 Xa27(访问AY986492)由稻米栽培品种IRBB27中的AvrXa27诱导,导致稻米栽培品种顶对中的HR而非xa27 (访问AY986491)。(D)PthXol的重复序列单元与稻米)(al3/0S8N3基因的启动子中推定靶序列比对。 Xal3(访问DQ421396)由稻米栽培品种顶对中的PthXol诱导,导致稻米栽培品种IRBB13 中的敏感性而非xal3 (访问:DQ421394)。(E)PthXo6的重复序列单元与稻米OsTFXl基因(访问AK108319)的启动子中推定靶序列比对。OsTFXl由稻米栽培品种顶对中的PthXo6诱导。(F)PthXo7的重复序列单元与稻米OsTFIIA γ 1基因(CB097192)的启动子中推定靶序列比对。OsTFIIA υ 1由稻米栽培品种IR24中的PthXo7诱导。
(A)-(F)DNA序列上方的数字指示距编码区中第一个ATG的核苷酸距离。不符合我们预期的靶特异性的重复序列/碱基组合(氨基酸12/13 =NI = A ;HD = C ;NG = T ;NS = A/C/G/T ;NN = A/G ;IG = Τ)以红色显示。具有未知靶DNA特异性的重复序列单元以绿色显不。图6AvrBs3Ar印16保护的DNA区比AvrBs3短4bp。AvrBs3和AvrBs3 Δ repl6的DNA酶I足迹分析概述(参见图7,8)。(A)分别由AvrBs3和AvrBs3 Δ repl6保护的Bs3 (上)和Bs3_E (中)启动子序列。 DNA酶I足迹揭示了 AvrBs3保护的Bs3启动子的有义链37个核苷酸和反义链36个核苷酸, 和AvrBs3 Δ repl6保护的Bs3_E启动子的有义链30核苷酸和反义链32核苷酸。UPA-框和预测的 AvrBs3 Δ repl6-框加下划线。AvrBs3 和 AvrBs3 Δ repl6 保护的 UPA20-ubm_rl6 (下部)启动子序列。UPA20-ubmrl6启动子是具有2bp取代(GA至CT,粗斜体)的UPA20启动子衍生物,所述取代导致被AvrBs3和AvrBs3 Δ repl6两者识别。DNA酶I足迹揭示,有义链35 个核苷酸和反义链;34个核苷酸被AvrBs3保护(UPA-框加下划线),有义链31个核苷酸和反义链32个核苷酸被AvrBs3Ar印16保护(AvrBs3 Δ r印16-框加下划线)。绿色(AvrBs3) 或红色(AvrBs3 Ar印16)阴影的DNA区分别指在每个实验中由AvrBs3和AvrBs3 Ar印16 保护的核心足迹,甚至具有低蛋白量(等摩尔的DNA和蛋白二聚体)。灰色阴影的DNA区指在所有4个实验中在所有蛋白浓度下不受给定蛋白保护的核苷酸。请注意,AvrBs3-和 AvrBs3Ar印16-保护区的5'端是相同的。垂直虚线指示AvrBs3_和AvrBs3 Δr印16-保护的启动子区的3'端之间的差异,确证我们的模型一个重复序列与DNA中一个碱基对接触。(B) UPA20-ubm-rl6 启动子中 AvrBs3 和 AvrBs3 Δ repl6 靶 DNA 序列与 AvrBs3 和 AvrBs3Ar印16重复序列区(位置12和13的高变氨基酸)的比对。不符合我们预测的靶特异性的重复序列/碱基组合(氨基酸12/13 =NI = A ;HD = C ;NG = T ;NS = A/C/G/T)以红色显示。图7分别由AvrBs3和AvrBs3 Ar印16保护的Bs3和Bs3_E启动子序列。显示了代表性的DNA酶I足迹实验。Bs3启动子序列上的AvrBs3DNA酶I足迹(A, 上/有义DNA链;B,下/反义DNA链)。Bs3_E启动子序列上的AvrBs3 Δ r印16DNA酶I足迹(C,上,有义DNA链;D,下,反义DNA链)。(A) - (D)(上)荧光标记的PCR产物分别与切摩尔过量(针对蛋白二聚体计算)的His6: :AvrBs3、His6: AvrBs3 Δ repl6和BSA孵育,用DNA酶I处理,并在毛细管测序仪上分析。电泳图y轴显示对应于PCR产物的5' -6-FAM-标记的有义链(a,c)或 5' -HEX-标记的反义链(b,d)的相对荧光强度,以任意刻度。分别与His6::AvrBs3(绿色)或见86:^¥沖83八1~印16(红色)和BSA(黑色,阴性对照)的反应痕迹被叠加。与阴性对照相比,分别在AvrBs3或AvrBs3 Δ repl6存在下的峰高减少对应于保护。保护区由绿色(AvrBs3)或红色(AvrBs3Ar印16)垂直线指示。(中)DNA序列的电泳图。具有数字的橙色峰对应于DNA核苷酸大小标准。DNA序列中预测的效应子靶框加下划线。覆盖的核苷酸由绿色(AvrBs3)或红色(AvrBs3Arepl6)框标记。下面的数字指分别在AvrBs3 (a,b) 或八^883八1~印16((3,d)存在下相对于转录起始(+1)的核苷酸位置。(下)用于DNA酶I 足迹的DNA PCR产物,分别从Bs3 (a, b)或Bs3_E (c, d)启动子扩增。单DNA链上的保护区由灰色框指示。下面的数字指分别在AvrBs3(a,b)或AvrBs3 Δ r印16 (c,d)存在下相对于转录起始(+1)的核苷酸位置。实验被重复三次,具有相似结果。图8AvrBs3和AvrBs3 Ar印16保护的UPA20-ubm_rl6启动子序列。代表性DNA酶I足迹实验。UPA20-ubm-rl6启动子序列上的AvrBs3和 AvrBs3 Δ r印16DNA酶I足迹(A),上,有义DNA链;(B)下,反义DNA链。(上)荧光标记的 PCR产物分别与切摩尔过量的His6: :AvrBs3、His6: AvrBs3 Δ repl6和BSA(针对蛋白二聚体计算)孵育,用DNA酶I处理,并在毛细管测序仪上分析。电泳图y轴显示对应于PCR 产物的5' -6-FAM-标记的有义链(a)或5' -HEX-标记的反义链(b)的相对荧光强度,以任意刻度。与His6: :AvrBs3(绿色)、His6: AvrBs3 Δ r印16 (红色)和阴性对照BSA (黑色)的反应痕迹被叠加。与阴性对照相比在AvrBs3或AvrBs3 Ar印16存在下的峰高减少对应于保护。保护区由绿色(AvrBs3)和红色(AvrBs3Ar印16)垂直线指示。(中)DNA序列的电泳图。具有数字的橙色峰对应于DNA核苷酸大小标准。AvrBs3覆盖的核苷酸由绿色线和绿色框(UPA框加下划线)标记,AVrBS3Arepl6覆盖的核苷酸由红色线和红色框 (AvrBs3 Δ r印16-框加下划线)标记。UPA20-ubm_rl6突变(GA至CT)以斜体指示。(下) 用于DNA酶I足迹的DNA PCR产物,从UPA20-ubm-rl6启动子扩增。单DNA链上的保护区由灰色框指示。下面的数字指在AvrBs3存在下相对于UPA20野生型启动子转录起始(+1) 的核苷酸位置。实验被重复三次,具有相似结果。图9⑶S报告构建体报告构建体.靶DNA序列(TAL效应子-框)被插入最小番茄Bs4启动子(pBs4 ;-50至+25) 序列的5 ‘,并通过GATEWAY重组转移入农杆菌T-DNA载体pGWB330,构建融合至无启动子 uidA(3 -葡糖醛酸酶,GUS)基因· attBl, attB2 ;GATEWAY重组位点。图10Hax3中推定重复序列0的识别特异性.(A)Hax3-重复序列单元的氨基酸12和13,和在对应于重复序列0的位置中有变更的四个可能的靶Hax3-框。(B)靶框在最小番茄Bs4启动子之前被克隆入⑶S报告载体。(C)经由农杆菌与⑶S报告构建体共递送入本塞姆氏烟草叶细胞的与35S-驱动的 hax3或空T-DNA㈠的⑶S活性(4_MU,4_甲基-伞形酮;η = 3 ;误差棒指示SD)。为了定量分析,叶盘用X-Gluc染色。实验进行两次,具有相似结果。图11重复序列类型的DNA碱基对识别特异性.Hax4_和ArtX-框-衍生物在最小Bs4启动子之前被克隆入⑶S报告载体。定量数据见图3。(A) NG-,HD-,NI-和NS-重复序列单元的特异性。Hax4_框衍生物的Hax4_诱导性在重复序列类型靶碱基中完全变化。(B)NN-重复序列单元的特异性。ArtXl框衍生物的ArtXl-诱导性在NN-重复序列靶碱基中完全变化。(C)人工效应子ArtXl、ArtX2和ArtX3分别对ArtX-框的特定诱导性。(A)-(C)GUS报告构建体经农杆菌分别与35S-驱动的hax4、artXl、artX2、artX3 基因(灰色棒)和空T-DNA(a,b,白色棒;c,_) 一起共递送入本塞姆氏烟草叶细胞(η = 3; 误差棒指示SD)。35S::uidA(+)用作对照。实验进行三次,具有相似结果。
图12预测的AvrXalO的靶DNA序列.(A)AvriCalO-重复序列单元的氨基酸12和13和具有预测的NN类型重复序列-特异性A或G的两个可能的靶框。(B)AvrXalO靶框在最小Bs4启动子之前被克隆入⑶S报告载体。(C)经由农杆菌与⑶S报告构建体一起共递送入本塞姆氏烟草叶细胞的35S-驱动的avrXalO,hax3(特异性对照)或空T_DNA(_)的GUS分析。35S: :uidA(+)用作组成型对照(n = 3 ;误差棒指示SD)。为了定量分析,叶盘用X-Gluc染色。实验进行三次,具有相似结果。图13Hax2中重复序列类型IG的识别特异性.(A)Hax2重复序列单元的氨基酸12和13,和重复序列类型IG的四个可能的靶 Hax2_ 框。(B)Hax2靶框在最小番茄Bs4启动子之前被克隆入⑶S报告载体。(C)经由农杆菌与⑶S报告构建体一起共递送入本塞姆氏烟草叶细胞的35S启动子-驱动的hax2或空T-DNA(-)的⑶S分析。35S: :uidA(+)用作组成型对照(n = 3 ;误差棒指示SD)。为了定量分析,叶盘用X-Gluc染色。实验进行三次,具有相似结果。图14Hax2诱导拟南芥(A. thaliana)中PAPl的表达·(A)拟南芥的叶被接种农杆菌株,递送分别用于hax2、hax3和hax4的35S-驱动表达的T-DNA构建体。hax2而非hax3和hax4的表达诱导紫色素沉积,指示花色素苷生成。 在接种后7天照相。(B)转基因拟南芥系携带在乙醇诱导型启动子控制下的hax2。隔离T2群的植物用10%乙醇喷雾以诱导转基因的表达。仅hax2_转基因植物累积花色素苷。在处理后6天照相。(C)在用10%乙醇喷雾之前㈠和之后M小时⑴用来自三个独立拟南芥系的 hax2-转基因植物的cDNA对hax2 (29个循环)、PAP1 (32个循环)和延长因子Tu (EF-Tu, 32 个循环)进行半定量RT-PCR。(D) Hax2重复序列单元的氨基酸12和13和Hax2的靶DNA序列。(E)来自拟南芥Col-O的PAPl的启动子含有不完善的Hax2_框。与预测Hax2-框的错配以红色显示。指示了推定的TATA-框、天然转录起始位点(+1)和PAPl编码序列的
第一密码子。图15表I.TAL效应子的预测的DNA靶序列该表显示TAL效应子的重复序列,和使用的来自重复序列单元的氨基酸12和13 的预测的DNA靶序列。注释显示(A)Xcv,野油菜黄单胞菌辣椒斑点病菌;Xg,加德纳黄单胞菌属(Xanthomonas gardneri) ;Xca,野油菜黄单胞菌假辣根病菌(Xanthomonas campestris pv. armoraciae); Xoo, 7jC稻黄单胞菌水稻病菌(Xanthomonas oryzae pv. oryzae) ;Xac,地毪草黄单胞菌柑橘病菌(Xanthomonas axonopodis pv. citri) ;Xau,柑橘黄单胞菌来檬病菌 (Xanthomonas citri pv. aurantifolii) ;Xcm,里予油菜黄单胞菌锦葵病菌(Xanthomonas campestris pv. malvacearum) ;Xam,地種草黄单胞菌木暮病菌(Xanthomonas axonopodispv. manihotis) ;Xoc,/K禾S黄单胞菌栖禾S病菌(Xanthomonas oryzae ρν· oryzicola)。(B)星号Γ )指示氨基酸13缺失(C)从重复序列单元氨基酸序列12和13推导靶DNA特异性。由于推定重复序列 O的特异性,在5'端添加胸腺嘧啶核苷酸。双链DNA的上(有义)链的序列以模糊代码给出(R = A/G ;N = A/C/G/T ; ·=未知特异性)图16AvrBs3、Hax2、Hax3、Hax4 的蛋白序列对于每个蛋白序列,显示了 N端、C端以及单个重复序列。图17效应子ARTBs4诱导最小Bs4启动子的表达(A)Hax4重复序列单元的氨基酸12和13和预测的靶DNA特异性(Hax4框)。 Hax4 (mut)框与Hax4框相比含有四个碱基对更换。(B)人工效应子ARTBs4重复序列单元的氨基酸12和13和预测的靶DNA特异性 (ARTBs4 框)。(C)Hax4框在最小Bs4启动子之前被克隆入⑶S报告载体。ARTBs4框天然存在于最小Bs4启动子中。(D) Hax4和ARTBs4分别对Hax4和ARTBs4框的特定诱导性。⑶S报告构建体经由根癌农杆菌(Agrobacterium tumefaciens)分别与!35S-驱动的hax4(灰色棒)、ARTBs4(白色棒)和空T-DNA (ev,黑色棒)一起共递送入本塞姆氏烟草(误差棒指示SD)。4_MU,4_甲基-伞形酮。35S::uidA(⑶S,灰色棒)用作对照。叶盘用X-Gluc (5-溴-4-氯-3-吲哚基-β-D-葡糖苷酸)染色。图18重复序列结构域和效应子的“金门(Goldengate) ”克隆图解(A)由个体重复序列单元(或其他蛋白结构域)组成的结构单元用侧翼II型限制酶靶位点(例如BsaI)亚克隆,产生特定突出端。匹配突出端用相同字母指示(A至0)。 不同的重复序列类型被克隆为每个位置的结构单元(例如重复序列1、重复序列2、等等)。 重复序列特异性是NI = A,HD = C,NG = T,NN = G或A。(B)通过使用“金门”克隆(限制酶切-连接)连接匹配突出端,将结构单元装配成靶载体。一般而言,得到的装配产物不含有任何用于克隆的靶位点。图19经由金门克隆产生设计效应子的替代方法图19A-D描绘了下文实施例3公开方法中描述的各种载体,并提供了所述方法的示意图。序列表附图中所列核苷酸和氨基酸序列和序列表使用核苷酸碱基的标准字母缩写和氨基酸的单字母代码来显示。核苷酸序列遵循标准约定,开始于序列5'端,向前(即,每条线中从左到右)至3'端。仅显示了每个核酸序列的一条链,但要理解互补链通过对所示链的任何提及而被包括。氨基酸序列遵循标准约定,开始于序列的氨基端并向前(即,每条线中从左到右)至羧基端。发明详述现在将在下文参考附图更全面描述本发明,其中显示了本发明的一些但非全部实施方案。实际上,这些发明可以许多不同形式实施,并且不应解释为限于本文提出的实施方案;而是,提供这些实施方案,使得本公开将满足适用的法律要求。同样的数字在通篇指同样的元件。这些发明所属领域技术人员将知道本文提出的本发明的许多修饰和其他实施方案,具有在之前描述和相关附图中提出的教导益处。因此,要理解,本发明不限于所公开的具体实施方案,并且修饰和其他实施方案预期包括在所附权利要求范围内。尽管本文采用了特定术语,但是它们仅以通常和描述性含义使用,而不是为限制目的。本公开通篇使用的许多术语在下文定义。术语“重复序列结构域”用来描述来自TAL效应子的DNA识别结构域或其人工形式,使用所公开的方法制备,由模块式重复序列单元组成,当存在于多肽中时赋予靶DNA特异性。由重复序列单元构成的重复序列结构域可以被添加至其中需要DNA序列靶向的任何多肽,并且不限于在TAL效应子中使用。术语“重复序列单元”用来描述来自TAL效应子的重复序列结构域的模块式部分或其人工形式,含有决定靶DNA序列中碱基对识别的一个氨基酸或两个相邻氨基酸。重复序列单元结合在一起识别确定的靶DNA序列并构成重复序列结构域。重复序列单元可以被添加至其中需要DNA序列靶向的任何多肽,并且不限于在TAL效应子中使用。术语“识别代码”用来描述重复序列单元的位置12和13的氨基酸与靶DNA序列中相应的DNA碱基对之间的关系,这样的氨基酸赋予如下识别HD识别C/G ;NI识别A/T ; NG识别T/A ;NS识别C/G或A/T或T/A或G/C ;NN识别G/C或A/T ; IG识别T/A ;N识别C/ G ;HG识别C/G或T/A ;H识别T/A ;和NK识别G/C。本文使用的“效应子”(或“效应蛋白”或“效应多肽”)指构建体或其编码多肽产物,其中所述多肽能够识别靶DNA序列。效应蛋白包括由1.5或更多重复序列单元组成的重复序列结构域,并且还可以包括一个或多个功能结构域,例如调控结构域。在本发明优选实施方案中,“效应子”还能够发挥效应,例如调控基因表达。尽管本发明不依赖于特定生物机制,但认为识别靶DNA序列的本发明蛋白或多肽结合所述靶DNA序列。术语“天然存在的”用来描述可以不同于人工制备的天然存在的对象。例如,在可以从自然来源分离的生物(包括病毒)中存在的并且未在实验室经人有意修饰的多肽或多核苷酸序列是天然存在的。通常,术语天然存在的指在野生型个体中存在的对象,例如对于物种来说是典型的。术语基因的“调节表达”、“抑制表达”和“激活表达”指本发明多肽激活或抑制基因转录的能力。激活包括防止后续的转录抑制(即,防止基因表达的阻抑),抑制包括防止后续的转录激活(即,防止基因激活)。调节可以通过测定直接或间接受靶基因表达影响的任何参数来测定。此类参数包括例如RNA或蛋白水平的变化、蛋白活性的改变、产物水平的改变、下游基因表达的改变、报告基因转录的改变(荧光素酶、CAT、β -半乳糖苷酶、GFP (参见例如 MistiH&Spector (1997)NatureBiotechnology 15 :961-964);信号转导的改变、磷酸化和去磷酸化、受体-配体相互作用、第二信使浓度(例如cGMP、cAMP、IP3和Ca2+)、细胞生长、新血管形成,在体外、体内和离体。此类功能效应可以通过本领域技术人员已知的任何方式测量,例如测量RNA或蛋白水平、测量RNA稳定性、鉴定下游或报告基因表达,例如通过化学发光、荧光、量热反应、抗体结合、可诱导标志物、配体结合测定;细胞内第二信使例如cGMP和三磷酸肌醇(IP3)的改变;细胞内钙水平;细胞因子释放,等等。“调控结构域”指具有转录调控活性的蛋白或蛋白子序列。通常,调控结构域与本发明多肽共价或非共价连接以调节转录。可选地,本发明多肽可以无调控结构域而单独作用,或者与多个调控结构域一起作用来调节转录。可以从中获得调控结构域的转录因子多肽包括参与调控和基础转录的那些。这种多肽包括转录因子、其效应结构域、辅激活子、沉默子、细胞核激素受体(参见例如Goodrich等(1996)Cell84 :82530,关于参与转录的蛋白和核酸元件的综述;转录因子大体综述于Barnes&Adcock(1995)Clin. Exp. Allergy 25Suppl. 2 :469 和 Roeder (1996)Methods Enzymol. 273 :16571)。关于转录因子的数据库是已知的(参见例如kience (1995) 269:630)。细胞核激素受体转录因子描述于例如Rosen等(1995) J.Med. Chem. 38 :4855 74。转录因子的C/EBP家族综述于Wedel 等(1995) Immunobiology 193:17185。介导细胞核激素受体对转录调节的辅激活子和辅阻遏物综述于例如 Meier(1996) Eur. J.Endocrinol. 134(2) :1589 ;Kaiser 等(1996) TrendsBiochem. Sci. 21 :3425 ;和 Utley 等(1998)Nature 394 :498502)。参与血细胞生成调控的 GATA 转录因子描述于例如 Simon(1995)Nat. Genet. 11 :911 ;Weiss 等(1995) Exp.Hematol. 23 :99-107。TATA框结合蛋白(TBP)及其相关TAF多肽(它包括TAF30、 TAF55、TAF80、TAFl 10, TAF150 和 TAF250)描述于 Goodrich&Tjian(1994)Curr. Opin. Cell Biol. 6 4039 和 Hurley(1996)Curr. Opin. Struct. Biol. 6 :6975。转录因子的 STAT 家族例如综述于 Barahmand-Pour 等(1996) Curr. iTop. Microbiol. Immunol. 211 :1218。疾病涉及的转录因子综述于Aso等(1996)J. Clin. Invest. 97 :15619。修饰参与基因调控的多肽的激酶、磷酸酶和其他蛋白也用作本发明多肽的调控结构域。这种修饰剂通常参与开启或关闭由例如激素介导的转录。参与转录调控的激酶综述于Davis (1995)Mol. R印rod. Dev. 42 459 67, Jackson 等(1993)Adv. Second Messenger Phosphoprotein Res. 28 279 86 和 Boulikas (1995) Crit. Rev. Eukaryot. Gene Expr. 5 :177,而磷酸酶综述于例如 Schonthal&Semin (1995) Cancer Biol. 6 :239 48。细胞核酪氨酸激酶描述于 Wang(1994) Trends Biochem. Sci. 19 :3736。有用的结构域还可以获自癌基因的基因产物(例如myc、 jun、fos、myb、max、mad、rel、ets、bcl、myb、mos家族成员)及其相关因子禾口修饰齐LU癌基因描述于例如 Cooper, Oncogenes, 2nd ed. , The Jones and Bartlett Series inBiology, Boston, Mass. , Jones and Bartlett Publishers, 1995。Ets 转录因子综述于 Waslylk 等 (1993) Eur. J. Biochem. 211 :718 和 Cr印ieux 等(1994) Crit. Rev. Oncog. 5 :61538。Myc 癌基因综述于例如Ryan等(1996) Biochem. J. 314 :71321。Jun和fos转录因子描述于例如The Fosand Jun Families of Transcription Factors,Angel&Herrlich,eds. (1994)。 Max 癌基因综述于 Hurlin 等 Cold Spring Harb. Symp. Quant. Biol. 59 :109 16。Myb 基因家族综述于 Kanei-Ishii 等(1996) Curr. Top. Microbiol. Immunol. 211 :8998。mos 家族综述于 Yew 等(199 Curr. Opin. Gen et. Dev. 3 :1925。本发明多肽可以包括获自DNA修复酶及其相关因子和修饰剂的调控结构域。DNA修复酶综述于例如Vos (1992) Curr. Opin. Cell Biol. 4 385 95 ;Sancar(1995)Ann. Rev. Gen et. 29 :69105 ;Lehmann(1995)Gen et. Eng. 17 :119 ;禾口 Wood(1996) Ann. Rev. Biochem. 65 135 67。DNA重排酶及其相关因子和修饰剂也可用作调控结构域(参见例如 Gangloff 等(1994)Experientia 50:261 9 ;Sadowski (1993)FASEB J. 7 760 7)。 类似地,调控结构域可以源自DNA修饰酶(例如,DNA甲基转移酶、拓扑异构酶、 解旋酶、连接酶、激酶、磷酸酶、聚合酶)及其相关因子和修饰剂。解旋酶综述于Matson等(1994) Bioessays 16 13 22,甲基转移酶描述于 Cheng (1995) Curr. Opin. Struct. Biol. 5 410。染色质相关蛋白及其修饰剂(例如,激酶、乙酰基转移酶和脱乙酰酶),例如组蛋白脱乙酰酶(Wolffe Science 272 :3712 (1996))也可用作添加至选择效应子的结构域。在一个优选实施方案中,调控结构域是用作转录阻遏物的DNA甲基转移酶(参见例如Van den Wyngaert 等 FEBS Lett. 426 :283 289(1998) ;Flynn 等 J. Mol. Biol. 279 :101116(1998); Okano 等 Nucleic Acids Res. 26 :2536 2540 (1998);和 Zardo&Caiafa,J. Biol. Chem. 273 16517 16520(1998))。在另一优选实施方案中,内切核酸酶例如R)kl用作转录阻遏物, 它经由基因切割而作用(参见例如W095/09233 ;和PCT/US94/01201)。控制染色质和DNA 结构、运动和定位的因子及其相关因子和修饰剂;源自微生物(例如原核生物、真核生物和病毒)的因子和与它们相关或修饰它们的因子也可用于获得嵌合蛋白。在一个实施方案中,重组酶和整合酶用作调控结构域。在一个实施方案中,组蛋白乙酰基转移酶用作转录激活子(参见例如 Jin&Scotto (1998) Mol. Cell. Biol. 18 :4377 4384 ;Wolffe (1996) Science 272:371 372 ;Taunton 等 kience 272:408 411(1996);和 Hassig 等 PNAS 95: 3519 3524(1998)).在另一实施方案中,组蛋白脱乙酰酶用作转录阻遏物(参见例如, Jin&Scotto(1998)Mol. Cell Biol. 18:4377 4384 ;Syntichaki&Thireos (1998)J. Biol. Chem. 273 :2441424419 ;Sakaguchi 等(1998)Gen es Dev. 12 :28312841 ;和 Martinez 等 (1998)J. Biol. Chem. 273 :23781 23785)。本文使用的“基因”指包含编码序列的核酸分子或其部分,任选地含有内含子和调控编码序列表达和转录物未翻译部分转录的控制区。因此,术语“基因”除了编码区外还包括调控序列,例如启动子、增强子、5'未翻译区、3'未翻译区、终止信号、聚腺苷酰化区等。 基因的调控序列可以位于编码区邻近、之内或远离。本文使用的“靶基因,,指其表达受本发明多肽调节的基因。本文使用的“植物”指植物界的各种光合真核多细胞生物的任何一种,特征生成胚,含有叶绿体,具有纤维素细胞壁,并缺乏移动力。本文使用的“植物”包括处于任何发育阶段的任何植物或植物部分,包括种子、悬浮培养物、胚、分生组织区、愈伤组织、叶、根、枝、 配子体、孢子体、花粉、小孢子及其后代。还包括切屑和细胞或阻止培养物。与本发明结合使用时,术语“植物组织”包括但不限于完整植物、植物细胞、植物器官,例如叶、茎、根、分生组织、植物种子、原生质体、愈伤组织、细胞培养物和被组织成结构和/或功能单元的任何植物细胞组。本文使用的“调节植物细胞中靶基因表达”指在植物细胞中单独或与其他转录和 /或翻译调控因子一起使用本发明多肽或编码这种多肽的核酸来增加(激活)或减少(抑制)植物细胞中靶基因的表达。本文使用的“靶DNA序列”指需要被蛋白识别的双链DNA的一部分。在一个实施方案中,“靶DNA序列”是可以通过改变其表达程度而达到预期表型结果的基因的转录控制元件的全部或部分。转录控制元件包括正向和负向控制元件,例如启动子、增强子、其他应答元件,例如类固醇应答元件、热休克应答元件、金属应答元件、阻遏物结合位点、操作子和 /或沉默子。转录控制元件可以是病毒的、真核的或原核的。“靶DNA序列”还包括可以结合蛋白并从而调节、通常防止转录的下游或上游序列。本文使用的术语“DNA”或“DNA序列”不是要将本发明限制为包含DNA的多核苷酸分子。本领域普通技术人员将知道,本发明方法和组合物涵盖由脱氧核糖核苷酸(即, DNA)、核糖核苷酸(即,RNA)或核糖核苷酸与脱氧核糖核苷酸组合所组成的多核苷酸分子。 这种脱氧核糖核苷酸和核糖核苷酸包括天然存在的分子和合成类似物,包括但不限于核苷酸类似物或修饰的骨架残基或键合,它们是合成的、天然存在的和非天然存在的,它们具有与参考核酸相似的结合性质,并且它们以与参考核苷酸类似的方式代谢。这种类似物的实例包括但不限于硫代磷酸酯、氨基膦酸酯、甲基膦酸酯、手性甲基膦酸酯、2-0-甲基核糖核苷酸、肽核酸(PNA)。本发明的多核苷酸分子还涵盖所有形式的多核苷酸分子,包括但不限于单链形式、双链形式、发夹结构、茎环结构等。而且,本领域普通技术人员理解,本文公开的DNA序列还涵盖示例核苷酸序列的互补体。本文使用的“特异性结合靶DNA序列”意思是本发明多肽与指定靶DNA序列的结合亲和力统计学上高于相同多肽与大体相当但非靶DNA序列的结合亲和力。它还指本发明重复序列结构域与指定靶DNA序列结合比其与非靶DNA序列的结合具有可检测的更大程度, 例如高于背景至少1. 5倍,并且基本排除非靶DNA序列。本发明多肽对每种DNA序列的Kd 可以被比较以评估多肽与特定靶DNA序列的结合特异性。本文使用的“靶基因内的靶DNA序列”指靶DNA序列和靶基因之间的功能关系,因为本发明多肽对靶DNA序列的识别将调节靶基因的表达。靶DNA序列可以物理上位于靶基因边界内的任何地方,例如5'端、编码区、3'端、cDNA编码区外的上游和下游区、或增强子或其他调控区内,并且可以与靶基因邻近或远离。本文使用的“内源的”指与靶基因或将之引入的宿主细胞天然相关的核酸或蛋白序列。本文使用的“外源的”指与靶基因或将之引入的宿主细胞非天然相关的核酸或蛋白序列,包括天然存在的核酸例如DNA序列的非天然存在的多拷贝,或者位于非天然存在的基因组位置的天然存在的核酸序列。本文使用的“遗传修饰的植物(或转基因植物)”指在其基因组内包含外源多核苷酸的植物。一般且优选地,外源多核苷酸稳定整合在基因组内,使得多核苷酸被传递到连续代。外源多核苷酸可以单独或作为重组表达盒的部分被整合入基因组。“转基因”在本文用来包括任何细胞、细胞系、愈伤组织、植物部分或植物,其基因型已经通过外源核酸的存在而被改变,包括开始被如此改变的那些转基因,以及通过有性杂交或无性繁殖从最初转基因产生的那些。本文使用的术语“转基因”不涵盖通过常规植物育种方法或通过天然发生的事件例如随机异体受精、非重组病毒感染、非重组细菌转化、非重组转座或自发突变的基因组改变(染色体或染色体外的)。本文使用的“最小启动子”或大致相似术语指在缺乏上游激活时无活性或具有大大降低的启动子活性的启动子元件、特别是TATA元件。在适合的转录因子存在下,最小启动子发挥功能以允许转录。本文使用的“阻遏蛋白”或“阻遏物”指结合DNA的操作子或RNA以分别防止转录或翻译的蛋白。本文使用的“阻遏”指通过阻遏蛋白与DNA或mRNA上特定位点的结合而抑制转录或翻译。优选地,阻遏包括转录或翻译水平至少1. 5倍、更优选至少2倍和甚至更优选至少 5倍的显著改变。
本文使用的“激活蛋白”或“激活子”指结合DNA的操作子或RNA以分别增强转录或翻译的蛋白。本文使用的“激活”指通过激活蛋白与DNA或mRNA上特定位点的结合而增强转录或翻译。优选地,激活包括转录或翻译水平至少1. 5倍、更优选至少2倍和甚至更优选至少 5倍的显著改变。本文使用的分子的“衍生物”或“类似物”指衍生自分子的部分或分子的修饰形式。本文使用的“衍生自转录激活子样(TAL)效应子的重复序列单元”指来自TAL效应子或一个或多个TAL效应子的修饰或人工形式的重复序列单元,由本文公开的任何方法制备。在下文中,本发明特别参考经由III型分泌系统转移入植入细胞的转录激活子样 (TAL)效应子家族来描述。该效应子家族的类型成员是AvrBs3。因此,TAL效应子家族还称为AvrBs3样蛋白家族。两种措辞被同义使用并可以互换。AvrBs3样家族的非限制形式如下AvrBs4和Hax子家族Hax2、Hax3和Hax4的成员以及Brgl 1。AvrBs3和其家族其他成员的特征在于它们对靶基因的启动子区中特定DNA序列的结合能力并诱导这些基因的表达。它们具有保守的结构特征,使它们能够用作植物基因的转录激活子。AvrBs3样家族和同源效应子通常在其C端区具有核定位序列(NLS)和转录激活结构域(AD)。中央区含有通常34或35个氨基酸的重复序列单元。所述重复序列单元几乎相同,但在某些位置不同, 并且目前已经发现这些位置如何决定蛋白的核苷酸序列结合特异性。对于AvrBs3显示,重复序列单元负责结合DNA。AvrBs3和AvrBs3家族可能的其他成员的DNA结合特异性似乎由蛋白的中央重复序列结构域介导。该重复序列结构域在 AvrBs3中由17. 5重复序列单元组成,而在同源蛋白中包含1. 5至33. 5重复序列单元,它们通常各自为34个氨基酸。还显示了其他重复序列单元长度(例如30、33、35、39、40、42氨基酸)。重复序列结构域中最后一个重复序列通常仅是19或20个氨基酸长度的半个重复序列。个体重复序列单元一般不是相同的。除了这些位置12和13是高变的以外,它们在某些可变氨基酸位置不同,而位置4、11、对和32高频率变化,但比12和13频率低(在其他位置也发生变化,但频率更低)。来自黄单胞菌属的不同AvrBs3样蛋白的比较揭示了 80-97% 的总体序列同一性,具有限于重复序列结构域的大部分差异。例如,AvrBs3和AvrBs3样家族成员AvrBs4唯独在其重复序列结构域区不同,除了对于AvrBs3来说AvrBs4的C端中有四个氨基酸缺失。图16显示了 AvrBs3的氨基酸序列以及Hax-子家族成员的氨基酸序列。对于本发明特别重要的是重复序列单元,它们除了在位置12和13的高变氨基酸和位置4和M的可变氨基酸之外是相同。因此,这些蛋白的每个重复序列单元被单独给出。如上所述,已经描述了重复序列结构域内的重复序列单元决定AvrBs3家族的III 型效应蛋白的识别或结合能力和特异性。然而,潜在原理在本发明之前是未知的。本发明人已经发现,重复序列结构域内的一个重复序列单元负责识别靶DNA序列中的一个特定DNA碱基对。然而,该发现仅是本发明的一个部分。本发明人还发现,重复序列结构域的每个重复序列单元内的高变区负责识别靶DNA序列中的一个特定DNA碱基对。 在重复序列单元内,高变区(对应于氨基酸位置12和1 通常负责该识别特异性。因此, 这些氨基酸中的每个变化反映了靶DNA识别和优选还有识别能力的相应变化。
本文使用的“高变区”预期表示本发明重复序列单元中位置12和13或等同位置。 要理解,本发明位置12和13对应于本文公开的AvrBs3和其他TAL效应子的全长重复序列单元中的位置12和13。还要理解,“等同位置”预期是在本发明重复序列单元中分别对应于位置12和13的位置。通过将任何重复序列单元与AvrBs3的全长重复序列单元比对,可以容易确定这种等同位置。因此,还首次显示,DNA结合蛋白的重复序列结构域中一个重复序列单元识别靶 DNA中的一个碱基对,并且通常在重复序列单元的高变区内的重复序列单元中一个氨基酸或两个氨基酸残基决定靶DNA中那个碱基对被识别。基于该发现,本领域技术人员将能够特异性靶向关注的靶DNA序列中的靶碱基对,通过修饰重复序列结构域的其重复序列单元内的多肽以特异性靶向预期靶DNA序列中的靶碱基对。基于该发现,本发明人已经鉴定了不同重复序列类型的DNA靶特异性的识别代码,并且能够预测几种TAL效应子的靶DNA序列,这可以试验证实。这还将促进由TAL效应子调控的宿主基因的鉴定。识别靶DNA中线性碱基序列的重复序列单元的线性阵列是新型DNA-蛋白相互作用。本发明鉴定的用于高特异性靶向DNA的重复序列结构域和识别代码的模块式结构允许有效设计用于多种技术领域的特异性DNA结合结构域。在本发明的一个实施方案中,重复序列结构域包括在转录因子中,例如在植物中活性的转录因子,特别优选在III型效应蛋白中,例如在AvrBs3样家族的效应子中。然而, 在揭示了一方面在重复序列结构域中的重复序列单元和另一方面靶DNA中碱基序列之间的关联之后,重复序列结构域的模块式结构可用于将用于靶向特定靶DNA序列的任何蛋白中。通过将包含重复序列单元的重复序列结构域引入多肽,其中重复序列单元被修饰以使每个重复序列单元包含一个高变区并且其中所述高变区决定靶DNA序列中碱基对的识别, 大量蛋白对预定靶DNA序列的识别是可行的。因为已经发现重复序列结构域内一个重复序列单元负责特异性识别DNA中的一个碱基对,几个重复序列单元可以彼此组合,其中每个重复序列单元包含负责每个重复序列单元识别靶DNA序列中特定碱基的高变区。特异性修饰DNA序列以获得特定氨基酸的指定代码的技术是本领域已知的。诱变和多核苷酸改变的方法已经被广泛描述。参见例如Kunkel (198 %. Natl.Acad. Sci. USA 82 :488-492 ;Kunkel 等(1987)Methods in Enzymo1. 154 :367-382 ; 美国专利号 4, 873, 192 ;Walkerand Gaastra, eds. (1983)Techniques in Molecular Biology(MacMillanPublishing Company,New York)和其中引用的参考文献。所有这些出版物在本文通过引用并入。下述实施例提供了用于构建新重复序列单元病测试人工构建的重复序列单元特异性识别靶DNA序列中碱基对的特异性结合活性的方法。重复序列结构域中使用的重复序列单元的数目可以由本领域技术人员通过常规实验来确定。一般,至少1.5个重复序列单元被认为是最小的,尽管通常使用至少约8个重复序列单元。重复序列单元不必是完整的重复序列单元,因为可以使用一般大小的重复序列单元。而且,本文描述的方法和多肽不依赖于具有特定数目的重复序列单元的重复序列结构域。因此,本发明多肽可以包含例如1. 5、2、2. 5、3、3. 5、4、4. 5、5、5. 5、6、6. 5、7、7. 5、8、 8. 5、9、9. 5,10,10. 5、11、11. 5,12,12. 5,13,13. 5,14,14. 5,15,15. 5,16,16. 5,17,17. 5、18、18.5,19,19.5,20,20.5,21,21.5,22,22. 5,23,23. 5,24,24. 5,25,25. 5,26,26. 5,27,27. 5、 28,28.5,29,29.5,30,30. 5,31,31. 5,32,32. 5,33,33. 5,34,34. 5,35,35. 5,36,36. 5、37、 37.5,38,38.5,39,39.5,40,40.5,41,41.5,42,42.5,43,43.5,44,44.5,46,46. 5,47,47.5、
48,48. 5,49,49. 5,50,50. 5或更多重复序列单元。通常,AvrBs3含有17. 5个重复序列单元并且诱导UPA(由AvrBs3上调)基因的表达。重复序列单元的数目和顺序将决定相应活性和DNA识别特异性。作为进一步实例,AvrBs3家族成员Hax2包括21. 5个重复序列单元, Hax3包括11. 5个重复序列单元,而Hax4包括14. 5个重复序列单元。优选地,本发明多肽包含约8至约39个重复序列单元。更优选地,本发明多肽包含约11. 5至约33. 5重复序列单元。具有34个氨基酸的重复序列的典型共有序列(单字母代码)显示如下LTPEQVVAIASNGGGKQALETVQRLLPVLCQAHG具有35个氨基酸的重复序列单元的其他共有序列(单字母代码)显示如下LTPEQVVAIASNGGGKQALETVQRLLPVLCQAPHD可用于本发明一个实施方案的重复序列单元与上述共有序列具有至少35%、 40%、50%、60%、70%、75%、80%、85%、90%或95%的同一性。在优选实施方案中,使用 AvrBs3、Hax2、Hax3和Hax4的重复序列和AvrBs3家族的其他成员。这些成员的重复序列单元序列在图16中显示。这些重复序列单元序列可以通过更换一个或多个氨基酸来修饰。 修饰的重复序列单元序列与AvrBs3家族序列的最初成员的最初重复序列具有至少35%、 40%、50%、60%、70%、75%、80%、85%、90%或95%的同一性。在优选实施方案中,位置 12和13的氨基酸被改变。在其他实施方案中,位置4、11、M和32的氨基酸被改变。优选地, 每个重复序列的氨基酸数目在20-45氨基酸范围内,更进一步,每个重复序列单元32-40氨基酸、还进一步32-39氨基酸并且进一步任选32、34、35或39个氨基酸。具体说,重复序列单元中的高变区决定靶DNA序列中一个碱基对的特异性识别。 更具体地,本发明人发现重复序列单元中位置12和13存在的氨基酸与靶DNA序列中碱基对之间的下述识别特异性关联 HD 识别 C/G眷NI 识别 A/T NG 识别 T/A· NS 识别 C/G 或 A/T 或 T/A 或 G/C·ΝΝ 识别 G/C 或 A/T IG 识别 Τ/Α·Ν 识别 C/G 或 T/A HG 识别 Τ/Α·Η 识别 T/A·ΝΚ 识别 G/C。必须注意,氨基酸以单字母代码表示。核苷酸作为碱基对给出,其中第一碱基位于上链,第二碱基位于下链;例如C/G表示C位于上链,G位于下链。分别就单氨基酸N和H而言,当通过多氨基酸序列比对与其他重复序列单元比较时,AvrBs3的氨基酸13从重复序列单元缺失。
在本发明的一个实施方案中,AvrBs3样蛋白的N端结构域赋予所述重复序列的识别特异性的T,5'的识别特异性。在本发明特别优选的实施方案中,使用蛋白家族AvrBs3的重复序列单元。该蛋白家族成员的实例已经在上文指出。特别是,所述蛋白家族的成员与AvrBs3的氨基酸序列、 特别是AvrBs3的重复序列单元的氨基酸序列具有至少95%、至少90%、至少80%、至少 85%、至少70%、至少75%、至少60%、至少50%、至少40%或至少35%的氨基酸同源性。 考虑到这点,重复序列单元的高变区可以通过AvrBs3家族成员之间的氨基酸比较来推导。 在特别优选的实施方案中,氨基酸在AvrBs3的重复序列单元的位置12和13。然而,可变区还可以位于不同的氨基酸位置。可变位置的实例是氨基酸成员4、11、对和32。在本发明进一步实施方案中,负责特异性识别DNA序列中碱基对的氨基酸位于通常在AvrBs3家族成员之间不变化的位置或位于可变但非高变的位置。总结,本发明人发现重复序列单元决定DNA序列上一个碱基对的识别,并且重复序列单元内的高变区决定相应重复序列单元的识别特异性。因此,重复序列单元的序列与靶DNA序列中碱基对的特定线性顺序相关联。本发明人发现关于AvrBs3的这种关联并且就代表数目的AvrBs3样蛋白家族成员证实了这点。就AvrBs3样家族成员来说,34或其他氨基酸长度的重复序列单元中位置12和13的氨基酸残基与AvrBs3样蛋白的确定的结合特异性相关联。该核心原理的发现提供了有力的工具来定制具有其同源靶DNA模板的多肽, 用于许多应用,包括但不限于调节基因表达和靶向基因组工程。在本发明中,可以设计包含具有重复序列单元的重复序列结构域的多肽,其中重复序列单元中包含决定靶DNA序列中碱基对的识别的高变区。在本发明的一个实施方案中,每个重复序列单元包含决定靶DNA序列中一个碱基对的识别的高变区。在进一步的实施方案中,重复序列结构域中包含1或2个不特异性识别靶DNA序列中碱基对的重复序列单元。考虑到由发明人发现的识别代码,重复序列单元的模块式排列是可行的,其中每个重复序列单元负责特异性识别靶DNA序列中一个碱基对。因此,重复序列单元的序列对应于靶DNA序列中的碱基对的序列,使得1个重复序列单元匹配一个碱基对。只要靶DNA序列是已知的并且需要被蛋白识别,本领域技术人员能够特别构建模块式系列的重复序列单元,包括特异性识别氨基酸序列,并将这些重复序列单元以适当顺序装配成多肽,以实现对预期靶DNA序列的识别和结合。任何多肽可以通过与本发明的模块式重复序列单元DNA结合结构域组合来修饰。此类实例包括是转录激活子和阻遏蛋白、 抗性介导蛋白、核酸酶、拓扑异构酶、连接酶、整合酶、重组酶、解离酶、甲基化酶、乙酰基转移酶、去甲基化酶、脱乙酰酶的多肽,和能够修饰DNA、RNA或蛋白的任何其他多肽。本发明的模块式重复序列单元DNA结合结构域能够与细胞区室定位信号例如核定位信号组合以在任何其他调控区发挥功能,包括但不限于转录调控区和翻译终止区。在本发明的进一步实施方案中,这些模块化设计的重复序列单元与能够在通过重复序列结构域的结合而靠近DNA时切割DNA的内切核酸酶结构域组合。已知这种内切核酸酶断裂刺激真核生物中同源重组率,所述真核生物包括真菌、植物和动物。由于位点特异性内切核酸酶断裂而刺激特定位点同源重组的能力允许回收已经在所述特定位点以比没有进行位点特异性断裂时的可能频率高得多的频率整合DNA序列的转化细胞。此外,内切核酸酶断裂,例如由重复序列结构域和内切核酸酶结构域形成的多肽导致的那些,有时通过细胞DNA代谢机制以改变断裂位点序列的方式来修复,例如通过在断裂位点导致与未改变序列相比的短插入或缺失。这些序列改变可以导致基因或蛋白功能的失活,例如通过改变蛋白编码序列以制备非功能蛋白,修饰剪接位点而使基因转录物被不正确地切割,制备非功能转录物,改变基因启动子序列而使它不再能适当转录,等等。使用位点特异性内切核酸酶断裂DNA可以增加断裂区中同源重组率。在一些实施方案中,I7Ok I (海床黄杆菌(FlavcAacteriumokeanokoites))内切核酸酶可以作为效应子用于诱导DNA断裂。R)kl内切核酸酶结构域独立地于DNA结合结构域而起作用, 并切割通常作为二聚体的双链 DNA(Li 等(1992)Proc. Natl. Acad. Sci. U. S. A 89(10) 4275-4279,和 Kim 等(1996)Proc. Natl. Acad. Scl. U. S. A 93(3) :1156-1160 ;其公开内容在此通过引用整体并入)。单链i^okl 二聚体也已经被开发并也可被使用(Mino等Q009) J. Biotechnol. 140 :156-161)。可以构建含有用于识别预期靶DNA序列的重复序列结构域和诱导在靶DNA序列或其附近DNA断裂的R)kl内切核酸酶结构域的效应子,类似于之前采用锌指核酸酶进行的工作(Townsend 等 Q009) Nature 459 :442-445 ;Shukla 等 Q009) Nature 459,437-441,其全部在此通过引用整体并入)。此类效应子的使用能够产生基因组中的靶向改变,包括添加、缺失和其他修饰,类似于针对锌指核酸酶报道的那些用途,参见 Bibikova 等 Q00;3)kience 300,764 ;Urnov 等 QO(^)Nature 435,646 ;Wright 等 Q005) The Plant Journal44 :693-705 ;和美国专利号 7,163,824 和 7,001,768,其全部在此通过引用整体并入。FokI内切核酸酶结构域可以通过PCR从根据标准方法制备的海洋细菌海床黄杆菌(ATCC)的基因组DNA克隆。R)kl内切核酸酶的序列可获自Pubmed (登记号M28^8和登记号J04623,其公开内容在此通过引用整体并入)。来自酿酒酵母的Hce I内切核酸酶已经用于产生增加同源重组率的DNA断裂。 I-Sce I是由线粒体内含子编码的内切核酸酶,它具有18bp识别序列,因此在给定DNA内、 甚至在大基因组内非常低的识别位点频率(Thierry等(1991)Nucleic Acids Res. 19(1) 189-190;其公开内容在此通过引用整体并入)。I-Sce I识别的切割位点的低频率使它适合用于增强同源重组。关于使用Hce I诱导所述DNA断裂的其他描述可以参见美国专利申请20090305402,其在此通过引用整体并入。I-Sce I的识别位点已经被引入许多不同系统。该位点用Hce I的随后切割增加了已经引入该位点的位置的同源重组。已经使用被引入爪蟾卵染色体外DNA、小鼠基因组和烟草植物白花丹叶烟草(Nicotiana plumbaginifolia)基因组DNA的I-Sce I位点获得提高的同源重组频率。参见例如^igal等(1995)Proc. Natl. Acad. Sci. U. S. Α. 92 (3) 806-810 ;Choulika ^ (1995)Mol. Cell Biol. 15(4) :1968-1973 ;和 Puchta 等(1993) Nucleic Acids Res. 21(22) :5034-5040 ;其公开内容在此通过引用整体并入。要理解,与异源DNA结合结构域一起起作用的任何其他内切核酸酶结构域可用作效应子,并且I-Sce I内切核酸酶是一个这样的非限制性实例。具有DNA识别和结合结构域的内切核酸酶例如 I-Sce I的使用限制在于如果识别位点不是预期位置已经存在的,则识别位点必须在使用所述内切核酸酶来提高该位点同源重组之前通过同源重组标准方法引入预期位置。已经报道了能够设计和合成识别新的靶DNA序列的新型内切核酸酶的方法,例如通过修饰已知的内切核酸酶或制备一种或多种此类内切核酸酶的嵌合形式,从而有助于产生此类工程化内切核酸酶结构域以切割关注的内源性靶DNA序列(Chevalier等O002)Molecular Cell 10 :895-905 ;W02007/060495 ;W02009/095793 ;Fajardo-Sanchez 等(2008)NucleicAcids Res. 36 :2163-2173,两者在此通过引用整体并入)。照这样,可以预见此类内切核酸酶结构域可以被类似地工程化,以使DNA结合活性变得非功能性但是保持DNA切割功能活性,并利用所述类似工程化的内切核酸酶切割结构域作为效应子来诱导与使用上述i^okl类似的 DNA断裂。在这种应用中,靶DNA序列识别优选由效应子的重复序列结构域来提供,但是DNA 切割将通过工程化内切核酸酶结构域来实现。如上提到的,效应子包括对预期特定靶序列特异性识别的重复序列结构域。在优选实施方案中,效应子特异性结合内源性染色体DNA序列。特定的核酸序列或更优选特定的内源性染色体序列可以是其中希望增强同源重组的核酸区中的任何序列。例如,核酸区可以是含有其中需要引入突变例如点突变或缺失的基因的区域,或者需要引入赋予预期表型的基因的区域。进一步的实施方案涉及产生其中已经引入所需添加的修饰植物的方法。该方法可以包括获得包括需要引入修饰的内源性靶DNA序列的植物细胞;用效应子在所述内源性靶DNA序列内产生双链切割,所述效应子包括结合内源性靶DNA序列的重复序列结构域和内切核酸酶结构域;在允许外源性核酸和内源性靶DNA序列之间发生同源重组的条件下将外源性核酸引入植物细胞,所述外源性核酸包括与至少一部分内源性靶DNA同源的序列; 和从其中已经发生同源重组的植物细胞产生植物。其他实施方案涉及根据上文和这里所述方法制备的遗传修饰的细胞和植物。应该注意,靶DNA序列可以是人工的或天然存在的。要理解,此类方法可使用本领域已知的技术和方法用于任何生物(此类非限制性生物包括动物、人、真菌、卵菌纲细菌和病毒)并在此类生物中用于此类目的。在本发明进一步的实施方案中,这些模块化设计的重复序列结构域与负责调解或控制例如植物基因、动物基因、真菌基因、卵菌基因、病毒基因或人基因的基因表达的一个或多个结构域组合。通过产生含有锌指结构域的DNA结合多肽来调节基因表达的方法是本领域已知的(美国专利号 7,285,416,7,521,241,7,361,635,7,273,923,7,262,054, 7,220,719,7, 070,934,7, 013,219,6, 979,539,6, 933,113,6, 824,978,其每一个在此通过引用整体并入)。例如,这些AvrBs3样家族效应子被修饰以结合特定靶DNA序列。此类多肽可以例如是转录激活子或转录的阻遏蛋白,它们通过本发明方法修饰以特异性结合启动子的基因控制区或关注基因的其他调控区,以激活、阻遏或以其他方式调节所述基因的转录。在本发明更进一步实施方案中,靶DNA序列被修饰以被非天然存在的重复序列结构域或修饰的重复序列结构域特异性识别。作为一个实例,AvrBs3样家族成员的靶DNA序列可以被插入启动子以产生新型可控制的启动子,它可以通过相应AvrBs3效应子诱导。第二可诱导系统可以使用反式激活子和靶基因来构建,其中反式激活子是多肽,其中所述多肽包含至少一个包含结合所述靶基因并诱导表达的本发明重复序列单元的重复序列结构域。反式激活子和靶基因可以被引入一个细胞系,但也可以存在于不同细胞系并在稍后被渐渗。在进一步实施方案中,疾病抗性植物可以通过在基因之前插入含有本发明多肽的重复序列结构域的靶DNA序列来构建,所述基因表达之后通过激活抗性介导基因而导致植物的防御反应。
在进一步实施方案中,定制DNA结合多肽可以通过重排重复序列单元类型来构建,由此允许产生具有新型靶DAN结合特异性的重复序列结构域。个体重复序列单元在DNA 水平上几乎相同,排除经典克隆策略。本发明提供了装配具有本发明重复序列结构域的定制多肽的快速且廉价策略。为了提高此类多肽的克隆通用性,设计了两步装配方法。该方法用于装配具有新型重复序列类型的多肽以研究其靶DNA识别和结合特异性。概括地,任何DNA序列可以被修饰以实现含有本发明多肽的重复序列结构域的结合,通过将碱基对引入基因或基因控制元件的任何DNA区或特定区以特异性靶向具有包含重复序列单元的重复序列结构域的多肽,所述重复序列单元将结合所述修饰的DNA序列以促进彼此的特异性识别和结合。本发明人已经证明,真实的模块式DNA识别且优选结合多肽可被有效产生,其中所述多肽的结合基序是包含重复序列单元的重复序列结构域,所述重复序列单元根据其对特定碱基对组合的识别能力来选择。因此,本领域普通技术人员完全有能力设计能够结合任何预期靶DNA序列的多肽,仅通过考虑靶DNA中存在的碱基对序列并以适当顺序组合作为具有与之结合的必要特征的结合基序的重复序列单元。靶DNA的已知序列长度越大,可包括在多肽中的模块式重复序列单元的数目越大。例如,如果已知序列仅9个碱基长,则9 个如上定义的重复序列单元可包括在多肽中。如果已知序列是27个碱基长,则达27个重复序列单元可包括在多肽中。靶DNA序列越长,其在基因组中其他位置DNA的任何其他给定部分中出现的概率越低。而且,被选择包含在多肽中的那些重复序列单元可以被人工修饰以修饰其结合特征。可选地(或附加地),重复序列单元的长度和氨基酸序列可以改变,只要不影响其结合特征。一般而言,优选地选择对靶DNA序列具有高亲和力和高特异性的那些重复序列单兀。如本文所述,效应子可以被设计为识别任何适合的靶位点,以调控所选的任何内源性基因的表达。适合调控的内源性基因的实例包括VEGF、CCR5、ER. α . , Her2/Neu, Tat, Rev、HBV C、S、X 和 P、LDL-R、PEPCK, CYP7、血纤蛋白原、ApoB, Apo Ε、Apo (a)、肾素、NF-. κ. B、I-. κ . B, TNF-. α.、FAS配体、淀粉样蛋白前体蛋白、心房利钠因子、ob-瘦蛋白、 ucp-1、IL-1、IL-2、IL-3、IL-4、IL-5、IL-6、IL-12、G-CSF、GM-CSF、Epo、PDGF、PAF、ρ53、Rb、 胎儿血红蛋白、营养不良蛋白、富养蛋白(eutrophin)、⑶NF、NGF、IGF-I、VEGF受体fit和 flk、拓扑异构酶、端丽末端转移酶、bcl-2、细胞周期蛋白、制管张素、IGF、ICAM-U STATS、 c-myc、c-myb、ΤΗ、PTI-I、聚半乳糖醛酸酶、EPSP合酶、FAD2-1、Δ-12脱饱和酶、Δ-9脱饱和酶、Δ-15脱饱和酶、乙酰辅酶A羧化酶、酰基-ACP-硫酯酶、ADP-葡萄糖焦磷酸化酶、淀粉合酶、纤维素合酶、蔗糖合酶、衰老相关基因、重金属螯合剂、脂肪酸过氧化氢裂合酶、病毒基因、原虫基因、真菌基因和细菌基因。一般而言,适合被调节的基因包括细胞因子、淋巴因子、生长因子、促有丝分裂因子、趋化因子、癌活性因子(onco-active factors)、受体、钾通道、G蛋白、信号转导分子、疾病抗性基因和其他疾病相关基因。另一方面,提供了调节靶基因在细胞中表达的方法。细胞可以优选是植物细胞、人细胞、动物细胞、真菌细胞或任何其他活细胞。细胞含有多肽,其中所述多肽包含至少一个含有重复序列单元的重复序列结构域,并且这些重复序列单元含有高变区,并且每个重复序列单元负责识别所述靶DNA序列中一个碱基对。所述多肽作为编码所述多肽的NDA被引入,或者所述多肽本身通过本领域已知的方法被引入。不论如何引入,多肽应该包括至少一个特异性识别且优选结合碱基对的靶DNA序列并且调节靶基因表达的重复序列结构域。在优选实施方案中,所有重复序列单元含有决定靶DNA序列中碱基对的识别的高变区。可以连接至本发明效应子以促进效应子摄取入细胞的肽序列的实例包括但不限于HIV的tat蛋白的11氨基酸肽;对应于pl6蛋白的氨基酸84-103的20残基肽序列(参见Fahraeus等(1996)CurrentBiology 6:84);控制触角的基因的60-氨基酸长同源结构域的第三螺旋(Derossi等(1994) J.Biol. Chem. 269 :10444);信号肽的h区,例如Kaposi成纤维细胞生长因子(K-FGF)h区;或来自HSV的VP22转位结构域(Elliot&0' Hare (1997) Cell 88 :223233)。提供增强的细胞摄取的其他适合的化学部分也可以与效应子化学连接。毒素分子还具有跨细胞膜运输多肽的能力。经常,此类分子包含至少两个部分 (所谓的“二元毒素”)转位或结合结构域或多肽和单独毒素结构域或多肽。通常,转位结构域或多肽结合细胞受体,然后毒素被运输入细胞。几种细菌毒素已经被用于尝试递送作为内部或氨基末端融合体的多肽至细胞质,所述细菌毒素包括梭状芽胞杆菌产气荚膜杆菌iota毒素、白喉毒素(DT)、假单胞菌外毒素A(PE)、百日咳毒素(PT)、炭疽杆菌毒素和百日咳腺苷酸环化酶(CYA) (Arora 等(1993) J. Biol. Chem. 268 :3334 3341 ;Perelle 等 (1993)Infect. Immun. 61 :5147 5156(1993) ;Stenmark 等(1991)J. Cell Biol. 113 :1025 1032(1991) ;Donnelly 等(1993)Proc. Natl. Acad. ki. USA 90:3530 3534 ;Carbonetti 等 (1995)Abstr. Annu. Meet. Am. Soc. Microbiol. 95 295 ;Sebo 等(1995) Infect. Immun. 63 3851 3857 ;Klimpel 等(1992)Proc. Natl. Acad. ki. USA 89:10277 10281 ;和 Novak 等 (1992)J. Biol. Chem. 267 :17186 17193)。效应子也可以被引入动物细胞,优选哺乳动物细胞,经由脂质体和脂质体衍生物, 例如免疫脂质体。术语“脂质体”指包含一个或多个包封水相的同心有序脂质双层的载体。 在该效应子情况下,水相通常含有被递送至细胞的化合物。脂质体与质膜融合,从而释放效应子进入胞质。可选地,脂质体在运输载体中被细胞吞噬或摄取。一旦进入核内体或吞噬体,脂质体降解或与运输载体的膜融合并释放其内含物。本发明特别涉及植物和农业技术领域。一方面,本发明涉及调节靶基因在植物细胞中表达的方法,所述方法包括提供具有根据本发明修饰的多肽的植物细胞,所述多肽能够特异性识别靶基因内的靶核苷酸序列或其互补链,并允许所述多肽识别并特异性结合所述靶核苷酸序列,从而调节所述靶基因在所述靶植物细胞中的表达。可以通过本领域已知的任何适当方法将多肽提供至植物细胞。例如,蛋白可以被外源添加至植物细胞,并且植物细胞被保持在使得多肽被引入植物细胞、结合靶核苷酸序列并调节靶基因在植物细胞中表达的条件下。可选地,编码多肽的核苷酸序列例如DNA或 RNA可以在植物细胞中表达,并且植物细胞被保持在使得表达的多肽结合靶核苷酸序列并调节靶基因在植物细胞中表达的条件下。调节靶基因在植物细胞中表达的优选方法包括如下步骤a)提供具有根据本发明修饰的多肽的表达系统的植物细胞,所述多肽能够特异性识别并优选结合靶基因的表达控制元件、优选启动子中的靶核苷酸序列或其互补链;和b)在其中所述多肽被产生并结合至所述靶核苷酸序列的条件下培养所述植物细胞,从而调节所述靶基因在所述植物细胞中的表达。任何靶核苷酸序列可以通过本发明方法调节。例如,靶核苷酸序列对于靶基因而言可以是内源的或外源的。在本发明的实施方案中,靶核苷酸序列可以存在于活细胞中或在体外存在。在具体实施方案中,靶核苷酸序列对于植物而言是内源的。靶核苷酸序列可以位于与靶基因相关的任何适当位置。例如,靶核苷酸序列可以在靶基因编码区的上游或下游。可选地,靶核苷酸序列在靶基因的编码区内。优选地,靶核苷酸序列是基因的启动子。任何靶基因可以通过本发明方法调节。例如,靶基因可以编码影响肽、蛋白、寡核苷酸、核酸、微生物、寡糖、碳水化合物、脂质或小分子的生物合成、修饰、细胞运输、代谢和降解的产物。而且,效应子可用于根据性状来工程改造植物,所述性状例如增加的疾病抗性、结构和贮存多糖、风味、蛋白和脂肪酸的修饰、果实成熟、产量、颜色、营养特征、提高的贮存能力等。因此,本发明提供了改变关注的基因在靶细胞中表达的方法,包括测定(如果必要)关注基因的结构区和/或调控区的DNA序列的至少一部分;设计包括根据本发明修饰的重复序列单元的多肽以识别已知序列的DNA的特定碱基对,并导致所修饰的多肽存在于靶细胞中(优选在其细胞核中)。(显然,如果已经知道DNA序列,则不需要测定)。调控区可以距离关注基因的结构区很远(例如远端增强子序列或相似的)。此外,多肽可以有利地包括来自其他蛋白的功能结构域(例如来自限制内切核酸酶、重组酶、复制酶、整合酶等的催化结构域)或甚至“合成”效应子结构域。多肽还可以包括激活或加工信号,例如核定位信号。这在靶向多肽至细胞核来说是特别有用的,以增强多肽与细胞核内靶(例如基因组DNA)的结合。由于知道多肽表达的DNA被递送至细胞,修饰的多肽可以在细胞中原位合成。促进DNA递送的方法是本领域技术人员公知的,并且包括例如重组病毒载体(例如,逆转录病毒、腺病毒)、脂质体等。可选地,修饰的多肽可以在细胞外制备,然后递送至其中。递送可以通过将多肽加入脂质体等来促进,或者通过将多肽连接至靶向部分(例如抗体或激素分子的结合部分、膜过渡结构域、或真菌或卵菌效应子的转位结构域、或细菌毒素的经典A-B 家族的细胞结合B结构域)来促进。实际上,本发明修饰蛋白在控制基因表达中的一个显著优点是无载体递送蛋白至靶细胞。据本发明人所知,之前从未说明含有能够特异性识别靶DNA序列中碱基对的修饰重复序列单元的多肽的设计及其在基因表达调节中的成功使用(如本文所述)。因此,本文公开的本发明的突破提供了超越在植物中使用的可能性。在本发明的一个实施方案中,效应子多肽被设计为治疗性和/或预防性用于调控疾病相关基因的表达。例如,所述多肽可以用于抑制外源基因(例如细菌或病毒病原体的基因)在人、其他动物或植物中的表达,或修饰突变宿主基因(例如癌基因)的表达。因此,本发明还提供了能够抑制疾病相关基因表达的效应多肽。通常,所述多肽不是天然存在的多肽,但是会被特别设计为抑制疾病相关基因的表达。方便地,效应多肽将通过本发明的任何方法来设计。本发明还涉及基因组工程领域。效应多肽可以根据本发明产生为靶向基因组中特定的DNA序列。所述多肽可以被修饰以含有指导靶DNA序列修饰(例如靶序列的位点特异性重组或整合)的活性。该方法实现了复杂基因组中的靶向DNA修饰。
在本发明更进一步的实施方案中,提供了被修饰以包括至少一个包含重复序列单元的重复序列结构域的多肽,所述重复序列单元具有用于决定DNA序列中碱基对的选择性识别的高变区。在优选实施方案中,多肽在所述重复序列单元包括从下述组选择的高变区以决定下述碱基对之一的识别 识别 C/G 的 HD 识别 A/T 的 NI 识别 T/A 的 NG·识别 C/G 或 A/T 或 T/A 或 G/C 的 NS·识别 G/C 或 A/T 的 NN 识别 T/A 的 IG·识别 C/G 或 T/A 的 HG 识别 T/A 的 HG 识别 T/A 的 H 识别 G/C 的 NK本发明还包括编码前述多肽任何一个的DNA。在更进一步的实施方案中,提供了被修饰为包括位于靶DNA序列中的碱基对而使得所述碱基对可以被包括至少一个包含重复序列单元的重复序列结构域的多肽特异性识别的DNA,所述重复序列单元具有决定所述DNA中所述碱基对的识别的高变区。在一个任选实施方案中,所述碱基对位于基因表达控制序列。由于重复序列结构域的模块式装配,碱基对序列可以被所述重复序列结构域特异性靶向。在本发明的一个可选实施方案中,所述DNA被选自以下组的碱基对修饰以接受被下述高变区之一选择性且确定的识别 供HD识别的C/G 供NI识别的A/T 供NG识别的T/A·供NS识别的CT或A/T或T/A或G/C·供NN识别的G/C或A/T 供IG识别的T/A 供N识别的C/G或T/A 供HG识别的T/A 供H识别的T/A 供NK识别的G/C而本发明另一方面提供了通过将之结合根据本发明的多肽来修饰样品混合物中存在的关注的核酸序列的方法,包括使样品混合物与对关注的序列的至少一部分具有亲和力的所述多肽接触,以允许所述多肽识别并优选特异性结合关注的序列。本文使用的术语“修饰”预期表示序列被考虑仅通过结合多肽而被修饰。这不是要表明核苷酸序列被改变,尽管这种改变(和其他)可以保证随后多肽与关注核酸的结合。 方便地,核酸序列是DNA。
关注的核酸的修饰(在结合被修饰以含有模块式重复序列单元的多肽的意义上) 可以许多方法的任何一种(例如,凝胶迁移率变动分析,标记多肽的使用-标记可以包括放射性标记、荧光标记、酶标记或生物素/链霉亲和素标记)来检测。关注的核酸序列的修饰(及其检测)可以是需要的所有(例如,在疾病诊断中)。 然而希望进行样品的进一步加工。方便地,多肽(和与之特异性结合的核酸序列)与样品的其余部分分离。有利地,多肽-DNA复合物被结合至固相支持体,以促进这种分离。例如, 多肽可以存在于丙烯酰胺或琼脂糖凝胶基质,或更优选地固定在膜表面上或微量滴定板的孔中。在本发明的一个实施方案中,所述包含重复序列单元的重复序列结构域被插入细菌、病毒、真菌、卵菌、人、动物或植物多肽以实现靶向识别并优选地结合DNA序列中一个或多个指定的碱基对,并任选地其中所述重复序列单元取自AvrBs3样蛋白家族的重复序列结构域,其还任选地被修饰以获得预选的对DNA序列中一个或多个碱基对的特异性结合活性。本发明涵盖分离的或基本上纯化的多肽或蛋白组合物。“分离的”或“纯化的”多核苷酸或蛋白或其生物活性部分基本上或实质上不含正常伴随其天然存在环境中存在的多核苷酸或蛋白或与之相互作用的组分。因此,分离的或纯化的多核苷酸或蛋白当通过重组技术制备时基本上不含其他细胞材料或培养基,或者当化学合成时基本上不含化学前体或其他化学物。最佳地,“分离的”多核苷酸不含正常在衍生多核苷酸的生物的基因组DNA 中多核苷酸侧翼(即,位于多核苷酸的5'和3'端的序列)的序列(最佳地蛋白编码序列)。例如,在各种实施方案中,分离的多核苷酸可以含有正常在衍生多核苷酸的细胞的基因组DNA中多核苷酸侧翼的小于约51Λ、41Λ、31Λ、21Λ、11Λ、0. 51Λ或0. Ikb的核苷酸序列。 基本上不含细胞材料的蛋白包括具有小于约30%、20%、10%、5%或(以干重计)污染蛋白的蛋白制品。当本发明蛋白或其生物活性部分被重组制备时,最佳培养基表现小于约 30%、20(%、10(%、5(%或1(% (以干重计)的化学前体或非关注蛋白化学物。本发明还涵盖所公开的DNA序列和由其编码的蛋白的片段和变体。“片段”意为 DNA序列的一部分和由其编码的氨基酸序列和蛋白的一部分。包含编码序列的DNA序列的片段可以编码保留天然蛋白的生物活性和由此对本文所述靶DNA序列的DNA识别或结合活性的蛋白片段。可选地,用作杂交探针的DNA序列的片段一般不编码保留生物活性或不保留启动子活性的蛋白。因此,DNA序列的片段可以是至少约20个核苷酸、约50个核苷酸、 约100个核苷酸和最多全长的本发明多核苷酸。“变体”预期表示基本相似的序列。对于DNA序列,变体包括在5'和/或3'端具有缺失(即,截短);在天然多核苷酸的一个或多个内部位点的一个或多个核苷酸的缺失和/或添加;和/或在天然多核苷酸的一个或多个位点的一个或多个核苷酸的取代的DNA 序列。如本文使用的,“天然”DNA序列或多肽分别包括天然存在的DNA序列或氨基酸序列。 对于DNA序列,保守变体包括因为遗传密码的简并性而编码本发明多肽之一的氨基酸序列的那些序列。变体DNA序列还包括合成衍生的DNA序列,例如通过使用定点诱变产生但依然编码本发明蛋白的那些。一般而言,本发明特定DNA序列的变体将与该特定多核苷酸具有至少约 70%,75%,80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99% 或更大序列同一性,通过序列比对程序和本文其他地方描述的参数来测定。
本发明特定DNA序列(S卩,参考DNA序列)的变体还可以通过比较变体DNA序列编码的多肽与参考DNA序列编码的多肽之间的百分比序列同一性来评价。任何两个多肽之间的百分比序列同一性可以使用序列比对程序和本文其他地方描述的参数来计算。当通过比较任何给定的一对本发明多核苷酸编码的两个多肽所共享的百分比序列同一性来评价任何给定的一对本发明多核苷酸时,两个编码多肽之间的百分比序列同一性是至少约 70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或更大序列同一性。“变体”蛋白预期表示通过在天然蛋白N端和/或C端缺失(所谓的截短)一个或多个氨基酸;在天然蛋白的一个或多个内部位点缺失和/添加一个或多个氨基酸;或在天然蛋白的一个或多个位点取代一个或多个氨基酸而从天然蛋白衍生的蛋白。本发明涵盖的变体蛋白是生物活性的,即,它们依然具有本文所述天然蛋白的预期生物活性。此类变体可以源自例如遗传多态性或人工操作。本发明蛋白的生物活性变体与天然蛋白的氨基酸序列具有至少约 70%,75%,80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%, 99 %或更大序列同一性,通过序列比对程序和本文其他地方描述的参数来测定。本发明蛋白的生物活性变体可以与该蛋白相差仅1-15个氨基酸残基、仅1-10个例如6-10个氨基酸残基、仅5个氨基酸残基、仅4、3、2或甚至1个氨基酸残基。本发明蛋白可以各种方式改变,包括氨基酸取代、缺失、截短和插入。此类操作的方法是本领域公知的。例如,蛋白的氨基酸序列变体和片段可以通过DNA突变来制备。用于诱变和多核苷酸改变的方法是本领域公知的。参见,例如K u η k e 1 (198 5) I3 r ο c. Natl.Acad. Scl. USA 82 :488-492 ;Kunkel 等(1987)Methods in Enzymo1. 154 :367-382 ; 美国专利号 4,873, 192 ;Walker and Gaastra, eds. (1983)Techniques inMolecular Biology(MacMiIlan Publishing Company, New York)和其中引用的参考文献。有关不影响关注蛋白生物活性的适当氨基酸取代的指导可参见Dayhoff等(1978)Atlas of Protein Sequence andStructure (Natl. Biomed. Res. Found. , Washington, D. C.)的模型,在此通过引用并入。保守取代,例如用具有相似性质的另一氨基酸交换一个氨基酸可能是最佳的。本文涵盖的蛋白序列的缺失、插入和取代不预期产生蛋白特征的根本改变。然而, 当难以预测在此之前取代、缺失或插入的确切影响时,本领域技术人员将理解,所述影响会通过本文其他地方所述的或本领域已知的常规筛选测定来评价。变体DNA序列和蛋白也涵盖从诱变和重组基因程序例如DNA改组衍生的序列和蛋白。所述DNA改组是本领域已知的。参见例如Stemmer (1994) Proc. Natl. Acad. Sci. USA 91 :10747-10751 ;Stemmer(1994)Nature 370 :389-391 ;Crameri 等(1997)Nature Biotech. 15 :436-438 ;Moore 等(1997)J. Mol. Biol. 272 :336-347 ;Zhang 等(1997)Proc. Natl. Acad. Scl. USA 94 :4504-4509 ;Crameri 等(1998) Nature 391 :288-291 ;和美国专利号 5,605,793 和 5,837,458。在PCR方法中,寡核苷酸引物可以被设计用于PCR反应以从任何关注生物提取的cDNA或基因组DNA扩增相应的DNA序列。设计PCR弓丨物和PCR克隆的方法是本领域公知的,并且公开于 Sambrook 等(1989)Molecular Cloning :A Laboratory Manual (2d ed. , ColdSpring Harbor Laboratory Press, Plainview, New York)。还参见 Innis 等, eds. (1990)PCR Protocols :AGuide to Methods and Applications(Academic Press,NewYork) ;Innis and Gelfand, eds. (1995)PCRStrategies(Academic Press, New York);禾口 Innis and Gelfand, eds. (1999) PCR Methods Manual (Academic Press, New York)。已知的PCR方法包括但不限于使用成对引物、嵌套引物、单特异性引物、简并引物、基因特异性引物、载体特异性引物、部分错配引物等的方法。在杂交技术中,已知多核苷酸的全部或部分用作与来自所选生物的克隆的基因组 DNA片段或cDNA片段群体(S卩,基因组或cDNA文库)中存在的其他相应多核苷酸选择性杂交的探针。杂交探针可以是基因组DNA片段、cDNA片段、RNA片段或其他寡核苷酸,并且可以用可检测基团标记,所述可检测基团例如32P或任何其他可检测标志物。因此,例如,杂交探针可以通过基于本发明的DNA序列来标记合成寡核苷酸而制备。用于制备用于杂交和用于构建cDNA和基因组文库的探针的方法是本领域公知的并且公开于Sambrook等(1989) Molecular Cloning:A Laboratory Manual(2d ed., Cold SpringHarbor Laboratory Press, Plainview, New York)。此类序列的杂交可以在严格条件下进行。“严格条件”或“严格杂交条件”是探针将以比其他序列可检测更大的程度杂交其靶序列(例如,至少2倍超过背景)的预期条件。 严格条件是序列依赖性的并且将在不同环境中不同。通过控制杂交和/或洗涤条件的严格性,与探针100%互补的靶序列可以被鉴定(同源探测)。可选地,严格条件可以被调整以允许序列中的一些错配,使得更低的相似性程度被检测(异源探测)。一般,探针长度小于约1000个核苷酸,最佳长度小于500个核苷酸。通常,严格条件是其中盐浓度在pH 7.0至8.3下小于约1.511 Na离子、通常约 0. 01至1. OM Na离子浓度(或其他盐)并且温度对于短探针(例如10至50个核苷酸)为至少约30°C和对于长探针(例如大于50个核苷酸)为至少约60°C的那些条件。严格条件还可以通过添加去稳定剂例如甲酰胺来获得。示例性低严格条件包括用30至35%甲酰胺、 IM NaCl、1% SDS (十二烷基硫酸钠)的缓冲溶液在37°C杂交,并用IX至2X SSC(20X SSC = 3. OM NaCl/0. 3M柠檬酸三钠)在50至55°C洗涤。示例性中等严格条件包括在40至45% 甲酰胺、1.0M NaCl、l%SDS中在37°C下杂交,并在0. 5X至IX SSC中55至60°C下洗涤。示例性高严格条件包括在50%甲酰胺、IM NaClU% SDS中37°C下杂交,并在0. IX SSC中60 至65°C下洗涤。任选地,洗涤缓冲液可以包含约0. 至约SDS。杂交持续时间一般小于约M小时,通常约4至约12小时。洗涤持续时间将是至少足以达到平衡的时间。特异性通常是杂交后洗涤的函数,关键因素是离子强度和最终洗涤溶液的温度。 对于 DNA-DNA 杂交体,Tm 可以根据 Meinkoth 和 Wahl (1984) Anal Biochem. 138 :267-284 的方程=Tm = 81. 50C +16. 6 (log Μ) +0. 41 (% GC) -0. 61 形式)-500/L 来估计;其中 M 是单价阳离子的摩尔浓度,% GC是DNA中鸟嘌呤核苷和胞嘧啶核苷酸的百分比,%形式是杂交溶液中甲酰胺的百分比,并且L是杂交体的碱基对长度。Tm是50%互补靶序列与优选匹配探针杂交的温度(确定的离子强度和PH下)。Tm因每错配而降低约1°C ;因此,Tffl, 杂交和/或洗涤条件可以被调节以杂交预期同一性的序列。例如,如果寻找具有> 90%同一性的序列,1可以降低10°C。一般而言,在确定的离子强度和pH下,严格条件被选择为特定序列及其互补体的热熔点(Tm)之下约5°C。然而,高严格条件可以利用在热熔点(Tm) 之下1、2、3或4°C下杂交和/或洗涤;中严格条件可以利用在热熔点(Tm)之下6、7、8、9或 10°C下杂交和/或洗涤;低严格条件可以利用在热熔点(Tffl)之下11、12、13、14、15或20°C下杂交和/或洗涤。使用方程、杂交和洗涤组合物和预期Tm,普通技术人员将理解,杂交和/ 或洗涤溶液的严格性的变化被固有地描述。如果预期错配程度导致小于45°C (水溶液)或 320C (甲酰胺溶液)的Tm,增加SSC浓度以便可以使用更高的温度是最佳的。对核酸杂交的全面指导参见 Ti jssen (1993) LaboratoryTechniques in Biochemistry and Molecular Biology-Hybridization withNucleic Acid Probes, Part I, Chapter 2(Elsevier, New York);禾口 Ausubel 等,eds. (1995)Current Protocols in Molecular Biology, Chapter 2 (Greene Publishing and Wi ley-Inter science, New York)。参见 Sambrook 等(1989) Molecular Cloning :A Laboratory Manual(2ded.,Cold Spring Harbor Laboratory Press,Plainview, New York)0认为本发明DNA序列和蛋白涵盖多核苷酸分子和蛋白,包含与本文公开的DNA序列或氨基酸序列足够同一性的核苷酸或氨基酸序列。本文使用的术语“足够同一性”指含有含有足够或最小数目的与第二氨基酸或核苷酸序列相同或等同(例如,具有相似侧链)的氨基酸残基或核苷酸的第一氨基酸或核苷酸序列,使得第一氨基酸或核苷酸序列与第二氨基酸或核苷酸序列具有共同的结构域和/或共同的功能活性。例如,含有具有至少约70% 同一性、优选75%同一性、更优选85%、90%、95%、96%、97%、98%或99%同一性的共同结构域的氨基酸或核苷酸序列在本文定义为足够同一性的。为了测定两个氨基酸序列或两个核酸的百分比同一性,为最佳比较目的来比对序列。两个序列之间的百分比同一性是序列共有的相同位置数目的函数(即,百分比同一性 =相同位置数目/位置总数(例如,重叠位置)xl00)。在一个实施方案中,两个序列是相同长度的。两个序列之间的百分比同一性可以使用类似于下文描述的那些技术,允许或不允许空位。在计算百分比同一性时,通常技术确切匹配。两个序列之间百分比同一性的确定可以使用数学算法来实现。用于比较两个序列的数学算法的非限制性实例是Karlin和Altschul (1990)Proc. Natl. Acad. Sci. USA 87 2264 的算法,在 Karlin 和 Altschul (1993)Proc. Natl. Acad. Sci. USA 90 :5873-5877 中修改。这种算法被整合入 Altschul 等(1990) J. Mol. Biol. 215 :403 的 NBLAST 和 XBLAST 程序。BLAST核苷酸检索可以用NBLAST程序来进行,评分=100,字长=12,以获得与本发明多核苷酸分子同源的核苷酸序列。BLAST蛋白检索可以用XBLAST程序进行,评分=50,字长 =3,以获得与本发明蛋白分子同源的氨基酸序列。为了获得比较目的的空位比对,可利用 Altschul 等(1997)Nucleic Acids Res. 25 :3389 所述的空位 BLAST。可选地,PSI-Blast 可用于进行检测分子间远缘关系的迭代检索。参见Altschul等(1997),同上。当使用BLAST、 空位BLAST和PSI-Blast程序时,可以使用各自程序(例如XBLAST和NBLAST)的缺省参数。 参见http://WWW. ncbi. nlm. nih. gov。用于序列比较的数学算法的非限制性实例是Myers 和Miller (1988) CABIOS 4 :11-17的算法。这种算法被整合入ALIGN程序(版本2. 0),它是GCG序列比对软件包的一部分。当利用ALIGN程序比较氨基酸序列时,可以使用PAM120 权重残基表、空位长度罚分12和空位罚分4。比对还可以通过检查人工进行。除非另外说明,本文提供的序列同一性/相似性值指使用全长的本发明序列并使用借助算法 Clustal W(Nucleic Acid Research, 22 (22) :4673-4680,1994)的多重比对获得的值,使用软件包Clustal W(Nucleic Acid Research, 22 (22) :4673-4680,1994)中包括的程序AlignX或其等同程序,使用缺省参数。“等同程序”是预期的任何序列比对程序,对于任何两个所涉及的序列,所述程序产生的比对与使用缺省参数的CLUSTALW(版本1. 83) (可获自 European BioinformaticsInstitute website :http://www. ebi. ac. uk/Tools/ clustalw/index. html)产生的相应比对相比具有相同的核苷酸或氨基酸残基匹配和相同的百分比序列同一性。本发明DNA序列可以提供在表达盒中以在任何原核或真核细胞和/或关注生物中表达,包括但不限于细菌、真菌、藻类、植物和动物。这些盒将包括与本发明DNA序列可操作连接的5'和3'调控序列。“可操作连接”预期表示两个或多个元件之间的功能性键合。 例如,关注的多核苷酸或基因和调控序列(即,启动子)之间的可操作连接是允许关注的多核苷酸表达的功能性连接。可操作连接的元件可以是连续的或非连续的。当用于指两个蛋白编码区的结合时,可操作连接预期编码区在相同阅读框内。盒可以还含有待共转化入生物的至少一个附加基因。可选地,附加基因可以提供在多表达盒上。此类表达盒与用于插入在调控区的转录调控下的DNA序列的多个限制位点和/或重组位点一起提供。表达盒可以额外含有选择性标记基因。表达盒将以5' -3'转录方向包括植物或其他生物或非人宿主细胞中功能性的转录和翻译起始区(即,启动子)、本发明的DNA序列和转录和翻译终止区(即,终止区)。 调控区(即,启动子、转录调控区和翻译终止区)和/或本发明DNA序列对于宿主细胞和彼此来说可以是天然的/类似的。可选地,调控区和/或本发明的DNA序列对于宿主细胞或彼此来说可以是异源的。如本文使用的,关于序列的“异源的”是起源于外来物种的序列, 或者如果起源于相同物种则是通过有意的人为介入而在组成和/或基因组座位上与其天然形式明显不同的序列。例如,可操作连接至异源多核苷酸的启动子来自不同于该多核苷酸起源的物种的物种,或者如果来自相同/类似物种则明显不同于其最初形式和/或基因组座位,或者启动子不是可操作连接的多核苷酸的天然启动子。如本文使用的,嵌合基因包括与编码序列异源的转录起始区可操作连接的编码序列。终止区对于转录起始区可以是天然的,对于可操作连接的关注DNA序列可以是天然的,对于宿主可以是天然的,或者可以衍生自另一来源(即,外来的或异源的)对启动子、 关注的DNA序列、植物宿主或其任意组合。用于植物的适宜终止区可获自农杆菌的Ti质粒,例如章鱼氨酸合酶和胭脂氨酸合酶终止区。还参见Guerineau等(1991)Mol. Gen. Gen et. 262 :141-144 ;Proudfoot(1991)Cell64 :671-674 ;Sanfacon ^ (1991)Gen es Dev. 5 141-149;Mogen 等(1990)Plant Cell 2 :1261-1272;Munroe 等(1990)Gene 91 :151-158 ; Ballas 等(1989)Nucleic Acids Res. 17 :7891-7903 ;和 Joshi 等(1987)Nucleic Acids Res. 15 :9627-9639。适当时,多核苷酸可以被优化以增加在转化生物中的表达。即,多核苷酸可以使用宿主偏好的密码子来合成以提高表达。参见例如Campbel 1和Gowri (1990) Plant Physiol. 92 :1-11,关于宿主偏好密码子使用的讨论。用于合成宿主偏好基因、特别是植物偏好基因的方法是本领域可获得的。参见例如美国专利号5,380,831和5,436,391,和 Murray 等(1989)Nucleic Acids Res. 17 :477_498,在此通过引用并入。已知其他氨基酸修饰增强在细胞宿主中的基因表达。这些包括编码假聚腺苷酸化信号、外显子-内含子剪接位点信号、转座子样重复序列和其他此类完全鉴定序列的序列的消除不利于基因表达。序列的G-C含量可以被调节至给定细胞宿主的平均水平,参考在宿主细胞中表达的已知基因来计算。当可能时,序列被修饰以避免预测的发夹结构二级 mRNA结构。表达盒还可以含有5'前导序列。此类前导序列可以作用以增强翻译。翻译前导序列是本领域已知的并且包括小RNA病毒前导序列,例如EMCV前导序列(脑心肌炎 5 ‘非编码区)(Elroy-Mein 等(1989)Proc. Natl. Acad. ki. USA 86 :6126-6130);马铃薯Y病毒组前导序列,例如TEV前导序列(烟草蚀刻病毒)(foillie等(1995)Genel65(2) 233-238)、MDMV前导序列(玉米矮花叶病毒)(VirologylM 9-20)和人免疫球蛋白重链结合蛋白(BiP) (Macejak等(1991)Nature 353 :90-94);来自苜蓿花叶病毒外壳蛋白mRNA的未翻译的前导序列(AMV RNA 4) (Jobling等(1987)Nature 325:622-625);烟草花叶病毒前导序列(TMV) (Gallie等(1989) ,Molecular Biology of RNA,ed. Cech (Liss,New York), pp. 237-256);和玉米萎黄病毒前导序列(MCMV) (Lommel 等(1991) Virology 81 :382-385)。 还参见 Della-Cioppa 等(1987)Plant Physiol. 84 :965_968。在制备表达盒时,各种DNA片段可以被操纵,以提供适当方向并且适当时在正确阅读框内的DNA序列。为此目的,适体或连接体可以被用来连接DNA片段,或者其他操纵可以被包括以提供适宜的限制位点、去除多余DNA、去除限制位点等。为此目的,体外诱变、引物修复、限制、退火、再取代例如转换和颠换可以被包括。许多启动子可用于实施本发明。启动子可以根据关注的宿主和预期结果来选择。核酸可以与组成型、组织偏好的或用于在植物中表达的其他启动子组合。此类组成型启动子包括例如核心CaMV 35S启动子(Odell等(1985)Nature 313:810-812);水稻肌动蛋白(McElroy 等(1990)Plant Cell 2:163-171);遍在蛋白(Christensen 等(1989) PlantMol. Biol. 12 :619-632 和 Christensen 等(1992)Plant Mol. Biol. 18 :675-689); pEMU(Last 等(1991)Theor. Appl. Gen et. 81 :581-588) ;MAS(Velten 等(1984)EMB0 J. 3 2723-2730) ;ALS启动子(美国专利号5,659,026)等。其他组成型启动子包括例如美国专利号 5,608,149 ;5,608,144 ;5,604,121 ;5,569,597 ;5,466,785 ;5,399,680 ;5,268,463 ; 5,608,142 ;和 6,177,611。组织偏好启动子可用于旨在特定宿主组织中增强的表达。用于植物的此类组织偏好启动子包括但不限于叶偏好启动子、根偏好启动子、种子偏好启动子和茎偏好启动子。组织偏好启动子包括 Yamamoto 等(1997)Plant J. 12(2) :255-265 ;Kawamata 等 (1997)Plant Cell Physiol. 38(7) :792-803 ;Hansen ^ (1997)Mol. Gen Gen et.254(3) 337-343 ;Russell 等(1997)Transgenic Res. 6(2) :157-168 ;Rinehart 等(1996)Plant Physiol. 112 (3) :1331-1341 ;Van Camp 等(1996)Plant Physiol. 112(2) :525-535; Canevascini 等(1996)Plant Physiol. 112(2) :513-524 ;Yamamoto 等(1994)Plant Cell Physiol.35(5) :773-778 ;Lam(1994)Results Probl. Cell Differ. 20 :181-196 ;Orozco 等(1993)Plant Mol Biol. 23(6) :1129-1138 ;Matsuoka ^ (1993)Proc Natl. Acad. Sci· USA90 (20) :9586-9590 ;和 Guevara-Garcia 等(1993) Plant J. 4(3) :495_505。如果必要, 此类启动子可以被修饰以减弱表达。一般,从可诱导启动子、特别是从病原体诱导启动子表达基因将是有益的。此类启动子包括来自可以在被病原体感染后被诱导的致病相关蛋白O3R蛋白)的那些,例如ra蛋白、SAR蛋白、β-1,3-葡聚糖酶、几丁质酶等。参见例如Redolfi等(1983)Neth. J. PlantPathol. 89 :245-254 ;Uknes 等(1992)Plant Cell 4 :645-656 ;和 Van Loon(1985)Plant Mol.Virol.4 :111-116。还参见WO 99/43819,在此通过引用并入。关注的是位置在病原体感染部位或附近表达的启动子。参见例如Marineau 等(1987)Plant Mol. Biol. 9 :335-342 ;Matton 等(1989)Molecular Plant-Microbe Interactions 2 :325-331 ;Somsisch 等(1986)Proc. Natl. Acad. Sci. USA 83 :2427-2430 ; Somsisch 等(1988)Mol. Gen. Gen et. 2 :93-98 ;和 Yang (1996) Proc. Natl. Acad. ki. USA93 14972-14977。还参见 Chen 等(1996)Plant J. 10 :955-966 ;Zhang 等(1994)Proc. Natl. Acad. Sci. USA 91 :2507-2511 ;Warner 等(1993)Plant J. 3 :191-201 ;Siebertz 等(1989) Plant Cell 1 :961-968 ;美国专利号5,750,386 (线虫可诱导的);和其中引用的参考文献。 特别关注的是玉米PRms基因的可诱导启动子,玉米PRms基因的表达由病原体串珠镰刀菌 (Fusarium moniliforme)诱导(参见例如 Cordero 等(1992) Physiol. Mol. Plant Path. 41 189-200)。化学调节的启动子可用于调节基因在植物中的表达,通过应用外源化学调节剂。 根据对象,启动子可以是化学诱导启动子(其中化学物的应用诱导基因表达)或化学阻遏启动子(其中化学物的应用阻遏基因表达)。化学诱导启动子是本领域已知的并且包括但不限于通过苯磺酰胺除草剂安全剂激活的玉米In2-2启动子、通过用作出现前除草剂的疏水亲电化合物激活的玉米GST启动子、和通过水杨酸激活的烟草PR-Ia启动子。其他关注的化学调控启动子包括类固醇应答性启动子(参见例如糖皮质激素诱导启动子khena等 (1991)Proc. Natl. Acad. Sci. USA 88 10421-10425 和 McNellis 等(1998)Plant J. 14(2) 247-257)和四环素诱导和四环素阻遏启动子(参见例如Gatz等(1991)Mol. Gen. Gen et. 227 :229-237,和美国专利号5,814,618和5,789,156),在此通过引用并入。表达盒还可以包含用于选择转化细胞的选择性标记基因。选择性标记基因用于选择转化的细胞或组织。标记基因包括编码抗生素抗性的基因,例如编码新霉素磷酸转移酶II(NEO)和潮霉素磷酸转移酶(HPT)的那些,以及赋予对除草化合物例如草胺磷、溴苯腈、咪唑啉酮和2,4_ 二氯苯氧基醋酸酯Q,4-D)抗性的基因。其他选择性标记包括表型标记,例如β-半乳糖苷酶和荧光蛋白例如绿色荧光蛋白(GFP) (Su等Q004) Biotechnol Bioeng 85 :610-9 和 Fetter 等 Q004)Plant Celll6 :215-28)、青色荧光蛋白(CYP)(Bolte 等(2004)J. Cell Sciencell7 :943-54 和 Kato 等(2002)Plant Physiol 129 :913-42)、和黄色荧光蛋白(来自 Evrogen 的 PhiYFP ,参见 Bolte 等 Q004)J. Cell Sciencell7 :943-54)。关于其他选择性标记,大体参见 Yarranton(1992)Curr. Opin. Biotech. 3 :506-511 ;Christopherson等(199 Proc. Natl. Acad. Sci. USA 89 :6314-6318 ; Yao 等(1992)Cell 71:63-72 ;Reznikoff(1992)Mol. Microbiol. 6 :2419-2422 ;Barkley 等 (1980),The Operon,pp. 177-220 ;Hu 等(1987)Cell 48 :555-566 ;Brown等(1987)Cell49 603-612 ;Figge 等(1988)Cell 52 :713-722 ;Deuschle 等(1989)Proc. Natl. Acad. Aci. USA 86 :5400-5404 ;Fuerst 等(1989) Proc. Natl. Acad. ki. USA 86 :2549-2553 ;Deuschle 等 (1990)Scien ce 248 :480-483 ;Gossen (1993)Ph. D. Thesis, University of Heidelberg ; Reines 等(1993)Proc. Natl. Acad. ki. USA 90 :1917-1921 ;Labow 等(1990)Mol. Cell. Biol. 10 :3343-3356 ;Zambretti 等(1992) Proc. Natl. Acad. Sci. USA89 :3952-3956 ;Baim 等(1991)Proc. Natl. Acad. ki. USA 88 :5072-5076 ;Wyborski 等(1991) Nucleic AcidsRes. 19 :4647-4653 ;Hillenand-Wissman(1989)Topics Mol. Struc. Biol. 10 :143-162 ; Degenkolb 等(1991)Antimicrob. Agents Chemotheer. 35:1591-1595 ;Kleinschnidt 等(1988)Biochemistry 27 :1094-1104 ;Bonin (1993)Ph.D.Thesis, University of Heidelberg ;Gossen 等(1992)Proc. Natl. Acad. Sci.USA 89 :5547-5551 ;Oliva 等 (1992)Antimicrob. Agents Chemother. 36 :913-919 ;Hlavka φ (1985)Handbook of ExperimentalPharmacology, Vol. 78(Springer-Verlag, Berlin) ;Gill 等(1988)Nature 334:721-724。此类公开在此通过引用并入。上述选择性标记基因列表不意味着是限制性的。任何选择性标记基因可用于本发明。许多植物转化载体和用于转化植物的方法是可获得的。参见例如An,G.等 (1986)Plant Pysiol. ,81 :301-305 ;Fry, J.,等(1987)Plant CellRep. 6 :321-325 ; Block, Μ. (1988)Theor. Appl Genet. 76 :767-774 ;Hinchee,等(1990) Madler. Genet. Symp. 203212. 203-212 ;Cousins,等(1991)Aust. J. Plant Physiol. 18 :481-494 ;Chee, P. P. and Slightom, J. L. (1992)Gene. 118 :255-260 ;Christou,等(1992)Trends. Biotechnol. 10 :239-246 ;D ' Halluin,等(1992)Bio/Technol. 10 :309-314 ;Dhir, 等(1992)Plant Physiol. 99 :81-88 ;Casas 等(1993)Proc. Nat. Acad Sci. USA 90: 11212-11216 ;Christou, P. (1993)In Vitro Cell. Dev. Biol. -Plant ;29P :119-124 ; Davies,等(1993)Plant Cell Rep. 12 :180-183 ;Dong, J.A. and Mchughen, A. (1993) Plant Sci. 91 :139-148 ;Franklin, C. I. and Trieu, T. N. (1993) Plant. Physiol. 102 :167 ; Golovkin,等(1993)Plant Sci. 90 :41-52 ;Guo Chin Sci.Bull. 38 :2072-2078;Asano,等 (1994)Plant Cell Rep. 13 ;Ayeres N. Μ. and Park, W. D. (1994) Crit. Rev. Plant. Sci. 13 219-239 ;Barcelo,等(1994)Plant. J. 5:583-592 ;Becker,等(1994)Plant. J. 5:299-307 ; Borkowska 等(1994)Acta. Physiol Plant. 16 :225-230 ;Christou, P. (1994)Agro. Food. Ind. HiTech. 5 :17-27 ;Eapen 等(1994)Plant Cell Rep. 13 :582-586 ;Hartman,等(1994) Bio-Technology 12 :919923 ;Ritala,等(1994)Plant. Mol. Biol. 24:317-325 ;和 Wan, Y.C.and Lemaux, P.G. (1994)PlantPhysiol. 104 :3748。本发明方法包括将包含DNA序列的多核苷酸构建体引入宿主细胞。“引入”是要以使得构建体进入宿主细胞内部的方式给植物提供多核苷酸构建体。本发明方法不依赖于将多核苷酸构建体引入宿主细胞的特定方法,只要多核苷酸构建体进入宿主的一个细胞内部。用于将多核苷酸构建体引入细菌、植物、真菌和动物的方法是本领域已知的,包括但不限于稳定转化方法、瞬时转化方法和病毒介导的方法。“稳定转化”预期被引入植物的多核苷酸构建体整合入宿主基因组并能够由其后代遗传。“瞬时转化”预期被引入宿主的多核苷酸构建体不整合入宿主的基因组。对于植物和植物细胞的转化,本发明DNA序列使用标准技术插入本领域已知的适合在关注的宿主细胞或生物中表达DNA序列的任何载体。载体的选择取决于优选的转化技术和要转化的靶宿主物种。用于构建表达盒和将外来核酸引入植物的方法是本领域公知的,并且已经在之前描述。例如,外来DNA可以使用肿瘤诱导(Ti)质粒载体被引入植物。用于外来DNA递送的其他方法包括使用PEG介导的原生质体转化、电穿孔、显微注射须晶(microinjectionwhiskers)和用于直接DNA摄取的生物弹道术或微粒轰击。此类方法是本领域已知的(Vasil 等的美国专利号 5,405,765 ;Bilang 等(1991)Gene 100 :247-250 ;Scheid 等,(1991)Mol. Gen. Genet. ,228 :104-112 ;Guerche 等,(1987)Plant Science 52: 111-116 ;Neuhause 等,(1987)Theor. ApplGen et. 75 :30-36 ;Klein 等,(1987)Nature 327 :70-73 ;Howell 等,(1980)Scien ce 208 1265 ;Horsch 等,(1985)Scien ce 227 1229-1231 ;DeBlock 等,(1989)Plant Physiology 91 :694-701 ;Methods for Plant MolecularBiology (Weissbach and ffeissbach, eds. ) Academic Press, Inc. (1988)以及 Methods in Plant Molecular Biology(Schuler and Zielinski, eds. )Academic Press, Inc. (1989)。转化方法取决于待转化的植物细胞、使用的载体稳定性、基因产物的表达水平和其他参数。本发明DNA序列可以通过使植物与病毒或病毒核酸接触而被引入植物。一般而言,此类方法包括将本发明多核苷酸构建体整合入病毒DNA或RNA分子。要理解,本发明蛋白可以最初作为病毒多蛋白的一部分而合成,它稍后可以通过在体内或体外蛋白水解来加工以产生所需的重组蛋白。而且,要理解,本发明启动子还涵盖用于由病毒RNA聚合酶转录的启动子。用于将多核苷酸构建体引入植物并在其中表达所编码蛋白的方法涉及病毒DNA或RNA分子,在本领域中是已知的。参见例如美国专利号5,889,191,5,889,190, 5,866,785,5,589,367 和 5,316,931 ;在此通过引用并入。在具体实施方案中,本发明DNA序列可以使用许多瞬时转化方法被提供给植物。 此类瞬时转化方法包括但不限于将蛋白或变体和其片段直接引入植物,或者将编码蛋白的转录物引入植物。此类方法包括例如显微注射或粒子轰击。参见例如Crossway等(1986) Mol Gen. Gen et. 202 :179-185 ;Nomura 等(1986)Plant Sci. 44 :53-58 ;Hepler 等(1994) Proc. Natl. Acad. ki. 91 :2176-2180 和 Hush等(1994) TheJournal of Cell Science 107 775-784,其全部在此通过引用并入。可选地,多核苷酸可以使用本领域已知的技术被瞬时转染入植物。此类技术包括下文所描述的根癌农杆菌介导的瞬时表达。已经被转化的细胞可以根据常规方式培养成植物。参见例如McCormick等(1986) Plant Cell Reports 5 :81_84。这些植物然后被培养并与相同转化株或不同株授粉,鉴定组成型表达预期表型特征的得到的杂交体。两代或更多代可以被培养以保证预期表型特征的表达被稳定维持并遗传,然后收获种子以保证已经实现了预期表型特征的表达。以这种方式,本发明提供了具有稳定整合入其基因组的本发明多核苷酸构建体、例如本发明表达盒的转化的种子(还称为“转基因种子”)。本发明可用于转化任何植物物种,包括但不限于单子叶植物和双子叶植物。特别关注的植物包括但不限于提供关注种子的谷类植物、油种子植物、豆科植物和拟南芥。关注的种子包括谷类种子,例如玉米、小麦、大麦、稻谷、高粱、黑麦等。油种子植物包括棉花、黄豆、红花、向日葵、芸苔、玉米、苜蓿、棕榈、椰子等。豆科植物包括豆类和豌豆。大豆包括瓜尔豆、槐豆、胡芦巴、黄豆、四季豆、豇豆、绿豆、利马豆、蚕豆、扁豆、鹰嘴豆等。本文使用的术语植物包括植物细胞、植物原生质体、可以再生植物的植物细胞组织培养物、植物愈伤组织、植物丛和在植物或植物部分中完整的植物细胞,所述植物部分例如胚、花粉、胚珠、种子、叶、花、枝、果实、根、根尖、花粉囊等。再生植物的后代、变体和突变体也包括在本发明范围内,条件是这些部分包含引入的多核苷酸。
本发明还涵盖将本发明DNA序列引入非植物宿主细胞,包括但不限于细菌细胞、 酵母细胞、其他真菌细胞、人细胞和其他动物细胞。此外,本发明涵盖通过稳定和瞬时转化方法将DNA序列引入动物和其他生物。如本文讨论的,本发明DNA序列可以在这些真核系统中表达。异源多核苷酸在酵母中的合成是公知的(Sherman等(1982)Methodsin Yeast Genetics,Cold Spring Harbor Laboratory)。用于产生真核蛋白的两种普遍采用的酵母是酿酒酵母和毕赤酵母。用于在酿酒酵母和毕赤酵母中表达的载体、品系和方案是本领域已知的并且可获自商业供应商(例如hvitrogen)。适合的载体通常具有表达控制序列,例如启动子,包括3-磷酸甘油酸激酶或醇氧化酶,和所需的复制起点、终止序列等。本发明序列还可以连接至各种表达载体,用于转染哺乳动物或昆虫起源的细胞培养物。用于产生肽的示例性细胞培养物是哺乳动物细胞。能够表达完整蛋白的许多适合的宿主细胞系已经在本领域开发,并且包括HEK293、BHK21和CHO细胞系。这些细胞的表达载体可以包括表达控制序列,例如复制起点、启动子(例如,CMV启动子、HSV tk启动子或 Pgk (磷酸甘油酸酯激酶)启动子)、增强子(Queen等(1986) Immunol. Rev. 89 :49)和必要的加工信息位点,例如核糖体结合位点、RNA剪接位点、聚腺苷酸化位点(例如SV40大T Ag poly A添加位点)和转录终止子序列。用于产生本发明蛋白的其他动物细胞可获自例如美国典型培养物保藏中心。用于在昆虫细胞中表达本发明蛋白的适当载体通常源自SF9杆状病毒。适合的昆虫细胞系包括蚊幼虫、蚕、粘虫、蛾和果蝇细胞系,例如khneider细胞系(参见, Schneider (1987) J. Embyo 1. Exp. Morpho 1. 27 :353-365)。与酵母一样,当采用高等动物或植物宿主细胞时,聚腺苷酸化或转录终止子序列通常被整合入载体。终止子序列的实例是来自牛生长激素基因的聚腺苷酸化序列。还可以包括用于转录物的准确剪接的序列。剪接序列的实例是来自SV40的VP 1内含子(Sprague 等(198;3)J. Virol. 45 :773-781)。此外,在宿主细胞中控制复制的基因序列可以被整合入载体,例如存在于牛乳头瘤病毒型载体中的那些(Saveria-Campo (1985) DNA Cloning Vol. II a Practical Approach, D. Μ. Glover, Ed. ,IRL Press, Arlington, Va. , pp.213-238)。动物和低等真核(例如酵母)宿主细胞对于各种方式的转染处于感受态或被赋予感受态。这些包括磷酸钙沉淀、受体细胞与含有DNA的细菌原生质体的融合、用含有DNA的脂质体处理受体细胞、DEAE糊精、电穿孔、生物弹道术和将DNA直接显微注射入细胞。转染的细胞通过本领域公知的方式培养(Kuchler (1997)BiochemicalMethods in Cell Culture and Virology, Dowden, Hutchinson and Ross,Inc.)。原核生物最常由大肠杆菌的各种菌株代表;但是其他微生物菌株也可用于本发明方法。在本文确定包括用于转录起始的与操作子以及核糖体结合序列可操作连接的启动子的常用原核生物控制序列包括诸如β内酰胺酶(青霉素酶)和乳糖(Iac)启动子系统的常用启动子(Goeddel 等(1980)Nucleic Acids Res. 8 :4057)和 λ 衍生 P L 启动子和 N-基因核糖体结合位点(Shimatake等(1981)Nature 292 :1 )。在大肠杆菌中转染的DNA载体中加入选择标记也是有用的。此类标记的实例包括赋予对氨苄西林、四环素或氯霉素抗性的基因。载体被选择允许引入适当的宿主细胞。细菌载体通常是质粒或噬菌体起源的。适当的细菌细胞用噬菌体载体粒子感染,或者用裸噬菌体载体DNA转染。如果使用质粒载体,细菌细胞用质粒载体DNA转染。用于表达本发明蛋白的表达系统可使用芽孢杆菌 (Bacillus sp.)和沙门氏菌(Salmonella)获得(Palva 等(1983)Gene 22:229-235); Mosbach 等(1983)Nature 302 :543-545)。就融合蛋白而言,“可操作连接”预期表示两个或多个元件或结构域之间的功能性连接。认为一个或多个氨基酸的连接体可以插入两个或多个元件的每一个之间以保持两个或多个元件的预期功能。在本发明的一个实施方案中,融合蛋白包含可操作连接至至少一个蛋白或其部分或结构域的本发明的重复序列结构域。在本发明的某些实施方案中,蛋白或其部分或结构域包括能够修饰DNA或RNA的蛋白或其功能部分或结构域。在其他实施方案中,蛋白或其功能部分或结构域能够起转录激活子或转录阻遏物的功能。优选的蛋白包括但不限于转录激活子、转录阻遏物、抗性介导蛋白、核酸酶、拓扑异构酶、连接酶、整合酶、重组酶、解离酶、 甲基化酶、乙酰基转移酶、去甲基化酶和脱乙酰酶。提供以下实施例,作为示例说明而非限制。
实施例实施例1:TAL效应子的DNA特异性基础的鉴定AvrBs3直接结合诱导靶基因中启动子元件UPA-框(Kay等ce 318, 648-651 ;Riimer等(2007) Scien ce 318 =645-648)的事实促使我们考察DNA序列特异性的基础。每个重复序列区一般由34个氨基酸组成,并且重链重复序列单元几乎是相同的; 然而,氨基酸 12 和 13 是高变的(Schornack 等(2006) J. Plant Physiol. 163 :256-272 ;图 1A)。AvrBs3的大部分C端重复序列仅在其前20个氨基酸显示与其他重复序列单元的序列相似性,并因此被称为半个重复序列。重复序列单元可以根据其高变的第12和13氨基酸被分类成不同的重复序列类型(图1B)。因为UPA-框的大小(18(20)/19(21)bp)几乎对应于AvrBs3中重复序列单元的数目(17. 5),我们考虑了 AvrBs3的一个重复序列单元与一个特定DNA碱基对接触的可能性。当AvrBs3的重复序列类型(每个重复序列的氨基酸 12和13)被投射到UPA框中时,变得明显的是,某些重复序列类型与靶DNA中特定碱基对相关。例如,HD和NI重复序列单元分别对C和A具有强的偏好(图1B)。为了简单,我们仅指定上(有义)DNA链中的碱基。我们的识别特异性模型得到如下事实的支持缺乏四个重复序列单元(Δ 11-14 ;图5Α,B)的AvrBs3重复序列缺失衍生物AvrBs3 Δ r印16识别较短且不同的靶DNA序列(图5至8)。基于AvrBs3-诱导的辣椒基因的UPA-框的序列比较和突变分析,AvrBs3的靶DNA框显示比AvrBs3中重复序列单元数目长lbp。此外,T在刚好在第一重复序列的预测的识别特异性之前的UPA框的5'端是保守的(图1)。有趣的是, 在第一重复序列之前的蛋白区和重复区的二级结构预测显示相似性,尽管缺乏氨基酸序列保守。这表明其他重复序列,称为重复序列0(图1B)。为了进一步证实和扩展我们的模型(图1B),我们根据其重复序列单元序列预测了黄单胞菌属TAL效应子的未知的靶DNA序列,并且检查了已知TAL靶基因及其等位基因的启动子中推定结合位点的存在。我们鉴定了符合响应于相应TAL效应子而被诱导的等位基因的启动子中预测的特异性的序列,但没有在非诱导的等位基因中(图5C-F)。这些框的存在表明,诱导基因是相应的TAL效应子的直接靶。基于靶DNA序列中不同重复序列类型的DNA碱基频率,使用八个TAL效应子,我们推导了某些重复序列类型的DNA靶特异性的代码(图1C,D;图5)。为了实验验证我们的模型,我们预测了来自十字花科病原体野油菜黄单胞菌假辣根病菌的TAL效应子Hax2(21. 5重复序列单元)、Hax3(ll. 5重复序列单元)和Hax4(14. 5 重复序列单元)的靶DNA序列02)。首先,我们得到Hax3和Hax4的靶DNA框,因为它们唯独含有AvrBs3中存在的重复序列类型(氨基酸12/13 :NI,HD,NG,NS ;图1A,图2A),其DNA 结合和基因激活已经被实验显示。Hax3和Hax4靶框被放在最小(-55至+2 番茄Bs4启动子之前,其具有很弱的基础活性(Schornack 等 ^00 Mol. Plant-Microbe Interact. 18 1215-1225 ;图2B ;图9),驱动无启动子的uidA( β -葡糖醛酸酶,⑶S)报告基因。为了瞬时表达研究,我们使用农杆菌介导的T-DNA递送将报告构建体与花椰菜花叶病毒35S-启动子驱动的效应子基因hax3和hax4 —起转染入本塞姆氏烟草叶。定性和定量⑶S分析说明, 含有Hax3-或Hax4-框的启动子在相应效应子存在下被有利且特异性地诱导(图2C)。同样,我们提出了在预测的Hax3的靶DNA序列中的第一核苷酸(T)的重要性,并产生了在5' 端具有A、C、G或T的四个不同Hax3-框(图10A,B)。本塞姆氏烟草中hax3和报告构建体的共表达说明,仅仅含有5 ‘ T的Hax3-框的启动子在Hax3存在下被强诱导,而其他导致较弱的激活(图10C)。这表明,位置O促进了 Hax3和可能其他TAL效应子的启动子激活特异性。为了解一些重复序列类型赋予更宽特异性,即识别超过一个碱基的可能性,我们重排列 Hax4-框(图3A,B)。瞬时GUS分析显示,Hax4中的Ni-、HD-和NG-重复序列单元分别非常帮助识别碱基A、C和T,而NS-重复序列单元识别所有四个碱基(图;3B ;图11)。因为几个TAL效应子含有NN-重复序列单元(图5和图15,表1),我们产生了具有NN-重复序列单元的人工TAL效应子ArtXl,并且使用我们的代码推导了相应的DNA识别序列(图3C)。 ArtXl-框衍生物的分析说明,NN-重复序列单元识别A和G两者,偏好G(图3C)。该结果证实我们对在对应于NN-重复序列单元的位置含有A或G的稻谷中天然AvrXa27-框的预测(图5C)。此外,我们推导了在AvrXa40中对应于NN-重复序列单元的位置具有A或G的两个可能的AvrXalO-框。两个报告构建体被AvrXalO有效诱导(图12)。总之,这些数据强烈表明,一些重复序列类型识别特定的碱基对,而其他更灵活。例外的TAL效应子是Hax2,因为它每个重复序列含有35个氨基酸,而不是通常的 34 个氨基酸的重复序列单元(Kay 等 Q005)Mol. Plant-Microbe Interact. 18 :838-848)。 此外,Hax2在其第二重复序列中含有稀有氨基酸组合(氨基酸12/13 =IG ;图2A)。我们改变Hax2-框的相应的第三个碱基,并且使用瞬时测定来分析效应子Hax2对报告基因的激活。这显示,IG重复序列赋予对T的特异性(图13)。Hax2-框仅导致启动子被Hax2激活, 而不被Hax3或Hax4激活(图2C)。这说明,35个氨基酸的重复序列单元作用类似于34个氨基酸的重复序列单元。这得到如下事实的支持含有35个氨基酸的重复序列单元的TAL 效应子 AvrHahl 诱导 Bs3-介导的抗性(Schornack 等 Q008)NewPhytol. 179 :546-556)。 AvrHahl的重复序列类型与Bs3启动子中的UPA-框匹配(图5A,B)。有趣的是,hax2在拟南芥中的表达导致紫色的叶,表明花色素苷的累积(图14A, B)。为了鉴定Hax2靶基因,我们使用模式检索(Patmatch,TAIR;www. arabidopsis. org)用变性的Hax2-框序列分析了拟南芥基因组的启动子区。推定的Hax2靶基因之一编码控制花色素苷生物合成的 MYB 转录因子 PAPl(AtlG56650) (Borevitz 等 Q000)Plant Cell 12 2383-2394)。PAPl的转录水平的半定量分析说明,PAPl的表达受Hax2的强诱导(图14C)。 PAPl启动子区的视觉检查揭示了次佳Hax2-框的存在(图14D,E)。基于TAL效应子重复序列类型的代码(图1D)和上述数据,我们预测了其他TAL效应子的推定靶DNA序列,其中一些TAL效应子是重要的致病因子(图15,表1)。因为TAL效应子的重复序列数目范围从1. 5至28. 5,关键问题是具有少数重复序列单元的效应子是否能够激活基因表达。因此,我们测试了重复序列单元的数目如何影响基因表达。为此,我们构建了含有Hax3的N-和C-端区和具有0. 5至15. 5HD-重复序列单元(对C特异性)的重复序列结构域的人工效应子。出于技术原因,所有情况下的第一重复序列是NI (对A特异性)。相应的靶DNA框由之前是TA的17C-残基组成(图4A,B)。使用Bs4-启动子GUS-分析在本塞姆氏烟草中测量人工效应子对启动子的激活。虽然基因诱导需要至少6. 5个重复序列单元,但10. 5或更多重复序列单元导致强的报告基因激活(图 4C)。这些数据说明,重复序列单元的最小数目是识别人工靶DNA-框和激活基因表达所必需的。结果还表明,具有更少重复序列数的效应子大大无活性。我们已经显示,TAL效应子的重复序列区具有对应于连续靶DNA序列的连续性质。因此,产生具有新型DNA结合特异性的效应子是可行的。产生了三个人工效应子(ArtXl,ArtX2,ArtX!3),每个具有随机装配的12. 5个重复序列单元(图3C,D),并测试了含有预测的靶DNA序列的Bs4启动子-报告子融合体的诱导。所有三个人工效应子仅在相应的靶DNA-框存在下强力且特异性地诱导了 GUS报告子(图3E ;图11)。我们关于其中重复序列单元经由每个重复序列的氨基酸12 和13接触DNA中一个碱基对的TAL效应子的识别特异性的模型实现了预测TAL效应子结合特异性和鉴定植物靶基因。由于TAL效应子是主要的致病因子,植物靶基因的知识将大大增强我们对黄胞杆菌引起的植物疾病发展的理解。此外,我们成功设计了具有特异性DNA 结合结构域的用作转录因子的人工效应子。之前,含有随机排列的锌指单元的锌指转录因子已经被工程改造以结合特定的靶DNA序列。类似地,TAL效应子具有可以容易被重排的线性DNA结合特异性。我们注意到, TAL效应子中重复区的假定的右手超螺旋结构直接表明与遗传材料的右手螺旋相互作用的可能机制。确定与靶DNA复合的TAL效应子的新型DNA结合结构域的结构将是重要的。以下参数描述了本发明的其他实施方案(1)天然存在的AvrBs3同源蛋白的DNA结合特异性的预测和抗性植物的产生AvrBs3家族的天然存在的效应子的重复序列结构域的重复序列单元编码相应的 DNA结合特异性。这些识别序列可以用识别代码预测。如果相应的AvrBs3样效应子被转位入植物细胞(例如在细菌感染期间),在转基因植物的基因之前人工插入预测的识别序列导致基因表达。如果识别序列在其表达导致防御反应的基因(例如抗性介导基因)之前插入,这种构建的转基因植物对转位相应效应子的植物致病细菌的感染是抗性的。⑵其表达由AvrBs3家族的特定效应子诱导的植物基因的鉴定植物基因启动子区中AvrBs3家族的相应效应子的DNA靶序列的预测指示这些基因的表达可由效应子诱导。使用根据本发明的方法,可能预测可诱导的植物基因。预测在测序基因组中是特别直接的。
C3)其他效应子在表达系统中作为转录激活子的用途类似于Hax3和Hax4的用途,AvrBs3家族其他成员的预测的DNA结合序列可以被插入启动子以产生可被相应效应子诱导的新的可控启动子。第二可诱导系统的构建两个构建体被引入植物。第一个是其表达在可诱导启动子控制下的hax3基因。第二个是在启动子中含有Hax3_框的靶基因。hax3的表达的诱导导致Hax3蛋白的产生,然后 Hax3蛋白诱导靶基因的表达。所描述的二组分构建导致两倍表达开关,允许靶基因的可变表达。反式激活子和靶基因还可以首先存在于不同植物系,并可以随意渐渗。与此类似,可以使用Hax4和相应的Hax4-框。该系统还可以用于AvrBs3家族其他成员或人工衍生物和预测的DNA靶序列。系统功能性可已经被证实。构建了转基因拟南芥植物,含有在其天然启动子控制下的可诱导的avrBs3基因以及Bs3基因,其表达可以由AvrBs3诱导。avrBs3 表达的诱导导致Bs3的表达并因此导致细胞死亡。参见WO 2009/042753,在此通过引用并入。(5)疾病抗性植物的构建如果AvrBs3类似效应子的DNA靶序列在其表达导致植物防御反应的基因(抗性介导基因)之前插入,相应的构建的转基因植物将对植物致病生物的感染抗性,这使得该效应子是可用的。这种抗性介导基因可以例如导致预防生物/病原体扩散的局部细胞死亡,或诱导植物细胞的基础或系统抗性。(6)用于检测特定DNA序列和诱导下述基因转录的重复序列结构域的产生中央重复序列结构域的模块式结构能够实现确定的DNA结合特异性的靶向构建, 借此实现选定植物基因转录的诱导。DNA结合特异性可以在靶基因之前人工插入,使得产生新型效应子-DNA-框变体以可诱导表达靶基因。而且,可以构建识别生物中天然存在的DNA 序列的重复序列结构域。该方法的优点在于,如果本发明的相应效应子存在于该生物的细胞中,则非转基因生物中任何基因的表达可以被诱导。效应子的引入可以不同方式进行(1)经由细菌使用蛋白运输系统(例如III型分泌系统)转移;(2)使用人工AvrBs3蛋白的细胞轰击;(3)导致效应子产生的DNA区段经由渐渗、农杆菌、病毒载体或细胞轰击的转移; 或(4)导致效应子蛋白被靶细胞摄取的其他方法AvrBs3家族的效应子的中央重复序列结构域是新型的DNA结合结构域(Kay等, 2007)。目前,单个重复序列单元的特异性的译码允许该区域DNA结合特异性的靶向适应。 DNA结合区可以被翻译融合至其他功能结构域以产生序列特异性效应。下文给出了此类蛋白融合体的四个实例。(7)活生物细胞中基因的可诱导表达的转录激活子的构建AvrBs3样家族的效应子诱导植物细胞中的基因表达。为此,蛋白C端是必要的,它含有转录激活结构域和介导蛋白进入植物细胞核的核定位序列。AvrBs3同源蛋白的C端可以被修饰,使得它介导基因在真菌、动物或人系统中的表达。由此,可以构建在人、其他动物或真菌中用作转录激活子的效应子。因此,根据本发明的方法可以不但应用于植物,而且应用于其他活生物。(8)作为转录阻遏物的效应子的用途重复序列结构域的DNA结合特异性可以与蛋白融合体中其他结构域一起使用,以构建用作特异性阻遏物的效应子。这些效应子表现出通过使它们结合靶基因的启动子的方式产生的DNA结合特异性。与是转录激活子的TAL效应子相反,这些效应子被构建为阻断靶基因的表达。类似经典阻遏物,预期这些效应子通过其对靶DNA序列的识别或结合而覆盖启动子序列,并使它们难以被其他方式控制靶基因表达的因子所接近。可选地或附加地,重复序列结构域可以融合至转录抑制结构域,例如EAR基序(Ohta等Plant Cell 13: 1959-1968(2001))ο(9)重复序列结构域用于标记和分离特定序列的用途重复序列结构域识别特定靶DNA序列的能力可与其他结构域一起用于标记特定 DNA序列。在C末端,GFP( “绿色荧光蛋白”)可用于例如融合至检测所需DNA序列的人工重复序列结构域。该融合蛋白在体内和体外结合相应的DNA序列。该序列在染色体上的位置可以使用融合的GFP蛋白定位。以类似方式,能够实现蛋白定位(例如通过FISH)的其他蛋白结构域可融合至将蛋白靶向细胞基因组中相应DNA序列的特定人工重复序列结构域。 此外,本发明重复序列结构域的DNA识别特异性可用于分离特定的DNA序列。为此,AvrBs3 样蛋白可固定至基质并与含有匹配序列的相应DNA分子相互作用。因此,特定DNA序列可从DNA分子的混合物分离。(10)重复序列结构域用于内切核酸酶切割DNA的用途重复序列结构域的DNA识别特异性可以融合至适合的限制内切核酸酶以特异性切割DNA。因此,重复序列结构域的序列特异性结合导致融合蛋白定位至几个特定序列,使得内切核酸酶在预期位置特异性切割DNA。通过识别靶DNA序列,非特异性核酸酶例如R)kl 可以被改变为特异性内切核酸酶,类似于用锌指核酸酶进行的工作。例如,两个效应子DNA 靶位点之间的最佳距离将被确定为支持两个i^okl结构域二聚化所需的。这将通过分析其中两个DNA结合位点被不同大小的间隔序列分开的构建体的集合来实现。使用该方法能够确定允许核酸酶介导的DNA切割发生和靶向不同DNA序列的其他效应子核酸酶的功能分析的距离。在可选方法中,采用了新开发的单链i^okl 二聚体(1^110等Q009)J Biotechnol 140 :156-161)。在该方法中,两个R)kl催化结构域被转录融合至本发明的单个重复序列结构域。因此,相应核酸酶的功能性不再依赖于位于两个不同蛋白的两个R)kl结构域的分子间二聚化。该类型的构建体已经成功用于基于锌指的DNA结合基序的环境中。而且,这些方法能够实现在复合DNA分子中仅几个位置的非常特异性的切割。这些方法还可以用于在体内引入双链断裂并在这些位置选择性整合供体DNA。这些方法还可以用于特异性插入转基因。(11)具有定制重复序列顺序的重复序列结构域的构建由于重复序列结构域的个体重复序列单元之间的高度相似性,如上所述的定制 DNA结合多肽的构建可能不是通过涉及传统克隆方法的方法可行的。如在本实施例中详述的,具有符合关注启动子例如Bs4启动子中预期DNA序列的重复序列单元顺序的重复序列结构域(图17B,C)基于本发明的识别代码来确定。特定11. 5重复序列单元顺序的产生使用“金门”克隆来完成(Engler等(2008)PLoS ONE 3 :e3647)。作为结构单元,我们亚克隆了 Hax3的N端和C端以及类似于11. 5重复序列单元的12个体重复序列单元。每个结构单元含有个体侧翼BsaI位点(图18),允许片段有序装配成定制效应多肽。效应子(ARTBs4) 由总共14个片段正确装配成BsaI相容性二元载体,允许定制效应多肽作为N末端标记GFP 融合体在植物细胞中农杆菌介导的表达(图18)。(12)效应子作为病毒阻遏物的用途重复序列结构域的核苷酸结合特异性可用于设计破坏细胞中病毒复制的效应子。 这些效应子将表现出针对病毒复制起点核苷酸序列和对病毒功能重要的其他序列的核苷酸结合特异性。不需要其他蛋白结构域融合至这些重复序列结构域蛋白以阻断病毒功能。 它们通过覆盖复制起点或其他关键序列(包括启动子、增强子、长末端重复序列单元和内部核糖体进入位点),通过结合它们并使它们不为参与病毒复制和功能的宿主或病毒因子 (包括病毒编码的RNA依赖性RNA聚合酶、核衣壳蛋白和整合酶)接近而类似于经典阻遏物起作用。这种策略已经成功用于锌指蛋白6eraQ005)J. Vir. 79 =2614-2619 ;Takenaka等 (2007)Nucl Acids Symposium Series 51:429-430)。总结起来,本发明还涵盖用于本发明任何方法的分离的核酸分子,包含稳定整合入其基因组的异源多核苷酸并且包含优选可操作连接至启动子元件和/或可操作连接至关注基因的上述核苷酸分子的转化植物。转化的植物优选是单子叶植物或双子叶植物。本发明还涵盖转化植物的种子。本发明涵盖用本发明多核苷酸或本发明多肽的任何一个转化的人和非人宿主细胞。与本发明多核苷酸和多肽任何一个组合使用的启动子优选是组织特异性启动子、化学可诱导性启动子和病原体可诱导的启动子。虽然本发明可用于动物和植物系统,但一个优选的人选实施方案涉及植物系统的使用。术语植物包括植物细胞、植物原生质体、可再生植物的植物细胞组织培养物、植物愈伤组织、植物丛和在植物或植物部分中完整的植物细胞,所述植物部分例如胚、花粉、胚珠、 种子、叶、花、枝、果实、根、根尖、花粉囊等。再生植物的后代、变体和突变体也包括在本发明范围内,条件是这些部分包含引入的多核苷酸。材料和方法菌株和生长条件大肠杆菌在溶源性肉汤(LB)中37°C培养,根癌农杆菌GV3101 在添加了适当抗生素的酵母提取肉汤(YEB)中30°C培养。植物材料和接种本塞姆氏烟草植物在温室中生长(日夜温度分别为23°C和 19°C ),16h光照和40至60%湿度。5至7周大的植物的成熟叶被接种农杆菌,使用之前描述的无针注射器(Si)。接种的植物被转移至Percival生长室(Percival Scientific),16h 光照,22°C和18°C夜间温度。人工效应子的构建具有修饰的重复序列区的效应子的构建是基于 Esp3I (Fermentas)限制片段的连接。Esp3I在其识别序列外切割并且通常每个重复序列一次。为了构建用于产生本发明效应子的GATEWAY(Invitrogen)-相容的ENTRY-载体,hax3 的N端和C端通过PCR扩增,使用校阅聚合酶(HotStar HiFidelity Polymerase Kit ; Qiagen),组合SOE (重叠扩展剪接)-PCR,并插入pCR8/GW/T0P0,得到具有1. 5重复序列单元的hax3衍生物(pC3SE^ ;第一重复序列=NI ;后半个重复序列=NG)。在起始密码子之前的Ibp移码通过定点诱变插入,以允许框内N端融合,使用GATEWAY重组(Invitrogen), 得到PC3SEIF。单个重复序列单元从TAL效应子扩增,使用结合大多数重复序列单元的正向引物和重复序列特异性反向引物。两个引物诱导了天然存在的位点。为了避免扩增超过一个重复序列,模板DNA在PCR反应之前用Esp3I消化。PCR产物用Esp3I消化并克隆入Esp3I消化的pC3SE26,产生具有2. 5重复序列单元的Hax3衍生物,其中单个重复序列可用Esp3I切除(HD-重复序列=Hax3的重复序列5 ;NI-重复序列=Hax3的重复序列11 ; NG-重复序列=Hax4的重复序列4 ;NN-重复序列=Hax4的重复序列4的G13N突变体)。 ArtHD效应子骨架构建体由Hax3的N端和C端组成,具有被突变成HD-重复序列的后半个重复序列。得到的构建体被限制酶切并脱去磷酸。编码重复序列单元的DNA片段用Esp3I从含有单个HD-重复序列的pC3SE^5衍生物切除,并经由琼脂糖凝胶纯化。连接使用载体的摩尔过量插入物进行以促进连环体连接,并转化入大肠杆菌。重复序列单元在重组质粒中的数目使用MuI和HincII来测定。具有重复序列类型的随机组合的ArtXl-3 效应子通过从克隆的单个Ni-、HD-、NN-和NG-重复序列单元(分别对A、C、G/A和T特异性)分离编码如上所述重复序列单元的DNA片段而产生。片段各自以等摩尔量加入与载体 PC3SEIF的连环体连接反应。选择含有12. 5重复序列单元的本发明效应子的质粒用于随后分析。通过GATEWAY-重组(Invitrogen)将效应子克隆入pGWB6 (S2)以表达N端GFP-效应子融合体。在请求时可获得寡核苷酸序列。所有构建体被测序。⑶S报告构建体最小Bs4启动子通过PCR扩增并插入在5'端具有靶DNA框的 pENTR/D-TOPO(Invitrogen) (S3 ;图S5)。启动子衍生物被克隆入含有无启动子的uidA基因的 pGWB3(S2)。hax2_转基因拟南芥的构建hax2在来自构巢曲霉(Aspergillusnidulans)的可诱导alcA启动子控制下被克隆入含有35S-驱动的alcR乙醇依赖性调控基因和nptll选择标记的二元 T-DNA 载体 binSRNACatN(Zeneca Agrochemicals)的 GATEWAY-相容的衍生物。AlcR驱动alcA启动子(S4)的乙醇依赖性诱导。含有这些基因的T-DNA经由农杆菌被转化入拟南芥Col-Ο,使用花浸接种(SO。选择转化子为无菌培养基上的卡那霉素抗性植物。人工效应子ARTBs4的构建“金门”克隆(Engler等(2008)PLoS ONE 3 :e3647) 被用于装配具有11. 5特别排序重复序列单元的效应子。Hax3的N端和C端和类似11. 5重复序列单元的12个体重复序列单元被亚克隆。每个结构单元含有个体侧翼BsaI位点,允许片段有序装配成人工效应子。为了靶向装配具有任何所需重复序列组成的效应子,扩增重复序列单元的所有结构单元。为了允许DNA中四个天然碱基(A、C、G和T)任何一个的靶特异性,根据每个重复序列单元的氨基酸12和13选择四个不同的重复序列类型。四个重复序列类型及其特异性为NI = A ;HD = C ;NG = T,NN = G或Α。为了产生普遍适用的装配试剂盒,对应于四个重复序列单元类型的每一个的四个单元用针对12个重复序列位置每一个的侧翼BsaI位点来克隆。48个结构单元的总和类似于文库,可用于装配具有四个重复序列单元类型任意组成的11. 5重复序列单元的效应子。β-葡糖醛酸酶(⑶S)分析关于瞬时⑶S分析,递送效应子构建体的农杆菌株和 ⑶S报告构建体1 1混合,并以0. 8的0D_接种入本塞姆氏烟草叶。两个叶盘(0. 9cm直径)在侵润后(dpi) 2天取样,并如前所述使用4-甲基-伞形酮酰-β -D-葡糖苷酸(MUG)来测定定量GUS活性(Si)。使用Bradford测定(BioRad)定量蛋白。数据对应于来自不同植物的三个重复样品。关于定性⑶S分析,叶片侵润后2天取样,在X-Gluc (5-溴-4-氯-3-吲哚基-β-D-葡糖苷酸)染色溶液(S; )中孵育,乙醇中脱色,并干燥。实验被进行至少两次, 具有相似结果。hax2、hax3和hax4的表达hax2、hax3和hax4在组成型花椰菜花叶病毒35S启动子控制下在植物中表达,使用PAGH2、pAGH3和pAGH4 (S6)。DNA酶I足迹DNA酶I足迹如所述进行(S7),具有下述修改Bs3和Bs3_E 启动子DNA的荧光标记的PCR产物分别使用质粒pCRBluntll-TOPO: :FPBs3 (-211至 +108 的 Bs3 启动子片段)和 pCRBluntlI-TOPO :FPBs3_E (-224 至 +108 的 Bs3_E 启动子片段)作为模板和Phusion DNA聚合酶(Finnzymes)来产生。UPA20-ubm_rl6启动子DNA的荧光标记产物使用质粒pCRBluntll-TOPO FPU20-ubm_r 16 (含有ubm_r 16 突变的-213 to+86的UPA20启动子片段(S7)作为模板和Wiusion DNA聚合酶 (Finnzymes)来产生。质粒 pCRBluntll-TOPO: :FPBs3、pCRBluntll-TOPO: :FPBs3_E 禾口 pCRBluntll-TOPO::FPU20-ubm_rl6 使用 Thermo Sequenase Dye Primer Manual Cycle Sequencing Kit (USB)根据生产商说明来测序。使用内部Gene Scan_500LIZ SizeStandard(Applied Biosystems)来测定 DNA 片段大小。实施例2结合G核苷酸的TAL重复序列单元的鉴定TAL效应子的DNA结合结构域包括随机排列的34氨基酸重复序列单元。重复序列单元的氨基酸序列是大部分保守的,除了确定DNA靶特异性的在位置12和13两个相邻的高度可变残基(HVR) (Boch 等 Q009)kience 326 :1509-1512 ;Moscou&Bogdanove (2009) Science326 1501) 0功能分析鉴定了优先结合A(NI)、C(HD)、T(NG,IG)或相等结合G和 A(NN)的狀1 (80吐等Q009)kience 326 :1509-1512) 生物信息分析揭示了在给定启动子-TAL效应子相互作用中特异性匹配G的HVR(Moscou&Bogdanove Q009)kience 326 1501)。然而,该分析基于单个(HN&NA)或两个(NK)相互作用位点。在我们的观点中,相互作用位点太低以致于不能对HVR特异性产生可靠结果。然而,这些HVR可以被认为是可以介导对G特异性结合的适合候选物。为了澄清具有未知特异性的HVR的靶特异性,我们利用Bs3启动子中AvrBs3和框之间的公认相互作用。使用定点诱变,我们通过NK取代第5和第6重复序列单元中的 HVR Ni,得到AvrBS3-NK5/6。在野生型Bs3启动子中,第5和第6重复序列的NI残基都匹配 A核苷酸。使用定点诱变,我们通过两个C、G和T核苷酸取代Bs3启动子中的两个A核苷酸。野生型Bs3启动子和三个启动子突变体融合至UidA报告基因并通过与野生型AvrBs3 或AVrBS3-NK5/6组合的在本塞姆氏烟草叶中的根癌农杆菌瞬时表达来测试。GUS分析揭示, AvrBs3-NK5/6仅与“GG”Bs3启动子突变体组合时激活⑶S报告子,而AvrBs3仅激活Bs3野生型启动子构建体。我们的分析表明,NK对特异性结合G,并因此提供产生更特异性重复序列阵列以及特异性靶向G富集靶序列的选择。实施例3经由金门克隆产生设计效应子的方法TAL效应子的DNA结合结构域包括随机排列的34氨基酸重复序列单元 (REF)。重复序列单元的氨基酸序列是大部分保守的,除了确定DNA靶特异性的在位置 12和13的两个相邻的高度可变残基(HVR) (Boch等(2009) Science 326 :1509-1512 ; Moscou&Bogdanove (2009) Science 326 :1501)。不同的HVR继续以不同的特异性水平结合个体A、C、G或T核苷酸。重要的是,统计学分析表明,随机排列的重复序列单元不干扰相邻单元的特异性(Moscou&Bogdanove(2009)Science326 :1501)。因此,具有预定特异性的重复序列单元的模块式装配可能提供产生具有预期DNA特异性的DNA识别模块的有效方式。然而,由于事实上重复序列单元是几乎相同的,编码所需重复序列结构域的DNA 构建体的产生是有难度的。过去,我们已经使用化学合成来产生编码具有预期HVR组成的 17. 5重复序列单元的效应基因。为了使重复序列单元在DNA水平上的差异最小化,我们利用了遗传密码的简并性。与相应的TAL效应子野生型基因相反,17. 5重复序列单元编码DNA 序列的密码子优化序列是可PCR扩增的,并且可进行基于PCR的诱变。我们的发现还证明, 效应子重复序列结构域的化学合成一般是可行的。然而,化学合成不允许快速且成本有效地产生具有预期HVR组成的多个效应子。而且,该方法最可能不允许产生具有20或更多重复序列单元的重复序列结构域。最近报道的“金门克隆”提供了产生预期组成的重复序列单元的可选方法。该策略是基于IIS型限制酶的使用,它在其识别序列外切割。我们使用产生4-bp粘性末端的IIS 型酶Bsal。由于识别和切割位点在IIS型酶中是独立的事实,我们原则上可以通过BsaI 限制酶切产生256(44)个不同粘性末端,提供多片段连接的基础。适当设计切割位点,通过IIS型限制酶切割的两个或多个片段可以被连接成缺少最初限制位点的产物(Engler等 (2008)PLoS ONE 3 :e3647 ;Engler 等(2009)PLoS ONE 4 :e5553)。然而在实践中,该方法存在两个限制。由于在一些反应中的外切核酸酶活性,单链突出DNA粘性末端从四个碱基减少到三个碱基,实际上使相容的粘性末端数目仅为16 (24)。 其次,连接反应的效率随插入序列的大数目而急剧下降,插入序列的大数目是产生具有通常存在于天然存在的功能性TAL效应子中的17. 5重复序列单元的效应子所需的。为了克服这些限制,我们设计了两阶段连接过程,该过程允许20、30、40或更多重复序列单元的效应子的有效产生。我们“重复阵列构建试剂盒”的基础是一组“插入质粒”,它含有个体重复序列单元 (每个质粒一个重复序列单元)、含有由10重复序列单元集合组成的重复序列结构域的“中间载体”、和含有TAL效应子的N端和C端非重复序列区的一个“受体载体”。所有重复序列单元以使BsaI限制位点在插入质粒中的插入序列两侧的方式被设计。为了简化多片段连接的扩增,我们用大写字母定义重复序列单元基因的不同末端 (代替粘性末端的序列突出端),并且指明其方向(重复序列单元的N端或C端),N或C在方括号中(例如A[C])。含有第一重复序列单元基因的插入质粒以使BsaI处理产生A[N] 和B[C]末端的方式设计。第二重复序列单元基因在BsaI切割后具有B[N]和C[C]末端, 而具有第三重复序列单元的插入质粒的BsaI切割导致C[N]和D[C]末端,依此类推。因为仅相容末端可以被融合,第一重复序列单元基因的B[C]末端将特异性融合至第二重复序列单元基因的B[N]末端。类似地,第二重复序列单元的C[C]末端将特异性连接至第三重复序列单元基因的C[N]末端,等等。BsaI消化释放具有4_bp粘性突出的重复序列单元,仅与设计的相邻重复序列单元相容。BsaI识别位点本身保留在切割的插入质粒载体中,并且释放的插入序列没有BsaI 识别位点。在切割-连接反应(切割和连接同时进行)中,重复序列单元以突出端规定的顺序连接在一起。由于BsaI和连接酶的同时作用,避免了重复序列单元复制入插入供体载体,因为这恢复BsaI识别位点。相反,预期连接产物缺乏BsaI识别位点。该实验设计使该克隆程序高度有效。为了产生被设计为识别特定碱基序列的效应子,为每个重复序列单元位置制成四个变体。这些变体是具有特定核苷酸识别特异性的个体重复序列单元(例如,用于识别C碱基的位置12和13的HD残基,用于识别A的Ni,等等)。每个位置的变体用针对每个重复序列单元的适当粘性末端制成,例如针对重复序列单元1的A[N]和B[C]末端,使得存在针对重复序列单元1的四个可能的插入质粒,基于所需的DNA识别来选择。对于重复序列单元2有四个变体,对于每个重复序列位置具有不同的核苷酸识别特异性和B[N]和C[C]末
顺J寸寸ο连接分两个阶段进行。在第一阶段,10重复序列单元被组合成中间载体。10重复序列单元的不同集合可以在中间载体中组合。中间载体1含有重复序列单元1-10,中间载体2含有重复序列单元11-20,等等。在第二阶段,单独装配的10重复序列单元被组合入受体载体。受体载体还含有效应子的N端和C端重复序列区,使得包括10、20、30、40或其他多个10重复序列单元的完整效应子在最终构建体中装配。中间载体在插入序列中具有 BsaI位点,用于引入10重复序列单元片段,还在侧翼载体序列中具有侧翼BpiI位点。BpiI 是具有不同于BsaI的识别位点的另一 IIS型酶。使用Bsal,10重复序列单元首先被装配成“中间载体”,然后使用Bpil,装配的10聚体作为一个片段释放。该片段在BpiI切割-连接酶反应中与受体载体连接,受体载体含有在TAL效应子的N端和C端非重复序列区之间的BpiI位点。在这种情况下,仅2-4个插入序列被连接入受体载体。这允许使每次连接是高度特异性的,并且容易装配40和更多重复序列单元。其中重复序列单元阵列被最终克隆的受体载体代表GATEWAYEntry克隆,因此允许效应子基于重组转移入任何预期表达构建体。目前,受体载体被设计为产生TAL型转录因子。然而,通过很少修饰,受体载体还允许重复序列融合至i^okl内切核酸酶或其他所需功能结构域。该方法的示意图提供于图19A-D。实施例4靶DNA特异性核酸酶的产生和测试包含识别靶DNA序列和R)kl核酸酶(“TAL-型核酸酶”)的本发明重复序列结构域的融合蛋白通过本文公开和本领域已知的任何方法所描述的产生。通过与相应靶DNA孵育来测试融合蛋白的核酸酶活性。重复序列结构域DNA靶位点被克隆入质粒载体(例如, bluescript)的多克隆位点。作为阴性对照,使用不含有TAL核酸酶靶位点或具有突变的克隆靶位点的“空载体”。在用TAL-型核酸酶处理DNA底物之前,载体通过用适合的标准内切核酸酶处理来线性化,所述标准内切核酸酶切割载体骨架。该线性化载体与体外产生的重复序列结构域-FokI核酸酶融合蛋白孵育,通过琼脂糖凝胶电泳分析产物。凝胶电泳中两个DNA片段的检测指示特定核酸酶介导的切割。相反,不含有被重复序列结构域识别的靶位点的阴性对照不受重复序列结构域-FokI核酸酶融合蛋白处理的影响。用于体外基因表达和蛋白合成的DNA驱动的无细胞系统被用来产生重复序列结构域-FokI核酸酶融合蛋白 (例如,T7高收率蛋白表达系统;!Iomega)。为了使用这种系统,重复序列结构域-FokI核酸酶融合蛋白核苷酸序列在T7RNA聚合酶之前被克隆。经由体外转录和翻译产生的此类融合蛋白不经进一步纯化而用于DNA切割分析。
冠词“一个(a)”和“一个(an)”在本文指一个或多于一个(即,至少一个)的冠词语法宾语。作为例子,“一个元件”指一个或多个元件。说明书通篇的词语“包含”或变化形式例如“包括”或“含有”将被理解为表示加入所描述的元件、整数或步骤、或元件、整数或步骤的组,但不排除任何其他元件、整数或部分、或元件、整数或步骤的组。说明书中提到的所有出版物和专利申请指示本发明所属领域技术人员的水平。所有出版物和专利申请在此通过引用并入,如同每个单独出版物或专利申请呗明确且单独地表明通过引用并入。此外,下述专利申请的每一个在此通过引用整体并入2009年1月12 日提交的 DE 10 2009 004 659. 3,和 2009 年 7 月 13 日提交的 US 61/225,043。尽管出于理解清楚的目的而通过示例说明和实施例在一些细节描述了前述发明, 但显然,可以在所附权利要求的范围内进行某些改变和调整。
权利要求
1.一种制备选择性识别靶DNA序列中至少一个碱基对的多肽的方法,所述方法包括合成包含重复序列结构域的多肽,其中所述重复序列结构域包含至少一个衍生自转录激活子样(TAL)效应子的重复序列单元,其中所述重复序列单元包含决定所述靶DNA序列中碱基对的识别的高变区,其中所述重复序列单元负责所述DNA序列中一个碱基对的识别,并且其中所述高变区包含选自由以下组成的组的成员(a)用于识别C/G的HD;(b)用于识别A/T的NI;(c)用于识别T/A的NG;(d)用于识别C/G或A/T或T/A或G/C的NS;(e)用于识别G/C或A/T的NN;(f)用于识别T/A的IG;(g)用于识别C/G的N;(h)用于识别C/G或T/A的HG; ⑴用于识别T/A的H ;和(j)用于识别G/C的NK0
2.权利要求1所述的方法,其中所述高变区对应于所述重复序列单元中的氨基酸12和13。
3.权利要求1或2所述的方法,其中所述重复序列结构域包含1.5至40. 5个重复序列单元。
4.权利要求1或2所述的方法,其中所述重复序列结构域包含11.5至33. 5个重复序列单元。
5.权利要求1-4任一项所述的方法,其中所述多肽还包含至少一个可操作连接至所述重复序列结构域的附加结构域。
6.权利要求5所述的方法,其中所述附加结构域包括细菌、病毒、真菌、卵菌、人、动物、 植物或人工蛋白或其部分。
7.权利要求6所述的方法,其中所述附加结构域包括能够修饰DNA或RNA的蛋白或其功能性部分或结构域。
8.权利要求6所述的方法,其中所述附加结构域包括选自由以下组成的组的蛋白或其功能性部分或结构域转录激活子、转录阻遏物、抗性介导蛋白、核酸酶、拓扑异构酶、连接酶、整合酶、重组酶、解离酶、甲基化酶、乙酰基转移酶、去甲基化酶和脱乙酰酶。
9.权利要求1-8任一项所述的方法,其中所述多肽的重复序列结构域通过表达编码所述多肽的DNA序列而被合成,并且其中所述编码所述多肽的DNA序列通过在一个或多个靶载体中预装配所述重复序列单元而被装配,所述靶载体可以随后被装配成包含所述编码所述多肽的DNA序列的最终载体。
10.权利要求1-9任一项所述的方法,其中所述重复序列单元包含30至40个氨基酸。
11.权利要求10所述的方法,其中所述重复序列单元包含33、34、35或39个氨基酸。
12.权利要求1-11任一项所述的方法,其中所述多肽识别所述靶DNA序列中至少2、3、 4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19 或 20 个碱基对。
13.权利要求12所述的方法,其中所述多肽识别所述靶DNA序列中所有碱基对。
14.权利要求12所述的方法,其中所述多肽能够结合至所述靶DNA序列。
15.一种多肽,所述多肽由权利要求1-14任一项所述的方法制备。
16.权利要求15所述的多肽,其中所述多肽不是天然存在的。
17.—种DNA,包含权利要求1-14任一项所述的方法制备的多肽的编码序列。
18.权利要求17所述的DNA,其中所述DNA不是天然存在的。
19.一种表达盒,包含与权利要求17所述DNA可操作连接的启动子。
20.一种非人宿主细胞,包含权利要求19所述的表达盒。
21.权利要求20所述的宿主细胞,其中所述宿主细胞是细菌细胞、真菌细胞、动物细胞或植物细胞。
22.—种转化的非人生物,包含权利要求19所述的表达盒。
23.权利要求22所述的转化的生物,其中所述生物是真菌、动物或植物。
24.一种通过多肽选择性识别DNA序列中碱基对的方法,所述方法包括构建包含重复序列结构域的多肽,其中所述重复序列结构域包含至少一个衍生自TAL效应子的重复序列单元,其中所述重复序列单元包含决定所述DNA序列中碱基对的识别的高变区,其中所述重复序列单元负责所述DNA序列中一个碱基对的识别,并且其中所述高变区包含选自由以下组成的组的成员(a)用于识别C/G的HD;(b)用于识别A/T的M;(c)用于识别T/A的NG;(d)用于识别C/G或A/T或T/A或G/C的NS;(e)用于识别G/C或A/T的NN;(f)用于识别T/A的IG;(g)用于识别C/G的N;(h)用于识别C/G或T/A的HG; ⑴用于识别T/A的H ;和(j)用于识别G/C的NK0
25.权利要求M所述的方法,其中所述高变区对应于所述重复序列单元中的氨基酸12 和13。
26.权利要求M或25所述的方法,其中所述重复序列结构域包含1.5至40. 5个重复序列单元。
27.权利要求M或25所述的方法,其中所述重复序列结构域包含11.5至33. 5个重复序列单元。
28.权利要求M-27任一项所述的方法,其中所述多肽还包含至少一个可操作连接至所述重复序列结构域的附加结构域。
29.权利要求M-观任一项所述的方法,其中所述重复序列单元包含30至40个氨基酸。
30.权利要求四所述的方法,其中所述重复序列单元包含33、34、35或39个氨基酸。
31.权利要求M-30任一项所述的方法,其中包含重复序列单元的所述重复序列结构域被插入细菌、病毒、真菌、卵菌、人、动物或植物多肽以实现DNA序列中一个或多个指定碱基对的靶向识别和优先结合,并且任选地其中所述重复序列单元衍生自AvrBs3样效应子的重复序列结构域,其还任选地被修饰以获得预选的对DNA序列中一个或多个碱基对的特异性活性。
32.权利要求对-31任一项所述的方法,其中包含所述重复序列单元的所述重复序列结构域被包含在控制基因转录的多肽中,任选在转录激活子或阻遏蛋白中,任选地在 AvrBs3样蛋白中,例如在AvrBs3或Hax效应子蛋白中。
33.权利要求对-32任一项所述的方法,其中重复序列结构域的N末端区赋予所述重复序列单元的识别特异性的T/A 5'的识别特异性。
34.权利要求M-33任一项所述的方法,其中所述DNA序列中的碱基对被插入与基因组合的表达控制元件,所述表达控制元件被转录控制蛋白靶向,所述转录控制蛋白包含识别位于所述表达控制元件中的碱基对以特异性控制所述基因表达的所述重复序列单元中的所述高变区,其中所述表达控制元件优选是启动子。
35.权利要求31所述的方法,其中所述基因是抗性介导基因以获得疾病抗性生物,所述表达控制元件任选地是AvrBs3样效应蛋白的靶序列。
36.一种调节靶基因在细胞中表达的方法,其中提供含有多肽的细胞,其中所述多肽包含重复序列结构域,其中所述重复序列结构域包含至少一个衍生自TAL效应子的重复序列单元,其中所述重复序列单元包含决定DNA序列中碱基对的识别的高变区,其中所述重复序列单元负责所述DNA序列中一个碱基对的识别,并且其中所述高变区包含选自由以下组成的组的成员(a)用于识别C/G的HD;(b)用于识别A/T的NI;(c)用于识别T/A的NG;(d)用于识别C/G或A/T或T/A或G/C的NS;(e)用于识别G/C或A/T的NN;(f)用于识别T/A的IG;(g)用于识别C/G的N;(h)用于识别C/G或T/A的HG;⑴用于识别T/A的H ;和(j)用于识别G/C的NK0
37.一种包含重复序列结构域的多肽,其中所述重复序列结构域包含至少一个衍生自 TAL效应子的重复序列单元,其中所述重复序列单元包含决定DNA序列中碱基对的识别的高变区,其中所述重复序列单元负责所述DNA序列中一个碱基对的识别,并且其中所述高变区包含选自由以下组成的组的成员(a)用于识别C/G的HD;(b)用于识别A/T的M;(c)用于识别T/A的NG;(d)用于识别C/G或A/T或T/A或G/C的NS;(e)用于识别G/C或A/T的NN;(f)用于识别T/A的IG;(g)用于识别C/G的N;(h)用于识别C/G或T/A的HG;⑴用于识别T/A的H ;和(j)用于识别G/C的NK0
38.一种DNA,包含权利要求37所述的多肽的编码序列。
39.一种DNA,所述DNA被修饰以包含位于靶DNA序列中的碱基对,使得所述碱基对能够被包含重复序列结构域的多肽特异性识别,其中所述重复序列结构域包含至少一个衍生自TAL效应子的重复序列单元,其中所述重复序列单元包含决定所述DNA序列中碱基对的识别的高变区,其中所述重复序列单元负责所述DNA序列中一个碱基对的识别,并且其中, 为了接受所述高变区的选择性和确定的识别,所述碱基对选自由以下组成的组(a)供HD识别的C/G;(b)供NI识别的Α/Τ;(c)供NG识别的Τ/Α;(d)供NS识别的CT或A/T或T/A或G/C;(e)供NN识别的G/C或A/T;(f)供IG识别的T/A;(g)供N识别的C/G或T/A;(h)供HG识别的T/A;⑴供H识别的T/A;和(j)供NK识别的G/C。
40.权利要求39所述的DNA,其中所述碱基对位于启动子或其他基因调控序列中。
41.权利要求39所述的DNA,其中所述DNA不是天然存在的。
42.一种载体,包含权利要求39所述DNA。
43.一种非人宿主细胞,包含权利要求39所述DNA。
44.权利要求43所述的宿主细胞,其中所述宿主细胞是细菌细胞、真菌细胞、动物细胞或植物细胞。
45.一种转化的非人生物,包含权利要求39所述的DNA。
46.一种权利要求45所述的转化的生物,其中所述生物是真菌、动物或植物。
47.一种用于制备DNA的方法,所述DNA包含由包含重复序列结构域的多肽选择性识别的靶DNA序列,其中所述重复序列结构域包含至少一个衍生自TAL效应子的重复序列单元, 其中所述重复序列单元包含决定所述靶DNA序列中碱基对的识别的高变区,并且其中所述重复序列单元负责所述靶DNA序列中一个碱基对的识别,所述方法包括合成包含能够被所述重复序列单元识别的碱基对的DNA,其中所述碱基对选自由以下组成的组(a)供HD识别的C/G;(b)供NI识别的Α/Τ;(c)供NG识别的Τ/Α;(d)供NS识别的CT或A/T或T/A或G/C;(e)供NN识别的G/C或A/T;(f)供IG识别的T/A;(g)供N识别的C/G或T/A;(h)供HG识别的T/A;(i)供H识别的T/A;和 (j)供NK识别的G/C。
全文摘要
本发明涉及通过多肽选择性识别DNA序列中碱基对的方法,特异性识别DNA序列中一个或多个碱基对的修饰多肽,被修饰而使它可以被多肽特异性识别的DNA,所述多肽和DNA在特异性DNA靶向中的用途,以及调节靶基因在细胞中表达的方法。
文档编号C12N15/82GK102325791SQ201080008139
公开日2012年1月18日 申请日期2010年1月12日 优先权日2009年1月12日
发明者乌拉·博纳斯, 塞巴斯蒂安·朔尔纳克, 延斯·博赫, 托马斯·拉艾 申请人:乌拉·博纳斯, 塞巴斯蒂安·朔尔纳克, 延斯·博赫, 托马斯·拉艾
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1