新型dna-结合蛋白及其用途的制作方法

文档序号:908018阅读:325来源:国知局
专利名称:新型dna-结合蛋白及其用途的制作方法
技术领域
本发明提供使用工程化DNA结合蛋白用于内源性基因和其他基因组基因座的基因修饰以及表达状态的调节的方法。
背景技术
许多、可能大部分的生理和病理生理过程可通过选择性上调或下调节基因表达来控制。通过选择性调节可控制的病理学的例子包括在类风湿性关节炎中促炎细胞因子的不恰当表达、在高胆固醇血症中肝LDL受体的低表达、在实体瘤生长中促进血管新生因子的过表达以及抗血管生成因子的低表达,仅示出几个例子。此外,诸如病毒、细菌、真菌和原生动物的病原生物可通过改变它们的宿主细胞的基因表达来控制。因此,对于能够简单上调有益基因和下调导致疾病基因的治疗途径的需求明显尚未满足。此外,使得可选择性过表达和低表达选择的基因的简单方法在科学界具有巨大用途。使得可在细胞模型体系、转基因动物和转基因植物中调节基因的方法可广泛用于学术实验室、制药公司、基因公司以及生物技术领域。通常通过改变称为转录因子的序列特异性DNA结合蛋白的功能来控制基因表达。它们用于影响在启动子处转录起始复合物的形成或功能的效果。转录因子可以积极方式(激活)或消极方式(抑制)作用。转录因子功能可以为构成性(总是“作用”)或者条件性。可通过各种方式来赋予转录因子条件性功能,但是大量这些调控机制依赖于在细胞质中因子的隔绝,以及诱导性释放和随后核转位、DNA结合和激活(或者抑制)。以这种方式作用的转录因子的例子包括孕酮受体、固醇应答元件结合蛋白(SREBP)和NF-K B。有通过改变转录因子结合它们同源DNA识别序列的能力来应答磷酸化或小分子配体的转录因子的例子(Hou等,Science 256 1701 (1994) ;Gossen&Bujard, Proc.Nat,I Acad Sci 89:5547(1992) ;01igino 等,GeneTher. 5 :491-496(1998) ;ffang 等,Gene Ther. 4 :432-441(1997) ;Neering 等,Blood88 1147-1155(1996);以及 Rendahl 等,Nat. Biotechnol. 16 :757-761 (1998))。包含来自锌指蛋白("ZFP")的DNA结合结构域的重组转录因子具有调节内源性基因的基因表达的能力(参见,例如美国No. 6,534,261 ;6,599,692 ;6,503,717 ;6,689,558 ;7,067,317 ;7, 262, 054) 0使用这些包含工程化转录因子的锌指蛋白的临床试验已经显示这些新型转录因子能够治疗各种病症。(参见,例如Yu等(2006)FASEB J. 20 479-481)。在基因组生物学、特别是关于测定大量基因组中完整核苷酸序列中另一主要目标区是基因组序列的靶向改变。这些靶向切割活动可用于例如诱导细胞DNA序列的靶向诱变、诱导靶向缺失,以及促进在预定染色体基因座处靶向重组。参见,例如,美国专利公开 20030232410 ;20050208489 ;20050026157 ;20050064474 ;20060188987 ;2008015996 ;以及国际公开WO 2007/014275,其公开内容以引用方式整体并入以用于所有目的。也参见 Santiago 等(2008)Proc Natl AcadSci USA 105 :5809-5814 ;Perez 等(2008)NatBiotechnol 26:808-816(2008)。已将连接核酸酶的切割结构域至设计的DNA-结合蛋白(例如,连接至来自诸如FokI的核酸酶切割结构域的锌指蛋白(ZFP))的人工核酸酶用于在真核细胞中靶向切割。例如,已经显示,锌指核酸酶-介导的基因组编辑修饰在特定位置处人基因组的序列,通过(I)在期望修饰的靶位点处特异性产生在活细胞的基因组中双链断裂(DSB);以及通过(2)使得可以天然机制来DNA修复以“治愈”该断裂。 为了增加特异性,使用在结合DNA时二聚化的一对或多对定制设计的锌指核酸酶来诱导切割活动以形成催化活性核酸酶复合物。此外,通过使用包括工程化切割半结构域的一对或多对锌指核酸酶来进一步增加特异性,该工程化切割半结构域仅在形成异源二聚体时切割双链DNA。参见,例如美国专利公开No. 20080131962,其以引用方式整体并入本文中。通过人工核酸酶产生的双链断裂(DSB)已经用于例如诱导细胞DNA序列的靶向诱变、诱导靶向缺失;以及促进在预定染色体基因座处靶向重组。参见,例如,美国专利公开 20030232410 ;20050208489 ;20050026157 ;20050064474 ;20060188987 ;20060063231 ;20070218528 ;20070134796 ;20080015164 和国际公开 No. WO 07/014275 以及TO2007/139982,其公开内容以引用方式整体并入以用于所有目的。因此,在靶基因组位置处产生DSB的能力使得可基因组编辑任何基因组。存在修复DSB-同源重组和非同源末端接合(NHEJ)的两个主要和不同的途径。同源重组需要作为模板(称为“供体”)的同源序列的存在以引导细胞修复过程,并且修复的结果是无误差的和可预测的。在缺乏同源重组的模板(或“供体”)序列下,细胞通常尝试通过NHEJ的易错过程来修复DSB。已知黄单胞菌属(Xanthomonas)的植物致病细菌导致在重要作物中许多疾病。黄单胞菌属的致病性依赖于保守III型分泌(T3S)系统,其注入多于25种不同的效应物蛋白至植物细胞内。其中注入的蛋白为转录激活因子样效应物(“TALE”或“TAL-效应物”),该转录激活因子样效应物模拟植物转录激活因子以及操纵植物转录组(参见Kay等(2007) Science 318:648-651)。这些蛋白包含DNA结合结构域以及转录激活结构域。最良好表征的TALE之一是来自野油菜黄单胞菌辣椒斑点病菌(Xanthomonas campestrispv. Vesicatoria)的 AvrBs3 (参见 Bonas 等(1989) Mol Gen Genet 218 127-136 以及W02010079430)。TALE包含介导DNA识别的集中重复结构域,其各重复单元包含指定一个靶碱基的约33-35个氨基酸。TALE也包含核定位序列和多个酸性转录激活结构域(关于概述参见 Schornack S,等(2006) J PlantPhysiol 163(3) :256-272)。此外,在植物致病细菌青枯雷尔氏菌(Ralstonia solanacearum)的两个基因中,已经发现,指定的brgll和hpxl7与在青枯雷尔氏菌生物变型I菌株GMI1000和在生物变型4菌株RS1000中黄单胞菌属的 AvrBs3 家族同源(参见Heuer 等(2007) Appl and Envir Micro 73(13) :4379-4384)。这些基因的核苷酸序列彼此具有98.9%同一性,但是区别在于在1^117的重复结构域中
I,575bp的缺失。然而,两基因产物与黄单胞菌属的AvrBs3家族蛋白具有小于40%序列同一性。这些TALE的DNA-结合特异性依赖于在串联TALE重复单元中发现的序列。重复的序列包含约33-35个氨基酸,并且重复序列(i^peat)通常彼此具有91-100 %同源性(Bonas等,同上)。在TALE靶序列中在位置12和13处高变二残基的同一性与毗连核苷酸的同一性之间似乎有——对应性(参见Moscou和Bogdanove,(2009) Science 326 :1501以及Boch等(2009) Science 326:1509-1512)。这些两个相邻氨基酸称为重复可变二残基(RVD)。经实验,已经确定这些TALE的DNA识别的天然编码,使得在位置12和13处HD序列可导致与胞嘧啶(C)结合;NG结合T ;NI结合A ;NN结合G或A ;以及NG结合T。已经将 这些特异性测定TALE重复单元组装至具有天然TALE重复单元和可变数量的重复序列的新组合的蛋白内,从而制备不同TALE蛋白。在这些天然结构中,这些变体能够与新序列相互作用,并且激活在植物细胞中报道基因的表达(Boch等,同上)。然而,这些蛋白保持天然(全长型)TALE蛋白结构,并且仅在构建体内TALE重复单元的数目和同一性改变。也已经将全部或几乎全部TALE蛋白稠合至FokI蛋白的核酸酶结构域以产生TALE-核酸酶融合蛋白(“TALEN”),并且已经显示,这些TALEN切割在酵母细胞中游离报道基因(Christian等(2010)Genetics 186(2) :757-61 ;Li 等(2011a)Nucleic Acids Res. 39(1) :359-372)。当采用合适的序列扩增方案时,这些构建体也修饰在酵母细胞中内源性基因至可量化水平,并且可修饰在哺乳动物和植物细胞中内源性基因至可检测、但无法量化水平。参见,Li等(2011b)Nucleic Acida Res. epub doi 10.1093/nar/gkrl88 ;Cermak 等(2011)NucleicAcids Res. epub do1:10. 1093/nar/gkr218。需要两步骤富集方案以检测在植物和动物细胞中活性的事实表明在几乎全部TALE蛋白以及来自FokI蛋白的核酸酶结构域之间的融合没有有效修饰在植物和动物细胞中内源性基因。换而言之,在这些研究中使用的连接TALE重复阵列至FokI切割结构域的肽不能通过在高级真核生物中内源性基因的FokI结构域来有效切割。因此,这些研究强调对开发能够用于连接TALE阵列与核酸酶结构域的组合物的需求,该核酸酶结构域使得在内源性真核环境中高度有效切割。对于工程化DNA结合结构域仍然有需求以增加这些结合蛋白在各种应用中的范围、特异性和有用性,包括在各种细胞类型和工程化核酸酶中调节内源性基因的工程化转录因子,该工程化转录因子可类似地用于各种模型、诊断和治疗体系、以及基因组工程化和编辑应用的各种方式中。发明概述因此,本发明提供靶向操纵内源性基因座的表达状态或序列的方法。在本发明的一些实施方案中,本发明的方法使用包含融合至功能蛋白结构域(通称“TALE-融合”)的一个或多个TALE-重复单元的DNA-结合蛋白以形成工程化转录因子、工程化核酸酶(“TALEN”)、重组酶、转座酶、整合酶、甲基化酶、酶结构域和报道基因。在一些方面中,多肽包括连接至另外的TALE蛋白序列的至少一个TALE重复单元,用于在内源性靶DNA处有效和特异作用。连接TALE重复结构域的N-末端和任选的C-末端的这些另外的序列也称为“N帽”和“C帽”序列。因此,本发明提供包含一个或多个(例如,1、2、3、4、5、6、7、8、9、10、
11、12、13、14、15、20或更多)TALE重复和/或半重复单元的多肽。因此,在一方面中,本文提供包含至少一个TALE重复单元(例如,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多重复单元)的DNA-结合多肽。多肽通常包括支持TALE重复单元的DNA-结合功能或者TALE融合蛋白的功能活性的任意长度的N帽序列(多肽)。任选地,多肽还可包括C帽序列(多肽),例如小于约250个氨基酸(C+230C帽;从残基C-20至残基C+230)的C帽序列。此外,在某些实施方案中,如本文所述的TALE多肽的TALE重复单元的至少一个包括非典型的重复可变二残基(RVD)区域。TALE重复单元可以是从黄单胞菌属、青枯菌属(Ralstonia)或另外相关的细菌中分离的野生型结构域和/或可以一些方式将其工程化(例如,可以为非天然存在的)。在某些实施方案中,至少一个TALE重复单元被工程化(例如,非天然存在的、非典型的、密码子优化的、其组合等)。在某些实施方案中,将在TALE重复结构域(例如,在TALE重复单元之一内RVD)中一个或多个氨基酸改变,使得结构域结合选择的靶序列(通常与通过天然存在的TALE DNA结合结 构域结合的靶序列不同)。在其他实施方案中,将至少一个TALE重复单元在TALE重复单元内在位置4、11、12、13或32处在一些或所有氨基酸处修饰。在一些实施方案中,将至少一个丁41^重复单元在一个了八1^重复单元内在位置2、3、4、11、12、13、21、23、24、25、26、27、28、30、31、32、33、34或35处在I个或多个氨基酸处修饰。在其他实施方案中,将编码TALE重复单元的核酸修饰,使得DNA序列改变,但是氨基酸序列未改变。在一些实施方案中,DNA修饰的目的是密码子优化。在进一步的实施方案中,通过联合上述修饰来改变至少一个TALE重复单元。在一些实施方案中,提供包含多个修饰的TALE重复单元的TALE蛋白。也提供天然存在的和非天然存在的TALE重复单元的组合。在优选的实施方案中,TALE蛋白(野生型或工程化)进一步包含N帽和任选的C帽序列,用于在内源性靶DNA处有效和特异性作用。在一些实施方案中,N帽包含残基N+1至N+136(参见

图1B,用于描述残基编号方案)或其任意片段。在其他实施方案中,C帽包含残基C-20至C+28、C-20至C+39、C_20至C+55、或者C-20至C+63、或其全长型TALE C-末端的任意片段。在某些实施方案中,包含TALE重复结构域、以及N帽和任选的C帽序列的多肽进一步包含调控或功能结构域,例如,转录激活因子、转录抑制因子、核酸酶、重组酶、转座酶、整合酶、甲基化酶等。编码这些蛋白的多核苷酸也提供为药物组合物。此外,本发明包括包含这些蛋白/多核苷酸和/或被这些蛋白修饰的(例如,传递至子代的基因组修饰)宿主细胞、细胞系和转基因生物(例如,植物、真菌、动物)。示例性细胞和细胞系包括动物细胞(例如,包括人的哺乳动物;细胞,例如干细胞)、植物细胞、细菌细胞、原生动物细胞、鱼细胞或真菌细胞。在另一实施方案中,细胞是哺乳动物细胞。也提供制备和使用这些蛋白和/或多核苷酸的方法。在一方面中,本文提供包含一个或多个工程化TALE重复单元、N帽、和任选的C帽序列的融合蛋白,该融合蛋白可操作连接至一个或多个异源性多肽结构域,例如功能(调控)结构域。包含TALE重复单元的组件的文库提供为用于连接工程化TALE重复单元与目标功能蛋白结构域的任选结构的或柔性接头。功能蛋白结构域(例如,转录激活因子、抑制因子或核酸酶)可定位在融合蛋白的C-或N-末端处。也提供如本文所述的制备融合蛋白的方法。
本发明也提供用于鉴定工程化TALE融合蛋白的合适的靶序列(位点)的方法。在一些实施方案中,与天然TALE靶序列相比,经鉴定的靶位点具有增加数量的鸟嘌呤核苷酸(“G”)。在其他实施方案中,靶无需旁侧胸腺嘧啶核苷酸(“T”),如通常天然存在的TALE蛋白那样。在一些实施方案中,在工程化TALE蛋白中选择使用的RVD包含在靶序列中用于识别G核苷酸的一个或多个NK(天冬酰胺-赖氨酸)RVD。此外,在本发明中提供新型(非天然存在的)RVD,与天然存在的相区别,其能够识别核苷酸碱基。提供非典型或非天然存在的RVD (在TALE重复单元的位置12和13处氨基酸序列)的非限制性例子包括如表30A所示出的RVD,例如,VG和IA用于识别T ;RG用于识别A和T ;以及AA用于识别A、C、和T。也提供与所有核苷酸碱基(例如A、C、T和G)同等相互作用的RVD。在组合物中使用的另外的RVD以及本文所述的方法示出在表27中。通过本发明也提供根据用户选择限制或不限制在通过TALE-核酸酶(“TALEN” )异源二聚体来修饰的核酸上两个靶位点之间的距离或缺口间距(gap spacing)的方法。在一些实施方案中,将缺口间距限制至12-13个碱基对,而在其他实施方案中,工程化TALEN 经设计以切割包含12至21个碱基对的缺口间距的DNA靶。在一些实施方案中,TALEN异源二聚体经设计以切割包含在各单体结合位点之间I至34个核苷酸的缺口的序列。在另一实施方案中,将TALEN限制为利用包含+28C-末端截断(C+28C帽)的TALEN结构来切割具有12或13个碱基对缺口的靶。在其他实施方案中,使得设计的TALEN使用包含+63C-末端截断的TALEN结构来切割包含12至21个碱基对缺口间距的靶核酸,由于在缺口间距需求上的灵活性,其增加能够鉴定合适的TALEN靶位点的可能性。在一些实施方案中,TALEN具有工程化R1/2重复单元,使得R1/2重复单元能够靶向除T外的核苷酸碱基。在另一方面中,本发明提供了工程化TALE DNA结合结构域融合的载体,其中载体包含TALE重复序列旁侧的TALE N帽和C帽序列以及使得可克隆多个TALE重复单元、接头序列、启动子、可选择标志物、多腺苷酸化信号位点、功能蛋白结构域等的位置。通过本文中发明也提供构建包括至少一个TALE-重复单元(例如,工程化)的组件档案文库的方法,用于快速组装特异性TALE DNA结合结构域结构域和包含这些结构域(例如,TALEN)的融合蛋白。在又一方面中,本发明提供调节在细胞中内源性细胞基因的表达的方法,该方法包括以下步骤使在内源性细胞基因中第一靶位点接触融合至功能结构域(例如,转录调节结构域)的第一工程化TALE,从而调节内源性细胞基因的表达。在另一方面中,本发明提供调节在细胞中内源性细胞基因的表达的方法,该方法包括以下步骤使在内源性细胞基因中靶位点接触融合TALE蛋白,其中TALE包含工程化TALE重复结构域,使得TALE具有对所需序列的特异性。在一些实施方案中,调节作用是用于激活内源性基因的表达。在一些实施方案中,内源性基因的表达被抑制。在又一实施方案中,通过结合TALE融合蛋白来调节内源性基因的激活或抑制,使得内源性激活因子或抑制因子不能结合目标基因的调节区域。在一个实施方案中,接触步骤进一步包括使在内源性细胞基因中第二靶位点接触第二工程化TALE融合蛋白,从而调节第二内源性细胞基因的表达。在另一实施方案中,第一和第二靶位点相邻。在某些实施方案中,第一和第二靶位点在不同基因中以例如使用TALE-转录因子来调节两个或更多个基因的表达。在其他实施方案中,例如当一对TALEN融合蛋白用于切割相同基因时,第一和第二靶位点在相同基因中。通过任意碱基对(“缺口大小”),例如,I至20(或之间任意数目)或甚至更多碱基对来分离第一和第二靶位点。在另一实施方案中,接触步骤包括使接触多于两个靶位点。在某些实施方案中,通过两对TALEN来使两组靶位点接触,并且该两组靶位点用于在两组靶处产生特异性缺失或插入。在另一实施方案中,第一 TALE蛋白是包含调控或功能结构域的融合蛋白。在另一实施方案中,第
一TALE蛋白是包含至少两个调控或功能结构域的融合蛋白。在另一实施方案中,第一和第
二TALE蛋白是各自包含调控结构预的融合蛋白。在另一实施方案中,第一和第二 TALE蛋白是各自包含两个调控结构域的融合蛋白。可将一个或多个功能结构域融合至TALE蛋白的各(或两)端。任意TALE融合蛋白可提供为编码这些蛋白的多核苷酸。在又一方面中,本发明提供连接核酸酶结构域至TALE重复结构域的如本文所述的C帽的组合物,其中所得融合蛋白展现出高活性核酸酶功能。在一些实施方案中,C帽包含来自天然TALE C-末端旁侧序列的肽序列。在其他实施方案中,C帽包含来自TALE重复 结构域的肽序列。在又一实施方案中,C帽包含不是源于TALE蛋白的序列。C帽还可展现出例如包含来自天然TALE C-末端旁侧序列和/或TALE重复结构域和/或非TALE多肽的肽序列的嵌合结构。在本文所述的任意组合物或方法中,调控或功能结构域选自转录抑制因子、转录激活因子、核酸酶结构域、DNA转甲基酶、蛋白乙酰转移酶、蛋白脱乙酰基酶、蛋白甲基转移酶、蛋白脱氨基酶、蛋白激酶和蛋白磷酸酶。在一些方面中,功能结构域是表观遗传性调节子。在植物中,通过使用标准技术的异交(out-crossing)可去除TALE融合。在这些实施方案中,融合蛋白包含表观遗传性调节子,例如限制性例子为组蛋白甲基转移酶、DNA甲基转移酶、或组蛋白脱乙酰基酶。参见,例如,共同拥有的美国专利7,785,792。因此,在一些方面中,TALE融合蛋白包含融合至核酸酶结构域(“TALEN”)的TALE-重复结构域。如上所示,在一些实施方案中,将TALE重复结构域进一步融合至N帽序列,以及任选地C帽序列。在其他实施方案中,通过提供核酸酶结构域的有效催化功能的接头肽序列使核酸酶结构域连接N帽的氨基末端或者C帽的羧基末端。核酸酶结构域可以为天然存在的或者可以为工程化或非天然存在的。在一些实施方案中,核酸酶结构域源于IIS型核酸酶(例如FokI)。在其他实施方案中,TALE DNA结合结构域可操作连接至Bfi I核酸酶结构域。在一些实施方案中,FokI结构域是包含两个切割半结构域的单链核酸酶结构域,并且在其他中,其是FokI切割半结构域。在本发明的一些方面中,单个TALEN蛋白单独使用以诱导在靶DNA中双链断裂,而在其他中,TALEN用作一对核酸酶的一部分。在一些实施方案中,该对核酸酶包含两个TALEN,该TALEN包含FokI半结构域,其中FokI半结构域的对需要获得DNA切割,而在其他情况下,将TALEN蛋白联合锌指核酸酶使用,其中两个FokI切割结构域的对需要达到DNA切割。在一些实施方案中,将TALE DNA结合结构域融合至锌指以制备锌指/TALE杂交DNA结合结构域。在一些例子中,杂交DNA结合结构域能够跳过在DNA靶结合位点内与DNA碱基的相互作用。在一些实施方案中,FokI结构域能够形成同型二聚体,以及在其他例子中,对靶向切割活性需要来自TALEN对的各成员的两不相同的FokI切割结构域的杂二聚化。在这些杂二聚化的TALEN对中,相同类型的两FokI结构域不能产生同型二聚化。在其他实施方案中,使用TALEN对,其中一个FokI切割结构域失活,使得可出现配对,但是将靶DNA切口以产生在DNA分子的一个链上的切口,而不是切割双链。
在本文所述的任意组合物或方法中,通过TALE融合蛋白核酸可编码TALE融合蛋白。在某些实施方案中,编码TALE融合蛋白的序列可操作连接至启动子。因此,在某些实施方案中,调节内源性基因表达或基因组修饰的方法进一步包括将编码TALE蛋白的核酸第一次施用至细胞的步骤。TALE-融合蛋白可以从表达载体中表达,例如逆转录病毒的表达载体、腺病毒表达载体、DNA质粒表达载体或AAV表达载体。在一些实施方案中,表达载体是慢病毒载体,并且在这些实施方案的一些中,慢病毒载体是缺陷性整合酶。在本发明中也提供对在任意细胞类型中任意期望靶基因座(例如,内源性基因)特异的TALEN(例如,TALEN对)。非限制性例子包括对NTF3、VEGF、CCR5、IL2R Y、BAX、BAK、FUT8、GR、DHFR、CXCR4、GS、Rosa26、AAVSl (PPP1R12C)、MHC 基因、PITX3、ben_l、Pou5Fl (0CT4)、Cl、RPDl 等特异的 TALEN。如本文所述的TALE-重复结构域在内源性细胞基因的转录起始位点的上游或邻近处可结合靶位点。可选择地,靶位点可邻近在内源性细胞基因的转录起始位点下游处的RNA聚合酶中断位点。在又进一步的实施方案中,TALE融合蛋白(例如,TALEN)结合在诸 如前导序列、尾随序列或内含子的基因的编码序列内或者在基因内或邻近基因处的非编码序列中的位点;或者在编码区的上游或下游的非转录的区域内。在另一方面中,本文描述用于切割在细胞中一个或多个目标基因的方法,该方法包括(a)将在使得将TALEN蛋白表达以及一个或多个基因被切割的条件下在一个或多个基因中结合靶位点的一个或多于一个、或者更多个TALEN蛋白(或者编码TALEN的多核苷酸)引入细胞内。在引入两个或更多个TALEN蛋白的实施方案中,可将一个、一些或全部作为多核苷酸或作为多肽引入。在一些方面中,所述基因切割导致靶向基因的功能破坏。靶向DNA的切割可在NHEJ之后,其中将小插入或缺失(插入/缺失(indel))在切割的位点处插入。然后通过在切割位置处引入非特异性突变这些插入/缺失导致功能破坏。在又一方面中,本文描述引入外源性序列进入细胞的基因组的方法,该方法包括以下步骤(a)将在使得将TALEN蛋白表达以及在基因内一个或多个靶位点被切割的条件下结合在靶基因中靶位点的一个或多个TALEN蛋白(或编码TALEN蛋白的多核苷酸)引入细胞内;以及(b)使细胞接触外源性多核苷酸;使得DNA靶位点的切割刺激外源性多核苷酸,从而通过同源重组整合至基因组内。在某些实施方案中,可将外源性多核苷酸物理整合至基因组内。在其他实施方案中,通过经与双链断裂的同源重组修复(homology-directedrepair) (HDR)相关的专门的核酸复制过程来拷贝外源性序列至宿主细胞基因组内将外源性多核苷酸整合至基因组内。在又一其他实施方案中,通过非同源依赖性靶向性整合(例如“末端捕获”)来整合至基因组内。在一些实施方案中,外源性多核苷酸包含通过同源重组酶(例如分别Cre或FRT)识别的重组酶识别位点(例如IoxP或FLP)。在某些实施方案中,将外源性序列整合至小动物(例如兔或诸如小鼠、大鼠等的啮齿动物)的基因组内。在一个实施方案中,TALE-融合蛋白包含转座酶、重组酶或整合酶,其中将TALE-重复结构域工程化以识别特异性所需靶序列。在一些实施方案中,使用TALE多肽。在一些方面中,TALE-融合蛋白包含转座酶或整合酶,并且用于开发CHO-细胞特异性转座酶/整合酶体系。在一些实施方案中,TALE-融合蛋白包含甲基转移酶,其中将TALE-重复结构域工程化以识别特异性所需靶序列。在一些实施方案中,将TALE-重复结构域融合至用于作用基因组或染色质的表观遗传修饰的蛋白复合物的亚单位。
在又进一步的实施方案中,TALE-融合进一步包含报道基因或选择标志物,其中TALE-重复结构域被工程化以识别特异性所需靶序列。在一些方面中,报道基因是荧光标志物,而在其他方面中,报道基因是酶。在另一方面中,本文描述包含一种或多种TALE-融合蛋白的组合物。在某些实施方案中,组合物包含一种或多种TALE-融合蛋白与药学上可接受的赋形剂的组合。在一些实施方案中,组合物包含编码TALE融合蛋白的多核苷酸。一些实施方案包含组合物,该组合物包含编码TALEN的DNA分子。在其他实施方案中,组合物包含编码TALEN的RNA分子。一些组合物进一步包含核酸供体分子。在另一方面中,本文描述编码本文所述的一种或多种TALE-融合蛋白的多核苷酸。多核苷酸可以是例如mRNA。在另一方面中,本文描述TALE-融合蛋白表达载体,该TALE-融合蛋白表达载体包含编码本文所述的一种或多种TALE-融合蛋白的多核苷酸;所述多核苷酸可操作连接至启 动子(例如,构成型、诱导型、组织特异性等)。在另一方面中,本文描述宿主细胞,该宿主细胞包含一种或多种TALE-融合蛋白和/或一种或多种多核苷酸(例如,编码如本文所述的TALE-融合蛋白的表达载体)。在某些实施方案中,宿主细胞进一步包含一种或多种锌指蛋白和/或编码载体的ZFP。使用一种或多种这些蛋白表达载体可将宿主细胞稳定地转化或暂时性转染或其组合。在其他实施方案中,一种或多种蛋白表达载体在宿主细胞中表达一种或多种融合蛋白。在另一实施方案中,宿主细胞可进一步包含外源性多核苷酸供体序列。可采用任何原核或真核宿主细胞,包括但不限于细菌、植物、鱼、酵母、藻、昆虫、蠕虫或哺乳动物细胞。在一些实施方案中,宿主细胞是植物细胞。在其他方面中,宿主细胞是植物组织的一部分,例如植物的营养部分、贮藏器官、水果、花和/或种子组织。在进一步的实施方案中,宿主细胞是藻类细胞。在其他实施方案中,宿主细胞是成纤维细胞。在任一实施方案中,本文所述的宿主细胞可包含干细胞,例如胚胎干细胞。干细胞可以是哺乳动物干细胞,例如造血干细胞、间质干细胞、胚胎干细胞、神经元干细胞、肌肉干细胞、肝干细胞、皮肤干细胞、诱导多能干细胞和/或其组合。在某些实施方案中,干细胞是人诱导多能干细胞(hiPSC)或人胚胎干细胞(hESC)。在任一实施方案中,本文所述的宿主细胞可包含胚胎细胞,例如一种或多种小鼠、大鼠、兔或其他哺乳动物细胞胚胎。在一些方面中,干细胞或胚胎细胞在开发转基因动物中使用,该转基因动物包括具有TALE-介导的基因组修饰的动物,该TALE-介导的基因组修饰被整合至种系内,使得突变可遗传。在进一步的方面中,这些转基因动物用于研究目的,即小鼠、大鼠、兔;而在其他方面中,转基因动物是家畜动物,即牛、鸡、猪、氧等。在又进一步的方面中,转基因动物是用于治疗目的的那些,即,山羊、牛、鸡、猪;以及在其他方面中,转基因动物是同伴动物(companion animal),即猫、狗、马、牛或鱼。通过本发明提供的另一方面是用于鉴定TALE结合的合适的核酸靶的方法。在一些实施方案中,基于其与通过典型的、天然存在的TALE蛋白使用的靶位点的类似性来选择靶。在其他实施方案中,因为工程化TALE蛋白已经以使得它们能够与非典型靶序列相互作用的方式改变,所以选择未被典型的、天然存在的TALE蛋白利用的靶。在一些实施方案中,这种改变包括非典型(非天然存在的或稀少的)RVD序列的选择。在进一步的实施方案中,使用的非典型RVD是在所需靶序列中用于识别G残基的‘NK’RVD。在其他实施方案中,因为工程化TALE蛋白已经以使得它们能够与非天然比例的核酸碱基相互作用的方式改变,所以选择包含非天然比例的核酸碱基的靶。在一些实施方案中,在所需靶序列中碱基比例包含异常数目的G残基。在其他实施方案中,在所需靶序列中碱基比例包含异常数目的非典型二核苷酸、三核苷酸或四核苷酸。进一步提供用于鉴定TALE-DNA结合相互作用的最佳靶的设计规则。这些规则提供对选择包含优化二核苷酸和三核苷酸对的靶位点序列的指导。此外,这些规则也提供对更少二核苷酸和三核苷酸对的指导,从而技术人员可根据需要避开这些序列。也提供能够与所有核苷酸相互作用的RVD,从而提供用户选择靶序列的更大的灵活性。在一方面中,本发明提供用于体内基因组操纵的组合物和方法。在某些实施方案中,可将编码TALEN的mRNA注射至生殖腺、卵子或胚胎内以用于引入如所述的特异性DSB。在一些实施方案中,将供体核苷酸与TALEN mRNA共同递送以产生在生物中特异性靶向性整合。在又进一步的方面中,本文提供包含本发明的TALE-结构域蛋白(以及包含这些TALE-重复蛋白的融合蛋白)的试剂盒。这些试剂盒可用于帮助用户的基因组操纵以及可提供例如切割在基因组内所需靶或者安全港基因座(safe harbor locus)的TALEN。可将TALEN作为核酸(例如DNA或RNA)提供或者作为蛋白提供。在一些例子中,可配制蛋白以增加稳定性,或者以干燥形式提供蛋白。在一些例子中,试剂盒用于诊断目的。在一些例子中,在试剂盒中包括的TALE-融合是转录调节因子。在一些例子中,TALE-融合包含报道基因。附图简述图1,图A和B示出TALE蛋白。图1A示出TALE蛋白的结构域结构的示意图(未按比例显示)。‘N’和‘C’分别指示氨基和羧基末端。TALE重复结构域、N帽和C帽被标记,并且示出在该蛋白中用于N帽和C帽的残基编码方案。“R0”表示在第一串联TALE重复序列前面的34个氨基酸,该第一串联TALE重复序列可与TALE重复单元具有一些结构同源性以及可指定在DNA靶序列中胸腺嘧啶。“R1/2”表示C-末端TALE “半重复序列”,其是与典型TALE重复序列的前20个残基具有同源性的20个残基肽序列(编号C-20至C-1的残基)。NLS是核定位序列。AD是酸性激活结构域。图1B(SEQ ID NO 135)显示使用克隆方案分离的克隆的天然TALE蛋白(下文称为“TALE13”),设计该克隆方案以缺失N-末端1-152个氨基酸残基。在序列下通过粗黑线来表示N帽和C帽;示出在N帽中位置N+1和N+136以及在C帽中C+1和C+278。半重复序列是C帽的前20个残基以及表示为“C+1”的位置正前方的末端。在TALE重复序列和半重复序列中下划线残基表示氨基酸(RVD),该氨基酸(RVD)指定在靶结合中通过重复序列接触的DNA核苷酸。图2,图A和B显示使用TALE13 (TR13)的预测靶的报道基因构建体。图2A(SEQ IDNO 136)显示指示将1-4TR13靶插入载体内使用的克隆位点的报道基因载体的示意图。斜体区域是荧光素酶基因的启动子区域。图2B(SEQ ID NO :137)显示包含两个TR13靶的使用的接头序列。图3,图A和B显示包含0-4TR13靶(图3A)的报道基因构建体以及在荧光素酶报道基因构建体上通过TALE13-VP16融合蛋白(TR13-VP16,与来自VP16的激活结构域连接的TALE13)协同报道基因激活的示意图,该荧光素酶报道基因构建体包含分别表示为R13xl至R13x4的I至4个多个TR13靶(图3B)。pGL3是缺乏任意TR13靶元件的对照报道基因载体。图4,图A和B显示通过TALE VP16融合蛋白的报道基因激活。图4A是添加或没有添加VP16结构域的TALE蛋白以及在研究中使用的报道基因构建体的示意图。R13x2示出其中两个TALE13(TR13)靶被插入的构建体,而R15x2示出其中两个TALE15 (TR15)靶被插入的构建体。图4B显示通过具有VP16融合的TALE蛋白而不是通过TALE蛋白自身的报道基因激活。因此,在该测定中存在于TALE蛋白中天然转录激活结构域在哺乳动物细胞中没有功能。而且,观察到的转录活性对报道基因激活具有特异性,该报道基因激活仅出现在当正确的靶与它们对应的TALE VP16融合匹配时。克隆的TALE13和TALE15分别表示为TR13和TR15。TR13-VP16和TR15-VP16与具有稠合至它们的C-末端的另外的VP16激活结构域的TR13和TR15类似。图5,图A和B不出相对启动子的祀序列布置的位置作用。图5A显不报道基因构建体的示意图,其中祀序列位于SV40启动子的近端(R13x4)或远端(R13x4D)。图5B显示通 过指示的TALE的报道基因激活。“nR13V-dl45C”是指含有SV40核定位序列、具有从C-末端缺失145个氨基酸残基的TR13序列(产生C+133C帽)以及VP16激活结构域的表达构建体,而“R13-VP16”是指包含TALE13序列和VP16激活结构域的表达构建体。如所示,(i)报道基因激活无需全长TALE的C-末端145个氨基酸;以及(ii)当使靶序列位于启动子序列的近端时,报道基因激活最大。图6,图A和B是示出使用TALE融合的报道基因(荧光素酶)激活的图。图6A示出使用包含工程化TALE 18蛋白(此处R23570,在此后图中称为NT-L)的融合蛋白的报道基因激活。报道基因构建体包含在荧光素酶基因上游的工程化TALE18靶的2个拷贝。仅观察到R23570V的该报道基因的激活,该R23570V包含17. 5个工程化重复序列(17个完整TALE重复序列以及一个半重复序列)、TR13旁侧的串联TALE重复序列的N-和C-末端序列(N帽和C帽)以及VP16激活结构域。N-和C-末端旁侧序列(N帽和C帽)的缺失破坏活性(比较 nR23570S-dNC 与模拟物(mock)。nR23570S_dNC 包含 SV40 NLS (η)、融合至单个 p65激活结构域(S)的17. 5个工程化TALE重复序列,但是缺乏来自TALE (dNC)的N-和C-末端序列(N帽和C帽)。除了 nR23570SS-dNC具有两个p65结构域外,它与nR23570S_dNC相同。R0-VP16构建体与R23570相同,但缺乏串联TALE重复序列。“模拟物”显示没有表达构建体的实验结果。图6B示出在染色体环境中通过包含工程化(非天然存在的)TALE18结构域的融合蛋白的内源性基因的激活。设计靶向NTF3基因的工程化TALE18(R23570V)可导致内源性NTF3 mRNA水平的大量增加。在相同条件下,NTF3 mRNA的表达不受R0-VP16或GFP的影响。如上示出R23570V和RO-VP16 图7,图A至D示出另外的示例性NTF3-特异性TALE转录因子融合。图7A示出在NTF3启动子(SEQ ID NO :138)中示例性蛋白和它们的靶的图。两种TALE转录因子变体连接至VP16激活结构域,并且表达在HEK293细胞中。在底部处序列显示人NTF3的启动子近端区域。划下划线的碱基示出NT-L TALE重复结构域的靶位点。弯曲箭头显示NTF3转录的起始位点。图7B显示在图7A中描绘的表达最多或最少蛋白的在HEK293细胞中NTF3 mRNA相对水平。“eGFP”表示经增加GFP表达的对照质粒转染的细胞。以一式四份进行测定,并且误差条线示出标准偏差。图7C示出从在7A中描绘的表达最多或最少蛋白的HEK293细胞分泌的NTF3蛋白的水平。使用ELISA测定以一式两份进行测定,并且误差条线示出标准偏差。“Neg. ”表示经空白载体对照转染的细胞。图7D显示RVD(字母最上一行)、预期结合位点(字母第二行)和NT-L的由SELEX衍生的碱基频率矩阵(在底部图)。除了在矩阵中第一和第五位置处外,最常选择的碱基匹配靶基因座序列。图8,图A和B是示出如通过ELISA测定的各种工程化TALEDNA结合结构域的一系列N-和C-末端截断的DNA结合能力的图。图8A示出包含9. 5个TALE重复序列的NT3-特异性TALE DNA结合结构域的数据;而图8B示出包含9. 5个TALE重复序列的VEGF-特异性TALE DNA结合结构域的数据。对于两组数据,当制备N-末端截断时,在C+95位置处保留C-末端,而对于C-末端截断,在N+137位置处保留N-末端(这些构建体具有附接N+136N帽残基的甲硫氨酸残基)。如所示,当将蛋白在比N+134位置更远的N-末端截断时,在该测定的条件下两种蛋白相对DNA亲和力均显示明显降低。此外,当将C-末端截断跨过氨基酸C+54时,在该测定的条件下两种蛋白相对DNA亲和力均显示明显降低。图9,图A和B示出如通过ELISA测定的如上所述一系列N-和C-末端截断的DNA 结合活性。在图9A中,显示NTF3-特异性TALEDNA结合结构域的数据,但在该例子中,当待测试N-末端截断时,在C+54位置处保持C-末端。对于C-末端截断,N-末端氨基酸是N+134位置。在图9B中,显示VEGF-特异性TALE DNA结合结构域的数据。如所示,如上图9A所示保持N-和C-末端。图10显示包含活性的TALE功能结构域的剖析。研究如表16中所图示的指示构建体的报道基因激活活性。结果显示(i)在该测试中有效功能需要N-末端152个氨基酸和C-末端183个氨基酸;以及(ii)包括RO区域和富含亮氨酸的结构域的串联TALE重复序列旁侧的序列恢复在该测试中细胞中功能活性。在第一 TALE重复序列之前的N-末端序列或者在最后重复序列的后面的C-末端序列的缺失均破坏该测试中功能。R13V-dl45C具有 C+133C 帽;R13V-dl82C 具有 C+95C 帽;R13V_dC 具有 C+22C 帽;nR13V-dN 具有 N+8N 帽;nR13V-d223N 具有 N+52N 帽以及 nR13V_d24 具有 N+34N 帽。图11,图A和B示出在K562细胞中连接FokI结构域的两个拷贝的TALE13的核酸酶活性。图1lA示出在哺乳动物细胞中检测核酸酶活性的基于单链退火的报道基因测定(SSA)的示意图。在该测试中报道基因构建体(SSA-R13)含有TALE13靶,该TALE13靶夹在GFP编码序列的N-末端(GF)和C-末端部分(FP)之间。质粒SSA-Rl3自身不能驱动GFP表达,但R13靶的切割促进GFP的N-末端(GF)和C-末端(FP)部分的同源重组,从而形成功能性GFP。因此,通过分析GFP阳性细胞的百分比例来评估TALEN蛋白的核酸酶活性。图1IB通过TALEN蛋白证实核酸酶活性。与没有核酸酶质粒的对照实验(模拟物)相比,使用TALEN(R13dl82C-scFokI ;C+95C帽)从SSA-R13报道基因构建体产生的GFP阳性细胞显著增加。除了通过FokI结构域之间GGGGS序列的12个拷贝连接的FokI结构域的两个拷贝用于替代VP16激活结构域之外,R13dl82C-scFokI与如上所述的R13V_dl82C相同。图12示出显示TALE-13效应物结构域-FokI切割半结构域体外融合的核酸酶活性的溴化乙锭凝胶。列显示四种TALE结构域核酸酶切割蛋白的数据使用L2或L8接头与N+137、C+28构型的核酸酶融合(参见实施例7);使用L2接头与N+137、C+39构型的核酸酶融合;以及使用L2接头的N+137、C+63融合。在两个靶位点之间的缺口间距显示在孔下方,其中数目表示在靶之间的bp数目。“S”表示仅该对的一半的单个靶位点。“Pmll”表示使用标准限制性酶的切割以及空白表示没有核酸酶编码质粒下进行的实验结果。图13是通过表示的TALE13_FokI切割半结构域融合获得的DNA切割的图。“二聚体缺口”表示两个靶位点之间bp的数目,以及“DNA切割表示在反应中有多少DNA被切害I]。结果表示在这些反应条件下使用四种测试的核酸酶中三种几乎可获得100% DNA切割。图14示出显示TALE结构域-FokI半切割结构域融合的核酸酶活性的溴化乙锭染色凝胶。在该实验中,N-末端不同,而C-末端保持C+63构型。对于图12,Pmll和Blank对照相同。在该实验中测试的N-末端截断是N+137、N+134、N+130和N+119。不同DNA靶位点示出在图12中,除了标记是在同源泳道上而不是在其下面。当N-末端比约+134至+137更短时,核酸酶的活性减弱。承载在5bp缺口和8bp缺口靶的各泳道中DNA的量不均匀,所以由于在反转重复序列中无效PCR而难于确定在这些泳道中较低带是否存在DNA切割产物或者本底带。图15,图A和B示出在K562细胞中TALEN活性。图15A(SEQID NO :342)示出在报道基因质粒中用于靶向TALE对的NTF3使用的靶序列,其也包括用于CCR5-特异性 ZFN(8267/8196)的对的结合位点。图15B是示出SSA核酸酶测定的结果的图,其中(-)NT3R18C28L8(浅灰色条;C+28C帽,L8接头)示出当NTF3-特异性对的仅一个成员出现时观察到的数据,而(+)NT3R18C28L8(深灰色条)示出当该对的两个成员均出现时的结果。“8267EL8196KK”示出使用CCR5-特异性ZFN对的结果。图16示出在经各对靶向TALEN的NTF3处理的细胞上Cel-1Surveyor 错配测定(Transgenomics, “Cel-1测定”)的结果。编号为1-30的样品如文本中所述。(+)表示添加Cel-1酶;(-)表示没有添加酶的测定。在大部分样品中约226bp的带明显,这表示由通过核酸酶的内源性NTF3靶的切割诱导的错配,随后为引入具有野生型序列的错配区域的非同源性末端接合。“gfp”表示对照,其中仅使用GFP编码质粒来转染细胞。在凝胶上定量的NHEJ活性%表示在包含Cel-1酶的各样品中。凝胶证实这些对诱导在这些样品中在哺乳动物细胞中该内源性基因座处至多8. 66%的总等位基因的靶向基因座破坏。图17,图A至C示出在K562细胞中NTF3-特异性TALEN的活性。图17A显示称为NT-R的工程化TALEN蛋白的SELEX特异性数据,该NT-R是用于NT-L TALEN融合制备的工程化配偶体(partner)。预期碱基和对应的RVD显示在绘图上。+63C-末端旁侧区用于该SELEX实验。图17B显示在K562细胞中使用四个NTF3-特异性TALEN对的Cel-1测定的凝胶结果,其中培养条件为30°C或37°C。如从呈现数据可见,大多数活性对在37°C下显示3%的基因修饰水平并且在冷激条件(30°C)下显示9%的基因修饰水平。(Doyon等(2010)Nat Methods 8(1) :74-9. Epub 2010 年 12 月 5 日和美国申请 No. 12/800,599)。然后将冷激研究中来自PCR池的84扩增子测序,并且鉴定七种突变等位基因,其显示在图17C(SEQID NO =343-350)中。如所示出,观察到插入/缺失。图18,图A和B示出在K562细胞中使用TALEN进行NTF3基因座的内源性切割后所观察到的测序结果。图18A示出染色体序列(SEQ ID NO :139-140)以及方框描绘两个TALEN的结合位点。图18B示出来自经在实施例8中所述的与野生型(“wt”)序列(SEQIDNO =141-175)比对的不同NTF3TALEN对处理的细胞的NTF3基因座的测序结果的编辑。图19示出在内源性基因处通过由NTF3-特异性TALEN诱导的DSB的靶向性整合事件(targeted Integration event)的结果。合成在DSB中捕获用寡核苷酸,使其包含与在TALEN结合位点之间空间内所有可能序列相对应的突出端(overhang)。使用一组引物来进行PCR,该引物将插入的寡核苷酸和区引出设想切割位点处。测试八(8)个不同对的NTF3-特异性TALEN,其中这些对标记A-Η。图例显示凝胶部分,该凝胶部分示出如何读出泳道。图20,图A至D显示在该基因座处通过TALEN对诱导DSB之后在内源性染色体基因座处通过NHEJ介导的寡核苷酸双链体的捕获。图20A显示NTF3靶基因座的一部分(双链体顶部,SEQ ID NO :351)以及用于该研究的寡核苷酸双链体之一(双链体底部,SEQ IDNO 352)。在顶部序列中NT-L+28和NT-R+63的结合位点划下划线。也突出显示最有效捕获双链体(5’ CTGG)的切割突出端。图20B显示NTF3靶基因座的一部分(顶部双链体,SEQ IDNO :353)以及用于该研究的第二寡核苷酸双链体(底部序列,SEQ ID NO :354)。在顶部序列中NT-L+28和NT-R+63的结合位点划下划线。也显示最有效捕获该第二双链体(5’TGGT)的切割突出端。图20C(SEQ ID NO :355-357)显示在图20A中所示寡核苷酸双链体的存在下在K562细胞中进行NT-L+28和NT-R+63表达后的结果。然后使用在双链体内退火的一 种引物以及与天然NTF3基因座退火的一种引物将在成功整合的双链体和基因组DNA之间的接点扩增。将所得扩增子克隆和测序。在顶部处“预期”序列表示由寡核苷酸双链体完全连接至切割的基因座的序列。方框突出显示在连接序列中双链体突出端的位置。底部的两根线提供由该研究获得的连接序列。如所示,11种连接序列由双链体完全连接至切割突出端而产生,而一个连接序列展现出与在通过NHEJ修复之前的切除一致的短缺失(12bp)。图20D(SEQ IDNO :358-362)显示除了使用在图20B中所示寡核苷酸双链体之外如在图20C中所示的实验结果,其具有被与在图20A中所示的双链体相关的一个碱基转移的4bp突出端。最低处四根线提供从该研究中获得的连接序列。如所示,鉴定四种不同序列,其分别展现出与在NHEJ-介导的修复之前的切除一致的短缺失。图21示出在PCR扩增时在天然TALE重复结构域中形成的多种预测的可能的二级DNA结构,该PCR扩增可破坏模板的有效扩增。使用Mfo Id来进行TALE-重复蛋白的DNA序列分析(M-Zuker NucleicAcids Res. 31(13) :3406_15,(2003))。在编码第一完整 TALE 重复序列的核酸5’端处开始核酸序列的800个碱基对分析。分析的序列包含约7. 5个重复序列。分析揭示多种非常稳定的二级结构。图22示出显示在34个氨基酸重复单元中各位置处保守氨基酸的来自黄单胞菌属细菌的1963个TALE重复序列的计算机模拟(in silico)分析的图片结果(pictoralresult)。字母大小与在任意给定位置处观察到的多样性反相关字母越大,表示多样性的公差越小;而字母越小,表示在给定位置处可观察到的氨基酸可替换。不同颜色阴影表示不同氨基酸的化学分类。在1963个TALE重复序列的该样品中,频率最高的RVD是:28.8%HD,20. 6% N1、15. 1% NNU3. 2% NG,8. 5% NS,5. 5% HG 以及 5. 5% NG*(其中星号表示在33个残基的TALE重复序列中而非更典型的34个残基重复序列观察到RVD)。在该样品中观察到15种其他RVD序列,但这些全部具有小于I %的频率。图23示出用于串联连接选择的TALE重复组件的PCR扩增子以及连接它们至载体主链内以产生所需TALE融合蛋白的方法示意图。特异性引物列出在实施例11中。也示出载体主链,组装的TALE融合克隆至其内。融合配偶体结构域是FokI核酸酶催化结构域以使得可制备TALEN对的一个成员。
图24,图A和B示出使用TALEN来驱动异源编码RFLP的短片段至内源性CCR5基因座内的基于同源性转移。图24A显示测试的示意图以及示出使用的PCR引物和BglI位点的位置。图24B示出显示将46bp供体序列插入通过CCR5-特异性TALEN对引入的DSB内的凝胶。供体序列包含独特的BglI限制性位点,所以如图所示,靶位点经PCR扩增后,然后使用BglI消化PCR产物,通过TALEN对已经切割以及已经插入46bp供体序列的序列将具有两种BglI切割产物。图25,图A和B是示出如与靶缺口间距相比较的TALEN的切割效率的图。图25A示出一组具有+28/+28配对(在两TALEN上的C+28C帽)的CCR5-特异性TALEN对活性的图,而图25B示出一组包含+63/+63配对(在两个TALEN上C+63C帽)的CCR5-特异性TALEN对活性的图。如所示,+28/+28对的活性受到在两个靶序列之间的12或13bp缺口间距的更严格限制,而+63/+63对在12-23bp的缺口间距范围内展现出活性。图26是示出具有不同长度C帽序列(或者以另外方式表述,连接完整TALE重复序列的阵列至核酸酶结构域的不同序列)的CCR5-特异性TALEN对的内源性活性的图。穿过C-末端序列来制备C末端截断以产生由C-2至C+278的C帽。在K562细胞中测试这些构建体对具有18bp缺口间距的内源性靶的TALEN活性,其中将细胞在37°C (浅正方形)或者冷激条件(30°C,深菱形)下孵育。活性高度取决于用于连接完整TALE重复序列的阵列与FokI切割结构域的序列的识别。注意,C帽符号不包括C+0,所以描绘在X = O处的C-1C帽值以及C-2描绘为X = -1。C+5、C+28等描绘为X = 5、X = 28等。观察到C+63C帽序列的峰活性。图27示出RVD分析选择的示例性TALEN的特异性。TALEN经设计结合11个碱基靶序列5’-TTGACAATCCT-3’ (SE Q ID NO :178)。当在位置6处改变该靶,使得在位置5-7处靶识别为CAA (设计的靶)、CGA、TCG或TTG时,显示通过ELISA分析测定的DNA结合结果。图28是经测定的所有测试的RVD的ELISA亲和力的图形显示。在20x20格子中显示数据,其中RVD的第一氨基酸(位置12)示出在格子的垂直左方以及RVD的第二氨基酸(位置13)示出格子的水平上方。在各格子中字母A、C、G、和T的大小与CAA位点、CCA位点、和CGA位点以及CTA位点各自的归一化ELISA信号的平方根成比例。相对于天然存在的HD、N1、NG、NS、NN、IG、HG和NKRVD,许多RVD已经改善DNA结合性能。在自然界中最常见的四种RVD(HD、NG、N1、和NN)框选作为参照。对于该四种RVD,通过ELISA的优选碱基匹配预期优选碱基。图29是示出TALEN活性的测定结果的凝胶,其中C-末端半重复序列在RVD处改变以使得与核苷酸碱基而非T可相互作用。显示如通过如上所述的Cel-1测定确定的TALEN活性。箭头表示在插入/缺失处Cel-1切割的结果的带。泳道分配列出在实施例16,表32中。这些结果证实可将TALEN C-末端半重复序列工程化以结合如所需的各核苷酸碱基。图30是示出使用具有TALE重复单元的TALEN来测定TALEN活性的凝胶,该TALE重复单元包含完整非典型RVD (完全取代);重复结构域,其中一种重复单元或特异性重复单元的全部被非典型RVD(类型取代)取代(例如具有指定为‘T’等的RVD的所有重复单元);或者TALEN,其中具有阵列的仅一个重复单元被包含非典型RVD的重复单元(单取代)取代。活性测试时在37度或在冷激条件(30度)下进行,并且任意可测定NHEJ活性的量显示在泳道上。
图31是在新生大鼠中在进行大鼠胚胎的TALEN处理之后示出NHEJ事件的存在的一系列凝胶。将基因组DNA从幼鼠中分离,然后在核酸酶靶位点周围的区域进行PCR。然后使用T7核酸内切酶来检测产物的由NHEJ诱导的错配。箭头表示在错配的存在下生成的带。检测的66只幼鼠中7只(11% )为NHEJ事件阳性。发明详述简介本申请证实,可将TALE-重复结构域工程化以识别所需内源性DNA序列以及融合功能结构域至这些工程化TALE-重复结构域可用于修饰包括基因的内源性细胞基因座的功能状态或者实际基因组DNA序列,该内源性细胞基因座存在于它的天然染色质环境中。因此,本发明提供已经工程化以特异性识别包括基因的高效、内源性细胞基因座的TALE-融合DNA结合蛋白。因此,通过内源性基因转录的激活和表达,本发明的TALE-融合可用于调控内源性基因表达。TALE-融合也可连接诸如核酸酶、转座酶或甲基化酶的其他调 控或功能结构域以修饰内源性染色体序列。本文所述的方法和组合物使得可用于人和哺乳动物的新型治疗应用中,例如治疗遗传疾病;癌症;真菌、原生动物、细菌和病毒感染;局部缺血;血管疾病;关节炎;免疫失调等,以及可用于提供功能基因组测定,以及产生用于研究和药物筛选的工程化细胞系,以及开发包括但不限于增加抗病性和改变水果成熟特征、糖和油组合物、产量和颜色的具有改变的表型的植物的方法。如本文所述的,可将两种或多种TALE-融合施用至任何细胞,该两种或多种TALE-融合识别相同靶内源性细胞基因或不同靶内源性细胞基因。在另一实施方案中,TALE-融合蛋白连接下述的至少一个或多个调节结构域。调控或功能结构域的非限制性例子包括转录因子抑制因子或激活因子结构域例如KRAB和VP16、辅助抑制因子和辅助激活因子结构域、DNA转甲基酶、组蛋白乙酰转移酶、组蛋白脱乙酰基酶及诸如来自核酸内切酶Fokl的切割结构域的DNA切割结构域。本文也描述包括融合蛋白的组合物和方法,该融合蛋白包含一个或多个TALE-重复单元、N帽以及任选地融合至核酸酶结构域的C帽,该组合物和方法用于外源性序列的基因组编辑(例如,基因的切割;基因的改变,例如通过外源性序列的插入(物理插入或通过同源重组修复的插入)后切割和/或通过NHEJ后切割;一个或多个基因的部分或完全失活;具有内源性基因的不同功能状态的等位基因的产生;调控元件的插入等)以及在种系中进行的基因组改变。也公开制备和使用例如用于编辑(改变)在靶细胞中一个或多个基因的这些组合物(试剂)的方法。因此,本文所述的方法和组合物提供用于改变靶向基因(例如,敲入)和/或敲除(部分或完全)一个或多个基因和/或用于使任意靶等位基因随机突变因而使得可生成人疾病的动物模型的高效方法。本文也公开用于连接核酸酶结构域至提供高活性核酸酶功能的TALE重复阵列的组合物(C帽)。在一些实施方案中,C帽包含来自天然TALE C-末端旁侧序列的肽序列。在其他实施方案中,C帽包含来自TALE重复结构域的肽序列。在又一实施方案中,C帽包含非-TALE序列。C帽也可展现出包含来自天然TALE C-末端旁侧序列和/或TALE重复结构域和/或非这些来源的肽序列的嵌合结构。也可将TALEN工程化以使得可将目标供体插入安全港基因座内,例如AAVSl (参见共同拥有的美国专利公开20080299580)或者CCR5 (参见共同拥有的美国专利公开20080159996)。供体可包含目标基因或者可编码目标RNA,例如shRNA、RNAi或miRNA。通过作为典型的tet-调节体系和RU-486体系的体系也可控制工程化TALE-融合蛋白(例如,转录激活因子、转录抑制因子和核酸酶)的表达(参见,例如Gossen&Bujard,Proc Natl Acad Sci 89:5547(1992) ;01igino 等,Gene Ther. 5 :491-496 (1998) ;Wang等,Gene Ther. 4 :432-441(1997) ;Neering 等,Blood 88:1147-1155(1996);以及 Rendahl 等,Nat. Biotechnol. 16 =757-761 (1998))。这些赋予对TALE-融合激活因子和抑制因子表达的小分子控制,因而赋予对目标靶基因的小分子控制。该有益特征可用于细胞培养模型中、基因治疗中以及转基因动物和植物中。概述除非另有说明,本文所公开的方法的实施以及组合物的制备和使用采用在分子生物学、生物化学、染色质结构和分析、计算化学、细胞培养、重组DNA和相关领域中常规技术,这些技术均在本领域的技术范围内。这些技术在文献中完整地解释。参见,例如,Sambrook 等 MOLECULAR CLONING A LABORATORY MANUAL,第二版,Cold Spring HarborLaboratory Press,1989 以及第三版,2001 ;Ausubel 等,CURRENT PROTOCOLS IN MOLECULARBIOLOGY, John ffiley&Sons,纽约,1987 以及定期更新;系列 METHODS INENZYM0L0GY,Academic Press, San Diego ;ffolffe, CHR0MATINSTRUCTURE AND FUNCTION,第三版,Academic Press, San Diego, 1998 ;METH0DS IN ENZYM0L0GY,304 卷,“CHROMATIN”(P.M. Wassarman 和 A. P. Wolffe 编辑),Academic Press, San Diego, 1999 ;以及 METHODS INMOLECULAR BIOLOGY, 119 卷,“ChromatinProtocols”(P. B. Becker 编辑)Humana Press,Totowa,1999。定义术语“核酸”、“多核苷酸”和“寡核苷酸”可交换使用并且是指直线或环状构象的单或双链形式的脱氧核糖核苷酸或核糖核苷酸聚合物。为了本公开,这些术语不应当解释为对聚合物长度的限制。术语可涵盖天然核苷酸以及碱基、糖和/或磷酸部分(例如,硫代磷酸主链)被修饰的核苷酸的已知类似物。通常,特定核苷酸的类似物具有相同碱基配对特异性,即,A的类似物将与T碱基配对。术语“多肽”、“肽”和“蛋白”可交换使用以表示氨基酸残基的聚合物。术语也应用于氨基酸聚合物,其中一种或多种氨基酸是对应天然存在的氨基酸的化学类似物或修饰衍生物。“结合”是指在大分子之间(例如,蛋白和核酸之间)序列特异性、非共价相互作用。并非所有组分的结合相互作用都需要序列特异性(例如,在DNA主链中与磷酸残基作用),只要作为总体的相互作用为序列特异性的。这些相互作用特征通常在于10_6M或更低的离解常数(Kd)。“亲和力”是指结合强度亲和力增加与较低Kd相关。“结合蛋白”是能够非共价结合另一分子的蛋白。结合蛋白可结合例如DNA分子(DNA-结合蛋白)、RNA分子(RNA-结合蛋白)和/或蛋白分子(蛋白_结合蛋白)。在蛋白-结合蛋白的情况下,它可结合自身(以形成同型二聚体、同型三聚体等)和/或它可结合一种或多种不同蛋白的一种或多种分子。结合蛋白可具有多于一种结合活性。例如,锌 指蛋白具有DNA-结合、RNA-结合和蛋白-结合活性。
“TALE-重复结构域”(也称为“重复阵列”)是牵涉TALE与其同源靶DNA序列结合的序列,以及该序列包含一个或多个TALE “重复单元”。单个“重复单元(也称为“重复序列”)的长度通常为33-35个氨基酸以及与在天然存在的TALE蛋白内其他TALE重复序列展现出至少一些序列同源性。如本文所述的TALE重复单元通常是形式(X)15H-(Xkvd)2-(X)20_22(SEQ ID NO :399),其中在天然存在的 TALE 蛋白中 Xkvd(位置 12 和 13)展现出高可变性。改变在位置12和13处的氨基酸同一性可改变与重复单元相互作用的DNA核苷酸(或者在双链DNA中互补核苷酸对)的同一'丨生的优选性。“非典型的”RVD是在自然中较稀少或不存在的RVD序列(位置12和13),例如,小于5%的天然存在的TALE蛋白,优选小于2%的天然存在的TALE蛋白和甚至更优选小于1%的天然存在的TALE蛋白。非典型RVD可以为非天然存在的。术语“N帽”多肽和“N-末端序列”用于指旁侧连接TALE重复结构域的N-末端部分的氨基酸序列(多肽)。N帽序列可以具有任意长 度(包括没有氨基酸),只要TALE-重复结构域用于结合DNA。因此,N帽序列可牵涉提供TALE重复结构域的合适结构稳定性和/或与DNA的非特异性接触。N帽序列可以为天然存在的或非天然存在的,例如它可由任意全长TALE蛋白的N-末端区衍生。N帽序列优选为全长型TALE蛋白中存在的多肽片段(截断),例如在足够支撑TALE-重复结构域的DNA-结合功能或者提供对TALE融合蛋白活性的支撑的天然存在的TALE蛋白中旁侧连接TALE重复结构域的N-末端区的任意截断。当各TALE-重复单元包含典型RVD时和/或当C帽包含TALE蛋白的全长型天然存在的C-末端区时,N帽序列不包含天然存在的TALE蛋白的全长型N-末端区。因此,如上所述,该序列不必牵涉DNA识别,但可增强内源性靶DNA处有效和特异性功能或者TALE融合蛋白的有效活性。最靠近TALE重复结构域的N-末端部分的N帽序列部分可与TALE重复单元具有一些同源性并且称为“R0重复序列”。通常,在靶位点的5'位置处的优选核苷酸是胸腺嘧啶(T)。也可以是,N帽的RO重复部位优选与通过TALE重复序列指定的靶序列相邻的T(或者在双链DNA中与T配对的A碱基)相互作用。以下示出RO序列的一个例子LDTGQLLKIAKRGGVTAVEAVHAffRNALTGAPLN(SEQ IDNO :1)术语“C帽”或“C-末端区”是指可旁侧连接TALE重复结构域的C-末端部分的任选存在的氨基酸序列(多肽)。C帽也可包含末端C-末端TALE重复序列的任意部分,包括O残基、TALE重复序列的截断或完整TALE重复序列。C-末端区的前20个残基通常与TALE重复单元的前20个残基同源以及可包含能够指示通过TALE重复结构域表示的DNA序列的核苷酸3'的优选性的RVD序列。当存在时,与TALE重复序列的前20个残基同源的C-末端区的该部分也称为“半重复序列”。在C-末端区中残基的编码方案反映该典型部分同源性,其中编码方案开始于C-20,朝向多肽的C-末端递增至C-19、C-18、C-17、C-16、C-15、C-14、C-13、C-12、C-ll、C-10、C_9、C_8、C_7、C_6、C_5、C_4、C_3、C_2、C-1,递增至 C+1,然后递增至C+2、C+3等。C+28C帽是指来自残基C-20至残基C+28(包含在内)的序列,因而其具有48个残基的长度。C帽序列可以为天然存在的(例如,天然存在的蛋白的片段)或非天然存在的(例如,包含一个或多个氨基酸缺失、取代和/或添加的天然存在的蛋白的片段),或者具有用作C帽能力的任意其他天然或非天然序列。对于TALE重复结构域的DNA-结合功能,不是绝对需要C-末端区;但是,在一些实施方案中,C帽可与DNA相互作用以及也可增强例如在包含核酸酶的融合蛋白中在C-末端至TALE重复结构域处功能结构域的活性。
“锌指DNA结合蛋白”(或结合结构域)是在通过一个或多个锌指以序列特异性方式结合DNA的蛋白或较大蛋白内的结构域,其是在结合结构域内氨基酸序列的区,该结合结构域的结构通过锌离子的配位来稳定。术语锌指DNA结合蛋白通常简称为锌指蛋白或ZFP。包含TALE-重复结构域的“选择的”锌指蛋白或蛋白是主要由经验过程制备的蛋白,例如噬菌体展示、相互捕获或杂交选择。参见,例如,US 5, 789, 538 ;US 5,925, 523 ;US6,007,988 ;US 6,013,453 ;US 6,200,759 ;W0 95/19431 ;W0 96/06166 ;W0 98/53057 ;W098/54311 ;W0 00/27878 ;W0 01/60970 ;W0 01/88197 以及 WO 02/099084。术语“序列”是指任意长度的核苷酸序列,其可以为DNA或RNA ;可以为线性、环状或分支以及可以为单链或双链。术语“供体序列”是指被插入基因组内的核苷酸序列。供体序列可以具有任意长度,例如长度为2至10,000个核苷酸(或者在其中或其上的任意整数),优选长度为约100至1,000核苷酸(或其中的任意整数),更优选长度为约200至500核苷酸。 “同源、不同的序列”是指与第二序列具有一定程度的序列同一性的第一序列,但这些序列与第二序列并不相同。例如,包含突变基因的野生型序列的多核苷酸与突变基因的序列同源但不相同。在某些实施方案中,两种序列之间的同源程度足够使得可利用常规细胞机制来在它们之间同源重组。两种同源、不同的序列可以为任意长度以及它们非同源程度可以小到仅单个核苷酸(例如,通过靶向同源重组来校正基因组点突变)或者大到10或更多千碱基(例如,在染色体中在预定的异位位点处插入基因)。包含同源、不同的序列的两种多核苷酸不需要长度相同。例如,可使用20至10,000个核苷酸或核苷酸对的外源性多核苷酸(即,供体多核苷酸)。测定核酸和氨基酸序列同一性的技术是本领域已知的。通常,这些技术包括测定基因的mRNA的核苷酸序列和/或测定由此编码的氨基酸序列,以及比较这些序列与第二核苷酸或氨基酸序列。也可以这种方式来测定和比较基因组序列。通常,识别是指两种多核苷酸或多肽序列分别的精确核苷酸至核苷酸或者氨基酸至氨基酸对应。通过测定它们识别百分比同一性可比较两个或更多个序列(多核苷酸或氨基酸)。无论核酸或氨基酸序列,两种序列的百分比同一性是在两个比对序列之间精确匹配数目除以较短序列的长度,然后乘以 100。可选择地,通过在使得可在同源区之间形成稳定双链体的条件下杂交多核苷酸,然后使用单链特异性核酸酶来消化,以及测定消化的片段大小可测定多核苷酸之间的序列类似性程度。如使用以上方法测定,当在限定长度的分子上序列展现出至少约70% -75%,优选80% -82%,更优选85% -90%,甚至更优选92%、又更优选95%、以及最优选98%序列同一性时,两种核酸或两个多肽序列基本上彼此同源。如本文所使用,基本上同源也是指显示与指定的DNA或多肽序列完全同一性的序列。基本上同源的DNA序列可在例如特定体系所限定的严格的条件下的Southern杂交试验中鉴定。所限定的合适杂交条件是在本领域技术范围内。参见,例如 Sambrook 等,同上NucleicAcid Hybridization A PracticalApproach, B. D. Hames 和 S. J. Higgins 编辑,(1985) Oxford !Washington, DC ;IRL Press)。“重组”是指在两种多核苷酸之间交换遗传信息的过程。为了本公开,“同源重组(HR) ”是指例如在细胞中通过同源重组修复机制在双链断裂的修复时发生的这些交换的指定形式。该过程需要核苷酸序列同源性,使用“供体”分子以模板化“靶”分子(即,经过双链断裂的一者)的修复,并且因为它导致遗传信息由供体转移至靶,该过程分别称为“非交叉基因转换”或者“短段基因转换(short tract geneconversion) ”。不希望受任何特定理论的约束,这些转移可包括在破碎的靶和供体之间形成的异源双链DNA的错配校正;和/或“合成依赖性链退火(synthesis-dependent strand annealing) ”,其中供体用于再合成将成为靶的一部分的遗传信息,和/或相关过程。这些指定的HR通常导致靶分子的序列改变,使得一部分或所有供体多核苷酸的序列被并入靶多核苷酸内。在本公开的方法中,如本文所述的一种或多种靶向核酸酶在靶序列(例如,细胞染色质)中预定位点处产生双链断裂,以及可将与在断裂区中核苷酸序列具有同源性的“供体”多核苷酸引入细胞内。已经显示双链断裂(DSB)的存在有助于供体序列的整合。可将供体序列物理整合;或者可选择地,供体多核苷酸用作通过同源重组的断裂修复的模板,导致所有或者一部分核苷酸序列作为供体被引入细胞染色质内 。因此,在细胞染色质中第一序列可改变;以及在某些实施方案中,可将该第一序列转化为存在于供体多核苷酸中序列。因此,术语“使置换”或“置换”的使用可理解为表示一个核苷酸序列被另一个置换(即,在信息意义上序列的置换);以及一个多核苷酸不一定需要被另一多核苷酸物理或化学置换。在一些实施方案中,通过本文所述的靶向核酸酶来弓I入两个DSB,这导致在DSB之间的DNA缺失。在一些实施方案中,“供体”多核苷酸插入两个DSB之间。因此,在某些实施方案中,与目标区中序列同源的供体序列部分与被置换的基因组序列展现出约80至99% (或之间的任意整数)序列同一性。在其他实施方案中,例如如果在超过100个连续碱基对的供体和基因组序列之间仅有I个核苷酸不同,则在供体和基因组序列之间的同源性高于99%。在某些情况下,供体序列的非同源性部分可含有在目标区中不存在的序列,使得新序列被引入目标区中。在这些例子中,这些非同源序列通常旁侧连接与目标区中序列同源或相同的50-1,000碱基对(或其中的任意整数值)或者大于1,000的任意数目的碱基对的序列。在其他实施方案中,供体序列与第一序列非同源,以及通过非同源重组机制插入基因组内。在本文所述的任意方法中,融合至核酸酶结构域的另外的TALE-融合蛋白以及TALE-(或锌指)核酸酶的另外的对可用于在细胞内另外的靶位点的另外的双链切割。通过破坏目标基因的表达的供体序列的靶向性整合,本文所述的任意方法可用于在细胞中一个或多个靶序列的部分或完全失活。也提供具有部分或完全失活基因的细胞系O而且,如本文所述的靶向性整合方法也可用于整合一个或多个外源性序列。外源性核酸序列可包含例如一种或多种基因或者CDNA分子、或者任意类型的编码或非编码序列、以及一种或多种控制元件(例如,启动子)。此外,外源性核酸序列可制备一种或多种RNA 分子(例如,发夹 RNA (shRNA)、抑制 RNA (RNAi)、微 RNA (miRNA)等)。“切割”是指DNA分子的共价主链断裂。可通过包括但不限于磷酸二酯键的酶或化学水解的各种方法来开始切割。可能为单链切割和双链切割,并且双链切割可由两个不同单链切割事件所致。DNA切割可导致平端或交错末端。在某些实施方案中,融合多肽用于靶向的双链DNA切割。“切割半结构域”是连同第二多肽(相同或不同)形成具有切割活性(优选双链切割活性)的复合物的多肽序列。术语“第一和第二切割半结构域”、“+和-切割半结构域”以及“左和右切割半结构域”可交换使用以表示二聚化的切割半结构域的对。“工程化切割半结构域”是经修饰以形成具有另一切割半结构域(例如,另一工程化的切割半结构域)的专性异源二聚体的切割半结构域。也参见,美国专利公开No. 2005/0064474 ;2007/0218528和2008/0131962,其以引用方式整体并入本文中。“染色质”是包含细胞基因组的核蛋白结构。细胞染色质包含主要为DNA的核酸以及包括组蛋白和非组蛋白染色体蛋白的蛋白。大部分真核细胞染色质以核小体形式存在,其中核小体核心包含与包含各组蛋白H2A、H2B、H3和H4中两种的八聚合体相关的DNA的约150个碱基对;以及接头DNA (取决于生物体具有各种长度)延伸在核小体核心之间。组蛋白Hl的分子通常与接头DNA相关。为了本公开,术语“染色质”意指涵盖原核和真核的所有类型的细胞核蛋白。细胞染色质包括染色体和附加体染色质。
“染色体”是包含所有或者一部分细胞基因组的染色质复合物。通常细胞的基因组的特征在于它的核型,其是包含细胞的基因组的所有染色体的集合。细胞的基因组可包含一种或多种染色体。“附加体(episome)”是包含不是细胞的染色体核型的一部分的核酸的复制核酸、核蛋白复合物或其他结构。附加体的例子包括质粒和某些病毒基因组。“靶位点”或“靶序列”是定义为在结合充足条件存在下,结合分子结合至的核酸一部分的核酸序列。例如,序列5’ -GAATTC-3’是Eco RI限制性核酸内切酶的靶位点。“植物”细胞包括但不限于单子叶(单子叶植物类)或双子叶(双子叶植物类)植物的细胞。单子叶植物类的非限制性例子包括谷类植物,例如玉米、水稻、大麦、燕麦、小麦、高粱、黑麦、蔗糖、凤梨、洋葱、香蕉和椰子。双子叶植物类的非限制性例子包括香烟、西红柿、向日葵、棉花、甜菜、马铃薯、生菜、甜瓜、大豆、油菜籽(canola)(油菜籽(rapeseed))和苜蓿。植物细胞可来自植物的任意部位和/或来自植物生长的任意阶段。“外源性”分子是通常不出现在细胞中,但是可通过一种或多种遗传、生化或其他方法引入细胞内的分子。在细胞的特定发育阶段和环境条件下测定“在细胞中正常存在”。因此,例如,仅在肌肉的胚胎发育中出现的分子对于成年人肌肉细胞来说为外源性分子。类似地,通过热激引入的分子相对未进行热激的细胞而言为外源性分子。外源性分子可包含例如功能失常性内源性分子的功能版本或者正常功能内源性分子的功能失常版本。外源性分子也可以是通常在另一物种中出现的分子,例如,被引入动物基因组的人序列。除这些之外,外源性分子可以为例如通过组合化学方法产生的小分子或者诸如蛋白、核酸、糖类、脂质、糖蛋白、脂蛋白、多糖、以上分子的任意修饰的衍生物、或者包含以上分子的一种或多种的任意复合物的大分子。核酸包括DNA和RNA ;可以为单链或双链;可以为直链、分支或环状;以及可具有任意长度。核酸包括能够形成双链体的核酸,以及形成
三链体的核酸。参见,例如,美国专利No. 5,176,996和5,422,251。蛋白包括但不限于DNA-结合蛋白、转录因子、染色质重塑因子、甲基化的DNA结合蛋白、聚合酶、甲基化酶、脱甲基化酶、乙酰基转移酶、脱乙酰基酶、激酶、磷酸酶、整合酶、重组酶、连接酶、拓扑异构酶、促旋酶和解旋酶。外源性分子可以为内源性分子的相同类型的分子,例如外源性蛋白或核酸。例如,外源性核酸可包含在细胞中通常不存在的引入细胞或染色体的感染病毒基因组、质粒或附加体。将外源性分子引入细胞内的方法是本领域技术人员已知的,并且这些方法包括但不限于脂质介导的转移(即,脂质体,包括中性和阳离子脂质)、电穿孔、直接注射、细胞融合、粒子轰击、磷酸钙共沉淀、DEAE-葡聚糖-介导的转移以及病毒载体介导的转移。相反,“内源性”分子是在特定环境条件下在特定发育阶段通常存在于特定细胞中的一种分子。例如,内源性核酸可包含染色体、线粒体的基因组、叶绿体或其他细胞器、或者天然存在的附加体核酸。另外的内源性分子可包括蛋白,例如转录因子和酶。“融合”分子是其中两个或更多个亚单位分子连接(优选共价)的分子。亚单位分子可以为相同化学类型的分子,或者可以为不同化学类型的分子。第一类融合分子的例子包括但不限于融合蛋白(例如,在TALE-重复结构域和切割结构域之间的融合)和融合核酸(例如,编码以上所述的融合蛋白的核酸)。第二类融合分子的例子包括但不限于形成三链体的核酸和多肽之间的融合;以及小沟结合物(minorgroove binder)和核酸之间的融
口 ο 可由融合蛋白递送至细胞或者通过递送编码融合蛋白的多核苷酸至细胞来导致在细胞中融合蛋白的表达,其中多核苷酸被转录,转录物被翻译以生成融合蛋白。反式剪接、多肽切割和多肽连接也可牵涉在细胞中蛋白的表达。多核苷酸和多肽递送至细胞的方法呈现在该公开的其他地方。为了本公开,无论这些调控序列是否与编码和/或转录的序列相邻,“基因”包括编码基因产物的DNA区(见下)、以及调节基因产物的生成的所有DNA区。因此,基因包括但未必限于启动子序列、终止子、诸如核糖体结合位点和内部核糖体进入位点的翻译调控序列、增强子、沉默子、绝缘子、边界元件、复制起点、基质附着位点和基因座控制区。“基因表达”是指在基因中包含的信息转化至基因产物内。基因产物可为基因的直接转录产物(例如,mRNA、tRNA、rRNA、反义RNA、核酶、结构RNA、shRNA、RNA1、miRNA或任意其他类型的RNA)或者通过翻译mRNA制备的蛋白。基因产物也包括通过诸如加帽、多腺苷酸化、甲基化和编辑的方法来修饰的RNA以及通过诸如甲基化、乙酰化、磷酸化、遍在蛋白化、ADP-核糖基化、肉豆蘧基化(myristilation)和糖基化来修饰的蛋白。“缺口大小”是指在核酸靶上两个TALE靶位点之间的核苷酸。缺口可以为任意大小,包括但不限于I至100个碱基对;或者5至30个碱基对;优选10至25个碱基对;以及更优选12至21个碱基对。因此,优选的缺口大小可以为12、13、14、15、16、17、18、19、20或21个碱基对。基因表达的“调节”是指基因的活性改变。表达的调节可包括但不限于基因激活和基因抑制。基因组编辑(例如,切割、改变、失活、供体整合、随机突变)可用于调节表达。基因失活是指与不包括如本文所述的修饰剂的细胞相比基因表达的任何减少。因此,基因失活可以为部分或全部的。“目标区”是细胞染色质的任何区,例如基因或在基因内或邻近基因处的非编码序列,其中需要使其结合外源性分子。结合可以用于靶向DNA切割和/或靶向重组的目的。目标区可存在于例如染色体、附加体、细胞器的基因组(例如,线粒体、叶绿体)或者感染病毒基因组。目标区可以在基因的编码区内;在转录的非编码区内,例如引导序列、尾随序列或内含子;或者在非转录的区域内,在编码区的上游或下游。目标区的长度可以小到为单个核苷酸对或者至多2,000个核苷酸对,或者核苷酸对的任意整数值。
术语“操作性连接”和“操作性连接的”(或者“可操作连接的”)在提及两个或更多个组件(例如序列元件)的并列时可交换使用,其中布置组件使得两组件正常运作以及使得组件中至少一个可介导在其他组件中至少一个上发挥的功能的可能性。以示意的方式,如果转录调控序列控制与存在或不存在一个或多个转录调控因子相对应的编码序列的转录水平,则诸如启动子的转录调控序列操作性连接至编码序列。转录调控序列通常顺式操作性连接编码序列,但不需要直接连接编码序列。例如,尽管它们不是连续的,但增强子操作性连接至编码序列的转录调控序列。关于融合多肽,术语“操作性连接的”可以指与其他组件连接的各组件进行与它们未如此连接时的相同功能的事实。例如,对于其中TALE-重复结构域融合至切割结构域的融合多肽,如果在融合多肽中,TALE-重复结构域部分能够结合它的靶位点和/或它的结合位点,而切割结构域能够切割在靶位点附件的DNA时,则TALE-重复结构域和切割结构域操作性连接。蛋白、多肽或核酸的“功能性片段”是其序列与全长型蛋白、多肽或核酸不同,但与全长型蛋白、多肽或核酸相比保持相同功能或具有增强功能的蛋白、多肽或核酸。此外,功能性片段可具有比全长型蛋白、多肽或核酸更弱的功能,但是还具有如通过用户限定的足够功能。功能性片段可具有如对应的天然分子的更多、更少或相同数目的残基;和/或可含有一种或多种氨基酸或核苷酸取代。测定核酸功能(例如,编码功能、与另一核酸杂交的能力)的方法是本领域公知的。类似地,测定蛋白功能的方法是公知的。例如,通过诸如滤膜结合、电泳泳动移位或免疫沉淀法可测定多肽的DNA-结合功能。通过凝胶电泳可测定DNA切割。参见Ausubel等,同上。通过例如免疫共沉淀、双杂交测定或者互补可遗传和生化测定蛋白与另一蛋白相互作用的能力。参见,例如,Fields等(1989)Nature 340 =245-246 ;美国专利 No. 5,585,245 以及 PCT WO 98/44350。例如通过工程化诸如在TALE蛋白内重复单元的位置12和/或13处的高变二残基区(改变一种或多种氨基酸),可将TALE-重复结构域“工程化”以结合预定核苷酸序列。在一些实施方案中,可工程化在位置4、11、和32处氨基酸。在其他实施方案中,可选择非典型RVD用在工程化TALE蛋白中,使能指定更宽范围的非天然靶位点。例如,可选择NKRVD用于识别在靶序列中G核苷酸。在其他实施方案中,可改变在重复单元中氨基酸以改变重复单元的特征(即稳定性或二级结构)。因此,工程化TALE蛋白是非天然存在的蛋白。在一些实施方案中,将编码TALE重复结构域的基因在DNA水平下工程化,使得指定TALE重复序列氨基酸的密码子被改变,但指定的氨基酸未改变(例如,通过密码子优化的已知技术)。工程化TALE蛋白的非限制性例子是通过设计和/或选择获得的那些。设计的TALE蛋白是自然界不存在的蛋白,其设计/组成主要源于合理标准。设计的合理标准包括应用取代规则和计算机算法以用于处理在储存存在的TALE设计和结合数据的信息的数据库中的信息。“选择的”TALE-重复结构域是非天然存在的或者非典型的结构域,其制备主要源于诸如噬菌体展示、相互捕获或杂交选择的经验方法。“多聚化结构域”是在TALE-融合蛋白的氨基、羧基或者氨基和羧基末端区并入的结构域。这些结构域使得可多聚化多种TALE-融合蛋白单元。多聚化结构域的例子包括亮氨酸拉链。也可通过小分子来调控多聚化结构域,其中多聚化结构域具有合适的构象以使 得仅在小分子或外部配体的存在下可与另一多聚化结构域相互作用。以这种方式,外源性配体可用于调控这些结构域的活性。在以上方法中可使用的靶位点可经其他标准来评估或者可将靶位点直接用于设计或选择(如果需要)以及制备对该位点特异的TALE-融合蛋白。用于评估可能靶位点的进一步的标准是在基因内邻近特定区的那些。可选择不必一定包括或者重叠使用靶基因可证实生物意义的片段的靶位点,例如调控序列。用于进一步评估靶片段的其他标准包括结合至这些片段或相关片段的TALE-融合蛋白的现有可用性,和/或易于设计新TALE-融合蛋白以结合给定靶片段。在选择靶片段之后,可通过各种途径来提供结合片段的TALE-融合蛋白。一旦已经选择、设计TALE-融合蛋白或者另外提供至给定靶片段,则合成TALE-融合蛋白或编码其的DNA。用于合成和表达编码包含TALE-重复结构域的 蛋白的DNA的示例性方法示出如下。然后可将TALE-融合蛋白或者编码它的多核苷酸用于调节表达或者分析TALE-融合蛋白结合的包含靶基因的靶位点。TALE DNA结合结构域本文所述的多肽包含一个或多个(例如,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或甚至更多)个TALE-重复单元。已经研究包含多个TALE-重复单元的TALE DNA结合结构域以测定负责特异性的序列。在一种生物体内,TALE重复序列通常被高度保守的(除了 RVD),但在不同物种可以为未较好保守的。本文所述多肽中发现的TALE-重复单元通常具有形式=X1-X2-X3-X4-X5-X6-X7-X8-X9-X10-Xn-(Xevd) 2-⑴2Q_22 (SEQ ID NO :399),其中X是牵涉DNA结合的任意氨基酸和X (位置12和13)。这些结构域的非限制示例性实施方案包括其中X1包含亮氨酸(L)或甲硫氨酸(M)残基的实施方案;其中Xltl包含丙氨酸㈧残基或缬氨酸(V)残基的实施方案;其中(X)2Q-22包含序列(Gly或Ser)-(X)19_21(SEQ IDNO :400)的实施方案;其中⑴關包含序列⑴3_4_(Ala或Thr)-(X)16_17(SEQ ID NO :401)的实施方案;其中(X)2(|_22包含序列(X)4_5-(Leu*Val)-(X)15_16(SEQ ID NO :402)的实施方案;以及以上实施方案的任意组合(例如,X1包含亮氨酸(L)或甲硫氨酸(M)残基以及Xltl包含丙氨酸(A)残基A1包含L或M以及(X) 20-22 包含序列 Gly/Ser- (X) 19_21 ; (X) 20_22 包含序列 Gly/Ser- (X) 2_3-Ala/Thr_ (X) 16_17 ;Xici包含丙氨酸(A)或缬氨酸(V)残基以及(X)2ch22包含序列Gly/Ser-(X) 19_21等)。本文所述的组合物和方法的TALE-重复单元可由任意合适的TALE-蛋白衍生。TALE蛋白的非限制性例子包括由青枯菌属或者黄单胞菌属衍生的TALE蛋白。因此,在一些实施方案中,DNA-结合结构域包含一种或多于一种、或者多种由植物病原体黄单胞菌属衍生的天然存在的和/或工程化的TALE-重复单元(参见Boch等,(2009) Science 326 1509-1512 以及 Moscou 和 Bogdanove,(2009) Science326 :1501)。在其他实施方案中,DNA-结合结构域包含一种或多种由植物病原体青枯雷尔氏菌衍生的天然存在的和/或工程化的TALE-重复单元、或者来自TALE蛋白家族的其他TALE DNA结合结构域。如本文所述的TALE DNA结合结构域(包含至少一个TALE重复单元)可包括(i) 一个或多个在自然界中未发现的TALE重复单元;(ii) 一个或多个天然存在的TALE重复单元;(iii)具有非典型RVD的一个或多个TALE重复单元;以及⑴、(ii)和/或(iii)的组合。在一些实施方案中,本发明的TALE DNA结合结构域由完全非天然存在的或非典型的重复单元组成。而且,在包含两个或更多个TALE-重复单元的如本文所述的多肽中,TALE-重复单元(天然存在的或工程化的)可由相同物种衍生或者可选择地可由不同物种衍生。表I显示在两个TALE蛋白内示例性重复单元的比对。各TALE重复序列显示在各列中单独行处,其表示重复序列类型、该重复序列的起始位置、重复序列的名称、在高变位置处的残基以及全部重复序列。表1:来自昔单朐菌属的两种TALE的TALE DNA结合结构域比较TALE AAA27592.1 (6. O 个重复序列)
权利要求
1.一种分离的、非天然存在的DNA-结合多肽,包含至少一个TALE-重复单元;N帽多肽;以及C帽多肽,其中所述C帽多肽包含TALE蛋白的片段。
2.根据权利要求1所述的分离的多肽,其中至少一个TALE-重复单元包含非典型重复可变二残基(RVD)。
3.根据权利要求2所述的多肽,其中所述蛋白质包含如表27中所示的非典型RVD。
4.根据权利要求1至3中任一项所述的多肽,其中所述C帽多肽的长度小于约230个氨基酸。
5.根据权利要求1至5中任一项所述的多肽,其中所述C帽包含TALE重复结构域。
6.一种融合蛋白,其包含根据权利要求1至5中任一项所述的多肽以及至少一个功能结构域。
7.根据权利要求6所述的融合蛋白,其中所述功能结构域是转录激活因子或转录抑制因子。
8.根据权利要求7所述的融合蛋白,其中所述功能结构域包含核酸酶。
9.根据权利要求8所述的融合蛋白,其中所述核酸酶包含至少一个来自IIS型核酸内切酶的切割结构域或切割半结构域。
10.一种多核苷酸,其编码根据权利要求1至5中任一项所述的多肽或 者根据权利要求 6至9中任一项所述的融合蛋白。
11.一种宿主细胞,其包含根据权利要求1至5中任一项所述的多肽、根据权利要求6 至9中任一项所述的融合蛋白或者根据权利要求10所述的多核苷酸。
12.—种药物组合物,其包含根据权利要求1至5中任一项所述的多肽、根据权利要求 6至9中任一项所述的融合蛋白或者根据权利要求10所述的多核苷酸。
13.—种调节内源性基因在细胞中表达的方法,所述方法包括将根据权利要求6至9中任一项所述的融合蛋白或者编码所述融合蛋白的多核苷酸引入细胞,其中所述融合蛋白包含TALE-重复结构域,所述TALE-重复结构域结合到所述内源性基因中的靶位点,以及另外其中调节所述内源性基因的表达。
14.根据权利要求13所述的方法,其中所述调节包括基因激活。
15.根据权利要求13所述的方法,其中所述调节包括基因抑制或失活。
16.根据权利要求15所述的方法,其中所述融合蛋白包含切割结构域或切割半结构域,以及所述内源性基因通过切割而失活。
17.根据权利要求16所述的方法,其中所述失活通过非同源性末端接合(NHEJ)而发生。
18.—种在细胞的基因组中修饰目标区的方法,所述方法包括将根据权利要求8或9所述的至少一个融合蛋白、或者编码所述融合蛋白的多核苷酸弓I入所述细胞,其中所述融合蛋白包含TALE-重复结构域,所述TALE-重复结构域结合在所述细胞的所述基因组中的靶位点,并且所述融合蛋白在所述目标区切割所述基因组。
19.根据权利要求18所述的方法,其中所述修饰包括在所述目标区引入缺失。
20.根据权利要求18所述的方法,其中所述修饰包括将外源性核酸引入所述目标区内,所述方法进一步包括将所述外源性核酸引入所述细胞内,其中通过同源重组或NHEJ介导的末端捕获来将所述外源性核酸整合至所述目标区内。
21.根据权利要求13至20中任一项所述的方法,其中所述细胞是选自植物细胞、动物细胞、鱼细胞和酵母细胞的真核细胞。
全文摘要
本文公开了多肽、编码多核苷酸、包含新型DNA-结合结构域的细胞和生物,该新型DNA-结合结构域包括TALE DNA-结合结构域。也公开了使用这些新型DNA-结合结构域用于调节内源性细胞序列的基因表达和/或基因组编辑的方法。
文档编号A61K38/16GK103025344SQ201180034243
公开日2013年4月3日 申请日期2011年5月17日 优先权日2010年5月17日
发明者P·D·格雷戈里, J·C·米勒, D·帕斯乔恩, E·J·瑞巴, S·谭, F·诺弗, L·张 申请人:桑格摩生物科学股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1