一种构建tale重复序列的方法

文档序号:412394阅读:1255来源:国知局
专利名称:一种构建tale重复序列的方法
技术领域
本发明属于分子生物学领域,涉及一种构建TALE重复序列的方法。
背景技术
对内源基因进行定点修饰不论对于生物学基础研究还是临床治疗都具有极大的吸引力。虽然人工锌指核酸酶(zinc finger nuclease)的出现大大促进了基因组祀向修饰技术,但是筛选出能够高效、特异结合特定DNA序列的锌指蛋白仍然是一个相当大的技术难题。来自于植物病原体 Xanthomonas 的 transcription activator-like effector(TALE)能够侵染植物宿主,通过识别特异的DNA序列调控宿主植物内源基因的表达,降低宿主的抵抗力,提高其易感性(图I )。目前已知TALE家族有超过100个基因成员(Boch,J. &Bonas, U. , 2010, Annu Rev Phytopathol, 48:419-436.)。研究表明,TALE 蛋白中的 DNA ·结合结构域具有特异性识别并结合DNA序列的特性(Boch,J. et al.,Science, 2009, 326:1509-1512.),它主要由I到33个长度为33-35个氨基酸残基的重复单位(或称重复单元)串联后,再加上末尾的一个含有20个氨基酸残基的半重复单位构成;此外,位于重复区两端的部分非重复序列(N端的136个氨基酸和C端的63个氨基酸)对于TALE蛋白识别并结合DNA的效率和特异性也有重要帮助(图I)。即一个活性和特异性较高的TALE蛋白的DNA结合结构域除了包含I. 5-33. 5个TALE重复单位之外,应该还包括其N端和C端的部分非重复序列。其中每个重复单位以及末尾的半重复单位可特异地识别并结合一个特定的核苷酸靶位点。在每个重复单位中,+12和+13位的氨基酸残基是实现靶向识别特异DNA碱基的关键位点,被称作重复可变二残基(repeat variable di-residue,简称RVD)位点;其它位点的氨基酸残基则相对固定(图I)。不同的RVD能够分别特异识别A、T、C、G四种碱基。由此可见,相对于锌指蛋白,TALE结合DNA的方式更便于预测和设计,因此在生命科学基础理论研究、疾病模型建立、疾病预防与治疗,以及农林牧渔业经济物种遗传改造等领域具有广阔的应用前景。将TALE的DNA结合结构域与其它蛋白质不同的功能结构域融合后,可以得到各种衍生的融合蛋白,这样,在理论上就能够对特定的基因组位点进行靶向突变和修饰。例如,与FokI核酸内切酶的切割结构域融合后,能够对基因组的特定靶位点进行定向切割,从而实现基因打靶(Christian, M. et al.,2010, Genetics, 186:757-761.);与转录激活结构域或抑制结构域融合后,能够特异调控靶基因的表达(Zhang,F. et al.,2011,NatBiotechnol, 29:149-153.);与甲基化结构域融合后,应该能够甲基化基因组上的特定位点。TALE的DNA结合结构域与FokI的切割结构域融合形成的人工蛋白质称为TALE核酸酶(TALE nuclease,简称TALEN)(图3中的a)。目前,基于TALE的DNA改造技术越来越受到人们的青睐,而构建识别特定DNA序列的TALE就成为了这一技术中的关键步骤。然而,为了保证TALE蛋白识别DNA序列的特异性,人工构建的TALE蛋白DNA结合结构域通常需要含有10个以上的重复单元,总长度大于lOOObp。因此,TALE串联重复序列的构建难度较大,成为TALE应用中的主要瓶颈。目前,构建TALE串联重复序列及TALE蛋白DNA结合结构域的主要方法包括人工合成全长的TALE序列,以及基于Golden Gate的载体克隆技术等两种方法。Golden Gate的基本原理如下把IIS类限制性内切酶的识别位点分别反向放置在任何一段DNA片段的5’和3’端,通过酶切反应,识别位点本身被切除,并在5’和3’留下粘性末端。如果两段DNA序列具有互补的粘性末端,就可以通过连接反应连接在一起。将多段序列分别设计具有序列不同的互补性的粘性末端,就可以通过一次连接反应将这些序列顺序连接起来(Engler, C. et al. , 2009, PLoS ONE, 4:e5553.)(图 2)。AvrBs3 是TALE家族的一个蛋白,它含有17. 5个重复单元,每个重复单元含有34个氨基酸。以AvrBs3为框架,通过PCR对分别包括识别四种碱基的RVD的4种重复单位两端引入BsaI的酶切位点和粘性末端序列,可以得到17X4=68种基础I旲块。由于Golden Gate法每次可以闻效连接9个DNA片段,因此可以分两次连接,最终得到含有17. 5个重复单位的人工TALE蛋白,该蛋白可识别长度为18个核苷酸的特异的DNA序列(Weber,E. et al.,2011,PLoSONE, 6:el9722. )。Morbitzer等人也报道了分两步构建TALE的类似方法(Morbitzer, R.et al.,2011,Nucleic Acids Res, 39:5790-5799.)。另外一种方法对上述的 Golden Gate方法进行了一定的改进,主要利用了在每一对天然存在的TALE重复单元之间交界位置的Gly-Leu双氨基酸的编码序列。根据密码子的简并性,编码这两个氨基酸的密码子一共有四个碱基可替换(编码Gly有4个密码子,编码Leu有6个密码子),因此一共可以有24种·不同的组合。这样就可以人为设计出24种不同的TALE重复单元的交界序列。在具体实验中,可以先使用12对不同的PCR引物对每一种RVD重复进行克隆,并加入IIS类内切酶的识别位点。酶切后,将每4个重复进行连接,并用PCR进行扩增,得到3组4-重复体;再次酶切、连接并PCR扩增,得到12-重复体。最后连入目的载体中(Zhang, F. et al., 2011, NatBiotechnol, 29:149-153.)。还有一种稍有不同的方法则是利用了存在于AvrBs3等TALE中的IIS型限制性内切酶BsmBI的酶切位点。它紧邻于+18和+19位的密码子,即GCGCTG之后。使用BsmBI酶切后,可产生GCTG凸出的粘性末端。根据密码子的简并性,GC (A/T/C/G) (T或C)TG这8种密码子组合都能产生与内源编码相同的氨基酸密码子,从而可以人工设计出8种不同的粘性末端。接下来分别合成带有这8种末端的含有识别4种碱基的RVD的模块,一共分为8组。使用BsmBI酶切后,可得到独特的5’和3’粘性末端,顺序连接,一次可以合成8个识别特定DNA序列的重复单位。经过二次连接可获得识别16个或24个碱基的重复序列(Li, T. et al. , 2011, Nucleic Acids Res, doi : 10. 1093/nar/gkrl88)。总之,这些方法都是基于Golden Gate的载体构建理念,人为地在重复单元的两侧设计出不同的粘性末端序列,并依次连接而成。直接合成法最大的缺陷在于价格昂贵,并且合成大于IOOObp的DNA的成功率和准确率很低。基于Golden Gate的方法在最初需要比较复杂的PCR引物和DNA片段设计,以便得到合适的粘性末端序列,从而将重复序列依次顺序连接。在实验过程中需要构建大量的载体或使用很多引物,有时还需要PCR扩增。而且,Golden Gate的方法是一步法进行酶切和连接,条件控制严格而复杂,需要较长的摸索和调整,效率和成功率有待更多的实践和时间检验。此外,基于一步法连接能够连接的片段长度有限,得到超过10个重复单元的效率因而非常低下。虽然可以通过分步连接获得更多的重复,但是同时又增加了实验操作的难度。这些问题的存在使已知的方法限制了快速常规地构建TALE
发明内容
为了解决上述问题,本发明提供一种简便的构建TALE重复序列及TALE蛋白DNA结合结构域编码载体的方法,可称为“单元组装”法。本发明首先提供用于构建TALE重复序列的旁单元,其为两端含有同尾酶或不同的平末端酶识别位点的重复单元DNA片段,所述的重复单元DNA片段编码含有NI、NG、HD、NK或NN的重复可变二残基(RVD)的重复单元或其变体,其中,在5 ’端同尾酶或平末端酶的识别位点中,识别位点的3’端至少有I个核苷酸参与编码旁单元N端的氨基酸;在3’端同尾酶或平末端酶的识别位点中,识别位点的5’端至少有I个核苷酸参与编码旁单元C端的氨基酸。本领域技术人员应该理解,本发明所述的重复单元包括本领域技术人员已知的TALE重复单元,或者其变体。本领域技术人员也应当理解,在TALE天然重复序列的非保守区域或非功能区域,如非RVD区域、+14位Gly和+15位Gly,添加、删除或改变一个或几个
氨基酸不会影响其重复单元的功能(即识别与结合DNA的能力)。其中,所述的同尾酶切割后通过粘末端相连或平末端酶切割后平末端连接后的旁单元不改变重复单元氨基酸的编码。本发明选用了 NI、NG、HD、NK和NN这五种重复可变二残基(RVD)用于构建TALE重复中的“旁单元”,它们分别对应识别A、T、C和G等4种核苷酸(其中NK和NN都对应G)。本发明中,所述的旁单元编码的重复单元的氨基酸序列如SEQ ID No. f 15任一所示,所述的旁单元的核苷酸序列如SEQ IDNo. 16 30任一所示。本发明还提供含有所述的旁单元序列的单一旁单元载体。在本发明所述单一旁单元载体的一个实施方案中,为了便于进行基因工程操作,还可以在同尾酶或平末端酶识别位点的外侧设计至少一个其它的内切酶识别位点。本发明单一旁单元载体的一个具体实施方案中,在NheI的识别位点的外侧添加了 HindIII识别位点。本发明还提供含有任意重复数、任意排列顺序的旁单元串联重复序列,含有任意重复数、任意排列顺序的旁单元串联重复序列的载体,以及含有所述的旁单元串联重复序列的编码人工TALE蛋白DNA结合结构域及其衍生的各种融合蛋白的载体。本发明还提供所述的旁单元串联重复序列的构建方法,其包括如下步骤I)用所述的同尾酶分别切割任意旁单元,再将切割的任意旁单元通过粘末端相连,获得头尾相接、串联排列的双旁单元;2)重复采用步骤I)所述的酶切-连接的操作组装成含有任意重复单元数的旁单元串联重复序列;或I)用所述的平末端酶分别切割任意旁单元,再将切割的任意旁单元平末端相连,获得获得头尾相接、串联排列的双旁单元;2)重复采用步骤I)所述的酶切一连接的操作组装成含有任意重复单元数、任意排列顺序的旁单元串联重复序列。本发明还提供所述的含有旁单元串联重复序列的载体的构建方法,其特征在于,包括如下步骤I)用所述的互为同尾酶中的一个和所述的内切酶切割任意一个单一旁单元载体,用所述的互为同尾酶中的另一个和所述的内切酶切割任意另一个单一旁单元载体,再将两者含有旁单元的酶切产物进行连接,获得双旁单元载体,该载体含有头尾相接、串联排列的两个旁单元;2)重复采用步骤I)所述的酶切一连接的操作组装成含有任意重复单元数、任意排列顺序的旁单元串联重复载体;或I)用其中一个平末端酶和所述的内切酶切割任意一个单一旁单元载体,用其中另一个平末端酶和所述的内切酶切割任意另一个单一旁单元载体,再将两者含有旁单元的酶切产物进行连接,获得双旁单元载体,该载体含有头尾相接、串联排列的两个旁单元;2)重复采用步骤I)所述的酶切一连接的操作组装成含有任意重复单元数、任意排列顺序的旁单元串联重复载体。在本发明的一个实施方案中,所述的旁单元DNA片段编码典型的天然TALE重复单元中存在的+11位氨基酸残基Ser起至下一重复单元+10位氨基酸残基Ala为止之间的氨基酸序列。通过序列分析后发现,编码Ser的密码子序列为tcn/agt/agc,与之相连的上一个旁单元3’端编码的第一个氨基酸残基应为Ala,相应的密码子为gcn,两个密码子的序列合起来是gcntcn/gcnagt/gcnagc。通过分析发现,限制性内切酶SpeI的识别位点为actagt,该识别位点的3’端的3个核苷酸agt恰好编码该旁单元编码产物N端的氨基酸残基Ser ;此外,其完成切割后留下的3’端核苷酸序列是ctagt,因此不会改变该旁单元编码产物N端的第一个氨基酸残基Ser。这样就可以选择SpeI作为该旁单元5’端的一个候选的同尾酶,即将该旁单元的5’端前6位核苷酸的序列设计成SpeI的识别位点。上述序列C端的氨基酸残基为Ala,相应的密码子序列为gcn,与之相连的下一个旁单元5’端编码的第一个氨基酸残基应为Ser,相应的密码子为tcn/agt/agc,两个密码子的序列合起来是gcntcn/gcnagt/gcnagc。通过分析发现,SpeI的同尾酶NheI的识别位点恰好为gctagc。这样就可以选择NheI作为该旁单元3’端的同尾酶,即将该旁单元的3’端最后6位核苷酸的序列设计成NheI的识别位点。对于任意一种TALE单一重复旁单元载体或其变体,使用Nhel+Hindlll双酶切后,可产生两侧带有粘性末端并且包含旁单元的载体骨架;使用Spel+HindHI进行双酶切后,可获得两侧带有粘性末端并且主要包含旁单元的DNA片段。由于SpeI和NheI是同尾酶,因此只需要通过简单的连接反应,便可以获得一个带有两个头尾相接、串联排列的旁单元重复单位的双旁单元载体(图3中的C)。同时,连接后获得的双旁单元载体仍然只在双旁单元的5’和3’端分别含有SpeI和NheI的识别位点,而经过上一步同尾连接后产生的新位点actagc将不再被这两种酶所识别,从而可以对这种双旁单元载体继续进行上述的酶切一连接反应,而不会破坏已经连接在一起的双旁单元内部的编码序列。此外,虽然连接后的重复单元序列发生了一个单碱基的变化,即从agt变成agc,但是并不影响其编码功能,依然编码同样的氨基酸(Ser)。因此,上述酶切一连接的操作并不会改变重复单元中的氨基酸序列,而只是将两个旁单元串联在一起。这些双旁单元编码载体可以接下来用来构建含有更多重复单元的多旁单元载体。例如,若要构建一个包含9到16个重复单元的旁单元串联重复载体,只需从双旁单元载体开始,经过3轮简单的酶切一连接循环操作就可以完成,费时不超过一周(图4和图6)。更长的旁单元串联重复序列可以很容易地通过更多的酶切一连接循环反应构建出来。这样,在理论上能够构建含有任意重复单元数、任意排列顺序的旁单元串联重复载体。本发明还提供编码TALE蛋白DNA结合结构域载体的构建方法,其包括如下步骤当完成了旁单元串联重复载体的构建后,便可以将其中的旁单元串联重复序列通过亚克隆的方法连入包含TALE蛋白的部分或全部N端和C端非重复序列区编码序列与部分重复单元编码序列的质粒载体中,以获得完整的编码TALE蛋白DNA结合结构域的DNA片段与相应的表达载体。在本发明的一个实施方案中,采用了 PCS2-N+C载体,构建所述的TALE蛋白DNA结合结构域的编码载体。pCS2_N+C 质粒的构建方法如下PCR 扩增 Xanthomonas axonopodis pv. citri 中PthA基因的编码紧邻TALE重复序列的N端136aa和C端63aa的序列、编码天然重复单元中5’端的10个氨基酸残基的序列和编码天然TALE重复序列3’端的最后0. 5个重复单元中+11位至末端的氨基酸残基的序列(扩增PthA基因N端136aa编码序列+天然重复单元中5’端的10个氨基酸编码序列的引物对5’ -GATGGTACCGTGGATCTACGCACGCTCG-3’,5’ -GC
CAITGCTAGCGATGGCCACCACCTGCT-3’ ;扩增天然TALE重复序列3’端的最后0. 5个重复单元中+11位至末端的氨基酸残基的编码序列+pthA基因C端63aa编码序列的引物对Tsense(用于扩增识别 T 的 0. 5 个重复单元):5’ -GCCATCGCTAGCAATGGCGGCGGCAGGC-3’,Asense (用于扩增识别 A 的 0. 5 个重复单元):5’ -CATCGCTAGCAATAITGGCGGCAGGCCGGCG-3’,Gsense (用于扩增识别 G 的 0. 5 个重复单元):5’ -CATCGCTAGCAACAATGGCGGCAGGCCGGCG-3’,Csense (用于扩增识别 C 的 0. 5 个重复单元)5’ -CATCGCTAGCCATGACGGCGGCAGGCCGGCG-3’,antisense(通用引物):5’ -GATGGATCCGGCAACGCGATGGGATGTG-3’),连入pCS2质粒中。可以进一步通过分子克隆,将该人工TALE蛋白DNA结合结构域跟其它蛋白结构域融合,得到各种衍生的融合蛋白,从而实现对基因组的定点遗传操作或修饰(图5、图9和图12)。例如,如果需要进行基因打靶,就可以将构建好的TALE重复序列通过亚克隆的方法接入pCS2-FokI载体中,构建出编码并表达TALE核酸酶(TALEN)的载体(pCS2-TALEN)(图5、图9和图12)。pCS2_FokI载体是在PCS2-N+C质粒的基础上,进一步将FokI核酸酶切割结构域的编码序列连接到该载体编码区的C端而成(图5、图9和图12)。本发明的关键点在于I.未使用自然的TALE重复单元,而是提出了“旁单元”的概念,采用了自然重复单元中的任意一位氨基酸残基(例如+11位氨基酸残基Ser)的编码序列起至下一重复单元前一位氨基酸残基(例如上例中的+10位氨基酸残基Ala)的编码序列为止之间的序列作为新的重复单元,并在其两端选择/设计同尾酶或不同平末端酶的识别位点,构建出新的序列组合,并将这样的DNA片段称为旁单元,从而简化了 TALE重复序列以及TALE蛋白DNA结合结构域及其各种衍生的融合蛋白编码序列的构建。2.使用了常规的III类限制性核酸内切酶,构建TALE重复序列只需要循环进行简单的酶切一连接等常规操作,大大简化了实验的技术难度。3.充分利用了同尾酶对(例如NheI和SpeI)识别序列不同但是酶切后产生的粘性末端相同的特点,可以通过切割单一旁单元或多旁单元两端的同尾酶识别位点,将两段编码序列串联在一起;同时,同尾连接后由粘性末端组合产生的新的核苷酸序列不会再被同样的同尾酶对识别,而在新产生的多旁单元序列的两侧则仍然保留了原有同尾酶对的识别位点,这样就可以继续重复酶切一连接的操作,构建重复数更多的新的多旁单元串联序列,而不会破坏已经串联在一起的重复序列(重复单元)。
本发明的有益效果第一,真正的模块化操作。只需要首先构建含有可分别识别4种单核苷酸的五种最基本的单一旁单元载体,就可以通过简单的酶切一连接循环操作,组装出含有任意重复单元数的旁单元串联重复载体,并通过将旁单元串联重复序列亚克隆到适当的载体质粒中,进一步构建出人工TALE蛋白DNA结合结构域及其衍生的各种融合蛋白的编码载体。而在Golden Gate方法中,需要针对每一种特定的重复单元在整个重复序列中所处的位置,在两侧设计不同的粘性末端序列,造成起始单元的数量很多,操作起来相对繁琐。第二,本方法具有累积效应。在每次旁单元串联重复序列的构建实验中,每一步酶切、连接后所得到的包括n个重复单元的中间载体均可以保留下来,为构建其它含有相同的n个重复单元(=识别同样的核苷酸序列)的旁单元串联重复序列所用,都可以作为起始的合成材料直接使用,而不必每次都从单个的旁单元开始载体构建,从而节省时间和成本。可见,随着旁单元串联重复序列构建数目的增加以及中间载体的积累,在后续的新载体的构建过程中可以借鉴的前期构建的中间载体会越来越多,从而使新载体的构建工作会越来越方便、快捷。而之前的所有方法,都只能针对特定的某一个基因的靶序列合成相应的TALE重复序列,终产物通过一步法或者分步法酶切、连接得到,没有或者只有少量中间产物积累,而这些产物也很难再应用于其它实验。第三,可以快速组装含有任意重复单元数量、任意排列顺序的旁单元串联重复序列,无重复数量的上限。而基于Golden Gate的方法,一·次连接反应超过10个片段后,效率将会大大降低。第四,大大节约成本。不需要大量的引物构建基本重复单元,无需复杂的实验方法和特殊的连接酶,所有使用的酶均为常规的限制性内切酶,实验操作也很简便,无需特殊的条件。每一个有条件从事基本分子生物学实验的实验室均可以操作。


图I所示为TALE蛋白功能结构域示意图和天然TALE重复单元的氨基酸序列特征。其中,a为TALE蛋白功能结构域示意图;b为典型的天然TALE重复单元的氨基酸序列特征(修改自 Boch, J. & Bonas, U. , 2010, Annu Rev Phytopathol, 48:419-436.)。图2所示为通过Golden Gate技术构建重复单元的原理示意图(修改自Engler, C.et al. , 2009, PLoS ONE, 4: e5553.)。图3所示为本发明“单元组装”法的设计原理和起始单一旁单元载体与AT双旁单元载体的构建示例。其中,a为天然TALE重复单元和“单元组装”法使用的旁单元所编码的氨基酸序列示意图(以识别A核苷酸的NI旁单元为例),典型的TALE天然重复单元为34个氨基酸(图中“天然重复单元示例”中的阴影部分所示),“单元组装”法使用的旁单元的编码产物从第+11位氨基酸开始(图中“本发明的旁单元示例”中的阴影部分所示),可以通过同尾酶NheI和SpeI进行操作;b为五种基本的旁单元载体结构示意图,它们分别编码不同的RVD,即NI、NG、NN、NK和HD,分别对应识别单核苷酸A、T、G和C (其中NN和NK都识别G);c图为通过同尾酶NheI和SpeI分别与HindIII组合进行双酶切和连接反应,得到一种双旁单元载体的过程,图中以识别AT的双旁单元载体的构建为例进行说明;d为Nhel+Hindlll和Spel+Hindlll酶切单一旁单元载体的电泳结果。图4所示为利用“单元组装”法构建特定旁单元串联重复序列的设计方案及工作流程示例。
图5所示为利用旁单元串联重复序列构建用于基因打靶的TALEN表达载体的过程示意图。图6所示为构建用于tnikb基因打靶载体的旁单元串联重复序列的过程示意图;其中,a为斑马鱼tnikb基因的靶位点示意图,小写字母显示第一个内含子的序列,大写字母代表第二个外显子的序列,序列中下划线部分分别标记左侧和右侧的两个TALEN结合位点山图示以双旁单元载体作为起始材料,使用“单元组装”法,经过三轮酶切一连接循环,构建出识别左侧结合位点的旁单元串联重复序列的过程以及PCR检测结果;c图示以双旁单元载体作为起始材料,使用“单元组装”法,经过三轮酶切-连接循环,构建出识别右侧结合位点的旁单元串联重复序列的过程以及PCR检测结果。图7所示为利用TALEN靶向突变斑马鱼tnikb基因的效果检测。其中,野生型和FokI均为对照组,NN和NK代表不同TALEN中所使用的识别核苷酸G的RVD。图8所示为本发明设计并构建的可识别单核苷酸靶位点的单一旁单元载体的结构示意图(包括五种分别识别A、T、C、G的单一旁单元载体,其中识别G的有RVD为NN和NK的两种不同的载体)。图9所示为本发明利用“单元组装”法构建的含有旁单元串联重复序列的质粒(pMD-TALE)结构示意图。图10所示为本发明中用于通过pMD-TALE亚克隆来构建编码完整的TALE蛋白DNA结合结构域的载体的PCS2-N+C质粒的结构示意图。图11所示为本发明构建完成的TALE终载体pCS2_TALE (编码完整的TALE蛋白DNA结合结构域)的质粒结构示意图。图12所示为本发明中用于通过pMD-TALE亚克隆来构建基因打靶载体TALEN的pCS2-FokI质粒的结构示意图。
具体实施例方式以下实施例用于说明本发明,但不用来限制本发明的范围。实施例I构建单一旁单元载体首先人工合成编码五种(依RVD的类型分类)本发明依据同尾酶位点与典型的TALE重复单元编码序列选定的旁单元序列的DNA片段(表I所列的序列)。事先需要对各旁单元使用的密码子进行仔细的挑选,以尽可能地降低各旁单元之间DNA序列的相似性。同时,由于天然重复单元中+4位的氨基酸残基至少存在A、D、E等3种可能性,这样,就由五种旁单元衍生出了本实例所列的15个序列变体。接下来,利用PCR对这五种DNA片段(15个变体)进行扩增。上游引物分别为Afwd:5’ -ACTAGTAATAITGGTGGCAAACAGGCTCTTG-3’ (SEQID No. 39)、Tfwd:5,-ACTAGTAATGGGGGTGGCAAACAGGCTCTTG-3’ (SEQ ID No. 40)、Cfwd:5,-ACTAGTCATGACGGTGGCAAACAGGC TCTTG-3’ (SEQ ID No. 41)、GNNfwd:5’-ACTAGTAACAATGGTGGCAAACAGGCTCTTG-3’ (SEQ ID No. 42)、GNKfwd:5’-ACTAGT AACAAAGGTGGCAAACAGGCTCTTG-3’ (SEQ ID No. 43),下游引物均为 rev: 5’-AAGCTTGCTAGCAATCGCTACAACTTG-3’ (SEQ IDNo. 44)。将扩增片段连接到pMD18T-simple载体(TaKaRa公司)中。这样得到的质粒在旁单元序列两侧包含有SpeI和NheI的识别位点,还包括一个在载体骨架上引入的、位于NheI下游附近、起辅助作用的HindIII位点(图3中的b和图8)。
表I本发明采用的旁单元及其编码序列示例
权利要求
1.用于构建TALE重复序列的旁单元,其为两端含有同尾酶或不同的平末端酶识别位点的重复单元DNA片段,所述的重复旁单元的DNA片段编码含有NI、NG、HD、NK或NN的重复可变二残基RVD的重复氨基酸单元或其变体,其中,在5’端同尾酶或平末端酶的识别位点中,识别位点的3’端至少有I个核苷酸参与编码旁单元N端的氨基酸;在3’端同尾酶或平末端酶的识别位点中,识别位点的5’端至少有I个核苷酸参与编码旁单元C端的氨基酸。
2.根据权利要求I所述的旁单元,其特征在于,所述的同尾酶切割后同尾相连或平末端酶切割后平末端连接后的旁单元不改变重复单元氨基酸的编码。
3.根据权利要求I所述的旁单元,其特征在于,所述的重复单元DNA片段编码典型的天然TALE重复单元中存在的+11位氨基酸残基Ser起至下一重复单元+10位氨基酸残基Ala为止之间的氨基酸序列,所述的同尾酶为SpeI和NheI。
4.根据权利要求3所述的旁单元,其特征在于,所述的旁单元编码的重复单元的氨基酸序列如SEQ ID No. I 15任一所示。
5.根据权利要求3所述的旁单元,其特征在于,所述的旁单元的核苷酸序列如SEQIDNo. 16 30任一所不。
6.含有权利要求I、任一项所述的旁单元的单一旁单元载体。
7.根据权利要求6所述的单一旁单元载体,其特征在于,其中同尾酶或平末端酶识别位点的外侧还含有其它的内切酶识别位点,所述的内切酶识别位点不含于旁单元序列中,并且不同于所述的同尾酶或平末端酶识别位点。
8.根据权利要求7所述的单一旁单元载体,其特征在于,所述的其它的内切酶识别位点为Hind III识别位点。
9.含有任意重复数的权利要求f5任一项所述的旁单元的旁单元串联重复序列。
10.含有权利要求9所述旁单元串联重复序列的旁单元串联重复载体。
11.含有权利要求9所述的旁单元串联重复序列的编码人工TALE蛋白DNA结合结构域及其衍生的各种融合蛋白的载体。
12.根据权利要求9所述的载体,其特征在于,还含有天然TALE蛋白的N端和C端非重复序列区的部分或全部编码序列及部分重复单元的编码序列及其变体。
13.权利要求9所述的旁单元串联重复序列的构建方法,其特征在于,包括如下步骤 1)用所述的同尾酶分别切割任意旁单元,再将切割的任意旁单元通过粘末端相连,获得头尾相接、串联排列的双旁单元; 2)重复采用步骤I)所述的酶切一连接的操作组装成含有任意重复单元数、任意排列顺序的旁单元串联重复序列;或 1)用所述的平末端酶分别切割任意旁单元,再将切割的任意旁单元平末端相连,获得头尾相接、串联排列的双旁单元; 2)重复采用步骤I)所述的酶切一连接的操作组装成含有任意重复单元数、任意排列顺序的旁单元串联重复序列。
14.权利要求10所述的旁单元串联重复载体的构建方法,其特征在于,包括如下步骤I)用所述的互为同尾酶中的一个和所述的内切酶切割任意一个单一旁单元载体,用所述的互为同尾酶中的另一个和所述的内切酶切割任意另一个单一旁单元载体,再将两者含有旁单元的酶切产物进行连接,获得双旁单元载体,该载体含有头尾相接、串联排列的两个旁单元; 2)重复采用步骤I)所述的酶切一连接的操作组装成含有任意重复单元数、任意排列顺序的旁单元串联重复载体;或 1)用其中一个平末端酶和所述的内切酶切割任意一个单一旁单元载体,用其中另一个平末端酶和所述的内切酶切割任意另一个单一旁单元载体,再将两者含有旁单元的酶切产 物进行连接,获得双旁单元载体,该载体含有头尾相接、串联排列的两个旁单元; 2)重复采用步骤I)所述的酶切一连接的操作组装成含有任意重复单元数、任意排列顺序的旁单元串联重复载体。
全文摘要
本发明公开了用于构建TALE重复序列的旁单元,其为两端含有同尾酶或不同的平末端酶识别位点的重复单元DNA片段,所述的重复单元DNA片段编码含有NI、NG、HD、NK或NN的重复可变二残基RVD的重复单元或其变体,其中,在5’端同尾酶或平末端酶的识别位点中,识别位点的3’端至少有1个核苷酸参与编码旁单元N端的氨基酸;在其3’端同尾酶或平末端酶的识别位点中,识别位点的5’端至少有1个核苷酸参与编码旁单元C端的氨基酸。本发明可以很方便地构建含有任意重复单元数、任意排列顺序的TALE重复序列,含有TALE重复序列的质粒载体,以及编码TALE蛋白DNA结合结构域及其衍生的各种融合蛋白的质粒载体。
文档编号C12N15/10GK102787125SQ20121027610
公开日2012年11月21日 申请日期2012年8月3日 优先权日2011年8月5日
发明者张博, 林硕, 肖安, 黄鹏 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1