基于CRISPR的基因组修饰和调控的制作方法

文档序号:15778443发布日期:2018-10-30 15:55阅读:266来源:国知局

本公开内容涉及靶基因组修饰。具体而言,本公开涉及rna指导的核酸内切酶或包含crispr/cas样蛋白的融合蛋白和使用所述蛋白修饰修饰或调控靶染色体序列的方法。

发明背景

靶基因组修饰是用于真核细胞、胚胎和动物的基因操作的有力的工具。例如,外源序列可以被整合在靶基因组位置和/或特定的内源染色体序列可以被缺失、失活或修饰。当前的方法依赖于工程化核酸酶的使用,工程化核酸酶例如,锌指核酸酶(zfns)或转录激活子样效应子核酸酶(talens)。这些嵌合核酸酶含有与非特异性dna剪切结构域连接的可编程的、序列特异性的dna结合组件。但是,各个新的基因组靶需要设计包含新的序列特异性的dna-结合组件的新zfn或talen。因此,这些用户定制设计的核酸酶往往制备昂贵且耗时。此外,zfns和talens的特异性使得它们能介导脱靶剪切。

因此,需要不要求针对每个新的靶基因组位置设计新的核酸酶的靶基因组修饰技术。另外,需要特异性增加的具有很少或没有脱靶作用的技术。

发明概述

在本公开内容的不同方面之中提供分离的rna指导的核酸内切酶,其中所述核酸内切酶包含至少一个核定位信号、至少一个核酸酶结构域和至少一个与指导rna相互作用以将核酸内切酶靶向用于剪切的特定核苷酸序列的结构域。在一个实施方案中,所述核酸内切酶可衍生自cas9蛋白。在另一实施方案中,所述核酸内切酶可经修饰而缺失至少一个功能性核酸酶结构域。在其它实施方案中,所述核酸内切酶可进一步包含细胞穿透结构域、标志物结构域,或二者。在进一步的实施方案中,所述核酸内切酶可以是包含指导rna的蛋白-rna复合物的一部分。在一些情况下,所述指导rna可以是包含与靶位点互补的5’区域的单分子。也提供编码任一本文公开的rna指导的核酸内切酶的分离的核酸。在一些实施方案中,所述核酸可以是针对在哺乳动物细胞(例如,人细胞)中翻译而最优化的密码子。在其它实施方案中,编码rna指导的核酸内切酶的核酸序列可以与启动子控制序列可操作性地连接,并任选地可以是载体的一部分。在其它实施方案中,包含可以与启动子控制序列可操作性地连接的编码rna指导的核酸内切酶的序列的载体也可包含可以与启动子控制序列可操作性连接的编码指导rna的序列。

本发明的另一方面包括用于在真核细胞或胚胎中修饰染色体序列的方法。该方法包括向真核细胞或胚胎中引入(i)至少一种包含至少一个核定位信号的rna指导的核酸内切酶或编码至少一种如本文所定义的rna指导的核酸内切酶的核酸,(ii)至少一种指导rna或编码至少一种指导rna的dna,和任选(iii)至少一种包含供体序列的供体多核苷酸。该方法进一步包括培养所述细胞或胚胎以便各指导rna将rna指导的核酸内切酶定向至染色体序列中的靶位点,其中所述rna指导的核酸内切酶将双链断裂引入所述靶位点,并且所述双链断裂通过dna修复过程而修复以便修饰染色体序列。在一个实施方案中,所述rna指导的核酸内切酶可以衍生自cas9蛋白。在另一实施方案中,编码引入细胞或胚胎中的rna指导的核酸内切酶的核酸可以是mrna。在进一步的实施方案中,其中编码引入细胞或胚胎的rna指导的核酸内切酶的核酸可以是dna。在进一步的实施方案中,编码rna指导的核酸内切酶的dna可以是另外包含编码指导rna的序列的载体的一部分。在某些实施方案中,所述真核细胞可以是人细胞、非人哺乳动物细胞、干细胞、非哺乳动物的脊椎动物细胞、无脊椎动物细胞、植物细胞或单细胞真核生物。在某些其它实施方案中,所述胚胎是非人单细胞动物胚胎。

本公开内容的另外方面提供包含crispr/cas样蛋白或其片段和效应子结构域的融合蛋白。一般而言,所述融合蛋白包含至少一个核定位信号。融合蛋白的效应子结构域可以是剪切结构域、表观遗传修饰结构域、转录激活结构域或转录抑制子结构域。在一个实施方案中,融合蛋白的crispr/cas样蛋白可以衍生自cas9蛋白。在一个重复中,所述cas9蛋白可经修饰而缺失至少一个功能性核酸酶结构域。在备选的重复中,所述cas9蛋白可以被修饰而缺失全部核酸酶活性。在一个实施方案中,所述效应子结构域可以是剪切结构域,例如,foki核酸内切酶结构域或修饰的foki核酸内切酶结构域。在另一实施方案中,一种融合蛋白可与另一融合蛋白形成二聚体。所述二聚体可以是同源二聚体或异源二聚体。在另一实施方案中,所述融合蛋白可与锌指核酸酶形成异源二聚体,其中融合蛋白和锌指核酸酶二者的剪切结构域是foki核酸内切酶结构域或修饰的foki核酸内切酶结构域。在仍另一实施方案中,所述融合蛋白包含衍生自经修饰而缺失全部核酸酶活性的cas9蛋白的crispr/cas样蛋白,并且所述效应子结构域是foki核酸内切酶结构域或修饰的foki核酸内切酶结构域。在仍另一实施方案中,所述融合蛋白包含衍生自经修饰而缺失全部核酸酶活性的cas9蛋白的crispr/cas样蛋白,并且所述效应子结构域可以是表观遗传修饰结构域、转录激活结构域或转录抑制子结构域。在另外的实施方案中,本文公开的融合蛋白中任一种可包含至少一个选自核定位信号、细胞穿透结构域和标志物结构域的另外的结构域。也提供编码本文提供的融合蛋白中任一种的分离的核酸。

本公开内容的仍另一方面包括用于在细胞或胚胎中修饰染色体序列或调控染色体序列的表达的方法。所述方法包括向细胞或胚胎中引入:(a)至少一种融合蛋白或编码至少一种融合蛋白的核酸,其中所述融合蛋白包含crispr/cas样蛋白或其片段和效应子结构域,和(b)至少一种指导rna或编码至少一种指导rna的dna,其中所述指导rna将融合蛋白的crispr/cas样蛋白指导至染色体序列中的靶位点,并且融合蛋白的效应子结构域修饰染色体序列或调控染色体序列的表达。在一个实施方案中,所述融合蛋白的crispr/cas样蛋白可以衍生自cas9蛋白。在另一实施方案中,所述融合蛋白的crispr/cas样蛋白可经修饰而缺失至少一个功能性核酸酶结构域。在仍另一实施方案中,所述融合蛋白的crispr/cas样蛋白可经修饰而缺失全部核酸酶活性。在其中融合蛋白包含经修饰而缺失全部核酸酶活性的cas9蛋白和foki剪切结构域或修饰的foki剪切结构域的一个实施方案中,该方法可包括向所述细胞或胚胎引入一种融合蛋白或编码一种融合蛋白的核酸和两种指导rna或编码两种指导rna的dna,并且其中一个双链断裂被引入染色体序列。在其中所述融合蛋白包含经修饰而缺失全部核酸酶活性的cas9蛋白和foki剪切结构域或修饰的foki剪切结构域的另一实施方案中,所述方法可包括向所述细胞或胚胎中引入两种融合蛋白或编码两种融合蛋白的核酸和两种指导rna或编码两种指导rna的dna,并且其中两个双链断裂被引入所述染色体序列。在其中所述融合蛋白包含经修饰而缺失全部核酸酶活性的cas9蛋白和foki剪切结构域或修饰的foki剪切结构域的仍另一实施方案中,所述方法可包括向细胞或胚胎中引入一种融合蛋白或编码一种融合蛋白的核酸、一种指导rna或编码一种指导rna的核酸和一种锌指核酸酶或编码一种锌指核酸酶的核酸,其中所述锌指核酸酶包含foki剪切结构域或修饰的foki剪切结构域,并且其中一个双链断裂被引入所述染色体序列。在其中所述融合蛋白包含剪切结构域的某些实施方案中,所述方法可进一步包含向细胞或胚胎引入至少一种供体多核苷酸。在其中所述融合蛋白包含选自表观遗传修饰结构域、转录激活结构域或转录抑制子结构域的效应子结构域的实施方案中,所述融合蛋白可包含经修饰而缺失全部核酸酶活性的cas9蛋白,且所述方法可以包括向细胞或胚胎中引入一种融合蛋白或编码一种融合蛋白的核酸和一种指导rna或编码一种指导rna的核酸,并且其中修饰所述靶染色体序列的结构或表达。在某些实施方案中,所述真核细胞可以是人细胞、非人哺乳动物细胞、干细胞、非哺乳动物的脊椎动物细胞、无脊椎动物细胞、植物细胞或单细胞真核生物。在某些其它实施方案中,所述胚胎是非人单细胞动物胚胎。

本公开内容的其它方面和重复在下面详述。

附图简述

图1图示使用蛋白二聚体的基因组修饰。(a)描绘了由两种融合蛋白组成的二聚体所产生的双链断裂,所述两种融合蛋白的每一种包含用于dna结合的cas样蛋白和foki剪切结构域。(b)描绘了由二聚体所产生的双链断裂,所述二聚体由包含cas样蛋白和foki剪切结构域的融合蛋白以及包含锌指(zf)dna-结合结构域和foki剪切结构域的锌指核酸酶组成。

图2表明使用包含基因调控结构域的rna指导的融合蛋白调控基因表达。(a)描绘了包含用于dna结合的cas样蛋白和激活或抑制基因表达的“a/r”结构域的融合蛋白。(b)图示包含用于dna结合的cas样蛋白和通过邻近的dna或蛋白的共价修饰而影响表观遗传状态的表观遗传修饰结构域(“epi-mod’)的融合蛋白。

图3图示使用两种rna指导的核酸内切酶的基因组修饰。

(a)描绘了由已经转化为切口酶的两种rna指导的核酸内切酶产生的双链断裂。(b)描绘了由具有核酸内切酶活性的两种rna指导的核酸内切酶产生的两个双链断裂。

图4显示了用cas9核酸、cas9指导的rna和aavs1-gfpdna供体转染的人k562细胞的荧光激活细胞分选术(facs)。y轴表示在红色通道的自发荧光强度,和x轴表示绿色荧光强度,(a)用以下转染的k562细胞:10μg的用anti-reverse帽类似物转录的cas9mrna、0.3nmol的预退火的crrna-tracrrna双链体和10μg的aavs1-gfp质粒dna;(b)用以下转染的k562细胞:10μg的用anti-reverse帽类似物转录的cas9mrna、0.3nmol的嵌合rna和10μg的aavs1-gfp质粒dna;(c)用以下转染的k562细胞:10μg的通过转录后加帽反应加帽的cas9mrna、0.3nmol的嵌合rna和10μg的aavs1-gfp质粒dna;(d)用10μg的cas9质粒dna、5μg的u6-嵌合rna质粒dna和10μg的aavs1-gfp质粒dna转染的k562细胞;(e)用10μg的aavs1-gfp质粒dna转染的k562细胞;(f)仅用转染试剂转染的k562细胞。

图5显示证明gfp靶向整合至人细胞的aavs1基因座的连接pcr分析。泳道m:1kbdna分子标记;泳道a:用以下转染的k562细胞:用anti-reverse帽类似物转录的10μg的cas9mrna、0.3nmol的预退火的crrna-tracrrna双链体和10μg的aavs1-gfp质粒dna;泳道b:用以下转染的k562细胞:用anti-reverse帽类似物转录的10μg的cas9mrna、0.3nmol的嵌合rna和10μg的aavs1-gfp质粒dna;泳道c:用通过转录后加帽反应加帽的10μg的cas9mrna、0.3nmol的嵌合rna和10μg的aavs1-gfp质粒dna转染的k562细胞;泳道d:用10μg的cas9质粒dna、5μg的u6-嵌合rna质粒dna和10μg的aavs1-gfp质粒dna转染的k562细胞;泳道e:用10μg的aavs1-gfp质粒dna转染的k562细胞;泳道f:仅用转染试剂转染的k562细胞。

发明详述

本文提供rna指导的核酸内切酶,其包含至少一个核定位信号、至少一个核酸酶结构域和至少一个与指导rna相互作用以将所述核酸内切酶靶向用于剪切的特异性核苷酸序列的结构域。也提供了编码rna指导的核酸内切酶的核酸,和使用rna指导的核酸内切酶修饰真核细胞或胚胎的染色体序列的方法。所述rna指导的核酸内切酶与特异性的指导rna相互作用,所述特异性的指导rna的每一种将所述核酸内切酶定向至特定靶位点,在所述位点该rna指导的核酸内切酶引起双链断裂,其可通过dna修复过程而修复使得修复染色体序列。因为特异性通过所述指导rna提供,因此基于rna的核酸内切酶是通用的,并且可以与不同的指导rna一起使用以靶向不同基因组序列。本文公开的方法可用于靶向和修饰特定的染色体序列和/或将外源序列引入到细胞或胚胎的基因组中的靶位置。此外,靶向是特异性的,具有有限的脱靶效果。

本公开内容提供了融合蛋白,其中融合蛋白包含crispr/cas样蛋白或其片段和效应子结构域。合适的效应子结构域包括但不限于剪切结构域、表观遗传修饰结构域、转录激活结构域和转录抑制子结构域。通过特异性指导rna将各融合蛋白指导至具体的染色体序列,其中所述效应子结构域介导靶基因组修饰或基因调控。在一个方面,所述融合蛋白可用作二聚体,从而增加靶位点的长度和增加其在基因组中的唯一性的可能性(从而,降低脱靶效果)。例如,内源的crispr系统基于大约13-20bp的dna结合字长度而修饰基因组位置(cong等人,science,339:819-823)。在此字长,仅5-7%的靶位点在基因组内是唯一的(iseli等人,plosone2(6):e579)。相比之下,锌指核酸酶的dna结合字长范围通常为30-36bp,这产生大约85-87%在人基因组内唯一的靶位点。基于crispr的系统所利用的较小大小的dna结合位点限制了在所需位置附近的基于靶向crisp的核酸酶的设计并使其复杂化,所述所需位置例如疾病snps、小外显子、起始密码子和终止密码子,以及在复杂的基因组中的其它位置。本公开内容不仅提供了用于扩展crisprdna结合字长的方式(即,以便限制脱靶活性),而且进一步提供具有修饰功能性的crispr融合蛋白。因此,所公开的crispr融合蛋白具有增加的靶特异性和唯一的功能性。本文也提供使用融合蛋白以修饰或调控靶染色体序列的表达的方法。

(i)rna指导的核酸内切酶

本公开内容的一个方面提供包含至少一个核定位信号的rna指导的核酸内切酶,所述核定位信号允许核酸内切酶进入真核细胞和胚胎(例如,非人单细胞胚胎)的胞核。rna指导的核酸内切酶也包含至少一个核酸酶结构域和至少一个与指导rna相互作用的结构域。rna指导的核酸内切酶被指导rna定向至特定的核酸序列(或靶位点)。所述指导rna与rna指导的核酸内切酶和靶位点相互作用使得一旦定向至靶位点,rna指导的核酸内切酶就能够向靶位点核酸序列中引入双链断裂。因为所述指导rna提供针对靶向剪切的特异性,rna指导的核酸内切酶的核酸内切酶是通用的并且可以与不同指导rna一起使用以剪切不同靶核酸序列。本文提供了分离的rna指导的核酸内切酶、编码rna指导的核酸内切酶的分离的核酸(即,rna或dna)、包含编码rna指导的核酸内切酶的核酸的载体、以及包含rna指导的核酸内切酶加上指导rna的蛋白-rna复合物。

rna指导的核酸内切酶可衍生自成簇的规律间隔的短回文重复(crispr)/crispr相关的(cas)系统。crispr/cas系统可以是类型i、类型ii或类型iii系统。合适的crispr/cas蛋白的非限制性实例包括cas3、cas4、cas5、cas5e(或casd)、cas6、cas6e、cas6f、cas7、cas8a1、cas8a2、cas8b、cas8c、cas9、cas10、cas10d、casf、casg、cash、csy1、csy2、csy3、cse1(或casa)、cse2(或casb)、cse3(或case)、cse4(或casc)、csc1、csc2、csa5、csn2、csm2、csm3、csm4、csm5、csm6、cmr1、cmr3、cmr4、cmr5、cmr6、csb1、csb2、csb3、csx17、csx14、csx10、csx16、csax、csx3、csz1、csx15、csf1、csf2、csf3、csf4和cu1966。

在一个实施方案中,rna指导的核酸内切酶衍生自类型iicrispr/cas系统。在特定实施方案中,rna指导的核酸内切酶衍生自cas9蛋白。cas9蛋白可来自酿脓链球菌(streptococcuspyogenes)、嗜热链球菌(streptococcusthermophilus)、链球菌(streptococcussp.)、达松维尔拟诺卡氏菌(nocardiopsisdassonvillei)、始旋链霉菌(streptomycespristinaespiralis)、绿色产色链霉菌(streptomycesviridochromogenes)、绿色产色链霉菌、玫瑰链孢囊菌(streptosporangiumroseum)、玫瑰链孢囊菌、酸热脂环酸杆菌(alicyclobacillusacidocaldarius)、假蕈状芽孢杆菌(bacilluspseudomycoides)、bacillusselenitireducens、exiguobacteriumsibiricum、德氏乳杆菌(lactobacillusdelbrueckii)、唾液乳杆菌(lactobacillussalivarius)、海洋微颤蓝细菌(microscillamarina)、burkholderialesbacterium、polaromonasnaphthalenivorans、polaromonassp.、crocosphaerawatsonii、蓝杆藻(cyanothecesp.)、铜绿微囊蓝细菌(microcystisaeruginosa)、聚球菌(synechococcussp.)、阿拉伯糖醋盐杆菌(acetohalobiumarabaticum)、ammonifexdegensii、caldicelulosiruptorbecscii、candidatusdesulforudis、肉毒梭菌(clostridiumbotulinum)、艰难梭菌(clostridiumdifficile)、大芬戈尔德菌(finegoldiamagna)、嗜热盐碱厌氧菌(natranaerobiusthermophilus)、丙酸互营细菌(pelotomaculumthermopropionicum)、acidithiobacilluscaldus、嗜酸氧化亚铁硫杆菌(acidithiobacillusferrooxidans)、紫色硫细菌(allochromatiumvinosum)、海杆菌(marinobactersp.)、嗜盐硝化球菌(nitrosococcushalophilus)、nitrosococcuswatsoni、pseudoalteromonashaloplanktis、ktedonobacterracemifer、methanohalobiumevestigatum、多鱼腥蓝细菌(anabaenavariabilis)、产泡沫节球蓝细菌(nodulariaspumigena)、nostocsp.、最大节螺蓝细菌(arthrospiramaxima)、arthrospiraplatensis、节螺蓝细菌属(arthrospirasp.)、鞘丝蓝细菌属(lyngbyasp.)、原型体微鞘蓝细菌(microcoleuschthonoplastes)、颤蓝细菌属(oscillatoriasp.)、petrotogamobilis、非洲栖热腔菌(thermosiphoafricanus)或acaryochlorismarina。

一般而言,crispr/cas蛋白包含至少一个rna识别和/或rna结合结构域。rna识别和/或rna结合结构域与指导rna相互作用。crispr/cas蛋白也可包含核酸酶结构域(即,dna酶或rna酶结构域)、dna结合结构域、解螺旋酶结构域、rna酶结构域、蛋白-蛋白相互作用结构域、二聚结构域和其它结构域。

crispr/cas样蛋白可以是野生型crispr/cas蛋白、修饰的crispr/cas蛋白或野生型或修饰的crispr/cas蛋白的片段。crispr/cas样蛋白可以经修饰以增加核酸结合亲和力和/或特异性,改变酶活性和/或改变蛋白的另一性质。例如,crispr/cas样蛋白的核酸酶(即,dna酶、rna酶)结构域可以被修饰、缺失或失活。备选地,crispr/cas样蛋白可以被截短以除去对于融合蛋白的功能并非必要的结构域。crispr/cas样蛋白也可被截短或修饰以使融合蛋白的效应子结构域的活性最优化。

在一些实施方案中,crispr/cas样蛋白可以衍生自野生型cas9蛋白或其片段。在其它实施方案中,crispr/cas样蛋白可以衍生自修饰的cas9蛋白。例如,cas9蛋白的氨基酸序列可以被修饰而改变蛋白的一种或多种性质(例如,核酸酶活性、亲和力、稳定性等)。备选地,不涉及rna指导的剪切的cas9蛋白的结构域可以从蛋白中排除以便修饰的cas9蛋白与野生型cas9蛋白相比更小。

一般而言,cas9蛋白包含至少两个核酸酶(即,dna酶)结构域。例如,cas9蛋白可以包含ruvc样核酸酶结构域和hnh样核酸酶结构域。ruvc和hnh结构域一起起作用以切开单链从而在dna中产生双链断裂。(jinek等人,science,337:816-821)。在一些实施方案中,cas9衍生的蛋白可以被修饰而仅含有一个功能性核酸酶结构域(ruvc样或hnh样核酸酶结构域)。例如,cas9衍生的蛋白可以被修饰使得核酸酶结构域的一个被缺失或突变使得它不再有功能(即,缺少核酸酶活性)。在其中核酸酶结构域之一无活性的一些实施方案中,cas9衍生的蛋白能够将切口引入双链核酸中(这样的蛋白称为“切口酶”),但并不剪切双链dna。例如,在ruvc样结构域中天冬氨酸至丙氨酸(d10a)的转换将cas9衍生的蛋白转化成切口酶。同样,在hnh结构域中组氨酸至丙氨酸(h840a或h839a)的转换将cas9衍生的蛋白转化成切口酶。各核酸酶结构域可以使用众所周知的方法而修饰,例如位点定向诱变、pcr介导的诱变,和全基因合成以及本领域已知的其它方法。

本文公开的rna指导的核酸内切酶包含至少一个核定位信号。一般而言,nls包含一段碱性氨基酸序列。核定位信号是本领域已知的(参见,例如,lange等人,j.biol.chem.,2007,282:5101-5105)。例如,在一个实施方案中,nls可以是单分型序列(monopartitesequence),例如pkkkrkv(seqidno:1)或pkkkrrv(seqidno:2)。在另一实施方案中,nls可以是二分型序列(bipartitesequence)。在仍另一实施方案中,nls可以是krpaatkkagqakkkk(seqidno:3)。nls可以位于rna指导的核酸内切酶的n-末端、c-末端或内部位置。

在一些实施方案中,rna指导的核酸内切酶可以进一步包含至少一个细胞穿透结构域。在一个实施方案中,细胞穿透结构域可以是衍生自hiv-1tat蛋白的细胞穿透肽序列。例如,tat细胞穿透序列可以是grkkrrqrrrppqpkkkrkv(seqidno:4)。在另一实施方案中,细胞穿透结构域可以是tlm(plssifsrigdppkkkrkv;seqidno:5),衍生自人乙型肝炎病毒的细胞穿透肽序列。在仍另一实施方案中,细胞穿透结构域可以是mpg(galflgwlgaagstmgapkkkrkv;seqidno:6或galflgflgaagstmgawsqpkkkrkv;seqidno:7)。在另外的实施方案中,细胞穿透结构域可以是pep-1(ketwwetwwtewsqpkkkrkv;seqidno:8)、vp22,来自单纯疱疹病毒的细胞穿透肽或多精氨酸肽序列。细胞穿透结构域可定位于蛋白的n-末端、c-末端或内部位置。

在仍其它的实施方案中,rna指导的核酸内切酶也可以包含至少一个标志物结构域。标志物结构域的非限制性实例包括荧光蛋白、纯化标签和表位标签。在一些实施方案中,标志物结构域可以是荧光蛋白。合适的荧光蛋白的非限制性实例包括绿色荧光蛋白(例如,gfp、gfp-2、taggfp、turbogfp、egfp、emerald、azamigreen、monomericazamigreen、copgfp、acegfp、zsgreen1)、黄色荧光蛋白(例如yfp、eyfp、citrine、venus、ypet、phiyfp、zsyellow1)、蓝色荧光蛋白(例如ebfp、ebfp2、azurite、mkalama1、gfpuv、sapphire、t-sapphire)、蓝绿色荧光蛋白(例如ecfp、cerulean、cypet、amcyan1,midoriishi-cyan)、红色荧光蛋白(mkate、mkate2、mplum、dsredmonomer、mcherry、mrfp1、dsred-express、dsred2、dsred-monomer、hcred-tandem、hcred1、asred2、eqfp611、mrasberry、mstrawberry、jred)和橙色荧光蛋白(morange、mko、kusabira-orange、monomerickusabira-orange、mtangerine、tdtomato)或任何其它合适的荧光蛋白。在其它实施方案中,标志物结构域可以是纯化标签和/或表位标签。例示性的标签包括但不限于谷胱甘肽-s-转移酶(gst)、几丁质结合蛋白(cbp)、麦芽糖结合蛋白、硫氧还蛋白(trx)、聚(nanp)、串联亲和力纯化(tap)标签、myc、acv5、au1、au5、e、ecs、e2、flag、ha、nus、softag1、softag3、strep、sbp、glu-glu、hsv、kt3、s、s1、t7、v5、vsv-g、6xhis、生物素羧基载体蛋白(bccp)和钙调蛋白。

在某些实施方案中,rna指导的核酸内切酶可以是包含指导rna的蛋白-rna复合物的一部分。指导rna与rna指导的核酸内切酶相互作用以将核酸内切酶定向至特定的靶位点,其中指导rna的5’端与特定的原间隔序列(protospacersequence)碱基配对。

(ii)融合蛋白

本公开内容的另一方面提供了包含crispr/cas样蛋白或其片段和效应子结构域的融合蛋白。通过指导rna将crispr/cas样蛋白定向至靶位点,在该位点效应子结构域可修饰靶核酸序列或使其生效。效应子结构域可以是剪切结构域、表观遗传修饰结构域、转录激活结构域或转录抑制子结构域。融合蛋白可以进一步包含至少一个选自核定位信号、细胞穿透结构域或标志物结构域的另外的结构域。

(a)crispr/cas样蛋白

融合蛋白包含crispr/cas样蛋白或其片段。crispr/cas样蛋白在上面的部分(i)中详述。crispr/cas样蛋白可以定位于融合蛋白的n-末端、c-末端或内部位置。

在一些实施方案中,融合蛋白的crispr/cas样蛋白可以衍生自cas9蛋白。cas9衍生的蛋白可以是野生型、修饰的或其片段。在一些实施方案中,cas9衍生的蛋白可以经修饰以仅包含一个功能性核酸酶结构域(ruvc样或hnh样核酸酶结构域)。例如,cas9衍生的蛋白可以被修饰使得核酸酶结构域之一被删除或突变使得它不再有功能(即,缺乏核酸酶活性)。在其中核酸酶结构域之一是无活性的一些实施方案中,cas9衍生的蛋白能够将切口引入双链核酸(这类蛋白被称为“切口酶”),但不剪切双链dna。例如,在ruvc样结构域中天冬氨酸至丙氨酸(d10a)的转换将cas9衍生的蛋白转化成切口酶。同样,在hnh结构域中组氨酸至丙氨酸(h840a或h839a)的转换将cas9衍生的蛋白转化成切口酶。在其它实施方案中,ruvc样核酸酶结构域和hnh样核酸酶结构域两者都可被修饰或消除使得cas9衍生的蛋白不能够在双链核酸上切口或剪切双链核酸。在仍其它的实施方案中,cas9衍生的蛋白的全部核酸酶结构域可以被修饰或消除使得cas9衍生的蛋白缺失全部核酸酶活性。

在任一上述实施方案中,任何或所有核酸酶结构域可以通过一个或多个缺失突变、插入突变和/或置换突变使用众所周知的方法而失活,所述方法例如位点定向诱变、pcr介导的诱变和全基因合成,以及本领域已知的其它方法。在例示性实施方案中,融合蛋白的crispr/cas样蛋白衍生自其中全部核酸酶结构域已经被失活或缺失的cas9蛋白。

(b)效应子结构域

融合蛋白也包含效应子结构域。效应子结构域可以是剪切结构域、表观遗传修饰结构域、转录激活结构域或转录抑制子结构域。效应子结构域可以定位于融合蛋白的n-末端、c-末端或内部位置。

(i)剪切结构域

在一些实施方案中,效应子结构域是剪切结构域。本文使用的“剪切结构域”是指剪切dna的结构域。剪切结构域自任何核酸内切酶或核酸外切酶获得。可自其衍生剪切结构域的核酸内切酶的非限制性实例包括但不限于限制核酸内切酶和归巢核酸内切酶。见,例如,newenglandbiolabscatalog或belfort等人(1997)nucleicacidsres.25:3379-3388。剪切dna的另外的酶是已知的(例如,s1核酸酶;绿豆核酸酶;胰dna酶i;微球菌核酸酶;酵母ho核酸内切酶)。也参见linn等人(eds.)nucleases,coldspringharborlaboratorypress,1993。可将这些酶(或其功能片段)中的一种或多种用作剪切结构域的来源。

在一些实施方案中,剪切结构域可以衍生自类型ii-s核酸内切酶。类型ii-s核酸内切酶在通常距离识别位点几个碱基对的位点剪切dna并且,因此具有可分开的识别和剪切结构域。这些酶通常是单体,其短暂地缔合以形成二聚体以剪切在错开的位置上的dna的每条链。合适的类型ii-s核酸内切酶的非限制性实例包括bfii、bpmi、bsai、bsgi、bsmbi、bsmi、bspmi、foki、mboii和sapi。在例示性的实施方案中,融合蛋白的剪切结构域是foki剪切结构域或其衍生物。

在某些实施方案中,类型ii-s剪切可以被修饰以促进两种不同剪切结构域(两种不同剪切结构域的每一种与crispr/cas样蛋白或其片段连接)的二聚化。例如,foki的剪切结构域可以通过突变某些氨基酸残基而修饰。作为非限制性实例,在foki剪切结构域的位置446、447、479、483、484、486、487、490、491、496、498、499、500、531、534、537和538的氨基酸残基是用于修饰的靶。例如,形成专性异源二聚体的foki的修饰的剪切结构域包括这样的配对,其中第一修饰剪切结构域包含在氨基酸位置490和538的突变和第二修饰剪切结构域包含在氨基酸位置486和499的突变(miller等人,2007,nat.biotechnol,25:778-785;szczpek等人,2007,nat.biotechnol,25:786-793)。例如,在位置490的glu(e)可被改变为lys(k),在位置538的ile(i)可被改变为在一个结构域(e490k,i538k)的k,在位置486的gln(q)可被改变为e,在位置499的i可被改变为在另一剪切结构域(q486e,i499l)的leu(l)。在其它实施方案中,修饰的foki剪切结构域可包括三个氨基酸变化(doyon等人2011,nat.methods,8:74-81)。例如,一个修饰的foki结构域(其被称为eld)可包含q486e、i499l、n496d突变,另一修饰的foki结构域(其被称为kkr)可包含e490k、i538k、h537r突变。

在例示性的实施方案中,融合蛋白的效应子结构域是foki剪切结构域或修饰的foki剪切结构域。

在其中效应子结构域是剪切结构域且crispr/cas样蛋白衍生自cas9蛋白的实施方案中,cas9衍生的蛋白可以如上文所讨论而被修饰使得它的核酸内切酶活性被消除。例如,cas9衍生的蛋白可以通过突变ruvc和hnh结构域而修饰使得它们不再具有核酸酶活性。

(ii)表观遗传修饰结构域

在其它实施方案中,融合蛋白的效应子结构域可以是表观遗传修饰结构域。一般而言,表观遗传修饰结构域改变组蛋白结构和/或染色体结构,而不改变dna序列。改变组蛋白和/或染色质结构可导致基因表达的改变。表观遗传修饰的实例包括但不限于组蛋白中赖氨酸残基的乙酰化或甲基化,和dna中的胞嘧啶残基的甲基化。合适的表观遗传修饰结构域的非限制性实例包括组蛋白乙酰基转移酶结构域、组蛋白脱乙酰基酶结构域、组蛋白甲基转移酶结构域、组蛋白脱甲基酶结构域、dna甲基转移酶结构域和dna脱甲基酶结构域。

在其中效应子结构域是组蛋白乙酰基转移酶(hat)结构域的实施方案中,hat结构域可以自ep300(即,e1a结合蛋白p300)、crebbp(即,creb结合蛋白)、cdy1、cdy2、cdyl1、clock、elp3、esa1、gcn5(kat2a)、hat1、kat2b、kat5、myst1、myst2、myst3、myst4、ncoa1、ncoa2、ncoa3、ncoat、p/caf、tip60、tafii250或tf3c4衍生。在一个这类实施方案中,hat结构域是p300。

在其中效应子结构域是表观遗传修饰结构域且crispr/cas样蛋白衍生自cas9蛋白的实施方案中,cas9衍生的蛋白可以如上文所讨论而被修饰使得它的核酸内切酶活性被消除。例如,cas9衍生的蛋白可以通过突变ruvc和hnh结构域而修饰使得它们不再具有核酸酶活性。

(iii)转录激活结构域

在其它实施方案中,融合蛋白的效应子结构域可以是转录激活结构域。一般而言,转录激活结构域与转录控制元件和/或转录调控蛋白(即,转录因子,rna聚合酶等)相互作用以增加和/或激活基因的转录。在一些实施方案中,转录激活结构域可以是而不限于单纯疱疹病毒vp16激活结构域、vp64(其为vp16的四聚衍生物)、nfκbp65激活结构域、p53激活结构域1和2、creb(camp反应元件结合蛋白)激活结构域、e2a激活结构域和nfat(激活的t-细胞的核因子)激活结构域。在其它实施方案中,转录激活结构域可以是gal4、gcn4、mll、rtg3、gln3、oaf1、pip2、pdr1、pdr3、pho4和leu3。转录激活结构域可以是野生型,或它可以是原始转录激活结构域的修饰形式。在一些实施方案中,融合蛋白的效应子结构域是vp16或vp64转录激活结构域。

在其中效应子结构域是转录激活结构域且crispr/cas样蛋白衍生自cas9蛋白的实施方案中,cas9衍生的蛋白可以如本文讨论而修饰使得它的核酸内切酶活性被消除。例如,cas9衍生的蛋白可以是通过突变ruvc和hnh结构域而修饰使得它们不再具有核酸酶活性。

(iv)转录抑制子结构域

在仍其它的实施方案中,融合蛋白的效应子结构域可以是转录抑制子结构域。一般而言,转录抑制子结构域与转录控制元件和/或转录调控蛋白(即,转录因子、rna聚合酶等)相互作用以减少和/或终止基因的转录。合适的转录抑制子结构域的非限制性实例包括可诱导的camp早期抑制子(icer)结构域、kruppel相关的盒a(krab-a)抑制子结构域、yy1富含甘氨酸的抑制子结构域,sp1-样抑制子、e(spl)抑制子、iκb抑制子和mecp2。

在其中效应子结构域是转录抑制子结构域且crispr/cas样蛋白衍生自cas9蛋白的实施方案中,cas9衍生的蛋白可以如本文讨论而修饰使得它的核酸内切酶活性被消除。例如,cas9可以通过突变ruvc和hnh结构域而修饰使得它们不具有核酸酶活性。

(c)另外的结构域

在一些实施方案中,融合蛋白进一步包含至少一个另外的结构域。合适的另外的结构域的非限制性实例包括核定位信号、细胞穿透或易位结构域和标志物结构域。合适的核定位信号、细胞穿透结构域和标志物结构域的非限制性实例展示于上面的部分(i)中。

(d)融合蛋白二聚体

在其中融合蛋白的效应子结构域是剪切结构域的实施方案中,可以形成包含至少一种融合蛋白的二聚体。二聚体可以是同源二聚体或异源二聚体。在一些实施方案中,异源二聚体包含两种不同的融合蛋白。在其它实施方案中,异源二聚体包含一种融合蛋白和一种另外的蛋白。

在一些实施方案中,二聚物是同源二聚体,其中两个融合蛋白单体关于一级氨基酸序列是相同的。在其中二聚体是同源二聚体的一个实施方案中,cas9衍生的蛋白经修饰使得它们的核酸内切酶活性被消除,即,使得它们不具有功能性核酸酶结构域。在其中cas9衍生的蛋白经修饰使得它们的核酸内切酶活性被消除的某些实施方案中,各个融合蛋白单体包含相同的cas9样蛋白和相同的剪切结构域。剪切结构域可以是任何剪切结构域,例如本文提供的任一例示性剪切结构域。在一个具体实施方案中,剪切结构域是foki剪切结构域或修饰的foki剪切结构域。在这类实施方案中,特异性指导rna将融合蛋白单体定向至不同但紧密毗连的位点使得在二聚体形成时,两个单体的核酸酶结构域将在靶dna中产生双链断裂。

在其它实施方案中,二聚体是两种不同融合蛋白的异源二聚体。例如,各融合蛋白的crispr/cas样蛋白可以衍生自不同的crispr/cas蛋白或衍生自来自不同细菌种类的直向同源crispr/cas蛋白。例如,每种融合蛋白可包含cas9-样蛋白,所述cas9-样蛋白自不同细菌种类衍生。在一些实施方案中,

各融合蛋白会识别不同靶位点(即,由原间隔基和/或pam序列限定)。例如,指导rna可以将异源二聚体放到不同但紧密毗连的位点使得它们的核酸酶结构域在靶dna中产生有效的双链断裂。异源二聚体也可具有具备切口活性的修饰的cas9蛋白使得切口位置不同。

备选地,异源二聚体的两种融合蛋白可具有不同效应子结构域。在其中效应子结构域是剪切结构域的实施方案中,各融合蛋白可以含有不同的修饰的剪切结构域。例如,各融合蛋白可以含有不同的修饰的foki剪切结构域,如在上面的部分(ii)(b)(i)中详细描述。在这些实施方案中,cas-9蛋白可以经修饰使得它们的核酸内切酶活性被消除。

本领域技术人员应该理解的是,形成异源二聚体的两种融合蛋白可以在crispr/cas样蛋白结构域和效应子结构域二方面都不同。

在以上描述的实施方案的任一个中,同源二聚体或异源二聚体可以包含选自如上面详述的核定位信号(nlss)、细胞穿透、易位结构域和标志物结构域的至少一个另外的结构域。

在以上描述的实施方案的任一个中,cas9衍生的蛋白之一或二者可以被修饰使得它的核酸内切酶活性被消除或修饰。

在仍备选的实施方案中,异源二聚体包含一种融合蛋白和一种另外的蛋白。例如,另外的蛋白可以是核酸酶。在一个实施方案中,核酸酶是锌指核酸酶。锌指核酸酶包含锌指dna结合结构域和剪切结构域。锌指识别并结合三个(3)核苷酸。锌指dna结合结构域可包含从约三个锌指至约七个锌指。锌指dna结合结构域可以衍生自天然存在的蛋白或它可以是工程化的。参见,例如,beerli等人(2002)nat.biotechnol.20:135-141;pabo等人(2001)ann.rev.biochem.70:313-340;isalan等人(2001)nat.biotechnol.19:656-660;segal等人(2001)curr.opin.biotechnol.12:632-637;choo等人(2000)curr.opin.struct.biol.10:411-416;zhang等人(2000)j.biol.chem.275(43):33850-33860;doyon等人(2008)nat.biotechnol.26:702-708;和santiago等人(2008)proc.natl.acad.sci.usa105:5809-5814。锌指核酸酶的剪切结构域可以是上面部分(ii)(b)(i)中详述的任何剪切结构域。在例示性的实施方案中,锌指核酸酶的剪切结构域是foki剪切结构域或修饰的foki剪切结构域。所述锌指核酸酶会与包含foki剪切结构域或修饰的foki剪切结构域的融合蛋白二聚化。

在一些实施方案中,锌指核酸酶可包含至少一个选自上面详述的核定位信号、细胞穿透或易位结构域的另外的结构域。

在某些实施方案中,上面详述的融合蛋白的任一种或包含至少一种融合蛋白的二聚体可以是包含至少一种指导rna的蛋白-rna复合物的一部分。指导rna与融合蛋白的crispr-cas0样蛋白相互作用以将融合蛋白定向至特定的靶位点,其中指导rna的5’端与特定的原间隔序列碱基配对。

(iii)编码rna指导的核酸内切酶或融合蛋白的核酸

本公开内容的另一方面分别提供编码在上面部分(i)和(ii)中描述的rna指导的核酸内切酶或融合蛋白的任一种的核酸。核酸可以是rna或dna。在一个实施方案中,编码rna指导的核酸内切酶或融合蛋白的核酸是mrna。mrna可以被5'加帽和/或3'多聚腺苷酸化。在另一实施方案中,编码rna指导的核酸内切酶或融合蛋白的核酸是dna。dna可以存在于载体中(参见以下)。

可将编码rna指导的核酸内切酶或融合蛋白的核酸经密码子最优化用于在目标真核细胞或动物中有效翻译成蛋白。例如,可将密码子最优化用于人、小鼠、大鼠、仓鼠、奶牛、猪、猫、狗、鱼、两栖动物、植物、酵母、昆虫等(参见在www.kazusa.or.jp/codon/的密码子使用数据库)中的表达。用于密码子最优化的程序作为免费软件是可得的(例如,在genomes.urv.es/optimizer的optimizer;在www.genscript.com/codon_opt.html的来自genscript的optimumgenetm)。市售密码子最优化程序也是可得的。

在一些实施方案中,编码rna指导的核酸内切酶或融合蛋白的dna可以与至少一个启动子控制序列可操作性地连接。在一些重复中,dna编码序列可以与启动子控制序列可操作性地连接用于在目标真核细胞或动物中表达。启动子控制序列可以是组成型的、受调控的或组织特异性的。合适的组成型的启动子控制序列包括但不限于巨细胞病毒立即早期启动子(cmv)、猿猴病毒(sv40)启动子、腺病毒主要晚期启动子、劳斯肉瘤病毒(rsv)启动子、小鼠乳腺瘤病毒(mmtv)启动子、磷酸甘油酸激酶(pgk)启动子、延长因子(ed1)-α启动子、泛素启动子、肌动蛋白启动子、微管蛋白启动子、免疫球蛋白启动子、其片段或以上任一种的组合。合适的受调控的启动子控制序列的实例包括但不限于被热激、金属、类固醇、抗生素或醇调控的那些。组织特异性启动子的非限制性实例包括b29启动子、cd14启动子、cd43启动子、cd45启动子、cd68启动子、结蛋白启动子、弹性蛋白酶-1启动子、内皮糖蛋白启动子、纤连蛋白启动子、flt-1启动子、gfap启动子、gpiib启动子、icam-2启动子、inf-β启动子、mb启动子、nphsi启动子、og-2启动子、sp-b启动子、syn1启动子和wasp启动子。启动子序列可以是野生型或它可经修饰用于更高效或有效表达。在一个例示性的实施方案中,可将编码dna与cmv启动子可操作性地连接用于在哺乳动物细胞中的组成型表达。

在某些实施方案中,可将编码rna指导的核酸内切酶或融合蛋白的序列与被用于体外mrna合成的噬菌体rna聚合酶识别的启动子序列可操作性地连接。在这类实施方案中,可将体外转录的rna纯化用于下面部分(iv)和(v)中详述的方法。例如,启动子序列可以是t7、t3或sp6启动子序列或t7、t3或sp6启动子序列的变体。在例示性实施方案中,将编码融合蛋白的dna与t7启动子可操作性地连接用于使用t7rna聚合酶的体外mrna合成。

在替代实施方案中,可将编码rna指导的核酸内切酶或融合蛋白的序列与启动子序列可操作性地连接用于rna指导的核酸内切酶或融合蛋白在细菌或真核细胞中的体外表达。在这类实施方案中,可将表达的蛋白纯化用于下面部分(iv)和(v)中详述的方法。合适的细菌启动子包括但不限于t7启动子、lac操纵子启动子、trp启动子、其变体和其组合。例示性的细菌启动子是tac,其为trp和lac启动子的杂合物。合适的真核启动子的非限制性实例在下面列出。

在另外的方面,编码rna指导的核酸内切酶或融合蛋白的dna也可与多聚腺苷酸化信号(例如,sv40polya信号、牛生长激素(bgh)polya信号等)和/或至少一个转录终止序列连接。此外,编码rna指导的核酸内切酶或融合蛋白的序列也可与在上面的部分(i)中详述的编码至少一个核定位信号、至少一个细胞穿透结构域和/或至少一个标志物结构域的序列连接。

在不同实施方案中,编码rna指导的核酸内切酶或融合蛋白的dna可存在于载体中。合适的载体包括质粒载体、噬菌粒、黏粒、人工/小-染色体、转座子和病毒载体(例如,慢病毒载体、腺伴随病毒载体等)。在一个实施方案中,编码rna指导的核酸内切酶或融合蛋白的dna存在于质粒载体中。合适的质粒载体的非限制性实例包括puc、pbr322、pet、pbluescript和其变体。载体可包含另外的表达控制序列(例如,增强子序列、kozak序列、多聚腺苷酸化序列、转录终止序列等)、选择标记序列(例如,抗生素抗性基因)、复制起点等。另外的信息可以在以下找到:“currentprotocolsinmolecularbiology(分子生物学当前实验设计)"ausubel等人,johnwiley&sons,纽约,2003或"molecularcloning:alaboratorymanual(分子克隆:实验室手册)"sambrook和russell,coldspringharborpress,coldspringharbor,ny,第三版,2001。

在一些实施方案中,包含编码rna指导的核酸内切酶或融合蛋白的序列的表达载体可进一步包括编码指导rna的序列。编码指导rna的序列通常与至少一个转录控制序列可操作性地连接用于在目的细胞或胚胎中表达该指导rna。例如,可将编码指导rna的dna与被rna聚合酶iii(poliii)识别的启动子序列可操作性地连接。合适的poliii启动子的实例包括但不限于哺乳动物u6、u3、h1和7slrna启动子。

(iv)使用rna指导的核酸内切酶修饰染色体序列的方法

本公开内容的另一方面包括在真核细胞或胚胎中修饰染色体序列的方法。所述方法包括向真核细胞或胚胎引入:(i)至少一种包含至少一个核定位信号的rna指导的核酸内切酶或编码至少一种包含至少一个核定位信号的rna指导的核酸内切酶的核酸、(ii)至少一种指导rna或编码至少一种指导rna的dna和任选(iii)至少一种包含供体序列的供体多核苷酸。所述方法进一步包括培养细胞或胚胎使得各指导rna将rna指导的核酸内切酶定向至染色体序列中的靶位点,其中rna指导的核酸内切酶将双链断裂引入靶位点,并且双链断裂通过dna修复过程修复使得染色体序列被修饰。

在一些实施方案中,该方法可包括将一种rna指导的核酸内切酶(或编码核酸)和一种指导rna(或编码dna)引入细胞或胚胎,其中所述rna指导的核酸内切酶将一个双链断裂引入靶染色体序列。在其中不存在任选供体多核苷酸的实施方案中,染色体序列中的双链断裂可通过非同源末端连接(nhej)修复过程修复。因为nhej是易错的,在断裂的修复期间可发生至少一个核苷酸的缺失、至少一个核苷酸的插入、至少一个核苷酸的置换或其组合。因此,靶染色体序列可被修饰或失活。例如,单核苷酸改变(snp)可导致改变的蛋白产物,或编码序列的阅读框移位可失活或“敲除”序列使得不产生该蛋白产物。在其中存在任选供体多核苷酸的实施方案中,供体多核苷酸中的供体序列在修复双链断裂期间可以与靶位点的染色体序列交换或整合入靶位点的染色体序列。例如,在其中供体序列被分别与染色体序列中的靶位点的上游和下游序列具有基本序列同一性的上游和下游序列侧接的实施方案中,供体序列可以在由同源性指导的修复过程所介导的修复期间与位于靶位点的染色体序列交换或整合入位于靶位点的染色体序列。备选地,在其中供体序列被相容的突出端侧接(或者相容的突出端由rna指导的核酸内切酶原位生成)的实施方案中,供体序列可在修复双链断裂期间通过非同源性修复过程与剪切的染色体序列直接连接。供体序列交换到染色体序列或供体序列整合到染色体序列修饰靶染色体序列或将外源序列引入细胞或胚胎的染色体序列。

在其它实施方案中,所述方法可包括将两种rna指导的核酸内切酶(或编码核酸)和两种指导rna(或编码dna)引入细胞或胚胎,其中所述rna指导的核酸内切酶将两个双链断裂引入染色体序列。参见图3b。两个断裂可以是在多个碱基对内,几十个碱基配内或可以被数千个碱基对分开。在其中不存在任选供体多核苷酸的实施方案中,生成的双链断裂可通过非同源修复过程修复使得在断裂的修复期间缺失两个剪切位点之间的序列和/或可以发生至少一个核苷酸的缺失、至少一个核苷酸的插入、至少一个核苷酸的置换或其组合。在其中存在任选供体多核苷酸的实施方案中,在供体多核苷酸中的供体序列在通过基于同源性的修复过程(例如,其中供体序列被分别与染色体序列中的靶位点的上游和下游序列具有基本序列同一性的上游和下游序列侧接的实施方案中)或非同源修复过程(例如,在其中供体序列通过相容的突出端侧接的实施方案中)的双链断裂修复期间可以与染色体序列交换或整合入染色体序列。

在仍其它的实施方案中,所述方法可包括将经修饰以剪切双链序列的一条链的一种rna-指导的核酸内切酶(或编码核酸)和两种指导rna(或编码dna)引入细胞或胚胎,其中各指导rna将rna指导的核酸内切酶定向至特异性靶位点,在该位点修饰的核酸内切酶剪切该双链染色体序列的一条链(即,切口),并且其中两个切口是在相对的链上,并且足够靠近而构成双链断裂。参见图3a。在其中不存在任选供体多核苷酸的实施方案中,生成的双链断裂可通过非同源修复过程修复使得在修复断裂期间可发生至少一个核苷酸的缺失、至少一个核苷酸的插入、至少一个核苷酸的置换或其组合。在其中存在任选供体多核苷酸的实施方案中,供体多核苷酸中的供体序列在通过基于同源性的修复过程(例如,其中供体序列被分别与染色体序列中的靶位点的上游和下游序列具有基本序列同一性的上游和下游序列侧接的实施方案中)或非同源修复过程(例如,在其中供体序列通过相容的突出端侧接的实施方案中)的双链断裂的修复期间可以与染色体序列交换或整合入染色体序列。

(a)rna指导的核酸内切酶

所述方法包括向细胞或胚胎引入至少一种包含至少一个核定位信号的rna指导的核酸内切酶或编码至少一种包含至少一个核定位信号的rna指导的核酸内切酶的核酸。这样的rna指导的核酸内切酶和编码rna指导的核酸内切酶的核酸分别在上面部分(i)和(iii)中描述。

在一些实施方案中,可将rna指导的核酸内切酶作为分离的蛋白引入细胞或胚胎。在这些实施方案中,rna指导的核酸内切酶可进一步包含至少一个细胞穿透结构域,其促进蛋白的细胞摄取。在其它实施方案中,可将rna指导的核酸内切酶作为mrna分子引入细胞或胚胎。在仍其它的实施方案中,可将rna指导的核酸内切酶作为dna分子引入细胞或胚胎。一般而言,将编码融合蛋白的dna序列与会在目标细胞或胚胎中起作用的启动子序列可操作性地连接。dna序列可以是线性的,或dna序列可以是载体的一部分。在仍其它的实施方案中,可将融合蛋白作为包含融合蛋白和指导rna的rna-蛋白复合物引入细胞或胚胎。

在备选实施方案中,编码rna指导的核酸内切酶的dna可进一步包含编码指导rna的序列。一般而言,将编码rna指导的核酸内切酶的各序列和指导rna可操作性地连接到合适的启动子控制序列,其允许在细胞或胚胎中分别表达rna指导的核酸内切酶和指导rna。编码rna指导的核酸内切酶和指导rna的dna序列可进一步包括另外的表达控制、调控和/或加工序列。编码rna指导的核酸内切酶和指导rna的dna序列可以为线性的或可以是载体的一部分。

(b)指导rna

所述方法也包括向细胞或胚胎引入至少一种指导rna或编码至少一种指导rna的dna。指导rna与rna指导的核酸内切酶相互作用以将核酸内切酶定向至特定的靶位点,在该位点指导rna的5’端与在染色体序列中的特异性原间隔序列碱基配对。

各指导rna包含三个区域:在与染色体序列中的靶位点互补的5’端的第一个区域、形成茎环结构的第二内部区域和基本上保持单链的第三3’区域。每一种指导rna的第一区域不同使得每一种指导rna指导融合蛋白至特异性靶位点。每一个指导rna的第二和第三区域在全部指导rna中可以相同。

指导rna的第一区域与在染色体序列中的靶位点的序列(即,原间隔序列)互补使得指导rna的第一区域可与靶位点碱基配对。在不同实施方案中,指导rna的第一区域可包含约10个核苷酸至超过约25个核苷酸。例如,指导rna的第一区域和染色体序列中的靶位点之间的碱基配对的区域长度可以为约10、11、12、13、14、15、16、17、18、19、20、22、23、24、25个或超过25个核苷酸。在例示性实施方案中,指导rna的第一区域长度是约19、20或21个核苷酸。

指导rna也包含形成二级结构的第二区域。在一些实施方案中,二级结构包含茎(或发夹)和环。环和茎的长度可变。例如,环长度可在约3-约10个核苷酸的范围内,茎长度可在约6-约20个核苷酸的范围内。茎可包含一个或多个1-约10个核苷酸的凸起。因此,第二区域的总体长度可以在约16-约60个核苷酸的范围内。在例示性实施方案中,环长度是约4个核苷酸和茎包含约12个碱基对。

指导rna也包含在3’端的基本上保持单链的第三区域。因此,第三区域不具有与目标细胞中任何染色体序列的互补性并且不具有与指导rna的余下部分的互补性。第三区域的长度可变化。一般而言,第三区域长度超过约4个核苷酸。例如,第三区域的长度可以在约5-约60个核苷酸的长度范围内。

指导rna的第二和第三区域(也称为通用或支架区域)的组合长度可以在约30-约120个核苷酸的长度范围内。在一个方面,指导rna的第二和第三区域的组合长度在约70-约100个核苷酸长度的范围内。

在一些实施方案中,指导rna包括包含全部三个区域的单分子。在其它实施方案中,指导rna可包括两个分开的分子。第一rna分子可包含指导rna的第一区域和指导rna的第二区域的“茎”的一半。第二rna分子可包含指导rna的第二区域的“茎”的另一半和指导rna的第三区域。因此,在此实施方案中,第一和第二rna分子各包含相互互补的核苷酸序列。例如,在一个实施方案中,第一和第二rna分子各自包含与另一序列碱基配对的序列(约6-约20个核苷酸)以形成功能性指导rna。

在一些实施方案中,可将指导rna作为rna分子引入细胞或胚胎。rna分子可在体外转录。备选地,rna分子可以是化学合成的。

在其它实施方案中,可将指导rna作为dna分子引入细胞或胚胎。在这种情况下,可将编码指导rna的dna与启动子控制序列可操作性地连接用于在目标细胞或胚胎中表达指导rna。例如,可将rna编码序列与被rna聚合酶iii(poliii)识别的启动子序列可操作性地连接。合适的poliii启动子的实例包括但不限于哺乳动物的u6或h1启动子。在例示性的实施方案中,将rna编码序列与小鼠或人u6启动子连接。在其它例示性的实施方案中,将rna编码序列与小鼠或人h1启动子连接。

编码指导rna的dna分子可以是线性的或环形的。在一些实施方案中,编码指导rna的dna序列可以是载体的一部分。合适的载体包括质粒载体、噬菌粒、黏粒、人工/小-染色体、转座子和病毒载体。在例示性实施方案中,编码rna指导的核酸内切酶的dna存在于质粒载体中。合适的质粒载体的非限制性实例包括puc、pbr322、pet、pbluescript和其变体。载体可包括另外的表达控制序列(例如,增强子序列、kozak序列、多腺苷酸化序列、转录终止序列等)、选择标记序列(例如,抗生素抗性基因)、复制起点等等。

在其中将rna指导的核酸内切酶和指导rna二者作为dna分子引入细胞的实施方案中,每一种都可以是不同的分子(例如,含有融合蛋白编码序列的一种载体和含有指导rna编码序列的第二载体)的一部分或二者都可以是相同分子(例如,一种包含融合蛋白和指导rna二者的编码(和调控)序列的载体)的一部分。

(c)靶位点

将与指导rna连接的rna指导的核酸内切酶定向至在染色体序列中的靶位点,其中rna指导的核酸内切酶将双链断裂引入染色体序列。除了紧接着(下游)共有序列之外,靶位点不具有序列限制。此共有序列也被称为原间隔毗连基序(pam)。pam的实例包括但不限于ngg、nggng和nnagaaw(其中n被限定为任何核苷酸和w被限定为a或t)。如在上面的部分(iv)(b)中详述,指导rna的第一区域(在5’端)与靶序列的原间隔基互补。通常,指导rna的第一区域长度是约19-21个核苷酸。因此,在某些方面,染色体序列中靶位点的序列是5’-n19-21-ngg-3’。pam呈斜体。

靶位点可以在基因的编码区中、在基因的内含子中、在基因的控制区中、在基因之间的非编码区中等。基因可以是蛋白编码基因或rna编码基因。基因可以是任何目标基因。

(d)任选供体多核苷酸

在一些实施方案中,所述方法进一步包括将至少一种供体多核苷酸引入胚胎。供体多核苷酸包含至少一个供体序列。在一些方面,供体多核苷酸的供体序列与内源或天然染色体序列相对应。例如,供体序列可与在靶位点或靶位点附近的染色体序列的一部分基本相同,但其包含至少一个核苷酸改变。因此,供体序列可包含在靶位点的野生型序列的修饰形式,使得当与天然序列整合或交换时,在靶染色体位置的序列包含至少一个核苷酸变化。例如,变化可以是一个或多个核苷酸的插入、一个或多个核苷酸的缺失、一个或多个核苷酸的置换或其组合。作为修饰序列整合的结果,细胞或胚胎/动物可产生相对于靶染色体序列的修饰的基因产物。

在其它方面,供体多核苷酸的供体序列与外源序列相对应。本文使用的“外源”序列是指对于细胞或胚胎而言非天然的序列,或其在细胞或胚胎的基因组中的天然位置是在不同位置的序列。例如,外源序列可包含蛋白编码序列,其可以与外源的启动子控制序列可操作性地连接使得,当整合入基因组时,细胞或胚胎/动物能够表达由整合的序列编码的蛋白。备选地,可将外源序列整合入染色体序列使得它的表达由内源启动子控制序列调控。在其它重复中,外源序列可以是转录控制序列、另一表达控制序列、rna编码序列等。将外源序列整合入染色体序列被称为“敲入”。

本领域技术人员可以理解的是,供体序列的长度可以并且会变化。例如,供体序列长度可以从几个核苷酸变化至几百个核苷酸至几十万个核苷酸。

包含上游和下游序列的供体多核苷酸。在一些实施方案中,供体多核苷酸中的供体序列被上游序列和下游序列侧接,其分别与位于染色体序列中的靶位点的上游和下游的序列具有基本序列同一性。因为这些序列类似性,供体多核苷酸的上游和下游序列允许供体多核苷酸和靶染色体序列之间的同源重组,使得供体序列可以被整合入染色体序列(或与染色体序列交换)。

本文使用的上游序列是指与靶位点上游的染色体序列具有基本序列同一性的核酸序列。类似地,下游序列是指与靶位点下游的染色体序列具有基本序列同一性的核酸序列。本文使用的短语"基本序列同一性"是指具有至少约75%序列同一性的序列。因此,供体多核苷酸中的上游和下游序列可与靶位点上游或下游的序列具有约75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%序列同一性。在例示性实施方案中,供体多核苷酸中的上游和下游序列可具有与靶位点的上游或下游的染色体序列约95%或100%序列同一性。在一个实施方案中,上游序列与紧接位于靶位点上游(即,与靶位点毗连)的染色体序列具有基本序列同一性。在其它实施方案中,上游序列与位于自靶位点上游约一百(100)个核苷酸内的染色体序列具有基本序列同一性。因此,例如,上游序列可与位于自靶位点上游约1-约20、约21-约40、约41-约60、约61-约80或约81-约100个核苷酸的染色体序列具有基本序列同一性。在一个实施方案中,下游序列与紧接位于靶位点下游(即,与靶位点毗连)的染色体序列具有基本序列同一性。在其它实施方案中,下游序列与位于自靶位点下游约一百(100)个核苷酸内的染色体序列具有基本序列同一性。因此,例如,下游序列可以与位于自靶位点下游约1-约20、约21-约40、约41-约60、约61-约80或约81-约100个核苷酸的染色体序列具有基本序列同一性。

各上游或下游序列长度可在约20个核苷酸-约5000个核苷酸的范围内。在一些实施方案中,上游和下游序列可包含约50、100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2800、3000、3200、3400、3600、3800、4000、4200、4400、4600、4800或5000个核苷酸。在例示性的实施方案中,上游和下游序列长度可以在约50-约1500个核苷酸的范围内。

包含具有与靶染色体序列的序列相似性的上游和下游序列的供体多核苷酸可以是线性或环形的。在其中供体多核苷酸是环形的实施方案中,它可以是载体的一部分。例如,载体可以是质粒载体。

包含靶剪切位点的供体多核苷酸。在其它实施方案中,供体多核苷酸可以另外包含至少一个被rna指导的核酸内切酶识别的靶剪切位点。加入供体多核苷酸的靶剪切位点可位于供体序列的上游或下游或上游和下游二者。例如,供体序列可以侧接靶剪切位点,使得当被rna指导的核酸内切酶剪切时,供体序列与突出端侧接,所述突出端与被rna指导的核酸内切酶剪切时生成的在染色体序列中那些突出端相容。因此,供体序列可以在通过非同源修复过程修复双链断裂期间与剪切的染色体序列连接。通常,包含靶剪切位点的供体多核苷酸会是环形的(例如,可以为质粒载体的一部分)。

包含具有任选突出端的短供体序列的供体多核苷酸。在仍备选的实施方案中,供体多核苷酸可以是包含短供体序列的线性分子,所述线性分子具有与由rna指导的核酸内切酶生成的突出端相容的任选短突出端。在这类实施方案中,供体序列可以在修复双链断裂期间直接与剪切的染色体序列连接。在一些例子中,供体序列可以是小于约1,000、小于约500、小于约250或小于约100个核苷酸。在某些情况下,供体多核苷酸可以是包含具有平端的短供体序列的线性分子。在其它重复中,供体多核苷酸可以是包含具有5’和/或3’突出端的短供体序列的线性分子。突出端可包含1、2、3、4或5个核苷酸。

通常,供体多核苷酸是dna。dna可以是单链的或双链的和/或线性的或环形的。供体多核苷酸可以是dna质粒、细菌人工染色体(bac)、酵母人工染色体(yac)、病毒载体、线性的dna段、pcr片段、裸核酸或与递送载体如脂质体或泊洛沙姆(poloxamer)复合的核酸。在某些实施方案中,包含供体序列的供体多核苷酸可以是质粒载体的一部分。在这些任一种情况下,包含供体序列的供体多核苷酸可进一步包含至少一种另外的序列。

(e)引入细胞或胚胎

rna-靶向的核酸内切酶(或编码核酸),指导rna(或编码dna),和任选供体多核苷酸可通过各种方式引入细胞或胚胎。在一些实施方案中,转染细胞或胚胎。合适的转染方法包括磷酸钙-介导的转染、核转染(或电穿孔)、阳离子聚合物转染(例如,deae-葡聚糖或聚乙烯亚胺)、病毒转导、病毒颗粒(virosome)转染、病毒粒子(virion)转染、脂质体转染、阳离子脂质体转染、免疫脂质体转染、非脂质体型脂质转染、树形分子(dendrimer)转染、热激转染、磁转染、脂质转染、基因枪递送、穿刺转染(impalefection)、声孔效应、光学转染和专利品(proprietaryagent)增强的核酸摄取。转染方法是本领域周知的(参见,例如,"currentprotocolsinmolecularbiology(分子生物学当前实验设计)"ausubel等人,johnwiley&sons,newyork,2003或"molecularcloning:alaboratorymanual(分子克隆:实验室手册)"sambrook和russell,coldspringharborpress,coldspringharbor,ny,第三版,2001)。在其它实施方案中,将分子通过显微注射引入细胞或胚胎。通常,胚胎是目标物种的受精的单细胞期胚胎。例如,可将分子注射入单细胞胚胎的前核。

可将rna-靶向的核酸内切酶(或编码核酸)、指导rna(或编码指导rna的dna)和任选供体多核苷酸同时地或贯序地引入细胞或胚胎。rna-靶向的核酸内切酶(或编码核酸)相对于指导rna(或编码dna)的比率通常为约化学计量比,使得它们可以形成rna-蛋白复合物。在一个实施方案中,将编码rna-靶向的核酸内切酶的dna和编码指导rna的dna在质粒载体内一起递送。

(f)培养细胞或胚胎

所述方法进一步包含将细胞或胚胎维持在合适的条件下,使得指导rna将rna指导的核酸内切酶定向至在染色体序列中的靶位点,和rna指导的核酸内切酶将至少一个双链断裂引入染色体序列。双链断裂可通过dna修复过程修复使得染色体序列通过至少一个核苷酸的缺失,至少一个核苷酸的插入,至少一个核苷酸的置换或其组合而修饰。

在其中没有供体多核苷酸被引入细胞或胚胎的实施方案中,双链断裂可以通过非同源末端连接(nhej)修复过程而修复。因为nhej是易错的,因此在断裂修复期间可发生至少一个核苷酸的缺失、至少一个核苷酸的插入、至少一个核苷酸的置换或其组合。因此,在染色体序列的序列可被修饰使得编码区阅读框可被移位并且染色体序列被失活或“敲除”。失活的蛋白编码染色体序列不产生由野生型染色体序列编码的蛋白。

在其中将包含上游和下游序列的供体多核苷酸引入细胞或胚胎的实施方案中,双链断裂可以通过同源性定向的修复(hdr)过程修复使得供体序列被整合入染色体序列。因此,外源序列可被整合入细胞或胚胎的基因组,或可通过用修饰的序列替换野生型染色体序列而修饰靶染色体序列。

在其中将包含靶剪切位点的供体多核苷酸引入细胞或胚胎的实施方案中,rna指导的核酸内切酶可剪切靶染色体序列和供体多核苷酸二者。可将线性化的供体多核苷酸通过nhej过程通过将供体多核苷酸和剪切的染色体序列之间连接而整合入双链断裂位点的染色体序列。

在其中将包含短供体序列的线性的供体多核苷酸引入细胞或胚胎的实施方案中,短供体序列可通过nhej过程整合入双链断裂位点的染色体序列。整合可通过将短供体序列和在双链断裂位点的染色体序列之间的平端连接而进行。或者,整合可以通过将侧接突出端的短供体序列之间的粘性末端(即,具有5’或3’突出端)连接而进行,所述突出端与由rna-靶向核酸内切酶在剪切的染色体序列中生成的那些突出端是相容的。

一般而言,将细胞维持在适合于细胞生长和/或维持的条件下。合适的细胞培养条件是本领域周知的,并描述于,例如,santiago等人(2008)pnas105:5809-5814;moehle等人(2007)pnas104:3055-3060;urnov等人(2005)nature435:646-651;和lombardo等人(2007)nat.biotechnology25:1298-1306。本领域技术人员理解的是,用于培养细胞的方法是本领域已知的并且可以和会根据细胞类型而改变。在全部情况下,可使用常规的最优化以确定用于特定细胞种类的最好的技术。

胚胎可在体外(例如,在细胞培养中)培养。通常,如果必要,将胚胎于合适的温度下和在合适的培养基中用必要的o2/co2比率培养以允许rna核酸内切酶和指导rna的表达。培养基的合适的非限制性实例包括m2、m16、ksom、bmoc和htf培养基。技术人员会理解的是,培养条件可以并会根据胚胎的种类而改变。在全部情况下,可使用常规的最优化以确定用于特定胚胎种类的最好的培养条件。在一些情况下,细胞系可以衍生自体外培养的胚胎(例如,胚胎干细胞系)。

或者,可通过将胚胎转移至雌性宿主的子宫在体内培养胚胎。通常而言,雌性宿主来自与胚胎相同或类似的种类。优选地,雌性宿主是假孕的。制备假孕的雌性宿主的方法是本领域已知的。此外,将胚胎转移入雌性宿主的方法是本领域已知的。在体内培养胚胎允许胚胎发育并可以产生由胚胎衍生的动物的活产。这类动物在身体的每一个细胞中包含修饰的染色体序列。

(g)细胞和胚胎类型

多种真核细胞和胚胎适合用于该方法。例如,细胞可以是人细胞、非人哺乳动物细胞、非哺乳动物的脊椎动物细胞、无脊椎动物细胞、昆虫细胞、植物细胞、酵母细胞或单细胞真核生物。一般而言,胚胎是非人哺乳动物胚胎。在特定实施方案中,胚胎可以是单细胞非人哺乳动物胚胎。包括单细胞胚胎的例示性的哺乳动物的胚胎包括但不限于小鼠、大鼠、仓鼠、啮齿动物、兔、猫、犬、羊、猪、牛、马和灵长类动物胚胎。在仍其它的实施方案中,细胞可以是干细胞。合适的干细胞包括但不限于胚胎干细胞、es样干细胞、胎儿干细胞、成体干细胞、多能性干细胞、诱导的多能性干细胞、多能干细胞、寡能干细胞、单能干细胞等等。在例示性的实施方案中,细胞是哺乳动物细胞。

合适的哺乳动物细胞的非限制性实例包括中国仓鼠卵巢(cho)细胞、幼仓鼠肾(bhk)细胞;小鼠骨髓瘤ns0细胞、小鼠胚胎成纤维细胞3t3细胞(nih3t3)、小鼠b淋巴瘤a20细胞;小鼠黑色素瘤b16细胞;小鼠成肌细胞c2c12细胞;小鼠骨髓瘤sp2/0细胞;小鼠胚胎间充质细胞c3h-10t1/2细胞;小鼠癌ct26细胞、小鼠前列腺ducup细胞、小鼠乳腺emt6细胞;小鼠肝癌hepa1c1c7细胞;小鼠骨髓瘤j5582细胞;小鼠上皮mtd-1a细胞;小鼠心肌myend细胞;小鼠肾renca细胞;小鼠胰rin-5f细胞;小鼠黑色素瘤x64细胞;小鼠淋巴瘤yac-1细胞;大鼠成胶质细胞瘤9l细胞;大鼠b淋巴瘤rbl细胞;大鼠成神经细胞瘤b35细胞;大鼠肝癌细胞(htc);牛鼠(buffalorat)肝brl3a细胞;犬肾细胞(mdck);犬乳腺(cmt)细胞;大鼠骨肉瘤d17细胞;大鼠单核细胞/巨噬细胞dh82细胞;猴肾sv-40转化成纤维细胞(cos7)细胞;猴肾cvi-76细胞;非洲绿猴肾(vero-76)细胞;人胚胎肾细胞(hek293,hek293t);人颈癌细胞(hela);人肺细胞(w138);人肝细胞(hepg2);人u2-os骨肉瘤细胞、人a549细胞、人a-431细胞和人k562细胞。哺乳动物细胞系的详尽的列表可在美国模式培养物保藏所目录(atcc,mamassas,va)中找到。

(v)使用融合蛋白以修饰染色体序列或调控染色体序列的表达的方法

本公开内容的另一方面包括一种用于在细胞或胚胎中修饰染色体序列或调控染色体序列表达的方法。所述方法包括向细胞或胚胎中引入(a)至少一种融合蛋白或编码至少一种融合蛋白的核酸,其中所述融合蛋白包含crispr/cas样蛋白或其片段和效应子结构域,和(b)至少一种指导rna或编码该指导rna的dna,其中所述指导rna指导该融合蛋白的crispr/cas样蛋白至染色体序列中的靶位点,并且该融合蛋白的效应子结构域修饰染色体序列或调控染色体序列的表达。

包含crispr/cas样蛋白或其片段和效应子结构域的融合蛋白在上面的部分(ii)中详述。一般而言,本文公开的融合蛋白进一步包含至少一个核定位信号。编码融合蛋白的核酸在上面的部分(iii)中详述。在一些实施方案中,融合蛋白可以作为分离的蛋白(其可以进一步包含细胞穿透结构域)引入细胞或胚胎。此外,分离的融合蛋白可以是包含指导rna的蛋白-rna复合物的一部分。在其它实施方案中,可将融合蛋白作为rna分子(其可以被加帽和/或多聚腺苷酸化)引入细胞或胚胎。在仍其它的实施方案中,可将融合蛋白作为dna分子引入细胞或胚胎。例如,可将融合蛋白和指导rna作为离散的dna分子或相同的dna分子的一部分引入细胞或胚胎。这类dna分子可以是质粒载体。

在一些实施方案中,所述方法进一步包括向细胞或胚胎引入至少一种锌指核酸酶。锌指核酸酶在上面的部分(ii)(d)中描述。在仍其它的实施方案中,所述方法进一步包括向细胞或胚胎引入至少一种供体多核苷酸。供体多核苷酸在上面的部分(iv)(d)中详述。用于将分子引入细胞或胚胎的方式,和用于培养细胞或胚胎的方式分别在上面的部分(iv)(e)和(iv)(f)中描述。合适的细胞和胚胎在上面的部分(iv)(g)中描述。

在其中融合蛋白的效应子结构域是剪切结构域(例如,foki剪切结构域或修饰的foki剪切结构域)的某些实施方案中,所述方法可包括向细胞或胚胎引入一种融合蛋白(或编码一种融合蛋白的核酸)和两种指导rna(或编码两种指导rna的dna)。所述两种指导rna将融合蛋白定向至染色体序列中的两个不同靶位点,其中融合蛋白二聚化(例如,形成同源二聚体)使得所述两个剪切结构域可将双链断裂引入染色体序列。参见图1a。在其中不存在任选供体多核苷酸的实施方案中,染色体序列中的双链断裂可通过非同源末端连接(nhej)修复过程而修复。因为nhej是易错的,所以在断裂修复期间可发生至少一个核苷酸的缺失、至少一个核苷酸的插入、至少一个核苷酸的置换或其组合。因此,靶染色体序列可以被修饰或失活。例如,单核苷酸改变(snp)可产生改变的蛋白产物,或编码序列阅读框的移位可以失活或“敲除”序列使得不产生该蛋白产物。在其中存在任选供体多核苷酸的实施方案中,供体多核苷酸中的供体序列可在双链断裂的修复期间与靶位点的染色体序列置换或整合入靶位点的染色体序列。例如,在其中供体序列被分别与染色体序列中的靶位点的上游和下游序列具有基本序列同一性的上游和下游序列侧接的实施方案中,供体序列在通过同源性指导修复过程介导的修复期间可与靶位点的染色体序列置换或整合入靶位点的染色体序列。或者,在其中供体序列被相容的突出端侧接(或相容的突出端由rna指导的核酸内切酶原位生成)的实施方案中,供体序列在双链断裂的修复期间可以通过非同源修复过程与剪切的染色体序列直接连接。供体序列至染色体序列的置换或整合修饰靶染色体序列或将外源序列引入细胞或胚胎的染色体序列。

在其中融合蛋白的效应子结构域是剪切结构域(例如,foki剪切结构域或修饰的foki剪切结构域)的其它实施方案中,所述方法可以包括向细胞或胚胎中引入两种不同的融合蛋白(或编码两种不同的融合蛋白的核酸)和两种指导rna(或编码两种指导rna的dna)。融合蛋白可以如在上面部分(ii)中详述而不同。各指导rna将融合蛋白定向至染色体序列中的具体靶位点,其中所述融合蛋白二聚化(例如,形成异源二聚体)使得两个剪切结构域可将双链断裂引入染色体序列。在其中不存在任选供体多核苷酸的实施方案中,生成的双链断裂可通过非同源修复过程修复,使得在断裂修复期间可发生至少一个核苷酸的缺失、至少一个核苷酸的插入、至少一个核苷酸的置换或其组合。在其中存在任选供体多核苷酸的实施方案中,供体多核苷酸中的供体序列可与在通过基于同源性的修复过程(例如,在其中供体序列被分别与染色体序列中的靶位点的上游和下游序列具有基本序列同一性的上游和下游序列侧接的实施方案中)或非同源修复过程(例如,在其中供体序列被相容的突出端侧接的实施方案中)的双链断裂的修复期间与染色体序列置换或整合入染色体序列。

在其中融合蛋白的效应子结构域是剪切结构域(例如,foki剪切结构域或修饰的foki剪切结构域)的仍其它实施方案中,所述方法可包括向细胞或胚胎引入一种融合蛋白(或编码一种融合蛋白的核酸),一种指导rna(或编码一种指导rna的dna)和一种锌指核酸酶(或编码锌指核酸酶的核酸),其中锌指核酸酶包含foki剪切结构域或修饰的foki剪切结构域。指导rna将融合蛋白定向至具体的染色体序列,并且锌指核酸酶被定向至另一染色体序列,其中所述融合蛋白和锌指核酸酶二聚化使得融合蛋白的剪切结构域和锌指核酸酶的剪切结构域可以将双链断裂引入染色体序列。参见图1b。在其中不存在任选供体多核苷酸的实施方案中,生成的双链断裂可以通过非同源修复过程而修复,使得在断裂的修复期间可以发生至少一个核苷酸的缺失、至少一个核苷酸的插入、至少一个核苷酸的置换或其组合。在其中存在任选供体多核苷酸的实施方案中,供体多核苷酸中的供体序列在通过基于同源性的修复过程(例如,在其中供体序列被分别与染色体序列中的靶位点的上游和下游序列具有基本序列同一性的上游和下游序列侧接的实施方案中)或非同源修复过程(例如,在其中供体序列被相容的突出端侧接的实施方案中)期间可以与染色体序列置换或整合入染色体序列。

在其中融合蛋白的效应子结构域是转录激活结构域或转录抑制子结构域的仍其它实施方案中,所述方法可包括向细胞或胚胎引入一种融合蛋白(或编码一种融合蛋白的核酸)和一种指导rna(或编码一种指导rna的dna)。指导rna将融合蛋白定向至具体的染色体序列,其中所述转录激活结构域或转录抑制子结构域分别激活或抑制靶染色体序列的表达。参见图2a。

在其中融合蛋白的效应子结构域是表观遗传修饰结构域的备选实施方案中,所述方法可包括向细胞或胚胎引入一种融合蛋白(或编码一种融合蛋白的核酸)和一种指导rna(或编码一种指导rna的dna)。指导rna将融合蛋白定向至具体的染色体序列,其中表观遗传修饰结构域修饰靶染色体序列的结构。参见图2a。表观遗传修饰包括组蛋白的乙酰化、甲基化和/或核苷酸甲基化。在一些例子中,染色体序列的结构修饰导致染色体序列的表达的变化。

(vi)遗传修饰的细胞和动物

本公开内容包括遗传修饰的细胞、非人胚胎和非人动物,其包含至少一个使用rna指导的核酸内切酶-介导的或或融合蛋白-介导的过程(例如,使用本文描述的方法)修饰的染色体序列。本公开内容提供细胞,其包含至少一种编码rna指导的核酸内切酶或靶向至目标染色体序列的融合蛋白或融合蛋白的dna或rna分子、至少一种指导rna,和任选一种或多种供体多核苷酸。本公开内容也提供非人胚胎,其包含至少一种编码rna指导的核酸内切酶或靶向至目标染色体序列的融合蛋白的dna或rna分子,至少一种指导rna和任选一种或多种供体多核苷酸。

本公开内容提供遗传修饰的非人动物、非人胚胎或动物细胞,其包含至少一个修饰的染色体序列。修饰的染色体序列可以被修饰使得它(1)失活,(2)具有改变的表达,或产生改变的蛋白产物,或(3)包含整合的序列。使用本文描述的方法,将染色体序列用rna指导的核酸内切酶-介导的或融合蛋白-介导的过程修饰。

如讨论的,本公开内容的一个方面提供其中至少一个染色体序列已经被修饰的遗传修饰的动物。在一个实施方案中,遗传修饰的动物包含至少一个失活的染色体序列。修饰的染色体序列可以被失活使得序列不被转录和/或不产生功能性蛋白产物。因此,包含失活的染色体序列的遗传修饰的动物可以称为"敲除"或"条件性敲除"。失活的染色体序列可以包括缺失突变(即,一个或多个核苷酸的缺失),插入突变(即,一个或多个核苷酸的插入)或无义突变(即,用单核苷酸置换另一核苷酸使得终止密码子被引入)。作为突变的结果,靶染色体序列被失活并且不产生功能性蛋白。失活的染色体序列包含非内源引入的序列。本文还包括遗传修饰的动物,其中2、3、4、5、6、7、8、9或10个或更多个染色体序列被失活。

在另一实施方案中,修饰的染色体序列可以被改变使得它编码变体蛋白产物。例如,包含修饰的染色体序列的遗传修饰的动物可以包含靶点突变或其它修饰使得产生改变的蛋白产物。在一个实施方案中,染色体序列可以被修饰使得至少一个核苷酸被改变并且该表达的蛋白包含一个改变的氨基酸残基(错义突变)。在另一实施方案中,染色体序列可以被修饰以包含超过一个错义突变使得改变超过一个氨基酸。此外,染色体序列可以被修饰以具有3个核苷酸的缺失或插入使得表达的蛋白含有单氨基酸缺失或插入。改变的或变体蛋白与野生型蛋白相比可以具有改变的性质或活性,例如改变的底物特异性、改变的酶活性、改变的动力学速率等。

在另一实施方案中,遗传修饰的动物可以包含至少一个染色体整合的序列。包含整合序列的遗传修饰的动物可以被称为"敲入"或"条件性敲入"。染色体整合的序列可以,例如,编码直向同源蛋白、内源蛋白或两者的组合。在一个实施方案中,编码直向同源蛋白或内源蛋白的序列可以被整合入编码蛋白的染色体序列使得染色体序列失活,但是外源序列表达。在这类情况下,编码直向同源蛋白或内源蛋白的序列可以被可操作性地连接至启动子控制序列。或者,编码直向同源蛋白或内源蛋白的序列可以被整合入染色体序列,而不影响染色体序列的表达。例如,编码蛋白的序列可以被整合入"安全港(safeharbor)"基因座,例如rosa26基因座、hprt基因座或aav基因座。本公开内容也包含遗传修饰的动物,其中2、3、4、5、6、7、8、9或10或更多个序列(包括编码蛋白的序列)被整合入基因组。

染色体整合的编码蛋白的序列可以编码目标蛋白的野生型形式或可以编码包含至少一个修饰的蛋白使得产生改变形式的蛋白。例如,染色体整合的编码涉及疾病或病症的蛋白的序列可以包含至少一个修饰,使得产生的改变形式的蛋白引起相关病症或使得所述相关病症成为可能。或者,染色体整合的编码涉及疾病或病症的蛋白的序列可以包含至少一个修饰使得改变形式的蛋白防止所述相关病症的发展。

在另外的实施方案中,遗传修饰的动物可以是"人源化"动物,其包含至少一个编码功能性人蛋白的染色体整合的序列。功能性人蛋白在遗传修饰的动物中可以不具有对应的直向同源物。或者,由其衍生出遗传修饰的动物的野生型动物可以包括与功能性人蛋白对应的直向同源物。在这种情况下,"人源化"动物中的直向同源序列被失活使得不产生功能性蛋白,并且"人源化"动物包含至少一个染色体整合的编码人蛋白的序列。

在更另一实施方案中,遗传修饰的动物可包含至少一个修饰的编码蛋白的染色体序列使得蛋白的表达模式被改变。例如,控制蛋白表达的调控区域,例如启动子或转录因子结合位点,可以被改变,使得蛋白过量产生,或蛋白的组织特异性或时间性表达被改变,或其组合。或者,蛋白的表达模式可以使用条件性敲除系统改变。条件性敲除系统的非限制性实例包括cre-lox重组系统。cre-lox重组系统包括cre重组酶、位点-特异性dna重组酶,其可以催化在核酸分子中的特异性位点(lox位点)之间的核酸序列的重组。使用此系统以产生时间性的和组织特异性表达的方法是本领域已知的。一般而言,遗传修饰的动物用侧接染色体序列的lox位点生成。包含lox-侧接的染色体序列的遗传修饰的动物可以随后与表达cre重组酶的另一遗传修饰的动物杂交。包含lox-侧接的染色体序列和cre重组酶的子代动物随后产生,并且lox-侧接的染色体序列被重组,这导致编码该蛋白的染色体序列缺失或倒位。cre重组酶的表达可以被时间性地和条件性地调控以实现时间性和条件性调控的染色体序列的重组。

在这些实施方案的任一个中,本文公开的遗传修饰的动物对于修饰的染色体序列而言可以是杂合的。或者,遗传修饰动物对于修饰的染色体序列而言可以是纯合的。

本文公开的遗传修饰的动物可经杂交以生成包含超过一个修饰的染色体序列的动物或生成对于一个或多个修饰的染色体序列而言是纯合的动物。例如,包含相同修饰的染色体序列的两个动物可经杂交以生成对于修饰的染色体序列而言纯合的动物。或者,具有不同修饰的染色体序列的动物可经杂交以生成包含两种修饰的染色体序列的动物。

例如,包含失活的染色体序列基因“x”的第一动物可以与包含编码人基因“x”蛋白的染色体整合的序列的第二动物杂交以产生包含失活的基因“x”染色体序列和染色体整合的人基因“x”序列二者的"人源化"基因“x”子代。同样,人源化基因“x”动物可以与人源化基因“y”动物杂交以生成人源化基因x/基因y子代。本领域技术人员会理解许多组合是有可能的。

在其它实施方案中,包含修饰的染色体序列的动物可经杂交以将修饰的染色体序列和其它遗传背景组合。作为非限制性实例,其它遗传背景可以包括野生型遗传背景、具有缺失突变的遗传背景、具有另一靶整合的遗传背景和具有非靶整合的遗传背景。

本文使用的术语"动物"是指非人动物。动物可以是胚胎、幼体或成体。合适的动物包括脊椎动物例如哺乳动物、鸟类、爬行动物、两栖动物、甲壳类动物和鱼类。合适的哺乳动物的实例包括但不限于啮齿动物、陪伴动物、家畜和灵长类动物。啮齿动物的非限制性实例包括小鼠、大鼠、仓鼠、沙鼠和豚鼠。合适的陪伴动物包括但不限于猫、狗、兔、刺猬和雪貂。家畜的非限制性实例包括马、山羊、绵羊、猪、牛、美洲驼和羊驼。合适的灵长类动物包括但不限于僧帽猴、黑猩猩、狐猴、恒河猴、狨、绢毛猴、蜘蛛猿、松鼠猴和长尾猴(vervetmonkey)。鸟类的非限制性实例包括鸡、火鸡、鸭和鹅。或者,动物可以是无脊椎动物例如昆虫、线虫等等。昆虫的非限制性实例包括果蝇和蚊子。例示性的动物是大鼠。合适的大鼠品系的非限制性实例包括dahlsalt-sensitive、fischer344、lewis、longevanshooded、sprague-dawley和wistar。在一个实施方案中,动物不是遗传修饰的小鼠。在对于本发明合适的动物的上文重述的每一种中,动物不包括内源引入的,随机整合的转座子序列。

本公开内容的进一步方面提供包含至少一个修饰的染色体序列的遗传修饰的细胞或细胞系。遗传修饰的细胞或细胞系可以自本文公开的遗传修饰的动物的任一种衍生。或者,染色体序列可以在细胞中如上文所描述(在描述动物中染色体序列修饰的段落中)使用本文描述的方法修饰。本公开内容也包括所述细胞或细胞系的裂解液。

一般而言,细胞是真核细胞。合适的宿主细胞包括真菌或酵母,例如毕赤酵母属(pichia,saccharomyces)或裂殖酵母属(schizosaccharomyces);昆虫细胞,例如来自草地贪夜蛾(spodopterafrugiperda)的sf9细胞或来自果蝇(drosophilamelanogaster)的s2细胞;和动物细胞例如小鼠、大鼠、仓鼠、非人灵长类动物或人细胞。例示性的细胞是哺乳动物细胞。哺乳动物细胞可以是原代细胞。一般而言,可以使用对于双链断裂敏感的任何原代细胞。细胞可以是多种细胞类型,例如,成纤维细胞、成肌细胞、t或b细胞、巨噬细胞、上皮细胞等等。

当使用哺乳动物细胞系时,细胞系可以是任何已建立的细胞系或还没描述过的原代细胞系。细胞系可以是附着的或非附着的,或细胞系可以使用本领域技术人员已知的标准技术,在促进附着的、附着的或器官型生长的条件下生长。合适的哺乳动物细胞和细胞系的非限制性实例在本文的部分(iv)(g)中提供。在仍其它的实施方案中,细胞可以是干细胞。合适的干细胞的非限制性实例在部分(iv)(g)中提供。

本公开内容也提供遗传修饰的非人胚胎,其包含至少一个修饰的染色体序列。染色体序列可以在胚胎中如本文上面所描述(在描述动物中的染色体序列修饰的段落中)使用本文描述的方法来修饰。在一个实施方案中,胚胎是非人受精的目标动物种类的单细胞期胚胎。包括一个细胞胚胎的例示性的哺乳动物胚胎包括但不限于小鼠、大鼠、仓鼠、啮齿动物、兔、猫、犬、羊、猪、牛、马和灵长类动物胚胎。

定义

除非另外定义,本文使用的全部技术和科学术语具有此发明所属领域的技术人员通常理解的含义。以下参考文献给技术人员提供了在本发明中使用的许多术语的通用定义:singleton等人,dictionaryofmicrobiologyandmolecularbiology(微生物和分子生物学字典)(第2版,1994);thecambridgedictionaryofscienceandtechnology(科学和技术剑桥字典)(walkered.,1988);theglossaryofgenetics(遗传学词汇表),第5版,r.rieger等人(eds.),springerverlag(1991);和hale与marham,theharpercollinsdictionaryofbiology(生物学的harpercollins字典)(1991)。本文使用的以下术语具有属于它们的含义,除非另有说明。

当提出本公开内容或其优选实施方案的要素时,冠词“一个”、“一种”、“该”和“所述”意指有一个或多个要素。术语“包含”、“含有”和“具有”意图为包容性的,意指除了列举的要素之外可有另外的要素。

本文使用的术语"内源序列"是指对细胞而言是天然的染色体序列。

本文使用的术语“外源的”是指对于细胞而言是非天然的序列,或其在细胞的基因组中的天然位置是在不同染色体位置的染色体序列。

本文使用的"基因"是指编码基因产物的dna区域(其包括外显子和内含子),以及调控该基因产物的产生的全部dna区域(无论所述调控序列是否与编码和/或转录序列毗连)。因此,基因包括但不必然限定于启动子序列、终止子、翻译调控序列例如核糖体结合位点和内部核糖体进入位点、增强子、沉默子、绝缘子、边界元件、复制起点、基质附着位点和基因座控制区域。

术语"异源的"是指对于目标细胞而言并非内源或天然的实体。例如,异源的蛋白是指由内源的来源衍生的或最初由内源的来源衍生的蛋白,例如内源引入的核酸序列。在一些例子中,异源的蛋白通常不是由目标细胞产生。

术语“核酸”和“多核苷酸”是指脱氧核糖核苷酸或核糖核苷酸聚合物,呈线性的或环形的构象的和呈单链或双链形式的。用于本公开内容的目的,这些术语不应理解为关于聚合物的长度受限制。术语可以包含天然核苷酸的已知类似物,以及在碱基、糖和/或磷酸部分(例如,硫代磷酸酯主链)中修饰的核苷酸。一般而言,特定核苷酸的类似物具有相同的碱基配对特异性;即,a的类似物会与t碱基配对。

术语"核苷酸"是指脱氧核糖核苷酸或核糖核苷酸。核苷酸可以是标准核苷酸(即,腺苷、鸟苷、胞苷、胸苷和尿苷)或核苷酸类似物。核苷酸类似物是指具有修饰的嘌呤或嘧啶碱基或修饰的核糖部分的核苷酸。核苷酸模拟物可以是天然存在的核苷酸(例如,肌苷)或非天然存在的核苷酸。对核苷酸的糖或碱基部分的修饰的非限制性实例包括添加(或除去)乙酰基基团、氨基基团、羧基基团、羧甲基基团、羟基基团、甲基基团、磷酰基基团和巯基基团,以及用其它原子取代碱基的碳原子和氮原子(例如,7-脱氮嘌呤)。核苷酸类似物也包括双脱氧核苷酸、2’-o-甲基核苷酸、锁定核酸(lna)、肽核酸(pna)和吗啉基寡聚核苷酸(morpholinos)。

术语“多肽”和“蛋白”可互换地用于指氨基酸残基的聚合物。

用于确定核酸和氨基酸序列同一性的技术是本领域已知的。通常,这些技术包括确定基因的mrna的核苷酸序列和/或确定由此编码的氨基酸序列,和将这些序列与第二核苷酸或氨基酸序列比较。基因组序列也可以按这种方法确定和比较。一般而言,同一性是指两个多核苷酸或多肽序列各自精确的核苷酸与核苷酸或氨基酸与氨基酸一致性。两个或更多个序列(多核苷酸或氨基酸)可以通过确定它们的百分比同一性而比较。两个序列(无论核酸或氨基酸序列)的百分比同一性是两个比对的序列之间的精确匹配的数量除以较短序列的长度并乘以100。核酸序列的大概比对由smith和waterman,advancesinappliedmathematics(应用数学进展)2:482-489(1981)的局部同源性算法提供。此算法可通过使用由dayhoff,atlasofproteinsequencesandstructure(蛋白质序列和结构的图谱),m.o.dayhoffed.,5suppl.3:353-358,nationalbiomedicalresearchfoundation,washington,d.c.,usa,开发的并由gribskov,nucl.acidsres.14(6):6745-6763(1986)标准化的得分矩阵而应用于氨基酸序列。此算法用于确定序列百分比同一性的例示性实施,由geneticscomputergroup(madison,wis.)提供于"bestfit(最佳匹配)"实用应用中。其它合适的用于计算序列之间的百分比同一性或相似性的程序通常是本领域已知的,例如,另一比对程序是blast,其与默认参数一起使用。例如,blastn和blastp可以使用以下默认参数而使用:遗传密码=标准;过滤=无;链=二者;截止=60;期望=10;矩阵=blosum62;描述=50个序列;排列方法=高分;数据库=非冗余的,genbank+embl+ddbj+pdb+genbankcdstranslations+swissprotein+spupdate+pir。这些程序的详情可以在genbank网站上找到。

因为在不背离本发明范围的情况下可对上述细胞和方法作出各种改变,意图包含在上面的说明书中和下面给出的实施例中的全部情况应理解为例示性的而不是限制性的。

实施例

以下实施例说明了本发明的某些方面。

实施例1:修饰cas9基因用于哺乳动物的表达

来自酿脓链球菌菌株mgas15252(登录号yp_005388840.1)的cas9基因用人密码子偏好性最优化以增强它在哺乳动物细胞中的翻译。cas9基因也通过将核定位信号pkkkrkv(seqidno:1)添加到c末端而修饰用于将蛋白靶向至哺乳动物细胞的胞核。表1展示了修饰的cas9氨基酸序列,其中核定位序列加下划线。表2展示了密码子优化的,修饰的cas9dna序列。

将修饰的cas9dna序列置于巨细胞病毒(cmv)启动子的控制下用于在哺乳动物细胞中的组成性表达。修饰的cas9dna序列也被置于t7启动子的控制下用于用t7rna聚合酶的体外mrna合成。体外rna转录通过使用messagemaxt7arca-cappedmessagetranscriptionkit和t7mscriptstandardmrnaproductionsystem(cellscript)进行。

实施例2:靶向cas9

腺伴随病毒整合位点1(aavs1)基因座被用作cas9-介导的人基因组修饰的靶。人aavs1基因座位于蛋白磷酸酶1,调控亚基12c(ppp1r12c)的内含子1(4427bp)。表3展示了ppp1r12c的第一外显子(阴影灰色)和第一内含子。在内含子中的加下划线的序列是靶修饰位点(即,aavs1基因座)。

cas9指导rna被设计用于靶向人aavs1基因座。制备包含(5’-3’)靶识别序列(即,与靶序列的非编码链互补的序列)和原间隔序列的42个核苷酸rna(在本文中被称为“crrna”序列);包含与crrna的3’序列互补的5’序列和另外的发夹序列的85个核苷酸rna(本文称为“tracrrna”序列);和包含所述crrna的核苷酸1-32、gaaa环和所述tracrrna的核苷酸19-45的嵌合rna。crrna由sigma-aldrich化学合成。tracrrna和嵌合rna通过使用t7-scribestandardrnaivtkit(cellscript)用t7rna聚合酶体外转录而合成。嵌合rna编码序列也被置于人u6启动子的控制下用于在人细胞中的体内转录。表4展示了指导rna的序列。

实施例3:制备供体多核苷酸以监测基因组修饰

将gfp蛋白靶向整合入ppp1r12c的n末端,用于监测cas9-介导的基因组修饰。为通过同源重组介导整合,制备供体多核苷酸。aavs1-gfpdna供体包含5’(1185bp)aavs1基因座同源臂、rna剪接受体、turbogfp编码序列、3’转录终止子和3’(1217bp)aavs1基因座同源臂。表5展示rna剪接受体的序列和gfp编码序列,接着是3’转录终止子。质粒dna通过使用geneluteendotoxin-freeplasmidmaxiprepkit(sigma)而制备。

靶向的基因整合会产生ppp1r12c的前107个氨基酸和turbogfp之间的融合蛋白。预期的融合蛋白含有ppp1r12c的前107个氨基酸残基(以灰色突出显示),其来自ppp1r12c的第一外显子和工程改造的剪接受体之间的rna剪接(参见表6)。

实施例4:cas9-介导的靶向整合

转染在人k562细胞上实施。k562细胞系从美国模式培养物保藏所(atcc)获得并且在用10%fbs和2mml-谷氨酰胺补充的iscove’s改良的dulbecco’s培养基中生长。全部培养基和补充物都从sigma-aldrich获得。在转染前一天将培养物分开(以在转染前约50万个细胞每毫升)。将细胞用nucleofectorsolutionv(lonza)在nucleofector(lonza)上使用t-016程序来转染。各核转染(nucleofection)含有大约60万个细胞。转染处理详述在表7中。细胞在核转染之后立即于37℃和5%co2下生长。

荧光激活细胞分选术(facs)在转染之后4天进行。facs数据展示于图4中。在4个实验处理(a-d)的每一个中检测到的gfp百分比大于对照处理(e,f),这证实供体序列的整合和融合蛋白的表达。

实施例5:pcr证实靶向整合

在转染后12天用genelutemammaliangenomicdnaminiprepkit(sigma)从转染的细胞中提取基因组dna。随后用定位于aavs1-gfp质粒供体的5’同源臂外部的正向引物和定位于gfp的5’区域的反向引物经pcr扩增基因组dna。正向引物为5’-ccactctgtgctgaccactct-3’(seqidno:18)和反向引物为5’-gcggcactcgatctcca-3’(seqidno:19)。自连接pcr的预期的片段大小是1388bp。扩增用jumpstarttaqreadymix(sigma),使用以下循环条件实施:98℃维持2分钟用于最初的变性;35个循环:98℃维持15秒,62℃维持30秒和72℃维持1分钟30秒;和最终延伸:72℃维持5分钟。pcr产物在琼脂糖凝胶上分离。

采用10μg用anti-reverse帽类似物转录的cas9mrna、0.3nmol预退火的crrna-tracrrna双链体和10μgaavs1-gfp质粒dna转染的细胞显示预期大小的pcr产物(参见泳道a,图5)。

实施例6:在小鼠胚胎中基于cas9的基因组编辑

可靶向小鼠rosa26基因座用于基因组修饰。表8展示了小鼠rosa26序列的一部分,其中潜在的靶位点以粗体显示。每个靶位点包含原间隔基。

指导rna被设计以靶向在小鼠rosa26基因座中的各个靶位点。序列示于表9,每一个长度为42个核苷酸并且5’区域与没有展示于表8中的链(即,与表8中示出的链互补的链)互补。

化学合成crrna,并与tracrrna(seqidno:13;参见实施例2)预退火。可将预退火的crrna/tracrrna和体外转录的编码修饰的cas9蛋白(seqidno.9;参见实施例1)的mrna显微注射入受精的小鼠胚胎的前核。当通过crrna指导至靶位点时,cas9蛋白剪切靶位点,并且生成的双链断裂可以通过非同源末端连接(nhej)修复过程而修复。经注射的胚胎可以在37℃,5%co2下孵育过夜或孵育多至4天,接着基因分型分析,或者经注射的胚胎可以移植入受者雌性小鼠使得活产动物可以被基因分型。来自活产动物的体外孵育的胚胎或组织可以使用标准方法针对在rosa基因座的cas9诱导突变的存在进行筛选。例如,可收获来自胎儿或活产动物的胚胎或组织用于dna提取和分析。dna可以使用标准的程序分离。rosa26基因座的靶向区域可以使用合适的引物经pcr扩增。因为nhej是易错的,所以在断裂的修复期间可以发生至少一个核苷酸的缺失、至少一个核苷酸的插入、至少一个核苷酸的置换或其组合。突变可以使用基于pcr的基因分型方法(例如cel-i错配测定和dna测序)检测。

实施例7:在小鼠胚胎中基于cas9的基因组修饰

rosa26基因座可以通过将如在上面部分(iv)(d)中详述的供体多核苷酸与如在上面实施例6中描述的预退火的crrna/tracrrna和编码修饰的cas9的mrna一起共注射而在小鼠胚胎中被修饰。来自活产动物(如在实施例6中所描述)的体外孵育的胚胎或组织可以针对修饰的rosa26基因座使用基于pcr的基因分型方法(例如rflp测定、连接pcr和dna测序)筛选。

实施例8:在大鼠胚胎中基于cas9的基因组编辑

可靶向大鼠rosa26基因座用于基因组修饰。表10展示了大鼠序列的一部分,其中潜在的靶位点以粗体示出。每个靶位点包含原间隔基。

指导rna被设计以靶向大鼠rosa26基因座中的靶位点。序列示出于表11中,每一个长度为42个核苷酸且5’区域与在表10中没有呈现的链(即,与示出于表10中的链互补的链)互补。

化学合成crrna,并与tracrrna(seqidno:13;参见实施例2)预退火。可将预退火的crrna/tracrrna和体外转录的编码修饰的cas9蛋白的mrna(seqidno.9;参见实施例1)显微注射入受精的大鼠胚胎的前核。在由crrna指导至靶位点时,cas9蛋白剪切靶位点,并且生成的双链断裂可以通过非同源末端连接(nhej)修复过程修复。注射的胚胎可以在37℃,5%co2下孵育过夜或孵育多至4天,接着基因分型分析,或者注射的胚胎可被移植入受者雌性小鼠使得活产动物可以被基因分型。来自活产动物的体外孵育的胚胎或组织可以使用标准方法针对在rosa基因座的gas9诱导突变的存在进行筛选。例如,可收获来自胎儿活活产动物的胚胎或组织用于dna提取和分析。dna可以使用标准程序分离。rosa26基因座的靶向区域可以使用合适的引物经pcr扩增。因为nhej是易错的,所以在断裂的修复期间可以发生至少一个核苷酸的缺失、至少一个核苷酸的插入、至少一个核苷酸的置换或其组合。可以使用基于pcr的基因分型方法,例如cel-i错配测定和dna测序检测突变。

实施例9:在大鼠胚胎中基于cas9的基因组修饰

rosa26基因座可以通过将如在上面部分(iv)(d)中详述的供体多核苷酸与如在上面实施例8中所描述的预退火的crrna/tracrrna和编码修饰cas9的mrna一起共注射而在大鼠胚胎中被修饰。来自活产大鼠的体外孵育的胚胎或组织(如在实施例8中所描述)可以针对修饰的rosa26基因座使用基于pcr的基因分型方法(例如rflp测定、连接pcr和dna测序)进行筛选。

<110>sigma-aldrichco.llc

chen,fuqiang

davis,gregoryd.

kang,qiaohua

knight,scottw.

<120>基于crispr的基因组修饰和调控

<130>047497-465606

<150>us61/734,256

<151>2012-12-06

<150>us61/758,624

<151>2013-01-30

<150>us61/761,046

<151>2013-02-05

<150>us61/794,422

<151>2013-03-15

<160>27

<170>patentinversion3.5

<210>1

<211>7

<212>prt

<213>人工序列

<220>

<223>合成的

<400>1

prolyslyslysarglysval

15

<210>2

<211>7

<212>prt

<213>人工序列

<220>

<223>合成的

<400>2

prolyslyslysargargval

15

<210>3

<211>16

<212>prt

<213>人工序列

<220>

<223>合成的

<400>3

lysargproalaalathrlyslysalaglyglnalalyslyslyslys

151015

<210>4

<211>20

<212>prt

<213>人工序列

<220>

<223>合成的

<400>4

glyarglyslysargargglnargargargproproglnprolyslys

151015

lysarglysval

20

<210>5

<211>19

<212>prt

<213>人工序列

<220>

<223>合成的

<400>5

proleuserserilepheserargileglyaspproprolyslyslys

151015

arglysval

<210>6

<211>24

<212>prt

<213>人工序列

<220>

<223>合成的

<400>6

glyalaleupheleuglytrpleuglyalaalaglyserthrmetgly

151015

alaprolyslyslysarglysval

20

<210>7

<211>27

<212>prt

<213>人工序列

<220>

<223>合成的

<400>7

glyalaleupheleuglypheleuglyalaalaglyserthrmetgly

151015

alatrpserglnprolyslyslysarglysval

2025

<210>8

<211>21

<212>prt

<213>人工序列

<220>

<223>合成的

<400>8

lysgluthrtrptrpgluthrtrptrpthrglutrpserglnprolys

151015

lyslysarglysval

20

<210>9

<211>1374

<212>prt

<213>人工序列

<220>

<223>合成的

<400>9

metasplyslystyrserileglyleuaspileglythrasnserval

151015

glytrpalavalilethraspasptyrlysvalproserlyslysphe

202530

lysvalleuglyasnthrasparghisserilelyslysasnleuile

354045

glyalaleuleupheglyserglygluthralaglualathrargleu

505560

lysargthralaargargargtyrthrargarglysasnargilecys

65707580

tyrleuglngluilepheserasnglumetalalysvalaspaspser

859095

phephehisargleuglugluserpheleuvalglugluasplyslys

100105110

hisgluarghisproilepheglyasnilevalaspgluvalalatyr

115120125

hisglulystyrprothriletyrhisleuarglyslysleualaasp

130135140

serthrasplysalaaspleuargleuiletyrleualaleualahis

145150155160

metilelyspheargglyhispheleuilegluglyaspleuasnpro

165170175

aspasnseraspvalasplysleupheileglnleuvalglniletyr

180185190

asnglnleupheglugluasnproileasnalaserargvalaspala

195200205

lysalaileleuseralaargleuserlysserargargleugluasn

210215220

leuilealaglnleuproglyglulysargasnglyleupheglyasn

225230235240

leuilealaleuserleuglyleuthrproasnphelysserasnphe

245250255

aspleualagluaspalalysleuglnleuserlysaspthrtyrasp

260265270

aspaspleuaspasnleuleualaglnileglyaspglntyralaasp

275280285

leupheleualaalalysasnleuseraspalaileleuleuserasp

290295300

ileleuargvalasnsergluilethrlysalaproleuseralaser

305310315320

metilelysargtyraspgluhishisglnaspleuthrleuleulys

325330335

alaleuvalargglnglnleuproglulystyrlysgluilephephe

340345350

aspglnserlysasnglytyralaglytyrileaspglyglyalaser

355360365

glnglugluphetyrlyspheilelysproileleuglulysmetasp

370375380

glythrglugluleuleuvallysleuasnarggluaspleuleuarg

385390395400

lysglnargthrpheaspasnglyserileprohisglnilehisleu

405410415

glygluleuhisalaileleuargargglngluaspphetyrprophe

420425430

leulysaspasnargglulysileglulysileleuthrpheargile

435440445

protyrtyrvalglyproleualaargglyasnserargphealatrp

450455460

metthrarglysserglugluthrilethrprotrpasnphegluglu

465470475480

valvalasplysglyalaseralaglnserpheilegluargmetthr

485490495

asnpheasplysasnleuproasnglulysvalleuprolyshisser

500505510

leuleutyrglutyrphethrvaltyrasngluleuthrlysvallys

515520525

tyrvalthrgluglymetarglysproalapheleuserglyglugln

530535540

lyslysalailevalaspleuleuphelysthrasnarglysvalthr

545550555560

vallysglnleulysgluasptyrphelyslysileglucyspheasp

565570575

servalgluileserglyvalgluaspargpheasnalaserleugly

580585590

alatyrhisaspleuleulysileilelysasplysasppheleuasp

595600605

asnglugluasngluaspileleugluaspilevalleuthrleuthr

610615620

leuphegluaspargglymetileglugluargleulysthrtyrala

625630635640

hisleupheaspasplysvalmetlysglnleulysargargargtyr

645650655

thrglytrpglyargleuserarglysleuileasnglyileargasp

660665670

lysglnserglylysthrileleuasppheleulysseraspglyphe

675680685

alaasnargasnphemetglnleuilehisaspaspserleuthrphe

690695700

lysgluaspileglnlysalaglnvalserglyglnglyhisserleu

705710715720

hisgluglnilealaasnleualaglyserproalailelyslysgly

725730735

ileleuglnthrvallysilevalaspgluleuvallysvalmetgly

740745750

hislysprogluasnilevalileglumetalaarggluasnglnthr

755760765

thrglnlysglyglnlysasnserarggluargmetlysargileglu

770775780

gluglyilelysgluleuglyserglnileleulysgluhisproval

785790795800

gluasnthrglnleuglnasnglulysleutyrleutyrtyrleugln

805810815

asnglyargaspmettyrvalaspglngluleuaspileasnargleu

820825830

serasptyraspvalasphisilevalproglnserpheilelysasp

835840845

aspserileaspasnlysvalleuthrargserasplysasnarggly

850855860

lysseraspasnvalproserglugluvalvallyslysmetlysasn

865870875880

tyrtrpargglnleuleuasnalalysleuilethrglnarglysphe

885890895

aspasnleuthrlysalagluargglyglyleusergluleuasplys

900905910

alaglypheilelysargglnleuvalgluthrargglnilethrlys

915920925

hisvalalaglnileleuaspserargmetasnthrlystyraspglu

930935940

asnasplysleuilearggluvallysvalilethrleulysserlys

945950955960

leuvalseraspphearglysasppheglnphetyrlysvalargglu

965970975

ileasnasntyrhishisalahisaspalatyrleuasnalavalval

980985990

glythralaleuilelyslystyrprolysleugluserglupheval

99510001005

tyrglyasptyrlysvaltyraspvalarglysmetilealalys

101010151020

sergluglngluileglylysalathralalystyrphephetyr

102510301035

serasnilemetasnphephelysthrgluilethrleualaasn

104010451050

glygluilearglysargproleuilegluthrasnglygluthr

105510601065

glygluilevaltrpasplysglyargaspphealathrvalarg

107010751080

lysvalleusermetproglnvalasnilevallyslysthrglu

108510901095

valglnthrglyglypheserlysgluserileleuprolysarg

110011051110

asnserasplysleuilealaarglyslysasptrpaspprolys

111511201125

lystyrglyglypheaspserprothrvalalatyrservalleu

113011351140

valvalalalysvalglulysglylysserlyslysleulysser

114511501155

vallysgluleuleuglyilethrilemetgluargserserphe

116011651170

glulysasnproileasppheleuglualalysglytyrlysglu

117511801185

vallyslysaspleuileilelysleuprolystyrserleuphe

119011951200

gluleugluasnglyarglysargmetleualaseralaglyglu

120512101215

leuglnlysglyasngluleualaleuproserlystyrvalasn

122012251230

pheleutyrleualaserhistyrglulysleulysglyserpro

123512401245

gluaspasngluglnlysglnleuphevalgluglnhislyshis

125012551260

tyrleuaspgluileilegluglnileserglupheserlysarg

126512701275

valileleualaaspalaasnleuasplysvalleuseralatyr

128012851290

asnlyshisargasplysproilearggluglnalagluasnile

129513001305

ilehisleuphethrleuthrasnleuglyalaproalaalaphe

131013151320

lystyrpheaspthrthrileasparglysargtyrthrserthr

132513301335

lysgluvalleuaspalathrleuilehisglnserilethrgly

134013451350

leutyrgluthrargileaspleuserglnleuglyglyasppro

135513601365

lyslyslysarglysval

1370

<210>10

<211>4122

<212>dna

<213>人工序列

<220>

<223>合成的

<400>10

atggacaagaagtacagcatcggcctggacatcggcaccaactctgtgggctgggccgtg60

atcaccgacgactacaaggtgcccagcaagaaattcaaggtgctgggcaacaccgaccgg120

cacagcatcaagaagaacctgatcggcgccctgctgttcggctctggcgaaacagccgag180

gccacccggctgaagagaaccgccagaagaagatacaccagacggaagaaccggatctgc240

tatctgcaagagatcttcagcaacgagatggccaaggtggacgacagcttcttccacaga300

ctggaagagtccttcctggtggaagaggataagaagcacgagcggcaccccatcttcggc360

aacatcgtggacgaggtggcctaccacgagaagtaccccaccatctaccacctgagaaag420

aagctggccgacagcaccgacaaggccgacctgagactgatctacctggccctggcccac480

atgatcaagttccggggccacttcctgatcgagggcgacctgaaccccgacaacagcgac540

gtggacaagctgttcatccagctggtgcagatctacaatcagctgttcgaggaaaacccc600

atcaacgccagcagagtggacgccaaggccatcctgagcgccagactgagcaagagcaga660

cggctggaaaatctgatcgcccagctgcccggcgagaagcggaatggcctgttcggcaac720

ctgattgccctgagcctgggcctgacccccaacttcaagagcaacttcgacctggccgag780

gatgccaaactgcagctgagcaaggacacctacgacgacgacctggacaacctgctggcc840

cagatcggcgaccagtacgccgacctgtttctggccgccaagaacctgtccgacgccatc900

ctgctgagcgacatcctgagagtgaacagcgagatcaccaaggcccccctgtccgcctct960

atgatcaagagatacgacgagcaccaccaggacctgaccctgctgaaagctctcgtgcgg1020

cagcagctgcctgagaagtacaaagagattttcttcgaccagagcaagaacggctacgcc1080

ggctacatcgatggcggagccagccaggaagagttctacaagttcatcaagcccatcctg1140

gaaaagatggacggcaccgaggaactgctcgtgaagctgaacagagaggacctgctgcgg1200

aagcagcggaccttcgacaacggcagcatcccccaccagatccacctgggagagctgcac1260

gccattctgcggcggcaggaagatttttacccattcctgaaggacaaccgggaaaagatc1320

gagaagatcctgaccttcagaatcccctactacgtgggccctctggccaggggaaacagc1380

agattcgcctggatgaccagaaagagcgaggaaaccatcaccccctggaacttcgaggaa1440

gtggtggacaagggcgccagcgcccagagcttcatcgagcggatgaccaacttcgataag1500

aacctgcccaacgagaaggtgctgcccaagcacagcctgctgtacgagtacttcaccgtg1560

tacaacgagctgaccaaagtgaaatacgtgaccgagggaatgcggaagcccgcctttctg1620

agcggcgagcagaaaaaggccatcgtggacctgctgttcaagaccaaccggaaagtgacc1680

gtgaagcagctgaaagaggactacttcaagaaaatcgagtgcttcgacagcgtggaaatc1740

agcggcgtggaagatcggttcaacgcctccctgggcgcctatcacgatctgctgaaaatt1800

atcaaggacaaggacttcctggacaatgaggaaaacgaggacattctggaagatatcgtg1860

ctgaccctgacactgtttgaggaccggggcatgatcgaggaacggctgaaaacctatgcc1920

cacctgttcgacgacaaagtgatgaagcagctgaagcggcggagatacaccggctggggc1980

aggctgagccggaagctgatcaacggcatccgggacaagcagtccggcaagacaatcctg2040

gatttcctgaagtccgacggcttcgccaacagaaacttcatgcagctgatccacgacgac2100

agcctgacctttaaagaggacatccagaaagcccaggtgtccggccagggacactctctg2160

cacgagcagatcgccaatctggccggatcccccgccattaagaagggcatcctgcagaca2220

gtgaagattgtggacgagctcgtgaaagtgatgggccacaagcccgagaacatcgtgatc2280

gaaatggccagagagaaccagaccacccagaagggacagaagaacagccgcgagagaatg2340

aagcggatcgaagagggcatcaaagagctgggcagccagatcctgaaagaacaccccgtg2400

gaaaacacccagctgcagaacgagaagctgtacctgtactacctgcagaatgggcgggat2460

atgtacgtggaccaggaactggacatcaaccggctgtccgactacgatgtggaccacatt2520

gtgccccagtccttcatcaaggacgactccatcgataacaaagtgctgactcggagcgac2580

aagaaccggggcaagagcgacaacgtgccctccgaagaggtcgtgaagaagatgaagaac2640

tactggcgccagctgctgaatgccaagctgattacccagaggaagttcgacaatctgacc2700

aaggccgagagaggcggcctgagcgaactggataaggccggcttcattaagcggcagctg2760

gtggaaacccggcagatcacaaagcacgtggcacagatcctggactcccggatgaacact2820

aagtacgacgagaacgacaaactgatccgggaagtgaaagtgatcaccctgaagtccaag2880

ctggtgtccgacttcagaaaggatttccagttttacaaagtgcgcgagatcaacaactac2940

caccacgcccacgacgcctacctgaacgccgtcgtgggaaccgccctgatcaaaaagtac3000

cctaagctggaaagcgagttcgtgtacggcgattacaaggtgtacgacgtgcggaagatg3060

atcgccaagagcgagcaggaaatcggcaaggctaccgccaagtacttcttctacagcaac3120

atcatgaactttttcaagaccgagatcacactggccaacggcgagatcagaaagcggcct3180

ctgatcgagacaaacggcgaaaccggggagatcgtgtgggataagggccgggattttgcc3240

acagtgcggaaagtgctgtccatgccccaagtgaatatcgtgaaaaagaccgaggtgcag3300

accggcggcttcagcaaagagtctatcctgcccaagaggaactccgacaagctgatcgcc3360

agaaagaaggattgggaccctaagaagtacggcggctttgacagccccaccgtggcctac3420

tctgtgctggtggtggccaaagtggaaaagggcaagtccaagaaactgaagagtgtgaaa3480

gagctgctggggatcaccatcatggaaagaagcagcttcgagaagaatcccatcgacttt3540

ctggaagccaagggctacaaagaagtgaaaaaggacctgatcatcaagctgcctaagtac3600

tccctgttcgagctggaaaacggccggaagcggatgctggcttctgccggcgaactgcag3660

aagggaaacgagctggccctgccctccaaatatgtgaacttcctgtacctggccagccac3720

tatgagaagctgaagggctcccccgaggataatgagcagaaacagctgtttgtggaacag3780

cacaagcactacctggacgagatcatcgagcagattagcgagttctccaagcgcgtgatc3840

ctggccgatgccaacctggacaaggtgctgagcgcctacaacaagcaccgggataagccc3900

atcagagagcaggccgagaatatcatccacctgtttaccctgaccaacctgggagcccct3960

gccgccttcaagtactttgacaccaccatcgaccggaagaggtacaccagcaccaaagag4020

gtgctggacgccaccctgatccaccagagcatcaccggcctgtacgagacacggatcgac4080

ctgtctcagctgggaggcgaccccaagaaaaagcgcaaagtg4122

<210>11

<211>4764

<212>dna

<213>人

<400>11

gcgggcgggcggtgcgatgtccggagaggatggcccggcggctggcccgggggcggcggc60

ggcggctgcccgggagcggcgacgggagcagctgcggcagtggggggcgcgggcgggcgc120

cgagcctggccccggagagcgccgcgcccgcaccgtccgcttcgagcgcgccgccgagtt180

cctggcggcctgtgcgggcggcgacctggacgaggcgcgtctgatgctgcgcgccgccga240

ccctggccccggcgccgagctcgaccccgccgcgccgccgcccgcccgcgccgtgctgga300

ctccaccaacgccgacggtatcagcgccctgcaccaggtcagcgccccccgcccggcgtc360

tcccggggccaggtccaccctctgctgcgccacctggggcatcctccttccccgttgcca420

gtctcgatccgccccgtcgttcctggccctgggctttgccaccctatgctgacaccccgt480

cccagtcccccttaccattccccttcgaccaccccacttccgaattggagccgcttcaac540

tggccctgggcttagccactctgtgctgaccactctgccccaggcctccttaccattccc600

cttcgacctactctcttccgcattggagtcgctttaactggccctggctttggcagcctg660

tgctgacccatgcagtcctccttaccatccctccctcgacttcccctcttccgatgttga720

gcccctccagccggtcctggactttgtctccttccctgccctgccctctcctgaacctga780

gccagctcccatagctcagtctggtctatctgcctggccctggccattgtcactttgcgc840

tgccctcctctcgcccccgagtgcccttgctgtgccgccggaactctgccctctaacgct900

gccgtctctctcctgagtccggaccactttgagctctactggcttctgcgccgcctctgg960

cccactgtttccccttcccaggcaggtcctgctttctctgacctgcattctctcccctgg1020

gcctgtgccgctttctgtctgcagcttgtggcctgggtcacctctacggctggcccagat1080

ccttccctgccgcctccttcaggttccgtcttcctccactccctcttccccttgctctct1140

gctgtgttgctgcccaaggatgctctttccggagcacttccttctcggcgctgcaccacg1200

tgatgtcctctgagcggatcctccccgtgtctgggtcctctccgggcatctctcctccct1260

cacccaaccccatgccgtcttcactcgctgggttcccttttccttctccttctggggcct1320

gtgccatctctcgtttcttaggatggccttctccgacggatgtctcccttgcgtcccgcc1380

tccccttcttgtaggcctgcatcatcaccgtttttctggacaaccccaaagtaccccgtc1440

tccctggctttagccacctctccatcctcttgctttctttgcctggacaccccgttctcc1500

tgtggattcgggtcacctctcactcctttcatttgggcagctcccctaccccccttacct1560

ctctagtctgtgctagctcttccagccccctgtcatggcatcttccaggggtccgagagc1620

tcagctagtcttcttcctccaacccgggcccctatgtccacttcaggacagcatgtttgc1680

tgcctccagggatcctgtgtccccgagctgggaccaccttatattcccagggccggttaa1740

tgtggctctggttctgggtacttttatctgtcccctccaccccacagtggggccactagg1800

gacaggattggtgacagaaaagccccatccttaggcctcctccttcctagtctcctgata1860

ttgggtctaacccccacctcctgttaggcagattccttatctggtgacacacccccattt1920

cctggagccatctctctccttgccagaacctctaaggtttgcttacgatggagccagaga1980

ggatcctgggagggagagcttggcagggggtgggagggaagggggggatgcgtgacctgc2040

ccggttctcagtggccaccctgcgctaccctctcccagaacctgagctgctctgacgcgg2100

ccgtctggtgcgtttcactgatcctggtgctgcagcttccttacacttcccaagaggaga2160

agcagtttggaaaaacaaaatcagaataagttggtcctgagttctaactttggctcttca2220

cctttctagtccccaatttatattgttcctccgtgcgtcagttttacctgtgagataagg2280

ccagtagccagccccgtcctggcagggctgtggtgaggaggggggtgtccgtgtggaaaa2340

ctccctttgtgagaatggtgcgtcctaggtgttcaccaggtcgtggccgcctctactccc2400

tttctctttctccatccttctttccttaaagagtccccagtgctatctgggacatattcc2460

tccgcccagagcagggtcccgcttccctaaggccctgctctgggcttctgggtttgagtc2520

cttggcaagcccaggagaggcgctcaggcttccctgtcccccttcctcgtccaccatctc2580

atgcccctggctctcctgccccttccctacaggggttcctggctctgctcttcagactga2640

gccccgttcccctgcatccccgttcccctgcatcccccttcccctgcatcccccagaggc2700

cccaggccacctacttggcctggaccccacgagaggccaccccagccctgtctaccaggc2760

tgccttttgggtggattctcctccaactgtggggtgactgcttggcaaactcactcttcg2820

gggtatcccaggaggcctggagcattggggtgggctggggttcagagaggagggattccc2880

ttctcaggttacgtggccaagaagcaggggagctgggtttgggtcaggtctgggtgtggg2940

gtgaccagcttatgctgtttgcccaggacagcctagttttagcactgaaaccctcagtcc3000

taggaaaacagggatggttggtcactgtctctgggtgactcttgattcccggccagtttc3060

tccacctggggctgtgtttctcgtcctgcatccttctccaggcaggtccccaagcatcgc3120

ccccctgctgtggctgttcccaagttcttagggtaccccacgtgggtttatcaaccactt3180

ggtgaggctggtaccctgcccccattcctgcaccccaattgccttagtggctagggggtt3240

gggggctagagtaggaggggctggagccaggattcttagggctgaacagagaagagctgg3300

gggcctgggctcctgggtttgagagaggaggggctggggcctggactcctgggtccgagg3360

gaggaggggctggggcctggactcctgggtctgagggtggagggactgggggcctggact3420

cctgggtccgagggaggaggggctggggcctggactcgtgggtctgagggaggaggggct3480

gggggcctggacttctgggtcttagggaggcggggctgggcctggacccctgggtctgaa3540

tggggagaggctgggggcctggactccttcatctgagggcggaagggctggggcctggcc3600

tcctgggttgaatggggaggggttgggcctggactctggagtccctggtgcccaggcctc3660

aggcatctttcacagggatgcctgtactgggcaggtccttgaaagggaaaggcccattgc3720

tctccttgcccccctcccctatcgccatgacaactgggtggaaataaacgagccgagttc3780

atcccgttcccagggcacgtgcggccccttcacagcccgagtttccatgacctcatgctc3840

ttggccctcgtagctccctcccgcctcctccagatgggcagctttggagaggtgagggac3900

ttggggggtaatttatcccgtggatctaggagtttagcttcactccttcctcagctccag3960

ttcaggtcccggagcccacccagtgtccacaaggcctggggcaagtccctcctccgaccc4020

cctggacttcggcttttgtccccccaagttttggacccctaagggaagaatgagaaacgg4080

tggcccgtgtcagcccctggctgcagggccccgtgcagagggggcctcagtgaactggag4140

tgtgacagcctggggcccaggcacacaggtgtgcagctgtctcacccctctgggagtccc4200

gcccaggcccctgagtctgtcccagcacagggtggccttcctccaccctgcatagccctg4260

ggcccacggcttcgttcctgcagagtatctgctggggtggtttccgagcttgacccttgg4320

aaggacctggctgggtttaaggcaggaggggctgggggccaggactcctggctctgaagg4380

aggaggggctggaacctcttccctagtctgagcactggaagcgccacctgtgggtggtga4440

cgggggttttgccgtgtctaacaggtaccatgtggggttcccgcacccagatgagaagcc4500

ccctcccttccccgttcacttcctgtttgcagatagccaggagtcctttcgtggtttcca4560

ctgagcactgaaggcctggccggcctgaccactgggcaaccaggcgtatcttaaacagcc4620

agtggccagaggctgttgggtcattttccccactgtcctagcaccgtgtccctggatctg4680

ttttcgtggctccctctggagtcccgacttgctgggacaccgtggctggggtaggtgcgg4740

ctgacggctgtttcccacccccag4764

<210>12

<211>42

<212>rna

<213>人工序列

<220>

<223>合成的

<400>12

accccacaguggggccacuaguuuuagagcuaugcuguuuug42

<210>13

<211>86

<212>rna

<213>人工序列

<220>

<223>合成的

<400>13

ggaaccauucaaaacagcauagcaaguuaaaauaaggcuaguccguuaucaacuugaaaa60

aguggcaccgagucggugcuuuuuuu86

<210>14

<211>62

<212>rna

<213>人工序列

<220>

<223>合成的

<400>14

accccacaguggggccacuaguuuuagagcuagaaauagcaaguuaaaauaaggcuaguc60

cg62

<210>15

<211>25

<212>dna

<213>人工序列

<220>

<223>合成的

<400>15

ctgacctcttctcttcctcccacag25

<210>16

<211>1009

<212>dna

<213>人工序列

<220>

<223>合成的

<400>16

gccaccatggactacaaagacgatgacgacaaggtcgactctagagctgcagagagcgac60

gagagcggcctgcccgccatggagatcgagtgccgcatcaccggcaccctgaacggcgtg120

gagttcgagctggtgggcggcggagagggcacccccgagcagggccgcatgaccaacaag180

atgaagagcaccaaaggcgccctgaccttcagcccctacctgctgagccacgtgatgggc240

tacggcttctaccacttcggcacctaccccagcggctacgagaaccccttcctgcacgcc300

atcaacaacggcggctacaccaacacccgcatcgagaagtacgaggacggcggcgtgctg360

cacgtgagcttcagctaccgctacgaggccggccgcgtgatcggcgacttcaaggtgatg420

ggcaccggcttccccgaggacagcgtgatcttcaccgacaagatcgtccgcagcaacgcc480

accgtggagcacctgcaccccatgggcgataacgatctggatggcagcttcacccgcacc540

ttcagcctgcgcgacggcggctactacagctccgtggtggacagccacatgcacttcaag600

agcgccatccaccccagcatcctgcagaacgggggccccatgttcgccttccgccgcgtg660

gaggaggatcacagcaacaccgagctgggcatcgtggagtaccagcacgccttcaagacc720

ccggatgcagatgccggtgaagaatgaagatctctgtgccttctagttgccagccatctg780

ttgtttgcccctcccccgtgccttccttgaccctggaaggtgccactcccactgtccttt840

cctaataaaatgaggaaattgcatcgcattgtctgagtaggtgtcattctattctggggg900

gtggggtggggcaggacagcaagggggaggattgggaagacaatagcaggcatgctgggg960

atgcggtgggctctatggactcgaggtttaaacgtcgacgcggccgcgt1009

<210>17

<211>355

<212>prt

<213>人工序列

<220>

<223>合成的

<400>17

metserglygluaspglyproalaalaglyproglyalaalaalaala

151015

alaalaarggluargargarggluglnleuargglntrpglyalaarg

202530

alaglyalagluproglyproglygluargargalaargthrvalarg

354045

phegluargalaalaglupheleualaalacysalaglyglyaspleu

505560

aspglualaargleumetleuargalaalaaspproglyproglyala

65707580

gluleuaspproalaalaproproproalaargalavalleuaspser

859095

thrasnalaaspglyileseralaleuhisglnalathrmetasptyr

100105110

lysaspaspaspasplysvalaspserargalaalagluseraspglu

115120125

serglyleuproalametgluileglucysargilethrglythrleu

130135140

asnglyvalgluphegluleuvalglyglyglygluglythrproglu

145150155160

glnglyargmetthrasnlysmetlysserthrlysglyalaleuthr

165170175

pheserprotyrleuleuserhisvalmetglytyrglyphetyrhis

180185190

pheglythrtyrproserglytyrgluasnpropheleuhisalaile

195200205

asnasnglyglytyrthrasnthrargileglulystyrgluaspgly

210215220

glyvalleuhisvalserphesertyrargtyrglualaglyargval

225230235240

ileglyaspphelysvalmetglythrglypheprogluaspserval

245250255

ilephethrasplysilevalargserasnalathrvalgluhisleu

260265270

hisprometglyaspasnaspleuaspglyserphethrargthrphe

275280285

serleuargaspglyglytyrtyrserservalvalaspserhismet

290295300

hisphelysseralailehisproserileleuglnasnglyglypro

305310315320

metphealapheargargvalglugluasphisserasnthrgluleu

325330335

glyilevalglutyrglnhisalaphelysthrproaspalaaspala

340345350

glygluglu

355

<210>18

<211>21

<212>dna

<213>人工序列

<220>

<223>合成的

<400>18

ccactctgtgctgaccactct21

<210>19

<211>17

<212>dna

<213>人工序列

<220>

<223>合成的

<400>19

gcggcactcgatctcca17

<210>20

<211>711

<212>dna

<213>musmusculus

<400>20

gagcggctgcggggcgggtgcaagcacgtttccgacttgagttgcctcaagaggggcgtg60

ctgagccagacctccatcgcgcactccggggagtggagggaaggagcgagggctcagttg120

ggctgttttggaggcaggaagcacttgctctcccaaagtcgctctgagttgttatcagta180

agggagctgcagtggagtaggcggggagaaggccgcacccttctccggaggggggagggg240

agtgttgcaatacctttctgggagttctctgctgcctcctggcttctgaggaccgccctg300

ggcctgggagaatcccttccccctcttccctcgtgatctgcaactccagtctttctagaa360

gatgggcgggagtcttctgggcaggcttaaaggctaacctggtgtgtgggcgttgtcctg420

caggggaattgaacaggtgtaaaattggagggacaagacttcccacagattttcggtttt480

gtcgggaagttttttaataggggcaaataaggaaaatgggaggataggtagtcatctggg540

gttttatgcagcaaaactacaggttattattgcttgtgatccgcctcggagtattttcca600

tcgaggtagattaaagacatgctcacccgagttttatactctcctgcttgagatccttac660

tacagtatgaaattacagtgtcgcgagttagactatgtaagcagaatttta711

<210>21

<211>42

<212>rna

<213>人工序列

<220>

<223>合成的

<400>21

cuccagucuuucuagaagauguuuuagagcuaugcuguuuug42

<210>22

<211>42

<212>rna

<213>人工序列

<220>

<223>合成的

<400>22

ugaacagguguaaaauuggaguuuuagagcuaugcuguuuug42

<210>23

<211>42

<212>rna

<213>人工序列

<220>

<223>合成的

<400>23

ugucgggaaguuuuuuaauaguuuuagagcuaugcuguuuug42

<210>24

<211>642

<212>dna

<213>rattusrattus

<400>24

gggattcctccttgagttgtggcactgaggaacgtgctgaacaagacctacattgcactc60

cagggagtggatgaaggagttggggctcagtcgggttgtattggagacaagaagcacttg120

ctctccaaaagtcggtttgagttatcattaagggagctgcagtggagtaggcggagaaaa180

ggccgcacccttctcaggacgggggaggggagtgttgcaatacctttctgggagttctct240

gctgcctcctgtcttctgaggaccgccctgggcctggaagattcccttcccccttcttcc300

ctcgtgatctgcaactggagtctttctggaagataggcgggagtcttctgggcaggctta360

aaggctaacctggtgcgtggggcgttgtcctgcagaggaattgaacaggtgtaaaattgg420

aggggcaagacttcccacagattttcgattgtgttgttaagtattgtaataggggcaaat480

aagggaaatagactaggcactcacctggggttttatgcagcaaaactacaggttattatt540

gcttgtgatccgccctggagaatttttcaccgaggtagattgaagacatgcccacccaaa600

ttttaatattcttccacttgcgatccttgctacagtatgaaa642

<210>25

<211>42

<212>rna

<213>人工序列

<220>

<223>合成的

<400>25

agggggaagggaaucuuccaguuuuagagcuaugcuguuuug42

<210>26

<211>42

<212>rna

<213>人工序列

<220>

<223>合成的

<400>26

ucugcaacuggagucuuucuguuuuagagcuaugcuguuuug42

<210>27

<211>42

<212>rna

<213>人工序列

<220>

<223>合成的

<400>27

aggcgggagucuucugggcaguuuuagagcuaugcuguuuug42

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1