靶向基因编辑构建体及其使用方法

文档序号：28815976发布日期：2022-02-09 06:03阅读：2969来源：国知局

靶向基因编辑构建体及其使用方法
1.参考以电子方式提交的序列表
2.与本技术一起提交的以电子方式提交的ascii文本文件(名称：4349.001pc01_seqlisting_st25；大小：389,120字节；创建日期：2020年6月11日)的内容通过引用以其整体并入本文。

背景技术：

3.许多疾病例如癌症、发育障碍和一些感染具有共同的遗传和表观遗传畸变。将基因疗法设计为将遗传物质引入细胞以直接靶向和编辑基因组，以纠正基因功能失调的细胞，从而治愈相关疾病。锌指核酸酶(zfn)、talen和crispr-cas9基因编辑技术代表一些最近开发的用于编辑dna的工具。方法(如电穿孔、阳离子脂质、显微注射或病毒)已用于将遗传物质递送到基因组中。当前的基因递送策略通常基于腺病毒、逆转录病毒或裸dna质粒。
4.包括hiv的慢病毒在用作核酸递送的载体时是有力的工具。慢病毒能够稳定感染分裂和非分裂细胞。慢病毒载体易于随机整合到宿主基因组中，并且通常可以在高度转录的基因位点整合，这增加了插入诱变的风险。
5.hiv-1整合酶催化病毒dna插入宿主基因组。通常，hiv-1整合酶由n-末端结构域(ntd)、催化核心结构域(ccd)和c-末端结构域(ctd)组成。ntd用于结合和配位作为重要辅因子的zn2+阳离子，而ctd用于dna结合。ccd形成催化整合过程的催化核心。病毒载体使用的插入机制的挑战包括低效率和缺乏特异性，这可导致非预期的插入诱变和遗传毒性。
6.发明概述
7.本公开的一些方面提供可用于核酸的靶向编辑的构建体、质粒、载体、颗粒、融合蛋白、组合物、方法和试剂盒，包括编辑受试者基因组(例如人基因组)内的单个位点或区域。
8.本文的工作实施例提供详细的实验数据，表明用cas9/锌指蛋白成功产生了可编程转座酶和整合酶的融合蛋白构建体。此外，这样的构建体能够引起外源核酸序列位点特异性整合到转染细胞的基因组中。不受理论的束缚，本发明人相信这是首次产生了这种类型的融合蛋白，其具有将外源核酸位点特异性整合到基因组中的能力并且适合于基因治疗，尤其是涉及大基因的基因治疗。本发明人还鉴定了进行特异性靶向转座的修饰的超活性piggybac转座酶。
9.因此，本公开的一个方面涉及核酸构建体，其包含：
10.a)第一多核苷酸序列，其包含编码第一dna结合蛋白的核酸，所述第一dna结合蛋白被工程化以结合基因组中的特定基因组dna序列；其中所述第一dna结合蛋白是锌指蛋白或cas9蛋白；
11.b)第二多核苷酸序列，其包含编码第二dna结合蛋白的核酸，所述第二dna结合蛋白能够将外源核酸插入基因组中，其中所述第二dna结合蛋白是
12.i.超活性piggybac转座酶，或与所述超活性piggybac转座酶相比具有改进的将外源核酸插入基因组的特异性的修饰的超活性piggybac转座酶，或
13.ii.人免疫缺陷病毒(hiv)整合酶，或与hiv整合酶相比具有改进的将外源核酸插入基因组的特异性的修饰的hiv整合酶；以及
14.c)任选的多核苷酸序列，其包含编码接头的核酸；
15.其中所述核酸构建体编码融合蛋白，所述融合蛋白包含所述第一dna结合蛋白、所述第二dna结合蛋白和所述第一dna结合蛋白与所述第二dna结合蛋白之间的任选的接头；并且
16.其中所述融合蛋白能够将所述外源核酸插入所述基因组的特异性位点。
17.还提供了包含本文所述的核酸构建体、载体或融合蛋白和编码用于插入基因组的外源核酸的多核苷酸序列的组合物，所述组合物包含在包装载体中或与包装载体结合。
18.本公开还提供用于将外源核酸序列的单拷贝或多拷贝受控位点特异性整合到细胞中的方法，所述方法包括：(a)将本文所述的核酸构建体、载体或融合蛋白递送至细胞，和(b)将外源核酸递送至细胞；其中融合蛋白与细胞基因组中的特定基因组dna序列的结合导致基因组的切割和外源核酸的一个或多个拷贝整合到细胞基因组中。
19.另一方面涉及提供包含氨基酸序列seq id no:9的修饰的超活性piggybac转座酶，其中：第245位的氨基酸是a，第275位的氨基酸是r或a，第277位的氨基酸是r或a，第325位的氨基酸是a或g，第347位的氨基酸是n或a，第351位的氨基酸是e、p或a，第372位的氨基酸是r，第375位的氨基酸是a，第450位的氨基酸是d或n，第465位的氨基酸是w或a，第560位的氨基酸是t或a，第564位的氨基酸是p或s，第573位的氨基酸是s或a，第592位的氨基酸是g或s，第594位的氨基酸是l或f。
20.在一些实施方案中，提供了连接至(ii)cas9或锌指蛋白的(i)整合酶、修饰的整合酶、转座酶或修饰的转座酶的融合蛋白；和编码其的核酸构建体。
21.本技术的某些方面涉及核酸构建体，其包含：(a)编码第一dna结合蛋白的第一多核苷酸序列，所述第一dna结合蛋白被工程化以结合基因组中的特定基因组dna序列；(b)编码能够将外源核酸插入基因组中的第二dna结合蛋白的第二多核苷酸序列，其中所述第二dna结合蛋白是(i)整合酶或相对于野生型整合酶修饰的经修饰整合酶，或(ii)转座酶或相对于野生型转座酶修饰的经修饰转座酶；和(c)包含编码接头的核酸的第三多核苷酸序列；其中所述核酸构建体编码融合蛋白，所述融合蛋白包含所述第一dna结合蛋白、所述第二dna结合蛋白和所述第一dna结合蛋白与所述第二dna结合蛋白之间的接头。
22.在一些实施方案中，核酸构建体包含：(a)编码cas9蛋白的第一多核苷酸序列；和(b)编码本公开的转座酶或修饰的超活性piggybac或其功能片段的第二多核苷酸序列。
23.在一些实施方案中，核酸构建体包含：(a)编码锌指蛋白的第一多核苷酸序列；和(b)编码本公开的整合酶或修饰的整合酶或其功能片段的第二多核苷酸序列。
24.在一些实施方案中，本技术涉及包含本公开的核酸构建体的质粒、载体或宿主细胞。
25.本技术的一些方面涉及融合蛋白，其包含：第一dna结合蛋白，其被工程化以结合基因组中的特定基因组dna序列；第二dna结合蛋白，其能够将外源核酸插入基因组，其中所述第二dna结合蛋白是整合酶、转座酶或修饰的整合酶或转座酶；和连接第一蛋白和第二蛋白的接头。
26.在一些实施方案中，所述融合蛋白包含：(a)cas9蛋白；和(b)本公开的超活性
piggybac或修饰的超活性piggybac或其功能片段。
27.在一些实施方案中，所述融合蛋白包含：(a)锌指蛋白；和(b)本公开的整合酶或修饰的整合酶或其功能片段。
28.本技术的一些方面涉及包含本公开的融合蛋白的慢病毒颗粒。
29.本技术的一些方面涉及将外源核酸序列插入生物体的基因组dna中的方法，其包括：向所述生物体施用包含本公开的核酸构建体或融合蛋白的慢病毒颗粒，使得第一和第二dna结合蛋白结合特定基因组dna序列并将外源核酸插入基因组dna中；其中所述外源核酸变得整合在所述特定基因组dna序列处。
30.本公开的一些方面涉及用于将外源核酸序列的单拷贝或多拷贝受控位点特异性整合到细胞中的方法，所述方法包括：(a)将本公开的融合蛋白递送至细胞，和(b)将外源核酸递送至细胞；其中所述融合蛋白与所述细胞的基因组中的所述特定基因组dna序列的结合导致所述基因组的切割和所述外源核酸的一个或多个拷贝整合到所述细胞的基因组中；并且其中所述融合蛋白通过慢病毒颗粒递送至所述细胞。
31.在整个说明书和权利要求书中，词语“包括”及其变型不旨在排除其它技术特征、添加剂、组分或步骤。在阅读本说明书后，本发明的其它目的、优点和特征对于本领域技术人员而言将变得显而易见，或者可以通过本发明的实践而获知。此外，本发明涵盖本文所述的特定和优选实施方案的所有可能组合。本文提供的以下实施例和附图是用于说明目的，而不旨在限制本发明。
32.附图简要说明
33.图1a和1b显示用(图1a)cas9-piggybac融合蛋白(人cas9(hcas9)、切口酶cas9(ncas9)或死的cas9(dcas9)和超活性piggybac(pb)转座酶)和(图1b)cas9-sb100融合蛋白(人cas9(hcas9)、切口酶cas9(ncas9)或死的cas9(dcas9)和超活性睡美人(sb100)转座酶)转染后，将外源核酸序列整合到其基因组中的细胞百分比。产生载体，其中cas9的3'端通过ggs接头(seq id nos:48、49)(hcas9pb、ncas9pb、dcas9pb、hcas9sb、ncas9sb和dcas9sb)连接至每种转座酶的5'端。产生其他载体，其中每个转座酶的3'端通过ggs接头(seq id nos:48、49)(pbhcas9、pbncas9、pbdcas9、sbhcas9、sbncas9和sbdcas9)连接到cas9的5'端。“piggybac”(图1a)和“sb100”(图1b)用作阳性对照，编码rfp(在图1a中表示为“episomalrfp”)和gfp(在图1b中表示为“episomalgfp”)的单独的转座子用作阴性对照。图1c是图1a的不同展示，显示pb和cas9在不同构型中的转座活性。
34.图2a显示编码cas9/pb融合蛋白的质粒构建体。
35.图2b显示通过融合构建体将外源核酸序列整合到其基因组中的细胞百分比，所述融合构建体由人cas9-piggybac(“靶向的hcas9”)或切口酶cas9-piggybac(“靶向的ncas9”)形成。cas9的3'端通过接头与转座酶的5'端连接。“非靶向的”是整体插入的对照(单独的piggybac)，并且“附加的”是未整合的阴性对照(单独的转座子)。
36.图3显示示例性的zfp-整合酶融合蛋白。zfp和整合酶通过ggs序列连接。nls是指核定位序列。
37.图4显示野生型整合酶慢病毒(lv)、空病毒颗粒(lvo)、非整合性慢病毒(nilv)、具有野生型整合酶的非整合性慢病毒(nilv+in)、具有zfp-整合酶融合蛋白的非整合性慢病毒(nilv+zp-in(aavs1))、具有cas9-整合酶融合蛋白的非整合性慢病毒(nilv+cas-in)和
in产生的慢病毒；nilv：非整合in产生的慢病毒，在其催化中心具有两个突变；taa：用in缺陷型in产生的慢病毒，其中所述蛋白不表达；+in：与in反式互补的慢病毒；+vpr-in：与在c-末端与vpr融合的in反式互补的慢病毒。
46.图10a显示了由插入结构域与dna结合结构域和可编程dna识别结构域通过接头融合形成的核酸构建体的示意图。图10b是显示通过接头以不同构型连接的cas9和转座酶的融合体的示意图。
47.图11显示使用不同接头大小和组成与hypb连接的cas9中cas9活性的结果。通过对grna靶位点测序并使用crispr-ga分析indel频率来测量cas9活性。使用2个不同的grna靶向aavs1位点。使用的接头是seq id nos 50-63。
48.图12显示可编程转座酶基因捕获转座效率的结果。转染后10天通过流式细胞术测量rfp荧光。不同的接头用于确定接头的长度和组成在靶向插入中的重要性。2次独立实验的平均值。使用的接头是seq id nos 50-63。
49.图13显示hcas9_pb接头靶向转座的结果。使用采用2种不同grna的分裂gfp细胞系的不同cas9-pb接头构建体的靶向转座效率。转染后72h通过流式细胞术测量gfp表达。
50.图14显示产生用于筛选不同hypb突变文库的高通量分析以及单个突变体的验证的分裂gfp报告细胞系的方案。使用睡美人100x系统将目标区域位点下游的一半gfp编码序列(ct-gfp)后的剪接受体(sa)引入hek293t细胞的基因组中。用于该筛选的侧翼为反向末端重复序列(itr)的piggybac转座子是完整的rpf表达盒，随后是启动子和另一半gfp(nt-gfp)和剪接供体(sd)；只有一半gfp片段；如图所示。
51.图15显示hcas9_pb选择的突变体靶向转座的结果。hcas9_pbd450n和hcas9_pb r372ak375ad450的靶向转座效率。转染后72h通过流式细胞术测量gfp表达。4次独立实验的平均值。
52.图16显示hcas9_pb选择的突变体随机和靶向转座的结果。hcas9_pbd450n和hcas9_pb r372ak375ad450的靶向和随机转座效率。转染后72小时通过流式细胞术测量gfp表达，并且转染后15天通过流式细胞术测量rfp表达，以及转染后48小时通过rfp荧光标准化，假定为转染效率。
53.图17是显示以不同构型通过接头连接的zfp和转座酶的融合的方案。
54.图18显示zfp-pb融合蛋白靶向转座的结果。zfp_hypb或zfp_hypbd450n在n和c末端构象中的靶向转座效率。转染后5天通过流式细胞术测量gfp表达。1个以上独立重复。zfp_pb：使用xten接头以c末端构型融合的zfp和hypb；pb_zfp：使用xten接头以n末端构型融合的zfp和hypb，zfp_450：使用xten接头以c末端构型融合的zfp和hypb(d450n)；450_zfp：使用xten接头以n末端构型融合的zfp和hypb(d450n)；hypb：未经修饰的hypb；1/2gfp：单独的对照转座子。
55.图19显示用于筛选piggybac突变文库的分析方法的方案。
56.在图20中，用illumina ngs技术对具有所有文库变体的piggybac 1116bp区进行测序。用定制引物替换i7索引引物以允许对不同变体(除了变体450和465)进行完全测序。
57.图21a-21b显示hypb文库多样性产生的结果。图21a是分选图的实例。在门p4中选择阳性靶向整合命中(gfp荧光)，而在门p5中选择阴性靶向整合命中(无gfp荧光)。非存活细胞和碎片在之前用dapi染色的门中是阴性选择性的。图21b显示双质粒转染效率的结果。
通过在同一天和相同条件下转染与1/2gfp和grna转染等摩尔的gfp和rfp质粒来测量转染效率。门p8选择用于双质粒转染。非存活细胞和碎片在之前用dapi染色的门中是阴性选择性的。
58.图22a-22k显示比较阳性命中和阴性命中的文库筛选分析的结果。图22a-22b：显示大量文库作为质量控制的测序；绝大多数变体仅显示一次。显示大量代表性piggyback文库的标志，其位置对应于氨基酸位置：1-r245；2-r275；3-r277；4-g325；5-n347；6-s351；7-r372；8-k375；9-r388；10-t560；11-s564；12-s573；13-m589；14-s592；15-f594。此外，阴性选择细胞的标志以与大量库相似的模式显示。图22c-22k对应于阳性命中的3个独立重复；要求阳性标志的变体(底部)以及选择后的top1变体(顶部)。还示出了top 5和top 10变体的标志。在b、c的左图中，阳性和阴性分选群体中piggyback变体的相对富集显示在log2标度中。
59.图23a显示独立重复3的top 1和top 3阳性变体。第254位仅有1个氨基酸不同。图23b显示了在3个独立重复中鉴定的3个top1变体。还显示wt hypb用于参考。
60.图24a显示gfp阳性细胞vs rfp阳性细胞中最过度表现的变体。gpf的聚类，靶向插入；显示rpf、随机插入和阴性群体。在图24b和24c中，显示了在1个以上独立重复序列中的阳性命中中发现的变体。rep：独立的实验重复；pos：具有靶向整合的阳性细胞；neg：未发生靶向整合的阴性细胞。
61.图25显示变体共变的柱状图。它显示阳性样品中与另一个一起看到的变体除以阴性样品的百分比。除了包括在文库设计中的变体之外，还分析了在病毒文库产生期间由慢病毒逆转录酶随机引入的变体。这些新变体中的一些与阳性命中相关联并在组合时进行靶向整合。d450n和w465a的实例。
62.图26显示当与cas9融合时，与wt hypb相比，修饰的hypb在靶整合上显示更大的增加。使用4ggs接头和报告细胞系系统将cas9融合至hypb或hypb的不同突变体组合(unilarge-a:d450n；unilarge-b:r245a/d450n；unilarge-c:r245a/g325a/d450n/s573p；unilarge-d:r245a/g325a/s573p)。
63.图27显示整合酶缺陷的反式互补的结果。对hek293t细胞的不同系统评估在第2天测量的病毒生产效率和在第7天测量的整合能力。western印迹显示病毒颗粒中存在反式in。通过将整合缺陷病毒和反式互补病毒的不同病症感染hek293t，评价病毒生产效率及其整合能力。将细胞传代7天，直到没有检测到附加体信号，并且在第2、5和7天通过流式细胞术分析gfp信号。对于不同的系统可以检测不同的生产效率，即nilv在生产时接近wt。在所有情况下，当用wt-hiv_in进行反式互补时，整合活性的清楚拯救是明显的。通过蛋白质印迹获得in被装载在反式互补系统中的证据。wt：用wt in产生的慢病毒；nilv：非整合in产生的慢病毒，在其催化中心具有两个突变；taa：用in缺陷型in产生的慢病毒，其中由于在in编码序列的起始处存在终止密码子而不表达蛋白质；taax3：用in缺陷型in产生的慢病毒，其中由于在in编码序列的开始处存在3个连续终止密码子而不表达蛋白质；delta-in：用in缺陷型in产生的慢病毒，其中in的编码序列已被去除；delta-in_cppt：用in缺陷型in产生的慢病毒，其中in的编码序列已被中心多聚嘧啶trac(cppt)序列取代；+vpr-in：用in反式互补的慢病毒在c末端与vpr融合。
64.发明详述
65.i.定义
66.如本文所用，单数形式“一个”、“一种”和“所述”包括单数和复数指代，除非上下文另外明确指出。因此，例如，提及“一种试剂”包括单个试剂和多个这样的试剂。
67.术语“核酸”、“多核苷酸”和“寡核苷酸”可互换使用且是指呈线性或环状构象且呈单链或双链形式的脱氧核糖核苷酸或核糖核苷酸聚合物。出于本公开的目的，这些术语不应被解释为限制聚合物的长度。术语可以涵盖天然核苷酸的已知类似物，以及在碱基、糖和/或磷酸酯部分(例如硫代磷酸酯主链)中经修饰的核苷酸。通常，特定核苷酸的类似物具有相同的碱基配对特异性；即，a的类似物将与t碱基配对。
68.术语“多肽”、“肽”和“蛋白质”可互换使用，是指氨基酸残基的聚合物。该术语也适用于其中一个或多个氨基酸是相应天然存在的氨基酸的化学类似物或修饰衍生物的氨基酸聚合物。
69.本文所用的术语“结合蛋白”是指能够非共价结合另一分子的蛋白。结合蛋白可结合例如dna分子(dna结合蛋白)、rna分子(rna结合蛋白)和/或蛋白质分子(蛋白质结合蛋白)。在蛋白质结合蛋白的情况下，它可以结合自身(形成同源二聚体、同源三聚体等)和/或它可以结合一种或多种不同蛋白的一个或多个分子。结合蛋白可具有一种以上类型的结合活性。例如，锌指蛋白具有dna结合、rna结合和蛋白质结合活性。
70.本文所用的术语“锌指蛋白”是通过一个或多个锌指以序列特异性方式结合dna的蛋白或较大蛋白内的结构域，所述锌指是锌指蛋白的结合结构域内的氨基酸序列的区域，其结构通过锌离子的配位而稳定。术语锌指蛋白通常缩写为zfp。
71.术语“锌指核酸酶”是指通过将锌指dna结合结构域与dna切割结构域融合而产生的人工限制酶。锌指结构域可以被工程化以靶向特异性所需dna序列，并且这使得锌指核酸酶能够靶向复杂基因组内的独特序列。锌指核酸酶经常缩写为zfn或znp。
72.本文所用的术语“核酸序列”或“多核苷酸序列”或“基因序列”是指任何长度的核苷酸序列，其可以是dna或rna；可以是线性、环状或分支的，并且可以是单链或双链的。
73.本文所用的术语“氨基酸序列”或“多肽”或“蛋白质”是指氨基酸残基的聚合物。除非特别说明，氨基酸残基的聚合物可以是任何长度。
74.如本文所用，术语“外源”是指通常不存在于细胞中但可通过一种或多种遗传、生物化学或其它方法引入细胞中的分子。根据细胞的特定发育阶段和环境条件确定细胞中的正常存在。因此，例如，仅在肌肉的胚胎发育期间存在的分子相对于成体肌肉细胞是外源分子。类似地，热激诱导的分子相对于非热激细胞是外源分子。外源分子可包括例如功能失常的内源分子的功能版本或功能正常的内源分子的功能版本。
75.相反，“内源”分子是在特定环境条件下在特定发育阶段通常存在于特定细胞中的分子。例如，内源核酸可以包含染色体，线粒体、叶绿体或其它细胞器的基因组，或天然存在的附加体核酸。其它内源分子可包括蛋白质，例如转录因子和酶。
[0076]“靶位点”或“靶序列”是限定结合分子将结合的一部分核酸或多肽的序列，条件是存在足够的结合条件。例如，序列5'-gaattc-3'是ecori限制性内切核酸酶的靶位点。
[0077]
本文所用的术语“融合”是指其中两个或多个亚单位分子优选共价连接的分子。亚单位分子可以是相同化学类型的分子，或者可以是不同化学类型的分子。
[0078]
本文所用的术语“融合蛋白”是指包含来自至少两种不同蛋白质的蛋白质结构域
的杂合多肽。一种蛋白质可以位于融合蛋白的氨基末端(n-末端)部分或位于蛋白的羧基末端(c-末端)，从而分别形成“氨基末端融合蛋白”或“羧基末端融合蛋白”。
[0079]
本文所用的术语“基因”或“基因组”包括编码基因产物的dna区，以及调节基因产物产生的所有dna区，无论这些调节序列是否与编码和/或转录序列相邻。因此，基因包括但不必限于启动子序列、终止子、翻译调节序列(如核糖体结合位点和内部核糖体进入位点)、增强子、沉默子、绝缘子、边界元件、复制起点、基质附着位点和基因座控制区。
[0080]
术语“真核”细胞包括但不限于真菌细胞(例如酵母)、植物细胞、动物细胞、哺乳动物细胞和人细胞(例如t细胞)。
[0081]
如本文所用，术语“连接”是指两个或更多个组件(例如序列元件)的并置，其中组件经布置以使得两个组件均正常地起作用并且允许至少一个组件可介导施加于至少一个其它组件上的功能的可能性。
[0082]
蛋白质、多肽或核酸的“功能片段”分别是其序列与全长蛋白质、多肽或核酸不同，但保留与全长蛋白质、多肽或核酸相同的功能的蛋白质、多肽或核酸。功能性片段可以具有与相应的天然分子更多、更少或相同数目的残基，和/或可以含有一个或多个氨基酸或核苷酸取代。
[0083]
本文所用的术语“转染”是指将核酸(dna或rna)导入真核或原核细胞或生物体。
[0084]
本文所用的术语“切割”是指dna分子的共价主链的断裂。切割可通过多种方法引发，包括但不限于磷酸二酯键的酶促或化学水解。单链切割和双链切割都是可能的，并且双链切割可以作为两个不同单链切割事件的结果而发生。dna切割可导致产生平末端或交错末端。在某些实施方案中，融合多肽用于靶向双链dna切割。
[0085]
本文所用的术语“整合酶”是指由病毒产生的使遗传物质能够整合到感染细胞的dna(例如基因组dna)中的酶。
[0086]
本文所用的术语“特异性”是指选择性结合与所选序列具有一定程度序列同一性的序列的能力。
[0087]
本文所用的术语“插入”和“整合”是指将核酸序列添加到第二核酸序列或基因组中。
[0088]
与插入或整合相关的术语“特异性的”、“位点特异性的”、“靶向的”和“非靶向的”在本文中可互换使用，是指将核酸插入第二核酸或基因组的特定位点。术语“随机”、“非靶向”和“脱靶”是指非特异性和非预期的遗传插入。术语“总”或“总体”是指插入的总数。
[0089]
本文所用的术语“突变”是指用另一残基取代序列(例如核酸或氨基酸序列)内的残基，或在序列内缺失或插入一个或多个残基。本文典型地通过鉴定原始残基，随后鉴定该残基在序列中的位置并鉴定新取代的残基来描述突变。用于产生本文提供的氨基酸取代(突变)的各种方法是本领域熟知的，并且由例如green和sambrook，molecular cloning:a laboratory manual(4
th ed.、cold spring harbor laboratory press、cold spring harbor、n.y.(2012))提供。
[0090]
本文所用的术语“转座酶”是指结合转座子末端并通过剪切和粘贴机制或复制转座机制催化其移动至基因组另一部分的酶。
[0091]
本文所用的术语“修饰的”是指与相应的未修饰的蛋白质或核酸序列不同的蛋白质或核酸序列。
[0092]
本文所用的术语“接头”是指连接两个相邻分子或部分的化学基团或分子。
[0093]
如本文所用，术语“载体”和“质粒”是指可携带例如第二目标多核苷酸且例如可将基因序列转移至靶细胞的任何多核苷酸。因此，该术语包括克隆和表达载体，以及整合载体。特别地，本文所用的术语“表达载体”是指能够指导核酸表达的任何多核苷酸。在一些方面，术语“载体”和“质粒”可与术语“核酸构建体”互换使用。
[0094]
本文所用的术语“同一性百分比”是指两个序列(无论是核酸序列还是氨基酸序列)的同一性百分比，并且是两个比对序列之间的精确匹配数除以较短序列的长度并乘以100。
[0095]
本文所用的术语“重组”或“工程化”是指人工产生的蛋白质或核酸序列。
[0096]
本文所用的术语“受试者”是指个体生物体，例如个体哺乳动物。在一些实施方案中，受试者是人。在一些实施方案中，受试者是非人哺乳动物。在一些实施方案中，受试者是非人灵长类动物。在一些实施方案中，受试者是啮齿动物。在一些实施方案中，受试者是绵羊、山羊、牛、猫或狗。在一些实施方案中，受试者是脊椎动物、两栖动物、爬行动物、鱼、昆虫、苍蝇或线虫。在一些实施方案中，所述受试者是研究动物。
[0097]
术语“治疗(treatment)”、“治疗(treat)”和“治疗(treating)”是指旨在逆转、减轻、延迟疾病或病症或其一种或多种症状的发作或抑制其进展的临床干预，如本文所述。如本文所用，术语“治疗(treatment)”、“治疗(treat)”和“治疗(treating)”是指旨在逆转、减轻、延迟疾病或病症或其一种或多种症状的发作或抑制其进展的临床干预，如本文所述。在一些实施方案中，治疗可以在一种或多种症状已经发展之后和/或在疾病已经被诊断之后施用。在其它实施方案中，治疗可以在没有症状的情况下施用，例如以预防、降低症状发展的可能性，或延迟症状的发作或抑制疾病的发作或进展。例如，治疗可在症状发作之前(例如，根据症状史和/或根据遗传或其它易感性因素)向易感个体施用。也可以在症状已经消退后继续治疗，例如以预防或延迟其复发。
[0098]
ii.核酸构建体
[0099]
核酸序列的靶向编辑，例如向基因组dna中引入特定修饰(例如插入外源核酸)，是治疗人遗传疾病的有前景的方法。为此，本发明人旨在提供用于基因组编辑的改进的核酸构建体，其在安装所需修饰方面是高度有效的；具有最小脱靶活性；以及被编程以精确编辑人基因组内的位点的能力。
[0100]
本技术的某些方面涉及用于改进外源核酸(例如目标基因(goi))位点特异性插入基因组的核酸构建体。在一些实施方案中，goi是治疗性基因，例如编码治疗性蛋白质的基因。治疗性目标基因的实例包括cftr基因(囊性纤维化跨膜传导调节蛋白)以治疗囊性纤维化疾病；smn基因(存活运动神经元1)以治疗脊髓性肌萎缩(sma)；lrp5基因(ldl受体相关蛋白5)变体g171v以预防骨质疏松和骨折；和app基因(淀粉样β前体蛋白)变体a673t以降低阿尔茨海默病易感性。
[0101]
在一些实施方案中，用于插入的外源核酸(例如goi)的长度可以高达约10kb，高达约15kb，高达约20kb，高达约25kb，高达约30kb，高达约35kb或高达约40kb。
[0102]
在一些实施方案中，编码能够将外源核酸插入基因组的dna结合蛋白的多核苷酸序列包含整合酶或相对于野生型整合酶经修饰的整合酶，并且用于插入的外源核酸的长度可以高达10kb，高达15kb或高达20kb，例如约1kb至约20kb，约1kb至约19kb，约1kb至约
18kb，约1kb至约17kb，约1kb至约16kb，或约1kb至约15kb。
[0103]
在一些实施方案中，编码能够将外源核酸插入基因组中的第二dna结合蛋白的多核苷酸序列包含转座酶或相对于野生型转座酶经修饰的转座酶，并且用于插入的外源核酸的长度可高达10kb，高达15kb，高达20kb，高达25kb，高达30kb，高达35kb或高达40kb，例如约1kb至约40kb，约1kb至约39kb，约1至约38kb，约1kb至约37kb，约1kb至约36kb，或约1kb至约35kb。
[0104]
在一些实施方案中，核酸构建体包含编码第一dna结合蛋白(例如基因编辑多肽)的多核苷酸序列和编码第二dna结合蛋白(例如整合酶或转座酶)的多核苷酸序列，其中核酸构建体编码作为融合蛋白的第一和第二结合蛋白。在一些实施方案中，核酸构建体还包含编码第一和第二结合蛋白之间的接头的核酸序列。在一些实施方案中，核酸构建体编码能够和/或促进外源核酸位点特异性插入基因组的融合蛋白。在一些实施方案中，第一或第二结合蛋白是相对于野生型经修饰的整合酶。在一些实施方案中，第一或第二结合蛋白是相对于野生型经修饰的转座酶。在一些实施方案中涉及包含本公开的核酸构建体的载体或质粒。在某些方面，本公开的核酸构建体编码改进核酸(例如goi)插入基因组的特异性的融合蛋白。在一些实施方案中，使用慢病毒颗粒将融合蛋白和外源核酸递送至细胞。
[0105]
在一些实施方案中，第一和第二结合蛋白在分开的核酸构建体上，例如，转座酶或整合酶(例如，相对于野生型经修饰的转座酶和/或整合酶)在来自cas9或zfp的分开的核酸构建体上。
[0106]
某些方面涉及包含本文公开的核酸构建体的质粒或载体。在一些实施方案中，包含核酸构建体的质粒是包装质粒。在一些实施方案中，包含核酸构建体的质粒还包含编码衣壳蛋白(例如gag和pol)的多核苷酸。在一些实施方案中，(i)包含核酸构建体的质粒与(ii)包含编码病毒包膜蛋白的多核苷酸的质粒(包膜质粒)；和(iii)包含外源核酸序列(例如goi)的质粒组合，其中当将所述组合引入生产细胞系(例如真核细胞、原核细胞和/或细胞系)中时，产生包含所述外源核酸(例如goi)的病毒颗粒和包含第一和第二结合蛋白的融合蛋白。
[0107]
在一些实施方案中，(i)包含所述核酸构建体的质粒与(ii)包含所述核酸构建体的质粒，所述质粒还包含编码衣壳蛋白(例如gag和pol)的多核苷酸(包装质粒，其中所述包装质粒缺乏功能性整合酶)；(iii)包含编码病毒包膜蛋白的多核苷酸的质粒(包膜质粒)和(iv)包含外源核酸序列(例如goi)的质粒组合，其中当将所述组合引入生产细胞系(例如真核和原核细胞和/或细胞系)中时，产生包含外源核酸(例如goi)的病毒颗粒和包含第一和第二结合蛋白的融合蛋白。
[0108]
核酸构建体包含编码被工程化以结合特异性dna序列的第一dna结合蛋白的第一多核苷酸序列，编码能够将外源核酸插入基因组中的第二dna结合蛋白的第二多核苷酸序列，其中第二dna结合蛋白是整合酶或转座酶(例如，相对于野生型经修饰的转座酶和/或整合酶)，以及包含编码第一和第二多核苷酸之间的接头的核酸序列的第三多核苷酸序列。在一些实施方案中，第一dna结合蛋白是锌指蛋白或cas9蛋白。
[0109]
在一些实施方案中，核酸构建体包含选自下组的接头：(ggs)n、(ggggs)n(seq id no:133)、(g)n、(eaaak)n(seq id no:134)、基于xten的接头，或(xp)n基序，或任何这些的组合，其中n独立地为1-50的整数。在一些实施方案中，核酸编码包含xten序列或ggs序列的
接头。在一些实施方案中，接头核酸序列的长度为3-150个核苷酸。在一些实施方案中，接头长度为12-24个氨基酸，或36-72个核酸。在一些实施方案中，核酸构建体包含接头核酸序列，其长度为6-120、6-90、6-78、6-72、9-120、9-90、9-78、9-72、12-120、12-90、12-78、12-72、15-120、15-90、15-78、15-72、18-120、18-90、18-78、18-72、21-120、21-90、21-78、21-72、24-120、24-90、24-78、24-72、27-120、27-90、27-78、27-72、30-120、30-90、30-78、30-72、33-120、33-90、33-78、33-72、36-120、36-90、36-78、或36-72个核苷酸。在一些实施方案中，编码接头的核酸长度为9-150个核酸。在一些实施方案中，锌指蛋白通过包含ggs序列的接头与本公开的修饰的整合酶连接。在一些实施方案中，接头长度为1-50个氨基酸。在一些实施方案中，接头长度为3-40、3-30、3-29、3-24、4-40、4-30、4-29、4-24、5-40、5-30、5-29、5-24、6-40、6-30、6-29、6-24、7-40、7-30、7-29、7-24、8-40、8-30、8-29、8-24、9-40、9-30、9-29、9-24、10-40、10-30、10-29、10-24、11-40、11-30、11-29、11-24、12-40、12-30、12-29、或12-24个氨基酸。
[0110]
在一些实施方案中，第一多核苷酸序列的3'端通过编码接头的核酸连接至第二多核苷酸序列的5'端。在一些实施方案中，第一多核苷酸序列的5'端通过编码接头的核酸连接至第二多核苷酸序列的3'端。在一些实施方案中，cas9蛋白的3'端通过接头连接至转座酶的5'端。在一些实施方案中，cas9蛋白的5'端通过接头连接至转座酶的3'端。在一些实施方案中，3'锌指蛋白通过接头连接至整合酶的5'端。在一些实施方案中，5'锌指蛋白通过接头连接至整合酶的3'端。
[0111]
在一些实施方案中，不需要接头，因为修饰的整合酶或修饰的转座酶从与cas9或zfp分开的质粒表达。
[0112]
本公开的某些方面涉及载体或质粒(例如，表达载体或包装载体)，其包含适于在宿主细胞(例如，哺乳动物细胞、酵母细胞、昆虫细胞、植物细胞、真菌细胞或藻类细胞)中表达的本公开的核酸构建体。
[0113]
在一些实施方案中，核酸构建体包含：(a)第一多核苷酸序列，其包含编码第一dna结合蛋白的核酸，所述第一dna结合蛋白被工程化以结合基因组中的特定基因组dna序列；其中所述第一dna结合蛋白是锌指蛋白或cas9蛋白；(b)第二多核苷酸序列，其包含编码第二dna结合蛋白的核酸，所述第二dna结合蛋白能够将外源核酸插入基因组中，其中所述第二dna结合蛋白是(i)超活性piggybac转座酶，或与所述超活性piggybac相比具有改进的将外源核酸插入基因组中的特异性的修饰的超活性piggybac，或(ii)人免疫缺陷病毒(hiv)整合酶，或与所述hiv整合酶相比具有改进的将外源核酸插入基因组中的特异性的修饰的hiv整合酶；和(c)任选的多核苷酸序列，其包含编码接头的核酸；其中所述核酸构建体编码融合蛋白，所述融合蛋白包含所述第一dna结合蛋白、所述第二dna结合蛋白和所述第一dna结合蛋白与所述第二dna结合蛋白之间的任选的接头；并且其中所述融合蛋白能够将所述外源核酸插入所述基因组的特定位点。
[0114]
在一个实施方案中，(a)所述第一dna结合蛋白是cas9蛋白或锌指蛋白；和(b)所述第二dna结合蛋白是超活性piggybac转座酶，或与所述超活性piggybac转座酶相比具有改进的将外源核酸插入基因组的特异性的修饰的超活性piggybac转座酶。
[0115]
在另一个实施方案中，(a)第一dna结合蛋白是cas9蛋白或锌指蛋白；和(b)所述第二dna结合蛋白是hiv整合酶，或与所述hiv整合酶相比具有改进的将外源核酸插入基因组
cggrnnrcynyncnccg-3')(seq id no:135)。因此，gal4识别基因组中的短且非常频繁的序列，因此不是位点特异性的。在具体实施方案中，锌结合蛋白具有被工程化为位点特异性的gal4dna结合结构域。
[0128]
在一个实施方案中，(a)第一dna结合蛋白是锌指蛋白，和(b)第二dna结合蛋白是超活性piggybac转座酶或修饰的超活性piggybac转座酶，条件是接头不是efggggsggggsggggsqf(seq id no:131)。
[0129]
在另一个实施方案中，(a)所述第一dna结合蛋白是cas9蛋白或锌指蛋白，和(b)所述第二dna结合蛋白是hiv整合酶或与所述hiv整合酶相比具有改进的将外源核酸插入基因组中的特异性的修饰的hiv整合酶，其中所述核酸构建体包含(c)多核苷酸序列，所述多核苷酸序列包含编码接头的核酸，所述接头包含xten序列或ggs序列，并且其中第一多核苷酸序列的3'末端连接至第二多核苷酸的5'末端。
[0130]
在一些实施方案中，核酸构建体为dna或rna形式。
[0131]
本文还提供了包含本公开中提供的任何核酸构建体的载体。特别地，所述载体适于在哺乳动物细胞、酵母细胞、昆虫细胞、植物细胞、真菌细胞或藻类细胞中表达。本文还提供了包含本公开中提供的任何核酸构建体或载体的宿主细胞。
[0132]
iii.整合酶和修饰的整合酶
[0133]
整合酶是将病毒基因组稳定整合到宿主细胞中的关键酶，但整合酶也与插入诱变有关，因为野生型整合酶的整合位点是不可预测的。已经表明高度转录的基因优选整合，这增加了重要基因和调节基因突变的风险。通常，hiv-1整合酶由n-末端结构域(ntd)、催化核心(ccd)和c-末端结构域(ctd)组成。ntd用于结合和配位作为重要辅因子的zn
2+
阳离子，而ctd用于dna结合。ccd结构域形成其中催化整合过程的催化核心。在进入宿主细胞并逆转录病毒-rna基因组后，四个整合酶分子形成四聚体并连接到病毒dna的末端，其然后称为整合体。预整合复合物(pic)消化dna的3'oh末端，形成5'oh-悬垂，这随后是亲核攻击宿主dna所需的。在该pic的形成过程中，复合物被输送到细胞核中。在运输到细胞核后，pic与宿主dna形成复合物，称为链转移复合物(stc)。在此，病毒dna的两个3'oh悬垂以约5个核苷酸的间隔攻击宿主dna主链的两个位点。这导致5个核苷酸的靶标重复。亲核攻击后，病毒dna被整合，单链dna部分通过宿主细胞dna修复机制修复。
[0134]
本公开提供包含编码用于将外源核酸插入基因组的特定位点的整合酶和修饰的整合酶的多核苷酸的核酸构建体。在一些实施方案中，用于插入的外源核酸的长度可以高达10kb，高达15kb或高达20kb，例如约1kb至约20kb，约1kb至约19kb，约1至约18kb，约1kb至约17kb，约1kb至约16kb或约1kb至约15kb。在一些实施方案中，编码能够将外源核酸插入基因组的dna结合蛋白的多核苷酸序列包含相对于野生型整合酶可被修饰的整合酶，并且用于插入的外源核酸的长度可高达10kb或高达15kb。
[0135]
本公开的一些方面提供使用本文所述的方法和策略设计的整合酶融合蛋白。本公开的一些实施方案提供编码整合酶或修饰的整合酶和/或包含其的融合蛋白的核酸。本公开的一些实施方案提供包含编码整合酶或修饰的整合酶和/或包含其的融合蛋白的此类核酸构建体的质粒或表达载体。
[0136]
本公开的整合酶或修饰的整合酶可以是能够将外源核酸插入基因组的特定位点的任何整合酶。整合酶的非限制性实例包括hiv整合酶、慢病毒整合酶、腺病毒整合酶、逆转
录病毒整合酶和乳腺小鼠肿瘤病毒整合酶。在一些实施方案中，整合酶(例如，相对于野生型包含一个或多个修饰的经修饰的整合酶)是hiv整合酶，特别是对应于nc_001802.1(氨基酸和核酸序列分别为seq id no：1和2)的hiv整合酶序列。在一些实施方案中，修饰的整合酶相对于野生型hiv整合酶(seq id no：1和2)包含一个或多个修饰。
[0137]
在一些实施方案中，整合酶是修饰的hiv整合酶。修饰的hiv整合酶可以包含选自以下氨基酸的对应于seq id no：1的氨基酸编号的一个或多个氨基酸的突变：10、13、64、94、116、117、119、120、122、124、128、152、168、170、185、231、264、266或273。修饰的hiv整合酶突变可以包含表8中所列的一个或多个氨基酸修饰。修饰的hiv整合酶突变可以包含选自以下的对应于seq id no：1或seq id no：3的氨基酸编号的一个或多个氨基酸修饰：d10k、e13k、d64a、d64e、g94d、g94e、g94r、g94k、d116a、d116e、n117d、n117e、n117r、n117k、s119a、s119p、s119t、s119g、s119d、s119e、s119r、s119k、n120d、n120e、n120r、n120k、t122k、t122i、t122v、t122a、t122r、a124d、a124e、a124r、a124k、a128t、e152a、e152d、q168l、q168a、e170g、f185k、r231g、r231k、r231d、r231e、r231s、k264r、k266r或k273r。
[0138]
在一些实施方案中，相对于野生型，修饰的整合酶可包含一个或多个削弱dna结合的突变，例如在对应于seq id no：1或seq id no：4的氨基酸编号的氨基酸94、117、119、120、124和/或231(例如g94d、g94e、g94r、g94k、n117d、n117e、n117r、n117k、s119a、s119p、s119t、s119g、s119d、s119e、s119r、s119k、n120d、n120e、n120r、n120k、a124d、a124e、a124r、a124k、r231g、r231k、r231d、r231e和/或r231k)处。
[0139]
在一些实施方案中，相对于野生型，修饰的整合酶可包含一个或多个增强dna结合的突变，例如在对应于seq id no：1或seq id no：5的氨基酸编号的氨基酸94、117、119、120、124和/或231(例如g94d、g94e、g94r、g94k、n117d、n117e、n117r、n117k、s119a、s119p、s119t、s119g、s119d、s119e、s119r、s119k、n120d、n120e、n120r、n120k、a124d、a124e、a124r、a124k、r231g、r231k、r231d、r231e和/或r231k)处。
[0140]
在一些实施方案中，相对于野生型，修饰的整合酶可包含一个或多个突变，所述突变涉及整合酶被p300乙酰化，例如在对应于seq id no：1或seq id no：6的氨基酸编号的氨基酸264、266和/或273(例如k264r、k266r和/或k273r)处。
[0141]
在一些实施方案中，修饰的整合酶可在对逆转录病毒整合重组至关重要的高度保守氨基酸中包含一个或多个突变，例如在对应于seq id no：1或seq id no：7的氨基酸编号的氨基酸10、13、64、116、128、152、168和/或170(例如d10k、e13k、d64a、d64e、d116a、d116e、a128t、e152a、e152d、q168l、q168a和/或e170g)处。
[0142]
在一些实施方案中，修饰的整合酶可包含一个或多个干扰与ledgf/p75的相互作用并削弱染色体栓系和hiv-1复制的突变，例如对应于seq id no：1或seq id no：8的氨基酸编号的氨基酸168(例如q168l或q168a)。
[0143]
在一些实施方案中，修饰的hiv整合酶包含与seq id no：1所示序列至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％相同的氨基酸序列。在一些实施方案中，修饰的hiv整合酶包含相对于seq id no：1、3、4、5、6、7或8具有本文公开的一个或多个修饰的氨基酸序列，并且分别保留与seq id no：1、3、4、5、6、7或8中所示序列至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％相同。在一些实施方案中，针对其与野生型hiv整合酶相比对将dna整合到基因组中的高特
异性而选择修饰的hiv整合酶。
[0144]
本公开的某些方面涉及包含核酸构建体的载体或质粒(例如表达载体或包装载体)，所述核酸构建体包含适于在宿主细胞(例如哺乳动物细胞、酵母细胞、昆虫细胞、植物细胞、真菌细胞或藻类细胞)中表达的本公开的整合酶或修饰的整合酶。在一些实施方案中，整合酶或修饰的整合酶表达为与cas9或锌指蛋白的融合蛋白。在一些实施方案中，整合酶或修饰的整合酶与来自单独载体的cas9或锌指蛋白共表达，但递送至同一细胞。在一些实施方案中，将整合酶或修饰的整合酶或包含其的融合蛋白包装在慢病毒颗粒中用于递送至细胞。
[0145]
iv.转座酶和修饰的转座酶
[0146]
转座子是可经历转座的染色体区段，例如，在宿主dna中不存在互补序列的情况下可作为整体转座的dna。转座子可用于在人细胞中进行长范围dna工程化。用于哺乳动物细胞的常见转座子系统包括由无活性转座子重建的睡美人(sb)和分离自粉纹夜蛾(trichoplusia)的piggybac(pb)。piggybac比sb具有更高的转座活性，并且它可以被无痕地切除。
[0147]
天然dna转座子典型地含有编码转座酶蛋白的单个基因，其侧翼为携带转座酶结合位点的末端反向重复序列(itr)。在转座过程中，转座酶蛋白识别这些itr以随机方式催化元件的切除和随后的再整合。此外，这些转座子中的一些可适用于基因治疗方案，使用它们作为双组分系统，其中质粒含有表达盒，其中置于转座子itr之间的dna序列可被引入宿主基因组，所述宿主基因组由含有编码转座酶或其体外合成的mrna的序列的共转染质粒指导。在本公开的某些方面，基于转座子用于有效介导转基因(例如治疗性基因)的稳定整合和持续表达。
[0148]
本公开提供了包含编码用于将外源核酸插入基因组的特定位点的转座酶或修饰的转座酶的多核苷酸的核酸构建体。在一些实施方案中，用于插入的外源核酸的长度可高达20kb，高达25kb，高达30kb或高达40kb，例如约1kb至约40kb，约1kb至约39kb，约1至约38kb，约1kb至约37kb，约1kb至约36kb，约1kb至约35kb，约1kb至约30kb，约1kb至约30kb。或约1kb至约25kb。在一些实施方案中，编码能够将外源核酸插入基因组的dna结合蛋白的多核苷酸序列包含转座酶或相对于野生型转座酶经修饰的转座酶，并且用于插入的外源核酸的长度可以高达35kb或高达40kb。
[0149]
本公开的转座酶或修饰的转座酶可以是能够将外源核酸插入基因组的特定位点的任何转座酶。本公开的一些方面提供了使用本文所述的方法和策略设计的转座酶融合蛋白。本公开的一些实施方案提供编码此类转座酶或修饰的转座酶和/或包含其的融合蛋白的核酸。本公开的一些实施方案提供包含编码转座酶或修饰的转座酶和/或包含其的融合蛋白的此类核酸构建体的质粒或表达载体。
[0150]
转座酶的非限制性实例包括青蛙王子、睡美人、超活性睡美人、piggybac和超活性piggybac。在一些实施方案中，转座酶是对应于seq id no：9和67的超活性piggybac转座酶(在本公开中也称为hypb或简称为pb)。在一些实施方案中，修饰的转座酶包含相对于超活性piggybac转座酶(seq id no：9)的一个或多个修饰。
[0151]
在一些实施方案中，转座酶是修饰的超活性piggybac转座酶。修饰的超活性piggybac转座酶可以包含选自以下氨基酸的对应于seq id no：9的氨基酸编号的一个或多
个氨基酸的突变：245、268、275、277、287、290、315、325、341、346、347、350、351、356、357、372、375、388、409、412、432、447、450、460、461、465、517、560、564、571、573、576、586、587、589、592和594。修饰的超活性piggybac突变可以包含表3中所列的一个或多个氨基酸修饰。修饰的超活性piggybac转座酶突变可以包含选自以下的对应于seq id no：9或seq id no：10的氨基酸编号的一个或多个氨基酸修饰：r245a、d268n、r275a/r277a、k287a、k290a、k287a/k290a、r315a、g325a、r341a、d346n、n347a、n347s、t350a、s351e、s351p、s351a、k356e、n357a、r372a、k375a、r372a/k375a、r388a、k409a、k412a、k409a/k412a、k432a、d447a、d447n、d450n、r460a、k461a、r460a/k461a、w465a、s517a、t560a、s564p、s571n、s573a、k576a、h586a、i587a、m589v、s592g或f594l。
[0152]
在一些实施方案中，相对于hypb，修饰的转座酶可包含一个或多个涉及保守的催化三联体的突变，例如在对应于seq id no：9或seq id no：11的氨基酸编号的氨基酸268和/或346(例如d268n和/或d346n)处。
[0153]
在一些实施方案中，相对于hypb，修饰的转座酶可包含一个或多个对于切除是关键的突变，例如在对应于seq id no：9或seq id no：12的氨基酸编号的氨基酸287、287/290和/或460/461(例如k287a、k287a/k290a和/或r460a/k461a)处。
[0154]
在一些实施方案中，相对于hypb，修饰的转座酶可包含一个或多个涉及靶标连接的突变，例如在对应于seq id no：9或seq id no：13的氨基酸编号的氨基酸351、356和/或379(例如s351e、s351p，s351a和/或k356e)处。
[0155]
在一些实施方案中，相对于hypb，修饰的转座酶可包含一个或多个对于整合是关键的突变，例如在对应于seq id no：9或seq id no：14的氨基酸编号的氨基酸560、564、571、573、589、592和/或594(例如t560a、s564p、s571n、s573a、m589v、s592g和/或f594l)处。
[0156]
在一些实施方案中，相对于hypb，修饰的转座酶可包含一个或多个涉及比对的突变，例如在对应于seq id no：9或seq id no：15的氨基酸编号的氨基酸325、347、350、357和/或465(例如，g325a、n347a、n347s、t350a和/或w465a)处。
[0157]
在一些实施方案中，相对于hypb，修饰的转座酶可包含一个或多个充分保守的突变，例如在对应于seq id no：9或seq id no：16的氨基酸编号的氨基酸576和/或587(例如k576a和/或i587a)处。
[0158]
在一些实施方案中，相对于hypb，修饰的转座酶可包含一个或多个涉及zn
2+
结合的突变，例如，对应于seq id no：9或seq id no：17的氨基酸编号的586(例如，h586a)。
[0159]
在一些实施方案中，相对于hypb，可编程转座酶可包含一个或多个涉及整合的突变，例如对应于seq id no：9或seq id no：18的氨基酸编号的315、341、372和/或375(例如r315a、r341a、r372a和/或k375a)。
[0160]
在一些实施方案中，修饰的超活性piggybac包含与seq id no：9所示序列至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％相同的氨基酸序列。在一些实施方案中，针对其与超活性piggybac相比对将dna整合到基因组中的高特异性而选择修饰的超活性piggybac。在一些实施方案中，修饰的超活性piggybac包含相对于seq id no:9、10、11、12、13、14、15、16、17或18具有本文公开的一个或多个修饰的氨基酸序列，并且分别保留与seq id no:9、10、11、12、13、14、15、16、17或18中所示序列至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％相同。
id no：119的氨基酸编号的氨基酸修饰r245a、g325a、d450和s573p。
[0175]
如前所述，本文提供了修饰的超活性piggybac转座酶，其可与本文公开的元件融合，但也可单独使用或与不同元件组合使用。所述转座酶已由本发明人产生。因此，提供了包含氨基酸序列seq id no：9的修饰的超活性piggybac转座酶，其中：
[0176]
i.第245位的氨基酸是a，
[0177]
ii.第275位的氨基酸是r或a，
[0178]
iii.第277位的氨基酸是r或a，
[0179]
iv.第325位的氨基酸是a或g，
[0180]
v.第347位的氨基酸是n或a，
[0181]
vi.第351位的氨基酸是e、p或a，
[0182]
vii.第372位处的氨基酸是r，
[0183]
viii.第375位的氨基酸是a，
[0184]
ix.第450位的氨基酸是d或n，
[0185]
x.第465位的氨基酸是w或a，
[0186]
xi.第560位的氨基酸是t或a，
[0187]
xii.第564位的氨基酸是p或s，
[0188]
xiii.第573位的氨基酸是s或a，
[0189]
xiv.第592位的氨基酸是g或s，和
[0190]
xv.第594位的氨基酸是l或f。
[0191]
在一些实施方案中，修饰的超活性piggybac包含选自下组的氨基酸序列：seq id no:120,121,122,123,124,125,126,127,128和129。
[0192]
在一些实施方案中，修饰的超活性piggybac包含相对于seq id no:119,120,121,122,123,124,125,126,127,128或129具有本文公开的一个或多个修饰的氨基酸序列，并且分别保留与seq id no:119,120,121,122,123,124,125,126,127,128或129中所示序列至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％相同。在一些实施方案中，针对其与超活性piggybac相比对将dna整合到基因组中的高特异性而选择修饰的超活性piggybac。
[0193]
本公开还涉及本文提供的修饰的超活性piggybac转座酶用作药物，特别是在离体或体内基因治疗中。
[0194]
v.cas9和锌指基因编辑
[0195]
目前的基因组工程化工具，包括工程化锌指蛋白(zfp)、转录激活物样效应物核酸酶(talen)，以及最近的rna引导的dna内切核酸酶cas9，影响基因组中的序列特异性dna切割。这种可编程切割可导致切割位点处的dna通过非同源末端连接(nhej)突变或通过同源定向修复(hdr)置换切割位点周围的dna。
[0196]
本公开的某些方面涉及包含编码dna结合蛋白的多核苷酸的核酸构建体，所述dna结合蛋白被工程化以结合特定的基因组dna序列，例如cas9和zfp。在一些实施方案中，这样的dna结合蛋白与本文公开的修饰的整合酶或修饰的转座酶融合用于基因编辑。
[0197]
i.cas9
[0198]
crispr-cas9系统是通过序列特异性双链断裂(dsb)使基因失活或修饰的高效工
具。这些dsb被细胞dna损伤应答机制识别，并可被内源性dsb修复途径修复。主要的修复途径是非同源末端连接(nhej)，其经常导致可以产生移码突变并破坏基因的功能的小的插入和/或缺失。该途径可用于产生基因敲除突变。或者，在存在修复模板的情况下，可以通过同源定向修复(hdr)无缝地修复损伤。但是，尽管有显著的进步，但引入精确遗传修饰的hdr介导的基因组编辑的效率比nhej介导的基因破坏低得多。此外，hdr途径的大的多-kb替换导致挑战并且需要选择和/或大群体细胞分选。因此，hdr途径的主要应用是基因内关键区域的局部替换。
[0199]
术语“cas9”和“cas9核酸酶”是指包含cas9蛋白或其片段(例如，包含cas9的活性或非活性dna切割结构域和/或cas9的grna结合结构域的蛋白)的rna引导的核酸酶。cas9核酸酶有时也称为casn1核酸酶或crispr(成簇的规则间隔的短回文重复)相关核酸酶。crispr是提供针对可移动遗传元件(病毒、转座元件和接合质粒)的保护的适应性免疫系统。crispr簇含有间隔区、与先前的可移动元件互补的序列和靶侵入核酸。crispr簇被转录和加工成crispr rna(crrna)。在ii型crispr系统中，正确加工前crrna需要反式编码的小rna(tracrrna)、内源核糖核酸酶3(rnc)和cas9蛋白。tracrrna用作核糖核酸酶3-辅助加工前crrna的指导。随后，cas9/crrna/tracrrna内切核酸酶切割与间隔区互补的线性或环状dsdna靶标。首先用内切核酸酶切割不与crrna互补的靶链，然后用外切核酸酶修整3
′‑5′
。在自然界中，dna结合和切割典型地需要蛋白质和两种rna。但是，可以工程化单向导rna(“sgrna”或简称为“gnra”)以便将crrna和tracrrna的方面并入单个rna种类中。
[0200]
cas9识别crispr重复序列中的短基序(pam或原型间隔区相邻基序)以帮助区分自身与非自身。cas9核酸酶序列和结构是本领域技术人员熟知的。cas9直向同源物已经描述于各种物种中，包括但不限于酿脓链球菌和嗜热链球菌。基于本公开内容，另外的合适的cas9核酸酶和序列对于本领域技术人员将是显而易见的，并且此类cas9核酸酶和序列包括来自chylinski,et al.,"the tracrrna and cas9 families of type ii crispr-cas immunity systems"(2013)rna biology 10:5,726-737中公开的生物体和基因座的cas9序列；其全部内容通过引用并入本文。
[0201]
在一些实施方案中，cas9核酸酶具有无活性的(例如失活的)dna切割结构域。核酸酶失活的cas9蛋白可互换地称为“dcas9”蛋白(对于核酸酶“死”的cas9)。用于产生具有无活性dna切割结构域的cas9蛋白(或其片段)的方法是已知的(参见，例如，jinek et al.,science.337:816-821(2012)；qi et al.,"repurposing crispr as an rna-guided platform for sequence-specific control of gene expression"(2013)cell.28；152(5):1173-83，每一个的全部内容通过引用并入本文)。
[0202]
例如，已知cas9的dna切割结构域包括两个亚结构域，hnh核酸酶亚结构域和ruvc1亚结构域。hnh亚结构域切割与grna互补的链，而ruvc1亚结构域切割非互补链。这些亚结构域内的突变可以沉默cas9的核酸酶活性。例如，突变d10a和h841a完全失活化脓性链球菌cas9的核酸酶活性。cas9切口酶是cas9核酸酶的变体，其区别在于ruvc核酸酶结构域中的点突变(d10a)，这使其能够切口(nick)dna，但不切割dna。
[0203]
术语“cas9”还包括其变体和功能片段。在一些实施方案中，提供了包含cas9片段的蛋白质。例如，在一些实施方案中，蛋白质包含两个cas9结构域之一：(1)cas9的grna结合域；或(2)cas9的dna切割结构域。在一些实施方案中，包含cas9或其片段的蛋白质被称为“cas9变体”。cas9变体与cas9或其片段具有同源性。例如，cas9变体可以与野生型cas9至少约70％相同，至少约80％相同，至少约90％相同，至少约95％相同，至少约96％相同，至少约97％相同，至少约98％相同，至少约99％相同，至少约99.5％相同或至少约99.9％相同。在一些实施方案中，所述cas9变体包含cas9的片段(例如，grna结合结构域或dna切割结构域)，使得所述片段与野生型cas9的相应片段至少约70％相同，至少约80％相同，至少约90％相同，至少约95％相同，至少约96％相同，至少约97％相同，至少约98％相同，至少约99％相同，至少约99.5％相同或至少约99.9％相同。在一些实施方案中，cas9是指cas9来自：溃疡棒状杆菌(corynebacterium ulcerans)(ncbi refs:nc_015683.1,nc_017317.1)(seq id nos:19)；白喉棒状杆菌(corynebacterium diphtheria)(ncbi refs:nc_016782.1,nc_016786.1)(seq id no:20)；梅毒螺旋体(spiroplasma syrphidicola)(ncbi ref:nc_021284.1)(seq id no:21)；中间普雷沃氏菌(prevotella intermedia)(ncbi ref:nc_017861.1)(seq id no:22)；黄褐螺原体(spiroplasma taiwanense)(ncbi ref:nc_021846.1)(seq id no:23)；海豚链球菌(streptococcus iniae)(ncbi ref:nc_021314.1)(seq id no:24)；波罗的海贝尔氏菌(belliella baltica)(ncbi ref:nc_018010.1)(seq id no:25)；psychroflexus torquisi(ncbi ref:nc_018721.1)(seq id no:26)；嗜热链球菌(streptococcus thermophilus)(ncbi ref:yp_820832.1)(seq id no:27)；无害李斯特菌(listeria innocua)(ncbi ref:np_472073.1)(seq id no:28)；空肠弯曲杆菌(campylobacter jejuni)(ncbi ref:yp_002344900.1)(seq id no:29)；或脑膜炎奈瑟氏菌(neisseria.meningitidis)(ncbiref：yp_002342100.1)(ncbi ref:yp_002342100.1)(seq id no:30)。在一些实施方案中，野生型cas9对应于来自酿脓链球菌(streptococcus pyogenes)(ncbi reference sequence:nc_017053.1)(seq id no:31的cas9。
[0204]
已知的cas9蛋白质中，酿脓链球菌cas9已被广泛用作基因组工程化的工具。该cas9蛋白是含有两个不同核酸酶结构域的大的多结构域蛋白。可将点突变引入cas9以消除核酸酶活性，产生仍保留其以sgrna编程方式结合dna的能力的死cas9(dcas9)。原则上，当与另一种蛋白质或结构域融合时，dcas9可以简单地通过与合适的sgrna共表达而将该蛋白质靶向几乎任何dna序列。
[0205]
本公开提供包含编码cas9蛋白的多核苷酸的核酸构建体，用于将外源核酸插入基因组的特定位点。本公开的一些方面提供包含本公开的cas9蛋白和修饰的整合酶或修饰的转座酶的融合蛋白。本公开的一些实施例提供编码此类cas9蛋白或融合蛋白的核酸。一些实施方案提供包含这种核酸的质粒或表达载体。
[0206]
由本文公开的核酸构建体编码的cas9可以是能够结合基因组中的特定基因组dna序列的任何cas9。cas9蛋白的非限制性实例包括人cas9(hcas9)、切口酶cas9(ncas9)、死cas9(dcas9)、酿脓链球菌cas9、金黄色葡萄球菌cas9、cas12a、cas12b、死cas9(dcas9)、其变体和功能片段。在一些实施方案中，所述cas9是人cas9或其变体或功能片段。
[0207]
在一些实施方案中，hcas9由与seq id no：64具有至少约70％，至少约75％，至少约80％，至少约85％，至少约90％，至少约95％，至少约96％，至少约97％，至少约98％，至少约99％或约100％序列同一性的核酸序列编码。在一些实施方案中，ncas9由与seq id no：65具有至少约70％，至少约75％，至少约80％，至少约85％，至少约90％，至少约95％，至少
约96％，至少约97％，至少约98％，至少约99％或约100％序列同一性的核酸序列编码。在一些实施方案中，dcas9由与seq id no：66具有至少约70％，至少约75％，至少约80％，至少约85％，至少约90％，至少约95％，至少约96％，至少约97％，至少约98％，至少约99％或约100％序列同一性的核酸序列编码。
[0208]
在一些实施方案中，hcas9包含与seq id no：69具有至少约70％，至少约75％，至少约80％，至少约85％，至少约90％，至少约95％，至少约96％，至少约97％，至少约98％，至少约99％或约100％序列同一性的氨基酸序列。在一些实施方案中，ncas9包含与seq id no：70具有至少约70％，至少约75％，至少约80％，至少约85％，至少约90％，至少约95％，至少约96％，至少约97％，至少约98％，至少约99％或约100％序列同一性的氨基酸序列。在一些实施方案中，dcas9包含与seq id no：71具有至少约70％，至少约75％，至少约80％，至少约85％，至少约90％，至少约95％，至少约96％，至少约97％，至少约98％，至少约99％或约100％序列同一性的氨基酸序列。
[0209]
本公开的某些方面涉及包含核酸构建体的载体或质粒(例如表达载体或包装载体)，所述核酸构建体包含适于在宿主细胞(例如哺乳动物细胞、酵母细胞、昆虫细胞、植物细胞、真菌细胞或藻类细胞)中表达的cas9。在一些实施方案中，核酸构建体包含编码cas9的多核苷酸序列，所述cas9表达为与本公开的修饰的转座酶的融合蛋白。
[0210]
ii.锌指蛋白
[0211]
本公开还提供了包含编码锌指蛋白(zfp)的多核苷酸的核酸构建体，用于将外源核酸插入基因组的特定位点。本公开的一些方面提供了包含本公开的zfp和修饰的整合酶或修饰的转座酶的融合蛋白。本公开的一些实施方案提供编码此类zfp或融合蛋白的核酸。本公开的一些实施方案提供包含此类编码核酸的质粒或表达载体。
[0212]
本文所用的锌指蛋白是可以序列特异性方式结合dna的蛋白。zfp在真核生物中不均匀分布。已经鉴定了参与dna识别、rna结合和蛋白质结合的zfp。考虑到折叠结构域中蛋白质主链的总体形状，锌指蛋白的某些分类基于“折叠基团”。最常见的锌指的“折叠基团”是c2h2或cys2his
2-样(“经典锌指”)、高音谱号和锌带。表征这些蛋白质的一类(c2h2类)的代表性基序是-cys-(x)2-4-cys-(x)12-his-(x)3-5-his(其中x是任何氨基酸)。
[0213]
本公开的zfp可以是能够结合基因组中的特定基因组dna序列的任何zfp、其变体或功能片段。zfp的非限制性实例包括包含折叠基团或锌指基序的zfp，选自c2h2，gag接头、高音谱号、锌带、zn2/cys6-样或taz2结构域样或其任何组合。在一些实施方案中，zfp是c2h2锌指蛋白。在一些实施方案中，zfp是工程化zfp。
[0214]
工程化的锌指阵列可与dna切割结构域(通常是foki的切割结构域)融合以产生锌指核酸酶。这种锌指-foki融合体已经成为操纵基因组的有用试剂。
[0215]
本公开的zfp可包含2、3、4、5、6、7、8、9、10、11、12个或更多个锌指结构域。zfp可包含2-12、2-10、2-8、3-8、4-8或5-8个锌指结构域。在一些实施方案中，zfp包含6个锌指结构域。
[0216]
常见的模块化组装方法包括将各自可识别3-碱基对dna序列的单独的锌指组合以产生识别长度为9个碱基对至18个碱基对的靶位点的3-指、4-、5-或6-指阵列。另一种方法使用2-指模块来产生具有多达6个单独锌指的锌指阵列。
[0217]
在一些实施方案中，zfp的结合结构域可以被工程化以结合至选择的序列。与天然
存在的zfp相比，工程化的锌指结合结构域可具有改进的结合特异性。在一些实施方案中，编码zfp的核酸序列对应于seq id no:32、seq id no:34、seq id no:36或seq id no:38。在一些实施方案中，zfp的氨基酸序列对应于seq id no:33、seq id no:35、seq id no:37或seq id no:39。在一些实施方案中，zfp包含与seq id no：33、35、37或39中的任一个具有至少约70％，至少约75％，至少约80％，至少约85％，至少约90％，至少约95％，至少约96％，至少约97％，至少约98％，至少约99％或约100％序列同一性的氨基酸序列。
[0218]
本公开的某些方面涉及包含核酸构建体的载体或质粒(例如，表达载体或包装载体)，所述核酸构建体包含适于在宿主细胞(例如，哺乳动物细胞、酵母细胞、昆虫细胞、植物细胞、真菌细胞或藻类细胞)中表达的zfp。在一些实施方案中，核酸构建体包含编码zfp的多核苷酸序列，所述zfp表达为与本公开的修饰的整合酶或修饰的转座酶的融合蛋白。
[0219]
vii.融合蛋白
[0220]
本公开提供用于将外源核酸位点特异性插入基因组的融合蛋白。在某些实施方案中，融合蛋白包含被工程化以结合特定基因组dna序列的第一dna结合蛋白，能够将外源核酸插入基因组的第二dna结合蛋白，其中第二dna结合蛋白是本公开的整合酶或转座酶，和连接第一和第二蛋白的接头。在一些实施方案中，第一dna结合蛋白是cas9蛋白或锌指蛋白。在一些实施方案中，第一dna结合蛋白是cas9，并且第二结合蛋白是本文公开的修饰的转座酶，其中第一和第二结合蛋白可以以任一顺序在构建体中定向。在一些实施方案中，第一dna结合蛋白是锌指蛋白，第二结合蛋白是修饰的整合酶，其中第一和第二结合蛋白可以以任一顺序在构建体中定向。
[0221]
在一些实施方案中，所述融合蛋白在所述第一结合蛋白和所述第二结合蛋白之间包含接头，其中所述接头包含(ggs)n、(ggggs)n(seq id no:133)、(g)n、(eaaak)n(seq id no:134)、基于xten的基序或(xp)n基序或这些中的任一个的组合，其中n独立地为1-50的整数。在一些实施方案中，接头为12-24个氨基酸，或由长度为36-72个核酸的核酸序列编码。在一些实施方案中，接头包含xten序列或ggs序列。在一些实施方案中，所述融合蛋白包含与本公开的修饰的整合酶连接的锌指蛋白，其中所述接头包含ggs序列或xten序列，并且其中所述修饰的整合酶可位于所述接头的5'或3'。在一些实施方案中，所述融合蛋白包含与本公开的修饰的转座酶连接的cas9蛋白，其中所述接头包含ggs序列或xten序列，并且其中所述修饰的转座酶可位于所述接头的5'或3'。在一些实施方案中，接头是表1中所示的接头。在一些实施方案中，接头包含seq id no：49的氨基酸序列。在一些实施方案中，接头包含选自下组的氨基酸序列：seq id no:49、seq id no:51、seq id no:53、seq id no:55、seq id no:57、seq id no:59、seq id no:61、seq id no:63或其任何组合。在一些实施方案中，接头由包含seq id no：48的核酸序列编码。在一些实施方案中，接头由包含选自下组的序列的核酸序列编码：seq id no:48、seq id no:50、seq id no:52、seq id no:54、seq id no:56、seq id no:58、seq id no:60、seq id no:62或其任何组合。
[0222]
表1：接头
[0223]
[0224][0225]
在一些实施方案中，第一dna结合蛋白的3'端通过接头连接至第二dna结合蛋白的5'端。在一些实施方案中，第二dna结合蛋白的3'端通过接头连接至第一dna结合蛋白的5'端。在一些实施方案中，cas9蛋白的3'端通过接头连接至转座酶的5'端。在一些实施方案中，cas9蛋白的5'端通过接头连接至转座酶的3'端。在一些实施方案中，3'锌指蛋白通过接头连接至整合酶的5'端。在一些实施方案中，5'锌指蛋白通过接头连接至整合酶的3'端。
[0226]
本文还提供了从本公开中提供的任何核酸构建体的表达获得的融合蛋白。
[0227]
viii.宿主细胞/生物体
[0228]
在一些实施方案中，本公开的核酸构建体在宿主细胞中表达。合适的宿主细胞包括但不限于真核和原核细胞和/或细胞系。此类宿主细胞或由此类细胞产生的细胞系的非限制性实例包括cos、cho(例如cho-s、cho-k1、cho-dg44、cho-duxb11、cho-dukx、chok1sv)、vero、mdck、wi38、v79、b14af28-g3、bhk、hak、ns0、sp2/0-ag14、hela、hek293(例如hek293-f、hek293-h、hek293-t)和perc6细胞以及昆虫细胞(如灰翅夜蛾(sf))或真菌细胞(如酵母属、毕赤酵母属和裂殖酵母属)。
[0229]
在一些实施方案中，宿主细胞来自微生物。可用于本文公开的某些方法的微生物包括例如细菌(例如大肠杆菌)、酵母(例如酿酒酵母)和植物。宿主细胞可以是原核细胞或真核细胞。在一些实施方案中，宿主细胞是真核细胞。合适的真核宿主细胞包括但不限于酵母细胞、昆虫细胞、植物细胞、真菌细胞和藻类细胞。
[0230]
在一些实施方案中，宿主细胞是感受态宿主细胞。在一些实施方案中，宿主细胞是天然感受态的。在一些实施方案中，例如通过使用氯化钙和热激的方法使宿主细胞具有感受态。所用细胞可以是任何感受态细胞，特别是真核细胞，特别是哺乳动物，例如人或动物。
al.j.trans.med.14(288):1-15(2016)；gersbach et al.acc.chem.res.47:2309-2318(2014)；chandrasegaran et al.cell gene ther.ins.3(1):33-41(2017)；wilson et al.649:353-363(2010)；zhao zhang,et al.mol ther nucleic acids.9:230
–
241(2017)；naldini l.embo mol med.11(3)(2019)；和naldini l,et al.hum gene ther.27(10):727-728(2016)，其各自通过引用并入本文。
[0237]
本公开提供编码用于将外源核酸插入基因组特定位点的融合蛋白的核酸构建体。本发明还提供用于将外源核酸插入基因组特定位点的融合蛋白。在一些实施方案中，用于插入的外源核酸的长度可以高达5kb，高达10kb，高达15kb，20kb，高达25kb，高达30kb，高达35kb或高达40kb。
[0238]
在另一个实施方案中，提供将位点特异性核酸插入基因组的方法。在一些实施方案中，所述方法包括使靶dna与本文所述的包含cas9和转座酶的任何融合蛋白接触。例如，在一些实施方案中，所述方法包括使dna与包含两个连接的多肽的融合蛋白接触：(i)cas9；和(ii)转座酶，其中所述活性cas9结合与所述dna(例如基因组dna)的区域杂交的grna。
[0239]
在一些实施方案中，所述方法包括使靶dna与本文所述的包含cas9和整合酶的任何融合蛋白接触。例如，在一些实施方案中，所述方法包括使dna与包含两个连接的多肽的融合蛋白接触：(i)cas9；和(ii)整合酶，其中所述活性cas9结合与所述dna(例如基因组dna)的区域杂交的grna。
[0240]
在一些实施方案中，所述方法包括使靶dna与本文所述的包含zfp和整合酶的任何融合蛋白接触。例如，在一些实施方案中，所述方法包括使dna与包含两个连接的多肽的融合蛋白接触：(i)zfp；和(ii)整合酶，其中活性zfp与dna(例如基因组dna)的区域杂交。
[0241]
在一些实施方案中，使用病毒载体(例如慢病毒颗粒)将融合蛋白递送至包含靶dna(例如基因组dna)的生物体和/或细胞。
[0242]
x.慢病毒包装
[0243]
已经描述了慢病毒包装的方法。参见grandchamp et al.9(6):1-13(2014)；voelkel et al.107(17):7805-7810(2010)；tan et al.80(4)1939-1948；li et al.9(8):1-9(2014)；m
á
t
é
s et al.nature genetics41(6):753-761(2009)；and robert h kutner1,et al.nature protocols 4(4):495(2009)，其每一个通过引用并入本文。
[0244]
典型地，慢病毒递送系统使用分离系统，其中单独质粒上的不同慢病毒基因用于产生不含引起病毒疾病所需遗传组分的完整病毒。例如，一种质粒(包膜质粒)可以编码病毒包膜(env)的蛋白质；另一种质粒(包装质粒)可以编码衣壳蛋白(例如gag和pol)和酶(如逆转录酶和/或整合酶)；和另一种质粒(转移质粒)，其包含侧翼为长末端重复序列(用于基因组整合)和psi
–
序列(其显示将基因包装到病毒中的信号)的目标基因(goi)。如果将这些质粒同时引入细胞，将产生含有goi而不含引起疾病所需的病毒基因的病毒。
[0245]
在本公开的某些方面，本发明的慢病毒载体(或颗粒)可通过分离系统，例如反式互补系统(载体/包装系统)，通过用含有慢病毒载体基因组某些组分的质粒和至少一种其它质粒体外转染容许细胞(例如293t细胞)获得，并且至少一种其它质粒以反式提供编码多肽gag、pol和包膜蛋白的gag、pol和env序列，或提供足以能够形成逆转录病毒颗粒的这些多肽的一部分。
[0246]
例如，用a)包含慢病毒gag和pol序列的包装质粒，b)包含编码包膜蛋白(如vsv-g)
的基因的第二质粒(包膜表达质粒或假型化env质粒)，c)包含5'和3'之间的ltr序列、psi衣壳化序列和转基因的质粒载体，和d)包含编码本文公开的工程化融合蛋白的核酸构建体的质粒载体转染宿主细胞。在一些实施方案中，编码本文公开的工程化融合蛋白的核酸构建体在包装质粒上而不是在单独质粒上。编码gag、pol和env cdna的核酸可有利地根据常规技术从现有技术和数据库中可获得的病毒基因序列制备。
[0247]
在一些实施方案中，慢病毒载体包含本文所述的核酸构建体。在一些实施方案中，慢病毒载体包含本文所述的融合蛋白。
[0248]
质粒中使用的启动子可以相同或不同。在一些实施方案中，在质粒反式互补系统中，分别促进外壳蛋白的gag和pol表达的包膜质粒和质粒载体、载体基因组的mrna和转基因是可以相同或不同的启动子。这样的启动子可以有利地选自普遍存在的启动子或特异性启动子，例如选自病毒启动子cmv、tk、rsv ltr启动子和rna聚合酶iii启动子(如u6或h1)或编码env、gag和pol的辅助病毒(即腺病毒、杆状病毒、疱疹病毒)的启动子。
[0249]
为了产生本公开的慢病毒载体，可将本文所述的质粒引入宿主细胞，并产生和收获病毒。合适的细胞包括但不限于真核和原核细胞和/或细胞系。此类细胞或由此类细胞产生的细胞系的非限制性实例包括例如cos、cho(例如cho-s、cho-k1、cho-dg44、cho-duxb11、cho-dukx、chok1sv)、vero、mdck、wi38、v79、b14af28-g3、bhk、hak、ns0、sp2/0-ag14、hela、hek293(例如hek293-f、hek293-h、hek293-t)和perc6细胞以及昆虫细胞(如灰翅夜蛾(sf))或真菌细胞如酵母属、毕赤酵母属和裂殖酵母属。
[0250]
一旦用质粒转染宿主细胞并产生本公开的慢病毒载体(或颗粒)，可以从细胞的上清液中纯化本公开的慢病毒载体(或颗粒)。可通过任何合适的方法，例如通过密度梯度纯化(例如氯化铯(cscl))、通过层析技术(例如柱或分批层析)或通过超速离心来实现慢病毒载体的纯化以提高浓度。例如，本发明的载体可以进行两个或三个cscl密度梯度纯化步骤。期望使用包括裂解细胞、将裂解物施加至色谱树脂、从色谱树脂洗脱病毒和收集含有本公开的慢病毒载体的级分的方法从感染的细胞纯化载体。
[0251]
xi.递送方法
[0252]
已描述了慢病毒载体的递送方法。参见例如vargas et al.j.trans.med.14(288):1-15(2016)；mali et al.nat.methods 10(10):957-963；m
á
t
é
s et al.nature genetics 41(6):753-761(2009)；skipper et al.20(92):1-23(2013)。
[0253]
包含由本公开的核酸构建体编码的融合蛋白的慢病毒载体可通过任何途径向受试者施用。在一些实施方案中，本公开的慢病毒载体可体内或离体递送至受试者的细胞。
[0254]
在一些实施方案中，本公开的慢病毒载体可以在体内递送。在一些实施方案中，包含由本公开的核酸构建体编码的融合蛋白的慢病毒载体可用于递送goi和/或靶向受试者dna中的遗传缺陷。在一些实施方案中，将慢病毒载体肠胃外，优选血管内(包括静脉内)向受试者施用。当肠胃外施用时，优选载体在适于注射的药物载体(如无菌水溶液或分散体)中给予。
[0255]
在一些实施方案中，本公开的慢病毒载体可以离体使用。
[0256]
在一些实施方案中，包含由本公开的核酸构建体编码的融合蛋白的慢病毒载体可用于递送goi和/或靶向受试者的dna中的遗传缺陷。在一些实施方案中，从受试者中取出细胞并将包含由本公开的核酸构建体编码的融合蛋白的慢病毒载体离体施用至细胞以修饰
细胞的dna。然后，将携带修饰的dna的细胞扩增并再输注回受试者。在某些实施方案中，包含由本公开的核酸构建体编码的融合蛋白的慢病毒载体可用于嵌合抗原受体(car)t细胞疗法以遗传修饰患者的自体t细胞以表达肿瘤抗原特异性car。在另一个实施方案中，将修饰的car-t细胞离体扩增并再输注回患者。在一些实施方案中，改变的t细胞更特异性地靶向癌细胞。与抗体疗法不同，car-t细胞能够在体内复制，导致长期持久性。
[0257]
在施用本公开的慢病毒载体或使用本公开的慢病毒载体离体修饰的细胞后，可监测受试者以检测转基因的表达。根据待治疗的病症或疾病单独确定治疗的剂量和持续时间。各种病症或疾病可以基于通过施用本发明载体中的目标基因产生的基因表达来治疗。使用本发明方法递送的载体的剂量将根据宿主和所用载体的所需反应而变化。
[0258]
在一些基因治疗应用中，希望基因治疗载体对特定组织类型具有高度特异性。因此，通过将配体表达为病毒外表面上具有病毒外壳蛋白的融合蛋白，可以修饰病毒载体以对给定细胞类型具有特异性。选择对已知存在于目标细胞类型上的受体具有亲和力的配体。
[0259]
本公开的某些方面涉及将外源核酸序列插入生物体的基因组dna中的方法，其包括：鉴定所述生物体的基因组中的特定基因组dna序列；向生物体施用包含本公开的核酸构建体的慢病毒颗粒以结合特定基因组dna序列并将外源核酸插入基因组dna中；其中所述外源核酸变得整合在所述特定基因组dna序列处。
[0260]
本公开的某些方面涉及将外源核酸序列的单拷贝或多拷贝受控位点特异性整合到细胞中的方法，所述方法包括：a)将本公开的核酸构建体、载体或融合蛋白递送至细胞，和b)将外源核酸递送至细胞；其中融合蛋白与细胞基因组中的特定基因组dna序列的结合导致基因组的切割和外源核酸的一个或多个拷贝整合到细胞基因组中。在一些方面，通过慢病毒颗粒递送至细胞。
[0261]
xii.使用/应用的方法
[0262]
可以使用几种策略来测试整合位点，并筛选用于定向整合的最佳机制。
[0263]
为了分析本文公开的修饰的整合酶和转座子，可以使用具有启动子、一半gfp编码序列和基因组中靶向插入位点下游的剪接位点供体的报告细胞系。例如，慢病毒有效负载可具有融合整合酶变体，随后是反向剪接位点受体和另一半gpf。当发生直接插入时，gfp的表达将发生，并且从插入位点产生的含有gfp的mrna的剪接和整合的有效负载源自完整的gfpcds。
[0264]
vpr反式互补系统也可用于筛选和比较整合突变体。反式互补系统可用于含有融合整合酶变体的慢病毒有效负载的靶向插入，当表达并加载到颗粒中时，所述变体促进其自身整合，将使用vpr融合体加载到病毒颗粒中。这将反式补足用于颗粒生产的包装载体中编码的整合缺陷in。可用于整合映射的其它方法包括ic或fish探针。也可通过tcrα或rfp靶向破坏，或通过靶向剪接位点整合的gfp活化来筛选靶向插入。
[0265]
对于fish方法共染色染色质中的插入和靶区域，可以进行荧光原位杂交以定位hek293t基因组中的goi转座子。可以用1)goi-转座子，2)可编程转座酶和3)grna将hek293t转染至ppp1r12。将探针设计成靶向ppp1r12基因、cd46基因(作为阴性对照)和goi，并且可以用切口翻译混合物(sigma)从pcr扩增的dna合成。
[0266]
在一些实施方案中，例如，如通过genetrap测定所测定，与包含相应野生型蛋白的
融合蛋白相比，包含本文公开的修饰的转座酶或修饰的整合酶的融合蛋白改进外源核酸插入基因组的特异性。在一些实施方案中，将hek293t细胞或任何其它允许细胞用慢病毒颗粒转染或转导，所述慢病毒颗粒具有以下质粒或有效负载：(i)包含靶向dna的特定区域的grna的质粒，(ii)包含编码修饰的转座酶融合蛋白或修饰的整合酶融合蛋白的本公开的核酸构建体的质粒，和(iii)包含编码缺乏启动子的报告蛋白(例如gfp)的核酸序列的基因捕获质粒。在一些实施方案中，基因捕获质粒还包含具有反向重复序列的转座子。
[0267]
在一些实施方案中，含有gfp插入的细胞的百分比可以通过流式细胞术测定。在一些实施方案中，与相应的野生型蛋白相比，可编程转座酶融合蛋白使含有gfp插入的细胞百分比增加至少5％，至少10％，至少15％，至少20％，至少25％或至少30％。在一些实施方案中，可编程转座酶融合蛋白使含有gfp插入的细胞的百分比增加约15-30％。
[0268]
在一些实施方案中，靶位点处的插入百分比和靶位点处的覆盖(每个插入位点的读长数)百分比可以通过基因组dna提取和用对病毒ltr特异的寡核苷酸的靶向测序来测定。在一些实施方案中，与相应的野生型蛋白相比，修饰的转座酶融合蛋白使靶位点处的插入百分比增加至少10倍，至少20倍，至少30倍，至少40倍，至少50倍，至少60倍，至少70倍，至少80倍，至少90倍或至少100倍。在一些实施方案中，靶位点处的插入百分比增加约10-100倍。在一些实施方案中，与相应的野生型蛋白质相比，修饰的转座酶融合蛋白使靶位点处的覆盖(每个插入位点的读长数)增加至少10倍，至少20倍，至少30倍，至少40倍，至少50倍，至少60倍，至少70倍，至少80倍，至少90倍，至少100倍，至少110倍，至少120倍，至少130倍，至少140倍，至少150倍，至少160倍，至少170倍，至少180倍，至少190倍或至少200倍。在一些实施方案中，靶位点处的覆盖(每个插入位点的读长数)百分比增加至少100倍。
[0269]
在一些实施方案中，如通过gfp整合所定量，与相应的野生型蛋白相比，修饰的整合酶融合蛋白改进将外源核酸插入基因组的特异性。在一些实施方案中，通过用(i)含有编码gfp的核酸序列的质粒，(ii)含有包装蛋白的质粒，(iii)含有包膜蛋白的质粒，和(iv)含有编码修饰的整合酶融合蛋白的核酸构建体的质粒转染hek293t细胞或任何其它允许细胞来产生含有修饰的整合酶融合蛋白的慢病毒。转染后48小时收集含有慢病毒的上清液。
[0270]
为了靶向插入，用含有修饰的整合酶融合蛋白的慢病毒感染hek293t细胞。在一些实施方案中，在感染后3、5、7、10和12天通过流式细胞术定量gfp阳性细胞的百分比。在一些实施方案中，与相应的野生型蛋白相比，修饰的整合酶融合蛋白使含有gfp插入的细胞百分比增加至少5％，至少10％，至少15％，至少20％，至少25％或至少30％。
[0271]
在一些实施方案中，靶位点处的插入百分比和靶位点处的覆盖(每个插入位点的读长数)百分比可以通过基因组dna提取和用对病毒插入的ltr具有特异性的寡核苷酸的靶向测序来确定。在一些实施方案中，与相应的野生型蛋白相比，修饰的整合酶融合蛋白将靶位点处的插入百分比增加至少10倍，至少20倍，至少30倍，至少40倍，至少50倍，至少60倍，至少70倍，至少80倍，至少90倍或至少100倍。在一些实施方案中，与相应的野生型蛋白质相比，修饰的整合酶融合蛋白使靶位点的覆盖(每个插入位点的读长数)增加至少10倍，至少20倍，至少30倍，至少40倍，至少50倍，至少60倍，至少70倍，至少80倍，至少90倍，至少100倍，至少110倍，至少120倍，至少130倍，至少140倍，至少150倍，至少160倍，至少170倍，至少180倍，至少190倍或至少200倍。
[0272]
包含本公开的融合蛋白的慢病毒载体的可能应用包括基因治疗，即在任何哺乳动
物细胞，特别是人细胞中的基因转移。它可以是分裂细胞或静止细胞，属于中枢器官或外周器官(如肝、胰腺、肌肉、心脏等)的细胞。基因治疗可允许蛋白质(如神经营养因子、酶、转录因子、受体等)的表达。根据本发明的慢病毒载体也可特别适用于研究目的。
[0273]
在一些实施方案中，向受试者施用本公开的核酸构建体、融合蛋白和/或慢病毒载体以治疗疾病。在一些实施方案中，所述疾病是可受益于基因治疗的遗传病症。
[0274]
在一些实施方案中，包含根据本公开的融合蛋白的慢病毒载体可用作药物。根据本公开的慢病毒载体可特别适用于治疗受试者的遗传疾病。
[0275]
xiii.组合物和试剂盒
[0276]
本公开还提供用于实践如本文所述的公开的方法的组合物。在一些实施方案中，组合物包含如本公开中所定义的核酸构建体或载体，以及编码用于插入基因组中的外源核酸的多核苷酸序列，其包含在包装载体中或结合至包装载体。
[0277]
在一些实施方案中，取决于递送方法，核酸构建体是rna、dna或蛋白质的形式，并且编码外源核酸的多核苷酸序列是rna或dna的形式。特别地，编码外源核酸的多核苷酸序列是rna形式。
[0278]
在一些实施方案中，组合物是无病毒的，并且包装载体是纳米颗粒，例如聚合物纳米颗粒或脂质纳米颗粒。包装载体也可以是与组合物的成分结合的载体。在一些实施方案中，所述组合物包含在病毒载体，特别是慢病毒颗粒中。
[0279]
在一些实施方案中，所述组合物包含(a)rna形式的本文所述的核酸构建体(例如包含cas9和转座酶)，(b)向导rna(如果需要)(例如作为单独的线性单链rna分子)，和(c)包含用于以dna形式(例如在载体中)插入的外源基因的多核苷酸，其包含在包装载体中或结合至包装载体。
[0280]
在一些实施方案中，所述组合物包含(a)蛋白质形式的本文所述的融合蛋白(例如包含cas9和转座酶)，(b)向导rna(如果需要)(例如作为单独的线性单链rna分子)，其中所述融合蛋白和所述向导rna形成核糖核酸蛋白复合物(rnp)，和(c)包含用于以dna形式(例如在载体中)插入的外源基因的多核苷酸，其包含在包装载体中或结合至包装载体。
[0281]
在一些实施方案中，所述组合物包含(a)dna形式的本文所述的核酸构建体(例如包含cas9和转座酶)，(b)向导rna(如果需要)(例如作为单独的线性rna分子或作为载体中的dna)，和(c)包含用于以dna形式(例如在载体中)插入的外源基因的多核苷酸，其包含在包装载体中或结合至包装载体。
[0282]
在一些实施方案中，组合物包含(a)蛋白质形式的本文所述的融合蛋白(例如包含cas9和整合酶)，(b)向导rna(如果需要)(例如作为与融合蛋白复合的单独rna分子)，和(c)包含用于插入的外源基因的多核苷酸，其包含在包装载体中或结合至包装载体。在一个具体实施方案中，包装载体是慢病毒颗粒。在一些实施方案中，(a)融合蛋白通过gag-pol或vpr(病毒蛋白r)与慢病毒衣壳结合。在一些实施方案中，(c)多核苷酸是作为整合酶有效负载的rna形式。
[0283]
在一个具体实施方案中，当使用zfp时，(b)可以不需要向导rna。
[0284]
本公开还提供用于实施如本文所述的公开的方法的试剂盒。试剂盒可含有本文所述的核酸构建体或融合蛋白。在一些方面，试剂盒可包含含有本文所述的核酸构建体或融合蛋白的慢病毒颗粒。
[0285]
本发明试剂盒还可包括使用试剂盒组分实施本发明方法的说明书。用于实践主题方法的说明书通常记录在合适的记录介质上。例如，说明书可以印刷在基底上，例如纸张或塑料等。因此，说明书可以作为包装插页存在于试剂盒中、存在于试剂盒或其组分的容器的标签中(即，与包装或子包装相关联)等。在其他实施方案中，说明书作为存在于合适的计算机可读存储介质(例如cd-rom、磁盘等)上的电子存储数据文件存在。在其他实施方案中，实际的说明书不存在于试剂盒中，但是提供用于例如经由因特网从远程源获得说明书的装置。该实施方案的一个实例是包括网址的试剂盒，其中可以查看说明书和/或可以从其中下载说明书。与说明书一样，用于获得说明书的装置记录在合适的基底上。
[0286]
xiv.实施方案
[0287]
e1.核酸构建体，其包含：
[0288]
a)第一多核苷酸序列，其编码第一dna结合蛋白，所述第一dna结合蛋白被工程化以结合基因组中的特定基因组dna序列；
[0289]
b)第二多核苷酸序列，其编码第二dna结合蛋白，所述第二dna结合蛋白能够将外源核酸插入基因组中，其中所述第二dna结合蛋白是(i)相对于野生型整合酶经修饰的整合酶或(ii)相对于野生型转座酶经修饰的转座酶；和
[0290]
c)第三多核苷酸序列，其包含编码接头的核酸；
[0291]
其中所述核酸构建体编码融合蛋白，所述融合蛋白包含所述第一dna结合蛋白、所述第二dna结合蛋白和所述第一dna结合蛋白与所述第二dna结合蛋白之间的接头。
[0292]
e2.实施方案e1的核酸构建体，其中与相应的野生型蛋白相比，修饰第二dna结合蛋白以改进将外源核酸插入基因组的特异性。
[0293]
e3.实施方案e1或e2的核酸构建体，其中用于插入的外源核酸的长度可以高达约20kb。
[0294]
e4.实施方案e1或e3中任一项的核酸构建体，其中所述第一多核苷酸序列编码选自下组的蛋白质：锌指蛋白、cas9蛋白、以及其任何变体或功能片段。
[0295]
e5.实施方案e4的核酸构建体，其中所述cas9蛋白选自下组：人cas9、切口酶cas9、酿脓链球菌cas9、金黄色葡萄球菌cas9、cas12a、cas12b和死cas9。
[0296]
e6.实施方案e4的核酸构建体，其中所述锌指蛋白是c2h2锌指蛋白。
[0297]
e7.实施方案e1-e6中任一项的核酸构建体，其中所述修饰的整合酶是修饰的人免疫缺陷病毒(hiv)整合酶或其功能片段。
[0298]
e8.实施方案e7的核酸构建体，其中所述修饰的hiv整合酶包含对应于野生型hiv整合酶序列(seq id no：1)的氨基酸编号的一个或多个氨基酸的突变：10、13、64、94、116、117、119、120、122、124、128、152、168、170、185、231、264、266或273。
[0299]
e9.实施方案e8的核酸构建体，其中所述修饰的hiv整合酶突变包含对应于野生型hiv整合酶序列(seq id no：1)的氨基酸编号的一个或多个：d10k、e13k、d64a、d64e、g94d、g94e、g94r、g94k、d116a、d116e、n117d、n117e、n117r、n117k、s119a、s119p、s119t、s119g、s119d、s119e、s119r、s119k、n120d、n120e、n120r、n120k、t122k、t122i、t122v、t122a、t122r、a124d、a124e、a124r、a124k、a128t、e152a、e152d、q168l、q168a、e170g、f185k、r231g、r231k、r231d、r231e、r231s、k264r、k266r或k273r。
[0300]
e10.实施方案e7-e9中任一项的核酸构建体，其中所述修饰的hiv整合酶包含与
seq id no：3所示序列至少85％，至少90％或至少95％相同的氨基酸序列。
[0301]
e11.实施方案e1-e6中任一项的核酸构建体，其中所述修饰的转座酶选自下组：修饰的青蛙王子、修饰的睡美人、修饰的超活性睡美人(sb100x)、修饰的piggybac、修饰的超活性piggybac及其任何功能片段。
[0302]
e12.实施方案e11的核酸构建体，其中所述修饰的转座酶是修饰的超活性piggybac或其功能片段。
[0303]
e13.实施方案e12的核酸构建体，其中所述修饰的超活性piggybac包含对应于所述超活性piggybac序列(seq id no：9)的氨基酸编号的一个或多个氨基酸的突变：245、268、275、277、287、290、315、325、341、346、347、350、351、356、357、372、375、388、409、412、432、447、450、460、461、465、517、560、564、571、573、576、586、587、589、592和594。
[0304]
e14.实施方案e13的核酸构建体，其中所述修饰的超活性piggybac突变包含对应于所述超活性piggybac序列(seq id no：9)的氨基酸编号的一个或多个：r245a、d268n、r275a/r277a、k287a、k290a、k287a/k290a、r315a、g325a、r341a、d346n、n347a、n347s、t350a、s351e、s351p、s351a、k356e、n357a、r372a、k375a、r372a/k375a、r388a、k409a、k412a、k409a/k412a、k432a、d447a、d447n、d450n、r460a、k461a、r460a/k461a、w465a、s517a、t560a、s564p、s571n、s573a、k576a、h586a、i587a、m589v、s592g或f594l。
[0305]
e15.实施方案e12-e14中任一项的核酸构建体，其中所述修饰的超活性piggybac包含与seq id no：10所示序列至少85％，至少90％或至少95％相同的氨基酸序列。
[0306]
e16.实施方案e1-e15中任一项的核酸构建体，其中所述接头包含xten序列或ggs序列。
[0307]
e17.实施方案e1-e16中任一项的核酸构建体，其中编码所述接头的序列长度为约9至约150个核酸。
[0308]
e18.实施方案e1-e17中任一项的核酸构建体，其中所述第一多核苷酸序列的3'端通过所述核酸接头连接至所述第二多核苷酸的5'端。
[0309]
e19.实施方案e1-e17中任一项的核酸构建体，其中所述第二多核苷酸序列的3'端通过所述核酸接头连接至所述第一多核苷酸序列的5'端。
[0310]
e20.包含实施方案e1-e19中任一项的核酸构建体的载体，其中所述表达载体适于在哺乳动物细胞、酵母细胞、昆虫细胞、植物细胞、真菌细胞或藻类细胞中表达。
[0311]
e21.实施方案e1的核酸构建体，其中：
[0312]
a)第一多核苷酸序列编码cas9蛋白；和
[0313]
b)第二多核苷酸序列编码修饰的转座酶，所述转座酶是修饰的超活性piggybac或其功能片段。
[0314]
e22.实施方案e21的核酸构建体，其中所述cas9蛋白选自下组：人cas9、切口酶cas9、酿脓链球菌cas9、金黄色葡萄球菌cas9、cas12a、cas12b和死cas9。
[0315]
e23.实施方案e21或e22中任一项的核酸构建体，其中所述修饰的超活性piggybac包含对应于所述超活性piggybac序列(seq id no：9)的氨基酸编号的一个或多个氨基酸的突变：245、268、275、277、287、290、315、325、341、346、347、350、351、356、357、372、375、388、409、412、432、447、450、460、461、465、517、560、564、571、573、576、586、587、589、592和594。
[0316]
e24.实施方案e23的核酸构建体，其中所述修饰的超活性piggybac突变包含对应
于所述超活性piggybac序列(seq id no：9)的氨基酸编号的一个或多个：r245a、d268n、r275a/r277a、k287a、k290a、k287a/k290a、r315a、g325a、r341a、d346n、n347a、n347s、t350a、s351e、s351p、s351a、k356e、n357a、r372a、k375a、r372a/k375a、r388a、k409a、k412a、k409a/k412a、k432a、d447a、d447n、d450n、r460a、k461a、r460a/k461a、w465a、s517a、t560a、s564p、s571n、s573a、k576a、h586a、i587a、m589v、s592g或f594l。
[0317]
e25.实施方案e21或e22中任一项的核酸构建体，其中所述修饰的超活性piggybac包含与seq id no：10所示序列至少85％，至少90％或至少95％相同的氨基酸序列。
[0318]
e26.实施方案e21-e25中任一项的核酸构建体，其中编码所述接头的核酸包含xten序列或ggs序列。
[0319]
e27.实施方案e21-e26任一项的核酸构建体，其中编码接头的序列长度为9-150个核酸。
[0320]
e28.实施方案e22-e27中任一项的核酸构建体，其中第二多核苷酸序列的3'端通过接头连接至第一多核苷酸序列的5'端。
[0321]
e29.实施方案e1的核酸构建体，其中：
[0322]
a)第一多核苷酸序列编码锌指蛋白；并且
[0323]
b)第二多核苷酸序列编码修饰的整合酶或其功能片段。
[0324]
e30.实施方案e29的核酸构建体，其中所述锌指蛋白是c2h2锌指蛋白。
[0325]
e31.实施方案e29或e30中任一个的核酸构建体，其中所述修饰的整合酶是修饰的人免疫缺陷病毒(hiv)整合酶或其功能片段。
[0326]
e32.实施方案e31的核酸构建体，其中所述修饰的hiv整合酶包含对应于野生型hiv整合酶序列(seq id no：1)的氨基酸编号的一个或多个氨基酸的突变：10、13、64、94、116、117、119、120、122、124、128、152、168、170、185、231、264、266或273。
[0327]
e33.实施方案e32的核酸构建体，其中所述修饰的hiv整合酶突变包含对应于野生型hiv整合酶序列(seq id no：1)的氨基酸编号的一个或多个：d10k、e13k、d64a、d64e、g94d、g94e、g94r、g94k、d116a、d116e、n117d、n117e、n117r、n117k、s119a、s119p、s119t、s119g、s119d、s119e、s119r、s119k、n120d、n120e、n120r、n120k、t122k、t122i、t122v、t122a、t122r、a124d、a124e、a124r、a124k、a128t、e152a、e152d、q168l、q168a、e170g、f185k、r231g、r231k、r231d、r231e、r231s、k264r、k266r或k273r。
[0328]
e34.实施方案e31-e33任一项的核酸构建体，其中所述修饰的hiv整合酶包含与seq id no：3所示序列至少85％，至少90％或至少95％相同的氨基酸序列。
[0329]
e35.实施方案e29-e34中任一项的核酸构建体，其中所述接头包含xten序列或ggs序列。
[0330]
e36.实施方案e29-e35中任一项的核酸构建体，其中编码所述接头的序列长度为9-150个核酸。
[0331]
e37.实施方案e29-e37中任一项的核酸构建体，其中第二多核苷酸序列的3'端通过接头连接至第一多核苷酸序列的5'端。
[0332]
e38.包含实施方案e21-e37中任一项的核酸构建体的载体，其中所述表达载体适于在哺乳动物细胞、酵母细胞、昆虫细胞、植物细胞、真菌细胞或藻类细胞中表达。
[0333]
e39.宿主细胞，其包含实施方案e1-e38中任一项的核酸构建体或载体。
[0334]
e40.融合蛋白，其包含：
[0335]
第一dna结合蛋白，其被工程化以结合基因组中的特定基因组dna序列；
[0336]
第二dna结合蛋白，其能够将外源核酸插入基因组中，其中所述第二dna结合蛋白是相对于野生型经修饰的整合酶或转座酶；和
[0337]
连接第一蛋白质和第二蛋白质的接头。
[0338]
e41.实施方案e40的融合蛋白，其中与相应的野生型蛋白相比，修饰第二dna结合蛋白以改进将外源核酸插入基因组的特异性。
[0339]
e42.实施方案e40或e41中任一项的融合蛋白，其中所述外源核酸的长度可高达约20kb。
[0340]
e43.实施方案e40-e42中任一项的融合蛋白，其中所述第一dna结合蛋白选自下组：锌指蛋白、cas9蛋白和其任何变体或功能片段部分。
[0341]
e44.实施方案e43的融合蛋白，其中所述cas9蛋白选自下组：人cas9、切口酶cas9、酿脓链球菌cas9、金黄色葡萄球菌cas9、cas12a、cas12b和死cas9。
[0342]
e45.实施方案e43的融合蛋白，其中锌指蛋白是c2h2锌指蛋白。
[0343]
e46.实施方案e40-e45任一项的融合蛋白，其中修饰的整合酶是修饰的人免疫缺陷病毒(hiv)整合酶或其功能片段。
[0344]
e47.实施方案e46的融合蛋白，其中所述修饰的hiv整合酶包含对应于野生型hiv整合酶序列(seq id no：1)的氨基酸编号的一个或多个氨基酸的突变：10、13、64、94、116、117、119、120、122、124、128、152、168、170、185、231、264、266或273。
[0345]
e48.实施方案e47的融合蛋白，其中所述修饰的hiv整合酶突变包含对应于野生型hiv整合酶序列(seq id no：1)的氨基酸编号的一个或多个：d10k、e13k、d64a、d64e、g94d、g94e、g94r、g94k、d116a、d116e、n117d、n117e、n117r、n117k、s119a、s119p、s119t、s119g、s119d、s119e、s119r、s119k、n120d、n120e、n120r、n120k、t122k、t122i、t122v、t122a、t122r、a124d、a124e、a124r、a124k、a128t、e152a、e152d、q168l、q168a、e170g、f185k、r231g、r231k、r231d、r231e、r231s、k264r、k266r或k273r。
[0346]
e49.实施方案e46-e48任一项的融合蛋白，其中修饰的hiv整合酶包含与seq id no：3所示序列至少85％，至少90％或至少95％相同的氨基酸序列。
[0347]
e50.实施方案e40-e45任一实施方案的融合蛋白，其中所述修饰的转座酶选自下组：修饰的青蛙王子、修饰的睡美人、修饰的超活性睡美人(sb100x)、修饰的piggybac、修饰的超活性piggybac及其任何功能片段。
[0348]
e51.实施方案e50的融合蛋白，其中修饰的转座酶是修饰的超活性piggybac或其功能片段。
[0349]
e52.实施方案e51的融合蛋白，其中所述修饰的超活性piggybac包含对应于所述超活性piggybac序列(seq id no：9)的氨基酸编号的一个或多个氨基酸的突变：245、268、275、277、287、290、315、325、341、346、347、350、351、356、357、372、375、388、409、412、432、447、450、460、461、465、517、560、564、571、573、576、586、587、589、592和594。
[0350]
e53.实施方案e52的融合蛋白，其中所述修饰的超活性piggybac突变包含对应于所述超活性piggybac序列(seq id no：9)的氨基酸编号的一个或多个：r245a、d268n、r275a/r277a、k287a、k290a、k287a/k290a、r315a、g325a、r341a、d346n、n347a、n347s、
t350a、s351e、s351p、s351a、k356e、n357a、r372a、k375a、r372a/k375a、r388a、k409a、k412a、k409a/k412a、k432a、d447a、d447n、d450n、r460a、k461a、r460a/k461a、w465a、s517a、t560a、s564p、s571n、s573a、k576a、h586a、i587a、m589v、s592g或f594l。
[0351]
e54.实施方案e50-e53中任一个的融合蛋白，其中所述修饰的超活性piggybac包含与seq id no：10所示序列至少85％，至少90％或至少95％相同的氨基酸序列。
[0352]
e55.实施方案e40-e54中任一个的融合蛋白，其中所述接头包含xten序列或ggs序列。
[0353]
e56.实施方案e40-e55中任一个的融合蛋白，其中接头长度为3-50个氨基酸。
[0354]
e57.实施方案e40的融合蛋白，其中：
[0355]
a)所述第一dna结合蛋白是cas9蛋白；并且
[0356]
b)所述第二dna结合蛋白是修饰的超活性piggybac或其功能片段。
[0357]
e58.实施方案e57的融合蛋白，其中所述cas9蛋白选自下组：人cas9、切口酶cas9、酿脓链球菌cas9、金黄色葡萄球菌cas9、cas12a、cas12b和死cas9。
[0358]
e59.实施方案e57或e58中任一项的融合蛋白，其中所述修饰的超活性piggybac包含对应于所述超活性piggybac序列(seq id no：9)的氨基酸编号的一个或多个氨基酸的突变：245、268、275、277、287、290、315、325、341、346、347、350、351、356、357、372、375、388、409、412、432、447、450、460、461、465、517、560、564、571、573、576、586、587、589、592和594。
[0359]
e60.实施方案e59的融合蛋白，其中所述修饰的超活性piggybac突变包含对应于所述超活性piggybac序列(seq id no：9)的氨基酸编号的一个或多个：r245a、d268n、r275a/r277a、k287a、k290a、k287a/k290a、r315a、g325a、r341a、d346n、n347a、n347s、t350a、s351e、s351p、s351a、k356e、n357a、r372a、k375a、r372a/k375a、r388a、k409a、k412a、k409a/k412a、k432a、d447a、d447n、d450n、r460a、k461a、r460a/k461a、w465a、s517a、t560a、s564p、s571n、s573a、k576a、h586a、i587a、m589v、s592g或f594l。
[0360]
e61.实施方案e57-e60中任一项的融合蛋白，其中修饰的超活性piggybac包含与seq id no：10所示序列至少85％，至少90％或至少95％相同的氨基酸序列。
[0361]
e62.实施方案e40的融合蛋白，其中：
[0362]
a)第一dna结合蛋白是锌指蛋白；并且
[0363]
b)第二dna结合蛋白是修饰的整合酶或其功能片段。
[0364]
e63.实施方案e62的融合蛋白，其中锌指蛋白是c2h2锌指蛋白。
[0365]
e64.实施方案e62或e63中任一项的融合蛋白，其中所述修饰的整合酶是经修饰的人免疫缺陷病毒(hiv)整合酶或其功能片段。
[0366]
e65.实施方案e64的融合蛋白，其中所述修饰的hiv整合酶包含对应于野生型hiv整合酶序列(seq id no：1)的氨基酸编号的一个或多个氨基酸的突变：10、13、64、94、116、117、119、120、122、124、128、152、168、170、185、231、264、266或273。
[0367]
e66.实施方案e65的融合蛋白，其中所述修饰的hiv整合酶突变包含对应于野生型hiv整合酶序列(seq id no：1)的氨基酸编号的一个或多个：d10k、e13k、d64a、d64e、g94d、g94e、g94r、g94k、d116a、d116e、n117d、n117e、n117r、n117k、s119a、s119p、s119t、s119g、s119d、s119e、s119r、s119k、n120d、n120e、n120r、n120k、t122k、t122i、t122v、t122a、t122r、a124d、a124e、a124r、a124k、a128t、e152a、e152d、q168l、q168a、e170g、f185k、
r231g、r231k、r231d、r231e、r231s、k264r、k266r或k273r。
[0368]
e67.实施方案e62的融合蛋白，其中修饰的hiv整合酶包含与seq id no：3所示序列至少85％，至少90％或至少95％相同的氨基酸序列。
[0369]
e68.实施方案e57-e67中任一项的融合蛋白，其中所述接头包含xten序列或ggs序列。
[0370]
e69.实施方案e57-e68中任一项的融合蛋白，其中所述接头长度为3-50个氨基酸。
[0371]
e70.实施方案e40-e69中任一个的融合蛋白，其中第二dna结合蛋白的3'端通过接头连接至第一dna结合蛋白的5'端。
[0372]
e71.慢病毒颗粒，其包含实施方案e40-e69任一项的融合蛋白。
[0373]
e72.生产用于基因编辑的慢病毒颗粒的方法，包括在宿主细胞中表达：
[0374]
a)包含实施方案e1-e38中任一项的核酸构建体的多核苷酸；和
[0375]
b)编码慢病毒包膜蛋白的多核苷酸。
[0376]
e73.实施方案e72的方法，其还包括表达c)包含所述外源核酸的多核苷酸序列。
[0377]
e74.实施方案e72或e73任一项的方法，其中包含核酸构建体的多核苷酸进一步包含编码慢病毒衣壳蛋白的核酸序列。
[0378]
e75.实施方案e72-e74中任一项的方法，其还包括从宿主细胞回收慢病毒颗粒。
[0379]
e76.实施方案e72-e75中任一项的方法，其还包括纯化慢病毒颗粒。
[0380]
e77.将外源核酸序列插入生物体的基因组dna中的方法，包括：向生物体施用包含实施方案e1-e38中任一项的核酸构建体或实施方案e40-e71中任一项的融合蛋白的慢病毒颗粒，使得第一和第二dna结合蛋白结合特定基因组dna序列并将外源核酸插入基因组dna中；其中所述外源核酸变得整合在所述特定基因组dna序列处。
[0381]
e78.用于将外源核酸序列的单拷贝或多拷贝受控位点特异性整合到细胞中的方法，所述方法包括：
[0382]
a)将实施方案e40-e71中任一项的融合蛋白递送至所述细胞，和
[0383]
b)将所述外源核酸递送至所述细胞；
[0384]
其中所述融合蛋白与所述细胞的基因组中的所述特定基因组dna序列的结合导致所述基因组的切割和所述外源核酸的一个或多个拷贝整合到所述细胞的基因组中；并且其中所述融合蛋白通过慢病毒颗粒递送至所述细胞。
[0385]
e79.核酸构建体，其包含：
[0386]
a)第一多核苷酸序列，其包含编码第一dna结合蛋白的核酸，所述第一dna结合蛋白被工程化以结合基因组中的特定基因组dna序列；其中所述第一dna结合蛋白是锌指蛋白或cas9蛋白；
[0387]
b)第二多核苷酸序列，其包含编码第二dna结合蛋白的核酸，所述第二dna结合蛋白能够将外源核酸插入基因组中，其中所述第二dna结合蛋白是
[0388]
(i).超活性piggybac转座酶，或与超活性piggybac转座酶相比具有改进的将外源核酸插入基因组的特异性的修饰的超活性piggybac转座酶，或
[0389]
(ii).人免疫缺陷病毒(hiv)整合酶，或与hiv整合酶相比具有改进的将外源核酸插入基因组的特异性的修饰的hiv整合酶；以及
[0390]
c)任选的多核苷酸序列，其包含编码接头的核酸；
[0391]
其中所述核酸构建体编码融合蛋白，所述融合蛋白包含所述第一dna结合蛋白、所述第二dna结合蛋白和所述第一dna结合蛋白与所述第二dna结合蛋白之间的任选的接头；并且
[0392]
其中所述融合蛋白能够将所述外源核酸插入所述基因组的特异性位点。
[0393]
e80.实施方案e79的核酸构建体，其中所述cas9蛋白选自下组：人cas9、切口酶cas9和死cas9。
[0394]
e81.实施方案e79的核酸构建体，其中所述锌指蛋白是包含6个结构域的c2h2锌指蛋白。
[0395]
e82.实施方案e79-e81中任一项的核酸构建体，其中所述接头包含xten序列或ggs序列。
[0396]
e83.实施方案e79-e82中任一项的核酸构建体，其中所述第一多核苷酸序列的3'端连接至所述第二多核苷酸的5'端。
[0397]
e84.实施方案e79-e83中任一项的核酸构建体，其中：(a)所述第一dna结合蛋白是cas9蛋白或锌指蛋白，和(b)所述第二dna结合蛋白是超活性piggybac转座酶或与所述超活性piggybac相比具有改进的将外源核酸插入基因组中的特异性的修饰的超活性piggybac，其中所述核酸构建体包含(c)多核苷酸序列，所述多核苷酸序列包含编码接头的核酸，所述接头包含xten序列或ggs序列，并且其中第一多核苷酸序列的3'末端连接至第二多核苷酸的5'末端。
[0398]
e85.实施方案e79-e83中任一项的核酸构建体，其中：(a)所述第一dna结合蛋白是cas9蛋白或锌指蛋白，和(b)所述第二dna结合蛋白是hiv整合酶或与hiv整合酶相比具有改进的将外源核酸插入基因组中的特异性的修饰的hiv整合酶，其中所述核酸构建体包含(c)多核苷酸序列，所述多核苷酸序列包含编码接头的核酸，所述接头包含xten序列或ggs序列，并且其中第一多核苷酸序列的3'末端连接至第二多核苷酸的5'末端。
[0399]
e86.实施方案e79-e84中任一项的核酸构建体，其中所述修饰的超活性piggybac转座酶包含对应于所述超活性piggybac的氨基酸序列seq id no：9的一个或多个氨基酸突变：245、268、275、277、287、290、315、325、341、346、347、350、351、356、357、372、375、388、409、412、432、447、450、460、461、465、517、560、564、571、573、576、586、587、589、592和594。
[0400]
e87.实施方案e86的核酸构建体，其中所述修饰的超活性piggybac转座酶突变包含选自以下的对应于所述超活性piggybac的氨基酸序列seq id no：9的一个或多个氨基酸修饰：r245a、d268n、r275a/r277a、k287a、k290a、k287a/k290a、r315a、g325a、r341a、d346n、n347a、n347s、t350a、s351e、s351p、s351a、k356e、n357a、r372a、k375a、r372a/k375a、r388a、k409a、k412a、k409a/k412a、k432a、d447a、d447n、d450n、r460a、k461a、r460a/k461a、w465a、s517a、t560a、s564p、s571n、s573a、k576a、h586a、i587a、m589v、s592g或f594l。
[0401]
e88.实施方案e79-e84中任一项的核酸构建体，其中所述修饰的超活性piggybac转座酶突变包含对应于所述超活性piggybac的氨基酸序列seq id no：9的一个或多个氨基酸的突变：245、275、277、325、347、351、372、375、388、450、465、560、564、573、589、592、594。
[0402]
e89.实施方案e88的核酸构建体，其中所述修饰的超活性piggybac转座酶突变包含选自以下的对应于所述超活性piggybac的氨基酸序列seq id no：9的一个或多个氨基酸
修饰：r245a、r275a、r277a、r275a/r277a、g325a、n347a、n347s、s351e、s351p、s351a、r372a、k375a、r388a、d450n、w465a、t560a、s564p、s573a、m589v、s592g或f594l。
[0403]
e90.实施方案e88的核酸构建体，其中所述修饰的超活性piggybac转座酶包含氨基酸序列seq id no：9，其中：第245位的氨基酸是a，第275位的氨基酸是r或a，第277位的氨基酸是r或a，第325位的氨基酸是a或g，第347位的氨基酸是n或a，第351位的氨基酸是e、p或a，第372位的氨基酸是r，第375位的氨基酸是a，第450位的氨基酸是d或n，第465位的氨基酸是w或a，第560位的氨基酸是t或a，第564位的氨基酸是p或s，第573位的氨基酸是s或a，第592位的氨基酸是g或s，第594位的氨基酸是l或f。
[0404]
e91.实施方案e88的核酸构建体，其中所述修饰的超活性piggybac转座酶包含选自下组的氨基酸序列：seq id no：120、121，122、123、124、125、126、127、128和129。
[0405]
e92.实施方案e88的核酸构建体，其中所述修饰的超活性piggybac转座酶包含与选自下组的序列至少80％相同的氨基酸序列：seq id no：119、120、121、122、123、124、125、126、127、128和129，其中与超活性piggybac相比，所述修饰的超活性piggybac显示出更高的dna整合到基因组中的特异性。
[0406]
e93.实施方案e79-e83或e85中任一项的核酸构建体，其中所述修饰的hiv整合酶包含对应于野生型hiv整合酶的氨基酸序列seq id no：1的一个或多个氨基酸的突变：10、13、64、94、116、117、119、120、122、124、128、152、168、170、185、231、264、266或273。
[0407]
e94.实施方案e93的核酸构建体，其中所述修饰的hiv整合酶突变包含对应于野生型hiv整合酶的氨基酸序列seq id no：1的一个或多个：d10k、e13k、d64a、d64e、g94d、g94e、g94r、g94k、d116a、d116e、n117d、n117e、n117r、n117k、s119a、s119p、s119t、s119g、s119d、s119e、s119r、s119k、n120d、n120e、n120r、n120k、t122k、t122i、t122v、t122a、t122r、a124d、a124e、a124r、a124k、a128t、e152a、e152d、q168l、q168a、e170g、f185k、r231g、r231k、r231d、r231e、r231s、k264r、k266r或k273r。
[0408]
e95.载体，包含实施方案e79-e95中任一项的核酸构建体，其中所述载体适于在哺乳动物细胞、酵母细胞、昆虫细胞、植物细胞、真菌细胞或藻类细胞中表达。
[0409]
e96.宿主细胞，其包含实施方案e79-e95任一项的核酸构建体或载体。
[0410]
e97.融合蛋白，由实施方案e79-e94任一项的核酸构建体的表达获得。
[0411]
e98.组合物，其包含实施方案e79-e95或e97中任一项的核酸构建体、载体或融合蛋白，和编码用于插入基因组中的外源核酸的多核苷酸序列，所述组合物包含在包装载体中或与包装载体结合。
[0412]
e99.实施方案e98的组合物，其中所述核酸构建体为rna、dna或蛋白质的形式，并且编码所述外源核酸的多核苷酸序列为dna或rna的形式。
[0413]
e100.实施方案e98-e99中任一项所述的组合物，其中所述包装载体是纳米颗粒或慢病毒颗粒。
[0414]
e101.用于将外源核酸序列的单拷贝或多拷贝受控位点特异性整合到细胞中的方法，该方法包括：(a)将实施方案e79-e95或e97中任一项的核酸构建体，载体或融合蛋白递送至细胞，和(b)将外源核酸递送至细胞；其中融合蛋白与细胞基因组中的特定基因组dna序列的结合导致基因组的切割和外源核酸的一个或多个拷贝整合到细胞基因组中。
[0415]
e102.修饰的超活性piggybac转座酶，其包含氨基酸序列seq id no：9，其中：第
245位的氨基酸是a，第275位的氨基酸是r或a，第277位的氨基酸是r或a，第325位的氨基酸是a或g，第347位的氨基酸是n或a，第351位的氨基酸是e、p或a，第372位的氨基酸是r，第375位的氨基酸是a，第450位的氨基酸是d或n，第465位的氨基酸是w或a，第560位的氨基酸是t或a，第564位的氨基酸是p或s，第573位的氨基酸是s或a，第592位的氨基酸是g或s，第594位的氨基酸是l或f。
[0416]
e103.实施方案e102的修饰的超活性piggybac转座酶，其包含选自下组的氨基酸序列：seq id no：120、121，122、123、124、125、126、127、128和129。
[0417]
e104.权利要求e012的修饰的超活性piggybac转座酶，其包含与选自下组的序列至少80％相同的氨基酸序列：seq id no：119、120、121、122、123、124、125、126、127、128和129，其中与超活性piggybac相比，所述修饰的超活性piggybac显示出更高的dna整合到基因组中的特异性。
[0418]
在本技术中可以引用的所有引用的参考文献(包括参考文献、专利、专利申请和网站)的内容，如同其中引用的参考文献一样，为了任何目的通过引用以其全文明确地并入。提供以下实施例作为说明而非限制。
具体实施方式
[0419]“pb”和“hypb”可互换使用，以指超活性piggybac转座酶。下文的实施例1-3涉及可编程转座酶和cas9的融合蛋白构建体的靶向整合的产生和性能。在实施例1中，转座酶的不同dna构建体成功产生了与不同形式的cas9融合的超活性piggybac和睡美人，导致转座子整合到转染细胞的基因组中。值得注意的是，piggybac和cas9的构建体能够促进靶向整合到基因组的目标位点中(实施例2)。实施例3提供了产生的修饰的转座酶以增加外源核酸序列插入基因组的特异性。
[0420]
实施例1：用于表达可编程转座酶融合蛋白的dna载体
[0421]
本实验旨在测试超活性piggybac转座酶(本文称为hypb或pb)和睡美人(本文称为sb100x)的融合体对核酸酶(h)、切口酶(n)和死(d)cas9的不同构型对于转座子整合的性能。通过将编码野生型人cas9(hcas9)、切口酶cas9(ncas9)或死cas9(dcas9)(分别为seq id no：64-66)和超活性piggybac(pb)或超活性睡美人(sb100)转座酶(分别为seq id no：67-68)的dna序列整合到pcdna3.3-topo表达载体(invitrogen质粒主链,addgene plasmid#41815)中来产生可编程的转座酶融合蛋白。产生载体，其中cas9的3'端通过编码ggs接头(hcas9pb、ncas9pb、dcas9pb、hcas9sb、ncas9sb和dcas9sb)的核酸接头序列(seq id no：48)连接至每种转座酶的5'端。产生其他载体，其中每种转座酶的3'端通过编码ggs接头(pbhcas9、pbncas9、pbdcas9、sbhcas9、sbncas9和sbdcas9)的核酸接头序列(seq id no：48)连接至cas9的5'端。融合构建体的概述提供于表2。
[0422]
表2.实施例1中产生的可编程转座酶蛋白列表
[0423][0424]
在转染之前，将冷冻的hek293t细胞在37℃快速解冻，然后再悬浮于5ml预热的培养基中，并通过以1,000rpm离心4分钟来沉淀。将沉淀重悬于新鲜培养基中，并将约1.6x106个细胞接种于新的t75烧瓶中。当细胞达到95％的汇合度时，使用胰蛋白酶将它们传代并以40％的汇合度接种。细胞传代两次，然后用于实验。
[0425]
对于转染实验，将5x105个hek293t细胞/孔接种在具有完全dmem培养基(dulbecco's modified eagle medium(dmem)，补充有10％胎牛血清、2mm谷氨酰胺和100u青霉素/0.1mg/ml链霉素)的多孔板上。转染前，用2.7ml新鲜的完全dmem培养基替换该培养基。将opti-mem i减少的血清培养基与每种质粒组合以及线性聚乙烯亚胺(pei25k)溶液1mg/ml混合。使用pei 25k(μg):总dna(μg)为3:1的比例。将两种溶液混合并在室温下孵育15分钟。孵育后，将300μl混合物滴加至细胞。转染后24小时，用新鲜的完全培养基替换该培养基。转染后收获细胞用于流式细胞术或细胞分选和dna提取。
[0426]
将hek293t细胞用编码来自表2的可编程转座酶融合蛋白的质粒、编码待整合的核酸(rfp(红色荧光蛋白)或gfp(绿色荧光蛋白)转座子)的质粒和靶向人基因组中aavs1位点(腺伴随病毒整合位点1)的向导rna共转染。将超活性piggybac和sb100用作阳性对照，并且将转座子单独用作用于附加体表达检测(即来自未插入质粒的表达)的阴性对照。直到第14天，通过流式细胞仪分析荧光，此后不能检测附加体荧光。然后，通过gfp表达分选细胞，并且分选后两天，通过计数荧光细胞的百分比定量靶dna的整合。
[0427]
结果和结论：cas9-pb融合体的结果显示于图1a和图1c中；cas9-sb100融合体的结果如图1b所示。与超活性piggybac(hcas9pb)融合的人cas9和与超活性piggybac(ncas9pb)融合的切口酶cas9在14天后与附加体rfp阴性对照相比增加荧光细胞百分比约8％(图1a、
1c)。因此，所述融合蛋白能够成功地将外源dna整合到细胞基因组中。测试的cas9-睡美人融合蛋白在14天后不能产生比附加体gfp阴性对照更多的荧光细胞(图1b)。
[0428]
实施例2：可编程转座酶融合蛋白的靶向转座效率
[0429]
在之前的实施例之后，研究了使用实施例1中具有最佳总体插入的构型是否存在靶向插入(相对于非靶向)。为此，使用lipofectamine3000，用编码hcas9pb或ncas9pb的质粒(psico)、编码具有反向重复序列的转座子和无启动子的gfp的基因捕获质粒、以及靶向aavs1位点或人基因组上启动子后的cd46基因内的位点的向导rna(grna)共转染hek293t。cas9的3'端通过接头(seq id no：48)与转座酶的5'端连接。cas9pb表达载体结构的实例示于图2a。转座酶在3'和5'重复序列之间含有剪接受体和无启动子的gfp。grna和cas9指导转座酶将转座子整合到启动子区域中。使用这种方法，只有转座子插入靶位点，细胞才变成荧光的。
[0430]
结果和结论：gfp表达细胞百分比的定量表明，与对照“非靶向”(整体插入的对照(单独的piggybac))和“附加体”(未整合的阴性对照(单独的转座子))相比，可编程转座酶融合蛋白cas9-piggybac(“靶向的hcas9”)和切口酶cas9-piggybac(“靶向的ncas9”)具有更高的靶dna靶向递送(图2b)。在这种情况下，高于背景的信号的3倍和4倍的增加是显著的；特别考虑到并非所有细胞都被转座子插入所需的所有载体有效转化；在本文使用的非优化条件下随机插入hypb的效率为10-15％。
[0431]
实施例3：修饰的超活性piggybac转座酶的产生
[0432]
产生修饰的超活性piggybac转座酶以增加外源核酸序列插入基因组的特异性。表3中提供了转座酶氨基酸突变的列表。
[0433]
表3.超活性piggybac vs超活性piggybac seq id no：9的突变位点
[0434]
[0435]
[0436][0437]
在下文的实施例4中，为了使锌指蛋白(zfp)能够与染色体靶位点结合以插入目的基因，产生了几种构建体。zfp构成cas9作为dna结合蛋白的替代物。实施例5-13通常涉及hiv-1整合酶和cas9/zfp的融合蛋白的构建体的靶向整合的产生和性能。特别地，在实施例5中，产生了zfp和整合酶的融合蛋白。实施例6-10提供了不同的整合酶缺陷包装系统(即非整合载体)，产生其用作体外研究的基础，以证明用实施例11中产生的整合酶融合蛋白恢复整合功能。在实施例12中，观察到靶向整合酶融合蛋白增加了靶向插入的百分比。
[0438]
实施例4：靶向锌指蛋白(zfp)的产生
[0439]
目的是产生几种结合染色体靶位点以插入目的基因的zfp。产生6个结构域的锌指蛋白以靶向人基因组上的aavs1位点(seq id no：40)。靶dna序列和相应的zfp螺旋示于表4中。制备编码靶位点和zfp的构建体(aavs1-6d-zfp)。编码zfp的核酸和氨基酸序列分别是seq id no：32和33。
[0440]
表4.aavs1靶位点和相应的zfp螺旋的列表
[0441][0442][0443]
实施例5：zfp-整合酶融合蛋白的产生
[0444]
产生具有6个结构域(有效序列特异性)的zfp的整合酶融合蛋白。为了产生位点特异性整合酶，将实施例4中产生的zfp(aavs1-6d-zfp)与hiv-1整合酶(seq id no:1)(pzfp-aavs1-6d-in)一起克隆到pcdna3.1表达载体中。编码融合蛋白的序列在zfp和整合酶之间含有n-末端核定位信号(seq id no:47)和ggs接头序列(seq id no:48)(图3)。
[0445]
产生另外的整合酶融合载体，例如pzfp-trca-in(包括seq id no:38,靶向trca基
因座)和pzfp-aavs1-tex-in(包括tex接头(seq id no:61))，其使用类似的方法制备。
[0446]
实施例6：具有缺陷型整合酶的dna载体的产生
[0447]
产生整合酶缺陷型包装系统以用作使用工程化整合酶的体外研究的基础。从非整合包装质粒(nilv)pspax2产生缺陷型整合酶构建体。pspax2质粒具有单n64d突变和双n64d/n116d突变。产生缺失整合酶(δin)的质粒，其缺少完整的整合酶编码区。产生非编码质粒，其在整合酶编码序列之前含有终止密码子(下文实施例8)。产生含有截短的整合酶的质粒，包括含有c-末端结构域和不含cppt/cts的dna结合结构域的构建体(下文实施例10)。通用克隆方案简述如下。
[0448]
kapa hifi热启动方案
[0449]
对于使用kapa hifi热启动的pcr实验，根据kapa hifi pcr试剂盒制造商的方案制备pcr反应混合物。用mastercycler pro.进行kapa hifi pcr反应。
[0450]
质粒dna提取
[0451]
使用qiaprep spin miniprep试剂盒根据制造商的方案提取质粒dna。通过以5,000rpm离心3分钟收获细菌培养物。将细胞沉淀重悬于250μl缓冲液p1中，并通过用250μl缓冲液p2将管倒置4-6次来混合。添加350μl缓冲液n3并通过将管倒置来混合。将eppendorf管以12,000rpm离心10分钟以除去细胞碎片和染色体dna。将上清液转移到所提供的qiaprep旋转柱中并离心1分钟(12,000rpm)。将样品用0.5ml缓冲液pb和0.75ml缓冲液pe洗涤两次，并且每次以12,000rpm离心1分钟。以12000rpm再离心1分钟除去残留的洗涤溶液缓冲液。将qiaprep旋转柱转移到新的1.5ml微量离心管中，并添加50μl水，通过使管静置1分钟并随后以12,000rpm离心1分钟来洗脱质粒。用nanodrop one测量浓度。
[0452]
质粒dna的分离和纯化
[0453]
使含有所需质粒的细菌菌株(dh5α或dh10b)在含有100μg/ml羧苄青霉素的lb培养基中生长过夜。根据制造商的方案，使用来自nzytech的质粒mini或maxi试剂盒分离质粒。将质粒在30μl(miniprep)或500μl(maxiprep)65℃热水中洗脱。将质粒储存在-20℃。对于pcr纯化，使用pcr纯化试剂盒处理反应混合物。将dna在30μl，65℃热水中洗脱。
[0454]
dna凝胶电泳
[0455]
通过煮沸将琼脂糖溶解在100mltae-缓冲液中。每100ml琼脂糖溶液用4μl greensafe补充液体凝胶并倒入盘中。为了可视化dna制备物，将dna与6x加载染料混合并加载到1％琼脂糖凝胶上。此外，每1mm凝胶泳道用1μl基因梯加载一个腔室。将凝胶在100v下运行1.5小时，并使用透照器观察。
[0456]
转化
[0457]
对于使用dh5α的转化实验，根据制造商的方案将质粒转化到50μl dh5α细胞中。在s.o.c.培养基中恢复后，将细菌以15,000g沉淀30秒并重悬于50μl lb培养基中。将细胞铺板在含有100μg/ml羧苄青霉素的lb琼脂平板上，并在37℃下孵育过夜。挑取培养物并在含有100μg/ml羧苄青霉素的lb培养基中接种过夜。将液体培养物再次用于质粒分离或用于甘油原液。对于甘油原液，将500μl液体培养物与500μl 50％甘油混合并储存在-80℃下。
[0458]
对于xl-10 gold超感受态细胞的转化实验，首先将细胞在冰上解冻，并将45μl细胞添加到预冷的14ml falcon聚丙烯圆底管中。向细胞中添加2μl试剂盒提供的β-me混合物。轻轻涡旋管的内容物，将细胞在冰上孵育10分钟(每2分钟涡旋一次)。将1.5μl dpni处
理的dna添加到细胞的等分试样中，混合，并在冰上孵育30分钟。将细胞/dna混合物在管中在42℃下热脉冲处理30秒。然后，将管在冰上孵育2分钟。然后，将0.5ml预热的(42℃)nzy+肉汤添加到每个管中，然后在37℃下孵育1小时，其中以225-250rpm振荡。然后，将混合物铺板在含有用于质粒载体的适当抗生素的琼脂平板上。选择5个菌落用于dna提取并验证序列。选择并维持菌落1。
[0459]
实施例7：含有ppt或zfp-修饰的整合酶融合蛋白的非整合载体的产生
[0460]
为了产生整合酶(in)缺陷但完全有功能的pspax2质粒，将聚嘧啶区域(ppt)(seq id no：74，其对于随后所有逆转录病毒rna基因组(如慢病毒)的双链cdna形成是至关重要的)克隆到不含整合酶(pspax2-δin)的pspax2载体中。将实施例4产生的靶向aavs1的合成锌指构建体(aavs1-6d-zfp-in)克隆到pspax2-δin中。设计两种不同的正向引物和相同的反向引物(seq id no:75-77)用于具有和不具有终止密码子的ppt(in+ppt和in+ppt(stop))。为具有和不具有核定位信号(aavs1-6d-zfp-in和aavs1-6d-zfp-in(-nls))的avs1-6d-zfp-in设计两种不同的正向引物(seq id no:78-80)和相同的反向引物。使用kappa标准条件，62℃的退火温度和40秒(对于ppt)和90秒(对于aavs1-6d-zfp-in)的延伸时间通过pcr扩增插入物。通过凝胶电泳分离pcr产物。
[0461]
纯化扩增的产物并以1:2.5的主链:插入物比和5次循环进行组装方案。用4μl连接产物转化50μl感受态细胞，并将60％感受态细胞接种到羧苄青霉素平板上。通过限制性消化和dna凝胶电泳确定菌落的初始验证。挑取以下菌落：菌落1和2(in+ppt f1+r,aavs1-6d-zfp-in f1+r,aavs1-6d-zfp-in(-nls)f2+r)和菌落7和8(in+ppt(stop)f2+r)。为了进一步验证含有正确插入片段的菌落，用4mm mg、62-sts和neb标准taq进行菌落pcr。
[0462]
实施例8：通过插入终止密码子产生非整合载体
[0463]
通过在整合酶可读框(pspax2-taa-in)之前插入终止编码产生非整合载体。pspax2-taa-in通过定点诱变通过在整合酶起始处的蛋白酶切割位点之后添加两个终止密码子而产生。定点诱变的pcr条件用于产生pspax2-taa-in。
[0464]
pcr后，将反应管置于冰上2分钟以冷却。然后，将1μl dpni直接添加到每个扩增反应中，并在37℃孵育5分钟以消化亲本(未突变的)双链dna。
[0465]
消化质粒dna以证实定点诱变不产生任何不需要的修饰。用saci和agei消化pspax2和pspax2-taa-in应产生7,500、1,900和1,300bp的三个条带。用saci和agei消化pspax2-δin应产生7,500、1,300和800bp的三个条带。进行消化反应，并且消化产生正确的带型。
[0466]
实施例9：将野生型整合酶重建为整合酶缺陷型载体
[0467]
目的是开发一种方法学，以观察非整合载体是否能够随着不同形式的整合酶融合蛋白的表达而恢复插入活性。为了证实pspax2-δin是完全功能性的，使用gibson组装将整合酶添加到载体中。另外，为了测试组装位点对于克隆融合体“in”是否良好，将wt-in与在该位点之前的主链中的in的另外的n-端(具有不应该在那里的leu)一起克隆。这也用额外的蛋白酶靶序列来完成，以避免这种假n-末端结构域。进行pcr反应以扩增in-1、in-2和in-3片段。
[0468]
通过dna凝胶电泳分离pcr扩增产物。纯化扩增的条带并以1:2.5的主链:插入物比和在37℃下循环5次进行组装。用4μl连接产物转化50μl感受态细胞并接种在羧苄青霉素平
板上。
[0469]
为了产生含有in-3的构建体，按照用于gibson组装hifi 1步骤试剂盒的标准方案(使用crg mm)(sgi-dna,inc.,www.sgidna.com/products/gibson-assembly-reagents/)进行gibson组装。产生反应混合物并在50℃下组装1小时。用2μl反应混合物转化感受态细胞。
[0470]
用2μl连接产物转化50μl感受态细胞，并接种在羧苄青霉素平板上。
[0471]
实施例10：含有c-末端结构域截短整合酶的非整合载体的产生
[0472]
将c-末端结构域(ctd)(seq id no：74的核酸83-118)和cppt+ctd(seq id no:74)整合酶片段克隆到pspax2载体中。
[0473]
通过dna凝胶电泳分离pcr扩增产物。使用实施例9中使用的条件进行cppt+ctd的连接。
[0474]
在65℃下进行5个循环的连接并转化连接产物。无菌落生长。再次进行连接和转化，用in-fw引物(seq id no：81)通过测序验证三个菌落。
[0475]
实施例11：整合酶融合蛋白的产生
[0476]
通过将hiv-1整合酶和靶向的zfp或人cas9整合到pcdna3.3表达载体中，产生靶向的整合酶融合蛋白。产生一种载体，其中zfp或cas9的3'端通过核酸接头连接至整合酶的5'端。产生第二载体，其中整合酶的3'端通过核酸接头连接到zfp或cas9的5'端。使用的接头是长度在13、16、19、22、25或28个氨基酸范围内的xten或ggs。将zfp-整合酶融合蛋白工程化以靶向人基因组中的aavs1位点或t细胞受体α(tcrα)基因座。cas9-整合酶融合蛋白与靶向人基因组中aavs1位点或tcrα基因座的向导rna组合使用。修饰的整合酶融合蛋白的列表如表5所示。
[0477]
表5.实施例11产生的修饰的整合酶融合蛋白的列表
[0478]
[0479]
实施例12：整合酶缺陷型慢病毒与靶向的整合酶融合蛋白的cys和反式互补
[0480]
实施例11的靶向的整合酶融合蛋白用于补充非整合性慢病毒的整合能力的缺乏，所述慢病毒表达在催化结构域中具有两个突变的in(d64v/d116n)。对于该实验，将靶向的整合酶融合蛋白克隆到pcdna3.1载体中。通过用psico(gfp表达有效负载)、pmd2.g(用于包膜表达的vsvg)，pax2(含有包装蛋白和整合酶)或nilv-pax2(含有包装蛋白)和含有野生型整合酶或靶向的整合酶的pcdna3.1载体共转染细胞产生慢病毒(表6)。
[0481]
表6.用靶向的整合酶融合蛋白补充整合酶缺陷型慢病毒的条件
[0482][0483]
将6x105个hek293t细胞(第8代)/孔接种到6孔板上并孵育过夜。在开始病毒生产前5小时，将培养基更换为含有1:1000二磷酸氯喹(cd；原液＝25mm)的1.7ml培养基。以摩尔比1.6:1.32:0.72:3.32(psico:pax2:vsvg:wtin-救济)感染质粒。pei(聚乙烯亚胺；原液＝1mg/ml)用作转染试剂，而3μl pei用于1μg总dna用于转染。将dna在83μl opti-mem和83μl pei中稀释，混合，并在室温下孵育15-20分钟。将每种转染混合物滴加到含有cd-培养基的细胞中。将细胞培养过夜，第二天用2.5ml新鲜培养基替换培养基。第二天，将细胞上清液以1,000rpm离心5分钟并通过45μm过滤器。将含有病毒的上清液储存在-80℃。
[0484]
第一步是证实不同的慢病毒包装独立于其内容物保持感染细胞的能力。为了测定病毒滴度，将75,000个hek293t细胞/孔接种在6孔板上。用含有1:100聚凝胺的1ml培养基和500μl先前产生的病毒上清液(1:3)的混合物感染细胞。第二天更换培养基。下一天，吸出培养基并用200μl胰蛋白酶分离细胞。通过添加800μl正常培养基终止反应，并通过流式细胞术分析。对野生型整合酶慢病毒(lv)、空病毒颗粒(lvo)、非整合性慢病毒(nilv)，具有野生型整合酶的非整合性慢病毒(nilv+in)、具有zfp-整合酶融合蛋白的非整合性慢病毒(nilv+zp-in(aavs1))、具有cas9-整合酶融合蛋白的非整合性慢病毒(nilv+cas-in)和具有野生型整合酶的野生型整合酶慢病毒(lv+in)的病毒滴度进行定量。lv和lvo分别用作阳性和阴性对照。感染hek293t细胞，并通过计数gfp阳性细胞数来定量病毒滴度(图4)。结果：对于所有条件，病毒滴度在相同的数量级内。
[0485]
接下来，通过流式细胞术和靶插入物的下一代测序确定靶向的整合酶融合蛋白的总整合能力。对于所有条件，用相同的感染复数感染hek293t细胞，并在感染后3、5、7、10和12天监测gfp荧光。感染后7天，通过gfp表达分选细胞。结果：在第12天，用未补充的nilv感染的细胞具有较小百分比的gfp表达细胞(图5)，表明病毒生产能力降低。
[0486]
为了评估测试的整合酶融合蛋白的靶向整合能力，在第12天根据dneasy血液和组
织试剂盒方案(qiagen)提取基因组dna。通过以190rpm离心5分钟(最大5x105)收获细胞培养物。将沉淀溶解在200μl pbs(磷酸盐缓冲盐水)中。将20μl蛋白酶k与200μl缓冲液al一起添加。涡旋后，将样品在56℃孵育10min。添加200μl乙醇(96-100％)并短暂涡旋后，将混合物转移至dneasy mini旋转柱，置于3ml收集管中，并以8,000rpm离心1min。将旋转柱移至新的2ml收集管中并加入500μl缓冲液aw1。将管以8000rpm离心1分钟。对缓冲液aw2重复该洗涤步骤(离心3分钟)。然后，将旋转柱转移到新的1.5ml微量离心管中，并将200μl缓冲液ae添加到旋转柱膜的中心以通过使管静置1分钟，然后以8,000rpm离心1分钟来洗脱dna。用nanodrop one定量基因组dna浓度。
[0487]
用特异于病毒插入的ltr的寡核苷酸进行反向克隆。通过以下参数分析下一代靶向测序：过滤如r1和r2都含有相应测序引物的读长，将检测限制在最左边的碱基(与引物具有的一样多的bp)，允许2个错配，修整引物序列(seq id no：82－89)，过滤如r1和r2都含有相应ltr碱基的读长，将检测限制在读长的最左边的5个碱基，使用k＝3的5个第一ltr碱基(在测序引物之后)(意味着对于序列actga将检查以下k-聚体之一的读长上的存在：act、ctg、tga)，允许2个错配，修整相应的ltr碱基对，将读长映射到参考基因组，检索覆盖率(每个插入位点的读长数)，将存在r1和r2重叠的区域除以2，如果不存在r1和r2重叠，则仅添加一个插入位点，应用覆盖率阈值，计算参考基因组的每10mb的覆盖率并进行覆盖率绘图，计算每个插入位点的覆盖率百分比。结果：靶向的整合酶融合蛋白增加aavs1位点的覆盖率和靶向插入的百分比(表7和图6)。如表7所示，当通过整合酶融合蛋白进行插入时，在靶位点上存在更多读长数；与inwt相比，inwt表示靶向插入。图6表示in和zfp_in(aavs1)基因组中最常见的靶位点；表示仅在融合条件下存在靶向插入。
[0488]
表7.aavs1读长数和靶向的整合酶融合蛋白的靶向插入百分比
[0489][0490]
还产生第二zfp以靶向ccr5基因内的核酸区段。该锌指蛋白与hiv-1整合酶融合以产生ccr5靶向整合酶。如上所述产生含有该zfp-in的慢病毒并转导到hek293t细胞(nilv+zp-in(ccr5))中(表6)。结果：nilv+zp-in(ccr5)的病毒滴度与lv和nilv+in相似(图7a)。该构建体能够以与测试的其它zfp_in融合体相同的效率产生病毒颗粒(图7b和c)。对于ccr5，没有测试其以位点特异性方式整合dna的能力。
[0491]
在另一个实验中，将zfp-in与靶向tcra位点的6d和靶向同一位点的grna融合产生新克隆的表达载体(参见实施例11)。该测定测试了野生型整合酶和zfp-整合酶融合体是否能够补充nilv能力并促进car-t盒的选择性整合。对于所有tcrα靶向插入颗粒，以相同的感染复数感染jurkat细胞。在该实验中，病毒颗粒负载有cd19car-t盒，其在靶向插入后导致cd3(由tcrα基因编码)蛋白表达的丧失。随时间跟踪cd19阳性和cd3阴性细胞的百分比。慢病毒滴度如图8a所示，并且car表达细胞在第3天和第14天的％如图8b所示。cd3表达细胞
的％显示在图8c中。这表明在不存在vpr(有效的in反式互补的重要因素)的情况下，反式互补在该细胞系背景中不起作用。
[0492]
实施例13：通过定点诱变和饱和诱变产生修饰的整合酶
[0493]
通过定点诱变和饱和诱变产生修饰的hiv-1整合酶。对于定点诱变，修饰的hiv-1整合酶将通过定点诱变突变氨基酸而产生。将使用quikchange lightning多定点诱变试剂盒，并根据制造商的建议设计引物(seq id no：90-97)。待突变的质粒为约7,000bp。通过测序筛选每种方法约5个菌落。制备含有所需质粒的菌落甘油原液。
[0494]
进行hiv-1整合酶的饱和诱变以产生不同hiv-1整合酶分子的大组合文库。该方案采自cornell et al.,(biochemistry,57(5)604-613,2018)。在一个pcr反应中使用几个在突变位点含有简并nns序列的正向引物和一个反向引物(seq id no：90-97)。扩增整个质粒以产生突变的整合酶分子。将引物优化至68℃的熔融温度。在循环期间，退火温度将每循环增加0.3℃。氨基酸突变的列表提供于表8中。
[0495]
表8.hiv-1整合酶的突变位点与野生型hiv-1整合酶氨基酸序列nc_001802.1-np_705928(seq id no:1)
[0496]
[0497]
[0498][0499]
实施例14：在hek293t细胞中产生prrlvpr整合酶构建体并测试反式互补效率
[0500]
产生prrlin、prrlvprin和prrlingfp载体用于vpr反式互补(表9)。
[0501]
表9.prrl构建体
[0502] gfp(-)gfp(+)vpr(-)prrl_inprrl_in_gfpvpr(+)prrl_vinprrl_vin_gfp
[0503]
使用gfp表达测定测试构建体。用psicomaxi、psicomini和prrl_ingfp转染hek293t细胞以测试prrlingfp附加体表达。vpringfp构建体在慢病毒生产细胞中的表达检测为阳性。接下来，测试hek293t细胞中的反式互补效率。
[0504]
将lv培养基超速离心，使其再悬浮，并接种细胞。以0.6ml(1.5*0.4)的体积进行感染。添加聚凝胺。通过细胞计量术测定滴度。滴定度(1:100)如图9所示。
[0505]
vpr反式互补系统将用于比较用于整合的修饰的整合酶序列。
[0506]
在下文的实施例15-19中，产生了具有修饰的超活性piggybac转座酶的融合蛋白的不同构建体。测定构建体的总转座活性和靶向转座活性，得到相关结果，特别是对于hcas9_突变的pb的构建。还提供了突变的pb和zfp的融合蛋白的构建体的产生和靶向转座活性测定的证据。测试了不同的接头，表明xten具有比测试的其余接头更好的性能。5ggs和7ggs也正常起作用，表明接头的长度及其柔性对其性能起重要作用。
[0507]
实施例15：用修饰的超活性piggybac转座酶产生融合蛋白和测定靶向转座效率的方法
[0508]
转染：
[0509]
前一天接种hek293t细胞以在转染当天达到70-80％汇合度(通常在p12孔板中290.000个细胞)。使用lipofectamine 3000试剂按照制造商的说明书进行转染，或使用pei在optimem中以1:3的dna-pei比率进行转染。
[0510]
以1pt:2.5grna:2.5转座子的比例一起转染可编程转座酶(pt)、grna和转座子质粒。
[0511]
使细胞通过并维持至所需终点(取决于实验)。
[0512]
pb突变体的产生：
[0513]
按照quickchange lightning agilent诱变试剂盒的说明书，通过定点诱变将不同的突变引入与cas9融合的hypb序列(hcas9_pb质粒)中。用quikchange引物设计来设计引物以实现以下突变：pb r245a,pb r275-277a,pb r388a,pb s351a,pb w465a,pb r372a-k375a,pb d450n(seq id no:100-106)。
[0514]
cas9活性：
[0515]
将具有核酸酶cas9的可编程转座酶质粒和grna质粒以1:2.5的比例一起转染。48小时后收获细胞并提取基因组dna。用靶向grna靶位点周围150-200bp的引物(ngs-aavs fw&ngs-aavs rv,seq id no:98-99)进行pcr。在第二次pcr中引入illumina适配子和条码，并且通常在2x250 nano流动细胞中进行miseq测序。用crispr-gaweb工具分析结果。
[0516]
基因捕获分析：
[0517]
先产生无启动子的rfp转座子，然后设计剪接受体和靶向ppr1α和cd46内含子1的grna，并在u6启动子调控下克隆。只有转座子偶然插入靶向区域或其它启动子区域中，才能检测到rfp荧光。对于基因捕获分析，用基因捕获转座子、可编程转座酶和grna转染hek293t细胞，并通过流式细胞术分析rfp信号。
[0518]
分裂gpf报告细胞系：
[0519]
产生293t报告细胞系用于靶向转座证据实验。简言之，细胞系具有靶区域(具有不同的grna和zfp靶序列)和剪接受体序列，随后是一半gfp编码序列。该细胞系通过使用睡美人转座酶的超活性形式sb100x随机插入报告盒而产生。具有gfp序列的前半部分的转座子与启动子和剪接供体的靶向导入导致可通过流式细胞术检测的gfp信号。
[0520]
产生含有一半gfp序列和ef1α组成型启动子之后的完整rfp序列的第二转座子，以评估靶向插入与随机插入。转染后约15天，附加体信号存在良好的衰减，这允许分析总插入(rfp信号)与靶向插入(gfp信号)。
[0521]
实施例16：用修饰的超活性piggybac转座酶产生融合蛋白的质粒构建体
[0522]
克隆不同的质粒构建物以实现靶向dna的可编程元件(cas9、znf)和哺乳动物转座酶(piggybac、sb100)之间的融合。两个组件之间的接头在不同构建体中是可变的，所述构建体选自具有seq id no：50-63的接头文库。结构如表10所示。
[0523]
表10.产生的融合蛋白列表
[0524]
[0525][0526]
hcas9：cas9核酸酶人密码子优化；ncas9：切口酶cas9人密码子优化；dcas9：死cas9人密码子优化。
[0527]
实施例17：不同接头的转座效率
[0528]
用具有长度和结构上不同的接头(接头文库)的hcas9_pb构建体和用2种不同grna(aavs11和aavs12)转染hek293t细胞。转染后48小时提取基因组dna，对靶向区域进行pcr扩增并用illumina miseq测序进行测序。
[0529]
结果：具有不同接头长度和结构的构建体不阻碍cas9核酸酶活性。与hcas9活性相比，4ggs接头在两个grna靶位点上产生更高的cas9活性(图11)。
[0530]
实施例18：用修饰的超活性piggybac转座酶靶向转座融合蛋白
[0531]
18.1.基因捕获：
[0532]
使用基因捕获转座子评估hcas9_pb构建体(使用之前描述的不同接头连接至hypb的hcas9)的靶向转座活性。基因捕获转座子含有无启动子的rfp序列，其前面是剪接受体序列，只有当剪接受体序列插入剪接供体之后的启动子区域中时，才能表达剪接受体序列。
[0533]
用ppr1内含子1grna和具有不同接头构建的可编程转座酶共转染基因捕获转座子。转染10天后用流式细胞仪通过rfp荧光分析结果。
[0534]
结果：与用可编程转座酶转染的条件比用野生型hypb转染的条件具有更多荧光的hypb随机插入相比，可编程转座酶提高了靶向活性。与其它接头相比，8ggs、xten接头增加基因捕获靶向活性(图12)。
[0535]
分裂gfp报告细胞系：
[0536]
18.2具有不同接头的靶向转座hcas9_pb
[0537]
使用报告细胞系评估hcas9_pb构建体的靶向转座活性。用grnaaavs13或tcr1α和一半gfp转座子转染具有不同接头的hcas9_pb构建体。结果：关于不同接头构建体转座没有大的差异(图13)。
[0538]
18.3.所选突变体的靶向转座：
[0539]
选择pb450和pb 372-375-450用于进一步的靶向转座实验，因为它们具有良好的靶向转座效率。如前所述使用grnaαvβ3和tcr1进行实验。结果：与具有hypbwt序列的hcas9_pb相比，hcas9_pb450和hcas9_pb 372-374-450的靶向转座高了6至10倍。在分离的质粒中转染的hcas9+hypb显示出一些靶向活性，而没有hcas9的hypb显示出0活性，表明分离的gfp报道细胞系是用于靶向插入和用于选择相对于没有足够特异性的ther方法的噪声进行该
功能的变体的强有力的方法(图15)。
[0540]
18.4.经靶向和随机转座选择的pb突变体：
[0541]
使用前面提到的rfp-gfp双转座子对实施例19.4中选择的突变体评估靶向和随机转座。红色荧光指示转染后约15天的总插入(rfp组成型表达)(以确保非附加体信号)并且gfp荧光指示靶向转座。结果：图16显示与随机转座相比，在hcas9_pbd 450n和hcas9_pb r372ak375a d450选择的突变体上与具有wt hypb序列的hcas9:pb相比显示更高的靶向转座。两个突变体的总转座效率都较低，并且靶向结果与图15一致。
[0542]
18.5.靶向转座zfp-pb构建体：
[0543]
使用存在于分裂gfp报告细胞系上的zfp靶向tcr4序列和hypb或具有d450n突变的hypb克隆锌指超活性piggybac融合蛋白的构建体。按照实施例15的方案，用zfp-pb组合和1/2gfp转座子转染细胞。转染后5天分析gfp信号。结果：在所有构建体中在背景(hypb随机插入)上方观察到靶向转座。结果：对于hypb和hypbd450n，靶向转座在zfp中在n-末端位置更高(图18)。用于这些实验的zfp序列分别对应于具有核酸和氨基酸序列seq id no：117和118的6个指结构域的蛋白质。
[0544]
在下文的实施例20中，设计pb突变文库并进行筛选方法以鉴定修饰的pb的阳性靶向转座。鉴定并验证了具有阳性靶向转座的修饰pb的一些命中。
[0545]
实施例20：超活性piggybac突变文库的产生和靶向转座的筛选
[0546]
方法：
[0547]
hypb突变文库被设计并购自twist biosciences。
[0548]
表11.用于hypiggybac的突变位点
[0549][0550][0551]
筛选方法：
[0552]
设计筛选方法以鉴定来自设计的突变体文库的piggybac变体，其与可靶向的dna结合蛋白(如cas9)连接并进行特异性靶向转座。筛选方法的方案如图19所示。使用esp3i酶通过golden gate组装将pb文库克隆到含有hcas9和xten接头的sin转移慢病毒质粒中，随后在nls之前进行esp3i克隆位点以在cmv启动子调控下获得hcas9_xten_pb_nls融合蛋白。在来自invitrogen电穿孔的electromax
tm stbl4
tm
感受态细胞后收获约6.000.000个菌落，并使用hipure maxiprep试剂盒，lifetechnologies用maxiprep提取质粒。使用来自addgene的慢病毒生产方案生产慢病毒(使用购自addgene的pmd2.g和pspax2辅助质粒)。将慢病毒超速离心并通过拷贝数分析qpcr(使用寡核苷酸seq id no：107-110)滴定。简言之，在前一天将80.000个hek293t细胞接种在p12孔板中。用文库慢病毒和标准gfp慢病毒感染细胞，文库慢病毒的稀释度为1/2，1/10并且gfp慢病毒的稀释度为1/50，1/100，1/1000。感染3天后用流式细胞仪分析gfp信号。收获细胞并提取gdna。设计qpcr测定以评估wpre基因拷贝数并通过rnase基因拷贝数标准化。
[0553]
使用1:1000聚凝胺在500cm2方形皿中将hek293t报道细胞以moi 0.8感染，将10m细胞在感染后3-4天前一天铺板，使用pei 1:3，用8.1pmol grna aavs1质粒和1/2gfp转座子转染细胞。前一天将9m细胞铺板在15cm培养皿中。转染后3-4天，使用facsaria细胞计数
器和0.70μm喷嘴分选细胞。使用相同摩尔浓度的rfp和gfp质粒在10cm培养皿中进行转染对照，并在fortessa细胞计数器中分析gfp-rfp阳性细胞。分选后，直接提取gdna。
[0554]
使用不同的测序方法分析具有阳性靶向转座的pb突变体：
[0555]
piggybac文库区域靶向测序：
[0556]
使用kapa hifi hotstart readymix，用引物ngs簇1fw和ngs簇2rv对具有所有文库变体的piggybac 1116bp区进行pcr扩增。在第二次pcr中添加illumina适配子和条码，使用nebnext9引物和illumina定制条码(seq id no：111-114)。在v2或v3 illumina miseq流动细胞中进行靶向测序。用定制引物替换i7索引引物以允许不同变体的完全测序。
[0557]
piggybac和cas9序列鸟枪法文库产生和测序：
[0558]
用引物cmv-f和sv40 pa rv(seq id no:115和132)进行来自gfp阳性分选细胞的基因组dna的6000bp pcr，用kapa hifi hotstart readymix扩增cas9和pb序列。然后，用qiagen凝胶提取试剂盒纯化dna，并用covariss220和微管afa纤维卷曲帽以500bp片段化。根据制造商的说明书用kapa hyperprep试剂盒制备鸟枪法文库。
[0559]
结果：
[0560]
20.1.hypb文库多样性生成：
[0561]
用含有具有pb文库突变的hcas9_pb的慢病毒以moi 0.8感染1/2gfp报告细胞系。感染后3天，用grna aavs1 3和1/2gfp转座子以75-90％的转染效率转染细胞。
[0562]
在第一个实验中，总共分选254m细胞，获得185.757个阳性细胞，显示0.073％的靶向转座阳性变体。在第二个实验中，分选120m细胞，获得70.974个阳性细胞，显示0.059％的靶向转座阳性变体(图21a和21b)。
[0563]
从阳性和阴性分选细胞中直接提取基因组dna。如以上在本实施例的方法部分中所指定的，将获得的2/3dna加工为用于靶向测序分析，并将1/3加工为鸟枪法文库测序。
[0564]
20.2.通过可变区的靶向测序的hypb文库筛选分析：
[0565]
如下分析cas9-pb变体的阳性和阴性细胞分析。针对参考序列映射来自靶向测序的读长。使用两种不同的方法检索所有文库变异位置：通过位置，使用对齐读长，以及通过序列，使用周围序列的模式匹配。所有变体计数的对数倍数变化在阳性样品(具有靶向整合的gfp阳性细胞)和阴性样品(非靶向整合样品，无论是否发生整合)之间计算，并检索最高级变体。此外，用rfp阳性选择对随机整合的样品进行阴性选择；其中转座子随机插入基因组中。
[0566]
结果如图22a-22k所示。因此，使用变体组合文库的无监督高通量筛选方法，鉴定了能够高效进行定点插入的piggyback突变体集合，如阳性细胞群体与阴性细胞群体中存在的比较所示。
[0567]
接着，使用之前提到的rfp-gfp双转座子评估重复序列1中最高阳性命中的靶向和随机转座。红色荧光表示转染后约15天的总插入(rfp组成型表达)，并且gfp荧光表示靶向转座。
[0568]
结果：与hcas9_pb和wthypb相比，在重复序列1变体的top1上显示出与随机转座相比更高的靶向转座(图23a-23b)。使用我们的报告细胞系进行了靶上插入的独立验证，并且与wt形式和d450n突变体相比观察到显著的靶上活性。
[0569]
20.3.过表达阳性命中的鉴定：
[0570]
在筛选中鉴定了在gpf群体与阴性选择的变体中过度表现的几个阳性命中。在代表整体插入的rfp群体中也没有发现它们中的一些，这表明整合能力的增加。此外，rfp包括随机和靶向整合。因此，鉴定了能够高效进行定点插入的piggyback组合突变体集合(图24a-24c)。
[0571]
20.4.通过鸟枪法测序的hypb文库筛选分析：
[0572]
对于鸟枪法测序，针对参考序列映射读长，进行变体要求以检索来自参考的所有变体，并计算阳性和阴性等位基因计数之间的欧几里得和相关距离。将最不同的位置作为变体检索；并且计算这些变体之间的关联。
[0573]
结果：除了包括在文库设计中的变体之外，还分析了在病毒文库产生期间由慢病毒逆转录酶随机引入的变体。这些新变体中的一些与阳性命中相关联并且可能在组合时进行靶向整合，并且它们可能需要以突变形式存在于hypb的变体形式中以进行靶向整合。d450n和w465a的实例示于图25中。
[0574]
实施例20中鉴定的突变pb序列列于表12(seq id no：120-129)。
[0575]
20.5.hypb文库筛选验证：
[0576]
使用前述rfp-gfp双转座子评估在筛选阳性命中(unilarge-a,-b,-c和unilarge-d)中鉴定的top1-1中所见的单个突变的几种组合的靶向和随机转座。红色荧光表示转染后约15天的总插入(rfp组成型表达)，并且gfp荧光表示靶向转座。
[0577]
结果：在所有情况下，当与cas9融合至hypb的wt形式比较时，观察到与具有4ggs接头的hypb的不同突变体组合融合的cas9的靶向插入相对于整体整合的增加(unilarge-a:d450n；unilarge-b:r245a/d450n；unilarge-c:r245a/g325a/d450n/s573p；unilarge-d:r245a/g325a/s573p)。一些测试的突变体组合(r245a/g325a/d450n/s573p)具有靶向插入的极大增加，高达总整合事件的30％，而不是hypb融合体(unilarge c)中的3％(图26)。
[0578]
下文实施例21提供了不同整合缺陷型病毒载体的发育状态以及最佳反式互补系统的概述；以及与in融合蛋白反式互补的数据。
[0579]
实施例21：不同整合酶缺陷系统的反式互补
[0580]
为了产生测试in融合蛋白的有效反式互补系统，通过将整合缺陷型病毒和反式互补病毒的不同条件感染到hek293t和jurkats细胞中来评估病毒生产效率及其整合能力。细胞传代7天，直到没有检测到附加体信号，并且在第2、5和7天通过流式细胞术分析gfp信号。
[0581]
结果：对于不同的系统可以检测不同的生产效率，即nilv在生产时接近wt。在所有情况下，当用wt-hiv_in进行反式互补时，整合活性的清楚拯救是明显的(图27)。通过蛋白质印迹获得in被加载在反式互补系统中的证据。
[0582]
表12.序列.“na序列”表示核酸序列并且“aa序列”表示氨基酸序列。
[0583]
[0584]
[0585]
[0586]
[0587]
[0588]
[0589]
[0590]
[0591]
[0592]
[0593]
[0594]
[0595]
[0596]
[0597]
[0598]
[0599]
[0600]
[0601]
[0602]
[0603]
[0604]
[0605]
[0606]

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A
技术所有人：庞培法布拉大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
2、张老师：1.探索新型氧化还原酶结构-功能关系，电催化反应机制 2.酶电催化导向的酶分子改造 3.纳米材料、生物功能多肽对酶-电极体系的影响4. 生物电化学传感和生物电合成体系的设计与应用。
3、豆老师：1.环境纳米材料及挥发性有机化合物（VOCs） 2.CO污染物的催化氧化 3.低温等离子体 4.吸脱附等控制技术
4、赵老师：1.高分子材料改性及加工技术 2.微孔及过滤材料 3.环境友好高分子材料
5、邬老师：1.高分子材料的共混与复合 2.涉及材料功能化及结构与性能的研究；高分子热稳定剂的研发
如您是高校老师，可以点此联系我们加入专家库。