用于治疗α1-抗胰蛋白酶缺乏症的组合物和方法与流程

文档序号:28963691发布日期:2022-02-19 13:53阅读:211来源:国知局
用于治疗α1-抗胰蛋白酶缺乏症的组合物和方法1.相关申请的交叉引用2.本技术为国际pct申请,其主张于2019年2月13日提交的美国临时申请号62/805,238;2019年2月13日提交的美国临时申请号62/805,271;2019年5月23日提交的美国临时申请号62/852,224;2019年5月23日提交的美国临时申请号62/852,228;2019年11月6日提交的美国临时申请号62/931,722;2019年11月27日提交的美国临时申请号62/941,569;以及2020年1月27日提交的美国临时申请号62/966,526的优先权,上述所有申请的内容以引用方式并入本文。3.以引用方式并入4.本文所述及的所有公开文献、专利和专利申请都以引用方式并入本文,程度就如同每一单独的公开文献、专利和专利申请明确且独立地指示为以引用方式并入。除非另有任何说明,否则本文所述及的公开文献、专利和专利申请通过引用其全文的方式并入本文。
背景技术
::5.健康个体中,α1-抗胰蛋白酶(a1at)是通过肝脏中的肝细胞产生且分泌至全身性循环发挥功能作为蛋白酶抑制剂。其为中性粒细胞弹性蛋白酶的特别优良的抑制剂,因而保护组织及器官如使肺部免于弹性蛋白降解。罹患α1-抗胰蛋白酶缺乏症(a1ad)的患者中,编码a1ad的基因中的突变造成减少的蛋白质产生。结果,肺中的弹性蛋白更容易地被中性粒细胞弹性蛋白酶降解,且随着时间推移,肺弹性的损失发展为慢性阻塞性肺部疾病(copd)。6.最常见病原的a1at变体为鸟嘌呤到腺嘌呤的突变导致在氨基酸342的谷氨酸被赖氨酸取代。此取代引起蛋白质在肝细胞中的错误折叠和多聚化,并且毒性凝集物最终可导致肝脏损伤和硬化。虽然肝脏毒性可通过基因剔除(crispr/zfn/talen)或基因减弱(sirna)予以解决,但无任一方案解决肺部病理学。虽然肺部病理学可利用蛋白质置换疗法解决,但此疗法也无法解决肝脏毒性。基因疗法也无法充分解决a1at基因缺陷。由于a1ad患者的肝脏已经具有内源性a1at引起的严重疾病负担,增加肝脏a1at的基因疗法有可能适得其反。7.因此,有需要一种同时解决肺部病理和肝脏毒性的治疗罹患a1ad患者的方法。技术实现要素:8.如下文所述,本发明的特征在于用于编辑与α1-抗胰蛋白酶缺乏症(a1ad)相关的有害突变的组合物和方法。在特定实施方案中,本发明提供使用名为“abe8”的经修饰的腺苷脱氨酶来治疗a1ad的方法,该酶具有前所未有的效率和特异性水平(例如,》60-70%),以修正与a1ad相关的突变。9.一方面,本发明提供编辑含有与α1-抗胰蛋白酶缺乏症相关的单核苷酸多态性(snp)的α1-抗胰蛋白酶多核苷酸的方法,该方法涉及将多核苷酸与一个或多个向导rna以及含有多核苷酸可编程dna结合结构域和至少一种碱基编辑器结构域的碱基编辑器接触,所述碱基编辑器结构域为在下述序列的氨基酸位置82或166含有变化的腺苷脱氨酶变体:10.msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcyffrmprqvfnaqkkaqsstd,其中向导rna靶向所述碱基编辑器以使与α1-抗胰蛋白酶缺乏症相关的snp产生变化。11.另一方面,本发明提供编辑含有与α1-抗胰蛋白酶缺乏症相关的单核甘多态性(snp)的α1-抗胰蛋白酶多核苷酸的方法,所述方法涉及将α1-抗胰蛋白酶多核苷酸与一个或多个向导rna以及含有多核苷酸可编程dna结合结构域的融合蛋白接触,所述结构域含有下述序列:12.aaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugcuuuu-3’[0017]5’‑ccaucgacaagaaagggacugaguuuuagagcuagaaauagcaaguuaaaauaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugcuuuu-3’[0018]5’‑caucgacaagaaagggacugaguuuuagagcuagaaauagcaaguuaaaauaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugcuuuu-3’[0019]5’‑aucgacaagaaagggacugaguuuuagagcuagaaauagcaaguuaaaauaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugcuuuu-3’[0020]5’‑ucgacaagaaagggacugaguuuuagagcuagaaauagcaaguuaaaauaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugcuuuu-3’[0021]5’‑cgacaagaaagggacugaguuuuagagcuagaaauagcaaguuaaaauaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugcuuuu-3’[0022]另一方面,一种细胞,其通过向该细胞或其祖细胞导入以下项而产生:[0023]碱基编辑器、编码该碱基编辑器的多核苷酸,其中该碱基编辑器含有描述于任何前述方面的多核苷酸可编程dna结合结构域和腺苷脱氨酶结构域;以及一个或多个向导多核苷酸,其靶向碱基编辑器以使与α1-抗胰蛋白酶缺乏症相关的snp产生a·t至g·c的变化。在一种实施方案中,产生的细胞为肝细胞或其祖细胞。另一实施方案中,该细胞来自具有α1-抗胰蛋白酶缺乏症的受试者。另一实施方案中,该细胞为哺乳动物细胞或人类细胞。[0024]上述方面之多种实施方案中,grna进一步含有核酸序列5’‑guuuuagagcuagaaauagcaaguuaaaauaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugcuuuu-3。[0025]又另一方面,本发明提供治疗受试者的α1-抗胰蛋白酶缺乏症的方法,涉及对该受试者施用任何前述方面的细胞。在一种实施方案中,该细胞对该受试者为自体的或同种异体的。[0026]又另一方面,本发明提供自前文所述方面及实施方案的细胞所繁殖或扩增的细胞的分离细胞或族群。[0027]又另一方面,本发明提供产生肝细胞的方法,涉及:(a)将碱基编辑器或编码该碱基编辑器的多核苷酸导入含有与α1-抗胰蛋白酶缺乏症相关的snp的肝细胞内,其中该碱基编辑器包含描述于前文所述的任一方面和实施方案中的多核苷酸-可编程核苷酸-结合结构域和腺苷脱氨酶变体结构域;以及导入一个或多个向导多核苷酸,其中该一个或多个向导多核苷酸靶向该碱基编辑器以使与α1-抗胰蛋白酶缺乏症相关的snp产生a·t至g·c变化。[0028]在多种实施方案中,肝细胞为哺乳动物细胞或人类细胞。[0029]上述方面的其他实施方案中,腺苷脱氨酶变体包含在氨基酸位置82和166处的变化。上述方面的其他实施方案中,腺苷脱氨酶变体包含v82s变化。上述方面的其他实施方案中,腺苷脱氨酶变体包含t166r变化。上述方面的其他实施方案中,腺苷脱氨酶变体包含v82s和t166r变化。上述方面的其他实施方案中,腺苷脱氨酶变体进一步包含下述变化的一个或多个:y147t、y147r、q154s、y123h和q154r。上述方面的其他实施方案中,腺苷脱氨酶变体包含下述变化:y147t+q154r;y147t+q154s;y147r+q154s;v82s+q154s;v82s+y147r;v82s+q154r;v82s+y123h;i76y+v82s;v82s+y123h+y147t;v82s+y123h+y147r;v82s+y123h+q154r;y147r+q154r+y123h;y147r+q154r+i76y;y147r+q154r+t166r;y123h+y147r+q154r+i76y;v82s+y123h+y147r+q154r;和i76y+v82s+y123h+y147r+q154r。前文所述方面的实施方案中,腺苷脱氨酶变体包含y147r+q154r+y123h。前文所述方面的实施方案中,腺苷脱氨酶变体包含y147r+q154r+i76y。前文所述方面的实施方案中,腺苷脱氨酶变体包含y147r+q154r+t166r。前文所述方面的实施方案中,腺苷脱氨酶变体包含y147t+q154r。前文所述方面的实施方案中,腺苷脱氨酶变体包含y147t+q154s。前文所述方面的实施方案中,腺苷脱氨酶变体包含y147r+q154s。前文所述方面的实施方案中,腺苷脱氨酶变体包含v82s+q154s。前文所述方面的实施方案中,腺苷脱氨酶变体包含v82s+y147r。前文所述方面的实施方案中,腺苷脱氨酶变体包含v82s+q154r。前文所述方面的实施方案中,腺苷脱氨酶变体包含v82s+y123h。前文所述方面的实施方案中,腺苷脱氨酶变体包含i76y+v82s。前文所述方面的实施方案中,腺苷脱氨酶变体包含v82s+y123h+y147t。前文所述方面的实施方案中,腺苷脱氨酶变体包含v82s+y123h+y147r。前文所述方面的实施方案中,腺苷脱氨酶变体包含v82s+y123h+q154r。前文所述方面的实施方案中,腺苷脱氨酶变体包含y123h+y147r+q154r+i76y。前文所述方面的实施方案中,腺苷脱氨酶变体包含v82s+y123h+y147r+q154r。前文所述方面的实施方案中,腺苷脱氨酶变体包含i76y+v82s+y123h+y147r+q154r。上述方面的其他实施方案中,腺苷脱氨酶变体包含起始于选自由149、150、151、152、153、154、155、156和157所组成的组的残基的c端的缺失。上述方面的其他实施方案中,碱基编辑器结构域包含含有v82s和t166r的单一腺苷脱氨酶变体。上述方面的其他实施方案中,碱基编辑器结构域包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体。上述方面的其他实施方案中,腺苷脱氨酶变体进一步包含选自由y147t、y147r、q154s、y123h、v82s、t166r、q154r所组成的组的变化。上述方面的其他实施方案中,碱基编辑器结构域包含tada7.10结构域和腺苷脱氨酶变体。上述方面的其他实施方案中,腺苷脱氨酶变体进一步包含选自由y147t、y147r、q154s、y123h、v82s、t166r、q154r所成组的组的变化。上述方面的其他实施方案中,碱基编辑器包含tada7.10结构域和含有选自由下述所组成的组的变化的腺苷脱氨酶变体:y147t+q154r;y147t+q154s;y147r+q154s;v82s+q154s;v82s+y147r;v82s+q154r;v82s+y123h;i76y+v82s;v82s+y123h+y147t;v82s+y123h+y147r;v82s+y123h+q154r;y147r+q154r+y123h;y147r+q154r+i76y;y147r+q154r+t166r;y123h+y147r+q154r+i76y;v82s+y123h+y147r+q154r;和i76y+v82s+y123h+y147r+q154r。上述方面的其他实施方案中,碱基编辑器为abe8,其包含具有腺苷脱氨酶活性的下述序列或其片段或主要由其组成:[0030]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallctffrmprqvfnaqkkaqsstd。上述方面的其他实施方案中,腺苷脱氨酶变体包含截短的abe8,其相对于全长abe8为缺失1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个n-端氨基酸残基。上述方面的其他实施方案中,腺苷脱氨酶变体为截短的abe8,其相对于全长abe8为缺失1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个n-端氨基酸残基。[0031]上述方面的其他实施方案中,在与α1-抗胰蛋白酶缺乏症相关的snp的a·t至g·c变化将α1-抗胰蛋白酶多肽中的谷氨酸改变为赖氨酸。上述方面的其他实施方案中,与α1-抗胰蛋白酶缺乏症相关的snp造成在氨基酸位置342处具有赖氨酸的α1-抗胰蛋白酶多肽的表达。上述方面的其他实施方案中,与α1-抗胰蛋白酶缺乏症相关的snp以赖氨酸取代谷氨酸。上述方面的其他实施方案中,细胞被选择用于与α1-抗胰蛋白酶缺乏症相关的snp的a·t至g·c变化。上述方面的其他实施方案中,多核苷酸可编程dna结合结构域为经修饰的金黄色葡萄球菌(staphylococcusaureus)cas9(sacas9)、嗜热链球菌(streptococcusthermophilus)1cas9(st1cas9)、经修饰的化脓性链球菌(streptococcuspyogenes)cas9(spcas9)、或其变体。上述方面的其他实施方案中,多核苷酸可编程dna结合结构域包含具有变化的原间隔序列相邻基序(pam)特异性或对于非-gpam具特异性的spcas9的变体。上述方面的其他实施方案中,改变的pam对于核酸序列5’‑ngc-3’具有特异性。上述方面的其他实施方案中,经修饰的spcas9包含氨基酸取代d1135m、s1136q、g1218k、e1219f、a1322r、d1332a、r1335e和t1337r,或其对应的氨基酸取代。上述方面的其他实施方案中,多核苷酸可编程dna结合结构域为核酸酶失活或切口酶变体。上述方面的其他实施方案中,切口酶变体包含氨基酸取代d10a或其对应的氨基酸取代。上述方面的其他实施方案中,碱基编辑器进一步包含锌指结构域。上述方面的其他实施方案中,腺苷脱氨酶结构域能将脱氧核糖核酸(dna)中的腺苷脱氨。上述方面的其他实施方案中,一个或多个向导rna包含crisprrna(crrna)和反向编码小rna(tracrrna),其中该crrna包含与含有与α1-抗胰蛋白酶缺乏症相关的snp的α1-抗胰蛋白酶核酸序列互补的核酸序列。上述方面的其他实施方案中,碱基编辑器和该一个或多个向导多核苷酸在细胞中形成复合物。上述方面的其他实施方案中,碱基编辑器与单一向导rna(sgrna)复合,该单一向导rna含有与含有与α1-抗胰蛋白酶缺乏症相关的snp的α1-抗胰蛋白酶核酸序列互补的核酸序列。[0032]另一方面,提供治疗受试者的α1-抗胰蛋白酶缺乏症(a1ad)的方法,其中该方法包含对该受试者施用包含其中已插入cas9或cas12多肽的腺苷脱氨酶变体的融合蛋白,或编码其融合蛋白的多核苷酸;和一个或多个向导多核苷酸,其靶向该融合蛋白以使与a1ad相关的单一核苷酸多态性(snp)产生a·t至g·c变化,从而治疗该受试者的a1ad。[0033]另一方面,提供治疗受试者的α1-抗胰蛋白酶缺乏症(a1ad)的方法,其中该方法包含对该受试者施用腺苷碱基编辑器abe8,或编码该碱基编辑器的多核苷酸,其中abe8包含其中已插入cas9或cas12多肽的腺苷脱氨酶变体;和一个或多个向导多核苷酸,其靶向abe8以使与a1ad相关的snp产生a·t至g·c变化,从而治疗该受试者的a1ad。[0034]在前文所述方法的实施方案中,abe8选自abe8.1-m、abe8.2-m、abe8.3-m、abe8.4-m、abe8.5-m、abe8.6-m、abe8.7-m、abe8.8-m、abe8.9-m、abe8.10-m、abe8.11-m、abe8.12-m、abe8.13-m、abe8.14-m、abe8.15-m、abe8.16-m、abe8.17-m、abe8.18-m、abe8.19-m、abe8.20-m、abe8.21-m、abe8.22-m、abe8.23-m、abe8.24-m、abe8.1-d、abe8.2-d、abe8.3-d、abe8.4-d、abe8.5-d、abe8.6-d、abe8.7-d、abe8.8-d、abe8.9-d、abe8.10-d、abe8.11-d、abe8.12-d、abe8.13-d、abe8.14-d、abe8.15-d、abe8.16-d、abe8.17-d、abe8.18-d、abe8.19-d、abe8.20-d、abe8.21-d、abe8.22-d、abe8.23-d或abe8.24-d。在前文所述方法的实施方案中,腺苷脱氨酶变体包含氨基酸序列:[0035]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcyffrmprqvfnaqkkaqsstd;并且其中该氨基酸序列包含至少一个变化。在实施方案中,腺苷脱氨酶变体包含在氨基酸位置82和/或166处的变化。在实施方案中,该至少一个变化包含:v82s、t166r、y147t、y147r、q154s、y123h和/或q154r。[0036]在前文所述方法的实施方案中,腺苷脱氨酶变体包含下述组合变化的一者:y147t+q154r;y147t+q154s;y147r+q154s;v82s+q154s;v82s+y147r;v82s+q154r;v82s+y123h;i76y+v82s;v82s+y123h+y147t;v82s+y123h+y147r;v82s+y123h+q154r;y147r+q154r+y123h;y147r+q154r+i76y;y147r+q154r+t166r;y123h+y147r+q154r+i76y;v82s+y123h+y147r+q154r;和i76y+v82s+y123h+y147r+q154r。在前文所述方法的实施方案中,腺苷脱氨酶变体为tada*8.1、tada*8.2、tada*8.3、tada*8.4、tada*8.5、tada*8.6、tada*8.7、tada*8.8、tada*8.9、tada*8.10、tada*8.11、tada*8.12、tada*8.13、tada*8.14、tada*8.15、tada*8.16、tada*8.17、tada*8.18、tada*8.19、tada*8.20、tada*8.21、tada*8.22、tada*8.23或tada*8.24。在实施方案中,腺苷脱氨酶变体包含起始于选自由149、150、151、152、153、154、155、156和157所组成的组的残基的c端的缺失。在实施方案中,腺苷脱氨酶变体为包含tada*8腺苷脱氨酶变体结构域的腺苷脱氨酶的单体。在实施方案中,腺苷脱氨酶变体为包含野生型腺苷脱氨酶结构域和tada*8腺苷脱氨酶变体结构域的腺苷脱氨酶异源二聚体。在实施方案中,腺苷脱氨酶变体为包含tada结构域和tada*8腺苷脱氨酶变体结构域的腺苷脱氨酶异源二聚体。[0037]在前文所述方法的实施方案中,在与a1ad相关的snp的a·t至g·c变化将氨基酸位置342处的谷氨酸改变为赖氨酸。在前文所述方法的实施方案中,与a1ad相关的snp造成在氨基酸位置342处具有赖氨酸的α1-抗胰蛋白酶多肽的表达。在前文所述方法的实施方案中,其中与α1-抗胰蛋白酶缺乏症相关的snp以赖氨酸取代谷氨酸。[0038]在前文所述方法的实施方案中,腺苷脱氨酶变体插入cas9或cas12多肽的柔性圈环、α螺旋区、未结构化部分或溶剂可及部分内。前文所述方法的实施方案中,腺苷脱氨酶变体的两侧翼为cas9或cas12多肽的n-端片段及c-端片段。[0039]在前文所述方法的实施方案中,融合蛋白或abe8包含cas9或cas12多肽的结构nh2-[cas9或cas12多肽的n-端片段]-[腺苷脱氨酶变体]-[cas9或cas12多肽的c-端片段]-cooh,其中各情况的“]-[”为任选的连接子。在实施方案中,n端片段的c-端或c端片段的n-端包含部分的cas9或cas12多肽的柔性圈环。在实施方案中,当腺苷脱氨酶变体将靶标核碱基脱氨时,柔性圈环包含接近靶标核碱基的氨基酸。[0040]在前文所述方法的实施方案中,该方法进一步包含对该受试者施用向导核酸序列以使与a1ad相关的snp靶标核碱基发生脱氨作用。在前文所述方法的实施方案中,snp靶标核碱基的脱氨作用以野生型核碱基或非-野生型核碱基替换靶标核碱基,以及其中靶标核碱基的脱氨作用缓和a1ad的症状。在前文所述方法的实施方案中,与a1ad相关的snp的脱氨作用将谷氨酸取代为赖氨酸。[0041]在前文所述方法的实施方案中,靶标多核苷酸序列中的靶标核碱基与pam序列相距1-20个核碱基。在实施方案中,靶标核碱基为pam序列上游2-12个核碱基。在前文所述方法的实施方案中,cas9或cas12多肽的n-端片段或c-端片段结合靶标多核苷酸序列。在某些实施方案中,n-端片段或c-端片段包含ruvc结构域;n-端片段或c-端片段包含hnh结构域;n-端片段和c-端片段均不包含hnh结构域;或n-端片段和c-端片段均不包含ruvc结构域。在实施方案中,cas9或cas12多肽包含一个或多个结构性结构域的部分或完全缺失以及其中该脱氨酶已插入cas9或cas12多肽的部分或完全缺失的位置。在某些实施方案中,缺失是在ruvc结构域内;该缺失是在hnh结构域内;或该缺失桥连ruvc结构域和c-端结构域。[0042]前文所述方法的实施方案中,融合蛋白或abe8包含cas9多肽。在实施方案中,cas9多肽为化脓性链球菌(streptococcuspyogenes)cas9(spcas9)、金黄色葡萄球菌(staphylococcusaureus)cas9(sacas9)、嗜热链球菌(streptococcusthermophilus)1cas9(st1cas9)、或其变体。在实施方案中,cas9多肽包含下述氨基酸序列(cas9参照序列):[0043]043](单下划线:hnh结构域;双下划线:ruvc结构域;cas9参照序列),或其对应区。某些实施方案中,cas9多肽包含如在cas9多肽参照序列中编号的氨基酸1017-1069或其对应氨基酸的缺失;cas9多肽包含如在cas9多肽参照序列中编号的氨基酸792-872或其对应氨基酸的缺失;或cas9多肽包含如在cas9多肽参照序列中编号的氨基酸792-906或其对应氨基酸的缺失。[0044]在前文所述方法的实施方案中,腺苷脱氨酶变体插入于cas9多肽的柔性圈环内。在实施方案中,柔性圈环包含选自由如在cas9参照序列中编号的位置530-537、569-579、686-691、768-793、943-947、1002-1040、1052-1077、1232-1248和1298-1300的氨基酸残基,或其对应氨基酸位置所组成群的组的区。[0045]在前文所述方法的实施方案中,脱氨酶变体为插入在如cas9参照序列中编号的氨基酸位置768-769、791-792、792-793、1015-1016、1022-1023、1026-1027、1029-1030、1040-1041、1052-1053、1054-1055、1067-1068、1068-1069、1247-1248或1248-1249,或其对应的氨基酸位置之间。在前文所述方法的实施方案中,脱氨酶变体为插入在如cas9参照序列中编号的氨基酸位置768-769、792-793、1022-1023、1026-1027、1040-1041、1068-1069或1247-1248,或其对应氨基酸位置之间。在前文所述方法的实施方案中,脱氨酶变体为插入在如cas9参照序列中编号的氨基酸位置1016-1017、1023-1024、1029-1030、1040-1041、1069-1070或1247-1248,或其对应氨基酸位置之间。在前文所述方法的实施方案中,腺苷脱氨酶变体插入在cas9多肽内的表13a鉴定的基因座处。在实施方案中,n-端片段包含cas9参照序列的氨基酸残基1-529、538-568、580-685、692-942、948-1001、1026-1051、1078-1231和/或1248-1297,或其对应残基。在实施方案中,c-端片段包含cas9参照序列的氨基酸残基1301-1368、1248-1297、1078-1231、1026-1051、948-1001、692-942、580-685和/或538-568,或其对应残基。[0046]在前文所述方法的实施方案中,cas9多肽为经修饰的cas9且对于改变的pam或非-gpam聚有特异性。在前文所述方法的实施方案中,cas9多肽为切口酶或其中所述cas9多肽为核酸酶失活。在前文所述方法的实施方案中,cas9多肽为经修饰的spcas9多肽。在实施方案中,经修饰的spcas9多肽包括氨基酸取代d1135m、s1136q、g1218k、e1219f、a1322r、d1332a、r1335e和t1337r(spcas9-mqkfraer)并且对改变的pam5’‑ngc-3’具有特异性。[0047]在前文所述方法的其他实施方案中,融合蛋白或abe8包含cas12多肽。在实施方案中,腺苷脱氨酶变体插入cas12多肽内。在实施方案中,cas12多肽为cas12a、cas12b、cas12c、cas12d、cas12e、cas12g、cas12h或cas12i.在实施方案中,腺苷脱氨酶变体插入下述氨基酸位置间:a)bhcas12b的153-154、255-256、306-307、980-981、1019-1020、534-535、604-605或344-345,或cas12a、cas12c、cas12d、cas12e、cas12g、cas12h或cas12i的对应氨基酸残基;b)bvcas12b的147和148、248和249、299和300、991和992或1031和1032,或cas12a、cas12c、cas12d、cas12e、cas12g、cas12h或cas12i的对应氨基酸残基;或c)aacas12b的157和158、258和259、310和311、1008和1009或1044和1045,或cas12a、cas12c、cas12d、cas12e、cas12g、cas12h或cas12i的对应氨基酸残基。在实施方案中,腺苷脱氨酶变体插入cas12多肽的表13b鉴定的基因座处。在实施方案中,cas12多肽为cas12b。在实施方案中,cas12多肽包含bhcas12b结构域、bvcas12b结构域或aacas12b结构域。[0048]在前文所述方法的实施方案中,向导rna包含crisprrna(crrna)和反向活化crrna(tracrrna)。在前文所述方法的实施方案中,受试者为哺乳动物或人类。[0049]另一方面,提供一种医药组合物,其包含前文所述方法、方面和实施方案的任一者的碱基编辑系统和药学上可接受的载剂、媒介物或赋形剂。[0050]一方面,提供一种医药组合物,其包含前文所述方面和实施方案的细胞以及药学上可接受的载剂、媒介物或赋形剂。[0051]另一方面,提供一种试剂盒,其包含前文所述方法、方面和实施方案的任一者的碱基编辑系统。[0052]另一方面,提供一种试剂盒,包含前文所述方面和实施方案的任一者的细胞。在试剂盒的一种实施方案中,该试剂盒进一步包含具有使用说明书的包装插页。[0053]一方面,本文提供一种碱基编辑器,其包含多核苷酸可编程dna结合结构域和包含腺苷脱氨酶变体的至少一个碱基编辑结构域,所述腺苷脱氨酶变体包含在下述序列的氨基酸位置82或166的变化[0054]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcyffrmprqvfnaqkkaqsstd。[0055]一方面,碱基编辑器系统包含前文所述碱基编辑器和向导rna,其中该向导rna靶向该碱基编辑器以使与α1-抗胰蛋白酶缺乏症相关的snp产生变化。在一些实施方案中,腺苷脱氨酶变体包含v82s变化和/或t166r变化。在一些实施方案中,腺苷脱氨酶变体进一步包含下述变化的一个或多个:y147t、y147r、q154s、y123h和q154r。在一些实施方案中,碱基编辑器结构域包含腺苷脱氨酶异源二聚体,所述腺苷脱氨酶异源二聚体包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体。在一些实施方案中,腺苷脱氨酶变体为截短的tada8,其相对于全长度tada8为缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个n-端氨基酸残基。在一些实施方案中,腺苷脱氨酶变体为截短的tada8,其相对于全长度tada8为缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个c-端氨基酸残基。在一些实施方案中,多核苷酸可编程dna结合结构域为经修饰的金黄色葡萄球菌(staphylococcusaureus)cas9(sacas9)、嗜热链球菌(streptococcusthermophilus)1cas9(st1cas9)、经修饰的化脓性链球菌(streptococcuspyogenes)cas9(spcas9),或其变体。在一些实施方案中,多核苷酸可编程dna结合结构域为具有改变的原间隔序列相邻基序(pam)特异性或对于非-gpam的特异性的spcas9的变体。在一些实施方案中,多核苷酸可编程dna结合结构域为核酸酶失活cas9。在一些实施方案中,多核苷酸可编程dna结合结构域为cas9切口酶。[0056]一方面,本文提供一种碱基编辑器系统,其包含一个或多个向导rna和包含多核苷酸可编程dna结合结构域的融合蛋白,所述结合结构域包含下述序列:[0057][0057]其中粗体序列表示衍生自cas9的序列,斜体字序列表示连接子序列,并且下划线序列表示双分型核定位序列,以及包含腺苷脱氨酶变体的至少一个碱基编辑结构域,所述腺苷脱氨酶变体包含在下述序列的氨基酸位置82和/或166的变化[0058]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcyffrmprqvfnaqkkaqsstd。[0059]一方面,提供一种包含前文所述碱基编辑器系统的细胞。在一些实施方案中,细胞为人类细胞或哺乳动物细胞。在一些实施方案中,其中所述细胞为离体的、体内的或体外的。[0060]本发明提供用于编辑与α1-抗胰蛋白酶缺乏症(a1ad)相关的突变的组合物和方法。本发明所定义的组合物和物品是经分离的或者与下文所提供的实施例关联制造。本发明的其他特征和优点将由详细说明和权利要求书而明显可知。[0061]定义[0062]以下定义补充所属
技术领域
:中的定义,并且针对当前申请,不应归责于任何相关或不相关的案例,例如,任何共同拥有的专利或申请。虽然在实施中可以使用与本文描述的该些相似或等效的任何方法和材料来测试本公开,但是本文描述了优选的材料和方法。因此,本文中使用的术语仅用于描述特定实施例的目的,而非旨在限制。[0063]除非另有定义,否则本文使用的所有技术和科学术语均具有本发明所属领域的技术人员通常理解的含义。以下内容为技术人员提供了本发明中使用的许多术语的一般定义:singleton等人,dictionaryofmicrobiology和molecularbiology(2nded.1994);thecambridgedictionaryofscience和technology(walkered.,1988);theglossaryofgenetics,5thed.,r.rieger等人(编),springerverlag(1991);和hale&marham,theharpercollinsdictionaryofbiology(1991)。[0064]在本技术中,除非另有特别说明,否则单数的使用包括复数。必须指出的是,除非上下文另有明确规定,否则本说明书中使用的单数形式“一”(a)、“一”(an)和“该”(the)包括复数参照项。在此申请中,除非另有说明,否则“或”的使用意为“和/或”,并且被理解为包括在内。此外,使用术语“包括”(including)以及其他形式,例如“包括”(include)、“包括”(includes)和“包括”(included),不是限制性的。[0065]本说明书和权利要求中使用的词语“包含”(comprising)(和任何形式的包含,例如“包含”(comprise)和“包含”(comprises))、“具有”(having)(和任何形式的具有,例如“具有”(have)和“具有”(has))、“包括”(including)(和任何形式的包括,例如“包括”(includes)和“包括”(include))或“含有”(containing)(和任何形式的含有,例如“含有”(contains)和“含有”(contain))是包容性的或开放性的,并且不排除额外的、未提及的元件或方法步骤。预期本说明书中讨论的任何实施方案可以关于本公开的任何方法或组合物实施,反之亦然。此外,本公开的组合物可用于实现本公开的方法。[0066]术语“约”或“大约”是指在由本领域所属技术人员确定的特定值的可接受误差范围内,这将部分地取决于该值是如何测量或确定的,即测量系统的限制。例如,根据本领域的实践,“约”可以表示在1个标准偏差以内或超过1个标准偏差。或者,“约”可以表示给定值的最多20%、最多10%、最多5%或最多1%的范围。或者,特别是对于生物系统或过程,该术语可表示在一个数量级内,例如在值的5倍内或2倍内。在申请和权利要求中描述特定值的情况下,除非另有说明,否则应假定术语“约”的含义在特定值的可接受误差范围内。[0067]本文提供的范围理解为范围内的所有值的简写,包括第一个和最后一个值。例如,1到50的范围理解为包括来自由下列所组成的组的任何数字、数字组合或子范围:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50。[0068]说明书中对“一些实施方案”、“一实施方案”、“一种实施方案”或“其他实施方案”的引用是指结合实施方案描述的特定特征、结构或特性包括在至少一些实施方案中,但不必包括在本公开的所有实施方案中。[0069]“腺苷脱氨酶”意指能催化腺嘌呤或腺苷的水解脱氨作用的多肽或其片段。在一些实施方案中,脱氨酶或脱氨酶结构域为催化腺苷到肌苷或脱氧腺苷到脱氧肌苷的水解脱氨作用的腺苷脱氨酶。在一些实施方案中,腺苷脱氨酶催化脱氧核糖核酸(dna)中的腺嘌呤或腺苷的水解脱氨作用。本文提供的腺苷脱氨酶(例如,工程化的腺苷脱氨酶、进化的腺苷脱氨酶)可以为来自任何有机体,如细菌。[0070]在一些实施方案中,腺苷脱氨酶包含下述序列中的变化:[0071]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcyffrmprqvfnaqkkaqsstd[0072](也命名为tada*7.10)。[0073]在一些实施方案中,tada*7.10包含至少一个变化。在一些实施方案中,tada*7.10包含在氨基酸82和/或166的变化。在特定实施方案中,上述参照序列的变体包含下列变化中的一个或多个:y147t、y147r、q154s、y123h、v82s、t166r和/或q154r。变化y123h在本文中也称为h123h(tada*7.10中的变化h123y逆转为y123h(wt))。在其他实施方案中,tada*7.10序列的变体包含选自由下列所组成的组的变化组合:y147t+q154r;y147t+q154s;y147r+q154s;v82s+q154s;v82s+y147r;v82s+q154r;v82s+y123h;i76y+v82s;v82s+y123h+y147t;v82s+y123h+y147r;v82s+y123h+q154r;y147r+q154r+y123h;y147r+q154r+i76y;y147r+q154r+t166r;y123h+y147r+q154r+i76y;v82s+y123h+y147r+q154r;和i76y+v82s+y123h+y147r+q154r。[0074]在其他实施方案中,本发明提供包括缺失的腺苷脱氨酶变体,例如,tada*8,其包含起始于残基149、150、151、152、153、154、155、156或157的c端的缺失。在其他实施方案中,腺苷脱氨酶变体为tada(例如,tada*8)单体,其包含下列变化中的一个或多个:y147t、y147r、q154s、y123h、v82s、t166r和/或q154r。在其他实施方案中,腺苷脱氨酶变体为单体,其包含选自由下列所组成的组的变化组合:y147t+q154r;y147t+q154s;y147r+q154s;v82s+q154s;v82s+y147r;v82s+q154r;v82s+y123h;i76y+v82s;v82s+y123h+y147t;v82s+y123h+y147r;v82s+y123h+q154r;y147r+q154r+y123h;y147r+q154r+i76y;y147r+q154r+t166r;y123h+y147r+q154r+i76y;v82s+y123h+y147r+q154r;和i76y+v82s+y123h+y147r+q154r。[0075]在又其他实施方案中,腺苷脱氨酶变体为同源二聚体,其包含二个腺苷脱氨酶结构域(例如,tada*8),各具有下列变化中的一个或多个:y147t、y147r、q154s、y123h、v82s、t166r和/或q154r。在其他实施方案中,腺苷脱氨酶变体为同源二聚体,其包含二个腺苷脱氨酶结构域(例如,tada*8),各具有选自由下列所组成的组的变化组合:y147t+q154r;y147t+q154s;y147r+q154s;v82s+q154s;v82s+y147r;v82s+q154r;v82s+y123h;i76y+v82s;v82s+y123h+y147t;v82s+y123h+y147r;v82s+y123h+q154r;y147r+q154r+y123h;y147r+q154r+i76y;y147r+q154r+t166r;y123h+y147r+q154r+i76y;v82s+y123h+y147r+q154r;和i76y+v82s+y123h+y147r+q154r。[0076]在其他实施方案中,腺苷脱氨酶变体为异源二聚体,其包含野生型tada腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如,tada*8),所述腺苷脱氨酶变体结构域包含下列变化中的一个或多个:y147t、y147r、q154s、y123h、v82s、t166r和/或q154r。在其他实施方案中,腺苷脱氨酶变体为异源二聚体,其包含野生型tada腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如,tada*8),所述腺苷脱氨酶变体结构域包含选自由下列所组成的组的变化组合:y147t+q154r;y147t+q154s;y147r+q154s;v82s+q154s;v82s+y147r;v82s+q154r;v82s+y123h;i76y+v82s;v82s+y123h+y147t;v82s+y123h+y147r;v82s+y123h+q154r;y147r+q154r+y123h;y147r+q154r+i76y;y147r+q154r+t166r;y123h+y147r+q154r+i76y;v82s+y123h+y147r+q154r;和i76y+v82s+y123h+y147r+q154r。[0077]在其他实施方案中,腺苷脱氨酶变体为异源二聚体,其包含tada*7.10结构域和腺苷脱氨酶变体结构域(例如,tada*8),所述腺苷脱氨酶变体结构域包含下列变化中的一个或多个:y147t、y147r、q154s、y123h、v82s、t166r和/或q154r。在其他实施方案中,腺苷脱氨酶变体为异源二聚体,其包含tada*7.10结构域和腺苷脱氨酶变体结构域(例如,tada*8),所述腺苷脱氨酶变体结构域包含下列变化组合:y147t+q154r;y147t+q154s;y147r+q154s;v82s+q154s;v82s+y147r;v82s+q154r;v82s+y123h;i76y+v82s;v82s+y123h+y147t;v82s+y123h+y147r;v82s+y123h+q154r;y147r+q154r+y123h;y147r+q154r+i76y;y147r+q154r+t166r;y123h+y147r+q154r+i76y;v82s+y123h+y147r+q154r;ori76y+v82s+y123h+y147r+q154r。[0078]在一种实施方案中,腺苷脱氨酶为tada*8,其包含具有腺苷脱氨酶活性的下述序列或其片段或主要由其组成:[0079]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallctffrmprqvfnaqkkaqsstd.[0080]在一些实施方案中,tada*8为截短的。在一些实施方案中,截短的tada*8相对于全长度tada*8为缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个n-端氨基酸残基。在一些实施方案中,截短的tada*8相对于全长度tada*8为缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个c-端氨基酸残基。在一些实施方案中,腺苷脱氨酶变体为全长tada*8。[0081]在特定实施方案中,腺苷脱氨酶异源二聚体包含tada*8结构域和选自下列之一的腺苷脱氨酶结构域:[0082]金黄色葡萄球菌(staphylococcusaureus)(s.aureus)tada:[0083]mgshmtndiyfmtlaieeakkaaqlgevpigaiitkddeviarahnlretlqqptahaehiaieraakvlgswrlegctlyvtlepcvmcagtivmsriprvvygaddpkggcsgslmnllqqsnfnhraivdkgvlkeacstllttffknlrankkstn[0084]枯草杆菌(bacillussubtilis)(b.subtilis)tada:[0085]mtqdelymkeaikeakkaeekgevpigavlvingeiiarahnlreteqrsiahaemlvideackalgtwrlegatlyvtlepcpmcagavvlsrvekvvfgafdpkggcsgtlmnllqeerfnhqaevvsgvleeecggmlsaffrelrkkkkaarknlse[0086]鼠伤寒沙门氏菌(salmonellatyphimurium)(s.typhimurium)tada:[0087]mppafitgvtslsdveldheywmrhaltlakrawderevpvgavlvhnhrvigegwnrpigrhdptahaeimalrqgglvlqnyrlldttlyvtlepcvmcagamvhsrigrvvfgardaktgaagslidvlhhpgmnhrveiiegvlrdecatllsdffrmrrqeikalkkadraegagpav[0088]腐败希瓦氏菌(shewanellaputrefaciens)(s.putrefaciens)tada:[0089]mdeywmqvamqmaekaeaagevpvgavlvkdgqqiatgynlsisqhdptahaeilclrsagkklenyrlldatlyitlepcamcagamvhsriarvvygardektgaagtvvnllqhpafnhqvevtsgvlaeacsaqlsrffkrrrdekkalklaqraqqgie[0090]流感嗜血杆菌(haemophilusinfluenzae)f3031(h.influenzae)tada:[0091]mdaakvrsefdekmmryaleladkaealgeipvgavlvddarniigegwnlsivqsdptαηaeiialrngakniqnyrllnstlyvtlepctmcagailhsrikrlvfgasdyktgaigsrfhffddykmnhtleitsgvlaeecsqklstffqkrreekkiekallkslsdk[0092]新月柄杆菌(caulobactercrescentus)(c.crescentus)tada:[0093]mrtdesedqdhrmmrlaldaaraaaeagetpvgavildpstgeviatagngpiaahdptahaeiaamraaaaklgnyrltdltlvvtlepcamcagaisharigrvvfgaddpkggavvhgpkffaqptchwrpevtggvladesadllrgffrarrkaki[0094]硫还原地杆菌(geobactersulfurreducens)(g.sulfurreducens)tada:[0095]msslkktpirddaywmgkaireaakaaardevpigavivrdgavigrghnlregsndpsahaemiairqaarrsanwrltgatlyvtlepclmcmgaiilarlervvfgcydpkggaagslydlsadprlnhqvrlspgvcqeecgtmlsdffrdlrrrkkakatpalfiderkvppep[0096]tada*7.10[0097]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcyffrmprqvfnaqkkaqsstd[0098]“腺苷脱氨酶碱基编辑器8(abe8)多肽”意指如本文所定义和/或描述的包含腺苷脱氨酶变体的碱基编辑器(be),所述腺苷脱氨酶变体包含下述参照序列的氨基酸位置82和/或166的变化:msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcyffrmprqvfnaqkkaqsstd。在一些实施方案中,abe8相对于参照序列包含进一步的变化。[0099]“腺苷脱氨酶碱基编辑器8(abe8)多核苷酸”意指编码abe8多肽的多核苷酸(多核苷酸序列)。[0100]“施用”在本文中是指向患者或受试者提供本文所述的一种或多种组合物。例如但不限于,组合物施用例如注射可以通过静脉内(iv)注射、皮下(sc)注射、皮内(id)注射、腹膜内(ip)注射或肌内(im)注射进行。可以采用一种或多种此类途径。肠胃外施用可以例如通过推注或随着时间的推移逐渐灌注进行。或者或同时,可以通过口服途径施用。[0101]“剂”意指任何小分子化学化合物、抗体、核酸分子或多肽或其片段。[0102]“α1-抗胰蛋白酶(a1at)蛋白质”意指对于uniprot登录号p01009具有至少约95%同一性的多肽或其片段。在特定实施方案中,a1at蛋白质相对于下述参照序列包含一个或多个变化。在一种特定实施方案中,与a1ad相关的a1at蛋白质包含e342k突变。例示性a1at氨基酸序列提供于下。[0103]》sp|p01009|a1at_humanα-1-antitrypsinos=homosapiensox=9606gn=serpina1pe=1sv=3[0104]mpssvswgilllaglcclvpvslaedpqgdaaqktdtshhdqdhptfnkitpnlaefafslyrqlahqsnstniffspvsiatafamlslgtkadthdeileglnfnlteipeaqihegfqellrtlnqpdsqlqlttgnglflseglklvdkfledvkklyhseaftvnfgdteeakkqindyvekgtqgkivdlvkeldrdtvfalvnyiffkgkwerpfevkdteeedfhvdqvttvkvpmmkrlgmfniqhckklsswvllmkylgnataifflpdegklqhlenelthdiitkflenedrrsaslhlpklsitgtydlksvlgqlgitkvfsngadlsgvteeaplklskavhkavltidekgteaagamfleaipmsippevkfnkpfvflmieqntksplfmgkvvnptqk[0105]上述a1at蛋白质序列中,前面的24个氨基酸组成信号肽(下划线)。序列的位置342,其在aad中突变(即,e342k),基于将信号序列后的氨基酸残基“e”设定为氨基酸“1”而确定。[0106]“变化”意指通过如本文所描述的所属
技术领域
:周知的标准方法所检测的基因或多肽的结构、表达水平或活性中的改变(例如,增加或减少)。如使用于本文,变化包括在多核苷酸或多肽中的改变或在表达水平上的改变,如25%改变、40%改变、50%改变或更多。[0107]“缓和”意指减少、压抑、消除、阻止或稳定疾病的发展或进展。[0108]“类似物”意指其不相同但具有类似的功能或结构的特征的分子。例如,多核苷酸或多肽类似物保有对应的天然出现的多核甘酸或多肽的生物活性,但具有相对于天然出现的多核苷酸或多肽为增强类似物的功能的某些修饰。该等修饰可增加类似物对于dna的亲和性、效率、特异性、蛋白酶或核酸酶阻抗性、膜渗透性和/或半衰期,而不变化,例如,配体结合。类似物可包括非天然的和苷酸或氨基酸。[0109]“碱基编辑器(be)”或“核碱基编辑器(nbe)”意指其结合多核苷酸且具有核碱基修饰活性的剂。在多种实施方案中,碱基编辑器包含核碱基修饰多肽(例如,脱氨酶)和连结向导多核苷酸(例如,向导rna)的核酸可编程核苷酸结合结构域。在多种实施方案中,剂为包含具有碱基编辑活性的蛋白质结构域的双分子复合物,即能修饰核酸分子(例如,dna)内的碱基(例如,a、t、c、g或u)的结构域。在一些实施方案中,多核苷酸可编程dna结合结构域融合或连接至脱氨酶结构域。在一种实施方案中,剂为包含具有碱基编辑活性的结构域的融合蛋白。在另一实施方案中,具有碱基编辑活性的蛋白质结构域连接至向导rna(例如,经由向导rna上的rna结合基序和融合至脱氨酶的rna结合结构域)。在一些实施方案中,具有碱基编辑活性的结构域能够将核酸分子内的碱基脱氨。在一些实施方案中,碱基编辑器能够将dna分子内的一个或多个碱基脱氨。在一些实施方案中,碱基编辑器能够将dna内的腺苷(a)脱氨。在一些实施方案中,碱基编辑器为腺苷碱基编辑器(abe)。[0110]在一些实施方案中,碱基编辑器是通过将腺苷脱氨酶变体(例如,tada*8)克隆至包括环状排列cas9(例如,spcas9或sacas9)和双分型核定位序列的支架而产生的(例如,abe8)。环状排列cas9为所述
技术领域
:所周知并且描述于例如oakesetal.,cell176,254–267,2019中。例示性环状排列依照粗体序列表示衍生自cas9的序列,斜体字序列表示连接子序列,并且下划线序列表示双分型核定位序列。[0111]cp5(具msp“ngc=具突变正规cas9如ngg的pam变体”pid=蛋白质相互作用结构域和“d10a”切口酶):[0112][0113][0114]在一些实施方案中,abe8选自来自下文表6至9、13或14的碱基编辑器。在一些实施方案中,abe8含有自tada进化的腺苷脱氨酶变体。在一些实施方案中,abe8的腺苷脱氨酶变体为如下文表7、9、13或14中所述的tada*8变体。在一些实施方案中,腺苷脱氨酶变体为tada*7.10变体(例如,tada*8),其包含选自下列组的变化中的一个或多个:y147t、y147r、q154s、y123h、v82s、t166r和/或q154r。在多种实施方案中,abe8包含tada*7.10变体(例如,tada*8),其具有选自下列组的变化组合:y147t+q154r;y147t+q154s;y147r+q154s;v82s+q154s;v82s+y147r;v82s+q154r;v82s+y123h;i76y+v82s;v82s+y123h+y147t;v82s+y123h+y147r;v82s+y123h+q154r;y147r+q154r+y123h;y147r+q154r+i76y;y147r+q154r+t166r;y123h+y147r+q154r+i76y;v82s+y123h+y147r+q154r;和i76y+v82s+y123h+y147r+q154r。在一些实施方案中,abe8为单体性构造体。在一些实施方案中,abe8为异源二聚体性构造体。在一些实施方案中,abe8包含序列:[0115]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallctffrmprqvfnaqkkaqsstd。[0116]在一些实施方案中,多核苷酸可编程dna结合结构域为crispr相关((例如,cas或cpf1)酶。在一些实施方案中,碱基编辑器为融合至脱氨酶结构域的不具催化性的cas9(dcas9)。在一些实施方案中,碱基编辑器为融合至脱氨酶结构域的cas9切口酶(ncas9)。碱基编辑器的细节如国际pct申请号pct/2017/045381(wo2018/027078)和pct/us2016/058344(wo2017/070632)中所述,其各自以引用方式整体并入本文。也参见komor,a.c.,等人,“programmableeditingofatargetbaseingenomicdnawithoutdouble-strandeddnacleavage”nature533,420-424(2016);gaudelli,n.m.,等人,“programmablebaseeditingofa·ttog·cingenomicdnawithoutdnacleavage”nature551,464-471(2017);komor,a.c.,等人,“improvedbaseexcisionrepairinhibitionandbacteriophagemugamproteinyieldsc:g-to-t:abaseeditorswithhigherefficiencyandproductpurity”scienceadvances3:eaao4774(2017),和rees,h.a.,等人,“baseediting:precisionchemistryonthegenomeandtranscriptomeoflivingcells.”natrevgenet.2018dec;19(12):770-788.doi:10.1038/s41576-018-0059-1,其整体内容以引用方式并入本文。[0117]举例而言,如下文提供的用于本文所述的碱基编辑组合物、系统和方法的腺嘌呤碱基编辑器(abe)具有核酸序列(8877碱基对)(addgene,watertown,ma.;gaudellinm,等人,nature.2017nov23;551(7681):464-471.doi:10.1038/nature24644;koblanlw,等人,natbiotechnol.2018oct;36(9):843-846.doi:10.1038/nbt.4172)。也涵盖对于abe核酸序列具有至少95%或更高同一性的多核苷酸序列。[0118]atatgccaagtacgccccctattgacgtcaatgacggtaaatggcccgcctggcattatgcccagtacatgaccttatgggactttcctacttggcagtacatctacgtattagtcatcgctattaccatggtgatgcggttttggcagtacatcaatgggcgtggatagcggtttgactcacggggatttccaagtctccaccccattgacgtcaatgggagtttgttttggcaccaaaatcaacgggactttccaaaatgtcgtaacaactccgccccattgacgcaaatgggcggtaggcgtgtacggtgggaggtctatataagcagagctggtttagtgaaccgtcagatccgctagagatccgcggccgctaatacgactcactatagggagagccgccaccatgaaacggacagccgacggaagcgagttcgagtcaccaaagaagaagcggaaagtctctgaagtcgagtttagccacgagtattggatgaggcacgcactgaccctggcaaagcgagcatgggatgaaagagaagtccccgtgggcgccgtgctggtgcacaacaatagagtgatcggagagggatggaacaggccaatcggccgccacgaccctaccgcacacgcagagatcatggcactgaggcagggaggcctggtcatgcagaattaccgcctgatcgatgccaccctgtatgtgacactggagccatgcgtgatgtgcgcaggagcaatgatccacagcaggatcggaagagtggtgttcggagcacgggacgccaagaccggcgcagcaggctccctgatggatgtgctgcaccaccccggcatgaaccaccgggtggagatcacagagggaatcctggcagacgagtgcgccgccctgctgagcgatttctttagaatgcggagacaggagatcaaggcccagaagaaggcacagagctccaccgactctggaggatctagcggaggatcctctggaagcgagacaccaggcacaagcgagtccgccacaccagagagctccggcggctcctccggaggatcctctgaggtggagttttcccacgagtactggatgagacatgccctgaccctggccaagagggcacgcgatgagagggaggtgcctgtgggagccgtgctggtgctgaacaatagagtgatcggcgagggctggaacagagccatcggcctgcacgacccaacagcccatgccgaaattatggccctgagacagggcggcctggtcatgcagaactacagactgattgacgccaccctgtacgtgacattcgagccttgcgtgatgtgcgccggcgccatgatccactctaggatcggccgcgtggtgtttggcgtgaggaacgcaaaaaccggcgccgcaggctccctgatggacgtgctgcactaccccggcatgaatcaccgcgtcgaaattaccgagggaatcctggcagatgaatgtgccgccctgctgtgctatttctttcggatgcctagacaggtgttcaatgctcagaagaaggcccagagctccaccgactccggaggatctagcggaggctcctctggctctgagacacctggcacaagcgagagcgcaacacctgaaagcagcgggggcagcagcggggggtcagacaagaagtacagcatcggcctggccatcggcaccaactctgtgggctgggccgtgatcaccgacgagtacaaggtgcccagcaagaaattcaaggtgctgggcaacaccgaccggcacagcatcaagaagaacctgatcggagccctgctgttcgacagcggcgaaacagccgaggccacccggctgaagagaaccgccagaagaagatacaccagacggaagaaccggatctgctatctgcaagagatcttcagcaacgagatggccaaggtggacgacagcttcttccacagactggaagagtccttcctggtggaagaggataagaagcacgagcggcaccccatcttcggcaacatcgtggacgaggtggcctaccacgagaagtaccccaccatctaccacctgagaaagaaactggtggacagcaccgacaaggccgacctgcggctgatctatctggccctggcccacatgatcaagttccggggccacttcctgatcgagggcgacctgaaccccgacaacagcgacgtggacaagctgttcatccagctggtgcagacctacaaccagctgttcgaggaaaaccccatcaacgccagcggcgtggacgccaaggccatcctgtctgccagactgagcaagagcagacggctggaaaatctgatcgcccagctgcccggcgagaagaagaatggcctgttcggaaacctgattgccctgagcctgggcctgacccccaacttcaagagcaacttcgacctggccgaggatgccaaactgcagctgagcaaggacacctacgacgacgacctggacaacctgctggcccagatcggcgaccagtacgccgacctgtttctggccgccaagaacctgtccgacgccatcctgctgagcgacatcctgagagtgaacaccgagatcaccaaggcccccctgagcgcctctatgatcaagagatacgacgagcaccaccaggacctgaccctgctgaaagctctcgtgcggcagcagctgcctgagaagtacaaagagattttcttcgaccagagcaagaacggctacgccggctacattgacggcggagccagccaggaagagttctacaagttcatcaagcccatcctggaaaagatggacggcaccgaggaactgctcgtgaagctgaacagagaggacctgctgcggaagcagcggaccttcgacaacggcagcatcccccaccagatccacctgggagagctgcacgccattctgcggcggcaggaagatttttacccattcctgaaggacaaccgggaaaagatcgagaagatcctgaccttccgcatcccctactacgtgggccctctggccaggggaaacagcagattcgcctggatgaccagaaagagcgaggaaaccatcaccccctggaacttcgaggaagtggtggacaagggcgcttccgcccagagcttcatcgagcggatgaccaacttcgataagaacctgcccaacgagaaggtgctgcccaagcacagcctgctgtacgagtacttcaccgtgtataacgagctgaccaaagtgaaatacgtgaccgagggaatgagaaagcccgccttcctgagcggcgagcagaaaaaggccatcgtggacctgctgttcaagaccaaccggaaagtgaccgtgaagcagctgaaagaggactacttcaagaaaatcgagtgcttcgactccgtggaaatctccggcgtggaagatcggttcaacgcctccctgggcacataccacgatctgctgaaaattatcaaggacaaggacttcctggacaatgaggaaaacgaggacattctggaagatatcgtgctgaccctgacactgtttgaggacagagagatgatcgaggaacggctgaaaacctatgcccacctgttcgacgacaaagtgatgaagcagctgaagcggcggagatacaccggctggggcaggctgagccggaagctgatcaacggcatccgggacaagcagtccggcaagacaatcctggatttcctgaagtccgacggcttcgccaacagaaacttcatgcagctgatccacgacgacagcctgacctttaaagaggacatccagaaagcccaggtgtccggccagggcgatagcctgcacgagcacattgccaatctggccggcagccccgccattaagaagggcatcctgcagacagtgaaggtggtggacgagctcgtgaaagtgatgggccggcacaagcccgagaacatcgtgatcgaaatggccagagagaaccagaccacccagaagggacagaagaacagccgcgagagaatgaagcggatcgaagagggcatcaaagagctgggcagccagatcctgaaagaacaccccgtggaaaacacccagctgcagaacgagaagctgtacctgtactacctgcagaatgggcgggatatgtacgtggaccaggaactggacatcaaccggctgtccgactacgatgtggaccatatcgtgcctcagagctttctgaaggacgactccatcgacaacaaggtgctgaccagaagcgacaagaaccggggcaagagcgacaacgtgccctccgaagaggtcgtgaagaagatgaagaactactggcggcagctgctgaacgccaagctgattacccagagaaagttcgacaatctgaccaaggccgagagaggcggcctgagcgaactggataaggccggcttcatcaagagacagctggtggaaacccggcagatcacaaagcacgtggcacagatcctggactcccggatgaacactaagtacgacgagaatgacaagctgatccgggaagtgaaagtgatcaccctgaagtccaagctggtgtccgatttccggaaggatttccagttttacaaagtgcgcgagatcaacaactaccaccacgcccacgacgcctacctgaacgccgtcgtgggaaccgccctgatcaaaaagtaccctaagctggaaagcgagttcgtgtacggcgactacaaggtgtacgacgtgcggaagatgatcgccaagagcgagcaggaaatcggcaaggctaccgccaagtacttcttctacagcaacatcatgaactttttcaagaccgagattaccctggccaacggcgagatccggaagcggcctctgatcgagacaaacggcgaaaccggggagatcgtgtgggataagggccgggattttgccaccgtgcggaaagtgctgagcatgccccaagtgaatatcgtgaaaaagaccgaggtgcagacaggcggcttcagcaaagagtctatcctgcccaagaggaacagcgataagctgatcgccagaaagaaggactgggaccctaagaagtacggcggcttcgacagccccaccgtggcctattctgtgctggtggtggccaaagtggaaaagggcaagtccaagaaactgaagagtgtgaaagagctgctggggatcaccatcatggaaagaagcagcttcgagaagaatcccatcgactttctggaagccaagggctacaaagaagtgaaaaaggacctgatcatcaagctgcctaagtactccctgttcgagctggaaaacggccggaagagaatgctggcctctgccggcgaactgcagaagggaaacgaactggccctgccctccaaatatgtgaacttcctgtacctggccagccactatgagaagctgaagggctcccccgaggataatgagcagaaacagctgtttgtggaacagcacaagcactacctggacgagatcatcgagcagatcagcgagttctccaagagagtgatcctggccgacgctaatctggacaaagtgctgtccgcctacaacaagcaccgggataagcccatcagagagcaggccgagaatatcatccacctgtttaccctgaccaatctgggagcccctgccgccttcaagtactttgacaccaccatcgaccggaagaggtacaccagcaccaaagaggtgctggacgccaccctgatccaccagagcatcaccggcctgtacgagacacggatcgacctgtctcagctgggaggtgactctggcggctcaaaaagaaccgccgacggcagcgaattcgagcccaagaagaagaggaaagtctaaccggtcatcatcaccatcaccattgagtttaaacccgctgatcagcctcgactgtgccttctagttgccagccatctgttgtttgcccctcccccgtgccttccttgaccctggaaggtgccactcccactgtcctttcctaataaaatgaggaaattgcatcgcattgtctgagtaggtgtcattctattctggggggtggggtggggcaggacagcaagggggaggattgggaagacaatagcaggcatgctggggatgcggtgggctctatggcttctgaggcggaaagaaccagctggggctcgataccgtcgacctctagctagagcttggcgtaatcatggtcatagctgtttcctgtgtgaaattgttatccgctcacaattccacacaacatacgagccggaagcataaagtgtaaagcctagggtgcctaatgagtgagctaactcacattaattgcgttgcgctcactgcccgctttccagtcgggaaacctgtcgtgccagctgcattaatgaatcggccaacgcgcggggagaggcggtttgcgtattgggcgctcttccgcttcctcgctcactgactcgctgcgctcggtcgttcggctgcggcgagcggtatcagctcactcaaaggcggtaatacggttatccacagaatcaggggataacgcaggaaagaacatgtgagcaaaaggccagcaaaaggccaggaaccgtaaaaaggccgcgttgctggcgtttttccataggctccgcccccctgacgagcatcacaaaaatcgacgctcaagtcagaggtggcgaaacccgacaggactataaagataccaggcgtttccccctggaagctccctcgtgcgctctcctgttccgaccctgccgcttaccggatacctgtccgcctttctcccttcgggaagcgtggcgctttctcatagctcacgctgtaggtatctcagttcggtgtaggtcgttcgctccaagctgggctgtgtgcacgaaccccccgttcagcccgaccgctgcgccttatccggtaactatcgtcttgagtccaacccggtaagacacgacttatcgccactggcagcagccactggtaacaggattagcagagcgaggtatgtaggcggtgctacagagttcttgaagtggtggcctaactacggctacactagaagaacagtatttggtatctgcgctctgctgaagccagttaccttcggaaaaagagttggtagctcttgatccggcaaacaaaccaccgctggtagcggtggtttttttgtttgcaagcagcagattacgcgcagaaaaaaaggatctcaagaagatcctttgatcttttctacggggtctgacactcagtggaacgaaaactcacgttaagggattttggtcatgagattatcaaaaaggatcttcacctagatccttttaaattaaaaatgaagttttaaatcaatctaaagtatatatgagtaaacttggtctgacagttaccaatgcttaatcagtgaggcacctatctcagcgatctgtctatttcgttcatccatagttgcctgactccccgtcgtgtagataactacgatacgggagggcttaccatctggccccagtgctgcaatgataccgcgagacccacgctcaccggctccagatttatcagcaataaaccagccagccggaagggccgagcgcagaagtggtcctgcaactttatccgcctccatccagtctattaattgttgccgggaagctagagtaagtagttcgccagttaatagtttgcgcaacgttgttgccattgctacaggcatcgtggtgtcacgctcgtcgtttggtatggcttcattcagctccggttcccaacgatcaaggcgagttacatgatcccccatgttgtgcaaaaaagcggttagctccttcggtcctccgatcgttgtcagaagtaagttggccgcagtgttatcactcatggttatggcagcactgcataattctcttactgtcatgccatccgtaagatgcttttctgtgactggtgagtactcaaccaagtcattctgagaatagtgtatgcggcgaccgagttgctcttgcccggcgtcaatacgggataataccgcgccacatagcagaactttaaaagtgctcatcattggaaaacgttcttcggggcgaaaactctcaaggatcttaccgctgttgagatccagttcgatgtaacccactcgtgcacccaactgatcttcagcatcttttactttcaccagcgtttctgggtgagcaaaaacaggaaggcaaaatgccgcaaaaaagggaataagggcgacacggaaatgttgaatactcatactcttcctttttcaatattattgaagcatttatcagggttattgtctcatgagcggatacatatttgaatgtatttagaaaaataaacaaataggggttccgcgcacatttccccgaaaagtgccacctgacgtcgacggatcgggagatcgatctcccgatcccctagggtcgactctcagtacaatctgctctgatgccgcatagttaagccagtatctgctccctgcttgtgtgttggaggtcgctgagtagtgcgcgagcaaaatttaagctacaacaaggcaaggcttgaccgacaattgcatgaagaatctgcttagggttaggcgttttgcgctgcttcgcgatgtacgggccagatatacgcgttgacattgattattgactagttattaatagtaatcaattacggggtcattagttcatagcccatatatggagttccgcgttacataacttacggtaaatggcccgcctggctgaccgcccaacgacccccgcccattgacgtcaataatgacgtatgttcccatagtaacgccaatagggactttccattgacgtcaatgggtggagtatttacggtaaactgcccacttggcagtacatcaagtgtatc[0119]“碱基编辑活性”意指在多核苷酸内作用以改变碱基。在一种实施方案中,第一碱基转化为第二碱基。在一种实施方案中,碱基编辑活性为腺苷或腺嘌呤脱氨酶活性,例如,将a·t转化为g·c。碱基编辑活性也可涉及腺苷或腺嘌呤脱氨酶活性,例如,将a·t转化为g·c;以及胞苷脱氨酶活性,例如,将靶标c·g转化为t·a。在一些实施方案中,碱基编辑活性通过编辑的效率进行评估。碱基编辑效率可通过任何合适的手段测量,例如,通过sanger测序或下一代测序。在一些实施方案中,碱基编辑效率通过碱基编辑器所致的核碱基转化的总测序读段的百分比测量,例如,以靶标a.t碱基对转化为g.c碱基对的总测序读段的百分比。在一些实施方案中,当碱基编辑在细胞族群中进行时,碱基编辑效率通过碱基编辑器所致的核碱基转化的总细胞的百分比测量。[0120]术语“碱基编辑器系统”指用于编辑靶标核苷酸序列的核碱基的系统。在多种实施方案中,碱基编辑器系统包含(1)多核苷酸可编程核苷酸结合结构域(例如,cas9);(2)脱氨酶结构域(例如,腺苷脱氨酶),用于将该核碱基脱氨;和(3)一个或多个向导多核苷酸(例如,向导rna)。在一些实施方案中,多核苷酸可编程核苷酸结合结构域为多核苷酸可编程dna结合结构域。在一些实施方案中,碱基编辑器为腺嘌呤或腺苷碱基编辑器(abe)。在一些实施方案中,碱基编辑器系统为abe8。[0121]在一些实施方案中,碱基编辑器系统可包含多于一个碱基编辑成分。例如,碱基编辑器系统可包括多于一个脱氨酶。在一些实施方案中,碱基编辑器系统可包括一个或多个腺苷脱氨酶。在一些实施方案中,可利用单一向导多核苷酸将不同的脱氨酶靶向靶标核酸序列。在一些实施方案中,可利用一对向导多核苷酸将不同的脱氨酶靶向靶标核酸序列。[0122]碱基编辑器的脱氨酶结构域和多核苷酸可编程核苷酸结合成分可共价地或非共价地彼此缔合或其缔合或相互作用的任何组合。例如,在一些实施方案中,脱氨酶结构域可通过多核苷酸可编程核苷酸结合结构域被靶向靶标核苷酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可融合或连接至脱氨酶结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可通过非共价地与脱氨酶结构域相互作用或缔合而将脱氨酶结构域靶向靶标核苷酸序列。例如,在一些实施方案中,脱氨酶结构域可包含额外的异源部分或结构域,其能够与作为多核苷酸可编程核苷酸结合结构域一部分的额外异源部分或结构域相互作用、缔合或形成复合物。在一些实施方案中,额外的异源部分可与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,额外的异源部分可与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,额外的异源部分能结合至向导多核苷酸。在一些实施方案中,额外的异源部分能结合至多肽连接子。在一些实施方案中,额外的异源部分能结合至多核苷酸连接子。额外的异源部分可以为蛋白结构域。在一些实施方案中,额外的异源部分可以为k同源(kh)结构域、ms2外壳蛋白结构域、pp7外壳蛋白结构域、sfmucom外壳蛋白结构域、无菌α基序、端粒酶ku结合基序和ku蛋白、端粒酶sm7结合基序和sm7蛋白或rna识别基序。[0123]碱基编辑器系统可进一步包含向导多核苷酸成分。应理解,碱基编辑器系统的成分可经由共价键、非共价相互作用或缔合和相互作用的任何组合彼此缔合。在一些实施方案中,脱氨酶结构域可通过向导多核苷酸被靶向靶标核苷酸序列。例如,在一些实施方案中,脱氨酶结构域可包含额外的异源部分或结构域(例如,多核苷酸结合结构域如rna或dna结合蛋白),其能与向导多核苷酸的部分或链段(例如,多核苷酸基序)相互作用、缔合或能形成复合物。在一些实施方案中,额外的异源部分或结构域(例如,多核苷酸结合结构域如rna或dna结合蛋白)可融合或连接至脱氨酶结构域。在一些实施方案中,额外的异源部分可与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,额外的异源部分可与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,额外的异源部分能结合至向导多核苷酸。在一些实施方案中,额外的异源部分能结合至多肽连接子。在一些实施方案中,额外的异源部分能结合至多核苷酸连接子。额外的异源部分可以为蛋白质结构域。在一些实施方案中,额外的异源部分可以为k同源(kh)结构域、ms2外壳蛋白结构域、pp7外壳蛋白结构域、sfmucom外壳蛋白结构域、无菌α基序、端粒酶ku结合基序和ku蛋白、端粒酶sm7sequenceofanm1strainofstreptococcuspyogenes.”ferretti等人,j.j.,mcshanw.m.,ajdicd.j.,savicd.j.,savicg.,lyonk.,primeauxc.,sezates.,suvorova.n.,kentons.,laih.s.,lins.p.,qiany.,jiah.g.,najarf.z.,renq.,zhuh.,songl.,whitej.,yuanx.,cliftons.w.,roeb.a.,mclaughlinr.e.,proc.natl.acad.sci.u.s.a.98:4658-4663(2001);“crisprrnamaturationbytrans-encodedsmallrnaandhostfactorrnaseiii.”deltchevae.,chylinskik.,sharmac.m.,gonzalesk.,chaoy.,pirzadaz.a.,eckertm.r.,vogelj.,charpentiere.,nature471:602-607(2011);和“aprogrammabledual-rna-guideddnaendo核酸酶inadaptivebacterialimmunity.”jinekm.,chylinskik.,fonfarai.,hauerm.,doudnaj.a.,charpentiere.science337:816-821(2012),其各者的全部内容以引用方式并入本文)。cas9异种同源物已描述于各种物种中,包括,但不限于,化脓性链球菌和金黄色葡萄球菌。额外的合适的cas9核酸酶和序列基于本公开而为所属
技术领域
:技术人员所显而易见,以及该等cas9核酸酶和序列包括来自描述于chylinski、rhun和charpentier的“thetracrrnaandcas9familiesoftypeiicrispr-casimmunitysystems”(2013)rnabiology10:5,726-737的有机体和基因座的cas9序列,其全部内容以引用方式并入本文。[0127]例示性cas9为化脓性链球菌(streptococcuspyogenes)cas9(spcas9),其氨基酸序列提供于下:[0128][0129][0130](单下划线:hnh结构域;双下划线:ruvc结构域)[0131]核酸酶-失活cas9蛋白可互换地称为“dcas9”蛋白(对于核酸酶,“死”cas9)或催化性失活的cas9。用于产生具有失活dna裂解结构域的cas9蛋白(或其片段)的方法是已知的(参见例如,jinek等人,science.337:816-821(2012);qi等人,“repurposingcrisprasanrna-guidedplatformforsequence-specificcontrolofgeneexpression”(2013)cell.28;152(5):1173-83,其各自的全部内容以引用方式并入本文)。例如,cas9的dna裂解结构域已知包括二个亚结构域,hnh核酸酶亚结构域和ruvc1亚结构域。hnh亚结构域裂解与grna互补的链,而ruvc1亚结构域裂解非互补的链。这些亚结构域内的突变可以沉默cas9的核酸酶活性。例如,突变d10a和h840a完全地失活化脓性链球菌cas9的核酸酶活性(jinek等人,science.337:816-821(2012);qi等人,cell.28;152(5):1173-83(2013))。在一些实施方案中,cas9核酸酶具有失活(例如,已失活)dna裂解结构域,即,cas9为切口酶,称为“ncas9”蛋白(对于“切口酶”cas9)。在一些实施方案中,提供包含cas的片段的蛋白质。例如,在一些实施方案中,蛋白质包含二个cas9结构域的一个:(1)cas9的grna结合结构域;或(2)cas9的dna裂解结构域。在一些实施方案中,包含cas9或其片段的蛋白质称为“cas9变体”。cas9变体与cas9或其片段共享同源性。例如,cas9变体与野生型cas9具有至少约70%同一性,至少约80%同一性,至少约90%同一性,至少约95%同一性,至少约96%同一性,至少约97%同一性,至少约98%同一性,至少约99%同一性,至少约99.5%同一性或至少约99.9%同一性。在一些实施方案中,cas9变体相较于于野生型cas9可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个氨基酸改变。[0132]在一些实施方案中,cas9变体包含片段cas9的片段(例如,grna结合结构域或dna-列举结构域),使得所述片段与野生型cas9的对应片段具有至少约70%同一性,至少约80%同一性,至少约90%同一性,至少约95%同一性,至少约96%同一性,至少约97%同一性,至少约98%同一性,至少约99%同一性,至少约99.5%同一性或至少约99.9%同一性。在一些实施方案中,片段为对应野生型cas9的氨基酸长度的至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%相同、至少96%、至少97%、至少98%、至少99%或至少99.5%。[0133]在一些实施方案中,片段为至少100个氨基酸的长度。在一些实施方案中,片段为至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250或至少1300个氨基酸的长度。[0134]在一些实施方案中,野生型cas9对应于来自化脓性链球菌(streptococcuspyogenes)的cas9(ncbi参照序列:nc_017053.1,核苷酸和氨基酸序列如下)。[0135]atggataagaaatactcaataggcttagatatcggcacaaatagcgtcggatgggcggtgatcactgatgattataaggttccgtctaaaaagttcaaggttctgggaaatacagaccgccacagtatcaaaaaaaatcttataggggctcttttatttggcagtggagagacagcggaagcgactcgtctcaaacggacagctcgtagaaggtatacacgtcggaagaatcgtatttgttatctacaggagattttttcaaatgagatggcgaaagtagatgatagtttctttcatcgacttgaagagtcttttttggtggaagaagacaagaagcatgaacgtcatcctatttttggaaatatagtagatgaagttgcttatcatgagaaatatccaactatctatcatctgcgaaaaaaattggcagattctactgataaagcggatttgcgcttaatctatttggccttagcgcatatgattaagtttcgtggtcattttttgattgagggagatttaaatcctgataatagtgatgtggacaaactatttatccagttggtacaaatctacaatcaattatttgaagaaaaccctattaacgcaagtagagtagatgctaaagcgattctttctgcacgattgagtaaatcaagacgattagaaaatctcattgctcagctccccggtgagaagagaaatggcttgtttgggaatctcattgctttgtcattgggattgacccctaattttaaatcaaattttgatttggcagaagatgctaaattacagctttcaaaagatacttacgatgatgatttagataatttattggcgcaaattggagatcaatatgctgatttgtttttggcagctaagaatttatcagatgctattttactttcagatatcctaagagtaaatagtgaaataactaaggctcccctatcagcttcaatgattaagcgctacgatgaacatcatcaagacttgactcttttaaaagctttagttcgacaacaacttccagaaaagtataaagaaatcttttttgatcaatcaaaaaacggatatgcaggttatattgatgggggagctagccaagaagaattttataaatttatcaaaccaattttagaaaaaatggatggtactgaggaattattggtgaaactaaatcgtgaagatttgctgcgcaagcaacggacctttgacaacggctctattccccatcaaattcacttgggtgagctgcatgctattttgagaagacaagaagacttttatccatttttaaaagacaatcgtgagaagattgaaaaaatcttgacttttcgaattccttattatgttggtccattggcgcgtggcaatagtcgttttgcatggatgactcggaagtctgaagaaacaattaccccatggaattttgaagaagttgtcgataaaggtgcttcagctcaatcatttattgaacgcatgacaaactttgataaaaatcttccaaatgaaaaagtactaccaaaacatagtttgctttatgagtattttacggtttataacgaattgacaaaggtcaaatatgttactgagggaatgcgaaaaccagcatttctttcaggtgaacagaagaaagccattgttgatttactcttcaaaacaaatcgaaaagtaaccgttaagcaattaaaagaagattatttcaaaaaaatagaatgttttgatagtgttgaaatttcaggagttgaagatagatttaatgcttcattaggcgcctaccatgatttgctaaaaattattaaagataaagattttttggataatgaagaaaatgaagatatcttagaggatattgttttaacattgaccttatttgaagatagggggatgattgaggaaagacttaaaacatatgctcacctctttgatgataaggtgatgaaacagcttaaacgtcgccgttatactggttggggacgtttgtctcgaaaattgattaatggtattagggataagcaatctggcaaaacaatattagattttttgaaatcagatggttttgccaatcgcaattttatgcagctgatccatgatgatagtttgacatttaaagaagatattcaaaaagcacaggtgtctggacaaggccatagtttacatgaacagattgctaacttagctggcagtcctgctattaaaaaaggtattttacagactgtaaaaattgttgatgaactggtcaaagtaatggggcataagccagaaaatatcgttattgaaatggcacgtgaaaatcagacaactcaaaagggccagaaaaattcgcgagagcgtatgaaacgaatcgaagaaggtatcaaagaattaggaagtcagattcttaaagagcatcctgttgaaaatactcaattgcaaaatgaaaagctctatctctattatctacaaaatggaagagacatgtatgtggaccaagaattagatattaatcgtttaagtgattatgatgtcgatcacattgttccacaaagtttcattaaagacgattcaatagacaataaggtactaacgcgttctgataaaaatcgtggtaaatcggataacgttccaagtgaagaagtagtcaaaaagatgaaaaactattggagacaacttctaaacgccaagttaatcactcaacgtaagtttgataatttaacgaaagctgaacgtggaggtttgagtgaacttgataaagctggttttatcaaacgccaattggttgaaactcgccaaatcactaagcatgtggcacaaattttggatagtcgcatgaatactaaatacgatgaaaatgataaacttattcgagaggttaaagtgattaccttaaaatctaaattagtttctgacttccgaaaagatttccaattctataaagtacgtgagattaacaattaccatcatgcccatgatgcgtatctaaatgccgtcgttggaactgctttgattaagaaatatccaaaacttgaatcggagtttgtctatggtgattataaagtttatgatgttcgtaaaatgattgctaagtctgagcaagaaataggcaaagcaaccgcaaaatatttcttttactctaatatcatgaacttcttcaaaacagaaattacacttgcaaatggagagattcgcaaacgccctctaatcgaaactaatggggaaactggagaaattgtctgggataaagggcgagattttgccacagtgcgcaaagtattgtccatgccccaagtcaatattgtcaagaaaacagaagtacagacaggcggattctccaaggagtcaattttaccaaaaagaaattcggacaagcttattgctcgtaaaaaagactgggatccaaaaaaatatggtggttttgatagtccaacggtagcttattcagtcctagtggttgctaaggtggaaaaagggaaatcgaagaagttaaaatccgttaaagagttactagggatcacaattatggaaagaagttcctttgaaaaaaatccgattgactttttagaagctaaaggatataaggaagttaaaaaagacttaatcattaaactacctaaatatagtctttttgagttagaaaacggtcgtaaacggatgctggctagtgccggagaattacaaaaaggaaatgagctggctctgccaagcaaatatgtgaattttttatatttagctagtcattatgaaaagttgaagggtagtccagaagataacgaacaaaaacaattgtttgtggagcagcataagcattatttagatgagattattgagcaaatcagtgaattttctaagcgtgttattttagcagatgccaatttagataaagttcttagtgcatataacaaacatagagacaaaccaatacgtgaacaagcagaaaatattattcatttatttacgttgacgaatcttggagctcccgctgcttttaaatattttgatacaacaattgatcgtaaacgatatacgtctacaaaagaagttttagatgccactcttatccatcaatccatcactggtctttatgaaacacgcattgatttgagtcagctaggaggtgactga[0136][0137][0138](单下划线:hnh结构域;双下划线:ruvc结构域)[0139]在一些实施方案中,野生型cas9对应于或包含下述核苷酸和/或氨基酸序列:[0140]atggataaaaagtattctattggtttagacatcggcactaattccgttggatgggctgtcataaccgatgaatacaaagtaccttcaaagaaatttaaggtgttggggaacacagaccgtcattcgattaaaaagaatcttatcggtgccctcctattcgatagtggcgaaacggcagaggcgactcgcctgaaacgaaccgctcggagaaggtatacacgtcgcaagaaccgaatatgttacttacaagaaatttttagcaatgagatggccaaagttgacgattctttctttcaccgtttggaagagtccttccttgtcgaagaggacaagaaacatgaacggcaccccatctttggaaacatagtagatgaggtggcatatcatgaaaagtacccaacgatttatcacctcagaaaaaagctagttgactcaactgataaagcggacctgaggttaatctacttggctcttgcccatatgataaagttccgtgggcactttctcattgagggtgatctaaatccggacaactcggatgtcgacaaactgttcatccagttagtacaaacctataatcagttgtttgaagagaaccctataaatgcaagtggcgtggatgcgaaggctattcttagcgcccgcctctctaaatcccgacggctagaaaacctgatcgcacaattacccggagagaagaaaaatgggttgttcggtaaccttatagcgctctcactaggcctgacaccaaattttaagtcgaacttcgacttagctgaagatgccaaattgcagcttagtaaggacacgtacgatgacgatctcgacaatctactggcacaaattggagatcagtatgcggacttatttttggctgccaaaaaccttagcgatgcaatcctcctatctgacatactgagagttaatactgagattaccaaggcgccgttatccgcttcaatgatcaaaaggtacgatgaacatcaccaagacttgacacttctcaaggccctagtccgtcagcaactgcctgagaaatataaggaaatattctttgatcagtcgaaaaacgggtacgcaggttatattgacggcggagcgagtcaagaggaattctacaagtttatcaaacccatattagagaagatggatgggacggaagagttgcttgtaaaactcaatcgcgaagatctactgcgaaagcagcggactttcgacaacggtagcattccacatcaaatccacttaggcgaattgcatgctatacttagaaggcaggaggatttttatccgttcctcaaagacaatcgtgaaaagattgagaaaatcctaacctttcgcataccttactatgtgggacccctggcccgagggaactctcggttcgcatggatgacaagaaagtccgaagaaacgattactccatggaattttgaggaagttgtcgataaaggtgcgtcagctcaatcgttcatcgagaggatgaccaactttgacaagaatttaccgaacgaaaaagtattgcctaagcacagtttactttacgagtatttcacagtgtacaatgaactcacgaaagttaagtatgtcactgagggcatgcgtaaacccgcctttctaagcggagaacagaagaaagcaatagtagatctgttattcaagaccaaccgcaaagtgacagttaagcaattgaaagaggactactttaagaaaattgaatgcttcgattctgtcgagatctccggggtagaagatcgatttaatgcgtcacttggtacgtatcatgacctcctaaagataattaaagataaggacttcctggataacgaagagaatgaagatatcttagaagatatagtgttgactcttaccctctttgaagatcgggaaatgattgaggaaagactaaaaacatacgctcacctgttcgacgataaggttatgaaacagttaaagaggcgtcgctatacgggctggggacgattgtcgcggaaacttatcaacgggataagagacaagcaaagtggtaaaactattctcgattttctaaagagcgacggcttcgccaataggaactttatgcagctgatccatgatgactctttaaccttcaaagaggatatacaaaaggcacaggtttccggacaaggggactcattgcacgaacatattgcgaatcttgctggttcgccagccatcaaaaagggcatactccagacagtcaaagtagtggatgagctagttaaggtcatgggacgtcacaaaccggaaaacattgtaatcgagatggcacgcgaaaatcaaacgactcagaaggggcaaaaaaacagtcgagagcggatgaagagaatagaagagggtattaaagaactgggcagccagatcttaaaggagcatcctgtggaaaatacccaattgcagaacgagaaactttacctctattacctacaaaatggaagggacatgtatgttgatcaggaactggacataaaccgtttatctgattacgacgtcgatcacattgtaccccaatcctttttgaaggacgattcaatcgacaataaagtgcttacacgctcggataagaaccgagggaaaagtgacaatgttccaagcgaggaagtcgtaaagaaaatgaagaactattggcggcagctcctaaatgcgaaactgataacgcaaagaaagttcgataacttaactaaagctgagaggggtggcttgtctgaacttgacaaggccggatttattaaacgtcagctcgtggaaacccgccaaatcacaaagcatgttgcacagatactagattcccgaatgaatacgaaatacgacgagaacgataagctgattcgggaagtcaaagtaatcactttaaagtcaaaattggtgtcggacttcagaaaggattttcaattctataaagttagggagataaataactaccaccatgcgcacgacgcttatcttaatgccgtcgtagggaccgcactcattaagaaatacccgaagctagaaagtgagtttgtgtatggtgattacaaagtttatgacgtccgtaagatgatcgcgaaaagcgaacaggagataggcaaggctacagccaaatacttcttttattctaacattatgaatttctttaagacggaaatcactctggcaaacggagagatacgcaaacgacctttaattgaaaccaatggggagacaggtgaaatcgtatgggataagggccgggacttcgcgacggtgagaaaagttttgtccatgccccaagtcaacatagtaaagaaaactgaggtgcagaccggagggttttcaaaggaatcgattcttccaaaaaggaatagtgataagctcatcgctcgtaaaaaggactgggacccgaaaaagtacggtggcttcgatagccctacagttgcctattctgtcctagtagtggcaaaagttgagaagggaaaatccaagaaactgaagtcagtcaaagaattattggggataacgattatggagcgctcgtcttttgaaaagaaccccatcgacttccttgaggcgaaaggttacaaggaagtaaaaaaggatctcataattaaactaccaaagtatagtctgtttgagttagaaaatggccgaaaacggatgttggctagcgccggagagcttcaaaaggggaacgaactcgcactaccgtctaaatacgtgaatttcctgtatttagcgtcccattacgagaagttgaaaggttcacctgaagataacgaacagaagcaactttttgttgagcagcacaaacattatctcgacgaaatcatagagcaaatttcggaattcagtaagagagtcatcctagctgatgccaatctggacaaagtattaagcgcatacaacaagcacagggataaacccatacgtgagcaggcggaaaatattatccatttgtttactcttaccaacctcggcgctccagccgcattcaagtattttgacacaacgatagatcgcaaacgatacacttctaccaaggaggtgctagacgcgacactgattcaccaatccatcacgggattatatgaaactcggatagatttgtcacagcttgggggtgacggatcccccaagaagaagaggaaagtctcgagcgactacaaagaccatgacggtgattataaagatcatgacatcgattacaaggatgacgatgacaaggctgcagga[0141][0142](单下划线:hnh结构域;双下划线:ruvc结构域)[0143]在一些实施方案中,野生型cas9对应于来自化脓性链球菌(streptococcuspyogenes)的cas9(ncbi参照序列:nc_002737.2(核苷酸序列如下);和uniprot参照序列:q99zw2(氨基酸序列如下))。[0144]atggataagaaatactcaataggcttagatatcggcacaaatagcgtcggatgggcggtgatcactgatgaatataaggttccgtctaaaaagttcaaggttctgggaaatacagaccgccacagtatcaaaaaaaatcttataggggctcttttatttgacagtggagagacagcggaagcgactcgtctcaaacggacagctcgtagaaggtatacacgtcggaagaatcgtatttgttatctacaggagattttttcaaatgagatggcgaaagtagatgatagtttctttcatcgacttgaagagtcttttttggtggaagaagacaagaagcatgaacgtcatcctatttttggaaatatagtagatgaagttgcttatcatgagaaatatccaactatctatcatctgcgaaaaaaattggtagattctactgataaagcggatttgcgcttaatctatttggccttagcgcatatgattaagtttcgtggtcattttttgattgagggagatttaaatcctgataatagtgatgtggacaaactatttatccagttggtacaaacctacaatcaattatttgaagaaaaccctattaacgcaagtggagtagatgctaaagcgattctttctgcacgattgagtaaatcaagacgattagaaaatctcattgctcagctccccggtgagaagaaaaatggcttatttgggaatctcattgctttgtcattgggtttgacccctaattttaaatcaaattttgatttggcagaagatgctaaattacagctttcaaaagatacttacgatgatgatttagataatttattggcgcaaattggagatcaatatgctgatttgtttttggcagctaagaatttatcagatgctattttactttcagatatcctaagagtaaatactgaaataactaaggctcccctatcagcttcaatgattaaacgctacgatgaacatcatcaagacttgactcttttaaaagctttagttcgacaacaacttccagaaaagtataaagaaatcttttttgatcaatcaaaaaacggatatgcaggttatattgatgggggagctagccaagaagaattttataaatttatcaaaccaattttagaaaaaatggatggtactgaggaattattggtgaaactaaatcgtgaagatttgctgcgcaagcaacggacctttgacaacggctctattccccatcaaattcacttgggtgagctgcatgctattttgagaagacaagaagacttttatccatttttaaaagacaatcgtgagaagattgaaaaaatcttgacttttcgaattccttattatgttggtccattggcgcgtggcaatagtcgttttgcatggatgactcggaagtctgaagaaacaattaccccatggaattttgaagaagttgtcgataaaggtgcttcagctcaatcatttattgaacgcatgacaaactttgataaaaatcttccaaatgaaaaagtactaccaaaacatagtttgctttatgagtattttacggtttataacgaattgacaaaggtcaaatatgttactgaaggaatgcgaaaaccagcatttctttcaggtgaacagaagaaagccattgttgatttactcttcaaaacaaatcgaaaagtaaccgttaagcaattaaaagaagattatttcaaaaaaatagaatgttttgatagtgttgaaatttcaggagttgaagatagatttaatgcttcattaggtacctaccatgatttgctaaaaattattaaagataaagattttttggataatgaagaaaatgaagatatcttagaggatattgttttaacattgaccttatttgaagatagggagatgattgaggaaagacttaaaacatatgctcacctctttgatgataaggtgatgaaacagcttaaacgtcgccgttatactggttggggacgtttgtctcgaaaattgattaatggtattagggataagcaatctggcaaaacaatattagattttttgaaatcagatggttttgccaatcgcaattttatgcagctgatccatgatgatagtttgacatttaaagaagacattcaaaaagcacaagtgtctggacaaggcgatagtttacatgaacatattgcaaatttagctggtagccctgctattaaaaaaggtattttacagactgtaaaagttgttgatgaattggtcaaagtaatggggcggcataagccagaaaatatcgttattgaaatggcacgtgaaaatcagacaactcaaaagggccagaaaaattcgcgagagcgtatgaaacgaatcgaagaaggtatcaaagaattaggaagtcagattcttaaagagcatcctgttgaaaatactcaattgcaaaatgaaaagctctatctctattatctccaaaatggaagagacatgtatgtggaccaagaattagatattaatcgtttaagtgattatgatgtcgatcacattgttccacaaagtttccttaaagacgattcaatagacaataaggtcttaacgcgttctgataaaaatcgtggtaaatcggataacgttccaagtgaagaagtagtcaaaaagatgaaaaactattggagacaacttctaaacgccaagttaatcactcaacgtaagtttgataatttaacgaaagctgaacgtggaggtttgagtgaacttgataaagctggttttatcaaacgccaattggttgaaactcgccaaatcactaagcatgtggcacaaattttggatagtcgcatgaatactaaatacgatgaaaatgataaacttattcgagaggttaaagtgattaccttaaaatctaaattagtttctgacttccgaaaagatttccaattctataaagtacgtgagattaacaattaccatcatgcccatgatgcgtatctaaatgccgtcgttggaactgctttgattaagaaatatccaaaacttgaatcggagtttgtctatggtgattataaagtttatgatgttcgtaaaatgattgctaagtctgagcaagaaataggcaaagcaaccgcaaaatatttcttttactctaatatcatgaacttcttcaaaacagaaattacacttgcaaatggagagattcgcaaacgccctctaatcgaaactaatggggaaactggagaaattgtctgggataaagggcgagattttgccacagtgcgcaaagtattgtccatgccccaagtcaatattgtcaagaaaacagaagtacagacaggcggattctccaaggagtcaattttaccaaaaagaaattcggacaagcttattgctcgtaaaaaagactgggatccaaaaaaatatggtggttttgatagtccaacggtagcttattcagtcctagtggttgctaaggtggaaaaagggaaatcgaagaagttaaaatccgttaaagagttactagggatcacaattatggaaagaagttcctttgaaaaaaatccgattgactttttagaagctaaaggatataaggaagttaaaaaagacttaatcattaaactacctaaatatagtctttttgagttagaaaacggtcgtaaacggatgctggctagtgccggagaattacaaaaaggaaatgagctggctctgccaagcaaatatgtgaattttttatatttagctagtcattatgaaaagttgaagggtagtccagaagataacgaacaaaaacaattgtttgtggagcagcataagcattatttagatgagattattgagcaaatcagtgaattttctaagcgtgttattttagcagatgccaatttagataaagttcttagtgcatataacaaacatagagacaaaccaatacgtgaacaagcagaaaatattattcatttatttacgttgacgaatcttggagctcccgctgcttttaaatattttgatacaacaattgatcgtaaacgatatacgtctacaaaagaagttttagatgccactcttatccatcaatccatcactggtctttatgaaacacgcattgatttgagtcagctaggaggtgactga[0145]单下划线:hnh结构域;双下划线:ruvc结构域)[0146]在一些实施方案中,cas9指来自下列的cas9:溃疡棒状杆菌(corynebacteriumulcerans)(ncbirefs:nc_015683.1,nc_017317.1);白喉棒状杆菌(corynebacteriumdiphtheria)(ncbirefs:nc_016782.1,nc_016786.1);栖蚜蝇螺原体(spiroplasmasyrphidicola)(ncbiref:nc_021284.1);中间普雷沃氏菌(prevotellaintermedia)(ncbiref:nc_017861.1);中国台湾螺原体(spiroplasmataiwanense,china)(ncbiref:nc_021846.1);海豚链球菌(streptococcusiniae)(ncbiref:nc_021314.1);波罗地海贝尔氏菌(belliellabaltica)(ncbiref:nc_018010.1);扭曲冷弯曲菌(psychroflexustorquisi)(ncbiref:nc_018721.1);嗜热链球菌(streptococcusthermophilus)(ncbiref:yp_820832.1)、无毒李斯特菌(listeriainnocua)(ncbiref:np_472073.1)、空肠弯曲菌(campylobacterjejuni)(ncbiref:yp_002344900.1)或脑膜炎奈瑟氏菌(neisseriameningitides)(ncbiref:yp_002342100.1)或指来自任何其他有机体的cas9。[0147]在一些实施方案中,cas9为脑膜炎奈瑟氏菌(neisseriamenigitidis)cas9(nmecas9)或其变体。在一些实施方案中,nmecas9对于nnnngaywpam具有特异性,其中y为c或t和w为或t。在一些实施方案中,nmecas9对于nnnngyttpam具有特异性,其中y为c或t。在一些实施方案中,nmecas9对于nnnngtctpam具有特异性。在一些实施方案中,nmecas9为nme1cas9。在一些实施方案中,nmecas9对于nnnngattpam、nnnncctapam、nnnncctcpam、nnnnccttpam、nnnncctgpam、nnnnccgtpam、nnnnccggpam、nnnncccapam、nnnnccctpam、nnnnccccpam、nnnnccatpam、nnnnccagpam、nnnnccatpam或nnngattpam具有特异性。在一些实施方案中,nme1cas9对于nnnngattpam、nnnncctapam、nnnncctcpam、nnnnccttpam或nnnncctgpam具有特异性。在一些实施方案中,nmecas9对于caapam、caaapam或ccapam具有特异性。在一些实施方案中,nmecas9为nme2cas9。在一些实施方案中,nmecas9对于nnnncc(n4cc)pam具有特异性,其中n为a、g、c或t的任一种。在一些实施方案中,nmecas9对于nnnnccgtpam、nnnnccggpam、nnnncccapam、nnnnccctpam、nnnnccccpam、nnnnccatpam、nnnnccagpam、nnnnccatpam或nnngattpam具有特异性。在一些实施方案中,nmecas9为nme3cas9。在一些实施方案中,nmecas9对于nnnncaaapam、nnnnccpam或nnnncnnnpam具有特异性。在一些实施方案中,pam-相互作用结构域对于nme1、nme2或nme3分别为n4gat、n4cc和n4caaa。额外的nmecas9特征和pam序列描述于edraki等人,acompact,high-accuracycas9withadinucleotidepamforinvivogenomeediting,mol.cell.(2019)73(4):714-726,其全部内容以引用方式并入本文。[0148]例示性脑膜炎奈瑟氏菌(neisseriameningitidis)cas9蛋白,nme1cas9(ncbi参照:wp_002235162.1;ii型crisprrna引导的核酸内切酶cas9)具有下述氨基酸序列:[0149][0150][0151]另一例示性脑膜炎奈瑟氏菌(neisseriameningitides)cas9蛋白,nme2cas9(ncbi参照:wp_002230835;ii型crisprrna引导的核酸内切酶cas9)具有下述氨基酸序列:[0152][0153]在一些实施方案中,dcas9对应于或包含,部分或全部,具有失活cas9核酸酶活性的一个或多个突变的cas9氨基酸序列。例如,在一些实施方案中,dcas9结构域包含d10a和h840a突变或对应于另一个cas9的突变。在一些实施方案中,dcas9包含dcas9(d10a和h840a)的氨基酸序列:[0154][0155](单下划线:hnh结构域;双下划线:ruvc结构域)。[0156]在一些实施方案中,cas9结构域包含d10a突变,而上文提供的氨基酸序列中位置840的残基或本文提供的任何氨基酸序列的对应位置仍为组氨酸。[0157]在其他实施方案中,提供具有除了d10a和h840a以外的突变的dcas9变体,例如,其造成核酸酶失活cas9(dcas9)。该等突变,举例而言,包括d10和h840处的其他氨基酸或在cas9的核酸酶结构域内的其他取代(例如,hnh核酸酶亚结构域和/或ruvc1亚结构域中的取代)。在一些实施方案中,提供dcas9的变体或同源物,其为至少约70%同一性,至少约80%同一性,至少约90%同一性,至少约95%同一性,至少约98%同一性,至少约99%同一性,至少约99.5%同一性或至少约99.9%同一性。在一些实施方案中,提供dcas9的变体的氨基酸序列更短或更长,相差约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多。[0158]在一些实施方案中,如本文提供的cas9融合蛋白包含cas9蛋白的全长氨基酸序列,例如,本文提供的cas9序列之一。然而,在其他实施方案中,如本文提供的融合蛋白不包含全长cas9序列,而仅包含其一个或多个片段。合适的cas9结构域和cas9片段的例示性氨基酸序列提供于本文,以及cas9结构域和片段的和额外的合适序列对于所属
技术领域
:技术人员为显而易见。[0159]应理解,额外的cas9蛋白质(例如,核酸酶死cas9(dcas9)、cas9切口酶(ncas9)或核酸酶活cas9),包括变体和其同源物,处于本公开的范畴内。例示性cas9蛋白包括,但不限于,下述所提供者。在一些实施方案中,cas9蛋白为核酸酶死cas9(dcas9)。在一些实施方案中,cas9蛋白为cas9切口酶(ncas9)。在一些实施方案中,cas9蛋白为核酸酶活cas9。[0160]例示性的无催化活性的cas9(dcas9)的氨基酸序列如下:[0161]dkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdaivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfdsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasagelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkrytstkevldatlihqsitglyetridlsqlggd[0162]例示性催化性cas9切口酶(ncas9)的氨基酸序列如下:[0163]dkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfdsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasagelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkrytstkevldatlihqsitglyetridlsqlggd[0164]例示性的催化性活cas9的氨基酸序列如下:[0165]dkkysigldigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfdsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasagelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkrytstkevldatlihqsitglyetridlsqlggd。[0166]在一些实施方案中,cas9指来自古菌(例如,纳米古菌)的cas9,古菌构成单细胞真核微生物的域和界。在一些实施方案中,cas9指casx或casy,其已描述于例如burstein等人,"newcrispr-cassystemsfromuncultivatedmicrobes."cellres.2017feb21.doi:10.1038/cr.2017.21中,其全部内容以引用方式并入本文。使用基因组解析的宏观基因组学,确定许多crispr-cas系统,包括在生命的古菌域中首次报导的cas9。这种分歧的cas9蛋白在很少被研究的纳米古菌中被发现,作为活性crispr-cas系统的一部分。在细菌中,发现了两个以前未知的系统,crispr-casx和crispr-casy,它们为迄今为止发现的最紧实的系统。在一些实施方案中,cas9指casx或casx的变体。在一些实施方案中,cas9指casy或y的变体。应理解,其他rna-向导dna结合蛋白可使用作为核酸可编程dna结合蛋白(napdnabp)且处于本公开的范围内。[0167]在一些实施方案中,cas9为对于改变的pam序列具有特异性的cas9变体。在一些实施方案中,额外的cas9变体和pam序列记载于miller等人,continuousevolutionofspcas9variantscompatiblewithnon-gpams.natbiotechnol(2020).doi.org/10.1038/s41587-020-0412-8,其整体以引用方式并入本文。在一些实施方案中,cas9变体没有特定的pam需求。在一些实施方案中,cas9变体,例如spcas9变体,对于nrnhpam有特异性,其中r为a或g,并且h为c或t。在一些实施方案中,spcas9变体对于pam序列aaa、taa、caa、gaa、tat、gat或cac具有特异性。在一些实施方案中,spcas9变体包含位于如相对于下述参照序列编号的位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1218、1219、1221、1249、1256、1264、1290、1318、1317、1320、1321、1323、1332、1333、1335、1337或1339或其对应位置处的氨基酸取代。[0168][0169][0169](单下划线:hnh结构域;双下划线:ruvc结构域)。[0170]在一些实施方案中,spcas9变体包含位于如相对于上述参照序列编号的位置1114、1135、1218、1219、1221、1249、1320、1321、1323、1332、1333、1335或1337或其对应位置处的氨基酸取代。在一些实施方案中,spcas9变体包含位于如相对于上述参照序列编号的位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1219、1221、1256、1264、1290、1318、1317、1320、1323、1333或其对应位置处的氨基酸取代。在一些实施方案中,spcas9变体包含位于如相对于上述参照序列编号的位置1114、1131、1135、1150、1156、1180、1191、1218、1219、1221、1227、1249、1253、1286、1293、1320、1321、1332、1335、1339或其对应位置处的氨基酸取代。在一些实施方案中,spcas9变体包含位于如相对于上述参照序列编号的位置1114、1127、1135、1180、1207、1219、1234、1286、1301、1332、1335、1337、1338、1349处的氨基酸取代。例示性spcas9变体的氨基酸取代和pam特异性示于表a-d和图8中。[0171]表a[0172][0173][0174]表b[0175][0176]表c[0177][0178][0179]表d[0180][0181]在特定实施方案中,本发明的方法中有用的napdnabps包括环状排列物,其为所述
技术领域
:周知且描述于例如oakes等人,cell176,254–267,2019。下述例示性环状排列中粗体序列指示衍生自cas9的序列,斜体字序列表示连接子序列,以及下划线序列表示双分型核定位序列,[0182]cp5(具有msp“ngc=具有突变正规cas9如ngg的pam变体”pid=蛋白质相互作用结构域和“d10a”切口酶):[0183][0184][0185]可并入碱基编辑器的多核苷酸可编程核苷酸结合结构域的非限制性示例包括crispr蛋白衍生的结构域、限制核酸酶、巨核酸酶、tal核酸酶(talen)和锌指核酸酶(zfn)。[0186]在一些实施方案中,本文提供的任何融合蛋白的核酸可编程dna结合蛋白质(napdnabp)可以为casx或casy蛋白。在一些实施方案中,napdnabp为casx蛋白。在一些实施方案中,napdnabp为casy蛋白。在一些实施方案中,napdnabp包含氨基酸序列,其对于天然出现的casx或casy蛋白具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性。在一些实施方案中,napdnabp为天然出现的casx或casy蛋白。在一些实施方案中,napdnabp包含氨基酸序列,其对于本文描述的任何casx或casy蛋白质具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性。应理解,来自其他细菌物种的cas12b/c2c1、casx和casy也可根据本公开使用。.[0187]cas12b/c2c1(uniprot.org/uniprot/t0d7a2#2)[0188]sp|t0d7a2|c2c1_aliagcrispr-缔合的内-核酸酶c2c1os=嗜酸脂环酸杆菌(alicyclobacillusacido-terrestris)(菌株atcc49025/dsm3922/cip106132/ncimb13137/gd3b)gn=c2c1pe=1sv=1[0189]mavksikvklrlddmpeiraglwklhkevnagvryytewlsllrqenlyrrspngdgeqecdktaeeckaellerlrarqvenghrgpagsddellqlarqlyellvpqaigakgdaqqiarkflspladkdavgglgiakagnkprwvrmreagepgweeekekaetrksadrtadvlraladfglkplmrvytdsemssvewkplrkgqavrtwdrdmfqqaiermmsweswnqrvgqeyaklveqknrfeqknfvgqehlvhlvnqlqqdmkeaspgleskeqtahyvtgralrgsdkvfekwgklapdapfdlydaeiknvqrrntrrfgshdlfaklaepeyqalwredasfltryavynsilrklnhakmfatftlpdatahpiwtrfdklggnlhqytflfnefgerrhairfhkllkvengvarevddvtvpismseqldnllprdpnepialyfrdygaeqhftgefggakiqcrrdqlahmhrrrgardvylnvsvrvqsqseargerrppyaavfrlvgdnhrafvhfdklsdylaehpddgklgsegllsglrvmsvdlglrtsasisvfrvarkdelkpnskgrvpfffpikgndnlvavhersqllklpgeteskdlraireerqrtlrqlrtqlaylrllvrcgsedvgrrerswaklieqpvdaanhmtpdwreafenelqklkslhgicsdkewmdavyesvrrvwrhmgkqvrdwrkdvrsgerpkirgyakdvvggnsieqieylerqykflkswsffgkvsgqviraekgsrfaitlrehidhakedrlkkladriimealgyvyaldergkgkwvakyppcqlilleelseyqfnndrppsennqlmqwshrgvfqelinqaqvhdllvgtmyaafssrfdartgapgircrrvparctqehnpepfpwwlnkfvvehtldacplraddliptgegeifvspfsaeegdfhqihadlnaaqnlqqrlwsdfdisqirlrcdwgevdgelvliprltgkrtadsysnkvfytntgvtyyerergkkrrkvfaqeklseeeaellveadeareksvvlmrdpsgiinrgnwtrqkefwsmvnqriegylvkqirsrvplqdsacentgdi[0190]casx(uniprot.org/uniprot/f0nn87;uniprot.org/uniprot/f0nh53)[0191]》tr|f0nn87|f0nn87_sulihcrispr-缔合的casx蛋白os=冰岛硫化叶菌(sulfolobusislandicus)(菌株hve10/4)gn=sih_0402pe=4sv=1[0192]mevplynifgdnyiiqvateaenstiynnkveiddeelrnvlnlaykiaknnedaaaerrgkakkkkgeegetttsniilplsgndknpwtetlkcynfpttvalsevfknfsqvkeceevsapsfvkpefyefgrspgmvertrrvklevephyliiaaagwvltrlgkakvsegdyvgvnvftptrgilysliqnvngivpgikpetafglwiarkvvssvtnpnvsvvriytisdavgqnpttinggfsidltkllekryllserleaiarnalsissnmreryivlanyiyeyltgskrledllyfanrdlimnlnsddgkvrdlklisayvngelirgeg[0193]》tr|f0nh53|f0nh53_sulircrispr缔合的蛋白质,casxos=冰岛硫化叶菌(sulfolobusislandicus)(菌株rey15a)gn=sire_0771pe=4sv=1[0194]mevplynifgdnyiiqvateaenstiynnkveiddeelrnvlnlaykiaknnedaaaerrgkakkkkgeegetttsniilplsgndknpwtetlkcynfpttvalsevfknfsqvkeceevsapsfvkpefykfgrspgmvertrrvklevephylimaaagwvltrlgkakvsegdyvgvnvftptrgilysliqnvngivpgikpetafglwiarkvvssvtnpnvsvvsiytisdavgqnpttinggfsidltkllekrdllserleaiarnalsissnmreryivlanyiyeyltgskrledllyfanrdlimnlnsddgkvrdlklisayvngelirgeg[0195]δ-变形菌(deltaproteobacteria)casx[0196]mekrinkirkklsadnatkpvsrsgpmktllvrvmtddlkkrlekrrkkpevmpqvisnnaannlrmllddytkmkeailqvywqefkddhvglmckfaqpaskkidqnklkpemdekgnlttagfacsqcgqplfvykleqvsekgkaytnyfgrcnvaeheklillaqlkpvkdsdeavtyslgkfgqraldfysihvtkesthpvkplaqiagnryasgpvgkalsdacmgtiasflskyqdiiiehqkvvkgnqkrleslrelagkenleypsvtlppqphtkegvdayneviarvrmwvnlnlwqklklsrddakpllrlkgfpsfpvverrenevdwwntinevkklidakrdmgrvfwsgvtaekrntilegynylpnendhkkregslenpkkpakrqfgdlllylekkyagdwgkvfdeaweridkkiagltshiereearnaedaqskavltdwlrakasfvlerlkemdekefyaceiqlqkwygdlrgnpfaveaenrvvdisgfsigsdghsiqyrnllawkylengkrefyllmnygkkgrirftdgtdikksgkwqgllygggkakvidltfdpddeqliilplafgtrqgrefiwndllsletgliklangrviektiynkkigrdepalfvaltferrevvdpsnikpvnligvargenipavialtdpegcplpefkdssggptdilrigegykekqraiqaakeveqrraggysrkfasksrnladdmvrnsardlfyhavthdavlvfanlsrgfgrqgkrtfmterqytkmedwltaklayegltsktylsktlaqytsktcsncgftityadmdvmlvrlkktsdgwattlnnkelkaeyqityynrykrqtvekelsaeldrlseesgnndiskwtkgrrdealfllkkrfshrpvqeqfvcldcghevhaaeqaalniarswlflnsnstefksyksgkqpfvgawqafykrrlkevwkpna[0197]casy(ncbi.nlm.nih.gov/蛋白质/apg80656.1)[0198]》apg80656.1crispr-缔合的蛋白质casy[未培养的俭菌菌群细菌(parcubacteriagroupbacterium)][0199]mskrhprisgvkgyrlhaqrleytgksgamrtikyplysspsggrtvpreivsainddyvglyglsnfddlynaekrneekvysvldfwydcvqygavfsytapgllknvaevrggsyeltktlkgshlydelqidkvikflnkkeisrangsldklkkdiidcfkaeyrerhkdqcnkladdiknakkdagaslgerqkklfrdffgiseqsendkpsftnplnltccllpfdtvnnnrnrgevlfnklkeyaqkldknegslemweyigignsgtafsnflgegflgrlrenkitelkkammditdawrgqeqeeelekrlrilaaltiklrepkfdnhwggyrsdingklsswlqnyinqtvkikedlkghkkdlkkakeminrfgesdtkeeavvssllesiekivpddsaddekpdipaiaiyrrflsdgrltlnrfvqredvqealikerleaekkkkpkkrkkksdaedeketidfkelfphlakplklvpnfygdskrelykkyknaaiytdalwkavekiyksafssslknsffdtdfdkdffikrlqkifsvyrrfntdkwkpivknsfapycdivslaenevlykpkqsrsrksaaidknrvrlpsteniakagialarelsvagfdwkdllkkeeheeyidlielhktalalllavtetqldisaldfvengtvkdfmktrdgnlvlegrflemfsqsivfselrglaglmsrkefitrsaiqtmngkqaellyiphefqsakittpkemsrafldlapaefatslepeslseksllklkqmryyphyfgyeltrtgqgidggvaenalrlekspvkkreikckqyktlgrgqnkivlyvrssyyqtqflewflhrpknvqtdvavsgsflidekkvktrwnydaltvalepvsgservfvsqpftifpeksaeeegqrylgidigeygiaytaleitgdsakildqnfisdpqlktlreevkglkldqrrgtfampstkiarireslvhslrnrihhlalkhkakivyelevsrfeegkqkikkvyatlkkadvyseidadknlqttvwgklavaseisasytsqfcgackklwraemqvdetittqeligtvrvikggtlidaikdfmrppifdendtpfpkyrdfcdkhhiskkmrgnsclficpfcranadadiqasqtiallryvkeekkvedyferfrklknikvlgqmkki[0200]术语“保守的氨基酸取代”或“保守的突变”指一个氨基酸被具有共通性质的另一氨基酸置换。定义个体氨基酸之间的共通性质的功能性方法为分析同源有机体的对应蛋白质之间的氨基酸变化的正规化频率(schulz,g.e.andschirmer,r.h.,principlesofproteinstructure,springer-verlag,newyork(1979))。根据该些分析,可以定义氨基酸组,其中组内的氨基酸优选地彼此交换,且因而对整体蛋白质结构的影响方面彼此最相似(schulz,g.e.和schirmer,r.h.,同上)。保守的突变的非限制性示例包括氨基酸的氨基酸取代,例如,赖氨酸取代精氨酸且反之亦然以使得正电荷可得以维持;谷氨酸取代天冬氨酸且反之亦然以使得负电荷可得以维持;丝氨酸取代苏氨酸以使得游离的-oh可得以维持;以及谷酰胺取代天冬酰胺以使得游离-nh2可得以维持。[0201]术语“编码序列”或“蛋白质编码序列”如本文可交换使用,指编码蛋白质的多核苷酸链段。区域或序列在靠近5’端有起始密码子以及在靠近3’端有终止密码子。编码序列也可称为开读框。[0202]术语“脱氨酶”或“脱氨酶结构域”,如使用于本文,指催化脱氨反应的蛋白质或酶。在一些实施方案中,脱氨酶为腺苷脱氨酶,其催化腺嘌呤到次黄嘌呤的水解性脱氨作用。在一些实施方案中,脱氨酶为腺苷脱氨酶,其催化腺苷或腺嘌呤(a)到肌苷(i)的水解性脱氨作用。在一些实施方案中,脱氨酶或脱氨酶结构域为分别催化腺苷或脱氧腺苷到肌苷或脱氧肌苷的腺苷脱氨酶。在一些实施方案中,腺苷脱氨酶催化脱氧核糖核酸(dna)中腺苷的水解性脱氨作用。本文提供的腺苷脱氨酶(例如,工程化的腺苷脱氨酶、进化的腺苷脱氨酶)可来自有机体,如细菌。在一些实施方案中,腺苷脱氨酶来自细菌,如大肠杆菌(escherichiacoli)、金黄色葡萄球菌(staphylococcusaureus)、鼠伤寒沙门氏杆菌(salmonellatyphimurium)、腐败希瓦氏菌(shewanellaputrefaciens)、流感嗜血杆菌(haemophilusinfluenza)或新月柄杆菌(caulobactercrescentus)。[0203]在一些实施方案中,腺苷脱氨酶为tada脱氨酶。在一些实施方案中,tada脱氨酶为tada变体。在一些实施方案中,tada变体为tada*8。在一些实施方案中,脱氨酶或脱氨酶结构域来自有机体,如人类、黑猩猩、金刚猩猩、猴、牛、犬、大鼠或小鼠的天然出现的脱氨酶的变体。在一些实施方案中,脱氨酶或脱氨酶结构域不天然出现。例如,在一些实施方案中,脱氨酶或脱氨酶结构域与天然出现的脱氨酶具有至少50%、至少55%、至少60%、至少65%、至少70%、至少75%atleast80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%或至少99.9%同一性。例如,脱氨酶结构域描述于国际pct申请案号pct/2017/045381(wo2018/027078)和pct/us2016/058344(wo2017/070632),其各自均以引用方式整体并入本文。也参见komor,a.c.,等人,“programmableeditingofatargetbaseingenomicdnawithoutdouble-strandeddnacleavage”nature533,420-424(2016);gaudelli,n.m.,等人,“programmablebaseeditingofa·ttog·cingenomicdnawithoutdnacleavage”nature551,464-471(2017);komor,a.c.,等人,“improvedbaseexcisionrepairinhibitionandbacteriophagemugamproteinyieldsc:g-to-t:abaseeditorswithhigherefficiencyandproductpurity”scienceadvances3:eaao4774(2017)和rees,h.a.,等人,“baseediting:precisionchemistryonthegenomeandtranscriptomeoflivingcells.”natrevgenet.2018dec;19(12):770-788.doi:10.1038/s41576-018-0059-1,其整体内容以引用方式并入本文。[0204]“检测”指鉴定待检测的分析物的存在、缺失或量。在一种实施方案中,检测多核苷酸或多肽中的序列变化。在另一实施方案中,检测插入或缺失(indel)的存在。[0205]“可检测标示”意指当组合物与感兴趣的分子连接时,经由光谱、光化学、生物化学、免疫化学或化学手段可检测感该分子。例如,有用的标示包括放射性同位素、磁性珠、金属珠、胶体颗粒、荧光染料、电子-致密剂、酶(例如,如通常使用于elisa)、生物素、地高辛或半抗原。[0206]“疾病”意指损伤或干扰细胞、组织器官的正常功能的任何状况或疾患。在实施方案中,疾病为a1ad。[0207]术语“有效量”,如使用于本文,指足以引发所期望的生物应答的生物活性剂的量。在特定实施方案中,有效量为碱基编辑器系统(例如,包含可编程的dna结合蛋白质、核碱基编辑器和grna的融合蛋白)的量,其足以改变细胞中的a1at突变以达成治疗功效。该治疗功效不需要足以改变组织或器官的所有细胞中的a1ad,而仅改变存在于受试者、组织或器官的细胞中的约1%、5%、10%、25%、50%、75%或更多。在一种实施方案中,有效量足以缓和a1ad的一个或多个症状。用于疾病的治疗性疗法的实施本发明所使用的活性剂的有效量,取决于施用方式、受试者的年龄、体重和一般健康而变化。最终,到场医师或兽医将决定合适的量和剂型方案。该量称为“有效”量。在一种实施方案中,有效量为本发明的碱基编辑器(例如,包含可编程的dna结合蛋白、核碱基编辑器和grna的融合蛋白)的量,足以向细胞(例如体外或体内的细胞)中感兴趣的基因引入变化。在一种实施方案中,有效量为达成治疗功效(例如,降低或调控疾病或其症状或状况)所需的碱基编辑器的量。[0208]“片段”意指多肽或核酸分子的一部分。此部分含有参照核酸分子或多肽的完整长度的至少约10%、20%、30%、40%、50%、60%、70%、80%或90%。片段可含有10、20、30、40、50、60、70、80、90或100、200、300、400、500、600、700、800、900或1000个核苷酸或氨基酸。[0209]“向导rna”或“grna”意指多核苷酸其可对于靶标序列具有特异性且可与多核苷酸可编程核苷酸结合结构域蛋白(例如,cas9或cpf1)形成复合物。在实施方案中,向导多核苷酸为向导rna(grna)。grna可作为二个或更多个rna的复合物存在或作为单一rna分子存在。作为单一rna分子存在的可称为单一向导rna(sgrna),但“grna”可交换地用来指代作为单一分子存在或作为二个或更多个分子的复合物存在的向导rna。典型地,作为单一rna物质存在的grna包含二个结构域:(1)与靶标核酸共享同源性(例如,并且导引cas9复合物对靶标的结合)的结构域;和(2)结合cas9蛋白的结构域。在一些实施方案中,结构域(2)对应于已知为tracrrna的序列,且包含茎-环结构。例如,在一些实施方案中,结构域(2)为与tracrrna具有同一性或同源性,如提供于jinek等人,science337:816-821(2012),其全部内容以引用方式并入本文。grna的其他实例(例如,包括结构域2的)可见于2013年9月6日提交的名为“switchablecas9nucleasesandusesthereof”的美国临时专利申请案u.s.s.n.61/874,682和2013年9月6日提交的名为“deliverysystemforfunctionalnucleases”的美国临时专利申请案u.s.s.n.61/874,746,各自的全部内容以其整体通过引用方式并入本文。在一些实施方案中,grna包含二个或更多个结构域(1)和(2),且可称为“延伸的grna”。延伸的grna将结合二个或更多个cas9蛋白质且于二个或更多不同区域结合靶标核酸,如本文所述。grna包含与靶标位点互补的核苷酸序列,该靶标位点介导核酸酶/rna复合物对该靶标位点的结合,提供核酸酶:rna复合物的序列特异性。如所属
技术领域
:中普通技术人员将理解,rna多核苷酸序列,例如,grna序列,包括核碱基尿嘧啶(u)(一种嘧啶衍生物)而非核碱基胸腺嘧啶(t)(其包括于dna多核苷酸序列中)。rna中,尿嘧啶碱基与腺嘌呤配对且于dna转录中置换胸腺嘧啶。[0210]“杂交”意指于互补核碱基之间的氢键结,其可以为watson-crick、hoogsteen或逆hoogsteen氢键结。例如,腺嘌呤和胸腺嘧啶为互补核碱基其经由氢键结的形成而配对。[0211]术语“碱基修复的抑制剂”或“ibr”指称一种蛋白质,其为能抑制核酸修复酶的活性的蛋白质,所述酶为例如碱基切除修复(ber)酶。在一些实施方案中,ibr为肌苷碱基切除修复抑制剂。示例性碱基修复的抑制剂包括ape1、endoiii、endoiv、endov、endoviii、fpg、hoggl、hneill、t7endol、t4pdg、udg、hsmugl和haag的抑制剂。在一些实施方案中,ibr为endov或haag的抑制剂。在一些实施方案中,ibr为催化性失活的endov或催化性失活的haag。在一些实施方案中,碱基修复抑制剂为endov或haag的抑制剂。在一些实施方案中,碱基修复抑制剂为催化性失活的endov或催化性失活的haag。[0212]在一些实施方案中,碱基修复抑制剂为尿嘧啶糖苷酶抑制剂(ugi)。ugi指能抑制尿嘧啶-dna糖苷酶碱基-切除修复酶的蛋白质。在一些实施方案中,ugi结构域包含野生型ugi或野生型ugi的片段。在一些实施方案中,本文提供的ugi蛋白质包括ugi的片段和与ugi或ugi片段同源的蛋白质。在一些实施方案中,碱基修复抑制剂为肌苷碱基切除修复抑制剂。在一些实施方案中,碱基修复抑制剂为“催化性失活的肌苷特异性核酸酶”或“死的肌苷特异性核酸酶。不希望为任何特定理论所限制,催化性失活的肌苷糖苷酶(例如,烷基腺嘌呤糖苷酶(aag))可结合肌苷但不能创造无碱基位点或移除肌苷,从而立体地阻断新形成的肌苷部分而免于dna损伤/修复机制。在一些实施方案中,催化性失活的肌苷特异性核酸酶可以为能够结合核酸中的肌苷但不裂解核酸。非限制示例性催化性失活的肌苷特异性核酸酶包括催化性失活的烷基腺苷糖苷酶(aag核酸酶),例如,来自人类,以及催化性失活的内切核酸酶v(endov核酸酶),例如,来自大肠杆菌(e.coli)。在一些实施方案中,催化性失活的aag核酸酶包含e125q突变或于另一aag核酸酶中的对应突变。[0213]“增加”意指至少10%、25%、50%、75%或100%的正向变化。[0214]“内含肽(intein)”为于已知为蛋白质剪切的过程中能切除其本身且将残余片段(外显肽)利用肽键接合的蛋白质的片段。内含肽也称为“蛋白质内含子”。内含肽切除其本身和接合蛋白质的残余部分的过程,本文中命名为“蛋白质剪切”或“内含肽-介导的蛋白质剪切”。在一些实施方案中,前体蛋白质的内含肽(含有内含肽-介导的蛋白质剪切之前的蛋白质的内含肽)来自二个基因。该内含肽在本文中称为分裂内含肽(例如,分裂内含肽-n和分裂内含肽-c)。例如,在蓝绿菌中,dnae,即dna聚合酶iii的催化性亚基,由二个不同基因(dnae-n和dnae-c)编码。由dnae-n基因编码的内含肽在本文中称为“内含肽-n”。由dnae-c基因编码的内含肽在本文中称为“内含肽-c”。[0215]也可以使用其他内含肽系统。例如,一种基于dnae内含肽的合成内含肽,cfa-n(例如,分裂内含肽-n)和cfa-c(例如,分裂内含肽-c)内含肽对,已有所描述(例如,在stevens等人,jamchemsoc.2016feb.24;138(7):2162-5中,其以引用方式并入本文)。可根据本公开使用的内含肽对的非限制实例包括:cfadnae内含肽、sspgyrb内含肽、sspdnax内含肽、terdnae3内含肽、terthyx内含肽、rmadnab内含肽和cneprp8内含肽(例如,如美国专利8,394,604中所述,其以引用方式并入本文)。[0216]提供内含肽的示例性核苷酸和氨基酸序列。[0217]dnae内含肽-ndna:tgcctgtcatacgaaaccgagatactgacagtagaatatggccttctgccaatcgggaagattgtggagaaacggatagaatgcacagtttactctgtcgataacaatggtaacatttatactcagccagttgcccagtggcacgaccggggagagcaggaagtattcgaatactgtctggaggatggaagtctcattagggccactaaggaccacaaatttatgacagtcgatggccagatgctgcctatagacgaaatctttgagcgagagttggacctcatgcgagttgacaaccttcctaat[0218]dnae内含肽-n蛋白:clsyeteiltveygllpigkivekriectvysvdnngniytqpvaqwhdrgeqevfeycledgsliratkdhkfmtvdgqmlpideifereldlmrvdnlpn[0219]dnae内含肽-cdna:[0220]atgatcaagatagctacaaggaagtatcttggcaaacaaaacgtttatgatattggagtcgaaagagatcacaactttgctctgaagaacggattcatagcttctaat[0221]内含肽-c:mikiatrkylgkqnvydigverdhnfalkngfiasn[0222]cfa-ndna:[0223]tgcctgtcttatgataccgagatacttaccgttgaatatggcttcttgcctattggaaagattgtcgaagagagaattgaatgcacagtatatactgtagacaagaatggtttcgtttacacacagcccattgctcaatggcacaatcgcggcgaacaagaagtatttgagtactgtctcgaggatggaagcatcatacgagcaactaaagatcataaattcatgaccactgacgggcagatgttgccaatagatgagatattcgagcggggcttggatctcaaacaagtggatggattgcca[0224]cfa-n蛋白:[0225]clsydteiltveygflpigkiveeriectvytvdkngfvytqpiaqwhnrgeqevfeycledgsiiratkdhkfmttdgqmlpideifergldlkqvdglp[0226]cfa-cdna:[0227]atgaagaggactgccgatggatcagagtttgaatctcccaagaagaagaggaaagtaaagataatatctcgaaaaagtcttggtacccaaaatgtctatgatattggagtggagaaagatcacaacttccttctcaagaacggtctcgtagccagcaac[0228]cfa-c蛋白:[0229]mkrtadgsefespkkkrkvkiisrkslgtqnvydigvekdhnfllknglvasn[0230]内含肽-n和内含肽-c可分别融合至分裂cas9的n-端部分和分裂cas9的c-端部分,用以接合分裂cas9的n-端部分和分裂cas9的c-端部分。例如,在一些实施方案中,内含肽-n融合至分裂cas9的n-端部分的c-端,即,以形成结构n‑‑[分裂cas9的n-端部分]-[内含肽-n]‑‑c。在一些实施方案中,内含肽-c融合至分裂cas9的c-端部分的n-端,即,以形成结构n-[内含肽-c]‑‑[分裂cas9的c-端部分]-c。用以接合内含肽所融合的蛋白质(例如,分裂cas9)的内含肽介导的蛋白质剪切的机制为所属
技术领域
:所周知,例如,描述于shah等人,chemsci.2014;5(1):446-461,其以引用方式并入本文。用于设计和使用内含肽的方法为所属
技术领域
:所周知且描述于,例如,wo2014004336、wo2017132580、us20150344549和us20180127780,其各自以其全体通过引用方式并入本文.[0231]术语“分离”、“纯化”或“生物纯”意指在不同程度上不含在其天然状态通常伴随的成分的物质。“分离”表示从原始来源或环境的分隔程度。“纯度”表示较高于分离的分隔程度。“纯化”或“生物纯”蛋白质为充分不含其他物质,使得任何杂质不会对蛋白质的生物学性质产生实质性影响或引起其他不利后果。即,如果本发明的核酸或肽在通过重组dna技术生产时实质上不含细胞材料、病毒材料或培养基,或者在化学合成时实质上不含化学前体或其他化学品,则该核酸或肽被纯化。纯度和均一性通常使用分析化学技术确定,例如聚丙烯酰胺凝胶电泳或高效液相色谱。术语“纯化的”可以表示核酸或蛋白质在电泳凝胶中产生实质上一条带。对于可以进行修饰(例如磷酸化或糖基化)的蛋白质,不同的修饰可能会产生不同的分离蛋白质,这些蛋白质可以单独纯化。[0232]“分离的多核苷酸”意指不含基因的核酸(例如,dna),在本发明的核酸分子所源自的生物的天然存在的基因组中,该基因位于该基因的侧翼。因此,该术语包括,例如,重组dna,其被并入载体中、被并入自主复制的质粒或病毒中、或被并入原核生物或真核生物的基因组dna中;或作为独立于其他序列的不同分子(例如,通过pcr或限制性内切核酸酶消化产生的cdna或基因组或cdna片段)存在。此外,该术语包括由dna分子转录的rna分子,以及作为编码额外多肽序列的杂合基因的一部分的重组dna。[0233]“分离的多肽”意指本发明的多肽已与自然伴随的组分分离。典型地,当多肽至少60%(重量)不含蛋白质和天然存在的有机分子时,多肽为分离的。优选地,该制剂是至少75重量%,更优选至少90重量%,并且最优选至少99重量%的本发明多肽。可获得本发明的分离的多肽,例如,通过从天然来源中提取、通过编码这种多肽的重组核酸的表达;或通过化学合成蛋白质。纯度可以通过任何合适的方法测量,例如柱层析、聚丙烯酰胺凝胶电泳或通过hplc分析。[0234]术语“连接子”,如使用于本文,可以指共价连接子(例如,共价键)、非共价连接子、化学基团或连接两个分子或部分的分子,例如蛋白质复合物或核糖核复合物的两个组分,或融合的两个结构域蛋白,例如多核苷酸可编程dna结合结构域(例如dcas9)和脱氨酶结构域(例如腺苷脱氨酶,或腺苷脱氨酶和胞苷脱氨酶,例如,如pct/us19/44935中所述)。连接子可以连接碱基编辑器系统的不同组分或组分的不同部分。例如,在一些实施方案中,连接子可以连接多核苷酸可编程核苷酸结合结构域的向导多核苷酸结合结构域和脱氨酶的催化结构域。在一些实施方案中,连接子可以连接crispr多肽和脱氨酶。在一些实施方案中,连接子可以连接cas9和脱氨酶。在一些实施方案中,连接子可以连接dcas9和脱氨酶。在一些实施方案中,连接子可以连接ncas9和脱氨酶。在一些实施方案中,连接子可以连接向导多核苷酸和脱氨酶。在一些实施方案中,连接子可以连接碱基编辑器系统的脱氨基组分和多核苷酸可编程核苷酸结合组分。在一些实施方案中,连接子可以连接碱基编辑器系统的脱氨基组分的rna结合部分和多核苷酸可编程核苷酸结合组分。在一些实施方案中,连接子可以连接碱基编辑器系统的脱氨基组分的rna结合部分和多核苷酸可编程核苷酸结合组分的rna结合部分。连接子可以位于两个基团、分子或其他部分之间或侧翼,并通过共价键或非共价相互作用连接到每一个,从而连接这两者。在一些实施方案中,连接子可以为有机分子、基团、聚合物或化学部分。在一些实施方案中,连接子可以为多核苷酸。在一些实施方案中,连接子可以为dna连接子。在一些实施例中,连接子可以为rna连接子。在一些实施方案中,连接子可包含能够结合配体的适体。在一些实施方案中,配体可以为碳水化合物、肽、蛋白质或核酸。在一些实施方案中,连接子可包含可衍生自核糖开关的适体。衍生适体的核糖开关可以选自茶碱核糖开关、焦磷酸硫胺素(tpp)核糖开关、腺苷钴胺素(adocbl)核糖开关、s-腺苷甲硫氨酸(sam)核糖开关、sah核糖开关、黄素单核苷酸(fmn)核糖开关、四氢叶酸核糖开关、赖氨酸核糖开关、甘氨酸核糖开关、嘌呤核糖开关、glms核糖开关或pre-queosine1(preq1)核糖开关。在一些实施方案中,连接子可包含与多肽或蛋白质结构域例如多肽配体结合的适体。在一些实施方案中,多肽配体可以为k同源(kh)结构域、ms2外壳蛋白结构域、pp7外壳蛋白结构域、sfmucom外壳蛋白结构域、无菌α基序、端粒酶ku结合基序和ku蛋白、端粒酶sm7结合基序和sm7蛋白、或rna识别基序。在一些实施方案中,多肽配体可以为碱基编辑器系统成分的一部分。例如,核碱基编辑组分可包含脱氨酶结构域和rna识别基序。[0235]在一些实施方案中,连接子可以为氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,连接子可以为约5-100个氨基酸的长度,例如,约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、20-30、30-40、40-50、50-60、60-70、70-80、80-90或90-100个氨基酸的长度。在一些实施方案中,连接子可以为约100-150、150-200、200-250、250-300、300-350、350-400、400-450或450-500个氨基酸的长度。也可考虑更长或更短的连接子。[0236]在一些实施方案中,连接子接合rna可编程核酸酶的grna结合结构域,包括cas9核酸酶结构域和核酸编辑蛋白质(例如,腺苷脱氨酶)的催化结构域。在一些实施方案中,连接子接合dcas9和核酸编辑蛋白。例如,连接子位于两个基团、分子或其他部分之间或侧翼,并通过共价键与每个基团、分子或其他部分相连,从而将两个基团、分子或其他部分体连接。在一些实施方案中,连接子为氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,连接子为有机分子、基团、聚合物或化学部分体。在一些实施方案中,连接子为5-200个氨基酸的长度,例如,5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、35、45、50、55、60、60、65、70、70、75、80、85、90、90、95、100、101、102、103、104、105、110、120、130、140、150、160、175、180、190或200个氨基酸的长度。也可考虑更长或更短的连接子。[0237]在一些实施方案中,核碱基编辑器的结构域经由连接子融合,连接子包含下述氨基酸序列:sggssgsetpgtsesatpessgg、sggssggssgsetpgtsesatpessggssggs或ggsggspgspagsptsteegtsesatpesgpgtstepsegsapgspagsptsteegtstepsegsapgtstepsegsapgtsesatpesgpgsepatsggsggs。在一些实施方案中,核碱基编辑器的结构域经由连接子融合,连接子包含氨基酸序列sgsetpgtsesatpes,其也可称为xten连接子。在一些实施方案中,连接子包含氨基酸序列sggs。在一些实施方案中,连接子包含(sggs)n、(gggs)n、(ggggs)n、(g)n、(eaaak)n、(ggs)n、sgsetpgtsesatpes或(xp)n基序或其任何组合,其中n独立地为介于1和30之间的整数,并且其中x为任何氨基酸。在一些实施方案中,n为1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。[0238]在一些实施方案中,连接子为24个氨基酸的长度。在一些实施方案中,连接子包含氨基酸序列sggssggssgsetpgtsesatpes。在一些实施方案中,连接子为40个氨基酸的长度。在一些实施方案中,连接子包含氨基酸序列sggssggssgsetpgtsesatpessggssggssggssggs。在一些实施方案中,连接子为64个氨基酸的长度。在一些实施方案中,连接子包含氨基酸序列sggssggssgsetpgtsesatpessggssggssggssggssgsetpgtsesatpessggssggs。在一些实施方案中,连接子为92个氨基酸的长度。在一些实施方案中,连接子包含氨基酸序列pgspagsptsteegtsesatpesgpgtstepsegsapgspagsptsteegtstepsegsapgtstepsegsapgtsesatpesgpgsepats。[0239]“标记物”意指表达量级或活性发生与疾病或病症相关的变化的任何蛋白质或多核苷酸。[0240]术语“突变”,如使用于本文,指序列(例如,核酸或氨基酸序列)内的残基被另一个残基取代,或一个或多个残基在序列中的缺失或插入。突变在本文中通常通过鉴定原始残基随后是该残基在序列中的位置再随后是新取代残基的身份来描述。用于进行本文提供的氨基酸取代(突变)的各种方法是所属
技术领域
:所周知,并且由下述提供,例如,greenandsambrook,molecularcloning:alaboratorymanual(4thed.,coldspringharborlaboratorypress,coldspringharbor,n.y.(2012))。在一些实施方案中,本公开的碱基编辑器可以在核酸(例如,受试者基因组内的核酸)中有效地产生“预期突变”,诸如点突变,而不会产生大量的非预期突变,诸如非预期的点突变。在一些实施方案中,预期突变是由与向导多核苷酸(例如,grna)结合的特别设计用于产生预期突变的特定碱基编辑器(例如,腺苷碱基编辑器)产生的突变。[0241]一般而言,序列(例如,氨基酸序列,如本文所述)中制造或鉴定的突变,相对于参照(或野生型)序列即不含有突变的序列进行编号。所属
技术领域
:中普通技术人员将容易地理解如何测定相对于参照序列的氨基酸和核酸序列中突变的位置。[0242]术语“非保守突变”涉及不同组别之间的氨基酸取代,例如,赖氨酸取代色氨酸或者苯丙氨酸取代丝氨酸等。在这种情况下,非保守氨基酸取代优选不干扰或抑制功能变体的生物活性。非保守氨基酸取代可增强功能变体的生物活性,使得与野生型蛋白质相比,功能变体的生物活性增加。[0243]术语“核定位序列”、“核定位信号”、或“nls”指促进蛋白质进入细胞核的输入的氨基酸序列。核定位序列为所属
技术领域
:所周知且描述于,例如,plank等人,国际pct申请案,pct/ep2000/011690,申请于2000年11月23日,2001年5月31日公开为wo/2001/038547,其内容对于示例性核定位序列的公开以引用方式并入本文。在其他实施方案中,nls为最适化nls,其描述于例如koblan等人,naturebiotech.2018doi:10.1038/nbt.4172。在一些实施方案中,nls包含氨基酸序列krtadgsefespkkkrkv、krpaatkkagqakkkk、kktelqttnaenktkkl、krgindrnfwrgengrktr、rksgkiaaivvkrprk、pkkkrkv或mdsllmnrrkflyqfknvrwakgrretylc。[0244]术语“核酸”和“核酸分子”,如本文所用,指包含核碱基和酸性部分的化合物,例如,核苷、核苷酸或核苷酸的聚合物。典型地,聚合性核酸,例如,包含三个或更多个核苷酸的核酸分子为线性分子,其中相邻核苷酸经由磷酸二酯键彼此连接。在一些实施方案中,“核酸”指个体核酸残基(例如,核苷酸和/或核苷)。在一些实施方案中,“核酸”指包含三个或更多个个体核甘酸残基的寡核苷酸链。如本文所用,术语“寡核苷酸”和“多核苷酸”可交换使用,指核苷酸的聚合物(例如,至少三个核苷酸的串)。在一些实施方案中,“核酸”涵盖rna以及单链核/或双链dna。核酸可以为天然出现的,例如,在基因组、转录物、mrna、trna、rrna、sirna、snrna、质粒、粘体、染色体、染色分体或其他天然出现的核酸分子的语境中。另一方面,核酸分子可以为非天然出现的分子,例如,重组dna或rna、人工染色体、工程化基因组或其片段或合成的dna、rna、dna/rna杂合体或包括非天然出现的核苷酸或核苷。再者,术语“核酸”、“dna”、“rna”和/或类似术语包括核酸类似物,例如,具有磷酸二酯键以外的类似物。核酸可由天然来源纯化、使用重组表达系统产生或任选地经纯化、化学合成等。在适当的情况下,例如,在化学合成分子的情况下,核酸可包含核苷类似物如具有经化学修饰的碱基或糖和骨架修饰的类似物。核酸序列表示为5′至3′方向,除非另行指明。在一些实施方案中,核酸为或包含天然的核苷(例如,腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷和脱氧胞苷);核苷类似物(例如,2-氨基腺苷、2-硫基胸苷、肌苷、吡咯-嘧啶、3-甲基腺苷、5-甲基胞苷、2-氨基腺苷、c5-溴尿苷、c5-氟尿苷、c5-碘尿苷、c5-丙炔基-尿苷、c5-丙炔基-胞苷、c5-甲基胞苷、2-氨基腺苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、o(6)-甲基鸟苷和2-硫基胞苷);经化学修饰的碱基;经生物学修饰的碱基(例如,甲基化的碱基);插入的碱基;经修饰的糖类(例如,2′‑氟核糖、核糖、2′‑脱氧核糖、阿拉伯糖和己糖);和/或经修饰的磷酸酯基团(例如,硫代磷酸酯类和5′‑n-亚磷酰胺键)。[0245]术语“核酸可编程dna结合蛋白”或“napdnabp”可与“多核苷酸可编程核苷酸结合结构域”交换使用,指与核酸(例如,dna或rna)相关的蛋白质,如向导核酸或向导多核苷酸(例如,grna),其将napdnabp引导至特异的核酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域为多核苷酸可编程dna结合结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域为多核苷酸可编程rna结合结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域为cas9蛋白质。cas9蛋白质可与向导rna缔合,该向导rna将cas9蛋白引导与该向导rna互补的特异性dna序列。在一些实施方案中,napdnabp为cas9结构域,例如核酸酶活性cas9、cas9切口酶(ncas9)或核酸酶失活cas9(dcas9)。核酸可编程dna结合蛋白的非限制实例包括,cas9(例如,dcas9和ncas9)、cas12a/cpfl、cas12b/c2cl、cas12c/c2c3、cas12d/casy、cas12e/casx、cas12g、cas12h和cas12i。cas酶的非限制实例包括cas1、cas1b、cas2、cas3、cas4、cas5、cas5d、cas5t、cas5h、cas5a、cas6、cas7、cas8、cas8a、cas8b、cas8c、cas9(已知为csn1或csx12)、cas10、cas10d、cas12a/cpfl、cas12b/c2cl、cas12c/c2c3、cas12d/casy、cas12e/casx、cas12g、cas12h、cas12i、csy1、csy2、csy3、csy4、cse1、cse2、cse3、cse4、cse5e、csc1、csc2、csa5、csn1、csn2、csm1、csm2、csm3、csm4、csm5、csm6、cmr1、cmr3、cmr4、cmr5、cmr6、csb1、csb2、csb3、csx17、csx14、csx10、csx16、csax、csx3、csx1、csx1s、csx11、csf1、csf2、cso、csf4、csd1、csd2、cst1、cst2、csh1、csh2、csa1、csa2、csa3、csa4、csa5、typeiicas效应子蛋白、typevcas效应子蛋白、typevicas效应子蛋白、carf、ding、其同源物或其经修饰的或工程化版本。其他核酸可编程dna结合蛋白也处于本公开的范畴内,然而它们可能并未具体列举于本公开中。参见例如,makarova等人“classificationandnomenclatureofcrispr-cassystems:wherefromhere?”crisprj.2018oct;1:325-336.doi:10.1089/crispr.2018.0033;yan等人,“functionallydiversetypevcrispr-cassystems”science.2019jan4;363(6422):88-91.doi:10.1126/science.aav7271,各自的全部内容以引用方式并入。[0246]术语“核碱基”、“含氮碱基”或“碱基”于本文中交换使用,指含有氮的生物性化合物,其形成核苷,核苷继而为核苷酸的组分。核碱基形成碱基对和相互堆叠的能力直接导致长链螺旋结构如核糖核酸(rna)和脱氧核糖核酸(dna)。五种核碱基,即腺嘌呤(a)、胞嘧啶(c)、鸟嘌呤(g)、胸腺嘧啶(t)和尿嘧啶(u),被称为原始核碱基或标准核碱基。腺嘌呤和鸟嘌呤衍生自嘌呤,而胞嘧啶、尿嘧啶和胸腺嘧啶衍生自嘧啶。dna和rna也可含有其他(非原始的)经修饰碱基。经修饰的核碱基的非限制性实例可包括次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤、5,6-二氢尿嘧啶、5-甲基胞嘧啶(m5c)和5-氢甲基胞嘧啶。次黄嘌呤和黄嘌呤二者可通过在诱变剂存在下,经由脱氨作用(利用羰基置换氨基)而创造。次黄嘌呤可由腺嘌呤修饰。黄嘌呤可由鸟嘌呤修饰。尿嘧啶可以为来自胞嘧啶的脱氨作用的结果。“核苷”由核碱基和五碳糖(核糖或脱氧核糖)组成。核苷的实例包括腺苷、鸟苷、尿苷、胞苷、5-甲基尿苷(m5u)、脱氧腺苷、脱氧鸟苷、胸苷、脱氧尿苷和脱氧胞苷。具有经修饰的核碱基的核苷的实例包括肌苷(i)、黄苷(x)、7-甲基鸟苷(m7g)、二氢尿苷(d)、5-甲基胞苷(m5c)和假尿苷(ψ)。“核苷酸”由核碱基、五碳糖(核糖或脱氧核糖)和至少一个磷酸酯基团组成。[0247]术语“核碱基编辑结构域”或“核碱基编辑蛋白”,如本文所用,指催化rna或dna中的核碱基修饰的蛋白质或酶,如腺嘌呤(或腺苷)到次黄嘌呤(或肌苷)的脱氨作用,以及非模板的核苷酸加成和插入。在一些实施方案中,核碱基编辑结构域为脱氨酶结构域(例如,腺嘌呤脱氨酶或腺苷脱氨酶)。在一些实施方案中,核碱基编辑结构域为多于一个脱氨酶结构域(例如,腺嘌呤脱氨酶或腺苷脱氨酶和胞苷或胞嘧啶脱氨酶,例如,如pct/us19/44935中所述)。在一些实施方案中,核碱基编辑结构域可以为天然出现的核碱基编辑结构域。在一些实施方案中,核碱基编辑结构域可以为来自天然出现的核碱基编辑结构域的经工程化的或进化的核碱基编辑结构域。核碱基编辑结构域可来自任何有机体,如细菌、人类、黑猩猩、金刚猩猩、猴、牛、犬、大鼠或小鼠。[0248]如本文所用,“获得剂”中的“获得”包括合成、购买、产生、制备或其他方法获得药剂。[0249]“患者”或“受试者”,如本文多用,指已诊断具有疾病或疾患、有具有或发展疾病或疾患的风险或倾向于具有或发展疾病或疾患的动物受试者或个体。在一些实施方案中,术语“患者”指具有高于平均的发展疾病或疾患的可能性的哺乳动物受试者。示例性患者可以为人、非人灵长类、猫、犬、猪、牛、猫、马、骆驼、骆马、山羊、绵羊、啮齿类(例如,小鼠、兔、大鼠或豚鼠)和可受益于本文公开的疗法的其他哺乳动物。示例性人类患者可以为男性和/或女性。[0250]“有需要的患者”或“有需要的受试者”于本文中指患者或受试者,其已被诊断为患有、具有、具有风险、倾向于、预期具有或倾向于具有疾病或疾患。[0251]术语“病原性突变”、“病原性变体”、“致病突变”、“致病变体”、“有害的突变”或“倾向的突变”指基因变化或突变,其增加个体对于某疾病或疾患的倾向性或预期性。在一些实施方案中,病原性突变包含至少一个野生型氨基酸经基因所编码的蛋白质中的至少一个病原性氨基酸所取代。[0252]术语“蛋白质”、“肽”、“多肽”和其语法均等物于本文中交换地使用,且指通过肽(酰胺)键一起连结的氨基酸残基的聚合物。该术语指任何大小、结构或功能的蛋白质、肽或多肽。典型地,蛋白质、肽或多肽为至少三个氨基酸长。蛋白质、肽或多肽可指个体蛋白质或蛋白质的集合。蛋白质、肽或多肽中的一个或多个氨基酸可以为经修饰的,例如,通过化学体的加成如碳水化合物基、羟基、磷酸酯基、法尼基(farnesylgroup)、异法尼基(isofarnesylgroup)、脂肪酸基、用于接合、功能化或修饰的连接子等。蛋白质、肽或多肽也可以为单一分子或多分子复合物。蛋白质、肽或多肽可只为天然出现的蛋白质或肽的片段。蛋白质、肽或多肽可以为天然出现的、重组或合成或其任何组合。术语“融合蛋白”,如本文所用,指杂合多肽,其包含来自至少二个不同蛋白质的蛋白结构域。一个蛋白质可位于融合蛋白的氨基端(n-端)部分或羧基端(c-端)蛋白质,从而分别形成氨基端融合蛋白或羧基端融合蛋白。蛋白质可包含不同的结构域,例如,核酸结合结构域(例如,cas9的grna结合结构域,其引导蛋白质与靶标位点的结合)和核酸编辑蛋白质核酸裂解结构域或催化结构域。在一些实施方案中,蛋白质包含蛋白质性部分,例如,组成核酸结合结构域的氨基酸序列和有机化合物,例如,可作用为核酸裂解剂的化合物。在一些实施方案中,蛋白质与核酸(例如,rna或dna)复合或缔合。本文提供的任一蛋白质可通过所属
技术领域
:周知的方法制造。例如,本文提供的蛋白质可经由重组蛋白表达和纯化而制造,其特别适合于包含连接子的融合蛋白。用于重组蛋白表达和纯化的的方法是周知的,且包括greenandsambrook,molecularcloning:alaboratorymanual(4thed.,coldspringharborlaboratorypress,coldspringharbor,n.y.(2012))中所述的方法,其全部内容以引用方式并入本文。[0253]本文公开的多肽和蛋白质(包括功能性部分和其功能性变体)可包含合成的氨基酸代替一个或多个天然出现的氨基酸。这些合成的氨基酸为所属
技术领域
:所周知,并且包括,例如,米诺环己烷羧酸、正亮氨酸、α-氨基-n-癸酸、高丝氨酸、s-乙酰基氨基甲基-半胱氨酸、反式-3-和反式-4-羟基脯氨酸、4-氨基苯丙氨酸、4-硝基苯丙氨酸、4-氯苯丙氨酸、4-羧基苯丙氨酸、β-苯基丝氨酸β-羟基苯丙氨酸、苯基甘氨酸、α-萘基丙氨酸、环己基丙氨酸、环己基甘氨酸、吲哚啉-2-羧酸、,2,3,4-四氢异喹啉-3-羧酸、氨基丙二酸、氨基丙二酸单酰氨、n’‑苄基-n’‑甲基-赖氨酸、n’,n’‑二苄基-赖氨酸、6-羟基赖氨酸、鸟氨酸、α-氨基环戊烷甲酸、α-氨基环己烷甲酸、α-氨基环庚烷甲酸、α-(2-氨基-2-降冰片烷)-甲酸、α,γ-二氨基丁酸、α,β-二氨基丙酸、高苯丙氨酸和α-叔丁基甘氨酸。多肽和蛋白质可与多肽结构物的一个或多个氨基酸的翻译后修饰相关。翻译后修饰的非限制性实例包括磷酸化、酰化(包括乙酰基化和甲酰基化)、糖基化(包括n-联或c-联)、酰胺化、羟基化、烷基化(包括甲基化和乙基化)、泛素化、吡咯啶酮羧酸的加成、双硫桥联的形成、硫酸化、肉豆蔻酰化、棕榈酰化、异戊二烯化、法尼基化、香叶基化、糖基磷脂酰肌醇化、硫辛酰化和碘化。[0254]术语“重组”,如本文所用,在蛋白质或核酸的语境中指不天然出现的蛋白质或核酸,而是人类工程化的制品。例如,在一些实施方案中,重组蛋白质或核酸分子包含氨基酸或核苷酸序列,其相对于任何天然出现的序列包含至少一个、至少二个、至少三个、至少四个、至少五个、至少六个或至少七个突变。[0255]“减少”意指负向变化至少10%、25%、50%、75%或100%。[0256]“参照”意指标准或对照条件。在一种实施方案中,参照为野生型或健康的细胞。在其他实施方案中且无限制的,参照为未处理细胞,其为不进行测试条件或进行安慰剂或生理盐水、介质、缓冲液和/或不带有感兴趣的多核苷酸的对照载体。[0257]“参照序列”为用于序列比较的作为基础的已定义序列。参照序列可以为特定序列的子集或整体;例如,全长cdna或基因序列或完整cdna或基因序列的链段。对于多肽,参照多肽序列的长度将通常为至少约16个氨基酸、至少约20个氨基酸、至少约25个氨基酸、约35个氨基酸、约50个氨基酸或约100个氨基酸。对于核酸参照核酸序列的长度将通常为至少约50个核苷酸、至少约60个核苷酸、至少约75个核苷酸、约100个核苷酸或约300个核苷酸或与其接近或介于其间的任何整数。在一些实施方案中,参照序列为感兴趣蛋白质的野生型序列。在其他实施方案中,参照序列为编码野生型蛋白质的多核苷酸序列。[0258]术语“rna可编程核酸酶”和“rna向导核酸酶”与不作为裂解靶标的一个或多个rna合用(例如,结合或缔合)。在一些实施方案中,rna可编程核酸酶,当与rna复合时,可指核酸酶:rna复合物。典型地,所结合的rna称为向导rna(grna)。grna可作为二个或更多个rna的复合物存在或作为单一rna分子存在。作为单一rna分子存在的grna可称为单一向导rna(sgrna),但“grna”可互换地使用,指作为单一分子存在或作为二个或更多个分子的复合物存在的向导rna。典型地,作为单一rna物质存在的grna包含二个结构域:(1)与靶标核酸共享同源性(例如,并且引导cas9复合物与靶标的结合)的结构域;和(2)结合cas9蛋白质的结构域。在一些实施方案中,结构域(2)对应于已知为tracrrna的序列,且包含茎-环结构。例如,在一些实施方案中,结构域(2)与tracrrna具有同一性或同源性,如提供于jinek等人,science337:816-821(2012),其全部内容以引用方式并入本文。grna的其他实例(例如,包括结构域2的)可见于2013年9月6日提交的名为“switchablecas9nucleasesandusesthereof”的美国临时专利申请案u.s.s.n.61/874,682和2013年9月6日提交的名为“deliverysystemforfunctionalnucleases”的美国临时专利申请案u.s.s.n.61/874,746,各自的全部内容以其整体通过引用方式并入本文。在一些实施方案中,grna包含二个或更多个结构域(1)和(2),且可称为“延伸的grna”。延伸的grna将结合二个或更多个cas9蛋白质且在二个或更多个不同区域结合靶标核酸,如本文所述。grna包含与靶标位点互补的核苷酸序列,该靶标位点介导核酸酶/rna复合物与该靶标位点的结合,提供核酸酶:rna复合物的序列特异性。[0259]在一些实施方案中,rna可编程核酸酶为(crispr-相关系统)cas9内切核酸酶,例如,来自化脓性链球菌(streptococcuspyogenes)的cas9(casnl)(参见例如,"completegenomesequenceofanmlstrainofstreptococcuspyogenes."ferrettij.j.,mcshanw.m.,ajdicd.j.,savicd.j.,savicg.,lyonk.,primeauxc,sezates.,suvorova.n.,kentons.,laih.s.,lins.p.,qiany.,jiah.g.,najarf.z.,renq.,zhuh.,songl.,whitej.,yuanx.,cliftons.w.,roeb.a.,mclaughlinr.e.,proc.natl.acad.sci.u.s.a.98:4658-4663(2001);"crisprrnamaturationbytrans-encodedsmallrnaandhostfactorrnaseiii."deltchevae.,chylinskik.,sharmacm.,gonzalesk.,chaoy.,pirzadaz.a.,eckertm.r.,vogelj.,charpentiere.,nature471:602-607(2011))。[0260]因为rna可编程核酸酶(例如,cas9)使用rna:dna杂合以靶向靶标dna裂解位点,原则上该等蛋白质能被靶向由向导rna所特异化的任何序列。使用rna可编程核酸酶如cas9进行位点特异性裂解(例如,以修饰基因组)的方法为所属
技术领域
:周知(参见例如,cong,l.等人,multiplexgenomeengineeringusingcrispr/cassystems.science339,819-823(2013);mali,p.etah,rna-guidedhumangenomeengineeringviacas9.science339,823-826(2013);hwang,w.y.等人,efficientgenomeeditinginzebrafishusingacrispr-cassystem.naturebiotechnology31,227-229(2013);jinek,m.etah,rna-programmedgenomeeditinginhumancells.elife2,e00471(2013);dicarlo,j.e.等人,genomeengineeringinsaccharomycescerevisiaeusingcrispr-cassystems.nucleicacidsresearch(2013);jiang,w.等人,rna-guidededitingofbacterialgenomesusingcrispr-cassystems.naturebiotechnology31,233-239(2013);其各自的完整内容以引用方式并入本文)。[0261]术语“单一核苷酸多态性(snp)”为基因组中发生于特定位置处的单一核苷酸的变异,其中各变异在族群内存在可观的程度(例如,》1%)。例如,在人类基因组的特定碱基位置处,c核苷酸可出现在大多数个体中,但在少数个体中,该位置被a占据。这意味着在这个特定位置有snp,这两种可能核苷酸变异,c或a,被称为该位置的等位基因。snp于疾病易感性有潜在的差异。生病的严重程度和我们身体对治疗的应答方式也是遗传变异的表现。snp可位于基因的编码区、基因的非编码区或基因间区(基因之间的区域)。在一些实施方案中,由于遗传密码的简并性,编码序列内的snp不一定改变所产生蛋白质的氨基酸序列。编码区的snp有两种类型:同义snp和非同义snp。同义snp不影响蛋白质序列,而非同义snp改变蛋白质的氨基酸序列。非同义snp有两种类型:错义和无义。不在蛋白质编码区的snp仍然可以影响基因剪切、转录因子结合、信使rna降解或非编码rna的序列。受此类snp影响的基因表达称为esnp(表达snp),可以位于基因的上游或下游。单一核苷酸变异(snv)是单个核苷酸的变异,没有任何频率限制,可以在体细胞中出现。体细胞单一核苷酸变异也可称为单一核苷酸改变。[0262]"特异性结合"意指于样品例如生物样品中,识别或结合本发明的多肽和/或核酸分子但不实质上识别或结合其他分子的核酸分子、多肽或其复合物(例如,核酸可编程dna结合结构域和向导核酸)、化合物或分子。[0263]可用于本发明方法的核酸分子包括编码本发明多肽或其片段的任何核酸分子。这样的核酸分子不需要与内源核酸序列100%相同,但通常会表现出实质上同一性。与内源序列具有“实质上同一性”的多核苷酸通常能够与双链核酸分子的至少一条链杂交。可用于本发明方法的核酸分子包括编码本发明多肽或其片段的任何核酸分子。此类核酸分子无需与内源核酸序列100%相同,但通常会表现出实质上同一性。与内源序列具有“实质上同一性”的多核苷酸通常能够与双链核酸分子的至少一条链杂交。“杂交”是指在各种严格条件下配对以在互补多核苷酸序列(例如,本文描述的基因)或其部分之间形成双链分子。(参见例如,wahl,g.m.和s.l.berger(1987)methodsenzymol.152:399;kimmel,a.r.(1987)methodsenzymol.152:507)。[0264]例如,严格的盐浓度通常小于约750mm氯化钠和75mm柠檬酸三钠,优选小于约500mm氯化钠和50mm柠檬酸三钠,更优选小于约250mm氯化钠和25mm柠檬酸三钠。可以在不存在有机溶剂例如甲酰胺的情况下获得低严格性杂交,而可以在存在至少约35%甲酰胺,更优选至少约50%甲酰胺的情况下获得高严格性杂交。严格的温度条件通常包括至少约30℃,更优选至少约37℃,最优选至少约42℃的温度。例如,十二烷基硫酸钠(sds),以及载体dna的包含或排除,为所属艺术领域中普通技术人员所周知。通过根据需要组合这些不同的条件来实现不同程度的严格性。在一种实施方案中,杂交将在30℃在750mm氯化钠、75mm柠檬酸三钠和1%sds中发生。在另一种实施方案中,杂交将在37℃在500mm氯化钠、50mm柠檬酸三钠、1%sds、35%甲酰胺和100μg/ml变性鲑鱼精子dna(ssdna)中发生。在另一种实施方案中,杂交将在42℃在250mm氯化钠、25mm柠檬酸三钠、1%sds、50%甲酰胺和200μg/mlssdna中发生。这些条件的有用变化对所属
技术领域
:普通技术人员而言是显而易见的。[0265]对于大多数应用,杂交后的洗涤步骤在严格性方面也会有所不同。洗涤严格条件由盐浓度和温度定义。如上所述,通过降低盐浓度或提高温度来增加洗涤的严格性。例如,洗涤步骤的严格盐浓度优选小于约30mm氯化钠和3mm柠檬酸三钠,最优选小于约15mm氯化钠和1.5mm柠檬酸三钠。洗涤步骤的严格温度条件通常包括至少约25℃,更优选至少约42℃,甚至更优选至少约68℃的温度。在一种实施方案中,洗涤步骤将发生在25℃的30mm氯化钠、3mm柠檬酸三钠和0.1%sds中。在更优选的实施方案中,洗涤步骤将在42℃在15mm氯化钠、1.5mm柠檬酸三钠和0.1%sds中进行。在更优选的实施方案中,洗涤步骤将在68℃在15mm氯化钠、1.5mm柠檬酸三钠和0.1%sds中进行。对所属
技术领域
:普通技术人员而言,这些条件的额外变化是显而易见的。杂交技术是所属
技术领域
:普通技术人员所周知的并且描述于例如bentonanddavis(science196:180,1977);grunsteinandhogness(proc.natl.acad.sci.,usa72:3961,1975);ausubel等人(currentprotocolsinmolecularbiology,wileyinterscience,newyork,2001);bergerandkimmel(guidetomolecularcloningtechniques,1987,academicpress,newyork)和sambrook等人,molecularcloning:alaboratorymanual,coldspringharborlaboratorypress,newyork中。[0266]“分裂”意指分为二个或更多个片段。[0267]“分裂cas9蛋白”或“分裂cas9”指cas9蛋白,其提供为由二个不同的核苷酸序列所编码的n-端片段和c-端片段。对应于cas9蛋白的n-端部分和c-端部分的多肽可经剪切以形成“重构的”cas9蛋白。特别的实施方案中,cas9蛋白分为蛋白质的无序区内的二个片段,例如,描述于nishimasu等人,cell,volume156,issue5,pp.935-949,2014或描述于jiang等人,(2016)science351:867-871.pdbfile:5f9r,其各自以引用方式并入本文。在一些实施方案中,蛋白质在spcas9的介于约氨基酸a292-g364、f445-k483或e565-t637的区域内的任何c、t、a或s处或于任何其他cas9、cas9变体(例如,ncas9、dcas9)或其他napdnabp的对应位置分为二个片段。在一些实施方案中,蛋白质在spcas9t310、t313、a456、s469或c574处分为二个片段。在一些实施方案中,将蛋白质分为二个片段的过程称为“分裂”该蛋白质。[0268]在其他实施方案中,cas9蛋白的n-端部分包含化脓性链球菌cas9野生型(spcas9)(ncbi参照序列:nc_002737.2,uniprot参照序列:q99zw2)或其对应位置/突变的氨基酸1-573或1-637,并且cas9蛋白的c-端部分包含spcas9野生型的氨基酸574-1368或638-1368的部分。[0269]分裂cas9的c-端部分可与分裂cas9的n-端部分接合以形成完整的cas9蛋白。在一些实施方案中,cas9蛋白质的c-端部分起始自cas9蛋白的n-端部分结束处。如此,在一些实施方案中,分裂cas9的c-端部分包含spcas9的氨基酸(551-651)-1368部分。“(551-651)-1368”意指起始自介于氨基酸551-651(含)的氨基酸且在氨基酸1368处进行编辑。例如,分裂cas9的c-端部分可包含spcas9的下述任一氨基酸部分:551-1368、552-1368、553-1368、554-1368、555-1368、556-1368、557-1368、558-1368、559-1368、560-1368、561-1368、562-1368、563-1368、564-1368、565-1368、566-1368、567-1368、568-1368、569-1368、570-1368、571-1368、572-1368、573-1368、574-1368、575-1368、576-1368、577-1368、578-1368、579-1368、580-1368、581-1368、582-1368、583-1368、584-1368、585-1368、586-1368、587-1368、588-1368、589-1368、590-1368、591-1368、592-1368、593-1368、594-1368、595-1368、596-1368、597-1368、598-1368、599-1368、600-1368、601-1368、602-1368、603-1368、604-1368、605-1368、606-1368、607-1368、608-1368、609-1368、610-1368、611-1368、612-1368、613-1368、614-1368、615-1368、616-1368、617-1368、618-1368、619-1368、620-1368、621-1368、622-1368、623-1368、624-1368、625-1368、626-1368、627-1368、628-1368、629-1368、630-1368、631-1368、632-1368、633-1368、634-1368、635-1368、636-1368、637-1368、638-1368、639-1368、640-1368、641-1368、642-1368、643-1368、644-1368、645-1368、646-1368、647-1368、648-1368、649-1368、650-1368或651-1368。在一些实施方案中,分裂cas9的c-端部分蛋白包含spcas9的氨基酸574-1368或638-1368的部分。[0270]“serpin1a多核苷酸”意指编码a1at蛋白或其片段的核酸分子。示例性serpin1a多核苷酸的序列可自ncbi登录号nm_000295获得,提供于下:[0271][0272][0273]强调显示了pam序列,并且显示了腺嘌呤碱基编辑的正确序列。[0274]"受试者"意指哺乳动物,包括但不限于,人或非人类哺乳动物,如牛、马、犬、羊或猫。受试者包括牲畜、为生产劳动和提供商品如食物而饲养的家畜,包括但不限于牛、山羊、鸡、马、猪、兔和绵羊。[0275]“实质上同一性”指多肽或核酸分子与参照氨基酸序列(例如,本文所述的任何一种氨基酸序列)或核酸序列(例如,本文所述的任何一种核酸序列)。在一种实施方案中,这样的序列与用于比较的序列在氨基酸或核酸水平上具有至少60%、80%或85%、90%、95%或甚至99%同一性。[0276]序列同一性通常使用序列分析软件(例如,遗传学计算机组的序列分析套装软件,universityofwisconsinbiotechnologycenter,1710universityavenue,madison,wis.53705,blast,bestfit,gap或pileup/prettybox程序)测量。此类软件通过为各种替换、缺失和/或其他修饰指定同源性程度来匹配相同或相似的序列。保守取代通常包括以下组内的取代:甘氨酸、丙氨酸;缬氨酸、异亮氨酸、亮氨酸;天冬氨酸、谷氨酸、天冬酰胺、谷氨酰胺;丝氨酸、苏氨酸;赖氨酸、精氨酸;和苯丙氨酸、酪氨酸。在确定同一性程度的示例性方法中,可以使用blast程序,其中e-3和e-100之间的概率分数表示密切相关的序列。[0277]使用cobalt,例如,利用下列参数:[0278]a)对准参数:空位罚分-11、-1和端-空位罚分-5、-1,[0279]b)cdd参数:启用rpsblast;blaste-value0.003;找到保守列和启用recompute,和[0280]c)查询聚类参数:启用查询聚类;字长4;最大聚类距离0.8;αbetregular。[0281]使用embossneedle,例如,利用下列参数:[0282]a)matrix:blosum62;[0283]b)gapopen:10;[0284]c)gapextend:0.5;[0285]d)outputformat:对;[0286]e)endgappenalty:假;[0287]f)endgapopen:10;以及[0288]g)endgapextend:0.5。[0289]术语“靶标位点”指核酸分子内已通过核碱基编辑器修饰的序列。在一种实施方案中,靶标位点通过脱氨酶或包含脱氨酶(例如,腺嘌呤脱氨酶)的融合蛋白进行脱氨作用。[0290]如本文所用,术语“治疗(treat)”、“进行治疗(treating)”、“处置(treatment)”等是指减少或缓和疾患和/或与其相关的症状或获得期望的药理学和/或生理学功效。应当理解,尽管不排除,治疗疾患或病症并不要求完全消除疾患、病症或与其相关的症状。在一些实施方案中,该功效是治疗性的,即但不限于,该功效部分或完全减少、减弱、消除、减轻、减轻、降低强度和/或治愈疾病和/或可归因于该疾病的不良症状。在一些实施方案中,该功效是预防性的,即该功效保护或防止疾病或病症的发生或复发。为此,本公开的方法包含施用治疗有效量的组合物,如本文所述。在实施方案中,疾病为α-1抗胰蛋白酶缺乏症(a1ad)。[0291]“尿嘧啶糖苷酶抑制剂”或“ugi”意指抑制尿嘧啶切除修复系统的剂。在一种实施方案中,该剂是结合宿主尿嘧啶-dna糖基化酶并防止从dna中去除尿嘧啶残基的蛋白质或其片段。在一种实施方案中,ugi是能够抑制尿嘧啶-dna糖基化酶碱基切除修复酶的蛋白质、其片段或结构域。在一些实施方案中,ugi结构域包含野生型ugi或其修饰形式。在一些实施方案中,ugi结构域包含下文阐述的示例性氨基酸序列的片段。在一些实施方案中,ugi片段包含氨基酸序列,其包含下文提供的示例性ugi序列的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%。在一些实施方案中,ugi包含与示例性ugi氨基酸序列或其片段同源的氨基酸序列,如下所述。在一些实施方案中,ugi或其部分与野生型ugi或ugi序列或其部分具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.5%、至少99.9%或100%同一性,下文所述。示例性ugi包含氨基酸序列如下述:[0292]》splp14739iungi_bppb2尿嘧啶-dna糖苷酶抑制剂[0293]mtnlsdiieketgkqlviqesilmlpeeveevignkpesdilvhtaydestdenvmlltsdapeykpwalviqdsngenkikml。[0294]术语“载体”指将核酸序列导入细胞而造成转化细胞的机构。载体包括质粒、转座子、噬菌体、病毒、脂质体和游离基因组。“表达载体”是包含将要在接纳者细胞中表达的核苷酸序列的核酸序列。表达载体可以包括额外的核酸序列以促进和/或助于引入序列的表达,例如起始、终止、增强子、启动子和分泌序列。[0295]本文提供的任何组合物或方法可与本文提供的任何一个或多个其他组合物或方法组合。[0296]参照于说明书的“一些实施方案”、“实施方案”、“一种实施方案”或“其他实施方案”意指结合实施方案描述的特定特征、结构或特性包括在本公开的至少一些实施方案中,但不一定包括在所有实施方案中。[0297]在本文中变量的任何定义中对化学基团列表的引用包括将该变量定义为任何单一组或所列组的组合。此处对变量或方面的实施方案的叙述包括作为任何单一实施方案或与任何其他实施方案或其部分组合的实施方案。[0298]dna编辑已成为通过在基因层面修正致病突变以改变疾病状态的可行手段。直到最近,所有dna编辑平台的功能都是通过在特定基因组位点诱导dna双链断裂(dsb)并依靠内源性dna修复途径以半随机方式确定产品结果,从而产生复杂的基因产品族群。虽然可以通过同源定向修复(hdr)途径实现精确的、使用者定义的修复结果,但许多挑战阻碍了在治疗相关细胞类型中使用hdr进行高效修复。实际上,该途径相对于竞争性、易出错的非同源末端连接途径而言效率低下。此外,hdr被严格限制在细胞周期的g1和s期,阻止有丝分裂后细胞中dsb的精确修复。因此,已经证明很难或不可能以使用者定义的、可编程的方式在这些族群中高效地改变基因组序列。附图说明[0299]图1a至1c描绘质粒。图1a为编码tada7.10-dcas9碱基编辑器的表达载体。图1b为包含编码赋予氯霉素抗性(camr)和大观霉素抗性(spectr)的蛋白质的核酸分子的质粒。质粒也包含通过二个点突变失能的卡那霉素抗性基因。图1c为包含编码赋予氯霉素抗性(camr)和大观霉抗性(spectr)的蛋白质的核酸分子的质粒。质粒也包含通过二个点突变失能的卡那霉素抗性基因。[0300]图2为以图1a至c所描绘的表达载体转导的细菌群落,其包括失效的卡那霉素抗性基因。载体含有abe7.10变体,该变体使用易错pcr生成。使用增加浓度的卡那霉素,针对卡那霉素抗体选择表达这些“进化的”abe7.10变体的细菌细胞。表达具有腺苷脱氨酶活性的abe7.10变体的细菌能够修正导入的卡那霉素抗性基因的突变,从而恢复卡那霉素抗性。选择卡那霉素抗性细胞用于进一步分析。[0301]图3为定量表6中列出的所选abe8的效率和特异性的图。在hek293t细胞中的α-1抗胰蛋白酶基因座检测编辑。[0302]图4a和4b阐明abe8的编辑效率和特异性。图4a和4b为定量表6中列出的所选abe8的碱基编辑和特异性的图。检测单一、变体tada脱氨酶结构域或野生型tada脱氨酶。[0303]图5呈现的图表显示abe8对编辑目标腺嘌呤(a)碱基与旁观者a的效率。特别地,相较于有效的tada脱氨酶abe7.10,abe8在a1ad位点造成编辑(即a·t到g·c的转换)增加5倍。[0304]图6a至6d呈现与通过碱基编辑器工程在初代piz成纤维细胞中改良核碱基校正率相关的核酸序列、表格和柱状图。图6a显示编码与a1ad相关的piz突变的靶位点dna序列。该序列包括20个核苷酸的原间隔序列和一个非标准spcas9ngcpam。图6b呈现描述用于修正piz突变的各种编辑器的tada脱氨酶和cas9pam变体组分的表格。图6c和6d呈现的柱状图描绘在使用neon电穿孔系统用碱基编辑试剂转染的患者来源的pizz成纤维细胞(gm11423corrielbiorepository)中观察到的编辑率。每次处理由10μl电穿孔缓冲液组成,其中包含70,000个成纤维细胞、100ng编码碱基编辑器的mrna和50nga-1修正grna。恢复48小时后,裂解细胞并通过靶向扩增子测序探究感兴趣的基因座。数据获得自两个独立的实验。这些数据和结果证明ngcpam识别的优化(变体1-3,图6b和6c)和经由并入abe8/9突变的tada脱氨酶的优化(变体4-9,图6b至6d)。[0305]图7a至7d呈现于nsg-piz转基因小鼠中通过脂质纳米颗粒(lnp)介导的递送和碱基编辑器所产生的血清a1at增加相关的核酸序列、表和图。图7a显示包括20个核苷酸的原间隔序列和非标准spcas9ngcpam的靶标位点dna序列。图7b呈现描述用来修正piz突变的各种编辑器的tada脱氨酶和cas9pam变体组分的表。图7c呈现描绘以含有1:1重量比的grna和mrna编码碱基编辑器的1.5mg/kglnp处理7天后,在来自nsg-piz转基因小鼠模型的全肝脏gdna中观察到的编辑率的图。市售可得nsg-piz小鼠在免疫缺陷nod-scidγ(nsg)背景表现突变的人serpina1(glu342lys突变),其为部分肝切除后的人肝细胞提供稳定的背景。(thejacksonlaboratory,mountdesertisland,me)。结果表明ngcabevar9较早期版本的变体8产生较高的编辑率。图7d呈现显示与如通过msd三明治免疫检测所测定的相对于预先处理样本的血清α1-抗胰蛋白酶增加相关联的编辑率。基于这些结果,具有abe8剂的碱基编辑能解决α-1抗胰蛋白酶缺乏症及其潜在的肺部后遗症。[0306]图8为描绘用于撷取nrnnpam空间内所有可能的pam的cas9变体的表。仅列出需要识别其pam中三个或更少定义核苷酸的cas9变体。非-gpam变体包括spcas9-nrrh、spcas9-nrth和spcas9-nrch(miller,s.m.,等人continuousevolutionofspcas9variantscompatiblewithnon-gpams,nat.biotechnol.(2020),(//doi.org/10.1038/s41587-020-0412-8),其内容以引用方式整体并入本文)。具体实施方式[0307]如下所述,本发明的特征在于用于改变与α-1抗胰蛋白酶缺乏症(a1ad)相关的突变的组合物和方法。在一些实施方案中,编辑修正有害突变,使得经编辑的多核苷酸与野生型参照多核苷酸序列无法区分。在另一实施方案中,编辑改变有害突变,使得经编辑的多核苷酸包含良性突变。[0308]本发明至少部分地基于以下发现:包含腺苷脱氨酶变体的碱基编辑器可有效且准确地编辑与a1a相关的有害突变。[0309]α1-抗胰蛋白酶缺乏症(a1ad)[0310]α-1抗胰蛋白酶(a1a)是由14号染色体的serpina1基因编码的蛋白酶抑制剂。健康成人中,此糖蛋白主要在肝脏合成且分泌到血液,血清浓度为1.5-3.0g/l(20-52μmol/l)。其扩散到肺间质和肺泡衬里液,使中性粒细胞弹性蛋白酶失活,从而保护肺组织免受蛋白酶介导的损伤。α-1抗胰蛋白酶缺乏症(a1ad)以常染色体共显性方式遗传。已经描述超过100个serpina1基因的遗传变体,但并非所有都与疾病有关。这些变体的字母名称基于其在凝胶电泳的迁移速度。最常见的变体是m(中等迁移率)等位基因(pim),并且两个最常见的缺陷等位基因是pis和piz(后者迁移速度最慢)。已经描述不产生可测量血清蛋白的数种突变;此等被称为“空”等位基因。最常见的基因型是mm,其产生正常血清水平的α-1抗胰蛋白酶。罹患严重缺乏症的多数人具有z等位基因的纯合子(zz)。在美国,超过60,000例a1ad患者具有严重的zz表型。z蛋白在其肝细胞内质网产生期间错误折叠和聚合;此等异常聚合物被捕捉于肝脏,大大降低α-1抗胰蛋白酶的血清水平。a1at产生不足或不稳定造成a1ad患者的肝脏和/或肺部病变。见于α-1抗胰蛋白酶缺乏症患者的肝脏疾病是由肝细胞中异常α-1抗胰蛋白酶蛋白的积累和随之而来的细胞应答所引起的,包括自噬、内质网应激反应和细胞凋亡。α-1抗胰蛋白酶的降低的循环水平导致肺中性粒细胞弹性蛋白酶活性增加;蛋白酶和抗蛋白酶的这种不平衡导致与此状况相关的肺部疾病。[0311]α-1抗胰蛋白酶缺乏症(“a1ad”)最常见于白种人,并且最常影响肺和肝。在肺中,最常见的表征是肺底部最明显的早发性(30多岁和40多岁的患者)全腺泡性肺气肿。然而,可能发生弥漫性或上叶肺气肿,也可能发生支气管扩张。最常描述的症状包括呼吸困难、喘息和咳嗽。受影响个体的肺功能测试显示结果与copd一致;然而,可能观察到支气管扩张剂应答性,并可能被误诊为气喘。由zz基因型引起的肝病表现为多种形式。受影响的婴儿可在新生儿期出现胆汁淤积性黄疸,有时伴随无胆汁性排便(苍白或粘土色)和肝肿大。血液中的结合胆红素、转氨酶和γ-谷氨酰基转移酶水平升高。年龄较大的儿童和成人的肝疾病可能会偶然发现转氨酶升高或出现肝硬化的迹象,包括静脉曲张出血或腹水。α-1抗胰蛋白酶缺乏症也使患者易患肝细胞癌。虽然纯合zz基因型是肝疾病发展所必需的,但杂合z突变可以作为其他疾病的遗传修饰器,通过赋予更严重的肝疾病的更大风险,例如丙型肝炎感染和囊性纤维化肝疾病。[0312]a1ad的两种最常见的临床变体为e264v(pis)和e342k(piz)等位基因。临床单一核苷酸变体e342k(piz)导致不稳定和/或失活的a1at蛋白,从而引起肝和肺毒性。遗传是常染色体共显性。超过一半的a1ad患者带有至少一个拷贝的e342k突变。[0313][0314][0315]在一些实施方案中,疾病或疾患为α1-抗胰蛋白酶缺乏症(a1ad)。在一些实施方案中,病原性突变位于基因serpina1。在一些实施方案中,serpina1的突变为e342k(piz等位基因)。在一些实施方案中,位置7处的a被编辑为g,以将piz等位基因逆转为野生型等位基因。[0316]核碱基编辑器[0317]本文公开了一种碱基编辑器或核碱基编辑器,其用于编辑、修饰或改变多核苷酸的靶标核苷酸序列。本文描述了包含多核苷酸可编程核苷酸结合结构域和核碱基编辑结构域(例如,腺苷脱氨酶)的核碱基编辑器或碱基编辑器。多核苷酸可编程核苷酸结合结构域,当与结合的向导多核苷酸(例如,grna)接合时,可特异性地结合至靶标多核苷酸序列(即,经由结合的向导核酸的碱基和靶标多核苷酸序列的碱基之间的互补碱基对)且借此定位碱基编辑器至期望被编辑的靶标核酸序列。在一些实施方案中,靶标多核苷酸序列包含单链dna或双链dna。在一些实施方案中,靶标多核苷酸序列包含rna。在一些实施方案中,靶标多核苷酸序列包含dna-rna杂合体。[0318]多核苷酸可编程核苷酸结合结构域[0319]应理解,多核苷酸可编程核苷酸结合结构域也可包括结合rna的核酸可编程蛋白质。例如,多核苷酸可编程核苷酸结合结构域可以与将多核苷酸可编程核苷酸结合结构域引导至rna的核酸缔合。其他核酸可编程dna结合蛋白也处于本公开的范畴内,然而它们并未具体列于本公开。[0320]碱基编辑器的多核苷酸可编程核苷酸结合结构域本身可包含一个或多个结构域。例如,多核苷酸可编程核苷酸结合结构域可包含一个或多个核酸酶结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域的核酸酶结构域可包含内切核酸酶或外切核酸酶。本文中,术语“外切核酸酶”指能由游离端消化核酸(例如,rna或dna)的蛋白质或多肽,并且术语“内切核酸酶”指能于核酸(例如,rna或dna)中催化(例如,裂解)内部区域的蛋白质或多肽。在一些实施方案中,内切核酸酶可列解双链核酸的单一链。在一些实施方案中,内切核酸酶可裂解双链核酸分子的两条链。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以为脱氧核糖核酸酶。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以为核糖核酸酶。[0321]在一些实施方案中,多核苷酸可编程核苷酸结合结构域的核酸酶结构域可切割靶标多核苷酸的0、一或两条链。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可包含切口酶结构域。本文中,术语“切口酶”指包含能够仅裂解双链核酸分子(例如,dna)两条链中的一条的核酸酶结构域的多核苷酸可编程核苷酸结合结构域。在一些实施方案中,切口酶可以通过将一个或多个突变引入活性多核苷酸可编程核苷酸结合域来衍生自完全催化性活化(例如,天然)形式的多核苷酸可编程核苷酸结合域。例如,当多核苷酸可编程核苷酸结合结构域包含源自cas9的切口酶结构域时,源自cas9的切口酶结构域可包括d10a突变和位置840处的组氨酸。在此等实施方案中,残基h840保留催化性活化并因此可切割核酸双链体的单链。在另一个实施例中,源自cas9的切口酶结构域可包含h840a突变,而位置10处的氨基酸残基仍为d。在一些实施方案中,通过去除切口酶活性不需要的全部或部分核酸酶结构域,切口酶可源自具有完全地催化性活化(例如,天然)形式的多核苷酸可编程核苷酸结合结构域。例如,在多核苷酸可编程核苷酸结合域包含源自cas9的切口酶结构域的情况下,源自cas9的切口酶结构域可包含ruvc结构域或hnh结构域的全部或部分的缺失。[0322]示例性催化性活化cas9的氨基酸序列如下:[0323]mdkkysigldigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfdsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasagelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkrytstkevldatlihqsitglyetridlsqlggd。[0324]包含切口酶结构域的包含多核苷酸可编程核苷酸结合结构域的碱基编辑器因此能在特异性多核苷酸靶标序列(例如,通过结合的向导核酸的互补序列所测定)制造单链dna断裂(切口)。在一些实施方案中,通过包含切口酶结构域(例如,cas9-衍生的切口酶结构域)的碱基编辑器裂解的核酸双链靶标多核苷酸序列的链,为不受碱基编辑器编辑的链(即,通过碱基编辑器裂解的链与包含待编辑的碱基的链相反)。在其他实施方案中,包含切口酶结构域(例如,cas9衍生的切口酶结构域)的碱基编辑器可裂解dna分子的链,该链被靶向用于编辑。在此类实施方案中,非靶向链不裂解。[0325]本文也提供包含多核苷酸可编程核苷酸结合结构域的碱基编辑器,该结构域为催化性死亡(即,不能裂解靶标多核苷酸序列)。本文中,术语“催化性死亡”和“核酸酶死亡”交换地使用,指多核苷酸可编程核苷酸结合结构域,其具有一个或多个突变和/或缺失,造成其不能裂解核酸的链。在一些实施方案中,催化性死亡多核苷酸可编程核苷酸结合结构域碱基编辑器可以缺乏核酸酶活性,这是一个或多个核酸酶结构域中的特异性点突变的结果。例如,在碱基编辑器包含cas9结构域的情况下,cas9可包含d10a突变和h840a突变二者。此等突变使两个核酸酶结构域失活,借此造成核酸酶活性的损失。在其他实施方案中,催化性死亡多核苷酸可编程核苷酸结合结构域可包含催化结构域(例如,ruvc1和/或hnh结构域)的全部或部分的一个或多个缺失。在进一步的实施方案中,催化性死亡多核苷酸可编程核苷酸结合结构域包含核酸酶结构域的全部或部分的点突变(例如,d10a或h840a)以及缺失。[0326]本文中也考虑能由多核苷酸可编程核苷酸结合结构域先前的功能性版本产生催化性死亡多核苷酸可编程核苷酸结合结构域的突变。例如,在催化性死亡cas9(“dcas9”)的情况下,提供具有除d10a和h840a以外的突变的变体,该等突变造成核酸酶失活cas9。此等突变,举例而言,包括在d10和h840处的其他氨基酸取代,或cas9核酸酶结构域内的其他取代(例如,hnh核酸酶亚结构域和/或ruvc1亚结构域中的取代)。基于本公开内容和本领域的知识,额外合适的核酸酶失活dcas9结构域对于所属
技术领域
:技术人员而言是显而易见的,并且在本公开内容的范围内。此等额外的示例性合适的核酸酶失活cas9结构域包括但不限于d10a/h840a、d10a/d839a/h840a和d10a/d839a/h840a/n863a突变体结构域(参见例如,prashant等人,cas9transcriptionalactivatorsfortargetspecificityscreeningandpairednickasesforcooperativegenomeengineering.naturebiotechnology.2013;31(9):833-838,其全部内容以引用方式并入本文)。[0327]可并入碱基编辑器的多核苷酸可编程核苷酸结合结构域的非限制性实例包括crispr蛋白质衍生的结构域、限制性核酸酶、巨核酸酶、tal酸酶(talen)和锌指核酸酶(zfn)。在一些实施方案中,碱基编辑器包含多核苷酸可编程核苷酸结合结构域,该结构域包含天然的或经修饰的蛋白质或其部分,其经由结合的向导核酸在crispr(即,成簇的规则间隔短回文重复序列)介导的核酸修饰期间能结合至核酸序列。此等蛋白质于本文中称为“crispr蛋白”。因此,本文公开为包含多核苷酸可编程核苷酸结合结构域的碱基编辑器,该结构域包含全部或部分的crispr蛋白质(即,包含全部或部分的crispr蛋白作为结构域的碱基编辑器,也称为碱基编辑器的“crispr蛋白衍生的结构域”)。并入碱基编辑器的crispr蛋白衍生的结构域,相较于crispr蛋白的野生型或天然的版本可以为经修饰的。例如,如描述于下文的crispr蛋白衍生的结构域,相对于crispr蛋白的野生型或天然的版本可包含一个或多个突变、插入、缺失、重排和/或重组。[0328]crispr为适应性免疫系统,提供针对移动遗传元件(病毒、可转座元件和接合质粒)的保护。crispr簇包含间隔序列、与前驱移动元件互补的序列和靶标入侵核酸。crispr簇被转录且加工成crisprrna(crrna)。在ii型crispr系统中,pre-crrna的正确处理需要反向编码小rna(tracrrna)、内源核糖核酸酶3(rnc)和cas9蛋白。tracrrna作为核糖核酸酶3辅助处理pre-crrna的向导。随后,cas9/crrna/tracrrna核酸内切裂解与间隔序列互补的线性或环状dsdna靶标。与crrna不互补的靶标链首先被核酸内切切割,然后3'-5'核酸外切修剪。在自然界中,dna结合和裂解通常需要蛋白质和两种rna。然而,单一向导rna(“sgrna”或简称为“gnra”)可工程化,以便将crrna和tracrrna二者的各方面并入到单一rna物质中。参见例如,jinekm.,chylinskik.,fonfarai.,hauerm.,doudnaj.a.,charpentiere.science337:816-821(2012),其全部内容以引用方式并入本文。cas9识别crispr重复序列中的短基序(pam或原间隔序列相邻基序)以帮助区分自身与非自身。[0329]在一些实施方案中,本文所述方法可利用工程化cas蛋白质。向导rna(grna)为短的合成rna,由cas结合所需的支架序列和使用者定义的~20个核苷酸的间隔序列组成,该间隔序列定义要修饰的基因组靶标。因此,所属领域技术人员可以改变cas蛋白质特异性的基因组靶标,这种改变部分地通过grna靶向序列对于基因组靶标的特异性相较于基因组其余部分的特异性如何来确定。[0330]在一些实施方案中,grna支架序列如下:guuuuagagcuagaaauagcaaguuaaaauaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugcuuuu。[0331]在一些实施方案中,并入碱基编辑器的crispr蛋白衍生的结构域为内切核酸酶(例如,脱氧核糖核酸酶或核糖核酸酶),当与结合的向导核酸接合时,其能结合靶标多核苷酸。在一些实施方案中,并入碱基编辑器的crispr蛋白衍生的结构域为切口酶,当与结合的向导核酸接合时,其能结合靶标多核苷酸。在一些实施方案中,并入碱基编辑器的crispr蛋白衍生的结构域为催化性死亡结构域,当与结合的向导核酸接合时,其能结合靶标多核苷酸。在一些实施方案中,由碱基编辑器的crispr蛋白衍生的结构域所结合的靶标多核苷酸为dna。在一些实施方案中,由碱基编辑器的crispr蛋白衍生的结构域所结合的靶标多核苷酸为rna。[0332]可用于本文的cas蛋白包括class1和class2。cas蛋白质的非限制性实例包括cas1、cas1b、cas2、cas3、cas4、cas5、cas5d、cas5t、cas5h、cas5a、cas6、cas7、cas8、cas9(也已知为csn1或csx12)、cas10、csy1、csy2、csy3、csy4、cse1、cse2、cse3、cse4、cse5e、csc1、csc2、csa5、csn1、csn2、csm1、csm2、csm3、csm4、csm5、csm6、cmr1、cmr3、cmr4、cmr5、cmr6、csb1、csb2、csb3、csx17、csx14、csx10、csx16、csax、csx3、csx1、csx1s、csf1、csf2、cso、csf4、csd1、csd2、cst1、cst2、csh1、csh2、csa1、csa2、csa3、csa4、csa5、cas12a/cpf1、cas12b/c2c1、cas12c/c2c3、cas12d/casy、cas12e/casx、cas12g、cas12h和cas12i、carf、ding、其同源物或其修饰版本。未修饰的crispr酶可具有dna裂解活性,如cas9,其具有两个功能性内切核酸酶结构域:ruvc和hnh。crispr酶可引导靶标序列的一条链或两条链的裂解,如靶标序列内和/或靶标序列的互补体内。例如,crispr酶可引导由靶标序列的与第一个核苷酸或最后的核苷酸相距约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500或更多个碱基内的一条链或两条链的裂解。[0333]可使用编码crispr酶的载体,该载体为相对于野生型酶进行突变,使突变后的crispr酶缺乏裂解含有靶标序列的靶标多核苷酸的一条链或两条链的能力。cas9可以指一种多肽,其与野生型示例性cas9(例如,来自化脓性链球菌的cas9)具有至少或至少约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%序列同一性和/或序列同源性。cas9可以指与野生型示例性cas9(例如,来自化脓性链球菌的cas9)具有最多或最多约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%序列同一性和/或序列同源性。cas9可以指野生型或可包含如缺失、插入、取代、变体、突变、融合、嵌合或其组合的氨基酸变化的经修饰型cas9蛋白质。[0334]在一些实施方案中,碱基编辑器的crispr蛋白衍生的结构域可包括来自下述的cas9的全部或部分:溃疡棒状杆菌(corynebacteriumulcerans)(ncbirefs:nc_015683.1,nc_017317.1);白喉棒状杆菌(corynebacteriumdiphtheria)(ncbirefs:nc_016782.1,nc_016786.1);栖蚜蝇螺原体(spiroplasmasyrphidicola)(ncbiref:nc_021284.1);中间普雷沃氏菌(prevotellaintermedia)(ncbiref:nc_017861.1);中国台湾螺原体(spiroplasmataiwanense,china)(ncbiref:nc_021846.1);海豚链球菌(streptococcusiniae)(ncbiref:nc_021314.1);波罗地海贝尔氏菌(belliellabaltica)(ncbiref:nc_018010.1);扭曲冷弯曲菌(psychroflexustorquisi)(ncbiref:nc_018721.1);嗜热链球菌(streptococcusthermophilus)(ncbiref:yp_820832.1);无毒李斯特菌(listeriainnocua)(ncbiref:np_472073.1);空肠弯曲菌(campylobacterjejuni)(ncbiref:yp_002344900.1);脑膜炎奈瑟氏菌(neisseriameningitides)(ncbiref:yp_002342100.1)、化脓性链球菌(streptococcuspyogenes)或金黄色葡萄球菌(staphylococcusaureus)。[0335]核碱基编辑器的cas9结构域[0336]cas9核酸酶序列和结构为所属
技术领域
:普通技术人员所周知(参见例如,“completegenomesequenceofanmlstrainofstreptococcuspyogenes.”ferretti等人,j.j.,mcshanw.m.,ajdicd.j.,savicd.j.,savicg.,lyonk.,primeauxc,sezates.,suvorova.n.,kentons.,laih.s.,lins.p.,qiany.,jiah.g.,najarf.z.,renq.,zhuh.,songl.,whitej.,yuanx.,cliftons.w.,roeb.a.,mclaughlinr.e.,proc.natl.acad.sci.u.s.a.98:4658-4663(2001);“crisprrnamaturationbytrans-encodedsmallrnaandhostfactorrnaseiii.”deltchevae.,chylinskik.,sharmac.m.,gonzalesk.,chaoy.,pirzadaz.a.,eckertm.r.,vogelj.,charpentiere.,nature471:602-607(2011);和“aprogrammabledual-rna-guideddnaendonucleaseinadaptivebacterialimmunity.”jinekm.,chylinskik.,fonfarai.,hauerm.,doudnaj.a.,charpentiere.science337:816-821(2012),其各自的全部内容以引用方式并入本文)。cas9异种同源物已描述于各种物种,包括但不限于,化脓性链球菌(s.pyogenes)和嗜热链球菌(s.thermophiles)。额外的合适的cas9核酸酶核序列将基于本公开而为所属
技术领域
:普通技术人员明显可知,以及此等cas9核酸酶和序列包括来自描述于下述有机体和基因座的cas9序列:chylinski,rhun,和charpentier,“thetracrrnaandcas9familiesoftypeiicrispr-casimmunitysystems”(2013)rnabiology10:5,726-737;其全部内容以引用方式并入本文。[0337]在一些实施方案中,核酸可编程dna结合蛋白质(napdnabp)为cas9结构域。非限制性、例示性cas9结构域提供于本文。cas9结构域可以为核酸酶活性cas9结构域、核酸酶失活cas9结构域(dcas9)或cas9切口酶(ncas9)。在一些实施方案中,cas9结构域为核酸酶活性结构域。例如,cas9结构域可以为cas9结构域,其切割双链核酸的双链(例如,双链dna分子的双链)。在一些实施方案中,cas9结构域包含本文所述氨基酸序列的任一者。在一些实施方案中,cas9结构域包含氨基酸序列,其与本文所述氨基酸序列的任一者具有至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性。在一些实施方案中,cas9结构域包含氨基酸序列,其相较于本文所述氨基酸序列的任一者具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变。在一些实施方案中,cas9结构域包含氨基酸序列,该氨基酸序列具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100或至少1200个与本文所述氨基酸序列的任一者相同的连续氨基酸残基。[0338]在一些实施方案中,提供包含cas9的片段的蛋白质。例如,在一些实施方案中,蛋白质包含二个cas9结构域的一者:(1)cas9的grna结合结构域;或(2)cas9的dna裂解结构域。在一些实施方案中,包含cas9或其片段的蛋白质称为“cas9变体”。cas9变体与cas9或其片段共享同源性。例如,cas9变体与野生型cas9具有至少约70%同一性,至少约80%同一性,至少约90%同一性,至少约95%同一性,至少约96%同一性,至少约97%同一性,至少约98%同一性,至少约99%同一性,至少约99.5%同一性或至少约99.9%同一性。在一些实施方案中,cas9变体相较于野生型cas9可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个氨基酸改变。在一些实施方案中,cas9变体包含cas9的片段(例如,grna结合结构域或dna-裂解结构域),使得该片段与野生型cas9的对应片段具有至少约70%同一性,至少约80%同一性,至少约90%同一性,至少约95%同一性,至少约96%同一性,至少约97%同一性,至少约98%同一性,至少约99%同一性,至少约99.5%同一性或至少约99.9%同一性。在一些实施方案中,片段对应于野生型cas9的氨基酸长度的至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%同一性、至少96%、至少97%、至少98%、至少99%或至少99.5%。在一些实施方案中,片段为至少100个氨基酸的长度。在一些实施方案中,片段为至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250或至少1300个氨基酸的长度。[0339]在一些实施方案中,如本文提供的cas9融合蛋白包含thecas9蛋白的全长氨基酸序列,例如,本文提供的cas9序列的一者。然而,在其他实施方案中,如本文提供的融合蛋白不包含全长cas9序列,而仅包含其一个或多个片段。合适的cas9结构域和cas9片段的示例性氨基酸序列提供于本文,并且cas9结构域和片段额外的合适序列为所属
技术领域
:技术人员明显可知。[0340]cas9蛋白质可与将cas9引导至与向导rna互补的特异性dna序列的向导rna缔合。在一些实施方案中,多核苷酸可编程核苷酸结合结构域为cas9结构域,例如,核酸酶活性cas9、cas9切口酶(ncas9)或核酸酶失活cas9(dcas9)。核酸可编程dna结合蛋白质的实例包括,但不限于,cas9(例如,dcas9和ncas9)、casx、casy、cpf1、cas12b/c2c1和cas12c/c2c3。在一些实施方案中,对应于来自化脓性链球菌(streptococcuspyogenes)的cas9的野生型9(ncbi参照序列:nc_017053.1,核苷酸和氨基酸序列如下)。[0341]atggataagaaatactcaataggcttagatatcggcacaaatagcgtcggatgggcggtgatcactgatgattataaggttccgtctaaaaagttcaaggttctgggaaatacagaccgccacagtatcaaaaaaaatcttataggggctcttttatttggcagtggagagacagcggaagcgactcgtctcaaacggacagctcgtagaaggtatacacgtcggaagaatcgtatttgttatctacaggagattttttcaaatgagatggcgaaagtagatgatagtttctttcatcgacttgaagagtcttttttggtggaagaagacaagaagcatgaacgtcatcctatttttggaaatatagtagatgaagttgcttatcatgagaaatatccaactatctatcatctgcgaaaaaaattggcagattctactgataaagcggatttgcgcttaatctatttggccttagcgcatatgattaagtttcgtggtcattttttgattgagggagatttaaatcctgataatagtgatgtggacaaactatttatccagttggtacaaatctacaatcaattatttgaagaaaaccctattaacgcaagtagagtagatgctaaagcgattctttctgcacgattgagtaaatcaagacgattagaaaatctcattgctcagctccccggtgagaagagaaatggcttgtttgggaatctcattgctttgtcattgggattgacccctaattttaaatcaaattttgatttggcagaagatgctaaattacagctttcaaaagatacttacgatgatgatttagataatttattggcgcaaattggagatcaatatgctgatttgtttttggcagctaagaatttatcagatgctattttactttcagatatcctaagagtaaatagtgaaataactaaggctcccctatcagcttcaatgattaagcgctacgatgaacatcatcaagacttgactcttttaaaagctttagttcgacaacaacttccagaaaagtataaagaaatcttttttgatcaatcaaaaaacggatatgcaggttatattgatgggggagctagccaagaagaattttataaatttatcaaaccaattttagaaaaaatggatggtactgaggaattattggtgaaactaaatcgtgaagatttgctgcgcaagcaacggacctttgacaacggctctattccccatcaaattcacttgggtgagctgcatgctattttgagaagacaagaagacttttatccatttttaaaagacaatcgtgagaagattgaaaaaatcttgacttttcgaattccttattatgttggtccattggcgcgtggcaatagtcgttttgcatggatgactcggaagtctgaagaaacaattaccccatggaattttgaagaagttgtcgataaaggtgcttcagctcaatcatttattgaacgcatgacaaactttgataaaaatcttccaaatgaaaaagtactaccaaaacatagtttgctttatgagtattttacggtttataacgaattgacaaaggtcaaatatgttactgagggaatgcgaaaaccagcatttctttcaggtgaacagaagaaagccattgttgatttactcttcaaaacaaatcgaaaagtaaccgttaagcaattaaaagaagattatttcaaaaaaatagaatgttttgatagtgttgaaatttcaggagttgaagatagatttaatgcttcattaggcgcctaccatgatttgctaaaaattattaaagataaagattttttggataatgaagaaaatgaagatatcttagaggatattgttttaacattgaccttatttgaagatagggggatgattgaggaaagacttaaaacatatgctcacctctttgatgataaggtgatgaaacagcttaaacgtcgccgttatactggttggggacgtttgtctcgaaaattgattaatggtattagggataagcaatctggcaaaacaatattagattttttgaaatcagatggttttgccaatcgcaattttatgcagctgatccatgatgatagtttgacatttaaagaagatattcaaaaagcacaggtgtctggacaaggccatagtttacatgaacagattgctaacttagctggcagtcctgctattaaaaaaggtattttacagactgtaaaaattgttgatgaactggtcaaagtaatggggcataagccagaaaatatcgttattgaaatggcacgtgaaaatcagacaactcaaaagggccagaaaaattcgcgagagcgtatgaaacgaatcgaagaaggtatcaaagaattaggaagtcagattcttaaagagcatcctgttgaaaatactcaattgcaaaatgaaaagctctatctctattatctacaaaatggaagagacatgtatgtggaccaagaattagatattaatcgtttaagtgattatgatgtcgatcacattgttccacaaagtttcattaaagacgattcaatagacaataaggtactaacgcgttctgataaaaatcgtggtaaatcggataacgttccaagtgaagaagtagtcaaaaagatgaaaaactattggagacaacttctaaacgccaagttaatcactcaacgtaagtttgataatttaacgaaagctgaacgtggaggtttgagtgaacttgataaagctggttttatcaaacgccaattggttgaaactcgccaaatcactaagcatgtggcacaaattttggatagtcgcatgaatactaaatacgatgaaaatgataaacttattcgagaggttaaagtgattaccttaaaatctaaattagtttctgacttccgaaaagatttccaattctataaagtacgtgagattaacaattaccatcatgcccatgatgcgtatctaaatgccgtcgttggaactgctttgattaagaaatatccaaaacttgaatcggagtttgtctatggtgattataaagtttatgatgttcgtaaaatgattgctaagtctgagcaagaaataggcaaagcaaccgcaaaatatttcttttactctaatatcatgaacttcttcaaaacagaaattacacttgcaaatggagagattcgcaaacgccctctaatcgaaactaatggggaaactggagaaattgtctgggataaagggcgagattttgccacagtgcgcaaagtattgtccatgccccaagtcaatattgtcaagaaaacagaagtacagacaggcggattctccaaggagtcaattttaccaaaaagaaattcggacaagcttattgctcgtaaaaaagactgggatccaaaaaaatatggtggttttgatagtccaacggtagcttattcagtcctagtggttgctaaggtggaaaaagggaaatcgaagaagttaaaatccgttaaagagttactagggatcacaattatggaaagaagttcctttgaaaaaaatccgattgactttttagaagctaaaggatataaggaagttaaaaaagacttaatcattaaactacctaaatatagtctttttgagttagaaaacggtcgtaaacggatgctggctagtgccggagaattacaaaaaggaaatgagctggctctgccaagcaaatatgtgaattttttatatttagctagtcattatgaaaagttgaagggtagtccagaagataacgaacaaaaacaattgtttgtggagcagcataagcattatttagatgagattattgagcaaatcagtgaattttctaagcgtgttattttagcagatgccaatttagataaagttcttagtgcatataacaaacatagagacaaaccaatacgtgaacaagcagaaaatattattcatttatttacgttgacgaatcttggagctcccgctgcttttaaatattttgatacaacaattgatcgtaaacgatatacgtctacaaaagaagttttagatgccactcttatccatcaatccatcactggtctttatgaaacacgcattgatttgagtcagctaggaggtgactga[0342][0343](单下划线:hnh结构域;双下划线:ruvc结构域)[0344]在一些实施方案中,野生型cas9对应于或包含下述核苷酸和/或氨基酸序列:[0345]atggataaaaagtattctattggtttagacatcggcactaattccgttggatgggctgtcataaccgatgaatacaaagtaccttcaaagaaatttaaggtgttggggaacacagaccgtcattcgattaaaaagaatcttatcggtgccctcctattcgatagtggcgaaacggcagaggcgactcgcctgaaacgaaccgctcggagaaggtatacacgtcgcaagaaccgaatatgttacttacaagaaatttttagcaatgagatggccaaagttgacgattctttctttcaccgtttggaagagtccttccttgtcgaagaggacaagaaacatgaacggcaccccatctttggaaacatagtagatgaggtggcatatcatgaaaagtacccaacgatttatcacctcagaaaaaagctagttgactcaactgataaagcggacctgaggttaatctacttggctcttgcccatatgataaagttccgtgggcactttctcattgagggtgatctaaatccggacaactcggatgtcgacaaactgttcatccagttagtacaaacctataatcagttgtttgaagagaaccctataaatgcaagtggcgtggatgcgaaggctattcttagcgcccgcctctctaaatcccgacggctagaaaacctgatcgcacaattacccggagagaagaaaaatgggttgttcggtaaccttatagcgctctcactaggcctgacaccaaattttaagtcgaacttcgacttagctgaagatgccaaattgcagcttagtaaggacacgtacgatgacgatctcgacaatctactggcacaaattggagatcagtatgcggacttatttttggctgccaaaaaccttagcgatgcaatcctcctatctgacatactgagagttaatactgagattaccaaggcgccgttatccgcttcaatgatcaaaaggtacgatgaacatcaccaagacttgacacttctcaaggccctagtccgtcagcaactgcctgagaaatataaggaaatattctttgatcagtcgaaaaacgggtacgcaggttatattgacggcggagcgagtcaagaggaattctacaagtttatcaaacccatattagagaagatggatgggacggaagagttgcttgtaaaactcaatcgcgaagatctactgcgaaagcagcggactttcgacaacggtagcattccacatcaaatccacttaggcgaattgcatgctatacttagaaggcaggaggatttttatccgttcctcaaagacaatcgtgaaaagattgagaaaatcctaacctttcgcataccttactatgtgggacccctggcccgagggaactctcggttcgcatggatgacaagaaagtccgaagaaacgattactccatggaattttgaggaagttgtcgataaaggtgcgtcagctcaatcgttcatcgagaggatgaccaactttgacaagaatttaccgaacgaaaaagtattgcctaagcacagtttactttacgagtatttcacagtgtacaatgaactcacgaaagttaagtatgtcactgagggcatgcgtaaacccgcctttctaagcggagaacagaagaaagcaatagtagatctgttattcaagaccaaccgcaaagtgacagttaagcaattgaaagaggactactttaagaaaattgaatgcttcgattctgtcgagatctccggggtagaagatcgatttaatgcgtcacttggtacgtatcatgacctcctaaagataattaaagataaggacttcctggataacgaagagaatgaagatatcttagaagatatagtgttgactcttaccctctttgaagatcgggaaatgattgaggaaagactaaaaacatacgctcacctgttcgacgataaggttatgaaacagttaaagaggcgtcgctatacgggctggggacgattgtcgcggaaacttatcaacgggataagagacaagcaaagtggtaaaactattctcgattttctaaagagcgacggcttcgccaataggaactttatgcagctgatccatgatgactctttaaccttcaaagaggatatacaaaaggcacaggtttccggacaaggggactcattgcacgaacatattgcgaatcttgctggttcgccagccatcaaaaagggcatactccagacagtcaaagtagtggatgagctagttaaggtcatgggacgtcacaaaccggaaaacattgtaatcgagatggcacgcgaaaatcaaacgactcagaaggggcaaaaaaacagtcgagagcggatgaagagaatagaagagggtattaaagaactgggcagccagatcttaaaggagcatcctgtggaaaatacccaattgcagaacgagaaactttacctctattacctacaaaatggaagggacatgtatgttgatcaggaactggacataaaccgtttatctgattacgacgtcgatcacattgtaccccaatcctttttgaaggacgattcaatcgacaataaagtgcttacacgctcggataagaaccgagggaaaagtgacaatgttccaagcgaggaagtcgtaaagaaaatgaagaactattggcggcagctcctaaatgcgaaactgataacgcaaagaaagttcgataacttaactaaagctgagaggggtggcttgtctgaacttgacaaggccggatttattaaacgtcagctcgtggaaacccgccaaatcacaaagcatgttgcacagatactagattcccgaatgaatacgaaatacgacgagaacgataagctgattcgggaagtcaaagtaatcactttaaagtcaaaattggtgtcggacttcagaaaggattttcaattctataaagttagggagataaataactaccaccatgcgcacgacgcttatcttaatgccgtcgtagggaccgcactcattaagaaatacccgaagctagaaagtgagtttgtgtatggtgattacaaagtttatgacgtccgtaagatgatcgcgaaaagcgaacaggagataggcaaggctacagccaaatacttcttttattctaacattatgaatttctttaagacggaaatcactctggcaaacggagagatacgcaaacgacctttaattgaaaccaatggggagacaggtgaaatcgtatgggataagggccgggacttcgcgacggtgagaaaagttttgtccatgccccaagtcaacatagtaaagaaaactgaggtgcagaccggagggttttcaaaggaatcgattcttccaaaaaggaatagtgataagctcatcgctcgtaaaaaggactgggacccgaaaaagtacggtggcttcgatagccctacagttgcctattctgtcctagtagtggcaaaagttgagaagggaaaatccaagaaactgaagtcagtcaaagaattattggggataacgattatggagcgctcgtcttttgaaaagaaccccatcgacttccttgaggcgaaaggttacaaggaagtaaaaaaggatctcataattaaactaccaaagtatagtctgtttgagttagaaaatggccgaaaacggatgttggctagcgccggagagcttcaaaaggggaacgaactcgcactaccgtctaaatacgtgaatttcctgtatttagcgtcccattacgagaagttgaaaggttcacctgaagataacgaacagaagcaactttttgttgagcagcacaaacattatctcgacgaaatcatagagcaaatttcggaattcagtaagagagtcatcctagctgatgccaatctggacaaagtattaagcgcatacaacaagcacagggataaacccatacgtgagcaggcggaaaatattatccatttgtttactcttaccaacctcggcgctccagccgcattcaagtattttgacacaacgatagatcgcaaacgatacacttctaccaaggaggtgctagacgcgacactgattcaccaatccatcacgggattatatgaaactcggatagatttgtcacagcttgggggtgacggatcccccaagaagaagaggaaagtctcgagcgactacaaagaccatgacggtgattataaagatcatgacatcgattacaaggatgacgatgacaaggctgcagga[0346][0347][0348](单下划线:hnh结构域;双下划线:ruvc结构域)。[0349]在一些实施方案中,对应于来自化脓性链球菌(streptococcuspyogenes)cas9的野生型cas9(ncbi参照序列:nc_002737.2(核苷酸序列如下);和uniprot参照序列:q99zw2(氨基酸序列如下)):[0350]atggataagaaatactcaataggcttagatatcggcacaaatagcgtcggatgggcggtgatcactgatgaatataaggttccgtctaaaaagttcaaggttctgggaaatacagaccgccacagtatcaaaaaaaatcttataggggctcttttatttgacagtggagagacagcggaagcgactcgtctcaaacggacagctcgtagaaggtatacacgtcggaagaatcgtatttgttatctacaggagattttttcaaatgagatggcgaaagtagatgatagtttctttcatcgacttgaagagtcttttttggtggaagaagacaagaagcatgaacgtcatcctatttttggaaatatagtagatgaagttgcttatcatgagaaatatccaactatctatcatctgcgaaaaaaattggtagattctactgataaagcggatttgcgcttaatctatttggccttagcgcatatgattaagtttcgtggtcattttttgattgagggagatttaaatcctgataatagtgatgtggacaaactatttatccagttggtacaaacctacaatcaattatttgaagaaaaccctattaacgcaagtggagtagatgctaaagcgattctttctgcacgattgagtaaatcaagacgattagaaaatctcattgctcagctccccggtgagaagaaaaatggcttatttgggaatctcattgctttgtcattgggtttgacccctaattttaaatcaaattttgatttggcagaagatgctaaattacagctttcaaaagatacttacgatgatgatttagataatttattggcgcaaattggagatcaatatgctgatttgtttttggcagctaagaatttatcagatgctattttactttcagatatcctaagagtaaatactgaaataactaaggctcccctatcagcttcaatgattaaacgctacgatgaacatcatcaagacttgactcttttaaaagctttagttcgacaacaacttccagaaaagtataaagaaatcttttttgatcaatcaaaaaacggatatgcaggttatattgatgggggagctagccaagaagaattttataaatttatcaaaccaattttagaaaaaatggatggtactgaggaattattggtgaaactaaatcgtgaagatttgctgcgcaagcaacggacctttgacaacggctctattccccatcaaattcacttgggtgagctgcatgctattttgagaagacaagaagacttttatccatttttaaaagacaatcgtgagaagattgaaaaaatcttgacttttcgaattccttattatgttggtccattggcgcgtggcaatagtcgttttgcatggatgactcggaagtctgaagaaacaattaccccatggaattttgaagaagttgtcgataaaggtgcttcagctcaatcatttattgaacgcatgacaaactttgataaaaatcttccaaatgaaaaagtactaccaaaacatagtttgctttatgagtattttacggtttataacgaattgacaaaggtcaaatatgttactgaaggaatgcgaaaaccagcatttctttcaggtgaacagaagaaagccattgttgatttactcttcaaaacaaatcgaaaagtaaccgttaagcaattaaaagaagattatttcaaaaaaatagaatgttttgatagtgttgaaatttcaggagttgaagatagatttaatgcttcattaggtacctaccatgatttgctaaaaattattaaagataaagattttttggataatgaagaaaatgaagatatcttagaggatattgttttaacattgaccttatttgaagatagggagatgattgaggaaagacttaaaacatatgctcacctctttgatgataaggtgatgaaacagcttaaacgtcgccgttatactggttggggacgtttgtctcgaaaattgattaatggtattagggataagcaatctggcaaaacaatattagattttttgaaatcagatggttttgccaatcgcaattttatgcagctgatccatgatgatagtttgacatttaaagaagacattcaaaaagcacaagtgtctggacaaggcgatagtttacatgaacatattgcaaatttagctggtagccctgctattaaaaaaggtattttacagactgtaaaagttgttgatgaattggtcaaagtaatggggcggcataagccagaaaatatcgttattgaaatggcacgtgaaaatcagacaactcaaaagggccagaaaaattcgcgagagcgtatgaaacgaatcgaagaaggtatcaaagaattaggaagtcagattcttaaagagcatcctgttgaaaatactcaattgcaaaatgaaaagctctatctctattatctccaaaatggaagagacatgtatgtggaccaagaattagatattaatcgtttaagtgattatgatgtcgatcacattgttccacaaagtttccttaaagacgattcaatagacaataaggtcttaacgcgttctgataaaaatcgtggtaaatcggataacgttccaagtgaagaagtagtcaaaaagatgaaaaactattggagacaacttctaaacgccaagttaatcactcaacgtaagtttgataatttaacgaaagctgaacgtggaggtttgagtgaacttgataaagctggttttatcaaacgccaattggttgaaactcgccaaatcactaagcatgtggcacaaattttggatagtcgcatgaatactaaatacgatgaaaatgataaacttattcgagaggttaaagtgattaccttaaaatctaaattagtttctgacttccgaaaagatttccaattctataaagtacgtgagattaacaattaccatcatgcccatgatgcgtatctaaatgccgtcgttggaactgctttgattaagaaatatccaaaacttgaatcggagtttgtctatggtgattataaagtttatgatgttcgtaaaatgattgctaagtctgagcaagaaataggcaaagcaaccgcaaaatatttcttttactctaatatcatgaacttcttcaaaacagaaattacacttgcaaatggagagattcgcaaacgccctctaatcgaaactaatggggaaactggagaaattgtctgggataaagggcgagattttgccacagtgcgcaaagtattgtccatgccccaagtcaatattgtcaagaaaacagaagtacagacaggcggattctccaaggagtcaattttaccaaaaagaaattcggacaagcttattgctcgtaaaaaagactgggatccaaaaaaatatggtggttttgatagtccaacggtagcttattcagtcctagtggttgctaaggtggaaaaagggaaatcgaagaagttaaaatccgttaaagagttactagggatcacaattatggaaagaagttcctttgaaaaaaatccgattgactttttagaagctaaaggatataaggaagttaaaaaagacttaatcattaaactacctaaatatagtctttttgagttagaaaacggtcgtaaacggatgctggctagtgccggagaattacaaaaaggaaatgagctggctctgccaagcaaatatgtgaattttttatatttagctagtcattatgaaaagttgaagggtagtccagaagataacgaacaaaaacaattgtttgtggagcagcataagcattatttagatgagattattgagcaaatcagtgaattttctaagcgtgttattttagcagatgccaatttagataaagttcttagtgcatataacaaacatagagacaaaccaatacgtgaacaagcagaaaatattattcatttatttacgttgacgaatcttggagctcccgctgcttttaaatattttgatacaacaattgatcgtaaacgatatacgtctacaaaagaagttttagatgccactcttatccatcaatccatcactggtctttatgaaacacgcattgatttgagtcagctaggaggtgactga[0351][0352](单下划线:hnh结构域;双下划线:ruvc结构域)[0353]在一些实施方案中,cas9指来自下述的cas9:溃疡棒状杆菌(corynebacteriumulcerans)(ncbirefs:nc_015683.1,nc_017317.1);白喉棒状杆菌(corynebacteriumdiphtheria)(ncbirefs:nc_016782.1,nc_016786.1);栖蚜蝇螺原体(spiroplasmasyrphidicola)(ncbiref:nc_021284.1);中间普雷沃氏菌(prevotellaintermedia)(ncbiref:nc_017861.1);中国台湾螺原体(spiroplasmataiwanense,china)(ncbiref:nc_021846.1);海豚链球菌(streptococcusiniae)(ncbiref:nc_021314.1);波罗地海贝尔氏菌(belliellabaltica)(ncbiref:nc_018010.1);扭曲冷弯曲菌(psychroflexustorquisi)(ncbiref:nc_018721.1);嗜热链球菌(streptococcusthermophilus)(ncbiref:yp_820832.1)、无毒李斯特菌(listeriainnocua)(ncbiref:np_472073.1)、空肠弯曲菌(campylobacterjejuni)(ncbiref:yp_002344900.1)或脑膜炎双球菌(neisseriameningitides)(ncbiref:yp_002342100.1)或指来自任何其他有机体的cas9。[0354]应理解,额外的cas9蛋白(例如,核酸酶死亡cas9(dcas9)、cas9切口酶(ncas9)或核酸酶活性cas9),包括其变体和同源物,处于本公开的范畴内。示例性cas9蛋白包括但不限于下文提供者。在一些实施方案中,cas9蛋白为核酸酶死亡cas9(dcas9)。在一些实施方案中,cas9蛋白为cas9切口酶(ncas9)。在一些实施方案中,cas9蛋白为核酸酶活性cas9。[0355]在一些实施方案中,cas9结构域为核酸酶失活cas9结构域(dcas9)。例如,dcas9结构域可结合至双链核酸分子(例如,经由grna分子)而不裂解双链核酸分子的任一链。在一些实施方案中,核酸酶失活dcas9结构域包含本文所述氨基酸序列的d10x突变和h840x突变或本文提供的任何氨基酸序列的对应突变,其中x为任何氨基酸改变。在一些实施方案中,核酸酶失活dcas9结构域包含本文所述氨基酸序列的d10x突变和h840x突变,或本文提供的任何氨基酸序列的对应突变。作为一个实例,核酸酶失活cas9结构域包含克隆载体pplattet-grna2(accessionno.bav54124)中详述的氨基酸序列。[0356]示例性催化性失活的cas9(dcas9)的氨基酸序列如下:[0357]mdkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdaivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfdsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasagelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkrytstkevldatlihqsitglyetridlsqlggd(参见例如,qi等人,“repurposingcrisprasanrna-guidedplatformforsequence-specificcontrolofgeneexpression.”cell.2013;152(5):1173-83,其全部内容以引用方式并入本文)。[0358]额外的合适核酸酶失活dcas9结构域基于本公开内容和所属
技术领域
:的知识,所属
技术领域
:普通技术人员将为明显可知,并且在本公开内容的范围内。此额外的例示性合适核酸酶失活cas9结构域包括但不限制于,d10a/h840a、d10a/d839a/h840a和d10a/d839a/h840a/n863a突变体结构域(参见例如,prashant等人,cas9transcriptionalactivatorsfortargetspecificityscreeningandpairednickasesforcooperativegenomeengineering.naturebiotechnology.2013;31(9):833-838,其全部内容以引用方式并入本文)。[0359]在一些实施方案中,cas9核酸酶具有失活(例如,已失活)dna裂解结构域,即,cas9为切口酶,称为“ncas9”蛋白(对于“切口酶”cas9)。核酸酶失活cas9蛋白可交换地称为“dcas9”蛋白质(用于核酸酶“死亡”cas9)或催化性失活的cas9。用于产生具有失活dna裂解结构域的cas9蛋白质(或其片段)的方法为已知(参见例如,jinek等人,science.337:816-821(2012);qi等人,“repurposingcrisprasanrna-guidedplatformforsequence-specificcontrolofgeneexpression”(2013)cell.28;152(5):1173-83,其各者的全部内容以引用方式并入本文)。例如,cas9的dna裂解结构域已知包括二个亚结构域,hnh核酸酶亚结构域和ruvc1亚结构域。hnh亚结构域裂解与grna互补的链,而ruvc1亚结构域裂解非互补链。此等亚结构域内的突变可沉默cas9的核酸酶活性。例如,突变d10a和h840a完全地失活化脓性链球菌cas9的核酸酶活性(jinek等人,science.337:816-821(2012);qi等人,cell.28;152(5):1173-83(2013))。[0360]在一些实施方案中,dcas9结构域包含氨基酸序列,其与本文提供的任一dcas9结构域具有至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性。在一些实施方案中,cas9结构域包含氨基酸序列,其相较于本文所描述的任一氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多或更多个突变。在一些实施方案中,cas9结构域包含氨基酸序列,该氨基酸序列具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100或至少1200个与本文所述任一氨基酸序列相同的连续氨基酸残基。[0361]在一些实施方案中,dcas9对应于、或包含一部份或整体,具有失活cas9核酸酶活性的一个或多个突变的cas9氨基酸序列。例如,在一些实施方案中,dcas9结构域包含d10a和h840a突变或另一cas9中的对应突变。[0362]在一些实施方案中,dcas9包含dcas9(d10a和h840a)的氨基酸序列:[0363][0363][0363](单下划线:hnh结构域;双下划线:ruvc结构域)。[0364]在一些实施方案中,cas9结构域包含d10a突变,而第840位的残基在本文提供的氨基酸序列或在本文提供的任一氨基酸序列的对应位置处仍然是组氨酸。[0365]在其他实施方案中,提供具有除d10a和h840a以外的突变的dcas9变体,其例如,造成核酸酶失活cas9(dcas9)。此等突变,举例而言,包括d10和h840处的其他氨基酸取代,或cas9的核酸酶结构域内的其他取代(例如,hnh核酸酶亚结构域和/或ruvc1亚结构域内的取microbes."cellres.2017feb21.doi:10.1038/cr.2017.21,其全部内容以引用方式并入本文。使用基因组解析的宏观基因组学,确定许多crispr-cas系统,包括在生命的古菌域首次报导的cas9。这种分歧的cas9蛋白在很少被研究的纳米古菌中被发现,作为活性crispr-cas系统的一部分。在细菌中,发现了两个以前未知的系统,crispr-casx和crispr-casy,它们是迄今为止发现的最紧实的系统。在一些实施方案中,本文所描述的碱基编辑器系统中cas9为casx或casx的变体所替代。在一些实施方案中,本文所描述的碱基编辑器系统中,cas9为casy或casy的变体所替代。应理解,其他rna-向导dna结合蛋白可用作核酸可编程dna结合蛋白质(napdnabp)且处于本公开的范围内[0370]在一些实施方案中,本文提供的任何融合蛋白的核酸可编程dna结合蛋白质(napdnabp)可以为casx或casy蛋白。在一些实施方案中,napdnabp为casx蛋白。在一些实施方案中,napdnabp为casy蛋白。在一些实施方案中,napdnabp包含氨基酸序列与天然出现的casx或casy蛋白具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性。在一些实施方案中,可编程核苷酸结合蛋白质为天然出现的casx或casy蛋白。在一些实施方案中,可编程核苷酸结合蛋白包含氨基酸序列,其与本文所描述的任何casx或casy蛋白具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性。应理解,来自其他细菌物种的casx和casy也可根据本公开使用。[0371]示例性casx((uniprot.org/uniprot/f0nn87;uniprot.org/uniprot/f0nh53)tr|f0nn87|f0nn87_sulihcrispr-缔合的casx蛋白质os=冰岛硫化叶菌(sulfolobusislandicus)(菌株hve10/4)gn=sih_0402pe=4sv=1)氨基酸序列如下:[0372]mevplynifgdnyiiqvateaenstiynnkveiddeelrnvlnlaykiaknnedaaaerrgkakkkkgeegetttsniilplsgndknpwtetlkcynfpttvalsevfknfsqvkeceevsapsfvkpefyefgrspgmvertrrvklevephyliiaaagwvltrlgkakvsegdyvgvnvftptrgilysliqnvngivpgikpetafglwiarkvvssvtnpnvsvvriytisdavgqnpttinggfsidltkllekryllserleaiarnalsissnmreryivlanyiyeyltgskrledllyfanrdlimnlnsddgkvrdlklisayvngelirgeg。[0373]示例性casx(》tr|f0nh53|f0nh53_sulircrispr缔合的蛋白质,casxos=冰岛硫化叶菌(sulfolobusislandicus)(菌株rey15a)gn=sire_0771pe=4sv=1)氨基酸序列如下:[0374]mevplynifgdnyiiqvateaenstiynnkveiddeelrnvlnlaykiaknnedaaaerrgkakkkkgeegetttsniilplsgndknpwtetlkcynfpttvalsevfknfsqvkeceevsapsfvkpefykfgrspgmvertrrvklevephylimaaagwvltrlgkakvsegdyvgvnvftptrgilysliqnvngivpgikpetafglwiarkvvssvtnpnvsvvsiytisdavgqnpttinggfsidltkllekrdllserleaiarnalsissnmreryivlanyiyeyltgskrledllyfanrdlimnlnsddgkvrdlklisayvngelirgeg。[0375]δ-变形菌casx[0376]mekrinkirkklsadnatkpvsrsgpmktllvrvmtddlkkrlekrrkkpevmpqvisnnaannlrmllddytkmkeailqvywqefkddhvglmckfaqpaskkidqnklkpemdekgnlttagfacsqcgqplfvykleqvsekgkaytnyfgrcnvaeheklillaqlkpvkdsdeavtyslgkfgqraldfysihvtkesthpvkplaqiagnryasgpvgkalsdacmgtiasflskyqdiiiehqkvvkgnqkrleslrelagkenleypsvtlppqphtkegvdfayne是dna底物的条带强度,“b”和“c”是裂解产物)。[0381]在一些实施方案中,效率可以用成功nhej的百分比来表示。例如,t7核酸内切酶i测定可用于产生裂解产物,产物与底物的比率可用于计算nhej的百分比。t7核酸内切酶i裂解由野生型和突变dna链杂交产生的错配异源双链dna(nhej在原始断裂位点产生小的随机插入或缺失(indel))。更多的裂解表明更高的nhej百分比(更高的nhej效率)。作为说明性实例,nhej的分数(百分比)可以使用以下等式计算:(1-(1-(b+c)/(a+b+c))1/2)×100,其中“a”是dna底物的条带强度,“b”和“c”是裂解产物(ran等人,cell.2013sep.12;154(6):1380-9;和ran等人,natprotoc.2013nov.;8(11):2281–2308)。[0382]nhej修复途径是最活跃的修复机制,它经常导致dsb位点的小核苷酸插入或缺失。nhej介导的dsb修复的随机性具有重要的实际意义,因为表达cas9和grna或向导多核苷酸的细胞群导致多种突变。在一些实施方案中,nhej在靶dna中产生小的插入缺失,造成氨基酸缺失、插入或移码突变,导致靶标基因的开读框(orf)内的过早终止密码子。理想的最终结果是靶标基因内的功能丧失突变。[0383]虽然nhej-介导的dsb修复经常破坏基因的开读框,但同源定向修复(hdr)可用于产生特异的核苷酸变化,范围从单一核苷酸变化到大2k7插入,如添加荧光团或标志。为了在基因编辑中利用hdr,将含有所期望序列的dna修复模板与grna和cas9或cas9切口酶递送到感兴趣的细胞类型中。修复模板可以在靶标的上游和下游(称为左右同源臂)包含所期望的编辑以及额外的同源序列。每个同源臂的长度可取决于引入的变化的大小,更大的插入需要更长的同源臂。修复模板可以为单链寡核苷酸、双链寡核苷酸或双链dna质粒。即使在表达cas9、grna和外源修复模板的细胞中,hdr的效率通常也很低(《10%的经修饰等位基因)。hdr的效率可通过同步细胞而增强,这是因为hdr发生在细胞周期的s和g2阶段。涉及nhej的化学地或基因地抑制基因也可以增加hdr频率。[0384]在一些实施方案中,cas9为经修饰的cas9。给定的grna靶向序列可以在整个基因组具有额外的位点,其中存在部分同源性。这些位点称为脱靶,且当设计grna时需要加以考虑。除了优化grna设计,crispr的特异性可经由对cas9的修饰而增加。cas9经由两个核酸酶结构域ruvc和hnh的联合活性产生双链断裂(dsb)。cas9切口酶是spcas9的d10a突变体,保留一个核酸酶结构域且产生dna切口而不是dsb。切口酶系统也可与hdr介导的基因编辑结合进行特定的基因编辑。[0385]在一些实施方案中,cas9为变体cas9蛋白。变体cas9多肽具有氨基酸序列,其与野生型cas9蛋白的氨基酸序列相差一个氨基酸(例如,具有缺失、插入、取代、融合)。在某些情况下,变体cas9多肽具有氨基酸改变(例如,删除、插入或取代),其减弱cas9多肽的核酸酶活性。例如,在某些情况下,变体cas9多肽具有小于50%、小于40%、小于30%、小于20%、小于10%、小于5%或小于1%的对应野生型cas9蛋白质的核酸酶活性。在一些实施方案中,变体cas9蛋白不具有实质上的核酸酶活性。当主要cas9蛋白为不具有实质上的核酸酶活性的变体cas9蛋白时,其可称为”dcas9”。[0386]在一些实施方案中,变体cas9蛋白具有减弱的核酸酶活性。例如,变体cas9蛋白表现出小于约20%、小于约15%、小于约10%、小于约5%、小于约1%或小于约0.1%的野生型cas9蛋白质的内切核酸酶活性,例如,野生型cas9蛋白。[0387]在一些实施方案中,变体cas9肽链可裂解向导靶标序列的互补链,但对于裂解双链向导靶标序列的非互补链具有降低的能力。例如,变体cas9蛋白可具有突变(氨基酸取代),该突变降低ruvc结构域的功能。作为非限制性实例,在一些实施方案中,cas9蛋白具有d10a(氨基酸位置10处的天冬氨酸变为丙氨酸),且因此可以定裂解双链向导靶标序列的互补链,但对于裂解双链向导靶标序列的非互补链具有降低的能力(因而当变体cas9蛋白裂解双链靶标核酸时,造成单链断裂(ssb)而非双链断裂(dsb))(参见例如,jinek等人,science.2012aug.17;337(6096):816-21)。[0388]在一些实施方案中,变体cas9蛋白可裂解双链向导靶标序列的非互补链,但对于裂解向导靶标序列的互补链具有降低的能力。例如,变体cas9蛋白可具有突变(氨基酸取代),该突变降低hnh结构域(ruvc/hnh/ruvc结构域基序)的功能。作为非限制实例,在一些实施方案中,变体cas9蛋白具有h840a(氨基酸位置840处的组氨酸变为丙氨酸)突变,且因可裂解向导靶标序列的非互补链但对于裂解向导靶标序列的互补链具有降低的能力(因而当变体cas9蛋白裂解双链靶标核酸时,造成ssb而非dsb)。该cas9蛋白对于裂解向导靶标序列(例如,单一链向导靶标序列)具有降低的能力但保留结合向导靶标序列(例如,单一链向导靶标序列)的能力。[0389]在一些实施方案中,变体cas9蛋白对于裂解双链靶标dna的互补链和非互补链二者具有降低的能力。作为非限制实例,在一些实施方案中,变体cas9蛋白质带有d10a和h840a两个突变,使得多肽对于裂解双链靶标dna的互补链和非互补链二者具有降低的能力。该cas9蛋白对于裂解靶标dna(例如,单链靶标dna)具有降低的能力但保留结合靶标dna(例如,单链靶标dna)的能力。[0390]作为另一非限制实例,在一些实施方案中,变体cas9蛋白带有w476a和w1126a突变,使得多肽对于裂解靶标dna具有降低的能力。该cas9蛋白对于裂解靶标dna(例如,单链靶标dna)具有降低的能力但保留结合靶标dna(例如,单链靶标dna)的能力。[0391]作为另一非限制实例,在一些实施方案中,变体cas9蛋白带有p475a、w476a、n477a、d1125a、w1126a和d1127a突变,使得多肽对于裂解靶标dna具有降低的能力。该cas9蛋白质对于裂解靶标dna(例如,单链靶标dna)具有降低的能力但保留结合靶标dna(例如,单链靶标dna)的能力。[0392]作为另一非限制实例,在一些实施方案中,变体cas9蛋白带有h840a、w476a和w1126a突变,使得多肽对于裂解靶标dna具有降低的能力。该cas9蛋白对于裂解靶标dna(例如,单链靶标dna)具有降低的能力但保留结合靶标dna(例如,单链靶标dna)的能力。作为另一非限制实例,在一些实施方案中,变体cas9蛋白带有h840a、d10a、w476a和w1126a突变,使得多肽对于裂解靶标dna具有降低的能力。该cas9蛋白质对于裂解靶标dna(例如,单链靶标dna)具有降低的能力但保留结合靶标dna(例如,单链靶标dna)的能力。在一些实施方案中,变体cas9在cas9hnh结构域(a840h)中的位置840处具有修复的催化性his残基。[0393]作为另一非限制实例,在一些实施方案中,变体cas9蛋白带有h840a、p475a、w476a、n477a、d1125a、w1126a和d1127a突变,使得多肽对于裂解靶标dna具有降低的能力。该cas9蛋白对于裂解靶标dna(例如,单链靶标dna)具有降低的能力但保留结合靶标dna(例如,单链靶标dna)的能力。作为另一非限制实例,在一些实施方案中,变体cas9蛋白带有d10a、h840a、p475a、w476a、n477a、d1125a、w1126a和d1127a突变,使得多肽对于裂解靶标dna具有降低的能力。该cas9蛋白对于裂解靶标dna(例如,单链靶标dna)具有降低的能力但保留结合靶标dna(例如,单链靶标dna)的能力。在一些实施方案中,当变体cas9蛋白带有w476a和w1126a突变或当变体cas9蛋白带有p475a、w476a、n477a、d1125a、w1126a和d1127a突变时,变体cas9蛋白不会有效地结合至pam序列。因此,在此类实施方案中,当该变体cas9蛋白用于结合方法中时,该方法不需要pam。换句话说,在一些实施方案中,当该变体cas9蛋白质用于结合方法中时,该方法可包括向导rna,但该方法可缺乏pam序列而进行(因此结合的特异性由向导rna的靶向链段提供)。可以突变其他残基以达到上述效果(即,失活一个或其他的核酸酶部分)。作为非限制实例,残基d10、g12、g17、e762、h840、n854、n863、h982、h983、a984、d986和/或a987可以被改变(即,取代)。再者,除丙氨酸取代以外的突变也为合适的。[0394]在一些实施方案中,变体cas9蛋白具有降低的催化性活性(例如,当cas9蛋白质具有d10、g12、g17、e762、h840、n854、n863、h982、h983、a984、d986,和/或987突变,例如,d10a、g12a、g17a、e762a、h840a、n854a、n863a、h982a、h983a、a984a和/或d986a时),变体cas9蛋白仍可以位点特异性方式结合至靶标dna(因为其仍通过向导rna被引导至靶标dna),只要其保留与向导rna相互作用的能力即可。[0395]在一些实施方案中,变体cas蛋白可以为spcas9、spcas9-vrqr、spcas9-vrer、xcas9(sp)、sacas9、sacas9-kkh、spcas9-mqkser、spcas9-lrkiqk或spcas9-lrvsql。[0396]在一些实施方案中,使用经修饰的spcas9,其包括氨基酸取代d1135m、s1136q、g1218k、e1219f、a1322r、d1332a、r1335e和t1337r(spcas9-mqkfraer),且对于改变的pam5’‑ngc-3’具有特异性。[0397]作为化脓性链球菌(s.pyogenes)cas9的替代物,可包括来自于cpf1家族的rna引导的内切核酸酶,其展现哺乳动物细胞中的裂解活性。来自普雷沃氏菌属(prevotella)和弗朗西斯菌属1(francisella1)的crispr(crispr/cpf1)为类似于crispr/cas9系统的dna编辑技术。cpf1为ii类crispr/cas系统的rna引导的内切核酸酶。此为可见于普雷沃氏菌属和弗朗西斯菌属细菌的后天免疫机制。cpf1基因与crispr基因座相关,编码内切核酸酶,其使用向导rna来寻找和裂解病毒dna。cpf1是一种比cas9更小、更简单的核酸内切酶,克服crispr/cas9系统的一些限制。与cas9核酸酶不同,cpf1介导的dna裂解的结果是具有短3'突出的双链断裂。cpf1的交错切割模式可以开辟定向基因转移的可能性,类似于传统的限制酶克隆,可以提高基因编辑的效率。与上述cas9变体和直系同源物一样,cpf1还可以将crispr可靶向的位点数量扩展到富含at的区域或富含at的基因组,这些区域缺乏spcas9喜好的nggpam位点。cpf1基因座包含一个混合的α/β结构域,一个ruvc-i,之后为一个螺旋区域,一个ruvc-ii和一个类锌指结构域。cpf1蛋白具有类似于cas9的ruvc结构域的类ruvc酸内切酶结构域。此外,cpf1不具有hnh核酸内切酶结构域,并且cpf1的n-端不具有cas9的α-螺旋识别叶。cpf1crispr-cas结构域架构显示cpf1为功能性独特,被归类为2类v型crispr系统。cpf1基因座编码的cas1、cas2和cas4蛋白更类似于i型和iii型系统而不是ii型系统。功能性cpf1不需要反式活化crisprrna(tracrrna),因此,只需要crispr(crrna)。这有利于基因组编辑,因为cpf1不仅比cas9小,而且它具有更小的sgrna分子(大约是cas9的一半核苷酸)。相对于cas9所靶向的富含g的pam,cpf1-crrna复合物通过鉴定原间隔序列相邻基序5'-ytn-3'而裂解靶标dna或rna。鉴定pam后,cpf1引入了类粘端dna双链断裂的4或5个核苷酸突出。[0398]核碱基编辑器的cas12结构域[0399]典型地,微生物的crispr-cas系统分为1类系统和2类系统。1类系统具有多亚基效应子复合物,而2类系统具有单一蛋白质效应子。例如,cas9和cpf1为2类效应子,尽管为不同类型(分别为ii型和v型)。除了cpf1,2类v型crispr-cas系统也包含cas12a/cpfl、cas12b/c2cl、cas12c/c2c3、cas12d/casy、cas12e/casx、cas12g、cas12h和cas12i。参见例如,shmakov等人,“discoveryandfunctionalcharacterizationofdiverseclass2crisprcassystems,”mol.cell,2015nov.5;60(3):385-397;makarova等人,“classificationandnomenclatureofcrispr-cassystems:wherefromhere?”crisprjournal,2018,1(5):325-336;和yan等人,“functionallydiversetypevcrispr-cassystems,”science,2019jan.4;363:88-91;个者的全部内容以引用方式并入。v型cas蛋白含有ruvc(或类ruvc)内切核酸酶结构域。然而成熟crisprrna(crrna)的产生一般不依赖于tracrrna,例如,cas12b/c2c1需要tracrrna用于crrna产生。cas12b/c2c1对于rna裂解取决于crrna和tracrrna二者。[0400]本发明中考虑的核酸可编程dna结合蛋白包括cas蛋白,其分类为2类v型(cas12蛋白)。2类v型cas蛋白的非限制实例包括cas12a/cpfl、cas12b/c2cl、cas12c/c2c3、cas12d/casy、cas12e/casx、cas12g、cas12h和cas12i、其同源物或其已修饰版本。如本文所用,cas12蛋白也可称为cas12核酸酶、cas12结构域或cas12蛋白结构域。在一些实施方案中,本发明的cas12蛋白包含通过内部融合蛋白结构域(如脱氨酶结构域)所中断的氨基酸序列。[0401]在一些实施方案中,cas12结构域为核酸酶失活cas12结构域或cas12切口酶。在一些实施方案中,cas12结构域为核酸酶活化结构域。例如,cas12结构域可以为切口双链核酸(例如,双链dna分子)的一条链的cas12结构域。在一些实施方案中,cas12结构域包含本文所述氨基酸序列的任一者。在一些实施方案中,cas12结构域包含氨基酸序列,其与本文所述任一氨基酸序列具有至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性。在一些实施方案中,cas12结构域包含氨基酸序列,其相对于本文所述任一氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变。在一些实施方案中,cas12结构域包含氨基酸序列,该氨基酸序列具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100或至少1200个与本文所述任一氨基酸序列相同的连续氨基酸残基。[0402]在一些实施方案中,提供包含cas12片段的蛋白质。例如,在一些实施方案中,蛋白质包含二个cas12结构域的一者:(1)cas12的grna结合结构域;或(2)cas12的dna裂解结构域。在一些实施方案中,包含cas12或其片段的蛋白质称为“cas12变体”。cas12变体与cas12或其片段共享同源性。例如,cas12变体与野生型cas12具有至少约70%同一性,至少约80%同一性,至少约90%同一性,至少约95%同一性,至少约96%同一性,至少约97%同一性,至少约98%同一性,至少约99%同一性,至少约99.5%同一性或至少约99.9%同一性。在一些实施方案中,cas12变体相较于野生型cas12可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个氨基酸改变。在一些实施方案中,cas12变体包含cas12的片段(例如,grna结合结构域或dna裂解结构域),使得片段与野生型cas12的对应片段具有至少约70%同一性,至少约80%同一性,至少约90%同一性,至少约95%同一性,至少约96%同一性,至少约97%同一性,至少约98%同一性,至少约99%同一性,至少约99.5%同一性或至少约99.9%同一性。在一些实施方案中,片段为对应野生型cas12的氨基酸长度的至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%同一性、至少96%、至少97%、至少98%、至少99%或至少99.5%。在一些实施方案中,片段为至少100个氨基酸的长度。在一些实施方案中,片段为至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250或至少1300个氨基酸的长度。[0403]在一些实施方案中,cas12部分或全部地对应于或包含具有一个或多个改变cas12核酸酶活性的突变的cas12氨基酸序列。该突变,举例而言,包括cas12的ruvc核酸酶结构域内的氨基酸取代。在一些实施方案中,提供cas12的变体或同源物,其与野生型cas12具有至少约70%同一性,至少约80%同一性,至少约90%同一性,至少约95%同一性,至少约98%同一性,至少约99%同一性,至少约99.5%同一性或至少约99.9%同一性。在一些实施方案中,提供cas12的变体,其具有更短或更长的氨基酸序列,相差约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多。[0404]在一些实施方案中,如本文提供的cas12融合蛋白包含全长氨基酸序列的cas12蛋白,例如,本文提供的cas12序列的一者。然而,在其他实施方案中,本文提供的融合蛋白不包含全长cas12序列,而仅包含其一个或多个片段。合适的cas12结构域的示例性氨基酸序列提供于本文,且cas12结构域和片段的额外的合适序列将为所属
技术领域
:普通技术人员明显可知。[0405]一般而言,2类v型cas蛋白具有单一功能的ruvc内切核酸酶结构域(参见例如,chen等人,“crispr-cas12atargetbindingunleashesindiscriminatesingle-strandeddnaseactivity,”science360:436-439(2018))。在一些情况下,cas12蛋白为变体cas12b蛋白。(参见strecker等人,naturecommunications,2019,10(1):art.no.:212)。在一种实施方案中,变体cas12多肽具有氨基酸序列,该氨基酸序列与野生型cas12蛋白的氨基酸序列的相异之处在于1、2、3、4、5或更多个氨基酸(例如,具有缺失、插入、取代、融合)。在一些情形中,变体cas12多肽具有氨基酸改变(例如,缺失、插入或取代),其降低cas12多肽的活性。例如,在一些情形中,变体cas12为cas12b多肽,其具有小于50%,小于40%,小于30%,小于20%,小于10%,小于5%或小于1%的对应野生型cas12b蛋白的切口酶活性。在一些情况中,变体cas12b蛋白不具有实质上的切口酶活性。[0406]在一些情况下,变体cas12b蛋白具有降低的切口酶活性。例如,变体cas12b蛋白展现小于约20%、小于约15%、小于约10%、小于约5%、小于约1%或小于约0.1%的野生型cas12b蛋白的切口酶活性。[0407]在一些实施方案中,cas12蛋白包括在哺乳动物细胞中展现活性的cas12a/cpf1家族的rna引导的内切核酸酶。来自普雷沃氏菌(prevotella)和弗朗西斯菌(francisella)1的crispr(crispr/cpf1)为类似于crispr/cas9系统的dna编辑技术。cpf1为ii类crispr/cas系统的rna引导的内切核酸酶。此后天免疫机制发现于普雷沃氏菌(prevotella)和弗朗西斯菌(francisella)细菌。cpf1基因与crispr基因座相关,编码使用向导rna来发现和裂解病毒dna的内切核酸酶。cpf1是比cas9更小且更简单的内切核酸酶,克服一些crispr/cas9系统的限制。不同于cas9核酸酶,cpf1介导的dna裂解的结果为具有短的3’突出的双链断裂。cpf1的交错裂解模式可以开辟定向基因转移的可能性,类似于传统的限制酶克隆,可以提高基因编辑的效率。与上述cas9变体和直系同源物一样,cpf1还可以将crispr可靶向的位点数量扩展到富含at的区域或富含at的基因组,这些区域缺乏spcas9喜好的nggpam位点。cpf1基因座包含一个混合的α/β结构域,一个ruvc-i,之后为一个螺旋区域,一个ruvc-ii和一个类锌指结构域。cpf1蛋白具有类似于cas9的ruvc结构域的类ruvc核酸内切酶结构域。此外,与cas9不同,cpf1没有hnh核酸内切酶结构域,并且cpf1的n端没有cas9的α-螺旋识别叶。cpf1crispr-cas结构域架构表明cpf1在功能上是独特的,被归类为2类v型crispr系统。cpf1基因座编码的cas1、cas2和cas4蛋白更类似于i型和iii型系统而不是ii型系统。功能性cpf1不需要反向活化crisprrna(tracrrna),因此,只需要crispr(crrna)。这有利于基因组编辑,因为cpf1不仅比cas9小,而且它的sgrna分子更小(大约是cas9的一半核苷酸)。相较于cas9靶向的富含g的pam,cpf1-crrna复合物通过识别原间隔序列邻近基序5'-ytn-3'或5'-tttn-3'来裂解靶标dna或rna。鉴定pam后,cpf1引入一个类粘端dna双链断裂,具有4或5个核苷酸的突出。[0408]在本发明的一些方面,可使用编码crispr酶的载体,该酶相对于对应的野生型酶已突变,使得突变的crispr酶缺乏裂解含有靶标序列的靶标多核苷酸的一条链或两条链的能力。cas12可指与野生型例示性cas12具有至少或至少约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性和/或序列同源性(例如,来自久氏芽孢杆菌的cas12、芽孢杆菌v3-13(bvcas12b)和嗜酸脂环杆菌(aacas12b))。cas12可指与野生型cas12多肽具有最多或最多约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98的多肽%、99%或100%序列同一性和/或序列同源性。cas12可指cas12蛋白的野生型或经修饰形式,其可包含氨基酸改变如缺失、插入、取代、变体、突变、融合、嵌合或其任何组合。[0409]核酸可编程dna结合蛋白质[0410]本公开的一些方面提供包含作为核酸可编程dna结合蛋白的结构域的融合蛋白,其可用来引导将蛋白质(如碱基编辑器)引导至特定核酸(例如,dna或rna)序列。在特定实施方案中,融合蛋白包含核酸可编程dna结合蛋白结构域和脱氨酶结构域。核酸可编程dna结合蛋白的非限制实例包括cas9(例如,dcas9和ncas9)、cas12a/cpfl、cas12b/c2cl、cas12c/c2c3、cas12d/casy、cas12e/casx、cas12g、cas12h和cas12i。cas酶的非限制实例包括cas1、cas1b、cas2、cas3、cas4、cas5、cas5d、cas5t、cas5h、cas5a、cas6、cas7、cas8、cas8a、cas8b、cas8c、cas9(也已知为csn1或csx12)、cas10、cas10d、cas12a/cpfl、cas12b/c2cl、cas12c/c2c3、cas12d/casy、cas12e/casx、cas12g、cas12h、cas12i、csy1、csy2、csy3、csy4、cse1、cse2、cse3、cse4、cse5e、csc1、csc2、csa5、csn1、csn2、csm1、csm2、csm3、csm4、csm5、csm6、cmr1、cmr3、cmr4、cmr5、cmr6、csb1、csb2、csb3、csx17、csx14、csx10、csx16、csax、csx3、csx1、csx1s、csx11、csf1、csf2、cso、csf4、csd1、csd2、cst1、cst2、csh1、csh2、csa1、csa2、csa3、csa4、csa5、ii型cas效应子蛋白、v型cas效应子蛋白、vi型cas效应子蛋白、carf、ding、其同源物或其经修饰或工程化的版本。其他核酸可编程dna结合蛋白处于本公开的范畴内,然而它们可能并未具体列举于本公开。参见例如,makarova等人“classificationandnomenclatureofcrispr-cassystems:wherefromhere?”crisprj.2018oct;1:325-336.doi:10.1089/crispr.2018.0033;yan等人,“functionallydiversetypevcrispr-cassystems”science.2019jan4;363(6422):88-91.doi:10.1126/science.aav7271,各自的全部内容以引用方式并入。[0411]具有与cas9不同的pam特异性的核酸可编程dna结合蛋白的一个实例是来自普雷沃氏菌(prevotella)和弗朗西斯菌(francisella)1(cpf1)的成簇规则间隔短回文重复序列。与cas9类似,cpf1也是2类crispr效应子。已经显示cpf1介导强大的dna干扰,其特征与cas9不同。cpf1是一种单一rna引导的内切核酸酶,缺乏tracrrna且其利用富含t的原间隔序列相邻基序(ttn、tttn或ytn)。再者,cpf1通过交错的dna双链断裂来裂解dna。在16个cpf1家族蛋白中,来自酸球菌属(acidaminococcus)和毛螺菌科(lachnospiraceae)的两种酶已显示在人类细胞中具有有效的基因组编辑活性。cpf1蛋白质是所属
技术领域
:已知的并且之前已经描述过,例如yamano等人,“crystalstructureofcpf1incomplexwithguidernaandtargetdna.”cell(165)2016,p.949-962;其全部内容以引用方式并入。[0412]在本组合物和方法中有用的是核酸酶失活的cpf1(dcpf1)变体,其可用作向导核苷酸序列-可编程dna-结合蛋白质结构域。cpf1蛋白具有与cas9的ruvc结构域相似的类ruvc核酸内切酶结构域但不具有hnh核酸内切酶结构域,且cpf1的n-端不具有cas9的α-螺旋识别叶。其已显示于zetsche等人,cell,163,759-771,2015(其以引用方式并入本文),cpf1的类ruvc结构域负责裂解两条dna链,而类ruvc结构域负责使cpf1核酸酶活性的失活。例如,对应于新弗朗西斯菌(francisellanovicida)cpf1的d917a、e1006a或d1255a的突变使cpf1核酸酶活性失活。在一些实施方案中,本公开的dcpf1包含对应于d917a、e1006a、d1255a、d917a/e1006a、d917a/d1255a、e1006a/d1255a或d917a/e1006a/d1255a的突变。应理解,任何突变,例如,失活cpf1的ruvc结构域的取代突变、缺失或插入,可根据本公开而使用。[0413]在一些实施方案中,本文提供的任何融合蛋白的核酸可编程dna结合蛋白(napdnabp)可以为cpf1蛋白。在一些实施方案中,cpf1蛋白为cpf1切口酶(ncpf1)。在一些实施方案中,cpf1蛋白为核酸酶失活的cpf1(dcpf1)。在一些实施方案中,cpf1,ncpf1或dcpf1,包含氨基酸序列,其与本文公开的cpf1序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性。在一些实施方案中,dcpf1包含氨基酸序列,其与本文公开的cpf1序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性,且包含对应于d917a、e1006a、d1255a、d917a/e1006a、d917a/d1255a、e1006a/d1255a或d917a/e1006a/d1255a的突变。应理解,来自其他细菌物种的cpf1也可根据本公开使用。[0414]野生型新弗朗西斯菌(francisellanovicida)cpf1(d917、e1006和d1255为粗体和下划线)[0415][0416][0417]新弗朗西斯菌(francisellanovicida)cpf1d917a(a917、e1006和d1255为粗体和下划线)[0418][0419][0420]新弗朗西斯菌(francisellanovicida)cpf1e1006a(d917、a1006和d1255为粗体和下划线)[0421][0421][0422]新弗朗西斯菌(francisellanovicida)cpf1d1255a(d917、e1006和a1255为粗体和下划线)[0423][0424]新弗朗西斯菌(francisellanovicida)cpf1d917a/e1006a(a917、a1006和d1255为粗体和下划线)[0425][0426]新弗朗西斯菌(francisellanovicida)cpf1d917a/d1255a(a917、e1006和a1255为粗体和下划线)[0427][0428]新弗朗西斯菌(francisellanovicida)cpf1e1006a/d1255a(d917、a1006和a1255为粗体和下划线)[0429][0430][0431]新弗朗西斯菌(francisellanovicida)cpf1d917a/e1006a/d1255a(a917、a1006和a1255为粗体和下划线)[0432][0433][0434]在一些实施方案中,存在于融合蛋白中的一个cas9结构域可以置换为对于pam序列没有要求的向导核苷酸序列-可编程dna-结合蛋白质结构域。[0435]在一些实施方案中,cas9结构域为来自金黄色葡萄球菌(staphylococcusaureus)的cas9结构域(sacas9)。在一些实施方案中,sacas9结构域为核酸酶活化sacas9、核酸酶失活sacas9(sacas9d)或sacas9切口酶(sacas9n)。在一些实施方案中,sacas9包含n579a突变或本文提供的任何氨基酸序列的对应突变。[0436]在一些实施方案中,sacas9结构域、sacas9d结构域或sacas9n结构域可结合至具有非标准pam的核酸序列。在一些实施方案中,sacas9结构域、sacas9d结构域或sacas9n结构域可结合至具有nngrrt或nngrrtpam序列的核酸序列。在一些实施方案中,sacas9结构域包含e781x、n967x和r1014x突变中的一个或多个或本文提供的任何氨基酸序列的对应突变,其中x为任何氨基酸。在一些实施方案中,sacas9结构域包含e781k、n967k和r1014h突变中的一个或多个或本文提供的任何氨基酸序列的一个或多个对应突变。在一些实施方案中,sacas9结构域包含e781k、n967k或r1014h突变或本文提供的任何氨基酸序列的对应突变。[0437]示例性sacas9序列[0438][0439]上述残基n579,其为下划线和粗体,可经突变(例如,变为a579)以产出sacas9切口酶。[0440]例示性sacas9n序列[0441][0442][0443]上述残基a579,其可突变自n579以产出sacas9切口酶,为下划线和粗体。[0444]示例性sakkhcas9[0445][0446][0447]上述残基a579,其可突变自n579以产出sacas9切口酶,为下划线和粗体。上述残基k781、k967和h1014,其可突变自e781、n967和r1014以产出sakkhcas9,为下划线和斜体文字。[0448]在一些实施方案中,napdnabp为环状排列。下述序列中,纯文字表示腺苷脱氨酶序列,粗体序列指示衍生自cas9的序列,斜体字序列表示连接子序列,下划线序列表示双分型核定位序列。[0449]cp5(具有msp“ngc”pid和“d10a”切口酶):[0450][0451][0452]在一些实施方案中,核酸可编程dna结合蛋白质(napdnabp)为微生物的crispr-cas系统单一效应子。微生物的crispr-cas系统的单一效应子包括但不限于,cas9、cpf1、cas12b/c2c1和cas12c/c2c3。典型地,微生物的crispr-cas系统分为1类系统和2类系统。1类系统具有多亚基效应子复合物,而2类系统具有单一蛋白质效应子。例如,cas9和cpf1为2类效应子。除了cas9和cpf1,三种不同的2类crispr-cas系统(cas12b/c2c1和cas12c/c2c3)已记载于shmakov等人,“discoveryandfunctionalcharacterizationofdiverseclass2crisprcassystems”,mol.cell,2015nov.5;60(3):385-397,其全部内容以引用方式并入本文。该二个系统的效应子,cas12b/c2c1和cas12c/c2c3,含有与cpf1相关的类ruvc内切核酸酶结构域。第三个系统,含有具二个预测的hepnrnase结构域的效应子。成熟crisprrna的产生不依赖于tracrrna,不同于cas12b/c2c1产生的crisprrna。cas12b/c2c1依赖于crisprrna和tracrrna的dna裂解。[0453]嗜酸脂环酸杆菌(alicyclobaccillusacidoterrastris)cas12b/c2c1(aacc2c1)的晶体结构已报导在与嵌合的单分子向导rna(sgrna)的复合物中。参见例如,liu等人,“c2c1-sgrnacomplexstructurerevealsrna-guideddnacleavagemechanism”,mol.cell,2017jan.19;65(2):310-322,其整体内容已引用方式并入本文。晶体结构也已报导于结合至靶标dna作为三元复合物的嗜酸脂环酸杆菌(alicyclobacillusacidoterrestris)c2c1中。参见例如,yang等人,“pam-dependenttargetdnarecognitionandcleavagebyc2c1crispr-casendonuclease”,cell,2016dec.15;167(7):1814-1828,其整体内容已引用方式并入本文。aacc2c1的催化性组分构型,具有靶标和非靶标dna链二者,已经被独立地捕获在单一的ruvc催化性口袋内,以cas12b/c2c1介导的裂解造成一个交错的靶标dna的七核甘酸断裂。cas12b/c2c1三元复合物与先前鉴定的cas9和cpf1对应物之间的结构比较表明了crispr-cas9系统所使用的机制的多样性。[0454]在一些实施方案中,本文提供的任何融合蛋白的核酸可编程dna结合蛋白(napdnabp)可以为cas12b/c2c1或cas12c/c2c3蛋白。在一些实施方案中,napdnabp为cas12b/c2c1蛋白。在一些实施方案中,napdnabp为cas12c/c2c3蛋白。在一些实施方案中,napdnabp包含氨基酸序列,其与天然出现的cas12b/c2c1或cas12c/c2c3蛋白具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性。在一些实施方案中,napdnabp为天然出现的cas12b/c2c1或cas12c/c2c3蛋白。在一些实施方案中,napdnabp包含氨基酸序列,其与本文提供的任一napdnabp序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性。应理解,来自其他细菌物种的cas12b/c2c1或cas12c/c2c3也可根据本公开使用。[0455]cas12b/c2c1((uniprot.org/uniprot/t0d7a2#2)sp|t0d7a2|c2c1_aliagcrispr-相关的内切核酸酶c2c1os=嗜酸脂环酸杆菌(alicyclobacillusacido-terrestris)(菌株atcc49025/dsm3922/cip106132/ncimb13137/gd3b)gn=c2c1pe=1sv=1)氨基酸序列如下:[0456]mavksikvklrlddmpeiraglwklhkevnagvryytewlsllrqenlyrrspngdgeqecdktaeeckaellerlrarqvenghrgpagsddellqlarqlyellvpqaigakgdaqqiarkflspladkdavgglgiakagnkprwvrmreagepgweeekekaetrksadrtadvlraladfglkplmrvytdsemssvewkplrkgqavrtwdrdmfqqaiermmsweswnqrvgqeyaklveqknrfeqknfvgqehlvhlvnqlqqdmkeaspgleskeqtahyvtgralrgsdkvfekwgklapdapfdlydaeiknvqrrntrrfgshdlfaklaepeyqalwredasfltryavynsilrklnhakmfatftlpdatahpiwtrfdklggnlhqytflfnefgerrhairfhkllkvengvarevddvtvpismseqldnllprdpnepialyfrdygaeqhftgefggakiqcrrdqlahmhrrrgardvylnvsvrvqsqseargerrppyaavfrlvgdnhrafvhfdklsdylaehpddgklgsegllsglrvmsvdlglrtsasisvfrvarkdelkpnskgrvpfffpikgndnlvavhersqllklpgeteskdlraireerqrtlrqlrtqlaylrllvrcgsedvgrrerswaklieqpvdaanhmtpdwreafenelqklkslhgicsdkewmdavyesvrrvwrhmgkqvrdwrkdvrsgerpkirgyakdvvggnsieqieylerqykflkswsffgkvsgqviraekgsrfaitlrehidhakedrlkkladriimealgyvyaldergkgkwvakyppcqlilleelseyqfnndrppsennqlmqwshrgvfqelinqaqvhdllvgtmyaafssrfdartgapgircrrvparctqehnpepfpwwlnkfvvehtldacplraddliptgegeifvspfsaeegdfhqihadlnaaqnlqqrlwsdfdisqirlrcdwgevdgelvliprltgkrtadsysnkvfytntgvtyyerergkkrrkvfaqeklseeeaellveadeareksvvlmrdpsgiinrgnwtrqkefwsmvnqriegylvkqirsrvplqdsacentgdi。[0457]bhcas12b(外村尚芽孢杆菌(bacillushisashii))ncbi参照序列:wp_095142515[0458]mapkkkrkvgihgvpaaatrsfilkiepneevkkglwkthevlnhgiayymnilklirqeaiyehheqdpknpkkvskaeiqaelwdfvlkmqkcnsfthevdkdevfnilrelyeelvpssvekkgeanqlsnkflyplvdpnsqsgkgtassgrkprwynlkiagdpsweeekkkweedkkkdplakilgklaeygliplfipytdsnepivkeikwmeksrnqsvrrldkdmfiqalerflsweswnlkvkeeyekvekeyktleerikediqalkaleqyekerqeqllrdtlntneyrlskrglrgwreiiqkwlkmdenepsekylevfkdyqrkhpreagdysvyeflskkenhfiwrnhpeypylyatfceidkkkkdakqqatftladpinhplwvrfeersgsnlnkyrilteqlhteklkkkltvqldrliyptesggweekg607(2011);和“programmabledual-rna-guideddnaendonucleaseinadaptivebacterialimmunity.”jinekm.etal,science337:816-821(2012),其各自的全部内容以引用方式并入本文)。cas9异种同源物已经记载于各种物种,包括但不限于,化脓性链球菌(s.pyogenes)和嗜热链球菌(s.thermophiles)。额外的合适的cas9核酸酶和序列可以为所属
技术领域
:中普通技术人员基于本公开而明显可知,并且这些cas9核酸酶和序列包括来自描述于下文的有机体和基因座的cas9序列:chylinski,rhun和charpentier,“thetracrrna和cas9familiesoftypeiicrispr-casimmunitysystems”(2013)rnabiology10:5,726-737;其全部内容以引用方式并入本文。在一些实施方案中,cas9核酸酶具有失活(例如,已失活)dna裂解结构域,即,cas9为切口酶。[0464]在一些实施方案中,向导多核苷酸为至少一个单向导rna(“sgrna”或“gnra”)。在一些实施方案中,向导多核苷酸为至少一个tracrrna。在一些实施方案中,向导多核苷酸不需要pam序列以引导多核苷酸-可编程dna-结合结构域(例如,cas9或cpf1)至靶标核苷酸序列。[0465]本文公开的碱基编辑器的多核苷酸可编程核苷酸结合结构域(例如,crispr衍生的结构域)可通过与向导多核苷酸缔合而识别靶标多核苷酸序列。向导多核苷酸(例如,grna)典型为单链并且可以被编程为位点特异性地结合(即,经由互补的碱基配对)至多核苷酸的靶标序列,借此将与向导核酸接合的碱基编辑器引导至靶标序列。向导多核苷酸可以为dna。向导多核苷酸可以为rna。在一些实施方案中,向导多核苷酸包含天然核苷酸(例如,腺苷)。在一些实施方案中,向导多核苷酸包含非天然(或非自然)核苷酸(例如,肽核酸或核苷酸类似物)。在一些实施方案中,向导核酸序列的靶向区可以为至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸的长度。向导核酸的靶向区可以为介于10-30个核苷酸的长度或介于15-25个核苷酸的长度或介于15-20个核苷酸的长度。[0466]在一些实施方案中,向导多核苷酸包含二个或更多个不同的多核苷酸,其可经由例如互补的碱基配对(例如,双重向导多核苷酸)与另一者相互作用。例如,向导多核苷酸可包含crisprrna(crrna)和反式活化crisprrna(tracrrna)。例如,向导多核苷酸可包含一个或多个反式活化crisprrna(tracrrna)。[0467]在ii型crispr系统中,通过crispr蛋白(例如,cas9)靶向核酸典型地需要位于包含识别靶标序列的第一rna分子(crrna)与包含重复序列的第二rna分子(trrna)之间的互补碱基配对,该互补碱基配对形成支架区而稳定向导rna-crispr蛋白质复合物。该双重向导rna系统可作为向导多核苷酸用来引导本文公开的碱基编辑器至靶标多核苷酸序列。[0468]在一些实施方案中,本文提供的碱基编辑器利用单向导多核苷酸(例如,grna)。在一些实施方案中,本文提供的碱基编辑器利用双重向导多核苷酸(例如,双重grna)。在一些实施方案中,本文提供的碱基编辑器利用一个或多个向导多核苷酸(例如,多个grna)。子啊一些实施方案中,单向导多核苷酸用于不同的本文所述碱基编辑器。例如,单向导多核苷酸可用于腺苷碱基编辑器或腺苷碱基编辑器和胞苷碱基编辑器,例如,记载于pct/us19/44935。[0469]在其他实施方案中,向导多核苷酸可以在单一分子(即,单分子向导核酸)中包含核酸的多核苷酸靶向部分和核酸的支架部分例如,单分子向导多核苷酸可以为单向导rna(sgrna或grna)。本文中,术语向导多核苷酸序列涵盖能够与碱基编辑器相互作用并将碱基编辑器引导至靶标多核苷酸序列的任何单分子、双分子或多分子核酸。[0470]典型地,向导多核苷酸(例如,crrna/trrna复合物或grna)包含“多核苷酸靶向链段”,其包括能识别和结合至靶标多核苷酸序列的序列;和“蛋白质结合链段”,其稳定碱基编辑器的多核苷酸可编程核苷酸结合结构域组分内的向导多核苷酸序列。在一些实施方案中,向导多核苷酸的多核苷酸靶向链段识别并结合至dna多核苷酸,借此有助于dna中的碱基编辑。在其他实施方案中,向导多核苷酸的多核苷酸靶向链段识别并结合至rna多核苷酸,借此有助于rna中的碱基编辑。本文中,“链段"指分子的段或区,例如,向导多核苷酸中的核苷酸的连续延伸。链段也可指复合物的区/段,使得链段可包含多于一个分子的区。例如,当向导多核苷酸包含多个核酸分子时,蛋白质结合链段可包括例如沿着互补区域杂交的多个分开的分子的全部或一部分。在一些实施方案中,包含两个分开分子的dna靶向的rna的蛋白质结合链段可包含(i)长度为100个碱基对的第一rna分子的碱基对40-75;和(ii)长度为50个碱基对的第二rna分子的碱基对10-25。除非在特定语境中另有明确定义,否则“链段”的定义不限于特定总碱基对数,不限于来自给定rna分子的任何特定碱基对数,不限于复合物内分开分子的特定数量,并且可包括为任何总长度的rna分子区,并且可以包括与其他分子互补的区。[0471]向导rna或向导多核苷酸可包含两个或更多个rna,例如,crisprrna(crrna)和反式活化crrna(tracrrna)。向导rna或向导多核苷酸有时可包含单链rna或单向导rna(sgrna),通过融合crrna和tracrrna的一部分(例如,功能性部分)而形成。向导rna或向导多核苷酸也可以为包含crrna和tracrrna的双重rna。再者,crrna可与靶标dna杂交。[0472]如上文所讨论,向导rna或向导多核苷酸可以为表达产物。例如,编码向导rna的dna可以为包含编码向导rna的序列的载体。通过以包含编码向导rna和启动子的序列的分离的向导rna或质粒dna转染细胞,可以将向导rna或向导多核苷酸转移到细胞。也可以通过其他方式将向导rna或向导多核苷酸转移到细胞,例如使用病毒介导的基因递送。[0473]向导rna或向导多核苷酸可以为经分离的。例如,向导rna可以经分离的rna的形式转染到细胞或有机体。向导rna可以使用所属
技术领域
:已知的任何体外转录系统通过体外转录而制备。向导rna可以经分离的rna的形式而不是以包含向导rna的编码序列的质粒的形式转移到细胞。[0474]向导rna或向导多核苷酸可包含三个区域:位于5'端的第一区,其可与染色体序列中的靶标位点互补;第二内部区,其可形成茎环结构;以及第三3'区,其可以为单链。每个向导rna的第一区也可以是不同的,使得每个向导rna将融合蛋白引导至特定靶标位点。再者,每个向导rna的第二区和第三区在所有向导rna中都相同。[0475]向导rna或向导多核苷酸的第一区可与染色体序列中的靶标位点互补,使得向导rna的第一区可与靶标位点碱基配对。在一些实施方案中,向导rna的第一区可包含(约)10个核苷酸到25个核苷酸(即,10个核苷酸至25个核苷酸;或约10个核苷酸至约25个核苷酸;或10个核苷酸至约25个核苷酸;或约10个核苷酸至25个核苷酸)或更多。例如,向导rna的第一区和染色体序列中的靶标位点之间的碱基配对区可以是(约)10、11、12、13、14、15、16、17、18、19、20、22、23、24、25或更多个核苷酸的长度。有时,向导rna的第一区可以是(约)19、20或21个核苷酸的长度。[0476]向导rna或向导多核苷酸也可包含形成二级结构的第二区。例如,由向导rna形成的二级结构可以包含茎(或发夹)和环。环和茎的长度可以变化。例如,环的范围可以为约3至10个核苷酸的长度,且茎的范围可以为约6至20个碱基对的长度。茎可包含1至10个或约10个核苷酸的一个或多个凸起。第二区的总长度可在范围约16至60个核苷酸的长度。例如,环可以为(约)4个核苷酸的长度,并且茎可以为(约)12碱基对的长度。[0477]向导rna或向导多核苷酸也可包含位于3'端的第三区,其可以为实质上单链。例如,第三区有时不与感兴趣细胞中的任何染色体序列互补且有时不与向导rna的其余部分互补。再者,第三区的长度可以变化。第三区可以为多于(约)4个核苷酸的长度。例如,第三区的长度可在范围约5至60个核苷酸的长度。[0478]向导rna或向导多核苷酸可靶向基因靶标的任何外显子或内含子。在一些实施方案中,向导可靶向基因的外显子1或2;在其他实施方案中,向导可靶向基因的外显子3或4。组合物可包含均靶向相同外显子的多个向导rna,或在一些实施方案中,可包含靶向不同外显子的多个向导rna。可靶向基因的外显子和内含子。[0479]向导rna或向导多核苷酸可靶向(约)20个核苷酸的核酸序列。靶标核酸可以为少于(约)20个核苷酸。靶标核酸可以为至少(约)5、10、15、16、17、18、19、20、21、22、23、24、25、30或1-100个之间任何核苷酸的长度。靶标核酸可以为至多(约)5、10、15、16、17、18、19、20、21、22、23、24、25、30、40、50或1-100个之间任何核甘酸的长度。靶标核酸序列可以为紧邻pam的第一核苷酸的5'(约)20个碱基。向导rna可靶向核酸序列。靶标核酸可以为至少(约)1-10、1-20、1-30、1-40、1-50、1-60、1-70、1-80、1-90或1-100个核苷酸。[0480]向导多核苷酸例如向导rna,可指一种核酸,其可杂交至另一核酸,例如,细胞基因组中的靶标核酸或原间隔序列。向导多核苷酸可以为rna。向导多核苷酸可以为dna。向导多核苷酸可以为经编程或经设计为结合至核酸位点特异性的序列。向导多核苷酸可包含多核苷酸链且可称为单向导多核苷酸。向导多核苷酸可包含二个多核苷酸链且可称为双向导多核苷酸。向导rna作为rna分子被引入细胞或胚胎内。例如,rna分子可以在体外转录和/或可以为化学合成。rna可由合成dna分子例如基因片段转录。然后可以将向导rna作为rna分子引入细胞或胚胎内。向导rna也可以非rna核酸分子(例如dna分子)形式引入细胞或胚胎内。例如,编码向导rna的dna可以可操作地连接启动子调控序列,用以在感兴趣的细胞或胚胎内表达向导rna。rna编码序列可以可操作地连接被rna聚合酶iii(poliii)识别的启动子序列。可用于表达向导rna的质粒载体包括但不限于,px330载体和px333载体。在一些实施方案中,质粒载体(例如,px333载体)可包含至少两个编码向导rna的dna序列。[0481]用于选择、设计和验证向导多核苷酸(例如,向导rna和靶向序列)的方法在本文中描述并且为所属
技术领域
:普通技术人员所周知。例如,为了最小化核碱基编辑器系统中脱氨酶结构域(例如aid结构域)潜在的底物混杂的影响,可能非意图地被靶向以进行脱氨的残基数量(例如,可能潜在地驻留在靶标核酸基因座内的ssdna)可以被最小化。此外,软件工具可用于优化对应于靶标核酸序列的grna,例如,最小化整个基因组的总脱靶活性。例如,对于使用化脓性链球菌cas9的每个可能的靶向结构域选择,所有脱靶序列(在选定的pam之前,例如nag或ngg)都可以在整个基因组中被识别,这些序列包含多达特定数量(例如,1、2、3、4、5、6、7、8、9或10)个错配的碱基对。可鉴定与靶标位点互补的grna的第一区,且所有第一区(例如,crrna)可根据其预测的总脱靶分数进行排序;排名靠前的靶标结构域代表那些可能具有最大的上靶和最小的脱靶活性的结构域。可以使用所属
技术领域
:已知的和/或如本文所述的方法对候选靶向grna进行功能评估[0482]作为非限制实例,可以使用dna序列搜索算法鉴定与cas9一起使用的向导rna的crrna中的靶标dna杂交序列。grna设计可以使用基于公共工具cas-offinder的定制grna设计软件进行,记载如baes.,parkj.,&kimj.-s.cas-offinder:afastandversatilealgorithmthatsearchesforpotentialoff-targetsitesofcas9rna-guidedendonucleases.bioinformatics30,1473-1475(2014)。该软件在计算全基因组脱靶倾向后对向导进行评分。对于范围在长度从17到24不等的向导,通常考虑从完美匹配到7次不匹配的匹配。一旦通过计算确定脱靶位点,就为每个向导计算总分,并使用网络界面汇总在表格输出。除了识别与pam序列相邻的潜在靶位点外,该软件还识别与所选靶标位点相差1、2、3个或多于3个核苷酸的所有pam相邻序列。可以获得靶标核酸序列,例如,靶标基因的基因组dna序列,并且可以使用公开可用的工具例如repeatmasker程序筛选重复元件。repeatmasker在输入dna序列中搜索重复元件和低复杂性区域。输出是给定查询序列中存在的重复的详细注释。[0483]在鉴定之后,对于向导rna的第一区,例如crrna,可以根据它们与靶标位点的距离、它们的正交性和5'核苷酸的存在进行排序,以便与相关的pam序列(例如,5'g基于人类基因组中包含相关pam的紧密匹配的鉴定,例如,化脓性链球菌的nggpam、金黄色葡萄球菌的nngrrt或nngrrvpam)。如本文所用,正交性是指人类基因组中包含最少数量的与靶序列错配的序列的数量。例如,“高水平正交性”或“良好正交性”可以指在人类基因组中除了预期靶标之外没有相同序列的20-mer靶向结构域,也没有在靶标序列中包含一个或两个错配的任何序列。可以选择具有良好正交性的靶向结构域,以最大限度地减少脱靶dna裂解。[0484]在一些实施方案中,报告系统可用于检测碱基编辑活性并测试候选向导多核苷酸。在一些实施方案中,报告系统可以包括基于报告基因的测定,其中碱基编辑活性导致报告基因的表达。例如,报告系统可包括报告基因,该报告基因包含失活的起始密码子,例如模板链从3'-tac-5'到3'-cac-5'的突变。对靶标c成功进行脱氨作用后,对应的mrna将转录为5'-aug-3'而不是5'-gug-3',从而实现报告基因的翻译。合适的报告基因为所属
技术领域
:中普通技术人员明显可知。报告基因的非限制性实例包括编码绿色荧光蛋白(gfp)、红色荧光蛋白(rfp)、荧光素酶、分泌性碱性磷酸酶(seap)或其表达对所属
技术领域
:中普通技术人员而言是可检测的和明显可知的任何其他基因的基因。报告系统可用于测试许多不同的grna,例如,以确定对应脱氨酶将针对靶标dna序列的哪些残基。还可以测试靶向非模板链的sgrna,以评估特定碱基编辑蛋白质的脱靶效应,例如,cas9脱氨酶融合蛋白。在一些实施方案中,此类grna可以设计为使得突变的起始密码子不会与grna碱基配对。向导多核苷酸可包括标准核糖核苷酸、修饰的核糖核苷酸(例如假尿苷)、核糖核苷酸异构体和/或核糖核苷酸类似物。在一些实施方案中,向导多核苷酸可包含至少一种可检测标记。可检测标记可以是荧光团(例如,fam、tmr、cy3、cy5、德克萨斯红、俄勒冈绿、alexafluors、halo标签或合适的荧光染料)、检测标签(例如,生物素、地高辛等)、量子点或金颗粒。[0485]向导多核苷酸可以为化学合成、酶促合成或其组合。例如,可使用基于亚磷酰胺的标准固相合成方法合成向导rna。或者,可以通过将编码向导rna的dna与被噬菌体rna聚合酶识别的启动子调控序列可操作地连接来体外合成向导rna。合适的噬菌体启动子序列的实例包括t7、t3、sp6启动子序列或其变体。在向导rna包含两个单独的分子(例如,crrna和tracrrna)的实施方案中,crrna可以为化学合成并且tracrrna可以为酶促合成。[0486]在一些实施方案中,碱基编辑器系统可包含多个向导多核苷酸,例如,grna。例如,grna可靶向至碱基编辑器系统中包含的一个或多个靶标基因座(例如,至少1个grna、至少2个grna、至少5个grna、至少10个grna、至少20个grna、至少30个g个rna、至少50个grna)。多个grna序列可以为串联排列且优选为通过直接重复序列分开。[0487]编码向导rna或向导多核苷酸的dna序列可以为载体的一部分。再者,载体可包含额外的表达调控序列(例如,增强子序列、kozak序列、多腺苷序列、转录终止序列等)、可选择标记序列(例如,gfp或抗生素抗性基因如嘌呤霉素)、复制起点等。编码向导rna的dna分子也可以为直链状。编码向导rna或向导多核苷酸的dna分子也可以为环状。[0488]在一些实施方案中,碱基编辑器系统的一个或多个组分可由dna序列编码。此类dna序列可以一起或单独地引入表达系统(例如,细胞)内。例如,编码多核苷酸可编程核苷酸结合结构域和向导rna的dna序列可引入细胞内,各dna序列可以为分开的分子的一部分(例如,含有多核苷酸可编程核苷酸结合结构域编码序列的一个载体和含有向导rna编码序列的第二载体)或二者可以为相同分子的一部分(例如,含有编码(并调控)多核苷酸可编程核苷酸结合结构域和向导rna者的序列的一个载体)。[0489]向导多核苷酸可包含一个或多个修饰以提供具有新的或增强的特征的核酸。向导多核苷酸可包含核酸亲和性标签。向导多核苷酸可包含合成的核苷酸、合成的核苷酸类似物、核苷酸衍生物和/或已修饰的核苷酸。[0490]在一些实施方案中,grna或向导多核苷酸可包含修饰。修饰可在grna或向导多核苷酸的任何部位做出。可对单一grna或向导多核苷酸做出超过一个修饰。grna或向导多核苷酸可于修饰后进行质量控制。在一些实施方案中,质量控制可包括page、hplc、ms或其任何组合。[0491]grna或向导多核苷酸的修饰可以为取代、插入、缺失、化学修饰、物理修饰、稳定化、纯化或其任何组合。[0492]grna或向导多核苷酸也可以通过下列项修饰:5’腺苷酸、5’鸟苷-三磷酸酯封端、三磷酸酯封端、5’n7-甲基鸟苷-三磷酸酯封端、5’三磷酸酯封端、3’磷酸酯、3’硫代磷酸酯、5’磷酸酯、5’硫代磷酸酯、cis-syn胸苷二聚体、三聚体、c12间隔子、c3间隔子、c6间隔子、dspacer、pc间隔子、rspacer、spacer18、spacer9、3’‑3’修饰、5’‑5’修饰、无碱基、吖啶、偶氮苯、生物素、生物素bb、生物素teg、胆固醇基teg、脱硫生物素teg、dnpteg、dnp-x、dota、dt-生物素、双生物素、pc生物素、补骨脂素c2、补骨脂素c6、tina、3’dabcyl、黑洞淬灭剂1、黑洞淬灭剂2、dabcylse、dt-dabcyl、irdyeqc-1、qsy-21、qsy-35、qsy-7、qsy-9、羧基连接子、硫基连接子、2’‑脱氧核糖核苷类似物嘌呤、2’‑脱氧核糖核苷类似物嘧啶、核糖核苷类似物、2’‑o-甲基核糖核苷类似物、糖类修饰的类似物、摇摆(wobble)/通用碱基、荧光染剂标示、2’‑氟rna、2’‑o-甲基rna、甲基膦酸酯、磷酸二酯dna、磷酸二酯rna、硫代磷酸酯dna、硫代磷酸酯rna、una、假尿苷-5’‑三磷酸酯、、5’‑甲基胞苷-5’‑三磷酸酯、或其任何组合。[0493]在一些实施方案中,修饰为永久性的。在其他实施方案中,修饰为暂时性的。在一些实施方案中,对grna或向导多核苷酸做出多个修饰。grna或向导多核苷酸修饰可改变核苷酸的物理化学性质,如其构象、极性、疏水性、化学活性、碱基配对相互作用或其任何组合。[0494]pam序列可以为所属
技术领域
:周知的任何pam序列。合适的pam序列包括,但不限制于,ngg、nga、ngc、ngn、ngt、ngcg、ngag、ngan、ngng、ngcn、ngcg、ngtn、nngrrt、nnnrrt、nngrr(n)、tttv、tycv、tycv、tatv、nnnngatt、nnagaaw或naaaac。y为嘧啶;n为任何核苷酸碱基;w为a或t。[0495]修饰也可以为硫代磷酸酯取代。在一些实施方案中,天然的磷酸二酯键可倾向于通过细胞核酸酶快速的降解以及;使用硫代磷酸酯(ps)键取代的核苷酸内链结的修饰可以更稳定地朝向通过细胞核酸酶进行的水解。修饰可增加grna或向导多核苷酸的稳定性。修饰也可增强生物活性。在一些实施方案中,硫代磷酸酯增强的rnagrna可抑制rnasea、rnaset1、牛血清核酸酶或其任何组合。这些性质可允许ps-rnagrna用于在体内或体外暴露于核酸酶的可能性很高的应用中。例如,可以在grna的5'-或”‑末端的最后3-5个核苷酸之间引入硫代磷酸酯(ps)键,这可以抑制外切核酸酶降解。在一些实施方案中,硫代磷酸酯键可添加在整个grna内以减少内切核酸酶的攻击。[0496]原间隔序列相邻基序[0497]术语“原间隔序列相邻基序(pam)”或类-pam基序指紧接在crispr细菌适应性免疫系统中cas9核酸酶靶向的dna序列之后的2-6个碱基对的dna序列。在一些实施方案中,pam可以为5’pam(即,位于原间隔序列的5’末端的上游)。在其他实施方案中,pam可以为3’pam(即,位于原间隔子的5’末端的下游)。[0498]pam序列对于靶标结合是重要的,但确切序列取决于cas蛋白的类型。[0499]本文提供的碱基编辑器可包含crispr蛋白衍生的结构域,其能结合核苷酸序列,该核苷酸序列含有标准或非标准的原间隔序列相邻基序(pam)序列。pam位点是靠近靶标多核苷酸序列的核苷酸序列。本公开的一些方面提供包含具有不同pam特异性的crispr蛋白的全部或部分的碱基编辑器。例如,cas9蛋白,如来自化脓性链球菌的cas9(spcas9),典型地需要标准的nggpam序列以结合特定核酸区,其中“ngg”中的“n”为腺苷(a)、胸腺嘧啶(t)、鸟嘌呤(g)或胞嘧啶(c),并且g为鸟嘌呤。pam可以为crispr蛋白特异性的,且包含不同crispr蛋白衍生的结构域的不同碱基编辑器之间可能存在差异。pam可以为靶标序列的5'或3'。pam可位于靶标序列的上游或下游。pam可以为1、2、3、4、5、6、7、8、9、10个或更多个核苷酸的长度。通常,pam为2-6个核苷酸之间的长度。下表1中描述几种pam变体。[0500]表1.cas9蛋白和相应pam序列[0501][0502][0503]在一些实施方案中,pam为ngc。在一些实施方案中,ngcpam为cas9变体所识别。在一些实施方案中,ngcpam变体包括选自下述的一个或多个氨基酸取代:d1135m、s1136q、g1218k、e1219f、a1322r、d1332a、r1335e和t1337r(统称“mqkfraer”)[0504]在一些实施方案中,pam为ngt。在一些实施方案中,ngtpam为cas9变体所识别。子啊一些实施方案中,ngtpam变体经由在一个或多个残基1335、1337、1135、1136、1218和/或1219的靶向突变而产生。在一些实施方案中,ngtpam变体经由在一个或多个残基1219、1335、1337、1218的靶向突变而创造。在一些实施方案中,ngtpam变体经由在一个或多个残基1135、1136、1218、1219和1335的靶向突变而创造。在一些实施方案中,ngtpam变体选自下表2和表3所提供的靶向突变组。[0505]表2:在残基1219、1335、1337、1218处具有突变的ngtpam变体[0506][0507][0508]表3:在残基1135、1136、1218、1219和1335处具有突变的ngtpam变体[0509][0510][0511]在一些实施方案中,ngtpam变体选自表2和表3的变体5、7、28、31或36。在一些实施方案中,变体具有改善的ngtpam识别。[0512]在一些实施方案中,ngtpam变体具有残基1219、1335、1337和/或1218处的突变。在一些实施方案中,ngtpam变体选择为具有来自下表4所提供的变体的具有针对改善识别的突变。[0513]表4:在残基1219、1335、1337和1218处具有突变的ngtpam变体[0514]变体e1219vr1335qt1337g12181fvt2fvr3fvq4fvl5fvtr6fvrr7fvqr8fvlr[0515]在一些实施方案中,对于ngtpam具有特异性的碱基编辑器可如于下表5a所提供者产生。[0516]表5a.ngtpam变体[0517][0518][0519]在一些实施方案中,ngtn变体为变体1。在一些实施方案中,ngtn变体为变体2。在一些实施方案中,ngtn变体为变体3。在一些实施方案中,ngtn变体为变体4。在一些实施方案中,ngtn变体为变体5。在一些实施方案中,ngtn变体为变体6。[0520]在一些实施方案中,cas9结构域为来自化脓性链球菌(streptococcuspyogenes)的cas9结构域(spcas9)。在一些实施方案中,spcas9结构域为核酸酶活化的spcas9、核酸酶失活的spcas9(spcas9d)或spcas9切口酶(spcas9n)。在一些实施方案中,spcas9包含d10x突变或本文提供的任何氨基酸序列的对应突变,其中x为除了d之外的任何氨基酸。在一些实施方案中,spcas9包含d10a突变或本文提供的任何氨基酸序列的对应突变。在一些实施方案中,spcas9结构域、spcas9d结构域或spcas9n结构域可结合至具有非标准pam的核酸序列。在一些实施方案中,spcas9结构域、spcas9d结构域或spcas9n结构域可结合至具有ngg、nga或ngcgpam序列的核酸序列。在一些实施方案中,spcas9结构域包含一个或多个d1135x、r1335x和t1337x突变或本文提供的任何氨基酸序列的对应突变,其中x为任何氨基酸。在一些实施方案中,spcas9结构域包含一个或多个d1135e、r1335q和t1337r突变或本文提供的任何氨基酸序列的对应突变。在一些实施方案中,spcas9结构域包含d1135e、r1335q和t1337r突变或本文提供的任何氨基酸序列的对应突变。在一些实施方案中,spcas9结构域包含一个或多个d1135x、r1335x和t1337x突变或本文提供的任何氨基酸序列的对应突变,其中x为任何氨基酸。在一些实施方案中,spcas9结构域包含一个或多个d1135v、r1335q和t1337r突变或本文提供的任何氨基酸序列的对应突变。在一些实施方案中,spcas9结构域包含d1135v、r1335q和t1337r突变或本文提供的任何氨基酸序列的对应突变。在一些实施方案中,spcas9结构域包含一个或多个d1135x、g1218x、r1335x和t1337x突变或本文提供的任何氨基酸序列的对应突变,其中x为任何氨基酸。在一些实施方案中,spcas9结构域包含一个或多个d1135v、g1218r、r1335q和t1337r突变或本文提供的任何氨基酸序列的对应突变。在一些实施方案中,spcas9结构域包含d1135v、g1218r、r1335q和t1337r突变或本文提供的任何氨基酸序列的对应突变。[0521]在一些实施方案中,cas9为对于改变的pam序列具有特异性的cas9变体。在一些实施方案中,额外的cas9变体和pam序列记载于miller等人,continuousevolutionofspcas9variantscompatiblewithnon-gpams.natbiotechnol(2020).https://doi.org/10.1038/s41587-020-0412-8,其全文以引用方式并入本文。在一些实施方案中,cas9变体不具有特异的pam需求。在一些实施方案中,cas9变体,例如,spcas9变体对于nrnhpam具有特异性,其中r为a或g,并且h为a、c或t。在一些实施方案中,spcas9变体对于pam序列aaa、taa、caa、gaa、tat、gat或cac具有特异性。在一些实施方案中,spcas9变体包含位于如seqidno:1中编号的位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1218、1219、1221、1249、1256、1264、1290、1318、1317、1320、1321、1323、1332、1333、1335、1337或1339或其对应位置处的氨基酸取代。在一些实施方案中,spcas9变体包含位于如seqidno:1中编号的位置1114、1135、1218、1219、1221、1249、1320、1321、1323、1332、1333、1335或1337或其对应位置处的氨基酸取代。在一些实施方案中,spcas9变体包含位于如seqidno:1中编号的位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1219、1221、1256、1264、1290、1318、1317、1320、1323、1333或其对应位置处的氨基酸取代。在一些实施方案中,spcas9变体包含位于如seqidno:1中编号的位置1114、1131、1135、1150、1156、1180、1191、1218、1219、1221、1227、1249、1253、1286、1293、1320、1321、1332、1335、1339或其对应位置处的氨基酸取代。在一些实施方案中,spcas9变体包含位于如seqidno:1中编号的位置1114、1127、1135、1180、1207、1219、1234、1286、1301、1332、1335、1337、1338、1349或其对应位置处的氨基酸取代。spcas9变体的示例性氨基酸取代和pam特异性示于下表5b、5c、5d和5e中。[0522]表5b.[0523][0524][0525]表5c.[0526][0527]表5d.[0528][0529][0530]表5e.[0531][0532]在一些实施方案中,本文提供的任何融合蛋白的cas9结构域包含氨基酸序列,其与本文所描述的cas9多肽具有至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性。在一些实施方案中,本文提供的任何融合蛋白的cas9结构域包含本文所描述任何多肽的氨基酸序列。在一些实施方案中,本文提供的任何融合蛋白的cas9结构域由本文所述的任何cas9多肽的氨基酸序列组成。[0533]在一些实施例中,由本文公开的碱基编辑器的crispr蛋白衍生的结构域所识别的pam可在与编码该碱基编辑器的插入物(例如,aav插入物)分开的寡核苷酸上提供至细胞。在此类实施方案中,在分开的寡核苷酸上提供pam可允许靶标序列的裂解,否则其将因与靶标序列相同的多核苷酸上不存在相邻pam而不能裂解。[0534]在实施方案中,化脓性链球菌(s.pyogenes)cas9(spcas9)可作为crispr内切核酸酶用于基因组工程化。然而,可使用其他。在一些实施方案中,不同的内切核酸酶可用于靶向某些基因组靶标。在一些实施方案中,可使用具有非nggpam序列的合成spcas9衍生的变体。此外,已鉴定来自各种物种的其他cas9异种同源物,且这些“非spcas9s”可结合各种pam序列,也可使用于本公开。例如,相对较大尺寸的spcas9(大约4kb编码序列)可导致携带spcas9cdna的质粒无法在细胞中有效表达。相反地,金黄色葡萄球菌(staphylococcusaureus)cas9(sacas9)的编码序列比spcas9短大约1千碱基,可能允许其有效地在细胞内表达。类似于spcas9,sacas9内切核酸酶能在哺乳动物细胞活体外和小鼠活体内修饰靶标基因。在一些实施方案中,cas蛋白可靶向不同的pam序列。在一些实施方案中,靶标基因可与cas9pam(例如,5’‑ngg)相邻。在其他实施方案中,其他cas9异种同源物可具有不同的pam需求。例如,其他pam如嗜热链球菌(s.thermophilus)(对于crispr1,5’‑nnagaa;而对于crispr3,5’‑nggngfor)和脑膜炎奈瑟氏菌(neisseriameningiditis)(5’‑nnnngatt)的pam也可观察到与靶标基因相邻。[0535]在一些实施方案中,对化脓性链球菌(s.pyogenes)系统,靶标基因序列可在5’‑nggpam之前(即,位于5’),并且20-nt向导rna序列可与相反链碱基配对以介导与pam相邻的cas9裂解。在一些实施方案中,相邻切割可以为pam上游的(约)3个碱基对。在一些实施方案中,相邻切割可以为pam上游的(约)10个碱基对。在一些实施方案中,相邻切割可以为pam上游的(约)0-20个碱基对。例如,相邻切割可次于pam上游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个碱基对。相邻切割也可以为pam下游的1至30个碱基对。能结合pam的示例性spcas9蛋白的序列如下:[0536]示例性pam结合spcas9的氨基酸序列如下:[0537]mdkkysigldigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfdsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasagelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkrytstkevldatlihqsitglyetridlsqlggd[0538]示例性pam结合spcas9n的氨基酸序列如下:[0539]mdkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfdsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasagelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkrytstkevldatlihqsitglyetridlsqlggd[0540]示例性pam结合speqrcas9的氨基酸序列如下:[0541][0542][0543]上述序列中,残基e1134、q1334和r1336,其可以突变自d1134、r1335和t1336以产出speqrcas9,为下划线和粗体。[0544]示例性pam结合spvqrcas9的氨基酸序列如下:[0545][0546][0547]上述序列中,残基v1134、q1334和r1336,其可以突变自d1134、r1335和t1336以产出spvqrcas9,为下划线和粗体。[0548]示例性pam结合spvrercas9的氨基酸序列如下:[0549][0550]上述序列中,残基v1134、r1217、q1334和r1336,其可以突变自d1134、g1217、r1335和t1336以产出spvrercas9,为下划线和粗体。[0551]在一些实施方案中,工程化spcas9变体能识别原间隔序列相邻基序(pam)序列,该序列侧翼为3′h(非-gpam)(参见图8a-8e)。在一些实施方案中,spcas9变体识别nrnhpam(此处r为a或g,并且h为a、c或t)。在一些实施方案中,非-gpam为nrrh、nrth或nrch。这些变体经由噬菌体辅助的非连续进化(pance)而进化,例如,如记载于miller,s.m.,等人,continuousevolutionofspcas9variantscompatiblewithnon-gpams,nat.biotechnol.(2020),(//doi.org/10.1038/s41587-020-0412-8),其内容以引用方式整体并入本文。[0552]在一些实施方案中,cas9结构域为重组cas9结构域。在一些实施方案中,重组cas9结构域为spymaccas9结构域。在一些实施方案中,spymaccas9结构域为核酸酶活化的spymaccas9、核酸酶失活的spymaccas9(spymaccas9d)或spymaccas9切口酶(spymaccas9n)。在一些实施方案中,sacas9结构域、sacas9d结构域或sacas9n结构域可结合至具有非标准pam的核酸序列。在一些实施方案中,spymaccas9结构域、spcas9d结构域或spcas9n结构域可结合至具有naapam序列的核酸序列。[0553]猕猴链球菌(streptococcusmacacae)中具有天然5’‑naan-3’pam特异性的spycas9的例示性cas9a同源物的序列为所属
技术领域
:周知的,且记载于例如jakimo等人,(www.biorxiv.org/content/biorxiv/early/2018/09/27/429654.full.pdf),且提供于下。[0554]spymaccas9[0555]mdkkysigldigtnsvgwavitddykvpskkfkvlgntdrhsikknligallfgsgetae[0556]atrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifg[0557]nivdevayhekyptiyhlrkkladstdkadlrliylalahmikfrghfliegdlnpdnsd[0558]vdklfiqlvqiynqlfeenpinasrvdakailsarlsksrrlenliaqlpgekrnglfgn[0559]lialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdai[0560]llsdilrvnseitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngya[0561]gyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelh[0562]ailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfee[0563]vvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpafl[0564]sgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgayhdllki[0565]ikdkdfldneenediledivltltlfedrgmieerlktyahlfddkvmkqlkrrrytgwg[0566]rlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqghsl[0567]heqianlagspaikkgilqtvkivdelvkvmghkpeniviemarenqttqkgqknsrerm[0568]krieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhi[0569]vpqsfikddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnlt[0570]kaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksk[0571]lvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkm[0572]iakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfa[0573]tvrkvlsmpqvnivkkteiqtvgqngglfddnpksplevtpsklvplkkelnpkkyggyq[0574]kpttaypvllitdtkqlipisvmnkkqfeqnpvkflrdrgyqqvgkndfiklpkytlvdi[0575]gdgikrlwasskeihkgnqlvvskksqillyhahhldsdlsndylqnhnqqfdvlfneii[0576]sfskkcklgkehiqkienvysnkknsasieelaesfikllgftqlgatspfnflgvklnq[0577]kqykgkkdyilpctegtlirqsitglyetrvdlskiged。[0578]在一些实施方案中,变体cas9蛋白带有h840a、p475a、w476a、n477a、d1125a、w1126a和d1218a突变,使得多肽对于裂解靶标dna或rna具有降低的能力。该cas9蛋白对于裂解靶标dna(例如,单链靶标dna)具有降低的能力但保留结合靶标dna(例如,单链靶标dna)的能力。作为另一非限制实例,在一些实施方案中,变体cas9蛋白带有d10a、h840a、p475a、w476a、n477a、d1125a、w1126a和d1218a突变,使得多肽对于裂解靶标dna具有降低的能力。该cas9蛋白对于裂解靶标dna(例如,单链靶标dna)具有降低的能力但保留结合靶标dna(例如,单链靶标dna)的能力。在一些实施方案中,当变体cas9蛋白带有w476a和w1126a突变或当变体cas9蛋白带有p475a、w476a、n477a、d1125a、w1126a和d1218a突变时,变体cas9蛋白不有效地结合至pam序列。因此,在一些此类情况下,当该变体cas9蛋白用于结合方法中时,该方法不需要pam序列。换言之,在一些实施方案中,当该变体cas9蛋白用于结合方法中时,该方法可包括向导rna,但该方法可在pam序列不存在下进行(并且结合的特异性因而由向导rna的靶向链段提供)。可突变其他残基以达成上述功效(即,失活一个或其他核酸酶部分)。作为非限制实例,残基d10、g12、g17、e762、h840、n854、n863、h982、h983、a984、d986和/或a987可经改变(即,经取代)。此外,除丙氨酸取代以外的突变是合适的。[0579]在一些实施方案中,碱基编辑器的crispr蛋白衍生的结构域可包含所有或部分的具有标准pam序列(ngg)的cas9蛋白质。在其他实施方案中,碱基编辑器的cas9衍生的结构域可应用非标准pam序列。该序列已记载于周知技术且为所属
技术领域
:普通技术人员明显可知。例如,结合非标准pam序列的cas9结构域已记载于kleinstiver,b.p.,等人,“engineeredcrispr-cas9nucleaseswithalteredpamspecificities”nature523,481-485(2015)和kleinstiver,b.p.,等人,“broadeningthetargetingrangeofstaphylococcusaureuscrispr-cas9bymodifyingpamrecognition”naturebiotechnology33,1293-1298(2015);各自的全部内容以引用方式并入。[0580]具有降低的pam排他性的cas9结构域[0581]典型地,cas9蛋白,如来自化脓性链球菌(s.pyogenes)的cas9(spcas9),需要标准nggpam序列以结合至特定核酸区,其中“ngg”中的“n”为腺苷(a)、胸苷(t)或胞嘧啶(c),并且g鸟苷。这可能限制基因组内编辑所期望碱基的能力。在一些实施方案中,本文提供的碱基编辑融合蛋白可能需要在精确位置被置换,例如包含位于pam上游的靶标碱基的区。参见例如,komor,a.c.,等人,“programmableeditingofatargetbaseingenomicdnawithoutdouble-strandeddnacleavage”nature533,420-424(2016),其整体内容已引用方式并入本文。因此,在一些实施方案中,本文提供的任何融合蛋白可含有能结合核苷酸序列的cas9结构域,该核苷酸序列不含有标准(例如,ngg)pam序列。结合至非标准pam序列的cas9结构域已记载于已知技术且为所属
技术领域
:普通技术人员明显可知。例如,结合非标准pam序列的cas9结构域已记载于kleinstiver,b.p.,等人,“engineeredcrispr-cas9nucleaseswithalteredpamspecificities”nature523,481-485(2015)和kleinstiver,b.p.,等人,“broadeningthetargetingrangeofstaphylococcusaureuscrispr-cas9bymodifyingpamrecognition”naturebiotechnology33,1293-1298(2015);各自的全部内容以引用方式并入。[0582]高保真度cas9结构域[0583]本公开的某些方面提供高保真度cas9结构域。在一些实施方案中,高保真度cas9结构域为经工程化cas9的结构域,其包含与相应野生型cas9结构域相比降低cas9结构域和dna的糖-磷酸酯主链之间的静电相互作用的一个或多个突变。不希望为任何特定理论所限制,具有降低的cas9结构域和dna的糖-磷酸酯骨架之间的静电相互作用的高保真度结构域可具有较少的脱靶功效。在一些实施方案中,cas9结构域(例如,野生型cas9结构域)包含降低cas9结构域和dna的糖-磷酸酯主链之间的静电相互作用的一个或多个突变。在一些实施方案中,cas9结构域包含一个或多个突变,其将cas9结构域和dna的糖-磷酸酯主链之间的缔合降低至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%或至少70%。[0584]在一些实施方案中,本文提供的任何cas9融合蛋白包含n497x、ar661x、q695x和/或q926x突变中的一个或多个或本文提供的任何氨基酸序列的对应突变,其中x为任何氨基酸。在一些实施方案中,本文提供的任何cas9融合蛋白包含n497a、r661a、q695a和/或q926a突变中的一个或多个或本文提供的任何氨基酸序列的对应突变。在一些实施方案中,cas9结构域包含d10a突变或本文提供的任何氨基酸序列的对应突变。具高保真度的cas9结构域已记载于已知技术且为所属
技术领域
:普通技术人员明显可知。例如,具高保真度的cas9结构域已记载于kleinstiver,b.p.,等人“high-fidelitycrispr-cas9nucleaseswithnodetectablegenome-wideoff-targeteffects.”nature529,490-495(2016)和slaymaker,i.m.,等人“rationallyengineeredcas9nucleaseswithimprovedspecificity.”science351,84-88(2015);各自的全部内容以引用方式并入本文。[0585]在一些实施方案中,经修饰的cas9为高保真度cas9酶。在一些实施方案中,高保真度cas9酶为spcas9(k855a)、espcas9(1.1)、spcas9-hf1或超准确cas9变体(hypacas9)。经修饰的cas9espcas9(1.1)含有丙氨酸取代,该取代弱化hnh/ruvc沟与非靶标dna链之间的相互作用,预防链分离以及在靶标位点切割。类似地,spcas9-hf1经由丙氨酸取代降低脱靶编辑,该取代中断与dna磷酸酯主链的cas9相互作用。hypacas9含有位于rec3结构域中的突变(spcas9n692a/m694a/q695a/h698a),该突变增加cas9校对和靶标歧视。所有三种高保真度酶均产生较野生型cas9低的脱靶编辑。[0586]示例性高保真度cas9提供如下。[0587]相对于cas9的高保真度cas9结构域突变以粗体和下划线显示。[0588][0589][0590]包含核定位序列(nls)的融合蛋白[0591]在一些实施方案中,本文提供的融合蛋白进一步包含一个或多个(例如,2、3、4、5个)核靶向序列,例如核定位序列(nls)。在一种实施方案中,使用双分型nls。在一些实施方案中,nls包含有助于输入蛋白质至细胞核的氨基酸序列(例如,通过核运输),该蛋白质包含nls。在一些实施方案中,本文提供的任何融合蛋白进一步包含核定位序列(nls)。在一些实施方案中,nls融合至融合蛋白的n-端。在一些实施方案中,nls融合至融合蛋白的c-端。在一些实施方案中,nls融合至cas9结构域的n-端。在一些实施方案中,nls融合至ncas9结构域或dcas9结构域的n-端。在一些实施方案中,nls融合至脱氨酶的n-端。在一些实施方案中,nls融合至脱氨酶的c-端。在一些实施方案中,nls经一个或多个连接子融合至融合蛋白。在一些实施方案中,nls融合至融合蛋白而无连接子。在一些实施方案中,nls包含本文提供或参照的任一nls序列的氨基酸序列。额外的核定位序列已记载于已知技术且为所属
技术领域
:普通技术人员明显可知。例如,nls序列记载于plank等人,pct/ep2000/011690,其关于所公开的示例性核定位序列的内容以引用方式并入本文。在一些实施方案中,nls包含氨基酸序列pkkkrkvegadkrtadgsefespkkkrkv、krtadgsefespkkkrkv、krpaatkkagqakkkk、kktelqttnaenktkkl、krgindrnfwrgengrktr、rksgkiaaivvkrprkpkkkrkv或mdsllmnrrkflyqfknvrwakgrretylc。[0592]在一些实施方案中,nls存在于连接子中或nls侧翼为连接子,例如,本文所述的连接子。在一些实施方案中,n-端或c-端nls为双分型nls。双分型nls包含二个基本的氨基酸簇,其通过相对短的间隔序列分开(因此,双分型为2个部分,而单分型nls则不是)。核质蛋白的nls,kr[paatkkagqa]kkkk,为普遍存在的双分型信号的原型:二个基本氨基酸的簇,通过约10个氨基酸的间隔序列分开。示例性双分型nls的序列如下:[0593]pkkkrkvegadkrtadgsefespkkkrkv[0594]在一些实施方案中,本发明的融合蛋白不包含连接子序列。在一些实施方案中,一个或多个结构域或蛋白质之间存在连接子序列。[0595]应理解,本公开的融合蛋白可包含一个或多个额外的特征。例如,在一些实施方案中,融合蛋白可包含抑制剂、细胞质定位序列、输出序列如核输出序列,或其他定位序列,以及有用于溶解、纯化或检测融合蛋白的序列标签。本文提供的合适的蛋白质标签包括但不限于,生物素羧化酶载体蛋白(bccp)标签、myc标签、钙调蛋白标签、flag标签、血凝素(ha)标签、多组氨酸标签(也称为组氨酸标签或his标签)、麦芽糖结合蛋白质(mbp)标签、nus标签、谷胱甘肽-s-转移酶(gst)标签、绿色荧光蛋白(gfp)标签、硫基氧化还原蛋白标签、s标签、softag(例如,softag1、softag3)、链标签、生物素连接酶标签、flash标签、v5标签和sbp标签。其他合适的序列将为所属
技术领域
:普通技术人员明显可知。在一些实施方案中,融合蛋白包含一个或多个his标签[0596]可以使用编码包含一个或多个核定位序列(nls)的crispr酶的载体。例如,可以使用(约)1、2、3、4、5、6、7、8、9、10个nls。crispr酶可包含位于或靠近氨端的nls,约或多于约1、2、3、4、5、6、7、8、9、10个位于或靠近羧基端的nls,或这些的任何组合(例如,在氨基端的一个或多个nls和在羧基端的一个或多个nls)。当存在多个nls时,每个nls可以独立于其他nls进行选择,从而单个nls可以存在于一个以上的拷贝中和/或与一个或多个其他nls存在于一个或多个拷贝中。[0597]使用于本方法的crispr酶可包含约6个nls。当与nls最接近的氨基酸在距n-端或c-端的多肽链的约50个氨基酸内,例如在1、2、3、4、5、10、15、20、25、30、40或50个氨基酸内时,nls视为接近n-端或c-端。[0598]核碱基编辑结构域[0599]本文描述了包含融合蛋白的碱基编辑器,其包括多核苷酸可编程核苷酸结合结构域和核碱基编辑结构域(例如,脱氨酶结构域)。碱基编辑器可经编程以通过与能识别靶标序列的向导多核苷酸相互作用而编辑靶标多核苷酸中的一个或多个碱基。一旦靶标序列被识别,碱基编辑器锚定在要进行编辑的多核苷酸上,然后碱基编辑器的脱氨酶域组分就可以编辑靶标碱基多核苷酸。[0600]在一些实施方案中,核碱基编辑结构域包括脱氨酶结构域。如本文所特别描述,脱氨酶结构域包括腺苷脱氨酶。在一些实施方案中,术语“腺嘌呤脱氨酶”和“腺苷脱氨酶”可以交换地使用。核碱基编辑蛋白的细节记载于国际pct申请号pct/2017/045381(wo2018/027078)和pct/us2016/058344(wo2017/070632),其各自均以引用方式整体并入本文。也参见komor,a.c.,等人,“programmableeditingofatargetbaseingenomicdnawithoutdouble-strandeddnacleavage”nature533,420-424(2016);gaudelli,n.m.,等人,“programmablebaseeditingofa·ttog·cingenomicdnawithoutdnacleavage”nature551,464-471(2017);和komor,a.c.,等人,“improvedbaseexcisionrepairinhibitionandbacteriophagemugamproteinyieldsc:g-to-t:abaseeditorswithhigherefficiencyandproductpurity”scienceadvances3:eaao4774(2017),其整体内容以引用方式并入本文。[0601]a到g的编辑[0602]在一些实施方案中,本文所述的碱基编辑器可包含脱氨酶结构域,其包括腺苷脱氨酶。该碱基编辑器的腺苷脱氨酶结构域可有助于通过将a脱氨以形成肌苷(i)的腺嘌呤(a)核碱基到鸟嘌呤(g)核碱基的编辑,i展现g的碱基配对性质。腺苷氨酶能使脱氧核糖核酸(dna)中脱氧腺苷残基的腺嘌呤脱氨(即去除氨基团)。[0603]在一些实施方案中,本文提供的核碱基编辑器可以通过将一个或多个蛋白质结构域融合在一起而制备,借此产生融合蛋白。在某些实施方案中,本文提供的融合蛋白包含一个或多个特征,其改善融合蛋白的碱基编辑活性(例如,效率、选择性和特异性)。例如,本文提供的融合蛋白可包含cas9结构域,其具有降低的核酸酶活性。在一些实施方案中,本文提供的融合蛋白可具有不具有核酸酶活性(dcas9)的cas9结构域,或切割双链dna分子的一条链的cas9结构域,称为cas9切口酶(ncas9)。不希望为任何特定理论所限制,催化性残基(例如,h840)的存在维持cas9的活性以裂解含有与靶标a相反的t的非编辑(例如,非脱氨)链。cas9的催化性残基的突变(例如,d10到a10)预防包含靶标a残基的编辑链的裂解。该cas9变体能够基于grna定义的靶标序列在特定位置产生单链dna断裂(缺口),导致非编辑链的修复,最终导致非编辑链的t到c的变化。在一些实施方案中,a到g碱基编辑器进一步包含肌苷碱基切除修复抑制剂,例如尿嘧啶糖苷化酶抑制剂(ugi)结构域或催化性失活的肌苷特异性核酸酶。不希望受任何特定理论的束缚,ugi结构域或催化性失活的肌苷特异性核酸酶可抑制或预防经脱氨的腺苷残基(例如肌苷)的碱基切除修复,其可以改善碱基编辑器的活性或效率。[0604]包含腺苷脱氨酶的碱基编辑器可作用于任何多核苷酸,包括dna、rna和dna-rna杂交体。在某些实施方案中,包含腺苷脱氨酶的碱基编辑器可使包含rna的多核苷酸的靶标a脱氨。例如,碱基编辑器可包含能使rna多核苷酸和/或dna-rna杂合多核苷酸的靶标a脱氨的腺苷脱氨酶结构域。在实施方案中,并入碱基编辑器的腺苷脱氨酶包含作用于rna(adar,例如adar1或adar2)的全部或部分腺苷脱氨酶。在另一实施方案中,并入碱基编辑器的腺苷脱氨酶包含作用于trna(adat)的全部或部分的腺苷脱氨酶。包含腺苷脱氨酶结构域的碱基编辑器也能使dna多核苷酸的a核碱基脱氨。在实施方案中,碱基编辑器的腺苷脱氨酶结构域包含adat的全部或一部分,该adat包含一个或多个允许adat使dna的靶标a脱氨的突变。例如,碱基编辑器可以包含来自大肠杆菌(escherichiacoli)的adat(ectada)的全部或一部分,其包含下述突变中的一个或多个:d108n、a106v、d147y、e155v、l84f、h123y、i157f,或另一腺苷脱氨酶的相应突变。[0605]腺苷脱氨酶可以源自任何合适的有机体(例如,大肠杆菌)。在一些实施方案中,腺嘌呤脱氨酶为天然出现的腺苷脱氨酶,其包括对应于本文提供的任何突变的一个或多个突变(例如,ectada中的突变)。任何同源蛋白质中的相应残基可以通过例如序列比对和同源残基的测定来鉴定。可据此产生对应于本文所述任何突变(例如,在ectada中鉴定的任何突变)的任何天然出现的腺苷脱氨酶(例如,与ectada具有同源性)的突变。[0606]腺苷脱氨酶[0607]在一些实施方案中,本文所述的碱基编辑器可包含脱氨酶结构域,其包括腺苷脱氨酶。该碱基编辑器的腺苷脱氨酶结构域可通过将a脱氨以形成肌苷(i)而有助于将腺嘌呤(a)核碱基编辑为鸟嘌呤(g)核碱基,i展现g的碱基配对性质。腺苷脱氨酶能将脱氧核糖核酸(dna)中的脱氧腺苷残基的腺嘌呤脱氨(即,去除氨基团)。[0608]在一些实施方案中,本文提供的腺苷脱氨酶能将腺嘌呤脱氨。在一些实施方案中,本文提供的腺苷脱氨酶能将dna的脱氧腺苷残基中的腺嘌呤脱氨。在一些实施方案中,腺嘌呤脱氨酶为天然出现的腺苷脱氨酶,其包括对应于本文提供任何突变的一个或多个突变(例如,突变于ectada)。所属
技术领域
:普通技术人员将能鉴定任何同源蛋白质中的对应残基,例如,通过同源残基的序列对准和测定。因此,所属
技术领域
:普通技术人员将能产生在任何天然出现的腺苷脱氨酶(例如,具有与ectada的同源性)中产生突变,该突变对应于本文所述的任何突变,例如,在ectada中鉴定的任何突变。在一些实施方案中,腺苷脱氨酶来自原核生物。在一些实施方案中,腺苷脱氨酶来自细菌。在一些实施方案中,腺苷脱氨酶来自大肠杆菌(escherichiacoli)、金黄色葡萄球菌(staphylococcusaureus)、鼠伤寒沙门氏菌(salmonellatyphi)、腐败希瓦氏菌(shewanellaputrefaciens)、流感嗜血杆菌(haemophilusinfluenzae)、新月柄杆菌(caulobactercrescentus)或枯草杆菌(bacillussubtilis)。在一些实施方案中,腺苷脱氨酶来自大肠杆菌(e.coli)。[0609]本发明提供腺苷脱氨酶变体,其具有增强的效率(》50-60%)和特异性。特别地,本文所述的腺苷脱氨酶变体更有可能编辑多核苷酸内所期望的碱基,而不太可能编辑不意图改变的碱基(即,“旁观者”)。[0610]在特定实施方案中,tada为记载于pct/us2017/045381(wo2018/027078)的任一tada,其全部内容以引用方式并入本文。[0611]在一些实施方案中,本发明的核碱基编辑器为包含下述序列中的变化的腺苷脱氨酶变体:[0612]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcyffrmprqvfnaqkkaqsstd(也命名为tada*7.10)。[0613]在特定实施方案中,融合蛋白包含单一(例如,提供为单体)tada*8变体。在一些实施方案中,tada*8连接至cas9切口酶。在一些实施方案中,本发明的融合蛋白包含作为野生型tada(tada(wt))连接至tada*8变体的异源二聚体。在其他实施方案中,本发明的融合蛋白包含作为tada*7.10连接至tada*8变体的异源二聚体。在一些实施方案中,碱基编辑器为包含tada*8变体单体的abe8。在一些实施方案中,碱基编辑器为包含tada*8变体和tada(wt)的异源二聚体的abe8。在一些实施方案中,碱基编辑器为包含tada*8变体和tada*7.10的异源二聚体的abe8。在一些实施方案中,碱基编辑器为包含tada*8变体的异源二聚体的abe8。在一些实施方案中,tada*8变体选自表7。在一些实施方案中,abe8选自表7。相关序列如下:[0614]野生型tada(tada(wt))或“tada参照序列”[0615]msevefsheywmrhaltlakrawderevpvgavlvhnnrvigegwnrpigrhdptahaeimalrqgglvmqnyrlidatlyvtlepcvmcagamihsrigrvvfgardaktgaagslmdvlhhpgmnhrveitegiladecaallsdffrmrrqeikaqkkaqsstd(seqidno:2)[0616]tada*7.10:[0617]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcyffrmprqvfnaqkkaqsstd[0618]在一些实施方案中,腺苷脱氨酶包含氨基酸序列,其与本文提供的任何腺苷脱氨酶的任一氨基酸序列具有至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性。应理解,本文提供的腺苷脱氨酶可包括一个或多个突变(例如,本文提供的任何突变)。本公开提供具有一定百分比同一性的任何脱氨酶结构域加上本文所述的任何突变或其组合。在一些实施方案中,腺苷脱氨酶包含氨基酸序列,相较于参照序列或本文提供的任何腺苷脱氨酶,该氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多突变。在一些实施方案中,腺苷脱氨酶包含氨基酸序列,该氨基酸序列具有至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160或至少170个与所属
技术领域
:中已知的或本文所述任一氨基酸序列相同的连续氨基酸残基。[0619]在一些实施方案中,tada脱氨酶为全长大肠杆菌tada脱氨酶。例如,在某些实施方案中,腺苷脱氨酶包含氨基酸序列:[0620]mrrafitgvfflsevefsheywmrhaltlakrawderevpvgavlvhnnrvigegwnrpigrhdptahaeimalrqgglvmqnyrlidatlyvtlepcvmcagamihsrigrvvfgardaktgaagslmdvlhhpgmnhrveitegiladecaallsdffrmrrqeikaqkkaqsstd。[0621]然而,应当理解,使用于本技术的额外的腺苷脱氨酶对于所属领域技术人员为明显可知并且在本公开的范围内。例如,腺苷脱氨酶可以为作用于trna的腺苷脱氨酶(adat)的同源物。不受限制,示例性adat同源物的氨基酸序列包括下列:[0622]金黄色葡萄球菌(staphylococcusaureus)tada:[0623]mgshmtndiyfmtlaieeakkaaqlgevpigaiitkddeviarahnlretlqqptahaehiaieraakvlgswrlegctlyvtlepcvmcagtivmsriprvvygaddpkggcsgslmnllqqsnfnhraivdkgvlkeacstllttffknlrankkstn[0624]枯草芽孢杆菌(bacillussubtilis)tada:[0625]mtqdelymkeaikeakkaeekgevpigavlvingeiiarahnlreteqrsiahaemlvideackalgtwrlegatlyvtlepcpmcagavvlsrvekvvfgafdpkggcsgtlmnllqeerfnhqaevvsgvleeecggmlsaffrelrkkkkaarknlse[0626]鼠伤寒沙门氏杆菌(salmonellatyphimurium(s.typhimurium))tada:[0627]mppafitgvtslsdveldheywmrhaltlakrawderevpvgavlvhnhrvigegwnrpigrhdptahaeimalrqgglvlqnyrlldttlyvtlepcvmcagamvhsrigrvvfgardaktgaagslidvlhhpgmnhrveiiegvlrdecatllsdffrmrrqeikalkkadraegagpav[0628]腐败希瓦氏菌(shewanellaputrefaciens)(s.putrefaciens)tada:[0629]mdeywmqvamqmaekaeaagevpvgavlvkdgqqiatgynlsisqhdptahaeilclrsagkklenyrlldatlyitlepcamcagamvhsriarvvygardektgaagtvvnllqhpafnhqvevtsgvlaeacsaqlsrffkrrrdekkalklaqraqqgie[0630]流感嗜血杆菌((haemophilusinfluenzae)f3031(h.influenzae))tada:[0631]mdaakvrsefdekmmryaleladkaealgeipvgavlvddarniigegwnlsivqsdptαηaeiialrngakniqnyrllnstlyvtlepctmcagailhsrikrlvfgasdyktgaigsrfhffddykmnhtleitsgvlaeecsqklstffqkrreekkiekallkslsdk[0632]新月柄杆菌(caulobactercrescentus(c.crescentus))tada:[0633]mrtdesedqdhrmmrlaldaaraaaeagetpvgavildpstgeviatagngpiaahdptahaeiaamraaaaklgnyrltdltlvvtlepcamcagaisharigrvvfgaddpkggavvhgpkffaqptchwrpevtggvladesadllrgffrarrkaki[0634]硫还原地杆菌(geobactersulfurreducens(g.sulfurreducens))tada:[0635]msslkktpirddaywmgkaireaakaaardevpigavivrdgavigrghnlregsndpsahaemiairqaarrsanwrltgatlyvtlepclmcmgaiilarlervvfgcydpkggaagslydlsadprlnhqvrlspgvcqeecgtmlsdffrdlrrrkkakatpalfiderkvppep[0636]大肠杆菌(e.coli)tada(ectada)的实施方案包括下述:[0637]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcyffrmprqvfnaqkkaqsstd[0638]在一些实施方案中,腺苷脱氨酶来自原核生物。在一些实施方案中,腺苷脱氨酶来自细菌。在一些实施方案中,腺苷脱氨酶来自大肠杆菌(escherichiacoli)、金黄色葡萄球菌(staphylococcusaureus)、鼠伤寒沙门氏杆菌(salmonellatyphi)、腐败希瓦氏菌(shewanellaputrefaciens)、流感嗜血杆菌(haemophilusinfluenza)、新月柄杆菌(caulobactercrescentus)或枯草芽孢杆菌(bacillussubtilis)。在一些实施方案中,腺苷脱氨酶来自大肠杆菌(e.coli)。[0639]在一种实施方案中,本发明的融合蛋白包含野生型tada连接至tada7.10,其为连接至cas9切口酶。在特定实施方案中,融合蛋白包含单一tada7.10结构域(例如,作为单体提供)。在其他实施方案中,abe7.10编辑器包含tada7.10和tada(wt),其能形成异源二聚体。[0640]在一些实施方案中,腺苷脱氨酶包含氨基酸序列,其与本文提供的任何腺苷脱氨酶的任一氨酸序列具有至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性。应理解,本文提供的腺苷脱氨酶可包括一个或多个突变(例如,本文提供的任何突变)。本公开提供具有一定百分比同一性的任何脱氨酶结构域加上本文所描述的任何突变或其组合。在一些实施方案中,腺苷脱氨酶包含氨基酸序列,相较于参照序列或本文提供的任何腺苷脱氨酶,该氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变。在一些实施方案中,腺苷脱氨酶包含氨基酸序列,该氨基酸序列具有至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160或至少170个与所属
技术领域
:已知的或本文所述的任一氨基酸序列相同的连续氨基酸残基。[0641]应理解,本文提供的任何突变(例如,基于tada参照序列)可引入其他腺苷脱氨酶内,如大肠杆菌tada(ectada)、金黄色葡萄球菌tada(satada)或其他腺苷脱氨酶(例如,细菌腺苷脱氨酶)。对所属领域技术任意明显可知的是,可以类似地比对额外的脱氨酶以鉴定可以如本文提供的突变的同源氨基酸残基。因此,可以在具有同源氨基酸残基的其他腺苷脱氨酶(例如,ectada)中进行在tada参照序列中鉴定的任何突变。还应理解,本文提供的任何突变可以单独或以任何组合在tada参照序列或另一种腺苷脱氨酶中做成。[0642]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的d108x突变或另一腺苷脱氨酶(例如,ectada)的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含d108g、d108n、d108v、d108a或d108y突变或另一腺苷脱氨酶中的对应突变。[0643]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的a106x突变或另一腺苷脱氨酶(例如,ectada)的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的a106v突变或另一腺苷脱氨酶(例如,野生型tada或ectada)中的对应突变。[0644]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的e155x突变或另一腺苷脱氨酶(例如,ectada)的对应突变,其中x的存在指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的e155d、e155g或e155v突变或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0645]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的d147x突变或另一腺苷脱氨酶(例如,ectada)的对应突变,其中x的存在指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的d147y突变或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0646]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的a106x、e155x或d147x,突变或另一腺苷脱氨酶(例如,ectada)的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含e155d、e155g或e155v突变。在一些实施方案中,腺苷脱氨酶包含d147y。[0647]例如,腺苷脱氨酶可含有位于tada参照序列中的d108n、a106v、e155v和/或d147y突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的下述突变的组(突变的组通过“;”分开),或另一腺苷脱氨酶(例如,ectada)的对应突变:d108n和a106v;d108n和e155v;d108n和d147y;a106v和e155v;a106v和d147y;e155v和d147y;d108n、a106v和e155v;d108n、a106v和d147y;d108n、e155v和d147y;a106v、e155v和d147y;和d108n、a106v、e155v和d147y。然而,应理解,本文提供的对应突变的任何组合可在腺苷脱氨酶(例如,ectada)中做出。[0648]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的h8x、t17x、l18x、w23x、l34x、w45x、r51x、a56x、e59x、e85x、m94x、i95x、v102x、f104x、a106x、r107x、d108x、k110x、m118x、n127x、a138x、f149x、m151x、r153x、q154x、i156x和/或k157x突变中的一个或多个,或位于另一腺苷脱氨酶(例如,ectada)中的一个或多个突变,其中x的存在指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含为于tada参照序列中的h8y、t17s、l18e、w23l、l34s、w45l、r51h、a56e或56s、e59g、e85k或e85g、m94l、i95l、v102a、f104l、a106v、r107c或r107h或r107p、d108g或d108n或d108v或d108a或d108y、k110i、m118k、n127s、a138v、f149y、m151v、r153c、q154l、i156d和/或k157r突变中的一个或多个,或位于另一腺苷脱氨酶(例如,ectada)中的一个或多个突变。[0649]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的h8x、d108x和/或n127x突变中的一个或多个,或位于另一腺苷脱氨酶(例如,ectada)中的一个或多个突变,其中x指示任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的h8y、d108n和/或n127s突变中的一个或多个,或位于另一腺苷脱氨酶(例如,ectada)中的一个或多个突变。[0650]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的h8x、r26x、m61x、l68x、m70x、a106x、d108x、a109x、n127x、d147x、r152x、q154x、e155x、k161x、q163x和/或t166x突变中的一个或多个,或位于另一腺苷脱氨酶(例如,ectada)中的一个或多个突变,其中x指示于野生型腺苷脱氨酶中对应氨基酸以外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的h8y、r26w、m61i、l68q、m70v、a106t、d108n、a109t、n127s、d147y、r152c、q154h或q154r、e155g或e155v或e155d、k161q、q163h和/或t166p突变中的一个或多个,或未于另一腺苷脱氨酶(例如,ectada)中的一个或多个突变。[0651]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的选自由h8x、d108x、n127x、d147x、r152x和q154x所组成的组的一、二、三、四、五、或六个突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变或多个突变,其中x指示于野生型腺苷脱氨酶中对应氨基酸以外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的选自由h8x、m61x、m70x、d108x、n127x、q154x、e155x和q163x所组成的组的一、二、三、四、五、六、七或八个突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变或多个突变,其中x指示于野生型腺苷脱氨酶中对应氨基酸以外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含tada参照序列中所包含的选自由h8x、d108x、n127x、e155x和t166x所组成的组的一、二、三、四或五个突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变或多个突变,其中x指示于野生型腺苷脱氨酶中对应氨基酸以外的任何氨基酸的存在。[0652]在一些实施方案中,腺苷脱氨酶包含选自由h8x、a106x、d108x所组成的组的一、二、三、四、五或六个突变,另一腺苷脱氨酶中的突变或多个突变,其中x指示于野生型腺苷脱氨酶中对应氨基酸以外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含选自由h8x、r26x、l68x、d108x、n127x、d147x和e155x所组成的组的一、二、三、四、五、六、七或八个突变,或另一腺苷脱氨酶中的对应突变或多个突变,其中x指示于野生型腺苷脱氨酶中对应氨基酸以外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的选自由h8x、d108x、a109x、n127x和e155x所组成的组的一、二、三、四或五个突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变或多个突变,其中x指示于野生型腺苷脱氨酶中对应氨基酸以外的任何氨基酸的存在.[0653]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的选自由h8y、d108n、n127s、d147y、r152c和q154h所组成的组的一、二、三、四、五或六个突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变或多个突变。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的选自由h8y、m61i、m70v、d108n、n127s、q154r、e155g和q163h所组成的组的一、二、三、四、五、六、七或八个突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变或多个突变。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的选自由h8y、d108n、n127s、e155v和t166p所组成的组的一、二、三、四或五个突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变或多个突变。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中选自由h8y、a106t、d108n、n127s、e155d和k161q所组成的组的一、二、三、四、五或六个突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变或多个突变。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的选自由h8y、r26w、l68q、d108n、n127s、d147y和e155v所组成的组的一、二、三、四、五、六、七或八个突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变或多个突变。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的选自由h8y、d108n、a109t、n127s和e155g所组成的组的一、二、三、四或五个突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变或多个突变。[0654]本文提供的任何突变和任何额外的突变(例如,基于ectada氨基酸序列)可引入任何其他的腺苷脱氨酶内。本文提供的任何突变可以单独或以任何组合在tada参照序列或另一腺苷脱氨酶(例如,ectada)中做出。[0655]a至g核碱基编辑蛋白的细节记载于国际pct申请案号pct/2017/045381(wo2018/027078)和gaudelli,n.m.,等人,“programmablebaseeditingofa·ttog·cingenomicdnawithoutdnacleavage”nature,551,464-471(2017),其整体内容以引用方式并入本文。[0656]在一些实施方案中,腺苷脱氨酶包含另一腺苷脱氨酶(例如,ectada)中的一个或多个对应突变。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的d108n、d108g或d108v突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的a106v和d108n突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列的r107c和d108n突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的h8y、d108n、n127s、d147y和q154h突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的h8y、d108n、n127s、d147y和e155v突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的d108n、d147y和e155v突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的h8y、d108n和n127s突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的a106v、d108n、d147y和e155v突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0657]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的s2x、h8x、i49x、l84x、h123x、n127x、i156x和/或k160x突变中的一个或多个,或另一腺苷脱氨酶中的一个或多个对应突变,其中x的存在指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的s2a、h8y、i49f、l84f、h123y、n127s、i156f和/或k160s突变中的一个或多个,或另一腺苷脱氨酶(例如,ectada)中的一个或多个突变。[0658]在一些实施方案中,腺苷脱氨酶包含l84x突变腺苷脱氨酶,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含tada参照序列中的l84f突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0659]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的h123x突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的h123y突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0660]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的i156x突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的i156f突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0661]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的选自由l84x、a106x、d108x、h123x、d147x、e155x和i156x所组成的组的一、二、三、四、五、六、或七个突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变或多个突变,其中x指示于野生型腺苷脱氨酶中对应氨基酸以外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的选自由s2x、i49x、a106x、d108x、d147x和e155x所组成的组的一、二、三、四、五或六个突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变或多个突变,其中x指示于野生型腺苷脱氨酶中对应氨基酸以外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的选自由h8x、a106x、d108x、n127x和k160x所组成的组的一、二、三、四或五个突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变或多个突变,其中x指示于野生型腺苷脱氨酶中对应氨基酸以外的任何氨基酸的存在。[0662]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的选自由l84f、a106v、d108n、h123y、d147y、e155v和i156f所组成的组的一、二、三、四、五、六或七个突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变或多个突变。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的选自由s2a、i49f、a106v、d108n、d147y和e155v所组成的组的一、二、三、四、五或六个突变。[0663]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的选自由h8y、a106t、d108n、n127s和k160s所组成的组的一、二、三、四或五个突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变或多个突变。[0664]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的e25x、r26x、r107x、a142x和/或143x突变中的一个或多个,或另一腺苷脱氨酶(例如,ectada)中的一个或多个突变,其中x的存在指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的e25m、e25d、e25a、e25r、e25v、e25s、e25y、r26g、r26n、r26q、r26c、r26l、r26k、r107p、r107k、r107a、r107n、r107w、r107h、r107s、a142n、a142d、a142g、a143d、a143g、a143e、a143l、a143w、a143m、a143s、a143q和/或a143r突变中的一个或多个,或另一腺苷脱氨酶(例如,ectada)中的一个或多个突变。在一些实施方案中,腺苷脱氨酶包含本文所述的对应于tada参照序列的一个或多个突变,或另一腺苷脱氨酶(例如,ectada)中的一个或多个突变。[0665]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的e25x突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的e25m、e25d、e25a、e25r、e25v、e25s或e25y突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0666]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的r26x突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的r26g、r26n、r26q、r26c、r26l或r26k突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0667]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的r107x突变,或另一腺苷脱氨酶(例如,ectada)的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的r107p、r107k、r107a、r107n、r107w、r107h或r107s突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0668]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的a142x突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的a142n、a142d、a142g突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0669]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的a143x突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的a143d、a143g、a143e、a143l、a143w、a143m、a143s、a143q和/或a143r突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0670]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的h36x、n37x、p48x、i49x、r51x、m70x、n72x、d77x、e134x、s146x、q154x、k157x和/或k161x突变中的一个或多个,或另一腺苷脱氨酶(例如,ectada)中的一个或多个突变,其中x的存在指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的h36l、n37t、n37s、p48t、p48l、i49v、r51h、r51l、m70l、n72s、d77g、e134g、s146r、s146c、q154h、k157n和/或k161t突变中的一个或多个,或另一腺苷脱氨酶(例如,ectada)中的一个或多个突变。[0671]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的h36x突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的h36l突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0672]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的n37x突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列的n37t或n37s突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0673]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的p48x突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的p48t或p48l突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0674]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的r51x突变,或另一腺苷脱氨酶中的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的r51h或r51l突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0675]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的s146x突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列的s146r或s146c突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0676]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的k157x突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的k157n突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0677]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的p48x突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的p48s、p48t或p48a突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0678]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的a142x突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的a142n突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0679]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的w23x突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的w23r或w23l突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0680]在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的r152x突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变,其中x指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含位于tada参照序列中的r152p或r52h突变,或另一腺苷脱氨酶(例如,ectada)中的对应突变。[0681]在一种实施方案中,腺苷脱氨酶可包含突变h36l、r51l、l84f、a106v、d108n、h123y、s146c、d147y、e155v、i156f和k157n。在一些实施方案中,腺苷脱氨酶包含下述相对于tada参照序列的突变组合,其中各组合的突变通过“_”分开,并且各突变的组合在括号内:[0682](a106v_d108n),[0683](r107c_d108n),[0684](h8y_d108n_n127s_d147y_q154h),[0685](h8y_d108n_n127s_d147y_e155v),[0686](d108n_d147y_e155v),[0687](h8y_d108n_n127s),[0688](h8y_d108n_n127s_d147y_q154h),[0689](a106v_d108n_d147y_e155v),[0690](d108q_d147y_e155v),[0691](d108m_d147y_e155v),[0692](d108l_d147y_e155v),[0693](d108k_d147y_e155v),[0694](d108i_d147y_e155v),[0695](d108f_d147y_e155v),[0696](a106v_d108n_d147y),[0697](a106v_d108m_d147y_e155v),[0698](e59a_a106v_d108n_d147y_e155v),[0699](e59acatdead_a106v_d108n_d147y_e155v),[0700](l84f_a106v_d108n_h123y_d147y_e155v_i156y),[0701](l84f_a106v_d108n_h123y_d147y_e155v_i156f),[0702](r26g_l84f_a106v_r107h_d108n_h123y_a142n_a143d_d147y_e155v_i156f),[0703](e25g_r26g_l84f_a106v_r107h_d108n_h123y_a142n_a143d_d147y_e155v_i156f),[0704](e25d_r26g_l84f_a106v_r107k_d108n_h123y_a142n_a143g_d147y_e155v_i156f),[0705](r26q_l84f_a106v_d108n_h123y_a142n_d147y_e155v_i156f),(e25m_r26g_l84f_a106v_r107p_d108n_h123y_a142n_a143d_d147y_e155v_i156f),[0706](r26c_l84f_a106v_r107h_d108n_h123y_a142n_d147y_e155v_i156f),[0707](l84f_a106v_d108n_h123y_a142n_a143l_d147y_e155v_i156f),[0708](r26g_l84f_a106v_d108n_h123y_a142n_d147y_e155v_i156f),[0709](e25a_r26g_l84f_a106v_r107n_d108n_h123y_a142n_a143e_d147y_e155v_i156f),[0710](r26g_l84f_a106v_r107h_d108n_h123y_a142n_a143d_d147y_e155v_i156f),[0711](a106v_d108n_a142n_d147y_e155v),[0712](r26g_a106v_d108n_a142n_d147y_e155v),[0713](e25d_r26g_a106v_r107k_d108n_a142n_a143g_d147y_e155v),[0714](r26g_a106v_d108n_r107h_a142n_a143d_d147y_e155v),[0715](e25d_r26g_a106v_d108n_a142n_d147y_e155v),[0716](a106v_r107k_d108n_a142n_d147y_e155v),[0717](a106v_d108n_a142n_a143g_d147y_e155v),[0718](a106v_d108n_a142n_a143l_d147y_e155v),[0719](h36l_r51l_l84f_a106v_d108n_h123y_s146c_d147y_e155v_i156f_k157n),[0720](n37t_p48t_m70l_l84f_a106v_d108n_h123y_d147y_i49v_e155v_i156f),[0721](n37s_l84f_a106v_d108n_h123y_d147y_e155v_i156f_k161t),[0722](h36l_l84f_a106v_d108n_h123y_d147y_q154h_e155v_i156f),[0723](n72s_l84f_a106v_d108n_h123y_s146r_d147y_e155v_i156f),[0724](h36l_p48l_l84f_a106v_d108n_h123y_e134g_d147y_e155v_i156f),[0725](h36l_l84f_a106v_d108n_h123y_d147y_e155v_i156f_k157n),[0726](h36l_l84f_a106v_d108n_h123y_s146c_d147y_e155v_i156f),[0727](l84f_a106v_d108n_h123y_s146r_d147y_e155v_i156f_k161t),[0728](n37s_r51h_d77g_l84f_a106v_d108n_h123y_d147y_e155v_i156f),[0729](r51l_l84f_a106v_d108n_h123y_d147y_e155v_i156f_k157n),[0730](d24g_q71r_l84f_h96l_a106v_d108n_h123y_d147y_e155v_i156f_k160e),[0731](h36l_g67v_l84f_a106v_d108n_h123y_s146t_d147y_e155v_i156f),[0732](q71l_l84f_a106v_d108n_h123y_l137m_a143e_d147y_e155v_i156f),[0733](e25g_l84f_a106v_d108n_h123y_d147y_e155v_i156f_q159l),[0734](l84f_a91t_f104i_a106v_d108n_h123y_d147y_e155v_i156f),[0735](n72d_l84f_a106v_d108n_h123y_g125a_d147y_e155v_i156f),[0736](p48s_l84f_s97c_a106v_d108n_h123y_d147y_e155v_i156f),[0737](w23g_l84f_a106v_d108n_h123y_d147y_e155v_i156f),[0738](d24g_p48l_q71r_l84f_a106v_d108n_h123y_d147y_e155v_i156f_q159l),[0739](l84f_a106v_d108n_h123y_a142n_d147y_e155v_i156f),[0740](h36l_r51l_l84f_a106v_d108n_h123y_a142n_s146c_d147y_e155v_i156f_k157n),[0741](n37s_l84f_a106v_d108n_h123y_a142n_d147y_e155v_i156f_k161t),[0742](l84f_a106v_d108n_d147y_e155v_i156f),[0743](r51l_l84f_a106v_d108n_h123y_s146c_d147y_e155v_i156f_k157n_k161t),[0744](l84f_a106v_d108n_h123y_s146c_d147y_e155v_i156f_k161t),[0745](l84f_a106v_d108n_h123y_s146c_d147y_e155v_i156f_k157n_k160e_k161t),[0746](l84f_a106v_d108n_h123y_s146c_d147y_e155v_i156f_k157n_k160e),[0747](r74q_l84f_a106v_d108n_h123y_d147y_e155v_i156f),[0748](r74a_l84f_a106v_d108n_h123y_d147y_e155v_i156f),[0749](l84f_a106v_d108n_h123y_d147y_e155v_i156f),[0750](r74q_l84f_a106v_d108n_h123y_d147y_e155v_i156f),[0751](l84f_r98q_a106v_d108n_h123y_d147y_e155v_i156f),[0752](l84f_a106v_d108n_h123y_r129q_d147y_e155v_i156f),[0753](p48s_l84f_a106v_d108n_h123y_a142n_d147y_e155v_i156f),[0754](p48s_a142n),[0755](p48t_i49v_l84f_a106v_d108n_h123y_a142n_d147y_e155v_i156f_l157n),[0756](p48t_i49v_a142n),[0757](h36l_p48s_r51l_l84f_a106v_d108n_h123y_s146c_d147y_e155v_i156f_k157n),[0758](h36l_p48s_r51l_l84f_a106v_d108n_h123y_s146c_a142n_d147y_e155v_i156f(h36l_p48t_i49v_r51l_l84f_a106v_d108n_h123y_s146c_d147y_e155v_i156f_k157n),[0759](h36l_p48t_i49v_r51l_l84f_a106v_d108n_h123y_a142n_s146c_d147y_e155v_i156f_k157n),[0760](h36l_p48a_r51l_l84f_a106v_d108n_h123y_s146c_d147y_e155v_i156f_k157n),[0761](h36l_p48a_r51l_l84f_a106v_d108n_h123y_a142n_s146c_d147y_e155v_i156f_k157n),[0762](h36l_p48a_r51l_l84f_a106v_d108n_h123y_s146c_a142n_d147y_e155v_i156f_k157n),[0763](w23l_h36l_p48a_r51l_l84f_a106v_d108n_h123y_s146c_d147y_e155v_i156f_k157n),[0764](w23r_h36l_p48a_r51l_l84f_a106v_d108n_h123y_s146c_d147y_e155v_i156f_k157n),[0765](w23l_h36l_p48a_r51l_l84f_a106v_d108n_h123y_s146r_d147y_e155v_i156f_k161t),[0766](h36l_p48a_r51l_l84f_a106v_d108n_h123y_s146c_d147y_r152h_e155v_i156f_k157n),[0767](h36l_p48a_r51l_l84f_a106v_d108n_h123y_s146c_d147y_r152p_e155v_i156f_k157n),[0768](w23l_h36l_p48a_r51l_l84f_a106v_d108n_h123y_s146c_d147y_r152p_e155v_i156f_k157n),[0769](w23l_h36l_p48a_r51l_l84f_a106v_d108n_h123y_a142a_s146c_d147y_e155v_i156f_k157n),[0770](w23l_h36l_p48a_r51l_l84f_a106v_d108n_h123y_a142a_s146c_d147y_r152p_e155v_i156f_k157n),[0771](w23l_h36l_p48a_r51l_l84f_a106v_d108n_h123y_s146r_d147y_e155v_i156f_k161t),[0772](w23r_h36l_p48a_r51l_l84f_a106v_d108n_h123y_s146c_d147y_r152p_e155v_i156f_k157n),[0773](h36l_p48a_r51l_l84f_a106v_d108n_h123y_a142n_s146c_d147y_r152p_e155v_i156f_k157n)。[0774]在某些实施方案中,本文提供的融合蛋白包含改善融合蛋白的碱基编辑活性的一个或多个特征。例如,本文提供的任何融合蛋白可包含cas9结构域,其具有降低的核酸酶活性。在一些实施方案中,本文提供的任何融合蛋白可具有不具有核酸酶活性的cas9结构域(dcas9),或切割双链dna分子的一条链的cas9结构域,称为cas9切口酶(ncas9)。[0775]在一些实施方案中,腺苷脱氨酶为tada*7.10。在一些实施方案中,tada*7.10包含至少一个变化。在特定实施方案中,tada*7.10包含下述变化中的一个或多个或除了tada*7.10之外的的变化:y147t、y147r、q154s、y123h、v82s、t166r和q154r。本文中,变化y123h也称为h123h(tada*7.10中的变化h123y逆转为y123h(wt))。在其他实施方案中,tada*7.10包含选自由下列所组成的组的变化组合:y147t+q154r;y147t+q154s;y147r+q154s;v82s+q154s;v82s+y147r;v82s+q154r;v82s+y123h;i76y+v82s;v82s+y123h+y147t;v82s+y123h+y147r;v82s+y123h+q154r;y147r+q154r+y123h;y147r+q154r+i76y;y147r+q154r+t166r;y123h+y147r+q154r+i76y;v82s+y123h+y147r+q154r;和i76y+v82s+y123h+y147r+q154r。在特定实施方案中,腺苷脱氨酶变体包含起始于残基149、150、151、152、153、154、155、156和157的c端的缺失。[0776]在其他实施方案中,本发明的碱基编辑器为包含腺苷脱氨酶变体(例如,tada*8)的单体,该变体包含相对于tada7.10或tada参照序列的下述变化中的一个或多个:y147t、y147r、q154s、y123h、v82s、t166r和/或q154r。在其他实施方案中,腺苷脱氨酶变体(tada*8)为包含选自由下列所组成的组的变化组合的单体:y147t+q154r;y147t+q154s;y147r+q154s;v82s+q154s;v82s+y147r;v82s+q154r;v82s+y123h;i76y+v82s;v82s+y123h+y147t;v82s+y123h+y147r;v82s+y123h+q154r;y147r+q154r+y123h;y147r+q154r+i76y;y147r+q154r+t166r;y123h+y147r+q154r+i76y;v82s+y123h+y147r+q154r;和i76y+v82s+y123h+y147r+q154r。在其他实施方案中,碱基编辑器为包含野生型腺苷脱氨酶和腺苷脱氨酶变体(例如,tada*8)的异源二聚体,该变体包含下述变化中的一个或多个:y147t、y147r、q154s、y123h、v82s、t166r和/或q154r。在其他实施方案中,碱基编辑器为包含tada*7.10结构域和腺苷脱氨酶变体结构域(例如,tada*8)的异源二聚体,该变体包含选自由下列所组成的组的变化组合:y147t+q154r;y147t+q154s;y147r+q154s;v82s+q154s;v82s+y147r;v82s+q154r;v82s+y123h;i76y+v82s;v82s+y123h+y147t;v82s+y123h+y147r;v82s+y123h+q154r;y147r+q154r+y123h;y147r+q154r+i76y;y147r+q154r+t166r;y123h+y147r+q154r+i76y;v82s+y123h+y147r+q154r;和i76y+v82s+y123h+y147r+q154r。[0777]在一种实施方案中,腺苷脱氨酶为tada*8,其包含具有腺苷脱氨酶活性的下述序列或其片段或主要由其组成:[0778]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallctffrmprqvfnaqkkaqsstd[0779]在一些实施方案中,tada*8为截短的。在一些实施方案中,截短的tada*8相对于全长tada*8为缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个n-端氨基酸残基。在一些实施方案中,截短的tada*8相对于全长tada*8为缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个c-端氨基酸残基。在一些实施方案中,腺苷脱氨酶变体为全长tada*8。[0780]在一些实施方案中,tada*8为tada*8.1、tada*8.2、tada*8.3、tada*8.4、tada*8.5、tada*8.6、tada*8.7、tada*8.8、tada*8.9、tada*8.10、tada*8.11、tada*8.12、tada*8.13、tada*8.14、tada*8.15、tada*8.16、tada*8.17、tada*8.18、tada*8.19、tada*8.20、tada*8.21、tada*8.22、tada*8.23、tada*8.24。[0781]在一种实施方案中,本发明的融合蛋白包含野生型tada连接至本文所述的腺苷脱氨酶变体(例如,tada*8),该变体连接至cas9切口酶。在特定实施方案中,融合蛋白包含单一tada*8结构域(例如,作为单体提供)。在其他实施方案中,碱基编辑器包含tada*8和tada(wt),其能形成异源二聚体。示例性序列如下:[0782]tada(wt),“tada参照序列”:[0783]msevefsheywmrhaltlakrawderevpvgavlvhnnrvigegwnrpigrhdptahaeimalrqgglvmqnyrlidatlyvtlepcvmcagamihsrigrvvfgardaktgaagslmdvlhhpgmnhrveitegiladecaallsdffrmrrqeikaqkkaqsstd[0784]tada*7.10:[0785]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcyffrmprqvfnaqkkaqsstd[0786]tada*8:[0787]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallctffrmprqvfnaqkkaqsstd。[0788]在一些实施方案中,腺苷脱氨酶包含氨基酸序列,其与本文提供的任何腺苷脱氨酶中详述的任一氨基酸序列具有至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性。应理解,本文提供的腺苷脱氨酶可包括一个或多个突变(例如,本文提供的任何突变)。本公开提供具有一定百分比同一性的任何脱氨酶结构域加上本文所述的任何突变或其组合。在一些实施方案中,腺苷脱氨酶包含氨基酸序列,相较于参照序列或本文提供的任何腺苷脱氨酶,该氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变。在一些实施方案中,腺苷脱氨酶包含氨基酸序列,该氨基酸序列具有至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160或至少170个与所属
技术领域
:已知的或本文所述的任一氨基酸序列相同的连续氨基酸残基。[0789]在特定实施方案中,tada*8包含位于下述粗体显示的任何位置处的一个或多个突变。在其他实施方案中,tada*8包含位于以下划线显示的任何位置处的一个或多个突变:[0790][0791]例如,tada*8包含在氨基酸位置82和/或166处的变化(例如,v82s,t166r),该变化单独存在或与下述任何一个或多个组合:y147t、y147r、q154s、y123h和/或q154r。在特定实施方案中,变化的组合选自下列组:y147t+q154r;y147t+q154s;y147r+q154s;v82s+q154s;v82s+y147r;v82s+q154r;v82s+y123h;i76y+v82s;v82s+y123h+y147t;v82s+y123h+y147r;v82s+y123h+q154r;y147r+q154r+y123h;y147r+q154r+i76y;y147r+q154r+t166r;y123h+y147r+q154r+i76y;v82s+y123h+y147r+q154r;和i76y+v82s+y123h+y147r+q154r。[0792]在一些实施方案中,腺苷脱氨酶为tada*8,其包含具有腺苷脱氨酶活性的下述序列或其片段或主要由其组成:[0793]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrig[0794]rvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallctffr[0795]mprqvfnaqkkaqsstd[0796]在一些实施方案中,tada*8为截短的。在一些实施方案中,截短的tada*8相对于全长tada*8为缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个n-端氨基酸残基。在一些实施方案中,截短的tada*8相对于全长tada*8为缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个c-端氨基酸残基。在一些实施方案中,腺苷脱氨酶变体为全长tada*8。[0797]在一种实施方案中,本发明的融合蛋白包含野生型tada连接至本文所述的腺苷脱氨酶变体(例如,tada*8),该变体连接至cas9切口酶。在特定实施方案中,融合蛋白包含单一tada*8结构域(例如,作为单体提供)。在其他实施方案中,碱基编辑器包含tada*8和tada(wt),其能形成异源二聚体。[0798]额外的结构域[0799]本文所述的碱基编辑器可包括有助于多核苷酸的核碱基的核碱基编辑、修饰或改变的任何结构域。在一些实施方案中,碱基编辑器包含多核苷酸可编程核苷酸结合结构域(例如,cas9)、核碱基编辑结构域(例如,脱氨酶结构域)和一个或多个额外的结构域。在一些实施方案中,额外的结构域可有助于碱基编辑器的酶性或催化性功能、碱基编辑的结合功能或细胞机器(例如酶)的抑制剂,该细胞机器将干扰所期望的碱基编辑结果。在一些实施方案中,碱基编辑器可包含核酸酶、切口酶、重组酶、脱氨酶、甲基转移酶、甲基化酶、乙酰化酶、乙酰基转移酶、转录活化因子或转录抑制因子结构域。[0800]在一些实施方案中,碱基编辑器可包含尿嘧啶糖苷酶抑制剂(ugi)结构域。在一些实施方案中,响应u:g异源双链dna的存在的细胞的dna修复可能是细胞中的核碱基编辑降低的原因。在此类实施方案中,尿嘧啶dna糖苷酶(udg)可在细胞中催化u自dna移除,这可启动碱基切除修复(ber),多数造成u:g对至c:g对的逆转。在此类实施方案中,ber可在碱基编辑器中受到抑制,该碱基编辑器包含一个或多个结构域,该结构域结合至单链、阻断已编辑的碱基、抑制ugi、抑制ber、保护已编辑的碱基和/或促进非编辑链的修复。因此,本公开考虑包含ugi结构域的碱基编辑器融合蛋白。[0801]在一些实施方案中,碱基编辑器包含结构域全部或部分的双链断裂(dsb)结合蛋白。例如,dsb结合蛋白可包括噬菌体mu的gam蛋白,其可结合至dcb的末端且可保护它们免于降解。参见komor,a.c.,等人,“improvedbaseexcisionrepairinhibitionandbacteriophagemugamproteinyieldsc:g-to-t:abaseeditorswithhigherefficiencyandproductpurity”scienceadvances3:eaao4774(2017),其全部内容以引用方式借此并入。[0802]此外,在一些实施方案中,gam蛋白可融合至碱基编辑器的n端。在一些实施方案中,gam蛋白可融合至碱基编辑器的c-端。噬菌体mu的gam蛋白可结合至(dsb)的末端且保护它们免于降解。在一些实施方案中,使用gam结合dsb的游离末端可降低碱基编辑过程期间的插入或缺失的形成。在一些实施方案中,174-残基gam蛋白融合至碱基编辑器的n端。参见komor,a.c.,等人,“improvedbaseexcisionrepairinhibitionandbacteriophagemugamproteinyieldsc:g-to-t:abaseeditorswithhigherefficiencyandproductpurity”scienceadvances3:eaao4774(2017)。在一些实施方案中,突变或多个突变可改变相对于野生型结构域的碱基编辑器的长度。例如,至少一结构域的至少一个氨基酸的缺失可降低碱编辑器的长度。另一情况中,突变或多个突变相对于野生型结构域不改变结构域的长度。例如,任何结构域中的一个或多个取代不改变碱编辑器的长度。[0803]在一些实施方案中,碱基编辑器可包含核酸聚合酶(nap)的全部或部分作为结构域。例如,碱基编辑器可包含全部或部分的真核生物的nap。在一些实施方案中,并入碱基编辑器的nap或其部分为dna聚合酶。在一些实施方案中,并入碱基编辑器的nap或其部分具有跨损伤聚合酶活性。在一些实施方案中,并入碱基编辑器的nap或其部分为跨损伤dna聚合酶。在一些实施方案中,并入碱基编辑器的nap或其部分为rev7、rev1复合物、聚合酶ι、聚合酶κ或聚合酶η。在一些实施方案中,并入碱基编辑器的nap或其部分为真核生物的聚合酶α、β、γ、δ、ε、γ、η、ι、κ、λ、μ或ν成分。在一些实施方案中,并入碱基编辑器的nap或其部分包含氨基酸序列,其与核酸聚合酶(例如,跨损伤dna聚合酶)具有至少75%、80%、85%、90%、95%、96%、97%、98%、99%或99.5%同一性。[0804]碱基编辑器系统[0805]本文提供的碱基编辑器系统的使用包括以下步骤:(a)将受试者的多核苷酸的靶标核苷酸序列(例如,双链或单链dna或rna)与包含碱基编辑器的碱基编辑器系统(例如,腺苷碱基编辑器)和向导多核酸(例如,grna)接触,其中靶标核苷酸序列包含被靶向的核碱基对;(b)诱导靶标靶区的链分开;(c)将靶标区中的该靶标核碱基的第一核碱基转化为第二核碱基;以及(d)切割不超过该靶标区的一条链,其中与第一核碱基互补的第三核碱基被与第二核碱基互补的第四核碱基置换。应理解,在一些实施方案中,省略步骤(b)。在一些实施方案中,被靶向的核碱基对为一种或多种基因中的多个核碱基对。在一些实施方案中,本文提供的碱基编辑器系统能够多重编辑一个或多个基因中的多个核碱基对。在一些实施方案中,多个核碱基对位于同一基因中。在一些实施方案中,多个核碱基对位于一个或多个基因,其中至少一个基因位于不同基因座。[0806]在一些实施方案中,经切割的单链(切口链)与向导核酸杂交。在一些实施方案中,经切割的单链与包含第一核碱基的链相反。在一些实施方案中,碱基编辑器包含cas9结构域。在一些实施方案中,第一碱基为腺苷,并且第二碱基不为g、c、a或t。在一些实施方案中,第二碱基为肌苷。[0807]如本文提供的碱基编辑提供一种使用融合蛋白进行基因组编辑的新方案,该融合蛋白含有催化性缺陷的化脓性链球菌(streptococcuspyogenes)cas9、腺苷脱氨酶和碱基切除修复抑制剂以诱导dna中的可编程的单核苷酸(c→t或→g)变化而不产生双链dna断裂,不需要捐赠者dna模板且不诱发过度的随机插入和缺失。[0808]本文提供了使用碱基编辑器系统来编辑核碱基的系统、组合物和方法。在一些实施方案中,碱基编辑器系统包含(1)碱基编辑器(be),其包含用于编辑核碱基的多核苷酸可编程核苷酸结合结构域和核碱基编辑结构域(例如,脱氨酶结构域);和(2)与多核苷酸可编程核苷酸结合结构域接合的向导多核苷酸(例如,向导rna)。在一些实施方案中,碱基编辑器系统包含腺苷碱基编辑器(abe)。在一些实施方案中,多核苷酸可编程核苷酸结合结构域为多核苷酸可编程dna结合结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域为多核苷酸可编程rna结合结构域。在一些实施方案中,核碱基编辑结构域为脱氨酶结构域。在一些实施方案中,脱氨酶结构域可以为腺嘌呤脱氨酶或腺苷脱氨酶。在一些实施方案中,腺苷碱基编辑器可将dna中的腺嘌呤脱氨。在一些实施方案中,abe包含进化的tada变体。[0809]核碱基编辑蛋白质的细节记载于国际pct申请案号pct/2017/045381(wo2018/027078)和pct/us2016/058344(wo2017/070632),其各自均以引用方式整体并入本文。也参见komor,a.c.,等人,“programmableeditingofatargetbaseingenomicdnawithoutdouble-strandeddnacleavage”nature533,420-424(2016);gaudelli,n.m.,等人,“programmablebaseeditingofa·ttog·cingenomicdnawithoutdnacleavage”nature551,464-471(2017);和komor,a.c.,等人,“improvedbaseexcisionrepairinhibitionandbacteriophagemugamproteinyieldsc:g-to-t:abaseeditorswithhigherefficiencyandproductpurity”scienceadvances3:eaao4774(2017),其整体内容以引用方式并入本文。[0810]在一些实施方案中,单向导多核苷酸可用于将脱氨酶靶向靶标核酸序列。在一些实施方案中,一对向导多核苷酸可用于将不同的脱氨酶靶向靶标核酸序列。[0811]碱基编辑器系统的核碱基组分和多核苷酸可编程核苷酸结合组分可彼此以共价地或非共价地缔合。例如,在一些实施方案中,脱氨酶结构域可通过多核苷酸可编程核苷酸结合结构域被靶向靶标核苷酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可融合或连接至脱氨酶结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可通过与该脱氨酶结构域非共价地相互作用或缔合而将脱氨酶结构域靶向靶标核苷酸序列。例如,在一些实施方案中,核碱基编辑成分,例如,脱氨酶成分,可包含额外的异源部分或结构域,其能够与作为多核苷酸可编程核苷酸结合结构域一部分的额外异源部分或结构域相互作用、缔合或形成复合物。在一些实施方案中,额外的异源部分可与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,额外的异源部分可与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,额外的异源性部分能结合至向导多核苷酸。在一些实施方案中,额外的异源性部分能结合至多肽连接子。在一些实施方案中,额外的异源性部分能结合至多核苷酸连接子。额外的异源部分可以为蛋白质结构域。在一些实施方案中,额外的异源性部分可以为k同源(kh)结构域、ms2外壳蛋白结构域、pp7外壳蛋白结构域、sfmucom外壳蛋白结构域、无菌α基序、端粒酶ku结合基序和ku蛋白、端粒酶sm7结合基序和sm7蛋白或rna识别基序。[0812]碱基编辑器系统可进一步包含向导多核苷酸成分。应理解,碱基编辑器系统的成分可经由共价键、非共价相互作用或其缔合和相互作用的任何组合而彼此缔合。在一些实施方案中,脱氨酶结构域可通过向导多核苷酸被靶向靶标核苷酸序列。例如,在一些实施方案中,碱基编辑器系统的核碱基编辑成分,例如,脱氨酶成分,可包含额外的异源部分或结构域(例如,多核苷酸结合结构域如rna或dna结合蛋白),其能与向导多核苷酸的部分或链段(例如,多核苷酸基序)相互作用、缔合或形成复合物。在一些实施方案中,额外的异源部分或结构域(例如,多核苷酸结合结构域如rna或dna结合蛋白)可融合或连接至脱氨酶结构域。在一些实施方案中,额外的异源部分可与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,额外的异源部分可与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,额外的异源部分能结合至向导多核苷酸。在一些实施方案中,额外的异源部分能结合至多肽连接子。在一些实施方案中,额外的异源部分能结合至多核苷酸连接子。额外的异源部分可以为蛋白质结构域。在一些实施方案中,额外的异源部分可以为k同源(kh)结构域、ms2外壳蛋白结构域、pp7外壳蛋白结构域、sfmucom外壳蛋白结构域、无菌α基序、端粒酶ku结合基序和ku蛋白、端粒酶sm7结合基序和sm7蛋白或rna识别基序。[0813]在一些实施方案中,碱基编辑器系统可进一步包含碱基切除式修复的抑制剂(ber)成分。应理解,碱基编辑器系统的成分可经由共价键、非共价相互作用或其缔合和相互作用的任何组合而彼此缔合。ber成分的抑制剂可包含碱基切除修复抑制剂。在一些实施方案中,碱基切除修复抑制剂可以为尿嘧啶dna糖苷酶抑制剂(ugi)。在一些实施方案中,碱基切除修复抑制剂可以为肌苷碱基切除修复抑制剂。在一些实施方案中,碱基切除修复抑制剂可通过多核苷酸可编程核苷酸结合结构域被靶向靶标核苷酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可融合或连接至碱基切除修复抑制剂。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可融合或连接至a脱氨酶结构域和碱基切除修复抑制剂。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可通过与碱肌切除修复抑制剂非共价地相互作用或缔合而将碱基切除式修复的抑制剂靶向靶标核苷酸序列。例如,在一些实施方案中,碱基切除修复抑制剂成分可包含额外的异源部分或结构域,其能够与作为多核苷酸可编程核苷酸结合结构域一部分的额外异源部分或结构域相互作用、缔合或形成复合物。[0814]在一些实施方案中,碱基切除修复抑制剂可通过向导多核苷酸被靶向靶标核苷酸序列。例如,在一些实施方案中,碱基切除修复抑制剂可包含额外的异源部分或结构域(例如,多核苷酸结合结构域如rna或dna结合蛋白),其能与向导多核苷酸的部分或链段(例如,多核苷酸基序)相互作用、缔合或形成复合物。在一些实施方案中,向导多核苷酸的额外的异源部分或结构域(例如,多核苷酸结合结构域如rna或dna结合蛋白)可融合或连接至碱基切除修复抑制剂。在一些实施方案中,额外的异源部分可与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,额外的异源部分能结合至向导多核苷酸。在一些实施方案中,额外的异源部分能结合至多肽连接子。在一些实施方案中,额外的异源部分能结合至多核苷酸连接子。额外的异源部分可以为蛋白质结构域。在一些实施方案中,额外的异源部分可以为k同源(kh)结构域、ms2外壳蛋白结构域、pp7外壳蛋白结构域、sfmucom外壳蛋白结构域、无菌α基序、端粒酶ku结合基序和ku蛋白、端粒酶sm7结合基序和sm7蛋白或rna识别基序蛋白或rna识别基序。[0815]在一些实施方案中,碱基编辑器抑制编辑链的碱基切除修复(ber)。在一些实施方案中,碱基编辑器保护或结合非编辑链。在一些实施方案中,碱基编辑器包含ugi活性。在一些实施方案中,碱基编辑器包含催化性失活的肌苷特异性核酸酶。在一些实施方案中,碱基编辑器包含切口酶活性。在一些实施方案中,碱基对的预期链为pam位点的上游。在一些实施方案中,碱基对的预期链为pam位点的上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,碱基对的预期链为pam位点的下游。在一些实施方案中,碱基对的预期链为pam位点的下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。[0816]在一些实施方案中,方法不需要标准(例如,ngg)pam位点。在一些实施方案中,核碱基编辑器包含连接子或间隔子。在一些实施方案中,连接子或间隔子为1-25个氨基酸的长度。在一些实施方案中,连接子或间隔子为5-20个氨基酸的长度。在一些实施方案中,连接子或间隔子为10、11、12、13、14、15、16、17、18、19或20个氨基酸的长度。[0817]在一些实施方案中,碱基编辑本文提供的融合蛋白需要位于精确的位置处,例如,其中靶标碱基置于定义区内(例如,“脱氨窗”)。在一些实施方案中,靶标可以在4碱基区内。在一些实施方案中,该定义的靶标区可以为大约pam上游15碱基。参见komor,a.c.,等人,“programmableeditingofatargetbaseingenomicdnawithoutdouble-strandeddnacleavage”nature533,420-424(2016);gaudelli,n.m.,等人,“programmablebaseeditingofa·ttog·cingenomicdnawithoutdnacleavage”nature551,464-471(2017);和komor,a.c.,等人,“improvedbaseexcisionrepairinhibitionandbacteriophagemugamproteinyieldsc:g-to-t:abaseeditorswithhigherefficiencyandproductpurity”scienceadvances3:eaao4774(2017),其整体内容以引用方式并入本文。[0818]在一些实施方案中,靶标区包含靶标窗,其中靶标窗包含靶标核碱基对。在一些实施方案中,靶标窗包含1-10个核苷酸。在一些实施方案中,靶标窗为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸的长度。在一些实施方案中,碱基对的预期链在靶标窗内。在一些实施方案中,靶标窗包含碱基对的预期链。在一些实施方案中,方法为使用本文提供的任何碱基编辑进行。在一些实施方案中,靶标窗为脱氨窗。脱氨窗可以为定义区,在该区内碱基编辑器发挥作用并且将靶标核苷酸脱氨。在一些实施方案中,脱氨窗在2,3、4、5、6、7、8、9或10个碱基区内。在一些实施方案中,脱氨窗为pam上游5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个碱基。[0819]本公开的碱基编辑器可包含有助于靶标多核苷酸序列的编辑的任何结构域、特征或氨基酸序列。例如,在一些实施方案中,碱基编辑器包含核定位序列(nls)。在一些实施方案中,碱基编辑器的nls定位在脱氨酶结构域与多核苷酸可编程核苷酸结合结构域之间。在一些实施方案中,碱基编辑器的nls定位在多核苷酸可编程核苷酸结合结构域c-端。[0820]可存在于本文公开的碱基编辑器的其他示例性特征为定位序列,例如细胞质定位序列,输出序列(例如核输出序列或其他定位序列),以及可用于融和蛋白质的增溶、纯化或检测的序列标签。本文提供的合适的蛋白质标签包括但不限于,生物素羧化酶载体蛋白(bccp)标签、myc标签、钙调蛋白标签、flag标签、血凝素(ha)标签、多组氨酸标签(也称为组氨酸标签或his标签)、麦芽糖结合蛋白(mbp)标签、nus标签、谷胱甘肽-s-转移酶(gst)标签、绿色荧光蛋白(gfp)标签、硫氧还蛋白标签、s标签、softag(例如,softag1、softag3)、链标签、生物素连接酶标签、flash标签、v5标签和sbp标签。额外的合适序列将为所属
技术领域
:普通技术人员明显可知。在一些实施方案中,融合蛋白包含一个或多个his标签。[0821]可包括于融合蛋白蛋白质结构域的非限制实例包括脱氨酶结构域(例如,腺苷脱氨酶)、尿嘧啶糖苷酶抑制剂(ugi)结构域、表位标签和报告基因序列。[0822]表位标签的非限制实例包括组氨酸(his)标签、v5标签、flag标签、流感血凝素(ha)标签、myc标签、vsv-g标签和硫氧还原蛋白(trx)标签。报告基因的实例包括但不限制于,谷胱甘肽-5-转移酶(gst)、辣根过氧化酶(hrp)、氯霉素乙酰基转移酶(cat)β-半乳糖苷酶、β-葡萄糖醛酸苷酶、荧光素酶、绿色荧光蛋白(gfp)、hcred、dsred、青色荧光蛋白(cfp)、黄色荧光蛋白(yfp)和包括蓝色荧光蛋白(bfp)的自发荧光蛋白质。额外的蛋白质序列可包括结合dna分子或结合其他细胞的分子的氨基酸序列,包括但不限于,麦芽糖结合蛋白(mbp)、s-标签、lexadna结合结构域(dbd)融合物、gal4dna结合结构域融合物和单纯疱疹病毒(hsv)bp16蛋白融合物。[0823]在一些实施方案中,腺苷碱基编辑器(abe)可将dna的腺嘌呤脱氨。在一些实施方案中,abe通过以天然或工程化的大肠杆菌(e.coli)tada、人类adar2、小鼠ada或人类adat2置换be3的apobec1成分而产生。在一些实施方案中,abe包含进化的tada变体。在一些实施方案中,abe为abe1.2(tada*-xten-ncas9-nls)。在一些实施方案中,tada*包含106v和d108n突变。[0824]在一些实施方案中,abe为第二代abe。演进一些实施方案中,abe为abe2.1,其包含tada*中的额外突变d147y和e155v(tada*2.1)。在一些实施方案中,abe为abe2.2,abe2.1融合至人类烷基腺嘌呤dna糖苷酶的催化失活版本(aag具有e125q突变)。在一些实施方案中,abe为abe2.3,abe2.1融合至大肠杆菌endov的催化失活版本(以d35a突变失活)。在一些实施方案中,abe为abe2.6,其具有长度为abe2.1中的连接子二倍的连接子(32个氨基酸,(sggs)2-xten-(sggs)2)。在一些实施方案中,abe为abe2.7,其为abe2.1与额外的野生型tada单体系接。在一些实施方案中,abe为abe2.8,其为abe2.1与额外的tada*2.1单体系接。在一些实施方案中,abe为abe2.9,其为直接将进化的tada(tada*2.1)融合至abe2.1的n-端。在一些实施方案中,abe为abe2.10,其为直接将野生型tada融合至abe2.1的n-端。在一些实施方案中,abe为abe2.11,其为在tada*单体的n-端具有失活e59a突变的abe2.9。在一些实施方案中,abe为abe2.12,其为在内部tada*单体具有失活e59a突变的abe2.9。[0825]在一些实施方案中,abe为第三代abe。在一些实施方案中,abe为abe3.1,其为具有三个额外的tada突变(l84f、h123y和i157f)的abe2.3。[0826]在一些实施方案中,abe为第四代abe。在一些实施方案中,abe为abe4.3,其为具有额外的tada突变a142n(tada*4.3)的abe3.1。[0827]在一些实施方案中,abe为第五代abe。在一些实施方案中,abe为abe5.1,其通过将来自存活克隆体的共有突变组(h36l,r51l、s146c和k157n)输入abe3.1中而产生。在一些实施方案中,abe为abe5.3,其具有异源二聚体构造体,该构造体含有野生型大肠杆菌tada融合至进化的内部tada*。在一些实施方案中,abe为abe5.2、abe5.4、abe5.5、abe5.6、abe5.7、abe5.8、abe5.9、abe5.10、abe5.11、abe5.12、abe5.13或abe5.14,如下表6所示。在一些实施方案中,abe为第六代abe。在一些实施方案中,abe为abe6.1、abe6.2、abe6.3、abe6.4、abe6.5或abe6.6,如下表6所示。在一些实施方案中,abe为第七代abe。在一些实施方案中,abe为abe7.1、abe7.2、abe7.3、abe7.4、abe7.5、abe7.6、abe7.7、abe7.8、abe7.9或abe7.10,如下表6所示。[0828]表6.abe的基因型[0829][0830][0831][0832]在一些实施方案中,碱基编辑器为第八代abe(abe8)。在一些实施方案中,abe8含有tada*8变体。在一些实施方案中,abe8具有单体性构造体,其含有tada*8变体(“abe8.x-m”)。在一些实施方案中,abe8为abe8.1-m,其具有单体性构造体,该构造体含有具y147t突变的tada*7.10(tada*8.1)。在一些实施方案中,abe8为abe8.2-m,其具有单体性构造体,该构造体含有具y147r突变的tada*7.10(tada*8.2)。在一些实施方案中,abe8为abe8.3-m,其具有单体性构造体,该构造体含有具q154s突变的tada*7.10(tada*8.3)。在一些实施方案中,abe8为abe8.4-m,其具有单体性构造体,该构造体含有具y123h突变的tada*7.10(tada*8.4)。在一些实施方案中,abe8为abe8.5-m,其具有单体性构造体,该构造体含有具v82s突变的tada*7.10(tada*8.5)。在一些实施方案中,abe8为abe8.6-m,其具有单体性构造体,该构造体含有具t166r突变的tada*7.10(tada*8.6)。在一些实施方案中,abe8为abe8.7-m,其具有单体性构造体,该构造体含有具q154r突变的tada*7.10(tada*8.7)。在一些实施方案中,abe8为abe8.8-m,其具有单体性构造体,该构造体含有具y147r、q154r和y123h突变的tada*7.10(tada*8.8)。在一些实施方案中,abe8为abe8.9-m,其具有单体性构造体,该构造体含有具y147r、q154r和i76y突变的tada*7.10(tada*8.9)。在一些实施方案中,abe8为abe8.10-m,其具有单体性构造体,该构造体含有具y147r、q154r和t166r突变的tada*7.10(tada*8.10)。在一些实施方案中,abe8为abe8.11-m,其具有单体性构造体,该构造体含有具y147t和q154r突变的tada*7.10(tada*8.11)。在一些实施方案中,abe8为abe8.12-m,其具有单体性构造体,该构造体含有具y147t和q154s突变的tada*7.10(tada*8.12)。在一些实施方案中,abe8为abe8.13-m,其具有单体性构造体,该构造体含有具y123h(y123h逆转自h123y)、y147r、q154r和i76y突变的tada*7.10(tada*8.13)。在一些实施方案中,abe8为abe8.14-m,其具有单体性构造体,该构造体含有具i76y和v82s突变的tada*7.10(tada*8.14)。在一些实施方案中,abe8为abe8.15-m,其具有单体性构造体,该构造体含有具v82s和y147r突变的tada*7.10(tada*8.15)。在一些实施方案中,abe8为abe8.16-m,其具有单体性构造体,该构造体含有具v82s、y123h(y123h逆转自h123y)和y147r突变的tada*7.10(tada*8.16)。在一些实施方案中,abe8为abe8.17-m,其具有单体性构造体,该构造体含有具v82s和q154r突变的tada*7.10(tada*8.17)。在一些实施方案中,abe8为abe8.18-m,其具有单体性构造体,该构造体含有具v82s、y123h(y123h逆转自h123y)和q154r突变的tada*7.10(tada*8.18)。在一些实施方案中,abe8为abe8.19-m,其具有单体性构造体,该构造体含有具v82s、y123h(y123h逆转自h123y)、y147r和q154r突变的tada*7.10(tada*8.19)。在一些实施方案中,abe8为abe8.20-m,其具有单体性构造体,该构造体含有具i76y、v82s、y123h(y123h逆转自h123y)、y147r和q154r突变的tada*7.10(tada*8.20)。一些实施方案中,abe8为abe8.21-m,其具有单体性构造体,该构造体含有具y147r和q154s突变的tada*7.10(tada*8.21)。在一些实施方案中,abe8为abe8.22-m,其具有单体性构造体,该构造体含有具v82s和q154s突变的tada*7.10(tada*8.22)。在一些实施方案中,abe8为abe8.23-m,其具有单体性构造体,该构造体含有具v82s和y123h(y123h逆转自h123y)突变的tada*7.10(tada*8.23)。在一些实施方案中,abe8为abe8.24-m,其具有单体性构造体,该构造体含有具v82s、y123h(y123h逆转自h123y)和y147t突变的tada*7.10(tada*8.24)[0833]在一些实施方案中,abe8(“abe8.x-d”)具有异源二聚体性构造体,该构造体含有融合至tada*8变体的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.1-d,其具有异源二聚体性构造体,该构造体含有融合至具y147t突变的tada*7.10(tada*8.1)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.2-d,其具有异源二聚体性构造体,该构造体含有融合至具y147r突变的tada*7.10(tada*8.2)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.3-d,其具有异源二聚体性构造体,该构造体含有融合至具q154s突变的tada*7.10(tada*8.3)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.4-d,其具有异源二聚体性构造体,该构造体含有融合至具y123h突变的tada*7.10(tada*8.4)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.5-d,其具有异源二聚体性构造体,该构造体含有融合至具v82s突变的tada*7.10(tada*8.5)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.6-d,其具有异源二聚体性构造体,该构造体含有融合至具t166r突变的tada*7.10(tada*8.6)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.7-d,其具有异源二聚体性构造体,该构造体含有融合至具q154r突变的tada*7.10(tada*8.7)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.8-d,其具有异源二聚体性构造体,该构造体含有融合至具y147r、q154r和y123h突变的tada*7.10(tada*8.8)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.9-d,其具有异源二聚体性构造体,该构造体含有融合至具y147r、q154r和i76y突变的tada*7.10(tada*8.9)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.10-d,其具有异源二聚体性构造体,该构造体含有融合至具y147r,q154r和t166r突变的tada*7.10(tada*8.10)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.11-d,其具有异源二聚体性构造体,该构造体含有融合至具y147t和q154r突变的tada*7.10(tada*8.11)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.12-d,其具有异源二聚体性构造体,该构造体含有融合至具y147t和q154s突变的tada*7.10(tada*8.12)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.13-d,其具有异源二聚体性构造体,该构造体含有融合至具y123h(y123h逆转自h123y)、y147r、q154r和i76y突变的tada*7.10(tada*8.13)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.14-d,其具有异源二聚体性构造体,该构造体含有融合至具i76y和v82s突变的tada*7.10(tada*8.14)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.15-d,其具有异源二聚体性构造体,该构造体含有融合至具v82s和y147r突变的tada*7.10(tada*8.15)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.16-d,其具有异源二聚体性构造体,该构造体含有融合至具v82s、y123h(y123h逆转自h123y)和y147r突变的tada*7.10(tada*8.16)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.17-d,其具有异源二聚体性构造体,该构造体含有融合至具v82s和q154r突变的tada*7.10(tada*8.17)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.18-d,其具有异源二聚体性构造体,该构造体含有融合至具v82s、y123h(y123h逆转自h123y)和q154r突变的tada*7.10(tada*8.18)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.19-d,其具有异源二聚体性构造体,该构造体含有融合至具v82s、y123h(y123h逆转自h123y)、y147r和q154r突变的tada*7.10(tada*8.19)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.20-d,其具有异源二聚体性构造体,该构造体含有融合至具i76y、v82s、y123h(y123h逆转自h123y)、y147r和q154r突变的tada*7.10(tada*8.20)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.21-d,其具有异源二聚体性构造体,该构造体含有融合至具y147r和q154s突变的tada*7.10(tada*8.21)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.22-d,其具有异源二聚体性构造体,该构造体含有融合至具v82s和q154s突变的tada*7.10(tada*8.22)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.23-d,其具有异源二聚体性构造体,该构造体含有融合至具v82s和y123h(y123h逆转自h123y)突变的tada*7.10(tada*8.23)的野生型大肠杆菌tada。在一些实施方案中,abe8为abe8.24-d,其具有异源二聚体性构造体,该构造体含有融合至具v82s、y123h(y123h逆转自h123y)和y147t突变的tada*7.10(tada*8.24)的野生型大肠杆菌tada。[0834]在一些实施方案中,abe8(“abe8.x-7”)具有异源二聚体性构造体,该构造体含有融合至tada*8变体的tada*7.10。在一些实施方案中,abe8为abe8.1-7,其具有异源二聚体性构造体,该构造体含有融合至具y147t突变的tada*7.10(tada*8.1)的tada*7.10。在一些实施方案中,abe8为abe8.2-7,其具有异源二聚体性构造体,该构造体含有融合至具y147r突变的tada*7.10(tada*8.2)的tada*7.10。在一些实施方案中,abe8为abe8.3-7,其具有异源二聚体性构造体,该构造体含有融合至具q154s突变的tada*7.10(tada*8.3)的tada*7.10。在一些实施方案中,abe8为abe8.4-7,其具有异源二聚体性构造体,该构造体含有融合至具y123h突变的tada*7.10(tada*8.4)的tada*7.10。在一些实施方案中,abe8为abe8.5-7,其具有异源二聚体性构造体,该构造体含有融合至具v82s突变的tada*7.10(tada*8.5)的tada*7.10。在一些实施方案中,abe8为abe8.6-7,其具有异源二聚体性构造体,该构造体含有融合至具t166r突变的tada*7.10(tada*8.6)的tada*7.10。在一些实施方案中,abe8为abe8.7-7,其具有异源二聚体性构造体,该构造体含有融合至具q154r突变的tada*7.10(tada*8.7)的tada*7.10。在一些实施方案中,abe8为abe8.8-7,其具有异源二聚体性构造体,该构造体含有融合至具y147r、q154r和y123h突变的tada*7.10(tada*8.8)的tada*7.10。在一些实施方案中,abe8为abe8.9-7,其具有异源二聚体性构造体,该构造体含有融合至具y147r、q154r和i76y突变的tada*7.10(tada*8.9)的tada*7.10。在一些实施方案中,abe8为abe8.10-7,其具有异源二聚体性构造体,该构造体含经融合至具y147r、q154r和t166r突变的tada*7.10(tada*8.10)的tada*7.10。在一些实施方案中,abe8为abe8.11-7,其具有异源二聚体性构造体,该构造体含有融合至具y147t和q154r突变的tada*7.10(tada*8.11)的tada*7.10。在一些实施方案中,abe8为abe8.12-7,其具有异源二聚体性构造体,该构造体含有融合至具y147t和q154s突变的tada*7.10(tada*8.12)的tada*7.10。在一些实施方案中,abe8为abe8.13-7,其具有异源二聚体性构造体,该构造体含有融合至具y123h(y123h逆转自h123y)、y147r、q154r和i76y突变的tada*7.10(tada*8.13)的tada*7.10。在一些实施方案中,abe8为abe8.14-7,其具有异源二聚体性构造体,该构造体含有融合至具i76y和v82s突变的tada*7.10(tada*8.14)的tada*7.10。在一些实施方案中,abe8为abe8.15-7,其具有异源二聚体性构造体,该构造体含有融合至具v82s和y147r突变的tada*7.10(tada*8.15)的tada*7.10。在一些实施方案中,abe8为abe8.16-7,其具有异源二聚体性构造体,该构造体含有融合至具v82s、y123h(y123h逆转自h123y)和y147r突变的tada*7.10(tada*8.16)的tada*7.10。在一些实施方案中,abe8为abe8.17-7,其具有异源二聚体性构造体,该构造体含有融合至具v82s和q154r突变的tada*7.10(tada*8.17)的tada*7.10。在一些实施方案中,abe8为abe8.18-7,其具有异源二聚体性构造体,该构造体含有融合至具v82s、y123h(y123h逆转自h123y)和q154r突变的tada*7.10(tada*8.18)的tada*7.10。在一些实施方案中,abe8为abe8.19-7,其具有异源二聚体性构造体,该构造体含有融合至具v82s、y123h(y123h逆转自h123y)、y147r和q154r突变的tada*7.10(tada*8.19)的tada*7.10。在一些实施方案中,abe8为abe8.20-7,其具有异源二聚体性构造体,该构造体含有融合至具i76y、v82s、y123h(y123h逆转自h123y)、y147r和q154r突变的tada*7.10(tada*8.20)的tada*7.10。在一些实施方案中,abe8为abe8.21-7,其具有异源二聚体性构造体,该构造体含有融合至具y147r和q154s突变的tada*7.10(tada*8.21)的tada*7.10。在一些实施方案中,abe8为abe8.22-7,其具有异源二聚体性构造体,该构造体含有融合至具v82s和q154s突变的tada*7.10(tada*8.22)的tada*7.10。在一些实施方案中,abe8为abe8.23-7,其具有异源二聚体性构造体,该构造体含有融合至具v82s和y123h(y123h逆转自h123y)突变的tada*7.10(tada*8.23)的tada*7.10。在一些实施方案中,abe8为abe8.24-7,其具有异源二聚体性构造体,该构造体含有融合至具v82s、y123h(y123h逆转自h123y)和y147t突变的tada*7.10(tada*8.24)的tada*7.10。[0835]在一些实施方案中,abe为abe8.1-m、abe8.2-m、abe8.3-m、abe8.4-m、abe8.5-m、abe8.6-m、abe8.7-m、abe8.8-m、abe8.9-m、abe8.10-m、abe8.11-m、abe8.12-m、abe8.13-m、abe8.14-m、abe8.15-m、abe8.16-m、abe8.17-m、abe8.18-m、abe8.19-m、abe8.20-m、abe8.21-m、abe8.22-m、abe8.23-m、abe8.24-m、abe8.1-d、abe8.2-d、abe8.3-d、abe8.4-d、abe8.5-d、abe8.6-d、abe8.7-d、abe8.8-d、abe8.9-d、abe8.10-d、abe8.11-d、abe8.12-d、abe8.13-d、abe8.14-d、abe8.15-d、abe8.16-d、abe8.17-d、abe8.18-d、abe8.19-d、abe8.20-d、abe8.21-d、abe8.22-d、abe8.23-d或abe8.24-d,如下表7所示。[0836]表7:碱基编辑器–abe8[0837][0838][0839][0840]在一些实施方案中,碱基编辑器(例如,abe8)通过将腺苷脱氨酶变体(例如,tada*8)克隆至包括环状排列cas9(例如,cp5或cp6)和双分型核定位序列的支架而产生。在一些实施方案中,碱基编辑器(例如,abe7.9、abe7.10或abe8)为ngcpamcp5变体(化脓性链球菌cas9或spvrqrcas9)。在一些实施方案中,碱基编辑器(例如,abe7.9、abe7.10或abe8)为agapamcp5变体(化脓性链球菌cas9或spvrqrcas9)。在一些实施方案中,碱基编辑器(例如,abe7.9、abe7.10或abe8)为ngcpamcp6变体(化脓性链球菌cas9或spvrqrcas9)。在一些实施方案中,碱基编辑器(例如,abe7.9,abe7.10或abe8)为agapamcp6变体(化脓性链球菌cas9或spvrqrcas9)。[0841]在一些实施方案中,abe具有下表8所示的基因型。[0842]表8.abe的基因型[0843]23263637484951728487105108123125142145147152155156157161abe7.9lrlnalnfsvnygncypvfnkabe7.10rrlnalnfsvnygacypvfnk[0844]如下表9所示,记载40个abe8的基因型。指出abe的进化的大肠杆菌tada部分的残基位置。当abe8中的突变变化不同于abe7.10突变时,予以显示。在一些实施方案中,abe具有如下表9所示的abe之一的基因型。[0845]表9.在进化的tada中鉴定的残基[0846][0847][0848]在一些实施方案中,碱基编辑器为abe8.1,其包含具有腺苷脱氨酶活性的下述序列或其片段或主要由其组成:[0849]abe8.1_y147t_cp5_ngcpam_单体[0850][0851][0852]上述序列中,纯文字表示腺苷脱氨酶序列,粗体序列指示衍生自cas9的序列,斜体字序列表示连接子序列,而下划线序列表示双分型核定位序列。[0853]在一些实施方案中,碱基编辑器为abe8.1,其包含具有腺苷脱氨酶活性的下述序列或其片段或主要由其组成:[0854]pnmg-b335abe8.1_y147t_cp5_ngcpam_单体[0855][0856]上述序列中,纯文字表示腺苷脱氨酶序列,粗体序列指示衍生自cas9的序列,斜体字序列表示连接子序列,而下划线序列表示双分型核定位序列。[0857]在一些实施方案中,碱基编辑器为abe8.14,其包含具有腺苷脱氨酶活性的下述序列或其片段或主要由其组成:[0858]pnmg-357_abe8.14,具ngcpamcp5[0859][0860][0861]上述序列中,纯文字表示腺苷脱氨酶序列,粗体序列指示衍生自cas9的序列,斜体字序列表示连接子序列,而下划线序列表示双分型核定位序列。[0862]在一些实施方案中,碱基编辑器为abe8.8-m,其包含具有腺苷脱氨酶活性的下述序列或其片段或主要由其组成:[0863]abe8.8-m[0864][0865][0866]上述序列中,纯文字表示腺苷脱氨酶序列,粗体序列指示衍生自cas9的序列,斜体字序列表示连接子序列,下划线序列表示双分型核定位序列,而双下划线序列指示突变。[0867]在一些实施方案中,碱基编辑器为abe8.8-d,其包含具有腺苷脱氨酶活性的下述序列或其片段或主要由其组成:[0868]abe8.8-d[0869][0870][0870][0871]上述序列中,纯文字表示腺苷脱氨酶序列,粗体序列指示衍生自cas9的序列,斜体字序列序列表示连接子序列,下划线序列表示双分型核定位序列,而双下划线序列指示突变。[0872]在一些实施方案中,碱基编辑器为abe8.13-m,其包含具有腺苷脱氨酶活性的下述序列或其片段或主要由其组成:[0873]abe8.13-m[0874][0875][0876]上述序列中,纯文字表示腺苷脱氨酶序列,粗体序列指示衍生自cas9的序列,斜体字序列序列表示连接子序列,下划线序列表示双分型核定位序列,而双下划线序列指示突变。[0877]在一些实施方案中,碱基编辑器为abe8.13-d,其包含具有腺苷脱氨酶活性的下述序列或其片段或主要由其组成:[0878]abe8.13-d[0879][0880][0881]上述序列中,纯文字表示腺苷脱氨酶序列,粗体序列指示衍生自cas9的序列,斜体字序列序列表示连接子序列,下划线序列表示双分型核定位序列,而双下划线序列指示突变。[0882]在一些实施方案中,碱基编辑器为abe8.17-m,其包含具有腺苷脱氨酶活性的下述序列或其片段或主要由其组成:[0883]abe8.17-m[0884][0885][0886]上述序列中,纯文字表示腺苷脱氨酶序列,粗体序列指示衍生自cas9的序列,斜体字序列序列表示连接子序列,下划线序列表示双分型核定位序列,而双下划线序列指示突变。[0887]在一些实施方案中,碱基编辑器为abe8.17-d,其包含具有腺苷脱氨酶活性的下述序列或其片段或主要由其组成:[0888]abe8.17-d[0889][0890][0891]上述序列中,纯文字表示腺苷脱氨酶序列,粗体序列指示衍生自cas9的序列,斜体字序列序列表示连接子序列,下划线序列表示双分型核定位序列,而双下划线序列指示突变。[0892]在一些实施方案中,碱基编辑器为abe8.20-m,其包含具有腺苷脱氨酶活性的下述序列或其片段或主要由其组成:[0893]abe8.20-m[0894][0895][0896]上述序列中,纯文字表示腺苷脱氨酶序列,粗体序列指示衍生自cas9的序列,斜体字序列序列表示连接子序列,下划线序列表示双分型核定位序列,而双下划线序列指示突变。[0897]在一些实施方案中,碱基编辑器为abe8.20-d,其包含具有腺苷脱氨酶活性的下述序列或其片段或主要由其组成:[0898]abe8.20-d[0899][0900][0901]上述序列中,纯文字表示腺苷脱氨酶序列,粗体序列指示衍生自cas9的序列,斜体字序列序列表示连接子序列,下划线序列表示双分型核定位序列,而双下划线序列指示突变。[0902]在一些实施方案中,本发明的abe8选自下述序列:[0903]01.monoabe8.1_bpnls+y147t[0904]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallctffrmprqvfnaqkkaqsstdsggssggssgsetpgtsesatpessggssggsdkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfvsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasarelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkqyrstkevldatlihqsitglyetridlsqlggdegadkrtadgsefespkkkrkv[0905]02.monoabe8.1_bpnls+y147r[0906]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcrffrmprqvfnaqkkaqsstdsggssggssgsetpgtsesatpessggssggsdkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfvsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasarelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkqyrstkevldatlihqsitglyetridlsqlggdegadkrtadgsefespkkkrkv[0907]03.monoabe8.1_bpnls+q154s[0908]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcyffrmprsvfnaqkkaqsstdsggssggssgsetpgtsesatpessggssggsdkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfvsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasarelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkqyrstkevldatlihqsitglyetridlsqlggdegadkrtadgsefespkkkrkv[0909]04.monoabe8.1_bpnls+y123h[0910]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhhpgmnhrveitegiladecaallcyffrmprqvfnaqkkaqsstdsggssggssgsetpgtsesatpessggssggsdkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfvsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasarelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkqyrstkevldatlihqsitglyetridlsqlggdegadkrtadgsefespkkkrkv[0911]05.monoabe8.1_bpnls+v82s[0912]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlystfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcyffrmprqvfnaqkkaqsstdsggssggssgsetpgtsesatpessggssggsdkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfvsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasarelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkqyrstkevldatlihqsitglyetridlsqlggdegadkrtadgsefespkkkrkv[0913]06.monoabe8.1_bpnls+t166r[0914]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcyffrmprqvfnaqkkaqssrdsggssggssgsetpgtsesatpessggssggsdkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfvsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasarelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkqyrstkevldatlihqsitglyetridlsqlggdegadkrtadgsefespkkkrkv[0915]07.monoabe8.1_bpnls+q154r[0916]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcyffrmprrvfnaqkkaqsstdsggssggssgsetpgtsesatpessggssggsdkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfvsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasarelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkqyrstkevldatlihqsitglyetridlsqlggdegadkrtadgsefespkkkrkv[0917]08.monoabe8.1_bpnls+y147r_q154r_y123h[0918]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhhpgmnhrveitegiladecaallcrffrmprrvfnaqkkaqsstdsggssggssgsetpgtsesatpessggssggsdkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfvsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasarelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkqyrstkevldatlihqsitglyetridlsqlggdegadkrtadgsefespkkkrkv[0919]09.monoabe8.1_bpnls+y147r_q154r_i76y[0920]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlydatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcrffrmprrvfnaqkkaqsstdsggssggssgsetpgtsesatpessggssggsdkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfvsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasarelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkqyrstkevldatlihqsitglyetridlsqlggdegadkrtadgsefespkkkrkv[0921]10.monoabe8.1_bpnls+y147r_q154r_t166r[0922]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcrffrmprrvfnaqkkaqssrdsggssggssgsetpgtsesatpessggssggsdkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfvsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasarelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkqyrstkevldatlihqsitglyetridlsqlggdegadkrtadgsefespkkkrkv[0923]11.monoabe8.1_bpnls+y147t_q154r[0924]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallctffrmprrvfnaqkkaqsstdsggssggssgsetpgtsesatpessggssggsdkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfvsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasarelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkqyrstkevldatlihqsitglyetridlsqlggdegadkrtadgsefespkkkrkv[0925]12.monoabe8.1_bpnls+y147t_q154s[0926]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallctffrmprsvfnaqkkaqsstdsggssggssgsetpgtsesatpessggssggsdkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfvsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasarelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkqyrstkevldatlihqsitglyetridlsqlggdegadkrtadgsefespkkkrkv[0927]13.monoabe8.1_bpnls+h123y123h_y147r_q154r_i76y[0928]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlydatlyvtfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhhpgmnhrveitegiladecaallcrffrmprrvfnaqkkaqsstdsggssggssgsetpgtsesatpessggssggsdkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfvsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasarelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkqyrstkevldatlihqsitglyetridlsqlggdegadkrtadgsefespkkkrkv[0929]14.monoabe8.1_bpnls+v82s+q154r[0930]msevefsheywmrhaltlakrarderevpvgavlvlnnrvigegwnraiglhdptahaeimalrqgglvmqnyrlidatlystfepcvmcagamihsrigrvvfgvrnaktgaagslmdvlhypgmnhrveitegiladecaallcyffrmprrvfnaqkkaqsstdsggssggssgsetpgtsesatpessggssggsdkkysiglaigtnsvgwavitdeykvpskkfkvlgntdrhsikknligallfdsgetaeatrlkrtarrrytrrknricylqeifsnemakvddsffhrleesflveedkkherhpifgnivdevayhekyptiyhlrkklvdstdkadlrliylalahmikfrghfliegdlnpdnsdvdklfiqlvqtynqlfeenpinasgvdakailsarlsksrrlenliaqlpgekknglfgnlialslgltpnfksnfdlaedaklqlskdtydddldnllaqigdqyadlflaaknlsdaillsdilrvnteitkaplsasmikrydehhqdltllkalvrqqlpekykeiffdqskngyagyidggasqeefykfikpilekmdgteellvklnredllrkqrtfdngsiphqihlgelhailrrqedfypflkdnrekiekiltfripyyvgplargnsrfawmtrkseetitpwnfeevvdkgasaqsfiermtnfdknlpnekvlpkhsllyeyftvyneltkvkyvtegmrkpaflsgeqkkaivdllfktnrkvtvkqlkedyfkkiecfdsveisgvedrfnaslgtyhdllkiikdkdfldneenediledivltltlfedremieerlktyahlfddkvmkqlkrrrytgwgrlsrklingirdkqsgktildflksdgfanrnfmqlihddsltfkediqkaqvsgqgdslhehianlagspaikkgilqtvkvvdelvkvmgrhkpeniviemarenqttqkgqknsrermkrieegikelgsqilkehpventqlqneklylyylqngrdmyvdqeldinrlsdydvdhivpqsflkddsidnkvltrsdknrgksdnvpseevvkkmknywrqllnaklitqrkfdnltkaergglseldkagfikrqlvetrqitkhvaqildsrmntkydendklirevkvitlksklvsdfrkdfqfykvreinnyhhahdaylnavvgtalikkypklesefvygdykvydvrkmiakseqeigkatakyffysnimnffkteitlangeirkrplietngetgeivwdkgrdfatvrkvlsmpqvnivkktevqtggfskesilpkrnsdkliarkkdwdpkkyggfvsptvaysvlvvakvekgkskklksvkellgitimerssfeknpidfleakgykevkkdliiklpkyslfelengrkrmlasarelqkgnelalpskyvnflylashyeklkgspedneqkqlfveqhkhyldeiieqisefskrviladanldkvlsaynkhrdkpireqaeniihlftltnlgapaafkyfdttidrkqyrstkevldatlihqsitglyetridlsqlggdegadkrtadgsefespkkkrkv[0931]在一些实施方案中,碱基编辑器为包含多核苷酸可编程核苷酸结合结构域(例如,cas9衍生的结构域)融合至核碱基编辑结构域(例如,全部或部分的脱氨酶结构域)的融合蛋白。在某些实施方案中,本文提供的融合蛋白包含改善融合蛋白的碱基编辑活性的一个或多个特征。例如,本文提供的任何融合蛋白可包含具有降低的核酸酶活性的cas9结构域。在一些实施方案中,本文提供的任何融合蛋白可具有不具有核酸酶活性的cas9结构域(dcas9)或切割双链dna分子的一条链的cas9结构域,称为cas9切口酶(ncas9)。[0932]在一些实施方案中,碱基编辑器进一步包含结构域,其包含全部或部分的尿嘧啶糖苷酶抑制剂(ugi)。在一些实施方案中,碱基编辑器包含结构域,其包含全部或部分的尿嘧啶结合蛋白(ubp),如尿嘧啶dna糖苷酶(udg)。在一些实施方案中,碱基编辑器包含结构域,其包含全部或部分的核酸聚合酶。在一些实施方案中,并入碱基编辑器的核酸聚合酶或其部分为跨损伤dna聚合酶。[0933]在一些实施方案中,碱基编辑器的结构域可包含多个结构域。例如,包含衍生自cas9的多核苷酸可编程核苷酸结合结构域的碱基编辑器可包含对应于野生型或天然的cas9的rec叶和nuc叶的rec叶(lobe)和nuc叶。在另一实施例中,碱基编辑器可包含ruvci结构域、bh结构域、rec1结构域、rec2结构域、ruvcii结构域、l1结构域、hnh结构域、l2结构域、ruvciii结构域、wed结构域、topo结构域或ctd结构域中的一个或多个。在一些实施方案中,碱基编辑器的一个或多个结构域包含相对于包含该结构域的多肽的野生型版本的突变(例如,取代、插入、缺失)。例如,多核苷酸可编程dna结合结构域的hnh结构域可包含h840a取代。在另一实施例中,多核苷酸可编程dna结合结构域的ruvci结构域可包含d10a取代。[0934]本文公开的碱基编辑器的不同结构域(例如,相邻结构域)可使用或不使用一个或多个连接子结构域(例如,xten连接子结构域)彼此连结。在一些实施方案中,连接子结构域可以为连接二个分子或部分的键(例如,共价键)、化学基团或分子,该分子或部分为例如融合蛋白的二个结构域,例如,第一结构域(例如,cas9衍生的结构域)和第二结构域(例如,腺苷脱氨酶结构域)。在一些实施方案中,连接子为共价键(例如,碳-碳键、双硫键、碳-杂原子键等)。在某些实施方案中,连接子为酰胺链结的碳氮键。在某些实施方案中,连接子为环状或非环状的、取代或未取代的、分支或未分支的脂族或杂脂族连接子。在某些实施方案中,连接子为聚合性的(例如,聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中,连接子包含氨基烷酸的单体、二聚体或聚合物。在一些实施方案中,连接子包含氨基烷酸(例如,甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在一些实施方案中,连接子包含氨基己酸(ahx)的单体、二聚体或聚合物。在某些实施方案中,连接子基于碳环部分(例如,环戊烷、环己烷)。在其他实施方案中,连接子包含聚乙二醇部分体(peg)。在某些实施方案中,连接子包含芳基或杂芳基部分。在某些实施方案中,连接子基于苯基环。连接子可包括功能化部分,以促进来自肽的亲核基(例如,硫基、氨基)与该连接子的附接。任何亲电子基均可用作连接子的一部分。示例性亲电子基包括但不限制于,活性酯类、活性酰胺类、迈克尔接受体类、烷基卤化物类、芳基卤化物类、酰基卤化物类和异硫氰酸酯类。在一些实施方案中,连接子接合rna可编程核酸酶的grna结合结构域,包括核酸编辑蛋白的cas9核酸酶结构域和催化性结构域。在一些实施方案中,连接子接合dcas9与第二结构域(例如,ugi等)。[0935]典型地,连接子位于二个基团、分子或其他部分之间或其侧翼具有二个基团、分子或其他部分,并且经由共价键连结至每一者,从而将二者连结。在一些实施方案中,连接子为氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,连接子为有机分子、基团、聚合物或化学部分。在一些实施方案中,连接子为2-100个氨基酸的长度,例如,2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80-90、90-100、100-150或150-200个氨基酸的长度。在一些实施方案中,连接子为约3至约104(例如,5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95或100)个氨基酸的长度。也考虑更长或更短的连接子。在一些实施方案中,连接子结构域包含氨基酸序列sgsetpgtsesatpes,其也可称为xten连接子。可采用连接融合蛋白结构域的方法,例如,范围从非常柔性的连接子形式(sggs)n、(gggs)n、(ggggs)n和(g)n到更为刚性的连接子的形式(eaaak)n、(ggs)n、sgsetpgtsesatpes(参见例如,guilingerjp,thompsondb,liudr.fusionofcatalyticallyinactivecas9tofokinucleaseimprovesthespecificityofgenomemodification.nat.biotechnol.2014;32(6):577-82;全部内容以引用方式并入本文)或(xp)n基序,以便达成对于核碱基编辑器的针对活性的最适长度。在一些实施方案中,n为1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,连接子包含(ggs)n基序,其中n为1、3或7。在一些实施方案中,本文提供的融合蛋白的cas9结构域经由包含氨基酸序列sgsetpgtsesatpes的连接子融合。在一些实施方案中,连接子包含多个脯氨酸残基且为5-21、5-14、5-9、5-7个氨基酸的长度,例如,papap、papapa、papapap、papapapa、p(ap)4、p(ap)7、p(ap)10(参见例如,tanj,zhangf,karcherd,bockr.engineeringofhigh-precisionbaseeditorsforsite-specificsinglenucleotidereplacement.natcommun.2019jan25;10(1):439;全部内容以引用方式并入本文)。该富含脯氨酸的连接子也名为“刚性”连接子。[0936]本发明的融合蛋白包含核酸编辑结构域。在一些实施方案中,脱氨酶为腺苷脱氨酶。在一些实施方案中,脱氨酶为脊椎动物脱氨酶。在一些实施方案中,脱氨酶为无脊椎动物脱氨酶。在一些实施方案中,脱氨酶为人类、黑猩猩、金刚猩猩、猴、牛、犬、大鼠或小鼠脱氨酶。在一些实施方案中,脱氨酶为人类脱氨酶。在一些实施方案中,脱氨酶为大鼠脱氨酶。[0937]连接子[0938]在某些实施方案中,可使用连接子来连接本发明的任何肽或肽结构域。连接子可以是简单的如共价键或其可以是长度为许多原子的聚合性连接子。在某些实施方案中,连接子为多肽或基于氨基酸。在其他实施方案中,连接子为非肽类。在某些实施方案中,连接子为共价键(例如,碳-碳键、双硫键、碳-杂原子键等)。在某些实施方案中,连接子为酰胺链结的碳氮键。在某些实施方案中,连接子为环状或非环状的、取代或未取代的、分支或未分支的脂族或杂脂族连接子。在某些实施方案中,连接子为聚合性的(例如,聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中,连接子包含氨基烷酸的单体、二聚体或聚合物。在一些实施方案中,连接子包含氨基烷酸(例如,甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在某些实施方案中,连接子包含氨基己酸(ahx)的单体、二聚体或聚合物。在某些实施方案中,连接子基于碳环部分(例如,环戊烷、环己烷)。在其他实施方案中,连接子包含聚乙二醇部分体(peg)。在其他实施方案中,连接子包含氨基酸类。在某些实施方案中,连接子包含肽。在某些实施方案中,连接子包含芳基或杂芳基部分。在某些实施方案中,连接子基于苯基环。连接子可包括功能化部分,以促进来自肽的亲核基(例如,硫基、氨基)与该连接子的附接。任何亲电子基均可用作连接子的一部分。示例性亲电子基包括但不限制于,活性酯类、活性酰胺类、迈克尔接受体类、烷基卤化物类、芳基卤化物类、酰基卤化物类和异硫氰酸酯类。[0939]在一些实施方案中,连接子为氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,连接子为键(例如,共价键)、有机分子、基团、聚合物或化学部分。在一些实施方案中,连接子为约3至约104(例如,5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95或100)个氨基酸的长度。[0940]在一些实施方案中,腺苷脱氨酶和napdnabp经由连接子融合,该连接子为4、16、32或104个氨基酸的长度。在一些实施方案中,连接子为约3至约104个氨基酸的长度。在一些实施方案中,本文提供的任何融合蛋白,包含经由连接子融合至彼此的腺苷脱氨酶和cas9结构域。可以在脱氨酶结构域(例如,工程化的ectada)和cas9结构域之间采用各种连接子长度和柔性(例如,范围从非常柔性的(gggs)n、(ggggs)n和(g)n形式的连接子到更为刚性的(eaaak)n、(sggs)n、sgsetpgtsesatpes形式的连接子(参见例如,guilingerjp,thompsondb,liudr.fusionofcatalyticallyinactivecas9tofokinucleaseimprovesthespecificityofgenomemodification.nat.biotechnol.2014;32(6):577-82;全部内容以引用方式并入本文)和(xp)n)来达成核碱基编辑器的针对活性的最适长度。在一些实施方案中,n为1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,连接子包含(ggs)n基序,其中n为1、3或7。在一些实施方案中,腺苷脱氨酶和本文提供的任何融合蛋白的cas9结构域经由包含氨基酸序列sgsetpgtsesatpes的连接子(例如,xten连接子)融合。[0941]cas9与向导rna复合[0942]本公开的一些方面提供包含本文提供的任何融合蛋白和结合至融合蛋白的cas9结构域(例如,dcas9、核酸酶活性cas9或cas9切口酶)的向导rna(例如,靶向a\突变的向导)的复合物。可应用任何方法来连接融合蛋白结构域(例如,范围从非常柔性的连接子的形式(gggs)n、(ggggs)n和(g)n至更为刚性的连接子的形式(eaaak)n、(sggs)n、sgsetpgtsesatpes(参见例如,guilingerjp,thompsondb,liudr.fusionofcatalyticallyinactivecas9tofokinucleaseimprovesthespecificityofgenomemodification.nat.biotechnol.2014;32(6):577-82;全部内容以引用方式并入本文)和(xp)n)以达成核碱基编辑器的针对活性的最适长度。在一些实施方案中,n为1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,连接子包含(ggs)n基序,其中n为1、3或7。在一些实施方案中,本文提供的融合蛋白的cas9结构域经由包含氨基酸序列sgsetpgtsesatpes的连接子融合。[0943]在一些实施方案中,向导核酸(例如,向导rna)为15-100个核苷酸的长度且包含至少10个连续核甘酸的序列,其与靶标序列互补。在一些实施方案中,向导rna为15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸的长度。在一些实施方案中,向导rna包含与靶标序列互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个连续核苷酸的序列。在一些实施方案中,靶标序列为dna序列。在一些实施方案中,靶标序列为细菌、酵母菌、真菌、昆虫、植物或动物的基因组的序列。在一些实施方案中,靶标序列为人类基因组的序列。在一些实施方案中,靶标序列的3’末端立即邻接于标准pam序列(ngg)。在一些实施方案中,靶标序列的3’末端立即邻接于非标准pam序列(例如,列于表1的序列或5’‑naa-3’)。在一些实施方案中,向导核酸(例如,向导rna)与感兴趣基因(例如,与疾病或疾患相关的基因)的序列互补。在一些实施方案中,向导核酸(例如,向导rna)与α1-抗胰蛋白酶缺乏症(a1ad)相关的序列互补。[0944]本公开的一些方面提供使用本文提供的融合蛋白或复合物的方法。例如,本公开的一些方面提供方法,其包括使dna分子与本文提供的任何融合蛋白接触以及与至少一个向导rna接触,其中向导rna为约15-100个核苷酸长且包含与靶标序列互补的至少10个连续核苷酸的序列。在一些实施方案中,靶标序列的3’末端立即邻接于agc、gag、ttt、gtg或caa序列。一些实施方案中,靶标序列的3’末端立即邻接于nga、ngcg、ngn、nngrrt、nnnrrt、ngcg、ngcn、ngtn、ngtn、ngtn或5’(tttv)序列。[0945]应当理解,各个序列中特定位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号可能不同,例如,成熟蛋白质的前体和成熟蛋白质本身、物种之间的序列差异可能影响编号。所属
技术领域
:普通技术人员能够通过本领域众所周知的方法,例如通过序列比对和同源残基的测定,鉴定任何同源蛋白质和对应编码核酸中的对应残基。[0946]将为所属
技术领域
:普通技术人员明显可知,为了将本文公开的任何融合蛋白靶向靶标位点,例如包含待编辑突变的位点,典型地需要共表达融合蛋白和向导rna。如本文别处更详细解释的,向导rna典型地包含允许cas9结合的tracrrna框架和赋予cas9:核酸编辑酶/结构域融合蛋白以序列特异性的向导序列。或者,向导rna和tracrrna可以作为两个核酸分子分开提供。在一些实施方案中,向导rna包含结构,其中向导序列包含与靶标序列互补的序列。向导序列典型地为20个核苷酸长。基于本公开,用于将cas9:核酸编辑酶/结构域融合蛋白靶向特定基因组靶标位点的合适的向导rna的序列将为所属
技术领域
:普通技术人员明显可知。此类合适的向导rna序列典型地包含与待编辑的靶标核苷酸上游或下游50个核苷酸内的核酸序列互补的向导序列。本文提供一些适用于将任何提供的融合蛋白靶向特定靶标序列的示例性向导rna序列。[0947]cas12与向导rna复合[0948]本公开的一些方面提供包含本文提供的任何融合蛋白和向导rna(例如,靶向靶标多核苷酸以进行编辑的向导)的复合物。[0949]在一些实施方案中,向导核酸(例如,向导rna)为15-100个核苷酸长并且包含与靶标序列互补的至少10个连续核苷酸的序列。在一些实施方案中,向导rna为15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸长。在一些实施方案中,向导rna包含与靶标序列互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个连续核苷酸的序列。在一些实施方案中,靶标序列为dna序列。在一些实施方案中,靶标序列为细菌、酵母菌、真菌、昆虫、植物或动物的基因组的序列。在一些实施方案中,靶标序列为人类基因组的序列。在一些实施方案中,靶标序列的3’末端立即邻接于标准pam序列。在一些实施方案中,靶标序列的3’末端为立即邻接于非标准pam序列。[0950]本公开的一些方面提供使用本文提供的融合蛋白或复合物的方法。例如,苯公开的一些方面提供方法,其包括使dna分子与本文提供的任何融合蛋白接触以及与至少一个向导rna接触,其中向导rna为约15-100个核苷酸长且包含与靶标序列互补的至少10个连续核苷酸的序列。在一些实施方案中,靶标序列的3’末端立即邻接于例如,ttn、dttn、gttn、attn、attc、dttnt、wttn、haty、tttn、tttv、tttc、tg、rtr或ytnpam位点。[0951]应当理解,各个序列中特定位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号可能不同,例如,成熟蛋白质的前体和成熟蛋白质本身、物种之间的序列差异可能影响编号。所属
技术领域
:普通技术人员能够通过本领域众所周知的方法,例如通过序列比对和同源残基的测定,鉴定任何同源蛋白质和对应编码核酸中的对应残基。[0952]将为所属
技术领域
:普通技术人员明显可知,为了将本文公开的任何融合蛋白靶向靶标位点,例如包含待编辑突变的位点,典型地需要共表达融合蛋白和向导rna。如本文别处更详细解释的,向导rna典型地包含允许cas9结合的tracrrna框架和赋予cas9:核酸编辑酶/结构域融合蛋白以序列特异性的向导序列。或者,向导rna和tracrrna可以作为两个核酸分子分开提供。在一些实施方案中,向导rna包含结构,其中向导序列包含与靶标序列互补的序列。向导序列典型地为20个核苷酸长。基于本公开,用于将cas9:核酸编辑酶/结构域融合蛋白靶向特定基因组靶标位点的合适的向导rna的序列将为所属
技术领域
:普通技术人员明显可知。此类合适的向导rna序列典型地包含与待编辑的靶标核苷酸上游或下游50个核苷酸内的核酸序列互补的向导序列。本文提供一些适用于将任何提供的融合蛋白靶向特定靶标序列的示例性向导rna序列。[0953]本文公开的碱基编辑器的结构域可以任何顺序排列,只要脱氨酶结构域内化于cas12蛋白质内即可。包含融合蛋白的碱基编辑器的非限制实例,该融合蛋白包含例如cas12结构域和脱氨酶结构域,可排列如下:[0954]nh2-[cas12结构域]-连接子1-[abe8]-连接子2-[cas12结构域]-cooh;[0955]nh2-[cas12结构域]-连接子1-[abe8]-[cas12结构域]-cooh;[0956]nh2-[cas12结构域]-[abe8]-连接子2-[cas12结构域]-cooh;[0957]nh2-[cas12结构域]-[abe8]-[cas12结构域]-cooh;[0958]nh2-[cas12结构域]-连接子1-[abe8]-连接子2-[cas12结构域]-[肌苷ber抑制剂]-cooh;[0959]nh2-[cas12结构域]-连接子1-[abe8]-[cas12结构域]-[肌苷ber抑制剂]-cooh;[0960]nh2-[cas12结构域]-[abe8]-连接子2-[cas12结构域]-[肌苷ber抑制剂]-cooh;;[0961]nh2-[cas12结构域]-[abe8]-[cas12结构域]-[肌苷ber抑制剂]-cooh;[0962]nh2-[肌苷ber抑制剂]-[cas12结构域]-连接子1-[abe8]-连接子2-[cas12结构域]-cooh;[0963]nh2-[肌苷ber抑制剂]-[cas12结构域]-连接子1-[abe8]-[cas12结构域]-cooh;[0964]nh2-[肌苷ber抑制剂]-[cas12结构域]-[abe8]-连接子2-[cas12结构域]-cooh;[0965]nh2-[肌苷ber抑制剂]nh2-[cas12结构域]-[abe8]-[cas12结构域]-cooh;[0966]此外,在一些情况下,gam蛋白可融合至碱基编辑器的n端。在一些情况下,gam蛋白可融合至碱基编辑器的c端。噬菌体mu的gam蛋白可结合至双链断裂(dsb)的末端且保护其免于降解。在一些实施方案中,使用gam结合dsb的游离末端可降低碱基编辑过程期间的插入或缺失的形成。在一些实施方案中,174-残基gam蛋白融合至碱基编辑器的n端。参见komor,a.c.,等人,“improvedbaseexcisionrepairinhibitionandbacteriophagemugamproteinyieldsc:g-to-t:abaseeditorswithhigherefficiencyandproductpurity”scienceadvances3:eaao4774(2017)。在一些情况下,突变或多个突变可相对于野生型结构域改变碱基编辑器结构域的长度。例如,至少一个结构域中的至少一个氨基酸的缺失可缩短碱基编辑器的长度。在另一情况下,突变或多个突变不相对于野生型结构域改变碱基编辑器结构域的长度。例如,任何结构域中的一个或多个取代不改变碱基编辑器结构域的长度。[0967]在一些实施方案中,本文提供的碱基编辑融合蛋白需要位于精确位置处,例如,靶标碱基置于定义区(例如,“脱氨窗”)内。在一些情况下,靶标可位于4-碱基区内。在一些情况下,定义的靶标区可以为pam上游的大约15个碱基。参见komor,a.c.,等人,“programmableeditingofatargetbaseingenomicdnawithoutdouble-strandeddnacleavage”nature533,420-424(2016);gaudelli,n.m.,等人,“programmablebaseeditingofa·ttog·cingenomicdnawithoutdnacleavage”nature551,464-471(2017);和komor,a.c.,等人,“improvedbaseexcisionrepairinhibitionandbacteriophagemugamproteinyieldsc:g-to-t:abaseeditorswithhigherefficiencyandproductpurity”scienceadvances3:eaao4774(2017),其整体内容以引用方式并入本文。[0968]定义的靶标区可以为脱氨窗。脱氨窗可以为已定义的区,在该区内碱基编辑起作用并且将靶标核苷酸脱氨。在一些实施方案中,脱氨窗位于2、3、4、5、6、7、8、9或10个碱基的区内。在一些实施方案中,脱氨窗为pam上游的5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个碱基。[0969]本公开的碱基编辑器可包含任何结构域、特征或氨基酸序列,其有助于靶标多核苷酸序列的编辑。例如,在一些实施方案中,碱基编辑器包含核定位序列(nls)。在一些实施方案中,碱基编辑器的nls定位在脱氨酶结构域和napdnabp结构域之间。在一些实施方案中,碱基编辑器的nls定位在napdnabp结构域的c-端。[0970]包括于融合蛋白中的蛋白质结构域可以为异源功能结构域。可包括于融合蛋白中的蛋白质结构域的非限制实例包括脱氨酶结构域(例如,腺苷脱氨酶)、尿嘧啶糖苷酶抑制剂(ugi)结构域、表位标签和报告基因序列。蛋白质结构域可以为异源功能结构域,例如,具有一种或多种下述活性:转录活化活性、转录压制活性、转录释放因子活性、基因沉默活性、染色质修饰活性、表观遗传修饰活性、组蛋白修饰活性、rna裂解活性及核酸结合活性。该异源功能结构域可赋予功能活性,如与靶标dna缔合的靶标多肽(例如,组蛋白、dna结合蛋白质等)的修饰,导致例如组蛋白甲基化、组蛋白乙酰基化、组蛋白泛素化等。赋予的其他功能和/或活性可包括转座酶活性、整合酶活性、重组酶活性、接合酶活性、泛素接合酶活性、去泛素化活性、腺苷化活性、去腺苷化活性、sumo化活性、去sumo化活性或上述的任何组合。[0971]结构域可利用表位标签、报告蛋白、其他结构域进行检测或标记。表位标签的非限制实例包括组氨酸(his)标签、v5标签、flag标签、流感血凝素(ha)标签、myc标签、vsv-g标签和硫氧还原蛋白(trx)标签。报告基因的实例包括但不限制于,谷胱甘肽-5-转移酶(gst)、辣根过氧化酶(hrp)、氯霉素乙酰基转移酶(cat)β-半乳糖苷酶、β-葡萄糖醛酸苷酶、荧光素酶、绿色荧光蛋白(gfp)、hcred、dsred、青色荧光蛋白(cfp)、黄色荧光蛋白(yfp)和包括蓝色荧光蛋白(bfp)的自发荧光蛋白。额外的蛋白质序列可包括结合dna分子或结合其他细胞分子的氨基酸序列,包括但不限于,麦芽糖结合蛋白(mbp)、s-标签、lexadna结合结构域(dbd)融合物、gal4dna结合结构域融合物和单纯疱疹病毒(hsv)bp16蛋白融合物。[0972]在一些实施方案中,bhcas12b向导多核苷酸具有下述序列:[0973]bhcas12bsgrna支架(下划线)+20nt至23nt向导序列(指示为nn)[0974]5’gttctgtcttttggtcaggacaaccgtctagctataagtgctgcagggtgtgagaaactcctattgctggacgatgtctcttacgaggcattagcacnnnnnnnnnnnnnnnnnnnn-3’[0975]在一些实施方案中,bvcas12b和aacas12b向导多核苷酸具有下述序列:[0976]bvcas12bsgrna支架(下划线)+20nt至23nt向导序列(指示为nn)[0977]5’gacctatagggtcaatgaatctgtgcgtgtgccataagtaattaaaaattacccaccacaggagcacctgaaaacaggtgcttggcacnnnnnnnnnnnnnnnnnnnn-3’[0978]aacas12bsgrna支架(下划线)+20nt至23nt向导序列(指示为nn)[0979]5’gtctaaaggacagaatttttcaacgggtgtgccaatggccactttccaggtggcaaagcccgttgaacttctcaaaaagaacgatctgagaagtggcacnnnnnnnnnnnnnnnnnnnn-3’[0980]使用包含腺苷脱氨酶变体和cas9结构域的融合蛋白的方法[0981]本公开的一些方面提供使用本文提供的融合蛋白或复合物的方法。例如,苯公开的一些方面提供包括使编码突变形式的蛋白质的dna分子与本文提供的任何融合蛋白和至少一个向导rna接触的方法,其中向导rna为约15-100个核苷酸长且包含与靶标序列互补的至少10个连续的核苷酸的序列。在一些实施方案中,靶标序列的3’末端立即邻接于标准pam序列(ngg)。在一些实施方案中,靶标序列的3’末端不立即邻接于标准pam序列(ngg)。在一些实施方案中,靶标序列的3’末端立即邻接于agc、gag、ttt、gtg或caa序列。在一些实施方案中,靶标序列的3’末端立即邻接于nga、ngcg、ngn、nngrrt、nnnrrt、ngcg、ngcn、ngtn、ngtn、ngtn或5’(tttv)序列。[0982]应当理解,各个序列中特定位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号可能不同,例如,成熟蛋白质的前体和成熟蛋白质本身、物种之间的序列差异可能会影响编号。所属
技术领域
:普通技术人员能通过所属
技术领域
:众所周知的方法,例如通过序列比对和同源残基的测定,鉴定任何同源蛋白质和对应编码核酸中的对应残基。[0983]将为所属
技术领域
:普通技术人员明显可知的是,为了将包含cas9结构域和腺苷脱氨酶变体(例如,abe8)的任何融合蛋白,如本文公开的,靶向至靶标位点(例如,包含待编辑的突变的位点),典型地需要将融合蛋白与向导rna(例如sgrna)共表达。如本文别处更详细解释的,向导rna典型地包含允许cas9结合的tracrrna框架和赋予cas9:核酸编辑酶/结构域融合蛋白以序列特异性的向导序列。或者,向导rna和tracrrna可以作为两个核酸分子分开提供。在一些实施方案中,向导rna包含结构,其中向导序列包含与靶标序列互补的序列。向导序列典型地为20个核苷酸长。基于本公开,用于将cas9:核酸编辑酶/结构域融合蛋白靶向特定基因组靶标位点的合适的向导rna的序列将为所属
技术领域
:普通技术人员明显可知。该合适的向导rna序列典型地包含与待编辑的靶标核苷酸上游或下游50个核苷酸内的核酸序列互补的向导序列。本文提供一些适用于将任何提供的融合蛋白靶向特定靶标序列的示例性向导rna序列。[0984]碱基编辑器效率[0985]crispr-cas9核酸酶已被广泛用于介导靶向基因组编辑。在大多数基因组编辑应用中,cas9与向导多核苷酸(例如,单向导rna(sgrna))形成复合物,并在sgrna序列指定的靶标位点诱导双链dna断裂(dsb)。细胞主要通过非同源末端连接(nhej)修复途径对这种editorswithhigherefficiencyandproductpurity”scienceadvances3:eaao4774(2017);其全部内容借此以引用方式并入。[0991]在一些实施方案中,为了计算indel频率,扫描测序读段以寻找与两个10-bp序列的精确匹配,该两个10-bp序列位于可以发生indel的窗口两侧。如果未找到完全匹配,则从分析中排除读段。如果此indel窗口的长度与参照序列完全匹配,则读段被归类为不包含indel。如果indel窗口比参照序列长或短两个或更多个碱基,则侧序读段分别被归类为插入或缺失。在一些实施方案中,本文提供的碱基编辑器可以限制核酸区中indel的形成。在一些实施方案中,该区位于碱基编辑器靶向的核苷酸处或碱基编辑器靶向的核苷酸的2、3、4、5、6、7、8、9或10个核苷酸内的区。[0992]在靶标核苷酸区内形成的indel的数目可取决于核酸(例如,细胞基因组内的核酸)暴露于碱基编辑器的时间量。在一些实施方案中,indel的数目或比例在将靶标核苷酸序列(例如,细胞基因组内的核酸)暴露于碱基编辑器至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天后测定。应理解,如本文所述的碱基编辑器的特征可应用于任何融合蛋白或使用本文提供的融合蛋白的方法。[0993]在一些实施方案中,本文提供的碱基编辑器能限制核酸区中indel的形成。在一些实施方案中,该区是位于碱基编辑器靶向的核苷酸处或碱基编辑器靶向的核苷酸的2、3、4、5、6、7、8、9或10个核苷酸内的区。在一些实施方案中,本文提供的任何碱基编辑器能将核酸区中indel的形成限制为小于1%、小于1.5%、小于2%、小于2.5%、小于3%、小于3.5%、小于4%、小于4.5%、小于5%、小于6%、小于7%、小于8%、小于9%、小于10%、小于12%、小于15%或小于20%。于核酸区所形成的indel的数目可取决于核酸(例如,细胞的基因组内的核酸)暴露于碱基编辑器的时间量。在一些实施方案中,indel的任何数目或比例可于将核酸(例如,细胞的基因组内的核酸)暴露于碱基编辑器1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天后测定。[0994]本公开的一些方面基于以下认识:本文提供的任何碱基编辑器能够有效地在核酸(例如,受试者基因组内的核酸)中产生预期突变而不产生大量非预期突变。在一些实施方案中,预期突变是由与grna结合的特定碱基编辑器产生的突变,该碱基编辑器专门设计用于改变或修正hbg突变。[0995]在一些实施方案中,本文提供的任何碱基编辑器能产生大于1:1的预期突变与非预期突变的比率(例如,预期突变:非预期突变)。在一些实施方案中,本文提供的任何碱基编辑器能产生的预期突变与非预期突变的比率为至少1.5:1、至少2:1、至少2.5:1、至少3:1、至少3.5:1、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少10:1、至少12:1、至少15:1、至少20:1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少150:1、至少200:1、至少250:1、至少500:1或至少1000:1或更多。应理解,如本文所描述的碱基编辑器的特征可应用于任何融合蛋白或使用本文提供的融合蛋白的方法。[0996]多重编辑[0997]在一些实施方案中,本文提供的碱基编辑器系统能对一个或多个基因中的多个核碱基对进行多重编辑。在一些实施方案中,多个核碱基对位于同一基因中。在一些实施方案中,多个核碱基对位于一个或多个基因中,其中至少一个基因位于不同的基因座中。在一些实施方案中,多重编辑可包含一种或多种向导多核苷酸。在一些实施方案中,多重编辑可包括一个或多个碱基编辑器系统。在一些实施方案中,多重编辑可以包括一个或多个具有单个向导多核苷酸的碱基编辑器系统。在一些实施方案中,多重编辑可以包括一个或多个具有多个向导多核苷酸的碱基编辑器系统。在一些实施方案中,多重编辑可以包括一个或多个具有单碱基编辑器系统的向导多核苷酸。在一些实施方案中,多重编辑可包含至少一种不需要pam序列来靶向结合靶标多核苷酸序列的向导多核苷酸。在一些实施方案中,多重编辑可包含至少一种向导多核苷酸,其需要pam序列靶向结合靶多核苷酸序列。在一些实施方案中,多重编辑可以包括至少一种不需要pam序列来靶向结合靶标多核苷酸序列的向导多核苷酸和至少一种需要pam序列来靶向结合靶标多核苷酸的向导多核苷酸的混合物序列。应当理解,使用本文所述的任何碱基编辑器的多重编辑的特征可以应用于使用本文提供的任何碱基编辑器的方法的任何组合。还应当理解,使用本文所述的任何碱基编辑器的多重编辑可以包括多个核碱基对的顺序编辑。[0998]在一些实施方案中,多个核碱基对于一个或多个基因中。在一些实施方案中,多个核碱基对在相同基因中。在一些实施方案中,一个或多个基因中的至少一个基因位于不同的基因座。[0999]在一些实施方案中,编辑是编辑至少一个蛋白质编码区中的多个核碱基对。在一些实施方案中,编辑是编辑至少一个蛋白质非编码区中的多个核碱基对。在一些实施方案中,编辑是编辑至少一个蛋白质编码区和至少一个蛋白质非编码区中的多个核碱基对。[1000]在一些实施方案中,编辑与一种或多种向导多核苷酸协同作用。在一些实施方案中,碱基编辑器系统可以包括一个或多个碱基编辑器系统。在一些实施方案中,碱基编辑器系统可以包含一个或多个碱基编辑器系统与单个向导多核苷酸协同作用。在一些实施方案中,碱基编辑器系统可包含一个或多个碱基编辑器系统与多个向导多核苷酸协同作用。在一些实施方案中,编辑与具有单碱基编辑器系统的一种或多种向导多核苷酸协同作用。在一些实施方案中,编辑与不需要pam序列来靶向结合靶标多核苷酸序列的至少一种向导多核苷酸协同作用。在一些实施方案中,编辑与需要pam序列来靶向结合靶标多核苷酸序列的至少一种向导多核苷酸协同作用。在一些实施方案中,编辑与不需要pam序列来靶向结合靶标多核苷酸序列的至少一种向导多核苷酸和需要pam序列来靶向结合靶标多核苷酸序列的至少一种向导多核苷酸的混合物协同作用。应当理解,使用本文所述的任何碱基编辑器的多重编辑的特征可以应用于使用本文提供的任何碱基编辑器的方法的任何组合。还应当理解,编辑可以包括多个核碱基对的顺序编辑。[1001]用于编辑核酸的方法[1002]本公开的一些方面提供用于编辑核酸的方法。在一些实施方案中,该方法是用于编辑编码蛋白质的核酸分子的核碱基(例如,双链dna序列的碱基对)的方法。在一些实施方案中,该方法包括以下步骤:a)使核酸的靶标区(例如,双链dna序列)与包含碱基编辑器和向导核酸(例如grna)的复合物接触,b)诱导该靶标区的链分离,c)将靶标区的单链中的靶标核碱基对的第一核碱基转化为第二核碱基,和d)使用ncas9切割不超过一条的该靶标区的链,其中与第一核碱基互补的第三核碱基被与第二核碱基互补的第四核碱基置换。在一些实施方案中,该方法导致核酸中少于20%的indel形成。应理解,在一些实施方案中,省略步骤b。在一些实施方案中,该方法导致小于19%、18%、16%、14%、12%、10%、8%、6%、4%、2%、1%、0.5%、0.2%或小于0.1%的indel形成。在一些实施方案中,该方法进一步包括用与第四核碱基互补的第五核碱基置换第二核碱基,从而产生预期的经编辑碱基对(例如,g·c到a·t)。在一些实施方案中,至少5%的预期碱基对被编辑。在一些实施方案中,至少10%、15%、20%、25%、30%、35%、40%、45%或50%的预期碱基对被编辑。[1003]在一些实施方案中,靶核苷酸中的预期产物与非预期产物的比率为至少2:1、5:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1或200:1或更高。在一些实施方案中,预期突变与indel形成的比率大于1:1、10:1、50:1、100:1、500:1或1000:1或更多。在一些实施方案中,经切割的单链(切口链)与向导核酸杂交。在一些实施方案中,经切割的单链与包含第一核碱基的链相反。在一些实施方案中,碱基编辑器包含dcas9域。在一些实施方案中,碱基编辑器保护或结合非编辑链。在一些实施方案中,预期的编辑碱基对在pam位点的上游。在一些实施方案中,预期的编辑碱基对是pam位点上游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,预期的编辑碱基对在pam位点的下游。在一些实施方案中,预期的编辑碱基对是pam位点下游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,该方法不需要标准pam位点(例如,ngg)。在一些实施方案中,核碱基编辑器包含连接子。在一些实施方案中,连接子为1-25个氨基酸的长度。在一些实施方案中,连接子为5-20个氨基酸的长度。在一些实施方案中,连接子为10、11、12、13、14、15、16、17、18、19或20个氨基酸的长度。在一些实施方案中,连接子长度为32个氨基酸的长度。在另一实施方案中,“长连接子”为至少约60个氨基酸的长度。在其他实施方案中,连接子在约3-100个氨基酸之间的长度。在一些实施方案中,靶标区包括靶标窗,其中靶标窗包括靶标核碱基对。在一些实施方案中,靶标窗包含1-10个核苷酸。在一些实施方案中,靶标窗为1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-2或1个核苷酸的长度。在一些实施方案中,靶标窗是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸的长度。在一些实施方案中,预期的编辑碱基对在靶标窗内。在一些实施方案中,靶标窗包括预期的编辑碱基对。在一些实施方案中,使用本文提供的任何碱基编辑器执行该方法。[1004]在一些实施方案中,本公开提供用于编辑核苷酸(例如,编码蛋白质的基因中的snp)的方法。在一些实施方案中,本公开提供一种用于编辑双链dna序列的核碱基对的方法。在一些实施方案中,该方法包括a)使双链dna序列的靶标区与包含碱基编辑器和向导核酸(例如grna)的复合物接触,其中靶标区包含靶标核碱基对,b)诱导该靶标区的链分离,c)将靶标区的单链中的靶标核碱基对的第一核碱基转化为第二核碱基,d)切割不超过一条该靶标区的链,其中与第一核碱基互补的第三核碱基被与第二核碱基互补的第四核碱基置换,并且第二核碱基被与第四核碱基互补的第五核碱基置换,从而产生预期的经编辑碱基对,其中产生预期的经编辑碱基对的效率为至少为5%。应当理解,在一些实施方案中,省略步骤b。在一些实施方案中,至少5%的预期碱基对被编辑。在一些实施方案中,至少10%、15%、20%、25%、30%、35%、40%、45%或50%的预期碱基对被编辑。在一些实施方案中,该方法导致少于19%、18%、16%、14%、12%、10%、8%、6%、4%、2%、1%、0.5%、0.2%或少于0.1%indel形成。在一些实施方案中,靶标核苷酸处的预期产物与非预期产物的比率为至少2:1、5:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1或200:1或更多。在一些实施方案中,预期突变与indel形成的比率大于1:1、10:1、50:1、100:1、500:1或1000:1或更多。在一些实施方案中,经切割的单链与向导核酸杂交。在一些实施方案中,经切割的单链与包含第一核碱基的链相反。在一些实施方案中,预期的经编辑碱基对在pam位点的上游。在一些实施方案中,预期的经编辑碱基对是pam位点上游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,预期的经编辑碱基对在pam位点的下游。在一些实施方案中,预期的经编辑碱基对是pam位点下游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,该方法不需要标准pam位点(例如,ngg)。在一些实施方案中,连接子为1-25个氨基酸的长度。在一些实施方案中,连接子为5-20个氨基酸的长度。在一些实施方案中,连接子为10、11、12、13、14、15、16、17、18、19或20个氨基酸的长度。在一些实施方案中,靶标区包括靶标窗,其中靶标窗包括靶标核碱基对。在一些实施方案中,靶标窗包含1-10个核苷酸。在一些实施方案中,靶标窗为1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-2或1个核苷酸的长度。在一些实施方案中,靶标窗为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸的长度。在一些实施方案中,预期的经编辑碱基对出现在靶标窗内。在一些实施方案中,靶标窗包括预期的经编辑碱基对。在一些实施方案中,核碱基编辑器是本文提供的任一碱基编辑器。[1005]融合蛋白在宿主细胞内的表达[1006]本发明的包含腺苷脱氨酶变体的融合蛋白可以使用所属
技术领域
:普通技术人员已知的常规方法在实际上任何感兴趣的宿主细胞中表达,包括但不限于细菌、酵母菌、真菌、昆虫、植物和动物细胞。例如,可以通过基于cdna序列为cds的上游和下游设计合适的引子以克隆编码本发明的腺苷脱氨酶的dna。克隆的dna可以直接、或在需要时用限制酶消化后、或在添加合适的连接子和/或核定位信号后与编码碱基编辑系统的一种或多种额外组分的dna连接。碱基编辑系统在宿主细胞中被翻译以形成复合物。[1007]编码本文所描述的蛋白质结构域的dna可以通过化学合成dna获得,或者通过利用pcr法和gibson组装法连接合成的部分重叠的寡聚dna短链以构建编码其全长的dna。通过化学合成或pcr方法或gibsonassembly方法的组合构建全长dna的优点是可以根据引入dna的宿主以cds全长形式设计要使用的密码子。在异源dna的表达中,通过将其dna序列转化为宿主生物中频繁使用的密码子,预计增加蛋白质表达水平。作为要使用的宿主密码子使用频率数据,例如,可以使用kazusadnaresearchinstitute主页中公开的遗传密码使用频率数据库(http://www.kazusa.or.jp/codon/index.html),也可以参考显示每个宿主中密码子使用频率的文件。参考获得的数据和要引入的dna序列,可以将用于dna序列的那些密码子中的在宿主中显示低使用频率的密码子转换为编码相同氨基酸的显示高使用频率的密码子。[1008]含有编码核酸序列识别模块和/或核酸碱基转化酶的dna的表达载体可以例如通过将dna连接到合适表达载体中的启动子的下游而产生。[1009]作为表达载体,使用大肠杆菌(escherichiacoli)衍生的质粒(例如,pbr322、pbr325、puc12、puc13);枯草芽孢杆菌(bacillussubtilis)衍生的质粒(例如,pub110、ptp5、pc194);酵母菌衍生的质粒(例如,psh19、psh15);昆虫细胞表达质粒(例如,pfast-bac);动物细胞表达质粒(例如,pa1-11、pxt1、prc/cmv、prc/rsv、pcdnai/neo);噬菌体如λ噬菌体等;昆虫病毒载体如杆状病毒等(例如,bmnpv、acnpv);动物病毒载体如逆转录病毒、痘病毒、腺病毒等等。[1010]作为启动子,可以使用适合用于基因表达的宿主的任何启动子。在使用dsb的常规方法中,由于宿主细胞的存活率有时会因毒性而显著降低,因此期望通过使用诱导启动子在诱导开始时增加细胞数。然而,由于通过表达本发明的核酸-修饰酶复合物也可提供足够的细胞增殖,因此也可以不受限制地使用构成启动子。[1011]例如,当宿主为动物细胞时,使用sr.α.启动子、sv40启动子、ltr启动子、cmv(巨细胞病毒)启动子、rsv(劳斯肉瘤(roussarcoma)病毒)启动子、momulv(莫洛尼小鼠白血病病毒)ltr、hsv-tk(单纯疱疹病毒胸苷激酶)启动子等。它们中,优选cmv启动子、sr.α.启动子等。[1012]当宿主为大肠杆菌(escherichiacoli)时,优选trp启动子、lac启动子、reca启动子、λpl启动子、lpp启动子、t7启动子等。[1013]当宿主为芽孢杆菌属时,优选spo1启动子、spo2启动子、penp启动子等。[1014]当宿主为酵母菌时,优选gal1/10启动子、pho5启动子、pgk启动子、gap启动子、adh启动子等。[1015]当宿主为昆虫细胞时,优选多角体蛋白启动子、p10启动子等。[1016]当宿主为植物细胞时,优选camv35s启动子、camv19s启动子、nos启动子等。[1017]作为表达载体,除上述载体外,还可根据需要使用表达载体,其含有增强子、剪接信号、终止子、polya添加信号、抗药性基因、营养缺陷型互补基因等选择标记、复制起点等。[1018]编码本文所述蛋白质结构域的rna可以通过,例如,在本身已知的体外转录系统中,通过使用编码上述核酸序列识别模组和/或核酸碱基转化酶的编码dna的载体转录为mrna作为模板而制备。[1019]本发明的融合蛋白可以通过将含有编码核酸序列-识别模组和/或核酸碱基转化酶的dna的表达载体引入宿主细胞并培养宿主细胞而在细胞内表达。[1020]作为宿主,使用埃希氏菌属(escherichia)、芽孢杆菌属、酵母菌、昆虫细胞、昆虫、动物细胞等。[1021]作为埃希氏菌属,使用大肠杆菌(escherichiacoli)k12.cndot.dh1[proc.natl.acad.sci.usa,60,160(1968)]、大肠杆菌(escherichiacoli)jm103[nucleicacidresearch,9,309(1981)]、大肠杆菌(escherichiacoli)ja221[journalofmolecularbiology,120,517(1978)]、大肠杆菌(escherichiacoli)hb101[journalofmolecularbiology,41,459(1969)]、大肠杆菌(escherichiacoli)c600[genetics,39,440(1954)]等。[1022]作为芽孢菌属,使用枯草芽孢杆菌(bacillussubtilis)m1114[gene,24,255(1983)]、枯草芽孢杆菌(bacillussubtilis)207-21[journalofbiochemistry,95,87(1984)]等。[1023]作为酵母菌,使用酿酒酵母(saccharomycescerevisiae)ah22、ah22r.sup.-、na87-11a、dkd-5d、20b-12,粟酒裂殖酵母(schizosaccharomycespombe)ncyc1913、ncyc2036,毕赤酵母(pichiapastoris)km71等。[1024]作为当病毒为acnpv时的昆虫细胞,使用白菜夜蛾幼虫来源的细胞建立系(草地夜蛾细胞(spodopterafrugiperda);sf细胞)、衍生自粉纹夜蛾(trichoplusiani)中肠的mg1细胞、衍生自粉纹夜蛾的卵的highfive.tm细胞、甘蓝夜蛾(mamestrabrassicae)衍生的的细胞、中华竹潜甲(estigmenaacrea)衍生的细胞等。当病毒为bmnpv时,使用家蚕(bombyxmori)衍生的建立系(家蚕n细胞;bmn细胞)等作为昆虫细胞。以sf细胞为例,例如,使用sf9细胞(atcccrl1711)、sf21细胞[所有上述者,invivo,13,213-217(1977)]等。[1025]作为昆虫,例如,使用家蚕(bombyxmori)、果蝇、蟋蟀等[nature,315,592(1985)]。[1026]作为动物细胞,使用细胞系如猴cos-7细胞、猴vero细胞、中国仓鼠卵巢(cho)细胞、dhfr基因缺陷型cho细胞、小鼠l细胞、小鼠att-20细胞、小鼠骨髓瘤细胞、大鼠gh3细胞、人类fl细胞等,人类和其他哺乳动物的诱导多能干细胞如ips细胞、es细胞等以及由各种组织制备的原代培养细胞等。再者,也可使用斑马鱼胚胎、蟾(xenopus)卵母细胞等。[1027]作为植物细胞,使用悬浮培养的细胞、愈伤组织、原生质粒、叶段、根段等由各种植物(例如水稻、小麦、玉米等谷物,如番茄、黄瓜、茄子等产品作物,如康乃馨、洋桔梗等园林植物,如烟草、拟南芥(arabidopsisthaliana)等实验植物等)制备而成。[1028]所有上述宿主细胞都可以是单倍体(一倍体),也可以是多倍体(例如二倍体、三倍体、四倍体等)。在传统的突变引入方法中,突变原则上只引入一个同源染色体内以产生异种基因类型。因此,除非发生显性突变,否则不表达所需的表型,并且纯合子不方便地耗时耗力。相比之下,根据本发明,由于可以将突变引入基因组中同源染色体上的任何等位基因,因此即使在隐性突变的情况下也可以在一代内表达所需的表型,这非常有用,因为可以解决传统方法的问题。[1029]表达载体可以通过已知的方法(例如溶菌酶法、感受态法、peg法、cacl2共沉淀法、电穿孔法、显微注射法、颗粒枪法、脂质转染法、农杆菌法等)根据宿主的种类而引入。[1030]大肠杆菌(escherichiacoli)可根据记载于下述的方法转化,例如,proc.natl.acad.sci.usa,69,2110(1972),gene,17,107(1982)等。[1031]芽孢杆菌属可根据记载于下述的方法引入载体内,例如,molecular&generalgenetics,168,111(1979)等。[1032]酵母菌可根据记载于下述的方法引入载体内,例如,methodsinenzymology,194,182-187(1991),proc.natl.acad.sci.usa,75,1929(1978)等。[1033]昆虫细胞和昆虫可根据记载于下述的方法引入载体内,例如,bio/technology,6,47-55(1988)等。[1034]动物细胞可根据记载于下述的方法引入载体内,例如,cellengineeringadditionalvolume8,newcellengineeringexperimentprotocol,263-267(1995)(publishedbyshujunsha),andvirology,52,456(1973)。[1035]已引入载体内的细胞可以根据宿主的种类根据周知的方法培养。[1036]例如,当培养大肠杆菌(escherichiacoli)或芽孢杆菌属时,液体培养基优选作为用于培养的培养基。培养基优选含有转化体生长所需的碳源、氮源、无机物等。碳源的实例包括葡萄糖、糊精、可溶性淀粉、蔗糖等;氮源的实例包括无机或有机物质,例如铵盐、硝酸盐、玉米浆、蛋白胨、酪蛋白、肉抽取物、豆饼、马铃薯抽取物等。无机物的实例包括氯化钙、磷酸二氢钠、氯化镁等。培养基可以含有酵母抽取物、维生素、生长促进因子等。培养基的ph优选为约5-约8。[1037]作为培养大肠杆菌(escherichiacoli)的培养基,例如,优选含有葡萄糖、酪蛋白氨基酸的m9培养基[journalofexperimentsinmoleculargenetics,431-433,coldspringharborlaboratory,newyork1972]。当需要时,可以向培养基中加入3.β-吲哚基丙烯酸等剂以确保启动子的有效功能。大肠杆菌(escherichiacoli)一般在约15℃至约43℃培养。当需要时,可进行通气和搅拌。[1038]芽孢杆菌属一般在约30℃至约40℃培养于。当需要时,可进行通气和搅拌。[1039]用于培养酵母菌的培养基实例包括burkholder最低培养基[proc.natl.acad.sci.usa,77,4505(1980)]、含有0.5%酪蛋白氨基酸的sd培养基[proc.natl.acad.sci.usa,81,5330(1984)]等。培养基的ph优选约5至约8。培养基一般在约20℃至约35℃进行。当需要时,可进行通气和搅拌。[1040]作为用于培养昆虫细胞或昆虫的培养基,例如,使用含有添加剂如失活的10%胎牛血清等合适的grace's昆虫培养基[nature,195,788(1962)]等。培养基的ph优选约6.2至约6.4。培养基一般在约27℃进行。当需要时,可进行通气和搅拌。[1041]作为培养动物细胞的培养基,例如,使用含有约5%至约20%胎牛血清的最小必需培养基(mem)[science,122,501(1952)]、’杜尔贝科改进伊格尔培养基(dmem)[virology,8,396(1959)]、rpmi1640培养基[thejournaloftheamericanmedicalassociation,199,519(1967)]、199培养基[proceedingofthesocietyforthebiologicalmedicine,73,1(1950)]等。培养基的ph优选约6至约8。培养基一般在约30℃至约40℃进行。当需要时,可进行通气和搅拌。[1042]作为培养植物细胞的培养基,例如,使用ms培养基、ls培养基、b5培养基等。培养基的ph优选约5至约8。培养基一般在约20℃至约30℃进行。当需要时,可进行通气和搅拌。.[1043]当使用高等真核细胞,例如动物细胞、昆虫细胞、植物细胞等作为宿主细胞时,将编码本发明碱基编辑系统(例如,包含腺苷脱氨酶变体)的dna引入处于诱导型启动子(例如,金属硫蛋白启动子(由重金属离子诱导)、热休克蛋白启动子(由热休克诱导)、tet-on/tet-off系统启动子(通过添加或去除四环素诱导)、类固醇反应启动子(由类固醇激素或其衍生物诱导)等)调控下的宿主细胞或其衍生物内,在适当的阶段将诱导物质加入培养基中(或从培养基中去除)以诱导核酸-修饰酶复合物的表达,培养一定时间进行碱基编辑,将突变引入靶标基因内,可实现碱基编辑系统的瞬时表达。[1044]原核生物细胞如大肠杆菌(escherichiacoli)等可利用诱导型启动子。诱导型启动子的实例包括但不限制于,lac启动子(由iptg诱导)、cspa启动子(由冷休克诱导)、arabad启动子(由阿拉伯糖诱导)等。[1045]替代地,当以动物细胞、昆虫细胞、植物细胞等高等真核细胞作为宿主细胞时,也可以利用上述诱导型启动子作为载体去除机制。即,载体安装有在宿主细胞中起作用的复制起点和编码复制所必需的蛋白质的核酸(例如,sv40和大t抗原、orip和ebna-1等,用于动物细胞),编码蛋白质的核酸的表达受上述诱导型启动子调控。因此,虽然载体在诱导物质存在的情况下可以自主复制,但当去除诱导物质时,自主复制不可用,载体自然随着细胞分裂而脱落(通过添加不能自主复制tet-off系统载体中的四环素和强力霉素)。[1046]递送系统[1047]核碱基编辑器和grna的核酸系递送[1048]可以通过所属
技术领域
:已知的方法或如本文所描述,在体外或体内将编码根据本公开内容的碱基编辑系统的核酸施用至受试者或递送至细胞中。在一种实施方案中,核碱基编辑器可以通过,例如,载体(例如病毒或非病毒载体)、基于非载体的方法(例如,使用裸dna、dna复合物、脂质纳米颗粒)或其组合递送。在一种实施方案中,核碱基编辑器被选择性地递送至细胞(例如,肝细胞、胚胎干细胞、诱导多能干细胞(ipsc)、类器官)。在其他实施方案中,将编码核碱基编辑器的核酸递送至肝细胞(肝)细胞或其祖细胞,和/或包含α1抗胰蛋白酶(a1at)基因突变的诱导多能干细胞。此类细胞可用于测定α1抗胰蛋白酶基因编辑的功能效果。在一种实施方案中,在肝细胞中检查改变的α1抗胰蛋白酶基因的作用。[1049]编码核碱基编辑器的核酸可以以裸dna或rna的形式直接递送至细胞(例如,造血细胞或其祖细胞、造血干细胞和/或诱导多能干细胞),例如通过转染或电穿孔,或者可以与促进靶细胞摄取的分子(例如,n-乙酰基半乳糖胺)结合。也可以使用核酸载体,例如本文所述的载体。[1050]核酸载体可包含编码本文所述融合蛋白的结构域的一个或多个序列。载体还可包含编码信号肽(例如,用于核定位、核仁定位或粒线体定位)的序列,该序列与编码蛋白质的序列缔合(例如,插入或融合)。作为一实例,核酸载体可以包括cas9编码序列,其包括一个或多个核定位序列(例如,来自sv40的核定位序列)和腺苷脱氨酶变体(例如,abe8)。[1051]核酸载体还可包括任何合适数量的调节/控制元件,例如启动子、增强子、内含子、聚腺苷酸化信号、kozak共有序列或内部核糖体进入位点(ires)。这些元件为本领域已知的。对于造血细胞,合适的启动子可以包括ifnβ或cd45。[1052]根据本公开的核酸载体包括重组病毒载体。示例性病毒载体在本文中阐述。也可以使用所属
技术领域
:周知的其他病毒载体。此外,病毒颗粒可用于递送核酸和/或肽形式的碱基编辑系统组件。例如,“空”病毒颗粒可以组装成包含任何合适的载运物。病毒载体和病毒颗粒也可以设计成结合靶向配体以改变靶标组织特异性。[1053]除了病毒载体,非病毒载体也可用于递送编码根据本公开的基因组编辑系统的核酸。一类重要的非病毒核酸载体是纳米颗粒,其可以为有机的或无机的。纳米颗粒是所属
技术领域
:已知的。任何合适的纳米颗粒设计均可用于递送基因组编辑系统组件或编码此类组件的核酸。例如,有机(例如脂质和/或聚合物)纳米颗粒可适合用作本公开的某些实施方案中的递送载体。用于纳米颗粒制剂和/或基因转移的示例性脂质显示在(下)表10中。[1054]表10[1055][1056][1057]表11列举用于基因转移和/或纳米颗粒制剂的示例性聚合物[1058]表11[1059][1060][1061]表12总结了用于编码本文所描述的融合蛋白的多核苷酸的递送方法。[1062]表12[1063][1064][1065]另一方面,如cas9或其变体,以及靶向感兴趣的基因组核酸序列的grna的递送,可以通过递送核糖核蛋白(rnp)到细胞而完成。rnp包含与靶向grna复合的核酸结合蛋白质,例如cas9。可以使用已知方法将rnp递送至细胞,例如电穿孔、核转染或阳离子脂质介导的方法,例如,报导于zuris,j.a.等人,2015,nat.biotechnology,33(1):73-80。rnp有利于在crispr基础编辑系统中使用,特别是对于难以转染的细胞,如初代细胞。此外,rnp还可以减轻细胞中蛋白质表达可能出现的困难,尤其是当真核启动子(例如crispr质粒中使用的cmv或ef1a)没有很好表达时。有利地,rnp的使用不需要将外源dna递送到细胞中。此外,由于包含核酸结合蛋白质和grna复合物的rnp会随时间降解,因此使用rnp有可能限制脱靶效应。以类似于基于质粒的技术的方式,rnp可用于递送结合蛋白质(例如,cas9变体)和引导同源定向修复(hdr)。[1066]用于驱动碱基编辑器编码核酸分子表达的启动子可包括aavitr。这有利于消除对额外启动子元件的需要,该元件可占据载体中的空间。释放的额外空间可用于驱动额外元件的表达,例如向导核酸或选择标记。itr活性相对较弱,因此可用于降低因所选核酸酶过度表达而导致的潜在毒性。[1067]可使用任何合适的启动子驱动碱基编辑器和在适当情况下驱动核酸的表达。对于无处不在的表达,可以使用的启动子包括cmv、cag、cbh、pgk、sv40、铁蛋白重链或轻链等。对于脑或其他cns细胞表达,合适的启动子可以包括:用于所有神经元的synapsini,用于兴奋性神经元的camkiialpha,用于gaba能神经元的gad67或gad65或vgat等。对于肝细胞表达,合适的启动子包括白蛋白启动子。对于肺细胞表达,合适的启动子可包括sp-b。对于内皮细胞,合适的启动子可包括icam。对于造血细胞,合适的启动子可包括ifnβ或cd45。对于成骨细胞,合适的启动子可包括og-2。[1068]在一些实施方案中,本公开的碱基编辑器具有足够小的尺寸以允许单独的启动子驱动碱基编辑器和相容的向导核酸在同一核酸分子内的表达。例如,载体或病毒载体可包含与编码碱基编辑器的核酸可操作连接的第一启动子和与向导核酸可操作连接的第二启动子。[1069]用于驱动向导核酸表达的启动子可包括:poliii启动子,例如u6或h1。使用polii启动子和内含子盒以表达grna腺相关病毒(aav)。[1070]病毒载体[1071]因此,本文所描述的碱基编辑器可利用病毒载体递送。在一些实施方案中,本文公开的碱基编辑器可以为核酸所编码,该核酸含有于病毒载体。在一些实施方案中,碱基编辑器系统的一个或多个组件可编码于一个或多个病毒载体。例如,碱基编辑器和向导核酸可编码于单一病毒载体。在其他实施方案中,碱基编辑器和向导核酸编码于不同的病毒载体。在其他情况下,碱基编辑器和向导核酸可各自可操作的连接至启动子和终止子。编码于病毒载体的成分的组合可通过所选择的病毒载体的载运物大小限制进行测定。[1072]使用基于rna或dna病毒的系统递送碱基编辑器,利用高度进化的过程将病毒靶向培养中或宿主中的特定细胞,并将病毒有效载荷运送到细胞核或宿主细胞基因组。病毒载体可以直接施用于培养中的细胞、患者(体内),或者它们可以用于体外处理细胞,并且可以任选地将修饰的细胞施用于患者(离体)。传统的基于病毒的系统可以包括用于基因转移的逆转录病毒、慢病毒、腺病毒、腺相关病毒和单纯疱疹病毒载体。逆转录病毒、慢病毒和腺相关病毒基因转移方法可以整合到宿主基因组体,通常会导致插入的转基因长期表达。此外,在许多不同的细胞类型和靶组织中都观察到高转导效率。[1073]病毒载体可包括慢病毒(例如,基于hiv和fiv的载体)、腺病毒(例如,ad100)、逆转录病毒(例如,莫洛尼小鼠白血病病毒mml-v)、疱疹病毒载体(例如,hsv-2)和腺-相关病毒(aav)或其他质粒或病毒载体类型,特别是使用来自例如,美国专利号8,454,972(腺病毒的制剂、剂量)、美国专利号8,404,658(aav的制剂、剂量)和美国专利号5,846,946(dna质粒的制剂、剂量)以及来自涉及慢病毒、aav和腺病毒的临床试验的临床试验和文献。例如,对于aav,施用途径、制剂和剂量可以如美国专利号8,454,972和涉及aav的临床试验。对于腺病毒,施用途径、制剂和剂量可以如美国专利号8,404,658和涉及腺病毒的临床试验。对于质粒递送,施用途径、制剂和剂量可以如美国专利号5,846,946和涉及质粒的临床研究。剂量可以基于或外推到平均70公斤的个体(例如,成年男性),并且可以针对不同体重和物种的患者、受试者、哺乳动物进行调整。施用频率在医学或兽医从业者(例如,医师、兽医)的知识范围内,这取决于通常的因素,包括患者或受试者的年龄、性别、一般健康状况、其他状况以及正在解决的特定状况或症状。病毒载体可以注射到感兴趣的组织中。对于细胞类型特异性碱基编辑,碱基编辑器和可选向导核酸的表达可由细胞类型特异性启动子驱动。在一些方面,本公开内容涉及使用例如,病毒载体,例如,慢病毒载体或重组腺相关病毒载体,靶向α1抗胰蛋白酶突变的核碱基编辑器的病毒递送。[1074]逆转录病毒的趋向性可以通过掺入外来包膜蛋白来改变,扩大靶标细胞的潜在靶标群体。慢病毒载体是能够转导或感染非分裂细胞并通常产生高病毒效价的逆转录病毒载体。因此,逆转录病毒基因转移系统的选择将取决于靶标组织。逆转录病毒载体由顺式作用的长末端重复序列组成,其包装容量高达6-10kb的外源序列。最小的顺式作用ltr足以复制和包装载体,然后用于将治疗基因整合到靶标细胞中以提供永久的转基因表达。广泛使用的逆转录病毒载体包括基于小鼠白血病病毒(mulv)、长臂猿白血病病毒(galv)、猿猴免疫缺陷病毒(siv)、人类免疫缺陷病毒(hiv)及其组合的那些(参见例如,buchscher等人,j.virol.66:2731-2739(1992);johann等人,j.virol.66:1635-1640(1992);sommnerfelt等人,virol.176:58-59(1990);wilson等人,j.virol.[1075]63:2374-2378(1989);miller等人,j.virol.65:2220-2224(1991);[1076]pct/us94/05700)。[1077]逆转录病毒载体,尤其是慢病毒载体,可能需要小于给定长度的多核苷酸序列以有效整合到靶标细胞中。例如,长度大于9kb的逆转录病毒载体与较小的病毒载体相比,导致病毒效价较低。在一些方面,本公开内容的碱基编辑器具有足够的大小以使得能够通过逆转录病毒载体有效包装和递送到靶标细胞。在一些实施方案中,碱基编辑器的大小使得即使在与向导核酸和/或可靶向核酸酶系统的其他组分一起表达时也允许有效包装和递送。[1078]在瞬时表达为优选的应用中,最好使用基于腺病毒的系统。基于腺病毒的载体能够在许多细胞类型中具有非常高的转导效率并且不需要细胞分裂。使用这样的载体,已经获得高效价和表达水平。这种载体可以在一个相对简单的系统中大量产生。腺相关病毒(“aav”)载体也可用于以靶标核酸转导靶标细胞,在体外生产,例如,用于体内和离体基因治疗程序的核酸和肽(参见例如,west等人,virology160:38-47(1987);美国专利号4,797,368;wo93/24641;kotin,humangenetherapy5:793-801(1994);muzyczka,j.clin.invest.94:1351(1994))。重组aav载体的构造描述于各种文献,包括美国专利号5,173,414;tratschin等人,mol.cell.biol.5:3251-3260(1985);tratschin,等人,mol.cell.biol.4:2072-2081(1984);hermonat&muzyczka,pnas81:6466-6470(1984);和samulski等人,j.virol.63:03822-3828(1989)。[1079]aav是一种小型的单链dna依赖性病毒,属于细小病毒家族。4.7kb野生型(wt)aav基因组由两个基因组成,分别编码四种复制蛋白和三种衣壳蛋白,侧翼各有145bp反向末端重复序列(itr)。病毒颗粒由三种衣壳蛋白vp1、vp2和vp3组成,它们以1:1:10的比例从相同的开读框产生,但来自差异剪接(vp1)和替代翻译起始位点(分别为vp2和vp3)。vp3是病毒体中最丰富的亚基,参与定义病毒向性的细胞表面受体识别。已在vp1的独特n-端鉴定出一个在病毒感染性中发挥作用的磷脂酶结构域。[1080]类似于wtaav,重组aav(raav)在载体转基因盒的侧翼采用顺式作用的145bpitr,提供高达4.5kb的外源dna包装。感染后,raav可以表达本发明的融合蛋白,并且通过以环状头尾串联体的附加型存在而持续存在并且不整合到宿主基因组中。尽管有许多使用该系统在体外和体内成功的raav实例,但当基因编码序列的长度等于或大于wtaav基因组时,受限的包装能力已限制aav介导的基因递送的使用。[1081]可基于应用选择病毒载体。例如,对于体内基因递送,aav可能优于其他病毒载体。在一些实施方案中,aav允许低毒性,这可能是由于纯化方法不需要可以激活免疫反应的细胞颗粒的超速离心。在一些实施方案中,aav允许引起插入所致诱变的可能性很低,因为它不整合到宿主基因组中。腺病毒通常用作疫苗,因为它们诱导强烈的免疫原性反应。病毒载体的包装能力可限制可包装到载体的碱基编辑器的尺寸。[1082]aav的包装容量约为4.5kb或4.75kb,包括两个145碱基反向末端重复序列(itr)。这意味着公开的碱基编辑器以及启动子和转录终止子可以适合单一病毒载体。大于4.5或4.75kb的构造体可导致病毒产量显著降低。比如spcas9很大,基因本身就超过4.1kb,很难用于包装至aav。因此,本公开的实施方案包括利用长度比传统碱基编辑器短的所公开碱基编辑器。在一些实施例中,碱基编辑器小于4kb。所公开的碱基编辑器可以为小于4.5kb、4.4kb、4.3kb、4.2kb、4.1kb、4kb、3.9kb、3.8kb、3.7kb、3.6kb、3.5kb、3.4kb、3.3kb、3.2kb、3.1kb、3kb、2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2kb或1.5kb。在一些实施方案中,所公开的碱基编辑器为4.5kb或更小的长度。[1083]aav可以为aav1、aav2、aav5或其任何组合。可根据待靶向的细胞选择aav的类型;例如,可选择aav血清型1、2、5或混合衣壳aav1、aav2、aav5或其任何组合,用以靶向脑或神经元细胞;并且可选择aav4以靶向心脏组织。aav8可用于递送至肝脏。关于这些细胞的某些aav血清型的列表可见于grimm,d.etal,j.virol.82:5887-5911(2008))。[1084]慢病毒是复杂的逆转录病毒,具有在有丝分裂和有丝分裂后细胞中感染和表达其基因的能力。最常见的慢病毒是人类免疫缺陷病毒(hiv),它使用其他病毒的包膜糖蛋白来靶向广泛的细胞类型。[1085]慢病毒可以如下制备。克隆pcases10(包含慢病毒转移质粒主链)后,将低继代(p=5)的hek293ft接种到t-75烧瓶中,在转染前一天在含有10%胎牛血清且不含抗生素的dmem中达到50%汇合。20小时后,将培养基更换为optimem(无血清)培养基,4小时后进行转染。用10μg慢病毒转移质粒(pcases10)和以下包装质粒转染细胞:5μgpmd2.g(vsv-g假型)和7.5μgpspax2(gag/pol/rev/tat)。可以在4mloptimem中使用阳离子脂质递送剂(50μllipofectamine2000和100ulplus试剂)进行转染。6小时后,将培养基更换为含10%胎牛血清的不含抗生素的dmem。这些方法在细胞培养过程中使用血清,但优选无血清方法。[1086]慢病毒可以如下纯化。48小时后收获病毒上清液。上清液首先清除碎屑,然后通过0.45μm低蛋白结合(pvdf)过滤器过滤然后将它们在超速离心机中以24,000rpm的速度旋转2小时。病毒颗粒在50μldmem中于4℃重新悬浮过夜。然后分液并立即在-80℃冷冻。[1087]在另一实施方案中,还考虑基于马传染性贫血病毒(eiav)的最小非灵长类慢病毒载体。在另一实施方案中,retinostat.rtm.,一种基于马传染性贫血病毒的慢病毒基因治疗载体,其表达预期经由视网膜下注射递送的血管抑制蛋白质内皮抑制素和血管抑制素。在另一实施方案中,考虑使用自我失活的慢病毒载体。[1088]该系统的任何rna,例如,向导rna或碱基编辑器编码的mrna,都可以rna的形式递送。可以使用体外转录生成碱基编辑器编码mrna。例如,可使用包含以下元件的pcr盒合成核酸酶mrna:t7启动子、可选的kozak序列(gccacc)、核酸酶序列和3'utr,例如,来自β珠蛋白-polya尾的3'utr。该盒可用于t7聚合酶的转录。向导多核苷酸(例如,grna)也可使用体外转录从包含t7启动子的盒中转录,然后是序列“gg”和向导多核苷酸序列。[1089]为了增强表达和降低可能的毒性,碱基编辑器-编码序列和/或向导核酸可以经修饰以包括一个或多个已修饰的核苷,例如,使用假-u或5-甲基-c。[1090]aav载体的小包装容量使得大量基因的递送和/或大型生理调控元件的使用具有挑战性。例如,可通过将要递送的蛋白质分成两个或多个片段来解决这些挑战,其中n-端片段融合至分裂的内含肽-n,并且c-端片段与分裂的内含肽-c融合。然后将这些片段包装到两个或多个aav载体中。如本文所用,“内含子”是指连接侧翼n-端和c-端外显子(例如,要连接的片段)的自剪接蛋白质内含子(例如,肽)。某些内含肽用于连接异源蛋白质片段的用途,例如,wood等人,j.biol.chem.289(21);14512-9(2014)。例如,当融合至分开的蛋白质片段时,内含肽intn和intc相互识别,将自身剪断并同时连接它们所融合的蛋白质片段的侧翼n端和c端外显肽,从而重建来自两个蛋白质片段的全长蛋白质。其他合适的内含肽对所属
技术领域
:普通技术人员为明显可知。[1091]本发明的融合蛋白的片段长度可变化。在一些实施方案中,蛋白质片段的长度为2个氨基酸至约1000个氨基酸。在一些实施方案中,蛋白质片段的长度为约5个氨基酸至约500个氨基酸。在一些实施方案中,蛋白质片段的长度范围为约20个氨基酸至约200个氨基酸。在一些实施方案中,蛋白质片段的长度范围为约10个氨基酸至约100氨基酸。其他长度的合适蛋白质片段对所属
技术领域
:普通技术人员为明显可知。[1092]在一种实施方案中,双aav载体是通过将一个大的转基因表达盒分成两个独立的一半(5'末端和3'末端,或头和尾)来生成的,其中每一半的表达盒都包装在一个aav载体(《5kb)中。然后通过两种双aav载体共感染同一细胞,然后实现全长转基因表达盒的重新组装,随后:(1)5'和3'基因组之间的同源重组(hr)(双aav重叠载体);(2)itr介导的5'和3'基因组的尾对头串联(双aav反式剪接载体);或(3)这两种机制的组合(双aav混合载体)。在体内使用双aav载体导致全长蛋白质的表达。双aav载体平台的使用代表一种有效且可行的基因转移策略,适用于尺寸大于4.7kb的转基因。[1093]内含肽[1094]在一些实施方案中,核酸酶(例如,cas9)的部分或片段融合至内含肽。核酸酶可融合至内含肽的n-端或c-端。在一些实施方案中,融合蛋白的部分或片段融合至内含肽且融合至aav衣壳蛋白。内含肽、核酸酶和衣壳蛋白可以任何排列一起融合为(例如,核酸酶-内含肽-衣壳、内含肽-核酸酶-衣壳、衣壳-内含肽-核酸酶等)。在一些实施方案中,内含肽的n-端融合至融合蛋白的c-端且内含肽的c-端融合至aav衣壳蛋白的n-端。[1095]内含肽(中间蛋白)是在各种不同生物体中发现的自动加工结构域,其执行称为蛋白质剪接的过程。蛋白质剪接是一个多步骤的生化反应,包括肽键的断裂和形成。虽然蛋白质剪接的内源底物是在含有内含肽的生物体中发现的蛋白质,但内含肽也可用于化学操作几乎任何多肽主链。[1096]在蛋白质剪接中,内含肽通过切割两个肽键将自身从前体多肽中切除,从而通过形成新的肽键连接侧翼外显肽(外部蛋白)序列。这种重排发生在翻译后(或可能是共同翻译)。内含肽介导的蛋白质剪接自发性发生,只需要内含肽结构域的折叠。[1097]大约5%的内含肽是分裂内含肽,它们被转录和翻译为两个独立的多肽,n-内含肽和c-内含肽,每个都融合到一个外显肽。翻译后,内含肽片段自发地非共价组装成典型的内含肽结构以进行蛋白质反式剪接。蛋白质剪接的机制需要一系列酰基转移反应,导致内含肽-外显肽连接处的两个肽键断裂,并在n-外显肽和c-外显肽之间形成新的肽键。该过程通过激活连接n-外显肽和内含肽n-端的肽键而启动。几乎所有内含肽在其n-端都有一个半胱氨酸或丝氨酸,它们攻击c-端n-外显肽残基的羰基碳。此n到o/s的酰基转移是由保守的苏氨酸和组氨酸(称为txxh基序)以及常见的天冬氨酸一起促进的,导致形成线性(硫)酯中间体。其次,该中间体通过第一个c-外显肽残基(+1)的亲核攻击进行反式(硫)酯化,该残基是半胱氨酸、丝氨酸或苏氨酸。产生的分支化(硫)酯中间体通过独特的转化得到分解:内含肽的高度保守的c-端天冬酰氨的环化。此过程由组氨酸(在高度保守的hnf基序中发现)和倒数第二个组氨酸促进,也可能涉及天冬氨酸。此琥珀酰亚胺形成反应从反应复合物中切除内含肽,并留下通过非肽键连接的外含肽。此结构以独立于内含肽的方式迅速重排成稳定的肽键。[1098]在一些实施方案中,碱基编辑器(例如abe、cbe)的n-端片段与分裂的内含肽-n和c-端片段融合质分裂的内含肽-c。然后将这些片段包装到两个或更多个aav载体中。某些内含肽用于连接异源蛋白质片段的用途,例如wood等人,j.biol.chem.289(21);14512-9(2014)。例如,当融合至分离的蛋白质片时,内含肽intn和intc相互识别,将自身剪断并同时连接它们所融合的蛋白质片段的侧翼n和c-端外显肽,从而重建来自两个蛋白质片段的全长蛋白质。其他合适的内含肽对所属
技术领域
:普通技术人员为明显可知。[1099]在一些实施方案中,abe在spcas9的选定区内的ala、ser、thr或cys残基处分裂成n-和c-端片段。这些区对应于由cas9晶体结构分析确定的环区。每个片段的n-端融合至内含肽-n,并且每个片段的c-端在氨基酸位置s303、t310、t313、s355、a456、s460、a463、t466、s469、t472、t474、c574、s577、a589和s590处融合至内含肽-c,这些位置在下述序列中以粗体大写字母表示[1100][1101][1102]使用核碱基编辑器来靶向突变[1103]如本文所述评估靶向突变的核碱基编辑器的适用性。在一种实施方案中,用碱基编辑系统连同少量编码报告基因(例如,gfp)的载体转导单一感兴趣的细胞。这些细胞可以为所属
技术领域
:已知的任何细胞系,包括永生化人细胞系,例如293t、k562或u20s。或者,可以使用原代细胞(例如,人)。这样的细胞可能与最终的细胞靶标相关。[1104]可使用病毒载体进行递送。在一种实施方案中,转染可以使用脂质转染(例如lipofectamine或fugene)或通过电穿孔进行。转染后,可以通过荧光显微镜或流式细胞术确定gfp的表达,以确认一致且高水平的转染。这些初步转染可以包含不同的核碱基编辑器,以确定哪种编辑器组合具有最大的活性[1105]如本文所述评估核碱基编辑器的活性,即,通过对细胞基因组进行测序以检测靶标序列中的改变。对于sanger测序,纯化的pcr扩增子被克隆到质粒主链中,转化,小量制备并用单一引物测序。测序也可以使用下一代测序技术。使用下一代测序时,扩增子可能为300-500bp,预期切割位点不对称放置。pcr之后,可以将下一代测序连接子和条形码(例如illumina多重连接子和索引)添加到扩增子的末端,例如用于高通量测序(例如在illuminamiseq上)。[1106]可以选择在初始测试中诱导最大水平靶标特异性改变的融合蛋白进行进一步评估。[1107]在特定实施方案中,核碱基编辑器用于靶向感兴趣的多核苷酸。在一种实施方案中,将本发明的核碱基编辑器与用于靶向感兴趣突变的向导rna一起递送至细胞(例如,造血细胞或其祖细胞、造血干细胞和/或诱导多能干细胞)的基因组内,从而改变突变。在一些实施方案中,碱基编辑器被向导rna靶向以向感兴趣基因的序列引入一个或多个编辑。[1108]该系统可以包括一种或多种不同的载体。在一个方面,碱基编辑器经密码子优化以表达期望的细胞类型,优选真核细胞,优选哺乳动物细胞或人类细胞。[1109]一般而言,密码子优化是指通过将至少一个密码子(例如约或多于约1、2、3、4、5、10、15、20、25、50或更多个密码子)替换为在该宿主细胞的基因中更频繁或最频繁使用的密码子同时保持天然氨基酸序列,修饰核酸序列以便提高其在感兴趣的宿主细胞内的表达的过程。各种物种对特定氨基酸的某些密码子表现出特定的偏向性。密码子偏向性(生物体之间密码子使用的差异)通常与信使rna(mrna)的翻译效率相关,而信使rna(mrna)的翻译效率又被认为取决于被翻译密码子的特性和特定转移rna(trna)分子的可用性。细胞中所选trna的优势通常反映肽合成中最常用的密码子。因此,可以基于密码子优化来规定基因以在给定生物体中进行最佳基因表达。密码子使用表很容易获得,例如,在www.kazusa.orjp/codon/可用的“密码子使用数据库”(2002年7月9日访问)中,这些表可以通过多种方式进行调整。参见nakamura,y.,等人"codonusagetabulatedfromtheinternationaldnasequencedatabases:statusfortheyear2000"nucl.acidsres.28:292(2000)。用于密码子优化用于在特定宿主细胞中表达的特定序列的计算机算法也是可用的,例如,也可使用geneforge(aptagen;jacobus,pa)。在一些实施方案中,编码工程化核酸酶的序列中的一个或多个密码子(例如,1、2、3、4、5、10、15、20、25、50或更多个或所有密码子)对应于最常使用的特定氨基酸的密码子。[1110]包装细胞通常用于形成能够感染宿主细胞的病毒颗粒。这些细胞包括包装腺病毒的293细胞和包装逆转录病毒的psi.2细胞或pa317细胞。用于基因治疗的病毒载体通常是通过产生将核酸载体包装成病毒颗粒的细胞系来产生的。载体通常包含包装和随后整合到宿主中所需的最少病毒序列,其他病毒序列被用于要表达的多核苷酸的表达盒替换。缺失的病毒功能通常由包装细胞系反式提供。例如,用于基因治疗的aav载体通常仅具有来自aav基因组的itr序列,这些序列是包装和整合到宿主基因组中所需的。病毒dna可以包装在细胞系中,该细胞系包含编码其他aav基因(即,rep和cap)的辅助质粒,但缺少itr序列。细胞系也可以用腺病毒作为辅助感染。辅助病毒可以促进aav载体的复制和辅助质粒中aav基因的表达。在某些情况下,由于缺乏itr序列,辅助质粒没有大量包装。腺病毒的污染的减少可以通过,例如,腺病毒比aav更敏感的热处理。[1111]医药组合物[1112]本公开的其他方面涉及医药组合物,包含本文所描述的任何碱基编辑器、融合蛋白或融合蛋白-向导多核苷酸复合物。用语“医药组合物”,如使用于本文,指配制用于医药用途的组合物。在一些实施方案中,医药组合物进一步包含医药可接受的载剂。在一些实施方案中,医药组合物包含额外的剂(例如,用于特异的递送、增加半衰期或其他治疗性化合物)。[1113]如本文所用,用语“医药可接受的载剂”意指医药上可接受的材料、组合物或载体,例如,液体或固体填充剂、稀释剂、赋形剂、制造助剂(例如,润滑剂、滑石镁、硬脂酸钙或硬脂酸锌或硬脂酸)或溶剂包封材料,涉及将化合物从身体的一个部位(例如,递送部位)携带或运输到另一部位(例如,器官、组织或身体的一部分)。医药上可接受的载剂在与制剂的其他成分相容并且对受试者的组织没有伤害的意义上是“可接受的”(例如,生理相容的、无菌的、生理ph等)。[1114]可用作医药上可接受载剂的材料的一些非限制性实例包括:(1)糖类,例如,乳糖、葡萄糖和蔗糖;(2)淀粉,如玉米淀粉、马铃薯淀粉;(3)纤维素及其衍生物,如羧甲基纤维素钠、甲基纤维素、乙基纤维素、微晶纤维素、醋酸纤维素等;(4)黄蓍胶粉;(5)麦芽;(6)明胶;(7)润滑剂,如硬脂酸镁、十二烷基硫酸钠、滑石粉等;(8)可可脂、栓剂蜡等赋形剂;(9)油类,如花生油、棉籽油、红花油、芝麻油、橄榄油、玉米油、大豆油等;(10)二醇类,如丙二醇;(11)多元醇,如甘油、山梨糖醇、甘露糖醇和聚乙二醇(peg);(12)油酸乙酯、月桂酸乙酯等酯类;(13)琼脂;(14)缓冲剂,如氢氧化镁、氢氧化铝等;(15)海藻酸;(16)无热原水;(17)等渗盐水;(18)林格溶液;(19)乙醇;(20)ph缓冲溶液;(21)聚酯、聚碳酸酯和/或聚酐;(22)填充剂,例如,多肽和氨基酸;(23)血清醇,例如乙醇;(23)用于药物制剂的其他无毒相容物质。润湿剂、着色剂、脱模剂、涂层剂、甜味剂、调味剂、香味剂、防腐剂和抗氧化剂也可存在于制剂中。诸如“赋形剂”、“载剂”、“医药上可接受的载剂”、“介质”等术语在本文中可互换使用。[1115]医药组合物可包含一种或多种ph缓冲化合物以将制剂的ph维持在反映生理ph的预定水平,例如在约5.0至约8.0的范围内。水性液体制剂中使用的ph缓冲化合物可以为氨基酸或氨基酸混合物例如组氨酸,或氨基酸混合物例如组氨酸和甘氨酸。或者,ph缓冲化合物优选将制剂的ph维持在预定水平,例如在约5.0至约8.0的范围内,并且不螯合钙离子的试剂。这种ph缓冲化合物的说明性实例包括但不限于,咪唑和乙酸根离子。ph缓冲化合物可以为以适合将制剂的ph维持在预定水平的任何量存在。[1116]医药组合物还可包含一种或多种渗透调节剂,即,将制剂的渗透特性(例如,紧张性、渗透压和/或渗透压力)调节至接收个人的血流和血细胞可接受水平的化合物。渗透调节剂可以为不螯合钙离子的试剂。渗透调节剂可以是所属
技术领域
:普通技术人员已知或可获得的调节制剂渗透特性的任何化合物。所属
技术领域
:普通技术人员可凭经验确定规定的渗透调节剂用于本发明制剂的适用性。合适类型的渗透调节剂的说明性实例包括但不限于:盐,例如氯化钠和乙酸钠;糖类,例如蔗糖、右旋糖和甘露醇;氨基酸,如甘氨酸;以及一种或多种这些药剂和/或药剂类型的混合物。渗透调节剂可以以足以调节制剂渗透特性的任何浓度存在。[1117]在一些实施方案中,医药组合物被配制用于递送至受试者,例如用于基因编辑。施用本文所描述的医药组合物的合适途径包括但不限于:局部、皮下、经皮、皮内、病灶内、关节内、腹膜内、膀胱内、经粘膜、牙龈、牙内、耳蜗内、经鼓膜、器官内、硬膜外、鞘内、肌肉内、静脉内、血管内、骨内、眼周、瘤内、脑内和脑室内施用[1118]在一些实施方案中,将本文所述的医药组合物局部施用于患病部位(例如,肿瘤部位)。在一些实施方案中,本文所述的医药组合物通过注射、通过导管、通过栓剂或ˋ油植入物施用至受试者,植入物为多孔、无孔或凝胶状材料,包括膜,例如唾液酸膜,或纤维。[1119]在其他实施方案中,本文所述的医药组合物在控释系统中递送。在一种实施方案中,可使用泵(参见例如,langer,1990,science249:1527-1533;sefton,1989,crccrit.ref.biomed.eng.14:201;buchwald等人,1980,surgery88:507;saudeketal,1989,n.engl.j.med.[1120]321:574)。在另一实施方案中,可使用聚合性材料(参见例如,medicalapplicationsofcontrolledrelease(langerandwise编,crcpress,bocaraton,fla.,1974);controlleddrugbioavailability,drugproductdesignandperformance(smolenandball编,wiley,newyork,1984);rangerandpeppas,1983,macromol.sci.rev.macromol.chem.23:61.seealsolevy等人,1985,science228:190;during等人,1989,ann.neurol.25:351;howardetah,1989,j.neurosurg.71:105.)。其他控释系统在例如langer,前文中有讨论。.[1121]在一些实施方案中,医药组合物根据常规程序配制成适合于静脉内或皮下施用至受试者例如人类的组合物。在一些实施方案中,用于通过注射施用的医药组合物是无菌等渗用途的溶液,用作增溶剂和局部麻醉剂,例如,利多卡因以缓解注射部位的疼痛。通常,成分以单位剂型单独提供或混合在一起提供,例如,作为指示活性剂量的密封容器如安瓿或小袋中的干燥冻干粉或无水浓缩物。当药物通过输液施用时,可以用装有无菌药用级水或盐水的输液瓶进行分配。当医药组合物通过注射施用时,可以提供无菌注射用水或盐水的安瓿,以便在施用前可以混合成分。[1122]用于全身施用的医药组合物可以是液体,例如无菌盐水、乳酸林格氏溶液或汉克氏溶液。此外,医药组合物可以是固体形式并在使用前立即重新溶解或悬浮。还考虑冻干形式。医药组合物可包含在脂质颗粒或囊泡中,例如脂质粒或微晶,其也适用于肠胃外施用。颗粒可以具有任何合适的结构,例如单层或多层,只要其中包含组合物即可。化合物可以被包裹在含有融合脂质二油酰磷脂酰乙醇胺(dope)、低水平(5-10mol%)阳离子脂质的“稳定质粒-脂质颗粒”(splp)中,并通过聚乙二醇(peg)涂层稳定(zhangy.p.etah,genether.1999,6:1438-47)。正电荷脂质如n-[l-(2,3-二油酰基氧基)丙基]-n,n,n-三甲基-铵甲基硫酸盐或“dotap”对于此类颗粒和微泡尤其优选。该脂质颗粒的制备为所属
技术领域
:周知。参见例如,美国专利号4,880,635;4,906,477;4,911,928;4,917,951;4,920,016;和4,921,757;其各自以引用方式并入本文。[1123]例如,本文所描述的医药组合物可以作为单位剂量施用或包装。当用于本公开的医药组合物时,术语“单位剂量”是指适合作为受试者的单位剂量的物理上离散的单位,每个单位包含经计算以产生期望的治疗效果的预定量的活性物质。所需的稀释剂;即,载剂或介质。[1124]再者,医药组合物可以作为药物试剂盒提供,其包含(a)含有冻干形式的本发明化合物的容器和(b)含有药学上可接受的稀释剂(例如,用于重构或稀释本发明的冻干化合物)。任选地与此类容器相关联的可以是由管理药物或生物产品的制造、使用或销售的政府机构规定的形式的通知,该通知反映用于人类施用的制造、使用或贩卖的机构批准。[1125]另一方面,包括用于治疗上述疾病的含有材料的制品。在一些实施方案中,制品包括容器和标签。合适的容器包括例如瓶子、小瓶、注射器和试管。容器可由多种材料制成,例如玻璃或塑料。在一些实施方案中,容器容纳有效治疗本文所述疾病的组合物并且可以具有无菌进入口。例如,容器可以是静脉内溶液袋或具有可被皮下注射针刺穿的塞子的小瓶。组合物中的活性剂是本发明的化合物。在一些实施方案中,容器上或与容器相关的标签表明组合物用于治疗选择的疾病。制品可进一步包括第二容器,其包含药学上可接受的缓冲液,例如磷酸盐缓冲盐水、林格溶液或葡萄糖溶液。它还可以包括从商业和使用者的角度来看所需的其他材料,包括其他缓冲液、稀释剂、过滤器、针头、注射器和带有使用说明的包装插页。[1126]在一些实施方案中,本文所述的任何融合蛋白、gdna和/或复合物提供为医药组合物的一部分医药组合物。在一些实施方案中,医药组合物包含本文提供的任何融合蛋白。在一些实施方案中,医药组合物包含本文所提供的任何复合物。在一些实施方案中,医药组合物包含核糖核酸蛋白质复合物,其包含rna-向导核酸酶(例如,cas9),其与grna和阳离子性脂质形成复合物。在一些实施方案中,医药组合物包含grna、核酸可编程dna结合蛋白、阳离子性脂质和医药可接受的赋形剂。医药组合物可任选地包含一种或多种额外的治疗活性物质。[1127]在一些实施方案中,将本文提供的组合物施用至受试者,例如,施用至人类受试者,以在受试者内实现靶向基因组修饰。在一些实施方案中,细胞获自受试者并与本文提供的任何医药组合物接触。在一些实施方案中,任选地在细胞中实现或检测到所需基因组修饰之后,将从受试者取出并离体与医药组合物接触的细胞重新引入受试者。递送包含核酸酶的医药组合物的方法是已知的,并且描述于例如美国专利号6,453,242、6,503,717、6,534,261、6,599,692、6,607,882、6,689,558、6,824,978、6,933,113、6,979,539、7,013,219和7,163,824,所有这些的公开内容通过引用方式整体并入本文。尽管本文提供的医药组合物的描述主要涉及适合于施用至人的医药组合物,但所属
技术领域
:普通技术人员将理解此类组合物通常适合于施用于各种动物或有机体,例如,兽医用。[1128]为使组合物适合于对各种动物施用而对适合对人施用的医药组合物进行修饰是众所周知的,并且普通的兽医药理学家可仅通过普通的实验(如果有的话)来设计和/或进行这种修饰。考虑医药组合物施用的受试者包括但不限于,人类和/或其他灵长类动物;哺乳动物、驯养动物、宠物和商业相关的哺乳动物,例如牛、猪、马、羊、猫、狗、小鼠和/或大鼠;和/或鸟类,包括商业相关的鸟类,例如鸡、鸭、鹅和/或火鸡。[1129]本文所述的医药组合物的制剂可以通过药理学领域中已知或以后开发的任何方法来制备。通常,此类制备方法包括将活性成分与赋形剂和/或一种或多种其他辅助成分结合的步骤,然后,如果必要和/或需要,将产品成型和/或包装成所需的单剂量或多剂量单位。药物制剂可另外包含药学上可接受的赋形剂,如本文所用,其包括任何和全部溶剂、分散介质、稀释剂或其他液体载体、分散或悬浮助剂、表面活性剂、等渗剂、增稠剂或乳化剂、防腐剂、固体粘合剂、润滑剂等,适合于所需的特定剂型。remington’sthescienceandpracticeofpharmacy,21stedition,a.r.gennaro(lippincott,williams&wilkins,baltimore,md,2006;其整体以引用方式并入本文)公开了用于配制医药组合物的各种赋形剂及其制备的已知技术。也参照pct申请号pct/us2010/055131(公开号wo2011/053982a8,于2010年11月2日申请)其整体以引用方式并入本文,用于制造医药组合物的额外的合适的方法、试剂、赋形剂和溶剂包含核酸酶。[1130]除非任何传统的赋形剂介质与物质或其衍生物不相容,例如,通过产生任何不希望的生物效应或以有害方式与医药组合物的任何其他成分相互作用,否则其用途被认为是在本公开的范围。[1131]如上所述的组合物可以有效量施用。有效量将取决于施用方式、所治疗的特定病症和期望的结果。其还可能取决于病症的阶段、受试者的年龄和身体状况、并行疗法(如果有的话)的性质以及医药实施者周知的类似因素。对于治疗应用,该量足以达到医学上所需的结果。[1132]在一些实施方案中,根据本公开的组合物可用于治疗多种疾病、疾患和/或病症中的任一种。[1133]试剂盒[1134]本公开的多个方面提供包含碱基编辑器系统的试剂盒。在一种实施方案中,该试剂盒包含核酸构造体,该核酸构造体包含编码核碱基编辑器融合蛋白的核苷酸序列。融合蛋白包含脱氨酶(例如,腺苷脱氨酶)和核酸可编程dna结合蛋白(napdnabp)。在一些实施方案中,试剂盒包含至少一种能够靶向感兴趣的核酸分子的向导rna。在一些实施方案中,该试剂盒包含编码至少一种向导rna的核苷酸序列的核酸构造体。在一种实施方案中,该试剂盒包含核酸构造体,该核酸构造体包含编码核碱基编辑器融合蛋白的核苷酸序列,该核苷酸序列包含脱氨酶和能够靶向α-1抗胰蛋白酶多核苷酸的向导rna。[1135]构建体一些实施方案中,该试剂盒提供了使用该试剂盒编辑一个或多个突变的说明书。说明书通常包括关于使用试剂盒编辑核酸分子的信息。构建体其他实施方案中,说明包括以下至少一项:注意事项;警告;临床研究;和/或参考文献。说明可以直接印在容器上(如果有),或者作为贴在容器上的标签,或者作为单独的纸张、小册子、卡片或文件夹提供在容器中或随容器一起提供。在进一步的实施方案中,试剂盒可包括标签或单独的插页(包装插页)形式的用于合适的操作参数的说明。在另一实施方案中,试剂盒可以包括一个或多个容器,其中装有合适的阳性和阴性对照或对照样品,用作检测、校准或标准化的标准。该试剂盒还可包括含有药学上可接受的缓冲液的第二容器,例如,(无菌)磷酸盐缓冲盐水、林格溶液或葡萄糖溶液。它还可以包括从商业和使用者的角度来看所需的其他材料,包括其他缓冲液、稀释剂、过滤器、针头、注射器和带有使用说明的包装插页。[1136]具内部插入物的融合蛋白[1137]本文提供的融合蛋白包含与核酸可编程核酸结合蛋白(例如,napdnabp)融合的异源多肽。异源多肽可以是在天然或野生型napdnabp多肽序列中未发现的多肽。异源多肽可以在napdnabp的c-端、napdnabp的n-端融合至napdnabp,或插入至napdnabp的内部位置。在一些实施方案中,异源多肽插入在napdnabp的内部位置。[1138]在一些实施方案中,异源多肽为脱氨酶或其功能片段。例如,融合蛋白可包含侧翼为cas9或cas12(例如,cas12b/c2c1)多肽的n-端片段和c-端片段的脱氨酶。融合蛋白中的脱氨酶可以是腺苷脱氨酶。在一些实施方案中,腺苷脱氨酶为tada(例如,tada7.10或tada*8)。在一些实施方案中,tada是tada*8。如本文所述的tada序列(例如,tada7.10或tada*8)是适用于上述融合蛋白的脱氨酶。[1139]脱氨酶可以是环状排列脱氨酶。例如,脱氨酶可以是环状排列的腺苷脱氨酶。在一些实施方案中,脱氨酶是环状排列的tada,在tada参照序列中编号的氨基酸残基116处环状排列。在一些实施方案中,脱氨酶是环状排列的tada,在tada参照序列中编号的氨基酸残基136处环状排列。在一些实施方案中,脱氨酶是环状排列的tada,在tada参照序列中编号的氨基酸残基65处环状排列。[1140]融合蛋白可包含多于一种脱氨酶。融合蛋白可包含例如1、2、3、4、5或更多种脱氨酶。在一些实施方案中,融合蛋白包含一种脱氨酶。在一些实施方案中,融合蛋白包含两种脱氨酶。融合蛋白中的两种或更多种脱氨酶可以是腺苷脱氨酶。胞苷脱氨酶或其组合,例如,如pct/us19/44935中所述。两种或更多种脱氨酶可以是同源二聚体。两种或更多种脱氨酶可以是异源二聚体。两种或更多种脱氨酶可以串联插入至napdnabp中。在一些实施方案中,两种或更多种脱氨酶在napdnabp中可能不串联。[1141]在一些实施方案中,融合蛋白中的napdnabp为cas9多肽或其片段。cas9多肽可以为变体cas9多肽。在一些实施方案中,cas9多肽为cas9切口酶(ncas9)多肽或其片段。在一些实施方案中,cas9多肽为核酸酶死cas9(dcas9)多肽或其片段。融合蛋白中的cas9多肽可以为全长cas9多肽。在一些情况下,融合蛋白中的cas9多肽可不为全长cas9多肽。cas9多肽可以为截短的,例如,于n-端或c-端末段相对于天然出现的cas9蛋白质截短。cas9多肽可以为环状排列的cas9蛋白质。cas9多肽可以为cas9多肽的片段、部分或结构域,其仍能结合靶标多核苷酸和向导核酸序列。[1142]在一些实施方案中,cas9多肽为化脓性链球菌(streptococcuspyogenes)cas9(spcas9)、金黄色葡萄球菌(staphylococcusaureus)cas9(sacas9)、嗜热链球菌(streptococcusthermophilus)1cas9(st1cas9)或其片段或变体。[1143]融合蛋白的cas9多肽可包含氨基酸序列,其与天然出现的cas9多肽具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性。[1144]融合蛋白的cas9多肽可包含氨基酸序列其与下述cas9氨基酸序列(下文称为“cas9参照序列”)具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性:[1145][1145][1145](单下划线:hnh结构域;双下划线:ruvc结构域)[1146]在一些实施方案中,融合蛋白中的napdnabp为cas12多肽,例如,cas12b/c2c1或其片段。cas12多肽可以为变体cas12多肽。[1147]异源多肽(例如,脱氨酶)可以插入至napdnabp(例如,cas9或cas12(例如,cas12b/c2c1))的合适位置,例如,使得napdnabp保持其结合靶标多核苷酸和向导核酸。脱氨酶(例如,腺苷脱氨酶)可以插入至napdnabp中而不损害脱氨酶的功能(例如,碱基编辑活性)或napdnabp(例如,结合靶核酸和引导核酸的能力)。脱氨酶(例如,腺苷脱氨酶)可以插入至napdnabp中,例如晶体学研究显示的无序区或包含高温因子或b因子的区域。较不有序、无序或非结构化的蛋白质区,例如,溶剂暴露区和环,可用于插入而不损害结构或功能。脱氨酶(例如,腺苷脱氨酶)可以插入至napdnabp的柔性圈环区或溶剂暴露区。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)被插入至cas9或cas12b/c2c1多肽的柔性圈环。[1148]在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)的插入位置通过cas9多肽的晶体结构的b因子分析确定。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)被插入至包含高于平均b因子(例如,与包含无序区的总蛋白质或蛋白质结构域相比更高的b因子)的cas9多肽的区中。b因子或温度因子可以表示原子从其平均位置的波动(例如,由于温度相关的原子振动或晶格中的静态无序)。主链原子的高b因子(例如,高于平均b因子)可以指示具有相对较高局部迁移率的区。这样的区可用于插入脱氨酶而不损害结构或功能。脱氨酶(例如,腺苷脱氨酶)可以插入在具有cα原子的残基的位置,其b因子比总蛋白质的平均b因子高50%、60%、70%、80%、90%、100%、110%、120%、130%、140%、150%、160%、170%、180%、190%、200%或大于200%。脱氨酶(例如,腺苷脱氨酶)可以插入在具有cα原子的残基的位置,其b因子比包含残基的cas9蛋白结构域的平均b因子高50%、60%、70%、80%、90%、100%、110%、120%、130%、140%、150%、160%、170%、180%、190%、200%或200%。包含高于平均b因子的cas9多肽位置可包括,例如,如同编号于上述cas9参照序列的残基768、792、1052、1015、1022、1026、1029、1067、1040、1054、1068、1246、1247和1248。包含高于平均b因子的cas9多肽区可包括,例如,如同编号于上述cas9参照序列的残基792-872、792-906和2-791。[1149]异源多肽(例如脱氨酶)可以插入到napdnabp中的氨基酸残基处,该氨基酸残基选自:如在上述cas9参照序列中编号的残基768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247和1248,或另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,异源多肽插入在如上述cas9参照序列编号的氨基酸位置768-769、791-792、792-793、1015-1016、1022-1023、1026-1027、1029-1030、1040-1041、1052-1053、1054-1055、1067-1068、1068-1069、1247-1248或1248-1249之间或其对应氨基酸位置。在一些实施方案中,异源多肽插入在如上述cas9参照序列编号的氨基酸位置769-770、792-793、793-794、1016-1017、1023-1024、1027-1028、1030-1031、1041-1042、1053-1054、1055-1056、1068-1069、1069-1070、1248-1249或1249-1250之间或其对应氨基酸位置。在一些实施方案中,异源多肽置换选自由下列所组成的组的氨基酸残基:如在上述cas9参照序列中编号的残基768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247和1248,或另一个cas9多肽中的对应氨基酸残基。应当理解,关于插入位置对上述cas9参照序列的引用是为了说明的目的。如本文所讨论的插入不限于上述cas9参照序列的cas9多肽序列,而是包括在变体cas9多肽中对应位置的插入,例如cas9切口酶(ncas9)、核酸酶死cas9(dcas9)、cas9变体缺少核酸酶结构域、截短的cas9或缺少部分或完整hnh结构域的cas9结构域。[1150]异源多肽(例如,脱氨酶)可以插入至napdnabp中的氨基酸残基处,该氨基酸残基选自:如在上述cas9参照序列中编号的残基768、792、1022、1026、1040、1068和1247,或另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,异源多肽插入在如以上cas9参照序列编号768-769、792-793、1022-1023、1026-1027、1029-1030、1040-1041、1068-1069或1247-1248的氨基酸位置之间或其对应的氨基酸位置。在一些实施方案中,异源多肽插入在如以上cas9参照序列编号的氨基酸位置769-770、793-794、1023-1024、1027-1028、1030-1031、1041-1042、1069-1070或1248-1249之间或其对应的氨基酸位置。在一些实施方案中,异源多肽置换选自由下列所组成的组的氨基酸残基:如在以上cas9参照序列中编号的:768、792、1022、1026、1040、1068和1247,或在另一个cas9多肽中的对应氨基酸残基。[1151]异源多肽(例如,脱氨酶)可以在如本文所述的氨基酸残基处或另一cas9多肽中的对应氨基酸残基处插入napdnabp。在一个实施方案中,异源多肽(例如,脱氨酶)可以插入到napdnabp中的氨基酸残基处,该氨基酸残基选自如在上述cas9参照序列中编号的1002、1003、1025、1052-1056、1242-1247、1061-1077、943-947、686-691、569-578、530-539和1060-1077,或另一个cas9多肽中的对应氨基酸残基。脱氨酶(例如,腺苷脱氨酶)可插入在残基的n端或c端或置换残基。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在残基的c-端。[1152]在一些实施方案中,腺苷脱氨酶(例如,tada)插入在选自由以下所组成的组的氨基酸残基处:1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,如在上述cas9参照序列中编号,或在另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,腺苷脱氨酶(例如,tada)被插入以代替如以上cas9参照序列中编号的残基792-872、792-906或2-791,或另一cas9多肽中的对应氨基酸残基。在一些实施方案中,腺苷脱氨酶插入在选自由下列所组成的组的氨基酸的n-端:1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,如在上述cas9参照序列中编号,或另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,腺苷脱氨酶插入在选自由下列所组成的组的氨基酸的c-端:1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,如在上述cas9参照序列中编号,或另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,插入腺苷脱氨酶以置换选自由下列所组成的组的氨基酸:1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,如上述cas9参照序列中的编号,或另一个cas9多肽中的对应氨基酸残基。[1153]在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在氨基酸残基768,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在氨基酸残基768的n-端,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在氨基酸残基768的c-端,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入以置换氨基酸残基768,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。[1154]在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在氨基酸残基791或插入在氨基酸残基792,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在氨基酸残基791的n-端或插入在氨基酸792的n-端,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在氨基酸791的c-端或插入在氨基酸792的c-端,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残端或插入在氨基酸残基1054的c-端,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入以置换氨基酸残基1052或插入以置换氨基酸残基1054,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。[1160]在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在氨基酸残基1067或插入在氨基酸残基1068或插入在氨基酸残基1069,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在氨基酸残基1067的n-端或插入在氨基酸残基1068的n-端或插入在氨基酸残基1069的n-端,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在氨基酸残基1067的c-端或插入在氨基酸残基1068的c-端或插入在氨基酸残基1069的c-端,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入以置换氨基酸残基1067或插入以置换氨基酸残基1068或插入以置换氨基酸残基1069,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。[1161]在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在氨基酸残基1246或插入在氨基酸残基1247或插入在氨基酸残基1248,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在氨基酸残基1246的n-端或插入在氨基酸残基1247的n-端或插入在氨基酸残基1248的n-端,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在氨基酸残基1246的c-端或插入在氨基酸残基1247的c-端或插入在氨基酸残基1248的c-端,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入以置换氨基酸残基1246或插入以置换氨基酸残基1247或插入以置换氨基酸残基1248,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。[1162]在一些实施方案中,异源多肽(例如,脱氨酶)插入在cas9多肽的柔性圈环。柔性圈环部分可选自由下列所组成的组:530-537、569-570、686-691、943-947、1002-1025、1052-1077、1232-1247或1298-1300,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。柔性圈环部分可选自由下列所组成的组:1-529、538-568、580-685、692-942、948-1001、1026-1051、1078-1231或1248-1297,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。[1163]异源多肽(例如,腺嘌呤脱氨酶)可插入在cas9多肽区,该区对应于氨基酸残基:1017-1069、1242-1247、1052-1056、1060-1077、1002–1003、943-947、530-537、568-579、686-691,1242-1247、1298–1300、1066-1077、1052-1056或1060-1077,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。[1164]异源多肽(例如,腺嘌呤脱氨酶)可插入以代替cas9多肽的缺失区。缺失区可对应于cas9多肽的n-端或c-端部分。在一些实施方案中,缺失区对应于残基792-872,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,缺失区对应于残基792-906,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,缺失区对应于残基2-791,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。在一些实施方案中,缺失区对应于残基1017-1069,如在上述cas9参照序列中的编号,或其对应氨基酸残基。[1165]示例性内部融合碱基编辑器提供于下表13a中,并且也描述于pct/us20/16285。[1166]表13a:cas9蛋白质中的插入物基因座[1167][1168][1169]异源多肽(例如,脱氨酶)可以插入到cas9多肽的结构域或功能域内。异源多肽(例如,脱氨酶)可以插入在cas9多肽的两个结构域或功能域之间。例如,在从cas9多肽中删除结构域之后,可以插入异源多肽(例如,脱氨酶)代替cas9多肽的结构域或功能域。cas9多肽的结构域或功能域可以包括例如ruvci、ruvcii、ruvciii、rec1、rec2、pi或hnh。[1170]在一些实施方案中,cas9多肽缺少一个或多个选自由以下组成的组的结构域:ruvci、ruvcii、ruvciii、rec1、rec2、pi或hnh结构域。在一些实施方案中,cas9多肽缺少核酸酶结构域。在一些实施方案中,cas9多肽缺少hnh结构域。在一些实施方案中,cas9多肽缺少hnh结构域的一部分,使得cas9多肽具有降低或消除的hnh活性。[1171]在一些实施方案中,cas9多肽包含核酸酶结构域的缺失,并且插入脱氨酶以置换核酸酶结构域。在一些实施方案中,hnh结构域缺失并且脱氨酶被插入在其位置。在一些实施方案中,一个或多个ruvc结构域缺失并且脱氨酶被插入在其位置。[1172]包含异源多肽的融合蛋白的侧翼可以为napdnabp的n-端和c-端片段。在一些实施方案中,包含脱氨酶的融合蛋白的侧翼为cas9多肽的n-端片段和c-端片段。n端片段或c端片段可结合靶标多核苷酸序列。n端片段的c-端或c端片段的n-端可包含cas9多肽的柔性圈环的一部分。n端片段的c-端或c端片段的n-端可包含cas9多肽的α-螺旋结构的一部分。n-端片段或c-端片段可包含dna结合结构域。n-端片段或c-端片段可包含ruvc结构域。n-端片段或c-端片段可包含hnh结构域。在一些实施方案中,n-端片段和c-端片段均不包含hnh结构域。[1173]在一些实施方案中,当融合蛋白将靶标核碱基脱氨时,n端cas9片段的c-端包含接近靶标核碱基的氨基酸。在一些实施方案中,当融合蛋白将靶标核碱基脱氨时,c端cas9片段的n-端包含接近靶核碱基的氨基酸。不同脱氨酶的插入位置可以不同,以使靶标核碱基与n端cas9片段的c端或c端cas9片段的n端的氨基酸接近。例如,abe的插入位置可以在选自由下列所组成的组的氨基酸残基处:1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1046,如在上述cas9参照序列中编号,或在另一个cas9多肽中对应的氨基酸残基。[1174]融合蛋白的n-端cas9片段(即,融合蛋白中的脱氨酶侧翼的n-端cas9片段)可包含cas9多肽的n-端。融合蛋白的n-端cas9片段可包含至少约100、200、300、400、500、600、700、800、900、1000、1100、1200或1300个氨基酸的长度。融合蛋白的n-端cas9片段可包含对应于氨基酸残基的序列:1-56、1-95、1-200、1-300、1-400、1-500、1-600、1-700、1-718、1-765、1-780、1-906、1-918或1-1100,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。n-端cas9片段可包含序列,该序列与如在上述cas9参照序列中编号的氨基酸残基1-56、1-95、1-200、1-300、1-400、1-500、1-600、1-700、1-718、1-765、1-780、1-906、1-918或1-1100或在另一个cas9多肽中的对应氨基酸残基具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%序列同一性。[1175]融合蛋白的c-端cas9片段(即,融合蛋白中的脱氨酶侧翼的c-端cas9片段)可包含cas9多肽的c-端。融合蛋白的c-端cas9片段可包含至少约100、200、300、400、500、600、700、800、900、1000、1100、1200或1300个氨基酸的长度。融合蛋白的c-端cas9片段可包含对应于氨基酸残基的序列:1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368或56-1368,如在上述cas9参照序列中的编号,或在另一个cas9多肽中的对应氨基酸残基。n-端cas9片段可包含序列,该序列与如在上述cas9参照序列中编号的氨基酸残基1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368或56-1368或在另一个cas9多肽中的对应氨基酸残基具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%序列同一性。[1176]n-端cas9片段和c-端cas9片段合在一起可能不对应于一个完整的天然出现的cas9序列,例如,阐述于上述cas9参照序列。[1177]本文所描述的融合蛋白可通过减少非靶标位点(例如,脱靶位点)的脱氨作用,例如减少全基因组的假脱氨作用来实现靶向脱氨作用。本文所述的融合蛋白可以在非靶位点处以降低的旁观者脱氨作用实现靶向脱氨作用。与例如包含与cas9多肽的n端或c端融合的脱氨酶的末端融合蛋白相比,不希望的脱氨或脱靶脱氨可以减少至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%或至少99%。与例如包含与cas9多肽的n端或c端融合的脱氨酶的末端融合蛋白相比,不需要的脱氨或脱靶脱氨可以降低至少一倍、至少两倍、至少三倍、至少四倍、至少五倍、至少十倍、至少十五倍、至少二十倍、至少三十倍、至少四十倍、至少五十倍、至少60倍、至少70倍、至少80倍、至少90倍或至少一百倍。[1178]在一些实施方案中,融合蛋白的脱氨酶(例如,腺苷脱氨酶)在r环范围内将不超过两个核碱基脱氨。在一些实施方案中,融合蛋白的脱氨酶使r环范围内不超过三个核碱基脱氨。在一些实施方案中,融合蛋白的脱氨酶使r环范围内不超过2、3、4、5、6、7、8、9或10个核碱基脱氨基。r环是三链核酸结构,包括dna:rna杂交体、dna:dna或rna:rna互补结构以及与单链dna相关的结构。如本文所用,当靶标多核苷酸与crispr复合物或碱基编辑复合物接触时可形成r环,其中向导多核苷酸(例如,向导rna)的一部分与靶标多核苷酸(例如,靶标dna)的一部分杂交并置换。在一些实施方案中,r-环包含间隔序列和靶标dna互补序列的杂交区域。r环区可以是约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核碱基对长度。在一些实施方案中,r-环区的长度为约20个核碱基对。应当理解,如本文所用,r-环区不限于与向导多核苷酸杂交的靶标dna链。例如,r-环区域内的靶标核碱基的编辑可以针对包含与向导rna互补的链的dna链,或者可以针对作为与向导rna互补的链的相反链的dna链。在一些实施方案中,在r环区域中编辑包括将非互补链(原间隔序列链)的核碱基编辑为靶标dna序列中的向导rna。[1179]本文所述的融合蛋白可在不同于标准碱基编辑的编辑窗实现靶标脱氨。在一些实施方案中,靶标核碱基为靶标多核苷酸序列中pam序列上游的约1个至约20个碱基。在一些实施方案中,靶标核碱基为靶标多核苷酸序列中pam序列上游的约2个至约12个碱基。在一些实施方案中,靶标核碱基为pam序列上游或与pam序列相距约1至9个碱基对、约2至10个碱基对、约3至11个碱基对、约4至12个碱基对、约5至13个碱基对、约6至14个碱基对、约7至15个碱基对、约8至16个碱基对、约9至17个碱基对、约10至18个碱基对、约11至19个碱基对、约12至20个碱基对、约1至7个碱基对、约2至8个碱基对、约3至9个碱基对、约4至10个碱基对、约5至11个碱基对、约6至12个碱基对、约7至13个碱基对、约8至14个碱基对、约9至15个碱基对、约10至16个碱基对、约11至17个碱基对、约12至18个碱基对、约13至19个碱基对、约14至20个碱基对、约1至5个碱基对、约2至6个碱基对、约3至7个碱基对、约4至8个碱基对、约5至9个碱基对、约6至10个碱基对、约7至11个碱基对、约8至12个碱基对、约9至13个碱基对、约10至14个碱基对、约11至15个碱基对、约12至16个碱基对、约13至17个碱基对、约14至18个碱基对、约15至19个碱基对、约16至20个碱基对、约1至3个碱基对、约2至4个碱基对、约3至5个碱基对、约4至6个碱基对、约5至7个碱基对、约6至8个碱基对、约7至9个碱基对、约8至10个碱基对、约9至11个碱基对、约10至12个碱基对、约11至13个碱基对、约12至14个碱基对、约13至15个碱基对、约14至16个碱基对、约15至17个碱基对、约16至18个碱基对、约17至19个碱基对、约18至20个碱基对。在一些实施方案中,靶标核碱基为pam序列上游或与pam序列相距约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个碱基。在一些实施方案中,靶标核碱基为pam序列上游或与pam序列相距约1、2、3、4、5、6、7、8或9个碱基。在一些实施方案中,靶标核碱基为pam序列上游约2、3、4或6个碱基对。[1180]融合蛋白可包含多于一种异源多肽。例如,融合蛋白可另外包含一个或多个ugi结构域和/或一个或多个核定位信号。两个或多个异源域可以串联插入。两个或多个异源结构域可插入在使它们在napdnabp中不串联的位置[1181]融合蛋白可包含脱氨酶和napdnabp多肽之间的连接子。连接子可以是肽或非肽连接子。例如,连接子可以是xten、(gggs)n、(ggggs)n、(g)n、(eaaak)n、(ggs)n、sgsetpgtsesatpes。在一些实施方案中,融合蛋白包含n端cas9片段和脱氨酶之间的连接子。在一些实施方案中,融合蛋白包含c端cas9片段和脱氨酶之间的连接子。在一些实施方案中,napdnabp的n-端和c-端片段通过连接子与脱氨酶连接。在一些实施方案中,n-端和c-端片段在没有连接子的情况下连接至脱氨酶结构域。在一些实施方案中,融合蛋白包含n端cas9片段与脱氨酶之间的连接子,但不包含c端cas9片段与脱氨酶之间的连接子。在一些实施方案中,融合蛋白包含位于c端cas9片段与脱氨酶之间的连接子,但不包含位于n端cas9片段与脱氨酶之间的连接子[1182]在其他实施方案中,cas12多肽的n端或c端片段包含核酸可编程dna结合结构域或ruvc结构域。在其他实施方案中,融合蛋白在cas12多肽和催化结构域之间含有连接子。在其他实施方案中,连接子的氨基酸序列是ggsggs或gssgsetpgtsesatpessg。在其他实施方案中,连接子是刚性连接子。在上述方面的其他实施方案中,连接子由ggaggctctggaggaagc或ggctcttctggatctgaaacacctggcacaagcgagagcgccacccctgagagctctggc所编码。[1183]包含侧翼为cas9或cas12多肽的n-端和c-端片段的异源催化结构域的融合蛋白也可用于本文所述方法中的碱基编辑。包含cas9或cas12和一个或多个脱氨酶结构域,例如腺苷脱氨酶,或包含侧翼为cas9或cas12序列的腺苷脱氨酶结构域的融合蛋白也可用于靶标序列的高度特异性和有效的碱基编辑。在实施方案中,嵌合cas9或cas12融合蛋白包含插入cas12多肽内的异源催化结构域。[1184]在多种实施方案中,催化结构域具有dna修饰活性(例如脱氨酶活性),例如腺苷脱氨酶活性。在一些实施方案中,腺苷脱氨酶是tada(例如,tada7.10)。在一些实施方案中,tada是tada*8。在其他实施方案中,融合蛋白含有一个或多个催化结构域。在其他实施方案中,一个或多个催化结构域中的至少一个插入cas12多肽内或融合在cas12n-端或c-端。在其他实施方案中,一个或多个催化结构域中的至少一者为插入cas12多肽的环、α螺旋区、非结构化部分或溶剂可及部分内。在其他实施方案中,cas12多肽是cas12a、cas12b、cas12c、cas12d、cas12e、cas12g、cas12h或cas12i。在其他实施方案中,cas12多肽与外村尚芽孢杆菌(bacillushisashii)cas12b、嗜热芽孢杆菌(bacillusthermoamylovorans)cas12b、芽孢杆菌属(bacillussp.)v3-13cas12b或嗜热脂环酸芽孢杆菌(alicyclobacillusacidiphilus)cas12b具有至少约85%氨基酸序列同一性。在其他实施方案中,cas12多肽与外村尚芽孢杆菌(bacillushisashii)cas12b、嗜热芽孢杆菌(bacillusthermoamylovorans)cas12b、芽孢杆菌属(bacillussp.)v3-13cas12b或嗜热脂环酸芽孢杆菌(alicyclobacillusacidiphilus)cas12b具有至少约90%氨基酸序列同一性。在其他实施方案中,cas12多肽与外村尚芽孢杆菌(bacillushisashii)cas12b、嗜热芽孢杆菌(bacillusthermoamylovorans)cas12b、芽孢杆菌属(bacillussp.)v3-13cas12b或嗜热脂环酸芽孢杆菌(alicyclobacillusacidiphilus)cas12b具有至少约95%氨基酸序列同一性。在其他实施方案中,cas12多肽含有外村尚芽孢杆菌(bacillushisashii)cas12b、嗜热芽孢杆菌(bacillusthermoamylovorans)cas12b、芽孢杆菌属(bacillussp.)v3-13cas12b或嗜热脂环酸芽孢杆菌(alicyclobacillusacidiphilus)cas12b的片段或主要由其组成。[1185]在其他实施方案中,催化性结构域插入bhcas12b的氨基酸位置153-154、255-256、306-307、980-981、1019-1020、534-535、604-605或344-345之间,或cas12a、cas12c、cas12d、cas12e、cas12g、cas12h或cas12i的对应氨基酸位置。在其他实施方案中,催化性结构域插入bhcas12b的氨基酸p153和s154之间。在其他实施方案中,催化性结构域插入bhcas12b的氨基酸k255和e256之间。在其他实施方案中,催化性结构域插入bhcas12b的氨基酸d980和g981之间。在其他实施方案中,催化性结构域插入bhcas12b的氨基酸k1019和l1020之间。在其他实施方案中,催化性结构域插入bhcas12b的氨基酸f534和p535之间。在其他实施方案中,催化性结构域插入bhcas12b的氨基酸k604和g605之间。在其他实施方案中,催化性结构域插入bhcas12b的氨基酸h344和f345之间。在其他实施方案中,催化性结构域插入bhcas12b的氨基酸位置147和148、248和249、299和300、991和992或1031和1032之间,或cas12a、cas12c、cas12d、cas12e、cas12g、cas12h或cas12i的对应氨基酸位置。在其他实施方案中,催化性结构域插入bvcas12b的氨基酸p147和d148之间。在其他实施方案中,催化性结构域插入bvcas12b的氨基酸g248和g249之间。在其他实施方案中,催化性结构域插入bvcas12b的氨基酸p299和e300之间。在其他实施方案中,催化性结构域插入bvcas12b的氨基酸g991和e992之间。在其他实施方案中,催化性结构域插入bvcas12b的氨基酸k1031和m1032之间。在其他实施方案中,催化性结构域插入aacas12b的氨基酸位置157和158、258和259、310和311、1008和1009或1044和1045之间,或cas12a、cas12c、cas12d、cas12e、cas12g、cas12h或cas12i的对应氨基酸位置。在其他实施方案中,催化性结构域插入aacas12b的氨基酸p157和g158之间。在其他实施方案中,催化性结构域插入aacas12b的氨基酸v258和g259之间。在其他实施方案中,催化性结构域插入aacas12b的氨基酸d310和p311之间。在其他实施方案中,催化性结构域插入aacas12b的氨基酸g1008和e1009之间。在其他实施方案中,催化性结构域插入aacas12b的氨基酸g1044和k1045之间。[1186]在其他实施方案中,融合蛋白含有核定位信号(例如,双分型核定位信号)。在其他实施方案中,核定位信号的氨基酸序列为mapkkkrkvgihgvpaa。在上述方面的其他实施方案中,核定位信号由下述序列编码:[1187]atggccccaaagaagaagcggaaggtcggtatccacggagtcccagcagcc。在其他实施方案中,cas12b多肽含有d574a、d829a和/或d952a突变。在其他实施方案中,融合蛋白还包含标签(例如,流感血凝素标签)。[1188]在一些实施方案中,融合蛋白包含具有内部融合的核碱基编辑结构域(例如,脱氨酶结构域,例如腺苷脱氨酶结构域)的全部或部分的napdnabp结构域(例如,cas12衍生结构域)。在一些实施方案中,napdnabp是cas12b。在一些实施方案中,碱基编辑器包含具有插入在下表13b中提供的基因座处的内部融合的tada*8结构域的bhcas12b结构域。[1189]表13b:cas12b蛋白质中的插入基因座[1190][1191][1192]作为非限制性实例,可以将腺苷脱氨酶(例如,abe8.13)插入至bhcas12b中以产生有效编辑核酸序列的融合蛋白(例如,abe8.13-bhcas12b)。[1193]示例性但非限制性的融合蛋白在美国临时申请号62/852,228和62/852,224中有所描述,其内容以引用方式整体并入本文。[1194]除非另有说明,否则本发明的实施采用分子生物学(包括重组技术)、微生物学、细胞生物学、生物化学和免疫学的传统技术,这些都在所属
技术领域
:普通技术人员的能力范围内。此类技术在文献中详细解释,例如“molecularcloning:alaboratorymanual”,secondedition(sambrook,1989);“oligonucleotidesynthesis”(gait,1984);“animalcellculture”(freshney,1987);“methodsinenzymology”“handbookofexperimentalimmunology”(weir,1996);“genetransfervectorsformammaliancells”(millerandcalos,1987);“currentprotocolsinmolecularbiology”(ausubel,1987);“pcr:thepolymerasechainreaction”,(mullis,1994);“currentprotocolsinimmunology”(coligan,1991)。这些技术适用于生产本发明的多核苷酸和多肽,因此,可以在制造和实施本发明时加以考虑。特定实施例的特别有用的技术将在以下部分中讨论。[1195]提出以下实施例是向所属
技术领域
:普通技术人员提供如何进行和使用本发明的测定、筛选和治疗方法的完整公开和描述,并且不旨在限制发明者认定为他们的发明的范畴。[1196]实施例[1197]实施例1:具有增加的编辑效率的进化的腺苷碱基编辑器[1198]包含tad7.10-dcas9融合蛋白的碱基编辑系统能够以大约10-20%的效率编辑靶标多核苷酸,但对于需要更高效率的用途,它们的使用可能受到限制。为了鉴定具有提高的效率和特异性的腺嘌呤碱基编辑器,包含腺苷脱氨酶tada7.10的构造体通过易错pcr进行诱变,随后克隆到与编码dcas9(核酸可编程dna结合蛋白)的核酸序列相邻的表达载体中(图1a)。诱变的tada-dcas9碱基编辑器在这些实施例中称为abe8(腺苷脱氨酶变体)。将包含腺苷脱氨酶变体的表达载体与编码氯霉素抗性(camr)和大观霉素抗性(spectr)的选择质粒共转化到感受态细菌细胞中,并具有通过两个点突变而变得无功能的卡那霉素抗性基因(进化轮次7策略)(图1b)。选择细胞以恢复卡那霉素抗性,此为腺苷脱氨酶活性的读数。在随后的几轮选择中,将表达载体与编码氯霉素抗性(camr)和大观霉素抗性(spectr)的质粒共转化到感受态细胞中,并具有通过三个点突变而变得无功能的卡那霉素抗性基因(进化轮次8策略)(图1c)。[1199]已失活的卡那霉素抗性基因核酸序列提供如下:[1200][1201][1202]上述序列中,小写字母表示卡那霉素抗性启动子区,粗体序列表示靶向失活部分(q4*和w15*),斜体序列表示卡那霉素抗性基因(d208n)靶向失活位点,下划线序列表示pam序列。[1203]再次,将细胞接种到一系列具有递增卡那霉素浓度的琼脂糖板。具有有效碱基编辑活性的腺苷脱氨酶变体能够修正卡那霉素抗性基因中存在的突变,并被选择用于进一步分析。在表14中描述在细菌细胞中显示有效碱基编辑的腺苷脱氨酶变体碱基编辑器。产生编码包含所选腺苷脱氨酶变体的碱基编辑器的哺乳动物表达载体。[1204]表14:新颖腺嘌呤碱基编辑器abe8[1205][1206][1207]实施例2:使用abe8修正α-1抗胰蛋白酶突变[1208]在表达包含e342k突变(hek293t-e342k)的a1at的hek293细胞中测试所选abe8构造体的碱基编辑活性。在一个方案中,使用250nggrna质粒和750ngabe8质粒[0407],用针对hek293细胞优化的高效低毒dna转染试剂mirustransit293以3μl:1μg的比例瞬时转染hek293t-e342k细胞。hek293t-e342k使用2.5ugvar-3abemrna和1000ng的长度为20nt的grna191通过neon电穿孔进行转染。提供作为spcas9碱基编辑器的sgrna的grna主链如下:[1209]5’‑guuuuagagcuagaaauagcaaguuaaaauaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugcuuuu-3’[1210]有用于所述方法的grna包括下列[1211]5’‑accaucgacaagaaagggacugaguuuuagagcuagaaauagcaaguuaaaauaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugcuuuu-3’[1212]5’‑ccaucgacaagaaagggacugaguuuuagagcuagaaauagcaaguuaaaauaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugcuuuu-3’[1213]5’‑caucgacaagaaagggacugaguuuuagagcuagaaauagcaaguuaaaauaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugcuuuu-3’[1214]5’‑aucgacaagaaagggacugaguuuuagagcuagaaauagcaaguuaaaauaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugcuuuu-3’[1215]5’‑ucgacaagaaagggacugaguuuuagagcuagaaauagcaaguuaaaauaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugcuuuu-3’[1216]5’‑cgacaagaaagggacugaguuuuagagcuagaaauagcaaguuaaaauaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugcuuuu-3’[1217]质粒转染四天后,rna电穿孔两天后,用0.05%sds、25μg/ml蛋白酶k、10mmtrisph8.0的简单裂解缓冲液提取基因组dna,然后在85℃灭活。基因组位点在miseq进行pcr扩增和测序。如前所述分析每个位置的碱基频率和indel百分比的结果。indel计算的细节描述在国际pct申请号pct/2017/045381和pct/us2016/058344,其各自均以引用方式整体并入本文。也参见komor,a.c.,等人,“programmableeditingofatargetbaseingenomicdnawithoutdouble-strandeddnacleavage”nature533,420-424(2016);gaudelli,n.m.,等人,“programmablebaseeditingofa·ttog·cingenomicdnawithoutdnacleavage”nature551,464-471(2017);和komor,a.c.,等人,“improvedbaseexcisionrepairinhibitionandbacteriophagemugamproteinyieldsc:g-to-t:abaseeditorswithhigherefficiencyandproductpurity”scienceadvances3:eaao4774(2017),其整体内容以引用方式并入本文。[1218]使用由不同制造商(axolabs,德国和synthego,menlopark,ca)生产的19或20个核苷酸的向导rna在hek293t-e342k中测定所选abe8(参照表15)的编辑活性。如图3、4a和4b所示,abe8相对于对照编辑器(avt686)显示出显著的效率和特异性。[1219]表15:腺苷碱基编辑器[1220][1221][1222]此外,abe8提供针对上靶腺嘌呤(a)碱基相对于旁观者a(图5)的精确编辑,并在a1ad靶标位点实现高效、治疗相关的编辑。特别地,abe8导致a1ad位点的编辑(即,a·t至g·c的转换)增加5倍,如图5所示。例如,通过使用abe8对e342k的碱基编辑进行精确的突变校正,将循环aat水平恢复到11μm以上,并改善患有a1ad的受试者的肺和肝功能。[1223]图6a至6d显示了与通过持续的编辑工程在初代piz成纤维细胞中产生提高的核碱基修正率相关的数据和结果。图7a至7d呈现与nsg-piz转基因小鼠中脂质纳米颗粒(lnp)介导的递送和碱基编辑产生的血清a1at增加相关的数据和结果。[1224]其他实施方案[1225]从前面的描述中,显然可以对本文描述的本发明进行变化和修饰以将其用于各种用途和条件。这样的实施方案也在所附权利要求的范围内。[1226]在本文中对变量的任何定义中的元素列表的引用包括将该变量定义为任何单个元素或所列元素的组合(或子组合)。此处对实施方案的叙述包括该实施方案作为任何单个实施方案或与任何其他实施方案或其部分的组合。[1227]本说明书中提及的所有文献、专利和专利申请均通过引用方式并入本文,如同每个单独的文献、专利或专利申请被明确和单独指明为参照并入一样。除非另有说明,本说明书中提及的文献、专利和专利申请通过引用方式以其整体并入本文。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1