热稳定的Cas9核酸酶的制作方法

文档序号:18974470发布日期:2019-10-29 03:10阅读:680来源:国知局
热稳定的Cas9核酸酶的制作方法

本发明涉及遗传工程(geneticengineering)领域,并且更特别地涉及核酸编辑和基因组修饰。本发明涉及呈核酸酶的形式的遗传工程工具,所述核酸酶可以被配置用于遗传物质的序列指导的位点特异性结合、切口(nicking)、切割和修饰;还涉及对遗传物质的序列特异性位点发挥活性(特别地,核酸酶活性)的核糖核蛋白、以及用于作为标志物使用的修饰的核酸酶和核糖核蛋白。因此,本发明还涉及用于在非人类细胞中递送和表达核酸酶和指导rna(guiderna)的相关的表达构建体。此外,本发明涉及体外或体内的核酸的序列特异性编辑和被用于实现所述编辑的方法。本发明涉及的特定领域是嗜热生物体(特别地,微生物)的遗传操作。

发明背景

在2007年首次证明crispr-cas是在许多细菌和大多数古核生物(archaea)中的适应性免疫系统(barrangou等人,2007,science315:1709-1712,brouns等人,2008,science321:960-964)。基于功能和结构标准,迄今已经表征了两类crispr-cas系统,每一类crispr-cas系统包括三种类型,其中大多数使用小rna分子作为指导(guide)以靶向互补的dna序列(makarova等人,2015,natrevmicrobiol13:722-736;mahanraju等人,2016,science353:aad5147)。

在doudna/charpentier实验室的最近的一项研究中,对第2类/ii型crispr-cas系统的效应酶(cas9)的进行了彻底的表征,包括证明设计的crisprrna指导(具有特定间隔区序列)的引入靶向了质粒上的互补序列(前间区(protospacers)),引起该质粒的双链断裂(jinek等人,2012,science337:816-821)。继jinek等人,2012之后,cas9被用作用于基因组编辑的工具。

cas9已经被用于工程化一系列真核细胞(例如鱼、植物、人类)的基因组(charpentier和doudna,2013,nature495:50-51)。

另外,通过选择专门的重组事件,cas9已经被用于改进细菌中的同源重组的产率(jiang等人,2013,naturebiotechnol31:233-239)。为了实现这一点,将毒性片段(靶向构建体)与携带期望的改变的救援片段(编辑构建体,携带点突变或缺失)共转染。靶向构建体由cas9与设计的crispr的组合和抗生素抗性标志物组成,定义了在宿主染色体上的期望重组的位点;在对应的抗生素的存在下,选择靶向构建体在宿主染色体中的整合。仅当编辑构建体与宿主染色体上的crispr靶位点发生另外的重组时,宿主才可以逃脱自身免疫问题。因此,在抗生素的存在下,仅期望的(无标志物的)突变体能够存活和生长。还呈现了选择用于后续从染色体去除整合的靶向构建体的相关的策略,生成真正的无标志物突变体。

在最近几年中,已经建立了crispr-cas介导的基因组编辑构成用于遗传工程的有用的工具。已经建立了原核crispr系统作为适应性免疫系统为其宿主服务(jinek等人,2012,science337:816-821),并且可以被用于快速和有效的遗传工程(例如,mali等人,2013,natmethods10:957-963),仅需要指导序列的修饰以靶向感兴趣的序列。

然而,对开发应用于遗传研究和基因组编辑领域的在多种实验条件下具有改进的序列特异性核酸检测、裂解和操作的剂存在持续需求。特别地,当前可得的序列特异性基因组编辑工具,包括cas9,不适用于在所有条件或生物体中使用,例如,序列特异性核酸酶是相对地热敏感的,并且因此不适用于在严格嗜热微生物(其能够在41℃与122℃之间生长,并且能够在从>45℃至80℃的温度范围中最佳地生长,其中极端嗜热菌(hyperthermophiles)能够在80℃以上最佳生长),例如,在工业发酵中使用的微生物或用于在升高的温度进行的体外实验室过程的微生物中使用。

迄今,不存在关于在嗜热菌(thermophiles)中的活性cas9蛋白的实验证据。基于由chylinski等人(2014;nucleicacidsresearch42:6091-61-05)对细菌中cas9的存在的比较基因组筛选,发现ii-c型crispr-cas系统仅存在于所有细菌基因组的约3.3%中。在嗜热细菌中,基于统计学分析,ii型系统的代表性不足(p=0.0019)。另外,然而,在古核生物中尚未发现ii型系统,这可能是由于古核生物中不存在rna酶iii蛋白(参与ii型系统)。chylinski等人(2014;nucleicacidsresearch42:6091-6105)确实描述了ii型crispr-cas系统的分类和演化,特别地,鉴定出了表现出这些系统的两个物种,然而这些物种在55℃最大地生长,并且没有表现出严格嗜热生长,其中最佳生长温度为60℃-80℃,而极端嗜热菌能够在80℃以上最佳地生长。

尽管crispr-cas系统在细菌基因组中的稀有性,并且特别是仅在具有45℃以下的最佳生长温度的细菌(非古核生物)中已经发现cas9的事实,本发明人已经出乎意料地发现了几种能够在升高的温度进行基因组编辑的热稳定的cas9变体。本发明人还已经发现了优化的前间区相邻基序(protospaceradjacentmotif;pam)序列,该优化的前间区相邻基序(pam)序列与热稳定的cas9变体一起起作用,以使基因组编辑能够在宽范围的温度中,包括在升高的温度进行。这些cas9核酸酶和通过相关的pam序列的知识设计的rna分子,提供了用于在升高的温度进行遗传工程的新型工具,并且在嗜热生物体(特别地,微生物)的遗传操作中具有特别的价值。

最近已经进行了嗜热属即地芽孢杆菌属(geobacillus)的系统发育重新评估,结果创建了一个新的属——副地芽孢杆菌属(parageobacillus)。因此,先前的地芽孢杆菌属的一些物种已经被系统地重新分配至副地芽孢杆菌属,并且相应地重新命名(aliyu等人,(2016)systematicandappliedmicrobiology39:527-533)。

成簇的规律地间隔的短回文重复(clusteredregularlyinterspacedshortpalindromicrepeats)(crispr)和crispr相关的(cas)蛋白在原核生物中提供了针对入侵的遗传元件的适应性和遗传性免疫(brouns等人science321,(2008);barrangou等人crisprprovidesacquiredresistanceagainstvirusesinprokaryotes.science315,(2007);wright等人cell164,29-44(2016);mohanraju等人science353,aad5147(2016))。crispr-cas系统根据其复杂性和特征蛋白被次分配到两类(1和2)和六个类型(i-vi)中(makarova等人nat.rev.microbiol.13,722-736(2015))。第2类系统,包括ii型crispr-cas9和v型crispr-cas12a(先前被称为crispr-cpf1)最近已经被用作用于真核生物(komor等人cell168,20-36(2017);puchta,curr.opin.plantbiol.36,1-8(2017);xu等人j.genet.genomics42,141-149(2015);tang等人nat.plants3,17018(2017);zetsche等人nat.biotechnol.35,31-34(2016))和原核生物(mougiakos,等人trendsbiotechnol.34,575-587(2016))二者的基因组工程工具。这些系统是最简单的crispr-cas系统之一,因为它们引入了基于核糖核蛋白(rnp)复合体的靶向的双链dna断裂(dsb),该核糖核蛋白(rnp)复合体由单个cas核酸内切酶和rna指导(rnaguide)形成。

迄今为止,酿脓链球菌(streptococcuspyogenes)cas9(spcas9)是用于基因组工程的最良好表征和最广泛使用的cas9。尽管已经表征了一些其他的ii型系统,但它们都不是来源于嗜热生物体(nakade,等人bioengineered1-9(2017).doi:10.1080/21655979.2017.1282018)。这类crispr-cas系统的表征将有助于获得基本的见解以及开发新型应用。

虽然基本的遗传工具可用于许多嗜热菌(taylor等人microb.biotechnol.4,438-448(2011);olson,等人curr.opin.biotechnol.33,130-141(2015);zeldes,等人front.microbiol.6,1209(2015)),这些工具的效率仍然太低以至于不能充分探索和开发这一组有趣的生物体。基于我们发现spcas9在体内≥42℃不是有活性的,我们先前已经开发了用于兼性嗜热菌的基于spcas9的工程化工具,该工程化工具组合了在升高的温度的同源重组和在中等温度的基于spcas9的反选择(counter-selection)(mougiakos等人acssynth.biol.6,849-861(2017))。然而,用于专性嗜热菌的基于cas9的编辑和沉默工具还不可得,因为spcas9在42℃或42℃以上不具有活性(mougiakos等人acssynth.biol.6,849-861(2017))并且迄今为止尚未表征嗜热cas9。

发明概述

本发明人已经发现并且表征了thermocas9:一种来自嗜热细菌热脱氮地芽孢杆菌(geobacillusthermodenitrificans)t12的crispr-casiic型系统的rna指导的dna核酸内切酶。本发明人已经出乎意料地显示出其在宽的温度范围中的体外活性,证明了sgrna结构对于热稳定性的重要性,并且跨越宽的温度范围应用了thermocas9用于体内基因组编辑。

因此,本发明提供了分离的成簇的规律地间隔的短回文重复(clusteredregularlyinterspacedshortpalindromicrepeat;crispr)相关(cas)蛋白或多肽,所述分离的成簇的规律地间隔的短回文重复(crispr)相关(cas)蛋白或多肽包含:

a.氨基酸基序ekdgkyyc[seqidno:2];和/或

b.氨基酸基序x1x2ctx3x4[seqidno:3],其中x1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,x2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,x3独立地选自谷氨酸或赖氨酸,并且x4是丙氨酸、谷氨酸或精氨酸之一;和/或

c.氨基酸基序x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺;和/或

d.氨基酸基序x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一;和/或

e.氨基酸基序x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸。

为避免疑问,本发明的蛋白、多肽或编码cas蛋白的核酸也可以被称为“gtcas9”或“thermocas9”。“gtcas9”和“thermocas9”在整个说明书中可互换地被使用,并且具有相同的含义。

在本发明的上下文中的多肽可以被视作全长cas蛋白的片段。这类片段可以是失活的并且以与结合、编辑和/或切割遗传物质不直接地相关的方式和目的使用,例如用于测定中的标准物或产生抗体等。

然而,在优选的实施方案中,cas蛋白或多肽是有功能的并且当与至少一种靶向rna分子和包含被靶向rna分子识别的靶核酸序列的多核苷酸缔合时能够在20℃与100℃的范围中(包括端点)的温度进行裂解、结合、标记或修饰。优选地,cas蛋白或多肽是有功能的,并且能够在50℃和70℃的范围中的温度,例如55℃或60℃的温度进行所述裂解、结合、标记或修饰。

在特定实施方案中,本发明可以提供包含氨基酸基序ekdgkyyc[seqidno:2]的cas蛋白或多肽。在其他实施方案中,cas蛋白或多肽还可以包含氨基酸基序x1x2ctx3x4[seqidno:3],其中x1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,x2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,x3独立地选自谷氨酸或赖氨酸,并且x4是丙氨酸、谷氨酸或精氨酸之一。

在其他实施方案中,本文定义的cas蛋白或多肽还可以另外地包含氨基酸基序x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺。

在其他实施方案中,本文定义的cas蛋白或多肽还可以另外地包含氨基酸基序x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一。

在其他实施方案中,本文定义的cas蛋白或多肽还可以另外地包含氨基酸基序x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸。

根据本发明,可以理解的是,本发明的cas蛋白或多肽可以包含单独的或以组合方式的seqidno:2至6的任何基序。以下总结了可以表征本发明的cas蛋白或多肽的基序的每个组合:

ekdgkyyc[seqidno:2]。

ekdgkyyc[seqidno:2];和x1x2ctx3x4[seqidno:3],其中x1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,x2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,x3独立地选自谷氨酸或赖氨酸,并且x4是丙氨酸、谷氨酸或精氨酸之一。

ekdgkyyc[seqidno:2];和x1x2ctx3x4[seqidno:3],其中x1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,x2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,x3独立地选自谷氨酸或赖氨酸,并且x4是丙氨酸、谷氨酸或精氨酸之一;和x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺。

ekdgkyyc[seqidno:2];和x1x2ctx3x4[seqidno:3],其中x1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,x2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,x3独立地选自谷氨酸或赖氨酸,并且x4是丙氨酸、谷氨酸或精氨酸之一;和x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺;和x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一。

ekdgkyyc[seqidno:2];和x1x2ctx3x4[seqidno:3],其中x1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,x2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,x3独立地选自谷氨酸或赖氨酸,并且x4是丙氨酸、谷氨酸或精氨酸之一;和x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺;和x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一;和x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸。

ekdgkyyc[seqidno:2];和x1x2ctx3x4[seqidno:3],其中x1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,x2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,x3独立地选自谷氨酸或赖氨酸,并且x4是丙氨酸、谷氨酸或精氨酸之一;和x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺;和x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸。

ekdgkyyc[seqidno:2];和x1x2ctx3x4[seqidno:3],其中x1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,x2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,x3独立地选自谷氨酸或赖氨酸,并且x4是丙氨酸、谷氨酸或精氨酸之一;和x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一;和x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸。

ekdgkyyc[seqidno:2];和x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺;和x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一;和x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸。

ekdgkyyc[seqidno:2];和x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺。

ekdgkyyc[seqidno:2];和x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一。

ekdgkyyc[seqidno:2];和x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸。

ekdgkyyc[seqidno:2];和x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺;和x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一。

ekdgkyyc[seqidno:2];和x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺;和x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸。

ekdgkyyc[seqidno:2];和x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一;和x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸。

x1x2ctx3x4[seqidno:3],其中x1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,x2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,x3独立地选自谷氨酸或赖氨酸,并且x4是丙氨酸、谷氨酸或精氨酸之一;和x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺。

x1x2ctx3x4[seqidno:3],其中x1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,x2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,x3独立地选自谷氨酸或赖氨酸,并且x4是丙氨酸、谷氨酸或精氨酸之一;和x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺;和x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一。

x1x2ctx3x4[seqidno:3],其中x1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,x2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,x3独立地选自谷氨酸或赖氨酸,并且x4是丙氨酸、谷氨酸或精氨酸之一;和x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺;和x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一;和x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸。

x1x2ctx3x4[seqidno:3],其中x1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,x2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,x3独立地选自谷氨酸或赖氨酸,并且x4是丙氨酸、谷氨酸或精氨酸之一;和x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一;和x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸。

x1x2ctx3x4[seqidno:3],其中x1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,x2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,x3独立地选自谷氨酸或赖氨酸,并且x4是丙氨酸、谷氨酸或精氨酸之一;和x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一。

x1x2ctx3x4[seqidno:3],其中x1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,x2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,x3独立地选自谷氨酸或赖氨酸,并且x4是丙氨酸、谷氨酸或精氨酸之一;和x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸。

x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺;和x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一;和x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸。

x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺;和x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一。

x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺;和x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸。

x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一;和x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸。

在另一方面中,本发明提供了分离的cas蛋白或其多肽片段,所述分离的cas蛋白或其多肽片段具有seqidno:1的氨基酸序列或与seqidno:1具有至少77%同一性的序列,其中cas蛋白或其多肽片段包含单独或以组合方式的任何下列基序或氨基酸:

ruvc-i结构域,所述ruvc-i结构域包含igldigitsig[seqidno:23],优选地igldigitsigwavinld[seqidno:24];

桥(bridge)结构域,所述桥结构域包含rsarr[seqidno:25],优选地prrlarsarrrlrrrkhrlerirrl[seqidno:26];和/或

α螺旋/识别叶(lobe)结构域,所述α螺旋/识别叶结构域包含wqlr[seqidno:27];和/或

α螺旋/识别叶结构域,所述α螺旋/识别叶结构域包含hlakrrg[seqidno:28],优选地larillhlakrrg[seqidno:29];和/或

α螺旋/识别叶结构域,所述α螺旋/识别叶结构域包含ifakq[seqidno:30],优选地eiklifakq[seqidno:31];和/或

α螺旋/识别叶结构域,所述α螺旋/识别叶结构域包含iwasqr[seqidno:32];和/或

kvgfctfepkekrapk[seqidno:33];和/或

ftvwehinklrl[seqidno:34];和/或

ruvc-ii结构域,所述ruvc-ii结构域包含ianpvvmraltq[seqidno:35]基序,优选地ianpvvmraltqarkvvnaiikkyg[seqidno:36]基序;和/或

ruvc-ii结构域,所述ruvc-ii结构域包含elar[seqidno:37]基序,优选地ihielare[seqidno:38]基序;和/或

hnh结构域,所述hnh结构域包含qngkcay[seqidno:39]基序,优选地ivkfklwseqngkcay[seqidno:40]基序;和/或

hnh结构域,所述hnh结构域包含vdhvip[seqidno:41]基序,优选地vdhvipysrslddsytnkvl[seqidno:42]基序;和/或

ruvc-iii结构域,所述ruvc-iii结构域包含dtryisrflan[seqidno:43]基序;和/或

ruvc-iii结构域,所述ruvc-iii结构域包含vytvngritahlrsrw[seqidno:44]基序;和/或

ruvc-iii结构域,所述ruvc-iii结构域包含hhavda[seqidno:45]基序,优选地hhavdaaiva[seqidno:46]基序;和/或

优选地,本发明提供了分离的cas蛋白或其多肽片段,所述分离的cas蛋白或其多肽片段具有seqidno:1的氨基酸序列或与seqidno:1具有至少77%同一性的序列,其中cas蛋白或其多肽片段以组合方式包含氨基酸基序[seqidno:23]至[seqidno:46]的每一个氨基酸基序。

在另一方面中,本发明提供了分离的cas蛋白或其多肽片段,所述分离的cas蛋白或其多肽片段具有seqidno:1的氨基酸序列或与seqidno:1具有至少77%同一性的序列。优选地,cas蛋白或多肽能够在20℃和100℃的范围中(包括端点)的温度进行结合、裂解、标记或修饰。优选地,cas蛋白或多肽能够在20℃和70℃之间的范围中,例如25℃、55℃、60℃或65℃的温度进行所述裂解、结合、标记或修饰。优选地,cas蛋白或多肽能够在50℃和70℃之间的范围中的温度,例如55℃或60℃的温度进行所述裂解、结合、标记或修饰。优选地,cas蛋白或多肽能够在30℃和80℃之间的范围中的温度、37℃和78℃之间的温度,优选地55℃以上的温度;更优选地55℃和80℃之间的温度;甚至更优选地55℃和65℃之间的温度或在60℃和65℃之间的温度进行所述裂解、结合、标记或修饰。

本发明还提供了本文提供的靶向rna分子和cas蛋白或多肽用于结合、裂解、标记或修饰包含靶核酸序列的靶多核苷酸的用途。靶向rna分子识别多核苷酸的靶核酸链上的靶核酸序列。

包含靶核酸序列的靶多核苷酸可以是双链的,并且因此包含靶核酸链和非靶核酸链,该靶核酸链包含所述靶核酸序列,该非靶核酸链包含前间区核酸序列。前间区核酸序列与靶核酸序列实质上互补,并且在双链靶多核苷酸中与其配对。非靶核酸链还可以包含与前间区序列的3’末端直接地相邻的前间区相邻基序(pam)序列。pam序列的长度可以是至少6个、7个或8个核酸。优选地,pam序列在第五个位置中具有胞嘧啶。优选地,pam序列包含序列5’-nnnnc-3’,使得pam序列从5’-末端以5’-nnnnc-3’开始。另外地或可选地,pam序列可以在第八个位置中具有腺嘌呤,使得pam序列包含序列5’-nnnnnnna-3’,并且从5’-末端pam序列以5’-nnnnnnna-3’开始。另外地或可选地,pam序列可以在第一个、第二个、第三个、第四个和第六个位置的一个或更多个位置中具有胞嘧啶,使得pam序列从5’-末端以5’-cnnnn-3’、5’-ncnnn-3’、5’-nncnn-3’、5’-nnncn-3’、和/或5’-nnnnnc-3’开始。任选地,pam序列包含5’-ccccccna-3’[seqidno:10],使得pam序列从5’-末端以5’-ccccccna-3’[seqidno:10]开始,并且进一步优选地,pam序列包含5’-ccccccaa-3’[seqidno:11],使得pam序列从5’-末端以5’-ccccccaa-3’[seqidno:11]开始。其他优选的pam序列包括5’-atccccaa-3’[seqidno:21]和5’-acggccaa-3’[seqidno:22]。

优选地,cas蛋白或多肽能够在40℃至80℃的范围(包括端点)中的温度,优选地在45℃至80℃的范围(包括端点)中的温度,并且进一步优选地在50℃至80℃的范围(包括端点)中的温度进行结合、裂解、标记或修饰。例如,结合、裂解、标记或修饰发生在45℃、46℃、47℃、48℃、49℃、50℃、51℃、52℃、53℃、54℃、55℃、56℃、57℃、58℃、59℃、60℃、61℃、62℃、63℃、64℃、65℃、66℃、67℃、68℃、69℃、70℃、71℃、72℃、73℃、74℃、75℃、76℃、77℃、78℃、79℃或80℃的温度。更优选地,cas蛋白或多肽能够在55℃至65℃的范围中的温度进行结合、裂解、标记或修饰。在优选的方面中,本发明的cas蛋白或多肽片段可以包含与seqidno:1具有至少75%同一性;优选地至少85%;更优选地至少90%;甚至更优选地至少95%同一性的氨基酸序列。

cas蛋白或多肽可以与识别靶核酸链上的靶核酸序列的靶向rna分子组合使用,其中非靶核酸序列具有与在非靶链上的前间区序列的3’末端直接地相邻的pam序列,如本文所公开的。因此,pam序列可以包含序列5’-nnnnc-3’,并且cas蛋白可以在20℃和100℃的范围(包括端点)中的温度,优选地30℃和90℃的范围(包括端点)中的温度,在37℃和78℃的范围(包括端点)中的温度、在40℃和80℃的范围(包括端点)中的温度、在50℃和70℃的范围(包括端点)中的温度、或在55℃和65℃的范围(包括端点)中的温度结合、裂解、标记或修饰靶链。优选地,pam序列从5’-末端以5’-nnnnc-3’开始,并且cas蛋白可以在20℃和100℃的范围(包括端点)中的温度,优选地30℃和90℃的范围(包括端点)中的温度,在37℃和78℃的范围(包括端点)中的温度、在40℃和80℃的范围(包括端点)中的温度、在50℃和70℃的范围(包括端点)中的温度、或在55℃和65℃的范围(包括端点)中的温度结合、裂解、标记或修饰靶链。优选地,pam序列从5’-末端以5’-nnnnnnna-3’开始,并且cas蛋白可以在20℃和100℃的范围(包括端点)中的温度,优选地30℃和90℃的范围(包括端点)中的温度,在37℃和78℃的范围(包括端点)中的温度、在40℃和80℃的范围(包括端点)中的温度、在50℃和70℃的范围(包括端点)中的温度、或55℃和65℃的范围(包括端点)中的温度结合、裂解、标记或修饰靶链。还优选地,pam序列的5’-末端以5’-nnnncnna-3’[seqidno:47]开始,并且cas蛋白可以在20℃和100℃的范围(包括端点)中的温度,优选地在30℃和90℃的范围(包括端点)中的温度,在37℃和78℃的范围(包括端点)中的温度、在40℃和80℃的范围(包括端点)中的温度、在50℃和70℃的范围(包括端点)中的温度、或在55℃和65℃的范围(包括端点)中的温度结合、裂解、标记或修饰靶链。

更特别地,本发明的cas蛋白或多肽可以包含与seqidno:1具有如下同一性百分比的氨基酸序列:至少60%、至少61%、至少62%、至少63%、至少64%、至少65%、至少66%、至少67%、至少68%、至少69%、至少70%、至少71%、至少72%、至少73%、至少74%、至少75%、至少76%、至少77%、至少78%、至少79%、至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.5%或至少99.8%。同一性百分比可以是至少89%。同一性百分比可以是至少90%。优选地,同一性百分比将是至少95%,例如98%。

与seqidno:1的氨基酸序列同一性百分比是根据在选定的比较窗口中的序列共享的相同的位置的数目,考虑到需要被引入用于两个序列的最佳比对的空位的数目和每一个空位的长度可确定的。

本发明的cas蛋白或多肽片段可以根据参考序列seqidno:1和如由序列同一性百分比定义的任何上文提及的其百分比变体二者,单独地或与任何上文提及的氨基酸基序(即seqidno:2和/或seqidno:3和/或seqidno:4和/或seqidno:5和/或seqidno:6)组合作为基本特征来表征。

本发明提供了如本文提供的靶向rna分子和本发明的cas蛋白或多肽用于结合、裂解、标记或修饰包含靶核酸序列的靶核酸链的用途。优选地,所述结合、裂解、标记或修饰发生在本文所公开的温度,例如20℃和100℃之间的温度。本发明还提供了结合、裂解、标记或修饰靶核酸链中的靶核酸序列的方法,该方法包括设计如本文提供的靶向rna分子和形成包含该靶向rna分子和本发明的cas蛋白或多肽的核糖核蛋白复合体。优选地,核糖核蛋白复合体在本文所公开的温度,例如在37℃和100℃之间的温度结合、裂解、标记或修饰靶核酸序列。

本发明的用途和方法可以在体内例如在细菌细胞中进行,并且本发明的核蛋白可以在体内例如在细菌细胞中形成和使用。本发明的用途和方法可以在体内(除了在人类细胞中)进行,并且本发明的核蛋白可以在体内(除了在人类细胞中)形成和使用。可选地,本发明的用途和方法可以在体外进行,并且本发明的核蛋白可以在体外形成和使用。本发明的cas蛋白可以以分离的形式被提供,例如当在体外使用时或当通过转染添加至细胞时,cas蛋白可以例如在通过编码cas蛋白的核酸瞬时或稳定转化细胞后被异源表达,靶向rna分子可以在细胞通过编码rna分子的核酸瞬时或稳定转化后从表达载体转录,和/或rna分子可以以分离的形式被提供,例如当在体外使用时或当通过转染添加至细胞时。在优选的实施方案中,在编码cas蛋白或多肽的核酸在宿主细胞的基因组中稳定整合后,cas蛋白或多肽从宿主细胞的基因组表达。因此,使用用于将蛋白或核酸分子添加至细胞(否则在细胞中,该蛋白或核酸分子不存在)的任何人工或人为的方法,cas蛋白和/或rna分子可以被添加至体内或体外环境。

包含靶核酸序列的多核苷酸可以被cas蛋白裂解,并且任选地裂解可以是dna裂解。包含靶序列的靶核酸链可以是双链dna,并且方法或用途可以引起包含靶核酸序列的多核苷酸中的双链断裂。包含靶核酸序列的多核苷酸可以是双链dna,cas蛋白可以缺乏切割双链dna的能力,并且用途或方法可以引起多核苷酸的基因沉默。

cas蛋白或多肽可以以250nm或更低的浓度,例如以200nm或更低、150nm或更低、100nm或更低、50nm或更低、25nm或更低、10nm或更低、5nm或更低、1nm或更低或0.5nm或更低的浓度被提供用于本发明的方法、用途和核蛋白。可选地,cas蛋白或多肽可以以至少0.5nm、至少1nm、至少5nm、至少10nm、至少25nm、至少50nm、至少100nm、至少150nm、至少200nm或至少250nm的浓度被提供。本发明的pam序列可以在第八个位置中具有腺嘌呤,使得pam序列包含序列5’-nnnnnnna-3’,并且cas蛋白或多肽的浓度可以是100nm或更低、50nm或更低、25nm或更低、10nm或更低、5nm或更低、1nm或更低或0.5nm或更低。pam序列可以包含序列5’-nnnncnna-3’[seqidno:47],并且cas蛋白或多肽的浓度可以是100nm或更低、50nm或更低、25nm或更低、10nm或更低、5nm或更低、1nm或更低或0.5nm或更低。pam序列可以包含序列5’-ccccccna-3’[seqidno:10],并且cas蛋白或多肽的浓度可以是100nm或更低、50nm或更低、25nm或更低、10nm或更低、5nm或更低、1nm或更低或0.5nm或更低。

此外,本发明提供了编码本发明的任何上文提及的蛋白或多肽的核酸。核酸可以是分离的或呈表达构建体的形式。

在本发明的所有上文提及的方面中,氨基酸残基可以被保守取代或非保守取代。保守氨基酸取代是指其中氨基酸残基被取代为具有类似化学特性(例如,电荷或疏水性)的其他氨基酸残基并且因此不改变所得多肽的功能特性的那些氨基酸取代。

类似地,本领域普通技术人员将理解,核酸序列可以被保守或非保守取代,而不影响多肽的功能。保守修饰的核酸是被取代为编码氨基酸序列的相同或功能上相同的变体的核酸的那些核酸。本领域的读者将理解,核酸中的每一个密码子(除了aug和ugg;通常,分别是甲硫氨酸或色氨酸的唯一密码子)可以被修饰以产生功能上相同的分子。因此,编码本发明的多肽的多核苷酸或多肽的每一个沉默变体(即同义密码子)隐含在每一个描述的多肽序列中。

本发明提供了经转化的细胞,该经转化的细胞具有在双链靶多核苷酸中的靶核酸序列,所述细胞包含如本文提供的cas蛋白或多肽和至少一种如本文提供的靶向rna分子、和表达载体,所述表达载体包含编码所述cas蛋白和所述靶向rna分子中的至少一种的核酸。如本文所公开的,cas蛋白和靶向rna分子可以使得结合、裂解、标记或修饰靶序列能够在升高的温度或在例如37℃和100℃之间的温度范围,在经转化的细胞中发生,或允许结合、裂解、标记或修饰靶序列在升高的温度或在例如37℃和100℃之间的温度范围在经转化的细胞中发生。本发明还提供了结合、裂解、标记或修饰细胞中的靶核酸的方法,包括1)用表达载体转化、转染或转导细胞,所述表达载体包含编码本发明的cas蛋白或多肽的核苷酸序列和编码本发明的靶向rna分子的核苷酸序列;或2)用表达载体和另外的表达载体转化、转染或转导细胞,所述表达载体包含编码本发明的cas蛋白或多肽的核苷酸序列,所述另外的表达载体包含编码本发明的靶向rna分子的核苷酸序列;或3)用表达载体转化、转染或转导细胞,所述表达载体包含编码本发明的cas蛋白或多肽的核苷酸序列,和将如本文提供的靶向rna分子递送至细胞或递送到细胞中。cas蛋白或多肽可以例如在编码cas蛋白或多肽的核苷酸序列稳定整合到基因组中后从经转化的细胞的基因组表达。

本发明还提供包含一种或更多种试剂的试剂盒,所述试剂盒用于实施本发明的用途和方法,或用于产生本发明的经转化的细胞或核蛋白复合体,所述试剂盒包含:本发明的cas蛋白或多肽或包含编码本发明的cas蛋白或多肽的核酸序列的表达载体;和/或本发明的靶向rna分子或包含编码本发明的靶向rna分子的核酸序列的表达载体。试剂盒还可以包括实施本发明的说明书,例如如何设计根据本发明的靶向rna分子的说明。

rna指导(rnaguides)和靶序列

本发明的cas蛋白允许在升高的温度对靶核酸进行序列特异性结合、裂解、加标签、标记或修饰。靶核酸可以是dna(单链或双链)、rna或合成的核酸。本发明的特别有用的应用是通过与一种或更多种指导rna(grna)呈复合体形式的本发明的一种或更多种cas蛋白对基因组dna进行序列特异性靶向和修饰,所述一种或更多种指导rna(grna)与基因组dna的靶向的序列互补地结合。因此,靶核酸优选地是双链dna。这类靶向可以在体外或体内进行。优选地,这类靶向在体内进行。以该方式,本发明的cas蛋白可以被用于靶向和修饰位于细胞的基因组dna中的特定dna序列。设想了cas系统可以被用于修饰多种细胞类型中和/或不同生物体中的基因组。

grna,也被称为靶向rna分子,识别多核苷酸靶链上的靶核酸序列。rna分子可以被设计为识别双链靶多核苷酸中的靶序列,其中非靶链包含与前间区序列的3’末端直接地相邻的前间区相邻基序(pam)序列。本文公开了以最佳方式与本发明的cas蛋白和多肽一起起作用的pam序列。在具有这些pam序列知识的情况下,grna可以被设计用于与本发明的cas蛋白和多肽一起跨越本发明的温度范围和增加的温度使用。

因此,本发明提供了核糖核蛋白复合体,所述核糖核蛋白复合体包含如上文描述的本发明的cas蛋白或多肽,并且还包含至少一种rna分子,所述至少一种rna分子由于识别靶多核苷酸中的特定核苷酸序列而具有靶向功能的。本发明还提供了至少一种靶向rna分子和cas蛋白或多肽用于结合、裂解、标记或修饰靶核酸链的用途,和使用本发明的核糖核蛋白或核蛋白结合、裂解、标记或修饰靶核酸链中的靶核酸序列的方法,以及具有cas蛋白或多肽和靶向rna分子的经转化的非人类细胞。根据本文提供的pam序列,靶多核苷酸还可以包含与前间区序列的3’末端直接地相邻的定义的pam序列。pam序列的长度可以是6个、7个或8个核酸,或更长,优选地8个核酸。优选地,rna分子是单链rna分子,例如crisprrna(crrna),并且例如通过杂交与tracrrna缔合。靶向rna可以是crrna和tracrrna的嵌合体。上文提及的rna分子可以具有与靶核苷酸序列具有至少90%同一性或互补性的靶核苷酸序列。任选地,rna分子具有与靶核苷酸序列具有至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同一性或互补性的靶核苷酸序列。优选的靶核苷酸序列是dna。

在优选的方面中,本发明提供了如上文描述的核糖核蛋白复合体,其中至少一种靶向rna分子沿其长度与靶dna序列基本上互补。

靶向rna分子可以在核蛋白复合体中与靶序列结合或缔合,使得包含靶序列的靶多核苷酸和在非靶链上的pam序列可以与本发明的核蛋白复合体缔合并且因此形成本发明的核蛋白复合体的一部分。

因此,与本发明的cas蛋白缔合的rna指导的序列的改变允许cas蛋白被编程为在与指导rna互补的位点处标记或切割双链dna。

优选地,在本发明的核糖核蛋白复合体中的至少一种靶向rna分子的长度在35个至135个残基的范围中,任选地在以下范围中:35个至134个残基、35个至133个残基、35个至132个残基、35个至131个残基、35个至130个残基、35个至129个残基、35个至128个残基、35个至127个残基、35个至126个残基、35个至125个残基、35个至124个残基、35个至123个残基、35个至122个残基、35个至121个残基、35个至120个残基、35个至119个残基、35个至118个残基、35个至117个残基、35个至116个残基、35个至115个残基、35个至114个残基、35个至113个残基、35个至112个残基、35个至111个残基、35个至100个残基、35个至109个残基、35个至108个残基、35个至107个残基、35个至106个残基、35个至105个残基、35个至104个残基、35个至103个残基、35个至102个残基、35个至101个残基、35个至100个残基、35个至99个残基、35个至98个残基、35个至97个残基、35个至96个残基、35个至95个残基、35个至94个残基、35个至93个残基、35个至92个残基、35个至91个残基、35个至90个残基、35个至89个残基、35个至88个残基、35个至87个残基、35个至86个残基、35个至85个残基、35个至84个残基、35个至83个残基、35个至82个残基、35个至81个残基、35个至80个残基、35个至79个残基、35个至78个残基、35个至77个残基、35个至76个残基、35个至75个残基、35个至74个残基、35个至73个残基、35个至72个残基、35个至71个残基、35个至70个残基、35个至69个残基、35个至68个残基、35个至67个残基、35个至66个残基、35个至65个残基、35个至64个残基、35个至63个残基、35个至62个残基、35个至61个残基、35个至60个残基、35个至59个残基、35个至58个残基、35个至57个残基、35个至56个残基、35个至55个残基、35个至54个残基、35个至53个残基、35个至52个残基、35个至51个残基、35个至50个残基、35个至49个残基、35个至48个残基、35个至47个残基、35个至46个残基、35个至45个残基、35个至44个残基、35个至43个残基、35个至42个残基、35个至41个残基、35个至40个残基、35个至39个残基、35个至38个残基、35个至37个残基、35个至36个残基或35个残基。优选地,至少一种rna分子的长度在以下范围中:36个至174个残基、37个至173个残基、38个至172个残基、39个至171个残基、40个至170个残基、41个至169个残基、42个至168个残基、43个至167个残基、44个至166个残基、45个至165个残基、46个至164个残基、47个至163个残基、48个至162个残基、49个至161个残基、50个至160个残基、51个至159个残基、52个至158个残基、53个至157个残基、54个至156个残基、36个至74个残基、37个至73个残基、38个至72个残基、39个至71个残基、40个至70个残基、41个至69个残基、42个至68个残基、43个至67个残基、44个至66个残基、45个至65个残基、46个至64个残基、47个至63个残基、48个至62个残基、49个至61个残基、50个至60个残基、51个至59个残基、52个至58个残基、53个至57个残基、54个至56个残基。

在优选的方面中,本发明提供了核糖核蛋白复合体,其中至少一种rna分子的互补部分是至少30个残基长。可选地,至少一种rna分子的互补部分可以是31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个、51个、52个、53个、54个、55个、56个、57个、58个、59个、60个、61个、62个、63个、64个、65个、66个、67个、68个、69个、70个、71个、72个、73个、74个或75个残基长。

靶向rna分子将优选地要求对于靶核酸序列的高特异性和亲和力。在1μm至1pm,优选地1nm至1pm;更优选地1pm-100pm的范围中的解离常数(kd)是期望的,如可以通过非变性凝胶电泳(nativegelelectrophoresis)或可选地等温滴定量热法、表面等离子体共振或基于荧光的滴定方法来确定。亲和力可以使用电泳迁移率变动测定(emsa)来确定,所述电泳迁移率变动测定也被称为凝胶阻滞测定(参见semenova等人(2011)pnas108:10098-10103)。

靶向rna分子优选地在从原核生物自然界已知作为crisprrna(crrna)分子的分子上建模(modeled)。crrna分子的结构已经被建立并且在jore等人,2011,naturestructural&molecularbiology18:529-537中更详细地解释。简而言之,i-e型的成熟crrna通常是61个核苷酸长,并且由8个核苷酸的5’“手柄”区域、32个核苷酸的“间隔区”序列和21个核苷酸的3’序列组成,所述21个核苷酸的3’序列形成具有四核苷酸环的发夹(图5)。i型系统不同于ii型(cas9)系统,并且不同的系统的详细内容在vanderoost2014natrevmicr12:479-492中被描述。在ii型(cas9)系统中,存在不同的处理机制,使用第二种rna(tracrrna)和两种核糖核酸酶。ii型中的成熟的crrna保持与tracrrna片段附接而非发夹(图5)。然而,本发明中使用的rna不必严格遵循天然存在的crrna的设计被设计,无论是长度、区域还是特定的rna序列。但明确的是,用于在本发明中使用的rna分子可以基于公共数据库中的或新发现的基因序列信息来设计,并且然后人工制备,例如通过完全或部分化学合成。本发明的rna分子还可以被设计并通过在遗传修饰的细胞或无细胞表达系统中表达的方式产生,并且这种选择可以包括合成一些或所有的rna序列。

ii型(cas9)中的crrna的结构和要求也已经在jinek等人,2012同上中被描述。在i型中,存在所谓的“种子(seed)”部分形成间隔区序列的5’末端并且其5’侧翼为8个核苷酸的5’手柄。semenova等人(2011,pnas108:10098-10103)已经发现种子序列的所有残基均应该与靶序列互补,尽管对于在位置6处的残基可以容忍错配(图5)。在ii型中,存在位于间隔区的3’末端处的10-12个核苷酸的种子(图5)(由vanderoost2014同上综述)。类似地,当设计和制备针对靶基因座(即序列)处的本发明的核糖核蛋白复合体的rna组分时,可以应用用于ii型种子序列的必要匹配和错配规则。

因此,本发明包括检测和/或定位靶核酸分子中的单个碱基变化的方法,所述方法包括使核酸样品与如上文描述的本发明的核糖核蛋白复合体或与如上文描述的本发明的cas蛋白或多肽和单独的靶向rna组分接触,并且其中靶向rna的序列(包括当在核糖核蛋白复合体中时)使得通过在例如8个核苷酸残基的连续序列的位置6处的单个碱基变化区分正常等位基因和突变等位基因。

不希望受特定理论束缚,可以被用于制备本发明的核糖核蛋白复合体的靶向rna组分的设计规则涉及双链靶多核苷酸中的所谓“pam”(前间区相邻基序)序列。在大肠杆菌(e.coli)的i-e型系统中,pam序列可以是保守的核苷酸残基三联体,诸如5’-ctt-3’、5’-cat-3’、5’-cct-3’、5’-cac-3’、5’-ttt-3’、5’-att-3’、和5’-awg-3’,其中w是a、t或u。在i型中,位于靶向的链中的pam序列通常在对应于种子的5’的位置处。然而,在ii型中,pam位于靠近crrna间隔区的3’末端的置换链或非靶链的另一末端处,在对应于种子的3’的位置处(图5)(jinek等,2012,同上)。对于酿脓链球菌(streptococcuspyogenes)cas9,pam序列具有保守的核苷酸残基对5’-ngg-3’。最近,已经表征了不同的cas9变体(iia型和iic型)(ran等人,2015nature520:186-191)-图1a),并且已经揭示了pam(参见ran等人,2015,同上-图1c)。目前建立的cas9pam包括:iia型5’-nggnnnn-3’(酿脓链球菌)、5’-nngtnnn-3’(巴氏链球菌(streptococcuspasteurianus))、5’-nnggaan-3’(嗜热链球菌(streptococcusthermophilus))、5’-nngggnn-3’(金黄色葡萄球菌(staphylococcusaureus)),和iic型5’-nggnnnn-3’(白喉棒杆菌(corynebacteriumdiphtheriae))、5’-nngggtn-3’(红嘴鸥弯曲杆菌(campylobacterlari))、5’-nnncatn-3’(parvibaculumlavamentivorans)、5’-nnnngta-3’(灰色奈瑟菌(neisseriacinerea))。热脱氮地芽孢杆菌t12的cas9(本发明)属于iic型(ran等人,2015,同上)。本发明人已经出乎意料地发现,用于与本发明一起使用的pam序列的选择可以影响其中本发明的cas蛋白和多肽将与靶序列相互作用的一种或更多种温度。特别地,本发明人已经发现优选8聚体(8-mer)pam序列以跨越宽的温度范围赋予活性,其中胞嘧啶在靶序列3’末端后的第5个位置中,和/或腺嘌呤在第8个位置中。在前间区序列的3’末端后,在pam序列的第1个、第2个、第3个、第4个和/或第6个位置中也存在对于胞嘧啶的偏好。

在特定方面中,通过使用5’-nnnncvaa-3’[seqidno:48]的pam序列,可以实现在例如20℃至100℃的宽的温度范围中、20℃至80℃的宽的温度范围中、30℃至80℃的宽的温度范围中、20℃至70℃的宽的温度范围中或25℃至65℃的宽的温度范围中与靶序列的相互作用。前4个pam位置不存在特定的偏好。因此,前4个核苷酸可以方便地是任何核苷酸(nnnn)。优选地,可以通过利用5’-nnnncsaa-3’[seqidno:49]的pam序列来实现在这类宽的温度范围中的与靶序列的相互作用。最佳地,pam可以具有序列5’-nnnncgaa-3’[seqidno:50]或5’-nnnnccaa-3’[seqidno:51]。

当需要在≥30℃,例如30℃至100℃的范围中,优选地在30℃至70℃的范围中,30℃至65℃的范围中或45℃至65℃的范围中与靶序列相互作用时,pam序列可以最佳地具有序列5’-nnnncnaa-3’[seqidno:52]或5’-nnnncmca-3’[seqidno:53]。前4个pam位置不存在特定的偏好。因此,前4个核苷酸可以方便地是任何核苷酸(nnnn)。任选地,例如,pam序列可以是5’-cccccnaa-3’或5’-cccccmca-3’。任选地,例如,pam序列可以选自5’-cccccaaa-3’、5’-cccccata-3’、5’-cccccaga-3’、5’-cccccaca-3’、5’-ccccctaa-3’、5’-ccccctta-3’、5’-ccccctga-3’、5’-ccccctca-3’、5’-cccccgaa-3’、5’-cccccgta-3’、5’-cccccgga-3’、5’-cccccgca-3’、5’-ccccccaa-3’[seqidno:11]、5’-ccccccta-3’、5’-ccccccga-3’或5’-ccccccca-3’。

在本发明的实施方案中,靶向rna分子可以具有在35个-200个残基范围中的长度。在优选的实施方案中,与期望的核酸序列互补的并且被用于靶向期望的核酸序列的rna的部分是从15个至32个残基长。在天然存在的crrna的情况中,这将对应于如例如在semenova等人(2011同上)的图1中显示出的间隔区部分。

本发明的核糖核蛋白复合体可以具有包含位于rna序列5’的来源于crispr重复的8个残基的靶向组分,该rna序列与dna靶序列具有实质的互补性。与dna靶序列具有互补性的rna序列将被理解为对应于在crrna的情况中作为间隔区序列。rna的5’侧翼序列将被认为对应于crrna的5’手柄;如例如在semenova等人(2011同上)的图1中显示出的。

本发明的核糖核蛋白复合体可以具有位于与dna靶序列具有互补性的靶向rna序列3’的发夹和四核苷酸环形成序列,即位于将对应于在crrna中的间隔区序列侧翼的3’手柄的3’;例如,如在semenova等人(2011同上)的图1中显示出的。

不希望受特定理论的束缚,在优选的核糖核蛋白复合体和双链靶多核苷酸中,不与核糖核蛋白复合体的靶向rna配对的非靶核酸链可以包含直接地3’相邻的pam序列,该pam序列选自5’-nnnncnna-3’[seqidno:47]、5’-cnnncnn-3’、5’-nnnccnn-3’、5’-nncncnn-3’、5’-nnnnccn-3’和5’-ncnncnn-3’的一种或更多种。任选地,例如,pam序列可以选自5’-nnnnc-3’,5’-nnnncnna-3’[seqidno:47]、5’-cnnnc-3’、5’-cnnncnna-3’、5’-ncnnc-3’、5’-ncnncnna-3’、5’-nncnc-3’、5’-nncncnna-3’、5’-nnncc-3’、5’-nnnccnna-3’、5’-nnnncc-3’、5’-nnnnccna-3’、5’-ccnnc-3’、5’-ccnncnna-3’、5’-cncnc-3’、5’-cncncnna-3’、5’-cnnccn-3’、5’-cnnccnna-3’、5’-cnnncc-3’、5’-cnnnccna-3’、5’-cccncn-3’、5’-cccncnna-3’、5’-ccnccn-3’、5’-ccnccnna-3’、5’-ccnncc-3’、5’-ccnnccna-3’、5’-ccccc-3’[seqidno:12]、5’-cccccnna-3’[seqidno:13]、5’-cccccc-3’[seqidno:14]、5’-ccccccna-3’[seqidno:10]、5’-nccnc-3’、5’-nccncnna-3’、5’-ncccc-3’、5’-nccccnna-3’、5’-nccccc-3’[seqidno:15]、5’-ncccccna-3’[seqidno:16]、5’-nnccc-3’、5’-nncccnna-3’、5’-nncccc-3’、5’-nnccccna-3’、5’-nnnccc-3’、和5’-nnncccna-3’。pam序列可以是5’-cnccccac-3’[seqidno:17]、5’-ccccccag-3’[seqidno:18]、5’-ccccccaa-3’[seqidno:11]、5’-ccccccat-3’[seqidno:19]、5’-ccccccac-3’[seqidno:20]、5’-atccccaa-3’[seqidno:21]、或5’-acggccaa-3’[seqidno:22]。优选地,pam序列将是序列5’-nnnncnna-3’[seqidno:47]。然而,将理解的是,取决于期望的应用和/或cas蛋白或多肽的浓度,可以使用核苷酸的其他组合。特别是,前4个pam位置不存在特定的偏好。因此,前4个核苷酸可以方便地是任何核苷酸(nnnn)。这些序列对应于在天然存在的crrna的情况中被称为“前间区相邻基序”或“pam”的序列。在iic型crispr/cas系统中,这些pam序列促进cascade/crrna复合体与其dsdna靶稳定相互作用,以确保crrna对靶序列的高度的特异性-在天然系统靶中和因此也优选地对于根据本发明的rna二者。优选地,与前间区直接地相邻的序列将不是5’-nnncatn-3’。

另外地,pam序列可以具有序列5’-nnnncnna-3’[seqidno:47],例如5’-nnnncnaa-3’[seqidno:52],或5’-nnnncmca-3’[seqidno:53]。

嗜温spcas9的局限性之一是它仅在25℃和44℃之间显示出活性;在这些温度以上,spcas9活性快速地减少至不可检测的水平(mougiakos等人,2017,acssynthbiol.6:849-861)。与其嗜温同源物spcas9的25℃-44℃范围相比,本发明的thermocas9在20℃-70℃的更宽得多的温度范围中在体外有活性。thermocas9的延伸的活性和稳定性允许其在需要在20℃-70℃的温度进行dna操作的分子生物学技术中的应用,以及其在需要稳健的酶活性的严苛环境中的利用。因此,thermocas9也可以用作用于嗜热生物体和嗜温生物体二者的基因组编辑工具。

除了具有宽的功能温度活性范围,即在低的温度和高的温度二者,例如在20℃和70℃二者,或20℃和65℃或25℃和65℃是有功能的之外,通过修饰thermocas9或相关的元件(诸如,例如,sgrna或tracrna)的结构特征,操作其中thermocas9能够进行靶向的裂解或结合或其中靶向的裂解或结合有效地发生的温度的范围的能力将使得能够对核酸序列操作施加更大水平的控制。然而,直到现在,对在特定温度的cas9活性的分子决定因素知之甚少。

本发明人已经鉴定了对于赋予thermocas9的热稳定性重要的若干因素,其中之一是thermocas9的pam偏好。thermocas9的pam偏好对于在温度范围的较低部分(≤30℃)的活性是非常严格的,而对于在中等至最佳温度(37℃至60℃)的活性允许pam中的更多的变化。因此,可以改变pam序列,以在给定的温度获得靶的最有效结合、裂解、标记或修饰。这提供了在thermocas9的应用中的大程度的灵活性,取决于特定应用。例如,在一些应用中,靶结合、裂解、标记或修饰的非常宽的温度范围可以是期望的,例如20℃至70℃,优选地20℃至65℃或25℃至65℃。在这类宽的温度范围中的靶序列的结合、裂解、标记或修饰可以通过使用5’-nnnncvaa-3’[seqidno:48]的pam序列来实现。优选地,在这类宽的温度范围中的靶序列的结合、裂解、标记或修饰可以通过使用5’-nnnncsaa-3’[seqidno:49],例如5’-nnnncgaa-3’[seqidno:50]或5’-nnnnccaa-3’[seqidno:51]的pam序列来实现。前4个pam位置不存在特定的偏好。因此,前4个核苷酸可以方便地是任何核苷酸(nnnn)。任选地,例如5’-cccccgaa-3’或5’-ccccccaa-3’[seqidno:11]。

当需要在≥30℃,例如30℃至100℃的范围中,优选地在30℃至70℃的范围中、30℃至65℃的范围中或45℃至65℃的范围中结合、裂解、标记或修饰靶时,pam序列可以最佳地具有序列5’-nnnncnaa-3’[seqidno:52]或5’-nnnncmca-3’[seqidno:53]。前4个pam位置不存在特定的偏好。因此,前4个核苷酸可以方便地是任何核苷酸(nnnn)。任选地,例如,pam序列可以是5’-cccccnaa-3’或5’-cccccmca-3’。任选地,例如,pam序列可以选自5’-cccccaaa-3’、5’-cccccata-3’、5’-cccccaga-3’、5’-cccccaca-3’、5’-ccccctaa-3’、5’-ccccctta-3’、5’-ccccctga-3’、5’-ccccctca-3’、5’-cccccgaa-3’、5’-cccccgta-3’、5’-cccccgga-3’、5’-cccccgca-3’、5’-ccccccaa-3’[seqidno:11]、5’-ccccccta-3’、5’-ccccccga-3’或5’-ccccccca-3’。

本文提供的本发明的pam序列包含本文所公开的序列,例如作为6聚体、7聚体或8聚体序列。6聚体、7聚体或8聚体序列可以直接地从在非靶链上的前间区序列的3’开始,而在前间区序列和pam序列的5’末端之间不具有另外的核酸间隔,该前间区序列与靶向rna结合的序列互补。然而,将理解的是,在6聚体、7聚体或8聚体序列的3’末端处,可以存在另外的核酸形成pam序列的部分。另外地或可选地,非靶链可以包含在pam序列的3’的另外的核酸。

本发明的核蛋白复合体可以包含本发明的核糖核蛋白复合体和核糖核蛋白与其缔合的核酸的靶核酸链。

结合、裂解、标记和修饰温度

本发明的cas蛋白的活性,例如核酸酶活性的温度范围,包括最佳温度范围,显著地高于已知的cas9蛋白的活性的温度范围。此外,它在其中保持活性的范围的上限比已知的cas9蛋白保持活性的范围的上限高得多。较高的最佳温度和功能范围在高温度的遗传工程中提供了显著的优点,并且因此,例如,在编辑嗜热生物体的基因组中提供了显著的优点,嗜热生物体中的许多在升高的温度进行的一系列工业、农业和制药过程中具有效用。因此,本发明的方法、用途、核蛋白和经转化的细胞可以是在工业过程中有用的,例如为代谢工程目的提供基因组编辑。本发明的pam序列(与非靶链中的前间区序列直接地相邻)的存在,改进了cas蛋白和多肽对靶序列的特异性,并且支持cas蛋白和多肽在更高温度和跨越更大功能温度范围的用途。

根据显著地更大的热稳定性,本发明的cas蛋白,跨越比已知cas9蛋白的温度范围大得多的温度范围保持功能,例如核酸酶活性。此外,它在其中保持活性的范围的上限比已知的cas9蛋白保持活性的范围的上限高得多。较高的最佳温度和功能范围在高的温度的遗传工程中提供了显著的优点,并且因此,例如,在编辑嗜热生物体和嗜温生物体的基因组中提供了显著的优点,其中的许多在升高的温度进行的一系列工业、农业和制药过程中具有效用。thermocas9的延伸的活性和稳定性允许其在需要在宽的温度范围中(例如20-70℃)进行dna操作的分子生物学技术中的应用,以及其在需要稳健的酶活性的严苛环境中的利用。因此,thermocas9也可以用作用于嗜热生物体和嗜温生物体二者的基因组编辑工具。

有益地,本发明人还已经显示出,本发明的cas蛋白也可以用于指导靶序列的转录控制,例如通过与靶序列序列特异性结合来使转录沉默。因此,thermocas9也可以用作嗜热生物体和嗜温生物体二者中的转录控制工具,例如用在使靶基因的转录沉默或激活中。因此,thermocas9也可以用作在嗜热生物体和嗜温生物体二者中的基因沉默工具。

有益地,本发明的cas蛋白或多肽能够在从20℃至100℃的温度进行核酸结合、裂解、标记或修饰,但在升高的温度,例如在41℃和122℃之间的温度,优选地在50℃和100℃之间的温度是特别有用的。本发明的cas蛋白和多肽能够结合、裂解、标记或修饰dna、rna和合成的核酸。本发明的cas蛋白或多肽还可以在例如20℃至50℃的范围中的温度提供用于核酸酶活性、基因编辑和核酸标记应用的可操作性。

在本文包括温度范围的情况下,预期端点被包括在所公开的温度范围中,即该范围是“包括性的”。例如,当陈述在20℃和100℃之间的范围中的温度存在活性时,20℃和100℃的温度被包括在所述范围中。

优选地,当与合适的grna(指导rna,也被称为靶向rna分子)缔合时(所述grna识别一个或更多个多核苷酸分子中的待被结合、裂解、标记或修饰的靶序列),本发明的cas蛋白或多肽在20℃至100℃的范围中的温度,任选地在20℃至70℃、20℃至65℃、25℃至70℃、25℃至65℃、55℃至100℃、50℃至70℃、55℃至70℃、或55℃至65℃的范围中的温度进行结合、裂解、标记或修饰。

优选地,当与合适的grna(指导rna,也称为靶向rna分子)缔合时(所述grna识别一个或更多个多核苷酸分子中待被结合、裂解、标记或修饰的靶序列),本发明的cas蛋白或多肽在50℃至100℃的范围中的温度,任选地在55℃至100℃、60℃至100℃、65℃至100℃、70℃至100℃、75℃至100℃、80℃至100℃、85℃至100℃、90℃至100℃、95℃至100℃的温度进行结合、裂解、标记或修饰。更优选地,本发明的cas蛋白在51℃至99℃、52℃至98℃、53℃至97℃、54℃至96℃、55℃至95℃、56℃至94℃、57℃至93℃、58℃至92℃、59℃至91℃、60℃至90℃、61℃至89℃、62℃至88℃、63℃至87℃、64℃至86℃、65℃至85℃、66℃至84℃、67℃至83℃、68℃至82℃、69℃至81℃、70℃至80℃、71℃至79℃、72℃至78℃、73℃至77℃、74℃至76℃的范围中的温度、或在75℃的温度对核酸进行裂解、标记或修饰。优选地,本发明的cas蛋白在60℃至80℃、61℃至79℃、62℃至78℃、63℃至77℃、64℃至76℃、60℃至75℃、60℃至70℃的范围中的温度对核酸进行结合、裂解、标记或修饰。最佳地,本发明的cas蛋白在60℃至65℃的范围中的温度,优选地在65℃对核酸进行结合、裂解、标记或修饰。

靶向rna分子可以被设计用于与本发明的cas蛋白和多肽一起使用,其中靶向rna分子与靶链中的靶序列结合,并且非靶链还包含本文提供的紧邻前间区序列3’的pam序列。pam序列可以包含5’-nnnnnnna-3’,优选地5’-nnnncnna-3’[seqidno:47],任选地,例如5’-ccccccna-3’[seqidno:10]或5’-ccccccaa-3’[seqidno:11],并且本发明的用途、方法、经转化的细胞和核蛋白可以跨越从55℃至65℃的温度范围,优选地跨越从50℃至70℃、从40℃至65℃、从45℃至75℃、从37℃至78℃和/或从20℃至80℃的温度范围,提供靶链的结合、裂解、标记和/或修饰。

可以改变pam序列,以在给定的温度获得靶的最有效裂解。这提供了在本发明的cas蛋白的应用中的大程度的灵活性,取决于特定应用。当结合、裂解、标记或修饰活性,例如裂解活性,需要在20℃至100℃的温度范围中,优选地20℃至70℃的温度范围中,或20℃至65℃的温度范围中或25℃至65℃的温度范围中时,那么活性可以通过使用5’-nnnncvaa-3’[seqidno:48]的pam序列来实现,优选地,在这类温度范围中的活性可以通过使用5’-nnnncsaa-3’[seqidno:49],例如5’-nnnncgaa-3’[seqidno:50]或5’-nnnnccaa-3’[seqidno:51]的pam序列来实现。任选地,例如5’-cccccgaa-3’[seqidno:52]或5’-ccccccaa-3’[seqidno:11]。

本发明人已经发现thermocas9的热稳定性随着形成核糖核蛋白复合体的指导(sgrna)的缔合而增加。指导(sgrna)可以合适地包含tracrrna和crrna。在这类布置中,该指导可以合适地包含crrna,所述crrna包含核苷酸间隔区片段和重复片段。crrna的长度可以合适地是17-20nt。任选地,crrna的长度可以是17nt。可选地,crrna的长度可以是18nt、19nt或20nt。该指导还可以包含tracrrna(反向重复(anti-repeat)片段(与crrna的重复片段碱基配对))。tracrrna和crrna可以通过合成的接头来分隔。以下指导代表了优选的布置:5’-[crrna(17-20个核苷酸间隔区片段&重复片段)–(任选的:连接两个rna的合成的环)–tracrrna(反向重复片段(与crrna的重复片段碱基配对)&一些可变的茎环结构(如参见下文中的结构),在某些系统中可以被截短至一定程度)]-3’。

通常地,tracrrna将作为嵌合的单指导rna(sgrna)的一部分被提供,所述嵌合的单指导rna(sgrna)例如包含crrna和tracrrna。tracrrna可以由反向重复区域和随后的一个或更多个发夹结构,优选地两个或更多个发夹结构或更优选地三个或更多个发夹结构组成。在间隔区远端的全长重复/反向重复发夹(由在通过4-核苷酸接头例如5’-gaaa-3’融合的合成的sgrna嵌合体中的crrna部分的3’-末端(重复)和互补的tracrrna部分(反向重复)的5’-末端形成)的存在作为核酸酶的锚发挥功能,但对靶选择和裂解活性不是必需的。例如,可以容忍在tracrrna部分的高达50-nt缺失的间隔区远端处的缺失,而对dna裂解效率影响很小或没有影响。因此,例如,全长重复-反向重复发夹的间隔区远端的缺失可以被制备成高达50nt、高达45nt、高达40nt、高达35nt、高达30nt、高达25nt、高达20nt、高达15nt、高达10nt或高达5nt,而在靶dna裂解效率的方面没有损害。

出乎意料地,本发明人还已经发现tracrrna的结构影响thermocas9的热稳定性和活性(特别是裂解活性)的效率。具体地,可以修饰tracrrna或sgrna中的发夹(或茎环)结构的数目,以在给定温度获得靶的最有效结合、裂解、标记或修饰。这提供了本发明的cas蛋白的应用中的大程度的灵活性,取决于特定应用。任选地,tracrrna或sgrna可以被提供能够形成一个或更多个茎环结构、两个或更多个茎环结构或三个或更多个茎环结构的核酸序列。任选地,tracrrna或sgrna可以被提供被布置成形成一个或更多个茎环结构、两个或更多个茎环结构或三个或更多个茎环结构的核酸序列。优选地,sgrna将被提供能够形成至少三个茎环结构的核酸序列。

任选地,在结合、裂解、标记或修饰活性,例如裂解活性需要在20℃至60℃的温度范围中,优选地37℃至60℃的温度范围中,或37℃、40℃、45℃、50℃、55℃或60℃的情况,那么可以通过使用能够形成一个或更多个茎环结构的sgrna序列来实现活性。

任选地,在结合、裂解、标记或修饰活性,例如裂解活性需要在20℃至65℃的温度范围中,优选地37℃至65℃的温度范围中,更优选地45℃至55℃的温度范围中、或37℃、40℃、45℃、50℃、55℃或60℃的情况,那么可以通过使用能够形成两个或更多个茎环结构的sgrna序列来实现活性。

任选地,在结合、裂解、标记或修饰活性,例如裂解活性需要在20℃至100℃的温度范围中,优选地20℃至70℃的温度范围中,更优选地37℃至65℃的温度范围中、或37℃、40℃、45℃、50℃、55℃、60℃或65℃的情况,那么可以通过使用能够形成三个或更多个茎环结构的sgrna序列来实现活性。

优选地,对应于tracrrna的sgrna的部分将包含序列aagggcuuucugccuauaggcagacugccc[seqidno:54],该序列例示了5’发夹。优选地,对应于tracrrna的sgrna的部分还将包含序列guggcguuggggaucgccuaucgcc[seqidno:55],该序列例示了‘中间’发夹。优选地,对应于tracrrna的sgrna的部分还将包含序列cgcuuucuucgggcauuccccacucuuaggcguuuu[seqidno:56],该序列例示了3’发夹。

优选地,对应于tracrrna的sgrna的部分将包含序列aagggcuuucugccuauaggcagacugcccguggcguuggggaucgccuaucgcc[seqidno:57],即包括5’发夹和中间发夹。

优选地,对应于tracrrna的sgrna的部分可以包含序列aagggcuuucugccuauaggcagacugcccguggcguuggggaucgccuaucgcccgcuuucuucgggcauuccccacucuuaggcguuuu[seqidno:58],即包括5’发夹、中间发夹和3’发夹。

本发明人已经发现,tracrrna支架的预测的茎环的数目在dna裂解中起着至关重要的作用,特别是在升高的温度。本发明人已经确定,尽管tracrrna支架的三个茎环的存在对于裂解活性不是必需的,但是当所有三个环都存在时,在该范围中的所有温度,裂解是最有效的,这表明在升高的温度需要全长的tracrrna用于最佳的基于thermocas9的dna裂解。与之相比,去除3’发夹引起裂解效率的减少。此外,本发明人发现去除中间发夹和3’发夹二者引起thermocas9的裂解效率的急剧地下降,特别地在功能温度范围的上限和下限。优选地,在需要在升高的温度,例如45℃至100℃、50℃至100℃、50℃至70℃、50℃至65℃、55℃至65℃的温度范围中或在宽的温度范围中,诸如20℃至100℃、20℃至70℃、20℃至65℃的温度范围中,对靶序列进行结合、裂解、标记或修饰的情况。优选地,在20℃至100℃、20℃至70℃、20℃至65℃、45℃至100℃、50℃至100℃、50℃至70℃、50℃至65℃或55℃至65℃的范围中的选择的温度,与具有三个茎环结构的sgrna缔合的thermocas9将保持稳定,并且能够对靶序列进行结合、裂解、标记或修饰持续至少1min、至少2min、至少3min、至少4min或至少5min,优选地5min。

此外,本发明人还已经发现,可以改变sgrna的间隔区序列的长度,以控制thermocas9活性,例如结合、裂解、标记或修饰活性的效率。通常地,间隔区序列的长度将在18nt至25nt的范围中。任选地,间隔区序列的长度将是18nt、19nt、20nt、21nt、22nt、23nt、24nt或25nt。优选地,将使用19nt、20nt、21nt或23nt的间隔区长度,因为当与具有这些间隔区长度的sgrna缔合时,本发明的cas9蛋白以最高的效率裂解靶序列。当使用18nt的间隔区时,裂解效率显著地下降。优选地,间隔区的长度将是23nt。

在本发明的所有方面中,cas蛋白或多肽可以获得自或来源于细菌、古核生物或病毒;或可选地可以从头合成。在优选的实施方案中,本发明的cas蛋白或多肽来源于嗜热原核生物体,所述嗜热原核生物体可以被分类为古核生物或细菌,但优选地是细菌。更优选地,本发明的cas蛋白或多肽将来源于嗜热细菌。本文中,术语嗜热应当理解为意指能够在相对地高的温度存活和生长,例如,在本发明的情况中,能够在41℃和122℃(106℉和252℉)之间的温度进行核酸裂解、结合或修饰。优选地,本发明的cas蛋白或多肽可以从一种或更多种嗜热细菌分离,并且将在60℃以上发挥功能。优选地,本发明的cas蛋白或多肽可以从一种或更多种嗜热细菌分离,并且将在60℃至80℃的范围中并且最佳地在60℃与65℃之间的范围中发挥功能。在优选的实施方案中,本发明的cas蛋白或多肽来源于地芽孢杆菌属的种。更优选地,本发明的cas蛋白来源于热脱氮地芽孢杆菌。甚至更优选地,本发明的cas蛋白来源于热脱氮地芽孢杆菌t12。本发明的cas蛋白或多肽可以来源于病毒。

功能部分

有益地,可以使用本发明的cas蛋白、多肽和核糖核蛋白复合体以序列特异性方式靶向任何多核苷酸序列的能力来以某种方式修饰靶核酸,例如通过裂解靶核酸和/或标记靶核酸和/或修饰靶核酸。因此将理解的是,可以随cas蛋白或多肽提供另外的蛋白以实现这一点。因此,本发明的cas蛋白或多肽还可以包含至少一个功能部分,和/或本发明的cas蛋白、多肽或核糖核蛋白复合体可以作为蛋白复合体的一部分被提供,所述蛋白复合体包含至少一种另外的蛋白。在优选的方面中,本发明提供了一种cas蛋白、多肽或核糖核蛋白复合体,其中cas蛋白或至少一种另外的蛋白还包含至少一个功能部分。至少一个功能部分可以与cas蛋白融合或连接。优选地,至少一个功能部分可以通过在天然或人工蛋白表达系统中表达而与cas蛋白翻译地融合。可选地,至少一个功能部分可以通过化学合成步骤与cas蛋白共价地连接。优选地,至少一个功能部分与cas蛋白的n-末端和/或c-末端优选地c-末端融合或连接。

期望地,至少一个功能部分将是蛋白。它可以是异源蛋白,或可选地可以是cas蛋白来源于其的细菌物种天然的。至少一个功能部分可以是蛋白;任选地选自解旋酶、核酸酶、解旋酶-核酸酶、dna甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、dna结合蛋白、dna结构蛋白(dnastructuringprotein)、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签。

在特别地优选的方面中,本发明提供了一种cas蛋白、多肽或核糖核蛋白复合体,其中至少一个功能部分是标志物蛋白,例如gfp。

核酸酶活性

本发明的cas核糖核蛋白在本文所公开的温度,优选地在升高的温度,例如在50℃和100℃之间的温度,具有核酸结合、裂解、标记或修饰活性。本发明的核糖核蛋白能够结合、裂解、标记或修饰dna、rna或合成的核酸。在优选的方面中,本发明的cas核糖核蛋白能够以序列特异性方式裂解dna,特别是双链dna。

本发明的cas蛋白、多肽或核糖核蛋白可以具有多于一个核酸酶结构域。位点特异性核酸酶可以允许沿着dna的链的选择的位置处生成双链断裂(dsb)。在靶宿主细胞中,这使dsb能够在基因组中特定的预先选择的位置处产生。通过位点特异性核酸酶创建这类断裂促使内源细胞修复机制被重新使用,以在感兴趣的基因组中的期望的位置处插入、缺失或修饰dna。

蛋白或多肽分子的一个或更多个核酸酶活性位点可以被失活,例如,以允许与蛋白或多肽连接或融合的另一个功能部分例如核酸酶结构域诸如foki核酸酶的活性。

因此,尽管本发明的cas蛋白、多肽和核糖核蛋白可以具有内源核酸酶活性的事实,但对于某些应用,可能期望使cas蛋白的天然核酸酶活性失活并且提供cas蛋白或核糖核蛋白复合体,其中天然的cas9核酸酶活性被失活并且cas蛋白与至少一个功能部分连接。这类应用的一种是通过补充天然的cas9核酸酶活性来降低错误靶向事件的发生率。这可以期望地通过使cas蛋白或核糖核蛋白复合体的天然cas9核酸酶活性失活和提供优选地与cas蛋白融合的异源核酸酶来实现。因此,本发明提供了cas蛋白或核糖核蛋白复合体,其中至少一个功能部分是核酸酶结构域,优选地foki核酸酶结构域。在一个特别地优选的方面中,与foki核酸酶结构域融合的本发明的cas蛋白或核糖核蛋白复合体作为蛋白复合体的一部分被提供,优选地包含与foki核酸酶结构域融合的本发明的另一个cas蛋白或核糖核蛋白复合体,并且其中两个复合体靶向靶基因组dna的相对链。

对于一些应用,可以期望完全地减弱cas蛋白、多肽或核糖核蛋白的核酸酶活性,例如在其中cas蛋白或核糖核蛋白复合体被用于识别和修饰核酸中的特定靶序列,例如用于将其标记为诊断测试的一部分的应用中。在这类应用中,cas蛋白的核酸酶活性可以被失活,并且与cas蛋白融合的功能部分可以是蛋白;任选地选自解旋酶、核酸酶、解旋酶-核酸酶、dna甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、dna结合蛋白、dna结构蛋白、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签。

在优选的方面中,缺乏核酸酶活性的催化上失活的或“死亡”的cas蛋白或多肽(dcas)可以与靶核酸序列结合,并且从而在空间上阻遏该序列的活性。例如,可以设计与基因的启动子或外显子序列互补的靶向rna,使得dcas和靶向rna与基因的结合在空间上阻遏基因序列的转录起始或延伸,从而阻遏基因的表达。可选地,本文描述的方法和用途可以使用为切口酶(nickases)的gtcas9的修饰的核酸酶变体。切口酶可以通过gtcas9核酸酶的hnh或ruvc催化结构域的任一个中的突变来创建。这已经针对酿脓链球菌cas9(spcas)显示出,spcas9-突变体d10a和h840a,它们分别地具有失活的ruvc或hnh核酸酶结构域。这两种突变的组合导致催化上死亡的cas9变体(standage-beier,k.等人,2015,acssynth.biol.4,1217-1225;jinek,m.等人,2012,science337,816-821;xu,t.等人,2015,appl.environ.microbiol.81,4423-4431)。基于序列同源性(图3),这些残基可以是在gtcas9中的d8(在图3中的d17)和d581或h582(图3)。

优选地,在gtcas9(thermocas9)中的d8a和h582a突变可以被用于产生催化上失活或“死亡”的cas蛋白或缺乏核酸酶活性的thermocas9的多肽变体(dcas)。这类dcas可以有效地找到应用,例如,作为有效的热活性转录沉默crispri工具,能够稳定和特异性地与dna元件结合而不引入dsdna断裂。有益地,这类系统可以,除其他之外,极大地促进嗜热菌的代谢研究。

在特别地优选的方面中,本发明提供了cas蛋白或核糖核蛋白复合体,其中cas蛋白的核酸酶活性被失活,并且至少一个功能部分是标志物蛋白,例如gfp。以该方式,特异性地靶向感兴趣的核酸序列并且使用生成光信号的标志物使其可视化可以是可能的。合适的标志物可以包括例如荧光报告物蛋白,例如绿色荧光蛋白(gfp)、黄色荧光蛋白(yfp)、红色荧光蛋白(rfp)、青色荧光蛋白(cfp)或mcherry。这类荧光报告物基因提供了用于蛋白表达的可视化的合适的标志物,因为它的表达可以通过荧光测量简单地且直接地测定。可选地,报告物核酸可以编码发光蛋白,诸如萤光素酶(例如萤火虫萤光素酶)。可选地,报告物基因可以是可以被用于生成光信号的显色酶,例如显色酶(诸如β-半乳糖苷酶(lacz)或β-葡糖醛酸糖苷酶(gus))。用于测量表达的报告物也可以是抗原肽标签。其他报告物或标志物是本领域中已知的,并且可以适当地使用它们。

因为标志物可以被可视化,在其中靶核酸是rna,特别地mrna的某些实施方案中,特别地在由标志物生成的光信号与表达产物的量成正比的情况,通过检测和定量由标志物提供的光信号来定量基因的转录活性可以是可能的。因此,在本发明的优选的实施方案中,本发明的cas蛋白或核糖核蛋白可以被用于测定感兴趣的基因的表达产物。

在一方面中,本文描述的gtcas9可以被用于微生物细胞中的同源重组(hr)介导的基因组修饰方法中。这类方法涉及hr和位点定向的gtcas9活性,由此通过gtcas9活性,反选择(counterselection)发生,去除不具有由hr引入的期望的修饰的微生物。

因此,本文提供的方法和用途允许同源重组的过程在第一步期间被支持,使得微生物基因组可以被修饰以具有期望的突变,以及在第二步期间被支持,在该第二步中未修饰的细胞可以被gtcas9核糖核酸酶复合体靶向以将dsdb引入未修饰的细胞的基因组中。由于在大多数微生物中不存在有效的非同源末端连接(nhej)修复机制,dsdb通常地导致细胞死亡。因此,这些方法和用途总体上增加了具有期望的突变的微生物细胞的群体,同时消除了任何未修饰的微生物细胞。优选地,这类方法和用途被用于实质上不具有内源nhej修复机制的微生物。可选地,所述方法和用途可以被应用于具有内源nhej修复机制的微生物。本文描述的方法和用途可以被应用于具有内源nhej修复机制,但其中nhej修复机制有条件地降低或nhej活性被敲除的微生物。

本文提供的方法和用途可以使用同源重组多核苷酸的序列,该序列与指导rna具有至少一个错配,使得指导rna不再能够识别修饰的基因组。这意味着gtcas9核糖核酸酶复合体将不识别修饰的基因组。因此,gtcas9核糖核酸酶复合体不可以引入dsdb,并且因此修饰的细胞将存活。然而,具有未修饰的基因组的细胞仍将具有与指导rna的实质的互补性,并且因此可以被gtcas9核糖核酸酶复合体位点特异性地裂解。

在本发明的方法和用途的另一个方面中,其中防止gtcas9核糖核酸酶复合体起作用以裂解微生物基因组的方式与其说是以修饰或消除被指导靶向的序列,不如说是修饰或消除被gtcas9核糖核酸酶复合体需要的pam。pam被修饰或消除,以使gtcas9核糖核酸酶复合体对特异性切割位点不敏感(blind)。因此,本发明的方法和用途可以包括使用同源重组多核苷酸的序列的那些方法和用途,该同源重组多核苷酸的序列不包括被gtcas9核糖核酸酶复合体识别的pam序列。因此,gtcas9核糖核酸酶复合体不可以引入dsdb,并且因此hr修饰的细胞将存活。然而,未修饰的细胞仍将被gtcas9核糖核酸酶复合体及其指导所识别,并且因此被位点特异性地裂解。

因此,本文提供了依赖hr以修饰微生物的基因组的方法和用途。优选地,上游侧翼区和下游侧翼区的长度各自是0.5千碱基(kb)至1.0kb。然而,使用更大或更短片段的重组也是可能的。同源重组多核苷酸还可以包含在上游和下游侧翼区域之间的多核苷酸序列。该多核苷酸序列可以例如包含将被引入微生物基因组中的修饰。

尽管同源重组依赖于与靶区域具有实质的互补性的上游和下游侧翼区,但也可以容纳错配。因此,在一些实施方案中,已知同源重组发生在与上游和下游侧翼区具有广泛同源性的dna区段之间。在可选的实施方案中,上游和下游侧翼区具有与靶区域完全的互补性。上游和下游侧翼区的尺寸不必是相同的。然而,在一些实例中,上游和下游侧翼区的尺寸是相同的。同源重组的效率将根据侧翼区的最小片段长度的同源重组的可能性而变化。然而,即使同源重组过程是低效的,有益地,本文描述的方法将相对于未修饰的微生物细胞选择具有期望的修饰的任何微生物细胞。同源重组也允许产生包括完整基因簇的大的缺失(例如50kb或更大)。同源重组也被用于重组工程,重组工程是众所周知的允许在较小片段(45-100nt)内进行重组的方法。本文描述的方法和用途可以任选地还包含至少另一种同源重组多核苷酸或包含编码同源重组多核苷酸的序列的多核苷酸,所述同源重组多核苷酸具有与包含微生物基因组中的靶的第二靶区域基本上互补的序列。

在优选的实施方案中,本文描述的方法和用途使用同源重组多核苷酸,即dna。在一些实施方案中,dna是单链的。在另外的实施方案中,dna是双链的。在其他实施方案中,dna是双链的并且是质粒携带的。

本文提供的方法和用途中的hr可以被用于从微生物基因组去除多核苷酸序列。可选地,本文提供的方法和用途中的hr可以被用于将一个或更多个基因或所述基因的一个或更多个片段插入微生物基因组中。作为另外的可选选择,在本文提供的方法和用途中的hr可以被用于修饰或代替微生物基因组中的至少一个核苷酸。因此,本文提供的方法和用途可以被用于任何期望种类的基因组修饰。

可选地,本文描述的gtcas9可以被用于微生物细胞中的hr介导的基因组修饰方法,由此gtcas9活性在微生物细胞中引入dsdb并且可以诱导细胞hr,如对于spcas9已经显示出的(jiang等人(2013)naturebiotech,31,233-239;xu等人(2015)applenvironmicrobiol,81,4423-4431;huang等人(2015)actabiochimicaetbiophysicasinica,47,231-243)。

可选地,同源重组可以通过重组工程来促进,例如通过将寡核苷酸引入到表达编码rect或β蛋白的基因的微生物细胞中来促进,如由mougiakos等人((2016),trendsbiotechnol.34:575-587)综述的。在另外的实施方案中,cas9可以与多重自动化基因组工程(multiplexautomatedgenomeengineering)(mage)进行组合,如由ronda等人((2016),sci.rep.6:19452.)例示的。

自始至终,本发明的cas蛋白的参考序列可以被定义为编码氨基酸序列的核苷酸序列。例如,在seqidno:2至6中定义的基序的氨基酸序列还包括编码该氨基酸序列的所有核酸序列。

因此,本发明还提供了分离的核酸分子,所述分离的核酸分子编码cas蛋白,所述cas蛋白包含:

a.氨基酸基序ekdgkyyc[seqidno:2];和/或

b.氨基酸基序x1x2ctx3x4[seqidno:3],其中x1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,x2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,x3独立地选自谷氨酸或赖氨酸,并且x4是丙氨酸、谷氨酸或精氨酸之一;和/或

c.氨基酸基序x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺;和/或

d.氨基酸基序x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一;和/或

e.氨基酸基序x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸;

其中,当与至少一种靶向rna分子和包含被靶向rna分子识别的靶核酸序列的多核苷酸缔合时,cas蛋白能够在50℃与100℃之间进行dna结合、裂解、标记或修饰。

在另一个方面中,本发明还提供了分离的核酸分子,所述分离的核酸分子编码成簇的规律地间隔的短回文重复(crispr)相关的(cas)蛋白,所述成簇的规律地间隔的短回文重复(crispr)相关的(cas)蛋白具有seqidno:1的氨基酸序列或与seqidno:1具有至少77%同一性的序列。

在另一个方面中,本发明还提供了分离的核酸分子,所述分离的核酸分子还包含编码在翻译后与cas蛋白融合的肽的至少一种核酸序列。

在另一个方面中,本发明还提供了分离的核酸分子,其中与编码cas蛋白的核酸分子融合的至少一种核酸序列编码选自以下的蛋白:解旋酶、核酸酶、解旋酶-核酸酶、dna甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、dna结合蛋白、dna结构蛋白、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签。

thermocas9核酸酶活性:二价阳离子

先前表征的嗜温cas9核酸内切酶使用二价阳离子以催化在靶dna中生成dsb。本发明人已经显示出,在任何以下二价阳离子的存在下,thermocas9可以介导dsdna裂解:mg2+、ca2+、mn2+、co2+、ni2+和cu2+

thermocas9核酸酶活性:底物

本发明人还已经出乎意料地显示出,尽管有报道称某些iic型系统是有效的单链dna切割物(ma,等人,mol.cell60,398-407(2015);zhang,等人,mol.cell60,242-255(2015)),thermocas9不能指导ssdna的裂解。thermocas9的核酸酶活性局限于dsdna底物。

表达载体

本发明的核酸可以被分离。然而,为了核酸感测构建体(nucleicacidsensingconstruct)的表达可以在选择的细胞中进行,编码cas蛋白或核糖核蛋白的多核苷酸序列将优选地被提供于表达构建体中。在一些实施方案中,编码cas蛋白或核糖核蛋白的多核苷酸将作为合适的表达载体的一部分被提供。在某些实施方案中,本发明的表达载体(具有或不具有编码表达后将与cas蛋白融合的氨基酸残基的核苷酸序列)可以还包含编码如上文定义的靶向rna分子的核苷酸序列。因此,这类表达载体可以被用于在适当的宿主中以生成可以靶向期望的核苷酸序列的本发明的核糖核蛋白复合体。可选地,编码如上文定义的靶向rna分子的核苷酸序列可以被提供于单独的表达载体中,或者可选地可以通过其他手段递送至靶细胞。

合适的表达载体将根据受体细胞而变化,并且合适地可以掺入使得表达能够在靶细胞中进行,并且优选地促进高水平表达的调控元件。这类调控序列可以能够例如在起始、准确性、速率、稳定性、下游加工、及迁移率(mobility)的方面影响基因或基因产物的转录或翻译。

这类元件可以包括,例如,强和/或组成型启动子、5’和3’utr、转录和/或翻译增强子、转录因子或蛋白结合序列、起始位点和终止序列、核糖体结合位点、重组位点、聚腺苷酸化序列、有义或反义序列、确保正确起始转录的序列以及任选地确保宿主细胞中转录终止和转录物稳定的多聚a信号。调控序列可以是植物、动物、细菌、真菌或病毒来源的,并且优选地可以来源于与宿主细胞相同的生物体。清楚地,适当的调控元件将根据感兴趣的宿主细胞而变化。例如,促进在原核宿主细胞中诸如在大肠杆菌中的高水平表达的调控元件可以包括plac、t7、p(bla)、p(cat)、p(kat)、trp或tac启动子。促进在真核宿主细胞中的高水平表达的调控元件可以包括酵母中的aox1或gal1启动子,或cmv启动子或sv40启动子、cmv增强子、sv40增强子、单纯疱疹(herpessimplex)病毒vip16转录活化物或动物细胞中的珠蛋白内含子的内含物。在植物中,组成型高水平表达可以使用例如玉米(zeamays)泛素1启动子或花椰菜花叶病毒的35s和19s启动子来获得。

合适的调控元件可以是组成型的,由此它们在大多数环境条件或发育阶段(发育阶段特异性或诱导型)下指导表达。优选地,启动子是诱导型的,以响应于环境、化学或发育信号(cues)诸如温度、光照、化学品、干旱和其他刺激物来指导表达。合适地,可以选择允许感兴趣的蛋白在特定发育阶段或响应于细胞外或细胞内条件、信号或外部施加的刺激物而表达的启动子。例如,存在用于在大肠杆菌中使用的一系列启动子,所述启动子在生长的特定阶段(例如osmy稳定期启动子)或响应于特定刺激物(例如htpg热激启动子)提供高水平表达。

合适的表达载体可以包含编码允许在合适的宿主细胞中和/或在特定条件下选择所述载体的选择性标志物的另外的序列。

本发明还包括修饰细胞中的靶核酸的方法,所述方法包括用如上文描述的任何表达载体转染、转化或转导细胞。转染、转化或转导的方法是本领域技术人员熟知的类型。在使用一种表达载体生成本发明的核糖核蛋白复合体的表达的情况下,并且当靶向rna被直接地添加至细胞时,那么可以使用相同的或不同的转染、转化或转导的方法。类似地,当使用一种表达载体生成本发明的核糖核蛋白复合体的表达时,并且当另一种表达载体用于通过表达原位生成靶向rna时,那么可以使用相同或不同的转染、转化或转导方法。

在其他实施方案中,引入编码cas蛋白或多肽的mrna到细胞中,使得cascade复合体在细胞中被表达。将cas蛋白复合体引导至期望的靶序列的靶向rna也被引入到细胞中,无论是与mrna同时地、单独地或顺序地引入到细胞中,使得在细胞中形成必需的核糖核蛋白复合体。

因此,本发明还提供了修饰(即裂解、加标签、修饰、标记或结合)靶核酸的方法,所述方法包括使所述核酸与如上文定义的核糖核蛋白复合体接触。

另外,本发明还包括修饰靶核酸的方法,所述方法包括使核酸与除了如上文定义的靶向rna分子以外的如上文定义的cas蛋白或多肽接触。

根据以上方法,靶核酸的修饰因此可以在体外和在无细胞的环境中进行。在无细胞环境中,靶核酸、cas蛋白和靶向rna分子的各自的添加可以是同时的、顺序的(根据需要以任何顺序)或单独的。因此,以下是可能的:靶核酸和靶向rna同时地被添加至反应混合物,并且然后在稍后阶段,本发明的cas蛋白或多肽单独地被添加。

等同地,靶核酸的修饰可以在体内进行,即在细胞中原位进行,无论是分离的细胞还是作为多细胞组织、器官或生物体的一部分。在整个组织和器官的情况中和在生物体的情况中,该方法可以期望地在体内,或可选地可以通过从整个组织、器官或生物体分离细胞,根据该方法用核糖核蛋白复合体处理细胞,并且随后将用核糖核蛋白复合体处理的细胞返回至其之前的位置或不同的位置,无论是在相同的还是不同的生物体中进行。

在这些实施方案中,核糖核蛋白复合体或cas蛋白或多肽要求递送到细胞中的适当形式。这类合适的递送系统和方法是本领域技术人员熟知的,并且包括但不限于细胞质或核显微注射。在优选的递送方式中,使用腺相关病毒(aav);该递送系统不在人类中引起疾病,并且已经在欧洲被批准用于临床使用。

因此,本发明提供了修饰靶核酸的方法,所述方法包括使核酸与以下接触:

a.如上文定义的核糖核蛋白复合体;或

b.如上文定义的蛋白或蛋白复合体和如上文定义的rna分子。

在另外的方面中,本发明提供了修饰细胞中的靶核酸的方法,所述方法包括用包含编码如上文定义的核糖核蛋白复合体的核苷酸序列的表达载体转化、转染或转导细胞;或可选地用包含编码如上文定义的蛋白或蛋白复合体的核苷酸序列的表达载体和包含编码如上文定义的靶向rna分子的核苷酸序列的另外的表达载体转化、转染或转导细胞。

在另外的方面中,本发明提供了修饰细胞中的靶核酸的方法,所述方法包括用包含编码如上文定义的蛋白或蛋白复合体的核苷酸序列的表达载体转化、转染或转导细胞,并且然后将如上文定义的靶向rna分子递送到细胞中。

在其中指导(即靶向)rna(grna)分子和cas蛋白或多肽被单独地而不是作为核糖核蛋白复合体的一部分提供的实施方案中,grna分子要求递送到细胞中的适当的形式,无论是与cas蛋白或蛋白复合体同时地、单独地还是顺序地递送。将rna引入到细胞中的这类形式是本领域技术人员熟知的,并且可以包括通过常规转染方法的体外或离体递送。可以各自使用物理方法,诸如显微注射和电穿孔、以及钙共沉淀、和商购可得的阳离子聚合物和脂质、以及细胞穿透肽、细胞穿透(基因枪(biolistic))颗粒。例如,病毒(特别地优选的是aav)可以用作递送媒介物,无论是递送到细胞质和/或细胞核,例如经由本发明的cas蛋白复合体或本发明的核糖核蛋白复合体与病毒颗粒的(可逆的)融合。

在另一个方面中,本发明提供了修饰靶核酸的方法,其中至少一个功能部分是标志物蛋白或报告物蛋白,并且标志物蛋白或报告物蛋白与靶核酸缔合;优选地其中标志物是荧光蛋白,例如绿色荧光蛋白(gfp)。

在上文提及的修饰靶核酸的方法中,功能部分可以是标志物,并且标志物与靶核酸缔合;优选地其中标志物是蛋白;任选地荧光蛋白,例如绿色荧光蛋白(gfp)、黄色荧光蛋白(yfp)、红色荧光蛋白(rfp)或mcherry。无论是在体外、离体还是体内,然后本发明的方法可以被用于直接使核酸分子中的靶基因座可视化,优选地呈更高级结构的形式,诸如超螺旋的质粒或染色体、或单链靶核酸诸如mrna。靶基因座的直接可视化可以使用电子显微术或荧光显微术。然而,将理解的是,在本发明的方法的情况中,其他种类的标记物可以用作为标志物,包括可以是小分子的有机染料分子、放射性标记物和自旋标记物。

在其中靶核酸是dsdna的用于修饰靶核酸的本发明的方法中,功能部分可以是核酸酶或解旋酶-核酸酶,并且修饰优选地是在期望的基因座处的单链或双链断裂。以该方式,独特的序列特异性dna切割可以通过使用与核糖核蛋白复合体融合的合适的功能部分来工程化。最终的核糖核蛋白复合体的rna组分的选择的序列提供了用于功能部分的作用的所需的序列特异性。

因此,本发明还提供了在细胞中期望的基因座处非同源末端连接dsdna分子以从dsdna分子去除至少一部分核苷酸序列;任选地以敲除一个基因或更多个基因的功能的方法,其中该方法包括使用如上文描述的任何修饰靶核酸的方法制备双链断裂。

本发明还提供了将核酸同源重组到细胞中期望的基因座处的dsdna分子中以修饰现有的核苷酸序列或插入期望的核苷酸序列的方法,其中该方法包括使用如上文描述的任何修饰靶核酸的方法在期望基因座处制备双链断裂。

因此,本发明还提供了修饰生物体中的基因表达的方法,所述方法包括根据上文描述的任何方法修饰靶核酸序列,其中核酸是dsdna,并且功能部分选自dna修饰酶(例如甲基化酶或乙酰基转移酶)、转录活化物或转录阻遏物。

本发明另外地提供了修饰生物体中的基因表达的方法,该方法包括根据上文描述的任何方法修饰靶核酸序列,其中核酸是mrna,并且功能部分是核糖核酸酶;任选地选自核酸内切酶、3’核酸外切酶或5’核酸外切酶。

靶核酸可以是dna、rna或合成的核酸。优选地,靶核酸是dna;优选地dsdna。

然而,靶核酸可以是rna;优选地mrna。可选地,因此,本发明还提供了修饰靶核酸的方法,其中靶核酸是rna。

在另一个方面中,本发明提供了修饰靶核酸的方法,其中核酸是dsdna,至少一个功能部分是核酸酶或解旋酶-核酸酶,并且修饰是在期望的基因座处的单链断裂或双链断裂。

在另一个方面中,本发明提供了修饰细胞中的靶核酸的方法,其中修饰引起在期望的基因座处的基因表达的沉默;并且其中该方法包括以下步骤:

a.制备dsdna分子中的双链断裂;和

b.通过非同源末端连接(nhej)修复细胞中的dsdna分子。

在另一个方面中,本发明提供了修饰细胞中的靶核酸的方法;其中现有的核苷酸序列被修饰或缺失和/或期望的核苷酸序列被插入在期望的位置处,并且其中该方法包括以下步骤:

a.制备在期望的基因座处的双链断裂;和

b.通过同源重组修复细胞中的dsdna分子。

在另一个方面中,本发明提供了修饰细胞中的基因表达的方法,所述方法包括如上文描述地修饰靶核酸序列;其中核酸是dsdna,并且功能部分选自dna修饰酶(例如甲基化酶或乙酰基转移酶)、转录活化物或转录阻遏物。

在另一个方面中,本发明提供了修饰细胞中的基因表达的方法,所述方法包括如上文描述地修饰靶核酸序列,其中核酸是mrna,并且功能部分是核糖核酸酶;任选地选自核酸内切酶、3’核酸外切酶或5’核酸外切酶。

在另一方面中,本发明提供了如上文描述的修饰靶核酸的方法,其中该方法在45℃和100℃之间的温度进行。优选地,该方法在50℃或在50℃以上的温度进行。更优选地,该方法在55℃和80℃之间的温度进行。最佳地,该方法在60℃和65℃之间的温度进行。可选地,该方法可以在20℃和45℃之间的温度进行。更优选地,在30℃和45℃之间的温度进行。甚至更优选地,在37℃和45℃之间的温度进行。

在上文描述的修饰靶核酸的任何方法中,细胞可以是原核细胞,或者可选地可以是真核细胞。

宿主细胞

有益地,本发明具有宽的适用性,并且本发明的宿主细胞可以来源于可以被培养的任何遗传上可处理的生物体。因此,本发明提供了通过如上文描述的方法经转化的宿主细胞。本发明提供了经转化的细胞,该经转化的细胞具有在双链靶多核苷酸中的靶核酸序列,所述细胞包含如本文提供的cas蛋白或多肽和如本文提供的至少一种靶向rna分子、和包含编码所述cas蛋白和所述靶向rna分子中的至少一种的核酸的表达载体。

适当的宿主细胞可以是原核细胞或真核细胞。特别地,可以选择通常被使用的宿主细胞用于根据本发明的用途,所述通常被使用的宿主细胞包括遗传上可获得的并且可以被培养的原核细胞或真核细胞,例如原核细胞、真菌细胞、植物细胞和动物细胞。优选地,宿主细胞将选自原核细胞、真菌细胞、植物细胞、原生生物细胞(protistcell)或动物细胞。优选地,宿主细胞将选自原核细胞、真菌细胞、植物细胞、原生生物细胞或动物细胞除了人类细胞。优选地,宿主细胞将不包括人类细胞,所述人类细胞包括胚胎干细胞。用于根据本发明的用途的优选的宿主细胞通常来源于通常表现出高生长速率、易于培养和/或转化、显示短的世代时间的物种,已经建立了与它们相关的遗传资源的物种或已经被选择、修饰或合成以用于在特定条件下的异源蛋白的最佳表达的物种。在其中感兴趣的蛋白最终被用于特定的工业、农业、化学或治疗情况的本发明的优选的实施方案中,可以基于期望的特定条件或感兴趣的蛋白将被部署在其中的细胞情况来选择适当的宿主细胞。优选地,宿主细胞将是原核细胞。在优选的实施方案中,宿主细胞是细菌细胞。宿主细胞可以是例如大肠杆菌(escherichiacoli;e.coli)细胞。优选地,宿主细胞将是嗜热细菌的细胞。

本文描述的本发明的方法和用途可以被用于修饰细菌细胞的基因组。在特定实施方案中,细菌是嗜热细菌,优选地细菌选自:嗜酸硫杆菌属(acidithiobacillus)的种,包括气芽孢杆菌属(aeribacillus)的种,包括苍白气芽孢杆菌(aeribacilluspallidus);脂环酸芽孢杆菌属(alicyclobacillus)的种,包括酸热脂环酸芽孢杆菌(alicyclobacillusacidocaldarius)、酸土脂环酸芽孢杆菌(alicyclobacillusacidoterrestris)、环庚基脂环酸杆菌i(alicyclobacilluscycloheptanicusi)、alicyclobacillushesperidum;厌氧芽孢杆菌属(anoxybacillus)的种,包括热解蛋白厌氧芽孢杆菌(anoxybacilluscaldiproteolyticus)、黄嗜热厌氧芽孢杆菌(anoxybacillusflavithermus)、anoxybacillusrupiensis、anoxybacillustepidamans;芽孢杆菌属(bacillus)的种,包括包括热堆肥芽孢杆菌(bacillusthermocopriae)、bacillusthermolactis、bacillusthermoleovorans、热杆菌属(caldibacillus)的种,包括caldibacillusdebilis;热解纤维素菌属(caldicellulosiruptor)的种,包括caldicellulosiruptorkristjanssonii、caldicellulosiruptorkronotskyensis、caldicellulosiruptorlactoaceticus、caldicellulosiruptorobsidiansis、caldicellulosiruptorowensensis、caldicellulosiruptorsaccharolyticus、梭菌属(clostridium)的种,包括clostridiumclariflavum、clostridiumstraminisolvens、clostridiumtepidiprofundi、clostridiumthermobutyricum、clostridiumthermopalmarium;奇球菌属(deinococcus)的种,包括defluviitalea的种,包括defluviitaleaphaphyphila、脱硫肠状菌属(desulfotomaculum)的种,包括desulfotomaculumcarboxydivorans、致黑脱硫肠状菌(desulfotomaculumnigrificans)、desulfotomaculumsalinum、desulfotomaculumsolfataricum;硫还原菌属(desulfurella)的种,包括desulfurellaacetivorans;除硫杆菌属(desulfurobacterium)的种,包括desulfurobacteriumthermolithotrophum;地芽孢杆菌属的种,包括geobacillusicigianus、geobacilluscaldoxylosilyticus、geobacillusjurassicus、geobacillusgalactosidasius、geobacilluslituanicus、地下地芽孢杆菌(geobacillussubterraneus)、geobacillusthermantarcticus、geobacillusthermocatenulatus、geobacillustoebii、geobacillusvulcanii、geobacilluszalihae;产氢杆菌属(hydrogenobacter)的种,包括嗜热产氢杆菌(hydrogenobacterthermophiles);hydrogenobaculum的种,包括hydrogenobaculumacidophilum;ignavibacterium的种,包括ignavibacteriumalbum;乳杆菌属(lactobacillus)的种,包括lactobacillusingluviei、海栖热菌属(marinithermus)包括热液海栖热菌属(marinithermushydrothermalis);穆尔氏菌属(moorella),包括海洋栖热菌属(oceanithermus)的种,包括oceanithermusdesulfurans、oceanithermusprofundus;类芽孢杆菌属(paenibacillus)的种,包括类芽孢杆菌属j2种、paenibacillusmarinum、paenibacillusthermoaerophilus;persephonella的种,包括persephonellaguaymasensis、persephonellahydrogeniphila、persephonellamarina;红嗜热盐菌属(rhodothermus)的种,包括rhodothermusobamensis、rhodothermusprofundi;硫化杆菌属(sulfobacillus),包括嗜酸硫化杆菌(sulfobacillusacidophilus);sulfurihydrogenibium的种,包括sulfurihydrogenibiumazorense、sulfurihydrogenibiumkristjanssonii、sulfurihydrogenibiumrodmanii、sulfurihydrogenibiumyellowstonense、共生杆菌(symbiobacterium)的种,包括嗜热共生杆菌(symbiobacteriumthermophilum)、symbiobacteriumtoebii;热厌氧杆菌属(thermoanaerobacter)的种,包括thermoanaerobacteritalicus、thermoanaerobacterkivui、thermoanaerobactermarianensis、thermoanaerobactermathranii、thermoanaerobacterpseudoethanolicus、威吉利热厌氧杆菌(thermoanaerobacterwiegelii);嗜热厌氧杆菌属(thermoanaerobacterium)的种,包括耐酸嗜热厌氧杆菌(thermoanaerobacteriumaciditolerans)、thermoanaerobacteriumaotearoense、产乙醇嗜热厌氧杆菌(thermoanaerobacteriumethanolicus)、热杆菌属(thermobacillus)的种,包括thermobacilluscomposti、thermobacillusxylanilyticus;发状菌属(thermocrinis)的种,包括thermocrinisalbus、thermocrinisruber;thermodulfatator的种,包括thermodesulfatatoratlanticus、thermodesulfatatorautotrophicus、thermodesulfatatorindicus;热脱硫杆菌属(thermodesulfobacterium)的种,包括thermodesulfobacteriumcommune、thermodesulfobacteriumhydrogeniphilum;热脱硫菌属(thermodesulfobium)的种,包括thermodesulfobiumnarugense;热脱硫弧菌属(thermodesulfovibrio)的种,包括thermodesulfovibrioaggregans、thermodesulfovibriothiophilus、thermodesulfovibrioyellowstonii;热腔菌属(thermosipho)的种,包括非洲栖热腔菌(thermosiphoafricanus)、thermosiphoatlanticus、thermosiphomelanesiensis;热袍菌属(thermotoga)的种,包括thermotoganeopolitana、热弧菌属(thermovibrio)的种,包括thermovibrioammonificans、thermovibrioruber;thermovirga的种,包括thermovirgalienii和栖热菌属(thermus)的种,包括那不勒斯硫杆菌(thiobacillusneapolitanus)。

在另一方面中,本文描述的方法或用途可以被用于修饰是嗜温的细菌。在优选的实施方案中,细菌选自:嗜酸硫杆菌属的种,包括放线杆菌属(actinobacillus)的种,包括厌氧螺菌属(anaerobiospirillum)的种,包括产琥珀酸厌氧螺菌(anaerobiospirillumsucciniciproducens);芽孢杆菌属的种,包括环状芽孢杆菌(bacilluscirculans)、坚硬芽孢杆菌(bacillusfirmus)、耐盐芽孢杆菌(bacillushalodurans)、bacillushisashii、灿烂芽孢杆菌(bacilluslautus)、迟缓芽孢杆菌(bacilluslentus)、(bacillusmegaterium)、短小芽孢杆菌(bacilluspumilus)、basfia的种,包括短芽孢杆菌属(brevibacillus)的种,包括梭菌属的种,包括clostridiumcarboxidivorans、clostridiumragsdalei、clostridiumsaccharobutylicum、clostridiumsaccharoperbutylacetonium、棒杆菌属(corynebacterium)的种,包括谷氨酸棒杆菌脱亚硫酸菌属(desulfitobacterium)的种,包括desulfotomaculumhafniense;脱硫肠状菌属的种,包括醋酸氧化脱硫肠状菌(desulfotomaculumacetoxidans)、desulfotomaculumgibsoniae、还原脱硫肠状菌(desulfotomaculumreducens)、瘤胃脱硫肠状菌(desulfotomaculumruminis)、肠杆菌属(enterobacter)的种,包括阿氏肠杆菌(enterobacterasburiae);肠球菌属(enterococcus)的种,包括埃希氏菌属(escherichia)的种,包括乳杆菌属的种,包括动物乳杆菌(lactobacillusanimalis)、lactobacillusarizonensis、乳球菌属(lactococcus)的种,包括曼氏杆菌属(mannheimia)的种,包括类芽孢杆菌属的种,包括北京类芽孢杆菌(paenibacillusbeijingensis)、paenibacillusborealis、paenibacillusdauci、paenibacillusdurus、paenibacillusgraminis、缓病类芽孢杆菌(paenibacilluslentimorbus)、浸麻类芽孢杆菌(paenibacillusmacerans)、胶质类芽孢杆菌(paenibacillusmucilaginosus)、paenibacillusodorifer、星孢类芽孢杆菌(paenibacillusstellifer)、土地类芽孢杆菌(paenibacillusterrae)、乌鲁木齐类芽孢杆菌(paenibacilluswulumuqiensis);片球菌属(pediococcus)的种,包括pediococcusclaussenii、耐乙醇片球菌(pediococcusethanolidurans)、丙酸杆菌属(propionibacterium)的种,包括鼠伤寒沙门氏菌(salmonellatyphimurium);芽孢乳杆菌属(sporolactobacillus)的种,包括菊糖芽孢乳杆菌(sporolactobacillusinulinus)、左旋乳酸芽孢乳杆菌(sporolactobacilluslaevolacticus);金黄色葡萄球菌(staphylococcusaureus);链球菌属(streptococcus)的种,包括类马链球菌(streptococcusequisimilis)、粪链球菌(streptococcusfeacalis)、变异链球菌(streptococcusmutans)、口腔链球菌(streptococcusoralis)、肺炎链球菌(streptococcuspneumonia)、酿脓链球菌、唾液链球菌(streptococcussalivarius)、远缘链球菌(streptococcussobrinus)、乳房链球菌(streptococcusuberis);链霉菌属(streptomyces)的种,包括不产色链霉菌(streptomycesachromogenes)、阿维链霉菌(streptomycesavermitilis)、灰色链霉菌(streptomycesgriseus)、四联球菌属(tetragenococcus)的种,包括和发酵单胞菌属(zymomonas)的种,包括假单胞菌属(pseudomonas)的种,包括铜绿假单胞菌(pseudomonasaeruginosa)、产碱假单胞菌(pseudomonasalcaligenes)、鳗败血假单胞菌(pseudomonasanguilliseptica)、阿根廷假单胞菌(pseudomonasargentinensis)、pseudomonasborbori、香茅醇假单胞菌(pseudomonascitronellolis)、变黄假单胞菌(pseudomonasflavescens)、门多萨假单胞菌(pseudomonasmendocina)、硝基还原假单胞菌(pseudomonasnitroreducens)、食油假单胞菌(pseudomonasoleovorans)、假产碱假单胞菌(pseudomonaspseudoalcaligenes)、食树脂假单孢菌(pseudomonasresinovorans)、稻草假单胞菌(pseudomonasstraminea)、铁角蕨假单胞菌(pseudomonasasplenii)、桔黄假单胞菌(pseudomonasaurantiaca)、致黄假单胞菌(pseudomonasaureofaciens)、绿针假单胞菌(pseudomonaschlororaphis)、皱纹假单胞菌(pseudomonascorrugate)、莓实假单胞菌(pseudomonasfragi)、海雀假单胞菌(pseudomonaslundensis)、腐臭假单胞菌(pseudomonastaetrolens)、南极假单胞菌(pseudomonasantarctica)、产氮假单胞菌(pseudomonasazotoformans)、'pseudomonasblatchfordae'、pseudomonasbrassicacearum、布氏假单胞菌(pseudomonasbrenneri)、pseudomonascedrina、皱纹假单胞杆菌、荧光假单胞菌(pseudomonasfluorescens)、pseudomonasgessardii、黎巴嫩假单胞菌(pseudomonaslibanensis)、pseudomonasmandelii、边缘假单胞菌(pseudomonasmarginalis)、地中海假单胞菌(pseudomonasmediterranea)、pseudomonasmeridiana、pseudomonasmigulae、霉味假单胞菌(pseudomonasmucidolens)、东方假单胞菌(pseudomonasorientalis)、pseudomonaspanacis、pseudomonasprotegens、蛋白水解假单胞菌(pseudomonasproteolytica)、pseudomonasrhodesiae、类黄假单胞菌(pseudomonassynxantha)、pseudomonasthivervalensis、托拉氏假单胞菌(pseudomonastolaasii)、pseudomonasveronii、脱氮假单胞菌(pseudomonasdenitrificans)、穿孔假单胞菌(pseudomonaspertucinogena)、pseudomonascremoricolorata、虫媒假单胞菌(pseudomonasentomophila)、黄褐假单胞菌(pseudomonasfulva)、蒙氏假单胞菌(pseudomonasmonteilii)、摩氏假单胞菌(pseudomonasmosselii)、栖稻假单胞菌(pseudomonasoryzihabitans)、副黄假单胞菌(pseudomonasparafulva)、变形假单胞菌(pseudomonasplecoglossicida)、恶臭假单胞菌、巴利阿里假单胞菌(pseudomonasbalearica)、浅黄假单胞菌(pseudomonasluteola)、斯氏假单胞菌(pseudomonasstutzeri)、扁桃假单胞菌(pseudomonasamygdali)、pseudomonasavellanae、番木瓜假单胞菌(pseudomonascaricapapayae)、菊苣假单胞菌(pseudomonascichorii)、晕斑假单胞菌(pseudomonascoronafaciens)、天仙果假单胞菌(pseudomonasficuserectae)、'pseudomonashelianthi'、苦楝假单胞菌(pseudomonasmeliae)、油橄榄假单胞菌(pseudomonassavastanoi)、丁香假单胞菌(pseudomonassyringae)、'番茄假单胞菌'('pseudomonastomato')、绿黄假单胞菌(pseudomonasviridiflava)、pseudomonasabietaniphila、嗜酸假单胞菌(pseudomonasacidophila)、伞菌假单胞菌(pseudomonasagarici)、嗜碱假单胞菌(pseudomonasalcaliphila)、pseudomonasalkanolytica、pseudomonasamyloderamosa、铁角蕨假单胞菌、pseudomonasazotifigens、pseudomonascannabina、pseudomonascoenobios、pseudomonascongelans、康氏假单胞菌(pseudomonascostantinii)、pseudomonascruciviae、pseudomonasdelhiensis、pseudomonasexcibis、pseudomonasextremorientalis、pseudomonasfrederiksbergensis、褐鞘假单胞菌(pseudomonasfuscovaginae)、石花菜假单胞菌(pseudomonasgelidicola)、pseudomonasgrimontii、pseudomonasindica、杰氏假单胞菌(pseudomonasjessenii)、晋州假单胞菌(pseudomonasjinjuensis)、pseudomonaskilonensis、pseudomonasknackmussii、韩国假单胞菌(pseudomonaskoreensis)、pseudomonaslini、pseudomonaslutea、pseudomonasmoraviensis、耳炎假单胞菌(pseudomonasotitidis)、海绵假单胞菌(pseudomonaspachastrellae)、pseudomonaspalleroniana、pseudomonaspapaveris、烂泥假单胞菌(pseudomonaspeli)、pseudomonasperolens、草假单胞菌(pseudomonaspoae)、pseudomonaspohangensis、pseudomonasprotegens、pseudomonaspsychrophila、pseudomonaspsychrotolerans、pseudomonasrathonis、食爬虫假单胞菌(pseudomonasreptilivora)、喜树脂假单胞菌(pseudomonasresiniphila)、pseudomonasrhizosphaerae、pseudomonasrubescens、pseudomonassalomonii、pseudomonassegitis、败血假单胞菌(pseudomonasseptica)、pseudomonassimiae、pseudomonassuis、耐热假单胞菌(pseudomonasthermotolerans)、pseudomonastoyotomiensis、pseudomonastremae、平凡假单胞菌(pseudomonastrivialis)、pseudomonasturbinellae、pseudomonastuticorinensis、pseudomonasumsongensis、温哥华假单胞菌(pseudomonasvancouverensis)、弗村假单胞菌(pseudomonasvranovensis)、黄色海假单胞菌(pseudomonasxanthomarina)。优选地,嗜温细菌是恶臭假单胞菌。

在另一方面中,本文定义的方法或用途可以被用于修饰酵母或真菌的基因组。在特定实施方案中,真菌物种是嗜温的,优选地真菌选自:曲霉属(aspergillus)的种,包括,但不限于,米曲霉(aspergillusoryzae)和土曲霉(aspergillusterreus),更优选地曲霉属的种是构巢曲霉或黑曲霉。可选地,嗜温真菌的种可以是念珠菌属(candida)的种。本文定义的方法或用途可以被用于修饰酵母物种的基因组,所述酵母物种包括但不限于,酵母属(saccharomyces)的种,包括裂殖酵母属(schizosaccharomyces)的种,包括毕赤酵母属(pichia)的种,包括但不限于本文定义的方法或用途可以被用于修饰真菌物种的基因组,所述真菌物种包括但不限于,汉逊酵母属(hansenula)的种,包括青霉属(penicillium)的种,包括但不限于耶氏酵母属(yarrowia)的种,包括

本发明还涉及使用如本文定义的方法以修饰嗜热的酵母物种或真菌物种,优选地该真菌或酵母选自:曲霉属的种,包括土曲霉、杂色曲霉(aspergillusversicolor);canariomyces的种,包括canariomycesthermophile;毛壳菌属(chaetomium)的种,包括chaetomiummesopotamicum、念珠菌属的种,包括candidabovina、candidasloofii、candidathermophila、(=东方伊萨酵母(issatchenkiaorientalis));尾柄孢壳菌属(cercophora)的种,包括cercophoracoronate、cercophoraseptentrionalis;coonemeria的种,包括coonemeriaaegyptiaca;棒囊孢壳菌属(corynascus)的种,包括嗜热棒囊孢壳菌(corynascusthermophiles);地霉属(geotrichum)的种,包括白地霉(geotrichumcandidum);克鲁维酵母属(kluyveromyces)的种,包括畸枝霉属(malbranchea)的种,包括樟绒枝霉(malbrancheacinnamomea)、malbrancheasulfurea;melanocarpus的种,包括melanocarpusalbomyces;myceliophtora的种,包括myceliophthorafergusii、myceliophthorathermophila;mycothermus的种,包括mycothermusthermophiles(=嗜热柱霉属(scytalidiumthermophilum)/嗜热圆酵母(torulathermophila));myriococcum的种,包括myriococcumthermophilum;拟青霉属(paecilomyce)的种,包括嗜热拟青霉(paecilomycesthermophila);remersonia的种,包括remersoniathermophila;根毛霉属(rhizomucor)的种,包括牛根毛霉(rhizomucortauricus);的种,包括的种,包括柱霉属(scytalidium)的种,包括嗜热柱霉(scytalidiumthermophilum);sordaris的种,包括sordariathermophila;子囊菌属(thermoascus)的种,包括耐热子囊菌(thermoascusaurantiacus)、thermoascusthermophiles;thermomucor的种,包括thermomucorindicae-seudaticae和嗜热丝孢菌属(thermomyces)的种,包括thermomycesibadanensis、

在上文提及的列表中,以粗体标识的微生物已经被发现是特别合适的/适用于本发明的用途中。

本发明的一些优选实施方案包括一种或更多种嗜热微生物,所述嗜热微生物选自:嗜热的杆菌(bacilli),包括气芽孢杆菌属、脂环酸芽孢杆菌属、厌氧芽孢杆菌属、芽孢杆菌属、地芽孢杆菌属、类芽孢杆菌属的种;嗜热的梭菌(clostridia),包括厌氧杆菌属(anaerobacter)、厌氧杆菌属(anaerobacterium)、热解纤维素菌属、梭菌属(clostridium)、穆尔氏菌属、热厌氧杆菌属(thermoanaerobacter)、嗜热厌氧杆菌属(thermoanaerobacterium)、栖热分枝菌属(thermobrachium)、thermohalobacter的种或一种或更多种嗜热的乳杆菌的种和嗜温细菌(所述嗜温细菌选自芽孢杆菌属的种、大肠杆菌、乳杆菌属的种、乳球菌属的种、丙酸杆菌属的种和假单胞菌属的种)。

附图简述

现在将参考具体实施方案并且参考附图详细地描述本发明,在附图中:

图1示出了cas9蛋白序列的邻接树。包括基于pblast或psi-blast与菌株t12具有高于40%的序列相似性的所有序列,以及目前良好表征的序列(酿脓链球菌(s.pyogenes)、嗜热链球菌(s.thermophiles)和内氏放线菌(a.naeslundii)),以及当这些低于40%同一性时所有目前鉴定的嗜热序列。对于所有的嗜热序列,在菌株名称之后指示出与t12的同一性百分比。在物种名称前指示出基因标识符(gi)编号。图例:实心圆形:嗜热(最佳温度为60℃以上)cas9序列,实心方形:耐热(最佳温度<50℃)cas9序列,空心三角形:来自嗜温来源的目前最常用于基因组编辑目的的cas9序列;无标志:嗜温cas9。在节点处的值代表1000个重复的自展值(bootstrapvalues);比例尺代表估计的氨基酸取代/位点。

图2示出了cas9基因序列的邻接树。在基因水平的同一性非常差;使用与被用于蛋白比对的那些生物体相同的生物体的序列进行基因比对。在物种名称前指示出基因标识符(gi)编号。图例:实心圆形:嗜热(最佳温度为60℃以上)cas9序列,实心方形:耐热(最佳温度<50℃)cas9序列,空心三角形:来自嗜温来源的目前最常用于基因组编辑目的的cas9序列;无标志:嗜温cas9。在节点处的值代表1000个重复的自展值。

图3示出了gtcas9(seqidno:1)(ii-c型)与良好表征的ii-c型(内氏放线菌/‘ana’;seqidno:8)和ii-a型(酿脓链球菌/‘pyo’;seqidno:9和嗜热链球菌)cas9序列的蛋白序列比对。重要的活性位点残基非常保守,并且用黑色箭头指示出。如对于ana-cas9和pyo-cas9描述的蛋白结构域(jinek等人,2014,science343:1247997)用阴影框和类似地着色的字母指示出。已经确定了对于酿脓链球菌ii-a型系统的pam识别结构域,但对于任何ii-c型系统未确定pam识别结构域,并且因此仅在酿脓链球菌序列中指示出pam识别结构域。

图4示出了内氏放线菌cas9(cas9-ana)的蛋白结构(jinek等人,2014)。gtcas9属于相同的ii-c型crispr系统并且可以鉴定活性位点残基。

图5示出了crrna指导的互补dsdna的靶向的比较。碱基配对用虚线指示出。rna以黑色描绘,dna以灰色描绘。在crrna间隔区和靶前间区之间的碱基配对用加粗的黑色虚线指示出,在dna链之间和在rna链之间的碱基配对用加粗的灰色虚线指示出。指示出crrna的5’末端。应注意,i型中的pam(小白色框)位于靶链(前间区)的下游,而在ii型中它则位于置换链上的另一端处。同样地,种子(与靶dna链开始碱基配对处的指导的预测序列,并且在此处不允许错配)位于pam附近,并且因此在i型和ii型中不同(vanderoost,2014,同上)。图a示出了大肠杆菌的i型cascade系统的示意图。crrna具有内部间隔区(灰色框,允许靶识别的31-32nt),侧翼为8nt5’手柄和由茎环结构(发夹)组成的29nt3’手柄(jore2011同上)。图b示出了酿脓链球菌的ii型cas9系统的示意图。crrna与tracrrna碱基配对,允许通过rna酶iii(相对的黑色三角形)处理。另外地,crrna的5’末端被rna酶(黑色三角形)修剪(trimmed),通常地产生20nt间隔区。应注意,合成的环可以被引入以连接crrna和tracrrna,产生单指导rna(sgrna)(jinek等人,2012同上)。

图6示出了热脱氮地芽孢杆菌t12iic型crispr系统的序列的比对。

图7示出了获得的六个单击中(hit),以提供对于gtcas9的计算机模拟pam预测。

图8示出了组合图7中例示的比对的结果的weblogo。使用weblogo.berkeley.edu生成该weblogo。

图9示出了在60℃用纯化的gtcas9靶向质粒的体外裂解测定的结果。质粒包括pam序列的特定8个核苷酸长的序列变体。

图10示出了使用具有ccccccaa[seqidno:11]pam序列的靶向质粒研究gtcas9浓度的作用的体外测定的结果。

图11示出了在一定范围的温度使用靶向质粒的体外测定的结果,该靶向质粒具有ccccccaa[seqidno:11]pam序列。

图12示出了使用gtcas9和8ntpam序列对史氏芽孢杆菌et138细胞进行体内基因组编辑的结果,即筛选平板上的史氏芽孢杆菌et138细胞的菌落的生长或不存在,如在实施例9中解释的。在图12中用箭头指示出菌落。

图13示出了对于其中缺失pyrf基因的菌落的pcr筛选的结果。用构建体3(阴性对照)转化史氏芽孢杆菌et138细胞后生成菌落。筛选了15个菌落,但没有一个显示出缺失基因型-2.1kb条带大小,而是全部显示出野生型-2.9kb条带大小,如在实施例9中所解释的。

图14示出了其中缺失pyrf基因的菌落的pcr筛选的结果。用构建体1(pam序列atccccaa[seqidno:21])转化史氏芽孢杆菌et138细胞后生成菌落。筛选了20个菌落,并且一个菌落显示出缺失基因型-2.1kb条带大小,而剩余的菌落显示出野生型-2.9kb条带大小和缺失基因型-2.1kb条带大小二者,如在实施例9中解释的。没有观察到仅野生型的基因型。

图15示出了热脱氮地芽孢杆菌t12iic型crispr-cas基因座编码热稳定的cas9同源物,即thermocas9。

(a)编码thermocas9的基因组基因座的示意图。基于序列比较的thermocas9的结构域结构,以红色突出显示预测的活性位点残基。显示出使用phyre2(kelley等人nat.protoc.10,845-858(2015))生成的thermocas9的同源性模型,对于不同的结构域用不同的颜色。

(b)与thermocas9高度同一的cas9同源物的系统发育树。在mega7(kumar等人mol.biol.evol.33,1870-1874(2016))中进行演化分析。

(c)在通过金属亲和层析(metal-affinitychromatography)和凝胶过滤纯化后的thermocas9的sds-page。获得的单个条带的迁移与apo-thermocas9的理论分子量126kd一致。

图16示出了thermocas9pam分析。

(a)例示了用于发现前间区相邻基序(pam)的位置和身份(5’-nnnnnnn-3’)的体外裂解测定的示意图。黑色三角形指示出裂解位置。

(b)通过靶文库的基于thermocas9的裂解的比较分析获得的,thermocas9的共有的7nt长pam的序列标志。在每个位置处的字母高度通过信息内容来测量。

(c)通过体外裂解测定将pam身份延伸至第8个位置。四个线性化的质粒靶(每个靶包含不同的5’-ccccccan-3’pam)与thermocas9和sgrna在55℃孵育持续1小时,然后通过琼脂糖凝胶电泳分析。

(d)在30℃和55℃,用不同的pam对dna靶进行体外裂解测定。16个线性化的质粒靶(每个靶包含一个不同的5’-cccccnna-3’[seqidno:13]pam),与thermocas9和sgrna一起孵育,然后通过琼脂糖凝胶电泳分析裂解效率。也参见图21。

图17示出了thermocas9在宽的温度范围是有活性的,并且当与sgrna结合时,它的热稳定性增加。

(a)sgrna和匹配靶dna的示意图。以具有黑色轮廓的矩形显示出靶dna,并且以具有黑色轮廓的深灰色水平椭圆显示出pam。以具有黑色轮廓的深灰色矩形显示出crrna,并且以黑色垂直椭圆显示出其中crrna的3’末端与tracrrna的5’末端连接的位点。具有白色字母的黑色方框和具有黑色字母的浅灰色方框分别地指示出在tracrrna的3’侧处的预测的三个和两个环。以长的浅灰色垂直虚线指示出重复/反向重复区域的41-nt截短,该截短由crrna的互补的3’末端和tracrrna的5’末端形成。以黑色三角形和黑色虚线标记第一个tracrrna环的预测的3’位置。以白色三角形和黑色虚线标记第二个tracrrna环的预测的3’位置。以白色三角形和白色虚线标记第三个tracrrna环的预测的3’位置。

(b)通过转录sgrna的截短的变体并且评价它们在不同温度指导thermocas9裂解靶dna的能力,测试了tracrrna支架的预测的三个茎环的重要性。示出了至少两个生物学重复的平均值,误差棒代表s.d.。

(c)为了鉴定最高温度,在60℃、65℃和70℃孵育持续5min或10min后,测定了thermocas9:sgrnarnp复合体的核酸内切酶活性。添加预加热的dna底物,并且在对应的温度将反应孵育持续1小时。

(d)通过在指示的温度孵育5min后进行的活性测定,比较thermocas9和spcas9的活性温度范围。添加预加热的dna底物,并且将反应在相同的温度孵育持续1小时。

图18示出了在嗜热菌中的基于thermocas9的基因组工程。

(a)基本的pthermocas9_δ感兴趣基因(goi)构建体的示意图。引入thermocas9基因至pnw33n(史氏芽孢杆菌)或pemg(恶臭假单胞菌)载体。在thermocas9上游将同源重组侧翼区引入,并且同源重组侧翼区包括靶向的基因组中的感兴趣的基因(goi)的1kb(史氏芽孢杆菌)或0.5kb(恶臭假单胞菌)上游区域和1kb或0.5kb下游区域。在thermocas9基因下游引入表达sgrna的模块。因为复制的起点(ori)、复制蛋白(rep)、抗生素抗性标志物(ab)和可能的辅助元件(ae)是骨架特异性的,以虚线轮廓代表它们。

(b)显示来自对10个菌落的基因组特异性pcr的所得产物的琼脂糖凝胶电泳,所述10个菌落来自从史氏芽孢杆菌et138的基因组的基于thermocas9的pyrf缺失过程。所有10个菌落包含δpyrf基因型,并且一个菌落是完全(clean)的δpyrf突变体,缺乏野生型产物。

(c)基本的pthermocas9i_goi构建体的示意图。为了催化上失活的thermocas9(thermo-dcas9:d8a、h582a突变体)的表达,将对应的突变引入以创建thermo-dcas9基因。将thermo-dcas9基因引入至pnw33n载体。在thermo-dcas9下游将表达sgrna的模块引入。

(d)来自使用thermo-dcas9的ldhl沉默实验的产生、生长和rt-qpcr结果的图示。该图代表与对照培养物相比,抑制的培养物中的乳酸盐的产生、在600nm处的光密度和ldhl转录的百分比。示出了来自至少两个生物学重复的平均值,误差棒代表s.d.。

图19示出了ii-a型、ii-b型和ii-c型cas9直系同源物的多序列比对。使用mega72中的clustalw1以默认设置比对酿脓链球菌(sp)、嗜热链球菌(st)、产琥珀酸沃林氏菌(wolinellasuccinogenes)(ws)、脑膜炎奈瑟氏菌(neisseriameningitides)(nm)、内氏放线菌(actinomycesnaeslundii)(an)和热脱氮地芽孢杆菌(thermo)的cas9蛋白序列;使用espript3生成可视化图。以灰色背景上的白色文字显示出严格保守的残基;以具有黑色轮廓的白色垂直矩形中的黑色文字显示出类似的残基。角锥形指示出所有序列中的两个保守的核酸酶结构域。水平黑色箭头和卷曲分别地指示出在spcas9二级结构(蛋白数据库nr4cmp4)中的β-链和α-螺旋。使用与图15a中相同的颜色方案,指示出spcas9和thermocas9的结构域。

图20示出了计算机模拟pam确定结果。图(a)示出了使用crisprtarget6获得的噬菌体基因组的两个击中。图(b)示出了通过计算机模拟pam分析获得的thermocas9的共有的7nt长pam的序列标志。在每个位置处的字母高度通过信息内容来测量。

图21示出了thermocas9pam发现。在20℃、37℃、45℃和60℃对于具有不同的pam的dna靶的体外裂解试验。7个(20℃)或16个(37℃、45℃、60℃)线性化的质粒靶,每个质粒靶包含不同的5’-cccccnna-3’[seqidno:13]pam,与thermocas9和sgrna一起孵育,然后通过琼脂糖凝胶电泳分析。

图22示出了在宽的温度范围使用包含一个环的sgrna,thermocas9的活性。通过转录sgrna的截短的变体并且评价它们在不同温度指导thermocas9裂解靶dna的能力,测试了tracrrna支架的预测的三个茎环的重要性。以上显示出一个环对thermocas9在不同温度的活性的作用。示出了来自至少两个生物学重复的平均值,误差棒代表s.d.。

图23示出了使用二价阳离子作为催化剂,thermocas9介导dsdna靶向,并且不裂解ssdna。图(a)示出了通过thermocas9与edta和多种金属离子的体外质粒dna裂解。m=1kbdna梯状条带。图(b)示出了thermocas9对ssdna底物的活性。m=10bpdna梯状条带。

图24示出了对于ldhl沉默实验的间隔区选择。在ldhl沉默过程期间间隔区(sgrna)-前间区退火的示意图;所选择的前间区位于非模板链和ldhl基因的起始密码子下游的39nt。

图25示出了质粒pthermocas9_ppδpyrf的图谱,该pthermocas9_ppδpyrf由pemg骨架、恶臭假单胞菌pyrf侧翼区域和thermocas9基因和恶臭假单胞菌pyrf靶向sgrna组成。

图26示出了毛细管凝胶电泳的结果,该结果显示出来自对获得的菌落基因组特异性pcr的所得的产物,所述获得的菌落来自从恶臭假单胞菌的基因组的基于thermocas9的pyrf缺失过程。1854bp条带和1112bp条带分别地对应于pyrf和δpyrf基因型。

下文是根据本发明使用的cas蛋白的多核苷酸和氨基酸序列。

[seqidno:1]热脱氮地芽孢杆菌t12cas9蛋白aa序列

[seqidno:7]热脱氮地芽孢杆菌t12cas9dna序列

详细描述

实施例1:热脱氮地芽孢杆菌的分离

在搜索能够在厌氧条件下降解木质纤维素基质的嗜热菌的±500个分离株的文库期间出乎意料地发现了热脱氮地芽孢杆菌。首先建立了±500个分离株的文库,在通过在纤维素和木聚糖上的分离进行几轮选择后,文库被缩小至110个分离株。该110个分离株的文库仅由地芽孢杆菌属分离株组成,其中热脱氮地芽孢杆菌代表了文库的79%。

分离的热脱氮地芽孢杆菌菌株已经被命名为“t12”。来自热脱氮地芽孢杆菌t12的cas9蛋白已经被命名为“gtcas9”。

实施例2:定义热脱氮地芽孢杆菌中的cas9的基本共有序列

进行以下数据库搜索和比对:

在内部blast服务器上进行pblast和nblast,其中使用热脱氮地芽孢杆菌t12的蛋白或基因序列作为查询序列。该数据库最近一次更新为2014年5月,并且因此不包含最近添加的地芽孢杆菌属基因组,但没有使用通常的在线blast以防止t12序列的公开。在blast搜索中发现的大于40%的序列同一性被包括在图1中。

为了包括更近期的序列数据,在ncbi网站上使用地芽孢杆菌属mas1的序列(与gtcas9最密切地相关)进行psi-blast(johnson等人,2008nucleicacidsres.36(网络服务器期号):w5-9)。进行连续两轮的psi-blast,其中仅使用满足以下标准的序列用于下一轮:在第一轮中的最小序列覆盖率为96%,并且在第二轮和第三轮中的最小序列覆盖率为97%,最小同一性为40%,每个物种仅一个菌株。

将从psi-blast所得的序列以及在psi-blast中未出现的、来自内部服务器pblast的与t12具有多于40%同一性的序列与目前良好表征的嗜温序列和所有目前鉴定的嗜热序列一起比对,此外如果这些序列更加疏远地相关,则从其构建邻接树(参见图1)。在mega6中使用clustalw进行比对,之后使用邻接方法构建树,并且使用1000个重复进行自展分析。

当使用地芽孢杆菌属的种mas1作为查询序列进行blastn时,仅地芽孢杆菌属的种jf8cas9被鉴定出具有88%同一性,指示出在基因水平的同源性非常小。图2是clustal-比对的cas9基因序列的邻接树。

通过使用具有默认设置的blosum62在clonemanager中比对热脱氮地芽孢杆菌t12、内氏放线菌和酿脓链球菌的蛋白序列来进一步分析它们的蛋白结构域同源性(参见图3)。

实施例3:鉴定对于cas9的功能至关重要的核心氨基酸基序和赋予嗜热cas9核酸酶的热稳定性的那些核心氨基酸基序

在图1中提供了以上描述的比对的蛋白序列的同一性百分比。gtcas9属于ii-c型。研究最充分并且最近结晶的结构的ii-c系统来自内氏放线菌(jinek等人,2014,science343:1247997)。该蛋白序列显示出与gtcas9仅20%同一性,但可以被用于估计高度保守的残基。在分析中还包括了两个良好表征的ii-a型系统(酿脓链球菌和嗜热链球菌)(jinek等人,2014,science343:1247997;nishimasu等人,2014,cell156:935-949)。在图3中示出了这四个蛋白序列的比对;图4示出了如对于内氏放线菌(‘ana-cas9’)确定的蛋白结构(jinek等人,2014,science343:1247997)。来自t12的cas9(gtcas9)和来自内氏放线菌的cas9的长度是高度类似的(内氏放线菌为1101aa,gtcas9为1082aa),并且预期gtcas9具有类似的蛋白结构,但这仍待确定,因为与cas9-ana的总体序列同一性仅为20%。由jinek等人(jinek等人,2014,science343:1247997)描述的在来自内氏放线菌和酿脓链球菌的cas9中的所有活性位点残基可以在gtcas9中被鉴定出(参见图3)。已经确定了对于酿脓链球菌ii-a型系统的pam结合结构域,但对于任何ii-c型系统未确定pam结合结构域,并且因此仅在酿脓链球菌序列中指示出pam结合结构域。此外,pam识别位点不仅在crispr系统之间而且在包含相同的系统的物种之间变化很大。

实施例4:热脱氮地芽孢杆菌gtcas9的pam序列的确定

已经建立了原核crispr系统作为适应性免疫系统为其宿主服务(jinek等人,2012,science337:816-821),并且可以被用于快速和有效的遗传工程(mali等人,2013,natmethods10:957-963.)。

cas9蛋白作为用于ii型crispr系统的序列特异性核酸酶发挥功能(makarova等人,2011,natrevmicro9:467-477)。由与重复区域连接的“间隔区”(靶)组成的小crrna分子是crispr基因座的转录和加工产物。“间隔区”天然起源于噬菌体的基因组和移动遗传元件,但它们也可以被设计为在遗传工程过程期间靶向特定核苷酸序列(bikard等人,2013,nucleicacidsresearch41:7429-7437)。cas9使用crrna分子作为用于鉴定其dna靶的指导。间隔区区域与靶向的用于裂解的dna区域,“前间区”相同(brouns等人,2012,science337:808-809)。由cas9对靶的识别需要紧邻前间区的pam(前间区相邻基序)(jinek等人,2012,science337:816-821)。

为了对ii型系统进行体外或体内pam确定研究,有必要进行计算机模拟预测系统的crispr阵列,即表达tracrrna的模块。使用crispr阵列用于crrna模块的鉴定。表达tracrrna的序列位于cas9侧翼的500bp的窗口中,或在cas基因和crispr基因座之间(chylinski,k.,等人(2014)classificationandevolutionoftypeiicrispr-cassystems.nucleicacidsres.42,6091-6105)。tracrrna应该由与crispr阵列的直接重复具有高水平的互补性的5’-序列、随后是不少于两个茎环结构的预测的结构和rho非依赖性转录终止信号组成(ran,f.a.,等人(2015)invivogenomeeditingusingstaphylococcusaureuscas9.nature520,186-191)。然后,crrna和tracrrna分子可以被用于设计嵌合sgrna模块。sgrna的5’-末端由截短的20nt长的间隔区组成,随后是crispr阵列的16-20nt长的截短的重复。该重复之后是对应的截短的反向重复和tracrrna模块的茎环。sgrna的重复部分和反向重复部分通常地由gaaa接头连接(karvelis,t.,等人(2015)rapidcharacterizationofcrispr-cas9protospaceradjacentmotifsequenceelements.genomebiol.16,253)。

使用t12染色体的反义链来转录热脱氮地芽孢杆菌t12iic型crispr系统的cas基因(cas9之后是cas1和cas2基因)。cas2基因之后是100bp长的dna片段,该dna片段在转录后形成具有多个环的rna结构。该结构显然地充当转录终止子。

具有11个重复和10个间隔区序列的crispr阵列位于转录终止序列的上游,并且阵列的前导区位于阵列的5’末端处。转录为tracrrna的dna基因座预期是在cas9基因的下游。cas9基因的直接下游的325bp长的序列与来自crispr阵列的36bp长的重复的比对揭示,在tracrrna基因座中存在36bp长的序列,其几乎与该重复相同(如在图6中示出的)。该结果使我们得出结论,tracrrna基因座的转录方向应该与crispr阵列的转录方向相反。因此,tracrrna的5’末端将与crrna的3’末端互补,引起cas9所需要的双rna分子的形成。

实施例5:用随机化的pam的靶生成

使用热脱氮地芽孢杆菌t12基因组dna作为模板通过pcr扩增来自热脱氮地芽孢杆菌t12菌株的crisprii基因座的两个不同的间隔区。使用两对简并引物用于每一个间隔区的扩增:

首先,使用引起在“前间区”片段的上游引入六个随机核苷酸的一对,导致产生具有随机化的pam序列的前间区的池。

其次,使用引起在“前间区”片段的下游引入六个随机核苷酸的一对,导致产生具有随机化的pam序列的前间区的池。

将产生的片段连接至pnw33n载体,产生“前间区”构建体的4个池,每一个池具有6个核苷酸长的pam的所有可能的4096种不同的组合。使用组装的dna用于转化热脱氮地芽孢杆菌t12细胞。将细胞铺板在氯霉素选择培养基上,并且将汇集来自每一个前间区池的多于2×106个细胞。从池提取质粒dna,对靶区域进行pcr扩增,并且将产物送出用于深度测序。具有最少读段的pam将被认为是有活性的,并且将用仅包含具有这些pam的间隔区的pnw33n构建体重复该过程。热脱氮地芽孢杆菌t12的降低的转化效率将证实pam的活性。

实施例6:对于gtcas9的pam序列的体外确定

prham:cas9gt载体的构建

使用bg6927和bg6928引物,从热脱氮地芽孢杆菌t12基因组pcr扩增cas9gt基因,并且将其与prhamc-hiskan载体(lucigen)组合在一种混合物中。根据所提供的方案,使用该混合物用于转化e.cloni热感受态细胞。将来自转化混合物的100μl混合物铺板在lb+50卡那霉素平板上,用于在37℃过夜生长。从形成的e.cloni::prham:cas9gt单菌落中随机地选择3个单菌落并且接种在包含50μg/ml卡那霉素的10mllb培养基中。通过添加无菌甘油至来自每种培养物的1ml培养物直到最终浓度为20%(v/v),从培养物制备甘油贮存物(glycerolstock)。在-80℃储存甘油贮存物。根据“genejetplasmidminiprepkit”(thermoscientific)方案,将来自每种培养物的剩余的9ml培养物用于质粒分离。将质粒送出用于cas9gt的序列验证,并且一个质粒被验证包含具有正确序列的基因。对应的培养物被进一步用于gtcas9的异源表达和纯化。

gtcas9在e.cloni::prham:cas9gt载体中的异源表达

e.cloni::prham:cas9gt预培养物用对应的甘油贮存物接种10mllb+50卡那霉素后来制备。在37℃和180rpm过夜生长后,使用来自预培养物的2ml预培养物接种200ml的lb+50卡那霉素培养基。将e.cloni::prham:cas9gt培养物在37℃、180rpm培养,直至od600为0.7。然后,通过添加l-鼠李糖至0.2%w/v的最终浓度来诱导gtcas9表达。允许表达进行持续8h,之后以4700rpm、4℃离心培养物持续10分钟以收获细胞。弃去培养基,并且将沉淀的细胞储存在-20℃或根据以下方案用于无细胞提取物(cfe)的制备:

1.将沉淀物重悬浮在20ml声处理缓冲液(20mm磷酸钠缓冲液(ph=7.5)、100mmnacl、5mmmgcl2、5%(v/v)甘油、1mmdtt)中

2.通过声处理破碎1ml的细胞(8个30秒的脉冲,在脉冲之间在冰上冷却持续20秒)

3.以35000g、4℃离心持续15分钟,以使不可溶的部分沉淀

4.取出上清液并且将其储存在4℃或冰上

对于gtcas9的pam文库靶向sgrna模块的设计和构建

在进行计算机模拟确定在热脱氮地芽孢杆菌t12菌株的基因组中的表达tracrrna的dna模块后(见以上实施例4),设计了表达单指导(sg)rna的dna模块,所述dna模块将crispr/cas9系统的crrna模块和tracrrna模块组合在单个分子中。在sgrna的5’末端处的间隔区被设计为与质粒文库的前间区互补,并且该模块被设置在t7启动子的转录控制下。pt7_sgrnadna模块由baseclear合成,并且被接纳在puc57载体中,形成puc57:pt7_sgrna载体。用载体转化dh5α感受态大肠杆菌细胞(neb),并且将转化混合物铺板在包含100μg/ml氨苄青霉素的lb琼脂平板上。将平板在37℃孵育过夜。将三个形成的单菌落接种在包含100μg/ml氨苄青霉素的10mllb培养基中。通过添加无菌甘油至来自每种培养物的1ml培养物直到最终浓度为20%(v/v)而从培养物制备甘油贮存物。在-80℃储存甘油贮存物。根据“genejetplasmidminiprepkit”(thermoscientific)方案,将来自每种培养物的剩余的9ml培养物用于质粒分离。分离的质粒用作用于扩增pt7_sgrna模块的pcr模板。使用引物bg6574和bg6575获得218bp长的pt7_sgrnadna模块(其中前18bp对应于pt7)。将完整的pcr混合物在1.5%琼脂糖凝胶上运行。根据“zymocleantmgeldnarecoverykit”方案,切除和纯化具有期望尺寸的条带。

使用“hiscribetmt7highyieldrnasynthesiskit”(neb)进行体外转录(ivt)。使用纯化的pt7_sgrnadna模块作为模板。将ivt混合物与等体积的rna加样染料(neb)混合,并且在70℃加热持续15分钟以破坏二级结构。将热处理的ivt混合物在变性尿素-page上运行,并将所得聚丙烯酰胺凝胶在包含10μl的sybrgold(invitrogen)的100ml0.5×tbe缓冲液中洗涤(embaptised)持续10分钟,用于染色目的。切下在期望尺寸(200nt)处的条带,并且根据以下rna纯化方案纯化sgrna:

1.用解剖刀切割rna凝胶片段,并且添加1ml的rna洗脱缓冲液,置于室温过夜。

2.将330μl等分试样分到新的1.5ml管中。

3.添加3倍体积(990μl)的预冷(-20℃)100%etoh。

4.在-20℃孵育持续60分钟。

5.在室温,在微量离心机中以13000rpm离心持续20分钟。

6.去除etoh,用1ml70%etoh洗涤沉淀物。

7.在室温,在微量离心机中以13000rpm离心持续5分钟。

8.去除990μl上清液。

9.将剩余etoh在55℃在热混合器中蒸发持续15-20分钟。

10.将沉淀物重悬浮在20μlmq中,储存在-20℃。

7nt长的pam文库的设计与构建、和文库的线性化

pam文库的设计和构建基于pnw33n载体。将20bp长的前间区引入至载体,其3’侧侧翼为7个简并核苷酸长的序列;简并序列用作pam,并且当前间区的侧翼为正确的pam时,那么它就可以被装载sgrna的cas9识别为靶并且被裂解。根据以下方案制备pam文库:

1.通过使单链dna寡聚物1(bg6494)和2(bg6495)退火来制备sppam双链dna插入物

i.10μl10×nebuffer2.1

ii.1μl50μm寡聚物1(~1.125μg)

iii.1μl50μm寡聚物2(~1.125μg)

iv.85μlmq

v.将混合物在94℃孵育持续5min,并且以0.03℃/秒的速率冷却至37℃

2.添加1μlklenow3’->5’exo-聚合酶(neb)至每个退火的寡聚物混合物并且然后添加2.5μl的10μmdntp。在37℃孵育持续1h,并且然后在75℃孵育持续20min。

3.添加2μl的hf-bamhi和2μl的bsphi限制性酶至46μl的退火混合物。在37℃孵育持续1h。该过程将导致sppambb插入物具有粘性末端。使用zymodna清洗和浓缩试剂盒(zymoresearch)以清洗创建的插入物。

4.用hf-bamhi和bsphi(neb)消化pnw33n,并且使用zymodna清洗和浓缩试剂盒(zymoresearch)纯化具有粘性末端的3,400bp长的线性pnw33nbb片段。

5.根据所提供的方案,使用nebt4连接酶将50ng的pnw33nbb与11ng的sppambb插入物进行连接。使用zymodna清洗和浓缩试剂盒(zymoresearch)纯化连接混合物。

6.转化dh10b电感受态细胞(200μl细胞,用500ng的dna)。在soc培养基(在800μlsoc中200μl细胞)中回收细胞持续1小时,并且然后用回收的细胞接种50ml的lb+12.5μg/ml氯霉素。在37℃和180rpm,孵育培养物过夜。

7.使用jetstar2.0maxiprep试剂盒(genomed)从培养物分离质粒dna。

8.根据所提供的方案,使用sapi(neb)限制性处理用于使分离的质粒线性化。

pam确定反应的设计和执行

设置以下裂解反应,用于将gtcas9诱导的dsdna断裂引入至pam文库成员,所述pam文库成员包含在靶向的前间区的3’末端下游的正确pam:

1.每反应2.5μg的e.cloni::prham:cas9gtcfe

2.sgrna至30nm最终浓度

3.每反应200ng的线性化的pam文库

4.2μl的裂解缓冲液(100mm磷酸钠缓冲液(ph=7.5)、500mmnacl、25mmmgcl2、25%(v/v)甘油、5mmdtt)

5.mq水,直到20μl最终体积

反应在60℃孵育持续1h,并且在加入4μl的6×凝胶加样染料(neb)后终止。然后将反应混合物加样至1%琼脂糖凝胶。凝胶在100v经历1h和15min长的电泳,并且然后在包含10μl的sybrgold染料(thermofisher)的100ml0.5×tae缓冲液中孵育持续30min。根据所提供的方案,在用蓝光使dna条带可视化后,从凝胶上切下与成功地裂解的和包含pam的dna片段对应的条带,并且使用“zymocleantmgeldnarecoverykit”进行凝胶纯化。

对包含pam的gtcas9裂解的dna片段加标签用于测序

cas9诱导的dna断裂通常被引入在前间区的第3个和第4个核苷酸之间,靠近pam序列。因此,不可能设计可以pcr扩增裂解的dna片段的包含pam的部分的一对引物,以进一步测序和确定pam序列。为了该目标,使用了5步的过程:

第1步:用taq聚合酶接a尾(a-tailing)

接a尾是使用taq聚合酶将非模板的腺嘌呤添加至双链dna分子的平的3’末端的过程

反应组分:

·gtcas9-裂解的和包含pam的dna片段–200ng

·缓冲液(neb)–5μl

·1mmdatp-10μl

·taqdna聚合酶(neb)-0.2μl

·h2o-直到50μl最终反应体积

·孵育时间-20min

·孵育温度-72℃

第2步:测序衔接子的构建

将两个互补的短ssdna寡核苷酸磷酸化和退火,以形成用于来自第1步的dna片段的pam近端位点的测序衔接子。其中一种寡核苷酸在其3’末端处具有另外的胸腺嘧啶,以促进将衔接子连接至接a尾的片段。

衔接子寡核苷酸磷酸化(对于每个寡聚物,单独的磷酸化反应)

·100μm寡核苷酸原液(stock)–2μl

·10×t4dna连接酶缓冲液(neb)–2μl

·无菌mq水–15μl

·t4多核苷酸激酶(neb)–1μl

·孵育时间–60min

·孵育温度–37℃

·t4pnk失活–65℃持续20min

磷酸化的寡核苷酸的退火

·寡核苷酸1–来自对应的磷酸化混合物的5μl混合物

·寡核苷酸1–来自对应的磷酸化混合物的5μl混合物

·无菌mq水–90μl

·将磷酸化的寡聚物在95℃孵育持续3分钟。在室温,缓慢地冷却反应持续~30min至1hr

第3步:gtcas9裂解的接a尾的片段与测序衔接子的连接

根据以下方案,使第1步和第2步的产物进行连接:

·10×t4dna连接酶缓冲液–2μl

·第1步的产物–50ng

·第2步的产物–4ng

·t4dna连接酶–1μl

·无菌mq水–至20μl

·孵育时间–10min

·孵育温度–20-25℃

·在65℃加热失活持续10min

第4步:150个核苷酸长的包含pam片段的pcr扩增

使用来自第4步的连接混合物的5μl混合物作为用于使用q5dna聚合酶(neb)的pcr扩增的模板。具有来自第2步的胸腺嘧啶延伸的寡核苷酸被用作正向引物,并且反向引物被设计为在pam序列下游的150个核苷酸处退火。

使用非gtcas9处理的pam文库dna作为模板来扩增相同的序列。两种pcr产物被凝胶纯化,并且送出用于illuminahiseq2500配对末端测序(paired-endsequencing)(baseclear)。

测序结果的分析和候选pam序列的确定

在分析测序结果后,构建了以下频率矩阵。这些矩阵描绘了在gtcas9消化的和非消化的文库的每个pam位置处的每个核苷酸的相对丰度:

这些结果指示对于在第5个pam位置具有胞嘧啶的靶的明显的偏好和对于在前4个pam位置具有胞嘧啶的靶的偏好。

实施例7:对于gtcas9的计算机模拟pam预测

如果在基因组数据库中足够的前间区序列是可得的,pam的计算机模拟预测是可能的。gtcas9pam的计算机模拟预测以以下开始:通过与在基因组数据库诸如genbank中的序列比较,鉴定来自crispr阵列的间隔区在热脱氮地芽孢杆菌t12菌株的基因组中的击中。使用“crispr查找器”(http://crispr.u-psud.fr/server/)工具以鉴定在t12中的候选crispr基因座。然后,将鉴定的crispr基因座输出加载到“crispr靶”(http://bioanalysis.otago.ac.nz/crisprtarget/crispr_analysis.html)工具中,该工具搜索选定的数据库并且提供具有匹配前间区的输出。然后,筛选这些前间区序列以确定独特的击中和与间隔区的互补性—例如,在种子序列中的错配被认为可能是假阳性击中并且被排除在进一步分析之外。与前噬菌体序列和(整合的)质粒具有同一性的击中证明了获得的击中是真阳性。总的来说,该过程产生了6个单击中(图7)。随后,使用weblogo(http://weblogo.berkeley.edu/logo.cgi)(crooks_ge、hong、chandonia_jm、brenner_seweblogo:asequencelogogenerator,genomeresearch,14:1188-1190,(2004))工具(图8),对剩余的独特前间区击中的侧翼区域(对于ii型gtcas核酸酶的3’)进行比对和比较以确定共有序列。

计算机模拟结果与体外pam鉴定实验结果(参见实施例6)相当,其中存在pam序列的第5个残基的身份偏向为胞嘧啶。

实施例8:对于gtcas9的8个核苷酸长的pam序列的确定

来自实施例8的计算机模拟数据表明gtcas9在第8个位置处具有对于腺苷的某种偏好,因此进行了进一步的pam确定实验,其中还测试了pam序列的第8个位置。这与嗜温侧孢短芽孢杆菌ssp360d4(karvelis等人,2015年)cas9pam序列的表征是一致的,发现嗜温侧孢短芽孢杆菌ssp360d4cas9pam序列在前间区的3’末端处的第5个和第8个位置之间延伸。

用gtcas9试验了pam的特定8个核苷酸长的序列变体:

1)cnccccac[seqidno:17]、

2)ccccccag[seqidno:18]、

3)ccccccaa[seqidno:11]、

4)ccccccat[seqidno:19]、

5)ccccccac[seqidno:20]、

6)nnnntnnc(阴性对照pam)。

在60℃进行体外裂解测定后,如之前一样地(参见实施例6)用纯化的gtcas9和相同的sgrna靶向这些(非线性化的)质粒,当ccccccaa[seqidno:11]序列被用作pam时,观察到增加的gtcas9裂解活性(图9)。然而,对于所有测试的pam序列,裂解活性明确地是可检测的,即使对于阴性对照pam序列,观察到微弱的裂解条带。不希望受限于特定的理论,可能的是,高gtcas9浓度的使用促成通过阴性对照观察到的裂解。通常地已经观察到,在体外测定中高cas9浓度导致cas9诱导的dna裂解,而无严格的pam需求。

通常地,已知cas9浓度会影响cas9诱导的dna裂解的效率(cas9浓度越高,引起越高的cas9活性)。这也是当使用具有ccccccaa[seqidno:11]pam序列的靶向的质粒和不同的gtcas9浓度进行体外测定时观察到的(图10)。

如以上描述的,具有ccccccaa[seqidno:11]pam序列的靶向的质粒用于体外测定,在38℃和78℃之间的宽的温度范围中进行所述体外测定(图11)。出乎意料地,gtcas9在所有温度是有活性的,在40.1℃和64.9℃之间显示出最高的活性。

因此,来自地芽孢杆菌属的种的cas9的最佳温度范围比迄今已经被表征的cas9蛋白的最佳温度范围高得多。类似地,其中来自地芽孢杆菌属的种的cas9保持核酸酶活性的范围的上限比已知的cas9蛋白的范围的上限高得多。较高的最佳温度和功能范围在高温度的遗传工程中提供了显著的优点,并且因此在编辑嗜热生物体的基因组中提供了显著的优点,其在升高的温度进行的一系列工业、农业和制药过程中具有效用。

实施例9:用gtcas9和8个核苷酸长度的pam序列对史氏芽孢杆菌et138进行体内基因组编辑

为了证实8个核苷酸的pam也被gtcas9体内识别,设计了在55℃使在史氏芽孢杆菌et138基因组中的pyrf基因缺失的实验。

该方法依赖于提供同源重组模板构建体,在同源重组模板构建体中与靶(pyrf)基因上游和下游互补的区域被提供至史氏芽孢杆菌et138细胞。模板的引入允许同源重组的过程被用于将同源重组模板(不具有pyrf基因)引入到基因组中,使得它也代替在细胞的基因组中的wtpyrf基因。

在同源重组构建体中包含gtcas9和sgrna可以被用于将双链dna断裂(dsdb)引入到包含wtpyrf的细菌基因组中。通常地,在细菌基因组中的dsdb引起细胞死亡。因此,识别wtpyrf中的序列的sgrna可以引起dsdb和仅包含wtpyrf的细胞的死亡。dsdb的引入还取决于合适的pam序列,该合适的pam序列位于被gtcas9识别的前间区的3’末端的下游。

使用pnw33n质粒作为骨架以克隆:

i)在内部开发的葡萄糖阻遏启动子的控制下的cas9gt基因;和

ii)在史氏芽孢杆菌et138的基因组中的pyrf基因的1kb上游和1kb下游区域作为用于同源重组的模板,该同源重组将引起pyrf基因从史氏芽孢杆菌et138的基因组的缺失;和

iii)在组成型启动子的转录控制下的表达单指导rna(sgrna)的模块。

生成了三种单独的构建体,其中单指导rna序列在前20个核苷酸处是不同的,所述前20个核苷酸对应于将gtcas9指导至在基因组中的其特异性dna靶(也被称为间隔区)的序列。三种不同的间隔区序列被设计为靶向三种不同的候选前间区,其全部都在史氏芽孢杆菌et138的pyrf基因中。这些构建体在本文中分别地被称为构建体1、构建体2和构建体3。

三种不同的靶向的前间区在其3’末端具有以下候选pam序列:

1.tccattcc(根据体外测定的结果,阴性对照;被构建体编号3上编码的sgrna靶向的前间区的3’-末端)

2.atccccaa(被构建体编号1上编码的sgrna靶向的前间区的3’-末端;[seqidno:21])

3.acggccaa(被构建体编号2上编码的sgrna靶向的前间区的3’-末端;[seqidno:22])

在用三种构建体之一转化史氏芽孢杆菌et138细胞并且在筛选板上铺板后,获得以下结果:

1.当用靶向前间区(前间区在3’末端处具有阴性对照tccattccpam序列)的构建体(构建体编号3)转化细胞时,转化效率不受影响(图12a)。菌落的数目在与用pnw33n阳性对照构建体转化后的菌落的数目相同的范围中(图12b)。15个菌落经历菌落pcr以筛选其中缺失pyrf基因的菌落,没有一个显示出缺失基因型-2.1kb的预期条带尺寸-,所有菌落是野生型-2.9kb的预期条带尺寸-(图13)。这指示测试的pam事实上在体内没有被gtcas9识别。

2.当用构建体编号1转化细胞时,当与阳性对照(用pnw33n转化的细胞)相比时,仅获得几个菌落(图12c)。20个菌落经历菌落pcr以筛选其中缺失pyrf基因的菌落。大多数(19个)菌落包含野生型和pyrf缺失基因型二者,而一个菌落具有pyrf缺失基因型(图14)。该结果指示,pam序列atccccaa[seqidno:21]在体内被gtcas9识别,因为没有观察到仅wt基因型。降低的转化效率也指示一部分的细胞群体已经被减少,其可以是可归因于由于通过gtcas9的成功靶向,通过dsdb对仅wt基因型细胞引起的细胞死亡。

3.当用构建体编号2转化细胞时,没有获得菌落(图12d)。菌落的缺乏指示所有的细胞群体已经成功地被gtcas9靶向,其导致通过dsdb引起的细胞死亡。这表明acggccaa[seqidno:22]pam被gtcas9识别。

这些结果指示,用以上提及的pam序列,gtcas9在55℃在体内是有活性的,该结果与体外pam确定结果一致。此外,它可以在相同的温度与质粒携带的同源重组模板组合用作基因组编辑工具。

实施例10:thermocas9鉴定和纯化

我们最近分离并且测序了热脱氮地芽孢杆菌t12菌株,这是一种革兰氏阳性、中等嗜热细菌,其最佳生长温度在65℃(daas等人biotechnol.biofuels9,210(2016))。与先前的声称相反,该声称为在嗜热细菌中不存在ii型crispr-cas系统(li等人nucleicacidsres.44,e34-e34(2016)),测序结果揭示了热脱氮地芽孢杆菌t12的基因组中存在iic型crispr-cas系统(图15a)。与其他cas9直系同源物诸如spcas9(1368个氨基酸)相比,该系统的cas9核酸内切酶(thermocas9)被预测是相对地小的(1082个氨基酸)。大小差异主要是由于截短的rec叶,如已经对于其他小cas9直系同源物证明的(图19)(ran等人nature520,186-191(2015))。此外,预期thermocas9至少在热脱氮地芽孢杆菌t12的最佳温度附近是有活性的(daas等人biotechnol.biofuels9,210(2016))。使用thermocas9序列作为查询序列,我们在ncbi/非冗余蛋白序列数据集中进行了blast-p搜索,并且发现了许多高度同一的cas9直系同源物(在蛋白水平上87-99%同一性,表1),主要地在地芽孢杆菌属中,支持了thermocas9是嗜热细菌的高度保守的防御系统的一部分的观点(图15b)。这些特征表明,它可能是用于开发作为用于嗜热微生物的基因组编辑和沉默工具的潜在候选物,和用于其中需要增强的蛋白稳健性的条件的潜在候选物。

我们最初使用先前描述的方法(mougiakos等人trendsbiotechnol.34,575-587(2016);ran等人nature520,186-191(2015))对热脱氮地芽孢杆菌t12crispr-cas系统的crrna和tracrrna模块进行了计算机模拟预测。基于该预测,通过将预测的全长crrna(30nt长间隔区,随后是36nt长重复)和tracrrna(36nt长反向重复,随后是具有三个预测的发夹结构的88nt序列)连接起来,设计了190nt的sgrna嵌合体。将thermocas9在大肠杆菌中异源地表达并且纯化至均质性。假设将sgrna装载至thermocas9将稳定蛋白,我们在60℃和65℃孵育纯化的用体外转录的sgrna装载的apo-thermocas9和thermocas9,持续15min和30min。sds-page分析显示出,纯化的thermocas9在65℃变性,但在60℃不变性,而thermocas9-sgrna复合体的变性温度是65℃以上(图15c)。被证明的thermocas9的热稳定性暗含了其作为耐热crispr-cas9基因组编辑工具的潜力,并且鼓励我们更详细地分析一些相关的分子特征。

表1.来自图1b的cas9蛋白序列与thermocas9相比的pblast结果。

实施例11:thermocas9pam确定

表征thermocas9的第一步是进行计算机模拟预测它对于成功地裂解dna靶的pam偏好。我们使用热脱氮地芽孢杆菌t12crispr基因座的10个间隔区,使用crispr靶(biswas等人rnabiol.10,817-827(2013))在病毒和质粒序列中搜索潜在的前间区。因为用噬菌体基因组仅获得两个击中(图20a),所以决定用体外pam确定方法继续进行。我们体外转录了预测的sgrna序列,该sgrna序列包含用于基于thermocas9的靶向的线性dsdna底物的间隔区和匹配的前间区。前间区在其3’末端处侧翼为随机化的7个碱基对(bp)的序列。在55℃进行基于thermocas9的裂解测定后,对文库的裂解的成员(与作为对照的非靶向的文库样品一起)进行了深度测序和比较,以鉴定thermocas9pam偏好(图16a)。测序结果揭示了,thermocas9引入双链dna断裂,类似于嗜温cas9变体,主要位于第3个和第4个pam近端核苷酸之间。此外,裂解的序列揭示了thermocas9识别5’-nnnncnr-3’pam,在第1个、第3个、第4个和第6个pam位置处对于胞嘧啶具有细微的偏好(图16b)。最近的研究已经揭示了第8个pam位置对于某些iic型cas9直系同源物的靶识别的重要性(karvelis等人genomebiol.16,253(2015);kim等人genomeres.24,1012-9(2014))。为了该目的,并且考虑到来自计算机模拟thermocas9pam预测的结果,我们进行了另外的pam确定测定。这揭示了在第8个pam位置处腺嘌呤的存在下的最佳靶向效率(图16c)。有趣的是,尽管击中的次数有限,上文提及的计算机模拟pam预测(图20b)也表明了在第5个pam位置的胞嘧啶和在第8个pam位置的腺嘌呤的重要性。

为了进一步阐明pam在第6个和第7个pam位置的模糊性,我们生成了一组16个不同的靶dna片段,在所述靶dna片段中匹配的前间区的侧翼为5’-cccccnna-3’[seqidno:13]pam。进行了这些片段(每个片段具有第6个和第7个核苷酸的独特组合)的裂解测定,其中不同的组分(thermocas9、sgrna指导、dsdna靶)在不同的温度(20℃、30℃、37℃、45℃、55℃和60℃)单独地预加热持续10min,然后组合它们并且在对应的测定温度孵育持续1小时。当在37℃和60℃之间的温度进行测定时,所有不同的dna底物被裂解(图16d、图21)。然而,消化最多的靶片段由pam序列(第5个至第8个pam位置)5’-cnaa-3’和5’-cmca-3’组成,而消化最少的靶包含5’-caka-3’pam。在30℃,仅观察到具有最佳pam序列(第5个至第8个pam位置)5’-cnaa-3’和5’-cmca-3’的dna底物的裂解(图2d)。最后,在20℃,仅具有(第5个至第8个pam位置)5’-cvaa-3’和5’-cccapam序列的dna底物被靶向(图21),使得这些序列成为最优选的pam。这些发现证明,在其温度下限,thermocas9仅裂解具有优选的pam的片段。可以在体内编辑过程期间开发该特征,例如以避免脱靶效应。

实施例12:热稳定性和截短

预测的tracrrna由反向重复区域随后是三个发夹结构组成(图17a)。使用tracrrna随crrna一起形成sgrna嵌合体,引起dna底物的成功的指导的裂解。观察到全长的重复-反向重复发夹的间隔区远端的41-nt长的缺失(图17a),最可能更类似于双指导的天然状态,对dna裂解效率具有很少影响或没有影响。通过进行裂解时间序列来评价预测的发夹的进一步截短(图17a)对thermocas9裂解效率的作用,其中所有组分(sgrna、thermocas9、底物dna)在不同的温度(37-65℃)单独地预加热持续1min、2min和5min,然后将它们进行组合并且在多种测定温度(37-65℃)孵育持续1小时。tracrrna支架的预测的茎环的数目看起来在dna裂解中起着至关重要的作用;当所有三个环存在时,在所有测试的温度,裂解效率是最高的,而去除3’发夹后效率减少(图17b)。此外,去除中间发夹和3’发夹二者后,裂解效率急剧地下降(图22)。尽管在65℃预加热thermocas9持续1min或2min引起可检测的裂解,但在孵育5分钟后裂解活性被消除。热稳定性测定显示出,不具有3’茎环的sgrna变体引起thermocas9蛋白在65℃的稳定性减少,指示出在升高的温度的最佳的基于thermocas9的dna裂解需要全长的tracrrna。另外地,我们还改变了间隔区序列的长度(从25nt至18nt),并且发现23个、21个、20个和19个的间隔区长度以最高的效率裂解靶。当使用18nt的间隔区时,裂解效率显著地下降。

在体内,thermocas9:sgrnarnp复合体可能在几分钟内形成。连同以上发现,这促使我们评价rnp的活性和热稳定性。在60℃、65℃和70℃加热预组装的rnp复合体持续5min和10min,然后添加预加热的dna,并且随后在60℃、65℃和70℃孵育持续1小时。引人注目的是,我们观察到thermocas9rnp在高达70℃是有活性的,尽管它在70℃预加热持续了5min(图17c)。该发现证实了我们的假设,即thermocas9稳定性与适当的sgrna指导的缔合紧密地相关(ma等人,mol.cell60,398–407(2015))。

在一些应用中,thermocas9具有宽的温度活性范围即在低的温度和高的温度二者有功能,将是有益的。此外,在一些情况中,如果thermocas9的活性可以被限制在较窄的温度范围,例如,仅在低的温度或仅在高的温度有活性,将是有益的。因此,通过修饰thermocas9或相关的元件(诸如sgrna)的结构特征,操作其中thermocas9能够进行靶向的裂解或结合或其中靶向的裂解或结合有效地发生的温度的范围的能力,将使得能够对核酸序列操作施加更大水平的控制。因此,我们开始将thermocas9的温度范围与酿脓链球菌cas9(spcas9)的温度范围进行比较。对两种cas9同源物进行在20℃和65℃之间的体外活性测定。将两种蛋白在对应的测定温度孵育持续5min,然后添加sgrna和靶dna分子。与先前的分析26一致,嗜温spcas9仅在25℃和44℃之间是有活性的(图17d);在这些温度以上,spcas9活性快速地减少至不可检测的水平。相反,在25℃和65℃之间可以检测到thermocas9裂解活性(图17d)。这指示出使用thermocas9作为用于嗜热生物体和嗜温生物体二者的基因组编辑工具的潜力。

先前表征的嗜温cas9核酸内切酶使用二价阳离子以催化在靶dna中生成dsb(jinek等人science337,816-821(2012);chen等人j.biol.chem.289,13284-13294(2014))。为了评价哪些阳离子有助于通过thermocas9的dna裂解,在以下二价阳离子之一的存在下进行质粒裂解测定:mg2+、ca2+、mn2+、co2+、ni2+和cu2+;具有阳离子螯合剂edta的测定被包括作为阴性对照。如预期的,在二价阳离子的存在下靶dsdna被裂解,并且在edta的存在下保持完整(图23a)。基于某些iic型系统是有效的单链dna切割物的报道(ma等人mol.cell60,398-407(2015);zhang等人mol.cell60,242-255(2015)),我们测试了thermocas9对ssdna底物的活性。然而,没有观察到裂解,指示出thermocas9是dsdna核酸酶(图23b)。

实施例13:嗜热史氏芽孢杆菌中基于thermocas9的基因缺失

我们开始开发用于嗜热细菌的基于thermocas9的基因组编辑工具。在这里,我们示出了使用在55℃培养的史氏芽孢杆菌et138的原理的证明。为了使用最少的遗传部件,我们遵循了单个质粒方法。我们构建了一组基于pnw33n的pthermocas9质粒,其包含在天然xyll启动子(pxyll)控制下的thermocas9基因、用于修复在感兴趣的基因中的cas9诱导的双链dna断裂的同源重组模板、和在来自凝结芽孢杆菌的组成型pta启动子(ppta)控制下的表达sgrna的模块(图4a)。

第一个目标是使全长的pyrf基因从史氏芽孢杆菌et138的基因组缺失。使用pnw33n来源的质粒pthermocas9_bsδpyrf1和pthermocas9_bsδpyrf2用于表达不同的thermocas9指导,所述不同的thermocas9指导带有靶向pyrf基因的不同位点的间隔区,而第三个质粒(pthermocas9_ctrl)包含在表达sgrna的模块中的随机非靶向间隔区。用对照质粒pnw33n(无指导)和pthermocas9_ctrl在55℃转化史氏芽孢杆菌et138感受态细胞,引起对于每种质粒~200个菌落的形成。在10个筛选的pthermocas9_ctrl菌落中,没有一个包含δpyrf基因型,证实了来自先前的研究的发现,即在史氏芽孢杆菌et138中的同源重组不足以获得完全的突变体(mougiakos等人acssynth.biol.6,849-861(2017);bosma等人microb.cellfact.14,99(2015))。相反,用pthermocas9_bsδpyrf1和pthermocas9_bsδpyrf2质粒转化分别地产生20个和0个菌落,证实了在55℃thermocas9的体内活性,并且验证了蛋白的以上描述的宽的体外温度范围。在10个筛选的pthermocas9_δpyrf1菌落中,一个是完全的δpyrf突变体,而剩余的菌落具有混合的野生型/δpyrf基因型(图4b),证明了该系统的适用性,因为靶向的pyrf基因的设计的同源定向修复是成功的。尽管如此,在严格控制的基于spcas9的反选择系统中,我们先前开发的pyrf缺失效率是更高的(olson等人,curr.opin.biotechnol.33,130-141(2015))。在基于thermocas9的工具中获得的转化体和完全突变体的数目低可以解释为在史氏芽孢杆菌中同源重组效率低(olson等人,curr.opin.biotechnol.33,130-141(2015))与高活性的thermocas9的组成型表达的组合。预计使用严格可控的启动子将增加效率。

实施例14:嗜温恶臭假单胞菌中基于thermocas9的基因缺失

为了拓宽基于thermocas9的基因组编辑工具的适用性,并且为了评价体外结果是否可以在体内被证实,通过将同源重组和基于thermocas9的反选择组合来评价其在嗜温革兰氏阴性细菌恶臭假单胞菌kt2440中的活性。对于该生物体,迄今尚未报道基于cas9的工具。再次,我们遵循单个质粒方法。我们构建了基于pemg的pthermocas9_ppδpyrf质粒,该质粒包含在3-苯甲酸甲酯诱导型pm启动子的控制下的thermocas9基因、用于pyrf基因的缺失的同源重组模板和在组成型p3启动子的控制下的表达sgrna的模块。在转化恶臭假单胞菌kt2440细胞和pcr证实质粒整合后,将菌落接种在选择性液体培养基中用于在37℃过夜培养。使用过夜培养物用于接种选择性培养基,并且用3-苯甲酸甲酯诱导thermocas9表达。随后,将稀释物铺板在补充有3-苯甲酸甲酯的非选择性培养基上。为了比较,进行了平行实验,即不用3-苯甲酸甲酯诱导thermocas9表达。该过程产生了,对于诱导的培养物的76个菌落和对于非诱导的对照培养物的52个菌落。对于诱导的培养物,38个菌落(50%)具有完全的缺失基因型,并且6个菌落具有混合的野生型/缺失基因型。相反,非诱导的培养物的仅1个菌落(2%)具有缺失基因型,并且未获取到具有混合的野生型/缺失基因型的菌落(图24)。这些结果显示出,当在37℃生长时thermocas9可以被用作在嗜温恶臭假单胞菌kt2440中的有效反选择工具。

实施例15:基于thermocas9的基因沉默

目前没有一种可用的有效的热活性转录沉默crispri工具。这类系统在许多应用中可以是有用的。例如,这类系统将极大地促进嗜热菌的代谢研究。thermocas9的催化上死亡的变体可以通过稳定地与dna元件结合而不引入dsdna断裂来用于该目的。为此,我们鉴定了thermocas9的ruvc和hnh催化结构域,并且将对应的d8a和h582a突变引入用于创建死亡的(d)thermocas9。在证实设计的序列后,异源地产生、纯化了thermo-dcas9,并且将其与在上文提及的thermocas9测定中使用的相同的dna靶一起用于体外裂解测定;没有观察到裂解,证实了核酸酶的催化的失活。

为了开发基于thermo-dcas9的crispri工具,我们的目标是使来自史氏芽孢杆菌et138的基因组的高度表达的ldhl基因转录沉默。我们构建了基于pnw33n的pthermocas9i_ldhl和pthermocas9i_ctrl载体。两种载体包含在pxyll启动子的控制下的thermo-dcas9基因和在组成型ppta启动子的控制下的表达sgrna的模块(图4c)。pthermocas9i_ldhl质粒包含间隔区,该间隔区用于靶向史氏芽孢杆菌et138中的138ldhl基因的5’末端处的非模板dna链(图s7)。位置和靶向的链选择是基于先前的研究(bikard等人nucleicacidsres.41,7429-7437(2013);larson等人nat.protoc.8,2180-2196(2013)),目的是ldhl基因的有效下调。pthermocas9i_ctrl质粒包含在表达sgrna的模块中的随机非靶向间隔区。使用该构建体以在55℃转化史氏芽孢杆菌et138感受态细胞,随后是在lb2琼脂平板上铺板,产生等量的菌落。如先前描述的(bosma等人appl.environ.microbiol.81,1874-1883(2015)),选择每个构建体大约700个菌落中的两个用于在微需氧乳酸盐产生条件下培养持续24小时。pthermocas9i_ldhl培养物的生长比pthermocas9i_ctrl培养物的生长少50%(图4e)。我们先前已经显示出,由于在微需氧条件下缺乏基于ldh的nad+再生能力,ldhl基因的缺失引起史氏芽孢杆菌et138中的严重生长迟缓(bosma等人microb.cellfact.14,99(2015))。因此,观察到的生长减少可能是由ldhl基因的转录抑制和随后的由于nad+再生能力的损失而引起的氧化还原失衡引起的。事实上,hplc分析揭示了ldhl沉默的培养物的乳酸盐产生降低了40%,并且rt-qpcr分析显示出与pthermocas9i_ctrl培养物相比,在pthermocas9i_ldhl培养物中ldhl基因的转录水平显著地降低(图4e)。

实施例16:概述

大多数crispr-cas应用是基于由第2类crispr-cas蛋白(诸如cas9和ca12a)对rna指导的dna干扰(komor等人,cell168,20-36(2017);puchta,curr.opin.plantbiol.36,1-8(2017);xu等人j.genet.genomics42,141-149(2015);tang等人nat.plants3,17018(2017);zetsche等人nat.biotechnol.35,31-34(2016);mougiakos等人,trendsbiotechnol.34,575-587(2016))。在本研究前,嗜热微生物中没有鉴定和表征到第2类crispr-cas免疫系统,与之相反的是嗜热细菌和古核生物中存在的高度丰富的第1类crispr-cas系统(makarova等人,nat.rev.microbiol.13,722-736(2015);weinberger等人,mbio3,e00456-12(2012)),其中一些已经被用于嗜热菌的基因组编辑(li等人nucleicacidsres.44,e34-e34(2016))。因此,由于所使用的cas-核酸内切酶的嗜温性质,crispr-cas技术的应用主要地局限于低于42℃的温度。因此,这已经排除了这些技术在专性嗜热菌中和在需要升高的温度和/或改进的蛋白稳定性的实验方法中的应用。

本发明人已经表征了来自嗜热细菌热脱氮地芽孢杆菌t12的cas9直系同源物即thermocas9,热脱氮地芽孢杆菌t12是我们先前从堆肥分离的菌株(daas等人,biotechnol.biofuels9,210(2016))。数据挖掘揭示了其他嗜热菌的基因组中的另外的cas9直系同源物,所述另外的cas9直系同源物几乎是与thermocas9相同的,这是第一次显示出crispr-casii型系统确实存在于嗜热菌中,至少存在于芽孢杆菌属和地芽孢杆菌属的一些分支中。本发明人已经显示出,thermocas9在体外在20-70℃的宽的温度范围中是有活性的,这比其嗜温直系同源物spcas9的25-44℃范围宽得多。thermocas9的延伸的活性和稳定性允许其在需要在20-70℃的温度进行dna操作的分子生物学技术中的应用,以及其在需要稳健的酶活性的严苛环境中的利用。此外,本发明人已经鉴定了几个对于赋予thermocas9的热稳定性重要的因素。首先,本发明人已经证明,thermocas9的pam偏好对于在温度范围的较低部分(≤30℃)的活性是非常严格的,而在中等至最佳温度(37-60℃)对于活性允许pam中的更多的变化。其次,本发明人已经证明thermocas9活性和热稳定性强烈地取决于与适当的sgrna指导的缔合。不希望受任何特定理论的束缚,本发明人假设多结构域cas9蛋白的这种稳定化最可能是从开放/柔性状态(open/flexiblestate)到相当紧密状态(compactstate)的主要构象变化的结果,如针对在指导结合时的spcas9描述的(jinek等人science343,1247997-1247997(2014))。

基于在此描述的新型thermocas9的表征,本发明人已经成功地开发了用于严格嗜热原核生物的基因组工程工具。我们显示出thermocas9在体内在55℃和37℃是有活性的,并且我们将目前的基于cas9的工程技术适用于嗜热史氏芽孢杆菌et138和嗜温恶臭假单胞菌kt2440。由于thermocas9的宽的温度范围,预计简单、有效和基于单个质粒的thermocas9方法将合适地用于宽的范围的嗜热微生物和嗜温微生物,所述嗜热微生物和嗜温微生物可以在从37℃直至70℃的温度生长。这补充了现有的嗜温技术,允许其用于对于这些有效工具迄今为止不可得的大量生物体使用。

从自然资源筛选具有期望的性状的新型酶无疑是有价值的。先前的研究已经表明,用定向演化(directedevolution)和蛋白工程使嗜温cas9直系同源物适应于更高的温度,将是为了构建嗜热cas9蛋白的最佳途径29。相反,我们在一些嗜热细菌中鉴定了cas9的分支,并且将这些耐热thermocas9变体之一转化为用于嗜热生物体和嗜温生物体二者的强大的基因组工程工具。通过本研究,我们进一步拓展了基于cas9的基因组编辑技术的潜力,并且打开了用于在严苛条件下或需要在宽的温度范围中的活性的新型应用中使用cas9技术的新的可能性。

实施例17:材料和方法

a.细菌菌株和生长条件

使用中等嗜热菌史氏芽孢杆菌et138δsigfδhsdr(mougiakos,等人,(2017)acssynth.biol.6,849-861)用于使用thermocas9的基因编辑和沉默实验。将该细菌在55℃、在lb2培养基(bosma,等人microb.cellfact.14,99(2015))中生长。对于平板,在所有实验中,使用每一升的培养基30g的琼脂(difco)。如果需要,添加浓度为7μg/ml的氯霉素。对于蛋白表达,在摇动培养箱中以120rpm在37℃在烧瓶中的lb培养基中使大肠杆菌rosetta(de3)生长,直到达到od600nm为0.5,之后温度转换至16℃。在30min后,通过添加异丙基-1-硫代-β-d-半乳糖基吡喃糖苷(iptg)至0.5mm的最终浓度来诱导表达,之后在16℃继续孵育。对于克隆第6个、第7个和第8个位置的pam构建体,根据制造商提供的手册转化dh5-α感受态大肠杆菌(neb),并且在37℃在lb琼脂平板上生长过夜。对于克隆简并7-nt长的pam文库,根据标准程序(sambrook,fritsch&maniatis,t.molecularcloning:alaboratorymanual.(coldspringharborlaboratory,1989)转化电感受态dh10b大肠杆菌细胞,并且在37℃在lb琼脂平板上生长过夜。使用大肠杆菌dh5αλpir(invitrogen)用于使用由ausubel等人(currentprotocolsinmolecularbiology.(johnwiley&sons,inc.,2001).doi:10.1002/0471142727)描述的转化程序的恶臭假单胞菌质粒构建。对于所有大肠杆菌菌株,如果需要,使用浓度为25mg/l的氯霉素和浓度为50mg/l的卡那霉素。除非另有说明,否则在37℃在lb培养基中培养恶臭假单胞菌kt2440(dsm6125)菌株。如果需要,添加浓度为50mg/l的卡那霉素和浓度为3mm的3-苯甲酸甲酯。

b.thermocas9表达和纯化

从热脱氮地芽孢杆菌t12的基因组pcr扩增thermocas9,然后克隆并且在大肠杆菌rosetta(de3)中异源地表达,并且通过ni2+亲和、阴离子交换和凝胶过滤层析步骤的组合使用fplc纯化。通过使用寡核苷酸(表2)的连接不依赖性克隆,将基因序列插入到pml-1b质粒(从ucberkeleymacrolab获得,addgene#29653)中,以生成编码thermocas9多肽序列(1-1082残基)的蛋白表达构建体,该thermocas9多肽序列与包含六个组氨酸序列和烟草蚀纹病毒(tobaccoetchvirus)(tev)蛋白酶裂解位点的n-末端标签融合。为了表达催化上失活的thermocas9蛋白(thermo-dcas9),使用pcr插入d8a和h582a点突变,并且通过dna测序验证。

在大肠杆菌rosetta2(de3)菌株中表达蛋白。使培养物生长到od600nm为0.5-0.6。通过将iptg添加至0.5mm的最终浓度诱导表达,并且在16℃继续孵育过夜。通过离心收集细胞,并且将细胞沉淀重悬浮于20ml的裂解缓冲液(50mm磷酸钠,ph8,500mmnacl,1mmdtt,10mm咪唑)中,该裂解缓冲液补充有蛋白酶抑制剂(rochecomplete,无edta)和溶菌酶。一旦均质化,使用超声ms72微尖端探头(bandelin)通过超声(sonoplus,bandelin)裂解细胞持续5-8分钟,由2s脉冲和在30%振幅的2.5s暂停组成,并且然后在4℃以16000×g离心持续1小时以去除不溶性物质。过滤澄清的裂解物通过0.22微米过滤器(mdimembranetechnologies),并且施加于镍柱(histraphp,gelifesciences),洗涤,并且然后用250mm咪唑洗脱。汇集包含thermocas9的级分,并且过夜透析到透析缓冲液(250mmkcl,20mmhepes/koh,和1mmdtt,ph7.5)中。在透析后,在10mmhepes/kohph8中1:1稀释样品,并且装载到iex-a缓冲液(150mmkcl,20mmhepes/kohph8)中预平衡的肝素ff柱上。用iex-a洗涤柱,并且然后用iex-c的梯度(2mkcl,20mmhepes/kohph8)洗脱。将样品浓缩至700μl,然后通过fplc(aktapure)装载到凝胶过滤柱(hiload16/600superdex200)上。通过sds-page分析来自凝胶过滤的级分;汇集包含thermocas9的级分并且浓缩至200μl(50mm磷酸钠ph8,2mmdtt,5%甘油,500mmnacl),并且直接地用于生物化学测定或在-80℃冷冻用于保存。

c.sgrna的体外合成

通过将预测的crrna和tracrrna序列与5’-gaaa-3’接头融合,设计sgrna模块。将表达sgrna的dna序列放置在t7启动子的转录控制下。它是合成的(baseclear,leiden,thenetherlands),并且提供于puc57骨架中。使用hiscribetmt7高产率rna合成试剂盒(neb)合成在生物化学反应中使用的所有sgrna。使用编码sgrna的pcr片段,其中t7序列在5’末端上,作为用于体外转录反应的模板。进行t7转录持续4小时。运行sgrna并且从尿素-pam凝胶切下,并且使用乙醇沉淀纯化。

d.体外裂解测定

用纯化的重组thermocas9进行体外裂解测定。将thermocas9蛋白、体外转录的sgrna和dna底物(使用表2中描述的引物,使用pcr扩增生成)单独地(除非另有指示)在所表明的温度孵育持续10min,随后将组分组合在一起,并且在裂解缓冲液(100mm磷酸钠缓冲液(ph=7)、500mmnacl、25mmmgcl2、25(v/v%)甘油、5mm二硫苏糖醇(dtt))中在多种测定温度孵育持续1小时。每次裂解反应包含160nm的thermocas9蛋白、4nm的底物dna和150nm的合成的sgrna。通过添加6×加样染料(neb)终止反应,并且在1.5%琼脂糖凝胶上运行。用sybrsafedna染色剂(lifetechnologies)染色凝胶,并且用geldoctmez凝胶成像系统(bio-rad)成像。

e.用于体外pam筛选的文库构建

为了构建pam文库,通过引物退火和基于klenow片段(外切)(neb)的延伸构建了122-bp长的dna片段,该dna片段包含在其3’末端处的前间区和7-bp长的简并序列。用bsphi和bamhi(neb)消化pam文库片段和pnw33n载体,并且然后连接(t4连接酶,neb)。将连接混合物转化到电感受态大肠杆菌dh10b细胞中,并且从液体培养物分离质粒。对于7nt长的pam确定过程,质粒文库通过sapi(neb)线性化并且用作靶。对于其余的测定,通过pcr扩增将dna底物线性化。

f.pam筛选测定

使用体外裂解测定进行thermocas9的pam筛选,体外裂解测定由以下组成(每次反应):160nm的thermocas9、150nm的体外转录的sgrna、4nm的dna靶、4μl的裂解缓冲液(100mm磷酸钠缓冲液ph7.5、500mmnacl、5mmdtt、25%甘油)和mq水直至20μl最终反应体积。凝胶纯化包含来自55℃反应的裂解片段的pam,将其与illumina测序衔接子连接,并且送出用于illuminahiseq2500测序(baseclear)。对等摩尔量的非thermocas9处理的pam文库进行相同的过程,并且送出用于illuminahiseq2500测序作为参考。选择与参考序列完全序列匹配的hiseq读段用于进一步分析。从所选择的读段来看,在thermocas9处理的文库中存在多于1000次并且与对照文库相比,在thermocas9处理的文库中至少10倍更多的那些读段被用于weblogo分析(crooks等人,genomeres.14,1188-1190(2004))。

g.用于史氏芽孢杆菌和恶臭假单胞菌的编辑和沉默构建体

用于质粒构建的所有引物和质粒都设计具有适当的突出端,用于进行nebuilderhifidna组装(neb),并且它们分别地列于表2和表3中。通过用q5聚合酶(neb)或phusionflashhigh-fidelitypcrmastermix(thermofisherscientific)进行pcr获得用于组装质粒的片段,pcr产物经历1%琼脂糖凝胶电泳,并且使用zymogen凝胶dna回收试剂盒(zymoresearch)纯化pcr产物。将组装的质粒转化至化学感受态大肠杆菌dh5α细胞(neb),或在恶臭假单胞菌构建体的情况中转化至大肠杆菌dh5αλpir(invitrogen),后者促进直接载体整合。将单菌落接种在lb培养基中,使用genejetplasmidminiprep试剂盒(thermofisherscientific)分离质粒物质,并且验证序列(gatc-biotech),并且1μg的每种构建体转化史氏芽孢杆菌et138电感受态细胞,史氏芽孢杆菌et138电感受态细胞是根据先前描述的方案(bosma,等人microb.cellfact.14,99(2015))制备的。使用masterpuretm革兰氏阳性dna纯化试剂盒(epicentre)用于从史氏芽孢杆菌和恶臭假单胞菌液体培养物分离基因组dna。

为了构建pthermocas9_ctrl、pthermocas9_bsδpyrf1和pthermocas9_bsδpyrf2载体,将pnw33n骨架与δpyrf同源重组侧翼区一起从pwur_cas9sp1_hr载体(mougiakos,等人acssynth.biol.6,849-861(2017))pcr扩增(bg8191和bg8192)。天然pxyla启动子从史氏芽孢杆菌et138的基因组pcr扩增(bg8194和bg8195)。thermocas9基因从热脱氮地芽孢杆菌t12的基因组pcr扩增(bg8196和bg8197)。ppta启动子从pwur_cas9sp1_hr载体(mougiakos,等人acssynth.biol.6,849-861(2017))pcr扩增(bg8198和bg8261_2/bg8263_nc2/bg8317_3)。间隔区随后是sgrna支架从puc57_t7t12sgrna载体pcr扩增(bg8266_2/bg8268_nc2/8320_3和bg8210)。

设计并且执行了四片段组装用于构建pthermocas9i_ldhl载体。最初,通过两步pcr方法,使用pthermocas9_ctrl作为模板,将靶向的点突变引入thermocas9催化残基的密码子(d8a和h582a突变)。在第一个pcr步骤(bg9075、bg9076)期间,将期望的突变引入到产生的pcr片段的末端处,并且在第二个步骤(bg9091、bg9092)期间,使用产生的片段作为pcr模板用于引入适当的组装-突出端。第二个突变下游的thermocas9的一部分随ldhl沉默间隔区一起,使用pthermocas9_ctrl作为模板pcr扩增(bg9077和bg9267)。sgrna支架与pnw33n骨架一起,使用pthermocas9_ctrl作为模板pcr扩增(bg9263和bg9088)。启动子与第一个突变上游的thermocas9的一部分一起,使用pthermocas9_ctrl作为模板pcr扩增(bg9089、bg9090)。

设计并且执行了两片段组装用于构建pthermocas9i_ctrl载体。用在两个末端处包含baei限制位点的随机序列代替pthermocas9i_ldhl载体中的间隔区序列。sgrna支架与pnw33n骨架一起,使用pthermocas9_ctrl作为模板pcr扩增(bg9548、bg9601)。由thermo-dcas9和启动子组成的构建体的另一半,使用pthermocas9i_ldhl作为模板扩增(bg9600、bg9549)。

设计并且执行了五片段组装用于构建恶臭假单胞菌kt2440载体pthermocas9_ppδpyrf。pcr扩增来自自杀载体pemg的复制子(bg2365、bg2366)。pyrf的侧翼区域从kt2440基因组dna扩增(bg2367、bg2368用于576-bp上游侧翼区,并且bg2369、bg2370用于540-bp下游侧翼区)。使用引物bg2368和bg2369的重叠,使用引物bg2367和bg2370,以重叠延伸pcr融合侧翼区。sgrna从pthermocas9_ctrl质粒扩增(bg2371、bg2372)。组成型p3启动子从psw_i-scei扩增(bg2373、bg2374)。使用引物bg2371和bg2374的重叠,使用引物bg2372和bg2373,以重叠延伸pcr将该启动子片段与sgrna片段融合。thermocas9从pthermocas9_ctrl质粒扩增(bg2375、bg2376)。将用于3-苯甲酸甲酯诱导thermocas9的诱导型pm-xyls系统,从psw_i-scei扩增(bg2377、bg2378)。

h.用于恶臭假单胞菌的编辑方案

根据choi等人(choi等人,j.microbiol.methods64,391-397(2006))进行了将质粒转化至恶臭假单胞菌。在转化和选择整合体后,接种过夜培养物。使用10μl的过夜培养物用于接种3ml新鲜选择性培养基,并且在37℃生长2小时后,用3-苯甲酸甲酯诱导thermocas9。在另外的6h后,将培养物的稀释物铺板在补充有3-苯甲酸甲酯的非选择性培养基上。对于对照培养物,所有步骤中省略了3-苯甲酸甲酯的添加。用引物bg2381和bg2135通过菌落pcr进行恶臭假单胞菌染色体中质粒整合的证实。用引物bg2381和bg2382通过菌落pcr进行pyrf缺失的证实。

i.rna分离

基于先前描述的方案(vanhijum等人bmcgenomics6,77(2005)),通过苯酚提取进行rna分离。将10ml过夜培养物在4℃和4816×g离心持续15min,并且立即地用于rna分离。在去除培养基后,将细胞悬浮在0.5ml的冰冷的te缓冲液(ph8.0)中,并且保持在冰上。将所有样品分到两支2ml的带螺旋盖的管中,所述带螺旋盖的管包含0.5g的锆珠、30μl的10%sds、30μl的3m乙酸钠(ph5.2)和500μl的roti-苯酚(ph4.5-5.0,carlrothgmbh)。使用fastprep-24仪器(mpbiomedicals)以5500rpm破碎细胞持续45s,并且在4℃和10000rpm离心持续5min。将来自每支管的400μl的水相转移至新的管,向新的管加入400μl的氯仿-异戊醇(carlrothgmbh),之后在4℃和18400×g离心样品持续3min。将300μl的水相转移至新的管,并且与来自高纯度rna分离试剂盒(roche)的300μl的裂解缓冲液混合。随后,除了dna酶孵育步骤(进行持续45min)之外,根据制造商的方案进行来自该试剂盒的其余的程序。使用nanodrop-1000确定cdna的浓度和完整性。在nanodrop-1000上检查分离的rna的完整性和浓度。

j.通过rt-qpcr定量mrna

根据制造商的方案,使用superscripttmiii逆转录酶(invitrogen)对分离的rna进行第一链cdna合成。使用来自quantabiosciences的perfectasybrgreensupermixforiq进行qpcr。使用40ng的每种cdna文库作为用于qpcr的模板。使用两组引物:bg9665:bg9666扩增ldhl基因的150nt长的区域,并且bg9889:bg9890扩增用作用于qpcr的对照的rpod(rna聚合酶sigma因子)基因的150nt长的序列。在bio-radc1000热循环仪上运行qpcr。

k.hplc

使用高压液相色谱(hplc)系统ics-5000用于乳酸盐定量。用来自bio-radlaboratories的aminexhpx87h柱操作该系统,并且配备在210nm上操作的uv1000检测器和ri-15040℃折射率检测器。流动相由0.16nh2so4组成,并且以0.8ml/min操作柱。用0.01nh2so4中的10mmdmso4:1稀释所有样品。

说明书的以下部分由编号的段落组成,这些段落仅仅提供了本文已经描述的本发明的陈述。在本部分中的编号的段落不是权利要求。权利要求在所附的题为“权利要求书”的部分阐述。

1.一种分离的成簇的规律地间隔的短回文重复(crispr)相关的(cas)蛋白或多肽,包含:

a.氨基酸基序ekdgkyyc[seqidno:2];和/或

b.氨基酸基序x1x2ctx3x4[seqidno:3],其中x1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,x2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,x3独立地选自谷氨酸或赖氨酸,并且x4是丙氨酸、谷氨酸或精氨酸之一;和/或

c.氨基酸基序x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺;和/或

d.氨基酸基序x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一;和/或

e.氨基酸基序x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸;

其中,当与至少一种靶向rna分子和包含被靶向rna分子识别的靶核酸序列的多核苷酸缔合时,cas蛋白能够在50℃与100℃之间进行核酸裂解。

2.一种分离的cas蛋白或多肽片段,该分离的cas蛋白或多肽片段具有seqidno:1的氨基酸序列或与seqidno:1具有至少77%同一性的序列,其中当与至少一种识别靶序列的rna分子缔合时,cas蛋白能够在50℃和100℃之间的温度结合、裂解、修饰或标记包含靶核酸序列的多核苷酸。

3.如在编号的段落1或2中所述的cas蛋白或多肽片段,其中cas蛋白或片段能够在50℃和75℃之间的温度,优选地60℃以上的温度;更优选地在60℃和80℃之间的温度;甚至更优选地在60℃和65℃之间的温度进行核酸结合、裂解、标记或修饰。

4.如在编号的段落1至3的任一项中所述的cas蛋白或多肽片段,其中核酸结合、裂解、标记或修饰是dna裂解。

5.如在任一项前述编号的段落中所述的cas蛋白或多肽片段,其中氨基酸序列包含seqidno:1的氨基酸序列或与seqidno:1具有至少77%同一性的序列。

6.如在任一项前述编号的段落中所述的cas蛋白或多肽片段,其中cas蛋白从细菌、古核生物或病毒可获得。

7.如在任一项前述编号的段落中所述的cas蛋白或多肽片段,其中cas蛋白从地芽孢杆菌属的种,优选地从热脱氮地芽孢杆菌可获得。

8.一种核糖核蛋白复合体,所述核糖核蛋白复合体包含如在任一项前述编号的段落中所述的cas蛋白,并且包含识别靶多核苷酸中的序列的至少一种靶向rna分子。

9.如在编号的段落8中所述的核糖核蛋白复合体,其中靶向rna分子包含crrna和任选地tracrrna。

10.如在编号的段落7至9的任一项中所述的核糖核蛋白复合体,其中至少一种rna分子的长度是在35-135个核苷酸残基的范围中。

11.如在编号的段落8或9中所述的核糖核蛋白复合体,其中靶序列的长度是31个或32个核苷酸残基。

12.如在编号的段落1至7的任一项中所述的cas蛋白或多肽、或如在编号的段落8至11的任一项中所述的核糖核蛋白复合体,其中蛋白或多肽作为蛋白复合体的一部分被提供,所述蛋白复合体包含至少一种另外的功能蛋白或非功能蛋白。

13.如在编号的段落12中所述的cas蛋白、多肽或核糖核蛋白复合体,其中cas蛋白或多肽和/或至少一种另外的蛋白还包含至少一个功能部分。

14.如在编号的段落13中所述的cas蛋白或多肽、或核糖核蛋白复合体,其中至少一个功能部分与cas蛋白、多肽或核糖核蛋白复合体的n-末端和/或c-末端、优选地n-末端融合或连接。

15.如在编号的段落13或14中所述的cas蛋白或多肽、或核糖核蛋白复合体,其中至少一个功能部分是蛋白;任选地选自解旋酶、核酸酶、解旋酶-核酸酶、dna甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、dna结合蛋白、dna结构蛋白、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签。

16.如在编号的段落15中所述的cas蛋白或多肽、或核糖核蛋白复合体,其中cas9核酸酶活性的天然活性被失活并且cas蛋白与至少一个功能部分连接。

17.如在编号的段落15或16中所述的cas蛋白或多肽、或核糖核蛋白复合体,其中至少一个功能部分是核酸酶结构域;优选地foki核酸酶结构域。

18.如在编号的段落15至17的任一项中所述的cas蛋白或多肽、或核糖核蛋白复合体,其中至少一个功能部分是标志物蛋白,例如gfp。

19.一种编码cas蛋白或多肽的分离的核酸分子,该cas蛋白或多肽包含:

a.氨基酸基序ekdgkyyc[seqidno:2];和/或

b.氨基酸基序x1x2ctx3x4[seqidno:3],其中x1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,x2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,x3独立地选自谷氨酸或赖氨酸,并且x4是丙氨酸、谷氨酸或精氨酸之一;和/或

c.氨基酸基序x5lkx6ie[seqidno:4],其中x5独立地选自甲硫氨酸或苯丙氨酸,并且x6独立地选自组氨酸或天冬酰胺;和/或

d.氨基酸基序x7vysx8k[seqidno:5],其中x7是谷氨酸或异亮氨酸,并且x8是色氨酸、丝氨酸或赖氨酸之一;和/或

e.氨基酸基序x9fyx10x11reqx12kex13[seqidno:6],其中x9是丙氨酸或谷氨酸,x10是谷氨酰胺或赖氨酸,x11是精氨酸或丙氨酸,x12是天冬酰胺或丙氨酸,并且x13是赖氨酸或丝氨酸;

其中,当与至少一种靶向rna分子和包含被该靶向rna分子识别的靶核酸序列的多核苷酸缔合时,cas蛋白或多肽能够在50℃与100℃之间进行dna结合、裂解、标记或修饰。

20.一种分离的核酸分子,所述分离的核酸分子编码成簇的规律地间隔的短回文重复(crispr)相关的(cas)蛋白或其多肽片段,所述成簇的规律地间隔的短回文重复(crispr)相关的(cas)蛋白或其多肽片段具有seqidno:1的氨基酸序列或与seqidno:1具有至少77%同一性的序列。

21.如在编号的段落19或20中所述的分离的核酸分子,所述分离的核酸分子还包含编码在翻译后与cas蛋白或多肽融合的氨基酸序列的至少一种核酸序列。

22.如在编号的段落21中所述的分离的核酸分子,其中与编码cas蛋白或多肽的核酸分子融合的至少一种核酸序列编码选自以下的蛋白:解旋酶、核酸酶、解旋酶-核酸酶、dna甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、dna结合蛋白、dna结构蛋白、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签。

23.一种表达载体,所述表达载体包含如在编号的段落19至22的任一项中所述的核酸分子。

24.如在编号的段落23中所述的表达载体,所述表达载体还包含编码至少一种靶向rna分子的核苷酸序列。

25.一种修饰靶核酸的方法,所述方法包括使所述核酸与以下接触:

a.如在编号的段落6至11的任一项中所述的核糖核蛋白复合体;或

b.如在编号的段落12至18的任一项中所述的蛋白或蛋白复合体和至少一种如在编号的段落6至11的任一项中定义的靶向rna分子;且其中所述方法不在人类细胞中使用。

26.一种修饰非人类细胞中的靶核酸的方法,所述方法包括用编号的段落24的表达载体转化、转染或转导细胞;或可选地用编号的段落23的表达载体和包含编码如在编号的段落6至11的任一项中定义的靶向rna分子的核苷酸序列的另外的表达载体转化、转染或转导细胞。

27.一种修饰非人类细胞中的靶核酸的方法,所述方法包括用编号的段落23的表达载体转化、转染或转导细胞,并且然后将如在编号的段落6至11的任一项中定义的靶向rna分子递送至细胞或递送到细胞中。

28.如在编号的段落25至28的任一项中所述的修饰靶核酸的方法,其中至少一个功能部分是标志物蛋白或报告物蛋白,并且该标志物蛋白或报告物蛋白与靶核酸缔合;优选地其中标志物是荧光蛋白,例如绿色荧光蛋白(gfp)。

29.如在编号的段落25至28的任一项中所述的方法,其中靶核酸是dna;优选地是dsdna。

30.如在编号的段落25至28的任一项中所述的方法,其中靶核酸是rna。

31.如在编号的段落29中所述的修饰靶核酸的方法,其中核酸是dsdna,至少一个功能部分是核酸酶或解旋酶-核酸酶,并且修饰是在期望的基因座处的单链断裂或双链断裂。

32.一种在期望的基因座处使基因表达沉默的方法,所述方法根据在编号的段落26、27、29或31的任一项中所述的方法中的任一种方法进行。

33.一种在期望的位置处修饰或缺失和/或插入期望的核苷酸序列的方法,所述方法根据如在编号的段落26、27、29或31的任一项中所述的方法中的任一种方法进行。

34.一种修饰非人类细胞中的基因表达的方法,所述方法包括以如在编号的段落25至29的任一项中所述的方法修饰靶核酸序列;其中核酸是dsdna,并且功能部分选自dna修饰酶(例如甲基化酶或乙酰基转移酶)、转录活化物或转录阻遏物。

35.一种修饰非人类细胞中的基因表达的方法,所述方法包括以如编号的段落30所述的方法修饰靶核酸序列,其中核酸是mrna并且功能部分是核糖核酸酶;任选地选自核酸内切酶、3’核酸外切酶或5’核酸外切酶。

36.如在编号的段落25至35的任一项中所述的修饰靶核酸的方法,其中所述方法在50℃和100℃之间的温度进行。

37.如在编号的段落36中所述的修饰靶核酸的方法,其中所述方法在60℃或60℃以上的温度,优选地在60℃和80℃之间的温度,更优选地在60℃和65℃之间的温度进行。

38.如在编号的段落25至37的任一项中所述的方法,其中细胞是原核细胞。

39.如在编号的段落25至38的任一项中所述的方法,其中细胞是真核细胞。

40.一种宿主细胞,所述宿主细胞通过如在编号的段落22至36的任一项中所述的方法转化;其中该细胞不是人类细胞。

序列表

<110>瓦赫宁根大学;科学技术基金会

<120>热稳定的cas9核酸酶

<130>p220294wo2

<150>pct/ep2016/081077

<151>2016-12-14

<160>170

<170>patentin3.5版

<210>1

<211>1082

<212>prt

<213>热脱氮地芽孢杆菌(geobacillusthermodenitrificans)t12

<400>1

metlystyrlysileglyleuaspileglyilethrserileglytrp

151015

alavalileasnleuaspileproargilegluaspleuglyvalarg

202530

ilepheaspargalagluasnprolysthrglygluserleualaleu

354045

proargargleualaargseralaargargargleuargargarglys

505560

hisargleugluargileargargleuphevalarggluglyileleu

65707580

thrlysglugluleuasnlysleupheglulyslyshisgluileasp

859095

valtrpglnleuargvalglualaleuasparglysleuasnasnasp

100105110

gluleualaargileleuleuhisleualalysargargglyphearg

115120125

serasnarglyssergluargthrasnlysgluasnserthrmetleu

130135140

lyshisileglugluasnglnserileleusersertyrargthrval

145150155160

alaglumetvalvallysaspprolyspheserleuhislysargasn

165170175

lysgluaspasntyrthrasnthrvalalaargaspaspleugluarg

180185190

gluilelysleuilephealalysglnargglutyrglyasnileval

195200205

cysthrglualaphegluhisglutyrileseriletrpalasergln

210215220

argprophealaserlysaspaspileglulyslysvalglyphecys

225230235240

thrphegluprolysglulysargalaprolysalathrtyrthrphe

245250255

glnserphethrvaltrpgluhisileasnlysleuargleuvalser

260265270

proglyglyileargalaleuthraspaspgluargargleuiletyr

275280285

lysglnalaphehislysasnlysilethrphehisaspvalargthr

290295300

leuleuasnleuproaspaspthrargphelysglyleuleutyrasp

305310315320

argasnthrthrleulysgluasnglulysvalargpheleugluleu

325330335

glyalatyrhislysilearglysalaileaspservaltyrglylys

340345350

glyalaalalysserpheargproileasppheaspthrpheglytyr

355360365

alaleuthrmetphelysaspaspthraspileargsertyrleuarg

370375380

asnglutyrgluglnasnglylysargmetgluasnleualaasplys

385390395400

valtyraspglugluleuileglugluleuleuasnleuserpheser

405410415

lyspheglyhisleuserleulysalaleuargasnileleuprotyr

420425430

metgluglnglygluvaltyrserthralacysgluargalaglytyr

435440445

thrphethrglyprolyslyslysglnlysthrvalleuleuproasn

450455460

ileproproilealaasnprovalvalmetargalaleuthrglnala

465470475480

arglysvalvalasnalaileilelyslystyrglyserprovalser

485490495

ilehisilegluleualaarggluleuserglnserpheaspgluarg

500505510

arglysmetglnlysgluglngluglyasnarglyslysasngluthr

515520525

alaileargglnleuvalglutyrglyleuthrleuasnprothrgly

530535540

leuaspilevallysphelysleutrpsergluglnasnglylyscys

545550555560

alatyrserleuglnproilegluilegluargleuleugluprogly

565570575

tyrthrgluvalasphisvalileprotyrserargserleuaspasp

580585590

sertyrthrasnlysvalleuvalleuthrlysgluasnargglulys

595600605

glyasnargthrproalaglutyrleuglyleuglysergluargtrp

610615620

glnglnphegluthrphevalleuthrasnlysglnpheserlyslys

625630635640

lysargaspargleuleuargleuhistyraspgluasnglugluasn

645650655

gluphelysasnargasnleuasnaspthrargtyrileserargphe

660665670

leualaasnpheilearggluhisleulysphealaaspseraspasp

675680685

lysglnlysvaltyrthrvalasnglyargilethralahisleuarg

690695700

serargtrpasnpheasnlysasnargglugluserasnleuhishis

705710715720

alavalaspalaalailevalalacysthrthrproseraspileala

725730735

argvalthralaphetyrglnargarggluglnasnlysgluleuser

740745750

lyslysthraspproglnpheproglnprotrpprohisphealaasp

755760765

gluleuglnalaargleuserlysasnprolysgluserilelysala

770775780

leuasnleuglyasntyraspasnglulysleugluserleuglnpro

785790795800

valphevalserargmetprolysargserilethrglyalaalahis

805810815

glngluthrleuargargtyrileglyileaspgluargserglylys

820825830

ileglnthrvalvallyslyslysleusergluileglnleuasplys

835840845

thrglyhisphepromettyrglylysgluseraspproargthrtyr

850855860

glualaileargglnargleuleugluhisasnasnaspprolyslys

865870875880

alapheglngluproleutyrlysprolyslysasnglygluleugly

885890895

proileileargthrilelysileileaspthrthrasnglnvalile

900905910

proleuasnaspglylysthrvalalatyrasnserasnilevalarg

915920925

valaspvalpheglulysaspglylystyrtyrcysvalproiletyr

930935940

thrileaspmetmetlysglyileleuproasnlysalaileglupro

945950955960

asnlysprotyrserglutrplysglumetthrgluasptyrthrphe

965970975

argpheserleutyrproasnaspleuileargileglupheproarg

980985990

glulysthrilelysthralavalglyglugluilelysilelysasp

99510001005

leuphealatyrtyrglnthrileaspserserasnglyglyleu

101010151020

serleuvalserhisaspasnasnpheserleuargserilegly

102510301035

serargthrleulysargpheglulystyrglnvalaspvalleu

104010451050

glyasniletyrlysvalargglyglulysargvalglyvalala

105510601065

serserserhisserlysalaglygluthrileargproleu

107010751080

<210>2

<211>8

<212>prt

<213>热脱氮地芽孢杆菌t12

<400>2

glulysaspglylystyrtyrcys

15

<210>3

<211>6

<212>prt

<213>人工序列

<220>

<223>来自cas9的氨基酸基序

<220>

<221>x

<222>(1)..(1)

<223>异亮氨酸、甲硫氨酸或脯氨酸

<220>

<221>x

<222>(2)..(2)

<223>缬氨酸、丝氨酸、天冬酰胺或异亮氨酸

<220>

<221>x

<222>(5)..(5)

<223>谷氨酸或赖氨酸

<220>

<221>x

<222>(6)..(6)

<223>丙氨酸、谷氨酸或精氨酸

<400>3

xaaxaacysthrxaaxaa

15

<210>4

<211>6

<212>prt

<213>人工序列

<220>

<223>来自热脱氮地芽孢杆菌t12cas9的氨基酸基序

<220>

<221>x

<222>(1)..(1)

<223>甲硫氨酸或苯丙氨酸

<220>

<221>x

<222>(4)..(4)

<223>组氨酸或天冬酰胺

<400>4

xaaleulysxaaileglu

15

<210>5

<211>6

<212>prt

<213>人工序列

<220>

<223>来自热脱氮地芽孢杆菌t12的氨基酸基序

<220>

<221>x

<222>(1)..(1)

<223>谷氨酸或异亮氨酸

<220>

<221>x

<222>(5)..(5)

<223>色氨酸、丝氨酸或赖氨酸

<400>5

xaavaltyrserxaalys

15

<210>6

<211>12

<212>prt

<213>人工序列

<220>

<223>来自嗜热cas9的氨基酸基序

<220>

<221>x

<222>(1)..(1)

<223>丙氨酸或谷氨酸

<220>

<221>x

<222>(4)..(4)

<223>谷氨酰胺或赖氨酸

<220>

<221>x

<222>(5)..(5)

<223>精氨酸或丙氨酸

<220>

<221>x

<222>(9)..(9)

<223>天冬酰胺或丙氨酸

<220>

<221>x

<222>(12)..(12)

<223>赖氨酸或丝氨酸

<400>6

xaaphetyrxaaxaaarggluglnxaalysgluxaa

1510

<210>7

<211>3249

<212>dna

<213>热脱氮地芽孢杆菌t12

<400>7

atgaagtataaaatcggtcttgatatcggcattacgtctatcggttgggctgtcattaat60

ttggacattcctcgcatcgaagatttaggtgtccgcatttttgacagagcggaaaacccg120

aaaaccggggagtcactagctcttccacgtcgcctcgcccgctccgcccgacgtcgtctg180

cggcgtcgcaaacatcgactggagcgcattcgccgcctgttcgtccgcgaaggaatttta240

acgaaggaagagctgaacaagctgtttgaaaaaaagcacgaaatcgacgtctggcagctt300

cgtgttgaagcactggatcgaaaactaaataacgatgaattagcccgcatccttcttcat360

ctggctaaacggcgtggatttagatccaaccgcaagagtgagcgcaccaacaaagaaaac420

agtacgatgctcaaacatattgaagaaaaccaatccattctttcaagttaccgaacggtt480

gcagaaatggttgtcaaggatccgaaattttccctgcacaagcgtaataaagaggataat540

tacaccaacactgttgcccgcgacgatcttgaacgggaaatcaaactgattttcgccaaa600

cagcgcgaatatgggaacatcgtttgcacagaagcatttgaacacgagtatatttccatt660

tgggcatcgcaacgcccttttgcttctaaggatgatatcgagaaaaaagtcggtttctgt720

acgtttgagcctaaagaaaaacgcgcgccaaaagcaacatacacattccagtccttcacc780

gtctgggaacatattaacaaacttcgtcttgtctccccgggaggcatccgggcactaacc840

gatgatgaacgtcgtcttatatacaagcaagcatttcataaaaataaaatcaccttccat900

gatgttcgaacattgcttaacttgcctgacgacacccgttttaaaggtcttttatatgac960

cgaaacaccacgctgaaggaaaatgagaaagttcgcttccttgaactcggcgcctatcat1020

aaaatacggaaagcgatcgacagcgtctatggcaaaggagcagcaaaatcatttcgtccg1080

attgattttgatacatttggctacgcattaacgatgtttaaagacgacaccgacattcgc1140

agttacttgcgaaacgaatacgaacaaaatggaaaacgaatggaaaatctagcggataaa1200

gtctatgatgaagaattgattgaagaacttttaaacttatcgttttctaagtttggtcat1260

ctatcccttaaagcgcttcgcaacatccttccatatatggaacaaggcgaagtctactca1320

accgcttgtgaacgagcaggatatacatttacagggccaaagaaaaaacagaaaacggta1380

ttgctgccgaacattccgccgatcgccaatccggtcgtcatgcgcgcactgacacaggca1440

cgcaaagtggtcaatgccattatcaaaaagtacggctcaccggtctccatccatatcgaa1500

ctggcccgggaactatcacaatcctttgatgaacgacgtaaaatgcagaaagaacaggaa1560

ggaaaccgaaagaaaaacgaaactgccattcgccaacttgttgaatatgggctgacgctc1620

aatccaactgggcttgacattgtgaaattcaaactatggagcgaacaaaacggaaaatgt1680

gcctattcactccaaccgatcgaaatcgagcggttgctcgaaccaggctatacagaagtc1740

gaccatgtgattccatacagccgaagcttggacgatagctataccaataaagttcttgtg1800

ttgacaaaggagaaccgtgaaaaaggaaaccgcaccccagctgaatatttaggattaggc1860

tcagaacgttggcaacagttcgagacgtttgtcttgacaaataagcagttttcgaaaaag1920

aagcgggatcgactccttcggcttcattacgatgaaaacgaagaaaatgagtttaaaaat1980

cgtaatctaaatgatacccgttatatctcacgcttcttggctaactttattcgcgaacat2040

ctcaaattcgccgacagcgatgacaaacaaaaagtatacacggtcaacggccgtattacc2100

gcccatttacgcagccgttggaattttaacaaaaaccgggaagaatcgaatttgcatcat2160

gccgtcgatgctgccatcgtcgcctgcacaacgccgagcgatatcgcccgagtcaccgcc2220

ttctatcaacggcgcgaacaaaacaaagaactgtccaaaaagacggatccgcagtttccg2280

cagccttggccgcactttgctgatgaactgcaggcgcgtttatcaaaaaatccaaaggag2340

agtataaaagctctcaatcttggaaattatgataacgagaaactcgaatcgttgcagccg2400

gtttttgtctcccgaatgccgaagcggagcataacaggagcggctcatcaagaaacattg2460

cggcgttatatcggcatcgacgaacggagcggaaaaatacagacggtcgtcaaaaagaaa2520

ctatccgagatccaactggataaaacaggtcatttcccaatgtacgggaaagaaagcgat2580

ccaaggacatatgaagccattcgccaacggttgcttgaacataacaatgacccaaaaaag2640

gcgtttcaagagcctctgtataaaccgaagaagaacggagaactaggtcctatcatccga2700

acaatcaaaatcatcgatacgacaaatcaagttattccgctcaacgatggcaaaacagtc2760

gcctacaacagcaacatcgtgcgggtcgacgtctttgagaaagatggcaaatattattgt2820

gtccctatctatacaatagatatgatgaaagggatcttgccaaacaaggcgatcgagccg2880

aacaaaccgtactctgagtggaaggaaatgacggaggactatacattccgattcagtcta2940

tacccaaatgatcttatccgtatcgaatttccccgagaaaaaacaataaagactgctgtg3000

ggggaagaaatcaaaattaaggatctgttcgcctattatcaaaccatcgactcctccaat3060

ggagggttaagtttggttagccatgataacaacttttcgctccgcagcatcggttcaaga3120

accctcaaacgattcgagaaataccaagtagatgtgctaggcaacatctacaaagtgaga3180

ggggaaaagagagttggggtggcgtcatcttctcattcgaaagccggggaaactatccgt3240

ccgttataa3249

<210>8

<211>1045

<212>prt

<213>内氏放线菌(actinomycesnaeslundii)

<400>8

mettrptyralaserleumetseralahishisleuargvalglyile

151015

aspvalglythrhisservalglyleualathrleuargvalaspasp

202530

hisglythrproilegluleuleuseralaleuserhisilehisasp

354045

serglyvalglylysgluglylyslysasphisaspthrarglyslys

505560

leuserglyilealaargargalaargargleuleuhishisargarg

65707580

thrglnleuglnglnleuaspgluvalleuargaspleuglyphepro

859095

ileprothrproglyglupheleuaspleuasngluglnthrasppro

100105110

tyrargvaltrpargvalargalaargleuvalgluglulysleupro

115120125

glugluleuargglyproalailesermetalavalarghisileala

130135140

arghisargglytrpargasnprotyrserlysvalgluserleuleu

145150155160

serproalaasnalaasngluilearglysilecysalaargglngly

165170175

valserproaspvalcyslysglnleuleuargalavalphelysala

180185190

aspserproargglyseralavalserargvalalaproaspproleu

195200205

proglyglnglyserpheargargalaprolyscysaspprogluphe

210215220

glnargpheargileileserilevalalaasnleuargileserglu

225230235240

thrlysglygluasnargproleuthralaaspgluargarghisval

245250255

valthrpheleuthrgluaspserglnalaaspleuthrtrpvalasp

260265270

valalaglulysleuglyvalhisargargaspleuargglythrala

275280285

valhisthraspaspglygluargseralaalaargproproileasp

290295300

alathraspargilemetargglnthrlysileserserleulysthr

305310315320

trptrpgluglualaaspsergluglnargglyalametileargtyr

325330335

leutyrgluaspprothraspserglucysalagluileilealaglu

340345350

leuproglugluaspglnalalysleuaspserleuhisleuproala

355360365

glyargalaalatyrserarggluserleuthralaleuserasphis

370375380

metleualathrthraspaspleuhisglualaarglysargleuphe

385390395400

glyvalaspaspsertrpalaproproalaglualaileasnalapro

405410415

valglyasnproservalaspargthrleulysilevalglyargtyr

420425430

leuseralavalglusermettrpglythrprogluvalilehisval

435440445

gluhisvalargaspglyphethrsergluargmetalaaspgluarg

450455460

asplysalaasnargargargtyrasnaspasnglnglualametlys

465470475480

lysileglnargasptyrglylysgluglytyrileserargglyasp

485490495

ilevalargleuaspalaleugluleuglnglycysalacysleutyr

500505510

cysglythrthrileglytyrhisthrcysglnleuasphisileval

515520525

proglnalaglyproglyserasnasnargargglyasnleuvalala

530535540

valcysgluargcysasnargserlysserasnthrprophealaval

545550555560

trpalaglnlyscysglyileprohisvalglyvallysglualaile

565570575

glyargvalargglytrparglysglnthrproasnthrserserglu

580585590

aspleuthrargleulyslysgluvalilealaargleuargargthr

595600605

glngluaspprogluileaspgluargsermetgluservalalatrp

610615620

metalaasngluleuhishisargilealaalaalatyrprogluthr

625630635640

thrvalmetvaltyrargglyserilethralaalaalaarglysala

645650655

alaglyileaspserargileasnleuileglyglulysglyarglys

660665670

aspargileaspargarghishisalavalaspalaservalvalala

675680685

leumetglualaservalalalysthrleualagluargserserleu

690695700

argglygluglnargleuthrglylysgluglnthrtrplysglntyr

705710715720

thrglyserthrvalglyalaarggluhispheglumettrparggly

725730735

hismetleuhisleuthrgluleupheasngluargleualagluasp

740745750

lysvaltyrvalthrglnasnileargleuargleuseraspglyasn

755760765

alahisthrvalasnproserlysleuvalserhisargleuglyasp

770775780

glyleuthrvalglnglnileaspargalacysthrproalaleutrp

785790795800

cysalaleuthrargglulysasppheaspglulysasnglyleupro

805810815

alaarggluaspargalaileargvalhisglyhisgluilelysser

820825830

serasptyrileglnvalpheserlysarglyslysthraspserasp

835840845

argaspgluthrpropheglyalailealavalargglyglypheval

850855860

gluileglyproserilehishisalaargiletyrargvalglugly

865870875880

lyslysprovaltyralametleuargvalphethrhisaspleuleu

885890895

serglnarghisglyaspleupheseralavalileproproglnser

900905910

ilesermetargcysalagluprolysleuarglysalailethrthr

915920925

glyasnalathrtyrleuglytrpvalvalvalglyaspgluleuglu

930935940

ileasnvalaspserphethrlystyralaileglyargpheleuglu

945950955960

asppheproasnthrthrargtrpargilecysglytyraspthrasn

965970975

serlysleuthrleulysproilevalleualaalagluglyleuglu

980985990

asnproserseralavalasngluilevalgluleulysglytrparg

99510001005

valalaileasnvalleuthrlysvalhisprothrvalvalarg

101010151020

argaspalaleuglyargproargtyrserserargserasnleu

102510301035

prothrsertrpthrileglu

10401045

<210>9

<211>1160

<212>prt

<213>酿脓链球菌(streptococcuspyogenes)

<400>9

metasplyslystyrserileglyleuaspileglythrasnserval

151015

glytrpalavalilethraspglutyrlysvalproserlyslysphe

202530

lysvalleuglyasnthrasparghisserilelyslysasnleuile

354045

glyalaleuleupheaspserglygluthralaglualathrargleu

505560

lysargthralaargargargtyrthrargarglysasnargilecys

65707580

tyrleuglngluilepheserasnglumetalalysvalaspaspser

859095

phephehisargleuglugluserpheleuvalglugluasplyslys

100105110

hisgluarghisproilepheglyasnilevalaspgluvalalatyr

115120125

hisglulystyrprothriletyrhisleuarglyslysleuvalasp

130135140

serthrasplysalaaspleuargleuiletyrleualaleualahis

145150155160

metilelyspheargglyhispheleuilegluglyaspleuasnpro

165170175

aspasnseraspvalasplysleupheileglnleuvalglnthrarg

180185190

lysglnargthrpheaspasnglyserileprohisglnilehisleu

195200205

glygluleuhisalaileleuargargglngluaspphetyrprophe

210215220

leulysaspasnargglulysileglulysileleuthrpheargile

225230235240

protyrtyrvalglyproleualaargglyasnserargphealatrp

245250255

metthrarglysserglugluthrilethrprotrpasnphegluglu

260265270

valvalasplysglyalaseralaglnserpheilegluargmetthr

275280285

asnpheasplysasnleuproasnglulysvalleuprolyshisser

290295300

leuleutyrglutyrphethrvaltyrasngluleuthrlysvallys

305310315320

tyrvalthrgluglymetarglysproalapheleuserglyglugln

325330335

lyslysalailevalaspleuleuphelysthrasnarglysvalthr

340345350

vallysglnleulysgluasptyrphelyslysileglucyspheasp

355360365

servalgluileserglyvalgluaspargpheasnalaserleugly

370375380

thrtyrhisaspleuleulysileilelysasplysasppheleuasp

385390395400

asnglugluasngluaspileleugluaspilevalleuthrleuthr

405410415

leuphegluaspargglumetileglugluargleulysthrtyrala

420425430

hisleupheaspasplysvalmetlysglnleulysargargargtyr

435440445

thrglytrpglyargleuserarglysleuileasnglyileargasp

450455460

lysglnserglylysthrileleuasppheleulysseraspglyphe

465470475480

alaasnargasnphemetglnleuilehisaspaspserleuthrphe

485490495

lysgluaspileglnlysalaglnvalserglyglnglyaspserleu

500505510

hisgluhisilealaasnleualaglyserproalailelyslysgly

515520525

ileleuglnthrvallysvalvalaspgluleuvallysvalmetgly

530535540

arghislysprogluasnilevalileglumetalaarggluasngln

545550555560

thrthrglnlysglyglnlysasnserarggluargmetlysargile

565570575

glugluglyilelysgluleuglyserglnileleulysgluhispro

580585590

valgluasnthrglnleuglnasnglulysleutyrleutyrtyrleu

595600605

glnasnglyargaspmettyrvalaspglngluleuaspileasnarg

610615620

leuserasptyraspvalasphisilevalproglnserpheleulys

625630635640

aspaspserileaspasnlysvalleuthrargserasplysasnarg

645650655

glylysseraspasnvalproserglugluvalvallyslysmetlys

660665670

asntyrtrpargglnleuleuasnalalysleuilethrglnarglys

675680685

pheaspasnleuthrlysalagluargglyglyleusergluleuasp

690695700

lysalaglypheilelysargglnleuvalgluthrargglnilethr

705710715720

lyshisvalalaglnileleuaspserargmetasnthrlystyrasp

725730735

gluasnasplysleuilearggluvallysvalilethrleulysser

740745750

lysleuvalseraspphearglysasppheglnphetyrlysvalarg

755760765

gluileasnasntyrhishisalahisaspalatyrleuasnalaval

770775780

valglythralaleuilelyslystyrprolysleuglusergluphe

785790795800

valtyrglyasptyrlysvaltyraspvalarglysmetilealalys

805810815

sergluglngluileglylysalathralalystyrphephetyrser

820825830

asnilemetasnphephelysthrgluilethrleualaasnglyglu

835840845

ilearglysargproleuilegluthrasnglygluthrglygluile

850855860

valtrpasplysglyargaspphealathrvalarglysvalleuser

865870875880

metproglnvalasnilevallyslysthrgluvalglnthrglygly

885890895

pheserlysgluserileleuprolysargasnserasplysleuile

900905910

alaarglyslysasptrpaspprolyslystyrglyglypheaspser

915920925

prothrvalalatyrservalleuvalvalalalysvalglulysgly

930935940

lysserlyslysleulysservallysgluleuleuglyilethrile

945950955960

metgluargserserpheglulysasnproileasppheleugluala

965970975

lysglytyrlysgluvallyslysaspleuileilelysleuprolys

980985990

tyrserleuphegluleugluasnglyarglysargmetleualaser

99510001005

alaglygluleuglnlysglyasngluleualaleuproserlys

101010151020

tyrvalasnpheleutyrleualaserhistyrglulysleulys

102510301035

glyserprogluaspasngluglnlysglnleuphevalglugln

104010451050

hislyshistyrleuaspgluileilegluglnilesergluphe

105510601065

serlysargvalileleualaaspalaasnleuasplysvalleu

107010751080

seralatyrasnlyshisargasplysproilearggluglnala

108510901095

gluasnileilehisleuphethrleuthrasnleuglyalapro

110011051110

alaalaphelystyrpheaspthrthrileasparglysargtyr

111511201125

thrserthrlysgluvalleuaspalathrleuilehisglnser

113011351140

ilethrglyleutyrgluthrargileaspleuserglnleugly

114511501155

glyasp

1160

<210>10

<211>8

<212>dna

<213>人工序列

<220>

<223>pam

<220>

<221>misc_feature

<222>(7)..(7)

<223>n是a、c、g或t

<400>10

ccccccna8

<210>11

<211>8

<212>dna

<213>人工序列

<220>

<223>pam

<400>11

ccccccaa8

<210>12

<211>5

<212>dna

<213>人工序列

<220>

<223>pam

<400>12

ccccc5

<210>13

<211>8

<212>dna

<213>人工序列

<220>

<223>pam

<220>

<221>misc_feature

<222>(6)..(7)

<223>n是a、c、g或t

<400>13

cccccnna8

<210>14

<211>6

<212>dna

<213>人工序列

<220>

<223>pam

<400>14

cccccc6

<210>15

<211>6

<212>dna

<213>人工序列

<220>

<223>pam

<220>

<221>misc_feature

<222>(1)..(1)

<223>n是a、c、g或t

<400>15

nccccc6

<210>16

<211>8

<212>dna

<213>人工序列

<220>

<223>pam

<220>

<221>misc_feature

<222>(1)..(1)

<223>n是a、c、g或t

<220>

<221>misc_feature

<222>(7)..(7)

<223>n是a、c、g或t

<400>16

ncccccna8

<210>17

<211>8

<212>dna

<213>人工序列

<220>

<223>pam

<220>

<221>misc_feature

<222>(2)..(2)

<223>n是a、c、g或t

<400>17

cnccccac8

<210>18

<211>8

<212>dna

<213>人工序列

<220>

<223>pam

<400>18

ccccccag8

<210>19

<211>8

<212>dna

<213>人工序列

<220>

<223>pam

<400>19

ccccccat8

<210>20

<211>8

<212>dna

<213>人工序列

<220>

<223>pam

<400>20

ccccccac8

<210>21

<211>8

<212>dna

<213>人工序列

<220>

<223>pam

<400>21

atccccaa8

<210>22

<211>8

<212>dna

<213>人工序列

<220>

<223>pam

<400>22

acggccaa8

<210>23

<211>11

<212>prt

<213>人工序列

<220>

<223>ruvc-1结构域基序

<400>23

ileglyleuaspileglyilethrserilegly

1510

<210>24

<211>18

<212>prt

<213>人工序列

<220>

<223>ruvc-i结构域基序

<400>24

ileglyleuaspileglyilethrserileglytrpalavalileasn

151015

leuasp

<210>25

<211>5

<212>prt

<213>人工序列

<220>

<223>桥结构域基序

<400>25

argseralaargarg

15

<210>26

<211>25

<212>prt

<213>人工序列

<220>

<223>桥结构域基序

<400>26

proargargleualaargseralaargargargleuargargarglys

151015

hisargleugluargileargargleu

2025

<210>27

<211>4

<212>prt

<213>人工序列

<220>

<223>α螺旋/识别叶结构域基序

<400>27

trpglnleuarg

1

<210>28

<211>7

<212>prt

<213>人工序列

<220>

<223>α螺旋/识别叶结构域

<400>28

hisleualalysargarggly

15

<210>29

<211>13

<212>prt

<213>人工序列

<220>

<223>α螺旋/识别叶结构域

<400>29

leualaargileleuleuhisleualalysargarggly

1510

<210>30

<211>5

<212>prt

<213>人工序列

<220>

<223>α螺旋/识别叶结构域

<400>30

ilephealalysgln

15

<210>31

<211>9

<212>prt

<213>人工序列

<220>

<223>α螺旋/识别叶结构域

<400>31

gluilelysleuilephealalysgln

15

<210>32

<211>6

<212>prt

<213>人工序列

<220>

<223>α螺旋/识别叶结构域

<400>32

iletrpalaserglnarg

15

<210>33

<211>16

<212>prt

<213>人工序列

<220>

<223>α螺旋/识别叶结构域基序

<400>33

lysvalglyphecysthrphegluprolysglulysargalaprolys

151015

<210>34

<211>12

<212>prt

<213>人工序列

<220>

<223>α螺旋/识别叶结构域基序

<400>34

phethrvaltrpgluhisileasnlysleuargleu

1510

<210>35

<211>12

<212>prt

<213>人工序列

<220>

<223>ruvc-ii结构域基序

<400>35

ilealaasnprovalvalmetargalaleuthrgln

1510

<210>36

<211>25

<212>prt

<213>人工序列

<220>

<223>ruvc-ii结构域基序

<400>36

ilealaasnprovalvalmetargalaleuthrglnalaarglysval

151015

valasnalaileilelyslystyrgly

2025

<210>37

<211>4

<212>prt

<213>人工序列

<220>

<223>ruvc-ii结构域基序

<400>37

gluleualaarg

1

<210>38

<211>8

<212>prt

<213>人工序列

<220>

<223>ruvc-ii结构域基序

<400>38

ilehisilegluleualaargglu

15

<210>39

<211>7

<212>prt

<213>人工序列

<220>

<223>hnh结构域基序

<400>39

glnasnglylyscysalatyr

15

<210>40

<211>16

<212>prt

<213>人工序列

<220>

<223>hnh结构域基序

<400>40

ilevallysphelysleutrpsergluglnasnglylyscysalatyr

151015

<210>41

<211>6

<212>prt

<213>人工序列

<220>

<223>hnh结构域基序

<400>41

valasphisvalilepro

15

<210>42

<211>20

<212>prt

<213>人工序列

<220>

<223>hnh结构域基序

<400>42

valasphisvalileprotyrserargserleuaspaspsertyrthr

151015

asnlysvalleu

20

<210>43

<211>11

<212>prt

<213>人工序列

<220>

<223>ruvc-iii结构域基序

<400>43

aspthrargtyrileserargpheleualaasn

1510

<210>44

<211>16

<212>prt

<213>人工序列

<220>

<223>ruvc-iii结构域基序

<400>44

valtyrthrvalasnglyargilethralahisleuargserargtrp

151015

<210>45

<211>6

<212>prt

<213>人工序列

<220>

<223>ruvc-iii结构域基序

<400>45

hishisalavalaspala

15

<210>46

<211>10

<212>prt

<213>人工序列

<220>

<223>ruvc-iii结构域基序

<400>46

hishisalavalaspalaalailevalala

1510

<210>47

<211>8

<212>dna

<213>人工序列

<220>

<223>pam

<220>

<221>misc_feature

<222>(1)..(4)

<223>n是a、c、g或t

<220>

<221>misc_feature

<222>(6)..(7)

<223>n是a、c、g或t

<400>47

nnnncnna8

<210>48

<211>8

<212>dna

<213>人工序列

<220>

<223>pam

<220>

<221>misc_feature

<222>(1)..(4)

<223>n是a、c、g或t

<400>48

nnnncvaa8

<210>49

<211>8

<212>dna

<213>人工序列

<220>

<223>pam

<220>

<221>misc_feature

<222>(1)..(4)

<223>n是a、c、g或t

<400>49

nnnncsaa8

<210>50

<211>8

<212>dna

<213>人工序列

<220>

<223>pam

<220>

<221>misc_feature

<222>(1)..(4)

<223>n是a、c、g或t

<400>50

nnnncgaa8

<210>51

<211>8

<212>dna

<213>人工序列

<220>

<223>pam

<220>

<221>misc_feature

<222>(1)..(4)

<223>n是a、c、g或t

<400>51

nnnnccaa8

<210>52

<211>8

<212>dna

<213>人工序列

<220>

<223>pam

<220>

<221>misc_feature

<222>(1)..(4)

<223>n是a、c、g或t

<220>

<221>misc_feature

<222>(6)..(6)

<223>n是a、c、g或t

<400>52

nnnncnaa8

<210>53

<211>8

<212>dna

<213>人工序列

<220>

<223>pam

<220>

<221>misc_feature

<222>(1)..(4)

<223>n是a、c、g或t

<400>53

nnnncmca8

<210>54

<211>30

<212>rna

<213>人工序列

<220>

<223>tracrrna5'发夹

<400>54

aagggcuuucugccuauaggcagacugccc30

<210>55

<211>25

<212>rna

<213>人工序列

<220>

<223>tracrrna'中间'发夹

<400>55

guggcguuggggaucgccuaucgcc25

<210>56

<211>36

<212>rna

<213>人工序列

<220>

<223>tracrrna3'发夹

<400>56

cgcuuucuucgggcauuccccacucuuaggcguuuu36

<210>57

<211>55

<212>rna

<213>人工序列

<220>

<223>tracrrna5'发夹和中间发夹

<400>57

aagggcuuucugccuauaggcagacugcccguggcguuggggaucgccuaucgcc55

<210>58

<211>91

<212>rna

<213>人工序列

<220>

<223>tracrrna5'发夹、中间发夹和3'发夹。

<400>58

aagggcuuucugccuauaggcagacugcccguggcguuggggaucgccuaucgcccgcuu60

ucuucgggcauuccccacucuuaggcguuuu91

<210>59

<211>81

<212>dna

<213>人工序列

<220>

<223>bg6494

<220>

<221>misc_feature

<222>(35)..(41)

<223>n是a、c、g或t

<400>59

tatgcctcatgagattatcaaaaaggatcttcacnnnnnnnctagatccttttaaattaa60

aaatgaagttttaaatcaatc81

<210>60

<211>81

<212>dna

<213>人工序列

<220>

<223>bg6495

<400>60

tatgccggatcctcagaccaagtttactcatatatactttagattgatttaaaacttcat60

ttttaatttaaaaggatctag81

<210>61

<211>34

<212>dna

<213>人工序列

<220>

<223>bg7356

<400>61

tcgtcggcagcgtcagatgtgtataagagacagt34

<210>62

<211>33

<212>dna

<213>人工序列

<220>

<223>bg7357

<400>62

ctgtctcttatacacatctgacgctgccgacga33

<210>63

<211>16

<212>dna

<213>人工序列

<220>

<223>bg7358

<400>63

tcgtcggcagcgtcag16

<210>64

<211>53

<212>dna

<213>人工序列

<220>

<223>bg7359

<400>64

gtctcgtgggctcggagatgtgtataagagacaggaccatgattacgccaagc53

<210>65

<211>61

<212>dna

<213>人工序列

<220>

<223>bg7616

<400>65

tcgtcggcagcgtcagatgtgtataagagacagggtcatgagattatcaaaaaggatctt60

c61

<210>66

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8157

<400>66

tatgcctcatgagattatcaaaaaggatcttcacccccccagctagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>67

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8158

<400>67

tatgcctcatgagattatcaaaaaggatcttcacccccccaactagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>68

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8159

<400>68

tatgcctcatgagattatcaaaaaggatcttcacccccccatctagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>69

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8160

<400>69

tatgcctcatgagattatcaaaaaggatcttcacccccccacctagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>70

<211>81

<212>dna

<213>人工序列

<220>

<223>bg8161

<220>

<221>misc_feature

<222>(35)..(38)

<223>n是a、c、g或t

<220>

<221>misc_feature

<222>(40)..(41)

<223>n是a、c、g或t

<400>70

tatgcctcatgagattatcaaaaaggatcttcacnnnntnnctagatccttttaaattaa60

aaatgaagttttaaatcaatc81

<210>71

<211>20

<212>dna

<213>人工序列

<220>

<223>bg8363

<400>71

acggttatccacagaatcag20

<210>72

<211>22

<212>dna

<213>人工序列

<220>

<223>bg8364

<400>72

cgggattgacttttaaaaaagg22

<210>73

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8763

<400>73

tatgcctcatgagattatcaaaaaggatcttcaccccccaaactagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>74

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8764

<400>74

tatgcctcatgagattatcaaaaaggatcttcaccccccatactagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>75

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8765

<400>75

tatgcctcatgagattatcaaaaaggatcttcaccccccagactagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>76

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8766

<400>76

tatgcctcatgagattatcaaaaaggatcttcaccccccacactagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>77

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8767

<400>77

tatgcctcatgagattatcaaaaaggatcttcacccccctaactagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>78

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8768

<400>78

tatgcctcatgagattatcaaaaaggatcttcaccccccttactagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>79

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8769

<400>79

tatgcctcatgagattatcaaaaaggatcttcacccccctgactagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>80

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8770

<400>80

tatgcctcatgagattatcaaaaaggatcttcacccccctcactagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>81

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8771

<400>81

tatgcctcatgagattatcaaaaaggatcttcaccccccgaactagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>82

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8772

<400>82

tatgcctcatgagattatcaaaaaggatcttcaccccccgtactagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>83

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8773

<400>83

tatgcctcatgagattatcaaaaaggatcttcaccccccggactagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>84

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8774

<400>84

tatgcctcatgagattatcaaaaaggatcttcaccccccgcactagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>85

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8775

<400>85

tatgcctcatgagattatcaaaaaggatcttcacccccccaactagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>86

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8776

<400>86

tatgcctcatgagattatcaaaaaggatcttcaccccccctactagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>87

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8777

<400>87

tatgcctcatgagattatcaaaaaggatcttcacccccccgactagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>88

<211>82

<212>dna

<213>人工序列

<220>

<223>bg8778

<400>88

tatgcctcatgagattatcaaaaaggatcttcaccccccccactagatccttttaaatta60

aaaatgaagttttaaatcaatc82

<210>89

<211>29

<212>dna

<213>人工序列

<220>

<223>bg6574

<400>89

aagcttgaaataatacgactcactatagg29

<210>90

<211>22

<212>dna

<213>人工序列

<220>

<223>bg6576

<400>90

aaaaaagaccttgacgttttcc22

<210>91

<211>57

<212>dna

<213>人工序列

<220>

<223>bg9307

<400>91

aagcttgaaataatacgactcactataggtgagattatcaaaaaggatcttcacgtc57

<210>92

<211>23

<212>dna

<213>人工序列

<220>

<223>bg9309

<400>92

aaaacgcctaagagtggggaatg23

<210>93

<211>19

<212>dna

<213>人工序列

<220>

<223>bg9310

<400>93

aaaaggcgataggcgatcc19

<210>94

<211>23

<212>dna

<213>人工序列

<220>

<223>bg9311

<400>94

aaaacgggtcagtctgcctatag23

<210>95

<211>57

<212>dna

<213>人工序列

<220>

<223>bg9308

<400>95

aagcttgaaataatacgactcactataggtgagattatcaaaaaggatcttcacgtc57

<210>96

<211>56

<212>dna

<213>人工序列

<220>

<223>bg10118

<400>96

aagcttgaaataatacgactcactataggagattatcaaaaaggatcttcacgtca56

<210>97

<211>60

<212>dna

<213>人工序列

<220>

<223>bg10119

<400>97

aagcttgaaataatacgactcactataggaagattatcaaaaaggatcttcacgtcatag60

<210>98

<211>58

<212>dna

<213>人工序列

<220>

<223>bg10120

<400>98

aagcttgaaataatacgactcactataggattatcaaaaaggatcttcacgtcatagt58

<210>99

<211>60

<212>dna

<213>人工序列

<220>

<223>bg10121

<400>99

aagcttgaaataatacgactcactataggaattatcaaaaaggatcttcacgtcatagtt60

<210>100

<211>58

<212>dna

<213>人工序列

<220>

<223>bg10122

<400>100

aagcttgaaataatacgactcactataggttatcaaaaaggatcttcacgtcatagtt58

<210>101

<211>58

<212>dna

<213>人工序列

<220>

<223>bg10123

<400>101

aagcttgaaataatacgactcactataggtatcaaaaaggatcttcacgtcatagttc58

<210>102

<211>57

<212>dna

<213>人工序列

<220>

<223>bg10124

<400>102

aagcttgaaataatacgactcactataggatcaaaaaggatcttcacgtcatagttc57

<210>103

<211>51

<212>dna

<213>人工序列

<220>

<223>bg9312

<400>103

aaaacgcctaagagtggggaatgcccgaagaaagcgggcgataggcgatcc51

<210>104

<211>21

<212>dna

<213>人工序列

<220>

<223>bg8191

<400>104

aagcttggcgtaatcatggtc21

<210>105

<211>20

<212>dna

<213>人工序列

<220>

<223>bg8192

<400>105

tcatgagttcccatgttgtg20

<210>106

<211>48

<212>dna

<213>人工序列

<220>

<223>bg8194

<400>106

tatggcgaatcacaacatgggaactcatgagaacatcctctttcttag48

<210>107

<211>50

<212>dna

<213>人工序列

<220>

<223>bg8195

<400>107

gccgatatcaagaccgattttatacttcatttaagttacctcctcgattg50

<210>108

<211>22

<212>dna

<213>人工序列

<220>

<223>bg8196

<400>108

atgaagtataaaatcggtcttg22

<210>109

<211>18

<212>dna

<213>人工序列

<220>

<223>bg8197

<400>109

taacggacggatagtttc18

<210>110

<211>55

<212>dna

<213>人工序列

<220>

<223>bg8198

<400>110

gaaagccggggaaactatccgtccgttataaatcagacaaaatggcctgcttatg55

<210>111

<211>60

<212>dna

<213>人工序列

<220>

<223>bg8263

<400>111

gaactatgacactttattttcagaatggacgtataacggtatccattttaagaataatcc60

<210>112

<211>49

<212>dna

<213>人工序列

<220>

<223>bg8268

<400>112

accgttatacgtccattctgaaaataaagtgtcatagttcccctgagat49

<210>113

<211>48

<212>dna

<213>人工序列

<220>

<223>bg8210

<400>113

aacagctatgaccatgattacgccaagcttccctcccatgcacaatag48

<210>114

<211>60

<212>dna

<213>人工序列

<220>

<223>bg8261

<400>114

gaactatgacatcatggagttttaaatccagtataacggtatccattttaagaataatcc60

<210>115

<211>49

<212>dna

<213>人工序列

<220>

<223>bg8266

<400>115

accgttatactggatttaaaactccatgatgtcatagttcccctgagat49

<210>116

<211>60

<212>dna

<213>人工序列

<220>

<223>bg8317

<400>116

gaactatgaccacccagcttacatcaacaagtataacggtatccattttaagaataatcc60

<210>117

<211>49

<212>dna

<213>人工序列

<220>

<223>bg8320

<400>117

accgttatacttgttgatgtaagctgggtggtcatagttcccctgagat49

<210>118

<211>20

<212>dna

<213>人工序列

<220>

<223>bg9075

<400>118

ctatcggcattacgtctatc20

<210>119

<211>19

<212>dna

<213>人工序列

<220>

<223>bg9091

<400>119

gcgtcgacttctgtatagc19

<210>120

<211>41

<212>dna

<213>人工序列

<220>

<223>bg9091

<400>120

tgaagtataaaatcggtcttgctatcggcattacgtctatc41

<210>121

<211>44

<212>dna

<213>人工序列

<220>

<223>bg9092

<400>121

caagcttcggctgtatggaatcacagcgtcgacttctgtatagc44

<210>122

<211>17

<212>dna

<213>人工序列

<220>

<223>bg9077

<400>122

gctgtgattccatacag17

<210>123

<211>41

<212>dna

<213>人工序列

<220>

<223>bg9267

<400>123

ggtgcagtaggttgcagctatgcttgtataacggtatccat41

<210>124

<211>49

<212>dna

<213>人工序列

<220>

<223>bg9263

<400>124

aagcatagctgcaacctactgcaccgtcatagttcccctgagattatcg49

<210>125

<211>22

<212>dna

<213>人工序列

<220>

<223>bg9088

<400>125

tcatgaccaaaatcccttaacg22

<210>126

<211>38

<212>dna

<213>人工序列

<220>

<223>bg9089

<400>126

ttaagggattttggtcatgagaacatcctctttcttag38

<210>127

<211>28

<212>dna

<213>人工序列

<220>

<223>bg9090

<400>127

gcaagaccgattttatacttcatttaag28

<210>128

<211>52

<212>dna

<213>人工序列

<220>

<223>bg9548

<400>128

ggatcccatgacgctagtatccagctgggtcatagttcccctgagattatcg52

<210>129

<211>63

<212>dna

<213>人工序列

<220>

<223>bg9601

<400>129

ttcaatattttttttgaataaaaaatacgatacaataaaaatgtctagaaaaagataaaa60

atg63

<210>130

<211>53

<212>dna

<213>人工序列

<220>

<223>bg9600

<400>130

ttttttattcaaaaaaaatattgaattttaaaaatgatggtgctagtatgaag53

<210>131

<211>58

<212>dna

<213>人工序列

<220>

<223>bg9549

<400>131

ccagctggatactagcgtcatgggatccgtataacggtatccattttaagaataatcc58

<210>132

<211>20

<212>dna

<213>人工序列

<220>

<223>bg8552

<400>132

tcgggggttcgtttcccttg20

<210>133

<211>22

<212>dna

<213>人工序列

<220>

<223>bg8553

<400>133

cttacacagccagtgacggaac22

<210>134

<211>20

<212>dna

<213>人工序列

<220>

<223>bg2365

<400>134

gccggcgtcccggaaaacga20

<210>135

<211>35

<212>dna

<213>人工序列

<220>

<223>bg2366

<400>135

gcaggtcgggttcctcgcatccatgcccccgaact35

<210>136

<211>50

<212>dna

<213>人工序列

<220>

<223>bg2367

<400>136

ggcttcggaatcgttttccgggacgccggcacggcattggcaaggccaag50

<210>137

<211>35

<212>dna

<213>人工序列

<220>

<223>bg2368

<400>137

gacacaggcatcggtgcagggtctcttggcaagtc35

<210>138

<211>35

<212>dna

<213>人工序列

<220>

<223>bg2369

<400>138

gccaagagaccctgcaccgatgcctgtgtcgaacc35

<210>139

<211>50

<212>dna

<213>人工序列

<220>

<223>bg2370

<400>139

cttggcggaaaacgtcaaggtcttttttacacgcgcatcaacttcaaggc50

<210>140

<211>48

<212>dna

<213>人工序列

<220>

<223>bg2371

<400>140

atgacgagctgttcaccagcagcgctattattgaagcatttatcaggg48

<210>141

<211>23

<212>dna

<213>人工序列

<220>

<223>bg2372

<400>141

gtaaaaaagaccttgacgttttc23

<210>142

<211>34

<212>dna

<213>人工序列

<220>

<223>bg2373

<400>142

tatgaagcgggccatttgaagacgaaagggcctc34

<210>143

<211>49

<212>dna

<213>人工序列

<220>

<223>bg2374

<400>143

taatagcgctgctggtgaacagctcgtcatagttcccctgagattatcg49

<210>144

<211>37

<212>dna

<213>人工序列

<220>

<223>bg2375

<400>144

tggagtcatgaacatatgaagtataaaatcggtcttg37

<210>145

<211>35

<212>dna

<213>人工序列

<220>

<223>bg2376

<400>145

ccctttcgtcttcaaatggcccgcttcataagcag35

<210>146

<211>39

<212>dna

<213>人工序列

<220>

<223>bg2377

<400>146

gattttatacttcatatgttcatgactccattattattg39

<210>147

<211>35

<212>dna

<213>人工序列

<220>

<223>bg2378

<400>147

gggggcatggatgcgaggaacccgacctgcattgg35

<210>148

<211>20

<212>dna

<213>人工序列

<220>

<223>bg2381

<400>148

acacggcggatgcacttacc20

<210>149

<211>20

<212>dna

<213>人工序列

<220>

<223>bg2382

<400>149

tggacgtgtacttcgacaac20

<210>150

<211>20

<212>dna

<213>人工序列

<220>

<223>bg2135

<400>150

acacggcggatgcacttacc20

<210>151

<211>20

<212>dna

<213>人工序列

<220>

<223>bg8196

<400>151

tggacgtgtacttcgacaac20

<210>152

<211>18

<212>dna

<213>人工序列

<220>

<223>bg8197

<400>152

taacggacggatagtttc18

<210>153

<211>31

<212>dna

<213>人工序列

<220>

<223>bg6850

<400>153

gcctcatgaatgcagcgatggtccggtgttc31

<210>154

<211>27

<212>dna

<213>人工序列

<220>

<223>bg6849

<400>154

gcctcatgagttcccatgttgtgattc27

<210>155

<211>19

<212>dna

<213>人工序列

<220>

<223>bg6769

<400>155

caatccaactgggcttgac19

<210>156

<211>20

<212>dna

<213>人工序列

<220>

<223>bg6841

<400>156

caagaactttattggtatag20

<210>157

<211>20

<212>dna

<213>人工序列

<220>

<223>bg6840

<400>157

ttgcagaaatggttgtcaag20

<210>158

<211>19

<212>dna

<213>人工序列

<220>

<223>bg9215

<400>158

gagataatgccgactgtac19

<210>159

<211>19

<212>dna

<213>人工序列

<220>

<223>bg9216

<400>159

agggctcgcctttgggaag19

<210>160

<211>17

<212>dna

<213>人工序列

<220>

<223>bg9505

<400>160

gttgccaacgttctgag17

<210>161

<211>16

<212>dna

<213>人工序列

<220>

<223>bg9506

<400>161

aatccacgccgtttag16

<210>162

<211>20

<212>dna

<213>人工序列

<220>

<223>bg8363

<400>162

acggttatccacagaatcag20

<210>163

<211>22

<212>dna

<213>人工序列

<220>

<223>bg8364

<400>163

cgggattgacttttaaaaaagg22

<210>164

<211>120

<212>dna

<213>人工序列

<220>

<223>bg9302

<400>164

aaacttcatttttaatttaaaaggatctagaaccccccgtgaagatcctttttgataatc60

tcatgaccaaaatcccttaacgtgagttttcgttccactgagcgtcagaccccgtagaaa120

<210>165

<211>120

<212>dna

<213>人工序列

<220>

<223>bg9303

<400>165

tttctacggggtctgacgctcagtggaacgaaaactcacgttaagggattttggtcatga60

gattatcaaaaaggatcttcacccccccaactagatccttttaaattaaaaatgaagttt120

<210>166

<211>120

<212>dna

<213>人工序列

<220>

<223>bg9304

<400>166

tttctacggggtctgacgctcagtggaacgaaaactcacgttaagggattttggtcatga60

gattatcaaaaaggatcttcacggggggttctagatccttttaaattaaaaatgaagttt120

<210>167

<211>43

<212>dna

<213>人工序列

<220>

<223>bg7886

<400>167

tacttccaatccaatgcaaagtataaaatcggtcttgatatcg43

<210>168

<211>50

<212>dna

<213>人工序列

<220>

<223>bg7887

<400>168

ttatccacttccaatgttattataacggacggatagtttccccggctttc50

<210>169

<211>25

<212>dna

<213>人工序列

<220>

<223>bg9665

<400>169

atgacgaaaggagtttcttattatg25

<210>170

<211>20

<212>dna

<213>人工序列

<220>

<223>bg9666

<400>170

aacggtattccgtgattaag20

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1