本发明涉及核酸编辑领域,特别是规律成簇的间隔短回文重复(crispr)。具体而言,本发明涉及grnascaffold和crispr-cas系统及其应用,包含grnascaffold和cas12f多肽,以及编码它们的核酸分子。本发明还涉及用于核酸编辑(例如,基因或基因组编辑)的复合物和组合物,其包含本发明的grna scaffold和cas12f多肽,或编码它们的核酸分子。本发明还涉及用于核酸编辑(例如,基因或基因组编辑)的方法,其使用包含本发明的grnascaffold和cas12f多肽。
背景技术:
1、在大约一半的细菌和几乎所有古核生物中,crispr(clustered regularlyinterspaced short palindromic repeats,crispr)和crispr-cas相关蛋白(crisprassociated proteins,crispr-cas)构成针对噬菌体和外源质粒入侵的适应性免疫系统,称为crispr-cas系统。因其具有准确识别和切割特定dna和rna序列的能力,如今已应用于基因编辑。crispr-cas系统是当今世界上最为流行的基因编辑工具。要想修正哺乳动物的基因缺陷,就必须把一套基因编辑工具精确送到特定的组织或细胞内,这个过程需要用到一种能通往细胞内部的运输载体-腺相关病毒(aav),这种病毒是目前最可靠的载体之一。但aav的缺点在于装载容量很有限,目前主流的由cas9和cas12a主导的基因编辑工具尺寸普遍太大,普遍都超过了单个aav的装载极限,限制了它在哺乳动物上的应用。
2、因此,开发一种尺寸小、在哺乳动物细胞中的基因编辑能力强的新型crispr/cas系统对生物技术的发展具有重要意义。
技术实现思路
1、本发明的一个方面提供向导rna(grna)scaffold,其中所述grnascaffold包含与seq id no.3至17、19至92、95至107任一项所示的核苷酸序列相比具有至少80%序列同一性的核苷酸序列;优选地,其中所述grna scaffold为seq id no.3至17、seq id no.19至92、seq id no.95至107任一项所示的核苷酸序列。
2、具体的,向导rna(grna)包含两个片段:靶向序列和蛋白质结合序列。grna的靶向序列包括与靶核酸序列(例如,靶ssrna、靶ssdna、双链靶dna的链等)内的特定序列(靶位点)互补(并且因此与之杂交)的核苷酸序列(可互换地称为向导序列、间隔区、靶向子或靶向序列)。grna的靶向序列能够与靶核酸序列和调控元件结合,该靶核酸序列包括编码序列、编码序列的互补序列、非编码序列。蛋白质结合序列与作为复合物的cas12f多肽相互作用(例如,结合),形成rnp。蛋白质结合序列在本文中也称为“支架”、“grnascaffold”或“grna支架”,这些术语在本文可互换使用。即在grna上除了靶向序列区域之外,grna的其余区域在本文中被称为“支架”、“grna scaffold”或“grna支架”。
3、在优选的实施方式中,所述grnascaffold包含或为与seq id no.3至17、19至92、95至107任一项所示的核苷酸序列相比具有至少90%序列同一性核苷酸序列。例如,所述grnascaffold包含或为与seq id no.3至17、19至92、95至107任一项所示的核苷酸序列相比具有至少90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%序列同一性的核苷酸序列。
4、在另一些实施方式中,所述grnascaffold包含一个或多个修饰,所述一个或多个修饰导致所述grnascaffold展现一种或多种改善特征;优选地,所述一种或多种改善特征选自由以下组成的组:改善grna稳定性;改善所述grna的转录;增加所述grna的折叠速率;折叠期间减少副产物形成;折叠期间减少脱靶折叠中间体形成;增加生产性折叠;增加与cas12f蛋白的结合亲和力;当与所述cas12f蛋白复合时,改善与靶核酸的结合亲和力;当与所述cas12f蛋白复合时,改善基因编辑;或当与所述cas12f蛋白复合时,改善编辑特异性。
5、在一些实施方式中,所述一个或多个修饰包含:(i)一个或多个区域中的所述grnascaffold的1至40个连续或非连续核苷酸的取代;(ii)一个或多个区域中的所述grnascaffold的1至40个连续或非连续核苷酸的缺失;(iii)一个或多个区域中的所述grnascaffold的1至40个连续或非连续核苷酸的插入;(iv)一个或多个区域中的所述grnascaffold的1至10个连续或非连续核苷酸的化学修饰;(v)所述grna scaffold具有异源rna序列取代;或(vi)(i)-(v)的任何组合。
6、在一些实施方式中,本发明提供的grnascaffold的修饰方法包括:截短不同茎环区,增加或删除茎环,增加或删除假结茎,调整tracrrna与crrna互补区长度,增加终止子,取代特定位置的核苷酸,对特定位置的核苷酸的糖和磷酸二酯键进行化学修饰,在grnascaffold的5’和3’端连接异源rna序列。优选地,所述化学修饰为针对grna的常规化学修饰,合适的化学修饰包括但不限于:2'-o甲基修饰的核苷酸、2'-氟修饰的核苷酸、锁核酸(lna)修饰的核苷酸、肽核酸(pna)修饰的核苷酸、具有硫代磷酸酯键的核苷酸和5'帽(例如,7-甲基鸟苷酸帽(m7g));优选地,所述异源rna序列为适配子,适配子是一种结合特异性靶分子的合成寡核苷酸,例如,已经通过重复数轮的体外选择或selex(指数富集配体系统进化法)被工程化为结合不同分子的核苷酸分子靶向诸如小分子、蛋白质、核酸以及甚至细胞、组织和生物体。适配子可提供类似抗体的分子识别特性,且其在治疗性应用中几乎不引发免疫原性;优选地,所述异源rna序列为能够结合蛋白质、rna结构、dna序列或小分子ms2、qβ、u1发夹ii、uvsx或pp7茎环序列。
7、在优选的实施方式中,其中所述grnascaffold为seq id no.3、12、13、14、15、16、17、19、20、21、23、24、25、26、27、29、30、31、32、33、34、35、36、37、38、39、40、42、43、44、45、46、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、95、97、98、99、100、103、104、105或106任一项所示的核苷酸序列。
8、在一些实施方式中所述grnascaffold可包括可以形成stem茎和茎环结构的回文区。在一些实施方式中,所述回文区包括由5至15个碱基对(bp)形成的茎结构,例如8至12个bp或10至15个bp,例如7、8、9、10、11、12、13、14或15个bp。在一些实施方式中,并非茎结构中的所有核苷酸都是配对的,因此茎结构可包含凸起。本文中的术语“凸起”用于意指一段核苷酸(其可以是一个核苷酸),这段核苷酸对茎结构没有贡献,但是在5'端和3'端被有贡献的核苷酸围绕,因此凸起被认为是茎结构的一部分。在一些实施方式中,茎结构包含1个或更多个凸起(例如,2个或更多个、3个或更多个、4个或更多个凸起)。在一些实施方式中,茎结构包含2个或更多个凸起(例如,3个或更多个、4个或更多个凸起)。在一些实施方式中,茎结构包含1-5个凸起(例如,1-4个、1-3个、2-5个、2-4个或2-3个凸起)。
9、具体的,本发明提供的grnascaffold的修饰方法具体为:
10、对seq id no.3的不同区域截短至少一个核苷酸得到seq id no.4至15任一项所示的核苷酸序列;对seq id no.3的不同区域的一个或多个核苷酸进行取代得到seq idno.16至17、seq id no.19至28任一项所示的核苷酸序列;seq id no.18的核苷酸序列从5’到3’方向为seq id no.3、靶核酸互补的靶向序列(n)n和u6终止子;对seq id no.3的stem4区域截短至少一个核苷酸得到seq id no.29至41任一项所示的核苷酸序列;对seq idno.3的stem3区域截短至少一个核苷酸或对一个或多个核苷酸进行取代得到seq id no.42至63任一项所示的核苷酸序列;对seq id no.3的stem4区域的一个或多个核苷酸进行取代得到seq id no.64至78任一项所示的核苷酸序列;对seq id no.3的stem4区域截短至少一个核苷酸得到seq id no.79至85任一项所示的核苷酸序列;对seq id no.3的stem3区域和stem4区域截短至少一个核苷酸或对一个或多个核苷酸进行取代得到seq id no.86至92任一项所示的核苷酸序列;对seq id no.93的不同区域截短至少一个核苷酸以及在不同区域增加多个核苷酸得到seq id no.95所示的核苷酸序列;对seq id no.94的不同区域截短至少一个核苷酸得到seq id no.96所示的核苷酸序列;对seq id no.95的不同区域截短至少一个核苷酸、在不同区域的一个或多个核苷酸进行取代以及在不同区域增加多个核苷酸得到seq id no.97至107任一项所示的核苷酸序列。
11、在优选的实施方式中,对所述grnascaffold修饰导致其与所述cas12f多肽结合活性增强,例如与seq id no.3相比,所述grnascaffold与所述cas12f多肽的核酸结合活性增强至少10%,例如10%至500%,10%至100%、10%至200%、10%至300%、10%至50%、10%至30%、10%至20%、50%至100%、50%至200%、50%至300%、100%至200%、或200%至300%;导致其与所述cas12f多肽复合后所述cas12f多肽的核酸切割活性增强,例如与seq id no.3相比,所述cas12f多肽复合后所述cas12f多肽的核酸切割活性增强至少10%,例如10%至500%,10%至100%、10%至200%、10%至300%、10%至50%、10%至30%、10%至20%、50%至100%、50%至200%、50%至300%、100%至200%、或200%至300%。
12、在本发明的另一个方面提供一种crispr-cas系统,其包含:
13、(i)cas12f多肽,所述cas12f多肽包含与seq id no.1所示的氨基酸序列相比具有至少80%序列同一性的氨基酸序列;以及(ii)grna,所述grna包含所述的grnascaffold和在所述grnascaffold的3’末端与靶核酸互补的靶向序列,所述grna与所述cas12f多肽复合以引导所述cas12f多肽结合至所述靶核酸。
14、在另一些实施方式中,crispr-cas系统,其包含:(i)cas12f多肽,所述cas12f多肽包含与seq id no.1所示的氨基酸序列相比具有至少90%序列同一性的氨基酸序列;以及(ii)grna,所述grna包含所述的grna scaffold和在所述grna scaffold的3’末端与靶核酸互补的靶向序列,所述grna与所述cas12f多肽复合以引导所述cas12f多肽结合至所述靶核酸;其中,所述grnascaffold包含与seq id no.3至17、19至92、95至107任一项所示的核苷酸序列相比具有至少80%序列同一性的核苷酸序列;优选地,其中所述grnascaffold为seqid no.3至17、seq id no.19至92、seq id no.95至107任一项所示的核苷酸序列。
15、在另一些实施方式中,crispr-cas系统,其包含:(i)cas12f多肽,所述cas12f多肽包含与seq id no.1所示的氨基酸序列相比具有至少90%序列同一性的氨基酸序列;以及(ii)grna,所述grna包含所述的grnascaffold和在所述grna scaffold的3’末端与靶核酸互补的靶向序列,所述grna与所述cas12f多肽复合以引导所述cas12f多肽结合至所述靶核酸;其中,所述cas12f多肽被突变以使其具有以下一个或多个特征:核酸切割活性增强或核酸结合活性增强;所述cas12f多肽:(i)根据seq id no.1所示的序列编号,在a11、w34、a38、h66、t78、g80、k88、g90、c98、q103、t104、k110、n111、s112、s114、e115r、t120r、s128、n129、q130、n136、e142、y143、c171、q191、g194、n203、v214、a216、n223、h238、i241、e261、l271、s272、i285、i285、v289、t291、r302、s336、e341、i369、y371、d373、s377、v399、l401、q415和s428中的一个或多个位置处具有氨基酸取代;或(ii)根据seq id no.1所示的序列编号,所述cas12f多肽具有一个或多个选自a11r、w34r、a38r、h66g、t78s、g80h、k88r、g90r、c98l、q103k、t104r、k110r、n111r、s112r、s114k、e115r、t120r、s128r、n129d、q130h、n136k、e142r、y143r、c171k、q191g、g194k、n203k、v214k、a216r、n223r、h238k、i241a、e261k、l271r、s272r、i285k、i285r、v289r、t291k、r302k、s336k、e341k、i369v、y371k、d373k、s377t、v399k、l401k、q415r和s428k的氨基酸取代。
16、在另一些实施方式中,crispr-cas系统,其包含:(i)cas12f多肽,所述cas12f多肽包含与seq id no.1所示的氨基酸序列相比具有至少90%序列同一性的氨基酸序列;以及(ii)grna,所述grna包含所述的grna scaffold和在所述grna scaffold的3’末端与靶核酸互补的靶向序列,所述grna与所述cas12f多肽复合以引导所述cas12f多肽结合至所述靶核酸;其中,
17、在本发明中,这些cas12f多肽及其突变体也称为“racas12f1多肽”、“racas12f1蛋白”、“racas12f1效应蛋白”、“cas12f多肽”、“cas12f效应蛋白”、“cas12f1多肽”、“cas12f1效应蛋白”,这些术语在本文可互换使用。
18、在优选的实施方式中,所述cas12f多肽包含或为与seq id no.1所示的氨基酸序列相比具有至少95%序列同一性氨基酸序列。例如,所述cas12f多肽包含或为与seq idno.1所示的氨基酸序列相比具有至少95%、96%、97%、98%、99%或100%序列同一性的氨基酸序列。
19、在一些实施方式中,其中所述cas12f多肽被突变以使其具有以下一个或多个特征:核酸切割活性增强或核酸结合活性增强;所述cas12f多肽的氨基酸序列不是seq idno.1所示的氨基酸序列。
20、在一些实施方式中,其中所述cas12f多肽:(i)根据seq id no.1所示的序列编号,在a11、w34、a38、h66、t78、g80、k88、g90、c98、q103、t104、k110、n111、s112、s114、e115r、t120r、s128、n129、q130、n136、e142、y143、c171、q191、g194、n203、v214、a216、n223、h238、i241、e261、l271、s272、i285、i285、v289、t291、r302、s336、e341、i369、y371、d373、s377、v399、l401、q415和s428中的一个或多个位置处具有氨基酸取代;或(ii)根据seq id no.1所示的序列编号,所述cas12f多肽具有一个或多个选自a11r、w34r、a38r、h66g、t78s、g80h、k88r、g90r、c98l、q103k、t104r、k110r、n111r、s112r、s114k、e115r、t120r、s128r、n129d、q130h、n136k、e142r、y143r、c171k、q191g、g194k、n203k、v214k、a216r、n223r、h238k、i241a、e261k、l271r、s272r、i285k、i285r、v289r、t291k、r302k、s336k、e341k、i369v、y371k、d373k、s377t、v399k、l401k、q415r和s428k的氨基酸取代。
21、在优选实施方式中,其中所述cas12f多肽为:根据seq id no.1所示的序列编号,所述cas12f多肽具有a11r、w34r、a38r、h66g、t78s、g80h、k88r、g90r、c98l、q103k、t104r、k110r、n111r、s112r、s114k、e115r、t120r、s128r、n129d、n136k、e142r、y143r、c171k、q191g、g194k、v214k、n223r、h238k、e261k、l271r、s272r、i285k、i285r、v289r、t291k、r302k、s336k、e341k、i369v、y371k、d373k、s377t、v399k、l401k、q415r或s428k的单一氨基酸取代。
22、在更优选实施方式中,其中所述cas12f多肽为:根据seq id no.1所示的序列编号,所述cas12f多肽具有a38r、s114k、s128r、n129d、e142r、c171k、g194k、n223r、e261k、l271r、e341k、y371k、v399k或s428k的单一氨基酸取代。
23、在一些实施方式中,其中所述cas12f多肽:
24、(1)根据seq id no.1所示的序列编号,所述cas12f多肽在n129d和s428k位置处具有氨基酸取代;(2)根据seq id no.1所示的序列编号,所述cas12f多肽在e142r和s428k位置处具有氨基酸取代;(3)根据seq id no.1所示的序列编号,所述cas12f多肽在c171k和s428k位置处具有氨基酸取代;(4)根据seq id no.1所示的序列编号,所述cas12f多肽在g194k和s428k位置处具有氨基酸取代;(5)根据seq id no.1所示的序列编号,所述cas12f多肽在n223r和s428k位置处具有氨基酸取代;(6)根据seq id no.1所示的序列编号,所述cas12f多肽在e261k和s428k位置处具有氨基酸取代;(7)根据seq id no.1所示的序列编号,所述cas12f多肽在e341k和s428k位置处具有氨基酸取代;(8)根据seq id no.1所示的序列编号,所述cas12f多肽在s428k和v399k位置处具有氨基酸取代;(9)根据seq id no.1所示的序列编号,所述cas12f多肽在a38r和n129d位置处具有氨基酸取代;(10)根据seq idno.1所示的序列编号,所述cas12f多肽在s114k和n129d位置处具有氨基酸取代;(11)根据seq id no.1所示的序列编号,所述cas12f多肽在s128r和n129d位置处具有氨基酸取代;(12)根据seq id no.1所示的序列编号,所述cas12f多肽在n129d和c171k位置处具有氨基酸取代;(13)根据seq id no.1所示的序列编号,所述cas12f多肽在n129d和g194k位置处具有氨基酸取代;(14)根据seq id no.1所示的序列编号,所述cas12f多肽在n129d和n223r位置处具有氨基酸取代;(15)根据seq id no.1所示的序列编号,所述cas12f多肽在n129d和y371k位置处具有氨基酸取代;(16)根据seq id no.1所示的序列编号,所述cas12f多肽在n129d和v399k位置处具有氨基酸取代;(17)根据seq id no.1所示的序列编号,所述cas12f多肽在a38r位置处具有氨基酸取代;(18)根据seq id no.1所示的序列编号,所述cas12f多肽在s114k位置处具有氨基酸取代;(19)根据seq id no.1所示的序列编号,所述cas12f多肽在s128r位置处具有氨基酸取代;(20)根据seq id no.1所示的序列编号,所述cas12f多肽在n129d位置处具有氨基酸取代;(21)根据seq id no.1所示的序列编号,所述cas12f多肽在g194k位置处具有氨基酸取代;(22)根据seq id no.1所示的序列编号,所述cas12f多肽在y371k位置处具有氨基酸取代;(23)根据seq id no.1所示的序列编号,所述cas12f多肽在a38r、s128r和n129d位置处具有氨基酸取代;(24)根据seq id no.1所示的序列编号,所述cas12f多肽在s114k、s128r和n129d位置处具有氨基酸取代;(25)根据seq id no.1所示的序列编号,所述cas12f多肽在s128r、n129d和g194k位置处具有氨基酸取代;(26)根据seq id no.1所示的序列编号,所述cas12f多肽在s128r、n129d和y371k位置处具有氨基酸取代;(27)根据seq id no.1所示的序列编号,所述cas12f多肽在a38r、s128r、n129d和y371k位置处具有氨基酸取代;(28)根据seq id no.1所示的序列编号,所述cas12f多肽在s114k、s128r、n129d和y371k位置处具有氨基酸取代;(29)根据seq id no.1所示的序列编号,所述cas12f多肽在s128r、n129d、g194k和y371k位置处具有氨基酸取代;(30)根据seqid no.1所示的序列编号,所述cas12f多肽在a38r、s114k、s128r、n129d和y371k位置处具有氨基酸取代;(31)根据seq id no.1所示的序列编号,所述cas12f多肽在a38r、s128r、n129d、y371k和g194k位置处具有氨基酸取代;或(32)根据seq id no.1所示的序列编号,所述cas12f多肽在q130h、n203k、a216r和i241a位置处具有氨基酸取代。
25、在一些实施方式中,所述cas12f多肽在q130h、n203k、a216r和i241a位置处具有氨基酸取代后的氨基酸序列是seq id no.2所示的氨基酸序列。
26、在一些实施方式中,其中所述cas12f多肽被突变以使其核酸切割活性部分或完全失活;所述cas12f多肽的氨基酸序列不是seq id no.1所示的氨基酸序列,核酸切割活性部分或完全失活,所述取代导致与亲本cas12f多肽相比,核酸切割活性降低至少10%,例如10%至500%,10%至100%、10%至200%、10%至300%、10%至50%、10%至30%、10%至20%、50%至100%、50%至200%、50%至300%、100%至200%、或200%至300%、或完全丧失。
27、在一些实施方式中,根据seq id no.1所示的序列编号,所述cas12f多肽在d234位置处具有氨基酸取代,以使所述cas12f多肽的核酸切割活性部分或完全失活;优选的,根据seq id no.1所示的序列编号,所述cas12f多肽具有d234a的氨基酸取代,以使所述cas12f多肽的核酸切割活性部分或完全失活。
28、在一些实施方式中,所述突变导致所述cas12f多肽的核酸结合活性、与引导rna结合活性和/或核酸切割活性基本不变,例如与亲本cas12f多肽相比,核酸结合活性、与grna结合活性和/或核酸切割活性增加或降低约10%以下,例如1%至约10%。任何在所述grnascaffold至少一个核苷酸替换、缺失和/或插入后仍保留cas12f多肽结合活性的核苷酸序列均在本发明的范围之内。
29、在一些实施方式中,所述突变导致所述cas12f多肽的核酸结合活性增强,例如与亲本cas12f多肽(seq id no.1)相比,核酸结合活性增强至少10%,例如10%至500%,10%至100%、10%至200%、10%至300%、10%至50%、10%至30%、10%至20%、50%至100%、50%至200%、50%至300%、100%至200%、或200%至300%;所述cas12f多肽的与grna结合活性增强,例如与亲本cas12f多肽(seq id no.1)相比,与grna结合活性增强至少10%,例如10%至500%,10%至100%、10%至200%、10%至300%、10%至50%、10%至30%、10%至20%、50%至100%、50%至200%、50%至300%、100%至200%、或200%至300%;所述cas12f多肽的核酸切割活性增强,例如与亲本cas12f多肽(seq id no.1)相比,核酸切割活性增强至少10%,例如10%至500%,10%至100%、10%至200%、10%至300%、10%至50%、10%至30%、10%至20%、50%至100%、50%至200%、50%至300%、100%至200%、或200%至300%;并且所述cas12f多肽(seq id no.1)的核酸切割活性降低,例如与亲本cas12f多肽相比,核酸切割活性降低至少10%,例如10%至500%,10%至100%、10%至200%、10%至300%、10%至50%、10%至30%、10%至20%、50%至100%、50%至200%、50%至300%、100%至200%、或200%至300%、或完全丧失。
30、具体的,所述cas12f多肽在特定位置被特定氨基酸取代的突变多肽名称根据人类基因组变异协会(hgvs:human genome variation society)的突变命名规则命名,例如:“所述cas12f多肽在q130h、n203k、a216r和i241a位置处具有氨基酸取代”中“q130h”表示在cas12f多肽的130位置发生了h替换原来的q,“q130h、n203k、a216r和i241a”表示cas12f多肽在第130位、第203位、第216位和第241位的四个位置同时发生对应氨基酸取代。
31、具体的,在本发明提供的crispr-cas系统中,所述cas12f多肽为任何一个在下文描述的racas12f1;在q130h、n203k、a216r和i241a位置处具有氨基酸取代的所述cas12f多肽为任何一个在下文描述的racas12f1-hkra;在本发明提供的crispr-cas系统中,所述grna为任何一个在上文“引导rna(grna)”,这些术语在本文可互换使用。
32、在一些实施方式中,所述crispr-cas系统的靶向序列具有10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。优选地,所述靶向序列具有18、19或20个核苷酸。
33、具体的,在crispr-cas系统中,所述cas12f蛋白与cas12f的grna形成复合物,并且grna通过靶向序列为rnp复合物提供序列特异性。换言之,cas12f蛋白借助于其与引导rna缔合而被引导至靶核酸序列(例如染色体序列或染色体外序列,例如游离型序列、微环序列、线粒体序列、叶绿体序列等)内的靶位点(例如在靶位点处稳定)。
34、在一些实施方式中,所述grnascaffold的靶向序列与靶核酸的靶位点之间的互补性百分比为60%或更高(例如,65%或更高、70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些实施方式中,所述靶向序列与靶核酸的靶位点之间的互补性百分比为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些实施方式中,所述靶向序列与靶核酸的靶位点之间的互补性百分比为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些实施方式中,所述靶向序列与靶核酸的靶位点之间的互补性百分比为100%。在一些实施方式中,所述靶向序列与靶核酸的靶位点之间的互补性百分比在靶核酸的靶位点最3'端的七个连续核苷酸上为100%。
35、在一些实施方案中,所述grnascaffold的靶向序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些实施方式中,所述grna scaffold的靶向序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些实施方式中,所述grnascaffold的靶向序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些实施方式中,所述grnascaffold的靶向序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为100%。
36、在一些实施方式中,所述grnascaffold的靶向序列具有在17-30个核苷酸(nt)(例如,17-25个、17-22个、17-20个、18-28个、18-26个、18-24个、18-22个、18-21个、18-20个、18-19个、19-30个、19-25个、19-22个、19-20个、20-30个、20-25个或20-22个nt)的范围内的长度。在一些实施方式中,所述grna scaffold的靶向序列具有在17-25个核苷酸(nt)(例如,17-22个、17-20个、19-25个、19-22个、19-20个、20-25个或20-22个nt)的范围内的长度。在一些实施方式中,所述grnascaffold的靶向序列具有17或更多个nt(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个或者22个或更多个nt;19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些实施方式中,所述grnascaffold的靶向序列具有19个或更多个nt(例如,20个或更多个、21个或更多个或者22个或更多个nt;19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些实施方式中,所述grnascaffold的靶向序列具有17个nt的长度。在一些实施方式中,所述grna scaffold的靶向序列具有18个nt的长度。在一些实施方式中,所述grnascaffold的靶向序列具有19个nt的长度。在一些实施方式中,所述grnascaffold的靶向序列具有20个nt的长度。在一些实施方式中,所述grnascaffold的靶向序列具有21个nt的长度。在一些实施方式中,所述grnascaffold的靶向序列具有22个nt的长度。在一些实施方式中,所述grnascaffold的靶向序列具有23个nt的长度。在一些实施方式中,所述grna scaffold的靶向序列具有24个nt的长度。在一些实施方式中,所述grnascaffold的靶向序列具有25个nt的长度。在一些实施方式中,所述grnascaffold的靶向序列具有26个nt的长度。在一些实施方式中,所述grnascaffold的靶向序列具有27个nt的长度。在一些实施方式中,所述grna scaffold的靶向序列具有28个nt的长度。在一些实施方式中,所述grnascaffold的靶向序列具有15至50个核苷酸的长度(例如,15个核苷酸(nt)至20nt、20nt至25nt、25nt至30nt、30nt至35nt、35nt至40nt、40nt至45nt或45nt至50nt)。
37、在一些实施方式中,其中所述靶向序列的3’端连接有终止子。优选地,所述终止子为u6终止子。优选地,所述u6终止子为seq id no.108至125任一项所示的核苷酸序列。
38、本发明的crispr-cas系统的cas12f多肽识别并结合靶核酸的过程需要靶序列上/下游的一段短保守序列,即前间区序列临近基序(protospacer adjacent motif,pam)的参与。grna介导cas12f蛋白识别靶点序列5’端pam,当pam出现特定的碱基组成特征时,催化该靶点序列附近的dna双链解链,grna的靶向序列通过碱基互补配对与dna双链中的靶向链杂交形成rna-dna异源双链复合体,进而与靶核酸链结合。经过实验测试发现,本发明的cas12f多肽及其突变体的pam序列为5’-ttn(n=a、t、c或g),优选为5’-tta或5’-ttc,pam序列也可以为5’-ttct、5’-tttc或5’-tttt。
39、本发明的另一个方面提供一种融合多肽,其包含与一个或多个异源多肽融合的cas12f多肽,所述cas12f多肽选自所述crispr-cas系统的cas12f多肽;优选地,其中所述一个或多个异源多肽独立地为表位标签、核定位信号或具有以下一种或多种酶促活性:外切核酸酶活性、逆转录酶活性、核酸酶活性、甲基转移酶活性、脱甲基化酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、脱泛素化活性、腺苷酸化活性、脱腺苷酸化活性、sumo化活性、脱sumo化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如来自o-glcnac转移酶)和脱糖基化活性、dna修复活性、dna损伤活性、脱氨酶活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活;更优选地,所述酶促活性结构域具有以下一种或多种酶促活性:脱氨酶活性、甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性和脱乙酰酶活性;优选地,所述一个或多个异源多肽独立地为转录阻遏结构域、转录激活结构域、脱氨酶结构域或5’-3’外切核酸酶功能域。
40、在一些实施方式中,所述异源多肽选自表位标签(epitope tag)。这类表位标签为现有常规的标签,包括但不限于his、v5、flag、ha、myc、vsv-g、trx等,并且本领域技术人员已知如何根据期望目的(例如,纯化、检测或示踪)选择合适的表位标签。
41、在一些实施方式中,所述异源多肽选自报告基因序列,这类报告基因是本领域技术人员熟知的,其实例包括但不限于gst、hrp、cat、gfp、hcred、dsred、cfp、yfp、bfp等。
42、在一些实施方式中,所述异源多肽选自能够与dna分子或细胞内分子结合的结构域,例如麦芽糖结合蛋白(mbp)、lexa的dna结合结构域(dbd)、gal4的dbd等。
43、在一些实施方式中,所述异源多肽还可以是可检测信号的酶、放射性同位素、特异性结合对的成员、荧光团、荧光蛋白、量子点等。
44、在一些实施方式中,所述异源多肽提供亚细胞定位,即异源多肽含有亚细胞定位序列(例如,用于靶向细胞核的核定位信号(nls)、用于将融合蛋白保持在细胞核外的序列(例如核输出序列(nes))、用于将融合蛋白保留在细胞质中的序列、用于靶向线粒体的线粒体定位信号、用于靶向叶绿体的叶绿体定位信号、er保留信号等)。在一些实施方案中,cas12f融合多肽不包括nls,使得蛋白质不靶向细胞核(这可能是有利的,例如,当靶核酸是存在于胞质溶胶中的rna时)。
45、在优选的实施方式中,所述转录抑制结构域可以包括dna甲基转移酶(例如dnmt1、dnmt3a、dnmt3b、dnmt3l或其任何功能变体或片段)、rybp(ring1 andyy1 bindingprotein)催化结构域及其同源物、yaf2催化结构域及其同源物、krab催化结构域、mbd2催化结构域及其同源物、mecp2催化结构域及其同源物、rbbp4催化结构域及其同源物、cdyl2催化结构域及其同源物、hp1α催化结构域及其同源物、hp1β(cbx1)催化结构域及其同源物、tox催化结构域及其同源物、tox3催化结构域及其同源物、tox4催化结构域及其同源物、scmh1催化结构域及其同源物、scmh2催化结构域及其同源物、cbx8催化结构域及其同源物、hdac5催化结构域及其同源物、i2bp1催化结构域及其同源物、ezh2催化结构域及其同源物、suz12催化结构域及其同源物、sin3a催化结构域及其同源物、ring2催化结构域及其同源物、setdb1催化结构域及其同源物。
46、在一些实施方式中,本发明提供的cas12f融合多肽包含:i)本发明提供的cas12f多肽;和ii)转录因子。转录因子可以包括:i)dna结合结构域;和ii)转录激活因子。转录因子可以包括:i)dna结合结构域;和ii)转录阻遏子。合适的转录因子包括包含转录激活因子或转录抑制子结构域的多肽(例如,krüppel相关框(krab或skd));madmsin3相互作用结构域(sid);erf阻遏结构域(erd)等);基于锌指的人工转录因子;基于tale的人工转录因子;等等。在一些实施方式中,转录因子包括vp64多肽(转录激活)。在某些情况下,转录因子包含krüppel相关盒(krab)多肽(转录抑制)。在一些实施方式中,转录因子包括madmsin3相互作用结构域(sid)多肽(转录阻遏)。在一些实施方式中,转录因子包括erf阻遏子结构域(erd)多肽(转录阻遏)。在一些实施方式中,转录因子包括dnmt3a-dnmt3l(转录阻遏)。在一些实施方式中,转录因子是转录激活因子,其中转录激活因子是gal4-vp16。在一些实施方式中,转录因子是转录激活因子,其中转录激活因子是vp64;p65;rta;截短的p65;截短的rta;或它们各自或之间的一个或多个的融合形式。
47、在一些实施方式中,在本发明提供的融合多肽中,所述一个或多个异源多肽独立地为转录阻遏结构域、转录激活结构域或脱氨酶结构域时,所述cas12f多肽为dcas12f多肽,“dcas12f”是指核酸酶无活性的cas12f或核酸酶死亡的cas12f,任何使本发明的cas12f多肽的核酸内切酶失活的合适突变都可以用于形成dcas12f,例如氨基酸序列为seq idno.1或2中d234a的突变,所述“dcas12f”为下文描述的“dracas12f1”、“dracas12f1-hkra”或“dracas12f1-d234a”,这些术语在本文可互换使用。在一些实施方式中,在本发明提供的融合多肽中,所述一个或多个异源多肽独立地为5’-3’外切核酸酶功能域时,所述cas12f多肽为有核酸酶活性的cas12f。
48、在一些实施方式中,其中所述5’-3’外切核酸酶功能域为seq id no.126任一项所示的核苷酸序列。
49、在一些实施方式中,cas12f融合多肽包含(融合有)核定位信号(nls)(例如,在一些实施方式中,2个或更多、3个或更多、4个或更多、或5个或更多个nls)。在一些实施方式中,一个或多个nls(2个或更多个、3个或更多个、4个或更多个或者5个或更多个nls)定位在n末端和/或c末端处或附近(例如,在50个氨基酸内)。cas12f融合多肽包含(融合有)1至10个nls(例如,1-9、1-8、1-7、1-6、1-5、2-10、2-9、2-8、2-7、2-6或2-5个nls)。在一些实施方式中,cas12f融合多肽包含(融合有)2至5个nls(例如,2-4个或2-3个nls)。具体地,核定位信号(nls)连接顺序可以为:nh2-[cas12f]-[nls]-cooh;nh2-[nls]-[cas12f]-cooh;其中]-[表示可任选地存在的根据下文定义的连接肽(下同)。
50、在优选的实施方式中,所述融合多肽中的所述核定位信号来源于sv40病毒大t抗原的nls、核质蛋白二分nls、c-myc nls、hrnpa1 m9 nls、输入蛋白-α的ibb结构域nls、肌瘤t蛋白nls、人p53 nls、小鼠c-abl iv的nls、流感病毒ns1的nls、肝炎病毒δ抗原的nls、小鼠mx1蛋白的nls、人聚(adp-核糖)聚合酶的nls或类固醇激素受体(人)糖皮质激素的nls。
51、在优选的实施方式中,所述融合多肽中的所述转录激活结构域包含选自以下的酶形成的结构域:转录激活因子、组蛋白赖氨酸甲基转移酶、组蛋白赖氨酸脱甲基酶、组蛋白乙酰转移酶以及dna脱甲基酶;优选地,所述转录阻遏结构域包含选自以下的结构域:转录阻遏物、zim3结构域、kox1阻遏结构域、madmsin3相互作用结构域(sid)、erf阻遏物结构域(erd)、srdx阻遏结构域、组蛋白赖氨酸甲基转移酶、组蛋白赖氨酸脱甲基酶、组蛋白赖氨酸脱乙酰酶、dna甲基化酶以及外周募集元件。在优选的实施方式中,所述转录激活结构域包含vp64;p65;rta;截短的p65;截短的rta;或它们各自或之间的一个或多个的融合形式。在优选的实施方式中,所述转录阻遏结构域选自krab催化结构域、dna甲基转移酶或其组合。
52、在一些实施方式中,所述转录抑制结构域的数量可为两个以上,这些转录抑制结构域通过连接肽串联后连接在cas12f(如dracas12f1-hkra或dracas12f1)蛋白的n端或/和c端;所述转录激活结构域的数量可为两个以上,这些转录激活结构域通过连接肽串联后连接在cas12f(如dracas12f1-hkra或dracas12f1)蛋白的n端或/和c端。
53、在优选的实施方式中,所述融合多肽的结构选自:nh2-[cas12f]-[转录调控结构域]-cooh;nh2-[转录调控结构域]-[cas12f]-cooh;nh2-[cas12f]-[转录激活结构域]-cooh;nh2-[转录激活结构域]-[cas12f]-cooh;nh2-[nls]-[cas12f]-[转录激活结构域]-cooh;nh2-[cas12f]-[转录激活结构域]-[nls]-cooh;nh2-[nls]-[cas12f]-[转录激活结构域]-[nls]-cooh;nh2-[nls]-[转录激活结构域]-[cas12f]-cooh;nh2-[转录激活结构域]-[cas12f]-[nls]-cooh;nh2-[nls]-[转录激活结构域]-[cas12f]-[nls]-cooh;nh2-[cas12f]-[vp64-p65-rta融合蛋白及其截短的融合蛋白]-cooh;nh2-[vp64-p65-rta融合蛋白及其截短的融合蛋白]-[cas12f]-cooh;nh2-[nls]-[cas12f]-[vp64-p65-rta融合蛋白及其截短的融合蛋白]-cooh;nh2-[cas12f]-[vp64-p65-rta融合蛋白及其截短的融合蛋白]-[nls]-cooh;nh2-[nls]-[cas12f]-[vp64-p65-rta融合蛋白及其截短的融合蛋白]-[nls]-cooh;
54、nh2-[nls]-[vp64-p65-rta融合蛋白及其截短的融合蛋白]-[cas12f]-cooh;nh2-[vp64-p65-rta融合蛋白及其截短的融合蛋白]-[cas12f]-[nls]-cooh;nh2-[nls]-[cas12f]-[vp64-p65-rta融合蛋白及其截短的融合蛋白]-[nls]-cooh;nh2-[cas12f]-[转录抑制结构域]-cooh;nh2-[转录抑制结构域]-[cas12f]-cooh;nh2-[nls]-[cas12f]-[转录抑制结构域]-cooh;nh2-[cas12f]-[转录抑制结构域]-[nls]-cooh;
55、nh2-[nls]-[cas12f]-[转录抑制结构域]-[nls]-cooh;nh2-[nls]-[转录抑制结构域]-[cas12f]-cooh;
56、nh2-[转录抑制结构域]-[cas12f]-[nls]-cooh;nh2-[nls]-[转录抑制结构域]-[cas12f]-[nls]-cooh;
57、nh2-[cas12f]-[第一转录抑制结构域]-[第二转录抑制结构域]-cooh;nh2-[cas12f]-[第二转录抑制结构域]-[第一转录抑制结构域]-cooh;nh2-[第一转录抑制结构域]-[第二转录抑制结构域]-[cas12f]-cooh;nh2-[第二转录抑制结构域]-[第一转录抑制结构域]-[cas12f]-cooh;nh2-[第一转录抑制结构域]-[cas12f]-[第二转录抑制结构域]-cooh;nh2-[第二转录抑制结构域]-[cas12f]-[第一转录抑制结构域]-cooh;nh2-[nls]-[cas12f]-[krab催化结构域]-[dnmt3a-dnmt3l]-cooh;nh2-[cas12f]-[krab催化结构域]-[dnmt3a-dnmt3l]-[nls]-cooh;nh2-[nls]-[cas12f]-[krab催化结构
58、域]-[dnmt3a-dnmt3l]-[nls]-cooh;nh2-[nls]-[krab催化结构
59、域]-[dnmt3a-dnmt3l]-[cas12f]-cooh;nh2-[krab催化结构
60、域]-[dnmt3a-dnmt3l]-[cas12f]-[nls]-cooh;nh2-[nls]-[krab催化结构
61、域]-[dnmt3a-dnmt3l]-[cas12f]-[nls]-cooh;nh2-[nls]-[krab催化结构
62、域]-[cas12f]-[dnmt3a-dnmt3l]-cooh;nh2-[krab催化结构
63、域]-[cas12f]-[dnmt3a-dnmt3l]-[nls]-cooh;nh2-[nls]-[krab催化结构
64、域]-[cas12f]-[dnmt3a-dnmt3l]-[nls]-cooh;nh2-[nls]-[dnmt3a-dnmt3l]-[cas12f]-[krab催化结构域]-cooh;nh2-[dnmt3a-dnmt3l]-[cas12f]-[krab催化结构域]-[nls]-cooh;和
65、nh2-[nls]-[dnmt3a-dnmt3l]-[cas12f]-[krab催化结构域]-[nls]-cooh。
66、在一些实施方式中,所述融合多肽中的所述脱氨酶结构域包括腺苷脱氨酶结构域、胞苷脱氨酶结构域或其组合。
67、本发明提供的碱基编辑器包括腺嘌呤碱基编辑器(abes)和胞嘧啶碱基编辑器(cbes)。在abes中,将腺苷脱氨酶结构域与cas12f蛋白融合,可实现a·t碱基对转化为g·c碱基对。在一些实施方式中,本发明提供的碱基编辑器包括第一腺苷脱氨酶结构域与第二腺苷脱氨酶结构域,它们可以是相同的腺苷脱氨酶结构域,也可以是不同的腺苷脱氨酶结构域。在cbes中,胞苷脱氨酶结构域apobec/aid与cas12f蛋白融合,并与一个或多个尿嘧啶糖基化酶抑制剂(ugi)融合,以提高cbes碱基编辑的准确性和效率,将c·g碱基对转化为t·a碱基对。
68、在优选的实施方式中,所述融合多肽中的所述腺苷脱氨酶结构域可以来源于γ-变形菌腺苷脱氨酶、肠杆菌腺苷脱氨酶、金黄色葡萄球菌tada、枯草杆菌tada、鼠伤寒沙门菌(sal monellatyphimurium)tada、腐败希瓦菌tada、流感嗜血杆菌f3031 tada、新月柄杆菌tada或硫还原地杆菌(geobactersulfurreducens)tada。
69、在优选的实施方式中,所述胞苷脱氨酶选自活化诱导的胞苷脱氨酶(aid)、载脂蛋白b mrna编辑复合物(apobec)和pmcda1。在优选的实施方式中,所述腺苷脱氨酶结构域是tada、ectada、satada、ectada7.10、tada-8e、tada8.17、tada8.20、tada9或其组合。
70、在优选的实施方式中,所述融合多肽的结构选自:
71、nh2-[腺苷脱氨酶结构域]-[cas12f]-cooh;nh2-[cas12f]-[腺苷脱氨酶结构域]-cooh;nh2-[第一腺苷脱氨酶结构域]-[第二腺苷脱氨酶结构域]-[cas12f]-cooh;nh2-[第一腺苷脱氨酶结构域]-[cas12f]-[第二腺苷脱氨酶结构域]-cooh;nh2-[cas12f]-[第一腺苷脱氨酶结构域]-[第二腺苷脱氨酶结构域]-cooh;
72、nh2-[第二腺苷脱氨酶结构域]-[第一腺苷脱氨酶结构域]-[cas12f]-cooh;nh2-[第二腺苷脱氨酶结构域]-[cas12f]-[第一腺苷脱氨酶结构域]-cooh;nh2-[cas12f]-[第二腺苷脱氨酶结构域]-[第一腺苷脱氨酶结构域]-cooh;nh2-[腺苷脱氨酶结构域]-[cas12f]-[nls]-cooh;nh2-[cas12f]-[腺苷脱氨酶结构域]-[nls]-cooh;nh2-[nls]-[腺苷脱氨酶结构域]-[cas12f]-cooh;nh2-[nls]-[cas12f]-[腺苷脱氨酶结构域]-cooh;nh2-[nls]-[腺苷脱氨酶结构域]-[cas12f]-[nls]-cooh;nh2-[nls]-[cas12f]-[腺苷脱氨酶结构域]-[nls]-cooh;nh2-[胞苷脱氨酶结构域]-[cas12f]-[尿嘧啶糖基化酶抑制剂(ugi)]-cooh;nh2-[尿嘧啶糖基化酶抑制剂(ugi)]-[cas12f]-[胞苷脱氨酶结构域]-cooh;nh2-[nls]-[胞苷脱氨酶结构域]-[cas12f]-[尿嘧啶糖基化酶抑制剂(ugi)]-cooh;nh2-[nls]-[尿嘧啶糖基化酶抑制剂(ugi)]-[cas12f]-[胞苷脱氨酶结构域]-cooh;nh2-[胞苷脱氨酶结构域]-[cas12f]-[尿嘧啶糖基化酶抑制剂(ugi)]-[nls]-cooh;nh2-[尿嘧啶糖基化酶抑制剂(ugi)]-[cas12f]-[胞苷脱氨酶结构域]-[nls]-cooh;nh2-[nls]-[胞苷脱氨酶结构域]-[cas12f]-[尿嘧啶糖基化酶抑制剂(ugi)]-[nls]-cooh;和nh2-[nls]-[尿嘧啶糖基化酶抑制剂(ugi)]-[cas12f]-[胞苷脱氨酶结构域]-[nls]-cooh。
73、在优选的实施方式中,所述5’-3’外切核酸酶功能域来自t5噬菌体;所述融合多肽的结构选自:nh2-[5’-3’外切核酸酶功能域]-[cas12f]-cooh;nh2-[cas12f]-[5’-3’外切核酸酶功能域]-cooh;
74、nh2-[nls]-[5’-3’外切核酸酶功能域]-[cas12f]-cooh;nh2-[nls]-[cas12f]-[5’-3’外切核酸酶功能域]-cooh;nh2-[5’-3’外切核酸酶功能域]-[cas12f]-[nls]-cooh;nh2-[cas12f]-[5’-3’外切核酸酶功能域]-[nls]-cooh;nh2-[nls]-[5’-3’外切核酸酶功能域]-[cas12f]-[nls]-cooh;和nh2-[nls]-[cas12f]-[5’-3’外切核酸酶功能域]-[nls]-cooh。
75、本发明的另一个方面提供一种复合物,其包含所述的融合多肽以及grna,所述grna包含所述的grnascaffold和在所述grnascaffold的3’末端与靶核酸互补的靶向序列,所述grna与所述融合多肽复合以引导所述融合多肽结合至靶核酸;优选地,所述的融合多肽包含cas12f多肽和融合在所述cas12f多肽c端的5’-3’外切核酸酶功能域,所述融合多肽包含seq id no.127所示的氨基酸序列;优选地,所述复合物是表观遗传编辑器,所述融合多肽包含seq id no.129至131任一个所示的氨基酸序列;优选地,所述复合物是碱基编辑器,所述融合多肽包含seq id no.132或133所示的氨基酸序列。
76、在优选的实施方式中,所述复合物是表观遗传编辑器。在优选的实施方式中,所述复合物是碱基编辑器。在优选的实施方式中,所述复合物是基因敲除编辑器。
77、具体地,本发明提供的dcas12f(如dracas12f1、dracas12f1-hkra)蛋白的grna的靶向序列可作用于靶核酸的转录起始位点(tss)上游3000bp,优选为200-500bp之间,使得该表观遗传编辑器作用于目的基因的启动子、增强子、沉默子等调控元件。
78、在一些实施方案中,所述cas12f多肽可经由一个或多个接头多肽(或称连接肽)与异源多肽融合。接头多肽可具有多种氨基酸序列中的任一种。蛋白质可通过间隔肽连接,间隔肽通常具有柔性性质,但不排除其他化学键。合适的接头包括长度在4至40个氨基酸之间或者长度在4至25个氨基酸之间的多肽。这些接头可通过使用合成的编码接头的寡核苷酸来产生以偶联蛋白质,或者可由编码融合蛋白的核酸序列编码。可使用具有一定程度柔性的肽接头。连接肽实际上可具有任何氨基酸序列,应记住优选的接头将具有产生总体上柔性的肽的序列。小氨基酸(诸如甘氨酸和丙氨酸)的用途用于产生柔性肽。对于本领域技术人员来说,产生此类序列是常规的。多种不同的接头是可商购获得的并且被认为是适合使用的。
79、接头多肽的实例包括甘氨酸聚合物(g)n、甘氨酸-丝氨酸聚合物、甘氨酸-丙氨酸聚合物、丙氨酸-丝氨酸聚合物。连接肽还可以是各种xten linker等,xten linker的长度约为16-80个氨基酸,xten linker可以为xten16 linker、xten18 linker、xten32 linker、xten80 linker。本领域技术人员将认识到,与任何所需元件缀合的肽的设计可包括全部或部分柔性的接头,使得接头可包括柔性接头以及赋予较少柔性结构的一个或多个部分。
80、本发明的另一个方面提供一种核酸,其包含编码grna的核苷酸序列,所述grna包含所述的grnascaffold和在所述grnascaffold的3’末端与靶核酸互补的靶向序列;优选地,所述核酸是dna或mrna。
81、本发明的另一个方面提供一种核酸,包含编码所述的crispr-cas系统的cas12f多肽或所述的融合多肽的多核苷酸;优选地,所述多核苷酸被密码子优化以在原核或真核细胞中表达;优选地,所述多核苷酸包含或为如seq id no.1至2任一个所示的核苷酸序列。
82、本发明的另一个方面提供一种载体,其包含本发明提供的任何一种核酸。在优选的实施方式中,所述载体是质粒或病毒载体。在优选的实施方式中,所述病毒载体是腺相关病毒载体、腺病毒载体、逆转录病毒载体、慢病毒载体或单纯疱疹病毒载体。
83、本发明的另一个方面提供一种载体系统,其包括第一载体和与第一载体不同的第二载体,所述第一载体包含编码本发明提供的任何一种crispr-cas系统的cas12f多肽或所述的融合多肽的多核苷酸;所述第二载体包含grna或编码所述grna的核苷酸序列。在优选的实施方式中,所述第一载体和第二载体独立地是质粒或病毒载体。在优选的实施方式中,所述病毒载体是腺相关病毒载体、腺病毒载体、逆转录病毒载体、慢病毒载体或单纯疱疹病毒载体。
84、本发明的另一个方面提供一种递送系统,包含本发明提供的任一crispr-cas系统、本发明提供的任一融合多肽、本发明提供的任一复合物、本发明提供的任一核酸、本发明提供的任一载体、或本发明提供的任一载体系统。在优选的实施方式中,所述递送系统包括脂质体、纳米颗粒或外泌体。
85、本发明的另一个方面提供一种细胞,其包含本发明提供的任一crispr-cas系统、本发明提供的任一融合多肽、本发明提供的任一复合物、本发明提供的任一核酸、本发明提供的任一载体、本发明提供的任一载体系统、或本发明提供的任一递送系统。在优选的实施方式中,所述细胞是真核细胞。在优选的实施方式中,所述细胞是人细胞。
86、本发明的另一个方面提供组合物或试剂盒,其包含本发明提供的任一crispr-cas系统、本发明提供的任一融合多肽、本发明提供的任一复合物、本发明提供的任一核酸、本发明提供的任一载体、本发明提供的任一载体系统、本发明提供的任一递送系统、或本发明提供的任一细胞;以及药学上可接受的载体。
87、本发明的组合物或试剂盒可进一步包括药学上可接受的载体,例如一种或多种另外的试剂,例如,i)缓冲剂;ii)蛋白酶抑制剂;iii)核酸酶抑制剂;iv)显影或可视化可检测标记所需的试剂;v)阳性和/或阴性对照靶dna;vi)阳性和/或阴性对照cas12f引导rna等。本发明的组合物或试剂盒可包括:a)如上所述的本发明的cas12f系统的组分,或者可包含本发明的cas12f系统;和b)治疗剂。
88、本发明的另一个方面提供修饰靶核酸的方法,所述方法包括使靶核酸与本发明提供的任一crispr-cas系统、本发明提供的任一复合物、本发明提供的任一载体系统、或本发明提供的任一递送系统接触,所述接触导致所述靶核酸被修饰。在优选的实施方式中,所述修饰包括增加或减少所述靶核酸中的靶序列的表达。在优选的实施方式中,所述修饰包括对所述靶核酸中的靶腺嘌呤或靶胞嘧啶进行脱氨基以实现碱基对转换。
89、具体的,当与cas12f引导rna结合时,本发明的cas12f多肽或本发明的cas12f融合多肽可结合靶核酸,并且在一些实施方式中,可结合并修饰靶核酸。靶核酸可以是任何核酸(例如,dna、rna),可以是双链或单链的,可以是任何类型的核酸(例如,染色体(基因组dna)、衍生自染色体、染色体dna、质粒、病毒、细胞外、细胞内、线粒体、叶绿体、线性、环状等)并且可来自任何生物体(例如,只要cas12f引导rna包含与靶核酸中的靶序列杂交的核苷酸序列,使得靶核酸可被靶向即可)。靶核酸可以是dna或rna。靶核酸可以是双链的(例如,dsdna、dsrna)或单链的(例如,ssrna、ssdna)。
90、在优选的实施方式中,其中所述靶核酸选自:双链dna、单链dna、rna、基因组dna和染色体外dna。在优选的实施方式中,其中所述接触在体外在细胞外部发生、在培养的细胞内部发生或在体内细胞内部发生。在优选的实施方式中,所述细胞是真核细胞,更优选为人细胞。
91、本发明的另一个方面提供了用于治疗被诊断患有与点突变相关或由点突变引起的疾病的受试者的方法,所述点突变可以通过本文提供的碱基编辑器来校正。例如,在一些实施例中,提供了一种方法,包括向患有这种疾病的受试者(例如,与如上所述的点突变相关联的癌症)施用有效量的表观遗传编辑器、碱基编辑器或基因敲除编辑器,该编辑器纠正点突变、敲除疾病相关基因、激活/抑制疾病相关基因或将失活突变引入疾病相关基因。在一些实施方案中,该疾病是增殖性疾病。在一些实施方案中,该疾病是遗传性疾病。在一些实施方案中,该疾病是肿瘤性疾病。在一些实施方案中,该疾病是一种代谢性疾病。
92、具体地,本文提供的融合蛋白可用于治疗各种罕见病、肿瘤、癌症、炎症、病毒感染疾病、遗传疾病、中枢神经系统疾病、衰老和多种自身免疫性疾病以及常见和慢性疾病。更具体地,治疗的疾病可以为高血压、高脂血症、特发性纤维化(ipf)、肝纤维化、乙型肝炎病毒(hbv)、肝细胞癌(hcc)、肩肱型肌营养不良症(fshd)、杂合子家族性高胆固醇血症(hefh)、α-1抗胰蛋白酶缺乏症(a1ad)、非动脉性前部缺血性视神经病变(naion)、视网膜色素变性(rp)或杜氏肌营养不良(dmd)。