新颖的RNA导向性核酸酶及其用途的制作方法

文档序号:15396003发布日期:2018-09-08 02:12阅读:349来源:国知局

本申请主张2015年10月09日申请的标题为novelrna-guideddnanucleasesandusesthereof的美国临时专利申请号62/239,678的优先权,该美国临时专利申请被整体并入。序列表包含在文件“p34351us00_seq.txt”中,它的大小是515,465字节(在操作系统mswindows中测量)并且是在2015年10月9日创建,而且在2015年10月09日与美国临时专利申请号62/239,678一起提交,该序列表以引用的方式整体并入本文中。序列表的计算机可读形式通过电子提交与本申请一起提交,并且以引用的方式整体并入本申请中。序列表包含在命名为p34351wo00.txt的文件中,它的大小是3,098,529字节(在操作系统mswindows中测量)并且是在2016年10月7日创建。



背景技术:

crispr(成簇规律间隔短回文重复序列)是在细菌和古细菌的基因组中发现的基因座,所述基因座含有多个短正向重复序列。crisprrna(crrna)与crispr关联(cas)效应因子蛋白相关联而形成识别外来核酸的crispr-cas系统。crispr系统是细菌和古细菌的适应性免疫系统的一部分,通过以序列依赖性方式切割外来dna而防止它们受入侵核酸如病毒影响。通过将入侵dna的短片段,称为间隔子,整合在crispr基因座近侧端的两个相邻重复序列之间而获得免疫性。crispr阵列在与入侵核酸的后续碰撞过程中被转录,并且被加工成大约40nt长度的小干扰crisprrna(crrna),它们与反式激活crisprrna(tracrrna)关联以便将crispr关联核酸酶引导至入侵核酸处。crispr/cas9效应因子复合物切割入侵dna中被称为原间隔子的同源双链dna序列。切割的先决条件是靶dna下游存在保守原间隔子相邻基序(pam),对于cas9而言,它通常具有序列5'-ngg-3'但不太经常具有nag。由crrna中位于pam上游大约12个碱基处的“种子序列”提供特异性,所述种子序列必须能够与靶序列杂交。cpf1是v型cas效应因子蛋白,它以类似于cas9的方式起作用,但cpf1不需要tracrrna。

crispr-cas系统被分成两种类型:第1类crispr系统被再分成i型、iii型和iv型,并且第1类系统利用多个cas蛋白与crrna形成复合物;而第2类crispr系统被再分成ii型和v型,利用单个cas蛋白与crrna形成能够进行序列特异性基因组修饰的复合物。

简要描述

若干个实施方案涉及一种重组核酸,所述重组核酸包含可操作地连接至编码crispr酶的多核苷酸的异源启动子,其中所述crispr酶包含选自由seqidno:1-36、73和75-87组成的组的氨基酸序列或其片段。若干个实施方案涉及一种重组核酸,所述重组核酸包含可操作地连接至编码crispr酶的多核苷酸的异源启动子,其中所述crispr酶与包含选自seqidno:1-36、73和75-87的氨基酸序列的crispr酶具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的序列同源性或同一性。在一些实施方案中,提供了一种载体,所述载体包含重组核酸,所述重组核酸包含可操作地连接至编码crispr酶的多核苷酸的异源启动子,所述crispr酶具有选自由seqidno:1-36、73和75-87组成的组的氨基酸序列。在一些实施方案中,提供了一种载体,所述载体包含重组核酸,所述重组核酸包含可操作地连接至编码crispr酶的多核苷酸的异源启动子,其中所述crispr酶与包含选自seqidno:1-36、73和75-87的氨基酸序列的crispr酶具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的序列同源性或同一性。

若干个实施方案涉及一种细胞,所述细胞包含重组核酸,所述重组核酸包含可操作地连接至编码crispr酶的多核苷酸的异源启动子,其中所述crispr酶包含选自由seqidno:1-36、73和75-87组成的组的氨基酸序列或其片段。若干个实施方案涉及一种细胞,所述细胞包含重组核酸,所述重组核酸包含可操作地连接至编码crispr酶的多核苷酸的异源启动子,其中所述crispr酶与包含选自seqidno:1-36、73和75-87的氨基酸序列的crispr酶具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的序列同源性或同一性。在一些实施方案中,所述重组核酸被瞬时表达在所述细胞中。在一些实施方案中,所述重组核酸被整合至所述细胞的基因组中。在一些实施方案中,所述重组核酸被整合至所述细胞的b染色体中。在一些实施方案中,所述细胞是原核细胞。在一些实施方案中,所述细胞是真核细胞。在一些实施方案中,所述真核细胞是植物细胞。在一些实施方案中,所述真核细胞是藻类细胞。在一些实施方案中,所述真核细胞是哺乳动物细胞。

在一个方面,本公开提供了一种用于对靶核酸序列进行序列特异性修饰的系统,所述系统包含(a)向导rna或编码向导rna的dna分子,其中所述向导rna对靶核酸序列具有特异性;和(b)编码crispr酶的多核苷酸,所述crispr酶包含与选自由seqidno:73和75-87组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。

在一个方面,本公开提供了一种对细胞中的靶核酸序列进行序列特异性修饰的方法,所述方法包括给所述细胞提供核酸靶向性系统,所述核酸靶向性系统包含(a)向导rna或编码向导rna的dna分子,其中所述向导rna对靶核酸序列具有特异性;和(b)crispr酶或编码所述crispr酶的多核苷酸,所述crispr酶包含与选自由seqidno:73和75-87组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。

在一个方面,本公开提供了一种对细胞中的靶核酸序列进行序列特异性修饰的方法,所述方法包括给细胞提供(a)对细胞中的靶核酸序列具有特异性的向导rna;和(b)crispr酶或编码所述crispr酶的多核苷酸,所述crispr酶包含与选自由seqidno:73和75-87组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列,其中所述靶核酸序列经过修饰。

在一个方面,本公开提供了一种真核细胞,所述真核细胞含有已经通过对细胞中的靶核酸序列进行序列特异性修饰的方法进行修饰而具有序列特异性的靶核酸序列,所述方法包括给细胞提供(a)对细胞中的靶核酸序列具有特异性的向导rna;和(b)crispr酶或编码所述crispr酶的多核苷酸,所述crispr酶包含与选自由seqidno:73和75-87组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列,其中所述靶核酸序列经过修饰。

在一个方面,本公开提供了一种选择性地调节真核细胞中的至少一个靶dna的转录的方法,所述方法包括使所述真核细胞与以下组分接触:(a)向导rna或编码向导rna的dna,其中所述向导rna还包含:(i)第一区段,所述第一区段包含与所述靶dna互补的核苷酸序列;和(ii)第二区段,所述第二区段与rna导向性dna核酸酶相互作用;以及(b)编码crispr酶的多核苷酸,所述crispr酶包含与选自由seqidno:73和75-87组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列,其中组分(a)和(b)位于相同或不同的载体上,其中所述向导rna和所述rna导向性dna核酸酶在所述真核细胞中形成复合物,并且其中所述复合物选择性地调节所述靶dna的转录。

若干个实施方案涉及一种从细菌基因组中鉴定crispr酶的方法。在一些实施方案中,基于在所述细菌基因组内与ii型crispr重复序列的关联而鉴定了编码crispr酶的多核苷酸。在某些方面,还通过在所述细菌基因组内与cas1、cas2或cas1和cas2而不是cas5或cas3的关联而鉴定了编码所述crispr酶的多核苷酸。在一些实施方案中,编码所述crispr酶的多核苷酸与crispr基因座位于相同的操纵子中。在其它实施方案中,编码所述crispr酶的多核苷酸位于所述crispr基因座的2千碱基内。在一些实施方案中,通过表1中所鉴定的一个或多个pfam结构域的存在而鉴定了编码所述crispr酶的多核苷酸。在一些实施方案中,可以通过表1中所鉴定的一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个或者十个或更多个pfam结构域的存在而鉴定了本文提供的编码crsipr酶的多核苷酸。关于更多有关pfam结构域的信息,参见pfam.xfam.org;和finn等,nucleicacidsresearch(2014)42:d222-230。在一些实施方案中,所述细菌基因组选自由以下项组成的组:赖氨酸芽孢杆菌属、短芽孢杆菌属、鞘氨醇杆菌属、水杆菌属、芽孢杆菌属、金黄杆菌属、鞘氨醇单胞菌属和双头菌属。在一些实施方案中,所述细菌基因组选自由以下项组成的组:侧孢短芽孢杆菌、苏云金杆菌、粪肠球菌、短短芽孢杆菌、迟钝水杆菌、玫瑰色新鞘氨醇菌、嗜甲胺双头菌;类短短芽孢杆菌。

若干个实施方案涉及一种增强所选基因组基因座处的重组的方法,所述方法包括给植物细胞提供至少一个核酸靶向性系统,所述核酸靶向性系统在第一基因组基因座中引入基因组修饰,从而诱导所述第一基因组基因座与第二基因组基因座之间的重组,其中所述至少一个核酸靶向性系统不会在所述第二基因组基因座处引入基因组修饰;和选择至少一个包括处于所述第一基因组基因座与所述第二基因组基因座之间的重组事件的植物细胞。若干个实施方案涉及一种增强所选基因组基因座处的重组的方法,所述方法包括给植物细胞提供至少一个核酸靶向性系统,所述核酸靶向性系统引入了第一基因组基因座和第二基因组基因座处的基因组修饰,从而诱导所述第一基因组基因座与所述第二基因组基因座之间的重组;和选择至少一个包括处于所述第一基因组基因座与所述第二基因组基因座之间的重组事件的植物细胞。若干个实施方案涉及一种增强所选基因组基因座处的重组的方法,所述方法包括给细胞提供引入第一基因组基因座处的基因组修饰的第一核酸靶向性系统和引入第二基因组基因座处的基因组修饰的第二核酸靶向性系统,从而诱导所述第一基因组基因座与第二基因组基因座之间的重组;和选择至少一个包括处于所述第一基因组基因座与所述第二基因组基因座之间的重组事件的后代。在一些实施方案中,所述第一基因组基因座和所述第二基因组基因座呈顺式。在一些实施方案中,所述第一基因组基因座和所述第二基因组基因座呈反式。在一些实施方案中,所述第一基因组基因座和所述第二基因组基因座是同源物。在一些实施方案中,所述第一基因组基因座和所述第二基因组基因座是旁系同源物。在一些实施方案中,所述第一基因组基因座和所述第二基因组基因座是部分同源物。在一些实施方案中,所述第一基因组基因座和所述第二基因组基因座是同一的。在一些实施方案中,所述第一基因组基因座和所述第二基因组基因座在同源染色体上。在一些实施方案中,所述第一基因组基因座和所述第二基因组基因座在非同源染色体上。在一些实施方案中,所述第一基因组基因座和所述第二基因组基因座在部分同源染色体上。在一些实施方案中,所述第一基因组基因座和所述第二基因组基因座具有至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性。在一些实施方案中,所述第一基因组基因座和所述第二基因组基因座位于同源染色体上。在一些实施方案中,所述第一基因组基因座和所述第二基因组基因座位于非同源染色体上。在一些实施方案中,所述基因组修饰是双链断裂(dsb)。在一些实施方案中,所述基因组修饰是单链断裂。在一些实施方案中,所述基因组修饰发生在减数分裂开始时。在一些实施方案中,所述重组是不对称的。在一些实施方案中,所述重组是对称的。在一些实施方案中,所述第一靶序列和/或所述第二靶序列是基因的。在一些实施方案中,所述第一靶序列和/或所述第二靶序列在基因间区域内。在一些实施方案中,所述第一靶序列在与含有所述第二靶序列的基因组基因座的至少约100bp、至少约150bp、至少约200bp、至少约250bp、至少约300bp、至少约350bp、至少约400bp、至少约450bp、至少约500bp、至少约600bp、至少约700bp、至少约800bp、至少约900bp或至少约1000bp同源的基因组基因座中。在一些实施方案中,所述第一靶序列在与含有所述第二靶序列的基因组基因座的至少约100bp、至少约150bp、至少约200bp、至少约250bp、至少约300bp、至少约350bp、至少约400bp、至少约450bp、至少约500bp、至少约600bp、至少约700bp、至少约800bp、至少约900bp或至少约1000bp同源的基因组基因座中,其中所述含有第一靶序列的基因组基因座和所述含有第二靶序列的基因组基因座处在所述基因组中对应的位置上。在一些实施方案中,所述第一靶序列在与含有所述第二靶序列的基因组基因座的至少约100bp、至少约150bp、至少约200bp、至少约250bp、至少约300bp、至少约350bp、至少约400bp、至少约450bp、至少约500bp、至少约600bp、至少约700bp、至少约800bp、至少约900bp或至少约1000bp同源的基因组基因座中,其中所述含有第一靶序列的基因组基因座和所述含有第二靶序列的基因组基因座没有处在所述基因组中对应的位置上。在一些实施方案中,所述第一靶序列与所述第二靶序列具有至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性。在一些实施方案中,所述第一基因组基因座和所述第二基因组基因座中的一个或多个包含一个或多个独立地选自由以下项组成的组的基因组区域:基因、串联重复基因阵列、增强子、抑制子、启动子、终止序列、剪接受体序列、剪接供体序列、内含子、外显子、sirna和数量性状基因座(qtl)。在一些实施方案中,所述一个包括处于所述第一基因组基因座与所述第二基因组基因座之间的重组事件的植物细胞的后代对选自以下的一种或多种疾病表现出抗性:炭疽茎腐病(禾谷炭疽菌(colletotrichumgraminicola))、镰刀菌属穗腐病(串珠镰刀菌(fusariumverticillioides))、镰刀菌属茎腐病(镰刀菌属(fusariumspp.))、赤霉菌属穗腐病(串珠赤霉菌(gibberellamoniliformis))、赤霉菌属茎腐病(玉米赤霉菌(gibberellazeae))、内州萎蔫病(goss'swiltandleafblight)(密执安棒状杆菌(clavibactermichiganensis))、灰色叶斑病(玉蜀黍尾孢菌(cercosporazeae-maydis)、玉米尾孢菌(c.zeina))、北方玉米叶斑病(northerncornleafblight)(玉米大斑病菌(exserohilumturcicum))、猝死综合征(茄病镰刀菌大豆专化型(fusariumsolanif.sp.glycines))、亚洲大豆锈病(豆薯层锈菌(phakopsorapachyrhizi))、疫霉根腐病(大豆疫霉菌(phytophthorasojae))、根结线虫病(根结线虫属(meloidogynespp.))、大豆胞囊线虫病(大豆胞囊线虫(heteroderaglycines))、肾形线虫病(肾形线虫(rotylenchulusreniformis))、根结线虫病(南方根结线虫(meloidogyneincognita))、镰刀菌属枯萎病(尖孢镰刀菌萎蔫专化型(fusariumoxysporurnf.sp.vasinfectum))、黄萎病(大丽花轮枝孢(verticilliumdahlia))、镰刀菌属赤霉病(禾谷镰刀菌(fusariumgraminearum))、镰刀菌属苗枯病(镰刀菌属(fusariumspp.)、颖枯壳针孢(septorianodorum))、镰刀菌属叶斑病(雪腐明梭孢(monographellanivalis))和秆锈病(禾柄锈菌(pucciniagraminis))。在一些实施方案中,所述植物是玉米植株。在一些实施方案中,所述植物是大豆植株。在一些实施方案中,所述植物是棉花植株。在一些实施方案中,所述植物是小麦植株。在一些实施方案中,所述植物是高粱植株。在一些实施方案中,所述植物是油菜植株。在一些实施方案中,所述核酸靶向性系统包含(a)crispr酶,所述crispr酶包含与选自由seqidno:73和75-87组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列;和(b)能够与靶序列杂交的向导rna。在一些实施方案中,所述核酸靶向性系统还包含tracrrna。在一些实施方案中,所述核酸靶向性系统还包含二阶阳离子。在一些实施方案中,所述核酸靶向性系统还包含mg2+。在一些实施方案中,所述crispr酶的核酸酶活性被灭活。在一些实施方案中,所述核酸靶向性系统还包含具有异源功能结构域的crispr酶。若干个实施方案涉及一种通过根据上述方法而产生的植物、植物细胞或植物种子。

若干个实施方案涉及一种使目标基因组基因座渗入至所选种质中的方法,所述方法包括产生植物细胞,所述植物细胞包含有包含所述目标基因组基因座的第一亲本基因组和包含所述所选种质的第二亲本基因组;给所述植物细胞提供第一核酸靶向性系统,所述第一核酸靶向性系统引入了所述第一亲本基因组中与所述目标基因组基因座相邻的靶序列处的基因组修饰,从而诱导所述第一亲本基因组与所述第二亲本基因组之间的重组;和选择至少一个包含有至少一个包含所述所选种质和所述目标基因组基因座的重组染色体的后代。若干个实施方案涉及一种使目标基因组基因座渗入至所选种质中的方法,所述方法包括产生植物细胞,所述植物细胞包含有包含所述目标基因组基因座的第一亲本基因组和包含所述所选种质的第二亲本基因组;给所述植物细胞提供第一核酸靶向性系统,所述第一核酸靶向性系统引入了所述第一亲本基因组中与所述目标基因组基因座相邻的靶序列处的基因组修饰和所述第二亲本基因组中的靶位点处的基因组修饰,从而诱导所述第一亲本基因组与所述第二亲本基因组之间的重组;和选择至少一个包含有至少一个包含所述所选种质和所述目标基因组基因座的重组染色体的后代。若干个实施方案涉及一种使目标基因组基因座渗入至所选种质中的方法,所述方法包括产生植物细胞,所述植物细胞包含有包含所述目标基因组基因座的第一亲本基因组和包含所述所选种质的第二亲本基因组;给所述植物细胞提供第一核酸靶向性系统和第二核酸靶向性系统,所述第一核酸靶向性系统引入所述第一亲本基因组中与所述目标基因组基因座相邻的靶序列处的基因组修饰,所述第二核酸靶向性系统引入了所述第一亲本基因组中与所述基因组基因座相邻的第二靶序列处的基因组修饰,其中所述第二靶序列与所述第一核酸靶向性系统的所述靶序列处于所述基因组目标基因组基因座的相对侧上,从而诱导所述第一亲本基因组与所述第二亲本基因组之间的重组;和选择至少一株包含有至少一个包含所述所选种质和所述目标基因组基因座的重组染色体的植物细胞。若干个实施方案涉及一种使目标基因组基因座渗入至所选种质中的方法,所述方法包括产生植物细胞,所述植物细胞包含有包含所述目标基因组基因座的第一亲本基因组和包含所述所选种质的第二亲本基因组;给所述植物细胞提供第一核酸靶向性系统,所述第一核酸靶向性系统引入了所述第一亲本基因组中与所述目标基因组基因座相邻的靶序列处的基因组修饰和所述第二亲本基因组中的靶位点处的基因组修饰;以及还向所述植物细胞中引入了第二核酸靶向性系统,所述第二核酸靶向性系统引入了第一亲本基因组中与所述基因组基因座相邻的第二靶序列处的基因组修饰,其中所述第二靶序列与所述第一核酸靶向性系统的所述靶序列处于所述基因组目标基因组基因座的相对侧上,从而诱导所述第一亲本基因组与所述第二亲本基因组之间的重组;和选择至少一个包含有至少一个包含所述所选种质和所述目标基因组基因座的重组染色体的植物细胞。在一些实施方案中,所述第二核酸靶向性系统引入了所述第二亲本基因组中的靶序列处的基因组修饰。在一些实施方案中,所述重组是不对称的。在一些实施方案中,所述重组是对称的。在一些实施方案中,所述目标基因组基因座包含一个或多个独立地选自由以下项组成的组的基因组区域:基因、串联重复基因阵列、多基因家族、增强子、抑制子、启动子、终止序列、剪接受体序列、剪接供体序列、内含子、外显子、sirna、编码非编码rna的序列、mirna、转基因和数量性状基因座(qtl)。在一些实施方案中,所述基因组修饰是双链断裂(dsb)。在一些实施方案中,所述基因组修饰是单链断裂。在一些实施方案中,所述基因组修饰是重组酶介导的dna交换反应。在一些实施方案中,所述基因组修饰是转座酶介导的dna交换反应。在一些实施方案中,所述基因组修饰发生在减数分裂开始时。在一些实施方案中,所述靶序列是基因的。在一些实施方案中,所述靶序列在基因间区域内。在一些实施方案中,所述靶序列在所述第一亲本基因组的与所述第二亲本基因组的基因组基因座的至少约100bp、至少约150bp、至少约200bp、至少约250bp、至少约300bp、至少约350bp、至少约400bp、至少约450bp、至少约500bp、至少约600bp、至少约700bp、至少约800bp、至少约900bp或至少约1000bp同源的基因组基因座中。在一些实施方案中,所述靶序列在所述第一亲本基因组的与所述第二亲本基因组的基因组基因座的至少约100bp、至少约150bp、至少约200bp、至少约250bp、至少约300bp、至少约350bp、至少约400bp、至少约450bp、至少约500bp、至少约600bp、至少约700bp、至少约800bp、至少约900bp或至少约1000bp同源的基因组基因座中,其中所述第一亲本基因组的所述基因组基因座和所述第二亲本基因组的所述基因组基因座位于对应的位置。在一些实施方案中,所述靶序列在所述第一亲本基因组的与所述第二亲本基因组的基因组基因座的至少约100bp、至少约150bp、至少约200bp、至少约250bp、至少约300bp、至少约350bp、至少约400bp、至少约450bp、至少约500bp、至少约600bp、至少约700bp、至少约800bp、至少约900bp或至少约1000bp同源的基因组基因座中,其中所述第一亲本基因组的所述基因组基因座和所述第二亲本基因组的所述基因组基因座没有位于对应的位置,从而导致不对称重组。在一些实施方案中,所述第一亲本基因组和所述第二亲本基因组不是性相容的。在一些实施方案中,所述第一亲本基因组和所述第二亲本基因组是不同的物种。在一些实施方案中,所述第一亲本基因组是普通小麦(triticumaestivum)(小麦),并且所述第二亲本基因组选自卵穗山羊草(aegilopsovate)、欧山羊草(ae.biuncialis)、钩刺山羊草(ae.triuncialis)、粗山羊草(ae.quarrosa)、黑麦(secalecereal)、野生二粒小麦(triticumdicoccoides)、栽培二粒小麦(triticumdicoccum)和硬粒小麦(triticumdurum)。在一些实施方案中,所述第一亲本基因组选自卵穗山羊草、欧山羊草、钩刺山羊草、粗山羊草、黑麦、野生二粒小麦、栽培二粒小麦和硬粒小麦,并且所述第二亲本基因组是普通小麦(小麦)。在一些实施方案中,所述第一亲本基因组是陆地棉(gossypiumhirsutum)(棉花),并且所述第二亲本基因组选自斯特提棉(g.sturtii)、戴维逊氏棉(g.davidsonii)、亚洲棉(g.arboretum)和雷蒙得氏棉(g.raimondii)。在一些实施方案中,所述第一亲本基因组选自斯特提棉、戴维逊氏棉、亚洲棉和雷蒙得氏棉,并且所述第二亲本基因组是陆地棉(棉花)。在一些实施方案中,所述第一亲本基因组和/或所述第二亲本基因组是单倍体。在一些实施方案中,所述第一亲本基因组和/或所述第二亲本基因组是二倍体。在一些实施方案中,所述目标基因组基因座是rp1疾病抗性基因座。在一些实施方案中,所述目标基因组基因座是rpp1疾病抗性基因座。在一些实施方案中,所述目标基因组基因座是rps1疾病抗性基因座。在一些实施方案中,所述目标基因组基因座是rhg1疾病抗性基因座。在一些实施方案中,所述目标基因组基因座是rgh4疾病抗性基因座。在一些实施方案中,所述植物是玉米植株。在一些实施方案中,所述植物是大豆植株。在一些实施方案中,所述植物是棉花植株。在一些实施方案中,所述植物是小麦植株。在一些实施方案中,所述植物是高粱植株。在一些实施方案中,所述植物是油菜植株。在一些实施方案中,所述核酸靶向性系统包含(a)crispr酶,所述crispr酶包含与选自由seqidno:73和75-87组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列;和(b)能够与靶序列杂交的向导rna。在一些实施方案中,所述核酸靶向性系统还包含tracrrna。在一些实施方案中,所述核酸靶向性系统还包含二阶阳离子。在一些实施方案中,所述核酸靶向性系统还包含mg2+。在一些实施方案中,所述crispr酶的核酸酶活性被灭活。在一些实施方案中,所述核酸靶向性系统还包含具有异源功能结构域的crispr酶。若干个实施方案涉及一种通过根据上述方法而产生的植物、植物细胞或植物种子。

若干个实施方案涉及一种去除连锁累赘的方法,所述方法包括产生植物细胞,所述植物细胞包含第一亲本基因组和第二亲本基因组,其中所述第一亲本基因组包含顺式连接至不合需要的基因组基因座的目标基因组基因座;给所述细胞提供第一核酸靶向性系统,所述第一核酸靶向性系统引入了处于所述目标基因组基因座与所述不合需要的基因组基因座之间的基因组修饰,从而诱导所述第一亲本基因组与所述第二亲本基因组之间的重组,并且使所述目标基因组基因座与所述不合需要的基因座解除连接;和选择至少一个包含所述目标基因组基因座的后代。若干个实施方案涉及一种去除连锁累赘的方法,所述方法包括产生植物细胞,所述植物细胞包含第一亲本基因组和第二亲本基因组,其中所述第一亲本基因组包含顺式连接至不合需要的基因组基因座的目标基因组基因座;给所述细胞提供第一核酸靶向性系统,所述第一核酸靶向性系统引入了处于所述目标基因组基因座与所述不合需要的基因组基因座之间的第一基因组修饰和相对于所述第一基因组修饰处于所述不合需要的基因组基因座的相对侧上的第二基因组修饰,从而诱导所述第一亲本基因组与所述第二亲本基因组之间的重组,并且去除所述不合需要的基因座,同时维持所述第一亲本基因组的种质在所述第二基因组修饰的远侧;和选择至少一个包含所述目标基因组基因座的后代。在一些实施方案中,所述第二核酸靶向性系统引入了所述第二亲本基因组中的靶序列处的基因组修饰。在一些实施方案中,所述重组是不对称的。在一些实施方案中,所述重组是对称的。在一些实施方案中,所述目标基因组基因座包含一个或多个独立地选自由以下项组成的组的基因组区域:基因、串联重复基因阵列、多基因家族、增强子、抑制子、启动子、终止序列、剪接受体序列、剪接供体序列、内含子、外显子、sirna、编码非编码rna的序列、mirna、转基因和数量性状基因座(qtl)。在一些实施方案中,所述基因组修饰是双链断裂(dsb)。在一些实施方案中,所述基因组修饰是单链断裂。在一些实施方案中,所述基因组修饰是重组酶介导的dna交换反应。在一些实施方案中,所述基因组修饰是转座酶介导的dna交换反应。在一些实施方案中,所述基因组修饰发生在减数分裂开始时。在一些实施方案中,所述第一亲本基因组和所述第二亲本基因组不是性相容的。在一些实施方案中,所述第一亲本基因组和所述第二亲本基因组是不同的物种。在一些实施方案中,所述第一亲本基因组是普通小麦(小麦),并且所述第二亲本基因组选自卵穗山羊草、欧山羊草、钩刺山羊草、粗山羊草、黑麦、野生二粒小麦、栽培二粒小麦和硬粒小麦。在一些实施方案中,所述第一亲本基因组选自卵穗山羊草、欧山羊草、钩刺山羊草、粗山羊草、黑麦、野生二粒小麦、栽培二粒小麦和硬粒小麦,并且所述第二亲本基因组是普通小麦(小麦)。在一些实施方案中,所述第一亲本基因组是陆地棉(棉花),并且所述第二亲本基因组选自斯特提棉、戴维逊氏棉、亚洲棉和雷蒙得氏棉。在一些实施方案中,所述第一亲本基因组选自斯特提棉、戴维逊氏棉、亚洲棉和雷蒙得氏棉,并且所述第二亲本基因组是陆地棉(棉花)。在一些实施方案中,所述第一亲本基因组和/或所述第二亲本基因组是单倍体。在一些实施方案中,所述第一亲本基因组和/或所述第二亲本基因组是二倍体。在一些实施方案中,所述目标基因组基因座是rp1疾病抗性基因座。在一些实施方案中,所述目标基因组基因座是rpp1疾病抗性基因座。在一些实施方案中,所述目标基因组基因座是rps1疾病抗性基因座。在一些实施方案中,所述目标基因组基因座是rhg1疾病抗性基因座。在一些实施方案中,所述目标基因组基因座是rhg4疾病抗性基因座。在一些实施方案中,所述植物是玉米植株。在一些实施方案中,所述植物是大豆植株。在一些实施方案中,所述植物是棉花植株。在一些实施方案中,所述植物是小麦植株。在一些实施方案中,所述植物是高粱植株。在一些实施方案中,所述植物是油菜植株。在一些实施方案中,所述核酸靶向性系统包含(a)crispr酶,所述crispr酶包含与选自由seqidno:73和75-87组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列;和(b)能够与靶序列杂交的向导rna。在一些实施方案中,所述核酸靶向性系统还包含tracrrna。在一些实施方案中,所述核酸靶向性系统还包含二阶阳离子。在一些实施方案中,所述核酸靶向性系统还包含mg2+。在一些实施方案中,所述crispr酶的核酸酶活性被灭活。在一些实施方案中,所述核酸靶向性系统还包含具有异源功能结构域的crispr酶。若干个实施方案涉及一种通过根据上述方法而产生的植物、植物细胞或植物种子。

若干个实施方案涉及一种使相斥的基因组基因座偶联的方法,所述方法包括产生植物细胞,所述植物细胞包含有包含第一基因组基因座的第一亲本基因组和包含第二基因组基因座的第二亲本基因组,其中所述第一基因组基因座和所述第二基因组基因座相斥;给所述细胞提供第一核酸靶向性系统,所述第一核酸靶向性系统引入了与所述第一基因组基因座相邻的基因组修饰,从而诱导所述第一亲本基因组与所述第二亲本基因组之间的重组;和选择至少一个包含处于相同染色体上的所述第一基因组基因座和所述第二基因组基因座的植物细胞。在一些实施方案中,所述第一基因组基因座和所述第二基因组基因座位于同源染色体上。在一些实施方案中,所述第一亲本基因组和所述第二亲本基因组不是性相容的。在一些实施方案中,所述第一亲本基因组和所述第二亲本基因组是不同的物种。在一些实施方案中,所述第一目标基因组基因座和/或所述第二目标基因组基因座包含一个或多个独立地选自由以下项组成的组的基因组区域:基因、串联重复基因阵列、增强子、抑制子、启动子、终止序列、剪接受体序列、剪接供体序列、内含子、外显子、sirna和数量性状基因座(qtl)。在一些实施方案中,所述第一亲本基因组和/或所述第二亲本基因组是单倍体。在一些实施方案中,所述第一亲本基因组和/或所述第二亲本基因组是二倍体。在一些实施方案中,所述第一亲本基因组是普通小麦(小麦),并且所述第二亲本基因组选自卵穗山羊草、欧山羊草、钩刺山羊草、粗山羊草、黑麦、野生二粒小麦、栽培二粒小麦和硬粒小麦。在一些实施方案中,所述第一亲本基因组选自卵穗山羊草、欧山羊草、钩刺山羊草、粗山羊草、黑麦、野生二粒小麦、栽培二粒小麦和硬粒小麦,并且所述第二亲本基因组是普通小麦(小麦)。在一些实施方案中,所述第一亲本基因组是陆地棉(棉花),并且所述第二亲本基因组选自斯特提棉、戴维逊氏棉、亚洲棉和雷蒙得氏棉。在一些实施方案中,所述第一亲本基因组选自斯特提棉、戴维逊氏棉、亚洲棉和雷蒙得氏棉,并且所述第二亲本基因组是陆地棉(棉花)。在一些实施方案中,所述目标基因组基因座是rp1疾病抗性基因座。在一些实施方案中,所述第一目标基因组基因座和/或所述第二目标基因组基因座是rpp1疾病抗性基因座。在一些实施方案中,所述第一目标基因组基因座和/或所述第二目标基因组基因座是rps1疾病抗性基因座。在一些实施方案中,所述第一目标基因组基因座和/或所述第二目标基因组基因座是rhg1疾病抗性基因座。在一些实施方案中,所述第一目标基因组基因座和/或所述第二目标基因组基因座是rhg4疾病抗性基因座。在一些实施方案中,所述第一目标基因组基因座是rhg1,并且所述第二目标基因组基因座是rhg4。在一些实施方案中,所述植物是玉米植株。在一些实施方案中,所述植物是大豆植株。在一些实施方案中,所述植物是棉花植株。在一些实施方案中,所述植物是小麦植株。在一些实施方案中,所述植物是高粱植株。在一些实施方案中,所述植物是油菜植株。在一些实施方案中,所述核酸靶向性系统包含(a)crispr酶,所述crispr酶包含与选自由seqidno:73和75-87组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列;和(b)能够与靶序列杂交的向导rna。在一些实施方案中,所述核酸靶向性系统还包含tracrrna。在一些实施方案中,所述核酸靶向性系统还包含二阶阳离子。在一些实施方案中,所述核酸靶向性系统还包含mg2+。在一些实施方案中,所述crispr酶的核酸酶活性被灭活。在一些实施方案中,所述核酸靶向性系统还包含具有异源功能结构域的crispr酶。若干个实施方案涉及一种通过根据上述方法而产生的植物、植物细胞或植物种子。

若干个实施方案涉及一种产生新的串联重复基因阵列的方法,所述方法包括使细胞与核酸靶向性系统接触,所述核酸靶向性系统切割第一串联重复基因阵列中的至少一个靶序列,从而诱导与第二串联重复基因阵列的同源序列的不对称重组;和选择至少一个包含新的串联重复基因阵列的后代。在一些实施方案中,所述第一串联重复基因阵列与所述第二串联重复基因阵列是同一的。在其它实施方案中,所述第一串联重复基因阵列与所述第二串联重复基因阵列是不同的。在一些实施方案中,取决于重组位点,所述不对称重组产生了两个新的串联重复基因阵列。在一些实施方案中,所述不对称重组引起了所述串联重复基因中的至少一个缺失。在一些实施方案中,所述细胞是植物细胞。在另一个实施方案中,所述植物细胞是获自植物,所述植物选自近交植物或杂交植物。在其它实施方案中,所述细胞是哺乳动物细胞。

附图简述

图1.是包含ncc1操纵子的基因组区域的示例,其中两个预测的tracrrna(‘tracr’)和三个独立的crispr基因座(crispr-1、crispr-2和crispr-3)具有所述相对顺序和取向。所述ncc1操纵子包含ncc1基因(seqidno:73)、一个编码cas1cas4融合物的基因和一个编码cas2的基因。

图2.示出了tracrrna(seqidno:165)与crrna(seqidno:166)融合的推定处理前ncc1向导rna的预测二级结构。预测两个tracrrna针对ncc1。tracrrna(seqidno:165)中的两个被圈出的‘a’核苷酸在第二tracrrna(seqidno:162)中都变成了g。所述tracrrna含有两个发夹结构,所述发夹结构与未配对的‘u’连接,在图中以连接各tracrrna发夹的碱基与字母‘u’的黑线示出。tracrrna中与crrna互补的部分以黑线连接至tracrrna的其余部分。靶特异性序列的位置示于crrna的3'端。

图3.示出了tracrrna(seqidno:195)与crrna(seqidno:196)融合的推定处理后ncc1向导rna的预测二级结构。

图4.示出了通过利用短环序列gaaa使处理后tracrrna(seqidno:195)和crrna(seqidno:196)融合而形成的单个向导rna(seqidno:197)的预测二级结构。

图5a、图5b和图5c.用来验证本文描述的新颖crispr酶的核酸酶活性的测定的图。图5a.用来筛检核酸酶活性的基于大肠杆菌的蓝-白选择测定的图。使用具有卡那霉素(kan)选择标记物的puc19载体来克隆编码新颖crispr酶的rgen区域(roi)。构建了包含lacz报告基因和编码来自crispr区的间隔子的靶序列的第二载体,所述靶序列侧接有可变序列(以nnn间隔子nnn表示)。将两个载体共同转化至大肠杆菌细胞中,并且白色菌落的存在表示被新颖crispr酶切割。使用序列分析来证实内切核酸酶活性。图5b.体外切割测定的图。从大肠杆菌中纯化出所述新颖crispr酶,并且将经过纯化的蛋白质与供切割的dna靶(nnn间隔子nnn)一起在体外孵育。所得dna(a)通过凝胶电泳分析片段长度,并且(b)通过序列分析加以分析。图5c.原位切割测定的图。将所述新颖crispr酶和关联的向导rna克隆至载体中以促进在植物细胞中的表达。将表达载体、双链寡核苷酸(dsoligo)和(任选地)含有靶序列的质粒dna共同转化至植物细胞中。利用标准分子生物学测定(pcr((tm))、限制片段大小分析或者测序)来评估对(a)染色体dna或(b)引入的质粒模板的新颖内切核酸酶活性。

图6.用来验证本文描述的新颖crispr酶的核酸酶活性的分枝杆菌切割测定的图。将用于图5的大肠杆菌蓝-白选择的载体用于共同转化分枝杆菌。由于分枝杆菌中存在内源质粒修复,所以通过插入缺失来修复lacz质粒中的双股断裂。lacz载体中存在插入缺失表明了新颖的内切核酸酶活性。

图7.用于验证crispr酶活性的原核生物蓝-白选择测定设计的图。顶行示出了用于新颖crispr酶(roi(rgen))表达的载体的图。底行示出了含有推定靶序列(nnn间隔子nnn间隔子nnn)和lacz标记物的载体的图。左侧上下一对是缺乏所述靶序列的对照物。中间上下一对是缺乏所述新颖crispr酶(roi(rgen))的对照物。右侧上下一对是利用含有所述新颖crispr酶(roi(rgen))和所述靶序列的相应载体的测试测定。

图8.针对用来如实施例10中所描述来验证对ncc1的rna导向性内切核酸酶活性的2-质粒测定和3-质粒测定而设计的构建体的图。该图划分了被克隆至测试用质粒之一中的ncc1基因组区域的13个独立的片段。举例来说,载体1含有ncc1基因组区域的完全10.1kb片段。载体2含有ncc1基因组区域中包括tracrrna之一、crispr-2基因座、ncc1基因、cas1/cas4基因和cas2基因的6.8kb片段。载体3含有ncc1基因组区域中包括crispr-2基因座、ncc1基因、cas1/cas4基因和cas2基因的6.4kb片段。载体4含有ncc1基因组区域中包括ncc1基因、cas1/cas4基因和cas2基因的5.5kb片段(ncc1操纵子)。载体5含有ncc1基因组区域中包括所述cas1/cas4基因和所述cas2基因的2.1kb片段。载体6含有ncc1基因组区域中仅包括cas2基因的0.4kb片段。载体7含有ncc1基因组区域中包括tracrrna之一、crispr-2基因座、ncc1基因和cas1/cas4基因的6.4kb片段。载体8含有ncc1基因组区域中包括tracrrna之一、crispr-2基因座和ncc1基因的4.7kb片段。载体9含有ncc1基因组区域中包括tracrrna之一和crispr-2基因座的1.25kb片段。载体10含有ncc1基因组区域中包括crispr-2基因座、ncc1基因和cas1/cas4基因的6.0kb片段。载体11含有ncc1基因组区域中包括crispr-2基因座和ncc1基因的4.3kb片段。载体12含有ncc1基因组区域中仅包括ncc1基因的3.4kb片段。载体13含有ncc1基因组区域中仅包括cas1/cas4基因的1.7kb片段。

具体实施方式

除非另外定义,否则本文使用的所有技术术语和科学术语都具有与本公开所属领域的普通技术人员通常所理解的含义相同的含义。在术语以单数形式提供时,诸位发明人还设想了由该术语的复数形式描述的本公开的诸多方面。在与以引用的方式并入的参考文献中使用的术语和定义矛盾时,本申请中使用的术语应当具有本文给出的定义。所使用的其它技术术语具有其应用领域中的普通含义,如各种技术专用词典所示例,例如“theamericansciencedictionary”(theamericanheritagedictionaries的编辑们,2011,houghtonmifflinharcourt,bostonandnewyork)、“mcgraw-hilldictionaryofscientificandtechnicalterms”(第6版,2002,mcgraw-hill,newyork)或“oxforddictionaryofbiology”(第6版,2008,oxforduniversitypress,oxfordandnewyork)。诸位发明人不希望受制于作用机制或模式。对其的参考仅仅是出于说明目的而提供。

除非另外指出,否则本公开的实践采用生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学、植物育种和生物技术的传统技术,这些都在本领域技术人员的能力范围内。参见green和sambrook,molecularcloning:alaboratorymanual,第4版(2012);currentprotocolsinmolecularbiology(f.m.ausubel等编,(1987));丛书methodsinenzymology(academicpress,inc.):pcr2:apracticalapproach(m.j.macpherson,b.d.hames和g.r.taylor编,(1995));harlow和lane编,(1988)antibodies,alaboratorymanual;animalcellculture(r.i.freshney编,(1987));recombinantproteinpurification:principlesandmethods,18-1142-75,gehealthcarelifesciences;c.n.stewart,a.touraev,v.citovsky,t.tzfira编,(2011)planttransformationtechnologies(wiley-blackwell);以及r.h.smith(2013)planttissueculture.techniquesandexperiments(academicpress,inc.)。

本文引用的任何参考文献都以引用的方式整体并入。

除非上下文另外清楚地指出,否则如本文所使用,单数形式“一个”、“一种”和“所述”包括复数指代物。举例来说,术语“一种化合物”或“至少一种化合物”可以包括多种化合物,包括其混合物。因此,举例来说,参考“植物”、“所述植物”或“一株植物”还包括多株植物;而且,取决于上下文,使用术语“植物”还可以包括该植物的基因类似或相同的后代;使用术语“核酸”实际上任选地包括该核酸分子的许多拷贝。

如本文所使用,术语“约”表示值包括用于测定值的方法的误差的固有变异或实验间存在的变异。

如本文所使用,术语“crispr酶”和“crispr效应蛋白”一般可互换使用,并且同样是指利用能够与特异性靶序列杂交的rna将基因组修饰酶导向它发挥它的活性的靶位点的新颖的基因组修饰酶。在一些实施方案中,新颖的rna导向性基因组修饰酶是rna导向性内切核酸酶(rgen)。

如本文所使用,“编码”是指多核苷酸(dna或rna)编码多肽的氨基酸或者dna编码rna的核苷酸。如本文所使用,“编码序列”和“编码区”可互换使用,并且是指编码多肽的多核苷酸。编码区的边界一般通过其5'端的翻译起始密码子和其3'端的翻译终止密码子来确定。

如本文所使用,“内源”分子是在特定的环境条件下在特定的发育阶段存在于特定的细胞中的正常分子。

如本文所使用,“表达盒”是指可能或可能没有可操作地连接至一个或多个表达元件如增强子、启动子、前导序列、内含子、5'非翻译区(utr)、3'utr或转录终止序列的多核苷酸序列。在一些实施方案中,表达盒至少包含能够引发可操作地连接的第二多核苷酸序列的转录的第一多核苷酸序列和任选地可操作地连接至所述第二多核苷酸序列的转录终止序列。

如本文所使用,术语“基因”意指基因组序列中对应于遗传单元的可定位区域。基因可以包括调控区域,诸如启动子、增强子、5'非翻译区、内含子区、外显子区、3'非翻译区、转录的区域,和可能作为天然基因或转基因存在于植物或哺乳动物基因组中的其它功能序列区域。取决于情形,术语“靶基因”可以指结合和/或切割所靶向的基因的全长核苷酸序列或者结合和/或切割所靶向的基因的部分核苷酸序列。靶基因可以是内源基因或转基因。

如本文所使用,术语“基因组基因座”是指染色体上的特定位置。基因组基因座可以包含基因组区域中的单个核苷酸、几个核苷酸、大量核苷酸、基因、基因的部分、基因簇、多基因家族或基因阵列。

如本文所使用,术语“同源重组”是指被两个基因组基因座或者被供体dna和靶位点共用的保守区域处的核苷酸序列的交换。同源重组包括对称同源重组和不对称同源重组。不对称同源重组还可以称为不等重组。

如本文所使用,术语“同一性”在关于核酸使用时描述两个或更多个核苷酸序列之间的相似性程度。可以通过在比较窗口上比较两个最佳对齐的序列,使得所述比较窗口中的序列部分相较于参考序列(其不包含添加或缺失)可能包含添加或缺失(空位)以便实现该两个序列的最佳对齐来确定两个序列之间的“序列同一性”百分比。通过以下方式计算该百分比:确定两个序列中存在同一核酸碱基或氨基酸残基的位置的数目以产生匹配位置的数目,将匹配位置的数目除以比较窗口中的总位置数,并且将结果乘以100以产生序列同一性百分比。相较于参考序列在每个位置上都同一的序列被称为与参考序列同一,并且相较于参考序列在每个位置上都不同的序列被称为与参考序列不同一。可以使用任何合适的计算机程序来进行两个或更多个序列的比对。举例来说,被广泛使用和接受的用于进行序列比对的计算机程序是clustalwv1.6(thompson等,(1994)nucl.acidsres.,22:4673-4680)。

如本文所使用,“非编码序列”可以编码功能rna(例如转移rna、核糖体rna、微rna、piwi相互作用rna)、启动子、内含子、mrna的非翻译区(例如5'非翻译区或3'非翻译区)、假基因、重复序列或转座元件。非编码序列不编码功能多肽。

如本文所使用,术语“核酸”、“多核苷酸”和“寡核苷酸”可互换使用,并且是指脱氧核糖核苷酸(dna)、核糖核苷酸(rna)及其功能类似物,如呈线性或环形构象的互补dna(cdna)。本文提供的核酸分子可以是单链或双链的。核酸分子包含核苷酸碱基腺嘌呤(a)、鸟嘌呤(g)、胸嘧啶(t)、胞嘧啶(c)。在rna分子中,尿嘧啶(u)置换胸嘧啶。本文还提供了天然核苷酸碱基的类似物,以及在碱基、糖和/或磷酸部分中经修饰的核苷酸碱基。符号“n”可用于表示任何核苷酸碱基(例如a、g、c、t或u)。如本文所使用,“互补”就核酸分子或核苷酸碱基而言是指a与t(或u)互补,和g与c互补。两个互补核酸分子能够在适当的条件下彼此杂交。在本公开的一个方面,如果两个核酸序列彼此具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性,则它们是同源的。

如本文所使用,“可操作地连接”意指可操作地连接的核酸序列表现出其所期望的功能。举例来说,在本公开的一个方面,所提供的dna启动子序列可以引发可操作地连接的dna序列转录至rna中。本文提供的核酸序列可以在物理或可操作地连接的核酸序列的上游或下游。在一个方面,本文提供的第一核酸分子既物理连接又可操作地连接至本文提供的第二核酸分子。在另一个方面,本文提供的第一核酸分子既不物理连接又不可操作地连接至本文提供的第二核酸分子。如本文所使用,“上游”意指所述核酸序列位于连接的核酸序列的5'端之前。如本文所使用,“下游”意指所述核酸序列位于连接的核酸序列的3'端之后。

如本文所使用,术语“植物”是指植物界的任何光合生物、真核生物、单细胞生物或多细胞生物,并且包括完整植物或者来源于植物的细胞或组织培养物,包括以下项中的任一项:完整植物、植物部分或器官(例如叶、茎、根等)、植物组织、种子、植物细胞、原生质体和/或其后代。后代植物可以来自于任何子代,例如f1、f2、f3、f4、f5、f6、f7等。“植物细胞”是植物的生物学细胞,它取自植物或通过培养而来源于取自植物的细胞。术语植物涵盖单子叶植物和双子叶植物。本文描述的方法、系统和组合物可用于多种植物。本文公开的方法、系统和组合物可以使用的合适的植物包括但不限于谷类和禾本牧草(例如,紫花苜蓿、水稻、玉米、小麦、大麦、燕麦、高粱、珍珠稷、龙爪稷、冷季牧草和百喜草)、油籽作物(例如,大豆、油籽芸苔包括油菜籽和油菜、向日葵、花生、亚麻、芝麻和红花)、豆类谷物和牧草(例如,普通菜豆、豇豆、豌豆、蚕豆、小扁豆、宽叶菜豆、亚洲菜豆、木豆、野豌豆、鹰嘴豆、羽扇豆、紫花苜蓿和苜蓿)、温带水果和坚果(例如,苹果、梨、桃、李、浆果作物、樱桃、葡萄、橄榄、巴旦杏和波斯胡桃)、热带和亚热带水果和坚果(例如,柑橘类,包括柠檬、柑橘和葡萄柚;香蕉和大蕉、菠萝、番木瓜、芒果、鳄梨、奇异果、西番莲果和柿子)、蔬菜作物(例如,茄科植物,包括番茄、茄子和辣椒;蔬菜芸苔;萝卜、胡萝卜、葫芦、葱、芦笋和叶菜类)、甘蔗、块茎类(例如,甜菜、欧洲萝卜、马铃薯、芜菁、甜薯)和纤维作物(甘蔗、糖用甜菜、甜菊、马铃薯、甜薯、木薯和棉花)、种植作物、观赏植物和草皮草(烟草、咖啡、可可、茶树、橡胶树、药用植物、观赏植物和草皮草)和森林树种。

如本文所使用,“植物基因组”是指植物细胞的核基因组、线粒体基因组或质粒(例如叶绿体)基因组。在一些实施方案中,植物基因组可以包含由雄株贡献的亲本基因组和由雌株贡献的亲本基因组。在一些实施方案中,植物基因组可以仅包含一个亲本基因组。

如本文所使用,“多核苷酸”是指含有多个核苷酸的核酸分子,而且一般是指“寡核苷酸”(18至25个核苷酸长度的多核苷酸分子)与具有26个或更多个核苷酸的多核苷酸。本公开的诸多方面包括组合物,所述组合物包括具有18至25个核苷酸的长度的寡核苷酸(例如,18聚体、19聚体、20聚体、21聚体、22聚体、23聚体、24聚体或25聚体),或者具有26个或更多个核苷酸的长度的中等长度多核苷酸(例如,具有26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、约65、约70、约75、约80、约85、约90、约95、约100、约110、约120、约130、约140、约150、约160、约170、约180、约190、约200、约210、约220、约230、约240、约250、约260、约270、约280、约290或约300个核苷酸的多核苷酸),或者具有超过约300个核苷酸的长度的长多核苷酸(例如,长度在约300至约400个核苷酸之间、在约400至约500个核苷酸之间、在约500至约600个核苷酸之间、在约600至约700个核苷酸之间、在约700至约800个核苷酸之间、在约800至约900个核苷酸之间、在约900至约1000个核苷酸之间、在约300至约500个核苷酸之间、在约300至约600个核苷酸之间、在约300至约700个核苷酸之间、在约300至约800个核苷酸之间、在约300至约900个核苷酸或约1000个核苷酸之间,乃至长度超过约1000个核苷酸,例如,直至靶基因的整个长度,包括靶基因的编码部分或非编码部分或者编码部分与非编码部分的多核苷酸)。在多核苷酸是双链的情况下,可以依据碱基对类似地描述其长度。

如本文所使用,术语“多肽”、“肽”和“蛋白质”可互换用于指氨基酸残基的聚合物。该术语还适用于一个或多个氨基酸是对应的天然存在氨基酸的化学类似物或修饰衍生物的氨基酸聚合物。

如本文所使用,“原生质体”是指已经使用例如机械或酶催手段完全或部分去除了其保护性细胞壁的植物细胞,所得到的活植物的完整生物化学胜任单元可以在适当的生长条件下重新形成其细胞壁、繁殖并且再生长成完整的植物。

如本文所使用,“启动子”是指位于基因的开放阅读框(或蛋白质编码区)的翻译起始密码子上游或5'并且参与rna聚合酶i、ii或iii和其它蛋白质(反式激活转录因子)的识别和结合以引发转录的核酸序列。在本文描述的一些实施方案中,所述启动子是植物启动子。“植物启动子”是在植物细胞中具有功能性的天然或非天然启动子。组成型启动子在整个植物发育过程中在植物的大部分或所有组织中具有功能性。组织、器官或细胞特异性启动子分别仅仅或主要表达在特定的组织、器官或细胞类型中。启动子可以呈现出“增强的”表达而不是“特异性”表达于指定的组织、植物部分或细胞类型中,即,在植物的一种细胞类型、组织或植物部分中的表达水平与植物的其它部分相比更高。时间调控启动子仅仅或主要在植物发育的某些周期期间或者在一天中的某些时候具有功能性,举例来说,如在与昼夜节律相关的基因的情况下。诱导型启动子响应于内源或外源刺激(例如由化学化合物(化学诱导剂)引起)的存在或响应于环境、激素、化学和/或发育信号而选择性地表达可操作地连接的dna序列。诱导性或调控型启动子包括例如受光、热、应力、洪涝或干旱、植物激素、创伤或化学品如乙醇、茉莉酮酸酯、水杨酸或安全剂调控的启动子。在一个方面,本文提供的启动子是组成型启动子。在另一个方面,本文提供的启动子是调控型启动子。在一个方面,本文提供的启动子位于目标序列内。在另一个方面,本文提供的启动子不位于目标序列内。文献中已经描述了许多在植物细胞中有活性的启动子。此类启动子将包括但不限于根癌农杆菌的ti质粒上携带的胭脂碱合酶(nos)(ebert等,1987)和章鱼碱合酶(ocs)启动子、花椰菜花叶病毒启动子如花椰菜花叶病毒(camv)19s(lawton等,plantmolecularbiology(1987)9:315-324)和35s启动子(odell等,nature(1985)313:810-812)、玄参花叶病毒(fmv)35s启动子(美国专利号6,051,753、5,378,619)和增强型camv35s启动子(e35s)。可以使用的其它启动子有蔗糖合酶启动子(yang和russell,proceedingsofthenationalacademyofsciences,usa(1990)87:4144-4148)、r基因复合物启动子(chandler等,plantcell(1989)1:1175-1183)和叶绿素a/b结合蛋白基因启动子、pc1sv(美国专利号5,850,019),以及agrtu.nos(genbank登录号v00087;depicker等,journalofmolecularandappliedgenetics(1982)1:561-573;bevan等,1983)启动子。应环境、激素、化学和/或发育信号而调控的多种其它植物基因启动子也可以用于在植物细胞中表达异源基因,包括例如受以下各物调控的启动子:(1)热(callis等,plantphysiology,(1988)88:965-968);(2)光(例如,豌豆rbcs-3a启动子,kuhlemeier等,plantcell,(1989)1:471-478;玉米rbcs启动子,schaffner等,plantcell(1991)3:997-1012);(3)激素,诸如脱落酸(marcotte等,plantcell,(1989)1:969-976);(4)创伤(例如,siebertz等,plantcell,(1989)961-968);或者其它信号或化学品。组织特异性启动子也是已知的。在一些实施方案中,启动子能够引起足以产生有效量的目标基因产物的表达。描述此类启动子的实例包括但不限于美国专利号6,437,217(玉米rs81启动子)、美国专利号5,641,876(水稻肌动蛋白启动子)、美国专利号6,426,446(玉米rs324启动子)、美国专利号6,429,362(玉米pr-1启动子)、美国专利号6,232,526(玉米a3启动子)、美国专利号6,177,611(组成型玉米启动子)、美国专利号5,322,938、5,352,605、5,359,142和5,530,196(35s启动子)、美国专利号6,433,252(玉米l3油体蛋白启动子)、美国专利号6,429,357(水稻肌动蛋白2启动子以及水稻肌动蛋白2内含子)、美国专利号5,837,848(根特异性启动子)、美国专利号6,294,714(光诱导型启动子)、美国专利号6,140,078(盐诱导型启动子)、美国专利号6,252,138(病原体诱导型启动子)、美国专利号6,175,060(磷缺乏诱导型启动子)、美国专利号6,635,806(γ-薏苡醇溶蛋白启动子)和美国专利申请序号09/757,089(玉米叶绿体醛缩酶启动子)。在一些实施方案中,可以构建启动子杂合体以增强转录活性(美国专利号5,106,739)。在一些实施方案中,可以构建启动子杂合体以合并所期望的转录活性、转录可诱导性、转录组织特异性和/或转录发育特异性。在植物中发挥功能的启动子包括但不限于诱导型启动子、病毒启动子、合成启动子、组成型启动子、时间调控型启动子、空间调控型启动子和空间-时间调控型启动子。本领域中还已知其它组织增强型、组织特异性或发育调控型启动子,并且设想在实践本发明方面具有效用。用于本公开所提供的核酸分子和转化载体中的启动子可以在需要时经过修饰以影响其控制特征。可以借助于与操纵子区连接、随机或受控诱变等而得到启动子。此外,可以改变启动子以包括多个“增强子序列”以辅助提高基因表达。

如本文所使用,“重组核酸”是指可同自然系统中发现的内源核酸区分的具有编码序列和/或非编码序列的核酸分子(dna或rna)。在一些方面,本文提供的重组核酸被用于本文提供的任何组合物、系统或方法中。在一些方面,可以编码本文提供的任何crispr酶的重组核酸可用于本文提供的任何组合物、系统或方法中。在一些方面,可以包含或编码本文提供的任何向导rna的重组核酸可用于本文提供的任何组合物、系统或方法中。在一些方面,可以包含本文提供的任何供体多核苷酸的重组核酸可用于本文提供的任何组合物、系统或方法中。在一个方面,本文提供的载体包含本文提供的任何重组核酸。在另一个方面,本文提供的细胞包含本文提供的重组核酸。在另一个方面,本文提供的细胞包含本文提供的载体。

如本文所使用,术语“重组”是指两个dna分子交换核苷酸序列的过程。在一些方面,本文提供的组合物、系统或方法促进两个dna分子之间的重组。在一些实施方案中,重组发生在两组亲本染色体之间。在一些实施方案中,重组发生在两个同源染色体之间。在一些实施方案中,重组发生在非同源染色体之间。在一些实施方案中,重组发生在部分同源染色体之间。在一些实施方案中,重组产生了新的基因序列、基因数目、基因排列、等位基因或等位基因组合。多种用于检测重组的方法在本领域中是已知的,并且包括但不限于1)表型筛检;2)分子标记物技术,如通过或illumina/infinium技术进行的单核苷酸多态性-snp分析;3)南方印迹法;和4)测序。

如本文所使用,术语“重组事件”是指两个dna分子之间的重组情况。

如本文所使用,术语“重组率”是指两个基因组基因座之间将发生重组事件的概率。重组率可受众多因素影响,包括但不限于两个基因组基因座之间的距离、基因座存在的染色体区域(例如,着丝粒区、端粒区)、转录活性、染色体倒位的存在和其它因素。测量重组的方法包括但不限于在定位群体中进行连锁分析,以及定量技术,如定量pcr(qpcr)或微滴数字pcr(ddpcr),如本公开中所描述。在一些方面,本文提供的组合物、系统或方法增加了重组率。如本文所使用,术语“调控元件”意在包括启动子、增强子、内部核糖体进入位点(ires)和其它表达控制元件(例如,转录终止信号,如多聚腺苷酸化信号和多聚u序列)。此类调控元件描述于例如goeddel,geneexpressiontechnology:methodsinenzymology185,academicpress,sandiego,calif.(1990)中。调控元件包括指导许多种类型宿主细胞中的核苷酸序列的组成性表达的调控元件和仅仅指导某些宿主细胞中的核苷酸序列的表达的调控元件(例如,组织特异性调控序列)。组织特异性启动子可以主要指导所期望的目标组织如分生组织或特定的细胞类型(例如,花粉)中的表达。调控元件还可以用时间依赖性方式,如用细胞周期依赖性或发育阶段依赖性方式指导表达,所述方式可能或未必还具有组织或细胞类型特异性。术语“调控元件”还涵盖增强子元件,如wpre;cmv增强子;htlv-i的ltr中的r-u5'区段(mol.cell.biol.,第8卷(1),第466-472页,1988);和sv40增强子。

如本文所使用,术语“靶序列”或“靶位点”是指向导rna能够与其杂交的核苷酸序列。靶序列可以是基因的或非基因的。在一些方面,本文提供的靶序列包含基因区域。在其它方面,本文提供的靶序列包含基因间区域。在另一个方面,本文提供的靶序列包含基因区域与基因间区域。在一个方面,本文提供的靶序列包含编码核酸序列。在另一个方面,本文提供的靶序列包含非编码核酸序列。在一个方面,本文提供的靶序列位于启动子中。在另一个方面,本文提供的靶序列包含增强子序列。在另一个方面,本文提供的靶序列包含编码核酸序列与非编码核酸序列。在一个方面,本文提供的靶序列被双链断裂诱导剂,如包含crispr酶和向导rna的系统识别并且切割。

新颖的crispr酶

本公开提供了从各种细菌基因组中鉴定的新颖crispr酶的多核苷酸序列和氨基酸序列。在一些实施方案中,本文提供的crispr酶包含选自seqidno:1-36、73和75-87的氨基酸序列、其片段、其同系物及其直系同源物。术语“直系同源物”和“同系物”在本领域中是众所周知的。如本文所描述的crispr酶的“同系物”是执行与作为其同系物的蛋白质相同或相似的功能的相同种类的蛋白质。同源蛋白质可能但不必具有结构相关性,或者仅仅具有部分结构相关性。如本文所描述的crispr酶的“直系同源物”是执行与作为其直系同源物的蛋白质相同或相似的功能的不同种类的蛋白质。直系同源蛋白质可能但不必具有结构相关性,或者仅仅具有部分结构相关性。可以通过同源性建模或者结构blast(deyf,cliffzhangq,petreyd,honigb.towarda“structuralblast”:usingstructuralrelationshipstoinferfunction.proteinsci.2013年4月;22(4):359-66.doi:10.1002/pro.2225.)来鉴定同系物和直系同源物。在一些实施方案中,如本文所描述的新颖crispr酶的同系物或直系同源物与包含选自seqidno:1-36、73和75-87的氨基酸序列的crispr酶具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的序列同源性或同一性。

在一些实施方案中,本文提供的crispr酶与将所述crispr酶引导至靶位点的向导rna形成复合物,其中所述crispr酶在核酸序列中引入单链断裂或双链断裂(dsb)。所靶向的核酸序列可以是dna、rna或者dna/rna杂合体。可以通过非同源末端接合(nhej),创造较高的引入小插入或缺失(插入缺失)的可能性,从而引起框移突变来修复引入的dsb。替代地,在应用同源性依赖性修复(hdr)途径时,可以在dsb区域对具有所期望的突变的dna序列进行取代。在一些实施方案中,将包含一个或多个转基因的重组核酸整合在所述靶位点处。

本公开还提供了一种重组核酸,所述重组核酸包含可操作地连接至编码如本文所描述的crispr酶的多核苷酸的异源启动子。在一些实施方案中,本文提供的crispr酶是由包含选自seqidno:37-72、74、88-100和300-799的序列或其片段的多核苷酸序列编码。在一些实施方案中,本文提供的crispr酶是由包含与选自seqidno:37-72、74、88-100和300-799的序列或其片段具有至少80%同一性、至少81%同一性、至少82%同一性、至少83%同一性、至少84%同一性、至少85%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性或至少99%同一性的序列的多核苷酸序列编码。在一个方面,本文提供的重组核酸包含一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个或者十个或更多个异源启动子,所述异源启动子可操作地连接至一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个或者十个或更多个编码crispr酶的多核苷酸。在一些实施方案中,本文提供的重组核酸编码一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个或者十个或更多个向导rna。如本文所使用,术语“向导rna”是指包含可以通过与靶序列杂交而将crispr酶引导至靶dna分子的核苷酸序列的rna分子。在一个方面,本文提供的向导rna包含crisprrna(crrna)。在一个方面,本文提供的向导rna包含与反式激活crisprrna(tracrrna)复合的crisprrna(crrna)。在另一个方面,本文提供的向导rna包含单链向导rna。在一个方面,本文提供的单链向导rna包含crrna与tracrrna。

在一些实施方案中,本文提供的重组核酸包含编码向导rna的多核苷酸。在一个方面,本文提供的重组核酸包含一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个或者十个或更多个多核苷酸,所述多核苷酸编码一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个或者十个或更多个向导rna。在一个方面,本文提供的编码向导rna的多核苷酸可操作地连接至第二启动子。在另一个方面,本文提供的向导rna是分离的rna。在一个方面,本文提供的向导rna在病毒载体、质粒载体或农杆菌载体中被编码。在一个方面,本文提供的向导rna包含crrna。在一个方面,本文提供的向导rna包含tracrrna。在另一个方面,本文提供的向导rna包含单链向导rna。在一个方面,本文提供的单链向导rna包含crrna与tracrrna。

在一些实施方案中,本文提供的重组核酸包含一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个或者十个或更多个供体多核苷酸。如本文所使用,“供体多核苷酸”是能够如本文所描述使用crispr/cas系统或方法插入受体细胞的基因组中的多核苷酸分子。在另一个方面,本文提供的供体多核苷酸可操作地连接至第二启动子。在另一个方面,本文提供的供体多核苷酸包含至少一个启动子。在一个方面,本文提供的供体多核苷酸包含一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个或者十个或更多个转基因。在一个方面,本文提供的供体多核苷酸包含一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个或者十个或更多个编码核酸序列,一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个或者十个或更多个非编码核酸序列,或者一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个或者十个或更多个编码核酸序列与一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个或者十个或更多个非编码核酸序列的组合。在一个方面,本文提供的供体多核苷酸包含一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个或者十个或更多个用于模板编辑的核酸序列。在一些实施方案中,包含供体多核苷酸的重组核酸与crispr酶在相同的载体中提供给细胞。在一些实施方案中,包含供体多核苷酸的重组核酸与crispr酶独立地提供给细胞。在一个方面,本文提供的供体多核苷酸在病毒载体、质粒载体或农杆菌载体中被编码。

在一些实施方案中,编码所述crispr酶的多核苷酸来自于选自由以下项组成的组的细菌的基因组:赖氨酸芽孢杆菌属、短芽孢杆菌属、鞘氨醇杆菌属、水杆菌属、芽孢杆菌属、金黄杆菌属、鞘氨醇单胞菌属和双头菌属。在其它实施方案中,编码所述crispr酶的多核苷酸来自于选自由以下项组成的组的细菌的基因组:侧孢短芽孢杆菌、苏云金杆菌、粪肠球菌、短短芽孢杆菌、迟钝水杆菌、玫瑰色新鞘氨醇菌、嗜甲胺双头菌;类短短芽孢杆菌。在某些方面,编码所述crispr酶的多核苷酸被关联在具有ii型crispr重复序列的细菌基因组内。在某些方面,还通过在所述细菌基因组中与cas1、cas2或cas1和cas2而不是cas5或cas3的关联而鉴定了编码所述crispr酶的多核苷酸。在一些实施方案中,编码所述crispr酶的多核苷酸与crispr基因座位于相同的操纵子中。在其它实施方案中,编码所述crispr酶的多核苷酸位于所述crispr基因座的2千碱基内。在另一个实施方案中,还通过表1中所鉴定的一个或多个pfam结构域的存在而鉴定了编码所述crispr酶的多核苷酸。在一个方面,本文提供的编码crispr酶的多核苷酸的特征是:来自赖氨酸芽孢杆菌属、短芽孢杆菌属、鞘氨醇杆菌属、水杆菌属、芽孢杆菌属、金黄杆菌属、鞘氨醇单胞菌属和双头菌属的基因组;来自苏云金杆菌、短短芽孢杆菌、侧孢短芽孢杆菌、类短短芽孢杆菌、粪肠球菌、嗜甲胺双头菌、玫瑰色新鞘氨醇菌或迟钝水杆菌的基因组;通过与ii型crispr重复序列的关联而与细菌基因组相关联;通过在细菌基因组中与cas1蛋白、cas2蛋白或cas1蛋白质与cas2蛋白质而不是cas3蛋白或cas5蛋白的关联而被鉴定;与crispr基因座位于相同的操纵子中;位于crispr基因座的10、25、50、75、100、150、200、250、500、550、600、650、700、750、800、850、900、950、1000、1250、1500、1750、2000、2500、3000、4000、5000、7500或10,000个核苷酸内;是包含与选自seqidno:37-72、74和88-100的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同一性的序列的多核苷酸;及其任何组合。

本文描述的若干个实施方案涉及真核细胞,例如植物细胞中的靶向性基因组修饰。一些实施方案涉及一种用于切割靶dna的组合物,所述组合物包含对所述靶dna具有特异性的向导rna和如本文所描述的crispr酶;以及其用途。在一些实施方案中,所述crispr酶选自由seqidno:1-36、73和75-87、其同系物及其直系同源物组成的组。在一些实施方案中,描述了包含crispr酶和对靶dna具有特异性的向导rna的复合物。在一些实施方案中,所述复合物还包含二阶阳离子。在一些实施方案中,所述crispr酶在与向导rna复合时影响对靶dna的切割,从而修饰所述靶dna。在一些实施方案中,切割包括在所述靶dna的所述位置通过所述crispr酶切割一个或两个链。在一些实施方案中,包含crispr酶和向导rna的复合物的形成引起了对靶序列中或附近(例如,相距1、2、3、4、5、6、7、8、9、10、20、50或更多个碱基对以内)的一个或两个链的切割。在一些实施方案中,切割引起靶基因的转录减少。在一些实施方案中,切割引起两个基因组基因座之间的重组率增加。在一些实施方案中,切割引起一个或更多个转基因的整合。在一些实施方案中,切割引起同源转基因序列的整合。在一些实施方案中,切割引起靶序列处或附近的核苷酸的插入或缺失。在一些实施方案中,通过与外源模板多核苷酸的同源重组来修复被切割的靶dna。在一些实施方案中,所述模板多核苷酸包含一个或多个外源转基因。在一些实施方案中,所述一个或多个外源转基因侧接有与切割位点同源的序列。在一些实施方案中,所述模板多核苷酸包含与包含所述靶序列的核酸序列的至少50bp、至少100bp、至少150bp、至少200bp、至少250bp、至少300bp、至少350bp、至少400bp、至少450bp、至少500bp、至少550bp、至少600bp、至少650bp、至少700bp、至少750bp、至少800bp、至少850bp、至少900bp、至少950bp或至少1,000bp具有至少85%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性或100%同一性的序列。在一些实施方案中,与所述靶序列相比,所述模板多核苷酸包含1、2、3、4、5、6、7、8、9、10个或更多个核苷酸突变。在一些实施方案中,通过与非同源末端接合(nhej)来修复被切割的靶dna,其中所述修复引起所述靶dna的一个或多个核苷酸的突变,包括插入、缺失或取代。

若干个实施方案涉及一种对真核细胞中的所靶向的dna序列进行修饰的方法。在一些实施方案中,所述方法包括允许包含与选自由seqidno:1-36、73和75-87组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列的crispr酶和向导rna复合物结合所述靶dna序列,以便所述结合引起对所靶向的dna序列的切割。在一些实施方案中,所述方法包括递送一种或多种载体至所述真核细胞,其中所述一种或多种载体驱动以下项中的一项或多项的表达:crispr酶、向导rna和供体多核苷酸。

在一个方面,本公开提供了从细菌基因组中鉴定出推定crispr酶的方法。在一些实施方案中,所述方法包括:(a)鉴定大蛋白质序列(大约1,000个氨基酸);(b)这些蛋白质序列被注释为内切核酸酶或cas9,或者含有hnhpfam结构域;(c)与cas1和cas2而不是与cas5或cas3位于相同的操纵子中;而且所述蛋白质在相同的操纵子中距crispr基因座<2kb以内。在一些实施方案中,所述方法包括:(a)鉴定大蛋白质序列(大约1,000个氨基酸);(b)这些蛋白质序列被注释为内切核酸酶或cas9,或者含有hnhpfam结构域;(c)与cas1或cas2而不是与cas5或cas3位于相同的操纵子中;而且所述蛋白质在相同的操纵子中距crispr基因座<2kb以内。另外对结果进行复查以鉴定未注释的cas2。

核酸靶向性系统及其组分

本公开提供了一种用于对靶核酸序列进行序列特异性修饰的核酸靶向性系统。如本文所使用,术语“核酸靶向性系统”或“核酸靶向性复合物”共同指参与核酸靶向性效应蛋白基因的表达或者指导其活性的转录物及其它元件,这可能包括编码核酸靶向性效应蛋白和核酸靶向性向导rna的序列。在一些实施方案中,所述核酸靶向性效应蛋白是crispr酶,所述crispr酶包含与选自由seqidno:1-36、73和75-87组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。在一些实施方案中,所述核酸靶向性系统是crispr-cas系统,所述系统包含crisprrna(crrna)序列,而且可能包含(在一些系统而非所有系统中)反式激活crisprrna(tracrrna)序列或者来自crispr基因座的其它序列和转录物。在一些系统中,不需要tracrrna序列。在其它系统中,需要tracrrna序列。在一些实施方案中,所靶向的核酸是dna或rna。在其它实施方案中,所靶向的核酸是dna-rna杂合体或其衍生物。一般来说,rna靶向性系统的特征是促进在靶rna序列的位点处形成rna靶向性复合物的元件。在形成dna或rna靶向性复合物的内容中,“靶序列”是指dna或rna靶向性向导rna被设计成与其具有互补性的dna或rna序列,其中靶序列与rna靶向性向导rna之间的杂交促进了rna靶向性复合物的形成。在一些实施方案中,靶序列位于细胞的细胞核或细胞质中。

在一个实施方案中,所述核酸靶向性系统包含(a)向导rna或编码向导rna的dna分子,其中所述向导rna对靶核酸序列具有特异性;和(b)编码crispr酶的多核苷酸。在另一个实施方案中,所述crispr酶包含与选自由seqidno:1-36、73和75-87组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。在一些实施方案中,所述crispr酶包含与选自由seqidno:1-36组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。在一些实施方案中,所述crispr酶包含与选自由seqidno:73和75-87组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。在另一个实施方案中,所述编码crispr酶的多核苷酸包含选自由seqidno:37-72、74、88-100和300-799组成的组的核苷酸序列。在一些实施方案中,所述向导rna或编码向导rna的dna分子被提供在第一核酸分子上,并且编码crispr酶的多核苷酸被提供在第二核酸分子上。在其它实施方案中,所述向导rna或编码向导rna的dna分子和编码crispr酶的多核苷酸被提供在单个核酸分子上。在一些实施方案中,所述向导rna包含表3中提供的一个或多个crrna序列。在一些实施方案中,所述向导rna包含表3中提供的一个或多个tracrrna序列。在一些实施方案中,所述向导rna包含表5中提供的一个或多个crrna序列。在一些实施方案中,所述向导rna包含表5中提供的一个或多个tracrrna序列。在一些实施方案中,所述向导rna包含表5中提供的一个或多个融合tracrrna:crrna序列。

在一些实施方案中,所述靶核酸序列包含编码序列、非编码序列或者编码序列与非编码序列的组合。在一些实施方案中,所述靶核酸序列包含内源基因或转基因。

在一些实施方案中,所述向导rna包含crrna和tracrrna。在一些实施方案中,所述向导rna包含单链向导rna。在一些实施方案中,所述向导rna包含有包含crrna的单链向导rna。在一些实施方案中,所述crrna包含表3和表5中提供的crrna序列。

在一些实施方案中,本文公开的核酸靶向性系统还包含供体多核苷酸。在一些实施方案中,所述供体多核苷酸包含编码序列、非编码序列或者编码序列与非编码序列的组合。在一些实施方案中,所述供体多核苷酸包含启动子。在一些实施方案中,所述供体多核苷酸包含调控元件。在一些实施方案中,所述供体多核苷酸包含一个或多个转基因。

如本文所使用,术语“向导rna”是指与靶核酸序列具有足以与所述靶核酸序列杂交和指导核酸靶向性复合物与所述靶核酸序列的序列特异性结合的互补性的任何多核苷酸序列。在一些实施方案中在一些实施方案中,当使用合适的比对算法进行最佳对齐时,互补性程度是约或超过约50%、60%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更大。可以利用任何适用于比对序列的算法来确定最佳对齐。

在一些实施方案中,所述向导rna包含成熟crrna。在某些实施方案中,所述成熟crrna包含正向重复序列和向导序列或间隔序列、基本上由其组成或由其组成。正向重复序列和间隔序列的实例可见于表2中。crrna序列的实例可见于表3和表5中。在某些实施方案中,所述向导rna包含与向导序列或间隔序列连接的正向重复序列、基本上由其组成或由其组成。在一些实施方案中,向导rna序列的长度是约或超过约5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、75个或更多个核苷酸。在一些实施方案中,向导rna序列的长度少于约75、50、45、40、35、30、25、20、15、12个或更少个核苷酸。在一些实施方案中,所述向导rna序列是10至30个核苷酸长。在一些实施方案中,所述向导rna序列是10至20个核苷酸长。可以选择向导rna序列以靶向任何靶序列。在一些实施方案中,所述靶序列是细胞基因组内的序列。在一些实施方案中,所述靶序列在所述靶基因组中是独特的。

在一些实施方案中,所述成熟crrna包含茎环或优化的茎环结构或优化的二级结构。在一些实施方案中,所述成熟crrna在所述正向重复序列中包含茎环或优化的茎环结构,其中所述茎环或优化的茎环结构对切割活性来说是重要的。在某些实施方案中,所述成熟crrna包含单个茎环。在某些实施方案中,所述正向重复序列包含单个茎环。在某些实施方案中,通过引入影响茎环rna双螺旋结构的突变来调节所述核酸靶向性系统的切割活性。在一些实施方案中,可以引入维持所述茎环的rna双螺旋的突变,借此维持所述核酸靶向性系统的切割活性。在其它实施方案中,可以引入破坏所述茎环的rna双螺旋结构的突变,借此完全消除所述核酸靶向性系统的切割活性。

可以通过任何合适的测定法来评价向导rna序列指导核酸靶向性复合物与靶核酸序列的序列特异性结合的能力。举例来说,可以将核酸靶向性系统中足以形成核酸靶向性复合物的组分,包括将要测试的crispr酶和向导序列,提供给具有对应的靶核酸序列的宿主细胞,诸如通过用编码所述核酸靶向性复合物的组分的载体进行转染,随后评价所述靶核酸序列内的优先靶向(例如,切割)。类似地,可以通过以下方式体外评估靶核酸序列的切割:提供所述靶核酸序列、核酸靶向性复合物的组分(包括将要测试的crispr酶和向导序列)和与测试向导序列不同的对照向导序列,以及比较测试向导序列反应与对照向导序列反应之间在靶序列处的结合率或切割率。其它测定法是可能的,并且将被本领域技术人员想到。可以选择向导序列和因此核酸靶向性向导rna以靶向任何靶核酸序列。所述靶序列可以是dna。所述靶序列可以是任何rna序列。在一些实施方案中,所述靶序列可以是选自由以下项组成的组的rna分子内的序列:信使rna(mrna)、前mrna、核糖体rna(rrna)、转移rna(trna)、微rna(mirna)、小干扰rna(sirna)、小核rna(snrna)、小核仁rna(snorna)、双链rna(dsrna)、非编码rna(ncrna)、长非编码rna(lncrna)和小细胞质rna(scrna)。在一些实施方案中,所述靶序列可以是选自由mrna、前mrna和rrna组成的组的rna分子内的序列。在一些实施方案中,所述靶序列可以是选自由ncrna和lncrna组成的组的rna分子内的序列。在一些实施方案中,所述靶序列可以是mrna分子或前mrna分子内的序列。

如本文所使用,术语“tracrrna”包括与crrna序列具有足以杂交的互补性的任何多核苷酸序列。在一些实施方案中,核酸靶向性系统的切割活性不需要所述tracrrna。在其它实施方案中,核酸靶向性系统的切割活性需要所述tracrrna。tracrrna序列的实例可见于表3和表5中。

本文描述的若干个实施方案涉及一种核酸靶向性系统,所述核酸靶向性系统包含(a)crispr酶,所述crispr酶包含与选自由seqidno:73和75-87组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列;和(b)能够与靶序列杂交的向导rna。在一些实施方案中,所述核酸靶向性系统还包含tracrrna。在一些实施方案中,所述核酸靶向性系统还包含二阶阳离子。在一些实施方案中,所述核酸靶向性系统还包含mg2+。在一些实施方案中,所述crispr酶的核酸酶活性被灭活。在一些实施方案中,所述核酸靶向性系统还包含具有异源功能结构域的crispr酶。在一些实施方案中,所述核酸靶向性系统在真核细胞中具有功能性。在一些实施方案中,所述核酸靶向性系统在植物细胞中具有功能性。

在一些实施方案中,本文公开的核酸靶向性系统的多种组分之一被表达或递送在载体中。如本文所使用,术语“载体”是指能够输送已经与其连接的另一个核酸的核酸分子。载体包括但不限于单链、双链或部分双链的核酸分子;包含一个或多个自由端、没有自由端(例如环形)的核酸分子;包含dna、rna或二者的核酸分子;以及;本领域中已知的其它种类的多核苷酸。一种类型的载体是“质粒”,它是指其它dna区段可以插入其中(如通过标准分子克隆技术)的环状双链dna环。另一种类型的载体是农杆菌。另一种类型的载体是病毒载体,其中病毒来源的dna或rna序列存在于所述载体中以便包装至病毒(例如,反转录病毒、复制缺陷性反转录病毒、烟草花叶病毒(tmv)、马铃薯x病毒(pvx)和豇豆花叶病毒(cpmv)、烟草病毒、双生病毒、腺病毒、复制缺陷性腺病毒和腺相关病毒)中。病毒载体还包括由病毒携带以便转染至宿主细胞中的多核苷酸。在一些实施方案中,可以使用农杆菌将病毒载体递送至植物。某些载体能够在引入了它们的宿主细胞中自主复制。其它载体在引入宿主细胞中后被整合至宿主细胞的基因组中,并且从而与宿主基因组一起复制。此外,某些载体能够指导与它们可操作地连接的基因的表达。此类载体在本文中称为“表达载体”。用于而且引起在真核细胞中表达的载体在本文中可以称为“真核生物表达载体”。在重组dna技术中具有实用性的常用表达载体通常呈质粒形式。本领域技术人员应当了解,表达载体的设计可以取决于诸如将要转化的宿主细胞的选择、所期望的表达水平等因素。可以将载体引入宿主细胞中,从而产生由如本文所描述的核酸编码的转录物、蛋白质或肽,包括融合蛋白质或肽(例如成簇规律间隔短回文重复序列(crispr)转录物、蛋白质、酶、其突变形式、其融合蛋白质等)。

重组表达载体可以包含本公开的核酸,所述核酸呈适合在宿主细胞中表达所述核酸的形式,这意味着所述重组表达载体包括一个或多个可操作地连接至将要表达的核酸序列的调控元件,所述调控元件可以根据用于表达的宿主细胞而进行选择。

如本文所使用,术语“模板核酸”或“供体多核苷酸”可互换使用,并且是指可以与crispr酶,具体来说是包含与选自由seqidno:1-36、73和75-87组成的组的序列或其直系同源物或同系物具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列的crispr酶以及向导rna分子联合使用以改变靶位置的结构的核酸序列。在一些实施方案中,所述模板核酸或供体多核苷酸包含一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个转基因。在一个实施方案中,典型地在切割位点处或附近对所述靶位置进行修饰以具有模板核酸的一些或所有序列。在一个实施方案中,所述模板核酸是单链的。在一个替代实施方案中,所述模板核酸是双链的。在一个实施方案中,所述模板核酸是dna,例如双链dna。在一个替代实施方案中,所述模板核酸是单链dna。

在一个实施方案中,所述模板核酸通过参与同源重组来改变所述靶序列的结构。在一个实施方案中,所述模板核酸改变所述靶位置的序列。在一个实施方案中,所述模板核酸引起经修饰或非天然存在的碱基并入至所述靶核酸中。

所述模板序列可以经历破坏介导或催化的与所述靶序列重组。在一个实施方案中,所述模板核酸可以包括对应于所述靶序列上被核酸靶向性系统介导的切割事件切割的位点的序列。在一个实施方案中,所述模板核酸可以包括对应于所述靶序列上在第一核酸靶向性系统介导的事件中被切割的第一位点与所述靶序列上在第二核酸靶向性系统介导的事件中被切割的第二位点的序列。

在某些实施方案中,所述模板核酸可以包括引起所翻译的序列的编码序列中的变化的序列,例如,引起一个氨基酸取代蛋白质产物中的另一个氨基酸,例如将突变对偶基因转化成野生型对偶基因、将野生型对偶基因转化成突变对偶基因和/或引入终止密码子、氨基酸残基的插入、氨基酸残基的缺失或无意义突变的序列。在某些实施方案中,所述模板核酸可以包括引起非编码序列中的变化,例如外显子中或者5'或3'非翻译或非转录区域中的变化的序列。此类变化包括调控元件,例如启动子、增强子中的变化,以及顺式激活或反式激活控制元件中的变化。

与靶基因中的靶位置具有同源性的模板核酸可以用来改变靶序列的结构。所述模板序列可以用来改变不需要的结构,例如不需要的或突变的核苷酸。所述模板核酸可以包括在被整合时引起以下结果的序列:降低正调控元件的活性;增加正调控元件的活性;降低负调控元件的活性;增加负调控元件的活性;降低基因的表达;增加基因的表达;增加对除草剂的抗性;增加对疾病的抗性;增加对昆虫或线虫类害虫的抗性;增加对非生物应力(例如干旱、缺氮)的抗性;增加对病毒进入的抗性;修正突变或改变不需要的氨基酸残基;赋予、增加、消除或减少基因产物的生物学性质,例如增加酶的酶催活性,或增加基因产物与另一个分子相互作用的能力。

在一些实施方案中,模板核酸可以包括引起以下结果的序列:具有靶序列的1、2、3、4、5、6、7、8、9、10、11、12个或更多个核苷酸的序列中的变化。在一个实施方案中,所述模板核酸的长度可以是20+/-10、30+/-10、40+/-10、50+/-10、60+/-10、70+/-10、80+/-10、90+/-10、100+/-10、110+/-10、120+/-10、130+/-10、140+/-10、150+/-10、160+/-10、170+/-10、180+/-10、190+/-10、200+/-10、210+/-10、220+/-10个核苷酸。在一个实施方案中,所述模板核酸的长度可以是30+/-20、40+/-20、50+/-20、60+/-20、70+/-20、80+/-20、90+/-20、100+/-20、110+/-20、120+/-20、130+/-20、140+/-20、150+/-20、160+/-20、170+/-20、180+/-20、190+/-20、200+/-20、210+/-20、220+/-20个核苷酸。在一个实施方案中,所述模板核酸的长度是10至1,000、20至900、30至800、40至700、50至600、50至500、50至400、50至300、50至200或50至100个核苷酸。

在一些实施方案中,供体核酸包含以下组分:[5'同源性臂]-[目标序列]-[3'同源性臂]。同源性臂供重组至染色体中。在一些实施方案中,所述目标序列以所述目标序列置换不当元件,例如突变或标志。在一些实施方案中,所述目标序列包含一个或多个、两个或更多个、三个或更多个、四个或更多个或者五个或更多个转基因。在一个实施方案中,所述同源性臂侧接最远侧的切割位点。在一个实施方案中,所述5'同源性臂的3'末端是紧接于所述目标序列的5'末端的位置。在一个实施方案中,所述5'同源性臂可以从所述目标序列的5'末端起向5'延伸至少10、20、30、40、50、100、200、300、400、500、600、700、800、900、1000、1500或2000个核苷酸。在一个实施方案中,所述3'同源性臂的5'末端是紧接于所述目标序列的3'末端的位置。在一个实施方案中,所述3'同源性臂可以从所述目标序列的3'末端起向3'延伸至少10、20、30、40、50、100、200、300、400、500、600、700、800、900、1000、1500或2000个核苷酸。

在某些实施方案中,可以缩短一个或两个同源性臂以避免包括某些序列重复元件。举例来说,可以缩短5'同源性臂以避免序列重复元件。在其它实施方案中,可以缩短3'同源性臂以避免序列重复元件。在一些实施方案中,可以缩短5'同源性臂与3'同源性臂以避免包括序列重复元件。

在某些实施方案中,可以设计供体核酸以供用作单链寡核苷酸。当使用单链寡核苷酸时,5'和3'同源性臂的长度可以在多达约200个碱基的范围内,例如至少25、50、75、100、125、150、175或200个碱基的长度。

在某些实施方案中,所述核酸靶向性系统的组分还可以包含至少一个或多个核定位信号(nls)、核输出信号(nes)、功能结构域、柔性接头、突变、缺失、变化或截短。可以有条件地激活或灭活所述nls、nes或功能结构域中的一个或多个。

在一些实施方案中,如本文所描述的核酸靶向性系统在20℃、21℃、22℃、23℃、24℃、24℃、25℃、26℃、27℃、28℃、29℃、30℃、31℃、32℃、33℃、34℃、35℃、36℃、37℃、38℃、39℃、40℃、41℃、42℃、43℃、44℃、45℃、46℃、47℃、48℃、49℃或50℃下具有功能性。

在某些实施方案中,核酸靶向性系统的一种或多种组分被包含在一个或多个载体上以便递送至真核细胞。在一些实施方案中,一种或多种载体编码以下项中的一项或多项:(i)一种或多种crispr酶,更具体来说,一种或多种包含与选自由seqidno:1-36、73和75-87组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列的crispr酶;(ii)能够与细胞中的第一靶序列杂交的第一向导rna;和任选地,(iii)能够与所述细胞中的第二靶序列杂交的第二向导rna,当在所述细胞内表达时,所述第一向导rna指导第一核酸靶向性复合物与所述细胞中的所述第一靶序列的序列特异性结合;所述第二向导rna指导第二核酸靶向性复合物与所述细胞中的所述第二靶序列的序列特异性结合;所述核酸靶向性复合物包含与向导rna结合的crispr酶,从而向导rna可以与其靶序列杂交。各种编码序列(crispr酶、向导rna)可以包括在单个载体上或多个载体上。举例来说,有可能在一个载体上编码crispr酶并且在另一个载体上编码各种rna序列,或者在一个载体上编码crispr酶和各种向导rna,并且在其它载体上编码供体核酸,或任何其它排列。在一个方面,系统使用总计一个、两个、三个、四个、五个或更多个不同的载体。在使用多个载体时,有可能以不相等的数目递送它们。

在某些实施方案中,可以设计呈阵列形式的编码向导rna的重组核酸,以便可以同时释放多个向导rna序列。在一些实施方案中,一个或多个向导rna的表达是u6驱动的。在一些实施方案中,crispr酶与多个向导rna并且在多个靶序列处复合以介导基因组编辑。一些实施方案涉及单独或以串联阵列形式表达1直至4个或更多个不同的向导序列;例如直至约20或约30个向导序列。每一个单独的向导序列可以靶向不同的靶序列。这可以由例如一种嵌合pol3转录物处理。可以使用pol3启动子,如u6或h1启动子。pol2启动子诸如贯穿本文所提到的那些。反向末端重复(itr)序列可以侧接pol3启动子-grna-pol2启动子-cas。

在另一个实施方案中,创建了将会瞬时表达grna和/或crispr酶的构建体并且引入细胞中。在另一实施方案中,所述载体将会产生足量的grna和/或crispr酶,以便通过如本文所描述的核酸靶向性系统有效地修饰所期望的附加体或基因组靶位点。举例来说,本公开设想了制备一种可以轰击、电穿孔、化学转染或者通过一些其它手段输送而越过植物细胞膜的载体。此类载体可以具有若干种有用的性质。举例来说,在一个实施方案中,所述载体可以在细菌宿主中复制,从而能够以足以进行瞬时表达的量产生所述载体并且加以纯化。在另一个实施方案中,所述载体可以编码药物抗性基因以允许在宿主中针对所述载体进行选择,或者所述载体还可以包含表达盒以便在植物中提供grna和/或crispr酶基因的表达。在另一个实施方案中,所述表达盒可以含有启动子区、5'非翻译区、用来辅助表达的可选内含子、允许容易地引入编码grna和/或crispr酶基因的序列的多个克隆位点和3'utr。在具体实施方案中,所述表达盒中的启动子将是来自玉米的u6启动子。在其它实施方案中,所述启动子将是来自玉米的嵌合u6启动子。在一些实施方案中,在所述表达盒的一端或每一端包括独特的限制位点以允许产生和分离线性表达盒,因此可以不含其它载体元件可能是有益的。在某些实施方案中,非翻译前导序列区可以是植物来源的非翻译区。当正在将表达盒转化或转染至单子叶植物细胞中时,设想了使用可能是植物来源的内含子。

在一些实施方案中,如本文所描述的重组核酸可以包含多个具有不同序列的u6启动子。存在多个具有不同序列的u6启动子的效用是将通常与序列重复相关的载体稳定性方面的问题最小化。另外,染色体中的高度重复区域可能导致基因不稳定性和沉默。因此,在核酸靶向性系统中使用多个u6启动子的另一种效用是促进相同转化构建体中的多个grna盒的载体复合,其中不同的grna转录物水平将被最大化以便有效地靶向单个靶位点。嵌合u6启动子可以获得具有改进或者修饰的表达水平的新功能形式。

在若干个实施方案中,表达载体包含至少一个编码如本文所描述的核酸靶向性系统的一种或多种组分的表达盒,可以包含启动子。在某些实施方案中,所述启动子是组成型启动子、组织特异性启动子、发育调控型启动子或细胞周期调控型启动子。某些设想的启动子尤其包括仅在生殖系或生殖细胞中表达的启动子。此类发育调控型启动子具有的优势是使核酸靶向性系统的表达仅限于dna在后代中得到继承的那些细胞。因此,核酸靶向性系统介导的基因修饰(即,染色体或附加体dsdna切割)仅限于参与将其基因组从一代传给下一代的细胞。如果核酸靶向性系统的广泛表达具有基因毒性或具有其它不需要的作用,则这可能是有用的。此类启动子的实例包括编码dna连接酶、重组酶、复制酶等等的基因的启动子。

在一些实施方案中,本文描述的重组核酸分子可以并入任何合适的植物转化质粒或载体中。在一些实施方案中,所述植物转化质粒或载体含有可选择或可筛检标记物和如所描述的相关调控元件,以及由结构基因编码的一种或多种核酸。

诱导型核酸靶向性系统

在一个方面,本公开提供了一种非天然存在或经过工程改造的核酸靶向性系统,所述核酸靶向性系统可以包含至少一个开关,其中对于所述开关,通过与至少一个诱导剂能量来源接触来控制所述核酸靶向性系统的活性。在本公开的一个实施方案中,可以激活、增强、终止或抑制对于所述核酸靶向性系统的至少一个开关或活性的控制。与至少一个诱导剂能量来源接触可以引起第一影响和第二影响。所述第一影响可以是核输入、核输出、二级组分(诸如效应分子)的征募、(蛋白质、dna或rna的)构象变化、切割、负荷(诸如笼形分子或辅因子)释放、关联或离解中的一项或多项。所述第二影响可以是激活、增强、终止或阻遏对于所述核酸靶向性系统的至少一个开关或活性的控制中的一项或多项。在一个实施方案中,所述第一影响和所述第二影响可以呈级联形式存在。

如本申请中详述的控制的诸多方面涉及至少一个或多个开关。如本文所使用的术语“开关”是指以协同方式起作用以影响变化,涵盖生物功能的所有方面,如激活、阻遏、增强或终止该功能的系统或一组组分。在一个方面,术语开关涵盖包含基因调控蛋白的基本组分和这些蛋白质识别的特定dna序列的基因开关。在一个方面,开关涉及基因调控中使用的诱导型和阻遏型系统。一般来说,除非存在一些允许基因表达的分子(称为诱导剂),否则就可以关掉诱导型系统。据称所述分子“诱导表达”。这种情况发生的方式取决于控制机制以及细胞类型的差异。除非存在一些抑制基因表达的分子(称为共阻遏因子),否则阻遏型系统打开。据称所述分子“阻遏表达”。这种情况发生的方式取决于控制机制以及细胞类型的差异。如本文使用的术语“诱导型”可以涵盖开关的所有方面,与所涉及的分子机制无关。

在本公开的另一个方面,所述核酸靶向性系统还可以包含至少一个或多个核定位信号(nls)、核输出信号(nes)、功能结构域、柔性接头、突变、缺失、变化或截短。可以有条件地激活或灭活所述nls、nes或功能结构域中的一个或多个。在另一个实施方案中,所述突变可以是转录因子同源区中的突变、dna结合域中的突变(诸如使碱性螺旋环螺旋的碱性残基突变)、内源nls中的突变或内源nes中的突变中的一种或多种。本公包括所述诱导剂能量源可以是热、超声、电磁能或化学品。

在一些实施方案中,所述诱导剂能量源可以是抗生素、小分子、激素、激素衍生物、类固醇或类固醇衍生物。在一些实施方案中,所述诱导物能量源可以是脱落酸(aba)、水杨酸、多西环素(dox)、库密特(cumate)、雷帕霉素、4-羟基他莫昔芬(4oht)、雌激素或蜕皮激素。本公开规定至少一个开关可以选自由以下项组成的组:基于抗生素的诱导系统、基于电磁能的诱导系统、基于小分子的诱导系统、基于核受体的诱导系统和基于激素的诱导系统。

可以设计本发明的核酸靶向性系统以便以时间上和空间上精确的方式调节或改变个别内源基因的表达。可以设计核酸靶向性系统以结合目标基因的启动子序列,从而改变基因表达。

本公开设想的另一个系统是基于亚细胞定位的变化的化学诱导系统。可以对诱导型核酸靶向性系统进行工程改造以靶向目标基因组基因座,其中所述crispr酶分至两个融合构建体中,所述两个融合构建体进一步连接至化学品或能量敏感性蛋白质的不同部分。这种化学品或能量敏感性蛋白质在化学品结合或能量传递至所述化学品或能量敏感性蛋白质后将引起crispr酶的任一半的亚细胞定位的变化。这种融合构建体从其活性由于缺乏针对重构的核酸靶向性系统的底物而被隔离的一个亚细胞区室或细胞器输送至存在所述底物的另一个亚细胞区室或细胞器中将允许所述组分集合在一起并且重构功能活性,然后与其所期望的底物(即,哺乳动物细胞核中的基因组dna)接触并且引起靶基因表达的激活或阻遏。

设想了其它诱导系统,诸如但不限于已经开发了通过重金属、甾体激素、热冲击和其它试剂进行调控。

在具体实施方案中,本文描述的核酸靶向性系统受密码杀死开关控制,这是一种在细胞的条件被改变时能有效杀死宿主细胞的机制。在一些实施方案中,这是通过引入杂合laci-galr家族转录因子来确保,这就需要存在iptg来接通开关(chan等,2015naturenaturechemicalbiologydoi:10.1038/nchembio.1979),它可以用来驱动编码对细胞存活非常重要的酶的基因。通过组合对不同的化学品敏感的不同的转录因子,可以生成“密码”,此系统可以用来在空间和时间上控制核酸靶向性系统诱导的基因修饰的程度,这在不同的领域,包括治疗应用中可能是有意义的,而且还可能对避免含转基因的生物体从其预定环境中“逃逸”有意义。

自身灭活系统

在一些实施方案中,一旦已经编辑了细胞基因组中的基因的所有拷贝,该细胞中的持续核酸靶向性系统表达便不再是必需的。在一些实施方案中,在非预定基因组位点等处存在脱靶效应的情况下,持续表达将不合需要。在一些实施方案中,核酸靶向性系统的组分的时间限制性表达将是有用的。诱导型表达提供了一种方法,另一种方法可以是依赖于使用载体本身内的非编码向导靶序列的自身灭活核酸靶向性系统。因此,在表达开始之后,核酸靶向性系统将引起对其自身的破坏,但在破坏完毕之前,它将会有时间编辑靶基因的基因组拷贝。在一些实施方案中,自身灭活核酸靶向性系统包括额外的rna(即,向导rna),所述rna靶向crsipr酶的编码序列或者靶向一个或多个非编码向导靶序列,所述非编码向导靶序列与一种或多种以下情况下存在的独特序列互补:(a)驱动非编码rna元件的表达的启动子内;(b)驱动rna导向性核酸酶基因的表达的启动子内;(c)rna导向性核酸酶编码序列中的atg翻译起始密码子的100bp内;(d)病毒递送载体的反向末端重复序列(itr)内。

在一些实施方案中,可以经由编码所述crispr酶的载体,例如单独的载体或相同的载体递送一个或多个向导rna。当由单独的载体提供时,可以相继或同时施用靶向crispr酶表达的向导rna。当相继施用时,可以在意在用于基因编辑或基因组工程改造的向导rna之后递送靶向crispr酶表达的向导rna。这个周期可以是数分钟的周期(例如,5分钟、10分钟、20分钟、30分钟、45分钟、60分钟)。这个周期可以是数小时的周期(例如,2小时、4小时、6小时、8小时、12小时、24小时)。这个周期可以是数天的周期(例如,2天、3天、4天、7天)。这个周期可以是数周的周期(例如,2周、3周、4周)。这个周期可以是数个月的周期(例如,2个月、4个月、8个月、12个月)。这个周期可以是数年的周期(2年、3年、4年)。在一些实施方案中,所述crsipr酶与能够与第一靶标如目标基因组基因座杂交的第一向导rna关联,并且执行核酸靶向性系统的所期望的功能(例如,基因工程);随后,所述crispr酶可能接着与能够与编码所述crispr酶或crispr盒的至少一部分的序列杂交的第二向导rna关联。在所述向导rna靶向编码所述crispr酶的表达的序列时,所述酶受到阻碍并且所述系统被自身灭活。在一些实施方案中,经由例如粒子轰击、脂质转染、纳米粒子、微泡应用的靶向crispr酶表达的向导rna可以相继或同时施用。类似地,可以使用自我灭活对用于靶向一个或多个靶标的一个或多个向导rna进行灭活。

在一些方面,提供了能够与crispr酶起始密码子下游的序列杂交的单个向导rna,从而在一段时间之后存在crispr酶表达损失。在一些方面,提供了一种或多种向导rna,所述向导rna能够与编码所述核酸靶向性系统的一种或多种组分的多核苷酸的一个或多个编码或非编码区杂交,借此在一段时间之后灭活所述核酸靶向性系统的一种或多种或者在一些情况下所有组分。在一些方面但不具限制性,细胞可能包含多种核酸靶向性复合物,其中第一亚组的核酸靶向性复合物包含能够靶向欲编辑的基因组基因座的第一向导rna,并且第二亚组的核酸靶向性复合物包含至少一个能够靶向编码所述核酸靶向性系统的一种或多种组分的多核苷酸的第二向导rna,其中所述第一亚组的核酸靶向性复合物介导对所靶向的基因组基因座的编辑,并且所述第二亚组的核酸靶向性复合物将所述第一核酸靶向性系统灭活,从而灭活所述细胞中的进一步核酸靶向性系统表达。

对rna导向性核酸酶的修饰

在一个实施方案中,编码本文所公开的crispr酶的核酸分子或者其直系同源物或同系物可以经过密码子优化以便在真核细胞中表达。在一些实施方案中,本文公开的crispr酶或者其直系同源物或同系物可以经过密码子优化以便在植物细胞中表达。在一些实施方案中,核酸分子可以包含一个或多个选自seqidno:300-799的序列。核酸分子可以是工程改造过的或非天然存在的。术语“非天然存在”或“工程改造”可互换使用,并且表示人工参与。所述术语在指核酸分子或多肽时意指所述核酸分子或所述多肽至少基本上不含至少一种在自然界中天然地和在自然界中被发现时与它们关联的其它组分。本文描述的核酸靶向性系统是非天然存在的。

在一些实施方案中,本文公开的crispr酶或者其直系同源物或同系物可以包含一个或多个突变(且因此,编码其的核酸分子可以具有突变)。所述突变可以是人工引入的突变,并且可以包括但不限于催化域中的一个或多个突变。参考cas酶,催化域的实例可以包括但不限于ruvci、ruvcii、ruvciii和hnh结构域。

在一些实施方案中,本文公开的crispr酶或者其直系同源物或同系物可以用作融合至或可操作地连接至功能结构域的通用核酸结合蛋白。功能结构域的实例可以包括但不限于pvuii、muth、tevi、foki、alwi、mlyi、sbfi、sdai、stsi、cledorf、clo051、pept071、重组酶、转座酶、甲基化酶、翻译启动因子、翻译激活因子、翻译阻遏因子、核酸酶(具体来说核糖核酸酶)、剪接体、珠粒、光诱导型/控制型结构域或者化学诱导型/控制型结构域。foki核酸酶结构域需要二聚来切割dna,因此,需要具有fok1功能结构域的crispr酶来结合切割位点的相对dna链。

在一些实施方案中,未经修饰的crispr酶可以具有切割活性。在一些实施方案中,所述crispr酶指导靶序列或靶序列附近的位置上,如所述靶序列内和/或所述靶序列的补体内或在与所述靶序列相关的序列处对一个或两个核酸(dna或rna)链的切割。在一些实施方案中,所述crispr酶可以指导从靶序列的第一个或最后一个核苷酸起约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500个或更多个碱基对内对一个或两个dna或rna链的切割。在一些实施方案中,所述切割可能交错,即,产生粘性末端。在一些实施方案中,所述切割是具有5'突出的交错切割。在一些实施方案中,所述切割是具有1至5个核苷酸、4或5个核苷酸的5'突出的交错切割。在一些实施方案中,载体编码crispr酶,可以使所述crispr酶相对于对应的野生型酶发生突变,以使得突变的crispr酶缺乏切割含有靶序列的靶多核苷酸的一个或两个dna或rna链的能力。作为另一个实例,可以使crispr酶的两个或更多个催化域(例如,ruvci、ruvcii和ruvciii或hnh结构域)突变,以产生基本上缺乏全部dna切割活性的突变的crispr酶。在一些实施方案中,当突变的crispr酶的rna切割活性是大约不超过所述酶的未突变形式的核酸切割活性的25%、10%、5%、1%、0.1%、0.01%或更少时,crispr酶可以被视为基本上缺乏全部rna切割活性;一个实例可以是当突变的crispr酶的核酸切割活性为零或相较于未突变的crispr酶可忽略时。可以参考与有多个来自crispr系统的核酸酶结构域的最大核酸酶具有同源性的一般类别的酶来鉴定crispr酶。

在核酸靶向性系统的情况下,核酸靶向性复合物(包含与靶序列杂交并且与如本文所描述的一种或多种crispr酶复合的向导rna)的形成典型地引起所述靶序列中或附近(例如,相距1、2、3、4、5、6、7、8、9、10、20、50个或更多个碱基对)对一个或两个dna或rna链的切割。如本文所使用,术语“与目标靶基因座关联的序列”是指靶序列附近(例如,在距所述靶序列1、2、3、4、5、6、7、8、9、10、20、50个或更多个碱基对以内,其中所述靶序列被包含在目标靶基因座内))的序列。

靶序列

如本文所使用,术语“靶多核苷酸”或“靶序列”是指向导rna所针对的多核苷酸中存在的核苷酸序列。在一些实施方案中,所述靶多核苷酸或靶序列是在基因中。在本文中,术语“基因”意指基因组序列的对应于遗传单元的定位区域,它包括调控区域,如启动子、增强子、5'非翻译区、内含子区、3'非翻译区、转录区和可以作为天然基因或转基因存在于植物基因组中的其它功能序列区。取决于情况,术语靶序列或靶基因可以指抑制所靶向的基因或基因产物的全长核苷酸序列或者抑制所靶向的基因或基因产物的一部分的核苷酸序列。

如本文所描述的核酸靶向性系统的靶多核苷酸可以是原核或真核细胞的任何内源或外源多核苷酸。举例来说,所述靶多核苷酸可以是存在于真核细胞的细胞核中的多核苷酸。所述靶多核苷酸可以是编码基因产物(例如,蛋白质)的序列或非编码序列(例如,调控多核苷酸或垃圾dna)或二者的组合。

靶多核苷酸的实例包括与信号转导生物化学途径相关的序列,例如信号转导生物化学途径相关的基因或多核苷酸。靶多核苷酸的实例包括编码提供对除草剂的耐受性的蛋白质的基因,诸如5-烯醇丙酮酰莽草酸-3-磷酸合酶(epsps)、草甘膦氧化还原酶(gox)、草甘膦脱羧酶、草甘膦-n-乙酰转移酶(gat)、麦草畏单加氧酶、草胺膦乙酰转移酶、2,2-二氯丙酸脱卤素酶、乙酰羟酸合成酶、乙酰乳酸合成酶(als)、卤素芳基腈水解酶、乙酰辅酶a羧化酶、二氢蝶酸合成酶、八氢番茄红素脱氢酶、原卟啉原氧化酶(ppo)、原卟啉ix加氧酶、羟苯丙酮酸二加氧酶、对氨基苯甲酸合成酶、谷氨酰胺合成酶、纤维素合成酶、β-微管蛋白、4-羟苯丙酮酸二加氧酶(hppd)和丝氨酸羟甲基转移酶。靶多核苷酸的实例包括与疾病抗性基因座相关的多核苷酸。如本文所使用,术语“疾病抗性基因座”是指与植物中的疾病或病原体抗性相关的基因组区域。疾病抗性基因座可以包含编码赋予植物对至少一种疾病或病原体的抗性的蛋白质的一个或多个基因、基因家族、基因阵列或qtl。在一个实施方案中,所述疾病抗性基因座包含一个或多个nbs-lrr疾病抗性基因,也称为nb-lrr基因、r基因、lrr基因。在另一个实施方案中,疾病抗性基因座包含一个或多个prr疾病抗性基因。疾病抗性基因座可以涵盖已知赋予病原体抗性的特定基因、基因簇、基因阵列和/或基因家族,例如rp1或rpp1或rps1。在另一个实施方案中,所述疾病抗性基因座包含rgh1基因座。在另一个实施方案中,所述疾病抗性基因座包含rgh4基因座。替代地,疾病抗性基因座可以涵盖基因组区域,但赋予疾病抗性的实际基因/元件组成是未知的。靶多核苷酸的实例包括编码品质性状的多核苷酸,如棕色中脉基因(bmr)、糯性基因、白色基因、fad2、fad3。

不希望受理论束缚,人们相信靶序列应该与原间隔子相邻基序(pam),即,由核酸靶向性系统识别的短序列相关。pam的确切序列和长度要求取决于所使用的crispr酶而不同,但pam典型地是与原间隔子(即,靶序列)相邻的2至5个碱基对序列。以下实施例部分中给出了pam序列的实例,并且技术人员将能够鉴定其它pam序列以供与指定crispr酶一起使用。另外,对pam相互作用(pi)结构域进行工程改造可以允许规划pam特异性,提高靶位点识别保真度,以及增加crispr酶的多用性。可以对crispr酶如cas9蛋白进行工程改造以改变其pam特异性,例如,如以下文献中所描述:kleinstiverbp等,engineeredcrispr-cas9nucleaseswithalteredpamspecificities.nature.2015年7月23日;523(7561):481-5.doi:10.1038/nature14592。

rna导向性核酸酶和核酸靶向性系统的用途

在一个方面,本公开提供了一种对细胞中的靶核酸序列进行序列特异性修饰的方法,所述方法包括给细胞提供(a)对细胞中的靶核酸序列具有特异性的向导rna,和(b)crispr酶。在一些实施方案中,通过在所述细胞中表达编码所述向导rna的重组dna分子来提供所述向导rna,和/或通过在所述细胞中表达编码所述crispr酶的重组dna分子来提供所述crispr酶。在一些实施方案中,通过使所述细胞与包含所述向导rna或编码所述向导rna的重组dna分子的组合物接触来提供所述向导rna,和/或通过使所述细胞与包含所述crispr酶或编码所述crispr酶的重组dna分子的组合物接触来提供所述crispr酶。在一些实施方案中,使所述向导rna与所述crispr酶复合并且提供给所述细胞。给植物细胞提供rna的方法和组合物在本领域中是已知的。参见例如pctus2016035500、pctus2016035435和wo2011112570,这三者以引用的方式并入本文。

在一个方面,本公开提供了一种如本所论述的方法,其中所述宿主是真核细胞。在一个方面,本公开提供了一种如本所论述的方法,其中所述宿主是哺乳动物细胞。在一个方面,本公开提供了一种如本所论述的方法,其中所述宿主是非人真核细胞。在一个方面,本公开提供了一种如本所论述的方法,其中所述非人真核细胞是非人哺乳动物细胞。在一个方面,本公开提供了一种如本文所论述的方法,其中所述非人类哺乳动物细胞可以包括但不限于灵长类、牛科、绵羊科、猪科、犬科、啮齿类、兔科,如猴、奶牛、绵羊、猪、狗、兔、大鼠或小鼠细胞。在一个方面,本公开提供了一种如本文所论述的方法,所述细胞可以是非哺乳动物类真核细胞,如家禽类(例如,鸡)、脊椎鱼类(例如,鲑鱼)或贝虾类(例如,蚝、螃蟹、龙虾、虾)细胞。在一个方面,本公开提供了一种如本所论述的方法,其中所述非人类真核细胞是植物细胞。所述植物细胞可以属于单子叶植物或双子叶植物或作物或谷物植物,如木薯、玉米、高粱、紫花苜蓿、棉花、大豆、油菜、小麦、燕麦或水稻。所述植物细胞还可以属于藻类、树木或生产植物、果实或蔬菜(例如,树木,如柑橘属果树,例如柑橘、葡萄柚或柠檬树;桃或油桃树;苹果或梨树;坚果果树,如巴旦杏或胡桃或阿月浑子树;茄科植物;芸苔属植物;莴苣属植物;菠菜属植物;辣椒属植物;棉花、烟草、芦笋、鳄梨、番木瓜、木薯、胡萝卜、甘蓝、茎椰菜、花椰菜、番茄、茄子、辣椒、莴苣、菠菜、草莓、马铃薯、南瓜、甜瓜、蓝莓、覆盆子、黑莓、葡萄、咖啡、可可等)。

在另一个方面,本公开提供了一种对细胞库中的基因组中的基因进行离体或体内功能筛检的方法,所述方法包括施用或表达包含多种向导rna的库,并且其中所述筛检还包括使用如本文所描述的crispr酶。在一些实施方案中,对所述核酸靶向性系统进行修饰以包含异源功能结构域。在一个方面,本公开提供了一种筛检基因组的方法,所述方法包括向宿主施用或在宿主体内表达库。在一个方面,本公开提供了一种如本文所论述的方法,所述方法还包括向所述宿主施用或在所述宿主中表达激活因子。在一个方面,本公开提供了一种如本所论述的方法,其中所述激活因子附接于如本文所描述的crispr酶。在一个方面,本公开提供了一种如本所论述的方法,其中所述激活因子附接于所述crispr酶的n末端或c末端。在一个方面,本公开提供了一种如本所论述的方法,其中所述激活因子附接于grna环。在一个方面,本公开提供了一种如本文所论述的方法,所述方法还包括向所述宿主施用或在所述宿主中表达阻遏因子。在一个方面,本公开提供了一种如本文所论述的方法,其中所述筛检包括影响和检测基因激活、基因抑制或基因座中的切割。

在一个方面,本公开提供了有效的中靶活性并且降低了脱靶活性。在一个方面,本公开提供了如本文所描述的crispr酶的有效中靶切割并且减少了所述crispr酶的脱靶切割。在一个方面,本公开提供了crispr酶在没有dna切割的基因座处的向导rna特异性结合。在一个方面,本公开提供了crispr酶在基因组基因座处的有效向导rna定向中靶结合并且减少了所述crispr酶的脱靶结合。因此,在一个方面,本公开提供了靶特异性基因调控。在一个方面,本公开提供了crispr酶在没有dna切割的基因组基因座处的向导rna特异性结合。因此,在一个方面,本公开使用单个crispr酶提供了一个基因组基因座处的切割和一个不同的基因组基因座处的基因调控。在一个方面,本公开使用一个或多个crispr酶提供了对多个靶标的正交激活和/或抑制和/或切割。

在一个方面,本公开提供了一种如本文所论述的方法,所述方法包括递送核酸靶向性复合物或其组分或其编码核酸分子,其中所述核酸分子可操作地连接至调控序列并且在体内表达。在一个方面,本公开提供了一种如本文所论述的方法,其中所述体内表达是经由慢病毒、腺病毒、aav、双生病毒、烟草脆裂病毒(trv)、马铃薯x病毒(pvx)、中国番茄黄化曲叶病毒(tylccv)、菜豆金黄花叶病毒、大麦条纹花叶病毒(bsmv)、兰花花叶病毒(cymmv)、水稻东格鲁杆状病毒(rtbv)、花椰菜花叶病毒(camv)、芜菁黄花叶病毒(tymv)、甘蓝曲叶病毒(cblcv)、苹果潜隐球状病毒(alsv)、黄瓜花叶病毒(cmv)、棉花皱叶病毒(clcrv)、非洲木薯花叶病毒(acmv)、豌豆早褐病毒(pebv)、甜菜曲顶病毒(bctv)或农杆菌。在一个方面,本公开提供了一种如本文所论述的方法,其中所述核酸靶向性系统的一种或多种组分的递送是经由粒子、纳米粒子、脂质或细胞穿透肽(cpp)。

在一个方面,本公开提供了一对核酸靶向性系统(例如,一对crispr-cas复合物),每一个系统包含向导rna(grna),所述向导rna包含能够与细胞中的目标基因组基因座中的靶序列杂交的向导序列,其中通过插入能结合至一个或多个衔接蛋白的独特rna序列对每一个grna的至少一个环进行修饰,并且其中所述衔接蛋白与一个或多个功能结构域相关联,其中每一个crispr-cas的每一个grna包含具有dna切割活性的功能结构域。

在一个方面,本公开提供了一种切割目标基因组基因座中的靶序列的方法,所述方法包括给细胞递送所述核酸靶向性复合物或其组分或其编码核酸分子,其中所述核酸分子可操作地连接至调控序列并且在体内表达。在一个方面,本公开提供了一种如本文所论述的方法,其中所述递送是经由慢病毒、腺病毒、aav、双生病毒、烟草脆裂病毒(trv)、马铃薯x病毒(pvx)、中国番茄黄化曲叶病毒(tylccv)、菜豆金黄花叶病毒、大麦条纹花叶病毒(bsmv)、兰花花叶病毒(cymmv)、水稻东格鲁杆状病毒(rtbv)、花椰菜花叶病毒(camv)、芜菁黄花叶病毒(tymv)、甘蓝曲叶病毒(cblcv)、苹果潜隐球状病毒(alsv)、黄瓜花叶病毒(cmv)、棉花皱叶病毒(clcrv)、非洲木薯花叶病毒(acmv)、豌豆早褐病毒(pebv)、甜菜曲顶病毒(bctv)或农杆菌。在一个方面,本公开提供了一种如本文所论述的方法或如本文所论述的成对核酸靶向性复合物,其中这一对的第一复合物的靶序列在双链dna的第一链上,并且这一对的第二复合物的靶序列在双链dna的第二链上。在一个方面,本公开提供了一种如本文所论述的方法或如本文所论述的成对核酸靶向性复合物,其中第一复合物和第二复合物的靶序列彼此接近,以便以促进同源性介导的修复的方式切割所述dna。在一个方面,本文的方法还可以包括向所述细胞中引入模板dna。在一个方面,可以使用本文的方法或本文的成对核酸靶向性复合物,其中每一个核酸靶向性复合物具有rna导向性核酸酶,所述rna导向性核酸酶经过突变,以便使它具有不超过没有突变的rna导向性核酸酶的约5%的核酸酶活性。

在一个方面,本公开提供了一种改变或修饰基因产物的表达的方法。所述方法可以包括向含有并且表达编码基因产物的dna分子的细胞中引入经工程改造的非天然存在的核酸靶向性系统,所述核酸靶向性系统包含crispr酶和靶向所述dna分子的向导rna,借此使所述向导rna靶向编码所述基因产物的dna分子并且所述crispr酶切割编码所述基因产物的dna分子,借此改变所述基因产物的表达;并且,其中所述crispr酶和所述向导rna在天然情况下不会共同存在。本公开还包括经过密码子优化以便在真核细胞中表达的crispr酶。在一个实施方案中,所述真核细胞是植物细胞。在本公开的另一个实施方案中,所述基因产物的表达有所降低。

在一个方面,本公开提供了改变的细胞和那些细胞的后代,以及由所述细胞制造的产品。使用本公开的crispr酶和核酸靶向性系统来产生包含经修饰的靶基因座的细胞。在一些实施方案中,所述方法可以包括允许核酸靶向性复合物结合至靶dna或rna以实现对所述靶dna或rna的切割,从而修饰所述靶dna或rna,其中所述核酸靶向性复合物包含与向导rna复合的crispr酶,所述向导rna与所述靶dna或rna内的靶序列杂交。在一个方面,本公开提供了一种修复细胞中的基因座的方法。在另一个方面,本公开提供了一种修饰真核细胞中的dna或rna的表达的方法。在一些实施方案中,所述方法包括允许核酸靶向性复合物结合至dna或rna,使得所述结合引起所述dna或rna的表达增高或降低;其中所述核酸靶向性复合物包含与向导rna复合的crispr酶。与以上类似的考虑和条件适用于修饰靶dna或rna的方法。事实上,这些取样、培养和再引入方案适用于本公开的所有方面。在一个方面,本公开提供了对真核细胞中的靶dna或rna进行修饰的方法,所述方法可以在体内、离体或体外进行。在一些实施方案中,所述方法包括从植物获取细胞或细胞群体的样品,和对所述细胞进行修饰。培养可以在任何阶段离体发生。此类细胞可以是但不限于植物细胞、动物细胞、酵母细胞、任何生物体的特定细胞类型,包括原生质体、体细胞、生殖细胞、单倍体细胞、干细胞、免疫细胞、t细胞、b细胞、树状细胞、心血管细胞、上皮细胞、干细胞等等。可以根据本公开对所述细胞进行修饰以便例如以受控制的量产生基因产物,所述基因产物可能取决于用途而增加或减少和/或突变。在某些实施方案中,所述细胞的基因座被修复。所述细胞甚至可以再引入至非人动物或植物中。对于再引入的细胞,可能优选所述细胞是干细胞。

在一个方面,本发明提供了瞬时包含核酸靶向性系统或其组分的细胞。举例来说,将crispr酶和向导rna瞬时提供给细胞并且改变基因座,随后所述核酸靶向性系统的一种或多种组分的量下降。随后,已经获得rna导向性核酸酶介导的基因变化的细胞、所述细胞的后代和包含所述细胞生物体包含减少量的一种或多种核酸靶向性系统组分,或者不再含有所述一种或多种核酸靶向性系统组分。一个非限制性实例是自我灭活的crispr-cas系统,如本文进一步描述。因此,本公开提供了包含一个或多个核酸靶向性系统改变的基因座但是本质上缺乏一种或多种核酸靶向性系统组分的细胞和生物体,以及所述细胞和生物体的后代。在某些实施方案中,所述核酸靶向性系统组分基本上不存在。此类细胞、组织和生物体适宜包含所期望的或所选择的基因变化,但是已经失去了可能非特异性地起作用、引起安全性问题或妨碍调控批准的核酸靶向性组分或其残余物。同样,本公开提供了由所述细胞、生物体以及所述细胞和生物体的后代制造的产品。

基因编辑或改变靶基因座

在一些实施方案中,所述链之一中的双链断裂或单链断裂足够接近靶位置,以便发生模板修复。在一个实施方案中,所述距离不超过10、20、50、100、150、200、250、300、350或400个核苷酸。尽管不希望受具体理论束缚,但人们相信断裂应该足够接近靶位置,以使断裂在末端切除期间处在经历外切核酸酶介导的去除的区域内。如果靶位置与断裂之间的距离过大,则突变可能没有被包括末端切除中并且因此,可能没有被修正,因为模板核酸序列可能仅仅用于修复末端切除区内的序列。

在一个实施方案中,其中向导rna和crispr酶,具体来说是包含与选自由seqidno:73和75-87组成的组的序列或者其直系同源物或同系物具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列的crispr酶诱导双链断裂以便诱导hdr介导的修复,所述切割位点在距所述靶位置0至200bp(例如,0至175、0至150、0至125、0至100、0至75、0至50、0至25、25至200、25至175、25至150、25至125、25至100、25至75、25至50、50至200、50至175、50至150、50至125、50至100、50至75、75至200、75至175、75至150、75至125、75至100bp)之间。在一个实施方案中,所述切割位点在距所述靶位置0至100bp(例如,0至75、0至50、0至25、25至100、25至75、25至50、50至100、50至75或75至100bp)之间。在另一个实施方案中,与crispr酶或者其直系同源物或同系物复合的两个或更多个向导rna可以用于诱导多路断裂,以便诱导hdr介导的修复。

在一些实施方案中,同源性臂至少延伸到可以发生末端切除的区域为止,例如,以便允许被切除的单链突出找到所述供体模板内的互补区域。在一些实施方案中,总长度受诸如质粒大小或病毒包装限制等参数限制。在一个实施方案中,同源性臂没有延伸至重复元件中。同源性臂长度的实例包括至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950或1000个核苷酸。

如本文所使用,靶位置是指靶核酸或靶基因(例如染色体)上通过rna导向性核酸酶,具体来说是包含与选自由seqidno:73和75-87组成的组的序列或者其直系同源物或同系物具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列的crispr酶,优选向导rna依赖性过程进行修饰的位点。举例来说,靶位置可以是靶核酸的经修饰crispr酶切割和模板核酸介导的修饰(例如修复)的靶位置。在一个实施方案中,靶位置可以是靶核酸上的两个核苷酸,例如相邻的核苷酸之间被加入一个或多个核苷酸的位点。在一些实施方案中,所述靶位置可以包含一个或多个被模板核酸改变,例如修复的核苷酸。在一个实施方案中,所述靶位置在靶序列(例如,向导rna结合的序列)内。在一个实施方案中,所述靶位置在靶序列(例如,向导rna结合的序列)的上游或下游。

核酸靶向性系统促进的非同源末端接合

在某些实施方案中,核酸酶诱导的非同源末端接合(nhej)可用于靶基因特异性敲除。核酸酶诱导的nhej还可以用于去除(例如缺失)目标基因中的序列。一般来说,nhej通过将两个末端接合在一起来修复dna中的双链断裂;然而,一般来说,原始序列只有在两个相容性末端,正如由双链断裂形成的末端,被完美连接时才能被复原。双链断裂的dna末端频繁经受酶催处理,从而在一个或两个链处添加或去除核苷酸,随后再接合所述末端。这导致dna序列中在nhej修复位点存在插入和/或缺失(插入缺失)突变。这些突变中有三分之二典型地改变了阅读框,并且因此产生了无功能蛋白质。另外,维持阅读框但插入或缺失大量序列的突变可能破坏蛋白质的功能性。这是基因座依赖性的,因为与蛋白质的非重要区域中的突变相比,重要功能结构域中的突变可能不太耐受。由nhej产生的插入缺失突变本质上是不可预测的;然而,在指定断裂位点,某些插入缺失序列受益并且在群体中过度呈现,可能是由于微组织学的小区域之故。缺失的长度可以广泛变化;最普遍在1至50bp范围内,但它们可能轻易超过50bp,例如,它们可以轻易达到超过约100至200bp。插入倾向于较短并且通常包括紧靠断裂位点的序列的短复制。然而,有可能获得大的插入,而且在这些情况下,插入的序列往往上溯至基因组的其它区域或细胞中存在的质粒dna。

因为nhej是诱变过程,所以它还可以用来缺失小序列基序,只要不要求产生特定最终序列即可。如果双股断裂靶向短靶序列附近,那么由nhej修复引起的缺失突变通常跨越并且因此去除不需要的核苷酸。为了缺失较大的dna区段,引入两个双链断裂(在序列的每一侧上引入一个)可以引起末端之间的nhej,同时去除整个间插序列。这两种方法都可以用于缺失特定的dna序列;然而,nhej的易出错特性可能仍在修复位点产生插入缺失突变。

双链切割与单链切割的rna导向性核酸酶或者其直系同源物或同系物都可以用于本文描述的方法和组合物中以产生nhej介导的插入缺失。靶向基因,例如编码区,例如目标基因的早期编码区的nhej介导的插入缺失可用于敲除(即,消除表达)目标基因。举例来说,目标基因的早期编码区包括紧接转录起始位点之后、在编码序列的第一外显子内或在距转录起始位点500bp内(例如,少于500、450、400、350、300、250、200、150、100或50bp)的序列。

在一个实施方案中,其中向导rna和crispr酶或者其直系同源物或同系物产生双链断裂以便诱导nhej介导的插入缺失,向导rna可以经过配置以定位紧邻靶位置的核苷酸的一个双链断裂。在一个实施方案中,所述切割位点可以在距靶位置0至500bp之间(例如,距靶位置不到500、400、300、200、100、50、40、30、25、20、15、10、9、8、7、6、5、4、3、2或1bp)。

在一个实施方案中,其中与crispr酶或者其直系同源物或同系物(优选切口酶)复合的两个向导rna诱导两个单链断裂以便诱导nhej介导的插入缺失,两个向导rna可以经配置以定位两个单链断裂,从而给靶位置的核苷酸提供nhej修复。

核酸靶向性系统可以递送功能效应因子

不同于dna层级上的通过使基因突变而永久性消除表达的核酸靶向性系统介导的基因敲除,核酸靶向性系统介导的敲除允许通过使用人工转录因子暂时减少基因表达。使crispr酶的两个dna切割域中的关键基因突变产生了无催化活性的crispr酶。无催化活性的crispr酶与向导rna复合并且定位至由该向导rna的靶向域指定的dna序列,然而,它不会切割所述靶dna。无活性crispr酶与效应因子结构域(例如,转录阻遏结构域、转录激活结构域、甲基化酶、转座酶、重组酶、促旋酶、解旋酶)融合使得能够将效应因子征募至向导rna指定的任何dna位点。在某些实施方案中,无活性crispr酶可以与转录阻遏结构域融合并且被征募至基因的启动子区域。在一些实施方案中,本文设想了阻断内源转录因子的结合位点将有助于下调基因表达。在另一个实施方案中,无活性crispr酶可以与染色质修饰蛋白融合。改变染色质状态可以减少靶基因的表达。

在一个方面,本公开提供了一对复合物,所述复合物包含crispr酶和向导rna(grna),所述向导rna包含能够与细胞中的目标基因组基因座中的靶序列杂交的向导序列,其中每一个crispr酶包含异源功能结构域。在一些实施方案中,所述异源功能结构域具有dna切割活性。在一个方面,本公开提供了如本文所论述的成对复合物,其中所述dna切割活性是由于fok1核酸酶所致。

在一些实施方案中,所述一个或多个功能结构域附接于所述crispr酶,使得在结合至所述sgrna和靶标后,所述功能结构域呈允许所述功能结构域发挥功能的空间取向。在一些实施方案中,所述一个或多个功能结构域附接于衔接蛋白,使得在所述crispr酶结合至所述grna和靶标后,所述功能结构域呈允许所述功能结构域发挥功能的空间取向。在一个方面,本公开提供了一种如本文所论述的组合物,其中所述一个或多个功能结构域经由如本文所论述的连接子,任选地glyser连接子附接于所述crispr酶或衔接蛋白质。在一些实施方案中,所述crispr酶无催化活性。在一些实施方案中,所述功能结构域可以选自由以下项组成的组:转座酶结构域、整合酶结构域、重组酶结构域、解离酶结构域、转化酶结构域、蛋白酶结构域、dna甲基转移酶结构域、dna羟甲基化酶结构域、dna脱甲基酶结构域、组蛋白乙酰化酶结构域、组蛋白脱乙酰酶结构域、核酸酶结构域、阻遏因子结构域、激活因子结构域、核定位信号结构域、转录调控蛋白(或转录复合物征募)结构域、细胞摄取活性相关结构域、核酸结合域、抗体呈现域、组蛋白修饰酶、组蛋白修饰酶征募因子;组蛋白修饰酶、组蛋白甲基转移酶、组蛋白脱甲基酶、组蛋白激酶、组蛋白磷酸酶、组蛋白核糖基化酶、组蛋白脱核糖基酶、组蛋白泛素化酶、组蛋白去泛素化酶、组蛋白生物素化酶和组蛋白尾部蛋白酶的抑制剂。在一些优选实施方案中,所述功能结构域是转录激活结构域,诸如但不限于vp64、p65、myod1、hsf1、rta、set7/9或组蛋白乙酰转移酶。在一些实施方案中,所述功能结构域是转录阻遏结构域,优选krab。在一些实施方案中,所述转录阻遏结构域是sid或sid的串联体(例如sid4x)。在一些实施方案中,所述功能结构域是表观基因修饰结构域,因此提供表观基因修饰酶。在一些实施方案中,所述功能结构域是激活结构域,所述激活结构域可以是p65激活结构域。在一些实施方案中,所述一个或多个功能结构域是核定位序列(nls)或核输出信号(nes)。在一些实施方案中,所述一个或多个功能结构域是转录激活结构域,包含vp64、p65、myod1、hsf1、rta、set7/9和组蛋白乙酰转移酶。本文关于与crispr酶相关的激活(或激活因子)结构域提及的其它激活(或激活因子)结构域包括任何已知的转录激活结构域,并且具体来说,有vp64、p65、myod1、hsf1、rta、set7/9或组蛋白乙酰转移酶。在一些实施方案中,所述一个或多个功能结构域是转录阻遏因子结构域。在一些实施方案中,所述转录阻遏因子结构域是krab结构域。在一些实施方案中,所述转录阻遏因子结构域是nue结构域、ncor结构域、sid结构域或sid4x结构域。在一些实施方案中,所述一个或多个功能结构域具有一种或多种活性,包括甲基化酶活性、脱甲基酶活性、转录激活活性、转录阻遏活性、转录释放因子活性、组蛋白修饰活性、rna切割活性、dna切割活性、dna整合活性或核酸结合活性。在一些实施方案中,所述一个或多个功能结构域是组蛋白修饰结构域。组蛋白修饰结构域的实例包括转座酶结构域、同源重组(hr)机构结构域、重组酶结构域和/或整合酶结构域。在一些实施方案中,dna整合活性包括hr机构结构域、整合酶结构域、重组酶结构域和/或转座酶结构域。在一些实施方案中,组蛋白乙酰转移酶是优选的。

在一个实施方案中,向导rna分子可以靶向已知转录应答元件(例如,启动子、增强子等)、已知上游激活序列和/或疑似能够控制靶dna的表达的具有未知或已知功能的序列。

在一些方法中,可以将靶多核苷酸灭活以实现对细胞中的表达的修饰。举例来说,在核酸靶向性系统组分的复合物与细胞中的靶序列结合后,将所述靶多核苷酸灭活,以便不转录所述序列,不产生编码的蛋白质,或者使所述序列不像野生型序列那样发挥功能。举例来说,可以将蛋白质或微rna编码序列灭活,使得不产生所述蛋白质。

全基因组敲除筛检

本文描述的crispr酶和核酸靶向性系统可用于执行功能基因组筛检。此类筛检可以利用基于向导rna的全基因组库。此类筛检和库可以确定基因的功能、涉及的细胞途径基因和基因表达的任何变化如何引起特定的生物过程。本公开的一个优点是crispr系统避免了脱靶结合及其引起的副作用。这是使用被安排成对靶dna具有高度序列特异性的系统来实现。在一些实施方案中,所述crispr酶包含与选自由seqidno:73和75-87组成的组的序列或者其直系同源物或同系物具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。

在一些实施方案中,全基因组库可以包含多个如本文所描述的向导rna,所述向导rna包括能够靶向真核细胞群体中的多个基因组基因座中的多个靶序列的向导序列。所述细胞群体可以是植物细胞群体。所述基因组基因座中的靶序列可以是非编码序列。非编码序列可以是内含子、调控序列、剪接位点、3'utr、5'utr或聚腺苷酸化信号。可以通过所述靶向来改变一种或多种基因产物的基因功能。所述靶向可以引起基因功能的敲除。靶向的基因产物可以包括超过一个向导rna。可以通过2、3、4、5、6、7、8、9或10个向导rna来靶向基因产物。可以通过采用由cas效应因子蛋白复合物产生的交错双链断裂或者通过利用与crispr-cas9系统中使用的那些方法类似的方法来减少脱靶修饰(参见例如dnatargetingspecificityofrna-guidedcas9nucleases.hsu,p.,scott,d.,weinstein,j.,ran,fa.,konermann,s.,agarwala,v.,li,y.,fine,e.,wu,x.,shalem,o.,cradick,tj.,marraffini,la.,bao,g.和zhang,f.natbiotechnoldoi:10.1038/nbt.2647(2013)),以引用的方式并入本文。所述靶向可能属于约100个或更多个序列。所述靶向可能属于约1000个或更多个序列。所述靶向可能属于约20,000个或更多个序列。所述靶向可能属于整个基因组。所述靶向可能属于集中于相关或所期望的途径的一组靶序列。所述途径可以是免疫途径。所述途径可以是细胞分裂途径。

本公开的一个方面包括一种全基因组库,所述全基因组库可以包含多个向导rna,所述向导rna可以包含能够靶向多个基因组基因座中的多个靶序列的向导序列,其中所述靶向引起基因功能的敲除。此库可能包含靶向生物体的基因组中的每一个和每个基因的向导rna。在一些实施方案中,所述生物体是植物。

在本公开的一些实施方案中,所述生物体是真核生物(包括哺乳动物,包括人)或非人真核生物或非人动物或非人哺乳动物。在一些实施方案中,所述生物体是非人动物,并且可以是节肢动物,例如昆虫,或者可以是线虫。在本公开的一些方法中,所述生物体是植物。在本公开的一些方法中,所述生物体或受试者是藻类,包括微藻类,或者是真菌。

基因功能的敲除可以包括:向细胞群体中的每一个细胞中引入具有一个或多个载体的载体系统,所述载体包含经工程改造的非天然存在的核酸靶向性系统,所述核酸靶向性系统包含i).crispr酶,所述crispr酶包含与选自由seqidno:73和75-87组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列,和ii).一个或多个向导rna,其中组分i和组分ii可以在所述系统的相同或不同的载体上;将组分i和组分ii整合至每一个细胞中,其中所述向导序列靶向每一个细胞中的独特基因,其中所述crispr酶可操作地连接至调控元件,其中当转录时,包含所述向导序列的向导rna指导所述核酸靶向性系统与所述独特基因的基因组基因座中的靶序列的序列特异性结合;诱导所述crispr酶切割所述基因组基因座;以及证实细胞群体的每一个细胞中的多个独特基因中的不同的敲除突变,从而产生基因敲除细胞库。本公开包括所述细胞群体是真核细胞群体,并且在一个优选实施方案中,所述细胞群体是植物细胞群体。

所述一个或多个载体可以是质粒载体。所述载体可以是进入靶细胞中的包含crispr酶、grna和任选地选择标记物的单个载体。不受特定理论束缚,通过单个载体同时递送crispr酶和grna的能力使得能够应用于任何目标细胞类型,而不需要首先产生表达crispr酶的细胞系。在一些实施方案中,期望产生表达一种或多种crispr酶的细胞系,对其递送一种或多种向导rna。所述调控元件可以是诱导型启动子。所述诱导型启动子可以是多西霉素诱导型启动子。在本公开的一些方法中,向导序列的表达受t7启动子控制并且由t7聚合酶的表达驱动。可以通过全外显子组测序来证实不同的敲除突变。可以在100个或更多个独特基因中实现敲除突变。可以在1,000个或更多个独特基因中实现敲除突变。可以在20,000个或更多个独特基因中实现敲除突变。可以在特定生理学途径或条件下发挥功能的多个独特基因中实现基因功能的敲除。所述途径或条件可以是除草剂耐受性途径。

本公开还提供了包括本文提及的全基因组库的试剂盒。所述试剂盒可以包括包含载体或质粒的单个容器,所述载体或质粒包含本公开的库。所述试剂盒还可以一组选择的独特向导rna,所述独特向导rna包含来自本公开的库的向导序列,其中所述选择表示特定的生理条件,如非生物应力。本公开包括所述靶向属于约100个或更多个序列、约1000个或更多个序列或者约20,000个或更多个序列或者整个基因组。此外,一组靶序列可以集中于相关的或所期望的途径,如除草剂耐受性。

功能变更和筛检

在另一个方面,本公开提供了一种对基因进行功能评估和筛检的方法。使用本公开的crispr酶通过精确改变特定目标基因座上的甲基化位点而精确递送功能结构域、激活或阻遏基因或者改变表观基因状态可以离体或在体内与一个或多个向导rna一起应用于单个细胞或细胞群体,或者与库一起应用于细胞库中的基因组,包括施用或表达包含多个向导rna(grna)的库,并且其中所述筛检还包括使用包含与选自由seqidno:73和75-87组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列的crispr酶,其中所述crispr酶经修饰以包含异源功能结构域。在一个方面,本公开提供了一种如本文所论述的方法,所述方法还包括向所述宿主施用或在所述宿主中表达激活因子。在一个方面,本公开提供了一种如本所论述的方法,其中所述激活因子附接于crispr酶。在一个方面,本公开提供了一种如本所论述的方法,其中所述激活因子附接于所述crispr酶的n末端或c末端。在一个方面,本公开提供了一种如本文所论述的方法,其中所述筛检包括影响和检测基因激活、基因抑制或基因座中的切割。

在一个方面,本公开提供了一种如本所论述的方法,其中所述宿主是真核细胞。在一个方面,本公开提供了一种如本所论述的方法,其中所述宿主是哺乳动物细胞。在一个方面,本公开提供了一种如本所论述的方法,其中所述宿主是非人真核生物。在一个方面,本公开提供了一种如本所论述的方法,其中所述非人真核生物是植物。

使用核酸靶向性系统修饰细胞或生物体的方法

在一些实施方案中,本公开包括一种修饰细胞或生物体的方法。所述细胞可以是原核细胞或真核细胞。所述细胞可以是哺乳动物细胞。所述哺乳动物细胞可以是非人灵长类、牛类、猪类、啮齿类或鼠类细胞。所述细胞可以是非哺乳动物真核细胞,诸如家禽、鱼或虾。所述细胞还可以是植物细胞。所述植物细胞可以属于作物,如木薯、大豆、玉米、棉花、紫花苜蓿、油菜、高粱、小麦或水稻。所述植物细胞还可以属于藻类、树木或蔬菜。通过本公开引入至所述细胞的修饰可以是改变所述细胞和所述细胞的后代以提高生物产品如抗体、油、纤维、淀粉、醇或其它所期望的细胞产出物的产量的修饰。通过本公开引入至所述细胞的修饰可以是所述细胞和所述细胞的后代包括能改变所产生的生物产物的变化的修饰。

所述核酸靶向性系统可以包含一个或多个不同的载体。在本公开的一个方面,所述crispr酶经过密码子优化以便表达所期望的细胞类型,优选真核细胞,优选植物细胞。

核酸靶向性系统及其组分的递送

贯穿本公开和本领域中的知识,核酸靶向性系统,具体来说是本文描述的新颖系统或其组分或其核酸分子(包括例如hdr模板)或者编码或提供其组分的核酸分子可以通过本文大体和详细描述的递送系统进行递送。

crispr酶,例如由选自seqidno:37-72、74、88-100和300-799的多核苷酸序列编码的那些crispr酶和/或任何本发明rna,例如向导rna可以使用任何合适的载体进行递送,例如质粒或病毒载体,如根癌农杆菌的ti质粒、双生病毒、烟草脆裂病毒(trv)、马铃薯x病毒(pvx)、中国番茄黄化曲叶病毒(tylccv)、菜豆金黄花叶病毒、大麦条纹花叶病毒(bsmv)、兰花花叶病毒(cymmv)、水稻东格鲁杆状病毒(rtbv)、花椰菜花叶病毒(camv)、芜菁黄花叶病毒(tymv)、甘蓝曲叶病毒(cblcv)、苹果潜隐球状病毒(alsv)、黄瓜花叶病毒(cmv)、棉花皱叶病毒(clcrv)、非洲木薯花叶病毒(acmv)、豌豆早褐病毒(pebv)、甜菜曲顶病毒(bctv)、腺相关病毒(aav)、慢病毒、腺病毒或其它病毒载体类型或其组合。crispr酶和一个或多个向导rna可以包装至一个或多个载体,例如质粒或病毒载体中。在一些实施方案中,通过例如粒子轰击、农杆菌感染或其它递送方法将所述载体,例如质粒或病毒载体,递送至目标组织。此类递送可以经由单次剂量或者多次剂量。本领域技术人员应理解,本文递送的实际剂量可以取决于多种因素,如载体选择、靶细胞、生物体或组织、所处理的受试者的一般条件、所寻求的转化/修饰程度、施用途径、施用模式、所寻求的转化/修饰类型等而大幅变化。

此类剂量还可以含有例如载体(水、生理盐水、酒精、甘油、乳糖、蔗糖、磷酸钙、明胶、葡萄聚糖、琼脂、果胶、花生油、芝麻油等)、稀释剂、药学上可接受的载体(例如,磷酸盐缓冲生理盐水)、药学上可接受的赋形剂和/或本领域中已知的其它化合物。所述剂量还可以含有一种或多种药学上可接受的盐,举例来说,如无机酸盐,如盐酸盐、氢溴酸盐、磷酸盐、硫酸盐等;和有机酸盐,如乙酸盐、丙酸盐、丙二酸盐、苯甲酸盐等。另外,本文中还可以存在辅助物质,如润湿剂或乳化剂、ph值缓冲物质、凝胶或胶凝材料、调味剂、着色剂、微球体、聚合物、悬浮剂等。另外,还可以存在一种或多种其它常规药物成分,如防腐剂、保湿剂、悬浮剂、表面活性剂、抗氧化剂、抗结剂、填充剂、螯合剂、包衣剂、化学稳定剂等,尤其是该剂型是可复原形式时。合适的成分包括微晶纤维素、羧甲基纤维素钠、聚山梨糖醇酯80、苯乙醇、氯代丁醇、山梨酸钾、山梨酸、二氧化硫、没食子酸丙酯、对羟基苯甲酸酯、乙基香兰素、甘油、苯酚、对氯苯酚、明胶、白蛋白及其组合。药学上可接受的赋形剂的透彻论述可获自remington'spharmaceuticalsciences(mackpub.co.,n.j.1991),它以引用的方式并入本文。

在本文的一个实施方案中,所述递送是经由质粒。在此类质粒组合物中,所述剂量应该是足以引发应答的质粒的量。举例来说,质粒组合物中的质粒dna的合适的量可以是约0.1至约2mg或者约1μg至约10μg。本公开的质粒一般将包含以下一项或多项:(i)启动子;(ii)与所述启动子可操作地连接的编码crispr酶的序列;(iii)可选择标记物;(iv)复制起点;以及(v)在(ii)下游并且与其可操作地连接的转录终止子。所述质粒还可以编码crispr复合物的rna组分,但可以替代地在不同的载体上编码这些组分中的一种或多种。

在一些实施方案中,本公开的rna分子呈脂质体或脂质转染制剂等形式递送,并且可以通过本领域技术人员众所周知的方法来制备。此类方法描述于例如美国专利号5,593,972、5,589,466、5,580,859和9,121,022中,所述美国专利以引用的方式并入本文中。已经开发了具体来说旨在增强和改善向哺乳动物细胞中递送sirna的递送系统(参见例如shen等,febslet.2003,539:111-114;xia等,nat.biotech.2002,20:1006-1010;reich等,mol.vision.2003,9:210-216;sorensen等,j.mol.biol.2003,327:761-766;lewis等,nat.gen.2002,32:107-108;以及simeoni等,nar2003,31,11:2717-2724),并且可以应用于本公开。

在一些实施方案中,rna递送是体内递送。有可能使用脂质体或纳米粒子递送crispr酶和grna(和例如hr修复模板(例如,包含一个或多个转基因的hr修复模板))至细胞中。因此,本公开的crispr酶的递送和/或rna的递送可以呈rna形式和经由微泡、脂质体或粒子。举例来说,可以将编码crispr酶和grna的mrna包装至脂质体粒子中以便体内递送。脂质体转染试剂如来自lifetechnologies的脂质转染胺和市面上的其它试剂可以有效地递送rna分子至肝脏中。在一些实施方案中,编码crispr酶和grna可以如美国专利号9,121,022、pctus2016035500和pctus2016035435中所描述,三者以引用的方式并入本文中。

rna的递送手段还包括经由粒子(cho,s.,goldberg,m.,son,s.,xu,q.,yang,f.,mei,y.,bogatyrev,s.,langer,r.和anderson,d.,lipid-likenanoparticlesforsmallinterferingrnadeliverytoendothelialcells,advancedfunctionalmaterials,19:3112-3118,2010)或外泌体(schroeder,a.,levins,c.,cortez,c.,langer,r.和anderson,d.,lipid-basednanotherapeuticsforsirnadelivery,journalofinternalmedicine,267:9-21,2010,pmid:20059641)来递送rna。实际上,外泌体已经表明在递送sirna方面特别有用,是与crispr系统有一些相似之处的系统。举例来说,el-andaloussis等(“exosome-mediateddeliveryofsirnainvitroandinvivo”.natprotoc.2012年12月;7(12):2112-26.doi:10.1038/nprot.2012.131.2012年11月15日电子出版)描述了外泌体如何成为有望越过不同的生物屏障进行药物递送的工具并且可以用于体外和体内递送sirna。

若干个实施方案涉及提高nhej或hr效率。可以通过共同表达末端处理酶如trex2来提高nhej效率(dumitrache等,genetics.2011年8月;188(4):787-797)。优选通过暂时抑制nhej机器如ku70和ku86来增加hr效率。还可以通过共同表达原核生物或真核生物同源重组酶如recbcd、reca来增加hr效率。

粒子递送系统和/或制剂

已知若干种类型的粒子递送系统和/或制剂可用于多种应用。一般说来,粒子定义为就其输送和性质而论表现为完整单元的小物体。根据直径对粒子进行进一步分类。粗粒子涵盖在2,500与10,000纳米之间的范围。细粒子的大小在100与2,500纳米之间。超细粒子或纳米粒子的大小一般在1与100纳米之间。100nm界限是基于在低于100nm的临界长度尺度下典型地发展出区分粒子与散装材料的新颖性质的事实。

如本文所使用,粒子递送系统/制剂定义为包括根据本公开的粒子的任何生物学递送系统/制剂。根据本公开的粒子是具有小于100微米(μm)的最大尺寸(例如,直径)的任何实体。在一些实施方案中,本发明粒子具有小于10μm的最大尺寸。在一些实施方案中,本发明粒子具有小于2000纳米(nm)的最大尺寸。在一些实施方案中,本发明粒子具有小于1000纳米(nm)的最大尺寸。在一些实施方案中,本发明粒子具有小于900nm、800nm、700nm、600nm、500nm、400nm、300nm、200nm或100nm的最大尺寸。典型地,本发明粒子具有500nm或更小的最大尺寸(例如,直径)。在一些实施方案中,本发明粒子具有250nm或更小的最大尺寸(例如,直径)。在一些实施方案中,本发明粒子具有200nm或更小的最大尺寸(例如,直径)。在一些实施方案中,本发明粒子具有150nm或更小的最大尺寸(例如,直径)。在一些实施方案中,本发明粒子具有100nm或更小的最大尺寸(例如,直径)。在本公开的一些实施方案中,使用例如具有50nm或更小的最大尺寸的更小粒子。在一些实施方案中,本发明粒子具有在25nm与200nm之间的范围内的最大尺寸。

本公开的范围内的粒子递送系统可以呈任何形式提供,包括但不限于固体、半固体、乳液或胶体粒子。因而,本文描述的任何递送系统,包括但不限于例如基于脂质的系统、脂质体、微团、微泡、外泌体或基因枪可以作为本公开的范围内的粒子递送系统提供。

本公开包括经由至少一种纳米粒子复合物递送核酸靶向性系统复合物的至少一种组分,例如crispr酶、grna。在一些方面,本公开提供了诸多方法,所述方法包括向宿主细胞递送一种或多种多核苷酸,如本文所描述的一种或多种载体、一种或多种其转录物和/或一种或多种由其转录的蛋白质。在一些方面,本公开还提供了由此类方法产生的细胞和包含或由此类细胞产生的植物。在一些实施方案中,将与向导rna组合(并且任选地复合)的crispr酶递送至细胞。可以使用常规的基于病毒和非病毒的基因转移方法来引入植物细胞或靶组织中的核酸。此类方法可以用于施用核酸靶向性系统的核酸编码组分至培养物中或宿主生物体中的细胞。非病毒载体递送系统包括dna质粒、rna(例如,本文描述的载体的转录物)、裸核酸和与递送媒剂如脂质体复合的核酸。病毒载体递送系统包括在递送至细胞之后具有附加体基因组或整合的基因组的dna和rna病毒。关于基因治疗程序的综述,参见anderson,science256:808-813(1992);nabel和felgner,tibtech11:211-217(1993);mitani和caskey,tibtech11:162-166(1993);dillon,tibtech11:167-175(1993);miller,nature357:455-460(1992);vanbrunt,biotechnology6(10):1149-1154(1988);vigne,restorativeneurologyandneuroscience8:35-36(1995);kremer和perricaudet,britishmedicalbulletin51(1):31-44(1995);haddada等,currenttopicsinmicrobiologyandimmunology,doerfler和bohm(编)(1995);以及yu等,genetherapy1:13-26(1994)。

核酸的非病毒递送方法包括脂质转染、显微注射、生物弹、病毒体、脂质体、免疫脂质体、聚阳离子或脂质:核酸缀合物、裸dna、人工病毒体和试剂增强dna吸收。脂质转染描述于例如美国专利号5,049,386、4,946,787和4,897,355中,并且脂质转染试剂在市面上出售(例如,transfectam.tm.和lipofectin.tm)。适用于多核苷酸的有效受体识别脂质转染的阳离子脂质和中性脂质包括felgner、wo91/17424、wo91/16024的那些脂质。可以递送至细胞(例如,体外或离体施用)或靶组织(例如,体内施用)。

包括靶向的脂质体的脂质:核酸复合物,如免疫脂质复合物的制备对于本领域技术人员是众所周知的(参见例如crystal,science270:404-410(1995);blaese等,cancergenether.2:291-297(1995);behr等,bioconjugatechem.5:382-389(1994);remy等,bioconjugatechem.5:647-654(1994);gao等,genetherapy2:710-722(1995);ahmad等,cancerres.52:4817-4820(1992);美国专利号4,186,183、4,217,344、4,235,871、4,261,975、4,485,054、4,501,728、4,774,085、4,837,028和4,946,787)。

使用基于rna或dna病毒的系统递送核酸利用了高度进化的方法使病毒靶向体内的特定细胞并且将病毒有效负载运送至细胞核。病毒载体可以直接施用至完整植物,或者它们可以体外施用至细胞。基于病毒的系统的实例包括用于基因转移的双生病毒、烟草脆裂病毒(trv)、马铃薯x病毒(pvx)、中国番茄黄化曲叶病毒(tylccv)、菜豆金黄花叶病毒、大麦条纹花叶病毒(bsmv)、兰花花叶病毒(cymmv)、水稻东格鲁杆状病毒(rtbv)、花椰菜花叶病毒(camv)、芜菁黄花叶病毒(tymv)、甘蓝曲叶病毒(cblcv)、苹果潜隐球状病毒(alsv)、黄瓜花叶病毒(cmv)、棉花皱叶病毒(clcrv)、非洲木薯花叶病毒(acmv)、豌豆早褐病毒(pebv)、甜菜曲顶病毒(bctv)。

在一些实施方案中,用一种或多种本文描述的载体来暂时或非暂时地转染宿主细胞。在一些实施方案中,在细胞天然存在于植物中时对其进行转染。在一些实施方案中,转染的细胞是取自植物。在一些实施方案中,所述细胞来源于取自植物的细胞,如原生质体。在一些实施方案中,经本文描述的一个或多个载体转染的细胞被用来建立新细胞系,所述新细胞系包含一个或多个载体来源的序列。在一些实施方案中,经如本文所描述的核酸靶向性系统的组分转染(诸如通过一个或多个载体的暂时转染或者利用rna的转染)并且通过crispr复合物的活性加以修饰的细胞被用来建立新细胞系,所述新细胞系包括含有所述修饰但缺乏任何其它外源序列的细胞。在一些实施方案中,经本文描述的一个或多个载体暂时或非暂时转染的细胞或者来源于此类细胞的植物被用于评价一种或多种测试化合物。

在一些实施方案中,本文描述的一个或多个载体被用来产生非人转基因动物或转基因植物。在一些实施方案中,所述转基因动物是哺乳动物,如小鼠、大鼠或兔。产生转基因动物和植物的方法在本领域中是已知的,并且一般从细胞转染方法开始,如本文所描述。在一个方面,本公开提供了修饰真核细胞中的靶多核苷酸的方法。在一些实施方案中,所述方法包括允许核酸靶向性复合物结合至所述靶多核苷酸以实现对所述靶多核苷酸的切割,从而修饰所述靶多核苷酸,其中所述核酸靶向性复合物包含与向导rna复合的crispr酶,所述向导rna与所述靶多核苷酸内的靶序列杂交。

在一个方面,本公开提供了一种修饰真核细胞中的多核苷酸的表达的方法。在一些实施方案中,所述方法包括允许核酸靶向性复合物结合至所述多核苷酸,使得所述结合引起所述多核苷酸的表达增加或减少;其中所述核酸靶向性复合物包含与向导rna复合的crispr酶,所述向导rna与所述多核苷酸内的靶序列杂交。

核酸靶向性系统在植物中的用途

本文公开的核酸靶向性系统(例如单个或多路)可以与作物基因组的最新进展联合使用。本文描述的系统可用于进行有效并且成本有效的植物基因或基因组审查或编辑或操纵。所述核酸靶向性系统就植物而言可以用于定点整合(sdi)或基因编辑(ge)或者任何近反向育种或反向育种技术。利用本文描述的核酸靶向性系统的方面可能类似于crispr-cas(例如crispr-cas9)系统在植物中的使用情况,并且由亚利桑那大学网站“crispr-plant”(http://www.genome.arizona.edu/crispr/)(由宾夕法尼亚州和agi提供支持)提及。

使用如本文所描述的核酸靶向性系统进行基因组编辑的方法可用于赋予基本上任何植物以所期望的性状。可以使用本公开的核酸构建体和如以上提到的各种转化方法,针对本文所描述的所期望的生理学和农艺学特征对多种植物和植物细胞系统进行工程改造。

在一些实施方案中,引入了编码核酸靶向性系统的组分的多核苷酸以便稳定整合至植物细胞的基因组中。在这些实施方案中,可以取决于在何时、在何处和在何种条件下表达向导rna和/或crispr酶基因来调节转化载体或表达系统的设计。

在一些实施方案中,在植物、植物组织或植物细胞中暂时表达编码所述核酸靶向性系统的组分的多核苷酸。在这些实施方案中,核酸靶向性系统只有当向导rna与crispr酶都存在于细胞中时才可以确保对靶基因的修饰,从而可以进一步控制基因组修饰。因为crispr酶和向导rna的表达是暂时的,所以从此类植物细胞再生的植物典型地不含外来dna。在具体实施方案中,通过植物细胞稳定表达所述crispr酶并且暂时表达向导rna。在具体实施方案中,通过所述植物细胞稳定表达crispr酶,并且通过本文描述的任何方法将向导rna直接提供给所述植物细胞。

可以通过多种常规技术将含有所述核酸靶向性系统的组分和适当时模板序列的dna构建体引入至植物、植物部分或植物细胞的基因组中。

在具体实施方案中,可以使用植物病毒载体将所述核酸靶向性系统组分引入所述植物细胞中。在一些实施方案中,所述病毒载体是来自dna病毒的载体。举例来说,双生病毒(例如,甘蓝曲叶病毒、菜豆黄矮病毒、小麦矮缩病毒、番茄曲叶病毒、玉米线条病毒、烟草曲叶病毒或番茄金色花叶病毒)或纳米病毒(例如,蚕豆坏死黄化病毒)。在一些实施方案中,所述病毒载体是来自rna病毒的载体。举例来说,烟草病毒(例如烟草脆裂病毒、烟草花叶病毒)、马铃薯病毒(例如,马铃薯x病毒)或大麦病毒(例如,大麦条纹花叶病毒)。植物病毒的复制基因组是非一体化载体。

本文描述的方法一般产生与野生型植物相比包含一种或多种所期望的性状的植物。在一些实施方案中,所获得的植物、植物细胞或植物部分是包含并入至所述植物的全部或一部分细胞的基因组中的外源dna序列的转基因植物。在其它实施方案中,获得了非转基因的基因修饰植物、植物部分或细胞,因为所述植物的任何植物细胞的基因组中都没有并入外源dna序列。在此类实施方案中,所述植物是非转基因的。在仅确保修饰内源基因并且植物基因组中没有引入或维持外来基因时,所得基因修饰植物不含非天然基因。

在一些实施方案中,所述核酸靶向性系统靶向叶绿体。在一些实施方案中,靶向可以通过存在被称为叶绿体转运肽(ctp)或质粒转运肽的n末端延伸来实现。

实施例

实施例1:rna导向性dna核酸酶的鉴定

基于与crispr(重复元件)基因座的紧密邻近性,鉴定了众多rna导向性dna核酸酶。通过对来自以下项的细菌基因组进行迭代生物信息搜索来鉴定编码rna导向性dna核酸酶的多核苷酸序列:赖氨酸芽孢杆菌属、短芽孢杆菌属、鞘氨醇杆菌属、水杆菌属、芽孢杆菌属、金黄杆菌属、鞘氨醇单胞菌属、双头菌属、侧孢短芽孢杆菌、苏云金杆菌、粪肠球菌、短短芽孢杆菌、迟钝水杆菌、玫瑰色新鞘氨醇菌、嗜甲胺双头菌和类短短芽孢杆菌。

使用crispr识别工具v1.1在15,980个细菌基因组中搜索crispr序列(blandc等,crisprrecognitiontool(crt):atoolforautomaticdetectionofclusteredregularlyinterspacedpalindromicrepeats.bmcbioinformatics.2007年6月18日;8(1):209;网址:room220.com/crt)。根据此搜索,在8,865个基因组中鉴定了20,468个crispr基因座,其中1,258个crispr基因座被分类为ii型重复序列(chylinski,k.等,thetracrrnaandcas9familiesoftypeiicrispr-casimmunitysystems.rnabiology10:5,726-737;2013)。然后,使用pfam模型(来自版本28.0的158个模型),包括cas9蛋白结构域hnh、ruvc、cas9-pi、cas9-rec、cas9-bh来搜索非冗余细菌蛋白质数据集。

在第一次迭代中,搜索准则包括(a)鉴定大蛋白质序列(大约1,000个氨基酸);(b)这些蛋白质序列被注释为内切核酸酶或cas9或者含有hnhpfam结构域;(c)与cas1和cas2而不与cas5或cas3位于相同操纵子中;而且所述蛋白质在相同操纵子中距crispr基因座<2kb以内。这些准则表明所鉴定的蛋白质是rna导向性dna核酸酶。在这一轮中,八种蛋白质被鉴定为crispr酶。

在后续迭代中,搜索准则包括(a)鉴定大蛋白质序列(大约1,000个氨基酸);(b)这些蛋白质序列被注释为内切核酸酶或cas9或者含有hnhpfam结构域;(c)与cas1和cas2而不与cas5或cas3位于相同操纵子中;而且所述蛋白质在相同操纵子中距crispr基因座<2kb以内。另外对结果进行复查以鉴定未注释的cas2。由此鉴定了额外的22种crispr酶。组合迭代产生了31种新颖的crispr酶,以seqidno:1-30和36表示。

实施例2:额外的新颖crispr酶的鉴定

还通过使用以下搜索条件对细菌基因组序列进行迭代生物信息搜索来鉴定新颖的crispr酶。使用crispr识别工具v1.1,针对crispr序列扫描细菌基因组(blandc等,crisprrecognitiontool(crt):atoolforautomaticdetectionofclusteredregularlyinterspacedpalindromicrepeats.bmcbioinformatics.2007年6月18日;8(1):209;网址:room220.com/crt)。由此分析,鉴定了18,709个具有位于相距<20kb的所注释的蛋白质的crispr基因座。接下来,使用针对pfam-a数据库版本28.0.的hmmsearchv3.1v2来注释所鉴定的蛋白质序列,并且根据以下对这些进行过滤:(a)所述crispr基因座在<20kb外具有预计产物含有“cas_cas1”结构域的基因;(b)所述蛋白质在<20kb外具有预计产物含有“crispr_cas2”结构域的基因(在步骤(a)和步骤(b)之后,剩余1,190个crispr基因座);(c)所述蛋白质在<20kb外不存在预计产物含有“cas_cas5d”结构域的基因(剩余225个crispr基因座);(d)所述蛋白质在<20kb外不存在预计产物含有“cas9-bh”、“cas9_rec”或“cas9_pi”结构域的基因(符合这个条件的有173个crispr基因座);(e)所述蛋白质在<20kb外具有预计产物含有被注释为“内切核酸酶”的结构域的基因(剩余29个crispr基因座)。此搜索和过滤的结果得到29个具有关联的cas1和cas2(表明它们是功能适应性免疫系统)并且不存在关联的cas5(表明它们不是i型、iii型或iv型crispr系统)或关联的高同源性cas9(表明它们不是典型的ii型crispr系统)的crispr阵列清单。有15种推定的crispr酶与这29个crispr阵列相关,其中只有7个的长度>900个氨基酸,并且在这7个中,有5个先前没有被如实施例1中所描述的其它方法鉴定。这5个由seqidno:31-35表示。

所鉴定的crispr酶的pfam注释提供于表1中。对于每一种蛋白质,标明了结构域id(例如cas9-bh、cas9_rec或hnh_4),然后是结构域e值,然后是终点坐标符号,然后是pfam结构域坐标。关于每一对查询和靶终点坐标,终点坐标符号具有以下含义:对齐在内部结束时两端都由“..”表示;对齐是与查询和靶的末端全长齐平时两端都由“[]”表示;仅左端或右端是齐平的/全长的分别由“[.”或“.]”表示(eddy,s.r.,hmmer3betatest:user’sguide,版本3.0b3;2009年11月,网站hmmer.org)。

表1.所鉴定的crispr酶的pfam注释.

表2中列出了与所鉴定的crispr酶相关的crispr阵列序列连同每一个阵列内的crispr重复序列和间隔子的序列坐标。还预测了tracrrna和crrna序列,并且对于每一种crispr酶,可以使tracrrna和crrna序列以所有可能的组合融合以产生单链向导rna(sgrna)。表3中列出了预测tracrrna、crrna和sgrna(以gaaa环序列连接crrna和tracrrna)的实例。

表2.crispr阵列序列

表3.针对表1中列出的crispr酶的预测tracrrna、crrna和融合的tracrrna:crrna.

实施例3:新颖类别的crispr酶的鉴定

在如实施例1中所详述进行生物信息分析期间,发现一种大蛋白质(1108个氨基酸)与没有被注释为cas9或含有hnh结构域的crispr操纵子密切相关。将这种crispr酶命名为ncc1(新颖crisprcas),由seqidno:73表示。针对ncc1鉴定了三个crispr区域(seqidno:146、147和148),并且还预测了两个推定tracrrna(seqidno:162和165)。另外,在ncc1操纵子内,存在一个表明cas1cas4融合的序列和另一个推定的cas2序列。图1中描绘了包含ncc1、crispr和tracrrna的基因组区域的结构。

鉴定了许多ncc1同系物(seqidno:75-87),并且预测一些所鉴定的ncc1同系物的相关crispr阵列序列,并且在表4中列出。还预测了一些所鉴定的ncc1同系物的tracrrna和crrna序列并且在表5中列出。可以使tracrrna和crrna以所有可能的组合融合以形成单链向导rna,并且将一些具有gaaa环序列的融合tracrrna:crrna序列作为实例在表5中列出。

表4.ncc1和ncc1同系物的预测crispr阵列序列和坐标.

表5.ncc1和ncc1同系物的预测tracrrna和crrna序列.

对于crispr酶,tracrrna中具有发夹对核酸酶结合非常重要。对预测ncc1tracrrna的结构的检查显示两个推定发夹(图2)。由crrna和tracrna形成的发夹可以经过处理以形成更短的碱基配对区域(图3)。可以通过使tracrrna的3'末端与crrna的5'末端融合而将ncc1crrna和tracrna双螺旋简化成单链向导rna(sgrna)。图4示出了使用短gaaa序列作为环来接合tracrrna(seqidno:195)和crrna(seqidno:196)以形成sgrna(seqidno:197)的实例。为了安排以ncc1进行靶位点切割,将crrna:tracrrna双螺旋或sgrna设计为在其3'末端携带靶向来自靶基因座的原间隔子序列的间隔子。然后使用体外切割测定法,通过孵育靶dna与ncc1蛋白和体外转录的crrna:tracrrna双螺旋或sgrna来验证rna导向性靶切割活性(shmakov等,molecularcell(2015)60:1-13)。在切割缓冲液(nebuffer3,5mmdtt)中,使用表达ncc1蛋白的hek293细胞的溶解物进行体外切割测定,持续1小时。每一个切割反应使用200ng靶dna和等摩尔比的crrna:tracrrna。通过加热至95℃并且缓慢冷却至4℃对rna进行预退火。将由rgen基因座的第一原间隔子组成的靶dna克隆至puc19中。在切割反应之前通过bsai消化将puc19原间隔子构建体线性化。使用pcr纯化柱(qiagen)净化反应物并且在2%琼脂糖e凝胶(lifetechnologies)上跑胶。

实施例4:crispr酶活性的测定

进行高通量测定以确定所鉴定的crispr酶是否(a)具有rna导向性dna核酸酶活性和(b)鉴定相关的pam基序。这种测定一般适用于rna导向性内切核酸酶(rgen),这是指如下的dna修饰酶:(1)包括内切核酸酶溶解活性和(2)与能够将它们引导至特定多核苷酸靶位点以发挥活性的非编码rna物质相关。这些酶中有许多种可能具有除内切核酸酶活性以外的其它功能,包括但不限于转座酶、拓扑异构酶、重组酶和解离酶。

将包括编码由seqidno:1-73、75-87表示的crispr酶的dna序列之一和其天然基因组环境中的相关rna物质的细菌基因组目标区域(roi)克隆至质粒中。还为每一个系统构建了另一种“报告基因”构建体,所述构建体包括在相关crispr阵列中鉴定的一个或多个间隔子序列。所述间隔子在两端侧接有12个可变核苷酸(‘nnn’)。报告基因构建体具有低拷贝复制起点和与rgen质粒不同的可选择标记物以允许选择共转化子。它们还具有允许进行蓝-白选择的lacz构建体。在表达roi元件后,内切核酸酶溶解活性将切割报告基因质粒,并且因此,其在所述细胞内的拷贝数将降低。将这些载体转化至大肠杆菌中。对于rna导向性dna核酸酶,当可变区(‘n’)包括在间隔子5'或3'的pam时,dna核酸酶活性将引入双链断裂(dsb),这在大部分情况下将导致破坏并且最终消除所述报告基因质粒。替代地,在围绕间隔子区域切除可变长度之后,沿短同源性区域的重组将使报告基因构建体再循环(wang等,2015genet.mol.res.,14,12306-12315)。这些重组体中有一些可能导致lacz基因的功能障碍,同时保留可选择标记基因。这些突变体可被认为是一大片主要呈蓝色的菌落中的白色菌落(图5a)。这个测定将鉴定出初始内切核酸酶切割后发生报告基因构建体再循环的rgen系统。对于具有额外功能的rgen,诸如转座酶,可以引入额外的突变,随后它们再连接线性质粒,并且因此未必影响可选择标记物和报告基因。在那些情况下,报告基因质粒的高通量测序将会揭示额外的突变。

实施例5:分枝杆菌切割测定

一组原核生物,即分枝杆菌属,能够通过称为非同源末端接合(nhej)的机制来修复被切割的质粒dna。nhej将以易出错方式使被切割的质粒愈合(参见例如图6)。可以利用此机制,通过以pcr扩增和/或测序来检测靶位点处的短寡核苷酸整合或点突变而鉴定有效的crispr酶系统。这种测定可以用作实施例4中所示的蓝-白选择的替代方案。

实施例6:体外切割测定

将编码由seqidno:1-36、73、75-87表示的crispr酶之一的序列克隆至表达载体中,并且对酶进行纯化。将包括参与rgen活性的rna物质的对应基因组目标区域(roi)克隆至高拷贝质粒中,将所述质粒转化至大肠杆菌中。通过rna测序来鉴定roi构建体上编码的与目标crispr酶相关的rna组分。合成这些rna组分。如图5b中所示,将rgen/rna复合物加入至携带间隔子序列的合成dna片段。将再收集被切割或未被切割但以其它方式突变的dna片段以供测序。

实施例7:crispr酶的pam基序的测定和验证

将包括编码由seqidno:1-36、73、75-87表示的crispr酶的dna序列之一和其天然基因组环境中的相关rna物质的细菌基因组目标区域(roi)克隆至质粒中。所述载体还包含第一抗生素抗性基因,如卡那霉素抗性(kan)。将侧接有12bp的n的间隔子克隆至包含第二抗生素抗性基因,例如四环素或氯霉素的第二载体中。将两个载体转化至大肠杆菌中,并且接种在含有培养基与用于选择第一载体的单个抗生素的两组板上。第二组板含有用于选择两种载体的抗生素。由两组板上生长的细菌制备质粒dna,对具有侧接n序列的间隔子进行pcr扩增,并且对pcr扩增子进行深度测序以鉴定自库中排除的序列。对应于被排除的序列的这些序列对应于共同转化的相应crispr酶的pam基序。

替代地,可以凭经验检查pam对crispr酶的偏好,并且通过使用依赖于对含有随核酸酶-向导rna复合物而变化的随机化pam的质粒库(3'pam或5'pam库)进行体外切割的方法加以确定(karvelis等,genomebiology(2015)16:253;shmakov等,molecularcell(2015)60:1-13)。使用由间隔子1靶标上游或下游的七个随机化核苷酸组成的合成寡核苷酸(idt)来构建随机化pam质粒库。通过粘接至短引物并且使用大克列诺片段进行第二链合成而使随机化ssdna寡核苷酸成为双链。使用吉布森克隆将dsdna产物组装至线性化puc19中。用所克隆的产物转化stabl3大肠杆菌细胞,收集并汇合。使用qiagenmaxi-prep试剂盒收集质粒dna。将汇合的库转化至经转化而具有rgen基因座的大肠杆菌细胞中。转化之后,接种细胞并且用抗生素进行选择。生长16小时之后,收集>4×106个细胞并且使用qiagenmaxi-prep试剂盒提取质粒dna。对靶pam区域进行扩增,并且使用illuminamiseq以单端测序150个循环。将对应于pam和非pam的序列克隆至经过消化的puc19中,并且用t4连接酶(enzymatics)连接。用pam质粒对具有rgen基因座质粒或pacyc184对照质粒的胜任大肠杆菌进行转化,并且接种在补充有氨苄青霉素和氯霉素的lb琼脂板上。18小时之后,利用opencfu(geissmann,q.plosone8,2013)对菌落进行计数。

实施例8:在真核细胞中测定crispr酶活性

用表达载体来转化真核细胞,所述表达载体包含与编码选自seqidno:1-36、73、75-87的crispr酶的序列和编码包含能够与真核细胞的内源序列杂交的序列的rna向导的序列可操作地连接的异源启动子。还给细胞提供包含外源转基因或用于进行模板化编辑的序列的供体多核苷酸。与向导rna复合的crispr酶在靶位点处或近侧切割基因组dna,并且通过非同源末端接合或同源重组并入供体多核苷酸。通过对跨越染色体-寡核苷酸接点的扩增子进行测序来检测整合(图5c)。

实施例9:使用蓝-白选择验证crispr酶活性

进行表型测定以确定本文鉴定的新颖cirspr酶是否表现出rna导向性dna核酸酶活性。实施例4中详述了这种测定的原理和设计。测试crispr酶(表6中的seqidno:2、3、23、32、34和35),并且针对每一种crispr酶,将包含编码crispr酶的dna序列和其天然基因组环境中的相关rna物质的细菌基因组目标区域(roi)克隆至质粒中。还构建了包含在crispr阵列中鉴定的间隔子序列中的两个的另一种‘报告基因’质粒。所述间隔子在两端侧接有12个可变核苷酸(图7中描绘为‘nnn’)。报告基因构建体具有低拷贝复制起点(pacyc184)和与rgen质粒(卡那霉素抗性)不同的可选择标记物(氯霉素抗性)以允许选择共转化子。它还携带有允许进行蓝-白选择的lacz构建体。将roi和报告基因质粒共同转化至大肠杆菌中。当可变区(‘n’)在间隔子的任一侧包括pam时,预期dna核酸酶活性引入双链断裂(dsb)。dsb往往导致大肠杆菌中的线性化质粒完全破坏,这被认为是在大肠杆菌中进行dna修复的唯一可能的结果。然而,存在导致线性化质粒再循环的替代dna修复机制的分子证据越来越多。最可能的是,这些重排通过如wang等(restriction-ligation-free(rlf)cloning:ahigh-throughputcloningmethodbyinvivohomologousrecombinationofpcrproducts.2015genet.mol.res.,14,12306-12315)所示的短同源性轨迹之间的重组而发生。替代地,线性质粒与环形质粒之间的短同源性还可以引起产生嵌合质粒的重组。这些来源于靶向切割报告基因构建体的新变体中有一些将会消除报告基因(lacz),同时保留氯霉素抗性基因,从而将在蓝色菌落的‘海洋’中产生稀少的氯霉素抗性白色菌落。如图7中所描绘构建两种阴性对照,其中他们的载体骨架中不存在roi(对照物rgen(-))或报告基因区域(对照物报告基因(-))。如表6中所示,四种crispr酶(seqidno:2、23、32和35)显示与缺乏报告基因区域或crsipr酶区域的阴性对照相比,白色菌落的数目显著增加,表明这些crispr酶消除了报告基因质粒或使其发生了突变。

表6.蓝-白选择测定测试的六种crispr酶.

实施例10:使用2-质粒或3-质粒选择系统验证crispr酶活性

先前开发了细菌选择系统以便通过关联dna切割事件与细胞存活来研究归巢内切核酸酶的性质(chen和zhao,nucleicacidsresearch,200533:e154)。这种系统已经被用来增加foki核酸酶结构域的体内切割效率和特异性(guo等,j.molbiol.2010400(1):96-107)。它还被用来改变rna导向性内切核酸酶cas9的pam特异性(kleinstiver等,nature2015523:481-485)。我们把它进一步开发成能偶联crispr酶介导的dna切割与宿主细胞存活的高灵敏度选择系统。构建了三种质粒,即pnuc-i-scei、pcut-i-scei和pguide,使得能够实现2-质粒(pnuc和pcut)选择系统或更灵活的3-质粒选择系统。chen和zhao的2-质粒系统由‘报告基因质粒’(p11-lacy-wtx1)和诱导型蛋白质表达载体(ptrc-i-scei)组成。我们拥有的蛋白质表达载体pnuc-i-scei与chen和zhao使用的那个相当,有少许修饰。pnuc-i-scei使用强p-tac启动子,类似但不同于ptrc-i-scei中的p-trc启动子。作为可能的改良,pnuc-i-scei骨架中存在laci基因(lac阻遏因子),使得所述质粒可以在非laciq宿主中正常工作。pnuc-i-scei来源于pacyc-duet1质粒(novagen),并且具有p15a-ori和氯霉素(cm)抗性基因,相比之下,ptrc-i-scei具有cole-ori和卡那霉素抗性基因。在足以切割具有i-scei限制位点的质粒的量下,pnuc似乎以低、无毒的水平在大肠杆菌中表达i-scei兆碱基核酸酶。pnuc-i-scei具有独特的ndei和noti位点,从而允许用其它基因或操纵子容易地置换i-scei编码区。用bamhi和noti切割质粒允许克隆含有多个orf、crispr基因座或其它序列的1至9kb基因组区域,其中orf的蛋白质表达将起始于天然启动子等。kleinstiver使用与pnuc(具有p-t7启动子)类似的质粒从一个质粒共同表达cas9和sgrna。

报告基因质粒pcut-i-scei非常类似于p11-lacy-wtx1,仅存在微小差异。pcut含有处在受到充分调控的p-ara表达单元后面的高毒性ccdb基因,以便在其未诱导状态下以致使含有pcut的细胞成为健康的羧苄青霉素抗性细胞的低水平表达ccdb水平。p11-lacy-wtx1在其载体中使用氨苄青霉素抗性基因。然而,向生长培养基中加入0.2%阿拉伯糖诱导ccdb表达达到诱致携带所述质粒的细胞的3至4个对数灭杀的水平。pcut-i-scei还含有紧接在ccdb基因下游的‘切割位点’。在pcut-i-scei中,‘切割位点’是含有i-scei兆碱基核酸酶的18bp识别序列的约50bp序列。侧接切割位点的区域含有允许序列被我们想要用作切割位点的其它所期望的序列置换的独特的限制位点。pcut-i-scei中的切割位点可以是含有简并核苷酸(即,n=a或c或g或t)的序列库。

chen和zhao以及其他人描述了在其‘切割位点’中切割pcut的内切核酸酶的表达减轻生长对阿拉伯糖的敏感度的原因是由于pcut的快速体内降解和阿拉伯糖诱导型ccdb基因的丧失。可以对这样的系统进行精细调整,以便选择内切核酸酶的识别序列变体‘动态变体’(guo等,j.molbiol.2010400(1):96-107),或者研究对dna切割最佳的体内温度。

当制得含有pcut-i-scei的胜任bw25141细胞(chen和zhao描述的一种特殊宿主菌株),并且用pnuc-i-scei而且同时用(空)pacyc-duet1进行转化,并且允许恢复大约2.5小时时,在没有抗生素、有或者没有加入iptg(以进一步诱导p-tac启动子的i-scei表达)的情况下,可以将细胞的等分试样接种在lb+25ug/ml氯霉素(cm)琼脂板(以测定pnuc构建体的转化效率)以及lb+25ug/mlcm+0.2%阿拉伯糖板上。取决于细胞的稀释度和胜任度,经(空)pacyc-duet1转化过的细胞在lb+25ug/mlcm+0.2%阿拉伯糖板上产生0至1个菌落形成单位(cfu),相比之下,在lb+25ug/mlcm板上产生>1000个cfu。相比之下,经pnuc-i-scei转化过的细胞在lb+cm+阿拉伯糖板上产生30至>100个cfu,相比之下,在lb+cm板上产生>500个cfu。‘+阿拉伯糖’板上的显著cfu计数是chen和zhao针对活性兆碱基核酸酶选择的选择标准。

其他人已经使用了类似于pnuc的质粒共同表达crispr酶连同其向导rna或crispr基因座(zetsche等,cell,2015163:759-771)。我们推论使用单独的第三质粒pguide共同表达向导rnas将增加选择系统的灵活性。为此,选择含有cdf-ori和壮观霉素-r基因的pcdf-duet1骨架(novagen),并且将合成dnaj23119(zetsche等使用的合成组成型大肠杆菌启动子)插入约2.2kbpcdf骨架中以创建pguide质粒。可以将与目标crispr酶相关的向导rna,例如ncc1插入pcdf骨架中以创建pguide-ncc1质粒。

使用所建立的2-质粒和3-质粒系统来测定由seqidno:1-36、73和75-87表示的crispr酶的rna导向性内切核酸酶活性。使用ncc1(seqidno:73)作为例子,针对图8中列出的各种基因组区域(seqidno:240-252)设计并创建了13种构建体,将构建体1至8和10至13克隆至pnuc-i-scei质粒中置换i-scei组分,从而创建pnuc-ncc1质粒。将含有tracrrna和crispr阵列的构建体-9克隆至pguide质粒中。将ncc1‘切割位点’(两个间隔子seqidno:253、254,两端都侧接8个可变核苷酸)克隆至pcut-i-scei质粒中置换i-scei切割位点,以创建pcut-ncc1质粒。通过将非ncc1‘切割位点’(例如cas9切割位点)并入至pcut-i-scei质粒中来产生pcut-对照物质粒。

在上述2-质粒测定中测试pnuc-ncc1质粒与pcut-ncc1质粒,以确定crispr酶活性所需的最小基因组片段。针对构建体4和12,进一步测试pnuc-ncc1质粒与pcut-ncc1质粒和pguide质粒(包含构建体9)以确定crispr酶活性是否需要tracrrna和crispr基因座。使用pcut-对照物质粒来显示rna导向性切割的特异性。在37℃、30℃和25℃下再测试阳性构建体以确定最佳切割温度。

实施例11:计划用于在植物中进行基因组编辑的crispr酶系统

测试由seqidno:1-73和75-87表示的rgen,并且确定它们是否可以用于切割植物中的基因组dna。为了证明这种活性,创建载体以表达rgen和相关的单链向导rna(表3和表5中示出的tracrrna:crrna融合物)。举例来说,创建载体以表达ncc1(seqidno:73)和其sgrna(seqidno:197)。对rgen的开放阅读框进行密码子优化以用于玉米和大豆,并且在表7中列出。可以使用玉米泛素2启动子来驱动rgen在植物中的表达。将核定位信号(例如单组分sv40)加入至rgen的n末端,并且将双组分核浆素核定位信号(binls)加入至c末端以促进核定位。为了验证所使用的核定位信号的有效性,用rgen-gfp融合蛋白构建体转化玉米原生质体并且观察核定位的荧光。玉米u6snrna启动子可以用于在玉米中产生sgrna(j.zhu等,journalofgeneticsandgenomics43(2016)25-36)。如实施例7中所描述来鉴定rgen的pam序列,并且可以使用rgen识别的原间隔子序列以便使用j.zhu等描述的方法在最低限度的脱靶切割下鉴定玉米核蛋白编码基因内的sgrna特异性靶位点。出于在玉米中进行靶向性基因破环的目的,位于前两个外显子中的靶标是良好候选物,因为在编码序列开始处存在的突变很可能破坏所述蛋白质的功能。

表7.玉米和大豆的rgen的密码子优化性开放阅读框.

为了测试定制的crispr酶系统用于玉米内源基因编辑的活性,进行原生质体瞬时测定以检测经过工程改造的crispr酶系统的功能。为了提高转化效率,产生了具有sgrna和crispr酶表达盒的双成分质粒,然后转化至玉米原生质体中。从培养了24小时的转化过的原生质体中提取基因组dna,并且制备涵盖靶位点的扩增子以用于illumina深度测序。靶向的突变可以观察为缺失、插入和缺失伴随插入。

为了测试crispr酶系统在稳定表达株系中的突变效率,选择玉米瞬时测定中验证的靶位点。然后经由根癌农杆菌将编码能够与靶位点杂交的sgrna和crispr酶的构建体转化至玉米不成熟胚芽中。分析t0转基因株系,并且基于免疫印迹分析来鉴定含有crsipr酶的株系。可以使用surveyor分析来确定是否将突变引入靶位点中(j.zhu等,journalofgeneticsandgenomics43(2016)25-36)。关于由crispr酶引入的突变效率和突变类型的详细分析,可以针对crispr酶阳性t0代植物对涵盖靶位点的pcr扩增子进行深度测序。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1