修饰基因组的组合物和方法与流程

文档序号:21366214发布日期:2020-07-04 04:41阅读:500来源:国知局
发明领域本发明涉及用于在预选位置编辑基因组序列和用于调节基因表达的组合物和方法。关于通过efs-web以文本文件形式提交的序列表序列表的正式文本通过efs-web以按照美国信息交换标准码(ascii)的文本文件与说明书同时提交,文件名为bhp017p5sequencelisting_st25.txt,创建日期为2018年8月3日,大小为1,848kb。通过efs-web提交的该序列表是本说明书的一部分且通过引用全文纳入本文。
背景技术
::基因组dna的修饰对于基础和应用研究是极其重要的。基因组修饰有可能说明并且在一些情况中疗愈病因,以及在包括此类修饰的个体和/或细胞中提供所需特性。基因组修饰可以包括例如植物、动物、真菌的修饰,和/或原核基因组修饰。修饰基因组dna的最常用方法趋向于在基因组内的随机位点修饰dna,但是最近的发现使位点特异性基因组修饰成为可能。此类技术依赖于在所需位点上产生dsb。该dsb导致将宿主细胞的原生dna修复机制募集到dsb。可以控制dna修复机制,以在预定位点插入异源性dna,以使原生植物基因组dna缺失,或以在所需位点生成点突变、插入或缺失。对于位点特异性基因组修饰特别感兴趣的是成簇规律间隔短回文重复序列(crispr)核酸酶。crispr核酸酶使用引导分子,通常是引导rna分子,它与核酸酶相互作用并且与靶向的dna碱基配对,从而允许核酸酶在所需位点产生双链断裂(dsb)。dsb的产生要求原型间隔子-邻近基序(pam)序列的存在;在pam序列的识别之后,crispr核酸酶能够产生所需dsb。cms1crispr核酸酶是一类crispr核酸酶,相对于其它crispr核酸酶(例如cas9核酸酶)具有某些所需性质。实施基因组修饰的一个领域是植物基因组dna的修饰。植物基因组dna的修饰对于基础和应用植物学研究是极其重要的。具有稳定修饰的基因组dna的转基因植物可以具有新的性状,如除草剂耐受,抗虫性,和/或积累有价值蛋白质,包括它们提供的药用蛋白质和工业酶。原生植物基因的表达可能会被上调或下调或以其他方式改变(例如,通过改变表达原生植物基因的组织),它们的表达可能会被完全消除,dna序列可能会被改变(例如,通过点突变、插入或缺失),或新的非原生基因可能会被插入植物基因组,从而将新的性状赋予植物。技术实现要素:提供了使用cms1crispr系统进行基因组dna序列修饰的组合物和方法。本文所用基因组dna表示线性和/或染色体dna和/或感兴趣的一种或多种细胞中存在的质粒或其它染色体外dna序列。该方法在基因组dna序列中的预定靶位点生成双链断裂(dsb),在基因组中的靶位点导致dna序列的突变、插入和/或缺失。组合物包括dna构建体,其包括编码csm1蛋白的核苷酸序列,其操作性连接至在感兴趣细胞中可操作的启动子。在一些实施方式中,cms1蛋白包含选自下组的至少一个氨基酸基序:seqidno:177-186。在其它实施方式中,cms1蛋白包含选自seqidno:288-289和187-201的至少一个氨基酸基序。在其它实施方式中,cms1蛋白包含选自下组的至少一个氨基酸基序:seqidno:290-296。在某些优选的实施方式中,cms1蛋白包含选自下组的多于一个氨基酸基序:seqidno:177-186。在某些优选的实施方式中,cms1蛋白包含选自下组的多于一个氨基酸基序:seqidno:288-289和187-201。在某些优选的实施方式中,cms1蛋白包含选自下组的多于一个氨基酸基序:seqidno:290-296。具体的cms1蛋白序列列于seqidno:10、11、20-23、30-69、154-156、208-211和222-254;具体的cms1蛋白编码多核苷酸序列列于seqidno:16-19、24-27、70-146、174-176、212-215和255-287。在某些优选的实施方式中,cms1蛋白与选自下组的序列具有至少80%的相同性:seqidno:16-19、24-27、70-146、174-176、212-215和255-287。包含编码本发明的cms1蛋白的多核苷酸序列的dna构建体或本发明的cms1蛋白本身可用于在预定的基因组基因座上指导基因组dna的修饰。本文描述了使用这些dna构建体来修饰基因组dna序列的方法。本文还涵盖经修饰的真核生物和真核细胞,包括酵母,变形虫,昆虫,真菌,哺乳动物,植物,植物细胞,植物部分和种子,以及经修饰的原核生物,包括细菌和古细菌。还提供了用于调节基因表达的组合物和方法。该方法靶向蛋白质至基因组中预定位点以实现上调或下调一种或多种基因,其表达由基因组中靶向的位点调节。组合物包括含有核苷酸序列的dna构建体,所述核苷酸序列编码具有减弱或消失的核酸酶活性的修饰的csm1蛋白,任选地融合转录激活或抑制结构域。本文描述了使用这些dna构建体来修饰基因表达的方法。附图说明图1显示了从指示的v型核酸酶氨基酸序列的ruvc锚着的muscle比对得出的系统发育树。显示了sm型,sulf型和unk40型cms1核酸酶。图2显示了sm型cms1蛋白之间共有的氨基酸基序概述。框1-10中的weblogo图分别对应于seqidno:177-186,并显示了它们在smcms1蛋白(seqidno:10)上的位置。图3显示了sulf型cms1蛋白之间共有的氨基酸基序概述。框1-17中的weblogo图分别对应于seqidno:288-289和seqidno:187-201,并显示了它们在sulfcms1蛋白(seqidno:11)上的位置。图4显示了unk40型cms1蛋白之间共有的氨基酸基序的概述。框1-7中的weblogo图分别对应于seqidno:290-296,并显示了它们在unk40cms1蛋白(seqidno:68)上的位置。发明详述本文提供了用于控制基因表达的方法和组合物,涉及与crispr-cms系统及其组件有关的序列靶向(例如基因组干扰或基因编辑)。本发明的crispr酶选自cms酶,例如,cms1直系同源物或突变的cms1酶。cms1是源自小基因组菌(microgenomates)和史密斯氏菌(smithella)的crispr的缩写,之所以这样命名,是因为这些组中的某些细菌物种编码cms1核酸酶;术语csm1和cms1在本文中可互换使用。cms1核酸酶也可以称为cas12f核酸酶。该方法和组合物包括核酸以结合靶dna序列。这是有利的,因为生产核酸相比生产(例如)肽要容易且成本低得多,并且特异性可根据所需同源性的延伸段(stretch)的长度而不同。例如,不要求具有复杂的多指3d定位。还提供编码cms1多肽的核酸,以及使用cms1多肽来修饰宿主细胞(包括植物细胞)染色体(即,基因组)或细胞器dna序列的方法。cms1多肽与特定的引导rna(grna)相互作用,其将cms1内切核酸酶引导至特定的靶位点,cms1内切核酸酶在此处引入双链断裂,该双链断裂可通过dna修复过程修复,从而修饰dna序列。因为特异性由引导rna提供,所以cms1多肽是通用的,并且可与不同引导rna联用以靶向不同的基因组序列。相较于crispr阵列常规使用的cas核酸酶(例如,cas9)而言,cms1内切核酸酶具有某些优势。例如,cms1相关的crispr阵列能被加工为成熟的crrna而无需其它反式活化crrna(tracrrna)。此外,cms1-crrna复合物能够切割前方具有通常富含t的短原型间隔子(protospacer)-邻近基序(pam)的靶dna,这与许多cas9系统中在靶dna之后具有富含g的pam形成对比。此外,cms1核酸酶可引入交错的dna双链断裂。本文公开的方法可以用于靶向和修饰特定染色体序列和/或在真核和原核细胞基因组中的靶位置处引入外源序列。所述方法还可用于引入序列或修饰细胞器(例如,叶绿体和/或线粒体)中的区域。此外,靶向是特异性的,脱靶效应有限。i.cms1内切核酸酶本文提供了用于修饰基因组(包括植物基因组)的cms1内切核酸酶及其片段和变体。本文中所用术语cms1内切核酸酶或cms1多肽指seqidno:10、11、20-23、30-69、154-156、208-211和222-254中所示的cms1多肽序列的同源物、直系同源物和变体。通常,cms1内切核酸酶可在不使用tracrrna的情况下起作用,并且可引入交错的dna双链断裂。通常,cms1多肽包含至少一个rna识别和/或rna结合结构域。rna识别和/或rna结合结构域与引导rna相互作用。通常,引导rna包含具有与cms1多肽相互作用的茎环结构的区域。该茎环通常包含序列ucuacn3-5guagau(seqidno:312-314,由seqidno:315-317编码),带有“ucuac”和“guaga”碱基配对以形成茎-环的茎。n3-5表示在该位置可存在任何碱基,并且在该位置可包含3、4或5个核苷酸。cms1多肽还可包括核酸酶结构域(即,dna酶或rna酶结构域),dna结合结构域,解旋酶结构域,rna酶结构域,蛋白质-蛋白质相互作用结构域,二聚化结构域,以及其它结构域。在特定的实施方式中,cms1多肽或编码cms1多肽的多核苷酸包含:与靶向dna的rna相互作用的rna结合部分,和显示定点酶促活性的活性部分,例如ruvc内切核酸酶结构域。cms1多肽可以是野生型cms1多肽,修饰的cms1多肽或野生型或修饰的cms1多肽的片段。cms1多肽可经修饰以增加核酸结合亲和性和/或特异性,改变酶活性,和/或改变该蛋白质的另一性质。例如,可对cms1多肽的核酸酶(即,dna酶,rna酶)结构域进行修饰、使之缺失或失活。或者,可将cms1多肽截短以去除对蛋白质功能非必需的结构域。在一些实施方式中,cms1多肽可衍生自野生型cms1多肽或其片段。在其它实施方式中,cms1多肽可衍生自经修饰的cms1多肽。例如,cms1多肽的氨基酸序列可经修饰以改变该蛋白质的一种或多种性质(例如,核酸酶活性,亲和性,稳定性等)。或者,可消除该蛋白质中不参与rna引导的切割的cms1多肽的结构域,从而使经修饰的cms1多肽小于野生型cms1多肽。通常,cms1多肽包含至少一个核酸酶(即dna酶)结构域,但不需要包含hnh结构域,例如cas9蛋白中存在的一个。例如,cms1多肽可包含ruvc或ruvc样核酸酶结构域。在一些实施方式中,cms1多肽可经修饰以使核酸酶结构域失活,从而使其不再起作用。在其中核酸酶结构域之一是失活的一些实施方式中,cms1多肽不切割双链dna。在特定实施方式中,当以使核酸酶活性减小或消除的最大相同性比对时,突变的cms1多肽在对应于smcms1(seqidno:10)的701或922位或sulfcms1(seqidno:11)的848和1213位的位置包含一个或多个突变。可以使用众所周知的方法,例如定点诱变,pcr介导的诱变和总基因合成,以及本领域已知的其它方法来修饰核酸酶结构域。具有失活的核酸酶结构域的cms1蛋白(dcms1蛋白)可用于调节基因表达而无需修饰dna序列。在某些实施方式中,可以通过使用合适的grna将dcms1蛋白靶向基因组的特定区域,例如感兴趣的一个或多个基因的启动子。dcms1蛋白可结合至所需dna区域,并可干扰rna聚合酶与dna的该区域结合和/或干扰转录因子与dna该区域结合。该技术可用于上调或下调一个或多个感兴趣的基因的表达。在某些其它实施方式中,dcms1蛋白可与阻抑物结构域融合,以进一步下调一种或多种基因的表达,所述一种或多种基因的表达被rna聚合酶、转录因子或其它转录调节物与grna靶向的染色体dna区域间的相互作用所调节。在某些其它实施方式中,dcms1蛋白可与活化结构域融合以上调一种或多种基因的表达,所述一种或多种基因的表达被rna聚合酶、转录因子或其它转录调节物与grna靶向的染色体dna区域间的相互作用所调节。本文所公开的cms1多肽还可包含至少一个核定位信号(nls)。nls通常包含一段碱性氨基酸。本领域已知核定位信号(参见,例如,lange等,j.biol.chem.(2007)282:5101-5105)。nls可以定位于cms1多肽的n末端,c末端,或内部位置。在一些实施方式中,cms1多肽还可包含至少一个细胞穿透性结构域。细胞穿透性结构域可定位于该蛋白质的n末端,c末端,或内部位置。本文所公开的cms1多肽还可包含至少一种质体靶向信号肽,至少一种线粒体靶向信号肽,或使cms1多肽靶向质体和线粒体两者的信号肽。本领域已知质体、线粒体和双靶向信号肽定位信号(参见,例如,nassoury和morse(2005)biochimbiophysacta1743:5-19;kunze和berger(2015)frontphysiol6:259;herrmann和neupert(2003)iubmblife55:219-225;soll(2002)curropinplantbiol5:529-535;carrie和small(2013)biochimbiophysacta1833:253-259;carrie等(2009)febsj276:1187-1195;silva-filho(2003)curropinplantbiol6:589-595;peeters和small(2001)biochimbiophysacta1541:54-63;murcha等(2014)jexpbot65:6301-6335;mackenzie(2005)trendscellbiol15:548-554;glaser等(1998)plantmolbiol38:311-338)。质体、线粒体或双靶向信号肽可以定位于cms1多肽的n末端,c末端,或内部位置。在其他实施方式中,cms1多肽还可以还包括至少一个标志物结构域。标志物结构域的非限制性示例包括荧光蛋白,纯化标签和表位标签。在某些实施方式中,标志物结构域可以是荧光蛋白。合适的荧光蛋白的非限制性示例包括绿色荧光蛋白(例如gfp,gfp-2,taggfp,turbogfp,egfp,emerald,azamigreen,单体型azamigreen,copgfp,acegfp,zsgreen1),黄色荧光蛋白(例如yfp,eyfp,citrine,venus,ypet,phiyfp,zsyellow1),蓝色荧光蛋白(例如ebfp,ebfp2,azurite,mkalama1,gfpuv,sapphire,t-sapphire),青色荧光蛋白(例如ecfp,cerulean,cypet,amcyan1,midoriishi-cyan),红色荧光蛋白(mkate,mkate2,mplum,dsred单体,mcherry,mrfp1,dsred-express,dsred2,dsred-单体,hcred-tandem,hcred1,asred2,eqfp611,mrasberry,mstrawberry,jred),和橙色荧光蛋白(morange,mko,kusabira-orange,monomerickusabira-orange,mtangerine,tdtomato),或任何其它合适的荧光蛋白。在其他实施方式中,标志物结构域可以是纯化标签和/或表位标签。示例性的标签包括但不限于,谷胱甘肽s-转移酶(gst)、甲壳素结合蛋白(cbp)、麦芽糖结合蛋白质、硫氧还蛋白(trx)、多聚(nanp)、串联亲和纯化(tap)标签、myc、acv5、au1、au5、e、ecs、e2、flag、ha、nus、softag1、softag3、strep、sbp、glu-glu、hsv、kt3、s、s1、t7、v5、vsv-g、6xhis、生物素羧基载体蛋白(bccp)和钙调蛋白。在某些实施方式中,cms1多肽可以是含有引导rna的蛋白质-rna复合物的一部分。引导rna与cms1多肽相互作用将cms1多肽引导至特定靶位点,其中引导rna的5'端可与植物基因组中感兴趣的核苷酸序列的特定原型间隔子序列碱基配对,可以是核、质体和/或线粒体基因组的任何部分。本文所用术语“靶向dna的rna”表示这样的引导rna,其与植物细胞基因组中感兴趣的核苷酸序列靶位点以及cms1多肽相互作用。靶向dna的rna,或编码靶向dna的rna的dna多核苷酸,可包括:包含与靶dna中序列互补的核苷酸序列的第一区段,以及与cms1多肽相互作用的第二区段。本文公开的编码cms1多肽的多核苷酸可用于从其它原核或真核生物或从原生宿主生物不明或未知的宏基因组来源的序列分离相应的序列。由此,pcr、杂交等方法可用于根据此类序列与本文所示序列的序列同源性或相同性来鉴定该此类序列。本发明涵盖基于与本文所述的整个cms1序列或其变体和片段的序列同一性而分离的序列。此类序列包括本文公开的cms1序列的直向同源物的序列。“直向同源物”是指源自共同祖先基因且由于物种形成而在不同物种中发现的基因。当在不同物种中发现的基因的核苷酸序列和/或它们的编码蛋白质序列具有至少约75%、约80%、约85%、约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%、约99%或更大的序列同一性时,它们被认为是直向同源物。直向同源物的功能通常在物种之间高度保守。因此,本发明涵盖分离的多核苷酸,其编码具有cms1内切核酸酶活性的多肽,并且与本文公开的序列具有至少约75%或更大的序列同一性。如本文所用,cms1内切核酸酶活性指crispr内切核酸酶活性,其中,与cms1多肽关联的引导rna(grna)引起cms1-grna复合物结合至预定的核苷酸序列,该核苷酸序列与grna互补;并且其中,cms1活性可在grna靶向的位点处或附近引入双链断裂。在某些实施方式中,该双链断裂可以是交错的dna双链断裂。本文所用“交错的dna双链断裂”可以使双链断裂在切割后在3'或5'端上具有约1个、约2个、约3个、约4个、约5个、约6个、约7个、约8个、约9个或约10个核苷酸的突出端。在特定的实施方式中,cms1多肽引入具有5'突出端的交错的dna双链断裂。该双链断裂可以发生在靶向dna靶向的rna(例如,引导rna)序列所靶向的序列处或其附近。本文涵盖cms1多核苷酸和由此编码的cms1氨基酸序列(其保留cms1核酸酶活性)的片段和变体。“cms1核酸酶活性”意在表示由引导rna介导的预定dna序列的结合。在其中cms1核酸酶保留功能性ruvc结构域的实施方式中,cms1核酸酶活性还可包括双链断裂诱导。“片段”是指多核苷酸的部分或氨基酸序列的部分。“变体”是指基本相似的序列。对于多核苷酸,变体包括具有以下的多核苷酸:在5'和/或3'端处的缺失(即,截短);在原生多核苷酸中一个或多个内部位点处一个或多个核苷酸的缺失和/或添加;和/或在原生多核苷酸中一个或多个位点处一个或多个核苷酸的取代。本文所用的"原生"多核苷酸或多肽分别包含天然产生的核苷酸序列或氨基酸序列。一般而言,本发明的特定多核苷酸的变体将与该特定多核苷酸有至少约75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更大的序列相同性,如由本文他处所述的序列比对程序和参数所确定。“变体”氨基酸或蛋白质是指通过下述过程衍生自原生氨基酸或蛋白质的氨基酸或蛋白质:在原生蛋白质的n-末端和/或c-末端处缺失(也称为截短)一个或多个氨基酸,在原生蛋白质的一个或多个内部位点处缺失和/或添加一个或多个氨基酸,或在原生蛋白质的一个或多个位点处取代一个或多个氨基酸。本发明包括的变体蛋白质有生物活性,即它们继续具有原生蛋白质的所需生物活性。原生多肽的生物活性变体将与由本文所述的序列比对程序和参数确定的原始序列的氨基酸序列具有至少约80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更大的序列相同性。本发明的蛋白质的生物活性变体与该蛋白质可相差少至1-15个氨基酸残基,少至1-10个,如6-10个,少至5个,少至4、3、2或甚至1个氨基酸残基。也可通过分析经测序的基因组的现有数据库来鉴定变体序列。在这种方式中,可鉴定相应序列并用于本发明的方法中。比对序列用于比较的方法是本领域熟知的。因此,可采用数学算法确定任意两个序列的序列相同性百分数。该数学算法的非限制性示例是myers和miller(1988)cabios4:11-17的算法;smith等.(1981)adv.appl.math.2:482的局部比对算法;needleman和wunsch(1970)j.mol.biol.48:443-453的全局比对算法;pearson和lipman(1988)proc.natl.acad.sci.85:2444-2448的搜索局部比对方法;karlin和altschul(1990)proc.natl.acad.sci.usa87:2264-2268的算法,由karlin和altschul(1993)proc.natl.acad.sci.usa90:5873-5877改良。这些数学算法的计算机实施手段可用于比较序列来确定序列相同性。这类实施手段包括但不限于:pc/gene程序中的clustal(购自美国加利福尼亚州芒廷维尤的智慧遗传公司(intelligenetics,mountainview,california);align程序(2.0版)和gcgwisconsin遗传软件包中的gap,bestfit、blast、fasta和tfasta,第10版(购自阿克赛勒里公司(accelrysinc.),美国加利福尼亚州圣地亚哥scranton路9685号)。可用默认参数来进行使用这些程序的比对。clustal程序由以下详细描述:higgins等,(1988)gene73:237-244;higgins等,(1989)cabios5:151-153;corpet等,(1988)nucleicacidsres.16:10881-90;huang等,(1992)cabios8:155-65;和pearson等,(1994)meth.mol.biol.24:307-331。align程序基于myers和miller(1988)(同上)的算法。比较氨基酸序列时,pam120权重残基表、缺口长度罚分12和缺口罚分4可与align程序联用。用于多重序列比对的muscle算法可用于多个核酸或蛋白质序列的比较(edgar(2004)nucleicacidsresearch32:1792-1797)。altschul等,(1990)j.mol.biol.215:403的blast程序基于karlin和altschul(1990)(同上)的算法。可利用blastn程序进行blast核苷酸搜索(评分=100,字长=12),以获得与编码本发明蛋白质的核苷酸序列同源的核苷酸序列。可利用blastx程序进行blast蛋白质搜索(评分=50,字长=3),以获得与本发明蛋白质或多肽同源的氨基酸序列。为了获得缺口比对(出于比较目的),可如altschul等,(1997)nucleicacidsres.,25:33893402所述利用缺口blast(在blast2.0中)。或者,可利用psi-blast(在blast2.0中)进行迭代搜索,其用来检测分子之间的远近关系。参见altschul等,(1997)同上。利用blast、缺口blast和psi-blast程序时,可使用各程序(例如针对蛋白质的blastx,针对核苷酸序列的blastn)的默认参数。参见网站www.ncbi.nlm.nih.gov。也可通过检查来人工进行比对。编码cms1多肽或其片段或变体的核酸分子可以经密码子优化,用于在感兴趣的植物或感兴趣的其它细胞或生物体中表达。"密码子优化的基因"是这样的基因,其密码子使用频率经设计以模拟宿主细胞的偏好密码子使用频率。核酸分子可以是完全或部分优化的密码子。因为任一氨基酸(除了甲硫氨酸和色氨酸)均由多种密码子编码,所述核酸分子的序列可变化但不改变编码的氨基酸。密码子优化是在核酸水平上改变一种或多种密码子时,致使氨基酸不变,但在具体的宿主生物体中的表达增加。本领域普通技术人员将知晓密码子表,并且,提供关于广泛生物体的偏好信息的其它参考文献是本领域中可得的(参见例如,zhang等.(1991)gene105:61-72;murray等.(1989)nucl.acidsres.17:477-508)。就植物中表达优化核苷酸序列的方法提供于例如美国专利号6,015,891和其中引用的参考文献。用于在植物中表达的密码子优化的多核苷酸的示例示于:seqidno:16-19、110-120和174-176。ii.融合蛋白本文提供了融合蛋白,其包括cms1多肽或其片段或变体以及效应物结构域。通过引导rna可以将cms1多肽引导至靶位点,在该位点效应物结构域可以修饰或影响靶向的核酸序列。效应物结构域可以是切割结构域,表观遗传修饰结构域,转录活化结构域或转录阻遏物结构域。融合蛋白还可包含选自以下的至少一个其它结构域:核定位信号、质体信号肽、线粒体信号肽、能够运输蛋白质至多个亚细胞位置的信号肽、细胞穿透结构域或标志物结构域,这些中的任何一种都可以定位于融合蛋白的n末端、c末端或内部位置。cms1多肽可以定位于融合蛋白的n末端,c末端,或内部位置。cms1多肽可直接融合至效应物结构域,或可通过接头融合。在特定实施方式中,将cms1多肽与效应物结构域融合的接头序列长度可以是至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、40或50个氨基酸。例如,接头的长度可以在1-5、1-10、1-20、1-50、2-3、3-10、3-20、5-20或10-50个氨基酸之间。在一些实施方式中,融合蛋白的cms1多肽可源自野生型cms1蛋白。cms1源性的蛋白质可以是经修饰的变体或片段。在一些实施方式中,cms1多肽可以经修饰以含有核酸酶活性减弱或消除的核酸酶结构域(例如,ruvc或ruvc样结构域)。例如,cms1源性多肽可以经修饰,从而使得核酸酶结构域缺失或突变,进而使其不再具有功能性(即,不存在核酸酶活性)。特别地,当为了最大同一性进行比对时,cms1多肽可在对应于smcms1(seqidno:10)的701或922位或对应于sulfcms1(seqidno:11)的848和1213位的位置处具有突变。可以使用已知的方法通过一个或多个缺失突变、插入突变和/或取代突变使核酸酶结构域失活,如定点诱变,pcr介导的诱变,和全基因合成,以及本领域已知的任何其它方法。在示例性的实施方式中,融合蛋白的cms1多肽通过使ruvc样结构域突变来修饰,从而使得cms1多肽不具有核酸酶活性。融合蛋白还包括效应物结构域,其定位于该融合蛋白的n末端,c末端,或内部位置。在一些实施方式中,效应物结构域是切割结构域。本文所用“切割结构域”表示切割dna的结构域。切割结构域可获自任何内切核酸酶或外切核酸酶。可衍生出切割结构域的内切核酸酶的非限制性示例包括但不限于限制性内切核酸酶和寻靶内切核酸酶。参见例如,新英格兰生物实验室公司(newenglandbiolabs)产品目录或belfort等(1997)nucleicacidsres.25:3379-3388。切割dna的其它酶是已知的(例如,s1核酸酶;绿豆核酸酶;胰dna酶i;微球菌核酸酶;酵母ho内切核酸酶)。也参见linn等.(编)《核酸酶》(nucleases),冷泉港实验室出版社(coldspringharborlaboratorypress),1993。可将一种或多种这些酶(或其功能性片段)用作切割结构域的来源。在一些实施方式中,切割结构域可以源自ii-s型内切核酸酶。ii-s型内切核酸酶在通常距识别位点数个碱基对的位点切割dna,因此具有可分离的识别和切割结构域。这些酶通常是这样的单体,其瞬时地组合在一起形成二聚体以在交错位置切割dna的各链。合适的ii-s内切核酸酶的非限制性示例包括bfii、bpmi、bsai、bsgi、bsmbi、bsmi、bspmi、foki、mboli和sapi。在某些实施方式中,ii-s型切割可经修饰以促进两个不同的切割结构域的二聚化(其各自连接cms1多肽或其片段)。在其中效应物结构域是切割结构域的实施方式中,可以如本文讨论的那样修饰cms1多肽,从而消除其内切核酸酶活性。例如,cms1多肽可以通过使ruvc样结构域突变来修饰,从而使得多肽不再展现出内切核酸酶活性。在其他实施方式中,融合蛋白的效应物结构域可以是表观遗传修饰结构域。通常,表观遗传修饰结构域在不改变dna序列的情况下改变组蛋白结构和/或染色体结构。组蛋白和/或染色质结构的改变可以导致基因表达的改变。表观遗传修饰的示例包括但不限于,组蛋白中赖氨酸残基的乙酰化作用或甲基化作用,和dna中胞嘧啶残基的甲基化。合适的表观遗传修饰结构域的非限制性示例包括,组蛋白乙酰基转移酶(acetyltansferase)结构域,组蛋白脱乙酰酶结构域,组蛋白甲基转移酶结构,组蛋白脱甲基酶结构,dna甲基转移酶结构域和dna脱甲基酶结构域。在效应物结构域是组蛋白乙酰基转移酶(hat)结构域的实施方式中,hat结构域可以源自ep300(即e1a结合蛋白p300)、crebbp(即creb结合蛋白)、cdy1、cdy2、cdyl1、clock、elp3、esa1、gcn5(kat2a)、hat1、kat2b、kat5、myst1、myst2、myst3、myst4、ncoa1、ncoa2、ncoa3、ncoat、p/caf、tip60、tafii250或tf3c4。在其中效应物结构域是表观遗传修饰结构域的实施方式中,可以如本文讨论的那样修饰cms1多肽,从而消除其内切核酸酶活性。例如,cms1多肽可以通过使ruvc样结构域突变来修饰,从而使得多肽不再具有核酸酶活性。在一些实施方式中,融合蛋白的效应物结构域可以是转录活化结构域。通常,转录活化结构域与转录控制元件和/或转录调节蛋白(即,转录因子,rna聚合酶等)相互作用以增强和/或活化一种或多种基因的转录。在一些实施方式中,转录活化结构域可以是但不限于单纯性疱疹病毒vp16活化结构域,vp64(其是vp16的四聚物衍生物),nfκbp65活化结构域,p53活化结构域1和2,creb(camp响应元件结合蛋白)活化结构域,e2a活化结构域,和nfat(活化的t细胞的核因子)活化结构域。在其他实施方式中,转录活化结构域可以是gal4、gcn4、mll、rtg3、gln3、oaf1、pip2、pdr1、pdr3、pho4和leu3。转录活化域可以是野生型,也可以是原始转录活化域的修饰形式。在一些实施方式中,融合蛋白的效应物结构域是vp16或vp64转录活化结构域。在其中效应物结构域是转录活化结构域的实施方式中,可以如本文讨论的那样修饰cms1多肽,从而消除其内切核酸酶活性。例如,cms1多肽可以通过使ruvc样结构域突变来修饰,从而使得多肽不再具有核酸酶活性。在其他实施方式中,融合蛋白的效应物结构域可以是转录阻遏物结构域。通常,转录阻遏物结构域与转录控制元件和/或转录调节蛋白(即,转录因子,rna聚合酶等)相互作用以降低和/或终止一种或多种基因的转录。合适的转录阻遏物结构域的非限制性示例包括诱导性camp早期阻遏物(icer)结构域,kruppel-相关盒a(krab-a)阻遏物结构域,yy1富甘氨酸阻遏物结构域,sp1样阻遏物,e(spl)阻遏物,i.κ.b阻遏物和mecp2。在其中效应物结构域是转录阻遏结构域的实施方式中,可以如本文讨论的那样修饰cms1多肽,从而消除其内切核酸酶活性。例如,cms1多肽可以通过使ruvc样结构域突变来修饰,从而使得多肽不再具有核酸酶活性。在一些实施方式中,融合蛋白还包括至少一个其它结构域。合适的其它结构域的非限制性示例包括核定位信号、细胞穿透性结构域或易位结构域,和标志物结构域。当融合蛋白的效应物结构域是切割结构域时,可以形成包括至少一个融合蛋白的二聚体。二聚体可以是同二聚体或异二聚体。在一些实施方式中,异二聚体包含两种不同的融合蛋白。在其他实施方式中,异二聚体包括一种融合蛋白和一种其它蛋白。二聚体可以是同二聚体,其中两个融合蛋白单体的一级氨基酸序列是相同的。在二聚体是同二聚体的一个实施方式中,cms1多肽可经修饰,从而消除内切核酸酶活性。在某些实施方式中,cms1多肽经修饰,从而使得内切酶活性被消除,各融合蛋白单体可包括相同的cms1多肽以及相同的切割结构域。切割结构域可以是任何结构域,如本文所提供的各种示例性切割结构域中的任一种。在这样的实施方式中,特定的引导rna会将融合蛋白单体引导至不同但非常邻近的位点,从而在二聚体形成后使两个单体的核酸酶结构域在靶dna中产生双链断裂。二聚体也可以是两种不同融合蛋白的异二聚体。例如,每个融合蛋白的cms1多肽可衍生自不同的cms1多肽或直系同源cms1多肽。例如,各融合蛋白可包含衍生自不同来源的cms1多肽。在这些实施方式中,各融合蛋白将识别不同的靶位点(即,由原型间隔子和/或pam序列确定)。例如,引导rna可以将异二聚体定位于不同但非常邻近的位点,从而使其核酸酶结构域在靶dna中产生有效的双链断裂。或者,异二聚体的两个融合蛋白可以具有不同的效应物结构域。在效应物结构域是切割结构域的实施方式中,各融合蛋白可包含不同的经修饰的切割结构域。在这些实施方式中,cms1多肽可经修饰,从而使它们的内切核酸酶活性被消除。形成异二聚体的两个融合蛋白的cms1多肽结构域和效应物结构域可以不同。在上述任一所述实施方式中,同二聚体或异二聚体可以包括选自下述的至少一个其它结构域:核定位信号(nls),质体信号肽,线粒体信号肽,能够运输蛋白质至多个亚细胞位置的信号肽,细胞穿透,易位结构域和标志物结构域(如上所述)。在上述任一所述实施方式中,可以修饰其中cms1多肽之一或两个,从而消除或修饰多肽的内切核酸酶活性。异二聚体还可包含一种融合蛋白和其它蛋白质。例如,其它蛋白质可以是核酸酶。在一个实施方式中,核酸酶是锌指核酸酶。锌指核酸酶包含锌指dna结合结构域和切割结构域。锌指识别并结合三个(3)核苷酸。锌指dna结合结构域可包含约三个锌指至约七个锌指。锌指dna结合结构域可以源自天然产生的蛋白质或者其可以经工程改造。参见例如,beerli等(2002)nat.biotechnol.20:135-141;pabo等(2001)ann.rev.biochem.70:313-340;isalan等(2001)nat.biotechnol.19:656-660;segal等(2001)curr.opin.biotechnol.12:632-637;choo等(2000)curr.opin.struct.biol.10:411-416;zhang等(2000)j.biol.chem.275(43):33850-33860;doyon等(2008)nat.biotechnol.26:702-708;和santiago等(2008)proc.natl.acad.sci.usa105:5809-5814。锌指核酸酶的切割结构域可以是本文所详述任何切割结构域。在一些实施方式中,锌指核酸酶可以包括选自下述的至少一个其它结构域:核定位信号(nls),质体信号肽,线粒体信号肽,能够运输蛋白质至多个亚细胞位置的信号肽,细胞穿透或易位结构域(本文对其进行详述)。在某些实施方式中,以上详述的任一融合蛋白或包括至少一种融合蛋白的二聚体可以是包括至少一个引导rna的蛋白质-rna复合物的部分。引导rna与融合蛋白的cms1多肽相互作用以将融合蛋白引导至特定靶位点,其中引导rna的5'端与特定原型间隔子序列碱基配对。iii.编码cms1多肽或融合蛋白的核酸提供了编码本文所述任一cms1多肽或融合蛋白的核酸。核酸可以是rna或dna。编码cms1多肽的多核苷酸的示例示于seqidno:16-19、24-27、70-146、174-176、212-215和255-287。在一个实施方式中,编码cms1多肽或融合蛋白的核酸是mrna。该mrna可以是5′-加帽和/或3′-多腺苷酸化。在另一个实施方式中,编码cms1多肽或融合蛋白的核酸是dna。dna可以存在于载体中。编码cms1多肽或融合蛋白的核酸可以经密码子优化,用于在感兴趣的植物细胞中高效翻译成蛋白质。本领域已知用于密码子优化的程序(例如,位于genomes.urv.es/optimizer的optimizer;optimumgene.tm.来自genscript,网址:www.genscript.com/codon_opt.html)。在某些实施方式中,编码cms1多肽或融合蛋白的dna可以操作性地连接至少一个启动子序列。该dna编码序列可被操作性地连接至启动子控制序列以在感兴趣的宿主细胞中表达。在一些实施方式中,宿主细胞是植物细胞。“操作性地连接”是指2个或更多个元件之间的功能性连接。例如,启动子和感兴趣的编码区域(例如,编码cms1多肽或引导rna的区域)之间的操作性连接是能够表达感兴趣的编码区域的功能性连接。操作性地连接的元件可以是邻近的或非邻近的。当用于两个蛋白质编码区域之间的接合时,述及操作性地连接意在表示这些编码区域处于同一阅读框中。启动子序列可以是组成型,调控型,生长期特异性或组织特异性的。认识到通过在核酸分子中使用不同的启动子来调节cms1多肽和/或引导rna表达时间、位置和/或水平可以增强不同应用。这样的核酸分子还可以含有(如果需要)启动子调节区(例如,产生诱导型、组成型,环境或发育调节的,或细胞或组织特异性/选择性表达),转录起始起始位点,核糖体结合位点,rna处理信号,转录终止位点,和/或多聚腺苷酸化信号。在一些实施方式中,本文所提供的核酸分子可与组成型、组织优先型(tissue-preferred)、发育优先型或其它启动子组合用于在植物中表达。植物细胞中组成型启动子的示例包括花椰菜花叶病病毒(camv)35s转录起始区域,源自根癌农杆菌(agrobacteriumtumafaciens)t-dna的1'-或2'-启动子,泛素1启动子,smas启动子,肉桂醇脱氢酶启动子(美国专利号5,683,439),nos启动子,pemu启动子,rubisco启动子,grp1-8启动子和来自本领域技术人员已知的多种植物基因的其它转录起始区域。如果需要低水平的表达,可以使用弱启动子。弱组成型启动子包括例如rsyn7启动子的核心启动子(wo99/43838和美国专利号6,072,050),核心35scamv启动子等。其它组成型启动子包括,例如,美国专利号5,608,149;5,608,144;5,604,121;5,569,597;5,466,785;5,399,680;5,268,463和5,608,142。参见美国专利号6,177,611,其通过引用纳入本文。诱导型启动子的示例是可通过缺氧或冷应激诱导的adh1启动子,可通过热应激诱导的hsp70启动子,可通过光诱导的ppdk启动子和pep羧化酶(pepcarboxylase)启动子。同样可用的是化学诱导的启动子,如安全剂诱导的in2-2启动子(美国专利号5,364,780),雄性激素诱导的ere启动子,和axig1启动子,其经植物生长素诱导并且是绒毡层特异性,但是同样在愈伤组织具有活性(pctus01/22169)。植物中受发育控制的启动子的示例包括在某些组织诸如叶、根、果实、种子或花中优先启动转录的启动子。“组织特异性”启动子是仅在某些组织中起始转录的启动子。与基因的组成型表达不同,组织特异性表达是基因调控的几个相互作用水平的结果因此,同源性或密切相关的植物物质的启动子可以优先用于实现特定组织中高效和可靠的转基因表达。在一些实施方式中,表达包括组织优选启动子。“组织优先型”启动子是这样的启动子,其在某些组织中优先启动转录,但并不必需完全或仅在某些组织中启动。在一些实施方式中,编码cms1多肽和/或引导rna的核酸分子包括细胞类型特异性启动子。“细胞类型特异性”启动子是主要驱动一个或多个器官中某些细胞类型表达的启动子。细胞类型特异性启动子在植物中的功能性可以被首先活化的植物细胞的一些示例包括例如,betl细胞,根、叶、茎细胞中的维管细胞,和干细胞。核酸分子还可以包括细胞类型优先型启动子。“细胞类型优先型”启动子是这样一种启动子,在一种或多种器官中的某些细胞类型中主要驱动表达,但并不必需完全或仅在某些细胞类型中。细胞类型优先型启动子在植物中的功能性可以被优先活化的植物细胞的一些示例包括例如,betl细胞,根、叶、茎细胞中的维管细胞,和干细胞。本文所述核酸分子还可以包括种子优先型启动子。在一些实施方式中,种子优先型启动子在胚囊、早期胚胎、早期胚乳、糊粉和/或基底胚乳转移细胞层(betl)中表达。种子优先型启动子的示例包括但不限于,27kdγ玉米蛋白启动子和糯性基因启动子(waxypromoter),boronat,a.等(1986)plantsci.47:95-102;reina,m.等nucl.acidsres.18(21):6426;和kloesgen,r.b.等(1986)mol.gen.genet.203:237-244。胚,果皮和胚乳中表达的启动子公开于美国专利号6,225,529和pct公开wo00/12733中。这些引用文献各自的公开内容通过引用其全文的方式纳入本文。可以驱动基因表达以植物种子优先方式在胚囊、早期胚胎、早期胚乳、糊粉和/或基底胚乳转移细胞层(betl)中表达的启动子可以用于本文所公开的组合物和方法。这样的启动子包括但不限于这样的启动子,其天然地连接玉米(zeamays)早期胚乳5基因,玉米早期胚乳1基因,玉米早期胚乳2基因,grmzm2g124663,grmzm2g006585,grmzm2g120008,grmzm2g157806,grmzm2g176390,grmzm2g472234,grmzm2g138727,玉米clavata1,玉米mrp1,水稻(oryzasativa)pr602,水稻pr9a,玉米bet1,玉米betl-2,玉米betl-3,玉米betl-4,玉米betl-9,玉米betl-10,玉米meg1,玉米tccr1,玉米asp1,水稻asp1,硬粒小麦(triticumdurum)pr60,硬粒小麦pr91,硬粒小麦gl7,at3g10590,at4g18870,at4g21080,at5g23650,at3g05860,at5g42910,at2g26320,at3g03260,at5g26630,atipt4,atipt8,atlec2,lfah12。其它这类启动子述于美国专利号7803990,8049000,7745697,7119251,7964770,7847160,7700836,美国专利申请公开号20100313301,20090049571,20090089897,20100281569,20100281570,20120066795,20040003427;pct公开号wo/1999/050427,wo/2010/129999,wo/2009/094704,wo/2010/019996和wo/2010/147825,其各自通过引用纳入其全部内容用于所用目的。本文所述启动子的功能变体或功能片段也可与本文公开的核酸操作性地连接。化学调节启动子通过应用外源性化学调节物可以用于调整基因的表达。取决于目标,启动子可以是应用化学物时诱导基因表达的化学诱导型启动子,或是应用化学物时抑制基因表达的化学阻遏型启动子。本领域已知化学诱导型启动子并且包括但不限于,由苯磺酰胺除草安全剂活化的玉米in2-2启动子,由用作芽前除草剂的疏水亲电子化合物活化的玉米gst启动子,以及由水杨酸活化的烟草pr-1a启动子。其它感兴趣的化学调节启动子包括类固醇响应性启动子(参见例如,schena等.(1991)proc.natl.acad.sci.usa88:10421-10425和mcnellis等(1998)plantj.14(2):247-257)中的糖皮质激素诱导型启动子,以及四环素诱导型和四环素阻遏型启动子(参见例如,gatz等(1991)mol.gen.genet.227:229-237以及美国专利号5,814,618和5,789,156),通过引用纳入本文。组织优先型启动子可以被用于靶向特定组织内表达构建体增强的表达。在某些实施方式中,组织优先型启动子可在植物组织中具有活性。组织优先型启动子是本领域已知的。参见例如,yamamoto等,(1997)plantj.12(2):255-265;kawamata等,(1997)plantcellphysiol.38(7):792-803;hansen等,(1997)mol.gengenet.254(3):337-343;russell等,(1997)transgenicres.6(2):157-168;rinehart等,(1996)plantphysiol.112(3):1331-1341;vancamp等,(1996)plantphysiol.112(2):525-535;canevascini等,(1996)plantphysiol.112(2):513-524;yamamoto等,(1994)plantcellphysiol.35(5):773-778;lam(1994)resultsprobl.celldiffer.20:181-196;orozco等,(1993)plantmolbiol.23(6):1129-1138;matsuoka等,(1993)procnatl.acad.sci.usa90(20):9586-9590;和guevara-garcia等,(1993)plantj.4(3):495-505。必要时,此类启动子可经修饰以用于弱表达。叶优先型启动子是本领域已知的。参见,例如,yamamoto等,(1997)plantj.12(2):255-265;kwon等,(1994)plantphysiol.105:357-67;yamamoto等,(1994)plantcellphysiol.35(5):773-778;gotor等,(1993)plantj.3:509-18;orozco等,(1993)plantmol.biol.23(6):1129-1138;和matsuoka等,(1993)proc.natl.acad.sci.usa90(20):9586-9590。此外,也可以使用cab和rubisco启动子。参见例如,simpson等(1958)emboj4:2723-2729和timko等(1988)nature318:57-58。根优先型启动子是已知的并且可以选自文献中可得的许多或由各种相容物种从头分离。参见例如,hire等(1992)plantmol.biol.20(2):207-218(大豆根特异性谷氨酰胺合成酶基因);keller和baumgartner(1991)plantcell3(10):1051-1061(法国豆grp1.8基因的根特异性控制元件);sanger等(1990)plantmol.biol.14(3):433-443(根癌农杆菌(agrobacteriumtumefaciens)甘露碱合酶(mas)基因的根特异性启动子);和miao等(1991)plantcell3(1):11-22(编码胞质谷氨酰胺合成酶(gs)的全长cdna克隆,其在大豆的根和根瘤中表达)。同样参见bogusz等(1990)plantcell2(7):633-641,其中描述了分离自血红蛋白基因的两种根特异性启动子,该血红蛋白基因来自固氮非豆科植物山黄麻(parasponiaandersonii)以及相关的非固氮非豆科植物山油麻(trematomentosa)。这些基因的启动子连接β-葡萄糖醛酸酶报告物基因,并且被引入非豆科植物烟草和豆科植物百脉根(lotuscorniculatus),并且在两种情况中,根特异性启动子的活性被保留。leach和aoyagi(1991)描述了它们对毛根农杆菌(agrobacteriumrhizogenes)高表达roic和roid根诱导型基因的启动子的分析(参见plantscience(limerick)79(1):69-76)。他们总结了增强子和组织优先型dna决定簇在这些启动子中是分离的。teeri等(1989)使用与lacz的基因融合体显示编码章鱼碱合酶的农杆菌t-dna基因在根尖表皮中活性特别高,tr2'基因在完整植物中具有根特异性,并因叶组织的损伤而被刺激,一种特别理想的特性组合,可与杀虫或杀幼虫基因联用(参见emboj.8(2):343-350)。融合至nptii(新霉素磷酸转移酶ii)的tr1'基因显示相似的特征。其它根优先型启动子包括vfenod-grp3基因启动子(kuster等(1995)plantmol.biol.29(4):759-772);和roib启动子(capana等(1994)plantmol.biol.25(4):681-691。同样参见美国专利号5,837,876;5,750,386;5,633,363;5,459,252;5,401,836;5,110,732和5,023,179。菜豆素基因(murai等(1983)science23:476-482和sengopta-gopalen等(1988)pnas82:3320-3324。启动子序列可以是野生型的,或其可经修饰以更高效或有效地表达。编码cms1多肽或融合蛋白的核酸序列可以操作性地连接由噬菌体rna聚合酶识别的启动子序列用于体外mrna合成。这样的实施方式中,体外转录的rna可以经纯化用于本文所述的基因组修饰的方法中。例如,启动子序列可以是t7、t3或sp6启动子序列或t7、t3或sp6启动子序列的变化形式。在一些实施方式中,可将编码cms1多肽或融合蛋白的序列操作性地连接至启动子序列,以在植物细胞中体外表达cms1多肽或融合蛋白。这样的实施方式中,表达的蛋白质可以经纯化用于本文所述的基因组修饰的方法中。在某些实施方式中,编码cms1多肽或融合蛋白的dna还可以连接聚腺苷酸化信号(例如,sv40多聚a信号和在感兴趣的细胞起作用的其它信号)和/或至少一个转录终止序列。此外,编码cms1多肽或融合蛋白的序列还可以连接这样的序列,所述序列编码本文他处所述的至少一个核定位信号,至少一个质体信号肽,至少一个线粒体信号肽,能够运输蛋白质至多个亚细胞位置的至少一个信号肽,至少一个细胞穿透结构域,和/或至少一个标志物结构域。编码cms1多肽或融合蛋白的dna可以存在于载体中。合适的载体包括质粒载体,噬菌粒,粘粒,人工/微型染色体,转座子和病毒载体(例如慢病毒载体,腺相关病毒载体等)。在一实施方式中,编码cms1多肽或融合蛋白的dna可以存在于质粒载体中。合适的质粒载体的非限制性实例包括puc、pbr322、pet、pbluescript、pcambia以及其变体。载体可以包括其它表达控制序列(例如,增强子序列,kozak序列,聚腺苷酸化序列,转录终止序列等),可选择标志物序列(例如,抗生素抗性基因),复制的起点等。其它信息可以在《新编分子生物学实验指南(currentprotocolsinmolecularbiology)》ausubel等,约翰韦利森出版社(johnwiley&sons),纽约,2003或《分子克隆:实验室手册(molecularcloning:alaboratorymanual)》sambrook和russell,冷泉港实验室出版社(coldspringharborpress),纽约州冷泉港,第三版,2001。在一些实施方式中,包括编码cms1多肽或融合蛋白的序列的表达载体可以还包括编码引导rna的序列。编码引导rna的序列可以操作性地连接至少一个转录控制序列,用于在植物中或感兴趣的植物细胞中表达引导rna。例如,编码引导rna的dna可以操作性地连接由rna聚合酶iii(poliii)识别的启动子序列。合适的poliii启动子的实例包括但不限于,哺乳动物u6,u3,h1,和7slrna启动子和水稻u6和u3启动子。iv.修饰基因组中核苷酸序列的方法本文提供了用于修饰基因组的核苷酸序列的方法。基因组的非限制性示例包括细胞,核,细胞器,质粒和病毒基因组。所述方法包括将一种或多种靶向dna的多核苷酸引入基因组宿主(例如,细胞或细胞器),所述靶向dna的多核苷酸例如靶向dna的rna(“引导rna”,“grna”,“crisprrna”或“crrna”)或编码靶向dna的rna的dna多核苷酸,其中,所述靶向dna的多核苷酸包含:(a)第一区段,其包含与靶dna中的序列互补的核苷酸序列;和(b)第二区段,其与cms1多肽相互作用并且还将cms1多肽或编码cms1多肽的多核苷酸引入基因组宿主,其中cms1多肽包含:(a)多核苷酸结合部分,其与grna或其它靶向dna的多核苷酸相互作用;和(b)活性部分,其显示定点酶促活性。然后,可在表达cms1多肽并切割被grna靶向的核苷酸序列的条件下培养基因组宿主。需指出的是,本文所述系统不需要添加外源性mg2+或任何其他离子。最后,可以选择包含修饰的核苷酸序列的基因组宿主。本文公开的方法包括将至少一种cms1多肽或编码至少一种cms1多肽的核酸引入基因组宿主,如本文所述。在一些实施方式中,cms1多肽可以分离的蛋白质形式引入基因组宿主。在这样的实施方式中,cms1多肽可以还包括至少一个细胞穿透结构域,其促进蛋白质的细胞摄取。在一些实施方式中,cms1多肽可以与引导多核苷酸复合的核蛋白形式(例如,以与引导rna复合的核糖核蛋白形式)引入基因组宿主。在其它实施方式中,cms1多肽可以编码cms1多肽的mrna分子形式引入基因组宿主。在其它实施方式中,cms1多肽可以dna分子形式引入基因组宿主中,该dna分子包含编码cms1多肽的开放阅读框。编码本文所述的cms1多肽或融合蛋白的dna序列一般操作性地连接至将在基因组宿主中起作用的启动子序列。dna序列可以是线性的,或dna序列可以是载体的一部分。在其它实施方式中,cms1多肽或融合蛋白可以包含引导rna或融合蛋白和引导rna的rna-蛋白质复合物形式引入基因组宿主。在某些实施方式中,编码cms1多肽的mrna可以靶向细胞器(例如,质体或线粒体)。在某些实施方式中,编码一种或多种引导rna的mrna可以靶向细胞器(例如,质体或线粒体)。在某些实施方式中,编码cms1多肽和一种或多种引导rna的mrna可以靶向细胞器(例如,质体或线粒体)。靶向mrna至细胞器的方法为本领域已知(参见例如,美国专利申请号2011/0296551;美国专利申请号2011/0321187;gómez和pallás(2010)plosone5:e12269),并且通过引用纳入本文。在某些实施方式中,编码cms1多肽的dna可以还包括编码引导rna的序列。通常,将编码cms1多肽和引导rna的各序列操作性地连接至一个或多个合适的启动子控制序列,所述启动子控制序列允许cms1多肽和引导rna在基因组宿主中分别表达。编码cms1多肽和引导rna的dna序列进一步包括其它表达对照、调控、和/或处理序列。编码cms1多肽和引导rna的dna序列可以是线性的或是载体的部分。本文所述的方法还可包括将至少一种引导rna或编码至少一种多核苷酸(例如引导rna)的dna引入基因组宿主。引导rna与cms1多肽相互作用,以将cms1多肽引导至特定的靶位点,在该位点,引导rna碱基与靶位点中的特定dna序列配对。引导rna可以包括三个区域:与靶dna序列中靶位点互补的第一区域,形成茎环结构的第二区域,和基本保持单链的第三区域。各引导rna的第一区域是不同的,因此各引导rna将cms1多肽导向特定靶位点。各引导rna的第二和第三区域在所有引导rna中可以相同。引导rna的一个区域与靶dna中靶位点的序列(即原型间隔子序列)互补,从而引导rna的第一区域可与靶位点碱基配对。在各种实施方式中,引导rna的第一区域可以包括约8个核苷酸至超过约30个核苷酸。例如,引导rna的第一区域与核苷酸序列中靶位点之间碱基配对区域的长度可以是约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19、约20、约22、约23、约24、约25、约27、约30或超过30个核苷酸。在一个示例性实施方式中,引导rna的第一区域的长度是约23、24或25个核苷酸。引导rna还可以包括形成二级结构的第二区域。在一些实施方式中,二级结构包括茎或发夹。茎的长度可变。例如,茎的长度可以是约5至约6,约10,至约15,约20至约25个碱基对。茎可以包括1至约10个核苷酸的一个或多个凸起(bulge)。在一些优选的实施方式中,发夹结构包含序列ucuacn3-5guagau(seqidno:312-314,由seqidno:315-317编码),其用“ucuac”和“guaga”碱基配对以形成茎。“n3-5”表示3、4或5个核苷酸。因此,第二区域的总长度可以在约14至约25个核苷酸的范围内。在某些实施方式中,环的长度为约3、4或5个核苷酸,而茎包含约5、6、7、8、9或10个碱基对。引导rna还可以包括基本上保持单链的第三区域。因此,第三区域与感兴趣的细胞中的任何核苷酸序列都不互补,并且与其余引导rna没有互补性。第三区域的长度可变。第三区域的长度通常大于约4个核苷酸。例如,第三区域的长度可以在约5至约60个核苷酸。引导rna的第二和第三区域(也称为通用或支架区域)的合并长度可以在约30至约120个核苷酸的范围内。在一方面,引导rna的第二和第三区域组合的长度可以在约40至约45个核苷酸。在一些实施方式中,引导rna包括含有所有三个区域的单个分子。在其他实施方式中,引导rna可以包括两个不同的分子。第一rna分子可以包括引导rna的第一区域以及引导rna第二区域“茎”的一半。第二rna分子可以包括引导rna第二区域“茎”的另一半以及引导rna的第三区域。因此,在该实施方式中,第一和第二rna分子各自含有彼此之间相互互补的核苷酸序列。例如,在一实施方式中,第一和第二rna分子各自包括与其它序列碱基配对的序列(约6至约25个核苷酸)以形成功能性引导rna。在具体实施方式中,引导rna是单个分子(即crrna),其在不需要第二引导rna(即tracrrna)的情况下与染色体中的靶位点和cms1多肽相互作用。在某些实施方式中,引导rna可以rna分子形式引入基因组宿主。rna分子可以体外转录。或者,rna分子可以化学合成。在其它实施方式中,引导rna可以dna分子形式引入基因组宿主。在这种情况下,可将编码引导rna的dna操作性地连接至一个或多个启动子序列,以在基因组宿主中表达引导rna。例如,rna编码序列可以与rna聚合酶iii(poliii)识别的启动子序列可操作地连接。编码引导rna的dna分子可以是线性或环状的。在一些实施方式中,编码引导rna的dna序列可以是载体的部分。合适的载体包括质粒载体,噬菌粒,粘粒,人工/微型染色体,转座子和病毒载体。在一个示例性的实施方式中,编码引导rna的dna存在于质粒载体中。合适的质粒载体的非限制性实例包括puc、pbr322、pet、pbluescript、pcambia以及其变体。载体可以包括其它表达控制序列(例如,增强子序列,kozak序列,聚腺苷酸化序列,转录终止序列等),可选择标志物序列(例如,抗生素抗性基因),复制的起点等。在cms1多肽和引导rna两者以dna分子形式被引入基因组宿主的实施方式中,其各自可以是分开的分子的部分(例如,一个载体含有cms1多肽或融合蛋白编码序列,第二载体含有引导rna编码序列),或者其可以是同一分子的部分(例如,一个载体含有cms1多肽或融合蛋白和引导rna两者的编码(和调节)序列)。与引导rna联合的cms1多肽被引导至基因组宿主中的靶位点,其中所述cms1多肽在靶dna中引入双链断裂。靶位点没有序列限制,除了该序列紧接共有序列之前(上游)之外。该共有序列也称为原型间隔子邻近基序(protospaceradjacentmotif)。pam序列的示例包括但不限于tttn,nttn,tttv和nttv(其中n被定义为任何核苷酸,而v被定义为a,g或c)。本领域中众所周知,合适的pam序列必须位于相对于靶dna序列的正确位置,以允许cms1核酸酶产生所需的双链断裂。对于迄今已表征的所有cms1核酸酶,pam序列都位于靶dna序列的5'附近。目前无法通过计算预测给定cms1核酸酶的pam位点要求,而必须使用本领域可用的方法通过实验确定(zetsche等.(2015)cell163:759-771;marshall等.(2018)molcell69:146-157)。本领域已知对给定核酸酶具有特异性的pam序列受到酶浓度的影响(karvelis等(2015)genomebiol16:253)。因此,调节递送至感兴趣的细胞或体外系统的cms1蛋白的浓度体现了改变与该cms1酶相关的一个或多个pam位点的一种方式。例如通过改变用于表达cms1编码基因的启动子,通过改变递送至细胞或体外系统的核糖核蛋白浓度,或通过添加或去除在调节基因表达水平中可能起作用的内含子,可以实现调整感兴趣的系统中的cms1蛋白浓度。如本文所详述,引导rna的第一区域与靶序列的原型间隔子互补。通常,引导rna的第一区域的长度是19-21个核苷酸。靶位点可以在基因的编码区域中,基因的内含子中,基因的控制区域中,基因间的非编码区域等。基因可以是蛋白质编码基因或rna编码基因。该基因可以是本文所述的任何感兴趣的基因。在一些实施方式中,本文公开的方法还包括将至少一种供体多核苷酸引入基因组宿主。供体多核苷酸包括至少一种供体序列。在一些方面,供体多核苷酸的供体序列对应于靶dna中存在的内源或天然序列。例如,供体序列可以与靶位点处或附近的dna序列的部分基本相同,但是包含至少一个核苷酸变化。因此,供体序列可在靶位点处包含野生型序列的修饰形式,从而在与原生序列整合或交换后,靶位置处的序列包含至少一个核苷酸变化。例如,改变可以是一个或多个核苷酸的插入,一个或多个核苷酸的缺失,一个或多个核苷酸的取代或其组合。由于经修饰序列的整合,基因组宿主可从靶染色体序列产生经修饰的基因产物。供体多核苷酸的供体序列可替代地对应于外源序列。如本文所用,“外源”序列是指不原生于基因组宿主的序列,或者其在基因组宿主中的原生位置处于不同位置的序列。例如,外源性序列可以包括蛋白质编码序列,其可以操作性地连接外源性启动子控制序列,因此在整合到基因组后,基因组宿主能够表达该整合序列所编码的蛋白质。例如,供体序列可以是任何感兴趣的基因,例如编码如本文他处所述的农艺学上重要的性状的那些。或者,可将外源序列整合进入靶dna序列,从而使其表达受内源性启动子控制序列调节。在其他的重复形式中,外源性序列可以是转录控制序列,其它的表达控制序列或rna编码序列。将外源性序列整合到靶dna序列被称为“敲入”。供体序列可以具有各种长度,从几个核苷酸到数百个核苷酸到数千个核苷酸。在一些实施方式中,供体多核苷酸中的供体序列侧接上游序列和下游序列,其与分别位于靶位点上游和下游的序列具有实质上的序列同一性。因为这些序列相似性,供体多核苷酸的上游和下游序列允许供体多核苷酸和靶向的序列之间的同源重组,从而使得供体序列被整合到靶dna序列(或与之交换)。本文所用上游序列指这样的核酸序列,其与靶位点上游的dna序列具有实质上的序列同一性。类似地,下游序列指与靶位点下游的dna序列具有实质上的序列同一性的核酸序列。本文所用短语“实质上的序列同一性”指序列具有至少约75%的序列同一性。因此,供体多核苷酸中的上游和下游序列与靶向的位点上游或下游序列可以具有约75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性。在示例性的实施方式中,供体多核苷酸中的上游和下游序列与靶向的位点上游或下游的核苷酸序列可以具有约95%或100%的序列同一性。在一实施方式中,上游序列与位于靶向的位点上游紧邻的(即邻近靶向的位点)核苷酸序列具有实质上的序列同一性。在其它实施方式中,上游序列与位于靶向的位点上游约一百个(100)核苷酸内的核苷酸序列具有实质上的序列同一性。因此例如,上游序列与位于靶向的位点上游约1-约20,约21-约40,约41-约60,约61-约80,或约81-约100核苷酸内的核苷酸序列具有实质上的序列同一性。在一实施方式中,下游序列与位于靶向的位点下游紧邻的(即邻近靶向的位点)核苷酸序列具有实质上的序列同一性。在其它实施方式中,下游序列与位于靶向的位点下游约一百个(100)核苷酸内的核苷酸序列具有实质上的序列同一性。因此例如,下游序列与位于靶向的位点下游约1-约20,约21-约40,约41-约60,约61-约80,或约81-约100核苷酸内的核苷酸序列具有实质上的序列同一性。各上游或下游序列的长度可以在约20个核苷酸至约5000个核苷酸。在一些实施方式中,上游和下游序列可包含约50、100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2800、3000、3200、3400、3600、3800、4000、4200、4400、4600、4800或5000个核苷酸。在示例性的实施方式中,上游或下游序列的长度可以在约50个核苷酸至约1500个核苷酸。包含与靶核苷酸序列具有序列相似性的上游和下游序列的供体多核苷酸可以是线性或环状的。在供体多核苷酸是环状的实施方式中,其可以是载体的一部分。例如,载体可以是质粒载体。在某些实施方式中,供体多核苷酸还可以包括由cms1多肽识别的至少一个靶向的切割位点。可将添加到供体多核苷酸中的靶向切割位点置于供体序列的上游或下游或上游和下游。例如,供体序列可以由靶向的切割位点侧接,因此在通过cms1多肽切割后,供体序列由突出端侧接,所述突出端与通过cms1多肽切割后生成的核苷酸序列中的那些相容。因此,可以用切割的核苷酸序列在通过非同源性修复过程修复双链断裂期间连接供体序列。通常,包括靶向的切割位点的供体多核苷酸是环状的(例如,可以是质粒载体的部分)。供体多核苷酸可以是包括具有任选的短突出端的短供体序列的线性分子,所述任选的短突出端与cms1多肽生成的突出端相容。在这样的实施方式中,供体序列可在双链断裂的修复过程中与切割的染色体序列直接连接。在一些情况中,供体序列可以少于约1,000,少于约500,少于约250,或少于约100个核苷酸。在某些情况下,供体多核苷酸可以是包含具有钝末端的短供体序列的线性分子。在其它重复情况中,供体多核苷酸可以是线性分子,其包含具有5'和/或3'突出端的短供体序列。该突出端可以包括1、2、3、4或5个核苷酸。在一些实施方式中,供体多核苷酸将是dna。dna可以是单链或双链和/或线性或环状。供体多核苷酸可以是dna质粒、细菌人工染色体(bac)、酵母人工染色体(yac)、病毒载体、dna的线性部分、pcr片段、裸核酸或与递送载剂如脂质体或泊咯沙姆复合的核酸。在具体实施方式中,包括供体序列的供体多核苷酸可以是质粒载体的部分。在任何这些情况下,包含供体序列的供体多核苷酸还可包含至少一个其它序列。在一些实施方式中,该方法可包括将一种cms1多肽(或编码核酸)和一种引导rna(或编码dna)引入基因组宿主,其中所述cms1多肽在靶dna中引入一个双链断裂。在不存在任选供体多核苷酸实施方式中,核苷酸序列中的双链锻炼可以通过非同源末端连接(nhej)修复过程进行修复。因为nhej是易错的,缺失至少一个核苷酸、插入至少一个核苷酸、取代至少一个核苷酸或其组合可能会出现在修复断裂期间。因此,靶向的核苷酸序列可以经修饰或被失活。例如,单核苷酸改变(snp)可以产生改变的蛋白质产物,或者编码序列阅读框的移动可以灭活或“敲除”序列,从而不再产生蛋白质产物。在存在任选供体多核苷酸的实施方式中,供体多核苷酸中的供体序列在修复双链断裂期间可与靶位点的核苷酸序列交换或整合至其中。例如,在供体序列侧接这样上游和下游序列的实施方式中,所述上游和下游序列具有分别与核苷酸序列中靶位点的上游和下游序列实质上的序列同一性,供体序列在通过同源性导向的修复过程介导的修复期间可以与靶位点的核苷酸序列交换或整合至其中。或者,在供体序列侧接相容突出端(或者该相容突出端由cms1多肽原位生成)的实施方式中,供体序列在双链断裂修复期间通过非同源性修复过程可以直接连接切割的核苷酸序列。将供体序列交换或整合至核苷酸序列修饰靶核苷酸序列,或者将外源性序列引入靶核苷酸序列。本文公开的方法还可包括,将一种或多种cms1多肽(或编码核酸)和两个引导多核苷酸(或编码dna)引入基因组宿主,其中cms1多肽在靶核苷酸序列中引入两个双链断裂。这两个断裂可以在几个碱基对之内,在几十个碱基对之内,或者可以相隔成千上万个碱基对。在不存在任选供体多核苷酸的实施方式中,得到的双链断裂可以通过非同源性修复过程修复,这样的话两个切割位点之间的序列丢失和/或在修复断裂期间可能会出现缺失至少一个核苷酸,插入至少一个核苷酸,取代至少一个核苷酸或其组合。在存在任选的供体多核苷酸的实施方式中,在通过基于同源性的修复过程(例如,在供体序列侧接这样上游和下游序列的实施方式中,所述上游和下游序列具有分别与核苷酸序列中靶位点的上游和下游序列实质上的序列同一性中)或非同源性的修复过程(例如,在供体序列侧接相容突出端的实施方式中)的双链断裂修复期间,供体多核苷酸中的供体序列可以与靶核苷酸序列交换或整合至靶核苷酸序列中。a.修饰植物基因组中的核苷酸序列的方法植物细胞具有核,质体和线粒体基因组。本发明的组合物和方法可以用于修饰核、质体和/或线粒体基因组的序列,或者可以用于调节由核、质体和/或线粒体基因组编码的一种或多种基因的表达。因此,“染色体”或“染色体的”指核、质体或线粒体基因组dna。当“基因组”适用于植物细胞时,其不但包括存在于细胞核的染色体dna,也包括存在于细胞亚细胞组分(例如,线粒体或质体)中的细胞器dna。可以使用本文所述的方法修饰植物细胞,细胞器或胚胎中的任何感兴趣的核苷酸序列。在具体实施方式中,本文所公开的方法被用于修饰编码农艺学重要性状的核苷酸序列,如植物激素,植物防御蛋白,营养转运蛋白,生物结合蛋白,所需输入性状,所需输出性状,应激抗性基因,疾病/病原体抗性基因,雄性不育,发育基因,调节基因,参与光合作用的基因,dna修复基因,转录调节基因或任何其他感兴趣的多核苷酸和/或多肽。也可以修饰农艺学重要性状如油脂、淀粉和蛋白质含量。修饰包括增加油酸、饱和和不饱和油脂的含量,增加赖氨酸和硫的水平,提供必需氨基酸,以及淀粉的改性。硫堇蛋白(hordothionin)蛋白质修饰描述于美国专利号5,703,049、5,885,801、5,885,802和5,990,389中,其通过引用纳入本文。另一实例是富赖氨酸和/或硫种子蛋白,其由美国专利号5,850,016中所述大豆2s白蛋白所编码,以及来自大麦的糜蛋白酶阻遏物,述于williamson等(1987)eur.j.biochem.165:99-106,其公开通过引用纳入本文。cms1多肽(或编码核酸)、引导rna(或编码dna)和任选的供体多核苷酸可以通过包括转化的各种方法引入植物细胞、细胞器或植物胚胎。转化方案以及向植物中引入多肽或多核苷酸序列的方案可根据转化靶向的植物或植物细胞的类型(即,单子叶或双子叶)而变化。向植物细胞中引入多肽和多核苷酸的合适方法包括微注射(crossway等,(1986)biotechniques4:320-334)、电穿孔(riggs等,(1986)proc.natl.acad.sci.usa83:5602-5606),农杆菌-介导的转化(美国专利号5,563,055和美国专利号5,981,840),直接基因转化(paszkowski等,(1984)emboj.3:2717-2722),和弹道颗粒加速(参见例如,美国专利号4,945,050;美国专利号5,879,918;美国专利号5,886,244;和5,932,782;tomes等,(1995)《植物细胞、组织和器官培养中的基础方法》(plantcell,tissue,andorganculture:fundamentalmethods),gamborg和phillips编(springer-verlag,berlin);mccabe等,(1988)biotechnology6:923-926);和lec1转化(wo00/28058)。还参见weissinger等,(1988)ann.rev.genet.22:421-477;sanford等,(1987)particulatescienceandtechnology5:27-37(洋葱);christou等,(1988)plantphysiol.87:671-674(大豆);mccabe等,(1988)bio/technology6:923-926(大豆);finer和mcmullen(1991)invitrocelldev.biol.27p:175-182(大豆);singh等,(1998)theor.appl.genet.96:319-324(大豆);datta等,(1990)biotechnology8:736(水稻);klein等,(1988)proc.natl.acad.sci.usa85:4305-4309(玉米);klein等,(1988)biotechnology6:559-563(玉米);美国专利号5,240,855;5,322,783;和5,324,646;klein等,(1988)plantphysiol.91:440-444(玉米);fromm等,(1990)biotechnology8:833-839(玉米);hooykaas-vanslogteren等,(1984)nature(伦敦)311:763-764;美国专利号5,736,369(谷类);bytebier等,(1987)proc.natl.acad.sci.usa84:5345-5349(百合);dewet等,(1985)《胚珠组织实验操作》(theexperimentalmanipulationofovuletissues),chapman等编,(纽约朗文出版社(longman,newyork),第197-209页(花粉);kaeppler等,(1990)plantcellreports9:415-418和kaeppler等,(1992)theor.appl.genet.84:560-566(须-介导的转化);d'halluin等,(1992)plantcell4:1495-1505(电穿孔);li等,(1993)plantcellreports12:250-255以及christou和ford(1995)annalsofbotany75:407-413(水稻);osjoda等,(1996)naturebiotechnology14:745-750(玉米,通过根癌农杆菌);其全部通过引用纳入本文。已经证明了通过生物弹射引入包括核酸酶以及合适的引导rna的核糖核蛋白进行的对植物细胞的位点特异性基因组编辑(svitashev等(2016)natcommun7:13274);这些方法通过引用纳入本文。“稳定转化”是指引入植物的核苷酸构建体整合到植物的基因组中并且能够被其后代遗传。核苷酸构建体可以整合进入植物的核,质体或线粒体基因组中。用于质体转化的方法为本领域已知(参见例如,《叶绿体生物技术:方法和方案(chloroplastbiotechnology:methodsandprotocols)》(2014)palmaliga编著和美国专利申请号2011/0321187),并且本领域已经描述了用于植物线粒体转化的方法(参见例如美国专利申请号2011/0296551),通过引用纳入本文。按照常规方式,已经转化的细胞可长成植物(即培养)。参见,例如,mccormick等,(1986)plantcellreports5:81-84。由此,本发明提供了具有稳定整合到其基因组中核酸修饰的转化的种子(也称为“转基因种子”)。“引入”在将核酸片段(例如重组dna构建体)插入细胞的上下文中表示“转染”或“转化”或“转导”并且包括将核酸片段纳入植物细胞,其中核酸片段可以被纳入细胞的基因组中(例如,核染色体、质粒、质体染色体或线粒体染色体),转化成独立复制的复制子,或瞬时表达(例如,转染的mrna)。本发明可用于任何植物物种的转化,包括但不限于单子叶和双子叶(即单子叶植物和双子叶植物)。感兴趣植物物种的示例包括但不限于:玉米(zeamays)、油菜种(例如甘蓝型油菜(b.napus)、白菜型油菜(b.rapa)、芥菜型油菜(b.juncea))、尤其是用作菜籽油来源的那些油菜物种、苜蓿(medicagosativa)、水稻(oryzasativa)、黑麦(secalecereale)、高粱(sorghumbicolor,sorghumvulgare)、荠蓝(camelinasativa)、粟(例如珍珠粟(pennisetumglaucum)、黍(panicummiliaceum)、小米(setariaitalica)、穇子(eleusinecoracana))、向日葵(helianthusannuus)、藜(chenopodiumquinoa)、菊苣(cichoriumintybus)、莴苣(lactucasativa),红花(carthamustinctorius)、小麦(triticumaestivum)、大豆(glycinemax)、烟草(nicotianatabacum)、马铃薯(solanumtuberosum)、花生(arachishypogaea)、棉花(gossypiumbarbadense,gossypiumhirsutum)、甘薯(ipomoeabatatas)、木薯(manihotesculenta)、咖啡(coffeaspp.)、椰子(cocosnucifera)、菠萝(ananascomosus)、柠檬树(citrusspp.)、可可(theobromacacao)、茶(camelliasinensis)、香蕉(musaspp.)、鳄梨(perseaamericana)、无花果(ficuscasica)、番石榴(psidiumguajava)、芒果(mangiferaindica)、橄榄(oleaeuropaea)、番木瓜(caricapapaya)、腰果(anacardiumoccidentale)、澳洲坚果(macadamiaintegrifolia)、杏(prunusamygdalus)、甜菜(betavulgaris)、甘蔗(saccharumspp.)、油棕榈(elaeisguineensis)、白杨(杨树(populusspp.))、桉树(eucalyptusspp.)、燕麦(avenasativa)、大麦(hordeumvulgare)、蔬菜、观赏植物和针叶树。cms1多肽(或编码核酸)、引导rna(或编码引导rna的dna)和任选的供体多核苷酸可以同时或依次引入植物细胞、细胞器或植物胚胎。cms1多肽(或编码核酸)与引导rna(或编码dna)的比例通常约为化学计量的,从而这两个组分可与靶dna形成rna-蛋白质复合物。在一个实施方式中,编码cms1多肽的dna以及编码引导rna的dna在质粒载体中一起递送。本发明的组合物和方法可以用于改变植物中感兴趣基因的表达,如参与光合作用的基因的表达。因此,可与对照植物相比调节编码光合作用中涉及的蛋白质的基因的表达。“对象植物或植物细胞”是其中已经实现感兴趣基因的遗传改变如突变,或者是源自如此改变的植物或细胞并包含改变的植物或植物细胞。“对照”或“对照植物”或“对照植物细胞”提供了测量对象植物或植物细胞的表型变化的参照点。因此,根据本发明的方法,表达水平高于或低于对照植物中的表达水平。一种对照植物或植物细胞可包含,例如:(a)野生型植物或细胞,即具有与用于产生对象植物或细胞的遗传改变的起始材料相同的基因型;(b)与起始材料有相同基因型但已经用无效构建体(即,用对感兴趣性状没有已知影响的构建体,如包含标记基因的构建体)转化的植物或植物细胞;(c)植物或植物细胞,其是对象植物或植物细胞的后代中的非转化分离体;(d)与对象植物或植物细胞在遗传上相同但没有接触会诱导感兴趣基因表达的条件或刺激的植物或植物细胞;或(e)在不表达感兴趣基因的条件下的对象植物或植物细胞本身。虽然本发明以转化的植物描述,应认识到本发明的转化的生物体可包括植物细胞、植物原生质体、可再生出植物的植物组织培养物、植物愈伤组织、植物块和在植物或植物部分中完整的植物细胞如胚胎、花粉、胚珠、种子、叶、花、枝条、果实、仁、穗、穗轴、外壳、柄、根、根尖、花粉囊等。种粒是指由商业种植者出于生长或繁殖物种以外的目的产生的成熟种子。再生植物的后代、变体和突变体也包括在本发明的范围内,只要这些部分包含引入的多核苷酸。可以使用本文所公开的方法制备编码序列的衍生物,从而在编码的多肽中增加预选氨基酸的水平。例如,编码大麦高赖氨酸多肽(bhl)的基因源自1996年11月1日提交的美国专利申请序列号08/740,682和wo98/20133的大麦糜蛋白酶阻遏物,其公开通过引用纳入本文。其它蛋白质包括富蛋氨酸植物蛋白,如来自向日葵籽(lilley等(1989)关于人类食品和动物饲料中植物蛋白利用的世界大会报告(proceedingsoftheworldcongressonvegetableproteinutilizationinhumanfoodsandanimalfeedstuffs),applewhite编著(伊利诺伊州香槟市美国油脂化学会(americanoilchemistssociety)),第497-502页;通过引用纳入本文);玉米(pedersen等(1986)j.biol.chem.261:6279;kirihara等(1988)gene71:359;两者通过引用纳入本文);和水稻(musumura等(1989)plantmol.biol.12:123通过引用纳入本文)。其它农艺学重要的基因编码乳胶、floury2、生长因子、种子储存因子和转录因子。本文所公开的方法可以用于修饰除草剂抗性特性,包括编码除草剂抗性的基因,其能够抑制乙酰乳酸合酶(als)的作用,尤其是磺酰脲类除草剂(例如,含有导致这类抗性的突变的乙酰乳酸合酶(als)基因,尤其是s4和/或hra突变),编码除草剂抗性的基因,其能够抑制谷氨酰胺合成酶的作用,如草丁膦或巴斯达(basta)(例如,bar基因);草甘膦(例如,epsps基因和gat基因;参见例如美国公开号20040082770和wo03/092360);其它为本领域已知的这类基因。bar基因编码对除草剂basta的抗性,nptii基因编码对卡那霉素和遗传霉素的抗性,而als基因突变体编码对除草剂氯磺隆的抗性。例如,美国专利申请2016/0208243中描述了其它除草剂抗性性状,其通过引用纳入本文。还可以修饰不育基因,并为物理去雄提供替代方法。以这样方式使用的基因的实例包括雄性组织优选基因以及具有雄性不育表型的基因如qm,述于美国专利号5,583,210中。其它基因包括激酶和编码对雄或雌配子体发育有毒的化合物的那些。其它不育性状述于例如美国专利申请2016/0208243中,其通过引用纳入本文。谷物的质量可以通过修饰编码性状的基因来改变,如油脂的类型和水平,饱和和未饱和,必需氨基酸的数量和质量,以及纤维素的水平。在玉米中,经修饰的大麦硫堇蛋白述于美国专利号5,703,049、5,885,801、5,885,802和5,990,389。商业性状也可以通过修饰基因来改变,或者其将可以例如增加用于乙醇生产的淀粉,或提供蛋白质的表达。经修饰植物的另一重要的商业用途是聚合物和生物塑料的生产,见述于例如美国专利号5,602,321。基因(例如β-酮硫醇酶,聚羟基牛酸酯合成酶(phbase)和乙酰乙酰基-coa还原酶)能促进聚羟基烷酸酯(pha)的表达(参见schubert等.(1988)j.bacteriol.170:5837-5847)。外源性产物包括植物酶和产物,以及来自包括原核生物或其它真核生物的那些。这样的产物包括酶,辅因子,激素等。可以增加蛋白质的水平,特别是具有改善的氨基酸分布的经修饰的蛋白质以改善植物的营养价值。这通过表达具有增强的氨基酸含量的蛋白质来实现。本文所公开的方法还可以用于插入异源性基因和/或修饰天然植物基因表达以实现所需的植物性状。这些性状包括例如抗病性,除草剂耐受性,抗旱性,耐盐性,昆虫抗性,对寄生杂草的抗性,改善的植物营养价值,改善的草料消化率,增加的谷物产量,胞质雄性不育,改变的果实成熟度,增加的植物或植物部分的储存寿命,减少的变应原产生,和,增加或减少的木质素含量。美国专利申请2016/0208243中公开了能够赋予这些所需性状的基因,其通过引用纳入本文。b.修饰非植物真核基因组中的核苷酸序列的方法本文提供了用于修饰非植物真核细胞或非植物真核细胞器的核苷酸序列的方法。在一些实施方式中,非植物真核细胞是哺乳动物细胞。在具体实施方式中,非植物真核细胞是非人哺乳动物细胞。该方法包括向靶细胞或细胞器引入靶向dna的rna或编码靶向dna的rna的dna多核苷酸,其中靶向dna的rna包括:(a)第一区段,其包含与靶dna中序列互补的核苷酸序列;和(b)第二区段,其与cms1多肽相互作用;和,向靶细胞或细胞器引入cms1多肽或编码cms1多肽的多核苷酸,其中cms1多肽包括:(a)结合rna的部分,其与靶向dna的rna相互作用;和(b)活性部分,其显示定点酶促活性。然后可以在嵌合的核酸酶多肽表达并且切割核苷酸序列的条件下培养靶细胞或细胞器。需指出的是,本文所述系统不需要添加外源性mg2+或任何其他离子。最后,可选择包含经修饰的核苷酸序列的非植物真核细胞或细胞器。在一些实施方式中,该方法可以包括向非植物真核细胞或细胞器中引入一个cms1多肽(或编码核酸)和一个引导rna(或编码dna),其中cms1多肽在核或细胞器染色体dna的靶核苷酸序列中引入一个双链断裂。在一些实施方式中,该方法可以包括向非植物真核细胞或细胞器中引入一个cms1多肽(或编码核酸)和至少一个引导rna(或编码dna),其中cms1多肽在核或细胞器染色体dna的靶核苷酸序列中引入超过一个(即2、3或超过3个双链断裂)双链断裂。在不存在任选供体多核苷酸实施方式中,核苷酸序列中的双链锻炼可以通过非同源末端连接(nhej)修复过程进行修复。因为nhej是易错的,缺失至少一个核苷酸、插入至少一个核苷酸、取代至少一个核苷酸或其组合可能会出现在修复断裂期间。因此,靶向的核苷酸序列可以经修饰或灭活。例如,单核苷酸改变(snp)可以产生改变的蛋白质产物,或者编码序列阅读框的移动可以灭活或“敲除”序列,从而不再产生蛋白质产物。在存在任选供体多核苷酸的实施方式中,供体多核苷酸中的供体序列在修复双链断裂期间可与靶位点的核苷酸序列交换或整合至其中。例如,在供体序列侧接这样上游和下游序列的实施方式中,所述上游和下游序列具有分别与非植物真核细胞或细胞器核苷酸序列中靶位点的上游和下游序列实质上的序列同一性,供体序列在通过同源性导向的修复过程介导的修复期间可以与靶位点的核苷酸序列交换或整合至其中。或者,在供体序列侧接相容突出端(或者该相容突出端由cms1多肽原位生成)的实施方式中,供体序列在双链断裂修复期间通过非同源性修复过程可以直接连接切割的核苷酸序列。将供体序列交换或整合至核苷酸序列修饰靶向的核苷酸序列,或者将外源性序列引入非植物真核细胞或细胞器靶向的核苷酸序列。在一些实施方式中,由一种或多种cms1核酸酶作用所导致的双链断裂以这样的方式修复,所述方式使dna从非植物真核细胞或细胞器染色体中缺失。在一些实施方式中,一个碱基、数个碱基(即2、3、4、5、6、7、8、9或10个碱基)或大部分的dna(即,超过10、超过50、超过100、或超过500个碱基)从非植物真核细胞或细胞器中缺失。在一些实施方式中,作为由一种或多种cms1核酸酶所导致的双链断裂的结果,非植物真核基因的表达可能会被调节。在一些实施方式中,非植物真核基因的表达可能会被变体cms1酶所调节,所述变体cms1酶包括使cms1核酸酶无法生成双链断裂的突变。在一些优选实施方式中,包括使cms1核酸酶不可以生成双链断裂的突变的变体cms1核酸酶可以融合转录活化或转录抑制结构域。在一些实施方式中,培养这样的真核细胞以生成真核生物,所述真核细胞在其核和/或细胞器染色体dna包括由一种或多种cms1核酸酶作用所导致的突变。在一些实施方式中,培养这样的真核细胞以生成真核生物,所述真核细胞中的基因表达因为一种或多种cms1核酸酶或一种或多种变体cms1核酸酶而被调节。培养非植物真核细胞以生成真核生物的方法为本领域已知,例如美国专利申请号2016/0208243和2016/0138008,其各自通过引用纳入本文。本发明可用于任何真核物种的转化,包括但不限于动物(包括但不限于哺乳动物、昆虫、鱼类、鸟类和爬行动物)、真菌、变形虫和酵母。向非植物真核细胞或细胞器引入核酸酶蛋白质、编码核酸酶蛋白质的dna或rna分子、引导rna或编码引导rna的dna分子、和任选的供体序列dna分子的方法为本领域已知,例如美国专利申请号2016/0208243,通过引用纳入本文。对工业应用特别具有价值的非植物真核细胞或细胞器的示例性遗传修饰也为本领域已知,例如美国专利申请号2016/0208243,通过引用纳入本文。c.修饰原核基因组中核苷酸序列的方法本文提供了用于修饰原核(例如,细菌或古细菌)细胞核苷酸序列的方法。该方法包括向靶细胞引入靶向dna的rna或编码靶向dna的rna的dna多核苷酸,其中靶向dna的rna包括:(a)第一区段,其包含与靶dna中序列互补的核苷酸序列;和(b)第二区段,其与cms1多肽相互作用;和,向靶细胞引入cms1多肽或编码cms1多肽的多核苷酸,其中cms1多肽包括:(a)结合rna的部分,其与靶向dna的rna相互作用;和(b)活性部分,其显示定点酶促活性。然后可以在cms1多肽表达并且切割核苷酸序列的条件下培养靶细胞。需指出的是,本文所述系统不需要添加外源性mg2+或任何其他离子。最后,可选择包含经修饰核苷酸序列的原核细胞。还应注意,包含经修饰的一个或多个核苷酸序列的原核细胞不是编码感兴趣的cms1多肽的多核苷酸的原生宿主细胞,并且,利用非天然产生的引导rna来实现一个或多个原核核苷酸序列中的所需变化。需要进一步指出的是靶向的dna可能作为原核染色体的部分存在或者存在于原核细胞中的一个或多个质粒或其它非染色体dna分子。在一些实施方式中,该方法可以包括向原核细胞中引入一个cms1多肽(或编码核酸)和一个引导rna(或编码dna),其中cms1多肽在原核细胞dna的靶核苷酸序列中引入一个双链断裂。在一些实施方式中,该方法可以包括向原核细胞中引入一个cms1多肽(或编码核酸)和至少一个引导rna(或编码dna),其中cms1多肽在原核细胞dna的靶核苷酸序列中引入超过一个双链断裂(即2、3或超过3个双链断裂)。在不存在任选供体多核苷酸实施方式中,核苷酸序列中的双链锻炼可以通过非同源末端连接(nhej)修复过程进行修复。因为nhej是易错的,缺失至少一个核苷酸、插入至少一个核苷酸、取代至少一个核苷酸或其组合可能会出现在修复断裂期间。因此,靶向的核苷酸序列可以经修饰或灭活。例如,单核苷酸改变(snp)可以产生改变的蛋白质产物,或者编码序列阅读框的移动可以灭活或“敲除”序列,从而不再产生蛋白质产物。在存在任选供体多核苷酸的实施方式中,供体多核苷酸中的供体序列在修复双链断裂期间可与靶位点的核苷酸序列交换或整合至其中。例如,在供体序列侧接这样上游和下游序列的实施方式中,所述上游和下游序列具有分别与原核细胞核苷酸序列中靶位点的上游和下游序列实质上的序列同一性,供体序列在通过同源性导向的修复过程介导的修复期间可以与靶位点的核苷酸序列交换或整合至其中。或者,在供体序列侧接相容突出端(或者该相容突出端由cms1多肽原位生成)的实施方式中,供体序列在双链断裂修复期间通过非同源性修复过程可以直接连接切割的核苷酸序列。将供体序列交换或整合至核苷酸序列修饰靶向的核苷酸序列,或者将外源性序列引入原核细胞dna的靶向的核苷酸序列。在一些实施方式中,由一种或多种cms1核酸酶作用所导致的双链断裂以这样的方式修复,所述方式使dna从原核细胞dna中缺失。在一些实施方式中,一个碱基、数个碱基(即2、3、4、5、6、7、8、9或10个碱基)或大部分的dna(即,超过10、超过50、超过100、或超过500个碱基)从原核细胞dna中缺失。在一些实施方式中,作为一种或多种cms1核酸酶所导致的双链断裂的结果,原核基因的表达可能会被调节。在一些实施方式中,原核基因的表达可能会被变体cms1核酸酶所调节,所述变体cms1核酸酶包括使cms1核酸酶无法生成双链断裂的突变。在一些优选实施方式中,包括使cms1核酸酶不可以生成双链断裂的突变的变体cms1核酸酶可以融合转录活化或转录抑制结构域。本发明可以用于转化任何原核生物,包括但不限于蓝藻细菌,棒状杆菌(corynebacteriumsp.),双歧杆菌(bifidobacteriumsp.),分枝杆菌(mycobacteriumsp.),链霉菌(streptomycessp.),温双岐菌(thermobifidasp.),衣原体(chlamydiasp.),原绿球藻(prochlorococcussp.),聚球藻(synechococcussp.),热聚球藻(thermosynechococcussp.),泉栖热菌(thermussp.),芽孢杆菌(bacillussp.),梭菌(clostridiumsp.),土芽孢杆菌(geobacillussp.),乳杆菌(lactobacillussp.),李斯特菌(listeriasp.),葡萄球菌(staphylococcussp.),链球菌(streptococcussp.),梭菌(fusobacteriumsp.),农杆菌(agrobacteriumsp.),慢生根瘤菌(bradyrhizobiumsp.),埃立克体(ehrlichiasp.),中慢生根瘤菌(mesorhizobiumsp.),硝酸菌(nitrobactersp.),立克次体(rickettsiasp.),沃尔巴克氏体(wolbachiasp.),单胞发酵菌(zymomonassp.),伯克霍尔德菌(burkholderiasp.),奈瑟氏菌(neisseriasp.),罗尔斯通菌(ralstoniasp.),不动杆菌(acinetobactersp.),欧文氏菌(erwiniasp.),埃希氏杆菌(escherichiasp.),嗜血杆菌(haemophilussp.),军团杆菌(legionellasp.),巴斯德菌(pasteurellasp.),假单胞菌(pseudomonassp.),嗜冷杆菌(psychrobactersp.),沙门氏菌(salmonellasp.),希瓦氏菌(shewanellasp.),志贺氏杆菌(shigellasp.),弧菌(vibriosp.),黄单胞菌(xanthomonassp.),木杆菌(xylellasp.),耶尔森菌(yersiniasp.),弯曲杆菌(campylobactersp.),脱硫弧菌(desulfovibriosp.),螺杆菌(helicobactersp.),地杆菌(geobactersp.),细螺旋体(leptospirasp.),密螺旋体(treponemasp.),支原菌(mycoplasmasp.)和热袍菌(thermotogasp.)。向原核细胞或细胞器引入核酸酶蛋白质、编码核酸酶蛋白质的dna或rna分子、引导rna或编码引导rna的dna分子、和任选的供体序列dna分子的方法为本领域已知,例如美国专利申请号2016/0208243,通过引用纳入本文。对工业应用特别具有价值的原核细胞或细胞器的示例性遗传修饰也为本领域已知,例如美国专利申请号2016/0208243,通过引用纳入本文。d.修饰病毒基因组中核苷酸序列的方法本文提供了用于修饰病毒基因组的核苷酸序列的方法。该方法包括向包含感兴趣的病毒的细胞引入靶向dna的rna或编码靶向dna的rna的dna多核苷酸,其中靶向dna的rna包括:(a)第一区段,其包含与靶dna中序列互补的核苷酸序列;和(b)第二区段,其与cms1多肽相互作用;和,向靶细胞引入cms1多肽或编码cms1多肽的多核苷酸,其中cms1多肽包括:(a)结合rna的部分,其与靶向dna的rna相互作用;和(b)活性部分,其显示定点酶促活性。然后可在表达cms1多肽并切割病毒核苷酸序列的条件下培养包含感兴趣的病毒的靶细胞。或者,可以在体外操作病毒基因组,其中将引导多核苷酸,cms1多肽和任选的供体多核苷酸与感兴趣的病毒dna序列在细胞宿主外部一起孵育。v.调节基因表达的方法本文公开的方法还包括基因组宿主中核苷酸序列的修饰或核苷酸序列的表达的调节。该方法可包括向基因组宿主中引入编码至少一种融合蛋白或编码至少一种融合蛋白的核酸,其中融合蛋白包括cms1多肽或其片段或变体和效应物结构域,和(b)至少一种引导rna或编码引导rna的dna,其中引导rna将融合蛋白的cms1多肽引导至靶dna中的靶位点,并且融合蛋白的效应物结构域修饰染色体序列或调节靶dna序列处或附近的一种或多种基因的表达。本文描述了融合蛋白,其包括cms1多肽或其片段或变体以及效应物结构域。通常,本文所公开的融合蛋白可以还包括至少一种核定位信号、质体信号肽、线粒体信号肽或能够运输蛋白质至多个亚细胞位置的信号肽。本文描述了编码融合蛋白的核酸。在一些实施方式中,融合蛋白可以分离的蛋白质(其还可包含细胞穿透域)的形式引入基因组宿主。此外,分离的融合蛋白可以是包括引导rna的蛋白质-rna复合物的部分。在其它实施方式中,融合蛋白可以rna分子(可以被加帽和/或聚腺苷酸化)形式引入基因组宿主中。在其它实施方式中,融合蛋白可以dna分子形式引入基因组宿主。例如,融合蛋白和引导rna可以离散的dna分子形式或以同一dna分子的部分形式引入基因组宿主。这类dna分子可以是质粒载体。在一些实施方式中,该方法还包括向基因组宿主引入本文所述的至少一种供体多核苷酸。本文描述了将分子引入基因组宿主(例如细胞)中的手段,以及用于培养细胞(包括含细胞器的细胞)的手段。在其中融合蛋白效应物结构域是切割结构域的具体实施方式中,该方法可以包括向基因组宿主引入一种融合蛋白(或编码一种融合蛋白的核酸)和两种引导rna(或编码两种引导rna的dna)。两种引导rna将融合蛋白引导至染色体序列中的两个不同靶位点,其中融合蛋白二聚化(例如,形成同二聚体),因此两个切割结构域可以将双链断裂引入靶dna序列。在不存在任选供体多核苷酸的实施方式中,靶dna序列中的双链断裂可以通过非同源末端连接(nhej)修复过程进行修复。因为nhej是易错的,缺失至少一个核苷酸、插入至少一个核苷酸、取代至少一个核苷酸或其组合可能会出现在修复断裂期间。因此,靶染色体序列可经修饰或灭活。例如,单核苷酸改变(snp)可以产生改变的蛋白质产物,或者编码序列阅读框的移动可以灭活或敲除摂序列,从而不再产生蛋白质产物。在存在任选供体多核苷酸的实施方式中,供体多核苷酸中的供体序列在修复双链断裂期间可与靶位点的靶dna序列交换或整合至其中。例如,在供体序列侧接这样上游和下游序列的实施方式中,所述上游和下游序列具有分别与靶dna序列中靶位点的上游和下游序列实质上的序列同一性,供体序列在通过同源性导向的修复过程介导的修复期间可以与靶位点的靶dna序列交换或整合至其中。或者,在供体序列侧接相容突出端(或者该相容突出端由cms1多肽原位生成)的实施方式中,供体序列在双链断裂修复期间通过非同源性修复过程可以直接连接切割的靶dna序列。将供体序列交换或整合至靶dna序列修饰靶dna序列,或者将外源性序列引入靶dna序列。在其中融合蛋白效应物结构域是切割结构域的其它实施方式中,该方法可包括向基因组宿主引入两种不同的融合蛋白(或编码两种不同的融合蛋白的核酸)和两种引导rna(或编码两种引导rna的dna)。融合蛋白可以不同,如本文他处详述。各引导rna将融合蛋白引导至靶dna序列中的特定靶位点,其中融合蛋白可以二聚化(例如,形成同二聚体),从而两个切割结构域可以将双链断裂引入靶dna序列。在不存在任选供体多核苷酸的实施方式中,得到的双链断裂可以通过非同源性修复过程修复,这样的话在断裂修复期间可能会出现缺失至少一个核苷酸,插入至少一个核苷酸,取代至少一个核苷酸或其组合。在任选供体多核苷酸存在的实施方式中,在通过基于同源性的修复过程(例如,在供体序列侧接这样上游和下游序列的实施方式中,所述上游和下游序列具有分别与染色体序列中靶位点的上游和下游序列实质上的序列同一性中)或非同源性的修复过程(例如,在供体序列侧接相容突出端的实施方式中)的双链断裂修复期间,供体多核苷酸中的供体序列可以与染色体序列交换或整合至其中。在其中融合蛋白效应物结构域是转录活化结构域或转录阻遏物结构域的某些实施方式中,该方法可以包括向基因组宿主引入一种融合蛋白(或编码一种融合蛋白的核酸)和一种引导rna(或编码一种引导rna的dna)。引导rna将融合蛋白导向特定靶dna序列,其中转录活化结构域或转录阻遏物结构域分别活化或抑制位于靶dna序列附近的一个或多个基因的表达。即,转录可能会受到与靶dna序列非常接近的基因的影响,或者可能受到与靶dna序列相距更远的基因的影响。本领域已知可以通过远距离序列(distantlylocatedsequence)调控基因转录,所述远距离序列可能离转录起始位点数千碱基远的位置或者甚至在不同的染色体上(harmston和lenhard(2013)nucleicacidsres41:7185-7199)。在其中融合蛋白效应物结构域是表观遗传修饰结构域的其它实施方式中,该方法可以包括向基因组宿主引入一种融合蛋白(或编码一种融合蛋白的核酸)和一种引导rna(或编码一种引导rna的dna)。该引导rna将融合蛋白导向至特定靶dna序列,其中表观遗传修饰结构域修饰靶dna序列的结构。表观遗传修饰包括乙酰化,组蛋白的甲基化和/或核苷酸甲基化。在一些情况下,染色体序列的结构修饰导致染色体序列表达的变化。vi.包含遗传修饰的生物体a.真核生物本文提供了真核生物、真核细胞、细胞器和植物胚胎,其包括已经使用本文所述的cms1多肽介导的或融合蛋白介导的方法修饰的至少一种核苷酸序列。还提供了真核生物、真核细胞、细胞器和植物胚胎,其包括至少一种dna或rna分子,其编码cms1多肽或融合蛋白,其靶向感兴趣的染色体序列或融合蛋白,至少一种引导rna,以及任选的一种或多种供体多核苷酸。本文公开的经遗传修饰的真核生物对于修饰的核苷酸序列可以是杂合的,或对于修饰的核苷酸序列可以是纯合的。在细胞器dna中包括一种或多种基因修饰的真核细胞可以是异质的或同质的。可以对真核生物、真核细胞、细胞器和植物胚胎的经修饰的染色体序列进行修饰从而使其灭活,具有上调的或下调的表达,或生成改变的蛋白产物,或包括整合的序列。可以将修饰的染色体序列灭活,从而使序列不再转录和/或功能性蛋白质产物不再生成。因此,包括灭活的染色体序列的经遗传修饰的真核生物可以被称为“敲除”或“条件性敲除”。失活的染色体序列可包括缺失突变(即,一个或多个核苷酸的缺失),插入突变(即,一个或多个核苷酸的插入)或无义突变(即,用单核苷酸取代另一核苷酸从而引入终止密码子)。突变的结果是,靶染色体序列失活,从而不产生功能蛋白。失活的染色体序列不包含外源引入的序列。本文还包括遗传修饰的真核生物,其中2、3、4、5、6、7、8、9或10个或更多个染色体序列被灭活。修饰的染色体序列还可以被改变,从而使其编码变体蛋白产物。例如,包含修饰的染色体序列的经遗传修饰的真核生物可包含靶点突变或其它修饰,从而产生改变的蛋白质产物。在一个实施方式中,可以修饰染色体序列,从而改变至少一个核苷酸,并且表达的蛋白质包含一个改变的氨基酸残基(错义突变)。在另一个实施方式中,可以修饰染色体序列以包含多于一个的错义突变,从而改变多于一个的氨基酸。另外,可以修饰染色体序列以具有三个核苷酸的缺失或插入,从而表达的蛋白质包括单个氨基酸的缺失或插入。与野生型蛋白质相比,改变或变异的蛋白质可具有改变的特性或活性,例如改变的底物特异性,改变的酶活性,改变的动力学速率等。在一些实施方式中,遗传修饰的真核生物可以包括至少一个染色体整合的核苷酸序列。包括整合序列的遗传修饰的真核生物可以被称为“敲入”或“条件性敲入”。作为整合序列的核苷酸序列可以例如编码直系同源蛋白质,内源性蛋白质或两者的组合。在一个实施方式中,可将编码直系同源蛋白质或内源性蛋白质的序列整合到编码蛋白质的核或细胞染色体序列中,从而使染色体序列失活,但是表达外源序列。在这样的情况中,编码直向同源蛋白或内源性蛋白的序列可以操作性地连接启动子控制序列。或者,可将编码直系同源蛋白质或内源性蛋白质的序列整合到核或细胞染色体序列中而不影响染色体序列的表达。例如,编码蛋白质的序列可以被整合到“安全港”基因座中。本公开还包括遗传修饰的真核生物,其中2、3、4、5、6、7、8、9或10个或更多个序列(包括编码蛋白质的序列)被整合到基因组中。本文公开的任何感兴趣的基因均可被引入整合进入真核核或细胞器的染色体序列。在特定实施方式中,将增加植物生长或产量的基因整合到染色体中。编码蛋白质的染色体整合的序列可以编码感兴趣的蛋白质的野生型或者可以编码包括至少一种修饰的蛋白质,从而生成蛋白质的改变形式。例如,编码疾病或病症相关蛋白质的染色体整合序列可包含至少一种修饰,从而产生的蛋白质的变化形式能引起或增强相关的病症。或者,编码疾病或病症相关蛋白质的染色体整合序列可包含至少一种修饰,从而该蛋白质的改变形式保护真核生物或真核细胞免受相关疾病或病症的发展。在某些实施方式中,遗传修饰的真核生物可以包括编码蛋白质的至少一种修饰的染色体序列,从而改变蛋白质的表达模式。例如,控制蛋白质表达的调控区域如启动子或转录因子结合位点可以经改变,从而使蛋白质过表达,或者改变蛋白质的组织特异性或时序性表达或其组合。或者,可以使用条件性敲除系统改变蛋白质的表达模式。条件性敲除系统的非限制示例包括cre-lox重组系统。cre-lox重组系统包含cre重组酶,这是一种位点特异性dna重组酶,其可以催化核酸分子中特定位点(lox位点)之间的核酸序列重组。使用该系统产生时间和组织特异性表达的方法是本领域已知的。b.原核生物本文提供了原核生物和原核细胞,其包括已经使用本文所述的cms1多肽介导的或融合蛋白介导的方法修饰的至少一种核苷酸序列。还提供了原核生物和原核细胞,其包括至少一种dna或rna分子,其编码cms1多肽或融合蛋白,其靶向感兴趣的dna序列或融合蛋白,至少一种引导rna,以及任选的一种或多种供体多核苷酸。可以对原核生物和原核细胞的经修饰的dna序列进行修饰从而使其灭活,具有上调的或下调的表达,或生成改变的蛋白产物,或包括整合的序列。可以将修饰的dna序列灭活,从而使序列不再转录和/或功能性蛋白质产物不再生成。因此,包括灭活的染色体序列的经遗传修饰的原核生物可以被称为“敲除”或“条件性敲除”。失活的dna序列可包括缺失突变(即,一个或多个核苷酸的缺失),插入突变(即,一个或多个核苷酸的插入)或无义突变(即,用单核苷酸取代另一核苷酸从而引入终止密码子)。突变的结果是,靶dna序列失活,从而不产生功能蛋白。失活的dna序列不包含外源引入的序列。本文还包括遗传修饰的原核生物,其中2、3、4、5、6、7、8、9或10个或更多个dna序列被灭活。经修饰的dna序列还可以被改变,从而使其编码变体蛋白质产物。例如,包含经修饰的dna序列的经遗传修饰的原核生物可包含靶点突变或其它修饰,从而产生改变的蛋白质产物。在一个实施方式中,可以修饰dna序列,从而改变至少一个核苷酸,并且表达的蛋白质包含一个改变的氨基酸残基(错义突变)。在另一个实施方式中,可以修饰dna序列以包含多于一个的错义突变,从而改变多于一个的氨基酸。另外,可以修饰dna序列以具有三个核苷酸的缺失或插入,从而表达的蛋白质包括单个氨基酸的缺失或插入。与野生型蛋白质相比,改变或变异的蛋白质可具有改变的特性或活性,例如改变的底物特异性,改变的酶活性,改变的动力学速率等。在一些实施方式中,经遗传修饰的原核生物可以包括至少一个整合的核苷酸序列。包括整合序列的遗传修饰的原核生物可以被称为“敲入”或“条件性敲入”。作为整合序列的核苷酸序列可以例如编码直系同源蛋白质,内源性蛋白质或两者的组合。在一个实施方式中,可将编码直系同源蛋白质或内源性蛋白质的序列整合到编码蛋白质的原核dna序列中,从而使该原核序列失活,但是表达外源序列。在这样的情况中,编码直向同源蛋白或内源性蛋白的序列可以操作性地连接启动子控制序列。或者,可将编码直系同源蛋白质或内源性蛋白质的序列整合进入原核dna序列,而不影响原生原核序列的表达。例如,编码蛋白质的序列可以被整合到“安全港”基因座中。本公开还包括经遗传修饰的原核生物,其中2、3、4、5、6、7、8、9或10个或更多个序列(包括编码蛋白质的序列)被整合进入原核基因组或原核生物所含质粒中。如本文所公开的任何感兴趣的基因都可被整合进入原核染色体、质粒或其它染色体外dna的dna序列中。编码蛋白质的整合的序列可以编码感兴趣的蛋白质的野生型或者可以编码包括至少一种修饰的蛋白质,从而生成蛋白质的改变形式。例如,编码疾病或病症相关蛋白质的整合序列可包含至少一种修饰,从而产生的蛋白质的变化形式能引起或增强相关的病症。或者,编码疾病或病症相关蛋白质的整合序列可包含至少一种修饰,从而蛋白质的改变形式能降低原核生物的感染性。在某些实施方式中,经遗传修饰的原核生物可以包括编码蛋白质的至少一种修饰的dna序列,从而改变蛋白质的表达模式。例如,控制蛋白质表达的调控区域如启动子或转录因子结合位点可以经改变,从而使蛋白质过表达,或者改变蛋白质的时序性表达或其组合。或者,可以使用条件敲除系统改变蛋白质的表达模式。条件性敲除系统的非限制示例包括cre-lox重组系统。cre-lox重组系统包含cre重组酶,这是一种位点特异性dna重组酶,其可以催化核酸分子中特定位点(lox位点)之间的核酸序列重组。使用该系统产生时序表达的方法是本领域已知的。c.病毒本文提供了病毒和病毒基因组,其包括已经使用本文所述的cms1多肽介导的或融合蛋白介导的方法修饰的至少一种核苷酸序列。还提供了病毒和病毒基因组,其包括至少一种dna或rna分子,其编码cms1多肽或融合蛋白,其靶向感兴趣的dna序列或融合蛋白,至少一种引导rna,以及任选的一种或多种供体多核苷酸。可以对病毒和病毒基因组的经修饰的dna序列进行修饰从而使其灭活,具有上调的或下调的表达,或生成改变的蛋白产物,或包括整合的序列。可以将修饰的dna序列灭活,从而使序列不再转录和/或功能性蛋白质产物不再生成。因此,包括灭活的染色体序列的经遗传修饰的病毒可以被称为“敲除”或“条件性敲除”。失活的dna序列可包括缺失突变(即,一个或多个核苷酸的缺失),插入突变(即,一个或多个核苷酸的插入)或无义突变(即,用单核苷酸取代另一核苷酸从而引入终止密码子)。突变的结果是,靶dna序列失活,从而不产生功能蛋白。失活的dna序列不包含外源引入的序列。本文还包括遗传修饰的病毒,其中2、3、4、5、6、7、8、9或10个或更多个病毒序列被灭活。经修饰的dna序列还可以被改变,从而使其编码变体蛋白产物。例如,包含经修饰的dna序列的经遗传修饰的病毒可包含靶点突变或其它修饰,从而产生改变的蛋白质产物。在一个实施方式中,可以修饰dna序列,从而改变至少一个核苷酸,并且表达的蛋白质包含一个改变的氨基酸残基(错义突变)。在另一个实施方式中,可以修饰dna序列以包含多于一个的错义突变,从而改变多于一个的氨基酸。另外,可以修饰dna序列以具有三个核苷酸的缺失或插入,从而表达的蛋白质包括单个氨基酸的缺失或插入。与野生型蛋白质相比,改变或变异的蛋白质可具有改变的特性或活性,例如改变的底物特异性,改变的酶活性,改变的动力学速率等。在一些实施方式中,经遗传修饰的病毒可以包括至少一个整合的核苷酸序列。包括整合序列的遗传修饰的病毒可以被称为“敲入”或“条件性敲入”。作为整合序列的核苷酸序列可以例如编码直系同源蛋白质,内源性蛋白质或两者的组合。在一个实施方式中,可将编码直系同源蛋白质或内源性蛋白质的序列整合到编码蛋白质的病毒dna序列中,从而使该病毒序列失活,但是表达外源序列。在这样的情况中,编码直向同源蛋白或内源性蛋白的序列可以操作性地连接启动子控制序列。或者,可将编码直系同源蛋白质或内源性蛋白质的序列整合进入病毒dna序列,而不影响原生病毒序列的表达。例如,编码蛋白质的序列可以被整合到“安全港”基因座中。本公开还包括遗传修饰的病毒,其中2、3、4、5、6、7、8、9或10个或更多个序列(包括编码蛋白质的序列)被整合到病毒基因组中。本文公开的任何感兴趣的基因都可以被整合到病毒基因组的dna序列中。编码蛋白质的整合的序列可以编码感兴趣的蛋白质的野生型或者可以编码包括至少一种修饰的蛋白质,从而生成蛋白质的改变形式。例如,编码疾病或病症相关蛋白质的整合序列可包含至少一种修饰,从而产生的蛋白质的变化形式能引起或增强相关的病症。或者,编码疾病或病症相关蛋白质的整合序列可包含至少一种修饰,从而蛋白质的改变形式能降低病毒的感染性。在某些实施方式中,经遗传修饰的病毒可以包括编码蛋白质的至少一种修饰的dna序列,从而改变蛋白质的表达模式。例如,控制蛋白质表达的调控区域如启动子或转录因子结合位点可以经改变,从而使蛋白质过表达,或者改变蛋白质的时序性表达或其组合。或者,可以使用条件敲除系统改变蛋白质的表达模式。条件性敲除系统的非限制示例包括cre-lox重组系统。cre-lox重组系统包含cre重组酶,这是一种位点特异性dna重组酶,其可以催化核酸分子中特定位点(lox位点)之间的核酸序列重组。使用该系统产生时序表达的方法是本领域已知的。本说明书中涉及的所有专利申请和出版物指示本发明涉及领域技术人员的水平。所有发表物和专利申请通过引用纳入本文,就好像将各篇单独的发表物或专利申请具体和单独地通过引用纳入本文那样。虽然出于方便理解的目的,通过阐述和举例的方式详细描述了上述发明,但可明显看出,某些改变和修改应属于所附权利要求书的范围。本发明的实施方式包括:1.一种修饰真核细胞基因组中靶位点的核苷酸序列的方法,其包括:向所述真核细胞中引入(i)靶向dna的rna,或编码靶向dna的rna的dna多核苷酸,其中所述靶向dna的rna包括:(a)第一区段,其包含与靶dna中序列互补的核苷酸序列;和(b)第二区段,其与cms1多肽相互作用;和(ii)cms1多肽或编码cms1多肽的多核苷酸,其中所述cms1多肽包含:(a)结合rna的部分,其与靶向dna的rna相互作用;和(b)活性部分,其显示定点酶促活性。2.一种修饰原核细胞基因组中靶位点的核苷酸序列的方法,其包括:向所述原核细胞中引入(i)靶向dna的rna,或编码靶向dna的rna的dna多核苷酸,其中所述靶向dna的rna包括:(a)第一区段,其包含与靶dna中序列互补的核苷酸序列;和(b)第二区段,其与cms1多肽相互作用;和(ii)cms1多肽或编码cms1多肽的多核苷酸,其中所述cms1多肽包含:(a)结合rna的部分,其与靶向dna的rna相互作用;和(b)活性部分,其显示定点酶促活性,其中,所述原核细胞不是编码所述cms1多肽的基因的原生宿主。3.一种修饰植物细胞基因组中靶位点的核苷酸序列的方法,其包括:向所述植物细胞中引入(i)靶向dna的rna,或编码靶向dna的rna的dna多核苷酸,其中所述靶向dna的rna包括:(a)第一区段,其包含与靶dna中序列互补的核苷酸序列;和(b)第二区段,其与cms1多肽相互作用;和(ii)cms1多肽或编码cms1多肽的多核苷酸,其中所述cms1多肽包含:(a)结合rna的部分,其与靶向dna的rna相互作用;和(b)活性部分,其显示定点酶促活性。4.如实施方式3所述的方法,其还包括:在表达所述cms1多肽并在所述靶位点处切割核苷酸序列以生成经修饰的核苷酸序列的条件下培养所述植物;和选择包含所述经修饰的核苷酸序列的植物。5.如实施方式1-4中任一项所述的方法,其中切割靶位点的核苷酸序列包括双链断裂,所述双链断裂位于或邻近靶向dna的rna序列所靶向的序列。6.如实施方式5所述的方法,其中所述双链断裂是交错的双链断裂。7.如实施方式6所述的方法,其中所述交错的双链断裂产生3-6个核苷酸的5'突出端。8.如实施方式1-7中任一项所述的方法,其中所述靶向dna的rna是引导rna(grna)。9.如实施方式1-8中任一项所述的方法,其中所述经修饰的核苷酸序列包括细胞基因组中异源性dna的插入,细胞基因组中核苷酸序列的缺失,或细胞基因组中至少一个核苷酸的突变。10.如实施方式1-9中任一项所述的方法,其中,所述cms1多肽选自下组:seqidno:20-23、30-69、208-211和222-254。11.如实施方式1-10中任一项所述的方法,其中,编码cms1多肽的所述多核苷酸选自下组:seqidno:16-19、24-27、70-146、174-176、212-215和255-287。12.如实施方式1-11中任一项所述的方法,其中,所述cms1多肽与选自下组的一个或多个多肽序列具有至少80%同一性:seqidno:20-23、30-69、208-211和222-254。13.如实施方式1-12中任一项所述的方法,其中,编码cms1多肽的所述多核苷酸与选自下组的一个或多个核酸序列具有至少70%同一性:seqidno:16-19、24-27、70-146、174-176、212-215和255-287。14.如实施方式1-13中任一项所述的方法,其中,所述cms1多肽形成同二聚体或异二聚体。15.如实施方式3所述的方法,其中,所述植物细胞来自单子叶植物。16.如实施方式3所述的方法,其中,所述植物细胞来自双子叶植物。17.如实施方式1-16中任一项所述的方法,其中cms1多肽的表达在诱导型或组成型启动子的控制下。18.如实施方式1-17中任一项所述的方法,其中cms1多肽的表达在细胞类型特异性或发育优先型启动子的控制下。19.如实施方式1-18中任一项所述的方法,其中pam序列包括5'-ttn,其中n可以是任何核苷酸。20.如实施方式3所述的方法,其中位于植物细胞基因组靶位点的所述核苷酸序列编码sbp酶,fbp酶,fbp醛缩酶,agp酶大亚基,agp酶小亚基,蔗糖磷酸合成酶,淀粉合成酶,pep羧化酶,丙酮酸磷酸二激酶,转酮醇酶,rubisco小亚基,或rubisco活化酶蛋白,或编码调节一个或多个基因表达的转录因子,所述基因编码sbp酶,fbp酶,fbp醛缩酶,agp酶大亚基,agp酶小亚基,蔗糖磷酸合成酶,淀粉合成酶,pep羧化酶,丙酮酸磷酸二激酶,转酮醇酶,rubisco小亚基或rubisco活化酶蛋白。21.如实施方式1-20中任一项所述的方法,所述方法还包括将靶位点与供体多核苷酸接触,其中供体多核苷酸、供体多核苷酸的部分、供体多核苷酸的拷贝或供体多核苷酸拷贝的部分整合至靶dna中。22.如实施方式1-21中任一项所述的方法,其中所述靶dna经修饰,从而使靶dna内的核苷酸缺失。23.如实施方式1-22中任一项所述的方法,其中编码cms1多肽的所述多核苷酸经密码子优化以在植物细胞中表达。24.如实施方式1-23中任一项所述的方法,其中,所述核苷酸序列的表达增加或降低。25.如实施方式1-24中任一项所述的方法,其中,编码cms1多肽的多核苷酸操作性连接至启动子,所述启动子是组成型、细胞特异型、诱导型或被自杀外显子的可变剪接活化的启动子。26.如实施方式1-25中任一项所述的方法,其中,所述cms1多肽包括一个或多个突变,所述突变减弱或消除所述cms1多肽的核酸酶活性。27.如实施方式26所述的方法,其中,所述突变的cms1多肽包含突变,当经比对以实现最大同一性时,所述突变处在对应于smcms1(seqidno:10)的701或922位的位置处,或对应于sulfcms1(seqidno:11)的848或1213位的位置处。28.如实施方式27所述的方法,其中,处于对应于smcms1(seqidno:10)的701或922位的位置处的所述突变分别是d701a和e922a,或处于对应于sulfcms1(seqidno:11)的848和1213位的位置处的所述突变分别是d848a和d1213a。29.如实施方式26-28中任一项所述的方法,其中,突变的cms1多肽与转录活化结构域融合。30.如实施方式29所述的方法,其中,突变的cms1多肽直接融合至转录活化结构域或通过接头融合至转录活化结构域。31.如实施方式26-28中任一项所述的方法,其中,突变的cms1多肽与转录阻遏物结构域融合。32.如实施方式31所述的方法,其中,突变的cms1多肽通过接头与转录阻遏物结构域融合。33.如实施方式1-32中任一项所述的方法,其中,所述cms1多肽还包括核定位信号。34.如实施方式33所述的方法,其中所述核定位信号包括seqidno:1,或其由seqidno:2编码。35.如实施方式1-32中任一项所述的方法,其中,所述cms1多肽还包括叶绿体信号肽。36.如实施方式1-32中任一项所述的方法,其中,所述cms1多肽还包含线粒体信号肽。37.如实施方式1-32中任一项所述的方法,其中,所述cms1多肽还包含将所述cms1多肽靶向至多个亚细胞位置的信号肽。38.一种核酸分子,其包含编码cms1多肽的多核苷酸序列,其中所述多核苷酸序列经密码子优化以在植物细胞中表达。39.一种核酸分子,其包含编码cms1多肽的多核苷酸序列,其中所述多核苷酸序列经密码子优化以在真核细胞中表达。40.一种核酸分子,其包含编码cms1多肽的多核苷酸序列,其中所述多核苷酸序列已经密码子优化以在原核细胞中表达,其中所述原核细胞不是所述cms1多肽的原生宿主。41.如实施方式38-40中任一项所述的核酸分子,其中,所述多核苷酸序列选自下组:seqidno:16-19、24-27、70-146、174-176、212-215和255-287,或其片段或变体,或其中所述多核苷酸序列编码选自下组的cms1多肽:seqidno:20-23、30-69、208-211和222-254,并且其中编码cms1多肽的所述多核苷酸序列操作性地连接至启动子,所述启动子对于编码cms1多肽的多核苷酸序列而言是异源的。42.如实施方式38-40中任一项所述的核酸分子,其中,所述变体多核苷酸序列与选自下组的多核苷酸序列具有至少70%的序列同一性:seqidno:16-19、24-27、70-146、174-176、212-215和255-287,或其中所述多核苷酸序列编码与选自下组的多肽具有至少80%序列同一性的cms1多肽:seqidno:20-23、30-69、208-211和222-254,并且其中编码cms1多肽的所述多核苷酸序列操作性地连接至启动子,所述启动子对于编码cms1多肽的多核苷酸序列而言是异源的。43.如实施方式38-40中任一项所述的核酸分子,其中,所述cms1多肽包含选自下组的氨基酸序列:seqidno:20-23、30-69、208-211和222-254,或其片段或变体。44.如实施方式43所述的核酸分子,其中所述变体多肽序列与选自下组的多肽序列具有至少70%的序列同一性:seqidno:20-23、30-69、208-211和222-254。45.如实施方式38-44中任一项所述的核酸分子,其中,编码cms1多肽的所述多核苷酸序列操作性地连接至植物细胞中有活性的启动子。46.如实施方式38-44中任一项所述的核酸分子,其中,编码cms1多肽的所述多核苷酸序列操作性地连接至真核细胞中有活性的启动子。47.如实施方式38-44中任一项所述的核酸分子,其中,编码cms1多肽的所述多核苷酸序列操作性地连接至原核细胞中有活性的启动子。48.如实施方式38-44中任一项所述的核酸分子,其中,编码cms1多肽的所述多核苷酸序列操作性地连接至组成型启动子、诱导型启动子、细胞类型特异性启动子或发育优先型启动子。49.如实施方式38-44中任一项所述的核酸分子,其中,所述核酸分子编码包含所述cms1多肽和效应物结构域的融合蛋白。50.如实施方式49所述的核酸分子,其中,所述效应物结构域选自下组:转录活化因子、转录阻遏物、核定位信号和细胞穿透信号。51.如实施方式50所述的核酸分子,其中,所述cms1多肽经突变以使核酸酶活性降低或消除。52.如实施方式51所述的核酸分子,其中,所述突变的cms1多肽包含突变,当经比对以实现最大同一性时,所述突变处在对应于smcms1(seqidno:10)的701或922位的位置处,或对应于sulfcms1(seqidno:11)的848和1213位的位置处。53.如实施方式49-52中任一项所述的核酸分子,其中,所述cms1多肽通过接头融合至所述效应物结构域。54.如实施方式38-53中任一项所述的核酸分子,其中,所述cms1多肽形成二聚体。55.由实施方式49-54中任一项所述的核酸分子编码的融合蛋白。56.由实施方式38-44中任一项所述的核酸分子编码的cms1多肽。57.经突变以减小或消除核酸酶活性的cms1多肽。58.如实施方式57所述的cms1多肽,其中,所述突变的cms1多肽包含突变,当经比对以实现最大同一性时,所述突变处在对应于smcms1(seqidno:10)的701或922位的位置处,或对应于sulfcms1(seqidno:11)的848和1213位的位置处。59.包括实施方式38-54中任一项所述的核酸分子的植物细胞、真核细胞或原核细胞。60.包括实施方式55-58中任一项所述的融合蛋白或多肽的植物细胞、真核细胞或原核细胞。61.通过实施方式1和3-37中任一项所述的方法产生的植物细胞。62.包括实施方式38-54中任一项所述的核酸分子的植物。63.包括实施方式55-58中任一项所述的融合蛋白或多肽的植物。64.通过实施方式1和3-37中任一项所述方法产生的植物。65.如实施方式62-64中任一项所述的植物的种子。66.如实施方式1和3-37中任一项所述的方法,其中,所述经修饰的核苷酸序列包含多核苷酸的插入,所述多核苷酸编码向转化的细胞赋予抗生素或除草剂耐受性的蛋白质。67.如实施方式66所述的方法,其中,编码赋予抗生素或除草剂耐受性的蛋白质的所述多核苷酸包含seqidno:7,或编码包含seqidno:8的蛋白质。68.如实施方式3-37中任一项所述的方法,其中植物细胞的基因组中的所述靶位点包含seqidno:12,或与seqidno:12的部分或片段具有至少80%同一性。69.如实施方式1-37中任一项所述的方法,其中,编码靶向dna的rna的所述dna多核苷酸包含seqidno:15。70.如实施方式38-54中任一项所述的核酸分子,其中,编码cms1多肽的所述多核苷酸序列还包含编码核定位信号的多核苷酸序列。71.如实施方式70所述的核酸分子,其中,所述核定位信号包含seqidno:1,或由seqidno:2编码。72.如实施方式38-54中任一项所述的核酸分子,其中,编码cms1多肽的所述多核苷酸序列还包含编码叶绿体信号肽的多核苷酸序列。73.如实施方式38-54中任一项所述的核酸分子,其中,编码cms1多肽的所述多核苷酸序列还包含编码线粒体信号肽的多核苷酸序列。74.如实施方式38-54中任一项所述的核酸分子,其中,编码cms1多肽的所述多核苷酸序列还包含编码信号肽的多核苷酸序列,所述信号肽将所述cms1多肽靶向至多个亚细胞位置。75.如实施方式55所述的融合蛋白,其中,所述融合蛋白还包含核定位信号,叶绿体信号肽,线粒体信号肽,或将所述cms1多肽靶向至多个亚细胞位置的信号肽。76.如实施方式56-58中任一项所述的cms1多肽,其中,所述cms1多肽还包含核定位信号,叶绿体信号肽,线粒体信号肽,或将所述cms1多肽靶向至多个亚细胞位置的信号肽。77.如实施方式1-37中任一项所述的方法,其中,所述cms1多肽包含选自下组的一个或多个序列基序:seqidno:177-186。78.如实施方式1-37中任一项所述的方法,其中,所述cms1多肽包含选自下组的一个或多个序列基序:seqidno:288-289和187-201。79.如实施方式1-37中任一项所述的方法,其中,所述cms1多肽包含选自下组的一个或多个序列基序:seqidno:290-296。80.如实施方式38-54中任一项所述的核酸分子,其中,所述cms1多肽包含选自下组的一个或多个序列基序:seqidno:177-186。81.如实施方式38-54中任一项所述的核酸分子,其中,所述cms1多肽包含选自下组的一个或多个序列基序:seqidno:288-289和187-201。82.如实施方式38-54中任一项所述的核酸分子,其中,所述cms1多肽包含选自下组的一个或多个序列基序:seqidno:290-296。通过说明的方式,而非限制性方式提供以下实施例。实验部分实施例1–克隆植物转化构建体含cms1的构建体汇总于表1。简言之,cms1基因经植物密码子优化,通过genscript(新泽西州的皮斯卡塔韦(piscataway))从头合成,并且通过pcr扩增以向感兴趣的cms1编码序列添加n-末端sv40核定位标签(seqidno:2)(框内),以及限制性酶位点,用于克隆。利用合适的限制性酶位点,将各个个体cms1基因克隆至2x35s启动子(seqidno:3)的下游。注意到,编码adurb.160cms1蛋白(seqidno:20)的seqidno:16源自一种生物体,该生物体似乎使用tga密码子编码甘氨酸,而不是大多数生物体使用的通用遗传编码中的终止密码子。因此,编码adurb.160cms1蛋白的原生基因(seqidno:24)包括(其似乎是)多个过早终止密码子;然而,用编码甘氨酸的tga对该基因进行的分析发现了全长的开放阅读框。类似地,seqidno:82、91、92、100、105、213、255、259、266、267、268、270、271、272、273、275、276、277、279、280、284、285和286也似乎使用非通用遗传编码,具有编码甘氨酸的tga密码子。合成编码引导rna的质粒,采用在其5’端侧接稻u6(osu6)启动子(seqidno:5)且在其3’端侧接osu6终止子(seqidno:6)的引导rna,其靶向至稻(水稻(oryzasativacv.kitaake))cao1基因(seqidno:12)的区域。引导rna具有seqidno:15的序列。引导rna质粒汇总于表2。包含修复供体盒(seqidno:13)的质粒131632经设计以在oscao1基因中靶位点上游和下游具有约1,000个碱基对同源性。修复供体盒包括玉米遍在蛋白启动子(seqidno:9),该启动子与潮霉素抗性基因(seqidno:7,编码seqidno:8)操作性连接,其在其3'端侧接花椰菜花叶病毒35s多聚a序列(seqidno:4)。质粒131592的设计与质粒131632类似,但在潮霉素盒的上游或下游没有任何同源臂。这样,质粒131592含有来自seqidno:13的核苷酸1,001-4,302,包括玉米遍在蛋白启动子(seqidno:9),其与潮霉素抗性基因(seqidno:7,编码seqidno:8)操作性地连接,其在其3'端侧接花椰菜花叶病毒35s多聚a序列(seqidno:4)。表1:cms1载体1–各cms1基因与sv40核定位信号(seqidno:2,编码氨基酸序列seqidno:1)在其5’端框内融合。表2:引导rna载体实施例2–水稻转化为了将cms1盒、含grna的质粒和修复供体盒引入水稻细胞,使用了颗粒轰击。对于轰击,称取2mg的0.6μm金颗粒,并将其转移至无菌1.5-ml试管。添加500ml的100%乙醇,然后管用超声处理10-15秒。离心后,移除乙醇。然后将1毫升灭菌双蒸水加入含有金珠的试管。将珠沉淀短暂涡旋,然后通过离心重整(re-formed),然后从管中除去水。在无菌层流罩中,将dna被覆到珠子上。表3示出添加到珠上的dna的量。将含有cms1盒的质粒、含有grna的质粒和修复供体盒添加到珠,并且添加灭菌双蒸水以使总体积达到50μl。为此,添加20μl的亚精胺(1m),然后是50μl的cacl2(2.5m)。通过重力使金颗粒沉淀几分钟,然后通过离心将其沉淀。移除上清液液体,并且添加800μl的100%乙醇。短暂超声处理后,使金颗粒通过重力沉淀3-5分钟,然后将试管离心以形成沉淀。移除上清液,并且向试管添加30μl的100%乙醇。dna涂覆的金颗粒通过涡旋重悬于该乙醇中,并将10μl重悬的金颗粒各自添加到3个大型运载体(加利福尼亚州州赫尔克里斯的生物辐射公司(bio-rad))。允许大型运载体在层流罩中风干5-10分钟以允许乙醇蒸发。表3:用于颗粒轰击实验的dna的量(所有量为每2mg金颗粒)水稻愈伤组织用于轰击。在轰击之前,将水稻愈伤组织在愈伤组织诱导培养基(cim;3.99g/ln6盐和维生素,0.3g/l酪蛋白水解物,30g/l蔗糖,2.8g/ll-脯氨酶,2mg/l2,4-d,8g/l琼脂,调整至ph5.8)以28℃在黑暗中维持4-7天。颗粒轰击之前,将各自大小为0.2-0.3cm且重量为总计1-1.5g的大约80-100个愈伤组织块置于含有渗透固体培养基(补充有0.4m山梨醇和0.4m甘露醇的cim)的皮氏培养皿中心进行4小时渗透预处理。对于轰击,含有涂覆dna的金颗粒的大型运载体被组装成大型运载体支持物(holder)。按照生产商的说明组装防爆片(1,100psi)、停止屏(stoppingscreen)和大型运载体支持物。将含有待轰击的水稻愈伤组织的平板置于停止屏下6cm,并且在真空室达到25-28汞柱后轰击愈伤组织块。轰击后,将愈伤组织置于渗透培养基16-20小时,然后将愈伤组织块转移至选择培养基(补充有50mg/l潮霉素和100mg/l特美汀的cim)。将平板转移至孵育器,并维持在28篊黑暗中以开始转化细胞的恢复。每两周,将愈伤组织在新鲜选择培养基上继代培养。在大约5-6周后的选择培养基上出现潮霉素抗性愈伤组织块。将个别潮霉素抗性愈伤组织块转移至新的选择平板以允许细胞分裂并且生长,从而生成足够多的组织用于分子分析取样。表4总结了用于这些水稻轰击实验的dna载体的组合。表4:水稻粒子轰击实验总结实施例3–水稻分子分析在将来自各转化实验的潮霉素抗性愈伤组织块转移至新平板后,他们生长至足够进行采样的大小。从每一片抗潮霉素的水稻愈伤组织中收获少量组织,并从这些组织样品中提取dna用于pcr,dna测序和t7内切核酸酶(t7ei)分析。pcr分析使用引物设计,这些引物既不会从野生型水稻dna产生扩增子也不会单从修复供体质粒产生扩增子,而是在同源臂之外的水稻基因组中具有一个引物结合位点,而在插入盒中具有另一个引物结合位点,因此指示在水稻cao1基因座处的插入事件。对由上述pcr分析产生的pcr扩增子进行桑格测序和/或下一代测序,以确认pcr扩增子实际指示在预期基因组位点的插入,而不仅仅是实验假象。表5汇总了这些测序分析的结果。表5–水稻愈伤组织基因组编辑实验结果汇总除pcr和dna测序分析外,还进行了t7ei分析,以检测cao1基因座上是否存在小插入和/或缺失。如前所述进行t7ei分析(begemann等.(2017)scireports7:11606)。对于t7ei分析指示潜在插入或缺失的愈伤组织样品,进行dna测序分析以检测cao1基因座是否存在插入和/或缺失。实施例4–在cao1基因座处有遗传修饰的水稻植株的再生将如上所述转化的水稻愈伤组织在组织培养基上培养以产生芽。随后将这些芽转移至生根培养基,然后将生根的植物转移至土壤以在温室里栽培。从生根植物提取dna进行pcr和dna测序分析。使t0代植物生长到成熟并自花授粉以产生t1代种子。种植这些t1代种子,并对所得的t1代植物进行基因分型,以鉴定纯合子,半合子和无效分离子植物。将植物表型分型以检测与cao1基因的纯合敲除相关的黄叶表型(lee等.(2005)plantmolbiol57:805-818)。实施例5–编辑玉米(zeamays)中的预定基因组基因座设计一种或多种grna以在玉米基因组中的所需位点退火,并且允许与一个或多个cms1蛋白的相互作用。将这些grna克隆至载体,从而使其操作性地连接在植物细胞中可操作的启动子(“grna盒”)。将编码cms1蛋白的一种或多种基因克隆到载体,从而使其操作性地连接在植物细胞中可操作的启动子(“cms1盒”)。将grna盒和cms1盒克隆到单个载体中,或者克隆到适合植物转化的两个独立载体中,然后将该载体或这些载体转化至农杆菌(agrobacterium)细胞中。将这些细胞与适合转化的玉米组织接触。在与农杆菌细胞孵育后,在适合再生完整植物的组织培养基上培养玉米细胞。玉米植物由与农杆菌细胞接触的细胞再生,所述农杆菌细胞具有包含cms1盒和grna盒的载体。在玉米植物再生后,收获植物组织并且从组织提取dna。酌情进行t7ei试验、pcr试验和/或测序试验,以确定dna序列中的改变是否发生在所需基因组位置。或者,使用颗粒轰击将cms1盒和grna盒引入玉米细胞。将包含cms1盒和grna盒的单个载体,或分别包含cms1盒和grna盒的独立载体被覆在金珠或钛珠上,然后用它们轰击适合再生的玉米组织。轰击后,将玉米组织转移至用于再生玉米植物的组织培养基。在玉米植物再生后,收获植物组织并且从组织提取dna。酌情进行t7ei试验、pcr试验和/或测序试验,以确定dna序列中的改变是否发生在所需基因组位置。实施例6–cms1核酸酶和其它v型核酸酶的计算分析crispr核酸酶通常按类型分类,例如被分类为ii型核酸酶的cas9核酸酶和被分类为v型的cpf1核酸酶(koonin等.(2017)curropinmicrobiol37:67-78)。对于cms1核酸酶蛋白序列的研究表明,部分基于ruvc结构域的存在和hnh结构域的缺失,应将这些核酸酶归为v型核酸酶。迄今,科学文献中已经描述了多组v型核酸酶,包括cpf1(也称为va型),c2c1(也称为vb型),c2c3(也称为vc型),casy(也称为vd型)和casx(也称为ve型)。v型氨基酸序列的muscle比对通常无法正确比对这些蛋白质中ruvci,ruvcii和ruvciii域的催化残基。鉴于这些结构域在蛋白质功能中的核心重要性,必须对这些残基进行正确的比对。针对本文和美国专利号9,896,696中公开的cms1核酸酶(seqidno:10、11、20-23、30-69和154-156),三种cpf1核酸酶(seqidno:147-149),c2c1核酸酶(seqidno:150和157-164),c2c3核酸酶(seqidno:152和166-168)(shmakov等.(2016)molcell60:385-397),casx核酸酶(seqidno:151和165)和casy核酸酶(seqidno:153和169-173)(burstein等(2017)nature542:237-241)的氨基酸序列鉴定ruvci,ruvcii和ruvciii催化残基。表6显示各结构域的催化残基以及紧接催化残基之前的三个氨基酸和紧接催化残基之后的三个氨基酸。表6:v型核酸酶的ruvci、ruvcii和ruvciii催化残基的汇总序列比对和其它计算分析未显示casy.5或casy.6的清楚ruvciii催化残基。unk64和unk69中假定的催化残基分别是赖氨酸和天冬酰胺,而其它的均在该位置具有不变的天冬氨酸残基。对于其余的v型核酸酶,将表6中汇总的ruvc催化残基用于产生ruvc锚着的序列比对,其中催化残基用作固定锚点,使用先前描述的方法进行(begemann等.(2017)biorxivdoi:10.1101/192799)。所得的ruvc锚着氨基酸比对用于构建系统发育树,如图1所示。如图所示,cms1核酸酶与其它v型核酸酶位于不同的进化枝上。此外,在此分析中,至少有三个独立组的cms1核酸酶簇集在一起(在表6中,这些组分别包含microcms1至unk78cms1,sulfcms1至unk71cms1和unk40cms1至unk76cms1),表明在该较大分组中至少存在三组cms1核酸酶。对于包括smcms1(seqidno:10),sulfcms1(seqidno:11)和unk40cms1(seqidno:68)的核酸酶的组,这三个组分别标记为“sm型”,“sulf型”和“unk40型”。研究了cms1核酸酶的氨基酸序列比对,以鉴定这些核酸酶之间保守性良好的蛋白质序列内的基序。观察到,cms1核酸酶存在于图1所示的系统发育树上的三个良好分离的进化枝中。这些进化枝中的一个包括smcms1(seqidno:10),另一个包括sulfcms1(seqidno:11),另一个包括unk40cms1(seqidno:68)。因此,将每个进化枝的成员分开排列,以鉴定这些核酸酶中的部分和/或完全保守的氨基酸基序。对于smcms1样核酸酶的比对,seqidno:10、20、23、30、32-34、37-39、41、43、44、46-60、67、154-156、208-211、222、223、225、228、229、232、234、236、237、241、243、245、248、250、251、253和254是比对上的。对于sulfcms1样核酸酶的比对,seqidno:11、21、22、31、35、36、40、42、45、61-66、69、227、230、231、235、239、240、242、244和247是比对上的。对于unk40样核酸酶的比对,seqidno:68、224、226、233、238、246、249和252是比对上的。使用muscle进行这些比对,并手动检查所得的比对,以鉴定在所有比对的蛋白质中显示出保守性的区域。从smcms1样核酸酶的比对中鉴定出seqidno:177-186所示的氨基酸基序;从sulfcms1样核酸酶的比对中鉴定出seqidno:288-289和187-201所示的氨基酸基序;从unk40cms1样核酸酶的比对中鉴定出seqidno:290-296所示的氨基酸基序。weblogos使用序列比对创建,并以图形示于图2-4(分别为smcms1样,sulfcms1样和unk40cms1样序列基序;weblogo.berkeley.edu)以及示意图中,其显示这些保守基序在smcms1、sulfcms1和unk40cms1蛋白序列上的位置。如本文所述用cms1核酸酶编辑植物基因组表明,与v型核酸酶的一些其它描述一致,许多(即使不是全部)cms1核酸酶也可接近tttn或ttnpam位点。进行计算分析以鉴定blast命中位点,其对应于编码cms1核酸酶的重叠群上存在的crispr间隔子。使用crisprfinder在线(crispr.i2bc.paris-saclay.fr/server/)鉴定crispr间隔子;这些间隔子被用作针对基因组的blast搜索的种子。针对来自编码auxcms1,unk15cms1,unk19cms1和unk40cms1(分别为seqidno:297-300)的重叠群的crispr间隔子鉴定出blast命中位点。这些blast命中示于seqidno:301-307,并连同在blast命中之前和之后的核苷酸汇总于表7。表7:来自编码的cms1重叠群的crispr间隔子的blast命中汇总表7中,带下划线的碱基表示crispr间隔子blast命中。值得注意的是,此表中blast命中5'紧接碱基均显示tta或ttc,并且此表中11个blast命中的7个显示ttta或tttc。这些数据,结合上述植物基因组编辑数据,有力地表明,至少这些cms1核酸酶(以及可能的大多数或所有cms1核酸酶)可以触及至少ttmpam位点下游的靶位点,并且tttmpam位点优先。值得注意的是,这些类型的经计算鉴定的pam位点不仅考虑了核酸酶pam的要求,还考虑了crispr间隔子获取机制的要求,因此,核酸酶可能比能够触及比本文中经计算鉴定的那些pam位点更多的pam位点。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1