用于基因组编辑的新颖CRISPR-CAS系统的制作方法

文档序号:26003651发布日期:2021-07-23 21:21阅读:255来源:国知局
相关申请的交叉引用本申请要求2018年12月14日提交的美国临时申请号62/779989、2019年1月18日提交的美国临时申请号62/794427、2019年3月15日提交的美国临时申请号62/819409、2019年5月24日提交的美国临时申请号62/852788和2019年10月10日提交的美国临时申请号62/913492的利益,所有这些申请全部以其整体通过引用并入本文。以电子方式递交的序列表的引用序列表的正式副本作为ascii格式的序列表(其文件名称是rts21920b_sequencelisting_st25.txt,创建于2019年12月9日,并且大小为714,386字节)经由efs-web以电子方式提交,并且与说明书同时提交。所述ascii格式的文档中包含的序列表是说明书的一部分,并且通过引用以全部内容结合在此。本公开内容涉及分子生物学领域,尤其涉及新颖rna指导的cas内切核酸酶系统的组合物,以及用于编辑或修饰细胞基因组的组合物和方法。
背景技术
::重组dna技术使得在靶基因组位置处插入dna序列和/或修饰特定内源染色体序列成为可能。已经使用了采用位点特异性重组系统的位点特异性整合技术以及其他类型的重组技术来在各种生物体中产生目的基因的靶向插入。基因组编辑技术如设计师的锌指核酸酶(zfn)、转录激活子样效应子核酸酶(talen)或归巢大范围核酸酶可以用于产生靶向基因组干扰,但这些系统倾向于具有低特异性并且使用需要对每个靶位点进行重新设计的经设计的核酸酶,这使得它们的制备成本高昂且耗时。已经鉴定了利用古细菌或细菌适应性免疫系统的较新技术,称为crispr(成簇的规律间隔的短回文重复序列(clusteredregularlyinterspacedshorrpalindromicrepeats)),其包含效应子蛋白的不同结构域,所述效应子蛋白包含多种活性(dna识别、结合和任选择地切割)。尽管已经鉴定和表征了这些系统中的一些,但仍需要鉴定新颖效应子和系统,以及证明在真核生物,特别是动植物中的活性,以实现内源和先前引入的异源多核苷酸的编辑。本文描述了新颖cas内切核酸酶“cas-α”、示例性蛋白质以及其使用方法和组合物。技术实现要素:本文公开了新颖cas内切核酸酶的组合物及其使用方法。这些新颖cas-α类别内切核酸酶能够在指导多核苷酸的指导下以pam依赖性方式靶向和切割双链dna,如在原核生物(大肠杆菌)和三个不同的真核生物界(植物、动物和真菌)中所证明的。该在一方面,提供了合成组合物,所述合成组合物包含crispr-cas内切核酸酶,所述内切核酸酶包含至少一个锌指样结构域、至少一个桥-螺旋样结构域、三分裂ruvc结构域(包含不连续的ruvc-i结构域、ruvc-ii结构域和ruvc-iii结构域),任选地包含异源多核苷酸。在任何方面,在任何组合物或方法中,提供已优化用于在真核细胞,特别是植物细胞、真菌细胞或动物细胞中表达的至少一种组分。在一方面,提供了合成组合物,所述合成组合物包含编码源自生物体的crispr-cas效应子蛋白的多核苷酸,所述生物体选自由以下组成的组:acidibacillussulfuroxidans、酸土脂环酸芽抱杆菌(alicyclobacillusacidoterrestris)、丹麦解硫胺素芽孢杆菌(aneurinibacillusdanicus)、古生菌、芽孢杆菌属(bacillus)、蜡样芽孢杆菌(bacilluscereus)、巨大芽孢杆菌(bacillusmegaterium)、假蕈状芽孢杆菌(bacilluspseudomycoides)、芽孢杆菌属物种(bacillussp.)、苏云金芽孢杆菌(bacillusthuringiensis)、东京芽孢杆菌(bacillustoyonensis)、维德曼芽孢杆菌(bacilluswiedmannii)、平常拟杆菌(bacteroidesplebeius)、奶牛(bostaurus)、中孢短芽孢杆菌(brevibacilluscentrosporus)、细菌candidatusaureabacteria、细菌candidatuslevybacteria、古细菌candidatusmicrarchaeota、居瘤胃解纤维素菌(cellulosilyticumruminicola)、艰难梭菌(clostridioidesdifficile)、肉毒梭菌(clostridiumbotulinum)、谲诈梭菌(clostridiumfallax)、希拉诺梭菌(clostridiumhiranonis)、clostridiumihumii、诺维氏梭菌(clostridiumnovyi)、类腐败梭菌(clostridiumparaputrificum)、巴氏梭菌(clostridiumpasteurianum)、产气英膜梭菌(clostridiumperfringens)、梭菌属物种(clostridiumsp.)、破伤风杆菌(clostridiumtetani)、胃梭菌(clostridiumventriculi)、食果糖脱硫弧菌(desulfovibriofructosivorans)、dorealongicatena、惰性真杆菌(eubacteriumsiraeum)、嗜热黄杆菌(flavobacteriumthermophilum)、原鸡(gallusgallus)、丁型肝炎病毒、智人(homosapiens)、人β疱疹病毒5、hydrogenivirgasp.、小家鼠(musmusculus)、热葡萄糖苷地杆菌(parageobacillusthermoglucosidasius)、peptoclostridiumsp.、考拉杆菌属物种(phascolarctobacteriumsp.)、人体普氏菌(prevotellacopri)、匈牙利瘤胃梭菌(ruminiclostridiumhungatei)、白色瘤胃球菌(ruminococcusalbus)、瘤胃球菌属物种(ruminococcussp.)、酿酒酵母(saccharomycescerevisiae)、猿猴病毒40、马铃薯(solanumtuberosum)、sulfurihydrogenibiumazorense、棕榈互营单胞菌(syntrophomonaspalmitatica)、烟草蚀刻病毒、和玉蜀黍(zeamays);和异源多核苷酸。在一方面,提供了合成组合物,所述包含:真核细胞,异源crispr-cas效应子;其中所述异源crispr-cas效应子蛋白包含少于800、790至800、少于790、780至790、少于780、780至770、少于770、770至760、少于760、760至750、少于750、750至740、少于740、740至730、少于730、730至720、少于720、720至710、少于710、710至700、或甚至少于700个氨基酸,例如少于700、少于790、少于780、少于750、少于700、少于650、少于600、少于550、少于500、少于450、少于400、少于350、或甚至少于350个氨基酸。在一方面,提供了合成组合物,所述合成组合物包含crispr-cas内切核酸酶,其中当与seqidno:17进行比对时相对于seqidno:17的氨基酸位置编号,所述crispr-cas内切核酸酶包含以下中的至少一种、至少两种、至少三种、至少四种、至少五种、至少六种或七种:位置337处的甘氨酸(g)、位置341处的甘氨酸(g)、位置430处的谷氨酸(e)、位置432处的亮氨酸(l)、位置487处的半胱氨酸(c)、位置490处的半胱氨酸(c)、位置507处的半胱氨酸(c)和/或位置512处的半胱氨酸(c)或组氨酸(h)。在一方面,提供了合成组合物,所述合成组合物包含crispr-cas内切核酸酶,其中所述crispr-cas内切核酸酶包含以下基序中的一个、两个或三个:gxxxg、exl和/或一个或多个cxn(c,h)(其中n=一个或多个氨基酸)。在一方面所述合成组合物包含crispr-cas内切核酸酶,其中所述crispr-cas内切核酸酶包含一个或多个锌指基序。一方面,提供了一种合成的组合物,其包含与选自由seqidno:17、18、19、20、32、33、34、35、36、37、38、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370和371组成的组的序列的至少250、250至300、至少300、300至350、至少350、350至400、至少400或大于400个连续氨基酸具有至少50%、50%至55%、至少55%、55%至60%、至少60%、60%至65%、至少65%、65%至70%、至少70%、70%至75%、至少75%、75%至80%、至少80%、80%至85%、至少85%、85%至90%、至少90%、90%至95%、至少95%、95%至96%、至少96%、96%至97%、至少97%、97%至98%、至少98%、98%至99%、至少99%、99%至100%或100%序列同一性的crispr-cas效应子蛋白。在一个方面,提供了一种合成的组合物,其包含多核苷酸,所述多核苷酸编码与选自由seqidno:17、18、19、20、32、33、34、35、36、37、38、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370和371组成的组的多肽的至少250、250至500、至少500、500至600、至少600、600至700、至少700、700至750、至少750、750至800、至少800、800至850、至少850、850至900、至少900、900至950、至少950、950至1000、至少1000或大于1000个氨基酸具有至少50%、50%至55%、至少55%、55%至60%、至少60%、60%至65%、至少65%、65%至70%、至少70%、70%至75%、至少75%、75%至80%、至少80%、80%至85%、至少85%、85%至90%、至少90%、90%至95%、至少95%、95%至96%、至少96%、96%至97%、至少97%、97%至98%、至少98%、98%至99%、至少99%、99%至100%或100%序列同一性的crispr-cas效应子蛋白。在一个方面,提供了一种合成的组合物,其包含编码crispr-cas效应子蛋白的多核苷酸,所述多核苷酸能够与跟选自由seqidno:57、58、59、64、65、66、67、68、73、74、75、76、77、102、103、104、105、177、178、179、180、181、182、185、186、187、188、189、190、191、192、193、194、195、196、197、198、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、230、231、232、233、234、238、240、241、245、246、247、248、252和253组成的组的rna序列的至少1、2、3、4、5、6、7,8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、2728、29、30或大于30个连续核苷酸具有至少50%、50%至55%、至少55%、55%至60%、至少60%、60%至65%、至少65%、65%至70%、至少70%、70%至75%、至少75%、75%至80%、至少80%、80%至85%、至少85%、85%至90%、至少90%、90%至95%、至少95%、95%至96%、至少96%、96%至97%、至少97%、97%至98%、至少98%、98%至99%、至少99%、99%至100%或100%序列同一性的多核苷酸杂交。本文的任何方法或组合物可进一步包含异源多核苷酸。所述异源多核苷酸可选自由以下组成的组:非编码调控表达元件,例如启动子、内含子、增强子或终止子;供体多核苷酸;多核苷酸修饰模板,与细胞中的多核苷酸序列相比,任选地包含至少一个核苷酸修饰;转基因;指导rna;指导dna;指导rna-dna杂交体;内切核酸酶;核定位信号;和细胞转运肽。一方面,提供了使用本文公开的任何组合物的方法。在一些实施例中,提供了使cas-α内切核酸酶结合多核苷酸靶序列(例如在细胞基因组中或在体外)的方法。在一些实施例中,cas-α内切核酸酶与指导多核苷酸例如指导rna形成复合物。在一些实施例中,复合物识别、结合靶序列处或附近的多核苷酸并任选地在靶序列处或附近的多核苷酸中产生切口(一条链)或断裂(两条链)。在一些实施例中,切口或断裂通过非同源末端连接(nhej)修复。在一些实施例中,切口或断裂通过同源定向修复(hdr)或通过同源重组(hr)利用多核苷酸修饰模板或供体dna分子修复。在任何原核或真核细胞中,本文所述的新颖cas内切核酸酶能够在包含合适的pam的靶多核苷酸中或附近产生双链断裂,并且由指导多核苷酸引导至所述靶多核苷酸。在一些情况下,细胞是植物细胞或动物细胞或真菌细胞。在一些情况下,植物细胞选自由以下组成的组:玉蜀黍、大豆、棉花、小麦、卡诺拉油菜、油菜、高粱、稻、黑麦、大麦、粟、燕麦、甘蔗、草坪草、柳枝稷、苜蓿、向日葵、烟草、花生、马铃薯、烟草、拟南芥属、红花和西红柿。附图和序列表的说明根据下列的详细描述和附图以及序列表,可以更全面地理解本公开,所述详细描述和附图以及序列表形成本申请的一部分。图1a-1d描绘了完整的crispr-cas系统,包括捕获和干扰所需的所有组分。这些包括共同编码捕获和整合间隔子所需的所有蛋白(cas1和cas2)和新颖蛋白(包含dna切割结构域cas-alpha(α),位于与crispr阵列相邻的操纵子样结构中)的基因。此外,基因座中还编码了与cas4具有同源性的蛋白质的基因。图1a描绘了cas-α1、cas-α3和cas-α4系统的基因座架构。图1b描绘了cas-α2系统的基因座架构。图1c描绘了cas-α6系统的基因座架构。图1d描绘了cas-α5、7、8、9、10和11系统的基因座架构。图2显示了cas-α蛋白的详细结构检查,描绘了与之前描述的2类内切核酸酶的明显差异。显示了保守残基。参与dna切割的关键残基用星号表示。数字对应于cas-α1蛋白。图3概述了使用表达cas-α内切核酸酶的细胞裂解物检测双链dna靶识别和切割的方法。图4a-4e显示了在核苷酸位置21处cas-α1内切核酸酶对靶多核苷酸的切割。图4a显示了cas-α1阴性对照的数据,图4b显示了使用整个(完整)crispr基因座的cas-α1的数据,所述crispr基因座的crispr阵列被修饰以将切割引导至靶多核苷酸,图4c显示了当使用t7启动子增强表达时cas-α1完整基因座+的数据,图4d显示了当使用t7启动子增强表达时cas-α1最小基因座的数据,并且图4e显示了当用t7启动子增强表达时,没有cas-α1但有crispr基因座其余部分情况下的反应的数据。图5a-5b描绘了确定pam识别相对于间隔子识别的方向的示意图,一个或多个指导rna被设计为与t2靶的有义或反义链碱基配对。如果设计为与有义链碱基配对的一个或多个指导rna导致pam偏好的恢复并产生切割信号,则前间隔子位于反义链上,并且pam识别发生在相对于它的3′(图5a)。相反,如果设计为与反义链碱基配对的一个或多个指导rna产生pam偏好和切割信号,则前间隔子位于有义链上,并且pam识别发生在它的5′方向(图5b)。图6a-6e显示了在核苷酸位置24处cas-α4内切核酸酶对靶多核苷酸的切割。图6a显示了cas-α4阴性对照的数据。图6b显示了cas-α4加上t2-1sgrna的数据。图6c显示了cas-α4加上t2-2sgrna的数据。图6d显示了cas-α4加上t2-1crrna/tracrrna的数据。图6e显示了cas-α4加上t2-2crrna/tracrrna的数据。图7a-7k显示了从多种细菌和古细菌生物体中鉴定的代表性cas-α基因座、内切核酸酶、蛋白质、指导rna组分和其他序列,包括:古细菌candidatusmicrarchaeota(图7a、7b、7e)、细菌candidatusaureabacteria(图7c)、各种未培养细菌(图7d、7f)、热葡萄糖苷地杆菌(图7g)、acidibacillussulfuroxidans(图7h)、瘤胃球菌属物种(图7i)、棕榈互营单胞菌(图7j)、和诺维氏梭菌(图7k)。图8a-8k显示了代表性cas-α蛋白的不同结构特征,其中蛋白序列以粗体显示。每个氨基酸残基下方的非粗体字符表示可能的二级结构特征,c代表非结构元件或螺旋,e代表β链,h代表α螺旋。锌指结构域用虚线框表示,星号表示参与锌离子结合的关键氨基酸残基。分裂的ruvc结构域的ruvc亚结构域由实线框描绘。桥螺旋由点划线框描绘。卷曲螺旋用实线圆柱体表示。实心加号表示ruvc结构域基序的特征性关键催化残基。图8a描绘了来自古细菌candidatusmicrarchaeota的cas-α1(seqidno:17),图8b描绘了来自古细菌candidatusmicrarchaeota的cas-α2(seqidno:18),图8c描绘了来自细菌candidatusaureabacteria的cas-α3(seqidno:19),图8d描绘了来自未培养的细菌的cas-α4(seqidno:20),图8e描绘了来自古细菌candidatusmicrarchaeota的cas-α5(seqidno:32),图8f描绘了来自未培养的细菌的cas-α6(seqidno:33),图8g描绘了来自热葡萄糖苷地杆菌的cas-α7(seqidno:34),图8h描绘了来自acidibacillussulfuroxidans的cas-α8(seqidno:35),图8i描绘了来自瘤胃球菌属物种的cas-α9(seqidno:36),图8j描绘了来自棕榈互营单胞菌的cas-α10(seqidno:37),其具有三个锌指结构域的独特基序,图8k描绘了来自诺维氏梭菌的cas-α11(seqidno:38)。包含cas-α11的生物体的全基因组测序表明,cas-α基因座是该生物体中唯一的crispr系统。图9a描绘了cas-α蛋白亚基如何与靶dna和指导rna的杂交双链相互作用。图9b是cas-α4的c末端半部分的三维模型,显示了被鉴定为cas蛋白共有的螺旋发夹/桥螺旋区、ruvc结构域和锌指基序的区域。图10a-10d描绘了用于在真核细胞中使用cas-α内切核酸酶的示例表达构建体。图10a是人类细胞cas-αdna表达构建体的实例。图10b是植物细胞cas-αdna表达构建体的实例。图10c是酵母(酿酒酵母)cas-αdna表达构建体的实例。图10d是诱导型酵母(酿酒酵母)cas-αdna表达构建体的实例。图11a-11d描绘了真核优化的cas-α指导rna表达构建体的实例。图11a是人类细胞单指导rna(sgrna)dna表达构建体的实例。图11b是植物细胞单指导rna(sgrna)dna表达构建体的实例。图11c是酵母(酿酒酵母)单指导rna(sgrna)dna表达构建体的实例。图11d是植物细胞单指导rna(sgrna)dna表达构建体的另一个实例。图12描绘了用于在大肠杆菌中重组表达和纯化cas-α内切核酸酶的工程化基因的实例。图13显示了植物细胞中来自cas-α内切核酸酶活性的双链断裂修复突变。描绘的是由玉蜀黍中的cas-α4产生的突变。wt参考是seqidno:120,突变1是seqidno:121,突变2是seqidno:122,突变3是seqidno:123,并且突变4是seqidno:124。图14a-14b显示了动物细胞中来自cas-α内切核酸酶活性的双链断裂修复突变。图14a描绘了由cas-α4rnp电穿孔产生的插入缺失突变(vegfa靶2突变1-5作为seqidno:127-131给出,与wt参考seqidno:126相比;vegfa靶3(突变作为seqidno:133给出,与wt参考seqidno:132相比))。图14b描绘了由cas-α4和sgrnadna表达盒脂质转染产生的插入缺失突变vegfa靶3(突变1和2作为seqidno:134-135给出,与wt参考seqidno:132相比)。图15a-15d显示cas-α4双链dna靶切割。图15a显示了含有紧接pam的3’(5′-tttr-3’,其中r代表a或gbp)的指导rna靶(约20bp)的超螺旋(sc)质粒dna完全转化为线性形式(fll),从而说明dsdna断裂的形成。此外,线性dna的切割导致预期大小的dna片段,进一步验证了cas-α4介导的dsdna断裂形成。图15b显示cas-α4需要pam和指导rna来切割dsdna靶。图15c显示cas-α4产生5′交错的突出dna切割位点,其中切割主要发生在相对于pam序列的位置20-24bp附近。图15d显示cas-α4的反式作用ssdna酶活性,其仅在指导rna存在下被dsdna激活。图16a-16t显示除cas-α5外的所有cas-α内切核酸酶的双链dna靶切割活性。图16a是阴性对照(-iptg)。图16b是阴性对照(+iptg)。图16c显示了在前间隔子位置21处cas-α2(-iptg)对双链dna靶的切割。图16d显示了在前间隔子位置21处cas-α2(+iptg)对双链dna靶的切割。图16e显示了cas-α3(-iptg)没有切割双链dna靶。图16f显示了在前间隔子位置21处cas-α3(+iptg)对双链dna靶的切割。图16g显示了cas-α5(-iptg)没有切割双链dna靶。图16h显示了cas-α5(-iptg)没有切割双链dna靶。图16i显示了cas-α6(-iptg)对双链dna靶的切割。图16j显示了在前间隔子位置24处cas-α6(+iptg)对双链dna靶的切割。图16k显示了在前间隔子位置24处cas-α7(-iptg)对双链dna靶的切割。图16l显示了在前间隔子位置24处cas-α7(+iptg)对双链dna靶的切割。图16m显示了cas-α8(-iptg)没有切割双链dna靶。图16n显示了在前间隔子位置24处cas-α8(+iptg)对双链dna靶的切割。图16o显示了在前间隔子位置24处cas-α9(-iptg)对双链dna靶的切割。图16p显示了在前间隔子位置24处cas-α9(+iptg)对双链dna靶的切割。图16q显示了在前间隔子位置24处cas-α10(-iptg)对双链dna靶的切割。图16r显示了在前间隔子位置24处cas-α10(+iptg)对双链dna靶的切割。图16s显示了在前间隔子位置24处cas-α11(-iptg)对双链dna靶的切割。图16t显示了在前间隔子位置24处cas-α11(+iptg)对双链dna靶的切割。图17a描绘了一种评估大肠杆菌细胞中cas-α双链dna靶切割的方法。图17b-17e显示大肠杆菌中的双链dna靶切割。“无靶”实验提供了在没有双链dna靶切割的情况下转化效率的基线。“靶”实验,pam+t2,用和不用iptg(0.5mm)进行,以检测在不同cas-α内切核酸酶和指导rna表达条件下的靶切割。图17b显示了cas-α2和cas-α3的结果。图17c显示了cas-α6和cas-α7的结果。图17d显示了cas-α8和cas-α9的结果。图17e显示了cas-α10和cas-α11的结果。图18a-18b描绘了植物细胞中来自cas-α内切核酸酶活性的双链断裂修复突变,用于将cas-α10dna表达构建体递送到玉蜀黍未成熟胚中的粒子枪实验。图18a显示在nptii靶位点的核酸酶切割位点处或附近产生的靶向缺失的恢复。图18b显示在ms26靶位点的核酸酶切割位点处或附近产生的靶向缺失的恢复。图19a描绘了真核细胞酿酒酵母中同源定向修复的实验设计。外源提供的dna修复模板(双链)在cas-α10靶位点侧翼具有同源性,用于在cas-α10诱导的双链断裂(dsb)后在ade2基因中引入一个或两个过早终止密码子(取决于dna修复结果)。为了避免靶向修复模板,它还包含针对cas-α10的pam区域中的t到a变化。图19b显示当修复模板和cas-α10和sgrna表达构建体都被转化时,指示ade2基因破坏的红色细胞表型被恢复,并且由cas-α内切核酸酶产生双链断裂并用模板(hdr)修复。图19c显示cas-α10ade2基因靶位点的测序结果,确认在3个独立的红色菌落(标记为“1”、“2”和“3”)中引入了至少一个终止密码子”)。终止密码子被引入反义框架。seqidno:170来自酿酒酵母的参考dna序列作为seqidno:170给出,修复模板dna为seqidno:171,红色菌落1修复结果1为seqidno:172,红色菌落1修复结果2是seqidno:173,红色菌落2修复结果1是seqidno:174,红色菌落3修复结果1是seqidno:175,并且红色菌落3修复结果2是seqidno:176。图20显示了一些cas-α直系同源物之间的系统发育关系。鉴定了三个超级组(i、ii和iii)。组i包括进化枝1(candidatearchaea和aureabacteria(通常在基因座中编码的cas1、cas2、cas4))。组ii包括进化枝2(产水菌门(sulfurihydrogenibium和hydrogenivirga属)和deltaproteobacteria(脱硫弧菌属),进化枝3(candidatearchaea(通常在基因座中编码的cas1、cas2和cas4)),进化枝4(拟杆菌门(普氏菌属和拟杆菌属)),进化枝5(candidatelevybacterium)和进化枝6(梭菌(dorea、瘤胃球菌属、梭菌属、clostridioides、peptocolstridium、cellulosilyticym、真杆菌属、互营单胞菌属))。组iii包括进化枝7(杆菌(芽孢杆菌属、acidibacillus、解硫胺素芽孢杆菌属(aneurinibacillus)、短芽孢杆菌属、副土芽孢杆菌属(parageobacillus)、脂环酸芽孢杆菌属(alicyclobacillus)),进化枝8(阴性丹毒菌属(negativicutes)(考拉杆菌属(phascolarctobacterium)))和进化枝9(黄杆菌纲(flavobacteriia)(黄杆菌属(flavobacterium)))。菱形符号代表本文所述的cas-α1-11内切核酸酶。图21a说明转座酶(tnp)相关的cas-αcrispr系统。在这两种情况下,tnp样蛋白都在cas-α内切核酸酶和crispr阵列的上游编码。图21b显示了cas-α内切核酸酶和指导rna与其靶位点以及tnp样蛋白复合,所述tnp样蛋白被构成为在cas-α双链dna靶位点内或附近整合dna有效载荷(带虚线的圆圈)。这些序列描述以及所附序列表遵守如37c.f.r.§§1.821和1.825所列出的管理专利申请中核苷酸和氨基酸序列公开内容的规则。这些序列描述包含如在37c.f.r.§§1.821和1.825中所定义的用于氨基酸的三字母代码,将其通过引用结合在此。seqidno:1是来自古细菌candidatusmicrarchaeota的cas-α1基因座prt序列中编码的cas1。seqidno:2是来自古细菌candidatusmicrarchaeota的cas-α2基因座prt序列中编码的casl。seqidno:3是来自细菌candidatusaureabacteria的cas-α3基因座prt序列中编码的cas1。seqidno:4是来自未培养的古细菌的cas-α4基因座prt序列中编码的cas1。seqidno:5是来自古细菌candidatusmicrarchaeota的cas-α1基因座prt序列中编码的cas2。seqidno:6是来自古细菌candidatusmicrarchaeota的cas-α2基因座prt序列中编码的cas2。seqidno:7是来自细菌candidatusaureabacteria的cas-α3基因座prt序列中编码的cas2。seqidno:8是来自未培养的古细菌的cas-α4基因座prt序列中编码的cas2。seqidno:9是来自古细菌candidatusmicrarchaeota的cas-α1基因座prt序列中编码的cas4。seqidno:10是来自古细菌candidatusmicrarchaeota的cas-α2基因座prt序列中编码的cas4。seqidno:11是来自细菌candidatusaureabacteria的cas-α3基因座prt序列中编码的cas4。seqidno:12是来自未培养的古细菌的cas-α4基因座prt序列中编码的cas4。seqidno:13是来自古细菌candidatusmicrarchaeota的cas-α1内切核酸酶基因dna序列。seqidno:14是来自古细菌candidatusmicrarchaeota的cas-α2内切核酸酶基因dna序列。seqidno:15是来自细菌candidatusaureabacteria的cas-α3内切核酸酶基因dna序列。seqidno:16是来自未培养的古细菌的cas-α4内切核酸酶基因dna序列。seqidno:17是来自古细菌candidatusmictratrchaeota的cas-α1内切核酸酶(cas14b4)prt序列。seqidno:18是来自古细菌candidatusmicrarchaeota的cas-α2内切核酸酶prt序列。seqidno:19是来自细菌candidatusaureabacteria的cas-α3内切核酸酶prt序列。seqidno:20是来自未培养的古细菌的cas-α4内切核酸酶(cas14a1)prt序列。seqidno:21是来自古细菌candidatusmicrarchaeota的cas-α1基因座dna序列。seqidno:22是来自古细菌candidatusmicrarchaeota的cas-α2基因座dna序列。seqidno:23是来自细菌candidatusaureabacteria的cas-α3基因座dna序列。seqidno:24是来自未培养的古细菌的cas-α4基因座dna序列。seqidno:25是来自古细菌candidatusmicrarchaeota的cas-α5内切核酸酶基因dna序列。seqidno:26是来自未培养的古细菌的cas-α6内切核酸酶基因dna序列。seqidno:27是来自热葡萄糖苷地杆菌(parageobacillusthermoglucosidasius)的cas-α7内切核酸酶基因dna序列。seqidno:28是来自acidibacillussulfuroxidans的cas-α8内切核酸酶基因dna序列。seqidno:29是来自瘤胃球菌属物种的cas-α9内切核酸酶基因dna序列。seqidno:30是来自棕榈互营单胞菌的cas-α10内切核酸酶基因dna序列。seqidno:31是来自诺维氏梭菌的cas-α11内切核酸酶基因dna序列。seqidno:32是来自古细菌candidatusmicrarchaeota的cas-α5内切核酸酶prt序列。seqidno:33是来自未培养的古细菌的cas-α6内切核酸酶prt序列。seqidno:34是来自热葡萄糖苷地杆菌的cas-α7内切核酸酶prt序列。seqidno:35是来自acidibacillussulfuroxidans的cas-α8内切核酸酶prt序列。seqidno:36是来自瘤胃球菌属物种的cas-α9内切核酸酶prt序列。seqidno:37是来自棕榈互营单胞菌的cas-α10内切核酸酶prt序列。seqidno:38是来自诺维氏梭菌的cas-α11内切核酸酶prt序列。seqidno:39是来自古细菌candidatusmicrarchaeota的cas-α5基因座dna序列。seqidno:40是来自未培养的古细菌的cas-α6基因座dna序列。seqidno:41是来自热葡萄糖苷地杆菌的cas-α7基因座dna序列。seqidno:42是来自acidibacillussulfuroxidans的cas-α8基因座dna序列。seqidno:43是来自瘤胃球菌属物种的cas-α9基因座dna序列。seqidno:44是来自棕榈互营单胞菌的cas-α10基因座dna序列。seqidno:45是来自诺维氏梭菌的cas-α11基因座dna序列。seqidno:46是来自古细菌candidatusmicrarchaeota的cas-α1重复共有dna序列。seqidno:47是来自古细菌candidatusmicrarchaeota的cas-α2重复共有dna序列。seqidno:48是来自细菌candidatusaureabacteria的cas-α3重复共有dna序列。seqidno:49是来自未培养的古细菌的cas-α4重复共有dna序列。seqidno:50是来自古细菌candidatusmicrarchaeota的cas-α5重复共有dna序列。seqidno:51是来自未培养的古细菌的cas-α6重复共有dna序列。seqidno:52是来自热葡萄糖苷地杆菌的cas-α7重复共有dna序列。seqidno:53是来自acidibacillussulfuroxidans的cas-α8重复共有dna序列。seqidno:54是来自瘤胃球菌属物种的cas-α9重复共有dna序列。seqidno:55是来自棕榈互营单胞菌的cas-α10重复共有dna序列。seqidno:56是来自诺维氏梭菌的cas-α11重复共有dna序列。seqidno:57是来自人工的cas-α1crrna(其中n代表任何核苷酸)rna序列。seqidno:58是来自人工的cas-α2crrna(其中n代表任何核苷酸)rna序列。seqidno:59是来自人工的cas-α4crrna(其中n代表任何核苷酸)rna序列。seqidno:60是来自古细菌candidatusmicrarchaeota的cas-α1tracrrna版本1rna序列。seqidno:61是来自古细菌candidatusmicrarchaeota的cas-α1tracrrna版本2rna序列。seqidno:62是来自古细菌candidatusmicrarchaeota的cas-α1tracrrna版本3rna序列。seqidno:63是来自古细菌candidatusmicrarchaeota的cas-α1tracrrna版本4rna序列。seqidno:64是来自古细菌candidatusmicrarchaeota的cas-α2tracrrna版本1rna序列。seqidno:65是来自古细菌candidatusmicrarchaeota的cas-α2tracrrna版本2rna序列。seqidno:66是来自古细菌candidatusmicrarchaeota的cas-α2tracrrna版本3rna序列。seqidno:67是来自古细菌candidatusmicrarchaeota的cas-α2tracrrna版本4rna序列。seqidno:68是来自未培养的古细菌的cas-α4tracrrna版本1rna序列。seqidno:69是来自人工的cas-α1sgrna版本1rna序列。seqidno:70是来自人工的cas-α1sgrna版本2rna序列。seqidno:71是来自人工的cas-α1sgrna版本3rna序列。seqidno:72是来自人工的cas-α1sgrna版本4rna序列。seqidno:73是来自人工的cas-α2sgrna版本1rna序列。seqidno:74是来自人工的cas-α2sgrna版本2rna序列。seqidno:75是来自人工的cas-α2sgrna版本3rna序列。seqidno:76是来自人工的cas-α2sgrna版本4rna序列。seqidno:77是来自人工的cas-α4sgrna版本1rna序列。seqidno:78是来自人工的t2间隔子dna序列。seqidno:79是完整的cas-α1基因座,其经工程改造以靶向来自人工的t2dna序列。seqidno:80是最小化的cas-α1基因座,其经工程改造以靶向来自人工的t2dna序列。seqidno:81是来自人工的10x组氨酸标签prt序列。seqidno:82是来自人工的6x组氨酸标签prt序列。seqidno:83是来自人工的麦芽糖结合蛋白标签prt序列。seqidno:84是来自烟草蚀刻病毒的烟草蚀刻病毒切割位点prt序列。seqidno:85是来自人工的a1寡核苷酸dna序列。seqidno:86是来自人工的a2寡核苷酸dna序列。seqidno:87是来自人工的r0寡核苷酸dna序列。seqidno:88是来自人工的c0寡核苷酸dna序列。seqidno:89是来自人工的f1寡核苷酸dna序列。seqidno:90是来自人工的r1寡核苷酸dna序列。seqidno:91是来自人工的f1寡核苷酸dna序列的桥扩增部分。seqidno:92是来自人工的r1寡核苷酸dna序列的桥扩增部分。seqidno:93是来自人工的f2寡核苷酸dna序列。seqidno:94是来自人工的r2寡核苷酸dna序列。seqidno:95是来自人工的c1寡核苷酸dna序列。seqidno:96是来自人工的靶dna序列的位置21处切割和衔接子连接产生的序列。seqidno:97是来自人工的seqidno.96dna序列的衔接子部分。seqidno:98是来自人工的seqidno.96dna序列的靶部分。seqidno:99是来自人工的pamdna序列的5’的序列。seqidno:100是来自人工的固定双链dna靶dna序列。seqidno:101是来自人工的t2靶序列dna序列。seqidno:102是来自人工的cas-α4t2-1sgrnarna序列。seqidno:103是来自人工的cas-α4t2-2sgrnarna序列。seqidno:104是来自人工的cas-α4t2-1crrnarna序列。seqidno:105是来自人工的cas-α4t2-2crrnarna序列。seqidno:106是来自马铃薯的st-ls1内含子2dna序列。seqidno:107是来自猿猴病毒40的sv40nlsprt序列。seqidno:108是来自小家鼠的nucnlsprt序列。seqidno:109是来自玉蜀黍的玉蜀黍ubi启动子dna序列。seqidno:110是来自原鸡的鸡β-肌动蛋白启动子dna序列。seqidno:111是来自人β-疱疹病毒5的cmv增强子dna序列。seqidno:112是来自玉蜀黍的玉蜀黍ubi5引物非翻译区dna序列。seqidno:113是来自玉蜀黍的玉蜀黍ubi内含子1dna序列。seqidno:114是来自人工的杂交内含子dna序列。seqidno:115是来自玉蜀黍的玉蜀黍u6聚合酶iii启动子dna序列。seqidno:116是来自智人的人u6聚合酶iii启动子dna序列。seqidno:117是来自人工的strepii标签prt序列。seqidno:118是来自牛的bgh聚(a)终止子dna序列。seqidno:119是来自马铃薯的马铃薯蛋白酶抑制剂ii(pinii)终止子dna序列。seqidno:120是来自玉蜀黍的玉蜀黍wt参考(无叶舌靶2和3)dna序列。seqidno:121是来自玉蜀黍的突变1(无叶舌靶2和3-dnaexp.)dna序列。seqidno:122是来自玉蜀黍的突变2(无叶舌靶2和3-dnaexp.)dna序列。seqidno:123是来自玉蜀黍的突变3(无叶舌靶2和3-dnaexp.)dna序列。seqidno:124是来自玉蜀黍的突变4(无叶舌靶2和3-dnaexp.)dna序列。seqidno:125是来自玉蜀黍的突变5(无叶舌靶2和3-dnaexp.)dna序列。seqidno:126是来自智人的hek293wt参考(vegfa靶2)dna序列。seqidno:127是来自智人的突变1(vegfa靶2-rnp)dna序列。seqidno:128是来自智人的突变2(vegfa靶2-rnp)dna序列。seqidno:129是来自智人的突变3(vegfa靶2-rnp)dna序列。seqidno:130是来自智人的突变4(vegfa靶2-rnp)dna序列。seqidno:131是来自智人的突变5(vegfa靶2-rnp)dna序列。seqidno:132是来自智人的hek293wt参考(vegfa靶3)dna序列。seqidno:133是来自智人的突变1(vegfa靶3-rnp)dna序列。seqidno:134是来自智人的突变1(vegfa靶3-dnaexp)dna序列。seqidno:135是来自智人的突变2(vegfa靶3-dnaexp)dna序列。seqidno:136是来自酿酒酵母的rox3启动子dna序列。seqidno:137是来自酿酒酵母的gal启动子dna序列。seqidno:138是来自人工的hh核酶(其中n代表与核酶3′的6个核苷酸互补的核苷酸)dna序列。seqidno:139是来自丁型肝炎病毒的hdv核酶dna序列。seqidno:140是来自酿酒酵母的snr52启动子dna序列。seqidno:141是来自酿酒酵母的sup4终止子dna序列。seqidno:142是来自人工的图15c顶部序列dna序列。seqidno:143是来自人工的图15c底部序列dna序列。seqidno:144是来自玉蜀黍的图18a参考dna序列。seqidno:145是来自玉蜀黍的突变1dna序列。seqidno:146是来自玉蜀黍的突变2dna序列。seqidno:147是来自玉蜀黍的突变3dna序列。seqidno:148是来自玉蜀黍的突变4dna序列。seqidno:149是来自玉蜀黍的突变5dna序列。seqidno:150是来自玉蜀黍的突变6dna序列。seqidno:151是来自玉蜀黍的突变7dna序列。seqidno:152是来自玉蜀黍的突变8dna序列。seqidno:153是来自玉蜀黍的突变9dna序列。seqidno:154是来自玉蜀黍的突变10dna序列。seqidno:155是来自玉蜀黍的突变11dna序列。seqidno:156是来自玉蜀黍的突变12dna序列。seqidno:157是来自玉蜀黍的突变13dna序列。seqidno:158是来自玉蜀黍的突变14dna序列。seqidno:159是来自玉蜀黍的突变15dna序列。seqidno:160是来自玉蜀黍的突变16dna序列。seqidno:161是来自玉蜀黍的突变17dna序列。seqidno:162是来自玉蜀黍的突变18dna序列。seqidno:163是来自玉蜀黍的突变19dna序列。seqidno:164是来自玉蜀黍的图18b参考dna序列。seqidno:165是来自玉蜀黍的突变1dna序列。seqidno:166是来自玉蜀黍的突变2dna序列。seqidno:167是来自玉蜀黍的突变3dna序列。seqidno:168是来自玉蜀黍的突变4dna序列。seqidno:169是来自玉蜀黍的突变5dna序列。seqidno:170是来自酿酒酵母的图19c参考dna序列。seqidno:171是来自人工的修复模板dna序列。seqidno:172是来自酿酒酵母的修复结果1dna序列。seqidno:173是来自酿酒酵母的修复结果2dna序列。seqidno:174是来自酿酒酵母的修复结果1dna序列。seqidno:175是来自酿酒酵母的修复结果1dna序列。seqidno:176是来自酿酒酵母的修复结果2dna序列。seqidno:177是来自人工的cas-α3crrna(其中n代表任何核苷酸)rna序列。seqidno:178是来自人工的cas-α5crrna(其中n代表任何核苷酸)rna序列。seqidno:179是来自人工的cas-α6crrna(其中n代表任何核苷酸)rna序列。seqidno:180是来自人工的cas-α7crrna(其中n代表任何核苷酸)rna序列。seqidno:181是来自人工的cas-α8crrna(其中n代表任何核苷酸)rna序列。seqidno:182是来自人工的cas-α9crrna(其中n代表任何核苷酸)rna序列。seqidno:183是来自人工的cas-α10crrna(其中n代表任何核苷酸)rna序列。seqidno:184是来自人工的cas-α11crrna(其中n代表任何核苷酸)rna序列。seqidno:185是来自古细菌candidatusmicrarchaeota的cas-α2tracrrna版本5rna序列。seqidno:186是来自古细菌candidatusmicrarchaeota的cas-α2tracrrna版本6rna序列。seqidno:187是来自古细菌candidatusmicrarchaeota的cas-α2tracrrna版本7rna序列。seqidno:188是来自未培养的古细菌的cas-α6tracrrna版本1rna序列。seqidno:189是来自未培养的古细菌的cas-α6tracrrna版本2rna序列。seqidno:190是来自未培养的古细菌的cas-α6tracrrna版本3rna序列。seqidno:191是来自未培养的古细菌的cas-α6tracrrna版本4rna序列。seqidno:192是来自热葡萄糖苷地杆菌的cas-α7tracrrna版本1rna序列。seqidno:193是来自热葡萄糖苷地杆菌的cas-α7tracrrna版本2rna序列。seqidno:194是来自acidibacillussulfuroxidans的cas-α8tracrrna版本1rna序列。seqidno:195是来自acidibacillussulfuroxidans的cas-α8tracrrna版本2rna序列。seqidno:196是来自acidibacillussulfuroxidans的cas-α8tracrrna版本3rna序列。seqidno:197是来自瘤胃球菌属物种的cas-α9tracrrna版本1rna序列。seqidno:198是来自瘤胃球菌属物种的cas-α9tracrrna版本2rna序列。seqidno:199是来自棕榈互营单胞菌的cas-α10tracrrna版本1rna序列。seqidno:200是来自棕榈互营单胞菌的cas-α10tracrrna版本2rna序列。seqidno:201是来自棕榈互营单胞菌的cas-α10tracrrna版本3rna序列。seqidno:202是来自棕榈互营单胞菌的cas-α10tracrrna版本4rna序列。seqidno:203是来自棕榈互营单胞菌的cas-α10tracrrna版本5rna序列。seqidno:204是来自诺维氏梭菌的cas-α11tracrrna版本1rna序列。seqidno:205是来自诺维氏梭菌的cas-α11tracrrna版本2rna序列。seqidno:206是来自诺维氏梭菌的cas-α11tracrrna版本3rna序列。seqidno:207是来自诺维氏梭菌的cas-α11tracrrna版本4rna序列。seqidno:208是来自人工的cas-α2sgrna版本5rna序列。seqidno:209是来自人工的cas-α2sgrna版本6rna序列。seqidno:210是来自人工的cas-α2sgrna版本7rna序列。seqidno:211是来自人工的cas-α6sgrna版本1rna序列。seqidno:212是来自人工的cas-α6sgrna版本2rna序列。seqidno:213是来自人工的cas-α6sgrna版本3rna序列。seqidno:214是来自人工的cas-α6sgrna版本4rna序列。seqidno:215是来自人工的cas-α7sgrna版本1rna序列。seqidno:216是来自人工的cas-α7sgrna版本2rna序列。seqidno:217是来自人工的cas-α7sgrna版本3rna序列。seqidno:218是来自人工的cas-α8sgrna版本1rna序列。seqidno:219是来自人工的cas-α8sgrna版本2rna序列。seqidno:220是来自人工的cas-α8sgrna版本3rna序列。seqidno:221是来自人工的cas-α8sgrna版本4rna序列。seqidno:222是来自人工的cas-α9sgrna版本1rna序列。seqidno:223是来自人工的cas-α9sgrna版本2rna序列。seqidno:224是来自人工的cas-α9sgrna版本3rna序列。seqidno:225是来自人工的cas-α10sgrna版本1rna序列。seqidno:226是来自人工的cas-α10sgrna版本2rna序列。seqidno:227是来自人工的cas-α10sgrna版本3rna序列。seqidno:228是来自人工的cas-α10sgrna版本4rna序列。seqidno:229是来自人工的cas-α10sgrna版本5rna序列。seqidno:230是来自人工的cas-α11sgrna版本1rna序列。seqidno:231是来自人工的cas-α11sgrna版本2rna序列。seqidno:232是来自人工的cas-α11sgrna版本3rna序列。seqidno:233是来自人工的cas-α11sgrna版本4rna序列。seqidno:234是来自人工的cas-α11sgrna版本5rna序列。seqidno:235是来自人工的cas-α4玉蜀黍密码子优化的基因dna序列。seqidno:236是来自人工的cas-α10玉蜀黍密码子优化的基因dna序列。seqidno:237是来自人工的cas-α10酿酒酵母密码子优化的基因dna序列。seqidno:238是来自人工的cas-α4sgrna骨架rna序列。seqidno:239是来自人工的cas-α10sgrna骨架rna序列。seqidno:240是来自人工的cas-α4无叶舌2sgrna靶序列rna序列。seqidno:241是来自人工的cas-α4无叶舌3sgrna靶序列rna序列。seqidno:242是来自人工的cas-α10nptiisgrna靶序列rna序列。seqidno:243是来自人工的cas-α10ms26sgrna靶序列rna序列。seqidno:244是来自人工的cas-α10ade2sgrna靶序列rna序列。seqidno:245是来自人工的cas-α4vegfa2sgrna靶序列rna序列。seqidno:246是来自人工的cas-α4vegfa3sgrna靶序列rna序列。seqidno:247是来自人工的cas-α4sgrna靶向无叶舌2rna序列。seqidno:248是来自人工的cas-α4sgrna靶向无叶舌3rna序列。seqidno:249是来自人工的cas-α10sgrna靶向nptiirna序列。seqidno:250是来自人工的cas-α10sgrna靶向ms26rna序列。seqidno:251是来自人工的cas-α10sgrna靶向ade2rna序列。seqidno:252是来自人工的cas-α4sgrna靶向vegfa2rna序列。seqidno:253是来自人工的cas-α4sgrna靶向vegfa3rna序列。seqidno:254是来自艰难梭菌的cas-α12内切核酸酶prt序列。seqidno:255是来自类腐败梭菌的cas-α13内切核酸酶prt序列。seqidno:256是来自诺维氏梭菌的cas-α14内切核酸酶prt序列。seqidno:257是来自白色瘤胃球菌的cas-α15内切核酸酶prt序列。seqidno:258是来自希拉诺梭菌(clostridiumhiranonis)的cas-α16内切核酸酶prt序列。seqidno:259是来自clostriidiumihumnii的cas-α17内切核酸酶prt序列。seqidno:260是来自居瘤胃解纤维素菌(cellulosilyticumruminicicola)的cas-α18内切核酸酶prt序列。seqidno:261是来自惰性真杆菌的cas-α19内切核酸酶prt序列。seqidno:262是来自肉毒杆菌的cas-α20内切核酸酶prt序列。seqidno:263是来自肉毒杆菌的cas-α21内切核酸酶prt序列。seqidno:264是来自匈牙利瘤胃梭菌的cas-α22内切核酸酶prt序列。seqidno:265是来自食果糖脱硫弧菌的cas-α23内切核酸酶prt序列。seqidno:266是来自丰收芽孢杆菌的cas-α24内切核酸酶prt序列。seqidno:267是来自类腐败梭菌的cas-α25内切核酸酶prt序列。seqidno:268是来自胃梭菌的cas-α26内切核酸酶prt序列。seqidno:269是来自瘤胃球菌属物种的cas-α27内切核酸酶prt序列。seqidno:270是来自瘤胃球菌属物种的cas-α28内切核酸酶prt序列。seqidno:271是来自peptoclostridium属物种的cas-α29内切核酸酶prt序列。seqidno:272是来自芽孢杆菌属物种的cas-α30内切核酸酶prt序列。seqidno:273是来自艰难梭菌的cas-α31内切核酸酶prt序列。seqidno:274是来自艰难梭菌的cas-α32内切核酸酶prt序列。seqidno:275是来自未培养的古细菌的cas-α33内切核酸酶prt序列。seqidno:276是来自未培养的古细菌的cas-α34内切核酸酶prt序列。seqidno:277是来自未培养的古细菌的cas-α35内切核酸酶prt序列。seqidno:278是来自未培养的古细菌的cas-α36内切核酸酶prt序列。seqidno:279是来自未培养的古细菌的cas-α37内切核酸酶prt序列。seqidno:280是来自未培养的古细菌的cas-α38内切核酸酶prt序列。seqidno:281是来自未培养的古细菌的cas-α39内切核酸酶prt序列。seqidno:282是来自未培养的古细菌的cas-α40内切核酸酶prt序列。seqidno:283是来自未培养的古细菌的cas-α41内切核酸酶prt序列。seqidno:284是来自艰难梭菌的cas-α42内切核酸酶prt序列。seqidno:285是来自食果糖脱硫弧菌的cas-α43内切核酸酶prt序列。seqidno:286是来自肉毒杆菌的cas-α44内切核酸酶prt序列。seqidno:287是来自艰难梭菌的cas-α45内切核酸酶prt序列。seqidno:288是来自艰难梭菌的cas-α46内切核酸酶prt序列。seqidno:289是来自艰难梭菌的cas-α47内切核酸酶prt序列。seqidno:290是来自艰难梭菌的cas-α48内切核酸酶prt序列。seqidno:291是来自艰难梭菌的cas-α49内切核酸酶prt序列。seqidno:292是来自艰难梭菌的cas-α50内切核酸酶prt序列。seqidno:293是来自艰难梭菌的cas-α51内切核酸酶prt序列。seqidno:294是来自艰难梭菌的cas-α52内切核酸酶prt序列。seqidno:295是来自艰难梭菌的cas-α53内切核酸酶prt序列。seqidno:296是来自艰难梭菌的cas-α54内切核酸酶prt序列。seqidno:297是来自希拉诺梭菌的cas-α55内切核酸酶prt序列。seqidno:298是来自艰难梭菌的cas-α56内切核酸酶prt序列。seqidno:299是来自丹麦解硫胺素芽孢杆菌的cas-α57内切核酸酶prt序列。seqidno:300是在来自热葡萄糖苷地杆菌的cas-α58内切核酸酶prt序列。seqidno:301是来自中孢短芽孢杆菌的cas-α59内切核酸酶prt序列。seqidno:302是来自巴氏梭菌的cas-α60内切核酸酶prt序列。seqidno:303是来自惰性真杆菌的cas-α61内切核酸酶prt序列。seqidno:304是来自丰收芽孢杆菌的cas-α62内切核酸酶prt序列。seqidno:305是来自瘤胃球菌属物种的cas-α63内切核酸酶prt序列。seqidno:306是来自瘤胃球菌属物种的cas-α64内切核酸酶prt序列。seqidno:307是来自产气英膜梭菌的cas-α65内切核酸酶prt序列。seqidno:308是来自苏云金芽孢杆菌的cas-α66内切核酸酶prt序列。seqidno:309是来自产气英膜梭菌的cas-α67内切核酸酶prt序列。seqidno:310是来自蜡状芽孢杆菌的cas-α68内切核酸酶prt序列。seqidno:311是来自丰收芽孢杆菌的cas-α69内切核酸酶prt序列。seqidno:312是来自丰收芽孢杆菌的cas-α70内切核酸酶prt序列。seqidno:313是来自丰收芽孢杆菌的cas-α71内切核酸酶prt序列。seqidno:314是来自酸土脂环酸芽抱杆菌的cas-α72内切核酸酶prt序列。seqidno:315是来自破伤风杆菌的cas-α73内切核酸酶prt序列。seqidno:316是来自candidatuslevybacteria的cas-α74内切核酸酶prt序列。seqidno:317是来自蜡状芽孢杆菌的cas-α75内切核酸酶prt序列。seqidno:318是来自蜡状芽孢杆菌的cas-α76内切核酸酶prt序列。seqidno:319是来自蜡状芽孢杆菌的cas-α77内切核酸酶prt序列。seqidno:320是来自类腐败梭菌的cas-α78内切核酸酶prt序列。seqidno:321是来自蜡状芽孢杆菌的cas-α79内切核酸酶prt序列。seqidno:322是来自苏云金芽孢杆菌的cas-α80内切核酸酶prt序列。seqidno:323是来自蜡状芽孢杆菌的cas-α81内切核酸酶prt序列。seqidno:324是来自丰收芽孢杆菌的cas-α82内切核酸酶prt序列。seqidno:325是来自蜡状芽孢杆菌的cas-α83内切核酸酶prt序列。seqidno:326是来自丰收芽孢杆菌的cas-α84内切核酸酶prt序列。seqidno:327是来自越南芽孢杆菌的cas-α85内切核酸酶prt序列。seqidno:328是来自蜡状芽孢杆菌的cas-α86内切核酸酶prt序列。seqidno:329是来自蜡状芽孢杆菌的cas-α87内切核酸酶prt序列。seqidno:330是来自丰收芽孢杆菌的cas-α88内切核酸酶prt序列。seqidno:331是来自蜡状芽孢杆菌的cas-α89内切核酸酶prt序列。seqidno:332是来自丰收芽孢杆菌的cas-α90内切核酸酶prt序列。seqidno:333是来自苏云金芽孢杆菌的cas-α91内切核酸酶prt序列。seqidno:334是来自蜡状芽孢杆菌的cas-α92内切核酸酶prt序列。seqidno:335是来自蜡状芽孢杆菌的cas-α93内切核酸酶prt序列。seqidno:336是来自蜡状芽孢杆菌的cas-α94内切核酸酶prt序列。seqidno:337是来自苏云金芽孢杆菌的cas-α95内切核酸酶prt序列。seqidno:338是来自芽孢杆菌属物种的cas-α96内切核酸酶prt序列。seqidno:339是来自蜡状芽孢杆菌的cas-α97内切核酸酶prt序列。seqidno:340是来自蜡状芽孢杆菌的cas-α98内切核酸酶prt序列。seqidno:341是来自苏云金芽孢杆菌的cas-α99内切核酸酶prt序列。seqidno:342是来自芽孢杆菌属物种的cas-α100内切核酸酶prt序列。seqidno:343是来自人体普氏菌的cas-α101内切核酸酶prt序列。seqidno:344是来自人体普氏菌的cas-α102内切核酸酶prt序列。seqidno:345是来自艰难梭菌的cas-α103内切核酸酶prt序列。seqidno:346是来自艰难梭菌的cas-α104内切核酸酶prt序列。seqidno:347是来自艰难梭菌的cas-α105内切核酸酶prt序列。seqidno:348是来自艰难梭菌的cas-α106内切核酸酶prt序列。seqidno:349是来自艰难梭菌的cas-α107内切核酸酶prt序列。seqidno:350是来自艰难梭菌的cas-α108内切核酸酶prt序列。seqidno:351是来自艰难梭菌的cas-α109内切核酸酶prt序列。seqidno:352是来自嗜热黄杆菌的cas-α110内切核酸酶prt序列。seqidno:353是来自考拉杆菌属物种的cas-α111内切核酸酶prt序列。seqidno:354是来自假蕈状芽孢杆菌的cas-α112内切核酸酶prt序列。seqidno:355是来自平常拟杆菌的cas-α113内切核酸酶prt序列。seqidno:356是来自肉毒杆菌的cas-α114内切核酸酶prt序列。seqidno:357是来自假蕈状芽孢杆菌的cas-α115内切核酸酶prt序列。seqidno:358是来自假蕈状芽孢杆菌的cas-α116内切核酸酶prt序列。seqidno:359是来自肉毒杆菌的cas-α117内切核酸酶prt序列。seqidno:360是来自肉毒杆菌的cas-α118内切核酸酶prt序列。seqidno:361是来自肉毒杆菌的cas-α119内切核酸酶prt序列。seqidno:362是来自hydrogenivlrgasp的cas-α120内切核酸酶prt序列。seqidno:363是来自巨大芽孢杆菌的cas-α121内切核酸酶prt序列。seqidno:364是来自谲诈梭菌的cas-α122内切核酸酶prt序列。seqidno:365是来自平常拟杆菌的cas-α123内切核酸酶prt序列。seqidno:366是来自苏云金芽孢杆菌的cas-α124内切核酸酶prt序列。seqidno:367是来自蜡状芽孢杆菌的cas-α125内切核酸酶prt序列。seqidno:368是来自梭菌属物种的cas-α126内切核酸酶prt序列。seqidno:369是来自平常拟杆菌的cas-α127内切核酸酶prt序列。seqidno:370是来自dorealongicatena的cas-α128内切核酸酶prt序列。seqidno:371是来自sulfurihydrogenibiumazorense的cas-α129内切核酸酶prt序列。具体实施方式提供了组合物和方法,用于新颖crispr效应子系统和包含此类系统的元件,包括但不限于新颖指导多核苷酸/内切核酸酶复合物、指导多核苷酸、指导rna元件、cas蛋白和内切核酸酶,以及包含内切核酸酶功能(结构域)的蛋白。还提供了用于直接递送内切核酸酶、切割就绪复合物、指导rna和指导rna/cas内切核酸酶复合物的组合物和方法。本公开进一步包括用于细胞基因组中的靶序列的基因组修饰、用于基因编辑、以及用于将目的多核苷酸插入细胞基因组中的组合物和方法。除非另有指定,否则权利要求书和说明书中使用的术语如下文阐述定义。必须注意,除非上下文另外清楚地指明,否则如本说明书及所附权利要求书中所用,单数形式“一个/一种(a/an)”和“该(the)”包括复数指示物。定义如本文所用,“核酸”意指多核苷酸,并且包括脱氧核糖核苷酸或核糖核苷酸碱基的单链或双链聚合物。核酸还可以包括片段和修饰的核苷酸。因此,术语“多核苷酸”、“核酸序列”、“核苷酸序列”和“核酸片段”可互换使用以表示单链或双链的rna和/或dna和/或rna-dna的聚合物,任选地包含合成的、非天然的或改变的核苷酸碱基。核苷酸(通常以其5′-单磷酸酯形式发现)以其单字母名称表示如下:“a”表示腺苷或脱氧腺苷(分别用于rna或dna),“c”表示胞苷或脱氧胞苷,“g”表示鸟苷或脱氧鸟苷,“u”表示尿苷,“t”表示脱氧胸苷,“r”表示嘌呤(a或g),“y”表示嘧啶(c或t),“k”表示g或t,“h”表示a或c或t,“i”表示肌苷,并且“n”表示任何核苷酸。术语“基因组”当应用于原核或真核细胞或生物体细胞时不仅涵盖在细胞核内发现的染色体dna,还涵盖在细胞的亚细胞组分(例如线粒体、或质体)内发现的细胞器dna。“可读框”缩写为orf。术语“选择性杂交”包括参考在严格的杂交条件下将核酸序列杂交到特定的核酸靶序列上,相比其杂交到非靶核酸序列和基本上排除非靶核酸,该杂交达到可检测地更大程度(例如,至少为背景值的2倍)。选择性杂交序列典型地彼此具有约至少80%序列同一性、或90%序列同一性、高达并且包括100%序列同一性(即,完全互补)。术语“严格条件”或“严格杂交条件”包括提及在体外杂交测定中探针将与其靶序列选择性杂交的条件。严格条件是序列依赖性的,并且在不同情况下将有所不同。通过控制杂交条件和/或洗涤条件的严格性,可以鉴定与探针100%互补的靶序列(同源探测)。可替代地,可以调节严格条件以允许序列中的一些错配,以便检测到更低程度的相似性(异源探测)。通常,探针长度为小于约1000个核苷酸,任选地是长度小于500个核苷酸。通常,严格条件将是以下条件:在ph7.0至8.3下盐浓度为小于约1.5mna离子、通常约0.01至1.0mna离子浓度(或其他一种或多种盐),并且对于短探针(例如,10至50个核苷酸)为至少约30℃,并且对于长探针(例如,超过50个核苷酸)为至少约60℃。添加去稳定剂如甲酰胺也可以实现严格条件。示例性低严格条件包括在37℃下用30%至35%甲酰胺、1mnacl、1%sds(十二烷基硫酸钠)的缓冲溶液杂交,并且在50℃至55℃下在1x至2xssc(20xssc=3.0mnacl/0.3m柠檬酸三钠)中洗涤。示例性中严格条件包括在37℃下在40%至45%甲酰胺、1mnacl、1%sds中杂交,并且在55℃至60℃下在0.5x至1xssc中洗涤。示例性高严格条件包括在37℃下在50%甲酰胺、1mnacl、1%sds中杂交,并且在60℃至65℃下在0.1xssc中洗涤。“同源”意指dna序列是相似的。例如,在供体dna上发现的“与基因组区域同源的区域”是与细胞或生物基因组中给定的“基因组序列”具有类似序列的dna的区域。同源的区域可以具有足以促进在切割的靶点处的同源重组的任何长度。例如,同源的区域的长度可以包括至少5-10、5-15、5-20、5-25、5-30、5-35、5-40、5-45、5-50、5-55、5-60、5-65、5-70、5-75、5-80、5-85、5-90、5-95、5-100、5-200、5-300、5-400、5-500、5-600、5-700、5-800、5-900、5-1000、5-1100、5-1200、5-1300、5-1400、5-1500、5-1600、5-1700、5-1800、5-1900、5-2000、5-2100、5-2200、5-2300、5-2400、5-2500、5-2600、5-2700、5-2800、5-2900、5-3000、5-3100或更多个碱基,这样使得同源的区域具有足够的同源性以与相应的基因组区域进行同源重组。“足够的同源性”表示两个多核苷酸序列具有足够的结构相似性以充当同源重组反应的底物。结构相似性包括每个多核苷酸片段的总长度以及多核苷酸的序列相似性。序列相似性可以通过在序列的整个长度上的百分比序列同一性和/或通过包含局部相似性(例如具有100%序列同一性的连续核苷酸)的保守区域以及在序列长度的一部分上的百分比序列同一性来描述。如本文使用的,“基因组区域”是存在于靶位点任一例上的细胞的基因组中的染色体的区段,或者可替代地,还包含靶位点的一部分。基因组区域可以包含至少5-10、5-15、5-20、5-25、5-30、5-35、5-40、5-45、5-50、5-55、5-60、5-65、5-70、5-75、5-80、5-85、5-90、5-95、5-100、5-200、5-300、5-400、5-500、5-600、5-700、5-800、5-900、5-1000、5-1100、5-1200、5-1300、5-1400、5-1500、5-1600、5-1700、5-1800、5-1900、5-2000、5-2100、5-2200、5-2300、5-2400、5-2500、5-2600、5-2700、5-2800。5-2900、5-3000、5-3100或更多个碱基,这样使得基因组区域具有足够的同源性以与相应的同源区域进行同源重组。如本文所用,“同源重组(hr)”包括在同源的位点处的两个dna分子之间的dna片段的交换。同源重组的频率受多个因素影响。不同的生物体相对于同源重组的量和同源与非同源重组的相对比例而变化。通常,同源区域的长度会影响同源重组事件的频率:同源区域越长,频率越高。为观察同源重组而需要的同源区的长度也是随物种而异的。在许多情况下,已经利用了至少5kb的同源性,但已经观察到具有仅25-50bp的同源性的同源重组。参见,例如,singer等人,(1982)cell[细胞]31:25-33;shen和huang,(1986)genetics[遗传学]112:441-57;watt等人,(1985)proc.natl.acad.sci.usa[美国国家科学院院刊]82:4768-72,sugawara和haber,(1992)molcellbiol[分子细胞生物学]12:563-75,rubnitz和subramani,(1984)molcellbiol[分子细胞生物学]4:2253-8;ayares等人,(1986)proc.natl.acad.sci.usa[美国国家科学院院刊]83:5199-203;liskay等人,(1987)genetics[遗传学]115:161-7。在核酸的或多肽的序列的上下文中,“序列同一性”或“同一性”是指在两个序列中的核酸碱基或氨基酸残基当在指定的比较窗口上比对最大对应度时是相同的。“序列同一性的百分比”是指通过在比较窗口上比较两个最佳比对的序列所确定的值,其中与参考序列(其不包含添加或缺失)比较两个序列的最佳比对时,该多核苷酸或多肽序列在比较窗口中的部分可以包含添加或缺失(即空位)。通过以下方式计算所述百分比:确定在两个序列中出现相同核酸碱基或氨基酸残基的位置的数目以产生匹配位置的数目,将匹配位置的数目除以比较窗口中的位置的总数目,然后将所述结果乘以100以产生序列同一性的百分比。百分比序列同一性的有用实例包括但不限于50%、55%、60%、65%、70%、75%、80%、85%、90%或95%,或从50%至100%的任何百分比。可以使用本文描述的任何程序确定这些同一性。序列比对和百分比同一性或相似性计算可以使用设计用于检测同源序列的多种比较方法来确定,这些方法包括但不限于lasergene生物信息计算包(dnastar公司(dnastarinc.),麦迪逊(madison),威斯康星州)的megaligntm程序。在此申请的上下文中,应当理解的是,在使用序列分析软件来分析的情况下,分析的结果将基于参考的程序的“默认值”,除非另有说明。如本文所用,“默认值”将意指当第一次初始化时,最初加载该软件的任何一组值或参数。“比对的clustalv方法”对应于标记为clustalv的比对方法(由以下描述:higgins和sharp,(1989)cabios5:151-153;higgins等人,(1992)computapplbiosci[生物科学中的计算机应用]8:189-191),并且发现于lasergene生物信息计算包(dnastar公司(dnastarinc.),麦迪逊(madison),威斯康星州)的megaligntm程序中。对于多重比对,默认值对应于空位罚分(gappenalty)=10和空位长度罚分(gaplengthpenalty)=10。使用clustal方法进行逐对比对和蛋白质序列的百分比同一性计算的默认参数为ktuple=1、空位罚分=3、窗口(window)=5、以及存储的对角线(diagonalssaved)=5。对于核酸,这些参数是ktuple=2、空位罚分=5、窗口=4、并且存储的对角线=4。使用clustalv程序比对序列后,可能通过查看同一程序中的“序列距离”表来获得“百分比同一性”。“clustalw比对方法”对应于标记为clustalw的比对方法(由以下描述:higgins和sharp,(1989)cabios5:151-153;higgins等人,(1992)computapplbiosci[生物科学中的计算机应用]8:189-191),并且发现于lasergene生物信息计算包(dnastar公司(dnastarinc.),麦迪逊(madison),威斯康星州)的megaligntmv6.1程序中。用于多重比对的默认参数(空位罚分=10、空位长度罚分=0.2、延迟发散序列(delaydivergenseqs,%)=30、dna转换权重=0.5、蛋白质权重矩阵=gonnet系列、dna权重矩阵=iub)。使用clustalw程序比对序列后,可能通过查看同一程序中的“序列距离”表来获得“百分比同一性”。除非另有说明,本文中提供的序列同一性/相似性值是指使用gap版本10(gcg,accelrys公司,圣迭戈,加利福尼亚州)使用以下参数获得的值:核苷酸序列的%同一性和%相似性采用50的空位产生罚分权重和3的空位长度延伸罚分权重以及nwsgapdna.cmp评分矩阵;氨基酸序列的%同一性和%相似性采用8的空位产生罚分权重和2的空位长度延伸罚分权重以及blosum62评分矩阵(henikoff和henikoff,(1989)proc.natl.acad.sci.usa[美国科学院院报]89:10915)。gap使用needleman和wunsch(1970)jmolbiol[分子生物学杂志]48:443-53的算法来找到使匹配数目最大化并且使空位数目最小化的两个完整序列的比对。gap考虑所有可能的比对和空位位置,并且使用匹配碱基的单位中的空位产生罚分和空位延伸罚分,产生具有最大数目的匹配碱基和最少的空位的比对。“blast”是美国国家生物技术信息中心(nationalcenterforbiotechnologyinformation,ncbi)提供的用于寻找生物序列之间的相似性的区域的搜索算法。该程序将核苷酸或者蛋白质序列与序列数据库比较,并计算匹配的统计显著性以鉴定出与查询序列具有足够的相似性的序列,这样使得相似性不会被预测为已经随机发生。blast报告鉴定的序列和它们与查询序列的局部比对。本领域技术人员很清楚地理解,许多水平的序列同一性在鉴定来自其他物种的多肽或修饰的天然的或合成的多肽中是有用的,其中这样的多肽具有相同或相似的功能或活性。百分比同一性的有用实例包括但不限于50%、55%、60%、65%、70%、75%、80%、85%、90%或95%,或从50%至100%的任何百分比。实际上,在描述本公开中,从50%至100%的任何氨基酸同一性会是有用的,如51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%。多核苷酸和多肽序列、其变体、以及这些序列的结构关系,可用术语“同源性”、“同源的”、“基本上相同的”、“基本上类似的”、以及“基本上相应”来描述,这些术语在本文中可互换使用。这些是指多肽或核酸序列,其中在一个或多个氨基酸或核苷酸碱基上的变化不影响分子的功能,如介导基因表达或产生某种表型的能力。这些术语还指相对于初始未修饰的核酸,基本上不改变所得核酸的功能特性的核酸序列的一个或多个修饰。这些修饰包括在核酸片段中一个或多个核苷酸的缺失、取代、和/或插入。所涵盖的基本上类似的核酸序列可以通过这些核酸序列与本文所示例的序列杂交,或与本文所公开的并且与任何本文所公开的核酸序列在功能上等价的核苷酸序列的任何部分杂交(在中严格条件下,例如0.5xssc,0.1%sds,60℃)的能力来定义。可以调整严格条件以筛选适度类似的片段(如来自远缘生物体的同源序列),至高度类似的片段(如复制来自近缘生物体的功能性酶的基因)。杂交后的洗涤决定了严格条件。“厘摩”(cm)或“图距单位”是两个多核苷酸序列、连锁的基因、标记、靶位点、基因座或它们的任何配对之间的距离,其中1%的减数分裂的产物是重组的。因此,一厘摩与等于两个连锁的基因、标记、靶位点、基因座或它们的任何配对之间的1%平均重组频率的距离相当。“分离的”或“纯化的”核酸分子、多核苷酸、多肽或蛋白质或其生物活性部分是基本上或本质上不含与如在其天然存在的环境中发现的多核苷酸或蛋白质正常相伴或相互作用的组分。因此,分离的或纯化的多核苷酸或多肽或蛋白质当通过重组技术产生时基本上不含其他细胞物质或培养基,或者当化学合成时基本上不含化学前体或其他化学品。最佳地,“分离的”多核苷酸不含在从其衍生出该多核苷酸的生物体的基因组dna中天然地在该多核苷酸侧翼的序列(即,位于该多核苷酸的5′和3′末端的序列)(最佳地是蛋白质编码序列)。例如,在不同实施例中,该分离的多核苷酸可以包含小于约5kb、4kb、3kb、2kb、1kb、0.5kb或0.1kb的核苷酸序列,在该多核苷酸从其衍生出的细胞的基因组dna中,该核苷酸序列天然地位于该多核苷酸的侧翼。分离的多核苷酸可从它们天然存在于其中的细胞纯化。技术人员已知的常规核酸纯化方法可用于获得分离的多核苷酸。该术语也涵盖重组多核苷酸和化学合成的多核苷酸。术语“片段”是指核苷酸或氨基酸的连续集合。在一个实施例中,片段是2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或大于20个连续核苷酸。在一个实施例中,片段是2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或大于20个连续氨基酸。片段可能表现出或可能不会表现出在所述片段的长度上共享一定百分比同一性的序列的功能。术语“在功能上等价的片段”和“功能等价片段”在本文中可互换使用。这些术语是指分离的核酸片段或多肽的显示出与其衍生自的较长序列相同的活性或功能的一部分或子序列。在一个实例中,无论片段是否编码活性蛋白,该片段都保留改变基因表达或产生某种表型的能力。例如,片段可用于设计基因以在修饰的植物中产生所希望的表型。可以将基因设计为用于在抑制中使用,无论该基因是否编码活性酶,通过以相对于植物启动子序列的有义或反义取向连接其核酸片段。“基因”包括表达功能性分子(诸如但不限于,特定蛋白)的核酸片段,包括在编码序列之前(5′非编码序列)和之后(3′非编码序列)的调节序列。“天然基因”是指在其天然内源位置中发现的具有其自身调节序列的基因。术语“内源”是指天然存在于细胞或生物体中的序列或其他分子。在一个方面,通常在细胞的基因组中发现内源多核苷酸;也就是说,不是异源的。“等位基因”是占据染色体上给定基因座的基因的若干种替代形式中的一种。当染色体上在给定基因座处存在的所有等位基因都相同时,该植物在该基因座处是纯合的。如果染色体上在给定基因座处存在的等位基因不同,则该植物在该基因座处是杂合的。“编码序列”是指编码特定氨基酸序列的多核苷酸序列。“调节序列”是指位于编码序列的上游(5′非编码序列)、内部或下游(3′非编码序列)的核苷酸序列,并且其影响相关的编码序列的转录、rna加工或稳定性、或翻译。调节序列包括但不限于:启动子、翻译前导序列、5′非翻译序列、3′非翻译序列、内含子、聚腺苷酸化靶序列、rna加工位点、效应子结合位点、和茎环结构。“突变基因”是通过人为干预已经改变的基因。这样的“突变基因”具有通过至少一个核苷酸添加、缺失或取代而与相应的非突变基因的序列不同的序列。在本公开的某些实施例中,该突变的基因包含由如本文公开的指导多核苷酸/cas内切核酸酶系统引起的改变。突变的植物是包含突变基因的植物。如本文所用,术语“靶向突变”是通过使用本领域技术人员已知的任何方法(包括涉及如本文公开的受指导的cas内切核酸酶系统的方法)改变靶基因内的靶序列而产生的基因(称为靶基因)包括天然基因中的突变。术语“敲除”、“基因敲除”和“遗传敲除”在本文中可互换使用。敲除表示已经通过用cas蛋白进行靶向使得细胞的dna序列部分或完全无效;例如,这样的dna序列在敲除之前可能已编码氨基酸序列,或可能已具有调节功能(例如,启动子)。术语“敲入”、“基因敲入”、“基因插入”和“遗传敲入”在本文中可互换使用。敲入代表通过用cas蛋白(例如通过同源重组(hr),其中还使用适合的供体dna多核苷酸)靶向在细胞中的特异性dna序列处进行的dna序列的替换或插入。敲入的实例是异源氨基酸编码序列在基因的编码区中的特异性插入,或转录调节元件在遗传基因座中的特异性插入。“结构域”意指核苷酸(可以为rna、dna和/或rna-dna组合序列)或氨基酸的连续延伸。术语“保守结构域”或“基序”是指沿进化相关蛋白的比对序列在特定位置处保守的一组多核苷酸或氨基酸。虽然同源蛋白质之间在其他位置处的氨基酸可以发生变化,但在特定位置处高度保守的氨基酸表明对蛋白质的结构、稳定性或活性来说是必需的氨基酸。因为它们通过蛋白同系物家族的比对序列中的高度保守性而被鉴定,所以它们可以用作标识符或“特征”,以确定具有新确定的序列的蛋白是否属于先前鉴定的蛋白家族。“密码子修饰的基因”或“密码子偏好的基因”或“密码子优化的基因”是其密码子使用的频率被设计为模拟宿主细胞的偏好的密码子使用的频率的基因。“优化的”多核苷酸是已经过优化以改善特定异源宿主细胞中的表达的序列。“植物优化的核苷酸序列”是为了在植物中表达(特别是为了在植物中增加的表达)而优化的核苷酸序列。植物优化的核苷酸序列包括密码子优化的基因。可以使用一个或多个植物偏好的密码子来改善表达,通过修饰编码蛋白质(诸如像本文公开的cas核酸内切酶)的核苷酸序列,来合成植物偏好的核苷酸序列。参见,例如,campbell和gowri(1990)plantphysiol.[植物生理学]92:1-11对宿主偏好的密码子使用的讨论。“启动子”是参与rna聚合酶和其他蛋白的识别和结合以起始转录的dna区域。启动子序列由近端元件和较远端上游元件组成,后一元件通常称为增强子。“增强子”是可以刺激启动子活性的dna序列,并且可以是该启动子的固有元件或被插入以增强启动子的水平或组织特异性的异源元件。启动子可以全部来源于天然基因,或者由来源于在自然界存在的不同启动子的不同元件构成,和/或包含合成的dna区段。本领域技术人员应当理解,不同的启动子可能引导基因在不同组织或细胞类型中、或在不同发育阶段、或者响应于不同环境条件的表达。进一步认识到,由于在大多数情况下调节序列的确切边界尚未完全限定,一些变异的dna片段可能具有相同的启动子活性。在多数情况下引起基因在大多数细胞型中表达的启动子通常称为“组成型启动子”。术语“诱导型启动子”是指对内源或外源刺激的存在,例如通过化学化合物(化学诱导剂)响应,或对环境、激素、化学品、和/或发育信号响应,选择性表达编码序列或功能rna的启动子。诱导型或调节型启动子包括例如通过光、热、胁迫、水淹或干旱、盐胁迫、渗透胁迫、植物激素、伤口或化学品(如乙醇、脱落酸(aba)、茉莉酮酸酯、水杨酸或安全剂)诱导或调节的启动子。“翻译前导序列”是指位于基因的启动子序列和编码序列之间的多核苷酸序列。翻译前导序列存在于翻译起始序列的mrna上游。翻译前导序列可以影响初级转录物对mrna的加工、mrna稳定性、或翻译效率。已经描述了翻译前导序列的实例(例如,turner和foster,(1995)molbiotechnol[分子生物技术]3:225-236)。“3′非编码序列”、“转录终止子”、或“终止序列”是指位于编码序列的下游的dna序列,并且包括聚腺苷酸化识别序列和编码能够影响mrna加工或基因表达的调节信号的其他序列。聚腺苷酸化信号通常表征为影响聚腺苷酸片添加到mrna前体的3′末端。由ingelbrecht等人,(1989)plantcell[植物细胞]1:671-680示例了不同的3′非编码序列的用途。“rna转录物”是指由dna序列的rna聚合酶催化的转录产生的产物。当rna转录物是dna序列的完全互补拷贝时,rna转录物被称为初级转录物或前mrna。当rna转录物是源自初级转录物前mrna的转录后加工的rna序列时,rna转录物被称为成熟rna或mrna。“信使rna”或“mrna”是指不含内含子并且可以被细胞翻译成蛋白的rna。“cdna”是指与mrna模板互补并且使用逆转录酶从mrna模板合成的dna。cdna可以是单链的或者可以使用dna聚合成酶i的klenow片段转化成双链形式。“有义”rna是指包含mrna并且可以在细胞内或体外翻译成蛋白的rna转录物。“反义rna”是指与靶初级转录物或mrna的全部或部分互补、并且阻断靶基因的表达的rna转录物(参见,例如美国专利号5,107,065)。反义rna可与特定基因转录物的任何部分,即5′非编码序列、3′非编码序列、内含子或编码序列互补。“功能性rna”是指反义rna、核糖酶rna、或可以不进行翻译但是仍对细胞过程具有作用的其他rna。术语“互补序列”和“反向互补序列”在本文中关于mrna转录物可互换使用,并且意在限定信使的反义rna。术语“基因组”指存在于生物体或病毒或细胞器的每个细胞中的遗传物质的全部互补序列(基因和非编码序列);和/或从一个亲本遗传为(单倍体)单元的完整染色体组。术语“可操作地连接”是指单个核酸片段上的核酸序列的关联,这样使得其中一个核酸序列的功能被另一个核酸序列调节。例如,当启动子能够调节编码序列的表达(即,该编码序列在启动子的转录控制下)时,启动子与该编码序列可操作地连接。编码序列可以在有义或反义取向上可操作地连接到调节序列。在另一个实例中,互补的rna区域可以直接或间接与靶mrna的5′、或靶mrna的3′可操作地连接、或在靶mrna内,或第一互补区是5′且其互补序列是靶mrna的3′。通常,“宿主”是指已引入异源组分(多核苷酸、多肽、其他分子、细胞)的生物体或细胞。如本文所用,“宿主细胞”是指体内或体外的真核细胞、原核细胞(例如,细菌或古细菌细胞),或来自作为单细胞实体培养的多细胞生物体的细胞(例如,细胞系),其中已引入异源多核苷酸或多肽。在一些实施例中,所述细胞选自下组,所述组由以下组成:原始细胞、细菌细胞、真核细胞、真核单细胞生物体、体细胞、生殖细胞、干细胞、植物细胞、藻类细胞、动物细胞、无脊椎动物细胞、脊椎动物细胞、鱼类细胞、青蛙细胞、鸟类细胞、昆虫细胞、哺乳动物细胞、猪细胞、牛细胞、山羊细胞、绵羊细胞、啮齿动物细胞、大鼠细胞、小鼠细胞、非人类的灵长类动物细胞和人类细胞。在一些情况下,该细胞是体外细胞。在一些情况下,该细胞是体内细胞。术语“重组”是指例如通过化学合成或者通过基因工程技术操纵分离的核酸区段来将两个原本分开的序列区段进行人工组合。术语“质粒”、“载体”和“盒”是指线性或环状染色体外元件,其通常携带非细胞中心代谢的一部分的基因,并且通常呈双链dna的形式。这样的元件可以是衍生自任何来源的、单链或双链dna或rna的、处于直链或环状形式的自主复制序列、基因组整合序列、噬菌体、或核苷酸序列,其中许多核苷酸序列已经被连接或重组成能够将目的多核苷酸引入细胞中的独特构造。“转化盒”是指包含基因并具有促进特定宿主细胞转化的基因之外的元件的特定载体。“表达盒”是指包含基因并具有允许在宿主中表达该基因的基因之外的元件的特定载体。术语“重组dna分子”、“重组dna构建体”、“表达构建体”、“构建体”、和“重组构建体”在本文中可互换使用。重组dna构建体包含核酸序列,例如在自然界中未全部一起发现的调节序列和编码序列的工工组合。例如,重组dna构建体可以包含衍生自不同来源的调节序列和编码序列,或者包含衍生自相同来源但以不同于天然发生的方式排列的调节序列和编码序列。这种构建体可以单独使用或可以与载体结合使用。如果使用载体,则载体的选择取决于如本领域技术人员熟知的将用于将载体引入宿主细胞的方法。例如,可以使用质粒载体。技术人员充分了解必须存在于载体上以便成功转化,选择和繁殖宿主细胞的遗传元件。本领域技术人员还将认识到,不同的独立转化事件可能导致不同的表达水平和模式(jones等人,(1985)emboj[欧洲分子生物学组织杂志]4:2411-2418;dealmeida等人,(1989)molgengenetics[分子遗传学和普通遗传学]218:78-86),因此典型地筛选多个事件,以获得显示所希望的表达水平和模式的品系。此类筛选可以是完成的标准分子生物学测定、生物化学测定以及其他测定,这些测定包括dna的印迹分析、mrna表达的northern分析、pcr、实时定量pcr(qpcr)、逆转录pcr(rt-pcr)、蛋白表达的免疫印迹分析、酶测定或活性测定、和/或表型分析。术语“异源”是指特定多核苷酸或多肽序列的原始环境、位置或组成与其当前环境、位置或组成之间的差异。非限制性实例包括分类学衍生的差异(例如,如果从玉蜀黍(zeamays)获得的多核苷酸序列插入到水稻(oryzasativa)植物的基因组或玉蜀黍的不同变种或栽培品种的基因组中,则该多核苷酸序列是异源的;或从细菌获得的多核苷酸被引入植物的细胞中,则该多核苷酸序列是异源的)或序列的差异(例如从玉蜀黍获得的多核苷酸序列被分离、修饰并重新引入玉蜀黍植物中)。如本文所用,关于序列的“异源”可以指该序列源于不同物种、变种、外来物种,或者,如果源于相同物种的话,则是通过蓄意人为干预从其在组合物和/或基因组基因座中的天然形式进行实质性修饰得到的序列。例如,有效地连接至异源多核苷酸的启动子来自与从其衍生该多核苷酸的物种不同的物种,或者,如果来自相同/类似的物种,那么一方或双方基本上由它们的原来形式和/或基因组基因座修饰得到,或者该启动子不是被有效地连接的多核苷酸的天然启动子。可替代地,本文提供的一个或多个调节区域和/或多核苷酸可以是整体地合成的。在另一个实例中,用于被cas内切核酸酶切割的靶多核苷酸可以属于与cas内切核酸酶不同的生物体。在另一个实例中,可以将cas内切核酸酶和指导rna与作为模板或供体用于插入靶多核苷酸的另外多核苷酸一起引入靶多核苷酸,其中所述另外多核苷酸与所述靶多核苷酸和/或所述cas内切核酸酶是异源的。如本文所用,术语“表达”是指处于前体抑或成熟形式的功能性终产物(例如,mrna、指导rna或蛋白)的产生。“成熟”蛋白是指翻译后加工的多肽(即,从其中已经去除存在于初级翻译产物中的任何前肽(pre-peptide)或原肽(propeptide)的一种多肽)。“前体”蛋白是指mrna的翻译的初级产物(即,仍存在前肽或原肽)。前肽或原肽可以是但不限于细胞内定位信号。“crispr”(成簇的规律间隔的短回文重复序列(clusteredregularlyinterspacedshortpalindromicrepeats))基因座是指dna切割系统的某些遗传基因座编码组分,例如,被细菌和古细菌细胞用来破坏外源dna的那些(horvath和barrangou,2010,science[科学]327:167-170;2007年3月1日公开的wo2007/025097)。crispr基因座可以由crispr阵列组成,包含由短的可变dna序列(称为‘间隔区’)分开的短的正向重复序列(crispr重复序列),其可以是侧翼不同cas(crispr相关的)基因。如本文所用,“效应子”或“效应子蛋白”是具有包括识别、结合和/或切割多核苷酸靶或使多核苷酸靶产生切口的活性的蛋白。效应子或效应子蛋白也可以是内切核酸酶。crispr系统的“效应子复合物”包括参与crrna及靶识别和结合的cas蛋白。一些组分cas蛋白可以另外包含参与靶多核苷酸切割的结构域。中术语“cas蛋白”是指由cas(crispr-相关的)基因编码的多肽。cas蛋白包括由cas基因座中的基因编码的蛋白,并且包括适应分子以及干扰分子。细菌适应性免疫复合物的干扰分子包括内切核酸酶。本文描述的cas内切核酸酶包含一个或多个核酸酶结构域。cas内切核酸酶包括但不限于:本文公开的新颖cas-α蛋白、cas9蛋白、cpf1(cas12)蛋白、c2c1蛋白、c2c2蛋白、c2c3蛋白、cas3、cas3-hd、cas5、cas7、cas8、cas10或这些的组合或复合物。当与适合的多核苷酸组分复合时,cas蛋白可以是能够识别、结合特定多核苷酸靶序列的全部或部分、并任选地使特定多核苷酸靶序列的全部或部分产生切口或切割特定多核苷酸靶序列的全部或部分的“cas内切核酸酶”或“cas效应子蛋白”。本公开的cas-α内切核酸酶可以包括具有一个或多个ruvc核酸酶结构域的那些内切核酸酶。cas蛋白被进一步定义为天然cas蛋白的功能性片段或功能性变体,或与天然cas蛋白的至少50个、50至100个、至少100个、100至150个、至少150个、150至200个、至少200个、200至250个、至少250个、250至300个、至少300个、300至350个、至少350个、350至400个、至少400个、400至450个、至少500个或大于500个连续氨基酸具有至少50%、50%至55%、至少55%、55%至60%、至少60%、60%至65%、至少65%、65%至70%、至少70%、70%至75%、至少75%、75%至80%、至少80%、80%至85%、至少85%、85%至90%、至少90%、90%至95%、至少95%、95%至96%、至少96%、96%至97%、至少97%、97%至98%、至少98%、98%至99%、至少99%、99%至100%或100%序列同一性并且保留天然序列的至少部分活性的蛋白。cas核酸内切酶的“功能性片段”、“功能上等效的片段”和“功能等效片段”在本文中可互换地使用,并且指本公开的cas核酸内切酶的一部分或子序列,其中保留识别、结合靶位点并任选地使靶位点产生切口或切割(引入单链或双链断裂)靶位点的能力。cas内切核酸酶的部分或子序列可包含其任何一个结构域的完整肽或部分(功能性)肽,例如但不限于cas3hd结构域完整的功能性部分、cas3解旋酶结构域完整的功能性部分、蛋白完整的功能性部分(例如但不限于cas5、cas5d、cas7和cas8b1)。cas内切核酸酶或cas效应子蛋白(包括本文所述的cas-α)的术语“功能性变体”、“功能上等同的变体”和“功能上等同的变体”在本文中可互换使用,并且是指本文公开的cas效应子蛋白的变体,其中保留识别、结合并任选地解旋、切口或切割全部或部分靶序列的能力。cas核酸内切酶还可包括多功能cas内切核酸酶。术语“多功能cas内切核酸酶”和“多功能cas内切核酸酶多肽”在本文中可互换使用,并且包括提及具有cas内切核酸酶功能(包含至少一个可用作cas内切核酸酶的蛋白结构域)和至少另一个功能的单个多肽,该至少另一个功能诸如但不限于,形成复合物的功能(至少包括可与其他蛋白形成复合物的第二蛋白结构域)。在一个方面,该多功能cas内切核酸酶包含相对于cas内切核酸酶的那些典型结构域的至少一个另外的蛋白结构域(在内部上游(5′)或下游(3′),或在内部5′和3′两处,或其任何组合)。术语“cascade”和“cascade复合物”在本文中可互换使用,并且包括提及可与多核苷酸组装形成多核苷酸-蛋白复合物(pnp)的多亚基蛋白复合物。cascade是一种依赖于多核苷酸的pnp,以实现复合物组装和稳定性以及鉴定靶核酸序列。cascade用作监视复合物,其发现并任选地结合与指导多核苷酸的可变靶向结构域互补的靶核酸。术语“切割就绪的cascade”、“crcascade”、“切割就绪的cascade复合物”、“crcascade复合物”、“切割就绪的cascade系统”、“crc”和“crcascade系统”在本文中可互换使用,并包括提及可以与多核苷酸组装形成多核苷酸-蛋白复合物(pnp)的多亚基蛋白复合物,其中cascade蛋白之一是cas内切核酸酶,所述cas内切核酸酶能够识别、结合靶序列的全部或部分、并任选地使靶序列的全部或部分解旋、使靶序列的全部或部分产生切口或切割靶序列的全部或部分。术语“5′-帽”和“7-甲基鸟苷酸(m7g)帽”在本文中可互换使用。7-甲基鸟苷酸残基位于真核生物中信使rna(mrna)的5′末端。在真核生物中,rna聚合酶ii(polii)转录mrna。信使rna加帽通常如下:用rna末端磷酸酶去除mrna转录物的最末端5’磷酸根基团,留下两个末端磷酸根。用鸟苷酸转移酶将一磷酸鸟苷(gmp)添加至转录物的末端磷酸根,在转录物末端处留下5′-5′三磷酸连接的鸟嘌呤。最后,此末端鸟嘌呤的7-氮被甲基转移酶甲基化。术语“不具有5′-帽”等在本文中用于指具有例如5′-羟基基团而不是5′-帽的rna。例如,此类rna可以被称为“未带帽的rna”。因为5′-带帽的rna有核输出的倾向,转录以后未带帽的rna可以更好地积累在细胞核中。本文中的一种或多种rna组分是未带帽的。如本文所用,术语“指导多核苷酸”涉及可以与cas内切核酸酶(包括本文所述的cas内切核酸酶)形成复合物,并且使得该cas内切核酸酶能够识别、任选地结合并任选地切割dna靶位点的多核苷酸序列。指导多核苷酸序列可以是rna序列、dna序列或其组合(rna-dna组合序列)。术语指导rna、crrna或tracrrna的“功能性片段”、“功能上等效的片段”和“功能等效片段”在本文中可互换地使用,并且分别指本公开的指导rna、crrna或tracrrna的一部分或子序列,其中分别保留用作指导rna、crrna或tracrrna的能力。术语指导rna、crrna或tracrrna(分别地)的“功能性变体”、“功能上等效的变体”和“功能等效变体”在本文中可互换地使用,并且分别指本公开的指导rna、crrna或tracrrna的变体,其中分别保留用作指导rna、crrna或tracrrna的能力。术语“单指导rna”和“sgrna”在本文中可互换使用,并涉及两个rna分子的合成融合,其中包含可变靶向结构域(与tracrrna杂交的tracr配对序列连接)的crrna(crisprrna)与tracrrna(反式激活crisprrna)融合。单指导rna可以包含可与ii型cas内切核酸酶形成复合物的ii型crispr/cas系统的crrna或crrna片段和tracrrna或tracrrna片段,其中所述指导rna/cas内切核酸酶复合物可以将cas内切核酸酶引导至dna靶位点,使得cas内切核酸酶能够识别、任选地结合dna靶位点、并任选地使dna靶位点产生切口或切割(引入单链或双链断裂)dna靶位点。术语“可变靶向结构域”或“vt结构域”在本文中可互换使用,并且包括可以与双链dna靶位点的一条链(核苷酸序列)杂交(互补)的核苷酸序列。第一个核苷酸序列结构域(vt结构域)与靶序列之间的互补百分比可以为至少50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、63%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%。可变靶向结构域可以是至少12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸长度。在一些实施例中,可变靶向结构域包含12至30个核苷酸的连续延伸。可变靶向域可以由dna序列、rna序列、修饰的dna序列、修饰的rna序列或其任何组合构成。术语(指导多核苷酸的)“cas内切核酸酶识别结构域”或“cer结构域”在本文中可互换地使用,并且包括与cas内切核酸酶多肽相互作用的核苷酸序列。cer结构域包含(反式作用)tracr核苷酸伴侣序列,随后是tracr核苷酸序列。cer结构域可以由dna序列、rna序列、修饰的dna序列、修饰的rna序列(参见,例如,2015年2月26日公开的us20150059010a1)或其任何组合构成。如本文所用,术语“指导多核苷酸/cas内切核酸酶复合物”、“指导多核苷酸/cas内切核酸酶系统”、“指导多核苷酸/cas复合物”、“指导多核苷酸/cas系统”和“指导cas系统”、“多核苷酸指导的内切核酸酶”、“pgen”在本文中可互换使用,并且是指能够形成复合物的至少一种指导多核苷酸和至少一种cas内切核酸酶,其中所述指导多核苷酸/cas内切核酸酶复合物可以将cas内切核酸酶引导至dna靶位点,使cas内切核酸酶能够对dna靶位点进行识别、结合、并且任选地产生切口或进行切割(引入单链或双链断裂)。本文中的指导多核苷酸/cas内切核酸酶复合物可包含一种或多种cas蛋白和任何已知的crispr系统的一个或多个合适的多核苷酸组分(horvath和barrangou,2010,science[科学]327:167-170;makarova等人,2015,naturereviewsmicrobiology[自然微生物学综述]卷13:1-15;zetsche等人,2015,cell[细胞]163,1-13;shmakov等人,2015,molecularcell[分子细胞]60,1-13)。术语“指导rna/cas内切核酸酶复合物”、“指导rna/cas内切核酸酶系统”、“指导rna/cas复合物”、“指导rna/cas系统”、“grna/cas复合物”、“grna/cas系统”、“rna指导的内切核酸酶”、“rgen”在本文中可互换地使用并且指能够形成复合物的至少一种rna组分和至少一种cas内切核酸酶,其中所述指导rna/cas内切核酸酶复合物可以将cas内切核酸酶引导至dna靶位点,使cas内切核酸酶能够识别、结合dna靶位点并任选地使dna靶位点产生切口或切割(引入单链或双链断裂)dna靶位点。术语“靶位点”、“靶序列”、“靶位点序列”、“靶dna”、“靶基因座”、“基因组靶位点”、“基因组靶序列”、“基因组靶基因座”和“前间隔子”在本文中可互换地使用,并且是指多核苷酸序列,例如,但不限于,在细胞的染色体、附加体、基因座或基因组中的任何其他dna分子(包括染色体dna、叶绿体dna、线粒体dna、质粒dna)上的核苷酸序列,在这些序列处指导多核苷酸/cas内切核酸酶复合物可以进行识别、结合并任选地产生切口或进行切割。靶点可以是细胞的基因组中的内源位点,或者替代性地,靶点对于该细胞可以是异源的并且从而不是天然存在于细胞的基因组中,或者与在自然界发生的位置相比,可以在异质基因组位置中找到靶点。如本文使用的,术语“内源性靶序列”和“天然靶序列”在本文中可互换使用,是指对细胞基因组来说是内源的或天然的、并且位于细胞的基因组中该靶序列的内源或天然位置处的靶序列。“人工靶位点”或“人工靶序列”在本文中可互换使用,并且是指已经引入细胞的基因组中的靶序列。这样的人工靶序列可以在序列上与细胞的基因组中的内源性或天然靶序列相同,但是位于细胞的基因组中的不同位置(即,非内源性的或非天然的位置)处。本文中的“前间隔子邻近基序”(pam)指与由本文所述的指导多核苷酸/cas内切核酸酶系统识别的(靶向的)靶序列(前间隔子序列)邻近的短核苷酸序列。如果靶dna序列不在pam序列后面,则cas内切核酸酶可能无法成功识别所述靶dna序列。本文中的pam的序列和长度可以取决于所使用的cas蛋白或cas蛋白复合物而不同。所述pam序列可以是任何长度,但典型地是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸长度。“改变的靶位点”、“改变的靶序列”、“修饰的靶位点”、“修饰的靶序列”在本文中可互换使用,并且是指如本文公开的靶序列,当与非改变的靶序列相比时,所述靶序列包含至少一个改变。此类“改变”包括,例如:(i)至少一个核苷酸的替换,(ii)至少一个核苷酸的缺失,(iii)至少一个核苷酸的插入,(iv)至少一个核苷酸的化学改变,或(v)(i)-(iv)的任何组合。“经修饰的核苷酸”或“经编辑的核苷酸”是指当与其非修饰的核苷酸序列相比时,包含至少一个改变的目的核苷酸序列。此类“改变”包括,例如:(i)至少一个核苷酸的替换,(ii)至少一个核苷酸的缺失,(iii)至少一个核苷酸的插入,(iv)至少一个核苷酸的化学改变,或(v)(i)-(iv)的任何组合。用于“修饰靶位点”和“改变靶位点”的方法在本文中可互换使用,并且是指用于产生改变的靶位点的方法。如本文所用,“供体dna”是dna构建体,其包括待插入到cas内切核酸酶的靶位点的目的多核苷酸。术语“多核苷酸修饰模板”包括,当与待编辑的核苷酸序列相比时,包含至少一个核苷酸修饰的多核苷酸。核苷酸修饰可以是至少一个核苷酸取代、添加或缺失。任选地,多核苷酸修饰模板可以进一步包含位于至少一个核苷酸修饰侧翼的同源核苷酸序列,其中侧翼同源核苷酸序列为待编辑的希望的核苷酸序列提供了充足同源性。本文的术语“植物优化的cas内切核酸酶”是指由已经针对在植物细胞或植物中表达进行优化的核苷酸序列编码的cas蛋白,包括多功能cas蛋白。“编码cas内切核酸酶的植物优化的核苷酸序列”、“编码cas内切核酸酶的植物优化的构建体”和“编码cas内切核酸酶的植物优化的多核苷酸”在本文中可互换使用,并且是指编码cas蛋白、或其变体或功能性片段的核苷酸序列,已经针对在植物细胞或植物中表达对其进行优化。包含植物优化的cas核酸内切酶的植物包括:包含编码cas序列的核苷酸序列的植物,和/或包含cas核酸内切酶蛋白的植物。在一个方面,植物优化的cas核酸内切酶核苷酸序列是玉蜀黍优化、稻优化、小麦优化、大豆优化、棉花优化或卡诺拉油菜优化的cas核酸内切酶。术语“植物”一般包括整株植物、植物器官、植物组织、种子、植物细胞、种子和植物的后代。所述植物是单子叶植物或双子叶植物。植物细胞包括但不限于得自下列物质的细胞:种子、悬浮培养物、胚、分生区域、愈伤组织、叶、根、芽、配子体、孢子体、花粉和小孢子。“植物元件”意在指整个植物或植物组分,可以包括分化和/或未分化的组织,例如但不限于植物组织、部分和细胞类型。在一个实施例中,植物元件是以下之一:整株植物、幼苗、分生组织、基本组织、维管组织、皮膜组织、种子、叶、根、芽、茎、花、果实、匍匐茎、鳞茎、块茎、球茎、无性末梢枝、芽、幼芽、肿瘤组织,以及细胞和培养物的各种形式(例如,单细胞、原生质体、胚胎和愈伤组织)。应该注意的是,原生质体在技术上并不是“完整的”植物细胞(所有组分都天然存在),因为原生质体没有细胞壁。术语“植物器官”是指植物组织或构成植物的形态上和功能上不同部分的一组组织。如本文所用,“植物元件”是植物的“部分”的同义词,是指植物的任何部分,并且可以包括不同的组织和/或器官,并且可以在全文中与术语“组织”互换使用。类似地,“植物繁殖元件”意在一般性地指能够通过该植物的有性或无性繁殖而创造其他植物的任何植物部分,例如但不限于:种子、幼苗、根、芽、切条、接穗、嫁接苗、匍匐茎、鳞茎、块茎、球茎、无性末梢枝或幼芽。植物元件可以存在于植物中或植物器官、组织培养物或细胞培养物中。“子代”包括植物的任何后续世代。如本文使用,术语“植物部分”是指植物细胞、植物原生质体、可再生植物的植物细胞组织培养物、植物愈伤组织、植物块和在植物或植物部分(如胚、花粉、胚珠、种子、叶、花、枝、果、核、穗、穗轴、壳、茎、根、根尖、花药等)中完好的植物细胞,连同这些部分自身。籽粒意指由商业种植者出于栽培或繁殖物种之外的目的所生产的成熟种子。这些再生植物的后代、变体和突变体也包括在本发明的范围内,条件是这些部分包含经引入的多核苷酸。术语“单子叶植物的”或“单子叶植物”是指被子植物的亚类,也称为“单子叶植物纲”,其种子典型地仅包含一个胚叶或子叶。该术语包括对整个植物、植物元件、植物器官(例如,叶、茎、根等)、种子、植物细胞及其后代的指代。术语“双子叶植物的”或“双子叶植物”是指被子植物的亚类,也称为“双子叶植物纲”,其种子典型地包含两个胚叶或子叶。该术语包括对整个植物、植物元件、植物器官(例如,叶、茎、根等)、种子、植物细胞及其后代的指代。如本文使用,“雄性不育植物”是不产生有活力的或在其他情况下能够受精的雄配子的植物。如本文使用,“雌性不育植物”是不产生有活力的或在其他情况下能够受精的雌配子的植物。应当认识到雄性不育植物和雌性不育植物可以分别是雌性可育的和雄性可育的。应当进一步认识到,雄性可育(但雌性不育)植物当与雌性可育植物杂交时可以产生有活力的后代,并且雌性可育(但雄性不育)植物当与雄性可育植物杂交时可以产生有活力的后代。本文中术语“非常规酵母”是指不是酵母属(例如,酿酒酵母)或裂殖酵母属酵母物种的任何酵母。(参见“non-conventionalyeastsingenetics,biochemistryandbiotechnology:practicalprotocols[遗传学、生物化学和生物技术中的非常规酵母菌:实践方案]”,k.wolf,k.d.breunig,g.barth编辑,springer-verlag,berlin,germany[德国柏林施普林格出版社],2003)。在本公开的上下文中,术语“杂交的”或“杂交”(cross或crossing)是指经由授粉将配子融合从而产生后代(即,细胞、种子、或植物)。该术语涵盖有性杂交(一株植物被另一株植物授粉)和自交(自花授粉,即当花粉和胚珠(或小孢子和大孢子)是来自同一植物或基因相同的植物时)。术语“渗入”是指基因座的期望等位基因从一种遗传背景传递到另一种遗传背景的现象。例如,可以经由两个亲本植物之间的有性杂交将指定基因座处的所希望的等位基因的渗入传递给至少一个后代植物,其中至少一个亲本植物在其基因组内具有所希望的等位基因。可替代地,例如等位基因的传递可以通过两个供体基因组之间的重组而发生,例如在融合原生质体中,其中至少其中一个供体原生质体在其基因组中具有所希望的等位基因。所希望的等位基因可以是,例如转基因、修饰的(突变的或编辑的)天然等位基因、或标志物或qtl的选择的等位基因。术语“同系”是一个比较术语,指遗传上相同但处理方法不同的生物体。在一个实例中,可以将两个遗传上相同的玉蜀黍植物胚分成两个不同的组,一个组接受处理(如引入crispr-cas效应子内切核酸酶),而一个组作为对照不接受这种处理。因此,两组之间的任何表型差异都可能仅归因于该处理,而不是归因于该植物的内源基因组成的任何固有性。“引入”旨在意指以这样一种方式将多核苷酸或多肽或多核苷酸-蛋白复合物提供于靶标,如细胞或生物体中,以致于这一种或多种组分得以进入该生物体的细胞的内部或进入细胞自身。“目的多核苷酸”包括编码改善作物的合意性的蛋白或多肽的任何核苷酸序列,即农艺学目的性状。目的多核苷酸包括但不限于,编码对农艺学、除草剂-抗性、杀昆虫抗性、疾病抗性、线虫抗性、除草剂抗性、微生物抗性、真菌抗性、病毒抗性、能育性或不育性、谷粒特征、商业产品、表型标记而言重要的或任何其他具有重要农艺学或商业意义的性状的多核苷酸。目的多核苷酸可以另外以有义或反义取向加以利用。此外,可以一起或“堆叠”利用多于一个目的多核苷酸以提供额外的益处。“复杂性状基因”座包括具有彼此遗传连锁的多个转基因的基因组基因座。本文的组合物和方法可以为植物提供改善的“农艺性状”或“具有农艺学重要性的性状”或“具有农艺学意义的性状”,这些性状可以包括但不限于以下:与不包含衍生自本文方法和组合物的修饰的同系植物相比的抗病性、耐旱性、耐热性、耐寒性、耐盐性、金属耐性、除草剂耐性、改善的水分利用效率、改善的氮利用率、改善的固氮作用、有害生物抗性、食草动物抗性、病原抗性、产量改善、健康增强、活力改善、生长改善、光合能力改善、营养增强、改变的蛋白质含量、改变的油含量、生物量增加、芽长度增加、根长度增加、根结构改善、代谢产物的调节、蛋白质组的调节、种子重量的增加、改变的种子碳水化合物组成、改变的种子油组成、改变的种子蛋白质组成、改变的种子营养成分。“农艺性状潜力”意在指植物元件在其生命周期中的某个时刻表现出一种表型(优选地为一种改善的农艺性状)的能力,或将所述表型传递至在同一种植物中与其关联的另一种植物元件的能力。如本文所用,术语“减少”、“较少”、“较慢”和“增加”、“较快”、“增强”、“更大”是指与未修饰的植物元件或产生的植物相比,经修饰的植物元件或产生的植物的特征降低或增加。例如,特征的降低可以是低于未处理的对照至少1%、至少2%、至少3%、至少4%、至少5%、5%至10%、至少10%、10%至20%、至少15%、至少20%、20%至30%、至少25%、至少30%、30%至40%、至少35%、至少40%、40%至50%、至少45%、至少50%、50%至60%、至少约60%、60%至70%、70%至80%、至少75%、至少约80%、80%至90%、至少约90%、90%至100%、至少100%、100%和200%、至少200%、至少约300%、至少约400%或更多,增加可以是高于未处理的对照至少1%、至少2%、至少3%、至少4%、至少5%、5%至10%、至少10%、10%至20%、至少15%、至少20%、20%至30%、至少25%、至少30%、30%至40%、至少35%、至少40%、40%至50%、至少45%、至少50%、50%至60%、至少约60%、60%至70%、70%至80%、至少75%、至少约80%、80%至90%、至少约90%、90%至100%、至少100%、100%和200%、至少200%、至少约300%、至少约400%或更多。如本文所用,当提到序列位置时,术语“之前”是指一个序列在另一序列上游或5′处出现。缩写的含义如下:“sec”意指秒、“min”意指分钟、“h”意指小时、“d”意指天、“μl”意指微升、“ml”意指毫升、“l”意指升、“μm”意指微摩尔、“mm”意指毫摩尔、“m”意指摩尔、“mmol”意指毫摩尔、“μmole”或“umole”微摩尔、“g”意指克、“μg”或“ug”意指微克、“ng”意指纳克、“u”意指单位、“bp”意指碱基对、以及“kb”意指千碱基。crispr-cas系统的分类crispr-cas系统已根据组分的序列和结构分析进行了分类。已经描述了多种crispr/cas系统,包括具有多亚基效应子复合物的1类系统(包括i型、iii型和iv型),以及具有单蛋白质效应子的2类系统(包括ii型、v型和vi型)(makarova等人,2015,naturereviewsmicrobiology[自然微生物学综述]卷13:1-15;zetsche等人,2015,cell[细胞]163,1-13;shmakov等人,2015,molecularcell[分子细胞学]60,1-13;haft等人,2005,computationalbiology,ploscomputbiol[美国科学公共图书馆计算生物学]1(6):e60;以及koonin等人,2017,curropinionmicrobiology[微生物学新见]37:67-78)。crispr-cas系统至少包含一种crisprrna(crrna)分子和至少一种与crispr相关的(cas)蛋白,以形成crrna核糖核蛋白(crrnp)效应复合物。crispr-cas基因座包含一系列相同的重复序列,这些重复序列散布有编码crrna组分的dna靶向间隔区以及编码cas蛋白组分的cas基因的操纵子样单元。产生的核糖核蛋白复合物以序列特异性方式识别多核苷酸(jore等人,naturestructural&molecularbiology[自然结构与分子生物学]18,529-536(2011))。该crrna通过与互补dna链形成碱基对,同时置换非互补链形成所谓的r环,从而充当效应子(蛋白质或复合物)与双链dna序列进行序列特异性结合的指导rna。(jore等人,2011.naturestructural&molecularbiology[自然结构与分子生物学]18,529-536)。crispr基因座的rna转录物(前crrna)在i型和iii型系统中被crispr相关的(cas)内核糖核酸酶或在ii型系统中被rna酶iii特异性地切割重复序列。在给定的crispr基因座处的crispr相关基因数目在物种之间可以不同。不同的crispr系统中存在不同的cas基因,这些基因编码具有不同结构域的蛋白。cas操纵子包含编码一种或多种效应内切核酸酶以及其他cas蛋白的基因。蛋白亚基包括在以下中描述的那些:makarova等人2011,natrevmicrobiol.[自然评论微生物学]20119(6):467-477;makarova等人2015,naturereviewsmicrobiology[自然评论微生物学]卷13:1-15;和koonin等人2017,currentopinionmicrobiology[当前观点微生物学]37:67-78)。结构域的类型包括参与表达(前crrna加工,例如cas6或rna酶iii)、干扰(包括用于crrna和靶结合的效应子模块,以及用于靶切割的一个或多个结构域)、适应(间隔子插入,例如cas1或cas2)和辅助(调节或辅助或未知功能)的结构域。一些结构域可以起到一个以上的作用,例如cas9包括用于内切核酸酶功能以及用于靶切割等的结构域。cas核酸内切酶由单个crisprrna(crrna)指导,通过直接rna-dna碱基配对来识别紧邻前间区序列邻近基序(pam)的dna靶位点(jore,m.m.等人,2011,nat.struct.mol.biol.[自然结构分子生物学]18:529-536,westra,e.r.等人,2012,molecularcell[分子细胞学]46:595-605,以及sinkunas,t.等人,2013,emboj.[欧洲分子生物学学会杂志]32:385-394)。i类crispr-cas系统i类crispr-cas系统包括i型、iii型和iv型。i类系统的特征是存在效应核酸内切酶复合物而不是单个蛋白质。cascade复合物包括rna识别基序(rrm)和核酸结合结构域,所述结构域是不同ramp(重复序列相关神秘蛋白)蛋白超家族的核心折叠(makarova等人2013,biochemsoctrans[生化学会会刊]41,1392-1400);makarova等人2015,naturereviewsmicrobiology[自然评论微生物学]卷13:1-15)。ramp蛋白亚基包括cas5和cas7(其包括crrna-效应子复合物的骨架),其中cas5亚基结合crrna的5′柄并与大亚基相互作用,并且通常包括cas6,其与效应子复合物松散地缔合并且典型地在前crrna加工中起重复序列特异性rna酶的作用(charpentier等人,femsmicrobiolrev[fems微生物学评论]2015,39:428-441;niewoehner等人,rna2016,22:318-329)。i型crispr-cas系统包含效应子蛋白复合物,称为caseade(用于抗病毒防御的crispr-相关复合物),至少包含cas5和cas7。效应子复合物与单个crisprrna(crrna)和cas3一起发挥功能,以防御入侵的病毒dna(brouns,s.j.j.等人science[科学]321:960-964;makarova等人2015,naturereviewsmicrobiology[自然评论微生物学]卷13:1-15)。i型crispr-cas基因座包含特征基因cas3(或变体cas3′或cas3′’),其编码金属依赖性核酸酶,所述核酸酶具有单链dna(ssdna)刺激的超家族2解旋酶,所述解旋酶具有解旋双链dna(dsdna)和rna-dna双链体的能力(makarova等人2015,naturereviews;microbiology[自然评论微生物学]卷13:1-15)。在靶识别之后,cas3内切核酸酶被招募到caseade-crrna-靶dna复合物中,以切割和降解dna靶(westra,e.r.等人(2012)molecularcell[分子细胞]46:595-605,sinkunas,t.等人(2011)emboj.[欧洲分子生物学学会杂志]30:1335-1342,和sinkunas,t.等人(2013)emboj.[欧洲分子生物学学会杂志]32:385-394)。在某些i型系统中,cas6是负责crrna加工的活性内切核酸酶,cas5和cas7作为非催化rna结合蛋白起作用;虽然在i-c型系统中,crrna加工可由cas5催化(makarova等人2015,naturereviewsmicrobiology[自然评论微生物学]卷13:1-15)。i型系统分为七个亚型(makarova等人2011,natrevmicrobiol.[自然评论微生物学]20119(6):467-477;koonin等人2017,curropinionmicrobiology[微生物学新见]37:67-78)。已描述了用于适应性抗病毒防御的经修饰的i型crispr相关复合物(cascade),其至少包含蛋白亚基cas7、cas5和cas6,其中这些亚基之一与cas3内切核酸酶或经修饰的限制性内切核酸酶foki合成地融合(wo2013098244,公开于2013年7月4日)。iii型crispr-cas系统(包括多个cas7基因)靶向ssrna或ssdna,且作为rna酶和靶向rna激活的dna核酸酶起功能(tamulaitis等人,trendsinmicrobiology[微生物学趋势]25(10)49-61,2017)。csm(iii-a型)和cmr(iii-b型)复合物作为rna激活的单链(ss)dna酶起功能,将靶rna结合/切割与ssdna降解耦合。当外源dna感染后,crisprrna(crrna)指导的csm或cmr复合物与新出现的转录物结合,将cas10dna酶招募到活跃转录的噬菌体dna,导致转录物和噬菌体dna降解,而不是宿主dna降解。cas10hd-结构域负责ssdna酶活性,csm3/cmr4亚基负责csm/cmr复合物的内切核糖核酸酶活性。靶rna的3′侧翼序列对csm/cmr的ssdna酶活性至关重要:与crrna的5′-柄的碱基配对保护宿主dna不被降解。iv型系统,尽管包括典型的i型cas5和cas7结构域以及cas8样结构域,可能缺少crispr阵列,所述crispr阵列是大多数其他crispr-cas系统的特征。ii类crispr-cas系统ii类crispr-cas系统包括ii型、v型和vi型。ii类系统的特征是存在单个cas效应子蛋白,而不是效应子复合物。ii型和v型cas蛋白包含采用rna酶h折叠的ruvc核酸内切酶结构域。ii型crispr/cas系统采用crrna和tracrrna(反式激活crisprrna)将cas核酸内切酶指导到其dna靶标上。crrna包含与双链dna靶标的一条链互补的间隔区区域和与tracrrna(反式激活crisprrna)碱基配对的区域,所述tracrrna形成引导cas内切核酸酶切割dna靶标的rna双链体,留下钝末端。通过未完全理解的涉及cas1和cas2蛋白的过程获得间隔子。ii型crispr/cas基因座通常包括casl和cas2基因以及cas9基因(chylinski等人,2013,rnabiology[rna生物学]10:726-737;makarova等人2015,naturereviewsmicrobiology[自然评论微生物学]卷13:1-15)。ii型crisr-cas基因座可以编码tracrrna,该tracrrna与重复序列在对应的crispr阵列内部分互补,并且可以包含其他蛋白质(如csn1和csn2)。在casl和cas2基因附近cas9的存在是ii型基因座的标志(makarova等人.2015,naturereviewsmicrobiology[微生物自然综述]第13卷:1-15)。v型crispr/cas系统包含单个cas内切核酸酶,包括cpfl(casl2)(koonin等人,curropinionmicrobiology[微生物学新见]37:67-78,2017),其是活性rna指导的内切核酸酶,不一定需要另外的反式激活crispr(tracr)rna来进行靶切割,与cas9不同。vi型crispr-cas系统包括编码具有两个hepn(高等真核生物和原核生物核苷酸结合)结构域但不含hnh或ruvc结构域的核酸酶的cas13基因,且不依赖于tracrrna活性。大多数hepn结构域包含保守的基序,其构成金属非依赖性内rna酶活性位点(anantharam等人,bioldirect[生物学指导]8:15,2013)。由于这一特征,人们认为vi型系统作用于rna靶,而不是其他crispr-cas系统常见的dna靶。新颖crispr-cas系统本文公开了新颖crispr-cas系统、其组分和使用所述组分的方法。所述系统包含新颖cas效应子蛋白cas-α。本文所述的新颖crispr-cas系统组分可包括来自不同cas系统的一个或多个亚基、源自或修饰自多于一种不同细菌或古细菌原核生物的亚基和/或合成的或工程化的组分。本文描述的是新鉴定的crispr-cas系统,其包含cas基因的新颖排列。进一步描述了新颖cas基因和蛋白。一些新颖的cas-α系统的一个特征是如图1a-1d所示的基因座架构。在一些方面,cas-α基因组基因座包含cas1基因、cas2基因、cas4基因和编码效应子蛋白cas-α的cas-α基因。包含核苷酸序列的重复序列的crispr阵列可在编码cas-α内切核酸酶的基因之前或之后发现。在一些方面,cas-α基因座可包含编码效应子蛋白的cas-α基因和包含重复序列的crispr阵列,但不包含cas1基因、cas2基因和/或cas4基因中的任何一个或多个。crispr-cas系统组分cas蛋白许多蛋白可以在crisprcas操纵子中编码,包括那些涉及适应(间隔子插入)、干扰(效应子模块靶结合、靶切口或切割-例如内切核酸酶活性)、表达(前crrna加工)、调节或其他的蛋白。cas1和cas2这两种蛋白在许多crispr系统中是保守的(例如,如koonin等人,curropinionmicrobiology[微生物学新见]37:67-78,2017中所述)。cas1是金属依赖性dna特异性内切核酸酶,可产生双链dna片段。在一些系统中,cas1与cas2形成稳定的复合物,这对于crispr系统的间隔子获取和插入至关重要(等人,naturestrmolbiol[自然结构分子生物学]21:528-534,2014)。已经在不同系统中鉴定了许多其他蛋白,包括cas4(其可能与recb核酸酶具有相似性),并且被认为在捕获新的病毒dna序列以整合到crispr阵列中发挥作用(zhang等人,plosone[公共科学图书馆期刊]7(10):e47232,2012)。一些蛋白质可能包含多种功能。例如,cas9,2类ii型系统的特征蛋白,已经被证明参与前crrna加工、靶结合、以及靶切割。本文公开的新颖cas-α蛋白包括效应子蛋白(内切核酸酶)以及适应蛋白。cas内切核酸酶已从多种细菌和古细菌来源中得到鉴定,包括图7a-7k中所示的那些。cas内切核酸酶和效应子内切核酸酶是切割多核苷酸链内的磷酸二酯键的酶,并且包括在特定位点切割dna而不损害碱基的限制性内切核酸酶。内切核酸酶的实例包括限制性内切核酸酶,大范围核酸酶,tal效应子核酸酶(talen),锌指核酸酶和cas(crispr-associated)效应子内切核酸酶。cas内切核酸酶(作为单一效应子蛋白或与其他组分的效应子复合物)在靶序列处解开dna双链体并任选地切割至少一条dna链,如通过由与cas效应子蛋白复合的多核苷酸(例如但不限于crrna或指导rna)识别靶序列所介导的。如果正确的前间隔子邻近基序(pam)位于或相邻于dna靶序列的3′末端,则通过cas内切核酸酶对靶序列进行的此类识别和切割典型地会发生。可替代地,本文中的cas内切核酸酶可能缺乏dna切割或切口活性,但是当与合适的rna组分复合时,仍然可以特异性结合dna靶序列。(还参见2015年3月19日公开的美国专利申请us20150082478和2015年2月26日公开的us20150059010)。cas内切核酸酶可以作为单个效应子(2类crispr系统)出现,也可以作为较大效应子复合物的一部分(i类crispr系统)出现。已描述的cas内切核酸酶包括但不限于,例如:cas3(1类i型系统的特征)、cas9(2类ii型系统的特征)和cas12(cpf1)(2类v型系统的特征)。cas3(及其变体cas3′和cas3″)作为单链dna核酸酶(hd结构域)和atp依赖性解旋酶发挥作用。cas3内切核酸酶的变体可以通过使cas3内切核酸酶多肽的一个或两个结构域的功能活性失效来获得。使atp酶依赖性解旋酶活性失效(通过缺失、敲除cas3-解旋酶结构域,或通过突变关键残基,或通过在没有atp的情况下组装反应,如前所述(sinkunas,t.等人,2013,emboj.[欧洲分子生物学学会杂志]32:385-394))可将包含经修饰的cas3内切核酸酶的切割就绪cascade转化为切口酶(因为hd结构域仍然具有功能)。使hd核酸内切酶活性失效可以通过本领域已知的任何方法来完成,例如但不限于hd结构域的关键残基的突变,可以将包含经修饰的cas3内切核酸酶的切割就绪cascade转化为解旋酶。使cas解旋酶和cas3hd内切核酸酶活性失效可以通过本领域已知的任何方法来完成,例如但不限于,解旋酶和hd结构域两者的关键残基的突变,可以将包含经修饰的cas3内切核酸酶的切割就绪cascade转化为结合到靶序列的结合蛋白。cas9(以前称为cas5、csn1、或csx12)是与cr核苷酸和tracr核苷酸或与单指导多核苷酸形成复合物的cas内切核酸酶,其用于特异性识别和切割dna靶序列的全部或部分。cas9识别靶dsdna上的3′富含gc的pam序列。cas9蛋白包含ruvc核酸酶,以及与ruvc-ii结果域相邻的hnh(h-n-h)核酸酶。ruvc核酸酶和hnh核酸酶各自可以在靶序列处切割单个dna链(两个结构域的协同作用导致dna双链切割,而一个结构域的活性导致切口)。通常,ruvc结构域包含亚结构域i、ii和iii,其中亚结构域i位于cas9的n末端附近,并且亚结构域ii和iii位于蛋白的中间,即位于hnh结构域的侧翼(hsu等人,2013,cell[细胞]157:1262-1278)。cas9内切核酸酶通常来源于ii型crispr系统,该系统包括利用与至少一种多核苷酸组分复合的cas9内切核酸酶的dna切割系统。例如,cas9可以与crisprrna(crrna)和反式激活crisprrna(tracrrna)复合。在另一个实例中,cas9可以与单指导rna复合(makarova等人,2015,naturereviewsmicrobiology[自然综述微生物学]第13卷:1-15)。cas12(以前称为cpfl,和变体c2c1、c2c3、casx和casy)包含ruvc核酸酶结构域,并在dsdna靶上产生交错的5′突出。与cas9的功能不同,某些变体不需要tracrrna。cas12及其变体识别靶dsdna上的5′富含at的pam序列。cas12a蛋白的一个被称为nuc的插入结构域已被证明负责靶链的切割(yamano等人,cell[细胞]2016,165:949-962)。在其他cas12蛋白中的其他突变研究表明nuc结构域有助于指导物和靶结合,而ruvc结构域负责切割(swarts等人,molcell[分子细胞]2017,66:221-233e224)。cas内切核酸酶和效应子蛋白可以用于靶向的基因组编辑(经由单个和多个双链断裂和缺口)和靶向的基因组调节(经由将表观遗传效应子结构域系链到cas蛋白或sgrna)。cas核酸内切酶还可以被工程化作为rna指导的重组酶起作用,并且经由rna系链可以充当用于组装多蛋白和核酸复合物的支架(mali等人,2013naturemethods[自然方法]第10卷:957-963)。cas-α内切核酸酶cas-α内切核酸酶定义为功能rna指导的pam依赖性dsdna切割蛋白,其具有少于800个氨基酸,包括:c末端ruvc催化结构域(分裂成三个亚结构域)并且进一步包含桥-螺旋和一个或多个锌指基序;和具有螺旋束的n末端rec亚基,wed楔状(或“寡核苷酸结合结构域”,obd)结构域,和任选的锌指基序。crispr-cas内切核酸酶,当与seqidno:17进行比对时相对于seqidno:17的氨基酸位置编号,包含以下中的至少一种、至少两种、至少三种、至少四种、至少五种、至少六种或七种:位置337处的甘氨酸(g)、位置341处的甘氨酸(g)、位置430处的谷氨酸(e)、位置432处的亮氨酸(l)、位置487处的半胱氨酸(c)、位置490处的半胱氨酸(c)、位置507处的半胱氨酸(c)和/或位置512处的半胱氨酸(c)或组氨酸(h)。cas-α内切核酸酶包含,以下基序:gxxxg、exl、cxnc、cxn(c或h)(其中n=一个或多个氨基酸)。已有文献证明ruvc结构域包含内切核酸酶功能。cas-α内切核酸酶可以从包含编码效应子蛋白的cas-α基因和包含多个重复序列的阵列的基因座分离或鉴定。在一些方面,cas-α基因座还可包含部分或完整的cas1基因、cas2基因和/或cas4基因。锌指基序是协调一个或多个锌离子的结构域,通常通过半胱氨酸和组氨酸侧链来稳定它们的折叠。锌指以与锌离子配位的半胱氨酸和组氨酸残基的模式命名(例如,c4表示锌离子由四个半胱氨酸残基配位;c3h表示锌离子由三个半胱氨酸残基和一个组氨酸残基配位)。cas-α蛋白包含一个或多个可形成锌结合域的锌指(zfn)配位基序。锌指样基序可以帮助靶和非靶链分离以及将指导rna加载到dna靶中。包含一个或多个锌指基序的cas-α蛋白可为靶多核苷酸上的核糖核蛋白复合物提供另外的稳定性。cas-α蛋白包含c4或c3h锌结合结构域。一些cas-α蛋白和多核苷酸在图7a-7k中给出,图8a-8k分别描绘内切核酸酶蛋白的关键结构基序。cas-α内切核酸酶是rna指导的内切核酸酶,能够结合和切割双链dna靶,所述双链dna靶包含:(1)与指导rna的核苷酸序列具有同源性的序列,以及(2)pam序列。在某些方面,pam富含t。在某些方面,pam富含c。cas-α内切核酸酶具有双链断裂诱导剂的功能,也可以是切口酶或单链断裂诱导剂。在一些方面,无催化活性的cas-α内切核酸酶可用于靶向或募集至靶dna序列但不诱导切割。在一些方面,无催化活性的cas-α蛋白可以与功能性内切核酸酶一起使用,以切割靶序列。在一些方面,无催化活性的cas-α蛋白可以与碱基编辑分子,例如脱氨酶组合。在一些方面,脱氨酶可以是胞苷脱氨酶。在一些方面,脱氨酶可以是腺嘌呤脱氨酶。在一些方面,脱氨酶可以是adar-2。cas-α内切核酸酶进一步定义为rna指导的双链dna切割蛋白,其与seqidno:17、18、19、20、32、33、34、35、36、37、38、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370和371中任一个或其功能片段,或其保留至少部分活性的功能变体的至少50、50至100、至少100、100至150、至少150、150至200、至少200、200至250、至少250、250至300、至少300、300至350、至少350、350至400、至少400、400至450、至少500或大于500个连续氨基酸具有至少50%、50%至55%、至少55%、55%至60%、至少60%、60%至65%、至少65%、65%至70%、至少70%、70%至75%、至少75%、75%至80%、至少80%、80%至85%、至少85%、85%至90%、至少90%、90%至95%、至少95%、95%至96%、至少96%、96%至97%、至少97%、97%至98%、至少98%、98%至99%、至少99%、99%至100%或100%序列同一性。cas-α内切核酸酶的“功能片段”保留了识别、结合双链多核苷酸的单链或使双链多核苷酸的单链产生切口,或切割双链多核苷酸的两条链,或前述的任何组合的能力。cas-α内切核酸酶可由多核苷酸编码,所述多核苷酸与seqidno:13、14、15、16、25、26、27、28、29、30或31中任一个的至少50、50至100、至少100、100至150、至少150、150至200、至少200、200至250、至少250、250至300、至少300、300至350、至少350、350至400、至少400、400至450、至少500、500至550、至少600、600至650、至少650、650至700、至少700、700至750、至少750、750至800、至少800、800至850、至少850、850至900、至少900、900至950、至少950、950至1000、至少1000或甚至大于1000个连续核苷酸具有至少50%、50%至55%、至少55%、55%至60%、至少60%、60%至65%、至少65%、65%至70%、至少70%、70%至75%、至少75%、75%至80%、至少80%、80%至85%、至少85%、85%至90%、至少90%、90%至95%、至少95%、95%至96%、至少96%、96%至97%、至少97%、97%至98%、至少98%、98%至99%、至少99%、99%至100%或100%序列同一性,或编码seqidno:17、18、19、20、32、33、34、35、36、37、38、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370和371中的任一个。用于本公开方法的cas内切核酸酶、效应子蛋白或其功能性片段可从天然来源或重组来源中分离,在重组来源中,遗传修饰的宿主细胞被修饰以表达编码所述蛋白的核酸序列。可替代地,可以使用无细胞蛋白表达系统生产cas蛋白或合成地产生cas蛋白。效应子cas核酸酶可以被分离并引入异源细胞,或者可以从其天然形式进行修饰,以表现出与其天然来源不同的活性类型或大小。此类修饰包括但不限于:片段、变体、取代、缺失和插入。cas内切核酸酶和cas效应子蛋白的片段和变体可以经由例如定点诱变和合成构建等方法来获得。测量内切核酸酶活性的方法是本领域众所周知的,例如但不限于,2013年11月7日公开的wo2013166113、2016年11月24日公开的wo2016186953和2016年11月24日公开的wo2016186946。cas内切核酸酶可以包括cas多肽的修饰形式。cas多肽的修饰形式可包括降低cas蛋白的天然存在的核酸酶活性的氨基酸改变(例如,缺失、插入或取代)。例如,在一些情况下,该cas蛋白的修饰形式具有低于50%、低于40%、低于30%、低于20%、低于10%、低于5%、或低于1%的相应的野生型cas多肽(2014年3月6日公开的us20140068797)的核酸酶活性。在某些情况下,cas多肽的修饰形式没有实质的核酸酶活性,被称为催化“失活的cas”或“灭活的cas(dcas)”。失活的cas/灭活的cas包括灭活cas内切核酸酶(dcas)。可以将无催化活性的cas效应子蛋白与异源序列融合,以诱导或修饰活性。cas内切核酸酶可以是包含一个或多个异源蛋白质结构域(例如除cas蛋白之外的1、2、3或更多个结构域)的融合蛋白的一部分。这样的融合蛋白可以包含任何另外的蛋白序列,以及任选地在任何两个结构域之间(例如在cas和第一异源结构域之间)的连接体序列。可以与本文中的cas蛋白融合的蛋白结构域的实例包括但不限于表位标签(例如,组氨酸[his]、v5、flag、流感血球凝集素[ha]、myc、vsv-g、硫氧还蛋白[trx]);报告子(例如谷胱甘肽-5-转移酶[gst]、辣根过氧化物酶[hrp]、氯霉素乙酰转移酶[cat]、β-半乳糖苷酶、β-葡萄糖醛酸酶[gus]、荧光素酶、绿色荧光蛋白[gfp]、hcred、dsred、青色荧光蛋白[cfp]、黄色荧光蛋白[yfp]、蓝色荧光蛋白[bfp]);以及具有一个或多个以下活性的结构域:甲基化酶活性、脱甲基酶活性、转录激活活性(例如,vp16或vp64)、转录抑制活性、转录释放因子活性、组蛋白修饰活性、rna切割活性和核酸结合活性。cas蛋白还可以与结合dna分子或其他分子的蛋白融合,例如麦芽糖结合蛋白(mbp)、s-标签、lexadna结合结构域(dbd)、gal4adna结合结构域和单纯疱疹病毒(hsv)vp16。可以将催化活性和/或失活的cas内切核酸酶融合至异源序列(2014年3月6日公开的us20140068797)。适合的融合配偶体包括,但不限于提供活性的多肽,该活性通过直接作用于靶dna上或与该靶dna相关的多肽(例如,组蛋白或其他dna-结合蛋白)上间接地增加转录。另外的适合的融合配偶体包括,但不限于提供甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化酶活性、腺苷酸化活性、去腺苷酸化活性、苏素化活性、去苏素化活性、核糖基化活性、去核糖基化活性、豆蔻酰化活性,或去豆蔻酰化活性的多肽。此外适合的融合配偶体包括,但不限于直接提供靶核酸的增加的转录的多肽(例如,募集转录激活因子、小分子/药物-应答性转录调节因子等的转录激活因子或其片段,蛋白质或其片段)。部分活性或无催化活性的cas-α内切核酸酶也可以与另一种蛋白或结构域融合,例如clo51或foki核酸酶,以产生双链断裂(guilinger等人naturebiotechnology[自然生物技术],第32卷,第6期,2014年6月)。催化活性或失活的cas蛋白,例如本文所述的cas-α蛋白,也可以与指导多核苷酸序列中单个或多个碱基编辑的分子融合,例如位点特异性脱氨酶,所述脱氨酶可以改变核苷酸的同一性,例如从c·g到t·a或从a·t到g·c(gaudelli等人,programmablebaseeditingofa·ttog·cingenomicdnawithoutdnacleavage[基因组dna中a·t到g·c的可编程碱基编辑,无需dna切割].″nature[自然](2017);nishida等人“targetednucleotideeditingusinghybridprokaryoticandvertebrateadaptiveimmunesystems[使用混合原核和脊椎动物适应性免疫系统进行靶向核苷酸编辑].”science[科学]353(6305)(2016);komor等人“programmableeditingofatargetbaseingenomicdnawithoutdouble-strandeddnacleavage[无需双链dna切割即可对基因组dna中的靶碱基进行可编程编辑].”nature[自然]533(7603)(2016):420-4.)。碱基编辑融合蛋白可包含例如活性(双链断裂产生)、部分活性(切口酶)或失活(无催化活性)的cas-α内切核酸酶和脱氨酶(例如但不限于胞苷脱氨酶、腺嘌呤脱氨酶、apobec1、apobec3a、be2、be3、be4、abe等)。碱基编辑修复抑制剂和糖基化酶抑制剂(例如:在一些实施例中,尿嘧啶糖基化酶抑制剂(以防止尿嘧啶移除))被认为是碱基编辑系统的其他组分。本文所述的cas内切核酸酶可以通过本领域已知的方法表达和纯化,例如如2016年11月24日公开的wo/2016/186953中所述。迄今为止,已经描述了可以识别特定pam序列(2016年11月24日公开的wo2016186953、2016年11月24日公开的wo2016186946和zetscheb等人2015.cell[细胞]163,1013)并在特定位置切割靶dna的许多cas内切核酸酶。应当理解的是,基于本文所述的使用新颖的受指导的cas系统的方法和实施例,现在本领域技术人员可以定制这些方法,使得它们可以利用任何受指导的内切核酸酶系统。cas效应子蛋白可包含异源核定位序列(nls)。例如,本文中的异源nls氨基酸序列可能具有足够的强度来驱动在本文的酵母细胞细胞核中可检测的量的cas蛋白的积累。nls可以包含碱性、带正电荷的残基(例如赖氨酸和/或精氨酸)的一个(单分型)或多个(例如,二分型)短序列(例如,2至20个残基),并且可以位于cas氨基酸序列中的任何地方,但使得其暴露于蛋白表面上。例如,nls可以有效地连接到本文中的cas蛋白的n-末端或c-末端。两个或更多个nls序列可以连接到cas蛋白,例如在cas蛋白的n-末端和c-末端两者。cas内切核酸酶基因可以可操作地连接至cas密码子区域上游的sv40核靶向信号和cas密码子区域下游的二分型vird2核定位信号(tinland等人,(1992)proc.natl.acad.sci.usa[美国国家科学院院刊]89:7442-6)。本文中适合的nls序列的非限制性实例包括在美国专利号6,660,830和7,309,576中公开的那些。指导多核苷酸指导多核苷酸使得cas内切核酸酶能够进行靶识别、结合和任选地切割,并且可以是单分子或双分子。指导多核苷酸序列可以是rna序列、dna序列或其组合(rna-dna组合序列)。任选地,指导多核苷酸可以包含至少一种核苷酸、磷酸二酯键或连接修饰,例如但不限于锁核酸(lna)、5-甲基dc、2,6-二氨基嘌呤、2′-氟代a、2′-氟代u、2′-o-甲基rna、硫代磷酸酯键、与胆固醇分子的连接、与聚乙二醇分子的连接、与间隔子18(六乙二醇链)分子的连接、或导致环化的5′至3′共价连接。仅包含核糖核酸的指导多核苷酸也称为“指导rna”或“grna”(2015年3月19日公开的us20150082478和2015年2月26日公开的us20150059010)。指导多核苷酸可以被工程改造或合成。指导多核苷酸包括嵌合的非天然存在的指导rna,所述指导rna包含在自然界中未一起发现的区域(即,它们彼此是异源的)。例如,嵌合的非天然存在的指导rna包含可与靶dna中的核苷酸序列杂交的第一核苷酸序列结构域(称为可变靶向结构域或vt结构域),所述第一核苷酸序列结构域与可识别cas内切核酸酶的第二核苷酸序列连接,使得所述第一和第二核苷酸序列在自然界中未被发现连接在一起。指导多核苷酸可以是包含cr核苷酸序列(例如crrna)和tracr核苷酸(例如tracrrna)序列的双分子(也称为双链体指导多核苷酸)。在一些情况下,存在连接crrna和tracrrna以形成单指导物的接头多核苷酸,例如sgrna。cr核苷酸包括可以与靶dna中的核苷酸序列杂交的第一核苷酸序列区域(称为可变靶向结构域或vt结构域)和作为cas内切核酸酶识别(cer)域的一部分的第二核苷酸序列(也称为tracr配对序列)。tracr配对序列可以沿互补区域与tracr核苷酸杂交,并一起形成cas内切核酸酶识别结构域或cer结构域。cer结构域能够与cas内切核酸酶多肽相互作用。双链体指导多核苷酸的cr核苷酸和tracr核苷酸可以是rna、dna和/或rna-dna组合序列。在一些实施例中,双链体指导多核苷酸的cr核苷酸分子被称为“crdna”(当由dna核苷酸的连续延伸构成时)或“crrna”(当由rna核苷酸的连续延伸构成时)或“crdna-rna”(当由dna和rna核苷酸的组合构成时)。cr核苷酸可以包含在细菌和古细菌中天然存在的crrna的片段。可以存在于本文披露的cr核苷酸中的、细菌和古细菌中天然存在的crrna片段的大小可以是但不限于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个核苷酸。在一些实施例中,crrna分子选自由以下组成的组:seqidno:57、58和59。在一些实施例中,tracr核苷酸被称为“tracrrna”(当由rna核苷酸的连续延伸构成时)或“tracrdna”(当由dna核苷酸的连续延伸构成时)或“tracrdna-rna”(当由dna和rna核苷酸的组合构成时)。在一个实施例中,指导rna/cas9内切核酸酶复合物的rna是包含双链体crrna-tracrrna的双链体化的rna。在5′-至-3′方向上,tracrrna(反式激活crisprrna)包含(i)与crisprii型crrna的重复区退火的序列和(ii)含茎环的部分(deltcheva等人,nature[自然]471:602-607)。双链体指导多核苷酸可以与cas内切核酸酶形成复合物,其中所述指导多核苷酸/cas内切核酸酶复合物(还称为指导多核苷酸/cas内切核酸酶系统)可以将cas内切核酸酶引导至基因组靶位点,使所述cas内切核酸酶能够识别、结合靶位点、并任选地使靶位点产生切口或切割(引入单链或双链断裂)靶位点。(2015年3月19日公开的us20150082478和2015年2月26日公开的us20150059010)。在一些实施例中,tracrrna分子选自由以下组成的组:seqidno:60-68。在一个方面,所述指导多核苷酸是能够形成文所述的pgen的指导多核苷酸,其中所述指导多核苷酸包含与靶dna中的核苷酸序列互补的第一核苷酸序列结构域和与所述cas内切核酸酶多肽相互作用的第二核苷酸序列结构域。在一个方面,所述指导多核苷酸是本文所述的针对多核苷酸,其中所述第一核苷酸序列和所述第二核苷酸序列结构域选自由以下组成的组:dna序列、rna序列及其组合。在一个方面,所述指导多核苷酸是本文所述的指导多核苷酸,其中所述第一核苷酸序列和所述第二核苷酸序列结构域选自由以下组成的组:增强稳定性的rna主链修饰,增强稳定性的dna主链修饰及其组合(参见kanasty等人,2013,commonrna-backbonemodifications[常见rna主链修饰],naturematerials[自然材料]12:976-977;2015年3月19日公开的us20150082478和2015年2月26日公开的us20150059010)所述指导rna包括双分子,所述双分子包含与至少一个tracrrna连接的嵌合的非天然存在的crrna。嵌合的非天然存在的crrna包括包含在自然界中不一起发现的区域(即,它们彼此异源)的crrna。例如,crrna包含可与靶dna中的核苷酸序列杂交的第一核苷酸序列结构域(称为可变靶向结构域或vt结构域),所述第一核苷酸序列结构域与第二核苷酸序列(也称为tracr配对序列)连接,使得所述第一和第二序列在自然界中未被发现连接在一起。指导多核苷酸也可以是包含连接至tracr核苷酸序列的cr核苷酸序列的单分子(也称为单指导多核苷酸)。单指导多核苷酸包含可以与靶dna中的核苷酸序列杂交的第一核苷酸序列结构域(称为可变靶向(variabletargeting)结构域或vt结构域)和与cas内切核酸酶多肽相互作用的cas内切核酸酶识别(casendonucleaserecognition)结构域(cer结构域)。在一些实施例中,sgrna分子选自由以下组成的组:seqidno:69-77。单指导多核苷酸的vt结构域和/或cer结构域可以包含rna序列、dna序列或rna-dna组合序列。由来自cr核苷酸和tracr核苷酸的序列构成的单指导多核苷酸可以被称为“单指导rna”(当由rna核苷酸的连续延伸构成时)或“单指导dna”(当由dna核苷酸的连续延伸构成时)或“单指导rna-dna”(当由rna和dna核苷酸的组合构成时)。单指导多核苷酸可以与cas内切核酸酶形成复合物,其中所述指导多核苷酸/cas内切核酸酶复合物(还称为指导多核苷酸/cas内切核酸酶系统)可以将cas内切核酸酶引导至基因组靶位点,使所述cas内切核酸酶能够识别、结合靶位点、并任选地使靶位点产生切口或切割(引入单链或双链断裂)靶位点。(2015年3月19日公开的us20150082478和2015年2月26日公开的us20150059010)。嵌合的非天然存在的单指导rna(sgrna)包括包含在自然界中不一起发现的区域(即,它们彼此异源)的sgrna。例如,sgrna包含可与靶dna中的核苷酸序列杂交的第一核苷酸序列结构域(称为可变靶向结构域或vt结构域),所述第一核苷酸序列结构域与在自然界中未被发现连接在一起的第二核苷酸序列(也称为tracr配对序列)连接。连接单指导多核苷酸的cr核苷酸和tracr核苷酸的核苷酸序列可以包含rna序列、dna序列或rna-dna组合序列。在一个实施例中,连接单指导多核苷酸的cr核苷酸和tracr核苷酸的核苷酸序列(也称为“环”)可以是至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100个核苷酸的长度。在另一个实施例中,连接单指导多核苷酸的cr核苷酸和tracr核苷酸的核苷酸序列可以包括四环序列,如但不限于gaaa四环序列。指导多核苷酸可以通过本领域已知的任何方法产生,包括化学合成指导多核苷酸(例如但不限于hendel等人2015,naturebiotechnology[自然生物技术]33,985-989)、体外产生的指导多核苷酸、和/或自剪接指导rna(例如但不限于xie等人2015,pnas[美国国家科学院院刊]112:3570-3575)。前间隔子邻近基序(pam)本文中的“前间隔子邻近基序”(pam)是指与由指导多核苷酸/cas内切核酸酶系统可以识别的(靶向的)靶序列(前间隔子)相邻的短核苷酸序列。如果靶dna序列不在pam序列后面,则cas内切核酸酶可能无法成功识别所述靶dna序列。本文中的pam的序列和长度可以取决于所使用的cas蛋白或cas蛋白复合物而不同。所述pam序列可以是任何长度,但典型地是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸长度。“随机的pam”和“随机的前间隔子邻近基序”在本文中可互换地使用,并且意指邻近由指导多核苷酸/cas内切核酸酶系统识别(靶向)的靶序列(前间隔子)的随机dna序列。随机的pam序列可以是任何长度,但典型地是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸长度。随机的核苷酸包括核苷酸a、c、g或t中的任一者。指导多核苷酸/cas内切核酸酶复合物本文所述的指导多核苷酸/cas内切核酸酶复合物能够识别、结合靶序列的全部或部分并任选地使靶序列的全部或部分产生切口、解旋或切割靶序列的全部或部分。可以切割dna靶序列的两条链的指导多核苷酸/cas内切核酸酶复合物通常包含具有处于功能状态的所有其内切核酸酶结构域的cas蛋白(例如野生型内切核酸酶结构域或其变体在每个内切核酸酶结构域中保留一些或全部活性)。因此,在cas蛋白的每个内切核酸酶结构域中保留一些或全部活性的野生型cas蛋白(例如,本文披露的cas蛋白)或其变体是可以切割dna靶序列的两条链的cas内切核酸酶的合适实例。可以切割dna靶序列的一条链的指导多核苷酸/cas内切核酸酶酶复合物可以在本文中表征为具有切口酶活性(例如,部分切割能力)。cas切口酶通常包含一个功能性内切核酸酶结构域,该结构域允许cas仅切割dna靶序列的一条链(即,形成切口)。例如,cas9切口酶可以包含(i)突变的、功能失调的ruvc结构域和(ii)功能性hnh结构域(例如野生型hnh结构域)。作为另一个实例,cas9切口酶可以包含(i)功能性ruvc结构域(例如野生型ruvc结构域)和(ii)突变的功能失调的hnh结构域。在2014年7月3日公开的us20140189896中公开了适用于本文的cas9切口酶的非限制性实例。可以使用一对cas切口酶来增加dna靶向的特异性。一般来说,这可以通过提供两个cas切口酶来进行,这两个cas切口酶通过与具有不同引导序列的rna组分缔合,在希望靶向的区域的相反链上在dna序列附近进行靶向和切口。每个dna链的这样的附近切割产生双链断裂(即,具有单链突出端的dsb),其然后被识别为非同源末端连接(nhej)(倾向于产生导致突变的不完美修复)或同源重组(hr)的底物。在这些实施例中的每个切口可以彼此隔开例如至少约5、5至10、至少10、10至15、至少15、15至20、至少20、20至30、至少30、30至40、至少40、40至50、至少50、50至60、至少60、60至70、至少70、70至80、至少80、80至90、至少90、90至100或100或更多(或5至100的任何整数)个碱基。本文中的一种或两种cas切口酶蛋白可以用于cas切口酶对。例如,可以使用具有突变的ruvc结构域但具有功能性hnh结构域的cas9切口酶(即,cas9hnh+/ruvc-)(例如,酿脓链球菌cas9hnh+/ruvc-)。通过使用本文中的合适的rna组分(具有将每个切口酶靶向每个特异性dna位点的指导rna序列),将每个cas9切口酶(例如,cas9hnh+/ruvc-)引导到彼此邻近(分离多达100个碱基对)的特定的dna位点。在某些实施例中指导多核苷酸/cas内切核酸酶复合物可以结合dna靶位点序列,但不切割在靶位点序列处的任何链。这样的复合物可以包含其中所有核酸酶结构域都是突变的、功能失调的cas蛋白。例如,可以结合到dna靶位点序列但在靶位点序列处不切割任何链的cas9蛋白可以包含突变的、功能失调的ruvc结构域和突变的、功能失调的hnh结构域。结合但不切割靶dna序列的本文中的cas蛋白可以用于调节基因表达,例如,在该情况下,cas蛋白可以与转录因子(或其部分)融合(例如抑制子或激活子,例如本文披露的那些中的任一种)。一方面,本文所述的指导多核苷酸/cas内切核酸酶复合物(pgen)是pgen,其中所述cas内切核酸酶任选地共价或非共价连接到或组装到至少一个蛋白亚基或其功能性片段。在本公开的一个实施例中,指导多核苷酸/cas内切核酸酶复合物是包含至少一种指导多核苷酸和至少一种cas内切核酸酶多肽的指导多核苷酸/cas内切核酸酶复合物(pgen),其中所述cas内切核酸酶多肽包含至少一个蛋白亚基或其功能性片段,其中所述指导多核苷酸是嵌合的非天然存在的指导多核苷酸,其中所述指导多核苷酸/cas内切核酸酶复合物能够识别、结合靶序列的全部或部分并任选地使靶序列的全部或部分产生切口、解旋或切割靶序列的全部或部分。cas效应子蛋白可以是如本文公开的cas-α效应子蛋白。在本公开的一个实施例中,指导多核苷酸/cas效应子复合物是包含至少一种指导多核苷酸和cas-α效应子蛋白的指导多核苷酸/cas效应子蛋白酶复合物(pgen),其中所述指导多核苷酸/cas效应子蛋白复合物能够识别、结合靶序列的全部或部分并任选地使靶序列的全部或部分产生切口、解旋或切割靶序列的全部或部分。pgen可以是指导多核苷酸/cas效应子蛋白复合物,其中所述cas效应子蛋白进一步包含至少一个蛋白亚基或其功能片段的一个拷贝或多个拷贝。在一些实施例中,所述蛋白质亚基选自由casl蛋白亚基、cas2蛋白亚基、cas4蛋白亚基及其任何组合组成的组。pgen可以是指导多核苷酸/cas效应子蛋白复合物,其中所述cas效应子蛋白进一步包含选自由cas1、cas2和cas4组成的组中的至少两个不同的蛋白亚基。所述pgen可以是指导多核苷酸/cas效应子蛋白复合物,其中所述cas效应子蛋白进一步包含至少三种不同的蛋白亚基或其功能片段,所述蛋白亚基选自由以下组成的组:cas1、cas2和任选地包含cas4的一种另外cas蛋白。一方面,本文所述的指导多核苷酸/cas效应子蛋白复合物(pgen)是pgen,其中所述cas效应子蛋白共价或非共价连接到至少一个蛋白亚基或其功能片段。pgen可以是指导多核苷酸/cas效应子蛋白复合物,其中所述cas效应子蛋白多肽共价或非共价连接或组装至至少一个蛋白亚基或其功能片段的一个或多个拷贝,所述至少一个蛋白亚基选自由以下组成的组:cas1蛋白亚基、cas2蛋白亚基、任选包含cas4蛋白亚基的一种另外cas蛋白及其任何组合。pgen可以是指导多核苷酸/cas效应子蛋白复合物,其中所述cas效应子蛋白共价或非共价连接或组装至至少两种不同的蛋白亚基,所述至少两种不同的蛋白亚基选自由以下组成的组:cas1、cas2和任选地包含cas4的一种另外cas蛋白。pgen可以是指导多核苷酸/cas效应子蛋白复合物,其中所述cas效应子蛋白共价或非共价连接至至少三种不同的蛋白亚基或其功能片段,所述至少三种不同的蛋白亚基选自由以下组成的组:cas1、cas2、和任选地包含cas4的一种另外cas蛋白,及其任何组合。指导多核苷酸/cas效应子蛋白复合物的任何组分、指导多核苷酸/cas效应子蛋白复合物本身,以及一个或多个多核苷酸修饰模板和/或一个或多个供体dna可以通过本领域已知的任何方法引入异源细胞或生物体。用于细胞转化的重组构建体可以将本文公开的指导多核苷酸、cas内切核酸酶、多核苷酸修饰模板、供体dna、指导多核苷酸/cas内切核酸酶系统以及其任意一种组合(任选地进一步包含一个或多个目的多核苷酸)引入细胞中。细胞包括但不限于人、非人、动物、细菌、真菌、昆虫、酵母、非常规酵母和植物细胞,以及通过本文所述的方法产生的植物和种子。本文使用的标准重组dna和分子克隆技术是在本领域熟知的,并且更全面地描述于sambrook等人,molecularcloning:alaboratorymanual[分子克隆:实验室手册];coldspringharborlaboratory:coldspringharbor,ny[冷泉港实验室:冷泉港,纽约州](1989)中。转化方法是本领域技术人员熟知的并且在下文中进行了描述。载体和构建体包括环状质粒和包含目的多核苷酸的线状多核苷酸,以及任选地包括接头、衔接子、用于调节或分析的其他组分。在一些实例中,识别位点和/或靶位点可以包含在内含子、编码序列、5′utr、3′utr、和/或调节区内。在原核和真核细胞中表达和利用新颖crispr-cas系统的组分本发明还提供了用于在原核或真核细胞/生物体中表达指导rna/cas系统的表达构建体,所述指导rna/cas系统能够识别、结合靶序列的全部或部分并任选地使靶序列的全部或部分产生切口、解旋或切割靶序列的全部或部分。在一个实施例中,本发明的表达构建体包含与编码cas基因的核苷酸序列(或经植物优化的,包括本文所述的cas内切核酸酶基因)可操作地连接的启动子和与本公开的指导rna可操作地连接的启动子。所述启动子能够驱动在原核或真核细胞/生物中可操作地连接的核苷酸序列的表达。指导多核苷酸、vt结构域和/或cer结构域的核苷酸序列修饰可以选自但不限于由以下各项组成的组:5′帽、3′聚腺苷酸尾、核糖开关序列、稳定性控制序列、形成dsrna双链体的序列、将指导多核苷酸靶向亚细胞位置的修饰或序列、提供跟踪的修饰或序列、提供蛋白质结合位点的修饰或序列、锁核酸(lna)、5-甲基dc核苷酸、2,6-二氨基嘌呤核苷酸、2′-氟代a核苷酸、2′-氟代u核苷酸、2′-o-甲基rna核苷酸、硫代磷酸酯键、与胆固醇分子的连接、与聚乙二醇分子的连接、与间隔子18分子的连接、5′至3′共价连接、或其任何组合。这些修饰可以产生至少一个另外的有益特征,其中该另外的有益特征选自由以下组成的组:修改的或调节的稳定性、亚细胞靶向、跟踪、荧光标记、用于蛋白质或蛋白质复合物的结合位点、对互补靶序列的修改的结合亲和力、修改的细胞降解抗性和增加的细胞通透性。在真核细胞中表达rna组分(例如grna)用于进行cas9介导的dna靶向的方法已经使用rna聚合酶iii(poliii)启动子,其允许具有精确定义的未修饰的5′-和3′-末端的rna转录(dicarlo等人,nucleicacidsres.[核酸研究]41:4336-4343;ma等人,mol.ther.nucleicacids[分子治疗-核酸]3:e161)。此策略已经成功应用于若干不同物种(包括玉蜀黍和大豆)的细胞中(2015年3月19日公开的us20150082478)。已经描述了用于表达并不具有5′帽的rna组分的方法(2016年2月18日公开的wo2016/025131)。可以采用不同方法和组合物来获得细胞或生物,所述细胞或生物具有插入到针对cas内切核酸酶的靶点中的目的多核苷酸。此类方法可以采用同源重组(hr)以提供目的多核苷酸在靶位点处的整合。在本文所述的一种方法中,经由供体dna构建体,将目的多核苷酸引入生物体细胞。供体dna构建体进一步包含位于目的多核苷酸侧翼的同源的第一区域和第二区域。供体dna的同源的第一区域和第二区域分别与存在于细胞或生物基因组的靶点中或位于所述靶点侧翼的第一和第二基因组区域具有同源性。供体dna可以与指导多核苷酸进行系链。系链的供体dna可以允许共定位靶标和供体dna,可用于基因组编辑、基因插入和靶向的基因组调节,并且还可以用于靶向有丝分裂后期细胞,在这些细胞中内源性hr机制的功能预计会大大降低(mali等人,2013naturemethods[自然方法]第10卷:957-963)。由靶标和供体多核苷酸共享的同源性或序列同一性的量可以变化,并且包括总长度和/或在约1-20bp、20-50bp、50-100bp、75-150bp、100-250bp、150-300bp、200-400bp、250-500bp、300-600bp、350-750bp、400-800bp、450-900bp、500-1000bp、600-1250bp、700-1500bp、800-1750bp、900-2000bp、1-2.5kb、1.5-3kb、2-4kb、2.5-5kb、3-6kb、3.5-7kb、4-8kb、5-10kb,或多达并包括靶位点的总长度的范围内具有单位整数值的区域。这些范围包括所述范围内的每个整数,例如1-20bp的范围包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20bp。同源性的量也可以通过在两个多核苷酸的完整比对长度上的百分比序列同一性来描述,其包括至少约50%、55%、60%、65%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、98%至99%、99%、99%至100%或100%的百分比序列同一性。足够的同源性包括多核苷酸长度、总体百分比序列同一性,和任选地连续核苷酸的保守区域或局部百分比序列同一性的任何组合,例如,足够的同源性可以被描述为与靶基因座的区域具有至少80%序列同一性的75-150bp的区域。还可以通过用来在高严格条件下特异性杂交的两个多核苷酸的预测能力来描述足够的同源性,参见例如sambrook等人,(1989)molecularcloning:alaboratorymanual[分子克隆:实验室手册](coldspringharborlaboratorypress,ny[纽约冷泉港实验室出版社]);currentprotocolsinmolecularbiology[分子生物学现代方案],ausubel等人,编辑(1994)currentprotocols[实验室指南](greenepublishingassociates,inc.[格林出版合伙公司]和johnwiley&sons,inc.[约翰威利父子公司]);以及tijssen(1993)laboratorytechniquesinbiochemistryandmolecularbiology--hybridizationwithnucleicacidprobes[生物化学和分子生物学中的实验室技术--与核酸探针杂交](elsevier[爱思唯尔出版社],纽约)。在给定的基因组区域和在供体dna上发现的相应的同源的区域之间的结构相似性可以是允许同源重组发生的任何程度的序列同一性。例如,由供体dna的“同源的区域”和生物体基因组的“基因组区域”共享的同源性或序列同一性的量可以是至少50%、55%、60%、65%、70%、75%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%序列同一性,这样使得序列进行同源重组。供体dna上的同源的区域可以与靶位点侧翼的任何序列具有同源性。虽然在一些情况下,同源的区域与紧邻靶位点侧翼的基因组序列共享显著的序列同源性,但是应当认识到同源的区域可以被设计为与可能更靠近靶位点的5′或3′的区域具有足够的同源性。同源的区域还可以与靶位点的片段以及下游基因组区域具有同源性。在一个实施例中,第一同源的区域进一步包含靶位点中的第一片段,并且第二同源的区域包含靶位点中的第二片段,其中第一片段和第二片段不同。目的多核苷酸在本文中进一步描述了目的多核苷酸,并且包括反映涉及作物发育的那些的商业市场和利益的多核苷酸。目的作物和市场发生变化,以及随着发展中国家打开国际市场,新作物和技术也将出现。此外,随着我们对农学性状和特征(例如产量和杂种优势增加)的理解逐渐深入,对用于基因工程的基因的选择将会相应变化。目的多核苷酸的一般类别包括,例如涉及信息的那些目的基因(例如锌指),涉及通讯的那些基因(例如激酶),以及涉及管家的那些基因(例如热休克蛋白)。更具体的目的多核苷酸包括但不限于涉及具有农艺学重要性的性状的基因,所述具有农艺学重要性的性状例如但不限于:作物产量、谷粒质量、作物营养成分、淀粉和碳水化合物质量和数量的基因、连同及影响籽粒大小、蔗糖载量、蛋白质量和数量、固氮和/或氮利用、脂肪酸和油组成的那些基因、编码赋予对非生物胁迫(例如干旱、氮、温度、盐度、毒性金属、或痕量元素)的抗性的蛋白质,或赋予对毒素(例如杀有害生物剂和除草剂)的抗性的那些蛋白质的基因、编码赋予对生物胁迫(例如真菌、病毒、细菌、昆虫和线虫的攻击以及与这些生物体相关的疾病的发展)的抗性的蛋白质的基因。除了使用传统的育种方法之外,还可通过遗传方式改变农艺学上重要的性状(例如油、淀粉、和蛋白质含量)。修饰包括增加油酸、饱和及不饱和油的含量、增加赖氨酸和硫的水平、提供必需氨基酸、以及还有对淀粉的修饰。在美国专利号5,703,049、5,885,801、5,885,802和5,990,389中描述了戈多硫蛋白(hordothionin)的蛋白修饰。目的多核苷酸序列可以编码涉及提供疾病或有害生物抗性的蛋白。“疾病抗性”或“有害生物抗性”意在是植物避免为植物-病原体相互作用后果的有害症状的发生。有害生物抗性基因可以编码对严重影响产率的有害生物的抗性,这些有害生物例如根虫、切根虫、欧洲玉米螟等。疾病抗性基因和抗昆虫基因,例如用于抗细菌保护的溶菌酶或天蚕杀菌肽,或用于抗真菌保护的蛋白,例如防御素、葡聚糖酶、或几丁质酶,或用于控制线虫或昆虫的苏云金芽孢杆菌内毒素、蛋白酶抑制剂、胶原酶、凝集素、或糖苷酶,均是有用的基因产物的实例。编码疾病抗性性状的基因包括解毒基因,例如抗伏马毒素(美国专利号5,792,931);无毒力(avr)和疾病抗性(r)基因(jones等人(1994)science[科学]266:789;martin等人(1993)science[科学]262:1432;和mindrinos等人(1994)cell[细胞]78:1089);等。抗昆虫基因可以编码对严重影响产率的有害生物的抗性,这些有害生物例如根虫、切根虫、欧洲玉米螟等。此类基因包括,例如,苏云金芽孢杆菌毒性蛋白基因(美国专利号5,366,892;5,747,450;5,736,514;5,723,756;5,593,881;和geiser等人(1986)gene[基因]48:109);等。“除草剂抗性蛋白”或由“除草剂抗性编码核酸分子”表达生成的蛋白包括这样的蛋白,其赋予细胞与未表达该蛋白的细胞相比耐受更高浓度除草剂的能力,或赋予细胞与未表达该蛋白的细胞相比对某种浓度的除草剂耐受更长时段的能力。除草剂抗性性状可通过如下基因引入进植物中:编码对起到抑制乙酰乳酸合酶(als,也称为乙酰羟基酸合酶,ahas)的作用的除草剂(特别是磺酰脲(sulfonylurea)(uk:磺酰脲(sulphonylurea))类除草剂)的抗性的基因、编码对起到抑制谷氨酰胺合酶的作用的除草剂(例如草丁膦或basta)的抗性的基因(例如bar基因)、编码对草甘膦的抗性的基因(例如epsp合酶基因和gat基因)、编码对hppd抑制剂的抗性的基因(例如hppd基因)或本领域已知的其他此类基因。参见例如美国专利号7,626,077、5,310,667、5,866,775、6,225,114、6,248,876、7,169,970、6,867,293和9,187,762。bar基因编码对除草剂basta的抗性,nptii基因编码对抗生素卡那霉素和遗传霉素的抗性,以及als-基因突变体编码对除草剂氯磺隆的抗性。此外,认识到目的多核苷酸还可以包括与针对目的所靶向的基因序列的信使rna(mrna)的至少一部分互补的反义序列。构建反义核苷酸以与相应的mrna杂交。可以对该反义序列作出修饰,只要该序列与相应的mrna杂交并干扰相应的mrna的表达。在该方式中,可以使用与相应的反义序列具有70%、80%、或85%序列同一性的反义构建体。此外,反义核苷酸的部分可以用来破坏该靶基因的表达。通常,可以使用至少50个核苷酸、100个核苷酸、200个核苷酸、或更多个核苷酸的序列。此外,目的多核苷酸还可以按有义取向来使用从而抑制植物中内源基因的表达。以有义取向使用多核苷酸用于抑制植物中基因表达的方法是本领域已知的。这些方法通常涉及用包含启动子的dna构建体的转化植物,该启动子可操作地连接到至少一部分的对应于该内源基因的转录物的核苷酸序列上,驱动在植物中的表达。通常,此类核苷酸序列与内源基因的转录物的序列具有实质性的序列同一性,通常大于约65%序列同一性、约85%序列同一性、或大于约95%序列同一性。参见美国专利号5,283,184和5,034,323。目的多核苷酸还可以是表型标志物。表型标记物是可筛选或可选择标记物,其包括视觉标记物和可选择标记物,无论它是阳性还是阴性可选择标记物。可以使用任何表型标记物。具体地,可选择或可筛选标志物包含允许人们通常在特定条件下鉴定或选择包含它的分子或细胞或对其进行选择的dna区段。这些标记物可以编码活性,例如但不限于rna、肽或蛋白质的产生,或可以提供rna、肽、蛋白质、无机和有机化合物或组合物等的结合位点。选择性标记的实例包括但不限于包含限制性内切酶位点的dna区段;编码对另外的毒性化合物提供抗性的产物的dna区段,所述毒性化合物包括抗生素,例如壮观霉素、氨苄青霉素、卡那霉素、四环素、basta、新霉素磷酸转移酶ii(neo)和潮霉素磷酸转移酶(hpt);编码在受体细胞中本身缺乏的产物的dna区段(例如,trna基因、营养缺陷型标记);编码可以容易地鉴定的产物(例如,表型标记,例如β-半乳糖苷酶、gus;荧光蛋白,例如绿色荧光蛋白(gfp)、青色荧光蛋白(cfp)、黄色荧光蛋白(yfp)、红色荧光蛋白(rfp)和细胞表面蛋白)的dna区段;产生用于pcr的新引物位点(例如,以前未并列的两个dna序列的并列),包含通过限制性内切核酸酶或其他dna修饰酶、化学品等不起作用或起作用的dna序列;并且包含允许其鉴定的特异性修饰(例如,甲基化)所需的dna序列。另外的选择性标记包括赋予除草剂化合物(例如磺酰脲、草胺磷、溴草腈、咪唑啉酮和2,4-二氯苯氧基乙酸酯(2,4-d))抗性的基因。参见例如,用于对磺酰脲、咪唑啉酮、三唑并嘧啶磺酰胺、嘧啶水杨酸和磺酰基氨基羰基-三唑啉酮(shaner和singh,1997,herbicideactivity:toxicolbiochemmolbiol[除草剂活性:毒理学,生物化学,分子生物学]69-110);草甘膦抗性5-烯醇丙酮莽草酸-3-磷酸(epsps)(saroha等人,1998,j.plantbiochemistry&biotechnology[植物生物化学&生物技术杂志]卷7:65-72)的抗性的乙酰乳酸合酶(als);目的多核苷酸包括与其他性状(例如但不限于除草剂抗性或本文描述的任何其他性状)组合堆叠或使用的基因。目的多核苷酸和/或性状可以在复杂性状基因座中堆叠在一起,如2013年10月3日公开的us20130263324和2013年8月1日公开的wo/2013/112686中所述。目的多肽包括由本文描述的目的多核苷酸编码的蛋白或多肽。进一步提供了用于鉴定至少一个植物细胞的方法,该植物细胞在其基因组中包含在靶位点处整合的目的多核苷酸。可以使用多种方法来鉴定在靶位点处或靶位点附近插入到基因组中的那些植物细胞。此类方法可被认为是直接分析靶序列以检测靶序列中的任何变化,包括但不限于pcr方法、测序方法、核酸酶消化、dna印迹法、及其任何组合。参见例如,2009年5月21日公开的us20090133152。所述方法还包括从包含整合至其基因组中的目的多核苷酸的植物细胞重新获得植物。所述植物可以是不育的或可育的。应当认识到,可以提供任何目的多核苷酸,将该多核苷酸在靶位点处整合到植物的基因组中,并在植物中表达。用于在植物中表达的序列的优化本领域中可获得用于合成植物偏好性基因的方法。参见,例如,美国专利号5,380,831和5,436,391,以及murray等人(1989)nucleicacidsres.[核酸研究]17:477-498。已知另外的序列修饰以增强在植物宿主中的基因表达。例如,这些序列修饰包括消除:编码假多聚腺苷酸化信号的一个或多个序列、一个或多个外显子-内含子剪接位点信号、一个或多个转座子样重复、以及其他可能对基因表达有害的此类良好表征的序列。可以将序列的g-c含量调节至通过参考宿主植物细胞中表达的已知基因而计算出的给定植物宿主的平均水平。当可能时,修饰序列以避免出现一个或多个预测的发夹二级mrna结构。因此,本公开的“植物优化的核苷酸序列”包括一个或多个此类序列修饰。表达元件可以将本文的编码cas蛋白或其他crispr系统组分的任何多核苷酸功能性连接至异源表达元件,以促进宿主细胞中的转录或调节。此类表达元件包括但不限于:启动子、前导子、内含子和终止子。表达元件可以是“最小的”-意指源自天然来源的较短序列,其仍充当表达调节子或修饰子起作用。可替代地,表达元件可以是“优化的”-意指其多核苷酸序列已经从其天然状态改变,以便在特定宿主细胞中以更期望的特征起作用(例如但不限于,可以将细菌启动子进行“玉蜀黍优化”以改善其在玉米植物中的表达)。可替代地,表达元件可以是“合成的”-意指其是用计算机设计的并且被合成用于在宿主细胞中使用。合成的表达元件可以是完全合成的或部分合成的(包含天然存在的多核苷酸序列的片段)。已经显示某些启动子能够以比其他启动子更高的速率引导rna合成。这些被称为“强启动子”。已经显示某些其他启动子仅以较高的水平在特定类型的细胞或组织中指导rna合成,并且如果所述启动子优选在某些组织中而且还以降低的水平在其他组织中指导rna合成则通常将其称为“组织特异性启动子”或“组织偏好性启动子”。植物启动子包括能够在植物细胞中起始转录的启动子。关于植物启动子的综述,参见potenza等人,2004invitrocelldevbiol[体外细胞与发育生物学]40:1-22;porto等人,2014,molecularbiotechnology[分子生物技术](2014),56(1),38-49。组成型启动子包括,例如,核心camv35s启动子(odell等人,(1985)nature[自然]313:810-2);稻肌动蛋白(mcelroy等人,(1990)plantcell[植物细胞]2:163-71);泛素(christensen等人,(1989)plantmolbiol[植物分子生物学]12:619-32;als启动子(美国专利号5,659,026)等。组织偏好性启动子可以用于靶向特定植物组织内的增强的表达。组织偏好性启动子包括,例如,2013年7月11日公开的wo2013103367,kawamata等人,(1997)plantcellphysiol[植物细胞生理学]38:792-803;hansen等人,(1997)molgengenet[分子和普通遗传学]254:337-43;russell等人,(1997)transgenicres[转基因研究]6:157-68;rinehart等人,(1996)plantphysiol[植物生理学]112:1331-41;vancamp等人,(1996)plantphysiol.[植物生理学]112:525-35;canevascini等人,(1996)plantphysiol.[植物生理学]112:513-524;lam,(1994)resultsproblcelldiffer[细胞分化中的结果与问题]20:181-96;以及guevara-garcia等人,(1993)plantj.[植物杂志]4:495-505。叶偏好性启动子包括,例如,yamamoto等人,(1997)plantj[植物杂志]12:255-65;kwon等人,(1994)plantphysiol[植物生理学]105:357-67;yamamoto等人,(1994)plantcellphysiol[植物细胞生理学]35:773-8;gotor等人,(1993)plantj[植物杂志]3:509-18;orozco等人,(1993)plantmolbiol[植物分子生物学]23:1129-38;matsuoka等人,(1993)proc.natl.acad.sci.usa[美国科学院院报]90:9586-90;simpson等人,(1958)emboj[欧洲分子生物学学会杂志]4:2723-9;timko等人,(1988)nature[自然]318:57-8。根偏好性启动子包括,例如,hire等人,(1992)plantmolbiol[植物分子生物学]20:207-18(大豆根特异性谷氨酰胺合酶基因);miao等人,(1991)plantcell[植物细胞]3:11-22(胞质谷氨酰胺合酶(gs));keller和baumgartner,(1991)plantcell[植物细胞]3:1051-61(法国菜豆的grp1.8基因中的根特异性控制元件);sanger等人,(1990)plantmolbiol[植物分子生物学]14:433-43(根癌农杆菌(a.tumefaciens)的甘露氨酸合酶(mas)的根特异性启动子);bogusz等人,(1990)plantcell[植物细胞]2:633-41(从榆科糙叶山黄麻(parasponiaandersonii)和山黄麻(trematomentosa)分离的根特异性启动子);leach和aoyagi,(1991)plantsci[植物科学]79:69-76(发根农杆菌(a.rhizogenes)rolc和rold根诱导型基因);teeri等人,(1989)emboj[欧洲分子生物学学会杂志]8:343-50(农杆菌伤口诱导的tr1′和tr2′基因);vfenod-grp3基因启动子(kuster等人,(1995)plantmolbiol[植物分子生物学]29:759-72);以及rolb启动子(capana等人,(1994)plantmolbiol[植物分子生物学]25:681-91);菜豆球蛋白基因(murai等人,(1983)science[科学]23:476-82;sengopta-gopalen等人,(1988)proc.natl.acad.sci.usa[美国科学院院报]82:3320-4)。还参见美国专利号5,837,876;5,750,386;5,633,363;5,459,252;5,401,836;5,110,732和5,023,179。种子偏好性启动子包括在种子发育期间有活性的种子特异性启动子以及在种子发芽期间有活性的种子发芽性启动子两者。参见thompson等人,(1989)bioessays[生物学分析]10:108。种子偏好性启动子包括但不限于ciml(细胞分裂素诱导的信息);cz19b1(玉蜀黍19kda玉米醇溶蛋白);和milps(肌醇-1-磷酸盐合酶);以及例如,在2000年3月2日公开的wo2000011177和美国专利6,225,529中公开的那些。对于双子叶植物,种子偏好性启动子包括但不限于:菜豆β-菜豆素、油菜籽蛋白、β-伴大豆球蛋白、大豆凝集素、十字花科蛋白等。对于单子叶植物,种子偏好性启动子包括但不限于玉蜀黍15kda玉蜀黍蛋白、22kda玉蜀黍蛋白、27kdaγ玉蜀黍蛋白、蜡质、收缩素1、收缩素2、球蛋白1、油质蛋白和nucl。还参见2000年3月9日公开的wo2000012733,其中公开了来自end1和end2基因的种子偏好性启动子。可以使用化学诱导型(调节型)启动子以通过应用外源化学调节剂来调节原核和真核细胞或生物体中的基因表达。在应用化学品诱导基因表达的情况下启动子可以是化学品诱导型启动子,或者在应用化学品阻抑基因表达的情况下启动子可以是化学品阻抑型启动子。化学品诱导型启动子包括但不限于:由苯磺酰胺除草剂安全剂激活的玉蜀黍in2-2启动子(deveylder等人,(1997)plantcellphysiol[植物细胞生理学]38:568-77)、由用作出苗前除草剂的疏水性亲电子化合物激活的玉蜀黍gst启动子(gst-ii-27,1993年1月21日公开的wo1993001294)、以及由水杨酸激活的烟草pr-1a启动子(ono等人,(2004)bioscibiotechnolbiochem[生物科学生物技术生物化学]68:803-7)。其他化学品调节型启动子包括类固醇反应启动子(参见,例如,糖皮质激素诱导型启动子(schena等人,(1991)proc.natl.acad.sci.usa[美国科学院院报]88:10421-5;mcnellis等人,(1998)plantj[植物杂志]14:247-257);四环素诱导型启动子和四环素阻抑型启动子(gatz等人,(1991)molgengenet[分子和普通遗传学]227:229-37;美国专利号5,814,618和5,789,156)。在被病原体感染后诱导的病原体诱导型启动子包括但不限于调节pr蛋白、sar蛋白、β-1,3-葡聚糖酶、几丁质酶等的表达的启动子。胁迫诱导型启动子包括rd29a启动子(kasuga等人(1999)naturebiotechnol[自然生物技术].17:287-91)。本领域技术人员熟悉模拟胁迫条件(如干旱、渗透胁迫、盐胁迫、和温度胁迫)并评价植物的胁迫耐受性的规程,所述植物已经遭受了模拟的或天然存在的胁迫条件。在植物细胞中有用的诱导型启动子的另一个实例是zmcas1启动子,描述于2013年11月21日公开的us20130312137中。不断发现在植物细胞中有用的不同类型的新启动子;许多实例可以在okamuro和goldberg,(1989)thebiochemistryofplants[植物生物化学],第115卷,stumpf和conn编辑(纽约,纽约州:学术出版社)1-82页的汇编中发现。用新颖crispr-cas系统组分修饰基因组如本文描述,受指导的cas内切核酸酶可以识别、结合dna靶序列,并且引入单链(切口)或双链断裂。一旦在dna中诱导单链断裂或双链断裂,则细胞的dna修复机制被激活来修复断裂。易错dna修复机制可以在双链断裂位点处产生突变。用来将断裂的末端结合在一起的最常见的修复机制是非同源末端连接(nhej)途径(bleuyard等人,(2006)dnarepair[dna修复]5:1-12)。染色体的结构完整性典型地通过修复来保存,但是缺失、插入或其他重排(如染色体易位)是可能的(siebert和puchta,2002plantcell[植物细胞]14:1121-31;pacher等人,2007genetics[遗传学]175:21-9)。dna双链断裂似乎是刺激同源重组途径的有效因子(puchta等人,(1995)plantmolbiol[植物分子生物学]28:281-92;tzfira和white,(2005)trendsbiotechnol[生物技术趋势]23:567-9;puchta,(2005)jexpbot[实验植物学杂志]56:1-14)。使用dna断裂剂,在植物中的人工构建的同源dna重复序列之间观察到同源重组的两倍至九倍的增加(puchta等人,(1995)plantmolbiol[植物分子生物学]28:281-92)。在玉蜀黍原生质体中,用线性dna分子进行的实验证实了在质粒之间增强的同源重组(lyznik等人,(1991)molgengenet[分子和普通遗传学]230:209-18)。同源-定向修复(hdr)是在细胞中用来修复双链dna和单链dna断裂的机制。同源-定向修复包括同源重组(hr)和单链退火(ssa)(lieber.2010annu.rev.biochem[生物化学年鉴].79:181-211)。hdr的最常见形式称为同源重组(hr),其在供体和受体dna之间具有最长的序列同源性要求。hdr的其他形式包括单链退火(ssa)和断裂诱导的复制,并且这些需要相对于hr更短的序列同源性。缺口(单链断裂)处的同源-定向修复可以经由与在双链断裂处的hdr不同的机制发生(davis和maizels.pnas[美国科学院院报](0027-8424),111(10),第e924-e932页)。原核和真核细胞或生物细胞的基因组的改变,例如通过同源重组(hr),对于基因工程而言的有力工具。已经证明了在植物中(halfter等人,(1992)molgengenet[分子和普通遗传学]231:186-93)和昆虫中(dray和gloor,1997,genetics[遗传学]147:689-99)的同源重组。在其他生物体中也可以实现同源重组。例如,在寄生原生动物利什曼原虫中,至少需要150-200bp的同源性进行同源重组(papadopoulou和dumas,(1997)nucleicacidsres[核酸研究]25:4278-86)。在丝状真菌构巢曲霉中,已经用仅50bp侧翼同源性实现基因替代(chaveroche等人,(2000)nucleicacidsres[核酸研究]28:e97)。在纤毛虫嗜热四膜虫中也已经证明了靶向基因替代(gaertig等人,(1994)nucleicacidsres[核酸研究]22:5391-8)。在哺乳动物中,使用可以在培养基中生长、转化、选择、和引入小鼠胚胎中的多能胚胎干细胞系(es),同源重组在小鼠中已经是最成功的(watson等人,(1992)recombinantdna[重组dna],第2版,scientificamericanbooksdistributedbywhfreeman&co.[由whfreeman&co.公司发行的科学美国人图书])。基因靶向本文描述的指导多核苷酸/cas系统可以用于基因靶向。通常,可以通过在具有与合适的多核苷酸组分缔合的cas蛋白的细胞中的特异性多核苷酸序列处切割一条或两条链来进行dna靶向。一旦在dna中诱导单链断裂或双链断裂,则细胞的dna修复机制被激活来经由会导致靶位点处的修饰的非同源末端连接(nhej)、或同源定向修复(hdr)过程修复断裂。靶位点处的dna序列的长度可以变化,并且包括例如为至少12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30个或多于30个核苷酸长度的靶位点。还有可能靶位点可以是回文的,即,一条链上的序列与在互补链上以相反方向的读取相同。切口/切割位点可以在靶序列内,或者切口/切割位点可以在靶序列之外。在另一种变异中,切割可以发生在彼此正好相对的核苷酸位置处,以产生平端切割,或者在其他情况下,切口可以交错以产生单链突出端,也称为“粘性末端”,其可以是5′突出端或3′突出端。还可以使用基因组靶点的活性变体。此类活性变体可以包含与给定靶位点至少65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性,其中所述活性变体保留生物活性,因此能够被cas内切核酸酶识别和切割。测量由内切核酸酶引起的靶位点的单链或双链断裂的测定是本领域已知的,并且通常测量试剂在包含识别位点的dna底物上的总体活性和特异性。本文的靶向方法能以例如在该方法中靶向两个或更多个dna靶位点的这样的方式进行。这种方法可以任选地被表征为多重方法。在某些实施例中,可以同时靶向两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个靶点。多路复用方法典型地通过本文的靶向方法进行,其中提供了多个不同的rna组分,每一个被设计成将指导多核苷酸/cas内切核酸酶复合物引导到唯一的dna靶位点。基因编辑组合dsb和修饰模板的基因组序列的编辑过程通常包括:向宿主细胞引入dsb诱导剂或编码dsb诱导剂的核酸(识别染色体序列中的靶序列并且能够诱导基因组序列中的dsb),和与待编辑的核苷酸序列相比时包含至少一个核苷酸改变的至少一个多核苷酸修饰模板。多核苷酸修饰模板还可以包含侧翼于所述至少一个核苷酸变化的核苷酸序列,其中侧翼序列与侧翼于dsb的染色体区域基本同源。已经在例如以下中描述了使用dsb诱导剂(如cas-grna复合物)的基因组编辑:2015年3月19日公开的us20150082478,2015年2月26日公开的wo2015026886,2016年1月14日公开的wo2016007347,以及于2016年2月18日公开的wo/2016/025131。已经描述了指导rna/cas内切核酸酶系统的一些用途(参见例如:2015年3月19日公开的us20150082478a1,2015年2月26日公开的wo2015026886和2015年2月26日公开的us20150059010)并且包括但不限于修饰或取代目的核苷酸序列(如调节元件)、目的多核苷酸插入、基因敲除、基因敲入、剪接位点的修饰和/或引入交替剪接位点、编码目的蛋白的核苷酸序列的修饰、氨基酸和/或蛋白融合物、以及通过在目的基因中表达反向重复序列引起的基因沉默。可以按不同方式改变蛋白,这些方式包括氨基酸取代、缺失、截短、和插入。用于此类操作的方法通常是已知的。例如,可以通过在dna中的突变制备一种或多种蛋白质的氨基酸序列变体。用于诱变和核苷酸序列改变的方法包括,例如,kunkel,(1985)proc.natl.acad.sci.usa[美国科学院院报]82:488-92;kunkel等人,(1987)methenzymol[酶学方法]154:367-82;美国专利号4,873,192;walker和gaastra编辑(1983)techniquesinmolecularbiology[分子生物学技术](macmillanpublishingcompany,newyork[麦克米伦出版公司,纽约]),以及其中所引用的文献。发现关于不太可能影响蛋白质生物学活性的氨基酸取代的引导,例如,在dayhoff等人,(1978)atlasofproteinsequenceandstructure[蛋白质序列和结构图谱集](natlbiomedresfound,washington,d.c.[国家生物医学研究基金会,美国华盛顿哥伦比亚特区])的模型中。保守取代,例如将一个氨基酸与具有相似特性的另一个氨基酸交换,会是优选的。未预期保守缺失、插入、和氨基酸取代会产生在蛋白质特征中的根本变化,并且可以通过常规筛选测定来评价任何取代、缺失、插入、或其组合的作用。对双链-断裂-诱导活性的测定是已知的,并且通常测量试剂对包含靶位点的dna底物的总体活性和特异性。本文描述了用cas内切核酸酶以及cas内切核酸酶和指导多核苷酸的复合物进行基因组编辑的方法。在对指导rna和pam序列进行表征后,可利用内切核酸酶复合物的组分和相关联的crisprrna(crrna)来修饰包括植物在内的其他生物体中的染色体dna。为了促进最佳表达和核定位(对于真核细胞),可以如2016年11月24日公开的wo2016186953中所述对包含复合物的基因进行优化,然后通过本领域已知的方法将其作为dna表达盒递送至细胞中。也可以将必需包含活性复合物的组分作为rna(具有或不具有保护rna免于降解的修饰)或作为有帽或无帽的mrna(zhang,y.等人,2016,nat.commun.[自然通讯]7:12617)或cas蛋白指导多核苷酸复合物(公开于2017年4月27日的wo2017070032)、或其任何组合递送。另外,复合物和crrna的一个或多个部分可以从dna构建体表达,而将其他组分作为rna(具有或不具有保护rna免于降解的修饰)或以带帽或不带帽的mrna(zhang等人2016nat.commun.[自然通讯]7:12617)或cas蛋白指导多核苷酸复合物(公开于2017年4月27日的wo2017070032)或其任何组合递送。为了体内产生crrna,trna衍生的元件也可以用于募集内源rna酶以将crrna转录物切割成能够将复合物引导至其dna靶位点的成熟形式,例如,如2017年6月22日公开的wo2017105991中所述。切口酶复合物可单独使用或协同使用,以在一条或两条dna链上产生单个或多个dna切口。此外,可以通过改变切割结构域中的关键催化残基来使cas内切核酸酶的切割活性灭活(sinkunas,t.等人,2013,emboj[欧洲分子生物学学会杂志].32:385-394),从而产生受rna指导的解旋酶,其可用于增强同源定向修复,诱导转录激活或重塑局部dna结构。而且,cas切割和解旋酶结构域的活性可以都被敲除并与其他dna剪切、dna切口、dna结合、转录激活、转录阻遏、dna重塑、dna脱氨、dna解旋、dna重组增强、dna整合、dna倒置和dna修复剂组合使用。可以如2016年11月24日公开的wo2016186946和2016年11月24日公开的wo2016186953中所述推导用于crispr-cas系统(如果存在的话)和crispr-cas系统的其他组分(例如可变靶向结构域、crrna重复序列、环、反重复序列)的tracrrna的转录方向。如本文所述,一旦建立了适当的指导rna要求,就可以检查本文公开的每个新系统的pam偏好。如果切割复合物导致随机pam文库的降解,则可以通过诱变关键残基或通过在无atp的情况下组装反应使atp酶依赖性解旋酶活性无效,从而将复合物转化为切口酶,如先前所述(sinkunas,t.等人,2013,emboj.[欧洲分子生物学学会杂志]32:385-394)。可以利用由两个前间隔子靶隔开的pam随机化的两个区域来生成双链dna断裂,所述双链dna断裂可以被捕获并测序以检查支持各自的复合物切割的pam序列。在一个实施例中,本发明描述了用于修饰细胞的基因组中靶位点的方法,所述方法包括将至少一种本文所述的pgen引入细胞,并鉴定在所述靶处具有修饰的至少一个细胞,其中所述靶位点处的修饰选自下组,该组由以下组成:(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、至少一个核苷酸的化学改变和(v)(i)-(iv)的任何组合。待编辑的核苷酸可以位于由cas内切核酸酶识别和切割的靶位点的内部或外部。在一个实施例中,该至少一个核苷酸修饰不是由cas内切核酸酶识别和切割的靶位点上的修饰。在另一个实施例中,所述待编辑的至少一个核苷酸和基因组靶位点之间有至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、30、40、50、100、200、300、400、500、600、700、900或1000个核苷酸。可以通过插入缺失(通过nhej在靶dna序列中插入或缺失核苷酸碱基),或通过特异性去除在靶向位点处或其附近处降低或完全破坏序列功能的序列来产生敲除。指导多核苷酸/cas内切核酸酶诱导的靶向突变可以发生在位于由cas内切核酸酶识别和切割的基因组靶位点内部或外部的核苷酸序列中。用于编辑细胞的基因组中的核苷酸序列的方法可以是通过恢复无功能基因产物的功能而不使用外源选择性标记的方法。在一个实施例中,本发明描述了用于修饰细胞的基因组中的靶位点的方法,所述方法包括将至少一种本文所述的pgen和至少一种供体dna引入细胞中,其中所述供体dna包含目的多核苷酸,并且任选地,所述方法进一步包括鉴定至少一个将所述目的多核苷酸整合到所述靶位点中或附近的细胞。在一个方面,本文公开的方法可采用同源重组(hr)以在靶位点处提供目的多核苷酸的整合。可以采用多种方法和组合物来产生具有通过本文所述的crispr-cas系统组分的活性插入靶位点的目的多核苷酸的细胞或生物。在本文所述的一种方法中,经由供体dna构建体,将目的多核苷酸引入生物体细胞。如本文所用,“供体dna”是dna构建体,其包括待插入到cas内切核酸酶的靶位点的目的多核苷酸。供体dna构建体进一步包含位于目的多核苷酸侧翼的同源的第一区域和第二区域。供体dna的同源的第一区域和第二区域分别与存在于细胞或生物基因组的靶点中或位于所述靶点侧翼的第一和第二基因组区域具有同源性。供体dna可以与指导多核苷酸进行系链。系链的供体dna可以允许共定位靶标和供体dna,可用于基因组编辑、基因插入和靶向的基因组调节,并且还可以用于靶向有丝分裂后期细胞,在这些细胞中内源性hr机制的功能预计会大大降低(mali等人,2013naturemethods[自然方法]第10卷:957-963)。由靶标和供体多核苷酸共享的同源性或序列同一性的量可以变化,并且包括总长度和/或在约1-20bp、20-50bp、50-100bp、75-150bp、100-250bp、150-300bp、200-400bp、250-500bp、300-600bp、350-750bp、400-800bp、450-900bp、500-1000bp、600-1250bp、700-1500bp、800-1750bp、900-2000bp、1-2.5kb、1.5-3kb、2-4kb、2.5-5kb、3-6kb、3.5-7kb、4-8kb、5-10kb,或多达并包括靶位点的总长度的范围内具有单位整数值的区域。这些范围包括所述范围内的每个整数,例如1-20bp的范围包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20bp。同源性的量也可以通过在两个多核苷酸的完整比对长度上的百分比序列同一性来描述,其包括约至少50%、55%、60%、65%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的百分比序列同一性。足够的同源性包括多核苷酸长度、总体百分比序列同一性,和任选地连续核苷酸的保守区域或局部百分比序列同一性的任何组合,例如,足够的同源性可以被描述为与靶基因座的区域具有至少80%序列同一性的75-150bp的区域。还可以通过用来在高严格条件下特异性杂交的两个多核苷酸的预测能力来描述足够的同源性,参见例如sambrook等人,(1989)molecularclonmg:alaboratorymanual[分子克隆:实验室手册](coldspringharborlaboratorypress,ny[纽约冷泉港实验室出版社]);currentprotocolsinmolecularbiology[分子生物学现代方案],ausubel等人,编辑(1994)currentprotocols[实验室指南](greenepublishingassociates,inc.[格林出版合伙公司]和johnwiley&sons,inc.[约翰威利父子公司]);以及tijssen(1993)laboratorytechniquesinbiochemistryandmolecularbiology--hybridizationwithnucleicacidprobes[生物化学和分子生物学中的实验室技术--与核酸探针杂交](elsevier[爱思唯尔出版社],纽约)。还可以将附加体dna分子连接至双链断裂中,例如,将t-dna整合至染色体双链断裂中(chilton和que,(2003)plantphysiol[植物生理学]133:956-65;salomon和puchta,(1998)emboj.[欧洲分子生物学学会杂志]17:6086-95)。一旦双链断裂周围的序列被改变,例如被涉及双链断裂的成熟的外切核酸酶活性改变,则基因转换途径可以恢复原始结构,如果有同源序列的话,例如非分裂的体细胞中的同源染色体,或dna复制后的姊妹染色单体(molinier等人,(2004)plantcell[植物细胞]16:342-52)。异位的和/或表观遗传的dna序列还可以充当用于同源重组的dna修复模板(puchta,(1999)genetics[遗传学]152:1173-81)。在一个实施例中,本公开包括用于编辑细胞的基因组中的核苷酸序列的方法,所述方法包括引入至少一种本文所述的pgen、和多核苷酸修饰模板,其中所述多核苷酸修饰模板包含所述核苷酸序列的至少一个核苷酸修饰,并且所述方法任选地进一步包括选择至少一个包含经编辑的核苷酸序列的细胞。指导多核苷酸/cas内切核酸酶系统可以与至少一个多核苷酸修饰模板组合使用以允许编辑(修饰)目的基因组核苷酸序列。(还参见2015年3月19日公开的us20150082478和2015年2月26日公开的wo20]5026886)。目的多核苷酸和/或性状可以在复杂性状基因座中堆叠在一起,如在2012年9月27日公开的wo2012129373和2013年8月1日公开的wo2013112686中所述。本文所述的指导多核苷酸/cas9内切核酸酶系统提供了用来产生双链断裂并允许将性状在复杂性状基因座中堆叠的有效系统。如本文所述的介导基因靶向的指导多核苷酸/cas系统可以在以下方法中使用,所述方法用于以类似于2012年9月27日公开的wo2012129373中公开的方式引导异源基因插入和/或产生包含多个异源基因的复杂性状基因座,其中使用如本文公开的指导多核苷酸/cas系统来代替使用双链断裂诱导剂引入目的基因。通过将独立的转基因插入在彼此的0.1、0.2、0.3、0.4、0.5、1.0、2、或甚至5厘摩(cm)内,这些转基因可以作为单个遗传基因座进行育种(例如,参见2013年10月3日公开的us20130263324或2013年3月14日公开的wo2012129373)。在选择包含转基因的植物后,可以将包含(至少)一个转基因的植物进行杂交从而形成包含全部两个转基因的f1。在来自这些f1(f2或bc1)的后代中,1/500的后代将具有重组在相同的染色体上的两个不同的转基因。然后,可以将复合物基因座繁育为具有全部两个转基因性状的单遗传基因座。可以重复该过程以堆叠尽可能多的性状。已经描述了指导rna/cas内切核酸酶系统的进一步用途(参见例如:2015年3月19日公开的us20150082478,2015年2月26日公开的wo2015026886,2015年2月26日公开的us20150059010,2016年1月14日公开的wo2016007347,和2016年2月18日公开的pct申请wo2016025131)并包括但不限于修饰或取代目的核苷酸序列(如调节元件)、目的多核苷酸插入、基因敲除、基因敲入、剪接位点的修饰和/或引入交替剪接位点、编码目的蛋白的核苷酸序列的修饰、氨基酸和/或蛋白融合物、以及通过在目的基因中表达反向重复序列引起的基因沉默。可以评估本文描述的基因编辑组合物和方法产生的特征。可以鉴定与目的表型或性状相关的染色体区间。本领域熟知的多种方法可用于鉴定染色体区间。此类染色体区间的边界扩展到涵盖将与控制目的性状的基因连锁的标志物。换句话说,扩展染色体区间,这样使得位于区间内的任何标志物(包括限定区间的边界的末端标志物)可以用作特定性状的标志物。在一个实施例中,染色体区间包含至少一个qtl,并且此外,确实可以包含多于一个qtl。相同区间中非常接近的多个qtl可以搅乱特定标志物与特定qtl的关联,因为一个标志物可显示与多于一个qtl连锁。相反地,例如如果非常接近的两个标志物显示与期望表型性状共分离,则有时分不清楚是否那些标志物中的每一个鉴定相同qtl或两个不同的qtl。术语“数量性状基因座”或“qtl”是指在至少一种遗传背景下(例如在至少一个育种群体中),与数量表型性状的差异表达关联的dna区域。qtl的区域涵盖或紧密地连锁于影响所考虑的性状的一个或多个基因。“qtl的等位基因”可以包含在连续的基因组区域或连锁群中的多个基因或其他遗传因子,例如单倍型。qtl的等位基因可以表示在指定窗口内的单倍型,其中所述窗口是可以用一组的一个或多个多态性标志物定义和追踪的连续的基因组区域。单倍型可以指定被窗口内的每一标志物的等位基因的独特指纹定义。将crispr-cas系统组分引入细胞本文描述的方法不取决于用于将序列引入生物体或细胞中的具体方法,只要多核苷酸或多肽进入生物体的至少一个细胞的内部即可。引入包括提到将核酸合并到真核细胞或原核细胞中,其中核酸可以被并入细胞的基因组中,并且包括提到核酸、蛋白或多核苷酸-蛋白复合物(pgen、rgen)被瞬时(直接)提供至细胞中。用于将多核苷酸或多肽或多核苷酸-蛋白复合物引入细胞或生物体的方法是本领域已知的,并且包括但不限于显微注射、电穿孔、稳定转化方法、瞬时转化方法、弹道粒子加速(粒子轰击)、晶须介导的转化、农杆菌介导的转化、直接基因转移、病毒介导的引入、转染、转导、细胞穿透肽、介孔二氧化硅纳米粒子(msn)-介导的直接蛋白递送、局部应用、有性杂交、有性育种、及其任何组合。例如,指导多核苷酸(指导rna,cr核苷酸+tracr核苷酸,指导dna和/或指导rna-dna分子)可以作为单链或双链多核苷酸分子直接引入细胞(瞬时地)。指导rna(或crrna+tracrrna)还可以通过引入包含编码指导rna(或crrna+tracrrna)的异源核酸片段的重组dna分子被间接引入细胞中,所述指导rna与能够在所述细胞中转录所述指导rna(或crrna+tracrrna)的特异性启动子有效地连接。特异性启动子可以是但不限于rna聚合酶iii启动子,其允许具有精确定义的未修饰的5′-和3′-末端的rna转录(ma等人,2014,mol.ther.nucleicacids[分子治疗-核酸]3:e161;dicarlo等人,2013,nucleicacidsres.[核酸研究]41:4336-4343;2015年2月26日公开的wo2015026887)。可以使用能够在细胞中转录指导rna的任何启动子,并且这些启动子包括有效地连接到编码指导rna的核苷酸序列的热休克/热可诱导的启动子。植物细胞不同于动物细胞(例如人类细胞)、真菌细胞(例如酵母细胞)和原生质体,包括例如包含植物细胞壁(其可以充当组分递送的屏障)的植物细胞。cas内切核酸酶、和/或指导rna、和/或核糖核蛋白复合物、和/或编码前述任一个或多个的多核苷酸可通过本领域已知的方法实现递送到植物细胞中,所述方法例如但不限于:根瘤菌-介导的转化(例如,农杆菌属,苍白杆菌属),粒子介导的递送(粒子轰击),聚乙二醇(peg)-介导的转染(例如到原生质体)、电穿孔、细胞穿透肽或介孔二氧化硅纳米粒子(msn)介导的直接蛋白递送。本文中的cas内切核酸酶,例如本文所述的cas内切核酸酶可以通过直接引入cas多肽本身(称为cas内切核酸酶的直接递送)、编码cas蛋白的mrna和/或指导多核苷酸/cas内切核酸酶复合物本身,使用本领域已知的任何方法而导入细胞。cas内切核酸酶也可以通过引入编码cas内切核酸酶的重组dna分子间接引入细胞。使用本领域已知的任何方法,可以瞬时地将内切核酸酶引入细胞中,或可以将内切核酸酶并入宿主细胞的基因组中。可以用如在2016年5月12日公开的wo2016073433中描述的细胞穿透肽(cpp),促进内切核酸酶和/或指导的多核苷酸摄取进入细胞。可以使用能够在细胞中表达cas内切核酸酶的任何启动子,并且这些启动子包括可操作地连接到编码cas内切核酸酶的核苷酸序列的热休克/热可诱导的启动子。将多核苷酸修饰模板直接递送到植物细胞中可以通过粒子介导递送来实现,并且任何其他直接递送方法,例如但不限于聚乙二醇(peg)介导的原生质体转染、晶须介导的转化、电穿孔、粒子轰击、细胞穿透肽或介孔二氧化硅纳米粒子(msn)介导的直接蛋白递送可以成功地用于在真核细胞(例如植物细胞)中递送多核苷酸修饰模板。可以通过本领域已知的任何手段引入供体dna。可以通过本领域已知的任何转化方法(包括,例如农杆菌介导的转化或生物射弹粒子轰击)提供供体dna。供体dna可以瞬时地存在于细胞中,或可以经由病毒复制子引入。在cas内切核酸酶和靶位点的存在下,供体dna被插入到转化植物的基因组中。受指导的cas系统组分中的任何一个的直接递送可以伴随着可以促进接受指导多核苷酸/cas内切核酸酶复合物组分的细胞的富集和/或可视化的其他mrna的直接递送(共递送)。例如,指导多核苷酸/cas内切核酸酶组分(和/或指导多核苷酸/cas内切核酸酶复合物本身)与编码表型标志物(例如但不限于转录激活剂如crc(bruce等人2000theplantcell[植物细胞]12:65-79)的mrna直接共递送可通过恢复无功能基因产物的功能而不使用外源性可选择标志物来实现细胞的选择和富集,如在2017年4月27日公开的wo2017070032中所述。将本文所述的指导rna/cas内切核酸酶复合物(代表本文所述的可切割复合物)引入细胞中包括将所述复合物的各组分单独地或组合地引入细胞中,并且直接地(作为rna(对于指导物)和蛋白(对于cas内切核酸酶和蛋白亚基或其功能性片段)直接递送)或经由表达这些组分(指导rna、cas内切核酸酶、蛋白亚基或其功能性片段)的重组构建体引入。将指导rna/cas内切核酸酶复合物(rgen)引入细胞中包括将该指导rna/cas内切核酸酶复合物作为核糖核苷酸-蛋白引入细胞中。可以将该核糖核苷酸-蛋白质在引入如本文所述的细胞中之前进行组装。包含指导rna/cas内切核酸酶核糖核苷酸蛋白(至少一种cas内切核酸酶、至少一种指导rna、至少一种蛋白亚基)的组分可在体外组装或在引入细胞(靶向用于如本文所述基因组修饰)之前通过本领域已知的任何方法组装。rgen核糖核蛋白的直接递送允许在细胞的基因组中的靶位点进行基因组编辑,其后可以迅速降解复合物,并且仅允许细胞中短暂存在该复合物。rgen复合物的这种短暂存在可能导致脱靶效应降低。相比之下,经由质粒dna序列递送rgen组分(指导rna、cas9内切核酸酶)可以导致rgen从这些质粒的恒定表达,该恒定表达可以加强脱靶效应(cradick,t.j.等人(2013)nucleicacidsres[核酸研究]41:9584-9592;fu,y等人(2014)nat.biotechnol.[自然生物技术]31:822-826)。直接递送可以通过将指导rna/cas内切核酸酶复合物(rgen)(代表本文所述的切割就绪复合物)的任何一种组分(例如至少一种指导rna、至少一种cas蛋白和任选地至少一种另外蛋白)与包含微粒子(例如但不限于金粒子、钨粒子和碳化硅晶须粒子)的递送基质组合来实现(还参见2017年4月27日公开的wo2017070032)。递送基质可以包含所述组分中的任何一种,例如cas内切核酸酶,其附着于固体基质(例如,用于轰击的粒子)。在一个方面,指导多核苷酸/cas内切核酸酶复合物是复合物,其中形成所述指导rna/cas内切核酸酶复合物的指导rna和cas内切核酸酶蛋白分别作为rna和蛋白引入细胞。在一个方面,指导多核苷酸/cas内切核酸酶复合物是复合物,其中形成所述指导rna/cas内切核酸酶复合物的指导rna和cas内切核酸酶蛋白和复合物的至少一个蛋白亚基分别作为rna和蛋白引入细胞。在一个方面,指导多核苷酸/cas内切核酸酶复合物是复合物,其中形成所述指导rna/cas内切核酸酶复合物(切割就绪的复合物)的指导rna和cas内切核酸酶蛋白和复合物的至少一个蛋白亚基在体外预组装并作为核糖核苷酸-蛋白复合物引入细胞。用于在真核细胞例如植物或植物细胞中引入多核苷酸、多肽或多核苷酸-蛋白复合物(pgen,rgen)的方案是已知的并且包括显微注射(crossway等人,(1986)biotechniques[生物技术]4:320-34和美国专利号6,300,543);分生组织转化(美国专利号5,736,369);电穿孔(riggs等人,(1986)proc.natl.acad.sci.usa[美国国家科学院院刊]83:5602-6);农杆菌介导的转化(美国专利号5,563,055和5,981,840);晶须介导的转化(ainley等人2013,plantbiotechnology.journal[植物生物技术杂志]11:1126-1134;shaheena.和m.arshad2011propertiesandapplicationsofsiliconcarbide[碳化硅的特性和应用](2011),345-358,编辑:gerhardt,rosario.,出版商:印天科技公司(intech),里耶卡(riieka),克罗地亚(croatia),代码:69pqbp;isbn:978-953-307-201-2);直接基因转移(paszkowski等人,(1984)emboj[欧洲分子生物学学会杂志]3:2717-22);以及弹道粒子加速(美国专利号4,945,050;5,879,918;5,886,244;5,932,782;tomes等人,(1995)“directdnatransferintointactplantcellsviamicroprojectilebombardment”[经由微粒轰击将dna直接转移到完整植物细胞中]在plantcell,tissue,andorganculture:fundamentalmethods[植物细胞、组织和器官培养:基本方法],编辑gamborg和phillips(springer-verlag,berlin[柏林施普林格出版社);mccabe等人(1988)biotechnology[生物技术]6:923-6;weissinger等人,(1988)annrevgenet[遗传学年鉴]22:421-77;sanford等人,(1987)particulatescienceandtechnology[微粒科学与技术]5:27-37(洋葱);christou等人,(1988)plantphysiol[植物生理学]87:671-4(大豆);finer和mcmullen,(1991)invitrocelldevbiol[体外细胞与发育生物学]27p:175-82(大豆);singh等人,(1998)theorapplgenet[理论与应用遗传学]96:319-24(大豆);datta等人,(1990)biotechnology[生物技术]8:736-40(稻);klein等人,(1988)proc.natl.acad.sci.usa[美国国家科学院院刊]85:4305-9(玉蜀黍);klein等人,(1988)biotechnology[生物技术]6:559-63(玉蜀黍);美国专利号5,240,855;5,322,783和5,324,646;klein等人,(1988)plantphysiol[植物生理学]91:440-4(玉蜀黍);fromm等人,(1990)biotechnology[生物技术]8:833-9(玉蜀黍);hooykaas-vanslogteren等人,(1984)nature[自然]311:763-4;美国专利号5,736,369(谷类);bytebier等人,(1987)proc.natl.acad.sci.usa[美国国家科学院院刊]84:5345-9(百合科(liliaceae));dewet等人,(1985)在theexperimentalmanipulationofovuletissues[胚珠组织的实验操作]中,编辑chapman等人,(longman,newyork[纽约朗文出版社]),第197-209页(花粉);kaeppler等人,(1990)plantcellrep[植物细胞报告]9:415-8)以及kaeppler等人,(1992)theorapplgenet[理论与应用遗传学]84:560-6(晶须介导的转化);d′halluin等人,(1992)plantcell[植物细胞]4:1495-505(电穿孔);li等人,(1993)plantcellrep[植物细胞报告]12:250-5;christou和ford(1995)annalsbotany[植物学年鉴]75:407-13(稻)以及osjoda等人,(1996)natbiotechnol自然生物技术]14:745-50(经由根癌农杆菌转化的玉蜀黍)。可替代地,可以通过使细胞或生物体与病毒或病毒核酸接触来将多核苷酸引入植物或植物细胞中。通常,此类方法涉及将多核苷酸掺入病毒dna或rna分子内。在一些实例中,可以最初将目的多肽作为病毒多聚蛋白的一部分合成,然后将合成的多肽在体内或在体外通过蛋白水解加工从而产生所希望的重组蛋白。用于将多核苷酸引入植物,并且表达在其中编码的蛋白质(涉及病毒dna或rna分子)的方法是已知的,参见例如,美国专利号5,889,191、5,889,190、5,866,785、5,589,367、以及5,316,931。可以使用多种瞬时转化方法,将多核苷酸或重组dna构建体提供至或引入原核和真核细胞或生物体中。这种瞬时转化法包括但不限于将多核苷酸构建体直接引入植物中。可以通过任何方法将核酸和蛋白提供给细胞,所述方法包括使用分子来促进受指导的cas系统(蛋白和/或核酸)的任何或所有组分(例如细胞穿透肽和纳米载剂)的摄取的方法。还参见2011年2月10日公开的us20110035836和2015年1月7日公开的ep2821486a1。可以使用将多核苷酸引入原核和真核细胞或生物体或植物部分的其他方法,包括质体转化方法,以及用于将多核苷酸引入来自幼苗或成熟种子的组织中的方法。“稳定转化”旨在表示经引入生物体中的核苷酸构建体合并到该生物体的基因组中,并且能够被其后代遗传。“瞬时转化”旨在表示将多核苷酸引入该生物体中并且不合并到该生物体的基因组中,或者将多肽引入生物体中。瞬时转化表明所引入的组合物仅在生物体中暂时表达或存在。可以使用多种方法来鉴定在靶位点处或靶位点附近具有改变的基因组的那些细胞,而不使用可筛选标志物表型。此类方法可被认为是直接分析靶序列以检测靶序列中的任何变化,包括但不限于pcr方法、测序方法、核酸酶消化、dna印迹法、及其任何组合。细胞和植物可以将本文公开的多核苷酸和多肽引入细胞中。细胞包括但不限于人、非人、动物、哺乳动物、细菌、真菌、昆虫、酵母、非常规酵母和植物细胞,以及通过本文所述的方法产生的植物和种子。任何植物(包括单子叶植物和双子叶植物以及植物元件)都可以与本文所述的组合物和方法一起使用。可以使用的单子叶植物的实例包括但不限于,玉米(玉蜀黍(zeamays))、稻(水稻(oryzasativa))、黑麦(黑麦(secalecereale))、高粱(双色高粱(sorghumbicolor)、高粱(sorghumvulgare))、粟(例如,珍珠粟、御谷(pennisetumglaucum))、黍稷(粟米(panicummiliaceum))、谷子(谷子(setariaitalica))、穇子(龙爪稷(eleusinecoracana))、小麦(小麦属物种,例如小麦(triticumaestivum)、一粒小麦(triticummonococcum))、甘蔗(甘蔗属物种(saccharumspp.))、燕麦(燕麦属(avena))、大麦(大麦属(hordeum))、柳枝稷(柳枝黍(panicumvirgatum))、菠萝(菠萝(ananascomosus))、香蕉(香蕉属物种(musaspp.))、棕榈、观赏植物、草坪草、以及其他草。可以使用的双子叶植物的实例包括但不限于大豆(大豆(glycinemax))、芸苔属物种(例如但不限于:油菜或卡诺拉油菜)(欧洲油菜(brassicanapus)和白菜型油菜(b.campestris)、芜菁(brassicarapa)、芥菜(brassica.juncea))、苜蓿(紫花苜蓿(medicagosativa)、烟草(烟草(nicotianatabacum))、拟南芥属(arabidopsis)(拟南芥(a.thaliana))、向日葵(向日葵(helianthusannuus))、棉花(木本棉(gossypiumarboreum)、海岛棉(gossypiumbarbadense))、和花生(花生(arachishypogaea))、番茄(番茄(solanumlycopersicum))、马铃薯(马铃薯(solanumtuberosum))等。可以使用的另外的植物包括红花(safflower、carthamustinctorius)、甘薯(番薯(ipomoeabatatas)),木薯(cassava,manihotesculenta),咖啡(咖啡属物种(coffeaspp.)),椰子(coconut,cocosnucifera),柑橘树(柑橘属物种(citrusspp.)),可可(cocoa,theobromacacao),茶树(tea,camelliasinensis),香蕉(芭蕉属物种(musaspp.)),鳄梨(avocado,perseaamericana),无花果(fig或(ficuscasica)),番石榴(guava,psidiumguajava),芒果(mango,mangiferaindica),橄榄(olive,oleaeuropaea),木瓜(番木瓜(caricapapaya)),腰果(cashew,anacardiumoccidentale),澳洲坚果(macadamia,macadamiaintegrifolia),巴旦杏(almond,prunusamygdalus),甜菜(sugarbeets,betavulgaris),蔬菜,观赏植物和针叶树。可以使用的蔬菜包括番茄(lycopersiconesculentum)、莴苣(例如,莴苣(lactucasativa))、青豆(菜豆(phaseolusvulgaris))、利马豆(limabean,phaseoluslimensis)、豌豆(香豌豆属物种(lathyrusspp.))和黄瓜属的成员诸如黄瓜(cucumber,c.sativus)、香瓜(cantaloupe,c.cantalupensis)和甜瓜(muskmelon,c.melo)。观赏植物包括杜鹃(杜鹃花属物种(rhododendronspp.))、八仙花(macrophyllahydrangea)、朱槿(hibiscusrosasanensis)、玫瑰(蔷薇属物种(rosaspp.))、郁金香(郁金香属物种(tulipaspp.))、水仙(水仙属物种(narcissusspp.))、矮牵牛(petuniahybrida)、康乃馨(dianthuscaryophyllus)、一品红(euphorbiapulcherrima)和菊花。可以使用的针叶树包括松树,如火炬松(loblollypine,pinustaeda)、湿地松(slashpine,pinuselliotii)、西黄松(ponderosapine,pinusponderosa)、黑松(lodgepolepine,pinuscontorta)和辐射松(montereypine,pinusradiata);花旗松(douglasfir,pseudotsugamenziesii);西方铁杉(westernhemlock,tsugacanadensis);北美云杉(sitkaspruce,piceaglauca);红杉(redwood,sequoiasempervirens);枞树(truefirs),如银杉(胶冷杉(abiesamabilis))和胶枞(香脂冷杉(abiesbalsamea));以及雪松,如西方红雪松(thujaplicata)和阿拉斯加黄雪松(chamaecyparisnootkatensis)。在本公开的某些实施例中,可育植物是产生活雄配子和雌配子并且是自身可育的植物。这样的自体受精的植物可以产生后代植物,而没有来自任何其他植物的配子及其中所含的遗传物质的贡献。本公开的其他实施例可以涉及使用非自身可育的植物,因为该植物不产生有活力的或在其他情况下能够受精的雄配子或雌配子或二者。本公开可用于包含一个或多个引入性状或经编辑的基因组的植物的育种。如下描述两个性状如何以彼此之间例如5cm的遗传距离堆叠到基因组中的非限制性实例:将包含整合到基因组窗口内的第一dsb靶位点中且不具有第一目的基因组基因座的第一转基因靶位点的第一植物与第二转基因植物杂交,所述第二转基因植物在基因组窗口内的不同基因组插入位点处包含目的基因组基因座,并且所述第二植物不包含所述第一转基因靶位点。来自该杂交的约5%的植物后代将基因组窗口内具有整合到第一dsb靶位点中的第一转基因靶位点和整合在不同基因组插入位点处的第一目的基因组基因座。在定义的基因组窗口中具有两个位点的后代植物可以进一步与第三转基因植物杂交,所述第三转基因植物在定义的基因组窗口内包含整合到第二dsb靶位点中的第二转基因靶位点、和/或第二目的基因组基因座并且缺乏所述第一转基因靶位点和所述第一目的基因组基因座。然后选择具有在基因组窗口内的不同基因组插入位点处整合的第一转基因靶位点、第一目的基因组基因座和第二目的基因组基因座的后代。这样的方法可用于产生包含复杂性状基因座的植物,所述复杂性状基因座具有至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、19、19、20、21、22、23、24、25、26、27、28、29、30、31或更多个整合到dsb靶位点中的转基因靶位点和/或整合在基因组窗口内的不同位点的目的基因组基因座。以这种方式,可以产生各种复杂性状基因座。细胞与动物可以将本文公开的多核苷酸和多肽引入动物细胞中。动物细胞可以包括但不限于:以下门的生物体,所述门包括脊索动物门、节肢动物门、软体动物门、环节动物门、腔肠动物门或棘皮动物门;以下纲的生物体,所述纲包括哺乳动物、昆虫、鸟、两栖动物、爬行动物或鱼。在一些方面,所述动物是人类、小鼠、秀丽隐杆线虫(c.elegans)、大鼠、果蝇(果蝇属物种(drosophilaspp.))、斑马鱼、鸡、狗、猫、豚鼠、仓鼠、鸡、日本稻鱼、海七鳃鳗、河豚、树蛙(例如非洲爪蟾属物种(xenopusspp.))、猴或黑猩猩。预期的特定细胞类型包括单倍体细胞、二倍体细胞、生殖细胞、神经元、肌肉细胞、内分泌或外分泌细胞、上皮细胞、肌肉细胞、肿瘤细胞、胚胎细胞、造血细胞、骨细胞、种质细胞、体细胞、干细胞、多能干细胞、诱导多能干细胞、祖细胞、减数分裂细胞和有丝分裂细胞。在一些方面,可以使用来自生物体的多个细胞。所公开的新颖的cas9直系同源物可以用于以各种方式编辑动物细胞的基因组。在一个方面,可能需要缺失一个或多个核苷酸。在另一方面,可能期望插入一个或多个核苷酸。在一个方面,可能期望替换一个或多个核苷酸。在另一方面,可能期望通过与另一原子或分子的共价或非共价相互作用来修饰一个或多个核苷酸。通过cas9直系同源物的基因组修饰可用于在靶生物体上实现基因型和/或表型改变。这种改变优选与目的表型或生理学上重要的特征的改善、内源缺陷的校正或某种类型的表达标志物的表达有关。在一些方面,目的表型或生理学上重要的特征与以下有关:动物的整体健康、适应性或能育性、动物的生态适应性或动物与环境中其他生物体的关系或相互作用。在一些方面,有意义的表型或生理学上重要的特征选自由以下组成的组:改善的总体健康、疾病逆转、疾病修饰、疾病稳定、疾病预防、寄生虫感染的治疗、病毒感染的治疗、逆转录病毒感染的治疗、细菌感染的治疗、神经障碍(例如但不限于:多发性硬化)的治疗、内源遗传缺陷(例如但不限于:代谢障碍、软骨病、α-1抗胰蛋白酶缺乏症、抗磷脂综合征、自闭症、常染色体显性多囊肾病、巴斯综合症(barthsyndrome)、乳腺癌、夏科-马里-图思病(charcot-marie-tooth)、结肠癌、猫叫综合征(criduchat)、克罗恩病、囊性纤维化、痛性脂肪病(dercumdisease)、唐氏综合征(downsyndrome)、杜安氏综合征(duanesyndrome)、杜兴氏肌营养不良(duchennemusculardystrophy)、v因子莱顿易栓症(factorvleidenthrombophilia)、家族性高胆固醇血症、家族性地中海热、脆性x综合征、戈谢病(gaucherdisease)、血色素沉着症、血友病、前脑无裂畸形、亨廷顿病、克兰费尔特综合征(klinefeltersyndrome)、马凡综合征(marfansyndrome)、肌强直性营养不良、神经纤维瘤病、努南综合征(noonansyndrome)、成骨不全症、帕金森病、苯酮尿症、波兰得异常(polandanomaly)、卟啉症、早衰症、前列腺癌、视网膜色素变性、严重合并免疫缺陷(scid)、镰状细胞病、皮肤癌、脊髓性肌萎缩症、黑朦性痴呆(tay-sachs)、地中海贫血、三甲基胺尿症、特纳综合征(turnersyndrome)、腭心面综合征(velocardiofacialsvndrome)、wagr综合征和威尔逊病(wilsondisease))的校正、先天性免疫障碍(例如但不限于:免疫球蛋白亚类缺陷)的治疗、获得性免疫障碍(例如但不限于:aids和其他与hiv相关的障碍)的治疗、癌症的治疗以及包括罕见或“孤儿”病症在内的疾病的治疗,这些通过其他方法无法找到有效的治疗选择。使用本文公开的组合物或方法进行了遗传修饰的细胞可以出于诸如基因疗法等目的移植到受试者,例如用于治疗疾病或作为抗病毒、抗病原体或抗癌治疗剂,用于农业中生产遗传修饰的生物体或用于生物学研究。体外多核苷酸检测、结合和修饰在一些方面,本文公开的组合物可以进一步用作用于(在一些方面与一种或多种分离的多核苷酸序列一起)体外方法的组合物。所述一种或多种分离的多核苷酸序列可以包含一种或多种用于修饰的靶序列。在一些方面,所述一种或多种分离的多核苷酸序列可以是基因组dna、pcr产物或合成的寡核苷酸。组合物靶序列的修饰可以是以下形式:核苷酸插入、核苷酸缺失、核苷酸取代、向现有核苷酸添加原子分子、核苷酸修饰或异源多核苷酸或多肽与所述靶序列的结合。一个或多个核苷酸的插入可通过在反应混合物中包含供体多核苷酸来完成:将所述供体多核苷酸插入由所述cas-α直系同源物多肽产生的双链断裂中。插入可以经由非同源末端连接或经由同源重组。在一方面,靶多核苷酸的序列在修饰之前是已知的,并且与由cas-α直系同源物处理产生的一种或多种多核苷酸的一种或多种序列进行比较。在一方面,靶多核苷酸的序列在修饰之前是未知的,并且cas-α直系同源物处理被用作确定所述靶多核苷酸的序列的方法的一部分。用cas-α直系同源物进行的多核苷酸修饰可通过使用从cas基因座鉴定的全长多肽,或从cas基因座鉴定的多肽的片段、修饰或变体完成。在一些方面,所述cas-α直系同源物获自或衍生自表1中所列的生物体。在一些方面,所述cas-α直系同源物是与seqidno:86-170或511-1135中的任一个具有至少80%同一性的多肽。在一些方面,所述cas-α直系同源物是seqidno:86-170或511-1135中任一个的功能性变体。在一些方面,所述cas-α直系同源物是seqidno:86-170或511-1135中任一个的功能性片段。在一些方面,所述cas-α直系同源物是由选自由以下组成的组的多核苷酸编码的cas-α多肽:seqidno:86-170或511-1135。在一些方面,所述cas-α直系同源物是识别表4-83中任一个所列的pam序列的cas-α多肽。在一些方面,所述cas-α直系同源物是从序列表中所列生物体中鉴定的cas-α多肽。在一些方面,cas-α直系同源物作为cas-α多核苷酸提供。在一些方面,所述cas-α多核苷酸选自由以下组成的组:seqidno:1-85,或是与seqidno:1-85中的任何一个具有至少80%、85%、90%、95%、97%、为99%或100%的序列。在一些方面,cas-α直系同源物可以选自由以下组成的组:未经修饰的野生型cas-α直系同源物;功能性cas-α直系同源物变体;功能性cas-α直系同源物片段;包含活性或灭活的cas-α直系同源物的融合蛋白;cas-α直系同源物,其在c末端上或在n末端上或在n和c末端两者上进一步包含一个或多个核定位序列(nls);生物素化的cas-α直系同源物;cas-α直系同源物切口酶;cas-α直系同源物内切核酸酶;进一步包含组氨酸标签的cas-α直系同源物;和上述任何两者或更多的混合物。在一些方面,cas-α直系同源物是融合蛋白,其进一步包含核酸酶结构域、转录激活子结构域、转录阻遏子结构域、表观遗传修饰结构域、切割结构域、核定位信号、细胞穿透结构域、易位结构域、标志物、或与靶多核苷酸序列或从其获得或衍生出所述靶多核苷酸序列的细胞异源的转基因。在一些方面,期望多个cas-α直系同源物。在一些方面,所述多个可以包含衍生自不同来源生物体或衍生自相同生物内的不同基因座的cas-α直系同源物。在一些方面,所述多个可以包含对靶多核苷酸具有不同结合特异性的cas-α直系同源物。在一些方面,所述多个可以包含具有不同切割效率的cas-α直系同源物。在一些方面,所述多个可以包含具有不同pam特异性的cas-α直系同源物。在一些方面,所述多个可以包含具有不同分子组成(即多核苷酸cas-α直系同源物和多肽cas-α直系同源物)的直系同源物。指导多核苷酸可以提供为单指导rna(sgrna)、包含tracrrna的嵌合分子、包含crrna的嵌合分子、嵌合rna-dna分子、dna分子或包含一个或多个化学修饰的核苷酸的多核苷酸。cas-α直系同源物和/或指导多核苷酸的储存条件包括温度、物质状态和时间的参数。在一些方面,cas-α直系同源物和/或指导多核苷酸在约-80摄氏度、约-20摄氏度、约4摄氏度、约20-25摄氏度或约37摄氏度下储存。在一些方面,cas-α直系同源物和/或指导多核苷酸以液体、冷冻液体或冻干粉的形式存储。在一些方面,cas-α直系同源物和/或指导多核苷酸稳定至少一天、至少一周、至少一个月、至少一年或甚至大于一年。反应的任何或所有可能的多核苷酸组分(例如,指导多核苷酸,供体多核苷酸,任选地cas-α多核苷酸)可以提供为载体、构建体、线性化或环化质粒的一部分或作为嵌合分子的一部分。每种组分可以单独或一起提供给反应混合物。在一些方面,一种或多种多核苷酸组分可操作地连接至调节其表达的异源非编码调节元件。用于修饰靶多核苷酸的方法包括将最少的元件组合到反应混合物中,所述反应混合物包含:cas-α直系同源物(或如上所述的变体、片段或其他相关分子)、指导多核苷酸(其包含与靶多核苷酸的靶多核苷酸序列基本互补或选择性杂交的序列)、以及用于修饰的靶多核苷酸。在一些方面,cas-α直系同源物作为多肽提供。在一些方面,cas-α直系同源物作为cas-α直系同源物多核苷酸提供。在一些方面,所述指导多核苷酸提供为rna分子、dna分子、rna:dna杂交体或包含化学修饰的核苷酸的多核苷酸分子。可以针对稳定性、功效或其他参数优化组分中任何一种的储存缓冲液、或反应混合物。储存缓冲液或反应混合物的另外的组分可包括缓冲液组合物、tris、edta、二硫苏糖醇(dtt)、磷酸盐缓冲盐水(pbs)、氯化钠、氯化镁、hepes、甘油、bsa、盐、乳化剂、洗涤剂、螯合剂、氧化还原剂、抗体、无核酸酶的水、蛋白酶和/或粘度剂。在一些方面,所述储存缓冲液或反应混合物还包含具有以下组分中的至少一种的缓冲溶液:hepes、mgcl2、nacl、edta、蛋白酶、蛋白酶k、甘油、无核酸酶的水。孵育条件将根据所期望的结果而变化。温度优选为至少10摄氏度、10至15、至少15、15至17、至少17、17至20、至少20、20至22、至少22、22至25、至少25、25至27、至少27、27至30、至少30、30至32、至少32、32至35、至少35、至少36、至少37、至少38、至少39、至少40或甚至大于40摄氏度。孵育时间为至少1分钟、至少2分钟、至少3分钟、至少4分钟、至少5分钟、至少6分钟、至少7分钟、至少8分钟、至少9分钟、至少10分钟、或甚至大于10分钟。孵育之前、期间或之后,反应混合物中一种或多种多核苷酸的一种或多种序列可以通过本领域已知的任何方法来确定。一方面,可以通过在与cas-α直系同源物结合之前,将从反应混合物中纯化的一种或多种多核苷酸的一种或多种序列与靶多核苷酸的序列进行比较来确定靶多核苷酸的修饰。试剂盒中可包含可用于体外或体内多核苷酸检测、结合和/或修饰的本文公开的组合物中的任何一种或多种。试剂盒包含cas-α直系同源物或编码这样的cas-α直系同源物或多核苷酸cas-α直系同源物,以及任选地进一步包含能够有效储存的缓冲液组分,以及一种或多种另外的组合物,所述一种或多种另外的组合物能够将所述cas-α直系同源物或cas-α直系同源物引入异源多核苷酸,其中所述cas-α直系同源物或cas-α直系同源物能够实现对所述异源多核苷酸的至少一个核苷酸的修饰、添加、缺失或取代。在另一方面,本文公开的cas-α直系同源物可用于从混合池富集一种或多种多核苷酸靶序列。在另一方面,可以将本文公开的cas-α直系同源物固定在基质上,以用于体外靶多核苷酸检测、结合和/或修饰。出于储存、纯化和/或表征的目的,cas-α内切核酸酶可以附接、结合或附着于固体基质。固体基质的实例包括但不限于:过滤器、层析树脂、测定板、试管、低温小瓶等。cas-α内切核酸酶可以被充分纯化并储存在合适的缓冲溶液中,或冻干。检测方法检测与靶多核苷酸结合的cas-α:指导多核苷酸复合物的方法可以包括本领域中任何已知的方法,包括但不限于显微镜检查、色谱分离、电泳、免疫沉淀、过滤、纳米孔分离、微阵列以及下文所述的那些。dna电泳迁移率变动分析(emsa):研究与已知dna寡核苷酸探针结合的蛋白,并评估相互作用的特异性。所述技术基于以下原理:当进行聚丙烯酰胺或琼脂糖凝胶电泳时,蛋白-dna复合物的迁移速度比游离dna分子慢。由于dna迁移的速度在蛋白结合后被阻滞,因此所述测定也称为凝胶阻滞测定。将蛋白特异性抗体添加到结合组分中会产生更大的复合物(抗体-蛋白-dna),所述复合物在电泳过程中迁移甚至更慢,这被称为超变动并且可用于确认蛋白身份。dna下拉测定使用标记有高亲和力标签(例如生物素)的dna探针,所述标签允许回收或固定探针。可以将dna探针与来自emsa中使用的类似的反应中细胞裂解物的蛋白复合并且然后用于使用琼脂糖或磁珠进行纯化。然后从dna洗脱蛋白,并通过蛋白印迹检测或通过质谱鉴定。可替代地,可以用亲和标签标记蛋白,或者可以使用针对目的蛋白的抗体分离dna-蛋白复合物(类似于超变动测定)。在这种情况下,通过dna印迹或pcr分析检测与蛋白结合的未知dna序列。报告子测定提供目的启动子翻译活性的实时体内读出。报告基因是靶启动子dna序列和报告基因dna序列(所述报告基因dna序列由研究者定制并且编码具有可检测特性的蛋白,例如萤火虫/雷尼利亚萤光素酶或碱性磷酸酶)的融合体。这些基因仅在目的启动子被激活时才产生酶。酶继而催化底物以产生可以通过光谱仪器检测到的光或颜色变化。来自报告基因的信号用作对于由同一启动子驱动的内源蛋白的翻译而言的间接决定因素。微孔板捕获和检测测定使用固定化的dna探针来捕获特异性蛋白-dna相互作用,并确认蛋白身份和与靶特异性抗体的相对含量。通常,dna探针固定在包被链霉亲和素的96或384孔微孔板的表面上。制备并添加细胞提取物以使结合蛋白结合至寡核苷酸。然后去除提取物,并且每个孔洗涤几次以去除非特异性结合的蛋白。最后,使用经标记用于检测的特异性抗体检测蛋白。该方法非常灵敏,能检测低于0.2pg靶蛋白/孔。该方法也可用于标记有其他标签(例如可以固定在包被胺反应性表面化学物质的微板上的伯胺)的寡核苷酸。dna足迹法是获得有关蛋白-dna复合物中各个核苷酸甚至是活细胞内部详细信息的最广泛使用的方法之一。在这样的实验中,使用化学药品或酶来修饰或消化dna分子。当序列特异性蛋白与dna结合时,它们可以保护结合位点不被修饰或消化。这随后可以通过变性凝胶电泳来可视化,其中未保护的dna或多或少地被随机切割。因此,它表现为条带的“阶梯”,并且受蛋白保护的位点没有相应的条带,并看起来像条带图案中的足迹。通过在蛋白-dna结合位点鉴定出特定的核苷,在这里留下足迹。显微镜技术包括光学、荧光、电子和原子力显微镜(afm)。染色质免疫沉淀分析(chip)使蛋白与它们的dna靶共价结合,然后将它们解连接并分别表征。通过指数富集(selex)进行配体的系统进化将靶蛋白暴露于寡核苷酸的随机文库。那些结合的基因通过pcr分离和扩增。本文提供的方法和组合物包括但不限于以下方面。方面1:一种合成的组合物,所述合成的组合物包含:(a)指导多核苷酸;(b)cas内切核酸酶,其包含c末端三分裂ruvc结构域,进一步包含桥螺旋和至少一个锌指结构域、α螺旋束和形成楔状结构域的多个β折叠,其中所述cas内切核酸酶的长度小于650个氨基酸;以及(c)靶序列,其包含与所述指导多核苷酸具有互补性的核苷酸序列;其中所述指导多核苷酸和所述cas内切核酸酶形成复合物,所述复合物切割包含所述靶序列的双链dna多核苷酸。方面2:一种合成的组合物,所述合成的组合物包含:(a)指导多核苷酸;(b)cas内切核酸酶,其衍生自选自由以下组成的组的分类学的生物体:古生菌、micrarchaeota、acidibacillussulfuroxidans、细菌candidatusaureabacteria、古细菌candidatusmicrarchaeota、诺维氏梭菌、热葡萄糖苷地杆菌、瘤胃球菌属物种、和棕榈互营单胞菌、其中所述cas内切核酸酶与所述指导多核苷酸形成复合物;以及(c)双链dna多核苷酸,其包含与所述指导多核苷酸结合的靶序列;其中所述指导多核苷酸和所述cas内切核酸酶形成复合物,所述复合物切割包含所述靶序列的双链dna多核苷酸。方面3:如方面1或方面2所述的合成的组合物,其中所述cas内切核酸酶进一步包含靠近n末端的锌指结构域。方面4:如方面1或方面2所述的合成的组合物,其中所述双链dna多核苷酸进一步包含pam。方面5:如方面4所述的合成的组合物,其中所述pam包含多个胸腺嘧啶核苷酸。方面6:如方面1或方面2所述的合成的组合物,其进一步包含异源多核苷酸。方面7:如方面1或方面2所述的合成的组合物,其中所述指导多核苷酸包含与所述靶序列互补的20个核苷酸的区域。方面8:如方面1或方面2所述的合成的组合物,其中所述指导多核苷酸是包含tracrrna和crrna的双链体分子。方面9:如方面1或方面2所述的合成的组合物,其中所述指导多核苷酸是包含cas内切核酸酶识别结构域和可变靶向结构域的单指导多核苷酸。方面10:如方面6所述的合成的组合物,其中所述异源多核苷酸是表达元件。方面11:如方面6所述的合成的组合物,其中所述异源多核苷酸是转基因。方面12:如方面6所述的合成的组合物,其中所述异源多核苷酸是供体dna分子。方面13:如方面6所述的合成的组合物,其中所述异源多核苷酸是多核苷酸修饰模板。方面14:如方面1或方面2所述的合成的组合物,其中所述crispr-cas内切核酸酶进一步包含核定位信号。方面15:如方面1或方面2所述的合成的组合物,其中所述crispr-cas内切核酸酶是cas-α,或其功能片段。方面16:如方面1或方面2所述的合成的组合物,其中所述crispr-cas内切核酸酶是无催化活性的cas-α。方面17:如方面1或方面2所述的合成组合物,其中所述crispr-cas内切核酸酶是包含cas-α的功能片段的融合蛋白。方面18:如方面17所述的合成的组合物,其中所述融合蛋白进一步包含另一个核酸酶结构域。方面19:如方面1或方面2所述的合成的组合物,其进一步包含至少一种另外多肽。方面20:如方面19所述的合成的组合物,其中所述另外多肽选自由以下组成的组:cas1、cas2和cas4。方面21:如方面1或方面2所述的合成的组合物,其进一步包含细胞。方面22:如方面21所述的合成的组合物,其中所述细胞是真核细胞。方面23:如方面21所述的合成的组合物,其中所述细胞是植物细胞。方面24:如方面23所述的合成的组合物,其中所述植物细胞是单子叶植物细胞或双子叶植物细胞。方面25:如方面23所述的合成的组合物,其中所述植物细胞来自选自由以下组成的组的生物体:玉蜀黍、大豆、棉花、小麦、卡诺拉油菜、油菜、高粱、稻、黑麦、大麦、粟、燕麦、甘蔗、草坪草、柳枝稷、苜蓿、向日葵、烟草、花生、马铃薯、拟南芥属、红花和西红柿。方面26:如方面21所述的合成的组合物,其进一步包含指导多核苷酸,所述指导多核苷酸包含与所述细胞的基因组中的靶序列基本互补的可变靶向结构域方面27:一种多核苷酸,其编码如方面1或方面2所述的合成的组合物。方面28:如方面27所述的多核苷酸,其进一步包含至少一种另外多核苷酸。方面29:如方面28所述的多核苷酸,其中所述至少一种另外多核苷酸是表达元件。方面30:如方面28所述的多核苷酸,其中所述至少一种另外多核苷酸是基因。方面31:如方面30所述的合成的组合物,其中所述基因选自由以下组成的组:cas1、cas2和cas4。方面32:如方面28所述的多核苷酸,其中至少一种多核苷酸包含在重组构建体中。方面33:如方面1或方面2所述的合成的组合物,其中至少一种组分附接至固体基质。方面34:一种合成的组合物,其包含靶双链dna多核苷酸、与所述双链dna多核苷酸中的序列互补的指导多核苷酸和与选自由以下组成的组的序列具有至少80%同一性的cas核酸内切酶:seqidno:17、18、19、20、32、33、34、35、36、37和38,或其功能片段或变体。方面35:一种合成的组合物,其包含靶双链dna多核苷酸、编码与所述双链dna多核苷酸中的序列互补的指导多核苷酸的多核苷酸和与选自由以下组成的组的序列具有至少80%同一性的cas核酸内切酶基因:seqidno:13、14、15、16、25、26、27、28、29、30和31,或其功能片段或变体。方面36:一种在细胞的基因组中的靶序列处引入位点特异性修饰的方法,所述方法包括:将来自如方面1-35中任一项所述的合成的组合物引入所述细胞。方面37:一种产生具有经修饰的基因组的生物体的方法,所述方法包括:(a)将异源组合物引入所述生物体的至少一个细胞中,所述异源组合物包含:i.cas-α内切核酸酶或编码cas-α内切核酸酶cas-α多核苷酸,ii指导多核苷酸,所述指导多核苷酸包含与所述细胞的基因组中的靶序列基本互补的可变靶向结构域,其中所述指导多核苷酸和cas-α内切核酸酶能够形成复合物,所述复合物可以对所述靶序列进行识别、结合、并且任选地产生切口或进行切割,iii.和多核苷酸修饰模板,所述多核苷酸修饰模板包含至少一个区域,所述至少一个区域与跟cas-α复合物识别的dna靶序列相邻的pam序列互补,其中对应于pam序列的所述至少一个区域包含至少一个核苷酸错配;(b)孵育所述细胞,(c)从所述细胞产生完整的生物体,以及(d)验证在所述生物体的至少一个细胞的基因组中与在引入(a)的异源组合物之前所述细胞的基因组的靶序列相比的至少一个核苷酸修饰。方面38:如方面36或37所述的方法,其中所述细胞是真核细胞。方面39:如方面38所述的方法,其中所述真核细胞衍生自或获得自动物或植物。方面40:如方面39所述的方法,其中所述植物是单子叶植物或双子叶植物。方面41:如方面39所述的方法,其中所述植物选自由以下组成的组:玉蜀黍、大豆、棉花、小麦、卡诺拉油菜、油菜、高粱、稻、黑麦、大麦、粟、燕麦、甘蔗、草坪草、柳枝稷、苜蓿、向日葵、烟草、花生、马铃薯、拟南芥属、红花和西红柿。方面42:如方面36或37所述的方法,其进一步包括引入异源多核苷酸。方面43:如方面42所述的方法,其中所述异源多核苷酸是供体dna分子。方面44:如方面42所述的方法,其中所述异源多核苷酸是多核苷酸修饰模板,所述多核苷酸修饰模板包含与所述细胞中的序列具有至少50%同一性的序列。方面45:一种通过方面37的方法获得的生物体的后代,其中所述后代在至少一个细胞中保留了所述至少一个核苷酸修饰。方面46:一种修饰靶细胞的基因组序列的方法,所述方法包括提供包含与seqidno:17、18、19、20、32、33、34、35、36、37和38之一具有至少95%至100%同一性的氨基酸序列的cas内切核酸酶和靶向所述靶细胞基因组序列的指导多核苷酸;并且在所述靶细胞的基因组序列中引入双链断裂,从而修饰所述靶细胞的基因组序列。尽管已经参照优选实施例和各种替代实施例明确展示和描述了本发明,但是本领域技术人员应理解,在不脱离本发明的精神和范围的情况下,可以对其在形式和细节上进行各种改变。例如,虽然下面的具体实例可以使用特定靶位点或靶生物体来说明本文所述的方法和实施例,但这些实例中的原理可以应用于任何靶位点或靶生物体。因此,应当理解,本发明的范围被本文和说明书中记载的本发明的实施例所涵盖,而不是由以下示例的具体实例所涵盖。出于所有目的,在本申请中提到的所有引用的专利、申请和出版物通过引用以其全部内容结合在此,其程度如同它们各自单独和特别地通过引用结合。实例以下是本发明一些方面的具体实施例的实例。提供这些实例仅出于说明目的,而无意以任何方式限制本发明的范围。就使用的数字(例如量、温度等)而言,已努力确保其准确性,但仍应允许有一些实验误差和偏差。实例1:新颖类cas-αcrispr-cas系统的鉴定和表征在本实例中,描述了用于鉴定新颖2类crispr(成簇的规律间隔的短回文重复序列)-cas(crispr相关)基因座的方法,所述方法使用操纵子样基因结构的鉴定和蛋白质结构分析。首先,使用piler-cr(edgar,r.(2007)bmcbioinformatics[bmc生物信息学],8:18)和minced(bland,c.等人(2007)bmcbioinformatics[bmc生物信息学],8:209)软件程序在微生物序列中检测crispr阵列。接下来,通过利用一组包含所有已知cas蛋白家族的位置特异性评分矩阵(pssm)(如makarova,k.等人(2015)naturereviewsmicrobiology[自然综述微生物学],13:722-736中所述)搜索编码在crispr阵列附近(20kb5′和20kb3′(如果可能))的蛋白与已知crispr相关(cas)蛋白的同源性,从数据集中移除已知crispr-cas系统。为了帮助完全去除已知的2类crispr-cas系统,使用muscle(edgarr.(2004)nucleicacidsres.[核酸研究]32:1792-1797)对来自2类crispr-cas内切酶(例如cas9、cpf1(cas12a)、c2c1(cas12b)、c2c2(cas13)、c2c3(cas12c))的每个家族的直向同源物集合的蛋白质序列进行多序列比对。这些比对被检查、整理并用于使用hmmer建立轮廓隐马尔可夫模型(hm)(eddy,s.r.(1998)bioinformatics[生物信息学].14:755-763;eddy,s.r.(2011)ploscomp.biol.[美国科学公共图书馆计算生物学],7:e1002195)。然后利用得到的hmm模型进一步鉴定并从数据集中移除已知的2类crispr-cas系统。接下来,使用如上所述的pssm特异性搜索,评估剩余的crispr基因座是否存在编码被认为对间隔子插入和适应重要的蛋白(cas1和cas2)的基因(makarova,k.等人(2015)naturereviewsmicrobiology[自然评论微生物学],13:722-736)。然后选择包含cas1和cas2基因的crispr基因座并进一步检查以确定基因座中编码的未定义基因相对于cas1和cas2基因和crispr阵列的接近度、顺序和方向性。只有那些形成操纵子样结构的crispr基因座(其中大的(≥1500bp开放阅读框)未定义基因与cas1和cas2基因接近并处于相同的转录方向)被选作进一步分析。接下来,分析未定义的基因中编码的蛋白的序列和结构特征,以指示能够切割dna的2类内切核酸酶。首先,根据候选序列与已知蛋白之间的相似性,使用各种生物信息学工具来揭示其保守的功能特征,从两两比较,到家族谱搜索,到结构穿线,再到人工结构检查。一般来说,新候选蛋白的同源序列首先通过以下来收集:针对国家生物技术信息中心(ncbi)非冗余(nr)蛋白集进行psi-blast(altschul,s.f.等人(1997)nucleicacidsres.[核酸研究]25:3389-3402)搜索,其中截止e值为0.01。在大约90%的相同水平减少冗余后,利用多序列比对工具msaprobs(liu,y.等人(2010)bioinformatics[生物信息学].26:1958-1964)和clustalw对具有不同成员包含阈值(如>60%、40%或20%同一性)的同源序列组进行比对,以揭示保守基序。最保守的同源序列通过hmmer(eddy,s.r.(1998)bioinformatics[生物信息学].14:755-763)针对包括pfam、superfamily和scop的众多域数据库(murzin,a.g.等人(1995)j.mol.biol.[分子生物学杂志]247:536-540)和基于内部构件结构的自制谱进行序列家族谱搜索。另外,所得候选的同源序列比对还用于生成具有预测二级结构的候选蛋白谱。候选谱进一步用于通过hhsearch(soding,j.等人(2006)nucleicacidsres.[核酸研究]34:w374-378)针对pdb70_hhm和pfam_hhm谱数据库进行谱-谱搜索。在下一步中,所有检测到的序列-结构关系和保守的基序被用modeller插入到3d结构模板中,或者手动映射到discoverystudio(biovia)和pymol(schrodinger)上的已知结构参考。最后,为了验证和确认作为2类内切核酸酶的潜在生物学相关性,将催化或最保守的残基和关键的结构完整性进行人工检查并且根据蛋白的生化功能进行评估。在结构方面鉴定了指示2类内切核酸酶的关键特征(例如一个或多个dna裂解结构域)之后,接下来使用interproscan软件(embl-ebi,英国)检查编码在基因座内的其他蛋白(从新定义的crispr-cas系统末端起的5kb5′和5kb3′(在可能的情况下))与已知蛋白家族的同源性,并通过使用blast程序(altschul,s.f.等人(1990)j.mol.biol.[分子生物学杂志]215:403-410)与ncbinr蛋白集进行比较。编码与已知蛋白具有相似性(至少30%同一性)的蛋白的基因在crispr-cas基因座中进行了注释。初步从未知微生物中鉴定出4个新颖2类crispr-cas系统(表1)。如图1a和1b所示,编码在每个基因座上的是完整的crispr-cas系统,包括捕获和干扰所需的所有组分。这些包括共同编码捕获和整合间隔子所需的蛋白(cas1、cas2和任选的cas4)和新颖蛋白(包含dna切割结构域cas-alpha(α),位于与crispr阵列相邻的操纵子样结构中)的基因(表1)。表1.新颖2类crispr-cas系统cas-alpha(α)1、2、3和4接下来,使用blast将cas-α内切核酸酶与ncbinr蛋白集进行比较,然后用minced进行分析以找到接近crispr阵列(≤5kb)的蛋白,产生了7个另外的crispr系统(表2)。针对这些新蛋白发现的基因座基因结构显示在图1c和1d中。除了部分cas1基因外,编码cas-α6的基因座还包含完整的cas2和cas4基因(图1c),而cas-α5、7、8、9、10和11仅包含与crispr阵列相邻的内切核酸酶基因(图1d)。cas-α18和19的基因座描绘在图21a,其作用机理如图21b所示。表2a.cas-alpha(α)内切核酸酶5-11这些蛋白的结构分析表明,它们不同于以前描述的具有双链dna靶识别和切割能力的2类crispr-cas内切核酸酶。首先,与其他已知的2类crispr-cas系统相比,内切核酸酶的大小(422-613个氨基酸)显著紧凑。第二,蛋白的从氨基(n)末端的第一半在序列组成上是高度可变的,这从甚至单个氨基酸(除了起始蛋氨酸)缺乏保守性可以明显看出。尽管如此,二级结构预测(psipred(jones,j.t.(1999)j.mol.biol.[分子生物学杂志]292:195-202))表明混合的β链和α螺旋的存在提示在所有的cas-α蛋白的n末端区域存在楔状(wed)或寡核苷酸结合结构域(obd)结构和螺旋束。在蛋白的从羧基(c)末端一半中,包含三分裂ruvc结构域的关键催化残基和结构是保守的(图2)。此外,所有蛋白都含有分别插入ruvc亚结构域i-ii和ii-iii之间的桥-螺旋结构域和锌指结构域(图2)。需要注意的是,在cas-α-1、2、3、4和10蛋白中检测到了另外的锌指样基序。对于cas-α-1、2、3和4而言,第二锌指基序位于n末端附近(例如分别是cas-α-1和2中的氨基酸位置为70-96和63-111)(图8a-d)而对于cas-alpha-10而言,在蛋白的从c末端的一半中发现了另外两个锌指基序(图8j)。这里,额外锌指结构域中的一个与ruvcii和iii亚结构域之间的第一个(cas-α-10氨基酸位置376-422)串联定位,第三个位于ruvc亚结构域iii之后(cas-α-10氨基酸位置466-482)(图8j)。对于cas-α1-11而言,所回收的cas-α序列和基序的实例分别示于图8a-k中。图9描绘了一些cas-α结构域如何与杂交双链靶dna/指导rna相互作用,使用cas12b(c2c1)蛋白骨架(pdb:5wti)作为参考。cas-α1至129的序列分析,用muscle多序列比对进行比对,揭示了与seqidno:17的氨基酸位置号(表:位置337的甘氨酸(g)、位置341的甘氨酸(g)、位置430的谷氨酸(e)、位置432的亮氨酸(l)、位置487的半胱氨酸(c)、位置490的半胱氨酸(c)和/或位置507的半胱氨酸(c))相关的具有cas-α内切酶特征的独特基序。cas-α内切核酸酶包含以下基序:gxxxg、exl、cxnc和cxn(c,h)(其中xn=2-4个残基)。cas-α内切核酸酶包含一个或多个锌指结构域。表2b包括cas-α内切核酸酶中发现的一些保守基序。表2b.cas-alpha(α)内切核酸酶保守基序基序以每个序列的起始氨基酸(aa)位置来描述(如果>=6个aa则终止)。x=任何氨基酸(n=任何数目,在适用情况下)。g=甘氨酸,e=谷氨酸,l=亮氨酸,c=半胱氨酸,h=组氨酸。实例2:cas-α指导rna方案在本实例中,描述了用于确定一种或多种指导rna的方法,所述指导rna支持一组新颖2类crispr(成簇的规律间隔的短回文重复序列)-cas(crispr相关)内切核酸酶cas-α的双链dna靶识别和切割。一种方法依赖于计算预测来确定与cas-α内切核酸酶形成功能性复合物所需的一种或多种srna。简而言之,crispr阵列可用于产生一种或多种crisprrna(一种或多种crrna),考虑crispr阵列的可能转录方向和重复序列和间隔子的可能是内切核酸酶优选的各种配置(例如重复序列:间隔子、间隔子:重复序列或重复序列:间隔子:重复序列)。此外,一种或多种反式编码crispr相关rna(一种或多种tracrrna)可以如karvelis,t.等人(2015)genomebiology.[基因组生物学]16:253描述在基因座中通过计算鉴定。简而言之,可以使用blast或手动在crispr重复共有序列与基因座序列之间进行比对。然后可以通过针对围绕反重复序列的有义和反义基因组dna序列的rna版本中存在的二级结构和可能的终止信号,分析推测的一种或多种tracrrna的可能转录方向来检查同源区(与crispr阵列分离)。然后可以将一种或多种tracrrna与各种crrna预测进行双链化或工程化以形成一种或多种嵌合的非天然单指导rna(一种或多种sgrna)。一种或多种crrna、一种或多种tracrrna和一种或多种sgrna可以被合成(idt等同物)或用transcriptaidt7高产量转录试剂盒(赛默飞世尔科技公司(thermofisherscientific))或等同物进行t7转录用于进一步实验。另一种方法依赖于由新颖2类crispr-cas基因座产生的小rna(srna-seq)的测序。这可以类似于zetsche,b.等人(2015)cell.[细胞]163:1-13中描述的方法来执行。简单地说,crispr-cas基因座被放置在大肠杆菌质粒dna上,接着通过离心来获得含有质粒携带的crispr-cas基因组的培养物,使用trizolmax细菌分离试剂盒(赛默飞世尔科技公司)提取总rna,使用mirvanamirna分离试剂盒(赛默飞世尔科技公司)分离小rna,以及使用truseq小rna文库制备试剂盒(依诺米那公司(illumina))制备文库用于测序。可以使用已知的大肠杆菌启动子加强基因座的表达。在miseq仪器(依诺米那公司)或同等仪器上测序后,绘制所得序列数据(bowtie2软件(langmead,b.等人(2012)nat.methods.[自然方法]9:357-359)或等同物)或返回基因组,以确定编码在所述基因组中的一种或多种srna的转录和成熟模式。另一种方法依赖于与来自新颖2类crispr-cas基因座的cas-α蛋白共同纯化的小rna(srna-seq)的测序。这可以类似于sinkunas,t.等人(2013)emboj.[欧洲分子生物学学会杂志]32:385-394中描述的方法来执行,除了采用依诺米那深度测序来确定引导双链dna靶识别和切割所需的一种或多种小rna的序列。简单地说,crispr-cas基因座被放置在大肠杆菌质粒dna上。基因座中的cas-α基因可以被修饰为还编码蛋白纯化标签。例如但不限于组氨酸(his)、链霉亲和素(strep)和/或麦芽糖结合蛋白(mbp)标签。或者,编码cas-α蛋白的带his、strep和/或mbp标签的版本的“独(solo)”cas-α表达盒可以与携带基因座的质粒共转化。接下来,将质粒转化进入大肠杆菌(例如但不限于articexpress(de3)(赛默飞世尔科技公司),然后通过离心获得培养物。然后裂解细胞并通过色谱纯化带标签的cas-α蛋白。最后,使用trizolmax细菌分离试剂盒(赛默飞世尔科技公司)或其他合适的方法提取与cas-oα蛋白结合的小rna,并如上所述处理。crrna、tracrrna和sgrna方案在表3中列出,用于本文所述的选择cas-α系统。表3.cas-alpha(α)指导rna方案实例3:细菌cas-α表达质粒在该实例中,产生质粒dna表达构建体以检查异源宿主大肠杆菌中的cas-α双链dna靶标识别和切割。首先,修饰编码本文所检测的第一cas-α内切核酸酶cas-α1(seqidno:17)的天然cas-αcrispr-cas基因座(图1)(seqidno:21)的crispr阵列。这是通过将crispr单元(重复序列(seqidno:46):间隔子:重复序列(seqidno:46))的数量减少到三个来实现的。接着,用能够与双链靶序列t2的反义链碱基配对的序列(seqidno:78)替换重复序列之间的间隔子序列,所述双链靶序列t2与来自karvelis等人,2015中描述的质粒dnapam文库的随机化的7bp区域相邻。然后将所得的“完整”crispr-cas基因座工程化以靶向t2(seqidno:79)(图3),然后直接合成(金斯瑞公司(genscript)到低拷贝大肠杆菌质粒dna(pacyc184,neb)产生质粒dnar-225。应该注意的是,在合成过程中,单核苷酸多态性(snp)被引入到casαl但snp(基因的位置1284处c至a)是沉默的,没有改变casα1的氨基酸组成。为了增强经修饰的cas-αcrispr-cas基因座的表达,它还被克隆到petduet-1(密理博西格玛公司(milliporesigma))中,所述petduet-1被修饰为含有单个异丙基β-d-1-硫代吡喃半乳糖苷(iptg)诱导型t7启动子,从而产生质粒dnar-652。接下来,为了确定双链dna靶点切割活性需要casα1,将其基因(seqidno:13)从质粒r-652中去除,得到质粒dnar-658。为了确认双链dna靶识别和切割所需的最少组分,从r-652去除了适应基因(cas1、2和4)和经修饰的crispr阵列的3′区域,产生“最小”基因座(seqidno:80)(如图3所示例)表达质粒,得到质粒r-657。对于其他cas-α内切核酸酶,将编码被修饰为靶向t2的“最小”基因座(图3)(cas-α1的r-657等同物)的质粒dna表达盒合成(金斯瑞公司)到petduet-1中以测定dsdna靶识别和切割。另外,通过本领域已知的方法构建“独”cas-α基因,其融合到编码组氨酸(his)标签(10x-hisseqidno:81或6x-hisseqidno:82)、麦芽糖结合蛋白(mbp)标签(seqidno:83)和烟草蚀刻病毒切割位点(tev)(seqidno:84)的序列的3’末端(图3)。使用了天然caas-α基因序列或大肠杆菌密码子优化版本。对于优化的基因,使用大肠杆菌密码子表进行密码子调节,根据理想的gc含量调整基因,并在可能的情况下删除重复序列和基因不稳定特征。最后,通过本领域已知的方法将加标签的“独”cas-α基因克隆到四环素(tet)、iptg或阿拉伯糖诱导型质粒dna表达盒中。实例4:cas-α蛋白表达和纯化在本实施例中,描述了重组表达和纯化cas-α内切核酸酶的方法。如实例3中所述,使用加标签的“独”蛋白表达质粒表达和纯化cas-α蛋白。首先,将表达构建体转化到大肠杆菌bl21(de3)或arcticexpress(de3)菌株中,并在补充有选择剂(例如氨苄青霉素(100μg/ml))的lb肉汤中培养培养物。培养至od600为0.5后,温度降至16℃,并用iptg(0.5mm)或阿拉伯糖(0.2%(w/v))诱导表达。16小时后,将细胞沉淀并重新悬浮在上样缓冲液(20tris-hcl,ph8.0,25℃,1.5mnacl,5mm2-巯基乙醇,10mm咪唑,2mmpmsf,5%(v/v)甘油)中并通过超声破碎。通过离心去除细胞碎片。将上清液加载到带ni2+电荷的hitrap螯合hp柱(通用医疗健康公司(gehealthcare))上,并在20tris-hcl(ph8.0,25℃)、0.5mnacl、5mm2-巯基乙醇缓冲液中以增加咪唑浓度(从10到500mm)的线性梯度洗脱。将含有cas-α的级分合并,并且随后装载到hitrapheparinhp柱(通用医疗健康公司)上,使用线性递增浓度梯度的nacl(从0.1m至1.5m)用于洗脱。将含有cas-α蛋白的下一个级分池化,并通过在4℃下与tev蛋白酶孵育过夜来切割标签。为了去除切割的his-mbp标签和tev蛋白酶,将反应混合物加载到hitrap肝素hp5柱(通用医疗健康公司)上,使用增加nacl浓度(从0.1到1.5m)的线性梯度进行洗脱。接下来,将来自hitrap柱的洗脱液加载到mbptrap柱(通用医疗健康公司)上,然后收集流过的cas-α蛋白。然后将收集的级分在20mmtris-hcl(25℃、ph8.0)、500mmnacl、2mmdtt和50%(v/v)甘油中透析,并储存在-20℃。实例5:检测cas-α双链dna靶识别和切割的方法在本实例中,描述了检测双链dna靶识别和cas-α内切核酸酶切割的方法。裂解物测定双链dna靶识别和切割的检测使用表达cas-α核酸内切酶的细胞裂解物进行,如图3所示。首先,通过本领域已知的方法,将编码cas-α核酸内切酶的质粒dna(以其本身或作为被修饰以靶向t2序列(见实例3)的cas-αcrispr-cas基因座的一部分)转化进入大肠杆菌细胞(例如,dh5α(赛默飞世尔科技公司)、arcticexpress(de3)(安捷伦技术公司(agilenttechnologies))或nebstable(neb))。接下来,在含有合适抗生素(例如氨苄青霉素)的luria液体培养基(lb)中,将携带编码cas-α内切核酸酶的基因的细胞培养物培养至0.5(使用600nm波长)的光密度(od)(图3步骤i)。对于需要诱导剂刺激表达的质粒(例如,r-652),温度降低至16℃,并用诱导剂(例如,1mm异丙基β-d-1-硫代吡喃半乳糖苷(iptg))启动表达16小时。如果不需要诱导,则在达到0.5的od600后立即收获细胞。接下来,通过离心(4℃下3,000g5分钟)沉淀细胞,倒出培养基,并重悬于补充了10μlpmsf的1ml裂解缓冲液(20mm磷酸盐,ph7.0,0.5mnacl,5%(v/v)甘油)中并转移到冰上。然后通过超声处理2分钟(6秒脉冲,然后是3秒暂停)破坏细胞,并通过在4℃下以14,000g离心30分钟去除细胞碎片。接下来,对于作为单独组分表达的cas-α蛋白,在1μl(40u)ribolockrna酶抑制剂(赛默飞世尔科技公司)存在下,将20μl含可溶性cas-α蛋白的上清液立即与2μgt7转录的一种或多种指导rna组合,并在室温下孵育15分钟(图3步骤ii)。如果cas-α内切核酸酶和指导rna从质粒携带的crispr-cas基因座一起表达,则不再进一步处理含有cas-α指导rna核糖核蛋白复合物的澄清裂解物,而是直接用于下一步(图3步骤ii)。通过将10μlcasα-指导rna裂解混合物与90μl反应缓冲液(10mmtris-hcl,在37℃下ph7.5,100mmnacl和1mmdtt,10mmmgcl2)和1μg来自karvelis等人2015的包含t2靶序列的7bp随机pam文库轻轻组合,进行随机pam文库的消化(图3步骤iii)。可替代地,如果pam序列已知,则将10μlcas-α指导rna裂解混合物与1μg含有固定靶序列的质粒dna混合。在37℃下1小时后,通过将反应与1μl(5u)的t4dna聚合酶和1μl的10mmdntp混合物(赛默飞世尔科技公司)在11℃下孵育20分钟,来使反应经受dna末端修复。然后通过将其加热至75℃10分钟使反应失活。为了通过衔接子连接来有效捕获游离的dna末端,通过将反应混合物与1μl(5u)dreamtaq聚合酶(赛默飞世尔科技公司,ep0701)在72℃下孵育30分钟来添加3′-da突出端。然后通过在37℃下孵育1μlrna酶a/t1(赛默飞世尔科技公司)30分钟,从反应中去除过量的rna。然后使用genejetpcr纯化试剂盒(赛默飞世尔科技公司)纯化所得dna。接下来,通过以下来制备具有3′-dt突出的衔接子:在95℃加热a1(5′-cggcattcctgctgaaccgctcttccgatct-3′(seqidno:85))和磷酸化的a2(5′-gatcggaagagcggttcagcaggaatgccg-3′(seqidno:86)寡核苷酸的等摩尔混合物5分钟并且在退火(a)缓冲液(10mmtris-hcl,37℃下ph7.5,50mmnacl)中缓慢冷却(约0.1℃/s)至室温,使两者退火。然后通过以下将衔接子连接至末端修复的3′-da突出切割产物:在25μl连接缓冲液(40mmtris-hcl,在25℃ph7.8,10mmmgcl2,10mmdtt,0.5mmatp,5%(w/v)peg4000))中,将100ng的所述产物和衔接子与5u的t4连接酶(美国赛默飞世尔科技公司)组合,并使反应在室温下进行1小时(图3步骤iv)。接下来,分别使用r0(5′-gccagggttttcccagtcacga-3’(seqidno:87))和特异于7bppam文库的a1寡核苷酸和衔接子富集含有pam序列的切割的产物(图3步骤v)。使用具有高保真(hf)缓冲液(赛默飞世尔科技公司)的phusion高保真度pcr预混液,使用10μl的连接反应作为模板进行pcr。使用两步扩增方案(98℃-30s初始变性,98℃-15s,72℃-30s变性、退火和合成,15个循环,以及72℃-5分钟的最终延伸)。对于在不存在cas-α的情况下组装的样品,使用r0和c0引物(5′-gaaattctaaacgctaaagaggaagagg-3’(seqidno:88))对进行pcr,其中c0与前间隔子序列互补。接下来,使用genejetpcr纯化试剂盒(赛默飞世尔科技公司)纯化扩增产物(a1/r0和c0/r0引物对分别为148bp和145bp)。接着,将依诺米那公司深度测序所需的序列和索引掺入cas-α切割的dna片段的末端,并对所得产物进行深度测序(图3步骤vi)。这通过以下来完成:根据制造商的说明,使用hf缓冲液(新英格兰实验室公司)中的phusion高保真pcr预混液进行两轮pcr。使用20ngcas-α切割的衔接子连接的pam侧模板组装一级pcr,并进行10个循环。该反应使用可以与衔接子杂交的正向引物f1(5′-ctacactctttccctacacgacgctcttccgatctaaggcggc-attcctgctgaac-3’(seqidno:89))和与pam随机区域的3′位点结合的反向引物r1(5′-caagcagaagacggcatacgagctcttccgatctcggcgacgttgggtc-3′(seqidno:90))。除了与衔接子连接的pam片段杂交外,引物还包含从其5′末端延伸的依诺米那序列。对于正向引物,额外序列包括桥扩增所需的序列的一部分(5′-ctacactctttccctacacgacgc-tcttccgatct-3’(seqidno:91)),之后是可互换的独特索引序列(5′-aagg-3′)(如果同时测序,其允许对多个扩增子进行去卷积)。对于反向引物,另外的序列仅包含在扩增子的3′末端进行桥扩增所需的序列(5′-caagcagaagacggcatacgagctc-ttccgatct-3’(seqidno:92))。使用以下pcr循环条件:95℃-30s初始变性,95℃-10s,60℃-15s,72℃-5s变性、退火和合成,10个循环,以及72℃-5min进行最终延伸。初次pcr后,使用2μl(总体积为50μ1)的第一轮pcr作为模板进行第二轮pcr扩增。二级pcr中使用的正向引物f2(5′-aatgatacggcgaccaccgagatctacactcttt-ccctacacg-3’(seqidno:93))与f1的5′区杂交,进一步延伸了依诺米那深度测序所需的序列。二级pcr中使用的反向引物r2(5′-caagcagaagacggcata-3’(seqidno:94))仅与初级pcr扩增子的3′末端结合。使用以下pcr循环条件:95℃-30s初始变性,95℃-10s,58℃-15s,72℃-5s变性、退火和合成,10个循环,以及72℃-5min进行最终延伸。建立文库后,按照制造商的说明,使用qiaquickpcr纯化试剂盒(凯杰公司(qiagen))纯化扩增产物,并以等摩尔浓度组合成单样品。接下来,将文库在miseq个人测序仪(依诺米那公司)上进行单读深度测序,其中掺入为25%(v/v)的phix对照v3(依诺米那公司),并按照制造商的说明进行序列后处理和反卷积。请注意,初始pam文库也已作为对照进行测序,以考虑会影响下游pam分析的固有偏差。这如上所述进行,除了在初级pcr中使用正向引物c1(5′-ctacactctttccctacacgacgctcttccgatctggaataaacgctaaagaggaagagg-3’(seqidno:95))代替f1,因为它直接与未剪切的pam文库中的前间隔子区域杂交。接下来,通过在cas-α切割的片段中寻找pam的存在来评估双链dna靶识别的证据。这是通过以下来完成:首先生成代表靶区域内双链dna切割和衔接子连接的所有可能结果的序列集合。例如,紧接在靶的第21位置之后的切割和衔接子连接将产生以下序列(5′-ccgctcttccgatctgccggcgacgttgggtcaact-3’(seqidno:96)),其中衔接子和靶标序列分别包含5′-ccgctcttccgatct-3′(seqidno:97))和5′-gccggcgacgttgggtcaact-3’(seqidno:98)。接下来,在序列数据集中搜索这些序列以及7bppam区域5’的10bp序列(5′-tgtcctcttc-3’(seqidno:99))。鉴定后,通过剪除5′和3′侧翼序列,分离出中间的pam序列。接下来,将提取的pam序列的频率归一化为初始pam文库,以说明初始文库固有的偏差。首先,枚举相同的pam序列,并计算相比于数据集中的总读段的频率。然后,使用以下方程式对每个pam进行归一化,以说明初始文库中代表不足或代表过量的pam序列:归一化的频率=(处理频率)/(((对照频率)/(平均对照频率)))归一化后,计算位置频率矩阵(pfm)。这是通过根据与每个pam相关的频率(归一化)对每个位置的每个核苷酸加权来完成的。例如,如果5′-cggtagc-3’的pam的归一化频率为0.15%,则在确定第一pam位置的核苷酸频率时,第一位置的c的频率将为0.15%。接下来,将数据集中每个位置的每个核苷酸的总体贡献相加并组织到一个表中,其中最丰富的核苷酸表示cas-αpam偏好。通过检查cas-α靶切割和衔接子连接所产生的独特连接来评估cas-α双链dna靶切割的证据。首先,生成了代表t2靶区域内双链dna切割和衔接子连接的所有可能结果的序列集合(如上文详述)。接下来,在每个依诺米那序列数据集中相对于阴性对照(没有cas-α的实验设置)检查得到的序列的频率。将其中过量回收依诺米那序列(导致相比阴性对照的读段覆盖的峰或尖)的前间隔子-衔接子连接位置被认为是靶向dna切割的证据。实例6:cas-α双链dna靶识别和切割在本实例中,鉴定了赋予cas-α双链dna靶识别和切割的分子特征。cas-α是依赖pam的dsdna内切核酸酶cas-αcrispr(成簇规则间隔短回文重复序列)-cas(crispr相关)内切核酸酶已被报道仅切割单链dna靶而不需要前间隔子相邻基序(pam)(harrington,l.b.等人(2018)science[科学].10.1126/science.aav4294)。在本实例中,我们提供了这组新颖crispr-cas内切核酸酶的证据,1)需要pam与2)指导rna组合以3)识别和切割双链dna靶位点。如表4所示,当使用质粒r-225(含有完全完整的cas-αcrispr-cas基因座,其被修饰以靶向t2序列)时,对cas-α1恢复了pam偏好,这提供cas-α双链dna靶向识别的第一个证据。pam偏好仅在假设靶dna切割和pam区3′位置21bp处的衔接子连接时发生。为了确认双链dna切割活性,构建了包含固定双链dna靶序列(seqidno:100)(由紧靠t2靶序列(seqidno:101)5′的非随机pam(5′-ttat-3′)构成)的质粒dna。然后使用质粒r-225和r-654(见实例3)和固定的靶序列,重复实验。如图4a-e所示,这些实验导致在相对于阴性对照的上述位置处恢复的序列读段尖峰。对于r-654,t7iptg诱导型启动子增强了在紧接pam下游的第21个位置之后的恢复的读段的比例(接近所有读段的40%)。表4:cas-α1的前间隔子邻近基序(pam)偏好展示为位置频率矩阵(pfm)。pam位置从前间隔子靶的第一位置向后编号,其中位置-1紧接t2前间隔子靶的第一位置的5′。括号[x]中的数字表示强pam偏好,斜线中的数字/x/表示弱pam偏好。为了证实所观察到的双链dna靶点识别和切割活性是仅cas-α1、tracrrna编码区和经修饰的crispr阵列的结果,用含有最小cas-αcrispr-cas基因座(仅包括cas-α基因、编码tracrrna的区域和经修饰的crispr阵列)和固定的双链dna靶序列的质粒(r-657)进行实验。如图4d所示,在pam3′的第21位置处发现了类似的切割特征。最后,为了验证观察到的切割活性需要cas-α,也进行了当cas-α基因从crispr-cas基因座(r-658)中移除时的实验。如图4e所示,未检测到dna切割活性。总之,这为cas-α双链dna靶标切割提供了第一个证据。检查双链dna靶识别和切割的第二cas-α蛋白,cas-α4(seqidno:20)。使用独cas-α4表达盒(见实例2和图3),靶向t2的t7转录的一种或多种指导rna(与karvelis等人,2015中描述的7bp随机化pam文库相邻的序列)与含有cas-α4表达蛋白的大肠杆菌裂解物组合。为了确定pam识别相对于间隔子识别的方向,一个或多个指导rna被设计为与t2靶的有义或反义链碱基配对(表5)(图5)。如果设计为与有义链碱基配对的一个或多个指导rna导致pam偏好的恢复并产生切割信号,则前间隔子位于反义链上,并且pam识别发生在相对于它的3′(图5a)。相反,如果设计为与反义链碱基配对的一个或多个指导rna产生pam偏好和切割信号,则前间隔子位于有义链上,并且pam识别发生在它的5′方向(图5b)。在评估t2前间隔子靶中每个位置的衔接子连接频率后,在pam的3’的第24个bp之后恢复了包含所有读段的近30%的峰(图6c和6e)。产生切割信号的两个指导rna都是针对前间隔子的反义链设计的,从而表明pam识别发生在前间隔子的5’。接下来,评估了cas-α4的pam识别。如表6和表7所示,当使用指导rna、t2-2sgrna或t2-2crrna/tracrrna时,对于cas-α2也恢复了类似于cas-α1的富tpam偏好。表5:cas-α4t7转录的指导rna表6:与指导rna、t2-2sgrna配对时,cas-α4的前间隔子相邻基序(pam)偏好展示为位置频率矩阵(pfm)。pam位置从前间隔子靶的第一位置向后编号,其中位置-1紧接t2前间隔子靶的第一位置的5′。括号[x]中的数字表示强pam偏好,斜线中的数字/x/表示弱pam偏好。表7.与指导rna、t2-2crrna/tracrrna配对时,cas-α4的前间隔子相邻基序(pam)偏好展示为位置频率矩阵(pfm)。pam位置从前间隔子靶的第一位置向后编号,其中位置-1紧接t2前间隔子靶的第一位置的5′。括号[x]中的数字表示强pam偏好,斜线中的数字/x/表示弱pam偏好。为了在完全生化环境中证实我们的发现,在体外重建了双链dna靶切割。这是通过使用纯化的cas-α4蛋白(实例4)和体外t7转录的单指导rna(sgrna)(seqidno:77)(实例2)消化双链dna靶来实现的。首先,为了形成核糖核蛋白(rnp)复合物,将1∶1摩尔比的cas-α4和sgrna在复合组装缓冲液(10mmtris-hcl,ph7.5,37℃,100mmnacl,1mmedta,1mmdtt)在37℃下保持30分钟。然后在反应缓冲液(2.5mmtris-hcl,37℃,ph7.5,25mmnacl,0.25mmdtt和10mmmgcl2)中,将100nm得到的rnp与3nm超螺旋(sc)或线性化的质粒dna组合(所述线性化的质粒dna含有sgrna靶序列(其侧翼为cas-α4pam(5′-ttta-3′)))并在37℃下孵育30分钟。然后,停止反应并通过非变性琼脂糖凝胶电泳和溴化乙锭染色进行分析。如图15a中所示,sc质粒dna完全转化为线性形式(fll),因此说明形成了dsdna断裂。此外,线性dna的切割导致预期大小的dna片段,进一步验证了cas-α4介导的dsdna断裂形成(图15a)。接下来,通过排除pam或sgrna靶,我们证实cas-α4绝对需要pam和指导rna来切割dsdna靶(图15b)。接下来检查由cas-α4产生的dsdna断裂类型。使用径流测序,我们观察到cas-α4产生5′交错的突出dna切割位点。切割主要发生在pam序列的以位置20-24bp为中心附近(图15c)。接下来,我们研究了cas-α4是否诱导dsdna靶识别后的非特异性ssdna降解活性。在此,除了使用含有5’pam和相邻sgrna靶的100nmdsdna作为激活剂和包括100nmm13单链dna以检测cas-α4诱导的ssdna酶活性之外,按照上述方式组装反应。在没有sgrna的情况下也建立了反应,以说明dsdna靶向是不加区分的ssdna切割的前提条件。如图15d中所示,cas-α4的反式作用ssdna酶活性仅在指导rna存在下被dsdna激活为了研究我们发现的广泛适用性,还对cas-α2(seqidno:18)、3(seqidno:19)、5(seqidno:32)、6(seqidno:33)、7(seqidno:34)、8(seqidno:35)、9(seqidno:36)、10(seqidno:37)和11(seqidno:38)的双链dna靶识别和切割进行了评估。使用最小crispr-cas基因座(包括cas-α内切核酸酶基因、编码tracrrna的区域和t2修饰的crispr阵列(图3))(合成到细菌t7表达盒(petduet-1(密理博西格玛公司))中),大肠杆菌裂解物实验如实例4中所述,在有和没有iptg诱导的情况下进行。如图16a-16t中所示,除了cas-α5外,对于所有检测了双链dna靶切割。总体而言,与cas-α1和4的结果相似,pam随机化区域3’的前间隔子位置21和24显示了最高的衔接子连接的读段频率。与cas-α1和4相似,5’pam识别也被恢复(表8-15)。总之,本文所述的数据提供了证据,证明在5’pam存在下,cas-α蛋白在一种或多种指导rna的引导下识别和切割双链dna靶位点。表8:cas-α2的前间隔子邻近基序(pam)偏好展示为位置频率矩阵(pfm)。pam位置从前间隔子靶的第一位置向后编号,其中位置-1紧接t2前间隔子靶的第一位置的51。括号[x]中的数字表示强pam偏好,斜线中的数字/x/表示弱pam偏好。表9:cas-α3的前间隔子邻近基序(pam)偏好展示为位置频率矩阵(pfm)。pam位置从前间隔子靶的第一位置向后编号,其中位置-1紧接t2前间隔子靶的第一位置的5′。括号[x]中的数字表示强pam偏好,斜线中的数字/x/表示弱pam偏好。表10:cas-α6的前间隔子邻近基序(pam)偏好展示为位置频率矩阵(pfm)。pam位置从前间隔子靶的第一位置向后编号,其中位置-1紧接t2前间隔子靶的第一位置的5′。括号[x]中的数字表示强pam偏好,斜线中的数字/x/表示弱pam偏好。表11:cas-α7的前间隔子邻近基序(pam)偏好展示为位置频率矩阵(pfm)。pam位置从前间隔子靶的第一位置向后编号,其中位置-1紧接t2前间隔子靶的第一位置的5′。括号[x]中的数字表示强pam偏好,斜线中的数字/x/表示弱pam偏好。表12:cas-α8的前间隔子邻近基序(pam)偏好展示为位置频率矩阵(pfm)。pam位置从前间隔子靶的第一位置向后编号,其中位置-1紧接t2前间隔子靶的第一位置的5′。括号[x]中的数字表示强pam偏好,斜线中的数字/x/表示弱pam偏好。表13:cas-α9的前间隔子邻近基序(pam)偏好展示为位置频率矩阵(pfm)。pam位置从前间隔子靶的第一位置向后编号,其中位置-1紧接t2前间隔子靶的第一位置的5′。括号[x]中的数字表示强pam偏好,斜线中的数字/x/表示弱pam偏好。表14:cas-α10的前间隔子邻近基序(pam)偏好展示为位置频率矩阵(pfm)。pam位置从前间隔子靶的第一位置向后编号,其中位置-1紧接t2前间隔子靶的第一位置的5′。括号[x]中的数字表示强pam偏好,斜线中的数字/x/表示弱pam偏好。表15:cas-α11的前间隔子邻近基序(pam)偏好展示为位置频率矩阵(pfm)。pam位置从前间隔子靶的第一位置向后编号,其中位置-1紧接t2前间隔子靶的第一位置的5′。括号[x]中的数字表示强pam偏好,斜线中的数字/x/表示弱pam偏好。确定cas-α切割的最佳条件使用本领域已知的方法进行生化实验以确定用于rna指导的cas-α内切核酸酶最佳切割dsdna的参数和条件。简而言之,将纯化的cas-α蛋白和t7转录的指导rna孵育在复合物组装(ca)缓冲液(10mmtris-hcl,37℃ph7.5,100mmnacl和1mmdtt)中孵育。然后将所得rnp复合物与含有5’pam的双链质粒dna组合,所述5’pam紧邻与指导rna具有互补性的区域(例如,如图5b所示)。然后在反应(r)缓冲液(10mmtris-hcl,ph7.5,37℃,100mmnacl和1mmdtt,10mmmgcl2)中在各种条件下进行切割反应。对于测定金属辅因子的实验,缓冲液r中的镁被替换为钴(co2+)、锰(mn2+)或镍(ni2+)。通过检查超螺旋(sc)、带切口的开环(oc)和全长线性化(fll)产物的比率来评估超螺旋双链质粒dna切割。对于线性双链质粒dna底物,未切割产物相对于较小切割产物的分数用于计算切割效率。实例7:用于真核基因组编辑和操作的cas-α组分的优化在本实例中,描述了优化cas-α内切核酸酶和指导rna表达盒或用于递送到真核细胞中的纯化组分的方法。在一种方法中,为了在真核细胞中有效表达,新颖cas内切核酸酶基因cas-α根据本领域已知的标准技术进行密码子优化,并且任选地引入内含子以消除其在大肠杆菌或农杆菌(用于植物转化)中的表达。为了在玉蜀黍中使用,使用了马铃薯st-ls1内含子2(seqidno:106),尽管其他内含子也能起作用。为了促进优化的cas-α内切核酸酶蛋白在真核细胞中的核定位,可以将编码猿猴病毒40(sv40)单分型核定位信号(nls)(seqidno:107)的核苷酸序列添加到5′、3′或5′和3′末端。也可以使用其他nls。例如,在人类细胞培养实验中,编码来自核质蛋白(nuc)的二分型nls的序列(seqidno:108)任选地附加到人类密码子优化基因的3′末端。然后通过标准分子生物学技术将不同玉蜀黍优化的cas-α内切核酸酶基因和核定位信号变体的核苷酸序列与启动子(用于玉蜀黍表达构建体的泛素(ubi)启动子(seqidno:109)和用于人细胞培养表达构建体的鸡β-肌动蛋白启动子(seqidno:110)和任选的增强子(例如用于人细胞基因组编辑的巨细胞病毒(cmv)增强子(seqidno:111))和合适的终止子可操作地连接。为了进一步增强表达,可以包括5’非翻译区(utr)(例如但不限于用于玉蜀黍基因组编辑的玉蜀黍ubi5’utr(seqidno:112))和另外内含子(例如用于玉蜀黍基因组编辑的ubi玉蜀黍内含子1(seqidno:113)和用于人类细胞基因组编辑的合成的“杂交”内含子(seqidno:114)。另外,减少的(例如但不限于用于酿酒酵母基因组编辑的rox3启动子(seqidno:136))或受控的(例如但不限于用于酿酒酵母基因组编辑的gal启动子(seqidno:137))表达可能是期望的。真核细胞优化的dna表达构建体的实例在图10a-d中说明。用小rna(本文中称为指导rna)引导cas-α内切核酸酶,从而切割双链dna。这些指导rna包括辅助cas-α识别的序列(称为cas-α识别结构域)和用于通过与dna靶位点的一条链碱基配对引导cas-α切割的序列(cas-α可变靶向结构域)。为了在玉蜀黍细胞中转录对于指导cas-α内切核酸酶切割活性必需的小rna,将u6聚合酶iii启动子(seqidno:115)和终止子(tttttttt)从玉蜀黍分离,并且与在转录时将生成对于cas-α而言适合的指导rna的dna序列的末端有效地融合。可替代地,对于hek293细胞,分离来自人类基因组(seqidno:116)的u6启动子并用于驱动指导rna表达,并且使用不含u6终止子的线性片段。为了促进指导rna从u6聚合酶iii启动子的最佳转录,将一个g核苷酸添加至待转录的序列的5’末端。聚合酶ii启动子(例如但不限于列出的用于cas-α内切核酸酶表达的那些)与核酶基序(gao,y.等人(2014)jintegrplantbiol.[整合植物生物学]56:343-349)、rna酶p和z切割位点(xie,k.等人(2015)proc.natl.acad.sci.usa.[美国国家科学院院刊]112:3570-3575)和/或csy4(cas6或case)核糖核酸酶识别位点(tsai,s.q.等人(2014)natbiotechnol.[自然生物技术]32:569-576.)组合也可用于表达指导rna。此外,这些策略所提供的rna加工也可用于从单个聚合酶ii或iii启动子表达多个指导rna(gao,y.等人(2014),xie,k.等人(2015),和tsai,s.q.等人(2014))。真核优化的cas-α指导rna表达构建体的实例示于图11a-d。在另一种方法中,制备了cas-α内切核酸酶和指导rna核糖核蛋白(rnp)复合物并将其直接递送到真核细胞中。为了完成这一任务,cas-α基因,无论是天然的还是大肠杆菌密码子优化的,附接有编码6x组氨酸(his)(seqidno:82)或链霉亲和素(strepii)(seqidno:117)标签、麦芽糖结合蛋白(mbp)标签(seqidno:83)、烟草蚀刻病毒切割位点(tev)(seqidno:84)和nls(seqidno:107和108)的序列,包括在cas-a基因的n末端或c末端或n末端和c末端两者处(图12)。接下来,将所得序列合成(金斯瑞公司)到阿拉伯糖诱导型大肠杆菌表达盒(pbad24)中。所得的工程化的基因的实例示于图12中。然后,在大肠杆菌(例如但不限于arcticexpress(de3)(赛默飞世尔科技公司))中重组表达cas-α蛋白,并使用本领域已知的方法通过色谱法纯化。标签(his、strepii和mbp)任选地使用tev蛋白酶(赛默飞世尔科技公司)去除。接下来,使用t7聚合酶在体外合成cas-α指导rna。使用编码sgrna的线性dna(合成为重叠寡核苷酸(idt),然后通过pcr转化为双链dna或合成(金斯瑞公司)然后通过pcr扩增)作为模板。最后,通过将纯化的cas-α蛋白与指导rna在复合物组装(ca)缓冲液(10mmtris-hcl,ph7.5,37℃,100mmnacl和1mmdtt)中孵育来制备rnp复合物,并将其递送进入真核细胞。实例8:优化的cas-α系统组分的转化,用于真核基因组编辑和操作在本实例中,描述了将新颖2类内切核酸酶(cas-α)和相关的一种或多种指导多核苷酸引入真核细胞中用于基因组编辑和操作的方法。玉蜀黍转化粒子介导的dna表达盒递送在bbm和wus2基因存在下,如svitashev等人(2015)plantphysiology[植物生理学].169:931-945中所述,进行了hi-ii型8至10天龄未成熟玉蜀黍胚(ime)的粒子枪转化。简而言之,利用transit-2020,将dna表达盒共沉淀到0.6μm(平均尺寸)金粒子上。接下来,dna包被的金粒子通过离心沉淀,用无水乙醇洗涤并通过超声重新分散。超声处理后,将10μl包被有dna的金粒子装载到巨载剂上并风干。接下来,使用具有425磅/平方英寸破裂片的pds-1000/he枪(伯乐公司(bio-rad))进行生物射弹转化。由于粒子枪转化会是高度可变的,所以也将编码黄色荧光蛋白(yfp)的可视标记dna表达盒共递送,从而有助于均匀转化的ime的选择,并且一式三份进行每个处理。为了确定cas-α结合或突变活性的最佳植物转化培养条件,将转化的ime在28℃孵育48小时,或在低于或高于28℃的温度范围,以建立cas-α基因组编辑的最佳温度。粒子介导的核糖核蛋白递送可以如svitashev,s.等人(2016)nat.commun.[自然通讯]7:13274中所述通过粒子枪转化来递送cas-α和相关的一种或多种指导多核苷酸核糖核蛋白(rnp)的一种或多种复合物。简而言之,使用水溶性阳离子脂质transit-2020(米卢斯公司(mirus))将rnp(以及任选的dna表达)沉淀到0.6mm(平均直径)的金粒子(伯乐公司)上,如下:将50ml金粒子(10mg/ml的水悬浮液)和2ml的transit-2020水溶液添加到预混合的rnp(以及任选的dna表达载体)中,轻轻混合,并在冰上孵育10分钟。然后将包被有rnp/dna的金粒子在微型离心机中以8,000g沉淀30s,并除去上清液。然后通过短暂的超声处理将沉淀物重悬于50ml无菌水中。超声处理后,立即将包被的金粒子装载到微载剂(每个10ml)上并风干。授粉后8-10天,使用具有425磅/平方英寸的破裂压力的pds-1000/he枪(伯乐公司)轰击未成熟的玉蜀黍胚。使用本领域已知的方法进行轰击后培养、选择和植物再生。农杆菌介导的转化基本上如在djukanovic等人(2006)plantbiotechj[植物生物技术杂志]4:345-57中所描述地进行农杆菌介导的转化。简言之,将10-12日龄的未成熟胚(尺寸为0.8-2.5mm)从灭菌的仁切下并放置于液体培养基(4.0g/ln6基础盐(西格玛公司(sigma)c-1416)、1.0ml/l埃里克松(eriksson’s)维生素混合液(西格玛公司(sigma)e-1511)、1.0mg/l硫胺素hcl、1.5mg/l2,4-d、0.690g/ll-脯氨酸、68.5g/l蔗糖、36.0g/l葡萄糖,ph5.2)中。收集胚后,用1ml浓度为0.35-0.45od550的农杆菌代替培养基。将玉蜀黍胚与农杆菌在室温下一起孵育5分钟,然后将混合物倾倒在培养基平板上,该培养基平板包含4.0g/ln6基础盐(西格玛公司(sigma)c-1416)、1.0ml/l埃里克松(eriksson’s)维生素混合液(西格玛公司(sigma)e-1511)、1.0mg/l硫胺素hcl、1.5mg/l2,4-d、0.690g/ll-脯氨酸、30.0g/l蔗糖、0.85mg/l硝酸银、0.1nm乙酰丁香酮、以及3.0g/l结冷胶,ph5.8。轴朝下将胚在20℃下在黑暗中培养3天,然后在28℃下在黑暗中培养4天,此时可以收获它们用于dna提取。在稳定转化的另一种变体中,然后将胚转移到新的培养基平板上,该培养基平板包含4.0g/ln6基础盐(西格玛公司(sigma)c-1416)、1.0ml/leriksson′s维生素混合液(西格玛公司(sigma)e-1511)、1.0mg/l硫胺素hcl、1.5mg/l2,4-d、0.69g/ll-脯氨酸、30.0g/l蔗糖、0.5g/lmes缓冲液、0.85mg/l硝酸银、3.0mg/l双丙氨膦、100mg/l羧苄青霉素、以及6.0g/l琼脂,ph5.8。将胚每三周进行继代培养,直到鉴定到转基因事件。通过将少量组织转移到再生培养基(4.3g/lms盐(gibco11117)、5.0ml/lms维生素储液、100mg/l肌醇、0.1umaba、1mg/liaa、0.5mg/l玉蜀黍素、60.0g/l蔗糖、1.5mg/l双丙氨膦、100mg/l羧苄青霉素、3.0g/l结冷胶,ph5.6)上来诱导体细胞胚发生,并在28℃下在黑暗中孵育两周。将所有具有可视芽和根的物质都转移到以下培养基上,该培养基包含4.3g/lms盐(gibco11117)、5.0ml/lms维生素储液、100mg/l肌醇、40.0g/l蔗糖、1.5g/l结冷胶(ph5.6),并在28℃下在人造光下孵育。一周后,将小植物移入包含相同培养基的玻璃管中并生长直到它们被取样和/或移植到土壤中。hek293转化细胞培养物脂质转染hek293(atcc)细胞在含有10%fbs(吉科布公司(gibco))和青霉素/链霉素(吉科布公司)的dmem(吉科布公司)中于37℃和5%co2中培养。转染前一天,将细胞以3.6×104密度接种在96孔板中。将20pmol纯化蛋白与20pmolsgrna在25μlopti-mem(吉科布公司)中混合,并在室温下孵育30分钟,组装成nls标记的cas-αrnp复合物。复合物组装后,添加25μ1含有1.2μllipofectamine3000(赛默飞世尔科技公司)的opti-mem,并且在转染细胞之前,将混合物在室温下再孵育15分钟。在转染后72小时,使用quickextractdna提取液(lucigen公司)提取基因组dna,并评估靶位点周围区域是否存在表示双链断裂和修复的突变。细胞培养物电穿孔使用龙沙公司4d-nucleofector系统和sf细胞系4d-x试剂盒(龙沙公司)将cas9rnp电穿孔进入hek293(atcc目录号crl-1573)细胞中。对于每次电穿孔,通过在室温下将100pmolsgrna与50pmolcas9蛋白在17μl体积的核转染溶液中孵育20分钟来形成rnp。将hek293细胞使用trypletmexpressenzyme1x(赛默飞世尔公司(thermofisher))从培养容器中释放,用不含ca++或mg++的1xpbs(赛默飞世尔公司)洗涤并使用lunatm自动细胞计数器(罗格斯生物系统公司(logosbiosystems))进行计数。对于每次电穿孔,将1x10^5个活细胞重悬浮于9μ1电穿孔溶液中。将细胞和rnp混合并转移到16孔带的一个孔中,并使用cm-130程序进行电穿孔。将75μl预热的培养物添加到每个孔中,并将10μl的得到的重悬浮的细胞分配到含有125μl预热培养基的96孔培养容器的孔中。在分析基因组编辑之前,将电穿孔的细胞在潮湿培养箱中在37℃、5%co2孵育48-96小时。酿酒酵母转化可以使用几种方法(乙酸锂、聚乙二醇(peg)、热休克、电穿孔、生物作用等)来转化酿酒酵母(kawai,s.等人(2010)bioengineeredbugs.[生物工程化虫]1:395-403)。在这里,我们使用了一种方法,其类似于基于锂阳离子的方法,使用冷冻-ez酵母转化ii试剂盒(泽莫研究公司(zymoresearch),t2001)。根据制造商的说明,生产了酿酒酵母感受态细胞。这是通过以下来实现:在酵母提取物-蛋白胨-葡萄糖(ypd)(吉科布公司)中培养酿酒酵母(by4742(baker,c.等人(1998)yeast.[酵母]14:115-132(atcc))至对数中期,对应于0.8-1.0的od600nm。接下来,通过离心(500xg4分钟)沉淀细胞,倾析培养基,用10mlez1溶液轻轻洗涤沉淀物,并在去除洗涤液之前旋转沉降细胞。接下来,将细胞重新悬浮在1ml的ez2溶液中。然后将获得的感受态细胞等分,或者保存在-70℃下,或者在下一步中使用。接下来通过向50ul感受态细胞中加入0.5-1μg(小于5μl)的cas-α和指导rnadna表达盒来进行转化。任选地,还包括在预期的cas-α双链断裂位点侧翼具有同源性的双链dna修复模板(0.5ul,50μm)。轻轻混合dna后,添加500μlez3溶液。然后在30℃下孵育细胞60-90分钟。在孵育的持续时间内使细胞旋转或旋转3-4次。转化后,细胞在ypd中生长约3小时,沉淀,用1ml无菌水洗涤一次,重新悬浮在1ml无菌水中,然后约200μl接种到选择性培养基上(例如但不限于合成培养基减去组氨酸(sc-his))。实例9:真核细胞中优化的cas-α/指导多核苷酸复合物的功能形成在此实例中,描述了用于检查真核细胞中新颖2类内切核酸酶(cas-α)和一种或多种相关指导rna(一种或多种多核苷酸)复合物的功能形成的方法。通过检测一个或多个不同的染色体dna靶序列中插入和缺失(indel)突变(其指示dna靶位点双链切割和细胞修复)的存在来监测新颖2类内切核酸酶(cas-α)和一种或多种指导rna的复合物在真核细胞中的功能形成。这是通过karvelis,t.等人(2015)genomebiology.[基因组生物学]16:253(方法部分:植物中突变检测)中所述的靶向深度测序或其他等同的检测dna变化的方法来进行。简而言之,对于玉蜀黍,每个实验在转化后两天基于其荧光收获20-30个转化最均匀转化的幼胚(ie)。接下来,提取总基因组dna,并用高保真pcr预混合物(新英格兰生物实验室公司,m0531l)加上对于扩增子-特异性条形码以及依诺米那测序(使用“加尾的”引物)必要的序列通过两轮pcr对预期靶位点周围的区域进行pcr扩增并且进行深度测序。然后通过与其中从转录中省略小rna转录盒的对照实验相比,检测所得的读段预期切割位点处是否存在突变。包含推定插入缺失的序列读段,其中通过确认它们在对照数据集中不存在来进一步验证为真正的突变。对于酿酒酵母,应用了类似的方法,不同之处在于在dna提取、pcr扩增和依诺米那深度测序之前选择表现出由ade2基因破坏引起的红色细胞表型的菌落(ugolini等人(1996)curr.genet.[当代遗传学]30:485-492)。对于hek293,除了在转化72小时后收获细胞培养物外,还进行了类似的过程。如图13和表16所示,粒子枪实验将cas-αdna表达构建体递送到玉蜀黍ie中在cas-α4和指导rna复合物的染色体dna靶位点处和周围产生了主要的缺失突变。在这些实验中,使用了被配置用于表达的玉蜀黍密码子优化的cas-α4基因(seqidno:235),如图10b所示(除了编码sv40nls的序列在基因的3’末端进行框内添加)。如图11b所示,具有能够与染色体dna靶序列(紧邻适用于cas-α4的pam(5′-tttr-3′,其中r代表a或g残基;见表7))碱基配对的20nt区域的sgrna(表19)从玉蜀黍u6启动子表达。在这种情况下,两种指导rna用于在玉蜀黍无叶舌基因座中的两个靶位点处引导cas-α4切割。表16.cas-α内切核酸酶在植物细胞基因组dna中产生靶向双链断裂由于cas-α4内切核酸酶靶dna切割和双链断裂修复,在植物细胞基因组靶位点发现了突变。所有突变都显示出阳性读段计数,在阴性对照样品中没有发现。此外,如图18a和b以及表17所示,粒子枪实验将cas-α10dna表达构建体递送到玉蜀黍ie中导致靶向缺失的恢复。在这些实验中,使用了被配置用于表达的玉蜀黍密码子优化的cas-α10基因(seqidno:236),如图10b所示(除了编码sv40nls的序列在基因的3’末端进行框内添加)。如图11b所示,具有能够与染色体dna靶序列(紧邻适用于cas-α10的pam)碱基配对的20nt区域的sgrna(表19)从玉蜀黍u6启动子表达。驱动稳定插入玉蜀黍基因组中的植物选择标记、新霉素磷酸转移酶(nptii)表达的转基因构建体被靶向用于用cas-α10(5′-ttc-3′;表16)进行切割。如图18a和表17中所示,在对照(实验设置省略sgrna表达盒)中未发现的缺失被恢复,其起源于或跨越预期的切割位点。为了证实我们的发现,ms26基因(chr1:14,702,638-14,702,654(玉蜀黍b73refgen_4(jiao,y.等人(2017)nature.[自然]546:524-527))的第五个外显子中的单个非转基因染色体dna靶也被靶向用于切割(使用表19中的sgrna10.25.ms26)。与nptii靶一样,该位点也在核酸酶切割位点处或附近产生靶向缺失(图18a、18b和表17)。表17.cas-α10在植物细胞基因组dna中产生靶向双链断裂由于cas-α10内切核酸酶靶dna切割和双链断裂修复,在植物细胞基因组靶位点发现了突变。所有突变都显示出阳性读段计数,在阴性对照样品中没有发现。在酿酒酵母中也观察到靶dna切割和修复(图19a-c)。在这里,外源提供的dna修复模板(双链)在cas-α10靶位点侧翼具有同源性,用于在cas-α10诱导的双链断裂(dsb)后在ade2基因中引入一个或两个过早终止密码子(取决于dna修复结果)(图19a)。此外,为了避免靶向修复模板,它还包含针对cas-α10的pam区域中的t到a变化。如图19b所示,当修复模板和cas-α10和sgrna表达构建体都被转化时,恢复了指示ade2基因破坏的红色细胞表型。cas-α10表达构建体如图10c所示使用酵母密码子优化的基因(seqidno:137)进行配置。ade2靶向sgrna(表19)使用侧翼hh和hdv核酶从snr52启动子表达(图11c)。cas-α10ade2基因靶位点的测序证实在3个独立的红色菌落中引入了至少一个终止密码子(图19c)。此外,只有最接近cas-α10切割位点的修复模板中的变化被掺入,为cas-α10诱导的dsb的修复提供了进一步的证据(图19c)。此外,这种修复结果表明,针对指导rna靶的远端的仅一个或两个错配就足以消除切割活性(因为没有恢复其他突变),这表明cas-α核酸酶提供了极好的指导rna-dna靶识别特异性。为了确认结果绝对需要cas-α10,组装了单独递送dna修复模板的对照实验。它们只产生了白色菌落,进一步验证了cas-α10(和指导rna)识别和切割染色体dna靶位点的能力,如此处通过同源定向修复测量的那样。hek293染色体靶的dna切割和修复也导致缺失突变(图14a和b以及表18)。用dna表达盒(见图10a和11a)和直接用真核工程化的cas-α4sgrna核糖核蛋白(rnp)复合物进行的转化实验产生了突变。总之,从两个hek293基因组靶vegfa2和3(图14a和b)恢复了突变。表18.cas-α内切核酸酶在动物细胞基因组dna中产生靶向双链断裂由于cas-α内切核酸酶靶dna切割和双链断裂修复,在动物细胞基因组靶位点发现了突变。所有突变都显示出阳性读段计数,在阴性对照样品中没有发现。表19.cas-α单指导rna在玉蜀黍、酿酒酵母和智人(hek293)细胞中产生靶向诱变在植物、酵母和动物细胞中恢复了由于在基因组dna靶位点的cas-α双链断裂和修复引起的突变,例如使用重组dna构建体和核糖核蛋白递送。这些数据提供了真核细胞、植物(玉蜀黍)、酵母(酿酒酵母)和动物(智人)细胞中cas-α指导多核苷酸复合物形成和切割活性的第一证据。实例10:原核细胞测定中的双链dna切割在此实例中,描述了用于检查异源原核细胞中新颖2类内切核酸酶(cas-α)和一种或多种相关指导rna(一种或多种多核苷酸)复合物的功能形成的方法。如图17a所示,评估cas-α双链dna靶切割的一种方法是检查其干扰大肠杆菌细胞中质粒dna转化的能力(burstein,d.等人(2017)nature[自然].542:237-241)。这里,将包含可选择标记(例如但不限于氨苄青霉素)和cas-α靶位点(能够与crisprrna碱基配对的区域,该区域位于前间隔子相邻基序(pam)附近)的双链质粒dna通过本领域已知的方法(例如但不限于电穿孔)转化进入大肠杆菌(arcticexpressde3或等同物),其包含cas-α内切核酸酶和指导rna表达盒。在没有双链dna靶切割的情况下,许多含有质粒和抗生素抗性标记的细胞通过在选择性培养基上生长而恢复。相反,进入的质粒dna的双链dna靶切割导致抗性细胞恢复的减少或干扰。为了评估cas-α2、3、6、7、8、9、10和11的dsdna切割活性,在大肠杆菌细胞中组装了质粒dna干扰实验。用不含cas-α靶位点(“无靶”)的质粒建立的实验提供了转化效率的基线。此外,用和不用iptg(0.5mm)进行干扰实验,以检测在不同cas-α内切核酸酶和指导rna表达条件下的靶切割。将100ng“靶”或“无靶”质粒dna转化到含有iptg诱导型cas-α内切核酸酶和指导rna表达盒(例如r-657)的arcticexpress(de3)细胞系中。转化物以10倍的增量稀释,在选择性培养基上点样,在37℃下生长过夜,并检查细菌菌落生长情况。图17b-17e显示了cas-α2、3、6、7、8、9、10和11的结果。cas-α3和11(图17b和e)在诱导表达后具有细胞毒性,如“无靶”和“靶”实验中转化体的恢复减少证明,而cas-α2和6对质粒转化没有表现出任何影响(图17b和c)。这可以与提供弱干扰活性的cas-α7和9(图17c和d)和稳健地减少“靶”转化菌落数量的cas-α8和10(图17d和e)相比较。综合起来,这说明一些但不是所有的cas-α内切核酸酶和指导rna在异源原核细胞环境中具有识别和切割dsdna靶的功能。实例11:cas-α系统发育分析在本实例中,描述了用于评估一组新颖2类crispr(成簇规则间隔短回文重复序列)-cas(crispr相关)内切核酸酶cas-α的系统发育关系的方法。为了鉴定远亲,使用cas-α1-11进行两次psi-blast迭代,仅选择包含至少70%全长覆盖的比对,用于构建psi-blast轮之间的位置特异性评分矩阵(pssm)。接下来,仅选择与crispr阵列(通过minced检测)相邻编码的那些蛋白,从而鉴定出118个另外的cas-α内切核酸酶(seqidno:254-371),其大小范围为327-777个氨基酸。然后进行系统发育分析(最大似然法和基于jtt矩阵的模型(jones,d.t.等人,(1992)computerapplicationsinthebiosciences[生物科学中的计算机应用]8:275-282),使用mega软件(版本10.0.5)(kumar,s.等人(2018)molecularbiologyandevolution.[分子生物学与进化]35:1547-1549))。它显示了三个不同组(i、ii和iii)cas-α核酸酶的形成,其中大部分来自三个微生物谱系,candidatusarchaea、梭菌和杆菌(图20)。那些也编码crispr-cas适应基因(cas1、cas2和任选的cas4)的基因座仅与来自古细菌的cas-α蛋白缔合。鉴定出cas-α核酸酶的其他细菌包括属于以下的微生物:产水菌门(aquificae)、变形菌纲(deltaproteobacteria)、拟杆菌门(bacteroidetes)、candidatelevybacterium、阴性丹毒菌属和黄杆菌纲(图20)。此外,分支图的拓扑结构仅部分匹配从中鉴定出cas-α内切核酸酶的微生物。大多数差异来自杆菌和梭菌中都存在的组iii,这表明这两类微生物之间存在水平转移(图20)。实例12:cas-αrna指导的dna整合酶在本实例中,cas-α内切核酸酶和与转座酶(例如但不限于tnpa)复合的指导多核苷酸可用于位点特异性地插入dna有效载荷。tn7样遗传移动元件捕获了crispr相关(cas)蛋白(peters,j.等人(2017)proc.natl.acad.sci.usa.[美国国家科学院院刊]114:e7358-e7366)和进化了基于rna指导的机制将自身复制到新的位置,并提供了改进的基因组编辑方法,所述方法依赖于dna在特定位点的插入(例如但不限于顺式或跨式基因)(strecker,j.等人(2019)science.[科学]365:48-53和klompe,s.等人(2019)nature.[自然]571:219-225)。在这里,我们发现转座酶(tnp)蛋白属于is200/is605并且是is4移动元件与一些cas-α内切核酸酶相邻编码(图21a)。综合起来,这表明cas-α内切核酸酶可以作为转座酶复合物的一部分发挥作用,转座酶复合物能够进行可编程dna整合(图21b)。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1