大规模基因组操纵的制作方法

文档序号:33190289发布日期:2023-02-04 08:08阅读:41来源:国知局
大规模基因组操纵的制作方法

1.本公开涉及植物分子生物学领域,尤其涉及用于改变细胞的基因组的组合物和方法。


背景技术:

2.重组dna技术使得在靶基因组位置处插入dna序列和/或修饰特定内源染色体序列成为可能。已经使用了采用位点特异性重组系统的位点特异性整合技术以及其他类型的重组技术来在各种生物体中产生目的基因的靶向插入。基因组编辑技术如设计师的锌指核酸酶(zfn)、转录激活子样效应子核酸酶(talen)或归巢大范围核酸酶可以用于产生靶向基因组干扰,但这些系统倾向于具有低特异性并且使用需要对每个靶位点进行重新设计的经设计的核酸酶,这使得它们的制备成本高昂且耗时。
3.已经鉴定了利用古细菌或细菌适应性免疫系统的较新技术,称为crispr(成簇的规律间隔的短回文重复序列(clustered regularly interspaced short palindromic repeats)),其包含效应子蛋白的不同结构域,这些效应子蛋白包含多种活性(dna识别、结合和任选择地切割)。
4.使用不同位点特异性核酸酶进行基因组编辑的早期实验表明,小尺寸(在千碱基的量级上)缺失和倒位可能是同时dsb(双链断裂)的常见结果。dsb点相隔越远,预期“不正确”修复的可能性就越低。熟悉该领域的人将预期倒位频率在数万碱基和数十兆碱基之间是不同的,因此将预期dsb技术的意想不到的结果。
5.遗传重组是变异的主要来源,并且是常规植物育种的基础。然而,当发生大的染色体重排时,它们对同源染色体配对和重组的能力有显著的影响,导致将大量基因排除在重组过程之外。因此,受控的染色体重排在许多方面可以是有益的,并且对植物育种计划有重大的影响。


技术实现要素:

6.一种用于在作物植物细胞中使染色体区段易位的方法,其中该染色体至少包含第一基因组靶位点和第二基因组靶位点,该方法包括向多个作物植物细胞中引入cas内切核酸酶以及第一指导rna和第二指导rna,其中该cas内切核酸酶与该第一指导rna和第二指导rna分别形成第一复合物和第二复合物;其中该第一复合物和第二复合物中的每一个分别识别、结合和切割该第一靶位点和该第二靶位点;在导致该染色体区段易位的条件下孵育这些作物植物细胞;使作物植物再生,其中该作物植物与对照作物植物相比包含易位的染色体区段;以及,通过该作物植物细胞或该作物植物的基因型或表型验证染色体易位。在一个实施例中,cas内切核酸酶是cas9、cas12a、cas12f或其组合。
7.在一个实施例中,染色体易位是倒位或再倒位(例如,先前的染色体倒位事件的倒位或再倒位)。在一个实施例中,染色体易位在两个异源染色体之间。在一个实施例中,染色体易位在两个远缘杂交染色体或种间染色体之间。在一个实施例中,染色体易位导致重复。
在一个实施例中,其中染色体的易位的区段包含至少50kb的连续碱基。在一个实施例中,易位的染色体区段大于1mb。在一个实施例中,易位的染色体区段包含一个或多个qtl。在一个实施例中,易位的染色体区段包含与农艺学性状关联的一个或多个有利等位基因。在一个实施例中,染色体易位存在于杂交作物中。在一个实施例中,作物植物选自由以下组成的组:玉米、大豆、棉花、卡诺拉油菜、高粱、小麦、稻、向日葵和苜蓿。
8.提供了用于在作物植物中使用crispr-cas技术(或任何其他dsb技术)使大的染色体区段倒位、使染色体区段缺失以及重新定位区段或基因或qtl或snp或单倍型的方法和组合物。
9.一种在作物植物细胞中对染色体的染色体区段的倒位进行工程化的方法,该方法包括向多个作物植物细胞中引入能够位点特异性切割第一靶位点和第二靶位点的双链断裂诱导剂,该第一靶位点和第二靶位点位于该作物植物细胞的染色体区段的侧翼,其中该染色体区段包含至少50kb;在允许在两个靶位点处的两个切割双链断裂和修复的条件下,孵育该细胞;其中发生染色体区段的倒位,使得染色体区段倒位与其染色体异源;使作物植物再生,其中该作物植物与对照作物植物相比包含倒位染色体区段;以及,通过对包含倒位染色体区段的作物植物细胞或作物植物进行基因型分型或表型分型来验证倒位。在一个实施例中,作物植物是玉米。在一个实施例中,倒位是臂间的。在一个实施例中,染色体区段大于1mb。在一个实施例中,倒位在体细胞中进行。
10.一种在作物植物细胞基因组中对大染色体区段的缺失进行工程化的方法,其中该染色体区段特征至少在于第一靶位点和第二靶位点,该方法包括向该作物植物细胞中引入cas内切核酸酶以及第一指导rna和第二指导rna,其中该cas内切核酸酶与该第一指导rna和第二指导rna分别形成第一复合物和第二复合物;其中该第一复合物和第二复合物中的每一个分别识别、结合和切割该第一靶位点和第二靶位点,其中该第一靶位点和第二靶位点位于该区段的侧翼;在导致去除该染色体区段的条件下孵育该作物植物细胞,其中该区段包含至少100kb;通过该细胞或包含该细胞的生物体的基因型或表型来验证该缺失;以及,使不包含该缺失的染色体区段的作物植物再生。
11.一种用于经由第一细胞和第二细胞之间的体细胞重组使染色体上的qtl重新定位的方法,该方法包括使该第一细胞和第二细胞杂交以产生杂交细胞,其中该杂交细胞包含来自该第一细胞和第二细胞中的每一个的一组染色体,其中该杂交细胞中的至少一条染色体包含该qtl;在该染色体的qtl和着丝粒之间的靶位点处切割包含该qtl的染色体;在相应的靶位点处切割与包含该qtl的染色体同源的染色体;使该细胞繁殖以获得后代细胞,并选择包含易位的至少一种后代细胞;在该qtl和端粒之间的靶位点处切割包含该qtl的染色体;在相应的靶位点处切割与包含该qtl的染色体同源的染色体;以及,通过细胞或从该细胞获得或衍生的细胞的基因型或表型来验证重组。
12.一种用于使染色体区段重新定位的方法,该方法包括:在所需用于重新定位的位点处切割第一染色体并且在更靠近着丝粒的qtl一侧处切割第二染色体;选择具有所需易位的植物;在该qtl末端处切割具有易位的染色体并且在预期重新定位位点处切割正常同源染色体;选择具有所需易位的生物体;使具有所需结果的生物体自交;并选择具有重新定位的qtl的2条同源染色体的后代。
13.一种用于目的基因/qtl的验证及与特定染色体区域关联的方法,该方法包括(i)
在一个携带性状的基因型和第二个不具有该性状的基因型之间生成杂交体,所得杂交体具有有和没有目的性状的一对亲本染色体,(ii)生成具有与该目的性状关联的染色体区段的半合子缺失的植物,(iii)对后代植物中缺失效应进行农艺学评估以验证该染色体区域与特定染色体区段的关联。
14.一种用于对基因/qtl进行精细作图以缩小与性状关联的染色体片段的方法,该方法包括(i)生成具有横跨qtl区域的一系列不同缺失的植物,(ii)对具有缺失的植物进行农艺学评估和(iii)鉴定与性状关联的最小dna区段。
15.一种用于从野生种到培养基因型的性状渗入或从具有目的性状的基因型到不携带该性状的优良基因型的性状渗入的方法,该方法包括(i)在供体、受体植物/基因型之间生成杂交植物,其中杂交细胞包含来自每个亲本植物的一组染色体,其中该杂交细胞中的至少一条染色体包含qtl,(ii)在该染色体的qtl和着丝粒之间的供体和/或受体植物物种的染色体区域中引入靶向的双链或单链dna断裂,在相应靶位点处切割与包含该qtl的染色体同源的染色体(iii)允许染色体dna转移发生在这些供体和这些受体植物物种之间,从而对在这些供体和这些受体植物之间的染色体间易位和/或含有qtl的dna转移进行工程化,(iv)选择具有所需易位和qtl转移的植物,(v)在植物细胞的染色体区域中引入靶向的双链或单链dna断裂,使得靶向在目的qtl的另一侧上的染色体靶位点,(vi)允许染色体dna转移在这些供体和这些受体植物物种之间发生,从而对染色体间易位进行工程化,恢复现在含有目的基因/qtl的受体基因型染色体。
16.一种将qtl或一组目的基因/qtl从它们在染色体中的原始位置重新定位到不同染色体上的所需位置(基因/性状堆叠)的方法,该方法包括(i)在染色体的一个或多个基因/qtl和着丝粒之间的靶位点处切割包含该一个或多个基因/qtl的染色体,(ii)在被选择用于一个或多个基因/qtl重新定位的靶位点处切割第二染色体;(iii)创造允许染色体间易位发生的条件,将一个或多个基因/qtl移入新染色体;(iv)选择至少一个包含易位的后代植物;(v)在一个或多个基因/qtl和端粒之间的靶位点处切割包含该一个或多个基因/qtl的染色体;(vi)在相应的靶位点处切割与包含该qtl的染色体同源的染色体;以及,(vii)通过细胞或从该细胞获得或衍生的细胞的基因型或表型来验证该易位;(viii)使具有所需结果的植物自交(自我杂交);并选择具有重新定位的一个或多个基因/qtl的2条同源染色体的后代。
17.一种用于在植物细胞中将染色体区段倒位以开始在同源染色体之间的遗传重组和增加遗传多样性的方法,其中染色体包含第一靶位点和第二靶位点,该方法包括向该染色体中引入cas内切核酸酶以及第一指导rna和第二指导rna,其中该cas内切核酸酶与该第一指导rna和第二指导rna分别形成第一复合物和第二复合物;其中该第一复合物和第二复合物中的每一个分别识别、结合和切割该第一靶位点和第二靶位点;在允许在两个靶位点处修复两个切割的条件下孵育细胞,其中该修复导致区段的倒位;并通过该细胞或包含该细胞的生物体的基因型或表型来验证倒位;其中该区段包含至少一百万个连续碱基,其中该第一靶位点和第二靶位点位于该区段的侧翼。
18.一种提高种间和/或属间染色体dna转移效率的方法,该方法包括(i)提供供体植物物种和受体植物物种;(ii)在这些供体和/或这些受体植物物种的染色体区域中引入靶向双链或单链dna断裂,使得靶向大的染色体片段;以及(iii)允许染色体dna转移发生在这
些供体和这些受体植物物种之间,从而在这些供体和这些受体植物物种之间对种间和/或属间染色体dna转移进行工程化。
19.在一个实施例中,方法包括向作物植物细胞提供至少一种形态发生因子。在一个实施例中,形态发生因子是bbm或wus。在一个实施例中,将cas内切核酸酶作为蛋白质直接提供给细胞。在一个实施例中,将指导rna作为rna分子提供给细胞。在一个实施例中,染色体区段包含至少一千万个连续碱基。
20.一种降低染色体区段内重组频率以保持作物植物染色体中一个或多个有利等位基因或snp或目的性状的连锁不平衡的方法,该方法包括在染色体区域的至少两个远距离靶位点中引入位点特异性双链断裂,其中靶向的双链断裂导致染色体区段倒位或重排,使得该倒位的或重排的染色体区段不重组或在减数分裂期间与对照植物相比以较低频率重组。在一个实施例中,性状是存在于倒位的或重排的染色体区段中的转基因性状。在一个实施例中,倒位的或重排的染色体区段与原始倒位前/重排前的染色体位于同一染色体中。在一个实施例中,倒位的或重排的染色体位于异源或非同源染色体中。
21.本文所述的方法和组合物可用于修饰细胞的基因组,特别是植物细胞的基因组,并且可应用于广泛的应用中,例如但不限于加速植物中性状的育种。
附图说明
22.从以下的详细描述和附图可以更全面地理解本公开,以下的详细描述和附图构成本技术的一部分。
23.图1描绘了通过染色体内易位进行染色体倒位的一般机制。
24.图2示出了在倒位的单倍型处对重组进行遗传评估的示意图。
25.图3描绘了跨18种不同基因型玉米的2号染色体中的臂间倒位。
26.图4描绘了鉴定具有倒位的事件的pcr分析。图4a示出了只有具有倒位的事件才能用新引物组合产生pcr产物。图4b示出了两个连接的预期大小的pcr产物,其通过琼脂糖凝胶电泳可视化。
27.图5描绘了使用基因组组装测序分析的倒位的验证。
28.图6是通过半合子缺失进行精细作图的示意图。
29.图7描绘了如通过qtl精细作图所证明的在疾病基因座(玉米中的灰叶斑病)处的缺失的一个实例。
30.图8描绘了qtl重新定位(体细胞重组),通过同源染色体之间的两次易位在基因型之间(例如但不限于在优良种质和非优良种质之间)移动qtl。该方法包括几个步骤(用箭头表示):杂交品系1和2(例如,热带品系和优良品系)(未示出),然后该杂交体具有来自每个亲本的一组染色体;在所需位置(qtl的一侧,其更靠近具有qtl的基因型的着丝粒)切割同源染色体;选择具有易位的植物;并在qtl的另一个位点上使用靶位点重复实验。
31.图9描绘了成两个步骤的qtl重新定位。图9a描绘了步骤1(在非同源染色体上进行):在重新定位所需的位点处切割第一染色体并且在更靠近着丝粒的qtl一侧处切割第二染色体;选择具有所需易位的植物-将具有qtl的染色体片段移动到所需位置。图9b描绘了步骤2(在同源染色体上进行,一条染色体具有易位):在qtl末端处切割具有易位的染色体并且在预期重新定位位点处切割正常同源染色体;选择具有所需易位的植物-恢复具有重
新定位的qtl的染色体结构;使具有所需结果的植物自交,并选择具有2条同源染色体(具有重新定位qtl)的后代。图9c示出了两个同源染色体之间的第二次易位以恢复具有刚刚重新定位的qtl的染色体的结构。图9d示出了由于染色体工程化产生的qtl复制,其中qtl区域(或有利等位基因、snp或任何其他遗传元件)被复制到串联位置或与其他预先存在的等位基因紧密连锁。
32.图10描绘了间期细胞核中的染色体位置和染色体间结构域相互作用。图10a描绘了被称为染色体领地的细胞核中染色体的示意性结构。染色体排列的模式不是随机的,而是特定于细胞和组织类型的。图10b描绘了玉米品系b73的2号染色体的juicebox图,说明了不同染色质结构域之间的相互作用。x和y bp坐标代表2号染色体。图中的每个像素表示通过hi-c接触对确定的两个不同区域之间的3d相互作用。可以看到其中hi-c相互作用(=像素分布)不是随机的结构域。b73中的hi-c分析示出了彼此间相互嵌套的大染色质结构域,由围绕主对角线的浅红色矩形标记。在轴的顶部和左侧示出相应的a/b区室(a=常染色质,b=异染色质)。例如位于40mbp和120mbp之间的区域与1)多个结构域以及2)a和b区室重叠。这表明,跨多个结构域和/或区室的区域的重新排列将比位于一个结构域和/或一个区室类型内的较小区域的重新排列更成问题。
33.图11a和图11b描绘了dsb修复的偏好取决于靶位点的方向。图11a描绘了大的染色体片段缺失。图11b描绘了染色体间易位。在两种情况下,设计的靶位点方向和受cas核酸酶保护的dsb末端偏向于所需的结果的修复。
具体实施方式
34.本文描述了在作物植物细胞中用于使大染色体区段易位的方法。这些方法包括例如其中使染色体区段至少位于第一基因组靶位点和第二基因组靶位点侧翼,并包括向多个作物植物细胞中引入cas内切核酸酶以及第一指导rna和第二指导rna,其中该cas内切核酸酶与第一指导rna和第二指导rna分别形成第一复合物和第二复合物;其中该第一复合物和第二复合物中的每一个分别识别、结合和切割该第一靶位点和该第二靶位点;在导致该染色体区段易位的条件下孵育这些作物植物细胞;使作物植物再生,其中该作物植物与对照作物植物相比包含易位的染色体区段;以及,通过该作物植物细胞或该作物植物的基因型或表型验证染色体易位。在一个实施例中,cas内切核酸酶是cas9、cas12a、cas12f或其组合。诱导大染色体易位的合适条件包括:选择合适的靶位点,有效量的cas内切核酸酶(例如,如果从转录物表达,则为表达水平;或以核糖核蛋白(rnp)复合物形式提供蛋白质浓度),指导rna的类型、数量和性质,cas内切核酸酶的效率以及用于转化或引入dsb组分的组织类型(例如,胚胎组织、诸如叶细胞的营养组织)。
35.本文描述了在作物植物细胞中对染色体的染色体区段的倒位进行工程化的方法。这些方法包括:例如,向多个作物植物细胞引入双链断裂诱导剂(例如,cas内切核酸酶),该双链断裂诱导剂能够位点特异性切割位于作物植物细胞染色体区段侧翼的第一靶位点和第二靶位点。大染色体区段包含至少50kb,但根据基因组背景和基因组染色体结构,其在长度上可以变化。例如,如果多个单倍型存在于1mb至约100mb的基因组窗口中,则该基因组区域是染色体工程化的靶标,如果此类单倍型是有害的并且它们的去除可提高遗传增益,则染色体工程化包括倒位、易位或缺失。染色体的各个区域都适用于染色体工程化。着丝粒区
900、5-1000、5-1100、5-1200、5-1300、5-1400、5-1500、5-1600、5-1700、5-1800、5-1900、5-2000、5-2100、5-2200、5-2300、5-2400、5-2500、5-2600、5-2700、5-2800、5-2900、5-3000、5-3100或更多个碱基,使得同源的区域具有足够的同源性以与相应的基因组区域进行同源重组。“足够的同源性”表示两个多核苷酸序列具有足够的结构相似性以充当同源重组反应的底物。结构相似性包括每个多核苷酸片段的总长度以及多核苷酸的序列相似性。序列相似性可以通过在序列的整个长度上的百分比序列同一性和/或通过包含局部相似性(例如具有100%序列同一性的连续核苷酸)的保守区域以及在序列长度的一部分上的百分比序列同一性来描述。
43.如本文所用,“基因组区域”是存在于靶位点任一侧上的细胞的基因组中的染色体的区段,或者可替代地,还包含靶位点的一部分。基因组区域可以包含至少5-10、5-15、5-20、5-25、5-30、5-35、5-40、5-45、5-50、5-55、5-60、5-65、5-70、5-75、5-80、5-85、5-90、5-95、5-100、5-200、5-300、5-400、5-500、5-600、5-700、5-800、5-900、5-1000、5-1100、5-1200、5-1300、5-1400、5-1500、5-1600、5-1700、5-1800、5-1900、5-2000、5-2100、5-2200、5-2300、5-2400、5-2500、5-2600、5-2700、5-2800。5-2900、5-3000、5-3100或更多个碱基,使得基因组区域具有足够的同源性以与相应的同源区域进行同源重组。
44.如本文所用,“同源重组(hr)”包括在同源的位点处的两个dna分子之间的dna片段的交换。同源重组的频率受多个因素影响。不同的生物体相对于同源重组的量和同源与非同源重组的相对比例而变化。通常,同源区域的长度会影响同源重组事件的频率:同源区域越长,频率越高。为观察同源重组而需要的同源区域的长度也是随物种而异的。在许多情况下,已经利用了至少5kb的同源性,但已经观察到具有仅25-50bp的同源性的同源重组。参见,例如,singer等人,(1982)cell[细胞]31:25-33;shen和huang,(1986)genetics[遗传学]112:441-57;watt等人,(1985)proc.natl.acad.sci.usa[美国科学院院报]82:4768-72,sugawara和haber,(1992)mol cell biol[分子细胞生物学]12:563-75,rubnitz和subramani,(1984)mol cell biol[分子细胞生物学]4:2253-8;ayares等人,(1986)proc.natl.acad.sci.usa[美国科学院院报]83:5199-203;liskay等人,(1987)genetics[遗传学]115:161-7。
[0045]
在核酸的或多肽的序列的上下文中,“序列同一性”或“同一性”是指在两个序列中的核酸碱基或氨基酸残基当在指定的比较窗口上比对最大对应度时是相同的。
[0046]“序列同一性的百分比”是指通过在比较窗口上比较两个最佳比对的序列所确定的值,其中与参考序列(其不包含添加或缺失)比较两个序列的最佳比对时,该多核苷酸或多肽序列在比较窗口中的部分可以包含添加或缺失(即空位)。通过以下方式计算所述百分比:确定在两个序列中出现相同核酸碱基或氨基酸残基的位置的数目以产生匹配位置的数目,将匹配位置的数目除以比较窗口中的位置的总数目,然后将所述结果乘以100以产生序列同一性的百分比。百分比序列同一性的有用实例包括但不限于50%、55%、60%、65%、70%、75%、80%、85%、90%或95%,或从50%至100%的任何百分比。可以使用本文描述的任何程序确定这些同一性。
[0047]
序列比对和百分比同一性或相似性计算可以使用设计用于检测同源序列的多种比较方法来确定,这些方法包括但不限于lasergene生物信息计算包(dnastar公司(dnastar inc.),麦迪逊(madison),威斯康星州)的megalign
tm
程序。在此申请的上下文中,
应当理解的是,在使用序列分析软件来分析的情况下,分析的结果将基于参考的程序的“默认值”,除非另有说明。如本文所用,“默认值”将意指当第一次初始化时,最初加载该软件的任何一组值或参数。
[0048]“比对的clustal v方法”对应于标记为clustal v的比对方法(由以下描述:higgins和sharp,(1989)cabios 5:151-153;higgins等人,(1992)comput appl biosci[生物科学中的计算机应用]8:189-191),并且发现于lasergene生物信息计算包(dnastar公司,麦迪逊,威斯康星州)的megalign
tm
程序中。对于多重比对,默认值对应于空位罚分(gap penalty)=10和空位长度罚分(gap length penalty)=10。使用clustal方法进行逐对比对和蛋白质序列的百分比同一性计算的默认参数为ktuple=1、空位罚分=3、窗口(window)=5、以及存储的对角线(diagonals saved)=5。对于核酸,这些参数是ktuple=2、空位罚分=5、窗口=4、并且存储的对角线=4。使用clustal v程序比对序列后,可能通过查看同一程序中的“序列距离”表来获得“百分比同一性”。“比对的clustal w方法”对应于标记为clustal w的比对方法(由以下描述:higgins和sharp,(1989)cabios 5:151-153;higgins等人,(1992)comput appl biosci[生物科学中的计算机应用]8:189-191),并且发现于lasergene生物信息计算包(dnastar公司,麦迪逊,威斯康星州)的megalign
tm v6.1程序中。用于多重比对的默认参数(空位罚分=10、空位长度罚分=0.2、延迟发散序列(delay divergen seqs,%)=30、dna转换权重=0.5、蛋白质权重矩阵=gonnet系列、dna权重矩阵=iub)。使用clustal w程序比对序列后,可能通过查看同一程序中的“序列距离”表来获得“百分比同一性”。除非另有说明,本文中提供的序列同一性/相似性值是指使用gap版本10(gcg,accelrys公司,圣迭戈,加利福尼亚州)使用以下参数获得的值:核苷酸序列的%同一性和%相似性采用50的空位产生罚分权重和3的空位长度延伸罚分权重以及nwsgapdna.cmp评分矩阵;氨基酸序列的%同一性和%相似性采用8的空位产生罚分权重和2的空位长度延伸罚分权重以及blosum62评分矩阵(henikoff和henikoff,(1989)proc.natl.acad.sci.usa[美国科学院院报]89:10915)。gap使用needleman和wunsch(1970)j mol biol[分子生物学杂志]48:443-53的算法来找到使匹配数目最大化并且使空位数目最小化的两个完整序列的比对。gap考虑所有可能的比对和空位位置,并且使用匹配碱基的单位中的空位产生罚分和空位延伸罚分,产生具有最大数目的匹配碱基和最少的空位的比对。“blast”是美国国家生物技术信息中心(national center for biotechnology information,ncbi)提供的用于寻找生物序列之间的相似性的区域的搜索算法。该程序将核苷酸或者蛋白质序列与序列数据库比较,并计算匹配的统计显著性以鉴定出与查询序列具有足够的相似性的序列,这样使得相似性不会被预测为已经随机发生。blast报告鉴定的序列和它们与查询序列的局部比对。本领域技术人员很清楚地理解,许多水平的序列同一性在鉴定来自其他物种的多肽或修饰的天然的或合成的多肽中是有用的,其中此类多肽具有相同或相似的功能或活性。百分比同一性的有用实例包括但不限于50%、55%、60%、65%、70%、75%、80%、85%、90%或95%,或从50%至100%的任何百分比。实际上,在描述本公开中,从50%至100%的任何氨基酸同一性会是有用的,如51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%。
[0049]
多核苷酸和多肽序列、其变体、以及这些序列的结构关系,可以用术语“同源性”、“同源的”、“基本上相同的”、“基本上类似的”以及“基本上相应”来描述,这些术语在本文中可互换使用。这些是指多肽或核酸序列,其中在一个或多个氨基酸或核苷酸碱基上的变化不影响分子的功能,如介导基因表达或产生某种表型的能力。这些术语还指相对于初始未修饰的核酸,基本上不改变所得核酸的功能特性的核酸序列的一个或多个修饰。这些修饰包括在核酸片段中一个或多个核苷酸的缺失、取代、和/或插入。所涵盖的基本上类似的核酸序列可以通过这些核酸序列与本文所示例的序列杂交,或与本文所公开的并且与任何本文所公开的核酸序列在功能上等价的核苷酸序列的任何部分杂交(在中严格条件下,例如0.5x ssc,0.1%sds,60℃)的能力来定义。可以调整严格条件以筛选适度类似的片段(如来自远缘生物体的同源序列),至高度类似的片段(如复制来自近缘生物体的功能性酶的基因)。杂交后的洗涤决定了严格条件。
[0050]“厘摩”(cm)或“图距单位”是两个多核苷酸序列、连锁的基因、标志物、靶位点、基因座或它们的任何配对之间的距离,其中1%的减数分裂的产物是重组的。因此,一厘摩与等于两个连锁的基因、标志物、靶位点、基因座或它们的任何配对之间的1%平均重组频率的距离相当。
[0051]“分离的”或“纯化的”核酸分子、多核苷酸、多肽、或蛋白质、或其生物活性部分是基本上或本质上不含与如在其天然存在的环境中发现的多核苷酸或蛋白质正常相伴或相互作用的组分。因此,分离的或纯化的多核苷酸或多肽或蛋白质当通过重组技术产生时基本上不含其他细胞物质或培养基,或者当化学合成时基本上不含化学前体或其他化学品。该术语也涵盖重组多核苷酸和化学合成的多核苷酸。
[0052]
术语“片段”是指核苷酸或氨基酸的连续集合。在一个实施例中,片段是2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、或大于20个连续核苷酸。在一个实施例中,片段是2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、或大于20个连续氨基酸。片段可能表现出或可能不会表现出在所述片段的长度上共享一定百分比同一性的序列的功能。
[0053]
术语“在功能上等价的片段”和“功能等价片段”在本文中可互换使用。这些术语是指分离的核酸片段或多肽的显示出与其衍生自的较长序列相同的活性或功能的一部分或子序列。在一个实例中,无论片段是否编码活性蛋白,该片段都保留改变基因表达或产生某种表型的能力。例如,片段可用于设计基因以在修饰的植物中产生所希望的表型。可以将基因设计为用于在抑制中使用,无论该基因是否编码活性酶,通过以相对于植物启动子序列的有义或反义取向连接其核酸片段。
[0054]“基因”包括表达功能性分子(诸如但不限于,特定蛋白质)的核酸片段,包括在编码序列之前(5’非编码序列)和之后(3’非编码序列)的调节序列。“天然基因”是指在其天然内源性位置中发现的具有其自身调节序列的基因。
[0055]
术语“内源性”是指天然存在于细胞或生物体中的序列或其他分子。在一个方面,通常在细胞的基因组中发现内源多核苷酸;也就是说,不是异源的。
[0056]“等位基因”是占据染色体上给定基因座的基因的若干种替代形式中的一种。当染色体上在给定基因座处存在的所有等位基因都相同时,该植物在该基因座处是纯合的。如果染色体上在给定基因座处存在的等位基因不同,则该植物在该基因座处是杂合的。
[0057]“编码序列”是指编码特定氨基酸序列的多核苷酸序列。“调节序列”是指位于编码序列的上游(5’非编码序列)、内部或下游(3’非编码序列)的核苷酸序列,并且其影响相关的编码序列的转录、rna加工或稳定性、或翻译。调节序列包括但不限于:启动子、翻译前导序列、5’非翻译序列、3’非翻译序列、内含子、聚腺苷酸化靶序列、rna加工位点、效应子结合位点、和茎环结构。
[0058]“突变基因”是通过人为干预已经改变的基因。这样的“突变基因”具有通过至少一个核苷酸添加、缺失或取代而与相应的非突变基因的序列不同的序列。在本公开的某些实施例中,该突变的基因包含由如本文公开的指导多核苷酸/cas内切核酸酶系统引起的改变。突变的植物是包含突变基因的植物。
[0059]
如本文所用,术语“靶向突变”是通过使用本领域技术人员已知的任何方法(包括涉及如本文公开的指导的cas内切核酸酶系统的方法)改变靶基因内的靶序列而产生的基因(称为靶基因)包括天然基因中的突变。
[0060]
术语“敲除”、“基因敲除(gene knock-out)”和“基因敲除(genetic knock-out)”在本文中可互换使用。敲除表示已经通过用cas蛋白进行靶向使得细胞的dna序列部分或完全无效;例如,这样的dna序列在敲除之前可能已编码氨基酸序列,或可能已具有调节功能(例如,启动子)。
[0061]
术语“敲入”、“基因敲入(gene knock-in)”、“基因插入”和“基因敲入(genetic knock-in)”在本文中可互换使用。敲入表示通过用cas蛋白(例如,通过同源重组(hr),其中还使用合适的供体dna多核苷酸)靶向在细胞中的特异性dna序列处进行的dna序列的替代或插入。敲入的实例是异源氨基酸编码序列在基因的编码区中的特异性插入,或转录调节元件在遗传基因座中的特异性插入。
[0062]“结构域”意指核苷酸(可以为rna、dna、和/或rna-dna组合序列)或氨基酸的连续延伸。
[0063]
术语“保守结构域”或“基序”是指沿进化相关蛋白的比对序列在特定位置处保守的一组多核苷酸或氨基酸。虽然同源蛋白质之间在其他位置处的氨基酸可以发生变化,但在特定位置处高度保守的氨基酸表明对蛋白质的结构、稳定性、或活性来说是必需的氨基酸。因为它们通过蛋白质同系物家族的比对序列中的高度保守性而被鉴定,所以它们可以用作标识符或“特征”,以确定具有新确定的序列的蛋白质是否属于先前鉴定的蛋白质家族。
[0064]“密码子修饰的基因”或“密码子偏好的基因”或“密码子优化的基因”是其密码子使用的频率被设计为模拟宿主细胞的偏好的密码子使用的频率的基因。
[0065]“优化的”多核苷酸是已经过优化以改善特定异源宿主细胞中的表达的序列。
[0066]“植物优化的核苷酸序列”是为了在植物中表达(特别是为了在植物中增加的表达)而优化的核苷酸序列。植物优化的核苷酸序列包括密码子优化的基因。可以使用一个或多个植物偏好的密码子来改善表达,通过修饰编码蛋白质(例如像如本文公开的cas内切核酸酶)的核苷酸序列,来合成植物优化的核苷酸序列。有关宿主偏好的密码子使用的讨论,参见,例如campbell和gowri,(1990)plant physiol.[植物生理学]92:1-11。
[0067]
启动子是参与rna聚合酶和其他蛋白质的识别和结合以起始转录的dna区域。启动子序列由近端元件和较远端上游元件组成,后一元件通常称为增强子。“增强子”是可以刺
激启动子活性的dna序列,并且可以是该启动子的固有元件或被插入以增强启动子的水平或组织特异性的异源元件。启动子可以全部衍生自天然基因,或者由衍生自在自然界存在的不同启动子的不同元件构成,和/或包含合成的dna区段。本领域技术人员应当理解,不同的启动子可能引导基因在不同组织或细胞类型中、或在不同发育阶段、或者响应于不同环境条件的表达。进一步认识到,由于在大多数情况下调节序列的确切边界尚未完全限定,一些变异的dna片段可能具有相同的启动子活性。
[0068]
在多数情况下引起基因在大多数细胞型中表达的启动子通常称为“组成型启动子”。术语“诱导型启动子”是指对内源或外源刺激的存在,例如通过化学化合物(化学诱导剂)响应,或对环境、激素、化学品、和/或发育信号响应,选择性表达编码序列或功能rna的启动子。诱导型或调节型启动子包括例如通过光、热、胁迫、水淹或干旱、盐胁迫、渗透胁迫、植物激素、伤口或化学品(如乙醇、脱落酸(aba)、茉莉酮酸酯、水杨酸或安全剂)诱导或调节的启动子。
[0069]“翻译前导序列”是指位于基因的启动子序列与编码序列之间的多核苷酸序列。翻译前导序列存在于翻译起始序列的mrna上游。翻译前导序列可以影响初级转录物对mrna的加工、mrna稳定性、或翻译效率。已经描述了翻译前导序列的实例(例如,turner和foster,(1995)mol biotechnol[分子生物技术]3:225-236)。
[0070]“3’非编码序列”、“转录终止子”或“终止序列”是指位于编码序列的下游的dna序列,并且包括聚腺苷酸化识别序列和编码能够影响mrna加工或基因表达的调节信号的其他序列。聚腺苷酸化信号通常特征在于影响聚腺苷酸片添加到mrna前体的3’末端。由ingelbrecht等人,(1989)plant cell[植物细胞]1:671-680示例了不同的3

非编码序列的用途。
[0071]“rna转录物”是指由dna序列的rna聚合酶催化的转录产生的产物。当rna转录物是dna序列的完全互补拷贝时,rna转录物被称为初级转录物或前mrna。当rna转录物是衍生自初级转录物前mrna的转录后加工的rna序列时,rna转录物被称为成熟rna或mrna。“信使rna”或“mrna”是指没有内含子并且可以被细胞翻译成蛋白质的rna。“cdna”是指与mrna模板互补并使用逆转录酶从mrna模板合成的dna。
[0072]
术语“基因组”指存在于生物体或病毒或细胞器的每个细胞中的遗传物质的全部互补序列(基因和非编码序列);和/或从一个亲本遗传为(单倍体)单元的完整染色体组。
[0073]
术语“可操作地连接”是指单个核酸片段上的核酸序列的关联,使得其中一个核酸序列的功能被另一个核酸序列调节。例如,当启动子能够调节编码序列的表达(即,该编码序列在启动子的转录控制下)时,启动子与该编码序列可操作地连接。编码序列可以在正义或反义取向上可操作地连接到调节序列。在另一个实例中,互补的rna区域可以直接或间接与靶mrna的5

、或靶mrna的3

可操作地连接、或在靶mrna内、或第一个互补区是5

且其互补序列是靶mrna的3


[0074]
通常,“宿主”是指已引入异源组分(多核苷酸、多肽、其他分子、细胞)的生物体或细胞。如本文所用,“宿主细胞”是指体内或体外的真核细胞、原核细胞(例如,细菌或古细菌细胞),或来自作为单细胞实体培养的多细胞生物体的细胞(例如,细胞系),其中已引入异源多核苷酸或多肽。在某些优选的实施例中,宿主细胞是植物细胞,包括作物植物细胞。
[0075]
术语“重组”是指例如通过化学合成或者通过基因工程技术操纵分离的核酸区段
来将两个原本分开的序列区段进行人工组合。
[0076]
术语“质粒”、“载体”和“盒”是指线性或环状染色体外元件,其通常携带非细胞中心代谢的一部分的基因,并且通常呈双链dna的形式。此类元件可以是衍生自任何来源的、单链或双链dna或rna的、处于直链或环状形式的自主复制序列、基因组整合序列、噬菌体、或核苷酸序列,其中许多核苷酸序列已经被连接或重组成能够将目的多核苷酸引入细胞中的独特构造。“转化盒”是指包含基因并具有促进特定宿主细胞转化的基因之外的元件的特定载体。“表达盒”是指包含基因并具有允许在宿主中表达该基因的基因之外的元件的特定载体。
[0077]
术语“重组dna分子”、“重组dna构建体”、“表达构建体”、“构建体”、和“重组构建体”在本文中可互换使用。重组dna构建体包含核酸序列,例如在自然界中未全部一起发现的调节序列和编码序列的人工组合。例如,重组dna构建体可以包含衍生自不同来源的调节序列和编码序列,或者包含衍生自相同来源但以不同于天然发生的方式排列的调节序列和编码序列。这种构建体可以单独使用或可以与载体结合使用。如果使用载体,则载体的选择取决于如本领域技术人员熟知的将用于将载体引入宿主细胞的方法。例如,可以使用质粒载体。技术人员充分了解必须存在于载体上以便成功转化,选择和繁殖宿主细胞的遗传元件。
[0078]
术语“异源性”是指特定多核苷酸或多肽序列的原始环境、位置、或组成与其当前环境、位置、或组成之间的差异。非限制性实例包括分类学衍生(例如,如果从玉蜀黍(zea mays)获得的多核苷酸序列被插入到水稻(oryza sativa)植物或玉蜀黍的不同品种或栽培种的基因组中,则该多核苷酸序列将是异源的;或者从细菌获得的多核苷酸被引入植物的细胞中)或序列(例如,多核苷酸序列从玉蜀黍获得,分离,修饰,并且重新引入玉米植物中)的差异。如本文所用,关于序列的“异源性”可以指该序列源于不同物种、变种、外来物种,或者,如果源于相同物种的话,则是通过蓄意人为干预从其在组合物和/或基因组基因座中的天然形式进行实质性修饰得到的序列。例如,可操作地连接到异源多核苷酸的启动子来自与从其衍生该多核苷酸的物种不同的物种,或者,如果来自相同/类似的物种,那么一方或双方基本上由它们的原来形式和/或基因组基因座修饰得到,或者该启动子不是被可操作地连接的多核苷酸的天然启动子。可替代地,本文提供的一个或多个调节区域和/或多核苷酸可以是整体地合成的。
[0079]
如本文所用,术语“表达”是指处于前体抑或成熟形式的功能性终产物(例如,mrna、指导rna或蛋白质)的产生。
[0080]“成熟”蛋白质是指翻译后加工的多肽(即,从其中已经去除存在于初级翻译产物中的任何前肽(pre-peptide)或原肽(propeptide)的一种多肽)。
[0081]“前体”蛋白质是指mrna的翻译的初级产物(即,仍存在前肽或原肽)。前肽或原肽可以是但不限于细胞内定位信号。
[0082]“crispr”(成簇的规律间隔的短回文重复序列(clustered regularly interspaced short palindromic repeats))基因座是指dna切割系统的某些遗传基因座编码组分,例如,被细菌和古细菌细胞用来破坏外源dna的那些(horvath和barrangou,2010,science[科学]327:167-170;2007年3月01目公布的wo 2007025097)。crispr基因座可以由crispr阵列组成,包含由短的可变dna序列(称为

间隔区’)分开的短的正向重复序
列(crispr重复序列),其可以是侧翼不同cas(crispr相关的)基因。
[0083]
如本文所用,“效应子”或“效应子蛋白”是具有包括识别、结合、和/或切割多核苷酸靶或使多核苷酸靶产生切口的活性的蛋白质。效应子或效应子蛋白也可以是内切核酸酶。crispr系统的“效应子复合物”包括参与crrna及靶识别和结合的cas蛋白。一些组分cas蛋白可以另外包含参与靶多核苷酸切割的结构域。
[0084]
术语“cas蛋白”是指由cas(crispr相关联的)基因编码的多肽。cas蛋白包括但不限于:cas9蛋白、cpf1(cas12a)蛋白、c2c1蛋白、c2c2蛋白、c2c3蛋白、cas3、cas3-hd、cas 5、cas7、cas8、cas10或这些的组合或复合物。当与合适的多核苷酸组分复合时,cas蛋白可以是能够识别、结合特定多核苷酸靶序列的全部或部分、并任选地使特定多核苷酸靶序列的全部或部分产生切口或切割特定多核苷酸靶序列的全部或部分的“cas内切核酸酶”或“cas效应子蛋白”。本文描述的cas内切核酸酶包含一个或多个核酸酶结构域。本公开的内切核酸酶可以包括具有一个或多个ruvc核酸酶结构域的内切核酸酶。cas蛋白被进一步定义为天然cas蛋白的功能性片段或功能性变体,或与天然cas蛋白的至少50、50与100之间、至少100、100与150之间、至少150、150与200之间、至少200、200与250之间、至少250、250与300之间、至少300、300与350之间、至少350、350与400之间、至少400、400与450之间、至少500、或大于500个连续氨基酸具有至少50%、50%与55%之间、至少55%、55%与60%之间、至少60%、60%与65%之间、至少65%、65%与70%之间、至少70%、70%与75%之间、至少75%、75%与80%之间、至少80%、80%与85%之间、至少85%、85%与90%之间、至少90%、90%与95%之间、至少95%、95%与96%之间、至少96%、96%与97%之间、至少97%、97%与98%之间、至少98%、98%与99%之间、至少99%、99%与100%之间、或100%序列同一性并且保留至少部分活性的蛋白。
[0085]“cas内切核酸酶”可以包含使其能够充当双链断裂诱导剂的结构域。“cas内切核酸酶”还可以包含一个或多个消除或降低其切割双链多核苷酸(dcas)的能力的修饰或突变。在一些方面,cas内切核酸酶分子可以保留使单链多核苷酸产生切口的能力(例如,cas9内切核酸酶分子中的d10a突变)(ncas9)。
[0086]
cas内切核酸酶的“功能性片段”、“功能上等价的片段”和“功能等价片段”在本文中可互换使用,并且是指本公开的cas内切核酸酶的一部分或子序列,其中保留识别、结合并任选地解旋靶位点、使靶位点产生切口或切割(引入单链或双链断裂)靶位点的能力。cas内切核酸酶的部分或子序列可以包含其任何一个结构域的完整肽或部分(功能性)肽,例如像但不限于cas3 hd结构域完整的功能性部分、cas3解旋酶结构域完整的功能性部分、caseade蛋白完整的功能性部分(诸如但不限于cas5、cas5d、cas7和cas8b1)。
[0087]
cas内切核酸酶或cas效应子蛋白的术语“功能性变体”、“功能上等价的变体”和“功能等价变体”在本文中可互换使用,并且是指本文公开的cas效应子蛋白的变体,其中保留识别、结合并任选地解旋靶序列的全部或部分、使靶序列的全部或部分产生切口或切割靶序列的全部或部分的能力。
[0088]
cas内切核酸酶还可以包括多功能cas内切核酸酶。术语“多功能cas内切核酸酶”和“多功能cas内切核酸酶多肽”在本文中可互换使用,并且包括提及具有cas内切核酸酶功能(包含至少一个可以用作cas内切核酸酶的蛋白质结构域)和至少另一种功能的单个多肽,该至少另一种功能诸如但不限于,形成cascade的功能(至少包括可以与其他蛋白质形
成cascade的第二蛋白质结构域)。在一个方面,该多功能cas内切核酸酶包含相对于cas内切核酸酶的那些典型结构域的至少一个额外的蛋白结构域(在内部上游(5’)或下游(3’),或在内部5’和3’两处,或其任何组合)。
[0089]
术语“cascade”和“cascade复合物”在本文中可互换使用,并且包括提及可与多核苷酸组装形成多核苷酸-蛋白复合物(pnp)的多亚基蛋白复合物。cascade是一种依赖于多核苷酸的pnp,以实现复合物组装和稳定性以及鉴定靶核酸序列。cascade用作监视复合物,其发现并任选地结合与指导多核苷酸的可变靶向结构域互补的靶核酸。
[0090]
术语“切割就绪的cascade”、“crcascade”、“切割就绪的cascade复合物”、“crcascade复合物”、“切割就绪的cascade系统”、“crc”和“crcascade系统”在本文中可互换使用,并包括提及可以与多核苷酸组装形成多核苷酸-蛋白复合物(pnp)的多亚基蛋白复合物,其中cascade蛋白之一是cas内切核酸酶,所述cas内切核酸酶能够识别、结合靶序列的全部或部分、并任选地使靶序列的全部或部分解旋、使靶序列的全部或部分产生切口或切割靶序列的全部或部分。
[0091]
术语“5
′‑
帽”和“7-甲基鸟苷酸(m7g)帽”在本文中可互换使用。7-甲基鸟苷酸残基位于真核生物中信使rna(mrna)的5

末端。在真核生物中,rna聚合酶ii(pol ii)转录mrna。信使rna加帽通常如下:用rna末端磷酸酶去除mrna转录物的最末端5’磷酸根基团,留下两个末端磷酸根。用鸟苷酸转移酶将一磷酸鸟苷(gmp)添加至转录物的末端磷酸根,在转录物末端处留下5
′‑5′
三磷酸连接的鸟嘌呤。最后,此末端鸟嘌呤的7-氮被甲基转移酶甲基化。
[0092]
术语“不具有5
′‑
帽”等在本文中用于指具有例如5
′‑
羟基基团而不是5
′‑
帽的rna。例如,此类rna可以被称为“未带帽的rna”。因为5
′‑
带帽的rna有核输出的倾向,转录以后未带帽的rna可以更好地积累在细胞核中。本文中的一种或多种rna组分是未带帽的。
[0093]
如本文所用,术语“指导多核苷酸”涉及可以与cas内切核酸酶(包括本文所述的cas内切核酸酶)形成复合物,并且使得该cas内切核酸酶能够识别、任选地结合并任选地切割dna靶位点的多核苷酸序列。指导多核苷酸序列可以是rna序列、dna序列、或其组合(rna-dna组合序列)。
[0094]
术语指导rna、crrna或tracrrna的“功能片段”、“功能上等价的片段”和“功能等价片段”在本文中可互换使用,并且分别是指本公开的指导rna、crrna或tracrrna的一部分或子序列,其中分别保留用作指导rna、crrna或tracrrna的能力。
[0095]
术语指导rna、crrna或tracrrna(分别地)的“功能性变体”、“功能上等价的变体”和“功能等价变体”在本文中可互换使用,并且分别是指本公开的指导rna、crrna或tracrrna的变体,其中分别保留用作指导rna、crrna或tracrrna的能力。
[0096]
术语“单指导rna”和“sgrna”在本文中可互换使用,并涉及两个rna分子的合成融合,其中包含可变靶向结构域(与tracrrna杂交的tracr配对序列连接)的crrna(crispr rna)与tracrrna(反式激活crispr rna)融合。单指导rna可以包含可与ii型cas内切核酸酶形成复合物的ii型crispr/cas系统的crrna或crrna片段和tracrrna或tracrrna片段,其中所述指导rna/cas内切核酸酶复合物可以将cas内切核酸酶引导至dna靶位点,使得cas内切核酸酶能够识别、任选地结合dna靶位点、并任选地使dna靶位点产生切口或切割(引入单链或双链断裂)dna靶位点。
[0097]
术语“可变靶向结构域”或“vt结构域”在本文中可互换使用,并且包括可以与双链
dna靶位点的一条链(核苷酸序列)杂交(互补)的核苷酸序列。第一个核苷酸序列结构域(vt结构域)与靶序列之间的互补百分比可以为至少50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、63%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%。可变靶向结构域可以是至少12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸长度。在一些实施例中,可变靶向结构域包含12至30个核苷酸的连续延伸。可变靶向结构域可以由dna序列、rna序列、修饰的dna序列、修饰的rna序列、或其任何组合构成。
[0098]
术语(指导多核苷酸的)“cas内切核酸酶识别结构域”或“cer结构域”在本文中可互换使用,并且包括与cas内切核酸酶多肽相互作用的核苷酸序列。cer结构域包含(反式作用)tracr核苷酸配对序列,随后是tracr核苷酸序列。cer结构域可以由dna序列、rna序列、修饰的dna序列、修饰的rna序列(参见例如,2015年2月26日公布的us 20150059010 a1)、或其任何组合构成。
[0099]
如本文所用,术语“指导多核苷酸/cas内切核酸酶复合物”、“指导多核苷酸/cas内切核酸酶系统”、“指导多核苷酸/cas复合物”、“指导多核苷酸/cas系统”和“指导cas系统”、“多核苷酸指导的内切核酸酶”、“pgen”在本文中可互换使用,并且是指能够形成复合物的至少一种指导多核苷酸和至少一种cas内切核酸酶,其中所述指导多核苷酸/cas内切核酸酶复合物可以将cas内切核酸酶引导至dna靶位点,使cas内切核酸酶能够识别、结合dna靶位点并任选地使dna靶位点产生切口或切割(引入单链或双链断裂)dna靶位点。本文中的指导多核苷酸/cas内切核酸酶复合物可以包含已知的crispr系统(horvath和barrangou,2010,science[科学]327:167-170;makarova等人2015,nature reviews microbiology[自然评论微生物学]第13卷:1-15;zetsche等人,2015,cell[细胞]163,1-13;shmakov等人,2015,molecular cell[分子细胞]60,1-13)中任一种的一种或多种cas蛋白和一种或多种合适的多核苷酸组分。
[0100]
术语“指导rna/cas内切核酸酶复合物”、“指导rna/cas内切核酸酶系统”、“指导rna/cas复合物”、“指导rna/cas系统”、“grna/cas复合物”、“grna/cas系统”、“rna指导的内切核酸酶”、“rgen”在本文中可互换使用,并且指能够形成复合物的至少一种rna组分和至少一种cas内切核酸酶,其中所述指导rna/cas内切核酸酶复合物可以将cas内切核酸酶引导至dna靶位点,使cas内切核酸酶能够识别、结合dna靶位点并任选地使dna靶位点产生切口或切割(引入单链或双链断裂)dna靶位点。
[0101]
术语“靶位点”、“靶序列”、“靶位点序列”、“靶dna”、“靶基因座”、“基因组靶位点”、“基因组靶序列”、“基因组靶基因座”、“靶多核苷酸”、和“前间隔子”在本文中可互换使用,并且是指多核苷酸序列,诸如但不限于,在细胞的染色体、附加体、基因座、或基因组中的任何其他dna分子(包括染色体dna、叶绿体dna、线粒体dna、质粒dna)上的核苷酸序列,在这些序列处指导多核苷酸/cas内切核酸酶复合物可以进行识别、结合并任选地产生切口或进行切割。靶位点可以是细胞的基因组中的内源位点,或者可替代地,靶位点对于该细胞可以是异源的并且从而不是天然存在于细胞的基因组中,或者与在自然界发生的位置相比,可以在异质基因组位置中找到靶位点。如本文所用,术语“内源靶序列”和“天然靶序列”在本文中可互换使用,是指对细胞基因组来说是内源的或天然的、并且位于细胞的基因组中该靶
序列的内源或天然位置处的靶序列。“人工靶位点”或“人工靶序列”在本文中可互换使用,并且是指已引入细胞的基因组中的靶序列。这样的人工靶序列可以在序列上与细胞的基因组中的内源性或天然靶序列相同,但是位于细胞的基因组中的不同位置(即,非内源性的或非天然的位置)处。
[0102]
本文中的“前间隔序列邻近基序”(pam)指与由本文所述的指导多核苷酸/cas内切核酸酶系统识别的(靶向的)靶序列(前间隔序列)相邻的短核苷酸序列。如果靶dna序列后面不是pam序列,则cas内切核酸酶可能无法成功识别该靶dna序列。本文中的pam的序列和长度可以取决于所使用的cas蛋白或cas蛋白复合物而不同。pam序列可以是任何长度,但典型地是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸长度。
[0103]“改变的靶位点”、“改变的靶序列”、“修饰的靶位点”、“修饰的靶序列”在本文中可互换使用,并且是指如本文公开的靶序列,当与非改变的靶序列相比时,该靶序列包含至少一个改变。此类“改变”包括,例如:(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、或(iv)(i)-(iii)的任何组合。
[0104]“经修饰的核苷酸”或“经编辑的核苷酸”是指当与其非修饰的核苷酸序列相比时,包含至少一个改变的目的核苷酸序列。此类“改变”包括,例如:(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、或(iv)(i)-(iii)的任何组合。
[0105]
用于“修饰靶位点”和“改变靶位点”的方法在本文中可互换使用,并且是指用于产生改变的靶位点的方法。
[0106]
在染色体工程化的上下文中使用的术语“工程化”通常是指诱导的或引入的染色体变化,该变化不是染色体或染色体区段自发或天然发生的变化。例如,通过引入的核酸酶在染色体区域中引入dna断裂,该核酸酶是位点特异性的或以受控或限定的方式靶向染色体,而不是在例如育种过程期间向基因组中引入非特异性天然变异。
[0107]
如本文所用,“供体dna”是dna构建体,其包括待插入到cas内切核酸酶的靶位点的目的多核苷酸。
[0108]
术语“多核苷酸修饰模板”包括,当与待编辑的核苷酸序列相比时,包含至少一个核苷酸修饰的多核苷酸。核苷酸修饰可以是至少一个核苷酸取代、添加或缺失。任选地,多核苷酸修饰模板可以进一步包含位于至少一个核苷酸修饰侧翼的同源核苷酸序列,其中侧翼同源核苷酸序列为待编辑的希望的核苷酸序列提供了充足同源性。
[0109]
本文的术语“植物优化的cas内切核酸酶”是指由已经针对在植物细胞或植物中表达进行优化的核苷酸序列编码的cas蛋白,包括多功能cas蛋白。
[0110]“编码cas内切核酸酶的植物优化的核苷酸序列”、“编码cas内切核酸酶的植物优化的构建体”和“编码cas内切核酸酶的植物优化的多核苷酸”在本文中可互换使用,并且是指编码cas蛋白、或其变体或功能片段的核苷酸序列,已经针对在植物细胞或植物中表达对其进行优化。包含植物优化的cas内切核酸酶的植物包括:包含编码cas序列的核苷酸序列的植物,和/或包含cas内切核酸酶蛋白的植物。在一个方面,植物优化的cas内切核酸酶核苷酸序列是玉米优化、稻优化、小麦优化、大豆优化、棉花优化或卡诺拉油菜优化的cas内切核酸酶。
[0111]
术语“植物”通常包括整株植物、植物器官、植物组织、种子、植物细胞、种子和植物的后代。植物细胞包括但不限于得自下列物质的细胞:种子、悬浮培养物、胚胎、分生区域、
愈伤组织、叶、根、芽、配子体、孢子体、花粉和小孢子。“植物元件”意在指整株植物或植物组分,可以包括分化和/或未分化的组织,例如但不限于植物组织、部分和细胞类型。在一个实施例中,植物元件是以下之一:整株植物、幼苗、分生组织、基本组织、维管组织、皮膜组织、种子、叶、根、芽、茎、花、果实、匍匐茎、鳞茎、块茎、球茎、无性末梢枝、芽、幼芽、肿瘤组织,以及细胞和培养物的各种形式(例如,单细胞、原生质体、胚胎、愈伤组织)。术语“植物器官”是指植物组织或构成植物的形态上和功能上不同部分的一组组织。如本文所用,“植物元件”是植物的“部分”的同义词,是指植物的任何部分,并且可以包括不同的组织和/或器官,并且可以在全文中与术语“组织”互换使用。类似地,“植物繁殖元件”意在一般性地指能够通过该植物的有性或无性繁殖而创造其他植物的任何植物部分,例如但不限于:种子、幼苗、根、芽、切条、接穗、嫁接苗、匍匐茎、鳞茎、块茎、球茎、无性末梢枝或幼芽。植物元件可以存在于植物中或植物器官、组织培养物或细胞培养物中。
[0112]“后代”包括植物的任何后续子代。
[0113]
如本文使用,术语“植物部分”是指植物细胞、植物原生质体、可以再生植物的植物细胞组织培养物、植物愈伤组织、植物块和在植物或植物部分(诸如胚胎、花粉、胚珠、种子、叶、花、枝、果、核、穗、穗轴、壳、茎、根、根尖、花药等)中完好的植物细胞,连同这些部分自身。谷物意指由商业种植者出于栽培或繁殖物种之外的目的所生产的成熟种子。这些再生植物的后代、变体和突变体也包括在本发明的范围内,条件是这些部分包含经引入的多核苷酸。
[0114]
术语“单子叶植物的”或“单子叶植物”是指被子植物的亚类,也称为“单子叶植物纲”,其种子典型地仅包含一个胚叶或子叶。该术语包括对整个植物、植物元件、植物器官(例如,叶、茎、根等)、种子、植物细胞及其后代的指代。
[0115]
术语“双子叶植物的”或“双子叶植物”是指被子植物的亚类,也称为“双子叶植物纲”,其种子典型地包含两个胚叶或子叶。该术语包括对整个植物、植物元件、植物器官(例如,叶、茎、根等)、种子、植物细胞及其后代的指代。
[0116]
如本文使用,“雄性不育植物”是不产生有活力的或在其他情况下能够受精的雄配子的植物。如本文使用,“雌性不育植物”是不产生有活力的或在其他情况下能够受精的雌配子的植物。应当认识到雄性不育植物和雌性不育植物可以分别是雌性可育的和雄性可育的。应当进一步认识到,雄性可育(但雌性不育)植物当与雌性可育植物杂交时可以产生有活力的后代,并且雌性可育(但雄性不育)植物当与雄性可育植物杂交时可以产生有活力的后代。
[0117]
本文中术语“非常规酵母”是指不是酵母属(例如,酿酒酵母)或裂殖酵母属酵母物种的任何酵母。(参见“non-conventional yeasts in genetics,biochemistry and biotechnology:practical protocols[遗传学、生物化学和生物技术中的非常规酵母菌:实践方案]”,k.wolf,k.d.breunig,g.barth,编辑,springer-verlag,berlin,germany[德国柏林施普林格出版社],2003)。
[0118]
在本公开的上下文中,术语“杂交的”或“杂交”(cross或crossing)是指经由授粉将配子融合从而产生后代(即,细胞、种子、或植物)。该术语涵盖有性杂交(一株植物被另一株植物授粉)和自交(自体授粉,即当花粉和胚珠(或小孢子和大孢子)是来自同一植物或遗传上相同的植物时)。
[0119]
术语“渗入”是指遗传基因座的期望等位基因从一种遗传背景传递到另一种遗传背景的现象。例如,可以经由两个亲本植物之间的有性杂交将指定基因座处的所需等位基因的渗入传递给至少一个后代植物,其中至少一个亲本植物在其基因组内具有所需等位基因。可替代地,例如等位基因的传递可以通过两个供体基因组之间的重组而发生,例如在融合原生质体中,其中至少其中一个供体原生质体在其基因组中具有所希望的等位基因。所希望的等位基因可以是,例如转基因、修饰的(突变的或编辑的)天然等位基因、或标志物或qtl的选择的等位基因。
[0120]
术语“同系(isoline)”是一个比较性术语,指遗传上相同但处理方法不同的生物体。在一个实例中,可以将两个遗传上相同的玉米植物胚胎分成两个不同的组,一个组接受处理(诸如引入crispr-cas效应子内切核酸酶),而一个组作为对照不接受这种处理。因此,两组之间的任何表型差异都可能仅归因于该处理,而不是归因于该植物的内源基因组成的任何固有性。
[0121]“引入”旨在意指以这样一种方式将多核苷酸或多肽或多核苷酸-蛋白复合物提供于靶标,诸如细胞或生物体中,以致于这一种或多种组分得以进入该生物体的细胞的内部或进入细胞自身。
[0122]“目的多核苷酸”包括编码改善作物的合意性(即,农艺学目的性状)的蛋白或多肽的任何核苷酸序列。目的多核苷酸:包括但不限于,编码对农艺学、除草剂-抗性、杀昆虫抗性、疾病抗性、线虫抗性、除草剂抗性、微生物抗性、真菌抗性、病毒抗性、能育性或不育性、谷粒特征、商业产品、表型标志物而言重要的或任何其他具有重要农艺学或商业意义的性状的多核苷酸。目的多核苷酸可以另外以有义或反义取向加以利用。此外,可以一起或“堆叠”利用多于一个目的多核苷酸以提供额外的益处。
[0123]“复杂性状基因座”包括具有彼此遗传连锁的多个转基因的基因组基因座。
[0124]
本文的组合物和方法可以为植物提供改善的“农艺学性状”或“具有农艺学重要性的性状”或“具有农艺学意义的性状”,这些性状可以包括但不限于以下:与不包含衍生自本文方法和组合物的修饰的同系植物相比的抗病性、耐旱性、耐热性、耐寒性、耐盐性、金属耐性、除草剂耐性、改善的水分利用效率、改善的氮利用率、改善的固氮作用、有害生物抗性、食草动物抗性、病原抗性、产量改善、健康增强、活力改善、生长改善、光合能力改善、营养增强、改变的蛋白质含量、改变的油含量、生物量增加、芽长度增加、根长度增加、根结构改善、代谢产物的调节、蛋白质组的调节、种子重量的增加、改变的种子碳水化合物组成、改变的种子油组成、改变的种子蛋白质组成、改变的种子营养成分。
[0125]“农艺学性状潜力”旨在意指植物元件在其生命周期中的某个时刻表现出一种表型(优选地为一种改善的农艺学性状)的能力,或将所述表型传递至在同一种植物中与其相关联的另一种植物元件的能力。
[0126]
如本文所用,术语“减少”、“较少”、“较慢”和“增加”、“较快”、“增强”、“更大”是指与未修饰的植物元件或产生的植物相比,经修饰的植物元件或产生的植物的特征降低或增加。例如,特征的降低可以是低于未处理的对照至少1%、至少2%、至少3%、至少4%、至少5%、5%与10%之间、至少10%、10%与20%之间、至少15%、至少20%、20%与30%之间、至少25%、至少30%、30%与40%之间、至少35%、至少40%、40%与50%之间、至少45%、至少50%、50%与60%之间、至少约60%、60%与70%之间、70%与80%之间、至少75%、至少约
80%、80%与90%之间、至少约90%、90%与100%之间、至少100%、100%与200%之间、至少200%、至少约300%、至少约400%或更多,并且增加可以是高于未处理的对照至少1%、至少2%、至少3%、至少4%、至少5%、5%与10%之间、至少10%、10%与20%之间、至少15%、至少20%、20%与30%之间、至少25%、至少30%、30%与40%之间、至少35%、至少40%、40%与50%之间、至少45%、至少50%、50%与60%之间、至少约60%、60%与70%之间、70%与80%之间、至少75%、至少约80%、80%与90%之间、至少约90%、90%与100%之间、至少100%、100%与200%之间、至少200%、至少约300%、至少约400%或更多。
[0127]
如本文所用,当提到序列位置时,术语“之前”是指一个序列在另一序列上游或5’处出现。
[0128]
缩写的含义如下:“sec”意指秒、“min”意指分钟、“h”意指小时、“d”意指天、“ul”意指微升、“ml”意指毫升、“l”意指升、“um”意指微摩尔、“mm”意指毫摩尔、“m”意指摩尔、“mmol”意指毫摩尔、“umole”或“umole”意指微摩尔、“g”意指克、“ug”或“ug”意指微克、“ng”意指纳克、“u”意指单位、“bp”意指碱基对、以及“kb”意指千碱基。
[0129]
双链断裂(dsb)诱导剂(dsb剂)
[0130]
由双链断裂诱导剂(诸如在多核苷酸链中切割磷酸二酯键的内切核酸酶)诱导的双链断裂可以导致dna修复机制的诱导,包括非同源末端连接途径以及同源重组。内切核酸酶包括一系列不同的酶,包括限制性内切核酸酶(参见,例如,roberts等人,(2003)nucleic acids res[核酸研究]1:418-20)、roberts等人,(2003)nucleic acids res[核酸研究]31:1805-12、和belfort等人,(2002)在mobile dna[运动dna]ii,第761-783页,编辑craigie等人,(asm出版社,华盛顿特区)中)、大范围核酸酶(参见例如,wo 2009/114321;gao等人(2010)plant journal[植物杂志]1:176-187)、tal效应子核酸酶或talen(参见例如,us 20110145940,christian,m.,t.cermak,等人2010.targeting dna double-strand breaks with tal effector nucleases.[用tal效应子核酸酶靶向dna双链断裂]genetics[遗传学]186(2):757-61和boch等人,(2009),science[科学]326(5959):1509-12)、锌指核酸酶(参见例如kim,y.g.,j.cha等人(1996).“hybrid restriction enzymes:zinc finger fusions to foki cleavage[杂交限制性内切酶:锌指与foki融合蛋白的切割]”)、和crispr-cas内切核酸酶(参见例如,2007年3月1日公布的wo 2007/025097申请)。
[0131]
除了双链断裂诱导剂,还可以实现位点特异性碱基转化以工程化一个或多个核苷酸变化,从而在基因组中创建一个或多个本文所述的eme。这些包括例如,由c
·
g至t
·
a或a
·
t至g
·
c碱基编辑脱氨酶介导的位点特异性碱基编辑(gaudelli等人,programmable base editing of a
·
t to g
·
c in genomic dna without dna cleavage.[在无dna切割时基因组dna中a
·
t至g
·
c的可编程碱基编辑]“nature[自然](2017);nishida等人“targeted nucleotide editing using hybrid prokaryotic and vertebrate adaptive immune systems.[使用杂交体原核和脊椎动物适应性免疫系统进行靶向核苷酸编辑]”science[科学]353(6305)(2016);komor等人“programmable editing of a target base in genomic dna without double-stranded dna cleavage.[在无双链dna切割时基因组dna中靶碱基的可编程编辑]”nature[自然]533(7603)(2016):420-4)。
[0132]
任何双链断裂或-切口或-修饰诱导剂均可用于本文所述的方法,包括例如但不限于:cas内切核酸酶、重组酶、talen、锌指核酸酶、限制性内切核酸酶、大范围核酸酶和脱氨
酶。
[0133]
crispr系统和cas内切核酸酶
[0134]
提供了利用crispr相关(cas)内切核酸酶进行多核苷酸修饰的方法和组合物。i类cas内切核酸酶包含多亚基效应子复合物(i型、iii型和iv型),而2类系统包含单蛋白效应子(ii型、v型和vi型)(makarova等人,2015,nature reviews microbiology[自然微生物学综述]卷13:1-15;zetsche等人,2015,cell[细胞]163,1-13;shmakov等人,2015,molecular cell[分子细胞学]60,1-13;haft等人,2005,computational biology,plos comput biol[美国科学公共图书馆计算生物学]1(6):e60;以及koonin等人2017,curr opinion microbiology[微生物学新见]37:67-78)。在2类ii型系统中,该cas内切核酸酶与指导rna(grna)复合起作用,该指导rna引导cas内切核酸酶切割dna靶标,以使靶标能够被cas内切核酸酶识别、结合和切割。grna包含与cas内切核酸酶相互作用的cas内切核酸酶识别(cer)结构域,以及与靶dna中的核苷酸序列杂交的可变靶向(vt)结构域。在一些方面,该grna包含crispr rna(crrna)和反式激活crispr rna(tracrrna),以将cas内切核酸酶指导到其dna靶标上。该crrna包含与双链dna靶标的一条链互补的间隔区和与tracrrna碱基配对形成rna双链体的区域。在一些方面,该grna是包含crrna和tracrrna的合成融合体的“单指导rna”(sgrna)。在许多系统中,该cas内切核酸酶指导的多核苷酸复合物识别与靶序列(前间区序列)相邻的短核苷酸序列,称为“前间区序列邻近基序”(pam)。
[0135]
cas内切核酸酶的实例包括但不限于cas9和cpf1。cas9(以前称为cas5、csn1或csx12)是2类ii型cas内切核酸酶(makarova等人,2015,nature reviews microbiology[自然微生物学综述]卷13:1-15)。cas9-grna复合物可识别靶位点的3

pam序列(化脓链球菌cas9为ngg),从而使指导rna的间隔区能够侵入双链dna靶标,并且如果间隔区与前间区序列之间存在足够的同源性,则产生双链断裂切割。cas9内切核酸酶包含一起产生双链断裂的ruvc结构域和hnh结构域,并且二者可分别产生单链断裂。对于化脓链球菌cas9内切核酸酶,该双链断裂留下平末端。cpf1是2类v型cas内切核酸酶,并且包含核酸酶ruvc结构域,但缺少hnh结构域(yamane等人,2016,cell[细胞]165:949-962)。cpfl内切核酸酶产生“粘性”突出端。
[0136]
基因组靶位点上cas9-grna系统的一些用途包括但不限于在靶位点上一个或多个核苷酸的插入、缺失、取代或修饰;修饰或替换目的核苷酸序列(如调节元件);目的多核苷酸的插入;基因敲除;基因敲入;修饰剪接位点和/或引入替换的剪接位点;编码目的蛋白质的核苷酸序列的修饰;氨基酸和/或蛋白质融合;以及通过将反向重复序列表达为目的基因来进行基因沉默。
[0137]
在一些方面,提供了“多核苷酸修饰模板”,与要编辑的核苷酸序列相比,该模板包含至少一个核苷酸修饰。核苷酸修饰可以是至少一个核苷酸取代、添加、缺失或化学改造。任选地,多核苷酸修饰模板可以进一步包含位于至少一个核苷酸修饰侧翼的同源核苷酸序列,其中侧翼同源核苷酸序列为待编辑的希望的核苷酸序列提供了充足同源性。
[0138]
在一些方面,将目的多核苷酸插入靶位点并作为“供体dna”分子的一部分提供。如本文所用,“供体dna”是dna构建体,其包括待插入到cas内切核酸酶的靶位点的目的多核苷酸。供体dna构建体进一步包含位于目的多核苷酸侧翼的同源的第一区域和第二区域。供体dna的同源的第一区域和第二区域分别与存在于细胞或生物体基因组的靶位点中或位于所
述靶位点侧翼的第一和第二基因组区域共享同源性。供体dna可以与指导多核苷酸进行系链。系链的供体dna可以允许共定位靶标和供体dna,可用于基因组编辑、基因插入和靶向的基因组调节,并且还可以用于靶向有丝分裂后期细胞,在这些细胞中内源性hr机制的功能预计会大大降低(mali等人,2013,nature methods[自然方法]第10卷:957-963)。靶标和供体多核苷酸共享的同源性或序列同一性的量可以变化并且包括总长度和/或区域。
[0139]
使用修饰模板编辑cas9-grna双链断裂位点的基因组序列的过程通常包括:为宿主细胞提供cas9-grna复合物,该复合物识别宿主细胞基因组中的靶序列并能够诱导基因组序列中的单链或双链断裂,并且任选地提供包含与要编辑的核苷酸序列相比至少一个核苷酸改变的至少一种多核苷酸修饰模板。该多核苷酸修饰模板还可以包含侧翼于该至少一个核苷酸改变的核苷酸序列,其中侧翼序列与侧翼于双链断裂的染色体区域基本同源。已经在例如以下中描述了使用双链断裂诱导剂(如cas9-grna复合物)的基因组编辑:2015年3月19日公布的us 20150082478,2015年2月26日公布的wo 2015026886,2016年1月14日公布的wo 2016007347,以及于2016年2月18日公布的wo 2016025131。
[0140]
为了促进真核细胞的最佳表达和核定位,可以如2016年11月24日公布的wo 2016186953中所述对包含cas内切核酸酶的基因进行优化,然后通过本领域已知的方法将其作为dna表达盒递送至细胞中。在一些方面,该cas内切核酸酶作为多肽提供。在一些方面,该cas内切核酸酶作为编码多肽的多核苷酸提供。在一些方面,该指导rna作为编码一种或多种rna分子的dna分子提供。在一些方面,该指导rna作为rna或经化学修饰的rna提供。在一些方面,该cas内切核酸酶蛋白和指导rna作为核糖核蛋白复合物(rnp)提供。
[0141]
一旦在基因组中诱导了双链断裂,则细胞dna修复机制被激活以修复断裂。
[0142]
双链断裂修复和多核苷酸修饰
[0143]
双链断裂诱导剂,例如指导的cas内切核酸酶可以识别、结合dna靶序列,并且引入单链(切口)或双链断裂。一旦在dna中诱导单链断裂或双链断裂,则细胞的dna修复机制被激活来例如经由会导致靶位点处的修饰的非同源末端连接(nhej)、或同源定向修复(hdr)过程修复断裂。
[0144]
sdn1涵盖了sdn(定点核酸酶)的应用,而没有另外的供体dna或修复模板。因此,编辑结果取决于植物基因组的dsb修复途径。由于主要的dsb修复途径是nhej,因此可能会发生小插入或缺失(sdn1a)。在sdn串联排列的情况下,可以获得较大的缺失(sdn1b)。此外,可以通过多路复用sdn1方法生成倒位(sdn1c)或易位(sdn1d)。
[0145]
sdn2描述了将sdn与额外的dna“多核苷酸修饰模板”一起使用,从而以受控方式引入小突变。在这里,提供了主要与靶序列同源的模板,作为诱导一个或两个相邻dsb后hr介导的dsb修复的底物。这种方法允许引入本身也可以自然发生的小突变。
[0146]
sdn3描述了将sdn与另外的“供体多核苷酸”或“供体dna”一起使用,以便在预定基因座引入大区段外源dna,从而增加或替换遗传信息。从机制上讲,此过程依赖于hr介导的dsb修复(如sdn2),并且区分是任意的,因为插入序列的大小可能会显著变化。
[0147]
sdn2和sdn3两者都是多核苷酸中双链断裂的同源定向修复(hdr)类型,并且涉及引入异源多核苷酸作为修复双链断裂(sdn2)的模板或作为在双链断裂位点(sdn3)处新双链多核苷酸的插入。sdn2修复可通过一个或几个核苷酸变化(突变)的存在来检测。sdn3修复可以通过新的连续异源多核苷酸的存在来检测。
[0148]
靶多核苷酸的修饰包括以下任何一种或多种:至少一个核苷酸的插入、至少一个核苷酸的缺失、至少一个核苷酸的化学改变、至少一个核苷酸的替换或至少一个核苷酸的突变。在一些方面,dna修复机制造成双链断裂的不完全修复,导致断裂位点处的核苷酸改变。在一些方面,可以将多核苷酸模板提供给断裂位点,其中修复导致了断裂的模板定向修复。在一些方面,可将供体多核苷酸提供至断裂位点,其中修复导致了供体多核苷酸并入断裂位点。
[0149]
在一些方面,本文描述的方法和组合物改善dsb处的非nhej修复机制结果的概率。在一个方面,实现了hdr与nhej修复比率的增加。
[0150]
同源定向修复和同源重组
[0151]
同源定向修复(hdr)是在细胞中用来修复双链dna和单链dna断裂的机制。同源定向修复包括同源重组(hr)和单链退火(ssa)。hdr的最常见形式称为同源重组(hr),其在供体与受体dna之间具有最长的序列同源性要求。hdr的其他形式包括单链退火(ssa)和断裂诱导的复制,并且这些需要相对于hr更短的序列同源性。切口(单链断裂)处的同源定向修复可以经由与在双链断裂处的hdr不同的机制发生。
[0152]“同源”意指dna序列是相似的。例如,在供体dna上发现的“与基因组区域同源的区域”是与细胞或生物体基因组中给定的“基因组序列”具有类似序列的dna的区域。同源的区域可以具有足以促进在切割的靶位点处的同源重组的任何长度。例如,同源的区域的长度可以包括至少5-10、5-15、5-20、5-25、5-30、5-35、5-40、5-45、5-50、5-55、5-60、5-65、5-70、5-75、5-80、5-85、5-90、5-95、5-100、5-200、5-300、5-400、5-500、5-600、5-700、5-800、5-900、5-1000、5-1100、5-1200、5-1300、5-1400、5-1500、5-1600、5-1700、5-1800、5-1900、5-2000、5-2100、5-2200、5-2300、5-2400、5-2500、5-2600、5-2700、5-2800、5-2900、5-3000、5-3100或更多个碱基,使得同源的区域具有足够的同源性以与相应的基因组区域进行同源重组。“足够的同源性”表示两个多核苷酸序列具有足够的结构相似性以充当同源重组反应的底物。结构相似性包括每个多核苷酸片段的总长度以及多核苷酸的序列相似性。序列相似性可以通过在序列的整个长度上的百分比序列同一性和/或通过包含局部相似性(例如具有100%序列同一性的连续核苷酸)的保守区域以及在序列长度的一部分上的百分比序列同一性来描述。
[0153]
由靶和供体多核苷酸共享的同源性或序列同一性的量可以变化,并且包括总长度和/或在约1-20bp、20-50bp、50-100bp、75-150bp、100-250bp、150-300bp、200-400bp、250-500bp、300-600bp、350-750bp、400-800bp、450-900bp、500-1000bp、600-1250bp、700-1500bp、800-1750bp、900-2000bp、1-2.5kb、1.5-3kb、2-4kb、2.5-5kb、3-6kb、3.5-7kb、4-8kb、5-10kb,或多达并包括靶位点的总长度的范围内具有单位整数值的区域。这些范围包括所述范围内的每个整数,例如1-20bp的范围包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20bp。同源性的量也可以通过在两个多核苷酸的完整比对长度上的百分比序列同一性来描述,其包括约至少50%、55%、60%、65%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的百分比序列同一性。足够的同源性包括多核苷酸长度、总体百分比序列同一性,和任选地连续核苷酸的保守区域或局部百分比序列同一性的任何组合,例如,足够的同源性可以被描述为与靶标基因座的
区域具有至少80%序列同一性的75-150bp的区域。足够的同源性也可以通过两个多核苷酸在高严格条件下特异性杂交的预测能力来描述。
[0154]
原核和真核细胞或生物细胞的基因组的改变,例如通过同源重组(hr),对于基因工程而言的有力工具。
[0155]
提高dsb修复中hdr的概率
[0156]
基于以下事实,考虑了几种促进经由hdr修复双链断裂的方法:(1)cas9对其切割的底物具有高亲和力,并且释放速度缓慢(richardson,c.等人(2016)nat.biotechnol.[自然生物技术]34:339-344);以及(2)发明人观察到,多核苷酸切割的突变结果通常是非随机且可再现的(未公布)。发明人设想重新靶向多核苷酸双链断裂位点,从而为dsb修复提供多个机会,促进hdr(例如,hr)相对于nhej的发生。发明人还设想因为重组基因中间体涉及3’突出端,所以位于双链断裂位点侧翼的额外单链断裂将产生不稳定的双链体,从而产生重组基因中间体。在一些情况下,使用不同的内切核酸酶(例如,来自不同来源的生物体或crispr基因座,或工程化酶,或切口酶)。
[0157]
在一些方面,hr读段的分数或百分比大于比较对象,例如对照样品,具有nhej修复的样品,或与总突变读段相比。在一些方面,hr读段的分数或百分比大于对照样品(无dsb剂)。在一些方面,hr读段的分数或百分比大于nhej读段的分数或百分比。在一些方面,hr读段的分数或百分比大于总突变读段(nhej+hr)的分数或百分比。
[0158]
在一些方面,相对于比较对象的hr读段的分数为至少2、3、4、5、6、7、8、9、10、在10与15之间、15、在15与20之间、20、在20与25之间、25、在25与30之间、30、在30与40之间、40、在40与50之间、50、在50与60之间、60、在60与70之间、70、在70与80之间、80、在80与90之间、90、在90与100之间、100、在100与125之间、125、在125与150之间,大于150、或无限大。
[0159]
在一些方面,相对于比较对象的hr读段百分比是至少为2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、20%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%更大。
[0160]
在方法的一个方面,通过任何方法或组合物,例如但不限于cas内切核酸酶和指导rna,创建、修复、并反复切割双链断裂。简而言之,dsb诱导剂(例如,cas内切核酸酶和第一指导rna)识别、结合、并切割靶多核苷酸。创建并修复第一双链断裂。在一些方面,该修复导致靶位点多核苷酸序列的变化(例如但不限于核苷酸的插入、核苷酸的缺失、或核苷酸的替换)。在一些方面,为特定的靶多核苷酸修复组合物结果提供修复模板。在这种情况下,修复模板的侧翼为反向靶位点(内部是pam)。引入第二指导rna,该第二指导rna与通过第一双链断裂修复所创建的突变互补。在一些方面,dsb修复组合物结果通过引入供体多核苷酸模板或插入确定,并且第二指导rna被设计为与此确定的靶序列结果互补。在一些方面,第二指导rna被设计为与最常创建的修复突变互补。在一些方面,第二指导rna被设计为与所需dna修复结果互补。在一些方面,设计了与靶位点的所有可能突变互补的第二指导rna的文库。
通过第一双链断裂修复创建的一个或多个突变可以是已知的或以生物信息学方式预测。第二指导rna与cas内切核酸酶(重新提供或与针对第一dsb存在的相同cas内切核酸酶)协同作用,以在相同位点(在cas内切核酸酶/第一指导rna复合物的中靶识别序列内)处创建第二双链断裂。在一些方面,代替创建第二dsb的第二指导rna和cas内切核酸酶,可以引入另一种dsb诱导剂。与第一dsb的修复相比,第二dsb的hdr修复概率高于nhej修复概率(即hdr的概率增加,或hdr的频率增加,或hdr与nhej的比率增加)。通常,在先前的切割位点处具有后续切割,在一些方面,该后续切割可以通过引入另一个cas内切核酸酶/grna复合物来实现。以顺序方式继续切割增加了hdr作为dsb修复机制的频率。
[0161]
在方法的一个方面,通过任何方法或组合物,例如但不限于cas内切核酸酶和指导rna,创建、修复、并递归地切割双链断裂。简而言之,dsb诱导剂(例如,cas内切核酸酶和第一指导rna)识别、结合、并切割靶多核苷酸。第一指导rna作为质粒上的dna序列提供,该质粒进一步包含间隔子序列。在一些方面,编码grna的dna可操作地连接到调节表达元件。创建并修复第一双链断裂。修复的靶多核苷酸的组合物用作通过对包含grna dna和间隔子的质粒上的间隔子进行cas编辑而生成的突变的基础。突变的间隔子组合物指导第二grna的生成,该第二grna与第一dsb的修复的靶向多核苷酸的序列互补,并且通过cas内切核酸酶和第二grna在靶位点处诱导第二双链断裂。然后可以重复该循环,然后将新修复的第二dsb的序列用作与修复的第二dsb多核苷酸的序列互补的第三grna的组合物的模板,并且以此类推。以这种方式发生了dsb生成和修复的循环,与第一次修复的机制相比,第一次之后的每次后续修复经由hdr修复的概率高于nhej。该过程可以通过多种方法中的任一种来停止,包括但不限于:滴定试剂可用性,在grna dna表达构建体的区域中诱导使表达盒或转录的grna无功能的突变,可以任选地是可诱导或可阻遏的外部因子,或经由引入另一种分子。
[0162]
在方法的一个方面,创建与靶多核苷酸上的双链断裂相邻的切口(仅在两个磷酸骨架之一上切割双链dna)。在此方面的一个变异中,创建单个切口。在此方面的一个变异中,创建两个切口。在此方面的一个变异中,创建两个切口,每个位于dsb的两侧的侧翼。在一个实施例中,通过一种cas内切核酸酶创建双链断裂,并且通过不同的分子(例如,衍生自不同生物体的分子,或缺乏双链断裂创建功能但具有切口酶活性的cas内切核酸酶(例如,ncas9))创建一个或多个切口。由于存在一个或多个相邻切口,靶位点处dsb的双链断裂修复通过hdr进行修复的概率高于通过nhej进行修复的概率,或者与同一基因座处的没有一个或多个与dsb相邻的切口的dsb相比,hdr的频率更高。在一些方面,切口与dsb位点之间的距离的长度是10个碱基对、10与20个碱基对之间、20个碱基对、20与30个碱基对之间、30个碱基对、30与40个碱基对之间、40个碱基对、40与50个碱基对之间、50个碱基对、50与60个碱基对之间、60个碱基对、60与70个碱基对之间、70个碱基对、70与80个碱基对之间、80个碱基对、80与90个碱基对之间、90个碱基对、90与100个碱基对之间、100个碱基对、100与110个碱基对之间、110个碱基对、110与120个碱基对之间、或大于120个碱基对。
[0163]
除了提高hdr修复机制结果的概率之外,考虑使用本文所述的方法改进的其他dna修复结果包括基因靶向、基因编辑、基因退出、基因交换(缺失加插入)、和启动子交换(缺失加插入)。
[0164]
基因靶向
[0165]
本文所述的组合物和方法可用于基因靶向。
[0166]
通常,可以通过在具有与合适的指导多核苷酸组分缔合的cas内切核酸酶的细胞中的特异性多核苷酸序列处切割一条或两条链来进行dna靶向。一旦在dna中诱导单链断裂或双链断裂,则细胞的dna修复机制被激活来经由会导致靶位点处的修饰的非同源末端连接(nhej)、或同源定向修复(hdr)过程修复断裂。
[0167]
靶位点处的dna序列的长度可以变化,并且包括例如为至少12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30个或多于30个核苷酸长度的靶位点。还有可能靶位点可以是回文的,即,一条链上的序列与在互补链上以相反方向的读取相同。切口/切割位点可以在靶序列内,或者切口/切割位点可以在靶序列之外。在另一种变异中,切割可以发生在彼此正好相对的核苷酸位置处,以产生平端切割,或者在其他情况下,切口可以交错以产生单链突出端,也称为“粘性末端”,其可以是5

突出端抑或3

突出端。还可以使用基因组靶位点的活性变体。此类活性变体可以包含与给定靶位点至少65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性,其中所述活性变体保留生物活性,因此能够被cas内切核酸酶识别和切割。
[0168]
测量由内切核酸酶引起的靶位点的单链或双链断裂的测定是本领域已知的,并且通常测量试剂在包含识别位点的dna底物上的总体活性和特异性。
[0169]
本文的靶向方法能以例如在该方法中靶向两个或更多个dna靶位点的这样的方式进行。这种方法可以任选地被表征为多重方法。在某些实施例中,可以同时靶向两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个靶位点。多路复用方法典型地通过本文的靶向方法进行,其中提供了多个不同的rna组分,每一个被设计成将指导多核苷酸/cas内切核酸酶复合物引导到唯一的dna靶位点。
[0170]
基因编辑
[0171]
组合dsb和修饰模板来编辑基因组序列的过程通常包括:向宿主细胞引入dsb诱导剂或编码dsb诱导剂的核酸(识别染色体序列中的靶序列并且能够诱导基因组序列中的dsb),和与待编辑的核苷酸序列相比时包含至少一个核苷酸改变的至少一个多核苷酸修饰模板。多核苷酸修饰模板还可以包含侧翼于所述至少一个核苷酸变化的核苷酸序列,其中侧翼序列与侧翼于dsb的染色体区域基本同源。已经在例如以下中描述了使用dsb诱导剂(如cas-grna复合物)的基因组编辑:2015年3月19日公布的us 20150082478,2015年2月26日公布的wo 2015026886,2016年1月14日公布的wo 2016007347,以及于2016年2月18日公布的wo/2016/025131。
[0172]
已经描述了指导rna/cas内切核酸酶系统的一些用途(参见例如:2015年3月19日公开的us 20150082478 a1,2015年2月26日公开的wo 2015026886和2015年2月26日公开的us 20150059010)并且包括但不限于修饰或替换目的核苷酸序列(如调节元件)、目的多核苷酸插入、基因缺失、基因敲除、基因敲入、剪接位点的修饰和/或引入交替剪接位点、编码目的蛋白、氨基酸和/或蛋白融合物的核苷酸序列的修饰、以及通过在目的基因中表达反向重复序列引起的基因沉默。
[0173]
在一个实施例中,本发明描述了用于修饰细胞的基因组中的靶位点的方法,所述方法包括将至少一种cas内切核酸酶和指导rna引入细胞中,并鉴定在所述靶位点上具有修饰的至少一个细胞。
[0174]
待编辑的核苷酸可以位于由cas内切核酸酶识别和切割的靶位点的内部或外部。
在一个实施例中,该至少一个核苷酸修饰不是由cas内切核酸酶识别和切割的靶位点上的修饰。在另一个实施例中,该待编辑的至少一个核苷酸与基因组靶位点之间有至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、30、40、50、100、200、300、400、500、600、700、900或1000个核苷酸。
[0175]
可以通过插入缺失(通过nhej在靶dna序列中插入或缺失核苷酸碱基),或通过特异性去除在靶向位点处或其附近处降低或完全破坏序列功能的序列来产生敲除。
[0176]
在一个方面,本文公开的方法可采用同源重组(hr)以在靶位点处提供目的多核苷酸的整合。
[0177]
可以采用多种方法和组合物来产生具有经由本文所述的crispr-cas系统组分的活性插入靶位点的目的多核苷酸的细胞或生物。在本文所述的一种方法中,经由供体dna构建体,将目的多核苷酸引入生物体细胞。如本文所用,“供体dna”是dna构建体,其包括待插入到cas内切核酸酶的靶位点的目的多核苷酸。供体dna构建体进一步包含位于目的多核苷酸侧翼的同源的第一区域和第二区域。供体dna的同源的第一区域和第二区域分别与存在于细胞或生物体基因组的靶位点中或位于所述靶位点侧翼的第一和第二基因组区域共享同源性。
[0178]
供体dna可以与指导多核苷酸进行系链。系链的供体dna可以允许共定位靶标和供体dna,可用于基因组编辑、基因插入和靶向的基因组调节,并且还可以用于靶向有丝分裂后期细胞,在这些细胞中内源性hr机制的功能预计会大大降低(mali等人,2013,nature methods[自然方法]第10卷:957-963)。
[0179]
由靶和供体多核苷酸共享的同源性或序列同一性的量可以变化,并且包括总长度和/或在约1-20bp、20-50bp、50-100bp、75-150bp、100-250bp、150-300bp、200-400bp、250-500bp、300-600bp、350-750bp、400-800bp、450-900bp、500-1000bp、600-1250bp、700-1500bp、800-1750bp、900-2000bp、1-2.5kb、1.5-3kb、2-4kb、2.5-5kb、3-6kb、3.5-7kb、4-8kb、5-10kb,或多达并包括靶位点的总长度的范围内具有单位整数值的区域。这些范围包括所述范围内的每个整数,例如1-20bp的范围包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20bp。同源性的量也可以通过在两个多核苷酸的完整比对长度上的百分比序列同一性来描述,其包括约至少50%、55%、60%、65%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的百分比序列同一性。足够的同源性包括多核苷酸长度、总体百分比序列同一性,和任选地连续核苷酸的保守区域或局部百分比序列同一性的任何组合,例如,足够的同源性可以被描述为与靶标基因座的区域具有至少80%序列同一性的75-150bp的区域。足够的同源性也可以通过预测的两个多核苷酸在高严格条件下特异性杂交的能力来描述,参见例如sambrook等人,(1989)molecular cloning:a laboratory manual[分子克隆:实验室手册],(cold spring harbor laboratory press,ny[纽约州冷泉港实验室出版社]);current protocols in molecular biology[分子生物学实验指南],ausubel等人编辑(1994)current protocols[实验室指南],(greene publishing associates,inc.[格林出版联合公司]和john wiley&sons,inc.[约翰威利父子公司]);以及tijssen(1993)laboratory techniques in biochemistry and molecular biology
‑‑
hybridization with nucleic acid probes[生
物化学与分子生物学实验技术-与核酸探针杂交],(elsevier,new york[纽约爱思唯尔公司])。
[0180]
还可以将附加体dna分子连接至双链断裂中,例如,将t-dna整合至染色体双链断裂中(chilton和que,(2003)plant physiol[植物生理学]133:956-65;salomon和puchta,(1998)embo j.[欧洲分子生物学学会杂志]17:6086-95)。一旦双链断裂周围的序列被改变,例如被涉及双链断裂的成熟的外切核酸酶活性改变,则基因转换途径可以恢复原始结构,如果有同源序列的话,例如非分裂的体细胞中的同源染色体,或dna复制后的姊妹染色单体(molinier等人,(2004)plant cell[植物细胞]16:342-52)。异位的和/或表观遗传的dna序列还可以充当用于同源重组的dna修复模板(puchta,(1999)genetics[遗传学]152:1173-81)。
[0181]
在一个实施例中,本公开包含用于编辑细胞基因组中的核苷酸序列的方法,该方法包括引入至少一种本文所述的pgen和多核苷酸修饰模板,其中所述多核苷酸修饰模板包含所述核苷酸序列的至少一个核苷酸修饰,并且该方法任选地进一步包括选择至少一个包含经编辑的核苷酸序列的细胞。
[0182]
指导多核苷酸/cas内切核酸酶系统可以与至少一个多核苷酸修饰模板组合使用以允许编辑(修饰)目的基因组核苷酸序列。(还参见2015年3月19日公布的us 20150082478和2015年2月26日公布的wo 2015026886)。
[0183]
目的多核苷酸和/或性状可以在复杂性状基因座中堆叠在一起,如在2012年9月27日公布的wo 2012129373和2013年8月01日公布的wo 2013112686中所述。本文所述的指导多核苷酸/cas9内切核酸酶系统提供了用来产生双链断裂并允许将性状在复杂性状基因座中堆叠的有效系统。
[0184]
如本文所述的介导基因靶向的指导多核苷酸/cas系统可以在以下方法中使用,所述方法用于以类似于2012年9月27日公布的wo 2012129373中公开的方式引导异源基因插入和/或产生包含多个异源基因的复杂性状基因座,其中使用如本文公开的指导多核苷酸/cas系统来代替使用双链断裂诱导剂引入目的基因。通过将独立的转基因插入在彼此的0.1、0.2、0.3、0.4、0.5、1.0、2、或甚至5厘摩(cm)内,这些转基因可以作为单个遗传基因座进行育种(例如,参见2013年10月03日公布的us 20130263324或2013年3月14日公布的wo 2012129373)。在选择包含转基因的植物后,可以将包含(至少)一个转基因的植物进行杂交从而形成包含全部两个转基因的f1。在来自这些f1(f2或bc1)的后代中,1/500的后代将具有重组在相同的染色体上的两个不同的转基因。然后,可以将复合物基因座繁育为具有全部两个转基因性状的单遗传基因座。可以重复该过程以堆叠尽可能多的性状。
[0185]
已经描述了指导rna/cas内切核酸酶系统的进一步用途(参见例如:2015年3月19日公开的us 20150082478,2015年2月26日公开的wo 2015026886,2015年2月26日公开的us 20150059010,2016年1月14日公开的wo 2016007347,和2016年2月18日公开的pct申请wo 2016025131)并包括但不限于修饰或替换目的核苷酸序列(如调节元件)、目的多核苷酸插入、基因敲除、基因敲入、剪接位点的修饰和/或引入交替剪接位点、编码目的蛋白、氨基酸和/或蛋白融合物的核苷酸序列的修饰、以及通过在目的基因中表达反向重复序列引起的基因沉默。
[0186]
可以评估本文描述的基因编辑组合物和方法产生的特征。可以鉴定与目的表型或
性状相关的染色体区间。本领域熟知的多种方法可用于鉴定染色体区间。此类染色体区间的边界扩展到涵盖将与控制目的性状的基因连锁的标志物。换句话说,扩展染色体区间,这样使得位于区间内的任何标志物(包括限定区间的边界的末端标志物)可以用作特定性状的标志物。在一个实施例中,染色体区间包含至少一个qtl,并且此外,确实可以包含多于一个qtl。相同区间中非常接近的多个qtl可以搅乱特定标志物与特定qtl的关联,因为一个标志物可显示与多于一个qtl连锁。相反地,例如如果非常接近的两个标志物显示与期望表型性状共分离,则有时分不清楚是否那些标志物中的每一个鉴定相同qtl或两个不同的qtl。术语“数量性状基因座”或“qtl”是指在至少一种遗传背景下(例如在至少一个育种群体中),与数量表型性状的差异表达关联的dna区域。qtl的区域涵盖或紧密地连锁于影响所考虑的性状的一个或多个基因。“qtl的等位基因”可以包含在连续的基因组区域或连锁群中的多个基因或其他遗传因子,例如单倍型。qtl的等位基因可以表示在指定窗口内的单倍型,其中所述窗口是可以用一组的一个或多个多态性标志物定义和追踪的连续的基因组区域。单倍型可以指定被窗口内的每一标志物的等位基因的独特指纹定义。
[0187]
染色体重排
[0188]
通常染色体中的断裂被修复,恢复染色质的原始顺序。由于多个断裂可以同时发生,在一些罕见的情况下,它们的修复可能不正确,导致各种染色体畸变,例如缺失和倒位(如果两个dsb在同一条染色体上)或导致涉及不同染色体片段的易位。所有这些重排尽管很罕见,但已知是天然存在的,并且对于哺乳动物和植物物种都有据可查。这些随机改变对哺乳动物物种的福祉和生命最常产生有害影响。由于基因组的巨大可塑性和适应性,植物物种通常可以承受并积累此类重排。
[0189]
遗传重组是变异的主要来源,并且是常规植物育种的基础。然而,当发生大的染色体重排时,它们对同源染色体配对和重组的能力有显著的影响,导致将大量基因排除在重组过程之外。因此,受控的染色体重排,恢复了染色质的天然顺序,在许多方面可以是有益的,并且对植物育种计划有重大的影响。例如,用倒位恢复染色体的能力将开启这些区域的重组。可替代地,如果某些区域含有重要的性状基因并且它们的保留是优选的,则该区域的倒位将阻止重组并保存所需的基因型。
[0190]
此外,不同大小的缺失可用于绘制重要基因和数量性状基因座(qtl),而染色体间易位可用于将所需性状从野生种移动到优良基因型,而没有与连锁累赘关联的有害影响。靶向易位还可以允许在基因组内移动含有重要qtl的大的染色体片段。下面我们提供了这些类型的染色体重排的详细描述,以及crispr-cas技术可以如何用于促进所需结果的实例,从而为植物育种计划开辟了新的机会。
[0191]
许多类型的染色体重排可以用本文提供的方法和组合物实现,例如但不限于:大缺失、大倒位和基因重新定位。与其他重组修饰剂(诸如表观遗传修饰剂)相关联的双链断裂剂,提供了额外的工具来诱导靶向、高频染色体交换、易位和倒位。这些靶向重组事件增加了遗传增益并提供了额外的多样性。
[0192]
着丝粒周围或臂间通常指着丝粒两侧的染色体区域。
[0193]
在一些方面,染色体区段为至少约1kb,在1kb至10kb之间;至少约10kb,在10kb至20kb之间;至少约20kb,在20kb至30kb之间;至少约30kb,在30kb和40kb之间;至少约40kb,在40kb和50kb之间;至少约50kb,在50kb和60kb之间;至少约60kb,在60kb和70kb之间;至少
约70kb,在70kb至80kb之间;至少约80kb,在80kb至90kb之间;至少约90kb,在90kb至100kb之间;或大于100kb。在一些方面,该区段是至少约100kb,在100kb至150kb之间;至少约150kb,在150kb至200kb之间;至少约200kb,在200kb至250kb之间;至少约250kb,在250kb和300kb之间;至少约300kb,在300kb和350kb之间;至少约350kb,在350kb和400kb之间;至少约400kb,在400kb和450kb之间;至少约450kb,在450kb至500kb之间;至少约500kb,在500kb至550kb之间;至少约550kb,在550kb至600kb之间;至少约600kb,在600kb至650kb之间;至少约650kb,在650kb至700kb之间;至少约700kb,在700kb至750kb之间;至少约750kb,在750kb至800kb之间;至少约800kb,在800kb至850kb之间;至少约850kb,在850kb和900kb之间;至少约900kb,在900kb和950kb之间;至少约950kb,在950kb和1000kb之间;至少约1000kb,在1000kb和1050kb之间;至少约1050kb,在1050kb和1100kb之间;或大于1100kb。在一些方面,该区段是至少约1mb,在1mb和10mb之间;至少约10mb,在10mb和20mb之间;至少约20mb,在20mb和30mb之间;至少约30mb,在30mb和40mb之间;至少约40mb,在40mb和50mb之间;至少约50mb,在50mb和60mb之间;至少约60mb,在60mb和70mb之间;至少约70mb,在70mb至80mb之间;至少约80mb,在80mb至90mb之间;至少约90mb,在90mb至100mb;或大于100mb。
[0194]
细胞的重组构建体和转化
[0195]
可以将所公开的指导多核苷酸、cas内切核酸酶、多核苷酸修饰模板、供体dna、本文所公开的指导多核苷酸/cas内切核酸酶系统及其任意一种组合(可选地进一步包含一个或多个目的多核苷酸)引入细胞中。细胞包括但不限于人类、非人类、动物、细菌、真菌、昆虫、酵母、非常规酵母和植物细胞,以及通过本文所述的方法产生的植物和种子。
[0196]
本文使用的标准重组dna和分子克隆技术是在本领域熟知的,并且更全面地描述于sambrook等人,molecular cloning:a laboratory manual[分子克隆:实验室手册];cold spring harbor laboratory:cold spring harbor,ny[冷泉港实验室:冷泉港,纽约州](1989)中。转化方法是本领域技术人员熟知的并且在下文中进行了描述。
[0197]
载体和构建体包括环状质粒和包含目的多核苷酸的线状多核苷酸,以及任选地包括接头、衔接子、用于调节或分析的其他组分。在一些实例中,识别位点和/或靶位点可以包含在内含子、编码序列、5

utr、3

utr、和/或调节区内。
[0198]
用于在原核和真核细胞中表达和利用crispr-cas系统的组分
[0199]
本发明还提供了用于在原核或真核细胞/生物体中表达指导rna/cas系统的表达构建体,该指导rna/cas系统能够识别、结合靶序列的全部或部分并任选地使靶序列的全部或部分产生切口、解旋或切割靶序列的全部或部分。
[0200]
在一个实施例中,本发明的表达构建体包含与编码cas基因的核苷酸序列(或经植物优化的,包括本文所述的cas内切核酸酶基因)可操作地连接的启动子和与本公开的指导rna可操作地连接的启动子。该启动子能够驱动在原核或真核细胞/生物中可操作地连接的核苷酸序列的表达。
[0201]
指导多核苷酸、vt结构域和/或cer结构域的核苷酸序列修饰可以选自但不限于由以下组成的组:5

帽、3

聚腺苷酸尾、核糖开关序列、稳定性控制序列、形成dsrna双链体的序列、将指导多核苷酸靶向亚细胞位置的修饰或序列、提供跟踪的修饰或序列、为蛋白质提供结合位点的修饰或序列、锁核酸(lna)、5-甲基dc核苷酸、2,6-二氨基嘌呤核苷酸、2
′‑
氟代a核苷酸、2
′‑
氟代u核苷酸;2
′‑
o-甲基rna核苷酸、硫代磷酸酯键、与胆固醇分子的连接、
与聚乙二醇分子的连接、与间隔子18分子的连接、5’至3’共价连接、或其任何组合。这些修饰可以产生至少一个额外的有益特征,其中该额外的有益特征选自由以下组成的组:修改的或调节的稳定性、亚细胞靶向、跟踪、荧光标记、用于蛋白质或蛋白复合物的结合位点、对互补靶序列的修改的结合亲和力、修改的细胞降解抗性、和增加的细胞通透性。
[0202]
在真核细胞中表达rna组分(例如grna)用于进行cas9介导的dna靶向的方法已经使用rna聚合酶iii(pol iii)启动子,其允许具有精确定义的未修饰的5
’‑
和3
’‑
末端的rna转录(dicarlo等人,nucleic acids res.[核酸研究]41:4336-4343;ma等人,mol.ther.nucleic acids[分子治疗-核酸]3:e161)。此策略已经成功应用于若干不同物种(包括玉米和大豆)的细胞中(2015年3月19日公布的us 20150082478)。已经描述了用于表达并不具有5’帽的rna组分的方法(2016年2月18日公布的wo 2016/025131)。
[0203]
可以采用不同方法和组合物来获得细胞或生物体,所述细胞或生物体具有插入针对cas内切核酸酶的靶位点中的目的多核苷酸。此类方法可以采用同源重组(hr)以提供目的多核苷酸在靶位点处的整合。在本文所述的一种方法中,经由供体dna构建体,将目的多核苷酸引入生物体细胞。
[0204]
供体dna构建体进一步包含位于目的多核苷酸侧翼的同源的第一区域和第二区域。供体dna的同源的第一区域和第二区域分别与存在于细胞或生物体基因组的靶位点中或位于所述靶位点侧翼的第一和第二基因组区域共享同源性。
[0205]
供体dna可以与指导多核苷酸进行系链。系链的供体dna可以允许共定位靶标和供体dna,可用于基因组编辑、基因插入和靶向的基因组调节,并且还可以用于靶向有丝分裂后期细胞,在这些细胞中内源性hr机制的功能预计会大大降低(mali等人,2013,nature methods[自然方法]第10卷:957-963)。
[0206]
由靶和供体多核苷酸共享的同源性或序列同一性的量可以变化,并且包括总长度和/或在约1-20bp、20-50bp、50-100bp、75-150bp、100-250bp、150-300bp、200-400bp、250-500bp、300-600bp、350-750bp、400-800bp、450-900bp、500-1000bp、600-1250bp、700-1500bp、800-1750bp、900-2000bp、1-2.5kb、1.5-3kb、2-4kb、2.5-5kb、3-6kb、3.5-7kb、4-8kb、5-10kb,或多达并包括靶位点的总长度的范围内具有单位整数值的区域。这些范围包括所述范围内的每个整数,例如1-20bp的范围包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20bp。同源性的量也可以通过在两个多核苷酸的完整比对长度上的百分比序列同一性来描述,其包括至少约50%、55%、60%、65%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、98%至99%、99%、99%至100%或100%的百分比序列同一性。足够的同源性包括多核苷酸长度、总体百分比序列同一性,和任选地连续核苷酸的保守区域或局部百分比序列同一性的任何组合,例如,足够的同源性可以被描述为与靶标基因座的区域具有至少80%序列同一性的75-150bp的区域。足够的同源性也可以通过预测的两个多核苷酸在高严格条件下特异性杂交的能力来描述,参见例如sambrook等人,(1989)molecular cloning:a laboratory manual[分子克隆:实验室手册],(cold spring harbor laboratory press,ny[纽约州冷泉港实验室出版社]);current protocols in molecular biology[分子生物学实验指南],ausubel等人编辑(1994)current protocols[实验室指南],(greene publishing associates,inc.[格林出
版联合公司]和john wiley&sons,inc.[约翰威利父子公司]);以及tijssen(1993)laboratory techniques in biochemistry and molecular biology
‑‑
hybridization with nucleic acid probes[生物化学与分子生物学实验技术-与核酸探针杂交],(elsevier,new york[纽约爱思唯尔公司])。
[0207]
在给定的基因组区域和在供体dna上发现的相应的同源的区域之间的结构相似性可以是允许同源重组发生的任何程度的序列同一性。例如,由供体dna的“同源的区域”和生物体基因组的“基因组区域”共享的同源性或序列同一性的量可以是至少50%、55%、60%、65%、70%、75%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%序列同一性,这样使得序列进行同源重组
[0208]
供体dna上的同源的区域可以与靶位点侧翼的任何序列具有同源性。虽然在一些情况下,同源的区域与紧邻靶位点侧翼的基因组序列共享显著的序列同源性,但是应当认识到同源的区域可以被设计为与可能更靠近靶位点的5

或3

的区域具有足够的同源性。同源的区域还可以与靶位点的片段以及下游基因组区域具有同源性
[0209]
在一个实施例中,第一同源的区域进一步包含靶位点中的第一片段,并且第二同源的区域包含靶位点中的第二片段,其中第一片段和第二片段不同。
[0210]
目的多核苷酸
[0211]
在本文中进一步描述了目的多核苷酸,并且包括反映涉及作物发育的那些的商业市场和利益的多核苷酸。目的作物和市场发生变化,以及随着发展中国家打开国际市场,新作物和技术也将出现。此外,随着我们对农艺学性状和特征(例如产率和杂种优势增加)的理解逐渐深入,对用于基因工程的基因的选择将会相应变化。
[0212]
目的多核苷酸的一般类别包括,例如涉及信息的那些目的基因(诸如锌指),涉及通讯的那些基因(诸如激酶),以及涉及管家的那些基因(诸如热休克蛋白)。更特定的目的多核苷酸包括但不限于涉及具有农艺学重要性的性状的基因,这些具有农艺学重要性的性状例如但不限于:作物产量、谷粒质量、作物营养成分、淀粉和碳水化合物质量和数量的基因、连同影响籽粒大小、蔗糖载量、蛋白质量和数量、固氮和/或氮利用、脂肪酸和油组成的那些基因、编码赋予对非生物胁迫(例如干旱、氮、温度、盐度、毒性金属、或痕量元素)的抗性的蛋白质,或赋予对毒素(例如杀有害生物剂和除草剂)的抗性的那些蛋白质的基因、编码赋予对生物胁迫(例如真菌、病毒、细菌、昆虫和线虫的攻击以及与这些生物体相关的疾病的发展)的抗性的蛋白质的基因。
[0213]
除了使用传统的育种方法之外,还可以通过遗传方式改变农艺学上重要的性状(诸如油、淀粉、和蛋白质含量)。修饰包括增加油酸、饱和及不饱和油的含量、增加赖氨酸和硫的水平、提供必需氨基酸、以及还有对淀粉的修饰。
[0214]
目的多核苷酸序列可以编码涉及提供疾病或有害生物抗性的蛋白。“疾病抗性”或“有害生物抗性”意在是植物避免为植物-病原体相互作用后果的有害症状的发生。有害生物抗性基因可以编码对严重影响产率的有害生物的抗性,这些有害生物例如根虫、切根虫、欧洲玉米黍螟等。
[0215]“除草剂抗性蛋白”或由“除草剂抗性编码核酸分子”表达生成的蛋白包括这样的蛋白,其赋予细胞与未表达该蛋白的细胞相比耐受更高浓度除草剂的能力,或赋予细胞与
未表达该蛋白的细胞相比对某种浓度的除草剂耐受更长时段的能力。
[0216]
此外,认识到目的多核苷酸还可以包括与针对目的所靶向的基因序列的信使rna(mrna)的至少一部分互补的反义序列。构建反义核苷酸以与相应的mrna杂交。可以对该反义序列作出修饰,只要该序列与相应的mrna杂交并干扰相应的mrna的表达。在该方式中,可以使用与相应的反义序列具有70%、80%、或85%序列同一性的反义构建体。此外,反义核苷酸的部分可以用来破坏该靶基因的表达。通常,可以使用至少50个核苷酸、100个核苷酸、200个核苷酸、或更多个核苷酸的序列。
[0217]
目的多核苷酸还可以是表型标志物。表型标志物是可筛选或选择性标志物,其包括视觉标志物和选择性标志物,无论它是阳性还是阴性选择性标志物。可以使用任何表型标志物。具体地,可选择或可筛选标志物包含允许人们通常在特定条件下鉴定或选择包含它的分子或细胞或对其进行选择的dna区段。这些标志物可以编码活性,例如但不限于rna、肽或蛋白质的产生,或可以提供rna、肽、蛋白质、无机和有机化合物或组合物等的结合位点。
[0218]
选择性标志物的实例包括但不限于包含限制性内切酶位点的dna区段;编码对另外的毒性化合物提供抗性的产物的dna区段,所述毒性化合物包括抗生素,例如壮观霉素、氨苄青霉素、卡那霉素、四环素、basta、新霉素磷酸转移酶ii(neo)和潮霉素磷酸转移酶(hpt);编码在受体细胞中本身缺乏的产物的dna区段(例如,trna基因、营养缺陷型标志物);编码易于鉴定的产物的dna区段(例如,表型标志物如β-半乳糖苷酶,gus;荧光蛋白如绿色荧光蛋白(gfp)、青色(cfp)、黄色(yfp)、红色(rfp)和细胞表面蛋白);产生用于pcr的新引物位点(例如,以前未并列的两个dna序列的并列),包含通过限制性内切核酸酶或其他dna修饰酶、化学品等不起作用或起作用的dna序列;并且包含允许其鉴定的特异性修饰(例如,甲基化)所需的dna序列。
[0219]
另外的选择性标志物包括赋予除草剂化合物(例如磺酰脲、草胺磷、溴草腈、咪唑啉酮和2,4-二氯苯氧基乙酸酯(2,4-d))抗性的基因。参见例如,用于对磺酰脲、咪唑啉酮、三唑并嘧啶磺酰胺、嘧啶水杨酸和磺酰基氨基羰基-三唑啉酮(shaner和singh,1997,herbicide activity:toxicol biochem mol biol[除草剂活性:毒理学,生物化学,分子生物学]69-110);草甘膦抗性5-烯醇丙酮莽草酸-3-磷酸(epsps)(saroha等人,1998,j.plant biochemistry&biotechnology[植物生物化学&生物技术杂志]卷7:65-72)的抗性的乙酰乳酸合酶(als);
[0220]
目的多核苷酸包括与其他性状(例如但不限于除草剂抗性或本文描述的任何其他性状)组合堆叠或使用的基因。目的多核苷酸和/或性状可以在复杂性状基因座中堆叠在一起,如2013年10月03日公布的us 20130263324和2013年8月01日公布的wo/2013/112686中所述。目的多肽包括由本文描述的目的多核苷酸编码的蛋白或多肽。
[0221]
进一步提供了用于鉴定至少一个植物细胞的方法,该植物细胞在其基因组中包含在靶位点处整合的目的多核苷酸。可以使用多种方法来鉴定在靶位点处或靶位点附近插入到基因组中的那些植物细胞。此类方法可被认为是直接分析靶序列以检测靶序列中的任何变化,包括但不限于pcr方法、测序方法、核酸酶消化、dna印迹法、及其任何组合。参见例如,2009年5月21日公布的us 20090133152。所述方法还包括从包含整合至其基因组中的目的多核苷酸的植物细胞重新获得植物。所述植物可以是不育的或可育的。应当认识到,可以提
供任何目的多核苷酸,将该多核苷酸在靶位点处整合到植物的基因组中,并在植物中表达。
[0222]
用于在植物中表达的序列的优化
[0223]
例如,这些序列修饰包括消除:编码假多聚腺苷酸化信号的一个或多个序列、一个或多个外显子-内含子剪接位点信号、一个或多个转座子样重复、以及其他可能对基因表达有害的此类良好表征的序列。可以将序列的g-c含量调节至通过参考宿主植物细胞中表达的已知基因而计算出的给定植物宿主的平均水平。当可能时,修饰序列以避免出现一个或多个预测的发夹二级mrna结构。因此,本公开的“植物优化的核苷酸序列”包括一个或多个此类序列修饰。
[0224]
表达元件
[0225]
可将编码cas蛋白,其他crispr系统组分或本文公开的其他多核苷酸的任何多核苷酸功能性地连接至异源表达元件,以促进宿主细胞中的转录或调节。此类表达元件包括但不限于:启动子、前导子、内含子和终止子。表达元件可以是“最小的
”‑
意指衍生自天然来源的较短序列,其仍充当表达调节子或修饰子起作用。可替代地,表达元件可以是“优化的
”‑
意指其多核苷酸序列已经从其天然状态改变,以便在特定宿主细胞中以更期望的特征起作用(例如但不限于,可以将细菌启动子进行“玉米优化”以改善其在玉米植物中的表达)。可替代地,表达元件可以是“合成的
”‑
意指其是用计算机设计的并且被合成用于在宿主细胞中使用。合成的表达元件可以是完全合成的或部分合成的(包含天然存在的多核苷酸序列的片段)。
[0226]
已经显示某些启动子能够以比其他启动子更高的速率引导rna合成。这些被称为“强启动子”。已经显示某些其他启动子仅以较高的水平在特定类型的细胞或组织中指导rna合成,并且如果所述启动子优选在某些组织中而且还以降低的水平在其他组织中指导rna合成则通常将其称为“组织特异性启动子”或“组织偏好性启动子”。
[0227]
植物启动子包括能够在植物细胞中启动转录的启动子。对于植物启动子的综述,参见potenza等人,2004,in vitro cell dev biol[体外细胞与发育生物学]40:1-22;porto等人,2014,molecular biotechnology[分子生物技术](2014),56(1),38-49。
[0228]
组成型启动子包括,例如,核心camv 35s启动子(odell等人,(1985)nature[自然]313:810-2);稻肌动蛋白(mcelroy等人,(1990)plant cell[植物细胞]2:163-71);泛素(christensen等人,(1989)plant mol biol[植物分子生物学]12:619-32;als启动子(美国专利号5,659,026)等。组织偏好性启动子可以用于靶向特定植物组织内的增强的表达。种子偏好性启动子包括在种子发育期间有活性的种子特异性启动子以及在种子发芽期间有活性的种子发芽性启动子两者。可以使用化学品诱导型(调节型)启动子以通过应用外源化学调节剂来调节原核和真核细胞或生物体中的基因表达。在应用化学品诱导基因表达的情况下启动子可以是化学品诱导型启动子,或者在应用化学品阻抑基因表达的情况下启动子可以是化学品阻抑型启动子。在被病原体感染后诱导的病原体诱导型启动子包括但不限于调节pr蛋白、sar蛋白、β-1,3-葡聚糖酶、几丁质酶等的表达的启动子。胁迫诱导型启动子包括rd29a启动子(kasuga等人(1999)nature biotechnol[自然生物技术].17:287-91)。本领域技术人员熟悉模拟胁迫条件(如干旱、渗透胁迫、盐胁迫、和温度胁迫)并评价植物的胁迫耐受性的规程,所述植物已经遭受了模拟的或天然存在的胁迫条件。
[0229]
不断发现在植物细胞中有用的不同类型的新启动子;许多实例可以在okamuro和
goldberg,(1989)the biochemistry of plants[植物生物化学],第115卷,stumpf和conn编辑(纽约,纽约州:学术出版社)1-82页的汇编中发现。
[0230]
形态发生因子
[0231]
形态发生因子(基因或蛋白质)-也称为“发育基因
”‑
可能参与植物代谢、器官发育、干细胞发育、细胞生长刺激、器官发生、体细胞胚胎发生的起始、体细胞胚成熟的加速、顶端分生组织的起始和/或发育、芽分生组织的起始和/或发育、或其组合。一种或多种形态发生因子的引入可以提高转化或胚胎发生的频率或效率。
[0232]
在一些方面,形态发生因子是从以下类别中一种或多种选择的分子:1)细胞周期刺激性多核苷酸,其包括植物病毒复制酶基因,例如repa、细胞周期蛋白、e2f、prolifera、cdc2和cdc25;2)发育多核苷酸,例如lec1、kn1家族、wuschel(wus)、zwille、bbm(babyboom)、aintegumenta(ant)、fus3,以及打结家族(knotted family)的成员(例如kn1、stm、osh1和sbh1);3)抗凋亡多核苷酸,例如ced9、bcl2、bcl-x(l)、bcl-w、a1、mcl-1、mac1、boo和bax抑制剂;4)激素多核苷酸,例如ipt、tzs和cki-1;以及5)针对以下的沉默构建体:细胞周期阻遏子(例如rb,ckl,阻抑素(prohibitin)和wee1)或凋亡刺激子(例如apaf-1、bad、bax、ced-4和半胱天冬酶-3),以及植物发育转变的阻遏子,例如pickle和wd聚梳基因,包括fie和medea。可以通过任何已知的方法使多核苷酸沉默,例如反义、rna干扰、共阻遏、嵌合体成形术或转座子插入。在一些方面,形态发生基因是wus/wox基因家族的成员(wus1、wus2、wus3、wox2a、wox4、wox5或wox9),参见美国专利7,348,468和7,256,322以及美国专利申请公布号20170121722和20070271628。在一些实施例中,形态发生基因或蛋白是ap2/erf蛋白家族的成员。在一些实施例中,形态发生因子是babyboom(bbm)多肽,其是ap2家族转录因子的成员。
[0233]
将系统组分引入细胞
[0234]
本文所述的方法不取决于用于将序列引入生物体或细胞中的具体方法,只要多核苷酸或多肽进入生物体的至少一个细胞的内部即可。引入包括提及将核酸并入真核或原核细胞,其中核酸可被并入细胞的基因组,并包括提及瞬时(直接)提供核酸、蛋白质或多核苷酸-蛋白复合物(pgen、rgen)到细胞。
[0235]
用于将多核苷酸或多肽或多核苷酸-蛋白复合物引入细胞或生物体的方法是本领域已知的,这些方法包括但不限于显微注射、电穿孔、稳定转化法、瞬时转化法、弹道粒子加速(粒子轰击)、晶须介导的转化、农杆菌(agrobacterium)介导的转化、直接基因转移、病毒介导的引入、转染、转导、细胞穿透肽、介孔二氧化硅纳米粒子(msn)介导的直接蛋白质递送、局部应用、有性杂交、有性育种及其任意组合。
[0236]
例如,指导多核苷酸(指导rna,cr核苷酸+tracr核苷酸,指导dna和/或指导rna-dna分子)可以作为单链或双链多核苷酸分子直接引入细胞(瞬时地)。指导rna(或crrna+tracrrna)还可以通过引入包含编码指导rna(或crrna+tracrrna)的异源核酸片段的重组dna分子被间接引入细胞中,该指导rna与能够在所述细胞中转录该指导rna(crrna+tracrrna分子)的特异性启动子可操作地连接。特异性启动子可以是但不限于rna聚合酶iii启动子,其允许具有精确定义的、未修饰的5
′‑
和3
′‑
末端的rna转录(ma等人,2014,mol.ther.nucleic acids[分子治疗-核酸]3:e161;dicarlo等人,2013,nucleic acids res.[核酸研究]41:4336-4343;2015年2月26日公布的wo 2015026887)。可以使用能够在细
胞中转录指导rna的任何启动子,并且这些启动子包括可操作地连接到编码指导rna的核苷酸序列的热休克/热可诱导的启动子。
[0237]
本文中的cas内切核酸酶,诸如本文所述的cas内切核酸酶可以通过直接引入cas多肽本身(称为cas内切核酸酶的直接递送)、编码cas蛋白的mrna和/或指导多核苷酸/cas内切核酸酶复合物本身,使用本领域已知的任何方法而引入细胞中。cas内切核酸酶也可以通过引入编码cas内切核酸酶的重组dna分子间接引入细胞中。使用本领域已知的任何方法,可以瞬时地将内切核酸酶引入细胞中,或可以将内切核酸酶并入宿主细胞的基因组中。可以用如在2016年5月12日公布的wo 2016073433中描述的细胞穿透肽(cpp),促进内切核酸酶和/或指导的多核苷酸摄取进入细胞。可以使用能够在细胞中表达cas内切核酸酶的任何启动子,并且这些启动子包括可操作地连接到编码cas内切核酸酶的核苷酸序列的热休克/热可诱导的启动子。
[0238]
将多核苷酸修饰模板直接递送到植物细胞中可以通过粒子介导递送来实现,并且任何其他直接递送方法,诸如但不限于聚乙二醇(peg)介导的原生质体转染、晶须介导的转化、电穿孔、粒子轰击、细胞穿透肽或介孔二氧化硅纳米粒子(msn)介导的直接蛋白递送可以成功地用于在真核细胞(诸如植物细胞)中递送多核苷酸修饰模板。
[0239]
可以通过本领域已知的任何手段引入供体dna。可以通过本领域已知的任何转化方法(包括,例如农杆菌介导的转化或生物射弹粒子轰击)提供供体dna。供体dna可以瞬时地存在于细胞中,或可以经由病毒复制子引入。在cas内切核酸酶和靶位点的存在下,将供体dna插入到转化植物的基因组中。
[0240]
指导的cas系统组分中的任何一个的直接递送可以伴随着可以促进接受指导多核苷酸/cas内切核酸酶复合物组分的细胞的富集和/或可视化的其他mrna的直接递送(共递送)。例如,指导多核苷酸/cas内切核酸酶组分(和/或指导多核苷酸/cas内切核酸酶复合物本身)与编码表型标志物(诸如但不限于转录激活剂诸如crc(bruce等人2000the plant cell[植物细胞]12:65-79))的mrna直接共递送可以通过恢复无功能基因产物的功能而不使用外源性选择性标志物来实现细胞的选择和富集,如在2017年4月27日公布的wo 2017070032中所述。
[0241]
将本文所述的指导rna/cas内切核酸酶复合物(代表本文所述的切割就绪的cascade)引入细胞中包括将所述复合物的各组分单独地或组合地引入细胞中,并且直接地(作为rna(对于指导物)和蛋白(对于cas内切核酸酶和蛋白亚基或其功能性片段)直接递送)或经由表达这些组分(指导rna、cas内切核酸酶、蛋白亚基或其功能性片段)的重组构建体引入。将指导rna/cas内切核酸酶复合物(rgen)引入细胞中包括将该指导rna/cas内切核酸酶复合物作为核糖核苷酸-蛋白质引入细胞中。可以将该核糖核苷酸-蛋白质在引入如本文所述的细胞中之前进行组装。包含指导rna/cas内切核酸酶核糖核苷酸蛋白(至少一种cas内切核酸酶、至少一种指导rna、至少一种蛋白亚基)的组分可以在体外组装或在引入细胞(靶向用于如本文所述的基因组修饰)之前通过本领域已知的任何方法组装。
[0242]
植物细胞与人和动物细胞的不同之处在于,植物细胞含有植物细胞壁,其可以作为核糖核蛋白的直接递送和/或这些组分的直接递送的屏障。
[0243]
将包含cas内切核酸酶蛋白和指导rna的核糖核蛋白直接递送到植物细胞中可以通过粒子介导的递送(粒子轰击)来实现。基于本文所述的实验,技术人员现在可以预想任
何其他直接递送方法(诸如但不限于聚乙二醇(peg)介导的对原生质体的转染、电穿孔、细胞穿透肽或介孔二氧化硅纳米粒子(msn)介导的直接蛋白递送)都可以成功用于将rgen核糖核蛋白递送到植物细胞中。
[0244]
核糖核蛋白的直接递送允许在细胞的基因组中的靶位点处进行基因组编辑,其后可以迅速降解复合物,并且仅允许细胞中短暂存在该复合物。复合物的这种短暂存在可能导致脱靶效应降低。相比之下,经由质粒dna序列递送组分(指导rna、cas9内切核酸酶)可以导致从这些质粒的恒定表达,该恒定表达在一些情况下可以促进脱靶切割(cradick,t.j.等人(2013)nucleic acids res[核酸研究]41:9584-9592;fu,y等人(2014)nat.biotechnol.[自然生物技术]31:822-826)。
[0245]
直接递送可以通过将指导rna/cas内切核酸酶复合物(代表本文所述的切割就绪的cascade)的任何一种组分(诸如至少一种指导rna、至少一种cas蛋白、和任选地至少一种另外蛋白)与包含微粒子(诸如但不限于金粒子、钨粒子、和碳化硅晶须粒子)的粒子递送基质组合来实现(还参见2017年4月27日公布的wo 2017070032)。
[0246]
在一个方面,指导多核苷酸/cas内切核酸酶复合物是复合物,其中形成所述指导rna/cas内切核酸酶复合物的指导rna和cas内切核酸酶蛋白分别作为rna和蛋白引入细胞。
[0247]
在一个方面,指导多核苷酸/cas内切核酸酶复合物是复合物,其中形成该指导rna/cas内切核酸酶复合物的指导rna和cas内切核酸酶蛋白和cascade的至少一个蛋白亚基分别作为rna和蛋白引入细胞。
[0248]
在一个方面,指导多核苷酸/cas内切核酸酶复合物是复合物,其中形成该指导rna/cas内切核酸酶复合物(切割就绪的cascade)的指导rna和cas内切核酸酶蛋白和cascade的至少一个蛋白亚基在体外预组装并作为核糖核苷酸-蛋白复合物引入细胞中。
[0249]
可替代地,可以通过使细胞或生物体与病毒或病毒核酸接触来将多核苷酸引入细胞中。通常,此类方法涉及将多核苷酸并入病毒dna或rna分子内。在一些实例中,可以最初将目的多肽作为病毒多聚蛋白的一部分合成,然后将合成的多肽在体内或在体外通过蛋白水解加工从而产生所希望的重组蛋白。用于将多核苷酸引入植物,并且表达在其中编码的蛋白质(涉及病毒dna或rna分子)的方法是已知的,参见例如,美国专利号5,889,191、5,889,190、5,866,785、5,589,367、以及5,316,931。
[0250]
可以使用多种瞬时转化方法,将多核苷酸或重组dna构建体提供至或引入原核和真核细胞或生物体中。这种瞬时转化法包括但不限于将多核苷酸构建体直接引入植物中。
[0251]
可以通过任何方法将核酸和蛋白提供至细胞,该方法包括使用分子来促进指导的cas系统(蛋白质和/或核酸)的任何或所有组分(诸如细胞穿透肽和纳米载剂)的摄取的方法。还参见2011年2月10日公布的us 20110035836和2015年1月07日公布的ep 2821486 a1。
[0252]
可以使用将多核苷酸引入原核和真核细胞或生物体或植物部分中的其他方法,包括质体转化方法,以及用于将多核苷酸引入来自幼苗或成熟种子的组织中的方法。
[0253]“稳定转化”旨在意指将引入生物体中的核苷酸构建体整合到该生物体的基因组中,并且能够被其后代遗传。“瞬时转化”旨在表示将多核苷酸引入该生物体中并且不整合到该生物体的基因组中,或者将多肽引入生物体中。瞬时转化表明所引入的组合物仅在生物体中暂时表达或存在。
[0254]
可以使用多种方法来鉴定在靶位点处或靶位点附近具有改变的基因组的那些细
tuberosum))。
[0264]
可以使用的另外的植物包括红花(safflower、carthamus tinctorius)、甘薯(番薯(ipomoea batatas))、木薯(cassava,manihot esculenta)、咖啡(咖啡属物种(coffea spp.))、椰子(coconut,cocos nucifera)、柑橘树(柑橘属物种(citrus spp.))、可可(cocoa,theobroma cacao)、茶树(tea,camellia sinensis)、香蕉(芭蕉属物种(musa spp.))、鳄梨(avocado,persea americana)、无花果(fig,ficus casica))、番石榴(guava,psidium guajava)、芒果(mango,mangifera indica)、橄榄(olive,olea europaea)、木瓜(番木瓜(carica papaya))、腰果(cashew,anacardium occidentale)、澳洲坚果(macadamia,macadamia integrifolia)、巴旦杏(almond,prunus amygdalus)、甜菜(sugar beets,beta vulgaris)、蔬菜、观赏植物、和针叶树。
[0265]
可以使用的蔬菜包括番茄(lycopersicon esculentum)、莴苣(例如,莴苣(lactuca sativa))、青豆(菜豆(phaseolus vulgaris))、利马豆(lima bean,phaseolus limensis)、豌豆(香豌豆属物种(lathyrus spp.))和黄瓜属的成员诸如黄瓜(cucumber,c.sativus)、香瓜(cantaloupe,c.cantalupensis)、和甜瓜(musk melon,c.melo)。观赏植物包括杜鹃(杜鹃花属物种(rhododendron spp.))、八仙花(macrophylla hydrangea)、朱槿(hibiscus rosasanensis)、玫瑰(蔷薇属物种(rosa spp.))、郁金香(郁金香属物种(tulipa spp.))、水仙(水仙属物种(narcissus spp.))、矮牵牛(petunia hybrida)、康乃馨(dianthus caryophyllus)、一品红(euphorbia pulcherrima)、和菊花。
[0266]
可以使用的针叶树包括松树,诸如火炬松(loblolly pine,pinus taeda)、湿地松(slash pine,pinus elliotii)、西黄松(ponderosa pine,pinus ponderosa)、黑松(lodgepole pine,pinus contorta)、和辐射松(monterey pine,pinus radiata);花旗松(douglasfir,pseudotsuga menziesii);西方铁杉(western hemlock,tsuga canadensis);北美云杉(sitka spruce,picea glauca);红杉(redwood,sequoia sempervirens);枞树(true firs),如银杉(胶冷杉(abies amabilis))和胶枞(香脂冷杉(abies balsamea));以及雪松,如西方红雪松(thuja plicata)和阿拉斯加黄雪松(chamaecyparis nootkatensis)。
[0267]
在本公开的某些实施例中,可育植物是产生活雄配子和雌配子并且是自身可育的植物。这种自身可育的植物可以产生后代植物,而没有来自任何其他植物的配子及其中所含的遗传物质的贡献。本公开的其他实施例可以涉及使用非自身可育的植物,因为该植物不产生有活力的或在其他情况下能够受精的雄配子或雌配子或二者。本公开可用于包含一个或多个引入性状或经编辑的基因组的植物的育种。
[0268]
在一个实施例中,交换率或交换频率增加。在一个实施例中,交换分布在重组不活跃的基因组区域中提高。在减数分裂期间双链断裂(dsb)的靶向引入在作物植物中诱导同源重组,其中与对照作物植物相比,大的染色体片段被重组。在一个实施例中,cas内切核酸酶(例如,dcas9)指导负责双链断裂(即,不是可编程核酸酶介导的断裂)的因子的dna结合能力增加交换频率和/或分布。
[0269]
如下描述两个性状如何以彼此之间例如5cm的遗传距离堆叠到基因组中的非限制性实例:将包含整合到基因组窗口内的第一dsb靶位点中且不具有第一目的基因组基因座的第一转基因靶位点的第一植物与第二转基因植物杂交,所述第二转基因植物在基因组窗
口内的不同基因组插入位点处包含目的基因组基因座,并且所述第二植物不包含所述第一转基因靶位点。来自该杂交的约5%的植物后代将基因组窗口内具有整合到第一dsb靶位点中的第一转基因靶位点和整合在不同基因组插入位点处的第一目的基因组基因座。在定义的基因组窗口中具有两个位点的后代植物可以进一步与第三转基因植物杂交,所述第三转基因植物在定义的基因组窗口内包含整合到第二dsb靶位点中的第二转基因靶位点、和/或第二目的基因组基因座并且缺乏所述第一转基因靶位点和所述第一目的基因组基因座。然后选择具有在基因组窗口内的不同基因组插入位点处整合的第一转基因靶位点、第一目的基因组基因座和第二目的基因组基因座的后代。此类方法可用于产生包含复杂性状基因座的植物,所述复杂性状基因座具有至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、19、19、20、21、22、23、24、25、26、27、28、29、30、31或更多个整合到dsb靶位点中的转基因靶位点和/或整合在基因组窗口内的不同位点的目的基因组基因座。以这种方式,可以产生各种复杂性状基因座。
[0270]
在某些实施例中,本文提供的方法和组合物使nhej介导的修复成为可能并进一步使体细胞同源重组事件成为可能。这些事件包括基因转换和交换。使用crispr-cas机制来诱导靶向的dsb影响作物植物中同源染色体之间的重组。
[0271]
在另一个实施例中,通过同源重组介导的体细胞重组获得来自遗传上不同的种质的作物植物的杂交体的用途,该种质含有目的基因中杂合突变(或目的qtl中的snp)。
[0272]
在某些实施例中,通过nhej进行的同源染色体之间的重组可能优于同源重组介导的重组。例如,两个同源染色体中的同时dsb诱导增加了nhej对遗传物质的相互染色体交换。
[0273]
通常使用非同源末端连接(nhej)或同源定向修复(hdr)途径修复染色体dna中的双链断裂(dsb),恢复染色质的原始顺序。由于多个dsb可以同时发生,在一些情况下,它们的修复可导致大染色体畸变,例如缺失、重复和倒位(如果在同一条染色体中发生两个断裂),或者导致涉及不同染色体片段的相互或非相互易位和染色体融合。尽管不常见,但已知这些类型的随机染色体重排会自发发生,并被认为是植物适应和物种形成的重要元件。然而,染色体中靶向或诱导的dsb不会自然发生或自发发生,也不会以实际的频率发生。
[0274]
发现或检测玉米近交系之间大规模染色体重排的能力先前已受到多种因素的阻碍,诸如依赖基于参考的方法来构建新的参考基因组,以及需要遗传标志物将重叠群/支架放入假分子中。此外,缺乏用于从头开始生成参考基因组的稳健的高通量过程,使得无法对许多存在大的染色体重排的品系进行表征。本文使用诸如玉米的作物植物的高质量染色体规模基因组组装来阐明和绘制大规模染色体重排,将其与错误组装区分开来。染色体重排是自发的和不可预测的,因此不能可靠地用于育种计划。
[0275]
连锁累赘通常是指产量减少(或显示不利的目的表型)是由各性状之间不太理想的遗传交换引起的。因此,连锁不平衡中的性状或位于同一染色体上紧密连锁区域内的性状通常是遗传连锁的。交换和倒位的靶向诱导使这些连锁能够被利用或破坏。在同源染色体之间的异源、诱导交换可以断裂由紧密物理接近或以其他方式的连锁不平衡连接的性状连锁。可替代地,诱导的人工交换用于通过组合同一染色体上的性状,使其处于染色体紧密接近来建立新的连锁群。异源诱导的倒位通过促进连锁群实质上减少了来自遗传交换的区域。两种染色体重排都为以靶向方式控制和操纵天然重组全景图铺道平了道路。
a1)。类似地,在位于两条不同染色体上的两个区域/基因座之间的相互作用通常是有限的,并且染色体之间的染色体重排频率很低。
[0285]
实例2:农杆菌介导的玉米植物转化
[0286]
在该实例中,描述了经由农杆菌介导转化未成熟玉米胚。可以理解,类似的方案可以用于其他植物的转化,例如(但不限于):大豆、棉花、卡诺拉油菜、小麦、稻、高粱或向日葵。
[0287]
制备农杆菌母板。
[0288]
从-80℃冷冻等分试样中将带有二元供体载体的根癌农杆菌划线到固体12v培养基中,并在黑暗中于28℃培养2-3天,制成母板。
[0289]
在固体培养基上生长农杆菌。
[0290]
从母板上挑出单个或多个农杆菌菌落,并将其划线到包含810i培养基的第二板上,并在黑暗中于28℃孵育过夜。
[0291]
将农杆菌感染培养基(700培养基a;5ml)添加到通风橱中的14ml锥形管中。将来自第二板的约3个满环的农杆菌悬浮在管中,并然后将管涡旋以形成均匀的悬浮液。将1ml转移到分光光度计管中,并将悬浮液的光密度(550nm)调整为约0.35-1.0的读数。农杆菌浓度为约0.5到2.0
×
109cfu/ml。将最终的农杆菌悬浮液等分到2ml微量离心管中,每个管含有约1ml悬浮液。然后尽快使用悬浮液。
[0292]
在液体培养基中生长农杆菌。
[0293]
可替代地,可以通过在液体培养基中生长来制备农杆菌用于转化。感染前一天,用30ml的557a培养基(10.5g/l磷酸氢二钾、4.5g/l无水磷酸二氢钾、1g/l硫酸铵、0.5g/l脱水柠檬酸钠、10g/l蔗糖、1mm硫酸镁)和30μl壮观霉素(50mg/ml)制备125ml烧瓶。将来自第二板的半环农杆菌悬浮到烧瓶中,并置于设定为200rpm的定轨振荡器上,并在28℃下孵育过夜。将农杆菌培养物以5000rpm离心10min。去除上清液并添加农杆菌感染培养基。通过涡旋使细菌重悬浮,并将农杆菌悬浮液的光密度(550nm)调整为约0.35至2.0的读数。
[0294]
玉米转化
[0295]
将玉米(玉蜀黍)栽培品种的穗在20%(v/v)漂白剂(5.25%次氯酸钠)加1滴tween 20中进行表面灭菌15-20分钟,然后在无菌水中洗涤3次。从穗分离未成熟胚(ie),并将其置于2ml农杆菌感染培养基中。胚的最佳大小因近交系而异,但是对于用wus2和odp2转化,可以使用大范围的未成熟胚大小。吸出溶液,向胚中添加1ml的农杆菌悬浮液,将试管涡旋5-10秒。使微量离心管在通风橱中静置5min。将农杆菌悬浮液和胚倾倒在710i(或562v)共培养培养基(参见表2)上。使用无菌刮刀将留在管中的任何胚转移到平板上。抽取农杆菌悬液并将胚置于培养基的轴侧。将平板用parafilm薄膜(防潮柔性塑料,可在比米斯公司,尼纳中心1号4层,邮政信箱669,尼纳,威斯康星州54957(bemis company,inc.,1neenah center 4
th floor,po box 669,neenah,wi 54957)中获得)密封并在21℃在黑暗中进行孵育1-3天的共培养。
[0296]
胚无需选择即可转移到静止培养基(605t培养基)中。3至7天后,将其转移至补充有选择剂的成熟培养基(289q培养基)中
[0297]
实例3:形态发生因子提高转化频率
[0298]
形态发生因子基因(也称为“发育基因”,例如但不限于:odp2和wus)是转化过程的
所需组份:它们递送到植物细胞中有助于细胞分裂并显着提高转化频率。而且,这些基因可以成功转化许多以其他方式无法有效地完成转化的优良基因型或优良作物种质。可以修改转化方案的参数以确保bbm活性是瞬时的。一种这样的方法涉及例如通过使用化学品pei,以允许转录和表达、但是排除随后的dna释放的方式沉淀包含bbm的质粒。在一个实例中,用pei将bbm质粒沉淀到金粒子上,同时使用标准的氯化钙方法将待整合的转基因表达盒(ubi:mopat~gfpm::pinii;mopat是玉米优化的pat基因)沉淀到金粒子上。
[0299]
以此方式,pei沉淀可以用于递送bbm和/或wus2的瞬时表达。例如,首先使用pei将粒子用ubi:bbm:pinii包被,然后使用水溶性阳离子脂质转染试剂将粒子用ubi::mopat~yfp包被,并且然后轰击到未成熟胚的表面上的盾片细胞中。pei介导的沉淀导致在未成熟胚表面上瞬时表达细胞的频率较高,并且稳定转化体的回收率极低。因此,预期在没有稳定的基因组整合的情况下pei沉淀的bbm盒瞬时表达并刺激组织的轰击表面(即盾片表面)上的胚胎生长爆发。预期从ca++/金粒子释放的pat~gfp质粒以导致转基因事件回收率大幅度提高的频率整合并表达选择性标志物。作为对照处理,将包含ubi:gus:pinii(而不是bbm)的pei沉淀的粒子与pat~gfp/ca++粒子混合。将来自这两种处理的未成熟胚移至含有3mg/l双丙氨膦的培养基上。在6-8周后,预期在pei/bbm处理中以相对于对照处理(pei/gus)高得多的频率观察到gfp+、双丙氨膦抗性愈伤组织。
[0300]
作为一种替代方法,将bbm质粒用pei沉淀到金粒子上,并且然后引入未成熟胚表面上的盾片细胞中,并随后bbm基因的瞬时表达引起胚生长的快速增殖。在这个诱导生长期间,使用针对玉米的标准方法(参见实例1)用农杆菌处理外植体,其中t-dna递送到引入转基因表达盒(如ubi::mopat~gfpm::pinii)的细胞中。在共培养后,允许外植体在正常培养基上回收,并且然后移至含有3mg/l双丙氨膦的培养基上。在6-8周后,预期在pei/bbm处理中将以相对于对照处理(pei/gus)高得多的频率观察到gfp+、双丙氨膦抗性愈伤组织。通过瞬时表达bbm和/或wus2多核苷酸产物来“启动(kick start)”愈伤组织生长可能是期望的。这可以通过递送bbm和wus2 5

加帽的聚腺苷酸化的rna、含有bbm和wus2 dna的表达盒、或bbm和/或wus2蛋白来完成。
[0301]
使用形态发生因子,例如bbm和/或wus,有几个优点。首先,某些基因型难以适应某些类型的转化。其次,迫使细胞分裂会增加成功结果的机会,因为它会激活dsb修复机制。第三,在细胞核中的染色体定位不是随机的,而是占据特定于细胞类型和组织类型的特定领地(图11)。此外,染色质组织和相互作用是不同的,取决于特定的细胞周期阶段。例如,g1阶段是转录活性的,并且与长程接触相比特征在于短程染色体内接触(图10)。通过将hi-c数据与细胞周期进程相关联,证实了在间期期间局部接触的普遍存在以及在有丝分裂和g1早期期间远程有丝分裂接触的富集。因此,推动细胞复制(s期)和细胞分裂的形态发生基因的表达可能会增加“不正确”dsb修复和产生所需染色体重排的机会。
[0302]
其他细胞周期蛋白和转录因子也可能有助于成功的结果。
[0303]
实例4:改进育种方法并增加植物中重组频率的染色体倒位
[0304]
染色体倒位抑制具有不同方向的倒位区域的染色体之间的重组。在作物物种(包括玉米、大豆、卡诺拉油菜、向日葵)以及它们未驯化的近缘种中存在染色体倒位的多个实例。遗传重组允许育种者选择遗传增益,因为它在遗传连锁的基因座处创造了新的等位基因组合。例如,一个品系在第一基因座处具有有利等位基因,在第二基因座处具有不利等位
基因,而另一个品系在第一基因座处具有不利等位基因,在第二基因座处具有有利等位基因,并且等位基因在同一染色体或连锁群上是遗传连锁的。然后,由于亲本染色体之间遗传重组,所以使这两个品系杂交,允许育种者选择在两个基因座处都携带有利等位基因的f1后代。不利和有利等位基因位于同一染色体上的情况称为排斥相连锁,有利等位基因位于同一染色体上的情况称为偶联相连锁。因此,染色体倒位通过将排斥相连锁转化为偶联相连锁来抑制重组并减少遗传增益。
[0305]
减数分裂重组可以在含有成杂合状态的等位基因或遗传区段的杂交体中恢复。在杂交背景中恢复交换率。逆转进化衍生的染色体重排有助于在减数分裂重组的染色体重排内暴露新的遗传物质。本文证明了作物植物中crispr-cas介导的倒位。
[0306]
例如,将倒位染色体区域再定向至祖先方向,允许等位基因之间的重组,否则重组将不太可能(图1)。这种可自发发生的染色体再定向可能以极低的频率发生,从而使得在育种中选择新品系和新品种是不切实际的。因此,crispr-cas促进了倒位(也是非天然的、诱导的逆转或倒位)和具有更高频率的大的染色体片段再定向,这可以使育种者能够选择有利的等位基因组合,否则这在育种计划中实际上是不可行的。
[0307]
在其他情况下,可能需要使染色体的一部分反向以“锁定”特定基因座并防止其重组,从而为育种目的保持所需性状的连锁。
[0308]
图1示意性地说明了可以如何将如此大的染色体片段倒位。当倒位的每一侧都生成dsb时,修复可能不正确并导致染色体内易位。这一结果导致臂间倒位的再定向。为了测试由crispr-cas9技术促进的大染色体倒位的可行性,我们对76兆碱基(mb)长的臂间倒位进行了再定向(逆转),该倒位天然发生在玉米基因型的2号染色体中(图3)。鉴定了六个靶位点(倒位的每一侧各三个),并针对在每个位点的突变频率对相应的grna进行瞬时测试。选择具有最高突变频率的两个靶位点(倒位的每一侧各一个)并用于转化实验。
[0309]
使用粒子轰击共同递送两种体外形成的cas-grna核糖核蛋白(rnp)复合物和三个质粒载体(携带形态发生基因-pltp启动子驱动的bbm和axig启动子驱动的wus以及选择性标志物基因-ubi启动子驱动的nptii)进行转化。轰击了2000个未成熟胚,总共再生了1500株植物,并通过pcr分析。分析中使用的引物对(图4a)只有在发生倒位时才能产生pcr产物。总共有两个事件表明倒位;第一个事件为两组pcr引物产生了预期大小的pcr片段(图4b),而第二个事件示出仅一对引物的产物。具有两个正连接的事件通过基因组测序技术进一步验证,并被确认具有完整的76mb倒位(图5)。进一步对发生倒位的事件进行测序分析,证明了一个新的连接是完美的并且不含有indel。然而,第二个连接具有递送的质粒dna的9bp缺失和49bp插入。在植物育种应用中,这个小片段可以在下一代中被缺失。
[0310]
在一个实例中,在分析的1500个再生体中,有一个发生这种不正确的修复完全76mb臂间倒位,并导致76mb臂间倒位。该结果证明了使用具有实用频率的位点特异性双链断裂(dsb)技术进行大染色体倒位的可行性,从而能够实现不同大小的染色体重排以满足育种者对各种作物植物的需求。例如,由于低重组率,玉米中的着丝粒区域在遗传图谱长度较小的区域内含有大量基因和qtl。具有有利或不利等位基因的不同qtl在小于1厘摩的区域排斥连锁是可行的。开发这个实例,育种者可能希望在群体中提高产量和抗病性,其中有利的产量qtl等位基因i(产量+)与不利的抗病性等位基因(疾病-)连锁,它们之间有1%的重组机会。为了实现两个qtl(产量+、疾病+)的有利等位基因的所需排列,育种者将产量+、
疾病-的个体与具有相反排列、产量-、疾病+的另一品系杂交。f1中的重组将生成f2或具有产量+、疾病+以1%比率有利排列的双单倍体后代。生成数百个后代将有效地保证观察到有利的重组。然而,如果基因位于两个亲本排列之一中的着丝粒周围(涵盖着丝粒)倒位的相对侧,重组将大幅地减少。涵盖着丝粒的倒位的相反方向之间的重组通常仅通过双重交换发生,否则可导致配子的致死性。这些双重交换可以通过重组干扰来抑制,但即使假设没有干扰,该实例中的双重交换率预计在万分之一后代的数量级,而不是一百分之一。在这种情况下生成观察有利等位基因所需的后代数量超出了标准育种实践。例如,通常不与例如产量qtl共分离的抗病性等位基因。在染色体工程化之后,这些qtl现在以靶向方式排列在染色体中,使得它们处于连锁不平衡或比在对照育种群体中观察到的更频繁地共分离。这种有利等位基因(例如与不利等位基因解偶联)、qtl、snp的工程化共分离有助于驱动遗传增益并减少育种周期时间以实现这些结果。
[0311]
实例5:植物中一组有利等位基因内保持连锁不平衡并降低重组频率的染色体重排
[0312]
当存在偶联相连锁时,无论是与天然qtl还是通过将多个转基因插入同一染色体区域并且不需要在所需基因组基因座内进行额外的重组,通过靶向方法对该基因座进行倒位或易位可以降低基因座之间的重组率,从而保持所需的状态。例如,在通过常规育种或其他辅助育种方法或其他定点插入方法将所需的等位基因组、qtl、snp、转基因、crispr编辑的变体组装到染色体区域后,使该区域或染色体区段倒位以抑制所需等位基因之间的重组或具有可能扰乱所需连锁状态的那些等位基因的重组。相反,诱导作物植物的染色体区域的靶向倒位(即在染色体区域内创建新的染色体倒位)用于稳定所需性状之间的遗传连锁。这些诱导的异源、非天然、染色体倒位使得染色体区域的区段在减数分裂期间无法用于在同源染色体之间的重组,从而稳定或固定基因组窗口中的有利等位基因。
[0313]
例如,如果含有这些等位基因的区域的遗传长度为10厘摩,则与不携带该排列的个体杂交的十分之一的后代将拥有仅产生一些所需被维持的等位基因的交换。如果倒位抑制除双重交换的重组,则所需等位基因排列的倒位可以将数量或携带不需要基因型后代减少约十倍,从10%到1%。这应被视为最大重组率,因为干扰可导致观察到的交换率甚至更小。如果没有使有利等位基因区域倒位而是使其易位到不同的染色体,尤其是重组率低的着丝粒区域,则重排可以有效地消除有利等位基因之间的重组。这将保证在所有杂交后代中维持有利的排列,并消除通过测序或遗传标志物进行耗时的筛选以确认使排列重新排列或倒位[描述]成不同的染色体或同一染色体的不同部分的需要。
[0314]
实例6:连接植物中远距离染色体区段的大染色体缺失
[0315]
在一个实施例中,qtl的有利等位基因例如特征在于含由数百、数千或数百万个碱基和多个基因的遗传图谱或物理图谱上的区间。缩小qtl区间并鉴定特定基因、基因调控区域和dna序列变化通常是有利的,这些变化会引起携带有利和不利等位基因的品系之间的表型差异。通过使用与致病dna序列多态性更紧密相关的遗传标志物,这种方法能够更有效、更准确地选择有利等位基因。
[0316]
在另一个实施例中,qtl区间的变窄也使得致病多态性通过更小的基因组区域或通过染色体区段内更小的基因组区间渗入到新品系或品种中。这个基因组基因座可以减少连锁累赘-其他性状的不利等位基因的基因渗入,否则这些性状可能与有利的qtl区域连
锁。传统上,已通过精细作图来缩小qtl区间以鉴定致病snp、遗传区段,其包括使用携带不同qtl等位基因的个体或群体之间的遗传杂交在qtl区域中生成遗传重组。然后可以使用遗传标志物来鉴定在何处以及在哪些个体中发生了重组,并将这些数据与携带每个重组的后代的表型表现相关联。随着qtl区域的遗传图谱区间变窄,靶区域中的重组变得非常罕见,这是帮助进一步细化该区域所需的。因此,精细作图的效率和可行性随着qtl区域的细化而降低。在一些情况下,足够窄以将重组频率降低到小于1%的遗传图谱区间仍然可以含有数百万个dna碱基对和数百个基因。这种物理大小的区域对于所需的应用来说通常不够小,或者可能仍然含有害的等位基因,该等位基因由于紧密连锁而更难育种。
[0317]
使用crispr-cas技术对选定的各种大小的dna片段进行系列缺失可帮助揭示qtl内的最小致病区域。例如,如果存在赋予抗病性的功能性基因相对于不存在功能性等位基因,则含有该基因的区域的缺失将揭示表型中的差异,而不利的非功能性等位基因的缺失将不会在表型中示出差异。对于具有许多基因的qtl区间,如果使用大的缺失(从千碱基到几兆碱基)来鉴定具有致病差异的dna区域,则可能会非常有益。然后可以通过较小的缺失进一步分析该区域,直到定义足够小的遗传区域。因此,生成crispr-cas诱导的大缺失品系,与传统精细作图相比大幅降低了成本并提高了缩小qtl区域的效率,该传统的精细作图可能需要大量的品系,并且在许多情况下可能不实用,特别是如果重组频率是相当低。精细作图传统上依赖于减数分裂期间生成的交换,这可能需要用遗传标志物筛选大量后代。由于精细作图通常集中在长度小于1厘摩的小基因组区域,因此必须创建数百甚至数千个后代,并使用横跨目的区域的遗传标志物进行基因分型,以首先检测重组,然后进行额外的标志物筛选以定义特定的重组断点。在一些情况下,这需要创建新的遗传标志物用于筛选和多代重组以生成所需的重组品系组。
[0318]
使用仅含有少数基因的基因组的非常小的区域,靶向的crispr-cas基因缺失可以比精细作图更快地验证哪些基因对qtl有贡献。由于缺失是靶向的,因此它们的预期断点是预先知道的。这使得可以使用一组预定义的标志物来筛选断点。然而,尽管许多qtl的目的基因组区域在遗传图谱方面很小,但就物理dna碱基而言,其仍然很大。在玉米基因组的低重组区域(诸如着丝粒周围区域),1cm的区间可以含有数十万至数千万个碱基对,且倾向于数百个基因。在这种情况下,验证基因是否对qtl有贡献所需的少量缺失是不切实际的。大的crispr-cas诱导的缺失可以并行生成缺失组,通过每次缺失一次排除许多基因来缩小目的区域。例如,100个基因的qtl区域可以用20个基因的5个大缺失来缺失。对于单基因qtl,这些缺失中只有一个会被验证为影响性状,从而将搜索空间从100个基因缩小到20个基因。少量额外的缺失可以进一步缩小搜索空间,直到鉴定出目的基因。
[0319]
具有大缺失的一个挑战是多个基因的纯合缺失通常会创建负面或致命的影响,从而掩盖目的表型或使其难以测量。即使该基因不含有任何有助于qtl的遗传变异,也有可能缺失对有助于目的表型的分子途径很重要的基因,从而生成假阳性。这些挑战可以通过测试大缺失来克服,可以在半合子状态下进行测试,半合子状态下的品系或品种携带一个完整的等位基因和一个缺失的等位基因。如果缺失的等位基因是不利等位基因而有利等位基因是完整的,则该品系将示出比携带完整不利等位基因和已缺失有利等位基因的等基因系更有利的表型。这些相互半合子品系可以通过将携带一个等位基因纯合缺失的品系与携带完整版本的另一个等位基因的品系杂交来生成。携带这种半合子状态的植物可以通过鉴定
仅在两条二倍体染色体之一上缺失靶向区域的转化胚来生成。
[0320]
cas-grna系统用于对qtl性状进行精细作图(图7)。整个qtl区域(1.3mb)首先被分成几个较小的区域(0.95、0.73、0.59、0.37和0.22mb)。选择了横跨每个区域(包括整个1.3mb)的靶位点并设计了相应的grna。为确保每个缺失实验的成功,为缺失之间的每个边界选择了两个靶位点(图7)。总共构建了8个用于农杆菌介导转化的载体,这些载体含有针对pltp启动子调控的bbm、axig启动子调控的wus、ubi启动子调控的cas9、ubi启动子调控的nptii(选择性标志物)、两个对每个缺失有特异性u6 poliii启动子调控的grna的表达盒,并将其用于生成具有设计缺失的植物。在每个缺失实验中再生50到100株植物,并通过pcr和测序进行分析。针对每个预期的缺失,通过pcr分析鉴定至少一个可育的t0植物。结果证明,crispr-cas技术可成功用于生成大小从几千碱基到几兆碱基不等的染色体缺失,以减少qtl区间,从而能够生成包含致病遗传元件和减少的/最小有害dna的染色体区段。
[0321]
实例7:染色体重新定位提高育种中的性状渗入
[0322]
提供多样性或特定所需性状(诸如疾病或胁迫耐受性)的单个基因或qtl的渗入是植物育种的必要工具。如上所述,连锁累赘指的是与所需基因或qtl物理连锁的基因的影响,通常是不需要的,特别是如果基因或qtl是来自不优良或不适应靶环境的种质。传统上,所需性状会通过多代回交渗入到优良种质中。在不使用分子标志物来鉴定来自供体亲本的任何剩余的不需要的遗传元件的情况下,仅回交通常不会成功。传统的回交方法平均需要6代或更多代,但仍可能无法完全恢复连锁遗传区域中的优良基因型。使用crispr-cas技术结合上述crispr-cas辅助精细作图的基因或qtl重新定位,与传统的回交策略相比,可以省超过两年的时间,并且可以消除在剩余基因组中对任何剩余连锁累赘或不需要的基因的担忧。
[0323]
尽管连锁累赘通常被认为是与优良亲本相比表现不佳的来源,但渗入的基因本身可能会对植物产生不利影响(如果负面影响是由于连锁累赘或基因本身),因此会导致产量或其他农艺学特性的问题。这种特定的易位将允许确认基因本身是否具有有害影响。在更传统的育种系统中,假设它是连锁累赘,则需要多代回交,但直到所有周围序列都被移除才能确认。因此,精确的crispr-cas基因重新定位也将允许仅将目的基因添加到优良基因型中的测试。
[0324]
如果所需性状与特定和定义的基因相关联,则可以将其克隆到质粒载体中,使其位于同源区域侧翼并通过hdr方法将其插入到优良基因型的所需位置。然而,如果性状与可能横跨数百个千碱基的qtl关联,则克隆和随后引入基因组通常是不切实际的。这里描述了crispr-cas技术在将大尺寸qtl重新定位到作物植物物种中任何所需位置的应用。
[0325]
第一个实验证明了qtl渗入到来自另一种基因型或野生种物种的优良品系中。该方法在图8中展示,并通过在同源染色体之间两个连续的crispr-cas诱导的易位(体细胞或有丝分裂重组)实现。结果类似于常规育种方法,但具有某些明显的优势:首先,没有与重新定位关联的实质性或显著的连锁累赘,其次,与几年的常规育种相比,这种方法允许在约2年内完成重新定位。
[0326]
第二染色体易位证明qtl从其在一条染色体上的原始位置重新定位到不同异源染色体上的所需位置。这种方法也基于两个连续的易位。
[0327]
使用农杆菌介导的cas9、两个grna、形态发生基因和选择性标志物基因表达盒(图
9a)到玉米胚细胞中的递送,进行第一个易位实验。这种易位在两个非同源染色体之间进行,以将qtl移动到所需位置(图9b)。该实验中使用了三个t-dna载体,其在2号染色体上具有三个不同的靶位点。在所有三个实验中使用单个1号染色体靶位点。
[0328]
总共再生了2632株t0植物,并使用qpcr分析了1号染色体和2号染色体之间新连接的存在。在8株t0植物中检测到表明2号染色体端粒区域到1号染色体重新定位的qpcr阳性信号。然后通过琼脂糖凝胶电泳和sanger测序分析pcr片段。新连接的序列分析证明了两个事件具有完美的连接(没有缺失或插入);5个事件在连接的一端或两端示出不同大小的缺失(从1到30bp),并且一个事件具有缺失和46bp的未知序列插入。
[0329]
第一次易位是在两个非同源染色体之间进行的,以将qtl移动到所需位置。更详细地,使用农杆菌介导的cas9、两个grna、形态发生基因和选择性标志物表达盒(图9a)到玉米胚细胞中的递送,进行第一个易位实验。这种易位在两个非同源染色体之间进行,以将qtl移动到所需位置(图9b)。总共再生了1200株t0植物,并分析了1号染色体和2号染色体之间新的连接的存在。使用qpcr和琼脂糖凝胶电泳在四个t0植物中检测到指示2号染色体端粒区域到1号染色体的重新定位的预期连接。进行新连接的序列分析以确认易位。
[0330]
第二次易位是在两个同源染色体(例如,1号染色体与1号同源染色体)之间进行的,以恢复具有新的重新定位的qtl的1号染色体的结构(例如端粒)(图9c)。在另一个实验中,基因组编辑诱导的染色体片段复制事件使qtl(或snp或任何其他携带目的有利目的等位基因的目的染色体区段)加倍(图9d)。
[0331]
实例8:增加染色体重排的靶向修饰
[0332]
所需染色体重排的进一步优化和频率改进可以通过下文描述的实验设计中的各种方法和修改形式来实现。
[0333]
延长dsb的时间
[0334]
为了增加所需一种或多种染色体重排的频率,在预期位点反复切割可能是有益的。可以通过使用在靶位点(例如cpf1)之外进行切割的cas核酸酶来完成反复切割。可替代地,它也可以应用反复切割技术来完成。此外,当使用彼此非常接近(最多30-40个核苷酸)的两个grna靶位点时,可以获得类似的结果。在这种情况下,第一核糖核蛋白复合物结合并切割第一位点,使第二位点不可接近(物理阻断)。如果第一个dsb用插入缺失修复,则可以切割第二位点,生成新的dsb扩展机会窗口,以进行所需的重排。此外,结合促进细胞分裂的形态发生基因(bbm和wus),反复切割方法可能是有益的,因为当染色体间相互作用更可行时,它可能允许在细胞周期的不同阶段(s或g2期)第二个dsb的生成。
[0335]
以减少nhej并改善染色体重排的pam方向
[0336]
由于cas9蛋白仍然与dsb的一个末端(带有pam的一个末端)相关联,可能在靶位点切割后持续数小时,因此它保护该末端不受降解,但也不受nhej组分(例如ku70/80)影响,并提供保护/预防dsb的适当的修复。
[0337]
因此,通过选择靶位点及其方向,可以增加“不正确”修复事件并获得所需结果(适用于所有类型的重排-缺失、易位和倒位)。例如,通过使用pam测序在内部查找倒位待缺失的片段来设计靶位点,来增加染色体片段的缺失频率。在这种情况下,未受保护的染色体末端可能会通过nhej修复途径重新连接,从而导致缺失(图11a)。可替代地,两个不同染色体中的dsb可能会被“不正确”修复,从而导致染色体间易位,如图11b所示。
[0338]
与dsb末端具有序列同源性的寡核苷酸
[0339]
已经证明,与在两个不同dsb处的染色体末端具有同源性的dsb试剂和“易位”单链寡核苷酸(ss ond)的共同递送可以指导“不正确的”dna修复并且增加易位衍生的染色体的频率,可用于植物细胞以指导具有产生一个或多个染色体间易位的有利结果的dsb修复。这种方法对于粒子枪介导的转化尤其可行,允许以一个或多个dna质粒或核糖核蛋白(rnp)复合物、选择性标志物基因和大量ss ond的形式共同递送dsb试剂。
[0340]
cas9核酸酶的细胞周期特异性表达
[0341]
如上所述,染色质组织和相互作用在不同的细胞周期阶段是不同的。因此,根据细胞周期阶段,可能会以不同的频率发生具有所需染色体重排的“不正确”dsb修复。因此,在s期期间cas核酸酶的表达和靶向的dsb的生成可能会进一步增加所需染色体重排的机会。cas核酸酶的细胞周期阶段特异性表达可以通过使用例如s期特异性启动子如zm-rnr2a来实现。核糖核苷酸还原酶(rnr)是从头合成脱氧核糖核苷酸的必需酶,其表达限于s期。
[0342]
调节染色体方向以增强所需的染色体重排
[0343]
染色体dsb末端的物理接近将增加它们通过nhej修复途径再连接的机会。因此,将目的染色体片段放在一起可能会增加染色体重排的频率,具有所需结果。该陈述适用于任何类型的染色体重排,包括缺失、倒位和易位。
[0344]
作物植物基因组中所需染色体末端的这种物理接近可以通过例如利用融合到独特的、可逆的化学诱导系统的cas蛋白来实现,该系统使用植物激素s-(b)-脱落酸(aba)和植物aba信号通路的修饰的组分(通过morgan等人(2017)(nat comm[自然通讯]8:15993;doi:10.1038/ncomms15993)所述)。首先,cas核酸酶被相应的grna定向到它们的靶基因座。切割后,cas9核酸酶仍与dsb的pam侧关联。因此,在添加aba后,需要被修复的染色体末端变得更接近,这促进了与cas核酸酶融合的pyl1和abi1结构域的二聚化。此外,还可以使用其他二聚化系统,诸如雷帕霉素诱导的fkbp12和frap之间的相互作用,或fkcsa诱导的fkbp12和亲环蛋白之间的相互作用。
[0345]
可替代地,可以将两种与用于生成dsb的酶不同的死cas(dcas)直系同源核酸酶融合到上述二聚化组分。这些dcas核酸酶结合至相应的靶位点,两个染色体末端的并列是通过诱导二聚化组分来实现的。
[0346]
大片段重新定位和基因堆叠
[0347]
在一方面,进行两次连续易位:在非同源染色体之间第一次易位,以将qtl带到所需位置;第二次-用ctl恢复染色体的端粒。
[0348]
在一方面,将同源区域引入预期的ts
[0349]
在一方面,使用与两个cas9直系同源物(用于靶位点的一个cas9,以及用于释放待重新定位的片段的第二个cas9)进行融合,这可以使它们形成二聚体,使它们靠近基因座。
[0350]
实例9:重排与疾病关联的染色体区域
[0351]
在该实例中,染色体区域或区段(包括作物植物(诸如玉米、大豆、棉花、卡诺拉油菜、小麦、稻、高粱或向日葵)中与一种或多种疾病关联的qtl)被重新排列(例如倒位、易位),使得那些染色体区域处于优选的染色体构型中,与对照和其他育种增强相比,该构型能够实现更快的性状渗入、减少连锁累赘、最佳连锁不平衡。在一个实施例中,将疾病染色体区段易位到预先存在的转基因基因座,该基因座含有一种或多种昆虫和/或除草剂耐受
性性状,任选地,转基因性状。
[0352]
实例10:重排与产量或其他农艺学性状相关的染色体区域
[0353]
在该实例中,染色体区域或区段(包括作物植物(如玉米、大豆、棉花、卡诺拉油菜、小麦、稻、高粱或向日葵)中与一种或多种产量相关的农艺学形状(例如减少根部倒伏、减少脆断性、耐旱)关联的qtl)被重新排列(例如,倒位、易位),使得那些染色体区域处于优选的染色体构型中,与对照和其他育种增强相比,该构型能够实现更快的性状基因渗入、减少连锁累赘、最佳连锁不平衡。在一个实施例中,将此类染色体区段易位到预先存在的转基因基因座,该基因座含有一种或多种疾病、昆虫和/或除草剂耐受性性状,任选地,转基因性状。
[0354]
可替代地,大染色体倒位可用于关闭包含几个目的基因/qtl的染色体片段或甚至整个染色体中的重组。
[0355]
实例11:靶向的种间和基因组间染色体交换
[0356]
在一方面,靶向的crispr-cas介导的dna断裂促进广泛杂交(在栽培物种与其野生近缘种之间的杂交)。例如,可靶向来自高粱的抗病qtl用于种间的(即种间)染色体易位至相关或远缘作物物种。增加作物基因池的可用性可用于增强对主要生物和非生物胁迫的耐受性,并通过植物育种改善植物的品质特性。例如,靶向的基因区段可以在相关的芸苔属物种之间易位,诸如埃塞俄比亚芥(b.carinata)、芥菜(b.juncea)、甘蓝(b.oleracea)和白菜型油菜(b.campestris)。
[0357]
在另一方面,作物育种改良的障碍之一是给定物种内在遗传/表型水平上缺乏变异性。因此,广泛杂交是创建额外变异性以扩大种质多样性的工具。本文公开的方法提供了靶向特定染色体易位、重排或其他染色体区段(大dna片段)转移或整合到宿主染色体中以从宽或远缘供体染色体创建遗传多样性的方法。在一方面,供体染色体是外来染色体并且在一方面不传递给一个或多个后代。
[0358]
在另一方面,可以通过crispr-cas介导的dna断裂来实现属间的靶向染色体交换。例如,所需的染色体区域可以在供体和受体属-小麦和黑麦基因组之间易位、交换或以其他方式转移。在一方面,可以通过靶向的crispr-cas方法使在广泛杂交的杂交体中的接合子形成、接合子发育和f1幼苗发育遇到的困难最小化。例如,通过增加此类远缘染色体的重组频率,可以提高接合子形成和幼苗发育的效率。
[0359]
实例12:复制染色体区域以改善杂交作物的性状整合
[0360]
基因、等位基因或qtl可以是隐性或半显性的,并且需要基因或qtl的两个或更多拷贝以获得所需的性状。在杂交作物中,这要求基因或qtl渗入到父本和母本中。该渗入区域可以带来额外的基因组区域,从而导致连锁累赘。如果已知致病基因,则可以使用携带所需性状所需的基因的质粒载体作为模板,以使用crispr或传统转基因方法向亲本添加额外的拷贝。但是,如果需要qtl的两个或多个副本,则可以使用dsb技术复制qtl区域。在某种程度上,所需性状的qtl位于同源染色体上,例如,crispr-cas(或任何双链断裂诱导剂)可用于在两条染色体中产生独特的单个双链断裂,其中一个位于一条染色体上的qtl区域远端,一个位于另一条染色体上的qtl的近侧,如图9d所描绘的。通过在一个亲本上复制qtl区域,育种者不必在一个亲本中选择该性状,从而允许在作物(包括例如杂交或品种作物)中获得增加的遗传增益。
[0361]
如实例7中所述,qtl区域可以通过一次或两次连续的易位从一条染色体重新定位
到另一条非同源染色体。该方法还可用于在所需位置创建重复区域。在某些实施例中,将qtl区域重新定位到所需位置的第一步需要使用crispr-cas,以在每条非同源染色体中诱导双链断裂。为了创建第一个变体,crispr-cas在新的所需位置附近诱导双链断裂,其中qtl的第二个拷贝将定位于该位置。然后通过首先执行步骤1创建第二个变体,如前所述,用于非同源染色体之间的易位;然而,这第二个crispr-cas诱导的双链断裂位于第一个恢复的易位(第一个变体)中重新定位的qtl所在的位置的远端,并且不同的crispr-cas诱导双链断裂在非同源染色体的qtl的近端。如果在某些情况下需要,在获得易位后,可能需要在同源染色体之间第二次易位以恢复染色体远端的结构。然后可以使用标准育种方法将这些来自变体1和变体2的单独恢复的易位组合到易位的两个位置足够远的程度。
[0362]
在某些实施方案中,为了以足够高的频率发生染色体区段复制,同源染色体中的靶位点必须不同。因此,如果靶位点中尚未存在用于切割的snp,则需要靶位点中的snp。可以通过将nhej介导的突变(小的缺失或插入)引入靶站点,来创建这些独特的靶位点,然后将经编辑的植物与wt植物杂交,然后选择具有wt和具有这些突变的经编辑染色体两者的后代植物。这将允许使用不同的grna仅切割一条同源染色体。该实例进一步证明了可以将靶位点的独特性工程化到qtl或染色体区段中以增加复制频率,使得两个靶位点不会同时切割,这可能会导致重复染色体片段的恢复降低。
[0363]
qtl复制(或基因或等位基因或snp或任何需要多拷贝的遗传元件的任何复制)可以通过本文所述的方法实现。诸如小麦、卡诺拉油菜和其他的多倍体作物受益于染色体区段复制,因为纯合状态或多个拷贝所需的等位基因的串联复制或共定位使育种简化。此外,转基因性状普遍存在的作物(例如玉米、棉花和大豆),qtl育种和渐渗转基因性状是复杂的。有利等位基因或qtl的工程化靶向复制创建更多的育种方法,其中所需的性状不需要同时存在于母本和父本上。相反,育种者可以专注于转基因性状的性状渗入并减少连锁累赘,从而增加整体遗传增益。
[0364]
该实例证明了使用cas内切核酸酶的qtl复制(例如,一种在图9d中展示的方法)。然而,qtl复制可以通过其他技术进行,这些技术基于大染色体区段可以在复杂的商业优良作物植物-玉米中被倒位的成功证明。
[0365]
尽管本文的实例描述了用异源多核苷酸替代内源多核苷酸以影响表型变化,但本领域技术人员将会理解,任何内源多核苷酸(例如但不限于调节元件、编码rna的dna等)可以用本文提供的方法替代。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1