经过优化的非规范锌指蛋白的制作方法

文档序号:457215阅读:300来源:国知局
经过优化的非规范锌指蛋白的制作方法
【专利摘要】本发明涉及经过优化的非规范锌指蛋白。本文中所公开的是包含CCHC锌配位残基的锌指。还描述了包含这些CCHC锌指的锌指蛋白和融合蛋白以及编码这些蛋白质的多核苷酸。还描述了使用这些蛋白质进行基因编辑和基因调控的方法。
【专利说明】经过优化的非规范锌指蛋白
[0001]本申请是申请日为2007年12月13日、中国申请号为200780051258.2、发明名称为“经过优化的非规范锌指蛋白”的发明申请的分案申请。
[0002]对相关申请的交叉引用
[0003]本申请要求2006年12月14日提交的美国临时申请N0.60/874,911和2007年5月30日提交的美国临时申请N0.60/932,497的权益,本文通过提及而完整收录两者的公开内容。
发明领域
[0004]本公开内容在基因组工程(genome engineering)、基因打革巴(gene targeting)、革巴向染色体整合(targeted chromosomal integration)、蛋白质表达(proteinexpression)和外因基因组编辑(epigenome editing)领域中。
[0005]发明背景
[0006]蛋白质对DNA、RNA、蛋白质和其它分子的序列特异性结合涉及许多细胞过程,诸如例如转录、复制、染色质结构、重组、DNA修复、RNA加工和翻译。参与蛋白质-DNA、蛋白质-RNA和蛋白质-蛋白质相互作用的细胞结合蛋白的结合特异性有助于发育、分化和体内稳态。
[0007]锌指蛋白(ZFP)是能以序列特异性方式结合DNA的蛋白质。锌指最初在来自非洲爪蟾(African clawed toad)即Xenopus Iaevis卵母细胞的转录因子TFIIIA中鉴定出。这类ZFP的单个锌指结构域长约30个氨基酸,而且数项结构研究已经证明了它包含β -转角(包含两个保守的半胱氨酸残基)和α -螺旋(包含两个保守的组氨酸残基),它们经由两个半胱氨酸和两个组氨酸配位锌原子而保持特定构象。这类ZFP也称为C2H2ZFP。别的类型的ZFP也已经有提示。参见例如关于Cys-Cys-His-Cys (C3H) ZFP讨论的Jiang等(1996)J.Biol.Chem.271:10723-10730。迄今为止,已经在数千种已知的或推定的转录因子中鉴定出超过10,000种锌指序列。锌指结构域不仅参与DNA识别,而且还参与RNA结合和蛋白质-蛋白质结合。目前估计这类分子会占到所有人类基因的约2%。
[0008]大多数锌指蛋白具有保守的半胱氨酸和组氨酸残基,它们在每个指结构域中四面体形地配位单个锌原子。具体地,大多数ZFP以通式序列为-Cys-(X)2_4-Cys_(X)12-HiS-(X)3-5-His-(SEQ ID NO:1)的指构件为特征,其中X代表任何氨基酸(C2H2ZFP)。这种被最广泛呈现的类型的锌配位序列包含具有特定间距的两个半胱氨酸和两个组氨酸。每个指的折叠结构包含反向平行的转角、指尖区和短的两亲性α-螺旋。金属配位配体结合锌离子,并且在zif268型锌指的情况中,短的、两亲性α -螺旋在DNA的大沟中结合。另外,锌指的结构通过某些保守的疏水性氨基酸残基(例如指中就在第一个保守Cys之前的残基和螺旋区段第+4位的残基)和通过保守的半胱氨酸和组氨酸残基的锌配位而得到稳定化。
[0009]在产生直接碱基接触的位置、紧邻碱基接触位置的“支持性”或“支撑性”残基、和能够接触DNA磷酸酯主链的位置中具有改变的规范(C2H2)锌指蛋白已经有描述。参见例如美国专利 N0.6,007,988; 6,013,453; 6,140,081; 6,866,997; 6,746,838; 6,140,081; 6,610,512;7,101,972;6,453,242;6,785,613;7,013,219;PCT W098/53059;Choo 等(2000)Curr.0pin.Struct.Biol.10:411-416;Segal 等(2000)Curr.0pin.Chem.Biol.4:34-39。
[0010]另外,包含具有改良锌配位残基的锌指的锌指蛋白也已经有描述(参见例如美国专利申请N0.20030108880; 20060246567;和20060246588 ;通过提及收录其公开内容)。然而,虽然包含这些非规范锌指的锌指蛋白保留了基因转录调控功能,但是它们起锌指核酸酶(ZFN)作用的能力在有些情况中相对于唯独由规范C2H2锌指组成的锌指蛋白有所降低。
[0011]如此,仍需要(特别是在锌指核酸酶的构建中)包含具有经过优化的非规范锌配位区的锌指的别的工程化锌指结合蛋白。
[0012]发明概述
[0013]本公开内容提供了在至少一个锌配位残基中具有改变的锌指DNA结合结构域。具体地,本文中描述了 CCHC锌指。这些CCHC锌指可进一步地在锌配位残基附近(例如在锌指最C端的(c-terminal-most)锌配位残基周围的残基中)包含别的改变(替代、插入和/或删除)。还描述了包含一个或多个这些CCHC锌指的锌指多肽和融合蛋白、编码这些锌指和融合蛋白的多核苷酸、及使用这些锌指多肽和/或融合蛋白的方法。
[0014]如此,本公开内容涵盖但不限于下列编号的实施方案:
[0015]1.一种锌指蛋白,其包含非规范(非C2H2)锌指,其中所述非规范锌指具有牵涉DNA结合的螺旋部分且其中所述螺旋部分的锌配位区包含氨基酸序列HxiX2RCXJSEQ IDNO:2);且其中所述锌指蛋白被改造成结合靶序列。
[0016]2.实施方案I的锌指蛋白,其中X1是a,而X2是0。
[0017]3.实施方案I的锌指蛋白,其中X1是K,而X2是E。
[0018]4.实施方案I的锌指蛋白,其中X1是t,而X2是尺。
[0019]5.实施方案I的锌指蛋白,其中Xl是G。
[0020]6.一种锌指蛋白,其包含两个或更多个锌指,其中至少一个锌指包含序列Cys_(XA)2_4-Cys-(Xb) 12-His-(Xc)3-5-Cys-(Xd)χ_10(SEQ ID N0:3),其中 XA、XB、Xc 和 Xd 可以是任何氨基酸。
[0021]7.实施方案I至6任一项的锌指蛋白,其包含表1、表2、表3或表4任一中所不任
一序列。
[0022]8.实施方案6或7的锌指蛋白,其中Xd包含序列QLV或QKP。
[0023]9.实施方案8的锌指蛋白,其中所述序列QLV或QKP是所述锌指的3个C端氨基
酸残基。
[0024]10.实施方案6至9任一项的锌指蛋白,其中Xd包含I个、2个或3个Gly (G)残基。
[0025]11.一种锌指蛋白,其包含多个锌指,其中至少一个锌指包含依照实施方案I至10任一项的CCHC锌指。
[0026]12.实施方案11的锌指蛋白,其中所述锌指蛋白包含3个、4个、5个或6个锌指。
[0027]13.实施方案11或12的锌指蛋白,其中指2包含所述CCHC锌指。
[0028]14.实施方案11至13任一项的锌指蛋白,其中C端锌指包含所述CCHC指。
[0029]15.实施方案11至14任一项的锌指蛋白,其中至少两个锌指包含所述CCHC锌指。
[0030]16.实施方案11至15任一项的锌指蛋白,其中所述锌指蛋白包含表8中所示任一序列且被改造成结合IPP2-K基因中的靶序列。
[0031]17.一种融合蛋白,其包含实施方案I至16任一项的锌指蛋白和一个或多个功能域。
[0032]18.—种融合蛋白,其包含:
[0033](a)切割半结构域(half-domain),
[0034](b)实施方案I至16任一项的锌指蛋白,和
[0035](C)插入所述切割半结构域和所述锌指蛋白之间的ZC接头。
[0036]19.实施方案18的融合蛋白,其中所述ZC接头的长度是5个氨基酸。
[0037]20.实施方案19的融合蛋白,其中所述ZC接头的氨基酸序列是GLRGS(SEQ IDNO:4)。
[0038]21.实施方案18的融合蛋白,其中所述ZC接头的长度是6个氨基酸。
[0039]22.实施方案21的融合蛋白,其中所述ZC接头的氨基酸序列是GGLRGS(SEQ IDNO:5)。
[0040]23.一种多核苷酸,其编码依照实施方案I至16任一项的锌指蛋白或依照实施方案17至22任一项的融合蛋白。
[0041]24.一种用于在 植物细胞中靶向切割细胞染色质的方法,所述方法包括在所述细胞中表达一对依照实施方案18至22任一项的融合蛋白,其中:
[0042](a)所述融合蛋白的革巴序列彼此相距10个核苷酸之内(within ten nucleotidesof each other);且
[0043](b)所述融合蛋白二聚化,并切割位于所述靶序列之间的DNA。
[0044]25.一种在宿主植物细胞中靶向遗传重组的方法,所述方法包括:
[0045](a)在所述宿主细胞中表达一对依照实施方案18至22任一项的融合蛋白,其中所述融合蛋白的靶序列存在于选定的宿主靶基因座中;并
[0046](b)鉴定在所述宿主靶基因座中展现出序列改变的重组宿主细胞。
[0047]26.实施方案24或25的方法,其中所述序列改变是选自下组的突变:遗传物质的删除、遗传物质的插入、遗传物质的替代及其任何组合。
[0048]27.实施方案24至26任一项的方法,其进一步包括将外源多核苷酸导入所述宿主细胞中。
[0049]28.实施方案27的方法,其中所述外源多核苷酸包含与所述宿主靶基因座同源的序列。
[0050]29.实施方案24至28任一项的方法,其中所述植物选自下组:单子叶植物、双子叶植物、裸子植物和真核藻类。
[0051]30.实施方案29的方法,其中所述植物选自下组:玉米、稻、小麦、马铃薯、大豆、番爺、烟草、芸苔科(Brassica family)成员、和拟南芥属(Arabidopsis)。
[0052]31.实施方案24至29任一项的方法,其中所述植物是树。
[0053]32.实施方案24至31任一项的方法,其中所述靶序列在IPP2K基因中。
[0054]33.一种用于降低种子中植酸水平的方法,所述方法包括依照实施方案32灭活或改变IPP2-K基因。
[0055]34.一种用于使磷在种子中更能被代谢利用的方法,所述方法包括依照实施方案32灭活或改变IPP2-K基因。
[0056]35.一种植物细胞,其包含依照实施方案I至16任一项的锌指蛋白、依照实施方案17至22任一项的融合蛋白、或依照实施方案23的多核苷酸。
[0057]36.实施方案35的植物细胞,其中所述细胞是种子。
[0058]37.实施方案36的植物细胞,其中所述种子是玉米种子。
[0059]38.实施方案35至37任一项的植物细胞,其中IPP2-K是被部分或完全灭活的。
[0060]39.实施方案38的植物细胞,其中所述种子中的植酸水平是降低的。
[0061]40.实施方案35至39的植物细胞,其中所述细胞中的磷的代谢可利用水平是提高的。
[0062]附图简述
[0063]图1是描绘在美国专利N0.2005/0064474和下文中所述GFP细胞报道测定系统中以表达GFP的细胞的百分比测量的基因校正率(gene correction rate)的图形。ZFN变体称为“X-Y,”其中“X”指表号,而“ Y”指给予具体选定表中的锌指的编号。例如,“ 2-21 ”指具有包含表2中第21行所示序列即HAQRCGLRGSQLV(SEQ ID NO:53)的指的ZFN。
[0064]图2是描绘由使用各种ZFN变体对进行切割引起的Cel-1信号的百分比的图形。通过查阅样品编号为每对ZFN显示两个实验的结果。在右上角在方框中显示了用于每个样品的变体对,其中“wt5-8”和“wt5-9”指美国专利申请N0.2005/0064474的实施例14 (表17)中披露的规范ZFN对。在样品3-12中,用非规范序列替换规范ZFN5-8或5_9的指2或指4的识别螺旋的C端区域。在图形上方在左上角显示了样品3-12中称为20、21、43、45、47和48的非规范ZFN变体的部分序列和这些变体在4个指的ZFN内的指位置。描绘样品8和9的实验2结果的柱形上方的星号指示道中的背景,导致ZFN功效的低估。
[0065]图3是描绘美国专利N0.2005/0064474和本文中所述GFP细胞报道测定系统中的基因校正率的图形。在每个柱形下方显示了每个样品中所测试的ZFN对,其中所述锌指编号20、21、43、45、47和48是那些在实施例3中所述的,而CCHC锌指la至1Oa包含表3和4中所示序列。图4中使用锌指20、21、7a、8a、9a和IOa ;图2中使用锌指43、45、47、48、la、2a、3a、4a、5a和 6a。
[0066]图4是质粒pDAB1585 (—种用于烟草的靶载体)的线性图示。
[0067]图5是质粒pDAB1585 (一种用于烟草的祀载体)的图不
[0068]图6 (小图A和B)描绘了锌指核酸酶(ZFN),即针对烟草的锌指核酸酶结合序列和靶位点设计。图6小图A是描绘ZFN结合的示意图。图6小图B显示了靶序列的序列。
[0069]图7是质粒pDAB1400的图示。
[0070]图8是质粒pDAB782的图示。
[0071]图9是质粒pDAB1582的图示。
[0072]图10是质粒pDAB354的图示。
[0073]图11是质粒pDAB1583的图示。
[0074]图12是质粒pDAB2407的图示。
[0075]图13是质粒pDAB 1584的图示。
[0076]图14是质粒pDAB2418的图示。
[0077]图15是质粒pDAB4045的图示。[0078]图16是质粒pDAB1575的图示。
[0079]图17是质粒pDAB1577的图示。
[0080]图18是质粒pDAB1579的图示。
[0081]图19是质粒pDAB1580的图示。
[0082]图20是质粒pDAB3401的图示。
[0083]图21是质粒pDAB1570的图示。
[0084]图22是质粒pDAB1572的图示。
[0085]图23是质粒pDAB4003的图示。
[0086]图24是质粒pDAB1571的图示。
[0087]图25是质粒pDAB7204的图示。
[0088]图26是质粒pDAB1573的图示。
[0089]图27是质粒pDAB1574的图示。
[0090]图28是质粒pDAB 1581的图示。
[0091]图29是质粒pDAB1576的图示。
[0092]图30是质粒pDAB1600 (用于烟草的供体DNA载体)的图示。
[0093]图31是质粒pDAB3731的图示。
[0094]图32是质粒pDAB4322的图示。
[0095]图33是质粒pDAB4331的图示。
[0096]图34是质粒pDAB4332的图示。
[0097]图35是质粒pDAB4333的图示。
[0098]图36是质粒pDAB4334的图示。
[0099]图37是质粒pDAB4336的图示。
[0100]图38是质粒pDAB4339的图示。
[0101]图39是质粒pDAB4321的图示。
[0102]图40是质粒pDAB4323的图示。
[0103]图41是质粒pDAB4341的图示。
[0104]图42是质粒pDAB4342的图示。
[0105]图43是质粒pDAB4343的图示。
[0106]图44是质粒pDAB4344的图示。
[0107]图45是质粒pDAB4346的图示。
[0108]图46是质粒pDAB4330的图示。
[0109]图47是质粒pDAB4351的图示。
[0110]图48是质粒pDAB4356的图示。
[0111]图49是质粒pDAB4359的图示。
[0112]图50是质粒pDAB7002的图示。
[0113]图51是质粒pDAB7025的图示。
[0114]图52是质粒pDAB1591的图示。
[0115]图53 是质粒 pcDNA3.l-SCD27a-L0_Fokl (用于 PCR 扩增 Scd27 ZFN 的 DNA 模板)的图示。[0116]图54是质粒pDAB1594的图示。
[0117]图55是质粒pDAB1598 (锌指-Fokl融合蛋白的基因表达载体)的图示。
[0118]图56是质粒pDAB1577的图示。
[0119]图57是质粒pDAB1578的图示。
[0120]图58是质粒pDAB1601 (PAT基因对照载体)的图示。
[0121]图59是描绘了预测的、由IL-1-Fokl融合蛋白刺激的染色体内同源重组的示意图。 [0122]图60是质粒pDAB 1590 (阳性GFP表达对照)的图示。
[0123]图61是描绘了预测的、由IL-1锌指-Fokl融合蛋白刺激的染色体间同源重组的示意图。
[0124]图62是描绘了预测的、由Scd27锌指-Fokl融合蛋白刺激的染色体间同源重组的示意图。
[0125]图63是描绘了重组体PCR分析的凝胶。在凝胶上方标记了左侧前4道。标记的第1-5道显示了来自用C3H IL-1-Fokl融合蛋白基因进行的BY2-380转化的HR事件,标记的第6-7道显示了来自用C3H S⑶27-FokI融合蛋白基因进行的BY2-380转化的HR事件。
[0126]图64显示了玉米IPP2K基因序列(SEQ ID N0:6),其衍生自HiII细胞培养物,并且其充当用于靶向玉米IPP2K的ZFN的工程化的设计模板。
[0127]图65 (小图A至E)描绘了 ZFN表达载体克隆方案。使用逐步克隆策略来产生ZFN表达构建体。将各个ZFN编码基因克隆入载体pVAX-N2A-NLSop2-EGFP-FokMono (A)和pVAX-C2A-NLSop2-EGFP-FokMono (B)中以创建二兀蛋白质盒(dual-protein cassette)(C)。将该盒连接入pDAB3872 (D)中以生成最终的质粒(E),用于表达ZFN异二聚体。
[0128]图66描绘了玉米IPP2K基因中的ZFN结合,即ZFN对玉米IPP2K基因的结合和切害I]。需要两个ZFN蛋白来实施对DNA的双链切割。显示了切割位点(用向下的箭头指示的)周围的序列(SEQ ID NO: 7) ο若一个蛋白质(8705)结合序列CTGTGGGGCCAT(上链)(SEQ IDN0:8),则另一个蛋白质(8684、8685、或8686)结合下游序列(CTTGACCAACTCAGCCAG,下链)(SEQ ID NO:9)ο
[0129]图67描绘了野生型(顶部序列,SEQ ID NO: 10)和ZFN克隆127 (底部序列,SEQID NO: 11)的序列,即ZFN介导的删除。以灰色框突出显示了该ZFN的切割靶物。
[0130]图68显示了通过454测序所检测的玉米IPP2K基因中由ZFN介导的dsDNA断裂的非同源末端连接(NHEJ)引起的多种删除的比对,即ZFN介导的删除。以灰色框突出显示了该ZFN的切割靶物。
[0131]图69是描绘了在美国专利N0.2005/0064474和本文中所述GFP细胞报道测定系统中的基因校正率的图形。在每个柱形下方显示了每个样品中所测试的ZFN对。
[0132]图70描绘了如实施例18B所述那样构建的质粒pDAB7471。
[0133]图71描绘了如实施例18C所述那样构建的质粒PDAB7451。
[0134]图72是描绘了例示性自主除草剂耐受基因表达盒的示意图。该结构如实施例18D所述的那样包含完整启动子-转录单位(PTU),其包含启动子、除草剂耐受基因和聚腺苷酸化(聚腺苷酸(POlyA))终止序列。
[0135]图73描绘了如实施例18E所述那样构建的质粒pDAB7422。该质粒包含插入位置I质粒主链(backbone)中的完整启动子-转录单位(PTU),其包含启动子、除草剂耐受基因和聚腺苷酸化(聚腺苷酸)终止序列。
[0136]图74描绘了如实施例18E所述那样构建的质粒pDAB7452。该质粒包含插入位置2质粒主链中的完整启动子-转录单位(PTU),其包含启动子、除草剂耐受基因和聚腺苷酸化(聚腺苷酸)终止序列。
[0137]图75是描绘了例示性非自主除草剂耐受基因表达盒的示意图。该结构如实施例18F所述的那样包含不完整启动子-转录单位(PTU),其包含除草剂耐受基因和聚腺苷酸化(聚腺苷酸)终止序列。
[0138]图76描绘了如实施例18G所述那样构建的质粒pDAB7423。该质粒包含插入位置I质粒主链中的不完整启动子-转录单位(PTU),其包含除草剂耐受基因和聚腺苷酸化(聚腺苷酸)终止序列。 [0139]图77描绘了如实施例18G所述那样构建的质粒pDAB7454。该质粒如实施例18G所述的那样包含插入位置2质粒主链中的不完整启动子-转录单位(PTU),其包含除草剂耐受基因和聚腺苷酸化(聚腺苷酸)终止序列。
[0140]图78描绘了如实施例18H所述那样构建的质粒pDAB7424 (—种例示性的经Gateway?改编(adapt)的位置I自主供体)。
[0141]图79描绘了如实施例18H所述那样构建的质粒pDAB7425 (—种例示性的经Gateway?改编的位置I自主供体)。
[0142]图80描绘了如实施例18H所述那样构建的质粒pDAB7426。pDAB7426是一种组合质粒,其包含位置I自主供体及ZFN表达盒。
[0143]图81描绘了如实施例18H所述那样构建的质粒pDAB7427。pDAB7427是一种组合质粒,其包含位置I自主供体及ZFN表达盒。
[0144]图82描绘了来自基因组DNA的供体DNA特异性序列的扩增。317bp产物的存在判断出插入玉米胼胝体(callus)系#61-72基因组中的、包含PAT基因的供体DNA的存在,如实施例20C所述的。HiII指示野生型阴性对照。
[0145]图83描绘了供体DNA和IPP2K特异的玉米基因组序列间的5’边界的扩增。如实施例21A所述,根据1.65Kbp的DNA片段的存在判断出由供体向IPP2K基因中靶向整合而衍生的再次PCR产物(secondary PCR product)。HiII指示野生型阴性对照。
[0146]图84描绘了供体DNA和IPP2K特异的玉米基因组序列间的3’边界的扩增。如实施例21A所述,根据1.99Kbp的DNA片段的存在判断出由供体向IPP2K基因中靶向整合而衍生的再次PCR产物。HiII指示野生型阴性对照。
[0147]图85描绘了基因组和供体之间的上游(5’)边界的扩增。如实施例21B所述,根据大小为1.35Kbp的DNA片段的存在判断出由供体向IPP2K基因(5’边界)中靶向整合而衍生的PCR产物。HiII指示野生型阴性对照。
[0148]图86描绘了供体和基因组之间的下游(3’)边界的扩增。如实施例21B所述,根据大小为1.66Kbp的DNA片段的存在判断出由供体向IPP2K基因(3’边界)中靶向整合而衍生的PCR产物。HiII指示野生型阴性对照。
[0149]图87描绘了位置15,同源性侧翼的序列(SEQ ID NO: 171)。[0150]图88描绘了位置13’同源性侧翼的序列(SEQ ID NO: 172)。
[0151]图89描绘了位置25’同源性侧翼的序列(SEQ ID NO: 139)。
[0152]图90描绘了位置23,同源性侧翼的序列(SEQ ID NO: 140)。
[0153]图91描绘了 ZFN靶向区域的上游(5,-) IPP2K基因组序列的序列(SEQIDN0:141)。
[0154]图92描绘了 ZFN靶向区域的下游(3,-) IPP2K基因组序列的序列(SEQIDNO:142)。
[0155]发明详述
[0156]本文中所公开的是包含含有Cys-Cys-His-Cys形式非规范锌指的锌指结合多肽(ZFP)的组合物。由于锌配位为锌指提供了主要的折叠能量,锌配位残基的调整提供了一种用于修改指稳定性和结构的简便手段,稳定性和结构对锌指蛋白的多种重要功能性特征产生影响,包括例如细胞半衰期、与其它细胞因子的相互作用、DNA结合特异性和亲和力、及功能域的相对取向。
[0157]已经有显示,包含非规范锌指的锌指蛋白(诸如那些在美国专利申请N0.20030108880 ;20060246567 ;和20060246588中所披露的)结合DNA并改变转录。然而,在被掺入锌指核酸酶(ZFN,参见例如美国专利申请公开文本N0.2005/0064474)后,这些先前描述的非规范锌指蛋白有时会在切割革G DNA方面展现出欠佳的(sub-optimal)活性。
[0158]本文中所描述的是包含一个或多个CCHC锌指的锌指蛋白,其中C端锌配位残基对周围的特定序列已经被 改变。本文中还描述的是包含这些经过优化的非规范锌指的融合蛋白,例如锌指核酸酶(ZFN),其中所述ZFN以与使用包含规范(CCHH)锌指的ZFN实现的切割作用相当的速率或比率(rate)切割靶DNA。
[0159]本文中所公开的融合多肽能增强或抑制基因的转录和/或切割靶序列。还提供了编码经过优化的非规范锌指的多核苷酸、和编码包含一个或多个经过优化的非规范锌指的融合蛋白的多核苷酸。另外提供的是药用组合物,其包含与药学可接受载体组合的治疗有效量的本文所述任何锌指-核苷酸结合多肽或其功能性片段或治疗有效量的编码任何改良锌指-核苷酸结合多肽或其功能性片段的核苷酸序列。还提供的是农用组合物,其包含与农学可接受载体组合的农艺学有效量的本文所述任何锌指-核苷酸结合多肽或其功能性片段或农艺学有效量的编码任何改良锌指-核苷酸结合多肽或其功能性片段的核苷酸序列。还提供的是用于获得能结合基因组序列的改良锌指-核苷酸结合多肽的筛选方法。
[0160]基因组序列包括那些存在于染色体、附加体、细胞器基因组(例如线粒体、叶绿体)、人工染色体和细胞中存在的任何其它类型的核酸(诸如例如扩增序列、双微染色体、和内源的或感染的细菌和病毒的基因组)中的。基因组序列可以是正常的(即野生型)或突变的;突变序列可以包含例如插入、删除、替代、易位、重排、和/或点突变。基因组序列还可以包含许多不同的等位基因之一。
[0161]通用技术
[0162]除非另有说明,本文所公开组合物的制备和使用以及方法的实施采用分子生物学、生物化学、染色质结构和分析、计算化学、细胞培养、重组DNA及相关领域中的常规技术,这些技术是在本领域技术范围内的。这些技术在文献中有全面的解释。参见例如 Sambrook 等,MOLECULAR CLONING:A LABORATORY MANUAL,第二版,Cold SpringHarbor Laboratory Press, 1989 及第三版,2001; Ausubel 等,CURRENT PROTOCOLS INMOLECULAR BIOLOGY, John ffiley&Sons, New York, 1987 及定期更新;丛书 METHODS INENZYMOLOGY, Academic Press, San Diego;Wolffe, CHROMATIN STRUCTURE AND FUNCTION,第三版,Academic Press, San Diego, 1998;METHODS IN ENZYMOLOGY,卷 304,“Chromatin,,(P.M.Wassarman 和 A.P.Wolffe 编),Academic Press, San Diego,1999;及 METHODS INMOLECULAR BIOLOGY,卷 119, “Chromatin Protocols” (P.B.Becker 编),HumanaPress, Totowaj 1999。
[0163]定义
[0164]术语“核酸”、“多核苷酸”、和“寡核苷酸”可互换使用,指处于线性或环状构象的,及或是单链或是双链形式的脱氧核糖核苷酸或核糖核苷酸聚合物。为了本公开的目的,这些术语不解释为关于聚合物长度的限制。该术语可以涵盖天然核苷酸的已知类似物以及碱基、糖和/或磷酸模块中有修饰的核苷酸(例如硫代磷酸酯主链)。一般而言,特定核苷酸的类似物具有相同的碱基配对特异性;即A的类似物会与T进行碱基配对。
[0165]术语“多肽”、“肽”和“蛋白质”可互换使用,指氨基酸残基的聚合物。该术语还应用于其中一个或多个氨基酸是相应天然存在氨基酸的化学类似物或修饰衍生物的氨基酸聚合物。
[0166]“结合”指大分子间(例如蛋白质和核酸间)序列特异性的、非共价的相互作用。结合相互作用的所有成分并非都必需是序列特异性的(例如与DNA主链中磷酸残基接触),只要作为整体的相互作用是序列特异性的。一般地,此类相互作用的特征在于解离常数(Kd)为IO-6M-1或更低。“亲和力”指结合强度:结合亲和力升高与Kd降低相关。
[0167]“结合蛋白”指能够非共价结合另一分子的蛋白质。结合蛋白可以结合例如DNA分子(DNA结合蛋白)、RNA分子(RNA结合蛋白)和/或蛋白质分子(蛋白质结合蛋白)。在蛋白质结合蛋白的情况中,它可以结合其本身(以形成同二聚体、同三聚体、等等)和/或它可以结合一个或多个分子的不同的一种或多种蛋白质。结合蛋白可以具有超过一种类型的结合活性。例如,锌指蛋白具有DNA结合、RNA结合及蛋白质结合活性。
[0168]“锌指DNA结合蛋白”(或结合结构域)指经由一个或多个锌指、以序列特异性方式结合DNA的蛋白质或较大蛋白质内的结构域,所述锌指是结合结构域内的氨基酸序列区域且其结构通过锌离子配位而稳定化。术语锌指DNA结合蛋白通常缩写为锌指蛋白或ZFP。
[0169]锌指结合结构域可以“改造或工程化”(engineer)成结合预定的核苷酸序列。设计和选择是用于工程化锌指蛋白的方法的非限制性例子。设计的锌指蛋白是自然界中不存在的蛋白质,其设计/组成主要源自合理标准(rational criteria)。用于设计的合理标准包括应用替代规则和计算机化算法,用于处理存储现有ZFP设计和结合数据信息的数据库中的信息。参见例如美国专利6,140,081 ;6,453,242 ;6,534,261 ;及6,785,613 ;还可参见 W098/53058 ;W0 98/53059 ;W098/53060 ;W002/016536 和 W003/016496 ;及美国专利6,746,838 ;6,866,997 ;及 7,030,215。
[0170]“选择的”锌指蛋白指自然界中没有找到的蛋白质,其生成主要源自经验方法,诸如噬菌体展示、相互作用陷阱、或杂合物选择。参见例如US5,789,538 ;US5, 925, 523 ;US6, 007,988 ;US6, 013,453 ;US6,200,759 ;US 6,733,970 ;US RE39, 229 ;及 W095/19431 ;W096/06166 ;W098/53057 ;W098/54311 ;W000/27878 ;W001/60970 ;W001/88197 及W002/099084o
[0171]“非规范的”锌指蛋白指包含非规范(非C2H2)锌指的蛋白质。如此,与天然存在C2H2锌指蛋白相比,非规范锌指包含至少一个氨基酸的替代、添加和/或删除。非规范锌指的非限制性例子包括那些包含Cys-Cys-His-Cys (例如C3H)(从氨基至羧基)锌配位残基的。
[0172]“同源序列”指与第二序列分享某种程度的序列同一性,而且其序列可以与第二序列的序列相同的第一序列。“同源但不相同的序列”指与第二序列分享某种程度的序列同一性,但其序列与第二序列的序列不相同的第一序列。例如,包含突变型基因之野生型序列的多核苷酸与突变型基因的序列同源但不相同。在某些实施方案中,两个序列之间的同源性程度足以容许它们之间利用正常细胞机制进行同源重组。两个同源但不相同的序列可以是任何长度,而且它们的非同源性程度可以小至单个核苷酸(例如用于通过靶向同源重组来校正基因组点突变)或大至10千碱基或更多(例如用于在染色体中预定位点处插入基因)。包含同源但不相同序列的两个多核苷酸不必具有相同长度。例如,可以使用20和10,000个核苷酸或核苷酸对之间的外源多核苷酸(即供体多核苷酸)。
[0173]用于测定核酸和氨基酸序列同一性的技术是本领域已知的。典型地,此类技术包括对基因测定mRNA 的核苷酸序列和/或测定由其所编码的氨基酸序列,并将这些序列与第二核苷酸或氨基酸序列进行比较。基因组序列也可以以这种方式进行测定和比较。一般而言,同一'I"生指两个多核苷酸序列间准确的核苷酸与核苷酸(nucleotide-to-nucleotide)对应或两个多肽序列间准确的氨基酸与氨基酸(amino acid-to-amino acid)对应。两个或更多个序列(多核苷酸或氨基酸)可以通过测定它们的百分比同一性来进行比较。两个序列(无论是核酸序列还是氨基酸序列)的百分比同一性是两个比对序列之间的准确匹配的数目除以较短序列的长度并乘以100。核酸序列的近似比对由Smith和Waterman, Advances in Applied Mathematics2:482-489 (1981)的局部同源性算法提供。该算法可以通过使用如下评分矩阵而应用于氨基酸序列,所述评分矩阵由Dayhoff,Atlasof Protein Sequences and Structure, M.0.Dayhoff 编,5suppl.3:353-358,NationalBiomedical Research Foundation, Washington, D.C., USA Jf 发,并由 Gribskov, Nucl.Acids Res.14(6):6745-6763(1986)标准化。该算法测定序列百分比同一性的例示性执行由 Genetics Computer Group (Madison, WI)在“最佳拟合”(“BestFit”)实用申请(utility application)中提供。这种方法的缺省参数记载于Wisconsin SequenceAnalysis Package Program Manual,第 8 版(1995)(可得自 Genetics ComputerGroup, Madison, WI)。在本公开的背景中建立百分比同一性的例示性方法是使用MPSRCH程序包,所述MPSRCH程序包的版权为University of Edinburgh所有,由John F.Collins和Shane S.Sturrok开发,并由 IntelliGenetics, Inc.(Mountain View, CA)销售。自这套程序包,可以采用Smith-Waterman算法,其中将缺省参数用于评分表(例如缺口打开罚分为12,缺口延伸罚分为1,且缺口为6)。自所产生的数据,“匹配”值反映序列同一性。其它适于计算序列间百分比同一性或相似性的程序是本领域普遍知道的,例如,另一种比对程序是与缺省参数一起使用的BLAST。例如,可以使用BLASTN和BLASTP,其使用以下缺省参数:遗传代码=标准;滤器(filter) =无;链=双链(both);截留(cutoff) =60 ;期望(expect) =10 ;矩阵(Matrix) =BL0SUM62 ;描述(Descriptions) =50 个序列;排序(sort by) =HIGH SCORE ;数据库(Databases)=非冗余的,GenBank+EMBL+DDBJ+PDB+GenBank CDS翻译 +Swiss 蛋白质+Spupdate+PIR。这些程序的详情可以在因特网上找到。关于本文所述序列,序列同一性的期望程度范围是大约35%至100%和其间的任何整数值。典型地,序列间百分比同一性是至少 35%-40% ;40%-45% ;45%-50% ;50%-60% ;60%-70% ;70-75%,优选 80-82%,更优选 85%_90%,甚至更优选92%,还更优选95%,并且最优选98%的序列同一性。
[0174]或者,多核苷酸间序列相似性的程度可以如下测定,即在容许同源区间形成稳定双链体的条件下进行多核苷酸杂交,接着使用单链特异性核酸酶进行消化,并测定消化后片段的大小。若根据使用上述方法的测定,两个核酸序列或两个多肽序列在限定长度的分子里展现至少大约70%-75%,优选80%-82%,更优选85%_90%,甚至更优选92%,还更优选95%,并且最优选98%的序列同一性,则所述两个核酸序列或两个多肽序列彼此基本上同源。在用于本文时,基本上同源还指相对于指定的DNA或多肽序列显示完全同一性的序列。基本上同源的DNA序列可以在Southern杂交实验中于例如严格条件(由那种特定系统所确定)下鉴定。确定合适杂交条件是在本领域技术范围内的。参见例如Sambrook等,见上文;Nucleic Acid Hybridization:A Practical Approach,编辑 B.D.Hames 和SJ.Higgins, (1985)Oxford;Washington, DC;IRL Press。
[0175]两个核酸片段的选择性杂交可以如下测定。两个核酸分子之间序列同一性的程度影响此类分子间杂交事件的效率和强度。部分相同的核酸序列至少会部分抑制完全相同序列与靶分子的杂交。对完全相同序列的杂交的抑制可以使用本领域公知的杂交测定法来评估(例如Southern(DNA)印迹、Northern (RNA)印迹、溶液杂交等,参见Sambrook等,Molecular Cloning:A Laboratory Manual,第二版,(1989)Cold Spring Harbor, N.Y.)。此类测定法可以使用不同程度的选择性(例如使用从低严格性至高严格性的不同条件)来实施。如果采用低严格性条件,那么非特异性结合的缺乏可以如下评估,即使用甚至缺乏部分程度序列同一性的第二探针(例如与靶分子具有小于大约30%序列同一性的探针),使得在没有非特异性结合事件时,所述第二探针不会与靶物杂交。
[0176]在利用基于杂交的检测系统时,选择与参照核酸序列互补的核酸探针,然后通过选择合适的条件,使得所述探针和参照序列彼此选择性杂交或结合以形成双链体分子。能够在中等严格杂交条件下选择性杂交参照序列的核酸分子典型地在如下条件发生杂交,所述条件容许检测与选定核酸探针序列具有至少大约70%序列同一性的、长度为至少大约10-14个核苷酸的靶核酸序列。严格杂交条件典型地容许检测与选定核酸探针序列具有大于大约90-95%序列同一性的、长度为至少大约10-14个核苷酸的靶核酸序列。对于探针/参照序列杂交有用的杂交条件(其中探针和参照序列具有特定程度的序列同一性)可以如本领域所知的那样确定(参见例如 Nucleic Acid Hybridization:A Practical Approach,编辑 B.D.Hames 和 S.J.Higgins, (1985) Oxford; Washington, DC; IRL Press)。
[0177]杂交条件对于本领域技术人员是公知的。杂交严格性指杂交条件不利于形成含有错配核苷酸的杂合物所达到的程度,其中较高的严格性与对错配杂合物较低的耐受性相关。影响杂交严格性的因素对于本领域技术人员是公知的,并且包括但不限于温度、pH、离子强度、及有机溶剂(诸如例如甲酰胺和二甲亚砜)浓度。正如本领域技术人员所知的,杂交严格性由于温度升高、离子强度降低及溶剂浓度降低而增加。
[0178]关于杂交的严格性条件, 本领域公知的是可以采用很多等同条件来建立特定的严格性,这通过改变例如下列因素来实现:序列的长度和性质、各种序列的碱基组成、盐类和其它杂交溶液成分的浓度、杂交溶液中是否存在封闭剂(例如硫酸右旋糖苷和聚乙二醇)、杂交反应温度及时间参数;以及改变洗涤条件来实现。杂交条件的具体集合的选择遵循本领域的标准方法进行(参见例如 Sambrook 等,Molecular Cloning:A Laboratory Manual,第二版,(1989) Cold Spring Harbor, N.Y.)。
[0179]“重组”指两个多核苷酸之间交换遗传信息的过程。为了本公开的目的,“同源重组(HR)”指在例如细胞中双链断裂的修复过程中发生的此类交换的专门化形式。这种过程要求核苷酸序列同源性,使用“供体”分子来进行“靶物”分子(即经历了双链断裂的分子)的模板修复,并且因为其导致遗传信息从供体转移至靶物,因而不同地称为“非交叉型基因转换” (“non-crossover gene conversion”)或“短道基因转换” (“shorttract gene conversion”)。在不希望被任何具体理论限制的前提下,这种转移可以牵涉断裂的靶物和供体之间所形成的异源双链体DNA的错配校正,和/或“合成依赖性链退火”(“synthesis-dependent strand annealing”)(其中使用供体来再合成会变为革巴物一部分的遗传信息),和/或相关过程。这种专门化的HR通常导致靶物分子序列的改变,使得供体多核苷酸序列的部分或整个掺入靶多核苷酸中。
[0180]“切割”指DNA分子共价主链的断裂。切割可以通过多种方法来启动,包括但不限于磷酸二酯键的酶促或化学水解。单链切割和双链切割两者都是可能的,而且双链切割可以因为两个不同的单链切割事件而发生。DNA切割可以导致平末端或交错末端的产生。在某些实施方案中,将融合多肽用于靶向双链DNA切割。
[0181]“切割结构域”包含拥有对DNA切割的催化活性的一种或多种多肽序列。切割结构域可以包含在单条多肽链中,或者切割活性可以源自两个(或更多个)多肽的结合。
[0182]“切割半结构域”指与第二多肽(或是相同的或是不同的)结合而形成具有切割活性(优选双链切割活性)的复合物的多肽序列。
[0183]术语“切割结构域”和“切割半结构域”包括切割结构域或切割半结构域的野生型结构域和部分或突变体,其保留多聚`化(例如二聚化)以形成功能性切割结构域的能力。
[0184]“染色质”指包含细胞基因组的核蛋白结构。细胞染色质包含核酸(主要是DNA)及蛋白质(包括组蛋白和非组蛋白染色体蛋白质)。大多数真核细胞染色质以核小体形式存在,其中核小体核心包含大约150个碱基对的DNA,该DNA与包含双份各为组蛋白H2A、H2B、H3和H4的八聚体结合;并且连接区DNA (是可变长度的,取决于生物体)在核小体核心之间延伸。一般地,一分子组蛋白Hl与连接区DNA结合。为了本公开的目的,术语“染色质”意图涵盖细胞核蛋白的所有类型,原核生物的及真核生物的两者。细胞染色质包括染色体型的和附加体型的染色质两者。
[0185]“染色体”指包含细胞基因组的整个或部分的染色质复合物。通常,细胞基因组的特征在于其核型,其是构成细胞基因组的所有染色体的集合(collection)。细胞基因组可包含一个或多个染色体。
[0186]“附加体” Gpisome)指复制型核酸、核蛋白复合物或包含不是细胞染色体核型一部分的核酸的其它结构。附加体的例子包括质粒和某些病毒基因组。
[0187]“可及区”(accessible region)指细胞染色质中的如下位点,其中核酸中存在的靶位点可以被识别该靶位点的外源分子结合。在不希望被任何具体理论限制的前提下,认为可及区是不被包装入核小体结构中的区域。不同的可及区结构通常可以通过其对化学和酶探针(例如核酸酶)的敏感性来检测。[0188]“靶位点”或“靶序列”指对结合分子会结合(倘若存在足以使结合发生的条件的话)的核酸部分进行限定的核酸序列。例如,序列5’ -GAATTC-3’是Eco RI限制性内切核酸酶的靶位点。[0189]“外源的”分子指正常情况下不存在于细胞中但可以通过一种或多种遗传的、生化的或其它方法而导入细胞中的分子。“正常存在于细胞中”是相对于细胞的特定发育阶段和环境条件而确定的。如此,例如,仅存在于肌肉的胚胎发育过程中的分子是相对于成年肌肉细胞的外源分子。类似地,由热休克所诱导的分子是相对于未热休克细胞的外源分子。外源分子可以包含例如机能失常的(malfunctioning)内源分子的机能(functioning)型式或正常机能的内源分子的机能失常型式。[0190]外源分子可以是小分子(诸如通过组合式化学方法所生成的)、或大分子(诸如蛋白质、核酸、碳水化合物、脂质、糖蛋白、脂蛋白、多糖)、上述分子的任何修饰衍生物、或任何包含一种或多种上述分子的复合物等等。核酸包括DNA和RNA,可以是单链或双链;可以是线性的、分枝的或环状的;而且可以是任何长度的。核酸包括那些能够形成双链体的核酸,以及形成三链体的核酸。参见例如美国专利N0.5,176,996和5,422,251。蛋白质包括但不限于DNA结合蛋白、转录因子、染色质重建因子(chromatin remodeling factor)、甲基化DNA结合蛋白、聚合酶、甲基化酶、脱甲基酶、乙酰化酶(acetylase)、脱乙酰基酶、激酶、磷酸酶、整合酶、重组酶、连接酶、拓扑异构酶、促旋酶、及解旋酶。[0191]外源分子可以是与内源分子相同类型的分子,例如外源蛋白质或核酸。例如,外源核酸可以包含感染性病毒基因组、根癌土壤杆菌(Agrogacterium tumefacians) T链、导入细胞中的质粒或附加体、或正常情况下不存在于细胞中的染色体。但是,外源核酸或多核苷酸可包含与内源序列同源或相同的序列。相对于特定内源基因组区域,“外源序列”指不存在于该区域的核苷酸序列。该外源序列可存在于另一内源染色体位置或其可能根本不存在于基因组中。如此,外源多核苷酸可包含外源和内源序列两者:例如,侧翼为与基因组区域同源的序列的转基因。在下文所述用于靶向整合和靶向重组的方法中使用此类外源核酸。用于将外源分子导入细胞中的方法对于本领域技术人员是已知的,并且包括但不限于脂质介导的转移(即脂质体,其包括中性脂质和阳离子脂质)、电穿孔、直接注射、细胞融合、粒子轰击、磷酸钙共沉淀、DEAE-右旋糖苷介导的转移、及病毒载体介导的转移。[0192]比较而言,“内源的”分子指正常存在于特定环境条件下处于特定发育阶段的特定细胞中的分子。例如,内源核酸可以包含染色体,线粒体、叶绿体或其它细胞器的基因组,或天然存在的附加体型核酸。别的内源分子可以包括蛋白质,例如转录因子和酶。[0193]“融合(物)”分子指其中有两个或更多个亚基分子连接(例如共价地)在一起的分子。亚基分子可以是相同化学类型的分子,或者可以是不同化学类型的分子。第一种类型的融合分子的例子包括但不限于融合蛋白(例如ZFP DNA结合结构域和切割结构域之间的融合物)和融合核酸(例如编码上文所述融合蛋白的核酸)。第二种类型的融合分子的例子包括但不限于形成三链体的核酸和多肽之间的融合物,及小沟结合物和核酸之间的融合物。[0194]融合蛋白在细胞中的表达可以源自将该融合蛋白投递至细胞或者通过将编码该融合蛋白的多核苷酸投递至细胞,其中所述多核苷酸被转录,而且转录物被翻译,以生成所述融合蛋白。蛋白质在细胞中的表达还可以牵涉反式剪接、多肽切割和多肽连接。用于将多核苷酸和多肽投递至细胞的方法在本公开的别处提出。
[0195]“基因”为了本公开的目的包括编码基因产物的DNA区域(见下文),以及调苄基因产物生成的所有DNA区域,无论此类调节序列是否邻近编码序列和/或被转录序列。因而,基因包括但不必限于启动子序列、终止子、翻译调节序列(诸如核糖体结合位点和内部核糖体进入位点)、增强子、沉默基因(silencer)、绝缘子(insulator)、边界元件、复制起点、基质附着位点、及基因座控制区。
[0196]“基因表达”指基因中所含信息转换成基因产物。基因产物可以是基因的直接转录产物(例如mRNA、tRNA、rRNA、反义RNA、核酶、结构性RNA或任何其它类型的RNA)或通过mRNA翻译所生成的蛋白质。基因产物还包括通过加帽、聚腺苷酸化、甲基化和编辑等过程所修饰的RNA,及通过例如甲基化、乙酰化、磷酸化、遍在蛋白化、ADP-核糖基化、肉豆蘧基化和糖基化所修饰的蛋白质。
[0197]基因表达的“调控”指基因活性的变化。表达调控可以包括但不限于基因激活和基因阻抑。
[0198]“植物”细胞包括但不限于单子叶(monocot)或双子叶(dicot)植物的细胞。单子叶植物的非限制性例子包括谷类植物,诸如玉米、稻、大麦、燕麦、小麦、高粱、黑麦、甘蔗、菠萝、洋葱、香蕉、及椰子。双子叶植物的非限制性例子包括烟草、番茄、向日葵、棉、甜菜、马铃薯、莴苣、甜瓜(melon)、大豆、芸苔(油菜)、及苜蓿。植物细胞可以来自植物的任何部分和/或来自植物发育的任何阶段。
[0199]“感兴趣区域”指期望与外源分子结合的任何细胞染色质区域,诸如例如基因或基因内或与基因邻近的非编码序列。结合可以是为了靶向DNA切割和/或靶向重组的目的。例如,感兴趣区域可以 存在于染色体、附加体、细胞器基因组(例如线粒体的、叶绿体的)、或感染性病毒基因组中。感兴趣区域可以在基因的编码区内、转录的非编码区(诸如例如前导序列、尾随序列或内含子)内、或非转录区(或是编码区上游或是编码区下游)内。感兴趣区域的长度可以小至单个核苷酸对或高达25,000个核苷酸对,或任何整数值的核苷酸对。
[0200]术语“可操作连接”关于两个或更多个构件(诸如序列元件)并列时可互换使用,其中对所述构件进行排列使得两个构件都正常发挥功能,并容许所述构件中至少一个可以介导施加于其它构件中至少一个的功能的可能性。举例而言,若转录调节序列在应答一种或多种转录调节因子存在与否时控制编码序列的转录水平,则该转录调节序列(诸如启动子)可操作连接至该编码序列。转录调节序列一般顺式地与编码序列可操作连接,但不需直接与其邻近。例如,增强子是与编码序列可操作连接的转录调节序列,即使它们不是连续的。
[0201]关于融合多肽,术语“可操作连接”可以指每个构件在连接另一个构件时执行的功能与其在不如此连接时其会执行的功能相同的实情。例如,关于其中ZFP DNA结合结构域融合至切割结构域的融合多肽,如果在该融合多肽中,ZFP DNA结合结构域部分能够结合其靶位点和/或其结合位点,而切割结构域能够切割靶位点附近的DNA,那么该ZFP DNA结合结构域和该切割结构域是可操作连接的。
[0202]蛋白质、多肽或核酸的“功能性片段”指其序列与全长蛋白质、多肽或核酸不同,但仍保留与全长蛋白质、多肽或核酸相同功能的蛋白质、多肽或核酸。功能性片段可以拥有与相应天然分子相比更多、更少或相同的残基数目,和/或可以包含一处或多处氨基酸或核苷酸替代。用于测定核酸功能(例如编码功能、与另一核酸杂交的能力)的方法是本领域公知的。类似地,用于测定蛋白质功能的方法是公知的。例如,多肽结合DNA的功能可以通过例如滤器结合(filter-binding)、电泳迁移率变动、或免疫沉淀测定法来测定。对DNA的切割可以通过凝胶电泳来测定。参见Ausubel等,见上文。一种蛋白质与另一种蛋白质相互作用的能力可以通过例如免疫共沉淀、双杂交测定法或互补(遗传的和生化的两者)来测定。参见例如 Fields 等,(1989) Nature 340:245-246 ;美国专利 N0.5,585,245 及 PCTW098/44350。
[0203]锌指结合结构域 [0204]本文中所描述的是非规范锌指结合结构域和编码这些锌指结合结构域的多核苷酸。在某些实施方案中,本文所述非规范锌指结合结构域是C3H锌指,其中两个保守的锌配位组氨酸残基之一被转换为半胱氨酸。在别的实施实施方案中,最C端的组氨酸残基被转换为半胱氨酸残基,生成“CCHC蛋白”。
[0205]锌指结合结构域可包含一个或多个锌指(例如2、3、4、5、6、7、8、9或更多个锌指),而且可被改造成结合任何靶序列(例如基因组序列)。锌指结合结构域可结合DNA、RNA和/或蛋白质。典型地,单个锌指结构域的长度为约30个氨基酸。锌指包括规范C2H2锌指(SP那些其中锌离子由两个半胱氨酸和两个组氨酸残基配位的锌指)和非规范锌指(包括例如C3H锌指,即那些其中锌离子由三个半胱氨酸残基和一个组氨酸残基配位的锌指)两者。还可参见美国专利申请N0.20030108880 ;20060246567 ;和20060246588,通过提及而收录它们的公开内容。
[0206]结构研究已经证实,规范锌指结构域(基序)包含两个β片层(保持在包含两个不变的半胱氨酸残基的β转角中)和一个α螺旋(包含两个不变的组氨酸残基),它们通过两个半胱氨酸和两个组氨酸配位锌原子而以特定的构象保持。本文中所公开的非规范锌指保持这种β - β - α结构。
[0207]本文所述非规范锌指可以是天然存在锌指结合结构域。然而,更典型地,本文所述非规范锌指包括一个或多个如下锌指构件,其中已经用一个或多个氨基酸替换至少一个锌配位半胱氨酸或组氨酸残基。例如,在某些实施方案中,用Cys残基替换规范锌指结合模块的C端His残基。
[0208]本文所述CCHC锌指还可包含氨基酸残基序列中除锌配位残基外的一处或多处改变(相对于天然存在C2H2锌指序列)。此类改变可包含替代、删除、和/或插入。可在锌指中任何地方改变氨基酸。改变的非限制性例子包括:(I)被改变的锌配位残基周围的单个残基替代;(2)被改变的锌配位残基之前或之后的额外残基插入,(例如在最C端的His残基被转换为Cys的情况中,额外氨基酸残基的添加可通过补偿较短的半胱氨酸侧链而促进锌配位);和/或(3)将位于天然存在CCHC锌指的His和Cys残基间的残基替换至非规范CCHC锌指的相应区域中。
[0209]在某些实施方案中,本文所述锌指蛋白包含至少一个锌指,其包括非规范(非C2H2)锌指,其中非规范锌指具有牵涉DNA结合的螺旋部分且其中螺旋部分的锌配位区包含氨基酸序列HxiX2RCXJSEQ ID NO:2);且其中锌指蛋白被改造成结合靶序列。在某些实施方案中,X1是A或K或T ;X2是Q或E或R ;而\是G。
[0210]在其它实施方案中,本文所述非规范锌指具有一般结构:Cys-(Xa) 2_4_CyS-(Xb)12-His-(Xc) 3-5-Cys-(Xd) no (SEQ ID NO: 3),其中 XA、XB、Xg 和 Xd 代表任何氨基酸。在 Xg 包含 3个残基的实施方案中,(i)与规范CCHC锌指相比,改变这些残基中至少一个;和/或(ii)XD包含与规范CCHH锌指相比的至少一处删除、替代或插入。在某些实施方案中,Xd包含序列QLV或QKP。在其它实施方案中,Xd包含一个或多个(例如I个、2个、3个、4个、5个、6个、7个、8个、9个、或10个)Gly(G)残基。
[0211]在表1、表2、表3和表4中显示了例示性非规范锌指的部分氨基酸序列(在第3个锌配位残基的C端并包括第3个锌配位残基)。在所有的表中,两个最C端(即第3个和第4个)锌配位残基(H和C)加了下划线。以双下划线显示了与“野生型”非规范指序列(表1和表3的第2行)相比的改变(例如替代、插入、删除)。
[0212]表1
【权利要求】
1.一种锌指蛋白,其包含多个锌指,其中至少一个锌指是非规范(非C2H2)锌指,所述非规范锌指具有牵涉DNA结合的螺旋部分且包含序列Cys- (Xa) 2_4_Cys- (Xb) 12-His_ (Xc) 3_5_Cys-(XD) ^(SEQ ID NO: 3),其中XA、XB、Xe和Xd可以是任何氨基酸且其中 (i)所述锌指蛋白被改造成结合靶序列; (?)所述至少一个非规范锌指与规范C2H2锌指相邻;且 (iii)其中(Xd)1,由3个氨基酸组成,所述3个氨基酸残基包括至少一个Arg (R)残基或至少一个Lys (K)残基。
2.权利要求1的锌指蛋白,其包含表1、表2、表3或表4任一中所不任一序列。
3.权利要求1的锌指蛋白,其中Xd包含序列QLV、QKP、G、GG或GGG。
4.权利要求1至3任一项的锌指蛋白,其中所述锌指蛋白包含一个非规范锌指。
5.权利要求1至4任一项的锌指蛋白,其中所述锌指蛋白包含表8中所示任一序列且被改造成结合IPP2-K基因中的靶序列。
6.一种融合蛋白,其包含权利要求1至5任一项的锌指蛋白和一个或多个功能域。
7.权利要求6的融合蛋白,其中所述功能域包含切割半结构域,且其中所述融合蛋白包含插入所述切割半结构域和所述锌指蛋白之间的ZC接头。
8.权利要求7的融合蛋白,其中所述ZC接头的长度是5或6个氨基酸。
9.一种多 核苷酸,其编码依照权利要求1至8任一项的至少一种锌指蛋白或融合蛋白。
10.一种植物细胞,其包含依照权利要求1至9任一项的至少一种锌指蛋白、至少一种融合蛋白或至少一种多核苷酸。
11.权利要求10的植物细胞,其中所述细胞是种子。
12.权利要求10或11的植物细胞,其中IPP2-K是被部分或完全灭活的且种子中植酸水平是降低的。
13.一种用于在植物细胞中靶向切割细胞染色质的方法,所述方法包括在所述细胞中表达一对依照权利要求7的融合蛋白或至少一种编码所述一对融合蛋白的多核苷酸,其中: (a)所述融合蛋白的靶序列彼此相距10个核苷酸之内;且 (b)所述融合蛋白二聚化并切割位于所述靶序列之间的DNA。
14.一种在宿主植物细胞中靶向遗传重组的方法,所述方法包括: (a)在所述宿主细胞中表达一对依照权利要求7的融合蛋白或至少一种编码所述一对融合蛋白的多核苷酸,其中所述融合蛋白的靶序列存在于选定的宿主靶基因座中;并 (b)鉴定在所述宿主靶基因座中展现出序列改变的重组宿主细胞;并 (c)任选将外源多核苷酸导入所述宿主细胞中,其中所述外源多核苷酸在存在时整合至所述宿主植物细胞的基因组中。
15.权利要求14的方法,其中所述序列改变是选自下组的突变:遗传物质的删除、遗传物质的插入、遗传物质的替代及其任何组合。
16.一种用于降低植物种子中植酸水平或使磷在植物种子中更能被代谢利用的方法,所述方法包括依照权利要求14灭活或改变IPP2-K基因。
17.—种锌指蛋白,其包含非规范(非C2H2)锌指,其中所述非规范锌指具有牵涉DNA结合的螺旋部分且其中所述螺旋部分的锌配位区包含氨基酸序列HX1X2RCXL(SEQ ID NO:2);且其中所述非规范锌指包含被改造成结合靶序列的非天然存在识别螺旋区, 其中Π是A,而X2是Q;或 其中Xl是K,而X2是E;或 其中Xl是T, 而X2是R。
【文档编号】C12N15/82GK103613646SQ201310586968
【公开日】2014年3月5日 申请日期:2007年12月13日 优先权日:2006年12月14日
【发明者】其华.C.蔡, 杰弗里.米勒, 菲奥多.厄诺夫, 维普拉.K.舒克拉, 约瑟夫.F.皮托利诺, 莉萨.W.贝克, 罗比.J.加里森, 瑞安.C.布卢, 乔恩.C.米歇尔, 妮科尔.L.阿诺德, 萨拉.E.沃登 申请人:陶氏益农公司, 桑格摩生物科学股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1