识别期望特异性序列的结合蛋白的合理设计的制作方法

文档序号:570656阅读:314来源:国知局
专利名称:识别期望特异性序列的结合蛋白的合理设计的制作方法
识别期望特异性序列的结合蛋白的合理设计
背景技术
分子生物技术的长期存在目标是设计和产生在选择的DNA序列处特异性结合的 DNA结合蛋白的能力,而不是依赖于从自然鉴定的那些蛋白质结合的有限组的DNA序列。 为此目的,与它们的DNA靶序列复合的大量DNA结合蛋白的构建物已经通过结晶学确定 (Lukacs, et al. Nat. Struct. Biol. 7 134-140 (2000),并且已经确定赋予特异性 DNA 碱基 识别的氨基酸残基(Pingoud,et al. Nucleic Acids Res. 29 :3705_3727 (2001))。然而,迄 今为止,合理设计实验——其中特异性氨基酸残基被改变以形成具有新的、预确定特异性 的DNA结合蛋白——没有成功。例如,产生具有新的DNA识别特异性的限制性内切核酸酶 的尝试没有实现它们的希望目标。结果,已经设计如此方法,该方法依赖于随机改变DNA结 合蛋白,然后从随机改变的蛋白质库中选择可与不同DNA序列结合的那些蛋白质。通常这 样的尝试产生如此的蛋白质,其结合相对于起始蛋白质具有松弛特异性,或者与相似的、非 靶DNA序列相比,其对它们的靶DNA结合序列具有低的特异性。但是,合理设计结合蛋白的有效方法将允许扩大可被结合和作用以产生生物事件 的独特识别序列的数目。

发明内容
本发明的实施方式提供鉴定在结合蛋白的特定位置处的选择的氨基酸残基和结 合蛋白结合的识别序列中的模块之间的关系的方法。该方法包括使用初始的结合蛋白在 BLAST检索中查询数据库来产生结合蛋白组。每个结合蛋白的性质包括限定的氨基酸序列, 在BLAST检索结果中,在该组中的氨基酸序列对于大于200个氨基酸的序列具有小于e-20 的期望值(E)或对于小于200个氨基酸的序列具有小于e-10的期望值(E)。另外,结合蛋 白与包含位置特异性模块的底物中的特异性靶识别序列结合。该方法进一步包括比对该蛋 白质组中的氨基酸序列。该组中结合蛋白识别的靶识别序列也被比对,其中该比对可通过 特异性靶识别序列中的位置依赖性特征进行。该识别序列中比对位置特异性模块与结合蛋 白的比对氨基酸序列中一个或多个位置特异性氨基酸之间的相关性被鉴定。在本发明另外的实施方式中,提供通过使用该结合蛋白组的成员在另外的BLAST 检索中查询数据库来扩大结合蛋白组的方法。在本发明另外的实施方式中,提供在该组中多个结合蛋白内鉴定一个氨基酸残基 或多个氨基酸残基的类型和位置的方法,所述氨基酸残基确定在识别序列中的一个或多个 位置特异性模块的识别。氨基酸残基的类型和位置可以连同与该结合蛋白组的一个或多个 比对的识别序列中一个或多个位置特异性模块的相关性一起记录在目录中。该目录可用于 合理地修饰比对的结合蛋白的氨基酸序列以识别改变的特异性靶识别序列。氨基酸序列的 合理修饰可通过在单一结合蛋白中的相关位置处非随机地突变一个或多个氨基酸以引起 结合蛋白的特异性靶识别序列的可预测改变来实现。在本发明另外的实施方式中,提供这样的方法,其中该组的结合蛋白成员具有已 知的的氨基酸序列,但是具有未表征的特异性靶识别序列。该方法包括通过下列步骤鉴定识别序列中的位置特异性模块的步骤(i)检查比对的结合蛋白组中结合蛋白成员的氨基 酸序列的比对;(ii)读出在目录中记录的位置处的氨基酸残基;和(iii)比较结合蛋白成 员中的氨基酸残基与目录中记录的氨基酸残基,以确定结合蛋白成员的特异性靶识别序 列。在一个另外的实施方式中,每个位置特异性模块是DNA底物中的一个或多个核苷 酸。另外地,结合蛋白组可以是一组DNA结合蛋白,例如MmeI-样蛋白。在本发明另外的实施方式中,提供了通过改变MmeI的氨基酸序列中预确定的一 个位置或多个位置处或MmeI样DNA结合蛋白中一个或多个等价的比对位置处的氨基酸残 基,来改变MmeI样DNA结合蛋白的DNA识别序列的方法。作为MmeI结合蛋白中氨基酸修 饰的标靶的预确定位置的实例是位置751+773、806+808、774+810、774、774+810+809和809 的任一个。这些预确定位置的改变可进一步包括在DNA识别序列的位置3、4和6的一处或 多处识别的一个或多个核苷酸的改变。本发明的实施方式提供产生结合蛋白的方法,所述结合蛋白识别合理选择的识别 序列,所述方法包括使用蛋白质组的成员蛋白质的位点定向诱变在鉴定的与选择的特异性 靶模块识别相关的一个位置或多个位置处用第二氨基酸取代第一氨基酸。本发明的实施方式提供了自动化上述方案的方法,其包括在计算机可读存储器 中的数据库中存储结合蛋白的氨基酸序列和通过执行储存在计算机中的指令完成一个或 多个上述步骤。更具体地,提供了自动化在图25A的方框1、2、3、4、6和7B中描述的一个或 多个功能的方法。提供了自动化图25B中一个或多个步骤的另外的方法,以便需要湿法化 学的步骤通过与计算机相连的、能实施湿法化学的装置实施。本发明的实施方式提供MmeI样酶的组合物,所述MmeI样酶具有导致在预确定位 置处至少一个改变的氨基酸残基的突变,所述预确定位置具有对于DNA识别序列的特异 性,所述DNA识别序列与未改变的酶的DNA识别序列相比至少一个碱基不同。该至少一个 碱基不同可以是识别序列的长度不同,其对应于从识别序列添加或缺失核苷酸,或对应于 特定位置处的选择性识别的核苷酸。本发明的实施方式提供包括存储指令的存储器和执行指令的计算机的系统,当指 令被执行时,其使用初始的结合蛋白在BLAST检索中查询数据库而产生结合蛋白组,其中 每个结合蛋白具有限定的氨基酸序列,所述氨基酸序列对于大于200个氨基酸的序列具有 小于e-20的期望值(E)或对于小于200个氨基酸的序列具有小于e_10的期望值(E);结 合蛋白与底物中特异性靶识别序列相结合,所述靶识别序列包含位置特异性模块。另外地, 该系统可包括指令,当执行时,其比对结合蛋白识别的特异性靶识别序列;和比对该组的结 合蛋白的氨基酸序列。另外地,该系统可包括指令,当执行时,其鉴定识别序列中比对的位 置特异性模块与结合蛋白的比对氨基酸序列中一个或多个位置特异性氨基酸之间的相关 性。该系统可进一步包括接收来自蛋白质合成和蛋白质结合分析装置的数据并包含指令的 工具,当其执行时,所述指令使用该数据,通过证实突变蛋白质与预确定识别序列结合的预 测来确认该相关性;和将该数据组织成在鉴定位置处确认的一个氨基酸或多个氨基酸的目 录,所述鉴定位置确定识别序列中模块位置和类型的识别。在本发明的另一实施方式中,提供具有存储指令的存储器和执行指令的计算机的 系统,当指令被执行时,其(a)在第一数据库中收集和比对结合蛋白的氨基酸序列的分选组,并且在第二数据库中收集和比对至少所述结合蛋白的亚组的识别序列的分选组,其中 第一数据库从氨基酸或核苷酸序列的第三数据库的自动化检索获得;(b)鉴定该氨基酸序 列组中选择的比对位置处的氨基酸和识别序列中选择的比对模块位置处的模块之间的相 关性;(c)从蛋白质合成和蛋白质结合分析仪器接收关于相关性的数据,以使用所述数据, 通过证实突变蛋白质与预确定识别序列结合的预测来确认该相关性;和(d)将该数据组织 成在鉴定位置处确认的一个氨基酸或多个氨基酸的目录,所述鉴定位置确定在识别序列中 模块位置和类型的识别。在本发明另外的实施方式中,提供具有存储指令的存储器和执行指令的计算机的 系统,所述指令存储第一结合蛋白中的一个或多个氨基酸残基的位置信息,进行靶向突变 以产生第二结合蛋白,所述第二结合蛋白在由所述蛋白质识别的模块的序列内的序列位置 中具有预测的模块改变。这样的存储指令的实例在图7A中提供。附图简述

图1示出了合理改变的MmeI E806K+R808D的切割活性。在图IA中,泳道2-5示出合理改变的MmeI E806K+R808D酶对多种DNA底物产生 的切割模式。泳道2中的DNA底物是λ DNA,泳道3中-T7DNA,泳道4中-Τ3 DNA和泳道5 中-pBC4DNA。泳道 1 和 6 是 λ -HindIII+PhiX174_HaeIII 大小标准品。在图IB中,泳道2-7示出合理改变的MmeI E806K+R808D对pBR322 DNA的切割 活性的作图。泳道2-7是使用合理改变的MmeI E806K+R808D酶加下列单位点酶切割的 PBR322DNA 泳道 2-EcoRI、泳道 3_NruI、泳道 4-PvuII、泳道 5_NdeI、泳道 6-PstI 和泳道 7-仅合理改变的MmeI。泳道1和8是λ -HindIII+PhiX174_HaeIII大小标准品。在图IC中,该图显示在pBR322 DNA中野生型MmeI位点、TCCRAC和合理改变的 MmeI E806K+R808D位点、TCCRAG的位置,连同用于作图的酶的位置。图 2 示出合理改变的 NmeAIII K816E+D818R 对 pBR322、PhiX 和 pBC4DNA 的作图。 泳道2-5是使用合理改变的NmeAIII K816E+D818R酶加下列单位点酶切割的pBR322DNA 泳道2-EcoRI、泳道3-NruI、泳道4-PvuII和泳道5_PstI。泳道7_10是使用合理改变的 NmeAI 11 K816E+D818R酶加下列单位点酶切割的PhiX174DNA 泳道7_PstI、泳道8_SspI、泳 道9-NciI和泳道IO-StuI0泳道12-15和17是使用合理改变的NmeAIII K816E+D818R酶加 下列单位点酶切割的PBC4DNA 泳道12-AvrII、泳道13-PmeI、泳道14_AscI、泳道15_EcoRV 和泳道17-NdeI。泳道1、11和16是λ -HindiII+PhiX-Hael11大小标准品。泳道6是 λ -BstEII+pBR322-MspI 大小标准品。图3示出合理改变的Mme4GI =MmeI A774L的切割活性。在图3A中,泳道2-5示出合理改变的MmeI A774L酶对多种DNA底物产生的切割模 式。泳道2是λDNA、泳道3-T7DNA、泳道4-T3DNA和泳道5-pBR322DNA。泳道7_11示出合 理改变的MmeI A774L对PhiX DNA的切割活性的作图。泳道7_11是使用合理改变的MmeI A774L酶加下列单位点酶切割的PhiX DNA 泳道7_PstI、泳道8_SspI、泳道9_NciI、泳道 IO-StuI 和泳道 11-仅合理改变的 Mmel。泳道 1、6 和 12 是 λ-HindIII+PhiX174-HaeIII 大小标准品。在图3B中,泳道2-8示出合理改变的MmeIA774L对pBC4DNA的切割活性的作图。 泳道2-8是使用合理改变的MmeI A774L酶加下列单位点酶切割的pBC4DNA 泳道2_NdeI、泳道3-AvrII、泳道4-PmeI、泳道5_AscI、泳道6_SpeI、泳道7_EcoRV和泳道8-仅合理改变 的 MmeI。泳道 1 和 8 是 λ -HindIII+PhiX174_HaeIII 大小标准品。图4示出合理改变的Mme4CI酶MmeI A774K+R801S的切割活性。在图4A中,泳道2-4示出合理改变的MmeI A774K+R801S酶对多种DNA底 物产生的切割模式泳道2是λ DNA、泳道3-T7DNA和泳道4-T3DNA。泳道1和5是 λ -HindIII+PhiX174-HaeIII 大小标准品。图4B示出合理改变的MmeI A774K+R801S对pBC4DNA的切割活性的作图。泳道2_8 是使用合理改变的MmeI A774K+R801S酶加下列单位点酶切割的pBC4 DNA 泳道2_NdeI、泳 道3-AvrII、泳道4-PmeI、泳道5_AscI、泳道6_SpeI、泳道7_EcoRV和泳道8-仅合理改变的 MmeI0 泳道 1 和 8 是 λ-HindIII+PhiX174-HaeIII 大小标准品。图5示出合理改变的Mme3GI酶MmeI E751R+N773D的切割活性。图5A示出合理改变的MmeI E751R+N773D对pUC19DNA的切割活性的作图。泳 道2-6是使用合理改变的MmeI E751R+N773D加下列单位点酶切割的pUC19DNA 泳道 2-Eco0109I、泳道 3-PstI、泳道 4-AlwNI、泳道 5-XmnI 和泳道 6-仅 MmeI E751R+N773D 酶。 泳道 1 是 λ -HindIII+PhiX-HaeIII 大小标准品。泳道 7 是 λ -BstEII+pBR322-MspI 大小 标准品。图5B示出合理改变的MmeI E751R+N773D对pBR322DNA的切割活性的作图。泳 道2-6是使用合理改变的MmeI E751R+N773D加下列单位点酶切割的pBR322 DNA 泳道 2-EcoRI、泳道 3-NruI、泳道 4-PvuII、泳道 5-PstI 和泳道 6-仅 MmeI E751R+N773D 酶。泳 道 6 是 λ -HindIII+PhiX-HaeIII 大小标准品。泳道 1 是 λ -BstEII+pBR322-MspI 大小标准品。图5C示出合理改变的MmeI E751R+N773D对PhiX DNA的切割活性的作图。泳道 2-6是使用合理改变的MmeI E751R+N773D加下列单位点酶切割的PhiXDNA 泳道2_PstI、 泳道 3-SspI、泳道 4-NciI、泳道 5_StuI、泳道 6-仅 MmeI E751R+N773D 酶。泳道 1 是 λ -HindIII+PhiX-HaeIII 大小标准品。泳道 7 是 λ -BstEII+pBR322-MspI 大小标准品。图5D示出合理改变的MmeI E751R+N773D对pBC4 DNA的切割活性的作图。泳道2_8 是使用合理改变的MmeI E751R+N773D酶加下列单位点酶切割的pBC4DNA 泳道2_NdeI、泳 道3-AvrII、泳道4-PmeI、泳道5_AscI、泳道6_SpeI、泳道7_EcoRV和泳道8-仅合理改变的 MmeI。泳道 1 是 λ -HindIII+PhiX-HaellI 大小标准品。泳道 8 是 λ -BstEII+pBR322-MspI 大小标准品。图6示出合理改变的Mme6RI :MmeI E806G+R808G(+S807N)的切割活性。图6A示出合理改变的MmeI :E806G+R808G(+S807N)对pUC19DNA的切割活性。泳 道2-5是使用合理改变的MmeI E806G+R808G(+S807N)加下列单位点酶切割的pUC19 泳道 2-Eco0109I、泳道 3-PstI、泳道 4-AlwNI、泳道 5-XmnI。泳道 1 是 λ -BstEII+pBR322-MspI 大小标准品。泳道6是λ -HindIII+PhiX-HaeIII大小标准品。图 6B 示出合理改变的 MmeI :E806G+R808G (+S807N)对 pBR322 和 PhiX174 DNA 的 切割活性。泳道2-5是使用合理改变的MmeI E806G+R808G(+S807N)加下列单位点酶切割 的pBR322 泳道2-EcoRI、泳道3-NruI、泳道4-PvuII、泳道5-PstI。泳道7-10是使用合 理改变的MmeI E806G+R808G(+S807N)加下列单位点酶切割的PhiX174 泳道7_PstI、泳道8-SspI、泳道 9-NciI 和泳道 IO-StuI。泳道 1 和 11 是 λ -HindIIΙ+PhiX-HaeIII 大小标准 品。泳道7是λ -BstEII+pBR322-MspI大小标准品。图 7 示出合理改变的 Mme6BI 酶MmeI E806G+R808T 对 pUC19、pBR322 和 PhiX DNA的切割活性。泳道2-6是使用合理改变的MmeI E806G+R808T酶加下列单位点酶切割 的 pUC19DNA 泳道 2-Eco0109I、泳道 3_PstI、泳道 4-AlwNI、泳道 5-XmnI 和泳道 6-仅 MmeI E806G+R808T酶。泳道8_12是使用合理改变的MmeI E806G+R808T酶加下列单位点酶切割 的 pBR322DNA 泳道 8_ClaI、泳道 9_NruI、泳道 IO-NdeI、泳道 Il-PstI 和泳道 12-仅 MmeI E806G+R808T酶。泳道14-18是使用合理改变的MmeI E806G+R808T酶加下列单位点酶 切割的PhiXDNA 泳道14-PstI、泳道15-SspI、泳道16-NciI、泳道17-StuI和泳道18-仅 MmeIE806G+R808T 酶。泳道 1 和 13 是 λ -HindIIΙ+PhiX-HaeIII 大小标准品。泳道 7 禾口 19 是 λ-BstEII+pBR322-MspI 大小标准品。图8示出合理改变的Mme6NI酶MmeI E806W+R808A对噬菌体ΦΧ DNA的切割活 性。泳道2-4和6-8是使用合理改变的MmeI E806W+R808A酶加下列单位点酶切割的噬菌体 ΦX DNA 泳道 2-PstI、泳道 3-SspI、泳道 4-NciI、泳道 6-StuI、泳道 7-BsiEI 和泳道 8-仅 MmeI E806W+R808A 酶。泳道 1 和 9 是 λ-Hindlll+PhiX-Haelll 大小标准品。泳道 5 是 λ -BstEII+pBR322-MspI 大小标准品。图 9 示出合理改变的 SdeA6CI 酶SdeAI K791E+D793R 对 pUC19、pBR322 和 PhiX DNA的切割活性。泳道2-6是使用合理改变的SdeAI K791E+D793R酶加下列单位点酶切割 的 pUC19DNA 泳道 2-Eco0109I、泳道 3-PstI、泳道 4-AlwNI、泳道 5-XmnI 和泳道 6-仅 SdeAI K791E+D793R酶。泳道8_12是使用合理改变的SdeAI K791E+D793R酶加下列单位点酶切 割的 PBR322DNA 泳道 8_EcoRI、泳道 9_NruI、泳道 10-PvuII、泳道 Il-PstI 和泳道 12-仅 SdeAI K791E+D793R酶。泳道14-18是使用合理改变的SdeAI K791E+D793R酶加下列单位点 酶切割的PhiXDNA 泳道14-PstI、泳道15-SspI、泳道16-NciI、泳道17-StuI和泳道18-仅 SdeAIK791E+D793R 酶。泳道 1、13 和 20 是 λ -HindIII+PhiX-HaellI 大小标准品。泳道 7 和 19 是 λ -BstEII+pBR322-MspI 大小标准品。图10示出在该组的已表征成员的识别序列比对中每一位置处观测到的DNA碱基。图IOA在左图示出含有MmeI作为成员的组(MmeI-样组)的已表征成员的DNA识 别序列比对。这些识别序列包括BsbI酶,该酶的DNA识别序列和切割位置是已知的,但是 对于该酶,氨基酸序列还没有确定。右图示出在DNA识别序列比对中每个位置识别的多种 DNA碱基或碱基组合的计数。图IOB在左图示出MmeI-样组的20个成员的识别序列的比对。右图是位置限定 的碱基频率图,其示出在该组的已表征成员的识别序列比对中在位置3、4或6处观测到的 DNA碱基。20个酶的19个识别第六个位置处的G或C。图IlA示出与在识别序列比对中在位置3、位置4或位置6处的DNA碱基识别相 关的氨基酸的部分密码。例如,为了改变该组的成员中比对的识别序列的位置6处的识别, 与MmeI E806和R808相应的氨基酸序列比对中的位置是将氨基酸突变为编码的可选氨基 酸残基之一以重新设计DNA碱基识别的靶标。例如,将密码E+R在这些比对位置处插入 MmeI-样组的成员将引起该酶识别在该酶的识别序列的位置6处的C碱基。随着组成员增 加,密码可被扩大,并且检测它们的氨基酸取代在DNA识别序列特异性方面的变化。
图IlB示出在比对的氨基酸序列(SEQ ID NOS :64_82)内鉴定的位置和占据这些 位置的氨基酸残基,其在比对的DNA识别序列中位置3、4或6处确定识别。比对上方的数 字表示识别序列中的位置,对于该识别序列,该氨基酸位置确定被识别的DNA碱基。酶名称 和识别的DNA序列被示出。在比对的氨基酸序列之前的数字表示在该酶的氨基酸序列内列 出的第一个氨基酸残基的位置,而在氨基酸序列行后面的数字表示在该酶的序列中列出的 最后一个氨基酸残基的位置。图12示出SEQ ID NOS 100-131 (MmeI-样组)的氨基酸序列比对,其中在表征为 确定在识别序列中位置6处识别的位置——其不同于已知的DNA碱基识别决定因素,氨基 酸残基被鉴定。DNA识别序列未被表征的组的成员包括在该比对中。两个箭头表示鉴定出 的位置,其在位置6处(在该缺口 CLUSTALW比对中为位置1073和1077)确定DNA碱基的 识别。有四个序列——其被加下划线,其中观测的氨基酸残基对不与存在于该组的任何先 前表征的成员中的碱基对相匹配。这些位置特异性碱基对是天然发生的变异,它们是用于 引入已表征的酶的靶标,作为在靶向DNA碱基识别位置处改变该已表征的酶的特异性的工 具。将两个观测的不同的对——GXS (两次发生)和G(N)G——引入已表征的酶Mmel,并且 研究所形成的合理改变的酶的DNA识别特异性(参见图6)。图13示出进行改变的相关位置的优先化。进行改变以变化该组成员的特异性的 第一优先级是在比对中在该位置存在的氨基酸残基和在查询的识别序列比对中的位置处 识别的DNA碱基之间显示出1 1相关性的那些位置。上图示出SEQ ID NOS 132-150的氨基酸序列比对,其相对于识别序列比对的位置 6排序,其中在包括MmeI R808的比对位置处(箭头所示)的残基与在位置6处识别的DNA 碱基一一相关。在该位置,识别C——胞嘧啶——的所有酶都具有精氨酸残基——R,并且 识别G——鸟嘌呤——的所有酶都具有天冬氨酸残基——D0下图具有两个箭头,一个鉴定上述1:1相关的位置,第二个指出第二高得分的位 置。该第二位置尽管不是1:1相关的,但是仍然与位置6处的DNA碱基的识别在统计学上 显著相关,如在图14中所示例的。另外,在识别C的8个酶的7个中和识别G的10个酶的 9个中,该位置处的氨基酸残基与上述1 1相关的位置处的残基共变化,这表示该位置可能 与1:1相关的位置联合来识别所讨论的碱基位置。该位置成为进行变化的第二最高优先 级,并且可连同第一最高优先级位置进行合理改变以实现DNA识别特异性的期望改变。图14示出对与在比对的识别序列的位置6处碱基识别相关的氨基酸比对中一个 位置的X平方计算。对于X平方计算,形成一张由行和列组成的表,所述行是所研究的识 别序列比对中该位置处识别的每种不同DNA碱基,所述列是在氨基酸序列比对中给定位置 处存在的每种氨基酸残基。这里,这样的表由三行和五列组成,其中每一行是在识别序列比 对的位置6处识别的DNA碱基模式——C、G和R,而每一列是在氨基酸序列比对中查询位置 处存在的氨基酸残基。该查询位置是与MmeI位置E806比对的位置。在该位置处存在的氨 基酸残基的计数被显示。表中计算的χ平方值是38。在该表中存在8个自由度。所得到 的概率值P为0. 0001,这小于0. 05的显著性的截断值。该结果表示,该氨基酸位置与DNA 识别序列比对的位置6处的DNA碱基识别显著相关。图15示出在位置6处比对的DNA识别序列与氨基酸序列比对中两个位置之间的 相关性。
在左图中,比对的DNA识别位点被分组成9种酶——其在位置6具有C,然后是10 种酶——其在该位置具有G,然后是1种酶——其在该位置具有R。在右图中,MmeI样组的十九种酶的氨基酸序列的一部分被比对以显示如此区域, 在该区域中在位置6处识别的DNA碱基和在比对的蛋白质序列中存在的氨基酸残基(一种 或多种)之间观测到相关性。箭头表示鉴定的两个相关的氨基酸位置。它们相应于MmeI 的E806和R808。在缺口比对的位置R808处示出在氨基酸和在位置6处识别的DNA碱基 之间具有1 1对应,使得每当酶识别C碱基时,在该位置具有精氨酸——R,而识别G碱基的 那些酶在该位置具有天冬氨酸残基(D)。识别R——其是G或A——的酶也在该位置具有天 冬氨酸(D)。E806位置不具有完全的1:1对应,这是由于生物学灵活性允许多于一个氨基 酸残基与位置R808的精氨酸联合以识别C碱基(在这种情况中,为E(谷氨酸)或T(苏氨 酸)),或者与位置R808的天冬氨酸残基联合以识别G碱基(这里为K (赖氨酸)或G (甘氨 酸)),或者与位置R808的精氨酸联合以识别R(A或G),其在此是D残基。正好在该识别R 的酶PspOMII中的该天冬氨酸残基之前,也具有三个氨基酸残基插入。图16-1、16-2和16_3示出通过从该组先前鉴定的成员开始的BLAST检索可扩大 序列组。这里,SpoDI氨基酸序列被用作查询序列(query)。BLAST检索的结果显示,通过初始BLAST检索鉴定的相关蛋白质的组的成员可被 用作查询序列,用于接下来的BLAST检索。在这种情况下,从MmeI作为查询序列开始的 BLAST检索中鉴定的序列,ref | YP_167160. 1“假设蛋白质SP01926”,被用作查询序列以进行 接下来的BLAST检索。使用在ncbi BLAST服务器的blastp程序的缺省参数;http://www. ncbi.nlm.nih. rov/BLAST/0应用该组的不同成员作为BLAST查询序列导致鉴定出数个另 外的组成员。例如,当使用MmeI序列起始检索时,通过严格的E < e-20的阈值(E = 5e_17, 图18-1、18-2和18-3),从该组排除ref I YP_511167. 1〃假设蛋白质Jarm_3225〃序列,但是 当使用该组的“SP01926 “成员作为查询序列进行BLAST检索时,显示该Jarm_3225序列是 该组的成员,对于这种情况中,返回的期望值是E = 3e-65。通过检索该组可被扩大,其中该 组的多个成员用作查询序列。因为期望截断值(expectation value cut off)是严格的, 所以该组将不会无休止的扩大,而是将仅仅扩大到包括比从单一起始序列检索可发现的更 多的相关组的成员。图17示出列出15种不同DNA碱基或DNA碱基组合的DNA碱基识别表,所述DNA 碱基可以在DNA识别序列内任意给定位置处被识别。图18-1、18-2和18-3示出当MmeI氨基酸序列被用作查询时鉴定与MmeI高度相 似的序列组的BLAST检索结果。使用在ncbi BLAST 服务器 http //www, ncbi. nlm. nih. rov/BLAST/ 的 blastp 程 序的缺省参数。鉴定97种蛋白质序列具有E < e-20的期望值E。一个这样的序列—— ref|YP_167160. 1“假设蛋白质SP01926"——在该检索中返回E = 6e_47的E值。作为实 例,所述组的该成员可用于接下来的BLAST检索,以扩大该相关蛋白质的组。这样的检索可 通过鉴定总体上与该家族相关、但是正好与用于第一个BLAST检索的序列距离远到足以使 它们返回恰好在初始检索的截断阈值之外的期望值的蛋白质来扩大该组。加下划线于这样
的序列——ref|YP_511167. I"假设蛋白质Jarm_3225〃--〖合好落在使用MmeI氨基酸序
列进行的检索的截断阈值之外,但是当通过使用该组的不同的成员"SP01926"序列检索扩大时,其被包括在该组中(图16-1、16-2和16-3)。图19示出通过相关的DNA结合蛋白的MmeI样组的20个已表征成员识别的DNA 识别序列的比对。该比对相对于共同的功能进行。从酶识别的双链DNA选择用于比对的单 链是这样的链,该链在识别序列3'端被切割。然后,在功能保存的位置5处的共同腺嘌呤 碱基周围锚定比对,因为其是通过酶的甲基转移酶活性修饰的碱基。图20-1到20-11示出对该相关的DNA结合蛋白的组的19个已表征成员使用算法 PR0MALS 形成的 SEQ ID NOS :42、6、10、4、2、40、8、14、18、12、16、26、34、38、36、20、44、24 和 22的氨基酸序列比对,所述结合蛋白的识别序列在图19中示出。图21示出氨基酸序列比对中比对的位置的X平方计算。X平方值是下列的所 有观测值(表中的位置)的和((观测的频率减去期望频率)平方)除以期望频率)。构 造列联表,其中对于在被查询的DNA识别序列比对内该位置处识别的每一 DNA碱基使用一 行。这些行是通过与在检查的识别序列比对中该位置处观测的一样多的不同DNA碱基观测 的DNA碱基(Bobsl)。对于在检查的氨基酸序列比对中给定位置处观测的每一氨基酸残基 使用一列。这些列从通过与比对位置处观测的一样多的不同氨基酸残基观测的第一氨基酸 残基(AA-obsl)标记。观测的频率是识别的DNA碱基在比对位置处氨基酸残基的计数。期望频率是观测 发生的列的和乘以观测发生的行的和,再除以所有观测的总数。然后,该表用在氨基酸序列比对中给定位置处存在的氨基酸残基的观测计数填 充,将氨基酸残基计数置于与DNA碱基相应的行中的具体列中,所述DNA碱基由其中该氨基 酸残基存在的结合蛋白识别。从该表计算观测计数的X平方值。通过比较X平方值与X平方统计表,获得X 平方值的统计学显著性(P-值),其中自由度等于[(列数减1)乘以(行数减1)]。如果 P-值小于预先设定的阈值(0. 05是缺省值),该算法报告该氨基酸比对位置与DNA识别序 列的查询位置显著相关。对DNA识别比对的每个位置连同氨基酸识别比对的每个位置重复分析。图22示出鉴定氨基酸序列比对中的位置和在该位置的具体氨基酸,其参与识别 Y类N6A DNA甲基转移酶组的比对的DNA识别序列中的第三位置。该图示出该组成员的 DNA识别序列的比对,其锚定在位置5处的甲基化腺嘌呤靶的周围。蛋白质的比对氨基酸序 列的一部分被示出(SEQ ID N0S:83-99)。每一蛋白质的具体氨基酸坐标在每种酶的序列 的前面和后面表示。与位置3处所述酶识别的DNA碱基显著相关的比对中的位置通过方框 表示,并且在比对上方用“ 3 ”标记。图23A-23N示出具有不同的DNA识别序列的酶的部分列表。针对每一识别序列, 列出在起始酶的序列背景中产生这些酶需要的位置特异性氨基酸。具体而言,描述了用于 识别列出的DNA识别序列的起始蛋白质的氨基酸序列内的位置和在那些位置需要的氨基 酸。为了使用化学作用产生在左列中提供的任何特异性,考虑右侧的列,并且如果需要改 变在列出的位置处的氨基酸,那么通过在规定位置处合理地改变图的顶部列出的起始蛋 白质,引入改变。图23A-23N提供具有下列列出的识别序列的起始酶MmeI (SEQ ID NO 2)、NmeAIII (SEQ ID NO 14)、SdeAI (SEQ ID NO :6)、CstMI (SEQ ID NO : 12)、ApyPI (SEQ ID NO : 18)、PspRI (SEQ ID NO :10)、AquIII、(SEQ ID NO :42)、DrdIV(SEQ ID NO :36)、PspOMII(SEQ ID NO 34)、RpaB5I(SEQ ID NO 26),MaqI(SEQ ID NO 38),NhaXI(SEQ IDNO 24), SpoDI (SEQ ID NO 20)和AquIV (SEQ ID NO :44)。这些酶可在规定的位置通过定向突 变进行修饰以在规定的位置提供需要的氨基酸残基来产生识别所列DNA序列的酶。图24A-1到24A-22和24B-1到24B-10包含在图20-1到20-11中的MmeI样组中 的 19 种已表征蛋白质的 DNA 序列(SEQ IDNOS :1、3、5、7、9、11、13、15、17、19、21、23、25、33、 35、37、39、41 和 43)和相应的氨基酸序列(2、4、6、8、10、12、14、16、18、20、22、24、26、34、36、 38、40、42 和 44)。图25A和25B-1到25B-5示出描述所述方法的概括流程图和详细的实例。图25A描述能识别特异性底物(识别序列)中局部位置特异性限定的模块的一组 紧密相关的特异性结合蛋白的产生(1),其中该组成员的模块识别序列被比对(2)和该组 成员的氨基酸序列被单独地比对(3)。鉴定识别序列比对中位置特异性模块和氨基酸序列 比对中位置特异性氨基酸残基之间的相关性(4)。通过使用位点定向诱变在鉴定出的相关 位置(一个或多个)处将该组成员的氨基酸残基(一个或多个)改变为与不同靶模块识 别相关的残基(一个或多个),产生结合蛋白,所述结合蛋白识别新的合理选择的模块序列 (5)。使用步骤1-5,产生规定在识别比对中一个或多个或每个位置处的具体模块识别的特 异性氨基酸“密码”的能力因此得到改善(6)。通过确定待被合理改变的识别序列中模块的 位置,产生具有新的识别序列的结合蛋白。与对该位置特异性模块的结合特异性相关的结 合蛋白中的氨基酸(一个或多个)根据在编目密码中的氨基酸残基(一个或多个)进行合 理改变(7A)。可选地,一个组的未表征的或新的结合蛋白成员的模块识别特异性可使用编 目密码预测(7B)。任选地,另外地,对于结合蛋白组的成员,识别序列可延长或缩短(8)。图25B-1到25B-4示出分析结合蛋白中氨基酸序列之间的相关性的多步方法,所 述结合蛋白结合该结合蛋白结合的特异性识别序列中的位置特异性模块。在该图中,依靠 DNA结合蛋白阐明该方法,但是该方法同样可用于识别由特异性识别序列中位置特异性模 块限定的底物的任何结合蛋白。在步骤1-23中获得的信息被储存为编目密码并用于合理 地设计新的结合蛋白(步骤24-30)或表征结合蛋白的特异性识别序列,所述结合蛋白的氨 基酸序列已经存在于序列数据库中(步骤24-37)。另外,提供步骤以产生DNA识别序列的 碱基对增加或减少的结合蛋白(步骤38-41)。编号的方框中的文字如下1.产生一组紧密相关的特异性DNA结合蛋白。2.扩大该组。3. DNA识别序列是否已知?4.生物化学确定DNA识别序列。5.牛物信息学从比对的氨基酸序列鉴定共变氨基酸。6.牛物信息学在接下来 的分析中应用。7.比对DNA识别序列。8.比对氨基酸序列。9.鉴定识别的位置特异性DNA 碱基和位置特异性氨基酸残基之间的相关性。10.按照统计学显著性排序。11.根据统计 学显著性或识别序列中需要的碱基变化优先化相关的位置。12.在比对的DNA识别序列中 选择DNA碱基位置,用于将该组成员识别的碱基改变成“靶”碱基(一个或多个)。13.鉴定 对于靶DNA碱基位置具有最高相关性得分的氨基酸残基(一个或多个)和位置(一个或多 个)(在第一优先级中为1:1对应)。14.将鉴定出的相关位置(一个或多个)处的氨基酸 残基(一个或多个)改变为与不同限定的靶碱基模块识别相关的残基(一个或多个)。进行改变的相关位置(一个或多个)选自一个或多个氨基酸比对序列位置,所述氨基酸比对 序列位置又选自第一到第N得分位置(参见表1中的实例,其中N = 4)。该表不拟为限制 性的。N可以大于4,例如,N可以高达20或更大。15.分析在新的预确定DNA识别序列处 结合的合理改变的蛋白质。16.合理改变的蛋白质结合其最初的DNA识别序列。17.改变 的蛋白质结合该新的预确定识别序列。18.改变的蛋白质结合新的特异性DNA序列而不是 该新的预确定识别序列。19.改变的蛋白质不结合该新的预确定识别序列也不结合最初的 识别序列。20.新的特异性证明了负责在改变的DNA碱基位置处识别的氨基酸位置(一个 或多个),并且该位置用于DNA碱基识别的一部分氨基酸密码被鉴定。21.选择第二高得分 位置的氨基酸和/或不同得分位置处的氨基酸的组合。调查在新位置(一个或多个)处的 选择,并且继续该策略,直到实现结合。22.新的预确定特异性的识别证明改变的位置(一 个或多个)是负责在识别序列比对中在目标位置处的DNA碱基识别的位置。实现该新的预 确定特异性也显示靶碱基识别的氨基酸残基决定子(一个或多个)。23.确定DNA识别序 列中每个位置处不同DNA碱基识别的氨基酸密码。24.所有可能的DNA碱基和碱基组合是 否存在于该组的已表征DNA结合蛋白成员的DNA识别序列比对中? 25.对在确定具体位置 特异性DNA碱基或碱基组合的识别的鉴定位置(一个或多个)处的氨基酸残基(一个或多 个)编目录。26.形成最小的氨基酸密码,用于DNA识别序列比对中该位置处的DNA碱基 识别。该密码可具有多个氨基酸组合以识别给定碱基或碱基组合。27.使用编目录的氨基 酸密码以形成新的DNA结合蛋白,所述DNA结合蛋白在DNA识别序列中靶位置处识别选择 的碱基或碱基组合。28.对DNA识别序列比对中所有位置进行重复。29.以组合方式形成 新的DNA结合蛋白,选择在DNA识别序列中的给定位置处待被识别的DNA碱基和使用产生 的氨基酸密码和位置信息。在单一 DNA序列处结合的数以千计新的DNA结合蛋白可使用本 方法产生。30.检查该组的另外的成员。31.对鉴定位置(一个或多个)处的氨基酸残基 (一个或多个)编目录,所述鉴定出的位置(一个或多个)确定存在于DNA识别比对中碱基 的识别。32.鉴定在该鉴定位置(一个或多个)存在的氨基酸(一个或多个)。33.改变 鉴定位置(一个或多个)的氨基酸残基为所有可能的氨基酸并检验。34.选择与已知赋予 给定碱基或碱基组合识别的氨基酸残基(一个或多个)不同的氨基酸残基(一个或多个) 或残基组合。这样的残基(一个或多个)可从DNA识别特异性未知的组的比对成员鉴定。 35.通过将来自未表征的蛋白质的天然存在的氨基酸(一个或多个)在碱基识别先前已经 鉴定的相关氨基酸位置处插入已表征的蛋白质,来改变该组中已表征的蛋白质。36.针对 DNA识别特异性分析该改变的蛋白质并确定结合的DNA识别序列。37.对于该组的给定成 员,该DNA结合蛋白是否识别与该组的一些其他成员不同的DNA序列,S卩38.更短,39.更 长? 40.增加DNA识别序列的长度。41.减少DNA识别序列的长度。
图25B-5示出优先化一个氨基酸位置或多个氨基酸位置的方案,在所述位置处, 改变一个或多个氨基酸残基为与在识别序列比对中不同模块的识别相关的残基以便确定 这样的位置,所述位置确定被研究的识别序列中在该位置处模块的识别。在氨基酸序列比 对中产生最高相关性得分即最低P值的位置是检测的第一个位置,然后是第二高相关性得 分位置等。因为模块识别在蛋白质中可能需要多于一个氨基酸残基,所以具有最高相关性 得分的两个位置是两个残基一起改变的第一优选级。如果在前两个最高得分位置的改变没 能产生识别改变,那么第一和第三高得分位置可被改变,并且如果需要重复该过程,如在表2中所示,直到规定位置特异性模块识别的位置得以确定。在一些情况中,改变三个或更多 位置以实现识别模块的改变可能是必需的。实施方式详细描述本发明的实施方式提供合理设计和制造具有新的识别特异性的酶的方法,所述识 别特异性已经预先被选择或可靠地预测。可以产生基于比对的结合蛋白中位置特异性氨基 酸和底物中它们的识别序列中位置特异性模块之间的相关性的目录。该目录可通过分析结 合蛋白组的其它成员来扩大,所述结合蛋白识别识别序列中的新的模块组合,或者在氨基 酸序列内的相关位置处含有预料不到的氨基酸。使用该目录,基于位置特异性氨基酸突变 的多种组合,可产生大量的新的DNA结合蛋白。尽管实例描述DNA结合蛋白,但是本文描述的方法和组合物广泛地适用于任何结 合蛋白,所述结合蛋白识别包含由该结合蛋白识别的模块的特征位置特异性序列的底物。本方法的实施方式的步骤综述在图25A的流程图中描述。在图25B中提供对一组 DNA结合蛋白进行的分析的多个方法步骤的详细描述。本方法的实施方式可应用图25A中 方框1-8的每一个中描述的各个方法步骤的一个或多个,以及图25B中方框1-41的每一个 中描述的各个方法步骤的一个或多个,并且不限于进行图25A或25B中完整描述的一套方 法步骤。如在图25A的流程图中一般描述的和对图25B中特异性DNA结合蛋白更具体描述 的,可以按照下列步骤产生编码具有改变的底物特异性的结合蛋白的多核苷酸,所述步骤 包括(a)鉴定一组具有已知的氨基酸序列并优选也具有已知的模块识别特异性的紧密相 关的结合蛋白;(b)比对该紧密相关的结合蛋白组的识别序列;(c)比对该紧密相关的结合 蛋白组的氨基酸序列;(d)鉴定与由该结合蛋白组的成员识别的位置特异性模块相关的位 置特异性氨基酸残基;和(e)形成特异性识别新的合理选择的识别序列的新的结合蛋白, 其通过改变通过相关性鉴定为识别在识别序列比对中给定位置处的模块的蛋白质的氨基 酸残基(一个或多个)来形成。该鉴定的氨基酸可被改变为通过相关性在这样的组成员中 鉴定的那些氨基酸残基(一个或多个),所述组成员识别在识别序列比对中给定位置处的 不同模块。氨基酸残基的交换可通过位点定向诱变实现。通过在识别序列内的多个位置处 合理改变赋予特异性的氨基酸残基,可以产生非常大量的对新识别序列具有特异性的蛋白 质。本方法的实施方式可通过已被编程以实现图25A和25B的一个或两个中列出的步 骤的至少一个的计算机来执行。通过计算机分析提供的预测可使用促进大量突变蛋白质检 验的高通量技术进行检验,或通过检查少量合理设计的蛋白质或检查单一蛋白质的实验室 技术检验。本文描述的系统和方法易于使用实现湿法化学的已有装置进行完全自动化,其部 件可以与计算机通信,进行在先指令以及化学后计算。计算机将计算图25A中的步骤1_4、6和7A。该装置将进行图25A中方框5和7A 必需的化学处理,将关于突变蛋白质与预确定识别序列结合的数据发送回计算机,然后计 算机可以处理该数据以证实新的特异性,反复构建目录,并分析新结合蛋白的假设识别序 列。进行湿法化学步骤的仪器或装置可进行DNA合成和体外转录和翻译步骤,或者可选地通过编程的氨基酸合成直接合成蛋白质,然后提供本领域已知的高通量分析形式 (Kawahashi, et al. J Biochem 141 19-24 (2007)),以确定多个突变体与预选择识别序列 的结合,以便结合的分子发出检测信号、数字化和存储在计算机存储器中。本文描述的方法可用于能识别含有位置特异性模块的特异性序列的任何蛋白质, 其中序列或模块可由例如核酸、单糖、氨基酸或化学基团表示。本文描述的方法可最广泛地 运用于DNA结合蛋白为其子集的任何结合蛋白。如本文使用的,“结合蛋白”可以指与结合蛋白-特异性识别序列中位置特异性模 块结合的蛋白质。“结合”指对特异性底物具有电化学吸引力或与特异性底物形成共价键, 该吸引力或共价键足够支持在无序环境中的结合。结合蛋白的实例包括结合生物学的大 分子的那些蛋白质,例如核酸结合蛋白如限制性内切核酸酶、回归内切核酸酶和锌指蛋白; RNA结合蛋白;糖结合蛋白;糖蛋白结合蛋白;糖脂结合蛋白;脂质结合蛋白;和结合小分 子的结合蛋白,所述小分子包含以特异性预确定顺序排列的大范围化学基团或单一化学基 团。术语“模块”被一般用于描述特异性识别序列中的各个位置特异性组分,所述特异 性识别序列形成结合蛋白的底物。如本文使用的“底物”指分子,其具有在序列中具有特异性位置的许多模块,它们 中的一些或所有可对结合蛋白中的一个或多个特异性氨基酸具有电化学吸引力或与结合 蛋白中一个或多个特异性氨基酸形成共价键。底物中不同模块的数量可从1至高达20或 更多变化,而底物可由几个到数百万或更多模块组成。“一个或多个特异性氨基酸”指合理设计的靶,其中靶的一个或多个任选改变引起 蛋白质对底物中至少一个模块特异性的改变。一个或多个氨基酸可能是结合底物所需要的 蛋白序列的子集。如本文使用的“预测”指获得比对模式再现性的逼近精度的提高。“相关性”在本文可用于指两个随机变量之间的线性关系的强度和方向的表示。在 通常的统计学应用中,相关性或关联性指两个变量与独立性的偏离。统计学显著相关性可 以在通过使用多种检验的任一种例如X平方检验——一种对两个随机变量提供测量两个 标量交互依赖性的量的交互信息分析(Gloor,et al. Biochemistry 44 :7156_7165 (2005)) 和皮尔逊积矩相关系数(Spiegel, Μ. R. “ Correlation Theory. “ Ch. 14in Theory and Problems of Probability and Statistics,2nded. New York:McGraw_Hill,pp.294-323, 1992)——产生目录的情况下加以计算。“组”在本文用作具有两个或多个成员的相关分子组。“目录”是位置限定的氨基酸的列表,所述位置限定的氨基酸氨基酸确定在底物的 识别序列中的特异性模块的识别。“识别序列”是底物中模块的序列,所述序列与结合蛋白特异性结合。“Mmel-样蛋白质”是属于氨基酸序列组的蛋白质,其中该组中每个氨基酸序列由 结合蛋白的一部分或全部组成,其中氨基酸序列(i)在使用MmeI作为查询序列的BLAST检 索中具有小于e-20的期望值(E);和(ii)与底物中特异性DNA识别序列结合,所述DNA识 别序列含有位置特异性DNA碱基。该方法的实施方式可包括下列步骤的一个或多个
1)鉴定和收集一组或多组紧密相关的结合蛋白,对于所述结合蛋白,由该蛋白识 别的序列和该蛋白的氨基酸序列都是已知的。这样的一组序列可以以多种方式鉴定。例如, 可以对在数据库例如Genbank中可获得的所有序列进行BLAST检索。一般地,查询序列是 目的结合蛋白的氨基酸序列,例如,在一个这样的实施方式中,本文通过MmeI限制性内切 核酸酶示例的DNA结合蛋白可被用于查询。可选地,与MmeI紧密相关的氨基酸序列可用于 进行BLAST检索。图16示出使用与用于图18中BLAST检索的MmeI紧密相关的SpoDI进 行的BLAST检索的结果。该图表明,检索结果是不同的。使用不同的相关蛋白质进行多个 检索可导致比对氨基酸序列组的扩大。可以进行标准BLAST检索blastp,尽管检索的参数可以由本领域技术人员改变。 因为该方法仅使用紧密相关的氨基酸序列,标准blastp程序检索将鉴定可用于本方法的 序列。可以进行BLAST检索的可选形式,例如使用起始查询结合蛋白的氨基酸序列在数据 库中对翻译的核苷酸序列进行检索的tblastn。该tblastn检索特别可用于检索包含环境 DNA的数据库,并且当在推定的结合蛋白中存在移码或终止密码子——其引起在数据库中 报道的氨基酸序列相对于全长查询序列缩短——时,该tblastn检索也可用于鉴定与查询 结合蛋白具有相似性的延伸区域。在BLAST检索的另一形式中,结合蛋白的DNA序列可用 于在数据库(tblastp程序)中对蛋白质序列检索,或者在数据库(blastn程序)对核苷酸 序列检索。来自BLAST检索的期望值可用于确定该组包括或不包括序列。仅远源相关的蛋 白质不可能具有足够的序列相似性以可靠地比对它们的序列以便观测与模块识别相关的 残基和位置。对于选择的序列组内内含物需要相对严格的BLAST E值阈值以确保排除远源 相关序列。对于相关序列组内内含物选择的期望值受到输入序列长度的影响。对于氨基酸 序列大于200个氨基酸的结合蛋白,例如大多数限制性内切核酸酶,使用E < e-20的期望 值。对于较短的序列,使用更大的E值,例如对于长度在100和200个氨基酸之间的序列, E < e-10o在该分析期间,所使用的蛋白序列组可进一步被分成子集,如果这使得在子集内 更好地比对序列(更少的缺口和更高的比对得分)的话,因为这将反映子集的成员之间更 近的进化和结构关系,这将增加在氨基酸残基和位置特异性模块(例如DNA碱基)之间可 观察到统计学显著相关性的可能性。通过BLAST检索鉴定的序列可被分成具有已知识别序列的序列和所识别的序列 未知的序列。如果具有足以产生统计学显著结果的、具有已知识别序列的蛋白序列,那么可 使用这些序列进行分析。然而,如果没有足够的识别序列已知的蛋白序列,那么一些鉴定推 定的结合蛋白可通过生物化学确定它们的识别序列(W0 2007/097778)。这是实施例1的情 况,其中MmeI被用于在Genbank中鉴定同源肽。在该检索中鉴定的大多数蛋白质的功能是 未表征的,这包括在分析开始时它们的DNA识别序列特异性。因此,这些肽的许多被表征以 确定它们各自的DNA识别序列,在这之后,在描述的方法中使用它们以产生新的DNA结合蛋 白。对于其中识别序列未知的结合蛋白组的鉴定成员,可通过生物化学确定识别序列。例 如,结合蛋白的MmeI样家族的未表征成员的DNA识别序列可通过分析DNA切割的位置和从 不同DNA底物产生的DNA片段的大小来确定(Schildkraut Genet. Eng. 6 117-140 (1984)), 或者可选地通过分析不同DNA底物中DNA修饰的位置来确定。
对于两种相关的限制性内切核酸酶-CstMI和NmeAIII,通过表征结合蛋白活性确 定DNA识别序列的一个实例已被显示(分别参见美国专利号7,186,538和国际申请号PCT/ US07/88522)。2)比对结合蛋白的识别序列。优选比对识别序列以准确反映结合蛋白和识别的序 列之间的相互作用的性质。为了达到这一点,将识别序列比对围绕共同的功能锚定。例如,对于DNA结合蛋白,DNA识别序列通常由在DNA双螺旋中两条链的每条链上 碱基的不同线性序列组成。例外的情况是识别对称DNA序列的DNA结合蛋白的情况,在对 称DNA序列中,所识别的DNA碱基的线性序列在两条DNA链中从5'到3'是一样的。选 择正确的DNA链进行比对是重要的,这是因为识别序列的两条链可具有碱基的不同线性序 列。正确的DNA链通过选择用来指导比对的功能属性(一个或多个)来确定。例如,对于 限制性内切核酸酶,能精确比对DNA识别序列的功能属性可由保守腺嘌呤或胞嘧啶碱基的 甲基化,和/或从识别的靶向特异性DNA序列下游的DNA切割的方向组成。在实施例1中, 使用包含被甲基化的腺嘌呤碱基并且具有位于该链上识别序列3'的切割位置的链,比对 DNA识别序列。该比对固定在该甲基化靶腺嘌呤周围。在第二条DNA链中的碱基的线性序 列由比对中使用的链的序列限定。甲基化位置可通过将标记的甲基例如放射性氚甲基引入不同的DNA并对标记甲 基位于DNA中的位置进行绘图来确定。甲基化也可通过防止限制性内切核酸酶进行分析, 所述限制性内切核酸酶的识别序列覆盖由被表征的酶产生的甲基化碱基。3)比对高度相似的结合蛋白组的氨基酸序列。这可以通过使 用多种序列比对程序的任一种进行,例如Clustalff (http://www, ebi. ac.uk/clustalw/)、PROMALS(httpprodata. swmed. edu/promals)、MUSCLE (http://phylogenomics.berkeley. edu/cgi-bin/muscle/input muscle.py)或 T-Coffee (http://www, ebi. ac. uk/t-coffee/)或其他相似的程序。一般而言,可以使用程 序例如ClustalW或PR0MALS算法的缺省比对值。PR0MALS算法较慢,但是提供了改进的比 对结果。应该理解,技术人员可改变比对程序的参数以产生最佳的比对结果,或者技术人员 可人工地精修比对。因为该方法使用一组紧密相关的结合蛋白,所以使用最广泛使用的比 对程序的缺省设定可产生适当的比对。当一个或多个输入结合蛋白序列与其他的较不相似 时,调整比对参数可能是有益的,或者如果一个或多个序列不能与大多数紧密比对,或者如 果它产生大量的缺口或者以另外方式劣化大多数序列的比对,那么这样的序列可以从最初 的比对中排除,以便保持产生的氨基酸序列比对的总体正确性。4)组合包含在识别序列比对和氨基酸蛋白序列比对内的信息以鉴定氨基酸位置 和在那些位置存在的氨基酸——其对特异性序列识别负责。查询氨基酸序列比对以鉴定这样的位置,在该位置中存在的氨基酸残基与在 比对的DNA识别序列内给定位置处结合蛋白识别的模块相关。统计学显著——例如P < 0.01—的相关性表示,特异性模块识别通过在结合蛋白的氨基酸序列内该位置处存在 的特定氨基酸残基实现。给定碱基对的识别可需要位于蛋白质的线性氨基酸序列内的不同 位置处的两个或更多个氨基酸残基。这样的相关性可使用在实例中描述的计算机程序或其 他相似的程序进行鉴定。技术人员也可通过眼睛鉴定这样的相关性。所提供的方法的实施方式具有鉴定相互作用以识别给定模块的氨基酸位置的优势,这甚至是当所述位置在一级氨基酸序列中远离时也是如此。预测这类远离的位置在结 合蛋白的三维结构中在空间上接近,以便识别给定的模块。一旦观测到相关性,改变各自的氨基酸残基以便在查询位置处识别不同的碱基 对,并且检验改变的蛋白质在预期的新识别序列处的结合。赋予模块特异性的氨基酸残基 的成功鉴定通过改变的结合蛋白确认,特别是通过结合新的、预测的识别序列来确认(参 见例如图1-9)。5)合理地改变结合蛋白以便它们识别新的识别序列。一旦鉴定出赋予对识别序列 内给定位置处的给定模块特异性的氨基酸残基位置和各个氨基酸残基,通过位点定向诱变 编码所鉴定的氨基酸残基的多核苷酸序列可产生新的结合蛋白。在这些位置处赋予识别特 异性的氨基酸残基被特定地改变为那些鉴定的残基,其规定在识别序列中不同的期望模块 的识别。这样的变化导致产生如此结合蛋白,所述结合蛋白现在可预测地识别包含由改变 的残基识别的位置特异性模块的新识别序列。通过使用组合方法改变负责识别序列内不同 位置处位置特异性模块识别的氨基酸残基的多种组合,可以合成识别新的识别序列的大量 结合蛋白ο所述方法的应用本方法的实施方式是一种使用新的或已在序列数据库中的序列数据的有效工具, 用于挖掘具有特定功能的酶;分析现存蛋白质的功能;设计和产生新的具有期望特异性 的酶;和对某些结合蛋白提供增加特异性识别序列长度的合理方法,从而赋予增加的特异 性。合理设计方法可以提供对下列的预测在一组蛋白质中未表征的结合蛋白的DNA 识别序列;与一组具有限定关系(defined relationship) (Ε值)的已表征结合蛋白匹配的 未表征结合蛋白序列的识别序列的位置特异性部分;和/或合理设计和产生具有期望的识 别序列的结合蛋白。识别新序列的新限制性内切核酸酶给遗传操作提供更大的机会和能力。每个新的 独特的内切核酸酶能使科学家在DNA分子内的新位置处精确切割DNA,这提供所有的机会。 这样的新限制性内切核酸酶可使得能够检测先前的限制性内切核酸酶不能区分的单核苷 酸多态性。新识别特异性使得能够进行新的限制片段连锁的多态性分析,以及在需要特异 性DNA切割和重装配的克隆技术中提供增加的灵活性。改变的酶的甲基转移酶活性也可用 于将甲基或其他化学基团在新特异性识别序列处引入DNA。因此,DNA可在多个识别序列处 通过新酶的作用而被特异性标记。甲基的引入也可用于阻断限制性内切核酸酶的作用,其 中修饰的位点覆盖限制性内切核酸酶的识别序列。工程化甲基转移酶可提供克隆天然发生 的限制性内切核酸酶的有用资源,对于天然发生的限制性内切核酸酶,已知不存在甲基化 酶来保护转化的宿主细胞。具有改变的结合特异性的甲基转移酶可用于将标记在特异性位点引入DNA。这些 标记可取决于甲基的引入或可选地另一化学基团的引入。预测未表征蛋白的结合特异性在公共数据库例如Genbank中,通常具有给定组的已表征蛋白质的大量未表征同 源物。同源物的识别序列通常是未知的。如果没有所识别的特异性序列的知识,这些蛋白 质不能参与本文描述的方法。然而,一旦确定识别的氨基酸序列组内的位置(一个或多个)连同由这些位置(一个或多个)处特定氨基酸残基确定的模块特异性已知,那么当它们的 位置特异性氨基酸序列与在这些位置处赋予已知模块识别的残基匹配时,这些未表征的同 源物的识别特异性可被预测。在天然存在的蛋白序列中可能的新的位置特异性模块识别序 列的鉴定当未表征的同源物的氨基酸残基与已知识别某些模块的氨基酸残基不匹配时,这 些同源物被鉴定为在识别序列中这些位置处识别不同模块的可能候选物。因此,那些未表 征同源物蛋白质的位置特异性氨基酸残基可被交换为已表征的结合蛋白的位置特异性氨 基酸残基,然后可表征该改变的蛋白质的结合特异性,其中预期其可能与在识别序列内该 特定位置处具有改变的模块特异性的识别序列结合。已知赋予给定模块特异性识别的位置特异性氨基酸残基可被转变为在具有未知 识别序列的数据库中的同源蛋白序列中这些比对位置处观测的可选残基。这样的置换反映 天然存在的结合蛋白的多样性,而无需预知每个这样的蛋白序列的具体识别特异性。用这 样的方式,在当前已知的识别序列中未观测到的模块识别可以获得。该实施方式的一个实 例在实施例2中给出,其中改变MmeI限制性内切核酸酶/甲基转移酶以产生识别新的DNA 序列的酶。赋予识别序列的位置6 (E806 (S) R808)处DNA碱基对识别的氨基酸被改变为在数个 天然存在但是未表征的序列中观测到的那些残基——所述残基与已知的位置特异性残基 (G(N)G)比对,这导致识别新的DNA结合序列5' -TCCRAR-3'的限制性内切酶的产生(参 见图6和23)。通过随机诱变赋予位置特异性模块特异性的鉴定的氨基酸位置,产生新的位置特 异性模块识别序列赋予DNA结合特异性的结合蛋白序列内的位置的鉴定考虑将这些位置处氨基酸 残基改变为所有可能的氨基酸残基(参见例如图23)。这表示鉴定为赋予特异性的那些残 基的合理靶向突变。然后,如此改变的蛋白质可进行生物化学检验以确定它们的识别特异 性而鉴定新的结合蛋白。该方法的主要益处是改变一些氨基酸位置是容易控制的,例如在 MmeI限制性内切核酸酶的位置6处赋予DNA碱基对特异性的两个位置(实施例1),而完整 蛋白序列或甚至该序列的相对小的子集的随机诱变立刻变得难以难控制,这是由于需要指 数量的突变。例如,随机改变MmeI位置6的两个鉴定的氨基酸残基位置将需要20X20个 或400个不同的序列。在锌指蛋白诱变的情况中,随机改变被认为与DNA相互作用的所有 7个氨基酸位置以形成所识别的三碱基对三联体的识别将需要207个或1. 28X IO9个不同 的突变体(Durai, S.et al. NAR 33(18) =5978-5990 (2005)) 对于锌指组合以识别更长的 DNA碱基对序列,例如6或9个碱基对,需要突变的数目迅速变为难以控制(对于6个碱基 对,大约IO18个,或者对于9个碱基对,大约IO27个)。使用本文提供的方法鉴定那些与DNA 相互作用以赋予碱基特异性的少数氨基酸位置,允许进行这些鉴定的残基的改变,这允许 鉴定识别新的DNA序列的新DNA结合蛋白。具有增加的模块结合特异性的结合蛋白的产生当紧密相关的结合蛋白组的一些成员比该组的其他成员特异性识别更多的模块 时,检查比对的识别序列和比对的氨基酸序列,以鉴定位置特异性氨基酸序列比对和那些 识别序列之间的相关性,所述那些识别序列规定在其他识别序列不识别特异性模块的位置 处的特定模块。在MmeI限制性内切核酸酶家族的实例中,数个成员识别七个碱基对序列,而其它成员仅识别六个碱基对。例如,MmeI识别甲基化的腺嘌呤5'端的四个位置中的特 异性DNA碱基,以及该腺嘌呤3'端的一个碱基,但是不识别该甲基化靶腺嘌呤的5'端的 第五位置中的特异性碱基,而除了识别紧接所述甲基化靶腺嘌呤5'端的四个位置中的特 异性碱基和该腺嘌呤3'端的一个碱基之外,SpoDI还识别该甲基化靶腺嘌呤5'的第五位 置中的特异性DNA碱基"G"。在该延伸位置处赋予特异性的氨基酸位置(一个或多个) 和位置特异性氨基酸残基(一个或多个)通过所描述的相关性方法加以鉴定,其中相关性 将由在识别延伸位置处给定DNA碱基的那些序列中的显著同一性组成,而在该延伸位置处 不规定任何DNA碱基的那些序列不会显示这样的相关性。使用本文描述的方法,一旦负责 特异性识别额外的DNA碱基(一个或多个)的氨基酸位置(一个或多个)和残基(一个或 多个)被鉴定后,负责该额外碱基识别的氨基酸序列可通过位点定向诱变引入到识别更短 的识别序列的相关DNA结合蛋白的基因中以扩大它们的特异性来包括另外的碱基对(一个 或多个)。上文和下文引用的所有参考文献,以及2007年6月20日提交的美国临时申请号 60/936,504,通过引用被并入本文。
实施例实施例1 特异件识别来自MmeI、NmeAIII、SdeAI和相关的IIG型限制性内切核酸 酶的新DNA序列的新功能性IIG型限制性内切核酸酶的合理产生MmeI是与双链DNA序列5' -TCCRAC-3 ‘ /5-GTYGGA-3 ‘特异性结合的DNA结合 蛋白。MmeI的功能是甲基化DNA链5’-TCCRAC-3’中的腺嘌呤碱基。MmeI也行使内切核酸 酶的功能,其切割该双链DNA 从TCCRAC链3 ‘端20个核苷酸和从GTYGGA链5 ‘端18个 核苷酸处进行切割,留下二碱基3'突出端(1,2)。具有与IIG型限制性内切核酸酶MmeI具有高度相似性的成员的多肽组通过使 用blastp程序实施Genbank非冗余数据库的BLAST检索来鉴定(Altschul et al. J. Mol. Biol. 215 :403-410 (1990) ;Altschul et al. Nucleic Acids Res. 25 3389-3402(1997);禾口 Madden et al. Methods Enzymol. 266 :131_141 (1996))(图 18 和图 25B-1 中的 #1)。MmeI 氨基酸序列(美国专利号7,115,407)被用作查询序列,并且对于包括在期望得分E的数据 库中的截断值,使用E < e-20。使用NCBI网络版blastp程序的缺省参数(http://www. ncbi. nlm. nih. rov/BLAST/)。大量多肽序列被鉴定为与MmeI高度相似;然而,这些序列中 没有一个在功能方面得以表征,特别是对于由给定多肽识别的特异性DNA序列。因此,大量 这些假设序列被克隆并表达。对表达的蛋白质检测内切核酸酶活性,并且在它们结合DNA 处的特异性DNA序列被表征(美国专利号7,186,538)。在通过BLAST检索鉴定为与MmeI 高度相似的序列组中,下列活性II型内切核酸酶的特异性DNA识别序列被鉴定。这些酶也 具有DNA甲基转移酶活性。来自Genbank 登陆号 GI 32479387 的 CstMI 识别 DNA 序列 5 ‘ -AAGGAG-3 ‘并在 该链上该序列3'端20个核苷酸和相反DNA链上互补体5'端18个核苷酸处进行切割,得 到 2 碱基 3'突出端:AAGGAGN20/N18 (7)。来自Genbank登陆号NC_003116、肽编号GI =15794682的NmeAIII通过校正鉴 定为与MmeI高度显著相似的阅读框内终止密码子而使其具有活性。发现NmeAIII识别5' -GCCGAG-3‘,并切割下游GCCGAGN21/m9 (国际申请号 PCT/US07/88522)。来自Genbank 登陆号 NC_007575. 1、肽编号 YP_392994. 1 的 SdeAI (先前称为 TdeAI)被克隆、表达和表征。SdeAI识别DNA序列5 ‘ -CAGRAG-3 ‘并切割下游CAGRAGN21/ N19。来自Genbank 登陆号 AACY01071935. 1 的 EsaSSI 是来自马尾藻海(SargassoSea) 的环境的DNA序列,其意味着不存在从其扩增和克隆该基因的可获得的模板DNA。因此, 编码EsaSSI的基因被合成制备,并且该肽序列的氨基酸密码子被优化为通常使用的大肠 杆菌(E.Coli)密码子。合成的基因被装配并克隆入大肠杆菌,表达和表征酶活性。发现 EsaSSI 识别 DNA 序列 5' -GACCAC-3'。来自Genbank登陆号NC_003911. 11、肽编号YP_167160的SpoDI被克隆、表达并表 征以识别DNA序列5 ‘ -GCGGAAG-3并切割下游GCGGAAGN20/N18。来自Genbank登陆号NC_001264. 1、肽编号NP_285443的DraRI被克隆;通过改 变位置2521 (氨基酸位置841)处TAA终止密码子为GAA密码子,校正该基因中假终止差 错。表达该基因并表征蛋白产物。发现DraRI识别DNA序列5' -CAAGNAC-3'并切割下游 CAAGNACN20/N18。来自Genbank登陆基因座NC_005206. 1、蛋白质编号NP_940747的ApyPI被克隆。 使用与CstMI蛋白的相似性来指导校正位置,校正靠近该蛋白质C-末端的移码。有活性的 全长蛋白质和校正的编码该多肽的DNA序列被报道。该校正的ApyPI酶被表达并表征以识 别 5 ‘ -ATCGAC-3 ‘和切割下游 ATCGACN20/N18。来自Genbank 登陆基因座 YP_001274371、肽编号 NC_009516. 1 的 PspPRI 被克隆、 表达并表征以识别5' -CCYCAG-3'和切割下游CCYCAGN21/N19或CCYCAGN20/N18。来自Genbank登陆基因座CP000319. 1、肽编号YP_579008的NhaXI被克隆、表达并 表征以识别5' -CAAGRAG-3 ‘和切割下游CAAGRAGN20/m8。来自Genbank登陆基因座NC_002935. 2、肽编号NP_940094的CdpI被克隆、表达 并表征以识别5' -GCGGAG-3'和切割下游GCGGAGN20/N18。来自Genbank登陆基因座NC_007958. 1、肽编号YP_570364的RpaB5I被克隆、表达 并表征以识别DNA序列5 ‘ -CGRGGAC-3 ‘和切割下游CGRGGACN20/N18。来自乳酰胺奈瑟球菌(Neisseria lactamica) ST640的WaCI被克隆、表达并表征 以识别 5 ‘ -CATCAC-3 ‘和切割下游 CATCACN19/m7 或 CATCACN20/N18。来自耐辐射奇球菌(Deinococcus Radiodurans)NEB479的DrdIV被克隆、表达并 表征以识别5' -GCGGAG-3'和切割下游GCGGAGN20/N18。来自假单胞菌属(Pseudomonas)0M2164种的PspOMII被克隆、表达并表征以识别 5 ‘ -GCGGAG-3 ‘和切割下游 GCGGAGN20/N18。来自Genbank登陆基因座NC_008738. 2、肽编号YP_956924的MaqI被克隆、表达并 表征以识别5' -CRTTGAC-3 ‘和切割下游CRTTGACN20/m8。来自Genbank登陆基因座NC_009719. 1、肽编号YP_001413872的PlaDI被克隆、表 达并表征以识别5' -CATCAG-3'和切割下游CATCAGN20/N18。来自Genbank登陆基因座NC_010475、肽编号YP_001735369的AquIII被克隆、表 达并表征以识别5' -GAGGAG-3'和切割下游GAGGAGN20/N18。
来自Genbank登陆基因座NC_010475、肽编号YP_001735547的AquIV被克隆、表达 并表征以识别5 ‘ -GRGGAAG-3 ‘和切割下游GRGGAAGN20/N18。比对MmeI的DNA识别序列和这些新表征的同源物酶。使用包含腺嘌呤碱基的DNA 链进行比对,所述腺嘌呤碱基通过这些酶的DNA甲基转移酶活性进行修饰,并且该DNA链也 是在DNA识别序列3'端被切割的链。DNA序列被比对,以便对每种酶,比对甲基化的腺嘌 呤碱基。DNA识别序列比对在图10和15以及图25Β的#_7中给出。从图10中描述的、具有已知的DNA识别序列的高度相似限制性内切核酸酶多肽序 列的一级氨基酸序列构建多序列比对。使用比对程序ClustalW :http://www. ebi.ac.uk/ clustalwZο在该算法中使用缺省设置,只是比对以输入顺序而不是比对得分顺序连同序列 一起返回。获得的多序列比对的一部分在图13和图25B的#8中给出。使用更严格的比对 程序 PROMALS (http//prodata. swmed. edu/promals/promals. php)对所形成的酶的全部 氨基酸序列的多序列比对在图20中示出。根据在甲基化靶腺嘌呤3'端的位置中识别的DNA碱基的功能,对多肽序列分组。 识别胞嘧啶〃 C"的酶是 Mmel、EsaSS217I、ApyPI, NlaCI, DrdIV、RpaB5I、DraRI 和 MaqI。 在该位置识别鸟嘌呤"G"的酶是 NhaXI、NmeAIII, CdpI, AquIII, CstMI、SdeAI, PspPRI、 PlaDI、SpoDI和AquIV。PspOMII在该位置识别〃 R"。在比对中给定位置处查询比对氨基 酸残基,其在C组和G组中是相同的,但是在组间不同。对于一小组序列例如这组,可以人 工地检查比对或通过计算机程序查询比对,所述计算机程序可鉴定何时在位置特异性氨基 酸残基和DNA碱基识别之间具有统计学显著的相关性。这类算法的实例在图21提供。在 检查比对后,观测一个位置,其中该位置处存在的氨基酸残基和在DNA识别序列比对内在 该位置处识别的DNA碱基之间存在100%的相关性。在该位置处,胞嘧啶由一组具有精氨酸 残基"R"的氨基酸序列识别,而鸟嘌呤识别组具有天冬氨酸残基"D"。这两个残基都是 带电的,并且可容易与DNA碱基形成氢键。MmeI序列中该残基的位置是R808,而在NmeAIII 中该残基是D818。识别胞嘧啶的候选氨基酸残基——在MmeI中的R808,和识别鸟嘌呤的相当位置 残基——在NmeAIII中的D818,被改变为期望通过位点定向诱变赋予其他DNA碱基的识别 的氨基酸残基(对于Mmel,R808改变为D ;而对于NmeAIII,D818改变为R)。对于每种酶, 根据Phusion 位点定向诱变试剂盒方法(NewEngland Biolabs, Ipswich,ΜΑ),合成两种寡 核苷酸引物进行使用。对于MmeI,引物是正向5 ‘ -pGATTATAGATATTCTGCCAGCCTGGTT-3 ‘ (SEQ ID NO :27),其中ρ是磷酸,反向5, -pACTTTCTAACCTTCCTCCTACATTTCTC-3‘ (SEQ ID N0:28)。正向引物的前三个核苷酸将精氨酸(Mmel的"R808")的氨基酸密码子改变为 密码子〃 GAT",其编码天冬氨酸〃 D"。改变NmeAIII的寡核苷酸引物是正向5' -pCGCTATCGCTACTCTAATACCGTCGT-3‘ (SEQ ID NO 29)和反向5' -pGCTTTTCAGACGACCTGCAAC-3‘ (SEQ ID NO :30)。正向引物 的前三个核苷酸将在NmeAIII中该位置的编码D818从"D"改变为"R"。根据制造商的 指导进行诱变,并且获得表达该期望的改变的氨基酸残基多肽的多核苷酸。将改变的MmeI 多核苷酸R808D和改变的NmeAIII多核苷酸D818R克隆到大肠杆菌中并进行表达,但是多 肽没有显示任何限制性内切核酸酶活性。由此我们得出结论,它们不特异性结合期望的新 识别序列,它们也不结合它们最初的DNA识别序列,亦不结合不同的未预测的序列。然而,该位置可能涉及DNA识别或者一些关键功能或折叠,因为改变的蛋白质已经失去了特异性 DNA结合的功能。因为在其他DNA结合蛋白中已经观测到特异性碱基对通常由协同工作的两个氨 基酸残基识别,所以进一步检测该序列的第二残基,该第二残基与紧邻甲基化靶腺嘌呤3' 端的位置处的G或C碱基的识别相关。观测到从R或D位置朝向多肽的氨基末端的氨基酸 残基两个位置,尽管具有一定程度的可变性,但是与G或C碱基识别相关。对于识别C碱基 的那些序列,该残基最通常是谷氨酸"E",而对于识别G碱基的那些,该残基最通常是赖 氨酸〃 K"。因此,该位置具有与鉴定为与识别的DNA碱基100%相关的〃 R"或〃 D"位置 的电荷相反的电荷,即对于与C碱基相关的正电"R"残基,在该位置具有带负电的"E", 而对于与G碱基相关的负电"D"碱基,具有带正电的"K"。两个最不同的序列—— SpoDI和DraRI,在该位置处都具有与它们组的其他成员不同的残基,其中DraRI具有苏氨 酸残基"T"而不是"E",而SpoDI在紧接该位置的甘氨酸"G"残基之前具有两个额外 残基甘氨酸-缬氨酸〃 GV"的插入。PspOMII在该位置具有〃 D",其在1:1相关位置处 与〃 D"残基形成独特的组合,这与PspOMII的独特碱基识别"R"相一致。因此,尽管该 位置(MmeIE806)处的残基在每一碱基识别分组内并不相同,但是它们显示与识别的DNA碱 基显著相关,并且没有相同残基存在于超过一个碱基识别组中的实例。在该第二识别位置 (MmeI E806)处的氨基酸残基然后连同鉴定的第一位置(Mmel R808)处的氨基酸残基一起 被改变,以便对于Mmel,将甲基化靶腺嘌呤之后的碱基位置的DNA识别从C改变为G,而对 于NmeAIII,从G改变为C。MmeI中相关的氨基酸残基E806和R808以及NmeAIII中的相当位置K816和D818, 通过位点定向诱变改变为识别不同碱基的组的氨基酸残基,以产生MmeI双突变体E806K、 R808D,和NmeAIII双突变体K816E和D818R。对于每种酶,合成两种寡核苷酸引物并在 Phusion 位点定向诱变试剂盒方法中使用。MmeI引物是正向5' -pGATTATAGATATTCTGC CAGCCTGGTT-3‘ (SEQ ID NO :27),其中 ρ 是磷酸,和反向5' -pACTTTTTAACCTTCCTGCTACAG TTCTCATCCAGCAGTTGTGCA-3‘ (SEQ IDNO 31)。改变NmeAIII 的引物是正向5‘ -pCGCTAT CGCTACTCTMTACCGTCGT-3‘ (SEQ ID NO :29)和反向5' -pGCTTTCCAGACGACCTCCAACGTTACG CATAAAGGCGTTGTG-3‘ (SEQ IDNO :32)。根据制造商的指导进行诱变。将在它们各自的表达载体中编码需要改变的多肽 序列的改变的多核苷酸转化入大肠杆菌宿主细胞。改变的MmeI和改变的NmeAIII的两个 单独的转化体均被接种到30毫升的含有100微克/毫升氨苄青霉素的LB中,并生长至对 数中期,然后加入IPTG至0. 4mM,并且生长细胞两个小时以诱发改变的蛋白质的表达。通 过离心收获细胞,重悬浮在1.5毫升的超声处理缓冲液SB(20mM Tris, pH7. 5 ;ImM DTT ; 0. ImM EDTA)中,并通过超声处理裂解。通过离心澄清提取物。为了检测内切核酸酶活性, 在 NEBuffer 4 中,使用用 NdeI 线性化的 pBC4 DNA (New England Biolabs, Inc.,Ipswich, MA)作为DNA底物进行提取物的连续稀释。对于改变的Mmel、E806K和R808D和改变的 NmeAIII、K816E和D818R观察到分离的带,这表示改变的多核苷酸序列编码活性内切核酸 酶(图1禾口 2,以及图25B中#—14和#_17)。改变的MmeI DNA识别序列的表征Iml Heparin HiTrap ft (GE Healthcare, Piscataway, NJ)MmeI的粗提物。将1. 5ml粗提物施加到该柱,所述柱先前已经用含有50mM NaCl的缓冲液A(20mM Tris pH7. 5、lmM DTT、0. ImM EDTA)平衡。用5柱体积的含有50mM NaCl的缓冲液A洗涤该 柱,然后应用30ml从0. 05M NaCl到IM NaCl的缓冲液A线性梯度,并收集Iml级分。改变 的MmeI在大约0. 48M NaCl下洗脱。预期该合理改变的MmeI酶将识别5' -TCCRAG-3'。 为了确定对改变的多肽的DNA识别序列,纯化酶对pBR322 DNA的切割位置被绘图(图1 和图25B中#17)。用纯化的MmeI突变体切割DNA,纯化,然后用在已知位置处切割一次的 酶进行切割。该DNA的双消化产生的独特片段的大小显示出已知的酶切割位置的定位到 MmeI突变体酶进行切割的位置的距离。改变的MmeI酶对pBR322的切割位置被绘图为近 似位置 260,310,1340 和 2790。序列 TCCRAG 发生在 pBR322 的位置 276,330,1314 和 2772 处,这与观察的切割位置匹配。野生型MmeI识别序列——TCCRAC,发生在pBR322的位置 197、283、2662和2846处,其与观察的切割位置不匹配。测定从噬菌体XDNA、噬菌体T3 DNA、pBC4 (Schildkraut Genet. Eng. 6 117-140 (1984) )·)DNA 和噬菌体 PhiX DNA 的内切 核酸酶切割产生的DNA片段的模式,以匹配在新识别序列TCCRAG处的切割(图1)。这些 结果显示在位置6改变的MmeI识别的DNA碱基已经从C改变为G,如在鉴定为与识别序列 比对中最靠近3'端的位置(3' -most position)处的DNA碱基识别相关的位置处的氨 基酸残基的合理位点定向变化所预测的。改变的MmeI限制性内切核酸酶在新的DNA序列 5' -TCCRAG-3'处结合,并且切割该DNA:从这条链上该序列3'端20个核苷酸,和从相反 链5' -CTYGGA-3'的互补序列5'端18个核苷酸处进行切割,留下2碱基3‘突出端。该 方法的运用导致产生新的限制性内切核酸酶。改变的NmeAIII DNA识别序列的表征改变的NmeAIII的粗提物被直接用于在多种DNA中对该内切核酸酶的切割位置进 行作图。预测该合理改变的NmeAIII将识别5' -GCCGAC-3'。为了确定改变的多肽的DNA 识别序列,改变的酶对PBR322、PhiX174和pBC4 DNA的切割位置被作图(图2和图19B中 #17)。DNA用改变的NmeAIII酶消化,在离心柱上纯化。DNA的双消化产生的独特片段的大 小显示出已知的酶切割位置的定位到NmeAIII突变体酶进行切割的位置的距离。改变的NmeAIII酶在大约位置450和950处切割pBR322。序列GCCGAC发生在 PBR322的位置446和941,其与观测的切割位置匹配。野生型NmeAI 11识别序列——GCCGAG, 发生在PBR322的位置120、1172和3489,这与改变的NmeAIII识别序列不同。类似地,对 于phiX174 DNA,在PhiX174中改变的NmeAIII-切割位置被作图至大约2300、2675、3435、 4740和5335。期望的NmeAIII-改变的识别序列——GCCGAC,发生在位置2251、2641、3474、 4710和5298,这与观测的切割位置匹配。野生型NmeAIII识别序列发生在PhiX174的位置 1022、3426和4680,这与改变的NmeAIII的识别序列不同。对于pBC4 DNA作图,获得相似 的结果。这些结果表明,在最终的碱基位置NmeAIII的识别序列从G改为C,如通过我们对 发现与该位置处识别的DNA碱基相关的氨基酸残基进行的合理位点定向改变所预测的。这 些结果是一个如何在氨基酸残基赋予以合理方式改变的DNA碱基特异性以产生可预测的 新DNA识别特异性的情况下,实现限制性内切核酸酶的识别序列的定向改变的例子。SdeAI 的识别特异性也通过运用相同方法从5' -CAGRAG-3'改变为5' -CAGRAC-3'(图9)。实施例2 位置特异性诱变以产生新的DNA识别序列在蛋白质组的氨基酸序列比对中,确定在比对的识别序列中3’端处第一碱基的识别的两个位置的鉴定,使得能够使用两种方法产生新的限制性内切核酸酶。在第一个方法 中,该组所有成员——包括识别序列还没有确定的那些成员——的氨基酸残基被比对。在 负责识别的鉴定位置处检查比对,以了解是否存在与已知规定给定碱基的识别的氨基酸不 匹配的任何天然存在的变化(图12和图25B中的#32)。在实施例1表征的酶的情况中, 在比对位置处决定核苷酸“C”的DNA识别序列的3’端第一碱基位置处的识别的氨基酸是 ExR和TxR。那些确定G的识别的氨基酸是KxD和GxD。检查该组的比对成员,并且观测到 数种氨基酸组合,所述氨基酸组合不是这些C或G决定组合之一。使用与实施例1相同的 方法,将这些氨基酸残基组合的两个——以Genbank登陆号gi | 28373198观测到的GxS和 以Genbank登陆号gi | 87198286观测到的GxG——通过位点定向诱变引MmeI多肽。为了将GxS氨基酸组合的密码引入编码MmeI蛋白的多核苷酸,合成两种寡核苷酸 引物,并用于Phusion 位点定向诱变试剂盒方法中。使用的引物为,正向5' -pCGATATTCT GCCAGCCTGGTTTACAACAC-3‘ (SEQ ID NO 165),其中 ρ 是磷酸,和反向5' -pGTAACTAGTACC TAACCTTCCTCCTACATTTCTCATCCAGCA-3' (SEQ IDNO :166)。反向引物将定向突变引入MmeI 基因。根据制造商的指导进行诱变。遵循相同的方法以将位置特异性氨基酸残基的GxG组 合引入 MmeI,使用引物正向5 ‘ -pCGATATTCTGCCAGCCTGGTTTACAACAC-3 ‘ (SEQ ID NO 167),其中 ρ 是磷酸,和反向5 ‘ -pGTAACCGTTACCTAACCTTCCTCCTACATTTCTCATCCAGCA-3 ‘( SEQ IDNO 168) 0将编码期望的改变的多肽序列的表达载体pRRS中改变的多核苷酸转化 入大肠杆菌宿主细胞。每个改变的MmeI的一个单独的转化体被各自接种到30毫升的含有 100微克/毫升氨苄青霉素的LB中,并生长至对数中期,然后加入IPTG至0. 4mM,并且生长 细胞两个小时以诱导改变的蛋白质的表达。通过离心收获细胞,重悬浮在1. 5毫升的超声 处理缓冲液SB(20mM Tris, pH7. 5 ;ImM DTT ;0. ImM EDTA)中,并通过超声处理裂解。通过 离心澄清提取物。为了检测内切核酸酶活性,粗提物被用于切割在补充有SAM(80微摩尔浓 度)的 NEBuffer 4 (NewEngland Biolabs, Inc. ,Ipswich,ΜΑ)中的 PhiX174 DNA。根据制造 商的说明,通过 Zymo Research" DNA Clean and Concentrate"离心柱(Zymo Research, Orange,CA),纯化切割的DNA。然后通过用4种不同的已知内切核酸酶切割,该纯化的切割 DNA被用于作图。对于两种改变的MmeI——E806G加R808S以及E806G加R808G构建体, 都观测到分离的条带,这表明改变的多核苷酸序列编码活性内切核酸酶。改变的MmeI E806G加R808G酶在大约位置1135和1335处切割pUC19 (图6A和 图 25B 中的 #36)。序歹Ij TCCRAR 在位置 1105 (TCCRAG)和 1352 (TCCRAA)处存在于 pUC19 中, 这匹配观测到的切割位置。野生型MmeI识别序列TCCRAC存在于在pUC19中的位置996和 1180处,这与对于改变的酶观测到的位置不匹配。对于pBR322和phiX174DNA,获得相似的 结果(图6B)。PhiX174中改变的酶的切割位置被作图于大约25、500、3600、3835和4135。 TCCRAR序列存在于接近这些位置的41、471、518、3588、3606、3857和4143处,这与观测的切 割位置相匹配。TCCRAR序列也在另外的位置1510、1671、2998、3959和3970处存在。尽管 在这些位置没有观测到切割,但是可用于切割的酶的量受到限制,因此DNA消化不完全。作 图的位点与在TCCRAR处的改变的酶切割相一致,并且与在野生型未改变的特异性TCCRAC 处切割不一致,这表示改变的酶在新的特异性即TCCRAR处切割。实施例3 识别新的DNA识别序列的酶的产生使用在上面实施例1和2中示例的方法,形成和表征特异性识别新的DNA序列的其他的酶。用于位点定向诱变的寡核苷酸引物在表1中示出。通过MmeI的位点定向诱变,使用引物SEQ ID N0:151和SEQ ID N0:152,将丙氨 酸774改变成亮氨酸,形成一种识别5' -TCCGAC-3'的这类酶。该改变的酶的识别特异性 在图3中显示。通过MmeI的位点定向诱变,使用引物SEQ IDNO 153和SEQ ID NO 154,将丙氨酸 774改变成赖氨酸,然后通过使用引物SEQ ID N0:155和SEQ ID NO 156将精氨酸810改 变成丝氨酸,形成另一种识别5' -TCCCAC-3'的这类酶。该改变的酶的识别特异性在图4 中显示。通过MmeI的位点定向诱变,使用引物SEQ ID N0:157和SEQ ID N0:158,将谷氨 酸751改变成精氨酸和将天冬酰胺773改变为天冬氨酸,形成识别5' -TCGRAC-3'的另一 种新酶。该改变的酶的识别特异性在图5中显示。通过MmeI的位点定向诱变,使用引物SEQ ID N0:159和SEQ ID N0:160,将谷氨 酸806改变成甘氨酸和将精氨酸808改变为苏氨酸,形成识别5' -TCCRAB-3'的另一种新 酶。该改变的酶的识别特异性在图7中显示。通过MmeI的位点定向诱变,使用引物SEQ ID N0:161和SEQ ID N0:162,将谷氨酸 806改变成色氨酸(trytophan)和将精氨酸808改变为丙氨酸,形成识别5 ‘ -TCCRAN-3 ‘ 的另一种新酶。该改变的酶的识别特异性在图8中显示。通过SdeAI的位点定向诱变,使用引物SEQ ID N0:163和SEQ ID N0:164,将赖氨 酸791改变成谷氨酸和将天冬氨酸793改变为精氨酸,形成识别5' -CAGRAC-3'的另一种 新酶。该改变的酶的识别特异性在图9中显示。表1 寡核苷酸引物的列表
Mme4GIA774L A774LCTGACGTATCATATTCCTAGTGCTGAACC T(SEQ ID NO: 151) 和 GTTACTTGAAATGACATTTCTATCAACAA AAC (SEQ ID NO: 152))图3Mme4CIA774K A774KAAGACGTATCATATTCCTAGTGCTGAACC T (SEQ ID NO:153) 和 GTTACTTGAAATGACATTTCTATCAACAA AAC (SEQ ID NO: 154)图4R810S R810SAGCTATTCTGCCAGCCTGGTTTACA (SEQ ID NO: 155) 和 GTAACGACTTTCTAACCTTCCTCCTACA (SEQ ID NO: 156)Mme3GIE751RCAATTGGAATAAATTGTCTGTTTTCAGAT GATGTGCGAGGTATCAACAGATAGTCCG TATCCG (SEQ ID NO: 157) 和 GTTTTGTTGATAGAAATGTCATTTCAAGT GACGCAACGTATCATATTCCTAGTGCTGA AC (SEQ ID NO: 158)图5N773DMme6BIE806GGCTGCCTAACCTTCCTCCTACATTTCTCA TCCA (SEQ ID NO: 159) 和 ACCTATAGATATTCTGCCAGCCTGGTTTA CA (SEQ ID NO: 160)图7R808TMme6NIR808AGTGCCTATAGATATTCTGCCAGCCTGGTT TACA(SEQIDNO:161) 和 TCCATAACCTTCCTCCTACATTTCTCATC CA (SEQ ID NO: 162)图8E806WSdeA6CID793RCGTTATTCAAATGAAATTGTTTATAACAA CTTCCCT (SEQ ID NO: 163) 和 GTAACGACTTTCTAATCTTCCAGCAACAT ACCGCA (SEQ ID NO:164)图9K791E总之,通过鉴定DNA结合蛋白中确定位置特异性DNA碱基识别的位置并且那些位 置改变成在未表征的天然存在的序列中观察到的不同氨基酸残基,实施例1、2和3证明了 该DNA结合蛋白改变来识别新的DNA序列。实施例4 未表征的DNA结合蛋白的DNA识别特异性的预测一旦在氨基酸比对内的位置(一个或多个)和在那些位置(一个或多个)处赋予 位置特异性DNA碱基识别的具体氨基酸残基被鉴定,未表征的多肽同源物的DNA识别特异 性可被精确预测。我们已经示出,与MmeI中位置E806-(S)-R808相应的氨基酸ExR确定 在DNA识别序列位置中“C"的识别,该DNA识别序列位置紧邻与MmeI相关的同源序列家 族中甲基化靶腺嘌呤的3'端。预测在数据库例如Genbank中发现的任何同源物——其在 MmeI多肽家族内的氨基酸序列比对中在该位置具有相同氨基酸残基ExR——具有在该位置 识别"C"的高度确定性。相似地,在该位置处残基"KxD"的存在预测该多肽将在该位 置识别"G"。氨基酸与识别序列中核苷酸的类型和位置的相关性的变化可以被包括在该 预测之内。例如,残基〃 TxR"(来自DraRI)具有预测的〃 C"识别,而"GVGND“(来自 SpoDI)具有预测的"G"识别。该预测方案已对目前表征的组的所有成员所识别的DNA碱 基提供精确预测,例如EsaSSI,其中DNA识别序列通过实验被发现为5' -GACCAC-3',并且 其中C被正确预测在最靠近3'-端的位置(图10A)。实施例5 =甲基转移酶家族的装配:通过收集特异性DNA识别序列已知并且识别REBASE数据库中Y类腺嘌呤甲基转移酶列表的6个DNA碱基的酶的序列,装配图22中示出的γ类N6A DNA甲基转移酶。使 用 PR0MALS 算法(http://prodata. swmed. edu/promals/promals. php),比对收集的氨基酸 序列。比对DNA识别序列,将假设为修饰的腺嘌呤的腺嘌呤放置在比对的位置5处。在通 过方框鉴定的比对的氨基酸序列中的位置与在识别序列比对的位置3处识别的DNA碱基显 著相关(X平方P值<0.001)。这是使用所描述的方法鉴定非MmeI-样家族的蛋白质家族 中的识别序列决定因素的实例。
权利要求
一种方法,其包括(a)使用初始的结合蛋白在BLAST检索中查询数据库来产生结合蛋白组,其中每个结合蛋白具有限定的氨基酸序列,使得在BLAST检索中,对于大于200个氨基酸的序列,所述氨基酸序列的组具有小于e 20的期望值(E),或者对于小于200个氨基酸的序列,具有小于e 10的期望值(E);每个结合蛋白结合底物中的特异性靶识别序列,所述靶识别序列含有位置特异性模块;(b)比对由所述组中所述结合蛋白识别的靶识别序列;(c)比对所述组的所述结合蛋白的氨基酸序列;和(d)鉴定所述识别序列中比对的位置特异性模块和所述结合蛋白的比对的氨基酸序列中一个或多个位置特异性氨基酸之间的相关性。
2.根据权利要求1所述的方法,其中步骤(b)进一步包括利用所述特异性靶识别序 列中的位置依赖性特征进行比对。
3.根据权利要求1所述的方法,进一步包括通过使用所述结合蛋白组的成员在另外 的BLAST检索中查询所述数据库来扩大所述结合蛋白组。
4.根据权利要求1所述的方法,进一步包括在所述组中多个结合蛋白中鉴定一个氨 基酸残基或多个氨基酸残基的位置和类型,所述氨基酸残基确定在所述识别序列中的一个 或多个位置特异性模块的识别。
5.根据权利要求4所述的方法,进一步包括产生目录的步骤,所述目录用于记录比对 的氨基酸序列中的氨基酸的位置和那些位置处的氨基酸残基,所述氨基酸残基确定所述结 合蛋白组的比对的识别序列中特异性位置处的模块的特异类型的识别。
6.根据权利要求5所述的方法,进一步包括使用所述目录合理地修饰一个或多个比 对的结合蛋白的氨基酸序列以识别改变的特异性靶识别序列的步骤。
7.根据权利要求4所述的方法,进一步包括在单一结合蛋白中的相关位置处非随机 地突变一个或多个氨基酸以引起所述结合蛋白的所述特异性靶识别序列的可预测改变。
8.根据权利要求1所述的方法,其中所述组的结合蛋白成员具有已知的氨基酸序列, 但是具有未表征的特异性靶识别序列,所述方法进一步包括下列步骤(a)通过下列步骤鉴定所述识别序列中的位置特异性模块(i)检查比对的结合蛋白组中所述结合蛋白成员的氨基酸序列的比对;( )读出在所述目录中记录的位置处的氨基酸残基;和(iii)比较所述结合蛋白成员中的氨基酸残基与所述目录中记录的氨基酸残基;和(b)确定所述结合蛋白成员的特异性靶识别序列。
9.根据权利要求1所述的方法,其中所述位置特异性模块由DNA底物中的一个或多个 核苷酸组成。
10.根据权利要求1所述的方法,其中所述结合蛋白组是DNA结合蛋白组。
11.根据权利要求9所述的方法,其中所述DNA结合蛋白组是MmeI-样蛋白组。
12.根据权利要求10所述的方法,进一步包括通过改变MmeI的氨基酸序列中预确定 的一个位置或多个位置处的氨基酸残基或在DNA结合蛋白的MmeI样蛋白中的等价比对位 置处的氨基酸残基,来改变所述MmeI样DNA结合蛋白的DNA识别序列。
13.根据权利要求12所述的方法,其中MmeI的氨基酸序列中的预确定位置选自751+773、806+808、774+810、774、774+810+809 和 809。
14.根据权利要求11所述的方法,其中改变所述识别序列进一步包括改变所述DNA 识别序列的位置3、4和6的一处或多处的核苷酸。
15.根据权利要求1所述的方法,进一步包括在计算机可读存储器中的数据库中存储 所述结合蛋白的氨基酸序列和通过执行储存在计算机中的指令完成步骤(a)、(b)、(c)或 (d)的一个或多个。
16.根据权利要求3、4和6的任一个所述的方法,进一步包括通过执行储存在计算机 中的指令完成所述步骤。
17.产生结合蛋白的方法,所述结合蛋白识别合理选择的识别序列,所述方法包括使用蛋白质组的成员蛋白质的位点定向诱变,在鉴定的与选择的特异性靶模块识别相 关的一个位置或多个位置处用第二氨基酸取代第一氨基酸。
18.自动化图25A中流程图的一个或多个步骤的方法,包括利用具有编程指令的计算 机来实现方框1、2、3、4、6和7B中描述的一个或多个功能;和进一步利用能够进行反应以实 现步骤5、7A或8的任一个的装置。
19.使用执行指令的计算机自动化图25B中流程图的一个或多个步骤并任选地自动化 包括化学反应在内的一个或多个步骤的方法。
20.一种MmeI样酶,其具有导致在预确定位置处至少一个改变的氨基酸残基的突变, 所述预确定位置具有对于DNA识别序列的特异性,所述DNA识别序列与未改变的酶的DNA 识别序列相比至少一个碱基不同。
21.根据权利要求20所述的酶,其中所述至少一个碱基不同由碱基缺失或添加组成。
22.根据权利要求20所述的酶,其中所述不同由所述识别序列中鉴定位置处的可选择 识别的碱基组成。
23.系统,其包括存储指令的存储器和执行指令的计算机,当所述指令被执行时,其使用初始的结合蛋白在BLAST检索中查询数据库而产生结合蛋白组,其中每个结合蛋白具有限定的氨基酸序列,所述氨基酸序列对于大于200个氨基酸的序列具有小于e-20的 期望值(E)或对于小于200个氨基酸的序列具有小于e-10的期望值(E);所述结合蛋白与 底物中特异性靶识别序列相结合,所述靶识别序列包含位置特异性模块。
24.根据权利要求23所述的系统,进一步包括指令,当执行时,其比对所述结合蛋白识别的特异性靶识别序列;和比对所述组的所述结合蛋白的氨基酸 序列。
25.根据权利要求24所述的系统,进一步包括指令,当所述指令执行时,其鉴定所述识别序列中比对的位置特异性模块与所述结合蛋白的比对氨基酸序列中一 个或多个位置特异性氨基酸之间的相关性。
26.根据权利要求25所述的系统,进一步包括接收来自蛋白质合成和蛋白质结合分 析装置的数据并包含指令的工具,当所述指令执行时,其使用所述数据,通过证实突变蛋白质与预确定识别序列结合的预测来确认所述相关 性;和将所述数据组织成在鉴定位置处确认的一个氨基酸或多个氨基酸的目录,所述鉴定位 置确定所述识别序列中模块位置和类型的识别。
27.系统,其包括存储指令的存储器和执行所述指令的计算机,当所述指令被执行 时,其(a)在第一数据库中收集和比对结合蛋白的氨基酸序列的分选组,并且在第二数据库 中收集和比对至少所述结合蛋白的亚组的识别序列的分选组,其中所述第一数据库从氨基 酸或核苷酸序列的第三数据库的自动化检索获得;(b)鉴定所述氨基酸序列组中选择的比对位置处的氨基酸和所述识别序列中选择的比 对模块位置处的模块之间的相关性;(c)从蛋白质合成和蛋白质结合分析仪器接收关于相关性的数据,以使用所述数据,通 过证实突变蛋白质与预确定识别序列结合的预测来确认所述相关性;和(d)将所述数据组织成在鉴定位置处确认的一个氨基酸或多个氨基酸的目录,所述鉴 定位置确定在所述识别序列中模块位置和类型的识别。
28.系统,其包括存储指令的存储器和执行所述指令的计算机,当所述指令被执行 时,其存储第一结合蛋白中一个或多个氨基酸残基的位置信息,进行靶向突变以产生第二结 合蛋白,所述第二结合蛋白在由所述蛋白质识别的模块的序列内的序列位置中具有预测的 模块改变。
29.根据权利要求28所述的系统,其中所述存储的指令包括图7A中的指令。
30.方法或组合物,其包括在所附的说明书中公开的任何特征。
全文摘要
提供产生结合蛋白的方法和组合物,所述结合蛋白识别合理选择的识别序列,在该识别序列中使用与识别序列中选择的特异性靶模块的识别相关的一个或多个鉴定位置处的一组蛋白质的成员蛋白的位点定向诱变,将第一氨基酸取代为第二氨基酸。提供一个系统,所述系统自动化储存和操作结合蛋白中氨基酸残基位置和类型与靶识别序列中特异性位置处的特异性模块之间的相关性,并且所述系统用于设计和产生具有新特异性的蛋白质。
文档编号C12N15/55GK101933022SQ200880103000
公开日2010年12月29日 申请日期2008年6月20日 优先权日2007年6月20日
发明者R·D·摩尔根 申请人:新英格兰生物实验室公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1