将含有重原子的非天然氨基酸位置特异性地引入蛋白质来确定晶体结构的制作方法

文档序号:439946阅读:1747来源:国知局

专利名称::将含有重原子的非天然氨基酸位置特异性地引入蛋白质来确定晶体结构的制作方法
技术领域
:本发明属于翻译生物化学(translationbiochemistry)领域。本发明涉及响应于选择密码子(selectorcodon),例如终止选择密码子而将非天然氨基酸,例如含有重原子的氨基酸引入蛋白质的正交氨酰基-tRNA合成酶的组合物,以及正交氨酰基-tRNA合成酶和正交tRNA配对。本发明还涉及用这种配对在细胞中产生蛋白质的方法与相关的试剂盒。此外,本发明还涉及用引入作为研究对象的蛋白质中的非天然氨基酸来测定该蛋白质晶体结构的新组合物和新方法。
背景技术
:可通过单波长异常色散(singlewavelengthanomalousdispersion)(SAD)实验,用蛋白质内的异常信号得出相信息从而测定晶体结构(Hendrickson和Teeter,(1981),“从硫的异常散射直接测定疏水性蛋白质花菜蛋白的结构”(Structureofthehydrophobicproteincrambindetermineddirectlyfromtheanomalousscatteringofsulfur),Nature,290107-113和Debreczeni等,(2003),“内部测定硫异常信号及其用于定相”(In-housemeasurementofthesulfuranomaloussignalanditsuseforphasing),ActaCrystallogrD,59688-696)。但是,蛋白质中硫或其它原子较弱的异常信号导致必需大量冗余数据(Dauter等,(1999),“硫的异常信号可以作为分辨蛋白质晶体结构的工具吗?”(Cananomaloussignalofsulfurbecomeatoolforsolvingproteincrystalstructures?),JMolBiol,28983-92),这限制了内部SAD定相的应用。重原子,例如U、Ba、Xe、Te和I在CuKα波长具有强烈的异常信号,但难于在蛋白质中将它们精确定位。内部发射器(1.5418)常用的碘在CuKα波长的异常信号(δf”)是6.85e-,是硒(1.14e-)的6倍,硫(0.56e-)的12倍(Dauter等,(2002),“JollySAD”,ActaCrystallogrD58494-506)。因此,将碘原子选择性引入蛋白质可以不象硒或硫定相那样需要高数据度冗余度和高溶剂含量(Dauter等,(1999),JMolBiol,28983-92)。本文所述的遗传法引入重原子(例如,遗传法引入碘代Phe)比之目前引入重原子进行SAD定相具有许多优点。所述目前方法之一用含相关离子的溶液浸湿晶体,从而以卤素或金属离子取代蛋白质表面所结合的水分子(Dauter等,(2000),“蛋白质定相的新方法用卤素通过短时低温浸湿的衍生化”(Novelapproachtophasingproteinsderivatizationbyshortcryo-soakingwithhalides),ActaCrystallogrD,56(第二部分)232-237和Nagem等,(2001),“牢固引入带负电和带正电的异常散射体的蛋白质晶体结构溶液”(Proteincrystalstructuresolutionbyfastincorporationofnegativelyandpositivelychargedanomalousscatterers),ActaCrystallogrD,57996-1002)。但是,该方法会产生大量低占有率的位点,必须先确定这些位点的位置才能推导各相的形象。另一种方法是引入甲硫氨酸碲(telluromethionine)(TeMet)(Boles等,(1994),“将甲硫氨酸碲生物引入二氢叶酸还原酶的包埋残基中”(Bio-incorporationoftelluromethionineintoburiedresiduesofdihydrofolatereductase),NatStructBiol,1283-284和Budisa等,(1997),“将甲硫氨酸碲生物引入蛋白质蛋白质的X射线结构分析有希望的新方法”(BioincorporationoftelluromethionineintoproteinsapromisingnewapproachforX-raystructureanalysisofproteins),JMolBiol,270616-623),该方法在CuKα波长提供了显著的异常信号(δf”=6.4e-),但其受限于TeMet对氧化的极度敏感性、对宿主的毒性和难以用TeMet定量取代Met。本发明提供的诸多益处中包括,本发明提供了通过位置特异性地、高效地将重原子引入蛋白质而克服上述困难的组合物和方法。例如,通过用独特的碘代Phe密码子编码,tRNA和氨酰基-tRNA合成酶,可定量且有效地将该氨基酸引入蛋白质中任何位置。此外,用碘代Phe取代表面或内部位置的大疏水性残基干扰蛋白质结构的程度将是最低的。纵览下文后可以完全理解本发明。发明概述本发明提供新的正交氨酰基tRNA-合成酶,该合成酶使正交tRNA择优带上含重原子的氨基酸,例如碘代Phe或溴代Phe。本发明也提供用正交氨酰基tRNA-合成酶和正交tRNA产生蛋白质产物的新翻译系统。本发明还描述了产生包含了含重原子的氨基酸,例如溴化或碘化氨基酸的蛋白质的相关试剂盒与方法。如本文所述,发现这些技术和组合物有许多应用(领域),特别是测定蛋白质结构。一方面,本发明提供包含正交氨酰基-tRNA合成酶(O-RS)的翻译系统。在一类实施方案中,O-RS包含SEQIDNO3或SEQIDNO4的氨基酸序列或选自SEQIDNO1-2的多核苷酸序列及其互补多核苷酸序列所编码的氨基酸序列。在某些实施方案中,O-RS含有的氨基酸序列与天然存在的酪氨酰氨酰基-tRNA合成酶(TyrRS)的序列至少90%相同并含有两个或更多(例如,不少于3个、不少于4个或5个)选自以下的氨基酸在对应于詹氏甲烷球菌(M.jannaschii)TyrRS的Tyr32位置的亮氨酸、在对应于詹氏甲烷球菌TyrRS的Glu107位置的丝氨酸或谷氨酸、在对应于詹氏甲烷球菌TyrRS的Asp158位置的脯氨酸、在对应于詹氏甲烷球菌TyrRS的Ile159位置的亮氨酸或精氨酸和在对应于詹氏甲烷球菌TyrRS的Leu162位置的谷氨酸或精氨酸。O-RS任选源自詹氏甲烷球菌氨酰基-tRNA合成酶。在某些实施方案中,O-RS优选以溴化或碘化氨基酸氨酰化正交tRNA,其效率至少是SEQIDNO3或SEQIDNO4所示多肽的50%,前提是该正交氨酰基-tRNA合成酶不含SEQIDNO6-9之任一种。溴化或碘化的氨基酸可以是,例如L-2-碘代丙氨酸、L-3-碘代苯丙氨酸、L-2-碘代酪氨酸、L-3-碘代酪氨酸、L-2-溴代苯丙氨酸、L-3-溴代苯丙氨酸、L-2-溴代酪氨酸或L-3-溴代酪氨酸。在一类优选的实施方案中,溴化或碘化氨基酸是L-4-溴代苯丙氨酸(溴代Phe)或L-4-碘代苯丙氨酸(碘代Phe)。在一类实施方案中,翻译系统在细胞内,例如在大肠杆菌细胞内。O-RS任选由细胞中的一种或多种核酸编码。类似地,被O-RS择优加载的正交tRNA(O-tRNA)也任选由细胞中的一种或多种核酸编码。在其它实施方案中,翻译系统包含体外翻译系统,例如细胞提取物。翻译系统通常还包含正交tRNA,例如通过O-RS择优带有溴化或碘化氨基酸的O-tRNA。在一些实施方案中,O-tRNA包含SEQIDNO5所示多核苷酸序列或其保守性变体,或由该序列或变体所编码。O-tRNA任选识别(即,包括识别序列)作为终止密码子的选择密码子,例如琥珀密码子。翻译系统任选包括含有为O-tRNA所识别的选择密码子的靶核酸,所述O-tRNA通过O-RS择优带上例如溴化或碘化氨基酸。翻译系统还可包含靶核酸所编码的蛋白质,该蛋白质含有溴化或碘化的氨基酸(例如,溴代Phe或碘代Phe)。一类通用的实施方案提供包含正交氨酰基-tRNA合成酶的组合物,该酶含有氨基酸序列SEQIDNO3或SEQIDNO4或其变体。该组合物还任选含有被O-RS优选用溴化或碘化氨基酸(例如,碘代Phe或溴代Phe)而氨酰基化的正交tRNA。例如,O-tRNA可含有核苷酸序列SEQIDNO5或其变体,或由该序列或其变体所编码。组合物可包含细胞(例如,真核或非真核细胞,如大肠杆菌细胞),例如含有O-RS的细胞。O-RS可以由细胞中的一种或多种核酸编码。组合物可含有翻译系统。在含有细胞而细胞中一种或多种核酸编码O-RS的组合物中,该细胞还可包含识别选择密码子和溴化或碘化氨基酸的正交-tRNA(O-tRNA),例如其中O-RS优先用溴化或碘化氨基酸氨酰化O-tRNA。在一些实施方案中,细胞包含编码感兴趣蛋白质的靶核酸,其中该靶核酸编码O-tRNA所识别的选择密码子。细胞也可包含靶核酸所编码的蛋白质,该蛋白质含有溴化或碘化的氨基酸。相关的一类实施方案提供了一种核酸分子,该核酸分子包含编码氨基酸序列SEQIDNO3或SEQIDNO4或其保守性变体的多核苷酸序列,或包含多核苷酸序列SEQIDNO1或SEQIDNO2或其互补多核苷酸序列。可由载体(例如,表达载体)包含或编码本发明的核酸。试剂盒也是本发明的特点之一。例如,本发明提供了产生在特定位置含溴化或碘化氨基酸的蛋白质的试剂盒,该试剂盒含有含正交tRNA和正交氨酰基-tRNA合成酶的细胞,所述正交tRNA在该细胞中起作用并识别选择密码子,所述细胞装在一个或多个容器内。该正交氨酰基-tRNA合成酶含有的氨基酸序列与天然存在的酪氨酰氨酰基-tRNA合成酶(TyrRS)的至少90%相同并含有两个以上(例如,不少于三个、不少于四个或五个)选自以下的氨基酸在对应于詹氏甲烷球菌TyrRS的Tyr32位置的亮氨酸、在对应于詹氏甲烷球菌TyrRS的Glu107位置的丝氨酸或谷氨酸、在对应于詹氏甲烷球菌TyrRS的Asp158位置的脯氨酸、在对应于詹氏甲烷球菌TyrRS的Ile159位置的亮氨酸或精氨酸和在对应于詹氏甲烷球菌TyrRS的Leu162位置的谷氨酸或精氨酸。在一个实施方案中,该试剂盒还装有溴化或碘化氨基酸(例如,溴代Phe或碘代Phe)、产生蛋白质的使用说明书、合适的细胞生长培养基、将编码感兴趣蛋白质并含有选择密码子的靶核酸引入细胞的试剂等等。在细胞(例如,非真核细胞如大肠杆菌等或真核细胞)中产生在特定位置含有重原子氨基酸(例如,溴化或碘化氨基酸,如溴代Phe或碘代Phe)的蛋白质的方法也是本发明的特点之一。例如,这些方法可包括提供含有核酸,在细胞中起作用并识别选择密码子的正交tRNA和正交氨酰基-tRNA合成酶的细胞,所述核酸至少含有一个所述选择密码子并编码蛋白质。O-RS含有的氨基酸序列与天然存在的酪氨酰氨酰基-tRNA合成酶(TyrRS)的至少90%相同并含有两个或多个(例如,不少于3个、不少于4个或5个)选自以下的氨基酸在对应于詹氏甲烷球菌TyrRS的Tyr32位置的亮氨酸、在对应于詹氏甲烷球菌TyrRS的Glu107位置的丝氨酸或谷氨酸、在对应于詹氏甲烷球菌TyrRS的Asp158位置的脯氨酸、在对应于詹氏甲烷球菌TyrRS的Ile159位置的亮氨酸或精氨酸和在对应于詹氏甲烷球菌TyrRS的Leu162位置的谷氨酸或精氨酸。O-RS任选含有包含SEQIDNO3-4中任一条的氨基酸序列。类似地,O-tRNA任选含有SEQIDNO5所示多核苷酸序列或其保守性变体,或由所述序列或其变体编码。细胞生长在合适的培养基中。在含有至少一个选择密码子的核酸的翻译期间提供溴化或碘化的氨基酸(或含有其它重原子的氨基酸)并使其掺入蛋白质的特定位置,由此产生所述蛋白质。本
发明内容之一提供测定蛋白质结构的方法。在这些方法中,包括提供在特定位置含有重原子氨基酸的蛋白质,所述蛋白质是在包含正交tRNA和择优用含有重原子的氨基酸氨酰化正交tRNA的正交氨酰基-tRNA合成酶的该翻译系统中表达的。使含有重原子氨基酸的蛋白质结晶从而产生含有重原子的蛋白质晶体。通过包括以下步骤的方法来测定蛋白质结构收集含有重原子的蛋白质晶体在单波长(例如,1.5418)的衍射数据并检测Friedel配子(mate)之间的异常差异。蛋白质可在体内或体外翻译系统(例如本文所述的)中表达。在某些实施方案中,正交t-RNA合成酶含有SEQIDNO3或SEQIDNO4所示的氨基酸序列或其保守性变体。类似地,正交-tRNA可含有SEQIDNO5所示的多核苷酸序列或其保守性变体。含有重原子的氨基酸可以是任何合适的含有重原子的氨基酸,例如预计其引入不会显著干扰蛋白质结构的含重原子氨基酸。例如,含有重原子的氨基酸可以是溴化或碘化的氨基酸。在优选的一类实施方案中,该溴化或碘化的氨基酸是L-4-溴代苯丙氨酸或L-4-碘代苯丙氨酸。附图简述图1中A图显示了p-碘代-苯丙氨酸(碘代Phe)的结构。B图显示了嗜热脂肪芽孢杆菌(B.stearothermophilus)TyrRS-酪氨酰腺苷酸复合物的部分晶体结构。括号内是五个随机选取的詹氏甲烷球菌TyrRS残基(即,Tyr32、Glu107、Asp158、Ile159和Leu162)。根据在晶体结构中观察到的同源嗜热脂肪芽孢杆菌TyrRS残基(Tyr34、Asn123、Asp176、Phe177和Leu180)和酪氨酰腺苷酸之间的接触来选择残基。C图是凝胶(电泳)的照片,通过所表达的琥珀突变型Z-结构域蛋白质的SDS-PAGE和银染色证实碘代Phe掺入了相应的琥珀密码子。蛋白质通过Ni2+亲和层析纯化。图2显示了异常数据组的Patterson和差分傅立叶图。A图显示了掺有碘代Phe晶体在45、60、90、135、180和360度的所收集数据的Patterson图的第一Harker部分。碘自身的峰在所收集数据的90°后出现;存在于180°和360°组的其它峰是晶体中存在的Cl-离子自身的峰。用CCP4程序包的FFT和NPO产生图谱。在3.0sigma处画连线图;在3.0sigma步骤中画此后的连线图。B图显示了用溶菌酶结构1L63定相(Nicholson等,(1991),Biochemistry,309816-9828)和异常差分振幅得到的差分傅立叶图。可清楚区分碘的位置以及硫和离子的数目。在高于平均值的3σ处画出电子密度图并用CCP4(软件)包的程序计算;通过BobScript和Raster3D作图(Kraulis,(1991),“MOLSCRIPT产生蛋白质结构的详图和略图的程序”(MOLSCRIPTaprogramtoproducebothdetailedandschematicplotsofproteinstructures),J.Appl.Crystallogr.,24946-950;Merritt和Murphy,(1994),“(Raster3D2.0版.光实体分子图程序”(Raster3DVersion2.0.Aprogramforphotorealisticmoleculargraphics),ActaCrystallogrD,50869-873;和Esnouf,(1997),“极大提高着色性能的大规模修饰版的MolScript”(AnextensivelymodifiedversionofMolScriptthatincludesgreatlyenhancedcoloringcapabilities),JMolGraphModel,15,132-134112-133)。图3显示了碘代Phe的结构和代表性电子密度。A图显示了在153位具有碘代Phe的T4溶菌酶的带状图(ribbondiagram)。碘代Phe以球棍表示。B图显示了用RESOLVE对SOLVE由代表135°数据的数据组产生的原始相进行相精制后碘代Phe周围的原始电子密度。最终精制的模型以球棍表示以便比较。C图比较了天然(Nicholson等,(1991),Biochemistry,309816-9828)(1L63)和碘代PheT4溶菌酶的疏水核心。用Bobscript和Raster3D作图。图4提供了两种氨酰基-tRNA-合成酶突变型基因的核苷酸(DNA)和相应的氨基酸序列(碘代PheRS#1,A图和碘代PheRS#2,,B图),所述基因,例如在本文所述的体内环境中,能在tRNA/合成酶正交配对中起作用、对突变型tRNA进行加载并将p-碘代-苯丙氨酸(或p-溴代-苯丙氨酸)掺入新生蛋白质中。碘代PheRS#1核苷酸和氨基酸序列分别如SEQIDNO1和3所示;碘代PheRS#2核苷酸和氨基酸序列分别如SEQIDNO2和4所示。图5提供了能在本发明正交配对中起作用,例如在体内,将p-碘代-苯丙氨酸(或p-溴代-苯丙氨酸)掺入蛋白质的突变型tRNA的核苷酸序列(SEQIDNO5)。图6列举了可用正交tRNA/合成酶系统(例如在体内)掺入蛋白质来测定蛋白质结构的含重原子氨基酸的结构。A图描述了p-碘代-L-苯丙氨酸(碘代Phe),B图描述了L-3-碘代苯丙氨酸,C图描述了L-2-碘代苯丙氨酸和D图描述了L-3-碘代酪氨酸。定义除非另有定义,本文使用的所有科技术语具有与本发明所属领域的普通技术人员通常理解相同的意义。以下定义补充了本领域的术语并涉及本申请,而不应归咎于任何相关或不相关的情况,例如任何共有的专利或申请。虽然与本文所述相似或等价的任何方法和材料可用于实施对本发明的测试,但优选本文所述的材料和方法。因此,本文所用的术语只是为描述具体实施方案,而非限制性的。除非文中另有明确指出,本说明书和附加的权利要求中使用的单数形式“一”、“一个”和“该”包括复数含义。因此,例如“一个细胞”实则包括两个以上细胞的组合;提及“细菌”包括细菌的混合物,等等。正交tRNA本文所用的正交tRNA(O-tRNA)是与感兴趣的翻译系统成正交关系的tRNA。O-tRNA可以带有氨基酸或不带氨基酸的状态存在。应该理解,在翻译期间可有利地用本发明O-tRNA响应选择密码子将无论天然或非天然的任何氨基酸插入衍生中的多肽。正交氨基酸合成酶本文所用的正交氨基酸合成酶(O-RS)是在感兴趣翻译系统中择优性用氨基酸氨酰化O-tRNA的酶。正交本文所用的术语“正交”当它修饰某分子(例如,正交tRNA(O-tRNA)和/或正交氨酰基tRNA合成酶(O-tRNA))时标示,与细胞或翻译系统的内源性相应分子相比,该分子与细胞或其它翻译系统作用的效率降低,或当与细胞或翻译系统的内源性组分配对时不能发挥作用。就tRNA和氨酰基-tRNA合成酶而言,正交指与合适的(例如,同源的或类似的)内源性tRNA与内源性互补tRNA合成酶配对时发生作用的能力相比,正交tRNA不能与内源性tRNA合成酶发生作用或效率降低(例如,20%以下的效率,10%以下的效率,5%以下的效率,或1%以下的效率);或者与合适的内源性tRNA合成酶与内源性互补tRNA配对时发生作用的能力相比,正交氨酰基tRNA合成酶不能与内源性tRNA发生作用或效率降低(例如,20%以下的效率,10%以下的效率,5%以下的效率,或1%以下的效率)。正交分子缺乏功能正常的天然存在于细胞或翻译系统中的内源性互补分子。例如,相比于内源性RS氨酰化内源性tRNA,细胞中各种内源性RS氨酰化细胞中正交tRNA的效率降低或者甚至检测不到。在另一例子中,相比于互补内源性RS氨酰化内源性tRNA,正交RS氨酰化细胞中各种感兴趣的内源性tRNA的效率降低或者甚至检测不到。可将第二正交分子引入细胞,该分子与第一正交分子配对发挥作用。例如,正交tRNA/RS配对包括所引入互补组份,它们一起工作的效率与对照,如对应的(如,类似的)tRNA/RS内源性配对或活性正交配对(如色氨酰或酪氨酰的正交tRNA/RS配对)相当(例如,45%效率、50%效率、60%效率、70%效率、75%效率、80%效率、90%效率、95%效率或99%效率,或更高)。同源物(cognate)术语“同源物”指一起发挥作用的组分,例如正交tRNA和择优氨酰化该正交tRNA的正交氨酰基-tRNA合成酶。这些组分也可互称为“互补的”。优先氨酰化O-RS在表达系统中使O-tRNA带上某氨基酸的效率高于其使任何内源性tRNA带上氨基酸的效率时,称该O-RS“优先氨酰化”某同源O-tRNA。即,当翻译系统中存在大致相等摩尔比的O-tRNA与各种给定的内源性tRNA时,O-RS使O-tRNA带上氨基酸的频率高于它使内源性tRNA带上氨基酸。当翻译系统中存在相等摩尔浓度的O-tRNA与内源性tRNA时,由O-RS加上氨基酸的O-tRNA与由O-RS加上氨基酸的内源性tRNA的相对比例更高,最好导致O-RS仅仅或者接近仅仅使O-tRNA带上氨基酸。当O-tRNA与O-RS以相等摩尔浓度存在时,由O-RS加上氨基酸的O-tRNA与由O-RS加上氨基酸的内源性tRNA的相对比例大于1∶1,优选至少约2∶1,更优选5∶1,更优选10∶1,更优选20∶1,更优选50∶1,更优选75∶1,更优选95∶1、98∶1、99∶1、100∶1、500∶1、1,000∶1、5,000∶1或更高。当(a)O-RS优先氨酰化O-tRNA而非内源性tRNA,且(b)与O-RS用以各种天然氨基酸来氨酰化O-tRNA相比,前述氨酰化具有非天然氨基酸特异性时,O-RS“优先用以非天然氨基酸氨酰化O-tRNA”。即,当包含O-RS和O-tRNA的翻译系统中存在等摩尔量的非天然和天然氨基酸时,O-RS将非天然氨基酸装到O-tRNA上的频率高于非天然氨基酸的。带有非天然氨基酸的O-tRNA与带有天然氨基酸的O-tRNA的相对比例越高越好。O-RS最好使O-tRNA仅仅,或者几乎仅仅带上非天然氨基酸。当翻译系统中存在摩尔浓度相等的天然和非天然氨基酸时,O-tRNA带上非天然氨基酸与O-tRNA带上天然氨基酸的相对比例大于1∶1,优选至少约2∶1,更优选5∶1,更优选10∶1,更优选20∶1,更优选50∶1,更优选75∶1,更优选95∶1、98∶1、99∶1、100∶1、500∶1、1,000∶1、5,000∶1或更高。选择密码子术语“选择者密码子”指翻译过程中为O-tRNA所识别而一般不为内源性tRNA所识别的密码子。O-tRNA反密码子环识别mRNA上的选择密码子并在多肽的此位置掺入其所带的氨基酸,例如非天然氨基酸(如含有重原子的氨基酸)。选择密码子可包括,例如无义密码子,如终止密码子(如,琥珀、赭石和乳白密码子),四碱基或四碱基以上密码子,罕用密码子,源自天然或非天然碱基对的密码子,等等。抑制型tRNA抑制型tRNA是通过例如响应选择密码子而将氨基酸掺入多肽链的机制来改变给定的翻译系统中信使RNA(mRAN)读码的tRNA。例如,例如,抑制型tRNA可读通如终止密码子、四碱基密码子、罕用密码子等。抑制活件本文所用的术语“抑制活性”总体上指tRNA(例如,抑制型tRNA)能读通在其它情况中可导致翻译终止或错译(例如,移码)的密码子(例如,是琥珀密码子或四个以上碱基的密码子的选择者密码子)从而保障翻译的能力。抑制型tRNA的抑制活性可表征为与第二抑制型tRNA相比,或与对照系统,例如缺乏O-RS的对照系统相比,观察到的翻译读通活性的百分比。本发明提供了可定量测定抑制活性的各种方法。具体O-tRNA和O-RS对感兴趣的选择密码子(例如,琥珀密码子)的抑制百分比指在感兴趣的翻译系统中给定待表达测试标记(例如,LacZ)的活性与阳性对照构建物相比的百分比,所述带表达测试标记在其编码核酸中含有选择者密码子,所述感兴趣的翻译系统包含O-RS和O-tRNA,所述阳性对照没有O-tRNA、O-RS和选择密码子。因此,例如,如果不含选择密码子的活性阳性对照标记构建物在某给定翻译系统中的测得活性为X(其单位取决于具体的标记试验),则含有选择密码子的测试构建物的抑制百分比是,在与表达阳性对照构建物基本相同但翻译系统还含有O-tRNA和O-RS的的环境条件下,该测试标记构建物所示活性与X的百分比。表达该测试标记的翻译系统一般也包含为O-RS和O-tRNA所识别的氨基酸。任选的是,可通过将测试标记与“背景”或“阴性”对照标记构建物比较来校正抑制百分比的测量值,所述对照标记构建物含有与测试标记相同的选择密码子,但其所在的系统不含O-tRNA、O-RS和/或为O-tRNA和/或O-RS所识别的相关氨基酸。该阴性对照可用于校准抑制百分比测定值,消除标记在感兴趣的翻译系统中产生的背景信号的影响。可通过本领域已知的许多试验来测定抑制效率。例如,可采用β-半乳糖苷酶报道试验,如可将衍生的lacZ质粒(该构建物在lacZ核酸序列中含有选择密码子)连同含有本发明的O-tRNA的质粒引入合适生物(例如,可用正交组分的生物)的细胞。还可引入同源合成酶(以多肽或编码该同源合成酶的可表达多核苷酸的形式)。使细胞在培养基中生长至所需密度,例如至OD600约为0.5,进行β-半乳糖苷酶试验,例如用BetaFluorTMβ-半乳糖苷酶试验试剂盒(Novagen)。可将抑制百分比计算为样品相对于可比较对照的活性百分比,例如,与衍生lacZ构建物的观察值的百分比,该构建物在所需位置具有相应的有义密码子而非选择密码子。翻译系统术语“翻译系统”指将氨基酸引入衍生中的多肽链(蛋白质)的各组分。翻译系统的组分可包括,例如核糖体、tRNA、合成酶、mRNA等。本发明的O-tRNA和/或O-RS可加入体外或体内翻译系统或是其一部分,所述系统存在于例如非真核细胞如细菌(如大肠杆菌)中,或存在于真核细胞中,如酵母菌、哺乳动物细胞、植物细胞、藻类细胞、真菌细胞、昆虫细胞等。非天然氨基酸本文所用的术语“非天然氨基酸”指不在20种常见天然氨基酸和稀有天然氨基酸硒代半胱氨酸或吡咯赖氨酸之列的任何氨基酸,修饰的氨基酸和/或氨基酸类似物,例如含有重原子的氨基酸。源自本文所用的术语“源自”某组份分离自特定分子或生物,或是用特定分子或生物的信息制得的。阳性选择或筛选标记本文所用的术语“阳性选择或筛选标记”指可因该标记的存在(例如被表达或激活等)而鉴定出具有标记相应特征的细胞,例如具有阳性选择标记的细胞,从而区别于不具有该特征的细胞。阴件选择或筛选标记本文所用的术语“阴性选择或筛选标记”指可因该标记的存在(例如被表达或激活等)而鉴定不含有所选特性或特征的细胞(例如,区别于确实具有该特性或特征的细胞)。受体本文所用的术语“受体”指可用于鉴定和/或选择感兴趣系统的靶组分的组分。例如,受体可包括蛋白质,如酶(例如,β-内酰胺酶、氯霉素乙酰基转移酶(CAT)等),以赋予抗生素耐受性或敏感性,荧光筛选标记(例如,绿色荧光蛋白(如(GFP)、YFP、EGFP、RFP等)),发光标记(例如,萤火虫萤光素酶蛋白),亲和力筛选标记,或阳性或阴性选择标记基因,如lacZ、β-gal/lacZ(β-半乳糖苷酶)、Adh(乙醇脱氢酶)、his3、ura3、leu2、lys2等。]真核生物本文所用的术语“真核生物”指属于系统发生领域所谓真核生物的生物,例如动物(如哺乳动物、昆虫、爬行动物、鸟等),纤毛虫,植物(如单子叶植物、双子叶植物、藻类等)、真菌、酵母菌、鞭毛虫类、微孢子虫、原生动物等。非真核生物本文所用的术语“非真核生物”指非真核的生物。例如,非真核生物可属于真细菌(如大肠杆菌(Escherichiacoli)、嗜热栖热菌(Thermusthermophilus)、嗜热脂肪芽孢杆菌(Bacillusstearothermophilus)等)系统发生领域,或古细菌(如詹氏甲烷球菌(Methanococcusjannaschii)(Mj)、梅氏甲烷八叠球菌(Methanosarcinamazei)(Mm)、嗜热碱甲烷杆菌(Methanobacteriurnthermoautotrophicum)(Mt)、海沼甲烷球菌(Methanococcusmaripaludis)、甲烷嗜热菌(Methanopyruskandleri);盐细菌,如沃氏富盐菌(Haloferaxvolcanii)和盐细菌种NRC-1;闪烁古生球菌(Archaeoglobusfulgidus)(Af)、激烈火球菌(Pyrococcusfuriosus)(Pf)、(Pyrococcushorikoshii)(Ph)、好氧火球菌(Pyrobaculumaerophilum)、(Pyrococcusabyssi)、硫磺矿硫化叶菌(Sulfolobussolfataricus)(Ss)、(Sulfolobustokodaii)、(Aeuropyrumpernix)(Ap)、嗜酸热原体(Thermoplasmaacidophilum)、火山热原体(Thermoplasmavolcanium)等)系统发生领域。保守性变体就翻译组分而言,本文术语“保守性变体”指某翻译组份例如保守性变体O-tRNA或保守性变体O-RS在功能上类似于和该保守性变体相似的基本组分例如与参比O-tRNA或O-RS相比,但在序列中具有变异。例如,O-RS可用非天然氨基酸,例如含有重原子的氨基酸氨酰化互补O-tRNA或保守性变体O-tRNA,虽然O-tRNA和保守性变体O-tRNA不具有相同的序列。保守性变体在序列中可具有例如一处变异、两处变异、三处变异、四处变异或五处或更多变异,只要该保守性变体与相应的O-tRNA或O-RS互补。选择或筛选试剂本文所用的术语“选择或筛选试剂”指当其存在时可从某群体中选择或筛选某些特定组分的试剂。例如,选择或筛选试剂可以是但不限于,如营养物、抗生素、某波长的光、抗体、表达的多核苷酸等。选择试剂可依例如浓度、强度等而不同。响应本文所用的术语“响应”指本发明的tRNA识别选择密码子并将该tRNA所携带的氨基酸,例如非天然氨基酸(如含有重原子的氨基酸)掺入延伸中的多肽链的过程。编码本文所用的术语“编码”指用多聚大分子或序列链中的信息来指导不同于该第一分子或序列链的第二种分子或序列链产生的各种过程。本文所用的该术语应用广泛,可用于各种领域。一方面,术语“编码”描述了半保留DNA复制的过程,其中双链DNA分子的一条链用作模板通过依赖DNA的DNA合成酶来编码新合成的互补姊妹链。在另一方面,术语“编码”指用一种分子的信息来指导产生化学性质不同于该第一分子的第二种分子的各种过程。例如,DNA分子可编码RNA分子(例如,通过依赖DNA的RNA聚合酶参与的转录过程)。此外,RNA分子可编码多肽,例如在翻译过程中。当术语“编码”用于描述翻译过程时,其含义延伸至编码氨基酸的三联密码子。在一些方面,RNA分子可编码DNA分子,例如通过依赖RNA的DNA合成酶参与的逆转录过程。在另一方面,DNA分子可编码多肽,应理解在该情况中所用的“编码”包括转录和翻译过程。重原子与不含重原子的相应晶体的衍射模式相比,“重原子”是存在于晶体中可在晶体的衍射模式中产生可检测差异的原子。例如,用于SAD或MAD定相技术的重原子一般在标准X-射线源易达到的能级具有共振信号,从而可在普通波长产生异常信号。作为另一例子,单或多同晶置换定相技术所用的重原子通常具有的原子数目远大于存在的其它原子数目,例如原子数目大于蛋白质或蛋白质晶体中存在的C、N、O和S原子的。Friedel配子“Friedel配子”是构成Bijvoet配对物的成员,以标记h、k、l和-h、-k、-l区分。核酸术语“核酸”或“多核苷酸”包括对应于核苷酸链的各种单体单位的物理链,包括核苷酸聚合物(例如,典型的DNA或RNA聚合物)、PNA、修饰的寡核苷酸(例如,含有非RNA或DNA常有核苷酸的寡核苷酸,如2’-O-甲基化的寡核苷酸)等。核酸可以是例如单链或双链。除非另外指出,本发明的具体核酸序列,除列明的序列之外,还任选地包括或编码除各互补序列。多肽“多肽”是含有两个或多个氨基酸残基的聚合物(例如,肽或蛋白质)。该聚合物还可含有非氨基酸元件,例如标记、猝灭剂、封闭基团等,可任选地含有修饰,例如糖基化等。多肽的氨基酸残基可以是天然或非天然的,可以是未取代的、未修饰的、取代的或修饰的。氨基酸序列取决于上下文,“氨基酸序列”可以是氨基酸残基的聚合物(蛋白质、多肽等)或表示氨基酸聚合物的字符串。多核苷酸序列取决于上下文,“多核苷酸序列”或“核苷酸序列”可以是核苷酸的聚合物(寡核苷酸、DNA、核酸等)或表示核苷酸聚合物的字符串。可从任何特定的多核苷酸序列确定给定的核酸或互补的多核苷酸序列(例如,互补核酸)。当给定聚合物组分(氨基酸残基、掺入的核苷酸等)的位置参照选定氨基酸或核苷酸中的相同残基位置而非该组分在给定聚合物中的实际位置来指定时,称给定氨基酸或核苷酸聚合物的编号“对应于”选定氨基酸聚合物或核酸的编号。本文定义或者表征了各种其它术语。发明详述虽然所有已知生物的遗传密码编码相同的二十种氨基酸(例外很少),但是将新氨基酸加入生物需要独特的tRNA/氨酰基-tRNA合成酶配对物、新氨基酸源和特定于该新氨基酸的独特选择密码子(Furter,(1998),ProteinSci.,7419-426)。我们以前报道可用琥珀无义密码子(TAG)与正交詹氏甲烷球菌和大肠杆菌tRNA/合成酶配对一起在分别大肠杆菌(Wang等,(2000),J.Am.Chem.Soc.,1225010-5011;Wang等,(2001),Science,292498-500;Wang等,(2003),Proc.Natl.Acad.Sci.U.S.A.,10056-61;Chin等,(2002),Proc.Natl.Acad.Sci.U.S.A.,9911020-11024)和酵母菌(Chin和Schultz,(2002),ChemBioChem,31135-1137;Chin等,(2003),301964-967)中遗传编码具有新特性的各种氨基酸。为在体内向遗传密码中加入额外的合成氨基酸,例如含有重原子的氨基酸,需要可有效地在翻译机制中起作用但对所述翻译系统是“正交”的新氨酰基-tRNA合成酶和tRNA正交配对,这意味着这些配对独立于该翻译系统内源性的合成酶和tRNA起作用。正交配对的所需特性包括只解码或识别不由任何内源性tRNA解码的特定新密码子例如选择密码子的tRNA,和只用特定非天然氨基酸例如含有重原子的氨基酸优先氨酰化(或加载)其同源tRNA的氨酰基-tRNA合成酶。而且,最好该O-tRNA不被内源性合成酶氨酰化。例如,在大肠杆菌中,正交配对包括基本上不氨酰化任何内源性tRNA(例如,大肠杆菌中的40种)的氨酰基-tRNA合成酶和基本上不被任何内源性合成酶(例如,大肠杆菌中的21种)氨酰化的正交tRNA。我们在本文中报道制备了新的正交合成酶/tRNA配对,其响应于琥珀密码子而有效且选择性地将含有重原子的氨基酸(碘代Phe和溴代Phe)掺入蛋白质。在一方面,本发明提供包含正交tRNA合成酶和正交tRNA-氨酰基-tRNA合成酶配对的组合物与试剂盒,所述配对例如可用于将非天然氨基酸,如含有重原子的氨基酸掺入感兴趣的蛋白质的O-tRNA/O-RS配对。还描述了相关方法。本发明的一例正交氨酰基-tRNA合成酶优先用碘代Phe或溴代Phe氨酰化(或加载)其O-RNA。O-tRNA/O-RS配对在体内能介导碘代Phe或溴代Phe掺入含有O-tRNA识别的选择密码子的多核苷酸编码的蛋白质。O-tRNA的反密码子环识别mRNA上的选择密码子并将所带氨基酸例如碘代Phe或溴代Phe掺入多肽中相应的位置。将含有重原子的氨基酸(例如碘代Phe或溴代Phe)位点特异地有效掺入蛋白质有助于通过X-射线晶体学来分析蛋白质结构。用重原子衍生蛋白质常用于定相(phasedetennination),用本发明方法和组合物位点特异地掺入重原子可灵活选择衍生位点和重原子数目。此外,用本文所述方法在体内产生含重原子的蛋白质提高了衍生蛋白质的产量。例如,可用本文所述的O-tRNA/O-RS配对掺入碘代Phe,这有助于SAD定相。因此,本发明也提供了测定蛋白质结构的方法,其中O-tRNA/O-RS配对物用于将重原子掺入蛋白质。重原子用于(例如)通过SAD来定相。正交tRNA、正交氨酰基-tRNA合成酶及其配对物适用于制备包含一个或多个非天然氨基酸的蛋白质的翻译系统描述于,例如名为“产生正交tRNA-氨酰基-tRNA合成酶配对物的方法与组合物”(Methodsandcompositionforthe-productionoforthogonaltRNA-aminoacyl-tRNAsynthetasepairs)的国际公布号WO2002/086075和名为“非天然氨基酸的体内掺入”(Invivoincorporationofunnaturalaminoacids)的WO2002/085923。此外,参见2004年4月16日提交的国际申请号PCT/US2004/011786。这些申请的每篇均全文纳入本文作为参考。这种翻译系统通常包括含有正交tRNA(O-tRNA)、正交氨酰基tRNA-合成酶(O-RS)和非天然氨基酸(在本发明中是含有重原子的氨基酸)的细胞(可以是非真核细胞,例如大肠杆菌;或真核细胞,例如酵母菌),其中O-RS用非天然氨基酸氨酰化O-tRNA。本发明的正交配对包括O-tRNA(例如抑制型tRNA、移码tRNA)等和O-RS。本发明爱提供单独的各组分。总体上,当正交配对物识别选择密码子并响应该选择者密码子加载氨基酸时,称该正交配对“抑制”了该选择密码子。即,不为翻译系统(例如细胞的)的内源性机制所识别的选择者密码子未被正常翻译,否则其正常翻译将阻断多肽产生。本发明的O-tRNA识别选择密码子,在有同源合成酶存在时,与含有或由本文序列表所示多核苷酸序列(例如,SEQIDNO5)编码的O-tRNA相比,其响应选择者密码子而具有至少约,例如45%、50%、60%、75%、80%或90%或更高的抑制效率。O-RS用感兴趣的非天然氨基酸例如含有重原子的氨基酸氨酰化O-tRNA。翻译系统(例如细胞)用O-tRNA/O-RS配对通过含有编码感兴趣多肽的多核苷酸的核酸将非天然氨基酸掺入表达中的多肽链,其中该多核苷酸含有O-tRNA所识别的选择密码子。在本发明的某些实施方案中,翻译系统包含细胞(例如,大肠杆菌细胞),其中包含正交氨酰基-tRNA合成酶(O-RS)和任选的正交tRNA(O-tRNA),含重原子的氨基酸(例如溴化或碘化的氨基酸)和含有编码感兴趣多肽的多核苷酸的核酸,其中多核苷酸含有为O-tRNA所识别的选择密码子。翻译系统也可以是无细胞的系统,例如联用本文所述O-tRNA/O-RS配对和非天然氨基酸的各种商业可购得的“体外”转录/翻译系统。在一个实施方案中,O-RS和O-tRNA联用的抑制效率比缺乏O-RS的O-tRNA的抑制效率高约例如5倍、10倍、15倍、20倍或25倍或更高。一方面,O-RS和O-tRNA联用的抑制效率至少是本文序列表所列正交合成酶配对的抑制效率的约例如35%、40%、45%、50%、60%、75%、80%或90%或更高。细胞或其它翻译系统可以包括多对O-tRNA/O-RS配对物,由此可可掺入多种非天然氨基酸,例如溴化或碘化氨基酸和另一非天然氨基酸(例如另一种含重原子的氨基酸或者不同类型的非天然氨基酸)。例如,细胞可额外包含一对不同的O-tRNA/O-RS和第二种非天然氨基酸,额外的O-tRNA识别第二选择密码子,额外的O-RS优先用第二非天然氨基酸氨酰化O-tRNA。例如,包含O-tRNA/O-RS配对(其中,O-tRNA识别例如琥珀选择密码子)的细胞还可含有第二正交配对,第二O-tRNA识别不同的选择密码子(例如,乳白密码子、四碱基密码子等)。不同的正交配对宜源自不同来源,这有助于识别不同的选择密码子。O-tRNA和/或O-RS可以是天然存在的或可以,例如通过产生各种生物的tRNA文库和/或RS文库和/或通过用各种可用的突变方法来突变天然存在的tRNA和/或RS从而获得。例如,产生正交tRNA/氨酰基-tRNA合成酶配对的方案之一包括将例如除宿主细胞以外来源或多种来源的异源(对宿主细胞而言)tRNA/合成酶配对递送入宿主细胞。候选的异源合成酶的特性包括例如不加载任何宿主细胞tRNA,候选的异源tRNA的特性包括例如不氨酰化任何宿主细胞合成酶。产生正交配对的第二种方案包括产生突变体文库,从中筛选和/或选择O-tRNA或O-RS。也可联用这些方案。正交tRNA(O-tRNA)本发明的正交tRNA(O-tRNA)宜,例如在体外或体内,介导将非天然氨基酸例如含有重原子的氨基酸(如溴化或碘化的氨基酸)掺入蛋白质,所述蛋白质由含有为O-tRNA所识别的选择密码子的多核苷酸所编码。在某些实施方案中,与含有或由本文序列表的O-tRNA序列中所示多核苷酸序列(例如,SEQIDNO5)编码的O-tRNA相比,本发明的O-tRNA在有同源合成酶存下响应选择者密码子时具有至少约例如45%、50%、60%、75%、80%或90%或更高的抑制效率。可通过本领域已知的任何试验测定抑制效率。例如,可采用β-半乳糖苷酶报道试验,如可将衍生的lacZ质粒(该构建物在lacZ核酸序列中含有选择者密码子)连同含有本发明O-tRNA的质粒引入合适生物(例如适用正交组分的生物)的细胞。还可引入同源合成酶(以多肽或编码该同源合成酶的多核苷酸的形式)。使细胞在培养基中生长至所需密度,例如至OD600约为0.5,进行β-半乳糖苷酶试验,例如用BetaFluorTMβ-半乳糖苷酶试验试剂盒(Novagen)。可将抑制百分比计算为样品活性相对于一可比较对照的百分比,例如,相对于衍生的lacZ构建物的观测值的百分比,该构建物在所需位置具有相应的有义密码子而非选择密码子。本发明O-tRNA的例子示于本文的序列表。示范性O-tRNA和O-RS分子的序列也可参见本文的实施例和附图。也可参见本文中名为“核酸与多肽序列及变体”的部分。在RNA分子(例如O-RSmRNA或O-tRNA分子)中,相对于给定的序列(或对编码DNA而言反之亦然)或其互补序列,胸腺嘧啶(T)被尿嘧啶(U)取代。还可存在对碱基的其它修饰。本发明也包括对应于本文具体的O-tRNA的O-tRNA保守性变体。例如,O-tRNA保守性变体包括具有以下特点的那些分子功能与具体O-tRNA(例如本文序列表中的)相似,并由于合适的自身互补性而保留了tRNA的L-形结构,但不具有与具体O-tRNA(例如本文序列表、附图或实施例中的)相同的序列并且,最好也不是野生型tRNA分子)。也可参见本文中名为“核酸与多肽序列及变体”的部分。含有O-tRNA的组合物还包含正交氨酰基-tRNA合成酶(O-RS),其中O-RS优先用非天然氨基酸例如含有重原子的氨基酸(如溴化或碘化氨基酸)氨酰化O-tRNA。在某些实施方案中,含有O-tRNA的组合物还包含(例如体外或体内)翻译系统。翻译系统中也可存在一种或多种含有编码感兴趣多肽的多核苷酸的核酸,该多核苷酸含有为O-tRNA所识别的选择密码子。也可参见本文中名为“正交氨酰基-tRNA合成酶”的部分。产生重组正交tRNA(O-tRNA)的方法已有描述,可见例如名为“产生正交tRNA-氨酰基tRNA-合成酶配对物的方法和组合物”(MethodsandcompositionsfortheproductionoforthogonaltRNA-aminoacyltRNA-synthetasepairs)国际专利申请WO2002/086075,;名为“正交赖氨酰-tRNA和氨酰基-tRNA合成酶的组合物及其应用”(Compositionsoforthogonallysyl-tRNAandaminoacyl-tRNAsynthetasepairsandusesthereof)的PCT/LTS2004/022187entitled;名为“扩增真核生物遗传密码”(ExpandingtheEukaryoticGeneticCode)的USSN60/479,931和60/496,548。也参见Forster等,(2003),“通过翻译重新设计的遗传密码子来设计肽模拟物合成酶”(Programmingpeptidomimeticsynthetasesbytranslatinggeneticcodesdesigneddenovo),PNAS,100(11)6353-6357和Feng等,(2003),“通过改变一个氨基酸扩大tRNA合成酶识别tRNA”(ExpandingtRNArecognitionofatRNAsynthetasebyasingleaminoacidchange),PNAS,100(10)5676-5681。正交氨酰基-tRNA合成酶(O-RS)本发明的O-RS在体外或体内优先用非天然氨基酸例如含有重原子的氨基酸(如,溴化或碘化氨基酸)氨酰化O-tRNA。可将本发明的O-RS通过含有O-RS的多肽和/或编码O-RS或其一部分的多核苷酸提供给翻译系统,例如细胞。例如,一例O-RS含有本文序列表和实施例所示的氨基酸序列(例如,SEQIDNO3-4)或其保守性变体。在另一实施例中,O-RS或其一部分由编码含有本文序列表或实施例中序列的氨基酸(序列)的多核苷酸序列或其互补多核苷酸序列编码。也可参见本文中名为“核酸与多肽序列及变体”的部分。含有正交氨酰基-tRNA合成酶(O-RS)的组合物还包含O-tRNA,其中O-RS优先用非天然氨基酸例如含有重原子的氨基酸(如溴化或碘化氨基酸)氨酰化O-tRNA。在某些实施方案中,含有O-RS的组合物还可包含(例如体外或体内)翻译系统。翻译系统中也可存在一种或多种含有编码感兴趣多肽的多核苷酸的核酸,该多核苷酸含有为O-tRNA所识别的选择密码子。可用许多试验来测定氨酰化。这些试验可在体外或体内进行。例如,体外氨酰化试验可见例如Hoben和Soll,(1985),MethodsEnzymol.,11355-59。也可用报道物质连同正交翻译组分并检测细胞中的报道物质来测定氨酰化,所述细胞表达含有至少一个选择者密码子并编码蛋白质的多核苷酸。也参见名为“非天然氨基酸的体内掺入”(Invivoincorporationofunnaturalaminoacids)的WO2002/085923和2004年4月16日提交的国际申请号PCT/US2004/011786。本文实施例描述了鉴定与O-tRNA一起使用的正交氨酰基-tRNA合成酶(O-RS)的方法。简言之,示例性方法包括对第一种类的细胞群进行选择(例如阳性选择),其中各细胞各自含有1)多种氨酰基-tRNA合成酶(RS)的中一个成员(例如,多种RS可包括突变型RS、源自除第一种类以外种类的RS或同时包括突变型RS和源自除第一种类以外种类的RS);2)(例如源自一个或多个种类的)正交tRNA(O-tRNA);和3)编码(例如阳性)选择标记并含有至少一个选择密码子的多核苷酸。选择或筛选显示出的抑制效率比缺乏该RS成员或其含量降低的细胞高的细胞。可通过本领域已知和本文所述的技术测定抑制效率。抑制效率提高的细胞含有氨酰化O-tRNA的活性RS。比较第一种类的第一组tRNA的活性RS的氨酰化水平(体外或体内)与第二种类的第二组tRNA的活性RS的氨酰化水平(体外或体内)。可通过可检测物质(例如标记的氨基酸或非天然氨基酸,如标记的溴化或碘化氨基酸)测定氨酰化水平。通常选择氨酰化第二组tRNA比氨酰化第一组tRNA效率高的RS,从而提供可与O-tRNA联用的有效(优化)的正交氨酰基-tRNA合成酶。还可进一步改变鉴定出的O-RS底物特异性,这可使O-tRNA只带上所需的非天然氨基酸,例如含有重原子的氨基酸,而不是常见20种氨基酸中的任一种。产生对非天然氨基酸具有底物特异性的正交氨酰基tRNA-合成酶的方法包括,例如,在合成酶的选择位点、在合成酶的编辑机制位点、在不同的位点进行合成酶不同结构域的组合从而使合成酶突变等,并进行选择。也可以采用阳性选择然后阴性选择的方案。在阳性选择中,抑制引入阳性标记非重要位置的选择密码子使得细胞在阳性选择压力下存活。在同时有天然和非天然氨基酸存在时,如此存活的细胞编码使正交抑制型tRNA带有天然或非天然氨基酸的活性合成酶。在阴性选择中,抑制引入阴性标记的非重要位置的选择者密码子使合成酶失去天然氨基酸特异性。阴性和阳性选择的存活细胞编码只用非天然氨基酸氨酰化(加载)正交抑制型tRNA的合成酶。然后进一步诱变这些合成酶,例如DNA改组或其它递归(recursive)诱变方法。可采用各种诱变技术产生突变型O-RS文库。例如,可用定点突变、随机点突变、同源重组、DNA改组或其它递归诱变方法,嵌合构建或它们的组合来产生突变型RS。例如,可从两种以上的其它例如更小、多样性较低的“亚文库”来产生突变型RS文库。本发明也包括RS的嵌合文库。应该注意,可以构建多种生物(例如微生物,如真细菌和古细菌)的tRNA合成酶文库,例如具有天然多样性的文库(参见,例如授予Short等的美国专利号6,238,884;授予Schallenberger等的美国专利号5,756,316;授予Petersen等的美国专利号5,783,431;授予Thompson等的美国专利号5,824,485;授予Short等的美国专利号5,958,672),并从中筛选正交配对物。一旦合成酶经过阳性和阴性选择/筛选方法后,就可进一步诱变这些合成酶。例如可分离编码O-RS的核酸;从该核酸制备编码突变的O-RS的多核苷酸(例如通过随机诱变、定点诱变、重组或它们的任何组合);和可重复各步骤或各步骤的组合直至获得优先用非天然氨基酸例如含有重原子的氨基酸氨酰化O-tRNA的突变O-RS。在本发明的一方面,这些步骤可进行多次,例如至少两次。本发明方法也可采用其它水平的选择/筛选严格性来产生O-tRNA、O-RS或其配对。可改变O-RS产生方法中一个或两个步骤的选择或筛选严格性。这包括,例如,改变选择/筛选试剂的用量等。也可额外进行几轮阳性和/或阴性选择。选择或筛选也可包括以下一种或多种改变氨基酸渗透性、翻译效率、翻译保真度(translationalfidelity)等。一种或多种改变一般是基于在用正交tRNA-tRNA合成酶配对来产生蛋白质的生物中一种或多种基因的突变。产生O-RS并改变合成酶的底物特异性的其它常规细节见名为“产生正交tRNA-氨酰基tRNA合成酶配对物的方法和组合物”(MethodsandcompositionsfortheproductionoforthogonaltRNA-aminoacyltRNAsynthetasepairs)的WO2002/086075和2004年4月16日提交的国际申请号PCT/US2004/011786和2004年7月7日提交的名为“正交赖氨酰-tRNA和氨酰基-tRNA合成酶的组合物及其应用”(Compositionsoforthogonallysyl-tRNAandaminoacyl-tRNAsynthetasepairsandusesthereof)PCT/US2004/022187。来源和宿主生物本发明的翻译组分可源自非真核生物。例如,正交O-tRNA可源自非真核生物(或生物的组合),如古细菌,如詹氏甲烷球菌、嗜热碱甲烷杆菌;盐细菌,如沃氏富盐菌和盐细菌种NRC-1;闪烁古生球菌、激烈火球菌、Pyrococcushorikoshii、Aeuropyrumpernix、海沼甲烷球菌、Methanopyruskandleri、梅氏甲烷八叠球菌、Pyrobaculumaerophilum、Pyrococcusabyssi、硫磺矿硫化叶菌、Sulfolobustokodaii、嗜酸热原体、火山热原体等;或真细菌,如大肠杆菌、嗜热栖热菌、嗜热脂肪芽孢杆菌等;而正交O-RS可源自非真核生物(或生物的组合),如古细菌,如詹氏甲烷球菌、嗜热碱甲烷杆菌;盐细菌,如沃氏富盐菌和盐细菌种NRC-1;闪烁古生球菌、激烈火球菌、Pyrococcushorikoshii、Aeuropyrumpernix、海沼甲烷球菌、Methanopyruskandleri、梅氏甲烷八叠球菌、Pyrobaculumaerophilum、Pyrococcusabyssi、硫磺矿硫化叶菌、Sulfolobustokodaii、嗜酸热原体、火山热原体等;或真细菌,如大肠杆菌、嗜热栖热菌、嗜热脂肪芽孢杆菌等。在一个实施方案中,真核生物来源,例如植物、藻类、原生动物、真菌、酵母菌、动物(例如哺乳动物、昆虫、节肢动物等)等等也可用作O-tRNA和O-RS的来源。O-tRNA/O-RS配对的各组分可源自同一生物或不同生物。在一个实施方案中,O-tRNA/O-RS配对物来自同一生物。或者,O-tRNA/O-RS配对物的O-tRNA和O-RS来自不同生物。O-tRNA、O-RS或O-tRNA/O-RS配对物可在体外或体内选择或筛选和/或可用于细胞,例如非真核细胞或真核细胞中来产生含有溴化或碘化氨基酸或其它感兴趣的非天然氨基酸的多肽。非真核细胞可来自各种来源,例如真细菌,如大肠杆菌、嗜热栖热菌、嗜热脂肪芽孢杆菌等;或古细菌,如詹氏甲烷球菌、嗜热碱甲烷杆菌;盐细菌,如沃氏富盐菌和盐细菌种NRC-1;闪烁古生球菌、激烈火球菌、Pyrococcushorikoshii、Aeuropyrumpernix、海沼甲烷球菌、Methanopyruskandleri、梅氏甲烷八叠球菌、Pyrobaculumaerophilum、Pyrococcusabyssi、硫磺矿硫化叶菌、Sulfolobustokodaii、嗜酸热原体、火山热原体等。真核生物可以来自各种来源,例如植物(例如复杂植物,如单子叶植物或双子叶植物)、藻类、原生动物、真菌、酵母菌(例如酿酒酵母(Saccharomycescerevisiae))、动物(例如哺乳动物、昆虫、节肢动物等),等等。例如合适的昆虫宿主细胞包括但不限于Lepidopteran、Spodopterafrugiperda、Bombyxmori、Heliothisvirescens、Heliothiszea、Mamestrabrassicas、Estigmeneacrea和Trichoplusiani昆虫细胞;示范性昆虫细胞系包括BT-1-TN-5B1-4(HighFive)、BTI-TN-MG1、Sf9、Sf21、TN-368、D.Mel-2和S-2细胞等。为表达掺有含重原子的氨基酸的蛋白质,可任选地用编码该蛋白质和选择密码子的重组杆状病毒载体来感染这种昆虫细胞。各种杆状病毒表达系统为本领域所知和/或商业可购得,例如BaculoDirectTM(Invitrogen,Carlsbad,CA)和BDBaculoGoldTM杆状病毒表达载体系统(BDBiosciences,SanJose,CA)。含本发明翻译组分的细胞的组合物也是本发明特征之一。关于在一种生物中筛选O-tRNA和/或O-RS而用于另一种生物,可参见2004年4月16日提交的国际申请号PCT/US2004/011786。选择密码子本发明的选择密码子扩大了蛋白质生物合成机制的遗传密码子框架。例如,选择密码子包括,独特的三碱基密码子、无义密码子(如终止密码子(如琥珀密码子(UAG)或乳白密码子(UGA)))、非天然密码子、至少四碱基的密码子(如AGGA)、罕用密码子等。可将许多选择密码子引入所需基因,例如一个以上、两个以上、三个以上等。通过用不同的选择密码子,可采用多对正交tRNA/合成酶配对,从而利用这些不同选择者密码子同时定点掺入多种不同的非天然氨基酸。类似地,可将给定选择者密码子的多份拷贝引入所需基因,从而可在多个位点(例如两个以上、三个以上等)掺入给定的非天然氨基酸。在一个实施方案中,这些方法包括,例如在体内即细胞中,用原为终止密码子的选择密码子来掺入含有重原子的氨基酸。例如,制备为可识别终止选择密码子的O-tRNA,该O-tRNA被O-RS用含有重原子的氨基酸氨酰化。翻译系统的内源性氨酰基-tRNA合成酶不识别该O-TRNA。可采用常规的定点诱变将选择密码子引入编码感兴趣多肽的靶多核苷酸中感兴趣的位点。另见,例如Sayers,J.R.等,(1988),“硫代磷酸酯寡核苷酸定向诱变中的5’,3’核酸外切酶”(5′,3′Exonucleaseinphosphorothioate-basedoligonucleotide-directedmutagenesis),NucleicAcidsRes,791-802。当例如在体内联用O-RS、O-tRNA和编码感兴趣多肽的核酸时,可响应选择密码子而掺入含有重原子的氨基酸,从而获得在特定位点具有含重原子的氨基酸的多肽。可在体内掺入非天然氨基酸例如含重原子的氨基酸而不明显干扰宿主细胞。例如,在非真核细胞如大肠杆菌中,由于终止选择密码子如UAG密码子的抑制效率取决于O-tRNA如琥珀抑制型tRNA与释放因子1(RF1)(其与UAG密码子结合并使表达中的肽从核糖体中释放)之间的竞争,因此,可通过例如增加O-tRNA(如抑制型tRNA)的表达水平或选用RF1缺陷菌株来调节抑制效率。在真核细胞中,由于UAG密码子的抑制效率取决于O-tRNA如琥珀抑制型tRNA与真核释放因子(如eRF)(其与终止密码子结合并使表达中的肽从核糖体中释放)之间的竞争,因此可通过例如增加O-tRNA(如抑制型tRNA)的表达水平来调节抑制效率。此外,也可包括调节释放因子作用的其它化合物,例如还原剂,如二硫苏糖醇(DTT)。也可由罕用密码子编码非天然氨基酸(包括例如含有重原子的氨基酸)。例如,已证实当体外蛋白质合成反应中精氨酸浓度降低时,罕用的精氨酸密码子AGG可有效地用Ala酰化的合成tRNA插入Ala。参见,例如Ma等,Biochemistry,327939,(1993)。在该情况中,合成的tRNA与天然存在但在大肠杆菌中以次要种类存在的tRNAArg竞争。此外,一些生物并不使用所有的三联密码子。藤黄微球菌(Micrococcusluteus)中的未指定密码子AGA已用于在体外转录/翻译提取物中插入氨基酸。参见,例如Kowal和Oliver,Nucl.Acid.Res.,254685,(1997)。可制备本发明的组分在体内用这些罕用密码子。选择者密码子也可包括延伸密码子,例如四个或四个以上碱基的密码子,如四个、五个、六个或更多碱基的密码子。四碱基密码子的例子包括,例如AGGA、CUAG、UAGA、CCCU等。五碱基密码子的例子包括,例如AGGAC、CCCCU、CCCUC、CUAGA、CUACU、UAGGC等。本发明方法可包括使用基于移码抑制的延伸密码子。四个或四个以上碱基的密码子可将例如一个或多个非天然氨基酸插入同一蛋白质。在其它实施方案中,反密码子环可解码例如至少一种四碱基密码子、至少一种五碱基密码子或至少一种六碱基密码子或更多。由于有256种可能的四碱基密码子,所以可用四个或四个以上碱基的密码子在同一细胞中编码多种非天然氨基酸。另参见,Anderson等,(2002),“密码子和反密码子大小极限的研究”(ExploringtheLimitsofCodonandAnticodonSize),ChemistryandBiology,9237-244和Magliery,(2001),“扩增遗传密码在大肠杆菌中选择有效的四碱基密码子抑制剂并用文库方法鉴定“变化的”四碱基密码子”(ExpandingtheGeneticCodeSelectionofEfficientSuppressorsofFour-baseCodonsandIdentificationof″Shifty″Four-baseCodonswithaLibraryApproachinEscherichiacoli),J.Mol.Biol.,307755-769。例如,已在体外生物合成方法中用四碱基密码子将非天然氨基酸掺入蛋白质。参见,例如Ma等,(1993),Biochemistry,327939和Hohsaka等,(1999),J.Am.Chem.Soc.,12134。采用CGGG和AGGU和两种化学酰化的移码抑制型tRNA在体外将2-萘基丙氨酸和赖氨酸的NBD衍生物掺入链霉亲和素。参见,例如Hohsaka等,(1999),J.Am.Chem.Soc.,12112194。在体内研究中,Moore等检测了含NCUA反密码子的tRNALeu衍生物抑制UAGN密码子(N可以是U、A、G或C)的能力,发现含UCUA反密码子的tRNALeu可以13到26%的效率解码四联UAGA,而在0或-1读码框中几乎不解码。参见Moore等,(2000),J.Mol.Biol.,298195。在一个实施方案中,基于罕用密码子或无义密码子的延伸密码子可用于本发明,它们能降低在其它非期望位点的错译连读和移码抑制。就给定系统而言,选择密码子也可包括天然三联密码子中内源性系统不用(或很少用)的那个。例如,这包括缺乏可识别天然三碱基密码子的tRNA的系统,和/或所述三碱基密码子是罕用密码子的系统。选择密码子可以包含非天然碱基对。这些非天然碱基对进一步扩大了现有的遗传字符集(geneticalphabet)。一种额外的碱基对可将三联密码子的数目从64增加至125。第三碱基对的性质包括稳定和选择性的碱基配对,通过聚合酶以有效的酶促方式高保真地掺入DNA,新生非天然碱基对合成后引物继续有效延伸。对适用于这些方法和组合物的非天然碱基对的描述包括,例如Hirao等,(2002),“将氨基酸类似物掺入蛋白质的非天然碱基对”(Anunnaturalbasepairforincorporatingaminoacidanaloguesintoprotein),NatureBiotechnology,20177-182。也参见Wu,Y.等,(2002),J.Am.Chem.Soc.,12414626-14630。下文列出了其它的相关出版物。就体内使用而言,非天然核苷是膜可渗透的,并可磷酸化形成相应的磷酸三酯。此外,增加的遗传信息稳定且不为细胞酶所破坏。Benner与他人以前的工作利用了不同于经典Watson-Crick配对的氢键模式,其中最值得注意的例子是异-C异-G配对(iso-Ciso-Gpair)。参见,例如Switzer等,(1989),J.Am.Chem.Soc.,1118322;Piccirilli等,(1990),Nature,34333;Kool,(2000),Curr.Opin.Chem.Biol.,4602。这些碱基总体上与天然碱基有一定程度的错配,因而不能酶促复制。Kool等证实,碱基之间的疏水包装相互作用可替代氢键来驱动碱基对形成。参见Kool,(2000),Curr.Opin.Chem.Biol.,4602;Guckian和Kool,(1998),Angew.Chem.hit.Ed.Engl.,362825。在致力于开发符合以上所有要求的非天然碱基对的过程中,Schultz、Romesberg及其同僚已系统地合成并研究了一系列非天然疏水碱基。PICSPICS自身配对物被发现比天然碱基对更稳定,并可用大肠杆菌DNA聚合酶I的Klenow片段(KI)有效地掺入DNA。参见,例如McMinn等,(1999),J.Am.Chem.Soc.,12111586;和Ogawa等,(2000),J.Am.Chem.Soc.,1223274。KF可合成生物功能的效率和选择性足够高的3MN:3MN自身配对物。参见,例如Ogawa等,(2000),J.Am.Chem.Soc.,1228803。然而,这两种碱基均起阻止进一步复制的链终止子的作用。近来开发了可用于复制PICS自身配对物的突变型DNA聚合酶。此外,7AI自身配对物是可复制的。参见,例如Tae等,(2001),J.Am.Chem.Soc.,1237439。已开发了与Cu(II)结合后可形成稳定配对物的金属碱基(metallobase)对DipisPy。参见,Meggers等,(2000),J.Am.Chem.Soc.,12210714。因为延伸密码子和非天然密码子在本质上与天然密码子正交,所以本发明方法可利用该特性来产生它们的正交tRNA。也可采用翻译绕行系统将含有重原子的氨基酸或其它非天然氨基酸掺入所需多肽。在一翻译绕行系统中,是将大序列插入基因,但该大序列不翻译成蛋白质。该序列包含诱导核糖体跳过该序列并继续翻译该插入物下游序列的指示结构。非天然氨基酸本文所用的非天然氨基酸指除硒代半胱氨酸和/或吡咯赖氨酸和以下20种遗传编码的α-氨基酸以外的任何氨基酸、修饰的氨基酸或氨基酸类似物丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、甲硫氨酸苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸和缬氨酸。α-氨基酸的通用结构如式I所示非天然氨基酸一般具有各种符合式I的结构,其中R基团任选,但不是20种天然氨基酸中所用的取代基。20种天然氨基酸的结构可参见,例如《生物化学》(Biochemistry),L.Stryer编,第三版,1988,FreemanandCompany,NewYork。注意,本发明的非天然氨基酸可以是除以上20种α-氨基酸以外的天然存在的化合物(或者,当然可以是人工产生的合成化合物)。由于本发明的非天然氨基酸与天然氨基酸往往区别在侧链,所以非天然氨基酸与其它氨基酸(例如天然或非天然的)形成酰胺键的方式与天然蛋白质中酰胺键的形成方式相同。然而,非天然氨基酸具有不同于天然氨基酸的侧链。将非天然氨基酸掺入蛋白质中特别有意义的是能掺入含有重原子的氨基酸,一般是式I的R含有重原子的氨基酸。合适的重原子包括但不限于I、Br、U、Hg、Ag、Pt、Pb、Au、Pd、Ir、Os、Cd、Ba、Xe、Te和Se。优选的含重原子的氨基酸包括溴化和碘化的氨基酸,例如p-碘代-L-苯丙氨酸(也称为碘代Phe或L-4碘代-苯丙氨酸,图6中的A图)、L-3-碘代苯丙氨酸(图6的B图)、L-2-碘代苯丙氨酸(图6的C图)、L-3-碘代酪氨酸(图6的D图)、L-2-碘代酪氨酸、p-溴代-L-苯丙氨酸(也称为溴代Phe或L-4-溴代苯丙氨酸)、L-3-溴代苯丙氨酸、L-2-溴代苯丙氨酸、L-3-溴代酪氨酸和L-2-溴代酪氨酸。其它含有重原子的氨基酸包括用除I或Br以外的重原子取代的Phe和Tyr,以及用任何重原子取代的其它天然和非天然氨基酸。在其它非天然氨基酸中,例如式I中的R任选含有烷基-、芳基-、酰基-、酮基-、叠氮基-、羟基-、肼、氰基-、卤素-、酰肼、烯基、炔基、醚、巯基、硒基-、磺酰基-、硼酸根、亚硼酸根(boronate)、二氧磷基、膦酰基、膦、杂环基、烯酮、亚胺、醛、酯、硫羰酸、羟胺、胺等,或它们的任何组合。其它感兴趣的非天然氨基酸包括但不限于含有光可激活交联剂的氨基酸、自旋标记的氨基酸、荧光氨基酸、金属结合性氨基酸、含金属氨基酸、放射性氨基酸、含新官能团的氨基酸、与其它分子共价或非共价相互作用的氨基酸、光控(photocaged)和/或光可异构化的氨基酸、含有生物素或生物素类似物的氨基酸、含有酮基的氨基酸、糖基化氨基酸、含有聚乙二醇或聚醚的氨基酸、可化学切割或可光切割的氨基酸、与天然氨基酸相比具有延长侧链的氨基酸(例如聚醚或长链烃,如大于约5个,大于约10个碳等)、含有与碳相连的糖的氨基酸、氧化还原活性的氨基酸、含有硫代氨基酸的氨基酸、含有一个或多个毒性部分的氨基酸。在一些实施方案中,非天然氨基酸具有光可激活的交联剂。在一个实施方案中,非天然氨基酸具有与氨基酸侧链相连的糖部分和/或其它碳水化合物修饰。除了含有新侧链的非天然氨基酸以外,非天然氨基酸还可以含有修饰的骨架结构,例如式II和III所示结构其中,Z一般包括OH、NH2、SH、NH-R′或S-R′;X和Y可以相同或不同,一般包括S或O;R和R′相同或不同,一般选自以上式I所示非天然氨基酸中R基团的选项以及氢。例如,本发明的非天然氨基酸在式II和III所示氨基或羧基中可以含有取代。该类型的非天然氨基酸包括但不限于例如具有对应于20种常见天然氨基酸的侧链或非天然侧链的α-羟酸、α-硫代酸、α-氨基硫代羧酸酯。此外,在α-碳处的取代可以包括L、D或α-α-双取代的氨基酸,例如D-谷氨酸、D-丙氨酸、D-甲基-O-酪氨酸、氨基丁酸等。其它结构替代物包括环状氨基酸,例如脯氨酸类似物以及3、4、6、7、8和9元环脯氨酸类似物,β和γ氨基酸,如取代β-丙氨酸和γ-氨基丁酸。本发明的其它非天然氨基酸结构包括全β型结构(homo-beta-typestructures),例如在毗连α碳夹有例如亚甲基或氨基,例如全β-酪氨酸、α-肼基-酪氨酸的同分异构体。参见,例如许多非天然氨基酸基于天然氨基酸,例如酪氨酸、谷氨酰胺、苯丙氨酸等。例如,酪氨酸类似物包括对位取代的酪氨酸、邻位取代的酪氨酸和间位取代的酪氨酸,其中该取代的酪氨酸含有乙酰基、苯甲酰基、氨基、肼、羟胺、巯基、羧基、异丙基、甲基、C6-C20直链或支链烃、饱和或不饱和的烃、O-甲基、聚醚基团、硝基等。此外,也考虑多取代的芳环。本发明的谷氨酰胺类似物包括但不限于α-羟基衍生物、γ-取代的衍生物、环形衍生物和酰胺取代的谷氨酰胺衍生物。苯丙氨酸类似物的例子包括但不限于对位取代的苯丙氨酸、邻位取代的苯丙氨酸和间位取代的苯丙氨酸,其中取代的苯丙氨酸含有羟基、甲氧基、甲基、烯丙基、醛基或酮基等。非天然氨基酸的具体例子包括但不限于高谷氨酰胺(homoglutamine)、3,4-二羟基-L-苯丙氨酸、p-乙酰基-L-苯丙氨酸、p-炔丙基氧基(propargyloxy)苯丙氨酸、O-甲基-L-酪氨酸、L-3-(2-萘基)丙氨酸、3-甲基-苯丙氨酸、O-4-烯丙基-L-酪氨酸、4-丙基-L-酪氨酸、三-O-乙酰基-GlcNAcβ-丝氨酸、L-多巴(Dopa)、氟化苯丙氨酸、异丙基-L-苯丙氨酸、p-叠氮基-L-苯丙氨酸、p-酰基-L-苯丙氨酸、p-苯甲酰基-L-苯丙氨酸、L-磷酸丝氨酸、膦酰基丝氨酸、膦酰基酪氨酸、p-氨基-L-苯丙氨酸和异丙基-L-苯丙氨酸等。非天然氨基酸的化学合成上述许多非天然氨基酸可商业购自,例如Sigma(USA)或Aldrich(Milwaukee,WI,USA)。例如溴化和碘化的苯丙氨酸和酪氨酸可购自Sigma,Synthetech,Inc.(在万维网网址synthetech.com)和AdvancedAsymmetries,Inc.(advancedasymmetrics.com)。无法商业购得的化合物可根据各种出版物所提供的或用本领域技术人员已知的方法合成。就有机合成技术而言,可参见例如《有机化学》(OrganicChemistry),Fessendon和Fessendon,(1982,第二版,WillardGrantPress,BostonMass.);《高级有机化学》(AdvancedOrganicChemistry),March,(第三版,1985,WileyandSons,NewYork);和《高级有机化学》(AdvancedOrganicChemistry),Carey和Sundberg,(第三版,A和B部分,1990,PlenumPress,NewYork)。其它描述非天然氨基酸合成的出版物包括,例如名为“非天然氨基酸的体内掺入”(InvivoincorporationofUnnaturalAminoAcids)的WO2002/085923;Matsoukas等,(1995),J.Med.Chem.,384660-4669;King,F.E.和Kidd,D.A.A.,(1949),“从邻苯二甲酰化中间体合成谷氨酰胺和谷氨酸的γ-二肽的新方法”(ANewSynthesisofGlutamineandofγ-DipeptidesofGlutamicAcidfromPhthylatedIntermediates),J.Chem.Soc.,3315-3319;Friedman,O.M.和Chatterrji,R.,(1959),“合成谷氨酰胺衍生物作为抗肿瘤药物的模型底物”(SynthesisofDerivativesofGlutamineasModelSubstratesforAnti-TumorAgents),J.Am.Chem.Soc.,813750-3752;Craig,J.C.等,(1988),“7-氯-4[[4-(二乙氨基)-1-甲基丁基]氨基]喹啉(氯喹)的对映异构体的绝对构型”(AbsoluteConfigurationoftheEnantiomersof7-Chloro-4[[4-(diethylamino)-1-methylbutyl]amino]quinoline(Chloroquine)),J.Org.Chem.,531167-1170;Azoulay,M.,Vilmont,M.和Frappier,F.,(1991),“作为潜在抗疟疾药物的谷氨酰胺类似物”(GlutamineanaloguesasPotentialAntimalarials),Eur.J.Med.Chem.,26201-5;Koskinen,A.M.P.和Rapoport,H.,(1989),“合成作为构象限制的氨基酸类似物的4-取代脯氨酸”(Synthesisof4-SubstitutedProlinesasConformationallyConstrainedAminoAcidAnalogues),J.Org.Chem.,541859-1866;Christie,B.D.和Rapoport,H.,(1985),“从L-天冬酰胺合成光学纯的哌啶酯。应用于通过氨基酸脱羧和亚胺离子环化来全合成(+)-Apovincamine”(SynthesisofOpticallyPurePipecolatesfromL-Asparagine.ApplicationtotheTotalSynthesisof(+)-ApovincaminethroughAminoAcidDecarbonylationandIminiumIonCyclization),J.Org.Chem.,19891859-1866;Barton等,(1987),“采用基团化学方法合成a-氨基酸及衍生物合成L-和D-a-氨基-己二酸、L-a-氨基庚二酸与合适的不饱和衍生物”(SynthesisofNovela-Amino-AcidsandDerivativesUsingRadicalChemistrySynthesisofL-andD-a-Amino-AdipicAcids,L-a-aminopimelicAcidandAppropriateUnsaturatedDerivatives),TetrahedronLett.,434297-4308;Subasinghe等,(1992),“使君子氨酸类似物合成β-杂环2-氨基丙酸衍生物和它们在新的使君子氨酸敏化位点的活性”(Quisqualicacidanaloguessynthesisofbeta-heterocyclic2-aminopropanoicacidderivativesandtheiractivityatanovelquisqualate-sensitizedsite),J.Med.Chem.,354602-7。也可参见2003年12月22日提交,名为“蛋白质试验”(ProteinArrays)的国际申请号PCT/US03/41346。非天然氨基酸的细胞摄取细胞摄取非天然氨基酸是设计和选择非天然氨基酸用于掺入蛋白质中通常应考虑的问题之一。例如,α-氨基酸的高电荷密度提示这些化合物不可能透过细胞。天然氨基酸通过蛋白质转运系统的收集摄取入细胞,这些系统往往显示不同程度的氨基酸特异性。可进行快速筛选来评估哪种非天然氨基酸将被细胞所摄取。参见,例如2003年12月22日提交的名为“蛋白质试验”(ProteinArrays)的国际申请号PCT/US03/41346中的毒性试验;Liu,D.R.和Schultz,P.G.,(1999),“含扩增遗传密码的生物演化的进展”(Progresstowardtheevolutionofanorganismwithanexpandedgeneticcode),PNASUnitedStates,964780-4785。虽然可采用各种试验方便地分析摄取情况,设计符合细胞摄取途径的非天然氨基酸的另一种方法是提供生物合成途径在体内产生氨基酸。非天然氨基酸的生物合成细胞中已有许多产生氨基酸和其它化合物的生物合成途径。尽管自然界中,例如细胞中,可能不存在具体非天然氨基酸的生物合成方法,本发明提供了这种方法。例如,通过加入新的酶或修饰现有的宿主细胞途径可以在宿主细胞中形成非天然氨基酸的生物合成途径。其它新的酶可以是天然存在的酶或人工获得的酶。例如,生物合成p-氨基苯丙氨酸(如WO2002/085923中的实施例所示,同上)依赖加入来自其它生物的已知酶的混合物。可通过用含这些酶的基因的质粒转染细胞而将这些酶的基因引入细胞。当这些基因在细胞中表达时,它们提供了酶法合成所需化合物的途径。可任选加入的酶的例子见后文实施例。其它酶序列见例如Genbank。也可以相同方式将人工制得的酶加入细胞。在此方式中,可操控细胞内的机制和资源来产生非天然氨基酸。实际上,可采用各种方法产生新的酶从而在体内或体外用于生物合成途径,进化现有途径,或产生非天然氨基酸。许多进化酶的可用方法和其它生物合成途径组分适用于本发明来产生非天然氨基酸(或者,实际上,用于进化合成酶使之具有新的底物特异性或其它感兴趣的活性)。例如,可以采用DNA改组来开发新的酶和/或这些酶路径从而在体外或体内产生非天然氨基酸(或产生新的酶)。参见,例如Stemmer,(1994),“通过DNA改组在体外快速进化蛋白质”(RapidevolutionofaproteininvitrobyDNAshuffling),Nature,370(4)389-391;Stemmer,(1994),“通过随机断裂和装配的DNA改组分子进化的体外重组”(DNAshufflingbyrandomfragmentationandreassemblyInvitrorecombinationformolecularevolution),Proc.Natl.Acad.Sci.USA.,9110747-10751。相关的方法改组关联的(例如同源性)基因家族从而使酶快速进化而具有所需特性。这种“家族基因改组”方法的例子见Crameri等,(1998),“不同种类基因家族的DNA改组加速了定向进化”(DNAshufflingofafamilyofgenesfromdiversespeciesacceleratesdirectedevolution),Nature,391(6664)288-291。也可采用称为“产生杂交酶的递增截短”(ITCHY)的DNA重组方法来产生新的酶(无论是生物合成途径组分或合成酶),例如Ostermeier等,(1999),“不依赖DNA同源性的杂交酶的组合方法”(AcombinatorialapproachtohybridenzymesindependentofDNAhomology),NatureBiotech,171205中所述。该方法也可用于产生酶或其它生物途径变体的文库,用作一种或多种体外或体内重组方法的基础。也可参见,Ostermeier等,(1999),“采用递增截短的组合蛋白质工程”(CombinatorialProteinEngineeringbyIncrementalTruncation),Proc.Natl.Acad.Sci.USA,963562-67;Ostermeier等,(1999),“作为工程改造新生物催化剂的方法的递增截短”(IncrementalTruncationasaStrategyintheEngineeringofNovelBiocatalysts),BiologicalandMedicinalChemistry,72139-44。另一种方法采用指数集合诱变(exponentialensemblemutagenesis)来产生酶或其它途径变体的文库,从中筛选与产生非天然氨基酸(或新的合成酶)有关的生物合成反应能力。在该方法中,平行地随机选取(randomized)感兴趣序列中的小基团残基,鉴定在不同位置上可导致产生功能性蛋白质的氨基酸。适用于本发明来产生新酶进而产生非天然氨基酸(或新的合成酶)的此类方法的例子见Delegrave和Youvan,(1993),BiotechnologyResearch,111548-1552。在另一方法中,可采用用掺杂或简并寡核苷酸的随机或半随机诱变来工程改造酶和/或途径成分,例如通过用如Arkin和Youvan,(1992),“优化核苷酸混合物来编码用于半随机诱变的特定氨基酸亚组”(Optimizingnucleotidemixturestoencodespecificsubsetsofaminoacidsforsemi-randommutagenesis),Biotechnology10297-300;或Reidhaar-Olson等,(1991),“用寡核苷酸盒随机诱变蛋白质序列”(Randommutagenesisofproteinsequencesusingoligonucleotidecassettes),MethodsEnzymol.,208564-86所述的总体诱变方法。可采用用多核苷酸重装配和位点饱和诱变的另一种方法(通常称为“非随机”诱变)来产生酶和/或途径组分,然后筛选它们行使一种或多种合成酶或生物合成途径功能(例如为在体内产生非天然氨基酸)的能力。参见,例如Short,“非随机产生遗传疫苗和酶”(Non-StochasticGenerationofGeneticVaccinesandEnzymes),WO00/46344。不同于这种突变方法的另一种方法包括重组生物的整个基因组并在得到后代中选择特定的途径功能(常称为“全基因组改组”)。该方法可应用于本发明,例如通过基因组重组并选择能够产生非天然氨基酸(或其中间体)的生物(大肠杆菌或其它细胞)。例如,以下出版物所指导的方法可应用于途径设计来在细胞中更新现有的和/或创建新的途径从而在体内产生非天然氨基酸。Patnaik等,(2002),“乳酸杆菌基因组改组来提高酸耐受性”(Genomeshufflingoflactobacillusforimprovedacidtolerance),NatureBiotechnology,20(7)707-712;和Zhang等,(2002),“基因组改组导致细菌表型快速改善”(Genomeshufflingleadstorapidphenotypicimprovementinbacteria),Nature,415644-646。还有许多其他用于生物和代谢途径工程改造(例如为产生所需化合物)的技术,它们也可用于产生非天然氨基酸。讲述可用的路径工程改造方法的出版物的例子包括Nakamura和White,(2003),“微生物生产1,3丙二醇的代谢工程”(Metabolicengineeringforthemicrobialproductionof1,3propanediol),Curr.Opin.Biotechnol.,14(5)454-9;Berry等,(2002),“应用代谢工程来提高BiotechIndigo的生产和用途”(ApplicationofMetabolicEngineeringtoimproveboththeproductionanduseofBiotechIndigo),J.IndustrialMicrobiologyandBiotechnology,28127-133;Banta等,(2002),“优化人工代谢途径工程改造用于维生素C生物合成的棒状杆菌2,5-二酮基-D-葡糖酸还原酶的辅助因子特异性”(OptimizinganartificialmetabolicpathwayEngineeringthecofactorspecificityofCorynebacterium2,5-diketo-D-gluconicacidreductaseforuseinvitaminCbiosynthesis),Biochemistry,41(20)6226-36;Selivonova等,(2001),“微生物中新特性的快速进化”(RapidEvolutionofNovelTraitsinMicroorganisms),AppliedandEnvironmentalMicrobiology,673645,和许多其它出版物。无论采用什么方法,用本发明工程改造的生物合成途径产生的非天然氨基酸的浓度应对有效的蛋白质生物合成而言足够,例如天然细胞内的含量,但应不致于显著影响其它细胞氨基酸或耗尽细胞资源的程度。以此方式在体内所产生的一般浓度是约10mM到约0.05mM。一旦细胞被工程改造从而产生了特定途径所需的酶并产生了非天然氨基酸,可任选地采用体内选择为促进核糖体蛋白质合成与细胞生长而进一步优化非天然氨基酸的产生。用于掺入含有重原子的氨基酸的正交组分本发明提供响应选择者密码子,例如终止密码子、无义密码子、四碱基或四碱基以上密码子等(例如)在体外或体内将含有重原子的氨基酸(例如溴化或碘化的氨基酸,如碘代Phe或溴代Phe)掺入延伸中的多肽链的组合物。例如,本发明提供正交-tRNA(O-tRNAs)、正交氨酰基-tRNA合成酶(O-RSs)和它们的配对。可用这些配对将含有重原子的氨基酸掺入延伸中的多肽链。本发明的组合物包含正交氨酰基-tRNA合成酶(O-RS),该O-RS优先用溴化或碘化的氨基酸氨酰化O-tRNA。在某些实施方案中,该O-RS包含含有SEQIDNO3或4或其保守性变体的氨基酸序列。在一些实施方案中,该O-RS包含由含有SEQIDNO1或2(的序列)或其互补序列的多核苷酸序列编码的氨基酸序列。在本发明的某些实施方案中,O-RS优先用溴化或碘化的氨基酸氨酰化O-tRNA,其效率至少是包含SEQIDNO3或4所示氨基酸序列的多肽优先用溴化或碘化氨基酸氨酰化O-tRNA的效率的50%(例如至少60%、至少75%、至少80%或至少90%或更高)。具体地说,本发明的O-RS不包括含有SEQIDNO6-9所示任一氨基酸序列的O-RS。在某些实施方案中,O-RS含有的氨基酸序列与天然存在的酪氨酰氨酰基-tRNA合成酶(TyrRS)的至少90%相同并含有两个或两个以上(例如至少三个、至少四个或五个)选自以下的氨基酸在对应于詹氏甲烷球菌TyrRS的Tyr32位置的Leu、在对应于詹氏甲烷球菌TyrRS的Glu107位置的Ser或Glu、在对应于詹氏甲烷球菌TyrRS的Asp158位置的Pro、在对应于詹氏甲烷球菌TyrRS的Ile159位置的Leu或Arg和在对应于詹氏甲烷球菌TyrRS的Leu162位置的Glu或Arg。包含O-RS的组合物还可以包含正交tRNA(O-tRNA),该O-tRNA识别选择密码子。与含有或由本文序列表和实施例所示多核苷酸序列编码的O-tRNA相比,本发明的O-tRNA响应选择密码子在有同源合成酶存在时一般具有至少约45%、50%、60%、75%、80%或90%或更高的抑制效率。在一个实施方案中,联用O-RS和O-tRNA的抑制效率比无O-RS仅O-tRNA的抑制效率高约5倍、10倍、15倍、20倍或25倍或更高。包含O-RS的组合物可以包含细胞(例如大肠杆菌等非真核细胞或真核细胞)和/或翻译系统。本发明还提供包含翻译系统的细胞(例如非真核细胞或真核细胞),该翻译系统包括正交tRNA(O-tRNA)、正交氨酰基-tRNA合成酶(O-RS)和溴化或碘化氨基酸。该O-tRNA识别第一选择密码子,该O-RS优先用该溴化或碘化氨基酸氨酰化该O-tRNA。在一个实施方案中,所述O-tRNA含有SEQIDNO5所示多核苷酸序列或其保守性变体或由其编码。在一个实施方案中,所述O-RS含有SEQIDNO3-4中任一所示氨基酸序列或其保守性变体。在一些实施方案中,O-RS含有由包含SEQIDNO1或2的多核苷酸序列或其互补序列所编码的氨基酸序列。在本发明的某些实施方案中,O-RS优先用溴化或碘化的氨基酸氨酰化O-tRNA的效率至少是包含氨基酸序列SEQIDNO3或4的多肽效率的50%(例如至少60%、至少75%、至少80%或至少90%或更高)。本发明的O-RS不包括含有SEQIDNO6-9所示任一氨基酸序列的O-RS。在某些实施方案中,O-RS含有的氨基酸序列与天然存在的酪氨酰氨酰基-tRNA合成酶(TyrRS)的至少90%相同并含有两个或两个以上(例如至少三个、至少四个或五个)选自以下的氨基酸在对应于詹氏甲烷球菌TyrRS的Tyr32位置的Leu、在对应于詹氏甲烷球菌TyrRS的Glu107位置的Ser或Glu、在对应于詹氏甲烷球菌TyrRS的Asp158位置的Pro、在对应于詹氏甲烷球菌TyrRS的Ile159位置的Leu或Arg和在对应于詹氏甲烷球菌TyrRS的Leu162位置的Glu或Arg。本发明的细胞可以包含含有编码感兴趣多肽的多核苷酸的核酸,所述多核苷酸含有为O-tRNA所识别的选择密码子。本发明的细胞还可任选地含有其它不同的O-tRNA/O-RS对和第二种非天然氨基酸,例如所述O-tRNA识别第二选择密码子,而该O-RS优先用第二种非天然氨基酸氨酰化O-tRNA。在某些实施方案中,本发明的细胞(例如大肠杆菌细胞)包含正交氨酰基-tRNA合成酶(O-RS)、正交tRNA(O-tRNA)和溴化或碘化氨基酸。所述正交tRNA识别选择密码子,所述正交氨酰基-tRNA合成酶优先用该溴化或碘化氨基酸氨酰化该正交-tRNA。O-RS和O-tRNA一般各自由细胞中的一种或多种核酸编码。该细胞还可以含有编码感兴趣多肽的核酸,其中的多核苷酸含有为O-tRNA所识别的选择密码子。该细胞还可以含有靶核酸所编码且含有溴化或碘化氨基酸的蛋白质。在某些实施方案中,本发明的O-tRNA含有或本文序列表或实施例所示多核苷酸或其保守性变体或由其编码。在某些实施方案中,O-RS含有序列表所示氨基酸序列或其保守性变体。在一个实施方案中,O-RS或其一部分由多核苷酸或其互补序列编码,所述多核苷酸编码本文序列表或实施例所示氨基酸序列。本发明的O-tRNA和/或O-RS可源自多种生物(例如真核和/或非真核生物)。多核苷酸也是本发明的特征之一。本发明的核酸包括SEQIDNO1或2所示多核苷酸序列或其互补序列。本发明多核苷酸还包括含有编码本文序列表所示多肽的多核苷酸序列的人工(例如人造和非天然存在的)多核苷酸和/或其互补序列。本发明的多核苷酸还可包括可在高度严格条件下,几乎在其全长上与上述多核苷酸杂交的核酸。本发明的多核苷酸还包括与任一上述多核苷酸和/或含有上述任一多核苷酸的保守性变体的多核苷酸有至少80%、至少90%、至少95%、至少98%或更高相同度的人工多核苷酸。含有本发明多核苷酸的载体也是本发明的特征之一。例如,本发明的载体可包括质粒、粘粒、噬菌体、病毒、表达载体等。包含本发明载体的细胞也是本发明特征之一。本发明还提供了将含有重原子的氨基酸(例如溴化或碘化氨基酸)加载于O-tRNA之上的正交-氨酰基-tRNA合成酶的鉴定方法。例如,这些方法包括对第一种类的细胞群进行选择,其中各细胞包含1)多种氨酰基-tRNA合成酶(RS)的之一(例如所述多种RS可包括突变型RS、源自除第一种类以外种类的RS或同时包括突变型RS和源自除第一种类以外种类的RS);2)正交tRNA(O-tRNA)(例如源自一个或多个种类);和3)编码阳性选择标记并含有至少一个选择密码子的多核苷酸,或编码阴性选择标记并含有至少一个选择密码子的多核苷酸。通常在每轮阳性选择期间提供含有重原子的氨基酸(例如溴化或碘化氨基酸),而在每轮阴性选择期间不提供。选择或筛选那些显示与缺乏所述多种RS成员或其含量降低的细胞相比抑制效率提高的细胞(例如宿主细胞)为阳性。这些选择/筛选出的细胞含有氨酰化O-tRNA的活性RS。此外,选择/筛选含有不用内源性氨基酸氨酰化O-tRNA的RS的细胞为阴性。通过该方法鉴定的正交氨酰基-tRNA合成酶也是本发明特征之一。核酸与多肽序列及变体如上文和下文所述,本发明提供核酸的多核苷酸序列,例如O-tRNA和O-RS,多肽氨基酸序列,例如O-RS和诸如组合物、试剂盒、系统和包括用到所述序列的方法。本文公开了所述序列例如O-tRNA和O-RS的例子(参见本文的序列表和实施例)。然而,本领域技术人员应知道本发明不限于例如实施例和序列表所示的那些确切的序列。技术人员应知道本发明还提供了许多具有本文所述功能(例如编码合适的O-tRNA或O-RS)的有关和无关序列。本发明提供了多肽(O-RS)和多核苷酸,例如O-tRNA,编码O-RS或其一部分的多核苷酸,用于分离氨酰基-tRNA合成酶克隆的寡核苷酸,等等。本发明的多核苷酸包括编码本发明感兴趣蛋白质或多肽并含有一个或多个选择者密码子的那些多核苷酸。此外,本发明的多核苷酸包括,例如含有序列表所示核苷酸序列的多核苷酸及其互补序列。本发明的多核苷酸还包括编码本发明多肽的多核苷酸。类似地,能在高度严格条件下,几乎在其全长上与上述多核苷酸杂交(并且不是天然多核苷酸)的人工核酸也是本发明的多核苷酸。人工多核苷酸即人造且非天然存在的多核苷酸。本发明的多核苷酸还包括与天然tRNA或本文序列表或实施例所示任一RNA或其编码核酸至少75%、至少80%、至少90%、至少95%、至少98%或以上相同的人工多核苷酸(但不是天然tRNA)。多核苷酸还包括与天然tRNA至少75%、至少80%、至少90%、至少95%、至少98%或以上相同的人工多核苷酸。在某些实施方案中,载体(例如质粒、粘粒、噬菌体、病毒等)含有本发明的多核苷酸。在一个实施方案中,所述载体是表达载体。在某些实施方案中,表达载体包含与一条或多条本发明多核苷酸操作性相连的启动子。在一些实施方案中,细胞包含含有本发明多核苷酸的载体。技术人员也可知道本发明包括所公开序列的许多变体。例如,本发明包括可产生功能类似序列的所公开序列的保守性变体。本发明还包括通过例如标准序列比较技术所测定的本文公开序列的独特亚序列。保守性变异由于遗传密码的简并性,“沉默取代”(即,核酸序列中的取代不导致所编码多肽改变)是编码氨基酸的每条核酸序列所蕴含的特征。类似地,不难鉴定在氨基酸序列中有一个或少数氨基酸被具有高度相似特性的不同氨基酸取代的“保守性氨基酸取代”与具体公开的构建物高度相似。各具体公开序列的这种保守性变异(或保守性变体)是本发明的特征之一。具体核酸序列的“保守性变体”或“保守性变异”指编码相同或基本相同的氨基酸序列的那些核酸,或者,如果是是不编码氨基酸序列的核酸,则指基本上相同的序列。技术人员知道,可改变、加入或删除被编码序列中一个氨基酸或小部分氨基酸(一般低于5%、更常见是低于4%、2%或1%)的各种取代、缺失或插入是“保守性修饰变异”,这些改变导致氨基酸的缺失、插入或被化学性质相似的氨基酸所取代。因此,本发明所列举多肽序列的“保守性变体”或“保守性变异”包括用同一保守性取代组的氨基酸取代该多肽序列的小部分(通常低于5%,更常见是低于2%或1%)的氨基酸。最后,不改变某核酸分子所编码的活性的序列插入是基础核酸的保守性变异,例如插入无功能序列。提供功能类似的氨基酸的保守性取代为本领域所熟知,其中一个氨基酸残基被另一个具有相似化学特性(例如芳香族侧链或带正电荷的侧链)的氨基酸残基取代,因此基本上不改变该多肽分子的功能特性。以下例举多组化学特性相似的天然氨基酸,其中,各组内的取代即“保守性取代”核酸杂交可利用比较杂交来鉴定本发明核酸,例如本文序列表所列的,包括本发明核酸的保守性变体,该比较杂交方法是区别本发明核酸与无关核酸的方法之一。此外,能在高度、超高度和超超高度严格条件下与序列表中序列所代表的核酸杂交的靶核酸是本发明特征之一。这种核酸的例子包括与某给定的核酸序列相比含有一个或少许沉默或保守性核酸取代的核酸序列。当测试核酸与探针的杂交程度至少是与完美匹配的互补靶(核酸)杂交程度的1/2时,可称测试核酸与探针核酸特异性杂交,即信噪比至少是该探针与靶核酸在条件下杂交的信噪比的1/2此条件下,完美匹配探针与完美匹配互补靶核酸的结合的噪比至少是探针与任何不匹配靶核酸杂交所观察到的信噪比的5-10倍。当核酸结合(一般在溶液中)时,称其“杂交”。核酸因各种已充分为人所知的理化力,例如氢键、溶剂排斥、碱基堆积等而杂交。核酸杂交的指南见Tijssen,(1993),《生物化学与分子生物学的实验室技术》(LaboratoryTechniquesinBiochemistryandMolecularBiology--HybridizationwithNucleicAcidProbes),第一部分第二章,“杂交原理概述与杂交探针试验方法”(Overviewofprinciplesofhybridizationandthestrategyofnucleicacidprobeassays),(Elsevier,NewYork);以及Ausubel,见下文。Hames和Higgins,(1995),《基因探针1》(GeneProbes1),牛津大学出版社,IRL出版社,牛津,英格兰,(Hames和Higgins1);Hames和Higgins,(1995),《基因探针2》(GeneProbes2),牛津大学出版社,IRL出版社,牛津,英格兰,(Hames和Higgins2)提供了合成、标记、检测和定量测定DNA与RNA,包括寡核苷酸的细节。在Southern或northern印迹滤膜上具有100个以上互补残基的互补核酸杂交的严格杂交条件的例子是含1mg肝素的50%福尔马林,42℃杂交过夜。严格洗涤条件的例子是65℃,用0.2×SSC洗涤15分钟(SSC缓冲液的描述可参见Sambrook和下文)。通常先进行低严格洗涤除去背景信号,再进行高严格洗涤。示例性低严格洗涤是40℃,用2×SSC洗涤15分钟。总体上,在具体杂交试验中信噪比是无关探针信噪比的5倍(或更高)表示检测到特异性杂交。就核酸杂交实验(例如,Southern和northern杂交)而言的“严格杂交洗涤条件”取决于序列,并随不同的环境参数而不同。核酸杂交的前面介绍见Tijssen,(1993),同上;Hames和Higgins,1和2。不难凭经验确定适合任何测试核酸的严格杂交和洗涤条件。例如,在确定严格杂交和洗涤条件时,可逐渐提升杂交和洗涤条件(例如,通过升高杂交或洗涤中的温度、降低杂交或洗涤中的盐浓度、增加杂交或洗涤中的洗涤剂浓度和/或增加杂交或洗涤中的有机溶剂如福尔马林的浓度)直至符合一组选定标准。例如,在高度严格杂交和洗涤条件中,逐渐提升杂交和洗涤条件直至探针与完美匹配的互补靶(核酸)结合的信噪比至少是探针与不匹配靶(核酸)杂交信噪比的5倍。所选择的“非常严格”的条件等于具体探针的热解链温度(Tm)。Tm是50%的测试序列与完美匹配的探针杂交的温度(在规定的离子强度和pH下)。为本发明的目的,“高度严格”的杂交和洗涤条件一般选择为在规定的离子强度和pH时比特定序列的Tm约低5℃。“超高严格”的杂交和洗涤条件指,此条件下,探针与完美匹配的互补靶(核酸)结合的信噪比至少是探针与不匹配靶(核酸)杂交信噪比的10倍。靶核酸在这种条件下与探针杂交的信噪比至少是完美匹配的互补靶核酸的1/2时,可称其在超高度严格条件下与探针相结合。类似地,可通过逐渐提升相关杂交试验的杂交和/或洗涤条件还可确定甚至更高的严格性水平。例如,探针与完美匹配的互补靶核酸结合的信噪比至少比探针与任何不匹配靶核酸杂交信噪比高10、20、50、100或500倍或更高的严格度。靶核酸在这种条件下与探针杂交的信噪比至少是完美匹配的互补靶核酸的1/2时,可称其在超超高度严格条件下与探针相结合。如果在严格条件下不互相杂交的核酸所编码的多肽基本上相同,则它们基本上仍是相同的。当利用遗传密码所允许的最大简并性产生核酸的拷贝时就会发生这种情况,独特亚序列本
发明内容之一是提供含有选自本文O-tRNA和O-RS序列的核酸中的独特亚序列的核酸。与任何以前已知的tRNA或RS核酸序列相比,该独特亚序列是独特的。可利用例如默认参数的BLAST进行比对。任何独特亚序列可用作例如探针来鉴定本发明的核酸。类似地,本发明包括含有选自本文公开的O-RS序列的多肽中的独特亚序列的多肽。在本文中,与对应于任何以前已知的RS序列的多肽相比,该独特亚序列是独特的。本发明也提供在严格条件下与独特编码寡核苷酸杂交的靶核酸,该寡核苷酸编码选自O-RS序列的多肽中的独特亚序列,其中与对应于任何对照多肽(例如,通过(例如)突变衍生得到本发明合成酶的亲代序列)的多肽相比,该独特亚序列是独特的。如上所述确定独特亚序列。序列比较、相同度和同源性两条以上核酸或多肽序列“相同的”或一定百分比得“相同性”指用下文所述序列比较算法之一(或其它技术人员可用的算法)或通过目测检查所测定的,当比较或比对两条以上序列或亚序列以达到最大对应性时,它们相同或有特定百分比的氨基酸残基和核苷酸相同。两种核酸或多肽(例如,编码O-tRNA或O-RS的DNA,或O-RS的氨基酸序列)“基本上相同”指根据序列比较算法或通过目测,当比较和比对两条以上序列或亚序列以达到最大对应性时,它们具有至少约60%、约80%、约90-95%、约98%或约99%或更高的的核苷酸或氨基酸残基相同度。这种“基本上相同的”序列一般认为是“同源的”,不考虑其实际的祖先。较好的是,在至少长约50个残基的序列区域,更优选在至少约100个残基的区域存在“基本相同性”,最好,待比较两条序列有至少约150个残基或者全长基本上相同。当蛋白质和/或蛋白质序列(天然或人工地)源自同一祖先蛋白或蛋白序列时,它们是“同源的”。类似地,当核酸和/或核酸序列(天然或人工地)源自同一祖先核酸或核酸序列时,它们是“同源的”。例如,可通过各种可用的诱变方法来修饰各种天然核酸使之含有一个或严格以上选择密码子。当该诱变的核酸表达时,它编码的就是含有一个或严格以上非天然氨基酸例如碘化或溴化氨基酸的多肽。当然,该突变方法还可改变一个或一个以上标准密码子,从而还改变了所得突变蛋白质中一个或一个以上的标准氨基酸。一般可从两种或两种以上核酸或蛋白质(或其序列)之间的序列相似性推断同源性。用于确认同源性的序列之间精确的相似性百分比根据作为研究对象的核酸与蛋白质而不同,但低至25%的序列相似性也常用来确认同源性。也可用更高的序列相似性,例如30%、40%、50%、60%、70%、80%、90%、95%或99%或更高来确认同源性。本文描述了测定序列相似性百分比的方法(例如,采用默认参数的BLASTP和BLASTN),这些方法众所周知。为比较序列并测定同源性,一般将一条序列用作测试序列与之比较的参比序列。当采用序列比较算法时,将测试序列与参比序列输入计算机,如果需要可设计亚序列坐标,并设计序列算法程序参数。序列比较算法于是根据所设计的程序参数来计算测试序列与参比序列的序列相同性百分比。可用以下方法进行有利于比较的的最佳序列比对,例如通过Smith和Waterman,(1981),Adv.Appl.Math.,2482的局部同源性算法;通过Needleman和Wunsch,J.,(1970),Mol.Biol.,48443的同源性比对算法;通过Pearson和Lipman,(1988),Proc.Nat’l.Acad.Sci.USA,852444的相似性检索方法;通过这些算法的计算机化补充版(Wisconsin遗传软件包中的GAP,BESTFIT,FASTA和TFASTA,GeneticsComputerGroup,575ScienceDr.,Madison,WI);或者通过目测(一般可参见Ausubel等,下文)。适用于测定序列相同性和序列相似性百分比的算法之一是Altschul等,J.Mol.Biol.,215403-410,(1990)所述的BLAST算法。进行BLAST分析的软件由国家生物技术信息中心(在万维网ncbi.nlm.nih.gov/)向公众开放。该算法包括首先通过在查询序列中鉴定长为W的短字串来鉴定高分序列配对(HSP),这些子串与数据库中相同长度的字串比对时符合或满足正分阈值T。T称为邻近子串分值阈值(Altschul等,同上)。这些原始邻近子串作为启动检索的种子来找寻含有它们的较长HSP。然后使这些子串沿着各条序列双向延伸,致使累积比对分增加。以核苷酸序列为例,用参数M(一对匹配残基的奖励评分;恒大于0)和N(错配残基的罚分;恒小于0)计算累积分。如果是氨基酸序列,则用评分矩阵来计算累积分。当出现以下情况时任一方向的字串延伸停止累积比对分从其达到的最高值以降幅达X;因一个或多个负分残基比对的累积导致累积分降至0或0以下;或者到达各序列的末端。BLAST算法参数W、T和X决定比对的灵敏度和速度。BLAST程序(用于核苷酸序列时)默认11为字长(W)、10为期望值(E)、100为截断值、M-5、N=-4,并进行双链比较。用于氨基酸序列时,BLAST程序默认3为缺省字长(W)、10为期望值(E)并采用BLOSUM62评分矩阵(参见Henikoff和Henikoff,(1989),Proc.Natl.Acad.Sci.USA,8910915)。除了计算序列相同性百分比之外,BLAST算法还可对两条序列之间的相似性进行统计学分析(参见,例如Karlin和Altschul,(1993),Proc.Nat’l.Acad.Sci.USA,905873-5787)。BLAST算法提供的相似性指标之一是最小总概率(P(N)),其指示两条核苷酸或氨基酸序列之间发生随机匹配的概率。例如,如果测试核酸与参比核酸在比较中的最小总概率小于约0.1,更优选小于约0.01,最优选小于约0.001,则可认为该核酸与参比核酸相似。诱变与其它分子生物学技术可采用分子生物学技术操作本发明和用于本发明的多核苷酸和多肽。描述分子生物学的通用教材包括Berger和Kimmel,《分子克隆技术指南,酶学方法,第152卷》(GuidetoMolecularCloningTechniques,MethodsinEnzymologyvolume152),AcademicPress,Inc.,SanDiego,CA(“Berger”);Sambrook等《分子克隆-实验室手册》(MolecularCloning-ALaboratoryManual),(第三版),第1-3卷,冷泉港实验室,冷泉港,纽约,2001(“Sambrook”)和《分子生物学最新方法》(CurrentProtocolsinMolecularBiology),F.M.Ausubel等编;《最新方法》(CurrentProtocols),GreenePublishingAssociates,Inc.和JohnWileyandSons,Inc.合资,(经2004年补充)(“Ausubel”))。这些教材描述了诱变、载体的应用、启动子和许多其它相关课题,例如涉及如何产生含有选择密码子的基因从而产生含有非天然氨基酸的蛋白质的课题,以及如何产生正交tRNA、正交合成酶及其配对的课题。本发明可利用各种类型的诱变来(例如)突变tRNA分子、产生tRNA文库、产生合成酶的文库和/或在编码感兴趣蛋白质或多肽中插入编码非天然氨基酸的选择密码子。它们包括但不限于定点诱变、随机点诱变、同源重组、DNA改组或其它递归诱变方法、嵌合构建、利用含有尿嘧啶的模板的诱变、寡核苷酸引导的诱变、硫代磷酸酯修饰的DNA诱变、利用缺口双螺旋DNA的诱变等,或者是它们的任何组合。其它合适的方法包括点错配修复、利用修复缺陷宿主株的诱变、限制性选择和限制性纯化、缺失诱变、总基因合成诱变、双链断裂修复等。本发明也包括,例如涉及嵌合构建的诱变。在一个实施方案中,可用天然分子或改变或突变的天然分子的已知信息,例如序列,序列比较、物理特性、晶体结构等来指导诱变。可利用本发明的多核苷酸或含有本发明多核苷酸的构建物,例如本发明载体(例如可以是克隆载体或表达载体)来遗传改造(例如转化、转导或转染)宿主细胞。例如,可将正交tRNA、正交tRNA合成酶和待衍生蛋白质的编码区操作性连接于可在所需宿主细胞中起作用的基因表达控制元件。典型的载体含有转录和翻译终止子、转录和翻译起始序列和用于调节具体靶核酸表达的启动子。这些载体可任选地包含遗传表达盒,所述表达盒含有至少一个独立的终止子序列,允许该表达盒在真核细胞或原核细胞或二者中(例如,穿梭载体)复制的序列,和适用于原核与真核系统的选择标记。载体可在原核细胞、真核细胞或二者中复制和/或整合。参见Giliman和Smith,(1979),Gene,881;Roberts等,(1987),Nature,328731;Schneider,B.等,(1995),ProteinExpr.Purif.,643510;Ausubel,Sambrook,Berger(均同上)。例如,载体可以是质粒、细菌、病毒、裸多核苷酸或偶联的多核苷酸的形式。可通过标准方法将载体导入细胞和/或微生物,包括电穿孔(From等,(1985),Proc.Natl.Acad.Sci.USA,82,5824),病毒载体感染,利用在小珠或颗粒的基质内或其表面含有核酸的小颗粒的高速弹丸穿透(Klein等,(1987),Nature,32770-73),等等。ATCC提供了大量可用于克隆的细菌和细菌噬菌体,例如ATCC出版的《ATCC细菌与细菌噬菌体目录》(TheATCCCatalogueofBacteriaandBacteriophage),(1996),Gherna等编。其它测序、克隆的基本方法与分子生物学的其它方面和对其潜在理论的考虑也可见Sambrook(同上),Ausubel(同上)和Watson等,(1992),《重组DNA》(RecombinantDNA),第二版,,ScientificAmericanBooks,NY。此外,基本上任何核酸(和实际上任何标记的核酸,无论是标准或非标准的)可以向各种商业来源定制的或标准定购,例如MidlandCertifiedReagentCompany(Midland,TXmcrc.com)、TheGreatAmericanGeneCompany(Ramona,CA,从万维网genco.com处可得)、ExpressGenInc.(Chicago,IL,从万维网expressgen.com处可得)、OperonTechnologiesInc.(Alameda,CA)和许多其它公司。工程改造的宿主细胞可培养在为例如筛选步骤、激活启动子或选择转化子的活性而适当修饰的常规营养培养基中。这些细胞可以培养成转基因生物。其它可用的参考文献,例如用于细胞分离和培养(例如,为随后的核酸分离或蛋白质表达和/或纯化)的文献,包括Freshney,(2000),《动物细胞培养,基本技术手册》(CultureofAnimalCells,aManualofBasicTechnique),第四版,Wiley-Liss,NewYork及其所引用的参考文献;Higgins和Hames编,(1999),《蛋白质表达实用方法》(ProteinExpressionAPracticalApproach),实用方法系列(PractiealApproachSeries),牛津大学出版社;Shuler等编,(1994),,《杆状病毒表达系统和生物杀虫剂》(BaculovirusExpressionSystemsandBiopesticides),Wiley-Liss;Payne等,(1992),《液体系统中的植物细胞与组织培养》(PlantCellandTissueCultureinLiquidSystems),JohnWileyandSons,Inc.,NewYork,NY;Gamborg和Phillips编,(1995),《植物细胞、组织和器官培养》(PlantCell,TissueandOrganCulture);FundamentalMethodsSpringerLabManual,Springer-Verlag(BerlinHeidelbergNewYork);Atlas和Parks编,《微生物培养基手册》(TheHandbookofMicrobiologicalMedia),(1993),CRCPress.BocaRaton.FL。感兴趣的蛋白质与多肽感兴趣的蛋白质或多肽(例如具有至少一个含重原子的氨基酸(如至少一个溴化或碘化氨基酸,如溴代Phe或碘代Phe))是本发明的特征之一,含有至少两个不同非天然氨基酸的多肽也是本发明的特征之一。本发明的蛋白质可任选地含有翻译后修饰。与蛋白质一起的可以是赋形剂(例如,药学上可接受的赋形剂),或者,更多情况下是结晶溶液(含有,例如一种以上缓冲液、盐、沉淀试剂、防冻剂等)。在细胞(例如,如大肠杆菌等非真核细胞或真核细胞)中产生在特定位置具有含重原子氨基酸(例如,溴化或碘化氨基酸,如溴代Phe或碘代Phe)的蛋白质的方法也是本发明特征之一。例如,这些方法包括提供包含核酸的细胞,所述核酸含有至少一个选择密码子并编码蛋白质,在细胞中起作用并识别选择密码子的正交tRNA,和正交氨酰基-tRNA合成酶。O-RS含有的氨基酸序列与天然酪氨酰氨酰基-tRNA合成酶(TyrRS)的至少90%相同并含有至少两个(例如,至少三个、至少四个或五个)选自以下的氨基酸在对应于詹氏甲烷球菌TyrRS的Tyr32位置的亮氨酸、在对应于詹氏甲烷球菌TyrRS的Glu107位置的丝氨酸或谷氨酸、在对应于詹氏甲烷球菌TyrRS的Asp158位置的脯氨酸、在对应于詹氏甲烷球菌TyrRS的Ile159位置的亮氨酸或精氨酸和在对应于詹氏甲烷球菌TyrRS的Leu162位置的谷氨酸或精氨酸。细胞生长在合适的培养基中。溴化或碘化氨基酸(或含有其它重原子的氨基酸)在由所述至少一个选择密码子在核酸翻译期间提供并掺入蛋白质的特定位置,由此产生所述蛋白质。该方法产生的蛋白质也是本发明的特征之一。本发明也提供包含蛋白质的组合物,该蛋白质含有例如含重原子的氨基酸(例如溴化或碘化的氨基酸,如溴代Phe或碘代Phe)。在某些实施方案中,该蛋白质含有的氨基酸序列与已知蛋白质,例如治疗蛋白、诊断蛋白、工业酶或其一部分至少75%相同。该蛋白质可以包括蛋白质晶体。本发明的组合物和采用本发明方法制备的组合物可以存在于细胞中。这样,宿主系统的翻译机制可利用本发明的O-tRNA/O-RS配对或单独的各组分,从而将含有重原子的氨基酸掺入蛋白质。2004年4月16日提交的名为“扩增真核生物遗传密码”(ExpandingtheEukaryoticGeneticCode)的国际申请号PCT/US2004/011786和名为“非天然氨基酸的体内掺入”(Invivoincorporationofunnaturalaminoacids)的WO2002/085923描述了该方法,该两篇文献纳入本文作为参考。例如,当O-tRNA/O-RS配对引入宿主细胞(如大肠杆菌)时,该配对可响应选择密码子将可外源性添加至生长培养基的含重原子的氨基酸(例如合成氨基酸)如酪氨酸或苯丙氨酸的溴化或碘化衍生物掺入蛋白质。本发明的组合物可以存在于体外翻译系统也可以存在于体内系统中。本发明的细胞能合成大量有用的含有非天然氨基酸的蛋白质。在一方面,该组合物可以包含,例如至少10微克、至少50微克、至少75微克、至少100微克、至少200微克、至少250微克、至少500微克、至少1毫克、至少10毫克、至少50毫克或至少100毫克或更多包含含重原子氨基酸(例如溴化或碘化氨基酸)或多个非天然氨基酸的蛋白质,或者,所述蛋白质的产量是体内蛋白质制备方法所能实现的的产量(详见后文重组蛋白质制备和纯化)。在另一方面,蛋白质在组合物中的浓度可以是,例如每升至少10微克蛋白质、每升至少50微克蛋白质、每升至少75微克蛋白质、每升至少100微克蛋白质、每升至少200微克蛋白质、每升至少250微克蛋白质、每升至少500微克蛋白质、每升至少1毫克蛋白质或每升至少10毫克蛋白质,所述蛋白质包含在例如细胞裂解液、缓冲液、药学缓冲液或其它液体混悬液配制中(例如,体积为约1nL-约100L)。在细胞中制备大量包含至少一个含重原子的氨基酸(例如,至少一个溴化或碘化氨基酸)的蛋白质(例如,大于采用其它方法通常可能的,如体外翻译)是本发明的特征之一。掺入含重原子的氨基酸(例如溴化或碘化氨基酸)有助于提高蛋白质的x-射线晶体三维结构解析(例如本文所述)。在本发明的一方面,组合物包含至少一种含有至少一个,例如至少两个、至少三个、至少四个、至少五个、至少六个、至少七个、至少八个、至少九个或至少十个或更多非天然氨基酸如含重原子的氨基酸和/或非天然氨基酸的蛋白质。非天然氨基酸可以相同或不同,例如蛋白质中可以在1、2、3、4、5、6、7、8、9或10个或更多不同的位点上含有1、2、3、4、5、6、7、8、9或10个或更多不同的非天然氨基酸。在另一方面,组合物包含蛋白质,该蛋白质中某特定氨基酸至少其一但非全部被含重原子的氨基酸取代。就含有一个以上非天然氨基酸的给定蛋白质而言,这些非天然氨基酸可以相同或不同(例如,蛋白质可包含两种或两种以上不同类型的非天然氨基酸,或者可包含两个相同的非天然氨基酸)。就含有两个以上非天然氨基酸的蛋白质而言,这些非天然氨基酸可以相同、不同或是多个同一类型的非天然氨基酸与至少一个不同的非天然氨基酸的组合。采用本文的组合物和方法可制备基本上任何含有非天然氨基酸的蛋白质(或其一部分),或编码多种不同非天然氨基酸(与任何相异的编码核酸,例如含有一个以上选择密码子的核酸)。未鉴定成百上千的已知蛋白质,可修饰它们中的任一种使之含有一个以上非天然氨基酸,例如通过改进任何可用的突变方法以在相关翻译系统中包含一个以上合适的选择密码子。已知蛋白质的共有序列库包括GenBankEMBL、DDBJ和NCBI。通过检索internet不难鉴定其它库。这些蛋白质一般与任何可用的蛋白质(例如,治疗蛋白、诊断蛋白、工业用酶或其一部分等)有,例如至少60%、至少70%、至少75%、至少80%、至少90%、至少95%或至少99%或更高相同度,但这些蛋白质含有一个或一个以上非天然氨基酸。基本上,可修饰任何对其结构感兴趣的蛋白质使之包含含重原子的氨基酸。可经修饰包含一个或一个以上含重原子的氨基酸的治疗、诊断和其它蛋白质的例子见,但不限于2004年4月16日提交的名为“扩增真核生物遗传密码”(ExpandingtheEukaryoticGeneticCode)的国际申请号PCT/US2004/011786和名为“非天然氨基酸的体内掺入”(Invivoincorporationofunnaturalaminoacids)的WO2002/085923。可经修饰包含一个以上或一个以上含重原子的氨基酸的治疗、诊断和其它蛋白质的例子包括但不限于例如α-1抗胰蛋白酶、血管生成抑制素、抗溶血因子(Antihemolyticfactor)、抗体(详见后文)、载脂蛋白、脱辅蛋白、心房利钠因子、心房利钠肽、心房肽(Atrialpeptides)、C-X-C趋化因子(如T39765、NAP-2、ENA-78、Gro-a、Gro-b、Gro-c、IP-10、GCP-2、NAP-4、SDF-1、PF4、MIG)、降钙素、CC趋化因子(如单核细胞趋化蛋白-1、单核细胞趋化蛋白-2、单核细胞趋化蛋白-3、单核细胞炎性蛋白-1α、单核细胞炎性蛋白-1β、RANTES、1309、R83915、R91733、HCC1、T58847、D31065、T64262)、CD40配体、C-kit配体、胶原、集落刺激因子(CSF)、补体因子5a、补体抑制剂、补体受体1、细胞因子(如,上皮嗜中性活化肽-78(epithelialNeutrophilActivatingPeptide-78)、GROα/MGSA、GROβ、GROγ、MIP-1α、MIP-1δ、MCP-1)、表皮生长因子(EGF)、促红细胞生成素(“EPO”)、剥落性毒素A和B、因子IX、因子VII、因子VII、因子X、成纤维细胞生长因子(FGF)、血纤蛋白原、纤连蛋白、G-CSF、GM-CSF、葡糖脑苷脂酶、促性腺激素、生长因子、Hedgehog蛋白(如Sonic,Indian,Desert)、血红蛋白、肝细胞生长因子(HGF)、水蛭素、人血清白蛋白、胰岛素、胰岛素样生长因子(IGF)、干扰素(如,IFN-α、IFN-β、IFN-γ)、白介素(如,IL-1、IL-2、IL-3、IL-4、IL-5、IL-6、IL-7、IL-8、IL-9、IL-10、IL-11、IL-12等)、角质形成细胞生长因子(KGF)、乳铁蛋白、白血病抑制因子、萤光素酶、神经营养因子(Neurturin)、嗜中性白细胞抑制因子(NIF)、抑瘤蛋白M、成骨蛋白、甲状腺激素、PD-ECSF、PDGF、肽激素(如、人生长激素)、多效营养因子、A蛋白、G蛋白、热源性外毒素A、B和C、松弛素、肾素、SCF、可溶性补体受体I、可溶性I-CAM1、可溶性白介素受体(IL-1、2、3、4、5、6、7、9、10、11、12、13、14、15)、可溶性TNF受体、生长调节素、促生长素抑制剂、促生长素、链激酶、超抗原,即葡萄球菌肠毒素(SEA、SEB、SEC1、SEC2、SEC3、SED、SEE)、超氧化物岐化酶(SOD)、中毒性休克综合征毒素(TSST-1)、胸腺素α1、组织纤溶酶原激活物、肿瘤坏死因子β(TNFβ)、肿瘤坏死因子受体(TNFR)、肿瘤坏死因子-α(TNFα)、血管内皮生长因子(VEGEF)、尿激酶和许多其它蛋白。可采用本文所述组合物和方法制备而在体内掺入含重原子氨基酸的一类蛋白质包括转录调节剂或其一部分。示例性转录调节剂包括调节细胞生长、分化、调控等基因和转录调节剂蛋白。转录调节剂存在于原核生物、病毒和真核生物(包括真菌、酵母菌)、昆虫和动物(包括哺乳动物)中,提供了广泛的治疗靶点。应该理解表达和转录激活物通过许多机制调控转录,例如通过与受体相结合、刺激信号转导级联反应、调控转录因子的表达、与启动子和增强子相结合、与结合启动子和增强子的蛋白质相结合、DNA解链、前-mRNA剪接、RNA聚腺苷酸化和RNA降解。本发明的一类蛋白质(例如,含有一个或一个以上重原子氨基酸的蛋白质)包括细胞因子,炎性分子,生长因子,它们的受体和癌症基因产物,例如白介素(如IL-1、IL-2、IL-8等)、干扰素、FGF、IGF-I、IGF-II、FGF、PDGF、TNF、TGF-α、TGF-β、EGF、KGF、SCF/c-Kit、CD40L/CD40、VLA-4/VCAM-1、ICAM-1/LFA-1和hyalurin/CD44;信号转导分子和相应的癌基因产物,例如Mos、Ras、Raf和Met;转录激活物和抑制剂,例如p53、Tat、Fos、Myc、Jun、Myb、Rel和类固醇激素受体,例如雌激素、孕酮、睾酮、醛甾酮的受体,LDL受体配体和皮质酮。本发明也提供了含有至少一个含重原子的氨基酸的酶(例如工业用酶)。酶的例子包括但不限于酰胺酶、氨基酸消旋酶、酰基转移酶、脱卤酶、双加氧酶、二芳基丙烷过氧化物酶(diarylpropaneperoxidases)、差向异构酶、环氧化物水解酶、酯酶、异构酶、激酶、葡糖异构酶、糖苷酶、糖基转移酶、卤素过氧化物酶(haloperoxidases)、单加氧酶(例如p450s)、脂酶、木质素过氧化物酶、腈水合酶、腈水解酶、蛋白酶、磷酸酶、枯草杆菌蛋白酶、转氨酶与核酶。许多这些蛋白质可购得(参见,例如SigmaBioSciences2004目录和价目表),相应的蛋白质序列和基因及其许多变体是熟知的(参见,例如Genbank)。可通过插入一个以上本发明的含重原子的氨基酸或其它非天然氨基酸来修饰任何这些蛋白,从而(例如)有助于测定这些蛋白质的结构。也可修饰许多其它蛋白质使之包含一个以上含重原子的氨基酸。例如,本发明可包括用含重原子的氨基酸取代一种或多种疫苗蛋白质中的一个或多个天然氨基酸,例如以下来源的蛋白质感染性真菌,如曲霉(Aspergillus)、假丝酵母(Candida)种;细菌,特别是用作病原性细菌模型的大肠杆菌,以及医学上重要的其他细菌,如葡萄球菌属(Staphylococci)(如,金黄色葡萄球菌)或链球菌属(Streptococci)(如,肺炎链球菌);原生动物,如孢子纲(如,疟原虫(Plasmodia))、根足虫(rhizopods)(如,内变形虫(Entamoeba))和鞭毛虫类(锥虫(Trypanosoma)、利什曼原虫(Leishmania)、毛滴虫(Trichomonas)、贾第虫(Giardia)等);病毒,如(+)RNA病毒(例子包括痘病毒,如痘苗病毒(vaccinia);小RNA病毒,如脊髓灰质炎病毒(polio);披膜病毒,如风疹病毒(rubella);热病毒(Flaviviruses),如HCV;和冠状病毒)、(-)RNA病毒(如VSV等弹状病毒如;副粘病毒,如RSV;正粘病毒,如流感病毒;布尼亚病毒和嵌沙样病毒)、dsDNA病毒(如呼肠孤病毒)、RNA到DNA的病毒,即逆转录病毒,如HIV和HTLV和某些DNA到RNA的病毒,如乙肝病毒。农业相关的蛋白也是含重原子的氨基酸或其它非天然氨基酸修饰的合适对象,例如抗虫蛋白(如Cry蛋白)、淀粉和脂质产生酶、植物和昆虫毒素、毒素耐受性蛋白、真菌毒素解毒蛋白、植物生长酶(如核酮糖1,5-二磷酸羧化酶/加氧酶,“RUBISCO”)、脂氧合酶(LOX)和磷酸烯醇式丙酮酸(PEP)羧化酶。在某些实施方案中,本发明方法和/或组合物中感兴趣的蛋白质或多肽(或其一部分)由核酸编码。核酸一般含有至少一个、至少两个、至少三个、至少四个、至少五个、至少六个、至少七个、至少八个、至少九个、十个或更多选择者密码子。可采用本领域技术人员熟知和本文在“诱变与其它分子生物学技术”中所述的方法诱变编码感兴趣蛋白质或多肽的基因,使之含有(例如)一个或一个以上选择密码子来掺入含重原子的氨基酸。例如,可诱变感兴趣蛋白质的核酸,使之含有一个或多个选择密码子来插入一个或多个含重原子的氨基酸。本发明包括任何蛋白质如上所述的变异(例如突变)形式,例如掺入了至少一个含重原子氨基酸。类似地,本发明也包括相应的核酸,即任何具有一个或多个编码一个或多个含重原子氨基酸的选择者密码子的核酸。为制备包含含重原子氨基酸的蛋白质,可利用适合于在体内由正交tRNA/RS配对掺入含重原子的氨基酸的宿主细胞和生物。可用一个或多个表达正交tRNA、正交tRNA合成酶的载体和编码待衍生的蛋白质的载体来遗传改造(例如转化、转导或转染)宿主细胞。各组分可以位于同一载体上,或各位于不同载体上,或者可以两个组分位于一个载体上而第三组分位于第二载体上。载体可以是例如质粒、细菌、裸多核苷酸或偶联的多核苷酸形式。通过免疫反应性确定多肽因为本发明的多肽提供了许多新的多肽序列(例如,在本发明翻译系统中合成的包含重原子氨基酸的蛋白质,或者,若就新的合成酶而言,则是标准氨基酸的新序列),这些多肽也提供了可在例如免疫学试验等方法中识别的新结构特征。产生与本发明多肽特异性结合的抗血清以及与这种血清结合的多肽是本发明的特征之一。本文所用的术语“抗体”包括但不限于基本上由一个或多个免疫球蛋白基因编码,并特异性结合并识别分析物(抗原)的多肽或其片段。例子包括多克隆、单克隆、嵌合型和单链抗体等。本文所用的术语“抗体”还包括免疫球蛋白片段,包括Fab片段和由表达文库(包括噬菌体文库)产生的片段。抗体的结构与术语可参见,例如Paul,(1999),《基础免疫学》(FundamentalImmunology),第四版,RavenPress,NewYork。为产生用于免疫学试验的抗血清,根据本文所述产生并纯化一种或多种免疫原性多肽。例如,可在重组细胞中产生重组蛋白。采用标准小鼠免疫方案,用免疫原性蛋白和标准佐剂(如弗氏佐剂)来免疫小鼠的近交品系(因此类小鼠的实际遗传相同性使得实验结果较高的重现性而被该试验所选用)(用于测定特异性免疫反应性的抗体产生、免疫学试验形式和条件的标准说明可参见,例如Harlow和Lane,(1988),《抗体,实验室手册》(Antibodies,ALaboratoryManual),ColdSpringHarborPublications,NewYork)。蛋白质、抗体、抗血清等的其它细节可见名为“扩增真核生物遗传密码”(ExpandingtheEukaryoticGeneticCode)的USSN60/479,931,60/463,869和60/496,548;名为“非天然氨基酸的体内掺入”(Invivoincorporationofunnaturalaminoacids)的WO2002/085923;2003年1月16日条件的名为“糖蛋白合成”(Glycoproteinsynthesis)的专利申请USSN60/441,450和2003年12月22日体积的名为“蛋白质试验”(ProteinArrays)的国际申请号PCT/US03/41346。O-tRNA、O-RS和O-tRNA/O-RS配对物的应用本发明的组合物与本发明方法制备的组合物可任选地包含在细胞中。这样,宿主系统的翻译机制可利用本发明的O-tRNA/O-RS配对或单独各组分将含有重原子的氨基酸掺入蛋白质。Schultz等的专利申请“非天然氨基酸的体内掺入”(Invivoincorporationofunnaturalaminoacids),WO2002/085923描述了该方法,该文献纳入本文作为参考。例如,当将O-tRNA/O-RS配对引入宿主例如大肠杆菌时,该配对可响应选择密码子例如琥珀无义密码子将可外源性加入生长培养基的含重原子的氨基酸掺入蛋白质例如任何对其结构感兴趣的蛋白质。本发明的组合物可任选地包处于体外翻译系统或体内系统中。可利用具有含重原子的氨基酸的蛋白质来协助研究蛋白质结构、功能等。试剂盒试剂盒也是本发明的特征之一。例如,本发明提供了产生在特定位置具有溴化或碘化氨基酸的蛋白质的试剂盒,该试剂盒包括装在一个或多个容器内的细胞,所述细胞含有可在相应细胞中起作用并识别选择密码子的正交tRNA与正交氨酰基-tRNA合成酶。正交氨酰基-tRNA合成酶含有的氨基酸序列与天然存在的酪氨酰氨酰基-tRNA合成酶(TyrRS)至少90%相同,并含有两个或两个以上(例如,至少三个、至少四个或五个)选自以下的氨基酸在对应于詹氏甲烷球菌TyrRS的Tyr32位置的亮氨酸、在对应于詹氏甲烷球菌TyrRS的Glu107位置的丝氨酸或谷氨酸、在对应于詹氏甲烷球菌TyrRS的Asp158位置的脯氨酸、在对应于詹氏甲烷球菌TyrRS的Ile159位置的亮氨酸或精氨酸和在对应于詹氏甲烷球菌TyrRS的Leu162位置的谷氨酸或精氨酸。例如,O-RS可含有SEQIDNO3或4的氨基酸序列或其保守性变体。在一类实施方案中,该试剂盒还包含溴化或碘化的氨基酸(例如溴代Phe或碘代Phe)。在另一类实施方案中,该试剂盒还包含制备蛋白质的使用说明材料、合适的细胞生长培养基、将编码感兴趣的蛋白质并含有选择密码子的靶核酸引入细胞的试剂等等。为以试剂盒形式生产,还可将本发明的任何组合物、系统或装置与合适的包装材料(例如容器等)结合。测定蛋白质结构如上所述,将含有重原子的氨基酸(例如,碘代Phe或溴代Phe)位点特异性、有效地掺入蛋白质有助于通过x-射线晶体学解析蛋白质结构。用重原子衍生蛋白质是例如通过多重同晶置换(MIR)、单同晶置换(SIR)、多波长反常色散(MAD)或单波长反常色散(SAD)方法来定相所常规使用的。采用例如本发明方法与组合物的位点特异性掺入重原子可灵活选择衍生位点和重原子的类型与数目。采用本发明方法与组合物掺入重原子可用于协助测定基本上任何蛋白质的结构,但对于甲硫氨酸含量低而难于掺入甲硫氨酸硒的蛋白质,对于用其它方法测定原始相无法获得满意结果的蛋白质,或在没有同步加速器时特别有利。因此,一类主要实施方案提供了测定蛋白质结构的方法。在这些方法中,在包含正交tRNA和择优利用含重原子氨基酸氨酰化该正交tRNA的正交氨酰基-tRNA合成酶的翻译系统中表达蛋白质来提供在特定位置具有含重原子氨基酸的蛋白质。使包含重原子氨基酸的蛋白质结晶,从而产生含有重原子的蛋白质晶体。收集含有重原子氨基酸的蛋白质晶体的衍射数据,用于通过例如MIR、SIR、MAD、SAD或它们的组合来测定结构。例如,在一类优选的实施方案中,采用SAD取相。在该类实施方案中,通过包括以下步骤的方法来测定蛋白质的结构收集含有重原子的蛋白质晶体的单波长衍射数据,检测Friedel配子之间因晶体中存在重原子所致的反常差异。简言之,衍射数据收集包括检测一种或多种蛋白质晶体被x-射线束照射所产生的大量反射强度。用指数h、k和l标记每一反射。Friedel配对(记为h、k、l和-h、-k、-l的反射对)的强度一般相同。然而,当蛋白质晶体中存在重原子,且所用x-射线的波长接近该重原子的吸收边缘时,重原子的反常散射导致某些Friedel配对之间出现强度差异。用这些反常差异推定相,再结合测得的强度可推算出电子密度图,从而确立蛋白质结构模型。蛋白质可以在体内或体外翻译系统中表达,例如本文所述的那些。在某些实施方案中,正交氨酰基-tRNA合成酶含有SEQIDNO3或4的氨基酸序列或其保守性变体。类似地,正交-tRNA可含有SEQIDNO5的多核苷酸或其保守性变体。含有重原子的氨基酸基本上可以是本文所述的任何氨基酸。例如,含有重原子的氨基酸可以是溴化或碘化的氨基酸,如L-2-碘代苯丙氨酸、L-3-碘代苯丙氨酸、L-2-碘代酪氨酸、L-3-碘代酪氨酸、L-2-溴代苯丙氨酸、L-3-溴代苯丙氨酸、L-2-溴代酪氨酸或L-3-溴代酪氨酸。在一类优选的实施方案中,溴化或碘化氨基酸是L-4-溴代苯丙氨酸或L-4-碘代苯丙氨酸。收集衍射数据的波长基本上可以是任何方便的波长。例如,可利用装有铜阳极的室内(in-house)发生器方便地在1.5418的CuKα波长处收集数据。值得注意的是,作为用于该波长的重原子,碘优于溴,因为在此波长溴的反常信号可忽略不计。或者,或此外,可以在同步加速器或其它可调光源的任意波长收集数据。例如,收集数据所选的波长应可以是尽可能放大掺入蛋白质的具体重原子的反常信号,尽可能降低辐射对蛋白质晶体的损伤和/或处于其他考虑的波长。另一类实施方案采用MAD取相。在该类实施方案中,通过包括以下步骤的方法测定蛋白质结构收集含有重原子的蛋白质晶体在两种或两种以上波长的衍射数据,检测在不同波长处收集的数据之间的色散差异。例如,用同步加速器作为辐射源,可以在两种波长收集数据,如在重原子吸收曲线的拐点和某个远离吸收边缘的波长。结构测定技术,例如通过SAD、MIR和MAD取相是熟知的。参见,例如Stout和Jensen,(1989),《X-射线结构测定实用指南》(X-raystructuredeterminationapracticalguide),第二版,WileyPublishers,NewYork;Ladd和Palmer,(1993),《X-射线晶体学的结构测定》(StructuredeterminationbyX-raycrystallography),第三版,PlenumPress,NewYork;Blundell和Johnson,(1976),《蛋白质晶体学》(ProteinCrystallography),科学出版社,纽约;Glusker和Trueblood,(1985),《晶体结构分析入门》(CrystalstructureanalysisAprimer),第二版,牛津大学出版社,纽约;晶体学国际表(InternationalTablesforCrystallography),F卷,《生物大分子晶体学》(CrystallographyofBiologicalMacromolecules);McPherson,(2002),《生物大分子晶体学引言》(IntroductiontoMacromolecularCrystallography),Wiley-Liss;McRee和David,(1999),《实用蛋白质晶体学》(PracticalProteinCrystallography),第二版,科学出版社;Drenth,(1999),《蛋白质X-射线晶体学原理》(PrinciplesofProteinX-RayCrystallography),(SpringerAdvancedTextsinChemistry),Springer-Verlag。MAD取相也概述在,例如Fanchon和Hendrickson,(1991),《晶体学计算》(CrystallographicComputing)第15章,第五卷,IUCr/牛津大学出版社和Murthy,(1996),《晶体学方法和方案》(CrystallographicMethodsandProtocols),第五章,HumanaPress。SAD取相的其它例子描述于本文的实施例和例如,Dauter等,(2000),《蛋白质取相的新方法用卤化物短时低温浸渍衍生》(Novelapproachtophasingproteinsderivatizationbyshortcryo-soakingwithhalides),ActaCryst.D56232-237;Dauter,(2002),《高通量取相新方法》(Newapproachestohigh-throughputphasing),Curr.Opin.StructuralBiol.,12674-678;Chen等,(1991),《从所掺入的碘原子的单波长反常散射信号测定2.8处牛神经垂体素运载蛋白-II二肽复合物的晶体结构》(Crystalstructureofabovineneurophysin-IIdipeptidecomplexat2.8determinedfromthesingle-wavelengthanomalousscatteringsignalofanincorporatediodineatom),Proc.NatlAcad.Sci.USA,884240-4244和Gavira等,(2002),《无需处理晶体的从蛋白质到电子密度的胰岛素晶体学结构从头测定》(Abinitiocrystallographicstructuredeterminationofinsulinfromproteintoelectrondensitywithoutcrystalhandling),ActaCryst.D581147-1154。此外,有助于数据收集、定相、模型建立和改良等的许多程序是向公众开放的。例如但不限于HKL2000软件包(Otwinowski和Minor,(1997),“以振荡模式收集X-射线衍生数据的方法”(ProcessingofX-rayDiffractionDataCollectedinOscillationMode),MethodsinEnzymology,276307-326)、CCP4软件包(CollaborativeComputationalProject,(1994),“CCP4组用于蛋白质晶体学的程序”(TheCCP4suiteprogramsforproteincrystallography),ActaCrystallogrD,50760-763)、SOLVEandRESOLVE(Terwilliger和Berendzen,(1999),ActaCrystallogrD,55(第4部分)849-861)、SHELXSandSHELXD(Schneider和Sheldrick,(2002),“利用SHELXD的亚结构分辨”(SubstructuresolutionwithSHELXD),ActaCrystallogrDBiolCrystallogr,581772-1779)、Refmac5(Murshudov等,(1997),《通过最大可能性的方法改善大分子结构》(RefinementofMacromolecularStructuresbytheMaximum-LikelihoodMethod),ActaCrystallogrD53240-255)和O(Jones等,(1991),《在电子密度图中建立蛋白质模型的改进方法与这些模型中错误的位置》(Improvedmethodsforbuildingproteinmodelsinelectrondensitymapsandthelocationoferrorsinthesemodels),ActaCrystallogrA,47(第二部分)110-119)。蛋白质在结晶前一般采用本领域熟知的许多方法从例如天然来源、体外翻译系统、过量表达感兴趣蛋白质(参见,例如Ausubel、Sambrook和Berger,均同上)的细胞(例如细菌、酵母菌等)等纯化,所述方法例如硫酸铵或乙醇沉淀、离心、酸或碱提取、柱层析、亲和柱层析、阴阳离子交换层析、磷酸纤维素层析、高效液相层析(HPLC)、凝胶过滤、疏水相互作用层析、羟基磷灰石层析、凝集素层析、凝胶电泳等。在本文提及的参考文献之外,还有许多已知的蛋白质纯化方法,例如以下文献中所述的R.Scopes,(1982),《蛋白质纯化》(ProteinPurification),Springer-Verlag,N.Y.;Deutscher,(1990),《酶学方法第182卷蛋白质纯化指南》(MethodsinEnzymologyVol.182GuidetoProteinPurification),AcademicPress,Inc.,N.Y.;Sandana,(1997),《蛋白质的生物分离》(BioseparationofProteins),AcademicPress,Inc.;Bollag等,(1996),《蛋白质方法》(ProteinMethods),第二版,Wiley-Liss,NY;Walker(1996),《蛋白质方法手册》(TheProteinProtocolsHandbook),HumanaPress,NJ;Harris和Angal,(1990),《蛋白质纯化应用实用方法》(ProteinPurificationApplicationsAPracticalApproach),IRLPressatOxford,Oxford,England;Harris和Angal,《蛋白质纯化方法实用方法》(ProteinPurificationMethodsAPracticalApproach),IRLPressatOxford,Oxford,England;Scopes,(1993),《蛋白质纯化原理和实施》(ProteinPurificationPrinciplesandPractice),第三版,SpringerVerlag,NY;Janson和Ryden,(1998),《蛋白质纯化原理、高分辨率方法和应用》(ProteinPurificationPrinciples,HighResolutionMethodsandApplications),第二版,Wiley-VCH,NY;和Walker,(1998),《光盘版蛋白质方法》(ProteinProtocolsonCD-ROM),HumanaPress,NJ;和本文所引用的参考文献。当蛋白质在细胞内合成、分离或纯化期间变性时,可根据需要采用已知的蛋白质重折叠技术来获得蛋白质的活性构象。蛋白质还原、变性和复性的方法是本领域技术人员所熟知的(参见以上参考文献和Debinski等,(1993),J.Biol.Chem.,26814065-14070;Kreitman和Pastan,(1993),Bioconjug.Chem.,4581-585;和Buchner等,(1992),Anal.Biochem.,205263-270)。可将编码多肽的核苷酸序列与编码有助于多肽纯化和/或有助于融合多肽与颗粒、固体支持物或另一种试剂结合的模块(例如结构域或标签)的序列在读框内融合。这种模块包括但不限于金属螯合肽,例如便于纯化和/或与固定的金属结合的组氨酸-色氨酸模块(例如,六组氨酸标签)、与谷胱甘肽结合的序列(例如,GST)、血凝素(HA)标签(对应于源自流过血凝素蛋白的表位;Wilson,I.等,(1984),Cell,37767)、麦芽糖结合蛋白序列、FLAGS延伸/亲和纯化系统所用的FLAG表位(ImmunexCorp,Seattle,WA)等。可在纯化结构域和本发明序列之间包含蛋白酶可切割的多肽接头,以便在多肽纯化之后或期间除去该模块。可采用本领域已知的技术来凭经验确定获得衍射质量晶体的蛋白质结晶条件。参见,例如McPherson,(1999),《生物大分子结晶》(CrystallizationofBiologicalMacromolecules),冷泉港实验室;Bergfors,(1999),《蛋白质结晶》(ProteinCrystallization),InternationalUniversityLine和Mullin,(1993),《结晶》(Crystallization),Butterwoth-Heinemann。实施例应理解本文所述的实施例和实施方案只是出于说明性目的,它们对本领域技术人员作出各种改进或改变有提示作用,这些改进或改变应包括于本申请的构思和权限内。因此,提供以下实施例只是说明性,而非要限制所述发明。实施例1正交合成酶/tRNA配对物的产生为响应于琥珀TAG密码子而将碘代Phe(图1中的A图)选择性地掺入蛋白质,构建并采用了詹氏甲烷球菌的tRNACUATyr-TyrRS配对。该tRNA-合成酶配对与大肠杆菌中所有tRNA-合成酶配对成正交关系,即詹氏甲烷球菌的酪氨酰tRNA或合成酶均不与大肠杆菌的任何内源性tRNA或合成酶交叉反应。这确保碘代Phe可以高度翻译保真度掺入蛋白质。为改变TyrRS合成酶的特异性使其选择性识别碘代Phe,根据同源的嗜热脂肪芽孢杆菌TyrRS-酪氨酰腺苷酸复合物的晶体结构(Brick等,(1989),“以2.3A分辨率精制的酪氨酰-tRNA合成酶的结构。酶与酪氨酰腺苷酸中间体的相互作用”(Structureoftyrosyl-tRNAsynthetaserefinedat2.3Aresolution.Interactionoftheenzymewiththetyrosyladenylateintermediate.),JMolBiol,20883-98),通过随机突变TyrRS的酪氨酸结合袋中的5个残基(Tyr32、Glu107、Asp158、Ile159和Leu162)建立了詹氏甲烷球菌TyrRS突变体文库(图1中的B图)。然后对突变型TyrRS文库交替进行阳性和阴性选择。阳性选择基于在有碘代Phe和正交詹氏甲烷球菌酪氨酰基tRNA-合成酶配对存在下对I型氯霉素乙酰转移酶(CAT)基因中许可位点(Asp112)处琥珀突变的抑制。阴性选择基于在没有碘代Phe存在下对毒性芽孢杆菌RNA酶基因中许可位点(Gln2、Asp44和Gly65)处琥珀突变的抑制。只有能响应于琥珀密码子有效地仅掺入碘代Phe且非内源性氨基酸的合成酶才能在两种选择压力下“存活”。五轮阳性和阴性交替选择后,鉴定到一种在有碘代Phe存在时可在120μg/mL氯霉素中“存活”,但在无碘代Phe存在时在20μg/mL氯霉素中“死亡”的合成酶。当在有碘代Phe存在时用突变型合成酶抑制Z-结构域蛋白(具有C-末端His6标签)的Tyr7→TAG突变时(Wang等,(2003),“向大肠杆菌的乙醇密码中加入酮基官能团”(AdditionoftheketofunctionalgrouptothegeneticcodeofEscherichiacoli),ProcNatlAcadSciUSA,10056-61),产生了全长蛋白质(图1中的C图)。在没有碘代Phe和突变型合成酶存在时,SDS-PAGE凝胶电泳银染色未检测到有Z-结构域蛋白(图1中的C图)。通过电喷雾离子化傅利叶转化离子回旋加速共振质谱(FT-ICRMS)进一步证实选择性地掺入了碘代Phe。就碘代Phe取代的缺失第一甲硫氨酸的Z-结构域蛋白质而言,算得的与测得的单一同位素质量分别是7902.720Da和7902.728Da。在基本培养基中碘代Phe-取代-Z-结构域蛋白的产量是3.8mg/L。为进行比较,当表达的是野生型詹氏甲烷球菌TyrRS而非突变型TyrRS时(掺入蛋白质的是酪氨酸),Z-结构域蛋白的产量是4.6mg/L。碘代Phe同源性合成酶(SEQIDNO3,相应的核苷酸序列是SEQIDNO1;图4中的A图)具有以下突变Tyr32Leu、Glu107Ser、Asp158Pro、Ile159Leu和Leu162Glu。Tyr32→Leu32和Asp158→Pro158的突变可由酪氨酸的羟基破坏氢键而产生可容纳碘代Phe的疏水性袋。从这些结果我们可得出结论可在大肠杆菌中将碘代Phe定点且定量地掺入蛋白质。值得注意的是,该碘代Phe特异性合成酶(序列表中SEQIDNO3所示)也可特异性地使O-tRNA(图5)带上溴代Phe。特异性地使O-tRNA带上碘代Phe或溴代Phe的另一合成酶的序列见图4中的B图和序列表中SEQIDNO4(相应的核苷酸序列是SEQIDNO2)。实施例2碘代Phe使得可进行SAD取相可利用实施例1所述的合成酶响应于琥珀TAG密码子来有效且位点特异性地将p-碘代-L-苯丙氨酸(iodoPhe)掺入蛋白质。选择性地将反常散射性碘原子掺入蛋白质可有助于用室内(in-house)X-射线源进行SAD实验。为说明该情况,制备了细菌噬菌体T4溶菌酶的Phe153→碘代Phe突变体,并用远少于半胱氨酸和甲硫氨酸同等实验所需的数据成功测定了其晶体结构。虽然碘代Phe残基存在于蛋白质的疏水核心,但其并不明显干扰蛋白质的结构。能选择性地将这种或其它含有重原子的氨基酸引入蛋白质将进一步有助于研究蛋白质的结构。为确定掺入碘代Phe对蛋白质晶体学中SAD定相的可用性,将细菌噬菌体T4溶菌酶作为模型系统。如以前所报道的,将T4溶菌酶的Cys54和Cys97突变为Thr和Ala以提高蛋白质的稳定性(Eriksson等,(1993),“T4溶菌酶核心内Leu99和Phe153的相似疏水性取代具有不同的结构与热力学结果”(SimilarhydrophobicreplacementsofLeu99andPhe153withinthecoreofT4lysozymehavedifferentstructuralandthermodynamicconsequences),JMolBio-,229747-769)。将对应于T4溶菌酶的Phe153(T4溶菌酶大叶的疏水核心中的残基)的密码子突变为TAG。然后用经改进的正交合成酶-tRNA配对在大肠杆菌中用碘代Phe来抑制琥珀密码子。通过阳离子交换层析和大小排阻层析纯化所表达的突变型T4溶菌酶。在基本培养基中,纯化后的产量是5.7mg/L。晶体的生长条件与以前报道的T4溶菌酶及其变体的条件相同(Eriksson等,(1993),“T4溶菌酶核心内Leu99和Phe153的相似疏水性取代具有不同的结构与热力学结果”(SimilarhydrophobicreplacementsofLeu99andPhe153withinthecoreofT4lysozymehavedifferentstructuralandthermodynamicconsequences),JMolBiol,229747-769)。根据用室内X-射线发生器上收集的CuKα波长(1.5418)数据来确定T4溶菌酶的结构。在100°K共收集了360°的数据,使最大分辨率达到2.0,未收集同一图像上或近似时间的Friedel偶。然后,为获得确定结构所需的最基本数据,将数据组分为表示不同的数据冗余度的6个不同振荡范围(表1)。如预期的那样,掺入碘代Phe替代Phe明显增加了T4溶菌酶的反常信号(δf”)。所有数据组的Bijvoet对(<|ΔF|>/<F>)平均比例约3%(表1,这与Hendrickson和Teeter方法算得的4%非常近似(“从硫的反常散射直接测定疏水性蛋白质花菜蛋白的结构”(Structureofthehydrophobicproteincrambindetermineddirectlyfromtheanomalousscatteringofsulfur),1981,Nature,290107-113)。这与具有1309个原子和7个硫原子的天然T4溶菌酶的算得值0.9%形成反差。能将固定数量的碘放在蛋白质疏水核心内除了可增强信号外还具有明显的其他优势,所述其他技术例如碘浸渍(Dauter等,(2000),“蛋白质取相的新方法用卤素通过短时低温浸湿的衍生化”(Novelapproachtophasingproteinsderivatizationbyshortcryo-soakingwithhalides),ActaCrystallogrD,56(第二部分)232-237和Nagem等,(2001),“牢固引入带负电和带正电的反常散射体的蛋白质晶体结构溶液”(Proteincrystalstructuresolutionbyfastincorporationofnegativelyandpositivelychargedanomalousscatterers),ActaCrystallogrD,57996-1002),在这些技术中,多个低占据率位点可能增加结构解析的难度。先计算Patterson图和反常差异傅立叶图来特征性鉴定反常信号,然后定相。碘原子的自身载体在所有平均冗余度大于4.4(90°)的数据组的Patterson图的Harker部分中都很明显(图2中的A图)。在9.0以上冗余度(180°的数据),其他氯离子的自身峰在3σ水平变得明显,但未见明显的硫载体。从得自T4溶菌酶结构的相位计算的反常差异傅立叶图(PDB密码1L63;Nicholson等,(1991),“利用指定的嗜菌体T4溶菌酶的热稳定突变体分析带电贺侧链和α-螺旋偶极的相互作用”(Analysisoftheinteractionbetweenchargedsidechainsandthealpha-helixdipoleusingdesignedthermostablemutantsofphageT4lysozyme),Biochemistry,309816-9828)显示在所有数据组中不只是碘的,还有蛋白质中所有5个甲硫氨酸中的硫的,3个推定氯离子的和结晶条件下所包含的2-羟乙基二硫化物分子的明显密度(图2中的B图)。当采用SOLVE(TerwilligerandBerendzen(1999)“AutomatedMADandMIRstructuresolution’ActaCrystallogrD55(Pt4)849-861)来测定碘位置并推算初始相时,只有平均冗余度大于6.8(135°的数据)的数据组具有合适的起始相位(图3中的B图)。对应于<ΔF>/<σΔF>为2.6的该冗余度可能接近亚结构测定和相推定所需的绝对基本信号,就该晶架群(spacegroup)(P3221)而言,该冗余度表示略多余两倍的完整天然数据组(60°)所需收集的数据量或反向束实验(inversebeamexperiment)所需的数据量。主要是由于产生了较好的起始相,附加的冗余度和因此所致的反常信号确实使得可以用RESOLVE的自动构建算法实现更快的收敛(convergence)和更多残基的与安置(Terwilliger,(2001),“利用结构基序模式识别的最大可能性密度修饰”(Maximum-likelihooddensitymodificationusingpatternrecognitionofstructuralmotifs),ActaCrystallogrD,571755-1762)(表1)。碘化T4溶菌酶的结构符合典型病毒溶菌酶结构(图3中的A和B图;Nicholson等,(1991),Biochemistry,309816-9828;Weaver和Matthews,(1987),“在1.7A分辨率精确确定细菌噬菌体T4溶菌酶的结构”(StructureofbacteriophageT4lysozymerefinedat1.7Aresolution),JMolBiol,193189-199),一种双叶混合α/β折叠(bi-lobalmixedα/βfold)。该结构的叶1完全是α-螺旋,而叶2由嵌于3个α-螺旋之间的反平行β-片层构成。天然结构与修饰结构之间的唯一差别在于在叶1中心部位的153位掺入了碘代Phe残基(图3中的A图)。如同就疏水核心中残基所做的预计,碘代Phe完全包埋且不与外界溶剂接触(用Tunneller推算)。相对于天然Phe153,碘代Phe只是略微扭曲,x角度相对于天然结构旋转了23°,据推测,是为了容纳大的碘原子(图3中的C图)。相对于天然结构,蛋白质中的所有其它残基基本未变。碘原子周围10球形(范围)内的264个正常原子的根值平均方差(rmsd)是1.08,而这些结构中164个排列好的Cα原子的rmsd为0.282。这连同晶体的同晶性质一起显示,掺入碘原子对结构没有任何程度的干扰(图3中的C图)。总之,这些实施例描述了为SAD定相制备含碘蛋白质的新方法。它通过将碘原子定点且定量地掺入蛋白质而克服了目前方法的局限性。利用T4溶菌酶(一种164个氨基酸残基的蛋白质),单独的碘代Phe取代就足以用室内X-射线源进行SAD定相并利和结构解析。此外,碘原子不干扰蛋白质结构。本发明所需的数据远少于利用硫作为反常散射体的类似实验。因为该方法也可用于响应于选择密码子而将两个或两个以上碘代Phe引入蛋白质,其应用于SAD取相不受限于蛋白质大小。该技术也可用于几乎或完全不含甲硫氨酸残基因而无法用SeMet(硒代甲硫氨酸)衍生方法的蛋白质。最后,本方法也适用于高等生物。实际上,Sakamoto等,(2002),“将非天然氨基酸位点特异地掺入哺乳动物细胞的蛋白质”(Site-specificincorporationofanunnaturalaminoacidintoproteinsinmammaliancells),NucleicAcidsRes,304692-4699和Chin等,(2003),“扩增的真核遗传密码”(Anexpandedeukaryoticgeneticcode),Science,301964-967显示,可在哺乳动物细胞或酵母菌中,响应于选择密码子将3-碘代-L-酪氨酸和p-碘代-L-苯丙氨酸掺入蛋白质。虽然模型蛋白质用正交tRNA系统掺入碘代Phe,本发明不限于利用碘代Phe。本文所述测定蛋白质晶体结构的组合物和方法可利用许多掺入非天然氨基酸的重原子。可将本领域已知适合于该目的的任何重原子掺入非天然氨基酸。此外,为体内合成含有重原子的蛋白质,用于这些组合物和方法的非天然氨基酸不限于苯丙氨酸结构。碘代Phe取代的T4溶菌酶的表达与纯化用质粒pT4L153TAG在噬菌体T5启动子和t0终止子控制下表达不含半胱氨酸的Phel53→TAG突变型T4溶菌酶,和在lpp启动子和rrnC终止子控制下表达tRNACUATyr基因。质粒pBK-iodoPheRS编码位于组成型大肠杆菌GlnRS启动子和终止子控制下的iodoPhe特异的tRNA-氨酰基合成酶。用pT4L153TAG和pBK-IodoPheRS共转化的电感受态BL21(DE3)细胞于37℃生长在补加了50μg/ml卡那霉素、34μg/ml氯霉素和1.0mMp-碘代-L-苯丙氨酸的含1%甘油和0.3mM亮氨酸的基本培养基中(GMML培养基)。当细胞达到OD600为0.5时,加入异丙基-β-D-硫代半乳糖吡喃糖苷至终浓度为1mM以诱导蛋白质表达。细胞于30℃再生长8小时,沉淀并重悬于28mL裂解缓冲液中[30mMTris·HCl,pH7.6,1片Complete(蛋白酶抑制剂混合物片剂,RocheAppliedScience),50mL溶液]。超声处理裂解细胞并再次沉淀。然后将上清液上样于用30mMTris·HCl、pH7.6预平衡的阳离子交换柱(MonoSHR10/10柱,AmershamBiosciences)。利用从0到0.28MNaCl的线性梯度洗脱蛋白质。用SDS-PAGE分析诸峰组分。合并在0.25MNaCl洗脱的各主峰组分,并上样于凝胶过滤柱(Superdex75HR10/30柱,AmershamBiosciences)。利用25mMTris·HCl,100mMNaCl,pH7.6洗脱蛋白质。利用100mMNaH2PO4、0.55MNaCl、pH6.7透析最终纯化的T4溶菌酶,然后浓缩至25mg/ml用于结晶。通过Bradford试验(BCA试剂盒,Biorad)测定蛋白质浓度。碘代Phe取代的T4溶菌酶的结晶采用悬滴蒸气扩散法(hanging-dropvapordiffusionmethod),在类似于就其它T4溶菌酶突变体所述的条件下结晶突变型T4溶菌酶(Eriksson等,(1993),JMolBiol,229747-769)。结晶溶液由2.0-2.2M磷酸钠/磷酸钾含水缓冲液(pH6.7-7.1)和15mM羟乙基二硫化物构成。在倒置于含有0.5ml结晶溶液的容器上的硅烷化盖玻片上混合1微升25mg/ml蛋白质溶液与1μl结晶溶液。晶体在4℃生长两周。将晶体浸渍于冷冻保护剂溶液中(2.3M磷酸钠/磷酸钾缓冲液,0.25MNaCl,25%甘油)并冷冻至100°K,然后收集数据。数据收集于100°K用装有Osmic镜和RAXISIV++成像板系统的标准室内旋转X-射线发生器(Rigaku/MSC)收集1.5418CuKα波长处的数据。晶体放置方向随机,未收集同一图像的Bijvoet偶数据,利用每框5分钟的接触时间收集0.5°振荡的数据,总旋转360°。收集最大分辨率达2.0的数据,并利用HKL2000软件包还原和换算(scaling)(Otwinowski和Minor,(1997),“以振荡模式收集的X-射线衍射数据的处理”(ProcessingofX-rayDiffractionDataCollectedinOscillationMode),MethodsinEnzymology,276307-326)。晶体属于三角晶架群P3221,并与标准T4溶菌酶晶体属同晶型(Nicholson等,(1991),Biochemistry,309816-9828)(表1)。为确定测定亚结构与推测原始相所需的基本数据,将数据分为旋光度(rotation)分别为360、180、145、90、60和45°的6组,统计学情况见表1。利用Mosflm的备选方案计算数据组的最佳完全性(optimumcompleteness)(CollaborativeComputationalProject,(1994),“CCP4集用于蛋白质晶体学的程序”(TheCCP4suiteprogramsforproteincrystallography),ActaCrystallogrD,50760-763)。利用CCP4软件包进行其它晶体学处理(CollaborativeComputationalProject,(1994),ActaCrystallogrD,50760-763)。结构解析与微调(refinement)用标准SAD定相方案(script)和数据的局部换算(localscaling),用SOLVE(Terwilliger和Berendzen,(1999),ActaCrystallogrD,55(第四部分)849-861)进行解析所有亚结构并测定原始相。然后用RESOLVE(Terwilliger和Berendzen,(1999),ActaCrystallogrD,55(第四部分)849-861)以50%溶剂含量进行溶剂展平(solventflattening)和自动构建。用SOLVE无法确定碘位置的三个数据组(45、60、90°),用SHELXS和SHELXD(Schneider和Sheldrick,(2002),“利用SHELXD分辨亚结构”(SubstructuresolutionwithSHELXD),ActaCrystallogrDBiolCrystallogr,581772-1779)也未成功。引用PROGRG(vanAalten等,(1996),“PROGRG,从小分子的坐标产生分子拓扑学和唯一分子描述的程序”(PRODRG,aprogramforgeneratingmoleculartopologiesanduniquemoleculardescriptorsfromcoordinatesofsmallmolecules),JComputAidedMolDes,10255-262)和O(Jones等,(1991),“在电子密度图中构建蛋白质模型的改进方法与这些模型中误差的定位”(Improvedmethodsforbuildingproteinmodelsinelectrondensitymapsandthelocationoferrorsinthesemodels),ActaCrystallogrA,47(第二部分)110-119)产生的p-碘代-L-苯丙氨酸参数文件,用Refmac5(Murshudov等,(1997),“通过最大可能性方法微调大分子结构”(RefinementofMacromolecularStructuresbytheMaximum-LikelihoodMethod),ActaCrystallogrD,53240-255),以30-0和2.0之间数据进行模型的微调和再建。用ARP/WARP软件包(Lamzin和Wilson,(1993),“蛋白质模型的自动微调”(Automatedrefinementofproteinmodels),ActaCrystallogrD,49129-147)进行自动水构建。然后,根据对反常差异Patterson图和水的低B-因子的检查,另加上3个假定被Cl离子取代的3个水分子。此外,如同在反常差异傅利叶(图)和大多数其它T4溶菌酶结构中观察到的那样,再加上2-羟乙基二硫化物部分。最后的模型收敛(convergence)于R晶体0.157和R游离0.207,其立体化学性质优异,所有残基处于Ramachandran图的许可区域内(表1)。所得结构保存于PDB,可以PDB编码1T6H检索到。尽管为明确和理解起见前文描述了本发明的一些细节,本领域技术人员应该理解阅读本文内容可在形式和细节中作出各种改变而不脱离本发明的实际范围。例如,本文所述的所有技术和组合物可以各种组合使用。如同每份出版物、专利、专利申请和/或其它文件出于所有目的单独表示为纳入本文作为参考的程度一样,本申请所引用的所有出版物、专利、专利申请和/或其它文件出于所有目的全文纳入作为参考。表1数据收集统计和模型自动构建的总结R合并=∑|Ii-<Ii>||/∑|Ii|,其中Ii是第i次测量值的换算后强度,<Ii>是该反射的平均强度。Rcryst=∑||Fobs|-|Fcalc||/∑|Fobs|,其中Fcalc和Fobs分别是计算和观察到的结构因子摆幅。R游离=与R晶体一样,但是随机选择且在微调中略去的相当于4.6%总反射的值。序列表序列表<110>斯克利普斯研究院(TheScrippsResearchInstitute)IRM有限公司(IRM,LLC)J.谢(Xie,Jianming)L.王(Wang,Lei)N.吴(Wu,Ning)P.G.舒尔茨(Schultz,PeterG)G.斯普拉格(Spraggon,Glen)<120>将含有重原子的非天然氨基酸位置特异性地引入蛋白质来确定晶体结构<130>54-000920PC<160>9<170>PatentInversion3.2<210>1<211>921<212>DNA<213>人工<220><223>突变型合成酶<400>1atggacgaatttgaaatgataaagagaaacacatctgaaattatcagcgaggaagagtta60agagaggttttaaaaaaagatgaaaaatctgctctgataggttttgaaccaagtggtaaa120atacatttagggcattatctccaaataaaaaagatgattgatttacaaaatgctggattt180gatataattatattgttggctgatttacacgcctatttaaaccagaaaggagagttggat240gagattagaaaaataggagattataacaaaaaagtttttgaagcaatggggttaaaggca300aaatatgtttatggaagttcgttccagcttgataaggattatacactgaatgtctataga360ttggctttaaaaactaccttaaaaagagcaagaaggagtatggaacttatagcaagagag420gatgaaaatccaaaggttgctgaagttatctatccaataatgcaggttaatcctcttcat480tatgagggcgttgatgttgcagttggagggatggagcagagaaaaatacacatgttagca540agggagcttttaccaaaaaaggttgtttgtattcacaaccctgtcttaacgggtttggat600ggagaaggaaagatgagttcttcaaaagggaattttatagctgttgatgactctccagaa660gagattagggctaagataaagaaagcatactgcccagctggagttgttgaaggaaatcca720ataatggagatagctaaatacttccttgaatatcctttaaccataaaaaggccagaaaaa780tttggtggagatttgacagttaatagctatgaggagttagagagtttatttaaaaataag840gaattgcatccaatggatttaaaaaatgctgtagctgaagaacttataaagattttagag900ccaattagaaagagattataa921<210>2<211>921<212>DNA<213>人工<220><223>突变型合成酶<400>2atggacgaatttgaaatgataaagagaaacacatctgaaattatcagcgaggaagagtta60agagaggttttaaaaaaagatgaaaagtctgctctgataggttttgaaccaagtggtaaa120atacatttagggcattatctccaaataaaaaagatgattgatttacaaaatgctggattt180gatataattatattgttggctgatttacacgcctatttaaaccagaaaggagagttggat240gagattagaaaaataggagattataacaaaaaagtttttgaagcaatggggttaaaggca300aaatatgtttatggaagtgaattccagcttgataaggattatacactgaatgtctataga360ttggctttaaaaactaccttaaaaagagcaagaaggagtatggaacttatagcaagagag420gatgaaaatccaaaggttgctgaagttatctatccaataatgcaggttaatcctcgtcat480tatcgtggcgttgatgttgcagttggagggatggagcagagaaaaatacacatgttagca540agggagcttttaccaaaaaaggttgtttgtattcacaaccctgtcttaacgggtttggat600ggagaaggaaagatgagttcttcaaaagggaattttatagctgttgatgactctccagaa660gagattagggctaagataaagaaagcatactgcccagctggagttgttgaaggaaatcca720ataatggagatagctaaatacttccttgaatatcctttaaccataaaaaggccagaaaaa780tttggtggagatttgacagttaatagctatgaggagttagagagtttatttaaaaataag840gaattgcatccaatggatttaaaaaatgctgtagctgaagaacttataaagattttagag900ccaattagaaagagattataa921<210>3<211>306<212>PRT<213>人工<220><223>突变型合成酶<400>3MetAspGluPheGluMetIleLysArgAsnThrSerGluIleIleSer151015GluGluGluLeuArgGluValLeuLysLysAspGluLysSerAlaLeu202530IleGlyPheGluProSerGlyLysIleHisLeuGlyHisTyrLeuGln354045IleLysLysMetIleAspLeuGlnAsnAlaGlyPheAspIleIleIle505560LeuLeuAlaAspLeuHisAlaTyrLeuAsnGlnLysGlyGluLeuAsp65707580GluIleArgLysIleGlyAspTyrAsnLysLysValPheGluAlaMet859095GlyLeuLysAlaLysTyrValTyrGlySerSerPheGlnLeuAspLys100105110AspTyrThrLeuAsnValTyrArgLeuAlaLeuLysThrThrLeuLys115120125ArgAlaArgArgSerMetGluLeuIleAlaArgGluAspGluAsnPro130135140LysValAlaGluValIleTyrProIleMetGlnValAsnProLeuHis145150155160TyrGluGlyValAspValAlaValGlyGlyMetGluGlnArgLysIle165170175HisMetLeuAlaArgGluLeuLeuProLysLysValValCysIleHis180185190AsnProValLeuThrGlyLeuAspGlyGluGlyLysMetSerSerSer195200205LysGlyAsnPheIleAlaValAspAspSerProGluGluIleArgAla210215220LysIleLysLysAlaTyrCysProAlaGlyValValGluGlyAsnPro225230235240IleMetGluIleAlaLysTyrPheLeuGluTyrProLeuThrIleLys245250255ArgProGluLysPheGlyGlyAspLeuThrValAsnSerTyrGluGlu260265270LeuGluSerLeuPheLysAsnLysGluLeuHisProMetAspLeuLys275280285AsnAlaValAlaGluGluLeuIleLysIleLeuGluProIleArgLys290295300ArgLeu305<210>4<211>306<212>PRT<213>人工<220><223>突变型合成酶<400>4MetAspGluPheGluMetIleLysArgAsnThrSerGluIleIleSer151015GluGluGluLeuArgGluValLeuLysLysAspGluLysSerAlaLeu202530IleGlyPheGluProSerGlyLysIleHisLeuGlyHisTyrLeuGln354045IleLysLysMetIleAspLeuGlnAsnAlaGlyPheAspIleIleIle505560LeuLeuAlaAspLeuHisAlaTyrLeuAsnGlnLysGlyGluLeuAsp65707580GluIleArgLysIleGlyAspTyrAsnLysLysValPheGluAlaMet859095GlyLeuLysAlaLysTyrValTyrGlySerGluPheGlnLeuAspLys100105110AspTyrThrLeuAsnValTyrArgLeuAlaLeuLysThrThrLeuLys115120125ArgAlaArgArgSerMetGluLeuIleAlaArgGluAspGluAsnPro130135140LysValAlaGluValIleTyrProIleMetGlnValAsnProArgHis145150155160TyrArgGlyValAspValAlaValGlyGlyMetGluGlnArgLysIle165170175HisMetLeuAlaArgGluLeuLeuProLysLysValValCysIleHis180185190AsnProValLeuThrGlyLeuAspGlyGluGlyLysMetSerSerSer195200205LysGlyAsnPheIleAlaValAspAspSerProGluGluIleArgAla210215220LysIleLysLysAlaTyrCysProAlaGlyValValGluGlyAsnPro225230235240IleMetGluIleAlaLysTyrPheLeuGluTyrProLeuThrIleLys245250255ArgProGluLysPheGlyGlyAspLeuThrValAsnSerTyrGluGlu260265270LeuGluSerLeuPheLysAsnLysGluLeuHisProMetAspLeuLys275280285AsnAlaValAlaGluGluLeuIleLysIleLeuGluProIleArgLys290295300ArgLeu305<210>5<211>74<212>RNA<213>人工<220><223>突变型tRNA<400>5ccggcgguaguucagcagggcagaacggcggacucuaaauccgcauggcgcugguucaaa60uccggcccgccgga74<210>6<211>306<212>PRT<213>人工<220><223>突变型合成酶<400>6MetAspGluPheGluMetIleLysArgAsnThrSerGluIleIleSer151015GluGluGluLeuArgGluValLeuLysLysAspGluLysSerAlaHis202530IleGlyPheGluProSerGlyLysIleHisLeuGlyHisTyrLeuGln354045IleLysLysMetIleAspLeuGlnAsnAlaGlyPheAspIleIleIle505560LeuLeuAlaAspLeuHisAlaTyrLeuAsnGlnLysGlyGluLeuAsp65707580GluIleArgLysIleGlyAspTyrAsnLysLysValPheGluAlaMet859095GlyLeuLysAlaLysTyrValTyrGlySerLysPheGlnLeuAspLys100105110AspTyrThrLeuAsnValTyrArgLeuAlaLeuLysThrThrLeuLys115120125ArgAlaArgArgSerMetGluLeuIleAlaArgGluAspGluAsnPro130135140LysValAlaGluValIleTyrProIleMetGlnValAsnProCysHis145150155160TyrHisGlyValAspValAlaValGlyGlyMetGluGlnArgLysIle165170175HisMetLeuAlaArgGluLeuLeuProLysLysValValCysIleHis180185190AsnProValLeuThrGlyLeuAspGlyGluGlyLysMetSerSerSer195200205LysGlyAsnPheIleAlaValAspAspSerProGluGluIleArgAla210215220LysIleLysLysAlaTyrCysProAlaGlyValValGluGlyAsnPro225230235240IleMetGluIleAlaLysTyrPheLeuGluTyrProLeuThrIleLys245250255ArgProGluLysPheGlyGlyAspLeuThrValAsnSerTyr6luGlu260265270LeuGluSerLeuPheLysAsnLysGluLeuHisProMetAspLeuLys275280285AsnAlaValAlaGluGluLeuIleLysIleLeuGluProIleArgLys290295300ArgLeu305<210>7<211>424<212>PRT<213>人工<220><223>突变型合成酶<400>7MetAlaSerSerAsnLeuIleLysGlnLeuGlnGluArgGlyLeuVal151015AlaGlnValThrAspGluGluAlaLeuAlaGluArgLeuAlaGlnGly202530ProIleAlaLeuValCysGlyPheAspProThrAlaAspSerLeuHis354045LeuGlyHisLeuValProLeuLeuCysLeuLysArgPheGlnGlnAla505560GlyHisLysProValAlaLeuValGlyGlyAlaThrGlyLeuIleGly65707580AspProSerPheLysAlaAlaGluArgLysLeuAsnThrGluGluThr859095ValGlnGluTrpValAspLysIleArgLysGlnValAlaProPheLeu100105110AspPheAspCysGlyGluAsnSerAlaIleAlaAlaAsnAsnTyrAsp115120125TrpPheGlyAsnMetAsnValLeuThrPheLeuArgAspIleGlyLys130135140HisPheSerValAsnGlnMetIleAsnLysGluAlaValLysGlnArg145150155160LeuAsnArgG1uAspGlnGlyIleSerPheThrGluPheSerTyrAsn165170175LeuLeuGlnGlyTyrSerTyrAlaCysLeuAsnLysGlnTyrGlyVal180185190ValLeuGlnIleGlyGlySerAspGlnTrpGlyAsnIleThrSerGly195200205IleAspLeuThrArgArgLeuHisGlnAsnGlnValPheGlyLeuThr210215220ValProLeuIleThrLysAlaAspGlyThrLysPheGlyLysThrGlu225230235240GlyGlyAlaValTrpLeuAspProLysLysThrSerProTyrLysPhe245250255TyrGlnPheTrpIleAsnThrAlaAspAlaAspValTyrArgPheLeu260265270LysPhePheThrPheMetSerIleGluGluIleAsnAlaLeuGluGlu275280285GluAspLysAsnSerGlyLysAlaProArgAlaGlnTyrValLeuAla290295300GluGlnValThrArgLeuValHisGlyGluGluGlyLeuGlnAlaAla305310315320LysArgIleThrGluCysLeuPheSerGlySerLeuSerAlaLeuSer325330335GluAlaAspPheGluGlnLeuAlaGlnAspGlyValProMetValGlu340345350MetGluLysGlyAlaAspLeuMetGlnAlaLeuValAspSerGluLeu355360365GlnProSerArgGlyGlnAlaArgLysThrIleAlaSerAsnAlaIle370375380ThrIleAsnGlyGluLysGlnSetAspProGluTyrPhePheLysGlu385390395400GluAspArgLeuPheGlyArgPheThrLeuLeuArgArgGlyLysLys405410415AsnTyrCysLeuIleCysTrpLys420<210>8<211>424<212>PRT<213>人工<220><223>突变型合成酶<400>8MetAlaSerSerAsnLeuIleLysGlnLeuGlnGluArgGlyLeuVal151015AlaGlnValThrAspGluGluAlaLeuAlaGluArgLeuAlaGlnGly202530ProIleAlaLeuIleCysGlyPheAspProThrAlaAspSerLeuHis354045LeuGlyHisLeuValProLeuLeuCysLeuLysArgPheGlnGlnAla505560GlyHisLysProValAlaLeuValGlyGlyAlaThrGlyLeuIleGly65707580AspProSerPheLysAlaAlaGluArgLysLeuAsnThrGluGluThr859095ValGlnGluTrpValAspLysIleArgLysGlnValAlaProPheLeu100105110AspPheAspCysGlyGluAsnSerAlaIleAlaAlaAsnAsnTyrAsp115120125TrpPheGlyAsnMetAsnValLeuThrPheLeuArgAspIleGlyLys130135140HisPheSerValAsnGlnMetIleAsnLysGluAlaValLysGlnArg145150155160LeuAsnArgGluAspGlnGlyIleSerPheThrGluPheSerTyrAsn165170175LeuLeuGlnGlyTyrSerMetAlaCysLeuAsnLysGlnTyrGlyVal180185190ValLeuGlnIleGlyGlySerAspGlnTrpGlyAsnIleThrSerGly195200205IleAspLeuThrArgArgLeuHisGlnAsnGlnValPheGlyLeuThr210215220ValProLeuIleThrLysAlaAspGlyThrLysPheGlyLysThrGlu225230235240GlyGlyAlaValTrpLeuAspProLysLysThrSerProTyrLysPhe245250255TyrGlnPheTrpIleAsnThrAlaAspAlaAspValTyrArgPheLeu260265270LysPhePheThrPheMetSerIleGluGluIleAsnAlaLeuGluGlu275280285GluAspLysAsnSerGlyLysAlaProArgAlaGlnTyrValLeuAla290295300GluGlnValThrArgLeuValHisGlyGluGluGlyLeuGlnAlaAla305310315320LysArgIleThrGluCysLeuPheSer6lySerLeuSerAlaLeuSer325330335GluAlaAspPheGluGlnLeuAlaGlnAspGlyValProMetValGlu340345350MetGluLysGlyAlaAspLeuMetGlnAlaLeuValAspSerGluLeu355360365GlnProSerArgGlyGlnAlaArgLysThrIleAlaSerAsnAlaIle370375380ThrIleAsnGlyGluLysGlnSerAspProGluTyrPhePheLysGlu385390395400GluAspArgLeuPheGlyArgPheThrLeuLeuArgArgGlyLysLys405410415AsnTyrCysLeuIleCysTrpLys420<210>9<211>424<212>PRT<213>人工<220><223>突变型合成酶<400>9MetAlaSerSerAsnLeuIleLysGlnLeuGlnGluArgGlyLeuVal151015AlaGlnValThrAspGluGluAlaLeuAlaGluArgLeuAlaGlnGly202530ProIleAlaLeuValCysGlyPheAspProThrAlaAspSerLeuHis354045LeuGlyHisLeuValProLeuLeuCysLeuLysArgPheGlnGlnAla505560GlyHisLysProValAlaLeuValGlyGlyAlaThrGlyLeuIleGly65707580AspProSerPheLysAlaAlaGluArgLysLeuAsnThrGluGluThr859095ValGlnGluTrpValAspLysIleArgLysGlnValAlaProPheLeu100105110AspPheAspCysGlyGluAsnSerAlaIleAlaAlaAsnAsnTyrAsp115120125TrpPheGlyAsnMetAsnValLeuThrPheLeuArgAspIleGlyLys130135140HisPheSerValAsnGlnMetIleAsnLysGluAlaValLysGlnArg145150155160LeuAsnArgGluAspGlnGlyIleSerPheThrGluPheSerTyrAsn165170175LeuLeuGlnGlyTyrSerMetAlaCysAlaAsnLysGlnTyrGlyVal180185190ValLeuGlnIleGlyGlySerAspGlnTrpGlyAsnIleThrSerGly195200205IleAspLeuThrArgArgLeuHisGlnAsnGlnValPheGlyLeuThr210215220ValProLeuIleThrLysAlaAspGlyThrLysPheGlyLysThrGlu225230235240GlyGlyAlaValTrpLeuAspProLysLysThrSerProTyrLysPhe245250255TyrGlnPheTrpIleAsnThrAlaAspAlaAspValTyrArgPheLeu260265270LysPhePheThrPheMetSerIleGluGluIleAsnAlaLeuGluGlu275280285GluAspLysAsnSerGlyLysAlaProArgAlaGlnTyrValLeuAla290295300GluGlnValThrArgLeuValHisGlyGluGluGlyLeuGlnAlaAla305310315320LysArgIleThrGluCysLeuPheSerGlySerLeuSerAlaLeuSer325330335GluAlaAspPheGluGlnLeuAlaGlnAspGlyValProMetValGlu340345350MetGluLysGlyAlaAspLeuMetGlnAlaLeuValAspSerGluLeu355360365GlnProSerArgGlyGlnAlaArgLysThrIleAlaSerAsnAlaIle370375380ThrIleAsnGlyGluLysGlnSerAspProGluTyrPhePheLysGlu385390395400GluAspArgLeuPheGlyArgPheThrLeuLeuArgArgGlyLysLys405410415AsnTyrCysLeuIleCysTrpLys420权利要求1.一种包含以下组分的翻译系统a)含有SEQIDNO3或SEQIDNO4所示氨基酸序列的正交氨酰基-tRNA合成酶;b)含有选自SEQIDNO1-2所示多核苷酸序列或其互补序列所编码的氨基酸序列的正交氨酰基-tRNA合成酶;c)所含氨基酸序列与天然酪氨酰氨酰基-tRNA合成酶(TyrRS)至少90%相同并含有两个或两个以上选自以下氨基酸的正交氨酰基-tRNA合成酶i)在对应于詹氏甲烷球菌TyrRS的Tyr32位置的亮氨酸;ii)在对应于詹氏甲烷球菌TyrRS的Glu107位置的丝氨酸或谷氨酸;iii)在对应于詹氏甲烷球菌TyrRS的Asp158位置的脯氨酸;iv)在对应于詹氏甲烷球菌TyrRS的Ile159位置的亮氨酸或精氨酸;和v)在对应于詹氏甲烷球菌TyrRS的Leu162位置的谷氨酸或精氨酸;或d)优先以溴化或碘化氨基酸氨酰化正交tRNA的正交氨酰基-tRNA合成酶,其效率至少是含有氨基酸序列SEQIDNO3或SEQIDNO4的多肽的50%,前提是所述正交氨酰基-tRNA合成酶不含SEQIDNO6-9之任一。2.如权利要求1所述的翻译系统,其特征在于,所述翻译系统包含细胞。3.如权利要求2所述的翻译系统,其特征在于,所述细胞是大肠杆菌细胞。4.如权利要求2所述的翻译系统,其特征在于,所述正交氨酰基-tRNA合成酶由所述细胞中一种或一种以上核酸编码。5.如权利要求1所述的翻译系统,其特征在于,所述翻译系统包含体外翻译系统。6.如权利要求1所述的翻译系统,其特征在于,c)项所述的正交氨酰基-tRNA合成酶含有三个或三个以上选自以下的氨基酸i)在对应于詹氏甲烷球菌TyrRS的Tyr32位置的亮氨酸;ii)在对应于詹氏甲烷球菌TyrRS的Glu107位置的丝氨酸或谷氨酸;iii)在对应于詹氏甲烷球菌TyrRS的Asp158位置的脯氨酸;iv)在对应于詹氏甲烷球菌TyrRS的Ile159位置的亮氨酸或精氨酸;和v)在对应于詹氏甲烷球菌TyrRS的Leu162位置的谷氨酸或精氨酸。7.如权利要求1所述的翻译系统,其特征在于,c)项所述的正交氨酰基-tRNA合成酶源自詹氏甲烷球菌氨酰基-tRNA合成酶。8.如权利要求1所述的翻译系统,其特征在于,d)项所述的溴化或碘化的氨基酸是L-4-溴代苯丙氨酸或L-4-碘代苯丙氨酸。9.如权利要求1所述的翻译系统,其特征在于,d)项所述的溴化或碘化的氨基酸是L-2-碘代丙氨酸、L-3-碘代苯丙氨酸、L-2-碘代酪氨酸、L-3-碘代酪氨酸、L-2-溴代苯丙氨酸、L-3-溴代苯丙氨酸、L-2-溴代酪氨酸或L-3-溴代酪氨酸。10.如权利要求1所述的翻译系统,其特征在于,包含正交tRNA。11.如权利要求10所述的翻译系统,其特征在于,所述正交tRNA含有SEQIDNO5所示多核苷酸序列或由该序列所编码。12.如权利要求10所述的翻译系统,其特征在于,所述正交tRNA识别原为终止密码子的选择密码子。13.如权利要求10所述的翻译系统,其特征在于,包含靶核酸,所述靶核酸含有为所述正交-tRNA所识别的选择密码子,所述正交-tRNA被正交氨酰基-tRNA合成酶优先以溴化或碘化的氨基酸加载。14.如权利要求13所述的翻译系统,其特征在于,包含靶核酸所编码的蛋白质,该蛋白质含有溴化或碘化的氨基酸。15.一种组合物,包含正交氨酰基-tRNA合成酶,该酶含有SEQIDNO3或SEQIDNO4所示氨基酸序列或其保守性变体。16.如权利要求15所述的组合物,其包含正交-tRNA,所述正交氨酰基-tRNA合成酶优先用溴化或碘化氨基酸氨酰化所述正交tRNA。17.如权利要求16所述的组合物,其特征在于,所述溴化或碘化氨基酸是L-4-溴代苯丙氨酸或L-4-碘代苯丙氨酸。18.如权利要求16所述的组合物,其特征在于,所述正交tRNA包含SEQIDNO5所示多核苷酸序列或由该序列所编码。19.如权利要求15所述的组合物,其包含细胞,所述正交氨酰基-tRNA合成酶由所述细胞中一种或一种以上核酸所编码。20.如权利要求19所述的组合物,其特征在于,所述细胞是大肠杆菌细胞。21.如权利要求15所述的组合物,其特征在于,包含翻译系统。22.如权利要求15所述的组合物,其包含细胞,所述正交氨酰基-tRNA合成酶由所述细胞中一种或一种以上核酸所编码,所述细胞还包含正交tRNA;和溴化或碘化的氨基酸;其中,所述正交-tRNA识别选择密码子,所述正交氨酰基-tRNA合成酶优先用所述溴化或碘化氨基酸氨酰化所述正交-tRNA。23.如权利要求22所述的组合物,其特征在于,所述细胞包含编码感兴趣蛋白质的靶核酸,所述靶核酸含有正交-tRNA所识别的选择密码子。24.如权利要求23所述的组合物,其特征在于,所述细胞包含所述靶核酸所编码的蛋白质,所述蛋白质含有溴化或碘化的氨基酸。25.一种核酸,含有a)编码SEQIDNO3或SEQIDNO4所示氨基酸序列或其保守性变体的多核苷酸序列;或b)SEQIDNO1或SEQIDNO2所示多核苷酸序列或其互补序列。26.一种载体,所述载体包含或编码如权利要求25所述的核酸。27.如权利要求26所述的载体,其特征在于,所述载体是表达载体。28.一种产生在特定位置含溴化或碘化氨基酸的蛋白质的试剂盒,所述试剂盒含有含有以下组分的细胞a)在细胞中起作用并识别选择密码子的正交tRNA;和b)所含氨基酸序列与天然酪氨酰氨酰基-tRNA合成酶(TyrRS)至少90%相同并含有两个或两个以上选自以下氨基酸的正交氨酰基-tRNA合成酶i)在对应于詹氏甲烷球菌TyrRS的Tyr32位置的亮氨酸;ii)在对应于詹氏甲烷球菌TyrRS的Glu107位置的丝氨酸或谷氨酸;iii)在对应于詹氏甲烷球菌TyrRS的Asp158位置的脯氨酸;iv)在对应于詹氏甲烷球菌TyrRS的Ile159位置的亮氨酸或精氨酸;和v)在对应于詹氏甲烷球菌TyrRS的Leu162位置的谷氨酸或精氨酸;和溴化或碘化的氨基酸;所述细胞和溴化或碘化的氨基酸包装在一个或多个容器中。29.一种在细胞中产生在特定位置含有溴化或碘化氨基酸的蛋白质的方法,所述方法包括提供含有以下组分的细胞a)含有至少一个选择密码子并编码所述蛋白质的核酸;b)在细胞中起作用并识别选择密码子的正交tRNA;和c)所含氨基酸序列与天然酪氨酰氨酰基-tRNA合成酶(TyrRS)的至少90%相同并含有两个或两个以上选自以下氨基酸的正交氨酰基-tRNA合成酶i)在对应于詹氏甲烷球菌TyrRS的Tyr32位置的亮氨酸;ii)在对应于詹氏甲烷球菌TyrRS的Glu107位置的丝氨酸或谷氨酸;iii)在对应于詹氏甲烷球菌TyrRS的Asp158位置的脯氨酸;iv)在对应于詹氏甲烷球菌TyrRS的Ile159位置的亮氨酸或精氨酸;和v)在对应于詹氏甲烷球菌TyrRS的Leu162位置的谷氨酸或精氨酸;和使所述细胞在合适的培养基中生长;提供溴化或碘化的氨基酸;和在含有至少一个选择密码子的核酸被翻译期间使所述溴化或碘化的氨基酸掺入蛋白质的特定位置,由此产生所述蛋白质。30.如权利要求29所述的方法,其特征在于,所述正交氨酰基-tRNA合成酶所含氨基酸序列包含SEQIDNO3-4中任一条。31.如权利要求29所述的方法,其特征在于,所述正交tRNA含有SEQIDNO5所示多核苷酸序列或由所述序列编码。32.如权利要求29所述的方法,其特征在于,所述细胞是非真核细胞。33.如权利要求32所述的方法,其特征在于,所述非真核细胞是大肠杆菌细胞。34.如权利要求29所述的方法,其特征在于,所述溴化或碘化的氨基酸是L-4-溴代苯丙氨酸或L-4-碘代苯丙氨酸。35.一种测定蛋白质结构的方法,所述方法包括a)提供在特定位置含有重原子氨基酸的蛋白质,所述蛋白质是在包含以下组分的翻译系统中表达的正交tRNA,和优先用含有重原子的氨基酸氨酰化正交tRNA的正交氨酰基-tRNA合成酶;使所述蛋白质结晶,从而产生含有重原子的蛋白质晶体;和通过包括以下步骤的方法来测定蛋白质结构收集含有重原子的蛋白质晶体在单波长的衍射数据并检测Friedel偶之间的异常差异。36.如权利要求35所述的方法,其特征在于,所述含有重原子的氨基酸是溴化或碘化的氨基酸。37.如权利要求36所述的方法,其特征在于,所述溴化或碘化的氨基酸是L-4-溴代苯丙氨酸或L-4-碘代苯丙氨酸。38.如权利要求35所述的方法,其特征在于,所述正交氨酰基-tRNA合成酶含有SEQIDNO3或SEQIDNO4所示氨基酸序列或其保守性变体。39.如权利要求35所述的方法,其特征在于,所述单波长是1.5418。全文摘要提供了包含优先用碘化或溴化氨基酸氨酰化正交tRNA的正交氨酰基tRNA-合成酶的翻译系统和其它组合物。也提供了编码这种合成酶的核酸,产生包含重原子氨基酸例如溴化或碘化氨基酸的蛋白质的方法与试剂盒。也提供了测定蛋白质结构的方法,例如测得用正交tRNA/氨酰基tRNA-合成酶配对位点特异性地掺入了重原子的蛋白质的结构。文档编号C12N9/10GK101094916SQ200580016959公开日2007年12月26日申请日期2005年5月24日优先权日2004年5月25日发明者谢建明,王磊,武宁,P·G·舒尔茨,G·斯普拉格申请人:斯克利普斯研究院,Irm有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1