用于还原苯乙酮的酮还原酶多肽的制作方法

文档序号:571087阅读:936来源:国知局
专利名称:用于还原苯乙酮的酮还原酶多肽的制作方法
用于还原苯乙酮的酮还原酶多肽1.相关申请的交叉引用本申请根据35U. S. C. § 119 (e)要求2007年9月13日提交的申请序列第 60/972,058号的利益,其内容通过引用并入本文。2.序列表、表格或计算机程序的引用作为文件名376247-017. txt通过EFS_Web以计算机可读形式(CRF)根据37C. F.R. §1.821随本申请同时提交的序列表通过引用并入本文。序列表的电子拷贝产生在 2008年9月13日,文件大小为213千字节。3.背景属于酮还原酶(KRED)或羰基还原酶类(EC 1. 1. 1. 184)的酶可用于从对应的前 体立体异构酮底物和通过对应的消旋醛底物的立体专一性还原来合成光学上有活性的醇 类。KRED —般将酮和醛底物转化为对应的醇产物,但是还可催化相反的反应,将醇底物氧 化为对应的酮/醛产物。通过诸如KRED的酶来还原酮和醛以及氧化醇需要辅因子,最常 见的辅因子是还原型烟酰胺腺嘌呤二核苷酸(NADH)或还原型烟酰胺腺嘌呤二核苷酸磷酸 (NADPH),以及用于氧化反应的烟酰胺腺嘌呤二核苷酸(NAD)或烟酰胺腺嘌呤二核苷酸磷 酸(NADP)。NADH和NADPH作为电子供体,而NAD和NADP作为电子受体。常常观察到酮还 原酶和醇脱氢酶接受磷酸化或非磷酸化辅因子(以其氧化和还原状态),但不是两者。KRED酶可发现于多种细菌和酵母中(综述参见Kraus和Waldman,1995, Enzyme catalysis in organic synthesis (有机合成中的酶催化),第 1&2 卷 VCH ffeinheim ;Faber, K. ,2000, Biotransformations in organic chemistry (有机化学中 的生物转化),第 4 版,Springer, Berlin Heidelberg New York ;和 Hummel 和 Kula, 1989,Eur. J. Biochem. 184 :1_13)。已报道几种KRED基因和酶序列,例如,木兰假丝 酵母(Candida magnoliae) (Genbank 登录号 JC7338 ;GI 11360538)、近平滑假丝酵母 (Candida parapsilosis) (Genbank 登录号 BAA24528. 1 ;GI 2815409)、赭色掷孢酵母 (Sporobolomycessalmonicolor) (Genbank 登录号 AF160799 ;GL6539734)。为了避免用于产生关键化合物的许多化学合成过程,增加地采用酮还原酶以将不 同的酮和醛底物酶促转化为手性醇产物。这些应用可采用表达酮还原酶的全细胞用于生物 催化酮和醛的还原,或在其中全细胞中多种酮还原酶的存在将相反地影响需要产物的立体 纯度和产量的那些实例中通过使用纯化的酶。对体外应用,使用诸如葡萄糖脱氢酶(GDH)、 甲酸脱氢酶等的辅因子(NADH或NADPH)再生酶与酮还原酶的组合。使用酮还原酶来产生 有用的化学化合物的实例包括4-氯乙酰乙酸酯类的不对称还原(Zhou,1983,J. Am. Chem. Soc. 105 5925-5926 ;Santaniello, J. Chem. Res. (S) 1984 :132-133 ;美国专利第 5,559,030 号;美国专利第5,700, 670号和美国专利第5,891,685号)、二氧羧酸类的还原(例如,美 国专利第6,399,339号)、(S)氯代_5_羟基-3-氧代己酸叔丁酯的还原(例如,美国专利 第6,645,746和W0 01/40450号)、基于吡咯并三嗪的化合物的还原(例如,美国申请第 2006/0286646号);取代苯乙酮的还原(例如,美国专利第6,800,477号);和酮四氢噻吩 (ketothiolane)的还原(W0 2005/054491)。
10
需要鉴定可用来将各种酮底物转化为其对应的手性醇产物的其他酮还原酶。4.概述本公开提供了能将确定的酮底物立体选择性地还原为其对应醇产物、并且当与获 自克菲尔乳杆菌(L. kefir) (SEQ ID NO :4)或短乳杆菌(L. brevis) (SEQ ID NO 2)或小 乳杆菌(L. minor) (SEQ ID NO :98)的天然存在的野生型KRED酶相比时或当与其他工程 酮还原酶相比时具有改进特性的工程酮还原酶(“KRED”)。本公开中显示来自乳杆菌种 (Lactobacillus species)的天然存在的酮还原酶将化合物苯乙酮还原为(R)_l_苯乙醇。 因为野生型酶一般选择性地用于将苯乙酮还原为其对应的(R)_醇,这些天然存在的酶是 (R)-选择性酮还原酶或(R)-酮还原酶。对取代苯乙酮(诸如2' ,6' -二氯-3'-氟苯 乙酮),这些野生型克菲尔乳杆菌或短乳杆菌或小乳杆菌酮还原酶表现出对取代苯乙酮底 物的不明显的活性,如果有活性的话。然而,衍生自野生型乳杆菌种的酮还原酶的本公开的 工程酮还原酶能将苯乙酮还原为(S)-l-苯乙醇。因此本文所述的酮还原酶通过与用于还 原苯乙酮的野生型克菲尔乳杆菌或短乳杆菌或小乳杆菌酮还原酶相比反向的对映选择性 来表征。因此本公开的这些多肽称为(S)-选择性酮还原酶或(S)-酮还原酶。反向对映选 择性是基于将野生型酮还原酶190位置的残基(即X190)突变为不是酪氨酸的残基,优选 地突变为非芳族残基,特别地突变为脯氨酸残基。此外,除了改变的立体选择性外,本文所述的工程酶可具有一种或多种改进的特 性。例如,与野生型酮还原酶相比,工程酮还原酶多肽可具有改进的酶促活性用于将底物还 原为产物和/或进一步增强对(S)对映体的立体选择性。酶特性的改进还可包括但不限于 热稳定性、溶剂稳定性的增强或降低的产物抑制。如本文进一步公开的,尽管野生型酮还 原酶在还原取代苯乙酮中显示不明显的活性,本公开提供了能将取代苯乙酮2' ,6' -二 氯-3'-氟苯乙酮还原或转化为(S)-l-[2,6-二氯-3-氟苯基]-乙醇的酮还原酶。相应地,在一些实施方案中,本公开涉及在对应于SEQ ID N0:2、4或98的X190的 残基处具有不是酪氨酸的残基的酮还原酶多肽。在一些实施方案中,该残基是非芳族残基, 诸如,例如脂肪族、受限、非极性或半胱氨酸残基。在一些实施方案中,该残基是脯氨酸。除了在对应于X190的残基处的特点,与SEQ ID NO :2、4或98的序列相比,该酮 还原酶可在其他残基位置具有一个或多个残基的差异。在一些实施方案中,本文的酮还 原酶多肽包含与基于SEQ ID而2、4或98的参考序列相比具有至少约85%、86%、87%、 88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或更高同一性的氨基 酸序列,其在对应于X190的残基处具有非芳族残基,包括脂肪族、受限、非极性或半胱氨酸 残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸,条件是该酮还原酶多肽在对应于X190 的残基处具有不是酪氨酸的残基,特别是非芳族残基。在一些实施方案中,该酮还原酶多肽 具有其中对应于X190的残基是脂肪族、受限、非极性或半胱氨酸残基的氨基酸序列。在一 些实施方案中,该酮还原酶多肽具有其中对应于X190的残基是丙氨酸、异亮氨酸、半胱氨 酸或脯氨酸、特别是脯氨酸的氨基酸序列。在一些实施方案中,这些残基差异导致改进的特 性,诸如改进的对底物的酶促活性。改进的特性可以是参考野生型酮还原酶或参考工程酮 还原酶。例如,在一些实施方案中,酮还原酶的改进是与具有对应于SEQ ID NO :6的氨基酸 序列的工程酶的特性相比,其能以可测量活性以高于99%的立体异构过量将底物转化为产 物,因此与野生型克菲尔乳杆菌或短乳杆菌或小乳杆菌酮还原酶相比有改进。可导致一种或多种改进酶特性的各种残基差异在详述中提供。在一些实施方案中,这些工程酮还原酶 多肽是基于在SEQ ID N0:95、96和119中列出的序列式(或其区域,诸如残基90-211)。在一些实施方案中,本公开的酮还原酶多肽能以高于99%的立体异构过量和与具 有SEQ ID NO :6的序列的酮还原酶多肽相比有改进的速率将2' ,6' -二氯_3'-氟苯乙 酮转化为(S)-l-[2,6-二氯-3-氟苯基]-乙醇。与SEQ ID NO :6相比关于酶促活性方面 有改进的示例性多肽包括但不限于包含对应于SEQ ID NO :8、10、12、14、16、18、20、22、24、 26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、 76、78、80、82、84、86、88、90、92和94的氨基酸序列的多肽。在一些实施方案中,该酮还原酶多肽能以高于99 %的立体异构过量和与具有SEQ ID NO :6的序列的酮还原酶多肽相比有改进的速率将2' ,6' -二氯-3'-氟苯乙酮转化 为(S)-l-[2,6-二氯-3-氟苯基]-乙醇,其中该多肽与具有SEQ ID NO :6的序列的多肽相 比还具有改进的热稳定性。具有此类改进的示例性多肽包括但不限于包含对应于SEQ ID NO :8、16、18、20、22、26、28、30、32、34、38、40、42、44、46、54、66、68、70、72、74、76、78、80、82、 84、86、88、90、92和94的氨基酸序列的多肽。在一些实施方案中,该酮还原酶多肽能以高于99%的立体异构过量和比具有SEQ ID NO :6的序列的酮还原酶多肽高至少约450%的速率将2' ,6' -二氯-氟苯乙酮 转化为(S)-l-[2,6-二氯-3-氟苯基]-乙醇。能具有此类改进的示例性多肽包括但不限于 包含对应于 SEQ ID NO :8、10、14、16、18、22、24、26、28、30、32、34、36、38、40、42、44、46、54、 56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92 和 94 的氨基酸序列的多 肽。在一些实施方案中,该酮还原酶多肽能以高于99%的立体异构过量和比具有SEQ ID N0 :6的序列的酮还原酶多肽高至少约450%的速率将2' ,6' -二氯-氟苯乙酮转 化为(幻-1-[2,6-二氯-3-氟苯基]-乙醇,其中该多肽与5£010 N0 :6的多肽相比还具有改 进的热稳定性。具有此类特性的示例性多肽包括但不限于包含对应于SEQ ID N0:8、16、18、 22、26、28、30、32、34、38、40、42、44、46、54、66、68、70、72、74、76、78、80、82、84、86、88、90、92 和94的氨基酸序列的多肽。在一些实施方案中,该酮还原酶多肽能以高于99%的立体异构过量和比具有SEQ ID N0 :6的序列的酮还原酶多肽高至少约1500%的速率将2' ,6' -二氯-氟苯乙酮 转化为(S)-l-[2,6-二氯-3-氟苯基]-乙醇。能具有此类改进的示例性多肽包括但不限 于包含对应于 SEQ ID NO :18、32、34、36、38、40、42、44、46、74、76、78、80、82、84、86、88、90、 92和94的氨基酸序列的多肽。在一些实施方案中,该酮还原酶多肽能以高于99%的立体异构过量和比具有SEQ ID N0 :6的序列的酮还原酶多肽高至少约1500%的速率将2' ,6' -二氯-氟苯乙酮 转化为(S)-l-[2,6-二氯-3-氟苯基]-乙醇,其中该多肽与SEQ ID NO :6的多肽相比还具 有改进的热稳定性。具有此类特性的示例性多肽包括但不限于包含对应于SEQ ID N0:18、 32、34、36、38、40、42、44、46、74、76、78、80、82、84、86、88、90、92 和 94 的氨基酸序列的多肽。在一些实施方案中,当用相对2',6' -二氯-3'-氟苯乙酮底物的量按重量 计少于约的量的多肽进行时,该酮还原酶多肽能在不到约24小时内将2' ,6' -二 氯-3'-氟苯乙酮底物的至少约95%以至少约99%的立体异构过量转化为(S)-l-[2,
126-二氯-3-氟苯基]-乙醇。具有该能力的示例性多肽包括但不限于包含对应于SEQ ID NO :18、32、34、36、38、40、42、44、46、74、76、78、80、82、84、86、88、90、92 和 94 的氨基酸序列
的多肽。在一些实施方案中,该酮还原酶多肽能以高于99%的立体异构过量和比具有SEQ ID NO :6的序列的酮还原酶多肽高至少约450%的速率将2' ,6' -二氯-氟苯乙酮转 化为(S)-l-[2,6- 二氯-3-氟苯基]-乙醇,其中在50°C热处理2小时后,该多肽还能以比 具有SEQ ID NO :16的序列的多肽高至少约400%的速率将底物转化为产物(其中SEQ ID NO 16的多肽也用相同的热处理来处理)。具有此类特性的示例性多肽包括但不限于包含 对应于 SEQID NO :18、32、34、36、38、40、42、44、46、74、76、78、80、82、84、86、88、90、92 和 94 的氨基酸序列的多肽。在一些实施方案中,能将2',6' -二氯-3'-氟苯乙酮转化为(S)-l_[2,6-二 氯-3-氟苯基]-乙醇的改进的酮还原酶多肽包含具有与对应于基于SEQ IDN0 :2、4或98 的参考序列的残基90-211的区域或结构域具有至少约85%、86%、87%、88%、89%、90%、 91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的氨基酸序列的区域或结构 域,条件是该酮还原酶多肽区域或结构域在对应于X190的残基处具有酪氨酸之外的残基, 所述参考序列在对应于X190的残基处具有非芳族残基,包括脂肪族、受限、非极性或半胱 氨酸残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸。在一些实施方案中,该酮还原酶多 肽具有对应于参考序列的残基90-211的区域或结构域,其中对应于X190的残基是非芳族 残基。在一些实施方案中,对应于X190的该残基可以是脂肪族、受限、非极性或半胱氨酸残 基。在一些实施方案中,对应于X190的残基可以是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸, 特别是脯氨酸。在一些实施方案中,与参考序列相比,该酮还原酶多肽在结构域或区域可具 有一个或多个残基差异。可不同于参考序列的各种残基的位置在详述中提供。在另一个方面,本公开提供了编码本文描述的工程酮还原酶的多核苷酸或在高度 严紧条件下与此类多核苷酸杂交的多核苷酸。该多核苷酸可包括启动子和用于编码的工程 酮还原酶的表达的其他调节元件,并且可利用为特定的希望的表达系统而优化的密码子。 编码该工程酮还原酶的示例性多核苷酸包括但不限于包含对应于SEQ ID N0:5、7、9、ll、 13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、 63、65、67、69、71、73、75、77、79、81、83、85、87、89、91 和 93 的序列的多核苷酸。在另一个方面,本公开提供了包含本文描述的多核苷酸和/或表达载体的宿主细 胞。该宿主细胞可以是克菲尔乳杆菌或短乳杆菌,或者其可以是不同的有机体。该宿主细 胞可用于本文描述的工程酮还原酶的表达和分离,或者可选地该宿主细胞可直接用于将式 (I)或(III)的取代苯乙酮底物分别转化为对应的式(II)或(IV)的(s)-醇产物。无论使用全细胞、细胞提取物或纯化的酮还原酶来进行该方法,可使用单一酮还 原酶,或者可选地可使用两种或多种酮还原酶的混合物。如上文所提,本文描述的酮还原酶能催化2' ,6'-取代苯乙酮,在3'、4'和5' 位置的一个或多个被任选地取代,向对应的(S)-醇产物的还原反应。在一些实施方案中,该酮还原酶能将结构式(I)的酮2',6' -二氯-3'-氟苯 乙酮
相应地,在一些实施方案中,本公开提供了用于将2' ,6'取代苯乙酮底物,任选 地在3'、4'和5'位置的一个或多个被取代,还原为对应的取代(S)-苯乙醇的方法,其中 该方法包括在适合于将底物还原或转化为对应的取代(S)_苯乙醇的反应条件下使底物与 本文描述的酮还原酶接触。在本方法的一些实施方案中,底物以高于约25%、50%、75%、 80 %、85 %、90 %、95 %、99 %或99. 9 %的立体异构过量被还原为产物。在一些实施方案中,本公开提供了用于将式(III)的2' ,6'取代苯乙酮还原为 式(IV)的对应的取代(S)_苯乙醇的方法,其中该方法包括在适合于将式(III)的底物还 原或转化为式(IV)的对应的取代(S)_苯乙醇产物的反应条件下使底物与本文描述的酮还 原酶接触。在本方法的一些实施方案中,底物以高于约25%、50%、75%、80%、85%、90%、 95 %、99 %或99. 9%的立体异构过量被还原为产物。
CN 101855342 A
说明书
5/71 页
CI O
CI还原或转化为结构式(II)的对应的手性醇产物⑶-1_[2,6-二氯-3-氟苯 基]-乙醇
CI OH
H
fv
CI
o在一些实施方案中,本文描述的酮还原酶能催化结构式(III)的2' ,6' _取代苯 乙酮化合物
Y0
(HI)
Z其在3'、4'和5'位置的一个或多个被任选地取代,其中Y和Z独立地选自CH3、 CF3、NH2、OH、0CH3、CI和Br,还原为结构式(IV)的对应的手性醇产物
YOH
\m /
TV
14
在一些实施方案中,本公开提供了用于将式(I)的2',6' -二氯-3' _氟苯乙 酮底物还原为式(II)的其对应的(S)-醇产物(S)-l-[2,6-二氯-3-氟苯基]-乙醇的方 法,其中该方法包括在适合于将2' ,6' -二氯-3'-氟苯乙酮还原或转化为(S)-l-[2, 6-二氯-3-氟苯基]-乙醇的反应条件下使2',6' -二氯-3'-氟苯乙酮与本文描述的 酮还原酶接触或育。在本方法的一些实施方案中,底物以高于约85%、90%、95%、99%或 99. 9%的立体异构过量被还原为产物。在一些实施方案中,底物以高于约85%的立体异构 过量被还原为产物,其中酮还原酶多肽包含基于SEQ ID N0:95、96或119的序列式的氨基 酸序列。在一些实施方案中,底物以高于约99 %的立体异构过量被还原为产物,其中本方法 中使用的酮还原酶多肽包含对应于SEQ ID NO :6、8、10、12、14、16、18、20、22、24、26、28、30、 32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、 82、84、86、88、90、92和94的氨基酸序列。在本方法的一些实施方案中,当使用相对2' ,6' -二氯-3'-氟苯乙酮底物的 量按重量计低于约的量的酮还原酶多肽进行该方法时,底物的至少约95%以高于约 99%的立体异构过量、在不到24小时内被还原为产物,其中酮还原酶多肽包含对应于SEQ ID NO :18、32、34、36、38、40、42、44、46、74、76、78、80、82、84、86、88、90、92 和 94 的氨基酸序 列。在一些实施方案中,本公开提供了本文描述的酮还原酶和2,6取代苯乙酮,任选 地在3'、4'或5'位置的一个或多个被取代,和/或对应的取代(S)-苯乙醇的组合物。 在一些实施方案中,组合物包含本文描述的酮还原酶和式(I)的化合物和/或式(II)的化 合物。在一些实施方案中,组合物包含本文描述的酮还原酶和式(III)的化合物和/或式 (IV)的化合物。在一些实施方案中,组合物包含本文描述的酮还原酶和式(V)的化合物和 /或式(VI)的化合物。在一些实施方案中,组合物还可包含辅因子再生系统。在一些实施方案中,本公开涉及工程酮还原酶在合成描述于W006021886、 W006021884、W006021881和W004076412中的蛋白激酶抑制剂中的应用。在一些实施方案 中,在用于合成这些蛋白激酶抑制剂的方法中,方法的步骤可包含使用本公开的酮还原酶 将式(I)的底物2',6' -二氯-3' _氟苯乙酮还原或转化为其对应的式(II)的(S)-醇 产物(S)-l-[2,6-二氯-3-氟苯基]-乙醇。5.附图简述

图1说明了酮还原酶(KRED)在将式(I)的底物化合物2',6' -二氯_3_氟苯 乙酮转化为式(II)的对应的手性醇产物(S)-l-[2,6,_ 二氯-3-氟苯基]-乙醇中的作用。 该反应中,底物被生物催化地还原为对应的(S)_醇。该还原使用本文描述的KRED和诸如 NADPH的辅因子。使用葡萄糖脱氢酶(GDH)来将NADP+转化/再循环为NADPH。葡萄糖被 转化为葡萄糖酸,其然后通过加入氢氧化钠被转化为其钠盐(葡萄糖酸钠)。6.详述6. 1 定义如本文所用,以下术语预期具有以下含义。“酮还原酶”和“_”在本文可交换使用,指具有将羰基基团还原为其对应的醇 的酶促能力的多肽。更具体地,本发明的酮还原酶多肽能将上文式(I)的化合物立体选择 性地还原为上文式(II)的对应的产物。该多肽一般使用辅因子还原型烟酰胺腺嘌呤二核
15苷酸(NADH)或还原型烟酰胺腺嘌呤二核苷酸磷酸(NADPH)作为还原剂。如本文所用的酮 还原酶包括天然存在的(野生型)酮还原酶以及通过人工操作产生的非天然存在的工程多 肽。“编码序列”指编码蛋白的氨基酸序列的那部分核酸(例如,基因)。“天然存在的” 或“野牛型”指自然中发现的形式。例如,天然存在的或野生型多肽或多核苷酸序列是存在 于有机体中的序列,其可从自然中的来源分离,并且没有有意地通过人工操作来修饰。当参考例如细胞、核酸或多肽使用时,“皿”指已经以不在自然中存在的方式被 修饰,或者与自然形式相同但从合成材料和/或通过使用重组技术的操作产生或衍生的材 料,或对应于材料的天然或自然形式的材料。非限制性实例包括但不限于表达在细胞的天 然(非重组)形式内未发现的基因或者表达以不同水平另外表达的天然基因的重组细胞。“序列同一件百分比”和“百分比同源件”在本文可交换使用,指多核苷酸和多肽之 间的比较,并通过在比较窗口(comparison window)比较两个最佳比对的序列来确定,其中 与用于两个序列的最佳比对的参考序列(其不包含添加或缺失)相比,比较窗口中的多核 苷酸或多肽序列的部分可包含添加或缺失(即缺口)。百分比可通过以下计算确定两个 序列中相同核酸碱基或氨基酸残基出现的位置的数目以产生匹配位置的数目,用匹配位置 的数目除以比较窗口中的位置总数,结果乘以100以产生序列同一性的百分比。可选地,百 分比可通过以下计算确定两个序列中相同核酸碱基或氨基酸残基出现的位置的数目或者 核酸碱基或氨基酸残基与缺口来比对的位置的数目以产生匹配位置的数目,用匹配位置的 数目除以比较窗口中位置的总数,结果乘以100以产生序列同一性的百分比。本领域技术 人员理解,存在许多建立的算法可用来比对两个序列。用于比较的序列的最佳比对可例如 通过 Smith 和 Waterman,1981,Adv. Appl. Math. 2 482 的局部同源性算法、通过 Needleman 和 Wunsch,1970,J. Mol. Biol. 48 443 的同源性比对算法、通过 Pearson 和 Lipman,1988, Proc. Natl. Acad. Sci USA85 2444的搜索相似性方法、通过这些算法的计算机化执行(GCG Wisconsin软件包中的GAP、BESTFIT、FASTA和TFASTA)、或通过视觉检查来进行(一般参见 CurrentProtocols in Molecular Biology (分子生物学最新实验方法汇编),F. M. Ausubel 等,编辑,Current Protocols, Greene PublishingAssociates, Inc.禾口 John Wiley & Sons, Inc.的合资企业,(1995增刊)(Ausubel))。适合于确定百分比序列同一性和序列相 似性的算法的实例为BLAST和BLAST 2. 0算法,其分别描述于Altschul等,1990,J. Mol. Biol. 215 :403-410 和 Altschul 等,1977,Nucleic Acids Res. 3389-3402。用于执行 BLAST 分析的软件可通过美国国家生物技术信息中心的网站公开获得。该算法涉及首先通过鉴定 查询序列中长度W的短字来鉴定高得分序列对(HSP),所述短字当与数据库序列中相同长 度的字比对时,匹配或者满足一些正值阈值得分T。T指相邻字得分阈值(Altschul等,上 文)。这些最初的相邻字匹配字串(word hits)作为起始搜索的种子来发现含有这些字的 更长的HSP。然后字匹配字串沿每个序列以两个方向延伸,直到累积比对得分不能被增加。 对核苷酸序列,累积得分使用参数M(匹配残基对的奖励分,总是> 0)和N(不匹配残基的 惩罚分,总是<0)来计算。对氨基酸序列,使用得分矩阵来计算累积得分。当出现以下情 况时,每个方向的字匹配字串的延伸被暂停累积比对分从其最大获得值减少量X时;由于 一个或多个负得分残基比对的累积,累积得分变为零或小于零;或者达到任一序列的末端。 BLAST算法参数W、T和X确定了比对的敏感性和速度。BLASTN程序(用于核苷酸序列)使用以下作为默认参数字长(W)为11、期望值(E)为10、M = 5、N = -4和双链比较。对氨 基酸序列,BLASTP程序使用以下作为默认参数字长(W)为3、期望值(E)为10和BL0SUM62 得分矩阵(参见 Henikoff 和 Henikoff,1989,Proc Natl Acad Sci USA 89:10915)。序列 比对和%序列同一性的示例性确定可采用GCG Wisconsin软件包中的BESTFIT或GAP程序 (Accelrys, Madison WI),使用提供的默认参数。“参考序列”指用作序列比较基础的确定序列。参考序列可以是更大的序列的子 集,例如,全长基因或多肽序列的区段。一般而言,参考序列为至少20个核苷酸或氨基酸残 基长度、至少25个残基长度、至少为50个残基长度或核酸或多肽的全长。由于两个多核苷 酸或多肽可各自(1)包含两个序列之间相似的序列(即完整序列的一部分),和⑵还可包 含两个序列之间不同的序列,因此两个(或多个)多核苷酸或多肽之间的序列比较一般通 过在“比较窗口 ”比较两个多核苷酸的序列以鉴定和比较序列相似性的局部区域来进行。在一些实施方案中,“参考序列”可基于一级氨基酸序列,其中参考序列是可在一 级序列中具有一个或多个改变的序列。例如,“基于SEQ IDN0 4的在对应于X190的残基处 具有脯氨酸的”参考序列指其中在SEQ IDN0 4的X190处的对应残基已改变为脯氨酸的参 考序列。“比较窗口”指至少约20个连续核苷酸位置或氨基酸残基的概念区段,其中序列可 与至少20个连续核苷酸或氨基酸的参考序列比较,并且其中与用于两个序列最佳比对的 参考序列(其不包含添加或缺失)相比,比较窗口中序列部分可包含20%或更少的添加或 缺失(即缺口)。比较窗口可长于20个连续残基,并且包括任选地30个、40个、50个、100 个或更长的窗口。“大体同一性”指在至少20个残基位置的比较窗口中、通常在至少30-50个残基 的窗口中与参考序列相比,具有至少80%序列同一性、至少85%同一性和89%至95%序 列同一性、更通常地至少99%序列同一性的多核苷酸或多肽序列,其中序列同一性的百分 比通过在比较窗口中比较参考序列与包括总计为参考序列的20%或更少缺失或添加的序 列来计算。在应用于多肽的具体实施方案中,术语“大体同一性”意指当诸如通过程序GAP 或BESTFIT使用默认缺口权重进行最佳比对时,两个多肽序列共享至少80%的序列同一 性,优选地至少89 %的序列同一性、至少95 %的序列同一性或更高(例如,99 %的序列同一 性)。优选地,不相同的残基位置通过保守氨基酸置换而不同。当在特定氨基酸或多核苷酸序列的编号的上下文中使用时,“对应于”、“参考”或 “相对于”指当给定氨基酸或多核苷酸序列与参考序列相比时,特定参考序列的残基的编 号。换句话说,给定聚合体的残基数目或残基位置针对参考序列指定,而不是通过给定氨基 酸或多核苷酸序列内残基的实际编号位置指定。例如,可通过将缺口引入以优化两个序列 之间的残基匹配来比对给定氨基酸序列诸如工程酮还原酶的氨基酸序列和参考序列。在这 些实例中,尽管存在缺口,给定氨基酸或多核苷酸序列中残基的编号针对其比对的参考序 列产生。“立体诜择件”指化学或酶促反应中一种立体异构体针对另一种立体异构体的优 先形成。立体选择性可以是部分的,其中一种立体异构体的形成优于另一种,或者其可以是 完全的,其中只形成一种立体异构体。当立体异构体是对映体时,立体选择性称为对映选择 性,两者总和中一种对映体的分数(一般报道为百分比)。本领域通常可选地报道为根据下式从中计算的(一般作为百分比)对映体过量(e.e.)[主要对映体_次要对映体]/[主 要对映体+次要对映体]。这还可称为立体异构过量(s.e)。其中立体异构体是非对映异 构体时,立体选择性称为非对映选择性,两种非对映异构体混合物中一种非对映异构体的 分数(一般报道为百分比)。“高度立体诜择件”指能以至少约85%的立体异构过量将2',6' -二氯_3'-氟 苯乙酮(式(I))转化或还原为对应的(S)-醇产物(S)-l-[2,6-二氯-3-氟苯基]-乙醇 (式(II))的酮还原酶多肽。“改讲的酶特件”指与参考酮还原酶相比表现出仵何酶特件的改讲的酮还原酶多 肽。对本文描述的工程酮还原酶多肽,比较一般针对野生型酮还原酶,尽管在一些实施方案 中,参考酮还原酶可以是另一种改进的工程酮还原酶。需要改进的酶特性包括但不限于酶 促活性(其可以底物转化的百分比表示)、热稳定性、PH活性谱(profile)、辅因子需求、对 抑制剂(例如产物抑制)的耐性(refractoriness)、立体专一性和立体选择性(包括立体 选择性)。“增强的酶促活件”指工稈酮还原酶多肽的改讲的特件,其可由与参考酮还原酶相 比比活性(例如,产生的产物/时间/重量蛋白)的增强或者底物转化为产物的百分比(例 如使用特定量的KRED在特定时间内起始量底物转化为产物的百分比)的增加来代表。确 定酶活性的示例性方法提供于实施例中。涉及酶活性的任何特性可被影响,包括经典的酶 特性Km、V_或k。at,其改变可导致增强的酶促活性。酶活性的改进可为从对应的野生型酮 还原酶的酶促活性的约1. 5倍,至超过天然存在的酮还原酶或酮还原酶多肽衍生自其的另 一种工程酮还原酶的酶促活性多达2倍、5倍、10倍、20倍、25倍、50倍、75倍、100倍或更 高。在特定实施方案中,工程酮还原酶表现出高于母酮还原酶活性1. 5至50倍、1. 5至100 倍范围内的改进的酶促活性。熟练的技术人员应理解,任何酶的活性是扩散限制的,以致催 化周转速率不能超过底物的扩散速率,包括任何需要的辅因子。扩散限制或k。at/Km的理论 最大值一般为约108至109 (M^s-1)。因此,酮还原酶的酶活性的任何改进具有与酮还原酶所 作用的底物的扩散速率相关的上限。酮还原酶活性可通过用于测量酮还原酶的任一种标准 测定来测量,诸如由于伴随酮还原成醇的NADPH氧化导致的NADPH的吸光度或荧光的减弱 (参见实施例5),或通过偶联测定中产生的产物来测量。使用确定的酶制品、在设定条件下 的确定测定和一种或多种确定的底物进行酶活性的比较,进一步详细描述于本文。一般而 言,当比较裂解物时,确定细胞的数目和测定的蛋白的量,以及使用相同的表达系统和相同 的宿主细胞来使宿主细胞产生的和裂解物中存在的酶量的变化最小。“體,指将底物酶促还原为对应的产物。“百分比转化”指在特定条件下在一定 时间内还原为产物的底物的百分比。因此,酮还原酶多肽的“酶促活性”或“活性”可表示 为底物变为产物的“百分比转化”。“热稳定”指与未处理的酶相比,暴露于高温(例如40-80°C ) 一段时间(例如 0. 5-24小时后)保持相似活性(超过例如60%至80% )的酮还原酶多肽。“溶剂稳定”指与未处理的酶相比,在暴露于可变浓度(例如5-99% )的溶剂(异 丙醇、四氢呋喃、2-甲基四氢呋喃、丙酮、甲苯、乙酸丁酯、甲基叔丁醚)一段时间(例如 0. 5-24小时)后保持相似活性(超过例如60%至80% )的酮还原酶多肽。“pH稳定”指与未处理的酶相比,在暴露于高或低pH (例如4. 5-6或8_12) —段时
18间(例如0. 5-24小时)后保持相似活性(超过例如60%至80% )的酮还原酶多肽。“热和溶剂稳定件”指既热稳定又溶剂稳定的酮还原酶多肽。在工程酮还原酶上下文中,如本文所用的“ffi^”鉴定工程化所基于的初始酮还 原酶和/或编码此类酮还原酶的基因。例如,SEQ ID NO :38的工程酮还原酶是通过在多代 期间人工演化编码SEQ ID NO :4的克菲尔乳杆菌酮还原酶的基因获得的。因此,该工程酮 还原酶“衍生自” SEQ ID NO :4的野生型酮还原酶。“亲水件氨基酸或残基”指具有表现出根据Eisenberg等,1984, T. Mol. Biol. 179 125-142的归一化一致疏水性等级,小于零的疏水性的侧链的氨基酸或残基。遗传编码的亲 水性氨基酸包括 L-Thr (T),L-Ser (S),L-His (H),L-Glu (E),L-Asn (N),L-Gln (Q),L-Asp (D), L-Lys(K)禾口 L-Arg(R)。“酸件氨基酸或残基”指当氨基酸包括于肽或多肽内时,具有表现出小于约6的pK 值的侧链的亲水性氨基酸或残基。在生理PH下,酸性氨基酸由于缺少氢离子而一般具有带 负电的侧链。遗传编码的酸性氨基酸包括L-Glu (E)和L-Asp (D)。“碱件氨基酸或残基”指当氨基酸包括于肽或多肽内时,具有表现出大于约6的pK 值的侧链的亲水性氨基酸或残基。在生理PH下,碱性氨基酸由于与水合氢离子缔合而一般 具有带正电的侧链。遗传编码的碱性氨基酸包括L-Arg(R)和L-Lys(K)。“极件氨基酸或残基”指具有在牛理DH下不带电荷的侧链、佰该侧链具有其中两个 原子共同共享的电子对更靠近维持原子之一的至少一个键的侧链的亲水性氨基酸或残基。 遗传编码的极性氨基酸包括L-Asn (N),L-Gln (Q),L-Ser (S)和L_Thr (T)。“疏水氨基酸或残基”指具有表现出根据Eisenberg等,1984,J. Mol. Biol. 179 125-142的归一化一致疏水性等级大于零的疏水性的侧链的氨基酸或残基。遗传编码的疏 水氨基酸包括 L-Pro (P),L-Ile (I),L-Phe (F),L-Val (V),L-Leu (L),L-Trp (ff),L-Met (M), L-Ala(A)和 L-Tyr(Y)。“芳族氨基酸或残基”指具有包括至少一个芳环或杂芳环的侧链的亲水或疏水氨 基酸或残基。遗传编码的芳族氨基酸包括L-Phe(F),L-Tyr(Y)和L_Trp (W)。尽管由于 L-His (H)的杂芳氮原子的pKa,其有时分类为碱性残基,或因为其侧链包括杂芳环而分类 为芳族残基,本文中组氨酸分类为亲水性残基或作为“受限残基”(参见下文)。“受限氨基酸或残基”指具有受限(constrained)几何学的氨基酸或残基。本文 中,受限残基包括L-pro (P)和L-his(H)。组氨酸因为其具有相对小的咪唑环而具有受限几 何学。脯氨酸因为其还具有五元环而具有受限几何学。“非极件氨基酸或残基”指具有在生理pH下不带电荷的侧链并且该侧链具有其 中两个原子共同共享的电子对一般由两个原子中的每一个平等地维持的键(即侧链不 是极性的)的疏水氨基酸或残基。遗传编码的非极性氨基酸包括L-Gly(G),L-Leu(L), L-Val (V),L-Ile (I),L-Met (M)禾口 L_Ala(A)。“脂肪族氨基酸或残基”指具有脂肪族烃侧链的疏水氨基酸或残基。遗传编码的脂 肪族氨基酸包括 L-Ala(A),L-Val (V),L-Leu (L)和 L_Ile(I)。“半胱氨酸”氨基酸L-Cys (C)是不常见的,因为其可与其他L_Cys (C)氨基酸或其 他含有硫烷基或巯基的氨基酸形成二硫键。“半胱氨酸样残基”包括半胱氨酸和含有可用于 形成二硫键的巯基部分的其他氨基酸。L-Cys (C)(和具有含有-SH侧链的其他氨基酸)在肽中以还原型游离-SH或氧化型二硫键合形式存在的能力影响L-Cys (C)是否有助于肽的 净疏水或亲水性特征。尽管根据Eisenberg的归一化一致等级(Eisenberg等,1984,上文) L-Cys (C)表现出0. 29的疏水性,应理解,为了本公开的目的,L-Cys (C)被分类为其自身独 特的组。“小氨基酸或残基”指具有包括总计3个或更少的碳和/或杂原子(不包括a -碳 和氢)的侧链的氨基酸或残基。根据以上定义,小氨基酸或残基可进一步分为脂肪族、非极 性、极性或酸性小氨基酸或残基。遗传编码的小氨基酸包括L-Ala(A),L_Val (V), L-Cys (C), L-Asn (N),L-Ser (S),L-Thr (T)和 L_Asp (D)。“含有羟基的氨基酸或残基”指含有羟基(-0H)部分的氨基酸。遗传编码的含有羟 基的氨基酸包括 L-Ser (S),L-Thr (T)和 L_Tyr (Y)。“保立”氨基酸取代或突变指具有相似侧链的残基的可交换性,因此一般涉及用处 于氨基酸的相同或相似定义类别的氨基酸取代多肽中的氨基酸。在一些实施方案中,如本 文所用的保守突变不包括从亲水性残基到亲水性残基、疏水残基到疏水残基、含有羟基的 残基到含有羟基的残基或小残基到小残基的取代,如果保守突变可相反是从脂肪族残基到 脂肪族残基、非极性残基到非极性残基、极性残基到极性残基、酸性残基到酸性残基、碱性 残基到碱性残基、芳族残基至芳族残基、或受限残基至受限残基的取代。进一步,如本文所 用,A、V、L或I可被保守地突变为另一个脂肪族残基或突变为另一个非极性残基。下文表 1显示了示例性的保守取代。表1 保守取代
残基可能的保守突变A,L,V,I其他脂肪族残基(A,L,V,I) 其他非极性残基(A,L,V,I,G,M)G, M其他非极性残基(A,L,V,I,G,M)D, E其他酸性残基(D,E)K, R其他碱性残基(K,R)P,H其他受限残基(P,H)N, Q, S, T其他极性残基Y, ff, F其他芳族残基(Y,W,F)C无 “韭指用具有显著不同侧链特性的氨基酸取代或突变多肽中的氨基酸。
20非保守取代可使用上文所列的定义组之间而非之内的氨基酸。在一个实施方案中,非保守 突变影响(a)取代区域内肽主链的结构(例如脯氨酸取代甘氨酸)(b)电荷或疏水性、或 (c)侧链的体积。指通过从参考多肽去除一个或多个氨基酸来修饰多肽。氨基酸序列中的 缺失可包含去除1个或多个氨基酸、2个或更多个氨基酸、3个或更多个氨基酸、4个或更多 个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个 氨基酸、15个或更多个氨基酸、或20个或更多个氨基酸、多达构成参考酶的氨基酸总数的 10%、多达构成参考酶的氨基酸总数的15%、或多达构成参考酶的氨基酸总数的20%,同 时保持酶促活性和/或保持工程酮还原酶的改进特性。缺失可涉及多肽的内部部分和/或 末端部分。在不同实施方案中,缺失可包含连续的区段,或者可以是不连续的。“通入”指通过从参考多肽添加一个或多个氨基酸来修饰多肽。在一些实施方案 中,改进的工程酮还原酶包含向天然存在的酮还原酶多肽插入一个或多个氨基酸以及向其 他改进的酮还原酶多肽插入一个或多个氨基酸。插入可以在多肽的内部部分,或者插入羧 基或氨基末端。如本文所用的插入包括如本领域已知的融合蛋白。插入可以是氨基酸的连 续区段,或者由天然存在的多肽中的一个或多个氨基酸隔开。如本文所用的“M”指具有氨基末端和/或羧基末端缺失但其中剩余的氨基酸 序列与序列中对应的位置相同的多肽。片段可以是至少14个氨基酸长、至少20个氨基酸 长、至少50个氨基酸长或更长和多达SEQ IDN0 2或SEQ ID NO 4的全长天然存在的酮还 原酶多肽的 70%、80%、90%、95%、98%和 99%。“分离的多肽”指与天然伴随其的其他污染物大体上分开的多肽,例如蛋白质、脂 类和多核苷酸。该术语包含已被从其天然存在环境或表达系统(例如宿主细胞或体外合 成)中移出或纯化的多肽。改进的酮还原酶可存在于细胞内、存在于细胞培养基中或以各 种形式制备,诸如裂解物或分离的制品。这样,在一些实施方案中,改进的酮还原酶可以是 分离的多肽。“大体纯的多肽,,指其中多肽物类(species))是存在的优势物类(即基于摩尔或 重量基础,其比组合物中任何其他单个大分子物类更丰富)的组合物,并且当目标物类构 成通过摩尔或%重量计存在的大分子种的至少约50%时,其一般为大体纯化的组合物。一 般而言,大体纯的酮还原酶组合物将包含组合物中存在的所有大分子物类的按摩尔或%重 量计的约60%或更多、约70%或更多、约80%或更多、约90%或更多、约95%或更多以及 约98%或更多。在一些实施方案中,目标物类被纯化为基本均质(即组合物中的污染物类 不能通过传统的检测方法检测),其中组合物主要由单个大分子物类组成。溶剂物类、小分 子(< 500道尔顿)和元素离子物类不被认为是大分子物类。在一些实施方案中,分离的 改进酮还原酶多肽是大体纯的多肽组合物。本文使用的“严紧杂交”指核酸杂交体(hybrid)稳定的条件。如本领域技术人 员所知,杂交体的稳定性反映在杂交体的解链温度(TJ。一般而言,杂交体的稳定性是离 子强度、温度、G/C含量和促溶剂(chaotropic agent)的存在的函数。多核苷酸的Tm值可 使用用于预测解链温度的已知方法来计算(参见,例如,Baldino等,Methods Enzymology 168 -.761-777 ;Bolton 等,1962,Proc. Natl. Acad. Sci. USA 48 1390 ;Bresslauer 等,1986, Proc. Natl. Acad. Sci USA 83 :8893_8897 ;Freier 等,1986,Proc. Natl. Acad. Sci USA83 9373-9377 ;Kierzek 等,Biochemistry 25 7840-7846 ;Rychlik 等,1990,Nucleic Acids Res 18 :6409-6412(勘误,1991,Nucleic Acids Res 19:698) ;Sambrook 等,上文);Suggs 等,1981,于Developmental Biology UsingPurified Genes (使用纯化基因的发育生物学) (Brown等,编辑),第683-693页,Academic Press ;禾口Wetmur,1991,Crit Rev Biochem Mol Biol26 :227-259。所有出版物通过引用并入本文)。在一些实施方案中,多核苷酸编码本 文公开的多肽,并且在定义条件下诸如中等严紧或高严紧条件与编码本公开的工程酮还原 酶的序列的互补序列杂交。“杂交严紧件”涉及核酸杂交中诸如洗涤条件的杂交条件。一般而言,杂交反应在 较低严紧性条件下进行,然后进行可变但更高严紧性的洗涤。术语“中等严紧性杂交”指 允许靶DNA结合于与靶DNA具有约60%同一性、优选地约75%同一性、约85%同一性、与 靶多核苷酸具有高于约90%同一性的互补核酸的条件。示例性中等严紧性条件是等同于 在42°C下于50%甲酰胺、5x Denhart溶液、5xSSPE、0. 2 % SDS中杂交,然后在42 °C下于 0. 2xSSPE、0. 2% SDS中洗涤的条件。“高严紧性杂交”一般指比在确定的多核苷酸序列的溶 液条件下确定的热解链温度低约10°c或更少的条件。在一些实施方案中,高严紧性条件指 仅允许65°c下于0. 018M NaCl中形成稳定杂交体的那些核酸序列的杂交的条件(即如果杂 交体在65°C下于0. 018M NaCl中不稳定,其在高严紧性条件下将不稳定,如本文所涵盖)。 可例如通过在等同于42°C下50%甲酰胺、5x Denhart溶液、5x SSPE、0. 2% SDS中杂交、然 后通过65°C下于0. lx SSPE和0. SDS中洗涤的条件下杂交来提供高严紧性条件。另一 种高严紧性条件是在等同于65°C下在含有0. (w v)SDS的5X SSC中杂交并于65°C下 在含有0. 1% SDS的0. lx SSC中洗涤的杂交条件下杂交。其他高严紧性杂交条件以及中等 严紧性条件描述于上文引用的参考文献中。“显遯”多核苷酸指通过实验室技术被引入宿主细胞的任何多核苷酸,包括从宿主 细胞中移出、经受实验室操作然后重新引入宿主细胞的多核苷酸。“密码子优化”指编码蛋白的多核苷酸的密码子改变为在特定有机体中优先使用 的那些密码子,以便编码的蛋白在感兴趣的有机体中有效地表达。尽管遗传密码是简并的, 即大多数氨基酸由几个称为“同义”(synonyms)或“同义”(synonymous)密码子的密码子 代表,公知的是特定有机体的密码子使用是非随机的,并且偏向于特定的密码子三联体。这 种密码子使用偏好在特定基因、共同功能或祖先来源的基因、对比低拷贝数蛋白高表达的 蛋白和有机体基因组的聚集蛋白编码区中可能更高。在一些实施方案中,编码酮还原酶的 多核苷酸可进行密码子优化以便从选择用于表达的宿主有机体中最佳产生。“优诜、最佳、高密码子使用偏向密码子”可交换地指在蛋白编码区中的使用频 率高于编码相同氨基酸的其他密码子的密码子。优选密码子可根据单个基因、共同功能 或来源的一套基因、高表达基因中的密码子使用、整个有机体的聚集蛋白编码区中的密码 子频率、相关有机体的聚集蛋白编码区中的密码子频率或其组合来确定。其频率随基因 表达水平增加的密码子一般是用于表达的最佳密码子。用来确定特定有机体中密码子 频率(例如,密码子使用、相对同义密码子使用)和密码子偏爱性的多种方法是已知的, 包括多变量分析,例如,使用聚类分析或相关性分析和基因中使用的密码子的有效数目 (参见 GCG CodonPreference,Genetics Computer GroupWisconsin Package ;CodonW, John Peden,University of Nottingham ;Mclnerney, J.0,1998,Bioinformatics 14:
22372-73 ;Stenico 等,1994,NucleicAcids Res. 222437-46 ;Wright, F.,1990,Gene 87 23-29)。可获得不断增加的有机体清单的密码子使用表(参见例如,Wada等,1992, Nucleic Acids Res. 20 :2111_2118 ;Nakamura 等,2000,Nucl. Acids Res. 28 292 ;Duret 等,上文;Henaut 禾口 Danchin, “ Escherichia coli and Salmonella(大肠杆菌禾口沙门 氏菌),” 1996,Neidhardt,等编辑,ASM Press, Washington D. C.,第 2047-2066 页。用 于获得密码子使用的数据源可依赖于能编码蛋白的任何可获得的核苷酸序列。这些数 据集包括实际上已知来编码表达蛋白(例如,完整蛋白编码序列-CDS)、表达序列标签 (EST)或基因组序列的预测编码区的核酸序列(参见例如,Mount, D.,Bioinformatics Sequence and Genome Analysis (生物信息学序列和基因组分析),第8章,Cold Spring Harbor LaboratoryPress, Cold Spring Harbor, N. Y. , 2001 ;Uberbacher, E.C,1996, MethodsEnzymol. 266 :259_281 ;Tiwari 等,1997,Comput. Appl. Biosci. 13 :263_270)。“控制序列”在本文定义为包括对感兴趣的多核苷酸和/或多肽的表汰必需或有利 的所有组分。每种控制序列可以是编码多肽的核酸序列的天然或外源序列。此类控制序列 包括但不限于前导序列、多聚腺苷化序列、前体肽序列、启动子、信号肽序列和转录终止子。 控制序列至少包括启动子和转录和翻译终止信号。为了引入特定限制性酶切位点以促进控 制序列与感兴趣的多核苷酸例如编码多肽的核酸序列的编码区连接的目的,控制序列可提 供有接头。“可操作地连接”在本文定义为其中控制序列被适当地置于相对于多核苷酸序列 的某一位置(即处于功能性关系)以便控制序列指引多核苷酸和/或多核苷酸编码的多肽 的表达的构型。“启动子库列”是由宿主细胞识别用于多核苷酸表达的核酸序列。控制序列可包含 适当的启动子序列。启动子序列含有介导多核苷酸表达的转录控制序列。启动子可以是在 选择的宿主细胞中显示转录活性的任何核酸序列,包括突变、截短和杂合(hybrid)的启动 子,并且可获自编码与宿主细胞同源或异源的胞外或胞内多肽的基因。6. 2酮还原酶本公开提供了能将确定的酮底物立体选择性地还原为其对应的醇产物、并且当与 获自克菲尔乳杆菌(SEQ ID NO 2)或短乳杆菌(SEQ ID NO 4)或小乳杆菌(SEQ ID NO 98) 的天然存在的野生型KRED酶相比时或者当与其他工程酮还原酶相比时具有改进特性的工 程酮还原酶("KRED")。如本公开所示,野生型克菲尔乳杆菌或短乳杆菌或小乳杆菌酮 还原酶对2' ,6' -二氯-3'-氟苯乙酮的还原具有非常低的活性,如果有任何活性的话 (参见实施例)。野生型酶对更少的取代苯乙酮底物具有更高的活性,野生型酶一般选择性 地将苯乙酮还原为其对应的(R)_醇。野生型乳杆菌种酮还原酶将典型参考化合物苯乙酮 还原为(R)-l-苯乙醇,并且因此称为(R)_选择性酮还原酶或(R)_酮还原酶。然而,衍生 自野生型乳杆菌种酮还原酶的本公开的工程酮还原酶将苯乙酮还原为(S)-l-苯乙醇,并 且因此称为(S)-选择性酮还原酶或(S)-酮还原酶。因此,本公开的改进的酮还原酶多肽 与野生型克菲尔乳杆菌或短乳杆菌或小乳杆菌酮还原酶(ketoredutases)相比能反向对 映选择性地还原苯乙酮。这种反向对映选择性是基于将野生型酶位置190的残基优选地突 变为非芳族残基,特别是突变为脯氨酸残基。不限于理论,位于位置190的野生型酪氨酸残 基似乎与处于proj构象的底物不协调。因此,在一些实施方案中,本公开的酮还原酶多肽在对应于SEQ ID NO :2或4或98的位置190的残基处具有王是酪氨酸的残基。优选地,该 残基是非芳族残基,诸如,例如脂肪族、受限、非极性或半胱氨酸残基。在一些实施方案中, 该残基是脯氨酸。在一些实施方案中,如上文提到,具有改进酶特性的工程酮还原酶参考SEQ ID NO :4的克菲尔乳杆菌酮还原酶或SEQ ID NO :2的短乳杆菌或SEQ ID NO :98的小乳杆菌 酮还原酶描述。从起始甲硫氨酸(M)残基(即M代表残基位置1)开始确定酮还原酶中氨 基酸残基的位置,尽管熟练的技术人员将理解该起始甲硫氨酸残基可通过生物加工机制去 除,诸如在宿主细胞或体外翻译系统以产生缺少起始甲硫氨酸残基的成熟蛋白。特定氨基 酸或氨基酸改变位置处的氨基酸残基存在于氨基酸序列中,有时在本文描述为“Xn”或“位 置n”,其中n指残基位置。其中位于相同残基位置的氨基酸残基在酮还原酶之间不同时,不 同的残基可由"/"表示,排列为“克菲尔乳杆菌残基/短乳杆菌残基/小乳杆菌”。为参考 序列中氨基酸残基的替换的取代突变,例如具有不同氨基酸残基的SEQ ID NO :2和SEQ ID NO :4和SEQ ID NO :98的野生型酮还原酶可由符号〃一〃表示。本文中突变优势描述为突 变“为”一类氨基酸。例如,SEQ ID NO :2的残基16可被突变“为”极性残基。但是用短语 “为”不排除从一类氨基酸突变为相同类的另一个氨基酸。例如,SEQ ID NO :2的残基16是 极性残基苏氨酸,但是其可被突变为不同的极性残基,例如,突变可以是“T16S”(16 — S)的 突变。编码克菲尔乳杆菌、短乳杆菌或小乳杆菌的天然存在酮还原酶(也称为“ADH”或 “醇脱氢酶”)的天然存在多核苷酸可获自已知编码酮还原酶活性的分离的多核苷酸(例 如,克菲尔乳杆菌Genbank登录号AAP94029GI :33112056或SEQ ID NO :3;短乳杆菌: Genbank 登录号 CAD66648GL28400789 或 SEQ ID NO 1 ;和小乳杆菌SEQ ID NO 97)。在一些实施方案中,酮还原酶多肽的改进特性(与野生型或另一种工程多肽相 比)是关于其将式(III)的取代苯乙酮底物还原或转化为式(IV)的其对应的(s)-醇 产物的其立体选择性的增强。在一些实施方案中,酮还原酶特性的改进特性是关于其将 2' 6' -二氯-3-氟苯乙酮还原为(S)-l-(2,6-二氯-3-氟苯基)乙醇的立体选择性的增 加。在一些实施方案中,酮还原酶特性的改进特性是关于其将底物转化为产物的速率的增 加。在一些实施方案中,酮还原酶特性的改进特性是关于其稳定性或热稳定性。在一些实 施方案中,酮还原酶多肽具有超过一种改进的特性。在一些实施方案中,本文的酮还原酶多肽可具有对参考序列(例如天然存在的多 肽或工程多肽)的多种修饰,以导致改进的酮还原酶特性。如本文所用,“修饰”包括氨基酸 取代、缺失和插入。修饰的任一种或组合可被引入天然存在的或工程多肽,以产生工程酶。 在此类实施方案中,氨基酸序列的修饰数目可包括1个或多个氨基酸、2个或更多个氨基 酸、3个或更多个氨基酸、4个或更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8 个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸或20个或更多个氨基酸、 多达参考多肽序列的氨基酸总数的10%、多达参考多肽序列的氨基酸总数的10%、多达参 考多肽序列的氨基酸总数的15%、多达参考多肽序列的氨基酸总数的20%或多达参考多 肽序列的氨基酸总数的30%。在一些实施方案中,产生改进的酮还原酶特性的天然存在 多肽或工程多肽的修饰数目可包含从约1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11, 1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个参考序列的修
24饰。在一些实施方案中,修饰数目可以是1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,
22,24,26,30,35或约40个氨基酸残基。修饰可包含插入、缺失、取代或其组合。在一些实施方案中,修饰包含对参考序列的氨基酸取代。可产生改进的酮还原酶 特性的取代可以位于1个或多个氨基酸、2个或更多个氨基酸、3个或更多个氨基酸、4个或 更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更 多个氨基酸、15个或更多个氨基酸或20个或更多个氨基酸、多达参考酶序列的氨基酸总 数的10%、多达参考酶序列的氨基酸总数的10%、多达参考酶序列的氨基酸总数的20%或 多达参考酶序列的氨基酸总数的30%。在一些实施方案中,产生改进的酮还原酶特性的天 然存在多肽或工程多肽的取代数目可包含约1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10, 1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个参考序 列的氨基酸取代。在一些实施方案中,取代的数目可以是1,2,3,4,5,6,7,8,9,10,11,12, 14,15,16,18,20,22,24,26,30,35 或约 40 个氨基酸残基。在一些实施方案中,本文的酮还原酶多肽包含与基于SEQ ID N0:2、4或98的参 考序列具有至少约 85 %,86 %,87 %,88 %,89 %,90 %,91 %,92 %,93 %,94%,95 %,96 %, 97%,98%,99%或更高同一性的氨基酸序列,条件是该酮还原酶多肽在对应于X190的残 基处是酪氨酸之外的残基,特别是非芳族残基,所述参考序列在对应于X190的残基处具有 非芳族残基(例如,脂肪族、受限、非极性或半胱氨酸残基),优选地丙氨酸、异亮氨酸、半胱 氨酸或脯氨酸,特别是脯氨酸。在一些实施方案中,酮还原酶多肽具有其中对应于X190的 残基是脂肪族、受限、非极性或半胱氨酸残基的氨基酸序列。在一些实施方案中,酮还原酶 具有其中对应于X190的残基是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸特别是脯氨酸的氨基 酸序列。在一些实施方案中,这些酮还原酶多肽与参考氨基酸序列相比在其他残基位置可 具有1个或多个残基差异。差异包括各种修饰,诸如取代、缺失和插入。取代可以是非保 守取代、保守取代或非保守和保守取代的组合。在一些实施方案中,这些酮还原酶多肽与参 考序列相比可具有任选地在其他氨基酸残基处的约1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9, 1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个残 基差异。在一些实施方案中,与参考序列相比,差异的数目可以是在其他氨基酸残基处的1, 2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。在一些实施方案中,这些立体选择性或高度立体选择性(本文中能以至少约85% 的e. e.将底物还原为产物)的酮还原酶多肽包含对应于如SEQID NO :95,96和119所列的 序列式(或其区域或结构域,诸如残基90-211)的氨基酸序列。SEQ ID N0:95是基于短乳 杆菌酮还原酶的野生型氨基酸序列(SEQ ID N0:2) ;SEQ ID NO :96是基于克菲尔乳杆菌酮 还原酶的野生型氨基酸序列(SEQ ID N0:4) ;SEQ ID NO :119是基于小乳杆菌酮还原酶的 野生型氨基酸序列(SEQ ID N0:98)。基于SEQ ID NO :95,96或119的序列式的酮还原酶 指定对应于X190的残基是非芳族残基。在一些实施方案中,酮还原酶多肽具有其中对应于 X190的残基是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸的氨基酸序列。在一些实施方案中,酮 还原酶多肽具有其中对应于X190的残基是脯氨酸的氨基酸序列。在一些实施方案中,包含基于SEQ ID NO :95,96或119的序列式或其区域诸如残 基90-211的氨基酸序列、具有如本文所述的残基X190的指定特点的酮还原酶多肽还可包 括选自以下的一个或多个特点对应于X7的残基是芳族、非极性、极性、受限、酸性或碱性残基;对应于X16的残基是极性残基;对应于X43的残基是非极性或极性残基;对应于X60 的残基是芳族、非极性或脂肪族残基;对应于X94的残基是半胱氨酸、非极性或脂肪族残 基;对应于X95的残基是非极性或脂肪族残基;对应于X96的残基是极性或酸性残基;对应 于X97的残基是极性、非极性、脂肪族或碱性残基;对应于X120的残基是芳族、非极性或脂 肪族残基;对应于X125的残基是极性或非极性残基;对应于X142的残基是极性残基;对应 于X147的残基是芳族、极性、非极性或脂肪族残基;对应于X149的残基是非极性或芳族残 基;对应于X150的残基是受限或酸性残基;对应于X152的残基是非极性或极性残基;对应 于X196的残基是脂肪族、非极性或芳族残基;对应于X202的残基是脂肪族、芳族或非极性 残基;对应于X205的残基是碱性、非极性或脂肪族残基;和对应于X206的残基是非极性或 芳族残基。在一些实施方案中,氨基酸序列可具有所述特点中的2个、3个、4个、5个或6个 或更多。在一些实施方案中,包含对应于SEQ ID NO :95,96或119提供的序列式(或其区 域)的氨基酸序列的多肽与SEQ ID NO :2,4或98的参考序列相比可另外具有不由X指定的 突变的一个或多个残基。在一些实施方案中,突变可以是在不由上文X定义的其他氨基酸 残基处的约 1—2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18, 1-20,1-22,1-24,1-26,1-30,1-35或约1-40个突变。在一些实施方案中,突变的数目可以 是 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个其他氨基酸 残基。在一些实施方案中,突变包含保守突变。在一些实施方案中,包含基于SEQ ID NO :95,96或119的序列式或其区域诸如残 基90-211的氨基酸序列的多肽与SEQ ID NO :2,4或98的氨基酸序列相比可具有一个或多 个保守突变。示例性保守突变包括氨基酸置换,诸如但不限于用另一个极性残基例如天冬 酰胺、谷氨酰胺或丝氨酸置换对应于X16的残基苏氨酸(T);用另一个非极性或脂肪族残基 例如异亮氨酸置换对应于X43的残基缬氨酸;用脂肪族或芳族残基例如丙氨酸置换对应于 X60的残基;用另一个非极性或脂肪族残基例如缬氨酸、亮氨酸或异亮氨酸置换对应于X94 的残基丙氨酸(A);用另一个非极性或脂肪族残基例如丙氨酸、亮氨酸或异亮氨酸)置换对 应于X95的残基缬氨酸(V);用另一个极性残基例如天冬酰胺、谷氨酰胺或苏氨酸置换对应 于X96的残基丝氨酸(S);用另一个极性残基例如丝氨酸或天冬酰胺置换对应于X142的残 基丝氨酸(S);用另一个非极性或脂肪族残基例如丙氨酸、亮氨酸或异亮氨酸置换对应于 X196的残基缬氨酸(V);和用另一个非极性或脂肪族残基例如缬氨酸、亮氨酸或异亮氨酸 置换对应于X205的残基丙氨酸(A)。在一些实施方案中,包含基于SEQ ID N0:95,96或119的序列式或其区域诸如 残基90-211)、具有如本文所述的残基X190的指定特点的氨基酸序列的酮还原酶多肽还 可包括选自以下的一个或多个特点对应于X7的残基是色氨酸、酪氨酸、苯丙氨酸、脯氨 酸、组氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、谷氨酰 胺、天冬酰胺、精氨酸或赖氨酸,特别是甘氨酸、组氨酸、苏氨酸、脯氨酸、色氨酸、精氨酸、组 氨酸或天冬酰胺;对应于X16的残基是丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺,特别是丝氨 酸;对应于X43的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸,特别是异 亮氨酸;对应于X60的残基是酪氨酸、苯丙氨酸、色氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨 酸、亮氨酸或异亮氨酸,特别是丙氨酸;对应于X94的残基是半胱氨酸、甘氨酸、甲硫氨酸、 丙氨酸、缬氨酸、亮氨酸或异亮氨酸,特别是丙氨酸、缬氨酸或半胱氨酸;对应于X95的残基
26是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸,特别是异亮氨酸或亮氨酸;对应于 X96的残基是天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺,特别是丝氨酸、天 冬酰胺、苏氨酸或谷氨酸;对应于X97的残基是丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、甘氨 酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、赖氨酸或精氨酸,特别是赖氨酸、苏氨酸、 缬氨酸、精氨酸、甲硫氨酸或异亮氨酸;对应于X120的残基是酪氨酸、苯丙氨酸、色氨酸、 甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸,特别是苯丙氨酸或缬氨酸;对应于 X125的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸,特别是甘氨酸或丝氨 酸;对应于X142的残基是丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺残基,特别是天冬酰胺;对 应于X147的残基是酪氨酸、苯丙氨酸、色氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、 异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺,特别是苯丙氨酸、亮氨酸、异亮氨酸、缬氨 酸或谷氨酰胺;对应于X149的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨 酸、酪氨酸、苯丙氨酸或色氨酸,特别是甘氨酸或苯丙氨酸;对应于X150的残基是脯氨酸、 组氨酸、天冬氨酸或谷氨酸,特别是天冬氨酸或组氨酸;对应于X152的残基是甘氨酸、甲硫 氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺,特别是丝 氨酸、苏氨酸或甲硫氨酸;对应于X196的残基是酪氨酸、苯丙氨酸、色氨酸、甘氨酸、甲硫氨 酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸,特别是缬氨酸、异亮氨酸、甲硫氨酸、苯丙氨酸或异 亮氨酸;对应于X202的残基是酪氨酸、苯丙氨酸、色氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨 酸、亮氨酸或异亮氨酸,特别是丙氨酸、色氨酸、酪氨酸或甲硫氨酸;对应于X205的残基是 赖氨酸、精氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸,特别是精氨酸;和 对应于X206的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、酪氨酸、苯丙 氨酸、色氨酸,特别是甲硫氨酸或酪氨酸。在一些实施方案中,氨基酸序列可具有所述特点 中的2个、3个、4个、5个、6个或更多个。在一些实施方案中,包含对应于SEQ ID NO :95, 96或119提供的序列式(或其区域)的氨基酸序列的多肽与SEQ ID NO :2,4或98的参考 序列相比可另外具有不由X指定的突变的一个或多个残基。在一些实施方案中,突变可以 是在不由上文X定义的其他氨基酸残基处的约1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10, 1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个突变。在 一些实施方案中,突变的数目可以是 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22, 24,26,30,35或约40个其他氨基酸残基。在一些实施方案中,突变包含保守突变。
在一些实施方案中,包含基于SEQ ID N0:95,96或119的序列式或其区域诸如 残基90-211、具有如本文所述对应于X190的残基处的特点的氨基酸序列的立体选择性酮 还原酶多肽可另外具有以下特点的一个或多个或至少所有特点对应于X147的残基是芳 族、极性、非极性或脂肪族残基,特别是谷氨酰胺、异亮氨酸或亮氨酸,和对应于X202的残 基是脂肪族、芳族或非极性残基,特别是色氨酸、甲硫氨酸或酪氨酸。在一些实施方案中, 与SEQ ID NO :2,4或98的参考序列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22, 1-24,1-26,1-30,1-35或约1_40个残基差异。在一些实施方案中,差异的数目可以是在其 他氨基酸残基处的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40个残基差异。在一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多 肽包含具有至少前述特点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQID NO :2,4 或98 的参考序列具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%, 94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,包含基于SEQ ID NO :95,96或119的序列式或其区域诸如残 基90-211、具有如本文所述对应于X190的残基处的特点的氨基酸序列的立体选择性酮还 原酶多肽可另外具有以下特点的一个或多个或至少所有特点对应于X7的残基是芳族、 非极性、极性、受限或碱性残基,特别是组氨酸、色氨酸、脯氨酸、苏氨酸或精氨酸;对应于 X147的残基是芳族、极性、非极性或脂肪族残基,特别是谷氨酰胺、异亮氨酸或亮氨酸;和 对应于X202的残基是脂肪族、芳族或非极性残基,特别是色氨酸、甲硫氨酸或酪氨酸。在一 些实施方案中,与SEQ ID NO :2,4或98的参考序列相比,酮还原酶多肽可另外具有在其他 氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16, 1-18,1-20,1-22,1-24,1-26,1-30,1-35或约1-40个残基差异。在一些实施方案中,差异 的数目可以是在其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22, 24,26,30,35或约40个残基差异。在一些实施方案中,差异包含保守突变。在一些实施方案 中,酮还原酶多肽包含具有至少前述特点的氨基酸序列,并且其中氨基酸序列与具有前述 特点的基于SEQ ID NO :2,4或98的参考序列具有至少85%,86%,87%,88%,89%,90%, 91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,包含基于SEQ ID NO :95,96或119的序列式或其区域(诸如残 基90-211)、具有如本文所述对应于X190的残基处的特点的氨基酸序列的立体选择性酮还 原酶多肽可另外具有以下特点的一个或多个或至少所有特点对应于X7的残基是芳族、非 极性、极性、受限或碱性残基,特别是组氨酸、色氨酸、脯氨酸、苏氨酸或精氨酸;对应于X97 的残基是极性、非极性、脂肪族或碱性残基,特别是甲硫氨酸、缬氨酸、异亮氨酸、苏氨酸或 精氨酸;对应于X147的残基是芳族、极性、非极性或脂肪族残基,特别是谷氨酰胺、异亮氨 酸或亮氨酸;对应于X202的残基是脂肪族、芳族或非极性残基,特别是色氨酸、甲硫氨酸或 酪氨酸。在一些实施方案中,与SEQ ID NO :2,4或98的参考序列相比,酮还原酶多肽可另外 具有在其他氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14, 1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个残基差异。在一些实施方 案中,差异的数目可以是在其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16, 18,20,22,24,26,30,35或约40个残基差异。在一些实施方案中,差异包含保守突变。在一 些实施方案中,酮还原酶多肽包含具有至少前述特点的氨基酸序列,并且其中氨基酸序列 与具有前述特点的基于SEQ ID NO :2,4或98的参考序列具有至少85%,86%,87%,88%, 89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,包含基于SEQ ID NO :95,96或119的序列式或其区域诸如残 基90-211、具有如本文所述对应于X190的残基处的特点的氨基酸序列的立体选择性酮还 原酶多肽可另外具有以下特点的一个或多个或至少所有特点对应于X94的残基是半胱氨 酸、非极性或脂肪族残基,特别是半胱氨酸或缬氨酸;对应于X96的残基是极性或酸性残 基,特别是苏氨酸;和对应于X147的残基是芳族、极性、非极性或脂肪族残基,特别是谷氨 酰胺、异亮氨酸或亮氨酸。在一些实施方案中,与SEQ ID NO :2,4或98的参考序列相比,酮 还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10, 1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个残基差
28异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10, 11,12,14,15,16,18,20,22,24,26,30,35或约40个残基差异。在一些实施方案中,差异包 含保守突变。在一些实施方案中,酮还原酶多肽包含具有至少前述特点的氨基酸序列,并 且其中氨基酸序列与具有前述特点的基于SEQ IdNO :2,4或98的参考序列具有至少85%, 86 %,87 %,88 %,89 %,90 %,91 %,92 % 1,93 %,94 %,95 %,96 %,97 %,98 % 或 99 % 同一 性。在一些实施方案中,包含基于SEQ ID NO :95,96或119的序列式或其区域诸如残 基90-211、具有如本文所述对应于X190的残基处的特点的氨基酸序列的立体选择性酮还 原酶多肽可另外具有以下特点的一个或多个或至少所有特点对应于X7的残基是芳族、 非极性、极性、受限或碱性残基,特别是组氨酸、色氨酸、脯氨酸、苏氨酸或精氨酸;对应于 X147的残基是芳族、极性、非极性或脂肪族残基,特别是谷氨酰胺、异亮氨酸或亮氨酸;对 应于X196的残基是脂肪族、非极性或芳族残基,特别是缬氨酸、异亮氨酸、甲硫氨酸、苯丙 氨酸或异亮氨酸;和对应于X202的残基是脂肪族、芳族或非极性残基,特别是色氨酸、甲硫 氨酸或酪氨酸。在一些实施方案中,与SEQ ID NO :2,4或98的参考序列相比,酮还原酶多肽 可另外具有在其他氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12, 1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个残基差异。在一些 实施方案中,差异的数目可以是在其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10,11,12,14, 15,16,18,20,22,24,26,30,35或约40个残基差异。在一些实施方案中,差异包含保守突 变。在一些实施方案中,酮还原酶多肽包含具有至少前述特点的氨基酸序列,并且其中氨基 酸序列与具有前述特点的基于SEQ ID NO :2,4或98的参考序列具有至少85%,86%,87%, 88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,包含基于SEQ ID NO :95,96或119的序列式或其区域诸如残 基90-211、具有如本文所述对应于X190的残基处的特点的氨基酸序列的立体选择性酮还 原酶多肽可另外具有以下特点的一个或多个或至少所有特点对应于X147的残基是芳族、 极性、非极性或脂肪族残基,特别是谷氨酰胺、异亮氨酸或亮氨酸;对应于X196的残基是脂 肪族、非极性或芳族残基,特别是缬氨酸、异亮氨酸、甲硫氨酸、苯丙氨酸或异亮氨酸;和对 应于X202的残基是脂肪族、芳族或非极性残基。在一些实施方案中,与SEQ ID N0:2,4或 98的参考序列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5, 1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30, 1-35或约1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处 的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。 在一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有至少前 述特点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID N0:2,4或98的 参考序列具有至少 85 %,86 %,87 %,88 %,89 %,90 %,91 %,92 %,93 %,94 %,95 %,96 %, 97%,98%或 99% 同一性。在一些实施方案中,包含基于SEQ ID NO :95,96或119的序列式或其区域诸如残 基90-211、具有如本文所述对应于X190的残基处的特点的氨基酸序列的立体选择性酮还 原酶多肽可另外具有以下特点的一个或多个或至少所有特点对应于X7的残基是芳族、非 极性、极性、受限或碱性残基,特别是组氨酸、色氨酸、脯氨酸、苏氨酸或精氨酸;对应于X96的残基是极性或酸性残基,特别是苏氨酸;对应于X147的残基是芳族、极性、非极性或脂肪 族残基,特别是谷氨酰胺、异亮氨酸或亮氨酸;对应于X196的残基是脂肪族、非极性或芳 族残基,特别是缬氨酸、异亮氨酸、甲硫氨酸、苯丙氨酸或异亮氨酸;和对应于X202的残基 是脂肪族、芳族或非极性残基,特别是色氨酸、甲硫氨酸或酪氨酸。在一些实施方案中,与 SEQ ID N0:2,4或98的参考序列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22, 1-24,1-26,1-30,1-35或约1_40个残基差异。在一些实施方案中,差异的数目可以是在其 他氨基酸残基处的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40个残基差异。在一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多 肽包含具有至少前述特点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID NO :2,4 或 98 的参考序列具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%, 94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;和对应于X7的 残基是芳族、非极性、极性、受限或碱性残基,特别是组氨酸、色氨酸、脯氨酸、苏氨酸或精氨 酸。在一些实施方案中,与SEQ ID NO :2,4或98的参考序列相比,酮还原酶多肽可另外 具有在其他氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14, 1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个残基差异。在一些实施方 案中,差异的数目可以是在其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16, 18,20,22,24,26,30,35或约40个残基差异。在一些实施方案中,差异包含保守突变。在一 些实施方案中,酮还原酶多肽包含具有至少前述特点的氨基酸序列,并且其中氨基酸序列 与具有前述特点的基于SEQ ID NO :2,4或98的参考序列具有至少85%,86%,87%,88%, 89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;对应于X16的残 基是极性残基,特别是丝氨酸。在一些实施方案中,与SEQ ID NO :2,4或98的参考序列相 比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9, 1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个残 基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处的1,2,3,4,5,6,7,8, 9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。在一些实施方案中, 差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有至少前述特点的氨基酸序 列,并且其中氨基酸序列与具有前述特点的基于SEQ ID NO :2,4或98的参考序列具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同 一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;和对应于X43的
30残基是非极性或脂肪族残基,特别是异亮氨酸。在一些实施方案中,与SEQ ID N0:2,4或98 的参考序列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5,1-6, 1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处的1, 2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。在一 些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有至少前述特 点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID N0:2,4或98的参考 序列具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%, 98%或99%同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸,和对应于X60的 残基是芳族、非极性或脂肪族残基,特别是丙氨酸。在一些实施方案中,与SEQ ID N0:2,4或 98的参考序列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5, 1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30, 1-35或约1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处 的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。 在一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有至少前 述特点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID N0:2,4或98的 参考序列具有至少 85 %,86%,87%,88 %,89%,90%,91 %,92 %,93%,94%,95 %,96%, 97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID N0:95,96或119的序列 式或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应 于X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸,和对应于X94 的残基是半胱氨酸、非极性或脂肪族残基,特别是半胱氨酸或缬氨酸。在一些实施方案中, 与SEQ IDN0:2,4或98的参考序列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22, 1-24,1-26,1-30,1-35或约1_40个残基差异。在一些实施方案中,差异的数目可以是在其 他氨基酸残基处的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40个残基差异。在一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多 肽包含具有至少前述特点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID NO :2,4 或98 的参考序列具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%, 94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸,和对应于X95的 残基是非极性或脂肪族残基,特别是亮氨酸或异亮氨酸。在一些实施方案中,与SEQ ID NO 2,4或98的参考序列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4, 1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35或约1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残 基处的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差
异。在一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有至 少前述特点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ IDN0 :2,4或 98 的参考序列具有至少 85%,86%,87%,88%,89%,90%,91 %,92%,93%,94%,95%, 96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸,和对应于X96的 残基是极性或酸性残基,特别是苏氨酸或谷氨酸。在一些实施方案中,与SEQ ID N0:2,4或 98的参考序列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5, 1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30, 1-35或约1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处 的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。 在一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有至少前 述特点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID N0:2,4或98的 参考序列具有至少 85 %,86 %,87 %,88 %,89 %,90 %,91 %,92 %,93 %,94 %,95 %,96 %, 97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸,和对应于X97的 残基是极性、非极性、脂肪族或碱性残基,特别是甲硫氨酸、缬氨酸、异亮氨酸、苏氨酸或精 氨酸。在一些实施方案中,与SEQ ID NO :2,4或98的参考序列相比,酮还原酶多肽可另外 具有在其他氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14, 1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个残基差异。在一些实施方 案中,差异的数目可以是在其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16, 18,20,22,24,26,30,35或约40个残基差异。在一些实施方案中,差异包含保守突变。在一 些实施方案中,酮还原酶多肽包含具有至少前述特点的氨基酸序列,并且其中氨基酸序列 与具有前述特点的基于SEQ ID NO :2,4或98的参考序列具有至少85%,86%,87%,88%, 89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸,和对应于X120的 残基是芳族、非极性或脂肪族残基,特别是缬氨酸。在一些实施方案中,与SEQ ID N0:2,4或 98的参考序列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5, 1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30, 1-35或约1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处 的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。 在一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有至少前
32述特点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID N0:2,4或98的 参考序列具有至少 85 %,86%,87%,88 %,89%,90%,91 %,92 %,93%,94%,95 %,96%, 97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸,和对应于X125的 残基是极性或非极性残基,特别是丝氨酸。在一些实施方案中,与SEQ ID N0:2,4或98的参 考序列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5,1-6,1-7, 1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处的1,2,3,4, 5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。在一些实施 方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有至少前述特点的氨 基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID NO :2,4或98的参考序列具 有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99%同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸,和对应于X142的 残基是极性残基,特别是天冬酰胺。在一些实施方案中,与SEQ ID N0:2,4或98的参考序 列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5,1-6,1-7,1-8, 1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个残基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处的1,2,3,4,5,6, 7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。在一些实施方案 中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有至少前述特点的氨基 酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID NO :2,4或98的参考序列具 有至少 85%,86%,87%,88%,89%, %,91%,92%,93%,94%,95%,96%,97%,98%或 99%同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸,和对应于X147的 残基是芳族、极性、非极性、或脂肪族残基,特别是谷氨酰胺、亮氨酸或异亮氨酸。在一些实 施方案中,与SEQ ID NO :2,4或98的参考序列相比,酮还原酶多肽可另外具有在其他氨基 酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18, 1-20,1-22,1-24,1-26,1-30,1-35或约1-40个残基差异。在一些实施方案中,差异的数目 可以是在其他氨基酸残基处的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26, 30,35或约40个残基差异。在一些实施方案中,差异包含保守突变。在一些实施方案中,酮 还原酶多肽包含具有至少前述特点的氨基酸序列,并且其中氨基酸序列与具有前述特点的 基于 SEQ ID NO :2,4 或 98 的参考序列具有至少 85%,86%,87%,88%,89%,90%,91%, 92%,93%,94%,95%,96%,97%,98%或 99% 同一性。
在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸,和对应于X149的 残基是非极性或芳族残基,特别是苯丙氨酸。在一些实施方案中,与SEQ ID NO :2,4或98 的参考序列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5,1-6, 1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处的1, 2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。在一 些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有至少前述特 点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID N0:2,4或98的参考 序列具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%, 98%或99%同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸,和对应于X150的 残基是受限或酸性残基,特别是组氨酸。在一些实施方案中,与SEQ ID N0:2,4或98的参 考序列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5,1-6,1-7, 1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处的1,2,3,4, 5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。在一些实施 方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有至少前述特点的氨 基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID NO :2,4或98的参考序列具 有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99%同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸,和对应于X152的 残基是非极性或极性残基,特别是甲硫氨酸。在一些实施方案中,与SEQ ID N0:2,4或98 的参考序列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5,1-6, 1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处的1, 2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。在一 些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有至少前述特 点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID N0:2,4或98的参考 序列具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%, 98%或99%同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列 式或其区域诸如残基90-211的序列式的氨基酸序列,其中该氨基酸序列具有至少以下特 点对应于X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸,和对
34应于X196的残基是脂肪族、非极性或芳族残基,特别是甲硫氨酸、异亮氨酸、亮氨酸或苯丙 氨酸。在一些实施方案中,与SEQ ID NO :2,4或98的参考序列相比,酮还原酶多肽可另外 具有在其他氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14, 1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个残基差异。在一些实施方 案中,差异的数目可以是在其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16, 18,20,22,24,26,30,35或约40个残基差异。在一些实施方案中,差异包含保守突变。在一 些实施方案中,酮还原酶多肽包含具有至少前述特点的氨基酸序列,并且其中氨基酸序列 与具有前述特点的基于SEQ ID NO :2,4或98的参考序列具有至少85%,86%,87%,88%, 89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸,和对应于X202的 残基是脂肪族、芳族或非极性残基,特别是甲硫氨酸、酪氨酸或色氨酸。在一些实施方案中, 与SEQ ID NO :2,4或98的参考序列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22, 1-24,1-26,1-30,1-35或约1_40个残基差异。在一些实施方案中,差异的数目可以是在其 他氨基酸残基处的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40个残基差异。在一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多 肽包含具有至少前述特点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID NO :2,4 或 98 的参考序列具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%, 94%,95%,96%,97%,98%^; 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;和对应于X205的 残基是碱性、非极性或脂肪族残基,特别是精氨酸或缬氨酸。在一些实施方案中,与SEQ ID N0:2,4或98的参考序列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3, 1-4,1-5,1-6,1-7,1-8,1-9,1-10,11-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24, 1-26,1-30,1-35或约1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨 基酸残基处的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个 残基差异。在一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含 具有至少前述特点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ IDN0 2,4 或 98 的参考序列具有至少 85%, 86%, 87%, 88%, 89%, 90%, 91 %,92%, 93%, 94%, 95%,96%,97%,98% 或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸,和对应于X206的 残基是非极性或芳族残基,特别是酪氨酸。在一些实施方案中,与SEQ ID N0:2,4或98的参 考序列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5,1-6,1-7, 1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处的1,2,3,4, 5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。在一些实施 方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有至少前述特点的氨 基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID NO :2,4或98的参考序列具 有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99%同一性。在一些实施方案中,本公开的改进的酮还原酶包含具有列于下文表2中突变集的 任一种的氨基酸序列。在一些实施方案中,该多肽与包含选自SEQ DyF NO :6,8,10,12,14, 16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64, 66,68,70,72,74,76,78,80,82,84,86,88,90,92 和 94 的氨基酸序列的多肽具有至少 85%, 86 %,87 %,88 %,89 %,90 %,91 %,92 %,93 %,94 %,95 %,96 %,97 %,98 % 或 99 %序列同 一性,其中该酮还原酶多肽的氨基酸序列包括列于表2中的取代组合的任一套。在一些 实施方案中,与参考序列相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3, 1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24, 1-26,1-30,1-35或约1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨基 酸残基处的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残 基差异。在一些实施方案中,差异包含保守突变。在一些实施方案中,改进的酮还原酶多肽包含选自SEQ ID NO =6,8,10,12,14,16, 18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66, 68,70,72,74,76,78,80,82,84,86,88,90,92 和 94 的氨基酸序列。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸,和对应于X196的 残基是脂肪族、非极性或芳族残基,特别是甲硫氨酸、异亮氨酸、亮氨酸或苯丙氨酸。在一些 实施方案中,与具有前述特点的SEQ ID NO :2,4或98的参考序列诸如SEQ IDN0 :8,10,14, 16,24,26或48相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1_2,1-3,1-4,1-5, 1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30, 1-35或约1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处 的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。 在一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有前述特 点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID N0:2,4或98的参考 序列(例如 SEQ ID NO :8,10,14,16,24,26 或 48)具有至少 85%,86%,87%,88%,89%, 90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;对应于X125的残 基是极性或非极性残基,特别是丝氨酸;和对应于X196的残基是脂肪族、非极性或芳族残 基,特别是甲硫氨酸、异亮氨酸、亮氨酸或苯丙氨酸。在一些实施方案中,与具有前述特点的 SEQ ID NO :2,4或98的参考序列诸如SEQ ID NO :52相比,酮还原酶多肽可另外具有在其他
36氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16, 1-18,1-20,1-22,1-24,1-26,1-30,1-35或约1-40个残基差异。在一些实施方案中,差异 的数目可以是在其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22, 24,26,30,35或约40个残基差异。在一些实施方案中,差异包含保守突变。在一些实施方案 中,酮还原酶多肽包含具有至少前述特点的氨基酸序列,并且其中氨基酸序列与具有前述 特点的基于SEQ ID NO :2,4或98的参考序列(例如SEQ ID NO 52)具有至少85%,86%, 87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;对应于X95的残 基是非极性或脂肪族残基,特别是亮氨酸或异亮氨酸;和对应于X196的残基是脂肪族、非 极性或芳族残基,特别是甲硫氨酸、异亮氨酸、亮氨酸或苯丙氨酸。在一些实施方案中,与具 有前述特点的SEQ ID NO :2,4或98的参考序列诸如SEQ IDN0 :20,62或64相比,酮还原酶 多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11, 1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个残基差异。在 一些实施方案中,差异的数目可以是在其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10,11, 12,14,15,16,18,20,22,24,26,30,35或约40个残基差异。在一些实施方案中,差异包含 保守突变。在一些实施方案中,酮还原酶多肽包含具有前述特点的氨基酸序列,并且其中氨 基酸序列与具有前述特点的基于SEQ ID NO :2,4或98的参考序列(例如SEQ ID NO 20, 62 或 64)具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%, 97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;对应于X196的残 基是脂肪族、非极性或芳族残基,特别是甲硫氨酸、异亮氨酸、亮氨酸或苯丙氨酸;和对应于 X206的残基是非极性或芳族残基,特别是酪氨酸。在一些实施方案中,与具有前述特点的 SEQ ID NO :2,4或98的参考序列诸如SEQ ID NO :36相比,酮还原酶多肽可另外具有在其他 氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16, 1-18,1-20,1-22,1-24,1-26,1-30,1-35或约1-40个残基差异。在一些实施方案中,差异 的数目可以是在其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22, 24,26,30,35或约40个残基差异。在一些实施方案中,差异包含保守突变。在一些实施方案 中,酮还原酶多肽包含具有至少前述特点的氨基酸序列,并且其中氨基酸序列与具有前述 特点的基于SEQ ID NO :2,4或98的参考序列(例如SEQ ID NO 36)具有至少85%,86%, 87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;对应于X7的残基 是芳族、非极性、极性、受限或碱性残基,特别是组氨酸、色氨酸、脯氨酸、苏氨酸或精氨酸; 和对应于X196的残基是脂肪族、非极性或芳族残基,特别是甲硫氨酸、异亮氨酸、亮氨酸或苯丙氨酸。在一些实施方案中,与具有前述特点的SEQID而2,4或98的参考序列诸如5£0 ID NO 54或56相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5, 1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30, 1-35或约1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。在 一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有至少前述 特点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID N0:2,4或98的参 考序列(例如 SEQ IDN0 :54 或 56)具有至少 85%,86%,87%,88%,89%,90%,91 %,92%, 93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;对应于X147的 残基是芳族、极性、非极性或脂肪族残基,特别是谷氨酰胺、异亮氨酸或亮氨酸;和对应于 X196的残基是脂肪族、非极性或芳族残基,特别是甲硫氨酸、异亮氨酸、亮氨酸或苯丙氨酸。 在一些实施方案中,与具有前述特点的SEQ ID NO :2,4或98的参考序列诸如SEQ ID NO 22,66,68或72相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1_2,1-3,1-4,1-5, 1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30, 1-35或约1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。在 一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有前述特点 的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID N0:2,4或98的参考序 列(例如 SEQ ID NO :22,66,68 或 72)具有至少 85%,86%,87%,88%,89%,90%,91%, 92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;对应于X196的残 基是脂肪族、非极性或芳族残基,特别是甲硫氨酸、异亮氨酸、亮氨酸或苯丙氨酸;和对应于 X202的残基是脂肪族、芳族或非极性残基,特别是甲硫氨酸、酪氨酸或色氨酸。在一些实施 方案中,与具有前述特点的SEQ ID NO :2,4或98的参考序列诸如SEQ ID N0:28,30或32相 比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9, 1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个残 基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处的1,2,3,4,5,6,7,8, 9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。在一些实施方案中, 差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有前述特点的氨基酸序列,并 且其中氨基酸序列与具有前述特点的基于SEQ ID NO :2,4或98的参考序列(例如SEQ ID NO :28,30 或 32)具有至少 85%,86%,87%,88%,89%,90%,91 %,92%,93%,94%,95%, 96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;对应于X152的残 基是非极性或极性残基,特别是甲硫氨酸;对应于X196的残基是脂肪族、非极性或芳族残 基,特别是甲硫氨酸、异亮氨酸、亮氨酸或苯丙氨酸;和对应于X205的残基是碱性、非极性 或脂肪族残基,特别是精氨酸或缬氨酸。在一些实施方案中,与具有前述特点的SEQ ID NO 2,4或98的参考序列诸如SEQ ID NO :20相比,酮还原酶多肽可另外具有在其他氨基酸残基 处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20, 1-22,1-24,1-26,1-30,1-35或约1_40个残基差异。在一些实施方案中,差异的数目可以是 在其他氨基酸残基处的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约40个残基差异。在一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原 酶多肽包含具有前述特点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID NO :2,4 或 98 的参考序列(例如 SEQ ID NO 20)具有至少 85%,86%,87%,88%,89%, 90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;对应于X43的残 基是非极性或脂肪族残基,特别是异亮氨酸;对应于X147的残基是芳族、极性、非极性或脂 肪族残基,特别是谷氨酰胺、异亮氨酸或亮氨酸;对应于X196的残基是脂肪族、非极性或芳 族残基,特别是甲硫氨酸、异亮氨酸、亮氨酸或苯丙氨酸。在一些实施方案中,与具有前述特 点的SEQ ID NO :2,4或98的参考序列诸如SEQ ID NO :70相比,酮还原酶多肽可另外具有 在其他氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15, 1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个残基差异。在一些实施方案中, 差异的数目可以是在其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18, 20,22,24,26,30,35或约40个残基差异。在一些实施方案中,差异包含保守突变。在一些 实施方案中,酮还原酶多肽包含具有前述特点的氨基酸序列,并且其中氨基酸序列与具有 前述特点的基于SEQ ID NO :2,4或98的参考序列(例如SEQ ID NO 70)具有至少85%, 86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;对应于X94的残 基是半胱氨酸、非极性或脂肪族残基,特别是半胱氨酸或缬氨酸;对应于X196的残基是脂 肪族、非极性或芳族残基,特别是甲硫氨酸、异亮氨酸、亮氨酸或苯丙氨酸;和对应于X205 的残基是芳族、极性、非极性或脂肪族残基,特别是谷氨酰胺、亮氨酸或异亮氨酸。在一些实 施方案中,与具有前述特点的SEQ IDN0:2,4或98的参考序列诸如SEQ ID N0:34相比,酮 还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10, 1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个残基差 异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10, 11,12,14,15,16,18,20,22,24,26,30,35或约40个残基差异。在一些实施方案中,差异包 含保守突变。在一些实施方案中,酮还原酶多肽包含具有前述特点的氨基酸序列,并且其中 氨基酸序列与具有前述特点的基于SEQ ID NO :2,4或98的参考序列(例如SEQ ID NO 34)
39具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98% 或99%同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;对应于X97的残 基是极性、非极性、脂肪族或碱性残基,特别是精氨酸、缬氨酸、甲硫氨酸、苏氨酸或异亮氨 酸;对应于X147的残基是芳族、极性、非极性或脂肪族残基,特别是谷氨酰胺、异亮氨酸或 亮氨酸;和对应于X196的残基是脂肪族、非极性或芳族残基,特别是甲硫氨酸、异亮氨酸、 亮氨酸或苯丙氨酸。在一些实施方案中,与具有前述特点的SEQ ID N0:2,4或98的参考 序列诸如SEQ ID NO 74相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1_2,1-3, 1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24, 1-26,1-30,1-35或约1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨基 酸残基处的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残 基差异。在一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具 有前述特点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID N0:2,4或 98 的参考序列(例如 SEQ ID NO 74)具有至少 85 %,86 %,87 %,88 %,89%,90 %,91 %, 92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID N0:95,96或119的序列 式或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应 于X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;对应于X7的 残基是芳族、非极性、极性、受限或碱性残基,特别是组氨酸、苏氨酸、脯氨酸、色氨酸或精氨 酸;对应于X147的残基是芳族、极性、非极性或脂肪族残基,特别是谷氨酰胺、异亮氨酸或 亮氨酸;对应于X196的残基是脂肪族、非极性或芳族残基,特别是甲硫氨酸、异亮氨酸、亮 氨酸或苯丙氨酸;和对应于X202的残基是脂肪族、芳族或非极性残基,特别是甲硫氨酸、酪 氨酸或色氨酸。在一些实施方案中,与具有前述特点的SEQ ID NO :2,4或98的参考序列诸 如SEQ ID NO :40,76,78,80或82相比,酮还原酶多肽可另外具有在其他氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22, 1-24,1-26,1-30,1-35或约1_40个残基差异。在一些实施方案中,差异的数目可以是在其 他氨基酸残基处的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40个残基差异。在一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽 包含具有前述特点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID NO 2,4 或 98 的参考序列(例如 SEQ ID NO :40,76,78,80 或 82)具有至少 85 %,86 %,87 %, 88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;对应于X7的残基 是芳族、非极性、极性、受限或碱性残基,特别是组氨酸、苏氨酸、脯氨酸、色氨酸或精氨酸; 对应于X94的残基是半胱氨酸、非极性或脂肪族残基,特别是半胱氨酸或缬氨酸;对应于 X147的残基是芳族、极性、非极性或脂肪族残基,特别是谷氨酰胺、亮氨酸或异亮氨酸;对应于X196的残基是脂肪族、非极性或芳族残基,特别是甲硫氨酸、异亮氨酸、亮氨酸或苯丙 氨酸;和对应于X202的残基是脂肪族、芳族或非极性残基,特别是甲硫氨酸、酪氨酸或色氨 酸。在一些实施方案中,与具有前述特点的SEQ ID而2,4或98的参考序列诸如3£0 ID NO 42相比,酮还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5,1-6,1-7, 1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40个残基差异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处的1,2,3,4, 5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个残基差异。在一些实施 方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有前述特点的氨基酸 序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID NO :2,4或98的参考序列(例如 SEQ ID NO 42)具有至少 85%,86%,87%,88%,89%,90%,91 %,92%,93%,94%,95%, 96%,97%,98% 或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID N0:95,96或119的序列 式或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应 于X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;对应于X7的 残基是芳族、非极性、极性、受限或碱性残基,特别是组氨酸、苏氨酸、脯氨酸、色氨酸或精氨 酸;对应于X94的残基是半胱氨酸、非极性或脂肪族残基,特别是半胱氨酸或缬氨酸;对应 于X147的残基是芳族、极性、非极性或脂肪族残基,特别是谷氨酰胺、亮氨酸或异亮氨酸; 对应于X149的残基是非极性或芳族残基,特别是苯丙氨酸;对应于X150的残基是受限或 酸性残基,特别是组氨酸;对应于X196的残基是脂肪族、非极性或芳族残基,特别是甲硫氨 酸、异亮氨酸、亮氨酸或苯丙氨酸;和对应于X202的残基是脂肪族、芳族或非极性残基,特 别是甲硫氨酸、酪氨酸或色氨酸。在一些实施方案中,与具有前述特点的SEQ ID N0:2,4或 98的参考序列诸如SEQ ID NO :84相比,酮还原酶多肽可另外具有在其他氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22, 1-24,1-26,1-30,1-35或约1_40个残基差异。在一些实施方案中,差异的数目可以是在其 他氨基酸残基处的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40个残基差异。在一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽 包含具有前述特点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID NO 2,4 或 98 的参考序列(例如 SEQ ID NO 84)具有至少 85%,86%,87%,88%,89%,90%, 91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;对应于X7的残基 是芳族、非极性、极性、受限或碱性残基,特别是组氨酸、苏氨酸、脯氨酸、色氨酸或精氨酸; 对应于X96的残基是极性或酸性残基,特别是苏氨酸或谷氨酸;对应于X147的残基是芳族、 极性、非极性或脂肪族残基,特别是谷氨酰胺、亮氨酸或异亮氨酸;对应于X196的残基是脂 肪族、非极性或芳族残基,特别是甲硫氨酸、异亮氨酸、亮氨酸或苯丙氨酸;和对应于X202 的残基是脂肪族、芳族或非极性残基,特别是甲硫氨酸、酪氨酸或色氨酸。在一些实施方案 中,与具有前述特点的SEQ ID NO :2,4或98的参考序列诸如SEQ ID NO :44或46相比,酮 还原酶多肽可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,
411-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个残基差 异。在一些实施方案中,差异的数目可以是在其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10, 11,12,14,15,16,18,20,22,24,26,30,35或约40个残基差异。在一些实施方案中,差异包 含保守突变。在一些实施方案中,酮还原酶多肽包含具有前述特点的氨基酸序列,并且其 中氨基酸序列与具有前述特点的基于SEQ ID NO :2,4或98的参考序列(例如SEQ ID NO 44 或 46)具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%, 97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列 式或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应 于X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;对应于X7的 残基是芳族、非极性、极性、受限或碱性残基,特别是组氨酸、苏氨酸、脯氨酸、色氨酸或精氨 酸;对应于X96的残基是极性或酸性残基,特别是苏氨酸或谷氨酸;对应于X120的残基是 芳族、非极性或脂肪族残基,特别是缬氨酸;对应于X147的残基是芳族、极性、非极性或脂 肪族残基,特别是谷氨酰胺、亮氨酸或异亮氨酸;对应于X196的残基是脂肪族、非极性或芳 族残基,特别是甲硫氨酸、异亮氨酸、亮氨酸或苯丙氨酸;和对应于X202的残基是脂肪族、 芳族或非极性残基,特别是甲硫氨酸、酪氨酸或色氨酸。在一些实施方案中,与具有前述特 点的SEQ ID NO :2,4或98的参考序列诸如SEQ ID NO 86相比,酮还原酶多肽可另外具有 在其他氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15, 1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或约 1-40 个残基差异。在一些实施方案中, 差异的数目可以是在其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18, 20,22,24,26,30,35或约40个残基差异。在一些实施方案中,差异包含保守突变。在一些 实施方案中,酮还原酶多肽包含具有前述特点的氨基酸序列,并且其中氨基酸序列与具有 前述特点的基于SEQ ID NO :2,4或98的参考序列(例如SEQ ID NO 86)具有至少85%, 86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,改进的酮还原酶包含基于SEQ ID NO :95,96或119的序列式 或其区域诸如残基90-211的氨基酸序列,其中该氨基酸序列具有至少以下特点对应于 X190的残基是非芳族残基,特别是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸;对应于X7的残基 是芳族、非极性、极性、受限或碱性残基,特别是组氨酸、苏氨酸、脯氨酸、色氨酸或精氨酸; 对应于X97的残基是极性、非极性、脂肪族或碱性残基,特别是缬氨酸、甲硫氨酸、苏氨酸或 异亮氨酸;对应于X147的残基是芳族、极性、非极性或脂肪族残基,特别是谷氨酰胺、亮氨 酸或异亮氨酸;对应于X196的残基是脂肪族、非极性或芳族残基,特别是甲硫氨酸、异亮氨 酸、亮氨酸或苯丙氨酸;和对应于X202的残基是脂肪族、芳族或非极性残基,特别是甲硫氨 酸、酪氨酸或色氨酸。在一些实施方案中,与具有前述特点的SEQID N0:2,4或98的参考序 列诸如SEQ ID NO :88,90,92或94相比,酮还原酶多肽可另外具有在其他氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22, 1-24,1-26,1-30,1-35或约1_40个残基差异。在一些实施方案中,差异的数目可以是在其 他氨基酸残基处的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40个残基差异。在一些实施方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽 包含具有前述特点的氨基酸序列,并且其中氨基酸序列与具有前述特点的基于SEQ ID NO2,4 或 98 的参考序列(例如 SEQ ID NO :88,90,92 或 94)具有至少 85%,86%,87%,88%, 89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,本公开的改进的酮还原酶包含具有对应于SEQ IDN0 95,96 或119的序列式的残基90-211的区域或结构域的氨基酸序列,其中对应于X190的残基不 是酪氨酸。在一些实施方案中,对应于残基90-211的结构域或区域包含其中对应于X190 的残基是非芳族残基诸如脂肪族、受限、非极性或半胱氨酸残基的氨基酸序列。在一些实施 方案中,对应于残基90-211的结构域或区域包含其中对应于X190的残基是丙氨酸、异亮氨 酸、半胱氨酸或脯氨酸特别是脯氨酸的氨基酸序列。在一些实施方案中,与基于SEQ ID NO 2,4或98的参考序列的对应结构域相比,对应于残基90-211的区域或结构域可另外具有 在其他氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15, 1-16,1-18或1-20个残基差异。在一些实施方案中,差异的数目可以是在结构域的其他氨 基酸残基处的1,2, 3,4, 5,6, 7,8,9,10,11,12,14,15,16,18或20个残基差异。在一些实施 方案中,差异包含保守突变。在一些实施方案中,酮还原酶多肽包含具有对应于SEQ ID NO 95,96或119的序列式的残基90-211的结构域或区域的氨基酸序列,其中对应于X190的残 基具有至少前述特点,并且其中该结构域或区域的氨基酸序列与对应于具有前述特点的基 于SEQID NO :2,4或98的参考序列的残基90_211的氨基酸序列具有至少85 %,86 %,87 %, 88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,具有对应于SEQ ID NO :95,96或119的序列式的残基90-211 结构域或区域、并且在对应于X190的残基处具有如本文所述的指定特点的酮还原酶多肽 的结构域或区域还可包括选自以下的一个或多个特点对应于X94的残基是半胱氨酸、非 极性或脂肪族残基;对应于X95的残基是非极性或脂肪族残基;对应于X96的残基是极性 或酸性残基;对应于X97的残基是极性、非极性、脂肪族或碱性残基;对应于X120的残基是 芳族、非极性或脂肪族残基;对应于X125的残基是极性或非极性残基;对应于X147的残 基是芳族、极性、非极性或脂肪族残基;对应于X149的残基是非极性或芳族残基;对应于 X150的残基是受限或酸性残基;对应于X152的残基是非极性或极性残基;对应于X196的 残基是脂肪族、非极性或芳族残基;对应于X202的残基是脂肪族、芳族或非极性残基;对应 于X205的残基是碱性、非极性或脂肪族残基;和对应于X206的残基是非极性或芳族残基。 在一些实施方案中,与基于SEQ ID N0 :2,4或98的参考序列的对应结构域相比,对应于残 基90-211的区域或结构域可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5,1-6,1-7, 1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18 或 1-20 个残基差异。在一些实施方案中, 差异的数目可以是在结构域的其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10,11,12,14,15, 16,18或约20个残基差异。在一些实施方案中,差异包含保守突变。在一些实施方案中,与SEQ ID NO :2,4或98的对应结构域的氨基酸序列相比,具 有对应于如上文所述SEQ ID NO :95,96或119的序列式的残基90-211的氨基酸序列的结 构域或区域的酮还原酶多肽可具有在该结构域或区域中的一个或多个保守突变。此类保守 突变的实例包括氨基酸置换,诸如但不限于用另一个非极性或脂肪族残基例如缬氨酸、亮 氨酸或异亮氨酸置换对应于X94的残基丙氨酸(A);用另一个非极性或脂肪族残基例如丙 氨酸、亮氨酸或异亮氨酸置换对应于X95的残基缬氨酸(V);用另一个极性残基例如天冬酰 胺、谷氨酰胺或苏氨酸置换对应于X96的残基丝氨酸(S);用另一个非极性或脂肪族残基例如丙氨酸、亮氨酸或异亮氨酸置换对应于X196的残基缬氨酸(V);和用另一个非极性或脂 肪族残基例如缬氨酸、亮氨酸或异亮氨酸置换对应于X205的残基丙氨酸(A)。在一些实施方案中,具有对应于SEQ ID NO :95,96或119的序列式的残基90-211 的结构域或区域、并且具有如本文所述对应于X190的残基处的指定特点的酮还原酶多肽 的区域或结构域还可包括选自以下的特点的一个或多个对应于X94的残基是半胱氨酸、 甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸,特别是丙氨酸、缬氨酸或半胱氨酸; 对应于X95的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸,特别是异亮氨 酸或亮氨酸;对应于X96的残基是天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰 胺,特别是丝氨酸、天冬酰胺、苏氨酸或谷氨酸;对应于X97的残基是丝氨酸、苏氨酸、天冬 酰胺、谷氨酰胺、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、赖氨酸或精氨酸,特 别是赖氨酸、苏氨酸、缬氨酸、精氨酸、甲硫氨酸或异亮氨酸;对应于X120的残基是酪氨酸、 苯丙氨酸、色氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸,特别是苯丙氨酸 或缬氨酸;对应于X125的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸,特 别是甘氨酸或丝氨酸;对应于X142的残基是丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺残基,特 别是天冬酰胺;对应于X147的残基是酪氨酸、苯丙氨酸、色氨酸、甘氨酸、甲硫氨酸、丙氨 酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺,特别是苯丙氨酸、亮 氨酸、异亮氨酸、缬氨酸或谷氨酰胺;对应于X149的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨 酸、亮氨酸、异亮氨酸、酪氨酸、苯丙氨酸或色氨酸,特别是甘氨酸或苯丙氨酸;对应于X150 的残基是脯氨酸、组氨酸、天冬氨酸或谷氨酸,特别是天冬氨酸或组氨酸;对应于X152的残 基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷 氨酰胺,特别是丝氨酸、苏氨酸或甲硫氨酸;对应于X196的残基是酪氨酸、苯丙氨酸、色氨 酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸,特别是缬氨酸、异亮氨酸、甲硫 氨酸、苯丙氨酸或异亮氨酸;对应于X202的残基是酪氨酸、苯丙氨酸、色氨酸、甘氨酸、甲硫 氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸,特别是丙氨酸、色氨酸、酪氨酸或甲硫氨酸;对应 于X205的残基是赖氨酸、精氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸, 特别是精氨酸;并且对应于X206的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮 氨酸、酪氨酸、苯丙氨酸、色氨酸,特别是甲硫氨酸或酪氨酸。在一些实施方案中,与基于SEQ ID N0:2,4或98的参考序列的对应结构域相比,对应于残基90-211的区域或结构域可另 外具有在其他氨基酸残基处的约 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12, 1-14,1-15,1-16,1-18或1-20个残基差异。在一些实施方案中,差异的数目可以是在结构 域的其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18或约20个残基差 异。在一些实施方案中,差异包含保守突变。在一些实施方案中,具有对应于SEQ ID NO :95,96或119的序列式的残基90-211 的结构域或区域、并且具有如本文所述对应于X190的残基处的指定特点的酮还原酶多肽 的区域或结构域内还可包括选自以下的一个或多个或所有特点对应于X147的残基是芳 族、极性、非极性或脂肪族残基,特别是谷氨酰胺、异亮氨酸或亮氨酸,对应于X202的残基 是脂肪族、芳族或非极性残基,特别是色氨酸、甲硫氨酸或酪氨酸。在一些实施方案中,与 基于SEQ ID NO :2,4或98的参考序列的结构域相比,对应于残基90-211的区域或结构域 可另外具有在其他氨基酸残基处的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,
441-14,1-15,1-16,1-18或1-20个残基差异。在一些实施方案中,差异的数目可以是在结构 域的其他氨基酸残基处的1,2, 3,4, 5,6, 7,8,9,10,11,12,14,15,16,18或约20个残基差 异。在一些实施方案中,差异包含保守突变。在一些实施方案中,该酮还原酶多肽包含具 有至少前述特点的氨基酸序列,并且其中该氨基酸序列与对应于具有前述特点的基于SEQ ID NO :2,4或98的参考序列的残基90-211的氨基酸序列相比具有至少85%,86%,87%, 88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,具有对应于SEQ ID NO :95,96或119的序列式的残基90-211 的结构域或区域、并且具有如本文所述对应于X190的残基处的指定特点的酮还原酶多肽 的区域或结构域还可包括选自以下的一个或多个或所有特点对应于X97的残基是极性、 非极性、脂肪族或碱性残基,特别是甲硫氨酸、缬氨酸、异亮氨酸、苏氨酸或精氨酸;对应于 X147的残基是芳族、极性、非极性或脂肪族残基,特别是谷氨酰胺、异亮氨酸或亮氨酸;对 应于X202的残基是脂肪族、芳族或非极性残基,特别是色氨酸、甲硫氨酸或酪氨酸。在一 些实施方案中,与基于SEQ ID NO :2,4或98的参考序列的结构域相比,对应于残基90-211 的区域或结构域可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9, 1-10,1-11,1-12,1-14,1-15,1-16,1-18或1-20个残基差异。在一些实施方案中,差异的数 目可以是在结构域的其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18或 约20个残基差异。在一些实施方案中,差异包含保守突变。在一些实施方案中,该酮还原酶 多肽包含具有至少前述特点的氨基酸序列,并且其中该氨基酸序列与对应于具有前述特点 的基于SEQ ID NO :2,4或98的参考序列的残基90-211的氨基酸序列相比具有至少85%, 86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些实施方案中,具有对应于SEQ ID NO :95,96或119的序列式的残基90-211 的结构域或区域、并且具有如本文所述对应于X190的残基处的指定特点的酮还原酶多肽 的区域或结构域还可包括选自以下的一个或多个或所有特点对应于X94的残基是半胱氨 酸、非极性或脂肪族残基,特别是半胱氨酸或缬氨酸;对应于X96的残基是极性或酸性残 基,特别是苏氨酸;对应于X147的残基是芳族、极性、非极性或脂肪族残基,特别是谷氨酰 胺、异亮氨酸或亮氨酸。在一些实施方案中,与基于SEQ ID NO :2,4或98的参考序列的结构 域相比,对应于残基90-211的区域或结构域可另外具有在其他氨基酸残基处的1-2,1-3, 1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18 或 1-20 个残基差异。 在一些实施方案中,差异的数目可以是在结构域的其他氨基酸残基处的1,2,3,4,5,6,7,8, 9,10,11,12,14,15,16,18或约20个残基差异。在一些实施方案中,差异包含保守突变。 在一些实施方案中,该酮还原酶多肽包含具有至少前述特点的氨基酸序列,并且其中该氨 基酸序列与对应于具有前述特点的基于SEQID NO :2,4或98的参考序列的残基90-211的 氨基酸序列相比具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%, 96%,97%,98%或 99% 同一性。在一些实施方案中,该酮还原酶多肽还可包括对应于SEQ ID N0 :95,96或119的 序列式的残基1-89的区域或结构域。在一些实施方案中,对应于残基1-89的区域或结构域 可具有以下特点的一种或多种对应于X7的残基是芳族、非极性、极性、受限或碱性残基; 对应于X16的残基是极性残基;对应于X43的残基是非极性或极性残基;对应于X60的残基 是芳族或非极性或脂肪族残基。
45
在一些实施方案中,对应于残基1-89的结构域或区域与对应于基于SEQ ID NO 2,4或98的参考序列的残基1-89的氨基酸序列具有至少85%,86%,87%,88%,89%, 90 %,91 %,92 %,93 %,94 %,95 %,96 %,97 %,98 % 或 99 % 同一性,条件是该酮还原酶多 肽的区域或结构域具有其中对应于X7的残基是芳族、非极性、极性、受限或碱性残基特别 是组氨酸的氨基酸序列,所述参考序列在对应于X7的残基处具有芳族、非极性、极性、受限 或碱性残基特别是组氨酸。在一些实施方案中,与基于SEQ ID NO :2,4或98的参考序列 的结构域相比,对应于残基1-89的区域或结构域可另外具有在其他氨基酸残基处的1-2, 1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18 或 1-20 个残基差 异。在一些实施方案中,差异的数目可以是在结构域的其他氨基酸残基处的1,2,3,4,5,6, 7,8,9,10,11,12,14,15,16,18或约20个残基差异。在一些实施方案中,差异包含保守突 变。在一些实施方案中,该酮还原酶多肽包含具有至少前述特点的氨基酸序列,并且其中该 氨基酸序列与对应于具有前述特点的基于SEQ IDN0 :2,4或98的参考序列的残基1_89的 氨基酸序列相比具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%, 96%,97%,98%或 99% 同一性。在一些实施方案中,对应于残基1-89的区域或结构域可具有一种或多种或至少 所有以下特点对应于X7的残基是芳族、非极性、极性、受限或碱性残基;对应于X16的残 基是极性残基;对应于X43的残基是非极性或极性残基;对应于X60的残基是芳族或非极 性或脂肪族残基。在一些实施方案中,与基于SEQ ID NO :2,4或98的参考序列的结构域 相比,对应于残基1-89的区域或结构域可另外具有在其他氨基酸残基处的1-2,1-3,1-4, 1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18 或 1-20 个残基差异。在一 些实施方案中,差异的数目可以是在结构域的其他氨基酸残基处的1,2,3,4,5,6,7,8,9, 10,11,12,14,15或16个残基差异。在一些实施方案中,差异包含保守突变。在一些实施方 案中,该酮还原酶多肽包含具有至少前述特点的氨基酸序列,并且其中该氨基酸序列与具 有前述特点的对应于基于SEQ ID NO :2,4或98的参考序列的残基1-89的氨基酸序列相比 具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98% 或99%同一性。在一些实施方案中,对应于残基1-89的区域或结构域可具有一种或多种或至少 所有以下特点对应于X7的残基是色氨酸、酪氨酸、苯丙氨酸、脯氨酸、组氨酸、甘氨酸、甲 硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、谷氨酰胺、天冬酰胺、精氨酸或 赖氨酸,特别是甘氨酸、组氨酸、苏氨酸、脯氨酸、色氨酸、精氨酸、组氨酸或天冬酰胺;对应 于X16的残基是丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺,特别是丝氨酸;对应于X43的残基是 甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸,特别是异亮氨酸;对应于X60的残 基是酪氨酸、苯丙氨酸、色氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸,特 别是丙氨酸。在一些实施方案中,与基于SEQ ID NO :2,4或98的参考序列的结构域相比,对 应于残基1-89的区域或结构域可另外具有在其他氨基酸残基处的1-2,1-3,1-4,1-5,1-6, 1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15或1-16个残基差异。在一些实施方案中,差异 的数目可以是在结构域的其他氨基酸残基处的1,2,3,4,5,6,7,8,9,10,11,12,14,15或16 个残基差异。在一些实施方案中,差异包含保守突变。在一些实施方案中,该酮还原酶多肽 包含具有至少前述特点的氨基酸序列,并且其中该氨基酸序列与对应于具有前述特点的基于SEQ ID NO :2,4或98的参考序列的残基1_89的氨基酸序列相比具有至少85%,86%, 87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。下文表2提供了本文公开的具有与取代苯乙酮的还原相关的活性水平的一些SEQ ID NO的列表。下文所有序列来自野生型克菲尔乳杆菌酮还原酶序列(SEQ ID N0:3和4), 除非另外指明。表2:序列列表 在上文表2的活性列中,单个加号"+〃表示SEQ ID NO :6的活性的100-450%的 活性改进,两个加号〃 ++〃表示SEQ ID NO :6的450-1500%的活性改进,三个加号〃 +++〃 表示SEQ ID NO :6的大于1500%的活性改进。在稳定性列中,单个加号〃 +〃表示在50°C 下热处理2小时之后该多肽显示可测量的活性,两个加号"++"表示当比较两个蛋白在 50°C下热处理2小时之后的活性时,与SEQ ID NO 16相比该多肽的活性具有大于400%的 改进。在一些实施方案中,与具有(S)选择性的工程KRED酶例如SEQ IDN0 6相比,本 公开的酮还原酶多肽在其酶促活性速率例如其将底物转化为产物的速率方面具有改进。本 文使用具有SEQ ID NO :6的序列的多肽作为参考多肽,因为野生型克菲尔乳杆菌或短乳 杆菌KRED没有表现出可估计的将2',6' -二氯-3'-氟苯乙酮转化为(S)_1_[2,6-二 氯-3-氟苯基]-乙醇的活性。在一些实施方案中,该酮还原酶多肽能以超过SEQ ID NO 6 的速率的至少5倍、10倍、25倍、50倍、75倍、100倍、150倍、200倍、250倍或300倍的速率 将底物转化为产物。在一些实施方案中,该酮还原酶多肽能以SEQ ID NO :6的速率的至少 100%,150%,200%,250%,300%,400%,450%,500%,750%,1000%,1250%或 1500%将 底物转化为产物。
49
在一些实施方案中,本公开的酮还原酶多肽能以高于99%的立体异构过量并且以 比具有SEQ ID NO :6的序列的酮还原酶多肽改进的速率将2' ,6' -二氯-3'-氟苯乙酮 转化为(S)-l-[2,6-二氯-3-氟苯基]-乙醇。比SEQ ID NO :6的酶促活性改进的示例性 多肽包括但不限于包含对应于 SEQ ID NO :8,10,12,14,16,18,20,22,24,26,28,30,32,34, 36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70,72,74,76,78,80,82,84, 86,88,90,92和94的氨基酸序列的多肽。在一些实施方案中,本公开的酮还原酶多肽能以高于99%的立体异构过量并且以 比具有SEQ ID NO :6的序列的酮还原酶多肽改进的速率将2' ,6' -二氯-3'-氟苯乙酮 转化为(S)-l_[2,6-二氯-3-氟苯基]-乙醇,其中该多肽与具有SEQ ID NO :6的序列的多 肽相比还具有改进的热稳定性。具有此类改进的示例性多肽包括但不限于包含对应于SEQ ID NO 8,16,18,20,22,26,28,30,32,34,38,40,42,44,46,54,66,68,70,72,74,76,78,80, 82,84,86,88,90,92和94的氨基酸序列的多肽。在一些实施方案中,本公开的酮还原酶多肽能以高于99%的立体异构过量并 且以比具有SEQ ID NO :6的序列的酮还原酶多肽高至少约450%的速率将2' ,6' -二 氯-3'-氟苯乙酮转化为(S)-l-[2,6-二氯-3-氟苯基]-乙醇。能具有此类改进的示例 性多肽包括但不限于包含对应于 SEQ ID NO :8,10,14,16,18,22,24,26,28,30,32,34,36, 38,40,42,44,46,54,56,58,60,62,64,66,68,70,72,74,76,78,80,82,84,86,88,90,92 和 94的氨基酸序列的多肽。在一些实施方案中,本公开的酮还原酶多肽能以高于99%的立体异构过量并 且以比具有SEQ ID NO :6的序列的酮还原酶多肽高至少约450%的速率将2' ,6' -二 氯-3'-氟苯乙酮转化为(S)-l-[2,6-二氯-3-氟苯基]-乙醇,其中该多肽与具有SEQ ID NO :6的序列的多肽相比还具有改进的热稳定性。具有此类特性的示例性多肽包括但不 限于包含对应于 SEQ ID NO 8,16,18,22,26,28,30,32,34,38,40,42,44,46,54,66,68,70, 72,74,76,78,80,82,84,86,88,90,92 和 94 的氨基酸序列的多肽。在一些实施方案中,本公开的酮还原酶多肽能以高于99%的立体异构过量并且 以比具有SEQ ID NO :6的序列的酮还原酶多肽高至少约1500%的速率将2' ,6' -二 氯-3'-氟苯乙酮转化为(S)-l-[2,6-二氯-3-氟苯基]-乙醇。能具有此类改进的示例 性多肽包括但不限于包含对应于 SEQ ID NO 18,32,34,36,38,40,42,44,46,74,76,78,80, 82,84,86,88,90,92和94的氨基酸序列的多肽。在一些实施方案中,本公开的酮还原酶多肽能以高于99%的立体异构过量并且 以比具有SEQ ID NO :6的序列的酮还原酶多肽高至少约1500%的速率将2' ,6' -二 氯-3'-氟苯乙酮转化为(S)-l-[2,6-二氯-3-氟苯基]-乙醇,其中该多肽与SEQ ID NO 6的多肽相比还具有改进的热稳定性。具有此类特性的示例性多肽包括但不限于包含对应 于 SEQ ID NO :18,32,34,36,38,40,42,44,46,74,76,78,80,82,84,86,88,90,92 和 94 的氨 基酸序列的多肽。在一些实施方案中,当使用相比2' ,6' -二氯-3'-氟苯乙酮底物的量按重 量计小于约的量的多肽进行时,本公开的酮还原酶多肽能在不到约24小时内以至 少约99%的立体异构过量将至少约95%的2' ,6' -二氯-3'-氟苯乙酮底物转化为 (S)-l-(2,6-二氯-3-氟苯基)乙醇。具有该能力的示例性多肽包括但不限于包含对应于
5018,32,34,36,38,40,42,44,46,74,76,78,80,82,84,86,88,90,92 和 94 的氨基酸序列的多肽。在一些实施方案中,本公开的酮还原酶多肽能以高于99%的立体异构过量并 且以比具有SEQ ID NO :6的序列的酮还原酶多肽高至少约450%的速率将2' ,6' -二 氯-3'-氟苯乙酮转化为(S)-l-[2,6-二氯-3-氟苯基]-乙醇,其中在50°C下热处理2 小时后该多肽还能以比具有SEQ ID NO: 16的序列的多肽高至少约400%的速率将底物转 化为产物(其中SEQ ID NO :16的多肽也用相同的热处理来处理)。具有此类特性的示例 性多肽包括但不限于包含对应于 SEQ ID NO 18,32,34,36,38,40,42,44,46,74,76,78,80, 82,84,86,88,90,92或94的氨基酸序列的多肽。在一些实施方案中,该酮还原酶多肽能以至少约99%的百分比e. e.将底物立体 选择性地还原为产物,其中该多肽包含对应于SEQ ID NO =6,8,10,12,14,16,18,20,22,24, 26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70,72,74, 76,78,80,82,84,86,88,90,92 或 94 的氨基酸序列。在一些实施方案中,该酮还原酶多肽能以至少约25%,50%,75%,80%,85%, 85 %, 87 %, 88 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 % , 97 %, 98 %, 99 %, 99. 9 % 或99.99%的百分比立体异构过量将2' ,6' -二氯-3-氟苯乙酮立体选择性地还原为 (S)-l-(2,6-二氯-3-氟苯基)乙醇。在一些实施方案中,该酮还原酶多肽可包含与SEQ ID NO :2,4或98或其区域或 结构域诸如残基 90-211 具有至少约 85%,86%,87%,88%,89%,90%,91%,92%,93%, 94 %,95 %,96 %,97 %,98 %或99 %同一性的氨基酸序列,条件是对应于残基X190的残基 不是酪氨酸,特别地对应于残基X190的残基是非芳族残基,并且其中该多肽能以至少约 85% e. e将底物还原为产物。在一些实施方案中,对应于X190的残基是脂肪族、受限、非极 性或半胱氨酸残基。在一些实施方案中,对应于X190的残基是脯氨酸,并且另外具有以下 取代的一种或多种,以便该多肽与野生型克菲尔乳杆菌酮还原酶或另一种工程酮还原酶相 比进一步改进(关于立体选择性、酶促活性和/或热稳定性)7 — H,T,P,ff, R,N(即对应 于SEQ ID NO :2,4或98的残基7的残基被取代为组氨酸、苏氨酸、脯氨酸、色氨酸、精氨酸 或天冬酰胺);16 — S ;43 — I ;60 — A ;94 — C, V ;95 — I,L ;96 — E,T ;97 — R, V, M, T, I ;120 — V ;125 — S ; 142 — N ;147 — L, Q, I,V ; 149 — F ;150 — H ;152 — H ;196 — I,L, M,F ;202 — W,M,F和206 — Y。在一些实施方案中,对应于X190的残基是脯氨酸,并且另 外具有以下取代的一种或多种,以便该多肽与野生型克菲尔乳杆菌酮还原酶或另一种工程 酮还原酶相比进一步改进7 — H ;94 — V ;96 — T ;147 — L ;196 — L和202 — W。如本领域技术人员将理解,除非另外指明,上文定义的一些分类不是相互排斥的。 因此,具有表现出两种或多种物理_化学特性的侧链的氨基酸可包括于多种分类中。任何 氨基酸或残基的适当分类对本领域技术人员将是显而易见的,特别是根据本文提供的详细 的公开内容。在一些实施方案中,改进的工程酮还原酶包含天然存在的酮还原酶多肽的缺失或 其他工程酮还原酶多肽的缺失。在一些实施方案中,本文描述的每种改进的工程酮还原酶 可包含本文描述的多肽的缺失。因此,对本公开的酮还原酶多肽的每一种实施方案,缺失可 包含一个或多个氨基酸、2个或更多个氨基酸、3个或更多个氨基酸、4个或更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个氨基酸、15个 或更多个氨基酸或20个或更多个氨基酸、多达酮还原酶多肽的氨基酸总数的10%、多达酮 还原酶多肽的氨基酸总数的10%、多达酮还原酶多肽的氨基酸总数的20%或多达酮还原 酶多肽的氨基酸总数的30%,只要保持了酮还原酶活性的功能活性。在一些实施方案中, 缺失可包含 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18, 1-20,1-22,1-24,1-25,1-30,1-35或约1_40个氨基酸残基。在一些实施方案中,缺失的数 目可以是 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或约 40 个氨基 酸。在一些实施方案中,缺失可包含 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,18 或 20 个氨基酸残基的缺失。如本文所述,本公开的酮还原酶多肽可以是以其中酮还原酶多肽与其他多肽融合 的融合多肽的形式,所述其他多肽诸如抗体标签(例如myc表位)或纯化序列(例如His 标签)。因此,可使用具有或没有与其他多肽融合的酮还原酶多肽。在一些实施方案中,本文描述的多肽不限于遗传编码的氨基酸。除了遗传编码的 氨基酸外,本文描述的多肽可完全或部分地包含天然存在和/或合成的非编码氨基酸。本 文所述的多肽可包含的一些经常遇到的非编码氨基酸,包括但不限于遗传编码的氨基酸 的D-立体异构体;2,3-二氨基丙酸(Dpr) ; a-氨基异丁酸(Aib) ; 氨基已酸(Aha); S-氨基戊酸(Ava) ;N-甲基甘氨酸或肌氨酸(MeGly或Sar);鸟氨酸(0m);瓜氨酸(Cit); 叔丁基丙氨酸(Bua);叔丁基甘氨酸(Bug) ;N-甲基异亮氨酸(Melle);苯基甘氨酸(Phg); 环己基丙氨酸(Cha);正亮氨酸(NIe);萘基丙氨酸(Nal) ;2_氯苯丙氨酸(Ocf) ;3_氯苯丙 氨酸(Mcf) ;4-氯苯丙氨酸(Pcf) ;2-氟苯丙氨酸(Off) ;3-氟苯丙氨酸(Mff) ;4-氟苯丙 氨酸(Pff) ;2-溴苯丙氨酸(Obf) ;3-溴苯丙氨酸(Mbf) ;4-溴苯丙氨酸(Pbf) ;2-甲基苯 丙氨酸(Omf) ;3-甲基苯丙氨酸(Mmf) ;4-甲基苯丙氨酸(Pmf) ;2-硝基苯丙氨酸(Onf); 3-硝基苯丙氨酸(Mnf) ;4-硝基苯丙氨酸(Pnf) ;2-氰基苯丙氨酸(Ocf) ;3-氰基苯丙氨酸 (Mcf) ;4-氰基苯丙氨酸(Pcf) ;2-三氟甲基苯丙氨酸(Otf) ;3-三氟甲基苯丙氨酸(Mtf); 4_三氟甲基苯丙氨酸(Ptf) ;4-氨基苯丙氨酸(Paf) ;4-碘苯丙氨酸(Pif) ;4-氨甲基苯 丙氨酸(Pamf) ;2,4-二氯苯丙氨酸(Opef) ;3,4-二氯苯丙氨酸(Mpcf) ;2,4-二氟苯丙氨 酸(Opff) ;3,4-二氟苯丙氨酸(Mpff);吡啶-2-基丙氨酸(2pAla);吡啶_3_基丙氨酸 (3pAla);吡啶-4-基丙氨酸(4pAla);萘基丙氨酸(InAla);萘_2_基丙氨酸(2nAla); 噻唑丙氨酸(taAla);苯并噻吩基丙氨酸(bAla);噻吩基丙氨酸(tAla);呋喃基丙氨酸 (fAla);高苯丙氨酸(hPhe);高酪氨酸(hTyr);高色氨酸(hTrp);五氟苯丙氨酸(5ff);苯 乙烯基丙氨酸(styrylkalanine) (sAla);蒽基丙氨酸(authrylalanine, aAla) ;3,3-二苯 丙氨酸(Dfa) ;3-氨基-5-苯基戊酸(phenypentanoic acid) (Afp);青霉胺(Pen) ; 1,2,3, 4_四氢异喹啉-3-羧酸(Tic) ; 0-2-噻吩基丙氨酸(Thi);甲硫氨酸亚砜(Mso) ;N(w)_硝 基精氨酸(nArg);高赖氨酸(hLys);膦酰基甲基苯丙氨酸(pmPhe);磷酸丝氨酸(pSer);磷 酸苏氨酸(pThr);高天冬氨酸(hAsp);高谷氨酸(homoglutanic acid) (hGlu) ;1_氨基环 戊-(2或3)-烯-4羧酸;哌可酸(PA)、吖丁啶-3-羧酸(ACA) ; 1_氨基环戊烷_3_羧酸; 烯丙基甘氨酸(aOly);炔丙基甘氨酸(pgGly);高丙氨酸(hAla);正缬氨酸(nVal);高亮 氨酸(hLeu)、高缬氨酸(hVal);高异亮氨酸(homoisolencine) (hlle);高精氨酸(hArg); N-乙酰赖氨酸(AcLys) ;2,4_ 二氨基丁酸(Dbu) ;2,3_ 二氨基丁酸(Dab) ;N-甲基缬氨酸(MeVal);高半胱氨酸(hCys);高丝氨酸(hSer);羟脯氨酸(Hyp)和高脯氨酸(hPro)。可 包含于本文描述的多肽的其他非编码氨基酸对本领域技术人员将是显而易见的(参见, 例如,提供于 Fasman, 1989, CRCPractical Handbook of Biochemistry and Molecular Biology (CRC生物化学和分子生物学实践手册),CRC Press, Boca Raton, FL,第3-70页中 和其中引用的参考文献中的各种氨基酸,其全部通过引用并入)。这些氨基酸可以是L-或 D-构型。本领域技术人员将承认,具有侧链保护基团的氨基酸或残基也可构成本文描述 的多肽。在本实例中属于芳族类别的此类保护氨基酸的非限制性实例包括(保护基团列 于括号内)但不限于:Arg (tos)、Cys (甲苄基)、Cys (硝基吡啶亚磺酰基)、Glu ( S -苄基 酯)、Gin (占吨基)、Asn (N- 8 -占吨基)、His (bom)、His (苄基)、His (tos)、Lys (fmoc)、 Lys (tos)、Ser (0_ 苄基)、Thr (0-苄基)和 Tyr (0-苄基)。可包括于本文描述的多肽的构象受限的非编码氨基酸包括但不限于,N-甲基氨 基酸(L-构型);1-氨基环戊-(2或3)-烯-4-羧酸;哌可酸;吖丁啶-3-羧酸;高脯氨酸 (hPro)和1-氨基环戊烷-3-羧酸。如上文所述,被引入天然存在的多肽以产生工程酮还原酶的各种修饰可被靶向酶 的特定特性。6. 3编码工程酮还原酶的多核苷酸在另一个方面,本公开提供了编码工程酮还原酶的多核苷酸。该多核苷酸可以与 控制基因表达的一种或多种异源调节序列可操作地连接以产生能表达该多肽的重组多核 苷酸。含有编码工程酮还原酶的异源多核苷酸的表达构建体可被引入适当的宿主细胞来表 达对应的酮还原酶多肽。由于对应于各种氨基酸的密码子的知识,蛋白序列的可用性提供了能编码该蛋白 序列的所有多核苷酸的描述。其中相同的氨基酸由可选或同义密码子编码的遗传密码的简 并性允许制备相当大量的核酸,所有这些核酸编码本文公开的改进的酮还原酶。因此,已鉴 定了特定的氨基酸序列,本领域技术人员可通过简单地以不改变蛋白质的氨基酸序列的方 式修饰一个或多个密码子的序列来制备任何数目的不同的核酸。在这方面,本公开特别涵 盖可通过选择基于可能的密码子选择的组合制备的多核苷酸的每一种可能的改变,并且, 对于本文公开的任何多肽,包括表2中所示的氨基酸序列,所有此类改变被视为特别公开。 在不同实施方案中,优选地选择密码子来适合其中产生蛋白的宿主细胞。例如,细菌中使 用的优选密码子被用来在细菌中表达基因;酵母中使用的优选密码子被用于在酵母中的表 达;哺乳动物中使用的优选密码子被用于在哺乳动物细胞中的表达。作为实例,SEQ ID NO 3的多核苷酸已被密码子优化用于在大肠杆菌(E.coli)中表达,但是仍编码克菲尔乳杆菌 的天然存在的酮还原酶。在一些实施方案中,多核苷酸包含编码与本文所述的参考工程酮还原酶多肽具有 至少约 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99%或更高序列同一性的氨基酸序列的酮还原酶多肽的核苷酸序列,其中编码的酮还原酶 多肽包含其中对应于SEQ ID NO :2,4或98的X190的残基不是酪氨酸的氨基酸序列。在一 些实施方案中,多核苷酸编码包含其中对应于X190的残基是非芳族残基的氨基酸序列的 酮还原酶多肽。在一些实施方案中,多核苷酸编码包含其中对应于X190的残基是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸特别是脯氨酸的氨基酸序列的酮还原酶多肽。在一些实施方 案中,多核苷酸编码包含选自 SEQ ID NO =6,8,10,12,14,16,18, 20, 22, 24, 26, 28, 30, 32, 34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70,72,74,76,78,80,82, 84,86,88,90,92和94的氨基酸序列的工程酮还原酶多肽。在一些实施方案中,编码工程酮还原酶的多核苷酸选自SEQ ID NO :5,7,9,11,13, 15,17,19,21,23,25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63, 65,67,69,71,73,75,77,79,81,83,85,87,89,91 和 93。在一些实施方案中,该多核苷酸能 在高严紧条件下与包含SEQ IDN0 :5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37, 39,41,43,45,47,49,51,53,55,57,59,61,63,65,67,69,71,73,75,77,79,81,83,85,87, 89,91和93的多核苷酸杂交,其中在高严紧条件下杂交的多核苷酸对取代苯乙酮底物具有 (S)_选择性,例如能将结构式(I)的底物还原或转化为结构式(II)的产物。在一些实施方 案中,在高严紧条件下杂交的多核苷酸能将结构式(III)的底物还原或转化为结构式(IV) 的产物。在一些实施方案中,多核苷酸编码本文所述的多肽,但在核苷酸水平与编码工程 酮还原酶的参考多核苷酸具有约80%或更高的序列同一性、约85%,86%,87%,88%, 89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99%或更高的序列同一性。在 一些实施方案中,参考多核苷酸选自对应于SEQ ID NO =5,7,9,11,13,15,17,19, 21, 23, 25, 27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63,65,67,69,71,73,75, 77,79,81,83,85,87,89,91 和 93 的多核苷酸序列。编码改进的酮还原酶多肽的分离的多核苷酸可以多种方式操作以提供多肽的表 达。取决于表达载体,在插入载体之前对分离的多核苷酸的操作可以是需要的或必需的。利 用重组DNA方法修饰多核苷酸和核酸序列的技术在本领域是公知的。指南提供于Sambrook 等,2001,MolecularCloning :A Laboratory Manual (分子克隆实验手册),第 3 版,Cold SpringHarbor Laboratory Press ;禾口 Current Protocols in Molecular Biology (分子 生物学最新技术),Ausubel. F.编辑,Greene Pub. Associates,1998,更新至 2006。对细菌宿主细胞,用于指引本公开的核酸构建体的转录的适合启动子包括 获自大肠杆菌lac操纵子、天蓝色链霉菌(Str印tomyces coelicolor)琼脂糖酶基 因(dagA)、枯草芽孢杆菌(Bacillus subtilis)果聚糖蔗糖酶基因(sacB)、地衣 芽孢杆菌(Bacillus licheniformis) a -淀粉酶基因(amyL),嗜热脂肪芽孢杆菌 (Bacillus stearothermophilus)麦芽糖淀粉酶基因(amyM)、解淀粉芽孢杆菌(Bacillus amyloliquefaciens) a-淀粉酶基因(amyQ)、地衣芽孢杆菌青霉素酶基因(penP)、枯草 芽孢杆菌(Bacillus subtilis)XylA和xylB基因和原核内酰胺酶基因的启动子 (Villa-Kamaroff 等,1978,Proc. Natl Acad. Sci. USA 75 :3727_3731),以及 tac 启动子 (DeBoer 等,1983,Proc. Natl Acad. Sci. USA 80 :21_25)。其他启动子描述于 Sambrook 等, 上文。对丝状真菌宿主细胞,用于指引本公开的核酸构建体的转录的适合启动子包括获 自米曲霉(Aspergillus oryzae)TAKA淀粉酶、米黑根毛霉(Rhizomucor miehei)天冬氨酸 蛋白酶、黑曲霉(Aspergillus niger)中性a -淀粉酶、黑曲霉酸稳定型a-淀粉酶、黑曲 霉或泡盛曲霉(Aspergillusawamori)葡萄糖淀粉酶(glaA)、米黑根毛霉脂肪酶、米曲霉碱性蛋白酶、米曲霉磷酸丙糖异构酶、构巢曲霉(Aspergillus nidulans)乙酰胺酶和尖孢镰 刀菌(Fusarium oxysporum)胰酶样蛋白酶(W0 96/00787)基因的启动子,以及NA2_tpi启 动子(来自黑曲霉中性a-淀粉酶和米曲霉磷酸丙糖异构酶基因的启动子的杂合体)及其 突变、截短和杂合启动子。在酵母宿主中,有用的启动子可来自酿酒酵母(Saccharomycescerevisiae)烯醇 化酶(EN0-1)、酿酒酵母半乳糖激酶(GAL1)、酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶 (ADH2/GAP)和酿酒酵母3-磷酸甘油激酶的基因。用于酵母宿主细胞的其他启动子描述于 Romanos 等,1992,Yeast8 :423-488。控制序列也可以是适合的转录终止子序列,由宿主细胞识别来终止转录的序列。 终止子序列与编码多肽的核酸序列的3'末端可操作地连接。在选择的宿主细胞中有功能 的任何终止子可用在本发明中。例如,用于丝状真菌宿主细胞的示例性转录终止子可获自米曲霉TAKA淀粉酶、黑 曲霉葡萄糖淀粉酶、构巢曲霉邻氨基苯甲酸合成酶、黑曲霉a-葡萄糖苷酶和尖孢镰刀菌 胰酶样蛋白酶的基因。用于酵母宿主细胞的示例性终止子可获自酿酒酵母烯醇化酶、酿酒酵母细胞色素 C(CYC1)和酿酒酵母甘油醛-3-磷酸脱氢酶的基因。其他用于酵母宿主细胞的终止子描述 于 Romanos 等,1992,上文。控制序列也可以是适合的前导序列,前导序列是对宿主细胞的翻译重要的mRNA 的非翻译区。前导序列与编码多肽的核酸序列的5'末端可操作地连接。可使用在选择的 宿主细胞中有功能的任何前导序列。用于丝状真菌宿主细胞的示例性前导序列获自米曲霉 TAKA淀粉酶和构巢曲霉磷酸丙糖异构酶基因。适合于酵母宿主细胞的前导序列获自酿酒酵 母烯醇化酶(EN0-1)、酿酒酵母3-磷酸甘油激酶、酿酒酵母a-因子和酿酒酵母醇脱氢酶/ 甘油醛-3-磷酸脱氢酶(ADH2/GAP)的基因。控制序列也可以是多聚腺苷化序列,多聚腺苷化序列是与核酸序列的3'末端可 操作地连接并且当转录时由宿主细胞识别作为信号以便向转录的mRNA加入多腺苷残基的 序列。在选择的宿主细胞中有功能的任何多聚腺苷化序列可用在本发明中。用于丝状真 菌宿主细胞的示例性多聚腺苷化序列可来自米曲霉TAKA淀粉酶、黑曲霉葡萄糖淀粉酶、 构巢曲霉邻氨基苯甲酸合成酶、尖孢镰刀菌胰酶样蛋白酶和黑曲霉a-葡萄糖苷酶的基 因。用于酵母宿主细胞的多聚腺苷化序列描述于Guo和Sherman,1995,Mol CellBio 15: 5983-5990。控制序列还可以是编码与多肽的氨基末端连接的氨基酸序列并且指引编码的多 肽进入细胞的分泌途径的信号肽编码区。核酸序列的编码序列的5'末端可内在地含有以 翻译阅读框与编码分泌多肽的编码区的区段天然地连接的信号肽编码区。可选地,编码序 列的5'末端可含有编码序列外源的信号肽编码区。在编码序列不天然地含有信号肽编码 区的情况中,可能需要外源信号肽编码区。可选地,外源信号肽编码区可简单地替换天然信号肽编码区,以便增强多肽的分 泌。然而,指引表达的多肽进入选择的宿主细胞的分泌途径的任何信号肽编码区可用在本 发明中。用于细菌宿主细胞的有效信号肽编码区是获自芽孢杆菌(BacillUS)NClB 11837麦芽糖淀粉酶、嗜热脂肪芽孢杆菌a “淀粉酶、地衣芽孢杆菌枯草杆菌蛋白酶、地衣芽孢杆 菌日-内酰胺酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT,nprS, nprM)和枯草芽孢杆菌prsA 基因的信号肽编码区。其他信号肽描述于Simonen和Palva,1993,Microbiol Rev 57: 109-137。用于丝状真菌宿主细胞的有效信号肽编码区可以是获自米曲霉TAKA淀粉酶、 黑曲霉中性淀粉酶、黑曲霉葡萄糖淀粉酶、米黑根毛霉天冬氨酸蛋白酶、特异腐质霉 (Humicola insolens)纤维素酶和柔毛腐质霉(Humicolalanuginosa)脂肪酶基因的信号 肽编码区。用于酵母宿主细胞的信号肽可来自酿酒酵母a -因子和酿酒酵母转化酶基因。其 他有用的信号肽编码区描述于Romanos等,1992,上文。控制序列也可以是编码位于多肽氨基末端的氨基酸序列的前肽编码区。得到的 多肽称为原酶(proenzyme)或多肽原(或酶原,在一些实例中)。一般而言,多肽原是没 有活性的,并且可通过从多肽原催化或自催化切割前肽转化为成熟有活性的多肽。前肽编 码区可获自枯草芽孢杆菌碱性蛋白酶(aprE)、枯草芽孢杆菌中性蛋白酶(nprT)、酿酒酵母 a-因子、米黑根毛霉天冬氨酸蛋白酶和嗜热毁丝霉(Myceliophthora thermophila)乳糖 酶(W095/33836)基因。在信号肽和前肽区域都存在于多肽氨基末端的情况中,前肽区域位于多肽氨基末 端的相邻位置,而信号肽区域位于前肽区域的氨基末端的相邻位置。可能还需要加入调节序列,这允许相对于宿主细胞的生长来调节多肽的表达。调 节系统的实例是响应于化学或物理刺激使基因表达启动或关闭的系统,所述刺激包括调节 化合物的存在。原核宿主细胞中,适合的调节序列包括lac、tac和trp操纵子系统。酵母 宿主细胞中,作为实例,适合的调节系统包括ADH2系统或GAL1系统。丝状真菌中,适合的 调节序列包括TAKAa-淀粉酶启动子、黑曲霉葡萄糖淀粉酶启动子和米曲霉葡萄糖淀粉酶 启动子。调节序列的其他实例是允许基因扩增的序列。真核系统中,这些序列包括在氨甲 蝶呤存在下扩增的二氢叶酸还原酶基因和使用重金属扩增的金属硫蛋白基因。在这些实例 中,编码本发明的KRED多肽的核酸序列将与调节序列可操作地连接。因此,在一些实施方案中,本公开还涉及重组表达载体,该重组表达载体包含编码 工程酮还原酶多肽或其变体的多核苷酸,和一个或多个表达调节区域,取决于其将被引入 的宿主类型,诸如启动子和终止子、复制起点等。上文所述的各种核酸和控制序列可连接到 一起以产生可包括一个或多个方便的限制性酶切位点以便允许编码多肽的核酸序列在此 位点插入或取代的重组表达载体。可选地,本公开的核酸序列可通过将核酸序列或包含该 序列的核酸构建体插入用于表达的适当载体来表达。产生表达载体时,编码序列位于载体 内,以便编码序列可操作地与用于表达的适当的控制序列连接。重组表达载体可以是任何载体(例如质粒或病毒),其可方便地经受重组DNA程 序,并且可引起多核苷酸序列的表达。载体的选择一般取决于载体与该载体将被引入的宿 主细胞的相容性。载体可以是线性质粒或闭合的环状质粒。表达载体可以是自主复制载体,即作为染色体外实体存在的载体,其复制不依赖 于染色体的复制,例如,质粒、染色体外元件、微型染色体或人工染色体。载体可含有用于确
56保自我复制的任何部件(means)。可选地,载体可以是当引入宿主细胞时被整合到基因组中 并与其所整合的染色体一起复制的载体。此外,可使用单个载体或质粒、或一起含有将引入 宿主细胞基因组的总DNA的两个或多个载体或质粒、或转座子。本发明的表达载体优选地含有一个或多个可选择标记,这允许容易地检测转化细 胞。可选择标记可以是其产物提供杀生物剂或病毒抗性、对重金属的抗性、营养缺陷型的原 养型及类似性质的基因。细菌可选择标记的实例是来自枯草芽孢杆菌或地衣芽孢杆菌的 dal基因,或赋予抗生素抗性的标记,所述抗生素抗性诸如氨苄青霉素、卡那霉素、氯霉素 (实施例1)或四环素抗性。适合于酵母宿主细胞的标记是ADE2,HIS3,LEU2,LYS2,MET3, TRP1 禾口 URA3。用在丝状真菌宿主细胞的可选择标记包括但不限于,amdS(乙酰胺酶)、argB (鸟 氨酸氨甲酰基转移酶)、bar (草丁膦(phosphinothricin)乙酰转移酶)、hph (潮霉素磷 酸转移酶)、niaD (硝酸还原酶)、pyrG (乳清苷-5 ‘-磷酸脱羧酶)、sC (硫酸腺苷酰转 移酶(sulfate adenyltransferase))和trpC(邻氨基苯甲酸合成酶),以及其等效物。 用在曲霉细胞中的实施方案包括构巢曲霉或米曲霉的amdS和pyrG基因和吸水链霉菌 (Streptomyceshygroscopicus)的 bar 基因。本发明的表达载体可含有允许载体整合到宿主细胞的基因组或载体独立于基因 组在细胞中自主复制的元件。对整合到宿主细胞的基因组,载体可依赖于编码多肽的核酸 序列或载体的任何其他元件来通过同源或非同源重组将载体整合到基因组中。可选地,表达载体可含有用于指引通过同源重组整合到宿主细胞基因组的其他核 酸序列。其他核酸序列使载体能被整合到宿主细胞基因组染色体的精确位置上。为了增加 在精确位置整合的可能性,整合元件应优选地含有与对应的靶序列高度同源的足够数目的 核酸,诸如100至10,000个碱基对,优选地400至10,000个碱基对,最优选地800至10,000 个碱基对,以增强同源重组的概率。整合元件可以是与宿主细胞基因组内靶序列同源的任 何序列。此外,整合元件可以是非编码或编码的核酸序列。另一方面,载体可通过非同源重 组被整合到宿主细胞的基因组中。对自主复制,载体还可包含使载体能在相关的宿主细胞中自主复制的复制起 点。细菌复制起点的实例是P15A ori或允许在大肠杆菌中复制的质粒pBR322、pUC19、 pACYC177(该质粒具有P15A ori)或者pACYC184的复制起点,和允许在芽孢杆菌中复制 的pUBllO、pE194、pTA1060或pAM0 1的复制起点。用于在酵母宿主细胞中使用的复制起 点的实例是2微米复制起点、ARS1、ARS4、ARS1和CEN3的组合和ARS4和CEN6的组合。复 制起点可以是具有使其在宿主细胞中温度敏感地起作用的突变的复制起点(参见,例如, Ehrlich, 1978, Proc Natl Acad Sci USA75:1433)。本发明的核酸序列的不止一个拷贝可插入宿主细胞以便增加基因产物的产生。核 酸序列拷贝数的增加可通过将序列的至少一个其他拷贝整合到宿主细胞基因组或通过随 核酸序列中包括可扩增的选择标记基因来获得,其中含有可选择标记基因的扩增拷贝并由 此含有核酸序列的另外拷贝的细胞可通过将细胞在适当的可选择物质存在下培养来选择。本公开中使用的许多表达载体是商业可获得的。适合的商业化表达载体包括来 自 Sigma-Aldrich Chemicals, St. Louis M0.的 p3xFLAGTM 表达载体,其包括用于在哺乳 动物宿主细胞中表达的CMV启动子和hGH多聚腺苷化位点和pBR322复制起点和用于在大肠杆菌中扩增的氨苄青霉素抗性标记。其他适合的表达载体是可商业获自Stratagene, Lajolla CA 的 pBluescriptll SK (-)和 pBK-CMV,和衍生自 pBR322 (Gibco BRL)、pUC (Gibco BRL)、pREP4、pCEP4(Invitrogen)或 pPoly (Lathe 等,1987,Gene 57:193-201)的质粒。6. 4用于表达酮还原酶多肽的宿主细胞在另一个方面,本公开提供了包含编码本公开的改进酮还原酶多肽的多核苷酸 的宿主细胞,该多核苷酸与用于在宿主细胞中表达酮还原酶的一个或多个控制序列可操 作地连接。用于表达由本发明的表达载体编码的KRED多肽的宿主细胞是本领域公知的, 并且包括但不限于细菌细胞,诸如大肠杆菌、克菲尔乳杆菌、短乳杆菌、小乳杆菌、链霉菌 (Streptomyces)和鼠伤寒沙门氏菌(Salmonella typhimurium)细胞;真菌细胞,诸如酵母 细胞(例如酿酒酵母或巴氏毕赤酵母(Pichia pastoris) (ATCC登录号201178));昆虫细 胞,诸如果蝇S2和灰翅夜蛾(Spodoptera) Sf9细胞;动物细胞,诸如CH0、COS、BHK、293和 Bowes黑色素瘤细胞;和植物细胞。用于上述宿主细胞的适当的培养基和生长条件是本领 域公知的。用于表达酮还原酶的多核苷酸可通过本领域已知的各种方法引入细胞。技术包括 但不限于电穿孔、生物射弹粒子轰击、脂质体介导的转染、氯化钙转染和原生质体融合。用 于将多核苷酸引入细胞的各种方法对熟练的技术人员将是显而易见的。示例性宿主细胞是大肠杆菌W3110。表达载体通过将编码改进的酮还原酶的多核 苷酸可操作地连接到质粒PCK110900中以与在lacl阻抑物控制下的lac启动子可操作地 连接来产生。表达载体还含有P15a复制起点和氯霉素抗性基因。大肠杆菌W3110中含有 主题多核苷酸的细胞可通过来使细胞经受氯霉素选择来分离。6. 5产生工程酮还原酶多肽的方法在一些实施方案中,为了制备本公开的改进KRED多核苷酸和多肽,催化还原反应 的天然存在的酮还原酶获自(或衍生自)克菲尔乳杆菌或短乳杆菌或小乳杆菌。在一些实 施方案中,母体多核苷酸序列被密码子优化以增强酮还原酶在特定宿主细胞中的表达。作 为例证,编码克菲尔乳杆菌的野生型KRED多肽的母体多核苷酸序列是从基于Genbank数据 库中可获得的克菲尔乳杆菌KRED序列(Genbank登录号AAP94029GI :33112056)的已知多 肽序列制备的寡核苷酸构建的。命名为SEQ ID NO :3的母体多核苷酸序列被密码子优化以 在大肠杆菌中表达,并将密码子优化的多核苷酸克隆到表达载体中,将酮还原酶基因的表 达置于lac启动子和lacl阻抑物基因的控制下。鉴定在大肠杆菌中表达活性酮还原酶的 克隆,并测序该基因以确认其同一性。命名的序列(SEQ ID N0:3)是用作自克菲尔乳杆菌 酮还原酶演化的工程酮还原酶的大多数实验和文库构建的起始点的母体序列。工程酮还原酶可通过使编码天然存在的酮还原酶的多核苷酸经受如上文讨论的 诱变和/或定向演化方法来获得。示例性定向演化技术是诱变和/或DNA改组,如描述于 Stemmer,1994, Proc Natl Acad Sci USA91 10747-10751 ;W0 95/22625 ;W0 97/0078 ;W0 97/35966 ;W0 98/27230 ;W0 00/42651 ;W0 01/75767 和美国专利 6,537,746。可使用的其 他定向演化程序包括但不限于交错延伸过程(staggered extension process, StEP)、体 外重组(Zhao 等,1998,Nat. Biotechnol. 16 :258_261)、诱变 PCR(Caldwell 等,1994,PCR Methods Appl. 3 :S136_S140)和盒式诱变(Black 等,1996,Proc Natl Acad Sci USA 93: 3525-3529)。用于本文目的的其他诱变和定向演化技术可发现于以下参考文献Ling,等,1997, “ Approaches to DNA Mutagenesis :anoverview(DNA fl^Jl^^M ), “ Anal. Biochem. 254(2) 157-78 ;Dale 等,1996, " 01 igonucleotide-directed random Mutagenesis using thephosphorothioate Method(贞M^ltftMSI^t去白勺胃TOSI胃t^lPil l/li^^ ) “ Methods Mol. Biol. 57 369-74 ;Smith, 1985, “ In vitro Mutagenesis ( # 夕卜诱变), “Ann. Rev. Genet. 19 :423-462 ;Botstein 等,1985, “ Strategies andapplications of in vitro Mutagenesis (体夕卜诱变的策略禾口应用),〃 Science 229 1193-1201 ;Carter, 1986, “ Site-directed Mutagenesis (位点定向诱变),“Biochem. J. 237 :1-7 ;Kramer 等,1984,“ Point Mismatch Repair (点错配修复),“Cell, 38 879-887 ;Wells等,1985,〃 Cassette Mutagenesis :an efficientMethod for generation of multiple mutations at defined sites (盒式诱变用于在特定位点产生多个突变的 有效方法),〃 Gene 34 :315_323 ;Minshull 等,1999,〃 Protein evolution by molecular breeding(通过分子育种的蛋白演化),“Curr Op in Chem Biol 3 284-290 ;Christians 等,1999, " Directed evolution ofthymidine kinase for AZT phosphorylation using DNA family shuffling(使用DNA家族改组的用于AZT磷酸化的胸苷激酶的定向演 化),“Nature Biotechl7 :259-264 ;Crameri 等,1998,“ DNA shuffling of a family of genes fromdiverse species accelerates directed evolution (来自多样物禾中的基因 家族的 DNA 改组加速定向演化),“Nature 391 :288_291 ;Crameri 等,1997,“ Molecular evolution of an arsenate detoxification pathway by DNA shuffling( iE ii DNA 改组的砷酸盐解毒途径的分子演化),“Nature Biotechl5 =436-438 ;Zhang等, 1997, “ Directed evolution of an effective fructosidasefrom a galactosidase by DNA shuffling and screening(通过DNA改组和筛选的有效的果糖苷酶从半乳糖苷酶的 定向演化),“Proc Natl Acad Sci USA94 :45-4_4509 ;Crameri 等,1996,“ Improved green fluorescent protein bymolecular evolution using DNA shuffling(使用DNA改 组通过分子演化的改进的绿色荧光蛋白),“Nature Biotech 14 :315_319 ;和Stemmer, 1994,“ Rapidevolution of a protein in vitro by DNA shuffling(通过 DNA 改组的 蛋白质的体外迅速演化),“Nature 370:389-391。所有参考文献通过引用并入本文。筛选诱变处理后获得的克隆中具有需要的改进酶特性的工程酮还原酶。测量表达 文库的酶活性可使用监测当NADH或NADPH被转化为NAD+或NADP+时NADH或NADPH浓度减 少的速率(通过吸光度或荧光的降低)的标准生物化学技术来实现。(例如,参见实施例 7)。该反应中,当酮还原酶将酮底物还原为对应的羟基基团时,酮还原酶消耗(氧化)NADH 或NADPH。如通过吸光度或荧光的降低测量的每单位时间NADH或NADPH浓度下降的速率 指示固定量的裂解物(或从其制备的冻干粉末)中KRED多肽的相对(酶促)活性。产物 的立体化学可通过各种已知技术确定,如实施例中提供。在需要的改进酶特性是热稳定性 的情况中,酶活性可在酶制品经受特定温度以及测量热处理之后余下的酶促活性量之后测 量。然后分离含有编码酮还原酶的多核苷酸的克隆,并测序以鉴定核苷酸序列的改变(如 果有改变),并用来在宿主细胞中表达酶。在工程多肽的序列已知的情况中,编码酶的多核苷酸可根据已知的合成方法通过 标准的固相方法制备。在一些实施方案中,可单独合成多达约100个碱基的片段,然后连 接(例如通过酶促或化学连接(litigation)方法或聚合酶介导的方法)以形成任何需要的连续序列。例如,本发明的多核苷酸和寡核苷酸可通过化学合成来制备,使用例如描述 于Beaucage等,1981,Tet Lett 22 1859-69的经典亚磷酰胺方法,或描述于Matthes等, 1984,EMBO J. 3:801-05的方法,例如其一般以自动合成方法实践。根据亚磷酰胺方法,寡 核苷酸例如在自动DNA合成仪中合成、纯化、退火、连接并克隆到适当的载体。另外,基本上 任何核酸可获自各种商业来源的任一种,诸如The Midland Certified Reagent Company, Midland, TX ;The GreatAmerican Gene Company, Ramona, CA ;ExpressGen Inc. Chicago, IL ;Operon Technologies Inc. , Alameda, CA 禾口许多其他公司。使用用于蛋白纯化的公知技术的任一种或多种,可从细胞和/或培养基中回收 宿主细胞中表达的工程酮还原酶,所述技术包括但不限于溶菌酶处理、超声处理、过滤、盐 析法、超速离心和层析。用于从细菌诸如大肠杆菌中裂解和高效提取蛋白的适合溶液是以 St. Louis M0的Sigma-Aldrich的商标名CelLytic B 可商业地获得的。用于分离酮还原酶多肽的层析技术包括但不限于反相层析、高效液相层析、离子 交换层析、凝胶电泳和亲和层析。用于纯化特定酶的条件将部分取决于诸如净电荷、疏水 性、亲水性、分子量、分子形状等因素,并且对熟悉本领域的技术人员将是显而易见的。在一些实施方案中,亲和技术可用来分离改进的酮还原酶。对亲和层析纯化,可使 用特异结合酮还原酶多肽的任何抗体。为了产生抗体,包括但不限于兔、小鼠、大鼠等的各 种宿主动物可通过用酮还原酶注射来免疫接种。通过侧链功能基团或附着于侧链功能基团 的接头,酮还原酶多肽可附着于适合的载体,诸如BSA。取决于宿主物种,可使用各种佐剂 来增强免疫应答,包括但不限于弗氏(完全和不完全)、诸如氢氧化铝的矿物胶、诸如溶血 卵磷脂的表面活性物质、普朗尼克多元醇、聚阴离子、肽、油乳剂、匙孔血蓝蛋白、二硝基苯 酚和潜在有用的人类佐剂,诸如BCG(卡介苗,bacilli Calmette Guerin)和短小棒状杆菌 (Corynebacterium parvum)。酮还原酶可以表达酶的细胞的形式、作为粗提物或作为分离或纯化的制品被制备 和使用。酮还原酶可作为粉末形式(例如丙酮粉末)的冻干产物制备或作为酶溶液制备。 在一些实施方案中,酮还原酶可以是以大体纯的制品的形式。在一些实施方案中,酮还原酶多肽可附着于固相基质。基质可以是固相、表面和/ 或膜。固体支持物可主要包含有机聚合体,诸如聚苯乙烯、聚乙烯、聚丙烯、聚氟乙烯、聚氧 乙烯和聚丙烯酰胺,以及其共聚物及接枝物(graft)。固体支持物也可以是无机的,诸如玻 璃、硅胶、可控孔度玻璃(controlled pore glass,CPG)、反相硅胶或金属,诸如金或钼。基 质的结构可以是以珠、球、微粒(particle)、颗粒(granule)、凝胶、膜或表面的形式。表面 可以是平面的、大体平面的或非平面的。固体支持物可以是多孔或无孔的,并且可具有膨胀 或非膨胀特性。固体支持物可配置为孔、凹陷、或其他容器、导管、要素或位置的形式。多种 支持物可配置为试剂的机器人递送可访问的或通过检测方法和/或仪器可访问的阵列上 的各种位置。6. 6使用工程酮还原酶的方法和用该工程酮还原酶制备的化合物本文描述的酮还原酶能催化2' ,6'取代苯乙酮底物,任选地在3' ,4'或5'位 置的一个或多个被取代,中的酮基团转化为对应的取代(S)-苯乙醇的还原反应。在一些实施方案中,酮还原酶能将结构式(I)的底物化合物(2',6' -二 氯-3'-氟苯乙酮)
还原或转化为结构式(II)的对应的手性醇产物⑶-1_[2,6-二氯-3-氟苯 基]-乙醇 在一些实施方案中,本文所述的酮还原酶能将结构式(III)的2' ,6'-取代苯乙
酮化合物 其中Y和Z独立地选自CH3、CF3、NH2、0H、0CH3、C1和Br,还原或转化为结构式(IV)
的对应的手性醇产物 在一些实施方案中,本文所述的酮还原酶能催化结构式(III)的2' ,6'-取代 苯乙酮化合物,其可在3' ,4'和5'位置的一个或多个位置被相似地取代,转化为对应 的(S)-醇产物的还原反应。本文所述的酮还原酶催化除了苯乙酮之外特定的其他取代的 2',6'-取代苯乙酮化合物的还原反应的能力可通过常规实验法来确定,例如通过诸如 实施例中所述的方法。结构式(I)的化合物2' ,6' -二氯-3'-氟苯乙酮是其他取代的 2',6' _取代苯乙酮化合物的实例。因此,在一些实施方案中,本文公开的酮还原酶能催 化结构式(V)的化合物 其中Y 禾口 Z 独立地选自 CH3、CF3、NH2、OH、0CH3、CI 禾口 Br,W 选自 H 或 F、CI 或 Br,
转化为结构式(VI)的对应的(S)醇产物的还原反应 因此,在一些实施方案中,本文描述的酮还原酶可用在用于将2' ,6'-取代苯乙 酮底物,任选地在3' ,4'或5'位置的一个或多个位置被取代,还原为对应的取代(S)-苯 乙醇的方法中,其中该方法包括在适合于将取代苯乙酮还原或转化为对应的取代(S)-苯 乙醇的反应条件下使取代苯乙酮底物与本文描述的酮还原酶接触。在该方法的一些实施方 案中,底物以大于约25%,50%,75%,80%,85%,90%,95%,99%或99. 9%的立体异构过 量被还原为产物。在一些实施方案中,本文描述的酮还原酶可用在用于将式(III)的2' ,6'-取代 苯乙酮底物还原为式(IV)的对应的取代(S)-苯乙醇化合物的方法中,其中该方法包括在 适合于将式(III)的化合物还原或转化为式(IV)的对应的取代(s)-苯乙醇化合物的反应 条件下使式(III)的化合物与本文所述的酮还原酶多肽接触或孵育。在该方法的一些实施 方案中,底物以大于约25%,50%,75%,80%,85%,90%,95%,99%或99. 9%的立体异构 过量被还原为产物。在一些实施方案中,本文所述的酮还原酶可用在用于将式(I)的2',6' -二 氯-3'-氟苯乙酮底物还原为其对应的(S)-醇产物,式(II)的(S)-l-[2,6-二氯-3-氟 苯基]-乙醇的方法中,其中该方法包括在适合于将2' ,6' -二氯-3'-氟苯乙酮还原或 转化为(S)-l_[2,6-二氯-3-氟苯基]-乙醇的反应条件下使2',6' -二氯-3'-氟苯 乙酮与本文所述的酮还原酶多肽接触或孵育。在该方法的一些实施方案中,底物以大于约 85 %,90 %,95 %,99 %或99. 9 %的立体异构过量被还原为产物。在一些实施方案中,底物以 大于约85%的立体异构过量被还原为产物,其中该酮还原酶多肽包含基于SEQ ID NO 95, 96或119的序列式的氨基酸序列。在一些实施方案中,衍生自野生型乳杆菌属酮还原酶的工程(S)_选择性酮还 原酶可用在以大于约 85 %,90 %,91 %,92 %,93 %,94 %,95 %,96 %,97 %,98 %,99 % 或 99. 9%或更高的立体异构过量将苯乙酮还原为(S)-l-苯乙醇的方法中。在一些实施方案中,底物以大于约99%的立体异构过量被还原为产物,其中该方 法中使用的酮还原酶多肽包含选自SEQ ID NO =6,8,10,12,14,16,18, 20, 22, 24, 26, 28, 30, 32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70,72,74,76,78,80,
6282,84,86,88,90,92和94的氨基酸序列。在该方法的一些实施方案中,当方法使用相对 2',6' -二氯-3'-氟苯乙酮底物的量的按重量计低于约的量的酮还原酶多肽来实 行时,至少约95%的底物在不到24小时内以大于约99%的立体异构过量被还原为产物。在该方法的一些实施方案中,当方法使用至少约200g/L的底物和少于约lg/L的 酮还原酶多肽来进行时,至少约95%的底物在不到24小时内以至少约99%的立体异构过 量被还原为产物,其中该方法中使用的酮还原酶多肽包含选自SEQ ID NO =18,32,34,36, 38,40,42,44,46,74,76,78,80,82,84,86,88,90,92 和 94 的氨基酸序列。在一些实施方案中,本公开的酮还原酶多肽和方法可用来合成描述于以下 参考文献中的蛋白酪氨酸激酶抑制化合物W02006021886(氨基杂芳基化合物)、 W02006021884(对映体大体纯的氨基杂芳基化合物)、W02006021881 (吡唑-取代的氨基杂 芳基化合物)和W02004076412(氨基杂芳基化合物)),其合成依赖于式(II)的化合物作为 中间体。所有参考文献通过引用整体并入本文。相应地,在一些实施方案中,本文所述的酮还原酶多肽和方法可用来产生结构式 (VII)的蛋白酪氨酸激酶抑制化合物, Y 是 N 或 CR12;R1选自氢、卤素、C6_12芳基、5-12元杂芳基、C3_12环烃基、3_12元杂脂环、-0(CR6R7) nR4、-C (0) R4、-C (0) OR4、-CN、_N02、_S (0) mR4、_S02NR4R5、_C (0) NR4R5、_NR4C (0) R5、_C ( = NR6) NR4R5、(V8烃基、C2_8烯基和C2_8炔基;并且R1中的每个氢任选地由一个或多个R3基团取代;R2是氢、卤素、(V2烃基、C2_12烯基、C2_12炔基、C3_12环烃基、C6_12芳基、3-12元杂脂 环、5-12 元杂芳基、_S(0)mR4、-S02NR4R5、-S(0)20R4、_N02、_NR4R5、_(CR6R7)n0R4、-CN、-C(0) R4、-0C(0)R4、-0(CR6R7)nR4、_NR4C(0)R5、- (CR6R7) nC (0) OR4、- (CR6R7) nNCR4R5、_C( = NR6) NR4R5、-NR4C(0)NR5R6、-NR4S (0)PR5 或-C(0)NR4R5,并且 R2 中每个氢任选地由 R8 取代;每个R3独立地为卤素、(V2烃基、C2_12烯基、C2_12炔基、C3_12环烃基、C6_12芳基、 3-12 元杂脂环、5-12 元杂芳基、-S(0)mR4、-S02NR4R5、-S(0)20R4、_N02、_NR4R5、-(CR6R7) n0R4、-CN、-C(0)R4、-0C(0)R4、-0 (CR6R7) nR4、-NR4C(0)R5、- (CR6R7) nC (0) OR4、- (CR6R7) n0R4、_(CR6R7)nC(0)NR4R5、- (CR6R7) nNCR4R5、_C( = NR6)NR4R5、_NR4C (0) NR5R6、-NR4S (0) PR5 或-C(0)NR4R5,R3中每个氢任选地由R8取代,并且邻近原子上的R3基团可组合以形成C6_12 芳基、5-12元杂芳基、C3_12环烃基或3-12元杂脂环基团;每个R4、R5、R6和R7独立地为氢、卤素、烃基、C2_12烯基、C2_12炔基、C3_12环烃基、C6_12芳基、3-12元杂脂环、5-12元杂芳基;或者与相同氮原子结合的R4、R5、R6和R7的任 两个可与其结合的氮原子一起组合以形成3至12元杂脂环或5-12元杂芳基基团,该基团 任选地含有1至3个选自N、0和S的其他杂原子;或者与相同碳原子结合的R4、R5、R6和R7 的任两个可组合以形成C3_12环烃基、C6_12芳基、3-12元杂脂环或5-12元杂芳基基团;并且 R4、R5、R6和R7中每个氢任选地被R8取代;每个R8独立地为卤素、(V12烃基、C2_12烯基、C2_12炔基、C3_12环烃基、C6_12芳基、3-12 元杂脂环、5-12 元杂芳基、-NH^-CNrOHrO-Cu 烃基、_0_(CH2)nC3_12 环烃基、-0_(CH2)nC6_12 芳基、-0-(CH2)n(3-12元杂脂环)或-0-(CH2)n(5-12元杂芳基);并且R8中每个氢任选地被 R11取代;每个R9和R1Q独立地为氢、卤素、(V12烃基、C3_12环烃基、C6_12芳基、3-12元杂脂 环、5-12 元杂芳基、_S(0)mR4、-S02NR4R5、-S(0)20R4、_N02、_NR4R5、_(CR6R7)nOR4、-CN、-C(0) R4、-0C(0)R4、-NR4C(0)R5、_(CR6R7)nC(0)0R4、- (CR6R7)nNCR4R5、_NR4C (0) NR5R6、-NR4S (0) PR5 或-C(0)NR4R5 ;R9或R"1可与A的环原子或A的取代基组合以形成C3_12环烃基、3-12元杂脂 环、C6_12芳基或与A稠合的5-12元杂芳基;并且R9和中每个氢任选地被R3取代;每个R11独立地为卤素、Ci_12烃基、Ci_12烃氧基、C3_12环烃基、C6_12芳基、3-12元杂脂 环、5-12 元杂芳基、-0-Ch2 烃基、-0-(CH2)nC3_12 环烃基、-0-(CH2)nC6_12 芳基、-。-^!^、^-^ 元杂脂环)、-0_(CH2)n(5-12元杂芳基)或-CN,并且R11中每个氢任选地被卤素、-OH、-CN、 可部分或完全卤素化的_(V12烃基、可部分或完全卤素化的-O-CiM烃基、-CO、-SO或-S02 取代;R12是氢、卤素、Ci_12烃基、C2_12烯基、C2_12炔基、C3_12环烃基、C6_12芳基、3_12元杂 脂环、5-12 元杂芳基、-S (0) mR4、-S02NR4R5、-S (0) 20R4、_N02、_NR4R5、- (CR6R7) n0R4、-CN、_C (0) R4、-0C(0)R4、-0(CR6R7)nR4、_NR4C(0)R5、- (CR6R7) nC (0) OR4、- (CR6R7) nNCR4R5、_C( = NR6) NR4R5、-NR4C (0) NR5R6、-NR4S (0) PR5 或-C (0) NR4R5,并且 R12 中每个氢任选地被 R3 取代;每个R13独立地为卤素、Ci_12烃基、C2_12烯基、C2_12炔基、C3_12环烃基、C6_12芳 基、3-12 元杂脂环、5-12 元杂芳基、-S(0)mR4、-S02NR4R5、-S(0)20R4、_N02、_NR4R5、-(CR6 R7)n0R4、-CN、-C(0)R4、-0C(0)R4、-0 (CR6R7) nR4、_NR4C(0)R5、- (CR6R7) nC (0) OR4、- (CR6R7) n0R4、-(CR6R7)nC(0)NR4R5、- (CR6R7) nNCR4R5、-C( = NR6)NR4R5、-NR4C (0) NR5R6、-NR4S (0) PR5、-C(0)NR4R5、-(CR6R7)n(3-12 元杂脂环)、-(CR6R7) n (C3_12 环烃基)、-(CR6R7) n (C6_12 芳 基)、-(CR6R7) n (5-12 元杂芳基)、-(CR6R7) nC (0) NR4R5 或-(CR6R7) nC (0) R4,邻近原子上的 R13 基团可组合以形成C6_12芳基、5-12元杂芳基、C3_12环烃基或3-12元杂脂环基团,并且R13中 每个氢任选地被R3取代;其中,每个m独立地为0、1或2 ;每个n独立地为0、1、2、3或4 ;并且每个p独立 地为1或2。各种取代基以及式(VII)包含的特定化合物的说明描述于W004076412和 W006021884。相应地,在用于产生结构式(VII)的对映体纯的化合物的方法中,方法的步骤可 包括在适合于将式(I)的底物化合物还原或转化为式(II)的产物化合物的反应条件下使 用本文所述的酮还原酶多肽将式(I)的化合物还原或转化为式(II)的化合物。从式(II) 的化合物合成式(VII)的化合物描述于引用的参考文献中。在一些实施方案中,本文所述的酮还原酶多肽和方法可用来产生结构式(VIII)
64 包括其盐、水合物及溶剂合物,如W006021886中所述,其中R1(I、R2、Y和N描述于本 文。在一些实施方案中,对式(VIII)的化合物,Y 是 N 或 CR1 ;R1是氢、卤素、Ci_12烃基、C2_12烯基、C2_12炔基、C3_12环烃基、C6_12芳基、3_12元杂 脂环、5-12 元杂芳基、-S (0) mR4、-S02NR4R5、-S (0) 20R4、_N02、_NR4R5、- (CR6R7) n0R4、_CN、_C (0) R4、-0C(0)R4、-0(CR6R7)nR4、_NR4C(0)R5、- (CR6R7) nC (0) OR4、- (CR6R7) nNCR4R5、_C( = NR6) NR4R5、-NR4C (0) NR5R6、-NR4S (0) PR5 或-C (0) NR4R5,并且 R1 中每个氢任选地被 R3 取代;R2是氢、卤素、Ch2烃基、C2_12烯基、C2_12炔基、C3_12环烃基、C6_12芳基、3_12元杂 脂环、5-12 元杂芳基、-S (0) mR4、-S02NR4R5、-S (0) 20R4、_N02、_NR4R5、- (CR6R7) n0R4、_CN、_C (0) R4、-0C(0)R4、-0(CR6R7)nR4、_NR4C(0)R5、- (CR6R7) nC (0) OR4、- (CR6R7) nNCR4R5、_C( = NR6) NR4R5、-NR4C (0) NR5R6、-NR4S (0) PR5 或-C (0) NR4R5,并且 R2 中每个氢任选地被 R8 取代;每个R3独立地为卤素、(V12烃基、C2_12烯基、C2_12炔基、C3_12环烃基、C6_12芳基、 3-12 元杂脂环、5-12 元杂芳基、-S(0)mR4、-S02NR4R5、-S(0)20R4、_N02、_NR4R5、_(CR6R7) n0R4、-CN、-C(0)R4、-0C(0)R4、-0 (CR6R7) nR4、_NR4C(0)R5、- (CR6R7) nC (0) OR4、- (CR6R7) n0R4、_(CR6R7)nC(0)NR4R5、- (CR6R7) nNCR4R5、_C( = NR6)NR4R5、_NR4C (0) NR5R6、-NR4S (0) PR5 或-C (0) NR4R5,R3中每个氢任选地被R8取代,邻近原子上的R3基团可组合以形成C6_12芳基、 5-12元杂芳基、C3_12环烃基或3-12元杂脂环基团;每个R4、R5、R6和R7独立地为氢、卤素、烃基、C2_12烯基、C2_12炔基、C3_12环烃 基、C6_12芳基、3-12元杂脂环、5-12元杂芳基;或者与相同氮原子结合的R4、R5、R6和R7的任 两个可与其结合的氮原子一起组合以形成3至12元杂脂环或5-12元杂芳基基团,该基团 任选地含有1至3个选自N、0和S的其他杂原子;或者与相同碳原子结合的R4、R5、R6和R7 的任两个可组合以形成C3_12环烃基、C6_12芳基、3-12元杂脂环或5-12元杂芳基基团;并且 R4、R5、R6和R7中每个氢任选地被R8取代;每个R8独立地为卤素、(V12烃基、C2_12烯基、C2_12炔基、C3_12环烃基、C6_12芳基、3-12 元杂脂环、5-12 元杂芳基、-NHy-CKHrO-Cu 烃基、-0_(CH2)nC3_12 环烃基、-0_(CH2)nC6_12 芳基、-0-(CH2)n(3-12元杂脂环)或-0-(CH2)n(5-12元杂芳基);并且R8中每个氢任选地被 R9取代;每个R9独立地为卤素、Ci_12烃基、Ci_12烃氧基、C3_12环烃基、C6_12芳基、3-12元杂月旨
CN 101855342 Ai^. ^ ^56/71 页
的蛋白酪氨酸激酶抑制化合物,
R2 VIII环、5-12 元杂芳基、-0-Ch2 烃基、-0-(CH2)nC3_12 环烃基、-0-(CH2)nC6_12 芳基、-。-^!^、^-^ 元杂脂环)、-0-(CH2)n(5-12元杂芳基)或-CN,并且R9中每个氢任选地被卤素、-OH、-CN、 可部分或完全卤素化的_(V12烃基、可部分或完全卤素化的-0-CiM烃基、-CO、-SO或-S02 取代;R10代表一个、两个或三个任选的取代基,其独立地为卤素、Ci_12烃基、C2_12烯基、 c2_12 炔基、C3_12 环烃基、C6_12 芳基、3-12 元杂脂环、5-12 元杂芳基、-s (0)mR4、-S02NR4R5、_S (0 )20R4、-N02、-NR4R5、- (CR6R7) n0R4、-CN、-C (0) R4、-0C (0) R4、-0 (CR6R7) nR4、-NR4C (0) R5、- (CR6R7) nC(0)0R4、_(CR6R7)n0R4、_(CR6R7)nC(0)NR4R5、- (CR6R7) nNCR4R5、-C( = NR6)NR4R5、-NR4C (0) NR5R6、-NR4S (0) PR5、-C (0) NR4R5、- (CR6R7) n (3-12 元杂脂环)、-(CR6R7) n (C3_12 环烃基)、-(CR6R7) n(C6_12芳基)、-(CR6R7)n(5-12元杂芳基)或_(CR6R7)nC(0)NR4R5,并且R1。中每个氢任选地被 R3取代;其中每个m独立地为0、1或2 ;每个n独立地为0、1、2、3或4 ;并且每个p独立地 为1或2。各种取代基以及式(VIII)包含的特定化合物的说明描述于W02006021886。相应地,在用于产生结构式(VIII)的化合物的方法中,方法的步骤可包括在适合 于将式(I)的底物化合物还原或转化为式(II)的产物化合物的反应条件下使用本文所述 的酮还原酶多肽将式(I)的化合物还原或转化为式(II)的化合物。从式(II)的化合物合 成式(VIII)的化合物描述于引用的参考文献中。如本领域技术人员所知,酮还原酶_催化的还原反应一般需要辅因子。本文所述 的工程酮还原酶催化的还原反应一般也需要辅因子,尽管工程酮还原酶的许多实施方案需 要远比野生型酮还原酶催化的反应更少的辅因子。如本文所用,术语“辅因子”指与酮还原 酶组合作用的非蛋白化合物。适合与本文描述的工程酮还原酶一起使用的辅因子包括但不 限于NADP+(烟酰胺腺嘌呤二核苷酸磷酸)、NADPH(NADP+的还原形式)、NAD+(烟酰胺腺嘌 呤二核苷酸)和NADH(NAD+的还原形式)。一般而言,将还原形式的辅因子加到反应混合物 中。可任选地使用辅因子再生系统从氧化型NAD (P)+形式再生还原型NAD(P)H形式。术语“辅因子再生系统”指参与还原氧化型辅因子(例如NADP+到NADPH)的反应 的一套反应物。酮还原酶-催化的酮底物的还原氧化的辅因子通过辅因子再生系统以还原 形式被再生。辅因子再生系统包含为还原氢等效物来源并且能还原氧化型辅因子的化学计 量的还原剂。辅因子再生系统还可包含催化剂,例如催化通过还原剂对氧化型辅因子的还 原的酶催化剂。分别从NAD+或NADP+再生NADH或NADPH的辅因子再生系统在本领域是已 知的,并且可用在本文所述的方法中。可采用的适合的示例性辅因子再生系统包括但不限于葡萄糖和葡萄糖脱氢酶、甲 酸和甲酸脱氢酶、葡萄糖-6-磷酸和葡萄糖-6-磷酸脱氢酶、仲(例如异丙醇)醇和仲醇脱 氢酶、亚磷酸和亚磷酸脱氢酶、分子氢和氢化酶和类似系统。这些系统可与作为辅因子的 NADP+/NADPH或NAD+/NADH组合使用。使用氢化酶的电化学再生也可用作辅因子再生系统。 参见例如,美国专利第5,538,867和6,495,023号,两者都通过引用并入本文。包含金属催 化剂和还原剂(例如分子氢或甲酸)的化学辅因子再生系统也是适合的。参见例如PCT公 布TO 2000/053731,其通过引用并入本文。术语“葡萄糖脱氢酶”和“GDH”在本文可交换使用,指分别催化D-葡萄糖和NAD+ 或NADP+转化为葡萄糖酸和NADH或NADPH的依赖于NAD+或NADP+的酶。以下的反应式(1)描述了葡萄糖脱氢酶_催化的通过葡萄糖的NAD+或NADP+的还原。
⑴葡萄糖+ NAD(P)+ + H20 --葡萄糖酸 +NAD(P)H + H+适合用于本文所述的方法的实践的葡萄糖脱氢酶包括天然存在的葡萄糖脱氢酶 以及非天然存在的葡萄糖脱氢酶。天然存在的葡萄糖脱氢酶编码基因已报道于文献资料 中。例如,枯草芽孢杆菌61297⑶H基因在大肠杆菌中表达,并报道为显示与其天然宿主 产生的酶相同的物理化学特性(Vasantha 等,1983,Proc. Natl. Acad. Sci USA 80:785)。 对应于Genbank登录号M12276的枯草芽孢杆菌⑶H基因的基因序列由Lampel等,1986, J. Bacteriol. 166 :238_243 报道,并且 Yamane 等,1996,Microbiologyl42 :3047_3056 报道其修正形式为Genbank登录号D50453。天然存在的⑶H基因还包括编码来自以下 的 GDH 的那些基因赌状芽孢杆菌(B. cereus)ATCC 14579 (Nature, 2003,423 :87_91 ; Genbank 登录号 AE017013)和巨大芽孢杆菌(B. megaterium) (Eur. J. Biochem.,1988,174 485-490,Genbank 登录号 X12370 ;J. Ferment. Bioeng, 1990,70 :363_369,Genbank 登录号 GI216270)。来自芽孢杆菌(Bacillus甲.)的葡萄糖脱氢酶在PCT公布WO 2005/018579 中提供为SEQ ID NO 10和12 (分别由对应于PCT公布的SEQ ID NO :9和11的多核苷酸序 列编码),其公开内容通过引用并入本文。非天然存在的葡萄糖脱氢酶可使用已知的方法产生,诸如,例如,诱变、定向演化 和类似方法。无论是天然存在或非天然存在的酶,具有适合的活性的GDH酶可使用PCT公 布TO 2005/018579的实施例4中所述的测定容易地鉴定,其公开内容通过引用并入本文。 示例性的非天然存在的葡萄糖脱氢酶在PCT公布W0 2005/018579中提供为SEQ ID NO 62, 64,66,68,122,124和126。编码这些酶的多核苷酸序列在PCT公布W02005/018579中分别 提供为SEQ ID NO :61,63,65,67,121,123和125。所有这些序列通过引用并入本文。适合 用在本文公开的酮还原酶-催化的还原反应中的其他非天然存在的葡萄糖脱氢酶提供于 美国申请公布第2005/0095619和2005/0153417号,其公开内容通过弓|用并入本文。本文所述的酮还原酶_催化的还原反应中采用的葡萄糖脱氢酶在PCT公布TO 2005/018579的实施例4所述的测定中可表现出至少约10 u mol/min/mg的活性,有时至少 约 102 u mol/min/mgor 或约 103 u mol/min/mg、多达约 104 u mol/min/mg 或更高的活性。本文所述的酮还原酶_催化的还原反应一般在溶剂中进行。适合的溶剂包括水、 有机溶剂(例如乙酸乙酯、乙酸丁酯、1-辛醇、庚烷、辛烷、甲基叔丁醚(MTBE)、甲苯和类似 溶剂)、离子液体(例如,1-乙基4-甲基咪唑鐺四氟硼酸、1-丁基-3-甲基咪唑鐺四氟硼 酸、1-丁基-3-甲基咪唑六氟磷酸和类似离子液体)。在一些实施方案中,使用包括水和水 性共溶剂系统的水性溶剂(aqueous solvent)。示例性水性共溶剂系统具有水和一种或多种有机溶剂。一般而言,选择水性共溶 剂系统的有机溶剂组分,以便其不完全失活酮还原酶。适当的共溶剂系统可利用诸如描述 于本文的酶活性测定、通过在候选溶剂系统中用感兴趣的特定底物来测量特定工程酮还原 酶的酶促活性来容易地鉴定。水性共溶剂系统的有机溶剂组分可与水性组分混溶,提供了单一液相,或者可与 水性组分部分混溶或不混溶,提供两种液相。一般而言,当采用水性共溶剂系统时,选择为 双相的,其中水分散于有机溶剂中,或反之亦然。一般而言,当使用水性共溶剂系统时,需要选择可容易地与水性分离的有机溶剂。一般而言,共溶剂系统中水和有机溶剂的比率一般 在从约90 10至约10 90 (v/v)有机溶剂比水、介于80 20和20 80(v/v)之间有 机溶剂比水的范围内。共溶剂系统可在添加到反应混合物之前预先形成,或者其可在反应 容器中原位形成。水性溶剂(水或水性共溶剂系统)可以是pH-缓冲或不缓冲的。一般而言,还原 可在pH约10或更低、通常在从约5至约10的范围内进行。在一些实施方案中,还原在pH 约9或更低、通常在从约5至约9的范围内进行。在一些实施方案中,还原在pH约8或更 低、通常在从约5至约8的范围内和通常在从约6至约8的范围内进行。还原还可在pH约 7. 8或更低、或7. 5或更低下进行。可选地,还原可在中性pH(即约7)下进行。在还原反应过程中,反应混合物的pH可以改变。通过在反应期间加入酸或碱,反 应混合物的PH可维持在需要的pH下或在需要的pH范围内。可选地,可通过使用包含缓冲 剂的水性溶剂来控制pH。保持需要的pH范围的适合缓冲液在本领域是已知的,并且包括例 如,磷酸缓冲液、三乙醇胺缓冲液和类似缓冲液。还可使用缓冲液和加入酸或碱的组合。当采用葡萄糖/葡萄糖脱氢酶的辅因子再生系统时,如果得到的水性葡萄糖酸不 被另外中和,如反应式(1)中代表的葡萄糖酸(pKa = 3.6)的共同产生导致反应混合物pH 的下降。通过标准的缓冲技术或在转化过程的同时加入碱,反应混合物的PH可保持在需要 的水平,在所述标准的缓冲技术中缓冲液中和葡萄糖酸可达提供的缓冲能力。还可使用缓 冲和加入碱的组合。保持需要的PH范围的适合缓冲液描述于上文。用于中和葡萄糖酸的 适合碱为有机碱(例如胺、醇盐和类似有机碱)和无机碱例如氢氧化物盐(例如NaOH)、碳 酸盐(例如NaHC03)、碳酸氢盐(例如K2C03)、碱性磷酸盐(例如K2HP04、Na3P04)和类似无机 碱。转化过程的同时加入碱可在监测反应混合物的PH的同时人工地进行,或者更方便地, 通过使用自动滴定仪作为PH稳态(pH stat)。部分缓冲能力和加入碱的组合还可用于过程 控制。当采用加入碱来中和酮还原酶_催化的还原反应期间释放的葡萄糖酸时,转化过 程可通过保持PH所加入的碱的量来监测。在还原期间加入到未缓冲或部分缓冲的反应混 合物中的碱一般以水性溶液加入。在一些实施方案中,辅因子再生系统可包含甲酸脱氢酶。术语“甲酸脱氢酶”和 “FDH”在本文可交换使用,指分别催化甲酸和NAD+或NADP+转化为二氧化碳和NADH或NADPH 的依赖于NAD+或NADP+的酶。适合用作本文所述的酮还原酶-催化的还原反应中的辅因 子再生系统的甲酸脱氢酶包括天然存在的甲酸脱氢酶以及非天然存在的甲酸脱氢酶。甲酸 脱氢酶包括对应于PCT公布W0 2005/018579的SEQ ID N0:70(假单胞菌种(Pseudomonas sp.))和72(博伊丁假丝酵母(Candida boidinii))的甲酸脱氢酶,其分别由对应于PCT公 布2005/018579的SEQ ID NO 69和71的多核苷酸序列编码,该PCT公布的公开内容通过 引用并入本文。无论是天然存在或非天然存在的,本文所述的方法中采用的甲酸脱氢酶可 表现出至少约1 U mol/min/mg、有时至少约10 u mol/min/mg或至少约102 u mol/min/mg、多 达约103 u mol/min/mg或更高的活性,并且在PCT公布W0 2005/018579的实施例4所述的 测定中可容易地筛选其活性。如本文所用,术语“甲酸”(formate)指甲酸阴离子(HC02_)、甲酸(HC02H)及其混合 物。甲酸可以盐的形式提供,一般为碱金属盐或铵盐(例如,HC02Na、KHC02NH4和类似盐),以甲酸的形式提供,一般为水性甲酸或其混合物。甲酸是中强酸。在其pKa(于水中pKa = 3.7)的几个pH单位内的水溶液中,甲酸作为平衡浓度的HC02_和HC02H存在。在pH值高 于约pH 4时,甲酸主要作为HC02_存在。当甲酸作为甲酸提供时,反应混合物一般被缓冲或 者通过加入碱变得酸性更弱以提供需要的PH,一般为约pH 5或更高。用于中和甲酸的适 合的碱包括但不限于有机碱例如胺、醇盐和类似有机碱,和无机碱例如氢氧化物盐(例如 NaOH)、碳酸盐(例如NaHC03)、碳酸氢盐(例如K2C03)、碱性磷酸盐(例如K2HP04、Na3P04)和 类似无机碱。对高于约pH 5的pH值,其中甲酸主要作为HC02_存在,下文反应式⑵描述了甲 酸脱氢酶_催化的甲酸对NAD+或NADP+的还原。 当采用甲酸和甲酸脱氢酶作为辅因子再生系统时,可通过标准的缓冲技术或者通 过在转化过程的同时加入酸将反应混合物的pH保持在需要的水平,在所述标准的缓冲技 术中缓冲液释放质子以便达到提供的缓冲能力。在反应过程中加入以保持PH的适合的酸 包括有机酸例如羧酸、磺酸、膦酸和类似有机酸,无机酸例如氢商酸(诸如盐酸)、硫酸、磷 酸和类似无机酸)、酸式盐(例如二氢磷酸盐(例如KH2P04)、亚硫酸盐(例如NaHS04)和类 似酸式盐。一些实施方案利用甲酸,其中保持甲酸的浓度和溶液的pH。在使用甲酸/甲酸脱氢酶辅因子再生系统的还原反应期间,当采用加入酸来保持 pH时,转化的过程可通过保持pH所加入的酸的量来监测。一般而言,在转化过程中加入到 未缓冲或部分缓冲的反应混合物中的酸以水性溶液加入。术语“仲醇脱氢酶”和“sADH”在本文可交换使用,指分别催化仲醇和NAD+或NADP+ 转化为酮和NADH或NADPH的依赖于NAD+或NADP+的酶。下文的反应式(3)描述了由异丙 醇示例的仲醇对NAD+或NADP+的还原。 适合在本文所述的酮还原酶-催化的还原反应中用作辅因子再生系统的仲醇 脱氢酶包括天然存在的仲醇脱氢酶以及非天然存在的仲醇脱氢酶。天然存在的仲醇脱 氢酶包括来自布氏嗜热厌氧菌(Thermoanerobiumbrockii)、红平红球菌(Rhodococcus etythropolis)、克菲尔乳杆菌和短乳杆菌的已知醇脱氢酶,非天然存在的仲醇脱氢酶包 括从其衍生的工程醇脱氢酶。无论是天然存在或非天然存在的,本文所述的方法中采用 的仲醇脱氢酶可表现出至少约lymol/min/mg、有时至少约10 y mol/min/mg或至少约 102ii mol/min/mg、多达约 103 ii mol/min/mg 或更高的活性。适合的仲醇包括低级仲烷醇(alkanol)和芳基-烃基甲醇。低级仲醇的实例包括 异丙醇、2-丁醇、3-甲基-2-丁醇、2-戊醇、3-戊醇、3,3-二甲基-2-丁醇和类似低级仲醇。 在一个实施方案中,仲醇是异丙醇。适合的芳基-烃基甲醇包括未取代和取代的1-芳基乙醇。当采用仲醇和仲醇脱氢酶作为辅因子再生系统时,得到的NAD+或NADP+通过仲醇 脱氢酶将仲醇偶联氧化为酮而被还原。一些工程酮还原酶还具有使仲醇还原剂脱氢的活性。在使用仲醇作为还原剂的一些实施方案中,工程酮还原酶和仲醇脱氢酶是相同的酶。在采用辅因子再生系统执行本文所述的酮还原酶_催化的还原反应的实施方案 中,辅因子的氧化或还原形式可最初提供。如上文所述,辅因子再生系统将氧化型辅因子转 化为其还原型,然后还原型辅因子在酮还原酶底物的还原中被利用。在一些实施方案中,不使用辅因子再生系统。对不使用辅因子再生系统执行的还 原反应,将辅因子以还原型加入到反应混合物中。在一些实施方案中,当使用宿主有机体的全细胞执行该过程时,全细胞可天然地 提供辅因子。可选地或组合地,细胞可天然地或重组地提供葡萄糖脱氢酶。在执行本文所述的立体选择性还原反应中,工程酮还原酶和包含任选辅因子再生 系统的任何酶可以纯化的酶、用编码酶的基因转化的全细胞和/或细胞提取物和/或此类 细胞的裂解物的形式加入到反应混合物中。编码工程酮还原酶和任选地辅因子再生酶的基 因可被单独转化到宿主细胞,或者一起转化到相同的宿主细胞中。例如,在一些实施方案 中,一套宿主细胞可用编码工程酮还原酶的基因转化,另一套宿主细胞可用编码辅因子再 生酶的基因转化。两套转化细胞可以全细胞的形式或以衍生自全细胞的裂解物或提取物的 形式在反应混合物中一起使用。在其他实施方案中,宿主细胞可用编码工程酮还原酶和辅 因子再生酶的基因转化。用编码工程酮还原酶和/或任选的辅因子再生酶的基因转化的全细胞或其细胞 提取物和/或其裂解物可以多种不同形式采用,包括固体(例如冻干的固体、喷雾干燥的固 体和类似固体)或半固体(例如粗糊剂)。细胞提取物或细胞裂解物可通过沉淀(硫酸铵、聚乙烯亚胺、热处理或类似处 理),然后在冻干之前进行脱盐程序(例如超滤、透析和类似过程)被部分纯化。任何细胞 制品可通过使用已知交联剂(诸如,例如,戊二醛)交联或固定于固相上(例如Eupergit C 和类似固相)被稳定。固体反应物(例如酶、盐等)可以多种不同形式提供给反应,包括粉末(例如冻干 粉末、喷雾干燥的粉末和类似粉末)、溶液、乳剂、悬浮液和类似形式。使用本领域普通技术 人员已知的方法和设备可容易地冻干或喷雾干燥反应物。例如,蛋白溶液可以小等份冷冻 于-80°C,然后加入到预先冷却的冻干箱,随后应用真空。从样品去除水之后,在释放真空和 回收冻干样品之前,温度一般升高到4°C持续2小时。还原反应中使用的反应物的量将一般取决于需要的产物的量和伴随的采用的酮 还原酶底物的量而变化。以下指南可用来确定使用的酮还原酶、辅因子和任选的辅因子再 生系统的量。一般而言,采用的酮底物的浓度可为约20至300克/升,使用从约50mg至约 5g的酮还原酶和约10mg至约150mg的辅因子。本领域普通技术人员将容易理解如何改变 这些量以调整这些量使其适应需要的生产率水平和产物规模。任选的辅因子再生系统的适 当的量可基于使用的辅因子和/或酮还原酶的量容易地通过常规实验来确定。一般而言, 还原剂(例如葡萄糖、甲酸、异丙醇)以高于酮还原酶底物的等摩尔水平的水平使用以获得 酮还原酶底物基本上完全或接近完全的转化。加入反应物的顺序不是关键的。反应物可同时一起加入到溶剂中(例如单相溶 剂、双相水性共溶剂系统和类似溶剂),或可选地,可单独加入一些反应物,并且一些反应物 可在不同的时间点一起加入。例如,辅因子再生系统、辅因子、酮还原酶和酮还原酶底物可
70首先加入到溶剂中。当使用水性共溶剂系统时,为了改进混合效率,可首先加入辅因子再生系统、酮还 原酶和辅因子并缓和到水性中。然后可加入有机相并混合,随后加入酮还原酶底物。可选 地,在加入到水相之前,酮还原酶底物可在有机相中预先混合。用于执行本文所述的酮还原酶_催化的还原反应的适合条件包括可容易地通过 常规实验被优化的多种条件,这些实验包括但不限于使工程酮还原酶和底物在实验PH和 温度下接触并检测产物,例如使用本文提供的实施例中描述的方法。酮还原酶催化的还原一般在从约15°C至约75°C范围的温度下进行。对一些实施 方案,反应在从约20°C至约55°C范围的温度下进行。在其他实施方案中,反应在从约20°C 至约45°C范围的温度下进行。反应还可在常温条件下进行。一般允许还原反应进行,直至获得底物的基本完全或接近完全的还原。底物还原 为产物可通过检测底物和/或产物使用已知方法监测。适合的方法包括气相层析、HPLC和 类似方法。反应混合物中产生的醇还原产物的转化产量一般大于约50%,还可能大于约 60 %,还可能大于约70 %,还可能大于约80 %,还可能大于90 %,并且常常大于约97 %。7.实施例本公开的各种特点和实施方案例证于以下代表性实施例中,这些实施例预期为例 证性的而不是限制性的。在以下描述中,使用葡萄糖脱氢酶(⑶H)的地方,其为⑶H⑶X901,获自Julich Chiral Solutions, Julich, Germany。7. 1实施例1 野生型酮还原酶基因获得和表达载体的构建。基于酮还原酶的报道的氨基酸序列和美国临时申请序列号60/848,950和 W02008042876中所述的密码子优化算法,其通过引用并入本文,设计酮还原酶(KRED)编码 基因用于在大肠杆菌中表达。使用包括42个核苷酸的寡核苷酸合成基因,并克隆到在lac 启动子控制下的表达载体pCKl 10900中(描述于美国专利申请公布20060195947的图3)。 该表达载体还含有P15a复制起点和氯霉素抗性基因。使用标准方法将得到的质粒转化到 大肠杆菌W3110中。密码子优化的基因以及编码的多肽列于表3。如美国临时中请序列号 60/848,950中所述证实了野生型酮还原酶的活性。 编码本公开的工程酮还原酶的多核苷酸被同样地克隆到载体pCK110900中用于 在大肠杆菌W3110中表达。7. 2实施例2 酮还原酶粉末的产生;摇瓶程序。含有具有感兴趣的酮还原酶基因的质粒的大肠杆菌的单个微生物菌落被接种到 含有30ii g/ml氯霉素和葡萄糖的50ml Luria Bertani肉汤中。细胞在30°C下伴有 250rpm的振荡下在培养箱中生长过夜(至少16小时)。培养物稀释到250ml Terrific肉汤中(12g/L细菌胰蛋白胨、24g/L酵母提取物、4ml/L甘油、65mM磷酸钾,pH 7. OUmM MgS04、 30 u g/ml氯霉素)于1升瓶中)至600nm的光密度(0D600)为0. 2,并允许其在30°C下生 长。当培养物的0D600为0.6至0.8时,用ImM IPTG诱导酮还原酶基因的表达,并孵育过 夜(至少16小时)。通过离心(5000rpm,15min,4°C )收获细胞,并弃掉上清液。细胞沉淀 用等体积的冷(4°C ) lOOmM三乙醇胺(氯化物)缓冲液,pH 7. 0 (在ADH-LK和ADH-LB和从 其衍生的工程酮还原酶的实例中包括2mM MgS04)重悬,并通过如上文的离心收获。洗涤的 细胞在两倍体积的冷三乙醇胺(氯化物)缓冲液中重悬,并以12000psi通过French Press 两次,同时保持在4°C。通过离心(9000rpm,45min.,4°C)去除细胞碎片。收集透明的裂解 物上清液并储存于-20°C。冷冻的透明裂解物的冻干提供了粗酮还原酶的干粉。7. 3实施例3 酮还原酶的产生;发酵程序。在通气搅拌的15L发酵罐中,使含有0. 88g/L硫酸铵、0. 98g/L柠檬酸钠;12. 5g/L 三水合磷酸氢二钾、6. 25g/L磷酸二氢钾、6. 2g/L Tastone-154酵母提取物、0. 083g/L柠檬 酸铁铵和8. 3ml/L微量元素溶液的6. 0L生长培养基达到30°C的温度,所述微量元素溶液 含有2g/L 二水合氯化钙、2. 2g/L七水合硫酸锌、0. 5g/L 一水合硫酸锰、lg/L七水合硫酸亚 铜、0. lg/L四水合钼酸铵和0. 02g/L十水合四硼酸钠。发酵罐用含有感兴趣的酮还原酶基 因的质粒的指数生长末期的大肠杆菌W3110培养物接种,所述培养物如实施例3中所述在 摇瓶中生长至起始0D600为0. 5至2. 0。发酵罐以500-1500rpm搅拌,并以1. 0-15. OL/min 向发酵容器提供空气以保持30%饱和或更高的溶解氧水平。通过加入20% v/v氢氧化铵 控制培养物的PH为7.0。通过加入含有500g/L工业葡萄糖(cerel0Se)、12g/L氯化铵和 10. 4g/L七水合硫酸镁的料液保持培养物的生长。在培养物达到0D600为50后,通过加入 终浓度为ImM的异丙基-b-D-硫代半乳糖苷(IPTG)诱导酮还原酶的表达。培养物生长另 外14小时。然后冷却培养物至4°C并保持在4°C直至收获。通过在Sorval RC 12BP离心 机中于4°C 5000G下离心40分钟收获细胞。收获的细胞直接用在以下的下游回收过程或储 存于4°C直至此类使用。细胞沉淀于4°C下重悬,每体积的湿细胞糊剂(wet cell paste)重悬于2倍体积 的100mM三乙醇胺(氯化物)缓冲液,pH 6. 8。使用12000psig的压强通过使悬浮液通过 装有两相勻浆阀部件的勻浆器,使胞内酮还原酶从细胞中释放。破坏后立即将细胞勻浆冷 却至4°C。将10% w/v聚乙烯亚胺,pH 7. 2的溶液加入到裂解物中至终浓度为0. 5% w/v 并搅拌30分钟。得到的悬浮液通过在标准实验室离心机内以5000G离心30分钟变得澄清。 轻轻倒出透明的上清液,并使用具有30Kd分子量截留的纤维素超滤膜浓缩10倍。最终的 浓缩液分散到浅容器中,在-20°C下冷冻并冻干为粉末。酮还原酶粉末储存于-80°C。7.4 实施例 4:确定 2',6' -二氯 _3'-氟苯乙酮向(S) _1_[2 ‘,6' -二 氯-3'-氟苯基]-乙醇的转化和对映体过量的分析方法。2' ,6' -二氯-3'-氟苯乙酮的还原和醇产物的手性纯度通过反相手性 HPLC(4. 6x150mm Chiralpak AD-RH柱(没有保护柱(guard cartridge)) ;50 50ACN/H20, 0. 8mL/min ;25°C ;使用以下保留时间于 254nm 下检测(S)-醇 5. 77min ; (R)_ 醇 6. 19min ; 酮 7. 49min)或正相手性 HPLC(4. 6x250mm ChiralpakAD 柱(没有保护柱);2 :98IPA/ 己烷 以2. 5mL/min于室温下(未调节);使用以下保留时间于220nm下检测(S)-醇4. 72min ; (R)-醇 5. 30min ;酮 2. 03min)来确定。
可选地,使用以下气相层析分析方法使用HP-5柱(30mx0. 25mm)、温度程序为以 50°C /min的100°C (lmin)至200°C (4min)(酮的保留时间是4. 33min,醇的保留时间是 4. 70min)的非手性方法和使用 Beta Cyclodextrin (DM)柱(30mx0. 25mm)以 165°C恒温(酮 的保留时间是3. 42min,R-异构体的保留时间是5. 92min,R-异构体的保留时间是6. 25min) 的手性方法。7. 5实施例5:评估野生型酮还原酶对2' ,6' -二氯-氟苯乙酮的还原描述于实施例1的表3的KRED使用化学计量的NADH或NADPH作为辅因子来筛选。 向96深孔平板的每个孔加入5-10mg 10 0、于5001^1001111 pH 7.0三乙醇胺(氯化物)缓 冲液的20mg NAD(P)H和L底物( 40g/L底物;通过辅因子的转化限制为 25)。将 平板封口并振荡6小时。通过加入lmL EtOAc猝灭反应。产物的转化和立体纯度如实施例 4所述测定。在这些条件下,使用NADPH 或 NADH,YDL、YGL、GRE、ADH-RE、ADH-SB、ADH-SC、 ADH-HL、LDH-LL、ADH-CP、ADH-CB和DR-LB不产生可检测的转化,而ADH-LB和YPR产生 <0.5%的转化。ADH-LlUf< 的底物转化为手性醇。本实施例证明野生型酮还原酶对2' ,6' -二氯-3'-氟苯乙酮具有非常低的活 性,如果有活性的话。7. 6实施例6 评估ADH-LK变体对2',6' -二氯_3'-氟苯乙酮的还原当在实施例5中所述和如表4中所列的条件下评估时,已如2007年8月24日提 交的美国申请序列号60/957,974和2008年8月24日提交的美国申请序列号12/197,286 中所述产生的几种ADH-LK变体将> 0. 5%的底物转化为手性醇。 a0 0. 5-1% 的转化;+ 1-20% 的转化;++ > 20% 的转化b0 <90% e. e. (S_对映体);+ 90~99% e. e. (S_对映体);++>99% e. e. (S_对 映体).c 指美国申请序列号 60/957,974 和 12/197, 286 中的 SEQ ID NO本实施例说明其中位置190的酪氨酸残基被改变为苯丙氨酸、脯氨酸、半胱氨酸或丙氨酸的ADH-LK变体将2',6' -二氯_3'-氟苯乙酮还原为对应的S-醇。7. 7实施例7 鉴定还原2' ,6' -二氯-氟苯乙酮的酶的高通量NADPH荧光 预筛选。通过定向演化获得并含有演化的酮还原酶基因的质粒文库被转化到大肠杆菌 W3110,并铺板到含有1 %葡萄糖和30 u g/mL氯霉素(CAM)的Luria-Bertani (LB)琼脂培养 基上。在30°C下孵育至少16小时后,使用Q-b0t 机器人菌落挑取器(Genetix USA, Inc., Beaverton,0R)将菌落挑取到含有180 y L Terrific肉汤(TB)、1 %葡萄糖和30 y g/mL氯霉 素(CAM)的96孔浅孔微量滴定板中。细胞在30°C下、200rpm振荡生长过夜。然后将5 u L 该培养物转移到含有380 u L Terrific肉汤(TB)、ImM MgS04和30 u g/mLCAM的96深孔平 板中。在深孔平板在30°C下、250rpm振荡孵育2. 5至3小时后(0D_ 0. 6-0. 8),细胞培养物 的重组基因表达通过终浓度为ImM的异丙基硫代半乳糖苷(IPTG)诱导。然后平板在30°C 下、250rpm振荡孵育15-17小时。通过离心沉淀细胞,并重悬于300 u L裂解缓冲液中,通过室温下振荡至少1小时 裂解。裂解缓冲液含有100mM三乙醇胺(氯化物)缓冲液,pH7.0-7.2、lmg/mL溶菌酶和 750 u g/mL多粘菌素B硫酸盐。然后平板在离心机中以4000RPM、4°C下旋转20分钟,并在 荧光测定中分析透明的上清液(裂解物)。在96孔黑色微量滴定板中,将20 ill每种裂解物(于40_50°C下预先处理0_24hr, 如果需要,于lOOmM三乙醇胺(氯化物)缓冲液,pH 7.0、ImM MgS04中稀释)加入到由100mM 三乙醇胺(氯化物)缓冲液,pH7. 0、lmM MgS04、0. 2g/L NADPH、100_600mM葡萄糖、600_900mM 葡萄糖酸钠和0.2g/L 2' ,6' -二氯-3'-氟苯乙酮组成的180iU测定混合物中,通过 在 Flexstation (Molecular Devices, USA)中 330nm 激发后观察 445nm 处 NADPH 荧光的降 低来测量反应的进程。本实施例描述了用来鉴定改进了 2' ,6' -二氯-3'-氟苯乙酮的还原速率的 KRED变体的方法。7.8实施例8:衍生自々011-0(的工程酮还原酶对2' ,6' -二氯-氟苯乙酮 的还原。用于将2' ,6' -二氯-3'-氟苯乙酮还原为(S)-l_[2' ,6' -二氯-氟 苯基]-乙醇的改进的ADH-LK变体在小规模化学反应中分析。于25°C下向100mL三颈容器 加入30ml lOOmM三乙醇胺(氯化物)缓冲液(pH 7)、2mMMgS04)、200mg具有如下表所述的 SEQ ID NO 的 KRED、50mg GDH、15mg NADP_Na、3. 13g 葡萄糖、6g 2',6' -二氯 _3'-氟苯 乙酮(200g/L),所述三颈容器装有PTFE-包被的磁性搅拌杆和pH电极,该pH电极与自动 滴定仪连接以通过通到容器内的饲管PH-控制地加入需要的碱。自动滴定仪通过加入4N NaOH保持pH为7,其被连续记录。通过碱的加入速率和累积加入以及反应混合物的定期取 样来监测反应进程,定期取样用于使用乙酸乙酯来提取和通过实施例4的方法分析。表5给出了对应于酮还原酶的SEQ ID NO、从野生型ADH-LK的氨基酸突变的数目 和2',6' -二氯-3'-氟苯乙酮向(S)-l-[2',6' -二氯-3'-氟苯基]-乙醇的转化。 S-醇的立体纯度总是> 99. 9%。表 5
75
a.-没有活性;+ 100-450% 的 SEQ ID No. 6 的活性;++ :450_1500% 的 SEQ ID No. 6 的活性;+++ > 1500%的 SEQ ID No. 6 的活性。b. + :50°C下2小时后可测量的活性;++:50°C下2小时后>400%的SEQ ID No. 16的活性。本实施例说明衍生自野生型酮还原酶ADH-LK的工程酮还原酶与酮还原酶ADH-LK 相比提供了改进的活性。7. 9实施例9 衍生自ADH-LB的工程酮还原酶对2’ ,6' -二氯_3‘-氟苯乙酮 的还原。用于将2' ,6' -二氯-3'-氟苯乙酮还原为(S)-l_[2' ,6' -二氯-氟 苯基]-乙醇的改进的ADH-LB变体如实施例8中的ADH-LK变体所述在小规模化学反应中 分析。表6给出了对应于酮还原酶的SEQ ID NO、从野生型ADH-LK的氨基酸突变的数目和 2',6' -二氯-3'-氟苯乙酮向(S)-l-[2',6' -二氯-3'-氟苯基]-乙醇的转化。 S-醇的立体纯度总是> 99. 9%。表6 a.-没有活性;+ 100-450% 的 SEQ ID No. 6 的活性;++ :450_1500% 的 SEQ ID No. 6 的活性;+++ > 1500%的 SEQ ID No. 6 的活性。b. + :50°C下2小时后可测量的活性;++:50°C下2小时后>400%的SEQ ID No. 16
的活性。本实施例说明衍生自野生型酮还原酶ADH-LB的工程酮还原酶与酮还原酶ADH-LB 相比也提供了改进的活性。7. 10实施例10:制备规模产生(S)-l_[2',6' -二氯_3'-氟苯基]-乙醇向500mL套层(jacketed)三颈圆底瓶加入水(120mL)、三乙醇胺(1. 8g),然后加 入氢氯酸来调节PH至7.0,所述套层三颈圆底瓶装有Ace Glass机械搅拌器(75mm直径 的特氟龙搅拌刀片)和PH电极,该pH电极与自动滴定仪连接以通过通到容器内的输送 管pH-控制地加入需要的碱。加入1M的硫酸镁溶液(120 u L,0. 12mmol, 14. 4mg MgS04)。通过使加热液循环通过瓶的套层将溶液加热至30°C。加入葡萄糖(20g),然后加入 Na-NADP(120mg)、GDH(0. 50g)和具有 SEQ ID No. 38 的 KRED(0. 50g)。pH 稳态被设定为通 过输送管加入4N NaOH保持pH为7. 0士0. 1。加入2',6' -二氯_3'-氟苯乙酮(50g) 起始反应。需要定期润洗电极以去除酶衍生的材料。随着反应的进行,分部加入另外的葡 萄糖10g于104min (在已加入17. 5mL 4NNaOH之后)、5g于275min (在已加入35. 2mL 4N NaOH之后)、5g于379min (在已加入42mL 4N NaOH之后)和8g于488min (在已加入47mL 4N NaOH之后)。24小时后停止反应。然后加入庚烷(150mL),并将混合物加热至40°C持 续45分钟。在冷却至30°C后,将得到的混合物倒入分液漏斗,排干大多数底层水性。上层 的庚烷乳剂在真空下通过硅藻土垫过滤(350mL,85mm直径的粗滤器)。用庚烷(150mL)洗 涤滤器,将滤液转移到分液漏斗并分离两相。庚烷相在旋转真空蒸发器上浓缩( 50°C, 150mmHg增加到40mmHg)以产生作为油的(S)-l-[2' ,6' -二氯-氟苯基]-乙醇 (47. 8g,94% ),其一旦静置就结晶。7. 11实施例11 衍生自ADH-LK的工程酮还原酶对2' ,6'-取代苯乙酮的还原。测试野生型ADH-LK和为了将2' ,6' -二氯-氟苯乙酮还原为(S)_l_[2', 6' -二氯-3'-氟苯基]-乙醇而改进的ADH-LK变体对两种其他2' ,6'-取代苯乙酮 的活性。制备5mL lOOmM三乙醇胺(氯化物)缓冲液(pH 7,2mM MgS04)、33mg具有SEQ ID No. 10 的 KRED、8mg GDH、3mgNADP_Na 和 330mg 葡萄糖的溶液。1ml 该溶液于 25°C下用 0. 3ml 1M(钠)磷酸缓冲液pH 7和20mg 2' ,6'-取代苯乙酮处理。反应样品(24hr)通过实施 例5的方法分析。表7给出了使用ADH-LK和具有SEQ ID NO 10的ADH-K变体的两种2‘ ,6'-取 代苯乙酮的转化和得到的手性醇的对映体纯度。表7 本实施例显示含有Y190P突变的ADH-LK变体提供了对2' 6'-取代苯乙酮的改 进的活性,并且提供了对应的2' 6'-取代(S)-l-苯乙醇.7. 12实施例12 ADH-LK和衍生自ADH-LK的含有Y190突变的工程酮还原酶对未 取代的苯乙酮的还原。向如实施例7中制备的每孔含有100 ii L细胞裂解物的96孔板的每个孔加入 50 ii L于lOOmM三乙醇胺(氯化物)缓冲液pH 7. 0的7mMNa-NADP+、300 u L异丙醇和50 ii L 于THF的100mg/ml苯乙酮。封口平板,在轨道振荡器上以850rpm室温下搅拌24h。向每 孔加入lmL甲基叔丁基醚(MTBE),并封口平板,然后以850rpm室温下振荡10分钟。平板在4,000rpm(3220xg)下离心2分钟以分离相,从每孔将50 y L有机相转移到含有150 u L MTBE的浅孔平板的孔中。封口平板并通过正相HPLC分析(配有0D-H保护柱的Daicel Chiralcel 0D-H 柱(4. 6x250mm) ;2. 5u L 注射;流动相95 5v/v 庚烷-IPA ;流速1. 5mL min-1 ;柱温40°C ;波长215nm)。保留时间苯乙酮3. 5min ; (R)-1-苯基乙醇5. 3min ; (S)-l-苯基乙醇5. 8min。表8显示了 ADH-LK和ADH-LK变体对苯乙酮的转化和得到的手性醇的立体异构纯度。表 8 本实施例证明野生型乳杆菌酮还原酶对苯乙酮是R-选择性,而从其衍生的本发 明的工程酮还原酶对苯乙酮是S-选择性。尽管已例证和描述了各种具体的实施方案,应理解可进行各种改变而不偏离本发 明的精神和范围。对于所有的目的,本申请中引用的所有出版物、专利、专利申请和其他文件通过引 用以其整体并入本文,如同对于所有的目的,单独地指明每个个体出版物、专利、专利申请 或其他文件通过引用并入。
权利要求
一种酮还原酶多肽,该多肽能以至少约85%的百分比立体异构过量将2′,6′-二氯-3′-氟苯乙酮底物立体选择性地还原为产物(S)-1-(2,6-二氯-3-氟苯基)乙醇。
2.如权利要求1所述的多肽,该多肽包含与基于SEQID N0:2、4或98的在对应于X190 的残基处具有脯氨酸的参考序列具有至少约85%同一性的氨基酸序列,条件是所述酮还原 酶的氨基酸序列在对应于X190的残基处具有非芳族残基。
3.如权利要求2所述的多肽,其中所述酮还原酶的氨基酸序列在对应于X190的残基处 具有脂肪族、非极性、受限或半胱氨酸残基。
4.如权利要求2所述的多肽,其中所述酮还原酶的氨基酸序列在对应于X190的残基处 具有脯氨酸。
5.如权利要求2所述的多肽,其中所述酮还原酶包含另外具有一种或多种以下特点的氨基酸序列对应于X7的残基是芳族、非极性、极性、受限或碱性残基;对应于X16的残基是极性残基;对应于X43的残基是非极性或极性残基;对应于X60的残基是芳族或非极性或脂肪族残基;对应于X94的残基是半胱氨酸、非极性或脂肪族残基;对应于X95的残基是非极性或脂肪族残基;对应于X96的残基是极性或酸性残基;对应于X97的残基是极性、非极性、脂肪族或碱性残基;对应于X120的残基是芳族、非极性或脂肪族残基;对应于X125的残基是极性或非极性残基;对应于X142的残基是极性残基,特别是丝氨酸或天冬酰胺;对应于X147的残基是芳族、极性、非极性或脂肪族残基;对应于X149的残基是非极性或芳族残基;对应于X150的残基是受限或酸性残基;对应于X152的残基是非极性或极性残基;对应于X196的残基是脂肪族、非极性或芳族残基;对应于X202的残基是脂肪族、芳族或非极性残基;对应于X205的残基是碱性、非极性或脂肪族残基;对应于X206的残基是非极性或芳族残基;并且其中任选地所述氨基酸序列与所述参考序列相比在其他氨基酸残基处具有一个或多 个残基差异。
6.如权利要求2所述的多肽,该多肽包含另外具有一种或多种以下特点的氨基酸序列对应于X7的残基是苏氨酸、脯氨酸、色氨酸、精氨酸、组氨酸或天冬酰胺;对应于X16的残基是丝氨酸;对应于X43的残基是异亮氨酸;对应于X60的残基是丙氨酸;对应于X94的残基是丙氨酸、缬氨酸或半胱氨酸;对应于X95的残基是异亮氨酸或亮氨酸;对应于X96的残基是丝氨酸、天冬酰胺、苏氨酸或谷氨酸;对应于X97的残基是赖氨酸、苏氨酸、缬氨酸、精氨酸、甲硫氨酸或异亮氨酸;对应于X120的残基是苯丙氨酸或缬氨酸;对应于X125的残基是甘氨酸或丝氨酸;对应于X142的残基是天冬酰胺;对应于X147的残基是苯丙氨酸、亮氨酸、异亮氨酸、缬氨酸或谷氨酰胺;对应于X149的残基是甘氨酸或苯丙氨酸;对应于X150的残基是天冬氨酸或组氨酸;对应于X152的残基是丝氨酸、苏氨酸或甲硫氨酸;对应于X196的残基是缬氨酸、异亮氨酸、甲硫氨酸、苯丙氨酸或异亮氨酸;对应于X202的残基是丙氨酸、色氨酸、酪氨酸或甲硫氨酸;对应于X205的残基是精氨酸;对应于X206的残基是甲硫氨酸或酪氨酸;并且其中任选地所述氨基酸序列与所述参考序列相比在其他氨基酸残基处具有一个或多 个残基差异。
7.如权利要求2所述的多肽,该多肽包含具有一种或多种以下特点的氨基酸序列 对应于X147的残基是芳族、极性、非极性或脂肪族残基,对应于X202的残基是脂肪族、芳族或非极性残基;并且其中任选地所述氨基酸序列与所述参考序列相比在其他氨基酸残基处具有一个或多 个残基差异。
8.如权利要求2所述的多肽,该多肽包含具有一种或多种以下特点的氨基酸序列 对应于X7的残基是芳族、非极性、极性、受限或碱性残基;对应于X147的残基是芳族、极性、非极性或脂肪族残基; 对应于X202的残基是脂肪族、芳族或非极性残基;并且其中任选地所述氨基酸序列与所述参考序列相比在其他氨基酸残基处具有一个或多 个残基差异。
9.如权利要求2所述的多肽,该多肽包含具有一种或多种以下特点的氨基酸序列 对应于X7的残基是芳族、非极性、极性、受限或碱性残基,对应于X97的残基是极性、非极性、脂肪族或碱性残基 对应于X147的残基是芳族、极性、非极性或脂肪族残基; 对应于X202的残基是脂肪族、芳族或非极性残基;并且其中任选地所述氨基酸序列与所述参考序列相比在其他氨基酸残基处具有一个或多 个残基差异。
10.如权利要求2所述的多肽,该多肽包含具有一种或多种以下特点的氨基酸序列 对应于X94的残基是半胱氨酸、非极性或脂肪族残基;对应于X96的残基是极性或酸性残基;对应于X147的残基是芳族、极性、非极性或脂肪族残基;特别是谷氨酰胺、异亮氨酸或 亮氨酸;并且其中任选地所述氨基酸序列与所述参考序列相比在其他氨基酸残基处具有一个或多 个残基差异。
11.如权利要求2所述的多肽,该多肽包含具有一种或多种以下特点的氨基酸序列对应于X7的残基是芳族、非极性、极性、受限或碱性残基;对应于X147的残基是芳族、极性、非极性或脂肪族残基;对应于X196的残基是脂肪族、非极性或芳族残基;对应于X202的残基是脂肪族、芳族或非极性残基;并且其中任选地所述氨基酸序列与所述参考序列相比在其他氨基酸残基处具有一个或多 个残基差异。
12.如权利要求2所述的多肽,该多肽包含具有一种或多种以下特点的氨基酸序列对应于X147的残基是芳族、极性、非极性或脂肪族残基;对应于X196的残基是脂肪族、非极性或芳族残基;对应于X202的残基是脂肪族、芳族或非极性残基;并且其中任选地所述氨基酸序列与所述参考序列相比在其他氨基酸残基处具有一个或多 个残基差异。
13.如权利要求1所述的多肽,其中所述百分比立体异构过量为至少约90%。
14.如权利要求1所述的多肽,其中所述百分比立体异构过量为至少约99%。
15.如权利要求14所述的多肽,该多肽包含选自SEQID NO :6,8,10,12,14,16,18,20, 22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70, 72,74,76,78,80,82,84,86,88,90,92 和 94 的氨基酸序列。
16.如权利要求1所述的多肽,其中所述多肽进一步能以比具有SEQIDNO :6的序列的 酮还原酶多肽所能达到的速率更高的速率将所述底物还原为所述产物。
17.如权利要求16所述的多肽,该多肽包含选自SEQID NO :8,10,12,14,16,18,20, 22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70, 72,74,76,78,80,82,84,86,88,90,92 和 94 的氨基酸序列。
18.如权利要求4所述的多肽,其中所述多肽进一步能以比具有SEQIDNO :6的序列的 酮还原酶多肽所能达到的速率高至少约450%的速率将所述底物还原为所述产物。
19.如权利要求18所述的多肽,所述多肽包含选自SEQID NO :8,10,14,16,18,22,24, 26,28,30,32,34,36,38,40,42,44,46,54,56,58,60,62,64,66,68,70,72,74,76,78,80, 82,84,86,88,90,92和94的氨基酸序列。
20.如权利要求4所述的多肽,其中所述多肽进一步能以比具有SEQIDNO :6的序列的 酮还原酶多肽所能达到的速率高至少约1500%的速率将所述底物还原为所述产物.
21.如权利要求21所述的多肽,该多肽包含选自SEQID NO 18,32,34,36,38,40,42, 44,46,74,76,78,80,82,84,86,88,90,92 和 94 的氨基酸序列。
22.如权利要求4所述的多肽,当使用相对2',6' -二氯-3'-氟苯乙酮底物的量 按重量计小于约1 %的量的所述多肽进行时,该多肽能在不到约24小时内将至少约95%的 2' ,6' -二氯-3'-氟苯乙酮底物转化为(S)-l-(2,6-二氯-3-氟苯基)乙醇。
23.如权利要求22所述的多肽,该多肽包含选自SEQID NO 18,32,34,36,38,40,42, 44,46,74,76,78,80,82,84,86,88,90,92 和 94 的氨基酸序列。
24.—种酮还原酶多肽,该多肽包含具有与基于SEQ ID NO :2,4或98的、在对应于X190 的残基处为脯氨酸的参考序列的残基90至211具有至少约85%同一性的氨基酸序列的结 构域,条件是所述酮还原酶多肽的氨基酸序列在对应于X190的残基处为非芳族残基。
25.如权利要求24所述的多肽,其中所述酮还原酶的结构域包含其中对应于X190的残 基为脂肪族、非极性、受限或半胱氨酸残基的氨基酸序列。
26.如权利要求24所述的多肽,其中所述酮还原酶的结构域包含其中对应于X190的残 基为脯氨酸的氨基酸序列。
27.如权利要求24所述的多肽,其中所述酮还原酶多肽的结构域包含具有一种或多种 以下特点的氨基酸序列对应于X94的残基是半胱氨酸、非极性或脂肪族残基;对应于X95的残基是非极性或脂肪族残基;对应于X96的残基是极性或酸性残基;对应于X97的残基是极性、非极性、脂肪族或碱性残基;对应于X120的残基是芳族、非极性或脂肪族残基;对应于X125的残基是极性或非极性残基;对应于X142的残基是极性残基,特别是丝氨酸或天冬酰胺;对应于X147的残基是芳族、极性、非极性或脂肪族残基;对应于X149的残基是非极性或芳族残基;对应于X150的残基是受限或酸性残基;对应于X152的残基是非极性或极性残基;对应于X196的残基是脂肪族、非极性或芳族残基;对应于X202的残基是脂肪族、芳族或非极性残基;对应于X205的残基是碱性、非极性或脂肪族残基;对应于X206的残基是非极性或芳族残基;并且其中所述氨基酸序列与所述参考序列相比在对应于残基90-211的结构域的其他氨基 酸残基处可任选地具有一个或多个差异。
28.如权利要求24所述的多肽,其中对应于残基90-211的所述酮还原酶多肽的结构域 包含具有一种或多种以下特点的氨基酸序列对应于X94的残基是丙氨酸、缬氨酸或半胱氨酸;对应于X95的残基是异亮氨酸或亮氨酸;对应于X96的残基是丝氨酸、天冬酰胺、苏氨酸或谷氨酸;对应于X97的残基是赖氨酸、苏氨酸、缬氨酸、精氨酸、甲硫氨酸或异亮氨酸;对应于X120的残基是苯丙氨酸或缬氨酸;对应于X125的残基是甘氨酸或丝氨酸;对应于X142的残基是天冬酰胺;对应于X147的残基是苯丙氨酸、亮氨酸、异亮氨酸、缬氨酸或谷氨酰胺; 对应于X149的残基是甘氨酸或苯丙氨酸; 对应于X150的残基是天冬氨酸或组氨酸; 对应于X152的残基是丝氨酸、苏氨酸或甲硫氨酸;对应于X190的残基是丙氨酸、异亮氨酸、半胱氨酸或脯氨酸; 对应于X196的残基是缬氨酸、异亮氨酸、甲硫氨酸、苯丙氨酸或异亮氨酸; 对应于X202的残基是丙氨酸、色氨酸、酪氨酸或甲硫氨酸; 对应于X206的残基是甲硫氨酸或酪氨酸;并且其中所述氨基酸序列与所述参考序列相比在对应于残基90-211的结构域的其他氨基 酸残基处可任选地具有一个或多个差异。
29.如权利要求24所述的多肽,其中对应于残基90-211的所述酮还原酶多肽的结构域 包含具有一种或多种以下特点的氨基酸序列对应于X147的残基是芳族、极性、非极性或脂肪族残基, 对应于X202的残基是脂肪族、芳族或非极性残基;并且其中所述氨基酸序列与所述参考序列相比在对应于残基90-211的结构域的其他氨基 酸残基处可任选地具有一个或多个差异。
30.如权利要求24所述的多肽,其中对应于残基90-211的所述酮还原酶多肽的区域包 含具有一种或多种以下特点的氨基酸序列对应于X97的残基是极性、非极性、脂肪族或碱性残基 对应于X147的残基是芳族、极性、非极性或脂肪族残基; 对应于X202的残基是脂肪族、芳族或非极性残基;并且其中所述氨基酸序列与所述参考序列相比在对应于残基90-211的结构域的其他氨基 酸残基处可任选地具有一个或多个差异。
31.如权利要求24所述的多肽,其中对应于残基90-211的所述酮还原酶多肽的区域包 含具有一种或多种以下特点的氨基酸序列对应于X94的残基是半胱氨酸、非极性或脂肪族残基;对应于X96的残基是极性或酸性残基;对应于X147的残基是芳族、极性、非极性或脂肪族残基;并且其中所述氨基酸序列与所述参考序列相比在对应于残基90-211的结构域的其他氨基 酸残基处可任选地具有一个或多个差异。
32.如权利要求24所述的多肽,其中对应于残基90-211的所述酮还原酶多肽的区域包 含具有一种或多种以下特点的氨基酸序列对应于X147的残基是芳族、极性、非极性或脂肪族残基; 对应于X196的残基是脂肪族、非极性或芳族残基; 对应于X202的残基是脂肪族、芳族或非极性残基;并且其中所述氨基酸序列与所述参考序列相比在对应于残基90-211的结构域的其他氨基 酸残基处可任选地具有一个或多个差异。
33.如权利要求24所述的多肽,其中对应于残基90-211的所述酮还原酶多肽的区域包 含具有一种或多种以下特点的氨基酸序列对应于X147的残基是亮氨酸; 对应于X196的残基是亮氨酸; 对应于X202的残基是色氨酸;并且其中所述氨基酸序列与所述参考序列相比在对应于残基90-211的结构域的其他氨基酸残基处可任选地具有一个或多个差异。
34.如权利要求24所述的多肽,该多肽还包含具有对应于基于SEQIDN0 :2,4或98的 参考序列的残基1-89的氨基酸序列的区域,其中对应于残基1-89的所述区域具有以下特占.对应于X7的残基是芳族、非极性、极性、受限或碱性残基;并且 其中所述氨基酸序列与所述参考序列相比在对应于残基1-89的结构域的其他氨基酸 残基处可任选地具有一个或多个差异。
35.如权利要求24所述的多肽,该多肽还包含具有对应于基于SEQIDN0 :2,4或98的 参考序列的残基1-89的氨基酸序列的区域,其中对应于残基1-89的所述区域具有以下特占.对应于X7的残基是芳族、非极性、极性、受限或碱性残基;对应于X16的残基是极性残基;对应于X43的残基是非极性或极性残基;并且其中所述氨基酸序列与所述参考序列相比在对应于残基1-89的结构域的其他氨基酸 残基处可任选地具有一个或多个差异。
36.如权利要求24所述的多肽,该多肽还包含具有对应于基于SEQIDN0 :2,4或98的 参考序列的残基1-89的氨基酸序列的区域,其中对应于残基1-89的所述区域具有以下特占.对应于X7的残基是苏氨酸、脯氨酸、色氨酸、精氨酸、组氨酸或天冬酰胺; 对应于X16的残基是丝氨酸; 对应于X43的残基是异亮氨酸;并且其中所述氨基酸序列与所述参考序列相比在对应于残基1-89的结构域的其他氨基酸 残基处可任选地具有一个或多个差异。
37.如权利要求24所述的多肽,该多肽还包含具有对应于基于SEQIDN0 :2,4或98的 参考序列的残基1-89的氨基酸序列的区域,其中对应于残基1-89的所述酮还原酶多肽的 区域具有以下特点对应于X7的残基是芳族、非极性、极性、受限或碱性残基;对应于X16的残基是极性残基;对应于X43的残基是非极性或极性残基;对应于X60的残基是芳族或非极性或脂肪族残基;并且其中所述氨基酸序列与所述参考序列相比在对应于残基1-89的结构域的其他氨基酸 残基处可任选地具有一个或多个差异。
38.如权利要求24所述的多肽,该多肽还包含具有对应于基于SEQIDN0 :2,4或98的 参考序列的残基1-89的氨基酸序列的区域,其中对应于残基1-89的所述酮还原酶多肽的 区域具有以下特点对应于X7的残基是甘氨酸、组氨酸、苏氨酸、脯氨酸、色氨酸、精氨酸、组氨酸或天冬酰胺;对应于X16的残基是丝氨酸; 对应于X43的残基是异亮氨酸;对应于X60的残基是丙氨酸;并且其中所述氨基酸序列与所述参考序列相比在对应于残基1-89的结构域的其他氨基酸 残基处可任选地具有一个或多个差异。
39.一种工程酮还原酶多肽,与所述工程酮还原酶多肽衍生自的野生型酮还原酶相比, 该多肽能将2',6' -二氯-3'-氟苯乙酮底物反向立体选择性地还原为(S)-l-(2,6-二 氯-3-氟苯基)乙醇。
40.一种工程酮还原酶多肽,该多肽衍生自野生型乳杆菌酮还原酶、能将苯乙酮立体选 择性地还原为(S)-l-苯乙醇。
41.如权利要求40所述的多肽,其中所述多肽能以至少约90%的百分比立体异构过量 将苯乙酮立体选择性地还原为(S)-l-苯乙醇。
42.如权利要求40所述的多肽,其中所述多肽能以至少约99%的百分比立体异构过量 将苯乙酮立体选择性地还原为(S)-l-苯乙醇。
43.如权利要求40所述的多肽,其中所述工程多肽在对应于SEQIDN0 :2或4或98的 X190的残基处包含非芳族残基。
44.一种多核苷酸,该多核苷酸编码如权利要求1至43任一项所述的多肽。
45.如权利要求44所述的多核苷酸,该多核苷酸选自由SEQID NO :5,7,9,11,13,15, 17,19,21,23,25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63,65, 67,69,71,73,75,77,79,81,83,85,87,89,91 和 93 组成的组。
46.一种表达载体,该表达载体包含与适合于指引在宿主细胞中表达的至少一种控制 序列可操作地连接的如权利要求44所述的多核苷酸。
47.如权利要求46所述的表达载体,其中所述控制序列包含启动子。
48.如权利要求47所述的表达载体,其中所述启动子包含大肠杆菌启动子。
49.如权利要求47所述的表达载体,其中所述控制序列包含分泌信号。
50.一种宿主细胞,该宿主细胞包含如权利要求46所述的表达载体。
51.如权利要求50所述的宿主细胞,该宿主细胞为大肠杆菌。
52.如权利要求50所述的宿主细胞,其中构成所述表达载体的密码子已经为在宿主细 胞中表达而优化。
53.—种用于将2' ,6'-取代苯乙酮底物立体选择性地还原为对应的取代(S)-l-苯 乙醇的方法,所述2' ,6'-取代苯乙酮底物任选地在3' ,4'和5'位置的一个或多个被 取代,该方法包括在适合于将底物立体选择性地还原或转化为对应的(S)_醇产物的反应 条件下,使所述底物与如权利要求1-43任一项所述的酮还原酶多肽接触。
54.如权利要求53所述的方法,其中所述底物为2',6' -二氯-3'-氟苯乙酮,并且 所述对应的(S)_醇产物为(S)-l-(2,6-二氯-3-氟苯基)乙醇。
55.如权利要求53所述的方法,其中所述(S)-l-(2,6-二氯-3-氟苯基)乙醇以大于 99%的立体异构过量形成。
56.如权利要求53所述的方法,其中所述酮还原酶多肽包含选自SEQIDNO =6,8,10, 12,14,16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60, 62,64,66,68,70,72,74,76,78,80,82,84,86,88,90,92 和 94 的氨基酸序列。
57.如权利要求53所述的方法,其中当所述方法用至少200g/L的底物和用小于2g/L的所述多肽进行时,至少约95%的所述底物在不到24小时内被还原为所述产物。
58.如权利要求53所述的方法,该方法用表达所述酮还原酶的全细胞或此类细胞的提 取物或裂解物来进行。
59.如权利要求53所述的方法,其中所述酮还原酶是分离的和/或纯化的,并且所述还 原反应在针对所述酮还原酶的辅因子和任选地针对所述辅因子的再生系统存在下进行。
60.如权利要求59所述的方法,其中所述辅因子再生系统包含葡萄糖脱氢酶和葡萄 糖;甲酸脱氢酶和甲酸;或异丙醇和仲醇脱氢酶。
61.如权利要求60所述的方法,其中所述仲醇脱氢酶是所述酮还原酶。
62.—种组合物,该组合物包含2' ,6'-取代苯乙酮和/或对应的取代(S)-l-苯乙 醇和如权利要求1所述的酮还原酶,所述2' ,6'-取代苯乙酮任选地在3' ,4'和5'位 置的一个或多个被取代。
63.如权利要求62所述的组合物,其中所述底物为式(I)的2',6'-二氯-3'-氟 苯乙酮,所述对应的取代(S)-l-苯乙醇为式(II)的(幻-1-(2,6-二氯-3-氟苯基)乙醇。
64.如权利要求62所述的组合物,该组合物还包含辅因子再生系统。
65.如权利要求64所述的组合物,其中所述辅因子再生系统包含葡萄糖脱氢酶和葡萄 糖;甲酸脱氢酶和甲酸;或异丙醇和仲醇脱氢酶。
全文摘要
本公开提供了与天然存在的野生型酮还原酶相比具有改进特性的工程酮还原酶。还提供了编码工程酮还原酶的多核苷酸、能表达工程酮还原酶的宿主细胞和使用工程酮还原酶来合成多种手性化合物的方法。
文档编号C12N9/04GK101855342SQ200880115770
公开日2010年10月6日 申请日期2008年9月13日 优先权日2007年9月13日
发明者古伽特·W·哈思曼, 史提芬尼·J·珍妮, 安克·克莱伯, 杰克·梁, 沙琳·奇恩, 约翰·M·格鲁伯, 艾米丽·穆德弗 申请人:科德克希思公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1