融合多肽以及其应用的制作方法

文档序号：392855阅读：319来源：国知局

专利名称：融合多肽以及其应用的制作方法
技术领域：
本发明涉及分子生物学领域，尤其是涉及融合多肽以及其应用。尤其是，本发明涉及融合多肽，该融合多肽包含多核苷酸-结合域如DNA-结合域，和多核苷酸-连接酶域如 DNA连接酶域。还提供了用于生产上述融合多肽的方法，以及融合多肽的应用，例如，在分子生物学技术范围中的应用。
背景技术：
多核苷酸连接酶，如DNA连接酶，属于最广泛使用的分子生物酶。各种各样的分子生物学方法依赖于DNA连接酶的有效活性。已研究了来自一系列来源的连接酶的应用用于分子生物学，以及还用于其中采用分子生物学方法的越来越多的行业，其包括医疗、制药和食品工业。尽管如此，几乎没有研究改进连接酶如DNA连接酶的活性的方法。本发明的一个目的是提供融合多肽，该融合多肽包括多核苷酸连接酶活性，如DNA 连接酶活性，以提供使用这样的融合多肽的方法，或至少为公众提供有用的选择。

发明内容
因此，在第一方面，本发明提供了用于产生融合多肽的方法。该方法包括提供包含至少一种表达构建体(expression construct)的宿主细胞,其中上述至少一种表达构建体包括至少一种编码多核苷酸-连接酶多肽的核酸序列；以及至少一种编码多核苷酸-结合多肽的核酸序列；将宿主细胞保持在适合于表达构建体的表达和适合于形成融合多肽的条件下；以及从宿主细胞中分离融合多肽。在一种实施方式中，多核苷酸-连接酶多肽是DNA连接酶多肽。在另一种实施方式中，多核苷酸-连接酶多肽是RNA连接酶多肽。在一种实施方式中，多核苷酸-结合多肽是DNA-结合多肽。在另一种实施方式中，多核苷酸-结合多肽是RNA-结合多肽。例如，在其中多核苷酸-连接酶多肽是RNA连接酶多肽的某些实施方式中，多核苷酸-结合多肽可以方便地是RNA-结合多肽。因此,在一种实施方式中,用于产生融合多肽的方法包括提供包括至少一种表达构建体的宿主细胞，其中上述至少一种表达构建体包括至少一种编码DNA连接酶多肽的核酸序列；以及至少一种编码DNA-结合多肽的核酸序列；将宿主细胞保持在适合于表达构建体的表达和适合于形成融合多肽的条件下；以及从宿主细胞中分离融合多肽。
在一种实施方式中，表达构建体是在高拷贝数载体中。在一种实施方式中，编码DNA连接酶多肽的至少一种核酸序列可操作地 (operably)连接于强启动子。在一种实施方式中，编码DNA-结合多肽的至少一种核酸序列可操作地连接于强启动子。在一种实施方式中，强启动子是病毒启动子或曬菌体启动子。在一种实施方式中，启动子是噬菌体启动子，例如T5噬菌体启动子、或T7噬菌体启动子。在一种可替换的实施方式中，本发明提供了用于产生融合多肽的方法，该方法包括提供包括至少一种表达构建体的体外表达系统，其中上述至少一种表达(构建体)包括至少一种编码多核苷酸-连接酶多肽的核酸序列；以及至少一种编码多核苷酸-结合多肽的核酸序列；将表达系统保持在适合于表达构建体的表达和适合于形成融合多肽的条件下。在某些实施方式中，上述方法另外包括从表达系统中分离融合多肽。本发明的另一方面涉及表达构建体，该表达构建体包括至少一种编码多核苷酸-连接酶多肽的核酸序列；以及至少一种编码多核苷酸-结合多肽的核酸序列。在一种实施方式中，多核苷酸-连接酶多肽是DNA连接酶多肽。在另一种实施方式中，多核苷酸-连接酶多肽是RNA连接酶多肽。在一种实施方式中，多核苷酸-结合多肽是DNA-结合多肽。在另一种实施方式中，多核苷酸-结合多肽是RNA-结合多肽。因此，在一种实施方式中，表达构建体包括至少一种编码DNA连接酶多肽的核酸序列；以及至少一种编码DNA-结合多肽的核酸序列。在一种实施方式中，表达构建体编码融合多肽，其包括DNA连接酶多肽和DNA-结合多肽。在一种实施方式中，至少一种编码DNA连接酶多肽的核酸序列和至少一种编码 DNA-结合多肽的核酸序列作为单一开放阅读框(single open reading frame)存在。在一种实施方式中，至少一种编码DNA连接酶多肽的核酸序列可操作地连接于启动子，如强启动子。在一种实施方式中，至少一种编码DNA-结合多肽的核酸序列可操作地连接于启动子，如强启动子。本发明的另一方面涉及包括本发明的表达构建体的载体。在一种实施方式中，载体是高拷贝数载体。在一种实施方式中，载体是低拷贝数载体。在一种实施方式中，载体是用于稳定整合到宿主细胞基因组。本发明的另一方面涉及宿主细胞，该宿主细胞包括如上述所限定的表达构建体或载体。本发明的另一方面涉及融合多肽，该融合多肽包括融合于至少一种多核苷酸-结合多肽的至少一种多核苷酸-连接酶多肽。在一种实施方式中，融合多肽包括融合于至少一种DNA-结合多肽的至少一种DNA 连接酶多肽。本发明的另一方面涉及按照上述所限定的方法产生的融合多肽。本发明的另一方面涉及包括融合多肽的组合物，其中融合多肽包括融合于至少一种多核苷酸-结合多肽的至少一种多核苷酸-连接酶多肽。在一种实施方式中，组合物包括融合多肽，其中融合多肽包括融合于至少一种 DNA-结合多肽的至少一种DNA连接酶多肽。本发明的另一方面涉及包括融合多肽的组合物，其中融合多肽是按照上述所限定的方法来产生。本发明的另一方面涉及一种组合物，该组合物包括如上述所限定的表达构建体、载体、或宿主细胞。本发明的另一方面涉及一种试剂，该试剂包括如上述所限定的组合物。在一种实施方式中，试剂是诊断试剂。在另一种实施方式中，试剂是实验室试剂。本发明的另一方面涉及试剂盒，该试剂盒包括如上述所限定的组合物。在一种实施方式中，试剂盒是诊断试剂盒。在另一种实施方式中，试剂盒是实验室试剂盒。在各种实施方式中，试剂盒可选地包括一种或多种其它试剂、使用说明等。在一种实施方式中，组合物包括融合多肽的同型群体(均质群体，homogenous population)。在一种实施方式中，组合物包括融合多肽的混合群体。在一种实施方式中，组合物另外包括以下的一种或多种一种或多种多核苷酸-结合多肽，如一种或多种DNA-结合多肽，一种或多种多核苷酸-连接酶多肽，如一种或多种DNA连接酶多肽，一种或多种辅因子，或一种或多种辅酶。本发明的另一方面涉及连接一种或多种核酸分子的方法，其中上述方法包括使一种或多种核酸分子接触一种或多种融合多肽，其中一种或多种融合多肽包括融合于至少一种多核苷酸-结合多肽的至少一种多核苷酸-连接酶多肽。在一种实施方式中，连接一种或多种核酸分子的方法包括使一种或多种核酸分子接触一种或多种融合多肽，其中一种或多种融合多肽包括融合于至少一种DNA-结合多肽的至少一种DNA连接酶多肽。在一种实施方式中，一种或多种核酸分子是DNA分子。在另一种实施方式中，一种或多种核酸分子是至少两种DNA分子。在一种实施方式中，一种或多种核酸分子是一种或多种DNA双链体。在一种实施方式中,DNA双链体的一种或多种包括5'或3'突出端(悬端、悬突， overhang)。在一种实施方式中，一种或多种DNA双链体不包括Y或V突出端。
在一种实施方式中，连接一种或多种核酸分子的方法包括使一种或多种核酸分子接触一种或多种融合多肽，其中一种或多种融合多肽包括融合于至少一种RNA-结合多肽的至少一种RNA连接酶多肽。在一种实施方式中，一种或多种核酸分子是RNA分子。在另一种实施方式中，一种或多种核酸分子是至少两种RNA分子。在一种实施方式中，一种或多种核酸分子是至少一种DNA分子和至少一种RNA分子。在各种实施方式中，一种或多种融合多肽包括融合于至少一种RNA-结合多肽的至少一种多核苷酸-连接酶多肽，或一种或多种融合多肽包括融合于至少一种DNA-结合多肽的至少一种多核苷酸-连接酶多肽。在各种实施方式中，一种或多种融合多肽包括融合于至少一种多核苷酸-结合多肽的至少一种RNA-连接酶多肽，或一种或多种融合多肽包括融合于至少一种多核苷酸-结合多肽的至少一种DNA-连接酶多肽。本发明的另一方面涉及用于催化磷酸二酯键的形成的方法，其中该方法包括使一种或多种核酸分子接触融合多肽，其中融合多肽包括融合于至少一种多核苷酸-结合多肽的至少一种多核苷酸-连接酶多肽。在一种实施方式中，催化磷酸二酯键的形成的方法包括使一种或多种核酸分子接触融合多肽，其中融合多肽包括融合于至少一种DNA-结合多肽的至少一种DNA连接酶多肽。在一种实施方式中，催化磷酸二酯键的形成的方法包括使一种或多种核酸分子接触融合多肽，其中融合多肽包括融合于至少一种RNA-结合多肽的至少一种RNA连接酶多肽。在一种实施方式中，磷酸二酯键是分子内键。在另一种实施方式中，磷酸二酯键是分子间键。在一种实施方式中，上述方法包括包含Y或:V突出端的一种或多种DNA双链体的连接。特别设想这样的方法，其包括具有相容突出端的一种或多种DNA双链体的连接 (即，所谓的"粘性"或"粘端"连接)。在一种实施方式中，上述方法包括不包含5'或3'突出端的一种或多种DNA双链体的连接(即，所谓的"平端连接")。在包括具有相容突出端的一种或多种DNA双链体的连接的实施方式中，优选的融合多肽可以选自包括P50-连接酶、连接酶-p50、NFAT-连接酶、连接酶-cTF、PprA_连接酶、连接酶-PprA、p50-LigA、和LigA_p50的组，其中p50_连接酶、连接酶_cTF、连接酶-PprA、 p50-LigA、和LigA-p50是特别优选的。在包括不具有5'或3'突出端或不具有相容端的一种或多种DNA双链体的连接的实施方式中，优选的融合多肽可以选自包括P50-连接酶、连接酶-cTF、连接酶-p50、 NFAT-连接酶、连接酶-PprA、和LigA_p50的组，其中p50_连接酶、连接酶-cTF、和连接酶-PprA是特别优选的。本发明的另一方面涉及用于连接一种或多种核酸分子的融合多肽，其中融合多肽包括融合于至少一种多核苷酸-结合多肽的至少一种多核苷酸-连接酶多肽。在一种实施方式中，用于连接一种或多种核酸分子的融合多肽包括融合于至少一种DNA-结合多肽的至少一种DNA连接酶多肽。在一种实施方式中，融合多肽选自包括Sso7d-连接酶、p50_连接酶、连接酶_p50、 NFAT-连接酶、连接酶-NFAT、cTF-连接酶、连接酶-cTF、PprA-连接酶、连接酶-PprA、 p50-LigA和LigA-p50的组，在实施例中本文描述了其代表性的实例。在一种实施方式中，用于连接一种或多种核酸分子的融合多肽包括融合于至少一种RNA-结合多肽的至少一种RNA连接酶多肽。还特别设想如上所述的融合多肽在制备组合物中的应用，上述组合物用于连接一种或多种核酸分子，或用于催化磷酸二酯键的形成。以下实施方式可以涉及上述任何方面。在各种实施方式中,DNA连接酶多肽是原核(原核生物,prokaryotic)DNA连接酶、原核DNA连接酶变体(变异体，variant)、或它们的功能片段。在一种实施方式中，DNA连接酶多肽是细菌DNA连接酶、细菌DNA连接酶变体、或它们的功能片段。在一种实施方式中，DNA连接酶多肽是病毒DNA连接酶、病毒DNA连接酶变体、或它们的功能片段，包括，例如，噬菌体DNA连接酶、其变体、或功能片段。特别设想的是大肠杆菌(E. coli)DNA连接酶多肽(例如，GenBank登录号 M24278)、其变体或功能片段，或噬菌体T4DNA连接酶多肽(例如，GenBank登录号X00039)、其变体或功能片段。在各种实施方式中，DNA连接酶多肽是真核(真核生物，eukaryotic) DNA连接酶、其变体、或功能片段，包括真菌DNA连接酶、或哺乳动物DNA连接酶、或它们的变体或功能片段。在一些实施方式中，DNA连接酶多肽选自包括哺乳动物DNA连接酶I、DNA连接酶II、 DNA连接酶III (包括连同DNA修复蛋白XRCCl —起的DNA连接酶III)、DNA连接酶IV(包括连同XRCC4 —起的DNA连接酶IV)、或它们的变体或功能片段的组。在各种实施方式中，RNA连接酶多肽是T4RNA连接酶，如T4RNA连接酶I或T4RNA 连接酶II。在各种实施方式中，DNA-结合多肽是序列非特异(sequence non-specific)的 DNA-结合多肽。在各种实施方式中，DNA-结合多肽选自包括染色体蛋白、组蛋白、HMf-样蛋白、和古细菌(archeal)小碱性DNA结合蛋白的组。在特定的实施方式中，DNA-结合多肽选自包括以下的组耐福射球菌(Deinococcusradiodurans)的 PprA 蛋白(GenBank 登录号 BAA21374)；哺乳动物NF- K B蛋白，包括来自智人(Homo sapiens)的NF- κ B蛋白(GenBank 登录号册_003989)，或其一种或多种片段，如即-1^8 65蛋白、即-1^8 ρ50蛋白或包含人 NF- κ B蛋白的氨基酸40-366的片段；来自结核分枝杆菌(Mycobacteriumtuberculosis)的 Ku 蛋白(GenBank 登录号 NP_215452)；来自硫横矿硫化叶菌(Sulfolobussolfataricus)的 Sso7d 蛋白(GenBank 登录号 NP_343889)；
来自嗜酸热硫化叶菌(Sulfolobusacidocaldarius)的 Sac7d 蛋白(GenBank 登录号 P13123)；耐辐射球菌的DdrA蛋白(如在美国专利号7550564中所描述的，其全部内容以引用方式结合于本文)；哺乳动物NFATc蛋白，如来自小家鼠(Mus musculus)的NFATcl蛋白(GenBank 登录号NP_058071)，或其一种或多种功能片段，如包含来自小家鼠的NFATcl蛋白的氨基酸 403-703的片段，或其一种或多种功能变体；或它们的一种或多种同源物、功能变体或功能片段，或它们中两种或更多种的任何组合，如NFAT-Ala-p50杂合(杂种，hybrid)DNA结合蛋白(本文中称作cTF，参见de Lumley et al. (2004)，J. Mol. Biol. 339，1059-1075，其全部内容以引用方式结合于本文)，其包含来自小家鼠的NFATc的氨基酸403-579，并通过丙氨酸残基融合于来自人NF-κ B的氨基酸249-366。在一种实施方式中，DNA-结合多肽是序列特异的DNA-结合多肽、或其功能片段或功能变体。在各种实施方式中，DNA-结合多肽是这样的多肽，该多肽选自包括锌指多肽、螺旋-转角-螺旋多肽(helix-turn-helix polypeptides)、螺旋-环-螺旋多肽、亮氨酸拉链多肽、和转录因子(包括Rel家族转录因子)的组。在各种实施方式中，编码融合多肽的核酸序列包括一种核酸序列，该核酸序列编码DNA-结合多肽，其邻接于编码DNA连接酶多肽的核酸序列的Y或V端，或一种核酸序列，该核酸序列编码DNA-结合多肽，通过具有所期望长度的多核苷酸接头或间隔子序列(spacer sequence),其间接融合于编码DNA连接酶多肽的核酸序列的 5'或3'端；或一种核酸序列，该核酸序列编码DNA-结合多肽，可选地通过具有所期望长度的多核苷酸接头或间隔子序列，其被插入编码DNA连接酶多肽的核酸序列；或一种核酸序列，该核酸序列编码DNA连接酶多肽，可选地通过具有所期望长度的多核苷酸接头或间隔子序列，其被插入编码DNA-结合多肽的核酸序列；或一种核酸序列，该核酸序列编码蛋白酶切割位点，其间隔(space)在编码DNA-结合多肽的核酸序列和编码DNA连接酶多肽的核酸序列之间；或—种核酸序列，该核酸序列编码自我剪接元件(self-splicing element),其间隔在编码DNA-结合多肽的核酸序列和编码DNA连接酶多肽的核酸序列之间；或它们中两种或更多种的任何组合。在各种实施方式中，至少一种融合多肽包括一种氨基酸序列，该氨基酸序列包括DNA-结合多肽或包括DNA-结合多肽结合域，其邻接于包括DNA连接酶多肽的氨基酸序列的N端或C端；或一种氨基酸序列，该氨基酸序列包括DNA-结合多肽，通过具有所期望长度的肽接头或间隔子序列，其间接融合于包括DNA连接酶多肽的氨基酸序列的N端或C端；或—种氨基酸序列，该氨基酸序列包括DNA-结合多肽，通过具有所期望长度的肽接头或间隔子序列，其被插入包括DNA连接酶多肽的氨基酸序列；或
一种氨基酸序列，该氨基酸序列包括蛋白酶切割位点，其间隔在包括DNA-结合多肽的氨基酸序列和编码DNA连接酶多肽的氨基酸序列之间；或一种氨基酸序列，该氨基酸序列包括自我剪接元件，其间隔在包括DNA-结合多肽的氨基酸序列和编码DNA连接酶多肽的氨基酸序列之间；或它们中两种或更多种的任何组合。在各种实施方式中，至少一种融合多肽具有改善的稳定性，如在室温下改善的稳定性，或在 2(TC、19 、180C、17 、16°C、15 、14°C U3°C > 12°C > 11°C > 10°C >9°C >8°C >7°C、 6°C、5°C、4°C、3°C、20°C、2°C、1°C、或(TC下改善的稳定性。例如，当储存在室温下，或储存在 20。。、19。。、18。。、17。。、16。。、15。。、14。。、13。。、12。。、11。。、10。。、9。。、8。。、7。。、6。。、5。。、 4°C、3°C、20°C、2°C、I°C、或(TC下时，融合多肽保留活性至少约24小时、至少约20小时、约 16小时、约12小时、约11小时、约10、9、8、7、6、5、4、3、或约2小时、或约I小时。在各种实施方式中，表达构建体包括组成型或可调控启动子体系。在各种实施方式中，可调控启动子体系是诱导型(inducible)或阻抑型(阻遏型) 启动子体系。在各种实施方式中，可调控启动子体系选自Lacl、Trp、噬菌体λ、噬菌体RNA聚合酶、和大肠杆菌RNA聚合酶启动子体系。在一种实施方式中，启动子是本领域技术人员已知的任何强启动子。适宜的强启动子包括腺病毒启动子，如腺病毒主要晚期启动子；或异源性启动子，如巨细胞病毒 (CMV)启动子；呼吸道合胞病毒(respiratory syncytial virus, RSV)启动子；猿猴病毒 40 (SV40)启动子；诱导型启动子，如MMT启动子、金属硫蛋白启动子；热激启动子；白蛋白启动子；ApoAI启动子；人珠蛋白启动子；病毒胸苷激酶启动子，如单纯疱疹病毒胸苷激酶启动子；逆转录病毒LTR ；b-肌动蛋白启动子；人生长激素启动子；噬菌体启动子如T5、T7、 SP6和Τ3 RNA聚合酶启动子；以及花椰菜花叶35S(CaMV 35S)启动子。在各种实施方式中，启动子是这样的启动子，其具有如在SEQ ID N05的核苷酸 1-95中所示的序列。在各种实施方式中，融合多肽包括10个或更多来自SEQ ID NO 6、8、10、或16的一种的邻接氨基酸(连续氨基酸，contiguous amino acids)。优选地,融合多肽包括来自 SEQ ID NO 6、8、10、或16的一种的至少15个、至少20个、更优选至少30个、更优选至少40 个、更优选至少50个、更优选至少60个、更优选至少70个、更优选至少80个、更优选至少 90个、更优选至少100个、更优选至少150个、或更优选至少200个邻接氨基酸。在一种实施方式中，融合多肽是包含SEQ ID NO 6、8、10、或16的一种的序列的多肽的功能变体或功能片段。在各种示例性实施方式中，融合多肽包括来自一序列的至少10个邻接氨基酸，上述序列选自包括以下的组SEQ ID NO. 6 的氨基酸 18 至 344 ；SEQ ID NO. 8 的氨基酸 18 至 300 ；SEQ ID NO. 10 的氨基酸 18 至 79 ;或SEQ ID NO. 16 的氨基酸 514 至 842 ；以及来自一序列的至少10个邻接氨基酸，上述序列选自包括以下的组
SEQ ID NO. 6 的氨基酸 358 至 843 ；SEQ ID NO. 8 的氨基酸 311 至 796 ;SEQ ID NO. 10 的氨基酸 90 至 575 ;或SEQ ID NO. 16 的氨基酸 18 至 503。在各种示例性实施方式中，融合多肽包括SEQ ID NO 6、8、10、或16的一种的序列。在各种实施方式中，本发明提供了一种分离的、纯化的、或重组的多核苷酸，其包括来自SEQ ID NO 5、7、9、或15的一种的至少10个邻接核苷酸。在各种示例性实施方式中，多核苷酸包括来自一序列的至少10个邻接核苷酸，上述序列选自包括以下的组SEQIDNO. 5 的核苷酸 166-1146 ；
SEQIDNO. 5 的核苷酸 166-1185 ；
SEQIDNO. 7 的核苷酸 166-1014 ；
SEQIDNO. 7 的核苷酸 166-1044 ；
SEQIDNO. 9的核苷酸166-351 ；
SEQIDNO. 9的核苷酸166-381 ；
SEQIDNO. 15的核苷酸1624-2640 ;或
SEQIDNO. 15 的核苷酸 1654-2640 ；
以及来自一序列的至少10个邻接核苷酸，上述序列选自包括以下的组
SEQIDNO. 5 的核苷酸 1147-2643 ；
SEQIDNO. 5 的核苷酸 1186-2643 ；
SEQIDNO. 7 的核苷酸 1015-2502 ；
SEQIDNO. 7 的核苷酸 1045-2502 ；
SEQIDNO. 9 的核苷酸 352-1839 ；
SEQIDNO. 9 的核苷酸 382-1839 ；
SEQIDNO. 15的核苷酸166-1623 ;或
SEQIDNO. 15 的核苷酸 166-1653。在一种实施方式中，多核苷酸包括SEQ ID NO. 5的核苷酸166-1146,或多核苷酸包括SEQ ID NO. 5的核苷酸166-1185。在另一种实施方式中，多核苷酸包括SEQ ID NO. 5的核苷酸 1147-2643。在又一种实施方式中，多核苷酸包括SEQ ID NO. 5.的核苷酸166-2643。在一种不例性实施方式中，多核苷酸包括SEQ ID NO. 5的序列。在各种实施方式中，多核苷酸包括SEQ ID NO. 7的核苷酸166-1014，或多核苷酸包括SEQ ID NO. 7的核苷酸166-1044，或多核苷酸包括SEQID NO. 7的核苷酸1015-2502。在一种示例性实施方式中，多核苷酸包括SEQ ID NO. 7的核苷酸166-2502。在又一种示例性实施方式中，多核苷酸包括SEQ ID NO. 7的序列。在各种实施方式中，多核苷酸包括SEQ ID NO. 9的核苷酸166-351，或多核苷酸包括SEQ ID NO. 9的核苷酸166-381，或多核苷酸包括SEQ IDN0. 9的核苷酸352-1839。在一种示例性实施方式中，多核苷酸包括SEQ ID NO. 9的核苷酸166-1839。在又一种不例性实施方式中，多核苷酸包括SEQ ID NO. 9的序列。
在各种另外的实施方式中，多核苷酸包括SEQ ID NO. 15的核苷酸166-1623，或多核苷酸包括SEQ ID NO. 15的核苷酸166-1653，或多核苷酸包括SEQ ID NO. 15的核苷酸 1624-2640，或多核苷酸包括SEQ ID NO. 15的核苷酸1654-2640。在一种不例性实施方式中，多核苷酸包括SEQ ID NO. 15的核苷酸166-2640。在又一种不例性实施方式中，多核苷酸包括SEQ ID NO. 15的序列。在各种实施方式中，细胞包括两种或更多种不同表达构建体，其各自编码不同的融合多肽。提及本文披露的数量范围(例如，I至10)旨在还包括提及在上述范围内的所有有理数(例如，1、1. 1、2、3、3·9、4、5、6、6· 5、7、8、9和10)以及在上述范围内的有理数的任何范围(例如，2至8、I. 5至5. 5和3. I至4. 7)，因而，在此明确披露本文明确披露的所有范围的子范围。这些仅是具体想要的实例并且在列举的最低值和最高值之间的数值的所有可能的组合被认为以类似方式明确说明在本申请中。在本说明书中，在已提及专利说明书、其它外部文件、或信息的其它来源的情况下，这通常用于为讨论本发明的特点提供背景。除非另有说明，提及这样的外部文件不应理解为承认，这样的文献、或这样的信息来源，在任何司法权(jurisdiction)下，是现有技术，或形成现有技术中公知知识的一部分。

根据以下描述(其仅通过实施例给出)并参照附图，本发明的另外的方面将变得明显。图Ia示出在使用T4 DNA连接酶融合蛋白的情况下，粘端连接的基于凝胶的体外连接活性测定的图示。加载样品分子标记(泳道I和9)、Sso7d-连接酶(泳道2)、cTF-连接酶(泳道3)、连接酶-cTF (泳道4)、p50-连接酶(泳道5)、连接酶-p50(泳道6)、NFAT-连接酶(泳道7)、连接酶-NFAT (泳道8) ,PprA-连接酶(泳道10)、连接酶-PprA (泳道11)、 Ku-连接酶(泳道12)、连接酶-ku (泳道13)、T4DNA连接酶(泳道14)、阴性对照(泳道 15)。图Ib示出在使用T4DNA连接酶融合蛋白的情况下，平端连接的基于凝胶的体外连接活性测定的图示。样品加载与图Ia相同。图2a示出在使用大肠杆菌LigA连接酶融合蛋白的情况下，粘端连接的基于凝胶的体外连接活性测定的图示。加载样品分子标记(泳道I和5)、LigA(泳道2)、 LigA-p50 (泳道3)、p50-LigA (泳道4)、阳性对照(泳道6)、阴性对照(泳道7)、商用对照 (泳道8) ο图2b示出在使用大肠杆菌LigA连接酶融合蛋白的情况下，平端连接的基于凝胶的体外连接活性测定的图示。样品加载与图2a相同。图3和4是示出如本文在实施例5中描述的基于定量PCR的连接活性测定的结果的图。图5示出平端连接的基于凝胶的体外连接活性测定的图示。加载样品Sso7d-连接酶(泳道I)、p50-连接酶(泳道2)、连接酶-PprA (泳道3)、连接酶-cTF (泳道4)、T4DNA 连接酶(泳道5)、阴性对照(泳道6)、阳性对照(泳道7)、分子标记(泳道8)。
具体实施例方式本发明涉及融合多肽以及其应用。本发明尤其涉及融合多肽，该融合多肽包括多核苷酸-连接酶多肽，如DNA连接酶多肽，其融合于多核苷酸-结合多肽，如DNA-结合多肽，连同产生上述融合的方法，以及其在各种分子生物学方法中的应用。I.定义短语"古细菌小碱性DNA结合蛋白"是指这样的蛋白，该蛋白具有通常50-75个氨基酸，其相对于天然古细菌小碱性DNA结合蛋白如来自硫磺矿硫化叶菌的Sso-7d具有至少约50%同一性，或结合于相对于天然古细菌小碱性DNA结合蛋白产生的并对天然古细菌小碱性DNA结合蛋白具有特异性的抗体。术语"编码区"或"开放阅读框"(ORF)是指基因组DNA序列或cDNA序列的有义链，在适当调节序列的控制下，其能够产生转录产物和/或多肽。通过5'翻译起始密码子和3'翻译终止密码子的存在来确定编码序列。当被插入基因构建体时，当它可操作地连接于启动子和终止子序列时，"编码序列"能够被表达。如在本说明书中所使用的，术语"包含"是指"至少部分地由...构成"。当解释在本说明书中包括术语"包含"的每种陈述时，还可以存在不同于位于该术语之后 (preface)的特征。可以用相同方式来解释相关术语如"包括"和"含有"。本领域技术人员将明了，一些多核苷酸-结合多肽具有相对于DNA和RNA (以及确实其它多核苷酸类似物)的活性。因此，术语"多核苷酸-结合多肽"是指能够结合一种或多种多核苷酸的多肽，如DNA、RNA、或它们的类似物。如在本文中所使用的，术语"DNA-结合多肽"是指能够结合于DNA的多肽，并且包括结合于单链DNA的多肽、结合于双链DNA的那些多肽、以及结合于具有另外构型的DNA 的那些多肽。如在本文中所描述的，可以将DNA-结合多肽融合于DNA连接酶多肽，例如DNA 连接酶的N端或C端，而没有灭活DNA-结合多肽或连接酶。应当明了，DNA-结合多肽还可以结合于不同于DNA的多核苷酸，如例如，RNA、或天然核苷酸的已知类似物。本领域技术人员将明了，一些多核苷酸-连接酶多肽具有相对于DNA和RNA (以及确实其它多核苷酸类似物)的活性。因此，术语"多核苷酸-连接酶多肽"是指能够催化磷酸二酯键的形成的多肽。在本文中术语"DNA连接酶多肽"可以主要用于对DNA多核苷酸呈现优先活性的多肽。如在本文中所使用的，该术语通常是指能够催化磷酸二酯键的形成的多肽。术语"域"是指蛋白或蛋白复合物的单位(单元，unit)，其包括多肽亚序列、完全多肽序列、或多个多肽序列，其中该单位具有所限定的功能。该功能应理解为是广泛定义的并且可以是配体结合、催化活性，或可以具有对蛋白质结构的稳定化效应。术语"表达构建体"是指基因构建体，其包括必要元件，允许转录插入的多核苷酸分子，并且，可选地，将转录体翻译成多肽。表达构建体在5'至3'方向通常包括(I)启动子，在其中将引入构建体的宿主细胞中发挥作用，(2)待表达的多核苷酸，以及(3)终止子，在其中将引入构建体的宿主细胞中发挥作用。可以将本发明的表达构建体插入用于克隆或用于表达的可复制载体，或可以将其并入宿主基因组。多肽的"片段"是多肽的亚序列(subsequence)，其执行为酶促或结合活性所需要的功能和/或提供多肽的三维结构。如在本文中所使用的，术语"融合多肽"是指包括两个或(更多)氨基酸亚序列的多肽，例如两个或更多个多肽域，其被融合(例如通过各自的氨基和羧基残基并借助于肽键)以形成单连续多肽。应当明了，可以直接融合或通过它们各自的氨基和羧基末端、通过接头或间隔子或另外的多肽来间接融合两个或更多氨基酸序列。在一种实施方式中，包括融合多肽的氨基酸序列的一种包括DNA连接酶多肽。在一种实施方式中，包括融合多肽的氨基酸序列的一种包括DNA-结合多肽。本文具体设想并在本文的实施例和序列ID表中提供了包括DNA连接酶多肽和DNA-结合多肽的示例性融合多肽。在一种实施方式中，通过接头或间隔子来对融合多肽的氨基酸亚序列进行间接融合，其中，例如，以DNA连接酶-接头-DNA-结合多肽、或DNA-结合多肽-接头-DNA连接酶、或DNA连接酶-接头-DNA-结合多肽结合域、或DNA-结合多肽结合域-接头-DNA连接酶的次序，来排列所述融合多肽的氨基酸序列。在其它实施方式中，融合多肽的氨基酸序列被间接融合，或包括另外的多肽，其以DNA连接酶-另外的多肽-DNA-结合多肽、或DNA连接酶-另外的多肽-DNA-结合多肽结合域、或DNA连接酶-接头-DNA-结合多肽-另外的多肽、或DNA连接酶-接头-DNA-结合多肽结合域-另外的多肽的次序加以排列。再一次，本文明确设想多核苷酸-连接酶多肽，如DNA连接酶的N端延伸和C端延伸。根据本发明的融合多肽还可以包括插入在另一多肽的序列内的一个或多个多肽序列。例如，可以将多肽序列如蛋白酶识别序列插入包含DNA-结合域的蛋白质的可变区。方便地，可以通过单核酸序列来编码本发明的融合多肽，其中核酸序列包括至少两个亚序列，各自编码多肽或多肽域。在某些实施方式中，至少两个亚序列将存在于"框内 (in frame)"，以致包括单一开放阅读框，因而将编码如本文设想的融合多肽。在其它实施方式中，至少两个亚序列可以存在于"框外(out of frame)"，并且可以通过核糖体移码位点(ribosomal frame-shifting site)或其它序列(其促进在阅读框中的移位(shift)) 加以分离，以致在翻译后，形成融合多肽。在某些实施方式中，至少两个亚序列是邻接的。在其它实施方式中，如上文讨论的那些实施方式，其中通过另外的多肽间接融合至少两个多肽或多肽域，上述至少两个亚序列不是邻接的。术语"基因构建体"是指多核苷酸分子，通常双链DNA，其可以已被插入另一多核苷酸分子(插入多核苷酸分子)如但不限于cDNA分子或PCR产物。基因构建体可以包含必要元件，其允许转录上述插入多核苷酸分子，并且，可选地，将转录体翻译成多肽。上述插入多核苷酸分子可以源自宿主细胞，或可以源自不同的细胞或有机体，和/或可以是重组多核苷酸。在宿主细胞内以后，可以将基因构建体整合在宿主染色体DNA中。可以将基因构建体连接于载体。术语"宿主细胞"是指细菌细胞、真菌细胞、酵母细胞、植物细胞、昆虫细胞或动物细胞如哺乳动物宿主细胞，其能够支持表达构建体的表达。如在本文中所使用的，术语"接头"或"间隔子"是指氨基酸或核苷酸序列，其间接融合两个或更多个多肽或两个或更多核酸序列(其编码两个或更多个多肽)。在一些实施方式中，接头或间隔子的长度为约1、5、10、15、20、25、30、35、40、45、50、55、60、65、70、 75、80、85、90、95或约100个氨基酸或核苷酸。在其它实施方式中，接头或间隔子的长度为约 100、125、150、175、200、225、250、275、300、325、350、375、400、450、500、550、600、650、 700、750、800、850、900、950或约1000个氨基酸或核苷酸。在其它实施方式中，接头或间隔子的长度为约I至约1000个氨基酸或核苷酸，约10至约1000、约50至约1000、约100至约1000、约200至约1000、约300至约1000、约400至约1000、约500至约1000、约600至约1000、约700至约1000、约800至约1000、或约900至约1000个氨基酸或核苷酸。在一种实施方式中，接头或间隔子可以包括限制酶识别位点。在另一种实施方式中，接头或间隔子可以包括蛋白酶切割识别序列如肠激酶(enteiOkinase)、凝血酶 (thrombin)或因子Xa识别序列、或自我剪接元件如内含肽(intein)。在另一种实施方式中，接头或间隔子有利于融合多肽的独立折叠。如在本文中所使用的，术语"混合群体"是指两个或更多的物质(entities)群体，在混合群体内的每个物质群体在一些方面不同于在混合群体内的另一物质群体。例如，当用于提及混合群体的表达构建体时，这是指两个或更多群体的表达构建体，其中每个群体的表达构建体在由群体的成员编码的融合多肽方面、或在构建体的一些其它方面是不同的，如例如存在于构建体中的启动子的特性(identity)。可替换地，当用于提及混合群体的融合多肽时，这是指两个或更多群体的融合多肽，其每个群体的融合多肽在多肽方面不同，如多核苷酸-连接酶多肽，例如DNA连接酶，或多核苷酸-结合多肽，如DNA-结合多肽(该群体所包含的成员)。如在本文中所使用的，术语"核酸"是指脱氧核糖核苷酸的单或双链聚合物、核糖核苷酸碱基或天然核苷酸的已知类似物、或它们的混合物。除非另有说明，该术语包括提及指定的序列以及与其互补的序列。术语"核酸"和"多核苷酸"在本文中可互换使用。"可操作地连接"是指将待表达的序列置于调节元件的控制下，上述调节元件包括启动子、组织特异性调节元件、时间调节元件、增强子、阻遏子和终止子。术语"过表达"通常是指在宿主细胞中基因产物的产生超过在正常或非转化宿主细胞中的产生水平。当用于信使RNA的水平时，术语"过表达"优选指表达水平至少约3 倍高于在对照或非转化的细胞中宿主细胞通常所观测到的表达水平。更优选地，表达水平是至少约5倍、约10倍、约15倍、约20倍、约25倍、约30倍、约35倍、约40倍、约45倍、约50倍、约55倍、约60倍、约65倍、约70倍、约75倍、约80倍、约85倍、约90倍、约95 倍、或约100倍或以上高于在对照宿主细胞或非转化细胞中通常所观测到的表达水平。利用本领域技术人员已知的若干技术中的任何一种，其包括但不限于Northern 印迹分析和RT-PCR (包括定量RT-PCR)，来测量mRNA水平。如在本文中所使用的，术语"多肽"包括任何长度但优选至少5个氨基酸的氨基酸链，包括全长蛋白，其中通过共价肽键来连接氨基酸残基。本发明的多肽可以是纯化的天然产物，或可以部分或完全地利用重组或合成技术来产生。该术语可以指多肽、多肽的聚集体(aggregate)如二聚体或其它多聚体、融合多肽、多肽变体、或它们的衍生物。术语"启动子"是指调节基因转录的编码区上游的非转录顺式调节元件。启动子包括顺式起始子元件，其指定转录起始位点和保守框如TATA框，以及由转录因子结合的基序。
当用于本发明的多肽时，短语"保留活性"以及其语法等同体和衍生体用于指，多肽仍然具有有用的连接酶活性、有用的多核苷酸结合活性(如DNA-结合活性)、或有用的连接酶活性和有用的多核苷酸-结合活性。优选地，保留活性是原始活性的至少约35、40、
45、50、55、60、65、70、75、80、85、90、95、99或100 %，并且可以在任何这些数值之间选择有用的范围(例如，约35至约100%、约50至约100%、约60至约100%、约70至约100%、约80至约100%、以及约90至约100% )。例如，本发明的优选多肽在给定的储存期保留活性，例如在4°C下在约I小时以后保留多肽的原始活性的至少约25、30、35、40、45、50、55、 60、65、70、75、80、85、90、95、99或100%。类似地，本发明的优选组合物能够支持它们所包含的多肽的有用活性的维持，并且可以说保留活性，理想地直到利用本文设想的方法加以使用。如在本文中所使用的，当用于本发明的多肽或组合物时，术语"改善的稳定性" 是指，对于给定时期、或在特定条件下、或两者，例如在4°C下I小时，多肽能够保留活性或组合物能够支持多肽的活性。在某些实施方式中，当在同等条件下保持相同时间时，本发明的融合多肽的保留连接酶活性大于由天然连接酶多肽呈现的保留连接酶活性。在其它实施方式中，当在同等条件下保持相同时间时，本发明的融合多肽的保留多核苷酸-结合活性大于由天然多核苷酸-结合多肽呈现的保留多核苷酸-结合活性。短语"序列非特异的DNA-结合域"是指这样的多肽域，其以与核苷酸序列无关的方式并以显著亲和力结合于DNA(以及可选地其它核酸)。例如，不存在这样的已知核酸，其能够以相对于具有相同核苷酸组成但不同核苷酸序列的另一种核酸大于10倍、或大于 20倍、大于50倍、或大于100倍的亲和力结合于多肽域。短语"序列特异的DNA-结合域"是指这样的多肽域，其以核苷酸序列依赖方式并以显著亲和力结合于DNA (以及可选地其它核酸)。例如，存在这样的已知核酸，其能够以相对于具有相同核苷酸组成但不同核苷酸序列的另一种核酸大于10倍、或大于20倍、大于 50倍、或大于100倍的亲和力结合于多肽域。当涉及被结合于或吸收入或并入融合多肽内时，术语"物质"是指被融合伴侣 (fusion partner)结合的物质或能够被吸收入或并入聚合物融合多肽内的物质。术语"终止子"是指终止转录的序列，其存在于翻译序列下游的基因的3'非翻译端。终止子是mRNA稳定性的重要决定子以及在一些情况下已发现具有空间调节功能。本文提供的多核苷酸序列的"片段"是邻接核苷酸的亚序列，其长度优选为至少 15个核苷酸。本发明的片段优选包含本发明的多核苷酸的至少20个核苷酸、更优选至少 30个核苷酸、更优选至少40个核苷酸、更优选至少50个核苷酸以及最优选至少60个邻接核苷酸。多核苷酸序列的片段可以用于反义基因沉默、三链螺旋(triple helix)或核酶技术，或作为引物、探针，包括在微阵列中，或用于基于多核苷酸的选择方法。相对于启动子多核苷酸序列，术语"片段"用来包括这样的序列，该序列包括启动子多核苷酸序列的顺式元件和区，其能够调节片段可操作连接的多核苷酸序列的表达。优选地，本发明的多核苷酸序列的片段包含本发明的多核苷酸的至少20、更优选至少30、更优选至少40、更优选至少50、更优选至少100、更优选至少200、更优选至少300、更优选至少400、更优选至少500、更优选至少600、更优选至少700、更优选至少800、更优选至少900和最优选至少1000个邻接核苷酸。
如在本文中所使用的，例如相对于DNA连接酶或DNA-结合多肽，术语"功能变体"和"功能片段"是指不同于具体确定的序列的多肽序列，其中缺失、替代、或添加一个或多个氨基酸残基；或一种序列，其包含具体确定的序列的片段。功能变体可以是天然存在的等位基因变体、或非天然存在的变体。功能变体可以来自相同或来自其它物种并且可以包括同源物、旁系同源物(paralogues)和直系同源物(orthologues)。多肽的功能变体或功能片段具有具体确定的天然多肽的一种或多种生物活性，如诱发由天然多肽诱发的一种或多种生物效应的能力。例如，DNA连接酶的功能片段将通常能够催化磷酸二酯键的形成。功能变体或功能片段可以具有比天然多肽更高或更低的活性。在一个实施例中，与在天然多肽中发现的相比，由功能变体或功能片段具有的具体确定的天然多肽的一种或多种生物活性可以在更大或更小的程度上存在于功能变体或功能片段中。在另一个实施例中，与在天然多肽中发现的相比，由功能变体或功能片段具有的具体确定的天然多肽的每种生物活性在更大或更小的程度上存在于功能变体或功能片段中。在又一个实施例中，可以期望提供功能变体或功能片段，其中，与在天然多肽中发现的相比，保持或在更大程度上存在天然多肽的一种或多种生物活性，但与在天然多肽中发现的相比，不存在或在更小的程度上存在天然多肽的一种或多种其它生物活性。上述功能片段的实例包括本文描述的 NF- κ B和NFATDNA结合多肽片段。用来确定由多核苷酸-连接酶多肽如DNA连接酶、或多核苷酸-结合多肽如 DNA-结合多肽诱发的一种或多种生物效应的方法和测定在本领域中是众所周知的，并在本文中描述了实施例，以及这样的方法和测定可以用来确定或确认多核苷酸连接酶或多核苷酸-结合多肽的一种或多种功能变体或功能片段。例如，DNA连接酶催化DNA的两个线性片段的连接以形成单一的更大片段(如本文在实施例中描述的那些单一的更大片段)的能力的测定适合于确定DNA连接酶的一种或多种功能变体或功能片段。功能片段的实例包括多肽片段，该多肽片段包含负责催化活性的氨基酸序列，例如，序列非特异的DNA结合、或磷酸二酯键形成。优选地，本发明的多肽序列的片段(包括在所述序列同一性列表中具体确定的那些序列)包含本发明的多肽的至少10、至少15、至少20、更优选至少30、更优选至少40、更优选至少50、更优选至少60、更优选至少70、更优选至少80、更优选至少90、更优选至少 100、更优选至少150、更优选至少200、更优选至少250、更优选至少300、更优选至少350、更优选至少400、以及最优选至少450个邻接氨基酸。术语"引物"是指短多核苷酸，通常具有游离3’ OH基团，其杂交于模板并用于引发互补于模板的多核苷酸的聚合作用。这样的引物的长度为优选至少5、更优选至少6、更优选至少7、更优选至少8、更优选至少9、更优选至少10、更优选至少11、更优选至少12、更优选至少13、更优选至少14、更优选至少15、更优选至少16、更优选至少17、更优选至少 18、更优选至少19、更优选至少20个核苷酸。术语"探针"是指短多核苷酸，在基于杂交的测定中，其用来检测互补于探针的多核苷酸序列。探针可以由如本文定义的多核苷酸的"片段"构成。优选地，这样的探针的长度是至少5、更优选至少10、更优选至少20、更优选至少30、更优选至少40、更优选至少 50、更优选至少100、更优选至少200、更优选至少300、更优选至少400以及最优选至少500个核苷酸。如在本文中所使用的，术语"变体"是指不同于具体确定的序列的多核苷酸或多肽序列，其中缺失、替代、或添加一个或多个核苷酸或氨基酸残基。变体可以是天然存在的等位基因变体，或可以是非天然存在的变体。变体可以来自相同或来自其它物种，并且包括同源物、旁系同源物和直系同源物。在某些实施方式中，多核苷酸和多肽的变体具有相同于或类似于野生型多核苷酸或多肽的生物活性。相对于多核苷酸和多肽，术语"变体"包括如本文定义的多核苷酸和多肽的所有形式。多核苷酸和多肽变体如在本文中所使用的，术语"多核苷酸"是指任何长度但优选至少15个核苷酸的单或双链脱氧核糖核苷酸或核糖核苷酸聚合物，并且作为非限制性实例，包括基因的编码和非编码序列、有义和反义序列补体、外显子、内含子、基因组DNA、cDNA、前体 mRNA(pre-mRNA)、mRNA、rRNA、siRNA、miRNA, tRNA、核酶、重组多肽、分离和纯化的天然存在的DNA或RNA序列、合成RNA和DNA序列、核酸探针、引物和片段。还设想了本领域中众所周知的若干核酸类似物。多核苷酸变体相对于指定的多核苷酸序列，变体多核苷酸序列优选呈现至少50%、更优选至少51%、至少52%、至少53%、至少、至少55%、至少56%、至少57%、至少58%、至少59%、至少60%、至少61%、至少62%、至少63%、至少64%、至少65%、至少66%、至少67%、至少68%、至少69%、至少70%、至少71%、至少72%、至少73%、至少74%、至少75%、至少76%、至少77%、至少78%、至少79%、至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少 91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少 99%的同一性。经至少20个核苷酸位置、优选至少50个核苷酸位置、至少100个核苷酸位置、或经指定的多核苷酸序列的全长的比较窗口，来确定同一性。可以按照以下方式来确定多核苷酸序列同一性。利用在blkeq (Tatiana A. Tatusova, Thomas L. Madden (1999), " Blast 2sequences_a newtool for comparing protein-and nucleotide sequences" ， FEMS Microbiol Lett. 174 :247-250) ( ^nj^jf 获自 NCBI (ftp://ftp. ncbi. nih. gov/blast/))中的 BLASTN(来自 BLAST 程序套件，版本 2. 2. 10[Oct 2004])，来比较主题多核苷酸序列和候选多核苷酸序列。采用blkeq的默认参数，不同之处在于，应关闭低复杂性部分的滤选(filting)。可以利用以下UNIX命令行参数来检查多核苷酸序列的同一性bl2seq-i nucleotideseql -j nucleotideseq2_F F_p blastn参数-F F关闭低复杂性区域的滤选。参数-P为序列对选择适当算法。blkeq程序将序列同一性报道为在行"Identities="中相同核苷酸的数目和百分比。还可以利用全局序列对比程序(例如，Needleman，S. B. and Wunsch, C. D. (1970) J. Mol. Biol. 48,443-453)，针对候选和主题多核苷酸序列之间的重叠区的全长，来计算多核苷酸序列同一性。Needleman-Wunsch全局对比算法的全面实现可参见在EMBOSS软件包中的针禾呈序(needle program) (Rice, P. Longden, I. and Bleasby, A. EMBOSS :The European Molecular Biology Open Software Suite, Trends in Genetics June 2000, vol 16, No6. pp. 276-277)，其可获自 http //www, hgmp. mrc. ac. uk/Sftware/EMBOSS/。欧洲生物信息研究所服务器还提供设施以在两个序列之间在线进行EMBOSS针全局对比http:/WWW. ebi. ac. uk/emboss/align/0可替换地，可以使用GAP程序，其计算两个序列的最佳全局对比而没有罚分末端缺口 (末端空隙,terminal gaps)。GAP 描述于以下论文Huang，X. (1994) On Global Sequence Alignment. Computer Applications in the Biosciences 10,227—235。本发明的多核苷酸变体还包括那些变体，其相对于具体确定的序列的一个或多个呈现相似性，这很可能保存那些序列的功能等效性并且其不可能合理地期望已随机发生。可以利用可公开获得的来自BLAST程序套件的blkeq程序(版本2. 2. 10 [Oct 2004])(来自NCBI (ftp //ftp, ncbi. nih. Rov/blast/))，来确定上述相对于多肽的序列相似性。可以利用以下UNIX命令行参数来检查多核苷酸序列的相似性bl2seq-i nucleotideseql -j nucleotideseq2_F F_p tblastx参数-F F关闭低复杂性区域的滤选。参数-P选择用于序列对的适当算法。此程序发现在序列之间具有相似性的区并且对于每个这样的区报道"E值"，其是在包含随机序列的固定参比大小的数据库中可以预期看到这样的偶然匹配的预计次数。此数据库的大小由blkeq程序中的默认来设定。对于小E值(远小于1)，E值大约是这样的随机匹配的概率。当和具体确定的序列的任何一个相比时，变体多核苷酸序列优选呈现小于1x10, 的E值、更优选小于1χ1(Γ2°、小于1χ1(Γ3°、小于1χ1(Γ4°、小于1χ1(Γ5°、小于1x10,、小于 1χ10_7°、小于 lxlO—8。、小于 1x10—9°、小于 lxlO—·、小于 lxlO—11。、小于 1χ1(Γ12° 或小于 1x10—⑵。可替换地，在严格条件下，本发明的变体多核苷酸杂交于指定的多核苷酸序列、或其补体(complements)。术语"在严格条件下杂交"和其语法等同物是指在规定的温度和盐浓度的条件下，多核苷酸分子杂交于目标多核苷酸分子(如固定在DNA或RNA印迹上的目标多核苷酸分子，如Southern印迹或Northern印迹)的能力。在严格杂交条件下杂交的能力可以通过最初在不太严格的条件下杂交然后提高严格度到所期望的严格度来确定。对于长度大于约100个碱基的多核苷酸分子，典型的严格杂交条件是低于天然双链体的解链温度(melting temperature) (Tm)下不大于25至30°C (例如，10°C )( —
M> Sambrook et al.，Eds, 1987, Molecular Cloning, A Laboratory Manual, 2nd Ed. Cold Spring Harbor Press ；Ausubel et al. ,1987,Current Protocols in Molecular Biology,Greene Publishing)。可以通过公式Tm = 81. 5+0. 41% (G+C)-log(Na+)来计算大于约 100 个碱基的多核苷酸分子的 Tm。(Sambrook et al. ,Eds, 1987,Molecular Cloning, A Laboratory Manual,2nd Ed. Cold Spring Harbor Press ；Bolton and McCarthy,1962, PNAS 84:1390)。对于长度大于100个碱基的多核苷酸的典型的严格条件将是杂交条件如在6X SSC、0. 2% SDS的溶液中预洗涤；在65°C、6X SSC、0. 2% SDS下杂交过夜；接着两次 30分钟的洗涤，各自在IX SSC、0. 1%SDS，在65°C下，然后两次30分钟的洗涤，各自在0. 2X SSC,0. 1% SDS 中，在 65°C下。对于长度小于100个碱基的多核苷酸分子，典型的严格杂交条件是在Tm以下5至 10°C。平均而言，长度小于IOObp的多核苷酸分子的Tm大约降低(500/寡核苷酸长度)°C。
对于称作肽核酸(PNA)的DNA 模拟物(Nielsen et al. , Science. 1991 Dec 6 ； 254(5037) :1497-500), iTm值高于DNA-DNA或DNA-RNA杂交体的Tm值，并且可以利用在 Giesen et al. ,Nucleic Acids Res. 1998 Nov 1 ；26 (21) :5004-6 中描述的公式来计算。用于长度小于100个碱基的DNA-PNA杂交体的典型的严格杂交条件是在Tm以下5至10°C。本发明的变体多核苷酸还包括这样的多核苷酸，其不同于本发明的序列，但由于遗传密码的简并性，其编码这样的多肽，该多肽具有与由本发明的多核苷酸编码的多肽类似的活性。不改变多肽的氨基酸序列的序列改变是"沉默变异"。除ATG(蛋氨酸)和 TGG(色氨酸)以外，用于相同氨基酸的其它密码子可以通过技术领域认可的技术加以改变，例如，在特定宿主生物体中优化密码子表达。本发明还包括这样的多核苷酸序列改变，其导致在编码多肽序列中的一个或若干氨基酸的保守取代而没有显著改变它的生物活性。本领域技术人员将明了用于进行表型沉默氨基酸替代的方法(参见例如，Bowie et al.，1990，Science 247，1306)。在一些实施方式中，导致非保守氨基酸替代的多核苷酸序列改变理想地导致如本文设想的功能变体，并且这样的序列改变也包括在本发明中。可以利用来自BLAST程序套件的可公开获得的blkeq程序(版本2. 2. 10[Oct 2004])，其来自 NCBI (ftp://ftp, ncbi. nih. gov/blast/),并经由 tblastx 算法(如前所述)，来确定起因于在编码多肽序列中的沉默变异和保守替代的变体多核苷酸。(polypeptide variant)相对于多肽，术语"变体"包括天然存在的、重组和合成产生的多肽。相对于本发明的序列，变体多肽序列优选呈现至少50%、更优选至少51%、至少52%、至少53%、至少、至少55%、至少56%、至少57%、至少58%、至少59%、至少60%、至少61%、至少62%、至少63%、至少64%、至少65%、至少66%、至少67%、至少68%、至少69%、至少70%、至少71%、至少72%、至少73%、至少74%、至少75%、至少76%、至少77%、至少78%、至少79%、至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少 94%、至少95 %、至少96 %、至少97 %、至少98 %、或至少99 %的同一性。针对至少20个氨基酸位置、优选至少50个氨基酸位置、至少100个氨基酸位置、或针对本发明的多肽的全长的比较窗口，来发现同一性。可以按照以下方式来确定多肽序列同一性。利用在blkeq中的BLASTP (来自 BLAST 程序套件，版本 2. 2. 10 [Oct 2004])，其可公开获自 NCBI (ftp://ftp, ncbi. nih. rov/ blast/),来比较主题多肽序列和候诜多肽序列。采用blkeq的默认参数，不同之处在于，应关闭低复杂性区的滤选。还可以利用全局序列对比程序并针对候选和主题(源)多核苷酸序列之间的重叠区的全长来计算多肽序列同一性。如上文讨论的EMBOSS-针(可在httpr/www. ebi. ac. uk/ emboss/align/处获得)禾口GAP (Huang, X. (1994) On Global Sequence Alignment. Computer Applications in the Biosciences 10，227-235)也是用于计算多肽序列同一性的适宜的全局序列对比程序。本发明的多肽变体还包括那些多肽变体，它们呈现相对于具体确定的序列的一个或多个的相似性，其很可能保存那些序列的功能等效性并且其不可能合理地期望已随机发生。相对于多肽的上述序列相似性可以利用从NCBI (ftp://ftp. ncbi. nih. gov/blast/)可公开获得的来自BLAST程序套件的bl2seq程序(版本2. 2. 10 [Oct 2004])加以确定。可以利用以下UNIX命令行参数来检查多肽序列的相似性bl2seq-i peptideseql -j peptideseq2_F F_p blastp当和具体确定的序列的任何一个比较时，变体多肽序列优选呈现小于IxlO,的E 值、更优选小于lxlO-20、小于1x10—3°、小于1x10—4°、小于lxlO-50、小于lxlO—6。、小于lxlO-70、小于 1χ10_8°、小于 1x10—9°、小于 lxlO—100、小于 lxlO—110、小于 1x10.或小于 lxlO—123。参数-F F关闭低复杂性区域的滤选。参数-P选择用于序列对的适当算法。此程序发现在序列之间具有相似性的区并且对于每个这样的区报道"E值"，其是在包含随机序列的固定参比大小的数据库中可以预期看到这样的偶然匹配的预计次数。对于小E值 (远小于I)，E值大约是这样的随机匹配的概率。本发明还包括所描述的多肽序列的没有显著改变其生物活性的一个或若干氨基酸的保守取代。技术人员将明了用于进行表型沉默氨基酸替代的方法(参见例如，Bowie et al.，1990，Science 247，1306)。同样，本发明包括起源于一个或多个氨基酸的替代(包括非保守替代)的功能变体。本发明的多肽变体还包括这样的多肽变体，其产生自编码多肽的核酸，但不同于野生型多肽它被不同地加以处理，以致它具有改变的氨基酸序列。例如，可以通过初级 RNA转录体的可变剪接模式来产生变休，到产生野生型多肽的变体。术语"载体"是指多核苷酸分子，通常为双链DNA，其用来将基因构建体转运到宿主细胞。载体能够在至少一种另外的宿主系统如大肠杆菌中复制。2.多核苷酸连接酶多核苷酸连接酶(本文中还称作多核苷酸-连接酶多肽)是多肽，其可以催化在一个核苷酸的3'羟基端和另一个核苷酸的5'磷酸端之间的磷酸二酯键的形成。例如， DNA连接酶(本文中还称作DNA连接酶多肽)是多肽，其可以催化在一个脱氧核糖核苷酸的 3'轻基端和另一个脱氧核糖核苷酸的5'磷酸端之间的磷酸二酯键的形成。在Tomkinson 等(2006)，Chem. Rev. ,106,687-699中有用地述评了 DNA连接酶，其全部内容以引用方式结合于本文。同样，RNA连接酶催化在一个核糖核苷酸的3'羟基端和另一个核糖核苷酸的 5'磷酸端之间的磷酸二酯键的形成。2. I病毒DNA连接酶最简单的DNA连接酶是那些来自病毒(包括噬菌体)的DNA连接酶。病毒DNA连接酶包含两个域核苷酸-结合域和OB-折叠域(Tomkinson et al.，2006)。病毒DNA连接酶需要核苷酸辅因子(cofactor)腺苷-5'-三磷酸(ATP)以具有活性。来自噬菌体T4 的DNA连接酶通常用于体外应用，这是因为它将连接平端和粘端DNA末端，以及修复在双链体DNA、RNA或DNA/RNA杂交体中的单链切口。病毒连接酶(包括T4DNA连接酶)可以适合用于本发明。2. 2原核DNA连接酶细菌具有DNA连接酶，其需要辅因子烟酰胺腺嘌呤二核苷酸(NAD+)，而不是ATP，以具有活性。NAD+依赖性DNA连接酶具有核心组件(core module)，该核心组件由以下组成核苷酸-结合和OB-折叠域，加上一个或多个另外的域，其帮助DNA结合和/或催化(Tomkinson et al. , 2006) 0来自大肠杆菌的NAD+依赖性连接酶并不连接平端DNA末端；也不连接DNA于RNA。因此，它可以用于体外应用，其中需要粘性末端的选择性连接。NAD+ 依赖性细菌连接酶(包括大肠杆菌DNA连接酶)可以适合用于本发明。2. 3真核和古细菌DNA连接酶来自真核生物和古细菌的DNA连接酶是ATP依赖性多域酶(multi-domain enzyme) 0真核生物基因组各自编码多于一种的DNA连接酶。用于不同细胞作用的不同连接酶的募集是通过与另外的蛋白质伴侣的特异性相互作用来介导(Tomkinson et al., 2006)。已表征许多真核DNA连接酶，并且其可以适合用于本发明。这些DNA连接酶包括哺乳动物DNA连接酶，其通常认为属于以下四个家族哺乳动物DNA连接酶I、DNA连接酶 II (DNA连接酶III的可变剪接形式)、DNA连接酶III (包括DNA连接酶III组合DNA修复蛋白XRCC1)、和DNA连接酶IV (包括DNA连接酶IV组合XRCC4)。还已表征了若干古细菌DNA连接酶，并且其可以适合用于本发明。它们包括嗜热古细菌连接酶，例如来自激烈火球菌(Pyrococcus furiosus)的连接酶,如由 Nishida et al. (2006), J. Mol. Biol. 360, 956-967所描述的。2. 4RNA 连接酶 RNA连接酶是本领域众所周知的，并且可用于本发明。合理地很好表征了来自噬菌体T4的RNA连接酶，并且已提出用于体外应用如放射性标记RNA的3'端，环化寡脱氧核糖核苷酸和寡核糖核苷酸，连接低聚物和切口(nick)，产生杂交体和嵌合DNA/RNA分子，和 miRNA克隆，这是因为它们呈现合理广泛的底物特异性。例如，T4RNA连接酶I催化DNA或 RNA的单链5'-磷酰基末端与DNA或RNA的单链3'-羟基末端的ATP依赖性共价连接。 T4RNA连接酶II具有和T4RNA连接酶I类似的活性，但优选双链底物。病毒连接酶(包括 T4RNA连接酶I和T4RNA连接酶II、连同它们的功能片段)适合用于本发明。3.多核苷酸-结合多肽多核苷酸-结合多肽是这样的多肽，其能够以序列特异的方式或以序列非特异的方式结合于多核苷酸。例如，DNA-结合多肽是能够结合于DNA的多肽，包括结合于单链DNA、双链DNA、或具有另外构型的DNA的多肽。如本领域技术人员将明了的，对于本发明的目的， DNA-结合多肽可以广泛分成序列非特异的DNA-结合多肽和序列特异的DNA-结合多肽。3. 1序列非特异的DNA-结合多肽序列非特异的核酸结合多肽，优选序列非特异的DNA-结合多肽，是多肽或多肽的指定区(如域)，其以与序列无关的方式结合于核酸。即，多肽与核苷酸的结合并不呈现对特定核苷酸序列的显著偏好。特别适用于本发明的序列非特异的DNA-结合多肽的实例包括但不限于耐辐射球菌的PprA蛋白(登录号BAA21374)、来自结核分枝杆菌的Ku蛋白(登录号NP_343889)、古细菌小碱性DNA结合蛋白，包括Sac7d和Sso7d(登录号分别为P13123和NP_343889)、耐辐射球菌的DdrA蛋白(如在美国专利号7550564中所描述的，其全部内容以引用方式结合于本文)、古细菌HMf样蛋白(登录号包括但不限于U08838和NP_633849)、和PCNA同系物 (登录号包括但不限于NP_578712和NP_615084)。PprA是来自耐辐射球菌的大约32kDa蛋白，据报道参与DNA损伤的修复。在体外， PprA 优先结合于 DNA 分子的末端(Murakami et al. (2006), Biochimica et Biophysica
24Acta-Proteins and Proteomics，1764，20-23)，以及在体内它对于募集DNA修复蛋白到DNA 断裂位点似乎是重要的(Narumi et al. (2004)Molecular Microbiology，54，278-285)。Sso7d和Sac7d是分别来自超嗜热古细菌硫磺矿硫化叶菌和嗜酸热硫化叶菌的大约7kDa碱性(kisic)染色体蛋白。这些蛋白是富含赖氨酸的并具有高热、酸和化学稳定性。已报道它们以与序列无关的方式结合DNA并且被认为参与在高温下稳定基因组DNA。HMf样蛋白是古细菌组蛋白，据报道其在氨基酸序列和在结构方面与真核H4 组蛋白共享同源性。已报道，HMf家族蛋白在溶液中形成稳定的二聚体，并且已从嗜热 (thermothilic)微生物确定了若干HMf同系物。据报道，若干家族B DNA聚合酶与辅助蛋白(accessory proteins)相互作用，例如以实现有效的DNA合成。辅助蛋白的一类称作滑动钳(slidingclamp)。已建议，多聚体钳可以形成可容纳双链DNA的圆环样结构(torus-like structure) 0据报道，滑动钳与特定DNA聚合酶的C端相互作用并有助于在合成期间将这些聚合酶固定于DNA模板。在真核生物中的滑动钳称作增殖细胞核抗原(PCNA)，而在其它域中的类似蛋白经常称作PCNA同系物。这些同系物具有显著的结构相似性但有限的序列相似性。已从非真核有机体(包括嗜热古细菌如硫磺矿硫化叶菌、激烈火球菌等)鉴定了 PCNA同系物。对于本发明，PCNA和PCNA同系物是有用的序列非特异的DNA-结合多肽。适用于本发明的序列非特异的DNA-结合域以与序列无关的方式结合于(优选双链)核酸。即，本发明的结合域以显著亲和力结合核酸，以致具有等同核苷酸组成但不同序列的任何已知核酸将结合于域，并且在结合方面的差异不大于100倍。可以利用本领域众所周知的方法来测定非特异性结合，包括，例如，滤膜结合测定(filter binding assay)或凝胶迁移率变动分析(gel mobility shift assay)，其可以利用具有相同核苷酸组成但不同核酸序列的竞争者核苷酸(competitor nucleotide)来进行，以确定结合的特异性。序列非特异的核酸结合多肽(包括序列非特异的DNA-结合多肽)可以呈现对单链或对双链核酸的偏好。通常，链特异的结合多肽将呈现对于双链或单链核酸的10倍或更高亲和力(视情况而定)。本领域技术人员将明了，针对特定应用，双链特异的、序列非特异的DNA-结合多肽可以是优选的。例如，可以利用本领域技术人员已知的各种测定来测试结合于双链核酸的特异性。它们包括这样的测定如滤膜结合测定或凝胶迁移分析。例如，在滤膜结合测定中，在适当的缓冲液中，预混合待评估其对双链DNA的结合活性的多肽和放射性标记DNA (双链或单链)。通过膜(例如，硝基纤维素)来过滤混合物，其中上述膜保留蛋白质和蛋白质-DNA复合物。保留在滤膜上的DNA的量反映了结合于蛋白质的量。可以通过竞争分析来量化结合，其中，通过添加增加量的未标记DNA来竞争标记DNA。相比于单链DNA，以10倍或更大亲和力结合双链DNA的多肽在本文中被定义为双链DNA结合蛋白。可替换地，可以通过凝胶迁移分析来评估结合活性，其中连同测试多肽一起温育放射性标记DNA。蛋白质-DNA复合物将比未结合DNA更慢地迁移通过凝胶，从而导致移位带(shifted band)。通过用增加量的双链或单链未标记DNA来温育样品、和量化在移位带中的放射性的量，来评估结合的量。3. 2序列特异的DNA-结合多肽通常，在本发明的融合多肽中呈现中度至高度序列特异性的DNA-结合多肽的使用是较不可取的。然而，本领域技术人员将明了，在某些实施方式中，一定程度的序列特异性可以是有利的，例如，以在包含由DNA-结合多肽优先结合的特定序列基序的位点改善连接的效率。例如，可以设计高效率连接载体以连同特定的融合多肽一起使用，其中连接位点包括被融合多肽的序列特异的DNA-结合多肽域结合的识别序列。许多序列特异的DNA-结合多肽是已知的，包括，例如，转录因子、限制性内切核酸酶、和聚合酶。可以按照它们的DNA-结合域的ニ级结构来分类序列特异的DNA-结合多肽。典型的DNA-结合域的实例包括锌指基序、螺旋-转角-螺旋基序、亮氨酸拉链、和螺旋-环-螺旋基序。包含这些域的ー个或多个的序列特异的DNA-结合多肽适合用于本发明。特别适用于本发明的序列特异的DNA-结合多肽的实例包括但不限于转录因子如哺乳动物NF-κ B p50蛋白，例如，人NF-κ B p50蛋白(登录号NP_003989)，和小鼠NF-κ B ρ50蛋白(登录号ΝΡ_032715)，以及哺乳动物NFAT蛋白，例如NFATc 1、NFATc2、NFATc3、 NFAjTc^或NFAjTCS的ー种或多种。NF-K B(还被称为在B細胞1中κ轻(light)多肽基因增强子的核因子)是来自 Rel家族的序列特异的DNA结合转录因子。据报道，NF-kB p50结合特异性共有序列，解离常数(Kd)为 8pM，以及非特异性 DNA,弱约 1000 倍(KD = 5. 7nM，de Lumley et al.，2004)。转录因子(还被称为激活T細胞的核因子)的NFAT家族由5个成员NFATcl、 NFATc2、NFATc3、NFATc4、和NFAT5构成，并且在本发明中各自适合用作DNA-结合多肽。在其它实施方式中，可以采用序列特异的DNA-结合多肽的功能变体。例如，保留由天然序列特异的DNA-结合多肽呈现的高亲和结合但不再呈现相同程度的序列特异性的功能变体适合用于本发明。上述功能变体的实例在本领域中是已知的，并且包括 cTF-NFAT-Ala-p50 杂合 DNA 结合蛋白，这由 de Lumley et al. (2004), J. Mol. Biol. 339, 1059-1075所描述，其全部内容以引用方式结合于本文。此杂交体包括经由丙氨酸残基融合于NF-K B的氨基酸M9-366的NFATcl的氨基酸403-579。作者报道了，此杂交体保留作为NF- κ B的特征的对于DNA的高亲和力，但已失去它的序列特异性de Lumley測量了对于κ B共有序列的Kd为^nM,以及对于非特异性DNA结合的Kd为40nM。4.表达构建体在微生物、植物細胞或动物細胞(細胞表达系统)中或在无细胞表达系统、和包含表达构建体(其可用于形成用于本发明的融合多肽)的宿主細胞中，用于表达融合多肽的表达构建体的生产和应用方法在本领域中是众所周知的(例如，Sambrook et al. , 1987 ； Ausubel et al. ,1987)。可以将用于本发明的方法的表达构建体插入用于克隆或用于表达的可复制载体，或可以将其并入宿主基因組。各种载体是可公开获得的。载体可以，例如，具有质粒、粘粒、病毒融合多肽、或噬菌体的形式。可以通过各种程序将适当的核酸序列插入载体。通常，利用本领域已知的技术将DNA插入适当的限制性内切核酸酶位点。载体组件(vector components)通常包括但不限于以下ー种或多种信号序列、复制起点、ー种或多种选择标记基因、增强子元件、启动子、和转录终止序列。包含这些组件的一种或多种的适宜载体的构建是采用本领域已知的标准连接技木。表达和克隆载体均包含核酸序列，其使得载体可以在ー种或多种所选宿主細胞中进行复制。对于各种细菌、酵母、和病毒，这样的序列是众所周知的。
在一种实施方式中,表达构建体存在于高拷贝数载体上。在一种实施方式中，高拷贝数载体选自那些载体，其可以以20至3000个拷贝存在于每个宿主细胞中。在一种实施方式中，高拷贝数载体包含高拷贝数复制起点(ori)，如ColEl或源自 ColEl的复制起点。例如，源自ColE-I的复制起点可以包含pUC19复制起点。适用于本发明的载体的许多高拷贝数复制起点是本领域技术人员已知的。它们包括来自PBR322和其衍生物的源自ColEl的复制起点以及其它高拷贝数复制起点，如M13FR ori或pl5 A ori。2μ质粒起点适用于酵母，以及各种病毒起点(SV40、多瘤、腺病毒、VSV 或BPV)可用于在哺乳动物细胞中克隆载体。优选地，高拷贝数复制起点包括源自ColEl的pUC19复制起点。表达和克隆载体将通常包含选择基因，还称作选择标记，以检测在转化宿主细胞中载体的存在。典型的选择基因编码蛋白质，其(a)赋予对抗生素或其它毒素的抗性，例如，氨节青霉素、新霉素、氨甲喋呤、或四环素，(b)补充自营不足(auxotrophic deficiency),或(c)供给不可获自复合介质的关键营养成分,例如,用于杆菌的编码D-丙氨酸消旋酶的基因。通常用于植物转化的选择标记包括新霉素磷酸转移酶II基因(NPTII)，其赋予卡那霉素抗性，aadA基因，其赋予壮观霉素和链霉素抗性，用于Ignite(AgrEvo)和 Basta(Hoechst)抗性的草胺膦乙酰转移酶(bar基因)，以及用于潮霉素抗性的潮霉素磷酸转移酶基因(hpt)。用于哺乳动物细胞的适宜的选择标记的实例是那些选择标记，其能够鉴定有能力吸收表达构建体的细胞，如DHFR或胸苷激酶。当采用野生型DHFR时，适当的宿主细胞是缺乏DHFR活性的CHO细胞系，其是如由UrIaub et al.，1980所描述的加以制备和繁殖。用于酵母菌的适宜的选择基因是存在于酵母质粒YRp7中的trpl基因(Stinchcomb et al., 1979 ；Kingsman et al. , 1979 ；Tschemper et al. , 1980)。Trpl 基因为缺乏在色氛酸中生长能力的酵母的突变株提供选择标记，例如，ATCC No. 44076或PEP4-1[Jones，Genetics, 85 :12(1977)]。可用于形成融合多肽的表达构建体优选包括启动子，其控制编码DNA连接酶、 DNA-结合多肽或融合多肽的至少一种核酸的表达。由各种潜在宿主细胞识别的启动子是众所周知的。适合于和原核生物宿主一起使用的启动子包括β -内酰胺酶和乳糖启动子体系[Chang et al. , 1978 ；Goeddel et al., 1979),碱性磷酸酶，一种色氨酸(trp)启动子体系[Goeddel, Nucleic Acids Res·,8: 4057(1980) ；EP 36，776]，和杂合启动子如 tac 启动子[deBoer et al.，1983)。用于细菌系统的启动子还将包含可操作地连接于核酸的Shine-Dalgarno (S. D.)序列，其中上述核酸编码DNA连接酶、DNA连接酶多肽或融合多肽。和酵母宿主一起使用的适宜启动序列的实例包括这样的启动子，其用于3-磷酸甘油酸酯激酶[Hitzeman et al. , 1980)或其它糖酵解酶[Hess et al. , 1968 ；Holland, 1978)，如烯醇化酶、甘油醛-3-磷酸脱氢酶、己糖激酶、丙酮酸脱羧酶、果糖磷酸激酶、葡萄糖-6-磷酸异构酶、3-磷酸甘油酸变位酶、丙酮酸激酶、磷酸丙糖异构酶、磷酸葡糖异构酶、和葡糖激酶。
其它酵母菌启动子(其是具有由生长条件调控转录的另外优点的诱导型启动子) 是启动区，其用于醇脱氢酶2、异细胞色素C、酸性磷酸酶、与氮代谢有关的降解酶、金属硫蛋白、甘油醛-3-磷酸脱氢酶、和负责麦芽糖和半乳糖利用的酶。用于植物宿主细胞(包括单子叶植物或双子叶植物的组织或器官)的适宜启动子的实例包括细胞特异性启动子、组织特异性启动子、和器官特异性启动子、细胞周期特异性启动子、时间启动子、诱导型启动子、组成型启动子(其在大多数植物组织中具有活性)、以及重组启动子。启动子的选择将取决于克隆多核苷酸的时空表达(需要的话)。启动子可以是那些来自宿主细胞的启动子，或源自其它植物、病毒、以及植物病原细菌和真菌的基因的启动子。在没有过度实验的条件下，本领域技术人员将能够选择启动子，其适用于改进和调节表达构建体，其中利用包含本发明的多核苷酸序列的基因构建体。组成型植物启动子的实例包括CaMV 35S启动子、胭脂碱(nopaline)合酶启动子和章鱼碱(octopine)合酶启动子、以及来自玉米的W^i 1启动子。在科学文献中描述了在特定组织中具有活性并回应内部发育信号或外部非生物或生物应力的植物启动子。示例的启动子描述于，例如，WO 02/00894，其以引用方式结合于本文。用于昆虫宿主细胞的适宜启动子的实例包括那些获自病毒如杆状病毒的基因组的启动子。市售杆状病毒表达系统包括fIashBAC(Oxford Expression Technologies)和 Bac-to-Bac 病毒^达系统(Invitrogen)。用于哺乳动物宿主细胞的适宜启动子的实例包括那些获自病毒的基因组的启动子，如多瘤病毒、鸡痘病毒(fowlpox virus)、腺病毒(如腺病毒幻、牛乳头瘤病毒、禽肉瘤病毒、巨细胞病毒、逆转录病毒、乙型肝炎病毒和猿猴病毒40 (SV40)，来自异种哺乳动物启动子的启动子，例如，肌动蛋白启动子或免疫球蛋白启动子，以及来自热激启动子的启动子，只要这样的启动子相容于宿主细胞系统。可以通过将增强子序列插入载体来增加高等真核生物的表达构建体的转录。增强子是DNA的顺式作用元件，通常约10至300bp，其作用于启动子以增加它的转录。现已知许多增强子序列来自哺乳动物基因(珠蛋白、弹性蛋白酶、白蛋白、α-胎儿蛋白、和胰岛素)。然而，通常，将使用来自真核细胞病毒的增强子。实例包括在复制起点的后侧上的SV40增强子(bp 100-270)、巨细胞病毒早期启动子增强子、在复制起点的后侧上的多瘤增强子、和腺病毒增强子。可以在DNA连接酶、DNA连接酶多肽或融合多肽编码序列的位置5'或3' 处，但优选位于来自启动子的位点5'处，将增强子剪接进入载体。用于真核宿主细胞(酵母细胞、真菌细胞、昆虫细胞、植物细胞、动物细胞、人细胞、或来自其它多细胞生物的有核细胞)的表达载体还将包含为终止转录和为稳定mRNA所必要的序列。这样的序列通常可获自真核或病毒DNA或cDNA的5'以及偶尔3'非翻译区。这些区包含核苷酸区段，其被转录为在编码DNA连接酶、DNA连接酶多肽或融合多肽的mRNA 的非翻译部分中的多聚腺苷化片段。在一种实施方式中，表达构建体包含上游诱导型启动子，如BAD启动子，其是通过阿拉伯糖加以诱导。在一种实施方式中，表达构建体包含组成型或可调控启动子体系。在一种实施方式中，可调控启动子体系是诱导型或阻抑型启动子体系。虽然在重组蛋白的生产中经常需要使用强启动子，但这些启动子的调节通常是必要的，这是因为异种蛋白质的组成型超量生产(overproduction)会导致生长速率、质粒稳定性和培养生存力的降低。通过阻遏物蛋白和操作子(operator)(在启动子下游的ー个区)的相互作用来调节许多启动子。最为人知的操作子是那些来自Iac操纵子和来自噬菌体λ的操作子。在大肠杆菌中调节启动子的概述提供在Friehs & Reardon，1991的表1中。在标准细菌培养和那些涉及重组大肠杆菌的細菌培养之间的主要差別是生长和生产或诱导期的分开。重组蛋白质生产经常利用调节启动子以实现在生长期(其时启动子被关闭以及宿主細胞的代谢负担是轻微的)的高細胞密度以及在诱导期(在诱导以开启启动子以后)的异种蛋白质生产的高速率。在一种实施方式中，可调控启动子体系选自Lacl Jrp、噬菌体λ和噬菌体RNA聚合酶。在一种实施方式中，启动子体系选自Iac或Ptac启动子和Iacl阻遏物、或trp启动子和iTrpR阻遏物。在一种实施方式中，通过添加异丙基-B-D-硫代吡喃半乳糖苷(IPTG)来灭活Lacl 阻遏物，其中上述异丙基-B-D-硫代吡喃半乳糖苷结合于活性阻遏物，以引起与操作子的解离，从而允许表达。在一种实施方式中，trp启动子体系使用具有限定色氨酸浓度的合成培养基，以致当浓度低于阈值水平时体系变成可自诱导的。在一种实施方式中，添加3-β -吲哚-丙烯酸以灭活iTrpR阻遏物。在一种实施方式中，启动子体系可以使用噬菌体λ阻遏物Cl。这种阻遏物利用 λ原噬菌体，并通过与称作OL和OR的两种操作子的相互作用来防止所有裂解基因(lytic gene)的表达。这些操作子分别与两种强启动子PL和冊重叠。在有cl阻遏物存在的条件下，可以防止RNA聚合酶的结合。可以通过紫外线照射或用丝裂霉素C处理细胞来灭活cl阻遏物。ー种更方便的允许表达重组多肽的方式是使用cl阻遏物cI857的温度敏感形式(version)。携帯基于λ的表达系统的宿主細胞可以在低温下生长到中期指数期 (mid-exponential phase)，然后转移到高温以诱导重组多肽的表达。一种广泛使用的表达系统利用噬菌体T7 RNA聚合酶，其仅识别在T7 DNA发现的启动子，而不识别存在于宿主細胞染色体上的启动子。因而，表达构建体可以包含T7启动子的ー种(通过存在于基因10的前面的启动子)，重组基因将与其融合。编码T7 RNA聚合酶的基因存在于表达构建体上、存在于第二相容表达构建体上、或被整合到宿主細胞染色体。在所有三种情况下，将基因融合于诱导型启动子，从而在表达期允许它的转录和翻译。大肠杆菌菌株BL21 (DE3)和 BL21 (DE3) pLysS (Invitrogen, CA)是携带 T7 RNA 聚合酶基因的宿主細胞的实例。携帯T7RNA聚合酶基因的其它细胞系在本领域中是已知的，如绿脓杆菌O3SeudomonaS aeruginosa) ADD 1976，其携带整合到基因组的T7RNA聚合酶基因(Brunschwig & Darzins,1992)。适用于本发明的另ー种启动子体系是本文例举的T5启动子体系。通常，这种启动子由宿主大肠杆菌RNA聚合酶来识别。本文在实施例中描述了适宜的大肠杆菌宿主菌株。在一种实施方式中，启动子体系利用启动子如API或APR，其可以被诱导或"开启 (switched on)“以通过温度变动来起始诱导周期，如通过将温度从约30_37°C升高至42°C以起始诱导周期。优选的融合多肽包含至少一种DNA连接酶和至少一种DNA-结合多肽。编码用于本文的融合多肽的核酸序列包含编码多核苷酸-连接酶多肽(如DNA连接酶)的至少一种核酸和编码多核苷酸-结合多肽(如DNA-结合多肽)的至少一种核酸。在表达以后，融合多肽能够形成磷酸二酯键或促进磷酸二酯键的形成。在一种实施方式中，通过具有所期望长度的多核苷酸接头或间隔子序列，将编码至少DNA连接酶的核酸序列间接融合于编码DNA-结合多肽的核酸序列。在一种实施方式中，包含至少一个DNA-结合多肽的融合多肽的氨基酸序列邻接于包含DNA连接酶多肽的氨基酸序列的N端。在一种实施方式中，包含至少一个DNA-结合多肽的融合多肽的氨基酸序列邻接于包含DNA连接酶的氨基酸序列的C端。在一种实施方式中，通过具有所期望长度的肽接头或间隔子，例如有利于包含融合多肽的多肽独立折叠的接头或间隔子，将包含至少一个DNA-结合多肽的融合蛋白的氨基酸序列间接融合于包含DNA连接酶多肽的氨基酸序列的N端。在一种实施方式中，通过具有所期望长度的肽接头或间隔子，例如促进融合多肽的独立折叠的接头或间隔子，将包含至少一个DNA-结合多肽的融合蛋白的氨基酸序列间接融合于包含DNA连接酶多肽的氨基酸序列的C端。根据本发明的优选融合多肽的一个优点在于，包含融合多肽的多肽修饰并不影响它们的功能。例如，如果将重组多肽融合于其N端或C端，则会保留本文描述的典型的DNA 连接酶的功能。应当明了，在融合多肽中蛋白质的排列可以取决于在包含在质粒中的核酸中基因序列的次序。例如，可以期望产生这样的融合多肽，其中多核苷酸-结合多肽，如DNA-结合多肽，间接融合于多核苷酸连接酶。术语"间接融合"是指融合多肽，该融合多肽包含多核苷酸连接酶多肽和多核苷酸-结合多肽，其通过另外的蛋白质分开，其中上述另外的蛋白质可以是期望表达在融合多肽中的任何蛋白质。在一种实施方式中，另外的蛋白质选自DNA连接酶多肽、DNA-结合多肽、辅因子或辅酶、或融合多肽、或接头或间隔子，以促进融合多肽的独立折叠(如上所述)。在此实施方式中，必须安排在表达构建体中基因的序列以反映融合多肽的所期望的排列。在一种实施方式中，可以将多核苷酸-结合多肽，如DNA-结合多肽，直接融合于多核苷酸-连接酶多肽，如DNA连接酶。术语"直接融合"在本文中用来指这样的情况，其中经由肽键来连接两个或更多肽。还可以形成组合物，其中组合物包括至少两种不同的融合多肽。例如，第一融合多肽可以包含融合于DNA连接酶的单链DNA-结合多肽，而第二融合多肽可以包含融合于DNA 连接酶的双链DNA-结合多肽。本文描述的融合多肽的任何组合是可能的，并且可以加以生产，以针对特定应用。确实，融合多肽的一种或多种可以显示相对于具有平端DNA末端的 DNA片段、或相对于粘端DNA末端的改善的连接活性。类似地，融合多肽的一种或多种可以显示对于RNA片段、或RNA-DNA杂交体的改善的连接活性。可以单独或联合使用这样的融合多肽，例如以针对特定应用。在一种实施方式中，体内表达该表达构建体。优选地，表达构建体是质粒，其被表达在微生物中，优选大肠杆菌中。在一种实施方式中，体外表达该表达构建体。优选地，利用无细胞表达系统来体外表达该表达构建体。在一种实施方式中，可以将ー种或多种基因插入单表达构建体，或可以将ー种或多种基因整合到宿主細胞基因組。在所有情况下，可以通过如上所述的启动子来控制表达。在一种实施方式中，表达构建体进ー步编码至少ー种另外的多肽，可选地融合多肽，其包含多核苷酸-结合多肽(如DNA-结合多肽)和多核苷酸-连接酶多肽(如DNA连接酶多肽)(如上所述)。在各种实施方式中，表达构建体包括ー种或多种多肽标记(tag)以促进本发明的表达多肽的纯化。上述标记的实例在本领域中是众所周知的，并且包括多聚组氨酸标记、 FLAG表位、c-myc表位等。纯化携带上述纯化助剂(purification aid)的多肽的方法在本领域中也是众所周知的，并且包括层析法，例如在多聚组氨酸标记的情况下固定金属亲和层析法，其包括依赖于镍或钴结合。用于从表达蛋白除去上述纯化助剂的方法在本领域中也是众所周知的。例如，可以通过内肽酶识别序列、内含肽剪接位点、或任何其它氨基酸序列(其有利于利用内肽酶来除去多聚组氨酸标记)，来从感兴趣的多肽分离标记或表位。对于末端标记多肽，可以方便地使用外肽酶，例如，如TAGZyme (Qiagen)的外肽酶可以用来从表达多肽除去N端多聚组氨酸标记。5.宿主细胞利用如本文描述的ー种或多种表达构建体，在宿主細胞中方便地产生本发明的融合多肽。可以通过使宿主細胞能够表达该表达构建体来产生本发明的融合多肽。这可以通过首先将表达构建体引入宿主細胞或宿主細胞的祖细胞来实现，例如通过用表达构建体来转化或转染宿主細胞或宿主細胞的祖細胞，或通过其它方式来确保表达构建体存在于宿主細胞中。在转化以后，将转化宿主細胞保持在适合于从表达构建体表达融合多肽和适合于形成融合多肽的条件下。上述条件包括那些适合于在适宜生物体(如在本领域中已知的) 中表达所选表达构建体(如质粒)的条件。例如，并且尤其当期望高产率或过表达吋，适宜培养基的提供便于融合多肽的合成。因此，本发明提供了用于产生融合多肽的方法，该方法包括提供宿主細胞，该宿主細胞包含至少ー种表达构建体，该表达构建体包含
至少ー种核酸序列，其编码多核苷酸-连接酶多肽，如DNA连接酶多肽；以及至少ー种核酸序列，其编码多核苷酸-结合多肽，如DNA-结合多肽；将宿主細胞保持在适合表达该表达构建体的条件下；以及从宿主分离融合多肽。优选地，宿主細胞是细菌細胞、真菌細胞、酵母細胞、植物細胞、昆虫細胞或动物细胞，优选分离或非人宿主細胞。可用于在本领域中众所周知的用于生产重组融合多肽的方法(例如，Sambrook et al.，1987 ；Ausubelet al.，1987)的宿主细胞经常适用于本发明的方法，同时牢记本文讨论的考虑因素。适宜的原核生物宿主細胞包括真細菌，如革兰氏阴性生物体或革兰氏阳性生物体，例如，肠杆菌科(Enterobacteriaceae)如大肠杆菌。各种大肠杆菌菌株是可公开获得的，如大肠杆菌K12菌株MM294 (ATCC31, 446)、大肠杆菌X1776 (ATCC 31，537)、大肠杆菌菌株 W3110(ATCC27，325)和 K5 772 (ATCC 53，635)、以及 DH5 α-E Qnvitrogen)。其它适宜的原核生物宿主细胞包括其它肠杆菌科如埃希氏菌属(Escherichia spp.)、肠杆菌属(Enterobacter)、欧文氏菌属(Erwinia)、克雷伯氏菌属(Klebsiella)、变形菌属(ftOteus)、沙门氏菌属(Salmonella)如鼠伤寒沙门氏菌(Salmonella typhimurium)、沙雷氏菌属(Serratia)如粘质沙雷氏菌(Serratia marcescans)、禾口志贺氏菌属(Shigella)、以及杆菌(Bacilli)如枯草杆菌(B. subtilis)和地衣芽孢杆菌 (B. Iicheniformis)、假单胞菌属(Pseudomonas)如绿脓杆菌(P. aeruginosa)、以及放线菌属(Actinomycetes)如链霉菌属(Str印tomyces)、红球菌属(Rhodococcus)、棒状杆菌属 (Corynebacterium)禾口分枝杆菌属(Mycobacterium)。在一些实施方式中，可以使用大肠杆菌菌株W3110，这是因为它是用于重组DNA产物发酵的常见的宿主菌株。优选地，宿主细胞分泌最少量的蛋白水解酶。例如，可以修饰菌株W3110以在编码宿主的内源性蛋白的基因中进行基因突变，其中这样的宿主的实例包括大肠杆菌W3110菌株1A2，其具有完全基因型tonA ；大肠杆菌W3110菌株9E4，其具有完全基因型tonA ptr3 ；大肠杆菌W3110菌株27C7(ATCC 55，244)，其具有完全基因型tonA ptr3 phoA E15 (argF-lac) 169 degP ompT kanr ；大肠杆菌 W3110 菌株 37D6，其具有完全基因型 tonA ptr3 phoA E15 (argF-lac) 169degP ompT rbs7 ilvG kanr ；大肠杆菌 W3110 菌株40B4，其是具有耐非卡那霉素的degP缺失突变的菌株37D6。在一些实施方式中，可以优选使用并不产生或产生低水平脂多糖内毒素的细菌宿主。可以使用，例如，乳酸乳球菌(Lactococcus lactis)菌株，包括乳酸乳球菌菌株MG1363 和乳酸乳球菌乳脂亚种(Lactococcus lactissubspecies crem oris)NZ9000o除原核生物以外，真核微生物如丝状真菌或酵母是用于本发明的方法的适宜的克隆或表达宿主。酿酒酵母(Saccharomyces cerevisiae)是通常使用的真核宿主微生物。其它真核宿主微生物包括裂殖酵母(Schizosaccharomyces pombe) (Beach and Nurse, 1981 ；EP 139，383)、克鲁维酵母菌属(Kluyveromyces)宿主(美国专利号4，943，529 ； Fleer et al.，1991)如，例如，乳酸克鲁维酵母(K. lactis) (MW98-8C, CBS683, CBS4574 ； Louvencourt et al.，1983)、脆壁克鲁维酵母(K. fragilis) (ATCC 12，424)、保加利亚克鲁维酵母(K. bulgaricus) (ATCC 16，045)、威克克鲁维酵母(K. wickeramii) (ATCC 24，178)、克鲁雄酵母(K. waltii) (ATCC 56，500)、果蝇克鲁维酵母(K. drosophilarum) (ATCC 36, 906 ；Van den Berg et al，1990)、耐热克勒克酵母(K. thermotolerans)、和马克斯克鲁维酵母(K. marxianus)；耶罗威亚酵母(yarrowia) (EP 402, 226)；巴氏毕赤酵母(Pichia pastoris) (EP 183, 070 ；Sreekrishna et al.，1988)；念珠菌属(Candida)；里氏木霉(Trichoderma reesia) (EP 244，234)；粗糙脉孢菌(Neurospora crassa) (Case et al.，1979)；许旺酵母属 Gchwanniomyces)如西方许旺酵母(Schwanniomyces occidentals) (EP 394，538，公开于1990年10月31日)；丝状真菌如，例如，脉孢菌属、青霉属、弯颈霉(Tolypocladium) (WO 91/00357，公开于1991年1月10日)，以及曲霉属 (Aspergillus)宿主如构巢曲菌(A. nidulans) (Ballance et al. ，1983 ；Tilburn et al.， 1983 ；Yelton et al.，1984)和黑曲霉(A. niger) (Kelly and Hynes，1985)。甲醇营养
32型酵母(methylotropic yeast)在本文中是适宜的并且包括能够基于甲醇生长的酵母，其选自由以下构成的属汉逊酵母属(Hansenula)、念珠菌属(Candida)、克勒克酵母属 (Kloeckera)、毕赤酵母属(Pichia)、酵母属(Saccharomyces)、球拟酵母属(Torulopsis)、和红酵母属(Miodotorula)。作为此类酵母的实例的具体物种的列表可以参见Anthony， 1982。无脊椎动物宿主细胞的实例包括昆虫细胞如果蝇属(Drosophila) S2和斜纹夜蛾属(Sp0d0ptera)Sf9，以及植物细胞，如棉花、玉米、马铃薯、大豆、矮牵牛、西红柿、和烟草的细胞培养物。已鉴定了来自宿主如草地贪夜蛾(Spodoptera frugiperda)(毛虫)、埃及斑蚊(Aedes aegypti)(蚊子)、白纹伊蚊(Aedes albopictus)(蚊子)、黑腹果蝇(Drosophila melanogaster)(果蝇)、和家蚕(Bombyx mori)的许多杆状病毒株和变体以及相应的允许 (permissive)昆虫宿主细胞。用于转染的各种病毒株是可公开获得的，例如，苜蓿银纹夜蛾 (Autographa californica)NPV的L-I变体和家蚕NPV的Bm_5株，并且这样的病毒可以在本文中用作根据本发明的病毒，特别用于草地贪夜蛾细胞的转染。有用的哺乳动物宿主细胞系的实例是通过SV40(C0S_7，ATCC CRL1651)转化的猴肾CVl系；人胚胎肾脏系093或293细胞，亚克隆的，用于生长在悬浮培养物中，Graham et al. , J. Gen Virol. 36 :59(1977))；幼仓鼠肾细胞(BHK, ATCC CCL 10)；中国仓鼠卵巢细 Ifi/-DHFR(CHO, Urlaub et al.，1980)；小鼠睾丸支持细胞(TM4，Mather, 1980)；猴肾细胞 (CVIATCC CCL 70)；非洲绿猴肾细胞(African green monkey kidney cells) (VERO-76, ATCC CRL-1587)；人宫颈癌细胞(HELA, ATCC CCL 2)；犬肾细胞(MDCK, ATCC CCL 34)；布法罗大鼠肝细胞(buffalo rat liver cells) (BRL 3A, ATCC CRL 1442)；人肺细胞(W138, ATCC CCL 75)；人肝细胞(Hep G2，HB 8065)；小鼠乳腺肿瘤(MMT 060562，ATCCCCL51) ；TRI 细胞(Mather et al.，1982) ；MRC 5细胞；FS4细胞；和人肝细胞癌系(Hep G2)。当例如DNA-结合多肽或DNA连接酶多肽需要一种或多种翻译后修饰，如糖基化时，则真核细胞系、以及尤其是哺乳动物细胞系将是优选的。例如，一种或多种DNA-结合多肽可以需要翻译后修饰以具有最佳活性，因而可以有利地表达在能够(进行)上述翻译后修饰的表达宿主中。在一种实施方式中，宿主细胞是具有氧化细胞液(oxidising cytosol)的细胞，例如大肠杆菌Origami菌株(Novagen)。在另一种实施方式中，宿主细胞是具有还原细胞液的细胞，优选大肠杆菌。还可以体外形成融合多肽。优选地，使用无细胞表达系统。许多无细胞翻译系统可商业上获得，并且适用于本发明的融合多肽的生产，同时牢记本文讨论的考虑因素。可以利用离心、过滤或亲和层析法，包括固定金属亲和纯化(在适当情况下)，从裂解细胞纯化融合多肽。将明了，可以通过控制其中产生融合多肽的条件来影响或控制融合多肽的表达特性。这可以包括，例如，其中维持宿主细胞的条件，例如温度，底物的存在等。在本发明的一些实施方式中，期望在宿主细胞中实现表达构建体的过表达。过表达特定表达构建体的机制在本领域中是众所周知的，并且将取决于构建体本身、它待表达在其中的宿主、和其它因素，其包括所期望或所需要的过表达的程度。例如，可以通过下述方式来实现过表达i)使用强启动子体系，例如在原核生物宿主中的T5启动子体系或T7RNA聚合酶启动子体系；ii)使用高拷贝数质粒，例如包含colEl复制起点的质粒；iii) 稳定信使RNA，例如通过使用融合序列；或iv)优化翻译，通过，例如，优化密码子使用、核糖体结合位点、或终止位点等。过表达的益处可以允许生产更高产率的融合多肽。6.本发明的融合多肽的应用本发明提供了融合多肽，该融合多肽呈现一种或多种改善的活性，包括在结合于核酸或在催化磷酸二酯键形成中的改善的效率，或呈现一种或多种改善的特性，如改善的稳定性，对变性、降解或灭活的改善的抗性，或呈现改善的活性和改善的特性。因此，本发明的融合多肽可用于其中期望或需要磷酸二酯键形成的任何应用。可以提出的本发明的融合多肽的应用的典型的、非限制性的实例包括以下应用。克隆克隆是当复制和/或重组核酸序列，例如，以产生能够支持重组蛋白的生产、或便于DNA测序等的表达载体时，由分子生物学家采用的用于一系列技术的本领域认可的术语。克隆用于广泛的应用领域基因鉴定、蛋白质表征、基因指纹分析、直至大规模蛋白质生产。存在各种各样的专门载体(可以将感兴趣的核酸片段克隆到其中)，其便于蛋白表达、标记、单链RNA和DNA生产以及许多其它操作。任何DNA片段的克隆基本上涉及四个步骤 1)片段化一DNA的链或双链体的断裂；幻连接一将DNA的碎片(pieces)连接在一起；3) 转染或转化一将新形成的DNA碎片插入宿主细胞；4)筛选或选择一选出由新形成的DNA 碎片成功转染的细胞。虽然在克隆程序中这些步骤是不变的，但可以选择若干替代途径，其被概括为‘ 克隆策略'。连接位(bit)分析连接位分析已用来确定在特定多态位点处核苷酸的同一性，如单核苷酸多态性。此分析需要两个引物，其杂交于靶，并在引物之间具有一个核苷酸缺口(间隙)。将四种核苷酸的每一种加入包含DNA聚合酶、连接酶、靶DNA和引物的分开的反应混合物。聚合酶将核苷酸加入互补于SNP的第一引物的3'端，然后连接酶将两个相邻引物连接在一起。在加热样品以后，如果已发生连接，则现在较大引物将仍然被杂交并且可以检测到信号，例如，荧光。这些方法的进一步讨论可以参见美国专利号5，919，626,5, 945，283,5, 242，794、和 5，952，174。mRNA 显示在mRNA显示中，体外转录和翻译mRNA变体的较大文库。基因变体的每一种具有共价连接于它的3'端的嘌呤霉素部分。当翻译核糖体达到mRNA模板的3'端时，嘌呤霉素部分进入核糖体的A位点并被加入待产生的多肽。结果是可以用于下游筛选和选择实验的 mRNA-多肽融合。在制备mRNA展示文库(display libraries)时的关键步骤是将mRNA模板连接于3'-嘌呤霉素寡核苷酸间隔子。在这种情况下，DNA连接酶用来将单链RNA分子连接于单链DNA间隔子，通常借助于跨越连接接头(ligationjimction)的单链DNA"夹板 (splint)"。上述方法的进一步讨论可以参见 Liu et al. (2000) ,Methods in Enzymology， 318，268-293 以及美国专利号 6，214，553 和 6，207，446。本发明还设想按照本发明使用的试剂盒的制备。适宜试剂盒包括供按照本发明使用的在适宜容器和包装材料中的各种试剂，包括管、小瓶、以及热塑塑料包(,shrinK-wrapped)禾ロ吹(blow-molded packages)。适合于包括在按照本发明的典型的试剂盒中的材料包括本发明的ー种或多种融合多肽，或本发明的一种或多种组合物，本发明的融合多肽的底物，包括例如ー种或多种阳性对照(其实例描述在本文中)、缓冲液、辅因子、和为本发明的融合多肽的有效活性所需要的其它试剂。具体设想这样的试剂盒，该试剂盒包括结合于ー种或多种固体基质的本发明的一种或多种多肽或組合物，如微流体装置、微型比色槽(microcuvette)、微阵列、聚合物珠、纳米或微颗粒(包括磁性颗粒)等。试剂盒还可以包含对照样品或一系列对照样品，可对其加以测定并与所包含的测试样品比较。可以将试剂盒的每种成分封装在単独容器内并且所有的各种容器可以在单个包装内，并连同用法说明，用于解释利用试剂盒进行的測定或反应的結果。本发明包括上述构成并且还设想ー些构成，下文仅给出其实施例。实施例实施例1-质粒的构建和融合多肽的生产此实施例描述了质粒的构建，其用于在大肠杆菌中生产包含T4DNA连接酶(连接酶)的融合多肽或融合于各种DNA-结合多肽的大肠杆菌连接酶(LigA)，如在以下表1中所列出的。相对于彼此的包括连接酶活性和DNA-结合活性的多肽的取向是由(一定)次序来表示，其中以融合多肽的名称来叙述多肽，例如，P50-连接酶是指ー种融合多肽，其包括融合于T4DNA连接酶多肽的N端的p50 DNA-结合多肽(可选地，经由连接多肽)，而连接酶-P50是指ー种融合多肽，其包括融合于P50DNA-结合多肽的N端的T4DNA连接酶多肽 (再次，可选地经由连接多肽)。表1 连接酶-DNA结合融合多肽
T4 DNA連接酶融合多肽大肠杆菌DNA連接酶融合多肽
T4 DNA连接酶(对照)LigA (对照)
Sso7d-连接酶P50-ligA
P50-连接酶LigA-p50
连接酶-p50
NFAT-连接酶
连接酶-NFAT
cTF-连接酶
连接酶-cTF
PprA-连接酶
连接酶-PprA
Ku-连接酶
连接酶-ku_材料和方法1.大肠杆菌菌株Dffia-E的生长大肠杆菌菌株Dffia-E (Invitrogen)用于所有实验。除以下的说明以外，在标准条件下(LB培养基，37°C温育)培育细胞。2.质粒的构建本文使用的代表性质粒和寡核苷酸列于表2中。编码人NF-κ B氨基酸40-366( S卩，p50)的DNA片段在聚合酶链反应(PCR)中扩增自质粒PRES112，并借助于寡核苷酸引物p50_Sfi.for(SEQID No. 1)和p50_连接酶.rev (SEQ ID No. 2)。编码T4DNA连接酶的DNA片段在PCR中扩增自质粒pET14b_连接酶，并借助于寡核苷酸引物P50-连接酶.for(SEQ ID No. 3)和连接__Sf i. rev (SEQ ID No. 4)。重叠装配PCR(overlap assembly PCR)(参见=Horton et al. (1989) Gene，77，61-68)，其中利用引物p50_Sfi. for(SEQ ID No. 1)和连接__Sfi. rev (SEQID No. 4)，用来将p50基因和连接酶基因剪接在一起，从而导致编码P50-连接酶融合多肽的基因。用限制酶SfiI来消化组装p50-连接酶基因并连接于表达载体pCAMN(其已用相同限制酶加以处理)，从而产生pCAMN-p50-连接酶。完全表达构建体，包括T5-lac启动子和(His)6标记(二者均为载体编码的)，列为SEQ ID No. 5，以及融合多肽的衍生氨基酸序列则在序列ID列表中表示为 SEQ ID No. 6。禾Ij用 Gene Designer 软件包(Villalobos et al. (2006), BMCBioinformatics, 7, 285)，优化来自耐辐射球菌的pprA基因，以获得在大肠杆菌中的增强表达。虽然这并不改变表达蛋白的氨基酸序列(GenBank登录号BAA21374)，但它将164个同义突变引入pprA基因的序列。通过DNA 2. O (Menlo Park, CA)来合成具有旁侧限制位点(BamHI和Spel)的优化基因，并提供在它们的克隆载体PJ204中。通过用限制酶BamHI和Spel进行消化来从 pJ204-pprA除去密码子优化pprA基因。通过用相同限制酶进行消化来从pCAMN-p50_连接酶除去P50部分(参照SEQ ID No. 5)。消化pprA插入子(insert)与包含pCA24N主链的连接酶的连接产生pCAMN-pprA-连接酶。完全表达构建体，包括T5_lac启动子和(His)6 标记(二者均为载体编码的)列为SEQ ID No. 7，以及融合多肽的衍生氨基酸序列则在序列 ID列表中表示为SEQ ID No. 8。禾Ij用 Gene Designer 软件包(Villalobos et al. (2006), BMCBioinformatics, 7, ，优化来自硫磺矿硫化叶菌的SS07d基因，以获得在大肠杆菌中的增强表达。虽然这并不改变表达蛋白的氨基酸序列(GenBank登录号NP_343889)，但它将47个同义突变引入PPrA基因的序列。四个密码子缺失自sso7d基因的5'端。由htegrated DNA Technologies (Coralville, ΙΑ)来合成具有旁侧限制位点(BamHI和Spel)的优化基因，并提供在它们的克隆载体PlDTSmart中。通过用限制酶BamHI和Spel进行消化来从ρIDTSmart-SS07d除去密码子优化ss07d基因。通过用相同限制酶进行消化来从 pCA24N-p50-连接酶除去p50部分(参照SEQ ID No. 5)。消化sso7d插入子与包含pCAMN 主链的连接酶的连接产生pCAMN-SS07d连接酶。包括T5-lac启动子和(His)6标记(二者均为载体编码的)的完全表达构建体列为SEQ ID No. 9，以及融合多肽的衍生氨基酸序列则在序列ID列表中表示为SEQ ID No. 10。编码人NF- κ B氨基酸40-366 (即，p50)的DNA片段在聚合酶链反应(PCR)中扩增自质粒PRES112，并借助于寡核苷酸引物连接酶-p50.for(参见表2，SEQ ID No. 11)和 p50_Sfi.rev(参见表2，SEQ ID No. 12)。编码iMDNA连接酶的DNA片段在PCR中扩增自质粒pET14b-连接酶，并借助于寡核苷酸引物连接酶_Sfi.for(参见表2，SEQ ID No. 13)和连接酶 _p50. rev (参见表 2，SEQ ID No. 14)。重叠装配 PCR (参见Horton etal. (1989) Gene，77，61-68)，其中利用引物连接酶 _Sfi. for (SEQ ID No. 13)和 p50_Sfi. rev (SEQ ID No. 12)，用来将连接酶基因和p50基因剪接在一起，从而导致编码连接酶-p50融合多肽的基因。用限制酶SfiI来消化组装连接酶-P50基因并连接于表达载体PCAMN(其已用相同限制酶加以处理)，从而产生PCAMN-连接酶-p50。包括T5-lac启动子和(His)6标记(二者均为载体编码的)的完全表达构建体被列为SEQ ID No. 15，以及融合多肽的衍生氨基酸序列则在序列ID列表中表示为SEQ ID No. 16。表2 质粒和寡核苷酸
质粒描述pRES112"质粒展示"载体(参见Patrick and Blackburn (2005), FEBS J.272, 3684-3697)，其包含人 NF-κΒ p50 的氨基酸 40-366 的基因。
权利要求
1.一种分离的、纯化的、或重组的融合多肽，包含融合于至少一种多核苷酸-结合多肽的至少一种多核苷酸-连接酶多肽。
2.根据权利要求I所述的融合多肽，其中，所述至少一种多核苷酸-连接酶多肽中的至少一种是DNA-连接酶多肽。
3.根据权利要求I所述的融合多肽，其中，所述至少一种多核苷酸-连接酶多肽中的至少一种是RNA-连接酶多肽。
4.根据权利要求I至3中任一项所述的融合多肽，其中，所述至少一种多核苷酸-结合多肽中的至少一种是DNA-结合多肽。
5.根据权利要求I至4中任一项所述的融合多肽，其中，所述至少一种多核苷酸-结合多肽中的至少一种是RNA-结合多肽。
6.根据权利要求2至5中任一项所述的融合多肽，其中，所述DNA连接酶多肽是原核 DNA连接酶、原核DNA连接酶变体、或它们的功能片段。
7.根据权利要求6所述的融合多肽，其中，所述DNA连接酶多肽是细菌DNA连接酶、细菌DNA连接酶变体、或它们的功能片段。
8.根据权利要求7所述的融合多肽，其中，所述DNA连接酶多肽是或包含大肠杆菌DNA 连接酶多肽或其功能变体或功能片段。
9.根据权利要求2至5中任一项所述的融合多肽，其中，所述DNA连接酶多肽是病毒 DNA连接酶、病毒DNA连接酶变体、或它们的功能片段，包括噬菌体DNA连接酶、其变体、或功能片段。
10.根据权利要求9所述的融合多肽，其中，所述DNA连接酶多肽是或包含T4DNA连接酶、或其功能变体或功能片段。
11.根据权利要求2至5中任一项所述的融合多肽，其中，所述DNA连接酶多肽是真核 DNA连接酶、其功能变体、或功能片段。
12.根据权利要求11所述的融合多肽，其中，所述DNA连接酶多肽是真菌DNA连接酶、哺乳动物DNA连接酶、或它们的功能变体或功能片段。
13.根据权利要求I至12中任一项所述的融合多肽，其中，所述至少一种多核苷酸-结合多肽中的至少一种是序列非特异的DNA-结合多肽。
14.根据权利要求I至12中任一项所述的融合多肽，其中，所述至少一种多核苷酸-结合多肽中的至少一种是序列特异的DNA-结合多肽。
15.根据权利要求4至14中任一项所述的融合多肽，其中，所述DNA-结合多肽选自包括染色体蛋白、组蛋白、HMf-样蛋白、和古细菌小碱性DNA-结合蛋白的组。
16.根据权利要求4至15中任一项所述的融合多肽，其中，所述DNA-结合多肽选自包括以下的组耐福射球菌(Deinococcus radiodurans)的 PprA 蛋白(GenBank 登录号 BAA21374)；哺乳动物NF-κ B蛋白，包括来自智人(Homo sapiens)的NF-κΒ蛋白(GenBank登录号NP_003989)、或其一种或多种片段，如NF-κ Bp50蛋白或包含人NF-κ B蛋白的氨基酸 40-366的片段；来自结核分枝杆菌(Mycobacterium tuberculosis)的Ku蛋白(GenBank登录号 NP_215452)；来自硫磺矿硫化叶菌(Sulfolobus solfataricus)的Sso7d蛋白(GenBank登录号 NP_343889)；来自嗜酸热硫化叶菌(Sulfolobus acidocaldarius)的Sac7d蛋白(GenBank登录号 P13123)；耐福射球菌的DdrA蛋白；哺乳动物NFATc蛋白，如来自小家鼠(Mus musculus)的NFATcl蛋白(GenBank登录号NP_058071)、或其一种或多种功能片段，包括含有来自小家鼠的NFATcl蛋白的氨基酸 403-703的片段，或其一种或多种功能变体；或它们的一种或多种同源物、功能变体或功能片段，或它们中两种或更多种的任何组合
17.根据权利要求16所述的融合多肽，其中，所述DNA-结合多肽是NFAT-Ala-p50杂合 DNA-结合蛋白(cTF)。
18.根据权利要求16或17所述的融合多肽，其中，所述DNA连接酶是T4DNA连接酶。
19.根据权利要求16或权利要求18所述的融合多肽，其中，所述DNA-结合多肽选自 PprA> Sso7d、和 p50。
20.根据权利要求19所述的融合多肽，包含T4DNA连接酶和p50。
21.根据权利要求I所述的融合多肽，包含SEQID NO :6、8、10、或16中的一种的10个或更多个邻接氨基酸。
22.根据权利要求21所述的融合多肽，其中，所述融合多肽包括来自选自于包括以下的组中的序列的至少10个邻接氨基酸SEQ ID NO. 6的氨基酸18至344 SEQ ID NO. 8的氨基酸18至300 SEQ ID NO. 10的氨基酸18至79 ;或 SEQ ID NO. 16 的氨基酸 514 至 842 ；以及来自选自于包括以下的组中的序列的至少10个邻接氨基酸 SEQ ID NO. 6的氨基酸358至843 SEQ ID NO. 8的氨基酸311至796 SEQ ID NO. 10的氨基酸90至575 ;或 SEQ ID NO. 16 的氨基酸 18 至 503。
23.根据权利要求I所述的融合多肽，如本文中参照实施例所描述的。
24.一种分离的、纯化的或重组的多核苷酸，编码如权利要求I至23中任一项所述的融合多肽。
25.一种分离的、纯化的或重组的多核苷酸，包含SEQ ID N0:5、7、9、和15中的一种的 10个或更多个邻接核苷酸。
26.根据权利要求25所述的多核苷酸，其中，所述多核苷酸包括来自选自于包括以下的组中的序列的至少10个邻接氨基酸SEQIDNO.5的核苷酸166-1146SEQIDNO.5的核苷酸166-1185SEQIDNO.7的核苷酸166-1014SEQ ID NO. 7 的核苷酸 166-1044 ；SEQ ID NO. 9 的核苷酸 166-351 ；SEQ ID NO. 9 的核苷酸 166-381 ；SEQ ID NO. 15 的核苷酸 1624-2640 ;或 SEQ ID NO. 15 的核苷酸 1654-2640 ；以及来自选自于包括以下的组的序列的至少10个邻接氨基酸SEQ ID NO. 5 的核苷酸 1147-2643 ；SEQ ID NO. 5 的核苷酸 1186-2643 ；SEQ ID NO. 7 的核苷酸 1015-2502 ；SEQ ID NO. 7 的核苷酸 1045-2502 ；SEQ ID NO. 9 的核苷酸 352-1839 ；SEQ ID NO. 9 的核苷酸 382-1839 ；SEQ ID NO. 15 的核苷酸 166-1623 ;或 SEQ ID NO. 15 的核苷酸 166-1653。
27.一种表达构建体，所述表达构建体包括至少一种编码多核苷酸-连接酶多肽的核酸序列；以及至少一种编码多核苷酸-结合多肽的核酸序列。
28.根据权利要求27所述的表达构建体，包括至少一种编码DNA-连接酶多肽的核酸序列。
29.根据权利要求27或权利要求28所述的表达构建体，包括至少一种编码DNA-结合多肽的核酸序列。
30.根据权利要求28或29所述的表达构建体，其中，所述构建体编码融合多肽，所述融合多肽包括DNA连接酶多肽和DNA-结合多肽。
31.根据权利要求29或30所述的表达构建体，其中，所述至少一种编码所述DNA连接酶多肽的核酸序列和所述至少一种编码所述DNA-结合多肽的核酸序列作为单一开放阅读框存在。
32.根据权利要求27至31中任一项所述的表达构建体，其中，所述表达构建体编码如权利要求6至23中任一项所述的融合多肽。
33.根据权利要求27至32中任一项所述的表达构建体，其中，所述表达构建体包括SEQ ID NO 5、7、9、或15中的一种的10个或更多个邻接核苷酸。
34.一种载体，包括权利要求27至33中任一项所述的表达构建体。
35.一种宿主细胞，包括权利要求27至33中任一项所述的表达构建体或权利要求34 所述的载体。
36.一种组合物，包括如权利要求I至23中任一项所述的融合蛋白、如权利要求24至 26中任一项所述的多核苷酸、如权利要求27至33中任一项所述的表达构建体、如权利要求 34所述的载体、或如权利要求35所述的宿主细胞。
37.一种用于产生融合多肽的方法，所述方法包括提供包括至少一种表达构建体的宿主细胞，所述至少一种表达构建体包括至少一种编码多核苷酸-连接酶多肽的核酸序列；以及至少一种编码多核苷酸-结合多肽的核酸序列；将所述宿主细胞保持在适合于表达所述表达构建体和适合于形成融合多肽的条件下；以及从所述宿主细胞中分离所述融合多肽。
38.根据权利要求37所述的方法，其中，所述表达构建体是根据权利要求27至33中任一项所述的表达构建体。
39.一种连接一种或多种核酸分子的方法,其中，所述方法包括使一种或多种核酸分子接触一种或多种融合多肽，其中，所述一种或多种融合多肽包括融合于至少一种多核苷酸-结合多肽的至少一种多核苷酸-连接酶多肽。
40.根据权利要求39所述的方法，其中，所述融合多肽包括融合于至少一种DNA-结合多肽的至少一种DNA连接酶多肽。
41.根据权利要求39或40所述的方法，其中，所述融合多肽包括融合于至少一种 RNA-结合多肽的至少一种RNA连接酶多肽。
42.根据权利要求39至41中任一项所述的方法，其中，所述核酸分子中的一种或多种是DNA分子。
43.根据权利要求39至41中任一项所述的方法，其中，所述一种或多种核酸分子是至少两种DNA分子。
44.根据权利要求39至43中任一项所述的方法，其中，所述核酸分子中的一种或多种是RNA分子。
45.一种催化磷酸二酯键的形成的方法，其中，所述方法包括使一种或多种核酸分子接触融合多肽，其中，所述一种或多种融合多肽包括融合于至少一种多核苷酸-结合多肽的至少一种多核苷酸-连接酶多肽。
46.根据权利要求45所述的方法，其中，所述融合多肽包括融合于至少一种DNA-结合多肽的至少一种DNA连接酶多肽。
47.根据权利要求45所述的方法，其中，所述融合多肽包括融合于至少一种RNA-结合多肽的至少一种RNA连接酶多肽。
48.根据权利要求45至47中任一项所述的方法，其中，所述磷酸二酯键是分子内键。
49.根据权利要求45至47中任一项所述的方法，其中，所述磷酸二酯键是分子间键。
50.一种试剂盒，包括以下中的一种或多种如权利要求I至23中任一项所述的融合多肽、如权利要求24至26中任一项所述的多核苷酸、如权利要求27至33中任一项所述的表达构建体、如权利要求34所述的载体、如权利要求35所述的宿主细胞、或如权利要求36 所述的组合物，可选地连同使用说明、一种或多种缓冲液、辅因子、阳性对照、阴性对照、底物、或本发明的融合多肽的活性所需的其它试剂。
全文摘要
本发明涉及融合多肽，该融合多肽包括多核苷酸结合域如DNA结合域、和连接酶域如DNA连接酶域，还涉及用于生产这种融合多肽的方法，以及该融合多肽的应用，例如在分子生物学技术范围中的应用以及在诊断、蛋白质生产、制药、营养品和医疗领域中的应用。
文档编号C12N15/10GK102597006SQ201080045878
公开日2012年7月18日申请日期2010年9月16日优先权日2009年9月16日
发明者罗伯特·亨利·威尔逊, 韦恩·迈克尔·帕特里克申请人:梅西大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韦恩·迈克尔·帕特里克;罗伯特·亨利·威尔逊
技术所有人：梅西大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.食品功能因子基因工程菌种的构建、智能高通量进化筛选 2.发酵工艺优化
2、马老师：1.酶工程与生物催化 2.酿造技术与风味分析 3.生物质资源综合利用
3、林老师：1.酿造微生物育种及关键酿造工艺开发 2. 真菌基因功能及调控网络解析 3.精细化学品、蛋白真菌细胞底盘开发
4、张老师：1.发酵食品安全：危害物相关基因的筛选，危害物产生菌的快速检测，危害物的预警和发酵过程控制 2.真菌次级代谢与调控 3.酿造酒相关研究
5、郭老师：1.现代酿造技术与食品安全 2. 酵母生物学 3.生物基化学品与合成生物学
如您是高校老师，可以点此联系我们加入专家库。