构建融合文库的方法和组合物及该文库的用途的制作方法

文档序号:565782阅读:386来源:国知局

专利名称::构建融合文库的方法和组合物及该文库的用途的制作方法
技术领域
:本发明涉及编码NAM酶融合蛋白质的基因文库和识别目的核酸的使用方法。
背景技术
:DNA技术和生物信息学的改进使科学界能够获得一些微生物的天然基因组序列,同时高等真核生物和哺乳动物的基因组序列也接近完成。各种生物体DNA序列的迅速积累表现出巨大的潜在科学和商业机会。但是,在许多情况下,获得的天然序列不能翻译成它们所编码的生物、制药或工业方面有用的信息。因此,本领域需要有效地、系统地和尽可能地揭示天然和合成的DNA序列的功能和作用。揭示给定DNA序列潜在功能的几种普通方法已有报道。一种方法是依靠生物信息学工具,这也是发现基因和靶目标的基本方法。生物信息学软件可从几个专门从事将序列数据组织录入计算机数据库的公司获得。研究者能够将未定性的核酸序列与数据库中已知基因的序列相比较,由此就能提出关于核酸序列编码的基因产物的功能的理论。但是,生物信息学软件很昂贵,通常需要为有效使用而进行大量的训练,且仅能使研究者推测一个编码的基因产物的可能功能。此外,越来越多的DNA序列经过鉴定发现与已知功能的基因之间没有序列上的联系,而且对于许多所谓“已知”的基因也发现了许多新的特性。因此,生物信息学只提供了有限的信息,必须谨慎使用。所有信息学预测的特性需要实验证实。另一个关联序列数据与功能的方法是对单个基因功能进行试验性的检测。在以前描述的方法中,核酸序列采用许多表达构建物的任何一种来表达以获得一个编码的肽,然后经过检测来鉴定具有所需特性的肽。许多以前描述的方法中固有的难点是将目标特性与其编码核酸序列联系起来。换句话来说,当将大量的核酸和肽序列及其探明的编码功能集中在一起时,就越来越难鉴定和分离具有所需功能的编码序列。通过将表达的肽和编码它的遗传物质连接起来缓解了与处理大量核酸序列集,如基因文库相关的主要难题。一个将肽与其编码核酸联系起来的方法是使用多核糖体显现。多核糖体显现方法主要包括在体外翻译RNA,并将新生蛋白复合到其相应的RNA上。复合体是通过控制编码序列来构建的,这样核糖体就不会释放新生蛋白或RNA。通过回收目标蛋白,研究者可以获得相应的RNA,因此经已知的方法如逆转录酶结合PCR将RNA转变成DNA后,就可以获得编码的DNA序列。然而,多核糖体显现的方法只能在体外进行,操作困难,且需要无核酶的环境。由于体外翻译机制的起始蛋氨酸密码子替换和较少完整进程的性-质,这种方法不适用于大的蛋白。另外,RNA-蛋白-核糖体复合体是不稳定的,因此限制了适合多核糖体显现复合体所用的筛选方法和工具。另一个采用基因文库连接蛋白和编码核酸分子的常用方法涉及在细胞、病毒、噬菌体和酵母的外表面上显现蛋白。例如通过将变异蛋白表达为病毒包被蛋白的一个成分,蛋白自然与其在病毒颗粒或细胞宿主内的编码DNA相连接,这可以容易地进行分离。然后纯化和分析该DNA。其他在基因文库构建物内连接蛋白和DNA分子的系统也有描述,如国际专利申请WO93/08278,WO98/37186,和WO99/11785。然而,这些方法具有一些不是最需要的特性。首先,表达的蛋白和相应的cDNA是非共价结合的。得到的复合体不稳定或不适合许多筛选步骤。其次,设计的显现系统局限于体外或原核异种表达系统,它们不能提供研究真核肽所必须的蛋白修饰或折叠机制。不正确折叠或修饰的蛋白经常缺乏所需蛋白的天然功能,且通常非常不稳定。第三,如果在一个生物微粒的表面显现,表达的蛋白经常要经历显现系统固有的不需要的生物选择。例如,在细菌性病毒,如噬菌体上显现蛋白时,表达的蛋白将组合为细菌病毒包被蛋白的一部分,并在细菌病毒的表面上显现。细菌病毒结合的变异蛋白与周围环境的相互作用以及蛋白整合细菌病毒被膜,可损害变异蛋白的构型和活性。而且,即使蛋白整合到细菌病毒的衣壳中,显现的蛋白也可能不具有活性所需的正确的几何或化学计量形式。第四,使用生物微粒构建大型表面显现文库需要大量的时间,且研究者必须小心以确保生物微粒,如病毒或噬菌体,保持存活。第五,已知不同的宿主在进行蛋白翻译时,具有不同的密码子选择倾向。例如,在原核系统,用于细菌病毒显现的表达系统中,至少有五个通常可在哺乳动物细胞中识别的密码子在蛋白翻译过程中不容易被细菌所识别。因此具有这些密码子的哺乳动物序列在细菌中不能被翻译或翻译效率非常低,引起明显的阴性筛选结果。鉴于以上的观点,在本领域仍然需要一个基因文库和使用的方法,该文库可使一个变异或未知肽很容易地与其编码序列相联系。本发明就提供了这样的文库和方法。另外,本发明可在天然细胞环境中鉴定相关的蛋白,这是采用真核系统的一个明显的优势。从此处提供的发明描述中,本发明的这些和其他优势,以及附加的发明特性是显而易见的。发明概述根据在本文概括的目的,本发明提供了融合核酸的文库,每个融合核酸包含编码核酸修饰(NAM)酶的核酸,和编码候选蛋白的核酸。候选蛋白中至少有两个是不同的。在一个优选的实施方案中,NAM酶是一个Rep蛋白。同样,优选的实施方案采用了融合核酸,该融合核酸由编码表现结构的核酸、编码标记物的核酸或编码靶向序列的核酸组成。在另外一个实施方案中,本发明提供了融合多肽文库,每个融合多肽包括NAM酶和候选蛋白,其中候选蛋白中至少有两个是不同的。在一个优选的实施方案中,NAM酶是一个Rep蛋白。同样地,优选的实施方案采用融合多肽,该融合多肽由表现结构,标记物或靶向序列组成。在另一个实施方案中,发明提供了表达载体的文库,每一个表达载体包括一段融合核酸,该融合核酸由编码NAM酶的核酸、编码候选蛋白的核酸和可被NAM酶识别的酶附着序列(EAS)。候选蛋白中至少有两个是不同的。在一个优选的实施方案中,NAM酶是一个Rep蛋白。同样地,优选的实施方案采用融合核酸,该融合核酸由编码表现结构的核酸、编码标记物的核酸或编码靶向序列的核酸组成。一个优选的实施方案也采用包含至少20个核苷酸的EASs。在一个另外的实施方案中,本发明提供了核酸/蛋白(NAP)结合物的文库,每个结合物含有包括NAM酶和候选蛋白的融合多肽。NAP结合物也包括一个表达载体,该载体包括一段融合核酸和一段可被NAM酶识别的酶附着序列(EAS),融合核酸包括含有编码NAM酶的核酸和编码候选蛋白的核酸的融合核酸。EAS和NAM酶是共价结合的。候选蛋白中至少有两个是不同的。在一个优选的实施方案中,NAM酶是一个Rep蛋白。同样地,优选的实施方案采用融合核酸,该融合核酸包括编码表现结构的核酸、编码标记物的核酸或编码靶向序列的核酸。一个优选的实施方案也采用包含至少20个核苷酸的EASs。本发明还进一步提供了含有本发明组成成分的宿主细胞。在另外一个方面,本发明提供了真核宿主细胞文库,每个文库包含一个表达载体,该载体含有一段融合核酸和一个可被NAM酶识别的酶附着序列(EAS),所述的融合核酸包括编码NAM酶的核酸和编码候选蛋白的核酸。候选蛋白中至少有两个是不同的。在一个优选的实施方案中,NAM酶是一个Rep蛋白。同样地,优选的实施方案采用融合核酸,该融合核酸包括编码表现结构的核酸、编码标记物的核酸或编码靶向序列的核酸。一个优选的实施方案也采用包含至少20个核苷酸的EASs。在另一个方面,本发明提供了真核宿主细胞文库,每个文库包含一个核酸/蛋白(NAP)结合物。每个NAP包括含有NAM酶和候选蛋白的融合多肽。NAP结合物也包括一个表达载体,该表达载体包括融合核酸和可被NAM酶识别的酶附着序列(EAS),所述的融合核酸包括含有编码NAM酶的核酸和编码候选蛋白的核酸的融合核酸。EAS和NAM酶是共价结合的。候选蛋白中至少有两个是不同的。在一个优选的实施方案中,NAM酶是Rep蛋白。同样地,优选的实施方案采用融合核酸,该融合核酸包括编码表现结构的核酸、编码标记物的核酸或编码靶向序列的核酸。一个优选的实施方案也采用包含至少20个核苷酸的EASs。在另外一个方面,本发明提供了筛选方法,它包括将一个NAP结合物文库加入到至少一个靶分子上,并确定NAP结合物与靶目标的结合。在再一个方面,本发明提供了筛选方法,它包括提供一个由至少一个NAP结合物组成的宿主真核细胞文库,并筛选改变了表现型的宿主细胞。在另外一个方面,本发明提供了筛选方法,它包括提供一个含有至少一个表达载体的真核宿主细胞文库,并筛选改变了表现型的宿主细胞。本发明进一步提供了筛选方法,它包括在产生一个融合多肽的条件下提供一个包括至少一个表达载体的真核宿主细胞文库,其中候选蛋白至少有两个是不同的。该方法进一步包括溶解细胞,其中所述的EAS和NAM酶以共价键结合形成一个NAP结合物。加入一个靶分子并测定靶分子与NAP结合物的结合。图1描述了从腺伴随病毒2中分离的Rep78的核苷酸序列。图2描述了从腺伴随病毒2中分离的Rep78的氨基酸序列。图3描述了从腺伴随病毒2中分离的主包被蛋白A的核苷酸序列。图4描述了从腺伴随病毒2中分离的主包被蛋白A的氨基酸序列。图5描述了从腺伴随病毒4中分离的Rep蛋白的核苷酸序列。图6描述了从腺伴随病毒4中分离的Rep蛋白的氨基酸序列。图7描述了从腺伴随病毒3B中分离的Rep78的核苷酸序列。图8描述了从腺伴随病毒3B中分离的Rep78的氨基酸序列。图9描述了从腺伴随病毒3中分离的非结构蛋白的核苷酸序列。图10描述了从腺伴随病毒3中分离的非结构蛋白的氨基酸序列。图11描述了从腺伴随病毒1中分离的非结构蛋白的核苷酸序列。图12描述了从腺伴随病毒1中分离的非结构蛋白的氨基酸序列。图13描述了从腺伴随病毒6中分离的Rep78的核苷酸序列。图14描述了从腺伴随病毒6中分离的Rep78的氨基酸序列。图15描述了从腺伴随病毒2中分离的Rep68的核苷酸序列。图16描述了从腺伴随病毒2中分离的Rep68的氨基酸序列。图17描述了从腺伴随病毒2中分离的主包被蛋白A’(alt.)的核苷酸序列。图18描述了从腺伴随病毒2中分离的主包被蛋白A’(alt.)的氨基酸序列。图19描述了从腺伴随病毒2中分离的主包被蛋白A”(alt.)的核苷酸序列。图20描述了从腺伴随病毒2中分离的主包被蛋白A”(alt.)的氨基酸序列。图21描述了从腺伴随病毒5中分离的一个Rep蛋白的核苷酸序列。图22描述了从腺伴随病毒5中分离的一个Rep蛋白的氨基酸序列。图23描述了从腺伴随病毒2中分离的主包被蛋白Aa(alt.)的核苷酸序列。图24描述了从腺伴随病毒2中分离的主包被蛋白Aa(alt.)的氨基酸序列。图25描述了从Barbarie鸭细小病毒中分离的Rep蛋白的核苷酸序列。图26描述了从Barbarie鸭细小病毒中分离的Rep蛋白的氨基酸序列。图27描述了从鹅细小病毒中分离的Rep蛋白的核苷酸序列。图28描述了从鹅细小病毒中分离的Rep蛋白的氨基酸序列。图29描述了从麝香鸭细小病毒中分离的NS1的核苷酸序列。图30描述了从麝香鸭细小病毒中分离的NS1的氨基酸序列。图31描述了从鹅细小病毒中分离的NS1的核苷酸序列。图32描述了从鹅细小病毒中分离的NS1的氨基酸序列。图33描述了从花栗鼠细小病毒中分离的非结构蛋白1的核苷酸序列。图34描述了从花栗鼠细小病毒中分离的非结构蛋白1的氨基酸序列。图35描述了从猪尾状猕猴细小病毒中分离的非结构蛋白的核苷酸序列。图36描述了从猪尾状猕猴细小病毒中分离的非结构蛋白的氨基酸序列。图37描述了从猿细小病毒中分离的NS1的核苷酸序列。图38描述了从猿细小病毒中分离的NS1蛋白的氨基酸序列。图39描述了从恒河猴细小病毒中分离的NS蛋白的核苷酸序列。图40描述了从恒河猴细小病毒中分离的NS蛋白的氨基酸序列。图41描述了从B19病毒中分离的非结构蛋白的核苷酸序列。图42描述了从B19病毒中分离的非结构蛋白的氨基酸序列。图43描述了从赤病毒B19中分离的orf1的核苷酸序列。图44描述了从赤病毒B19中分离的orf1产物的氨基酸序列。图45描述了从人疱疹病毒6B中分离的U94的核苷酸序列。图46描述了从人疱疹病毒6B中分离的U94的氨基酸序列。图47描述了一个Rep蛋白的酶附着位点。图48描述了在染色体19上发现的Rep68和Rep78酶附着位点。图49A-49N描述了本发明表达载体的优选实施方案。发明详述近来,可以鉴定与信号传导通路和疾病状态相关的蛋白,以及可以影响这些通路和疾病状态的化合物的筛选技术正成为人们研究的焦点。这些技术中的许多依靠在实验中,如结合或功能性实验中筛选大型文库,包括人工合成的或天然存在的蛋白类或肽类。今天面对高通量筛选技术的问题之一是难以阐明“命中”的鉴定,也就是说,在许多候选者不存在所需特性的背景下产生所需的效应的一个分子。本发明是建立一种新的方法,可以迅速和容易的鉴定这些“命中”序列。本发明依赖于核酸修饰酶的使用,这些酶特异地与包含编码它们的序列的核酸分子共价结合。目标蛋白(如,被筛选的或者与疾病相关蛋白结合或有表现型效应的候选物)与核酸修饰(NAM)酶融合(直接地或间接地,如下所概述)。NAM酶通过共价将其自身与相应的NAM附着序列结合(称为酶附着序列(EAS))。因此,通过使用由NAM酶编码区和候选蛋白和NAM酶附着序列组成的载体,候选蛋白可以通过共价键连接到在翻译中编码它的核酸上。因此,在筛选后,具有所需特性的候选物可以采用多种方法,如PCR扩增,被迅速地分离。这可促使快速鉴定有用的候选蛋白,并得以进行快速筛选和确认。因此,本发明提供了含有编码融合核酸的核酸序列的核酸分子文库,该融合核酸编码一个核酸修饰酶和一个候选蛋白。对于“核酸”或“寡核酸”或在此语法等同者是指至少两个核苷共价地结合在一起。本发明的核酸一般含有磷酸二酯键,虽然在有些时候也包括核酸类似物,这样可能有替换的主链,特别是当靶分子是核酸时,包括例如,磷酰胺(Beaucage等人,四面体(Tetrahedron)49(10)1925(1993)和其中文献;Letsinger,有机化学杂志(J.Org.Chem.)353800(1970);Sprinzl等人,欧洲生物化学杂志(Eur.J.Biochem.)81579(1977);Letsinger等人,核酸研究(Nucl.AcidsRes.)143487(1986);Sawai等人,Chem.Lett.805(1984),Letsinger等人,J.Am.Chem.Soc.1104470(1988);和Pauwels等人,ChemicaScripta26141(1986))、硫代磷酸酯(Mag等人,核酸研究(NucleicAcidsRes.)191437(1991);和美国专利第5,644,048)、二硫代磷-酸酯(Briu等人,J.Am.Chem.Soc.1112321(1989))、O-甲基磷酰胺联合(见Eckstein,寡核苷酸和类似物一个实用的方法,牛津大学出版社)、和肽核酸主链和联合(见Egholm,J.Am.Chem.Soc.1141895(1992);Meier等人,Chem.Int.Ed.Engl.311008(1992);Nielsen,自然,365566(1993);Carlsson等人,自然380207(1996),所有这些均加入作为参考)。其他核酸类似物包括那些具有正性主链(positivebackbones)(Denpcy等人,美国国家科学院院刊(Proc.Natl.Acad.Sci.USA)926097(1995)、非离子性主链(美国专利第5,386,023,5,637,684,5,602,240,5,216,141和4,469,863;Kiedrowshi等人,Angew.Chem.Intl.Ed.English30423(1991);Letsinger等人,美国化学社会生物学杂志(J.Am.Chem.Soc.)1104470(1988);Letsinger等人,核苷和核苷酸(Nucleoside&Nucleotide)131597(1994);第2和3章,ASC系列讨论会580,“反义研究中的碳水化合物修饰”,Y.S.Sanghui和P.DanCook编辑;Mesmaeker等人,生物有机化学和医学化学手册(Bioorganic&MedicinalChem.Lett.)4395(1994);Jeffs等人,分子生物学核磁共振杂志(J.BiomolecularNMR)3417(1994);TetrahedronLett.37743(1996))和非核糖主干,包括那些在美国专利第5,235,033和5,034,506,和第6和第7章,ASC系列讨论会580,“反义研究中的碳水化合物修饰”,Y.S.Sanghui和P.DanCook编辑.中所描述的。含有一个或多个碳环糖的核酸也包括在核酸定义中(见Jenkins等人,化学社会生物学进展(Chem.Soc.Rev.)(1995)169-176页)。有几个核酸类似物在Rawls,C&E新闻,1997年6月2日,第35页中有描述。所有这些文献在此特别加入作为参考。可以对这些核糖-磷酸主链进行修饰以促进其他成分的加入,如标记物,或增加这些分子在生理环境中的稳定性和半衰期。正如本领域技术人员可以理解的那样,所有这些核酸类似物都可发现应用在本发明中。另外,可以制备天然存在的核酸和类似物的混合物,或可选择地制备不同核酸类似物的混合物,和天然存在的核酸和类似物的混合物。如指定的,核酸可以是单链或双链,或含有指定的两个双链或单-链序列的一部分。核酸可以是DNA,包括基因组和cDNA,RNA或一个杂交物,其中核酸含有任何脱氧核糖和核糖核苷酸的组合,和任何碱基的组合,包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、次黄苷、xathanine(黄嘌呤)、hypoxathanine(次黄嘌呤)、异胞嘧啶、异鸟嘌呤等等。如在此所使用的,术语“核苷”包括核苷酸和核苷和核苷酸类似物,以及修饰的核苷如氨基修饰的核苷。另外,“核苷”包括非天然存在的类似结构。因此,例如一个肽类核酸的单一单位,每个含有一个碱基,在此都被称为核苷。本发明提供了含有编码融合核酸的核酸序列的核酸分子文库。在此的“融合核酸”是指联系在一起的一批核酸成分(如,肽编码序列)。尽管不需要,融合核酸仍优选编码融合多肽。在此“融合多肽”或“融合肽”或语法上的等同成分是指由一批蛋白成分组成的蛋白质,这些成分一般在天然状态下是未连接的,它们通过各自的氨基和/或羧基末端经肽键连接以形成一个单一的连续的多肽。本文中的一批指至少两个,优选的实施方案一般使用两个成分。可以理解的是蛋白成分可以直接连接或通过一个如下所述的肽连接子/间隔基连接。另外,应该注意的是在一些实施方案中,正如以下会详细描述的那样,融合核酸可以编码不融合的蛋白成分;例如,尽管一般编码每个成分的核酸是融合的,但融合核酸可能包含一个被去除的内含子,留下两个不相关的蛋白成分。而且,如下面所概述的,也可使用附加的成分,如包括靶向序列的融合配体等等。融合核酸编码核酸修饰酶(NAM)和候选蛋白。在此的“核酸修饰酶”或“NAM酶”是指使用核酸,特别是DNA作为底物并将其自身共价结合于核酸酶附着(EA)序列的酶。可以共价结合于碱基、核糖部分或磷酸部分。NAM酶包括,但不限于,螺旋酶、拓扑异构酶、聚合酶、旋转酶、重组酶、转座酶、限制酶和核酸酶。如下面所概述的,NAM酶包括天然和非天然的变异体。虽然许多DNA结合肽是已知的,如那些参与核酸固缩、转录调节、以及类似情况的结合肽,但是优选与核酸,即DNA,共价结合的酶,特别是参与复制的肽类。一些NAM酶可以与DNA形成共价连接而不切割DNA。例如,人们相信,参与DNA修复的酶可以识别核酸区域并与之共价结合,该核酸区域可以是双链也可以是单链。这种NAM酶适合在融合酶文库中使用。但是,最优选的是可以切割DNA以形成共价连接的DNANAM酶,如病毒复制肽。优选地,NAM酶是一个可以识别核酸底物的特异序列或构型,并发挥其酶活性使其与核酸底物形成一个共价复合体的蛋白质。优选地,该酶作用于不同构象的核酸,特别是DNA上,包括但不限于单链DNA、双链DNA、Z-型DNA,等。合适的NAM酶包括,但不限于,参与复制的酶如腺伴随病毒(AAV)的Rep68和Rep78、细小病毒的NS1和H-1、噬菌体phi-29末端蛋白、55Kd腺病毒蛋白及其衍生物。在一个优选的实施方案中,NAM酶是一个Rep蛋白。Rep蛋白包括,但不限于Rep78、Rep68和在相关病毒中发现的功能类似物。Rep蛋白,包括其功能类似物,可从许多来源中分离,包括细小病毒、赤病毒、疱疹病毒和其他相关病毒。本领域普通技术人员可以理解,天然的Rep蛋白可以通过本领域已知的技术进行诱变和设计,以便提高其活性或降低其潜在的毒性。这样试验性的改良可以与其相应EAS的天然或变异体一起进行。优选的Rep蛋白之一是AAVRep蛋白。腺伴随病毒(AAV)Rep蛋白由病毒基因组的左侧开放阅读框编码。AAVRep蛋白,如Rep68和Rep78,调节AAV的转录、激活AAV的复制、并显示抑制异源性启动子的转录(Chiorini等人,病毒学杂志(J.Virol.),68(2),797-804(1994),在此全部加入作为参考)。Rep68和Rep78蛋白,部分通过共价附着于AAV末端反向重复序列而起作用(Prasad等人,病毒学,229,183-192(1997);Prasad等人,病毒学,214360(1995);两个文献在此全部加入作为参考)。这些Rep蛋白通过AAV启始点的一个位点特异性和链特异性内切酶切口在末端分解位点发挥作用,然后通过经过一个推断的酪氨酸连接与切口部位的5’末端共价结合。Rep68和Rep78分别来源于转录物的不同拼接。Rep68的核酸序列见图15,其蛋白序列见图16;从不同来源分离的Rep78蛋白的核酸和蛋白序列见图1,2,7,8,13和14。如在下面进一步概述的,Rep蛋白的功能性片段、变异体和同源物也包括在Rep蛋白的定义中;在这种情况下,变异体优选包括具有核酸结合活性和内切酶活性的变异体。下面讨论的Rep68和Rep78的相应酶附着位点见图47和图48,并在实施例1-中阐明。在一个优选的实施方案中,NAM酶是NS1。NS1是细小病毒中的非结构蛋白,是Rep78的功能同源物,也与DNA共价结合(Cotmore等人,病毒学杂志(J.Virol.),62(3),851-860(1998),在此特别加入作为参考)。从不同来源中分离的NS1蛋白的核苷酸和氨基酸序列见图9-12、29-34、37和38。如在下面进一步概述的,NS1蛋白的片段和变异体也包括在NS1蛋白的定义中。在一个优选的实施方案中,NAM酶是细小病毒H-1蛋白,已知它也可与DNA形成共价连接(见,如,Tseng等人,美国国家科学院院刊(Proc.Natl.Acad.Sci.USA),76(11),5539-5543(1979),在此特别加入作为参考)。如在下面进一步概述的,H-1蛋白的片段和变异体也包括在H-1蛋白的定义中。在一个优选的实施方案中,NAM酶是噬菌体phi-29末端蛋白,已知它也可与DNA形成共价连接(见,如,Germendia等人,核酸研究(NucleicAcidResearch),16(3),5727-5740(1988),在此特别加入作为参考)。如在下面进一步概述的,phi-29蛋白的片段和变异体也包括在phi-29蛋白的定义中。NAM酶也可以是腺病毒55Kd(a55)蛋白,已知它也可与DNA形成共价连接;见Desiderio和Kelly,分子生物学杂志(J.Mol.Biol.),98,319-337(1981),在此特别加入作为参考。如在下面进一步概述的,a55蛋白的片段和变异体也包括在a55蛋白的定义中。适合用做NAM酶的其他Rep同源物的核酸序列和氨基酸序列见图3-6、17-28、35、36和39-46。一些DNA结合酶在物理或化学刺激下形成共价连接,例如,紫外线诱导的DNA和连接蛋白间的交联、或与喜树碱(CPT)相关的化学诱导的DNA-拓扑异构酶I共价复合体的捕获(如,Hertzberg等人,生物化学杂志(J.Biol.Chem.),265,19287-19295(1990))。形成诱导的共价连接的NAM酶适用于本发明的一些实施方案。本发明NAM酶的定义中也包括保留生物学活性(如共价结合核酸分子能力)的氨基酸序列变异体。这些变异体属于三类中的一类或多类替换、插入或缺失(如,片段)变异体。这些变异体通常可在编码NAM-蛋白的DNA中,通过核苷酸的位点特异性诱变来制备,采用序列盒或PCR诱变或其他本领域熟知的技术,产生编码变异体的DNA,之后在这里概述的细胞培养物中表达重组DNA。但是具有达到大约100-150个残基的变异NAM蛋白片段可以采用已建立的技术通过体外合成或肽连接来制备。氨基酸序列变异体通过预先确定的变异的特性来定性,该特性将其与天然存在的NAM蛋白氨基酸序列的等位基因或种间变异区分开。变异体一般具有与天然存在的类似物相同性质的生物活性,尽管如下面将更详细概述的,也可以选择具有修饰特性的变异体。虽然引入一个氨基酸序列变异体的位点或区域是预先确定的,突变作用本身不需要预先确定。例如,为了优化在一个给定位点进行突变,在目标密码子或区域可以进行随机诱变,并为所需活性的最佳组合筛选表达的NAM变异体。在已知序列DNA的预定位点上形成替换突变体的技术是公知的,如M13引物诱变和PCR诱变。筛选突变体、变异体、同源物等,可以应用常规的方法如,结合实验、亲合性实验、肽构型图谱等,采用NAM蛋白活性的测定来完成。氨基酸替换一般是单一的残基;插入通常以大约1到20个氨基酸的顺序,尽管也可接受较大的插入物。缺失的范围是大约1到20个残基,尽管在某些情况下,缺失可以更大一些,如当要去除非必需区域时。可以使用替换、缺失、插入或它们任何的组合来得到最终的衍生物。一般这些改变只在几个氨基酸上进行以使分子的改变最小化。但是在特定的情况下也可耐受更大的改变。当需要NAM蛋白特性发生小的变化时,一般根据下表进行替换表1原始残基示范性替换AlaSerArgLysAsnGln,HisAspGluCysSerGlnAsnGluAspGlyProHisAsn,GlnIleLeu,ValLeuIle,ValLysArg,Gln,GluMetLeu,IlePheSerMet,Leu,TyrThrThrTrpSerTyrTyrValTrp,PheIle,Leu在功能或免疫特性方面的实质性改变是通过选择保守程度不如表1所示的替代物来实现的。例如,替代物可能更明显地影响变更区域的多肽主链结构,例如,α-螺旋或β-片层结构;靶位点分子的电荷或疏水性;或侧链的多少。一般期望在多肽特性上产生最大变化的替代是(a)一个亲水残基,如丝氨酰或苏氨酰基,替代(或被替代为)一个疏水残基,如亮氨酰、异亮氨酰、苯丙氨酰、缬氨酰或丙氨酰基;(b)一个半胱氨酸或脯氨酸替代(或被替代为)任何其他的残基;(c)一个具有正电侧链的残基,如赖氨酰、精氨酰或组氨酰基替代(或被替代为)一个负电残基,如谷氨酰或天冬氨酰基;或(d)一个具有体积较大侧链的残基,如苯丙氨酸,替代(或被替代为)一个不具有侧链的残基,如甘氨酸。一般变异体可发挥如天然存在的类似物同样性质的生物活性,尽管变异体也按照需要被选择来修饰NAM蛋白的特性。可供选择的是,可以对变异体进行设计,以改变NAM蛋白的生物活性。例如,糖基化-位点可能改变或被去除。同样地,可以在内切酶区域或核酸识别位点内进行功能性诱变。而且,可以去除非必需区域以形成NAM酶的片段。另外,一些实施方案采用多联体(concatameric)构建物来影响多价性,并增加结合动力学或效率。例如,可以制备含有多个NAM编码区或多个EASs的构建物。NAM蛋白的定义中也包括其他NAM同源物,以及从包括病毒的其他微生物中来源的NAM蛋白,它们可以用本领域已知的方法进行克隆和表达。因此,探针或变性聚合酶链式反应(PCR)引物序列可以用来发现其他相关的NAM蛋白。正如本领域技术人员可以认可的那样,特别有用的探针和/或PCR引物序列包括NAM核酸序列的独特区域。如本领域中通常已知的,优选的PCR引物长度大约为15到35个核苷酸,优选大约20至大30个核苷酸,按需要可以含有次黄苷。PCR反应的条件在本领域是已知的。除了编码NAM酶的核酸,本发明的融合核酸也编码候选蛋白质。在此的“蛋白质”是指至少两个共价结合的氨基酸,包括蛋白质、多肽、寡肽和肽类。蛋白质可能由天然存在的氨基酸和肽键、或合成的拟肽(peptidomimetic)结构组成,当靶分子为蛋白时后者特别有用。因此,如在此所用的“氨基酸”或“肽残基”,是指天然存在的和合成的氨基酸。例如,同型苯丙氨酸、瓜氨酸和noreleucine是本发明目的所考虑的氨基酸。“氨基酸”也包括亚氨基酸残基,如脯氨酸和羟脯氨酸。侧链可能是(R)或(S)构型。在优选的实施方案中,氨基酸是(S)或L-构型。如果使用非天然存在的侧链,就可以采用非氨基酸取代,例如,以避免或延缓体外降解。也可以加入化学保护基团或其他化学取代基。因此,本发明可以发现用于基于模板的合成系统。在此的“候选蛋白”是指在本发明的测定中要被检测结合、联系或效应的蛋白,包括体外(如,无细胞系统)或来自体内(在细胞内)。候选肽具有至少一个所需的目标特性。所需的目标特性将取决于本发明的特殊实施方案。“目标特性”是指关注的活性。任选地,目标特性直接或间接地用于鉴定一个融合蛋白-表达载体结合物亚群,因此可以从融合蛋白文库中回收所需的NAP结合物。目标特性包括,如,介导编码的显现肽与配体结合的能力,酶活性,模拟一个给定因子的能力,-改变细胞生理学、结构或其他物理特性,包括但不限于,肽类的电磁性或分光性能,的能力。如下面所概述的,在融合物中一般使用候选蛋白文库。如本领域技术人员可以理解的那样,候选蛋白文库的来源可以特别地依系统最终用途的不同而异。在一个优选的实施方案中,候选蛋白来源于cDNA文库。cDNA文库可来源于许多不同的细胞,特别是在此所概述的宿主细胞,并包括从真核和原核细胞、病毒、用病毒或其他病原体感染的细胞、基因工程改造的细胞等产生的cDNA文库。如下面所概述的优选的实施方案,包括从不同个体,如不同的患者,特别是人类患者中制备的cDNA文库。cDNA文库可以是完全的文库或部分文库。而且,候选蛋白文库可以来自单一或多个cDNA来源;也就是说,从多个细胞类型或多个个体或多种病原体来源的cDNA可以在筛选中组合。cDNA文库可能使用整个cDNA构建物或分级分离构建物,包括随机或有目的的分级分离。适当的分级分离技术包括酶性、化学或机械性的分级分离。在一个优选的实施方案中,候选蛋白来源于基因组文库。如上所述,基因组文库可来源于任何数目的不同的细胞,特别是那些在此概述的宿主细胞,并包括从真核和原核细胞、病毒、病毒或其他病原体感染的细胞、基因工程改造的细胞、等产生的基因组文库。如下面概述的优选实施方案,包括从不同个体如不同的患者,特别是人类患者中制备的基因组文库。基因组文库可能是完全的文库或部分的文库。而且,候选蛋白文库可能来自单一或多种基因组来源;也就是说,来源于多个细胞类型或多个个体或多个病原体的基因组DNA可以在筛选中组合。基因组文库可使用整个基因组构建物或分级分离构建物,包括随机或有目的的分级分离。适合的分级分离技术包括酶性的、化学或机械的分级分离。在这点上,在一个基因文库载体中NAM酶与来源于基因组DNA的核酸的结合具有新颖性。因此,本发明进一步提供了一个分离的和纯化的核酸分子,该分子由编码NAM酶的核酸序列组成,该NAM酶与从基因组DNA中分离的一个核酸序列融合。这样的一个分离的和纯化的核酸分子在这里所述的本发明方法中特别有用。优选地,该分离的和纯化的核酸分子进一步由位于编码NAM酶的核酸序列和基因组DNA之间的一个拼接供体序列或拼接受体序列组成。拼接供体和/或拼接受体序列插入到分离的和纯化的核酸序列中,可形成编码NAM酶的转录体和基因组DNA片段的外显子。以前的技术方法没有意识到将基因组DNA有效地连接到一个NAM酶上,使基因组DNA产物可以与编码它的核酸分子联系在一起的可能性。本领域技术人员可以理解合适的调节序列也可以整合入分离的和纯化的核酸分子中。在一个优选的实施方案中,本发明也提供了确定基因组DNA中开放阅读框的方法。在该实施方案中,由基因组核酸编码的候选蛋白优选直接与NAM酶的N末端而不是C末端融合。因此,如果产生了一个功能性的NAM酶,那么基因组DNA就是融合在正确的阅读框中。在使用标记物时这一点尤其有用。另外,该文库也可采用已知的技术(暴露于诱变剂、易错PCR、易错转录、组合拼接(如cre-lox重组))随后被诱变。用这种方法可制备原核和真核蛋白以在这里描述的系统中筛选。在这个实施方案中特别优选的是细菌、真菌、病毒、植物和动物(如哺乳动物)蛋白的文库,优选后者,特别优选人类的蛋白。候选蛋白在大小上可以不同。如果是cDNA或基因组文库,蛋白可从20或30个氨基酸到上千个氨基酸,优选从大约50到1000(如75、150、350、750或更多),特别优选从100到500(如200、300或400)。当候选蛋白是肽类时,肽的大小从大约3到50个氨基酸,优选从大约5到20个氨基酸,特别优选从大约7到15个氨基酸。肽类可能是如上所述的天然存在的蛋白的水解物、随机肽、或“有偏差的”随机肽。“随机的”或在此的语法等同者是指每个核酸和肽分别主要由随机的核苷酸和氨基酸组成。因为一般这些随机的肽(或下面讨论的核酸)是化学合成的,因此它们可能在任何位置插入任何核苷酸或氨基酸。可以设计合成过程以产生随机的蛋白或核酸,使得在序列长度内形成所有或大多数可能的组合,因此形成一个随机的候选生物活性蛋白质样物质文库。在一个优选的实施方案中,候选蛋白文库与NAM酶融合,文库的每个成员都包括一个不同的候选蛋白。但是,如本领域技术人员可以理解的那样,文库的不同成员可能是再生或复制的,导致某些文库成员是相同的。文库应该提供结构上足够多样的表达产物群,引起从概率论上足够范围的细胞反应,以提供一个或多个具有所需效应的细胞。因此,一个相互作用文库必须足够大以便至少其成员之一具有可以使其与某些分子亲合的结构,这些分子包括靶蛋白和非蛋白、或其他在目的测定中是必需的,或具有有效活性的因子。虽然很难测量一个相互作用文库所需的绝对大小,其免疫反应属性提供了一个线索107-108种不同的抗体可提供至少一种组合,该组合与一个微生物可接触的大多数潜在抗原具有足够的亲合性反应。已公开的体外筛选技术表明一个大小为107至108的文库足以发现与靶分子具有亲合性的结构。一个长度为7到20个氨基酸的肽的所有组合文库具有编码207(109)至2020的潜力。因此,拥有107至108的文库,本发明的方法在理论上可以使7个氨基酸获得全部相互作用文库的“能够实际应用的”子集,和2020文库形状的子集。因此,在一个优选的实施方案中,至少106,优选至少107,更优选至少108和最优选至少109个不同的表达产物同时在受试方法中进行分析,尽管不太复杂(如,102、103、104或105个不同的表达产物)或更复杂(如1010、1011或1012个不同的表达产物)的文库也适用于本发明。优选的方法使文库的大小和多样性达到最大。在由寡核苷酸合成编码的任何文库系统中,很难对最后将插入到肽结构中的密码子进行完全的控制。对于编码终止信号的密码子(TAA、TGA、TAG)尤其如此。在用NNN作为随机区进行的合成中,密码子有3/64或4.69%的机会是终止密码子。因此,在一个10个残基的肽中,很有可能46.7%的肽将过早终止。减少这种情况的一个方法是具有编码为NNK的随机残基,其中K=T或G。这就可以对所有可能的氨基酸(轻度改变其相对表达式)进行编码,但很重要的是它防止了两个终止残基TAA和TGA的编码。因此,编码一个10个氨基酸肽的文库将有15.6%的机率过早终止。可选择的是,也可将候选蛋白与NAM酶的C末端融合,尽管在有些时候,与N末端的融合意味着过早终止的蛋白导致NAM酶缺乏,使这些样品在检测中消失。在一个实施方案中,文库是完全随机化的,在任何位置没有序列优先或恒定。在一个优选的实施方案中,文库是有偏离的。也就是说,序列中的一些位置是保持恒定的,或选自有限数目的可能性。例如,-在一个优选的实施方案中,核苷酸或氨基酸残基在限定的类型中是随机化的,如疏水氨基酸、亲水残基、空间偏离(小或大)残基,为交联倾向形成半胱氨酸,为SH-3区、PDZ区形成脯氨酸,为磷酸化位点形成丝氨酸、苏氨酸、酪氨酸或组氨酸等,或对嘌呤等。在一个优选的实施方案中,偏离是朝向与已知分子类型相互作用的肽类或核酸的。例如,当候选蛋白是一个肽时,已知许多细胞内的信号传导是经多肽的短区与其他多肽的小肽区域相互作用而实现的。例如,以前已经显示一个来源于HIV-1被膜胞浆域的短区可以阻断细胞钙调蛋白的作用。与来自黄蜂的黄蜂毒素同源的Fas胞浆域的区域可以限定在一个短肽区,具有诱导死亡的凋亡或G蛋白诱导功能。爪蟾抗菌肽,来自爪蟾的天然肽,具有有效的抗肿瘤和抗微生物活性。已经表明蛋白激酶C同工酶(βPKC)的短肽片段,可阻断刺激后βPKC在爪蟾卵细胞中的核转位。短的SH-3目标肽已经用做与SH-3蛋白特异结合的假底物。当然这是一个可获得的具有生物活性的肽类的简短列表,因为在此领域的文献非常丰富。因此,许多小肽对细胞内信号传导级联具有潜在活性是有先例的。另外,任何分子数目的激动剂和拮抗剂也可构成候选蛋白随机化偏离的基础。因此,许多分子或蛋白结构区适合作为产生随机化偏离候选蛋白的起始点。已知大量的小分子结构区,可以赋有一种普通的功能,结构或亲合性。另外,如本专业可以理解的,弱氨基酸同源性的区域可能具有强的结构同源性。许多这样的分子,结构区,和/或相应的共有序列是已知的,包括但不限于,SH-2结构区,SH-3结构区,血小板-白细胞C激酶底物,死亡结构区,蛋白酶切割/识别点,酶抑制剂,酶的底物,Traf等。同样,已知有许多含有适用于本发明结构区的核酸结合蛋白。例如,已知亮氨酸拉链的共有序列。在一个优选的实施方案中,制备了与偏离的SH-3结构区结合的寡核苷酸/肽。SH-3结构区已经显示可以识别短的目标基序(SH-3结构区结合肽),在一个线性序列中大约10到12个残基可以被编码为与目标SH-3结构区有高亲合性的短肽。已经提议要获得SH-3结构区结合蛋白的共有序列。因此,在一个优选的实施方案中,寡核苷/肽用以下偏离制备1.XXXPPXPXX,其中X是一个随机化残基。2.(在残基11至-2的位置中)1110987654321MetGlyaa11aa10aa9aa8aa7ArgProLeuProProhyd0-1-2ProhydhydGlyGlyProProSTOPatgggcnnknnknnknnknnkagacctctgcctccasbkgggsbksbkggaggcccacctTAA1。在该实施方案中,提示N末端旁侧区域在结合亲合性上有最大的效应,因此是完全随机化的。“Hyd”表示偏离朝向一个疏水残基,如-Val,Ala,Gly,Leu,Pro,Arg。为了编码一个疏水的偏离残基,采用“sbk”密码子偏离结构。在遗传编码中检查密码子将确保其通常编码疏水残基。s=g、c;b=t、g、c;v=a、g、c;m=a、c;k=t、g;n=a、t、g、c。因此,在一个优选的实施方案中,候选蛋白是一个结构性标记,它可以分离具有该结构的目标蛋白。也就是,对于亮氨酸拉链,NAM酶与一个亮氨酸拉链序列的融合可使该融合体与其他亮氨酸拉链拉开,使大量亮氨酸拉链蛋白迅速分离。另外,结构性标记(可能仅仅是蛋白本身)可促使形成异多聚体蛋白复合物,然后作为复合体检测活性。也就是说,许多蛋白,如许多真核转录因子,作为异多聚体复合物起作用,可采用本发明进行检测。另外,与cDNA、基因组或随机文库不同,候选蛋白文库可能是一个构建的文库;也就是,它可能被构建为仅含有指定类型的成员,或类型的组合。例如,可以建立免疫球蛋白文库,或G蛋白偶联受体、肿瘤抑制基因、蛋白酶、转录因子、磷酸酶、激酶等的文库。融合核酸可以由许多构型的NAM酶和候选蛋白组成,包括直接和间接的融合体,它包括N-和C-末端融合体和内部融合体。在一个优选的实施方案中,NAM酶和候选蛋白是直接融合的。在这-个实施方案中,设计了一个直接的,编码NAM酶的核酸和候选蛋白在框内的融合。融合肽文库可构建为N-和/或C-末端融合体和内部融合体。因此,NAM酶编码区可能是候选蛋白编码区的3’或5’端,或候选蛋白编码区可能插入到NAM酶的编码区内的一个适当位置中。在该实施方案中,可能需要将候选蛋白插入到一个NAM酶的外环中,作为直接插入物或替代几个NAM酶残基。这在随机候选蛋白例子中特别需要,因为它们经常需要一些支架或表现结构以形成一个构象上的限制结构。例如,采用绿荧光蛋白(GFP)作为表达随机肽文库的一个支架,这种普通的观点,见例如WO99/20574,在此特别加入作为参考。在一个优选的实施方案中,NAM酶和候选蛋白是间接融合的。间接融合完成后使得融合的成分仍然附着,如通过使用连接子,或以某种导致融合成分变得分离的方式完成。如本专业技术人员可理解的,可使用大量不同类型的连接子,包括可切割的和不可切割的连接子;这种切割也可发生在核酸水平,或在蛋白水平。在一个优选的实施方案中,连接子可用来功能性地分离NAM酶和候选蛋白。也就是,一个直接融合系统可在空间上或功能上阻碍候选蛋白与其目的结合配体的相互作用,因此融合结合体的自由程度越大越有用。类似的情况可见于单链抗体区域,其中连接子的加入使之具有功能。在一个优选的实施方案中,采用已知具有可塑性的连接子。例如,有用的连接子包括甘氨酸-丝氨酸聚合体(包括,例如(GS)n,和(GGGS)n,其中n是至少为1的整数),甘氨酸-丙氨酸聚合体,丙氨酸-丝氨酸聚合体,以及其他可塑连接子如振腿(shaker)钾通道的系链,和其它本专业技术人员可理解的,大量的可塑连接子。优选甘氨酸-丝氨酸聚合体,因为在二者中的氨基酸相对均是未组织的,因此能够在多种成分之间作为一个中性的系链。第二,丝氨酸是亲水性的,因此能够溶解那些球状的甘氨酸链。第三,已经表明同样的链在连接像单链抗体这样的重组蛋白的亚单位中是起作用的。用来构建间接融合酶的连接子可能是一个可切割的连接子。可切割的连接子可在核酸或蛋白水平上起作用。也就是,切割(在该意义上是指NAM酶和候选蛋白是分离的)可发生在转录过程中,或者在翻译前-或翻译后。关于可切割的连接子,切割的发生可能是切割功能构建入核酸的结果。在该实施方案中,例如可使用可切割的核酸序列,或将切割核酸的序列。例如,细胞要去除的内含子序列可放置于NAM酶的编码区域和候选蛋白之间。在一个优选的实施方案中,连接子是异二聚化的结构区。在该实施方案中,NAM酶和候选蛋白融合成异二聚化结构区(或如果需要多价性,是多聚结构区),使这两个蛋白在翻译后联系起来。在一个优选的实施方案中,使用可切割的蛋白连接子。在该实施方案中,融合核酸包括可能随后被切割的一个蛋白序列的编码序列,其切割一般是通过一个蛋白酶进行。如本专业技术人员可以理解的那样,可使用涉及(普)遍(存)在蛋白酶的切割位点,如那些结构性存在于大多数或所有宿主细胞系统中的遍在蛋白酶。可选择的是,可使用对应于细胞特异蛋白酶的切割位点。同样地,也可使用仅在特定细胞周期或时相中被诱导的,或是特异信号事件的蛋白酶的切割位点。已知有大量可能的蛋白质切割位点。例如,被一个蛋白酶识别并切割的、或在暴露于某种化学物质后被切割的序列是可考虑的可切割连接子。可以发现这在体外系统中特别有用,如下面所概述的,因为在体外环境中,外源酶可被加入到周围环境中,或可以纯化NAP结合物,并可加入切割剂。例如,可切割的连接子包括但不限于,牛凝乳酶的前序列、枯草杆菌蛋白酶的前序列、2a位点(Ryan等人,遗传病毒学杂志(J.Gen.Virol.)722727(1991);Ryan等人,欧洲分子生物学杂志(EMBOJ.)13928(1994);Donnelly等人,遗传病毒学杂志(J.Gen.Virol.)7813(1997);Hellen等人,生物化学(Biochem.),28(26)9881(1989);和Mattion等人,病毒学杂志(J.Virol.)708124(1996)),包括人免疫缺陷病毒蛋白酶的逆转录病毒蛋白酶前序列、和被胰蛋白酶识别并切割的序列(欧洲专利578472,Takasuga等人,生物化学杂志(J.Biochem.)112(5)652(1992))、Xa因子(Gardella等人,生物学化学(J.Biol.Chem.)265(26)15854(1990),WO9006370)、胶原酶(J03280893,Tajima等人,J.Ferment.Bioeng.72(5)362(1991),WO9006370)、梭菌蛋白酶(EP578472)、枯草杆菌蛋白酶(包括突变体64A枯草杆菌蛋白酶,Forsberg等人,蛋白化学杂-志(J.ProteinChem.)10(5)517(1991))、凝乳酶、酵母KEX2蛋白酶(Bourbonnais等人,生物学化学杂志(J.Bio.Chem.)263(30)15342(1988))、凝血酶(Forsberg等人,见前;Abath等人,生物技术(BioTechniques)10(2)178(1991))、金黄色葡萄球菌V8蛋白酶或在Glu残基后切割的类似的内源蛋白酶-Glu-C(欧洲专利578472,Ishizaki等人,应用微生物生物工程杂志(Appl.Microbiol.Biotechnol.)36(4)483(1992))、被烟草蚀病毒NIa蛋白酶切割(Parks等人,Anal.Biochem.216(2)413(1994))内源蛋白酶-Lys-C(美国专利第4,414,332号)和内源蛋白酶-Asp-N、奈瑟菌属2型IgA蛋白酶(Pohlner等人,生物技术(Bio/Technology)10(7)799-804(1992))、可溶性酵母内源蛋白酶yscF(欧洲专利467839)、糜蛋白酶(Altman等人,ProteinEng.4(5)593(1991))、肠肽酶(WO9006370)、溶葡萄球菌素、多聚甘氨酸特异内源蛋白酶(欧洲专利316748),等,见如,Marston,F.A.O.(1986)Biol.Chem.J.240,1-12。作为化学切割位点的特殊氨基酸位点包括但不限于,被溴化氰切割的蛋氨酸(Shen,PNASUSA814627(1984);Kempe等人,基因39239(1985);Kuliopulos等人,J.Am.Chem.Soc.1164599(1994);Moks等人,生物技术(Bio/Technology)5379(1987);Ray等人,生物技术(Bio/Technology)1164(1993))、Asp-Pro键的酸性切割(Wingender等人,生物学化学杂志(J.Biol.Chem.)264(8)4367(1989);Gram等人,生物技术(Bio/Technology)121017(1994)),和在Asn-Gly键上的羟胺切割(Moks,见前)。除了NAM酶、候选蛋白和连接子,融合核酸可由其他功能的附加编码序列组成。如本专业技术人员可以理解的,在此的讨论是针对这些其他成分与在此描述的融合核酸的融合体;但是,它们也可从融合蛋白中分离,如下面所概述的,更可以是一个由融合核酸组成的表达载体的成分。因此,在一个优选的实施方案中,融合体与一个融合配体连接。在此的“融合配体”或“功能基团”是指可与候选蛋白相连的一段序列,该序列给该类型中文库的所有成员赋予了一种共有的功能或能力。融合配体可以是异源性的(如,对宿主细胞来说非天然的),或合成的-(对任何细胞都是非天然的)。适当的融合配体包括但不限于a)以一个构象限制或稳定形式提供给候选蛋的表现结构,如下面所定义的,包括异源-或同源二聚体或多聚体序列;b)目标序列,如下面所定义的,它可使候选蛋白定位于一个亚细胞或细胞外区室中或整合入感染的有机体中,如那些被病毒或病原体感染的有机体;c)如下面所定义的挽救序列,它可使NAP结合物纯化或分离;d)稳定性序列,可赋予候选蛋白或编码它的核酸稳定性保护它(们)免遭降解,例如对蛋白溶解性降解的抵抗力;e)连接子序列;或f)任何a),b),c),d)和e)的组合,以及所需的连接子序列。在一个优选的实施方案中,融合配体是一个表现结构。“表现结构”或在此的语法等同成分是指一个氨基酸序列,当它与候选蛋白融合时,可导致候选蛋白呈现一个构象限制的形式。当候选蛋白是随机卷曲,偏性随机卷曲或伪随机肽时,这特别有用。蛋白之间的相互作用大部分是通过构象限制的结构区。尽管具有自由旋转氨基和羧基末端的小肽具有专业中已知的有效功能,这些肽结构很难转变为药剂,因为它们不能预测拟肽(peptidomimetic)合成的侧链位置。因此肽类在构象限制结构中的提呈将益于后续药物的产生,似乎也将使肽与靶蛋白的结合具有更高亲合性。这个事实已经在采用生物学在噬菌体系统中产生短肽的组合文库产生系统中被认识到了。因此合成的表现结构,如人工合成的多肽,能够将一个自由卷曲的肽排列为一个构象限制的结构区。一般这样的表现结构包括与自由卷曲肽的N末端相连的第一部分,以及与肽的C末端相连的第二部分;也就是,尽管可能生成变异体,但是肽仍插入到表现结构中,如下所述。为了增加随机表达产物的功能性分离,当它在靶细胞中表达时,选择和或设计的表现结构应具有最小的生物学活性。优选的表现结构通过将肽提呈到一个外环上,来最大程度的增加其可进入性。因此,适当的表现结构包括但不限于,小体结构,二聚化序列,β-片层反转上的环和卷曲螺旋干结构,其中对结构不太重要的残基是随机卷曲化的,锌指结构区,半胱氨酸连接(二硫键)结构,转谷氨酰胺酶连接结构,环肽,B-环结构,螺旋筒或束,亮氨酸拉链基序,等。在一个优选的实施方案中,表现结构是一个卷曲螺旋结构,可使自由卷曲的肽提呈在一个外环上。如,见,Myszka等人,生物化学(Biochem.)332362-2373(1994),在此加入作为参考,和图3)。采用这种系统,研究者已经分离了与合适的靶目标具有高亲和作用的肽。通常,卷曲螺旋结构可允许6到20个之间的随机位置。一个优选的卷曲螺旋表现结构实施例见Martin等人,欧洲分子生物学杂志(EMBOJ.)13(22)5303-5309(1994)的文献,该文献加入作为参考。在一个优选的实施方案中,表现结构是一个小体结构。一个“小体”主要由一个最小的抗体互补区组成。小体表现结构一般提供两个自由卷曲区域,在折叠的蛋白上该区域沿三级结构的一个单一面排列。例如,见Bianchi等人,分子生物学杂志(J.Mol.Biol.)236(2)649-59(1994),和在此引用的文献,所有在此引入作为参考。研究者们发现这个最小的结构区在溶液中是稳定的,他们已经采用噬菌体选择系统在组合文库中筛选有肽区的小体,该小体与前-炎性因子IL-6有很高的结合亲和性,Kd=10-7。一个优选的小体表现结构如下MGRNSQATSGFTFSHFYMEWVRGGEYIAASRHKHNKYTTEYSASVKGRYIVSRDTSQSILYLQKKKGPP(SEQIDNO1)。粗体的下划线区域是可以自由卷曲的区域。在第一个自由卷曲的区域中,斜体的苯丙氨酸必须是固定的。整个肽在卷曲螺旋的实施方案中的三寡核苷酸变异体中进行克隆,因此可以允许两个不同的随机区域同时加入。这个实施方案在末端采用非回文序列的BstXI位点。在一个的实施方案中,表现结构是一段一般含有两个半胱氨酸残基的序列,这样可能形成一个二硫键,产生一个构象限制的序列。当采用分泌的目标序列时特别优选该实施方案。如本专业技术人员可理解的,许多随机序列,有或没有间隔物或连接子序列,可能排列在半胱氨酸残基旁。在其他的实施方案中,有效的表现结构可能由随机区域本身产生。例如,随机区域可能用半胱氨酸残基来“掺杂”,在适当的氧化还原条件下,可能形成高度交联的结构化的构型,类似于一个表现结构。同样,可以控制自由卷曲区域,使其包含特定数量的残基以具有β-片层或α-螺旋结构。在一个实施方案中,表现结构是一个二聚化或多聚化序列。一个二聚化序列可允许一个候选蛋白与另一个候选蛋白,包括肽,非共价结合,并具有足够的亲和性以致于在正常的生理条件下仍然保持连接状态。如果每个细胞产生两个蛋白,然后二聚化,形成一个108(104×104)的有效文库,这就有效地保证了小的候选蛋白文库(例如,104)成为大的文库。如果需要,可允许形成更大的蛋白,或结构更复杂的复合体分子。二聚体可以是同型二聚体或杂二聚体。二聚化序列可能是一个可自我聚合的单一序列,或两个序列。也就是,用二聚化序列1编码第一个候选蛋白,以及用二聚化序列2编码第二个候选蛋白的核酸,这样在将其引入一个细胞中并表达核酸的过程中,二聚化序列1与二聚化序列2相连形成一个新的结构。合适的二聚化序列将包括大量的序列。许多蛋白-蛋白相互作用位点是已知的。另外,二聚化序列可能也是采用标准的方法阐明的,如酵母双杂交系统,传统的生物亲合性结合实验,或甚至采用本发明方法。在一个优选的实施方案中,融合配体是一个靶向序列。如本专业技术人员可理解的那样,蛋白在细胞内的定位是一个增加有效浓度和确定功能的简单方法。例如,当定位在线粒体膜上时,RAF1可以抑制BCL-2的抗凋亡效应。同样,膜结合Sos可诱导Ras介导的T细胞信号转导。这些机制被认为是依靠限制配体搜索空位的原理,也就是说,一个蛋白在浆膜上的定位将其对配体的搜索限制在膜附近的有限空间范围内,而不是细胞浆的三维空间。可以选择的是,也可简单地通过定位性质来增加一个蛋白的浓度。将蛋白穿梭进入核内可将其限定在一个更小的空间内,因此增加了其浓度。最后,配体或靶目标可能被简单的定位在一个特异的区室中,抑制剂必须被相应的定位。因此,合适的靶向序列包括但不限于,在保留了表达产物的生物活性的同时,能够使表达产物与一个预先确定的分子或一类分子结合的结合序列,(例如通过采用酶抑制剂或底物序列来靶向一类相关的酶);传导选择性降解其本身或共同结合蛋白信号的序列;能将候选表达产物结构性定位于一个预先确定的细胞场所的信号序列,这些场所包括a)亚细胞场所,如高尔基体,内质网,核,核仁,核膜,线粒体,叶绿体,分泌囊泡,溶酶体和细胞膜,或在已被感染的细胞的病原体或病毒内;和b)经一个分泌信号定位于细胞外场所。特别优选的是定位于亚细胞场所或经分泌到达细胞外。在一个优选的实施方案中,靶向序列是一个核定位信号(NLS)。NLSs一般是短的,带正电的(碱性的)结构区,可作为引导它们所在的整个蛋白进入细胞的核中。大量的NLS氨基酸序列已经被报道,包括单碱性NLS’s如SV40(猴病毒)大T抗原(ProLysLysLysArgLysVal)的,Kalderon(1984)等人,细胞,39499-509;人视黄酸受体-β核定位信号;NFkBp50(见,例如Ghosh等人,细胞621019(1990));NFkBp65(见,例如Nolan等人,细胞64961(1991));和其他(见,例如Boulikas,细胞生物化学杂志(J.Cell.Biochem.)55(1)32-58(1994),在此加入作为参考)和双碱性NLS’s,其实施例为爪蟾属(非洲爪蟾)蛋白,核质蛋白(见,例如,Dingwall等人,细胞,30449-458,1982和Dingwall等人,细胞生物学杂志(J.Cell.Biol.),107641-849;1988)。大量的定位研究证明在合成肽中插入的或嫁接在正常不靶向于细胞核的报告蛋白上的NLSs可使这些肽和报告蛋白在核中浓缩。例如,见,Dingwall和Laskey,细胞生物学进展年报(Ann.Rev.CellBiol.),2367-390,1986;Bonnerot等人,美国国家科学院院刊(Proc.Natl.Acad.Sci.USA),846795-6799,1987;Galileo人等,美国国家科学院院刊(Proc.Natl.Acad.Sci.USA),87458-462,1990。在一个优选的实施方案中,靶向序列是一个膜锚着信号序列。这一点特别有用,除了许多细胞内的事件起源于胞膜以外,还因为许多寄生虫和病原体与膜结合。因此,膜结合肽文库对于在这些过程中鉴定重要的成分以及发现有效的抑制剂是有用的。另外,许多药物与膜相关蛋白互相作用。发明提供了将候选蛋白提呈在细胞外或在细胞浆空间内的方法。对于细胞外的提呈,在候选蛋白的羧基末端提供一个膜锚着区域。候选蛋白区在细胞表面表达,并提呈于细胞外空间,因此他可以结合其他的表面分子(影响其功能)或在细胞外介质中存在的分子。这些分子的结合能赋予在细胞上表达结合该分子的一个肽的功能。细胞浆区域可以是中性的或可能含有一个结构区,当细胞外候选-蛋白区被结合时,可以将一个功能赋予该细胞(一个激酶,磷酸酶的激活,结合其他细胞成分影响功能)。同样,含有候选蛋白的区域可能被包含在一个细胞浆区域,跨膜区和细胞外区仍然不变或具有限定的功能。另外,应该注意的是在这个实施方案中,以及在此概述的其他实施方案中,可能NAP结合物的形成是发生在筛选之后;也就是,融合蛋白在细胞外表面表达,就意味着不能与核酸结合。但是以后随着细胞的溶解可能会与核酸结合。膜锚着序列在本领域中是已知的,其基础是哺乳动物跨膜分子的遗传几何构型。基于一个信号肽,肽被插入到膜中(在此指定为ssTM),并需要一个疏水的跨膜区(在此称为TM)。跨膜蛋白被插入到膜中,因此编码跨膜结构区5’的区域在细胞外的,序列的3’变为细胞内的。当然,如果这些跨膜结构区放置在可变区的5’端,它们将作为一个细胞内结构区进行锚着,这在一些实施方案中可能是需要的。SsTMs和TMs已知为大量的膜结合蛋白,这些序列可能相应地用来或者与一个特殊蛋白配对,或者与从一个不同蛋白中提取的每个成分配对,或可选择的是这些序列可能是合成的,并作为人工传递结构区完全来源于共有序列。膜锚着序列,包括ssTM和TM,已知为大量的蛋白,它们中的任何一个都可能被使用。特别优选的膜锚着序列包括但不限于,那些来源于CD8,ICAM-2,IL-8R,CD4和LFA-1的序列。有用的膜锚着序列包括,例如,这些序列来自1)I类整合性膜蛋白如IL-2受体β链(残基1-26是信号序列,241-265是跨膜残基;见Hatakeyama等人,科学(Science)244551(1989)和vonHeijne等人,欧洲生物化学杂志(Eur.J.Biochem.174671(1988))和胰岛素受体β链(残基1-27是信号序列,957-959是跨膜结构区,960-1382是细胞浆结构区;见Hatakeyama,见前,和Ebina等人,细胞40747(1985));2)II类整合性膜蛋白如中性肽链内切酶(残基29-51是跨膜结构区,2-28是细胞浆结构区;见Malfroy等人,生物化学和生物物理学研究通讯(Biochem.Biophys.Res.Commun.)14459(1987));3)III类蛋白如人细胞色素P450NF25(Hatakeyama,见前);和4)IV类蛋白-如人P-糖蛋白(Hatakeyama,见前)。特别优选的是CD8和ICAM-2。例如,来自CD8和ICAM-2的信号序列位于转录物的5’末端。在CD8时这些包括氨基酸1-32(例如,见Nakauchi等人,PNASUSA825126(1985))和在ICAM-2时包括1-21(例如,见,Staunton等人,自然(Nature)(London)33961(1989))。这些前导序列将构建物输送到膜上,而疏水的跨膜结构区,位于随机候选区的3’区,则在膜上锚着构建物。这些跨膜结构区包括来自CD8的145-195位氨基酸(Nakauchi,见前)和来自ICAM-2(Stauton,见前)的224-256氨基酸。可以选择的是,膜锚着序列包括GPI锚,可在分子和脂质双层之间通过一个糖基-磷酸肌醇键形成一个共价键,例如在DAF中(见,例如,Homans等人,自然(Nature)333(6170)269-72(1988),和Moran等人,生物学化学杂志(J.Biol.Chem.)2661250(1991))。为了做到这一点,来自Thy-1的GPI序列可被插入到可变区的3’以替代一个跨膜序列。同样,肉豆蔻化序列可作为膜锚着序列,已知c-src的肉豆蔻化可使其返回到浆膜上。这是一个简单和有效的膜定位方法,假定蛋白质的第一个14个氨基酸负责这个功能(见Cross等人,分子细胞生物学(Mol.Cell.Biol.)4(9)1834(1984);Spencer等人,科学(Science)2621019-1024(1993),两个文献在此加入作为参考)。已经表明这个基序在报告基因的定位中是有效的,可以用来锚着TCR的zeta链。这个基序位于可变区的5’是为了将构建物定位于浆膜。其他修饰如棕榈酰化,可用来在浆膜上锚着构建物;例如,来自G蛋白偶联受体激酶GPK6序列(例如,见Stoffel等人,生物化学杂志(J.Biol.Chem.)26927791(1994));来自视紫质(例如,见Barnstable等,J.Mol.Neurosci.5(3)207(1994));和p21H-ras1蛋白(例如,见Capon等人,自然(Nature)30233(1983))的棕榈酰化序列。在一个优选的实施方案中,靶向序列是一个溶菌酶(lysosomal)的靶向序列,包括,例如,一个溶酶体的降解序列如Lamp-2(KFERQ;Dice,纽约学院科学年报(Ann.N.Y.Acad.Sci.)67458(1992);或来自Lamp-1或Lamp-2的溶酶体膜序列(例如,见Uthayakumar等人,细胞分子生物学研究(Cell.Mol.Biol.Res.)41405(1995)(例如,-见Konecki等人,生物化学生物物理学研究通讯(Biochem.Biophys.Res.Comm.)2051-5(1994))。可以选择的是,靶向序列可由一个线粒体定位序列组成,包括线粒体基质序列(如,酵母乙醇脱氢酶III;Schatz,欧洲生化杂志(Eur.J.Biochem.)1651-6(1987));线粒体内膜序列(酵母细胞色素c氧化酶亚单位IV;Schatz,见前);线粒体膜间间隔序列(酵母细胞色素c1;Schatz,见前)或线粒体外膜序列(酵母70kD外膜蛋白;Schatz,见前)。靶序列也可由内质网序列组成,包括来自钙网蛋白(Pelham,皇家社会伦敦学报(RoyalSocietyLondonTransactions)B;1-10(1992))或腺病毒E3/19K蛋白(例如,见Jackson等人,欧洲分子生物学杂志(EMBOJ.)93153(1990))。而且,靶向序列还包括过氧化物酶序列(例如,来自荧光素酶的过氧化物基质序列;Keller等人,PNASUSA43264(1987));法尼基化序列(例如,P21H-ras1;Capon,见前);珑牛儿酰化序列(例如,蛋白rab-5A;Farnsworth,PNASUSA9111963(1994));或破环序列(细胞周期蛋白B1;Klotzbucher等人,欧洲分子生物学杂志(EMBOJ.)13053(1996))。在一个优选的实施方案中,靶向序列是一个分泌性的信号序列,能影响候选蛋白的分泌。有大量已知的分泌性信号序列,位于可变肽区的5’,从肽区上被切割以影响其向细胞外空间的分泌。分泌信号序列及其向不相关蛋白的传递是为人熟知的,如,Silhavy等人,(1985)微生物进展(Microbiol.Rev.)49,398-418。这在产生一个肽时特别有用,该肽能结合在一个靶细胞而不是宿主细胞的表面上,或影响其生理学功能。以这种方式,生长于细胞邻近的引起肽文库表达的靶细胞浸在分泌的肽中。由于一个肽的存在造成生理学改变的靶细胞,和分泌的细胞可通过任何一种选择方案和引起确定效应的肽来定位,如通过结合于一个表面受体的肽或被内化,以及结合于细胞内的靶目标。大量实施例的效应包括那些设计者细胞因子(如一个能引起造血干细胞分裂和维持全能的干细胞因子),一个引起癌细胞自发凋亡的因子,与靶细胞的细胞表面结合并特异标记它们的因子,等等。与膜锚着的实施方案类似,NAP结合物的形成也可能发生在筛选之后;也就是,具有分泌的融合蛋白就意味着它不能与核酸结合。但是以后随着细胞的溶解可能会完成与核酸的结合。合适的分泌序列是已知的,包括,例如,来自IL-2(例如,见Villinger等人,免疫学杂志(J.Immunol.)1553946(1995)),生长激素(例如,见Roskam等人,核酸研究(NucleicAcidsRes.)730(1979));前胰岛素原(例如,见Bell等人,自然(Nature)28426(1980));和流感HA蛋白(例如,见Sekiwawa等人,PNAS803563))的信号。一个特别优选的分泌信号序列是来自分泌的细胞因子IL-4的前导信号序列。在一个优选的实施方案中,融合配体是一个挽救序列(有时在此也指“纯化标记”或“修复特性”)。一个挽救序列是一个可以用来纯化或分离候选蛋白或NAP结合物的一个序列。因此,例如,肽挽救序列包括与Ni亲和柱一起使用的纯化序列,如His6标记,和用于检测,免疫沉淀或FACS(荧光激活细胞分类术)的抗原决定簇标记的纯化序列。适当的抗原决定簇标记包括myc(与市售的9E10抗体一起使用),细菌酶BirA,流感标记,lacZ和GST的BSP生物素化靶序列。挽救序列可在一个结合反应,一个酶反应,一个物理特性或一个化学特性的基础上使用。可以选择的是,挽救序列包括一个唯一的寡核苷酸序列作为一个探针目标位点,经PCR、相关技术或杂交使构建物迅速和容易的分离。在一个优选的实施方案中,融合配体是一个稳定的序列可以赋予候选蛋白或编码它的核酸以稳定性。因此,例如,在初始蛋氨酸后可以通过加入甘氨酸稳定肽类,保护肽类,防止其如perVarshavsky’sN-末端规则(N-EndRule)泛化,因此使其在细胞浆中的半衰期更长。同样,两个在C末端的脯氨酸可给予肽很强的抵抗羧肽酶作用的能力。在脯氨酸前存在两个甘氨酸可以使双-脯氨酸初始反应中的柔性和预防结构在候选蛋白结构中遗传。因此,优选的稳定序列如下MG(X)nGGPP,其中X是任何氨基酸,n是至少为4的整数。另外,连接子序列,如上所述,如果需要可在任何构型中使用。另外,融合配体,包括表现结构,可以是修饰的,自由卷曲的,-和/或成熟的,以改变随机表达产物的表现方向。例如,在环袢的碱基处的决定簇可以被修饰以轻微修饰内环肽三级结构,该结构保持自由卷曲的氨基酸序列。如果需要可以使用结合的融合配体。因此,例如,在存在或不存在连接子序列的情况下,可以使用任何数目的表现结构,靶向序列,挽救序列和稳定序列的结合。同样,如在此所述的,融合配体可以与在此描述的表达载体的任何成分相连它们可以与NAM酶、候选蛋白,或EAS直接融合,如下所述,或与这些成分是分离的,被包含在表达载体中。除了编码NAM酶和候选蛋白的序列,以及可选择的融合配体,本发明的核酸优选包含一个酶附着序列。在此“酶附着序列”或“EAS”是指所选的、调节与NAM酶的附着的核酸序列。这样的EAS核酸序列拥有特殊的序列或特殊的化学或结构构型,使NAM酶和EAS附着。EAS可包括其天然构型的DNA或RNA序列,或者是杂交体。EASs也包括插入到本发明核酸分子中的修饰的核酸序列或合成序列。EASs还包括非天然碱基或杂交的非天然和天然(如,在自然界中发现的)碱基。正如本专业技术人员可以理解的那样,EAS的选择将依赖于NAM酶,因为单个NAM酶可识别特异的序列,因此它们的使用是配对的。因此,合适的NAM/EAS对是可以被Rep蛋白(有时在此指“RepEASs”)识别的序列和该Rep蛋白,H-1识别序列和H-1等。另外,与野生型或天然存在的EAS相比,可以应用调节与NAM酶更好的共价结合的EASs。在一个优选的实施方案中,EAS是双链。通过实施例的方式,一个合适的EAS是含有特异的可与相应的NAM酶相互作用的特性的一段双链核酸序列。例如,Rep68和Rep78可识别一个包含在一个AAVITR中的EAS,AAVITR的序列见实施例1。另外,已经表明这些Rep蛋白也可以在人染色体19中识别一个类-ITR区域,该区域的序列见图48。一个EAS也包括超螺旋的DNA,一个拓扑异构酶可与其相互作用,形成共价中间复合体。可以选择的是,一个EAS是一个可被能形成共价连接的一个改变的限制酶识别的限制性酶位点,。最后,一个EAS可包括一个RNA序列和/或结构,特异的蛋白可与该RNA序列和/或结构相互作用,并形成稳定的复合体(例如,见Romaniuk和Uhlenbeck,生-物化学(Biochemistry),24,4239-44(1985))。本发明依靠NAM酶和EAS的特异结合以调节融合酶与核酸分子的连接。一个本专业普通技术人员将会理解,使用一个由一个小核酸序列构成的EAS将会导致NAM酶与表达载体和宿主细胞基因组的非特异结合,非特异结合的程度依赖于在载体或宿主基因组中的出现的、可以接受的EAS基序的频率。因此,本发明的EAS优选包括一段具有足够长度的核酸序列,这样可以产生特异的融合蛋白-编码的核酸分子的附着。例如,EAS的长度优选超过5个核苷酸,更优选地,EAS的长度超过10个核苷酸,如优选至少有12,15,20,25,30,35,40,45或50个核苷酸的EAS。而且,优选EAS以非常限定的方式存在于宿主细胞基因组中,这样至多,每个基因组仅结合一个或两个NAM酶,如在一个人细胞基因组中不超过一次。在一些情况下,EAS在一个宿主细胞,如一个人类细胞基因组,中存在许多次,融合蛋白被附着于宿主细胞基因组上的表达载体和非表达载体编码的可能性增加,因此这不是我们所期望的。例如,噬菌体P2A蛋白识别一个相对短的DNA识别序列。如果这样,在哺乳动物细胞中使用P2A蛋白将引起蛋白在宿主基因组的全长中结合,并很难鉴定所需的核酸序列。因此,优选的实施方案将排除使用P2A作为一个NAM酶。本专业普通技术人员将会理解,在本发明中使用的NAM酶或相应的EAS可以被进行处理,以增加融合蛋白-核酸分子复合体的稳定性。只要NAM酶与其相应的EAS形成共价键,在此就可考虑这样的处理。因此,在一个优选的实施方案中,发明的核酸包括(i)含有编码一个NAM酶和一个候选蛋白序列的一个融合核酸,和(ii)一个EAS。这些核酸优选整合入一个表达载体中;因此提供表达载体的文库,有时在此指“NAM酶表达载体”。表达载体既可以是自我复制的染色体外载体,这些载体可整合入一个宿主基因组,也可以是能或不能自我复制的线性核酸。因此,线性核酸分子可以特别的包括在表达载体的定义中。因此表达载体可包括,质粒,质粒-脂质体复合体,噬菌体载体,和病毒载体,如腺伴随病毒(AAV)为基础的载体,逆转录病毒载体,单纯疱疹病毒(HSV)为基础的载体和腺伴随病毒为基础的载体。可以采用标准的重组DNA技术制备核酸分子和任何这些表达载体,其方法的描述见,例如,Sambrook等人,分子克隆,实验室手册,第二版,ColdSpringHarbor出版社,ColdSpringHarbor,N.Y.(1989),和Ausubel等人,当代分子生物学方法,GreenePublishingAssociates和JohnWiley&Sons,纽约,N.Y.(1994)。一般来说,这些表达载体含有有效连接至编码NAM蛋白的核酸上的、调节转录和翻译的核酸序列。术语“控制序列”是指在一个特殊的宿主有机体内表达一个有效连接的编码序列所必需的DNA序列。适合于原核细胞的控制序列,例如,包括一个启动子,可选择的一个操纵子序列,和一个核糖体结合位点。已知真核细胞可应用启动子,多聚腺苷酸化信号和增强子。当一个核酸与另一个核酸序列处于功能性关系的位置时,该核酸是“有效连接”的。例如,如果作为一个参与多肽分泌的前蛋白表达时,前序列或分泌引导子的DNA有效连接到编码多肽的DNA上;如果一个启动子或增强子影响了序列的转录,该启动子或增强子就与编码序列有效连接;或如果一个核糖体结合位点的定位利于翻译,该核糖体结合位点与编码序列就是有效连接。一般来说,“有效连接”是指被连接的DNA序列是相邻的,在分泌引导子情况下,是相邻的并处于阅读阶段。但是,增强子并不一定是相邻的。在合适的限制位点通过3’,-5’磷酸二酯键连接完成连接。如果这样的位点不存在,可根据常规经验使用合成的寡核苷酸连接蛋白或连接子。如本专业技术人员可理解的那样,转录和翻译调节核酸一般适合用于表达NAM蛋白的宿主细胞;例如,优选使用来自细菌的转录和翻译调节核酸序列以在细菌中表达NAM蛋白。对于各种宿主细胞,本专业已知有许多类型的适当的表达载体和合适的调节序列。一般地,转录和翻译调节序列可以包括但不限于,启动子序列、核糖体结合位点、转录起始和终止序列、翻译起始和终止序列、以及增强子、沉默子或激活子序列。在一个优选的实施方案中,调节序列包括启动子及转录起始和终止序列。“启动子”是一段引导RNA聚合酶连接,因而促进RNA合成的核酸序列。启动子序列包括结构性和可诱导性启动子序列。结构性启动子的实施例包括但不限于,CMV立即-早期启动子、RSV长末端重复区、鼠乳腺瘤病毒(MMTV)启动子,等。合适的可诱导性启动子包括但不限于,IL-8启动子、金属硫蛋白诱导性启动子系统、细菌lacZYA表达系统、四环素表达系统、和T7聚合酶系统。启动子可以是天然存在的启动子、杂交启动子、或合成的启动子。杂交启动子,其组合成分超过一个启动子,也是本专业已知的,并可用于本发明。另外,表达载体可能包括其他的成分。例如,表达载体可能具有两个复制系统(如复制启始点),因此可使它保留在两个有机体中,例如在动物细胞中表达,在原核宿主中克隆和扩增。此外,对整合表达载体--在大多数实施方案中一般不优选--来说,表达载体含有至少一段与宿主细胞基因组同源的序列,优选排列在表达构建物旁边的两个同源序列。通过为载体中的包含物选择合适的同源序列,整合的载体可能被引导到宿主细胞中的特定位置。整合载体的构建物和适当的选择和筛选方法在本专业中是已知的,并在如Mansour等人,细胞,51503(1988)和Murray,基因转移和表达方法,分子生物学方法,第7卷(CliftonHumana出版社,1991)中有描述。应当注意到,本发明的组合物和方法允许特殊的染色体分离。例如,由于人类第19号染色体含有一个Rep结合序列(如EAS),当NAM酶是Rep时,NAP结合物将与第19号染色体一起形成。细胞溶解之后进行免疫沉淀,采用对Rep蛋白本身的抗体(如不需要候选蛋白)、或对融合候选蛋白的抗体、或对纯化标记物的抗体,可以纯化染色体。这是一项重大的进步,优于目前的染色体纯化技术。因此,通过将EAS位点选择性或非选择性地整合入染色体,就可以纯化不同的染色体。另外,在一个优选的实施方案中,表达载体包含一个选择基因,可选择含有表达载体的转化宿主细胞,特别是在哺乳动物细胞,确保了载体的稳定性,因为不含载体的细胞一般将会死亡。选择基因在本专业中为人熟知,并根据宿主细胞的不同而异。在此的“选择基因”是任何一种基因,它所编码的基因产物赋予含有载体的细胞以新的表现型。这些表现型包括,例如,促进或延缓细胞的生长。这些表现型也包括对选择剂的抗性。合适的选择剂包括但不限于,新霉素(或其类似物G418)、杀稻瘟菌素S、histinidolD、争光霉素、嘌呤霉素、-潮霉素B和其他药物。表达载体也可以包括标记蛋白的编码序列,例如,绿色荧光蛋白,它能够,例如,迅速地鉴定成功转导的细胞。在一个优选的实施方案中,表达载体在要表达的基因的上游或下游包含了一个RNA剪接序列,以便增加基因表达的水平。见Barret等人,核酸研究(NucleicAcidsRes.)1991;Groos等人,分子细胞生物学(Mol.Cell.Biol.)1987;和Budiman等人,分子细胞生物学(Mol.Cell.Biol.)1988。一个表达载体系统是逆转录病毒载体系统,如一般在Mann等人,细胞,33153-9(1993);Pear等人,美国国家科学院院刊(Proc.Natl.Acad.Sci.U.S.A.),90(18)8392-6(1993);Kitamura等人,美国国家科学院院刊(Proc.Natl.Acad.Sci.U.S.A.),929146-50(1995);Kinsella等人,人类基因治疗(HumanGeneTherapy),7;1405-13;Hofmann等人,美国国家科学院院刊(Proc.Natl.Acad.Sci.U.S.A.),935185-90;Choate等人,人类基因治疗(HumanGeneTherapy),72247(1996);PCT/US97/01019和PCT/US97/01048,和这里引用的文献中所描述的,在此特别引用作为参考。本发明的融合蛋白可在适当的诱导或引起融合蛋白产生的条件下,通过培养核酸转化的宿主细胞来生产,优选的转化的核酸是在此概述的表达载体。适合融合蛋白生产的条件会依选择的表达载体和宿主细胞不同而异,并由专业技术人员采用常规的方法容易地确定。例如,在表达载体中使用构成性启动子将需要优化宿主细胞的生长和增殖,而使用可诱导的启动子要求适当的生长条件来诱导。另外,在一些实施方案中,收获的时间是重要的。例如,用于昆虫细胞的杆状病毒系统是细胞溶解性病毒,因此收获时间的选择对于产物的产量来说是关键的。任何能够承受外源DNA导入和随后蛋白产生的宿主细胞均适用于本发明。宿主细胞的选择部分地依赖于要进行的测定;例如,体外(invitro)系统可使用任意数目的真核或原核生物,而离体(exvivo)系统优选使用动物细胞,特别是哺乳动物细胞并特别强调人类细胞。因此,适合的宿主细胞包括酵母、细菌、古细菌、植物和昆虫及动物细胞,包括哺乳动物细胞,特别是人类细胞。宿主细胞可以是天然细胞,原代细胞,包括从病态组织或生物体中分离出来者,细胞系(又是那些源于疾病组织的细胞),基因改造的细胞,等。特别感兴趣的是果蝇黑素原细胞、酿酒酵母和其他酵母菌、大肠杆菌、芽孢杆菌属枯草菌,SF9细胞、C129细胞、293细胞、链孢菌属、BHK、CHO、COS,和HeLa细胞、成纤维细胞、雪旺氏细胞系,等。见ATCC细胞系目录,在此特别加入作为参考。在一个优选的实施方案中,融合蛋白在哺乳动物细胞中表达。哺乳动物表达系统在本专业领域中也是已知的,包括,如逆转录病毒和腺病毒系统。哺乳动物启动子是任何能结合哺乳动物RNA聚合酶,并启动一个进入mRNA的融合蛋白编码序列的下游(3’)转录的DNA序列。一个启动子将有一个转录启始区和一个TATA框,前者通常位于编码序列5’端的近端,后者利用一个转录启始位点上游定位的25-30个碱基对。TATA框被认为介导RNA聚合酶II在正确的位点开始RNA合成。哺乳动物启动子还将含有一个上游启动子元件(增强子元件),典型地位于TATA框上游的100至200碱基对之内。上游启动子元件决定着转录起始的速率,并能在任一方向起作用。具有特殊用途的哺乳动物启动子是来自哺乳动物病毒基因的启动子,因为病毒基因经常高度表达并具有广泛的宿主范围。实施例包括SV40早期启动子、小鼠乳腺瘤病毒LTR启动子、腺病毒主要延迟启动子、单纯疱疹病毒启动子和CMV启动子。代表性地,被哺乳动物细胞识别的转录终止和多聚腺苷序列是位于翻译终止密码子3’端的调节区,并与启动子元件一起位于编码序列的侧面。成熟mRNA的3’末端是通过位点特异的翻译后切割和多聚腺苷化而形成的。转录终止子和多聚腺苷化信号的实施例包括来自SV40的那些。引导外源核酸进入哺乳动物宿主和其它宿主的方法在本专业内为人熟知,并随着所用的宿主细胞不同而异。技术包括葡聚糖介导的转染、钙磷沉淀法、1,5-二甲基-1,5-二氮十一亚甲基聚甲溴化物介导的转染、原生质体融合、电击孔法、病毒感染、在脂质体内包封多聚核苷酸、和将DNA直接微注射进细胞核。在一个优选的实施方案中,在细菌系统中产生了NAM融合体。细菌表达系统是可以广泛获得的,包括例如质粒。一个适合的细菌启动子是能够结合细菌RNA聚合酶并启动进入mRNA的融合体的编码序列下游(3’)转录的任何核酸序列。细菌启动子具有一个通常位于编码序列5’端近端的转录起始区。此转录启始区典型地包括一个RNA聚合酶结合位点和一个转录起始位点。编码代谢通路酶的序列提供了特别有用的启动子序列。实施例包括来自糖代谢酶的启动子序列,如半乳糖、乳糖和麦芽糖,以及来自生物合成酶,如色氨酸的序列。也可使用来自噬菌体的启动子,并为本专业已知技术。此外,也可使用合成的启动子和杂交的启动子,例如,tac启动子是trp和lac启动子序列的杂交体。进一步,细菌启动子可以包括具有结合细菌RNA聚合酶并启动转录能力的、天然存在的非细菌来源的启动子。除了功能性启动子序列以外,也需要一个有效的核糖体结合位点。在大肠杆菌,核糖体结合位点被称为Shine-Delagarno(SD)序列,包括一个起始密码子和位于启始密码子上游3-11核苷酸位的3-9个核苷酸长度的序列。表达载体也可包括一个信号肽序列,以使融合蛋白在细菌或其它细胞中分泌。如本专业所熟知的,信号序列典型地编码一个含有疏水氨基酸的信号肽,引导蛋白从细胞中分泌。蛋白分泌进培养基(革兰阳性细菌)或周质腔内,后者位于细胞内膜和外膜之间(革兰阴性细菌)。细菌表达载体还可包含一个可选择的标记基因,以选择被转化的细菌株。适合的筛选基因包括使细菌对药物如氨苄青霉素、氯霉素、红霉素、卡那霉素、新霉素和四环素产生抗性的基因。可选择的标记还包括生物合成基因,如那些在组氨酸、色氨酸和亮氨酸生物合成通路中的基因。其中适合的细菌细胞含有例如,其中用于枯草杆菌、大肠杆菌、乳脂链球菌和青紫链球菌(Streptococcuslividans)的载体。细菌表达载体可用本专业熟知的技术转化进细菌宿主细胞,如氯化钙处理、电击孔法、和其它方法。应用细菌细胞的一个好处是能够繁殖含表达载体的细胞,从而产生克隆种群。NAM融合蛋白也可以在昆虫细胞如Sf9细胞中产生。用于昆虫细胞转化作用的表达载体,特别是杆状病毒为基础的表达载体,为本专业所熟知,并在如,O’Reilly等人,杆状病毒表达载体实验室手册(纽约牛津大学出版社,1994)中有所描述。此外,NAM融合蛋白可以在酵母细胞中产生。酵母表达系统在本专业内为人熟知,包括例如酿酒酵母、白色念珠菌和麦芽糖念珠菌、多形汉逊酵母、脆弱克罗维酵母和乳酸克罗维酵母、毕赤Guillerimondii和P.pastoris、非洲粟酒裂殖酵母和Yarrowialipolytica的表达载体。优选的在酵母中表达的启动子序列包括可诱导的GAL1,10启动子、来自乙醇脱氢酶、烯醇酶、葡萄糖激酶、葡萄糖-6-磷酸异构酶、甘油醛-3-磷酸-脱氢酶、已糖激酶、磷酸果糖激酶、3-磷酸甘油酸变位酶、丙酮酸激酶以及酸性磷酸酶基因。酵母选择性标记包括ADE2、HIS4、LEU2、TRP1和ALG7,它们具有对衣霉素的抗性;新霉素磷酸转移酶基因具有对G418的抗性;CUP1基因使得酵母可以在有铜离子存在的情况下生长。应用酵母细胞的一个好处是能够繁殖含载体的细胞,从而产生克隆种群。优选的表达载体见图49A-49N。除了这里概述的组分,包括NAM酶-候选蛋白融合体、EASs、连接子、融合配体等以外,表达载体可含有一些其它组分,包括如这里概述的选择基因(特别包括生长促进或生长抑制功能)、可活化元件、重组信号(如cre和lox位点)和标记物。优选地,本发明的融合肽、融合核酸、结合物等,进一步含有一个标记成分。再且,关于本发明的融合配体,标记可以被融合到一个或多个其它组分上,例如,在NAM酶和候选蛋白仍然附着时融合到NAM融合蛋白上,或当发生分裂时融合到任一组分上,或分别融合到自身启动子上。此外,如在下面进一步描述的,检测系统的其它组分可被标记。标记可以是直接或间接的检测标记,在这里有时被称做“初级”和“次级”标记。这里的“检测标记”或“可检测标记”是指允许检测的部分。这可能是初级标记或次级标记。因此,检测标记可能是初级标记(如可直接检测)或次级标记(可间接检测)。大体上,标记分为4类a)同位素标记,可能是放射活性的或重同位素;b)磁、电、温度标记;c)有颜色的或荧光的染料或部分;和d)结合配体。标记也可以包括酶(辣根过氧化酶等)和磁性颗粒。在一个优选实施方案中,检测标记是初级标记。一个初级标记是可以直接检测的,如荧光基团。优选的标记包括,例如,生色基团或磷光剂,但最好是荧光染料或部分。荧光基团可以是“小分子”荧光源或蛋白质荧光源。在一个优选的实施方案中,特别对于靶分子的标记,如下所述,适用于本发明的染料包括但不限于,荧光的镧系复合物包括铕和铽、荧光素、罗丹明、四甲基罗丹明、伊红、藻红、香豆素、甲基-香豆素、量子点(也称做“微结晶”)、芘、孔雀(Malacite)绿、二苯乙烯、金星黄、级联蓝(CascadeBlue)、得克萨斯红、Cy染料(Cy3、Cy5等)、alexa染料、藻红蛋白、bodipy和其它在RichardP.Haugland著的第6版分子探针手册中所描述者,在此特别加入作为参考。在一个优选的实施方案中,例如当标记附着在融合多肽或将作为表达载体的一部分表达时,使用蛋白质荧光源。适合的自发荧光蛋白包括但不限于,来自Aequorea和其变异体的绿荧光蛋白(GFP);包括但不限于GFP(Chalfie等人,科学263(5148)802-805(1994));增强的GFP(EGFP;Clontech-基因库进入号U55762)),蓝荧光蛋白(BFP;QuantumBiotechnologies,Inc.1801deMaisonneuveBlvd.West,8thFloor,Montreal(Quebec)CanadaH3H1J9;Stauber,R.H.生物技术(Biotechniques)24(3)462-471(1998);Heim,R.和Tsien,R.Y.Curr.Biol.6178-182(1996))和增强的黄荧光蛋白(EYFP;ClontechLaboratories,Inc.,1020EastMeadowCircle,PaloAlto,CA94303)。此外,近期报道有来自Renilla种属的自发荧光蛋白。见WO92/15673;WO95/07463;WO98/14605;WO98/26277;WO99/49019;美国专利5,292,658;美国专利5,418,155;美国专利5,683,888;美国专利5,741,668;美国专利5,777,079;美国专利5,804,387;美国专利5,874,304;美国专利5,876,995;和美国专利5,925,558;所有这些均特别加入作为参考。在一个优选的实施方案中,标记蛋白是Aequorea绿荧光蛋白或其变异体之一;见Cody等人,生物化学(Biochemistry)321212-1218(1993);和Inouye和Tsuji,FEBSLett.341277-280(1994),两者在此均特别加入作为参考。在一个优选的实施方案中,使用一个次级可检测标记。次级标记是间接检测的标记;例如,次级标记可以结合或与一个用于检测的初级标记起反应,可以作用于一个附加产物上以产生一个初级标记(如酶类),或可使含次级标记的化合物与非标记物质分离,等等。次级标记包括但不限于,结合配体对之一;化学可修饰的部分;酶如辣根过氧化酶、碱性磷酸酶、荧光素酶等;以及细胞表面标志,等。在一个优选的实施方案中,次级标记是一个结合配体对。例如,标记可以是一个半抗原或抗原,将与其结合配体结合。在一个优选的实施方案中,结合配体可被附着在固体支持物上以使含标记的组分与不含者分离。例如,适合的结合配体对包括但不限于抗原(如蛋白(包括肽))和抗体(包括其片段(FAbs等));蛋白和小分子,包括生物素/抗生物素蛋白链菌素;酶类和底物或抑制剂;其它蛋白-蛋白反应对;受体-配体;和碳水化合物及其结合配体。也使用核酸-核酸结合蛋白对。总之,尽管不是所有实施方案都需要,配体对中较小者与系统组分附着以加入检测中。优选的结合配体对包括但不限于生物素(或亚胺-生物素)和抗生物素蛋白链菌素、地高辛和Abs,等。在一个优选的实施方案中,结合配体对包括一个初级检测标记(例如与检测组分附着)和一个将与初级检测标记特异结合的抗体。关于“特异结合”,这里是指配体对结合的特异性足以将配体对和系统的其它组分或污染物区分开来。在检测条件下结合将足以保持连接,包括冲洗步骤以去除非特异结合。在一些实施方案中,配体对的解离常数将小于大约10-4-10-6M-1,优选小于大约10-5-10-9M-1,特别优选为小于大约10-7-10-9M-1。在一个优选的实施方案中,次级标记是一个化学可修饰的部分。在该实施方案中,含有活性功能基团的标记掺入检测组分中。然后,功能基团接着被一个初级标记标记。合适的功能基团包括但不限于,氨基、羧基、顺丁烯二酰亚胺基、桥氧基和硫醇基,氨基和硫醇基是特别优选的。例如,含氨基的初级标记可以与含氨基的次级标记连接,例如采用本专业已知的连接子;例如已为人熟知的同-或异-双功能连接子(见1994PierceChemicalCompany目录,交叉连接子的技术章节,155-200页,在此加入作为参考)。为控制融合酶与EAS的连接,构建表达载体以提供进一步的选择是有益处的。例如,EAS能够以无功能的两部分导入核酸分子,在酶介导或非酶介导的同源重组作用下,如cre-lox介导的重组,结合起来,形成一个有功能的EAS。同样地,引用的cre-lox因素也可以用于控制功能融合酶的形成。cre-lox重组的控制优选通过在可诱导启动子控制下,引导重组酶基因进入表达系统而调节,无论在同一个核酸分子上或在另一个表达载体上。总之,一旦本发明的表达载体形成,它们可以有两种结局之一,仅仅举例为它们被导入无细胞翻译系统产生在体外检测的核酸/蛋白(NAP)结合物文库,或者,优选地导入宿主细胞,在那里形成NAP结合物;细胞可被任意地溶解和相应地检测。在一个优选的实施方案中,制成表达载体并导入无细胞系统以翻译,在NAP酶与EAS附着后形成了一个核酸/蛋白(NAP)结合物。关于这里的“核酸/蛋白结合物”或“NAP结合物”是指NAP酶和EAS间的共价结合,使得含EAS的表达载体与NAP酶共价连接。适合的无细胞翻译系统在本专业内已知。一旦形成,NAP结合物如以下所概述被用于检测。在一个优选的实施方案中,本发明的表达载体被导入这里概述的宿主细胞中。关于“导入”或在此的语法等同者是指核酸以一种适于随后核酸表达的方式进入细胞。引导方法在很大程度上由靶细胞类型决定,在以下会有讨论。方法的举例包括CaPO4沉淀、脂质体融合、脂质转染、电击孔法、病毒感染、基因枪,等等。侯选核酸可稳定地整合进宿主细胞基因组中(例如,用这里概述的逆转录病毒引导),或可暂时地或稳定地存在于细胞浆内(即,通过应用传统的质粒、应用标准调节序列、选择标记,等等)。适合的宿主细胞概述如上,真核细胞、哺乳动物和人类细胞均是优选的。许多前面描述的方法涉及细菌细胞内肽文库的表达。然而,本专业内可以理解的是,翻译机制如密码子选择、蛋白折叠机制和例如哺乳动物肽的翻译后修饰,如果该修饰一定要发生的话,在细菌细胞内是无法实现或改变的。细菌细胞内筛选的肽文库经常涉及短氨基酸序列的表达,它们不能模拟蛋白质的天然结构。筛选这些小的、亚片段序列不能有效地测定天然蛋白质的功能,因为例如识别其受体的小配体的需求很容易地被没有天然结构的小片段满足。由于没有三维结构的复杂性,因此简化了结合的要求。本发明的一个优点是能够在天然环境和天然蛋白结构的情况下表达和筛选未知肽的能力。融合酶与其相应表达载体的共价结合使得可在除细菌之外的有机体内筛选肽。一旦导入一个真核宿主细胞内,核酸分子即转运到核内,在此发生复制和转录。转录产物迁移到细胞浆以进行翻译和翻译后修饰。然而,产生的肽和相应的核酸分子必须相遇以进行连接,这个过程被真核细胞的区室化所阻碍。NAM酶-EAS识别可以四种方式发生,无论如何本发明只是举例而无意限制。首先,宿主细胞可以进行一个周期的分裂,在此过程中核的包膜破裂。第二,宿主细胞可被用病毒感染,并在核包膜上打孔。第三,特殊的核定位或转运信号可被导入进融合酶。最后,宿主细胞细胞器可被用本专业已知的方法破坏。上述方法的最终结果是将表达载体转移进与融合酶相同的环境中。DNA结合蛋白和前述表达文库附着位点之间的非共价作用不能经受起真核细胞内使融合蛋白与其表达载体结合所需的步骤。其它在本专业描述的DNA-蛋白连接,如那些应用细菌P2ADNA结合肽者,需要结合肽保持与其编码DNA有直接接触而使结合得以发生,即,翻译必须发生在编码序列的近端(见,例如,Lindahl,病毒学(Virology),42,522-533(1970))。这种连接只在原核系统中可以完成而在真核细胞中不能产生。一旦NAM酶表达载体被导入进宿主细胞,细胞就被任意地溶解。细胞溶解通过任何适合的技术完成,如本专业已知的各种技术的任一种(见,例如,Sambrook等人,分子克隆,实验室指南,第二版,ColdSpringHarborPress,ColdSpringHarbor,N.Y.(1989),和Ausubel等人,现代分子生物学方法,GreenePublishingAssociates和JohnWiley&Sons,NewYork,N.Y.(1994),因此在此特别加入作为参考)。大多数细胞溶解的方法涉及给予化学、酶或机械刺激。尽管融合酶与其编码核酸分子的连接是共价连接,因此可以比非共价键经受更多样的条件,但仍应注意要保证融合酶-核酸分子复合物保持完整,即融合酶仍然与表达载体连在一起。在一个优选的实施方案中,NAP结合物可在细胞溶解后被纯化或分离。理想状态是,含融合蛋白-核酸分子复合物的溶解物与得到的大部分细胞碎片分离开,以加速与靶目标的相互作用。例如,NAP结合物可从表达后通常与其共同存在的一些或所有蛋白和化合物中分离或纯化出来,因而可能实质上是纯的。例如,一个分离的NAP结合物至少不伴有一些通常在天然(未纯化)状态下与其相连的物质,在一个给定样本的总蛋白中,按重量优选的组成大约至少为0.5%,更优选地至少大约5%或更多。一个基本上纯的蛋白按重量至少包括75%或以上的总蛋白,优选至少80%以上,特别优选地大约90%以上。NAP结合物根据样本中存在的其它组分的种类,可采用本专业技术人员已知的各种方法分离或纯化。标准的纯化方法包括电泳、分子、免疫学和色谱技术,包括离子交换、疏水性、亲合性、反相HPLC色谱法、凝胶过滤和色谱聚焦。也使用超滤和透滤技术与蛋白浓缩技术的结合。关于适合的纯化技术的一般指导见,Scopes,R.,蛋白纯化,Springer-Verlag,NY(1982)。所需要的纯化程度根据NAP结合物应用的不同而异。在某些情况下,不需要纯化。因此,本发明提供的NAP结合物是溶解的、可选择性纯化或分离的,或者包含在宿主细胞内。如果需要的话,一旦表达和纯化,NAP结合物可在多种应用中使用,包括体外和离体的筛选技术。本专业的一个普通技术人员将理解,本发明方法的体外和离体实施方案在数个研究领域内可使用。例如,本发明可应用于诊断检测中,并可在数个学科中被用于研究,包括但不限于,临床药理学、功能性遗传学、药物遗传学、农业化学、环境安全评价、化学传感器、营养生物学、化妆品研究和酶学。在一个优选的实施方案中,NAP结合物被用在体外筛选技术中。在此实施方案中,制备了NAP结合物,并进行了筛选以结合和/或调节靶分子的生物活性。本发明的一个强势是可以识别结合到候选蛋白上的靶分子。如下面更充分概述的,这一点有广泛的应用,包括阐明信号传导通路的成员、阐明一个药物或其它目的化合物的结合配体,等。因此,NAP结合物被用于检测靶分子。关于“靶分子”或在此的语法等同者,是指一种相互作用所寻找的分子;此术语是本专业技术人员普遍理解的。靶分子包括生物学的或非生物学的目标分子。生物学靶分子是指任何限定的和非限定的生物学颗粒,如巨分子复合物,包括病毒、细胞、组织和其组合物,是作为细胞内生物学反应的结果而产生的。非生物学靶分子是指作为人或非人类活动的结果在细胞外产生的分子或结构。本发明的文库也可被用于化学上限定的靶分子和化学上非限定的靶分子。“化学上限定的靶分子”是指那些具有已知化学性质和/或组成的靶分子;“化学上非限定的靶分子”是指具有未知或部分已知化学性质/组成的靶分子。因此,适合的靶分子包含各种不同的种类,包括但不限于,细胞、病毒、蛋白(特别地包括酶、细胞表面受体、离子通道、转录因子,和由致病基因产生或在疾病状态中表达的蛋白)、碳水化合物、脂肪酸和类脂、核酸,化学成分如小分子、农药、药物、离子(特别是金属离子)、多聚体和其它生物材料。因此,例如与集合物(天然存在的和合成的)或其他生物材料的结合,可用本发明的方法和成分实现。在一个方面,靶分子是一段核酸序列,且目的候选蛋白有与该核酸序列结合的能力。本发明很好地适于鉴定DNA结合肽和其编码序列,以及被DNA结合肽识别和结合的靶核酸。已知DNA-蛋白质相互作用在控制基因表达和染色体结构上发挥重要作用,从而决定着某个细胞的整体基因程序。据估计只有5%的人类基因组参与编码蛋白质。因此,其余95%可能是DNA结合蛋白作用的位点,从而控制着许多遗传程序,如调节基因表达。尽管在人基因组中存在的DNA结合肽的数量尚不清楚,但可获得的许多基因组完整序列信息揭示了全部“底物”,即DNA结合肽可能作用的DNA序列的整个组成部分。因此,在遗传学研究中它将有益于(1)识别编码DNA结合肽的核酸序列,和(2)决定这些DNA结合肽的底物。目前用于测定蛋白-DNA相互作用的方法集中在研究DNA和特异蛋白靶分子的个别相互作用上。多种生物化学和分子检测包括DNA印记、核酶保护、凝胶迁移和亲合性色谱结合,被用于研究蛋白质-DNA相互作用。尽管这些方法对于测定个别DNA-蛋白质相互作用是有用的,它们并不适于在基因组水平大规模分析这些相互作用。因此,在本专业内需要进行DNA结合蛋白和其作用的DNA序列的大规模分析。本发明的方法和文库对这种分析可用于这些分析。例如,编码潜在DNA结合肽的融合酶文库可以筛选靶DNA片段群。靶DNA片段群可以是,例如随机DNA、片段的基因组DNA、变性序列或多种一级、二级或三级结构的DNA序列。如果需要,DNA结合肽-底物结合的特异性可以通过改变靶DNA识别序列的长度而改变。测定潜在的DNA结合肽与靶DNA片段群中一员的结合,并进一步对被DNA结合肽结合的特定DNA识别序列进行研究。为加速融合酶-靶核酸复合物的鉴定,DNA片段群可以被结合到例如珠子上,或构建成微芯片上的DNA列阵。因此,应用本发明的方法,一个本专业普通技术人员可以鉴定DNA结合肽,鉴定DNA结合肽的编码序列,并确定DNA结合肽识别和结合的核酸序列。因此,在一个实施方案中,本发明提供了根据其相对位置生成DNA结合序列和DNA结合蛋白图谱的方法,以提供用蛋白和序列注解的染色体图谱。然后,一个包含这些信息的数据库将可以对基因表达概貌、疾病表现型和药理遗传学数据,以及类似物进行关联。因此,在筛选系统中使用NAP结合物检测对靶分子的结合和/或筛选侯选物质的调节靶分子活性的能力。总之,筛选系统首先被设计成可以发现能够与靶分子结合的候选蛋白,然后这些蛋白被用在评价候选蛋白调节靶分子生物活性能力的检测中。因此,可以进行几种不同的检测;结合检测和活性检测。如将被本专业人员理解的那样,这些检测可用各种配置进行,包括液相检测和应用有支持载体的系统。在一个优选的实施方案中,检测包括将本发明的NAP结合物与一个靶分子结合,并确定NAP结合物的候选蛋白与靶分子的结合。优选地,NAP结合物文库(如包括不同候选蛋白的文库)接触单一型靶分子、多数靶分子、或靶分子的一个或更多文库。一般地,在一个这里方法的优选实施方案中,本发明的一个组成部分,NAP结合物或靶分子,不扩散地与一个具有独立的样本接受区域(如微滴定板、列阵,等)的不溶性支持物结合。不溶性支持物可由任何测定成分能够结合的组分制成,并容易地与可溶性物质分离,另外与筛选的总体方法相容。该支持物的表面可以是固体的或多孔的,并为任何合适的形状。适合的不溶性支持物的例子包括微滴定板、列阵、膜和珠。典型地由玻璃、塑料(如聚苯乙烯)、多糖、尼龙或硝酸纤维、特氟隆,等制成。微滴定板和列阵特别合适,因为可以应用少量的试剂和样本同时进行大量的检测。可以选择的是,可应用微珠基质的检测,特别是使用荧光激活的细胞分类术(FACS)。结合检测成分的特殊方法并不重要,只要与反应试剂和本发明的总体方法相容,保持组分的活性并不扩散就可以。优选的结合方法包括应用抗体(当蛋白结合到支持物上时不在空间上阻断配体结合位点或活化序列)、介导与“粘性”或离子支持物上的结合、化学交联、应用标记的成分(如检测成分是生物素化的和表面含有链霉素抗生物素蛋白,等)、在表面上合成靶分子,等等。在NAP结合物或靶分子结合后,多余的未结合物质通过适当的方法去除,包括例如化学的、物理的和生物学的分离技术。然后,样本接受表面可通过与牛血清白蛋白(BSA)、酪蛋白或其他无害蛋白质或其他部分孵育而被封闭。在一个优选的实施方案中,靶分子结合到支持物上,并加入NAP结合物进行检测。也可以NAP结合物结合到支持物上加入靶分子进行检测。新的结合试剂包括特异性抗体、在化学文库的筛选系统中鉴定的非天然结合试剂、肽类似物,等。特别感兴趣的是对人细胞具有低毒性的试剂的筛选检测。确定靶分子和候选蛋白结合可采用多种测定方法,包括但不限于标记的体外蛋白-蛋白结合试验、电泳迁移率试验、蛋白结合的免疫检测、标记测定、功能试验(磷酸化试验等),等等。候选蛋白与靶分子结合的测定可用几种方法进行。在一个优选的实施方案中,组分之一,优选可溶性成分,被标记,通过测定标记来直接检测结合。例如,可以将NAP结合物附着于固体支持物上,加入标记的靶分子(例如含荧光标记的靶分子),去除多余的试剂,并确定标记是否存在于固体支持物上。此系统也可相反地进行,靶分子(或一个靶文库)被结合到支持物上,加入一个NAP结合物,优选含有初级或次级标记者。例如,含有与GFP或变异体融合的NAP结合物是特别有用的。如本专业已知的,可以使用多种封闭和冲洗步骤。如本专业人员将理解的那样,还可以在固定到支持物上之前使NAP结合物与靶分子接触。在一个优选实施方案中,固体支持物是一个排列格式;即应用一个含有一个或多个与列阵附着的靶分子或NAP结合物文库的生物芯片。这在核酸结合蛋白的检测中特别有用,如本专业熟知的核酸生物芯片。在该实施方案中,核酸靶在列阵上加入NAP结合物。同样,可以使用靶蛋白文库的蛋白质生物芯片,加入标记的NAP结合物。可选择的是,通过系统的核酸组分,或者通过蛋白组分可将NAP结合物附着到芯片上。这也可以用微珠基质的系统进行;例如,为测定核酸结合蛋白,可以用微珠或其他固体支持物进行标准的“分裂和混合”技术,或任何标准的寡核苷酸合成方案,以制备序列文库。然后加入NAP结合物文库以测定结合到特定序列的候选蛋白。在一些实施方案中,只有组分之一被标记;可选择地,可用不同的标记物标记在一个以上组分上。在一个优选的实施方案中,候选蛋白的结合通过采用竞争结合检测而确定。在该实施方案中,竞争者是一个已知与靶分子结合的结合部分,如抗体、肽、结合配体、配体,等。在某些情况下,在靶分子和结合部分之间存在竞争性结合,结合部分代替了靶分子。因此,本发明的优选应用是测定一个药物将结合的组分。即,有许多药物,其作用的靶目标未知,或仅部分已知。从药物和含有其作用的细胞类型的cDNA表达产物文库的NAP结合物出发,可阐明药物所结合的蛋白。通过识别信号传导通路中的其他蛋白或靶分子,这些新识别的蛋白可作为反向筛选的工具用于其他的药物筛选,或概括化学诱导事件。此外,采用同样的方法进行毒性研究是可能的;通过鉴定某些药物不希望结合的蛋白,可以用该信息设计没有这些不合需要副作用的药物衍生物。另外,侯选药物可以进行这些类型的筛选以寻找任一或所有类型的相互作用,包括不希望的结合反应。同样,也可能使用药物衍生物文库作为靶目标,以提供一个二维的分析。可在检测中使用阳性对照和阴性对照。优选地,所有对照和测试样本至少进行三次以获得统计学显著的结果。所有样本孵育的时间足以使试剂结合到蛋白上。孵育后,对所有样本进行冲洗使其不含非特异结合物质,所测定结合的数量,一般为标记试剂的量。例如,在使用放射标记时,样本可在闪烁计数器内计数以测定结合化合物的量。同样,ELISA技术通常是优选的。许多其他的试剂可在筛选试验中使用。包括例如,但不限于,盐类、中性蛋白如白蛋白、去垢剂等,它们可被用于促进最佳的蛋白-蛋白结合和/或减少非特异或背景反应。另外,还有改善检测效率的试剂可以使用,如蛋白酶抑制剂、核酶抑制剂、抗微生物剂、辅因子如cAMP、ATP等。组分混合物可以以结合所必需的任何顺序加入。还可以进行调节靶分子活性的试剂的筛选。如本专业人员将理解的那样,真正的筛选将依赖于识别靶分子。在一个优选的实施方案中,筛选能够调节靶分子活性的候选蛋白的方法包括,如上所述将NAP结合物加入靶样本中,测定靶目标生物活性的改变。本文中“调节”或“改变”包括活性增加、活性下降、或展示活性的类型或种类改变。因此,在此实施方案中,候选蛋白应当与靶分子结合(尽管这不是必需的),并如这里所定义的改变其生物学或生物化学活性。方法包括上面总体概述的体外筛选方法,并离体筛选改变了靶分子的表现、分布、活性或数量的细胞。可选择地,候选蛋白可被确定为不干扰靶分子活性,这在测定药物-药物的相互作用中有用。因此,在该实施方案中,其方法包括结合一个靶分子,优选一个NAP结合物文库,并评价其对靶分子生物活性的影响。这可以用很多种的方法进行,如本专业人员将理解的那样。在这些体外系统如无细胞系统中,在任一实施方案如体外结合或活性检测中,一旦发现一个“命中”,NAP结合物即被回收以鉴定候选蛋白。回收NAP结合物可以用许多方法进行,正如本专业人员将理解的那样,并将依赖所用系统的类型和结构。在一个优选的实施方案中,如这里所概括的,应用了一个挽救标记或“回收性能”。如上面概述的,“回收性能”是在结合到靶目标时能使融合酶分离的性能。例如,靶目标可被构建与生物素相连,它能够应用一个包被有链菌抗生物素的亲合柱使靶目标结合的融合酶复合物分离。可选择地,该靶目标可以附着在磁珠上,可以收集磁珠并通过改变周围磁场将其与未结合的候选蛋白分开。可选择地,当靶标不含挽救标记时,NAP结合物可含有挽救标记。例如,亲合性标记可被整合进融合蛋白本身。同样,融合酶-核酸分子复合物也可通过免疫沉淀法被回收。可选择地,挽救标记可含有独特的载体序列,该序列可被用于PCR扩增编码候选蛋白的核酸序列。在后一个实施方案中,如果使用的PCR序列在此区域之外(不覆盖此区域),就可不必打断核酸和蛋白间的共价连接。在一个优选的实施方案中,在分离目标NAP结合物后,可以通过应用,例如,无核酶的蛋白酶、加入非特异性核酸、或任何其它优先消化蛋白质而非核酸的条件来切断融合酶和其编码核酸分子间的共价连接。可采用任何适合的方法纯化核酸分子,如本专业已知的那些方法,然后可用于进一步扩增、测序或演变成编码所需候选蛋白的核酸序列。适合的扩增技术包括PCR、OLA、SDA、NASBA、TMA、Q-βR等所有形式。“命中”信息的序列应用在下面讨论。在一个优选的实施方案中,NAP结合物被用于离体的筛选技术中。在此实施方案中,本发明的表达载体被导入宿主细胞以筛选具有所需性能,如能够改变细胞表现型的候选蛋白。本发明方法的一个优点是融合酶文库的筛选可以在细胞内完成。本专业的一个普通技术人员会理解,相对于在体外溶解细胞筛选的方法,在其自然条件中筛选候选蛋白的好处。在离体或体内的筛选方法中,不同的肽以其天然构型展示,并在其它可能的干扰或增强性的细胞试剂存在的情况下被筛选。因此,细胞内筛选提供了候选蛋白实际活性的更准确的图谱,从而能更好的预测离体或在体的肽活性。此外,可以观察候选蛋白对细胞生理学的影响。因此,我们发现本发明在筛选真核细胞中特别有用。离体和/或体内筛选可以以几种方式进行。在一个优选的实施方案中,不必知道靶目标;相反地,含本发明表达载体的细胞因表现型的改变而被筛选出来。如下概述,具有改变了表现型的细胞被分离,并识别了与NAP结合物结合的靶分子,尽管如本专业人员将理解以及这里概述的那样,也可以在形成NAP结合物之前融合多肽和靶分子结合。可选择地,靶目标可外源地加入细胞,并进行结合和/或靶活性调节的筛选。在后一实施方案中,靶目标应当能够穿透膜,例如,通过直接穿透或经过膜转运蛋白、或与转运成分如脂类部分或下面描述的HIV-转移活化基因融合。一般,实验条件允许筛选前在细胞内形成NAP结合物,尽管这不是需要的。即,NAM融合酶与EAS的附着可发生在筛选过程中的任何时刻,之前、之中或之后,只要在细胞或含有不同融合核酸的细胞溶解物混合前,实验条件能使附着过程发生。如本专业那些技术人员将理解的,本实施方案所用的细胞类型的范围可以很广泛。基本上,可以使用任何真核或原核细胞,优选哺乳动物细胞,特别是小鼠、大鼠、灵长类和人类细胞。宿主细胞可以是单细胞,或细胞群,如在细胞培养物、组织、器官、器官系统或有机体(如昆虫、植物或动物)中。如在下面更充分描述的,筛选系统的建立是细胞在存在候选蛋白的情况下具有可选择的表现型。如在下面更充分描述的,只要设计成适合的筛选系统以选择具有改变了表现型的细胞,与许多疾病状态相关联的细胞类型就特别有用,其中该表现型是细胞内存在侯选物的结果。因此,适合的细胞类型包括但不限于,所有类型肿瘤细胞(特别是黑色素瘤,髓性白血病,肺、乳腺、卵巢、结肠、肾、前列腺、胰腺和睾丸的癌瘤)、心肌细胞、内皮细胞、上皮细胞、淋巴细胞(T-细胞和B细胞)、肥大细胞、嗜酸细胞、血管内膜细胞、肝细胞、白细胞包括单核细胞,干细胞如造血系统、神经、皮肤、肺、肾、肝和肌细胞的干细胞(用于筛选分化和去分化因子),破骨细胞、软骨细胞和其它结缔组织细胞、角脘细胞、黑素细胞、肝细胞、肾细胞和脂肪细胞。适合的细胞也包括已知的研究用细胞,包括但不限于,JurkatT细胞、NIH3T3细胞、CHO、Cos等。见ATCC细胞系目录,在此特别加入作为参考。在一个实施方案中,细胞可能是基因工程的,即含有外源的核酸,例如含靶分子。在一个优选的实施方案中,第一批多数细胞被筛选。即,根据改变的表现型筛选导入了表达载体的细胞。因此,在此实施方案中,候选蛋白的作用见于其形成的同一细胞内;即自分泌作用。对于在此的“多数细胞”是指粗略从大约103细胞到108或109细胞,从106到108是优选的。该多数细胞含有一个细胞文库,其中,尽管如本专业技术人员会理解的,文库中的一些细胞可能不含有表达载体,一些细胞可能含有多于一个载体,通常文库中的每个细胞含有NAP结合物分子库的一个成员,即不同的候选蛋白。在一个优选的实施方案中,表达载体被导进第一批多数细胞,候选蛋白的作用在第二批或第三批多数细胞中筛选到,不同于第一批多数细胞,即通常是一个不同的细胞类型。这就是,候选蛋白以细胞外作用影响第二批细胞;即内分泌或旁分泌作用。这些采用标准的技术进行。第一批多数细胞可生长在一种培养基里或培养基上,将培养基与第二批多数细胞接触并检测其效应。可选择地,可直接接触细胞。因此,“接触”是功能性接触,包括直接和间接的接触。在此实施方案中,第一批多数细胞可被筛选或不被筛选。如果必要,细胞被置于适合融合核酸表达的条件(如当使用可诱导启动子时)以产生候选蛋白。因此,本发明方法优选包括引导一个融合核酸的分子文库或表达载体进入多数细胞,由此产生一个细胞文库。优选地,两个或多个核酸包含编码不同候选蛋白的不同核酸序列。然后如下面更充分概括的,在多数细胞中筛选具有改变了表现型的细胞。表现型的改变是由于候选蛋白的存在。对于“改变的表现型”或“改变的生理学”或这里其他的语法等同者是指细胞表现型在某些方面发生改变,优选某些可检测的和/或可测量的方面。如本领域内将理解的那样,本发明的一个强项是广泛的细胞类型和用本方法可被检测的潜在表现型改变。因此,可被观察、检测或测量的任何表现型改变可能是这里的筛选方法的基础。适合的表现型改变包括但不限于大体的生理学改变如细胞形态、细胞生长、细胞活力、对基质或其它细胞的粘附、和细胞密度的改变;一个或多个RNAs、蛋白质、脂类、激素、细胞因子或其他分子表达的改变;一个或多个RNAs、蛋白质、脂类、激素、细胞因子或其他分子;均衡状态(即半衰期)的改变或,一个或多个RNAs、蛋白质、脂类、激素、细胞因子或其他分子的改变;一个或多个RNAs、蛋白质、脂类、激素、细胞因子或其他分子定位的改变;一个或多个RNAs、蛋白质、脂类、激素、细胞因子、受体或其他分子生物活性或特异活性的改变;离子、细胞因子、激素、生长因子或其他分子分泌的改变;细胞膜电位、极化作用、完整性或转运的改变;传染性、易感性、潜伏期、粘附、摄取病毒和细菌性病原体的改变;等等。对于“能够改变表现型”这里是指候选蛋白能够以某种可检测和/或可测量的方式改变细胞的表现型。改变的表现型可被各种各样的方法检测,如下面更充分描述的,通常将依赖和对应于被改变的表现型。一般地,用下面的方法检测改变的表现型,例如细胞形态的显微镜分析;标准的细胞活力鉴定,包括细胞死亡的增加和细胞活力的增加,例如,细胞现在对由病毒、细菌、细菌的或合成的毒素引起的细胞死亡具有抵抗性;标准的标记试验如检测特定细胞或分子的存在或其水平的荧光指示剂试验,包括FACS或其它染料染色技术;在细胞杀死后靶化合物表达的生物化学检测;等。本方法在例如癌症应用中是有用的。快速和特异性地杀死肿瘤细胞的能力是癌症化疗的基础。通常,应用本发明的方法,可以将随机或直接的文库(包括cDNA文库)导入任何肿瘤细胞中(原位的或培养的),自身识别的肽诱导凋亡、细胞死亡、丧失分裂或减少细胞生长。这可重新开始做,或通过对已知肽制剂的有偏倚的随机化进行,已知肽物质如抑制血管壁生长的血管生长抑素。可选择地,本发明的方法可以与其他癌症治疗(如药物或放射)联合以使细胞致敏,从而在接触第二个药剂后迅速引起特异性的凋亡、细胞死亡、丧失分裂或细胞生长下降。同样,本方法可用于与已知的癌症治疗结合,以筛选使治疗更有效或较少毒性的激动剂。这在生产如紫杉酚而使化疗非常昂贵时特别优选。在一个优选的实施方案中,本发明在涉及感染性生物的试验中也有用途。细胞内生物如分枝杆菌、李斯特杆菌属、沙门氏菌、肺囊虫、耶尔森氏菌属、利什曼原虫、克鲁斯锥虫,可以在细胞内存在和复制,并在免疫抑制的病人体内活动。目前已有上市的药物和研究中的药物,它们对这些生物仅部分有效或无效。侯选文库可以被插入特定的感染有这些生物的细胞内(感染前或后),所选择的候选蛋白以类似于细胞内“抗生素肽”的方式,与爪蟾抗菌肽一样促进这些生物的细胞内破坏。此外,可以选择增强已经在服用中的药物的杀灭特性的候选肽,这些服用中的药物本身效力不足,但当与侯选文库中的特定肽联合使用时,则通过协同机制明显改变了其疗效。最后,可以分离改变这些细胞内生物代谢的候选蛋白,其作用方式为通过抑制一个关键的生物活动而终止它们的细胞内生命周期。在一个优选的实施方案中,本发明的组合物和方法被用于测定蛋白-蛋白相互作用,类似于应用一个双杂交的筛选。这一点可以以各种方法和各种形式进行。如本专业技术人员将理解的那样,本实施方案和其它这里概述者可以进行“一维”分析或“多维”分析。即,一个NAP结合物文库可以碰上一个单一靶分子或靶文库。可选择地,超过一个NAP结合物文库可以相遇。在一个优选的实施方案中,本发明的组合物和方法被用于发现蛋白药物,特别是在细胞表面上与靶目标相互作用的蛋白药物。在一个优选的实施方案中,如上所概述的,采用核酸作为靶目标,本发明的组合物和方法被用于发现DNA或核酸结合蛋白。在一个优选的实施方案中,本发明的组合物和方法被用于筛选降低对宿主细胞毒性的NAM酶。例如,本发明的Rep蛋白对某些宿主细胞可以是有毒性的。本发明的方法可被用于鉴定或产生毒性降低的Rep蛋白。在此特别的实施方案中,在本发明结合物中使用了Rep变异体或作为替换的随机肽,以观察细胞毒性以及与EAS的结合亲合性。关于EASs,本发明方法还可被用于鉴定新的或改良的EASs,以用在本发明的表达载体中。对一个特定目的NAM酶的EAS也可以用本发明的方法鉴定。NAM酶和EAS共价结构的形成可以采用本专业内介绍的适当方法确定,如在美国专利5545529中所描述的。一般地,侯选NAM酶可用多种宿主表达,如细菌或哺乳动物细胞。然后表达的蛋白可用侯选DNA序列检测,这种片段文库来自克隆NAM酶的基因组。在适合条件(如包含辅因子)下,NAM酶和DNA片段文库间的接触得以形成共价NAM酶-DNA结合物。然后该混合物可以用多种技术进行分离。然后将分离的结合核酸序列进行鉴定和测序。这些序列可通过多种诱变技术被进一步检测。确定的序列基序然后可被用作EAS。在一个优选的实施方案中,本发明的组合物和方法被用于药理遗传学研究。例如,通过从具有不同表现型的个体中构建文库并检测其对应的靶分子,可以产生不同的结合概貌。因此,优选的实施方案应用不同的NAP结合物对靶分子的不同结合概貌来阐明疾病基因、SNPs或蛋白。在一个优选的实施方案中,一旦检测到一个改变了表现型的细胞,该细胞即从没有改变表现型的群体中分离出来。这可用许多方式进行,如本专业已知的,并在某些情况下依赖于测定或筛选系统。适合的分离技术包括但不限于,FACS,采用补体的溶胞选择,细胞克隆,用Fluorimager扫描,“生存”蛋白的表达,细胞表面蛋白或其它分子的诱导表达,它们可被加上荧光或标记以进行物理分离;表达一个将非荧光分子改变为荧光分子的酶;在无或缓慢生长的背景下过度生长;细胞死亡和DNA分离或其它细胞活力指示剂染料,等等。在一个优选的实施方案中,如上所概述的,NAP结合物从阳性细胞中分离。这可以许多方法进行。在一个优选的实施方案中,与NAP构建物常见的DNA区域互补的引物,或与文库的特殊成分,例如如上所述的一个挽救序列,被用于“挽救”独特的候选蛋白序列。可选择地,候选蛋白用一个挽救序列分离。因此,例如,含抗原表位标记或纯化序列的挽救序列可用于采用免疫沉淀或亲合柱对候选蛋白的分离。在某些情况下,如下面概述的,如果在候选蛋白和靶分子间有足够强的结合作用,这也可分离初级靶分子。可选择地,肽可用质谱分析检测。一旦被挽救,可以确定候选蛋白和融合核酸的序列。该信息然后可被以数种方式应用,如基因组数据库。对于体外、离体和体内筛选方法,一旦鉴定出“命中”序列,其结果被优先证实。如本专业技术人员理解的那样,可以采用多种适合的方法。在一个优选的实施方案中,候选蛋白被重新合成并再次导入靶细胞内以证实其效果。这一点可用重组的方法进行,如通过用表达载体(或修饰版本,如用不再是融合体一部分的候选蛋白)转化天然细胞,或可选择地应用HIV-转移活化基因蛋白融合体、类似物和相关的蛋白,使之非常高效的被靶细胞摄取。见例如,Fawell等人,PNASUSA91664(1994);Frankel等人,细胞551189(1988);Savion等人,生物学化学杂志(J.Biol.Chem.)2561149(1981);Derossi等人,生物学化学杂志(J.Biol.Chem.)26910444(1994);和Baldin等人,欧洲分子生物学杂志(EMBOJ.)91511(1990),所有这些均加入作为参考。此外,对于体外和离体筛选方法,步骤可能是反复使用的。即,候选蛋白的序列被用于产生更多的候选蛋白。例如,蛋白序列可能是第二轮随机化周期(偏倚的)的基础,以形成具有增加或改变活性的作用物。可选择地,第二轮随机化周期可改变作用物的亲合性。进一步,如果候选蛋白是一个随机肽,可能期望将识别的作用物的随机区放进其它表现结构中,或改变表现结构的恒定区序列以改变候选蛋白的构型/形状。采用本发明文库的方法可涉及多轮的筛选以鉴定目的核酸。例如,一旦一个核酸分子被鉴定,就可以用不同的靶分子重复本方法。多个文库可以同时或相继和/或以结合方式筛选,以确保准确的结果。此外,通过包括将一个鉴定的候选蛋白作为后续筛选周期的靶目标,可以重复应用本方法以描绘旁路或代谢过程的图谱。在一个优选的实施方案中,候选蛋白被用于识别靶分子,如候选蛋白与之相互作用的分子。如将被本专业技术人员理解的那样,有可能是蛋白直接与之结合或作用的初级靶分子,也可能是次级靶分子,它们是受蛋白作用物影响的信号传导通路的一部分;这些可能被称为“确证的靶分子”。在一个优选的实施方案中,候选蛋白被用于分离靶分子。例如,如这里概括的,如果靶分子是蛋白质,应用抗原表位标记或纯化序列可以经过生物化学手段(共免疫沉淀法、亲合柱,等)纯化初级靶分子。可选择地,当肽在细菌内表达和纯化时,可以被用作针对细菌cDNA表达文库的探针,该文库由靶细胞类型的mRNA制成。或,肽可在酵母或哺乳动物两或三杂交系统中被用作“诱饵”。这种相互作用克隆方法在分离DNA-结合蛋白和其它相互作用蛋白成分中是非常有用的。肽(类)可与其它药学激动剂结合以研究所讨论的信号传导通路的上位关系。还可能经人工合成制备标记肽,并用其筛选在噬菌体中表达的一个cDNA文库以寻找与标记肽结合的那些cDNA。一旦初级靶分子已经鉴定,可用初级靶作为“诱饵”用同样的方式鉴定次级靶分子。用此方式,可以阐明信号传导通路。同样,还可能发现对次级靶分子特异的蛋白作用物,使数种蛋白作用物作用在单一通路上,例如,联合治疗。在一个优选的实施方案中,本发明的方法和组合物可用自动系统执行。许多系统通常直接使用96(或更多)孔微滴定板,但如本专业技术人员将理解的那样,可使用许多不同的板或构造。此外,这里概述的任何或所有步骤可能是自动的;因此,例如,系统可能是完全或部分自动的。多种自动化元件可被用于执行本发明方法或产生本发明的组合物,包括但不限于,一个或多个自动化臂;放置微孔板的平板机械手;移动并将板盖置于无交叉污染平台的自动加盖机械手;用一次性吸头分配样本的吸头装置;用于分配样本的可冲洗吸头装置;96孔载样板;冷却的试剂架;微滴定板吸液管位(可随意冷却);平板和吸头分层塔以及计算机系统。完全自动化或微流体系统包括自动液体、颗粒、细胞和生物体处理器,包括高通量吸液器以进行所有筛选程序步骤。这包括液体、颗粒、细胞和生物体操作,如抽吸、分散、混合、稀释、冲洗、准确的容量转移;回收和丢弃吸液器吸头;和重复等容积移液操作以从一次样本抽吸中多次传送。这些操作是无交叉污染的液体、颗粒、细胞和生物体转移。此设备自动重复执行将微孔板样本到过滤器、隔膜、和/或子板、高密度转移、全板连续稀释、和高容量运行。在一个优选的实施方案中,使用了化学来源的颗粒、平板、试管、磁颗粒、或其它对检测成分有特异性的固相基质。微孔板、试管或其它任何固相基质的结合表面包括,非极性表面、高极性表面、促进共价结合的改良的右旋糖苷包被、抗体包被、为结合融和蛋白或肽的亲合媒介,表面固定的蛋白如重组蛋白A或G、核苷树脂或包被、和其它亲合性基质,在本发明中是有用的。在一个优选的实施方案中,装载多孔平板、多试管、小试管、深孔平板、微离心管、冷冻瓶、方孔平板、过滤器、凿子、导光纤维、微珠和其它固相基质的平台,或有多种容量的平台被容纳在一个可升级的组件平台上以增加容量。此组件平台包括各种速度的轨道搅拌器、电打孔器,和用于多来源样本的多位置工作平台、样本和试剂稀释、实验平板、样本和试剂储器、吸液器吸头和有效的冲洗站。在一个优选的实施方案中,用热循环器和热调节系统稳定热交换器,如控制单元或平台,的温度,为样本孵育提供从4℃~100℃的准确的温度控制。在一个优选的实施方案中,具有单或多个磁性探头、亲合性探头或吸液管的可更换吸液头(单腔或多腔)自动控制液体、颗粒、细胞和生物体。多孔或多管磁性分离器或平台以单或多样本形式操纵液体、颗粒、细胞和生物体。在一些优选的实施方案中,设备将包括一个探测器,根据标记物和实验方法可以是多种不同的探测器。在一个优选的实施方案中,有用的探测器包括具有多荧光道的显微镜;平板读数器以用单波和双波长终末点提供荧光、紫外和可见分光光度的检测和动力学性能,荧光回声能量传递(FRET),发光,淬灭,双光子激发和密度重新分布;CCD相机以捕捉并将数据和图象转换为定量格式;和一个计算机工作站。这些将能够监测特殊标记物在细胞、组织和生物体上的大小、生长和表现型表达;靶分子确认;引导最优化;用公用或专有的数据库进行数据分析、采集、组织、和高通量筛选系统的整合。这些设备可以安装在一个消毒的层流和通风橱内,或是封闭的、独立的系统,适合在多孔板或试管中进行细胞培养生长和转化,以及危险的操作。活细胞将在可控的生长条件下生长,在活细胞检测的时间里控制温度、湿度和气体。自动的细胞转化和自动的集落采集将促进所需细胞的快速筛选。流式细胞仪或毛细电泳形式可被用于单独捕捉磁性和其它微珠、颗粒、细胞和生物体。灵活的硬件和软件使得设备适于多种应用。软件程序模块可建立、修改和运行该方法。系统诊断模块可进行设备校准、校正连接并启动运行。定制工具、实验室器皿和液体、颗粒、细胞和生物体的转移方式可执行不同的应用要求。数据库可储存方法和参数。自动和计算机界面可允许设备间的交流。在一个优选的实施方案中,自动工作站包括一个或多个加热或冷却部分。依反应和试剂,可能需要冷却或加热,可以用许多已知的加热或冷却系统完成,包括Peltier系统。在一个优选的实施方案中,自动装置包括一个与内存和一组输入/输出设施(如键盘、鼠标、监视器、打印机等)通过数据传送总线联系的中央处理器。中央处理器、内存、输入/输出设备和数据传送总线间的交互作用为本专业已知技术。因此,根据要进行的实验,多种不同的程序存储在CPU存储器中。上面描述的筛选一个融合酶-核酸分子复合物库以获得编码所需候选蛋白的核酸的方法,仅以候选蛋白的所需靶特性为依据。候选蛋白的序列或结构不必知道。本发明的一个显著优点是在筛选过程中不需要候选蛋白的事先信息,只要鉴定的编码核酸序列的产物具有生物学活性,如与靶向的化学或结构部分的特异性连接。然后,鉴定的核酸分子可以被用来理解作为候选蛋白与靶目标反应的结果的细胞过程,以及任何随后的治疗或毒性活性是可能的。实施例下面的实施例用来更充分地描述应用上面描述的本发明的方法,以及考虑设置进行本发明各种方面的最佳模式。可以理解这些实施例决不是用来限制此发明的真正范围,而是以举例说明的目的而列出。实施例1此实施例显示了一个表达的融合蛋白与其编码核酸分子的结合。编码一个重组体Rep78-编码DNA融合片段的质粒pML2000,用本专业已知的方法构建(见,如,Sambrook等人,见上)。质粒pML2000具有下列特征在大肠杆菌中有功能的一个DNA复制起点;在哺乳动物细胞中有功能的一个SV40复制起点;在宿主细胞中有活性的结构启动子,特别是CMV启动子;和一个AAV血清型2反向末端重复单位(ITR)序列的一个拷贝。关于其它组成部分的ITR方向性不明显。AAVITR来源的核酸序列为5’-AGGAACCCCTAGTGATGGAGTTGGCCACTCCCTCTCTGCGCGCTCGCTCGCTCACTGAGGCCGCCCGGGCAAAGCCCGGGCG-3’。以前已经证明ITR序列的二倍结构足以与Rep68变异体相互反应(Chiorini等人,1994,见上)。得到的质粒DNA在大肠杆菌内扩增并用DNAmaxiprep试剂盒(PromegaInc.,WI)纯化。纯化的DNA经过磷酸钙沉淀或电穿孔技术转染进组织培养的HEK293细胞(ATCC,MD)。在转染后48小时,收获细胞并用1%TritonX-100在标准磷酸盐缓冲盐水中(PBS)溶解。在5000×g离心30分钟后,上清被用于随后的生化定性。pML2000在宿主细胞内的表达使得(i)修饰的Rep78蛋白与参考配体以融合蛋白的形式表达,和(ii)融合蛋白与连接信号在病毒或质粒载体内共价结合。采用抗-HA或抗-REP抗体经过免疫印迹分析检测重组体eREP的表达。特异抗体结合可通过ECL化学发光系统(Amersham-PharmaciaBiotech,IN)显示。功能性Rep78蛋白的表达以前在哺乳动物细胞培养系统中已经证实。(Li等人,病毒学杂志(J.Virol.),71,5236-5243(1997))。形成DNA-eREP复合物的能力由下面的实验检测。宿主细胞分别用两个质粒,pML2000和pML2000(ΔITR)转染,以及用二者的联合进行转染。对每一个相关的转染,加入总量为10μg的DNA以获得相似水平的eREP蛋白表达。转染后48小时,收获细胞并制备蛋白溶解物。为检测表达的eREP蛋白和质粒DNA间的共价结合,溶解物首先煮沸5分钟,并立即在冰上冷却。每份样本煮沸溶解物的一份分装与抗-REP抗体混合,随后用过量蛋白A琼脂糖(Sigma,MO)孵育。在充分冲洗后,蛋白A琼脂糖小珠被转移到PCR试管中。通过聚合酶链反应扩增各质粒特异的区域以检测结合质粒的存在。转染的质粒pML2000被蛋白A琼脂糖沉淀而pML2000(ΔITR)不沉淀。形成的eREP-pML2000复合物耐热,与eREP和表达质粒pML2000间的共价结合一致。此外,该相互作用是ITR序列特异的,类似于以前的体外和体内数据(Yang等人,病毒学杂志(J.Virol.)66,6058-6069,(1992);Chiorini等人,病毒学杂志(J.Virol.)68,797-804(1994))。本实施例说明了适用于在本发明方法中应用的载体的构建。结果表明酶-载体复合物在Rep蛋白表达后形成,且Rep蛋白与其编码载体的结合是共价的。实施例2下面的实施例阐明了使用亲合柱鉴定和分离核酸分子的方法,该核酸分子编码具有靶特性的基因产物。为回收具有所需特性的蛋白,购买了一个化学成分,例如FK506(CalBiochemInc.,CA),并用商品化化学连接试剂与生物素化学连接。在共轭连接后,化合物经过标准的层析技术纯化,并由NMR确证。为固定化合物,固定剂-496孔平板首先用10μg/ml抗生蛋白链菌素(SA)包被。包被后,添加溶于PBS的生物素化-FK506以饱和所有的结合位点。在去除过剩的生物素化-FK506后,包被的孔然后用1%BSAPBS封闭。冲洗后,用于亲合性筛选的固定的化合物就制备好了。含融合酶-表达载体复合物的溶解物文库通过首先用cDNA文库转染大约108哺乳动物HEK细胞而制备,该cDNA文库系用常规分子生物学技术从小鼠RNA中制备的。转染48小时后,收获细胞并通过离心收集。通过实施例1描述的溶解步骤,在存在蛋白酶抑制剂的情况下溶解细胞。通过5000×g离心30分钟进行总的粗溶解物的澄清。制备的细胞溶解物或者储存在-80℃,或者立即用在经生物素化-FK506包被的固定剂-4孔中。用生物素化-FK506孵育后,溶解物从固定剂-4平板中移出。然后,用12孔Nunc便携式冲洗器(Corning,NY)用PBS充分冲洗板孔。通过用1%胰酶孵育,将结合的融合酶-表达载体复合物从生物素化-FK506上释放出来。回收的DNA用Tris缓冲的苯酚提取两次,并在1μg糖原存在的情况下,用标准的乙醇沉淀步骤沉淀。沉淀的DNA用70%乙醇冲洗一次,并用电穿孔法转入细菌中。分离的DNA可进一步如所期望的,接受下一周期的亲合性筛选。本实施例阐明了应用本发明的方法,分离编码一个肽的核酸,该肽具有所需特性,即与FK506结合的能力。实施例3下面的实施例阐明了给插入表达载体以形成一个融合酶文库的cDNA片段定性的方法。可以通过采用标准的方案和对NAM酶,如Rep78,特异的抗体,用ELISA定性cDNA编码的具有所需特性的肽。因此,如果一个cDNA克隆编码与FK506反应的肽,可以推测,含有相关质粒DNA的细胞溶解物将对FK506包被的板孔有特异性,而对抗生蛋白链菌素(SA)包被的或其它阴性对照包被的板孔则没有特异性。同样,可以推测,一个对照质粒不会引起溶解物产生任何ELISA信号。按实施例2描述进行的两轮亲合性筛选后,随机选择单个细菌转化体克隆。在3mlLB氨苄青霉素(100μg/ml)中过夜培养单个克隆,采用标准的miniprepDNA试剂盒(Promega,WI)分离DNA。通过暂时转染进HEK293细胞获得eREP-变异体肽融合蛋白的表达。转染后48小时,按实施例2的描述制备细胞溶解物。澄清的溶解物立即用于ELISA或储存在-70℃。为准备ELISA,首先用SA单独或SA+生物素-FK506包被96孔平板。然后用pH7.4的1%BSA磷酸缓冲盐水(PBS)封闭板孔。在用SA预包被后,板孔用添加有0.05%Tween-20的PBS(PBT)冲洗3次。在每孔中加进100μl1∶10稀释的溶解物以启动融合酶-表达载体复合物与孔表面的结合。4℃60分钟后,平板用PBT冲洗4次。用兔抗-REP抗体检测eREPDNA-融合酶结合部分肽的结合。用PBT冲洗4次后,继续在平板上加入含碱性磷酸酶结合的羊抗兔抗体(GIBCO-BRL,MD)的PBS/0.1%BSA溶液(每孔100μl,25℃1小时),随后用p-硝基苯基磷酸盐(4mg/ml)的1M盐酸二乙醇胺,pH9.8/0.24mMMgCl2溶液(每孔200μl)处理6-100分钟。在一个E-max平板读数仪(MolecularDevicesInc.,CA)上测试405nm光密度(O.D.)以对结合进行定量化。阴性对照由用对照谷胱甘肽-S转移酶(GST)融合或如所指定的其它对照包被的孔组成。对照质粒,如不含FK506结合肽编码序列的质粒,不在ELISA测试中产生信号。含具有靶特性-FK506结合-的肽的融合酶用ELISA实验进行鉴定。所有实验至少重复一次都获得相似的结果。本实施例说明了通过融合酶-表达载体连接,采用一个融合酶文库鉴定一个含有所需活性的肽,和鉴定编码靶功能的核酸的方法。实施例4下面的实施例说明了应用融合酶文库鉴定一个DNA结合肽、编码DNA结合肽的核酸分子、和被DNA结合肽识别的核酸序列的方法。一个融合酶文库按实施例1的描述构建。产生一群随机DNA序列,为由融合酶文库编码的DNA结合肽提供DNA结合底物。DNA合成树脂(珠)用于制造一个含NotI限制性酶切位点的25个碱基(盒I)的前导寡核苷酸。合成后,树脂分为4等份以进行下一步的合成,其中加入A、T、G或C(每份加入不同的碱基类型)。一个循环后,将树脂混合并分成4等份以进行后续的循环,其中每份分装物中分别加入另外的A、T、G或C。相关的混合和分离步骤重复12次以产生12mer随机寡核苷酸盒(ROC)。然后混合树脂,并加入另外20碱基的盒(盒II)。分裂-混合合成步骤可形成随机寡核苷酸DNA片段,其中树脂混合物有“每珠一个序列”。换句话说,在每个珠上附着许多单一寡核苷酸的拷贝。为获得双链DNA结合底物,得到的树脂混合物用Klenow酶的缓冲液冲洗。经冲洗的树脂与合成的寡核苷酸和一个与盒II互补的延伸引物混合。混合物加热到80℃,缓慢降温到25℃,并冷却到4℃,使延伸引物与模板杂交。得到的树脂混合物在存在dNTPs的标准条件下,在Klenow酶缓冲液中孵育,使延伸反应得以进行。然后用标准PBS缓冲液冲洗得到的具有双链DNA的树脂,并在含有叠氮钠条件下4℃储存。为鉴定DNA结合蛋白的基因或编码序列,附着有DNA片段的树脂与编码公认DNA结合肽的融合酶文库4℃孵育12小时。珠-REP融合酶复合物被REP的初级抗体标记。孵育后,混合物与含预结合次级抗体的磁珠孵育。孵育后,加热珠-树脂混合物以变性蛋白,并拆开磁珠-寡核苷酸树脂复合物。磁珠用标准的手段去除,因而分离了共沉淀的无磁性DNA-树脂。此材料可作为集中池或经过单一磁珠分析的过程,用于PCR扩增和测序分析。可选择的是,得到的混合物通过5000×g10分钟离心沉淀并用PBS充分冲洗。在树脂上的结合蛋白-cDNA复合物用蛋白酶K处理。编码所需融合酶的核酸用标准的DNA制备方法回收。如果需要,回收的质粒被导入哺乳动物宿主内并用于随后轮次的亲合性筛选。由DNA结合肽识别的结合序列可以通过对结合DNA与特定的NAM酶-DNA结合肽融合的PCR产物测序而确定。DNA结合肽可以用本专业已知的蛋白分析方法鉴定。总起来说,这里所用的方法可以产生一系列编码DNA结合蛋白的cDNA及其相应的结合序列。例如,一旦用随机寡核苷酸识别了一个结合序列,就可以进行一个同源性研究以确定人基因组中所有的候选位点,所述的侯选位点代表了一个给定DNA结合蛋白的可能的结合位点。令人信服地,人基因组的一个完整的蛋白-DNA相互作用图谱/数据库就可以产生了。这里引用的所有文献,包括专利、专利申请和公开,均在此完全加入作为参考。虽然本发明着重于优选实施方案的描述,但也可以使用优选实施方案的变化形式,且倾向于不按这里特别描述的那样来实施本发明。因此,本发明包括所有在本发明精神和范畴内的改良方案,如下面权利要求所详细说明的。权利要求1.一种融合核酸文库,每一个融合核酸包括a)编码Rep蛋白的核酸;和b)编码候选蛋白的核酸;其中至少两个所述的候选蛋白是不同的。2.一种融合多肽文库,每一个融合多肽包括a)Rep蛋白;和b)候选蛋白;其中至少两个所述的候选蛋白是不同的。3.一种表达载体文库,每一个表达载体包括a)融合核酸包括i)编码Rep蛋白的核酸;和ii)编码候选蛋白的核酸;其中至少两个所述候选蛋白是不同的;以及b)由所述Rep蛋白识别的酶附着序列(EAS)。4.一种核酸/蛋白(NAP)结合物文库,每一个NAP结合物包括a)融合多肽包括i)Rep蛋白;和ii)候选蛋白;b)表达载体包括i)融合核酸包括1)编码所述Rep蛋白的核酸;和2)编码所述候选蛋白的核酸;其中至少两个所述候选蛋白是不同的;以及ii)酶附着序列(EAS)其中所述EAS和所述Rep蛋白是共价连接的。5.一种表达载体文库,每一个表达载体包括a)融合核酸分子包括(i)编码核酸修饰(NAM)酶的核酸序列;(ii)编码候选蛋白的核酸序列;和b)由所述NAM酶识别的超过20个核苷酸的酶附着序列。6.一种核酸/蛋白(NAP)结合物文库,每一个NAP结合物包括a)融合多肽包括i)NAM酶;和ii)候选蛋白;b)表达载体包括i)融合核酸包括1)编码所述NAM酶的核酸;和2)编码所述候选蛋白的核酸;其中至少两个所述候选蛋白是不同的;以及ii)超过20个核苷酸的酶附着序列(EAS);其中所述EAS和所述NAM酶是共价连接的。7.一种融合核酸文库,每一个融合核酸包括a)编码核酸修饰(NAM)酶的核酸序列;b)编码候选蛋白的核酸序列;和c)编码表现结构的核酸序列。8.一种融合多肽文库,每一个融合多肽包括a)核酸修饰(NAM)酶;b)候选蛋白;和c)表现结构。9.一种表达载体文库,每一个表达载体包括a)融合核酸包括(i)编码核酸修饰(NAM)酶的核酸序列;(ii)编码候选蛋白的核酸序列;和(iii)编码表现结构的核酸序列;和b)由所述NAM酶识别的EAS。10.一种核酸/蛋白(NAP)结合物文库,每一个NAP结合物包括a)融合多肽包括i)NAM酶;ii)候选蛋白;iii)表现结构;b)表达载体包括i)融合核酸包括1)编码所述NAM酶的核酸;和2)编码所述候选蛋白的核酸;3)编码所述表现结构的核酸;其中至少两个所述候选蛋白是不同的;和ii)酶附着序列(EAS);其中所述EAS和所述NAM酶是共价连接的。11.一种融合核酸文库,每一个融合核酸包括a)编码核酸修饰(NAM)酶的核酸序列;b)编码候选蛋白的核酸序列;和c)编码靶序列的核酸序列。12.一种融合多肽文库,每一个融合多肽包括a)核酸修饰(NAM)酶;b)候选蛋白;和c)靶序列。13.一种表达载体文库,每一个表达载体包括a)融合核酸包括(i)编码核酸修饰(NAM)酶的核酸序列;(ii)编码候选蛋白的核酸序列;和(iii)编码靶序列的核酸序列;以及b)由所述NAM酶识别的EAS。14.一种核酸/蛋白(NAP)结合物文库,每一个NAP结合物包括a)融合多肽包括i)NAM酶;ii)候选蛋白;iii)靶序列;b)表达载体包括i)融合核酸包括1)编码所述NAM酶的核酸;和2)编码所述候选蛋白的核酸;3)编码所述靶序列的核酸;其中至少两个所述的候选蛋白是不同的;以及c)酶附着序列(EAS);其中所述EAS和所述NAM酶是共价连接的。15.一种融合核酸文库,每一个融合核酸包括a)编码核酸修饰(NAM)酶的核酸序列;b)编码候选蛋白的核酸序列;和c)编码标记物的核酸序列。16.一种融合多肽文库,每一个融合多肽包括a)核酸修饰(NAM)酶;b)候选蛋白;和c)标记物。17.一种表达载体文库,每一个表达载体包括a)融合核酸包括(i)编码核酸修饰(NAM)酶的核酸序列;(ii)编码候选蛋白的核酸序列;和(iii)编码标记物的核酸序列;以及b)一种由所述NAM酶识别的EAS。18.一种核酸/蛋白(NAP)结合物文库,每一个NAP结合物包括a)融合多肽包括i)NAM酶;ii)候选蛋白;iii)标记物;b)表达载体包括i)融合核酸包括1)编码所述NAM酶的核酸;和2)编码所述候选蛋白的核酸;3)编码所述标记物的核酸;其中至少两个所述候选蛋白是不同的;以及ii)酶附着序列(EAS);其中所述EAS和所述Rep蛋白是共价连接的。19.根据权利要求1、3、4、5、6、7、9、10、11、13、14、15、17或18中所述的文库,其中所述的编码候选蛋白的核酸序列来源于cDNA。20.根据权利要求1、3、4、5、6、7、9、10、11、13、14、15、17或18中所述的文库,其中所述的编码候选蛋白的核酸序列来源于基因组DNA。21.根据权利要求1、3、4、5、6、7、9、10、11、13、14、15、17或18中所述的文库,其中所述的核酸是直接融合的。22.根据权利要求1、3、4、5、6、7、9、10、11、13、14、15、17或18中所述的文库,其中所述的核酸是间接融合的。23.根据权利要求5、6、7、8、9、10、11、12、13、14、15、16、17或18中所述的文库,其中所述的NAM酶是Rep蛋白。24.根据权利要求1、2、3、4或23中所述的文库,其中所述的Rep蛋白是Rep68。25.根据权利要求1、2、3、4或23中所述的文库,其中所述的Rep蛋白是Rep78。26.一种含权利要求1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17或18中所述文库的宿主细胞。27.一种真核宿主细胞文库,每一个宿主细胞包括a)核酸/蛋白(NAP)结合物包括i)融合多肽包括1)NAM酶;和2)候选蛋白;ii)表达载体包括1)融合核酸包括A)编码所述NAM酶的核酸;和B)编码所述候选蛋白的核酸;其中至少两个所述的候选蛋白是不同的;和2)酶附着序列(EAS);其中所述的EAS和所述的NAM酶是共价连接的。28.根据权利要求27中所述的文库,其中所述的真核宿主细胞是哺乳动物细胞。29.一种筛选方法包括a)给至少一个靶分子添加一个NAP结合物文库,其中每个所述NAP结合物包括i)融合多肽包括1)NAM酶;和2)候选蛋白;ii)表达载体包括1)融合核酸包括A)编码所述NAM酶的核酸;和B)编码所述候选蛋白的核酸;其中至少两个所述的侯选蛋白是不同的;以及2)超过20个核苷酸的酶附着序列(EAS);其中所述EAS和所述NAM酶是共价连接的;以及b)确定NAP结合物与所述靶分子的结合。30.根据权利要求29所述的方法,其中所述的方法是在无细胞的系统中进行的。31.根据权利要求29所述的方法,其中所述的方法是在离体进行的。32.根据权利要求29所述的方法,其中所述的靶分子是被标记的。33.根据权利要求29所述的方法,其中所述的NAP结合物是被标记的。34.根据权利要求29所述的方法,其中所述的NAM酶是Rep蛋白。35.一种筛选方法包括a)提供一个宿主真核细胞文库,每个真核细胞包括i)至少一个NAP结合物包括1)融合多肽包括A)NAM酶;和B)候选蛋白;2)表达载体包括A)融合核酸包括i)编码所述NAM酶的核酸;和ii)编码所述候选蛋白的核酸;其中至少两个所述候选蛋白是不同的;和iii)酶附着序列(EAS);其中所述EAS和所述NAM酶是共价连接的;以及b)筛选所述细胞的改变的表现型。36.一种筛选方法包括a)提供一个宿主真核细胞文库,每个包括至少一个表达载体,包括i)融合核酸包括1)编码核酸修饰(NAM)酶的核酸序列;和2)编码候选蛋白的核酸序列;以及ii)由所述NAM酶识别的EAS;b)筛选所述宿主细胞的改变的表现型。37.一种筛选方法包括a)提供一个真核宿主细胞文库,每个包括至少一个表达载体,包括i)融合核酸包括1)编码核酸修饰(NAM)酶的核酸序列;和2)编码候选蛋白的核酸序列;以及ii)由所述NAM酶识别的EAS;在融合多肽产生的条件下,其中至少两个所述候选蛋白是不同的;和b)溶解所述的细胞,其中所述的EAS和所述NAM酶共价连接以形成NAP结合物。c)添加至少一个靶分子;d)确定所述的靶分子与一个NAP结合物的结合。38.根据权利要求37所述的方法,其中所述的靶分子是在所述溶解作用之前添加的。39.根据权利要求37所述的方法,其中所述的靶分子是在所述溶解作用之后添加的。全文摘要本发明提供了融合核酸文库,其中每个融合核酸都包括编码一个核酸修饰(NAM)酶的核酸和编码一个候选蛋白质的核酸。本发明还提供了一个包括核酸修饰(NAM)酶和候选蛋白质的融合多肽文库,以及一个表达载体文库,每个表达载体包括:(i)包括编码一个核酸修饰(NAM)酶的核酸和编码一个候选蛋白质的核酸的一个融合核酸,和(ii)一个EAS。候选蛋白质中至少两个是不同的。优选NAM酶是一个Rep蛋白。优选EAS的长度超过20个核苷酸。同样地,优选的实施方案采用的融合核酸包含编码表现结构的核酸、编码标记物的核酸或编码靶向序列的核酸。本发明也提供了核酸/蛋白(NAP)结合物文库,每个NAP结合物都包括一个含有NAM酶和候选蛋白质的融合多肽。NAP结合物也包括一个表达载体,该表达载体含有一个融合核酸和被NAM酶识别的酶附着序列(EAS),其中融合核酸包括含有编码NAM酶的核酸和编码候选蛋白的核酸的融合核酸。EAS和NAM酶是共价结合的。本发明还提供了宿主细胞文库和筛选的方法。文档编号C12N15/10GK1378593SQ00814124公开日2002年11月6日申请日期2000年8月18日优先权日1999年8月20日发明者李民申请人:约翰斯霍普金斯大学医学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1