多样性合成肽和多肽文库的设计和构建的制作方法

文档序号：3249848阅读：441来源：国知局

专利名称：多样性合成肽和多肽文库的设计和构建的制作方法
技术领域：
本发明涉及多样性肽和多肽文库的设计和构建。具体而言，本发明涉及
使用多重相关参数作为过滤器的用于创建数据集的分析数据库设计方法；还涉及通过定向多重合成寡核普酸合成(directed multisyntheses oligonucleotide synthesis)来生成序列多样性的方法。本发明使得人们能够基于可个别直接限定的单一或多重相关关键参数，将大型、复杂的附注释的数据库简化成更简单的相关序列数据集。所述方法还使得人们能够基于这种方法，使用离散和简并寡核香酸的多重合成群集(multisynthetic collection)来捕获多种多样的序列群集或其部分，来生成多样性文库。
背景技术：
基于肽或多肽的药物候选物的开发通常起始于筛选相关肽或多肽序列的文库。因此筛选治疗性抗体候选物的第一步通常是创建高多样性的抗体序列文库。
有数种用于设计和构建多样性抗体文库的方法是本领域已知的。已经有人描述了丝状噬菌体-肽组合抗体文库可以通过改组重链和轻链基因来增加多样性(Kang等，ZVoc.淑/. A^/.园，88:11120-11123， (1991)),或通过易错聚合酶链式反应(PCR)向文库引入随机突变来增加多样性(Gram等，尸rac. Ato/. ^cad 89:3576-3580, (1992))。使用确定的框
架作为生成抗体文库的基础已经由Barbas等，尸rac. A^z" L 4 89:4457-4461 (1992)(随机化CD3-H3); Barbas等，G匿137:57-62 (2003)(对 VK CDR3的延伸随机化)；和Hayanashi等，B/o&c/zm々z^s 17:310 (1994)(通过重叠序列延伸和PCR对抗体CDR区进行同时诱变)描述。其它文献报导了 CDR-H3文库与单一 VL基因的组合(Nissim等，五MS(97: 13:692-698 (1994)), CDR-H3文库与VL基因的限定群集的组合(De Kruif等，J. Mo/.历o/. 248:97-105 (1995))或CDR-H3文库与VL基因的随机化库(randomized repertoire)的组合(Gri伍ths等，五MS(9J 13:3245-3260(1994))。另见美国专利Nos. 5667988; 6096551; 7067284，它们描述了使用通用或随机化的免疫球蛋白轻链来产生抗体文库的方法。
Knappik等， / Mo/.所o/. 296:57-86 (2000)描述了一种用于设计和构建人抗体文库的不同构思，称为HuCAL (Human Combinatorial Antibody Libraries; 人类组合抗体文库)。这种方法基于这样的发现，在免疫应答过程中被频繁使用的人VH和VL亚家族各自分别由一种共有框架所代表，这样就有七个重链的HuCAL共有基因和七个轻链的HuCAL共有基因，它们产生49种可能的组合。所有基因均通过全合成制备，同时考虑密码子选择、促进蛋白质聚集的不利残基和所有CDR侧翼的独特及通用限制位点等因素。所述方法导致生成包含CDR的模块化抗体，这些CDR可按照需要转化成不同抗体形式。 HuCAL抗体文库的设计和合成在美国专利6300064; 6696248; 6706484;和 6828422中有描述。
尽管有这些以及其它的进展，还是非常需要用于设计和构建高多样性 (多)肽(如抗体)文库的新的有效方法。

发明内容
本发明涉及多样性肽和多肽文库的设计和构建。
在一个方面，本发明涉及用于数据库多样性分析的方法，所述数据库包含相关的氨基酸序列，所述相关的氨基酸序列以至少一个共享的序列基序为特征，所述方法包括步骤
(a) 对所述相关的氨基酸序列进行比对；
(b) 通过对包含共享序列基序的相关氨基酸序列应用预定的两个或更多个过滤器(filter)的组合来创建第一数据集；
(c) 分析第一数据集在共享序列基序内的位置氨基酸使用频率(positional amino acid usage frequency); 和
(d) 创建以共享序列基序内的一个或多个氨基酸位置处的最小阈值氨基酸使用步页率(minimum threshold amino acid usage frequency)为特征的第二数据集。
在步骤(d)中，可以为共享序列基序内的任何和全部氨基酸位置指定最小
阈值氨基酸使用频率。
在一个具体实施方案中，为共享序列基序内的大多数氨基酸位置指定最
8小阈值氨基酸使用频率。在另一个具体实施方案中，为共享序列基序内的全部氨基酸位置指定最小阈值氨基酸使用频率。在多种实施方案中，为共享序列基序内的具体氨基酸位置指定的最小阈值氨基酸使用频率可以是相同或不同的。
在一个进一步的实施方案中，最小阈值氨基酸使用频率被设定为给共享
序列基序内的大部分氨基酸位置提供最小总和氨基酸使用率(minimum sum amino acid usage)。
在一个更进一步的实施方案中，最小阈值氨基酸使用频率被设定为给所述共享序列基序内的所有氨基酸位置提供最小总和氨基酸使用率。
可以将最小总和氨基酸使用率设定为任何期望的水平，并且在具体的实施方案中是至少约40%,或至少约45%，或至少约50%,或至少约55%, 或至少约60%,或至少约65%，或至少约70%,或至少约75%，或至少约 80%,或至少约85%,或至少约90%。
在另一个实施方案中，所述相关的氨基酸序列是抗体序列。
在另一个实施方案中，所述相关的氨基酸序列包含抗体重链序列。
在一个进一步的实施方案中，所述相关的氨基酸序列包含抗体轻链序列。
如果所述相关的氨基酸序列是抗体序列，那么共享序列基序可以是，例如，CDR序列，诸如CDR1、 CDR2或CDR3序列。
对可用于本发明方法的步骤(b)中的过滤器的性质或数目没有限制。在一种具体的实施方案中，在抗体序列的情况下，预定的过滤器组合可以选自下组(1)抗体重链或轻^l的同种型；(2)CDR1、 CDR2和CDR3序列中一种或多种的长度；(3)在CDR1、 CDR2和CDR3序列中的一种或多种内的一个或多个预定位置处一个或多个预定氨基酸残基的存在；(4)框架类型；(5)抗体结合的抗原；(6)抗体亲和力；和(7) CDR序列之外的位置氨基酸残基 (positional amino acid residues)。
在一个进一步的实施方案中，抗体重链和/或轻链CDR1、CDR2和CDR3 序列中的至少一个的大小是匹配的。例如，这个参数可以作为附加的过滤器与抗体重链和/或轻链序列的同种型组合。
在多种实施方案中，位置氨基酸使用频率是至少约3%,或至少约5%, 或至少约10%,或至少约15%;或设定在约3%至约15%,或约5%至约10%。在本发明的方法的另一个实施方案中，CDR序列内的每个氨基酸以相
同的位置氨基酸使用频率为特征。在一个供选择的实施方案中，位置氨基酸
使用频率在所述CDR序列内的至少两个氨基酸残基处不同。在另一个实施方案中，预定的过滤器组合包括框架类型。在另一个实施方案中，对抗体重链和轻链序列二者进行分析。任选地，
将抗体重链序列与预定的抗体轻链特征配对，或将抗体轻链序列与预定的抗
体重链特征配对。
在一个进一步的实施方案中，相关的抗体序列来自至少一种功能性抗体。
在一个更进一步的实施方案中，本发明方法步骤(b)中应用的过滤器中的至少一个是与功能性抗体重链和/或轻链框架序列最相似的种系序列。
所述功能性抗体可以与例如，但不限于，选自下组的多肽结合细胞表面和可溶性受体、细胞因子、生长因子、酶；蛋白酶；和激素。因此，所述抗体可以与细胞因子结合，所述细胞因子诸如白细胞介素，例如IL-1、 IL-2、 IL-3、 IL-4、 IL-5、 IL-6、 IL-IO、 IL-11、 IL-12、 IL-15、 IL画17、 IL-18、 IL-23, 以及它们各自的家族成员。或者，所述细胞因子可以例如选自下组干扰素 a、 P和y (IFN-a、-卩和-力，肿瘤坏死因子a和卩(TNF-a和-(3)， TWEAK， RANKL, BLys, RANTES, MCP-1， MIP-la, MIP-1(3， SDF-l,集落刺激因子(CSF)，粒细胞集落刺激因子(G-CSF),和粒细胞巨噬细胞集落刺激因子(GMCSF)。
抗体结合的多肽也可以是生长因子，包括但不限于，神经生长因子 (NGF)、胰岛素样生长因子1 (IGF-1)、表皮生长因子(EGF)、血小板衍生生长因子(PDGF)、血管内皮生长因子(VEGF)、胎盘生长因子(PLGF)、组织生长因子a (TGF-a)和组织生长因子p (TGF-P)。
在另一个实施方案中，功能性抗体与半抗原结合，所述半抗原例如Dig、 Bio、 DNP或FITC。
在本发明的方法的另一个实施方案中，相关氨基酸序列源自分泌性蛋白或胞外蛋白家族的成员，例如其可以是细胞因子。
在一个特定的实施方案中，细胞因子是干扰素a,并且相关氨基酸序列是IFN-a亚型的序列。
在一个具体实施方案中，本发明进一步包括合成相关氨基酸序列的物理文库的步骤，所述文库的设计是在鉴定的数据集的辅助下进行的。中，所述文库的合成是通过生成离散的多个确定的或简并的寡核香酸从而仅产生确定的氨基酸来实现的。
在一个进一步的实施方案中，产生的物理文库的多样性超过作为被鉴定
的数据集的物理表示(physical presentation)的文库的多样性。这可能是例如下述事实所致的结果，即至少一个不满足最小阈值氨基酸使用频率的氨基酸也被合成以提供所述多样性。
在一个更进一步的实施方案中，产生的物理文库的多样性低于作为鉴定的数据集的物理表示的文库的多样性。这可能是例如下述事实所致的结果，即并非所有满足最'J 、阄值氨基酸使用频率的氨基酸都被合成。
在另一个实施方案中，数据集包含抗体重链和/或轻链序列，其可以包括一个或多个CDR。
在另一个实施方案中，所述CDR被克隆到框架序列支架中，任选地，所述框架序列可以是包含所述CDR的数据库中使用最频繁的框架序列。
可以使用任何表达系统来表达所述物理文库，包括所有原核和真核表达系统。
在一个特定的实施方案中，使用噬菌粒展示、mRNA展示、微生物细胞展示、哺乳动物细胞展示、孩O朱展示才支术(microbead display technique)、抗体阵列或基于蛋白质-DNA关联的展示(display based on protein-DNA linkage)来表达并展示所述物理文库。
在本发明的另一个实施方案中，对文库筛选其成员的一种或多种化学和 /或生物学性质。这些性质可以包括，但不限于，半衰期、效价(potency)、效力(e伍cacy)、结合亲和力和免疫原性。
在另一个实施方案中，将氨基酸侧链多样性引入文库成员的一个或多个氨基酸位置处。
在一个具体的实施方案中，所述氨基酸侧链多样性通过在所述一个或多
个氨基酸位置提供具有至少两种不同侧链化学官能性(side chain chemical functionalities)的氨基酸残基来引入。
在其它实施方案中，在每个氨基酸位置处呈现全部氨基酸化学的至少 30%,或至少50%,或至少55%,或至少60%。
优选地，所述氨基酸侧链多样性是通过使用组合式简并寡核苦酸合成来引入的。
ii在另一个方面，本发明涉及一种产生肽或多肽序列组合文库的方法，包括使用组合寡核香酸合成来将氨基酸侧链化学多样性引入肽或多肽序列的两个或更多个氨基酸位置。
在一个实施方案中，氨基酸侧链化学多样性被设计为模拟在所述肽或多肽序列中天然存在的多样性。
所述文库可以是任何类型的文库，包括，但不限于抗体文库。在一个特定的实施方案中，抗体文库包含抗体重链可变域序列。在另一个实施方案中，文库包含抗体轻链可变域序列。在另一个实施方案中，文库是组合单链可变区片段(scFv)文库。
在一个进一步的实施方案中，抗体文库是Fab、 Fab'或F(ab')2片段的文库。
附图简述

图1是对多样性人抗体文库的设计和构建中代表性步骤的总结。图2: VKCDR1、 2和3的频率分析；按照位置测定的绝对使用率。图3: VJ轻链阈值分析。不报告低于10%使用率的单独氨基酸。图4: VKl轻链阈值分析。不报告低于5。/。使用率的单独氨基酸。图5:合成轻链CDR1多样性。
图6: VH3重链合成文库阈值分析；长度10个残基。为每个氨基酸位置单独设定3%-10%的阈值百分比使用率。
图7:用于合成如图6中所示设计的文库的寡核苷酸。
图8:确定有效的(productive)抗TNF-a抗体重链的种系来源。
图9:说明有效的(productive)抗TNP-a抗体重链种系来源的树形比对图。
图10:确定有效的(productive)抗TNF-a抗体轻链的种系来源。
图11:说明有效的(productive)抗TNF-a抗体轻链种系来源的树形比对图。
图12: VK1轻链合成文库多样性。
图13: VH3 CDR1和CDR2的频率分析。
图14: CDR1和CDR2阈值分析——第一部分。
图15: CDR1和CDR2阈值分析——第二部分。
图16: VH3重链合成文库多样性。图17:基于抗洋地黄毒苷抗体D2E7设计VH3重链合成文库多样性。
图18:抗洋地黄毒苦抗体Ig人轻链可变区和重链可变区序列。
图19:确定抗洋地黄毒香抗体重链和轻链的种系来源。
图20:对人长度匹配的QJ框架进行的半抗原分析。
图21:对H3-长度8氨基酸进行的半抗原分析。
图22: IFN-a亚型的氨基酸残基32-38的比对。
图23:编码期望的IFN-ot多样性的寡核苦酸设计。
图24:按照侧链化学分类的氨基酸。
图25:编码具有化学探针的(chemicallyprobed)多样性位置。图26:包含具有化学探针的多样性的CDR3。图27:使用化学4笨针集编码CDR3重链多样性。
发明详述 A.
除非另有定义，本文使用的科技术语与本发明所属技术领域普通技术人员一般理解的意思相同。Singleton等，D/c"o"ao; o/ M/cra6/o/ogy朋d Mo/ecw/ar所o/ogv 2nd ed" J. Wiley & Sons (New York, NY 1994)为本领域技术人员提供了关于本申请中使用的许多术语的综合指导。
本领域技术人员将意识到许多与本文描述的那些方法和材料类似或等效的方法和材料能够用于实施本发明。事实上，本发明决不限于描述的方法和材料。就本发明而言，在下文定义以下术语。
短语"共享序列基序(shared sequence motif)"按照最广的含义用于本文，用于表示在两个或更多个肽或多肽序列之间共有的氨基酸残基模式(pattern of amino acid residues)。序列基序可以通过多种模式发现算法(pattern discovery algorithm)轻易地鉴定，例如在本发明的详述中讨论的那些算法。
在本发明的上下文中，术语"抗体"(Ab)按照最广的含义使用，包括对特定抗原展现结合特异性的免疫球蛋白以及缺乏抗原特异性的免疫球蛋白和其它抗体样分子。例如，后一种类型的多肽被淋巴系统以低水平产生，而 -波骨髓瘤以增加的水平产生。在本申请中，术语"抗体，，具体涵盖，但不限于，单克隆抗体、多克隆抗体和抗体片段。
"天然抗体"通常是大约150000道尔顿的异四聚体糖蛋白，由两个相同的轻链(L)和两个相同的重链(H)构成。每条轻链通过共价二硫键与重链连接，而不同免疫球蛋白同种型的重链之间的二硫键数目不同。每条重链和每条轻链还具有规则间隔排列的链间二硫桥。每条重链在一端具有一个可变域
(VH),其后为多个恒定域。每条轻链在一端具有一可变域(vo，在其另一端具有一恒定域；轻链的恒定域与重链的第一恒定域并列，轻链的可变域与重
链的可变域并列。认为特定氨基酸残基在轻链和重链可变域之间形成一界
面，Chothia等，J Mo/, Ao/. 186:651 (1985);Novotny和Haber,尸rac. 7Va"爿cad 5W. 82:4592(1985)。
就抗体链而言，术语"可变的"用于指抗体链中在抗体之间存在广泛序列差异的部分，并且该部分参与每种特定抗体与其特定抗原的结合和特异性。这种可变性集中在轻链和重链可变域中称为超变区的三个区段。可变域中更加高度保守的部分称为框架区(FR)。天然重链和轻链的可变域各包含四个FR (分别为FR1、 FR2、 FR3和FR4)，主要采用由三个超变区连接的(3-折叠构型，这三个超变区形成连接(3-折叠结构且在某些情况下形成(3-折叠结构的一部分的环。每条链中的超变区通过FR紧密结合，并且与来自另一条链的超变区一起对抗体的抗原结合部位的形成起贡献(参见Kabat等， 5^wewc&s c^/"/Voto'ra o//wmwwo/ogz'ca/ /"fem^， 5th Ed. Public Health Service, National Institutes of Health, Bethesda, Md. (1991),第647-669页)。恒定域不直接参与抗体与抗原的结合，但显示多种效应器功能(effector ftmctions),诸如抗体对抗体依赖性细胞毒性的参与。
术语"超变区"当用于本文时指抗体中负责抗原结合的氨基酸残基。超变区包含来自"互补决定区"或"CDR"的氨基酸残基(即，轻链可变域中的残基30-36 (Ll)、 46-55 (L2)和86-96 (L3)和重链可变域中的30-35 (Hl)、 47-58 (H2)和93-101 (H3); MacCallum等，/Mo/Ao/. 1996)。
术语"框架区"指抗体可变区中本领域公认的、存在于变异性更高的 CDR区之间的部分。这些框架区通常被称为框架1 -4 (FR 1 、 FR2 、 FR3和FR4), 并且在三维空间中为重链和轻链抗体可变区中存在的三个CDR的结合提供支架，从而使这些CDR能够形成抗原结合表面。
依赖于它们重链恒定域的氨基酸序列，抗体可分为不同种类。主要有五种抗体IgA、 IgD、 IgE、 IgG和IgM,而这些中的几种可以进一步分成亚类(同种型)，例如，IgGl、 IgG2、 IgG3、 IgG4、 IgA和IgA2。对应于不同种类免疫球蛋白的重链恒定域分别称为a、 S、￡、 Y和P。来自任何脊推动物物种的抗体的"轻链"可以基于它们恒定域的氨基酸
序列归于两种明显不同的类型之一，这两种类型称为kappa (k)和lambda (人)。 "抗体片段"包含全长抗体的一部分，通常是抗体的抗原结合域或可变域。抗体片段的实例包括，但不限于，Fab、 Fab'、 F(ab')2、 Dab和Fv片段、线性抗体、单链抗体分子、双抗体和从抗体片段形成的多特异性抗体。
术语"单克隆抗体"用于指单个B细胞克隆所合成的抗体分子。修饰语 "单克隆，，表示抗体的这样的性质，即它是从基本上均一的(homogeneous) 抗体群体获得的，而不应解释为要求通过任何特定方法来产生所述抗体。因此，单克隆抗体可以通过由Kohler和Milstein, Mm^e 256:495 (1975); / /mw，o/. 6:511 (1976)首先描述的杂交瘤法制备，通过重组DNA技术制备，或者也可以A^噬菌体抗体文库分离。
术语"多克隆抗体"用于指由B细胞群体合成的抗体分子群体。 "单链Fv"或"sFv"抗体片段包含抗体的Vh和Vi结构域，其中这些结构域存在于一个多肽单链中。概括而言，Fv多肽进一步包含Vh和V^结构域之间的多肽接头，其使得sFv能够形成用于抗原结合的理想结构。关于sFv 的综述参见Pliickthun in T7ze尸/zmvwaco/ogy o/j\^o"oc/cwa/ Jw/777<%//es，第113 巻Rosenburg和Moore编，Springer-Verlag, New York,第269-315页(1994)。单链抗体记载在例如WO 88/06630和WO 92/01047中。
如用于本文，术语"抗体结合区"指能与抗原结合的免疫球蛋白或抗体可变区的一个或多个部分。通常而言，抗体结合区是例如抗体轻链(VL)(或其可变区)，抗体重链(VH)(或其可变区)，重链Fd区，抗体轻链和重链(或它们的可变区)的组合诸如Fab、 F(ab，)2,单结构域，或单链抗体(scFv)，或全长抗体，例如IgG(例如IgGl、 IgG2、 IgG3或IgG4亚型)、IgAl、 IgA2、 IgD、 IgE或IgM抗体。
术语"阈值出现频率(threshold frequency of occurrence)"指本发明的一个标准，其要求本文文库中选用的序列衍生自已被确定为受到表达偏爱的 (favored to be expressed)序列。依赖于最终目的，诸如需要的多样性程度、期望的文库大小，"阈值出现频率"可以设定为不同水平。
术语"氨基酸"或"氨基酸残基"通常指具有本领域公认的定义的氨基酸，诸如选自下组的氨基酸丙氨酸(Ala);精氨酸(Arg);天冬酰胺(Asn);
15天冬氨酸(Asp);半胱氨酸(Cys);谷氨酰胺(Gln);谷氨酸(Glu);甘氨酸(Gly); 组氨酸(His);异亮氨酸(Ile);亮氨酸(Leu);赖氨酸(Lys);曱硫氨酸(Met); 苯丙氨酸(Phe);脯氨酸(Pro);丝氨酸(Ser);苏氨酸(Thr);色氨酸(Trp);酪氨酸(Tyr);和缬氨酸(Val);但如有需要也可以使用经修饰的、合成的或罕见的氨基酸。因此，将37CFR 1.822(b)(4)中列出的经修饰的和不常用的氨基酸具体地包括在本定义中，并且明确地通过引用并入它们。可将氨基酸细分为多个亚组。因此，可将氨基酸分为具有非极性侧链的组(例如，Ala、 Cys、 Ile、 Leu、 Met、 Phe、 Pro、 Val);具有带负电的侧链的组(例如，Asp、 Glu); 具有带正电的侧链的组(例如，Arg、 His、 Lys);或具有不带电的极性侧链的组(例如，Asn、 Cys、 Gln、 Gly、 His、 Met、 Phe、 Ser、 Thr、 Trp和Tyr)。氨基酸也可以分成小氨基酸组(Gly、 Ala)，亲核氨基酸组(Ser、 His、 Thr、 Cys), 疏水氨基酸组(Val、 Leu、 Ile、 Met、 Pro),芳族氨基酸组(Phe、 Tyr、 Trp、 Asp、 Glu),酰胺组(Asp、 Glu),和碱性氨基酸组(Lys、 Arg)(参见，图25)。
术语"保守氨基酸残基"指对于在两个或更多个被比较的氨基酸序列中的给定残基位置而言，确定为以高频率出现的某种氨基酸残基，所述频率通常为至少50%或更高(例如，约60%、 70%、 80%、 90%、 95%或更高)。
术语"半保守氨基酸残基"指被确定为对于给定残基位置而言，在所比较的两个或更多个氨基酸序列之间以高频率出现的多种氨基酸残基(amino acid residues determined to occur with a high frequency between two or more amino acid sequences compared for a given residue position)。当2-3种残基(特别是2种残基)合起来的出现频率为约40%几率或更高的频率(例如，50%、 60%、 70%、 80%、 90%或更高)时，将所述残基确定为半保守的。
术语"可变氨基酸残基"指被确定为对于给定残基位置而言，在所比较的两个或更多个序列之间以可变的频率出现的多种氨基酸残基(amino acid residues determined to occur with a variable frequency between two or more amino acid sequences compared for a given residue position)。当在给定位置处出现许多残基时，将该残基位置确定为可变的。
术语"可变性谱(variability profile)"指对多肽序列内(例如抗体的CDR 内)特定氨基酸位置上存在的氨基酸和它们各自的出现频率所做的编录 (cataloguing)。
术语"多核香酸"指核酸如DNA分子和RNA分子和它们的类似物(analog)(例如，使用核芬酸类似物或使用核酸化学产生的DNA或RNA)。如果希望，
所述多核苷酸可以以合成方法制备，例如，使用本领域公认的核酸化学或酶促方法(使用例如聚合酶)，并且如果希望的话对其进行修饰。典型的修饰包括曱基化、生物素化和其它本领域已知的修饰。此外，核酸分子可以是单链或双链的，并且在希望的情况下与可检测的部分相连接。
除非另有指定，术语"诱变"指任何本领域公认的用于改变多核苷酸或
多肽序列的技术。优选的诱变类型包括易错PCR诱变、饱和诱变(saturation mutagenesis)或其它定点i秀变。
术语"栽体"用于指这样的rDNA分子，其能够在细胞中自主复制，并且可以与DNA区段(例如基因或多核苷酸)可操作地连接，从而引起该附接区段的复制。能够指导编码一种或多种多肽的基因表达的载体在本文称为 "表达载体'，。
术语"引物"，用于本文时，指这样的多核苷酸，其或是从核酸限制消化反应纯化的，或是合成产生的，当其处于与核酸链互补的引物延伸产物的合成受到诱导的条件下时，能起到核酸合成起始点的作用。这些条件可以包括在合适的温度和pH下核苷酸和DNA聚合酶、逆转录酶等的存在。所述引物优选是单链的，但是也可以是双链形式的。引物必须长到足以在用于聚合的作用剂的存在下引发衍生产物的合成。引物的确切长度将依赖于许多因素，包括靶序列的复杂度、温度和引物的来源。引物通常含有约15至约25 个核苷酸，但是也可以使用更短或更长的引物。较短的引物通常需要较低的温度来与模板形成稳定的复合物。
"噬菌体展示文库"是一种蛋白质表达文库，其将克隆的蛋白质序列的群集表达为与噬菌体外壳蛋白的融合物。因此，短语"噬菌体展示文库"在本文指噬菌体(例如，丝状噬菌体)的群集，其中所述噬菌体表达外来的(通常为异源的)蛋白。外来蛋白可自由地与噬菌体所接触的其它部分(moiety)相互作用(结合)。每个展示外来蛋白的噬菌体都是所述噬菌体文库中的一个"成贝。
"抗体噬菌体展示文库"指展示抗体或抗体片段的噬菌体展示文库。抗体文库包括噬菌体群体或编码这样的噬菌体群体的载体群集，或含有这样的噬菌体或载体群集的细胞。文库可以是单价的，平均每个噬菌体颗粒展示一个单链抗体或抗体片段，或者可以是多价的，平均每个病毒颗粒展示两个或更多个抗体或抗体片段。术语"抗体片段"包括，但不限于，单链Fv(scFv) 片段和Fab片段。优选的抗体文库平均包含超过106,或超过107，或超过 108，或超过109个不同的成员。
术语"丝状噬菌体"指能够在其表面上展示异源多肽的病毒颗粒，包括，但不限于，fl、 fd、 Pfl和M13。丝状噬菌体可以包含选择性标记，诸如四环素(例如，"fd-tet")。多种丝状噬菌体展示系统是本领域技术人员所熟知的 (参见，例如，Zacher等，Gene 9: 127-140 (1980); Smith等，Science 228: 1315-1317 (1985);和Parmley和Smith Gene 73: 305-318 (1988》。
术语"淘选(paniiing)"用于指在对携带与靶物具有高亲和力和特异性的化合物(诸如抗体)的噬菌体的鉴定和分离中的多轮筛选过程。B.
用于实施本发明方法的技术是本领域熟知的，并且在标准实验室手册，包4舌例3口 Ausubel等,Current Protocols of Molecular Biology, John Wiley and Sons (1997); Molecular Cloning: A Laboratory Manual, Third Edition, J. Sambrook and D. W. Russell编，Cold Spring Harbor, New York， USA, Cold Spring Harbor Laboratory Press, 2001; O'Brian等，Antibody Phage Display, Methods and Protocols, Humana Press, 2001; Phage Display: A Laboratory Manual, C.R Barbas III等编，Cold Spring Harbor, New York, USA， Cold Spring Harbor Laboratory Press, 2001; 和Antibodies, G. Subramanian编，Kluwer Academic, 2004中有记载。例如，诱变可以使用定点诱变进行(Kunkel等， Proc. Natl. Acad. Sci USA 82:488-492 (1985))。 PCR扩增方法在美国专利 4683192、 4683202、 4800159和4965188，和几种教科书包括"PCR Technology: Principles and Applications for DNA Amplification", H. Erlich编,Stockton Press: New York (1989);禾口"PCR Protocols: A Guide to Methods and Applications", Innis等编，Academic Press, San Diego, Calif. (1990)中描述。
关于使用Kabat数据库和Kabat规程进行的抗体序列分析的信息可以在例^口 Johnson等，The Kabat database and a bioinformatics example, A/e^zcxis Mo/ 2004;248:11-25;和Johnson等，Preferred CDRH3 lengths for
antibodies with defined specificities, /"f/wmi/wo/. 1998， Dec;10(12):1801-5中找到。关于使用Chothia规程进行的抗体序列分析的信息可以在例如Chothia 等,Structural determinants in the sequences of immunoglobin variable domain, / Mo/所o/. 1998 May l;278(2):457-79; Morea等，Antibody structure, prediction and redesign, 5z.o; /z;^ CTzew. 1997; 68(l-3):9-16.; Morea等,Conformations of 'the third hypervariable region in the VH domain of immunoglobins; / A/b/ ^/o/. 1998, 275(2):269-94; Al-Lazikani等,Standard conformations for the canonical structures of immunoglobins, / Mo/編.1997, 273(4):927-48. Barre等， Structural conservation of hypervariable regions in immunoglobins evolution, Nat Struct Biol. 1994， l(12):915-20; Chothia等，Structural repertoire of the human VH segments, / Mo/ B/o/: 1992, 227(3):799画817 Conformations of immunoglobin hypervariables, Nature. 1989, 342(6252):877-83; 和Chothia等, Review Canonical structures for the hypervariables of immunoglobins, J" Mo/ 脂.1987, 196(4):901-17)中找到。
1. /" w7/co多样性(多)肽文库设计
根据本发明，多样性(多)肽文库的设计首先是使用相关感兴趣(多)肽序列的数据库，以及，典型地，鉴定由文库中各个成员所共享的序列基序。多种用于鉴定多肽中序列基序的计算机程序是本领域熟知的，并可在线使用。因此，例如，序列基序可以使用ELPH(—种用于在一组DNA或蛋白质序列中查找基序的通用型Gibbs采样器)，MEME (多重EM基序引出(Multiple EM for Motif Elicitation)系统，可用来在多组相关DNA或蛋白质序列中发现高度保守区)；PPSEARCH (可用于在PROSITE数据库(EBI)中搜索序列的基序或功能模式)；emotif (—种研究系统，其针对被比对序列的子集形成基序，并且通过基序的特异性和其覆盖的供给序列的数目二者来对其所找到的基序进行评级(Stanford Bioinformatics Group));等来鉴定。
在接下来的步骤中，将鉴定出的一个或多个序列基序相互进行比对，并把它们细分成不同的数据集，每个数据集的特征在于共享预定的参数组合，其中所述参数是一个或多个被比对的序列基序的特征参数。例如，这样的参数可以是长度、特定序列基序所属的亚家族、该序列来源的物种、生物学功能等。然后，对于以给定的两种或更多种参数的组合为特征的数据集进行逐位氨基酸使用频率分析，从而鉴定数据集内单独的氨基酸序列段(stretche)中的关键氨基酸使用率。
序列基序的比对可以以本领域技术范围内的多种方式实现，例如通过j吏
用公众可以获得的计算机软件如BLAST、 BLAST-2、 ALIGN或Megalign (DNASTAR)软件。本领域技术人员能够确定用于测量比对的适当参数，包括在被比较的序列的全长范围内实现最大比对所需的任何算法。
氨基酸使用频率的确定可以基于数据集全部成员中给定位置(保守氨基酸残基)上的高度同一性(通常为至少50%)的出现，优选完全同一性的出现；或者基于就给定的残基位置而言某种氨基酸残基在数据集的两个或更多个成员(优选大多数成员)中的出现。然后可以创建以一种或多种附加参数为特征的附加数据集，所述附加数据集无需全部与序列相关。
例如，如果目的是设计多样性抗体文库，可以使用预定参数的独特组合 (过滤器)来分析Kabat数据库(一种含有非冗余重排抗体序列的电子数据库) 中存在的抗体重链和轻链CDR序列的位置频率。Kabat数据库含有在提交时进行了注释的抗体蛋白序列。可以将来自Kabat数据库的信息导入到可方便地应用过滤器的其它环境下，例如，Microsoft Access数据库，并且可以将结果制表并使用任何其它软件(包括，例如Excel)进一步分析。
本发明的方法允许使用很多种(a wide array of)参数(过滤器)和参数(过滤器)组合来同时过滤抗体重链和轻链序列。因此，针对特定重链的多样性数据集的生成可以与所选择的轻链限制条件联系起来。例如，用于抗体重链 CDR序列分析的过滤器可以包括以下的一种或多种(1 )与特定轻链类型(例如kappa (k)或lambda (X))的配对；(2) CDR大小(例如CDR1=6个残基；CDR2 =13个残基)；和(3) CDR3亚家族(例如VHl相对于VH3)。在轻《逸中，全部 CDR都可以是大小匹配的。例如，可以预先决定CDRl-7个，CDR240个， CDR3=8个氨基酸残基。此外/或者，可以基于轻链亚家族的类型(例如Kl或 k3亚家族)来对轻链进行过滤(细分)。
因此，例如，重链多样性分析可以基于与K轻链的配对来进行，但是也可进一步将所述分析限制到与VK3亚家族轻链配对的那些重链序列，或限制到具有长度为8个氨基酸的CDR3的轻链，或它们的组合。
用于抗体重链和/或轻4连的共变分析(covariant analysis)的附加过滤器可以包括，但不限于，同种型、抗原类型、亲和力和/或与CDR或抗体链类型或亚型不相关的位置残基。此外，本发明使得基于"有效的"(productive)重链和轻链配对来设计主题文库(themedlibraries)成为可能。由此能够对抗相同抗原的多种抗体，包括商业抗体，进行多样性分析来鉴定最有可能在人类治疗中成功的抗体。
如果目标是设计主题抗体文库(themed antibody library),那么基于有效性的重链和轻链配对，针对所选择的抗原选择一种或多种有效的(productive) (例如商品化的)抗体。然后，确定重链和轻链二者的种系来源(germline or^in),并且对相同类型的重链和轻链CDR序列(例如VH3, VJ)施以上述类型的多变量分析以创建多样性数据集。优选地，所述分析应该仅基于大小匹配的CDR来进行。
在本发明的方法中，在比对和应用过滤器之后进行位置分析，以确定先前创建的数据集内的单独氨基酸或氨基酸组的位置频率，并且生成多样性数据集，例如CDR多样性数据集。在针对每个感兴趣的氨基酸位置确定了绝对位置氨基酸使用率之后，可以降低氨基酸的百分比使用率及总和使用率的阈值，以适用于更大的多样性覆盖率。因此，例如，需要的总覆盖率可以设定为高于80%,且不呈现低于10。/。的单独氨基酸(with no individual amino acid being represented below 10%)。
& w7/co建模以使用来自任何相关来源的附加建模信息持续更新，例如，
来自基因和蛋白质序列和三维数据库和/或先前测试的多肽(例如抗体)的结
果，从而使& w7/co数据库在其预测能力方面变得更加精确。
此外， 7/co子集可以用生物学测定的结果来加以补充，例如，结合
亲和力(affmity)/亲合力(avidity)结果，先前测定的抗体的生物学活性。这样，
可以将结构特征与在期待用途上的预期性能更加紧密地关联起来。
设计CDR多样性数据集之后合成提供所需多样性的组合(简并)寡核苷
酸序列的群集，并且将所述群集克隆至合适的模板背景上。
2.沟建多存'/W多j應X岸
在如上所述创建组合位置多样性数据集之后，可以通过多重合成寡核香酸合成(multisyntheses oligonucleotide synthesis)生成物理组合多样性集合 (physical combinatorial diversity sets)。才艮据本发明，不4吏用诱变密码或混合密码子三聚体，取而代之的是生成离散的筒并寡核芬酸群集(discrete degenerate oligonucleotide collections),可将所述群集定量i也卩艮缩(restrict)或方丈宽(relax)以物理地呈现(physically represent)通过前述分析和设计而产生的组合多样性集合。放宽标准有助于通过合成较少的寡核苷酸探针来捕获期望的多样性，或者，如果克隆群集的能力超过了通过多样性分析生成的预测群集，有助于合理地放大多样性集合。此外，物理组合多样性集合可以包括虚拟多样性集合(virtual diversity sets)中不存在的副产物，同时具有或不具有附加规则集(additional rule sets)。这种方法在组合抗体文库生成领域中帮助最大，但是也可以合理地延伸至其它适合的应用中，例如生成各种多肽类型的文库 (例如生长因子文库)等。重要的是应注意所述物理文库不是必须要求含有在任何给定位置上包含通过如上所述设定阈值百分比使用率而筌定的所有氨基酸的成员(members comprising all amino acids at any given position that were identified by setting the threshold percentage usage as described above)。出于多种理由，例如为了降低需要的寡核苷酸的数目，在某个给定位置上省略特定的氨基酸可能是有利的。或者/并且，可以通过合成在给定位置上具有不满足预定阈值频率使用率的氨基酸残基的成员，来增加文库的覆盖率和多样性。所述两种方法可以结合起来，即可以省略& w7/co多样性数据集中存在的特定氨基酸残基，同时可以加入未呈现于w7/co多样性数据集中的给定位置上的氨基酸残基。
创建本文的肽或多肽文库的第一步是对氨基酸群集进行反向翻译，以进行多重合成(multiplexed synthesis)来含有完整的位置群集(positional collection)。反向翻译工具是本领域熟知且可通过商业途径获得的。例如，基于Java的逆向翻译工具Entelechon (DE)使用适合的密码子用法将蛋白质翻译成核苷酸序列，并且容许针对在特定生物中的表达来优化序列。在优选的实施方案中，本发明的方法采用自动反向翻译算法，该算法能够合成离散且简并的寡核苦酸集合来呈现通过/" w7/co分析创建的多样性表。这种算法可包括或排除特定密码子，并且甚至可包含非等摩尔简并度，从而不仅更精确地实现数据集的多样性，还更精确地实现相对分布。
需要的寡核苷酸的数目可以通过选择简并碱基以每次同时编码多于一种常用氨基酸来加以限制。此外，可以限制这样的简并碱基来避免感兴趣的物种的罕用密码子。例如，如果在大肠杆菌中合成所述群集，可以在反向翻译中限制使用大肠杆菌罕用的精氨酸密码子用法。此外，已知不是所有的氨基酸均以相同的频率被使用。因此，可以使用非等摩尔混合物来更精确地反映虚拟O w7/co)多样性表的概貌(profile)。
当位置多样性需要合成过多的寡核苷酸时，可以使用化学探针群集来任意地限定多样性。因此，可以将氨基酸侧链化学捕获(capture)在氨基酸子集内，例如小氨基酸、疏水氨基酸、芳族氨基酸、碱性氨基酸、酸性氨基酸、酰胺类氨基酸、亲核氨基酸等氨基酸可构成这些子集。正如实施例将会阐述的，这种带化学探针的(chemically probed)多样性位置可使用比其它方式所需数目少得多的寡核苷酸来合成。具有化学探针的多样性(chemically probed diversity)覆盖大部分天然存在的多样性，并且提供广泛的相互作用化学。
当构建本发明的多样性抗体文库时，可以按照期望向抗体序列(例如 CDR)中引入经修饰的氨基酸残基，例如大多数多肽中使用的20种传统氨基酸之外的残基(例如，高半胱氨酸)。这可以使用本领域公认的技术来进行，所述技术通常将终止密码子掺入多核苷酸中希望存在修饰的氨基酸残基处。该技术随后提供修饰的tRNA (所谓的阻抑tRNA (suppressor RNA),例如琥珀、乳白或赭石终止密码子的阻抑tRNA)，该tRNA连接着待4参入所述多肽的修饰氨基酸(参见，例如,K6hrer等,iW必，98， 14310-14315 (2001 ))。
在优选的实施方案中，上述步骤中的一步或多步是由计算机辅助的。在具体的实施方案中，计算机辅助的步骤包括，例如，挖掘Kabat数据库，以及任选地，将结果相对于Vbase序歹寸目录(Tomlinson， I M.等，.VBASE Sequence Directory. Cambridge, U.K.: MRC Centre for Protein Engineering; 1995)进行相互参照。本发明的方法适用于高通量方法，所述高通量方法包含执行多个步骤的软件(例如，计算机可读的指令)和硬件(例如，计算机、机器人和芯片)。
用于生成本文的文库的寡核苷酸可以通过已知用于DNA合成的方法来合成。已知的合成方法包括亚磷酰胺化学法(Beaucage 和 Caruthers, T^ra/^dra"22(20):1859 1862 (1981))，其允许有效的寡核苷酸(oligo) 制备，特别是最常见的40 80 bp大小范围的寡核苷酸，其中使用自动合成仪，如例如Needham-VanDevanter等A^c/e/c爿c/cfe i 仏，12:61596168 (1984)中所述。此外，寡核苦酸可以通过本领域熟知的三酯、亚磷酸酯和H-膦酸酯方法。关于寡核苷酸合成方法的综述，参见，例如"Oligonucleotide Synthesis: A Practical Approach", ed. M. J. Gait, JRL Press, New York, N.Y. (1990)。寡核苷酸也可以从多种商业来源订购，例如，The Midland Certified Reagent Company (Midland, TX)、 The Great American Gene Company (Salt Lake City, UT)，ExpressGen Inc. (Chicago, IL)、 Operon Technologies Inc. (Alameda, Calif.)。
如果文库是抗体文库，在接下来的步骤中，将多样性克隆到框架中以产生多样性抗体文库。
框架支架(framework scaffold)可以通过本领域熟知的方法来选择。因此，可以选择数据库中最经常使用的框架用作支架，并且将多样性克隆到种系框架中。对于框架序列的选择，将确定为响应于特定抗原而表达的所有可用框架支架的子集排成阵列(arrayed)。通过确定在自然条件下(in nature)响应于给定的抗原类别表达频率最高的框架，选择合适的框架受体。例如，为了确定响应于蛋白质抗原而表达的优选受体框架，在Kabat数据库搜索"定向于蛋白质的(protein-directed)"框架。如果需要优选的受体序列来呈现(present)针对不同的抗原类别的CDR和/或特定物种的受体序列，则相应地/没置Kabat 蛋白序列过滤器。因此，为了确定作为针对蛋白质靶物的人用治疗剂使用的序列，将过滤器设置为仅集中针对识别蛋白质/肽抗原的人抗体序列。这大大降低了数据集中的冗余和可能使结果产生偏差的序列信息。对于VH、 Vk和/ 或V^基因可以按照类似方式进行这种分析。
可以将多样性群集掺入靶特异性受体以生成变体群集，用于抗体工程。生成的CDR多样性可以通过本领域已知的方法诸如聚合酶链式反应 (PCR)掺入框架区。例如，可以使用寡核苷酸作为延伸用引物。在这种方法中，编码对应于确定区域如CDR (或其部分)的诱变盒(mutagenic cassette)的寡核苷酸彼此互补，并且使用聚合酶(例如Taq聚合酶)能够将它们延伸形成大的基因盒(例如，scFv)。
在另一种方法中，设计部分重叠的寡核苷酸。内部寡核苷酸与它们的互补链退火产生双链DNA分子，这样分子具有单链延伸，可用于进一步退火。其后可以将退火后的配对混合在一起，利用PCR进行延伸并且连接形成全长双链分子。可以在合成基因的末端附近设计方便的限制位点用于克隆入合适载体中。在这种方法中，也可以直接引入简并核苷酸来替代所述寡核苷酸之一。在引物延伸反应过程中，通过由聚合酶辅助的酶促延伸，从来自另一条链的部分互补寡核苷酸合成互补链。在合成阶段掺入简并多核苷酸可使克隆更简单，例如，在对基因中多于一个结构域或限定区域进行诱变或工程改造的来产生多样性的情况下。
无论使用什么方法，在转化成双链形式之后，可以通过标准技术将寡核芬酸连接至合适的表达载体中。依靠适当的载体，诸如合适的质粒，可以将质粒引入无细胞提取物，或适于抗体表达的原核细胞或真核细胞。
在一种不同的方法中，可以将希望的编码序列克隆到噬菌体载体或具有丝状噬菌体复制起点的载体(其允许利用辅助噬菌体来增殖单链分子)中。可以将单链模板与一组呈现期望突变的简并寡核苦酸退火、延伸并连接，由此
将每种类似链(analog strand)掺入一群分子中，可以将这群分子引入适当的宿主(参见，例如，Sayers, J.R.等，Nucleic Acids Res. 16: 791-802 (1988))。
适于产生本文的文库(如合成人抗体文库)的多种噬菌粒克隆系统是本领域已知的，并且已经由例如Kang等，A^/. Jcad 5W.,88:4363 4366
(1991) ; Barbas等，麵.Jcad 5W.腦,88:7978 7982 (1991); Zebedee 等，尸rac. A^/. Jcad 5W"89:3175 3179 (1992); Kang等，尸rac. A/af/.爿cad
,， 88:11120 11123 (1991); Barbas等，尸rac.胸/.爿cW. 5W"园, 89:4457 446I (1992);和Gram等，尸rac. A^/.」c^/. 89:3576 3580
(1992) 进行了描述。
文库的大小将依赖于CDR长度和需要呈现的CDR多样性的量而变化。优选地，文库将设计为含有少于1015、 1014、 1013、 1012、 1011、 1010、 109、 108、 107个，并且更优选106个或更少的抗体或抗体片段。
体，如微芯片，并且优选使其形成阵列(arrayed)。
根据本发明构建的文库可以使用任何本领域已知的方法表达，所述方法包括，但不限于，细菌表达系统，哺乳动物表达系统，和体外核糖体展示系统。
在优选的实施方案中，本发明包括使用噬菌体载体表达本文的多样性文库。所述方法通常包括使用用于克隆和表达的丝状噬菌体(噬菌粒)表面表达载体系统。参见，例如，Kang等，尸rac. A^/. Jcad L/SA 88:4363-4366
(1991) ; Barbas等，户rac, A^/. Jcad 5W" 88:7978-7982 (1991); Zebedee 等，尸rac. A^/. JcW. 5W" L/iSA 89:3175-3179 (1992); Kang等，尸rac. A^/.爿cad Sc/.， t/&4， 88:11120-11123 (1991); Barbas等，尸roc. A/a"爿cad SW.， "5^， 89:4457-4461 (1992); Gram等，尸rac. A^/. Jcad 5W" 89:3576-3580
(1992) ; Brinkman等，/扁腳/. M&Ws 182:41-50 (1995); Ames等，J. /mmwwo/. Afef/zoiis1 184:177-186 (1995); Kettleborough等,￡wr J. 7mmwwo/.24:952-958 (1994); Persic等，187 9-18 (1997); Burton等，^/va"ce"" /mm,o/ogv 57:191-280 (1994);和美国专利Nos. 5698426; 5233409; 5580717; 5427908; 5750753; 5821047; 5403484; 5571698; 5516637; 5780225; 5658727; 5733743; 5837500; 5969108; 6326155; 5885793; 6521404; 6492160; 6492123; 6489123; 6342588; 6291650; 6225447; 6180336; 6172197; 6140471; 5994519; 6969108; 5871907;和5858657。
用载体转化重组宿主细胞，培养所述细胞以使得引入的噬菌体基因和展示蛋白基因得以表达，对于噬菌体颗粒而言，使其得以装配并从宿主细胞释放。其后从宿主细胞培养基收获(收集)释放的噬菌体颗粒并且筛选期望的抗体结合性质。通常，对收获的颗粒"淘选"其与预先选4奪的抗原的结合。收集强结合的颗粒，并且克隆分离单种颗粒(individual species of particles),并且进一步筛选与所述抗原的结合。选择产生具有期望的抗原结合特异性的结合位点的噬菌体。
需要强调的是，本发明的方法不限于任何用于抗体文库表达和展示的特定技术。其它展示技术也是合适的，诸如核糖体或mRNA展示(Mattheakis 等，尸rac. 7Va" ^cad L/SJ 91:卯22-9026 (1994); Hanes和Pluckthun, Ato/. jcad 5W. 94:4937-4942 (1997));微生物细胞展示，诸如细菌展示 (Georgiou等，Atowe 15:29-34 (1997)),或酵母细胞展示(Kieke等，
尸rafe/"五^. 10:1303-1310(1997));哺乳动物细胞上的展示；孢子展示；病毒展示，诸如逆转录病毒展示(Urban等，A^c/e/c ^c/A i 仏33:e35 (2005));基于蛋白质-DNA关联的展示(Odegrip等，Proc. Acad. Natl. Sci.腦 101:2806-2810 (2004); Reiersen等，A^c/ez.c Jc/& 33:el0 (2005))和微珠展示(Sepp等，F五5S丄e". 532:455-458 (2002))。
在核糖体展示中，抗体和编码mRNA通过核糖体连4妻，在翻i争结束时，使mRNA终止而不释放多肽。基于作为整体的三元复合物进行选择。
在mRNA展示文库中，抗体和编码mRNA之间藉由作为游f接分子的噪呤霉素建立共价键(Wilson等，尸rac. Ato/. ^a^/. 98:3750-3755 (2001))。关于使用这种技术来展示抗体，参见，例如，Lipovsek和Pluckthun, J /画,/. M函o血290:51-67 (2004)。
微生物细胞展示技术包括酵母(诸如酿酒酵母(5"acc/zaramycas ce v/w'ae)) 上的表面展示(Boder和Wittrup, A^. 5/oto:/7"o/. 15:553-557 (1997))。因此，例如，可以藉由与位于酵母细胞壁上的a-凝集素酵母粘附受体(a-agglutinin yeast adhesion receptor)的融合，将抗体展示在酉良酒酵母的表面上。这种方法提供了通过流式细胞仪筛选全套抗体(repertoire)的可能性。通过用荧光标记的抗原和抗表位标签试剂蜡染色细胞，可以根据细胞表面上的抗原结合和抗体表达水平来分选酵母细胞。酵母展示平台还可以与噬菌体联用(参见，例如，VandenBeucken等，F五^S丄e". 546:288-294 (2003))。
关于用于选择和筛选抗体文库的4支术的综述，参见，例如，Hoogenboom, 淑匿跑ec/7"o/. 23(9):1105陽1116 (2005)。
将通过以下非限定性实施例对本发明进行说明。
实施例
用于进行本发明的方法的技术是本领域熟知的并且在标准实验室手册中有戶斤4苗述,包才舌，^f列啧口, Ausubel等，Cw^re"/ /Votoco/j A/o/ecM/a, John Wiley and Sons (1997); Mo/ecw/or C7om'"g.' ^丄aZ orato^y Ma肌a/' Third Edition, J. Sambrook及D. W. Russell编，Cold Spring Harbor, New York, USA, Cold Spring Harbor Laboratory Press, 2001; O'Brian等，J"".6o办/Vzage /qy, 朋(i尸ratoc喊Humana Press, 2001; _P/2"ge 爿Z^ora/c^
Mawwa/, C.F. Barbas III等编，Cold Spring Harbor, New York, USA, Cold Spring Harbor Laboratory Press, 2001; 和^幼c^/as, G. Subramanian编,Kluwer Academic, 2004。例如，诱变的进行可以使用定点诱变(Kunkel等，尸rac. A^/. 」c^/. 82:488-492 (1985》；Z)A^4 C7om'"g, Vols. 1 and 2, (D.N. Glover,
Ed. 1985); (9//go"wc/eo"^ SywA^h (M丄Gait编1984); PC7 //a"^ oo/: Cw^re"f尸ratoco/i1 /" iVwc/e/c Jcz'd C7 ew/W y, Beaucage编.John Wiley & Sons (1999) (Editor); Qx》ni //a"必oo^: iVwc/ez.c 5b^"wre, Neidle编,Oxford Univ Press (1999); 尸CT /Vofoco/&. ^ Gwz.cfe to A/eAofife J; p//ca/7.0Rs， Innis 等,Academic Press (1990); _PC/ 7fec/2"—w ￡^ew/7-a/ Rc/m—es,
Burke编，John Wiley & Son Ltd (1996); 尸C/ rec/zm々we: Ar-PC尺Siebert 纟扁,Eaton Pub. Co. (1998); 爿w/7力oc/y ￡wg7> een>7g /Vofoco/s f"Mef/zo(is M /ecw/a7- 5/o/ogv」，510, Paul, S., Humana Pr (1996); 」油'6o办￡> g7'"em>zg.'爿 /Vacf/ca/ ^(/7;7roac/z (PnaCca/ y4/ / n ac/2 <Sen.es, /69」,McCafferty, Ed.， Irl Pr (1996); JwZ^od/es: ^丄a60rato7 Afowwa/, Harlow等，C.S.H丄.Press, Pub.(1999); 丄(arge-5ba/e TWawmaZ/aw Ce〃 Cw/f"re rec/7"o/o<gy， Lubiniecki, A.纟扁, Marcel Dekker, Pub., (1990)。 Border等，Yeast surface display for screening combinatorial polypeptide libraries, A^^wre 5z.otec/z"o/o^,15(6):553-7 (1997); Border等,Yeast surface display for directed evolution of protein expression, affinity, and stability, Me/ZzoA ￡"2>wo/.， 328:430-44 (2000);核糖体展示，如 Pluckthun等在美国专利No. 6348315中所述，和Profusion ,如Szostak等在美国专利Nos. 6258558; 6261804;和6214553中所述；和细菌周质表达，如US20040058403A1中所述。
有关使用Kabat规程的抗体序列分析的更详细内容可以参见，例如， Johnson等,The Kabat database and a bioinformatics example,她^zoA Mo/历o/. 2004;248:11-25; Johnson等，Preferred CDRH3 lengths for antibodies with defined specificities, /"f /m應wo/. 1998, Dec;10(12):1801-5; Johnson等， SEQHUNT. A program to screen aligned nucleotide and amino acid sequences, M"/zoA Mo/ 1995;51:1-15.和Wu等，Length distribution of CDRH3 in
antibodies; 和Johnson等，尸rafe/ra. 1993 May;16(l):l-7. Review。
有关使用Chothia规程的抗体序列分析的更详细内容可以参见，例如， Chothia等，Structural determinants in the sequences of immunoglobulins variable domain, JAfo/所o/. 1998 May l;278(2):457陽79; Morea等，Antibody structure, prediction and redesign, 5/0/7/2;^ CTzem. 1997 Oct;68(l-3):9-16.; Morea等' Conformations of the third hypervariable region in the VH domain of immunoglobulins; /Mo/1998 Jan 16;275(2):269-94; Al-Lazikani等， Standard conformations for the canonical structures of immunoglobulins, / Mo/ 5/o/. 1997 Nov 7;273(4):927-48. Barre 等，Structural conservation of hypervariable regions in immunoglobulins evolution, Nat Struct Biol. 1994 Dec;l(12):915-20; Chothia等,Structural repertoire of the human VH segments, / M /編.1992 Oct 5;227(3):799-817 Conformations of immunoglobulin hypervariable regions, Nature. 1989 Dec 21-28;342(6252):877-83;和Chothia 等 , Review Canonical structures for the hypervariable regions of immunoglobulins, J Mo/伤o/. 1987 Aug 20; 196(4):901-17)。
有关Chothia分才斤的更i爭细内容在例如Morea V， Tramontane) A， Rustici M, Chothia C, Lesk AM. Conformations of the third hypervariable region in the VHdomain of immunoglobulins. J Mol Biol. 1998 Jan 16;275(2):269醒94; Chothia C, Lesk AM, Gherardi E， Tomlinson IM, Walter G Marks JD， Llewelyn MB, Winter G. Structural repertoire of the human VH segments. J Mol Biol. 1992 Oct 5;227(3):799-817; Chothia C, Lesk AM， Tramontano A, Levitt M， Smith-Gill SJ， Air G, Sheriff S， Padlan EA, Davies D， Tulip WR等,Conformations of immunoglobulin hypervariable regions. Nature. 1989 Dec 21-28;342(6252):877-83; Chothia C, Lesk AM. Canonical structures for the hypervariable regions of immunoglobulins. J Mol Biol. 1987 Aug 20;196(4):901-17; 和Chothia C, Lesk AM. The evolution of protein structures. Cold Spring Harb Symp Quant Biol. 1987;52:399-405中有描述。
有关CDR接触的考虑因素的更详细内容在例如MacCallum RM, Martin AC， Thornton JM. Antibody-antigen interactions: contact analysis and binding site Topography. J Mol Biol. 1996 Oct ll;262(5):732-45中有描述。
有关本文涉及的抗体序列和数据库的更详细内容可见，例如，Tomlinson IM, Walter G, Marks JD， Llewelyn MB, Winter G The repertoire of human germline VH sequences reveals about fifty groups of VH segments with different hypervariable loops. J Mol Biol. 1992 Oct 5;227(3):776-98; Li W， Jaroszewski L, Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases. Bioinformatics. 2001 Mar;17(3):282-3 ; [VBDB] www.mrc-cpe.cam.ac.uk/vbase-ok.php menu=901; [KBTDB] datobase.com; [BLST] www.ncbi.nlm.nih.gov/BLAST/ [CDHIT] bioinformatics.ljcrf.edu/cd-hi/; [EMBOSS] www.hgmp.mrc.ac.uk/Software/EMBOSS/ ; [PHYLIP] evolution.genetics.washington.edu/phylip.html ; 和 [FASTA]
fasta.bioch.virginia.edu。
实施例1
抗体轻链CDR1 、 2和3序列的频率分析
在第一步中，从Kabat免疫学相关蛋白序列数据库(Kabat Database of Sequences of Proteins of Immunological Interest)收集了 2374个人抗体VK1轻链可变域序列。对于每个序列，将基因序列翻译成相应的氨基酸序列，并且根据Kabat编号系统按位置比对所述氨基酸序列。接下来，对于所获得的VK1轻链序列群集，通过选择在位置18-19具有
氨基酸"RV，，的序列并且应用以下长度限制来进行过滤CDR1=7个氨基酸， CDR2=10个氨基酸，且CDR3二8个氨基酸。通过应用这些过滤器，将最初 2374个成员的群集减少至771个成员。
通过仅使用含有从CDR1之前的"RV"基序直至整个CDR3序列的完整明确序列的成员(entries),将VK1轻链可变域序列的数目进一步减少至383。
接下来，比对这些序列，将每个位置出现的氨基酸列表，并且计算在每个位置上20种天然存在的氨基酸的分布，根据逐位的氨基酸绝对使用率 (absolution usage of amino acids by position)来产生基于叶立置步贞率的CDR结构域多样性数据库。这个表格的结果示于图2。
通过对于任何给定位置仅报告10%以上的氨基酸使用率来进一步过滤图2中所列的数据集。结果列于图3。为了评估指定的百分比使用率对于多样性的影响，通过仅包括在5%以上的氨基酸使用率来生成另一个数据集。结果列于图4。通过比较图3和图4的数据集清楚可见，要求较低的氨基酸使用率百分比可实现更大的多样性覆盖。
如图5中所示，为了编码图4中所列的轻链CDR1多样性，需要合成 128种组合寡核苷酸或16种简并组合寡核苷酸。碱基无需是等摩尔的，并且可以加以调整来造成氨基酸使用率偏差以反映当前分析中发现的频率，甚至包括频率表中不包括的残基。或者/并且，可以省略频率表中包括的残基，例如以进一步减少合成所需的寡核苷酸的数目。
实施例2
VH3重链合成文库多样性的设计
通过分析长度为10个氨基酸的VH3重链多肽序列生成了表6中所示的数据，其中所述序列是基本上如实施例1中所述从Kabat抗体序列数据库获得的。如图6中所示，仅使用96种简并寡核苷酸，为各个氨基酸位置设置不同的阈值百分比使用率，可提供3.3x105的CDR3多样性，呈现除残基97 外的全部位置的至少75%的位置覆盖率。因此，所述阈值百分比使用率第 93、 94、 100和101位是10%;第95、 96、 98和99位是5%;第97位是4%; 第100A位是3。/。。合成这种多样性需要的寡核苷S吏序列示于图7。实施例3
制备半合成抗体文库
如先前所述，对VH CDR多样性的分析和VH CDR多样性的生成可以进
行调整，以配合具体情况反映出与K和X轻链的有效且特异性的配对(即导致
抗体特异性结合輩巴抗原的配对)的组成。这些合成VH库(repertoires)并不需要排他性地与合成轻链库配对，而可以与淋巴细胞衍生的轻链的群集一起组合
克隆。在实践中，将K和X轻链的群集分别克隆至噬菌体展示载体中，继而或
者克隆单独重链可变区框架以便随后引入多样性，或者克隆预先多样化 (pre-diversified)的可变区框架群集。在任一情况下，与轻链兼容配对的重链可哭区(the light chain compatibly paired heavy chain variable regions)均可望更有效地与相应的轻链配对。
实施例4
通过针对基础克隆产生变体文库来工程改造改进的抗体以类似于在种系受体框架(germline acceptor framework)上亏1入有效多样性(productive diversity)来从头产生免疫球蛋白库的方式，为特定的抗体或抗体的特定群集生成耙特异性诱变文库(target specific mutagenesis library)。这样的文库可用于抗体工程作业，特别是在亲和力成熟领域中。从感兴趣的单克隆抗体出发，确定限定性特征(defming characteristics),这些特征是在先前限定的本发明的多样性影响要素(diversity influencing elements)中捕捉 (capture)的，所述要素例如种系框架起源、轻链类型以及轻链和重链CDR长度。在确定了这些特征或类似的特征之后，接下来的步骤是查阅(refer to)对应于这些参数的数据库序列。鉴定了相应的序列集合之后，进行类似于前文所述的分析，以检查子集库(subsetrepertoire)的多样性，然后生成编码期望的多样性所必需的相应的多重简并寡核芬酸(multi-degenerate oligonucleotide)。然后将这些多重简并寡核苷酸作为单一或组合CDR群集予以克隆。由于使用多重CDR诱变更有可能发现协同性的改进(synergistic improvement),优选生成组合CDR诱变文库。使用来自上述分析的多重简并寡核苷酸，合理地生成抗体并根据与人类偏差和偏好相关的位置多样性重新多样化 (re-diversify)抗体。重要的是应注意，在任意轻链CDR序列或重链CDR1或 CDR2序列是从种系序列异化而来(diverge from the germline s叫uence)的情况下，相应的编码种系的寡核苷酸也要包括在组合CDR文库中。这样，通过
将编码种系的寡核苷酸包括在内，为种系序列回交(backcrossing)以生成更有效(productive)的CDR组合提供了可能。
这种"多样性再引入方案(diversity reincorporation scheme)"也可用于工程改造来自已有的合成抗体克隆的、重新多样化的抗体集合。由于根据本发明生成的合成文库的潜在多样性超过了目前可用的技术展示和选择全部成员的极限，非常有可能的是任何发现的靶特异性克隆仅代表在任何经通常筛选的文库中在DNA水平上存在且可访问的可能解决方案(possible solutions present and accessible at the DNA-level)中的一部分。因此，经过进行四轮淘选在本发明的文库中鉴定了一种抗EFG抗体之后，再将最初设计的多样性以组合方式重新引入(combinatorially reintroduce)克隆中以生成新的变体集合。然后通过针对EGF进行淘选并且逐轮增加结合和清洗的严紧度来重新筛选这些新的变体集合。净结果生成了 EGF结合噬菌体的池(pools),其与原始淘选中存在的那些相比被富集至更高的相对于背景的水平。
实施例5
细胞因子主题文库的设计
为了生成用于发现新的抗细胞因子抗体的有效性文库(productive library),选择了一种有效性(productive)抗TNF-a抗体HUMIRA (阿达木单抗(adalimumab))作为基础主题(basic theme)。 HUMIRA (阿达木单抗)是一种重组人IgGl单克隆抗体，系使用导致具有源自人的重链和轻链可变区和人 IgGl:K恒定区的抗体的噬菌体展示技术所产生。
为了确定亲本抗体D2E7的重链的种系来源，对框架区进行了分析。这通过掩蔽D2E7和人种系VH基因的CDR来实现。接下来，通过BLAST算法将D2E7的FR1和FR3之间的其余序列相对于全部人种系VH基因进行比对。如图8中所示，D2H7 VH区显示出与VH3—3-09的最大相似度。图9中所示的树形比对图显示了相同的结果。按照相似的方式，发现亲本抗体D2E7 的轻链与VK1 A20最相似(图10和11)。
对实施例1中所述的对抗体轻链VKl CDR1、 CDR2和CDR3序列的频率分析进行修改，将阈值百分比使用率过滤器设置为6%。如图12中所示，使用这个过滤器，对于除位置91外的全部氨基酸位置，总和使用率均超过80%,其提供了 9乂106的文库多样性，并且这种多样性可由30种简并寡核苷酸来提供。
接下来，从Kabat免疫学相关蛋白序列数据库收集了 5971个人抗体重链可变域序列。对于每个序列，将基因序列翻译成相应的氨基酸序列，并且根据Kabat编号系统按位置比对所述氨基酸序列。
然后对该重链可变域群集施用以下过滤器
1. 在氨基酸位置22-25含有"CAAS"的VH3序列(5971个成员中的1530
个)；
2. 与K轻链组合的序列，CDR^6个氨基酸并且CDR243个氨基酸(1530 个成员中的226个)
3. 仅包括含有从CDR1之前的"CAAS"直至整个CDR2序列的完整序列的成员(226个成员中的180个)。
然后，比对所述序列，将每个位置出现的氨基酸列表，并且计算在每个位置上20种天然存在的氨基酸的分布以基于逐位的氨基酸绝对使用率来产生基于位置频率的CDR结构域多样性数据库。该制表结果示于图13。
通过对于任何给定位置仅报告至少为10%的氨基酸使用率来进一步过滤图13中所列的数据集。如图14中所示，使用这种过滤器，在CDR2中，第52、 52A、 55和58位的总和氨基酸覆盖率小于75%。为了提供更大的覆盖率，将要求的百分比使用率从10%降低至5%。如图15中所示，这种变化已经使得全部位置的总和氨基酸使用率升高至75%以上。
对CDR1和CDR2 二者应用5%使用率过滤器，合成CDR1区需要4种简并寡核香酸，CDR2多样性可以由28种简并寡核苷酸编码(见图16)。由此，使用总共28种简并寡核苷酸，能够实现1.5x108的总体多样性，提供超过80% 的位置覆盖率。
在下一步中，从上述5971个人抗体重链可变域序列，不考虑同种型，汇编(compile)长度为13个氨基酸的VH3序列。将每个位置所要求的百分比氨基酸使用率设定为4。/。，除了第93、 94和101位氨基酸将阈值设定为4% 使用率之外。结果示于图17。通过设定这些阈值，能够通过使用384种简并寡核苷酸来制备具有7.5xlO"的总体多样性的合成VH3重链合成文库。可见， CDR3区中的残基显示出与亲本抗体D2E7中相应残基的良好一致性。实施例6
半抗原主题抗体文库的设计
这种方法的目的是为鉴定新的抗半抗原抗体设计有效性(productive)文库。
该设计从抗洋地黄毒苦(抗DIG)抗体开始(Dorsam， H.等，FEBS Lett. 414:7-13 (1997》。这种抗体的Ig人轻链可变区序列(SEQ ID NO: l)和重链可变区序列(SEQIDNO:2)示于图18。
为确定这种亲本抗体的重链和轻链的种系来源进行了分析。如图19中所示，VL-lg与所述轻链最相似，而VH 3-23与所述重链最相似，因此，将 CDR置于这种环境中来创造有效性(productive)文库用于鉴定抗半抗原抗体。
接下来，如前文实施例中所述对轻链CDR1和CDR2序列分析了 X长度匹配的V!^框架残基。将对于每个位置要求的百分比氨基酸使用率设定为6。/。，从而低于6%的单独序列不被报告。如图20中所示，这种过滤器为每个氨基酸位置提供了极好的覆盖率。对H3长度匹配(8个氨基酸)的重链进行了类似的分析，但是应用6.25%过滤器，包括全部位置在内的总和氨基酸覆盖率在 75%以上(图21)。
实施例7
细胞因子(IFN-a)分析和文库创建
IFN是具有抗病毒活性的细胞因子的通称，其中在病毒或双链核酸刺激下由白细胞或淋巴母细胞的那些细胞因子称作IFN-a。 IFN-a具有多种活性，包括抗病毒活性和细胞生长抑制活性，已经发现这些活性可用于治疗多种疾病，例如乙型和丙型肝炎感染，以及癌症。对来自多种DNA文库克隆的IFN-a 基因序列的分析揭示了 IFN-a以几种亚型存在。例如，对于IFN-a2基因，已经鉴定了三种额外的类型(a2a、 oc2b和a2c)。总体而言，存在超过20种目前已知的IFN-a亚型。其它已知的亚型包括，例如，IFN-ala、 IFN-oclb、 IFN-a4a、 IFN-a4b、 IFN-ot5、 IFN-a6等。已经证明了多数IFN-a亚型在它们的生物活性和其它生物学性质方面有差异。因此，基于IFN-a家族成员之间现存的天然多样性创建的文库可用于生成具有新的和改进的性质的IFN-a 多肽，所述性质例如增加的效价、降低的免疫原性、增加的半衰期、改进的蛋白水解稳定性。作为创建多样性IFN-oc文库的第一步，鉴定了 ll个长度为189个氨基酸的基因产物。将这些IFN-a多肽的第32-38位氨基酸残基相互比对，确定了残基使用频率，如图22中所示。当阈值百分比氨基酸使用率设定为9%时，使用2种简并寡核普酸能够达到100°/。覆盖率(见图22和23)。如图23中所示，使用无简并设计，需要40种寡核苷酸来提供要求的覆盖率。
一旦制成了文库，对期望的新性质的筛选可以通过本领域已知的方法来进行。因此，可以用标准生物学测定法测试增加的效价，例如通过生物淘选 (biopanning)噬菌体展示IFN-ot文库。可以例如通过针对IFN-a受体生物淘选噬菌体展示文库，或者通过将文库成员曝露于一种或多种血清蛋白酶，来鉴定具有增加的半衰期的成员。降低的免疫原性的测试可以通过例如鉴定文库
中存在的与MHC分子显示最小结合的肽或多肽，或者通过直接测试完整蛋白质的T细胞表位呈递来进行。
这些测试和多种其它测试是相关领域普通技术人员们熟知的。
实施例8
具有化学探针的(chemically 。robed)的抗体群集
本实施例显示使用基于化学原理设计的探针集来创建CDR3重链多样性。
氨基酸可以分成七类，其特征分别在于小的、亲核的、疏水的、芳族的、酸性的、酰胺类的和碱性的侧链化学功能性(图24)。图25中左上图面显示七组中的每一组的氨基酸的单字母符号。选择了九种代表不同侧链化学的氨基酸(A, S, H, L, P, Y, D, Q, R)。如图25的剩余部分所示，通过九种密码子或 2种简并密码子可编码高亮显示的九种氨基酸，并且由此可捕获侧链化学多样性。(B=C、 G或T; M二A或C; Y-C或T; D = A、 G或T。)
天然重链CDR3序列含有高度的化学多样性(大约60°/。或更多)。已经确定，通过使用128种简并寡核苷酸的组合式简并寡核苷酸合成可生成类似的化学多样性。相应的简并寡核苷酸的设计示于图27。如图26中所示，这种方法覆盖了大部分天然存在的多样性并且提供了广泛的相互作用化学。
这种具有化学探针的多样性方法可以单独使用，或与任何本发明的其它方法组合使用，从而产生具有期望性质的组合文库。尽管在前述说明书中参考特定实施方案阐释了本发明，但是本发明不限于此。事实上，除了本文说明和描述的那些之外，根据前述说明书对本发明的各种修改对于本领域那些技术人员将是显而易见的并且在所附权利要求书的范围之内。因此，尽管本发明是援引抗体文库进行示例说明的，但是可将其广泛地扩展至所有的肽和多肽文库。
说明书全文中引用的全部参考文献通过提述明确并入本文。
权利要求
1. 一种用于数据库多样性分析的方法，所述数据库包含以至少一个共享序列基序为特征的相关氨基酸序列，所述方法包括如下步骤(a)对所述相关氨基酸序列进行比对；(b)通过对所述包含共享序列基序的相关氨基酸序列应用预定的两个或更多个过滤器的组合来创建第一数据集；(c)分析所述第一数据集在所述共享序列基序内的位置氨基酸使用频率；和(d)创建以在所述共享序列基序内的一个或多个氨基酸位置处的最小阈值氨基酸使用频率为特征的第二数据集。
2. 权利要求1的方法，其中在步骤(d)中最小阈值氨基酸使用频率被指定给所述共享序列基序内的大部分氨基酸位置。
3. 权利要求1的方法，其中在步骤(d)中最小阈值氨基酸使用频率被指定给所述共享序列基序内的全部氨基酸位置。
4. 权利要求2或权利要求3的方法，其中所有指定给所述氨基酸位置的阈值氨基酸使用频率都是相同的。
5. 权利要求2或权利要求3的方法，其中并非所有指定给所述氨基酸位置的阈值氨基酸使用频率都是相同的。
6. 权利要求1的方法，其中所述最小阈值氨基酸使用频率被设定为对所述共享序列基序内的大部分氨基酸位置提供最小总和氨基酸使用率。
7. 权利要求6的方法，其中所述最小阈值氨基酸使用频率被设定为对所述共享序列基序内的全部氨基酸位置提供最小总和氨基酸使用率。
8. 权利要求7的方法，其中所述最小总和氨基酸使用率是至少约60%。
9. 权利要求7的方法，其中所述最小总和氨基酸使用率是至少约65。/。。
10. 权利要求7的方法，其中所述最小总和氨基酸使用率是至少约70%。
11. 权利要求7的方法，其中所述最小总和氨基酸使用率是至少约75%。
12. 权利要求7的方法，其中所述最小总和氨基酸使用率是至少约80%。
13. 权利要求7的方法，其中所述最小总和氨基酸使用率是至少约85%。
14. 权利要求7的方法，其中所述最小总和氨基酸使用率是至少约90%。
15. 权利要求1的方法，其中所述相关氨基酸序列是抗体序列。
16. 权利要求15的方法，其中所述相关氨基酸序列包含抗体重链序列。
17. 权利要求15的方法，其中所述相关氨基酸序列包含抗体轻链序列。
18. 权利要求16或权利要求17的方法，其中所述共享序列基序是CDR序列。
19. 权利要求18的方法，其中所述共享序列基序选自下组CDR1 、 CDR2 和CDR3序列。
20. 权利要求19的方法，其中在步骤(b)中，所述预定的过滤器的组合选自下组(l)所述抗体重链或轻链的同种型；(2)所述CDR1、 CDR2和CDR3 序列中一种或多种的长度；(3)在所述CDR1、 CDR2和CDR3序列中一种或多种内的一个或多个预定位置处一个或多个预定氨基酸残基的存在；(4)框架类型；(5)所述抗体结合的抗原；(6)所述抗体的亲和力；和(7)所述CDR序列之外的位置氨基酸残基。
21. 权利要求20的方法，其中抗体重链和/或轻链CDR1 、 CDR2和CDR3 序列中的至少一种是大小匹配的。
22. 权利要求21的方法，其中一种附加的过滤器是所述抗体重链和/或轻链序列的同种型。
23. 权利要求19的方法，其中所述位置氨基酸残基使用频率是至少约3%。
24. 权利要求19的方法，其中所述位置氨基酸残基使用频率是至少约5%。
25. 权利要求19的方法，其中所述位置氨基酸残基使用频率是至少约 10%。
26. 权利要求19的方法，其中所述位置氨基酸残基使用频率是至少约 15%。
27. 权利要求19的方法，其中所述位置氨基酸残基使用频率是约3%至约15%。
28. 权利要求19的方法，其中所述位置氨基酸残基使用频率是约5%至约10%。
29. 权利要求18的方法，其中相同的位置氨基酸使用频率是所述CDR 序列内的每个氨基酸的特征。
30. 权利要求18的方法，其中所述位置氨基S吏使用频率在所述CDR序列内的至少两个氨基酸残基处是不同的。
31. 权利要求20的方法，其中所述预定的过滤器的组合包括框架的类型。
32. 权利要求15的方法，其中对抗体重链和轻链序列二者进行分析。
33. 权利要求32的方法，其中将所述抗体重链序列与预定的抗体轻链特征配对。
34. 权利要求32的方法，其中将所述抗体轻链序列与预定的抗体重链特征配对。
35. 权利要求15的方法，其中所述相关抗体序列来自至少一种功能性抗体。
36. 权利要求35的方法，其中步骤(b)中应用的所述过滤器之一是与所述功能性抗体的重链和/或轻链的框架序列最相似的种系序列。
37. 权利要求35的方法，其中所述功能性抗体与多肽结合，所述多肽选自下组细胞表面和可溶性受体，细胞因子，生长因子，酶；蛋白酶；和激素。
38. 权利要求37的方法，其中所述多肽是细胞因子。
39. 权利要求38的方法，其中所述细胞因子是白细胞介素。
40. 权利要求39的方法，其中所述白细胞介素选自下组IL-1、 IL-2、 IL-3、 IL-4、 IL-5、 IL陽6、 IL-IO、 IL-ll、 IL-12、 IL-15、 IL-17、 IL-18、 IL-23, 和它们各自的家族成员。
41. 权利要求38的方法，其中所述细胞因子选自下组干扰素a、卩和y (IFN-ot、-卩和-力，肿瘤坏死因子oc和(3(TNF-a和-(3)， TWEAK, TANKL, BLys, RANTES, MCP-1 ， MIP-la， MIP-ip， SDF-l,集落刺激因子(CSF)，粒细胞集落刺激因子(G-CSF),和粒细胞巨噬细胞集落刺激因子(GMCSF)。
42. 权利要求38的方法，其中所述多肽是生长因子。
43. 权利要求42的方法，其中所述生长因子选自下组神经生长因子 (NGF)、胰岛素样生长因子1 (IGF-1)、表皮生长因子(EGF)、血小板衍生生长因子(PDGF)、血管内皮生长因子(VEGF)、胎盘生长因子(PLGF)、组织生长因子a (TGF-a)和组织生长因子(3 (TGF-P)。
44. 权利要求35的方法，其中所述功能性抗体与半抗原结合。
45. 4又利要求44的方法，其中所述半抗原选自下组Dig、 Bio、 DNP和FITC。
46. 权利要求1的方法，其中所述相关氨基酸序列源自分泌性蛋白或胞外蛋白家族的成员。
47. 权利要求46的方法，其中所述相关氨基酸序列源自细胞因子家族成员。
48. 权利要求47的方法，其中所述细胞因子是干扰素a。
49. 权利要求48的方法，其中所述相关氨基酸序列是IFN-a亚型的序列。
50. 权利要求1的方法，进一步包括合成相关氨基酸序列的物理文库的步骤，所述文库的设计在所鉴定的数据集的辅助下进行。
51. 权利要求50的方法，其中所述文库的合成是通过生成离散的多个确定的或简并的寡核苷酸，从而仅产生确定的氨基酸而进行的。
52. 权利要求50的方法，其中产生的物理文库的多样性超过作为所鉴定的数据集的物理表示的文库的多样性。
53. 权利要求52的方法，其中还合成至少一个不满足最小阈值氨基酸使用频率的氨基酸以提供所述多样性。
54. 权利要求50的方法，其中产生的物理文库的多样性低于作为所鉴定的数据集的物理表示的文库的多样性。
55. 权利要求54的方法，其中并非所有满足最小阈值氨基酸使用频率的氨基酸都被合成。
56. 权利要求50-55中任一项的方法，其中所述数据集包含抗体重链和/ 或轻链序列。
57. 权利要求56的方法，其中所述抗体重链和/或轻链序列包含一个或多个CDR。
58. 权利要求57的方法，其中将所述CDR克隆至框架序列支架中。
59. 权利要求58的方法，其中所述框架序列是在包含所述CDR的数据库中最频繁使用的框架序列。
60. 权利要求50的方法，其中所述物理文库是使用原核或真核表达系统表达的。
61. 权利要求50的方法，其中所述物理文库是使用噬菌粒展示、mRNA 展示、微生物细胞展示、哺乳动物细胞展示、微珠展示技术、抗体阵列或基于蛋白质-DNA关联的展示来表达并展示的。
62. 权利要求50的方法，其中针对所述文库筛选其成员的一种或多种化学和/或生物学性质。
63. 权利要求62的方法，其中所述生物学性质选自下组半衰期、效价、效力、结合亲和力和免疫原性。
64. 权利要求50的方法，包括在一个或多个氨基酸位置处引入氨基酸侧链多样性。
65. 权利要求64的方法，其中所述氨基酸侧链多样性通过在所述一个或多个氨基酸位置处提供具有至少两种不同侧链化学官能性的氨基酸残基来引入。
66. 权利要求65的方法，其中在每个氨基酸位置呈现全部氨基酸化学的至少30%。
67. 权利要求65的方法，其中在每个氨基酸位置呈现全部氨基酸化学的至少50%。
68. 权利要求65的方法，其中所述侧链多样性通过使用组合式简并寡核苷酸合成来引入。
69. —种产生肽或多肽序列的组合文库的方法，包括^f吏用组合式寡核苷酸合成来将氨基酸侧链化学多样性引入所述肽或多肽序列的两个或更多个氨基酸位置。
70. 权利要求69的方法，其中所述氨基酸侧链化学多样性被设计为模拟在所述肽或多肽序列中天然存在的多样性。
71. 权利要求69或权利要求70的方法，其中所述文库是抗体文库。
72. 权利要求71的方法，其中所述抗体文库包含抗体重链可变域序列。
73. 权利要求71的方法，其中所述文库包含抗体轻链可变域序列。
74. 权利要求71的方法，其中所述文库是组合单链可变片段(scFv)文库。
75. 权利要求71的方法，其中所述抗体文库是Fab、 Fab'或F(ab')2片段的文库。
全文摘要
本发明涉及多样性肽和多肽文库的设计和构建。具体而言，本发明涉及使用多重相关参数作为过滤器创建数据集的分析数据库设计方法；还涉及通过定向多重合成寡核苷酸合成(directed multisyntheses oligonucleotide synthesis)来生成序列多样性的方法。本发明使得人们能够基于可个别直接限定的单一或多重相关关键参数，将大型、复杂的附注释的数据库简化成更简单的相关序列数据集。所述方法还使得人们能够基于这种方法，使用离散和简并寡核苷酸的多重合成群集来捕获多种多样的序列群集或其部分，来生成多样性文库。
文档编号C40B50/02GK101548034SQ200780044613
公开日2009年9月30日申请日期2007年9月28日优先权日2006年10月2日
发明者劳伦斯·霍罗威茨, 拉梅什·R·巴特, 阿伦·L·库尔茨曼申请人:航道生物技术有限责任公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：劳伦斯.霍罗威茨;拉梅什.R.巴特;阿伦.L.库尔茨曼
技术所有人：航道生物技术有限责任公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：功能高分子材料，污水处理，电化学合成
2、赵老师：1. 金属材料表面改性技术 2. 超硬陶瓷材料制备与表面硬化 3. 规整纳米材料制备及应用研究
3、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
4、王老师：1.精密/超精密加工技术 2.超声波特种加工 3.超声/电火花复合加工 4.超声/激光复合加工 5.复合能量材料表面改性 6.航空航天特种装备研发
5、郝老师：1. 先进材料制备 2. 环境及能源材料的制备及表征 3. 功能涂层的设计及制备 4. 金属基复合材料制备
如您是高校老师，可以点此联系我们加入专家库。