用于通用分子识别的植物嵌合结合多肽的制作方法

文档序号:438372阅读:193来源:国知局

专利名称::用于通用分子识别的植物嵌合结合多肽的制作方法用于通用分子识别的植物嵌合结合多肽
背景技术
:蛋白对靶的结合特异性和亲和性主要由一个或多个结合区域内蛋白的氨基酸序列所决定。因此,改变相关区域的氨基酸序列重构了蛋白的结合性质。在自然界中,蛋白结合中的组合变化由免疫系统产生的免疫球蛋白的大量排列提供了最好的说明。每个免疫球蛋白包含一组短的、事实上独一无二的被称为超变区(即蛋白结合结构域)的氨基酸序列,以及另一组较长的被称为恒定区的不变的序列。尽管在免疫球蛋白群体中的超变区之间存在庞大的序列多样性,但恒定区形成了/3片层,稳定了蛋白的三维结构。每组超变区都赋予结合特异性和亲和性。两条重链和两条轻链免疫球蛋白装配成大的蛋白复合物(即抗体),进一步增加了具有多样结合活性的组合数量。抗体的结合多样性已经被成功地用于许多生物医学和工业应用。例如,已经构建了表达带有人工多样化超变区域的免疫球蛋白的文库。免疫球蛋白表达文库对于鉴定针对靶分子(例如受体或受体的配体)的高亲和性抗体是非常有用的。然后可以分离所鉴定的免疫球蛋白的编码核酸,并将其在宿主细胞或生物体中表达。但是,尽管免疫球蛋白和抗体总体是有用的,它们在转基因植物中的表达却可能成问题。因为需要形成多个二硫键,免疫球蛋白不能在植物细胞质中适当地折叠。此外,免疫球蛋白的大尺寸也阻止了它们被某些植物害虫有效摄取。因此,免疫球蛋白通常来说不像蛋白杀虫剂或杀虫剂耙向分子那样有用。最后,在可食用植物中表达哺乳动物蛋白例如免疫球蛋白(例如所谓的"植物抗体")也带来了潜在的消费者接受性的问题,因此对商业化来说是一个障碍。这可能有效地阻止了将植物抗体用于转基因植物的许多输入和输出性状。上面提到的免疫球蛋白的缺点可以通过产生来自其它类别的结构耐受蛋白、优选为植物来源蛋白的结合蛋白多样性文库来克服。这些文库可以被筛选,以鉴定可以与目的靶以所需的特异性和亲和性结合的个体蛋白。然后,可以将鉴定的结合蛋白在转基因植物中有效地表达。发明简述本文描述了编码植物嵌合结合多肽的核酸的多样性文库以及产生它们的方法。嵌合结合多肽在概念上与免疫球蛋白类似,在于它们的特点都是在编码结构牢靠的蛋白的不变序列构成框架中具有高度可变的结合结构域。但是,本文描述的嵌合的结合多肽具有来源于植物蛋白序列的显著优点,因此避免了与在植物中表达免疫球蛋白有关的许多问题。被编码的植物嵌合结合蛋白的氨基酸序列源自包含了要变化的子序列的支架多肽序列。该变化的子序列对应于植物嵌合结合多肽的推定的结合结构域,在编码的植物嵌合结合蛋白的文库中是高度异源的。相反,在变化的子序列之外的编码的嵌合结合蛋白的序列则与亲本支架多肽序列基本上相同,并在整个编码的植物嵌合结合蛋白的文库中是高度同源的。这样的文库可以用作通用的分子识别平台,以筛选具有高度选择性和亲和性结合的蛋白,用于在转基因植物中表达。因此,本文描述的一个方面是至少10种(例如至少1000、105或106种)不同的嵌合结合多肽的编码核酸分子的文库。每种多肽的氨基酸序列包括CrXrCrXrCVXrCp其中CrC4是选自紫色酸性磷酸酶(即分别为SEQIDNO:1-30、31-60、61-90和91-120)的骨架子序列,对于选定的紫色酸性磷酸酶序列,可以包含最多30个(例如20、10或5个)单个氨基酸取代、缺失、插入或添加。d-Q子序列在文库中编码的许多多肽中是同源的。与CpC4骨架子序列相反,X!-X3子序列是由2-20个氨基酸构成的独立可变的子序列,这些子序列在文库的许多多肽中是异源的。例如,嵌合多肽的文库可以含有SEQIDNO:124-126任何一个中的氨基酸序列,包括对应于SEQIDNO:124-126的23-39、51-49和79-84氨基酸位置的1个到10个单个氨基酸取代、缺失、插入或添加。本文描述的另一个方面是产生刚才描述的文库的方法。该方法包括提供编码含有上面定义的Q-XrCVX2-C3-X3-C4的植物支架多肽序列的亲本核酸。该方法还包括在对亲本XpX2或X3子序列导入最多10个单氨基酸取代、缺失、插入或添加的条件下复制亲本核酸(例如XrX3子序列的至少一个从SEQIDNO:121-123中选择),从而产生编码Xi、X2或X3的随机改变的子序列的异源群体。然后用改变的子序列群体在对应于编码X"X2或X3的核酸的位置取代进入亲本核酸群体。可以通过体外复制(例如使用纯化的诱变聚合酶或核苷酸类似物)或体内复制(例如在大肠杆菌(E.coli)的诱变菌株中)将氨基酸取代、缺失、插入或添加导入到亲本核酸子序列中。刚才描述的文库可以导入到生物复制系统(例如大肠杆菌或噬菌体)中并扩增。本文描述的一个相关方面是另一种产生上述核酸文库的方法。该方法包括选择含有上面定义的C广XrC2-X2-C3-X3-C4的氨基酸序列。该方法还包括提供具有交叠的互补序列的第一和第二组寡核苷酸。第一组寡核苷酸编码Q-C4子序列和多个异源的XrX3子序列。第二组寡核苷酸与编码Q-Q子序列和多个异源XrX3子序列的核苷酸序列互补。混合这两组寡核苷酸以形成第一混合物,并在允许交叠的互补序列杂交的条件下孵育。然后将获得的杂交序列延伸,以形成含有上述文库的第二混合物。本发明的另一个方面是编码嵌合结合多肽的核酸的文库,该嵌合结合多肽的每一种都含有与SEQIDNO:127-129中任何一个具有至少70%(即70%到100%之间的任何百分率)同一性的氨基酸序列。每种编码的多肽的氨基酸序列包括在14、15、33、35-36、38、47-48、66、68-69、71、80、81、99、101-102禾卩104位上与SEQIDNO:127-129的序列不同的氨基酸,并且氨基酸的差异在多种编码的多肽中是异质的。每种编码的多肽在上面列出的位置之外的氨基酸序列在多种编码的嵌合多肽中是同质的。本文描述的一个相关方面是产生刚才描述的文库的方法。该方法包括选择对应于SEQIDNO:127-129中任何一个的氨基酸序列,其中所选的序列与SEQIDNO:127-129在至少一个上面提到的位置上不同。该方法还包括提供具有交叠的互补序列的第一和第二组寡核苷酸。第一组寡核苷酸编码选择的氨基酸序列的子序列,该子序列在上面提到的位置上是异质的。第二组寡核苷酸与选择的氨基酸序列的子序列的编码核苷酸序列互补,该子序列在上面提到的位置上是异质的。将两组寡核苷酸混合以形成第一混合物,并在允许交叠的互补序列杂交的条件下孵育。然后将获得的杂交序列延伸,以形成含有上述文库的第二混合物。本发明的各种实施可以包含下面的一种或多种。例如,文库中的每种核酸可以包含载体序列。另一个特点是任何从上述的文库之一中分离的核酸、以及由它编码的嵌合结合多肽,是纯的形式。在一种实施中,提供了表达由文库之一编码的嵌合结合多肽的细胞群体(或选自细胞群体的个体细胞)。另一种实施的特点是由一种核酸文库编码的纯化的嵌合结合多肽的文库。另外一种实施提供了展示由核酸文库之一编码的嵌合结合多肽的丝状噬菌体群体。在通过寡核苷酸装配产生上述核酸文库的各种实施方法中,可以包含下列的一种或多种。例如,在产生含有核酸文库的第二个混合物之后,方法还可以包括对核酸群体进行变性循环,然后进行杂交和延伸步骤。任选,该循环可以重复(例如最多100次)。核酸文库可以通过聚合酶链反应来扩增,其中包括分别与文库中所有核酸的5'和3'末端序列杂交的正向和反向引物。在一种实施中,在可变序列位置上编码的氨基酸选自丙氨酸、精氨酸、天冬酰胺、天冬氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、甲硫氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸、半胱氨酸和缬氨酸(20种天然存在的氨基酸)的亚组(例如仅仅4、6、8、10、12、14或16种)。在其它情况下,使用20种之中的19种(除去半胱氨酸)。在其它情况下所有20种都使用。在另一种实施中,氨基酸的亚组包括至少一种脂肪族、一种酸性、一种中性和一种芳香族氨基酸(例如丙氨酸、天冬氨酸、丝氨酸和酪氨酸)。这里描述了编码至少IO种不同的多肽的核酸文库,每种多肽的氨基酸序列包含Q-X广C2陽X2-C3-X3-C4,其中(i)子序列C,选自SEQ.IDNO:1-30,子序列C2选自SEQIDNO:31-60,子序列Q选自SEQ.IDNO:61-90,子序列Q选自SEQ.IDNO:91-120,并且CrC4中的每一个含有对选择的子序列的最多10个单氨基酸取代、缺失、插入或添加;(ii)C,-Q在多个编码的多肽中是同质的;(Hi)XrXs中的每个是由2-20个氨基酸构成的独立可变的子序列,并且XrX3中的每个在多个编码多肽中是异质的。还描述了编码至少10种不同多肽的核酸文库,每个多肽的氨基酸序列含有C广XKVX2-C3-X3-C4,其中(i)子序列d选自图2或图4,子序列C2选自图2或图4,子序列C3选自图2或图4,子序列C4选自图2或图4,并且d-C4的每一个都含有对所选子序列的最多10个单氨基酸取代、缺失、插入或添加;(ii)C!-C4在多个编码的多肽中是同质的;(iii)X^X3的每个都是由2-20个氨基酸构成的独立可变的子序列,并且XrX3的每个在多个编码多肽中是异质的。22还描述了编码至少IO种不同多肽的核酸文库,每种多肽的氨基酸序列含有Q-X!-C2-X2-C3-X3-C4,其中(i)子序列d选自图3或图5,子序列C2选自图3或图5,子序列C3选自图3或图5,子序列C4选自图3XX,并且CrC4的每一个含有对所选子序列的最多30个单氨基酸取代、缺失、插入或添加;(ii)CrC4在多个编码的多肽中是同质的;(iii)XrX3的每个都是由2-20个氨基酸构成的独立可变的子序列,并且XrX3的每个在多个编码多肽中是异质的。在各种不同的实施方案中编码了至少1,000种不同的多肽;编码了至少100,000种不同的多肽;编码了至少1,000,000种不同的多肽;d-C4的每个独立地含有对所选子序列的最多20个单氨基酸取代、缺失、插入或添加;C,-C4的每个独立地含有对所选子序列的最多10个单氨基酸取代、缺失、插入或添加;Q-C4的每个独立地含有对所选子序列的最多5个单氨基酸取代、缺失、插入或添加;d-Q都不含有对所选子序列的氨基酸取代、缺失、插入或添加;X,-X3的氨基酸选自在植物中遗传编码的少于20种氨基酸;XrX3的氨基酸选自在植物中遗传编码的所有20种氨基酸;少于20种遗传编码的氨基酸包括至少一种脂肪族氨基酸、至少一种酸性氨基酸、至少一种中性氨基酸以及至少一种芳香族氨基酸;少于20种遗传编码的氨基酸包含丙氨酸、天冬氨酸、丝氨酸和酪氨酸。在某些情况下每种多肽的氨基酸序列选自(a).含有C广X广C2-X2-C3-X3-C4的多肽,其中C尸SEQ.IDN0:1,C2=SEQ.IDNO:31,C3=SEQ.IDNO:61,禾口C4=SEQ.IDNO:91;(b).含有d-X广C2-X2-C3-X3-C4的多肽,其中Q=SEQ.IDNO:2,C2=SEQ.IDNO:32,C3=SEQ.IDNO:62,禾卩C4=SEQ.IDNO:92;以及(c).含有d-X广CVX2-C3-X3-C4的多肽,其中C!=SEQ.IDNO:3,C2=SEQ.IDNO:33,C3=SEQ.IDNO:63,和C4=SEQ.IDNO:93。在某些情况下每种编码的多肽含有CVXrC2-X2-C3-X3-C4,其中d=SEQ.IDNO:Xl,C2=SEQ.IDNO:X2,C3=SEQ.IDNO:X3,禾口C4=SEQ.IDNO:X4;命名为SEQ.IDNO:130。在某些情况下每种编码的多肽含有d-X,-C2-X2-CrX3-C4,其中d=SEQ.IDNO:Xl,C2=SEQ.IDNO:X2,C3=SEQ.IDNO:X3,和C4=SEQ.IDNO:X4;命名为SEQ.IDNO:130。在某些实施方案中其中每种核酸含有载体序列。还描述了选自文库的分离核酸和表达核酸的分离细胞,以及由文库编码的纯化多肽的纯化文库;以及展示了文库编码的多肽的丝状噬菌体的群体。本文还描述了产生文库的方法,包括(i)提供编码含有下列氨基酸序列的亲本多肽的亲本核酸CVXi-C2-X2-C3-X3-Q,其中子序列C,选自SEQIDNO:1-30中选择,子序列(32选自SEQIDNO:31-60中选择,子序列C3选自SEQIDNO:61-90中选择,子序列Ot选自SEQIDNO:91-120中选择;d-C4的每个含有对所选子序列的最多10个单氨基酸取代、缺失、插入或添加;XrX3的每个是由2-20个氨基酸组成的独立的子序列;(ii)在对X"X2或X3子序列导入最多10个单氨基酸取代、缺失、插入或添加的条件下复制亲本核酸,从而产生编码X,'、X2,或X3'的随机变化的子序列群体;以及(iii)随机变化的子序列X,'、X2'或X3'的群体在对应于编码X,、X2或X3的位置上取代进入亲本核酸的群体中。在各种不同情况下XrX3子序列的至少一个选自SEQIDNO:121-123中选择;d-C4的每个独立地含有对所选子序列的最多20个单氨基酸取代、缺失、插入或添加;CrC4的每个独立地含有对所选24子序列的最多10个单氨基酸取代、缺失、插入或添加;d-Q的每个独立地含有对所选子序列的最多5个单氨基酸取代、缺失、插入或添加;CrQ都不含有对所选子序列的氨基酸取代、缺失、插入或添加;通过在X,、X2或X3的每个中导入最多5个氨基酸取代,复制产生随机变化的子序列的异质群体;该方法还包括通过将文库导入生物复制系统并增殖生物复制系统来扩增文库;生物复制系统是多种大肠杆菌细胞;生物复制系统是多种噬菌体;复制发生在体外;复制使用纯化的诱变聚合酶来进行;复制在核苷酸类似物存在下进行;复制发生在体内;体内复制发生在大肠杆菌的诱变种类中。还描述了产生权利要求1的文库的方法,包括(i)选择包含待编码的氨基酸序列C,-XrC2-X2-C3-X3-C4的氨基酸序列,其中(a)子序列C!选自SEQIDNO:1-30,子序列Q选自SEQIDNO:31-60,子序列(33选自SEQIDNO:61-90,子序列Q选自SEQIDNO:91-120;(b)d-C4中的每个含有对所选子序列的最多10个单氨基酸取代、缺失、插入或添加;(C)Xi、X2和X3的每个由长度为2-20个氨基酸的氨基酸序列构成;(ii)提供第一多个和第二多个寡核苷酸,其中(a)第一多个寡核苷酸编码CrQ子序列和多个异质的XrX3变异子序列X卩-X3';(b)第二多个寡核苷酸与编码Q-C4子序列的核苷酸序列和编码多个异质的X卩-X3'子序列的核苷酸序列互补;以及(C)第一和第二多个寡核苷酸具有彼此之间互补的交叠序列;(iii)将寡核苷酸群体合并以形成第一混合物;(iv)将混合物在使交叠的互补序列有效杂交以形成多个杂交互补序列的条件下孵育;以及(v)将多个杂交互补序列延伸以形成含有文库的第二混合物。在各种不同的情况下d-C4的每个都独立地含有对所选子序列的最多20个单氨基酸取代、缺失、插入或添加;CrQ的每个都独立地含有对所选子序列的最多10个单氨基酸取代、缺失、插入或添加;d-C4中的每个都独立地含有对所选子序列的从0到最多5个单氨基酸取代、缺失、插入或添加;本方法还包括进行步骤的循环,步骤的循环包括通过将第二个混合物的温度增加到有效变性双链DNA的温度来使文库变性,然后进行步骤(iv)和(V);本方法还包括重复步骤的循环最多100次;本方法还包括通过聚合酶链反应扩增文库,该反应基本上由文库、正向引物和反向引物构成,其中正向和反向引物可以与文库中所有核酸的5'和3'末端序列分别杂交;在X"X2或X3子序列的每个位置中待编码的氨基酸选自丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、甲硫氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸和缬氨酸的亚组;这里为每个单氨基酸取代选择的氨基酸选自至少一种脂肪族氨基酸、至少一种酸性氨基酸、至少一种中性氨基酸和至少一种芳香族氨基酸的氨基酸组;氨基酸组由丙氨酸、天冬氨酸、丝氨酸和酪氨酸组成。本文还描述了产生文库的方法,包括(i)提供编码含有下列氨基酸序列的亲本多肽的亲本核酸Q-XrCVXrQ-XrCV其中子序列d选自图2或图4,子序列C2选自图2或图4,子序列C3选自图2或图4,子序列C4选自图2或图4;d-C4的每个都含有对所选子序列的最多IO个单氨基酸取代、缺失、插入或添加;XrX3的每个都是由2-20个氨基酸组成的独立子序列;(ii)在对X,、乂2或X3子序列导入最多10个单氨基酸取代、缺失、插入或添加的条件下复制亲本核酸,从而产生编码X,'、X2'或X3'的随机变化的子序列群体;以及(m)随机变化的子序列Xr、X2'或X3'的群体在对应于编码XpX2或X3的位置上取代进入亲本核酸的群体。在各种不同的实施方案中X,-X3子序列的至少一个选自SEQIDNO:121-123中选择;CrC4的每个都独立地含有对所选子序列的最多20个单氨基酸取代、缺失、插入或添加;d-Q中的每个都独立地含有对所选子序列的最多10个单氨基酸取代、缺失、插入或添加;d-C4的每个都独立地含有对所选子序列的最多5个单氨基酸取代、缺失、插入或添加;CrC4都不含有对所选子序列的氨基酸取代、缺失、插入或添加;通过在X,、X2或X3的每个中导入最多5个氨基酸取代,复制产生了随机变化的子序列的异质群体;该方法还包括通过将文库导入生物复制系统并增殖生物复制系统来扩增文库;生物复制系统是多种大肠杆菌细胞;生物复制系统是多种噬菌体;复制发生在体外;复制使用纯化的诱变聚合酶来进行;复制在核苷酸类似物的存在下进行;复制发生在体内;体内复制发生在诱变大肠杆菌种类中。还描述了产生文库的方法,包括(i)选择待编码的含有Q-XrC2-X2-CVX3-C4的氨基酸序列,其中(a)子序列d选自图2或图4,子序列C2选自图2或图4,子序列C3选自图2或图4,子序列C4选自图2或图4;(b)d-C4的每个都含有对所选子序列的最多IO个单氨基酸取代、缺失、插入或添加;(c)X,、X2和X3的每个都由长度为2-20个氨基酸的氨基酸序列组成;(ii)提供第一多个和第二多个寡核苷酸,其中(a)第一多个寡核苷酸编码CrQ子序列和多个异质的XrX3变异子序列X,'-X3';(b)第二多个寡核苷酸与编码d-Q子序列的核苷酸序列和编码多个异质的Xi'-X3'子序列的核苷酸序列互补;以及(c;)第一和第二多个寡核苷酸具有彼此互补的交叠序列;(iii)将寡核苷酸群体合并以形成第一混合物;(iv)将混合物在使交叠的互补序列有效杂交以形成多个杂交互补序列的条件下孵育;以及(v)将多个杂交互补序列延伸以形成含有文库的第二混合物。在各种不同的情况下CrC4的每个都独立地含有对所选子序列的最多20个单氨基酸取代、缺失、插入或添加;d-Q的每个都独立地含有对所选子序列的最多10个单氨基酸取代、缺失、插入或添加;CrC4的每个都独立地含有从0到最多5个单氨基酸取代、缺失、插入或添加;本方法还包括进行步骤的循环,步骤的循环包括通过将第二个混合物的温度增加到有效变性双链DNA的温度来使文库变性,然后进行步骤(iv)和(V);本方法还包括重复步骤的循环最多100次;本方法还包括通过聚合酶链反应扩增文库,该反应主要由文库、正向引物和反向引物组成,其中正向和反向引物可以与文库中所有核酸的5'和3'末端序列分别杂交;在X,、X2或X3子序列的每个位置中待编码的氨基酸选自丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、甲硫氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸和缬氨酸的亚组;为每个单氨基酸取代选择的氨基酸选自至少一种脂肪族氨基酸、至少一种酸性氨基酸、至少一种中性氨基酸和至少一种芳香族氨基酸的氨基酸组;氨基酸组由丙氨酸、天冬氨酸、丝氨酸和酪氨酸组成。还公开了产生文库的方法,包括(i)提供编码含有下列的氨基酸序列的亲本多肽的亲本核酸d-XrC2-X2-CVX3-C4,其中子序列d选自图3或图5,子序列C2选自图3或图5,子序列C3选自图3或图5,子序列C4选自图3或图5;d-C4的每个都含有对所选子序列的最多10个单氨基酸取代、缺失、插入或添加;X^X3的每个是由2-20个氨基酸组成的独立子序列;(ii)在对X"X2或X3子序列导入最多IO个单氨基酸取代、缺失、插入或添加的条件下复制亲本核酸,从而产生编码X,'、X2'或X3'的随机变化的子序列群体;以及(iii)随机变化的子序列X^、X2'或X3'的群体在对应于编码X"X2或X3的位置出取代进入亲本核酸群体。在各种不同的情况下X,-X3子序列中的至少一个选自SEQIDNO:121-123;d-Ct的每个独立地含有对所选子序列的最多20个单氨基酸取代、缺失、插入或添加;Q-Q的每个独立地含有对所选子序列的最多10个单氨基酸取代、缺失、插入或添加;d-C4的每个独立地含有对所选子序列的最多5个单氨基酸取代、缺失、插入或添加;d-C4都不含有对所选子序列的氨基酸取代、缺失、插入或添加;通过在X,、乂2或乂3的每个中导入最多5个氨基酸取代,复制产生了随机变化的子序列的异质群体;该方法还包括通过将文库导入生物复制系统并增殖生物复制系统来扩增文库;生物复制系统是多种大肠杆菌细胞;生物复制系统是多种噬菌体;复制发生在体外;复制使用纯化的诱变聚合酶来进行;复制在核苷酸类似物存在下进行;复制发生在体内;体内复制发生在诱变大肠杆菌种类中。还描述了产生文库的方法,包括(i)选择待编码的含有Q-X,-C2-X2-C3-X3-C4的氨基酸序列,其中(a)子序列d选自图3或图5,子序列C2选自图3或图5,子序列C3选自图3或图5,子序列C4选自图3或图5;(b)C,-C4的每个含有对所选子序列的最多10个单氨基酸取代、缺失、插入或添加;(c)X,、X2和X3的每个由长度为2-20个氨基酸的氨基酸序列组成;(ii)提供第一多个和第二多个寡核苷酸,其中(a)第一多个寡核苷酸编码Q-C4子序列和多个异质的XrX3变异子序列X卩-X3';(b)第二多个寡核苷酸与编码d-Q子序列的核苷酸序列和编码多个异质的X,'-X3'子序列的核苷酸序列互补;以及(C)第一和第二多个寡核苷酸具有彼此互补的交叠序列;(iii)将寡核苷酸群体合并以形成第一混合物;(iv)将混合物在使交叠的互补序列有效杂交以形成多个杂交互补序列的条件下孵育;以及(v)将多个杂交互补序列延伸以形成含有文库的第二混合物。在各种不同的实施方案中C,-C4的每个独立地含有对所选子序列的最多20个单氨基酸取代、缺失、插入或添加;C,-C4的每个独立地含有对所选子序列的最多10个单氨基酸取代、缺失、插入或添加;d-Ct的每个含有对所选子序列的从0到最多5个单氨基酸取代、缺失、插入或添加;本方法还包括进行步骤的循环,循环包括通过将第二个混合物的温度增加到有效变性双链DNA的温度来使文库变性,然后进行步骤(iv)和(V);本方法还包括重复循环最多100次;本方法还包括通过聚合酶链反应扩增文库,该反应主要由文库、正向引物和反向引物组成,其中正向和反向引物可以与文库中所有核酸的5'和3'末端序列分别杂交;在XpX2或X3子序列的每个位置中待编码的氨基酸选自丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、甲硫氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸和缬氨酸的亚组;为每个单氨基酸取代选择的氨基酸选自至少一种脂肪族氨基酸、至少一种酸性氨基酸、至少一种中性氨基酸和至少一种芳香族氨基酸的氨基酸组;氨基酸组由丙氨酸、天冬氨酸、丝氨酸和酪氨酸组成。还描述了编码至少10个不同多肽的核酸文库,其中(i)每个编码多肽的氨基酸序列含有与SEQIDNO:127-129中的任何一个具有至少70%同一性的氨基酸序列;(ii)每个编码多肽的氨基酸序列在位置14、15、33、35-36、38、47-48、66、68-69、71、80、81、99、101-102和104上包含与SEQIDNO:127-129不同的氨基酸,并且氨基酸的差异在多个编码的多肽中是异质的;以及(iii)每个编码多肽的氨基酸序列在对应于SEQIDNO:127-129的位置14、15、33、35-36、38、47-48、66、68-69、71、80、81、99、101-102和104的残基之外,在多个编码多肽中是同质的。在各种不同的实施方案中多肽的氨基酸序列与SEQIDNO127-129中的任何一个具有至少75%的同一性;多肽的氨基酸序列与SEQIDNO127-129中的任何一个具有至少80%的同一性;以及多肽的氨基酸序列与SEQIDNO127-129中的任何一个具有至少85%的同一性;每个核酸含有载体序列。还公开了选自文库的编码多肽的分离核酸;核酸编码的纯化多肽;文库所编码的多肽的表达细胞群体;选自细胞群体的细胞;由文库编码的纯化的多肽文库;展示文库编码的多肽文库的丝状噬菌体群体。还公开了产生文库的方法,包括(i)选择待编码的对应于SEQIDNO:127-129中的任何一个的氨基酸序列,其中选择的序列与SEQIDNO:127-129的序列在至少一个可变位置14、15、33、35-36、38、47-48、66、68-69、71、80、81、99、101-102和104上不同;(ii)化学提供第一和第二多个寡核苷酸,其中(a)第一多个寡核苷酸编码选择的氨基酸序列的氨基酸子序列,该子序列在编码的可变位置上是异质的;(b)第二多个寡核苷酸与为编码选择的氨基酸序列的子序列的核苷酸序列互补,该子序列在编码的可变位置上是异质的;以及(c)第一和第二多个寡核苷酸具有彼此互补的交叠序列;(iii)将寡核苷酸群体合并以形成第一混合物;(iv)将混合物在使交叠的互补序列有效杂交以形成多个杂交互补序列的条件下孵育;以及(v)将多个杂交互补序列延伸以形成含有文库的第二混合物。在各种不同的情况下,本方法还包括进行循环,所述循环是通过将第二个混合物的温度增加到有效变性双链DNA的温度来使文库变性,然后进行步骤(iv)和(V);本方法还包括重复循环最多IOO次;本方法还包括通过聚合酶链反应扩增文库,该反应主要由文库、正向引物和反向引物组成,其中正向和反向引物可以与文库中所有核酸的5'和3'末端的序列分别杂交;可变位置上待编码的氨基酸选自丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、甲硫氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸和缬氨酸的亚组;为可变位置选择的氨基酸选自脂肪族氨基酸、酸性氨基酸、中性氨基酸和芳香族氨基酸的组;氨基酸组由丙氨酸、天冬氨酸、丝氨酸和酪氨酸组成。本发明的一个或多个实施方案的详细情况将在下面的说明书中提出。根据说明书和附图以及权利要求,本发明的其它特点、目标和优点将变得显而易见。图1是示意图,描述了通过对编码的多肽支架序列内的子序列进行多样化而产生编码嵌合结合多肽的核酸的文库。图2是具有可以用作支架的区域的众多蛋白的序列比对。这些蛋白与水稻半胱氨酸蛋白酶抑制剂(oryzacystatin)同源。Cl、C2、C3和C4被加框并标记。图3是具有可以用作支架的区域的众多蛋白的序列比对。这些蛋白与C2同源。Cl、C2、C3和C4被加框并标记。图4是具有可以用作支架的区域的众多蛋白的序列比对。这些蛋白与水稻半胱氨酸蛋白酶抑制剂同源。Cl、C2、C3和C4被加框并标记。图5是具有可以用作支架的区域的众多蛋白的序列比对。这些蛋白与C2同源。Cl、C2、C3和C4被加框并标记。具体说明下面描述了编码植物嵌合结合多肽的核酸的多样文库(例如cDNA文库)以及产生它们的方法。编码的植物嵌合结合蛋白的文库的氨基酸序列源自包括可变化的子序列的支架多肽序列。变化的子序列对应于植物嵌合结合蛋白的推断的结合结构域,并且在植物嵌合结合蛋白文库中是高度异质性的。相反,在变化的子序列之外的编码的嵌合结合蛋白的序列基本上与亲本支架多肽序列相同,并且在编码的植物嵌合结合蛋白整个文库中是高度同质的。因此,植物嵌合结合蛋白的文库可以用作通用的分子识别文库平台,以筛选特异的结合蛋白,用于在转基因植物中表达。植物嵌合结合蛋白的文库可以由转染的细胞表达(即成为表达文库),并测试与目的分子靶的相互作用。例如,可以筛选表达文库以鉴定与植物害虫包括线虫表达的多肽以高度特异性和亲和性结合的多肽。最后,具有所需靶结合性质的个体嵌合结合蛋白可以在转基因植物中表达。I.植物支架多肽序列植物支架多肽序列是基于在一个或多个区域内结构上耐受极端序列变异的基于植物蛋白的氨基酸序列。在支架多肽序列内待改变的区域在概念上类似于免疫球蛋白的超变区,并在嵌合结合多肽中形成了推定的结合结构域。因此,通过对支架多肽序列内的特定序列进行多样化,产生了多样的植物嵌合结合多肽的编码核酸序列的大文库,下面将要详细描述。选择的植物支架多肽序列具有许多性质,例如它们(i)衍生自植物来源的序列;(ii)编码结构上耐受导入序列多样性的蛋白;(iii)只包含在植物中表达时不干扰多肽折叠的二硫键;(iv)在多种植物组织中高水平表达;以及(V)能够定向到不同的亚细胞位置(例如细胞质、线粒体、质体)或从细胞中分泌。基于这些性质,植物支架多肽序列允许产生具有高度多样结合活性的嵌合结合多肽的大文库。可以针对与靶分子的结合,筛选嵌合结合多肽的文库。然后可以将具有所需结合活性的嵌合结合蛋白在植物中表达,以赋予输入性状(例如害虫或病原抗性,耐干旱)或输出性状(例如修饰的脂质组成、用于植物修复的重金属结合、医药用途)。这些结合蛋白也可以用于各种不同的基于亲和性的应用,例如使用夹心ELISA诊断性检测抗原的、抗原的组织化学检测、产生蛋白生物芯片、以及抗原的亲和纯化。基于三维结构已知的植物蛋白或蛋白结构域的序列来选择支架多肽序列是有用的(参见例如Nygren等(2004)"来自可选支架的结合蛋白"J.ofImmun.Methods290:3-28)。但是,即使潜在的支架多肽序列没有实验确定的结构数据,也可以从候选氨基酸序列的计算机结构分析收集到有价值的推论。可用于氨基酸序列结构预测的程序包括,例如,在万维网的ics.uci.edu/~baldig/scratch/index上公共可用的"SCRATCHProteinPredictor"程序套装。重要的是序列变异的导入不使支架多肽序列的已知或预测的二级结构不稳定。因此,支架多肽序列的已知或预测的二级结构告知了选择在支架多肽序列内可以改变以形成推定的结合结构域的氨基酸子序列。特定的支架多肽序列的结构适合性容易测试,例如通过本
技术领域
中通常了解的噬菌体展示表达分析方法。例如,可以测试含有0、1、2、3或更多二硫键的支架多肽序列折叠成稳定的蛋白的能力。因为折叠不合适的蛋白将不会掺入到噬菌体的外壳中,它们将不会被展示。因此,无需过度的努力,就可以快速筛选许多候选支架多肽序列的一旦表达后就折叠成稳定的蛋白的能力。植物支架多肽序列可以基于紫色酸性磷酸酶(PAP)的副结构域。四季豆Phaseolusvulgaris的PAP副结构域的晶体结构已经被确定(Strater等(1995),Science268(5216):1489-1492)。蛋白内三个暴露的环使人联想起在免疫球蛋白中发现的超变结构域。该环由蛋白的刚性的反向平行/3-片层框架带到一起。形成每个环的子序列形成了从PAP衍生的嵌合结合蛋白的推定结合结构域。这些子序列通过取代、缺失、插入或添加最多10个(例如最多3、4、6、8个)氨基酸而多样化。形成推定结合结构域的环特别适合于结合含有袋或裂缝(cleft)的耙分子。基于PAP的支架多肽序列具有下列的通用形式<formula>formulaseeoriginaldocumentpage34</formula>其中d、C2、Q和Q对应于"骨架"子序列,其可以包括一些导入的变异,但是不是高度多样化的。另一方面,Xp乂2和&对应于高度可变子序列,该子序列形成每个基于PAP的嵌合结合蛋白的推定结合结构域。表1显示了从30个PAP的氨基酸序列衍生的适合的d-Q骨架子序列的列表。Cj、C2、<:3和C4分别对应于表1中的SEQIDNO:1-30、31-60、61-90和91-120。Xj、乂2和X3可以基于相应PAP序列的天然存在的变异体,例如在表2中显示为SEQIDNO:121-123的那些。表2显示了30种天然存在的PAP序列内,在分别对应于X,、X2和X3的子序列中,每个氨基酸位置处的变异范围。或者,亲本可变子序列XrX3可以是任意的长度为2-20个氨基酸的序列。在某些实施中,支架多肽序列的Q、C2、Q和C4可以从表1列出的多种基于PAP的支架多肽序列的任何组合中选择,例如Q(SEQIDNO:5)、C2(SEQIDNO:12)、C3(SEQIDNO:7)和C4(SEQIDNO:19);(SEQIDNO:5)、C2(SEQIDNO:12)、C3(SEQIDNO:5)和C4(SEQIDNO:12);C4(SEQIDNO:22);Q(SEQIDNO:17)、C2(SEQIDNO:17)、C3(SEQIDNO:19)禾卩C4(SEQIDNO:l)表l:基于PAP副结构域的SPS<table>tableseeoriginaldocumentpage35</column></row><table><table>tableseeoriginaldocumentpage36</column></row><table>表2:在PAP子序列中对应于X、乂2和乂3(SEQIDNO:121-123)的天然存在的残基变异(SEQIDNO:121>x2(SEQIDNO:122)x3(SEQIDNO:123)位置位置位置abcdefgabcdefghiabcdefjMDEPGSS1VEAKPNJENKLKKPVDTQSHT1TAAYKVyNYTSGRFFTSPTHKNFDKEEVGLRNT1E1GHLVEDMEDQTKSsEE在对上面列出的支架多肽序列的子序列进行多样化后,多样化的X2'和X3'子序列在编码的植物嵌合结合多肽文库中是高度异质性的,并且分别相对于表1中列出的SEQIDNO:121-123每个可以含有最多10个(例如8、6、4、3个)单氨基酸取代、缺失、插入或添加(参见例如图1)。例如,对应于X,、X2和X3区域的氨基酸序列的长度相对于SEQIDNO:121-123可以不变、縮短或加长。在推定的结合结构域之外的区域被称为"骨架"区域(即Q、C2、Q和C4)。与XhX2和X3的氨基酸序列不同,骨架区域的氨基酸序列在编码的嵌合结合蛋白文库中一般基本上不多样化,尽管在文库内的这些区域中某些序列变异是允许的。植物支架多肽序列的骨架区域可以与SEQIDNO:1-120中的任何一个具有至少70%(即80、85、90、95、98或100%)的同一性。或者,骨架区域可以含有最多30个(即28、26、24、22、20、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2或1个)单氨基酸取代、缺失、插入或添加。例如,d、C2、C3和C4每个可以含有0、1、2、3、4或5个或更多的单氨基酸变化。如果要在骨架区域中引入氨基酸取代,优选进行保守取代。保守取代是保持用具有同样的化学性质的氨基酸进行氨基酸取代(例如用极性氨基酸例如苏氨酸取代另一个极性氨基酸例如丝氨酸的取代)。在一个实施方案中,植物支架多肽序列是下面显示的SEQIDNO:124-126中的一种。对应于X^X2和X3的序列用粗体和下划线表示。SE<2IDNO:124NYTSGYIHHCYIKGLEYDTKYYYWGIGNTSREFWFRSE<3H>NO:125PQQVHITQGDLVGKAVIVSWVTYMEQ^EVHYWSENSDKKKIAEGKLVTXEEFNYSSGFIHHTnRNLEYKTKYYYEVGLGNTTROFWFVSEQIDNO:126pqfWHTTrjnnr,vgramtiswvtmdepgssavrywsekngrkriakgkmstxeFFNYSSGFIHHTTIRKLKYNTKYYYEVGLRNTTRRFSFI在另一个实施方案中,植物支架多肽序列是基于具有类似锚蛋白的重复序列的植物蛋白氨基酸序列。类似锚蛋白的重复序列是由大约33个氨基酸组成的小的转角-螺旋-螺旋(THH)重复序列。在支架多肽序列中THH重复序列的数量可以在2到20之间变化。THH重复序列中推定的结合位点一般是不连续的,但是在它们作为一部分的蛋白的同一侧成簇。植物的含有THH重复序列的支架多肽序列可以具有基于下面列出的SEQIDNO:127-129中任何一个的氨基酸序列。在粗体/下划线残基处导入了高度的氨基酸序列变异。植物的含有THH重复序列的支架多肽序列在对应于SEQIDNO:127-129的残基12-13、33、35-36、38、46-47、66、68-69、71、79-80、99、101-102、104和112-113(用粗体和下划线表示的残基)的氨基酸位置处,可以含有最多3个氨基酸的取代,或者缺失。nr>r>T.fiKKT.WT.AAg^GHLEIVRVLVEAGADVNALDKFGRTALHIAASRGHLEVvkxlleagadvnXEdkfgrtalhlaasrghlewkllleagadvnaldkfgDTALHVSIDNGNEDlXJJlo—se(jh>no:128GDDLGKKLHLAA巡GHLEIVRVLVEAGADVNAiiDKEGSTPLHIAA巡GNEQVVKLLLEAGADPNALDKFGRTPLHIAASKGNEOWKLLLEAGADPNAQDKEGQtalhvsidngnediaeilose(jIDno:129GSDLGKKLLEAARAGODDEVRILMANGADVNALDKFGRTPLHIAAgKGNEQWKLLLEAGADPNALD迎GJB:TPLHIAASKGNEQ"WKLLLEAGADPNAQDig:GktafdisidngnedlXeilo支架多肽序列的序列可以与SEQIDNO:127-129的上述氨基酸位置(粗体)之外的序列具有至少70%(即80、85、90、95、98或100%)的同一性。或者,在SEQIDNO:127-129的上述氨基酸位置(粗体)之外,支架多肽序列的序列可以含有最多30个(即28、26、24、22、20、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2或1个)单氨基酸取代、缺失、插入或添加。在某些情况下可适宜包含附加的重复单位。SEQIDNO:127-129具有氨基末端帽、两个内部重复序列和羧基末端帽。可能适宜具有l-6个内部重复序列。氨基末端帽序列是氨基酸1-33。第一个内部重复序列是34-66,第二个内部重复序列是67-99。羧基末端帽序列是氨基酸100-123。第一或第二个内部重复序列或两者可以独立地重复1、2、3、4、5或6次。推定的结合位点是由从支架多肽序列形成的刚性二级结构突出的氨基酸侧链所形成。这些蛋白一般可以形成较大较平坦的结合表面,特别适用于结合不具有深裂缝或袋的靶。另一种适合的支架可以基于水稻半胱氨酸蛋白酶抑制剂(JBiolChem262:16793(1987);Biochemistry39:14753(2000)),它是半胱氨酸蛋白酶抑制剂/木瓜蛋白酶家族(PfamIdentifierPF00031)的成员,被鉴定为水稻的半胱氨酸蛋白酶抑制剂。水稻半胱氨酸蛋白酶抑制剂的序列被描述在下面。基于水稻半胱氨酸蛋白酶抑制剂,可以产生具有氨基酸序列C1-X1-C2-X2-C3-X3-C4的支架,其中XI、X2、X3和X4每个都是可变区,而C1、C2、C3和C4是骨架区。MSSVGGPVLGGVEPVGNENDLHLVDLARFAVTEHNKKANSLLEFEKLVSVKqr)WAGTLYYFTLEVKEGDAKKLYEAKVWEKPWMDFKELOEFKPVDASANAC1-MSS(aa1-3)Xl-VGGP(aa4-7)C2-VLGGVEPVGNENDLHLVDLARFAVTEHNKKANSLLEFEKLVSV(幼-8-50)X2-KQQVVAGT(aa51-58)C3-LYYFTLEVKEGDAKKLYEAKVWE(aa59-81)X3-KPWM(aa82-85)C4-DFKELQEFKPVDASANA(aa86-102)图2描绘了众多植物蛋白的序列与水稻半胱氨酸蛋白酶抑制剂的比对。适合的Cl-C4区的例子被指出。图4描绘了少数植物蛋白的序列与水稻半胱氨酸蛋白酶抑制剂的比对。适合的Cl-C4区的例子被指出。总的来说,Xl可以是2-20个随机氨基酸(例如3个氨基酸)的序列。X2可以是2-20个随机氨基酸(例如4个氨基酸)的序列。X3可以是2-20个随机氨基酸(例如4个氨基酸)的序列。另一种适合的可以基于水稻的C2蛋白(Biochemistry42:11625(2003)),这是C2结构域家族(PfamIdentifierPFOO168)的成员,被认为参与了植物的防御信号系统。水稻的C2序列被描述在下面。基于水稻的C2可以产生具有氨基酸序列C1-X1-C2-X2-C3-X3-C4的支架,其中XI、X2、X3和X4每个都是可变区,Cl、C2、C3和C4是骨架区。MAGSGVLEVHLVDAKGLTGNDFLGKIDPYVWOYRSOERKSSVARDOnKNPSWNEVFKFOINSTAATGOHKXFLRLMDHDTFSRDDFLnRATTNVTDLISLSFROC1-MAGSGVLEVHLVDAKG(aa1-16)X1-LTGNDFLGKID(aa17-27)C2-PYWVQYRSQERK(aa28-40)X2-SSVARDQGKNP(aa41-51)C3-SWNEVFKFQINSTAATGQHKLFLRL(aa52-76)X3-MDHDTFSRDDFL(aa77-88)C4-GEATINVTDLISLGMEHGTWEMSESKHRWLADKTYHGEIRVSLTFTASAKAQDHAEQVGGWAHSFRQ(aa89-156)图3描绘了众多植物蛋白的序列与水稻C2的比对。适合的Cl-C4区的例子被指出。图5描绘了少数植物蛋白的序列与水稻水稻半胱氨酸蛋白酶抑制剂的比对。适合的Cl-C4区的例子被指出。总的来说,Xl可以是2-20个随机氨基酸(例如ll个氨基酸)的序列。X2可以是2-20个随机氨基酸(例如ll个氨基酸)的序列。X3可以是2-20个随机氨基酸(例如12个氨基酸)的序列。下一节将公开产生核酸文库的方法,该核酸文库编码基于植物支架多肽序列的嵌合结合蛋白。II.产生基于植物支架多肽序列的核酸文库基于一个或多个植物支架多肽序列产生了编码植物支架多肽序列的核酸序列变异体的大文库。核酸文库编码了至少5种(例如1,000、105、106、107、109、1012、1015或更多种)不同的嵌合结合蛋白序列。应该认识到不是每个通过本文描述的方法产生的文库的成员都将编码独特的氨基酸序列。然而,理想的是文库中出现的编码的嵌合结合蛋白的至少10%(例如25%、30%、40%、50%、60%、70%、75%或90%)是独特的。在对植物支架多肽序列进行多样化之前,通过计算机估算使用给41定的序列变异参数组将产生的预期序列多样性可能是有用的。估算序列多样性的方法被描述在例如Voiles等(2005),33(11):3667-3677中。例如,在通过PCR产生的核酸文库中预计的不同序列的数量可以根据用于扩增的诱变聚合酶的突变频率来估算。可用于估算随机的编码蛋白的文库中序列多样性的算法也可以在万维网上找到,例如在guinevere.otago.ac.nz/mlrgd/STATS/index。编码植物嵌合结合蛋白的核酸文库可以通过多种已知的方法来产生。通过在上述支架多肽序列的高度可变位置上取代、缺失、插入或添加氨基酸,在植物支架多肽序列中导入序列多样性。因为在植物中遗传编码的20种氨基酸的组具有略微冗余的化学和结构性质,包涵这种结构多样性的氨基酸的亚组(例如4种类型氨基酸的亚组)可以被采纳用于取代。例如,可以选择用于取代或插入的氨基酸,以包含酸性氨基酸、中性氨基酸、脂肪族氨基酸和芳香族氨基酸(参见表3)。例如,用于取代的氨基酸可以限制于天冬氨酸、丝氨酸、丙氨酸和酪氨酸。限制氨基酸取代的冗余性将增加嵌合结合蛋白的总体结构和结合多样性。表3:在植物中遗传编码的氨基酸的化学性质酸性中性脂肪族芳香族碱性天冬氨酸,谷氨酸天冬酰胺,半胱氨酸,谷氨酰胺,甲硫氨酸,脯氨酸,丝氨酸,苏氨酸丙氨酸,甘氨酸,异亮氨酸,亮氨酸,缬氨酸组氨酸,苯丙氨酸,色氨酸,酪氨酸精氨酸,赖氨酸核酸的文库可以通过装配具有交叠互补序列的寡核苷酸组来体外产生。首先,选择将被装配的寡核苷酸组编码的支架多肽序列。按照上面的描述要产生的嵌合结合多肽的文库,在给定的支架多肽序列的可变区中待编码的序列将包含许多含有取代、插入、缺失或添加的异质序列。待编码的支架多肽序列可以含有分别对应于SEQIDNO:l-30、4231-60、61-90和91-120任何一个中的Cl-C4子序列。一组寡核苷酸编码要导入多样性的植物支架多肽序列的区域(例如在X1、X2禾卩X3处)。相反,要导入的变异很少或没有的支架多肽序列的区域(例如在PAP支架多肽序列的骨架结构域中),由与上面提到的支架多肽序列的任何一个具有不少于70%(即75%、80%、85%、90%、95%或100%)同一性的氨基酸序列的编码寡核苷酸组所编码。这种方法的详细情况被描述在例如美国专利No.6,521,453中,在此引为参考。用于产生核酸文库的序列变异的寡核苷酸一般来说按照Beaucage和Caruthers(1981),TetrahedronLetts.,22(20):1859-1862中描述的固相亚磷酰胺三酯方法,使用自动化合成仪,按照Needham-VanDevanter等(1984)NucleicAcidsRes.,12:6159-6168中的描述进行化学合成。有多种多样的用于自动化寡核苷酸合成的设备可以商购。在同上的讨论的多核苷酸合成方法(例如三核苷酸合成)也可以使用。核酸可以从不同的商业化来源按照要求定制,例如Sigma-Genosys(sigma-genosys.com/oligo.asp)、MidlandCertifiedReagentCompany(mcrc@oligos.com)、TheGreatAmericanGeneCompany(genco.com)、ExpressGenInc.(expressgen.com)、OperonTechnologiesInc.(Alameda,Calif.)以及许多其它公司。寡核苷酸可以具有为在特定的细胞类型中(例如在植物细胞、哺乳动物细胞、酵母细胞或细菌细胞中)表达而优化的密码子用途。密码子使用频率表可以公开获得,例如在万维网的kazusa.or.jp/codon。密码子偏倚可以用于优化在要评估植物嵌合结合蛋白的结合的细胞中或细胞表面上的表达,也可用于优化嵌合结合蛋白在具有商业目的的转基因生物体(例如转基因植物)中的表达。一般来说,使用频率低于10%的密码子将不被使用。在合成之前,检査寡核苷酸序列中可能有问题的序列,例如用于亚克隆的限制性酶位点、可能的植物剪接受体或供体位点(参见例如cbs.dtu.dk/services/FeatureExtract/)、可能的mRNA去稳定化序列(例如"ATTTA"),以及同样的核苷酸出现超过4次的区段。因此,可能的有问题的序列被改换。合成的寡核苷酸群体编码选定的支架多肽序列的推定结合区域中(例如PAP支架多肽序列的区域X,、X2和X3中)的氨基酸变异。优选所有具有选定长度(例如大约10、12、15、20、30、40、50、60、70、80、90或100或更多的核苷酸)的、对应于将在支架多肽序列中导入多样性的区域的寡核苷酸,编码了来自上面描述的氨基酸多样组的所有可能的氨基酸变异。这包括了每N个序列变异N个寡核苷酸,其中N是基因座上不同序列的数量。N个寡核苷酸除了编码变异的氨基酸的核苷酸之外,在序列中是相同的。在产生序列变异的寡核苷酸中,使用平行或合并的合成策略是有利的,所述策略中单个合成反应或试剂组被用于制造每种寡核苷酸的共同的部分。这可以通过例如众所周知的固相核酸合成技术或例如使用基于阵列的寡核苷酸合成方法来进行(参见,例如,Fodor等(1991)Science,251:767-777;Fodor(1997)"基因、芯片和人类基因组"(Gene,ChipsandtheHumanGenome)FASEBJournal.11:121-121;Fodor(1997)"大规模平行基因组学"CMassivelyParallelGenomics)Science.277:393-395;以及Cheeetal.(1996)"使用高密度DNA阵列评估遗传信息"(AccessingGeneticInformationwithHigh-DensityDNAArray)Science274:610-614)。在典型的合成策略中,寡核苷酸与变异区域的任何一侧具有至少大约IO个碱基的序列同一性以确保适度有效的重组。但是,带有相同碱基的侧翼区域可以具有较少的相同碱基(例如4、5、6、7、8或9个),并且当然可以具有较大的相同区域(例如ll、12、13、14、15、16、17、18、19、20、25、30、50或更多个)。孵育待装配到一起的寡核苷酸,以允许含有交叠的互补序列的寡核苷酸之间进行杂交。因而每组杂交的交叠寡核苷酸形成间有小间隙的连续核酸。这些小的间隙可以使用各种不同的聚合酶介导的装配方法、例如本文描述的或专业技术人员熟知的方法来填满,以形成全长的序列。最大的序列多样性被导入到植物支架多肽序列的推定结合区域和残基的编码寡核苷酸中。但是,编码特定序列变异的寡核苷酸可以以任何选择的浓度被"掺"入重组混合物中,从而导致所需的修饰优先掺入推定结合结构域之外的区域中编码的植物嵌合结合蛋白内。例如,在寡核苷酸延伸过程中,杂交的寡核苷酸在核酸聚合酶例如Taq、Klenow等以及dNTP(即dATP、dCTP、dGTP和dTTP)存在下孵育。如果序列一致的区域较大,可以在大约室温(即大约25°C)和例如大约65。C之间的杂交温度下使用Taq或其它高温聚合酶。如果一致的区域较小,可以在低于室温的杂交温度下使用Klenow、Taq或聚合酶。聚合酶可以在寡核苷酸杂交之前、同时或之后加入到装配反应中。然后,将获得的延伸的双链核酸序列变性、杂交并再次延伸。这个循环可以重复任何所需数量的次数。循环被重复例如从大约2次到大约100次。任选在组合式核酸装配的多个循环之后,可以通过例如标准聚合酶链反应(PCR)来扩增获得的产物。将一部分体积的上述的装配反应物与独特的与核酸末端普遍杂交的正向和反向引物、以及dNTPs和适合的聚合酶(例如pfu聚合酶)一起孵育。然后进行大约10到40个循环的PCR反应。为了确定寡核苷酸掺入的程度,可以使用任何能够鉴别类似的核酸的方法。例如,核酸可以被克隆和测序,或者扩增(体外或克隆到例如标准的克隆或表达载体中)并用特异识别特定的寡核苷酸序列变异体的限制性酶进行剪切。在用于装配或PCR反应的大部分5'和3'引物的5'末端中包含稀有的限制性位点(例如NotI)是有用的。在这些引物中包含限制性位点有利于通过限制性消化和随后的连接将核酸亚克隆到载体中。或者,装配反应或PCR产物也可以不用限制性消化而使用标准的方法例如"TA"克隆进行亚克隆。用于在植物支架多肽序列中导入多样性的其它方法也可以使用。例如,支架多肽序列可以被编码在核酸模板例如质粒构建物中。或者,来自适当的植物种类例如大豆的PCR产物、mRNA或基因组DNA也可以用作编码植物支架多肽序列的模板。一个或多个将被多样化的支架多肽序列子序列(例如PAP支架多肽序列的X2区域),可以通过多种易错PCR方法中的任何一种从支架多肽序列的核酸模板扩增期间或之后被多样化。易错PCR方法可以分为(a)通过不平衡的核苷酸浓度和/或加入化学化合物例如氯化镁而降低聚合酶的保真度的方法(参见例如Lin-Goerke等(1997)Biotechniques,23,409-412),(b)使用核苷酸类似物的方法(参见例如美国专利No.6,153,745),(c)使用"诱变"聚合酶的方法(参见例如Cline,J.和Hogrefe,H.H.(2000)Strategies(StratageneNewsletter),13,157-161),以及(d)组合的方法(参见例如Xu,H.,Petersen,E丄,Petersen,S.B.禾Bel-Gewely,M.R.(1999)Biotechniques,27,1102-1108)。其它的基于PCR的诱变方法包括例如OsunaJ,YanezJ,SoberonX,禾卩GaytanP.(2004),NucleicAcidsRes.2004,32(17):el36和WongTS,TeeKL,HauerB,禾BSchwaneberg,NucleicAcidsRes.2004Feb10;32(3):e26描述的方法,以及其它在本
技术领域
中熟知的方法。在产生了序列变异体的群体后,它们可以通过亚克隆取代到选择的植物支架多肽序列核酸(例如含有支架多肽序列的质粒)的适当区域中,从而有效地作为载体用于多样化序列的文库。对特定的植物支架多肽序列区域进行诱变的另一种方法是使用诱变的大肠杆菌(E.coli)菌株(参见例如Wu等(1999),PlantMol.Biol,39(2):381-386)。将含有待突变的靶序列的核酸载体导入到增变菌株中,然后进行繁殖。在增变大肠杆菌菌株中易错DNA复制在导入耙序列中导入了突变。然后回收改变的靶序列群体,并亚克隆到编码选定的植物支架多肽序列的核酸的适当位置中,以产生编码植物嵌合结合蛋白的核酸的多样文库。III.植物嵌合结合蛋白的表达和筛选基于植物支架多肽序列并编码植物嵌合结合多肽的核酸文库被亚克隆到表达载体中,并导入生物复制系统中以产生表达文库。表达文库可以被增殖和筛选,以鉴定与目的靶分子(TM)(例如线虫、昆虫、真菌、病毒或植物蛋白)结合的植物嵌合结合蛋白。要实行植物嵌合结合蛋白的筛选的生物复制系统,在筛选了与耙的结合后,应该能够在适当的环境下生长。或者,编码选定的植物嵌合结合蛋白的核酸可以通过体外扩增来分离。在生物复制系统的至少一部分生长过程中,数量的增加相对于时间来说优选为大约指数级的。表现出所需结合性质的文库成员的频率可能相当低,例如106中的l个或更低。生物复制系统可以是细菌DNA的病毒、植物性细菌细胞、细菌孢子。真核细胞(例如酵母细胞)也可以用作生物复制系统。在特别有用的实施方案中,在噬粒构建体中编码了嵌合的结合蛋白-噬菌体外壳蛋白融合。噬粒构建体被转化到宿主细菌中,然后用表达野生型外壳蛋白的辅助噬菌体感染。获得的噬菌体后裔具有兼有融合蛋白和野生型外壳蛋白的蛋白外壳。这种方法的优点是噬菌体的存活力与仅具有嵌合结合蛋白-外壳融合蛋白的噬菌体的存活力相比更高。基于噬粒的展示文库构建和筛选试剂盒是可商购的,例如EZnetTM47噬菌体展示cDNA文库构建试剂盒和筛选试剂盒(MaximBiotech,Inc.,SanFrancisco,CA)。但是,任何活细胞或病毒菌株都可能是有用的,如果菌株能够1)用合适的设备进行遗传改变以编码植物嵌合结合蛋白,2)在培养中维持和扩增,3)操控以展示通过其可以与靶材料发生相互作用的可能的结合蛋白结构域,以及4)筛选同时以可回收的形式保留编码所表达的植物嵌合结合蛋白的遗传信息。优选,生物复制系统在基于亲和性的筛选后仍保持存活。当生物复制系统是细菌细胞或在细胞周质中装配的噬菌体时,用于展示植物嵌合结合蛋白的表达载体编码了本身与两个其它成分融合的嵌合结合蛋白。第一个成分是分泌信号,它指导最初的表达产物到达细胞的内膜(在包装噬菌体时是宿主细胞)。该分泌信号被信号肽酶切下,产生加工过的成熟的植物嵌合结合蛋白。第二个成分是外表面运输信号,它指导生物复制系统将加工过的蛋白装配到它的外表面中。该外表面运输信号可以源自生物复制系统天生的表面蛋白(例如M13噬菌体外壳蛋白gill)。例如,表达载体含有编码植物嵌合结合蛋白的DNA,该DNA与信号序列(例如细菌phoA或bla基因的信号序列或M13噬菌体基因III的信号序列)和编码丝状噬菌体(例如M13)的外壳蛋白(例如M13基因III或基因VIII蛋白)的DNA可操作地连接。表达产物被运输到宿主细胞的内膜(脂质双层),在那里信号肽被切掉,留下加工过的杂交体蛋白。该杂交体蛋白的类似外壳蛋白的成分的C末端被捕获在脂质双层中,使得杂交体蛋白不能逸入到周质空间中。由于初生的噬菌体颗粒的单链DNA进入周质空间,它收集野生型外壳蛋白和来自脂质双层的杂交体蛋白。因此杂交体蛋白被包装到丝状噬菌体的表面鞘中,留下植物嵌合结合蛋白暴露在它的外表面上。因此,在这个实施方案中,是丝状噬菌体而不是宿主细菌细胞是生物复制系统。如果分48泌信号为展示植物嵌合结合蛋白所必需,可以使用"允许分泌的"细菌菌株用于丝状噬菌体生物复制系统的生长。当生物复制系统是细菌孢子或外壳在细胞内包装的噬菌体时,不是必需使用内膜分泌信号。在这些情况下,展示工具仅仅是外表面运输信号,一般为孢子或噬菌体外壳蛋白的衍生物。丝状噬菌体总的来说作为展示植物嵌合结合蛋白的生物复制系统是有吸引力的,特别是M13是特别有吸引力的,因为1)病毒粒子的三维结构是已知的;2)对外壳蛋白的加工有明确的了解;3)基因组是可扩展的;4)基因组小;5)基因组的序列已知;6)病毒粒子对剪切、热、冷、尿素、盐酸胍、低pH和高盐具有物理抗性;7)噬菌体是测序载体,因此测序尤为容易;8)抗生素抗性基因已经被克隆到基因组中;9)它易于培养和储存,对于感染的细胞来说不需要不常见的或昂贵的培养基;10)它具有高的噬菌体裂解量,每个感染细胞在感染后产生100到1000个M13子代;以及11)它易于通过标准方法收获和浓縮。例如,当生物复制系统是M13时,基因III或基因VIII蛋白可以用作外表面寻靶信号。或者,来自基因VI、VII和IX的蛋白也可以使用。编码的植物嵌合结合蛋白可以与表面寻靶信号(例如M13的基因III外壳蛋白)在其羧基或氨基末端融合。植物嵌合结合蛋白和寻靶信号之间的融合边界也可以包括短的接头序列(例如最多20个氨基酸长),以避免嵌合结合蛋白和融合的寻靶信号之间的不利的相互作用。在某些实施方案中,在接头序列中包含特定的蛋白酶水解剪切位点是有利的。此外,融合蛋白的氨基末端或羧基末端可以含有短的表位标签(例如红细胞凝集素标签)。包含蛋白酶水解剪切位点或短的表位标签对于从进行文库表达的细胞群体中纯化嵌合结合蛋白的文库是特别有用的。带有表位标签的嵌合结合蛋白可以通过对接头序列进行蛋白酶水解剪切、然后利用识别表位标签的抗体或其它结合剂进行亲和层析来方便地纯化。现有许多筛选噬菌体展示文库的方法(参见例如Willats(2002),PlantMol.Biol,50:837-854)。正如通常实施的那样,目的靶分子被吸附到支持物上,然后暴露于展示噬菌体的植物嵌合结合蛋白的溶液中。靶分子可以通过被动吸附固定在支持介质上,例如试管、板、柱子或磁珠。一般来说,吸附性支持介质用例如牛血清白蛋白、牛奶或明胶预先阻断,以减少在筛选过程中噬菌体的非特异性结合。或者,靶分子可以被生物素化,从而带有嵌合结合蛋白的噬菌体和耙分子之间的相互作用可以在溶液中进行。然后与靶结合的噬菌体可以使用结合在固相基体(例如珠子或柱子)上的亲和素或链霉亲和素来筛选。在使噬菌体与靶分子发生相互作用后,通过清洗除去未相互作用的噬菌体。然后用众多处理方法之一将剩余的特异性结合的噬菌体洗脱,所述处理包括例如降低或提高pH、使用还原剂或使用去污剂。在一个实施方案中,特定的蛋白酶水解剪切位点被引入到植物结合蛋白序列和噬菌体外壳蛋白序列之间。因此,噬菌体洗脱可以简单地通过加入适当的蛋白酶来完成。然后通过感染宿主细胞来扩增洗脱的噬菌体,进而可以通过刚刚描述的方法对它们进行重新筛选,以减少假阳性结合子的数量。在每一轮噬菌体筛选过程中,应该仔细地包含噬菌体在固体培养基上的生长,而不是只包含在液体培养基中的生长,因为这使得亚最适生长的噬菌体克隆的损失最小化。也可以使用核糖体展示,仅仅在体外对植物嵌合结合蛋白进行表达和结合的筛选。专门在体外进行的方法克服了需要将编码植物嵌合结合蛋白的核酸文库导入到生物复制系统中。在体外通过核糖体蛋白展示筛选多肽的方法在例如美国专利No.6,589,741中有详细描述。在上面的部分中描述的核酸可以通过加入能够在体外转录的噬菌体启动子序列(例如T7启动子)、在编码的植物嵌合结合蛋白的翻译起点上游的核糖体结合序列、以及转录终止序列(例如来自噬菌体T3)进行修饰。然后将修饰的核酸文库在体外转录,以产生相应的编码植物嵌合结合蛋白的mRNA群体。然后通过在体外翻译系统中、在允许多核糖体形成的条件下、以正确的阅读框架翻译不含终止密码子的mRNA分子的群体,使植物嵌合结合蛋白在体外表达。然后将这样形成的多核糖体在允许植物嵌合结合蛋白与靶分子发生相互作用的条件下与耙分子相接触。然后将展示与靶分子相互作用的嵌合结合蛋白的多核糖体与不展示这些多肽的没有相互作用的多核糖体分离开来;然后对与相互作用的多核糖体缔合的mRNA进行扩增(例如通过PCR)和测序。植物嵌合结合蛋白与靶蛋白的相互作用也可以在遗传筛选中检测。在筛选中,在使用双杂交分析或三杂交分析的结合分析中,靶蛋白的功能是作为"诱饵蛋白",而每个植物嵌合结合蛋白的功能是作为潜在的"猎食"蛋白(参见例如美国专利No.5,283,317;Zervos等(1993)Cell72:223-232;Madura等(1993)J.Biol.Chem.268:12046-12054;Bartel等(1993)Biotechniques14:920-924;Iwabuchi等(1993)Oncogene8:1693-1696;Hubsman等(2001)Nuc.AcidsRes.Feb15-,29(4):E18;以及Brent的WO94/10300)。双杂交分析可以使用靶多肽作为诱饵蛋白来进行。总的来说,将耙多肽与LexADNA结合结构域融合并作为诱饵。猎食蛋白是植物嵌合结合蛋白文库,其被克隆到TrxA的活性位点环中作为与N-末端核定位信号、LexA活性结构域和表位标签的融合蛋白(Colas等1996Nature380:548;以及Gyuris等Cell199375:791)。用诱馆和猎食基因转化酵母细胞。当靶融合蛋白与植物嵌合结合蛋白融合蛋白结合时,LexA活性结构域被带入到LexADNA结合结构域附近,具有适当定位的LexA结合位点的报告基因或选择性标记基因的表达增加了。适合的51报告基因包括荧光蛋白(例如EGFP)、酶(例如荧光素酶、^-半乳糖苷酶、碱性磷酸酶等)。适合的选择性标记基因包括例如酵母的LEU2基因。在鉴定了一种或多种与靶结合的嵌合结合蛋白之后,编码嵌合结合蛋白的分离核酸可以通过本文描述的方法进行诱变,以产生表达变异的嵌合结合蛋白的小表达文库。可以对嵌合结合蛋白-变异体表达文库进行筛选,以鉴定具有改进的耙结合性质(例如增加亲和性或特异性)的嵌合结合蛋白变异体。下面的具体实施例的阐述仅仅是说明性的,并不以任何方式对本公开的其它内容进行限制。不用进一步的精心设计,可以相信对于本
技术领域
的专业技术人员来说,能够在本说明的基础上在最大的程度上利用本发明。所有本文中引用的出版物在此以其全文引为参考。实施例实施例1、植物支架多肽序列的设计和表达对于几个蛋白结构域家族分析了它们用作支架的潜力。将输出结果限制为植物界(Viridiplantae),进行了PFAM结构域搜索(pfam.wustl.edu;参见Bateman等(2004)),用于将结构域仅限于绿色植物中存在的结构域。选择了4个蛋白结构域家族来建立植物通用分子识别文库紫色酸性磷酸酶(PAP)的副结构域、植物半胱氨酸蛋白酶抑制剂、植物C2结构域和在锚蛋白重复蛋白中发现的转角-螺旋-螺旋(THH)基序。设计了3种紫色酸性磷酸酶支架,具有SEQIDNO:34-36中的序列。来自四季豆PAP的副结构域的氨基酸序列被用作査询序列对NCBI数据库进行BLAST。当将输出结果限制为在植物中发现的蛋白时,鉴定到了62个独特的序列。从这些序列的比对中,通过选择在比对中每个位置上频率最高的氨基酸,产生了共有的植物PAP序列(SEQIDNO:34)。四季豆(Phaseolusvulgaris)的PAP被选作亲本支架(SEQIDNO:35),因为它的结构已知。来自大豆Glycinemax的PAP也被选中(SEQIDNO:36),因为该物种代表了其中产生转基因产物的常见作物品种。也设计了含有类似植物锚蛋白重复序列的支架多肽序列组。类似锚蛋白的重复序列是由大约33个氨基酸构成的小的转角-螺旋-螺旋(THH)基序。它们是来自所有生物体的蛋白的共同元件,通常在蛋白中以2-20个重复序列的串联排列被发现。产生了三个THH支架。这些蛋白在结构上与GA结合蛋白(GABP-^)相似。该蛋白由类似THH的氨基和羧基末端帽以及3个THH内部重复序列构成。在该蛋白中,据认为帽通过遮蔽在内部重复序列中发现的疏水残基而帮助蛋白稳定。对在PFAM中发现的312个植物锚蛋白重复序列蛋白进行了比对,以帮助设计植物特异性THH支架。通过选择在每个位置上出现频率最高的氨基酸,产生植物共有THH序列。该序列被命名为植物共有内部重复序列。该序列被用于通过BLAST比对搜索NCBI数据库,以发现在植物中发现的最接近的天然THH序列。发现了来自小麦(Triticumaestivum)的序列。基于小麦设计的重复序列包含用缬氨酸取代在小麦序列中出现的单个半胱氨酸。产生了两组N和C末端帽。一组由源于GABP-Z3的序列组成,第二组源于植物THH共有序列,并被优化以类似GABP-Z3的结构。具体来说,N末端帽具有延长的a-螺旋结构,而C末端帽与典型的THH重复序列相比具有截短的螺旋。设计了三种THH支架,一种由植物共有的N和C帽以及两种植物共有内部THH重复序列组成(SEQIDNO:37)。另一种由植物共有的N和C帽以及两种小麦的共有重复序列组成(SEQIDNO:38),第三种由类似锚蛋白的N和C帽以及两种小麦的内部重复序列组成(SEQIDNO:39)。设计了编码植物支架多肽序列的基因,用于在植物、细菌中和噬菌体表面上的表达测试。使用可公开获得的大豆(Glycinemax)密码子使用表(kazusa.orjp/codon,从国际DNA序列数据库整理成表格的密码子使用2000年的状态,Nakamura.Y,Gojobori,T和Ikemura,T(2000)Nucl.AcidsRes.28:292),选择了用于植物表达的密码子。密码子的选择通过人工进行,目的是使最终的密码子频率粗略地反映出大豆的天然频率。没有使用罕见使用的密码子(频率<10%)。检查最终序列中可能有问题的序列,包括除去克隆所需的限制性位点、可能的植物剪接受体或供体位点(参见网址cbs.dtu.dk/services/NetPgene/)、可能的mRNA去稳定化序列(ATTTA),以及同样的核苷酸出现超过4次的区段。通过修改密码子使用来改变基因中任何可能的有问题的序列。因为在每个蛋白内THH序列具有4个相似的重复序列,所以采取了步骤以减少重复序列中的核苷酸相似性;通过这些方法将平均的重复序列同一性降低了10-15%。使用合成基因装配产生了7种构建体(3种基于THH支架多肽序列,2种基于PAP支架多肽序列,l种植物半胱氨酸蛋白酶抑制剂和1种植物C2结构域蛋白)。3种THH支架多肽序列被放置在噬粒载体中,作为在其羧基末端与基因III外壳蛋白(gill)融合的序列(Phage3.2,MaximBiotech,Inc.,SouthSanFrancisco,CA)。在基因的5'末端包含有6-His标签,以及在支架基因和gill的编码氨基末端之间包含有c-Myc标签。然后将噬粒构建体包装到噬菌体颗粒中,并测试噬菌体对THH支架的表达和表面展示。使用抗His和抗Myc抗体进行的噬菌体ELISA表明,在噬菌体ELISA中,THH支架蛋白在噬菌体的表面上表达,表明所有3种THH支架多肽序列构建体都在噬菌体表面上良好地折叠和表达。然后将选出的支架多肽序列用于产生表达载体,通过免疫印迹评估它们在转基因植物中的表达。54将用含有THH的植物表达载体转化的土壤杆菌(agrobacterium)LB4404注射烟草叶片。两天后,收获用土壤杆菌注射的叶片部分、在干冰上冷冻,然后用研棒碾磨成细的粉末。含有0.2%Tween-20的PBS以1:1的重量体积比加入到细粉末中,进行进一步碾磨。通过离心除去不溶性的材料,余留的上清液取10/iL上样于4-12%丙烯酰胺SDS-PAGE凝胶上(NuPage,Intvitrogen)。将蛋白转移到PVDF膜上。使用大鼠抗HA抗体(Roche)和抗大鼠HRP偶联的第二抗体(Chemicon)来检测蛋白。使用AmerhamLumigen试剂检测HRP。发现所有3种THH支架都可以表达,三种支架的相对表达水平是TA-THH〉CC陽THH〉TC-THH。其它实施方案在本说明书中公开的所有特点可以以任何组合方式组合。在本说明书中公开的每种特点可以被起到同样的、等价的或相似的目的的备选特点所代替。因此,除非另有明确的陈述,每个公开的特点都仅仅是一系列通用的等价或相似特点的一个例子。从上面的描述中,本
技术领域
的专业人员可以容易地确定本发明的基本特征,并且在不背离其精神和范围的情况下,可以对本发明进行各种不同的改变和修饰,以使其适用于不同的应用和情况。因此,其它的实施方案也在所附权利要求的范围之内。5权利要求1.编码至少10种不同多肽的核酸的文库,每种多肽的氨基酸序列包括C1-X1-C2-X2-C3-X3-C4,其中(i)子序列C1选自SEQ.IDNO1-30,子序列C2选自SEQ.IDNO31-60,子序列C3选自SEQ.IDNO61-90,子序列C4选自SEQ.IDNO91-120,并且C1-C4的每个对于选定子序列含有最多10个单氨基酸取代、缺失、插入或添加;(ii)C1-C4在多种编码的多肽中是同质的;(iii)X1-X3的每一个是由2-20个氨基酸构成的独立可变的子序列;以及(iv)X1-X3的每一个在多种编码的多肽中是异质的。2.编码至少10种不同多肽的核酸的文库,每种多肽的氨基酸序列包括C广X广C2-X2-C3曙X3-C4,其中(i)子序列Q选自图2或图4,子序列C2选自图2或图4,子序列C3选自图2或图4,子序列C4选自图2或图4,并且d-C4的每个对于选定子序列含有最多IO个单氨基酸取代、缺失、插入或添加;(ii)d-Q在多种编码的多肽中是同质的;(iii)XpX3的每一个是由2-20个氨基酸构成的独立可变的子序列;以及(iv)XrX3的每一个在多种编码的多肽中是异质的。3.编码至少10种不同多肽的核酸的文库,每种多肽的氨基酸序列包括d-X广C2-X2-C3-X3-C4,其中(i)子序列d选自图3或图5,子序列C2选自图3或图5,子序列C3选自图3或图5,子序列Q选自图3XX,并且d-Ct的每个对于选定子序列含有最多30个单氨基酸取代、缺失、插入或添加;(ii)d-C4在多种编码的多肽中是同质的;(iii)XrX3的每一个是由2-20个氨基酸构成的独立可变的子序列;以及(iv)XrX3的每一个在多种编码的多肽中是异质的。4.权利要求l-3任一项的文库,其中至少编码了1,000种不同的多肽。5.权利要求l-3任一项的文库,其中至少编码了100,000种不同的多肽。6.权利要求l-3任一项的文库,其中至少编码了1,000,000种不同的多肽。7.权利要求1-3任一项的文库,其中d-Q的每一个对于选定子序列独立地含有最多20个单氨基酸取代、缺失、插入或添加。8.权利要求7的文库,其中Q-C4的每一个对于选定子序列独立地含有最多IO个单氨基酸取代、缺失、插入或添加。9.权利要求8的文库,其中d-C4的每一个对于选定子序列独立地含有最多5个单氨基酸取代、缺失、插入或添加。10.权利要求9中的文库,其中d-Q对于选定子序列都不含有氨基酸取代、缺失、插入或添加。11.权利要求l-3任一项的文库,其中X,-X3的氨基酸选自在植物中遗传编码的少于20种氨基酸。12.权利要求11的文库,其中少于20种遗传编码的氨基酸包括至少一种脂肪族氨基酸、至少一种酸性氨基酸、至少一种中性氨基酸和至少一种芳香族氨基酸。13.权利要求12的文库,其中少于20种遗传编码的氨基酸包括丙氨酸、天冬氨酸、丝氨酸和酪氨酸。14.权利要求l的文库,其中每种多肽的氨基酸序列选自(a).含有d-X广C2陽X2隱C3-X3-C4的多肽,其中C尸SEQ.IDNO:l,C2=SEQ.IDNO:31,C3=SEQ.IDNO:61,禾卩C4=SEQ.IDNO:91;(b).含有C广X广C2-X2-CVX3-C4的多肽,其中Q=SEQ.IDNO:2,C2=SEQ.IDNO:32,C3=SEQ.IDNO:62,和C4=SEQ.IDNO:92;以及(c).含有C广X广C2-X2-C3國X3-C4的多肽,其中d=SEQ.IDNO:3,C2=SEQ.IDNO:33,C3=SEQ.IDNO:63,和C4=SEQ.IDNO:93。15.权利要求2的文库,其中每种编码的多肽含有CVX广C2-X2-C3-X3-Q,其中C产SEQ.IDNO:Xl,C2=SEQ.IDNO:X2,C3=SEQ.IDNO:X3,和C4=SEQ.IDNO:X4;命名为SEQ.IDNO:130。16.权利要求3的文库,其中每种编码的多肽含有C广X广C2-X2陽C3-X3-C4,其中C!=SEQ.IDNO:Xl,C2=SEQ.IDNO:X2,C3=SEQ.IDNO:X3,和C4=SEQ.IDNO:X4;命名为SEQ.IDNO:130。17.权利要求l-3任一项的文库,其中每种核酸包含载体序列。18.分离的核酸,其选自权利要求l-3任一项的文库。19.分离的核酸,其选自权利要求14-16任一项的文库。20.细胞,其表达权利要求19的分离核酸。21.分离的核酸,其选自权利要求17的文库。22.纯化的多肽,其由权利要求18的分离的核酸编码。23.细胞群体,其表达由权利要求l-3任一项的文库编码的多肽。24.细胞,其选自权利要求23的细胞群体。25.纯化多肽的文库,其由权利要求l-3任一项的文库编码。26.丝状噬菌体群体,其展示由权利要求1-3任一项的文库编码的多肽。27.产生权利要求1的文库的方法,包括(i)提供编码含有下列氨基酸序列的亲本多肽的亲本核酸d-X广C2-X2-C3-X3-C4,其中子序列Q选自SEQIDNO:1-30,子序列C2选自SEQIDNO:31-60,子序列Q选自SEQIDNO:61-90,子序列Q选自SEQIDNO:91-120中选择;C,-Q的每一个对于选定子序列含有最多IO个单氨基酸取代、缺失、插入或添加;并且XrX3的每一个是由2-20个氨基酸组成的独立子序列;(ii)在对XpX2或X3子序列导入最多IO个单氨基酸取代、缺失、插入或添加的条件下复制亲本核酸,从而产生编码Xi'、X2'或X3'的随机变异的子序列群体;以及(iii)随机变异的子序列Xf、X或X3'的群体在对应于编码Xj、X2或X3的位置上取代进入亲本核酸的群体中。28.权利要求27的方法,其中X广X3子序列中的至少一个选自SEQIDNO:121-123。29.权利要求27的方法,其中d-C4的每一个对于选定子序列独立地含有最多20个单氨基酸取代、缺失、插入或添加。30.权利要求29的方法,其中Q-C4的每一个对于选定子序列独立地含有最多IO个单氨基酸取代、缺失、插入或添加。31.权利要求30的方法,其中d-C4的每一个对于选定子序列独立地含有最多5个单氨基酸取代、缺失、插入或添加。32.权利要求31的方法,其中d-C4对于选定子序列都不含有氨基酸取代、缺失、插入或添加。33.权利要求27的方法,其中复制通过在每个X,、X2或Xg中导入最多5个氨基酸取代而产生随机变异的子序列的异质群体。34.权利要求27的方法,还包括通过将文库导入生物复制系统并增殖生物复制系统来扩增文库。35.权利要求34的方法,其中生物复制系统是多种大肠杆菌细胞。36.权利要求34中的方法,其中生物复制系统是多种噬菌体。37.权利要求27的方法,其中复制在体外发生。38.权利要求37的方法,其中复制用纯化的诱变聚合酶来进行。39.权利要求37的方法,其中复制在核苷酸类似物的存在下进行。40.权利要求27中的方法,其中复制发生在体内。41.权利要求40中方法,其中体内复制发生在大肠杆菌(E.coli)的诱变菌种中。42.产生权利要求1的文库的方法,包括(i)选择含有待编码的氨基酸序列d-Xt-CVX2-C3-X3-C4的氨基酸序列,其中(a)子序列Q选自SEQIDNO:1-30,子序列C2选自SEQIDNO:31-60,子序列C3选自SEQIDNO:61-90,和子序列Q选自SEQIDNO:91-120;(b)CrC4的每一个对于选定子序列含有最多10个单氨基酸取代、缺失、插入或添加;(c)X"乂2和乂3的每一个由长度为2-20个氨基酸的氨基酸序列组成;(ii)提供第一多种和第二多种寡核苷酸,其中(a)第一多种寡核苷酸编码CVQ子序列和多个异质的&-&变异子序列X卩-X3';(b)第二多种寡核苷酸与编码d-C4子序列的核苷酸序列和编码多个异质的X一X3'子序列的核苷酸序列互补;以及(c)第一和第二多种寡核苷酸具有彼此互补的交叠序列;(iii)将寡核苷酸群体合并以形成第一混合物;(iv)将混合物在使交叠的互补序列有效杂交以形成多个杂交互补序列的条件下孵育;以及(v)将多个杂交互补序列延伸以形成含有文库的第二混合物。43.权利要求42的方法,其中d-C4的每一个对于选定子序列独立地含有最多20个单氨基酸取代、缺失、插入或添加。44.权利要求43的方法,其中d-C4的每一个对于选定子序列独立地含有最多10个单氨基酸取代、缺失、插入或添加。45.权利要求44的方法,其中Q-C4的每一个对于选定子序列独立地含有从0到最多5个单氨基酸取代、缺失、插入或添加。46.权利要求42的方法,还包含进行步骤的循环,步骤的循环包括通过将第二混合物的温度增加到有效变性双链DNA的温度来使文库变性,然后进行步骤(iv)和(v)。47.权利要求46的方法,包括重复步骤的循环最多100次。48.权利要求42的方法,还包括通过聚合酶链反应扩增文库,该反应主要由文库、正向引物和反向引物组成,其中正向和反向引物能够与文库中所有核酸的5'和3'末端序列分别杂交。49.权利要求42的方法,其中在X,、X2或X3子序列的每个位置上待编码的氨基酸选自丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、甲硫氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸和缬氨酸的亚组。50.权利要求49的方法,其中选择用于每个单个氨基酸取代的氨基酸选自由至少一种脂肪族氨基酸、至少一种酸性氨基酸、至少一种中性氨基酸和至少一种芳香族氨基酸组成的氨基酸组。51.权利要求50的方法,其中氨基酸组由丙氨酸、天冬氨酸、丝氨酸和酪氨酸组成。52.产生权利要求2的文库的方法,包括(i)提供编码含有下列氨基酸序列的亲本多肽的亲本核酸d-XrC2-X2-C3-X3-C4,其中子序列d选自图2或图4,子序列。2选自图2或图4,子序列Q选自图2或图4,子序列C4选自图2或图4;CrC4的每一个对于选定子序列含有最多10个单氨基酸取代、缺失、插入或添加;并且XrX3的每一个是由2-20个氨基酸组成的独立的子序列;(ii)在对XpX2或X3子序列导入最多IO个单氨基酸取代、缺失、插入或添加的条件下复制亲本核酸,从而产生编码Xi'、X2'或X3,的随机变异的子序列群体;以及(iii)随机变异的子序列X,'、XZ或X3'的群体在对应于编码X"乂2或X3的位置上取代进入亲本核酸的群体。53.权利要求52的方法,其中至少一个XrX3子序列选自SEQIDNO:121-123。54.权利要求52的方法,其中Q-C4的每一个对于选定子序列独立地含有最多20个单氨基酸取代、缺失、插入或添加。55.权利要求54的方法,其中d-C4的每一个对于选定子序列独立地含有最多IO个单氨基酸取代、缺失、插入或添加。56.权利要求55的方法,其中d-Q的每一个对于选定子序列独立地含有最多5个单氨基酸取代、缺失、插入或添加。57.权利要求56的方法,其中Q-C4对于选定子序列都不含有氨基酸取代、缺失、插入或添加。58.权利要求52的方法,其中复制通过在每个Xp乂2或乂3中导入最多5个氨基酸取代,产生随机变异的子序列的异质群体。59.权利要求52的方法,还包括通过将文库导入生物复制系统并增殖生物复制系统来扩增文库。60.权利要求59的方法,其中生物复制系统是多种大肠杆菌细胞。61.权利要求59的方法,其中生物复制系统是多种噬菌体。62.权利要求52的方法,其中复制在体外发生。63.权利要求62的方法,其中复制使用纯化的诱变聚合酶来进行。64.权利要求62的方法,其中复制在核苷酸类似物的存在下进行。65.权利要求52的方法,其中复制发生在体内。66.权利要求65的方法,其中体内复制发生在大肠杆菌的诱变菌种中。67.产生权利要求2的文库的方法,包括(i)选择待编码的含有氨基酸序列d-XrCVXrQ-XrQ的氨基酸序列,其中(a)子序列Q选自图2或图4,子序列C2选自图2或图4,子序列C3选自图2或图4,和子序列Q选自图2或图4;(b)d-C4的每一个对于选定子序列含有最多10个单氨基酸取代、缺失、插入或添加;(c)XpX2和X3的每一个由长度为2-20个氨基酸的氨基酸序列组成;(ii)提供第一多种和第二多种寡核苷酸,其中(a)第一多种寡核苷酸编码Ct-C4子序列和多个异质的X「X3变异子序歹ljXi'-X3';(b)第二多种寡核苷酸与编码d-C4子序列的核苷酸序列和编码多个异质的X,'-X3'子序列的核苷酸序列互补;以及(C)第一和第二多种寡核苷酸具有彼此互补的交叠序列;(iii)将寡核苷酸群体合并以形成第一混合物;(iv)将混合物在使交叠的互补序列有效杂交以形成多个杂交互补序列的条件下孵育;以及(V)将多个杂交互补序列延伸以形成含有文库的第二混合物。68.权利要求67的方法,其中d-Q的每一个对于选定子序列独立地含有最多20个单氨基酸取代、缺失、插入或添加。69.权利要求68的方法,其中C广Q的每一个对于选定子序列独立地含有最多IO个单氨基酸取代、缺失、插入或添加。70.权利要求69的方法,其中Q-Q的每一个对于选定子序列独立地含有从O到最多5个单氨基酸取代、缺失、插入或添加。71.权利要求67的方法,还包含进行步骤的循环,步骤的循环包括通过将第二混合物的温度增加到有效变性双链DNA的温度来使文库变性,然后进行步骤(iv)和(v)。72.权利要求71的方法,包括重复步骤的循环最多IOO次。73.权利要求67的方法,还包括通过聚合酶链反应扩增文库,该反应主要由文库、正向引物和反向引物组成,其中正向和反向引物能够与文库中所有核酸的5'和3'末端序列分别杂交。74.权利要求67的方法,其中在XpX2或X3子序列的每个位置上待编码的氨基酸选自丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、甲硫氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸和缬氨酸的亚组。75.权利要求74的方法,其中选择用于每个单个氨基酸取代的氨基酸选自由至少一种脂肪族氨基酸、至少一种酸性氨基酸、至少一种中性氨基酸和至少一种芳香族氨基酸组成的氨基酸组。76.权利要求75的方法,其中氨基酸组由丙氨酸、天冬氨酸、丝氨酸和酪氨酸组成。77.产生权利要求3的文库的方法,包括(i)提供编码含有下列氨基酸序列的亲本多肽的亲本核酸Q-X,-C2-X2-C3-X3-C4,其中子序列C,选自图3或图5,子序列C2选自图3或图5,子序列C3选自图3或图5,子序列Q选自图3或图5;CVC4的每一个对于选定子序列含有最多10个单氨基酸取代、缺失、插入或添加;并且XpX3的每一个是由2-20个氨基酸组成的独立的子序列;(ii)在对XpX2或X3子序列导入最多IO个单氨基酸取代、缺失、插入或添加的条件下复制亲本核酸,从而产生编码X,'、X2'或X3,的随机变异的子序列群体;以及(m)随机变异的子序列X、X2'或X3'的群体在对应于编码Xj、x2或x3的位置上取代进入亲本核酸的群体。78.权利要求77的方法,其中至少一个XrX3子序列选自SEQIDNO:121-123。79.权利要求27的方法,其中Q-C4的每一个对于选定子序列独立地含有最多20个单氨基酸取代、缺失、插入或添加。80.权利要求79的方法,其中Q-C4的每一个对于选定子序列独立地含有最多IO个单氨基酸取代、缺失、插入或添加。81.权利要求80的方法,其中C,-Q的每一个对于选定子序列独立地含有最多5个单氨基酸取代、缺失、插入或添加。82.权利要求81的方法,其中d-Q对于选定子序列都不含有氨基酸取代、缺失、插入或添加。83.权利要求77的方法,其中复制通过在每个Xi、乂2或乂3中导入最多5个氨基酸取代,产生随机变异的子序列的异质群体。84.权利要求77的方法,还包括通过将文库导入生物复制系统并增殖生物复制系统来扩增文库。85.权利要求84的方法,其中生物复制系统是多种大肠杆菌细胞。86.权利要求84的方法,其中生物复制系统是多种噬菌体。87.权利要求77的方法,其中复制在体外发生。88.权利要求87的方法,其中复制使用纯化的诱变聚合酶来进行。89.权利要求87的方法,其中复制在核苷酸类似物的存在下进行。90.权利要求77的方法,其中复制发生在体内。91.权利要求90的方法,其中体内复制发生在大肠杆菌的诱变菌种中。92.产生权利要求3的文库的方法,包括(i)选择待编码的含有Q-XrC2-X2-C3-X3-C4的氨基酸序列,其中(a)子序列d选自图3或图5,子序列C2选自图3或图5,子序列C3选自图3或图5,以及子序列C4选自图3或图5;(b)CrC4的每一个对于选定子序列含有最多10个单氨基酸取代、缺失、插入或添加;(c)X"X2和X3的每一个由长度为2-20个氨基酸的氨基酸序列组成;(ii)提供第一多种和第二多种寡核苷酸,其中(a)第一多种寡核苷酸编码C,-Q子序列和多个异质的X,-X3变异子序列XW;(b)第二多种寡核苷酸与编码C,-C4子序列的核苷酸序列和编码多个异质的Xr-X3'子序列的核苷酸序列互补;以及(C)第一和第二多种寡核苷酸具有彼此互补的交叠序列;(iii)将寡核苷酸群体合并以形成第一混合物;(iv)将混合物在使交叠的互补序列有效杂交以形成多个杂交互补序列的条件下孵育;以及(v)将多个杂交互补序列延伸以形成含有文库的第二混合物。93.权利要求92的方法,其中Q-Q的每一个对于选定子序列独立地含有最多20个单氨基酸取代、缺失、插入或添加。94.权利要求93的方法,其中Q-C4的每一个对于选定子序列独立地含有最多IO个单氨基酸取代、缺失、插入或添加。95.权利要求94的方法,其中d-C4的每一个对于选定子序列独立地含有从O到最多5个单氨基酸取代、缺失、插入或添加。96.权利要求92的方法,还包含进行步骤的循环,循环包括通过将第二混合物的温度增加到有效变性双链DNA的温度来使文库变性,然后进行步骤(iv)和(v)。97.权利要求96的方法,包括重复循环最多IOO次。98.权利要求92的方法,还包括通过聚合酶链反应扩增文库,该反应主要由文库、正向引物和反向引物组成,其中正向和反向引物与文库中所有核酸的5'和3'末端序列分别杂交。99.权利要求92的方法,其中在X,、X2或X3子序列的每个位置上待编码的氨基酸选自丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、甲硫氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸和缬氨酸的亚组。100.权利要求99中的方法,其中选择用于每个单个氨基酸取代的氨基酸选自由至少一种脂肪族氨基酸、至少一种酸性氨基酸、至少一种中性氨基酸和至少一种芳香族氨基酸组成的氨基酸组。101.权利要求100的方法,其中氨基酸组由丙氨酸、天冬氨酸、丝氨酸和酪氨酸组成。102.编码至少IO种不同多肽的核酸的文库,其中(i)每个编码的多肽的氨基酸序列含有与SEQIDNO:127-129的任何一个具有至少70%同一性的氨基酸序列;(ii)每个编码的多肽的氨基酸序列在位置14、15、33、35-36、38、47-48、66、68-69、71、80、81、99、101-102和104上包含与SEQIDNO:127-129不同的氨基酸,并且氨基酸的差异在多种编码的多肽中是异质的;以及(iii)每个编码的多肽的氨基酸序列在对应于SEQIDNO:127-129的位置14、15、33、35-36、38、47-48、66、68-69、71、80、81、99、101-102和104的残基之外,在多种编码的多肽中是同质的。103.权利要求102的文库,其中多肽的氨基酸序列与SEQIDNO127-129的任何一个具有至少75%的同一性。104.权利要求102的文库,其中多肽的氨基酸序列与SEQIDNO127-129中的任何一个具有至少80%的同一性。105.权利要求102的文库,其中的多肽的氨基酸序列与SEQIDNO127-129中的任何一个具有至少85%的同一性。106.权利要求102的文库,其中每个核酸含有载体序列。107.编码多肽的分离核酸,其选自权利要求102-106任一项的文库。108.纯化的多肽,其由权利要求107的核酸编码。109.细胞的群体,其表达权利要求102的文库所编码的多肽。110.细胞,其选自权利要求109的细胞群体。111.多肽的纯化文库,其由权利要求102的文库编码。112.丝状噬菌体的群体,其展示由权利要求102的文库编码的多肽文库。113.产生权利要求102的文库的方法,包括(i)选择待编码的对应于SEQIDNO:127-129的任何一个的氨基酸序列,其中选择的序列与SEQIDNO:127-129的序列在至少一个可变位置14、15、33、35-36、38、47-48、66、68-69、71、80、81、99、101-102和104上不同;(ii)化学提供第一和第二多种寡核苷酸,其中(a)第一多种寡核苷酸编码选定的氨基酸序列的氨基酸子序列,该子序列在编码的可变位置上是异质的;(b)第二多种寡核苷酸与编码选定氨基酸序列的子序列的核苷酸序列互补,该子序列在编码的可变位置上是异质的;以及(C)第一和第二多种包含具有彼此互补的交叠序列的寡核苷酸;(m)将寡核苷酸群体合并以形成第一混合物;(iv)将混合物在使交叠的互补序列有效杂交以形成多个杂交互补序列的条件下孵育;以及(V)将多个杂交互补序列延伸以形成含有文库的第二混合物。114.权利要求113的方法,还包含通过将第二混合物的温度增加到有效变性双链DNA的温度来使文库变性、然后进行步骤(iv)和(v)的循环。115.权利要求114的方法,包括重复循环最多100次。116.权利要求115的方法,还包括通过聚合酶链反应扩增文库,该反应主要由文库、正向引物和反向引物组成,其中正向和反向引物与文库中的所有核酸的5'和3'末端序列分别杂交。117.权利要求113的方法,其中为可变位置而待编码的氨基酸选自丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、甲硫氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸和缬氨酸的亚组。118.权利要求117的方法,其中选择用于可变位置的氨基酸选自由脂肪族、酸性、中性和芳香族氨基酸组成的组。119.权利要求118的方法,其中氨基酸的组由丙氨酸、天冬氨酸、丝氨酸和酪氨酸组成。全文摘要本发明提供了基于植物支架多肽序列的嵌合结合多肽的编码核酸的文库。也说明了产生文库的方法。文档编号C12Q1/68GK101495653SQ200780013127公开日2009年7月29日申请日期2007年2月13日优先权日2006年2月13日发明者珍妮弗·琼斯申请人:达沃股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1