选择适配体的方法

文档序号:524986阅读:1190来源:国知局
专利名称:选择适配体的方法
技术领域
本发明涉及适配体(aptamer)领域。具体地,本发明涉及产生适配体文库和用于蛋白质组学的蛋白质-特异性适配体的方法,如蛋白质生物标志物鉴定。
背景技术
适配体是短的聚合物,通常为核酸(DNA、RNA、PNA),其形成明确的三维形状,使它们可以结合靶分子,其结合方式在概念上与抗体相似。适配体组合了小分子和抗体的最优性质,包括高特异性和亲和性、化学稳定性、低免疫原性,和靶向蛋白质-蛋白质相互作用的能力。除了高特异性之外,适配体与它们的靶物之间具有非常高的亲和性。通常,针对蛋白质产生的适配体在皮摩尔至低纳摩尔范围内有亲和性。与单克隆抗体相反,适配体由化学合成,而不是生物表达,提供显著的成本优势(8,9)。适配体通常通过称为“通过指数富集的配体系统进化(Systematic Evolution of Ligands by Exponential enrichment) ”(SELEX)的体外进化过程产生,所述过程在美国申请 No. 07/536, 428、美国专利 No. 5,475,096 和美国专利 No. 5,270, 163 中描述。SELEX 过程包括从候选寡核苷酸的混合物选择,和结合、区分与扩增的逐步迭代(iteration),使用同样常用的选择方案进行,以实际上实现任何期望标准的结合亲和性和选择性。从核酸混合物开始,优选包括随机化序列的区段,SELEX过程包括下述步骤在有利于结合的条件下用混合物接触靶物,从已经与靶分子特异性结合的那些核酸中区分出未结合核酸,离解核酸-靶物复合物,扩增从核酸-靶物复合物离解的核酸以获得富含配体的核酸混合物,然后重复结合、区分、离解和扩增的步骤,按需要进行多次循环,从而获得仅对靶物分子具有最高结合亲和性的序列。候选寡核苷酸可以包括序列中固定或已知的基序。如果使用完全随机的序列,候选群体中选择性适配体的发现将完全依赖于机遇。实际上,寡核苷酸序列越随机,必须依赖于序列对于研究中靶物的选择性的可能性就越大(11,12,13)。对于最基本的形式,SELEX过程可以通过下述系列步骤限定1)制备不同序列的核酸的候选混合物。候选混合物通常包括固定序列的区域 (即,每个候选混合物的成员在相同位置包含相同序列)和随机化序列的区域。选择固定序列区域以(a)辅助下述扩增步骤,(b)模拟已知可结合靶物的序列,或(c)增加候选混合物中核酸的指定结构排列的浓度。随机化序列可以是全部随机化的(即,在任何位置找到某个碱基的可能性是四分之一)或者仅是部分随机化的(例如,可以选择在任何位置找到某个碱基的可能性为0-100%的任何水平)。2)在有利于于靶物和候选混合物成员之间结合的条件下将候选混合物与选择的靶物接触。在这种环境中,靶物和候选混合物的核酸之间的相互作用可以认为是在靶物和对于靶物具有最强亲和性的那些核酸之间形成核酸-靶物对。
3)将对于靶物具有最高亲和性的核酸从那些对于靶物具有较低亲和性的核酸中区分出来。因为在候选混合物中只存在极少量对应于最高亲和性核酸的序列(并且可能只有一个分子的核酸),所以通常理想的是设定区分标准,使区分过程中保留候选混合物中大量的核酸(约5-50% )。4)然后扩增在区分过程中由于对靶物具有相对较高亲和性而选择的那些核酸,以产生新的候选混合物,其富含对于靶物具有相对较高亲和性的核酸。5)通过重复上面的区分和扩增步骤,新形成的候选混合物包含的弱结合序列越来越少,并且核酸与靶物的平均亲和性程度将逐渐增加。考虑极端情况,SELEX过程将产生包含一个或少量唯一核酸的候选混合物,所述核酸代表来自对靶物分子具有最高亲和性的原始候选混合物的那些核酸(11,13)。在产生适配体文库时一个主要的问题是可能的搜索空间的绝对尺度(sheer size)。例如,可以有上百或上千的可能的寡核苷酸序列,其可以对于单个蛋白质具有选择性和特异性,但是人们从何处开始寻找最佳序列呢?术语“搜索空间”涵盖聚合单元(如核苷酸)能发生在指定长度的适配体分子中所有可能的或容许的变型。因为在任一次只能研究有限数目的序列,所以候选文库可以仅抽样指定长度的可能核苷酸序列的可能搜索空间的一部分。例如,有包含四个碱基单位(DNA/ RNA的核苷酸)的IOm个可能的40聚物。因此,来自生物样品的通常蛋白质空间的适配体搜索空间(对于40聚物核酸),假定这包含一万个不同的蛋白质,以 102° 1(+/-10倍因子)的适配体候选聚合物与蛋白质的比例存在。对于60聚物为IO32 1。即使只有101° 分之一的序列强“适配”,仍然留有针对待研究蛋白质的 1的适配体,以找到一个强适配序列。然而,对于任何指定的蛋白质,可能有大量的品质各异的适配体。因此SELEX依赖于合适的序列存在于所研究的初始候选混合物中的机会。然后方法指数性收敛于所选混合物中可用的最佳解上。在候选文库的设计过程中,可以利用潜在合适序列的一些在先知识, 例如给序列赋予特定的2D或3D结构的序列,以确保过程不完全由机会决定。即便如此, SELEX提供的解极不可能提供问题的最佳解,即针对具体蛋白质的最佳适配体。因此,SELEX过程倾向于使用单个表达和分离的蛋白质靶物,其经得起结合选择, 并且可以通过几轮朝收敛于小适配体集合或单个适配体的扩增而摸索进行。过程通过指数和迭代选择而从指定序列集合中发现针对分离的蛋白质的“最佳”适配体。在当前已发表的方案中,使用经常只有lxl(T2°的潜在序列搜索空间(8),尽管可以理解的是,某些碱基序列基序作为适配体的可能性远大于其它序列。尽管如此,目前的适配体搜索不可能从汇集物(pool)中找到全局性最适适配子。而且,搜索的结果非常依赖于初始汇集物的多样性。 在大多数目前的SELEX方案中,适配体必须在候选适配体的初始搜索汇集物中。还极可能的是,考虑到目前为止进行的小搜索,而在全部适配体空间中,每个蛋白质都可能具有广谱的可能的适配体。因为SELEX方案是指数性的,并且因为推定的适配体通常必须存在于初始文库中,所以SELEX难于选择同时针对多个蛋白质靶物的适配体,或者针对掩盖在其它蛋白质的背景中的一个蛋白质靶物的适配体。SELEX也不能如通常文献中目前所要求的筛选全部IO15个候选适配体序列。这是因为通常在商品DNA/RNA合成仪上进行的文库合成, 不能将质量控制在验证文库多样性所需的水平。还极可能的是,文库中的一些适配体退火
5(粘附)至其它序列上,由于合成过程中的偏差,一些适配体在化学计量上不能充分代表群体。很多适配体将折叠成三级结构的分布,一些有活性,其它的没有活性。由于其相对稀释度,很多将简单地永远不会再有机会与靶物蛋白质结合。因此事实上不可能针对蛋白质筛选IO15个候选的适配体,而且因此搜索甚至比认为的更局限,并且依赖于产生随机序列的设备的程序编制。已经描述了 SELEX方案上的一些变化,尝试通过向进化适配体中引入随机变化而避开这些局限(7)。从另一种方式来看,SELEX本质上是计算机演算法的物理体外实施方案。演算法是一种近似方法,用于帮助解决“足够好”的答案就已足够的问题。在本文这种情况下,问题是从过大而难于搜索的有限搜索空间中找到最佳解。演算法是计算机方法,其使用试错法接近计算难题的解。从另一种方式来说,演算方法或过程首先仅以在一些目标背景中解决问题的近似方法开始,然后使用来自解的效果的反馈改进其自身性能,并因此朝更好的解移动。SELEX针对靶物程序对随机产生的候选适配体序列进行基本搜索,根据其在测定法中的存活率评价每个候选序列得到的结果是否成功,然后在另一轮重新选择前扩增存活序列。最后,来自初始文库的最强的候选序列,即那些以最高的亲和性结合靶物蛋白质的序列,在程序的随后轮次中变得更加富集。因此SELEX过程是在计算机过程的实验室中进行的,以发现对待研究蛋白质具有最高结合亲和性的聚合物(或核酸)。如果适配体和蛋白质的所有物理化学性质,和其行为的原因已知,那么SELEX程序可以完全而确定地进行计算机建模。过程可以用不够完美的知识近似化(17)。已经发表了更明确地使用生物分子解决计算机问题的其它实例(1,2,3,4,5)。本发明人已经了解,为了解决本问题并改善SELEX提供的搜索能力和解,需要智能方法来搜索适配体搜索空间,并找到最优解来解决由蛋白质组中存在的大量蛋白质和针对每个蛋白的极大量可能的候选适配体而呈现出来的问题的规模。已经用计算机清楚描述了作为搜索具有大量可能解的复杂问题的答案的手段的候选解群体的进化生长(14,15,16),并且最佳地概括在所谓的遗传算法中,这是特定类型的进化搜索演算法。遗传算法是基于自然选择和自然遗传的机制的搜索算法复制、突变、 重组、自然选择和适者生存。它们将在编码的候选解代表例如串结构中的适者生存,与结构化但随机化的信息交换相组合。这使人们可以用人类搜索的一些创新的鉴别力(flair) 来形成搜索算法。待研究的最优化问题的候选解起到群中人工生物(个体)的作用。然后在重复应用上述运算符突变、交换复制和选择之后,发生群的进化。在每一代中,使用字节(bit)和旧的或先前群中最适的部分(pieces),产生新的人工生物集合(字串或二元编码)。对临时产生的新部分进行尝试,看是否获得好的量度。遗传算法有效地利用了历史信息,推断具有期望的性能改善的新搜索点(14)。在这些方案中,编码了搜索问题,每个可能的解用数字或字母的链、序列或串表示。这种编码仅是为了便于进行演算法。经常用类比将这些数字或字母的链、序列或串描述为“基因组”。因此每个人工个体解具有自己的基因组。虽然产生了大的候选解初始群体 (基因组),但是群体只代表能穷尽编码的可能的候选解总数中非常小的部分。这些演算法通常配置于从搜索空间寻求近似答案,所述搜索空间过大,难于穷尽搜索。将“适合性函数” 或“目标函数”f用于每个可能的解s或候选群的成员。这个函数是对个体解与最优解性质接近程度的评价。f(S)值高暗示S是好解。
通常地,随机产生的候选解s的初始群体包括第一代。将适合性函数f应用于候选解和任何随后的后代中。在选择中,用朝向更高适合性的偏差选择下一代s的父母。只有 “适合的”个体,如通过适合性函数f和应用截止点(例如上四分位数(upper quartile)) 所测定的,被选择进入第二轮突变(其基因组的随机改变)并与其它高分值个体交换它们的“基因组”的部分(重组或复制)。用于此的方法需要其“基因组”单元的算法从一种可能性变为另一种,并且需要产生任何两个适合的基因组之间的随机点产生基因组的前缀和后缀组合。因此,除了原始的父母解,还产生第二代子解。将此更详细地表述为,父母通过拷贝用重组和/或突变而复制。复制是个体候选物或串根据其适合性函数f而拷贝的过程。这表示具有更高适合性值的候选物具有更高的将一个或多个后代分布到下一代的可能性,并且它们的一些内部编码性质将转移给它们的后代。这种运算符,f,是自然选择(达尔文的适者生存)在候选物中的人工版本。一旦选择了候选物用于复制,就制备候选物的确切的复制品。这个候选物然后进入交配汇集物,其为暂时的新群,用于进一步的通用运算符作用。重组作用于两个选择的亲代(候选物),并且得到一个或两个子代(新候选序列)。复制后,通过两个步骤可进行简单的交换。首先,新候选物的成员或交配汇集物中的子代随机交配。第二,每对新的候选物进行交换以产生另外两个新的候选物。在一个候选物上进行突变并产生新的候选物。需要突变是因为,即使复制和交换可有效地搜索并重组现有概念,但是有时会变得过于强烈而丢失了一些潜在的有用遗传材料。在人工系统中,突变运算符可以进行保护,不发生如此不可挽回的损失。因此,突变是对于重要概念过早损失的保险策略。总之,这些运算符产生后代(新的候选物集合),并得到一些任意群体尺度的、多样但相似的个体候选物解(基因组)的新集合。评估这种新集合的适合性,保留最佳解以复制并再次突变。这些新候选物与旧候选物竞争在下一代中的位置(适者生存)。进行这样的过程,直至群体的集体适合性达到稳定的平台阶段。这经常意味着有几个个体是搜索的合理解,并且它们经常具有一些共同的性质。因此候选解的群体,它们本身经过编码,能朝满足指定的“适合”标准的解集收敛。得到的个体的群体在组成上可与初始群体的共同之处很少。这样迭代的次数和考虑到达稳定和高适合性候选解群体所需概率的次数相对较小,并且远小于穷尽式搜索。

发明内容
因此,遗传算法允许迭代搜索问题的解或解集,所述问题所处空间过大,难于一次搜索完全。待解决的问题首先在候选解的集合中编码,并且对每个可能的解应用适合性函数。然后可以鉴定最佳解。然后演算法产生多样但相似的“子代”群,其带有其亲代的性质。然后重新应用适合性问题并重复过程。因此,考虑到最佳解依赖于适合性函数的稳健性(robustness),人们首先从解的随机近似开始进行搜索,并且算法允许群朝解的最优集合移动。虽然对于指定的问题可以有几个同样好的解,但是遗传算法的长处(strength)在于,在正确的条件下,这些算法易于找到一些或全部的这些同样好的解。考虑到这点,本发明包括SELEX的改进。用另一种方式表述为,本发明涉及应用计算机演算法改善SELEX。为此,本发明包括遗传算法的物理实施方案。事实上,在一个方
7面,本发明包括使用遗传算法范例(paradigm)在候选适配体序列的设计中指导聚合序列进化。用另一种方式看,本发明包括鉴定针对至少一个靶分子的一个或多个适配体的方法,方法包括SELEX并且特征在于该方法进一步包括使用候选适配体序列的适合性指导序列朝每个靶分子的最适序列方向进化。具体地,本发明包括用于鉴定针对至少一个靶分子的一个或多个适配体的方法, 方法包括a)选择可以结合靶分子的候选适配体序列;b)为结合序列分配每个序列的适配潜力的量度(适合性函数);c)通过随机或定向改变成一些或全部序列而进行进化,产生候选序列的新混合物;和d)用新产生的候选适配体汇集物重复步骤a)至C),直至候选汇集物的集合适配潜力到达平台,其中存在于最终汇集物中的序列是靶分子的最优适配体。更具体地,方法包括a)用候选聚合物序列的汇集物接触至少一个靶分子;b)从那些已特异性与靶物分子结合的序列中区分出未结合序列;C)离解序列-靶物复合物,获得富含配体的序列混合物;d)为步骤C)中获得的每个序列分配序列适配潜力的量度(适合性函数);e)使用步骤d)的量度确定富含配体的混合物的适配潜力;f)使用步骤e)中获得的信息,允许步骤C)中获得的一些或全部序列进化,以产生新的序列混合物;和g)用新产生的候选适配体汇集物重复步骤a)至f),直至候选汇集物的集合适配潜力到达平台,其中最终汇集物中存在的序列是针对至少一个靶分子的最优适配体。本发明具体地涉及如下方面1.用于鉴定针对至少一个靶分子的一个或多个适配体的方法,所述方法包括a)用至少一个靶分子接触候选聚合物序列的汇集物;b)从已特异性结合至靶分子的那些序列中区分出未结合序列;c)离解序列-靶物复合物,以获得富含配体的序列混合物;d)为步骤C)中获得的每个序列分配该序列的适配体潜力的量度(适合性函数);e)使用步骤d)的量度以确定所述富含配体的混合物的适配潜力;f)使用步骤e)中获得的信息,允许步骤C)中获得的一些或全部序列发生进化,以产生序列的新混合物;和g)用新产生的候选适配体汇集物重复步骤a)至f),直至候选物汇集物的合计适配潜力达到平台,其中最终汇集物中存在的序列是所述至少一个靶分子的最优适配体。2.根据项1的方法,其中所述至少一个靶分子是蛋白质。3.根据项2的方法,其中所述至少一个靶分子是单个分离的蛋白。4.根据项1、项2或项3的方法,其中所述一个或每个靶分子的身份已知。5.根据项2或项4的方法,其中在蛋白质混合物中研究多个蛋白质。6.根据项5的方法,其中所述至少一个蛋白质是存在于蛋白质混合物中的已知蛋白质。7.根据项5或项6的方法,其中所述蛋白质混合物源自生物样品。8.根据项7的方法,其中所述生物样品是体液。9.根据项8的方法,其中所述体液是血液或者来自血液。10.根据项9的方法,其中所述体液是血清或血浆。11.根据项1至10中任一项的方法,其中所述聚合物序列是多核苷酸。12.根据项11的方法,其中所述多核苷酸序列是DNA、RNA、PNA(肽核酸),或者它们的变体或组合。13.根据项1至12中任一项的方法,其中所述聚合物为30聚物-60聚物。14.根据项13的方法,其中所述聚合物为40聚物。15.根据项1至14中任一项的方法,其中通过将富含配体的混合物中候选序列定量而测量适配潜力。16.根据项15的方法,其中通过对每个候选序列的至少部分测序而进行定量。17.根据项16的方法,其中在单分子阵列或克隆性单分子阵列上进行测序。18.根据项1至17中任一项的方法,所述方法进一步包括将所述富含配体的混合物中的序列在步骤d)前排布在表面上。19.根据项18的方法,其中所述方法进一步包括扩增已排布的序列。20.根据项1至19中任一项的方法,其中所述适配潜力的量度进一步包括一个或多个测量的、计算的或生物信息学的性质。21.根据项20的方法,其中所述生物信息学的性质包括二级结构预测、三级结构预测、自相似性、信息复杂度、与已知适配体序列的相似性、序列基序或它们的组合。22.根据项1至21中任一项的方法,其中将在与研究中的候选序列群体比较时具有统计学显著性的适配潜力的富含配体序列从步骤d)和e)推进到步骤f)。23.根据项1至21中任一项的方法,其中将具有落入平均或较高百分位范围内的适配潜力的富含配体序列从步骤d)和e)推进到步骤f)。24.根据项1至23中任一项的方法,其中从候选汇集物去除具有统计学不显著的适配潜力的富含配体序列。25.根据项1至M中任一项的方法,其中从候选汇集物洗脱并弃去非结合的候选序列。26.根据项1至25中任一项的方法,其中所述方法进一步包括从候选汇集物去除数量占优的序列。27.根据项1至沈中任一项的方法,其中所述方法进一步包括获得最终汇集物中存在的候选适配体的全长序列。28.根据项1至27中任一项的方法,其中使用具有高适配潜力的序列或者源自这些序列的基序,设计新的候选适配体汇集物。29.根据项1至观中任一项的方法,其中使用具有高适配潜力的序列和/或基序影响显示高适配潜力的序列的随机变化和/或重组。30.根据项1至四中任一项的方法,其中所述方法进一步包括修饰候选序列以增加稳定性和/或结合潜力。
发明详述因此,本发明的方法允许鉴定靶物的选择性适配体,事实上基本是最佳适配体。 适配体本身的候选多核苷酸序列代表搜索空间中的可能解,搜索空间是所有可能的适配体(并且隐含它们的序列)。序列进化的使用允许可能解的群体朝最优解的方向移动。因此,最终汇集物中的序列无需,并且事实上,极不可能存在于初始搜索汇集物中。此外,通过允许汇集物中候选物的进化,与SELEX相比,获得最佳解(适配体)的成功机会更高,因为 SELEX研究的是可能解的固定群体。术语进化包括选择过程的迭代之间的序列的复制、重组、交换和突变。进化可以是随机的、经过设计的或它们的组合。应该注意的是,因为区分一个多核苷酸适配体与另一个的唯一一点是其序列,因此适配体的性质必须在其序列中编码。适配潜力的分配是通过对每个序列特异性的一个或多个测量或计算性质而进行的。例如,适配潜力可以基于序列在富含配体的混合物中的丰度,与前面的迭代或对照相比较的相对丰度。定量可以与适配潜力的其它量度组合。这些量度通常来自序列本身和序列所赋予的性质,如二级或三级结构预测、疏水性、与已知适配体的相似性等。数学上组合或集合这些量度的复合量度也是合适的。某些常用序列基序的潜力也可以用于估计序列的适配潜力。根据其测量的统计学或序列性质(或其它)而确定候选序列的相对或绝对适配潜力的方法称作“适合性函数”。这与进化搜索演算法领域中技术人员的标准术语一致(14)。 也存在其它术语表示相同的概念,如“目标函数”。以非技术的方式表述,这是候选适配体潜力的目标量度,通常是数值分数(numerical score) 0本发明的特点是允许高度适配的个体进行小的、随机的组成改变,如序列的单一变化,和序列的交换重组,从而产生更强候选适配体序列的新汇集物。允许序列进化的显著优势是允许产生初始候选汇集物中可能不存在的序列和基序,因此增强鉴定靶蛋白最适适配体的可能性。方法的另一个显著优势是它只是“最适”候选物,其允许彼此重组并进行突变,因此产生推定更适合的新适配体序列的子代群体。本发明的方案和SELEX的根本区别是SELEX不容易在待研究的序列中引入突变或变化。事实上,突变发生的唯一方法是在由PCR扩增已结合序列时的扩增步骤中出现事故。 然而,这样的突变可能太罕见而不能影响过程,即待研究序列群体的总体组成。而且,SELEX 不能使或者允许适配体种类之间的序列重组或交换,也称作“重组或复制”,也不能使或者允许理性介入而改变适配体序列。此外,SELEX方案不允许评估序列,例如它们作为适配体的“适合性”,和在各选择轮次之间理性操作。理性介入的实例可以是确保在任何迭代时的所有适配体序列都包含特定的序列基序。在突变和重组之后可能不是这样的情况。因此理性介入可以作为过滤器或对随机性的限制。重要的是,这可以提高选择过程的效率,因为它使例如已知蛋白结合基序的在先知识建构于待研究群体中并得以保持。这使人可以在未完全确定其结果的情况下指导并限制进化。在进一步的实例中,通过监测序列汇集物在每次迭代时的多样性,可以促使群体平行地找到针对几个蛋白质的几个解(适配体)。这可以通过鉴定、监测和指导整个群体中不同序列的几个子群的进化而完成。这对于SELEX是不可能的,因为不同于所提出的发
10明,SELEX不允许将过程的每次迭代时的已结合适配体定量,也不使用这个信息来产生干扰并以正面影响总体结果的方式确定适配体汇集物各次迭代之间的每个序列。所谓的“下一代”多核苷酸测序技术要求将DNA或RNA的个体分子或其它多核苷酸序列分离到表面如珠或芯片上,从而产生序列的单分子阵列。阵列的表面密度使每个分子都可以单独解析,例如通过光学显微镜。多核苷酸分子在阵列上的测序允许对序列进行 “数字”即绝对计数,并且因此,指导阵列上存在的序列的定量。在一些技术中,一旦经过排布而使来自每个序列的信号增强和/或清晰,就可以克隆性(clonal)扩增序列。尽管如此, 通过计数阵列上序列的出现次数而不是由每个扩增子产生的信号而获得定量。合适的测序和定量技术的实例可以在公开文献如WO 00/006770和Branton等Ql)中找到。在所提出的发明中,通过使用大量并行DNA测序如“第二代”、“下一代”或“第三代”DNA测序仪中实施的那些技术,可实现对候选适配体序列的操作。大量并行测序的使用允许平行定量并测序富含配体的候选适配体,从而同时提供有关来自它们的丰度的适合性量度和源自它们的序列的其它适合性量度的信息。应了解的是,如果给出大量并行测序仪的性能,那么这种方案将显著减少实验时间和在所提出的方案下发现适配体的成本。因此,理性介入(或人指导)的另一个实例是,已经检验并计数待研究的适配体序列,注意到测序仪本身效率的缺陷是对某些序列的代表性不够。这可以通过使之后群体的组成具有偏好性而弥补。因此,在优选的实施方案中,通过将步骤C)中获得的每个序列定量而测定适配潜力。理想地,使用序列的单分子阵列或相似设备进行定量,所述设备能以大量并行的方式测序并计数单个分子。具体地,进行足以鉴定阵列上每个序列的测序或部分测序,连同每个序列的计数,以实现定量。或者,序列可以在克隆性阵列上定量,其中将每个序列排布在表面上之后进行扩增。用这种方式,可以计数阵列上的主要适合性量度,代表指定候选适配体序列在待研究群体中的频率。一旦获得了主要适合性,源自每个候选适配体的核苷酸序列或分子组成和在定量过程中获得的生物信息数据,如相似基序或二级结构,可另外用于深度探讨富含配体的序列并进一步获得适合性标准。这些计算的但依赖于组成的性质随后可通过将它们建构于其中、使它们具有偏好或消除它们而用于下一轮候选适配体文库的进化产生中。本发明利用目前可用的技术的能力以大量并行方式分离和定量个体序列并使灵敏度低至单分子。它还允许对序列的复杂和多样的群体进行研究。在针对单个蛋白筛选时, 发现在已结合部分更丰富的候选适配体序列将比只结合一个拷贝的序列适合性更高,因为方法搜索的是粘附(结合)于待研究蛋白的候选适配体序列。这是定义适配体的主要性质。 在针对蛋白质的复杂混合物筛选时,鉴定适配子需要源自定量过程的其它统计学性质。大量并行测序的优势是允许计数每个序列并由此定量。这与例如抗体测定法相反,在抗体测定法中分辨率不可能如此之高。因此,可以使用适配子和其它测量、计算或由它们的序列产生的历史统计,并组合成“适合性函数”。这使得可以在分子水平物理进行比SELEX实施的更为复杂和更成功的进化搜索演算法。在计算域中具备如此复杂的演算法,它本身能衍生这样的“适合性函数”并用于改善待研究重要分子群体随后的迭代,而不是给出的“适合性”量度本身的细节。应了解的是,本发明将允许进行很多探索研究,从而允许了解适配体的最优常见“适合性”性质或者得到背景特异性“适合性”量度,例如对于某些类型的蛋白质。因为建立了关于候选序列和基序的信息,所以可以在后面的候选汇集物或新汇集物中嵌入具体特点的知识,用于鉴定针对相关或相似蛋白质的适配体。同样地,发现无效的序列和基序可以肯定地从候选汇集物中排除。而且,如果需要对于不同的蛋白质具有选择性的适配体,则可以肯定地从候选汇集物排除针对已知蛋白质的已知适配体序列。这可以帮助确保发现的适配体更有可能对于这个蛋白质有特异性,这是有用的适配体的主要要求。或者,如果选择提供针对特定家族蛋白质的选择性和特异性的序列和/或基序,那么可以将这些序列和/或基序嵌入在候选适配体汇集物中,然后使用所述适配体汇集物鉴定对于这些蛋白质亚型具有选择性的适配体。所有这些优势都是通过具适配体序列的知识、它们的相对“适合性”,以及源自它们的序列或在选择性方案下它们的定量行为的其它可计算性质而驱动的。遗传算法使用的算法编码方案反映本发明的实际组成本质。这些算法通过进行重复改变的字母或数字(或字节)的类比,如交换重组和选择/扩增,将搜索问题编码入“基因组”,尽管是在计算机的存储器中进行。按照本发明,使用待研究的实际分子进行这些过程。分子,在这种情况下是多核苷酸序列,本身将可能的解编码到搜索中,并评估它们的性质,如对于蛋白质的粘附性(由定量证明),其还编码进它们的序列中,从而驱动方法(15)。 因此,本发明是遗传算法的物理实施方案。这可以通过使用大量并行DNA/RNA测序以及适配体可为其适配性质编码入它们的序列中的分离的聚合分子的事实而进行。更清楚地,使用大量并行测序使得可执行优化的半理性/半随机进化搜索策略, 用于鉴定对于蛋白质靶物或多个蛋白质靶物具有特异性的适配体。例如,可以优先选择已显示对与待研究蛋白质相似的蛋白质有效的已知序列基序,作为初始文库产生和适合性选择的一部分。用这种方法,过程内在并有利地朝高质量或“适合”解的方向偏移,所述解包含这些基序,这些基序也可以是任何解所必备的。然而,文库产生和随后基序的突变改变中足够的随机性可以用于确保发现与待研究蛋白质结合的新的但相似的序列。可以设计适合性函数,使得可以选择与已经发现与先前的蛋白相似但足够不同的序列,确保选择合适适配体的成功和特异性。这还可以促进针对很多蛋白质的敏感和特异性适配体的目录随时间的积累。针对一个蛋白而不是另一个进行操作的不同适配体的这样的“不重叠”亚群可以随后同时用于平行地探寻和测量几个蛋白质。因为大量并行测序允许多重化,所以可以产生针对多于一个蛋白质的适配体文库并同时筛选。相似地,本发明允许平行地针对单个或多个蛋白质靶物选择很多高质量但不同的适配体(在序列水平)。此外,因为大量并行测序可以将每种序列种类定量,并且每种物质能代表单个蛋白质,所以本文所提出的方法使用基因组学延伸蛋白质组学的力量和动力学范围。在本发明的特定实施方案中,筛选经过设计的、随机的或半设计序列的多样文库, 并针对源自生物材料例如血清或血浆的折叠蛋白质体外集合进行选择。应了解的是,序列文库可以通过任何方法产生。除去或洗脱不结合蛋白质的序列。为此,多种已知的选项是可用的。例如,单个蛋白质或复合蛋白样品可以固定化在固体支撑体上。可以进行严紧洗涤,去除未结合和结合
12较弱的序列。另一个选择是使用蛋白质靶物上序列(光适配体)的可逆交联。从蛋白质宿主去除剩余的已结合序列,并操作大量并行测序仪,在其中测序并计数。作为大量并行测序的具体实例,将已结合序列随机排布在表面如磁珠或芯片上。 任选地循环扩增序列,在表面或个体磁珠上以离散的X和y坐标得到克隆性单链分子的组。 然后合适的DNA测序仪进行逐步化学处理,其由允许每个循环确定每个互补序列上的一个碱基或者监控碱基实时并入的试剂组成。照明和成像系统使这个过程可以照相,从而可获得初始候选物的序列。不管测序技术的细节如何,建立反映每个已结合候选序列的互补序列。通常这些技术能以多至75个碱基对的长度测序超出4000万-3亿DNA片段,并且随着技术的进步,这些数字正在迅速增长。这个过程目前从样品制备到测序结果输出需要少于 1至3天,并且这些时间尺度正在缩短。应了解的是,可以使用落入“下一代多核苷酸测序”范畴内的其它大量并行方法, 并且本发明不限于所提供的具体实例。“下一代多核苷酸测序”是通常用于描述2004年以来出现的DNA/RNA测序平台的术语。2008年以来,具有改进性质的另一代测序平台现在称作“第三代”。它们共有的性质是它们使用来自旧技术的不同测序化学,其基于“Sanger”测序。新平台使用新的化学,并且通常通量非常高,成本则低得多。这已经通过使测序反应以非常高的程度并行化的能力而实现。新平台通常,但不是唯一地,通过合成或链延伸(建立)而进行,不像Sanger方法,其通过切掉碱基(降解)而工作。此外,新平台针对少量单个或克隆性分子操作,不像Sanger方法,其DNA测序仪分子与碱基测定的比例非常高。还应了解的是,尽管参照DNA测序,但是也可以使用用RNA或PNA (肽核酸)的DNA 测序技术。因此,参照下一代测序仪或测序包括DNA、RNA和PNA,以及所有基于核酸的聚合物的其它化学变体和适用于本发明的方法中的类似物。所有新测序技术,无论是“下一代” 还是“第三代”,都能以大量并行和高效的方式对个体分子或它们的克隆性拷贝测序。使用“序列计数”,即定量复杂生物样品(如miRNA)中序列的绝对或相对丰度,已经建立成熟,并且针对这些下一代或大量并行平台进行了描述(18)。在有效的大量并行测序平台上,与初始候选物互补的衍生序列应高度精确,并且包括很少的显著系统化序列背景偏差(如果有的话),如不能解析均聚物和回文序列或其它包含强结构元件的基序。在一些平台上,这已经通过将大的复杂基因组(包含这些基序)重新测序而建立。本发明的方法可以在单个分离蛋白上进行。或者,方法可以在已知存在于蛋白质混合物中的单个蛋白上进行。然而,遗传算法的一个长处是可以从更大的群体进化得到子群。这通过以不同的标准亚选择而实现。因此,在进一步的可选方案中,方法还允许同时研究混合物中的很多蛋白。这可以通过使用下一代DNA测序技术而实现,因为这种技术允许多重化。在针对多个蛋白搜索候选适配体时,可以监控候选物不同群体的出现。然后将序列群组合并在本发明中常用的方案下并行发展。例如,可以针对单个蛋白的不同区域鉴定有差异的适配体。应了解的是,任一次研究的群数将受到靶分子以及测序阵列的动力学范围的限制。本发明的方法可以用于研究单个靶物或蛋白质(例如,从凝胶切下的蛋白质),但是特别适用于分析靶物混合物,包括复杂蛋白质混合物。术语“蛋白质的混合物”或“蛋白质混合物”通常指两个或多个蛋白质的混合物,例如,包含所述两个或多个不同蛋白质或其同等型的组合物。在优选的实施方案中,本文待分析的蛋白质混合物可以包括多于约10,优选多于约50,甚至更优选多于约100,更优选多于约500个不同的蛋白质,如,例如,多于约1000或多于约5000个不同的蛋白质。示例性复杂蛋白质混合物可包括而不限于存在于生物样品或其部分中的所有或部分蛋白质。如本文所使用的,术语“生物样品,,或“样品,,通常指获得自生物来源的,未纯化或纯化形式的材料。通过实例并且无限制地,样品可以获得自病毒,例如,原核或真核宿主的病毒;原核细胞,例如,细菌或古细菌,例如,自由生长或浮游的原核生物或菌落或包含原核生物的生物膜;真核细胞或其细胞器,包括获得自体内或原位或体外培养的真核细胞;真核组织或生物体,例如,获得自真核组织或生物体的包含细胞或无细胞的样品;真核细胞可以包括原生生物,例如,原生动物或藻类,真菌,例如,酵母或霉菌,植物和动物,例如,哺乳动物、人或非人哺乳动物。因此生物材料可以包括,例如,细胞、组织、生物体,或其提取物。 生物样品可以优选地从其生物来源,例如,从动物如哺乳动物、人或非人哺乳动物通过合适的方法移出,如,不限于,尿液、唾液、痰、精液、乳汁、粘液、汗液、粪便等收集或吸取,血液、 脑脊液、间质液、视流体(玻璃状)或滑液的抽取,或者通过组织切片、切除等。生物样品可以进一步划分,以分离或富集其中待使用的部分,用于获得蛋白质进行本发明中的分析。通过实例并且无限制地,可以彼此分隔多种组织类型;可以从样品,例如使用FACS分选、抗体淘选、激光-捕捉分离等,分离特定的细胞类型或细胞表型;细胞可以与间质液分开,例如, 血液细胞可以分离自血浆或血清;等等。样品可以直接应用本发明的方法,或者可以在使用前处理、提取或纯化至各种程度。样品可以来自健康受试者或患有病症、症状、疾病或感染的受试者。例如,无限制地,受试者可以是健康动物,例如,人或非人哺乳动物,或动物,例如,人或非人哺乳动物,其患有癌症、炎性疾病、自免疫疾病、代谢疾病、CNS疾病、眼病、心脏疾病、肺病、肝病、肠胃疾病、神经退行性疾病、遗传疾病、传染性疾病或病毒性感染,或其它小病(ailment)。优选地,可以处理来自生物样品的蛋白质混合物,从中去除高丰度蛋白质,以提高蛋白质组分析的灵敏度和性能。通过实例,哺乳动物样品如人血清或血浆样品可以包括丰度蛋白,特别是,白蛋白、IgG、抗胰蛋白酶、IgA、转铁蛋白、触珠蛋白和纤维蛋白原,其可以优选如此从样品中去除。用于去除丰度蛋白的方法和系统已知,如,例如,免疫亲和去除,并且经常可由商业提供,例如,来自Agilent Technologies (Santa Clara, California)的多亲和去除系统(MARS-7,MARS-14)。尽管本发明有特定的应用来鉴定对于蛋白质特异性的适配体,但是应了解的是, 本发明还有研究其它分子的应用,如代谢物和潜在的小分子和生物治疗剂。上述方法以通过测序将适配体序列定量为重点。为了产生对单个蛋白特异性的适配体文库,无需专门研究适配体序列,直至文库完成。因此,方法可以进一步包括只获得适配体序列最终汇集物的序列。本发明的显著优势是需要的材料量少一皮摩尔或者甚至毫微微摩尔。如果使用四个碱基,A、C、G和T,制备40聚物DNA适配体序列,则可提供1. 2xl024种组合。因此,1 摩尔(6.2xl023)最好的情况下只能包含全部可能序列的5%,并且这种制备物重量将超过Ikgo 1皮摩尔将包含约IxlO11个分子,所以Iml皮摩尔唯一的适配体将包含IxlO8个分子。 如果将40聚物中的17个碱基对固定,即作为“基序”,剩下23个可变的和/或随机的碱基对,因为1皮摩尔将包含高达约70个拷贝数的各个可能的序列,所以I-IOml皮摩尔溶液应包含每个序列的拷贝数在1和约10之间。因此,在灵敏度方面,定量设备(即大量并行测序仪)能并且应该超过针对蛋白质的适配体的亲和性和未修饰生物样品中大多数蛋白质的天然浓度。下一代测序设备,如Illumina 所销售的,通常在其表面上有330x8的成像区域, 在所述表面上可能在每个成像区域干净地提取25000个左右的序列。因此,目前,每张芯片每次运行可能研究约IxlO8个40聚物序列。因此,技术应允许1 1观察溶液中的皮摩尔适配体。因此技术的动力学范围跨越天然样品中蛋白质的动力学范围。这些测序技术的性能不断随时间而改善。一旦已经设计了对于特定蛋白有特异性的适配体文库或群,可以使用适配体的序列建立针对特异性蛋白质的适配体群的结构、功能和结合特性的理性知识,或者反之亦然。 从而可以用于深入研究蛋白质,并改善适配体文库的其它参数和/或特点。这些改善可以在初始文库产生期间和/或在所提方案下迭代选择各轮次期间应用。事实上,过一段时间, 将建立已鉴定适配体和蛋白质之间的序列/结构关系,并可以用作初始适配体文库设计的输入,探索具有不同基序的适配体空间的不同和其它部分。也可以使用这些信息评价与初始目的蛋白具有相似结构的蛋白。用这种方式,已经发现某些类别蛋白质的适配体,可以通过使用根据相同类别的蛋白质的在先知识而理性选择的起始适配体文库,探索和研究相似的蛋白质。对于一个蛋白质的文库序列或者特定域的知识,也可以用于辅助根据假设或已证明和测量的性质,进行对于相关蛋白质和蛋白质家族其它成员的适配体汇集物的设计,相似的适配体序列与相似的蛋白质表面结合。还可以挖掘弃去的适配体序列获得信息。例如,这些序列的统计和计算性质(例如结构)可以用于鉴别弱适配体的常规性质。这些信息在设计初始适配体文库时提供有用的知识,能在序列水平快捷地限制初始文库的随机性。在可选的实施方案中,中间步骤可以从生物信息学检查适配体标签(序列)并理性改善,因此确保群体朝多样但高度特异性的标签方向进化。生物信息学数据包括产生特定二级和三级结构的序列,和候选物和蛋白之间存在互补性的序列。如前所概述的,对于指定的适配体序列和其它生物数据如蛋白质家族、折叠域等, 可以将性质计算、汇总、关联并保存。可以使用这些生物信息学性质改善初始文库的产生。 它们还可以用作候选适配体序列各轮次选择之间的部分“适合性函数”,以塑造并改善每阶段的群性质。血液中的蛋白是鉴定疾病状态和药物治疗的标志物的特定靶物。广泛认为血液中蛋白质的量和/或构型与这些状态统计相关,其比内在的天然多变性更重要。血液和其它体液是特定的靶物,因为它们在液体环境中影响组织,传递重要蛋白并且能在治疗咨询期间使用相对低廉而直接的过程获得,用于测试。然而,血液中蛋白的浓度具有非常大的范围,少量蛋白质占所有蛋白质的超过 99. 9%,并且剩余的分布从皮克到毫克每毫升(19)。因此,丰度较高的小蛋白质群遮盖了蛋白混合物中同样存在的重要但罕见的蛋白质。
本发明的方法还允许针对存在于生物样品中的丰度很低或极低的蛋白质,鉴定其适配体。因此,在进一步的实施方案中,方法进一步包括去除在迭代早期(第一和/或第二) 和/或其它轮次发现的丰度非常高的候选物。假设测序阵列的“槽(slots)”数量有限,如果不是全部槽,高丰度候选物也将占据大多数槽,从而遮盖任何丰度较小的候选物,并且提供研究中蛋白质的动力学范围草图。通过以绝对或相对概念,从测序汇集物去除丰度极高的候选物,然后可以不再研究对高丰度蛋白质有特异性的候选物,并且有效地忽略复杂混合物中这种特定的蛋白质群,即使蛋白质仍然存在于混合物中。将针对一个高丰度蛋白的适合序列去除将揭示另一个高丰度候选物,或者将揭示针对丰度较低靶物的候选物。这是理性介入的另一个实例,倾向于朝丰度更低的蛋白质发现适配体序列。在适合性函数中还需要其它平衡选择,如在相同迭代的副本之间推定低丰度适配体的低变异性,和/或某些已知序列基序的优先性。这将帮助确保从非特异性或随机序列的背景噪音中选择低丰度但“适合”的序列。这个额外步骤的优势是可以避免对蛋白质混合物进行操作而去除丰度非常高而且常见的蛋白。用这种方式,蛋白质混合物更真实地基于天然样品并且,通过干扰,源自混合物的蛋白质的任何有关信息更可能更精确地反映每个蛋白质的天然状态。使用蛋白质天然状态具有更多优势,还可以允许选择对进行化学修饰或其它自然中常见的翻译后修饰的蛋白质具有特异性的适配体。丰度很高的候选适配体可以简单忽略或者可以从汇集物中消减或去除群。例如, 可以通过在包含与丰度序列互补的探针的固体支撑体上杂交而实现去除。去除也可以是理性介入的实例,其中通过对DNA合成仪适当编程而从随后的迭代中排除特定的候选物,产生具有所有期望性质的新序列汇集物,所述性质干扰“适合性”,与高丰度蛋白质结合的序列除外。然后在包含本发明的通常方案下,在后面的选择轮次中继续处理新汇集物。然后可以集中于并使用来自第一步骤的仅有最小丰度候选物的一组序列。因此, 测序仪的定量能力可以集中在非常低丰度的候选物上和,以代理的方式(by proxy),集中在蛋白质混合物中存在的低丰度蛋白质上。这是当前用常规基于MS(质谱仪)的技术或 SELEX所不可能实现的。高丰度候选物的迭代消减允许研究丰度更低的候选物。为了确保任何结合都是选择性的,并且不纯粹是偶然,候选物可以加入已知量的已知适配体序列,并且针对蛋白质混合物运行序列,包括以已知量存在的已知适配体可结合的蛋白质。可选地或此外,多个副本之间的低变异性意味着待研究的候选物极可能与蛋白质结合(粘附)。因此,本发明的方法解决蛋白质组的主要问题之一,S卩如何应对与处理高丰度蛋白。这通过理性地排除与这些蛋白结合的候选物而实现。在后面轮次的测定和选择中忽略这些蛋白质。突变/交换过程可能引起与高丰度蛋白质结合的一些候选物再次出现,但是这些序列也能如前所述在每次过程迭代时理性消除。仔细选择低丰度候选物,其具有强序列性质和迭代间定量测定的低变异性,使得可能的与低丰度蛋白特异性和选择性结合的适配体群(或子集)收敛。在进一步的实施方案中,通过计数候选物并与对照群比较,还可以监控每次迭代中候选物的丰度范围。这可以进一步用于改善基于适合性的选择。一个实例是,在第一轮
16选择期间,将所选序列的群与初始未选择文库中存在的序列比较。序列组成和某些序列的统计学出现率中显著的变化(可能证明一些模型)可以说明相对成功性。如果前几轮选择没有产生组成与初始群显著不同的候选物汇集物,那么可以判断汇集物和实验失败。应了解的是,一旦已经通过本发明的方法鉴定了一个候选适配体序列或文库, 必须证实序列为适配体。这可以通过针对相同来源样品或多个不同样品之间的多个拷贝候选物的复制结合和定量而实现。如果样品之间的重复性较差或变异较高,那么候选物不可能对于一个靶物有特异性。用于这种验证的合适的方法在共同提出的欧洲申请 No. 07020049. 8 中描述。本发明现在将进一步通过非限定性实例描述。实施例1在这个实施例中,为了与SELEX比较,搜索针对溶液中可能存在或固定化的单个蛋白的适配体集合。以基序或模式代表多核苷酸序列如DNA或RNA的群。例如,序列GGCT和CCGA可以用一种模式GGC(A/T)表示,其中“/”表示“或”。存在IUPAC单字母编码的复杂集合来代表序列模式,其可代表具有突出共性的序列的多样性00)。在这个实施例中,选择DNA适配体基序,并使用已知技术合成半随机文库(11)。这称作“候选文库”。文库的多样性可以在能合成的任何范围内。在这个实施例中,使用理性在先知识,通过自相似性和退火,偏好性选择具有某些二级结构的DNA序列。也构建了相同长度的纯随机序列的对照文库。这称作“随机文库”。然后在所选条件下,针对单个蛋白质选择两个文库,使未结合的适配体序列可以如常规SELEX方案所实施的弃去。在将适配体与蛋白质分开后,将存活的适配体DNA序列,即与蛋白质结合的那些序列,排布在具有合适的解析度和动力学范围的下一代DNA测序仪上。重复这个过程,以提高所得测量结果的统计学显著性。将阵列上的每个分子测序并计数,鉴定并计数存在于存活文库中的适配体。阵列上存在的序列数代表分子在初始群中的比例,与正常的统计学取样过程一致。测量的精确性和任何统计学取样问题,特别是对于较罕见的适配体,可以通过测量与每个文库副本的变异而确定。进行了所选适配体和初始未选择文库的第一次迭代之间的差异性比较。这也可以评估文库合成的成功性和效率/多样性。相似地,进行适配体的纯随机文库和其未选择副本之间的差异性分析。如果选择的/揭示的半随机文库与未揭示/随机文库之间没有显著性差别,那么可以得出结论,适配体选择不合适,并且文库不被看好。此时可以暂停对这个文库的试验,并在序列水平合成具有不同性质的另一个文库。如果在第一次迭代后,候选文库与未揭示候选文库和/或随机文库有足够的差别,那么可以进一步使用并开发所述文库。由任何大小的初始适配体汇集物,在阵列上将IO7-IO9个适配体中的样品测序。未来一代测序仪的动力学范围将更高。给定初始候选文库多样性和前面步骤中测序和计数 (和对照)的结果,可以在第一次迭代后评估适配体基序的质量。如前所述,如果看好文库, 可以发展适配体群,或者可选地,产生新的初始候选基序文库。例如,如果存活适配体的分布和变异与由对照测得的初始文库非常不同,那么这种文库用于继续发展是有利的。第一次迭代提供来自实验条件和对照的数据表 权利要求
1.用于鉴定针对至少一个靶分子的一个或多个适配体的方法,所述方法包括a)用至少一个靶分子接触候选聚合物序列的汇集物;b)从已特异性结合至靶分子的那些序列中区分出未结合序列;c)离解序列-靶物复合物,以获得富含配体的序列混合物;d)为步骤c)中获得的每个序列分配该序列的适配体潜力的量度(适合性函数);e)使用步骤d)的量度以确定所述富含配体的混合物的适配潜力;f)使用步骤e)中获得的信息,允许步骤c)中获得的一些或全部序列发生进化,以产生序列的新混合物;和g)用新产生的候选适配体汇集物重复步骤a)至f),直至候选物汇集物的合计适配潜力达到平台,其中最终汇集物中存在的序列是所述至少一个靶分子的最优适配体。
2.根据权利要求1的方法,其中所述至少一个靶分子是蛋白质。
3.根据权利要求2的方法,其中所述至少一个靶分子是单个分离的蛋白。
4.根据权利要求1、权利要求2或权利要求3的方法,其中所述一个或每个靶分子的身份已知。
5.根据权利要求2或权利要求4的方法,其中在蛋白质混合物中研究多个蛋白质。
6.根据权利要求5的方法,其中所述至少一个蛋白质是存在于蛋白质混合物中的已知蛋白质。
7.根据权利要求5或权利要求6的方法,其中所述蛋白质混合物源自生物样品。
8.根据权利要求7的方法,其中所述生物样品是体液。
9.根据权利要求8的方法,其中所述体液是血液或者来自血液。
10.根据权利要求9的方法,其中所述体液是血清或血浆。
11.根据权利要求1至10中任一项的方法,其中所述聚合物序列是多核苷酸。
12.根据权利要求11的方法,其中所述多核苷酸序列是DNA、RNA、PNA(肽核酸),或者它们的变体或组合。
13.根据权利要求1至12中任一项的方法,其中所述聚合物为30聚物-60聚物。
14.根据权利要求13的方法,其中所述聚合物为40聚物。
15.根据权利要求1至14中任一项的方法,其中通过将富含配体的混合物中候选序列定量而测量适配潜力。
16.根据权利要求15的方法,其中通过对每个候选序列的至少部分测序而进行定量。
17.根据权利要求16的方法,其中在单分子阵列或克隆性单分子阵列上进行测序。
18.根据权利要求1至17中任一项的方法,所述方法进一步包括将所述富含配体的混合物中的序列在步骤d)前排布在表面上。
19.根据权利要求18的方法,其中所述方法进一步包括扩增已排布的序列。
20.根据权利要求1至19中任一项的方法,其中所述适配潜力的量度进一步包括一个或多个测量的、计算的或生物信息学的性质。
21.根据权利要求20的方法,其中所述生物信息学的性质包括二级结构预测、三级结构预测、自相似性、信息复杂度、与已知适配体序列的相似性、序列基序或它们的组合。
22.根据权利要求1至21中任一项的方法,其中将在与研究中的候选序列群体比较时具有统计学显著性的适配潜力的富含配体序列从步骤d)和e)推进到步骤f)。
23.根据权利要求1至21中任一项的方法,其中将具有落入平均或较高百分位范围内的适配潜力的富含配体序列从步骤d)和e)推进到步骤f)。
24.根据权利要求1至23中任一项的方法,其中从候选汇集物去除具有统计学不显著的适配潜力的富含配体序列。
25.根据权利要求1至M中任一项的方法,其中从候选汇集物洗脱并弃去非结合的候选序列。
26.根据权利要求1至25中任一项的方法,其中所述方法进一步包括从候选汇集物去除数量占优的序列。
27.根据权利要求1至沈中任一项的方法,其中所述方法进一步包括获得最终汇集物中存在的候选适配体的全长序列。
28.根据权利要求1至27中任一项的方法,其中使用具有高适配潜力的序列或者源自这些序列的基序,设计新的候选适配体汇集物。
29.根据权利要求1至观中任一项的方法,其中使用具有高适配潜力的序列和/或基序影响显示高适配潜力的序列的随机变化和/或重组。
30.根据权利要求1至四中任一项的方法,其中所述方法进一步包括修饰候选序列以增加稳定性和/或结合潜力。
全文摘要
本发明涉及选择适配体的方法,具体的涉及用于鉴定针对至少一个靶分子的一个或多个适配体的方法,该方法包括选择可以与靶分子结合的候选适配体序列,为已结合序列分配每个序列的适配潜力量度(适合性函数),允许一些或全部序列发生进化以产生候选序列的新混合物,并用新产生的候选适配体汇集物重复方法,直至候选汇集物的合计适配潜力到达平台,其中最终汇集物中存在的序列是靶分子的最优适配体。
文档编号C12N15/10GK102277353SQ20111013747
公开日2011年12月14日 申请日期2008年10月22日 优先权日2007年10月22日
发明者克利夫.G.布朗 申请人:普罗诺塔股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1