多核苷酸变体的组合自动化平行合成的制作方法

文档序号:581670阅读:1325来源:国知局
专利名称:多核苷酸变体的组合自动化平行合成的制作方法
技术领域
本公开内容涉及用于有效合成、克隆、转化和筛选多核苷酸变体的大型多样文库的方法,所述多核苷酸变体相对于參考多核苷酸包含明确的(well-defined)核苷酸差异。2.背景基于计算机模拟和体外的定向进化蛋白功能的各种技术已经允许产生具有新性质的蛋白。例如,细胞色素P450酶已经被进化为针对正常不被天然存在的酶识别的底物具有活性(參见例如,Landwehr 等人,2007,Chem Biol 14(3) :269-78 ;Kubo 等人,2006,Chemistry 12(4) :1216-20.)。通常,为了产生这种新酶,编码參考多肽例如野生型酶的多核苷酸经受诱变以产生编码具有氨基酸序列改变的多肽变体的多核苷酸。针对期望性质例如酶稳定性提高或针对新底物的活性筛选这些变体允许鉴定与改变的性质相关的氨基酸残基。然而,并非所有的突变组合存在于被筛选变体群中。例如,与酶的热稳定性相关的突 变可能被发现不与底物特异性改变相关突变相关。这种群体偏差可能源于各种因素,包括但不限于用于诱变的多核苷酸编码的亲本氨基酸序列、多核苷酸体内増殖期间针对组合的可能选择、和用于诱变的技术中的偏差(例如,使用聚合酶而引入错误)。因为在參考多肽序列的确定的氨基酸残基位置的突变可以提供有关多肽生物活性的大量信息,一旦初始地鉴定了突变,则期望制备可用来测试期望性质的初始的筛选变体组中未发现的突变的各种组合。确定的突变或突变组的基于计算机模拟的选择提供了产生大量可能的突变组合的框架。例如,影响底物特异性的突变可以与影响其他酶性质的突变组合,所述其他酶性质包括但不限于酶活性、热稳定性和抑制剂抗性。通常,产生具有新突变组合的这些多肽的方法是合成个体物类(即,合成编码突变基因的每ー个多核苷酸)。这可以通过多核苷酸的化学和/或酶合成结合标准重组技术来完成。这种从头合成技术需要每个多核苷酸变体的完整基因合成和/或大量寡核苷酸引物的合成,所述寡核苷酸引物然后用于合成完整多核苷酸变体(例如,通过I0N-PCR)。这些技术需要更多的寡核苷酸合成并导致具有正确序列的变体的较低产量。因此,如果突变数据集很大,产生突变组合的成本和效率可能限制筛选大量新组合的能力。因此,产生编码确定突变的组合的多核苷酸的有效且有成本效率的方法是期望的。3.概述本公开内容涉及有效产生与參考多核苷酸序列相比具有确定序列变化(例如,期望的氨基酸突变)的不同组合的多核苷酸的方法。所述方法基于具有重叠相邻区的多核苷酸片段(即,扩增子)文库的使用,使得多核苷酸片段组(sets of the polynucleotidefragments)可以被组装以产生多个多核苷酸变体,每个多核苷酸变体具有确定组的序列变化。使用选定的正向引物和反向引物通过扩增參考多核苷酸模板而引入序列变化,从而产生包括确定的序列变化的多核苷酸片段。所述文库被设计为具有足够的多核苷酸片段以组装至少两个不同的多核苷酸变体序列。在一些实施方案中,多核苷酸片段文库包含与參考序列相比具有所有确定的多核苷酸序列差异(例如,期望的核苷酸变化)的成员,使得可以组装所有序列排列。在一些实施方案中,多核苷酸可以被设计为编码与參考氨基酸序列相比具有确定的氨基酸序列差异的多肽。本公开的方法能够产生具有确定的核苷酸差异的多核苷酸变体序列的大型文库(例如10、50、100、150、300、500、700、1000或更多变体的文库,每个变体具有1、2、3、5、9、12、15、20、25、30、35、40、50或更多期望的变化),使用相对少(例如与完整基因合成方法相比)和相对短(例如,35-mer或更短)的寡核苷酸,并且其中正确序列的平均百分比惊人地高(例如,至少65%、75%、85%、95%或更高)。在一些实施方案中,形成编码多肽变体的多核苷酸的方法可以包括选择相对于參考氨基酸序列的多个确定的氨基酸残基差异;确定编码具有不同氨基酸序列的多肽或參考氨基酸序列的多核苷酸序列的重叠区段,每个区段被一组正向引物结合序列和反向引物结合序列所结合,并且其中编码多个氨基酸残基差异的每一个的多核苷酸序列差异包含在所述引物结合序列中;用该组正向引物和反向引物扩增每个区段,其中选定的正向引物和/或反向引物含有所述多核苷酸序列差异,以产生包括编码所述氨基酸残基差异的成员的扩增子文库,其中所述文库包括用于组装确定的氨基酸差异的两个或多个不同氨基酸序列 排列的成员;从所述文库组装具有互补重叠相邻区的一组扩增子,其中该组扩增子一起编码具有一个或多个氨基酸残基差异的确定的氨基酸序列排列的多肽;并扩增该组组装的扩增子以合成编码所述多肽的多核苷酸。本文还描述了产生多核苷酸片段文库的方法,其中所述方法包括(a)基于与參考氨基酸序列相比的多个确定的氨基酸残基差异,产生不同于所述參考氨基酸序列的氨基酸序列的多个排列,并且对于每个排列;(i)基于參考多核苷酸序列确定编码氨基酸序列排列的多核苷酸序列;(ii)鉴定编码与參考氨基酸序列相比氨基酸残基差异的多核苷酸序列变化,并确定编码氨基酸序列排列中另ー氨基酸残基差异的最邻近的多核苷酸序列变化的接近度;(iii)选择正向寡核苷酸引物,所述正向寡核苷酸引物具有编码所述氨基酸残基差异的序列,并且任选地,如果最邻近的多核苷酸序列变化接近第一个多核苷酸序列变化,在相同正向寡核苷酸引物中包括该最邻近的多核苷酸序列变化;(iv)鉴定下ー个多核苷酸序列变化,或者直到达到多核苷酸末端,并选择用干与正向寡核苷酸引物扩增多核苷酸片段的反向寡核苷酸引物,其中反向引物任选地编码氨基酸残基差异中的下ー个变化;(V)对于编码氨基酸残基差异的多核苷酸序列中的每ー个变化重复步骤(ii)至(iv),使得多核苷酸序列中的所有变化都存在于寡核苷酸引物上;和(b)用每组正向寡核苷酸引物和反向寡核苷酸引物扩增以产生具有编码氨基酸残基差异的成员的重叠扩增子文库。另ー方面,本公开内容提供了可用于组装多核苷酸变体的这种多核苷酸片段(即,扩增子)的文库。在一些实施方案中,多个多核苷酸片段包括具有重叠相邻区的多核苷酸片段,每个多核苷酸片段被正向引物和反向引物的引物结合序列所结合,其中多个多核苷酸片段具有编码引物结合序列中来自相对于參考氨基酸序列的确定的多个氨基酸残基差异的特定氨基酸残基差异的成员,使得所述多个多核苷酸片段编码所有从确定的多个氨基酸残基差异选定的多个氨基酸残基差异;并且其中所述多个多核苷酸片段包括用于组装确定的氨基酸差异的两个或多个不同氨基酸序列排列的成员。在一些实施方案中,所述多个多核苷酸片段包括足以组装选定的多个氨基酸残基差异的所有可能氨基酸序列排列的成员。另ー方面,本公开内容提供了用于合成多个多核苷酸变体的方法,每个多核苷酸变体相对于參考多核苷酸序列具有确定的核苷酸差异,其中所述方法包括(a)用多对正向引物和反向引物的姆ー对分别扩增參考多核苷酸模板,其中所述多对正向引物和反向引物包括多个确定的核苷酸差异,并且其中每对产生包括能够结合至少ー个其他扩增子的相邻重叠序列的序列的扩增子;(b)分别组装多组扩增子,其中每组包括具有能够结合形成所述參考多核苷酸序列的全长的相邻重叠序列的扩增子;和(C)复制多组组装的扩增子,从而合成多个多核苷酸变体。在另ー实施方案中,本公开内容提供了合成多个多核苷酸变体的方法,每个多核苷酸变体相对于參考多核苷酸序列具有确定的核苷酸差异,所述方法包括(a)选择相对于參考多核苷酸序列的多个确定的核苷酸差异;(b)确定所述參考多核苷酸序列的多个区段,其中每个区段重叠至少一个相邻区段并且被一对正向引物结合序列和反向引物结合序列所结合,其中正向引物和/或反向引物包括所述多个确定的核苷酸差异的至少ー个;(C)用多对正向引物和反向引物的每ー对分别扩增參考多核苷酸模板,其中每对引物包括所述多个确定的核苷酸差异的至少ー个,从而产生扩增子的可寻址文库,每个扩增子对应于具有确定的核苷酸差异的參考多核苷酸序列的区段;(d)分别组装来自所述扩增子的可寻址文库的多组扩增子,其中每组包括对应于重叠相邻区段的扩增子,所述重叠相邻区段构成 參考多核苷酸序列的全长;和(e)复制多组组装的扩增子,从而合成多个多核苷酸变体。在合成多个多核苷酸变体的方法的一些实施方案中,在多核苷酸变体被分别组装和复制(例如,通过S0E-PCR)之后,多核苷酸变体被组合(即,池化(pooled))而不是単独保持(例如,以可寻址阵列)。然后将池(pool)克隆入表达载体、转化入细胞并平板接种,这提供了如下惊人的优点有利于包括数百或数千的具有确定核苷酸差异的全长变体的大型文库的筛选,随后测序仅限于编码具有某种期望水平的活性或其他改善性质的多肽的那些变体。因此,在一些实施方案中,合成其中姆个多核苷酸变体相对于參考多核苷酸序列具有至少ー个确定的核苷酸差异的多个多核苷酸变体的方法包括(a)用多对正向引物和反向引物的每ー对分别扩增參考多核苷酸模板,其中所述多对正向引物和反向引物包括多个确定的核苷酸差异,并且其中每对产生包括能够结合至少ー个其他扩增子的相邻重叠序列的序列的扩增子;(b)分别组装多组扩增子,其中每组包括具有能够结合形成所述參考多核苷酸序列的全长的相邻重叠序列的扩增子;(C)复制多组组装的扩增子;和(d)组合所述多个多核苷酸变体,从而合成包括组合的多个多核苷酸变体的池,每个多核苷酸变体具有确定的核苷酸差异。在该方法的一些实施方案中,所述參考多核苷酸编码參考多肽,并且所述多个多核苷酸变体的姆ー个编码具有至少ー个氨基酸序列差异的多肽。在其他实施方案中,所述方法在组合所述多个多核苷酸变体的步骤之后还包括(e)将组合的多个多核苷酸变体克隆入表达载体的步骤,从而产生组合的多个表达载体,每个表达载体包括多核苷酸变体;(f)用所述组合的多个表达载体转化细胞;(g)根据所述多核苷酸变体编码的多肽的活性来筛选转化的细胞;(h)对编码具有活性的多肽的多核苷酸变体测序;或(i)分离多核苷酸变体编码的至少ー个多肽。在一些实施方案中,本公开内容提供了筛选编码多肽的多核苷酸变体的可寻址文库的方法,所述方法包括(a)将所述多核苷酸变体的可寻址文库的成员组合成池;(b)将多核苷酸变体的所述池克隆入表达载体;(C)用所述表达载体转化细胞;(d)平板接种所转化的细胞以产生多个分开的克隆,所述克隆包括多核苷酸变体的所述文库;和(e)根据相对于參考多肽的改善性质来筛选所述克隆。在筛选方法的一些实施方案中,所述方法被如下进行,其中多核苷酸变体的可寻址文库包括至少50、100、200、300、400、500、600、700、800,900,1000或更多不同的多核苷酸变体。在筛选方法的一些实施方案中,所述方法被如下进行,其中多核苷酸变体的可寻址文库包括至少100、200、400、800、1000或更多不同的多核苷酸变体,每个多核苷酸变体分别包括在至少5、10、20、40、50或更多不同选定位置之一的不同的确定的核苷酸差异。在筛选方法的一些实施方案中,所述方法被如下进行,其中多核苷酸变体的可寻址文库包括至少460个不同的多核苷酸变体,每个多核苷酸变体包括在20个不同选定位置之一的23个不同密码子之一。在以上筛选方法的一些实施方案中,至少75 %、至少80 %、至少85 %、至少90 %、至少95 %或更多的所述多核苷酸变体的可寻址文库包括正确序列。在其他实施方案中,本公开内容提供了合成多个多核苷酸变体的方法,所述多个多核苷酸变体相对于參考多核苷酸序列具有随机混合的确定的核苷酸差异。这种实施方案提供了产生具有随机组合的确定核苷酸差异的多核苷酸变体的组合文库的方便能力。该方法包括(a)提供多对正向引物和反向引物,其中所述多对正向引物和反向引物包括诱变引物和非诱变引物的混合物,其中诱变引物包括多个确定的核苷酸差异,并且其中每对产 生包括能够结合至少ー个其他扩增子的相邻重叠序列的序列的扩增子;(b)用所述多对正向引物和反向引物的每ー对扩增參考多核苷酸模板,从而产生多组扩增子,其中每组包括具有能够结合形成所述參考多核苷酸序列的全长的相邻重叠序列的扩增子;和(C)组装和复制所述多组扩增子,从而合成具有随机混合的确定的核苷酸差异的多个多核苷酸变体。在另ー实施方案中,该方法可以如下进行,其中所述多对正向引物和反向引物在扩增參考多核苷酸模板之前被组合,从而产生组合的多组扩增子。在另ー实施方案中,该方法可以如下进行,其中扩增參考多核苷酸模板分别用所述多对正向引物和反向引物的每ー对来进行,并且所述多组扩增子在组装和复制之前被组合。在本文公开的合成多个多核苷酸变体的方法的一些实施方案中,所述方法可以如下进行,其中參考多核苷酸编码參考多肽,并且所述多个多核苷酸变体的每ー个编码具有至少ー个氨基酸序列差异的多肽。在其他实施方案中,所述方法可以如下进行,其中该方法还包括以下步骤(i)将多个多核苷酸变体的每ー个克隆入表达载体;(ii)用表达载体转化细胞;(iii)根据多核苷酸变体编码的多肽的活性筛选转化的细胞;或(iv)分离多核苷酸变体编码的至少ー个多肽。此外,所述方法可以如下进行,其中每个多核苷酸变体在阵列的已知位置组装。在合成多个多核苷酸变体的方法的其他实施方案中,所述方法可以如下进行,其中多个不同氨基酸变化在多肽的靶向位置的ー个或多个处编码。在这种实施方案中,多对正向引物和反向引物包括在多肽单个位置编码多个氨基酸差异的简并引物(例如,在每个引物序列的相同位置具有简并密码子的ー组引物)。例如,在一些实施方案中,简并引物可以包括具有简并密码子的ー组引物,所述简并密码子选自由NHT、NNB, NNG, NNK, NNN, NNS,NNT、NDT、RMG、RNG、RRS、SNT、VNS、VNT和VWG组成的组。在一些实施方案中,所述方法可如下进行,其中多个不同密码子由简并密码子NNT和VWG以及密码子TGG组成。这些密码子用仅23个密码子编码所有20种天然氨基酸。在一些实施方案中,不同的简并密码子可用于多核苷酸不同位置的氨基酸差异。例如,在ー个位置可以使用编码所有20种氨基酸的简并引物,而在另一位置可以使用编码仅16个或更少氨基酸的简并引物。在本文公开的合成多个多核苷酸变体的方法的一些实施方案中,所述方法可以如下进行,其中通过以下步骤产生多个正向引物序列和反向引物序列的序列(i)鉴定多核苷酸变体序列中与參考序列相比第一个确定的差异,并确定最邻近的确定的多核苷酸序列差异的接近度;(ii)选择正向引物,所述正向引物具有包括第一个确定的核苷酸差异的序列,并且任选地,如果任何最邻近的确定的差异接近所述第一个确定的核苷酸差异,在相同正向引物中包括该最邻近的确定的差异;(iii)鉴定所述多核苷酸变体序列中与所述參考序列相比下一个确定的差异并确定所述多核苷酸序列中最邻近的确定的差异的接近度,或鉴定已经达到所述多核苷酸变体的末端;(iv)选择反向引物,所述反向引物具有所述下ー个确定的核苷酸差异的序列,并且任选地,如果任何最邻近的确定的差异接近所述下ー个确定的核苷酸差异,在相同正向引物中包括该最邻近的确定的差异;和(V)对所述多核苷酸变体序列中每ー个确定的差异重复步骤(iii)至(iv),使得所有确定的差异存在于引物上。在本文公开的合成多个多核苷酸变体的方法的一些实施方案中,所述多个多核苷 酸变体包括至少10、25、35、50、75、90、120、150、180、300、500、700、900或甚至更多不同的
多核苷酸变体。在本文公开的合成多个多核苷酸变体的方法的一些实施方案中,所述多个多核苷酸变体的至少ー个包括相对于參考多核苷酸序列的至少2、3、6、9、12、15、18、21、24、27、30或甚至更多确定的核苷酸差异。在一些实施方案中,多个多核苷酸变体的两个或三个或在一些实施方案中姆一个包括相对于參考多核苷酸序列的至少1、2、3、6、9、12、15、18、21、24、27,30或甚至更多确定的核苷酸差异。在所述方法的一些实施方案中,使用所述方法合成的多个多核苷酸变体可以包括至少10、20、30、40、50、100、200或更多不同的多核苷酸变体,其中每个变体包括在10、20、30、40、50、100、200或更多不同的选定位置之一的不同的确定的核苷酸差异(即,10、20、30、40、50、100、200或更多不同的单位点突变体)。也可以达到规模大得多的多样性,例如当使用简并引物时,所述方法可以提供“饱和诱变”文库,其中每个多核苷酸变体成员具有包括在參考多核苷酸序列的不同选定位置的23个不同密码子之一的不同序列。因此,本文公开的方法可用于合成多个多核苷酸变体,所述多个多核苷酸变体包括至少23、46、69、92、115、230、460、920或更多不同的多核苷酸变体,每个多核苷酸变体包括在1、2、3、4、5、10、20、40或更多不同选定位置之一的23个不同密码子之一。在一些实施方案中,所述方法可以如下进行,其中不同组的特定和/或简并密码子在多个正向引物和反向引物中确定的核苷酸差异的不同选定位置使用,从而提供具有明确突变的多核苷酸变体的多祥文库。在本文公开的合成多个多核苷酸变体的方法的一些实施方案中,多组扩增子的至少ー组包括至少3、至少5、至少7、至少10或更多不同的扩增子。在一些实施方案中,多组扩增子的两组或多组或在一些实施方案中每ー组包括至少3、至少5、至少7、至少10或更多不同的扩增子。在其中使用简并引物的实施方案中,得到的扩增子是简并的。因此,在ー些实施方案中,多组扩增子的至少ー组包括至少3、至少5、至少7、至少10或更多不同的简并扩增子。在本文公开的合成多个多核苷酸变体的方法的一些实施方案中,參考多核苷酸序列的长度是至少500bp、750bp、1000bp、1250bp、1500bp或甚至更长。在本文公开的合成多个多核苷酸变体的方法的一些实施方案中,多对正向引物和反向引物包括400或更少、300或更少、200或更少、100或更少、50或更少、或甚至25或更少。在一些实施方案中,多对正向引物和反向引物包括6至约200、6至约150、6至约100、6至约50、6至约40、6至约30、6至约25、6至约20、6至约15、或甚至更少不同的寡核苷酸,并且其中寡核苷酸的长度是约20至约50核苷酸、约20至约40核苷酸、或约25至约35核苷酸。在本文公开的合成多个多核苷酸变体的方法的一些实施方案中,包括正确序列的合成的多个多核苷酸变体的平均百分比是至少约65%、70%、75%、80%、85%、90%或95%或更高。因此,在任何实施方案中,本文公开的方法能够合成具有高水平多样性(在不同选定位置不同的核苷酸差异)的多核苷酸变体文库,具有至少约65%、75%、85
或更多正确序列的非常明确的准确度。 在一些实施方案中,本公开内容提供了合成多个多核苷酸变体的方法,其中组合了上述參数的任何ー个(例如,变体数目、确定的核苷酸差异数目、參考多核苷酸序列长度、正向引物和反向引物对数目、引物寡核苷酸长度、和/或全长完美序列的百分比)。除了以上方法,本公开内容还提供了包括根据以上任何方法合成的多个多核苷酸变体或扩增子的多核苷酸变体的可寻址文库。因此,在一些实施方案中,本公开内容提供了扩增子的可寻址文库,其中扩增子的文库的每一个成员包括相对于參考多核苷酸序列的至少ー个确定的核苷酸差异和能够结合文库中至少ー个其他扩增子的重叠相邻区的重叠相邻区,并且其中多个扩增子包括能够结合形成參考多核苷酸序列的全长的至少ー组扩增子。在一些实施方案中,扩增子的可寻址文库包括用于组装两个或多个不同的多核苷酸变体的成员,所述多核苷酸变体包括相对于參考多核苷酸序列的确定的核苷酸差异。在扩增子的可寻址文库的ー些实施方案中,參考多核苷酸序列编码參考多肽,并且多个扩增子包括足以组装编码选定的多个氨基酸残基差异的所有可能的核苷酸差异的成员。在其他实施方案中,本公开内容提供了包括具有确定的核苷酸差异的多个多核苷酸变体的组合物,其中所述多核苷酸变体根据本文公开的方法合成。因此在ー些实施方案中,本公开内容提供了包括包含根据以上公开的方法合成的多核苷酸变体的多个表达载体或包含根据以上公开的方法合成的多核苷酸变体的多个转化细胞的组合物。在另ー实施方案中,本公开内容提供了根据以下方法分离的多肽变体的文库合成编码多肽的多核苷酸变体,随后将所述变体克隆入表达载体,转化细胞,并在转化子中表达多肽。本文还提供了用于进行本文描述的方法的各个步骤的计算机实现的方法。4.附图
简述图I显示了用于产生编码确定多肽变体的多核苷酸的标准技术(左側),与本文描述的使用重叠多核苷酸片段文库的方法(右側)相比较。图2提供了用于产生重叠多核苷酸片段文库的样例工作流程图,基于产生多核苷酸的重叠区段的寡核苷酸引物并在PCR反应中使用所述寡核苷酸而产生重叠多核苷酸片段文库。图3显示通过组装重叠多核苷酸片段并复制组装的多核苷酸片段以合成编码期望多肽变体的多核苷酸变体而得到的96个样品(和8个对照)的琼脂糖凝胶。几乎每ー个凝胶显示单一强条带,表明存在预期长度的序列。图4显示通过使用重叠多核苷酸片段文库产生编码变体的多核苷酸的流程图。图5显示用于产生寡核苷酸引物文库的流程图,所述寡核苷酸引物文库用于产生针对每个氨基酸序列排列的重叠多核苷酸扩增子的文库。图6显示用于自动化产生和选择寡核苷酸引物和重叠寡核苷酸片段的指令流程图。5.详述除非上下文明确另外指明,本说明书和所附权利要求书中使用単数形式“一个”、“ー种”和“所述”包括复数指代物。因此,例如,对“ー种蛋白”的提及包括超过ー种蛋白,对“ー种化合物”的提及指超过ー种化合物。 而且,除非另外指明,“或”的使用表示“和/或”。类似地,“包括(comprise) ”、“包括(comprises) ”、“包括(comprising) ”、“包括(include)” “包括(includes) ” 和“包括(including) ”可互換使用并且不预期为限制性的。还要理解,当各种实施方案的描述使用术语“包括”时,本领域技术人员将理解,在ー些具体情形中,可以可选地使用语言“基本由...组成”或“由...组成”来描述实施方案。本文使用的章节标题仅出于组织目的,而不被解释为限制所描述的主題。本文使用的以下术语预期具有以下含义。5. I 定义本文使用的“扩增(AmplifyinR) ”和“扩增(amplification)”包括其惯用法,并且指使用任何适合产生或检测重组或天然表达的任何多核苷酸的扩增技术,所述多核苷酸可以例如通过聚合酶链反应(PCR)在体内或体外扩增。“扩增子”指通过ー对扩增引物之一或两者的延伸而产牛的扩增反应产物。如果使用的两个引物与靶序列杂交,则扩增子可以含有指数扩增的核酸。可选地,如果使用的引物之一不与靶序列杂交,则扩增子可以通过线性扩增来产生。因此,该术语在本文普通地使用而不暗示指数扩增核酸的存在。“退火”或“杂交”指导致双链结构、三级结构或四级结构的形成的一个核碱基聚合物与另ー个核碱基聚合物的碱基配对相互作用。退火或杂交可以通过Watson-Crick碱基配对相互作用而发生,但是可以由其他氢键相互作用例如Hoogsteen碱基配对介导。“组装”指在其中多核苷酸之间的互补区可以退火形成例如具有双链杂交区的杂交复合物且非互补区形成突出端的条件下使多个多核苷酸片段(例如,扩增子)组合在一起。多个多核苷酸可以被组装形成编码感兴趣多肽的较大多核苷酸。“桥接多核苷酸”指在末端区域具有互补区的多核苷酸,使得ー个多核苷酸可以与桥接多核苷酸的ー个末端区退火并且另一个多核苷酸可以与桥接多核苷酸的另ー末端区退火。“编码序列”指编码蛋白的氨基酸序列的核酸部分(例如,基因)。“密码子优化”指编码蛋白的多核苷酸的密码子变为特定生物体中优先使用的密码子,使得编码的蛋白在感兴趣的生物体中有效表达。尽管由于大多数氨基酸由称为“同义”密码子或“同义的”密码子的几个密码子代表而使遗传密码是简并的,但公知特定生物体的密码子使用是非随机的且偏好特定的密码子三联体。这种密码子偏好可能在以下方面中更高给定基因、共同功能或祖源的基因、相对于低拷贝数蛋白的高表达蛋白、和生物体基因组的集中蛋白编码区。“互赴”指核苷酸 核酸之间诸如例如双链DNA分子的两条链之间或寡核苷酸引物和待测序或扩增的单链多核苷酸上的引物结合位点之间的杂交或碱基配对。互补核苷酸一般是A和T (或A和U)、或C和G。当多核苷酸(RNA或DNA)链在选择性杂交条件下与其互补体杂交吋,则称两个单链RNA或DNA分子是基本上互补的。通常,当至少14至25核苷酸段中至少约65%互补、优选至少约75%、更优选至少约90%互补时,会发生选择性杂交。參见例如,M. Kanehisa, 1984, Nucleic Acids Res. 12 :203,在此通过引用并入。“与…互ネト”在本文用来表示互补序列与參考多核苷酸序列的全部或部分的反向互补体基本相同或相同,或者一条链中的姆个核苷酸能够与相反链中的核苷酸或其类似物形成碱基对。“保守氨基酸取代”指具有相似侧链的残基的互換性,并且因此通常包括多肽中的氨基酸被相同或相似的氨基酸定义类别中的氨基酸所取代。作为例子而非限制,具有脂肪族侧链的氨基酸可以被另一脂肪族氨基酸例如丙氨酸、缬氨酸、亮氨酸、异亮氨酸和甲硫氨酸所取代;具有羟基侧链的氨基酸被另ー个具有羟基侧链的氨基酸例如丝氨酸和苏氨酸所取代;具有芳香族侧链的氨基酸被另ー个具有芳香族侧链的氨基酸例如苯丙氨酸、酪氨酸、色氨酸和组氨酸所取代;具有碱性侧链的氨基酸被另ー个具有碱性侧链的氨基酸例如赖氨酸、精氨酸和组氨酸所取代;具有酸性侧链的氨基酸被另ー个具有酸性侧链的氨基酸例如天冬氨酸或谷氨酸所取代;和疏水或亲水氨基酸分别被另ー个疏水或亲水氨基酸所替代。“控制序列”指用于实现与它们相关的编码序列和非编码序列的表达的多核苷酸序列。这种控制序列的性质根据宿主生物体而不同。控制序列一般包括启动子、核糖体结合位点和转录终止序列。术语“控预期包括其存在可以影响表达的成分,并且还可以包括其存在是有利的其他成分,例如前导序列和融合配偶体序列。在多核苷酸或多肽序列突变的上下文中使用的“确定的差异”指对序列先验指定、选定和/或期望的改变(例如,在多核苷酸序列选定位置的核苷酸从c变为g,导致编码多肽的期望位置处的不同氨基酸)。本文使用的“简并密码子”指用于代表ー组不同密码子的密码子(也称为“多义密码子,,)。例如,简并密码子“NNT”代表具有碱基三联体序列(A、C、T或G) / (A、C、T或G) /T的ー组16个密码子,其编码ー组15个不同氨基酸F、S、Y、C、L、P、H、R、I、T、N、V、A、D和G。本领域公知且用于本公开方法的示例性简并密码子包括NHT、NNB, NNG, NNK, NNN, NNS、NNT、NDT、RMG、RNG、RRS、SNT、VNS、VNT 和 VWG。有关多肽或多核苷酸的“缺失”指分别从參考多肽或多核苷酸除去ー个或多个氨基酸或核苷酸。缺失可以包括除去I个或更多氨基酸或核苷酸、2个或更多氨基酸或核苷酸、3个或更多氨基酸或核苷酸、5个或更多氨基酸、6个或更多氨基酸或核苷酸、10个或更多氨基酸或核苷酸、15个或更多氨基酸或核苷酸、或20个或更多氨基酸或核苷酸、构成參考多肽或多核苷酸的氨基酸或核苷酸总数的最多10 %、或构成參考多肽或多核苷酸的氨基酸或核苷酸总数的最多20%。缺失可以针对多肽或多核苷酸的内部部分和/或末端部分。在各种实施方案中,缺失可以包括连续的区段或者可以是不连续的。
当涉及核酸或多肽使用吋,“异源的”表示序列包括发现彼此的关系与天然正常发现的关系不同的两个或多个子序列,或者序列被重组工程化而使得其表达水平、或者与细胞中其他核酸或其他分子的物理关系或结构不是天然正常发现的。例如,异源核酸通常是重组产生的,具有来自不相关的基因、以天然未发现的方式安排的两个或多个序列;例如,本发明的核酸可读框(ORF)可操作连接至插入表达盒例如载体的启动子序列。“通入”或“添血”指与參考序列诸如例如野生型序列相比,通过分别添加一个或多个核苷酸或氨基酸残基的核苷酸或氨基酸序列改变。“文座”指ー组(例如,多个)异源多肽或核酸。文库由成员构成,每个成员具有单一多肽或核酸序列。就此而言,“文库”与“所有组成成分”同义。文库成员之间的序列差异导致了文库中存在的多祥性。文库可以采取多肽或核酸的单纯混合物形式,或者可以是用核酸文库转化的生物体或细胞例如细菌、病毒、动物或植物细胞和类似形式。“非保守取代”指多肽中的氨基酸被具有显著不同的侧链性质的氨基酸取代。非保守取代可以使用所定义的组之间而非之内的氨基酸,并且影响(a)取代区域中肽主链的结 构(例如,脯氨酸取代甘氨酸),(b)电荷或疏水性,或(C)侧链体积。作为例子而非限制,示例性的非保守取代可以是用碱性或脂肪族氨基酸取代酸性氨基酸;用小氨基酸取代芳香族氨基酸;和用疏水性氨基酸取代亲水性氨基酸。“天然存在的”或“野生型”指自然中发现的形式。例如,天然存在的或野生型多肽或多核苷酸序列是可以从天然来源分离的生物体中存在的并未通过人工操作有意修饰的序列。“核碱基”或“碱基”指对利用核酸或多核苷酸技术或利用聚酰胺或肽核酸技术来由此产生可以序列特异性方式与多核苷酸杂交的聚合物的技术人员公知的那些天然存在的和合成的杂环部分。适合的核碱基的非限制性实例包括腺嘌呤、胞嘧啶、鸟嘌呤、胸腺嘧啶、尿嘧啶、5-丙炔基-尿嘧啶、2-硫代-5-丙炔基-尿嘧啶、5-甲基胞嘧啶、假异胞嘧啶、2-硫代尿嘧啶和2-硫代胸腺嘧啶、2-氨基嘌呤、N9-(2-氨基-6-氯嘌呤)、N9_(2,6- ニ氨基嘌呤)、次黄嘌呤、N9-(7-脱氮-鸟嘌呤)、N9-(7-脱氮-8-氮杂-鸟嘌呤)和NS-(7-脱氮-8-氮杂-腺嘌呤)。适合的核碱基的其他非限制性实例包括Buchardt等人(W0 92/20702或WO 92/20703)的图2(A)和2 (B)中说明的那些核碱基。“核碱基聚合物”或“寡聚物”指通过允许得到的核碱基聚合物或寡聚物与具有互补核碱基序列的多核苷酸杂交的键连接的两个或多个核碱基。核碱基聚合物或寡聚物包括但不限于多核苷酸和寡核苷酸(例如,DNA和RNA聚合物和寡聚物)、多核苷酸和寡核苷酸类似物和多核苷酸和寡核苷酸模拟物,例如聚酰胺或肽核酸。核碱基聚合物或寡聚物的尺寸可以是从几个核碱基、2至40个核碱基,到数百个核碱基、数千个核碱基或更多。“可操作连接”指两个或多个核酸(例如,DNA)区段之间的功能关系。在一些实施方案中,它指转录调控序列与转录序列的功能关系。例如,如果启动子(下文定义)刺激或调节编码序列例如本发明的核酸在适当的宿主细胞或其他表达系统中的转录,则所述启动子与所述编码序列可操作连接。一般而言,与转录序列可操作连接的启动子转录调控序列与转录序列物理上连续,即,它们是顺式作用的。然而,一些转录调控序列例如增强子不一定与它们增强转录的编码序列物理上连续或位置紧靠。在一些实施方案中,调控序列是与编码序列连接的翻译调控序列。
“重叠区”指第一多核苷酸中与第二多核苷酸互补的区域,其中重叠区能够相互退火形成杂交复合物。一般而言,第一多核苷酸和第二多核苷酸将部分重叠,使得多核苷酸具有在两个多核苷酸之间不退火的非互补区。“迹迎”指来自给定有限组的组成部分(例如,取代突变)的安排。在本文针对多肽和多核苷酸的描述的上下文中,通常表征为“突变”的与參考序列的氨基酸残基或核苷酸残基差异可以各种组合安排在序列中以形成突变组的排列。排列包括单突变以及可能来自确定组的每个突变组合。“多核苷酸”或“寡核苷酸”指其中核碱基通过糖磷酸键(糖磷酸骨架)连接的核碱基聚合物或寡聚物。示例性的多核苷酸和寡核苷酸包括2’脱氧核糖核苷酸的聚合物(DNA)和核糖核苷酸的聚合物(RNA)。多核苷酸可以完全由核糖核苷酸构成、完全由2’脱氧核糖核苷酸构成、或者由两者的组合构成。“多核苷酸”或“寡核苷酸类似物”指其中核碱基通过包括一个或多个糖磷酸类似物的糖磷酸骨架连接的核碱基聚合物或寡聚物。典型的糖磷酸类似物包括但不限于糖烷 基膦酸、糖亚磷酰胺、糖烷基-或取代的烷基膦酸三酷、糖硫代磷酸、糖ニ硫代磷酸、其中糖不是2’ -脱氧核糖或核糖的糖磷酸和糖磷酸类似物、具有正电荷糖-胍基互连的核碱基聚合物,例如美国专利号6,013, 785和美国专利号5,696,253中描述的那些(还參见Dagani1995, Chem. Eng. News 4-5 :1153 ;Dempey 等人,1995,J Am Chem Soc 117:6140-6141)。其中糖是2’ -脱氧核糖的此类带正电荷的类似物被称为“DNG”,而其中糖是核糖的那些被称为“RNG”。多核苷酸和寡核苷酸类似物的定义明确包括锁核酸(LNA ;參见例如Elayadi等A,2002,Biochemistry 41 :9973-9981 ;Koshkin等人,1998,J Am Chem Soc 120 :13252-3 ;Koshkin 等人,1998, Tetrahedron Letters 39 :4381-4384 ;Jumar 等人,1998, Bioorganic& Medicinal Chemistry Letters 8 :2219-2222 ;Singh和Wengel, 1998,Chem. Commun. ,12 1247-1248 ;W0 00/56746 ;W0 02/28875 ;和 WO 01/48190 ;全部在此通过引用整体并入)。“引物”指与靶序列具有序列互补性的寡核苷酸,靶序列一般称为弓I物结合序列。引物的互补部分可以是支持引物和靶序列在反应条件下特异性且稳定杂交的任何长度。引物可以是约5至60核苷酸长、约10至35核苷酸长,或者可以自特别是10、11、12、13、14、
15、16、17、18、19和/或20核苷酸长起。一般而言,用于通过聚合酶复制的引物能够支持当引物与靶序列退火时通过聚合酶的延伸。“扩增引物”指用于扩增靶核酸序列的寡核苷酸引物。“正向引物”和“反向引物”指一组扩增引物,其中一个引物与革巴(模板链)的3’端退火,而另ー引物与互补靶链的3’端退火以扩增扩增子。本文使用的“简并引物,,指包括在确定差异的位置的至少ー个简并密码子的引物。因此,尽管术语“简并引物”是单数,但它指除了确定差异的位置外具有相同序列的ー组寡核苷酸。另外,本文使用的“简并引物”可以包括在确定差异的位置的超过ー个简并密码子(例如,NNT/VWG)和/或特定密码子(例如,TGG/TTC或NNT/VWG/TGG)的混合。简并引物可用于PCR反应以产生“简并扩增子”,其然后可根据本公开方法用于组装和复制“简并多核苷酸变体”(例如,编码在几个确定的氨基酸序列位置的每ー个具有所有20种天然氨基酸的多肽变体文库的多核苷酸变体。“接近”指从ー个确定的碱基(例如,第一核苷酸突变)到另ー个确定的碱基(例如,第二核苷酸突变)的核苷酸距离,其中第一和第二突变可以容纳于用于扩增目的的单个寡核苷酸引物(例如,正向引物或反向引物)中。因此,在一些实施方案中,术语“接近”根据引物的长度来确定。在一些实施方案中,如果两个突变相隔1、2、3、4、5、6、8、10、12、14、
16、18、20或25个核苷酸碱基并且在引物内,则它们可以是接近的。在一些实施方案中,突变相对于引物3’端的位置使得与模板链退火的寡核苷酸能够经历通过聚合酶的延伸,这在下文详细描述。“蛋白”、“多肽”、“寡肽”和“肽”可互換使用来表示通过酿胺键共价连接的至少两个氨基酸,而不论长度或翻译后修饰(例如,糖基化、磷酸化、脂化、豆蘧酰化、泛素化、等等)。该定义包括D-氨基酸和L-氨基酸、以及D-氨基酸和L-氨基酸的混合物。涉及例如细胞、核酸、多肽、表达盒或载体使用吋,“重组”指材料或对应于所述材料的天然或天生形式的材料已经通过重组技术引入新部分或改变现有部分而被修饰,或者与所述材料的天然或天生形式相同但使用重组技术从合成材料产生或衍生。例如,重组细 胞表达天生(非重组)形式的细胞中未发现的基因(即,“外源核酸”)或者另外地以不同水平表达、通常低表达或完全不表达的其他方式表达天生基因。“参考序列”指用作序列比较基础的确定序列。參考序列可以是较大序列的子集,例如,全长基因或多肽序列的一段。一般而言,參考序列是至少20个核苷酸或氨基酸残基的长度、至少25个残基的长度、至少50个残基的长度、或核酸或多肽的全长。因为两个多核苷酸或多肽可以各自(I)包括在两个序列之间相似的序列(即,完整序列的一部分),和
(2)可以还包括在两个序列之间不同的序列,所以两个(或多个)多核苷酸或多肽之间的序列比较通常通过比较两个多核苷酸或多肽在“比较窗ロ ”上的序列以鉴定和比较序列局部区域的相似性来进行。“复制”指拷贝靶多核苷酸序列以合成所述多核苷酸的反向互补拷贝。一般而言,复制通过拷贝模板多核苷酸来合成作为靶多核苷酸序列的反向互补体的多核苷酸的聚合酶来进行。“区段”指作为较大多核苷酸序列的一部分的序列。较大多核苷酸序列可以分割成多个区段,其中所述区段的组合构成所述较大多核苷酸序列的全长。本文使用的“多肽变体”或“多肽类似物”指包括具有功能活性的区段、有或没有保留任何改善的性质并且与參考多肽的一部分基本相同的多肽。在一些实施方案中,多肽类似物与參考序列相比包括一个或多个氨基酸残基的保守或非保守氨基酸取代或添加或缺失。“Watson/Crick碱基配对”指通过序列特异性氢键结合在一起的核碱基和类似物的特异性配对模式,例如A与T和U配对,G与C配对。“取代”指与參考序列诸如例如野生型序列相比,一个或多个核苷酸或氨基酸分别被不同的核苷酸或氨基酸替代。“基底”、“支持体”、“固体支持体”、“固体载体”或“树脂”是可互換使用的术语,并且指任何固相材料。基底还包括诸如“固相”、“表面”和/或“膜”等术语。固体支持体可以包括有机聚合物,例如聚苯こ烯、聚こ烯、聚丙烯、聚氟こ烯、聚こ烯氧和聚丙烯酰胺及其共聚物和接枝物。固体支持体还可以是无机的,例如玻璃、ニ氧化硅、可控孔度玻璃(CPG)、反相ニ氧化硅或金属例如金或钼。基底的构造可以是珠、球、粒子、颗粒、凝胶、膜或表面的形式。表面可以是平的、大体上平的或不平的。固体支持体可以是多孔的或无孔的,并且可以具有溶胀或非溶胀特征。固体支持体可以被配置为孔、凹陷或其他器皿、容器、特征或位置的形式。多个支持体可以被配置在对于机器人递送(robotic delivery)试剂或检测方法和/或仪器可寻址的各个位置的阵列上。“阵列”指物质(例如,蛋白、抗体、可复制的遗传包(genetic packages))在基底上定位不同的位置安排。在一些实施方案中,阵列上的物质是空间上编码的,使得物质的身份可以从其在阵列上的位置来确定。“微阵列”一般指其中检测需要使用显微检测以检测物质在基底上形成的复合物的阵列。阵列上的“位置”指包括物质的阵列表面上的定位区域,每个位置被定义使得其可以与相邻位置区分(例如,在整个阵列上定位,或者具有某种可检测的特征,这允许ー个位置与其他位置相区分)。位置可以具有任何适宜的形状(例如,圆形、矩形、椭圆形或楔形)。位置的大小或面积可以显著不同。阵列可以在基底例如玻璃或塑料载玻片上构建,并且可以配置为孔、凹陷、小滴或其他器皿或反应容器例如微量板孔的形式。一般而言,阵列格式上没有限制,只要放置物质的个体位点可以被定位和鉴定。“反应室”表示其中物质和/或反应组分出现的环境。商业途径可获得的反应容器 含有至少ー个反应室,而可以含有8、24、96或384个反应室。出于本公开目的,“反应室”、“孔”、“反应位点”可互換使用。反应室的ー个实例是96孔微量滴定板中96个微量滴定孔之一。“引物阵列”指基底(例如,阵列基底)上定位不同的位置中扩增反应使用的引物或弓I物组的阵列。一般而言,引物组包括用于扩增扩增子的ー对正向弓I物和反向引物。“扩增子阵列”指基底(例如,阵列基底)上定位不同的位置中扩增的多核苷酸的安排。在一些实施方案中,扩增子阵列可以具有与引物阵列相同的位置安排,例如当扩增反应在引物阵列中进行以产生扩增的多核苷酸吋。“质粒”、“载体”和“盒”指经常携带基因井目.通常是环状双链DNA分子形式的染色体外元件。此类元件可以是衍生自任何来源的单链或双链DNA或RNA的线性或环状的自主复制序列、基因组整合序列、噬菌体或核苷酸序列,其中许多核苷酸序列已经连接或重组成独特构造,该独特构造能够将启动子片段和选定基因产物的DNA序列与适合的3'非翻译序列一起引入细胞。“表达盒”指含有外来基因并且除了外来基因还具有允许该基因在宿主中表达的元件的特定载体。5. 2合成多核苷酸变体的方法本公开提供了产生与參考多核苷酸序列相比具有确定组的序列差异的多核苷酸变体的方法。在一些实施方案中,所述方法适用于产生编码与參考多肽相比具有确定的氨基酸序列差异的多肽的多核苷酸。在一些实施方案中,多核苷酸变体在非编码区具有确定的一组核苷酸差异,例如沉默突变。多核苷酸通过使用多核苷酸片段文库有效产生,其中文库成员编码与參考多肽序列相比的氨基酸差异中的ー个或多个,并且多核苷酸片段被设计为具有重叠相邻区,使得有和没有突变的适合组的片段的选择允许其组装成多核苷酸变体,例如编码期望多肽变体的多核苷酸。在一些实施方案中,用于产生编码具有一个或多个确定的氨基酸残基差异的氨基酸序列的多肽的多核苷酸的方法包括(a)选择相对于參考氨基酸序列的多个确定的氨基酸残基差异;(b)确定编码具有不同氨基酸序列的多肽或者任选地參考多肽的多核苷酸序列的重叠区段,每个区段被一组正向引物结合序列和反向引物结合序列所结合,其中编码多个氨基酸残基差异的每一个的多核苷酸序列差异包含在与引物结合序列结合的正向引物和/或反向引物的序列中;(C)用该组正向引物和反向引物扩增每个区段,其中选定的正向引物和/或反向引物包含多核苷酸序列差异,以产生包括编码确定的氨基酸差异的成员的扩增子文库,并且其中所述文库包括足以组装确定的氨基酸残基差异的两个或多个不同氨基酸序列排列的成员;(d)从所述文库组装具有互补相邻区的一组扩增子,其一起编码具有一个或多个确定的氨基酸残基差异的确定的氨基酸序列排列的多肽;和(e)复制该组组装的扩增子以合成编码多肽的多核苷酸。含有所有确定的氨基酸差异的扩增子文库应该允许编码所有可能的氨基酸序列排列的多个多核苷酸的合成。对技术人员明显的是,选择多个确定的氨基酸残基差异可以获自各种来源。在一些实施方案中,确定的多肽的氨基酸残基位置和相应突变可以获自随机诱变研究,例如描述于 Crameri 等人,1998,“DNA shuffling of a family of genes from diverse speciesaccelerates directed evolution (来自多样物种的基因家族的DNA改组加速定向进化),,Nature 391 :288-291 ;Crameri 等人,1997, “Molecular evolution of an arsenatedetoxification pathway by DNA shuffling(通过DNA改组对砷酸盐解毒途径的分子 进化),,Nature Biotech 15 :436-438 ;Zhang 等人,1997, “Directed evolution of aneffective fructosidase from a galactosidase by DNA shuffling and screening(通过DNA改组和筛选从半乳糖苷酶定向进化有效的果糖苷酶)"Proc Natl Acad Sci USA 94:45-4-4509 ;Crameri 等人,1996, “ Improved green fluorescent protein by molecularevolution using DNA shuffling(通过使用DNA改组的分子进化改善绿色突光蛋白),Nature Biotech 14:315-319 ;Stemmer,1994, “Rapid evolution of a protein invitro by DNA shuffling(通过 DNA 改组在体外快速进化蛋白)”Nature 370:389-391;Stemmer,1994, “DNA shuffling by random fragmentation and reassembly :In vitrorecombination for molecular evolution (通过随机片段化和重新组装的DNA改组用于分子进化的体外重组)” Proc Natl Acad Sci USA 91 :10747-10751 ;W0 95/22625 ;W097/0078 ;W0 97/35966 ;W0 98/27230 ;W0 00/42651 ;W0 01/75767 和美国专利 6,537,746。所有出版物在此通过引用并入。通常,诱变的多核苷酸文库被表达并根据期望性质的性状筛选所表达的多肽,并且鉴定与期望性质改变相关的突变。影响多肽功能的大量突变可以使用这些技术容易地获得。在一些实施方案中,氨基酸残基差异的选择可以获自相关蛋白氨基酸序列的比较,所述氨基酸序列例如序列数据库中发现的那些。序列比较可以鉴定可能对蛋白功能重要的位置例如保守残基,其然后可以成为确定的氨基酸改变的目标。參见例如Wankhade等人,2000,J. Biol. Chem. 275 (38) :29701-29708 和 Reddy 等人,2001,Proteins Structure,Function, and Genetics 42 :148_163。在一些实施方案中,多个确定的氨基酸残基差异可以基于天然发现的序列差异,例如对特定基因发现的多态性。在一些情况下,多态性与特定的生物效应和相关表型有夫。參见例如 Bidwell 等人,1999, Genes and Immunity I :3-19 ;Chen 等人,2003, Mol. Biol.Evo. 18 :1771-1788。多态性的采集可以构成确定多个氨基酸残基差异的基础以生成參考氨基酸序列的变体多肽。不同氨基酸多态性的组合可用于检验特定蛋白的功能。当确定与參考多肽相比的多个氨基酸残基差异时,编码參考多肽或多肽变体的多核苷酸可用作用于鉴定用于确定待产生的扩增子的区段的基础,所述扩增子用于产生多核苷酸片段(即,扩增子)文库。在一些实施方案中,多核苷酸序列不必限于任何特定序列,只要它编码感兴趣的氨基酸序列,或者可用作产生编码感兴趣的氨基酸序列的多核苷酸的基础。多核苷酸可以基于天然存在的(例如,野生型)序列或为在特定感兴趣的生物体中表达而优化(例如,密码子优化)的序列。例如,如果感兴趣的多肽将在大肠杆菌中表达,则可以使用其中为在大肠杆菌中表达而优化密码子的多核苷酸序列。密码子优化技术是本领域技术人员公知的。对于技术人员明显的是,将多核苷酸分割成用于扩增的确定区段可以使用本领域公知的技术来完成。在一些实施方案中,因为区段由引物结合序列所确定,而引物结合序列本身用于将突变引入扩增子,多核苷酸分割成区段可以最初考虑突变在多核苷酸上的位置。多核苷酸分割成区段还可以考虑多核苷酸的总长、复制(例如,区段的扩增)效率和用于组装的扩增子的期望数目。其他考虑对于技术人员也将是明显的。
扩增反应可能受序列、使用的聚合酶类型、引物效率和不想要的副反应(例如,弓丨物ニ聚体)所影响。因此,在一些实施方案中,根据要组装的多核苷酸的总长,区段长度可以是2000个碱基或更少、1500个碱基或更少、1200个碱基或更少、1000个碱基或更少、900个碱基或更少、800个碱基或更少、700个碱基或更少、600个碱基或更少、500个碱基或更少、400个碱基或更少、300个碱基或更少、250个碱基或更少、或200个碱基或更少至长度约100或少如约50个碱基。一般而言,区段长度是约50至约1000个碱基、约200至1000个碱基、约300至700个碱基、或约400至600个碱基,鉴于在扩增反应中使用的聚合酶效率,约500个碱基是有用的平均长度。在不同实施方案中,区段是重叠的,使得由此产生的扩增子还具有用于组装多核苷酸的重叠相邻区(即,重叠互补区)。在一些实施方案中,相邻重叠区应该具有足够长度和互补性以允许在多核苷酸组装过程中形成稳定退火(即,杂交)的扩增子。因此,在一些实施方案中,如形成稳定退火的扩增子的能力所许可的,重叠长度可以是4个或更多核苷酸、5个或更多核苷酸、6个或更多核苷酸、8个或更多核苷酸、10个或更多核苷酸、15个或更多核苷酸、20个或更多核苷酸、25个或更多核苷酸、30个或更多核苷酸、40个或更多核苷酸、50个或更多核苷酸,和100或更少、90或更少、80或更少、70或更少、60或更少的核苷酸长度。因为重叠区一般包括用于产生扩增子的引物结合序列,重叠的长度可以考虑用于产生编码待引入的突变的多核苷酸差异的引物(例如,正向和/或反向)的任何序列差异。在一些实施方案中,区段被与正向/反向引物退火的引物结合序列结合。适当时,确定区段的引物结合序列还可以包括编码氨基酸序列差异的多核苷酸的位置。引物结合序列可以具有任何足以在扩增反应过程中与引物(正向或反向)退火的长度。因此,引物结合序列可以是100个碱基或更少、90个碱基或更少、80个碱基或更少、70个碱基或更少、60个碱基或更少、50个碱基或更少、40个碱基或更少、30个碱基或更少、20个碱基或更少、15个碱基或更少至约8个碱基或10个碱基。在一些实施方案中,引物结合序列的长度可以包括约8至50个碱基、约8至40个碱基、约10至30个碱基、或约15至25个碱基。引物通常可以包括与上述弓I物结合序列互补的长度。因此,在一些实施方案中,正向/反向引物的长度可以是约60个核苷酸或更少、50个核苷酸或更少、40个核苷酸或更少、30个核苷酸或更少、20个核苷酸或更少、15个核苷酸或更少至约10个核苷酸或甚至8个核苷酸。在ー些实施方案中,正向/反向引物的长度可以是约8至50个核苷酸、约8至40个核苷酸、约10至30个核苷酸、或约15至25个核苷酸。当引物含有编码确定的氨基酸差异的序列时,突变可以位于不干扰引物延伸的引物区域。在一些实施方案中,突变位于诱变弓I物的大约中间,其中引物具有足以与模板核酸退火的Tm并且用作用于聚合酶介导的延伸反应的引物。在一些实施方案中,根据引物的长度,多核苷酸序列差异可以位于从引物3’端约5个碱基、6个碱基、8个碱基、10个碱基、12个碱基、15个碱基、20个碱基、25个碱基。因此,在一些实施方案中,正向/反向引物的长度可以是约8至50个核苷酸、约8至40个核苷酸、约10至30个核苷酸、或约15至25个核苷酸,并且还包括在引物大约中间处的核苷酸序列差异。因此,在一些实施方案中,正向/反向引物长约50个核苷酸,核苷酸差异距离3’端约25个核苷酸;长约40个核苷酸,核苷酸差异距离3’端约20个核苷酸;长约30个核苷酸,核苷酸差异距离3’端约15个核苷酸;长约25个核苷酸,核苷酸差异距离3’端约12个核苷酸;或者长约20个核苷酸,核苷酸差 异距离3’端约10个核苷酸。寡核苷酸引物的稳定性,例如热熔解温度,是离子强度、温度、G/C含量和离液剂存在的函数,并且可以使用预测熔解温度的已知方法来计算(參见例如,Baldino等人,Methods Enzymology 168 :761-777 ;Bolton 等人,1962, Proc. Natl. Acad. Sci. USA48 1390 ;Bresslauer 等人,1986, Proc. Natl. Acad. Sci USA 83 :8893-8897 ;Freier 等人,1986, Proc. Natl. Acad. Sci USA 83 :9373-9377 ;Kierzek 等人,Biochemistry 25:7840-7846 ;Rychlik 等人,1990,Nucleic Acids Res 18 :6409-6412 (勘误,1991,NucleicAcids Res 19 :698) ;Sambrook 等人,2001, Molecular Cloning A Laboratory Manual (分子克隆实验室手册' ),第 3 版,Cold Spring Harbor Laboratory Press, NY ;Suggs 等人,1981,于 Developmental Biology Using Purified Genes (使用纯化基因的发育生物学)(Brown 等人,编),pp. 683-693, Academic Press ;和 Wetmur, 1991, Crit Rev Biochem MolBiol 26:227-259。所有出版物在此通过引用并入)。为了产生扩增子文库,在扩增反应中使用与多核苷酸的每个区段的引物结合序列退火的正向引物和反向引物来产生扩增子。当扩增子相对于參考序列具有编码确定的氨基酸变化的多核苷酸差异时,正向引物和/或反向引物的序列被设计为在扩增反应中弓I入不同的序列(即,突变)。使用适合的正向引物和/或反向引物的组合来产生扩增子文库,该扩增子文库包括能够编码多个氨基酸残基差异的每ー个的成员。在一些实施方案中,正向引物和反向引物组可以阵列例如引物阵列储存,使得它们可以在需要扩增子来合成编码确定的氨基酸序列排列的多核苷酸时容易被访问。如本领域所了解的,寡核苷酸引物可以用于引入确定的多个氨基酸残基差异中选定的任何类型的突变,包括但不限于氨基酸插入、缺失和取代。取代可以是保守取代或非保守取代,由选定的多个氨基酸残基差异決定。本文公开的合成多个多核苷酸变体的方法的ー个优势是它们可以提供高度多祥性但明确的核苷酸差异的极大型文库,允许更有效地探索序列多祥性空间。例如,可以产生其中每个变体仅具有单个确定的核苷酸差异的大型文库。此类文库提供了可以更大置信度筛选和分析的序列多祥性的普查,所鉴定的结构-功能关系是准确的。(例如,较少的假阳性和假阴性)。所述方法以高准确性(例如,75^,85%, 95%或更多的正确全长序列)产生多核苷酸变体序列大型文库的能力极大增强了产生和分析此类文库的优势。因此,在ー些实施方案中,使用所述方法合成的多个多核苷酸变体可以包括至少10、20、30、40、50、100、200或更多不同的多核苷酸变体,其中每个变体包括在10、20、30、40、50、100、200或更多不同选定位置之一的不同的确定的核苷酸差异(即,10、20、30、40、50、100、200或更多不同的単位点突变体)。在一些实施方案中,超过ー种氨 基酸序列差异可以存在于多肽序列中相同的氨基酸残基位置。在这些实施方案中,可以产生来自相同重叠区段的不同扩增子,其中每个扩增子使用针对相同残基位置的每个确定突变的正向引物和反向引物对来制备。为了制备在特定氨基酸残基位置编码特定序列排列的多核苷酸,含有期望突变(即,确定的核苷酸差异)的扩增子之一被选择并组装为扩增子组的成员以产生编码在所指定的氨基酸残基位置含有期望突变的多肽的多核苷酸。在一些实施方案中,可以使用超过ー对引物(例如,一组简并引物)来产生ー组扩增子(即,多核苷酸片段),其可用来组装编码在特定确定位置具有多个氨基酸残基变化(例如,取代)的多肽的ー组多核苷酸变体。使用简并引物制备的扩增子组装的多核苷酸变体可以在測定其编码的多肽之前或之后测序,以确定感兴趣位置的特定序列。在一些实施方案中,多个简并引物(例如,每个引物在选定的突变位置具有不同密码子)可以被单独扩增(例如,第I轮反应)以产生多个“简并扩增子”。如此产生的简并扩增子的每个单独的孔(或“池”)包括多个不同的扩增子,这些扩增子除了使用的简并引物序列所确定的确定差异位置外具有相同序列。这些简并扩增子(在ー个或多个位置具有多个确定的核苷酸差异)然后可以用ー个或多个重叠扩增子(“同源”扩增子或简并扩增子池)单独扩增和复制(例如,在第2轮SOE-PCR反应中)以产生全长“简并多核苷酸变体”的单独孔,其中多核苷酸变体包括含有在第一歩中使用的简并扩增子中设计的所有确定的差异的变体序列。例如,简并引物被设计为具有确定的核苷酸差异,包括简并密码子(例如,NNK,或NNT、VWG和TGG的23密码子组),代表在编码多肽的3个位置的20个氨基酸。这些简并引物可在6个单独的第I轮PCR反应中与參考多核苷酸模板一起使用以产生6个简并扩增子池(即,针对确定的核苷酸差异的3个位置的每ー个的ー对重叠的简并扩增子)。在3个单独的第2轮SOE-PCR反应中单独组装和复制三对重叠简并扩增子的每一対,得到全长多核苷酸变体的三个单独池,每个池含有编码在靶向突变的3个选定位置的每ー个具有所有20种不同氨基酸的一组简并多肽变体的多核苷酸。尽管3个单独的池可以保持为在3个选定位置的每ー个具有完全简并性的3个成员的多核苷酸变体的可寻址文库,但通过破坏寻址能力并在单个池中组合文库的所有三个成员,可以实现转化和筛选效率的惊人优势(特别是对于较大的文库)。因此,组合简并多核苷酸变体的3个池,得到编码在3个靶向位置的每ー个处具有所有可能的氨基酸的60个多肽的多核苷酸的池化文库。该池化文库包括在3个靶向位置编码完全氨基酸序列多祥性(例如,饱和诱变)的明确组多核苷酸变体。然后,池化文库可以被克隆入表达系统,在单一反应中转化,平板接种,挑取,并筛选。因为涉及第I轮和第2轮步骤的合成方法导致高水平的准确度(例如,75%、85%、95%或更多的期望全长变体),可以挑取相对小量的菌落并筛选以访问多肽变体文库的75 %、85 %、95 %、99 %或甚至更大的筛选覆盖率。对于技术人员明显的是,在一些实施方案中,采用简并引物(以及得到的简并扩增子)的方法可用来制备在每个位置具有确定差异的多核苷酸变体。在一些实施方案中,预期使用该方法来提供“饱和诱变”文库,其中每个多核苷酸变体成员具有包括在參考多核苷酸序列的不同选定位置的23个不同密码子之一的不同序列。因此,在一些实施方案中,所述方法能够提供多个多核苷酸变体,包括至少23、46、69、92、115、230、460、920或更多不同的多核苷酸变体,每一个包括在1、2、3、4、5、10、20、40或更多不同选定位置之一的23个不同密码子之一。普通技术人员将理解,在其他实施方案中,可以在确定的核苷酸差异位置使用更多或更少的密码子和/或每个变体中多个选定位置可以使用本文公开的方法突变。在一些实施方案中,本公开还提供了变体总数目可以通过在确定差异的不同位置在引物中混合或多或少的简并性来控制。因此,所述方法允许在ー个或多个选定位置进行完全饱和诱变,同时在多核苷酸的其他选定位置引入単一确定差异或较小子集的简并性。例如,在包括在三个位置的确定差异的相同參考多核苷酸序列中,在突变的第一选定位置 可存在仅I个确定差异(例如,G变为T),在第二选定位置可存在编码15个不同氨基酸的简并密码子(例如,NNT),并且在第三选定位置可存在用于代表编码20个氨基酸的23个密码子的两个简并密码子和ー个特定密码子(例如,NNT、VffG和TGG)。在一些实施方案中,它可用于产生在ー组选定位置包括多个核苷酸差异的多样排列的多核苷酸变体文库。因此,在本公开的ー些实施方案中,合成多核苷酸变体的方法可以如下进行,其中第I轮PCR步骤采用在选定位置包括确定差异的诱变引物和在选定位置没有差异(即,在选定位置与參考多核苷酸相同的序列)的非诱变引物的混合物。通过在第I轮PCR扩增中使用具有确定比例的诱变引物非诱变引物的混合物,得到的扩增子包括在靶向位置有或没有确定差异的序列的混合物。通过在池化的第2轮SOE-PCR反应中组装和复制该扩增子混合物,产生在该组选定位置具有随机混合的确定核苷酸差异的多核苷酸变体文库。例如,对于在13个靶向位置的每ー个设计I个确定差异(例如,I个特定密码子取代)和I : 2比例的诱变引物非诱变引物,得到的多核苷酸变体池包括具有I至13个确定差异的多核苷酸的随机混合。因此,本文公开的方法的该实施方案提供了产生在靶向位置具有确定差异的组合的多核苷酸变体的组合文库的快速简易方式。在用于产生组合文库的该方法的一个实施方案中,多个引物混合物在多个第I轮PCR反应中单独扩增以产生多个具有重叠区的扩增子池(例如,当每个引物包括一个确定差异时,对于N个靶向位置的N+1个扩增子池)。然后,如此产生的多个扩增子池在单个第2轮SOE-PCR反应中组合。得到的多核苷酸变体池包括在靶向位置的确定差异(例如,编码氨基酸变化的核苷酸变化)的随机混合。可选地,多个引物混合物可以在单个第I轮PCR反应中组合并扩增以产生单个混合扩增子池。不必进一歩混合扩增子,进行扩增子的第2轮SOE-PCR组装和复制以产生包括随机混合的多核苷酸变体的池。对于技术人员明显的是,在一些实施方案中,针对多核苷酸序列确定的重叠区段可能不具有任何相关突变。此外,相同的区段在一个氨基酸序列排列中可能包括指定突变,但在ー些序列排列中可能不具有任何与区段相关的突变。因此,在一些实施方案中,扩增子文库可以包括在特定区段与參考序列相比没有任何多核苷酸序列差异的成员。与參考序列相比没有相关的序列变化的这些桥接多核苷酸可用作组装完整多核苷酸的连接体。通过适当选择区段,扩增子文库包括可用于组装相对于參考序列的确定氨基酸差异的至少两个或更多不同氨基酸序列排列的成员。例如,由氨基酸残基差异A和B确定的多个突变可具有以下排列単独A、単独B、或A和B。因此,扩增子文库具有足以产生独立具有A突变或B突变的氨基酸序列排列的成员。在一些实施方案中,扩增子文库具有足以产生相对于參考序列的确定氨基酸残基差异的每一个氨基酸序列排列的成员。因此,对于给定实例,扩增子文库具有足以产生独立具有A突变或B突变或A+B突变的氨基酸序列排列的成员。因为扩增子的大小对应于区段大小,扩增子可以是2000个碱基或更少、1500个碱基或更少、1200个碱基或更少、1000个碱基或更少、900个碱基或更少、800个碱基或更少、700个碱基或更少、600个碱基或更少、500个碱基或更少、400个碱基或更少、300个碱基或更少、250个碱基或更少、或200个碱基或更少至约100或少如约50个碱基的长度。一般而言,扩增子长度是约50至约1000个碱基、约200至1000个碱基、约300至700个碱基、或约400至600个碱基,鉴于在扩增反应中使用的聚合酶效率,约500个碱基或更少是有用的长度。在一些实施方案中,扩增子长度是约400个碱基或更少。 —般而言,扩增反应可以利用任何用于聚合酶介导的延伸反应的酶,例如Taq聚合酶、Pfu聚合酶、Pwo聚合酶、Tfl聚合酶、rTth聚合酶、Tli聚合酶、Tma聚合酶和Klenow片段。使用聚合酶链式反应扩增多核苷酸区段的条件可以遵循本领域已知的标准条件。參见例如,Sambrook 等人,2001,Molecular Cloning A Laboratory Manual (分子克隆实验室手册'),第 3版,Cold Spring Harbor Laboratory Press,NY和Ausubel 等人,1989, CurrentProtocols in Molecular Biology (现代分子生物学实验技术),Greene PublishingAssociates and Wiley Interscience, N. Y (更新至2008);參考内容在此通过引用并入。在一些实施方案中,每个扩增子的扩增可以在单独反应中进行,从而最大限度减少将ー个扩增子产物与另ー扩增子分离的需要。然而,两个或多个扩增子的扩增反应可以在单个反应中进行,并且产物可以例如通过电泳或色谱分离。在一些实施方案中,扩增反应的产物可以用外切核酸酶和磷酸酶的各种组合来处理,以除去剰余的引物和游离核苷酸(例如,外切核酸酶I和碱性磷酸酶的组合)。为了产生编码具有确定氨基酸序列排列的多肽的多核苷酸,具有互补重叠区的一组扩增子被选择并在允许互补重叠区相互退火的条件下组装。例如,扩增子可以被变性,然后允许退火以形成扩增子复合物,所述扩增子复合物一起编码相对于參考序列具有ー个或多个氨基酸残基差异的确定氨基酸序列排列的多肽。一般而言,每组扩增子的组装可以单独进行,使得编码ー个氨基酸序列排列的多核苷酸容易与编码不同氨基酸序列排列的另ー多核苷酸相区分。在一些实施方案中,组装可以在基底(例如,阵列)上的可寻址位置中进行,使得可以同时产生编码多个确定氨基酸序列排列的多个多核苷酸。在一些实施方案中,组装体可以被制备为使得多个(即,2个或更多)扩增子代表相同片段。从该组装反应得到的产物将包含含有确定的氨基酸序列差异的不同排列的多核苷酸的混合物。该混合物可以被直接克隆,并且变体可以在测定编码多肽之前或之后被测序。组装的扩增子使用聚合酶复制以合成编码感兴趣多肽的多核苷酸。在一些实施方案中,反应条件可以使用用于扩增反应的相同条件和聚合酶。组装的扩增子用作引物,使得单轮复制产生双份组装的扩增子。一般而言,在复制步骤中,可以添加与多核苷酸侧翼的引物结合序列(即,末端5’区域和末端3’区域)退火的引物以通过进行额外的扩增反应来扩增多核苷酸产物。在一些实施方案中,这些侧翼引物可以加入限制酶的识别序列以方便合成的多核苷酸产物克隆入质粒或载体,例如表达载体。在一些实施方案中,侧翼引物可以具有允许使用不需要转化入宿主生物体而合成蛋白产物的偶联的转录-翻译系统直接体外表达的序列。因此,一些侧翼引物可以加入对照序列以控制多肽编码区的表达。使用这种侧翼引物的扩增反应可以使控制序列与感兴趣的多肽编码区可操作连接。在一些实施方案中,所述多个氨基酸差异是至少2个。在一些实施方案中,所述多个氨基酸差异是至少2、3、4、5、6、7、8、9、10、11、12、13、14、15或更多。因此,确定的核苷酸差异的数目可以是2至45个或更多。“n”个确定氨基酸残基差异的排列数目由式n ! /(k ! (n-k) !给出,其中n是非互斥突变的数目,并且k是氨基酸差异数目,并且n !表示 阶乘运算符。在一些实施方案中,例如对于最低2个氨基酸残基差异的扩增子文库的大小是含有至少3个不同扩增子的文库大小。在一些实施方案中,文库大小是至少5、6、7、8、9、10、11或甚至更多不同的扩增子。例如,对于包含至少10个确定差异的多个变体,假设没有差异位置接近而使得每个引物包括超过I个差异,组装具有10个确定差异的变体时每个组装反应使用最多11个扩增子。假定在具有确定差异的多个位置的任何ー个期望多个不同突变,可以使用大得多的扩增子文库。因此,在一些实施方案中,扩增子文库可以包括至少
5、10、20、30、40、50、75、100或更多不同的扩增子。一旦已经合成扩增子文库,可以使用扩增子文库制备编码基于多个氨基酸残基差异的指定氨基酸序列排列的任何多核苷酸。在一些实施方案中,产生编码与參考多肽序列相比具有一个或多个确定的氨基酸残基差异的氨基酸序列的多肽的多核苷酸的方法包括以下步骤(a)组装具有互补重叠相邻区的一组扩增子,其中组装的一组扩增子包括编码与參考序列相比具有一个或多个确定的氨基酸残基差异的氨基酸序列的多核苷酸序列,其中扩增子选自具有编码多个氨基酸差异的成员的扩增子文库,和(b)复制该组组装的重叠多核苷酸片段以合成感兴趣的多核苷酸。在一些实施方案中,扩增子文库可用于产生编码确定的多个确定的氨基酸差异的任何排列的多核苷酸,方法包括(a)基干与參考氨基酸序列相比多个确定的氨基酸残基差异,产生不同于參考氨基酸序列的氨基酸序列的排列,(b)选择确定的氨基酸序列排列并基于參考序列确定相应的多核苷酸序列,(c)选择编码确定的氨基酸序列排列的一组重叠多核苷酸片段,其中至少每个编码氨基酸差异的重叠多核苷酸片段来自编码不同已知氨基酸残基差异的多个多核苷酸片段,其中多个片段具有足以组装编码至少两个不同氨基酸序列排列的多核苷酸的成员,(d)组装具有互补重叠相邻区的该组多核苷酸片段,和(e)复制该组组装的重叠片段以合成编码多肽的多核苷酸。对于每个期望的氨基酸序列排列,可以重复(b)至(e)的步骤。用于产生“n”数目的变体的扩增子的示例性过程示于图4。在所示例的实施方案中,该过程包括(a)输入參考序列和与该序列相关的突变列表,(b)产生基于突变列表的排列列表,(C)选择氨基酸序列的确定排列(即,变体I),(d)从扩增子文库(例如,图5中制备)鉴定重叠的多核苷酸片段,(e)确定变体数目,并且如果变体数目小于期望变体的总数,则重复步骤(a)至(d)。对于扩增子文库的有效合成,适当设计的寡核苷酸引物用于扩增反应。在ー些实施方案中,产生重叠多核苷酸片段文库的方法可以包括(a)基干与參考氨基酸序列相比的多个确定的氨基酸残基差异,产生不同于參考氨基酸序列的氨基酸序列的多个排列,对于每个排列(i)基于參考多核苷酸序列确定编码氨基酸序列的多核苷酸序列;(ii)扫描多核苷酸序列并鉴定编码氨基酸残基差异的多核苷酸序列变化,并任选地确定编码氨基酸序列排列中下一个氨基酸残基差异的下ー个多核苷酸序列变化的接近度;(iii)选择正向寡核苷酸引物,所述正向寡核苷酸引物具有编码氨基酸差异的序列,并且如果该下一个多核苷酸序列变化接近所述多核苷酸序列变化,任选地在相同正向引物中包括该下ー个多核苷酸序列变化;(iv)从正向引物位置扫描多核苷酸序列,直至鉴定下ー个多核苷酸序列变化或直至多核苷酸末端,并选择与正向寡核苷酸引物一起扩增多核苷酸片段的反向寡核苷酸引物,其中反向引物具有任选地编码氨基酸残基差异中下一个变化的序列;(V)对于编码氨基酸残基差异的多核苷酸序列的每个变化重复步骤(ii)至(iv),直至多核苷酸序列中的所有变化存在于寡核苷酸引物并到达多核苷酸序列末端;和(g)用每组正向寡核苷酸引 物和反向寡核苷酸引物扩增以产生具有编码氨基酸差异的成员的重叠扩增子的文库。在这些实施方案中,当多核苷酸序列的扫描达到多核苷酸末端吋,侧翼引物可与内部引物组合使用来完成扩增子的产生。用于选择适当正向引物和反向引物的示例性过程描述于图5。图5中,用于选择寡核苷酸引物的过程包括(a)基于參考序列选择变体(氨基酸序列排列)并产生其相应的多核苷酸序列,(b)产生针对具有第一突变的片段的正向寡核苷酸引物,(C)从第一个突变至下一个突变或至基因末端来扫描序列并产生针对下一个突变的反向寡核苷酸引物,(d)如果下ー个突变接近第一个突变,将所述下一个突变置于相同的正向寡核苷酸弓I物中,(e)重复步骤(b)至(d),直至到达多核苷酸变体n的末端。如上所述,在其中多核苷酸已经分隔成由一组正向引物和反向引物确定的重叠区段的一些实施方案中,所述正向引物和反向引物可能没有相关的突变。这可能发生的ー个情况是如果多核苷酸区段的大小因为有效合成扩增子的需要而受限制,例如约小于1000个碱基,使得并非所有区段具有确定的多核苷酸序列变化。在一些实施方案中,在基于上述方法制备寡核苷酸时,在选择反向引物的步骤(iV)中,序列检索可能限于特定大小“ 1”,例如约1200个碱基。換言之,在基于序列差异鉴定正向引物之后,以多核苷酸序列的ー个方向或另ー个方向进行扫描,以确定到下一个突变的核苷酸距离。如果距离超过设定限制,则可以产生不包括任何突变的区段以桥接含有两个远距离突变的两个区段。扫描过程可以在下一个突变点重复。如上所述,単独或成组的寡核苷酸引物(例如,正向寡核苷酸和反向寡核苷酸)以及相应的扩增子可以被置于可寻址基底上用于自动化和/或储存。本文还称为引物阵列的可寻址基底中的寡核苷酸引物可以被机器人访问以合成任何针对确定的多个氨基酸差异的扩增子文库。同样,还称为扩增子阵列的可寻址基底中的扩增子可以被访问以产生编码基于确定的多个氨基酸残基差异的期望氨基酸序列排列的多核苷酸序列。阵列的基底或固体支持体可以包括有机聚合物,例如聚苯こ烯、聚こ烯、聚丙烯、聚氟こ烯、聚こ烯氧和聚丙烯酰胺及其共聚物和接枝物。固体支持体还可以是无机的,例如玻璃、ニ氧化硅、可控孔度玻璃(CPG)、反相ニ氧化硅或金属,例如金或钼。基底的构造可以是珠、球、粒子、颗粒、凝胶、膜或表面的形式。表面可以是平的、大体上平的或不平的。固体支持体可以是多孔的或无孔的,并且可以具有溶胀或非溶胀特征。固体支持体可以被配置为孔、凹陷或其他器皿、容器、特征或位置的形式。多个支持体可以被配置在对于机器人递送试剂或检测方法和/或仪器可寻址的各个位置的阵列上。在一些实施方案中,基底是反应室。商业途径可获得的反应容器含有至少ー个反应室,而可以含有8、24、96或384个反应室。反应室的一个实例是96孔微量滴定板中96个微量滴定孔之一。在一些实施方案中,能够从阵列取样引物或引物对的机器人系统和相关计算机系统可用于将它们递送至反应室。用于聚合酶介导的扩增的试剂也可以被递送至反应室中的每组引物,随后进行扩增程序(例如在自动化热循环仪中)。这允许形成含有基于多核苷酸序列的重叠区段的确定扩增子的可寻址基底。机器人系统可以选择基于期望的氨基酸序列排列的适当的一组扩增子,用于扩增最終多核苷酸产物的侧翼引物,并递送用于组装和扩增反应的试剂。示例性机器人系统提供于图6。图6中的机器人系统包括以下指令(a)选择用于扩增的区段和相关扩增子,(b)鉴定针对选定片段(即,扩增子)的正向寡核苷酸 和反向寡核苷酸,储存寡核苷酸数据信息于独特寡核苷酸列表(例如,96孔微量滴定板),并将寡核苷酸置于第一可寻址基底,(c)储存合成的片段的数据信息(例如,阵列上位置、序列、使用的寡核苷酸,等等)于独特片段列表,并将寡核苷酸置于第二可寻址基底,(d)对照组装所需片段总数确定选定片段数目,并重复步骤(a)至(d)直至所有片段已经被选择,(e)将组装的基因置于第三可寻址基底,并重复步骤(a)至(d)直至所有期望变体已经被产生。在一些实施方案中,本公开内容还提供了用于组装编码不同氨基酸序列排列的多个多核苷酸的多核苷酸片段(即,扩增子)文库。在一些实施方案中,所述多个多核苷酸包括具有重叠相邻区的多核苷酸片段,每个多核苷酸片段被正向引物和反向引物的引物结合序列所结合,其中多个多核苷酸片段具有编码引物结合序列中来自相对于參考氨基酸序列的确定的多个氨基酸残基差异的特定氨基酸残基差异的成员,使得所述多个多核苷酸片段编码所有从确定的多个氨基酸残基差异选定的多个氨基酸残基差异;并且其中所述多个多核苷酸片段包括用于组装确定的氨基酸差异的两个或多个不同氨基酸序列排列的成员。在一些实施方案中,所述多个多核苷酸片段包括足以组装选定的多个氨基酸残基差异的所有可能氨基酸序列排列的成员。在一些实施方案中,所述多个的成员是使用正向引物和反向引物生成的扩增子。对于技术人员明显的是,本文描述的方法可以使用技术人员可用的标准技术来实施,所述标准技术例如描述于Sambrook等人,2001, Molecular Cloning A LaboratoryManual (分子克隆:实验室手册' ),第 3 版,Cold Spring Harbor Laboratory Press, NY 和Ausubel 等人,1989, Current Protocols in Molecular Biology (现代分子生物学实验技术),Greene Publishing Associates and Wiley Interscience,N. Y(更新至 2008)。寡核苷酸可以使用已知的化学方法合成,化学方法例如基于亚磷酰胺固相合成方法的那些(參见例如,Wright,等人,1993, Tetrahedron Letters 34, 3373-3376 ;Caruthers, 1991, Acc.Chem. Res. 24,278-284 ;及其中引用的參考文献)。
本文还提供了用于实施上述方法的计算机软件形式的计算机实现的系统。在ー些实施方案中,计算机程序产品包括具有程序指令的机器可读的存储介质,所述程序指令包括以下步骤中每ー个的代码(a)输入參考序列和与该序列相关的突变列表,(b)产生基于突变列表的排列列表,(C)选择氨基酸序列的确定排列,(d)从扩增子文库(例如,图5中制备)鉴定重叠多核苷酸片段,(e)确定变体数目,如果变体数目小于期望变体总数,则重复步骤(a)至(d)。在一些实施方案中,计算机程序产品包括具有程序指令的机器可读的存储介质,所述程序指令包括以下步骤中每ー个的代码(a)基于參考序列选择变体(氨基酸序列排列)并产生其相应的多核苷酸序列,(b)产生针对具有第一个突变的片段的正向寡核苷酸引物,(c)从第一个突变至下一个突变或至基因末端扫描序列并产生针对下一个突变的反向寡核苷酸引物,(d)如果下ー个突变接近第一个突变,则将所述下ー个突变置于相同的正向寡核苷酸,(e)重复步骤(b)至(d),直至到达多核苷酸变体n的末端。如图4、图5和图6的说明所示,用于选择扩增子、选择寡核苷酸引物和以可寻址格 式储存的计算机实现的程序可以被集成以允许自动化本公开方法的各个步骤。如本文所述,在一些实施方案中,所述方法可用于合成编码具有确定组的突变的多肽的多核苷酸,所述确定组的突变选自与參考序列相比多个确定的氨基酸残基差异。本文描述的方法允许有效合成基于氨基酸残基差异的各种氨基酸序列排列。编码各种氨基酸序列排列的多核苷酸的有效合成对于多种蛋白工程应用是有用的。參见例如,美国专利申请公布US20060195947 ;美国专利申请公布US20050153417 ;和美国专利号7,220,566。在一些实施方案中,所述方法可用于基于已知影响酶的不同性质的ー组突变合成编码具有改善的性质的酶变体的多核苷酸。例如,ー些突变可以影响酶活性、热稳定性、底物特异性、立体选择性、立体特异性和对产物抑制的抗性、等等。虽然随机诱变的传统技术和蛋白进化技术可以导致鉴定影响这些不同酶性质的突变,但这些突变的许多可以独立于其他突变而发生。使用本文方法,影响不同性状例如酶稳定性、底物特异性和热稳定性的各种突变排列可以被实现并筛选以鉴定具有期望的多个改变性状的工程化酶。本文提供的方法在产生包括各种序列变化排列的多核苷酸变体大型文库中提供了惊人效率和准确性。例如,来自褐鼠(Rattus norvegicus)的古洛糖酸内酯(L-)氧化酶(GLO)的蛋白序列(登记gi-92090602-sp-P10867. 3-GGL0_RAT)可以被反向翻译以提供I. 3kb DNA序列,该DNA序列可用作模板以设计90个多核苷酸变体,每个多核苷酸变体编码具有3至5个氨基酸取代的不同组合的变体多肽。例如,3至5个氨基酸取代的90个排列的列表可以选自以下10个可能取代的列表T28S、D95A、S156N、G175S、R212D、I251E、F302S、H330I、Y370G和K423N。由多核苷酸变体编码的氨基酸取代的90个不同排列如下D95A/F302S/H330I/K423N ;D95A/F302S/Y370G ;D95A/G175S/H330I ;D95A/G175S/H330I/Y370G/K423N ;D95A/G175S/R212D/F302S/Y370G ;D95A/G175S/R212D/H330I ;D95A/G175S/R212D/Y370G/K423N ;D95A/I251E/F302S/K423N ;D95A/I251E/H330I ;D95A/I251E/K423N ;D95A/I251E/Y370G;D95A/R212D/F302S ;D95A/R212D/I251E/F302S ;D95A/S156N/F302S/H330I/K423N ;D95A/S156N/G175S ;D95A/S156N/G175S/H330I/Y370G ;D95A/S156N/G175S/I251E/F302S ;D95A/S156N/I251E/H330I ;D95A/S156N/I251E/K423N ;D95A/S156N/K423N ;D95A/S156N/R212D/I251E ;F302S/H330I/K423N ;G175S/F302S/Y370G/K423N;G175S/H330I/K423N ;G175S/I251E/F302S ;G175S/R212D/H330I ;G175S/R212D/I251E/H330I ;G175S/R212D/K423N ;G175S/R212D/Y370G ;G175S/R212D/Y370G/K423N ;H330I/Y370G/K423N ;I251E/H330I/Y370G ;I251E/H330I/Y370G ;I251E/Y370G/K423N ;R212D/F302S/Y370G/K423N ;R212D/H330I/K423N ;R212D/I251E/F302S ;R212D/I251E/F302S/H330I ;R212D/I251E/Y370G ;R212D/I251E/Y370G ;S156N/F302S/H330I ;S156N/F302S/K423N ;S156N/F302S/Y370G ;S156N/G175S/F302S/Y370G ;S156N/G175S/I251E/F302S ;S156N/G175S/K423N ;S156N/G175S/K423N ;S156N/G175S/R212D/F302S/H330I ;S156N/I251E/F302S/H330I ;S156N/I251E/H330I/Y370G ;S156N/I251E/H330I/Y370G/K423N ;S156N/I251E/Y370G ;S156N/R212D/F302S/H330I/Y370G ;S156N/R212D/K423N ;T28S/D95A/G175S/F302S ;T28S/D95A/G175S/F302S/Y370G ;T28S/D95A/H330I ;T28S/D95A/I251E ;T28S/D95A/I251E/F302S/K423N ;T28S/D95A/R212D ;T28S/D95A/S156N/H330I/Y370G ;T28S/D95A/S156N/R212D ;T28S/D95A/S156N/R212D ;T28S/D95A/S156N/R212D/Y370G ;T28S/D95A/Y370G ;T28S/D95A/Y370G/K423N ;T28S/F302S/K423N ;T28S/G175S/H330I ;T28S/G175S/H330I/Y370G ;T28S/G175S/I251E/F302S ;T28S/G175S/I251E/F302S/Y370G ;T28S/G175S/I251E/H330I ;T28S/G175S/I251E/K423N ;T28S/H330I/K423N ;T28S/I251E/F302S/H330I/K423N ;T28S/R212D/F302S/H330I ;T28S/R212D/H330I ;T28S/R212D/I251E/F302S ;T28S/R212D/ I251E/Y370G/K423N ;T28S/R212D/Y370G ;T28S/S156N/F302S/H330I/Y370G ;T28S/S156N/F302S/Y370G ;T28S/S156N/F302S/Y370G ;T28S/S156N/G175S ;T28S/S156N/G175S ;T28S/S156N/G175S/I251E ;T28S/S156N/G175S/I251E/K423N ;T28S/S156N/R212D/I251E/H330I ;T28S/S156N/R212D/I251E/K423N ;和 T28S/S156N/R212D/K423N。软件(例如,图4-6所述)可用于确定,对应于具有序列重叠区的多核苷酸变体片段的总共仅55个扩增子可用于在第2轮SOE-PCR反应中组装90个多核苷酸变体。软件还可以用于确定,在使用I. 3kb參考多核苷酸作为模板来产生必要的55个扩增子的55个独立的第I轮PCR反应中需要总共仅22个寡核苷酸引物。所述22个寡核苷酸引物长度仅为30或33个核苷酸,并且包括在序列中间(例如,在核苷酸15-17)包含核苷酸变化的诱变引物。因此,根据本文公开的方法,90个不同的多核苷酸变体的构建需要合成仅22个相对短的寡核苷酸(30-mer至33-mer)、用于产生55个扩增子(即,多核苷酸变体片段)的第I轮PCR反应、和其中55个扩增子以各种组合池化以允许90个多核苷酸变体的SOE-PCR组装的第2轮SOE-PCR反应(使用正向侧翼引物和反向侧翼引物)。在准备第2轮SOE-PCR反应时,55个扩增子的每ー个可以重复使用平均7. 8次,而某些片段仅使用一次或两次,其他片段使用多达36次。第I轮和第2轮反应的工作流程可以通过软件产生的工作列表来控制(例如,图4和6),所述软件产生的工作列表用于运行用于液体处理的Tecan机器人。这种示例说明的90个变体文库构建的工作列表对于使用22个引物产生55个扩增子的第I轮PCR反应要求仅110个液体处理操作,并且对于从55个扩增子制备90个全长多核苷酸变体的第2轮SOE-PCR组装反应要求仅430个液体处理操作。本文公开的方法提供的多核苷酸变体序列的准确性可以通过对第2轮反应的多个构建体的每ー个的进ー步克隆和测序步骤来确定。如实施例(下文)所示,本文公开的方法导致惊人高水平的正确序列(全长完美(FLP)序列)-即,相对于參考多核苷酸具有期望的核苷酸变化的序列。本文公开方法的惊人优势的至少ー些在于产生的大型多核苷酸变体文库的更高准确性。在一些实施方案中,所述方法可用于制备至少10个不同多核苷酸变体的可寻址文库,每个多核苷酸变体包括相对于參考多核苷酸序列的至少ー个确定的序列差异,其中至少平均75%的多核苷酸序列变体是正确序列(例如,包括具有通过本方法使用的引物引入的确定的核苷酸差异的全长參考序列的序列)。在一些实施方案中,所述方法提供了至少10、20、30、40、50、60、70、80、90、100、150、200或更多不同多核苷酸变体的可寻址文库,每个多核苷酸变体包括相对于參考多核苷酸序列的至少ー个确定的序列差异,其中通过序列测定,至少75%、80%、85%、90%、95%或更多的多核苷酸变体序列是正确的-例如FLP。在某些实施方案中,包括使用參考多核苷酸模板的多个第I轮PCR反应和多个第2轮SOE-PCR扩增子组装反应的本文公开方法可用于制备至少500bp、750bp、1000bp、1250bp、1500bp或更大的參考多核苷酸的10个或更多多核苷酸变体的可寻址文库,每个变体相对于參考多核苷酸包括约1-30、1-25、1-20、1-15、3-30、3-20或3_15核苷酸变化,其中 第 I 轮 PCR 反应包括约 6-300、6-200、6-100、6-50、6-40、6-30、6-25、6-20、6-15 或少达 6-10个不同的寡核苷酸引物,并且至少75%、80%、85%、90%、95%或更多的多核苷酸变体序列是全长完美的。在一些实施方案中,多核苷酸片段的各种排列(例如,选自可寻址文库)可以被组装成多核苷酸变体的可寻址文库,每个多核苷酸变体编码具有确定的氨基酸残基差异的不同变体多肽。这些多核苷酸变体的每ー个然后可以被克隆入表达系统以产生克隆的可寻址文库,每个克隆能够产生不同的变体多肽。克隆的该可寻址文库可以被转化入用于翻译的细胞(例如大肠杆菌),并自动化平板接种和挑取菌落(即,存活的转化子)。然后,可以进行测序以确认如此产生的每个变体多肽序列中的突变组合。可以对所有的变体多肽或者任选地仅对通过测序确认具有期望的突变组合的那些变体多肽进行针对期望改变的性状的变体多肽测定(例如,通过高通量筛选)。尽管在一些实施方案中,本公开内容提供了得到在靶向位置具有确定差异的多核苷酸变体的可寻址文库的方法,但在所述方法的一些实施方案中,优选的是组合(或池化)多核苷酸变体。通过本文描述的方法提供的非常明确且多祥的多核苷酸变体文库的池化导致意想不到的惊人优势在进行资源密集和耗时的测序之前,允许更有效的转化和筛选更大范围的多核苷酸序列多样性和鉴定感兴趣的变体(例如,具有改良性质的“击中”)。因此,该方法允许研究人员产生并筛选多核苷酸变体文库的大型明确序列多祥性空间,并集中于测序仅感兴趣的变体。在转化之前池化的优势允许有效筛选极大多样性文库,例如考察编码在每个位置具有整套20个氨基酸残基差异和在每ー个文库成员中仅具有単一确定差异的多肽的多核苷酸变体文库。据信,在转化之前池化变体的可寻址文库的预料不到的优势部分源于本文公开的合成多核苷酸变体的方法以平均85%或更高准确性(即,在靶向位置具有确定差异的全长多核苷酸变体的百分比产生)产生期望变体的能力。用于产生多祥多核苷酸文库的其他方法,例如易错PCR,导致相对广的突变分布(例如,37 %无突变,37 %具有期望的ー个突变,和26%具有两个或多个突变)。而且,本公开方法能够访问所编码多肽的每个位置的所有19个氨基酸取代。对比分析使用易错PCR的随机诱变显示,易错PCR仅访问本公开方法所访问的这些突变的约45%。由于这大得多的准确性和对多样性的可及性(准确的单位点变体和多位点变体),通过本公开方法制备的池化的多核苷酸变体文库可以被更有效地筛选。例如,在编码多肽的I. 2kb參考多核苷酸的20个位置的每ー个包括所有20个氨基酸的单位置变体被合成井池化,得到的变体池被克隆、转化并平板接种于19个平板(88数据孔/平板)。这19个平板的筛选产生编码与參考多肽相比具有单氨基酸差异的361个独特多肽的多核苷酸变体。该结果代表了仅19个板中池化文库的95%的筛选覆盖率。因此,在本公开方法的一些 实施方案中,得到的相对于參考多核苷酸具有至少ー个确定差异的多个多核苷酸变体被组合。在一些实施方案中,池化的变体然后被克隆入表达系统,从而产生池化的克隆文库。该池化的克隆文库可以被转化(例如,以ー个转化步骤)入用于翻译的细胞,平板接种,并挑取菌落(即,存活转化子)。在测序之前,可以进行来自该池化的克隆文库的菌落的測定(例如,通过高通量筛选)以鉴定编码具有期望改变的性状的多肽的多核苷酸变体。一旦鉴定针对改变性状的这种“击中”,可以测序以确定多核苷酸变体序列中存在的具体的突变组合。任选地,编码不具有測定中寻求的期望的改变性状的多肽的那些变体不需要被测序。因此,通过仅需要ー个转化而不是ー组平行的转化反应,池化的克隆文库方法可以提供更高效率。在可选的实施方案中,所述方法可以如下进行,其中相对于參考多核苷酸具有至少ー个确定差异的多核苷酸变体的可寻址文库被单独克隆入表达系統-例如使用大引物反应(參见例如,Tyagi 等人,BMC Biotechnology 2004,4 2 ;doi :10. 1186/1472-6750-4-2)。克隆的该可寻址文库(例如,各自包括可寻址文库的多核苷酸变体的表达载体)然后可以被池化井一步转化入用于翻译的细胞,平板接种并挑取菌落,并如上所述进行筛选。类似地,所述方法还可用于产生突变组合的各种排列以检验生物重要蛋白的结构特征。例如,參与细胞外分子的信号转导的受体通过与其他受体以及各种细胞内蛋白的相互作用而发挥作用。这些复杂的相互作用可以影响来自相同类型受体分子的不同细胞信号传导过程。负和正信号传导两者可以由相同受体启动。具体实例是G偶联蛋白受体,其与3 Y > Gs a和Gi a蛋白相互作用。參见例如,Morris等人,1999, Physiol. Rev. 79 :1373-1430。因为在受体不同结构域的突变可以具有不同作用,本文方法提供了用于产生已知影响受体功能不同方面的突变组合的不同排列的有效方法,从而允许研究感兴趣蛋白的结构和相关的生物学功能。虽然已经示例说明用于产生多核苷酸序列的不同排列的方法用于产生编码具有确定组的氨基酸残基差异的多肽的各种排列的多核苷酸,但要理解,所述方法可以进行用于产生多核苷酸序列排列的一般修改。例如,本文方法可用于产生功能性多核苷酸例如核糖体RNA基因的不同排列。各种rRNA形成參与原核生物和真核生物蛋白合成的核蛋白复合体。许多抗生素通过破坏核糖体功能而起作用并且已知与某些rRNA的确定区域相互作用。已经鉴定了影响蛋白合成的各种突变,并且这些区域与抗生素作用位点相关。參见例如,Yassin 等人,2005,Proc Natl Acad Sci. USA 102(46) : 16620-16625。使用本文描述的方法,影响核糖体RNA功能的已知突变的各种排列可以被合成,并可以检验某些突变组合的作用。其他应用对于技术人员是明显的。6.实施例实施例I :扩增子的制备寡核—酸制备.200uM浓度的寡核—酸引物在Axygen HalfDeep 96(1. ImL)板中用无菌水稀释至4uM。对于微量滴定板上大多数的位置,添加10 u L寡核苷酸至490 u L dH20是足够的。对于寡核苷酸板上的位置AOl和D01,共同的正向引物和反向引物,可能需要较大体积。在下一步骤之前确认抽吸和分配体积部分中输出报告中的最大抽吸体积。在稀释之后和用于扩增子形成之前,引物可以等摩尔或非等摩尔比例池化(參见例如,实施例6-8)。第I轮-通过PCR形成扩增子.Tecan机器人用于将5 U L等份的每个正向寡核苷酸引物和反向寡核苷酸引物分入BioRad HardShellPCR96平板(Tecan脚本输出)并添加40 u L主混合物(master mix)。进行第I轮PCR并使用2% 96孔e-gel证实扩增。PCR试剂如下5iiL IOx Herculase 缓冲液、I ii L 40mM dNTPU U L 100ng/u L SOE 模板、2. 5 单位 Herculase 聚合酶(Stratagene, La Jolla, CA, USA)。PCR 进行如下95°C变性 2min,随 后 95°C 30s,56°C 30s,72°C lmin/Kb 的循环。循环数是 17。用ExoSAP-it处理.对于第I轮PCR,25 U L反应产物被转移至新的96孔板,添加2u L ExoSAP-It (USB Corp. ,Ohio, USA)和 0. 5 y L DpnI,进行循环(人工转移 37 °C I 小时800C 15min)。通过添加73 y L dH20将样品稀释至100 u L的终体积并使用Tecan脚本池化入另ー个 BioRad HardShellPCR96PCR 平板。实施例2 :扩增子的组装和产物分析第2轮-组装和S0E-PCR. Tecan机器人用于将15 y L等份的片段(即,第I轮扩增子)池分入BioRad HardShe11PCR96平板(Tecan脚本输出)并添加35 y L主混合物(5 u L IOX Herculase 缓冲液、I ii L 40mM dNTP、0. 2 y L 正向引物、0. 2 y L 反向引物、2. 5 单位Herculase酶和28. I y L dH20)。扩增子可以等摩尔或非等摩尔量池化(參见例如实施例6-8)。进行PCR并使用2% 96孔E-gel证实扩增。PCR进行如下95°C变性2min,随后950C 30s,560C 30s,72°C lmin/Kb 的循环。循环数是 17。96-孔板纯化.使用Zymo ZR-96PCR净化96孔板纯化所有样品(具有下述修改的生产商方案)(Zymo Research, CA, USA)。所有离心步骤在2800rpm下进行10分钟。为了洗脱DNA,将温度55°C的25 ii L dH20直接应用至ニ氧化硅膜,旋转10分钟并重复。使用该方法回收48-50ii L产物。此时,产物可以在消化和克隆之前以期望的组合池化。限制酶BglI消化.Bgl消化用于克隆入表达载体的BglI位点。将30 ii L的每种纯化产物或产物池转移入新的半裙PCR板,向所有样品添加20 ii L BglI消化主混合物(5 ii L10X NEB 缓冲液 3、13ii L dH20、20 单位 BglI (New England Biolabs,MA, USA))并在 37°C孵育4小时。96-孔板纯化.使用Zymo ZR-96PCR净化96孔板根据具有以下修改的生产商方案纯化所有样品(I)所有离心步骤在2800rpm下进行10分钟;(2)为了洗脱DNAjf温度55°C的25iiL dH20直接应用至ニ氧化硅膜,旋转10分钟,并重复。使用该方法回收48-50 ii L产物。使用2% 96孔E-gel证实产物回收。连接至表汰载体.将3yL的每种纯化插入物转移至新板,并向样品添加27UL连接主混合物(3 ii L 10X连接酶缓冲液(New England Biolabs, MA, USA), I u L BglI消化的载体(50ng/ u L)、400 单位 T4 连接酶(New England Biolabs, MA, USA)、22 y L dH20)。在16°C孵育14小吋,随后65°C 15分钟,随后保持8°C。 HTP-转化.将2 ii L的每种连接反应转移至20 ii L TSS化学感受态细胞并在金属块(metal block)中冰上孵育至少15min。在42°C热激35秒并返回金属块2min。向姆个样品添加80 ii L 370C SOC培养基。在平板接种之前在37°C孵育I小吋。平板接种.使用Tecan将40 ii L每孔的转化混合物平板接种至48孔分隔的Q盘。使用珠分配器将三个5mm珠分配给每个孔。使转化子在37°C生长过夜。挑取和培养.为了測定和/或序列分析,通过从Q盘挑取个体菌落来接种含有LB、CAM和I %葡萄糖的Nunc平底板的孔来产生主板。对于序列证实的板,每个Q盘孔两个菌落被挑入两个单独的Nunc平底板。对于非序列证实的变体板,每个Q盘三个菌落被挑入三个单独的Nunc平底板。菌落PCR通过向标准的菌落PCR主混合物添加2 u L的该培养物并进行PCR来对 至少ー个主板进行菌落PCR。使用ExoSAP-it净化PCR产物如下(I)将5 ii L PCR样品转移至含有2 ii L ExoSAP-it的新PCR板;(2)在37°C孵育15min并在80°C孵育15min ;和(3)通过添加33 ii L dH20将样品稀释至40 ii L的终体积。PCR产物的测序.将4 ii L ImM测序引物添加至测序板。添加4 y L净化PCR样品以产生模板/引物混合物,其然后用于标准循环测序。实施例3 :产生ー组190个不同的多核苷酸变体,姆个多核苷酸变体编码与參考多肽相比具有单个氨基酸变化的多肽实验设计选择1359bp的參考多核苷酸(编码453个氨基酸的酶)。基于同源酶中看到的序列变化选择与參考序列的总共190个氨基酸残基差异。将190个变体制备为编码待表达和测试的190个不同蛋白的个体多核苷酸。通过在SOE反应(以下第2轮)中组合在其重叠区具有期望的单密码子变化的两个扩增子(如以下第I轮中制备)来组装190个多核苷酸变体的姆ー个。寡核苷酸制备根据标准方法设计和合成用于PCR的总共382个寡核苷酸弓I物。寡核苷酸长度一般是31个核苷酸(nt),感兴趣密码子的期望改变位于寡核苷酸引物中间( 碱基15)。所有寡核苷酸在Axygen HalfDeep 96(1. ImL)平板中用无菌水稀释至4 y M。第I轮-通过PCR形成扩增子使用包含1359nt參考多核苷酸的载体作为模板并使用与共同的侧翼引物(与不含突变的基因上游或下游的载体退火)组合的诱变引物,在PCR反应中产生对应于多核苷酸变体片段的每个扩增子。反应工作流程、条件和净化如实施例I所描述。第2轮-扩增子的组装.来自第I轮的纯化的扩增子被池化,使得具有包括针对190个多核苷酸变体的每ー个和每个池的期望的密码子序列变化的重叠区的2个扩增子如实施例I和2所述被等分入96孔板的孔中。共同的侧翼正向引物和反向引物被添加到每个池并如实施例2所述进行PCR,导致扩增子(S卩,多核苷酸片段)的组装,以形成全长多核苷酸变体。通过琼脂糖凝胶检查组装反应并发现含有预期大小的产物。(參见例如,图3)。多核苷酸变体的序列分析.使用Zymo ZR-96PCR净化纯化之后,将产物克隆入表达载体,并且每个连接被转化入大肠杆菌宿主细胞。来自每个转化的两个菌落被挑取,并且制备质粒DNA用于DNA测序。来自每个转化的一个样品使用基因内部和侧翼的测序引物来测序。190个多核苷酸变体中,160个(84% )显示具有唯一的具有期望密码子序列变化的全长完美(FLP)序列。通过对不正确的30个变体的第二质粒制备测序,证实了 25个额外的正确序列。这使总体成功率达到97%正确序列。(鉴定了期望的190个多核苷酸的185个)。多核苷酸被表达并且变体多肽被測定。实施例4 :产生ー组96个不同的多核苷酸变体,姆个多核苷酸变体编码与參考多肽相比具有三个氨基酸变化的多肽。实验设计选择1359nt的參考多核苷酸。设计96个变体,每个变体相对于參考序列含有三个突变。将96个变体制备为各自编码待表达和测试的96个不同蛋白之一的个体多核苷酸。通过在SOE反应(以下第2轮)中组合在其重叠区具有期望的密码子变化的四个扩增子(如以下第I轮中制备)来组装96多核苷酸变体的每ー个。寡核苷酸制备根据标准方法设计和合成总共130个寡核苷酸引物。寡核苷酸长度一般是31个nt,感兴趣密码子的期望改变位于寡核苷酸中间( 碱基15)。所有寡核苷 酸在Axygen HalfDeep 96(1. ImL)平板中用无菌水稀释至4 ii M。第I轮-通过PCR形成扩增子使用包含1359nt參考多核苷酸的载体作为模板并使用与另ー诱变引物或共同的侧翼引物(与不含突变的基因上游或下游的载体退火)组合的诱变引物,在PCR反应中产生对应于多核苷酸变体片段的每个扩增子。反应工作流程、条件和净化如实施例I所描述。第2轮-扩增子的组装.来自第I轮的纯化的扩增子被池化,使得针对96个多核苷酸变体的每ー个和每个池的具有包括期望的密码子序列变化的重叠区的4个扩增子如实施例I和2所述被等分入96孔板的孔中。共同的侧翼正向引物和反向引物被添加到每个池并如实施例2所述进行PCR,导致扩增子(S卩,多核苷酸片段)的组装,以形成全长多核苷酸变体。通过琼脂糖凝胶检查组装反应并发现含有预期大小的产物。(參见例如,图3)。多核苷酸产物的序列分析.使用Zymo ZR-96PCR净化纯化之后,将产物克隆入表达载体,并且每个连接被转化入大肠杆菌宿主细胞。来自每个转化的两个菌落被挑取,并且制备质粒DNA用于DNA测序。来自每个转化的一个样品使用基因内部和侧翼的测序引物来测序。96个多核苷酸变体中,82个(85% )显示具有唯一的具有期望变化的正确FLP序列。实施例5 :产生ー组96个不同的多核苷酸变体,姆个多核苷酸变体编码相对于參考多肽具有I至6个氨基酸变化的多肽。实验设计选择1056nt的參考多核苷酸。设计96个变体,每个变体相对于參考序列含有一(I)至六(6)个突变。将96个变体制备为各自编码待表达和测试的96个不同蛋白之一的个体多核苷酸。通过在SOE反应(以下第2轮)中组合在其重叠区具有期望的密码子变化的两个(例如,对于编码单氨基酸变化的变体)至七个(例如,对于编码六个氨基酸变化的变体)扩增子(如以下第I轮中制备)来组装96多核苷酸变体的每ー个。寡核苷酸制备根据标准方法设计和合成总共108个寡核苷酸引物。寡核苷酸长度一般是31个nt,感兴趣密码子的期望改变位于寡核苷酸中间( 碱基15)。如果两个氨基酸改变紧靠在一起,设计较长的寡核苷酸以编码待加入的两个改变。所有寡核苷酸在Axygen HalfDeep 96 (I. ImL)平板中用无菌水稀释至4 u M。第I轮-通过PCR形成扩增子使用包含1056nt參考多核苷酸的载体作为模板并使用与另ー诱变引物或共同的侧翼引物(与不含突变的基因上游或下游的载体退火)组合的诱变引物,在PCR反应中产生对应于多核苷酸变体片段的每个扩增子。反应工作流程、条件和净化如实施例I所描述。第2轮-扩增子的组装.纯化的池化扩增子(2至7个扩增子/多核苷酸)如实施例I所述等分至平板。添加共同的侧翼正向引物和反向引物并如实施例I所述进行PCR。多核苷酸产物的序列分析.使用Zymo ZR-96PCR净化纯化之后,将产物克隆入表达载体,并且每个连接被转化入大肠杆菌宿主细胞。来自每个转化的两个菌落被挑取,并且制备质粒DNA用于DNA测序。来自每个转化的一个样品使用基因内部和侧翼的测序引物来测序。如表1(下文)所示,96个多核苷酸变体中,72个(75%)显示具有唯一的具有期望的2-7个密码子变化的正确FLP序列。蓋!构建了 96个变体-制备最终平板需要88个变体 狈!!序组I (n = 96) 2 (n = 96) 3(n = 16)
正确总数728492
错误序列532
交叉污染520
编码突变820
插入/缺失642实施例6 :产生82个特定多核苷酸变体的池化组,每个多核苷酸变体编码与參考多核苷酸相比含有一个氨基酸突变的多肽。实验设计具有413个氨基酸的酶中共82个特定残基被靶向突变。野生型酶由1242bp的參考多核苷酸序列编码。通过设计和合成引物、产生扩增子并组装扩增子对来合成ー组包括每ー个突变的全长多核苷酸变体,単独制备了各自含有82个突变之一的82个特定多核苷酸变体。然后在纯化、克隆和转化之前将所有全长多核苷酸变体池化在一起。在转化之前的池化減少了工作量(与对每个基因变体单独进行所有克隆和转化步骤相比)。菌落挑取和表达之后,筛选酶变体并对感兴趣的基因变体进行测序以鉴定感兴趣的突变。寡核苷酸引物制备对于82个期望突变的每ー个,设计了与參考序列相比包括期望的多核苷酸密码子序列变化的两个诱变寡核苷酸引物(一个正向和ー个反向)。所述引物长度是33个核苷酸,靶向位置位于寡核苷酸中间。根据标准方法合成所有寡核苷酸并在Axygen HalfDeep 96 (I. ImL)平板中用无菌水稀释至4 u M。第I轮-通过PCR形成扩增子对于82个位置的每ー个,产生具有在该位置包括期望的密码子变化的重叠区的两个扩增子。每个扩增子在使用包含1242nt參考多核苷酸的载体作为模板和与共同的侧翼引物(与基因上游或下游的载体退火)组合的诱变引物的PCR反应中产生。反应工作流程、条件和净化如实施例I所描述。第2轮-扩增子的组装.对于82个多核苷酸变体的每ー个,组合了具有包括期望的密码子变化的重叠区的两个纯化扩增子(来自第I轮反应)。共同的侧翼正向引物和反向引物被添加到82个孔的每ー个并如实施例2所述进行SOE-PCR,导致扩增子(即,多核苷酸片段)的组装,以形成82个全长多核苷酸变体。通过琼脂糖凝胶检查组装反应并发现所有82个反应含有预期大小的产物。所有82个反应的这些全长产物被池化在一起。全长多核—酸变体的池化克隆和转化.使用Qiagen试剂盒纯化组装反应的池化产物,用限制酶消化,克隆入表达载体,转化入宿主细胞,并平板接种至含有葡萄糖和氯霉素的固体LB培养基。在标准高通量測定中使用转化子对多核苷酸编码的多肽进ー步筛选以鉴定“击中”(例如,表现出超过野生型的某种改善性质或活性的多肽)。多核苷酸变体的序列分析.随机选择八个变体来测序。发现每个变体含有ー个期望的突变。没有观察到随机突变。实施例7 :产生多核苷酸变体的池化组,每个多核苷酸变体编码912个多肽,每个多肽相对于參考多肽具有单氨基酸变化。 实验设计选择1383bp的参考多核苷酸(编码460个氨基酸的酶)。该酶的48个不同位置的氨基酸残基被选择用于完全饱和诱变(即,在48个位置的每ー个产生所有19个氨基酸残基变化)。使用减少组的23个密码子,包括TGG以及NNT和VWG减少密码子组,其能够编码所有可能的氨基酸变化。对于每个位置,通过在SOE-PCR反应(下文第2轮反应)中组合两组扩增子(如第I轮中制备)而同时组装在该位置包括23个不同密码子的所有23个可能的多核苷酸,其中所述两组扩增子的每ー个包括在其重叠区的靶向位置的23个不同密码子。构建得到的多个多核苷酸变体在48个不同位置的每ー个包括所有23个不同密码子。然后在连接和转化产生克隆之前将这些变体组合成ー个池。然后对随机克隆进行测序以证实制备了全长变体基因和/或对通过对克隆进行的随后筛选测定鉴定的“击中”进行测序。寡核苷酸引物制备对于每个选定的氨基酸位置,设计6个寡核苷酸引物。寡核苷酸长度是33个核苷酸,要改变的密码子位于序列中间(例如,在位置17)。三个寡核苷酸以‘正向’方向设计,而其他三个寡核苷酸是‘反向’方向的互补体。四个寡核苷酸是简并的,两个寡核苷酸是特异性的。两个引物是特异性的寡核苷酸,在中心包括编码色氨酸的“TGG”密码子(或反向互补体“ CCA”)。其他4个引物是简并寡核苷酸组,在其中心包括来自减少密码子组任ー个的密码子“VWG”或“NNT” (或其反向互补体“CWB”或“ANN”),并且此外在所有其他位置与參考多核苷酸相同。根据标准方法合成所有寡核苷酸引物并在Axygen HalfDeep 96 (I. ImL)平板中用无菌水稀释至4iiM。三个‘正向’引物(含有“ NNT”、“VWG”和“ TGG”密码子)以16 : 6 : I的摩尔比分别组合。含有“ANN”、“CWB”和“CCA”密码子的‘反向’寡核苷酸被相似地池化。第I轮-通过PCR形成扩增子对于靶向饱和诱变的48个位置的每ー个,产生两个扩增子池(即,包括所有23个密码子的PCR产物组)。每个扩增子池在使用包含1383nt參考多核苷酸的载体作为模板和与共同的侧翼引物(与基因上游或下游的载体退火)组合的池化的诱变引物(上述)的PCR反应中产生。其他反应工作流程、条件和扩增子浄化和纯化如实施例I所描述。第2轮-扩增子的组装.组合来自第I轮的纯化的扩增子池,使得具有包括在48个位置每ー个的23个期望的密码子变化的重叠区的扩增子对如实施例I和2所述等分A 96孔板的孔中。共同的侧翼正向引物和反向引物被添加到每个孔并如实施例2所述进行SOE-PCR,导致重叠扩增子(即,多核苷酸片段)的组装,以形成全长多核苷酸变体的池(即,在48个位置之一具有23个不同密码子的多核苷酸组)。这些SOE-PCR组装反应的检查在琼脂糖凝胶上进行并发现含有预期大小的全长产物。全长多核苷酸变体的池化克隆和转化.来自48个组装反应的全长多核苷酸变体的48个池然后被池化在一起。该最终池应该包括各自在48个靶向位置的仅ー个具有来自减少密码子组的23个密码子之一的全长多核苷酸。因此,应该存在编码912个不同多肽(19个氨基酸变化X48个位置)的共1056个(22个密码子变化X48个位置)不同的多核苷酸变体。使用Qiagen试剂盒纯化池化的全长多核苷酸,然后克隆入表达载体,转化入宿主细胞,并平板接种至含有葡萄糖和氯霉素的固体LB培养基。在标准高通量測定中使用转化子对多核苷酸编码的多肽进ー步筛选以鉴定“击中”(例如,表现出超过野生型的某种改善性质或活性的多肽)。 多核苷酸变体的序列分析.随机选择24个菌落来测序分析。从每个转化子制备的质粒使用基因内部和侧翼的测序引物测序。24个多核苷酸变体中,发现19个(80% )具有在靶向位置含有一个氨基酸变化且没有其他突变的全长基因的期望结果。两个基因显示具有归因于污染转化(双转化子)的两个氨基酸变化。发现ー个基因具有两个氨基酸变化,其中一个源自非靶向位置的随机突变。发现两个没有氨基酸变化但确实含有沉默突变。当使用简并密码子组时,这些沉默变体是预期的。实施例8 :产生多核苷酸变体的池化组,包括编码參考多肽中0至13个氨基酸残基差异的随机混合确定突变。实验设计选择1632bp的參考多核苷酸(编码543个氨基酸的酶)。选自參考序列中十三(13)个确定的氨基酸变化来单独和以各种组合制备。通过将编码确定突变的诱变引物与非诱变引物混合,制备了单独或组合包括13个确定突变或根本没有突变的扩增子的混合物。然后将所有扩增子组合入单个组装反应以产生含有随机混合的确定突变的全长多核苷酸变体(编码基因)的池。该全长基因的混合物(基因文库)然后被连接入表达载体并转化至宿主生物体。寡核苷酸引物制备对于11个确定突变,设计包括编码期望的氨基酸变化的核苷酸差异的ー对诱变引物(一个正向和一个反向)。此外,针对每个突变位置设计两个非诱变引物。寡核苷酸引物长度为33个核苷酸,并且核苷酸差异(例如,改变的密码子)的位置位于寡核苷酸中间。參考多肽中确定的氨基酸残基差异的两个相互很近地位于氨基酸位置173和176。针对这两个位置,设计四个正向引物和四个反向引物如下两个突变都没有的一个引物;各自具有两个突变之ー的两个引物;和具有两个突变的ー个引物。所有引物根据标准方法合成并在Axygen HalfDeep 96(1. ImL)平板中用无菌水稀释至4 ii M。针对姆个位置的两个正向引物和两个反向引物(ー个含有突变,ー个非诱变)或者四个正向引物和四个反向引物(位置173/176的情况下)以I : 2(诱变非诱变)的摩尔比组合。第I轮-通过PCR形成扩增子在包括含有1632nt參考多核苷酸的载体作为模板和针对感兴趣的位置的I : 2摩尔比的诱变与非诱变引物的PCR反应混合物中产生总共13个扩增子混合物。使用针对ー个末端的混合引物和针对另一末端的共同侧翼引物(与上游或下游载体退火)制备5’ -末端和3’ -末端扩增子。所有其他扩增子利用针对两个末端的混合引物。因此,大多数扩增子不含有突变、含有一个突变(例如在5’ -末端或3’ -末端)或含有两个突变。反应工作流程、条件和浄化如实施例I所描述。第2轮-扩增子的组装.来自第I轮的纯化扩增子的13个混合物被池化并添加共同的侧翼正向引物和反向引物。如实施例2所述进行S0E-PCR,导致扩增子(即,多核苷酸片段)组装成全长多核苷酸变体的池化样品。琼脂糖凝胶分析组装反应显示,其含有预期大小的全长产物。全长多核—酸变体的池化克隆和转化.使用Qiagen试剂盒纯化池化的组装反应,然后克隆入表达载体,转化入宿主细胞,并平板接种至含有葡萄糖和氯霉素的固体LB培养基。在标准高通量測定中使用转化子对多核苷酸编码的多肽进ー步筛选以鉴定“击中”(例如,表现出超过野生型的某种改善性质或活性的多肽)。 多核苷酸变体的序列分析.对随机选择的31个克隆测序并发现包括具有ー个或多个确定突变的全长多核苷酸变体(或野生型)的以下分布2个无突变;4个具有ー个突变;8个具有2个突变;8个具有3个突变;5个具有4个突变;3个具有5个突变;1个具有8个突变。在至少ー个所测序的基因变体中观察到所有13个期望的突变。含有多个期望突变的所有变体具有突变的不同组合。本申请引用的所有出版物、专利、专利申请和其他文件在此为所有目的通过引用整体并入,如同每个单独的出版物、专利、专利申请或其他文件被単独表明为所有目的通过引用并入。虽然已经示例和描述了各个具体实施方案,但要理解,可以做出不背离本发明精神和范围的各种改变。
权利要求
1.一种合成多个多核苷酸变体的方法,所述多核苷酸变体的每一个相对于参考多核苷酸序列具有至少一个确定的核苷酸差异,所述方法包括 (a)用多对正向引物和反向引物的每一对分别扩增参考多核苷酸模板,其中所述多对正向引物和反向引物包括多个确定的核苷酸差异,并且其中每对产生包括能够结合至少一个其他扩增子的相邻重叠序列的序列的扩增子; (b)分别组装多组扩增子,其中每组包括具有能够结合形成所述参考多核苷酸序列的全长的相邻重叠序列的扩增子; (C)复制多组组装的扩增子,从而合成多个多核苷酸变体;和 (d)组合所述多个多核苷酸变体。
2.如权利要求I所述的方法,其中所述多对正向引物和反向引物的每一对包括至少一个确定的核苷酸差异。
3.如权利要求1-2任一项所述的方法,其中所述参考多核苷酸编码参考多肽,并且所述多个多核苷酸变体的每一个编码具有至少一个氨基酸序列差异的多肽。
4.如权利要求1-3任一项所述的方法,其中所述方法还包括在所述多个多核苷酸变体被组合之前将它们分别克隆入表达载体的步骤。
5.如权利要求1-4任一项所述的方法,其中所述方法还包括将组合的多个多核苷酸变体克隆入表达载体的步骤,从而产生组合的多个表达载体,每个表达载体包括多核苷酸变体。
6.如权利要求5所述的方法,其中所述方法还包括用所述组合的多个表达载体转化细胞。
7.如权利要求6所述的方法,其中所述方法还包括根据所述多核苷酸变体编码的多肽 的活性来筛选转化的细胞。
8.如权利要求7所述的方法,其中所述方法还包括分离所述多核苷酸变体编码的至少一个多肽。
9.如权利要求1-8任一项所述的方法,其中所述多对正向引物和反向引物包括至少一个简并引物。
10.如权利要求9所述的方法,其中所述简并引物包括在核苷酸差异位置的选自由以下组成的组的至少一个简并密码子NHT、NNB, NNG, NNK, NNN, NNS, NNT, NDT、RMG, RNG、RRS、SNT、VNS、VNT 和 VWG。
11.如权利要求9所述的方法,其中所述简并引物包括在核苷酸差异位置的编码20个不同氨基酸的密码子。
12.如权利要求11所述的方法,其中所述编码20个不同氨基酸的密码子由NNT、VffG和TGG组成。
13.如权利要求1-12任一项所述的方法,其中所述多个多核苷酸变体包括至少20个不同多核苷酸变体。
14.如权利要求1-13任一项所述的方法,其中所述多个多核苷酸变体包括至少200个不同多核苷酸变体。
15.如权利要求1-14任一项所述的方法,其中所述多个多核苷酸变体包括至少1000个不同的多核苷酸变体。
16.如权利要求1-15任一项所述的方法,其中所述多个多核苷酸变体包括至少20个不同多核苷酸变体,每个多核苷酸变体包括在20个不同的选定位置之一的不同的确定的核苷酸差异。
17.如权利要求16所述的方法,其中至少75%的合成的多个多核苷酸变体包括正确序列。
18.如权利要求1-17任一项所述的方法,其中所述多个多核苷酸变体包括至少46个不同的多核苷酸变体,每个多核苷酸变体包括在2个不同选定位置之一的23个不同密码子之一。
19.如权利要求18所述的方法,其中至少75%的合成的多个多核苷酸变体包括正确序列。
20.如权利要求1-19任一项所述的方法,其中所述多个多核苷酸变体包括至少460个不同的多核苷酸变体,每个多核苷酸变体包括在20个不同选定位置之一的23个不同密码子之一。
21.如权利要求20所述的方法,其中至少75%的合成的多个多核苷酸变体包括正确序列。
22.如权利要求I所述的方法,其中所述多组扩增子的至少一组包括至少5个不同的简并扩增子。
23.如权利要求1-22任一项所述的方法,其中所述正向引物和反向引物的长度是约20至约50核苷酸。
24.如权利要求1-23任一项所述的方法,其中所述参考多核苷酸序列的长度是至少1000bp。
25.如权利要求1-24任一项所述的方法,其中所述多个正向引物和反向引物序列的序列通过以下步骤产生 (i)鉴定所述多核苷酸变体序列中与所述参考序列相比的第一个确定的差异,并确定所述多核苷酸序列中最邻近的确定的差异的接近度; (ii)选择正向引物,所述正向引物具有包括所述第一个确定的核苷酸差异的序列,并且任选地,如果任何最邻近的确定的差异接近所述第一个确定的核苷酸差异,在该相同正向引物中包括该最邻近的确定的差异; (iii)鉴定所述多核苷酸变体序列中与所述参考序列相比的下一个确定的差异,并确定所述多核苷酸序列中最邻近的确定的差异的接近度,或鉴定已经达到所述多核苷酸变体的末端; (iv)选择反向引物,所述反向引物具有包括所述下一个确定的核苷酸差异的序列,并且任选地,如果任何最邻近的确定的差异接近所述下一个确定的核苷酸差异,在该相同正向引物中包括该最邻近的确定的差异;和 (V)对所述多核苷酸变体序列中每一个确定的差异重复步骤(iii)至(iv),使得所有确定的差异存在于引物上。
26.如权利要求25所述的方法,其中所述方法还包括为不是由(ii)和(iv)的正向引物和反向引物所确定的多核苷酸区段选择非诱变的反向寡核苷酸引物和正向寡核苷酸引物。
27.一种组合物,所述组合物包含根据权利要求1-26任一项所述的方法合成的多个多核苷酸变体。
28.一种组合物,所述组合物包括多个表达载体,所述表达载体包括根据权利要求5所述的方法合成的多核苷酸变体。
29.一种组合物,所述组合物包括多个转化的细胞,所述转化的细胞包括根据权利要求6所述的方法合成的多核苷酸变体。
30.一种多肽变体的文库,所述多肽变体根据权利要求8所述的方法分离。
31.一种合成相对于参考多核苷酸序列具有随机混合的确定的核苷酸差异的多个多核苷酸变体的方法,所述方法包括 (a)提供多对正向引物和反向引物,其中所述多对正向引物和反向引物包括诱变引物和非诱变引物的混合物,其中所述诱变引物包括多个确定的核苷酸差异,并且其中每对产生包括能够结合至少一个其他扩增子的相邻重叠序列的序列的扩增子; (b)用所述多对正向引物和反向引物的每一对扩增参考多核苷酸模板,从而产生多组扩增子,其中每组包括具有能够结合形成所述参考多核苷酸序列的全长的相邻重叠序列的扩增子; (C)组装和复制所述多组扩增子,从而合成具有随机混合的确定的核苷酸差异的多个多核苷酸变体。
32.如权利要求31所述的方法,其中所述多对正向引物和反向引物在扩增参考多核苷酸模板之前被组合,从而产生组合的多组扩增子。
33.如权利要求31所述的方法,其中扩增参考多核苷酸模板分别用所述多对正向引物和反向引物的每一对来进行,并且所述多组扩增子在组装和复制之前被组合。
34.如权利要求31-33任一项所述的方法,其中所述诱变引物和非诱变引物的混合物包括I : 2比例的诱变引物非诱变引物。
35.如权利要求31-34任一项所述的方法,其中所述多个确定的核苷酸差异包括所述参考多核苷酸的至少5个选定位置,并且所述多个多核苷酸变体包括至少15个多核苷酸变体,每个多核苷酸变体具有在所述确定位置的所述确定的核苷酸差异的不同排列。
36.如权利要求31-34任一项所述的方法,其中所述多个确定的核苷酸差异包括所述参考多核苷酸的至少10个选定位置,并且所述多个多核苷酸变体包括至少25个多核苷酸变体,每个多核苷酸变体具有在所述确定位置的所述确定的核苷酸差异的不同排列。
37.一种筛选编码多肽的多核苷酸变体的可寻址文库的方法,所述方法包括 (a)将所述多核苷酸变体的可寻址文库的成员组合成池; (b)将多核苷酸变体的所述池克隆入表达载体; (C)用所述表达载体转化细胞; (d)平板接种所转化的细胞以产生多个分开的克隆,所述克隆包括多核苷酸变体的所述文库;和 (e)根据相对于参考多肽的改善性质来筛选所述克隆。
38.如权利要求37所述的方法,其中所述多核苷酸变体的可寻址文库包括至少200个不同的多核苷酸变体。
39.如权利要求37-38任一项所述的方法,其中所述多核苷酸变体的可寻址文库包括至少1000个不同的多核苷酸变体。
40.如权利要求37-39任一项所述的方法,其中所述多核苷酸变体的可寻址文库包括至少200个不同的多核苷酸变体,每个多核苷酸变体包括在至少10个不同选定位置之一的不同的确定的核苷酸差异。
41.如权利要求37-40任一项所述的方法,其中所述多核苷酸变体的可寻址文库包括至少400个不同的多核苷酸变体,每个多核苷酸变体包括在至少20个不同选定位置之一的不同的确定的核苷酸差异。
42.如权利要求37-41任一项所述的方法,其中所述多核苷酸变体的可寻址文库包括至少800个不同的多核苷酸变体,每个多核苷酸变体包括在至少40个不同选定位置之一的不同的确定的核苷酸差异。
43.如权利要求37-42任一项所述的方法,其中所述多核苷酸变体的可寻址文库包括至少46个不同的多核苷酸变体,每个多核苷酸变体包括在2个不同选定位置之一的23个不同密码子之一。
44.如权利要求37-43任一项所述的方法,其中所述多核苷酸变体的可寻址文库包括至少460个不同的多核苷酸变体,每个多核苷酸变体包括在20个不同选定位置之一的23个不同密码子之一。
45.如权利要求37-44任一项所述的方法,其中至少75%的所述多核苷酸变体的可寻址文库包括正确序列。
全文摘要
本公开内容涉及用于有效合成、克隆、转化和筛选多核苷酸变体的大型多样文库的方法,所述多核苷酸变体相对于参考多核苷酸包含明确的核苷酸差异。
文档编号C12N15/10GK102803489SQ200980159766
公开日2012年11月28日 申请日期2009年9月18日 优先权日2009年6月11日
发明者杰弗里·科尔贝克, 本杰明·米杰茨, 洛林·琼·吉尔, 理查德·J·福克斯, 韦丝娜·米切尔, 凡植·罗伯特·朴, 林恩·吉尔森 申请人:科德克希思公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1