利用密码子随机化和诱变来合成基因文库的方法

文档序号:9239672阅读:527来源:国知局
利用密码子随机化和诱变来合成基因文库的方法
【技术领域】
[0001] 本公开涉及一种容易地合成并分析具有蛋白遗传突变的基因文库和序列文库的 方法。
【背景技术】
[0002] 通常,基因合成是指合成长核酸片段的技术,其长度为200碱基对(bp)以上,包含 来自作为短核酸片段的寡核苷酸的遗传信息。为此,用于基因合成、寡核苷酸合成和使用寡 核苷酸的基因组装技术中的寡核苷酸的设计软件是必要的。作为常见的寡核苷酸合成方 法,有固相寡核苷酸合成法和使用DNA微阵列的寡核苷酸合成法。组装寡核苷酸的方法可 以大体分为三类方法,即,组装PCR,融合PCR,和连接酶链式反应(LCR)及随后的融合PCR。 合成的基因必须经过序列验证,以发现由寡核苷酸的合成和组装引起的错误,从而仅选择 出具有正确遗传信息的核酸片段。
[0003] 常规的基因合成一直是通过以下方式进行:将基因的正确核酸碱基序列分割 为多个短寡核苷酸以合成该基因,在将分割的寡核苷酸组装后,通过Sanger测序进行 评估,从而选择性地获取具有正确的核酸碱基序列的基因 (Mol Biosyst. 2009年7月; 5(7):714-22.doi:10.1039/b822268c.Epub 2009 年4月 6 日)。然而,尽管开发了多种组 装技术,这种方法因缺乏适当的测序技术而具有局限性。近来,由于开发出了多种下一代测 序技术(例如,诸如Illumina技术或Ion Torrent技术以及454技术等多种技术),所处 理的序列信息量呈指数增长,而分析成本也在逐渐降低(Carr, P. A.和Church, G. M. (2009) Genome engineering. Nat. Biotechnol.,27, 1151-1162)。虽然短寡核苷酸的高通量验证因 下一代测序(NGS)方法的开发而变得可能,但是在合成完成后的最终评估步骤中的有效应 用却不可能,这是因为下一代测序所固有的阅读长度短的局限性。由于下一代测序具有单 批次中能够分析的核酸碱基序列的阅读长度短的缺点,所以合成的基因要经历随机片段化 或随机剪切过程,在该过程中,合成的基因再次被分割为短片段,并使用下一代测序仪来启 动对所得基因的分析。随后,分析来自下一代测序仪的序列,而后通过计算机软件利用该分 析结果将DNA片段组装成整个基因序列。这种过程的局限性在于,难以判断在基因合成和 核酸测序过程中出现的错误来自那些片段。此外,当所合成的基因的长度并不长且所分析 的基因文库种类较小时,使用下一代测序来分析所合成的基因的方法并不是经济的方法。 因此,下一代测序在基因合成中的应用极其有限。
[0004] 在蛋白工程或生物合成途径工程中,大致理解蛋白的表型与基因型之间的关联是 非常重要的研宄课题。实际上,在构建了启动子(Patwardhan RP, Lee C, Litvin 0, Young DL,Pe,er D,Shendure J.Nature Biotechnology, 27, 1173-1175(2009))、短肽(Whitehead TA, Chevalier A, Song Y, Dreyfus C, Fleishman SJ, De Mattos C, Myers CA, Kamisetty H,Blair P,Wilson IA,Baker D. Nature Biotechnology, 30, 543-548 (2012))、单链抗体 的互补决定区(DeKosky BJ,Ippolito GC,Deschner RP,Lavinder JJ,Wine Y, Rawlings BM,Varadarajan N,Giesecke C,Dorner T,Andrews SF,Wilson PC,Hunicke-Smith SP, Willson CG1Ellington AD1Georgiou G. Nature Biotechnology, 31, 166-169(2013), L arman HB,Xu GJ,Pavlova NN,Elledge SJ.PNAS, 109, 18523-18528(2012))之后,一直在持 续进行研宄以确定这些构建的序列中表型与基因型之间的关联。然而,由于下一代测序中 的阅读长度短,这些研宄通常并不以蛋白的完整区域为目标,而是会构建比阅读长度短的 结构域区域。为了构建蛋白的完整区域,必须通过Sanger测序来对文库进行测序,或者必 须重新组装下一代测序信息(短的读出序列)。前一种情况效率很低,因为其耗时且费力, 还需要较高的成本。后一种情况受到目前已知的方法的阻碍。

【发明内容】

[0005] [技术问题]
[0006] 因此,本公开针对上述问题而完成,本公开的目的是提供一种通过解决下一代测 序的局限性而合成基因并构建蛋白的完整区域的方法。
[0007] [技术方案]
[0008] 根据本公开的第一方面,上述目的和其他目的可以通过提供一种合成第二基因文 库的方法来实现,所述方法包括:(a)提供包含随机化的密码子的第一基因文库,其编码特 定蛋白序列但具有不同的核酸碱基序列;(b)将第一基因文库片段化为核酸片段;(C)确认 所述核酸片段的碱基序列;和(d)使用密码子随机化的碱基序列,将碱基序列经确认的核 酸片段重新组装成片段化前的基因序列。
[0009] 根据本公开的另一方面,提供了一种用上述方法制造的无错的基因文库,其包含 编码相同蛋白但具有不同喊基序列的基因。
[0010] 根据本公开的另一方面,提供了一种合成突变基因的文库的方法,所述方法包括: (a)提供包含随机化的密码子的基因文库,其编码特定蛋白序列但具有不同的核酸碱基序 列;(b)诱导所述基因文库发生突变;(c)将突变基因的文库片段化为核酸片段;(d)确认 所述核酸片段的碱基序列;和(e)使用密码子随机化的碱基序列,将碱基序列经确认的核 酸片段重新组装成片段化前的基因序列。
[0011] 根据本公开的另一方面,提供了一种用上述合成突变基因文库的方法制造的突变 基因文库。
[0012] 根据本公开的另一方面,提供了一种从上述突变基因文库中选择性地扩增所需的 基因序列的方法。
[0013] [有益效果]
[0014] 根据本公开内容,当通过基因片段化来进行下一代测序时,原始基因序列可以通 过用重叠共有序列法组装NGS读出序列而得到正确复原。由此,下一代测序在应用于基因 合成时的局限性(阅读长度短)可以得到解决。此外,可以在单批中制造包含相同蛋白信 息和不同DNA序列的数百至数千种不同的基因文库(同义基因文库),且所有的基因序列都 可以通过一次测序来得到确认。当将这种基因文库合成和分析方法与蛋白工程法组合时, 构建蛋白的完整区域(这在常规方法中是不可能的)变得可能。
【附图说明】
[0015] 通过下文结合附图的详细描述,本发明的上述的和其他的目标、特征和优点将得 到更加清楚的理解,在附图中:
[0016] 图1是说明本公开的一个实施方式的合成基因文库的方法的流程图;
[0017] 图2是说明本公开的一个实施方式的利用目标基因的蛋白序列推导出具有随机 化密码子的DNA序列的过程的图;
[0018] 图3是说明本公开的一个实施方式的用来合成基因文库的寡核苷酸设计的图;
[0019] 图4是说明按照本公开的一个实施方式用限制性酶除去质粒主干并进行下一代 测序的不意图;
[0020] 图5是说明本公开的一个实施方式的重新组装通过下一代测序测得的核酸片段 的方法的示意图;
[0021] 图6是说明本公开的一个实施方式的kanR基因文库的合成结果的图;
[0022] 图7是说明本公开的一个实施方式的在使用大肠杆菌进行转化时控制基因文库 大小的示意图;
[0023] 图8是说明本公开的一个实施方式的使用超声发生器进行随机片段化的条件和 结果的图;
[0024] 图9是说明本公开的一个实施方式的在片段化后为下一代测序做准备的过程的 图;
[0025] 图10是说明本公开的一个实施方式的kanR基因文库的分析结果的图;
[0026] 图11是说明本公开的一个实施方式的针对kanR基因文库的选择性复原实验的结 果的图;
[0027] 图12是说明按照本公开的一个实施方式使用pUC19质粒制备pUCN质粒的图;
[0028] 图13是说明本公开的一个实施方式的tolC基因文库的合成结果的图;
[0029] 图14是说明本公开的一个实施方式的使用Npu内含肽的初步实验过程的图;
[0030] 图15是说明本公开的一个实施方式的对使用Npu内含肽的实验的分析结果的 图;
[0031] 图16是说明本公开的一个实施方式的对使用Npu内含肽的实验数据的模拟结果 的图;
[0032] 图17是说明本公开的一个实施方式的用于分析突变Npu内含肽文库的信息汇总 的图;
[0033] 图18是说明本公开的一个实施方式的Npu内含肽的高度保守的位置的示意图;
[0034] 图19是呈现了本公开的一个实施方式的通过趋势检验而计算出的优选突变的 图;
[0035] 图20是说明本公开的一个实施方式的CysErrlOOO库的基因型的图;
[0036] 图21是说明本公开的一个实施方式的内含肽突变序列根据外显肽的类型对卡那 霉素的耐受程度的图;
[0037] 图22是说明本公开的一个实施方式的在CysErr库和SerErr库中外显肽残基趋 势的图;和
[0038] 图23是说明本公开的一个实施方式的Npu内含肽的选择性复原实验的结果的图。
【具体实施方式】
[0039] 本说明书中使用的术语"核苷酸"是指单链或双链的脱氧核糖核酸(DNA)或核糖 核酸(RNA),除非另有定义,该术语可以包括核苷酸的类似物。
[0040] 本公开中所用的术语"扩增"是指扩增目标核酸碱基序列的反应,可以使用聚合酶 链式反应(PCR)来进行。PCR包括但不限于逆转录聚合酶链式反应(RT-PCR)、多重PCR、实 时PCR、组装PCR、融合PCR和连接酶链式反应(LCR)。
[0041] 本说明书中使用的术语"引物"是指寡核苷酸。引物是单链的,可以包括核糖核酸, 优选是脱氧核糖核酸。引物与模板的一条链杂交或退火,由此形成双链结构。引物可以与 本公开的侧翼序列杂交或退火。术语"退火(annealing)"是指寡核苷酸或核酸与模板核酸 匹配结合(juxtapose),通过该匹配结合,核苷酸通过聚合酶而聚合,因此,形成了与模板核 酸或其一部分互补的核酸分子。术语"杂交"是指两条单链核酸通过互补序列的配对而形 成双链结构。在诱导合成与模板互补的引物的延伸产物时,引物可以起到合成引发剂的作 用。
[0042] 在本公开中,存在于寡核苷酸末端的5'末端侧翼序列和3'末端侧翼序列是增加 寡核苷酸的量的引发位置,可以用作引物组的退火位点来产生足量的寡核苷酸,两端的侧 翼序列均可以存在于限制性酶的识别序列末端,或可以包含限制性酶的识别序列。在本公 开的一个实施方式中,本公开的侧翼序列可用于扩增反应中。
[0043] 本公开所用的术语"互补"是指具有在特定的杂交或退火条件下可以与上述核苷 酸序列选择性地杂交的互补性。
[0044] 本公开中所用的术语"组装"是指利用互补序列将核酸片段对齐并合并,从而连接 成更长的核酸片段。
[0045] 本公开中所用的术语"蛋白工程"是指:在合成具有所需的与野生型蛋白不同的氨 基酸序列的新蛋白后,通过翻译出各蛋白来研宄各蛋白的多种性质,例如结构、功能、互补 性或稳定性。蛋白工程是通过人工控制蛋白的结构来制备有用的新蛋白,且包括设计蛋白。
[0046] 本公开中所用的术语"克隆"是指:通过基因操纵技术将特定基因连接至载体,从 而将该特定基因导入宿主细胞,并利用细胞的复制机制进行大量增殖。作为增殖方法,可以 用使用源自多种质粒或噬菌体的载体DNA的方法。
[0047] 本公开中所用的术语"质粒"是指与细菌的细胞内染色体分离的DNA,质粒可以自 发地进行增殖。质粒运输被克隆的基因。<
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1