设计趋异的密码子优化大重复dna序列的方法_3

文档序号:9221191阅读:来源:国知局
腈水解酶,羟化酶,水解酶,聚合酶及解聚酶。 除了酶之外,可以通过本文公开的人造核酸分子编码的蛋白质包括但不仅限于:转录因子, 抗体,受体,生长因子(PDGF,EGF,FGF,SCF,HGF,TGF,TNF,胰岛素,IGF,LIF,制瘤素,CSF等 中的任意者),免疫调节剂,肽激素,细胞因子,整联蛋白,白细胞介素,粘附分子,凝血调节 分子(thrombomodulatory molecule),蛋白酶抑制剂,血管抑素,防御素,分化抗原簇,干扰 素,趋化因子,抗原包括来自感染性病毒和生物的抗原,癌基因产物,血小板生成素,红细胞 生成素,组织纤溶酶原激活剂,和期望在临床、诊断或兽医环境中使用的任何其他生物活性 蛋白质。所有这些蛋白质在文献中有明确定义(例如,通过示例性的氨基酸序列),并且在 本文中如此限定。此外,还包括这些蛋白质的缺失突变体,这些蛋白质的各个结构域,用这 些蛋白质制成的融合蛋白,以及这些蛋白质的混合物。
[0078] 序列同一性:如本文中所使用的,术语"序列同一性"或"同一性"在两个核酸或多 肽序列的语境下,是指当在特定比较窗口中对齐两个序列以实现最大的相应度时,两个序 列中相同的残基。
[0079] 如本文所使用的,术语"序列同一性的百分比"可以指通过比较两个在比较窗口中 最佳对齐的序列(例如核酸序列和氨基酸序列)而确定的数值,其中比较窗口中的序列部 分与用于最佳对齐的两个序列的参考序列(其不含有添加或缺失)相比,可以包含添加或 缺失(即缺口)。百分比如下计算:确定在两个序列中出现相同核苷酸或氨基酸残基的位置 的数目,从而产生匹配位置的数目,并用该匹配位置的数目除以该比较窗口中位置的总数, 其结果乘以100,生成序列同一性的百分比。
[0080] 在特定实施方案中,可以对核酸编码序列进行比较,以确定序列同一性。在这些和 其他实施方案中,编码序列可以在不允许添加或缺失(即缺口)的条件下进行比对。
[0081] 用于比对比较序列的方法是本领域众所周知的。各种程序和比对算法在例 如下文中有描述:Smith and Waterman (1981) Adv. Appl. Math. 2:482 ;Needleman and Wunsch (1970) J. Mol.Biol. 48:443 ; Pear son and Lipman (1988) Proc. Natl. Acad. Sci. U.S. A. 85:2444 ;Higgins and Sharp(1988)Gene 73:237-44 ;Higgins and Sharp(1989) CABIOS 5:151-3 ;Corpet et al. (1988)Nucleic Acids Res. 16:10881-90 ;Huang et al. (1992)Comp. Appl. Biosci. 8:155-65 ;Pearson et al. (1994)Methods Mol. Biol. 24:307-31 Jatiana et al. (1999)FEMS Microbiol. Lett. 174:247-50。序列比对方 法和同源性计算的详细说明可以在下列文献中找到:例如Altschul et al. (1990) J.Mol. Biol. 215:403-10。或者,比较序列的最佳比对可以用生物信息软件(DNASTAR,Inc.) LASERGENE?套装中的MEGALIGN ?程序,使用默认参数来实施。该程序实现了在下列 参考文献中描述的多个比对方案(scheme) :Dayhoff (1978)A model of evolutionary change in proteins-Matrices for detecting distant relationships,该文位于 Dayhoff(编辑)Atlas of Protein Sequence and Structure, National Biomedical Research Foundation,Washington D.C.Vol. 5, Suppl. 3, 345-358 页;Hein (1990) Methods Enzymol. 183:626-45 ;Higginsand Sharp(1989),前文;Myersand Muller(1988) CABI0S4:11-7 ;Robinson (1971)Comb. Theor 11:105 ;Santou and Nes(1987)Mol. Biol. Evol. 4:406-25 ;Sneathand Sokal (1973)Numerical Taxonomy-the Principles and Practice of Numerical Taxonomy, Freeman Press, San Francisco, Calif. ;^RWilburand Lipman(1983)Proc. Natl. Acad. Sci. USA 80:726-30〇
[0082] NCBI基本局部比对搜索工具(BLAST?;Altschul et al. (1990))可以从多个来源 获得,包括NCBI (Bethesda,MD)和互联网上,与多种序列分析程序关联使用。关于如何使用 该程序确定序列同一性的描述可以在互联网上通过BLAST?的"帮助"部分获得。对于核酸 序列的比较,可以采用BLAST?(Blastn)程序的"Blast 2seqUenCes"功能,使用设置为默认 参数的默认BL0SUM62矩阵。当通过这一方法进行评估时,与参考序列具有越大相似性的核 酸序列将显示越高的百分比同一性。
[0083] 人造的:如本文对参考核苷酸序列(包含人造核苷酸序列的核酸分子)所使用的, 术语"人造的"是指序列是被设计出来的(例如在计算机上),例如为了表达所编码感兴趣 多肽的目的而被设计出来的。术语"人造核苷酸"还包括通过基因合成领域技术人员已知 的体外或体内方法或者通过体外或体内方法的组合,利用化学合成的寡核苷酸制造的核酸 分子。
[0084] IV.编码氨基酸重复区的趋异且密码子优化的核酸序列
[0085] 本公开提供了用于设计趋异且密码子优化的核酸序列的方法。在一些实施方案 中,本发明的方法可以用于设计编码感兴趣多肽的核酸序列,其中该感兴趣多肽包含至少 一个氨基酸重复区。在某些实施方案中,感兴趣多肽可以包含多个氨基酸重复区。每个氨基 酸重复区域可以包含一个或多个氨基酸重复单元。由包含通过本发明方法设计的趋异的、 密码子优化的核酸序列的序列编码的多肽在一些实施方案中可以包含长度为例如10-300 个氨基酸的氨基酸重复区。在实施方案中,使用本方法可避免某些通常与编码具有氨基酸 重复区的多肽的人造核苷酸序列相伴的问题。在一些实施方案中,使用本公开方法可以避 免的问题包括:转录本不稳定性;异源基因不稳定性;相对低表达;低效基因合成;低效基 因测序。
[0086] 在一些实施方案中,只有核酸分子的编码区是用根据本公开的方法设计的。然而, 在一些实施方案中,可能理想的是包含某些非编码序列,其在编码序列的上游、下游、或在 其中(例如,内含子)。因此,在一些实施方案中,在包含所述人造编码序列的核酸分子中所 包含的任何非编码序列的序列均可以考虑在本公开的方法之内。
[0087] 在一些实施方案中,提供了编码包含至少一个氨基酸重复单元的多肽的人造核酸 序列。用于设计编码感兴趣多肽的趋异的、密码子优化的核酸序列的方法一般是从期望的 多肽或待表达的基因产物出发的。或者,该方法可以从有已知或未知功能的基因或核酸序 列出发。例如,可以用该方法设计表达多肽的人造核酸序列,用于例如研宄由该核酸序列编 码的多肽的功能。在一些实施方案中,可以基于参考蛋白质或参考蛋白质结构域设计或衍 生感兴趣多肽。在其他实施方案中,可从头设计感兴趣多肽,以便,例如,获得具有特定氨基 酸序列的分子的某些预期的生物化学或生物物理学性质,或者获得待用于筛选期望活性的 分子。在实施方案中,可以设计编码任何感兴趣多肽的全部或部分的趋异的、密码子优化的 核酸分子。
[0088] 本发明的方法可以出于本领域技术人员已知的多种原因用于设计人造核酸序列; 例如用于增加表达,使被表达的核酸序列适应新的宿主细胞或生物,和向所编码的多肽中 导入功能性和/或非功能性突变。通常,在参考氨基酸序列是天然存在的基因产物,或者是 天然存在的基因产物的一部分(例如分离的蛋白结构域)的实施方案中,编码参考氨基酸 序列的天然存在的核酸序列可以通过例如搜索基因组数据库或从源基因组克隆而获得。在 许多情况下,这些核酸序列的同源物或直系同源物也可以在其他生物的基因组中被发现。 在实施方案中,可以从编码任何参考多肽的序列设计或者衍生编码感兴趣多肽的全部或一 部分的趋异的、密码子优化的核酸序列。在特定实施方案中,参考多肽和感兴趣多肽包括至 少一个氨基酸重复区。
[0089] 在一些实施方案中,所公开的方法涉及对人造核酸分子的核苷酸序列进行优化, 从而使所编码多肽的一级结构不变。所编码多肽的结构最大程度地被多肽的氨基酸序列所 确定。因此,所编码多肽的期望结构对其核苷酸编码序列构成限制,该限制取决于遗传编码 的简并性和标准密码子用法。在本发明的某些实施方案中,可以在计算机上设计人造核酸 分子,使核酸分子包含从编码感兴趣多肽的全部或部分(例如氨基酸重复区)的密码子空 间中选出的、特定的趋异且密码子优化的序列。通过组入选出的特定序列,可以避免某些 与编码包含氨基酸重复结构域的多肽的核苷酸序列相关的问题,并且与仅经过密码子优化 (例如通过参考表达宿主生物的密码子使用偏好而优化)的序列相比,可以实现一种或多 种期望的性质(例如提高表达)。
[0090] 在一些实施方案中,接下来可以从编码整个感兴趣蛋白的核酸序列分别提取出各 个编码感兴趣多肽的氨基酸重复区的核酸序列(作为单独的序列)。所提取的序列可以用 于设计一组密码子优化的核苷酸序列;例如,一组核苷酸序列,其中各核苷酸序列各自编码 感兴趣多肽的氨基酸重复区。该密码子优化的核苷酸序列随后可用于设计趋异的、密码子 优化的核苷酸序列。在设计密码子优化的核苷酸序列时,可以考虑各种因素。这些因素可 以包括表达宿主生物的密码子使用偏好。
[0091] 有多种多样的方法可供本领域技术人员用来根据预定的参数优化核酸分子的编 码序列(例如,编码感兴趣肽的氨基酸重复区的核苷酸序列)。例如,技术人员可以通过检 查来优化编码序列,以便,例如,更贴合表达宿主生物的密码子使用偏好。更常见地,可以使 用计算机实现的软件程序对编码序列进行优化。这些软件程序可以包括一个或多个算法用 于优化选自下组的因素:可能影响所编码感兴趣多肽的表达的因素,可能影响转录本翻译 起始速度的因素,和可能影响所编码多肽或其前体翻译延伸速度的因素。这些软件程序的 特定实例包括,但不仅限于,OPTGENE? (Ocimum Biosolutions) ,Accelrys GCG?(Accelrys Software, Inc. ),OPTIMIZER?(在万维网上 genomes, urv. es/OPTIMIZER可供公众使用),和 OPTIMUMGENE? (GenScript) 〇
[0092] 在一些实施方案中,所提取的各自编码感兴趣多肽的氨基酸重复区的序列可以首 先通过推导由该提取序列编码的氨基酸序列(例如,在计算机上翻译)进行密码子优化。在 进一步的实施方案中,可直接利用氨基酸重复区的氨基酸序列来获得密码子优化的核酸序 列。在特定的实施方案中,可以利用每个氨基酸重复区的氨基酸序列(从核酸序列推导的 或者直接提供的)来推导编码氨基酸重复区的密码子优化的核酸序列(例如计算机逆向翻 译),例如通过使用能够根据预定参数优化编码序列的计算机实现的软件程序。在特定的实 例中,密码子优化的核酸序列可以用标准遗传编码和表达宿主生物的合适密码子使用偏好 表来推导。在一些实施方案中,可能理想的是推导多个密码子优化的核酸序列,它们编码每 个氨基酸重复区。因此,在特定的实例中,可以利用一个单氨基酸重复区推导编码该氨基酸 重复区的一组 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11,12, 13, 14, 15, 16, 17, 18, 19, 20,或更多个密码子 优化的核酸序列。在一些实施方案中,推导出的编码氨基酸重复区的密码子优化核酸序列 可以通过计算机实现的软件程序输出为文本文件,或以其他方式为从业者记录。例如,对于 编码单个氨基酸重复区的全部一组推导的密码子优化核酸序列,计算机实现的软件程序可 以将它们输出为相应数目的文本文件。
[0093] 在一些实施方案中,对于推导出的各个编码氨基酸重复区的密码子优化核酸序 列,可以通过序列同源性进行比对。在特定的实例中,每组与感兴趣多肽的全部相似氨基酸 重复区对应的推导的密码子优化核酸序列中的每一个序列均被彼此比对。因此,若多肽具 有10个被鉴定为相似重复的区域、并且其中每一个区域推导出10个密码子优化核酸序列, 则该多肽在设计过程的这一阶段中可以用100个核酸序列的比对来代表。在特定的实例 中,推导的密码子优化的核酸序列与蛋白质编码区的片段对应,因此可在不允许"缺口"的 条件下进行比对。
[0094] 在一些实施方案中,各个推导的密码子优化的核酸序列可以用计算机实现的软件 程序(例如可以在WWW. megasoftware· net/获得的CLUSTALW?, Mega3. 1)加以比对。在对 推导序列进行比对的过程中或之后,可以由算法(例如CLUSTAL?算法)来遵循本领域技术 人员已知的方法组装邻接树。
[0095] 在特定的实施方案中,可以利用邻接树来为感兴趣多肽中的某个氨基酸重复区选 择具体的趋异的、密码子优化的核酸序列。在一些实施方案中,具体的趋异的、密码子优化 的核酸序列可以从对应于特定氨基酸重复区的一组推导的密码子优化核酸序列中选出。在 其他实施方案中,可利用邻接树为感兴趣多肽中的每一个氨基酸重复区选择具体的趋异、 密码子优化的核酸序列。在特定的实例中,对应于特定的氨基酸重复区的一组推导的密码 子优化核酸序列中的一个从邻接树分支最深的部分中被选出,并且被选中的序列是趋异、 密码子优化的核酸序列。
[0096] 根据前文,本发明的方法可用于提供编码感兴趣多肽的氨基酸重复区的单个趋 异、密码子优化的核酸序列。在特定的实例中,方法可用于提供一组单个趋异、密码子优化 的核酸序列,其中每一个序列编码感兴趣多肽的不同氨基酸重复区。例如,可以提供一组单 个趋异、密码子优化的核酸序列,从而使感兴趣多肽中每一个氨基酸重复区均被编码它的 单个趋异、密码子优化的核酸序列所代表。
[0097] 在一些实施方案中,对于选定的编码氨基酸重复区的趋异、密码子优化的核酸序 列,可将其整合到编码整个感兴趣多肽的优化核酸序列中,从而使灌该选定的趋异、密码子 优化的核酸序列在编码整个感兴趣多肽的优化核酸序列中被整合到该特定重复相应的合 适位置处,同时保持感兴趣多肽的正确阅读框。例如,对于一组单趋异、密码子优化的核酸 序列,其中每一个序列编码感兴趣多肽的不同氨基酸重复区,其所有成员可以被整合到编 码整个感兴趣多肽的优化核酸序列中,从而使该组的所有成员均被整合在感兴趣多肽的整 个序列中特定重复相应的合适位置处。在特定的实例中,代表感兴趣多肽的每一个氨基酸 重复的组中的所有趋异、单个密码子优化的核酸序列可以被整合在编码整个感兴趣多肽的 优化核酸序列中特定重复相应的合适位置处。因此,本发明的一些实施方案可用于产生编 码感兴趣多肽的人造核酸序列,其中所述多肽的每个氨基酸重复区由一个趋异的、密码子 优化的核酸序列编码。
[0098] 在许多实施方案中,可能理想的是对编码多肽的整个核酸序列进行优化。此外,包 含编码感兴趣多肽的序列的核酸分子的非编码区也可以被优化。因此,在一些实施方案中, 本发明还包括这样的人造核酸分子,其包含编码感兴趣多肽的优化序列,其中该优化序列 包含如前文所述的编码氨基酸重复区的趋异、密码子优化的核酸序列。核酸序列的优化可 以包括提高宿主产生外来蛋白质的能力的步骤,以及帮助研宄人员高效设计和组装表达构 建体的步骤。优化策略可以包括,例如,修饰翻译起始区,改变mRNA结构元件,和使用不同 的密码子偏好。
[0099] 任何本领域技术人员可用的方法均可用于根据预定的参数优化核酸序 列(例如,编码感兴趣肽的氨基酸重复区的核苷酸序列)。例如,可以使用软件程 序,例如但不仅限于,OPTGENE?(Ocimum Biosolutions),ACCELRYSGCG?(Accelrys Software, Inc.),0PTIMIZER?(在万维网上的 genom
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1