本发明涉及用于对靶核酸序列进行密码子优化以用于在宿主细胞中表达的方法。本发明还涉及用于改善在宿主细胞中的表达的经密码子优化的核酸,以及包含经密码子优化的核酸的载体和宿主细胞。
背景技术:
1、密码子是dna或rna的三核苷酸序列,其编码特定氨基酸或发出翻译终止的信号(“终止(termination/stop)”密码子)。简并性存在于遗传密码内,因为所存在的密码子序列多于氨基酸或终止密码子。事实上,20种常见氨基酸中有18种由多个“同义密码子”(即,编码相同氨基酸的不同密码子)编码。物种之间的密码子使用可以显著不同:不同的物种典型地对某些密码子展现出“偏倚”,并且一些物种仅很少使用或根本不使用特定密码子。当目的基因含有宿主很少使用的密码子时,该基因在来自该宿主的细胞内遭遇翻译停滞,从而降低表达效率或完全阻止表达。密码子优化方法考虑了物种之间密码子偏倚方面的差异,并且被设计为通过将宿主很少使用的密码子用宿主以更高频率使用并因此被宿主“优选”的同义密码子替换来改善靶核酸序列的密码子组成。
2、最近,密码子使用已经作为翻译延伸速率和共翻译蛋白折叠的关键决定因素而成为焦点,宿主优选密码子提高翻译效率和折叠保真度。从酵母到人,同义密码子的不等使用(称为“密码子偏倚”)以及这种偏倚的普遍性质表明在更熟悉的遗传密码内存在二级密码。此二级密码作为翻译速度和共翻译蛋白折叠的主要调节因素并因此作为特定蛋白质细胞水平的重要决定因素出现。
3、为了鉴定特定宿主的密码子偏倚,典型地在数百或数千个编码dna序列(cds)中确定密码子使用的频率。为了对目的基因进行密码子优化,将基因内的在宿主中以低频率存在(或根本不存在)的密码子(其可以被称为“非优选密码子”)用宿主更常用的同义密码子(其可以被称为“优选密码子”)替换。密码子优化旨在在不改变编码蛋白质的序列的情况下提高目的基因的表达效率。
4、尽管完善的密码子优化方法是本领域已知的,但一些基因表达仍然具有挑战性,并且在一些情况下,经密码子优化的基因没有达到足够高的表达水平或者无法随时间推移维持足够的表达水平。
5、例如,人诱导多能干细胞(hipsc/ipsc)代表了具有分化为多种细胞类型的潜力的强大的研究工具。然而,这些细胞在使用crispr(成簇的规律间隔的短回文重复序列)-cas(crispr相关蛋白)基因编辑系统的全基因组遗传筛选方面的应用一直受到这些细胞无法有效表达cas蛋白(例如,cas9)的阻碍,尽管编码这些蛋白质的基因进行密码子优化以用于在人细胞系中表达。cas基因在源自ipsc的分化细胞类型中沉默的机制当前是未知的。
6、对于使得能够在宿主细胞中有效表达靶核酸序列的改进的密码子优化方法存在迫切且未满足的需求。
技术实现思路
1、诸位发明人已经开发了用于对靶核酸序列进行密码子优化以用于在宿主细胞中表达的新型方法。根据本发明,密码子优化利用编码宿主细胞高度表达的蛋白质的基因的密码子使用频率或编码在来自与宿主细胞相同的物种的细胞中高度表达的蛋白质的基因的密码子使用频率。将靶核酸内的编码高度表达的蛋白质的基因以低频率使用的密码子用编码高度表达的蛋白质的基因以高频率使用的同义密码子替换。
2、用于对靶核酸进行密码子优化的当前“金标准”是基于源自数百或数千个编码序列的物种水平的密码子偏倚。出乎意料的是,诸位发明人发现,与使用当前金标准进行优化的相应核酸相比,基于编码高度表达的蛋白质的基因的密码子偏倚对靶核酸序列进行密码子优化显著提高了表达效率。根据本发明的密码子优化实现了高水平且持续的表达,甚至是在典型地不表达包含密码子优化所基于的核酸序列的基因的细胞类型中。
3、重要的是,根据本发明的密码子优化在ipsc和源自ipsc的分化细胞系中实现了高水平且持续的蛋白质表达,这显著改善了这些细胞在研究中的潜在应用。
4、本发明提供了一种用于对靶核酸序列进行密码子优化以用于在宿主细胞中表达的方法,该方法包括基于编码在该宿主细胞中高度表达的蛋白质的基因的密码子使用频率或编码在来自与该宿主细胞相同的物种的细胞中高度表达的蛋白质的基因的密码子使用频率来改变该靶核酸序列的密码子使用频率。
5、在一些实施例中,该方法包括将该靶核酸序列内的一个或多个非优选密码子用优选的同义密码子取代,其中:(a)非优选密码子是编码该高度表达的蛋白质的基因以低频率使用的密码子;并且(b)优选密码子是编码该高度表达的蛋白质的基因以高频率使用的密码子。
6、在一些实施例中,非优选密码子是编码该高度表达的蛋白质的基因以比如果随机使用每个同义密码子所预期的更低的频率使用的密码子。
7、在一些实施例中,编码该高度表达的蛋白质的基因以小于50%、小于45%、小于40%、小于35%、小于33%、小于30%、小于25%、小于20%、小于16%、小于15%、小于10%、小于5%或0%的频率使用非优选密码子。
8、在一些实施例中,优选密码子是编码该高度表达的蛋白质的基因以比如果随机使用每个同义密码子所预期的更高的频率使用的密码子。
9、在一些实施例中,编码该高度表达的蛋白质的基因以至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或100%的频率使用优选密码子。
10、在一些实施例中,该方法包括将该靶核酸内的至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或100%的非优选密码子用优选的同义密码子替换。
11、在一些实施例中,该方法包括将该靶核酸内的编码该高度表达的蛋白质的基因以0%的频率使用的所有非优选密码子用优选的同义密码子替换。
12、在一些实施例中,该方法包括在该靶核酸的编码蛋白质的n末端区域的区域中将所有非优选密码子用优选的同义密码子替换。
13、在一些实施例中,该方法包括在该靶核酸的5’区域(任选地从该靶核酸的5’端开始的前至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900或至少1000个密码子)中将所有非优选密码子用优选的同义密码子替换。
14、在一些实施例中,该高度表达的蛋白质是管家蛋白或细胞标记蛋白。在一些实施例中,该高度表达的蛋白质选自gapdh、β-微管蛋白、β-肌动蛋白和微管蛋白iii。在一些实施例中,该高度表达的蛋白质是微管蛋白iii。
15、在一些实施例中,该一个或多个非优选密码子选自:丙氨酸密码子gca、gcg和gct;精氨酸密码子aga和cgt;半胱氨酸密码子tgt;谷氨酰胺密码子caa;异亮氨酸密码子ata;亮氨酸密码子cta和tta;赖氨酸密码子aaa;脯氨酸密码子ccg;丝氨酸密码子tcc;苏氨酸密码子aca、acg和act;酪氨酸密码子tat;缬氨酸密码子gta和gtt;以及终止密码子taa和tag。
16、在一些实施例中,该一个或多个非优选密码子选自:天冬酰胺密码子aat;天冬氨酸密码子gat;谷氨酸密码子gaa;甘氨酸密码子gga、ggg和ggt;组氨酸密码子cac;异亮氨酸密码子att;亮氨酸密码子ctc、ctt和ttg;苯丙氨酸密码子ttt;脯氨酸密码子cca;丝氨酸密码子tca和tcg;以及缬氨酸密码子gtc。
17、在一些实施例中,优选密码子选自:丙氨酸密码子gcc;半胱氨酸密码子tgc;谷氨酰胺密码子cag;赖氨酸密码子aag;苏氨酸密码子acc;酪氨酸密码子tac;以及终止密码子tga。
18、在一些实施例中,优选密码子选自:精氨酸密码子agg、cga、cgc和cgg;天冬酰胺密码子aac;天冬氨酸密码子gac;谷氨酸密码子gag;甘氨酸密码子ggc;组氨酸密码子cat;异亮氨酸密码子atc;亮氨酸密码子ctg;苯丙氨酸密码子ttc;脯氨酸密码子ccc和cct;丝氨酸密码子agc、agt和tct;以及缬氨酸密码子gtg。
19、在一些实施例中,该宿主细胞选自人细胞、细菌细胞、酵母细胞和真菌细胞。在一些实施例中,该宿主细胞是人细胞。在一些实施例中,该宿主细胞是hek293细胞。在一些实施例中,该宿主细胞是人诱导多能干细胞(ipsc)。在一些实施例中,该宿主细胞是源自ipsc的分化细胞,任选地其中该宿主细胞选自ipsc源性神经元如皮层神经元、多巴胺能神经元或运动神经元,ipsc源性巨噬细胞,ipsc源性心肌细胞,和ipsc源性肝细胞。
20、在一些实施例中,该靶核酸编码cas蛋白,任选地其中该cas蛋白选自cas9、cas12a和cas13rx。
21、本发明还提供了一种核酸,该核酸包含已经通过本发明的方法进行密码子优化的核酸序列。
22、本发明还提供了一种用于改善在宿主细胞中的表达的经密码子优化的核酸,其中该核酸的密码子使用频率对应于编码该宿主细胞高度表达的蛋白质的基因的密码子使用频率或编码在来自与该宿主细胞相同的物种的细胞中高度表达的蛋白质的基因的密码子使用频率。
23、在一些实施例中,与编码相同氨基酸序列的未经优化的核酸序列相比,该经密码子优化的核酸包含更低频率的非优选密码子。
24、在一些实施例中,与编码相同氨基酸序列的未经优化的核酸序列相比,该经密码子优化的核酸包含更高频率的优选密码子。
25、本发明还提供了一种核酸,该核酸编码cas9并且包含与seq id no:1或seq idno:3具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或100%序列同一性的核酸序列。
26、本发明还提供了一种核酸,该核酸编码cas12a并且包含与seq id no:4具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或100%序列同一性的核酸序列。
27、本发明还提供了一种核酸,该核酸编码cas13rx并且包含与seq id no:5具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或100%序列同一性的核酸序列。
28、本发明还提供了一种载体,该载体包含根据本发明的核酸。
29、本发明还提供了一种宿主细胞,该宿主细胞包含根据本发明的核酸或根据本发明的载体。
30、在一些实施例中,该宿主细胞选自人细胞、细菌细胞、酵母细胞和真菌细胞。在一些实施例中,该宿主细胞是人细胞。在一些实施例中,该宿主细胞是hek293细胞。在一些实施例中,该宿主细胞是人诱导多能干细胞(ipsc)。在一些实施例中,该宿主细胞是源自ipsc的分化细胞,任选地其中该宿主细胞选自ipsc源性神经元如皮层神经元、多巴胺能神经元或运动神经元,ipsc源性巨噬细胞,ipsc源性心肌细胞,和ipsc源性肝细胞。