藻类基因的诱导表达的制作方法

文档序号:26003758发布日期:2021-07-23 21:21阅读:293来源:国知局
藻类基因的诱导表达的制作方法

相关申请的交叉引用

本申请依照35u.s.c.§119(e)要求2018年12月19日提交的美国申请序列号62/782,152的优先权益,其全部内容通过引用整体并入本文。

序列表的并入

所附序列表中的材料在此通过引用并入本申请。名为sgi2220_1wo_序列表.txt的随附序列表文本文件创建于2019年12月18日,大小为107kb。可以在使用windowsos的计算机上使用microsoftword访问该文件。

本发明总体上涉及用于选择性表达目的基因的藻类细胞的基因工程领域。



背景技术:

藻类细胞是有前途的生物燃料来源(wijffels&barbosa(2010)《科学(science)》329:796-799)。它们利用太阳能将二氧化碳转化为富含碳的脂类的能力已经超过了产油作物的能力,另外的优势在于,用于生物燃料的藻类不会与产油作物争夺农业用地(wijffels&barbosa,2010)。为了使藻类燃料产量最大化,需要工程改造新的藻类菌株以实现工业规模的生长和碳固定(wijffels&barbosa,2010)。

进一步地,现代重组菌株的开发需要强大而有效的工具来表达转基因以及内源基因,以所需的方式改变细胞的代谢和生理学。任何基因工程“工具包”的基本组成部分都是驱动转基因或内源基因表达的一套功能性启动子和终止子。需要从正在开发重组dna技术的菌株中克隆和验证的内源启动子,以及其他的策略来增加微生物(诸如藻类)的转化和改进异源基因的表达。



技术实现要素:

本文提供了用于在藻类细胞中诱导表达天然和异源dna序列的新型藻类诱导型启动子和终止子序列。还提供了包含新型藻类诱导型启动子和/或终止子序列的dna构建体和表达盒。还提供了包含dna构建体的藻类突变体,所述dna构建体包含新型藻类诱导型启动子和/或终止子序列,以及在藻类细胞中选择性表达目的dna的方法。

一方面,本公开提供了藻类诱导型硝酸还原酶和亚硝酸还原酶启动子序列,所述启动子序列包含与选自由seqidno:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49和51组成的群组中的序列的至少100、至少200、至少300、至少400或至少500个连续核苷酸或全序列具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或100%序列同一性(但任选地在任何实施方案中小于100%序列同一性)的核酸序列。例如,启动子可包含与选自由seqidno:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49和51组成的群组中的序列的至少100、至少200、至少300、至少400或至少500个从3'端沿5'方向(或可替代地从5'端沿3'方向)延伸的连续核苷酸具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%(但任选地在任何实施方案中小于100%)同一性的序列。在另一示例中,启动子可包含与任何命名序列或至少500个从3'端沿5'方向延伸的连续核苷酸至少90%但小于100%同一性的序列。在一些实施方案中,硝酸还原酶和亚硝酸还原酶启动子位于硝酸还原酶和亚硝酸还原酶基因之间的基因间区域。在一些实施方案中,硝酸盐和亚硝酸还原酶启动子分别位于硝酸盐和亚硝酸还原酶基因的5'-utr区域。

一方面,本公开提供了藻类硝酸还原酶和亚硝酸还原酶终止子序列,所述终止子子序列包含与选自由seqidno:2、4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50和52组成的群组中的序列的至少25、至少50、至少75、至少100或至少150个连续核苷酸或全长序列具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性(但任选地在任何实施方案中小于100%)的核酸序列。在一些实施方案中,硝酸和亚硝酸还原酶终止子分别位于硝酸和亚硝酸还原酶基因的3'-utr区域。

一方面,本公开提供了分离的dna分子,所述分离的dna分子包含可操作地连接到编码多肽或功能性rna的目的dna的藻类硝酸还原酶或亚硝酸还原酶诱导型启动子,其中编码多肽或功能性rna的目的dna不受自然界中的启动子调控或未可操作地连接到启动子。藻类硝酸还原酶或亚硝酸还原酶诱导型启动子与选自由seqidno:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49和51组成的群组中的序列的至少100、至少200、至少300、至少400或至少500个连续核苷酸(或全长序列)具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的序列同一性(但任选地在任何实施方案中小于100%序列同一性)。例如,分离的dna分子可包含与选自由seqidno:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49和51组成的群组中的序列的至少100、至少200、至少300、至少400或至少500个从3'端沿5'方向(或可替代地从5'端沿3'方向)延伸的连续核苷酸具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%(但任选地在任何实施方案中小于100%)序列同一性的序列。本申请的藻类硝酸还原酶或亚硝酸还原酶启动子可以同与藻类物种异源或同源的任何目的dna可操作地连接。对于与藻类同源的目的dna,这些启动子不与自然界中的这些目的dna并置,并且不调节这些dna目的在自然界中的表达。

在一些实施方案中,分离的dna分子包含可操作地连接到编码多肽或功能性rna的目的dna的藻类硝酸还原酶或亚硝酸还原酶终止子序列,所述终止子序列包含与选自由seqidno:2、4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50和52组成的群组中的序列的至少25、至少50、至少75、至少100或至少150个连续核苷酸(或全长序列)具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%序列同一性(并且任选地在任何实施方案中小于100%)的核酸序列。

一方面,本文提供了基因工程藻类,所述基因工程藻类包含与目的dna可操作地连接的dna分子或序列,所述dna分子或序列包含藻类硝酸还原酶或亚硝酸还原酶诱导型启动子,其中目的dna不受自然界中的启动子调控。在一些实施方案中,dna分子整合到藻类基因组中。目的dna可以与藻类物种异源或同源。对于与藻类同源的目的dna,启动子不与自然界中的目的dna并置,并且不调节目的dna在自然界中的表达。

一方面,本文提供了包含dna分子的表达盒,所述dna分子包含可操作地连接到编码多肽或功能性rna的目的dna的藻类硝酸还原酶或亚硝酸还原酶诱导型启动子,其中编码多肽或功能性rna的目的dna不受自然界中的启动子调控,其中目的dna编码(a)与脂质生物合成相关的蛋白质、(b)脂肪酶、(c)参与光合作用的蛋白质、(d)与碳固定相关的蛋白质、(e)转运蛋白、(f)脱氢酶、(g)转录因子、(h)转录激活剂、(i)细胞信号蛋白、(j)代谢酶、(k)报告蛋白、(l)选择标记、(m)重组酶、n)反义序列、(o)短发夹rna(shrna)、(p)小干扰rna(sirna)、(q)grna(grna)或(r)核酶。在一些实施方案中,表达盒进一步包含藻类硝酸还原酶或亚硝酸还原酶终止子序列,其可操作地连接到编码多肽或功能性rna的目的dna。目的dna可以与藻类物种异源或同源。对于与藻类同源的目的dna,这些启动子不与自然界中的这些目的dna并置,并且不调节这些目的dna在自然界中的表达。

一方面,本文提供了一种在藻类细胞中选择性表达目的dna的方法,所述方法包括:a)用分离的dna分子转化藻类细胞,所述分离的dna分子包含与编码目的dna的目的dna可操作地连接的藻类硝酸还原酶或亚硝酸还原酶诱导型启动子,其中编码目的dna的目的dna在自然界中不受启动子调控,从而产生转化的藻类细胞,或本文所述的任何dna分子或序列;和b)使转化的藻类细胞在培养基中生长,所述培养基选择性允许在藻类细胞中表达目的dna。在一些实施方案中,通过粒子轰击引入分离的dna分子。在一些实施方案中,通过电穿孔引入分离的dna分子。在一些实施方案中,启动子序列是亚硝酸还原酶,并且其中藻类细胞在包含硝酸盐的培养基中生长,其中诱导目的dna的表达。在一些实施方案中,启动子序列是亚硝酸还原酶,并且其中藻类细胞在包含铵盐的培养基中生长,其中抑制目的dna的表达。

在上述方面的一些实施方案中,藻类硝酸还原酶或亚硝酸还原酶终止子来自与启动子相同的物种。在上述方面的一些实施方案中,编码多肽或功能性rna的目的dna与启动子序列异源。在上述方面的一些实施方案中,编码多肽或功能性rna的目的dna和启动子来自相同的藻类物种,其中编码目的dna和启动子在自然界中并不并置。

在上述方面的一些实施方案中,编码多肽或功能性rna的目的dna经基因工程改造以包括至少一个、至少两个、至少三个、至少四个、至少五个内含子,其中所述内含子与编码多肽或功能性rna的目的dna异源。在上述方面的一些实施方案中,内含子与启动子来自相同的藻类物种。在上述方面的一些实施方案中,两个或更多个异源内含子,例如,至少两个、至少三个、至少四个、至少五个内含子可以来自同一基因。在上述方面的一些实施方案中,一个或多个内含子和启动子可以来自同一基因。

在上述方面的一些实施方案中,目的dna编码选自由反义序列、微小rna(mirna)、shrna、sirna、grna和核酶组成的群组中的功能性rna。

在上述方面的一些实施方案中,启动子与终止子来自同一基因。在上述方面的一些实施方案中,启动子与终止子来自不同基因。

在上述方面的一些实施方案中,目的dna编码(a)与脂质生物合成相关的蛋白质、(b)脂肪酶、(c)参与光合作用的蛋白质、(d)与碳固定相关的蛋白质、(e)转运蛋白、(f)脱氢酶、(g)转录因子、(h)转录激活剂、(i)细胞信号蛋白、(j)酶、(k)报告蛋白、(l)选择标记或(m)重组酶。在上述方面的一些实施方案中,目的dna编码cre重组酶。

在一些实施方案中,突变藻类属于选自由以下组成的群组中的任何一个或多个的属:曲壳藻属(achnanthes)、茧形藻属(amphiprora)、双眉藻属(amphora)、纤维藻属(ankistrodesmus)、星胞藻属(asteromonas)、黄金色藻属(boekelovia)、bolidomonas属、borodinella属、气球藻属(botrydium)、葡萄藻属(botryococcus)、bracteococcus属、角毛藻属(chaetoceros)、四鞭藻属(carteria)、衣藻属(chlamydomonas)、绿球藻属(chlorococcum)、绿梭藻属(chlorogonium)、小球藻属(chlorella)、蓝隐藻属(chroomonas)、金球藻属(chrysosphaera)、cricosphaera属、隐甲藻属(crypthecodinium)、隐藻属(cryptomonas)、小环藻属(cyclotella)、杜氏藻属(dunaliella)、ellipsoidon属、圆石藻属(emiliania)、独球藻属(eremosphaera)、ernodesmius属、裸藻属(euglena)、真眼点藻属(eustigmatos)、披刺藻属(franceia)、脆杆藻属(fragilaria)、丽丝藻属(gloeothamnion)、红球藻属(haematococcus)、halocafeteria属、异弯藻属(heterosigma)、膜胞藻属(hymenomonas)、等鞭金藻属(isochrysis)、鳞孔藻属(lepocinclis)、微芒藻属(micractinium)、蒜头藻属(monodus)、单针藻属(monoraphidium)、微球藻属(nannochloris)、微拟球藻属(nannochloropsis)、舟形藻属(navicula)、新绿藻属(neochloris)、肾鞭藻属(nephrochloris)、肾藻属(nephroselmis)、菱形藻属(nitzschia)、棕鞭藻属(ochromonas)、鞘藻属(oedogonium)、卵囊藻属(oocystis)、蚝球藻属(ostreococcus)、巴夫藻属(pavlova)、拟小球藻属(parachlorella)、帕氏藻属(pascheria)、pelagomonas属、褐指藻属(phaeodactylum)、噬菌体属(phagus)、微绿藻属(picochlorum)、扁藻属(platymonas)、颗石藻属(pleurochrysis)、肋球藻属(pleurococcus)、原囊藻属(prototheca)、拟绿球藻属(pseudochlorella)、拟新绿藻属(pseudoneochloris)、拟角星鼓藻属(pseudostaurastrum)、塔胞藻属(pyramimonas)、桑椹藻属(pyrobotrys)、栅列藻属(scenedesmus)、骨条藻属(skeletonema)、spyrogyra属、裂丝藻属(stichococcus)、海链藻属(thalassiosira)、黄丝藻属(tribonema)、无隔藻属(vaucheria)、viridiella属、魏氏藻属(vischeria)和团藻属(volvox)。这些属在此以每种可能的组合和子组合公开,如同在此充分阐述一样。

在上述方面的一些实施方案中,藻类诱导型硝酸还原酶或亚硝酸还原酶启动子序列与目的dna可操作地连接。在一些实施方案中,在存在硝酸根离子的情况下,与硝酸还原酶或亚硝酸还原酶启动子序列可操作地连接的目的dna的表达增加。在一些实施方案中,在存在铵离子的情况下,与硝酸还原酶或亚硝酸还原酶启动子序列可操作地连接的目的dna的表达受到抑制。

在上述方面的一些实施方案中,藻类硝酸还原酶和亚硝酸还原酶终止子序列包含与选自由seqidno:2、4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50和52组成的群组中的序列的至少25、至少50、至少75、至少100或至少150个连续核苷酸具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的核酸序列。在上述方面的一些实施方案中,藻类硝酸还原酶或亚硝酸还原酶终止子序列与目的dna可操作地连接。

一方面,本公开提供了载体,所述载体包含如本文公开的表达盒以及自主复制序列和选择标记基因之一或两者。在一些实施方案中,载体包括至少一个复制起点。在一些实施方案中,载体进一步包括可操作地连接到选择标记或报告基因的附加启动子,诸如但不限于本文所公开的启动子。

在一些实施方案中,载体用于真核细胞(诸如但不限于真核微藻细胞或浮游植物细胞)的转化,其中所述载体包括可操作地连接到如本文所提供的启动子的选择标记基因,例如,包含与seqidno:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49或51中的任一个的至少100、至少200、至少300、至少400、至少500、至少600、至少700或至少800个连续核苷酸(或全长序列)具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%序列同一性(并且任选地在任何实施方案中小于100%)的核苷酸序列的启动子。转化载体进一步可包括一个或多个用于转移到宿主细胞中的附加基因或构建体,诸如编码多肽的基因,诸如但不限于上文所公开的任何基因或编码功能性rna的构建体,其中编码多肽或功能性rna的基因可任选地与本文所述的启动子可操作地连接,或可任选地与另一启动子可操作地连接。

此外,或可替代地,本文提供的载体可包括本文提供的终止子。例如,本发明的载体可包括与seqidno:2、4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50和52中的任一个的至少100、至少200、至少300、至少400、至少500、至少600、至少700或至少800个连续核苷酸(或全长序列)具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%序列同一性(并且任选地在任何实施方案中小于100%)的核苷酸序列。本发明载体上的目的dna或选择标记基因可以可操作地连接至本文提供的终止子序列。

在一些实施方案中,选择标记基因选自由以下组成的群组:对抗生素(例如,四环素、强力霉素或其类似物、嘌呤霉素、潮霉素、杀稻瘟菌素、博来霉素或腐草霉素(zeocintm)、诺尔斯菌素)产生抗性的基因;对除草剂产生抗性的基因;编码乙酰辅酶a羧化酶(accase)的基因;编码乙酰羟酸合酶(ahas)的基因;编码乙酰乳酸合酶的基因;编码氨基糖苷磷酸转移酶的基因;编码邻氨基苯甲酸合酶的基因;编码溴苯腈腈水解酶的基因;编码细胞色素p450-nadh-细胞色素p450氧化还原酶的基因;编码茅草枯脱卤素酶的基因;编码二氢蝶酸合酶的基因;编码i类5-烯醇式丙酮酰莽草酸-3-磷酸合酶(epsps)的基因;编码ii类epsps(aroa)的基因;编码非i/ii类epsps的基因;编码谷胱甘肽还原酶的基因;编码草甘膦乙酰转移酶的基因;编码草甘膦氧化还原酶的基因;编码羟苯基丙酮酸脱氢酶的基因;编码羟基苯丙酮酸双加氧酶的基因;编码异戊二烯基焦磷酸异构酶的基因;编码番茄红素环化酶的基因;编码膦丝菌素乙酰转移酶的基因;编码八氢番茄红素去饱和酶的基因;编码异戊二烯基转移酶的基因;编码原卟啉氧化酶的基因;编码超氧化物歧化酶arg7、his3、hisd、hisg、mana、nit1、trpb、uida、xyla的基因;二氢叶酸还原酶基因;甘露糖6-磷酸异构酶基因;硝酸还原酶基因;鸟氨酸脱羧酶基因;胸苷激酶基因;2-脱氧葡萄糖抗性基因或r基因座基因。可检测的标记基因可以是例如酪氨酸酶基因、lacz、碱性磷酸酶基因、α-淀粉酶基因、辣根过氧化物酶基因、α-半乳糖苷酶基因、萤光素/萤光素酶基因、β-葡萄糖醛酸苷酶基因(gus)或编码荧光蛋白的基因。

附图说明

本文描述的附图仅出于对所选实施例,而不是所有可能实现方式的说明,并且无意于限制本公开的范围。

图1.图1示出了在选择性培养基中表达cre重组酶的拟小球藻细胞(parachlorellacell)中诱导和抑制与拟小球藻亚硝酸还原酶启动子可操作地连接的cre重组酶基因表达的qrt-pcr结果。在阻遏性培养基(rm-nh4+/no3-)下生长的重组拟小球藻细胞被抑制(左栏),而在诱导培养基(im-no3-)上生长的重组拟小球藻细胞则被诱导(右栏)。

图2.图2示出了在选择性培养基中表达cre重组酶的拟小球藻细胞中诱导和抑制与拟小球藻亚硝酸还原酶启动子可操作地连接的cre重组酶基因表达的蛋白质免疫印迹(westernblot)结果。在阻遏性培养基(rm-nh4+/no3-)下生长的重组拟小球藻细胞被抑制(中间栏),而在诱导培养基(im-no3-)上生长的重组拟小球藻细胞则被诱导(右栏)。野生型拟小球藻细胞的结果显示在左栏中。

图3.图3示出了拟小球藻中亚硝酸/亚硫酸还原酶基因的blast比对结果。结果显示最多的pfam命中片段均为亚硝酸/亚硫酸还原酶基因。

图4.图4示出了拟小球藻硝酸和亚硝酸还原酶基因的编码序列以及两个基因之间的基因间非翻译区的示意图,这两个基因分别以相反方向包含硝酸和亚硝酸还原酶启动子序列。图4还示出了亚硝酸还原酶基因的3'-utr区域的亚硝酸还原酶终止子。

图5.图5示出了质粒psge06785的质粒图谱,所述质粒通过使用亚硝酸还原酶启动子/终止子在不存在铵的情况下表达cre重组酶(含有天然拟小球藻内含子)。bler和gfp基因的表达由组成型启动子/终止子驱动。

具体实施方式

基于rna测序数据、隐马尔可夫模型分析、blast分析以及pfampf01077和pf03460的pfam分析,本申请鉴定了藻类硝酸还原酶和亚硝酸还原酶基因的5'-和3'-非翻译区(utr)中的新型藻类硝酸和亚硝酸/亚硫酸还原酶启动子和终止子序列。在一些实施方案中,亚硝酸还原酶和亚硝酸还原酶基因在藻类同一染色体的相反方向上。在一些实施方案中,亚硝酸还原酶和亚硝酸还原酶启动子位于两个基因的基因间区域中(图4)。在一些实施方案中,亚硝酸还原酶和亚硝酸还原酶终止子分别位于亚硝酸还原酶和亚硝酸还原酶基因的3'-utr区域中(图4)。

本申请公开了几种来自各种藻类例如拟小球藻属、卵囊藻属、微绿藻属和四爿藻属(tetraselmis)的新型藻类诱导型硝酸还原酶或亚硝酸/亚硫酸还原酶启动子序列。此类藻类硝酸还原酶或亚硝酸/亚硫酸还原酶启动子序列的非限制性示例以seqidno:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49和51列出,如下所示。

本申请公开了几种来自各种藻类例如拟小球藻属、卵囊藻属、微绿藻属和四爿藻属的新型藻类硝酸还原酶或亚硝酸还原酶终止子序列。此类藻类硝酸还原酶或亚硝酸/亚硫酸还原酶终止子序列的非限制性示例以seqidno:2、4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50和52列出,如下所示。

本申请还公开了dna构建体,所述dna构建体包含本文所述的新型藻类诱导型硝酸还原酶或亚硝酸还原酶启动子序列,所述启动子序列可操作地连接到编码多肽或功能性rna的目标dna,其中目的dna编码的多肽或功能性rna不受自然界中(例如,在野生型生物中)启动子的调节或不能可操作地连接。在一些实施方案中,启动子可以是异源启动子。在一些实施方案中,dna构建体还包含与目的dna可操作地连接的藻类硝酸还原酶或亚硝酸还原酶终止子序列。本申请还公开了包含dna构建体的表达载体。调控序列是否调控自然界中的核酸序列可以通过调控序列是否调控野生型有机体中的核酸序列来确定。

本申请还公开了使用与目的dna可操作地连接的新型藻类诱导型硝酸还原酶或亚硝酸还原酶启动子序列在藻类中选择性表达目的dna的方法。可操作地连接至目的dna的包含新型藻类诱导型硝酸还原酶或亚硝酸还原酶启动子的基因工程藻类在选择性培养基(例如,包含硝酸盐的培养基)中生长,以诱导或表达目标dna的基因工程藻类,或者基因工程藻类可以在包含铵离子的培养基中生长以抑制目的dna的表达。

下面列出的是来自各种藻类物种的示例性新型藻类硝酸还原酶或亚硝酸还原酶启动子和终止子序列。

除非另外定义,否则本文所使用的所有技术术语、符号以及其他科学术语或专有名词意图具有本发明所属领域的技术人员所通常理解的含义。在一些情况下,为了清楚起见和/或为了及时参考,在本文中对具有通常所理解的含义的术语进行定义,并且在本文中包括这些定义不应当一定被解释为代表相对于本领域中一般所理解的含义存在实质性的差异。本文所描述或提到的许多技术和程序由本领域技术人员很好地理解并且通常使用常规的方法加以利用。

除非上下文另外明确规定,否则单数形式“一个”、“一种”和“所述”包括复数指代对象。举例来说,术语“一个细胞”包括一个或多个细胞,包括其混合物。“a和/或b”在本文用于包括所有以下替代方案:“a”、“b”以及“a和b”。

如本文所使用的,当指代任何数值时,术语“约”或“大约”意指在所提供的值加上或减去10%以内。例如,“约50摄氏度”(或“大约50摄氏度”)涵盖从45摄氏度到55摄氏度(包括端值)的温度范围。类似地,“约100mm”(或“大约100mm”)涵盖从90mm至110mm(包括端值)的浓度范围。或者,“约”或“大约”可以表示在所述值的5%之内,或者在一些情况下在所述值的2.5%之内,或者,“约”可以表示四舍五入到最接近的有效数字。本申请提供的所有范围都包括所述范围的上下两端的值。

本文中使用的术语“细胞”、“细胞培养”、“细胞系”、“重组宿主细胞”、“受体细胞”和“宿主细胞”包括主要受试细胞及其任何子代,而不考虑转移次数。应当理解,并非所有子代都与亲代细胞完全相同(由于环境中有意或无意的突变或差异)。但是,只要子代保留与最初转化细胞相同的功能,这些术语中就包括这些改变的子代。

如本文所用,术语“构建体”旨在表示任何重组核酸分子,诸如表达盒、质粒、黏粒、病毒、自主复制的多核苷酸分子、噬菌体或衍生自任何来源的线性或环状、单链或双链、能够进行基因组整合或自主复制的dna或rna多核苷酸分子,其包含核酸分子,其中一个或多个核酸序列已以功能操作方式连接(即可操作地连接)。

本文所用的“对照有机体”、“对照微生物”或“对照细胞”是指与受试有机体、微生物或细胞基本相同(除了为受试有机体、微生物或细胞公开的工程遗传操作或引入的突变)并可为测量受试有机体或细胞表型的变化提供参考点的有机体、微生物或细胞。因此,“基本相同”包括,例如,与受试微生物中的目的基因型、表型、参数或基因表达水平无关的基因组序列(“snp”)的小的随机变异。取决于其用途的特定目的,对照有机体或细胞可包括例如(a)相对于受试有机体、微生物或细胞的祖细胞株或物种、细胞或微生物群体或有机体,其中祖细胞缺乏引入祖细胞株、物种、有机体或细胞或微生物群体以产生受试有机体、微生物或细胞中的基因工程构造或改变;(b)野生型有机体或细胞,即与导致受试有机体或细胞的遗传改变的起始物质相同的基因型;(c)基因型与起始材料相同但已用无效构建体转化的有机体或细胞(即对目的性状没有已知作用的构建体,诸如包含报告基因的构建体);(d)在受试有机体、微生物或细胞的子代中是未转化分离子的有机体或细胞;或(e)在不表达目的基因的情况下,目标有机体体或细胞本身。在一些情况下,“对照有机体”可以指不含目的转基因有机体中存在的外源核酸,但具有与此类转基因有机体相同或非常相似的遗传背景的有机体。

如本文所用,“基因工程”藻类是指具有改变的基因组的核苷酸组成或改变的基因表达的非天然存在的重组藻类细胞,包括在不同的时间、生物或环境调节下和/或在不同于天然发生程度的程度上的基因表达的过表达或抑制,和/或在重组细胞中非天然表达的基因的表达。改变的核苷酸组成(一个或多个核苷酸的改变、缺失和/或插入)可以在基因的编码区域中,或者可以在内含子、3'utr、5'utr或启动子区域中,例如在转录起始位点的2kb内或翻译起始位点的3kb内。例如,如本文所公开的具有改变的基因表达的基因工程藻类可以具有改变的核苷酸组成,其可为转录起始位点的基因5'区域中的一个或多个核碱基变化和/或一个或多个核碱基缺失和/或一个或多个核碱基插入,诸如,在非限制性示例中,在已知或推定的转录起始位点的约2kb内、1.5kb内、1kb内或0.5kb内,或在翻译起始位点的约3kb内、2.5kb内、2kb内、1.5kb内、1kb内或约0.5kb内。基因改造的藻类细胞是指已通过将异源或外源(例如,非天然)重组核酸序列引入有机体而操作的藻类细胞,并且包括,但不限于,基因敲除、靶向突变,和基因置换、启动子置换、缺失或插入,或将核酸分子例如转基因、合成基因、启动子或其他序列转运到有机体。基因改造的藻类细胞还包括基因改造的亲代细胞的后代。

本文所使用的术语“表达盒”是指编码可操作地连接到表达调控元件(诸如启动子)的蛋白质或功能性rna的核酸构建体,和任选地,影响基因转录或翻译的任何或其他核酸序列的组合,诸如但不限于转录终止子、核糖体结合位点、剪接位点或剪接识别序列、内含子、增强子、多聚腺苷酸化信号、内部核糖体进入位点等。

“功能性rna分子”是可与一种或多种蛋白质或核酸分子相互作用的rna分子,以执行或参与影响基因或基因产物(而非产生功能性rna的基因)的表达或活性的结构、催化或调节功能。功能性rna可以是,例如,转运rna(trna)、核糖体rna(rrna)、反义rna(asrna)、微小rna(mirna)、短发夹rna(shrna)、小干扰rna(sirna)、引导rna(grna)、crisprrna(crrna)或crispr系统的反式激活rna(tracrrna)、小核仁rna(snorna)、piwi相互作用rna(pirna)或核酶。

术语“目的dna”被广泛地用来指编码多肽或表达的rna的dna分子的任何片段。因此,目的dna包括编码表达的rna的序列,其可以包括多肽编码序列或例如功能性rna。目的dna可进一步包含其表达需要或影响其表达的调控序列,以及与处于其天然状态的蛋白质或rna编码序列相关的序列,诸如例如内含子序列、5'或3'非翻译序列等。在一些示例中,“目的dna”可以仅指dna或rna分子的蛋白质编码部分,其可以包括或可以不包括内含子。目的dna可以任选地包含异源内含子,即不是衍生出蛋白质或功能性rna编码序列的基因天然的内含子。目的基因的长度优选为大于50个核苷酸,长度更优选为大于100个核苷酸,并且例如长度可以为50个核苷酸至500,000个核苷酸,诸如长度为100个核苷酸至100,000个核苷酸或长度为约200个核苷酸至约50,000个核苷酸,或长度为约200个核苷酸至约20,000个核苷酸。目的dna可以从多种来源获得,包括从目标来源克隆或从已知或预测的序列信息合成。

目的dna编码的蛋白质的非限制性示例包括与脂质生物合成相关的蛋白质脂肪酶、参与光合作用的蛋白质、与碳固定相关的蛋白质、转运蛋白、脱氢酶、转录因子、转录激活剂、细胞信号蛋白、酶、报告蛋白、选择标记和重组酶。

与脂质生物合成相关的蛋白质、与碳固定和/或光合作用相关的蛋白质的非限制性示例包括在美国申请公开第20140220638号、美国申请公开第20160304896号、美国申请公开第2017005830303号、美国申请公开第20180186842号中描述的那些。这些专利申请公开中的每一个均通过引用整体并入本文。

酶的非限制性示例包括重组酶,例如cre(ncbi蛋白质数据库登记号:yp_006472.1、wp_063075144、wp_052200029.1)、crisprcas9(ncbi蛋白质数据库登记号wp_117329810)。

包含n末端核定位信号和六个拟小球藻亚硝酸还原酶内含子的cre重组酶的一种示例性核酸序列如下所示。

报告蛋白的非限制性示例包括(ncbi蛋白质数据库登记号:yp_002302326.1)。cre重组酶的一种示例性序列如下所示。

如本文所用,术语“蛋白质”或“多肽”旨在涵盖单数“多肽”以及多个“多肽”,并且是指由通过酰胺键(也称为肽键)线性连接的单体(氨基酸)构成的分子。术语“多肽”是指两个或更多个氨基酸的任何一条或多条链,并且不指产物的特定长度。因此,“多肽”的定义中包括肽、二肽、三肽、寡肽、“蛋白质”、“氨基酸链”或用于指代两个或更多个氨基酸的一条或多条链的任何其他术语,并且术语“多肽”可以代替或与这些术语中的任一种互换使用。

dna分子可以“源自”指定的来源,其包括从指定的来源(全部或部分)分离核酸片段。dna分子也可以通过例如从指定的多核苷酸源直接克隆、pcr扩增或人工合成而源自指定的源,或基于与指定的多核苷酸源相关的序列。dna分子可以是藻类基因组的一部分,也可以是外源dna序列。dna分子可以是整合到藻类基因组中的外源dna。dna分子可包括一个或多个基因,5'-和3'-非翻译区(utr)。在一些实施方案中,5'-或3'-utr可包括一个或多个调控元件。

源自特定来源或物种的dna分子或目的dna还包括相对于来源核酸分子具有序列修饰的基因或核酸分子。例如,源自来源的dna分子或目的dna(例如,特定参考基因)可以包括相对于来源基因或核酸分子的一种或多种突变,所述突变是非故意的或故意引入的,并且如果故意引入一种或多种突变,包括取代、缺失或插入,则可以通过细胞或核酸的随机或靶向突变、通过扩增或其他分子生物学技术或通过化学合成或其任何组合来引入序列改变。

如本文所用,将“分离的”核酸或蛋白质从其自然环境或核酸或蛋白质天然存在的背景中去除。例如,将分离的蛋白质或核酸分子从在其天然或自然环境中与其相关的细胞或有机体中去除。在一些情况下,分离的核酸或蛋白质可以被部分或基本上纯化,但是分离不需要特定的纯化水平。因此,例如,分离的核酸分子可以是已经从其自然整合的染色体、基因组或附加体切除的核酸序列。

“纯化的”核酸分子或核苷酸序列或蛋白质或多肽序列基本上不含细胞物质和细胞组分。例如,纯化的核酸分子或蛋白质可以不含除缓冲液或溶剂之外的化学物质。“基本上不含”并不旨在表示不可检测到除新核酸分子之外的其他组分。

术语“天然存在的”和“野生型”是指在自然界中存在的形式。例如,天然存在的或野生型核酸分子、核苷酸序列或蛋白质可以存在于天然来源中或与天然来源分离,并且未被人为操纵进行有意修饰。

如本文所用,“表达”包括至少在rna产生水平上的基因表达,并且“表达产物”包括所得产物,例如表达的基因的多肽或功能性rna(例如,核糖体rna、trna、反义rna、微小rna、shrna、核酶等)。术语“增加的表达”包括基因表达的改变以促进mrna产生的增加和/或多肽表达的增加。当指由基因表达、蛋白质转换率、蛋白质活化状态等产生的蛋白质丰度或活性蛋白质丰度时,“增加的产生”包括与多肽的天然产生或酶活性相比,多肽表达、多肽的酶活性水平或两者的组合的增加。

如本文所用,术语“诱导目的dna的表达”是指与在不存在这种条件下的目的dna的表达相比,在给定条件下目的dna的表达的选择性增加。例如,当包含由藻类亚硝酸还原酶启动子调控的目标dna的藻类在包含硝酸根离子的培养基中生长时,与在没有硝酸根离子的培养基中生长时的目标dna的表达水平相比,目标dna的表达增加。

如本文所用,术语“抑制目的dna的表达”是指与在不存在这种条件下的目的dna的表达相比,在给定条件下目的dna的表达的选择性减小减小。例如,当包含由藻类亚硝酸还原酶启动子调控的目标dna的藻类在包含铵离子的培养基中生长时,与在没有铵离子的培养基中生长时的目标dna的表达水平相比,目标dna的表达减小。

进一步地,如本文在基因或蛋白质的上下文中所使用的术语“外源”是指并非衍生自宿主生物物种的基因或蛋白质。

如本文所用,术语“转基因”是指外源基因,即通过人为干预引入微生物或祖细胞中的基因。

如本文所用,术语基因或蛋白质的“直系同源物”是指其在另一物种中的功能等同物。

基因和蛋白质登记号(本文中通常在括号后接基因或物种名称来提供)是在美国国家卫生研究院(unitedstatesnationalinstitutesofhealth)所维护的美国国家生物技术信息中心(nationalcenterforbiotechnologyinformation,ncbi)网址(ncbi.nlm.nih.gov)处可公开获得的序列记录的唯一标识符。“基因信息标识符”(geninfoidentifier,gi)序列识别号特定于核苷酸或氨基酸序列。如果序列以任何方式改变,则指定新的gi编号。序列修订历史(sequencerevisionhistory)工具可用来跟踪在特定genbank记录中出现的序列的各种gi编号、版本号以及更新日期。基于登记号和gi编号搜索和获取核酸或基因序列或蛋白质序列在例如细胞生物学、生物化学、分子生物学和分子遗传学领域是众所周知的。

如本文所用,相对于核酸或多肽序列的术语“同一性百分比”或“同源性”定义为在为了最大同一性百分比比对序列和必要时引入空位以实现最大同源性百分比之后,在候选序列中与已知多肽相同的核苷酸或氨基酸残基的百分比。n末端或c末端插入或缺失不应当被解释为影响同源性,且内部缺失和/或将小于约30个、小于约20个或小于约10个氨基酸残基插入多肽序列不应被解释为影响同源性。核苷酸或氨基酸序列水平的同源性或同一性可通过使用由程序blastp、blastn、blastx、tblastn和tblastx采用的算法的blast(基本局部比对搜索工具(basiclocalalignmentsearchtool))分析(altschul(1997),《核酸研究(nucleicacidsres.)》25,3389-3402,和karlin(1990),《美国科学院院刊(proc.natl.acad.sci.usa)》87,2264-2268)来确定,所述程序经设计用于序列相似性搜索。由blast程序使用的方法是:首先考虑查询序列和数据库序列之间具有和不具有空位的类似的片段,然后评估所有被识别的匹配的统计显着性,最后只总结那些满足预选显着性阈值的匹配。对于在序列数据库相似性搜索的基本问题的论述,参见altschul(1994),《自然遗传学(naturegenetics)》6,119-129。用于柱状图、描述、比对、期望值(即,针对数据库序列报告匹配性所用的统计显著性阈值)、截短、矩阵和过滤器(低复杂性)的搜索参数可以是默认设置。由blastp、blastx、tblastn和tblastx使用的默认计分矩阵是blosum62矩阵(henikoff(1992),《美国科学院院刊》89,10915-10919),推荐的查询序列长度超过85(核苷酸碱基或氨基酸)。

对于blastn,设计用于比较的核苷酸序列中,计分矩阵由m(即,对一对匹配残基的奖励分数)与n(即,对错配残基的罚分)的比率设定,其中,m和n的默认值可以分别是+5和-4。四个blastn参数可调整如下:q=10(空位生成罚分);r=10(空位扩展罚分);闪烁=1(沿着每个查询在每个闪烁位置生成字命中);以及gapw=16(设置其内产生空位比对的窗口宽度)。对氨基酸序列的比较的等效blastp参数设置可以是:q=9;r=2;闪烁=1;以及gapw=32。在gcg软件包版本10.0中可用的序列之间最佳拟合的比较可使用dna参数gap=50(空位生成罚分)和len=3(空位扩展罚分),并且蛋白质比较的等效设置可以是gap=8和len=2。

因此,当涉及本发明的多肽或核酸序列时,包括与全长多肽或核酸序列或其包含整个蛋白的至少100、至少125、至少150或更多个氨基酸残基的连续序列的片段具有至少40%、至少45%、至少50%、至少55%、至少为70%、至少65%、至少70%、至少75%、至少80%或至少85%、例如至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%的序列同一性的序列;此类序列的变体,例如,其中至少一个氨基酸残基已被插入n和/或c末端,和/或在含有插入和取代的公开的序列内。设想的变体可额外地或替代地包括含有通过例如同源重组或定点或pcr诱变实现的预定突变的那些;以及其他物种的相应的多肽或核酸,包括但不限于,本文中所描述的那些;含有插入和取代的等位基因或多肽或核酸家族的其他天然存在的变体;和/或衍生物,其中多肽已经通过取代、化学、酶或其他适当方式被共价修饰了一部分,除含有插入和取代的天然存在的氨基酸外(例如,可检测部分,诸如酶)。

本文中使用的术语“天然”是指天然存在于宿主中的核酸序列或氨基酸序列。本文中使用的术语“非天然”是指并非天然存在于宿主中的核酸序列或氨基酸序列。经历实验室操作并引入或再引入宿主细胞的已从细胞移除的核酸序列或氨基酸序列被认为是“非天然的”。引入宿主细胞中的合成基因或部分合成基因是“非天然的”。非天然基因进一步包括对可操作地连接至一个或多个异源调控序列的宿主微生物为内源的基因,所述异源调控序列已重组进入宿主基因组中。

“重组”或“工程化的”核酸分子是已通过人为操作改变的核酸分子。作为非限制性示例,重组核酸分子包括以下任何核酸分子:1)例如使用化学技术或酶促技术(例如,通过利用化学核酸合成或通过利用用于核酸分子的复制、聚合、消化(外切核苷酸或内切核苷酸)、连接、反转录、转录、碱基修饰(包括例如,甲基化)、整合或重组(包括同源和特异性位点重组)已部分地或完全地体外合成或修饰的酶);2)包括在自然界中不结合的那些结合核苷酸序列;3)已使用分子克隆技术工程化,以使其相对于天然存在的核酸分子序列而言缺乏一个或多个核苷酸;和/或4)已使用分子克隆技术操作,以使其相对于天然存在的核酸序列而言具有一个或多个序列变化或重排。作为非限制性示例,cdna是重组dna分子,如同已通过体外聚合酶反应产生的任何核酸分子一样,或已连接连接子的分子,或已整合到载体(诸如克隆载体或表达载体)中的分子。

如本文所用的术语“重组蛋白”是指通过基因工程产生的蛋白质。

当关于多核苷酸、基因、核酸、多肽或酶使用时,术语“异源的”是指并非源自宿主物种的多核苷酸、基因、核酸、多肽或酶。例如,如本文所用的“异源基因”或“异源核酸序列”是指来自与引入其的宿主有机体的物种不同的物种的基因或核酸序列。当涉及用来操作基因序列的基因调控序列或辅助核酸序列(例如,5'非翻译区、3'非翻译区、多聚腺苷酸增加序列、内含子序列、剪接位点、核糖体结合位点、内部核糖体进入序列、基因组同源区、重组位点等)或编码蛋白质结构域或蛋白质定位序列的核酸序列时,“异源”意指调控序列或辅助序列或编码蛋白质结构域的序列或定位序列与调控或辅助核酸序列或编码蛋白质结构域或定位序列的核酸序列在基因组、染色体或附加体中并置的基因来源不同。因此,在本文中可操作地连接至在自然状态下不能可操作地连接的基因的启动子(例如,在非基因工程化的有机体的基因组中)被称为“异源启动子”,即使启动子可源自与其所连接的基因相同的物种(或,在一些情况下,相同有机体)。插入自然界中不相关的基因的内含子(例如,源自不同基因的内含子)在本文中也被称为“异源内含子”,即使启动子可源自相同物种(或,在一些情况下,相同有机体)。类似地,当涉及工程蛋白质的蛋白质定位序列或蛋白质结构域时,“异源”是指定位序列或蛋白质结构域源自与通过基因工程将其掺入其中的蛋白质不同的蛋白质。

“调控序列”、“调控元件”或“调控元件序列”是指位于编码序列上游(5'),内部或下游(3')的核苷酸序列。编码序列的转录和/或由编码序列的转录产生的rna分子的翻译通常受调控序列的存在或不存在的影响。这些调控元件序列可以包含启动子、顺式元件、增强子、终止子或内含子。调控元件可以从特定多核苷酸序列的非翻译区(utr)中分离或鉴定。本文所述的任何调控元件均可以存在于嵌合或杂合调控表达元件中。本文所述的任何调控元件可存在于本发明的重组构建体中。

术语“启动子”、“启动子区域”或“启动子序列”是指能够结合rna聚合酶以启动基因在5'至3'(“下游”)方向上的转录的核酸序列。当rna聚合酶与启动子的结合是基因转录的最直接原因时,所述基因就处于“受启动子控制”或“受其调控”状态。启动子或启动子区域通常提供rna聚合酶和其他适当转录起始所必需的因子的识别位点。可以从基因的基因组拷贝的5'非翻译区(5'utr)分离启动子。或者,可以通过改变已知的dna元件来合成产生或设计启动子。还考虑了将一个启动子的序列与另一启动子的序列结合的嵌合启动子。启动子可基于例如代谢、环境或发育条件由其表达模式来定义。启动子可用作调控元件,用于调节可操作地连接的可转录多核苷酸分子(例如,编码序列)的表达。除了rna聚合酶识别的序列和优选的其他转录因子外,启动子还可以包含调控序列元件,诸如影响可操作地连接基因转录的顺式元件或增强子结构域。“藻类启动子”是在藻类细胞中起作用的天然或非天然启动子。

如本文所用,术语“可操作地连接”是指这样的构型,其中将控制序列置于相对于多核苷酸序列的编码序列的适当位置,以使得控制序列指导或调节多肽和/或功能性rna的编码序列的表达。因此,如果启动子可以介导核酸序列的转录,则它与核酸序列可操作地连接。如果终止子可以介导核酸序列的终止,则它与核酸序列可操作地连接。当导入宿主细胞中时,表达盒可以在适当的条件下引起编码的rna或多肽的转录和/或翻译。此定义不排除未翻译或无法翻译的正义或反义结构。在转基因的表达和内源基因的抑制(例如,通过反义或rnai)的情况下,本领域普通技术人员将认识到插入的多核苷酸序列不必相同,而可能仅与从其衍生的基因序列基本相同。如本文所述,这些基本相同的变体通过参考特定的核酸序列被特异性地覆盖。当控制序列(例如,启动子或终止子)调节核酸序列的转录或转录终止时,它可操作地连接至其调节的序列。

本文所用的术语“选择标记”或“选择标记基因”包括在表达它的细胞上赋予表型的任何基因,以便于选择被本发明的核酸构建体转染或转化的细胞。所述术语也可以用来指实现所述表型的基因产物。选择标记的非限制性示例包括:1)抗生素抗性基因诸如对丁胺卡那霉素(apha6)、氨苄青霉素(ampr)、稻瘟霉素(bis、bsr、bsd)、博来霉素或腐草霉素(zeocintm)(ble)、氯霉素(cat)、吐根碱(rbs14p或cry1-1)、红霉素(erme)、g418(geneticintm)(neo)、庆大霉素(aac3或aacc4)、潮霉素b(aphiv、hph、hpt)、卡那霉素(nptll)、甲氨蝶呤(dhfr-mtxr)、青霉素和其他β-内酰胺(β-内酰胺酶)、链霉素或大观霉素(aada、spec/strep)和四环素(teta、tetm、tetq);2)抗除草剂的基因,诸如氨基三唑、杀草强、andrimid、芳氧苯氧丙酸酯、莠去津、联吡啶、溴苯腈、环己二酮肟茅草枯、麦草畏、diclfop、二氯苯基二甲基脲(dcmu)、二呋喃酮、二酮腈、敌草隆、氟利酮、草甘膦、卤代氢化苯甲腈、氟吡甲禾灵、4-羟基吡啶、咪唑啉酮、异恶唑啉、异恶唑烷酮、米罗酰胺b、对硝基二苯醚、达草灭、恶二唑、间苯氧基苯甲酰胺、n-苯基酰亚胺、匹诺沙丁(pinoxadin)、原卟啉原氧化酶抑制剂、哒嗪酮、pyrazolinate、磺酰脲、1,2,4-三唑嘧啶、三酮或尿素;乙酰辅酶a羧基酶(accase);乙酰羟酸合酶(ahas);乙酰乳酸合酶(als、csr1-1、csr1-2、imr1、imr2)、氨基糖苷磷酸转移酶(apt)、邻氨基苯甲酸合酶、溴苯腈腈水解酶(bxn)、细胞色素p450-nadh-细胞色素p450氧化还原酶、茅草枯脱卤酶(dehal)、二氢蝶呤合酶(sul)、i类5-烯醇丙酮莽草酸-3-磷酸合酶(epsps)、ii类epsps(aroa)、非i/ii类epsps、谷胱甘肽还原酶、草甘膦乙酰转移酶(gat)、草甘膦氧化还原酶(gox)、羟苯基丙酮酸脱氢酶、羟基苯基丙酮酸双加氧酶(hppd)、异戊二烯焦磷酸异构酶、番茄红素环化酶、膦丝菌素乙酰基转移酶(pat、bar)、八氢番茄红素去饱和酶(crtl)、异戊二烯基转移酶、原卟啉氧化酶、psba光系统ii多肽(psbaase)和smm酯酶(sule)超氧化物歧化酶(sod);3)可用于营养缺陷型菌株或赋予其他代谢作用的基因,诸如arg7、his3、hisd、hisg、lysa、mana、mete、nit1、trpb、ura3、xyla、二氢叶酸还原酶基因、甘露糖6-磷酸异构酶基因、硝酸还原酶基因或鸟氨酸脱羧酶基因;负选择因子,诸如胸苷激酶;或毒素抗性因子,诸如2-脱氧葡萄糖抗性基因。

“报告基因”是编码可检测蛋白质或具有产生可检测产物的活性的蛋白质的基因。报告基因可以编码产生可检测信号的视觉标记或酶,诸如cat、lacz、uida、xyle、碱性磷酸酶基因、α-淀粉酶基因、α-半乳糖苷酶基因、β-葡糖醛酸糖苷酶基因、β-内酰胺酶基因、辣根过氧化物酶基因、萤光素/萤光素酶基因、r-基因座基因、酪氨酸酶基因或编码荧光蛋白的基因,包括但不限于蓝色、青色、绿色、红色或黄色荧光蛋白,光转换、光控开关或高亮荧光蛋白或其任何变体,包括但不限于密码子优化、快速折叠、单体、增加的稳定性和增强的荧光变体。

如本文所用,术语“终止子”或“终止子序列”或“转录终止子”是指通常以常规方式向rna聚合酶发出信号以终止转录的基因序列的调控部分。终止子通常可以标记dna中基因、编码序列或操纵子的端。

如本文所用,术语“转化”是指通过使用一种或多种物理、化学或生物学方法将一种或多种外源核酸序列或多核苷酸引入宿主细胞或有机体中。作为非限制性示例,转换的物理和化学方法(即“转染”)包括电穿孔、粒子轰击和脂质体递送。转换的生物方法(即“转导”)包括使用工程病毒或微生物(例如,土壤杆菌)转移dna。

如本文所用,术语“内含子”是指基因内的核苷酸序列,所述核苷酸序列通过rna剪接从基因转录的rna中去除(术语内含子用于指剪接之前在rna分子中出现的rna序列,以及在基因中出现的dna序列。)。本文公开的内含子是天然存在于真核生物的核基因中的“剪接内含子”,并通过真核细胞的剪接机制(剪接体)剪接。还考虑了源自天然存在的内含子的内含子,例如与天然存在的内含子或其内部缺失的变体的序列至少65%、70%、75%、80%、85%、90%、95%、96%、97%、98%或99%相同的内含子,例如,从内含子边界内缺失1至1000bp的变体。还考虑了包含两个或更多个天然存在的内含子的内含子序列的嵌合内含子。内含子包括在5'端的gt(主要rna转录物中的gu)、内含子3'端附近的分支位点序列和内含子3'端的ag受体位点。周围的外显子序列包括位于内含子5'边界处的gg和位于内含子3'端ag之后的g。这样的序列可以任选地在内含子插入位点被工程化为如本文提供的基因的编码序列。

如本文提供的内含子化的基因被工程化以包括至少一个异源内含子,即,在编码由工程基因编码的多肽的基因中非天然存在的至少一个内含子,并且在一些实施方案中,优选将内含子化的基因工程化以包括至少三个、至少四个或至少五个异源内含子,即,基因中非天然存在的至少三个、至少四个或至少五个内含子。例如,工程基因的氨基酸编码序列可编码并非由衍生异源内含子的基因编码的多肽。例如,利用基因工程或基因合成技术,将异源内含子插入到它们不天然存在的基因中。可以任选地改变工程基因的氨基酸编码序列,例如以产生紧邻异源内含子的序列,从而允许正确剪接引入的内含子和/或改变密码子用法(例如,以反映宿主的密码子偏好)和/或引入突变。在一些实施方案中,至少三个异源内含子源自一个或多个基因(除了衍生出所述工程基因的氨基酸编码序列的基因外),例如,至少三个外源内含子可以源自天然存在的内含子。在各种实施方案中,至少三个、至少四个或至少五个外源内含子可以是来自相同或不同有机体的另一基因(从中衍生出工程基因的氨基酸编码序列)的天然存在的内含子,或者可以例如,通过一个或多个序列修饰或从天然存在的内含子中的序列的内部缺失源自来自相同或不同有机体的另一基因(从中衍生出工程基因的氨基酸编码序列)的天然存在的内含子。在一些实施方案中,插入工程基因中的至少三个、至少四个或至少五个外源内含子均为同一基因的天然存在的内含子,并且在一些实施方案中,可以将同一天然存在基因的多个内含子以它们在衍生出它们的天然存在基因中出现的同一顺序引入工程基因中。在一些实施方案中,工程基因与启动子可操作地连接,并且启动子和外源内含子可以任选地衍生自同一有机体。在一些实施方案中,工程基因与启动子和终止子可操作地连接,并且启动子、终止子和外源内含子均可源自同一有机体,并且均可源自同一基因。进一步地,在各种实施方案中,可以对工程基因的氨基酸编码序列进行密码子优化,并且在一些示例中可以对密码子进行优化,以在衍生出外源内含子的有机体中表达。

表达盒

本文公开的表达盒包含一种或多种本文所述的调控元件,以驱动目的dna的表达。这些盒包含dna分子,所述dna分子包含可操作地连接至目标dna的本文所述的藻类硝酸还原酶或亚硝酸还原酶启动子序列中的任何一个,其中目的dna位于启动子序列的下游,并且任选地本文所述的藻类硝酸还原酶或亚硝酸还原酶终止子序列中的任一个或其任何组合可操作地连接在目的dna的下游。本发明的藻类硝酸还原酶和亚硝酸还原酶启动子可以与任何目的异源或同源dna一起使用。在同源基因的情况下,这些启动子不与自然界中这些目的同源基因并置。因此,藻类硝酸还原酶和亚硝酸还原酶启动子不能调节自然界中这些目的同源基因的表达。目的dna可以任选地包含异源内含子,即不是衍生出蛋白质或功能性rna编码序列的基因的天然内含子。在一些实施方案中,表达盒可以整合到藻类细胞或有机体的基因组中。在一些实施方案中,整合通过细胞或有机体的转化而发生。

将两个或更多个dna序列可操作地连接在一起的基本技术是本领域技术人员所熟悉的,并且这些方法已在许多标准分子生物学操作的教科书中进行了描述(例如,参见《分子克隆:实验室手册(molecularcloning:alaboratorymanual)》,第2版,美国冷泉港实验室出版社(coldspringharborlaboratorypress),纽约冷泉港;gibson等人;(2009)《自然方法(naturemethods)》6:343-345)。

载体

本发明还提供了可以包含本文所述的调控元件和/或表达盒的载体。载体可以进一步任选地包含用于在细胞中复制的至少一个复制起点(“ori”)序列。载体可进一步任选地包含一个或多个受一个或多个真核启动子控制的选择标记、一个或多个受一个或多个原核启动子控制的选择标记和/或一个或多个介导外源核酸序列重组到目标细胞基因组中的序列。在一些实施方案中,载体可以整合到藻类细胞或有机体的基因组中。在一些实施方案中,整合通过细胞或有机体的转化而发生。

另外,本文所述的载体还可以包含如上所述的选择标记。

选择标记基因可以可操作地连接至本文提供的启动子和/或在其控制下。调节选择标记的表达的启动子可以是条件性的或可诱导的,但优选是组成型的,并且可以是例如本文公开的任何启动子或另一个启动子。可替代地,可以将选择标记置于表达盒启动子的控制下。如果将选择标记置于表达盒启动子的控制下,则选择标记和表达盒可以与表达盒和选择标记之间的内部核糖体进入位点(“ires”)元件(komar&hatzoglou(2011)《细胞周期(cellcycle)》10:229-240和hellen&samow(2001)《基因与发展(genes&dev.)》15:1593-1612,通过引用整体并入)或“2a”序列(kim等人,(2011)美国公共科学图书馆(plosone)6(4):e18556,通过引用整体并入)可操作地连接。

转化方法

本发明还提供了转化方法,其中用本文所述的表达载体转化真核细胞。所述方法包括引入如本文提供的表达载体,所述表达载体包括至少一个如本文提供的启动子或dna序列;然后选择转化体。可以通过本领域技术人员熟悉的许多方法来引入表达载体,包括美国专利10,041,079和美国专利申请公开第2017/0073695号中描述的那些方法,其全部内容通过引用并入本文。

藻类细胞可以是绿藻,诸如曲壳藻属、茧形藻属、双眉藻属、纤维藻属、星胞藻属、黄金色藻属、bolidomonas属、borodinella属、气球藻属、葡萄藻属、bracteococcus属、角毛藻属、四鞭藻属、衣藻属、绿球藻属、绿梭藻属、小球藻属、蓝隐藻属、金球藻属、cricosphaera属、隐甲藻属、隐藻属、小环藻属、杜氏藻属、ellipsoidon属、圆石藻属、独球藻属、ernodesmius属、裸藻属、真眼点藻属、披刺藻属、脆杆藻属、丽丝藻属、红球藻属、halocafeteria属、异弯藻属、膜胞藻属、等鞭金藻属、鳞孔藻属、微芒藻属、单针藻属、微球藻属、微拟球藻属、舟形藻属、新绿藻属、肾鞭藻属、肾藻属、菱形藻属、棕鞭藻属、鞘藻属、卵囊藻属、蚝球藻属、巴夫藻属、拟小球藻属、帕氏藻属、pelagomonas属、褐指藻属、噬菌体属、微绿藻属、扁藻属、颗石藻属、肋球藻属、原囊藻属、拟绿球藻属、拟新绿藻属、拟角星鼓藻属、塔胞藻属、桑椹藻属、栅列藻属、骨条藻属、spyrogyra属、裂丝藻属、四爿藻属、海链藻属、黄丝藻属、无隔藻属、viridiella属、魏氏藻属和团藻属。例如,使用本文提供的方法转化的真核细可胞以任选地是拟小球藻物种,诸如非限制性示例:凯氏拟小球藻、胡斯类拟小球藻(p.hussii)、贝氏拟小球藻(p.beijerinckii)、拟小球藻属ccap206/1或拟小球藻属pgu003.

在其他实施方案中,藻类细胞可以是任何真核微藻类,诸如但不限于绿藻类,ochrophyte或轮藻类。在一些实施方案中,藻类可以是分类学绿藻纲(chlorophyceace)、四爿藻纲(chlorodendrophyceae)、青绿藻纲(prasinophyceae)、共球藻纲(trebouxiophyceae)或真眼点藻纲(eustigmatophyceae)的绿藻。在一些实施方案中,藻类可以是绿藻纲的成员,诸如星胞藻属、纤维藻属、四鞭藻属、衣藻属、绿球藻属、绿梭藻属、chlorodendrales属、chloroellales属、chrysosphaera属、杜氏藻属、红球藻属、单针藻属、新绿藻属、鞘藻属、pelagomonas、肋球藻属联球藻属、桑椹藻属、栅列藻属、团藻属中的任何一种或多种的物种。其他实施方案中,藻类可以是四爿藻纲的成员,诸如绿枝藻属(prasinocladus)、scherffelia属或四爿藻属中的任何一个或多个属的物种。在进一步的替代实施方案中,藻类可以是青绿藻纲的成员,任选地是ostreococcus属或微单胞藻属(micromonas)中的任何一个或多个的物种。进一步可替代地,藻类可以是共球藻纲的成员,并且任选地是小球藻目的成员,并且任选地是选自葡萄球菌属、小球藻属、原壳藻属(auxenochlorella)、heveochlorella属、marinicholella属、卵囊藻属、拟小球藻属、拟绿球藻属、四球藻属(tetrachlorella)、独球藻属、披刺藻属、微芒藻属、微球藻属、微绿藻属、原囊藻属、裂丝藻属或viridiella属中的任何一个或多个的属,或所有可能的属的组合或子组合。在另一个实施方案中,藻类是共球藻纲,小球藻目,卵囊藻科,小球藻科或真眼点藻纲的绿藻藻类,并且任选地选自卵囊藻、拟小球藻、微绿藻、微拟球藻和四爿藻中的一种或多种的藻类。藻类也可来自卵囊藻属、拟小球藻属或微绿藻属或四爿藻属,或来自所公开属的所有可能的组合和子组合中的任何一种。本文所述的任何藻类均可包含本发明的dna分子或序列,诸如包含可操作地连接至目的dna的藻类硝酸还原酶或亚硝酸还原酶启动子,如本文所述。

培养

可以将转化的藻类细胞培养物稀释,铺在琼脂上,使其生长,直到可以选择分离的菌落作为克隆菌株进一步繁殖。

以在诱导培养基(im)中,例如在硝酸根离子或亚硝酸根离子的存在下培养转化的藻类细胞,从而诱导目的dna的表达。转化的藻类细胞也可以在抑制性培养基(rm)中,诸如在铵盐的存在下培养,从而抑制目的dna的表达。

另外,光合有机体可以混合营养培养,其中有机体在光的存在下在一天的至少一部分时间生长,并且还提供有一个或多个还原碳源。光合有机体可以混合营养生长一段时间,然后进行一段时间的光营养生长,反之亦然。

用于藻类的光养或混合营养生长的培养基是本领域已知的,并且可以对培养基进行优化以增强特定物种的脂肪酸产物的生长或产量。人造光源可用作唯一光源或增强或扩展自然光。

藻类的生长可以在开放区域中,诸如例如池塘、运河、河道、水道或水箱中,或者可以在生物反应器中。生物反应器对于混合营养生长是优选的,并且也可以用于光养生长。生物反应器可以具有任何尺寸和形式,并且可以包括用于提供营养物,添加剂或气体(诸如例如但不限于空气或co2)的入口。生物反应器优选还具有用于培养物采样的出口。可以配置生物反应器,以便在生长期间混合藻类培养物,例如,通过培养物中的气体进行搅拌、摇动、震动、倒置、鼓泡等。室外池塘、水道、水箱、运河等也可以设计成用于混合培养物,例如,通过用于培养基循环的桨、泵、软管或喷嘴,或用于向培养物供应空气或co2的管、软管或入口。

实施例

实施例1拟小球藻调控序列的鉴定

评价多个序列作为启动子或终止子的能力。基于野生型拟小球藻菌株wt-1185的基因组装配、rna测序数据、隐马尔可夫模型分析、blast分析以及pfampf01077和pf03460的pfam分析,对硝酸还原酶和亚硝酸还原酶基因两侧的基因间未翻译核酸序列进行启动子序列检测。

拟小球菌的blast序列比对显示,最多的pfam命中(pf01077和pf03460)均为亚硝酸/亚硫酸还原酶基因(图3)。拟小球菌菌株wt-1185中亚硝酸还原酶和硝酸还原酶基因在同一条染色体上的方向相反(图4)。在亚硝酸还原酶和硝酸还原酶基因的基因间区域中鉴定了亚硝酸还原酶和亚硝酸还原酶启动子(图4)。亚硝酸还原酶和亚硝酸还原酶终止子分别在亚硝酸还原酶和亚硝酸还原酶基因的3'-utr区域中鉴定(图4)。

实施例2表达盒的产生

paracrexp载体构建体用于成功产生拟小球藻重组菌株(图5)。载体构建体包含用于选择标记博来霉素(ble)、cre重组酶和turbogfp的表达盒。ble和cre基因针对拟小球藻密码子使用进行了优化,而turbogfp直接从购自evrogen(莫斯科,俄罗斯)的pturbogfp-c扩增而来。ble基因包含来自拟小球藻40s核糖体蛋白s4(rps4)基因的5个内含子,受组成型rps4启动子和终止子的控制。表达盒还包括绿色荧光蛋白(turbogfp)报告基因。gfp基因的表达由组成型酰基载体蛋白(acp)启动子和终止子调控。cre编码序列(seqidno:53)包含n末端nls(sv40)和来自拟小球藻亚硝酸还原酶(nir)基因的6个内含子,并且受诱导型/抑制型nir启动子和终止子的控制。cre基因的表达由拟小球藻亚硝酸还原酶启动子(seqidno:1)和亚硝酸还原酶终止子(seqidno:2)调节。使用gibsonhifi1步试剂盒(合成基因组学,加利福尼亚州拉荷亚)将载体构建体从这些部分组装成puc19载体骨架。

实施例3通过电穿孔转换

用ascl/notl限制性内切酶线性化paracrexp载体构建体。使用如us20170073695a1中所述的转化方法,用线性化的载体转化拟小球藻wt-1185菌株,其通过引用整体并入本文。在accuritmc6细胞仪(bd生物科学,美国新泽西州富兰克林湖)上分析了几种在其基因组中包含随机整合构建体的拟小球藻转化体,以进行gfp荧光分析,并进行了westernblot分析。

实施例4培养基配方和培养条件

诱导培养基(im-no3-)包含35g/l克水族盐10xf/2痕量金属和维生素,以及0.361mmnah2po4。n源是15mmnano3。抑制性培养基(rm-nh4+/no3-)由与im培养基相同的成分构成,但进一步补充有10mmnh4cl并以15mmhepes缓冲,ph8.0。细胞在带有通气盖的培养瓶中,在装有1%co2的生长室(25℃)中的定轨振荡器上培养3天,并在冷白色荧光灯的连续光(50μmol光子m-2s-1)下照明。

实施例5rna提取和qrt-pcr

在im或rm培养基中使菌株生长至od730为2.0,并通过离心沉淀5ml培养物。将细胞沉淀物重悬于1.8ml提取液中(5ml的研磨缓冲液、5ml苯酚、1ml1-溴-3-氯丙烷和20μl巯基乙醇,其中研磨缓冲液包含9ml的1mtris(ph8)、5ml10%sds,0.6ml7.5mlicl和450μl0.5medta(最终体积为50ml),在200pm锆珠存在下于4℃剧烈涡旋5分钟。离心后,将1ml25:24:1苯酚萃取溶液(25ml苯酚(ph8.1);24ml1-溴-3-氯丙烷和1ml异戊醇)添加到另一个试管中的水相中。剧烈摇动试管,并以21,000g离心2分钟。用1ml1-溴-3-氯丙烷重复萃取,并将所得水层用0.356体积的7.5mlicl处理以在-20℃下将rna沉淀过夜。licl沉淀后,将rna沉淀物重悬于50μlh2o中,并根据制造商的说明(安捷伦科技公司,加利福尼亚州拉荷亚)使用2100生物分析仪通过芯片凝胶电泳评估rna质量。

使用iscripttm逆转录supermix试剂盒(伯乐,加利福尼亚州赫拉克勒斯)制备cdna,并用作ssofasttmsupermix(伯乐)的qrt-pcr模板。cre的引物序列为f:5'-gatctttgaggcaacacatcg-3'(seqidno:54);r:5'-aatgctcactccagctcttg-3'(seqidno:55)。评估了qrt-pcr引物的效率,并使用2-δδct方法评估针对根据经验确定在不同条件下具有较低变异系数的对照基因标准化的基因表达(emre3eukt595283;引物序列为f:5'-gcctttggttatcgtgctttag-3(seqidno:56);r:5'-tccctccgatcctttactctc-3)(seqidno:57)。

qrt-pcr结果表明,重组拟小球藻细胞系中cre的表达在硝酸根离子存在下被诱导,在铵离子存在下被抑制(图1)。

实施例6蛋白质免疫印迹

在im或rm培养基中,将表达cre的拟小球藻菌株生长至od730为2.0,并通过离心沉淀5ml培养物。沉淀物用tbs缓冲液(50mmtris-cl(ph7.6)、150mmnacl)洗涤一次,然后重悬于300mlsds-page提取缓冲液中,所述缓冲液由125mmtris(ph8.8)、10%甘油和2%sds组成。将100μl锆珠添加到细胞浆液中,将细胞涡旋30秒,然后在85℃培养10分钟。在85℃的培养过程中,将裂解物再涡旋30秒,三次,然后离心并收集上清液。将上清液与样品缓冲液(赛默飞世尔科技公司,马萨诸塞州沃尔瑟姆)以3:1的比例混合,并在85℃培养10分钟,将25μl混合物上样至凝胶的每个孔中。对于cre检测,使用4-12%bis-tris凝胶,并使用mops电泳缓冲液(runningbuffer)进行电泳。使用ibindtm蛋白质印迹设备(赛默飞世尔科技公司,马萨诸塞州沃尔瑟姆)将印迹与一抗和二抗一起培养。将cre印迹与一抗(兔抗cre,密理博,以1:1000稀释)和二抗(山羊抗兔ap,novextm,以1.5:1000稀释)培养。使用novextmap显色底物bcip/nbt试剂盒(赛默飞世尔科技公司,马萨诸塞州沃尔瑟姆)检测免疫信号。

比较了缺乏cre基因的野生型菌株中硝酸盐、铵离子存在下cre的表达。结果表明,cre的表达在硝酸根离子的存在下被诱导,而在铵离子的存在下被抑制(图2)。

尽管已经参考以上实施例描述了本发明,但是应当理解,修改和变型包含在本发明的精神和范围内。因此,本发明仅由所附权利要求限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1