相关申请的交叉引用
本申请根据35u.s.c.§119(e)要求2018年12月13日提交的美国序列第62/779,364号的优先权,其全部内容通过引用的方式并入本文中。
序列表并入
所附序列表中的材料特此通过引用并入本申请。名称为sgi2210_lwo_sequence_listing.txt的所附序列表文本文件于2019年12月11日创建并且大小为79kb。此文件可以在使用windowsos的计算机上使用microsoftword来访问。
本申请涉及藻类突变体,其允许通过缓解外源dna的甲基化的表观遗传机制来表达外源基因。这通过使藻类中的甲基转移酶(mtase)基因突变或减弱来实现。本申请还涉及在藻类物种中有效地表达外源基因的方法。
背景技术:
dna的甲基化是细胞用来将基因锁定在“关闭”位置中的常见的表观遗传信号传导工具。一般来说,dna甲基化在真核dna的胞嘧啶碱基处发生,通过dna甲基转移酶(dnmt)酶将其转化为5-甲基胞嘧啶。dna甲基化可以根据胞嘧啶的序列情境分类为三种类型,即cg、chg和chh(h=a、c或t)。通常,在真核生物中,发现甲基化稀疏地但全局地分布在整个基因组中的确定的cpg序列中,cpg岛除外。
在藻类物种莱茵衣藻(chlamydomonasreinhardtii)中,胞嘧啶的甲基化在cpg序列中比在chg或chh序列中更普遍(feng等人.,《美国科学院院报(proc.natl.acad.sci.u.s.a.)》,2010年5月11日;107(19):8689-94)。
除dna甲基化以外,组蛋白甲基化还可以使基因沉默。例如,已发现组蛋白3中的赖氨酸(h3k9)的单甲基化可标记莱茵衣藻中的转基因串联重复序列。set3,为h3k9单甲基转移酶,其被标识为于h3k9的甲基化有关。h3k9单甲基化、二甲基化和三甲基化的作用是物种特异性的并且发挥不同功能(caras-mollano等人,《核酸研究(nucleicacidsres.)》,2007;35(3):939-50)
技术实现要素:
本文提供藻类突变体,其允许通过缓解甲基化外源或外来dna的表观遗传机制来表达外源基因。在一些实施例中,甲基转移酶为chgdna甲基转移酶。在一些实施例中,甲基转移酶为chhdna甲基转移酶。还提供在藻类物种中有效表达外源dna的方法。
当在生物中表达某些外源基因时,已观察到chg甲基化(和沉默)。此外,靶向mtase基因提供的优势在于其为针对沉默机制的特异性靶向,而不必部署其它工具以用于基因重构。
在一个方面,提供突变体光合生物,其包含编码具有chgdna甲基转移酶活性的多肽的突变或减弱基因。与不具有编码具有chgdna甲基转移酶活性的多肽的突变或减弱基因的对照光合生物相比,所述突变体光合微生物具有降低的chgdna甲基化。
在一个方面,提供增强光合生物中的外源dna的表达的方法。所述方法包括a)将外源dna引入到所述光合生物中;b)使编码具有chgdna甲基转移酶活性的多肽的基因突变或减弱,其中与包含所述外源dna但不具有编码具有chgdna甲基转移酶活性的多肽的突变或减弱基因的对照光合生物相比,所述突变体微生物具有降低的所述外源dna的chgdna甲基化,从而与所述对照光合生物相比,所述外源dna的表达在所述光合生物中增强。
在一个方面,提供降低光合生物中的组蛋白h3上的赖氨酸9(h3k9)的甲基化(例如单甲基化、三甲基化)的方法。所述方法包括使编码具有chgdna甲基转移酶活性的多肽的基因突变或减弱,其中与不具有编码具有chgdna甲基转移酶活性的多肽的突变或减弱基因的对照光合生物相比,所述突变体微生物具有降低的chgdna甲基化;其中所述光合生物体的组蛋白h3上的赖氨酸9的单甲基化(h3k9me1)或组蛋白h3上的赖氨酸9的三甲基化(h3k9me3)降低。
在一些实施例中,突变体光合生物是基因工程化突变体。在一些实施例中,突变体已通过插入诱变、基因置换、rnai、反义rna、大范围核酸酶基因组工程化、一种或多种核酶和/或crispr/cas系统进行基因工程化。在一些实施例中,突变体已通过crispr/cas系统进行基因工程化。在一些实施例中,突变体光合生物已通过uv辐照、γ辐照或化学诱变生成。
在一些实施例中,突变体光合生物包含在编码具有chgdna甲基转移酶活性的多肽的基因中的突变或减弱,所述多肽包含在所述基因的所述突变或减弱之前与seqidno:1或seqidno:28的氨基酸序列具有至少65%一致性的氨基酸序列。在一些实施例中,具有chgdna甲基转移酶活性的多肽包含在基因的突变或减弱之前与seqidno:1或seqidno:28的氨基酸序列具有至少80%一致性的氨基酸序列。
在一些实施例中,突变体光合生物包含外源dna,并且其中降低的chgdna甲基化是在外源dna中。在一些实施例中,外源dna整合到光合生物的基因组中。
在一些实施例中,降低的chgdna甲基化可在光合生物的天然dna序列中。降低的chgdna甲基化可在突变体光合生物的着丝粒或高度重复dna区中。
在一些实施例中,与对照光合生物相比,外源核酸的表达得到改进(例如提高),其中所述对照组生物包含所述外源核酸但不具有编码具有chgdna甲基转移酶活性的多肽的突变或减弱基因。
在一些实施例中,突变体光合生物具有降低的组蛋白h3的赖氨酸9(h3k9)的甲基化(例如单甲基化、三甲基化)。在一些实施例中,与对照光合生物相比,突变体光合生物具有降低的chhdna甲基化,其中所述对照组生物不具有编码具有chgdna甲基转移酶活性的多肽的突变或减弱基因。
在一些实施例中,光合生物是藻类。在一些实施例中,所述藻类属于属:曲壳藻属(achnanthes)、茧形藻属(amphiprora)、双眉藻属(amphora)、纤维藻属(ankistrodesmus)、星胞藻属(asteromonas)、黄金色藻属(boekelovia)、波利氏藻属(bolidomonas)、包特氏菌属(borodinella)、气球藻属(botrydium)、葡萄藻属(botryococcus)、片球藻属(bracteococcus)、角毛藻属(chaetoceros)、四鞭藻属(carteria)、衣藻属(chlamydomonas)、绿球藻属(chlorococcum)、绿梭藻属(chlorogonium)、小球藻属(chlorella)、蓝隐藻属(chroomonas)、金球藻属(chrysosphaera)、球钙板藻属(cricosphaera)、隐甲藻属(crypthecodinium)、隐藻属(cryptomonas)、小环藻属(cyclotella)、杜氏藻属(dunaliella)、后棘藻属(ellipsoidon)、圆石藻属(emiliania)、独球藻属(eremosphaera)、衣迪斯藻属(ernodesmius)、裸虫藻属(euglena)、真眼点藻属(eustigmatos)、被刺藻属(franceia)、脆杆藻属(fragilaria)、丽丝藻属(gloeothamnion)、红球藻属(haematococcus)、嗜盐古菌(halocafeteria)、异弯藻属(heterosigma)、膜胞藻属(hymenomonas)、等鞭金藻属(isochrysis)、鳞孔藻属(lepocinclis)、微芒藻属(micractinium)、蒜头藻属(monodus)、单针藻属(monoraphidium)、微球藻属(nannochloris)、微拟球藻属(nannochloropsis)、舟形藻属(navicula)、新绿藻属(neochloris)、肾鞭藻属(nephrochloris)、肾爿藻属(nephroselmis)、菱形藻属(nitzschia)、棕鞭藻属(ochromonas)、鞘藻属(oedogonium)、卵囊藻属(oocystis)、蚝球藻属(ostreococcus)、巴夫藻属(pavlova)、拟小球藻属(parachlorella)、帕氏藻属(pascheria)、普莱格门(pelagomonas)、褐指藻属(phaeodactylum)、噬菌体属(phagus)、微绿藻属(picochlorum)、扁藻属(platymonas)、颗石藻属(pleurochrysis)、肋球藻属(pleurococcus)、原壁菌属(prototheca)、假小球藻属(pseudochlorella)、拟新绿藻属(pseudoneochloris)、假十字趾藻属(pseudostaurastrum)、塔胞藻属(pyramimonas)、桑葚藻属(pyrobotrys)、栅列藻属(scenedesmus)、骨条藻属(skeletonema)、螺旋藻属(spyrogyra)、裂丝藻属(stichococcus)、四爿藻属(tetraselmis)、海链藻属(thalassiosira)、黄丝藻属(tribonema)、无隔藻属(vaucheria)、鲜绿球藻属(viridiella)、魏氏藻属(vischeria)和团藻属(volvox)。在一些实施例中,突变体光合生物是绿藻门(chlorophyte)或轮藻门(charophyte)藻类。在一些实施例中,生物可以是例如绿藻纲(chlorophyceae)、共球藻纲(trebouxiophyceae)、四爿藻纲(chlorodendrophyceae)、石莼纲(ulvophyceae)、平藻纲(pedinophyceae)或青绿藻纲(prasinophyceae)中的任一种纲类的藻类。生物可以是小球藻科(chlorellales),或卵胞藻科(oocystaceae),或绿藻科(chlorodendraceae)的成员。在一些实施例中,突变体藻类细胞是共球藻纲类的绿藻门藻类细胞,例如,以下的属的物种的藻类细胞,如葡萄藻属、小球藻属、原壳藻属(auxenochlorella)、胶树小球藻属(heveochlorella)、海球藻属(marinichlorella)、拟小球藻属、假小球藻属、四球藻属(tetrachlorella)、独球藻属、被刺藻属、微芒藻属、微球藻属、卵囊藻属、微绿藻属、或原壁菌属。在一些实施例中,突变体藻类可以是以下的物种的突变体藻类:原壳藻属、小球藻属、胶树小球藻属、海球藻属、拟小球藻属、假小球藻属或四球藻属。在其它实施例中,突变体藻类可以是四爿藻纲的藻类(例如,四爿藻属的藻类)。
在一些实施例中,突变体光合微生物是蓝藻菌(cyanobacterium)。在一些实施例中,所述蓝藻菌是蓝细菌(acaryochloris)、阿格门氏藻(agmenellum)、鱼腥藻属(anabaena)、项圈藻属(anabaenopsis)、组囊藻属(anacystis)、束丝藻属(aphanizomenon)、节旋藻(arthrospira)、星球藻属(asterocapsa)、博氏藻属(borzia)、眉藻属(calothrix)、管孢藻属(chamaesiphon)、拟绿胶蓝细菌属(chlorogloeopsis)、拟甲色球藻属(chroococcidiopsis)、色球藻属(chroococcus)、发毛针藻属(crinalium)、蓝藻菌、蓝菌属(cyanobium)、蓝囊胞菌属(cyanocystis)、蓝螺菌属(cyanospira)、蓝丝菌属(cyanothece)、拟柱胞藻属(cylindrospermopsis)、筒孢藻属(cylindrospermum)、蓝纤维藻属(dactylococcopsis)、包皮藻属(dermocarpella)、侧生藻属(fischerella)、夫列藻属(fremyella)、盖特勒氏菌属(geitleria)、盖丝藻属(geitlerinema)、胶菌藻属(gloeobacter)、粘球藻属(gloeocapsa)、粘杆藻属(gloeothece)、盐螺旋藻属(halospirulina)、英加藻属(iyengariella)、细鞘丝藻属(leptolyngbya)、湖生蓝丝藻属(limnothrix)、鞘丝藻属(lyngbya)、微鞘藻属(microcoleus)、微胞藻属(microcystis)、粘囊藻属(myxosarcina)、节球藻属(nodularia)、念珠藻属(nostoc)、拟珠藻属(nostochopsis)、颤藻属(oscillatoria)、席藻属(phormidium)、浮丝藻属(planktothrix)、厚皮藻属(pleurocapsa)、原绿球藻(prochlorococcus)、原绿藻属(prochloron)、原绿发藻属(prochlorothrix)、伪鱼腥藻属(pseudanabaena)、胶须藻属(rivularia)、裂须藻属(schizothrix)、伪枝藻属(scytonema)、螺旋藻属(spirulina)、斯塔尼尔氏菌属(stanieria)、斯塔尔氏蓝细菌属(starria)、真枝藻属(stigonema)、束藻属(symploca)、聚球藻属(synechococcus)、集胞藻属(synechocystis)、热集胞藻属(thermosynechocystis)、单歧藻属(tolypothrix)、束毛藻属(trichodesmium)、常丝藻属(tychonema)或异球藻属(xenococcus)物种。
附图说明
图1为展示整合到拟小球藻属基因组中的外源dna的cpg、chg和chhdna甲基化和h3k9单甲基化和三甲基化以及通过基因敲除chg甲基转移酶来降低这些甲基化的基因组轨迹。将拟小球藻属基因敲除菌株str03778和str03749的外源dna甲基化和h3k9单甲基化和三甲基化状态与拟小球藻属对照菌株str00014进行比较。表1进一步识别这些菌株。所有三种菌株包含经整合的杀稻瘟菌素、cas-9和gfp基因。展示包含描绘dna甲基化百分比(第一组行)和基因组覆盖度(第二组行)的杀稻瘟菌素、cas-9和gfp基因的代表性外源dna基因组轨迹,以及用对h3k9me1和h3k9me3具有特异性的抗体分离的三种拟小球藻属菌株的染色质免疫沉淀(chip)的序列信息。缩放轨迹以允许跨越不同样品进行比较。还展示组蛋白3(h3)的覆盖度轨迹。染色体位置展示于顶部,且基因模型提供于底部。
图2展示除天然拟小球藻属dna的重复和着丝粒区域以外,chg和chhdna甲基化以及h3k9的单甲基化和三甲基化的总体缺失。将拟小球藻属基因敲除菌株str03778和str03749的天然dna甲基化和h3k9单甲基化和三甲基化状态与拟小球藻属对照菌株str00014进行比较(额外信息参见表1)。展示描绘dna甲基化百分比(第一组行)和基因组覆盖度(第二组行)的代表性天然dna基因组轨迹,以及用对h3k9me1和h3k9me3具有特异性的抗体分离的3种拟小球藻属菌株的chip的序列信息。缩放轨迹以允许跨越不同样品进行比较。还展示组蛋白3(h3)的覆盖度轨迹。染色体位置展示于顶部,且基因模型提供于底部。
图3展示除在天然拟小球藻属dna的染色体2的重复区域、转座元件和着丝粒区域以外,chg和chhdna甲基化以及h3k9的单甲基化和三甲基化的总体缺失。将拟小球藻属基因敲除菌株str03778和str03749的dna甲基化和h3k9单甲基化和三甲基化状态与拟小球藻属对照菌株str00014进行比较。展示描绘dna甲基化百分比(第一组行)和基因组覆盖度(第二组行)的代表性天然dna基因组轨迹,以及用对h3k9me1和h3k9me3具有特异性的抗体下拉的3种拟小球藻属菌株的chip的测序读数。缩放轨迹以允许跨越不同样品进行比较。还展示组蛋白3(h3)的覆盖度轨迹。染色体位置展示于顶部,且基因模型提供于底部。
图4展示如通过蛋白质印迹法所测量,所选择的拟小球藻属基因敲除菌株str03749、str03778、str03779中的外源基因表达相比于拟小球藻属对照菌株str00014的比较。
图5展示基因组轨迹,其说明整合到所指示的菌株的卵囊藻属基因组中的外源dna(杀稻瘟菌素基因)的dna甲基化(cpg、chg和chh)的存在。第一组行展示dna甲基化的百分比,且第二组行展示基因组覆盖度。str24194为背景菌株且str28031为seqidno:29(编码seqidno:28)的基因敲除菌株且具有作为选择性标记的杀稻瘟菌素。
图6展示在卵囊藻属基因组的背景菌株(str24194)中dna的dna甲基化(cpg、chg和chh)的放大的基因组轨迹分布。展示描绘dna甲基化百分比(第一组行)和基因组覆盖度(第二组行)的dna。
图7展示卵囊藻属基因组的天然dna的dna甲基化(cpg、chg、chh)的放大的基因组轨迹分布。展示描绘dna甲基化百分比(第一组行)和基因组覆盖度(第二组行)的dna。str28031为seqidno:29(编码seqidno:28)的基因敲除菌株且具有作为选择性标记的杀稻瘟菌素;str24194为背景菌株。
图8a和8b展示琼脂糖凝胶,其说明在卵囊藻属中转基因(cre重组酶和ble)的表达。图8a展示五个cre构建体的菌株str24194(背景菌株)。图8b展示具有编码seqidno:28(str29997)的甲基转移酶的序列缺失的卵囊藻属的相同数据。数据展示cre重组酶转基因表达于卵囊藻属背景菌株(str24194)中。
图9展示在半连续面积培养下,以总有机碳(toc)作为生产力的指标测量的拟小球藻属(具有seqidno:2的甲基转移酶的缺失的str03778)的生产力分析的结果。相比于野生型拟小球藻属菌株(str0010),数据在细胞的生产力方面未展示缺陷。
图10展示在半连续面积培养下,以总有机碳(toc)作为生产力的指标测量的卵囊藻属(具有seqidno:29的甲基转移酶的缺失的str29997)的生产力分析的结果。相比于改良的且针对生长特征选自野生型的背景菌株(str24194),数据在细胞的生产力中未展示缺陷。
具体实施方式
本申请公开使外源基因在藻类中的表达沉默的表观遗传机制。本申请识别外源dna在藻类中的表观遗传沉默中的chg甲基化的作用。因此,chg甲基化在外源基因沉默中的作用在藻类中通常是未知的,这是因为chg甲基化甚至完全不存在于内源元件(衣藻属,团藻属)中,或因为仅检测天然但非外源dna元件(小球藻属)。另外,本申请还识别组蛋白3赖氨酸9(h3k9)甲基化(例如单甲基化或三甲基化)在藻类物种中外源基因的表观遗传沉默中的作用。
本申请识别共球藻纲藻类中的新颖假定甲基转移酶基因(pfampf00145,c-5胞嘧啶特异性dna甲基转移酶)。通过个别地基因敲除基因分析新识别的基因的活性并且评估基因敲除对天然和外源dna序列中dna的甲基化的影响以及外源基因的蛋白表达水平。公开了这些基因敲除对cpg、chg和chhdna序列中胞嘧啶的甲基化的影响,其中h=a、t或c。还公开了天然dna的染色质区域以及包含外源dna的染色质区域中的组蛋白3赖氨酸9(h3k9)的甲基化(例如单甲基化、三甲基化)水平。还公开了卵囊藻属中的直系同源chgdna甲基转移酶。
本发明人出乎意料地发现突变或减弱dna甲基转移酶可以降低可通过表观遗传机制发生的外源dna的chg和/或chh甲基化。本发明人还发现,突变或减弱dna甲基转移酶可增强外源基因的蛋白表达水平。另外,包含外源dna的染色质区域中的组蛋白3赖氨酸9(h3k9)的单甲基化和三甲基化水平也降低。进一步发现,突变或减弱dna甲基转移酶可降低外源dna的chh甲基化。因此,本发明提供具有至少一种如本文所公开的chg和/或chh甲基转移酶减弱的突变体绿藻门藻类。
绿藻门藻类中的外源dna的dna甲基化可涉及chg序列中的dna甲基化,其中“c”为甲基化胞嘧啶,且“h”为a、t或c。在各种实施例中,本发明的突变体光合生物可具有至少一个编码甲基转移酶的基因的减弱或缺失。在一些实施例中,编码的甲基转移酶是seqidno:1、3、5、7、28中的任一者,或它们的任何组合或子组合,或编码它们的变体并且与它们中的任一者具有至少80%或至少90%或至少95%或至少97%或至少98%或100%氨基酸序列一致性的序列,或包含整个蛋白的至少50或至少100、至少125、至少150或以上氨基酸残基的连续序列的其片段,或其任何组合或子组合。在其它实施例中,甲基转移酶由本文所公开的任何序列或其变体编码。
本发明还涉及增强本发明的突变体光合生物中的外源dna的表达的方法。所述方法涉及a)将外源dna引入到光合生物中;和b)使编码具有chg和/或chhdna甲基转移酶活性的多肽的基因突变、减弱或缺失。引入到生物中的外源dna可以是含有用于编辑、减弱或缺失编码甲基转移酶活性的基因的序列的dna构建体。可以通过所属领域的一般技术人员已知的任何适合的方法实现序列的突变、减弱或缺失。例如,可使用crisprcas9基因编辑、cre-lox重组或其它基因编辑技术。与具有外源dna但不具有编码具有chg和/或chhdna甲基转移酶活性的多肽的突变或减弱基因的对照光合生物相比,通过所述方法产生的突变体光合生物可具有外源dna的降低的chg和/或chhdna甲基化。因此,与对照生物相比,突变体生物中外源dna的表达增强。在生物中突变、减弱或缺失的编码甲基转移酶是seqidno:1、3、5、7、28中的任一者或它们的任何组合或子组合,或它们的(变体)序列并且与它们中的任一者具有至少80%或至少90%或至少95%或至少97%或至少98%或100%序列一致性,或包含整个蛋白或核酸序列的核苷酸的至少50或至少100、至少125、至少150或以上氨基酸残基的连续序列的其片段,或其任何组合或子组合。在其它实施例中,甲基转移酶由本文所公开的任何序列或其变体编码。例如,甲基转移酶可以由seqidno:2、4、6、8或29中的任一者,或其(变体)序列并且与其中的任一者具有至少80%或至少90%或至少95%或至少97%或至少98%或100%序列一致性,或包含整个核酸序列的至少200、至少300、至少500或以上核苷酸残基的连续序列的其片段,或其任何组合或子组合编码。在一些实施例中,chg和/或chh甲基化的降低发生于外源dna的高度重复区域和/或外源dna的着丝粒区域处。dna的高度重复区域或序列通常不编码多肽。在一些实施例中,高度重复区域或序列为5-100或150-300个核苷酸的短序列。在一些实施例中,序列在dna区域中重复至少10,000次、或至少50,000次、或至少100,000次、或至少500,000次或至少1百万次。所述区域可以是染色体或可以是小于1mb或小于25mb或小于50mb或小于100mb或小于250mb的dna的区段。
定义
除非另外定义,否则本文所使用的所有技术和科学术语均具有与本发明所属领域的一般技术人员通常所理解相同的含义。在冲突的情况下,以本申请(包含定义)为准。除非上下文另有要求,否则单数术语应包括复数,并且复数术语应包括单数。除非另外特别指出,否则本申请内提供的所有范围均包括该范围的上端和下端的值。
本文中所引用的所有公开案、专利和其它参考文献均出于所有目的以全文引用的方式并入,如同每一个别公开案或专利申请特定地且个别地指示以引用的方式并入一般。
在本文中,在短语如“a和/或b”中所使用的术语“和/或”旨在包含“a和b”、“a或b”、“a”和“b”。
“约”意指在所陈述的值的10%内,或在所陈述的值的5%内,或在一些情况下,在所陈述的值的2.5%内,或“约”可意指被舍入至最接近的有效数字。
术语“基因”被广泛地用来指编码多肽或表达的rna的核酸分子(通常为dna,但任选为rna)的任何片段。因此,基因包括编码表达的rna的序列(其可以包括多肽编码序列或例如功能性rna,如核糖体rna、trna、反义rna、微小rna、短发夹rna、核酶等)。基因可进一步包含其表达需要或影响其表达的调节序列,以及与处于其天然状态的蛋白或rna编码序列相关的序列,例如内含子序列、5'或3'非翻译序列等。在一些实例中,“基因”可以仅指dna或rna分子的蛋白编码部分,其可以包括或可以不包括内含子。基因的长度优选地大于50个核苷酸,更优选地长度大于100个核苷酸,并且长度可以例如介于50个核苷酸与500,000个核苷酸之间,如长度介于100个核苷酸与100,000个核苷酸之间或长度介于约200个核苷酸与约50,000个核苷酸之间或长度介于约200个核苷酸与约20,000个核苷酸之间。基因可以从多种来源获得,包含从所关注来源克隆或从已知或预测的序列信息合成。
术语“核酸”或“核酸分子”是指dna或rna(例如,mrna)的片段,并且还包含具有经过修饰的主链(例如,肽核酸、锁核酸)或经过修饰的或非天然存在的核碱基的核酸。核酸分子可以是双链的或单链的;包括基因或其部分的单链核酸分子可以是编码(有义)链或非编码(反义)链。
核酸分子或多肽可以“衍生自”所指示的来源的,其包括从所指示的来源分离(完全或部分)核酸片段或多肽。核酸分子也可通过例如直接克隆、pcr扩增或人工合成从所指示的多核苷酸来源或基于与所指示的多核苷酸来源相关联的序列衍生自所指示的来源,所述多核苷酸来源可以是例如生物物种。
衍生自特定来源或物种的基因或核酸分子还包括具有相对于来源核酸分子的序列修饰的基因或核酸分子,即,基因或核酸分子的序列衍生自来自所参考来源或物种的基因或核酸分子的序列但可具有修饰。例如,衍生自来源(例如特定参考基因)的基因或核酸分子可以包括相对于来源基因或核酸分子的一种或多种突变,这些突变是非预期的或有意引入的,并且如果一种或多种突变(包括取代、缺失或插入)是有意引入的,则这些序列改变可以通过细胞或核酸的随机或靶向突变、通过扩增或其它基因合成或分子生物学技术或通过化学合成或其任何组合来引入。衍生自编码功能性rna或多肽的参考基因或核酸分子的基因或核酸分子可以编码功能性rna或多肽,所述功能性rna或多肽与参考或来源功能性rna或多肽或与其功能性片段具有至少65%、至少70%、至少75%、至少80%、至少85%、至少90%或至少95%序列一致性。例如,衍生自编码功能性rna或多肽的参考基因或核酸分子的基因或核酸分子可以编码功能性rna或多肽,所述功能性rna或多肽与参考或来源功能性rna或多肽或与其功能性片段具有至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%序列一致性。
类似地,衍生自特定来源或物种的多肽或蛋白包括具有相对于来源多肽的序列修饰的多肽或蛋白,即,多肽衍生自来自参考来源或物种的多肽的序列但可具有修饰。例如,衍生自来源(例如特定参考蛋白)的多肽或蛋白可以包括相对于非故意引入或有意引入(例如通过编码核酸分子的突变)的来源多肽的一种或多种突变(氨基酸差异)。衍生自参考多肽的多肽可以与参考或来源多肽或其功能性片段具有至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%或至少95%序列一致性。例如,衍生自参考多肽的多肽可以具有与参考或来源多肽或其功能性片段至少80%、或至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%序列一致性。
术语“天然存在的”、“天然”和“野生型”是指在自然界中发现的形式。例如,天然存在的或野生型核酸分子、核苷酸序列或蛋白可以存在于从天然来源中,且从天然来源中分离并且未通过人为操纵有意地修饰。
如本文所用,“减弱”是指数量、程度、强度或浓度降低。减弱的基因表达可以指所讨论的基因的转录显著降低的量和/或速率,或经过编码的蛋白的翻译、折叠或组装的显著降低的量和/或速率。作为非限制性实例,减弱的基因可以是突变或破坏的基因(例如,通过部分或全部缺失、截短、移码或插入突变破坏的基因),其不编码完整的功能性开放阅读框或由于基因调节序列的改变或破坏而具有降低的表达。减弱的基因也可以是由构建体靶向的基因,所述构建体降低基因的表达,例如反义rna、微小rna、rnai分子或核酶。减弱的基因表达可以是被消除(例如到不显著或不可检测的量)的基因表达。减弱的基因表达也可以是引起rna或蛋白不完全功能性或非功能性的基因表达,例如,减弱的基因表达可以是引起截短的rna和/或多肽的基因表达。
“外源核酸分子”、“转基因”或“外源基因”是指已被引入(例如转化)到细胞中的核酸分子或基因。转化细胞可以称为重组细胞,其中可以引入另外的外源基因。如果用核酸分子转化的细胞的后代继承了外源核酸分子,则也称为“转化”。“内源”核酸分子、基因或蛋白是当其存在于宿主中或由宿主天然产生时的天然核酸分子、基因或蛋白。
“重组”或“工程化”核酸分子是已经通过人为操纵而改变的核酸分子。作为非限制性实例,重组核酸分子包括以下任何核酸分子:1)已在体外部分或完全合成或修饰,例如,使用化学或酶促技术(例如,通过使用化学核酸合成,或通过使用用于核酸分子复制、聚合、消化(核酸外切或核酸内切)、连接、逆转录、转录、碱基修饰(包括例如甲基化)、整合或重组(包括同源和位点特异性重组)的酶);2)包括本质上不相连的相连核苷酸序列;3)已使用分子克隆技术进行工程化,使得其相对于天然存在的核酸分子序列缺少一个或多个核苷酸;和/或4)已使用分子克隆技术进行操作,使得其相对于天然存在的核酸序列具有一个或多个序列改变或重排。作为非限制性实例,cdna是重组dna分子,如同通过体外聚合酶反应产生,或已连接接头或已整合到载体如克隆载体或表达载体中的任何核酸分子。
如本文所用,术语“重组蛋白”是指通过基因工程化产生的蛋白,而不管氨基酸是否不同于野生型蛋白的氨基酸。
当应用于生物体时,术语重组、工程化或基因工程化是指已通过将异源或外源重组核酸序列引入生物体而操作的生物体(例如非天然核酸序列),并且包括基因敲除、靶向突变、基因置换和启动子置换、缺失、破坏或插入,以及将转基因或合成基因或核酸序列引入生物体中。即,重组、工程化或基因工程化是指已经被人为干预改变的生物体。重组或基因工程化生物体也可以是已引入基因表达或“基因敲除”构建体的生物体。此类构建体包括但不限于rnai、微小rna、shrna、sirna、反义和核酶构建体。还包括其基因组已被大范围核酸酶、锌指核酸酶、talen或cas/crispr系统的活性改变的生物体。可以将外源或重组核酸分子整合到重组/基因工程化生物体的基因组中,或者在其它情况下,可以不整合到宿主基因组中。如本文所用,“重组微生物”或“重组宿主细胞”包括本发明的重组微生物的后代或衍生物。因为由于突变或环境影响而在后代中可能发生某些修饰,所以后代或衍生物实际上可能与亲本细胞不同,但仍包括在本文所用术语的范围内。
术语“启动子”是指能够结合细胞中的rna聚合酶并启动下游(3'方向)编码序列的转录的核酸序列。启动子包含以高于背景的可检测水平启动转录所必需的最小数量的碱基或元件。启动子可以包含转录起始位点以及负责结合rna聚合酶的蛋白质结合结构域(共有序列)。真核启动子通常但不总是含有“tata”框和“cat”框。原核启动子可能含有10和35个原核启动子共有序列。来自多种不同来源的大量启动子(包含组成型、诱导型和阻抑型启动子)是本领域所众所周知的。代表性来源包含例如藻类、病毒、哺乳动物、昆虫、植物、酵母和细菌细胞类型,并且来自这些来源的合适的启动子是容易获得的,或可以基于公开在线获得的序列或例如,从保藏机构(如atcc)以及其它商业或个体来源合成地制备。启动子可以是单向的(启动一个方向的转录)或双向的(启动任一方向的转录)。启动子可以是组成型启动子、阻抑型启动子或诱导型启动子。除了rna聚合酶结合以启动转录的基因近端启动子之外,启动子区还可以包括基因上游的额外序列,所述额外序列可以处于基因的转录起始位点的1kb、2kb、3kb、4kb、5kb或更多内,其中所述额外序列可以影响下游基因的转录速率并且任选地影响启动子对发育、环境或生物化学(例如,代谢)条件的反应性。
当关于多核苷酸、基因、核酸、多肽或酶使用时,术语“异源的”是指来自来源或衍生自除宿主生物物种之外的来源的多核苷酸、基因、核酸、多肽或酶。相比而言,“同源的”多核苷酸、基因、核酸、多肽或酶在本文中用于表示衍生自宿主生物物种的多核苷酸、基因、核酸、多肽或酶。当提及基因调控序列或提及用于保持或操纵基因序列的辅助核酸序列时(例如启动子、5'非翻译区、3'非翻译区、polya添加序列、内含子序列、剪接位点、核糖体结合位点、内部核糖体进入序列、基因组同源区、重组位点等),“异源的”意指调控序列或辅助序列不与调控序列或辅助核酸序列与之并置在构建体、基因组、染色体或附加体中的基因天然地缔合。因此,可操作地连接到其在其天然状态下(即,在非基因工程化生物的基因组中)不可操作地连接的基因的启动子在本文中被称为“异源启动子”,即使所述启动子可以源自与其连接的基因相同的物种(或在一些情况下,同一生物)。
如本文所用,术语“蛋白”或“多肽”旨在涵盖单数“多肽”以及多个“多肽”,并且是指由通过酰胺键(也称为肽键)线性连接的单体(氨基酸)组成的分子。术语“多肽”是指两个或更多个氨基酸中的任何链或多条链,并且不是指产物的特定长度。因此,肽、二肽、三肽、寡肽、“蛋白”、“氨基酸链”或用于指代两个或更多个氨基酸的一条链或多条链的任何其它术语被包含在“多肽”的定义内,并且术语“多肽”可以代替或与这些术语中的任何一个可互换地使用。
通常在基因或物种名称后的括号中提供的基因和蛋白质登录号是序列记录的唯一标识符,该序列记录可在由美国国立卫生研究院维护的美国国家生物技术信息中心(ncbi)网站(ncbi.nlm.nih.gov)上公开获得。“geninfo标识符”(gi)序列标识号是特定于核苷酸或氨基酸序列的。如果序列以任何方式改变,则分配新的gi号。序列修订历史记录工具可用于跟踪出现在特定基因库(genbank)记录中的序列的各种gi号、版本号和更新日期。基于登录号和gi号来检索和获得核酸或基因序列或蛋白序列是在例如细胞生物学、生物化学、分子生物学和分子遗传学领域中众所周知的。
如本文所使用的,相对于核酸或多肽序列的术语“一致性百分比”或“同源性”被定义为在比对序列达到最大一致性百分比并且在必要时引入空位以实现最大同源性百分比之后,候选序列中与已知多肽相同的核苷酸或氨基酸残基的百分比。n末端或c末端插入或缺失不应被解释为影响同源性,并且多肽序列中少于约30个、少于约20个或少于约10个氨基酸残基的内部缺失和/或插入不应被解释为影响同源性。核苷酸或氨基酸序列水平的同源性或一致性可以使用程序blastp、blastn、blastx、tblastn和tblastx(altschul(1997),《核酸研究(nucleicacidsres.)》25,3389-3402,和karlin(1990),《美国国家科学院院刊(proc.natl.acad.sci.usa)》87,2264-2268)所采用的算法,通过blast(基本局部比对搜索工具)分析来确定,其被定制用于序列相似性搜索。blast程序所使用的方法是首先考虑查询序列与数据库序列之间具有和不具有缺口的相似片段,然后评估所识别的所有匹配的统计显著性,并且最后仅概括满足预先选择的显著性阈值的那些匹配。有关序列数据库相似性检索中基本问题的讨论,请参见altschul(1994),《自然遗传学(naturegenetics)》6,119-129。直方图、描述、对准、期望(即,用于报告与数据库序列匹配的统计显著性阈值)、截止值、矩阵和过滤器(低复杂度)的检索参数可以处于默认设置。blastp、blastx、tblastn和tblastx所使用的默认评分矩阵是blosum62矩阵(henikoff(1992),《美国国家科学院院刊》89,10915-10919),推荐长度超过85的查询序列(核苷酸碱基或氨基酸)。
对于设计用于比较核苷酸序列的blastn,评分矩阵通过m(即,一对匹配残基的奖励评分)与n(即,错配残基的罚分)的比率来设定,其中m和n的默认值可以分别为+5和-4。四个blastn参数可如以下调整:q=10(空位产生罚分);r=10(空位延伸罚分);wink=1(在沿着查询的每个winkth位置处生成字命中);和gapw=16(设置其中生成空位对准的窗口宽度)。用于氨基酸序列比较的等效blastp参数设置可以为:q=9;r=2;wink=1;以及gapw=32。在gcg软件包10.0版中可用的序列之间的bestfit比较可以使用dna参数gap=50(缺口产生罚分)和len=3(缺口延伸罚分),并且蛋白比较中的等效设置可以是gap=8和len=2。
还公开本发明的多肽或核酸序列,所述多肽或核酸序列为本文所公开的任何序列(例如seqidno:1-29中的任一者)的变体,具有与全长多肽或核酸序列至少约40%、至少约45%、至少约50%、至少约55%、至少70%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%的序列一致性,例如至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或约100%序列一致性,或包含核酸序列的整个蛋白或核苷酸的至少50或至少100、至少125、至少150或以上氨基酸残基的连续序列的其片段。所公开的序列的变体可以具有至少一个氨基酸残基或核苷酸已经n端和/或c端插入到所公开的含有插入和取代的序列和/或在所公开的含有所述插入和取代的序列内。变体还包括具有氨基酸或核苷酸的至少一个取代的序列,例如在seqidno:1-29中的任一者中,其可为保守氨基酸取代。变体还可以是编码本文所公开的任何氨基酸序列或其变体的核苷酸序列。所考虑的变体可以另外或替代地包括含有通过例如同源重组或定点或pcr诱变导致的预定突变的那些,和其它物种的相应多肽或核酸,包括但不限于本文所述的那些,含有插入和取代的多肽或核酸家族的等位基因或其它天然存在的变体;和/或衍生物,其中多肽已经通过取代、化学、酶或其它合适的方法用除含有插入和取代的天然存在的氨基酸之外的部分(例如,可检测部分如酶)共价修饰。在任何实施例中,所公开的多肽序列中的任一种可以是本发明的突变体生物中编码的甲基转移酶,或可以是在生物中编码此类甲基转移酶的核酸序列。
如本文所用,短语“保守氨基酸取代”或“保守突变”是指一个氨基酸被具有共有特性的另一氨基酸替代。用于定义单独的氨基酸之间的共同性质的功能性方法是分析同源生物的对应蛋白之间氨基酸变化的归一化频率(schulz(1979),《蛋白质结构原理(principlesofproteinstructure)》,施普林格出版社(springer-verlag))。根据此类分析,可以定义氨基酸基团,其中一个基团内的氨基酸优先地彼此交换,并且因此在其对整体蛋白结构的影响方面彼此最相似(schulz(1979),《蛋白质结构原理》,施普林格出版社)。以这种方式定义的氨基酸基团的实例可以包括:“带电/极性基团”,包括glu、asp、asn、gln、lys、arg和his;“芳族或环状基团”,包括pro、phe、tyr和trp;以及“脂族基团”,包括gly、ala、val、leu、ile、met、ser、thr和cys。在每个基团内,也可以识别亚基。例如,带电/极性氨基酸的基团可以细分为亚基,包括:包含lys、arg和his的“带正电的亚基”;包含glu和asp的“带负电的亚基”;以及包含asn和gln的“极性亚基”。在另一个实例中,芳族或环状基团可以细分为亚基,包括:包含pro、his和trp的“氮环亚基”;以及包含phe和tyr的“苯基亚基”。在另一个进一步的实例中,脂肪族或环状基团可以被细分为亚基,包含:“大脂肪族非极性亚基”,其包括val、leu和ile;“脂肪族微极性亚基”,其包括met、ser、thr和cys;以及“小残基亚基”,其包括gly和ala。保守突变的实例包括上述亚基内的氨基酸的氨基酸取代,例如但不限于:用arg代替lys,或反之亦然,使得可以保持正电荷;用asp代替glu,或反之亦然,使得可以保持负电荷;用thr代替ser,或反之亦然,使得可以保持游离的-oh;和用asn代替gln,或反之亦然,使得可以保持游离的-nh2。“保守变体”是包括一个或多个氨基酸的多肽,所述一个或多个氨基酸已被取代以用具有共同特性(例如,属于与上文所描绘的氨基酸基团或亚基相同的氨基酸基团或亚基)的氨基酸置换参考多肽的一个或多个氨基酸(例如,其序列已经在出版物或序列数据库中公开或其序列已经通过核酸测序确定的多肽)。
如本文所使用的,“表达”包含至少在rna生产水平上的基因表达,并且“表达产物”包括所表达基因的所得产物,例如多肽或功能性rna(例如,核糖体rna、trna、反义rna、微rna、shrna、核酶等)。术语“增加的表达”包括基因表达的改变以促进mrna产生的增加和/或多肽表达的增加。“增加的产生”包含与多肽的天然产生或酶活性相比,多肽表达的量、多肽的酶活性水平或两者的组合的增加。
本发明的一些方面包括特定多核苷酸序列的表达的部分、实质或完全减弱、缺失、沉默、失活或下调。可以使基因部分、基本上或完全缺失、沉默、失活,或者它们的表达可以被下调,以影响由它们编码的多肽执行的活性,如酶的活性。通过插入破坏基因的功能和/或表达的核酸序列(例如,病毒插入、转座子诱变、大范围核酸酶工程化、同源重组或本领域已知的其它方法),基因可以部分地、基本上或完全地缺失、沉默、失活或下调。术语“消除(eliminate/elimination)”和“基因敲除”可以与术语“缺失”、“部分缺失”、“实质缺失”或“完全缺失”互换使用。在某些实施例中,所关注的微生物可以使用cas/crispr系统通过严格同源重组或靶向整合或突变工程改造化以基因敲除所关注的特定基因。在仍其它实施例中,可以使用利用cas/crispr系统、rnai或反义dna(asdna)构建体的基因调节区域的靶向插入或突变来部分、基本上或完全沉默、失活或下调目标特定基因。
某些核酸分子或特定多核苷酸序列的这些插入、缺失或其它修饰可以被理解为涵盖“一种或多种基因修饰”或“一种或多种转化”,使得这些微生物或宿主细胞的所得菌株可以被理解为“经过基因修饰的”、“基因工程化的”或“转化的”。
如本文所用,“增强表达”包括与未经该等遗传修饰的对照光合生物体中的表达或活性相比,在包含一个或多个遗传修饰的光合生物体中增加所关注的基因或核酸分子的表达或酶的活性。
如本文所用,“突变体”是指在基因中具有突变的生物体,所述突变是传统诱变的结果,例如,使用γ辐照、uv或化学诱变剂。如本文所使用的,“突变体”还指由于基因工程化而具有改变的基因结构或表达的重组细胞,作为非限制性实例,所述基因工程化可以包含过表达,包含在不同的时间、生物、或环境调控下的基因表达和/或与天然发生的程度不同的基因表达和/或在重组细胞中非天然表达的基因的表达;同源重组,包含基因敲除和敲入(例如,用对具有比野生型多肽更高或更低活性的多肽进行编码的基因和/或显性阴性多肽进行基因置换);通过rnai、反义rna或核酶等的基因弱化;以及使用大范围核酸酶、talen和/或crispr技术等的基因组工程化。因此,突变体不是天然存在的生物体。所关注的突变体生物典型地具有与缺少突变的相应野生型或祖代菌株不同的表型,其中以通过生长测定、产物分析、光合特性、生化测定等评估表型。当提及基因时,“突变体”表示该基因相对于天然或野生型基因具有至少一个碱基(核苷酸)变化、缺失或插入。突变(一个或多个核苷酸的改变、缺失和/或插入)可以在基因的编码区中,或可以在内含子、3'utr、5'utr或启动子区中,例如转录起始位点的2kb内或翻译起始位点的3kb内。例如,如本文所公开的基因表达减弱的突变体可具有突变,其可为转录起始位点的基因5'区域中的一个或多个核碱基变化和/或一个或多个核碱基缺失和/或一个或多个核碱基插入,例如,在非限制性实例中,在已知或推定的转录起始位点的2kb内、1.5kb内、1kb内或0.5kb内,或在翻译起始位点的3kb内、2.5kb内、2kb内、1.5kb内、1kb内或0.5kb内。作为非限制性实例,突变基因可以是在启动子区域内具有可以增加或降低该基因的表达的突变、插入/或缺失的基因;可以是具有导致产生非功能性蛋白、截短蛋白、显性失活蛋白和/或无蛋白的缺失的基因;和/或可以是具有一个或多个导致所编码蛋白的氨基酸的变化或导致基因转录本的异常剪接的点突变的基因等。
多肽的保守结构域包括在“cd”(保守结构域)数据库、cog数据库、smart数据库、prk数据库、tigrfam数据库或本领域已知的其它数据库中识别的那些。美国国家生物技术信息中心网站提供保守域数据库(cdd),其称之为“蛋白注释资源,由一组注释良好的古代域和全长蛋白的多序列比对模型组成。这些可用作位置特异性分数矩阵(pssm),用于经由rps-blast快速识别蛋白序列中的保守域。cdd内容包括ncbi管理域,其使用3d结构信息来明确地定义域边界且提供进入序列/结构/功能关系的洞察,以及从多个外部源数据库(pfam、smart、cog、prk、tigrfam)导入的域模型。”这些资源中的任一者可用于识别保守域。
术语“pfam”是指由pfam联合体维护的蛋白域和蛋白家族的大型集合,且可在多个赞助的全球网站上获得,包括:pfam.sanger.ac.uk/(维康信托基金会,桑格研究院(welcometrust,sangerinstitute));pfam.sbc.su.se(斯德哥尔摩生物信息中心(stockholmbioinformaticscenter));pfam.janelia.org/(珍妮莉娅法姆研究学院,霍华德休斯医学研究所(janeliafarm,howardhughesmedicalinstitute));pfam.jouy.inra.fr/(法国农业科学研究院(institutnationaldelarechercheagronomique));以及pfam.ccbb.re.kr。pfam的最新版本是pfam32.0(2018年9月)。使用多序列比对和隐马尔可夫模型(hmm)来识别pfam结构域和家族。pfam-a家族或域分配是使用蛋白家族的代表性成员通过策划的种子比对而产生的高质量分配,并且基于种子比对概述隐马尔可夫模型。(除非另外说明,否则所查询的蛋白与pfam域或家族的匹配是pfam-a匹配。)随后使用属于所述家族的所有所识别序列自动产生所述家族的完全比对(sonnhammer(1998)《核酸研究(nucleicacidsresearch)》26,320-322;bateman(2000)《核酸研究》26,263-266;bateman(2004)《核酸研究》32、《数据库期刊(databaseissue)》d138-d141;finn(2006)《核酸研究数据库期刊》34,d247-251;finn(2010)《核酸研究数据库期刊》38,d211-222)。通过访问pfam数据库,例如使用任何上述网站,可以使用hmmer同源性搜索软件(例如,hmmer2、hmmer3或更高版本,hmmer.janelia.org/)针对hmm来查询蛋白序列。将查询的蛋白识别为pfam家族(或具有特定的pfam域)的显著匹配是位分数大于或等于pfam域的采集阈值的那些。期望值(e值)也可以用作在pfam中包含所查询的蛋白或确定所查询的蛋白是否具有特定pfam域的标准,其中低e值(远小于1.0,例如小于0.1,或小于或等于0.01)表示匹配归因于机会的低概率。
对“大体上相同”或“基本相同”的特性的引用表示对在本发明上下文中被认为重要的特性不重要的微小的和不相关的偏差。在各种实施例中,这可意味着特性在参考值的10%内,且优选地在5%内,或在2.5%内。
“对照细胞”或“对照微生物”是从其直接或间接衍生突变微生物(基因工程化或诱变微生物)的野生型细胞或微生物,或者是与提及的突变细胞或微生物基本相同的细胞或微生物,不同之处在于对照细胞或微生物不具有导致脂质产生增加的突变,例如对照细胞或微生物未经基因工程化或诱变以增加脂质产生。例如,在重组藻类包含编码cas9基因和基因敲除固有chg甲基转移酶基因的外源基因的情况下,除对照藻类不包含chg甲基转移酶基因的基因敲除以外,对照藻类可与重组藻类大体上相同。
本文公开用于操纵、测定、培养和分析微生物的方法。本文阐述的本发明还利用本领域已知的用于细胞培养、微生物转化、基因工程和生化分析的标准方法、技术和试剂。虽然类似于或等同于本文所描述的那些方法和材料的方法和材料可以用于本发明的实践或测试中,但是下面描述了合适的方法和材料。材料、方法和实例仅为说明性的且并不意图为限制性的。本发明的其它特征和优点将从描述和权利要求书显而易见。
实例
实例1.完全渗透cas9表达的拟小球藻属菌株的建立
使用基本上如pct申请公开案wo2016109840中所描述的方法,对拟小球藻属菌株进行基因工程化以表达化脓性链球菌(streptococcuspyogenes)cas9基因,其以全文引用的方式并入本文中。简言之,拟小球藻属菌株wt-1185用包含以下的载体转化:可操作地连接到拟小球藻属rps17启动子的化脓性链球菌cas9基因、来自针对拟小球藻属的土曲霉密码子优化的杀稻瘟菌素抗性基因、可操作地连接到拟小球藻属acp1启动子以产生拟小球藻属菌株str00014的gfp报告子表达盒。通过测序、通过流式细胞测量术的荧光偏移和通过蛋白质印迹法的cas9蛋白表达的展现来确认cas9基因和gfp基因整合到拟小球藻属基因组中。
实例2.拟小球藻属dna甲基转移酶的识别
使用pfam分析、blast搜索和hmmer从序列数据库识别在拟小球藻属中包含pfampf00145(c-5胞嘧啶特异性dna甲基转移酶)的四种新颖假定dna甲基转移酶基因。这些4种假定甲基转移酶基因中的每一者包含对应于c-5胞嘧啶特异性dna甲基转移酶的pfampf00145。拟小球藻属假定dna甲基转移酶的氨基酸序列和其相应cdna序列展示为seqidno:1-8。
实例3.使用完全渗透拟小球藻属cas9编辑菌株str00014基因敲除四种假定dna甲基转移酶
个别假定dna甲基转移酶中的每一者使用整合到拟小球藻属cas9编辑背景菌株str00014(其为具有cas9盒的野生型菌株)中的crisprcas9和针对基因中的每一者的嵌合grna来进行基因敲除。设计嵌合grna并且在体外合成以靶向拟小球藻属中的四种dna甲基转移酶基因:emre3eukt598198、emre3eukt590754、emre3eukt596408和emre3eukt596208-其相应的嵌合grna序列如seqidno:9-12所示。
将拟小球藻属str00014通过电穿孔用1-2μg纯化的嵌合引导rna和1μg选择性标记dna进行转化,所述选择性标记dna含有针对拟小球藻属进行密码子优化并且含有来自拟小球藻属内含子的博来霉素抗性“bler”基因(seqid:13)。bler基因可操作地连接到拟小球藻属rps4启动子(seqid:14),并且由拟小球藻属rps4终止子(seqid:15)终止。
通过以下方式进行电穿孔:对100ml种子培养物进行接种,所述种子培养物在使用转化前六天被接种成1×106个细胞/毫升,以在转化前两天将1l培养物接种成1×106个细胞/毫升。在转化当天,通过在5000×g下离心持续20分钟来沉淀细胞,用0.1um过滤的385mm山梨糖醇洗涤三次,并且在385mm山梨糖醇中重悬到5×109个细胞/毫升。在不同条件下,在
在测试一系列电压、电阻和电容之后,将最优电穿孔条件确定为1.0-1.2kv(5000-6000v/cm)、200-300欧姆和25-50μf。使用更大量的dna增加了所得zeocin抗性菌落的数量,尽管在大于4μg的量下效果达到稳定。
在电穿孔之后,将细胞接种于含有250μg/mlzeocin的琼脂培养基(补充有10mm铵和15mmhepesph8的市售藻类生长培养基)上,以选择并入有bler盒的转化体。通过使用经设计以跨越天然目标基因座扩增的引物(dna_oligost106;seqid:19和dna_oligost107;seqid:20)的菌落pcr筛选用于emre3eukt598198基因敲除的转化体。引物经设计以在没有整合到基因座的情况下(例如,“敲入”bler盒)产生约400bp的条带,或者如果有单个bler盒整合到目标基因座,则产生约5.1kb的条带,或者如果有多个整合到目标基因座,则可能没有条带。此外,使用侧接目标的上文所描述的引物和经设计以从染色体扩增到选择性标记中的内部bler引物(dna_oligost078;seqid:21)中的每一者进行两次以上菌落pcr反应。不管整合的ble盒的定向,如果目标整合成功,那么约800bp的条带将由侧接引物和内部引物dna_oligost078的扩增产生。引物的序列展示于下文中。
dna_oligost106
dna_oligost107
dna_oligost078
所得emre3eukt598198基因敲除菌株称为str03778。
通过使用经设计以跨越天然目标基因座扩增的引物(dna_oligost258;seqid:22和dna_oligost259;seqid:23)的菌落pcr筛选用于emre3eukt590754基因敲除的转化体。引物经设计以在没有整合到基因座的情况下(例如,“敲入”bler盒)产生-400bp的条带,或者如果有单个bler盒整合到目标基因座,则产生-5.1kb的条带,或者如果有多个整合到目标基因座,则可能没有条带。此外,使用侧接目标的上文所描述的引物和经设计以从染色体扩增到选择性标记中的内部bler引物(;seqid:21)中的每一者进行两次以上菌落pcr反应。不管整合的ble盒的定向,如果目标整合成功,那么约800bp的条带将由侧接引物和内部引物dna_oligost078的扩增产生。引物的序列展示于下文中。
dna_oligost258
dna_oligost259
所得emre3eukt590754基因敲除菌株称为str03826。
通过使用经设计以跨越天然目标基因座扩增的引物(dna_oligost108;seqid:24和dna_oligost109;seqid:25)的菌落pcr筛选用于emre3eukt596408基因敲除的转化体。引物经设计以在没有整合到基因座的情况下(例如,“敲入”bler盒)产生-400bp的条带,或者如果有单个bler盒整合到目标基因座,则产生-5.1kb的条带,或者如果有多个整合到目标基因座,则可能没有条带。此外,使用侧接目标的上文所描述的引物和经设计以从染色体扩增到选择性标记中的内部bler引物(dna_oligost078;seqid:dna_oligost078)中的每一者进行两次以上菌落pcr反应。不管整合的ble盒的定向,如果目标整合成功,那么约800bp的条带将由侧接引物和内部引物dna_oligost078的扩增产生。
dna_oligost108
dna_oligost109
所得emre3eukt596408基因敲除菌株称为str03749。
通过使用经设计以跨越天然目标基因座扩增的引物(dna_oligost110;seqid:26和dna_oligost111;seqid:27)的菌落pcr筛选用于emre3eukt596208基因敲除的转化体。引物经设计以在没有整合到基因座的情况下(例如,“敲入”bler盒)产生-400bp的条带,或者如果有单个bler盒整合到目标基因座,则产生-5.1kb的条带,或者如果有多个整合到目标基因座,则可能没有条带。此外,使用侧接目标的上文所描述的引物和经设计以从染色体扩增到选择性标记中的内部bler引物(dna_oligost078;seqid:dna_oligost078)中的每一者进行两次以上菌落pcr反应。不管整合的ble盒的定向,如果目标整合成功,那么约800bp的条带将由侧接引物和内部引物dna_oligost078的扩增产生。引物的序列展示于下文中。
dna_oligost110
dna_oligost111
所得emre3eukt596208基因敲除菌株称为str03779。
下文概述拟小球藻属dna甲基转移酶基因、氨基酸和dna序列的seqidno、用于基因敲除这些基因的对应的grna序列以及对应的基因敲除菌株。
表1:拟小球藻属dna甲基转移酶和对应序列
实例4.dna甲基转移酶活性基因敲除菌株的分析
dna甲基化状态
针对拟小球藻属dna甲基转移酶基因敲除菌株str03749、str03826、str03779和str03778的拟小球藻属天然dna以及整合到拟小球藻属基因组(杀稻瘟菌素、cas9和gfpdna序列)中的外源dna的cpg、chg和chh胱氨酸甲基化状态进行评估,并且与包含整合到对照基因组的杀稻瘟菌素、cas9和gfp基因和完整dna甲基转移酶的对照拟小球藻属菌株str00014进行比较。
简单来说,使用标准技术分离拟小球藻属染色体dna。使用methylseqtm(因美纳公司(illuminainc.,加利福尼亚州圣地亚哥市))分析经分离dna的甲基化状态。
拟小球藻属基因敲除菌株str03778
与无此类基因敲除的对照拟小球藻属菌株str00014相比,在拟小球藻属dna甲基转移酶基因敲除菌株str03778中,整合到拟小球藻属基因组中的外源基因杀稻瘟菌素、cas-9和gfp的chgdna甲基化水平显著降低(图1)。
另外,与无此类基因敲除的对照拟小球藻属菌株str00014相比,在拟小球藻属dna甲基转移酶基因敲除菌株str03778中,整合到拟小球藻属基因组中的外源基因杀稻瘟菌素、cas-9和gfp的chhdna甲基化水平显著降低(图1)。与无此类基因敲除的对照拟小球藻属菌株str00014相比,在拟小球藻属dna甲基转移酶基因敲除菌株str03778中,整合到拟小球藻属基因组中的外源基因杀稻瘟菌素、cas-9和gfp的cpgdna甲基化水平保持相对不变(图1)。
还评估天然拟小球藻属dna序列的chg、chh和cpgdna甲基化水平。与无此类基因敲除但天然拟小球藻属dna序列的chh和cpgdna甲基化水平保持相对不变的对照拟小球藻属菌株str00014相比,拟小球藻属dna甲基转移酶基因敲除菌株str03778在其基因组的高度重复序列和着丝粒区域展现较低chg甲基化(图2和3)。
拟小球藻属基因敲除菌株str03749
与无此类基因敲除的对照拟小球藻属菌株str00014相比,在拟小球藻属dna甲基转移酶基因敲除菌株str03749中,整合到拟小球藻属基因组中的外源基因杀稻瘟菌素、cas-9和gfp的chg、cpg和chhdna甲基化水平保持相对不变(图1)。
还评估天然拟小球藻属dna序列的chg、chh和cpgdna甲基化水平。天然拟小球藻属dna序列的chg、chh和cpgdna甲基化水平保持相对不变(图2和3)。
拟小球藻属基因敲除菌株str03826和str03779
拟小球藻属基因敲除菌株str03826、str03779展示类似于拟小球藻属基因敲除菌株str03749(数据未展示)的甲基化模式。
因此,拟小球藻属基因emre3eukt598198负责外源dna的甲基化。
实例5.h3k9单甲基化和三甲基化基因敲除菌株的分析
使用染色质免疫沉淀技术(chip)使用来自active
与无此类基因敲除的对照拟小球藻属菌株str00014相比,拟小球藻属dna甲基转移酶基因敲除菌株str03778(编码seqidno:1的emre3eukt598198基因的基因敲除)展示在包含整合到拟小球藻属基因组中的外源基因杀稻瘟菌素、cas-9和gfp的染色体部分中h3k9单甲基化和三甲基化显著降低(图1)。
拟小球藻属dna甲基转移酶基因敲除菌株str03778(emre3eukt598198基因的基因敲除)展示在天然染色体中h3k9单甲基化和三甲基化略微降低(图2和3)。
拟小球藻属菌株str03749展示h3k9的单甲基化和三甲基化无显著变化(图1-3)。因此,整合的外源dna的组蛋白h3k9的单甲基化和三甲基化中间接涉及拟小球藻属基因emre3eukt598198。
图9还展示基因敲除菌株的生产力(以总有机碳形式)的结果。结果展示与野生型菌株相比,生产力无缺陷。
实例6.外源基因蛋白表达的评估
通过蛋白质印迹分析针对三种基因敲除菌株str03778、str03749和str03779的整合到拟小球藻属基因组中的外源基因cas-9的表达进行评估,并且与对照菌株str00014进行比较。抗cas-9抗体用于蛋白质印迹分析。
与存在或不存在杀稻瘟菌素选择性压力的对照菌株str00014相比,在基因敲除菌株str03778和str03749两者中的cas-9蛋白的表达水平更高(图4)。
因此,使拟小球藻属基因emre3eukt598198突变或减弱会增加拟小球藻属中的外源dna的表达。
实例7.在其它藻类物种中的直系同源dna甲基转移酶的识别
使用blast分析,拟小球藻属基因emre3eukt598198的氨基酸序列(seqidno:1)用来识别藻类卵囊藻属中的直系同源dna甲基转移酶。所识别的dna甲基转移酶的氨基酸和cdna序列展示为seqidno:28-29。
除一些cpg和chhdna甲基化以外,识别整合到卵囊藻属基因组中的外源dna(杀稻瘟菌素基因)的chgdna甲基化(图5-7)。此外,本申请识别在重复区域和着丝粒处的卵囊藻属dna的chg甲基化(图6-7)。
实例8.卵囊藻属中chg甲基转移酶的减弱
如上文所描述,识别卵囊藻属中甲基转移酶基因。编码甲基转移酶seqidno:28的序列的缺失是使用
使用alt-rcrispr-cas9系统(整合dna技术公司(intergrateddnatechnologies,inc.,美国爱荷华州科勒尔维尔))制备cas9rnp。将靶向所关注的基因的crrnaxt退火为tracrrna,并且将所得引导rna双螺旋与cas9v3复合以形成cas9rnp。从大肠杆菌制备选择性标记dna并且消化限制以分离主链。使用nas16305(编码杀稻瘟菌素抗性的载体)或nas15142(编码诺尔丝菌素抗性的载体)。两种标记针对卵囊藻属经密码子优化,含有来自卵囊藻属的内源内含子,并且可操作地连接到内源卵囊藻属启动子并且由内源卵囊藻属终止子终止。
将0.6um金粒子重悬于鱼精蛋白硫酸盐溶液中并且超声处理。dna标记与cas9rnp(62pmolcas9v3和500pmol引导rna双螺旋)在pbs中混合,并且将dna-rnp混合物添加到鱼精蛋白-金溶液中以在冰上沉淀2小时。
将每个样品的7”长度的tefzeltm(乙烯四氟乙烯)(杜邦公司(e.i.dupontdenemours,特拉华州威明顿))管插入到连接到歧管干燥器的柔性管中(例如,如公开的美国专利申请us2017-0130238中所描述)。柔性管从鲁尔锁(leurlock)处的歧管干燥器断开且附接到10ml注射器上。将dna-rnp/金悬浮液充分混合且通过注射器施加抽吸而抽取到tefzeltm管中。在仍连接到注射器时,将tefzeltm管置于平坦表面上两分钟,同时金从溶液中沉淀且粘附到管的内部。然后用注射器施加压力以将pbs溶液轻轻地从管中推出。立即翻转管以允许剩余金浆料涂抹到tefzeltm管的与其最初沉淀的一侧相对的一侧上。接着从注射器上拆卸tefzeltm管,且在0.5-0.6lpm氮气流动的情况下将其移动回到歧管干燥器上。当金如从深黄色到淡黄色的可见光颜色变化所证明完全干燥时,从柔性管中移出tefzeltm管线且切割成用于helios基因枪tm的半英寸碎片。
转化
为了制备用于转化的细胞,100ml种子培养物在使用转化前六天被接种成0.05od730,以在转化前一天将500ml培养物接种成0.2od730。使培养物在具有一半浓度的盐的市售藻类生长培养基中在25℃下在1%co2在130rpm的振荡下在16:8的光:暗循环中的植物生长室中生长。
在转化当天,通过在5000×g下离心二十分钟将细胞培养物沉淀。将细胞重悬于50ml渗透剂(0.1um过滤器灭菌的250mm甘露醇/250mm山梨糖醇)中并且在室温下培育1-2小时。在渗透预处理之后,将细胞在渗透剂中浓缩到的20.0od730/ml,且在含有2%琼脂pm147固体培养基的13cm直径的投掷板中的五个4cm直径的圆环中的每一者中喷涂200ul细胞悬浮液。当细胞完全干燥时,使用基因枪以400psi从距离板3-6cm的距离向每细胞圆环发射两枚子弹。对每个样品,共有10个复制子弹射向20.0od730个细胞,分到5个细胞圆环中。在黑暗30℃培育箱中将细胞留在投掷板上过夜。
转化之后的当天,通过用液体市售藻类生长培养基洗涤投掷板,将来自复制细胞圆环的细胞汇集在一起。以每13cm直径板10.0od730的预期密度将回收的细胞接种到含有425mg/l杀稻瘟菌素或80mg/l诺尔丝菌素硫酸盐的生长培养基上。
用dna涂布子弹转化mtase基因敲除菌株和亲本菌株
卵囊藻属甲基转移酶(mt)基因敲除菌株和亲本菌株使用
对编码相同的bsd选择性标记的五个dna载体(cre1-5),但不同版本的cre重组酶进行了测试(图8)。cre的不同版本共享相同针对卵囊藻属经密码子优化的cds序列,但各自含有来自卵囊藻属的不同内源内含子。所有cre版本可操作地连接到相同内源卵囊藻属启动子并且由相同内源卵囊藻属终止子终止。从大肠杆菌制备载体dna并且消化限制以在转化之前分离主链。数据展示基因敲除菌株中的部分或全部两侧加上loxp位点(floxing)。chg甲基化对于亲本菌株是广泛的并且在基因敲除中不存在,如图5-7中所示。
将dna(2-10μg)沉淀到金粒子上并且重悬于100%乙醇溶液中。计算体积以制成十枚子弹,不使用pvp,且使用鱼精蛋白硫酸盐溶液。当制备dna/金悬浮液时,通过插入到附接到歧管干燥器的柔性管中(如在2017年5月11日公布的美国专利申请2017-0130238中所描述)预干燥每各样品的一7”长度的tefzeltm(乙烯四氟乙烯)管,且在0.5-0.6lpm氮气下流动通过至少十五分钟以消除来自tefzeltm管内部的环境湿度累积。
在制备dna/金悬浮液并且预干燥tefzeltm管之后,将柔性管从鲁尔锁处的歧管干燥器断开且附接到10ml注射器上。将dna/金悬浮液充分混合且通过注射器施加抽吸而抽取到tefzeltm管线中。在仍连接到注射器时,将tefzeltm管线置于平坦表面上五分钟,同时金从溶液中沉淀且粘附到管线的内部。在五分钟的沉淀时间之后,用注射器施加压力以将乙醇轻轻地从管线中推出。立即翻转管以允许剩余金浆料涂抹到tefzeltm管的与其最初沉淀的侧相对的侧。在2-5分钟的空气干燥时间之后,从注射器上拆卸tefzeltm管,且在0.5-0.6lpm氮气流动的情况下将其移动回到歧管干燥器上。当金如从深色到淡黄色的可见光颜色变化所证明完全干燥时,从柔性管中移出tefzeltm管且切割成用于helios基因枪tm的半英寸碎片。
为了制备用于转化的细胞,100ml种子培养物在使用转化前六天被接种成0.05od730,以在转化前一天将500ml培养物接种成0.2od730。使培养物在市售藻类生长培养基中在25℃下在1%co2在130rpm的振荡下在16:8的光:暗循环中的convirontm培育箱中生长。
在转化当天,通过在5000×g下离心二十分钟将细胞培养物沉淀。将细胞重悬于50ml渗透剂(过滤器灭菌的250mm甘露醇/250mm山梨糖醇0.1um)中并且在室温下培育1-2小时。
在渗透预处理之后,将细胞浓在渗透剂中缩到的20.0od730/ml,且在含有2%琼脂pm147固体培养基的13cm直径的投掷板中的五个4cm直径的圆环中的每一者中喷涂200ul细胞悬浮液。当细胞完全干燥时,使用
转化之后的当天,通过用液体标准藻类生长培养基洗涤投掷板,将来自复制细胞圆环的细胞汇集在一起。以每13cm直径板10.0od730的预期密度将回收的细胞接种到选择性培养基(含有425mg/l杀稻瘟菌素的标准藻类生长培养基)上。
具有编码seqidno:28的甲基转移酶的序列缺失的卵囊藻属菌株被识别为str28031和str29997。应注意,这些菌株的不同之处仅在于'031含有bsd作为选择性标记,且'997含有诺尔丝菌素作为选择性标记。注意到缺失菌株的chg和chh甲基化显著降低,如图5中所示。背景对照组菌株为str24194(不同之处在于其具有用于比较转基因处的甲基化的相应选择性标记)。
与背景菌株(str24194)相比,卵囊藻属(str29997)的生产力分析(图10)和测量到的toc展示细胞的生产力无缺陷。
尽管已经参考以上实例描述了本发明,但是应当理解,修改和变型包含在本发明的精神和范围内。因此,本发明仅由所附权利要求限定。
序列表
<110>合成基因组股份有限公司
j•e•佩斯
r•斯普雷菲科
<120>避免藻类中的外源核酸的表观遗传沉默
<130>sgi2210-1wo
<150>us62/779,364
<151>2018-12-13
<160>29
<170>patentin版本3.5
<210>1
<211>1253
<212>prt
<213>卵囊藻属
<220>
<221>misc_feature
<223>蛋白_emre3eukt598198甲基转移酶
<400>1
metgluleupheglyleulysglyglnalaleuglnargproaspglu
151015
leucysasnleuaspasptrparglysleuasnlysalaglyaspthr
202530
sertrpleuglyserproileprolysaspleualahisthrleutyr
354045
prohisarglystyrleualametgluserleuserasnarglysgln
505560
gluileglnlystyrgluglugluaspasnglyseraspprolystrp
65707580
thraspalalysalavalalahisphetrpglyalagluleuaspser
859095
leupheaspaspaspthrglyaspleuileproglyphelysleutyr
100105110
valglyaspphevalargleuaspleuglygluglyarglysglyval
115120125
cysglnvalleugluleutyrglnaspproleuglyalahisargile
130135140
serilelystrpphephesermettyraspaspgluvallysileleu
145150155160
aspgluileleuglyglyleuasplysargglnleutrpglymetleu
165170175
lysalaasplysglnthrpheglythrglutyrgluleuasnvalval
180185190
glualaprovallysvalvalglnvalleuproglygluthrpropro
195200205
gluaspgluaspthrtyrtrptrpgluservalhisglyprothrcys
210215220
tyrthrphegluasnproglyaspleuvalprothrserargthrarg
225230235240
hisserserthralaargleuleuargvalmetaspleutyralagly
245250255
glyglyglyleuglytyrleuaspthrargthrglulysvalgluile
260265270
argthrasptrpalavalasptyrgluglnaspmetargasnthrphe
275280285
lyscysasnpheglnhisalahisalaphealaserglythraspglu
290295300
alaleuglyleuphelysmetvalphetrpleucysglnglumetgly
305310315320
valglylysglualavalaspglyargpheserlysprophealaphe
325330335
asplysleugluargcysaspaspaspglnmetvalalaproprocys
340345350
serleuvalleuglnasnargalacysglyargglyargalaglyarg
355360365
glnglngluleuproalalysalaglnglyargglyalalysarglys
370375380
argvalgluprothrvalglnalaserargleuhisleuaspserser
385390395400
asphisglualacysalaglualagluvalglyglyhisserglngly
405410415
serserserglnglythrleuphehisthralaaspglulysserser
420425430
argglygluglyglugluglyalaaspalaserargvalalathrarg
435440445
asnglyargthrcysalaalathrglyglyglyglnthrglyglylys
450455460
valglnalalysserleuargalaserlysserlysproglyalalys
465470475480
aspglyvalglyvalalaserprolysseralalysserasnlysmet
485490495
valserargalaglualaglualalysasnthralatrpproalaala
500505510
alaproileprolysalaglygluleuglualaileleuglnvalarg
515520525
leucysglulysglyalaargleuprolysaspserasnvalglyala
530535540
alaglnleuilearggluileargprogluglumetargleugluphe
545550555560
lysvalargtrpserproalaalalyslystyrglyaspserarggly
565570575
glusertrpleuproargseralaleuglyalatyrglngluglnleu
580585590
lysserphecysleulysleuargargcysservalvalprophepro
595600605
glygluvalasnleuilecysglyglyproprocysglnglyvalser
610615620
glyasnasnarghisalalysmetargaspileleuglnaspvalarg
625630635640
asnargglnleuleuvalpheleuaspphevallystrpphelyspro
645650655
asnphevalleumetgluasnvalglnaspilemetlyslysgluglu
660665670
glylystyrvallystyralametglyhisthrleuglnmetglytyr
675680685
glnileargleuglyleuleualaalaglyasppheglyvalsergln
690695700
glyargtrpargcysphemettrpglyalaleulysasngluglugln
705710715720
leuproalapheproglualathrhisasncysargasnphelysthr
725730735
glyvalcysthrleuglylysaspcysglnglyglypheleuserasp
740745750
gluasnserleuglualahisproprovalleuleuglyaspvalmet
755760765
alaaspleuprogluvalthrasnglygluleuarggluargleuser
770775780
tyrprocysaspprolystyrvalglnglnmettrptyrargargleu
785790795800
proglnprotrpglnthrserileglugluargilealapheargser
805810815
gluvalleuglulysglnglnleulyspheasnarggluleuleuglu
820825830
servallysthraspgluaspvalthrglnleuglyleuargserleu
835840845
asnthrlysasnproleulysglyalagluglnasnasnlysprolys
850855860
leuargglnaspglythrglnalaglyasnhisprophegluthrile
865870875880
thralaalaleuargmetleuserasnproargglualagluileleu
885890895
lysleuglumetglualaglyargleucysphealahisgluarggly
900905910
metglniletyrlysgluleuglnglutyrleulysglusergluarg
915920925
glyleuglyserglyglnvalleucysasphisargproleuileleu
930935940
asnaspaspasptyrleuargilethrvalvalprolysargthrarg
945950955960
tyrglugluglugluaspargleucysasnpheargalaleuglugly
965970975
valvalasnasnalaaspglythrcyscystyrglyserglnhisala
980985990
gluargarglysaspglythrserglycyslysglyglyglythrtyr
99510001005
thrileasplysargserasnalahisvalthrargileaspgln
101010151020
gluasplysasnglytrpargglyvalalaleuglnglycysgln
102510301035
alatyrvallyshisleuprothrmetgluprogluleuproarg
104010451050
trpcysvalthrphelysargglylysseraspglyarghisgly
105510601065
glypheglyargvalhispheserglnileilethrthrvalile
107010751080
glyargalagluprohisasnleulysleualahisprothrgln
108510901095
aspargvalmetthrilearggluasnalaargcysglnglyphe
110011051110
proasptyrhisvalphecysalaaspleuserargglyglyarg
111511201125
asnargtrpvalargasnserthrleuthrglnargtyrglnmet
113011351140
ileglyasnalavalcysprogluvalalaseralaleuglyarg
114511501155
cysleualaleualaalathrglygluserproproglyglucys
116011651170
tyrileglnvalproasnproalatyrleuglnvalvallysala
117511801185
alaargglulysglyleuglutyrphephegluglutyrvalarg
119011951200
gluhisproargglytyrhisserileserleuglualaargleu
120512101215
cysalaalaalagluglytyrileproglnglyglysersergly
122012251230
thrglyalavalaspaspgluaspgluvalaspaspaspsergln
123512401245
glyglugluglyasp
1250
<210>2
<211>3761
<212>dna
<213>卵囊藻属
<220>
<221>misc_feature
<223>emre3eukc598198,seqid1的甲基转移酶的cdna
<400>2
atggaattattcggccttaaaggtcaagccttacagcgtccagatgagctttgtaacctg60
gatgattggagaaagctgaataaagcaggcgacacgtcatggcttggctcacctatcccc120
aaggaccttgctcacaccttgtatccacaccgcaagtacctggccatggaaagcttgagc180
aatcgcaagcaagaaatacagaaatacgaggaagaagataatggcagcgatccgaaatgg240
acagatgcaaaagcagtggctcacttctggggcgcggagctggatagcctgtttgatgat300
gacaccggggacctcatcccaggtttcaagctgtatgttggcgactttgtcaggcttgat360
cttggggaaggacgaaaaggcgtctgccaggttctcgagctctaccaggatcccttgggg420
gcacatcgcatcagcatcaagtggtttttcagcatgtacgacgatgaggtgaagattcta480
gatgagattctgggggggctggacaagaggcagttgtggggcatgcttaaggcagacaaa540
cagacgtttgggacggaatacgagctcaatgttgtggaggcacctgttaaagttgttcag600
gtgcttccgggagagacccccccagaggatgaagatacgtactggtgggaatcagttcat660
ggtcccacctgctacacctttgagaatcccggggaccttgtccccaccagcaggaccaga720
cactccagcactgcgaggctgctgcgagtgatggacctgtatgccggaggcggtggcctt780
ggatacctggacacgcgcactgagaaagtggagatcaggaccgattgggctgtggactac840
gagcaagacatgaggaacacgttcaaatgcaacttccagcatgcccacgcctttgctagc900
ggcactgacgaagcactggggctcttcaaaatggtattctggctgtgccaagaaatgggt960
gtgggcaaagaagctgtggatgggagattctcaaagccgtttgcgtttgacaagcagagc1020
gatgcgacgatgaccagatggtggcccctccctgctccttggttctccagaacagggcgt1080
gcggcagagggagggcaggaaggcagcaggagctgcctgcaaaggcacaaggcagggggg1140
cgaaacgaaagcgagtggagccaactgtgcaagcaagcaggctgcacctggactcctccg1200
atcatgaggcctgtgccgaggcagaggtgggaggtcacagccaggggagcagctcccagg1260
ggactttgttccacacagctgatgagaagagcagccgaggcgaaggtgaagaaggcgccg1320
atgcgtccagggtggccacaaggaatggacgcacatgtgcagccacaggtggaggccaaa1380
caggggggaaggtgcaggccaagagtttaagagcaagcaagagcaaacctggcgcgaaag1440
atggagttggtgttgcgtcccctaaatctgcaaagagcaataagatggtgagcagagctg1500
aggccgaggccaagaacacggcatggccagctgcggcacccatcccgaaagctggggagt1560
tggaagcaatcttgcaagtcaggctgtgcgagaagggcgcccggctacctaaggactcca1620
acgtgggggctgcacagctcattagagagatacggccggaagaaatgcgcctggaattca1680
aggtgaggtggtcgccagctgcgaagaagtatggggacagcaggggggaaagctggctac1740
ctcgcagtgcgcttggcgcctaccaagaacagctcaagagcttctgcctcaagctccgaa1800
ggtgctccgtggtgcctttcccgggggaggtcaacctcatctgcggagggcccccctgcc1860
agggagttagtgggaacaaccggcatgccaagatgcgggacatcctgcaagacgtcagga1920
atcgccagctgctggtgtttctggactttgtgaagtggttcaaaccgaactttgtcctca1980
tggagaatgtgcaggacatcatgaagaaggaggagggcaagtatgtcaagtatgctatgg2040
ggcacacactgcagatggggtaccagatccgtctggggctgctggctgcgggcgactttg2100
gcgtgtcccagggcaggtggaggtgcttcatgtggggggctctgaagaatgaggagcagc2160
tgccggcattccccgaggcaacgcacaactgccgaaacttcaagaccggcgtgtgcacgc2220
tgggcaaggactgccagggaggcttcctgtctgacgagaacagcctcgaggcccaccccc2280
cggttctgttgggggacgtgatggccgacctcccagaggtgacaaacggcgagctgcggg2340
agaggctgagctacccctgcgaccccaaatatgtgcagcagatgtggtacaggcgtctgc2400
ctcagccttggcagacttccatagaggagcgtattgccttcagatcggaggttctggaga2460
agcagcagctgaaattcaacagggaactgctggaaagtgtgaaaacagacgaagatgtca2520
cacagctgggcctgcgctccctgaacaccaagaaccccctaaaaggggcggagcagaaca2580
acaagccaaagctgcggcaagacggcacccaagcaggtaatcacccctttgagacgatca2640
ccgctgcgctgcgcatgctgagcaaccccagggaggccgagatcctgaagctggagatgg2700
aggctggcaggctgtgctttgcacacgagcgggggatgcagatctacaaggagttacagg2760
agtacctgaaggagtctgagcgtggcctggggtctggccaggttctgtgtgaccaccgac2820
cactcattctcaatgatgacgactacctccgcatcacggtggtgcctaaacggaccaggt2880
atgaggaggaggaggaccggctgtgcaacttcagagcgctcgagggagtcgtgaacaacg2940
cagatggcacgtgctgctatgggagtcagcatgcggagaggaggaaagacggcacatctg3000
ggtgcaagggagggggcacgtataccattgacaagcggagcaatgcccacgtcacccgca3060
tcgaccaggaggacaagaatgggtggaggggtgtggcgctacaagggtgccaggcgtacg3120
tgaagcacttgcccacgatggagccggagctgcctcggtggtgcgtcaccttcaagcgcg3180
gcaagtcagacgggcggcatggcggctttggccgtgtgcacttctcgcagatcatcacca3240
cggtgataggacgggcagagccgcacaacttgaagctggcccaccccacgcaagacaggg3300
tgatgaccatcagggagaacgcacgttgccagggcttccctgattaccacgtattctgtg3360
cggacctctcccgtggcggccgcaatcgctgggtccgcaactccaccctcacacagcgct3420
atcagatgatcgggaacgcggtttgcccggaggtggcatctgcacttggccgctgcctgg3480
ctcttgctgccactggggagagcccccccggggaatgctacatccaggtccccaaccctg3540
cgtacctccaggttgtgaaggcggccagggagaaggggctggagtacttctttgaggagt3600
atgtgagggagcacccaaggggatatcacagtatttcgctggaggcaaggctgtgcgcgg3660
cggctgaggggtatattccgcagggagggagtagtggaacgggtgctgtcgatgatgaag3720
atgaggtagacgatgacagtcagggagaagagggtgattga3761
<210>3
<211>1717
<212>prt
<213>卵囊藻属
<220>
<221>misc_feature
<223>甲基转移酶,蛋白_emre3eukt590754甲基转移酶
<400>3
metproalaasnlysglylysalatyrvalgluvalglylysaspgly
151015
thrleuproalaleumetalaglylysglnglylysargglualaser
202530
glulysleuproalalysgluproalalyslysalalyslysglugln
354045
proalalysglualaaspglygluvallysvalalalysaspthrala
505560
vallysgluglualathrvalvalglyserglyargvalalaalagln
65707580
lysleuserleulysglualaalavallysvalserasnlysalaasp
859095
lysileileilelysglugluvallyscysglyglygluarggluala
100105110
leuglualathralaglythrthrproalaasptyrglnargargleu
115120125
glyasppheservalvalaspasngluglylysalagluproileasp
130135140
servalglyleuglyserlysaspleupheileserglyvalvaltyr
145150155160
proarggluglyglualaasnlysglnserglyargargvalgluarg
165170175
valglyproleuargglyphepheleuaspleualaglylysthrala
180185190
glnleuileleugluthrglnleualalystyrvalcysleuargpro
195200205
alaprothrtyrlyslysleuhisalahisleualagluglnalaasp
210215220
ilecyscysgluvalphehisalaleuservalglnasnglyglyser
225230235240
proglnthrserleuglugluvalvalalaargleualaargthrlys
245250255
leuserargglytyrproseralaargglualavalleuleuasngly
260265270
lyspheleuilealaglnleuglylysglnmetglyhislysglyphe
275280285
cystyralaaspthrgluphecyslysthrleualagluglumetlys
290295300
serphelystyrvalglyserglnlysglnasnthrglyilevalile
305310315320
argaspalaglnproalalysthralavalalaserglualaaspala
325330335
glnleualaalaaspglugluphealaargglnmetglnalalysglu
340345350
aspalaargalaargglyproargleualaalavalprolysglyala
355360365
lysglyalaglnalatyrilelysvalserglualagluilealaasp
370375380
asptyrproalaprothrprotyrthrlysgluglugluglumetasp
385390395400
gluleuleuleupheaspglugluleumetaspvalaspprogluphe
405410415
leuproargargleuleuthraspphethriletyrasnalaglugly
420425430
pheasnalaserleugluleuleupromettrpalaglyleuaspser
435440445
aspvalgluleutyralaserglyvalvalvalaspaspaspglyglu
450455460
trpalaglyglyglnalaleugluglualaproalaproproprogly
465470475480
alaglyglyserglyserserglyalaglyglyserglyalaglyser
485490495
serseralathralaglyglyserseralaglualaalaproglugln
500505510
glyglymetargmettyrleuserglnileargglutrpilevalglu
515520525
cyssercysaspglnleupheileserileargthraspvalalatrp
530535540
tyrargleuserthrproalaglulystyrlysprotrppheglythr
545550555560
valleulyscysalaargvalalavallysvalleuglymetleuser
565570575
alaglualaargalaserargleuserpheasnaspvalilelysarg
580585590
leualagluleuglugluglythrprothrpheileseralalysleu
595600605
proalavalglnargphevalvalvalhisglyglnileileleuasn
610615620
glnpheglnasntyrproseraspalavalargargseralapheval
625630635640
serglyleulysgluhismetglnmetvalarghisserlysleutyr
645650655
lysserseralalysvalvalvalargargalavalasnargasnpro
660665670
metlysaspargalaalaglyarglysserlysprometthralathr
675680685
alathrsermetvallysseriletrpglnsertyrpheasnvalgly
690695700
glualaglnalaalaalaalagluaspalaproalaalalysgluval
705710715720
glugluaspgluasngluglugluasngluglugluvalglngluasp
725730735
alaleualahisalaalaserproalaproalalyslysalavalgly
740745750
lyslysglyalaalalyslysgluglyglyseralalysvalalatrp
755760765
valglyglyvalglulysthrvalgluglyasplysphetyralalys
770775780
alalysvalglyaspleuglnvalserleuglyalavalvalalamet
785790795800
glnprogluglyaspgluglugluglygluglyglugluglyglygln
805810815
glualaproleuglyleuvalglnalamettrpglnserlyslysgly
820825830
glulysglnvalglnvalargvalmetvalargglycysgluthrval
835840845
leuglyaspalaalasergluglygluleupheleuthrthrargleu
850855860
gluthrargalaleuglyglyvalmetglyvalileasnalaarggln
865870875880
leuthrargglythrglualathrmetargleuhistyralalysglu
885890895
aspalagluleuargglnargasnglnglualaalametgluglygln
900905910
proleuglupheiletrpargargglntyrvalprogluglnglymet
915920925
pheargaspproglnargaspleuglnleuglythrargleuglnglu
930935940
glualaglyalaglnlysglyvalglnalaleugluglyglylysgly
945950955960
phethrlysaspglyvalglutyrarggluglyasppheleutyrval
965970975
serproglyvalpheaspargvalglualaaspglugluarggluleu
980985990
proglutyrleualaasnserargphehislysglyserhisaspgly
99510001005
leuargalatrpglyileglyglnleuvalargleuglyalaala
101010151020
glylyslysglyglyasplysvalserasnleuthrleuargarg
102510301035
phetyrargprogluaspvalserargaspglnalatyrargala
104010451050
alaserphehisgluvaltyralaserglugluglnvalthrval
105510601065
glyvalgluaspvalvalglyargcysthrvalvalproglugly
107010751080
argproalaglyglyasnthrphevalcysthralaserpheser
108510901095
arglysglylyslyspheglyproalaprolysileglualapro
110011051110
alaglualaserleuleualaproalathralaproalaglyasp
111511201125
lysglylysglylysglylysalavalmetalavalaspsergly
113011351140
lysalaalaproalaleulyslysphealaglyaspaspglyile
114511501155
alaleualathrmetaspilephealaglycysglyglyleuser
116011651170
gluglymethisglnalaglyalaalaphethrlystrpalaile
117511801185
glutyrgluhisproalaalaglualaphelysleuasnasnpro
119011951200
aspalaalavalphecysasnasncysasnvalleuleuhisala
120512101215
alametthrlysalaglyleuglyasnaspcysmetalaserpro
122012251230
glualagluglugluserargglnleuproalagluglntyrgly
123512401245
asnleuproalaproglygluvalasppheilecysglyglypro
125012551260
procysglnglytyrserglymetasnargpheasnlysglyasn
126512701275
trpsermetvalglnhisglyargalaalaglncysalaalaval
128012851290
leuglncysileleulysserglythrvalvalargglyglyasp
129513001305
trpvalproalaproalacyspheserileleuthrpropheval
131013151320
serproserthrleusercysserargpheilecysargpropro
132513301335
procyshisvalglnasnsermetvalmetalapheleusertyr
134013451350
cysaspphetyrargproargtyrpheleuleugluasnvalarg
135513601365
asnphevalserhisasnlysserphethrpheargleuthrleu
137013751380
argserleuleuaspmetglytyrglnvalargpheglyvalleu
138513901395
asnalaglyasnpheglyvalalaglnserarglysargthrphe
140014051410
iletrpalaalaalaproglygluleuleuproasptrpprogln
141514201425
leumethiscyspheargthrproglnleuthrileasnleupro
143014351440
glyglyvalglntyrthralavalproglnthrvalglyalapro
144514501455
leuargprovalthrvalargaspthrileglyaspleupropro
146014651470
ileglnasnglyhisaspglngluglumetasptyrproserala
147514801485
provalseralapheglnargpheileargglyaspcysglnlys
149014951500
leuthrgluhisilecyslysthrmetasnaspleuasnleuglu
150515101515
argcysargcysileprolysasnvalproglyalaasptrparg
152015251530
valleuglugluilevalarglysaspprothrargglulysphe
153515401545
asnvalserproproalavalprovalleucysmetleuglygly
155015551560
leuaspproalahisglyglyglnglycysthrcysvalglyleu
156515701575
hisproproglnargglyproprophemetcysargserleugln
158015851590
glyglnproleuvalprotrpcysleuproasnthralaasparg
159516001605
hisasnglytrpargglyleupheglyargleuaspleuasngly
161016151620
hispheprothrserthrthraspproglnprometglylysval
162516301635
glyglnvalphehisprogluglnaspargilevalservalarg
164016451650
glucysalaargalaglnglypheproaspargpheargphetyr
165516601665
glyasnvalhisserlyshisargglnvalglyasnalavalpro
167016751680
proproleualaalaalaleuglyargglnleuarglysalaleu
168516901695
gluleulysalasergluglualalysgluargileglnalahis
170017051710
leulysglyleu
1715
<210>4
<211>5839
<212>dna
<213>卵囊藻属
<220>
<221>misc_feature
<223>蛋白_emre3eukt590754,seqid3的甲基转移酶的cdna
<400>4
ggggtggaggacgtggtgggcaggtgcacggtggtgccggagggacgccccgcaggtgag60
gggggggcaaatgggggggcggcagaggcctgctgcataatagggacggggggagaaggg120
gtgagtaggaggagggccggatgcctgtggtacgcatgtgatgctgggggcctggcaggt180
tggggtcaactgtggtggatcgcctgcgcaatggggttgctacaccacatcaggagcacg240
tgtcaggggggtgcggtcagaggctagcgccggcaaatgctcccccctttggcctgtctg300
ttgagtgcgcagggggcaacacgtttgtgtgcaccgccagcttcagccgcaagggcaaga360
agtttgggcccgcacccaagatcgaggcaccggcagaggcgtccctcctcgccccggcta420
ctgctcccgctggcgacaagggtgcgctgccatcacgaggaccgctttgagagggttgat480
gtggggcagaaacgggggagtttgaggggcacatggggcgcagctgagtggacgttggat540
tgatggggtgatggatgggttgtgagccgtcgccagacgagctgcagctcacggaaaggt600
gtttagagcttgcggggtgcagggcgcctgctgggaaaagaggggggggtccacccctgg660
ccagccttacacagccctcacctcgacctccccctccctggtcacgcatgcgcaggcaag720
ggcaagggcaaggcagtcatggcggtggacagcggcaaggctgcccctgcactcaagaag780
tgagccggcatcattctccctcccccctccctctcttcccctccccctctccatcctgct840
gctgccctctccgcctgcccggttgatttccgttccgcgcgcagcgtgcgcccagtgctg900
ctccctgtttacagccacctctgcacgcctcttctgtagtcacactcacatgtggctgtg960
gtggggagcgcagtcctccacctctccttcctttctgcaaaatctcttttttgacccatc1020
tgttgcccactagttgcatacctccctggcagagtcgtgctcgatcactcccgggtgcat1080
ctgctgaaattgcatgctgaccaagcccaaacgccggtggtgcaggtttgctggcgatga1140
tggcatcgccctggccaccatggacatctttgccgggtgcggggggctgtcggagggcat1200
gcaccaggctggtgagtcacccctccacccgtgccggcccccccgcccccccctctacac1260
cctgtctatctgtactcattgctgtgccccatagcaattgctgtttcgatactgccaaaa1320
cccaaattcgtaaatttgctgccgaccgtggctctgccgtgccgatcccggttgctgtgc1380
ccgtcacgctgtgctctgctgcactgcgctccaggtgccgccttcaccaagtgggccatc1440
gagtacgagcaccccgcggcagaggcgttcaagctcaacaacccggacgccgctgtgttc1500
tgcaacaactgcaacgtgctgctgcacgccgccatgaccaaggcggggctgggcaacgac1560
tgcatggcgtcaccagaggtgagctgccgagtggggagggaagggatgagaatccaggat1620
tcaacccctgtggggagcagaggggggaggaggctaggtgatgttgtggcagacgcgcta1680
cagagtagctggggggagggggcttgtggatggcacggcagtacacggcggagggtggcg1740
gggcagtggccccatgggttgctggctgcgtctgcagggagggctgggaccatggggggg1800
tgtctttgactatccaccacgtggcagcaggcttcatgatgggctgctgggtggtgcccc1860
acctacagtgagccctggaggtgcgtggctctctcaggccgcgggcacgcacacacacgc1920
acgcacacacttgtgcttccggtttcaggcggaggaggagagcaggcagctgccagccga1980
gcagtacggcaacctgccggcccccggagaggtggacttcatctgcggcggccccccctg2040
ccagggctactcggggatgaaccgattcaacaagggcaactggtcaatggtgcaggtaag2100
ggcgggggggggatggagaggtggtggggcgcagctcttggcgcaggggcttctgctcct2160
gcagcatggcagggcggcgcagtgtgcagcagtgctccagtgtattttgaaaagtggcac2220
agtggtcaggggaggggactgggtccctgcaccagcttgcttttccatactgacaccctt2280
tgtgtccccatccacgctctcctgctcacgttttatttgtcggcctcccccctgtcatgt2340
gcagaactccatggtgatggccttcctgtcctactgcgacttctaccgcccccgctactt2400
tctgctggagaacgtgcgcaactttgtgtcgcacaacaagtcgttcaccttccgcctcac2460
gctgcgctcgctgctggacatggggtaccaggtgtgtgtgtggtgtcagtgggaagattg2520
caggggttggaggggcggggggcgaccagacgcgcttggagccgtgcaagagcgtggcaa2580
tgtgcgctgtccccccctgtgggaggggctgcctgcctgtgcttcgtgtgagcaccccct2640
ggtgcgcttcatcgaaagatgggagtgtgtgaggaaggggtgtgtgtaaatgctggtgtg2700
gagaaggaggggtgcggtgagggcgtggccctgcatgtctctttacttctatggtgcacc2760
ctttcttcctccccggcctacgcatgtcctaccaccccctgcacccgcccgcccttcgtt2820
tcttgtgtacccatccatggaggcccagcacacgcctcgcacactcccctaggtgacctt2880
gttacaacctcctcccctccccactccgcccccaggtggtttttttttttgcaagatatt2940
ttcatttatttatttatttaccctaaacaaccctcgcacagcatgcgtggctcaattccc3000
tccccctccccttgcaggtccgctttggtgtactgaacgccggcaactttggcgtggccc3060
agtcccgcaagcgtaccttcatctgggccgcagcccccggggagctgctgccggactggc3120
cccagctgatgcactgcttccgcaccccccagctcaccatcaacctgcctggaggtgggt3180
gggtgggtgggtgggtgggcccgggtgtgtgtgccaacccgtgtgttgaggagggagggg3240
ggggggggtcatgtggctttggagagatgggtgggagatgcagacgtggggggggggggg3300
gggggatccaatcccctctcccctcccccctttccccccccgctgatatgcctgacagca3360
agggagtttgaggggtgggcgcatgtccatggcgccgatgctggagtacccgatgctatt3420
tggccccaggaggcaagtggcagctgccggagctgttgcagcgagtgctgagcatgccgc3480
ctcctgctcggtatagtgtgtgcggcatgacagaggggtccaggaggtgggaggcaatcg3540
agtgccccctgtgcgttgctgcctgcaggcgtgcagtacaccgccgtaccgcagacggtg3600
ggtgcaccgctgcgccccgtcaccgtgcgcgacaccattggcgacctgccccccatccag3660
aacgggcacgaccaggaggaaatggactatcccagcgcgccggtgggtcagcccacacct3720
gtacctgcacctctgcctgcacagtgccctctttgcatccatcatgagccggtgcctatc3780
cagctcaggctgccaaacccagcgtggctcccctagtctgtagcctcctggtcttgcctc3840
gaaaccatcggcacagccaccatcaatgtctgccttctcccccccccctcacccctccaa3900
ccccccccttgctggctgctgcaggtgtcggccttccagcggttcatccgtggcgactgc3960
cagaagctgacggagcacatctgcaagaccatgaacgacctcaacctggagaggtgcagg4020
tgagcggggcggggtgggagtgggggggagaggagggagggtccggggggtgggcagagg4080
ttggaacactcaaggttggcatggtggcagttgccatgtggcaggtgcaagccgacgcag4140
tgcatgtccaggagtatgtcagtgggtgtcttcttggccgtgcaaatattattcagtgtt4200
gtaggtgcagttgccagtgcagctgcatcaggcagcagccatagtgggggaacggtgcag4260
gggccagcagtggtccaagagctgggtgtgagcccgcaggtgcatccccaagaatgtccc4320
cggcgcagactggcgcgtgctggaggagattgtgcggaaggaccccacccgcgagaagtt4380
caacgtgagcccccccgcggtacctgtgctctgcatgctgggtggtttggacccagcgca4440
tggtgggcagggctgcacgtgcgtgggacgtgatgcgcttgggccaccgctgcacgtcct4500
cggtctcgctgcgtgctgcaaatcatactcaaatcgtgcagttttggctgcacatggcgt4560
tttgtaagggtttcggggtgttttcaacctttccttgggtgtgcagtgcatccgccccag4620
cggggcccacccttcatgtgccggtccctgcagggtcagcccctggtgccttggtgcctg4680
cccaacaccgctgacaggcacaacggctggcgcggcctgtttgggcgcctggacctgaac4740
gggcacttccccacctccaccaccgacccccagcccatgggcaaggtgagggggagaggg4800
gcacagaacgggggggttccgggggaggctcaaagtctatggagggtgtaggtgtcaaag4860
ctgaaccctggctgaggagacggaggagggggggtggaggagtgcgtgttcaacctggcg4920
cagtggtacagctcctgttgtgtgtaccgtgctggggcctgcatgcggcctcccccaggc4980
aacagctgggaacgttgcctggcaccaaagggcgccactggaagacggagaggtgcagct5040
cttgagaggtgcgcagctgtcgtttgccgtgcggatgcggaggcatgggcgcgcgcgtgg5100
caacacagggaacaaagtggaaggtgtgtccaccacccctcctgcaggtggggcaggtgt5160
tccaccccgagcaagatcgcatcgtgtctgtgcgggagtgcgcccgcgcacaggtgagac5220
cagcagcaggcacagcaccggcggtgccacaccatccacaggccggtgccctgggaccac5280
gctcaattgctcagcagtgtgcgtgtgtgtgtgtgtgtgtttgtaggggaggtcgcaggc5340
cccaccccatggtcccattccctggggacgctcatgcggtcacactcacagtggcccgca5400
cacccagtgctcacctgctgctggtgctgtggctgcagggcttccccgaccgcttccgct5460
tctacggcaacgtgcacagcaagcacaggcaggtcggcaacgcggtgccgccgcccctgg5520
ctgccgcgctgggcaggcagctgcgcaaggtgagtccgcgcagcgcgcacagcacggagg5580
caagctccacacagtgactgccgcgcgcgagcgtgtggtacgtgcactgcatgggccgcg5640
cacggcaaggccggggttggtggtgccaatgcatttttggttggcggcaattgtttcgct5700
cctgctggtgcttcagtcgcttttgcggtgcgccgcaaacataaaggtgccttctggtgg5760
gggcgcgctgcaggccttggagctgaaggcctcggaggaggccaaggagaggatccaggc5820
gcatctgaaggggttgtag5839
<210>5
<211>258
<212>prt
<213>卵囊藻属
<220>
<221>misc_feature
<223>蛋白_emre3eukt596408甲基转移酶
<400>5
metglnvalalaglyglygluglyglyglyglyalaseralaarggly
151015
leuleuglualaargarggluargalaalaalaglyvalproleulys
202530
trpargserhisvallysvalproarghisalaproleuproargleu
354045
thrvalargaspvalileglyaspleuproglugluvalglyprogly
505560
leuvalprotyralaargaspproproserphephealaargsermet
65707580
argseralaglysergluglnglyvalserasnhisglniletrpgly
859095
leuseralagluasnargglnargcysalaalavalproleuglygly
100105110
aspprohistyrproglycysalasertrpgluglyalaserglyval
115120125
thrgluasnprophevalproalaargalaglyasptrpargaspleu
130135140
proprogluleuglnproalaglymetglnglnglnleualaargasp
145150155160
glylysaspphealaglyvaltyrglyargleuiletrpglyglygln
165170175
pheserthrleuleuthrasnproasnleuasnseraspthrthrmet
180185190
cyspheilehisproseralaproargproleusercyssergluala
195200205
alaargvalglnglythrproasphisvalgluphelysglythrile
210215220
alagluvaltyrargglnileglyasnservalprovalproleugly
225230235240
alaalaleuglyarggluleuilemetalaleulysglnhisalaarg
245250255
valthr
<210>6
<211>777
<212>dna
<213>卵囊藻属
<220>
<221>misc_feature
<223>蛋白_emre3eukt596408,seqid5的cdna
<400>6
atgcaggttgctgggggtgagggcgggggtggggcttctgcaagagggctgctggaggcc60
aggcgggagagggcagccgcgggtgtccccctcaaatggcgcagccacgtcaaggtgccc120
cgccatgcgcccctcccccgcctgacagtgcgggacgtgattggagacctgccggaggag180
gtgggcccaggcctggtgccctacgccagggatcccccgagcttctttgctcgcagcatg240
cgcagcgcgggatctgagcaaggcgtgtccaaccaccagatctgggggctcagcgccgag300
aatcggcagcggtgtgcggcggtgccactggggggagacccccactacccgggctgtgcc360
tcctgggagggggccagcggggtgacagaaaaccccttcgtccctgccagggcgggagac420
tggagggatcttcccccagagctgcagcctgccggcatgcagcagcagctggcccgggac480
ggcaaggattttgcaggcgtgtatggccggctgatctggggagggcagttctccacgctg540
ctgaccaacccaaacctgaacagcgacacgaccatgtgcttcatccacccttctgcaccg600
cgcccgctcagctgcagtgaggcagccagagttcagggtacacctgatcacgtggagttc660
aaaggcacgattgcagaggtgtatagacaaatagggaattctgtaccggtgccactgggg720
gccgcgttaggaagggagctgattatggcactgaagcaacatgcaagagtcacgtga777
<210>7
<211>376
<212>prt
<213>卵囊藻属
<220>
<221>misc_feature
<223>蛋白_emre3eukt596208甲基转移酶
<400>7
metglnglyvalgluleuilearggluleuglnproglutyrilethr
151015
leuglugluvalproglnphemetphevalargleuproalaglnarg
202530
ilealaserglycysalaargglnleuglnglyproalahisglyser
354045
leugluaspcyslysserleuleuvalargprotrpleutrpvalval
505560
proglnleuleumetmetglytyrglnvalaspvalargileleuasn
65707580
seralaargtyrglythrproglnasparglysvalthrproargser
859095
thrserargthraspleucyscyslysvalarglysaspalasergln
100105110
alaserserthrservalserglnglnileargargaspglnleutyr
115120125
gluglnargpheargvalileasphisalaglnargvaltrpalagly
130135140
ileserleuglnilegluglyleuglnleuproproalavalthrmet
145150155160
trpglualaileglyaspleuproproleuilelysseraspprocys
165170175
serthrleuservalleuserleuproalatrpglnproglnhiscys
180185190
alalyslysglualaalaglyaspvalglnglnproalaleuglyarg
195200205
serproleuglntyrargprohisalaargleuserserphevalgln
210215220
tyrmetleuargglyserglyargasnleuleuhishisglnthrarg
225230235240
lystrplysglyargvalserglnserarglysaspargalaphepro
245250255
thrilecysthrvaltyrasnproilevalargaspglythrhispro
260265270
valgluproargleupheserleualagluarglysargalaglngly
275280285
ileproaspcysvalglntrpalaglyserleuserasnglngluarg
290295300
glnvalglyasnalavalalatrpprometalaargalavalalacys
305310315320
alaileleuseralaalathrglyasnvalthrseraspproilepro
325330335
thrleuasnglyalaargargvalproleuileserhisvalphearg
340345350
valgluleuglyserglnleuglylysglnphepheglnseralaala
355360365
lyscysglymetserglyhisasn
370375
<210>8
<211>1131
<212>dna
<213>卵囊藻属
<220>
<221>misc_feature
<223>蛋白_emre3eukt596208,seqid7的cdna
<400>8
atgcagggcgtggagcttatcagggagctgcagccagagtacatcactctagaggaggtg60
ccacagttcatgttcgtccgtctgccagctcagaggatcgcatcaggttgtgctcggcag120
ttgcaaggcccagcacatggatcattggaggattgcaaaagcttgttagtgcggccatgg180
ctgtgggttgtaccacagctgctgatgatgggttaccaggtggacgtcaggatattgaac240
tctgcccgttatggaaccccgcaggacaggaaggttactcctcgttccacatcgcgtact300
gatctttgctgcaaggtgcggaaggatgcttcccaagcctccagcacctcagtatcacag360
cagatacggagggatcagctttatgagcagcgattcagagtaattgatcatgctcagaga420
gtctgggcaggaatatccctgcagatcgagggcctgcagctgcccccagctgtgaccatg480
tgggaggccataggggatttaccacccctgatcaagtccgacccttgcagtacgctgtct540
gtcctgtctctgcctgcttggcaaccacagcattgtgccaagaaggaggcagcaggagat600
gtgcagcagccggcgcttgggaggagccccttgcaataccgtccacatgccaggctgagc660
agctttgtgcaatacatgctacggggctcagggcgcaatctgctgcaccaccagacacgc720
aagtggaaggggcgtgtttcgcagtcgaggaaggacagggccttccccacgatctgcaca780
gtatacaatcctatagtcagagacggcacacatcctgttgagccaaggttgttttcatta840
gctgagcgcaagcgtgcacaaggaataccagactgtgtgcagtgggctggcagtctctca900
aatcaggagcgacaagttggcaatgctgtagcatggcccatggcgagggctgtggcatgt960
gctattctcagtgcagctacaggcaatgtcacaagtgatccgataccaactctaaacgga1020
gctaggcgtgtaccactaatcagccatgtttttcgagtcgagcttggcagccagctggga1080
aagcagtttttccaaagtgcagctaaatgtggcatgtctggacacaattga1131
<210>9
<211>103
<212>rna
<213>人工序列
<220>
<223>合成的
<220>
<221>misc_feature
<223>emre3eukt598198_嵌合_grna
<400>9
gggauucucaaagguguagcguuuuagagcuagaaauagcaaguuaaaauaaggcuaguc60
cguuaucaacuugaaaaaguggcaccgagucggugcuuuuuuu103
<210>10
<211>103
<212>rna
<213>人工序列
<220>
<223>合成的
<220>
<221>misc_feature
<223>rna_emre3eukt590754_嵌合_grna
<400>10
gcuagcgacagccgucuuggguuuuagagcuagaaauagcaaguuaaaauaaggcuaguc60
cguuaucaacuugaaaaaguggcaccgagucggugcuuuuuuu103
<210>11
<211>103
<212>rna
<213>人工序列
<220>
<223>合成的
<220>
<221>misc_feature
<223>rna_emre3eukt596408_嵌合_grna
<400>11
cgugauuggagaccugccggguuuuagagcuagaaauagcaaguuaaaauaaggcuaguc60
cguuaucaacuugaaaaaguggcaccgagucggugcuuuuuuu103
<210>12
<211>103
<212>rna
<213>人工序列
<220>
<223>合成的
<220>
<221>misc_feature
<223>rna_emre3eukt596208_嵌合_grna
<400>12
ggaguaaccuuccuguccugguuuuagagcuagaaauagcaaguuaaaauaaggcuaguc60
cguuaucaacuugaaaaaguggcaccgagucggugcuuuuuuu103
<210>13
<211>2667
<212>dna
<213>卵囊藻属
<220>
<221>misc_feature
<223>带有内含子的博来霉素抗性基因,针对拟小球藻进行了密码子优化
<400>13
atggccaaactgacatccgctgttcctgtgttgacagcaagagatgttgcaggtgcagtg60
gagttttgtgagttctgagaagctgattgttgtttaacttctttgaaagctttatcgaag120
attctgcaagcgatgaacattgcttgtcaagaccgagagctgcatgcccacttgacatcc180
agctttgaacggctcttcatgtttgatttgtttctgattgtagggacagatagactgggg240
tttagcagggactttgtggaggacgattttgcaggagtggtgagggatgatgtgacactg300
tttatctcagcagtgcaggatcaagtgagtgcagcgtcagctgtggcagttgttggcttt360
cgtctcagtcagtagtttgctgggattgattatggagggcacagttgcaattttgagttg420
cacgttgcgacaagcgtgttgacaaagcgtggtcaagccggccagtcttgccggtggcgg480
gtggcttggtctaacttccgctctacagcaatcgttttgttcatggttacggggctggcg540
tgccagaaagtcctggtcagccaccctcgcttcaaagccgtagcccaacaactttgcgaa600
tatgttcgatttgcaggtggtgcccgataatacactggcatgggtttgggtgagaggtac660
agctctgcgtgcaacaggttgcaagatgcagcgcaggtcttccctggtcaaacgatgtat720
gcagagttgagaggcacttgagctgggtgaatggcgtgggctcgtaggtagtgtgcaggg780
caggaagggcagccaattttggagttgtggtccggtgtcgttgcttcgagccttattagg840
actcttgctcatcaaagcgttagttgtgaataagttgatctgaaaggatgttatgtacag900
caagcagcagcagttaagagtctggggagtagctgcacagggcgaggtgtcaagatggga960
agggtcctgcctccttatgtgtttttccctgtaggggaggaagcctcttatgggcaatgg1020
ttgggcatattttccagccagcccttctttctataggggccagggtgggcccagctcgtc1080
ttggcttccaccaccaggagagtgagggcattgaagggccataaatagtcctcccatcta1140
cgtgcaccagagggtgtcgtctaggctgtgcatgccacgaggggaaggagccaagaatga1200
gtgtatgggttgttttcatgtttaggctgggataaaactgttttcaattgcgcctgccgg1260
gtgaaaaccacagcagcatcagcaagcttggagaaggccagcccgcccagcacaggctca1320
cgttcccactcaggcggtcagtcgggcgggggtgtgagtcaggcaggcgagggtgtctgt1380
gcctgacatcagcacctctgcttagccactgcagcccctggagcagggtagggcgtcatt1440
tgcagcaatcacctgctgcctcacacgtcgcagcttggaatttcaacgaccatcagcgct1500
ggggttgttgagggatcatagcagattttggtgcagcctggttgtcatgctctttgtgga1560
atggcctctatgttcgagcaattcgttggatgttgaggtgcttggggacagagagtcgaa1620
tgatgggccagggtcaaacatgcgagcgtttggctgagtcagcggtttttgctggtcact1680
ttttcttttgtttcttatttaggtttgatggatgtgttttgtgctgctgccctgaagctg1740
cagcagcgtgtctgccctgcgctactgcgggcaccaaggctatgtgctggtgcactcggc1800
tgcgctgcacctgtgcacctcgcactccgtccagcctccatgcagcacacgtactcacgg1860
tgtcctcctgacctgtcgtacgctattccaaacttgctcttttgctgccgctgctctcgt1920
acacaattgctgttgattatcgatatctaatcgagcgcctgctgactgaactccgcaggt1980
ttggatgaactgtatgcagagtggtctgaagtggtgagcaccaactttaggtgggtgggc2040
tctgaaggaggaggagggagcgggtgattaaacagggcctgcatgaagaggagcaggggc2100
tgcatggacagcagggggaaggtgcagaagggagggtcaagcggggttcaggtggctgtg2160
ggtttctgcacgagcagtgaaagaagctgtatccttccacctgctttcactggcgaaagg2220
ttgaaaacaggatgtcgcagctggaaagatgttgcgctgtcaagtgcaagccatggttga2280
gggtatgcctgtgtgcatgtgcttcttaaagttactcctgttctatggttctgggtgctt2340
gttgtttgtggtgcagggatgcaagcggacctgcaatgacagagattggagaacaacctt2400
ggggaagggagtttgcattgagagatcctgcaggtgagggggcatgtaagcaatggcagg2460
caattcaagaacgaatcattgctgcaaatgctgggatggtatgcagctgaggtatctatt2520
gccttgtattttgtctcgcattgcatcggtggtgcgttctgtggcctgaggcacagttct2580
tgctgtttgataagggttcgactgagttgtcgtgtgtgctgtgctgcaggcaattgcgtg2640
cactttgttgcagaagaacaggactga2667
<210>14
<211>531
<212>dna
<213>卵囊藻属
<220>
<221>misc_feature
<223>rps4启动子
<400>14
ccaccatgggggaggtttgaagtgtgcgcctgatataatcatacacctaaaagcaccact60
tgctgattgtgaagggactatgtcgtttatgacgggacgttacgctggccgatggtttga120
atttggacgctgtggtagaatgttatatggacgtaaaggttggcatattgaaaatcgtct180
tcacaggcaaacttctagacgtgtgacccaccggtaaaacgacaagcgtggcgcgtcgat240
tgcgctttgaacgtcgtttgttggactccagatgaacctcaaaatcaaagcggtgattga300
cgaaaatcaaatgacagcccgcaaaatttcatcagccttcggatcggattctcagaatct360
gattgtccctgctggctacatttatgaaatttcgtacattttggcagaaatgtcccaata420
ccatagcactgccgcctgagctcacccgagcaatgcatactgggtacctcgcccatctcg480
ccctctttccaagcccagtgctgttgtaaatagccaaagggctcagtaaca531
<210>15
<211>546
<212>dna
<213>卵囊藻属
<220>
<221>misc_feature
<223>rps4终止子
<400>15
gcatagcatcagcctgtggcagggttgtggtagggctgagtggcagggttaaaggggttg60
cctaccccacccctactctcatgacaccagcaacagcagcagctcatgcagtactcaaat120
cactgatgtcaatggtgtgacacatttggttaaggctgctttttaaagtgctgctttggg180
ggcagtgactgtgcagagcttggagcgtatccccatgtaatcagaaccgacgagagttcg240
gggcaacctttcatcttcacattttttgtgatcagctacagagtctgaaatcaaatagag300
gctgccatctaaacgcaggagtcacaacgaaggcgaaaactccaattgctgtactcaatg360
cactaagtgattgttcaatggataaatacactatgctcaattcatgccagcagagctgct420
ccttccagccagctacaatggctttttccacgccttttgaagtatgaatgttcagcttgc480
tgtgcttgatgcatcaccataaacacaattctacaacatttcatgccaacaacagtacgg540
gctttc546
<210>16
<211>572
<212>dna
<213>卵囊藻属
<220>
<221>misc_feature
<223>acp1启动子
<400>16
agtttgcatagttaagtatgctggctattgcagtaccttatatgcaaacaagtgctcaat60
ctgtttcatcattgtctgtgggcaaattgcctgccaatattctccagttattgcctgttg120
tttcaaatgattgaaattggaagttgtattgctctacatttttgacttgtgattttttca180
tttgttgatatctgacaactgtgaactgcactgaacttgctgtgcttataaatgcatttt240
tttgttttgggccacgttgattccttgtgatactttcctgctatcaaaccaaaaatatac300
tctcatgactgacgtgcaacaaatgcatggaagctttcaacgttacgacagctgcttgcc360
ccccatcagctattctacatgtgtaacctaccttgcatggccaccacaacgctactgcat420
gcaagatctggcgcaactggatgtcccaatagtagaagtatccggattatctccgagagt480
tttacatatgtaatcgacgccatttctgtcatcaactataaatccattgctcctgcattt540
ctggcactgacattctaccacaagcaatacca572
<210>17
<211>699
<212>dna
<213>人工序列
<220>
<223>合成的
<220>
<221>misc_feature
<223>turbogfp基因
<400>17
atgttggagagcgacgagagcggcctgcccgccatggagatcgagtgccgcatcaccggc60
accctgaacggcgtggagttcgagctggtgggcggcggagagggcacccccgagcagggc120
cgcatgaccaacaagatgaagagcaccaaaggcgccctgaccttcagcccctacctgctg180
agccacgtgatgggctacggcttctaccacttcggcacctaccccagcggctacgagaac240
cccttcctgcacgccatcaacaacggcggctacaccaacacccgcatcgagaagtacgag300
gacggcggcgtgctgcacgtgagcttcagctaccgctacgaggccggccgcgtgatcggc360
gacttcaaggtgatgggcaccggcttccccgaggacagcgtgatcttcaccgacaagatc420
atccgcagcaacgccaccgtggagcacctgcaccccatgggcgataacgatctggatggc480
agcttcacccgcaccttcagcctgcgcgacggcggctactacagctccgtggtggacagc540
cacatgcacttcaagagcgccatccaccccagcatcctgcagaacgggggccccatgttc600
gccttccgccgcgtggaggaggatcacagcaacaccgagctgggcatcgtggagtaccag660
cacgccttcaagaccccggatgcagatgccggtgaagaa699
<210>18
<211>869
<212>dna
<213>卵囊藻属
<220>
<221>misc_feature
<223>acp1终止子
<400>18
gcagcagcttgttatgccttccccatgggcatcagcatgctgcaagctgtctagatatcc60
agctttcagtggaggttgagcgagggtcagcagcggttccctggcgatggcggtcagctt120
ttctggaagccttcactaggactgcgcccagcgcatgtgacgccaatcgaacttgtgtgc180
aaggccaaattttgtgaccctgtgctgcacttcatgtattcaagaattgagaagaaattt240
cattgctgcccttctttcactttaatttccatccctggatccacctcccaccattgtggt300
tgatgggtaggggttttgggtaggtgcagttcgttgtgcacgttgacatgtgtaacggtg360
agcaaaggaattgctgggcaagtagctattgcagcttaagggcatggtgaaacacttgtg420
ctgtatttacagaggaagccagacaggtaaggagtgtgtggcagcttggaacaggagggc480
tggtcgcaacaagtatgcatatcccatgattgttgacataagagcagcaggtgcatattg540
ccagcctttgtgaaagtggattgaaaatcgattagttggtgtgatagctgaggctaggca600
ctgccaacctgcagtgaaatgaggctccaagaccgggtaataatacaggcaatcgaatcc660
agttgaaattacggcgattaaatccaagcgagcgttgtaagaacatctgcacctgtctga720
agtagtgagcggataatgagcattgcttgccttctatcactatacctgacagttacgtgt780
cacacactctcaagcacaacacacagcggcaaagttacttgctaaacctcacagtcaagc840
tgaaaataaaggctaaattacgtgagacc869
<210>19
<211>28
<212>dna
<213>人工序列
<220>
<223>合成的
<220>
<221>misc_feature
<223>dna_oligost106,引物
<400>19
gtgtgggtgctctggatcagccatcgat28
<210>20
<211>29
<212>dna
<213>人工序列
<220>
<223>合成的
<220>
<221>misc_feature
<223>dna_oligost107
<400>20
tgagaaagcaagctgtgcaggagctcagg29
<210>21
<211>31
<212>dna
<213>人工序列
<220>
<223>合成的
<220>
<221>misc_feature
<223>dna_oligost078,引物
<400>21
gcgtgcactttgttgcagaagaacaggactg31
<210>22
<211>30
<212>dna
<213>人工序列
<220>
<223>合成的
<220>
<221>misc_feature
<223>dna_oligost258,引物
<400>22
gtgtcatcttcagtgccaccctctttccgc30
<210>23
<211>30
<212>dna
<213>人工序列
<220>
<223>合成的
<220>
<221>misc_feature
<223>dnaoligost259,引物
<400>23
ctagcagcagcagcctcaatatgctgctgc30
<210>24
<211>30
<212>dna
<213>人工序列
<220>
<223>合成的
<220>
<221>misc_feature
<223>dna_oligost108,引物
<400>24
cagaattcttagctgtgccccagtgcatgg30
<210>25
<211>29
<212>dna
<213>人工序列
<220>
<223>合成的
<220>
<221>misc_feature
<223>dna_oligost109,引物
<400>25
ctccaagcttgatcacagctcgccacatc29
<210>26
<211>27
<212>dna
<213>人工序列
<220>
<223>合成的
<220>
<221>misc_feature
<223>dna_oligost110,引物
<400>26
gccgcgcacttcacctgtacagaccgt27
<210>27
<211>28
<212>dna
<213>人工序列
<220>
<223>合成的
<220>
<221>misc_feature
<223>dna_oligost111,引物
<400>27
ctgcaggacagcagttgctgaacttgcc28
<210>28
<211>1612
<212>prt
<213>oocystissp.
<220>
<221>misc_feature
<223>emre3eukt2030386甲基转移酶
<400>28
metalaserlysglncysalaasnserserglyglnvalalaalagly
151015
argglyalaalaseralapheglualaalaalaalaalaserglyser
202530
aspalaserglyserasnvalproleuprometproargvalproser
354045
leuleuserlysvalmetthrleuglyglyglnalaleuserlysval
505560
valglyserproalaargcysglyseralaserseralagluproala
65707580
glyseralaalaproilealaleugluproalathrserthrglnala
859095
serserprogluglncysproglyargalaalalysarglysalaala
100105110
gluargileserglyglualaalathrthralaalaleupheproser
115120125
glyservalproglyserserproarglysargarghisargprogly
130135140
alaglyalaalaglyglugluglyglnalaglnglyglnalaglngly
145150155160
glnalaargproproargalaprohisalaasnargalaalaalaala
165170175
thrargargalaalaglnglnglnglnglnglnglnglnglnglngln
180185190
glnglnaspaspvaltrpcysaspgluaspglythralaalaalagly
195200205
glyprocystrpthrvalproglnvalgluargargleulysgluthr
210215220
prosertrpphelysalagluaspaspasnaspglutyrleuproglu
225230235240
glntyrmetaspglnargtyrargalaleuglyglyproalaglyval
245250255
alaphemetalacyshistrpleuasparggluvalalaglytyrthr
260265270
trpglyalaargileserlysaspglualaglnargargtrpproasn
275280285
argalametcysglucysseralaalathrvallysgluhisileser
290295300
lysargmetserarggluglyglylysprothraspgluhisphetrp
305310315320
aspphealathrhisglyalapheproalametalahisphegluglu
325330335
valthrileargarggluglygluglnprophethralaargleugly
340345350
aspasnilegluleuaspserseraspglnleuleugluglyhisleu
355360365
glnargleuglyileserargglnglnleualaglymetaspprogln
370375380
aspargproserthrlystrpvalmetglnvalaspgluleuphegln
385390395400
aspilethrglyglnargvalvalserglythrtrptyrtyrserpro
405410415
arghisthralailemetcysgluproserargargvalthrlysala
420425430
lysalaalathralaalaserlysasnalavalglylysthrserthr
435440445
glnglyglyhisgluserglygluglygluglugluaspalagluglu
450455460
gluglutyrproglytyrvalprovalasppheaspproargleuleu
465470475480
pheargalathrvaltrpaspasngluargtyrglymetthraspgln
485490495
leuleugluvalvalgluargvalvalthrvalglyaspalavalpro
500505510
glylysproproprogluaspcysasptyrtyrcyssermetvalhis
515520525
aspargarghistyrthrphealaaspservalthraspglnpropro
530535540
serlysalalystrpalaasnthrlysarghisleutyrvalleuasp
545550555560
leutyrserglycysglyglyleusergluglyleuaspthraspser
565570575
aspargleugluileserthrargtrpalavalasptyralaalaasp
580585590
metalaalathrpheargalaasnpheproargalaalamettyrasn
595600605
thrglythraspglupheleuleumetcyslysleupheargserleu
610615620
tyrglntyrtyrvalthrglntrpalaglyproglyserproleupro
625630635640
proglygluproglyalaproproglyhisargvalleuargasparg
645650655
thrasnglyglyasnserargaspaspaspvalalaproargleugly
660665670
leugluleugluglnasphisproglucyshisproglyalalysala
675680685
glythrglyglylysalaglyglyglyglylysalaalaargglyala
690695700
alaserglyilevalargaspproserproleuglyglyaspalatyr
705710715720
glyargaspglugluasplysgluglyvalvalasptyrilealaasp
725730735
ilelysleuvalaspargglyglnargglythralaglyglnglnlys
740745750
glyasnleuleuargproleuglyglnalagluglygluleuleuphe
755760765
leuvallystrpargglymetprohisserargalathrtrpgluarg
770775780
leusersermetglnhisvalprohislysleuarglyspheleuphe
785790795800
trpcyshisserserlyslysileproleuproglyaspvalglyval
805810815
ilethrglyglyproprocysglnglyileserglyleuasnarghis
820825830
alaglnargserglyvalleuseraspserargasnargglnleuser
835840845
alatyrpheglualavalglutyrpheargproalatyrvalleumet
850855860
gluasnvallysaspilepheserlysgluaspglyleutyralalys
865870875880
alaalaglnalagluleuleuargleuhistyrglnthrargilegly
885890895
ileileseralaglyaspglnglyalaproglnglyargtrpargcys
900905910
phephetrpglyalalysserglyglugluglnleuproprophepro
915920925
glyproserhisglnproilethrpheasplysalaleuproleuglu
930935940
alaglnleutyrcysglnvallysvalglugluglnarggluglygln
945950955960
proproargglnleuleuproglythrleuleuglyaspserleuser
965970975
aspleuprogluvalthrasnphecysalalysgluhisalaargtyr
980985990
thrarggluproaspargprotyrglnalaleumetargargasppro
99510001005
glnhistrpglnthrserargglugluargasnargleualaarg
101010151020
glualametglnaspasptyrargglnasnasnglnalathrval
102510301035
aspthrvalglumetleuasnalaglnglnproglyleuglyphe
104010451050
vallysleuglytyrthrtyrphecysglylyssertrpproval
105510601065
valargleuglyglylysasnglylysglylysglnvalvalval
107010751080
glyglyglyglyargglnglnargglyvallysargseralaala
108510901095
glyglycysseralaalaalaglyhisgluglnglugluaspglu
110011051110
aspglugluaspaspglugluaspserseraspaspaspaspglu
111511201125
aspaspglugluglualaglygluaspalagluglugluglyleu
113011351140
prolysglyserthrlysgluglnglnlysglnglulysaspphe
114511501155
alaargglnvaltrpleualaalavallysgluilealaalathr
116011651170
glnglyprohisalaalaalaleualaglnvalglumetalaala
117511801185
serarghisalaleualatrpalaleuglyvalglnvaltyrlys
119011951200
gluleuilealaalaleuglugluproaspcysalaproleuarg
120512101215
asphisargproleucysvalasnalaaspasptyrleuargcys
122012251230
alaalavalprothrhislysglyalaasnpheargaspmetlys
123512401245
glyvalvalthrhisserglyglyglucyscysalaglyhisthr
125012551260
hisprohisserlysserglyglyglyserlysglythrlysleu
126512701275
valcysproglyglyglythrphetrptyralalysproserthr
128012851290
lyslysserserargvalasphishisasplysileglygluarg
129513001305
valthrhislysaspglycysaspalaargleupheleuleuala
131013151320
thrglyaspleuleucysproargtrpcysilethrtyrlyslys
132513301335
glyasnserasnglyarghisglycyspheglyargleutrphis
134013451350
aspgluileglnprothrvalvalglyargvalgluprohisasn
135513601365
leulysvalvalhisprotrpglnaspargvalvalthrmetarg
137013751380
gluasnmetargcysglnglypheproasptyrphevalleuval
138513901395
glyleuserlysalaasnalaglyhissertrpvalargasnala
140014051410
serphelysglnargtyrglnglnileglyasnalavalcyspro
141514201425
leuvalalaglyalaleuglyargcysleualaleualaalaleu
143014351440
glyglualaaspserserargphevalleuhisvalproasppro
144514501455
gluleugluargvalhisaspleualaalathrargglytrplys
146014651470
thrtyralaglnglualaglyleuleuproserglyvalglygly
147514801485
glyleuglyargglyleuhisargserglyservalglnglyser
149014951500
glymetasnleuhisleuserserserserserleuglyglygly
150515101515
leuglyserserglyleuglyglyglyleuglyglyserglyleu
152015251530
glyaspglyserglyglyargglyserthrglyalaglyalaala
153515401545
glyglyglyglnalagluglugluleuthrleualaleugluleu
155015551560
serglyaspglyaspgluaspglyglugluaspgluaspglyglu
156515701575
gluaspgluaspglyaspglyglugluglygluglugluproarg
158015851590
glyglyaspglyserglygluseraspvalaspgluaspgluser
159516001605
aspleugluasp
1610
<210>29
<211>4839
<212>dna
<213>oocystissp.
<220>
<221>misc_feature
<223>emre3eukt2030386,seqid28的编码序列
<400>29
atggcgtccaagcaatgcgccaactccagcggacaagtggcggcaggtcgcggcgccgca60
tcggcgttcgaagctgcagcagcagcaagtgggagtgatgccagcggaagcaatgtgccg120
ctgccgatgccccgagtgcccagcttgctgtccaaggtgatgacactgggaggccaagcg180
ctgtccaaggtagtagggagcccagcacgctgcggcagcgcatcctcggcagaaccagca240
gggtcggcagcccctattgcgttggagcctgccaccagcacccaggcctccagcccagag300
cagtgtcctgggcgggcagccaagcgcaaggccgccgagcgcatctcaggcgaagcggcc360
accaccgccgctctgttcccaagcggcagcgtccctggctcctcgcctcgtaagcgccgc420
caccggcccggggccggggccgctggcgaagagggtcaggcccagggtcaggcccagggt480
caggcccgcccccctcgggcccctcacgcaaaccgggccgccgccgccacacgccgtgcc540
gcacaacagcagcagcagcagcagcagcagcagcagcagcaggatgatgtctggtgtgat600
gaggacggcaccgctgctgccggcgggccctgctggaccgtgccgcaggtggagcgcagg660
ctcaaggagacgccgtcctggtttaaggcggaggacgacaacgacgagtacctgcccgag720
cagtacatggaccagcggtaccgcgccctgggcggcccggccggggtggcgttcatggcc780
tgccattggctggacagggaagtggcggggtacacgtggggtgcacgcatatccaaggac840
gaagcgcagcgcaggtggccaaaccgtgcaatgtgcgagtgcagcgctgctacagtgaaa900
gagcacatctccaagcgaatgagccgggaggggggaaagcctaccgacgagcacttttgg960
gactttgccacgcatggcgcgttccctgccatggcgcactttgaggaggtgaccatccgc1020
agggaaggcgagcagccattcacggcgcgtctgggcgataacatcgagctcgactccagc1080
gaccagctcctggaggggcacctgcagcggctggggattagcaggcagcagctggcgggg1140
atggacccacaggacaggccatcgaccaaatgggtcatgcaggtcgacgagctgttccag1200
gacattacggggcagagggtagtgtccgggacctggtactactctccccgccacaccgcc1260
atcatgtgcgagccctctcgtcgcgtgaccaaggccaaggcagcaacggcagcctcgaaa1320
aacgcggtgggcaagacaagcacccagggcggtcatgagagcggagagggggaggaggag1380
gatgcggaggaggaggaatatcctggctatgtccccgttgactttgacccgcggctgctg1440
ttccgggcgactgtgtgggacaacgagcggtacggcatgacagatcagctactggaggtg1500
gtggagagggtggtgaccgtcggcgatgccgtgcccggcaagccacccccggaggactgc1560
gattactactgctccatggtgcacgaccgcaggcactacacctttgctgactccgtcacc1620
gaccagccgccttcaaaggccaagtgggcgaacacgaagcggcacctgtacgtgttggac1680
ctgtactcgggatgcggcggcctgtccgaggggctggacaccgactccgaccgactggag1740
atcagcacgcggtgggcggtcgactacgccgctgacatggcggccaccttcagggccaat1800
ttcccccgggccgcgatgtacaacacgggcacggacgagttcctgctgatgtgcaagctg1860
ttccgctccctgtaccagtactacgtgacgcagtgggccgggccgggcagcccgctgcct1920
cccggggagcccggagccccccctggccacagggtgctgcgggaccgcaccaacggcggc1980
aacagccgcgacgatgatgtggcgcccaggctgggcctagagctggagcaggaccaccct2040
gaatgccacccgggcgccaaagcgggcactggaggcaaggcgggcggtggaggcaaggcg2100
gcaaggggggccgccagcggcattgtcagagacccgtctcccttggggggagatgcttac2160
ggcagggacgaggaagataaagagggcgtggtggactacatcgctgacatcaagctcgtg2220
gaccggggccagcgcggcactgcagggcagcagaagggcaacctgctccgccccctcggt2280
caggccgagggtgagctgctgttccttgtcaagtggcgtggcatgccccactctcgcgcc2340
acatgggagcgcctgtcaagcatgcagcacgtgccgcacaagctgcggaagttccttttc2400
tggtgccacagctccaagaagatcccgctgcccggcgacgtgggtgtcatcacgggcggg2460
ccgccctgccagggcatcagcggcctcaaccgccacgcgcagaggagcggcgtgctcagc2520
gacagcaggaaccgccagctcagcgcgtactttgaggcggtggagtacttccgtcccgcg2580
tacgtgctgatggagaacgtcaaagacatattcagcaaggaggacggtctgtacgcaaag2640
gccgcgcaggcggagctgctgcggctgcactaccagacgcgcatcggcatcatctctgca2700
ggcgaccagggcgcgccgcagggtcgctggaggtgcttcttctggggcgccaagagcggc2760
gaggagcagctgccgcccttcccggggccaagccaccagcccatcaccttcgacaaggct2820
ctgcccctggaggctcagctgtactgccaggtcaaggtggaggagcagcgggaggggcag2880
ccgcccaggcagctgctgccagggacgctgctgggcgacagcctgagcgacctgcccgag2940
gtgaccaacttctgcgccaaggagcacgcccgctacaccagggagccggacaggccctac3000
caggcactcatgcgcagggacccgcagcactggcagacctccagggaggagcgcaacagg3060
cttgcgcgtgaggccatgcaggatgactacaggcagaacaaccaggcaacggtagatacg3120
gtagagatgctcaacgcacagcaaccaggcctgggcttcgtcaagctgggctacacctac3180
ttctgcgggaagagctggccagtcgtacgcctgggcggcaagaacggcaagggcaagcag3240
gtcgtggtgggaggaggcggcaggcagcagaggggcgtcaagcgctcggcggctggaggg3300
tgctcggcggcggcgggccacgagcaggaggaggacgaggatgaggaggatgacgaggag3360
gattccagcgacgacgatgacgaggatgacgaggaggaggcgggagaggacgcggaggag3420
gaggggctgcccaaggggagtaccaaggagcagcagaagcaggagaaagactttgcgcgg3480
caggtgtggctggctgctgtcaaggagattgccgccacccagggcccgcacgctgccgcc3540
ctggcacaggtggagatggcggcatccaggcacgcgctggcctgggcgctgggcgtacag3600
gtgtacaaggagctgatcgctgcgctggaggagcccgactgcgcgccgctgcgcgaccac3660
cgccccctgtgcgtcaacgcggatgattacctgcgctgcgcggccgtgcccactcacaag3720
ggggcaaacttccgcgacatgaagggggtcgtcacgcacagcggcggcgagtgctgtgct3780
ggtcacacgcacccgcactccaagtccggcggcggcagtaagggcaccaagctggtgtgc3840
cccggtggtggcaccttttggtacgccaagccatcgaccaagaagagcagcagggtggac3900
caccacgacaagatcggcgaacgagtgacgcacaaggacggctgcgacgctcgcctgttc3960
cttctcgccacgggcgacctgctgtgcccgcgctggtgcatcacctacaagaagggcaac4020
agcaacgggcggcacggctgcttcggccggctgtggcacgacgagatccagcccacggtg4080
gtcgggcgggtggagccgcacaacctcaaggtggtgcacccctggcaggacagggtggtg4140
accatgcgggagaacatgcggtgccagggcttcccggactactttgtgctggtcggtttg4200
agcaaggcaaacgcgggccacagctgggtgcgcaacgcctccttcaagcagcgctaccag4260
cagatcggcaacgcggtgtgcccgctggtcgcgggcgccctgggccgatgcctcgccctg4320
gcagccctgggcgaggctgactcgtccaggtttgtactgcacgtgccggaccccgagctg4380
gagagggtgcacgatctggcggccaccagggggtggaaaacgtatgcacaggaagcgggg4440
ctgctgcccagcggcgtgggtggcggcctgggcagaggcctgcatcgcagcggcagcgtc4500
cagggcagcggcatgaacctgcacctcagcagcagcagctccctgggcggtggcctgggc4560
agcagcggcctgggcggtggactgggtgggagcggcctgggcgacggcagtggtgggcgt4620
ggcagcaccggggcaggggcagccgggggtgggcaggcggaggaggagctgacgctggca4680
ctcgagttgtctggggatggggatgaggatggggaggaggatgaggatggggaggaggat4740
gaggatggggatggggaggagggcgaggaggagccacgcggcggtgacggcagcggtgag4800
agtgatgtcgacgaggacgagagtgacttggaggactga4839