一种植物植原体基因组的测序方法与流程

文档序号:16645797发布日期:2019-01-16 08:15阅读:1360来源:国知局

本发明涉及基因测序技术领域,特别是涉及一种植物植原体基因组的测序方法。



背景技术:

植原体是一种特殊的多形性无细胞壁的细菌,寄生在植物的韧皮部筛管中,可以通过昆虫进行传播,引起世界范围内数百种植物发生病害,其中包括一些重要的经济作物,如小麦,玉米,花生等,造成巨大的经济损失。此外,许多由植原体引起的新疾病正在出现,因此,开展植原体基因组的研究是有必要的对于分析植原体的遗传进化和致病机理有重要意义。到目前为止,世界范围内在近400余种植原体中仅报道了用脉冲电泳等方法绘制的6种植原体完整的基因组序列:‘ca.p.asteris’洋葱黄化植原体(oy-m),翠菊黄化丛枝植原体(ay-wb),玉米簇生植原体m3,‘ca.p.mali’苹果簇生植原体(at),‘ca.p.australiense’澳大利亚葡萄黄花植原体(paa)和草莓致死黄花植原体(sly)。此外,还绘制了16sriii组中的x疾病植原体、花生丛枝植原体、‘ca.p.pruni’植原体(cx)和16sriii-j组的紫松果菊丛枝植原体的基因组草图的绘制工作。

已有的基因组研究分析表明,植原体的基因组普遍较小,其范围为530至1,350kb,其dna的g+c含量非常低,在23.0-29.5%范围内。此外,这些植原体之间存在相当大的差异,在已发表的完整基因组中最小的是at,其基因组大小仅为602kb,且其染色体是线性组成的,而其他已发表的基因组是圆形的,at和其它植原体之间存在显着差异。与植原体相关的质粒首先在玉米丛生植原体中报道。直到最近,已经报道了23种来自各种植原体菌株的质粒并进行了测序。来自不同植原体的这些质粒,不仅在数量上有很大差异,而且在大小上也有很大差异。而现有技术中还未对泡桐丛枝植原体以及它的遗传需求、基因组特征和进化关系有足够的了解。由于植原体不能在无细胞的人工培养基上培养,所以难以制备和纯化足够量的植原体dna用于基因组测序,因此,植原体基因组学测序受到限制,因此植原体基因组的获取手段很大程度上取决于与其宿主dna的分离技术。

因此,提供一种植物植原体基因组的测序方法,对泡桐丛枝植原体进行测序,并对该病原菌与泡桐丛枝相互作用的信息进行了分析是本领域技术人员亟需解决的问题。



技术实现要素:

有鉴于此,本发明首次得到了泡桐丛枝植原体的基因组,并通过泡桐丛枝植原体的基因组对该病原菌与泡桐相互作用的信息进行了分析,不仅有助于增加了解植原体基本代谢途径的信息,而且为更全面披露植物植原体大基因组奠定基础。

为了实现上述目的,本发明采用如下技术方案:

一种植物植原体基因组的测序方法,其特征在于,包含以下步骤:

(1)获取富含植原体的白花泡桐组织培养幼苗茎

在培养基上培养含有植原体的泡桐丛枝幼苗,每天25-29℃、130μmol·m-2s-1光照,14-18小时周期条件下培养28-32天,后收获幼苗的嫩茎段,在液氮中冷冻后,储存在-80℃冰箱;

(2)白花泡桐和植原体基因组的dna混合物分离提取;

采用ctab法提取白花泡桐和植原体的混合基因组dna,并在od260/280和od260/230的吸光度值下评估dna样品的纯度,并检测dna的完整性,最后纯化dna样品,并将dna保存在-80℃以备后用;

(3)白花泡桐和植原体基因组的dna混合物测序;

用g-tube中断富含所述植原体的白花泡桐基因组dna,并富集和纯化dna片段,然后对片段化的dna进行损伤修复和末端修复;

采用连接酶将dna片段两端与接头连接;未能连接的dna片段用外切酶切除,然后对连接产物进行纯化,同时采用试剂盒对文库进行评估,最后将dna模板和酶的混合物,进行实时单分子测序;

(4)植原体基因组测序数据的处理、统计和组装;

在测序数据中去除接头和低质量读长得到高质量读长,同时去除与寄主泡桐相似的读长;

然后将高质量读长进行组装,先将长读长用作种子纠正短读长,其中大于8366bp的读长作为长读长,小于8366bp的读长作为短读长,再对用作种子的高质量读长进行组装;最后,将原始数据与组装的参考序列进行比对,并对组装后的结果进行优化和校正;

进行测序深度分析,去掉覆盖深度低于100.00x的低深度重叠群,连接其余的重叠群;组装后,将原始数据与组装的参考序列比对,计算参考序列的覆盖深度和百分比;

(5)对白花泡桐和植原体的转录组进行测序,验证基因组的可靠性。

优选的,步骤(3)用1x磁珠富集和纯化dna;

优选的,步骤(4)中连接其余的重叠群,组装后,将原始数据与组装的参考序列比对以计算参考序列的每个可能的覆盖深度和百分比,故可以评估装配的完整性和排序的一致性;

其中,本发明获得总碱基数为2,853,395,086bp,高质量读长295,269条,平均长度是9,663bp,n50读长长度为12,569bp;过滤掉白花泡桐基因组后,得到植原体的32,596条读长,总碱基数为272,697,220bp,读长的平均长度为8,336bp,n50读长的长度为11,497bp,最长读数为54,019bp。

本发明通过对植原体基因组测序数据的处理、统计和组装可以评估装配的完整性和排序的一致性,并对白花泡桐和植源体的转录组进行测序,验证基因组的可靠性,本发明克服了由于细菌只能在细胞中培养,难以制备和纯化足够量的植原体dna用于基因组测序,而使得大规模的植原体基因组测序工作受到了限制的技术障碍,本发明首次获得了泡桐丛枝(pawb)植原体的基因组,为分析植源体遗传禀赋和致病机制提供了有力工具。

进一步的,步骤(2)中,ctab法提取泡桐丛枝和植原体的混合基因组dna的方法为:将样品研磨成粉末,吸取65℃预热的ctab1000μl加入含有0.1-0.2g研磨好的样品的离心管中,充分混合,再加入等体积的溶液混合物一充分混合后离心;吸出液体上清液再加入等体积的溶液混合物二,充分混匀后离心;再吸出液体上清液,加入1/10体积3mol/l的naac,ph5.2和2.5倍体积的无水乙醇轻轻搅拌均匀;离心后弃去液体上清液;加入70%乙醇,冲洗dna沉淀物,然后离心弃去上清液;最后将dna干燥后加入无菌双蒸水再加入rnaase,37℃,保持30分钟。

进一步的,溶液混合物一为体积比分别为25:24:1的苯酚、氯仿和异戊醇混合物。

进一步的,溶液混合物二为体积比分别为24:1的氯仿与异戊醇混合液。

进一步的,步骤(4)中,对所述高质量种子读长组装的方法为:对所述高质量种子读长,采用olcassemblyalgorithm软件进行组装。

进一步的,步骤(4)中,所述低质量读长为除接头外,未知碱基比例大于10%的读长和质量值小于10的碱基数占整条读长的50%以上的读长。

经由上述的技术方案可知,与现有技术相比,本发明提供了一种植物植原体基因组的测序方法,具有如下技术优点:

本发明先采集了富含植原体的白花泡桐组织培养幼苗的嫩茎;并对白花泡桐和植原体的dna混合物进行了测序,然后过滤掉与白花泡桐基因组一致的读长,以获得纯植原体序列;最后对白花泡桐和植原体的转录组进行测序,验证了基因组的可靠性。通过上述方法,克服了难以制备和纯化足够量的植原体dna,用于基因组测序的技术障碍,获得了泡桐丛枝(pawb)植原体的基因组,为分析植原体遗传禀赋和致病机制提供了有力工具,不仅有助于增加了解植原体基本代谢途径的信息,而且为更全面披露植物植原体大基因组奠定基础。

具体实施方式

下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

获取富含植源体的泡桐丛枝组织培养幼苗茎

在100毫升三角形烧瓶中的1/2ms培养基上,均匀培养的受植原体感染的p.fortunei(白花泡桐)幼苗30天。泡桐丛枝在29℃、130μmol·m-2s-1光照下每天培养16小时,30天后剪取幼苗嫩茎,然后随即将幼苗嫩茎在液氮中冷冻,并储存在-80℃。

实施例2

白花泡桐和植原体基因组的dna混合物分离提取

用液氮将受植原体感染的白花泡桐幼苗茎研磨成粉末,后将1000μlctab65℃加入0.1样品粉末中并充分混合,并置于60℃水浴中50分钟,每10分钟上下震荡一次。

加入1000μl的溶液混合物一(体积比分别为25:24:1的苯酚、氯仿和异戊醇混合物),充分混匀3分钟,然后在25℃,1,2000r/min离心1min。弃上清,并加入约900μl的溶液混合物二(体积比分别为24:1的氯仿与异戊醇混合液),充分混匀,然后在25℃,1,2000r/min离心15min。弃上清,加入1/10体积的naac(3mol/l,ph5.2)和2.5倍体积的无水乙醇轻轻摇匀,弃去上清液,然后在25℃,1,2000μ/min离心15min。弃去上清液,加入500ul70%乙醇,冲洗泡桐丛枝和植原体的dna沉淀物,然后在25℃,1,0000r/min离心10min。再次重复此步骤。弃上清液。将dna干燥20分钟,并加入40ul无菌双蒸水溶解dna。然后加入1μlrnaase,37℃消化30分钟。在od260/280和od260/230的吸光值下评估dna样品的纯度,并通过1%琼脂糖凝胶电泳检测dna的完整性。用1x磁珠纯化dna样品,然后再次检测其浓度。将dna保存在-80℃以备后用。

实施例3

用g-tube(covaris,woburn,ma,usa)随机中断白花泡桐和植原体的dna。再用1x磁珠富集和纯化片段化dna,然后对片段化的dna进行损伤修复和末端修复。采用连接酶将dna片段两端与接头连接;未能连接的dna片段用外切酶切除,然后对连接产物进行纯化,同时采用试剂盒对文库进行评估,最后将dna模板和酶的混合物转移到测序仪的纳米孔中,进行实时单分子测序。

实施例4

在从原始测序数据中去除接头和低质量读长之后,得到了高质量读长。为了去除与宿主序列相似的读长,将高质量读长与p.fortunei的基因组对齐。其余的高质量读长用hgap2.3.0(https://github.com/pacificbiosciences/bioinformatics-training/wiki/hgap)组装。长读长用作种子,使用blast对其进行校正以纠正短读长。采用olcassemblyalgorithm软件对高质量种子读长进行组装。最后,将原始数据与组装的参考序列进行比对,使用quiver软件对组装后的结果进行优化和校正。之后,进行测序深度分析,去掉低深度的重叠群,用minumus2软件连接其余的重叠群。组装后,将原始数据与组装的参考序列比对以计算参考序列的每个可能的覆盖深度和百分比。因此,我们可以评估装配的完整性和排序的一致性。

采用nanodrop测定dna样品的纯度和浓度。当a260/a280在1.8-2.0之间,a260/230在2.0-2.2之间,dna质量比较高,可以用来构建文库。采用nanodrop和qubit确定文库序列的浓度和长度。随后利用三个smart细胞对dna进行测序。测序数据下机后,来自pacbiorsii的数据以h5格式保存。过滤适配器并删除低质量数据。获得的cleandeta的文件以fastq格式保存,其中有序列信息和相应的质量值。去除低质量读长(除接头,未知碱基比例大于10%的读长和质量值小于10的碱基数占整条读长的50%以上读长),获得总共总碱基数为2,853,395,086bp,高质量读长295,269条,平均长度是9,663bp,n50读长长度为12,569bp;过滤掉白花泡桐基因组后,得到植原体的32,596条读长,总碱基数为272,697,220bp,读长的平均长度为8,336bp,n50读长的长度为11,497bp,最长读数为54,019bp。

本发明首次得到了泡桐丛枝(pawb)植原体完全测序的基因组,植原体基因组大小的变异可能与pmus的数量和大小有关,这在pawb和其他三种'ca.phytoplasmaasteris'分离物(包括oy-m,ay-wb和m3)的比较中是明显的。三种与pmu无关的基因的比较显示,七种分离物在核苷酸水平上的差异至少为4%-5%。相比之下,oy-m,m3和ay-wb('ca.phytoplasmaasteris'成员)之间比较相似基因,显示差异小于1%。基于相似基因的数量,pawb植原体和oy-m关系最密切。

与其他六种植原体相比,pawb植原体编码414种株系特异性基因,其中大多数编码蛋白是未知功能的假设蛋白质,orf01255-1065的确切功能在pawb中未知。然而,它在基因组上的位置很特异,其上游是溶血素样蛋白(orf01247-1058),它可以整合dna作为噬菌体整合酶样元件。它们也是潜在的毒力因子。其下游是abc转运蛋白(orf01287-1089、orf01290-1092和orf01291-1093)。这表明orf01255-1065不仅可以作为看家基因,它可能具有作为毒素受体的第二功能进行囊泡运输或作为位点特异性重组因子可与abc样亚精胺/腐胺结合转运蛋白相互作用。

实施例5

利用glimmer(genelocatormodeler)软件3.02用于预测基因结构和基因长度。trnascan-se-se1.23和rnammer1.2分别用于预测trna和rrna.trf(tandemrepeatsfinder,v4.04)软件用于预测串联重复序列。根据重复单元的长度和数量筛选出microsatelliteandminisatellitednas.misa软件(http://pgrc.ipk-gatersleben.de/misa/misa.html)用于预测ssr(简单序列重复)序列。

使用四个公共数据库ncbinr(ncbi非冗余蛋白质序列数据库),swiss-prot,go(geneontology)和kegg(kyotoencyclopediaofgenesandgenomes)对基因组的基因进行功能注释。

tmhmmserverv.2.0软件(http://www.cbs.dtu.dk/services/tmhmm/)用于预测膜蛋白.signalp4.1(http://www.cbs.dtu.dk/services/signalp/)软件用于预测蛋白质的信号肽。

实施例6

对白花泡桐和植原体的转录组进行测序,验证基因组的可靠性

将pawb感染的p.fortunei样品命名为pfi。研究中发现用60mg·l-1甲基二甲基磺酸盐(mms)处理15天后,感染的白花泡桐变成了健康的表型,并且在植物中没有检测到植原体。为了研究在这个过程中发生在植原体上的变化情况,进行了mms处理和植原体感染的白花泡桐幼苗的转录。然后用60mg·l-1mms处理样品并命名为pfi0。在ms培养基中分别培养5天、10天和15天后,这些样品分别称为pfi5,pfi_10和pfi_15。选择pfi0,pfi5,pfi_10和pfi_15幼苗用于rna测序。

使用trizol试剂提取总rna,总rna量和纯度分析用bioanalyzer2100软件和rna6000nanolabchipkit试剂盒检测,大约10μg,经受分离的poly(a)mrna与聚-t寡聚物附着的磁珠纯化后,在升高的温度下使用二价阳离子将mrna片段化。然后根据基于illuminarna连接的方法(illumina)的方案将切割的rna片段构建到最终的cdna文库中。其中片段化的rna在3'末端被磷酸酶去磷酸化,并在5'末端被pnk磷酸化,使用rneasyminelutekit(qiagen)清洁处理过的物质,将纯化的rna与预腺苷酸化的3'衔接子连接,这使得随后的5'衔接子连接成为可能。基于接头序列进行逆转录,然后用pcr产生cdna构建体。且成对末端文库的平均插入大小为300bp(±50bp)。然后在lcsceiences的illuminahiseq2000/2500上进行单端测序。

将含有接头序列、具有低质量序列的标签和未知核苷酸n的原始数据过滤,以获得长度为36nt的高质量读长。然后将高质量读长进行质量评估。这些包括总读长和不同读长的分类,并显示它们在文库中的百分比,分析的文库饱和度和生物学重复的相关性。所有过滤后的标签都被bowtie映射到转录序列,只有1bp不匹配是允许的。为了监测两条链上映射事件,这些和互补的反义序列都包括在数据集合中。计算对应于每个基因的完美高质量读长,并将其标准化为外显子模型库百万映射读数(rpkm)的每千克碱基读数。基于表达水平,不同样品中的显着degs(差异表达基因)用p值≤0.05和log2倍数变化(log2fc)≥l。通过使用常见的perl和r脚本来执行des的集群。进行基因本体论(go)用于dge的功能分类,并且使用kegg进行途径分析。

本发明提供了一种植物植原体基因组的测序方法,先采集了富含植原体的白花泡桐组织培养幼苗的嫩茎;并对白花泡桐和植原体的dna混合物进行了测序,然后过滤掉与白花泡桐基因组一致的读长,以获得纯植原体序列;最后对白花泡桐和植原体的转录组进行测序,验证了基因组的可靠性。通过上述方法,克服了难以制备和纯化足够量的植原体dna,用于基因组测序的技术障碍,获得了泡桐丛枝(pawb)植原体的基因组,为分析植原体遗传禀赋和致病机制提供了有力工具,不仅有助于增加了解植原体基本代谢途径的信息,而且为更全面披露植物植原体大基因组奠定基础。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1