一种环境微生物基因组草图的构建方法

文档序号:9645784阅读:931来源:国知局
一种环境微生物基因组草图的构建方法
【技术领域】
[0001] 本发明涉及一种改进的宏基因组文库构建方法、宏基因组的生物信息学分析流程 方法,属于新一代测序技术、宏基因组、数据统计、生物信息分析技术领域,特别涉及无参考 基因组的序列组装分类,以及环境微生物基因组草图的绘制。
【背景技术】
[0002] 微生物是自然界中种类最丰富,数量最庞大的生命形式,包括病毒、细菌、古细菌、 真菌、单细胞藻类及原生动物等。微生物与人类活动关系密切,在环保、能源、食品加工、医 疗卫生领域发挥重要的影响。利用现代分子生物学技术,已经有三千余种微生物全基因组 被构建出来(NCBI),然而还有更多的微生物仍不为人所知,尤其是极端环境微生物和不可 培养微生物(Unculturablemicrobe)D宏基因组学(Metagenomics)将环境样本作为一个整 体,不依赖于微生物分离和纯培养,为环境微生物研究提供了新的思路【HugenholtzP, TysonGW.Microbiology:metagenomics[J] .Nature,2008,455(7212) :481-483.】D常规的 宏基因组学方法主要基于16srRNA或鸟枪法测序,分别从系统发生学(phylogenetics)和 基因种类、丰度、功能的角度对环境微生物进行阐述。宏基因组学大大提升了人类对于自然 界中微生物种群与功能的认识,多个重要的数据库被建立起来,为后续研究和应用提供了 基石出【QinJ,LiR,RaesJ,etal·Αhumangutmicrobialgenecatalogueestablished bymetagenomicsequencing[J].nature,2010,464(7285):59-65;HumanMicrobiome ProjectConsortium.Aframeworkforhumanmicrobiomeresearch[J].Nature,2012, 486(7402):215-221;LiJ,JiaH,CaiX,etal.Anintegratedcatalogofreference genesinthehumangutmicrobiome[J].Naturebiotechnology,2014,32(8):834-841.】。但是,目前宏基因组学仍然没有解决的核心问题是,人们还不能从宏基因组测序获 得的序列信息中直接分析组装出不同个体微生物的基因组序列信息。虽然研究人员采用不 同的实验手段和分析策略以重建环境微生物的全基因组,并获得了一定的成效【WangY, LeungHCM,YiuSM,etal.MetaCluster5.0:atwo-roundbinningapproachfor metagenomicdataforlow-abundancespeciesinanoisysamp1e[J] ?Bioinformatics,2012,28(18):i356_i362;NielsenHB,AlmeidaM,JunckerAS,et al.Identificationandassemblyofgenomesandgeneticelementsincomplex metagenomicsampleswithoutusingreferencegenomes[J].Naturebiotechnology, 2014,32(8):822~828;RinkeC,SchwientekP,SczyrbaA,etal.Insightsintothe phylogenyandcodingpotentialofmicrobialdarkmatter[J].Nature,2013,499 (7459):431-437;ChitsazH,Yee-GreenbaumJL,TeslerG,etal.Efficientdenovo assemblyofsingle-cellbacterialgenomesfromshort-readdatasets[J].Nature biotechnology,2011,29(10) :915-921.】,但宏基因组中大量微生物物种的基因组信息仍 不很完整,无法从物种(species)的层面解释物种与物种,物种与环境间的相互作用关系。

【发明内容】

[0003]本发明的目的在于提供一种从环境微生物菌群样本中构建无参考基因组的微生 物基因组草图的方法。利用新一代测序技术产生的短序列,准确高效地进行组装与分类,从 土壤、空气、水体、人体等各种环境样本中获得微生物基因组。这种方法可用于疾病、环保、 食品加工等方面的研究。
[0004]本发明主要涉及二个部分:一是提出一种宏基因组测序文库的构建方法,二是基 于该文库构建方法的生物信息学分析方法。本发明提出的文库构建方法为:通过正常宏基 因组样本采集方法获得被分析的环境微生物样本,通过梯度稀释适当降低样本微生物群落 的复杂度,形成3个以上的微小宏基因组样本,每个样本中的微生物数量小于1000个;对于 每个微小宏基因组样本,分别进行核酸分离,扩增,构建高通测序文库。本发明提出的生物 信息学流程包括对测序数据进行过滤、从头组装(de novo assembly)、开放阅读框(open reading frame,0RF)预测,使用基于隐马尔科夫模型(hidden Markov model ,ΗΜΜ)的算法 将序列分类,获得微生物基因组草图(draft genome),并可在此基础上进一步优化。
[0005]具体的,本发明的技术方案如下:
[0006] -种环境微生物基因组草图的构建方法,包括以下步骤:
[0007] 1)采集环境微生物样品,根据下述公式1确定单次测序平行实验所需的细胞数N及 平行实验的次数X:
[0009]其中,α为某物种在样品中的相对丰度的预估值。将α代入公式求解,得出在使用N个细胞进行全基因组扩增测序,共进行X次平行实验的条件下,可使相对丰度为α的物种在 实验中重复出现5次以上,得到基因组覆盖度>80%的基因组草图。
[0010] 2)米用多重置换扩增(multiple displacementamplification,MDA)技术对微生 物样品进行全基因组扩增测序,共进行X次平行实验,每次实验使用的细胞数为N;
[0011] 3)对测序数据进行分析:首先构建微生物群落非冗余基因集;然后将非冗余基因 集中的基因序列与微生物基因组数据库(NCBI_Bacterialgenomes)进行比对,判定其中的 已知微生物种类;最后通过contig聚类获得微生物基因组草图。
[0012]在步骤1)中,根据研究对象的不同可选择不同的方法对α进行预估。如:某微生物 之前已有研究,在环境中的相对丰度曾有文献报道,即可根据参考文献进行预估;又如:研 究对象为未知物种,可使用荧光探针标记+流式细胞数,或常规染色+显微计数等方式进行 估算。如果以上方法都不可实现,直接进行假设即可。这个值只是对能够从环境样品中得到 基因组草图的物种丰度下限的一个预设值,不需要太准确,数量级合适即可。
[0013]上述步骤1)针对不同类型的样本采取不同的采集方式,以获得尽可能完整的微生 物群落样品。例如:对于固体样本,取适量样本用磷酸缓冲液悬浮,低速离心(通常低于 4000rpm),取上清;对于水体样本,取适量样本低速离心,弃上清,沉淀用磷酸缓冲液重悬; 对于空气样本,将空气样本采集器的滤网或滤膜取下,用磷酸缓冲液冲洗,低速离心,取上 清。
[0014]上述步骤2)就是对X个微小宏基因组进行微生物全基因组扩增测序,每个微小宏 基因组样品的细胞数为N。在本发明的实施例中利用REPLI-gSingleCellkit(QIAGEN, USA.商品编号150345)对微生物样品进行全基因组扩增,扩增产物使用NEBNextDNA文库制 备试剂盒(NEB,USA.商品编号E6040L)构建X个index测序文库,在IlluminaHiseq2500测序 仪上进行测序。要求每次测序实验的数据量不低于2Gb。
[0015]上述步骤3)中,所构建的微生物群落非冗余基因集要满足如下标准:(i)任意基因 间不能满足聚类条件;(ii)冗余基因集中的任意基因都可以在非冗余基因集中找到同源基 因来代表。具体构建方法是:首先对测序数据进行质量控制,包括去除接头序列,过滤掉双 端reads平均质量值〈20的序列,截掉序列两端碱基分布波动大于30%的部分,对于来自宿 主的样品过滤掉宿主序列;然后进行无参考基因组组装,组装采用多kmer值并行,选取最佳 组装结果,得到contig序列;接着对contig序列进行基因预测,得到基因序列,并通过同源 比对,获得基因序列的两两间相似度;对基因序列进行聚类去冗余,得到非冗余基因集。优 选的,聚类条件为:基因间重叠长度大于等于90%且blast同源比对相似度大于等于95%。 [0016]上述步骤3)中,进行已知微生物种类的判定的条件为:(a)某已知物种2X以上深 度的基因组覆盖度不低于20% ; (b)测序序列连续覆盖的最长片段在18~22Kb范围内;(c) 该物种在X次平行实验的数据中至少有2次满足前两个条件。符合以上条件的微生物可认为 在原始样本中真实存在。
[0017]上述步骤3)中,通过contig聚类获得微生物基因组草图的方法是:选取非冗余基 因集中的特定基因,以之为节点,采用基于隐马尔科夫模型的算法将contig进行聚类,得到 属于不同微生物的contig簇,满足一定标准的contig簇即为微生物基因组草图。具体包括: 首先,确定基因和contig的对应关系,即某个基因来源于哪条或哪几条contig;然后,选定 种子基因,所述种子基因应当满足的条件为:(i)在1条以上的contig中存在;(ii)保守度大 于0.8; (iii)长度大于1Kb;接着,随机选择一个种子基因进行第一轮contig聚类,将所有包 含该种子基因的contig聚为一组;第一轮聚类得到的contig上包含的基因具有很高的重复 数,选择重复数第二高的基因(即重复次数仅次于第一轮聚类所使用的种子基因的基因)进 行第二轮聚类,依次循环,直至contig聚类中所包含的基因不能在剩余的contig中找到相 同的拷贝,贝一次聚类结束,得到属于同一个物种的contig簇;用剩余的contig重复聚类过 程,至所有contig分配完成。
[0018] 进一步的,对于contig聚类效果的质量,可以通过下述方法进行判断:将contig簇 与样本中存在的已知微生物参考基因组进行比对,通过对已知微生物基因组的覆盖
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1