一种基于高通量测序的微生物群落组成的方法和装置与流程

文档序号:12035012阅读:514来源:国知局
本发明涉及生物信息学分析
技术领域
,尤其涉及一种微生物基因组16srrna高可变区v6区域的分类方法和装置。
背景技术
:为了微生物群体的种类及丰度的传统方法包括:直接对微生物进行培养,变性梯度凝胶电泳、末端限制性内切酶片段长度多态性、焚光原位杂交、对可能的微生物种类进行pcr(聚合酶链式反应);但这些方式都只能揭露环境中很小一部分微生物种类。如果能进行宏基因组的分析,通过直接对环境中的微生物群体进行基因组研究,得到一个比较全面的微生物种类目录,将有助于对微生物群体的后续研究和应用。原核生物中16srrna(核蛋白核糖核酸,ribosomalrna)的序列一方面在整体上高度保守,同时含有种间差异的高变异区(v1-v7),因此该基因医疗可精确指示细菌之间的亲缘关系及其进化关系,易操作,适用于各级分类单元;所以在微生物基因组的研究中,16srrna测序是最常用的聚类和分类方法。但传统的基因测序是通过sanger技术测定16srrna基因序列,这个技术一般得到至少500bp的读长,能帮助我们去精准地研究每一条序列的物种来源,但它容易产生嵌合体,而且测序成本比较高,费时又费力。随着新开发出的测序技术以及测序成本的逐步降低,基因组的研究变得越来越实用,所涉及的技术包括pyrosequencing、solexa等。对于这些革命性的技术的一个主要挑战就是读长太短,无法对每个个体的16srrna进行测序,因而它的测序信息不足以让我们去精准地对微生物进行分类。但测定16srrna的变异区可用来来对微生物进行分类,通过设计特定的通用引物对16s可变区进行特定的pcr(聚合酶链式反应,polymerasechainreaction),然后用测序仪测序,建立在这种方法上的系统树显示了很好的生物多样性,但它的测序成本高,虽然是传统毛细管测序法费用的1/10,但却是其他新一代测序仪测序费用的10倍左右。综上所述,提供一种更加准确地对微生物进行聚类分析的方法且方便快捷、成本低廉成为本领域亟待解决的技术问题。技术实现要素:本发明要解决的一个技术问题是提供一种基于16srrna基因高可变区v6的微生物分类方法和装置,通过对16srrna的高可变区v6区进行solexa测序,并通过对这些16srrna可变区的短序列进行系统分类,可以在成本低廉的基础上准确反映物种的丰度信息。本发明的第一方面提供了一种基于16srrna基因高可变区v6的分类方法,该方法包括:提取微生物样品中的脱氧核糖核酸(dna);对提取dna的宏基因组16srrna核糖体核糖核酸(rrna)的高可变区(v6)进行扩增,得到作为扩增产物的dna片段;对dna片段进行pcr-freesolexa建库,建库过程中在dna片段上加上标签序列以对每个样品进行标记;将各个样品的带有标签序列的dna片段进行混合,使用solexa测序工具对混合后的dna片段进行测序,得到按照标签区分的测序读长;利用读长的重叠关系组装得到高可变区v6的全长序列;对全长序列进行分类分析,以实现对微生物群体的分类。优选地,该方法还包括:在步骤“提取微生物样品中的脱氧核糖核酸dna”之前,执行微生物群体的取样。优选地,所述对全长序列进行分类分析包括:计算全长序列序列差异度;根据序列差异度执行操作分类学单元otu的分类,将全长序列(uniquereads)分配到otu中;将每一个otu分类中的全长序列比对到16srrna的v6数据库中,将比对结果根据众数原则对otu进行物种注释。优选地,根据序列差异度执行操作分类学单元(otu)的分类是指根据本领域公知的otu分类中“种”水平之间的差异度将全长序列分配到相应的otu中。在本发明的一个实施方案中,将序列差异度在3%以内的全长序列(uniquereads)分配到一个otu中。优选地,将比对结果根据众数原则对otu进行物种注释是指如果一个otu中66%以上的比对结果均为同一个物种,则将该otu注释为该物种;如果未达到该比例,则将物种分类信息上移一个水平(例如从“种”上移到“属”,或从“属”继续上移到“科”)再进行统计,直到达到66%的比例标准为止。优选地,该方法还包括:在步骤“对全长序列进行分类分析”之后,基于分类分析结果,进行种群多样性分析和/或统计得到微生物群体的相对丰度值。优选地,步骤“对宏基因组16srrna的高可变区v6进行扩增”是指利用本领域公知的方法扩增dna序列,在本发明的一个实施方案中,采用聚合酶链式反应(pcr)扩增16srrna的高可变区v1/v2,所述pcr反应的引物为引物27f:agagtttgatcmtggctcag和337r:gctgcctcccgtaggagt。优选地,步骤“对dna片段进行pcr-freesolexa建库,建库过程中在dna片段上加上标签序列,对每个样品进行标记”进一步包括:将所述dna片段进行纯化,对纯化后的dna片段进行浓度定量,定量后不同样品取等浓度的量分别进行末端修复,在3’端加上碱基a,然后加上标签序列,再进一步加上pcr-free的接头,最后对样品进行纯化。优选地,在得到按照标签区分的原始的测序读长(reads)后,还包括对所述测序序列进行筛选的步骤,以过滤掉低质量的测序序列;所述低质量的测序序列选自以下序列中的任意一种或数种:接头污染序列,含有多个poly(a|t|c|g)的序列、以及含有连续2个以上的n的序列;优选地,步骤“利用读长的重叠关系组装得到高可变区v1/v2的全长序列(uniquereads)是指按照本领域公知的条件进行序列的拼接,例如运用拼接软件,根据序列两端的重叠关系对读长进行拼接,将其组装成v1/v2的全长序列。在本发明的一个实施方案中,拼接的条件是最小匹配长度为s3p,重叠区域不允许错配,重叠区域n所占最大百分比是0.4%;为了更多的利用序列,不满足以上结果的序列将各切除5bp继续组装,如此重复多次,最终产生的就是v1/v2的序列,如果最终的拼接结果小于50bp也不用于后续分析。本发明的第二方面提供了一种基于宏基因组16srrna高可变区v1/v2的分类装置,所述装置包括:脱氧核糖核酸dna提取设备,用于提取微生物样品中的脱氧核糖核酸dna;扩增设备,用于对宏基因组16srrna的高可变区v1/v2进行扩增,得到作为扩增产物的dna片段;solexa建库设备,用于对dna片段进行pcr-freesolexa建库,建库过程中在dna片段上加上标签序列,对每个样品进行标记;solexa测序设备,将各个样品的带有标签序列的dna片段进行混合,使用solexa测序工具对混合后的dna片段进行测序,得到按照标签区分的原始的测序读长(reads);全长序列组装设备,用于利用读长r的重叠关系组装得到高可变区v1/v2的全长序列(uniquereads);分类设备,用于对全长序列进行分类分析,以实现对微生物群体的分类。优选地,该装置还包括取样设备,用于执行微生物群体的取样。优选地,分类设备包括:序列差异度计算单元,用于计算全长序列之间的序列差异度;otu分类单元,用于根据序列差异度执行操作分类学单元otu的分类,将全长序列(uniquereads)分配到otu中;物种注释单元,用于将每一个otu分类中的全长序列比对到16srrna的v1/v2数据库中,将比对结果根据众数原则对otu进行物种注释。优选地,根据序列差异度执行操作分类学单元(otu)的分类是指根据本领域公知的otu分类中“种”水平之间的差异度将全长序列分配到相应的otu中。在本发明的一个实施方案中,将序列差异度在3%以内的全长序列分配到一个otu中。优选地,将比对结果根据众数原则对otu进行物种注释是指如果一个otu中66%以上的比对结果均为同一个物种,则将该otu注释为该物种;如果未达到该比例,则将物种分类信息上移一个水平(例如从“种”上移到“属”,或从“属”继续上移到“科”)再进行统计,直到达到66%的比例标准为止。优选地,还可以包括数据分析设备,用于在对全长序列进行分类分析之后,对所得到的数据结果进行进一步分析;所述数据分析设备包括种群多样性分析单元,用于分析种群多样性;和/或相对丰度统计单元,用于统计得到微生物群体的相对丰度值。优选地,对宏基因组16s核糖体脱氧核糖核酸rdna的高可变区v1/v2进行扩增是指利用本领域公知的方法扩增dna序列,在本发明的一个实施方案中,采用聚合酶链式反应(pcr)扩增16srdna的高可变区v1/v2,所述pcr反应的引物为引物27f:agagtttgatcmtggctcag和337r:gctgcctcccgtaggagt。优选地,solexa建库设备包括:dna片段纯化单元,用于将所获得的dna片段进行纯化;定量单元,用于对纯化后的dna片段进行浓度定量;dna片段修饰单元,用于在定量后不同样品取等浓度的量分别进行末端修复,在3’端加上碱基a,然后加上标签序列,再进一步加上pcr-free的接头;修饰后产物纯化单元,用于对修饰后的dna片段进行纯化。优选地,还包括测序序列筛选设备,用于在得到按照标签区分的原始的测序读长(reads)后,对所述测序序列进行筛选,以过滤掉低质量的测序序列;所述低质量的测序序列选自以下序列中的任意一种或数种:接头污染序列,含有多个poly(a|t|c|g)的序列、以及含有连续2个以上的n的序列。优选地,所述全长序列组装设备按照本领域公知的条件进行序列的拼接,例如运用拼接软件,根据序列两端的重叠关系对读长(reads)数据进行拼接,将其组装成v1/v2的全长序列(uniquereads)。在本发明的一个实施方案中,拼接的条件是最小匹配长度为^p,重叠区域不允许错配,重叠区域n所占最大百分比是0.4%;为了更多的利用序列,不满足以上结果的序列将各切除5bp继续组装,如此重复多次,最终产生的就是v1/v2的序列,如果最终的拼接结果小于50bp也不用于后续分析。本发明提供的基于宏基因组16srrna高可变区v1/v2的分类方法,采用结合了加标签技术的solexa技术,对特定环境下的微生物群体进行了高通量测序,既减少了人力劳动也节省了经济花费,使得在研究微生物群落结构与健康、环境因子等的关系上变得容易可行。具体实施方式现在来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当明白,为了便于描述,所指明的各个部分的尺寸并不是按照实际的比例关系绘制的。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的描述中表示类似项,因此,一旦某一项在一个处被定义,则在随后的描述中不需要对其进行进一步讨论。下面介绍几个本发明技术方案涉及的概念。微生物群落组成是指特定环境中全部微小生物的种类及其相对丰度(个数多少)的总和。它包含了可培养的和未可培养的微生物的基因,目前主要指环境样品中的细菌和真菌的基因组总和。pcr-freesolexa建库是指对pcr产物进行纯化,然后进行浓度定量。不同样品取等浓度的量分别进行末端修复(即通过酶反应使所有dna双链的粘性末端成为平末端),然后加上碱基“a”,再加上pcr-free的接头,加完接头后,对样品进行纯化。所述pcr-free的接头是指测序用的引物序列。标签序列(barcode)是指加在引物5’端前面的一段碱基序列,用于区分不同的样本。标签序列可以是由6个碱基组成条形码序列,标签序列的设计要符合一定规则,比如碱基含量和不同碱基数目等,目的是防止因为个别测序错误等原因导致标签相互之间的混淆,例如可以参考美国专利申请us20100267043a1中公开的方法和原则。读长(reads)是指solexa测序后产生的测序片段的序列,也称为测序序列。全长序列(uniquereads)是指读长(reads)经过拼接后产生的v1/v2的全长序列。全长序列的数目是指将序列相同的全长序列合并后得到的全长序列数。序列差异度是指两条序列比对时不同碱基的个数所占的百分比。下面是分析样品中微生物群落组成的详细步骤。步骤一,提取样品中的脱氧核糖核酸dna。例如,采用ultracleansoildnakit试剂盒(mobio,usa)从样品沉积物中提取微生物的dna。步骤二,对样品中微生物的16s核糖体脱氧核糖核酸rdna的高可变区v1/v2进行扩增,得到作为扩增产物的dna片段。例如利用聚合酶链式反应pcr,使用引物27f:agagtttgatcmtggctcag和337r:gctgcctcccgtaggagt去扩增微生物群体中细菌的16s高可变区v1/v2区片段。步骤三,对获得的dna片段进行pcr-freesolexa建库法建库,建库过程中在dna片段上加上标签序列,对每个样品进行标记。例如,把pcr产物用qiaquickpcrpurificationkit(qiagen)进行纯化,用分光光度计对所述16s的高可变区v1/v2的pcr产物进行浓度定量。不同样品取等浓度的量分别进行末端修复(即通过酶反应使所有dna双链的粘性末端成为平末端),加“a”,加上标签序列,再加上pcr-free的接头(i^ir-endlibrarypreparationkit,illumina);加完接头后,对样品进行纯化(用1.8xampurexp磁珠进行纯化)。有些试剂盒中pcr-free的接头是带有标签序列的接头,这样可以将加标签序列和加作为引物的接头一步完成。步骤四,将各个样品的带有标签序列的dna片段进行混合,使用solexa测序工具对混合后的dna片段进行测序,得到按照标签区分的原始的测序序列reads。例如,直接用illuminagaii(150bppair-end策略)进行测序。solexa测序仪(illuminagenomeanalyzer)是新一代的高通量测序仪,测序价格低廉,数据读取量大,相同的测序量的情况下,solexa测序费用是妨4测序费用的十分之一,而且错误率低(如单碱基测序错误率<10_5),测序无偏性,对于宏基因组,可以真实反映物种的丰度信息。而且得到的测序结果是已根据标签序列进行区分的测序读长reads。步骤五,利用读长reads的重叠关系组装得到高可变区v1/v2的全长序列(uniquereads)例如,运用拼接软件对reads数据进行拼接,得到拼接的结果。通过序列两端的重叠关系将两端测序得到的序列组装成v1/v2的全长序列uniquereads。拼接的条件是最小匹配长度为s3p,重叠区域不允许错配,n所占最大百分比是0.4%。为了更多的利用序列,不满足以上结果的序列将各切除5bp继续组装,如此重复多次。最终产生的就是v1/v2的序列。如果最终的拼接结果小于50bp也不用于后续分析。所述拼接软件可以为merger、cabog、arachne、reps.phrap及newbler等软件,在本发明的一个实施例中,应用了merger拼接软件。根据标签序列即可以把全长序列分配到对应的样品上。步骤六,对全长序列(uniquereads)进行分类分析,以实现对微生物群体进行高通量的分类。本发明采用结合了标签技术的solexa技术,分辨率大大提高,单个rim上solexa(illumina)能产生比妨4多100倍的reads,因此,仅仅通过测序这么短的长度就能得到很好的分类效果,另外由于结合了标签技术,能够在单个lanedllumina高通量测序仪一张芯片有8个通道,每个通道被称为“lane”)上点更多的样,大大节约了每个样品的测序成本。步骤七,对全长序列进行分类分析的基本思想为根据全长序列的序列差异度将其分配到各个otu中,再将每一个otu中的序列比对到16srdna的v1/v2数据库中,得到每一个otu的物种分类。步骤八,计算全长序列uniquereads之间的序列差异度。根据序列差异度执行操作分类学单元otu的分类,将uniquereads分配到otu中。分配到otu的软件可以例如为mothur、rdpclassifier、qiime等软件,在本发明中采用mothur软件,其版本为v.1.6.0,下载网址为http://www.mothur.orr/wiki/mainpage0。一般情况下,将序列差异度在3%以内的全长序列分配到一个otu中。步骤九,将每一个otu分类中的全长序列uniquereads比对到16srdna数据库中,将比对结果根据众数原则对otu进行物种注释。在本发明的一个具体实施例中,将比对结果根据众数原则对otu进行物种注释是指如果一个otu中66%以上的比对结果均为同一个物种,则将该otu注释为该物种;如果未达到该比例,则将物种分类信息上移一个水平(例如从“种”上移到“属”,或从“属”继续上移到“科”)再进行统计,直到达到66%的比例标准为止。本发明首先根据序列的差异度进行聚类分析,将拼接后得到的全长序列按照种的水平分配到不同的otu中,再将otu中的序列比对到16srdnav1/v2数据库中,在最好匹配的基础上进行物种的分类,实现了对复杂微生物样品的准确注释;而且采用大量平行测序能够发现更多的稀有微生物种类。另外,在对全长序列uniquereads进行分类的基础上,还可以基于分类分析结果,进行群多样性分析和/或统计得到微生物群体的相对丰度值。在本发明的一个实施方案中,利用mothurcanoco软件进行chaol分析,计算样品otu的alpha多样性,可以得到该环境样品的物种丰富度;同时,对比对后得到的物种注释结果进行统计,可以得到各种微生物的相对丰度。其与16s测全长序列在微生物分类和测量群体的相对丰度上具有等同的技术效果。接下来是一个一个具体实施方式。步骤1、收集苏州大学附属医院肠道样品共15个样本。提取微生物样本的基因组dna。所有样本的dna都采用ultracleansoildnakit(mobio,usa)从肠道样品中提取出来。步骤2、使用特定的引物进行pcr扩增。具体来说,使用引物27f:agagtttgatcmtggctcag和337r:gctgcctcccgtaggagt去扩增微生物群体中细菌的16s高可变区v1/v2区片段。步骤3、对pcr产物进行pcr-freesolexa建库法建库。具体来说,把pcr产物用qiaquickpcrpurificationkit(qiagen)进行纯化,用分光光度计对所述16s的高可变区v1/v2的pcr产物进行浓度定量。20个样本取等浓度的量分别进行末端修复(即通过酶反应使所有dna双链的粘性末端成为平末端),接着3′端加“a”,然后3′端加上标签序列,再在3′端力口上pcr-free的接头(pair-endlibrarypreparationkit,illumina);加完接头后,对样品进行纯化(用1.8xampurexp磁珠进行纯化)。用12μl的eb(洗脱液,elutionbuffer)进行溶解。步骤4、solexa测序。具体来说,可以按照厂家说明书直接用iuminagaii进行测序(150bppair-end策略,即读长为150个碱基的双末端测序),得到原始的测序读长reads。而且这些读长reads已根据标签序列进行了区分。步骤5、得到原始的测序数据后,过滤掉那些低质量的数据。具体来说,低质量的数据是指接头污染序列,含有多个poly(aiticig)的序列、以及含有连续2个以上的n的序列;如表2所示。接头污染序列的判断标准为:若读长reads与接头序列可以连续比对上15bp的长度,则认为该reads有接头污染。含有多个poly(a|t|c|g)的序列,即低复杂度序列的判断标准为:若读长reads中poly(a|t|c|g)序列的长度为10bp,则为低复杂度序列的读长reads。步骤6、利用读长(reads)的重叠关系来组装v1/v2的全长序列。具体来说,通过所述pair-end的reads重叠区来组装高可变区v1/v2的序列。运用merger拼接软件(http://emboss,sourceforge.net/apps/release/6.2/emboss/apps/merger,html)对读长reads数据进行拼接,得到拼接的结果,即通过重叠关系将两条两端测序得到的序列组装成一条序列。拼接的条件是最小匹配长度为s3p,重叠区域不允许错配,重叠区域n所占最大百分比是0.4%。为了更多的利用序列,不满足以上结果的序列将各切除5bp继续组装,如此重复多次。最终产生的就是v1/v2的全长序列。如果最终的拼接结果小于50bp也不用于后续分析。利用mothur所带unique程序去冗余,统计就能得到全长序列uniquereads的个数。所述去冗余是指将序列相同的全长序列合并为一条。通过条形码标签序列把全长序列都对应到相应的样品上。步骤7、执行otu(operationaltaxonomicunit,操作分类学单元)的分类。使用blast软件对样品的全长序列(uniquereads)进行差异度计算,根据全长序列之间的差异,利用mothur(mothur(v.1.6.0)http://www.mothur.org/wiki/main_page)对uniquereads进行otu分类。差异度在3%以内(相当于分类水平中“种”的水平)的uniquereads被聚为一个otu。步骤8、对各otu进行物种注释。使用blastn将otu中的tags序列比对到16srdna数据库refhvr_v1/v2(http://vamps,mbl.edu/resources/databases,php)中。将得到的blast结果根据众数原则,对out进行注释,如果一个otu中66%(三分之二)的比对结果均为同一个物种,则将该otu注释为该物种。如果未达到该比例,则将物种分类信息上移一个水平(从“种”上移到“属”,或从“属”继续上移到“科”)再进行统计,直到达到66%的比例标准为止。步骤9、数据分析。具体来说,基于步骤8的otu分类的结果,采用mothur.软件进行chaol,即群落内的多样性分析,计算样品otu的alpha多样性。alpha多样性是一个环境中物种的多样性分析的结果。aiarmon,npsharmon模型计算的结果越大表示该环境的物种越丰富。simpson模型的结果越接近于0表示物种越丰富,结果如表3所示。同时对步骤9中得到的otu注释结果进行统计,得到表4所示的微生物群体的相对丰度值。并根据各样品的otu数量及其序列总数量绘制其稀释(rarefaction)曲线。表1,各样品经solexa测序得到的读长及全长序列数目。样品名称测序读长(reads)数目全长序列数目肠道样品1800,00075,234肠道样品2800,00084,234肠道样品3800,00069,034肠道样品4800,00076,452肠道样品5800,00089,739肠道样品6800,00087,192肠道样品7800,00098,034肠道样品8800,00087,391肠道样品9800,00057,298肠道样品10800,00066,98l肠道样品11800,00069,820肠道样品12800,00076,892肠道样品13800,00079,801肠道样品14800,00082,103肠道样品15800,00083,296表2,各样品alpha多样性指数。部分样品里结果代表性微生物种的相对丰度。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1