一种宏基因组16SrRNA的高通量测序数据处理及分析流程控制方法_3

文档序号:9524425阅读:来源:国知局
/www.mothur.org/wdki/Siannon)
[0116] Simpson:辛普森多样性指数,由EdwardHu曲Simpson(1949)提出,在生态学 中常用来定量的描述一个区域的生物多样性。Simpson指数越大,说明群落多样性越低。 (http://www.mothur.org/wiki/Simpson)
[0117] 测序深度(Coverage)指数有:
[0118] Good'sCoverage:是指各样本文库的覆盖率,其数值越高,则样本中序列没有被 测出的概率越低。(ht1:p: //www.mothur.org/wdki/Coverage)
[0119] 各指数计算公式可查阅报告的"4. 2结果说明"部分。 阳120] 分析软件:Qiime平台(vl. 7) 阳121] 分析方法:采用对序列进行随机抽样的方法,W抽到的有效序列数进行0TU的分 析,并分别计算各α多样性指数。 阳 122] ·al地a_rarefaction. xlsα多样性指数
[0123]Table6.IColl曰tionof曰Iph曰diversityresults 阳124]
[0127] 7.β多样性分析
[012引 β多样性值为两个样本间的相异系数,反映不同样本间的多样性的差异,利用各 样品序列间的进化和丰度信息计算样品间的距离,反映样品间是否有显著地微生物群落差 异,可通过化i化ac分析实现。 阳129] 分析软件:Qiime平台(vl. 7)
[0130] 分析方法:首先利用来自不同环境样品的0TU代表序列构建一个进化树,化i化ac 度量标准根据构建的进化树枝的长度计量两个不同环境样品之间的差异。 阳131] 化i化ac分析分为wei曲teduni化ac和unwei曲teduni化ac两种度量方法,两者 之间差异在于是否计入不同环境样品的序列相对丰度。wei曲teduni化ac算法在计算树枝 长度时将序列的丰度信息进行加权计算,因此unwei曲teduni化ac可W检测样品间变化的 存在,而wei曲teduni化ac可W更进一步定量的检测样品间不同谱系上发生的变异。 阳132] 结果展示:
[0133] wei曲ted_unifrac.txtwei曲tedunifrac距离矩阵
[0134] Τ油le7.IWei曲tedunifracdistance 阳135]
[0136] ·unwei曲ted_unifrac.txtunwei曲tedunifrac距离矩阵
[0137] Τ油le7. 2Unwei曲tedunifracdistance 阳13引
阳139] 注康中行列表示不同样本,表中的数字表示样本间的相异系数,值越小,表示两 个样本间的物种多样性差异越小。
[0140] 8.PCoA分析 阳141]PCoA(PrincipalCo-ordinatesAnalysis)分析即主坐标分析,是一种研究数据 相似性或差异性的可视化方法,它与PCA类似,通过一系列的特征值和特征向量进行排序 后,选择主要排在前几位的特征值,找到距离矩阵中最主要的坐标,结果是数据矩阵的一个 旋转,它没有改变样品点之间的相互位置关系,只是改变了坐标系统。两者的区别为PCA是 基于样本的相似系数矩阵来寻找主坐标,而PCoA是基于距离矩阵来寻找主坐标。 阳1创分析软件:Qiime平台(vl. 7)
[0143] 分析方法:基于wei曲tedunifrac和unwei曲tedunifrac距离矩阵进行PCoA作 图分析。
[0144] 9.UPGMATree
[0145] 样本聚类分析利用各样品序列间的进化信息来比较环境样品在特定的进化谱系 中是否有显著的微生物群落差异。 阳146] 分析软件:Qiime平台(vl. 7) 阳147]分析方法:使用UPGMA(Unwei曲tedpairgroupmethodwitharithmeticmean) 聚类方法,基于wei曲teduni化ac和unwei曲teduni化ac距离矩阵,将样品进行聚类。
[0148]W上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术 人员应该了解,本发明不受上述实例的限制,上述实例和说明书中描述的只是说明本发明 的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,运些变化和 改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同 物界定。
【主权项】
1. 一种宏基因组16SrRNA的高通量测序数据处理及分析流程控制方法,其特征在于, 其包括如下步骤: (1) 自定义参数配置文件的生成步骤;导入宏基因组16SrRNA高通量测序原始序列数 据,经过筛选和拼接得到理论上有效的16SrRNA可变区全长序列,在此基础上进行生物信 息学参数分析; (2) 输入步骤:用户根据需要,输入设定的各参数配置文件; (3) 分析步骤:根据参数配置文件,宏基因组高通量数据处理流程模块生成对应的自 动化分析流程; (4) 执行及输出步骤:执行所描述的自动化分析流程,获得并输出宏基因组16SrRNA 分析结果报告。2. 根据权利要求1所述的宏基因组16SrRNA的高通量测序数据处理及分析流程控制 方法,其特征在于,所述的步骤(1)中,具体包括如下步骤: (A) 导入宏基因组16SrRNA高通量测序原始序列文件, (B) 对所述的宏基因组16SrRNA高通量测序原始序列文件进行质量控制与统计,并剔 除低质量序列数据,获得经过筛选的序列数据; (C) 将所述的经过筛选的数据进行拼接,组装成全长的16SrRNA可变区序列; (D) 将拼接结果进行质量控制,并去除嵌合体,得到理论上有效16SrRNA的全长序列。3. 根据权利要求2所述的宏基因组16SrRNA的高通量测序数据处理及分析流程控制 方法,其特征在于,所述的步骤(C)中,使用PANDseq拼接软件,对重叠区域进行比对打分, 比对打分值低于0. 6时将被去除,重叠区域小于5bp或者重叠区域大于2个mismatch也就 去除,根据拼接结果选择有效序列在400~480bp之间的序列用于下一步分析。4. 根据权利要求2所述的宏基因组16SrRNA的高通量测序数据处理及分析流程控制 方法,其特征在于,所述的步骤(D)中,先UCHIME软件在de-novo模式下去除嵌合体序列, 然后USEARCH软件在有参模式进一步去除嵌合体序列,最终得到理论上有效的16SrRNA可 变区全长序列。5. 根据权利要求1所述的宏基因组16SrRNA的高通量测序数据处理及分析流程控制 方法,其特征在于,所述的步骤(1)中,生物信息学参数分析包括对于获得的16SrRNA可变 区全长序列进行聚类;包括输入指令采用使用UCLUST方法进行0TU聚类,0TU中序列相似 性设为97 %,得到0TU列表及0TU代表性序列。6. 根据权利要求5所述的宏基因组16SrRNA的高通量测序数据处理及分析流程控制 方法,其特征在于,所述的步骤(1)中,包括进一步对0TU代表性序列进行物种分类分析。所 述的物种分类分析包括,物种进化分析,物种丰富度分析,物种鉴定分析和α多样性指数 分析。7. 根据权利要求5所述的宏基因组16SrRNA的高通量测序数据处理及分析流程控制 方法,其特征在于,系统将多样品0TU代表性序列进行聚类与差异性分析,包括β多样性分 析和多样品聚类分析。
【专利摘要】本发明公开了一种宏基因组16S?rRNA的高通量测序数据处理及分析流程控制方法,其首先由系统生成自定义参数配置文件,再根据用户设定参数后的自定义参数文件和高通量数据处理流程模块生成与数据流程对应的批处理可执行文件;由系统执行批处理可执行文件,实现数据流程自动化,最终生成结果报告文件。从而能高效的帮助生物信息分析人员完成一套标准化的高通量数据分析流程,甚至可以让不懂高通量数据分析的科研人员自己完成高通量数据分析。从而可以达到优化科研人员的工作效率,降低科研成本的目的。本发明不仅仅可以用于宏基因组16S?rRNA高通量数据分析流程,也可用于18S和ITS等高通量测序分析流程,甚至可以在高通量测序领域通用,其实现方法简单,应用范围较为广泛。
【IPC分类】G06F19/10
【公开号】CN105279391
【申请号】CN201510556935
【发明人】朱文杰, 张鑫磊, 袁骁
【申请人】苏州协云和创生物科技有限公司
【公开日】2016年1月27日
【申请日】2015年9月6日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1