一种分析微生物群落结构所需测序量的预测方法

文档序号:9865970阅读:1055来源:国知局
一种分析微生物群落结构所需测序量的预测方法
【技术领域】:
[0001] 本发明属于微生物生态学领域,具体设及一种分析微生物群落结构所需测序量的 预测方法,尤其是在生态学研究中预测环境中微生物群落结构解析所需最小测序量的方 法。
【背景技术】:
[0002] 目前,各种环境中的微生物群落受到广泛关注。随着分析手段的不断发展,我们对 同一个样品中的微生物群落组成分析的深度不断加深,从最初一个微生物群落构建几十个 细菌16S rRNA基因克隆进行测序分析到目前通过高通量测序技术分析到几万甚至几十万 条16S rRNA基因序列。运极大地拓展了我们对环境中微生物多样性的认识。然而,尽管高通 量测序技术能够做到对每个样品中上百万的细菌16S rRNA基因序列进行测序分析,并成为 目前微生物群落结构解析的主流手段,但是考虑到测序成本,目前多数分析还处于对每个 样品进行上万到十几万条细菌16S rRNA基因序列测序的深度。
[0003] 自然环境中,微生物具有极高的多样性,如1克±壤中预计含有107-1〇11个细菌细 胞,几千甚至上万种细菌。运些微生物在群落中的分布极不均匀,通常少数几种优势种占据 微生物群落中总细胞数的80% W上。另外,通常作为分子标记用于解析细菌群落结构的细 菌16S rRNA基因在基因组中的拷贝数有1-15个不等。W上因素都增加了通过16S rRNA基因 序列的测序解析微生物群落结构的难度。尽管目前普遍认为测序深度越深,对微生物群落 结构的解析越充分,但究竟最少需要对多少16S rRNA基因序列进行测序才能够代表性地解 析微生物群落中的物种组成目前尚不清楚,运就导致我们难W判断所获得的微生物群落结 构是否能够真实反映它们在自然条件下的情况。

【发明内容】

[0004] 为了克服目前无法判断获取具有代表意义的微生物群落所需要的最少测序量,本 发明的目的是提供一种分析微生物群落结构所需测序量的预测方法,该方法能够通过对同 一样品进行最少Ξ次较低深度的重复测序来准确预测要获得拟分析的微生物群落组成的 有效信息时所需要的测序量。
[0005] 本发明的分析微生物群落结构所需测序量的预测方法,其特征在于,包括W下步 骤:
[0006] -、校正函数PSb/AS = a' · logi〇(PSb)+b'中a'和b'的获得
[0007] a、选择不少于10个已有16S rRNA基因测序信息且与拟分析的微生物群落结构生 境接近的微生物群落,命名为微生物群落Mi、M2、M3、……、Μη,η含10,每个微生物群落含有的 16S rRNA序列数为AS;
[000引对于上述化、M2、M3、……、Mn微生物群落,确定不少于5个随机抽样深度进行抽样获 得16S rRNA基因序列组,分别命名为Di、化、03、……、D。序列数目的16S rRNA基因序列组,η >5,运些16S rRNA基因序列组满足W下特点:(1)运η组序列数目的16S rRNA基因序列组的 序列数量各不相同但最多的序列数量不超过所选择的微生物群落中AS最少的16S rRNA基 因序列数,即Di 辛02 辛03 辛……辛Dn,且mix{Di,D2,D3,……,Dn} <min{AS} ; (2)Di、D2、 03、……、Dn序列数目的16S rRNA基因序列组,每个微生物群落每个序列数目的16S rRNA基 因序列组具有3个W上的重复样,即Di序列数目的16S rRNA基因序列组具有3个W上的重复 样,化序列数目的16S rRNA基因序列组具有3个W上的重复样,依此类推;(3)分别从Mi、M2、 M3、……、Μη微生物群落抽取的化、02、化、……、Dn序列数目的16S rRNA基因序列组,它们的 Di.D2.D3.……、Dn序列数目是一致的,即所有微生物群落抽取的3个化序列数目的16S rRNA 基因序列组的序列数目是相同的,都是化;所有微生物群落抽取的3个D2序列数目的16S rRNA基因序列组的序列数目是相同的,都是D2;依此类推;
[0009] b、在相同的抽样深度条件下,分别计算每个微生物群落中化、〇2、化、……、Dn序列 数目的16S rRNA基因序列组中抽取的3个重复样的群落间距离d,然后对每个微生物群落单 独拟合序列数目Di、D2、D3、……、Dn的10为底的对数函数值与群落间距离d之间的相关方程d =a · logioD+b,上述所述D为序列数目,获得式中的a值和b值;
[0010] C、令d = 0,计算每个微生物群落预测的测序深度PSb,即方程d = a · logi日D+b中d = 0时伽值;
[001。 d、比较每个微生物群落预测的测序深度PSb与AS之间的差异,并通过拟合方程PSb/ AS = a' · logi0(PSb)+b'获得a'和b'的值;
[0012] 二、预测群落所需最少测序量
[0013] 对拟分析的微生物群落中的16S rRNA基因进行若干次重复的随机PCR扩增,并进 行测序,得到若干个数据集,分别从每个测序的数据集中抽取ai、曰2、曰3、……、an序列数的序 列,由各个数据集中抽取的ai组成{ai}数据集,32组成{32}数据集,W此类推,分别计算相同 序列数D的数据集之间的群落间距离d,所述的若干次指3次W上,所述的曰1、曰2、曰3、……、an 序列数满足ai辛日2辛日3辛......辛an,所述的η
[0014] 根据得到的D和相对应的d拟合方程d = a · logioD+b,并获得式中的a值和b值;
[001 引根据公式PSa = PSb/(PSb/PSa) sPSb/(PSb/AS) = (l0-b/aV(b'-a' · b/a),代入a'、 b'、a和b值,计算获得分析微生物群落结构所需测序量PSa。
[0016] 本发明通过拟合因测序量不足引起的群落间距离与测序量之间的回归关系,获得 两者之间的回归方程,并通过预测误差与测序量之间的回归关系对该回归方程进行校正。 随着测序量的增加,因测序量不足引起的群落间距离会逐渐变小;当该距离接近0时,多次 重复采样获得的群落结构的相似性就接近100%,该群落结构就能够代表环境中的微生物 群落组成。因此,通过设定所获得的线性方程中的群落间距离为0,根据校正后的回归方程 可W较为准确地预测出能够反映环境微生物群落组成所需要的测序量。
[0017] 本发明的有益效果为:可W通过对拟分析的微生物群落进行Ξ次较低测序深度的 测序分析,根据测序结果通过本发明的方法就能预测该微生物群落结构时所需的最少测序 量,操作简单方便。
【附图说明】:
[001引图1是本发明的基础理论模型。
[0019]图2是4个不同微生物群落11个测序样品获得的测序量DW10为底的对数值与同一 测序量的多个群落间距离d相关关系图。
[0020] 图3是校正前(A)和校正后(B)所需测序量预测值和真实值的比值与预测值之间的 关系图。
【具体实施方式】:
[0021] W下实施例是对本发明的进一步说明,而不是对本发明的限制。
[0022] 实施例1:
[0023] 如图1所示,因测序量不足引起的微生物群落间距离随测序量的增加而变小,当同 一样品多次采样获得的群落间距离接近0时,多次重复采样获得的微生物群落结构的相似 性就接近100%,那么该微生物群落结构就能够代表环境中的微生物群落组成。并且因测序 量不足引起的群落间距离与测序量之间存在d = a · logioD+b的相关关系,当因测序量不足 弓旭的群落间距离d = 0时,预测的测序量PSb=l(Tb/a。
[0024] 本实施例拟分析的微生物群落为污染河涌底泥中的微生物群落,即为表1中的L。
[0025] 分析该微生物群落结构所需测序量的预测方法,包括W下步骤:
[0026] -、校正函数PSb/AS = a' · logio(PSb)+b'中a'和b'的获得
[0027] a、选择11个已有16S rRNA基因测序信息且与拟分析的微生物群落L结构生境接近 的微生物群落,命名为微生物群落A、B、C、D、E、F、G、H、I、J和K,每个微生物群落含有的16S rRNA序列数为AS,各个微生物群落含有的16S rRNA序列数的如表1所示;
[0028] 对于上述微生物群落4、8、(:、0、6少、6、山1、1和1(,确定100、500、1000、5000和9600 共5个抽样深度进行3次抽样获得16S rRNA基因序列组,即从微生物群落A中分别抽取3个含 100条16S rRNA基因序列组、3个含500条16S rRNA基因序列组、3个含1000条16S rRNA基因 序列组、3个含5000条16S rRNA基因序列组和3个含9600条16S rRNA基因序列组的样品;从 微生物群落B中分别抽取3个含100条16S rRNA基因序列组、3个含500条16S rRNA基因序列 组、3个含1000条16S rRNA基因序列组、3个含5000条16S rRNA基因序列组和3个含9600条 16S rRNA基因序列组的样品,W此类推。
[00巧]6、分别计算每个微生物群落4、8、(:、0、6少、6、山1、1和1(中3个含100条168诚酷基 因序列组、3个含500条16S rRNA基因序列组、3个含1000条16S rRNA基因序列组、3个含5000 条16S rRNA基因序列组和3个含9600条16
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1