一种分析微生物群落结构所需测序量的预测方法_2

文档序号:9865970阅读:来源:国知局
S rRNA基因序列组中3个重复样的群落间距离d, 即计算微生物群落A中3个含100条16S rRNA基因序列组之间的群落间距离di,3个含500条 16S rRNA基因序列组之间的群落间距离cb、3个含1000条16S rRNA基因序列组之间的群落 间距离d3、3个含5000条16S rRNA基因序列组之间的群落间距离cU和3个含9600条16S rRNA 基因序列组之间的群落间距离ds;计算微生物群落B中3个含100条16S rRNA基因序列组之 间的群落间距离山,3个含500条16S rRNA基因序列组之间的群落间距离cb、3个含1000条16S rRNA基因序列组之间的群落间距离d3、3个含5000条16S rRNA基因序列组之间的群落间距 离cU和3个含9600条16S rRNA基因序列组之间的群落间距离ds; W此类推到微生物群落K。然 后对每个微生物群落单独拟合3个含100条16S rRNA基因序列组中的logiolOO与其相对应的 群落间距离山、3个含500条16S rRNA基因序列组中的logi巧00与其相对应的群落间距离cb、 3个含1000条16S rRNA基因序列组中的logiolOOO与其相对应的群落间距离d3、3个含5000条 16S rRNA基因序列组中的logi〇5000与其相对应的群落间距离cU和3个含9600条16S rRNA基 因序列组中的l〇gio9600与其相对应的群落间距离ds之间的相关方程d = a · logi姐+b,其中d (山、(12、(13、(14、(15)为群落间距离,0为相对应的168诚酷基因序列条数100、500、1000、5000和 9600,获得式中的a值和b值,拟合相关关系图如图2所示。
[0030] C、令d = 0,计算每个微生物群落预测的测序深度(测序量)PSb,即方程d = a · logioD+b中d = 0时的D值;11个样品中的PSb如表1所示,从表1可W看出,未校正的预测结果 PSb普遍高于实际结果AS,而且预测结果高出实际结果的比例随预测结果的增加而增加,而 且该预测结果PSb与实际结果AS之间的比值(预测偏差)随该预测值的增加而增加,存在PSb/ AS = a' · logio(PSb)+b'的线性相关关系(图3)。
[0031] 它们之间的关系遵循W下相关关系:
[0032] PSb/AS = a' · logio(PSb)+b'
[0033] 其中AS为微生物群落含有的实际16S rRNA序列数,a'和b'为参数,可W通过拟合 该回归方程获得。
[0034] d、比较每个微生物群落预测的测序深度PSb与AS之间的差异,并通过拟合方程PSb/ 八5 =日'*1〇邑1〇。5〇+13'获得日'和13'的值,日'为2.3985,13'为-8.698。
[0035] 二、预测群落所需最少测序量
[0036] 对拟分析的微生物群落L中的16S rRNA基因进行3次重复的随机PCR扩增,并进行 测序(序列数在10000条左右),得到3个数据集{I}、{II}、{III}数据集,分别从每个测序的 数据集分别抽取100条序列、500条序列、1000条序列、5000条序、9600条序列构成5个新的数 据集(也就是5个新的群落),即从{1}数据集中抽取100条序列、500条序列、1000条序列、 5000条序、9600条序列构成5个新的数据集;从{II}数据集中抽取100条序列、500条序列、 1000条序列、5000条序、9600条序列构成5个新的数据集;从{ΙΠ }数据集中抽取100条序列、 500条序列、1000条序列、5000条序列、9600条序列构成5个新的数据集。分别计算100条序列 (Di)的数据集之间的群落间距离山、500条序列(D2)的数据集之间的群落间距离cbUOOO条 序列(〇3)的数据集之间的群落间距离d3、5000条序列(D4)的数据集之间的群落间距离cU和 9600条序列(Ds)的数据集之间的群落间距离ds。
[0037] 根据得到的序列数0(〇1、〇2、〇3、〇4、〇5)和相对应的(1((11、(12、(13、(14、(15)拟合方程(1 = a · logioD+b,并获得式中的a值和b值。
[003引由此,微生物群落L,其a值和b值分别为-0.1901和0.9627。
[0039] 根据公式PSa = PSb/(PSb/PSa) -PSb/(PSb/AS) = (l〇-b/a)/(b'-a' · b/a),代入a'、 b'、a和b值,计算获得分析微生物群落结构所需测序量PSa。结果如表1所示。
[0040] 微生物群落L的实际含有的16S rRNA序列数AS和计算预测的分析微生物群落结构 所需测序量PSa如表1所示。从表1可W看出,本实施例预测微生物群落L的实际含有的16S rRNA序列数AS和计算预测的分析微生物群落结构所需测序量PSa相差不大,PSa/AS为0.88, 由此说明按照本发明的预测方法预测的结果是比较准确的。
[0041] 表1十二个微生物群落的实际含有的16S rRNA序列数AS、校正前的预测值、校正 后的预测值PSaW及PSa/AS的比值
[0042]
【主权项】
1. 一种分析微生物群落结构所需测序量的预测方法,其特征在于,包括以下步骤: 一、 校正函数PSb/AS = a' · logio(PSb)+b'中a'和b'的获得 a、 选择不少于10个已有16S rRNA基因测序信息且与拟分析的微生物群落结构生境接 近的微生物群落,命名为微生物群落%、M2、M 3、……、Mn,n 2 10,每个微生物群落含有的16S rRNA序列数为AS; 对于上述……、Mn微生物群落,确定不少于5个随机抽样深度进行抽样获得16S rRNA基因序列组,分别命名为D^D^Ds、……、Dn序列数目的16S rRNA基因序列组,η 2 5,这 些16S rRNA基因序列组满足以下特点:(1)这η组序列数目的16S rRNA基因序列组的序列数 量各不相同但最多的序列数量不超过所选择的微生物群落中AS最少的16S rRNA基因序列 数,BPDi^D2关D3关……关Dn,且mixiDhDiDs,……,D n} < min{AS}; (2)Di、D2、D3、……、Dn序 列数目的16S rRNA基因序列组,每个微生物群落每个序列数目的16S rRNA基因序列组具有 3个以上的重复样,序列数目的16S rRNA基因序列组具有3个以上的重复样,出序列数目 的16S rRNA基因序列组具有3个以上的重复样,依此类推;(3)分别从施、M2、M3、……、M n微生 物群落抽取的Di、D2、D3、……、Dn序列数目的16S rRNA基因序列组,它们的Di、D2、D3、……、Dn 序列数目是一致的,即所有微生物群落抽取的3个0:序列数目的16S rRNA基因序列组的序 列数目是相同的,都是D1;所有微生物群落抽取的3个02序列数目的16S rRNA基因序列组的 序列数目是相同的,都是D2;依此类推; b、 在相同的抽样深度条件下,分别计算每个微生物群落中D^D^Ds、……、Dn序列数目的 16S rRNA基因序列组中抽取的3个重复样的群落间距离d,然后对每个微生物群落单独拟合 序列数目……0"的10为底的对数函数值与群落间距离d之间的相关方程d = a · log1QD+b,上述所述D为序列数目,获得式中的a值和b值; c、 令d = 0,计算每个微生物群落预测的测序深度PSb,即方程d = a · logioD+b中d = 0时 的D值; d、 比较每个微生物群落预测的测序深度PSb与AS之间的差异,并通过拟合方程PSb/AS = a' · logio(PSb)+b'获得a'和b'的值; 二、 预测群落所需最少测序量 对拟分析的微生物群落中的16S rRNA基因进行若干次重复的随机PCR扩增,并进行测 序,得到若干个数据集,分别从每个测序的数据集中抽取ai、a2、a3、......、a n序列数的序列, 由各个数据集中抽取的&1组成{ad数据集,a2组成{a2}数据集,以此类推,分别计算相同序 列数D的数据集之间的群落间距离d,所述的若干次指3次以上,所述的ai、a2、a3、……、a n序 列数,满足ai关a2关a3关......关an,所述的η之5; 根据得到的D和相对应的d拟合方程d = a · logioD+b,并获得式中的a值和b值; b值,计算获得分析微生物群落结构所需测序量PSa。
【专利摘要】本发明公开了一种分析微生物群落结构所需测序量的预测方法。通过拟合因测序量不足引起的群落间距离与测序量之间的回归关系,获得两者之间的回归方程,并通过预测误差与测序量之间的回归关系对该回归方程进行校正。随着测序量的增加,因测序量不足引起的群落间距离会逐渐变小;当该距离接近0时,多次重复采样获得的群落结构的相似性就接近100%,该群落结构就能够代表环境中的微生物群落组成。因此,通过设定所获得的线性方程中的群落间距离为0,根据校正后的回归方程可以较为准确地预测出能够反映环境微生物群落组成所需要的测序量。
【IPC分类】G06F19/24
【公开号】CN105631246
【申请号】CN201610058255
【发明人】倪加加, 许玫英, 李筱婧
【申请人】广东省微生物研究所
【公开日】2016年6月1日
【申请日】2016年1月27日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1