生物标记鉴定方法和系统的制作方法_4

文档序号:9457547阅读:来源:国知局
nitudefasterthanBLAST.Bioinformatics26(19) :2460_2461)的最长序列从 每个OTU(操作分类单元)选择代表性序列。使用BLAST的megablast,每个序列被分配给 C0RE(GriffenAL,等人(2011)C0RE:aphylogenetically-curated16SrDNAdatabaseof thecoreoralmicrobiome.PLoSOne6(4) :el9051)中的系统发育的最接近的近亲。将所 得的样品1〇(标识)作图文件和分类作图文件用于输入?881:1]1^抑〇(}^1]^(15^,1^即0116 C,&KnightR(2010)FastUniFracfacilitatinghigh-throughputphylogenetic analysesofmicrobialcommunitiesincludinganalysisofpyrosequencing和 PhyloChipdata.ISMEJ4(1) :17-27),其允许对基于区别所述生物体进化历史的分数的 群落间距离进行成对比较。然后使用PCoA对这些距离聚类以降维,其中所述主坐标(PC) 以降序描述了在新空间中每个轴说明的变形程度。此外,使用M0THUR(SchlossPD,Gevers D,&ffestcottSL(2011)ReducingtheeffectsofPCR(PolymeraseChainReaction) amplification和sequencingartifactson16SrRNA-basedstudies.PLoSOne6(12): e27310)进行基于ThetaYC的群落结构比较。ThetaYC测量了两个群落间的结构相异性。创 建在所有样品间基于成对thetaYC距离的矩阵用于聚类和PCoA分析。
[0172] 统计分析为测试微生物群的结构异质性,通过围绕中心点的分割算法(PAM),使用 归一化的属(或0TU)的丰度的Jensen-Shannon散度(JSD)进行牙斑微生物群间的聚类。 基于silhouette指数的最大值来选择聚类的最佳数量。
[0173] 然后在R中使用ade4包进行PCA分析以将基于PAM的聚类可视化。在分析之前, 将数据进行样品量归一化,去除丰度非常低的属(如果在所有样品中它们的平均丰度低于 0. 1% )以降低噪音。鉴定表现出与PC1最高的相关性的细菌属并将其加亮。
[0174] 使用加权相关性网络分析(WGCNA)以研究微生物缔合和相互作用。该方法应用于 构建牙斑中细菌相互作用网络。在这些网络中,一个节点对应于一种给定微生物的微生物 丰度分布。如果节点在整个环境扰动中具有显著的成对相关性,这些节点就是有联系的。首 先计算所有受试者中所有属之间的成对Pearson相关性。然后鉴定所述相关性的软阈值功 率以按照近似无尺度拓扑结构的规则构建一个稳健的网络。计算属的拓扑重叠以反映它们 相对的相互关联性。最后,输出数据并通过Cytoscape(httD://www.cytoscape.org)可视 化。所述成对Pearson相关性的功率是在EG中0 =3,无尺度拓扑拟合指数=0.7。在所 述网络中绘制了平均相对丰度高于0. 1%的和两种细菌间连接强度>0. 05的口腔细菌(属 级)。
[0175] 为了评估齿龈炎的牙斑微生物群的效应,本发明人基于所选的系统发育标记(生 物标记)、通过成对t检验或spearman相关性方法、针对每个个体定义和计算了齿銀炎的微 生物指数。针对每个个体样品,由f(Ai,Aj)代表的微生物齿龈炎指数用下式计算:
[0176]
[0177] 其中N是在这些所选择的系统发育的标记中齿龈炎富集的标记的总数,M是在这 些所选择的系统发育的标记中健康富集的标记的总数,Ai是每种齿龈炎富集的标记i的丰 度,Aj是每种健康富集的标记j的丰度,5^ ENAi是Ai所有齿龈炎富集的标记i的总和, EMAj是Aj所有健康富集的标记j的总和,并且b是可为10或任何其它数字的常数。
[0178] 牙斑宏基因组测序针对18个牙斑,分别提取宏基因组DNA并测序。所述样品是在 基线和EG两者、来源于9个受试者,其包括来自齿龈炎聚类I的5个受试者和来自齿龈炎 聚类II的4个受试者。用NEXTflex?技术(BIO Scientific Corp.,USA)制备末端配对测 序文库。首先用液氮将宏基因组DNA片段化。然后将包括标记序列的测序接头连接至尺寸 经过选择的片段上。引入10个PCR循环以富集正确连接的片段。然后在HiS eq(Illumina, USA)上以2X150bp的测序长度对所富集产物进行测序。这些测序结果经过质量过滤,然后 对其进行人工识别和分别存档。所有序列存放在序列读取档案登录ID SRA058763名下。
[0179] 基因的功能分类为了探查所编码的功能,使用带默认参数的IDBA(http://i.cs. hku. hk/~alse/hkubrg/proiects/idba/)将微生物测序结果组装成重叠群。然后将组装 好的重叠群提交至MetaGeneMark用于使用默认参数进行基因调用(gene calling)。然后 使用BLAST和perl脚本将所述基因片段与COG数据库进行功能性赋值。通过COG对超过 60%的基因进行注释。用R(2. 15. 1)生成了基于C0G赋值的功能基因分布的PCA。
[0180] 图2示出了汇总如上所述的研究流水线的流程图。
[0181]MM.
[0182] 对于150个牙斑微生物群中的每一个,鉴定出细菌门、细菌属和细菌种并且通过 针对参考数据库分类赋值对它们的相对丰度进行定量(CORE(Griffen AL,等人(2011) CORE :a phylogenetically-curated 16S rDNA database of the core oral microbiome. PLoS One 6(4) :el9051)) 〇
[0183] -种齿龈炎减退和发展的实验性易控制的模型如图IB中所示,在群体水平上,基 于成对 t 检验,在 EG(平均B0P为 26. 00±9. 59,平均MGI为 2. 12±0. 48)下MGI(p〈0.001) 和B0P(p= 0. 026)显著高于在 NG(平均B0P为 13. 5±5. 12,平均MGI为 1.61±0. 24)下 的。此外,对于单个受试者,在NG和EG之间的临床参数是显著相关的,诸如BOP(Pearson 相关性:r= 0? 31,p= 0? 03)和平均MGI(Pearson相关性:r= 0? 35,p= 0? 01)〇
[0184] 齿龈炎相关联的微生物群的结构特征和功能特征为鉴定与齿龈炎相关联的微生 物群的结构特征,将150个健康的和疾病的微生物群通过PCA、基于属级分类群的相对丰度 进行聚类,观察到在健康的牙斑微生物群(基线,三角形)和齿龈炎相关联的牙斑微生物群 (NG,方块型;EG,点状)之间生物体结构的区别(参见图4A)。所述健康的和患病的微生物 群大部分沿基线和NG/EG的交界处聚集,表明微生物群结构和疾病状态之间的联系。在EG 下在NG和EG之间受试者结构内MGI更高在很大程度上是一致的,表明在相同受试者中微 生物群落扰动与齿龈炎复发的方式相同。基于UniFrac和ThetaYC距离(参见图5A和5B) 的PCoA也支持这些结果。因此在每个受试者体内可能存在微生物群-疾病的关联。
[0185] 本发明人通过所有细菌分类单元的相对丰度与宿主状态的相关性来检查所述微 生物群-疾病的关联。
[0186] 在门级上,几乎所有的序列是来自13个细菌门,其包括在口腔中常见的6 个主要细菌门:厚壁菌门(Firmicutes)、变形细菌门(Proteobacteria)、拟杆菌门 (Bacteroidetes)、放线菌门(Actinobacteria)、梭杆菌门(Fusobacteria)和TM7 (每一 种在至少一个时间点具有的平均相对丰度>1% )。在齿龈炎状态(NG和EG)和健康齿 龈状态(基线)之间,发现5个主要的门有显著差异(p〈0.01 ;成对t检验):放线菌门 (Actinobacteria)、厚壁菌门(Firmicutes)、TM7、拟杆菌门(Bacteroidetes)和梭杆菌门 (Fusobacteria)。沿NG-基线-EG发展的群落结构的时间偏移是明显的,其特征在于在基 线处放线菌门(Actinobacteria)和厚壁菌门(Firmicutes)以及在NG和EG下TM7、拟杆菌 门(Bacteroidetes)和梭杆菌门(Fusobacteria)的相对丰度升高。
[0187] 在属级上,27个细菌属(每一个在至少一个时间点的平均相对丰度>0.1% )在 基线和齿龈炎(NG和EG两者)之间是差异分布的(p〈0. 05,成对t检验;FDR(错误发现 率)q〈0.2)。在它们中,5种(链球菌属(Streptococcus)、罗氏菌属(Rothia)、放线菌属 (Actinomyces)、嗜血杆菌属(Haemophilus)和劳特罗普氏菌属(Lautropia))在基线处 显示出升高的丰度、而22个属(纤毛菌属(Leptotrichia)、普雷沃菌属(Prevotella)、 梭杆菌属(Fusobacterium)、TM7、卟啉菌属(Porphyromonass)、坦纳菌属(Tannerella)、 月形单胞菌属(Selenomonas)、未培养的毛螺旋菌属(Uncultured_Lachnospiraceae)、未 分类的丛毛单胞菌属(unclassified_Comamonadaceae)、消化球菌属(Peptococcus)、杆 菌属(Aggregatibacter)、卡托氏菌属(Catonella)、密螺旋体属(Treponema)、SR1、弯杆 菌属(Campylobacter)、真杆菌属(Eubacterium)、消化链球菌属(Peptostreptococcus)、 未分类的拟杆菌属(unclassified_Bacteroidaceae)、Solobacterium、约翰森 氏菌属(Johnsonella)、Oribacterium、和未分类的韦荣球菌属(unclassified_ Veillonellaceae))在NG和EG中均富集。图3示出了据信代表齿龈健康和齿龈炎(针对 自然发生的齿龈炎和实验性的齿龈炎两者)的27个属级细菌生物标记。也显示了在不同阶 段的微生物群落中鉴定的口腔细菌的相对丰度。这些细菌分类单元可能作为疾病标志物。
[0188] 目前将宿主分成患病组和健康组的临床实践是基于任意的MGI截止值1. 10~ 1.12。然而,此类对疾病和健康的双峰定义与所观察到的宿主和微生物群的特性相反。为 将样品间平均MGI值的分布可视化,用图4B中每个样品的平均MGI值缩放PCA的数据点。 平均MGI和PC1值示出了显著的相关性(p〈0. 05)。因此,事实上,临床参数(例如MGI)在 单个宿主和人群中的分布均是连续的。此外,PCA分析表明所述微生物群在NG、基线和EG 之间的过渡不是离散的过程,而是梯度样的(参见图4A)。因此需要一种新的临床模型,所 述模型考虑疾病表型和微生物群结构两者沿梯度的分布,其将有助于提供更客观的疾病状 态测量并且允许对微生物群和疾病之间的联系做更合适的统计检验。
[0189] -个给定的微生物在PC1的投影坐标看起来捕获了微生物群结构沿疾病减退和 发展的梯度样的异质性和发展,因为在受试者内和跨群组的PC1中的变化与健康的和患病 的微生物群之间的结构分离在很大程度上是一致的(参见图4B)。此外,使用所有150个 样品沿PC1定义的微生物群的相对次序与单用仅健康的、仅NG的或仅EG的微生物群定义 的那些相似(Spearman相关性;全部与仅健康的:rho= 0. 95,p〈0. 001 ;全部与NG:rho= 0. 97,p〈0. 001 ;全部与EG:rho= 0. 97,p〈0. 001)。因此PCI看起来是主要描述符,并且因 此是用于定量测量RPM-片段(例如NG-至-基线和基线-至-EG)两者中微生物群的发展 的良好代理。
[0190] 针对沿RPM的50个宿主,发现了 15种细菌属驱动了沿PC1的微生物群异质化, 因为它们的丰度梯度与它们对应的样品在PCI上的坐标显著相关(Spearman rho>0. 7,FDR q〈0. 2),如下面表1所示。
[0191] 表1 :显示出与PCI的显著相关件的口眸细菌
[0192]
[0193] 这些驱动器包括罗氏菌属(Rothia),嗜血杆菌属(Haemophilus),普雷沃 菌属(Prevotella),纤毛菌属(Leptotrichia),梭杆菌属(Fusobacterium),月形单 胞菌属(Selenomonas),未培养的毛螺旋菌属(未培养的毛螺旋菌属(uncultured Lachnospiraceae)),TM7,坦纳菌属(Tannerella),消化球菌属(Peptococcus),消化链 球菌属(Peptostreptococcus),卡托氏菌属(Catonella),密螺旋体属(Treponema), Solobacterium 和未分类的拟杆菌属(unclassified Bacteroidaceae)。15 个属中的两 属,罗氏菌属(Rothia)和嗜血杆菌属(Haemophilus),沿PC1降低了相对丰度("负驱动 器"),而其它13个属沿PC1增加("正驱动器")。为了理解它们在宿主群体的齿龈炎发展 中的生态学作用,使用50个宿主中细菌属的相对丰度来分别创建在NG下、基线处和EG下 的细菌相关性网络。有趣的是,在EG网络中,驱动器普雷沃菌属(Prevotella),月形单胞 菌属(Selenomonas),未培养的毛螺旋菌属(Uncultured_Lachnospiraceae),卡托氏菌属 (Catonella),消化链球菌属(Peptostreptococcus),密螺旋体属(Treponema),嗜血杆菌 属(Haemophilus)和纤毛菌属(Leptotrichia)是前8种最多连接的节点,表明它们是潜在 的齿龈炎细菌相互作用的主要枢纽。在三个不同时间点上15个PC1驱动的细菌属间的相 互作用是类似的:在NG,基线和EG网络中的每个中,13个正驱动器彼此正向相互作用,与2 个负驱动器负向相互作用。有趣的是,在15个PC1驱动器中在EG和基线处的网络连接比 在NG下的多(参见图6A、6B和6C),在NG网络中仅有24个连接(14个节点),尽管在基线 网络中存在65个连接(14个节点)以及在EG网络中存在54个连接(15个节点)。图6A、 6B和6C中,节点的尺寸与所述分类单元的相对丰度成比例。其相对丰度显著性地相关联的 那些分类单元通过'连接'联结(实线:正相关性;虚线:负相关性)。因此,不受控制的环 境因素可能会掩盖某些微生物间的联系,这突出了实验性疾病模型诸如RPM的价值。
[0194]为测试齿龈炎微生物群的功能特征,分别对来自18个牙斑(来自9个受试者,每 个人同时在基线和EG下取样)的基因组DNA进行鸟枪法测序,测序平均深度为3. 94Gb/样 品(参见表2)D
[0195]
[0196]选取这9个受试者以最大化被采样微生物群的系统发育多样性。基于直系同源聚 类分析(C0G)数据库对所述微生物群中编码的功能基因进行分析,并基于指定的直系同源 组(0G)的相对丰度进行比较。有趣的是,普式叠合分析指出在18个样品中,系统发育的和 功能的测量(COG)之间的一致性是优异的(p〈0. 001,通过10000蒙特卡洛标签置换)。如图 7A所示,疾病状态显著地影响了微生物群落功能。疾病状态对微生物群落功能的影响似乎
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1