使用粪源细菌群落来治疗微生态失衡的系统和方法与流程

文档序号:14954705发布日期:2018-07-17 23:19阅读:234来源:国知局
本申请要求2015年8月24日提交的标题为“使用全基因组分析优化用于根除艰难梭菌感染的粪便替代移植治疗(optimizingstoolsubstitutetransplanttherapyfortheeradicationofclostridiumdifficileinfectionusingwholegenomeanalysis)”的美国临时申请第62/209,149号专利申请的优先权,通过引用将其全部内容并入本文用于所有目的。本发明的领域涉及胃肠疾病的治疗方法。具体而言,本发明提供了以包含粪源细菌群落的组合物用作治疗胃肠疾病的治疗方法为特征的系统和方法。
背景技术
::艰难梭菌(clostridiumdifficile)是一种产毒素的革兰氏阳性杆菌,在人类肠道中过多的艰难梭菌导致产生毒素和艰难梭菌感染(cdi)的结肠炎症状。cdi是一种胃肠道的机会性(opportunistic)细菌性疾病,占所有抗生素相关性腹泻病例的15-25%。广谱全身性抗菌素使用的增加扰乱了人类肠道的生态细菌平衡,使得cdi在医疗领域日益复杂化。使用甲硝唑或口服万古霉素10-14天来治疗cdi。然而,5%-35%的接受治疗的患者复发。复发性cdi(rcdi)被定义为经适当的治疗后cdi完全消失,但治疗停止后再次感染。医学界普遍认为,rcdi不一定是由病原体本身引起的,而是由于无法重建正常的肠道细菌。包含粪源细菌群落的组合物可用于治疗cdi以及其他原因导致的微生态失衡。附图说明将参照附图进一步解释本发明,其中在全部几个视图中相同的结构由相同的数字表示。所示的附图不一定按比例绘制,而是通常将重点放在说明本发明的原理上。此外,一些特征可能被放大以显示特定组件的细节。此外,附图中示出的任何尺寸、规格等旨在说明而非限制。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而仅仅是作为用于教导本领域技术人员以各种方式使用本发明的代表性依据。图1a-f显示本发明的一些实施方案的方法中采用的序列比较。图2a-f显示本发明的一些实施方案的方法中采用的序列比对图。图3a-c显示本发明的一些实施方案的方法中所采用的用于比较的一些散点图。图4a-d显示本发明的一些实施方案的方法中采用的用于鉴定菌种匹配的一些比较。图5a-5h显示本发明的一些实施方案的方法中采用的用于鉴定代谢通路的kegg通路图。图6a-6h显示在本发明的一些实施方案的方法中使用的一种或多种菌种的代谢通路图。图7a-7q显示本发明的一些实施方案的方法中采用的代谢通路图。图8a-8h显示本发明的一些实施方案的方法中采用的比较22种菌种的通路图。图9和图10显示本发明的一些实施方案的方法中采用的单级恒化器容器。技术实现要素:在一些实施方案中,本发明提供一种方法,其中该方法治疗患有微生态失衡的个体,该方法包括:确定患有微生态失衡的个体的肠道微生物组的第一代谢谱;通过向个体施用组合物来将个体的肠道微生物组的第一代谢谱改变为个体的肠道微生物组的第二代谢谱,该组合物包含选自以下的至少一种菌株:肠氨基酸球菌(acidaminococcusintestinalis)14lg、卵形拟杆菌(bacteriodesovatus)5mm、青春双歧杆菌(bifidobacteriumadolescentis)20mrs、长双歧杆菌(bifidobacteriumlongum)、布劳特氏菌(blautiasp.)27fm、梭菌(clostridiumsp.)21faa、产气柯林斯菌(collinsellaaerofaciens)、大肠杆菌(escherichiacoli)3fm4i、链状真杆菌(eubacteriumdesmolans)48faa、挑剔真杆菌(eubacteriumeligens)f1faa、粘液真杆菌(eubacteriumlimosum)13lg、普氏粪杆菌(faecalibacterumprausnitzii)40faa、裂果胶毛螺菌(lachnospirapectinoshiza)34faa、干酪乳杆菌(lactobacilluscasei)25mrs、吉氏副拟杆菌(parabacteroidesdistasonis)5fm、粪罗斯氏菌(roseburiafaecalis)39faa、肠道罗斯氏菌(roseburiaintestinalis)31faa、瘤胃球菌(ruminococcussp.)11fm、瘤胃球菌属(ruminococcusspecies)和扭链瘤胃球菌(ruminococcustorques)30faa,其中组合物以足以将肠道微生物组的第一代谢谱改变为肠道微生物组的第二代谢谱的治疗有效量施用,其中肠道微生物组的第一代谢谱是微生态失衡的结果,其中肠道微生物组的第二代谢谱治疗患有微生态失衡的个体。在一些实施方案中,组合物以足以使细菌在个体肠道定植的治疗有效量施用。在一些实施方案中,组合物包含选自以下的至少一种菌株:16-6-i21faa92%耳蜗形梭菌(clostridiumcocleatum);16-6-i2mrs95%luti布劳特氏菌属(blautialuti);16-6-i34faa95%裂果胶毛螺菌;32-6-i30d6faa96%glycyrrhizinilyum梭菌(clostridiumglycyrrhizinilyum);和32-6-i28d6faa94%乳酸发酵梭菌(clostridiumlactatifermentans)。在一些实施方案中,本发明提供了一种方法,其中该方法治疗患有微生态失衡的个体,该方法包括:确定患有微生态失衡的个体的肠道微生物组的第一代谢谱;通过向个体施用组合物来将个体的肠道微生物组的第一代谢谱改变为个体的肠道微生物组的第二代谢谱,所述组合物包含选自以下的至少一种菌种:肠氨基酸球菌、卵形拟杆菌、青春双歧杆菌、长双歧杆菌、布劳特氏菌、梭菌、产气柯林斯菌、大肠杆菌、链状真杆菌、挑剔真杆菌、粘液真杆菌、普氏粪杆菌、裂果胶毛螺菌、干酪乳杆菌、吉氏副拟杆菌、粪罗斯氏菌、肠道罗斯氏菌、瘤胃球菌、瘤胃球菌属和扭链瘤胃球菌,其中组合物以足以将肠道微生物组的第一代谢谱改变为肠道微生物组的第二代谢谱的治疗有效量施用,其中肠道微生物组的第一代谢谱为微生态失衡的结果,其中肠道微生物组的第二代谢谱治疗患有微生态失衡的个体。在一些实施方案中,组合物以足以使细菌在所述个体肠道定植的治疗有效量施用。在一些实施方案中,组合物包含选自以下的至少一种菌种:耳蜗形梭菌;luti布劳特氏菌;裂果胶毛螺菌;glycyrrhizinilyum梭菌;和乳酸发酵梭菌。在一些实施方案中,微生态失衡与胃肠炎症相关。在一些实施方案中,胃肠炎症为炎症性肠病、肠易激综合征、憩室病、溃疡性结肠炎、克罗恩氏病或未定型结肠炎。在一些实施方案中,微生态失衡为艰难梭菌感染。在一些实施方案中,微生态失衡为食物中毒。在一些实施方案中,微生态失衡为化疗相关的微生态失衡。具体实施方式在已经公开的那些益处和改进中,从以下结合附图的描述,本发明的其他目的和优点将变得显而易见。本文公开了本发明的详细实施方案;然而,应当理解的是,所公开的实施方案仅仅是对可以以各种形式体现的本发明的说明。此外,结合本发明的各种实施方案给出的每个实施例旨在说明的而非限制。在整个说明书中,除非上下文另有明确规定,否则以下术语采用在此明确关联的含义。如本文所使用的短语“在一个实施方案中”和“在一些实施方案中”,尽管其可以指代相同的实施方案,但不一定指代相同的实施方案。此外,本文使用的短语“在另一个实施方案中”和“在一些其他实施方案中”,尽管其可以指代不同的实施方案,并不一定指代不同的实施方案。因此,如下所述,在不脱离本发明的范围或精神的情况下,可以容易地组合本发明的各种实施方案。此外,如本文所使用的,术语“或”是包含性的“或”操作符,并且除非上下文另有明确规定,否则等同于术语“和/或”。除非上下文另有明确规定,术语“基于”不是排他性的,并且允许基于未描述的其他因素。此外,在整个说明书中,“一个”,“一种”和“该”的含义包括复数引用。“中”的含义包括“中”和“上”。如本文所用,术语“微生态失衡”是指个体肠道微生物组的失衡。如本文所用,术语“微生物组”是指群落中的所有微生物。作为非限制性实例,人类肠道微生物组包括人类肠道中的所有微生物。如本文所用,术语“化疗相关的微生态失衡”是指用于靶向导致个体的肠道微生物组失衡的个体的特定疾病的任何干预。如本文所用,术语“粪便细菌疗法”是指将供体粪便注入受体的肠内以重新建立正常细菌微生物群的治疗。粪便细菌疗法在初步研究中已显示出令人鼓舞的结果,迄今已公布的100例患者中具有接近90%的成功率。不受理论的束缚,据信其是通过打破重复使用抗生素的循环,重新建立抑制艰难梭菌生长的平衡生态系统起作用的。如本文所使用的,术语“关键菌种(keystonespecies)”是在人类粪便样品中始终存在的菌种。如本文所用,术语“otu”是指操作分类单位,其通过核酸序列中的相似性来定义一种菌种或一组菌种,该核酸序列包括但不限于16srrna序列。粪源细菌群落在一些实施方案中,本发明提供了一种方法,其中所述方法治疗患有微生态失衡的个体,该方法包括:确定患有微生态失衡的个体的肠道微生物组的第一代谢谱;通过向个体施用组合物来将个体的肠道微生物组的第一代谢谱改变为个体的肠道微生物组的第二代谢谱,所述组合物包含选自以下的至少一种菌株:肠氨基酸球菌14lg、卵形拟杆菌5mm、青春双歧杆菌20mrs、长双歧杆菌、布劳特氏菌27fm、梭菌21faa、产气柯林斯菌、大肠杆菌3fm4i、链状真杆菌48faa、挑剔真杆菌f1faa、粘液真杆菌13lg、普氏粪杆菌40faa、裂果胶毛螺菌34faa、干酪乳杆菌25mrs、吉氏副拟杆菌5fm、粪罗斯氏菌39faa、肠道罗斯氏菌31faa、瘤胃球菌11fm、瘤胃球菌属和扭链瘤胃球菌30faa,其中组合物以足以将肠道微生物组的第一代谢谱改变为肠道微生物组的第二代谢谱的治疗有效量施用,其中肠道微生物组的第一代谢谱为微生态失衡的结果,其中肠道微生物组的第二代谢谱治疗患有微生态失衡的个体。在一些实施方案中,组合物以足以使细菌在所述个体肠道定植的治疗有效量施用。在一些实施方案中,组合物包含选自以下的至少一种菌株:16-6-i21faa92%耳蜗形梭菌;16-6-i2mrs95%luti布劳特氏菌;16-6-i34faa95%裂果胶毛螺菌;32-6-i30d6faa96%glycyrrhizinilyum梭菌;和32-6-i28d6faa94%乳酸发酵梭菌。在一些实施方案中,本发明提供了一种方法,其中该方法治疗患有微生态失衡的个体,该方法包括:确定患有微生态失衡的个体的肠道微生物组的第一代谢谱;通过向个体施用组合物来将个体的肠道微生物组的第一代谢谱改变为个体的肠道微生物组的第二代谢谱,所述组合物包含选自以下的至少一种菌种:肠氨基酸球菌、卵形拟杆菌、青春双歧杆菌、长双歧杆菌、布劳特氏菌、梭菌、产气柯林斯菌、大肠杆菌、链状真杆菌、挑剔真杆菌、粘液真杆菌、普氏粪杆菌、裂果胶毛螺菌、干酪乳杆菌、吉氏副拟杆菌、粪罗斯氏菌、肠道罗斯氏菌、瘤胃球菌、瘤胃球菌属和扭链瘤胃球菌,其中组合物以足以将肠道微生物组的第一代谢谱改变为肠道微生物组的第二代谢谱的治疗有效量施用,其中肠道微生物组的第一代谢谱为微生态失衡的结果,其中肠道微生物组的第二代谢谱治疗患有微生态失衡的个体。在一些实施方案中,组合物以足以使细菌在所述个体肠道定植的治疗有效量施用。在一些实施方案中,组合物包含选自以下的至少一种菌种:耳蜗形梭菌;luti布劳特氏菌;裂果胶毛螺菌;glycyrrhizinilyum梭菌;和乳酸发酵梭菌。在一些实施方案中,微生态失衡与胃肠炎症相关。在一些实施方案中,胃肠炎症为炎症性肠病、肠易激综合征、憩室病、溃疡性结肠炎、克罗恩氏病或未定型结肠炎。在一些实施方案中,微生态失衡为艰难梭菌感染。在一些实施方案中,微生态失衡为食物中毒。在一些实施方案中,微生态失衡为化疗相关的微生态失衡。在一些实施方案中,至少一种菌种公开于:“用于根除艰难梭菌感染的粪便替代移植治疗:repoopulating肠道”,佩洛夫等(2013)(‘stoolsubstitutetransplanttherapyfortheeradicationofclostridiumdifficileinfection:‘repoopulatingthegut’,bypetrofetal.(2013))中,其全部内容通过引用并入本文。在一些实施方案中,至少一种菌种公开于:黑川郡等,“比较元基因组学显示人类肠道微生物组中通常富集的基因集”,(2007)dna研究14:169-181(kurokawaetal.,“comparativemetagenomicsrevealedcommonlyenrichedgenesetsinhumangutmicrobiomes”,(2007)dnaresearch14:169-181)中,其全部内容通过引用并入本文。在一些实施方案中,至少一种菌种公开于第20150044173号美国专利申请中。或者,在一些实施方案中,至少一种菌种公开于第20140363397号美国专利申请中。或者,在一些实施方案中,至少一种菌种公开于第20140086877号美国专利申请中。或者,在一些实施方案中,至少一种菌种公开于第8,906,668号美国专利中。在一些实施方案中,本发明的方法可包括评估至少一种细菌,该评估按照乔木村等,(2016)“用于益生元的高通量评估的单批发酵系统模拟人类结肠道微生物组”,plosone11(8):e0160533(takagietal.(2016)“asingle-batchfermentationsystemtosimulatehumancolonicmicrobiotaforhigh-throughputevaluationofprebiotics”plosone11(8):e0160533)中公开的方法进行。在一些实施方案中,至少一种菌种来自健康患者。在一些实施方案中,至少一种菌种来源于根据第20140342438号美国专利申请中公开的方法的健康患者。在一些实施方案中,至少一种菌种和/或菌株通过包括以下步骤的方法来源于患者:a.获得新鲜排泄的(voided)粪便样品,并将样品置于厌氧培养室(在90%n2、5%co2和5%h2的气氛中)中;b.通过将粪便样品在缓冲液中浸渍产生粪便浆液;和c.通过离心去除食物颗粒,并保留上清液。在一些实施方案中,按照美国公开号20140342438的方法用上清液在恒化器中接种。本发明的一些实施方案的培养方法用于确定患有微生态失衡的个体的肠道微生物组的第一代谢谱的方法的有效性可以受到以下因素的限制,例如,该方法的灵敏度(即,如果菌株存在于阈值水平以上,该方法仅能够检测特定的菌株)。用于确定肠道微生物组的第二代谢谱的方法的有效性可能受到以下因素的限制,例如,该方法的灵敏度(即,如果菌株存在于阈值水平以上,该方法仅能够检测特定的菌株)。在一些实施方案中,阈值水平取决于检测方法的灵敏度。因此,在一些实施方案中,取决于检测方法的灵敏度,需要更大量的至少一种菌种以确定个体是否充分定植。在一些实施方案中,在恒化器容器中培养至少一种菌株。在一些实施方案中,至少一种菌株选自以下菌株:肠氨基酸球菌14lg、卵形拟杆菌5mm、青春双歧杆菌20mrs、长双歧杆菌、布劳特氏菌27fm、梭菌21faa、产气柯林斯菌、大肠杆菌3fm4i、链状真杆菌48faa、挑剔真杆菌f1faa、粘液真杆菌13lg、普氏粪杆菌40faa、裂果胶毛螺菌34faa、干酪乳杆菌25mrs、吉氏副拟杆菌5fm、粪罗斯氏菌39faa、肠道罗斯氏菌31faa、瘤胃球菌11fm、瘤胃球菌属、扭链瘤胃球菌30faa、以及其任何组合,并在恒化器容器中培养。在一些实施方案中,至少一种菌株选自:16-6-i21faa92%耳蜗形梭菌;16-6-i2mrs95%luti布劳特氏菌;16-6-i34faa95%裂果胶毛螺菌;32-6-i30d6faa96%glycyrrhizinilyum梭菌;32-6-i28d6faa94%乳酸发酵梭菌;以及其任何组合,并在恒化器容器中培养。在一些实施方案中,恒化器容器为第20140342438号美国专利申请中公开的容器。在一个实施方案中,恒化器容器为图9和图10中描述的容器。在一些实施方案中,通过封堵冷凝器并将氮气鼓泡通过培养物,将恒化器容器从发酵系统转化为恒化器。在一些实施方案中,压力迫使废物从设定高度处的金属管(以前称为采样管)出来,并且使得能够维持恒化器培养物的给定工作体积。在一些实施方案中,通过将过滤的氮气鼓泡穿过恒化器容器来使恒化器容器保持厌氧。在一些实施方案中,自动控制并保持温度和压力。在一些实施方案中,使用5%(v/v)hcl(σ)和5%(w/v)naoh(σ)维持恒化器培养物的培养物ph。在一些实施方案中,不断更换恒化器容器的培养基。在一些实施方案中,更换发生在与远端肠道的保留时间相等的时间段内。因此,在一些实施方案中,培养基以400ml/天(16.7ml/小时)的速率连续进料到恒化器容器中以产生24小时的保留时间,设定该值以模拟远端肠道的保留时间。替代的保留时间可以为65小时(约148ml/天,6.2ml/小时)。在一些实施方案中,保留时间可以短至12小时。在一些实施方案中,培养基为第20140342438号美国专利申请公开中公开的培养基。材料和方法基因组序列本研究的数据包括表4中公开的33种菌株的草图基因组序列(以重叠群形式)。使用illuminamiseq平台对细菌基因组进行测序。通过全长16srrna基因的比较,根据最接近的匹配对菌种进行命名,其可能不能反映细菌的真实的菌种形成,为简单起见,在部分i中使用的细菌已被赋予菌株a或菌株b的不同身份,表1提供了这些菌株的真实身份。研究设计该研究包括三个阶段。第一阶段侧重于比较菌种的基因组,repoopulate研究(petrof等人)(也称为“原始repoopulate原型”或“原始repoopulate生态系统”)中包含所述菌种的成对菌株。为了寻找冗余,将通过全长16s序列比对而严密匹配的六对菌种菌株的基因组进行比较。基于培养的细菌的形态和行为差异,最初选择这些细菌的多种菌株以包含在repoopulate生态系统中。该项目的这一部分的目标是确定多种菌株的使用是否冗余或者确定是否存在真实的遗传差异,该遗传差异可证实包含两种菌株对维持生态平衡具有生物学必要性。该项目的第二阶段侧重于开发确定kegg通路的遗传覆盖范围的广泛途径(pipeline)。kegg代表“京都基因和基因组百科全书(kyotoencyclopediaofgenesandgenomes)”,其是通路分析的常用资源,包含与通路、基因、基因组、化合物和反应信息相关的数据。本报告部分ii将侧重于比较整个repoopulate生态系统的kegg通路,寻找关键的菌种和通路以及可能在生物化学上冗余的菌种。项目的第三阶段的侧重于确定包含在repoopulate中的细菌基因是否提供了必要的生物化学通路的充分覆盖而没有高水平的遗传冗余。报告部分iii显示与“健康”的人类微生物群相比,kegg通路的整个repoopulate群落的覆盖。这使得能够检查kegg通路的总体覆盖范围,以确定repoopulate群落与人类肠道的真实微生物群的相似程度。部分i:菌株对内的冗余方法mauve比对原始repoopulate原型生态系统包括六个菌种和两种单独的菌株,总共有十二个菌株。对这六种菌种的两种菌株的全基因组数据进行比较以测试冗余。使用基因组比对可视化工具mauve的渐进mauve功能比对和比较这些基因组对。生成的比对基础文件(backbonefile)被加载到r中,使用程序包genoplotr(伪代码提供)创建比mauve提供的动态图像更多的动态图像(图2)。在比对之后,将每个菌种的菌株指定为菌株a或菌株b以简化比较结果的进一步分析(表1)。图2显示mauve比对的序列比对图,显示了使用mauve和r程序包genoplotr产生的在部分i中分析的六种菌种的菌株对的比对。图2a显示菌株a与菌株b的青春双歧杆菌序列比较。图2b显示菌株a与菌株b的长双歧杆菌序列比较。图2c显示菌株a与菌株b的长链多利菌(dorealonglcatena)序列比较。图2d显示干酪乳杆菌序列比较。图2e显示菌株a与菌株b的扭链瘤胃球菌序列比较。图2f显示菌株a与菌株b的卵形瘤胃球菌(ruminococcusobeum)序列比较。表1显示部分i的菌株名称,具体确定了菌株对内的冗余。对于原始repoopulate生态系统中包含其两种菌株的六种菌种的各自的成对比较,鉴定被称为菌株a和菌株b的菌株。表中的名称表示rast服务器上给出的名称,括号内的数字表示rast基因组id号。表1:使用seed查看器(viewer)进行比较此分析中使用的草图基因组已被预先注释并存储在rast服务器上。rast使用基于子系统的注释,其识别蛋白质编码rrna和trna基因,为基因分配功能,预测哪些子系统在基因组中表现出来,并使用这些信息重建代谢网络。子系统被定义为功能角色的集合,它们共同实现特定的生物过程或结构复合体。基于子系统的方法建立在以下原则之上:提高高通量注释技术的准确性的关键在于让专家在完整的基因组集合上注释单个子系统,而不是让注释专家试图注释单个基因组中所有基因。注释的基因组保持在seed环境中,其支持比较分析。在基因组对比对和可视化之后,使用通过rast服务器访问的seedviewer完成每个菌株对的功能比较和序列比较。功能比较用于使用注释的草图序列识别基于子系统的差异。提供的功能比较输出由被识别的子系统的表格构成,该表格指示哪些子系统是共享的,哪些仅专属于一种菌株。六个比较中的每一个的结果都以制表符分隔的值表形式导出,并在microsoftexcel中检查。然后使用seedviewer完成序列比较以检查蛋白质序列同一性并确定平均遗传相似性。图像输出以图形交换格式(gif)下载,将此比较的文本结果导出为制表符分隔的值表,并在microsoftexcel中检查。在包含和不包含假设蛋白质数据的情况下检测蛋白质序列同一性。由于使用不同菌株时结果略有不同,因此使用菌株a作为参照和菌株b作为参照进行序列比较。在可能的情况下,还应将菌株与最接近的可用分类学相邻菌株(neighbor)进行比较,以便比较同一属或种内其他菌株中发现的蛋白质序列相似性(图4)。数据表明,基因组尺寸和重叠群的数量可能是序列比较结果中的混杂因素。这在r中使用线性建模来检查。表6中的数据被保存为逗号分隔值文件并加载到r。将两个线性模型拟合以比较平均百分比蛋白质序列同一性与基因组大小和重叠群数量(伪代码提供)。图4显示最接近的可用菌种匹配的seed查看器序列比较图。图4a显示参考青春双歧杆菌菌株a与菌株b(外环)与青春双歧杆菌(1680.3)(内环)的比较。图4b显示长双歧杆菌菌株a与菌株b(外环)与长双歧杆菌djo10a(内环)的序列比较。图4c显示长链多利菌菌株a与菌株b(外环)与长链多利菌atcc27755(中环)以及长链多利菌dsm13814(内环)的序列比较。图4d显示干酪乳杆菌菌株b与干酪乳杆菌菌株a(外环)以及干酪乳杆菌atcc334(中环)和干酪乳杆菌bl23(内环)的序列比较。在seed查看器上没有公开可用于比较的瘤胃球菌菌种。表6显示在部分i中分析的菌株的汇总统计,显示菌株对内的冗余。表6包括以碱基对数目表示的基因组的尺寸、所用草图序列中重叠群的数量、与基于全长16s序列比对的最接近匹配序列的百分比相似性(从原始repoopulate文章推断)、使用seed查看器鉴定的子系统的总数、编码序列的总数和rna的总数以及使用从seed查看器获得的数据在microsoftexcel中计算的平均百分比蛋白质序列同一性(列出的菌株为用于菌株对的比较的参考菌株)。表6:kegg通路分析使用kaas(kegg自动注释服务器)通过与kegggenes数据库中手工策划的一组直系同源组进行blast比较来提供草图基因组(重叠群)中的基因的功能注释。将部分i检查的12个基因组的氨基酸fasta文件上传到kaas,并使用原核生物基因数据集和为草图基因组数据推荐的双向最佳命中分配方法(bi-directionalbesthitassignmentmethod)进行注释。结果包含keggorthology(ko)分配和自动生成的kegg通路。在microsoftexcel中下载并比较ko分配(koid)的列表。使用microsoftexcel电子数据表格创建了菌株对之间共享的koid列表以及一种菌株特有的而其他菌株没有的koid列表。然后使用这些列表创建koid的最终列表,其权重与kegg直系同源分配的复制品数目相匹配,并通过是否共享id来确定颜色(绿色表示共享,红色表示菌株a,蓝色表示菌株b)。然后将最终列表(六种菌种中的每一个都有一个最终列表)导入程序ipath2.0:交互式通路管理器(interactivepathwayexplorer)。ipath是一个基于网络的工具,用于各种通路图的可视化、分析和定制。目前的版本提供了三种不同的全局纵览图,包括:代谢通路图,使用146个kegg通路构建,给出了生物系统中的完整代谢的概述;调控通路图,其包括22个kegg调控通路;和次生代谢物的生物合成图,其包含58个kegg通路。在映射之前,将创建的koid列表与ipath2.0使用的内部列表相匹配;这会去除若干koid,因为ipath2.0在映射程序中不包含所有可用的koid。然后使用匹配的列表为六个菌株比较中的每一个创建自定义图谱。通过映射过程为每个菌株比较自动创建冲突列表,其中具有不同颜色或权重的koid属于同一通路。ipath2.0程序通过随机选择自动解决这些冲突。这种解决方法对于这项研究设计并不理想;改为手动解决冲突。任何色彩冲突都解决为绿色,因为颜色冲突意味着该通路是共享的,因此不是独特的。在单个koid与相同权重的多个koid冲突的情况下,通过取平均权重(四舍五入到最接近的整数)或最小冲突权重来解决权重之间的任何冲突。然后分析最终的图谱和独特的koid列表,以确定哪条通路对一种菌株是独特的以及是否可以去除冗余。结果mauve比对比对使得重叠群数量和菌种菌株之间相似性能够被很好地可视化。基于比对的可视化,青春双歧杆菌菌株和干酪乳杆菌菌株似乎非常相似。比对可视化还显示了早期的迹象,该迹象表明卵形瘤胃球菌菌株比检查的其他五种菌种更加不同。的比对差异可能反映真实的菌株差异,但也可能是不正确排序的重叠群的结果,其显示为基因组重排。比对图示于图2中。使用seed查看器进行功能比较表2显示seed查看器功能比较结果。基于子系统注释对来自六种不同菌种的菌株对进行功能比较的总结;数字表示被鉴定存在于菌株a而非菌株b中、存在于菌株b而非菌株a中、或存在于两种菌株中的子系统作用的数量,以及每种菌种比较鉴定的子系统作用的总数量。表2:对具有两种不同菌株的六种菌种进行的菌株对的功能比较显示:三种菌种中功能冗余非常高,两种菌种中功能冗余高,一种菌种中功能冗余低。在干酪乳杆菌对的比较中看到使用基于子系统的比较方法的功能冗余的最高水平。功能子系统中仅有的差异被鉴定为存在于菌株b而非菌株a中,并且涉及乳糖和半乳糖摄取(表3)。在卵形瘤胃球菌菌株对的比较中看到冗余的最低水平,其中在子系统和类别的较宽的范围中鉴定了247种功能子系统作用的差异。扭链瘤胃球菌菌株对的比较和青春双歧杆菌菌株对的比较分别显示了菌株之间的仅五种和六种差异,冗余水平相当高(表3)。长双歧杆菌菌株对的比较显示略少的冗余,其中菌株a和菌株b之间存在19种功能子系统作用的差异,其中14种作用存在于长双歧杆菌菌株a而非菌株b中,仅有5种存在于菌株b而非菌株a中。长链多利菌(dorealongicatena)菌株对的比较显示了存在于菌株a而非菌株b中的8个子系统作用和存在于菌株b和非菌株a中的17个子系统。对于长双歧杆菌菌株对和长链多利菌菌株对的功能子系统的比较中的差异的完整列表可在表8中获得。表8:表8显示seed查看器功能比较的总结。(a)显示了长双歧杆菌。(b)长链多利菌。在对于长双歧杆菌和长链多利菌的菌株a和菌株b之间的基于子系统的功能差异的总结中,显示了所鉴定的类别、子类别、子系统和作用。标题为“噬菌体、前噬菌体、转位因子和质粒”的行中显示的部分表示与噬菌体要素有关的差异。表3显示seed查看器功能比较的总结。对于干酪乳杆菌、青春双歧杆菌和扭链瘤胃球菌的菌株a和菌株b之间的基于子系统的功能差异的总结,显示了所鉴定的类别、子类别、子系统和作用。以灰色突出显示的部分表示与噬菌体要素有关的差异。表3:需要注意的关键要素是与比较中存在的噬菌体有关的大量噬菌体相关蛋白和作用(在表3和表8中以灰色文本突出显示)。对于长双歧杆菌和长链多利菌,噬菌体相关蛋白存在于一种菌株中,但不存在于另一个菌株中,但噬菌体相关蛋白在长双歧杆菌和长链多利菌的两个菌株中均存在,但具有不同的作用。这些要素可以帮助解释这些菌株对之间的差异。如果一种菌株感染了噬菌体,而另一种菌株保持不受影响,或者菌株感染了不同的噬菌体,这可能会导致本次分析中报告的一些基因和功能差异。由于噬菌体是关键的水平基因转移(hgt)介质,并且是将基因导入人类肠道微生物组的重要通路,因此这是对菌株趋异性(divergence)的极好解释。使用seed查看器的序列比较其中两种菌株已被包括在原始repoopulate生态系统中的菌种的菌株对的序列比较显示了与功能比较相似的结果。检查的六种菌种中的五种在它们的蛋白质序列中显示出高至非常高的冗余。青春双歧杆菌、长双歧杆菌、长链多利菌、干酪乳杆菌和扭链瘤胃球菌的菌株对的比较均显示95%或更高的平均百分比蛋白质序列同一性(见表7)。相比之下,卵形瘤胃球菌菌株比较的平均百分比蛋白质序列同一性低得多,为45%-62%,取决于比较中是否包含假设蛋白质以及哪种菌株被用作参考菌株。蛋白质序列之间的差异在图1中可清楚地可视化,图1显示当使用六种菌种中的每一种的菌株a作为参照时,相同菌种的菌株b的蛋白质序列同一性百分比。对于大多数鉴定的蛋白质序列,前五种菌种明显处于90%或更大范围内,而卵形瘤胃球菌菌株的序列出现在更接近50-60%的范围。表7显示针对来自六种不同菌种的菌株对的基于蛋白质序列同一性百分比的seed查看器序列比较的总结;括号中的数字表示假设蛋白质被去除的情况下的比较。表格包括所鉴定的蛋白质的总数、双向命中和单向命中的数量、未命中的蛋白质的总数(0%)、具有完美序列匹配的蛋白质的总数(100%),具有高蛋白质序列同一性(95%-99%)的蛋白质的数量,具有低蛋白质序列同一性(50%以下,不包括未命中的蛋白质)的蛋白质的数目以及平均百分比蛋白质序列同一性。(a)总结了菌株a作为参考菌株的序列比较。(b)总结了菌株b作为参考菌株的序列比较。图1a和1b显示菌株对的seed观察器序列比较图。图表显示作为参考序列的菌株a于菌株b之间的比较。a)菌株a与菌株b的青春双歧杆菌序列比较。b)菌株a与菌株b的长双歧杆菌序列比较。c)菌株a与菌株b的长链多利菌序列比较。d)菌株a与菌株b的干酪乳杆菌序列比较。e)菌株a与菌株b的扭链瘤胃球菌序列比较。f)菌株a与菌株b的卵形瘤胃球菌序列比较。表7:拟合用于平均百分比蛋白质同一性与基因组大小和重叠群数量的比较的线性模型表明这两个因素可能已经将seed序列比较的结果混淆到一定水平。用于基因组大小与平均百分比蛋白质序列同一性的比较的线性模型具有0.006的p值,表明显著的线性关系。重叠群数量与平均百分比蛋白质序列同一性之间的线性关系也是显著的,p值为0.016。描绘这些关系的散点图可在图3中找到。图3显示用于使用r的比较的散点图。使用以下给出的伪代码的变体(variation)在r中创建图。用于线性模型的伪代码setwd(“/users/folder/”)table<-read.table(file=“table.csv”,sep=“,”,header=trun)lm1<-1m(percentproteinid~genomesize,data=table)summary(lm1)plot(table$genomesize,table$percentproteinid)abline(lm1)图3a显示在部分i中分析的12种细菌基因组的基因组大小对平均百分比蛋白质序列同一性的散点图,线条显示了两者之间的线性相关性。线性模型的p值为0.006144。图3b显示在部分i中分析的12个细菌基因组的重叠群数量与平均百分比蛋白质序列同一性的散点图,线条显示了两者之间的线性相关性。线性模型的p值为0.01629。图3c显示所有33种细菌基因组的基因组大小与重叠群数量的散点图。异常值为直肠真杆菌(eubacteriumrectale)18faa,其在测序中似乎有错误。kegg通路分析kegg通路结果证实了使用seed查看器的功能和序列比较的结果。对于青春双歧杆菌的kegg直系同源的比较,在id匹配至内部ipath2.0列表和冲突解决之后,仅显示存在于菌株b中而不存在于菌株a中的通路的三个关键差异。长双歧杆菌kegg比较最初显示菌株a和b之间的40种koids差异,然而在匹配和冲突解决之后,发现菌株a特有的5种koid、菌株b特有的3种koid、以及菌株a中的4种具有较高复制次数的koid和菌株b中的2种具有较高复制次数的koid。干酪乳杆菌kegg通路比较显示只有一种差异,即菌株b特有的koid。这与本研究中观察到的干酪乳杆菌菌株之间的冗余水平高度一致。长链多利菌比较显示了菌株a特有的2种koid和菌株b特有的6种koid。扭链瘤胃球菌的kegg比较发现每种菌株只有2种特有的koid。这5种菌种的kegg直系同源分配的差异的完整列表以及它们所映射的通路要素可以在表9种找到。表9基于kegg通路分析的卵形瘤胃球菌菌株的比较显示了与前述部分相同的结果。比较发现菌株a特有的43种id和菌株b特有的32种id,以及菌株a中具有较多复制(replication)的5种id和菌株b中具有较多复制的3种id(图5)。这与seed查看器比较中看到的冗余的低水平一致,表明卵形瘤胃球菌菌株的必要性。当这些结果与seed查看器比较的结果相结合时,表明青春双歧杆菌、干酪乳杆菌和长链多利菌的菌株a以及长双歧杆菌和扭链瘤胃球菌的菌株b似乎是功能冗余的,并且可以从生态系统中去除而不会导致生态失衡。图5a-b显示用于比较卵形瘤胃球菌的kegg通路图。图5a显示代谢通路图。图5b显示调控通路图。使用ipath2.0产生kegg通路图,用于比较卵形瘤胃球菌菌株a与菌株b。绿色线代表共享的通路,红色线代表菌株a特有的通路或在菌株a中具有较多复制的通路,蓝色线代表菌株b特有的通路或在菌株b中具有较多复制的通路。线条粗细由koid的重复次数确定。表9显示在部分i中比较的五种菌种的kegg通路的差异的总结。表9包括koid、图谱名称(包括次生代谢物的生物合成,sec.biosynth.)和一种菌株所特有的特定通路要素。蓝色部分表示不是一种菌株特有的但在所示菌株中具有较高复制次数的koid和要素。表9:部分ii:repoopulate生态系统内的冗余方法以与上述kegg通路比较几乎相同的方式但在更大的范围内检查repoopulate生态系统内的冗余。使用kaas(kegg自动注释服务器)以提供在部分i中未包含的草图基因组中的基因的功能注释(21个其他基因组)。下载每个基因组的ko分配列表(koid),并在microsoftexcel的表格中比较。从microsoftexcel表格创建原始repoopulate生态系统中所有33种菌种中发现的koid列表,以及在整个生态系统中发现的koid的次数计数列表。然后使用这些列表创建keggid的最终列表,其权重与kegg直系同源分配(koid)的复制次数相匹配。然后将koid列表导入到程序ipath2.0:交互式通路探针,并在映射之前将其匹配到ipath2.0使用的内部列表;这从列表中删除几种koid。部分iii中使用了所有33种菌种的最终匹配清单。在去除在该研究的部分i中发现冗余的八种菌种菌株后,接下来创建更新的列表(表4)。第二列表只包括二十五种不同的细菌。创建这个较小生态系统的匹配的koid列表,以及单种菌种特有的、由两种菌种共享的、由三种菌种共享的、由四种菌种共享的和由五个或更多菌种共享的koid列表。还创建了每种koid的复制次数的计数列表。对1、2、3、4、和5或更多菌种共享的koid列表分别进行颜色编码(分别为紫色、蓝色、绿色、红色和黑色)并导入到ipath2.0中。颜色之间的冲突被解析为冲突中菌种数量最多的颜色,即如果通路在红色(4种)和蓝色(2种)之间存在冲突,则会解析为红色。检查最终的代谢通路图(图6),并计数每种颜色之间共享的节点数量。图中的节点对应于各种化学化合物,边缘代表一系列酶促反应或蛋白质复合物。还分别为1、2、3和4种菌种创建图谱以获得其koid所映射到的通路要素(边缘)的数量(表10)。表10显示由1、2、3或4种菌种共享的ipath2.0kegg比较通路的要素计数。去除部分a的冗余的菌株后repoopulate菌种的比较结果总结(包括25种菌种),查看1、2、3、4种菌种共享的通路。包括在每个树形图上选择的通路要素的数量,以及代谢图的独特节点和共享节点的数量的计数(图8)。如果节点只是包含所示菌种数量的通路的一部分,则计算独特节点;如果一条或多条彩色线和黑色线共享一个节点,则计数由大于4(>4)种菌种共享的节点;在两条不同颜色的线共享节点的情况下,计数由1/2/3/4种菌种共享的节点,即蓝色(两种菌种)和绿色(三种菌种)。图6显示由1、2、3或4种菌种共享的通路的ipath2.0kegg比较的代谢通路图。去除部分i的冗余的菌株后的repoopulate菌种的比较的全代谢通路图(包括25种菌种),显示了由1、2、3或4种菌种共享的代谢通路。紫色线对应于单一菌种共享的独特通路,蓝色线对应于两种菌种共享的代谢通路,绿色线对应于三种菌种共享的通路,红色线对应于四种菌种共享的通路,而黑色线为系统中所有其他通路(>4种菌种)。为便于可视化,选择了线条粗细,并不反映kegg直系同源id的复制的数量。表10:单种菌种特有的koid列表显示25种包含的细菌中仅有22种具有独特的koid,包括三种明显冗余的菌株:长链多利菌42faa、直肠真杆菌29faa和凸腹真杆菌47faa。这三种菌种被去除并且复制计数被更新以反映这三种菌种的去除。接下来使用单种菌种特有的匹配的koid列表来手动创建色彩键(colorkey),该色彩键匹配具有不被任何其他菌种共享的koid的每种菌种的独特颜色。然后使用色彩键创建koid和匹配颜色的列表,黑色用于共享的koid,不同颜色用于具有独特的koid的每种菌种。将此列表导入到ipath2.0中,并用于创建自定义图谱。这创建了颜色冲突列表。任何颜色冲突都解决为黑色,因为这意味着该通路并不是单一细菌所特有的。唯一的例外是与长双歧杆菌(k00129)特有的koid的冲突,进一步调查发现该冲突只影响koid所映射到的六条通路之一,该冲突不是以黑色解决,而是以与长双歧杆菌的特定颜色解决。在冲突解决之后,使用黑色线用于共享的通路以及不同颜色的线用于具有独特koid的每种菌种来创建最终图谱(图7)。对次生代谢物的代谢和生物合成图谱进行分析,以获得独特节点的数量和连接节点的最高数量。由于细菌中存在大量未知的生化和代谢通路,因此检查这些论点(theses);因此这些要素计数可能会比单独检查边缘使可能的潜在通路得到更好的理解(表11)。表11显示ipath2.0kegg通路分析的要素计数。部分ii:repoopulate生态系统中的冗余结果的总结包括:具有独特koid的22种菌种的名称,这三个图谱中每个图谱的koid所映射到的独特通路要素的数量(独特通路),以及次生代谢物的代谢和生物合成图谱的独特节点的数量和连接节点的最高数量。如果节点仅为独特通路的一部分,并且不被其他通路共享,则计算独特节点。括号中的数字为共享节点的数量,这些节点也是独特通路的一部分。连接的节点被计数为由独特通路要素连接的独特节点的最高数量。如果包括也是独特通路的一部分的共享节点,则括号中的数字为由独特通路要素连接的节点的最高数量。图7显示repoopulate群落比较的kegg通路图。图7a显示来自原始repoopulate生态系统的25种菌种(去除冗余菌株)的比较的完整代谢通路图,显示单一菌株所特有的所有通路。图7b显示来自原始repoopulate生态系统的所有25种(去除冗余菌株)的比较的完整调控通路图,显示单一菌株所特有的所有通路。左边的颜色图例指示哪种颜色与哪些菌种相关。为便于可视化,选择了线条粗细,并不反映keggid的拷贝数。表11:使用仅包含具有独特koid和匹配颜色代码的22种菌种的独特koid的最终列表来创建仅显示独特通路的图谱(图8)。分析这些图以帮助确定关键菌种和通路(表12)。将22种菌种的所有koid的最终清单与原始33种菌种的koid的清单进行比较,以确定该过程中是否有任何koid丢失。在本研究的部分iii中,再次使用了具有反映koid拷贝数的权重列表的最终22种菌种的koid列表。还对数据进行了简单的质量检查,以确定测序和基因组组装中是否存在明显的错误。使用r中创建的散点图比较基因组大小和所有33个基因组的重叠群数量(图3c)。先前已经注意到的直肠真杆菌18faa中的错误是明显的,并且所有其他基因组似乎是正常的。表12显示repoopulate生态系统的独特kegg通路的总结。在去除部分i中发现的冗余菌株后,对具有独特koid的22种菌种的代谢通路和调控通路以及次生代谢物的生物合成的总结包括匹配和冲突解决后具有独特koid的菌种的名称、它们特有的koid和他们映射到的通路。颜色反映了用于代谢和调控通路图的颜色图例(图7)。红色的koid(3)为在部分ii中去除长链多利菌42faa、直肠真杆菌29faa和凸腹真杆菌47faa后才发现的独特id。蓝色的koid(14)也见于kurokawa等人的数据集。括号中的数字表示koid所映射的三个图谱中每一个图谱内的要素数量。图8显示来自原始repoopulate生态系统的22种菌种(去除冗余菌株)的比较的调控通路图,显示单一菌株特有的调控通路。左边的颜色图例表示哪种颜色与哪些菌种相关。为便于可视化,选择了线条粗细,其并不反映koid的拷贝数。表4:表4.repoopulate菌种的总结。表格包括rast服务器上通过名称列出的原始repoopulate原型中包含的所有33种菌种。根据部分i和部分ii的分析,菌种分为三类。在去除了部分i中发现的冗余菌株后,发现具有独特kegg通路的22种菌种位于前两列中,在该研究的部分i中发现是冗余的8种菌种菌株和在部分ii中发现是冗余的3种菌种在最后一列中。以黑体列出的9种菌种为具有独特koid的菌种,也存在于kurokawa等人的数据中,括号内的数字表示koid的数量。结果由1、2、3或4种菌种或菌株共享的独特和几乎独特的通路和节点的比较显示了几种有趣的模式。为了反映生态系统中不容易去除的冗余,对2、3或4种菌种共享的通路进行比较(因为该通路在整个生态系统中是罕见的,但不是唯一的)。在删除部分i中冗余菌种后,细菌群落中剩余的25种菌种的kegg直系分配比较显示了三种菌种(长链多利菌42faa、直肠真杆菌29faa和凸腹真杆菌47faa),所述三种菌种没有独特的koid且似乎为生态系统内的其他冗余。当检查这三种菌种的几乎独特的通路时,也只有少量的几乎独特的通路。当分别比较由2、3或4种菌种共享的koid时,直肠真杆菌29faa具有3、1和3个共享的koid,长链多利菌42faa具有3、5和3个共享的koid,并且凸腹真杆菌47faa具有3、7和6个共享的koid。这表明这三种菌种在生态系统中并不重要,可能可以在不破坏生态平衡的情况下被去除。几乎独特的koid的比较还显示了在生态系统内可能是关键菌种的四种菌种的重要性。拉乌尔菌属6bf7、卵形拟杆菌5mm、大肠杆菌3fm4i和吉氏副拟杆菌5fm均具有高水平的几乎独特的通路,其中大多数在这四种菌种之间共享。当查看两种菌种共享的koid时,拉乌尔菌属6bf7和大肠杆菌3fm4i尤其共享非常多的koid。当检查由四种菌种共享的koid时,卵形拟杆菌5mm和吉氏副拟杆菌5fm、拉乌尔菌属6bf7和大肠杆菌3fm4i共享大量的koid。这表明这四种菌种可能在生态系统中相互作用并发挥关键作用。几种菌种也被鉴定为具有低水平的几乎独特的通路,2、3或4种菌种的比较中具有3个以下共享的koid(表5)。在所有三种的比较中,普氏粪杆菌40faa、裂果胶毛螺菌34faa和直肠真杆菌29faa具有低水平的共享的koid。产气柯林斯菌和长链多利菌42faa在三个比较中的两个中也具有低koid。这表明这五种菌种在必然的低水平冗余中可能不起主要作用。表5是2、3或4种菌种共享的kegg直系同源分配的比较的总结。表5总结了被发现具有低水平的几乎独特的通路的菌种,其具有三个以下的在2、3或4种菌种之间共享的koid。在两个以上的比较中,以黑体文字突出显示的菌种属于此类别。括号中的数字表示共享的koid的数量(冲突解决之前)。表5:2种菌种3种菌种4种菌种普氏粪杆菌40faa(2)普氏粪杆菌40faa(2)普氏粪杆菌40faa(2)裂果胶毛螺菌34faa(2)裂果胶毛螺菌34faa(3)裂果胶毛螺菌34faa(2)直肠真杆菌29faa(3)直肠真杆菌29faa(1)直肠真杆菌29faa(3)产气柯林斯菌(3)产气柯林斯菌(3)‐长链多利菌42faa(3)‐长链多利菌42faa(3)扭链瘤胃球菌30faa(3)粪罗斯氏菌39faa(1)‐梭菌21faa(3)青春双歧杆菌11faa(2)‐链状真杆菌48faa(3)肠道罗斯氏菌31faa(3)‐凸腹真杆菌47faa(3)挑剔真杆菌f1faa(2)‐最终通路分析的结果是33种初始细菌中仅有22种具有未被repoopulate系统内的任何其他细菌覆盖的独特通路。在表4可找到更新后的模型中包含的最后22种菌种的列表。显示这22种关键菌种的独特通路的kegg通路图可见于图7和8,在表12中可找到列出了这些koid所映射的通路的图表。考虑到菌株特有的通路所穿过的每个菌株的节点数量,可以更好地了解目前可能存在的独特未知通路,并且通过观察连接的节点的最高数量,我们获得了通路相关性的一些想法,因为连接的节点数越多,通路重要性的可能性就越高。对这些数据的检查显示,细菌卵状体5mm和裂果胶毛螺菌34faa具有比大多数其他菌种更高数量的独特节点(分别为12和8),然而两者的连接的节点的最高数量都只为2。这表明可能涉及未知通路。最相关的菌种似乎为拉乌尔菌属6bf7,其具有46个独特节点,连接的通路的最高数量为15。这是连接的节点的数量次高的菌种的五倍,该菌种为肠道罗斯氏菌31faa,其具有3个全部连接的独特节点(表11)。将22种关键菌种的最终koid列表与原始33种菌种的koid列表相比的比较显示了因去除在部分i中发现是冗余的8种菌株而导致的两个koid(k07768和k11695)的丢失。直肠真菌18faa的去除导致第一个koid可能丢失。这是独特的似乎在基因组组装过程中出现错误的菌种或菌株,而且相对较小的基因组尺寸具有过多的重叠群(图3c)。需要进一步的研究以确定这种菌株的真正重要性。似乎被丢失的koid(k07768)映射到用于信号转导的双组分系统内的三个调控通路,然而其中两条通路也由另一个koid(k07776)所映射,该koid仍存在于最终22种菌种生态系统的koid列表中。这表明只有一个小的通路丢失,其可能不会影响生态平衡。在冗余去除过程中丢失的第二个koid(k11695)映射到肽聚糖生物合成的单一代谢通路,并且为映射到该通路的独特koid。该koid丢失是由长双歧杆菌4fm的去除导致的。目前尚不清楚该通路的丢失是否会对生态系统的可持续性产生负面影响,需要进一步的研究以确定这种菌株是否是必要的。22种菌种的独特通路的仔细研究表明菌种数量的进一步优化是可能的。显示独特通路的图谱揭示具有非常少的独特通路的四种菌株包括:链状真杆菌48faa、普氏粪杆菌40faa、瘤胃球菌属(菌株a)和瘤胃球菌11fm,每个只映射到一个图谱要素和一个或两个通路(表12)。该证据与比较由2、3或4种菌种所共享的通路所获得的信息(表5)的结合表明,链状真杆菌48faa和普氏粪杆菌40faa可能被去除而不会导致生态系统的失衡。裂果胶毛螺菌34faa和产气柯林斯菌也显示出极少的几乎独特的通路(表5),并且仅具有很少的独特的koid和通路要素(表12;分别为3个koids6个要素和2个koid2个要素)。需要进一步的研究以确定这四种菌种的必要性,以判断它们被去除或包含在新的repoopulate生态系统原型。表12:表12(续):表12(续):部分iii:kegg通路覆盖率的比较方法在部分ii中创建的repoopulate生态系统内的通过koid复制次数确定权重的所有33种菌种的koid列表被加载到ipath2.0中,并用于创建具有蓝色线条和由每个koid的复制次数确定的权重的自定义图谱。使用ipath2.0在冲突权重之间随机选择的自动化方法解决权重冲突。完成koid列表的相同过程,并且更新由具有独特koid的22种菌种组成的优化的生态系统的权重;此图谱的线条颜色为黑色。用于比较的“健康的”人类肠道微生物组取自kurokawa等人的研究,其全部内容通过引用并入本文,ipath网站上提供了完整的具有权重的koid列表。kurokawa等人研究的目标是为了鉴定人类肠道微生物组的共同和可变的基因组特征。该研究包括对来自13名不同年龄的(包括尚未断奶的婴儿)健康日本个体的粪便样品进行的大规模比较元基因组分析。先前已将这项研究中的数据用于ipath2.0的开发中,作为其功能的演示,并且由于在时间限制下的易用性而被选择用于此比较。使用自定义图谱功能和提供的列表创建kurokawa等人的数据的ipath2.0图谱。此列表的线条颜色为红色。然后以便携式文档格式(pdf)下载所有三个数据集的自定义图谱。将这三个pdf图像作为单独的层加载到gimp2.8.10(gnu图像操作程序)中,并且通过着色至α通道来操纵透明度,使得kurokawa等人的数据和两套repoopulate通路都可以被可视化。这样做是为了直观地比较每个repoopulate生态系统与自然人肠道微生物组的实例的匹配程度以及相互之间的匹配程度,以确定kegg通路的覆盖率。还使用microsoftexcel电子数据表格比较keggid的三个列表(每个图谱一个)以及部分ii中发现的独特keggid列表。为了优化此过程,将kurokawa等人的koid与内部ipath列表相匹配,以去除没有以与部分ii中其他列表匹配的方式相同的方式映射到ipath2.0通路的任何koid。结果将完整的33种repoopulate生态系统的koid的匹配列表与kurokawa等人的koid的匹配列表进行比较,其显示了在repoopulate数据集中发现而不在kurokawa等人的数据中的635个koid,以及在kurokawa等人的数据中发现但不在repoopulate中的86个koid。在优化过程中去除的两个koid不在kurokawa等人的数据集。kurokawa等人的数据特有的koid或repoopulate特有的koid中的63个koid具有与另一个数据集特有的通路共享的通路。kurokawa等人的数据的27个独特的koid与repoopulate的独特的koid至少有一个重叠通路,并且36个独特的repoopulatekoid中至少有一个与来自kurokawa数据的独特的koid共享的通路。需要进一步的分析以更仔细地检查从repoopulate生态系统中丢失但应该存在以维持健康的肠道微生物组的确切通路。还将优化的生态系统的22种菌种中单一菌种特有的koid列表与匹配的kurokawa等人的数据集进行比较。在117个经鉴定的独特的koid中,只有14个也在kurokawaetal的数据中,在表12中将这些koid以蓝色突出显示。在仅9种菌种中发现14个单一菌种特有的并且与kurokawa等的数据匹配的koid,表明这些菌种可能为生态系统中最重要的菌种(见表4)。具有33种菌种或22种菌种的两个repoopulate版本的直观比较显示koid的复制次数仅有微小差异,没有明显的数据损失。repoopulate数据与kurokawa等人的数据的直观比较显示当与kurokawa等人的数据相比时,repoopulate数据中少数代谢通路的复制次数存在一些明显差距。在存在的大量细菌中,可能都是这种情况,因为上述事件的大多数出现在生命必需的区域代谢中,并因此存在于所有菌种中,并且对于更多种类的菌种将具有更高数量的复制。调控通路图中还有几个区域似乎在repoopulate生态系统中覆盖率不足或缺乏。这些包括氨酰基-trna生物合成通路、abc转运蛋白通路、双组分系统和尤其是细菌分泌系统的区域。为了确定repoopulate系统是否需要进一步修改以将能够调控通路的菌种并入,需要进行进一步的工作以了解这些丢失要素的重要性。讨论本报告中概述的研究设计存在若干限制。可能的错误的主要来源之一是数据集的高水平的手动操作,其会导致其自身人为错误的引入。选择的解决冲突和分类数据的方法并不理想;未来一种更自动化的、基于编程的方法将消除许多这些可能的误差来源并提高结果的有效性。本研究设计中的第二个主要问题是普遍缺乏关于细菌的代谢和生物化学通路的知识。可能的重要未知细菌通路的问题使其本身无法正确识别重要菌种以及冗余的错误识别。试图通过检查分析中的节点和通路来纠正这个错误源,然而这不能解释所有可能的未知。同样,使用程序ipath2.0也引入了未知的某个要素,因为该程序不包含所有可能的通路或没有对所有已知的kegg直系同源分配做出解释。本项目中kegg直系同源分配的比较仅着重于ipath2.0程序中的使用,既简单又易于理解。然而,这意味着在repoopulate生态系统的33个基因组中鉴定的4210个koid中只有1536个被包括在比较中,有2674个koid在该分析中未被探讨。因此,当我们对细菌的代谢和生物化学通路的理解得到改善时,关于这些通路的这些信息将被并入本发明的实施方案中。本报告部分ii中概述的分析显示了33种原始菌株中仅有22种细菌映射到独特的通路。这表明这些菌种中的一些或全部可能是生态系统内的“关键”菌种,而其他菌种可能是冗余的。这种分析没有考虑到这样一个事实,即可能需要生态系统内一定程度的冗余,未检查的某些细菌的相互作用可能是生态必需的,或未知的细菌通路可能在群落的生态平衡中发挥作用。还必须提及的是,这些菌种中仅有9种具有同样在“健康”微生物群落的实例中发现的独特的koid。需要进一步的工作以明确界定人类肠道生态系统内平衡所需的“关键”菌种和通路。用于寻找repoopulate生态系统内的冗余的最终比较被设计为着眼于与repoopulate项目的人工群落相比的天然“健康的”人类肠道细菌群落。这被证明一个挑战,因为“健康”细菌的种群尚未明确界定。由于时间限制,选择了所述的被选择用于代表“健康”人类肠道微生物组的研究数据;数据很容易获得,并且已经是本研究中使用的通路分析程序的正确格式。然而,数据来源并不理想,因为它仅包含13个个体的数据,所有个体均为日本血统,数据来源还包括尚未断奶的婴儿的数据,这可能是一个误差的来源,这是由于在发育早期阶段肠道微生物组的动态本质导致的。由于缺乏人类受试体多样性以及日本人独特的饮食习惯,所有粪便样本均来自日本个体的事实也可能是数据误差的来源。以前的研究表明,由于日本饮食中高水平的海藻,需要肠道细菌来分解该食物来源,日本人具有较高丰度的海洋细菌来源的基因。这些引入的海洋细菌基因可能会影响数据集中的通路。如果时间允许,更好的数据来源将是人类微生物群计划(humanmicrobiomeproject)或欧洲发起的metahit(europeaninitiativemetahit),这将提供更能代表北美肠道微生物组(northamericangutmicrobiome)的数据来源。实施例:创建细菌群落在优化repoopulate生态系统的过程中的接下来的步骤涉及在培养中实际建立所建议的细菌群落,以查看在去除明显冗余的菌种和菌株后是否保持了生态平衡。本研究中使用的元基因组学方法无法告诉我们所鉴定的基因是否表达以及在何种水平上表达,因此群落的实际功能活性也应该通过元转录组学(metatranscriptomics)方法进行检查。元转录组学使用已被转换为互补dna的从群落中分离出的信使rna,并在高通量平台上测序。该方法允许在微生物生态系统中表征基因表达,并且可以更好地整体理解群落的相互作用。因此,一旦创建这样的细菌群落,细菌群落将被施用于患有微生态失衡(例如但不限于ibd、ibs、uc、癌症相关的微生态失衡等)的患者,并且患者的胃肠病将得到改善。结论本研究的部分i概述的证据清楚地显示了在六种被检查菌种中的五种中的冗余。部分ii概述的证据不太清楚,但有迹象表明在repoopulate生态系统中可以找到几个其他的冗余菌种。部分iii的最后分析表明,repoopulate群落非常接近模拟健康人类肠道微生物组的代谢和调控通路。这种比较还表明,由22种而不是原始33种菌种组成的生态系统可能会产生更经济的人造细菌群落而不丧失功能或生态平衡。需要进一步的细菌培养研究以检验这一理论。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1