用于甲状腺健康问题相关病症的源自微生物群系的诊断及治疗方法和系统与流程

文档序号:15069924发布日期:2018-07-31 23:24阅读:319来源:国知局

本专利申请要求2015年9月9日提交的美国临时申请no.62/216,002的优先权,该美国临时申请整体并入本文。



背景技术:

微生物群系是与生物体相关的共栖、共生和致病微生物的生态群落。与人类细胞相比,人类微生物群系包含更多的微生物细胞,但由于样品处理技术、遗传分析技术以及用于处理大量数据的资源方面的局限性,对人类微生物群系的表征仍处于初期阶段。尽管如此,微生物群系被怀疑在许多与健康/疾病相关的状态(例如,准备分娩、糖尿病、自身免疫障碍、胃肠障碍、类风湿性障碍、神经障碍等)中起着至少部分作用。

考虑到微生物群系在影响受试者的健康方面的深刻影响,应付出与微生物群系的表征、由该表征形成见解以及生成被配置为从生态失调状态恢复的疗法相关的努力。然而,目前用于分析人类微生物群系和基于所获见解提供治疗措施的方法和系统仍然遗留许多尚未被解答的问题。特别地,由于当前技术的局限性,基于微生物群系组成特征或功能多样性特征来表征某些健康状况的方法以及针对具体受试者进行适应性调整的治疗(例如,益生菌治疗)尚不可行。

因此,在微生物学领域,需要一种用于以个体化和群体范围的方式表征健康状况的新的且有用的方法和系统。本发明提供了这样一种新的且有用的方法和系统。



技术实现要素:

一种用于对与甲状腺健康问题(例如,甲状腺功能减退或桥本病(hashimoto'sdisease))相关的微生物群系的发生进行鉴定和分类或者筛查个体中存在或不存在与甲状腺健康问题相关的微生物群系和/或确定针对具有与甲状腺健康问题相关的微生物群系组成的人类个体的治疗过程的方法,所述方法包括:

提供来自人类个体的包含微生物的样品;

确定所述样品中以下的一项或更多项的量:

(a)如表a中给出的细菌和/或古细菌分类单位或与基因功能相对应的基因序列;

(b)单细胞真核生物分类单位或与基因功能相对应的基因序列,

将所确定的量与具有截止值或概率值的病症特征或识别标志(signature)进行比较,所述截止值或概率值为具有与甲状腺健康问题相关的微生物群系组成的个体或不具有与甲状腺健康问题相关的微生物群系组成的个体或两者的微生物分类单位和/或基因序列的量的截止值或概率值;和

基于所述比较鉴定对存在或不存在与甲状腺健康问题相关的微生物群系组成的分类和/或确定针对具有与甲状腺健康问题相关的微生物群系组成的人类个体的治疗过程。

在本文描述的一些实施方案中,提及“细菌”和“细菌物质”(例如,dna)。另外或可替代地,其它微生物及其物质(例如,dna)可被检测、分类并用于本文所述的方法和组合物中,因而每次出现的“细菌”或“细菌物质”或其等同物同等地应用于其它微生物,包括但不限于古细菌、单细胞真核生物、病毒或其组合。

在一些实施方案中,提供了一种确定对指示甲状腺健康问题的微生物群系的出现的分类或筛查个体中存在或不存在指示甲状腺健康问题或与甲状腺健康问题相关的微生物群系和/或确定针对具有指示甲状腺健康问题的微生物群系的人类个体的治疗过程的方法。在一些实施方案中,所述方法包括:

提供来自人类个体的包含微生物的样品,所述微生物包括细菌(或以下微生物中的至少一种,包括:细菌、古细菌、单细胞真核生物和病毒或其组合);

确定所述样品中以下的一项或更多项的量:

如表a、b或两者中给出的细菌分类单位或与基因功能相对应的基因序列;

将所确定的量与具有截止值或概率值的疾病识别标志进行比较,所述截止值或概率值为具有指示甲状腺健康问题的微生物群系的个体或没有指示甲状腺健康问题的微生物群系的个体或两者的细菌分类单位和/或基因序列的量的截止值或概率值;和

基于该比较确定对存在或不存在指示甲状腺健康问题的微生物群系的分类和/或确定针对具有指示甲状腺健康问题的微生物群系的人类个体的治疗过程。

在一些实施方案中,所述甲状腺健康问题是:

(i)甲状腺功能减退,并且所述细菌分类单位或所述基因序列选自表a中的那些;

(ii)桥本病,并且所述细菌分类单位或所述基因序列选自表b中的那些。

在一些实施方案中,该确定包括从样品制备dna并对dna进行核苷酸测序。

在一些实施方案中,所述确定包括对来自所述样品的细菌dna进行深度测序以生成测序读段,

在计算机系统接收所述测序读段;和

用所述计算机系统将所述读段映射到细菌基因组,以确定所述读段是否映射至来自表a、b、c、d或e中的细菌分类单位或基因序列的序列;以及

确定所述样品中不同序列的相对量,该不同序列对应于来自表a、b或两者的细菌分类单位或与基因功能相对应的基因序列的序列。

在一些实施方案中,深度测序是随机深度测序。

在一些实施方案中,深度测序包括对16srrna编码序列进行的深度测序。

在一些实施方案中,该方法进一步包括从人类个体获得生理信息、人口统计学信息或行为信息,其中疾病识别标志包括生理信息、人口统计学信息或行为信息;并且所述确定包括将所获得的生理信息、人口统计学信息或行为信息与疾病识别标志中的相应信息进行比较。

在一些实施方案中,所述样品是以下项中的至少一种:来自人类个体的粪便、血液、唾液、颊拭子、尿液或体液。

在一些实施方案中,所述方法进一步包括确定人类个体可能具有指示甲状腺健康问题的微生物群系;和治疗人类个体以改善指示甲状腺健康问题的微生物群系的至少一种症状。

在一些实施方案中,所述治疗包括向缺乏表a、b或两者中列出的细菌分类单位中的一个或更多个细菌的人类个体施用一定剂量的所述一个或更多个细菌。

还提供了用于确定对存在或不存在指示甲状腺健康问题的微生物群系的分类和/或确定针对具有指示甲状腺健康问题的微生物群系的人类个体的治疗过程的方法。在一些实施方案中,该方法包括通过计算机系统进行:

接收获自对来自所述人类个体的测试样品进行分析的细菌dna的序列读段;

将所述序列读段映射到细菌序列数据库以获得多个经映射的序列读段,所述细菌序列数据库包括多种细菌的多条参考序列;

基于所述映射将经映射的序列读段分配给序列组以获得被分配给至少一个序列组的经分配的序列读段,其中序列组包括多条参考序列中的一条或更多条;

确定经分配的序列读段的总数;

对于选自表a、b或两者的一个或更多个序列组的疾病识别标志集中的每个序列组:

确定被分配给所述序列组的经分配序列读段相对于经分配序列读段的总数的相对丰度值,所述相对丰度值形成测试特征向量;

将所述测试特征向量与由具有已知的甲状腺健康状态的基准样品的相对丰度值生成的基准特征向量进行比较;并

基于该比较确定对存在或不存在指示甲状腺健康问题的微生物群系的分类和/或确定针对具有指示甲状腺健康问题的微生物群系的人类个体的治疗过程。

根据权利要求11所述的方法,其中所述比较包括:

将所述基准特征向量聚类成不具有指示甲状腺健康问题的微生物群系的对照聚类和具有指示甲状腺健康问题的微生物群系的疾病聚类;和

确定所述测试特征向量属于哪个聚类。

在一些实施方案中,聚类包括使用bray-curtis不相似度。

在一些实施方案中,比较包括将测试特征向量的每个相对丰度值与由基准样品所生成的基准特征向量确定的相应截止值进行比较。

在一些实施方案中,该比较包括:

将所述测试特征向量的第一相对丰度值与疾病概率分布进行比较,以获得具有指示甲状腺健康问题的微生物群系的人类个体的疾病概率,所述疾病概率分布由具有指示甲状腺健康问题的微生物群系并显示出所述序列组的多个样品确定;

将所述第一相对丰度值与对照概率分布进行比较,以获得不具有指示甲状腺健康问题的微生物群系的人类个体的对照概率,其中所述疾病概率和所述对照概率被用于确定对存在或不存在指示甲状腺健康问题的微生物群系的分类和/或确定针对具有指示甲状腺健康问题的微生物群系的人类个体的治疗过程。

在一些实施方案中,序列读段被映射到参考序列的一个或更多个预定区域。

在一些实施方案中,疾病识别标志集包括至少一个分类组和至少一个功能组。

在一些实施方案中,所述甲状腺健康问题是:

(i)甲状腺功能减退,并且所述序列组选自表a中的那些;

(ii)桥本病,并且所述序列组选自表b中的那些。

在一些实施方案中,分析包括深度测序。

在一些实施方案中,深度测序读段是随机深度测序读段。

在一些实施方案中,深度测序读段包括16srrna深度测序读段。

在一些实施方案中,所述方法进一步包括:

接收来自所述人类个体的生理信息、人口统计学信息或行为信息;和

使用所述生理信息、人口统计学信息或行为信息结合所述分类并对所述测试特征向量与所述基准特征向量进行比较来确定对存在或不存在指示甲状腺健康问题的微生物群系的分类和/或确定针对具有指示甲状腺健康问题的微生物群系的人类个体的治疗过程。

在一些实施方案中,进一步包括从样品制备dna并对dna进行核苷酸测序。

还提供了非暂时性计算机可读介质,其存储多个指令,所述多个指令在由计算机系统执行时进行本文所述的方法。

还提供了一种用于针对至少一个受试者进行表征、诊断和治疗甲状腺健康问题中的至少一者的方法。在一些实施方案中,所述方法包括:

·在样品处理网络处,接收来自受试者群体的样品集合;

·在与样品处理网络通信的计算系统处,在利用片段化操作、使用引物集进行的多路复用扩增操作、测序分析操作和比对操作处理所述样品集合中的每一个的核酸内容物后,生成所述受试者群体的微生物群系组成数据集和微生物群系功能多样性数据集;

·在所述计算系统处,接收与所述受试者群体的至少一个子集相关的补充数据集,其中所述补充数据集提供与所述甲状腺健康问题相关的特征的信息;

·在所述计算系统处,将补充数据集和从所述微生物群系组成数据集和所述微生物群系功能多样性数据集中的至少一个中提取的特征转化成所述甲状腺健康问题的表征模型;

·基于所述表征模型,生成被配置成矫正所述甲状腺健康问题的治疗模型;和

·在与所述受试者相关联并且与所述计算系统通信的输出设备处,在利用所述表征模型处理来自受试者的样品后,根据所述治疗模型促进对具有所述甲状腺健康问题的所述受试者的治疗。

在一些实施方案中,生成所述表征模型包括进行统计分析以测定微生物群系组成特征集和微生物群系功能特征集,所述微生物群系组成特征集和所述微生物群系功能特征集在受试者群体的第一子集和受试者群体的第二子集之间有变化,所述受试者群体的第一子集表现出所述甲状腺健康问题,所述受试者群体的第二子集未表现出所述甲状腺健康问题。

在一些实施方案中,生成所述表征模型包括:

·提取与所述微生物群系组成数据集中示出的微生物群系组分的功能方面集相关的候选特征,以生成微生物群系功能多样性数据集;和

·表征与所述功能方面集的子集相关的心理健康问题,所述子集来源于系统功能特征、化学功能特征和来自京都基因和基因组百科全书(kegg)的基因组功能特征、蛋白质特征的直系同源组的聚类中的至少一个。

在一些实施方案中,生成甲状腺健康问题的表征模型包括生成对甲状腺功能减退或桥本病的至少一种症状的诊断的表征。

在一些实施方案中,其述生成所述甲状腺健康问题的表征模型包括生成对甲状腺功能减退的至少一种症状的诊断的表征,并且生成对甲状腺功能减退的至少一种症状的诊断的表征包括在处理所述样品集合并确定存在源自1)表a的分类单位的集合和2)表a的一个或更多个功能组的集合的特征之后生成所述表征。

在一些实施方案中,其述生成所述甲状腺健康问题的表征模型包括生成对桥本病的至少一种症状的诊断的表征,并且生成对桥本病的至少一种症状的诊断的表征包括在处理所述样品集合并确定存在源自1)表b的分类单位的集合和2)表b的一个或更多个功能组的集合的特征之后生成所述表征。

还提供了一种用于表征甲状腺健康问题的方法,所述方法包括:

·在处理来自受试者群体的样品集合后,生成所述受试者群体的微生物群系组成数据集和微生物群系功能多样性数据集中的至少一个,所述微生物群系功能多样性数据集指示存在于所述样品集合的所述微生物群系组成中的系统功能;

·在计算系统处,将所述微生物群系组成数据集和所述微生物群系功能多样性数据集中的至少一个转化成所述甲状腺健康问题的表征模型,其中所述表征模型诊断产生观察到的牙齿和/或牙龈健康变化的甲状腺健康问题;和

·基于所述表征模型,生成被配置为改善所述甲状腺健康问题的状态的治疗模型。

在一些实施方案中,生成所述表征包括利用统计分析来分析来自所述微生物群系组成数据集的特征集,其中所述特征集包括与以下相关的特征:所述微生物群系组成数据集中示出的不同分类组的相对丰度、所述微生物群系组成数据集中示出的不同分类组之间的相互作用,以及所述微生物群系组成数据集中示出的分类组之间的系统发生距离。

在一些实施方案中,生成所述表征包括使用kolmogorov-smirnov检验和t检验中的至少一个来进行统计分析,以测定微生物群系组成特征集和微生物群系功能特征集,所述微生物群系组成特征集和所述微生物群系功能特征集在受试者群体的第一子集和受试者群体的第二子集中具有不同程度的丰度,所述受试者群体的第一子集表现出所述甲状腺健康问题,所述受试者群体的第二子集未表现出所述甲状腺健康问题,其中生成所述表征进一步包括使用bray-curtis不相似度进行聚类。

在一些实施方案中,生成所述表征模型包括在处理所述样品集合并确定存在源自1)表a的分类单位的集合和2)表a的一个或更多个功能组的集合的特征后,生成对甲状腺功能减退问题的至少一种症状的诊断的表征。

在一些实施方案中,生成所述表征模型包括在处理所述样品集合并确定存在源自1)表b的分类单位的集合和2)表b的一个或更多个功能组的集合的特征后,生成对桥本病问题的至少一种症状的诊断的表征。

在一些实施方案中,进一步包括在利用所述表征模型处理来自受试者的样品后诊断具有所述甲状腺健康问题的受试者;以及在与所述受试者相关的输出设备处,基于所述表征模型和所述治疗模型促进对具有所述甲状腺健康问题的受试者的治疗。

在一些实施方案中,促进所述治疗包括促进对所述受试者的基于噬菌体的治疗,所述基于噬菌体的治疗提供选择性地下调与所述甲状腺健康问题相关的非期望分类单位的群体大小的噬菌体组分。

在一些实施方案中,基于所述治疗模型,促进所述治疗包括促进对所述受试者的益生元治疗,所述益生元治疗影响微生物组分,所述微生物组分选择性地支持与矫正所述甲状腺健康问题相关的期望分类单位的群体大小增加。

在一些实施方案中,基于所述治疗模型,促进所述治疗包括促进对所述受试者的益生菌治疗,所述益生菌治疗影响所述受试者的微生物组分,以促进所述甲状腺健康问题的矫正。

在一些实施方案中,促进所述治疗包括促进对所述受试者的微生物群系修饰治疗,以改善与甲状腺健康相关症状的状态。

附图说明

图1a是如下所述方法的一个实施方案的流程图,该方法用于确定对存在或不存在甲状腺健康问题的分类和/或确定针对有甲状腺健康问题的人类个体的治疗过程。

图1b是如下所述方法的一个实施方案的流程图,该方法用于确定对存在或不存在甲状腺健康问题的分类和/或确定针对有甲状腺健康问题的人类个体的治疗过程。

图1c是如下所述方法的一个实施方案的流程图,该方法用于评估来自样品的多个分类单位的相对丰度并将评估结果输出至数据库。

图1d是如下所述方法的一个实施方案的流程图,该方法用于生成源自生物样品或生物样品的集合的组成和/或功能组分的特征。

图1e是如下所述方法的一个实施方案的流程图,该方法用于表征与微生物群系相关的病症和鉴定治疗措施。

图1f是如下所述方法的一个实施方案的流程图,该方法用于生成源自微生物群系的诊断。

图2描绘了用于生成源自微生物群系的诊断和疗法的方法和系统的一个实施方案。

图3描绘了用于生成源自微生物群系的诊断和疗法的方法的一个实施方案的一部分的变化形式。

图4描绘了在用于生成源自微生物群系的诊断和疗法的方法和系统的一个实施方案中生成模型的过程的变化形式。

图5描绘了在用于表征健康状况的方法的一个实施方案中实施的疗法(例如,基于益生菌或基于益生元的疗法)的机制的变化形式。

图6描绘了在用于生成源自微生物群系的诊断和疗法的方法的一个实施例中与治疗相关的通知(notification)的实例。

图7示出了说明桥本病的对照分布和疾病分布的图,其中,序列组为根据本发明的一些实施方案的属分类组中的moryella。

图8示出了说明桥本病的对照分布和疾病分布的图,其中,序列组为根据本发明的一些实施方案的功能分类组中的肽酶。

图9示出了说明甲状腺功能减退的对照分布和疾病分布的图,其中,序列组为根据本发明的一些实施方案的科分类组中的moryella。

图10示出了说明甲状腺功能减退的对照分布和疾病分布的图,其中,序列组为根据本发明的一些实施方案的功能分类组中的核糖体生物合成。

具体实施方式

发明人发现,对个体微生物群系的表征可用于检测指示甲状腺健康问题(例如,甲状腺功能减退或桥本病)的微生物群系。例如,可以对具有指示甲状腺健康问题(例如,甲状腺功能减退或桥本病)的症状的个体被或怀疑有甲状腺健康问题的个体进行测试,以证实或提供进一步证据来支持或反驳该受试者的诊断。作为另一个实例,可以对个体进行测定以确定他们是否具有可能增加甲状腺健康问题(例如,甲状腺功能减退或桥本病)风险的微生物群系。作为另一个实例,可以对患有或被怀疑患有甲状腺健康问题(例如,甲状腺功能减退或桥本病)或者有甲状腺健康问题(例如,甲状腺功能减退或桥本病)史的个体进行测定以确定微生物群系是否可能是致病因素、或者是否可能增加甲状腺健康问题的频率或严重程度。

在本文中,将有甲状腺功能减退或桥本病的症状,或者患有甲状腺功能减退或桥本病,或者具有引起甲状腺功能减退或桥本病或者增加甲状腺功能减退或桥本病的频率或严重程度的微生物群系(例如,肠道或粪便微生物群系)的个体称为有“甲状腺健康问题”。类似地,在本文中,将有甲状腺功能减退症状,或者具有引起甲状腺功能减退或增加甲状腺功能减退的频率或严重程度的微生物群系(例如,肠道或粪便微生物群系)的个体称为有“甲状腺功能减退问题”。同样,将有桥本病的症状,或者患有桥本病,或者具有引起桥本病或者增加桥本病的频率或严重程度的微生物群系(例如,肠道或粪便微生物群系)的个体称为有“桥本病问题”。

这样的表征对个体进行筛查以筛查出有甲状腺健康问题的个体和/或确定针对有甲状腺健康问题的个体的治疗过程同样是有用的。例如,通过对来自对照(健康的,或至少没有甲状腺健康问题)个体和患病个体(有甲状腺健康问题)的细菌dna进行深度测序,发明人发现,某些细菌和/或对应于某些遗传途径的细菌序列的量可用于预测存在或不存在甲状腺健康问题。在一些情况下,如下文中更详细地讨论的,所述细菌和遗传途径在有甲状腺健康问题或者有特定甲状腺健康问题的个体中以一定丰度存在,而该细菌和遗传途径在没有甲状腺健康问题或者没有特定甲状腺健康问题的对照个体中以统计学上不同的丰度存在。

i.细菌组

在表a中可以找到特定甲状腺健康问题甲状腺功能减退与细菌组(也称为分类组)和/或遗传途径(也称为功能组)的这些关联的细节。在确定与特定组(特征)相对应的序列读段的量的上下文中,将分类组和功能组统称为特征或序列组。可以根据对丰度值与已知样品的一个或更多个参考(基准)丰度值的比较来确定对特定细菌或遗传途径的记录,例如,其中根据特定标准,所检测到的丰度值小于一定值与甲状腺功能减退问题相关,将所检测到的丰度值大于该一定值记录为与不存在甲状腺功能减退问题相关。类似地,根据特定标准,所检测到的丰度值大于一定值可以与甲状腺功能减退问题相关,并且可以将所检测到的丰度值低于该一定值记录为与缺乏甲状腺功能减退问题或不指示甲状腺功能减退问题的微生物群系相关。可以将对各种细菌或遗传途径的记录相结合来提供对受试者的分类。

表a

在表b中可以找到特定甲状腺健康问题桥本病与细菌组(也称为分类组)和/或遗传途径(也称为功能组)的这些关联的细节。可以根据对丰度值与已知样品的一个或更多个参考(基准)丰度值的比较来确定对特定细菌或遗传途径的记录,例如,其中根据特定标准,所检测到的丰度值小于一定值与桥本病问题相关,将所检测到的丰度值大于该一定值记录为与不存在桥本病问题相关。类似地,根据特定标准,所检测到的丰度值大于一定值可以与桥本病问题相关,并且可以将所检测到的丰度值低于该一定值记录为与缺乏桥本病问题或不指示桥本病问题的微生物群系相关。可以将对各种细菌或遗传途径的记录相结合来提供对受试者的分类。

表b

丰度值与一个或更多个参考丰度值的比较可涉及与由一个或更多个参考值确定的截止值进行比较。这样的截止值可以是使用参考丰度值确定的决策树或聚类技术(其中使用截止值来确定丰度值属于哪个聚类)的一部分。该比较可以包括对诸如概率值的其它值的中间确定。该比较还可以包括丰度值与参考丰度值的概率分布的比较,并且因而包括与概率值的比较。

发明人已经通过对与来自有甲状腺功能减退问题的受试个体和没有甲状腺功能减退问题的对照个体的样品相关的细菌dna进行深度测序并确定易于区分受试个体与对照个体的那些标准,鉴定出了表a中所列出的特定细菌分类单位和遗传途径。类似地,发明人已经通过对与来自有桥本病问题的受试个体和没有桥本病问题的对照个体的样品相关的细菌dna进行深度测序并确定易于区分受试个体与对照个体的那些标准,鉴定出了表b中所列出的特定细菌分类单位和遗传途径。

深度测序允许确定足够数量的dna序列拷贝以确定样品中相应细菌或遗传途径的相对量。已经鉴定出表a和b中的标准,现在可以通过利用任何定量检测方法检测表a或b中的一个或更多个(例如,2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25或更多个)选项来检测有甲状腺健康问题的个体。在一些情况下,现在可以通过利用任何定量检测方法检测表a或b中的约1至约20、约2至约15、约3至约10、约1至约10、约1至约15、约1至约5、或约5至约30个选项来检测有甲状腺健康问题的个体。例如,尽管可以使用深度测序来检测表a或b中的一个或更多个选项的存在、不存在或量,但也可使用其它检测方法,包括但不限于蛋白质检测方法。例如,无意于限制本发明的范围,可以使用基于蛋白质的诊断方法(例如免疫测定)来通过检测分类单位特异性蛋白质标志物来检测细菌分类单位。

作为这些发现(例如,如表a和b中所给出的)的结果,可以设计治疗以改善甲状腺健康问题的一种或更多种症状和/或减轻或降低甲状腺健康问题的频率和/或严重程度。作为一个非限制性实施例,可以确定有甲状腺健康问题的个体是否缺乏表a中所列出的细菌中的一种或更多种类型或者具有这些类型的降低的丰度,如果是这样的话,则可向该个体施用细菌中的一种或更多种类型。另外或可替代地,可以确定有甲状腺健康问题的个体是否缺乏表a中所列出的细菌中的一种或更多种类型或者具有这些类型的降低的丰度,如果是这样的话,则可向该个体施用促进细菌中的一种或更多种类型生长的益生元。另外或可替代地,可以确定有甲状腺健康问题的个体是否具有表a中所列出的细菌中的一种或更多种类型的升高的丰度,如果是这样的话,则可向该个体施用降低这样的细菌的丰度的靶向治疗(例如,噬菌体治疗或选择性抗生素治疗)。

作为另一个非限制性实施例,可以确定有桥本病问题的个体是否缺乏表b中所列出的细菌中的一种或更多种类型或者具有这些类型的降低的丰度,如果是这样的话,则可向该个体施用细菌中的一种或更多种类型。另外或可替代地,可以确定有桥本病问题的个体是否缺乏表b中所列出的细菌中的一种或更多种类型或者具有这些类型的降低的丰度,如果是这样的话,则可向该个体施用促进细菌中的一种或更多种类型生长的益生元。另外或可替代地,可以确定有桥本病问题的个体是否具有表b中所列出的细菌中的一种或更多种类型的升高的丰度,如果是这样的话,则可向该个体施用降低这样的细菌的丰度的靶向治疗(例如,噬菌体治疗或选择性抗生素治疗)。

ii.确定甲状腺健康问题的可能性

在一些实施方案中,提供了一种确定个体是否有甲状腺健康问题或有甲状腺健康问题的可能性的方法。如本文所述,有甲状腺健康问题的个体可以表现出微生物群系中的一个或更多个分类组增加、微生物群系中的一个或更多个分类组减少、微生物群系中的一个或更多个功能组增加、微生物群系中的一个或更多个功能组减少或其组合(例如,相对于对照/健康个体或者对照或健康个体的群体)。

该方法可以包括以下步骤中的一个或更多个:

从个体获得样品;

对来自样品的核酸(例如,dna)进行纯化;

对来自样品的核酸进行深度测序以确定表a、b或两者中所列出的特征中的一个或更多个(例如,2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或者更多个(如全部),例如1至20、2至15、3至10、1至10、1至15、1至5或5至30个)的量;和

将每个特征的所得量与表a、b或两者中列出的特征中的一个或更多个的参考量(如在有甲状腺健康问题的普通个体或没有甲状腺健康问题的个体或两者中发生的)进行比较。有时可将特征的汇编称为针对特定疾病(即,甲状腺健康问题,例如甲状腺功能减退或桥本病)的“疾病识别标志”或针对特定病症的“病症识别标志”。疾病识别标志可以充当特征模型,并且可以包括对照群体(无甲状腺健康问题)或患病(甲状腺健康问题)的疾病群体或两者的概率分布。疾病识别标志可以包括表a、b或两者中的特征(例如,细菌分类单位或遗传途径)中的一个或更多个,并且可以可选地包括由对照群体和/或疾病群体的丰度值确定的标准。示例性标准可以包括与普通对照个体(无甲状腺健康问题)或患病(甲状腺健康问题)的个体相关的那些特征的量的截止值或概率值。

个体具有指示甲状腺健康问题的微生物群系(例如,如表a或b中所列出的)的可能性是指来自个体的样品的结果可能与甲状腺健康问题相关的可能性(置信度)。或者,可以简单地筛查甲状腺健康问题,即,可以生成针对存在或不存在指示甲状腺功能减退或桥本病的微生物群系的是或否的指示。在一些实施方案种,个体尚未被诊断为患有甲状腺功能减退症或桥本病,或者甲状腺功能减退问题或桥本病问题。在其它实施例中,个体可以已经通过其它方法进行了初步诊断,并且本文所述的方法可以用于提供初始诊断的更好(或更差)的置信度。

可以使用来自个体的任何类型的含有细菌的样品。示例性样品类型包括例如来自个体的粪便样品、血液样品、唾液样品、咽拭子、颊拭子、牙龈拭子、尿液或其它体液。可以从样品中纯化核酸(例如,dna和/或rna)。公开一般分子生物学方法的基本文献包括:sambrook和russell,molecularcloning,alaboratorymanual(第3版,2001);kriegler,genetransferandexpression:alaboratorymanual(1990);和currentprotocolsinmolecularbiology(ausubel等编著,1994-1999)。这样的核酸还可以通过体外扩增方法获得,例如本文和以下文献中描述的那些:berger,sambrook和ausubel以及mullis等(1987),美国专利no.4,683,202;pcrprotocolsaguidetomethodsandapplications(innis等,编著)academicpressinc.sandiego,calif.(1990)(innis);arnheim&levinson(1990年10月1日)c&en36-47;thejournalofnihresearch(1991)3:81-94;kwoh等(1989)proc.natl.acad.sci.usa86:1173;guatelli等(1990)proc.natl.acad.sci.usa87,1874;lomell等(1989)j.clin.chem.,35:1826;landegren等,(1988)science241:1077-1080;vanbrunt(1990)biotechnology8:291-294;wu和wallace(1989)gene4:560;以及barringer等(1990)gene89:117,这些文献中的每一个通过引用整体并入用于所有目的并且尤其是对于与扩增方法相关的全部教导而言。在一些实施方案中,核酸在被定量之前不会被扩增。

可以使用各种检测方法中的任何一种来筛选个体的样本以获得表a、b或两者中列出的一项或多项功能。例如,在一些实施方案中,核酸杂交和扩增方法被用来检测或量化一个或更多个特征。在一些实施方案中,可以使用免疫测定或用于检测和量化决定一个或更多个标准的一种或更多种具体蛋白质的其它测定。例如,通常使用固相elisa免疫测定、western印迹或免疫组化来特异性地检测蛋白质。参见,harlow和laneantibodies,alaboratorymanual,coldspringharborpublications,ny(1988)中对可用于确定特异性免疫反应性的免疫测定形式和条件的描述。在一些优选的实施方案中,使用核苷酸测序来鉴定和量化一个或更多个标准。

可以根据需要进行dna测序。这样的测序可以使用已知的测序方法进行,例如,illumina、lifetechnologies和roche454测序系统。在一些典型的实施方案中,使用提供从许多读段(reads)获得序列信息的能力的大规模测序方法对样品进行测序。这样的测序平台包括由roche454lifesciences(gs系统)、illumina(例如,hiseq、miseq)和lifetechnologies(例如,solid系统)商业化的那些测序平台。

罗氏454lifesciences测序平台涉及使用微乳滴pcr(emulsionpcr)并将dna片段固定到珠子上。通过测量在掺入核苷酸时产生的光来检测合成期间核苷酸的掺入。

illumina技术涉及将基因组dna附接至平坦的光学透明表面。附接的dna片段延伸并桥接扩增以产生具有含相同模板拷贝的簇的超高密度测序流动槽(flowcell)。使用边测序边合成技术对这些模板进行测序,该边测序边合成技术采用带有可去除的荧光染料的可逆终止子。

还可以使用采用边杂交边测序的方法。这样的方法(例如在lifetechnologiessolid4+技术中使用的)使用根据序列进行标记的具有固定长度的所有可能的寡核苷酸的池(pool)。对寡核苷酸进行退火和连接;为了匹配序列通过dna连接酶进行的优先连接使得得到提供该位置处核苷酸的信息的信号。

可以使用任何其它dna测序方法来确定序列,包括例如使用半导体技术通过测量掺入核苷酸时发生的电流变化来检测掺入延伸的引物中的核苷酸的方法(参见,例如,美国专利申请公开no.20090127589和20100035252)。其它技术包括直接无标记核酸外切酶测序,其中通过穿过纳米孔(oxfordnanopore)检测从核酸切下的核苷酸(clark等,naturenanotechnology4:265-270,2009);和单分子实时(smrttm)dna测序技术(pacificbiosciences),其为一种边测序边合成技术。

深度测序可用于量化样品中特定序列的拷贝数,于是也可用于确定样品中不同序列的相对丰度。深度测序是指对核酸序列的高度冗余测序,例如使得可以确定或估计样品中序列的原始拷贝数。测序的冗余度(即,深度)由待确定序列的长度(x)、测序读段数(n)和平均读段长度(l)来确定。冗余度于是为nxl/x。测序深度是或者可以是至少约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、70、80、90、100、110、120、130、150、200、300、500、500、700、1000、2000、3000、4000、5000或更多。参见,例如mirebrahim,hamid等,bioinformatics31(12):i9-il6(2015)。

在一些实施方案中,可以靶向样品中的特定序列用于扩增和/或测序。例如,可以使用特异性引物来检测和测序细菌目标序列。示例性靶序列可以包括但不限于16srrna编码序列(例如,在框s120的讨论中提及的基因家族)以及如表a、b或两者中所示的一个或更多个遗传途径所涉及的基因序列。另外或可替代地,可以使用对样品中的dna片段进行随机测序的全基因组测序方法。

一旦生成测序原始数据,即可将所得到的序列读段“映射”到基因组数据库中的已知序列。适用于确定序列同一性百分比和序列相似性并且因而比对和鉴定序列读段的示例性算法是blast和blast2.0算法,其分别描述于altschul等,(1990)j.mol.biol.215:403-410和altschul等(1977)nucleicacidsres.25:3389-3402中。用于进行blast分析的软件可通过美国国家生物技术信息中心(ncbi)网站公开获得。因此,对于生成的序列读段,这些读段的子集将与表a、b或两者中的细菌分类单位的一个或更多个细菌基因组进行比对,或者这些读段可以与具有表a、b或两者中给出的遗传功能的任何基因组中的基因序列进行比对。例如,可以将读段与细菌序列数据库进行比对,如果该读段与来自数据库中的具体细菌的dna序列具有最佳比对,则可以将该读段指定为来自该具体细菌。

类似地,可以将读段与细菌序列数据库进行比对,如果该读段与来自数据库中的遗传途径的dna序列具有最佳比对,则可以将该读段指定为来自该遗传途径。例如,可以将读段分配给来自特定的京都基因和基因组百科全书(kegg)类别或直系同源组(cog)类别的聚类的序列。kegg在genome.jp/kegg/处有更多描述。cog描述于例如tatusov等,nucleicacidsres.2000年1月1日;28(1):33-36中。本文提供的表格列出了与存在或不存在指示甲状腺健康问题的微生物群系相关的kegg和cog各种类别。表a、b或两者中提供了kegg和cog类别的不同水平。表a和b中用于特定标准的值是与该分类或功能指定级别的总和相比的比例值

假设测序已经以足够的深度发生,那么可以量化指示存在表a、b或两者中的特征的序列的读段的数目,从而允许将标准之一的估计量设定为某值。读段的数目或特征之一的量的其它量度可以被提供为绝对值或相对值。绝对值的一个例子是映射到类杆菌属的16srrna编码序列读段的读段数目。或者,可以确定相对量。示例性相对量计算是为了确定特定细菌分类单位(例如,属、科、目、纲或门)的16srrna编码序列读段的相对于被分配给细菌结构域的16srrna编码序列读段总数的量。然后可以将指示样品中的特征的量的值与指示甲状腺健康问题的微生物群系的疾病识别标志中的截止值或概率分布进行比较。例如,如果该识别标志指示特征#1的相对量为在该级别上可能的所有特征的50%或更多表明指示甲状腺健康问题的微生物群系的可能性,则对样品中与特征#1相关的基因序列的定量小于50%将表明不指示甲状腺健康问题的微生物群系的可能性更高,或者,对样品中与特征#1相关的基因序列的定量超过50%将表明指示甲状腺健康问题的微生物群系的可能性更高。

一旦表a、b或两者中各种特征的量已经确定并与针对甲状腺健康问题的疾病识别标志中的对应标准的截止值或概率值进行了比较,即可确定个体中指示甲状腺健康问题的微生物群系的可能性。

疾病识别标志可以包括对应于表a、b或两者中给出的一个或至少一个特征的标准。在一些实施方案中,表a中的2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个(例如,全部)标准可用于针对指示甲状腺功能减退问题的微生物群系的疾病识别标志中。在一些实施方案中,表b中的2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个(例如,全部)标准可用于针对指示桥本病问题的微生物群系的疾病识别标志中。

在一些实施方案中,关于个体的补充信息也可用于疾病识别标志中,并因而也用于确定个体中指示甲状腺健康问题的微生物群系出现的可能性。补充信息可以包括例如不同的人口统计学特征(例如,性别、年龄、婚姻状态、种族、民族、社会经济状态、性取向等)、不同的健康状况(例如,健康状态和疾病状态)、不同的生活情形(例如,独居、与宠物一起生活、与重要他人一起生活、与孩子一起生活等)、不同的饮食习惯(例如,杂食、素食、严格素食、糖消耗、酸消耗等)、不同的行为倾向(例如,身体活动水平、药物使用、酒精使用等)、不同的移动性水平(例如,与给定时间段内行进的距离有关)、生物标志物状态(例如,胆固醇水平、脂质水平等)、体重、身高、体质指数、遗传型因素以及对微生物群系组成有影响的任何其它合适的性状。

图1a是如下所述方法的一个实施方案的流程图,该方法用于确定对存在或不存在指示甲状腺健康问题(如甲状腺功能减退或桥本病)的微生物群系的分类和/或确定针对具有指示甲状腺健康问题(如甲状腺功能减退或桥本病)的微生物群系的人类个体的治疗过程。

在框11中,提供来自人类个体的包含细菌的样品。在一些具体实施例中,样品可以包括粪便样品、血液样品、唾液样品、血浆/血清样品(例如,使得能够提取无细胞dna)、脑脊髓液和组织样品。在一些情况下,该样品是口腔样品(例如,咽喉、舌或牙龈拭子或唾液)或从口腔样品中提取的样品(例如,诸如dna样品的核酸样品)。

在框12中,确定如表a、b或两者中给出的细菌分类单位和/或与基因功能相对应的基因序列的量。作为各种示例,可以确定一个细菌分类单位的量;可以确定与基因功能相对应的一条基因序列的量;可以确定一个细菌分类单位的量和与基因功能相对应的一条基因序列的量;可以确定细菌分类单位的多个量(例如,2至4个);可以确定与基因功能相对应的多条基因序列的多个量(例如,2至6个);并且可以确定两者的多个量。

可以以各种方式确定该量,例如,通过对样品中的核酸进行测序,使用杂交阵列和pcr。作为示例,该量可以对应于与每个分类单位相对应的核酸的信号水平或计数。该量可以是相对丰度值。

在框13中,将所确定的量与具有截止值或概率值的病症识别标志进行比较,所述截止值或概率值为具有指示甲状腺健康问题的微生物群系的个体或没有指示甲状腺健康问题的微生物群系的个体或两者的细菌分类单位和/或基因序列的量的截止值或概率值。在各种实施方案中,可以将每个量与单独的值进行比较,并且可以将超过该值的多个分类单位与阈值进行比较以确定是否足够数目的分类单位提供了病症识别标志。本文中提供了其它实施例。在与概率值进行比较之前,可以对该量进行转化(例如,通过概率分布)。作为另一个例子,这些量可用于确定概率量度,可以将其与概率值进行比较,从而对分类进行区分。

在框14中,基于该比较确定对存在或不存在指示甲状腺健康问题的微生物群系的分类,和/基于该比较确定针对具有指示甲状腺健康问题的微生物群系的人类个体的治疗过程。如本文所述,该分类可以是二元的或包括更多级别,例如,对应于概率。

iii.对与所述疾病相关的问题的治疗

还提供了确定针对具有指示甲状腺健康问题的微生物群系的个体的治疗过程和/或可选地对其进行治疗的方法。例如,通过检测表a或b中给出的标准中的一个或更多个的存在、不存在或量,可以确定治疗以增加那些与健康个体(即,具有不指示甲状腺健康问题的微生物群系的个体)相比在具有病症/疾病的个体(即,具有指示甲状腺健康问题的微生物群系的个体)中降低的标准,或者以降低这些与健康个体(即,具有不指示甲状腺健康问题的微生物群系的个体)相比在患该疾病(甲状腺健康问题)的个体中增加的标准。在一些实施方案中,可选地通过其它方法将个体诊断为具有与甲状腺健康问题或其症状相关的微生物群系,并且本文所述的方法(例如,与疾病识别标志相比较)将披露特征中的一个或更多个的的量过量和/或缺乏,于是可用于指导治疗。

例如,在其中具有指示甲状腺健康问题的微生物群系的个体中的特定细菌类型的量低于具有不指示甲状腺健康问题的微生物群系的个体中的特定细菌类型的量的实施方案中,可能的治疗是提供益生菌或益生元治疗,其提供或刺激特定细菌类型的生长。

在其中具有指示甲状腺健康问题的微生物群系的个体中细菌的量较高的实施方案中,可以施用减少该特定细菌的相对量的治疗。在一些实施方案中,可以施用抗生素以减少目标细菌群体。或者,可以施用其它治疗,包括促进(通过施用益生菌或益生元)与目标细菌竞争的细菌。在又一个实施方案中,可以向所述个体施用针对特定细菌的噬菌体。

类似地,在指明特定功能(例如,kegg或cog分类)的情况下,可以通过选择性促进或减少具有特定功能的细菌种群的生长来提高或降低该功能。

例如,在图5中列出了其它治疗机制。

此外,可以通过以下所述来监测对具有指示甲状腺健康问题的微生物群系的个体的治疗以监测甲状腺健康问题的进展(例如,监测甲状腺功能减退或桥本病的进展):在治疗甲状腺健康问题之前、期间和/或之后从个体获取样品,或者在治疗之前、期间和/或之后减轻甲状腺健康问题的症状(例如,益生元、益生菌或噬菌体治疗)或其组合。例如,在一些实施方案中,表a、b或两者中的一个或更多个标准的水平被确定一次或更多(例如,2或更多,3、4、5或更多)次,并且可以根据标准对治疗作出何响应来上调或下调益生元和/或益生菌治疗的剂量。

iv.序列信息分析

在一些实施方案中,可以接收序列信息。序列信息可对应于每个核酸分子(例如,dna片段)的一个或更多个序列读段。序列读段可以以各种方式获得。例如,可以使用杂交阵列、pcr或测序技术。

当进行测序时,可以将序列读段与多个参考细菌基因组(也称为参考基因组)进行比对(映射),以确定序列读段对准哪个参考细菌基因组以及该序列读段对准该参考基因组上的何位置处。比对可以是与参考基因组的特定区域(例如,16s区域)进行比对,并且因而与参考序列进行比对,参考序列可以是参考基因组的全部或一部分。对于配对末端测序,两个序列读段可以作为一对进行比对,其中使用预期长度的核酸分子来辅助比对。

因此,基于序列读段与特定细菌分类组的特定基因的对准位置,可以确定特定dna片段来源于特定细菌分类组(也称为分类单位)的特定基因。可以采用多种技术利用各种杂交探针来进行相同的确定,如本领域技术人员将会知晓的那样。因此,映射可以以各种方式进行。

以这种方式,可以确定对与不同细菌分类组的一个或更多个基因中的每一个对准的序列读段的计数。针对每个基因和每个分类组的该计数可用于确定相对丰度。例如,可以基于与该分类组对准的序列读段相对于其它分类组的分数(比例)来确定特定分类组的相对丰度值(rav)。rav可以对应于被分配给特定分类组或功能组的读段的比例。该比例可以相对于各种分母值,例如,相对于全部序列读段、相对于被分配给至少一个组(分类组或功能组)的全部序列读段、或分配给层级中给定级别的全部序列读段。比对可以以任何能够将序列读段分配给特定分类组或功能组的方式实施。例如,基于针对16s区域中参考序列的映射,可以鉴定出就比对而言具有最佳匹配的分类组。然后可以使用特定序列组的序列读段的数目(或序列读段投票总数(votes))除以被鉴定为细菌的序列读段的数目来确定该分类组的rav,其可以针对特定区域或甚至针对层级的给定级别。

分类组可以包括一种或更多种细菌及其相应的参考序列。分类组可以对应于代表分类组的一个或更多个基因座(例如,基因)的一条或更多条参考序列的任何集合。分类层级的任何给定级别将包括多个分类组。例如,在属级别的一组中的参考序列可以在科级别的另一组中。当序列读段对准分类组的参考序列时,可以基于该比对来将序列读段分配给分类组。功能组可以对应于被标记为具有相似功能的一个或更多个基因。因此,功能组可以由功能组中基因的参考序列表示,其中特定基因的参考序列可以对应于各种细菌。可以将分类组和功能组统称为序列组,因为每个组包括代表该组的一条或更多条参考序列。多种细菌的分类组可由多条参考序列表示,例如,分类组中每个细菌种由一条参考序列表示。一些实施方案可以使用序列读段与多条参考序列的比对度来基于该比对确定将该序列读段分配给哪个序列组。

如上所述,可以对特定的基因组区域(例如,基因16s)进行分析。例如,可以扩增该区域,并且可以对扩增的dna片段的一部分进行测序。扩增可以达到大部分读段将对应于扩增区域的程度。其它示例性区域可以小于基因,例如,基因内的可变区域。该区域越长,则可以获得更多的分辨力来确定投票以将序列读段分配给某组。可以例如通过扩增多个区域对多个非连续区域进行分析。

a.序列组(特征)的相对丰度的示例性确定

如上所述,相对丰度值可以对应于与序列组的至少一个参考序列(在本文中也被称为特征)对准的序列读段的比例。对于每个序列组,可以基于与参考序列的比对将序列读段分配给一个或更多个序列组。如果所分配的组处于不同的类别(例如,分类组或功能组)或层级中的不同级别(例如,属和科),则可以将序列读段分配给多于一个序列组。并且,序列组可以包括针对不同区域或相同区域的多条序列,例如,序列组可以在特定位置包含多于一个碱基,例如,若该组涵盖基因组位置处的各种多态性。序列组是可以用于表征样品的特征的一个例子,例如,当序列组在对照群体和疾病群体之间具有统计学上显著的区别时。

1.分配给序列组

在一些实施方案中,可以例如通过配对末端测序针对核酸分子的两个末端来获得序列读段。一些实施方案可以鉴定出一对序列读段中的每个序列读段是否对应于特定的序列组。每个序列读段可以有效地进行投票,并且只有当两个序列读段都与该序列组对准时,核酸分子才能被鉴定为对应于特定序列组(当使用小于100%序列同一性时,比对可以允许错配)。在这样的一些实施方案中,可以弃去不具有与相同序列组对准的两个序列读段的分子。可以要求与参考序列的对准完美(即,没有错配),而其它一些实施方案可以允许错配。此外,可以要求对准是唯一的,否则弃去读段。

在另一些实施方案中,可以将部分投票归于与序列读段对准的每个序列组。在一个实施方式中,部分投票的权重基于对准程度,例如,是否存在任何错配。在另一些实施方式中,当每个序列读段确实存在于参考序列中时,其可以得到投票,并且该投票是由其在人类中存在的概率加权的。被分配给特定参考序列的读段的总权重可以由各种因素确定,每个因素提供一个权重。可以确定对组内参考序列的总票数,并与同级别其它组的总票数进行比较。对于每个读段,可以将读段分配给在给定级别上与该读段具有最高对准百分比的序列组。可以使用各种部分分配技术,例如dirichlet部分分配。

由于测序提供了核酸分子的至少一部分的实际序列,因此测序对于将序列读段分配给某组可以是有利的。该序列可能与对于特定生物分类组已知的序列略有不同,但它可能足够类似以分配给特定的分类组。如果使用预定的探针,则可能无法鉴定出该核酸分子。因此,可以鉴定未知的细菌,但是其序列与现有的分类组足够相似,或者甚至其序列被分配给未知组。

在一些实施方案中,该比例可以是序列读段的总和,即使一些序列读段未被分配或者等效地被分配给未知组。例如,可以对16s基因进行分析,并且可以确定读段以与该区域中的一条或更多条参考序列进行比对,例如,具有低于阈值的一定数目的错配,但是具有足够高的变化以不对应于任何已知的分类组(或下文讨论的功能组)。因此,一些实施方案可以包括未分配的读段,所述未分配的读段归于用于确定某个序列组的读段相对于所鉴定的序列读段(例如,细菌序列读段)的比例的分母。因此,可以确定序列读段的细菌群体的比例。使用预定的探针通常不允许鉴定未知的细菌序列。

2.序列组对应于特定的分类组

分类组可以对应于代表分类组的一个或更多个基因座(例如,基因)的一条或更多条参考序列的任何集合。分类层级的任何给定级别将包括多个分类组。分类层级的给定级别的分类组通常相互排除。因此,一个分类组的参考序列不会被包含在同一级别的另一个分类组中。例如,在属级别的一组中的参考序列不会被包含在属级别的另一组中。但是,在属级别的一组中的参考序列可以在科级别的另一组中。

rav可以对应于被分配给特定分类组的读段的比例。该比例可以相对于各种分母值,例如相对于全部序列读段、相对于被分配给至少一个组(分类组或功能组)的全部序列读段、或分配给层级中的给定级别的全部序列读段。比对可以以任何能够将序列读段分配给特定分类组的方式实施。

例如,基于针对16s区域中参考序列的映射,可以鉴定出就比对而言具有最佳匹配的分类组。然后可以使用特定序列组的序列读段的数目(或序列读段投票总数)除以所鉴定的序列读段(例如,细菌序列读段)的数目来确定该分类组的rav,该rav可以针对特定区域甚至针对层级的给定级别。

3.序列组对应于特定的基因或功能组

代替或除了确定对应于特定分类组的序列读段的计数之外,一些实施方案可以使用对应于特定基因或具有特定功能注释的基因集合的序列读段的计数,其中所述集合被称为功能组。可以按照与分类组相似的方式确定rav。例如,功能组可以包括与功能组的一个或更多个基因相对应的多条参考序列。对于同一基因而言的多种细菌的参考序列可对应于同一功能组。然后,为了确定rav,可以使用被分配给功能组的序列读段的数目来确定就功能组而言的比例。

功能组(其可以包括单个基因)的使用可以有助于鉴定在许多分类组中存在小变化(例如,增加)使得变化太小而不具有统计学显著性的情形。但是,这些变化可能都是针对同一个基因或同一功能组的基因集合,因此该功能组的变化可能具有统计学显著性,尽管分类组的变化可能并不显著。特定功能组比分类组更具有预测性可以是真实的,例如,当单个分类组包含许多已经发生了较少量的变化的基因时。

例如,如果10个分类组增加10%,那么当单独对每个分类组进行分析时,区分这两个组的统计能力可能较低。但是,如果增加全部针对相同功能组中的基因,那么增加将是100%,或者就该分类组而言的比例增加一倍。这一大幅度的增加对于区分这两个组将具有大得多的统计能力。因此,功能组可以为各种分类组提供小变化的和。而且,可以将全部属于同一分类组的各种功能组的小变化相加以为该特定分类组提供高统计能力。

由于信息因各组的rav之间仍然可能存在某种关系而可以是正交的或者至少部分地正交的,所以分类组和功能组可以相互补充。例如,如本文所述,一个或更多个分类组和功能组的rav可以一起用作特征向量的多个特征,其中特征向量被分析以提供诊断。例如,可以将特征向量作为表征模型的一部分与疾病识别标志进行比较。

b.示例性确定对照群体和疾病群体之间序列组丰度的统计学显著性区别

实施方案可使用患疾病的受试者群体(病症群体;即,具有指示甲状腺健康问题的微生物群系的个体)和未患疾病的群体(对照群体;即,具有不指示甲状腺健康问题的微生物群系的个体)的相对丰度值(rav)。如果疾病群体的特定序列组的rav分布在统计学上不同于对照群体的rav分布,那么可以将该特定序列组鉴定为包括在疾病识别标志中。由于这两个群体有不同的分布,对于疾病识别标志中序列组而言,新样品的rav可用于对样品是否患有疾病进行分类(例如,确定概率)。如本文所述,该分类也可以用于确定治疗。可以采用区分级别来鉴定具有高预测值的序列组。因此,实施方案可以过滤出对于提供诊断而言不太准确的分类组。

1.序列组的区分级别

一旦确定了对照群体和疾病群体的序列组的rav,则可以使用各种统计学检验来确定序列组用于区分甲状腺健康问题(病症)和无甲状腺健康问题(对照)的统计能力。在一个实施方案中,可以采用kolmogorov-smiraov(ks)检验来提供两种分布实际上相同的概率值(p值)。p值越小,正确鉴定样品属于哪个群体的概率越大。两个群体之间平均值的区别越大,通常会带来越小的p值(区分级别的一个例子)。可以使用其它检验来比较分布。welch氏t检验假定分布是高斯分布,这对于特定的序列组而言不一定是正确的。ks检验因其为非参数检验而非常适于比较概率分布未知的分类单位或功能的分布。

可以对对照群体和病症群体的rav分布进行分析以鉴定在这两个分布之间具有大的区别的序列组。可以将该区别测量为p值(请参见实施例部分)。例如,对照群体的相对丰度值可以具有以第一值达到峰值的分布,该分布具有一定的宽度和衰减。而且,疾病群体可以具有以第二值达到峰值的另一分布,该第二值在统计学上不同于第一值。在这种情况下,对照样品的丰度值在疾病样品所遇到的丰度值分布内的概率较低。两种分布之间的区别越大,用于确定给定样品属于对照群体还是疾病群体的区分越准确。如稍后讨论的,可以采用该分布来确定rav在对照群体中的概率并确定rav在疾病群体中的概率。

图7示出了说明桥本病的对照分布和疾病分布的图,其中,序列组为根据本发明的一些实施方案的属分类组中的moryella。可以看出,具有指示桥本病的微生物群系的疾病组的rav倾向于具有比对照分布更高的值。因此,如果存在moryella,则较高的rav在桥本病群体中的概率更高。在这种情况下,p值为1.68×10-16,如表a所示。

本领域技术人员将理解,在一些情况下,具有指示甲状腺健康问题的微生物群系的疾病的rav可具有比对照分布更低的值。例如,桥本病病症组中属分类组双歧杆菌的rav倾向于比对照组更低。因此,如果存在双歧杆菌,则较低的rav在桥本病群体中的概率更高。在这种情况下,p值为1.25×10-9,如表b所示。

图8示出了说明桥本病的对照分布和疾病分布的图,其中,序列组为根据本发明的一些实施方案的功能分类组中的肽酶。可以看出,具有指示桥本病的微生物群系的疾病组的rav倾向于具有比对照分布更低的值。因此,如果存在与肽酶代谢相关的序列,则较低的rav在桥本病群体中的概率更高。在这种情况下,p值为1.40×10-15,如表b所示。

图9示出了说明甲状腺功能减退的对照分布和疾病分布的图,其中,序列组为根据本发明的一些实施方案的科分类组中的moryella。可以看出,具有指示甲状腺功能减退的微生物群系的疾病组的rav倾向于具有比对照分布更高的值。因此,如果存在moryella,则较高的rav在甲状腺功能减退群体中的概率更高。在这种情况下,p值为3.36×10-21,如表a所示。

图10示出了说明甲状腺功能减退的对照分布和疾病分布的图,其中,序列组为根据本发明的一些实施方案的功能分类组中的核糖体生物合成。可以看出,具有指示甲状腺功能减退的微生物群系的疾病组的rav倾向于具有比对照分布更低的值。因此,如果存在与核糖体生物合成相关的序列,则较低的rav在甲状腺功能减退群体中的概率更高。在这种情况下,p值为1.59×10-716,如表a所示。

2.群体中序列组的普遍存在情况

在一些实施方案中,某些样品可能不具有特定分类组的任何存在,或者至少不以高于较低阈值(即,低于对照群体和病症群体的两种分布中的任一种的阈值)存在。因此,特定序列组可能在群体中普遍存在,例如,群体的超过30%可能具有分类组。另一个序列组在群体中可能不太普遍存在,例如仅在群体的5%中出现。某序列组的普遍存在情况(例如,占群体的百分比)可以提供关于序列组用于确定诊断的可能性有多大的信息。

在这样的一个实施例中,当受试者落入30%以内时,序列组可用于确定疾病的状态(例如,诊断该疾病)。但是,当受试者未落入30%以内,致使分类组根本不存在时,该特定分类组可能无助于确定受试者的诊断。因此,特定分类组或功能组是否可用于诊断特定受试者可取决于与该序列组相对应的核酸分子是否实际上被测序。

因此,疾病识别标志可以包括比用于给定受试者的序列组更多的序列组。例如,疾病识别标志可以包括100个序列组,但是在样品中只能检测到60个序列组。受试者的分类(包括申请中的任何概率)将根据这60个序列组来确定。

c.表征模型的示例性生成

对于给定病症(例如,甲状腺健康问题)具有高区分级别(例如,低p值)的序列组可以被鉴定并用作表征模型的一部分,表征模型例如使用疾病识别标志来确定受试者患有该疾病的概率。疾病识别标志可以包括序列组集以及用于提供对受试者的分类的区分标准(例如,截止值和/或概率分布)。分类可以是二元的(例如,指示甲状腺健康问题或不指示甲状腺健康问题)或具有更多分类(例如,指示甲状腺健康问题或不指示甲状腺健康问题的概率)。疾病识别标志的哪些序列组用于进行分类取决于所获得的特定序列读段,例如,如果序列组未被分配序列读段,则不使用该序列组。在一些实施方案中,可以针对不同群体确定单独的表征模型,例如通过受试者当前居住的地理位置(例如,国家、地区或大陆)、受试者的一般历史(例如,种族)或其它因素。

1.序列组的选择

如上所述,可以选择具有至少特定区分级别的序列组以包含在表征模型中。在各种实施方案中,指定区分级别可以是绝对级别(例如,具有低于指定值的p值)、百分比(例如,处于区分级别的前10%中)或指定数目的最高区分级别(例如,前100名区分级别)。在一些实施方案中,表征模型可以包括网络图,其中,图中的每个节点对应于具有至少指定的区分级别的序列组。

还可以基于其它因素来选择用于表征模型的疾病识别标志中的序列组。例如,一个特定序列组可能只在一定比例的群体(称为覆盖百分比)中被检测到。理想的序列组将在高百分比的群体中被检测到并且具有高区分级别(例如,低p值)。在将序列组添加到特定疾病(例如,甲状腺健康问题)的表征模型之前可能需要最小百分比。最小百分比可以根据伴随的区分级别而变化。例如,如果区分级别较高,则可以容忍较低的覆盖百分比。作为进一步的例子,可以用一个序列组或几个序列组的组合对95%的患有疾病的患者进行分类,而余下的5%可以基于一个序列组来解释,这与序列组覆盖之间的正交性或重叠相关。因此,提供对5%的患有该疾病(例如,甲状腺健康问题)的个体的区分能力的序列组可能是有价值的。

用于确定表征模型的疾病识别标志中包括哪条序列的另一个因素是显示出疾病识别标志的序列组的受试者的重叠。例如,序列组可以都具有高的覆盖百分比,但是序列组可以覆盖完全相同的受试者。因此,增加序列组之一的确增加了疾病识别标志的总体覆盖范围。在这种情况下,可以认为这两个序列组彼此平行。基于覆盖不同受试者的序列组而非已在表征模型中的其它序列组,可以选择其它序列组添加到表征模型中。可以认为这样的序列组与表征模型中已经存在的序列组正交。

例如,选择一个序列组可能会考虑以下因素。一个分类单位可能出现在100%的对照个体和100%的具有特定疾病(例如,甲状腺健康问题)的个体中,但是在两个组中的分布如此接近以至于知晓该分类单位的相对丰度仅允许将少数个体分类为患有该疾病或不存在该疾病(即,具有低的区分级别)。然而,在仅20%的未患病个体和30%的患病个体中出现的分类单位可以具有彼此如此不同的相对丰度的分布,其允许对20%的未患病个体和30%的患病个体进行分类(即,其具有高区分级别)。

在一些实施方案中,机器学习技术可以允许自动鉴定特征(例如,序列组)的最佳组合。例如,主成分分析可以将用于分类的特征的数目减少到仅彼此最正交并且可以解释数据中的大部分差异的那些。对于网络理论方法也是如此,在这种方法中,可以基于不同的特征创建多个距离度量,并评价哪个距离度量最能将患有该疾病(甲状腺健康问题)的个体与未患该疾病的个体区别开。

2.区别标准序列组

包括在表征模型的疾病识别标志中的序列组的区分标准可基于疾病的疾病分布和对照分布来确定。例如,序列组的区分标准可以是两个分布的平均值之间的截止值。作为另一个例子,序列组的区分标准可以包括对照群体和疾病群体的概率分布。可以以与确定区分级别的过程不同的方式来确定概率分布。

概率分布可以基于两个群体的rav的分布来确定。两个群体的平均值(或其它平均数或中值)可以用来集中(center)两个概率分布的峰值。例如,如果疾病群体的平均rav是20%(或0.2),那么疾病群体的概率分布的峰值可以在20%处。宽度或其它形状参数(例如,衰减)也可以基于疾病群体的rav分布来确定。对照群体也可以做到这一点。

d.使用序列组

包含在表征的疾病识别标志中的序列组可用于对新的受试者进行分类。可以将序列组视为特征向量的特征,或者将序列组的rav视为特征向量的特征,其中,可以将特征向量与疾病识别标志的区分标准进行比较。例如,可以将新的受试者的序列组的rav与疾病识别标志的每个序列组的概率分布进行比较。如果rav为零或接近零,则该序列组可以被跳过并且不用于分类。

可以使用在新的受试者中表现出的序列组的rav来确定分类。例如,可以组合每个表现出的序列组的结果(例如,概率值)以得出最终分类。作为另一个例子,可以进行rav聚类,并且可以使用该聚类来确定疾病的分类。

1.使用序列组对疾病进行分类

实施方案可以提供一种用于确定对存在或不存在疾病的分类和/或确定针对患有该疾病(甲状腺健康问题,例如甲状腺功能减退或桥本病)的人类个体的治疗过程的方法。如本文所述,该方法可以通过计算机系统进行。图1b是如下所述方法的一个实施方案的流程图,该方法用于确定对存在或不存在指示甲状腺健康问题的微生物群系的分类和/或确定针对具有指示甲状腺健康问题的微生物群系的人类个体的治疗过程。

在框21中,接收获自对来自人类个体的测试样品进行分析的细菌dna的序列读段。该分析可以采用各种技术完成,例如,如本文所述,例如测序或杂交阵列。可以例如从检测装置将序列读段接收于计算机系统,所述检测装置例如是将数据提供给存储装置(其可以被加载到计算机系统中)或者通过网络到达计算机系统的测序仪。

在框22中,将序列读段映射到细菌序列数据库以获得多个经映射的序列读段。细菌序列数据库包括多种细菌的多条参考序列。参考序列可以用于细菌的预定区域,例如,16s区域。

在框23中,基于映射将经映射的序列读段分配给序列组以获得被分配给至少一个序列组的经分配的序列读段。序列组包括多条参考序列中的一条或更多条。该映射可以涉及序列读段被映射到参考序列的一个或更多个预定区域。例如,序列读段可以被映射至16s基因。因此,序列读段不必映射至整个基因组,而是仅映射至序列组的参考序列所覆盖的区域。

在框24中,确定经分配序列读段的总数。在一些实施方案中,经分配的读段的总数可以包括被鉴定为例如细菌读段但未被分配给已知序列组的读段。在另一些实施方案中,该总数可以是被分配给已知序列组的序列读段的总和,其中,该总和可以包括被分配给至少一个序列组的任何序列读段。

在框25中,可以确定相对丰度值。例如,对于选自表a、b或两者的一个或更多个序列组的病症识别标志集的每个序列组,可以确定被分配给该序列组的经分配序列读段相对于经分配序列读段的总数的相对丰度值。相对丰度值可形成测试特征向量,其中测试特征向量的每个值是不同序列组的rav。

在框26中,将该测试特征向量与由具有已知的疾病状态的基准样品的相对丰度值生成的基准特征向量进行比较。基准样品可以是疾病群体的样品和对照群体的样品。在一些实施方案中,比较可涉及各种机器学习技术,例如监督机器学习(例如,决策树、最近邻、支持向量机、神经网络、朴素贝叶斯(bayes)分类器等)和无监督机器学习(例如,聚类、主分量分析等)。

在一个实施方案中,聚类可以使用网络方法,其中基于与每种疾病相关的序列组的相对丰度来计算网络中每对样品之间的距离。然后,可以使用基于相对丰度的相同度量将新样品与网络中的所有样品进行比较,并且可以决定该新样品应当属于哪个聚类。有意义的距离度量将允许全部患有疾病(甲状腺健康问题)的个体形成一个或数个聚类,并且全部未患疾病的个体形成一个或数个聚类。一个距离度量是bray-curtis不相似度、或者等效地是相似性网络,其中度量是1-bray-curtis不相似度。另一个示例性距离度量是tanimoto系数。

在一些实施方案中,可以通过将rav转换成概率值来比较特征向量,从而形成概率向量。对于概率可以进行与针对特征向量相似的处理,该处理仍然涉及对特征向量的比较,原因是概率向量是由特征向量生成的。

框27可以基于该比较确定对存在或不存在疾病(例如,甲状腺健康问题)的分类和/或确定针对患疾病的人类个体的治疗过程。例如,测试特征向量被分配到的聚类可以是疾病聚类,并且可以分类成人类个体患有该疾病或具有患该疾病的一定概率。

在涉及聚类的一个实施方案中,可以将基准特征向量聚类为未患疾病的对照聚类和患病的疾病聚类。然后,可以确定测试特征向量属于哪个聚类。所鉴定出的聚类可用于确定分类或选择治疗过程。在一个实施方式中,聚类可以采用bray-curtis不相似度。

在涉及决策树的一个实施方案中,比较可以通过比较测试特征向量与一个或更多个截止值(例如,作为相应的截止向量)来进行,其中一个或更多个截止值是由基准特征向量来确定,从而提供比较。因此,该比较可以包括将测试特征向量的每个相对丰度值与由从基准样品生成的基准特征向量确定的相应截止值进行比较。可以确定相应截止值以为每个序列组提供最佳区分。

2.使用概率值

可以测量新样品以检测疾病识别标志中序列组的rav。可以将每个序列组的rav与特定序列组的对照群体和疾病群体的概率分布进行比较。例如,疾病群体的概率分布可以提供针对给定的rav输入提供患疾病(病症)的概率(例如,患病概率)的输出。类似地,对照群体的概率分布可以针对给定的rav输入提供未患疾病的概率(对照概率)的输出。因此,rav概率分布的值可以提供样品在每个群体中的概率。因此,通过采用最大概率可以确定样品更可能属于哪个群体。

在一些实施方案中,在表征过程的进一步步骤中仅使用最大概率。在另一些实施方案中,使用疾病概率和对照概率两者。如上所述,这里用于分类的概率分布可能不同于用于确定rav值的分布是否被区别开的统计学检验,例如ks检验。

可以使用疾病识别标志的各序列组的总概率。对于所测量的全部序列组,可以确定样品是否在疾病组中的疾病概率,并且可以确定样品是否在对照群体中的对照概率。在另一些实施方案中,可以只确定疾病概率或者只确定对照概率。

可以使用各序列组的概率来确定总概率。例如,可以确定患病概率的平均值,由此基于疾病识别标志获得患病受试者的最终疾病概率。可以确定对照概率的平均值,由此基于疾病识别标志获得未患疾病的受试者的最终对照概率。

在一个实施方案中,可以将最终疾病概率和最终对照概率彼此相比较以确定最终分类。例如,可以确定两个最终概率之间的差异,并根据该差异确定最终分类概率。对于最终疾病概率,大的正向差异较高会得出患有疾病的受试者的最终分类概率较高。

在另一些实施方案中,仅最终疾病概率可以用来确定最终分类概率。例如,最终分类概率可以是最终疾病概率。或者,最终分类概率可以是1减去最终对照概率,或者100%减去最终对照概率,这取决于概率的格式。

在一些实施方案中,可以将一类疾病的最终分类概率与同一类别的其它疾病的其它最终分类概率组合。然后可以使用汇总的概率来确定受试者是否具有疾病类别中的至少一种。因此,实施方案可以确定受试者是否有健康问题,所述健康问题可以包括与该健康问题相关的多种疾病。

分类可以是最终概率之一。在另一些实施例中,实施方案可以将最终概率与阈值进行比较,以确定是否存在疾病。例如,可以将各个患病概率平均化,并且可以将平均值与阈值进行比较以确定是否存在疾病。作为另一个实施例,平均值与阈值的比较可以提供用于治疗受试者的疗法。

v.其它实施方案

在此参照附图对本文提供的方法、组合物和系统的其它示例性实施方案进行了描述。应当理解,本领域的普通技术人员可以容易地确定可以在何处及何时在下文所述的实施方案中另外或可替代地使用上文所述的方法、组合物和/或系统中的任意一种或更多种。

如图1e所示,用于诊断和治疗具有指示甲状腺健康问题的微生物群系的个体的第一方法100可以包括:接收来自受试者群体的样品的集合s110;针对与受试者群体相关的样品的集合中的每一个表征微生物群系的组成特征和/或功能特征,从而生成受试者群体的至少一个微生物群系组成数据集、至少一个微生物群系功能多样性数据集或其组合s120。在一些情况下,所述方法可以进一步包括:接收与受试者群体的至少一个子集相关的补充数据集,其中所述补充数据集提供与甲状腺健康问题相关的特征的信息s130。通常,该方法进一步包括:并且将从至少一个微生物群系组成数据集、微生物群系功能多样性数据集或其组合中提取的特征转化为甲状腺健康问题的表征模型s140。在一些情况下,转化包括转化补充数据集(如果接收到补充数据集的话)。在一些变型中,第一方法100可以进一步包括:基于该表征,生成被配置为改善具有甲状腺健康问题的个体的健康或病症的治疗模型s150。

第一方法100用于生成可用于根据受试者的微生物群系组成和功能特征中的至少一个来表征和/或诊断受试者的模型(例如,作为临床诊断、作为伴随诊断等),并基于对受试者群体的微生物群系分析为受试者提供治疗措施(例如,基于益生菌的治疗措施、基于噬菌体的治疗措施、基于小分子的治疗措施、基于益生元的治疗措施、临床措施等)。因此,可以使用来自受试者群体的数据根据受试者的微生物群系组成和/或功能特征来表征受试者、基于该表征指示健康状态和改善的区域,以及促进一种或更多种疗法,所述疗法可以将受试者的微生物群系的组成朝向一组或更多组理想的平衡状态调节。

在一些变型中,方法100可以用于促进对具有指示甲状腺健康问题的微生物群系的受试者的靶向疗法。在一些情况下,当甲状腺健康问题导致甲状腺功能减退或桥本病或者社会行为、运动行为和能量水平、胃肠健康等中的至少一种的所见差异时,促进靶向疗法。在这些变型中,与甲状腺健康问题相关的诊断通常可以使用以下中的一种或更多种来进行测定:调查仪器或研究,以及任何其它标准工具。由此,方法100可用于表征甲状腺健康问题(包括障碍)的影响,和/或在完全非典型方法中的不良状态。特别地,发明人提出,对个体的微生物群系的表征可用于预测受试者存在甲状腺健康问题的可能性。这样的表征还可用于筛查与甲状腺健康问题相关的症状和/或确定针对具有指示甲状腺健康问题的微生物群系的人类个体的治疗过程。例如,通过对来自有甲状腺健康问题的受试者和对照受试者的细菌dna进行深度测序,发明人提出了与某些微生物群系组成特征和/或功能特征相关的特征(例如,与某些遗传途径相对应的某些细菌和/或细菌序列的量)可用于预测存在或不存在指示甲状腺健康问题的微生物群系。在一些情况下,细菌和遗传途径以一定丰度存在于具有指示甲状腺健康问题的微生物群系的个体中,如在下文中更详细地讨论的,而细菌和遗传途径以统计学上不同的丰度存在于没有指示甲状腺健康问题的微生物群系的个体中。

这样,在一些实施方案中,基于对受试者的微生物群系组成和/或受试者的微生物群系的功能特征的分析,第一方法100的输出可用于生成对受试者的诊断和/或为受试者提供治疗措施。因此,如图1f所示,从第一方法100的至少一个输出得出的第二方法200可以包括:接收来自受试者的生物样品s210;基于处理源自生物样品的微生物群系数据集来将受试者表征为具有指示甲状腺健康问题的微生物群系或不具有指示甲状腺健康问题的微生物群系s220;以及基于该表征和该治疗模型促进对具有指示甲状腺健康问题的微生物群系的受试者的治疗s230。方法200的变型可以进一步有助于监测和/或调整提供给受试者的治疗,例如通过在整个治疗过程中接收、处理和分析来自受试者的额外样品。在下文中对第二方法200的实施方案、变型和实施例进行了更详细的描述。

因此,方法100和/或200可以用于基于对个体群体的微生物群系分析来生成可用于对个体进行分类和/或为个体提供治疗措施(例如,治疗建议、疗法、治疗方案等)的模型。由此,可以使用来自个体群体的数据来生成模型,该模型可以根据个体的微生物群系组成对个体进行分类(例如,作为诊断量度)、基于该分类指示健康状态和改善的区域、和/或提供可以将个体的微生物群系组成朝向一组或更多组改善的平衡状态推进的治疗措施。第二方法200的变型可以进一步有助于监测和/或调整提供给个体的疗法,例如通过在整个治疗过程中接收、处理和分析来自个体的额外样品。

在一个应用中,如图2所示,方法100、200中的至少一个至少部分地在系统300处实施,该方法通过样品接收试剂盒接收来自受试者(或与受试者相关的环境)的生物样品,并且在实施表征过程和治疗模型的处理系统处处理生物样品,所述治疗模型被配置为积极影响受试者(例如,人类、非人类动物、环境生态系统等)中的微生物分布。在本申请的一些变型中,处理系统可以被配置为基于从受试者群体接收的样品数据来生成和/或改善表征过程和治疗模型。然而,可替代地,可以使用被配置为接收和处理受试者的微生物群系相关数据的任何其它合适的系统与其它信息相结合来实施方法100,以生成用于源自微生物群系的诊断和相关疗法的模型。因此,可以针对受试者群体(例如,包括受试者、排除受试者)实施方法100,其中受试者群体可以包括与受试者不相似和/或相似的患者(例如,在健康状况、饮食需求、人口统计学特征等方面)。因此,从受试者群体获得的信息由于来自受试者群体的数据集合而可以用于为受试者的行为和对受试者的微生物群系的影响之间的联系提供额外的见解。

因此,可以针对受试者群体(例如,包括受试者、排除受试者)实施方法100、200,其中受试者群体可以包括与受试者不相似和/或相似的受试者(例如,健康状况、饮食需求、人口统计学特征等)。因此,从受试者群体获得的信息由于来自受试者群体的数据集合而可以用于为受试者的行为和对受试者的微生物群系的影响之间的联系提供额外的见解。

a.样品处理

框s110记载:接收来自受试者群体的生物样品的集合,其用于使得生成数据,从该数据可生成用于表征受试者和/或为受试者提供治疗措施的模型。在框s110中,优选地以非侵入性方式从受试者群体中的受试者接收生物样品。在一些变型中,样品接收的非侵入性方式可以使用以下中的任意一个或更多个:可渗透基底(例如,卫生纸、海绵、被配置为擦拭受试者身体区域的拭子等)、不可渗透基底(例如,载玻片、带等)、被配置为接收来自受试者身体区域的样品的容器(例如,小瓶、管、袋等),以及任何其它合适的样品接收元件。在一个具体实施例中,可以以非侵入性方式(例如,使用拭子和小瓶)从受试者的鼻子、皮肤、生殖器、口和肠中的一个或更多个收集样品。然而,该生物样品集中的一种或更多种生物样品可以另外或替代地以半侵入方式或侵入方式接收。在一些变型中,侵入性方式的样品接收可以使用以下中的任意一种或更多种:针、注射器、活检元件、喷枪以及以半侵入性或侵入性方式收集样品的任何其它合适的器械。在一些具体的实施例中,样品可以包括血液样品、血浆/血清样品(例如,使得能够提取无细胞dna)、脑脊髓液和组织样品。在一些情况下,样品是粪便样品或从粪便样品中提取的样品(例如,诸如dna样品的核酸样品)。

在上述变型和实施例中,样品可以从受试者的身体获取而无需另一实体(例如,与个体相关的看护者、医疗保健专业人员、自动化或半自动化的样品收集装置等)辅助,或者可以替代地在另一实体的辅助下从个体身上获取。在一个实施例中,其中在样品提取过程中从受试者的身体获取样品而未用另一实体辅助,可以向受试者提供样品提供套件。在该实施例中,试剂盒可以包括用于样品采集的一个或更多个拭子或样品瓶、被配置为接收拭子或样品瓶以进行储存的一个或更多个容器、用于样品提供和用户账户设置的说明书、被配置为将样品与受试者相关联的元件(例如,条形码标识符、标签等)以及容纳件,该容纳件允许来自个体的样品被递送到样品处理操作(例如,通过邮件递送系统)。在另一个实施例中,其中在另一实体的辅助下从用户提取样品,可以在临床或研究环境中(例如,在临床预约期间)收集一种或更多种样品。

在框s110中,生物样品的集合优选地从各种受试者接收,并且可以涉及来自人类受试者和/或非人类受试者的样品。关于人类受试者,框s110可以包括接收来自各种人类受试者的样品,总的包括以下一种或更多种受试者:不同的人口统计学特征(例如,性别、年龄、婚姻状态、种族、民族、社会经济状态、性取向等)、不同的健康状况(例如,健康状态和疾病状态)、不同的生活情形(例如,独居、与宠物一起生活、与重要他人一起生活、与孩子一起生活等)、不同的饮食习惯(例如,杂食、素食、严格素食、糖消耗、酸消耗等)、不同的行为倾向(例如,体力活动水平、药物使用、酒精使用等)、不同的移动性水平(例如,与在给定的时间段内行进的距离有关)、生物标志物状态(例如,胆固醇水平、脂质水平等)、体重、身高、体质指数、基因型因子以及对微生物群系组成有影响的任何其它合适的性状。这样,随着受试者数目的增加,在方法100的后续框中生成的基于特征的模型的预测能力相对于基于受试者的微生物群系表征各种受试者而言增加。另外或可替代地,在框s110中接收的生物样品的集合可以包括从以下中的一个或更多个中的类似受试者的目标群体接收生物样品:人口统计学形状、健康状况、生活情形、饮食习惯、行为倾向、移动性水平、年龄范围(例如小儿、成年、老年)以及对微生物群系组成有影响的任何其它合适的性状。另外或可替代地,方法100和/或200可以适用于表征通常通过以下各项进行检测的疾病:实验室测试(例如,基于聚合酶链式反应的测试、基于细胞培养的测试、血液测试、活检、化学测试等)、物理检测方法(例如,测压法)、基于医疗史的评估、行为评估和基于影像学的评估。另外或可替代地,方法100、200可以适用于表征急性病症、慢性病症、对于不同人口统计学普遍存在率不同的病症、具有特征性疾病区域(例如头部、肠道、内分泌系统疾病、心脏、神经系统疾病、呼吸系统疾病、免疫系统疾病、循环系统疾病、肾脏系统疾病、运动系统疾病等)的病症以及合并症。

在一些实施方案中,在框s110中接收生物样品的集合可以根据于2015年1月9日提交的标题为“用于微生物群系分析的方法和系统(methodandsystemformicrobiomeanalysis)”的美国申请no.14/593,424中描述的样品接收的实施方案、变型和实施例来进行。该美国申请通过引用整体并入本文。然而,在框s110中接收生物样品的集合可以另外或可替代地以任何其它合适的方式来进行。此外,第一方法100的一些替代变型可以省略框s110,其中在方法100的后续框中按照如下所述对来自生物样品集合的数据进行处理。

a.样品分析

框s120记载:针对与受试者群体相关的生物样品的集合中的每个生物样品表征微生物群系组成和/或功能特征,从而生成受试者群体的微生物群系组成数据集和微生物群系功能多样性数据集中的至少一个。框s120用于处理生物样品的集合中的每个生物样品,以确定与每个受试者群体的微生物群系相关的组成方面和/或功能方面。组成方面和功能方面可以包括微生物水平的组成方面,包括与界、门、纲、目、科、属、种、亚种、株系、种下分类组和/或任何其它合适的分类单位的不同组之间的微生物分布相关的参数(例如,如在每组的总丰度、每组的相对丰度、示出的组的总数等中所测量的)。组成方面和功能方面也可以用操作分类单位(otu)表示。组成方面和功能方面可以另外或可替代地包括遗传水平的组成方面(例如、通过多位点序列分型、16s序列、18s序列、its序列、其它遗传标志物、其它系统发育标志物等确定的区域)。组成方面和功能方面可以包括存在或不存在与特定功能(例如,酶活性、转运功能、免疫活性等)相关的基因或所述基因的量。因此,可以使用框s120的输出来为框s140的表征过程提供目标特征,其中特征可以是基于微生物的(例如,细菌属的存在)、基于遗传的(例如,基于特定遗传区域和/或序列的表示)和/或基于功能的(例如,特定催化活性的存在、代谢途径的存在等)。

在一个变型中,框s120可以包括表征基于鉴定来源于细菌和/或古细菌的系统发育标志物的特征,所述特征与和以下中的一种或更多种有关的基因家族相关:核糖体蛋白s2、核糖体蛋白s3、核糖体蛋白s5、核糖体蛋白s7、核糖体蛋白s8、核糖体蛋白s9、核糖体蛋白s10、核糖体蛋白s11、核糖体蛋白s12/s23、核糖体蛋白s13、核糖体蛋白s15p/s13e、核糖体蛋白s17、核糖体蛋白s19、核糖体蛋白l1、核糖体蛋白l2、核糖体蛋白l3、核糖体蛋白l4/l1e、核糖体蛋白l5、核糖体蛋白l6、核糖体蛋白l10、核糖体蛋白li1、核糖体蛋白l13、核糖体蛋白l14b/l23e、核糖体蛋白l15、核糖体蛋白l16/l10e、核糖体蛋白质l18p/l5e、核糖体蛋白l22、核糖体蛋白l24、核糖体蛋白l25/l23、核糖体蛋白l29、翻译延伸因子ef-2、翻译起始因子if-2、金属内肽酶、ffh信号重甲状腺颗粒蛋白、苯丙氨酰基-trna合成酶α亚基、苯丙氨酰基-trna合成酶β亚基、trna假尿苷合酶b、胆色素原脱氨酶、磷酸核糖基甲酰基甘氨酰脒环连接酶和核糖核酸酶hii。然而,所述标志物可以包括任何其它合适的标志物。

因此,在框s120中表征生物样品集合中的每一个的微生物群系组成和/或功能特征可以包括样品处理技术(例如,湿式实验室技术)和计算技术(例如,利用生物信息学工具)的组合来定量地和/或定性地表征与来自受试者或受试者群体的每个生物样品相关的微生物群系和功能特征。

在一些变型中,框s120中的样品处理可以包括以下中的任意一种或更多种:裂解生物样品、破坏生物样品的细胞膜、从生物样品中分离非期望的组分(例如,rna、蛋白质)、纯化生物样品中的核酸(例如,dna)、扩增来自生物样品的核酸、进一步纯化生物样品的扩增的核酸以及对生物样品的扩增的核酸进行测序。因此,可以使用如于2015年1月9日提交的标题为“用于微生物群系分析的方法和系统(methodandsystemformicrobiomeanalysis)”的美国申请no.14/593,424中所描述的样品处理网络和/或计算系统的实施方案、变型和实施例来实施框s120的部分,该美国申请通过引用整体并入本文。因此,实施方法100的一个或更多个部分的计算系统可以在一个或更多个计算系统中实施,其中计算系统可以至少部分地在云中和/或作为机器(例如,计算机器、服务器、移动计算设备等)来实施,该机器被配置为接收存储计算机可读指令的计算机可读介质。然而,可以使用任何其它合适的系统来执行框s120。

在一些变型中,裂解生物样品和/或破坏生物样品的细胞膜优选地包括物理方法(例如,珠磨、氮压、均质化、超声处理),其省略了测序时对某些细菌组的显示产生偏好的试剂。另外或可替代地,在框s120中的裂解或破坏可涉及化学方法(例如,使用去污剂、使用溶剂、使用表面活性剂等)。另外或可替代地,在框s120中裂解或破坏可涉及生物学方法。在一些变型中,分离非期望的组分可以包括使用rna酶去除rna和/或使用蛋白酶去除蛋白质。在一些变型中,核酸的纯化可以包括以下中的一种或更多种:从生物样品中沉淀核酸(例如,使用基于醇的沉淀方法)、液-液基纯化技术(例如,酚-氯仿提取)、基于层析的纯化技术(例如,柱吸附)、涉及使用结合部分-结合颗粒(例如,磁珠、浮力珠、具有大小分布的珠、超声响应珠等)的纯化技术以及任何其它合适的纯化技术,所述结合部分-结合颗粒被配置成结合核酸并被配置为在存在洗脱环境(例如,具有洗脱溶液,提供ph改变、提供温度变化等)的情况下释放核酸。

在一些变型中,对纯化的核酸进行扩增操作s123可以包括进行以下中的一种或更多种:基于聚合酶链式反应(pcr)的技术(例如,固相pcr、rt-pcr、qpcr、多重pcr、降落式pcr、纳米pcr、巢式pcr、热启动pcr等)、解旋酶依赖性扩增(hda)、环介导的等温扩增(lamp)、自主序列复制(3sr)、基于核酸序列的扩增(nasba)、链置换扩增sda)、滚环扩增(rca)、连接酶链式反应(lcr)以及任何其它合适的扩增技术。在扩增纯化的核酸时,所用的引物优选地被选择为防止或最小化扩增偏差,并且被配置为扩增核酸区域/序列(例如,16s区域、18s区域、its区域等),其提供分类学、系统发生学、诊断、制剂(例如,益生菌制剂)和/或用于任何其它合适的目的方面的信息。因此,可以在扩增中使用被配置为避免扩增偏差的通用引物(例如,用于16srrna的f27-r338引物集、用于16srna的f515-r806引物集等)。在框s120的一些变型(例如,s123和/或s124)中使用的引物可以另外或可替代地包括对每个生物样品特异的集成条形码序列,其可以便于在扩增后鉴定生物样品。用于框s120的一些变型(例如,s123和/或s124)中的引物可以另外或可替代地包括接头区域,该接头区域被配置成与涉及互补接头的测序技术(例如,根据用于illumina测序的规程)配合。

可以根据于2015年8月18日提交的标题为“用于多重引物设计的方法和系统(methodandsystemformultiplexprimerdesign)”的美国申请no.62/206,654中描述的方法的实施方案、变型和实施例来进行用于多重扩增操作的引物集的鉴定,该美国申请通过引用整体并入本文。另外或可替代地,在框s123中使用引物集进行多重扩增操作可以以任何其它合适的方式进行。

另外或可替代地,如图3所示,框s120可以实施被配置为促进处理(例如,使用nextera试剂盒)以进行片段化操作s122(例如,片段化和用测序接头标记)配合扩增操作s123(例如,s122可以在s123之后进行,s122可以在s123之前进行,s122可以与s123基本上同时进行等)的任何其它步骤。此外,框s122和/或s123可以在有或没有核酸提取步骤的情况下进行。例如,提取可以在扩增核酸之前进行,接着进行片段化,然后扩增片段。或者,可以进行提取,接着进行片段化,然后扩增片段。由此,在一些实施方案中,可以根据如于2015年1月9日提交的标题为“用于微生物群系分析的方法和系统(methodandsystemformicrobiomeanalysis)”的美国申请no.14/593,424中所述的扩增实施方案、变型和实施例进行框s123中的扩增操作。此外,框s123中的扩增可以另外或可替代地以任何其它合适的方式进行。

在一个具体实施例中,对来自生物样品集中的生物样品的核酸的扩增和测序包括:固相pcr,其涉及在具有寡聚接头的基底上桥接扩增生物样品的dna片段,其中扩增涉及具有以下序列的引物:正向索引序列(例如,对应于miseq/nextseq/hiseq平台的illumina正向索引)和/或反向索引序列(例如,对应于miseq/nextseq/hiseq平台的illumina反向索引)、正向条形码序列和/或反向条形码序列、任选转座酶序列(例如,对应于miseq/nextseq/hiseq平台的转座酶结合位点)、任选的接头(例如,被配置为降低同质性和改善序列结果的零碱基、一个碱基或两个碱基的片段)、可选地其它随机碱基以及可选地用于靶向特定靶区域(例如,16s区域、18s区域、its区域)的序列。在一些情况下,扩增涉及具有前述元件的任意组合或全部前述元件的一种或两种引物。如贯穿本公开所指示的,扩增和测序可以进一步针对任何合适的扩增子进行。在具体的实施例中,测序包括使用边测序边合成技术的illumina测序(例如,使用hiseq平台、使用miseq平台、使用nextseq平台等)。另外或可替代地,可以使用任何其它合适的下一代测序技术(例如,pacbio平台、minlon平台、牛津纳米孔平台等)。另外或可替代地,可以使用任何其它合适的测序平台或方法(例如,roche454lifesciences平台、lifetechnologiessolid平台等)。在一些实施例中,测序可以包括深度测序以量化样品中特定序列的拷贝数,于是也用于确定样品中不同序列的相对丰度。测序深度是或者可以是至少约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、70、80、90、100、110、120、130、150、200、300、500、500、700、1000、2000、3000、4000、5000或更多。

框s120中的样品处理的一些变型可以包括在测序之前进一步纯化扩增的核酸(例如,pcr产物),其用于去除多余的扩增组分(例如,引物、dntp、酶、盐等)。在一些实施例中,可以使用以下中的任何一种或更多种来促进额外的纯化:纯化试剂盒、缓冲剂、醇、ph指示剂、离液序列高的盐、核酸结合过滤器、离心以及任何其它合适的纯化技术。

在一些变型中,框s120中的计算处理可以包括以下中的任意一项或更多项:进行序列分析操作s124,包括鉴定微生物群系来源的序列(例如,与受试者序列和污染物相对);对微生物群系来源的序列进行比对和/或映射操作s125(例如,使用单末端比对、无空位比对、有空位比对、配对中的一个或更多个对片段化的序列进行比对),以及生成特征s126,所述特征来源于与生物样品相关的微生物群系的组成方面和/或功能方面。

进行测序分析操作s124并鉴定微生物来源的序列可以包括将来自样品处理的序列数据映射到受试者参考基因组(例如,由参考基因组联盟提供),以去除受试者基因组来源的序列。然后基于序列相似性和/或基于参考的方法(例如,使用vamps、使用mg-rast和/或使用qiime数据库),可以将在将序列数据映射至受试者参考基因组之后剩余的未被鉴定的序列进一步聚类为操作分类单位,使用比对算法(例如,基础局部比对搜索工具、fpga加速比对工具、使用bwa的bwt索引、使用soap的bwt索引、使用bowtie的bwt索引等)进行比对(例如,使用基因组散列方法、使用needleman-wunsch算法、使用smith-waterman算法),并映射到参考细菌基因组(例如,由美国国家生物技术信息中心提供)。未被鉴定的序列的映射可以另外或可替代地包括映射至参考古细菌基因组、病毒基因组和/或真核生物基因组。此外,可以与现有数据库相关地和/或与自定义生成的数据库相关地进行分类单位的映射。

另外或可替代地,关于生成微生物群系功能多样性数据集,框s120可以包括提取与生物样品的集合中的一种或更多种微生物群系组分的功能方面相关的候选特征s127,所述候选特征如在微生物群系数据集中所示出的。提取候选功能特征可以包括鉴定与以下中的一项或更多项相关的功能特征:直系同源蛋白质组的原核生物聚类(cog);直系同源蛋白质组的真核生物聚类(kog);任何其它合适类型的基因产物;rna加工和修饰功能分类;染色质结构和动力学功能分类;能量产生和转化功能分类;细胞周期控制和有丝分裂功能分类;氨基酸代谢和转运功能分类;核苷酸代谢和转运功能分类;碳水化合物代谢和转运功能分类;辅酶代谢功能分类;脂质代谢功能分类;翻译功能分类;转录功能分类;复制和修复功能分类;细胞壁/膜/包膜生物发生功能分类;细胞运动性功能分类;翻译后修饰、蛋白质周转和分子伴侣功能功能分类;无机离子转运和代谢功能分类;次级代谢物生物合成、转运和分解代谢功能分类;信号转导功能分类;细胞内运输和分泌功能分类;核结构功能分类;细胞骨架功能分类;仅一般的功能预测功能分类;和功能未知的功能分类;以及任何其它合适的功能分类。

另外或可替代地,在框s127中提取候选功能特征可以包括鉴定与以下中的一项或更多项相关的功能特征:系统信息(例如,细胞和生物功能的路径图、基因的模块或功能单元、生物实体的层级分类);基因组信息(例如,全基因组、全基因组中的基因和蛋白质、全基因组中的基因的直系同源组);化学信息(例如,化合物和聚糖、化学反应、酶命名法);健康信息(例如,人类疾病、经批准的药物、生药和与健康相关的物质);代谢途径图;遗传信息加工(例如,转录、翻译、复制和修复等)途径图;环境信息加工(例如,膜转运、信号转导等)途径图;细胞过程(例如,细胞生长、细胞死亡、细胞膜功能等)途径图;生物系统(例如,免疫系统、内分泌系统、神经系统等)途径图;人类疾病途径图;药物开发途径图;以及任何其它合适的途径图。

对于提取候选功能特征,框s127可以包括对一个或更多个数据库进行搜索,所述数据库例如京都基因和基因组百科全书(kegg)和/或由国家生物技术信息中心(ncbi)管理的直系同源组聚类(cog)数据库。可基于由来自一个或更多个生物样品集合的生成微生物群系组成数据集生成的结果和/或对来自样品集的物质进行测序来进行检索。更详细而言,框s127可以包括将面向数据的进入点实施到kegg数据库,该数据库包括以下中的一种或更多种:kegg途径工具、keggbrite工具、kegg模块工具、keggorthology(ko)工具、kegg基因组工具、kegg基因工具、kegg化合物工具、kegg聚糖工具、kegg反应工具、kegg疾病工具、kegg药物工具或kegg医学索引(medicus)工具。另外或可替代地,可以根据任何其它合适的过滤工具进行搜索。另外或可替代地,框s127可以包括将生物体特定进入点实施到kegg数据库,该kegg数据库包括kegg生物体工具。另外或可替代地,框s127可以包括实施分析工具,所述分析工具包括以下中的一种或更多种:kegg映射工具,其对kegg途径、brite或模块数据进行映射;用于探索kegg全球地图的kegg地图集工具、用于基因组注释和kegg映射的blastkoala工具、blast/fasta序列相似性搜索工具、simcomp化学结构相似性搜索工具以及subcomp化学子结构搜索工具。在一些具体实施例中,框s127可以包括基于微生物群系组成数据集从kegg数据库资源和cog数据库资源中提取候选功能特征;此外,框s127可以包括以任何其它合适的方式提取候选功能特征。例如,框s127可以包括提取候选功能特征,包括源自基因本体功能分类的功能特征和/或任何其它合适的特征。

在一个实施例中,分类组可以包括一种或更多种细菌及其相应的参考序列。当将序列读段与分类组的参考序列进行比对时,可以基于与分类组的比对来分配序列读段。功能组可以对应于被标记为具有相似功能的一个或更多个基因。因此,功能组可以由功能组中基因的参考序列表示,其中特定基因的参考序列可以对应于各种细菌。可以将分类组和功能组统称为序列组,因为每个组包括代表该组的一条或更多条参考序列。多种细菌的分类组可由多条参考序列表示,例如,分类组中每个细菌种由一条参考序列表示。一些实施方案可以使用序列读段与多条参考序列的比对度来基于该比对确定将该序列读段分配给哪个序列组。

1.对序列组的分析

代替或除了确定对应于特定分类组的序列读段的计数之外,一些实施方案可以使用对应于特定基因或具有特定功能注释的基因集合的序列读段的计数,其中所述集合被称为功能组。可以按照与分类组相似的方式确定rav。例如,功能组可以包括与功能组的一个或更多个基因相对应的多条参考序列。对于同一基因而言的多种细菌的参考序列可对应于同一功能组。然后,为了确定rav,可以使用被分配给功能组的序列读段的数目来确定就功能组而言的比例。在示例性实施方案中,功能组是kegg或cog组。

使用可包括单个基因的功能组可有助于鉴定其中许多分类组中存在小变化(例如,增加)使得个体变化太小而不具统计学显著性的情形。在这种情况下,这些变化可能都是针对同一个基因或同一功能组的基因集,因而,该功能组的变化可能具有统计学显著性,即使对于给定序列数据集而言,分类组的变化可能不具有统计学显著性。特定功能组比分类组更具有预测性可以是真实的,例如,当单个分类组包含许多已经发生了较少量的变化的基因时。

例如,如果10个生物分类组增加约10%,那么当对每个分类组进行单独分析时,区分这两个组的统计能力可能较低。但是,如果对于共有功能组的基因而言增加全部相似,那么增加将是100%,或者该分类组的比例增加一倍。这一大幅度的增加对于区分这两个组将具有大得多的统计能力。因此,功能组可以为各种分类组提供小变化的和。而且,可以将全部属于同一分类组的各种功能组的小变化相加以为该特定分类组提供高统计能力。

2.用于检测和分析分类组的示例性路径

实施方案可以提供分类地注释存在于样品中的微生物的生物信息学路径。示例性临床注释路径可以包括在此描述的以下过程。图1c是如下所述方法的一个实施方案的流程图,该方法用于评估来自样品的多个分类单位的相对丰度并将评估结果输出至数据库。

在框31中,可以鉴定样品并且可以加载序列数据。例如,所述路径可以始于解复用的fastq文件(或其它合适的文件),该文件是扩增子(例如,16s基因的v4区域的)的配对末端测序的结果。可以针对给定的输入测序文件对所有样品进行鉴定,并且可以从fastq存储库服务器获得相应的fastq文件并将该文件加载到路径中。

在框32中,可以过滤读段。例如,对fastq文件中的读段的全局质量过滤可以接受具有>30的全局q-分数的读段。在一个实施方式中,对于每个读段,对每个位置的q分数进行平均化,并且如果平均值等于或高于30,那么接受该读段,否则弃去该读段,对其配对读段亦如此。

在框33中,可以鉴定并去除引物。在一个实施方案中,仅进一步考虑含有正向引物的正向读段和含有反向引物的反向读段(允许以多至5个错配或其它数目的错配进行引物退火)。从读段中去除引物和该读段5'端的任何序列。对于正向读段,考虑朝向正向引物的3'的125bp(或其它合适的数目),对于反向读段,考虑朝向反向引物的3'的仅124bp(或其它适合的数目)。所有经过处理的<125bp的正向读段和<124bp的反向读段都将从进一步加工中除去,对其配对读段亦如此。

在框34中,可以将正向读段和反向读段写入文件(例如,fasta文件)中。例如,保持配对的正向读段和反向读段可用于生成包含来自正向读段的125bp的文件,来自正向读段的125bp连接到来自反向读段的124bp(沿反向互补方向)。

在框35中,可以将序列读段聚类,例如以鉴定嵌合序列或确定细菌的共有序列。例如,可以使用swarm算法以距离1对文件中的序列进行聚类[mahe,f等,2014]。该处理允许生成由中央生物实体构成的聚类和与高通量测序相关的正常碱基识别(calling)错误结果,所述聚类由距生物实体1个突变的序列包围,所述序列丰度不太高。从进一步分析中去除单独的聚类。在剩余的聚类中,每个聚类中最丰富的序列于是被用作代表并被分配聚类中计数的全部成员。

在框36中,可以去除嵌合序列。例如,基因超家族的扩增可以产生嵌合dna序列的形成。这些嵌合dna序列得自来自超家族的一个成员的部分pcr产物,所述超家族的一个成员在后续的pcr循环中相对于超家族的不同成员退火和延伸。为了去除嵌合dna序列,一些实施方案可以使用具有从头选项和标准参数的vsearch嵌合体检测算法[rognes,t.等,2016]。该算法使用pcr产物的丰度来将参考“真实”序列鉴定为丰度最高,并且将嵌合产物鉴定为是丰度不那么高并且显示出与两条或更多条参考序列的局部相似性。全部嵌合序列都可以从进一步的分析中去除。

在框37中,可以使用序列同一性搜索将分类注释分配给序列。为了将已经通过上述全部过滤的序列分配分类,一些实施方案可以至少在那些分类级别的细分或任何其它分类级别针对包含注释有门、纲、目、科、属和种级别的细菌菌株(例如,参考序列)的数据库进行同一性搜索。考虑到可以推断出较低级别分类级别的较高阶分类名称,可以保持对序列的最具体的分类注释级别。可以使用算法vsearch[rognes,t.等,2016]以参数(maxaccepts=0,maxrejects=0,id=1)进行序列同一性搜索,其允许对所使用的参考数据库的详尽探索。可以使用序列同一性的递减值来将序列分配给不同的分类组:对于分配给种,>97%的序列同一性;对于分配给属,>95%的序列同一性;对于分配给科,>90%的序列同一性;对于分配给目,>85%的序列同一性;对于分配给纲,>80%的序列同一性;对于分配给门,>77%的序列同一性。

在框38中,可以评估每个分类单位的相对丰度并将其输出到数据库。例如,一旦所有序列都已用于鉴定参考数据库中的相同序列,则可以通过用被分配给相同分类组的全部序列的计数除以通过过滤(例如,被分配)的读段的总数来确定每个分类单位的相对丰度。可以将结果上传到被用作分类注释数据存储库的数据库表。

3.用于检测和分析功能组的示例性路径

对于功能组,该过程可以按照如下进行。图1d是如下所述方法的一个实施方案的流程图,该方法用于生成源自生物样品或生物样品的集合的组成和/或功能组分的特征。

在框41中,可以找到样品otu(操作分类学单位)。这可能发生在例如v.b.2部分中的上文所述的第六个框之后。在找到样品otu后,可以例如基于序列同一性(例如,97%的序列同一性)对序列进行聚类。

在框42中,可以例如通过将otu与分类已知的参考序列进行比较来分配分类。该比较可以基于序列同一性(例如,97%)。

在框43中,可以针对16s拷贝数或可分析的任何基因组区域调整分类丰度。不同的种可能有不同的16s基因拷贝数,因此,在细胞数目相同的情况下,具有更高拷贝数的种将具有比其它种更多的16s物质用于pcr扩增。因此,可以通过调整16s拷贝数来对丰度进行归一化。

在框44中,可以使用预先计算的基因组查找表来将分类与功能及功能的量相关联。例如,基于归一化的16s丰度数据,可以使用预先计算的基因组查找表来评估那些功能分类的丰度,所述基因组查找表示出每个分类组重要的kegg或cog功能类别的基因的数目。

在鉴定与生物样品相关的微生物群系的微生物的代表组和/或鉴定候选功能方面(例如,与生物样品的微生物群系组分相关的功能)之后,可以进行生成源自与生物样品的集合相关的微生物群系的组成方面和/或功能方面的特征。

在一个变型中,生成特征可以包括生成源自多位点序列分型(mlst)的特征,其可以在与方法100、200的实施相关的任何阶段通过实验进行,以鉴定可用于方法100的后续框中的表征的标志物。另外或可替代地,生成特征可以包括生成描述存在或不存在微生物的某些分类组和/或微生物的所表现出的分类组之间的比例的特征。另外或可替代地,生成特征可以包括生成描述以下中的一项或更多项的特征:示出的分类组的数量、示出的分类组的网络、示出的不同分类组的相关性、不同分类组之间的相互作用、由不同分类组产生的产物、由不同分类组产生的产物之间的相互作用、死亡的微生物和活的微生物之间的比率(例如,对于不同的所示出的分类组,例如基于rna的分析)、系统发育距离(例如,依据kantorovich-rubinstein距离、wasserstein距离等)、任何其它合适的与分类组相关的特征或任何其它合适的遗传特征或功能特征。

另外或可替代地,生成特征可以包括例如使用sparcc方法、使用基因组相对丰度和平均大小(gaas)方法和/或使用基因组相对丰度使用混合模型理论(gramm)方法来描述不同微生物组的相对丰度的特征,其中gramm方法使用序列相似性数据来进行一组或更多组微生物相对丰度的最大可能性评估。另外或可替代地,生成特征可以包括生成如源自丰度度量的分类变化的统计学量度。另外或可替代地,生成特征可以包括生成源自相对丰度因子(例如,与分类单位的丰度变化相关,该分类单位的丰度变化影响其它分类单位的丰度)的特征。另外或可替代地,生成特征可以包括单独和/或组合地生成描述一个或更多个分类组的存在的定性特征。另外或可替代地,生成特征可以包括生成与遗传标志物(例如,代表性16s、18s和/或its序列)相关的特征,所述遗传标志物表征与生物样品相关的微生物群系的微生物。另外或可替代地,生成特征可以包括生成与特定基因和/或具有特定基因的生物体的功能关联相关的特征。另外或可替代地,生成特征可以包括生成与分类单位的致病性和/或归属于分类单位的产物相关的特征。然而,框s120可包括生成源自对生物样品的核酸的测序和映射的任何其它合适的特征。例如,该特征可以是组合性的(例如,涉及成对体、三联体)、相关的(例如,与不同特征之间的相关性有关)、和/或与特征的变化有关(即,时间变化、样品位点的变化、空间变化等)。然而,在框s120中可以任何其它合适的方式生成特征。

4.补充数据的使用

框s130记载:接收与受试者群体的至少一个子集相关的补充数据集,其中所述补充数据集提供与疾病或病症相关的特征的信息。因此,补充数据集可以提供关于受试者群体内疾病存在的信息。框s130用于获取与该组受试者中的一个或更多个受试者相关的附加数据,其可用于训练(train)和/或验证在框s140中进行的表征过程。在框s130中,补充数据集可包括来源于调查的数据,并且可以另外或可替选地包括以下项中的任意一个或更多个:源自传感器的全方位数据、医学数据(例如,与甲状腺健康问题相关的当前和历史医学数据或与甲状腺健康问题相关的健康状况、脑扫描数据(例如,成像或心电图,ekg)、行为仪器数据、来源于精神障碍诊断和统计手册的工具的数据等)以及任何其它合适类型的数据。

在包括接收来源于调查的数据的框s130的一些变型中,来源于调查的数据优选地提供与受试者相关的生理信息、人口统计学信息和行为信息。生理信息可以包括与生理特征(例如,身高、体重、体质指数、体脂百分比、体毛水平等)相关的信息。人口统计学信息可以包括与人口统计学特征(例如,性别、年龄、种族、婚姻状态、兄弟姐妹的数量、社会经济状态、性取向等)相关的信息。行为信息可以包括与以下中的一项或更多项有关的信息:健康状况(例如,健康状态和疾病状态)、生活情形(例如,独居、与宠物一起生活、与重要他人一起生活、与孩子一起生活等)、饮食习惯(例如,杂食、素食、严格素食、糖消耗、酸消耗等)、行为倾向(例如,身体活动水平、药物使用、酒精使用等)、不同的移动水平(例如,与在给定时间段内行进的距离有关)、不同水平的性活动(例如,与伴侣的数量和性取向相关)以及任何其它合适的行为信息。来源于调查的数据可以包括定量数据和/或可以被转换为定量数据的定性数据(例如,使用严重程度量表、将定性反应映射到量化分数等)。

为了便于接收来源于调查的数据,框s130可以包括向受试者群体中的受试者或与受试者群体中的受试者相关的实体提供一项或更多项调查。调查可以亲自提供(例如,与样品提供和/或由受试者接待相配合)、电子地提供(例如,在受试者账户设置期间、在受试者的电子设备上执行应用期间、在通过互联网连接可访问的web应用等),和/或以任何其它合适的方式提供。

另外或可替代地,在框s130中接收到的补充数据集的部分可以获自与受试者相关的传感器(例如,可佩戴式计算设备的传感器、移动设备的传感器、与用户相关的生物度量传感器等)。由此,框s130可以包括接收以下中的一项或更多项:身体活动或身体动作相关数据(例如,来自受试者的移动设备或可穿戴式电子设备的加速度计和陀螺仪数据)、环境数据(例如,温度数据、海拔数据、气候数据、光参数数据等)、患者营养或饮食相关数据(例如,来自食物建档记录(foodestablishmentcheck-ins)的数据、来自分光光度分析等的数据)、生物计量学数据(例如,通过患者的移动计算设备中的传感器记录的数据、通过可穿戴式设备或与患者的移动计算设备相连通的其它外周设备记录的数据)、位置数据(例如,使用gps元件),以及任何其它合适的数据。另外或可替代地,补充数据集的部分可以源自受试者的医学记录数据和/或临床数据。由此,补充数据集的部分可以源自受试者的一个或更多个电子健康记录(ehr)。

另外或可替代地,框s130的补充数据集可以包括任何其它合适的诊断信息(例如,临床诊断信息),其可以与源自特征的分析组合以支持方法100的后续框中的受试者的表征。例如,源自结肠镜、活组织检查、血液测试、诊断影像、调查相关信息的信息以及任何其它合适的检测信息均可用于补充框s130。

5.甲状腺健康问题的表征

框s140记载:将补充数据集和从微生物群系组成数据集和微生物群系功能多样性数据集中的至少一个提取的特征转化为疾病或病症的表征模型。框s140用于进行表征过程以基于受试者的微生物群系组成和/或功能特征来鉴定可用于表征具有甲状腺健康问题的受试者或组的特征和/或特征组合。另外或可替代地,表征过程可以用作诊断工具,其可以基于受试者的微生物群系组成和/或功能特征与其它健康状况状态、行为特征、医疗状况、人口统计学性状和/或任何其它合适的性状相关地表征受试者(例如,就行为特征而言、就医疗状况而言、就人口统计学性状而言)。然后可以使用这样的表征通过框s150的治疗模型来建议或提供个性化治疗。

在进行表征过程中,框s140可以使用计算方法(例如,统计学方法、机器学习方法、人工智能方法、生物信息学方法等)将受试者表征为表现出具有甲状腺健康问题的受试者组的特征性特征。

在一个变型中,表征可以基于来源于对如下所述两组之间的相似性和/或差异的统计学分析(例如,概率分布分析)的特征:第一组受试者表现出与甲状腺健康问题相关的目标状态(例如,健康状况状态);第二组受试者未表现出与不存在甲状腺健康问题、或不存在指示甲状腺健康问题的微生物群系、或不存在指示由甲状腺健康问题引起的健康和/或生活质量问题的微生物群系相关的目标状态(例如,“正常”状态)。在实施该变型时,可以使用kolmogorov-smirnov(ks)检验、排列检验、cramér-vonmises检验以及任何其它统计学检验(例如,t检验、welch'st检验、z检验、卡方检验、与分布相关的检验等)中的一个或更多个。特别地,可以使用一个或更多个这样的统计学假设检验来评定在如下所述受试者中具有不同丰度(或变化)的特征集:表现出与甲状腺健康问题相关的目标状态(例如,不良状态)的第一组受试者和未表现出与甲状腺健康问题相关的目标状态(例如,正常状态)的第二组受试者。更详细而言,可以基于与第一组受试者和第二组受试者相关的丰度百分比和/或任何其它合适的涉及多样性的参数来约束所评定的特征集,以增加或降低表征的置信区间。在该实施例的一个具体实施方式中,特征可以来自微生物分类单位和/或在一定百分比的第一组受试者和第二组受试者中丰富的功能特征的存在,其中可以由ks检验或welch'st检验(例如,具有对数正态变换的t检验)中的一个或更多个并示出显著性(例如,以p值)来确定第一组受试者与第二组受试者之间分类单位的相对丰度。因此,框s140的输出可以包括示出显著性(例如,p值为0.0013)的归一化的相对丰度值(例如,甲状腺健康问题受试者相对于对照受试者,源自分类单位的特征和/或功能特征丰度增加25%)。特征生成的变型可以另外或可替代地实施或者源自功能特征或元数据特征(例如,非细菌标志物)。

在一些变型和实施例中,表征可以使用患有该疾病(甲状腺健康问题)的受试者群体和没有该疾病的受试者群体(对照群体)的相对丰度值(rav)。如果疾病群体的特定序列组的rav分布在统计学上不同于对照群体的rav分布,那么可以将该特定序列组鉴定为包括在疾病识别标志中。由于这两个群体具有不同的分布,所以针对疾病识别标志中的序列组,可以使用新样品的rav来对样品患病、未患病或指示疾病进行分类(例如,确定概率)。如本文所述,该分类也可以用于确定治疗。可以采用区分级别来鉴定具有高预测值的序列组。因此,实施方案可以过滤出对于提供诊断而言不是非常精确的分类组和/或功能组。

一旦已经确定了对照群体和疾病群体的序列组的rav,则可以使用各种统计学检验来确定序列组用于区分疾病(甲状腺健康问题)和不存在疾病(对照)的统计学能力。在一个实施方案中,可以采用kolmogorov-smiraov(ks)检验来提供两种分布实际上相同的概率值(p值)。p值越小,正确鉴定样品属于哪个群体的概率越大。两个群体之间平均值的区别越大,通常会带来越小的p值(区分级别的一个例子)。可以使用其它检验来比较分布。welch氏t检验假定分布是高斯分布,这对于特定的序列组而言不一定是正确的。ks检验因其为非参数检验而非常适于比较概率分布未知的分类单位或功能的分布。

可以对对照群体和病症群体的rav分布进行分析以鉴定在这两个分布之间具有大的区别的序列组。可以将该区别测量为p值(请参见实施例部分)。例如,对照群体的rav可以具有以第一值达到峰值的分布,该分布具有一定的宽度和衰减。而且,疾病群体可以具有以第二值达到峰值的另一分布,该第二值在统计学上不同于第一值。在这种情况下,对照样品的丰度值在疾病样品所遇到的丰度值分布内的概率较低。两种分布之间的区别越大,用于确定给定样品属于对照群体还是疾病群体的区分越准确。如在本文中描述的,可以采用该分布来确定rav在对照群体中的概率并确定rav在疾病群体中的概率,其中与两种手段之间的最大差异百分比相关的序列组具有最小p值,指示两个群体之间的区别更大。

对于进行表征过程,框s140可以另外或可替代地将来自微生物群系组成数据集和/或微生物群系功能多样性数据集中的至少一个的输入数据转换成特征向量,可以测试该特征向量在预测受试者群体的表征中的效力。可以使用来自补充数据集的数据报告甲状腺健康问题的表征,其中利用候选特征的训练数据集和候选分类来训练表征过程,以鉴定对准确地预测分类具有高度(或低度)预测能力的特征和/或特征组合。由此,利用训练数据集对表征过程的细化使得鉴定出与甲状腺健康问题或与甲状腺健康问题相关的健康问题(例如,症状)具有高度相关性的特征集(例如,受试者特征、特征的组合)。

在一些实施方案中,有效预测表征过程的分类的特征向量可以包括与以下中的一项或更多相有关的特征:微生物群系多样性度量(例如,关于在各分类组中的分布、关于在古细菌组、细菌组、病毒组和/或真核生物组中的分布)、在一者的微生物群系中分类组的存在、在一者的微生物群系中特定遗传序列(例如,16s序列)的表示、在一者的微生物群系中分类组的相对丰度、微生物群系适应性度量(例如,响应于由补充数据集确定的扰动)、编码具有给定功能的蛋白质或rna(酶、转运蛋白、来自免疫系统的蛋白质、激素、干扰rna等)的基因的丰度以及源自微生物群系组成数据集、微生物群系功能多样性数据集(例如,cog来源的特征、kegg来源的特征、其它功能特征等)和/或补充数据集的任何其它合适特征。另外,可以在特征向量中使用特征的组合,其中,可以在提供组合特征作为特征集的一部分时将特征分组和/或衡量权重。例如,一个特征或特征集可以包括在一者的微生物群系中细菌的代表类别的数目的经衡量权重的复合组成(weightedcomposite)、在一者的微生物群系中存在特定的细菌属、在一者的微生物群系中示出了特定的16s序列以及第一门的细菌相对于第二门的细菌的相对丰度。然而,特征向量可以另外或可替代地以任何其它合适的方式来确定。

在框s140的实施例中,假设测序已经以足够的深度发生,那么可以量化指示存在特征的序列的读段的数目,从而允许将标准之一的估计量设定为某值。读段的数目或特征之一的量的其它量度可以被提供为绝对值或相对值。绝对值的一个例子是映射到毛螺菌属(genusoflachnospira)的16srrna编码序列读段的读段数目。或者,可以确定相对量。示例性相对量计算是为了确定特定细菌分类单位(例如,属、科、目、纲或门)的16srrna编码序列读段的相对于被分配给细菌结构域的16srrna编码序列读段总数的量。然后可以将指示样品中的特征的量的值与甲状腺健康问题的疾病识别标志中的截止值或概率分布进行比较。例如,如果该疾病识别标志指示特征#1的相对量为在该级别上可能的所有特征的50%或更多表明指示可能存在甲状腺健康问题或归因于甲状腺健康问题、由甲状腺健康问题指示或引起的健康或生活质量问题,则对样品中与特征#1相关的基因序列的定量小于50%将表明来自健康受试者(或者至少来自没有甲状腺健康健康问题或没有特定甲状腺健康问题的受试者)的可能性更高,或者,对样品中与特征#1相关的基因序列的定量超过50%将表明指示患该疾病的可能性更高。

在一些情况下,在确定与特定组(特征)相对应的序列读段的量的上下文中,可以将分类组和/或功能组称为特征组或序列组。在一些情况下,可以根据对丰度值与已知样品的一个或更多个参考(基准)丰度值的比较来确定对特定细菌或遗传途径的记录,例如,其中根据特定标准,所检测到的丰度值小于一定值与所讨论的甲状腺健康问题相关,将所检测到的丰度值大于该一定值记录为与健康相关,或反之亦然。可以将对各种细菌或遗传途径的记录相结合来提供对受试者的分类。此外,在一些实施例中,丰度值与一个或更多个参考丰度值的比较可以包括与由一个或更多个参考值确定的截止值的比较。这样的截止值可以是使用参考丰度值确定的决策树或聚类技术(其中使用截止值来确定丰度值属于哪个聚类)的一部分。该比较可以包括其它值(例如,概率值)的中间确定。该比较还可以包括丰度值与参考丰度值的概率分布的比较,并且因而包括与概率值的比较。

疾病识别标志可以包括比用于给定受试者的序列组更多的序列组。例如,疾病识别标志可以包括100个序列组,但是在样品中只能检测到60个序列组,或者只有60个序列组被检测为高于截止阈值。受试者的分类(包括患或未患诸如甲状腺健康问题的疾病的任何概率)可以根据这60个序列组来确定。

关于表征模型的生成,对于给定疾病具有高区分级别(例如,低p值)的序列组可以被鉴定并用作表征模型的一部分,例如,其使用疾病识别标志来确定受试者有甲状腺健康问题的概率。疾病识别标志可以包括序列组集以及用于提供对受试者的分类的区分标准(例如,截止值和/或概率分布)。分类可以是二元的(例如,疾病或对照)或具有更多分类(例如,有甲状腺健康问题疾病或没有该疾病的概率值)。疾病识别标志的哪些序列组用于进行分类取决于所获得的特定序列读段,例如,如果序列组未被分配序列读段,则不使用该序列组。在一些实施方案中,可以针对不同群体确定单独的表征模型,例如通过受试者当前居住的地理位置(例如,国家、地区或大陆)、受试者的一般历史(例如,种族)或其它因素。

6.序列组的选择、序列的区分标准以及序列组的使用

如图4所示,在框s140的一个实施方案中,可以根据随机森林预测(rfp)算法来生成和训练表征过程,该算法将套袋法(bagging)(即,自助集合(bootstrapaggregation))和从训练数据集中选择随机特征集相结合以构建与随机特征集相关的决策树集t。在使用随机森林算法时,随机选取决策树集中的n个样例并进行替换以创建决策树的子集,并且对于每个节点,从全部预测特征中选择m个预测特征用于进行测定。使用在节点处(例如,根据目标函数)提供最佳分叉的预测特征来进行分叉(例如,作为节点处分两叉(bifurcation),作为节点处分三叉(trifuracation))。通过从大型数据集中多次取样,在鉴定预测分类中强的特征中表征过程的强度可以大大增加。在该变型中,可以在处理期间包括用于防止偏差(例如,取样偏差)和/或导致偏差量的措施以增加模型的稳健性。

在一个实施方式中,基于用源自受试者群体子集的验证数据库训练和验证的算法,框s140的基于统计学分析的表征过程可以鉴定与甲状腺健康问题具有最高关联的特征集,一种或更多种治疗将对所述甲状腺健康问题具有积极效果。特别地,在该第一变型中的甲状腺健康问题的特征在于微生物群系的改变,所述微生物群系预测存在或不存在甲状腺功能减退或桥本病。

在一个变型中,对甲状腺健康障碍相关的诊断有用的的特征集包括如下特征,所述特征来自表a或b的分类单位中的一个或更多个(例如,表a的科、目、纲和/或门中的一个或更多个)和/或表b的功能组中的一个或更多个(例如,表b的kegg2级(keggl2)功能组中的一个或更多个和/或kegg3级(keggl3)功能组中的一个或更多个)。

7.治疗模型

在一些实施方案中,如上所述,基于对个体微生物群系的分析,可以使用第一方法100的输出生成诊断和/或为个体提供治疗措施。由此,从第一方法100的至少一个输出得出的第二方法200可以包括:接收来自受试者的生物样品s210;基于该表征和该治疗模型表征具有甲状腺健康问题的形式的受试者s230。

框s210记载:接收来自受试者的样品,其用于促进生成受试者的微生物群系组成数据集和/或微生物群系功能多样性数据集。由此,处理和分析生物样品优选地促进生成受试者的微生物群系组成数据集和/或微生物群系功能多样性数据集,其可用于提供可用于表征与甲状腺健康问题的诊断相关的个体的输入,如在框s220中。接收来自受试者的生物样品优选地以与上文与框s110相关地描述的样品接收实施方案、变型和/或实施例中之一相似的方式进行。由此,可以使用用于第一方法100的表征和/或治疗提供模型的用来接收和处理生物样品的那些相似过程,来进行框s210中生物样品的接收和处理,以提供过程的一致性。然而,框s210中的生物样品接收和处理可以可替代地以任何其它合适的方式进行。

框s220记载:基于处理源自生物样品的微生物群系数据集来表征具有疾病或病症形式的受试者。框s220用于从受试者的微生物群系来源的数据中提取特征,并使用这些特征来正面或负面地将个体表征为具有一定形式的甲状腺健康问题。因而,在框s220中表征受试者优选地包括鉴定与受试者的微生物群系组成和/或微生物群系的功能特征相关的特征和/或特征的组合,并将这些特征与具有甲状腺健康问题的受试者特有的特征相比较。框s220可以进一步包括与个体的表征相关的置信度量的生成和/或输出。例如,可以从用于生成分类的特征的数目、用于生成表征的特征的相对权重或排名、在上文的框s140中使用的模型中偏好的量度和/或与框s140的表征操作的各方面相关的任何其它合适的参数得到置信量度。

在一些变型中,从微生物群系数据集提取的特征可以被补充有来自个体的调查来源的和/或医疗史来源的特征,这些特征可用于进一步细化框s220的特征操作。然而,个体的微生物群系组成数据集和/或微生物群系功能多样性数据集可以另外或可替代地以任何其它合适的方式使用以增强第一方法100和/或第二方法200。

框s230记载:基于该表征和该治疗模型促进对患该疾病或病症的受试者的治疗。框s230用于为受试者推荐或提供个性化治疗措施,以使个体的微生物群系组成转向理想的平衡状态。由此,框s230可以包括矫正甲状腺健康问题,或者以其它方式正面影响使用者的与甲状腺健康问题相关的健康。因此,如本文所述,框s230可以包括基于受试者与甲状腺健康问题相关的表征来向受试者推荐一种或更多种治疗措施,其中该疗法被配置为以期望的方式向与上述表征相关的“正常”状态或“对照”状态调节受试者的微生物群系的分类学构成和/或调节受试者的微生物群系的功能特征方面。

在框s230中,为受试者提供治疗措施可以包括推荐可用治疗措施,该可用治疗措施被配置成将受试者的微生物群系组成朝向理想的状态(例如,具有不指示(例如,被改变)甲状腺健康问题的微生物群系)调节。另外或可替代地,框s230可以包括根据受试者的表征(例如,与特定类型的甲状腺健康问题相关,所述特定类型的甲状腺健康问题例如甲状腺功能减退或桥本病)为受试者提供定制治疗。在一些变型中,为了改善甲状腺健康问题的状态,用于调节受试者的微生物群系组成的治疗措施可以包括以下中的一项或更多项:益生菌、益生元、基于噬菌体的疗法、消费品、建议的活动、局部治疗、对卫生产品使用的调整、饮食调整、睡眠行为调整、生活安排、性活动水平调整、营养补充剂、药物、抗生素以及任何其它合适的治疗措施。框s230中的治疗提供可以包括通过电子设备、通过与个人相关的实体和/或以任何其它合适的方式提供通知。

更详细地,如图6所示,框s230中的治疗提供可以包括与健康相关目标有关地向受试者提供关于推荐的治疗措施和/或其它行动方针(coursesofaction)的通知。可以通过执行应用的电子设备(例如,个人计算机、移动设备、平板电脑、头戴式可佩戴计算设备、手腕式可佩戴计算设备等)、web界面和/或被配置成用于通知提供的信息传送客户端(messagingclient)向个体提供通知。在一个实施例中,与受试者相关的个人计算机或平板电脑的web界面可以提供受试者对受试者的用户账号的访问,其中用户账号包括关于受试者的表征的信息、受试者的微生物群系组成和/或功能特征方面的详细表征以及关于在框s150中生成的建议的治疗措施的通知。在另一个实施例中,在个人电子设备(例如,智能电话、智能手表、头戴式智能设备)上执行的应用可以被配置为提供关于由框s150的治疗模型生成的治疗建议的通知(例如,在显示器、以触觉、以听觉方式等)。另外或可替代地,可以直接通过与受试者相关的实体(例如,护理人员、配偶、重要他人、专业医护人员等)提供通知。在一些进一步的变型中,通知可以另外或可替代地提供给与受试者相关的任何实体(例如,医疗保健专业人员),其中该实体能够施用治疗措施(例如,通过处方、通过进行治疗讨论(therapeuticsession)等)。但是,通知可以以任何其它合适的方式为受试者提供治疗施用。

此外,在框s230的扩展中,可以采用在治疗方案的过程期间监测受试者(例如,通过在整个治疗过程中接收和分析来自受试者的生物样品,通过在整个治疗过程中接收来自受试者的调查来源的数据)为根据在框s150中生成的模型提供的每个推荐的治疗措施生成治疗有效性模型。

如图1e所示,在一些变型中,第一方法100或本文所述的任何方法(例如,如在图1a-1f中的任意一个或更多个中那样)可以进一步包括框s150,框s150记载:基于该表征模型,生成被配置为矫正或以其它方式改善疾病或病症的状态的治疗模型。框s150用于鉴定或预测疗法(例如,基于益生菌的疗法、基于益生元的疗法、基于噬菌体的疗法、基于小分子的疗法(例如,选择性、泛选择性或非选择性抗生素)等),所述疗法可以将受试者的微生物群系组成特征和/或功能特征转向理想的平衡状态以促进受试者的健康(例如,朝向不指示甲状腺健康问题的微生物群系,或者矫正或以其它方式改善甲状腺健康问题的状态或症状)。在框s150中,疗法可以选自包括以下中的一种或更多种的疗法:益生菌疗法、基于噬菌体的疗法、益生元疗法、基于小分子的疗法、认知/行为疗法、身体康复疗法、临床疗法、基于药物的疗法、饮食相关疗法和/或被设计成以任何其它合适的方式操作以促进使用者的健康的任何其它合适的疗法。在基于噬菌体的疗法的具体实例中,可以使用对患有甲状腺健康问题的受试者中示出的特定细菌(或其它微生物)具有特异性的噬菌体的一个或更多个群体(例如,就集落形成单位而言)下调或以其它方式消除某些细菌的群体。由此,基于噬菌体的疗法可以用于减少受试者中示出的非期望细菌群体的大小。补充地,可以使用基于噬菌体的疗法来增加未被噬菌体靶向的细菌群体的相对丰度。

例如,关于本文所述的甲状腺健康问题的变型,可以配置疗法(例如,益生菌疗法、基于噬菌体的疗法、益生元疗法等)来下调和/或上调与甲状腺健康问题特有的特征相关的微生物群体或亚群体(和/或其功能)。

对于一个这样的变型,框s150可以包括以下步骤中的一个或更多个:从受试者获得样品;从样品中纯化核酸(例如,dna);对来自样品的核酸进行深度测序以确定表a、b、c、d或e的特征中的一个或更多个的量;以及将每个特征的所得量与表a、b、c、d或e中的一个或更多个中列出的特征中的一个或更多个特征的一个或更多个参考量进行比较,所述参考量如在有甲状腺健康问题的普通个体或没有甲状腺健康问题的个体或两者中发生的。有时可将特征的汇编称为与甲状腺健康问题有关的特定病症的“疾病识别标志”。疾病识别标志可以充当特征模型,并且可以包括对照群体(无甲状腺健康问题)或具有病症的疾病群体或两者的概率分布。疾病识别标志可以包括所列出的特征(例如,细菌分类单位或遗传途径)中的一个或更多个,并且可以可选地包括由对照群体和/或疾病群体的丰度值确定的标准。示例性标准可以包括与普通对照个体或疾病(例如,甲状腺功能减退或桥本病)个体相关的那些特征的量的截止值或概率值。

在益生菌疗法的一个具体实施例中,如图5所示,治疗模型的候选疗法可以进行以下中的一项或更多项:通过提供物理屏障(例如,通过定植抗力)阻断病原体进入上皮细胞、通过刺激杯状细胞诱导形成粘膜屏障、增强受试者上皮细胞之间顶端紧密连接的完整性(例如,通过刺激带状疱疹1的上调、通过防止紧密连接蛋白的再分布)、产生抗微生物因子、刺激抗炎性细胞因子的产生(例如、通过树突细胞的信号传导和调节性t细胞的诱导)、引发免疫应答以及进行调节受试者的微生物群系远离失调状态的任何其它合适的功能。

在一些变型中,治疗模型优选地基于来自大的受试者群体的数据,所述受试者群体可以包括在框s110中微生物群系相关数据集所来自的受试者群体,其中对暴露于各种治疗措施之前和暴露于各种治疗措施之后的微生物群系组成特征和/或功能特征或状态健康进行了良好的表征。这些数据可用于训练和验证治疗提供模型,以鉴定基于不同的微生物群系表征为受试者提供期望的结果的治疗措施。在一些变型中,支持向量机作为一种监督机器学习算法,可用于生成治疗提供模型。然而,上述任何其它合适的机器学习算法都可以有助于生成治疗提供模型。

尽管与以上框的进行相关地描述了统计学分析和机器学习的一些方法,但是方法100或图1a-1f中的任意一个的变型可以另外或可替代地利用任何其它合适的算法来进行表征过程。在一些变型中,可以通过学习方式来表征算法,所述学习方式包括以下中的任意一个或更多个:监督学习(例如,使用逻辑回归、使用反向传播神经网络)、无监督学习(例如,使用apriori算法、使用k-均值聚类)、半监督学习、强化学习(例如,使用q-leaming算法、使用时间差异学习)以及任何其它合适的学习方式。此外,该算法可以实施以下中的任意一个或更多个:回归算法(例如,普通最小二乘法、逻辑回归、逐步回归、多变量自适应回归样条、本地散点平滑估计等)、基于实例的方法(例如,k-最近邻、学习向量量化、自组织映射等)、正则化方法(例如,脊(ridge)回归、最小绝对收缩和选择算子、弹性网络等)、决策树学习方法(例如,分类和回归树、迭代二分法3、c4.5、卡方自动交互检测、决策树桩、随机森林、多元自适应回归样条、梯度提升机(gradientboostingmachines)等)、贝叶斯方法(例如,朴素贝叶斯、平均单依赖估计、贝叶斯信念网络等)、核方法(例如,支持向量机、径向基函数、线性区分分析等)、聚类方法(例如,k-均值聚类、期望最大化等)、关联的规则学习算法(例如,apriori算法、eclat算法等)、人工神经网络模型(例如,感知器方法、反向传播方法、hopfield网络方法、自组织映射方法、学习向量量化方法等)、深度学习算法(例如,受限波尔兹曼机器、深信念网络方法、卷积网络方法、堆叠自编码器方法等)、维数约简法(例如,主分量分析、偏最小二乘回归、sammon映射、多维尺度变换(multidimensionalscaling)、投影寻踪等)、集成方法(例如,提升、自助聚合、adaboost、堆叠泛化(stackedgeneralization)、梯度提升机器方法、随机森林方法等)以及任何适当形式的算法。

另外或可替代地,如由被鉴定为处于良好健康状况的受试者群体中的受试者所评定的,可以与鉴定“正常”或基线微生物群系组成特征和/或功能特征相关地得到治疗模型。一旦鉴定了被表征为处于良好健康状态的受试者群体中的受试者子集(例如,表征为不具有由甲状腺健康问题引起或指示甲状腺健康问题的改变的微生物群系,例如使用表征过程的特征),可以在框s150中生成朝向处于良好健康状态的受试者的微生物群系组成特征和/或功能特征来调节微生物群系组成特征和/或功能特征的疗法。因此,框s150可以包括鉴定一种或更多种基线微生物群系组成特征和/或功能特征(例如,用于人口统计学集中的每一个的一种基线微生物群系)和潜在的治疗制剂和治疗方案,所述潜在的治疗制剂和治疗方案可以使处于生态失调状态的受试者的微生物群系转向所鉴定的基线微生物群系组成和/或功能特征之一。然而,治疗模型可以以任何其它合适的方式生成和/或细化。

与治疗模型相关的益生菌疗法相关的微生物群系组成优选地包括可培养微生物(例如,能够扩增以提供可扩展治疗)和非致死微生物(例如,在期望的治疗剂量下非致死)。此外,微生物群系组成可以包含对受试者的微生物群系具有急性或缓和作用的单一类型的微生物。另外或可替代地,微生物群系组成可以包含多种类型的微生物的平衡组合,所述多种微生物被配置成彼此协作以朝向理想的状态驱动受试者的微生物群系。例如,益生菌治疗中多种类型细菌的组合可以包含第一种细菌类型,其产生由第二种细菌类型使用的产物,所述第二种细菌类型具有积极影响受试者的微生物群系的作用。另外或可替代地,益生菌治疗中的多种类型的细菌的组合例如可以包含数种细菌类型,所述数种细菌类型产生具有积极影响受试者的微生物群系的相同功能的蛋白质。

在益生菌疗法的一些实施例中,益生菌组合物可以包含微生物的所鉴定的分类单位(例如,如表a中所述)中的一个或更多个的组分,该组分以100万至100亿cfu的剂量提供,如由预测受试者的微生物群系响应于治疗而正向调整的治疗模型所确定的。另外或可替代地,该治疗可以包括由没有甲状腺健康问题的受试者的微生物群系组成中的功能存在得到的蛋白质的剂量。在这些实施例中,可以根据受试者的以下特征中的一个或更多个调整的方案告知他/她服用含益生菌制剂的胶囊:生理学(例如,体质指数、体重、身高)、人口统计学(例如,性别、年龄)、生态失调的严重程度、对药物的敏感性以及任何其它合适的因素。

此外,基于益生菌的疗法的益生菌组合物可以是天然的或合成来源的。例如,在一个应用中,益生菌组合物可以天然地来源于粪便物质或其它生物物质(例如,具有基线微生物群系组成和/或功能特征的一个或更多个受试者的益生菌组合物,如使用表征过程和治疗模型鉴定的)。另外或可替代地,基于基线微生物群系组成和/或功能特征,益生菌组合物可以是合成地获得的(例如,使用台式法(bentopmethod)得到),如使用表征过程和治疗模型鉴定的。在一个实施方案中,益生菌组合物是或来源于受试者自己的粪便物质,所述粪便物质已经在治疗者处于健康状态时储存或“储备”,以便当微生物群系不平衡(例如,由于抗生素使用,或者由于甲状腺健康问题)时使用。

在一些变型中,可用于益生菌疗法的微生物剂可包括以下中的一种或更多种:酵母(例如,布拉酵母菌(saccharomycesboulardii))、革兰氏阴性菌(例如,e.colinissle、akkermansiamuciniphila、prevotellabryantii等)、革兰氏阳性菌(例如,双歧杆菌(包括亚种lactis)、长双歧杆菌(包括infantis亚种)、两歧双歧杆菌、假双歧杆菌、嗜热双歧杆菌、短双歧杆菌、鼠李糖乳杆菌、嗜酸乳杆菌、干酪乳杆菌、瑞士乳杆菌、植物乳杆菌、发酵乳杆菌、唾液乳杆菌、德氏乳杆菌(包括bulgaricus亚种)、约氏乳杆菌、罗伊氏乳杆菌、加氏乳杆菌、短乳杆菌(包括coagulans亚种)、蜡状芽孢杆菌、枯草芽孢杆菌(包括var.natto)、聚酵素芽孢杆菌、克劳氏芽孢杆菌、地衣芽孢杆菌、凝结芽孢杆菌、短小芽孢杆菌(bacilluspumilus)、faecalibacteriumprausnitzii、嗜热链球菌、短短芽孢杆菌、乳酸乳球菌、肠膜明串珠菌、屎肠球菌、粪肠球菌、耐久肠球菌、丁酸梭菌、菊糖芽孢乳杆菌、sporolactobacillusvineae、乳酸片球菌、戊糖片球菌等),以及任何其它合适类型的微生物剂。

另外或可替代地,由框s150的治疗模型促进的疗法可以包括以下中的一项或更多项:消耗品(例如,食品、饮用品、营养补充剂)、建议的活动(例如,锻炼方案、对酒精消耗的调整、对香烟使用的调整、对药物使用的调整)、局部疗法(例如,洗剂、软膏、防腐剂等)、对卫生产品使用的调整(例如,使用洗发剂产品、使用护发素(conditioner)产品、使用肥皂、使用化妆产品等)、饮食调整(例如,糖消耗、脂肪消耗、盐消耗、酸消耗等)、睡眠行为调整、生活安排调整(例如,对与宠物一起生活的调整、对与家居环境中的植物一起生活的调整、对家居环境中的光和温度的调整)、营养补充剂(例如,维生素、矿物质、纤维、脂肪酸、氨基酸、益生元、益生菌等)、药物、抗生素以及任何其它合适的治疗措施。在适用于治疗的益生元中,包括以下组分作为任何食物的一部分或作为补充剂:1,4-二羟基-2-萘甲酸(dhna)、菊粉、反式半乳寡聚糖(gos)、乳果糖、甘露寡糖(mos)、低聚果糖(fos)、新琼寡糖(naos)、焦糊精、低聚木糖(xos)、低聚异麦芽糖(imos)、直链淀粉抗性淀粉、大豆低聚糖(sbos)、乳糖醇、低聚乳果糖(ls)、异麦芽酮糖(包括帕拉金糖)、阿拉伯木聚糖低聚糖(axos)、低聚棉糖(rfo)、阿拉伯木聚糖(ax)、多酚或能够改变微生物群系组成并具有期望效果的任何其它化合物。

另外或可替代地,由框s150的治疗模型促进的疗法可以包括以下中一种或更多种:具有不同治疗方向(例如激励、提高能量水平、减少体重增加、改善饮食、心理教育、认知行为、生物学的、身体上的、正念相关、放松相关、辩证行为、接受相关、承诺相关等)的不同形式的疗法,其被配置为解决属于不良状态的各种因素,所述不良状态是由于被甲状腺健康问题改变的微生物群系或由甲状腺健康问题导致的微生物群系或指示甲状腺健康问题的微生物群系;体重管理干预(例如,以防止由甲状腺功能减退或桥本病引起的与体重相关的不良(例如,体重增加或减轻)副作用;或者预防、减轻或降低甲状腺功能减退或桥本病的频率或的治疗);物理治疗;康复措施;以及任何其它合适的治疗措施。

然而,第一方法100可以包括任何其它合适的框或步骤,该框或步骤被配置为促进接收来自个体的生物样品、处理来自个体的生物样品、分析从生物样品获得的数据、和生成可用于提供定制诊断的模型和/或根据个体的特定微生物群系组成的疗法。

可以将方法100、200和/或实施方案的系统至少部分地体现为和/或实施为被配置为接收存储计算机可读指令的计算机可读介质的机器。这些指令可以由与应用、小程序、主机、服务器、网络、网站、通信服务、通信界面、患者计算机或移动设备的硬件/固件/软件元件或其任何合适的组合等集成的计算机可执行组件执行。实施方案的其它系统和方法可以至少部分地体现为和/或被实施为被配置为接收存储计算机可读指令的计算机可读介质的机器。这些指令可以由与上述类型的装置和网络集成的计算机可执行组件来执行。计算机可读介质可以被存储在诸如ram、rom、闪存、eeprom、光学设备(cd或dvd)、硬盘驱动器、软盘驱动器或任何合适设备的任何合适的计算机可读介质上。计算机可执行组件可以是处理器,但是任何合适的专用硬件设备可以(可替代地或另外)执行指令。

这些图说明了根据优选的实施方案、示例性构造及其变型,系统、方法和计算机程序产品的可能的实现的结构、功能和操作。就这一点而言,流程图或框图中的每个框可以表示模块、段、步骤或部分代码,其包括用于实现指定的逻辑功能的一个或更多个可执行的指令。还应当注意,在一些替代实施方式中,框中提及的功能可以不按照图中指出的顺序发生。例如,根据所涉及的功能,连续示出的两个框实际上可以基本上同时执行,或者框有时可以以相反的顺序执行。还将注意到,框图和/或流程图说明中的每个框以及框图和/或流程图中的框的组合可以由执行指定功能或动作的基于专用目的硬件的系统或专用目的硬件和计算机指令的组合来实施。

ii.甲状腺健康的实施例

a.甲状腺功能减退的实施例

表a中提供了序列组、区分级别、覆盖百分比和区分标准的一些实施例。

表a示出了甲状腺功能减退的数据。该数据获自病症群体中的640位受试者和对照群体中的2630位受试者。表a在其第一列中示出了所有种、属和科分类组。包含数据的每一行对应于不同的序列组。例如,parabacteroidesdistasonis对应于分类层级的种级别中的序列组。

表a示出了属级别的单一序列组。一个级别可以具有许多个序列组。“flavonifractorplautii”之后的数字“292800”是该分类组的ncbi分类id。这些id对应于www.ncbi.nlm.nih.gov/taxonomy/browser/wwwtax.cgi?id=200643处的那些id。p值由kolmogorov-smirnov检验或welch'st检验确定。

在第二栏中示出了p值小于0.01的序列组。可能存在其它序列组,但可能不会被选入疾病识别标志。第三列(“#所检测到的疾病受试者”)示出具有甲状腺功能减退病症并且样品显示出序列组中细菌的测试样品的数目。第四列(“#检测到对照受试者”)示出未患疾病(对照)并且样品显示出序列组中细菌的测试样品的数目。序列组的覆盖百分比可以由第三列和第四列中的值确定。

第五列示出患有疾病并且其中样品显示出序列组中细菌的受试者的丰度的平均值百分比。第六栏示出未患疾病并且其中样品显示出序列组中细菌的受试者的丰度的平均值百分比。可以看出,两个平均值之间百分比差异最大的序列组具有最小的p值,这意味着两个群体之间的区别更大。

可以从表a中选择序列组(分类组和/或功能组)的集合以形成疾病识别标志,该疾病识别标志可用于针对存在或不存在指示甲状腺功能减退问题的微生物群系对样品进行分类。例如,可以选择全部分类序列组,或者只选择具有最小p值的2、3、4、5或6个序列组,也可以包括功能组。可以选择用于疾病识别标志的序列组以优化用于在两个组之间进行区分的准确度和群体覆盖,使得能够提供分类的可能性更高(例如,如果不存在序列组,那么该序列组不能用来确定分类)。如上所述,总覆盖率可以取决于各覆盖百分比并基于序列组之间的覆盖重叠。

b.桥本病的实施例

表b中提供了序列组、区分级别、覆盖百分比和区分标准的一些实施例。

表b示出了桥本病的数据。873位受试者在病症群体中,2640位受试者在对照群体中。表b在其第一列中示出了种、属和科的全部分类组和全部功能组。如上所述,功能组对应于与功能相关的一个或更多个基因。包含数据的每一行对应于不同的序列组。

可以从表b中选择序列组(分类组和/或功能组)的集合以形成疾病识别标志,该疾病识别标志可用于针对存在或不存在指示桥本病问题的微生物群系对样品进行分类。例如,可以选择6个(或其它数目)序列组,例如,具有最小p值的序列组。可以选择用于疾病识别标志的序列组以优化用于在两个组之间进行区分的准确度和群体覆盖,使得能够提供分类的可能性更高(例如,如果不存在序列组,那么该序列组不能用来确定分类)。如上所述,总覆盖率可以取决于各覆盖百分比并基于序列组之间的覆盖重叠。

尽管为了清楚理解的目的已经通过说明和实施例的方式以一些细节对前述发明进行了描述,但本领域技术人员将理解,在所附权利要求的范围内可以实施某些改变和修改。此外,本文提供的每个参考文献通过引用整体并入,其程度如同每个参考文献单独地通过引用并入一样。如果本申请与本文提供的参考文献相矛盾,则以本申请为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1