确定肠道细菌亚种的方法及设备与流程

文档序号:16906752发布日期:2019-02-19 18:23阅读:501来源:国知局
确定肠道细菌亚种的方法及设备与流程

本发明实施例涉及细菌亚种识别技术领域,尤其涉及一种确定肠道细菌亚种的方法及设备。



背景技术:

人类的许多疾病都与单个微生物或者一组微生物有关,如ⅱ型糖尿病,肥胖症,癌症和一些免疫相关的疾病。微生物群落通常由各种不同的物种组成,每个物种都含有许多亚种,这些亚种可能在基因含量和单核苷酸多态性(snp)上有差异。亚种水平的变化往往是由环境选择驱动的,这可以帮助我们了解流行病学和物种进化。同一物种内的不同亚种可能对人类健康产生完全不同的影响。因此,亚种的跟踪研究变得越来越重要,无论是对于流行病学,法医学,环境监测,还是诊断。

目前,确定复杂环境中微生物的最常用的方法是测定16s核糖体rna(rrna)基因的扩增产物。然而,由于16srrna基因序列的高度相似性,这种方法只能可靠地在较高分类水平(如属和科水平)识别微生物,而不是在亚种水平。然而,宏基因组学作为研究某个环境中整个微生物群落以解决复杂微生物生态系统的组成、多样性和功能的技术,使得在微生物群落之间或群落内揭示亚种水平细菌基因组之间的异质性变得更明晰,从而得到比单独测定16srrna基因更高的分辨率,同时也规避了对基于培养的方法的需求。

大多数分类方法都是基于参考序列的测序得到的序列与参考数据库进行比对并进行进一步的分析,因此对具有数千个测序基因组的具有良好特征的微生物如大肠杆菌更有效。然而,这种方法不适用于检测大多数物种的亚种水平变异,因为大多数物种只有一个测定的代表基因组。其他一些基于参考的方法把测序得到的读段比对到一个或多个参考基因组上来识别亚种水平具有系统发育标记的snps或基因拷贝数变异(cnvs)。某些现有技术在使用snp模式系统发生地确定亚种上取得成功。此外,很少有方法提供全面的细菌物种基因组数据库,从而限制了它们在不同环境中的效用。有些技术通过减少数据库大小、只选择标记基因或特定的序列子集来解决这个问题。其他技术使用部分或全部的基因组序列作为自定义的数据库。然而,这些通常需要更多的肠道细菌物种样本,而且难以区分密切相关的亚种。因此,找到一种快速有效,不需要大量肠道细菌物种样本,并且能够精确区分肠道细菌亚种的方法,就成为业界广泛关注的问题。



技术实现要素:

针对现有技术存在的上述问题,本发明实施例提供了一种确定肠道细菌亚种的方法及设备。

第一方面,本发明的实施例提供了一种确定肠道细菌亚种的方法,包括:分析肠道细菌物种的每个样本,获取基因测序深度大于测序深度阈值的细菌物种,将选出的细菌物种的基因序列与phylophlan标记基因进行比对,实现肠道细菌物种样本的基因序列比对到相应的细菌物种;将基因序列比对后的肠道细菌物种样本进行snp调用,得到调用snp的肠道细菌物种样本,根据snp出现的频率采用k中心点算法计算欧氏距离,将所述调用snp的肠道细菌物种样本以细菌物种的形式进行聚类,根据每个聚类的中心点,获取所述调用snp的肠道细菌物种样本的候选肠道细菌亚种集,评估所述候选肠道细菌亚种集的拟合优良性,最终确定肠道细菌亚种的集合。

进一步地,所述分析肠道细菌物种的每个样本,获取基因测序深度大于测序深度阈值的细菌物种,包括:采用metaphlan2分析肠道细菌物种的每个样本,获取基因测序深度大于10的细菌物种;其中,所述测序深度阈值设置为10。

进一步地,所述将选出的细菌物种的基因序列与phylophlan标记基因进行比对,包括:采用bowtie2将选出的细菌物种的基因序列与phylophlan标记基因进行比对。

进一步地,所述将基因序列比对后的肠道细菌物种样本进行snp调用,包括:采用multi-gems将基因序列比对后的肠道细菌物种样本进行snp调用。

进一步地,所述根据每个聚类的中心点,获取所述调用snp的肠道细菌物种样本的候选肠道细菌亚种集,评估所述候选肠道细菌亚种集的拟合优良性,最终确定肠道细菌亚种的集合,包括:根据每个聚类的中心点,采用snp-flow获取所述调用snp的肠道细菌物种样本的候选肠道细菌亚种集,采用aic评估所述候选肠道细菌亚种集的拟合优良性,最终确定肠道细菌亚种的集合。

进一步地,在所述最终确定肠道细菌亚种的集合之后,还包括:针对已经确定亚种的肠道细菌物种样本,采用pam进行再次聚类,计算每个聚类对应的rss,若rss小于预设阈值,确定当前的pam聚类结果为肠道细菌亚种的集合,k1即为已经确定亚种的肠道细菌物种样本的肠道细菌亚种的数目;其中,k1是所述pam的聚类次数,所述rss为衡量模型拟合程度的量,越接近1则拟合度越高。

进一步地,所述预设阈值,包括:1.05。

第二方面,本发明的实施例提供了一种确定肠道细菌亚种的装置,包括:

基因序列比对模块,用于分析肠道细菌物种的每个样本,获取基因测序深度大于测序深度阈值的细菌物种,将选出的细菌物种的基因序列与phylophlan标记基因进行比对,实现肠道细菌物种样本的基因序列比对到相应的细菌物种;

肠道细菌亚种集合确定模块,用于将基因序列比对后的肠道细菌物种样本进行snp调用,得到调用snp的肠道细菌物种样本,根据snp出现的频率采用k中心点算法计算欧氏距离,将所述调用snp的肠道细菌物种样本以细菌物种的形式进行聚类,根据每个聚类的中心点,获取所述调用snp的肠道细菌物种样本的候选肠道细菌亚种集,评估所述候选肠道细菌亚种集的拟合优良性,最终确定肠道细菌亚种的集合。

第三方面,本发明的实施例提供了一种电子设备,包括:

至少一个处理器;以及

与处理器通信连接的至少一个存储器,其中:

存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的确定肠道细菌亚种的方法。

第四方面,本发明的实施例提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的确定肠道细菌亚种的方法。

本发明实施例提供的确定肠道细菌亚种的方法及设备,通过肠道细菌物种的基因序列比对,然后采用优化后的multi-gems,snp-flow以及k聚类算法pam,可以精确确定肠道细菌亚种的构成及种类,确保肠道细菌亚种的确定结果更加接近真实情况。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的确定肠道细菌亚种的方法流程图;

图2为本发明实施例提供的确定肠道细菌亚种的装置结构示意图;

图3为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外,本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合,以形成可行的技术方案,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

本发明实施例提供了一种确定肠道细菌亚种的方法,参见图1,该方法包括:

101、分析肠道细菌物种的每个样本,获取基因测序深度大于测序深度阈值的细菌物种,将选出的细菌物种的基因序列与phylophlan标记基因进行比对,实现肠道细菌物种样本的基因序列比对到相应的细菌物种;

102、将基因序列比对后的肠道细菌物种样本进行snp调用,得到调用snp的肠道细菌物种样本,根据snp出现的频率采用k中心点算法计算欧氏距离,将所述调用snp的肠道细菌物种样本以细菌物种的形式进行聚类,根据每个聚类的中心点,获取所述调用snp的肠道细菌物种样本的候选肠道细菌亚种集,评估所述候选肠道细菌亚种集的拟合优良性,最终确定肠道细菌亚种的集合。

在上述实施例的基础上,本发明实施例中提供的确定肠道细菌亚种的方法,所述分析肠道细菌物种的每个样本,获取基因测序深度大于测序深度阈值的细菌物种,包括:采用metaphlan2分析肠道细菌物种的每个样本,获取基因测序深度大于10的细菌物种;其中,所述测序深度阈值设置为10。

在上述实施例的基础上,本发明实施例中提供的确定肠道细菌亚种的方法,所述将选出的细菌物种的基因序列与phylophlan标记基因进行比对,包括:采用bowtie2将选出的细菌物种的基因序列与phylophlan标记基因进行比对。

在上述实施例的基础上,本发明实施例中提供的确定肠道细菌亚种的方法,所述将基因序列比对后的肠道细菌物种样本进行snp调用,包括:采用multi-gems将基因序列比对后的肠道细菌物种样本进行snp调用。

在上述实施例的基础上,本发明实施例中提供的确定肠道细菌亚种的方法,所述根据每个聚类的中心点,获取所述调用snp的肠道细菌物种样本的候选肠道细菌亚种集,评估所述候选肠道细菌亚种集的拟合优良性,最终确定肠道细菌亚种的集合,包括:根据每个聚类的中心点,采用snp-flow获取所述调用snp的肠道细菌物种样本的候选肠道细菌亚种集,采用aic评估所述候选肠道细菌亚种集的拟合优良性,最终确定肠道细菌亚种的集合。

在上述实施例的基础上,本发明实施例中提供的确定肠道细菌亚种的方法,在所述最终确定肠道细菌亚种的集合之后,还包括:针对已经确定亚种的肠道细菌物种样本,采用pam进行再次聚类,计算每个聚类对应的rss,若rss小于预设阈值,确定当前的pam聚类结果为肠道细菌亚种的集合,k1即为已经确定亚种的肠道细菌物种样本的肠道细菌亚种的数目;其中,k1是所述pam的聚类次数,所述rss为衡量模型拟合程度的量,越接近1则拟合度越高。

在上述实施例的基础上,本发明实施例中提供的确定肠道细菌亚种的方法,所述预设阈值,包括:1.05。rss的值是随着k1的增加而增加的,本发明中使用5%作为一个阈值,即当1+k1时的rss值不大于1.05倍k1时的rss值时,就把k1作为pam聚类的最终结果。同时也是该物种在所有样本中存在的亚种数。

本发明实施例提供的确定肠道细菌亚种的方法,通过肠道细菌物种的基因序列比对,然后采用优化后的multi-gems,snp-flow以及k聚类算法pam,可以精确确定肠道细菌亚种的构成及种类,确保肠道细菌亚种的确定结果更加接近真实情况。

需要说明的是,在本发明上述各个实施例中,所述metaphlan2为一款分析微生物群落(细菌、古菌、真核生物和病毒)组成的工具,可以精确的确定到物种水平。所述bowtie2为一种序列比对工具,可以把原始序列比对到对应物种的基因组或者特定基因上去。所述phylophlan标记基因指的是,一些物种的特定基因所组成的数据库。所述multi-gems为一款snpcalling(snp调用)软件,这里采用的是优化后的版本,更适用于宏基因组样本。所述snp-flow为一个在已确定的snp位点间构建有向图,确定亚种候选基因型的一个算法。所述aic为一个衡量统计模型拟合优良性的准则。所述pam为聚类分析算法中划分法的一个聚类方法,是最早提出的k-中心点算法之一。所述rss为线性模型中衡量模型拟合程度的一个量,越接近1则拟合度越好。

本发明各个实施例的步骤可以进行整合,可在linux系统中只通过一条命令实现。

为了展示本发明各实施例所显示的方案的实用性,下面以hadza部落人体肠道细菌宏基因组数据上的应用为例,对本发明的实际应用进行进一步地说明。需要注意的是,该实施例仅仅为了更加清晰的体现本发明技术方案的精神实质,并不代表对本发明技术方案的限制,所有符合本发明精神实质的技术方案,均在本专利的保护范围之内。以hadza部落人体肠道细菌宏基因组数据上的应用为例:

1)收集得到hadza部落人体肠道微生物数据及相关信息。这些样本是在四个时期(2013dry,2014earlywet,2014latewet,2014dry)采集的。每个时期有不同的样本数量。

2)将本发明应用于这四个时期的样本,标记每个样本中存在亚种的物种,统计每个时期标记物种的数量。可以看出不同时期标记物种数量的变化,每个时期矩形的高度代表标记物种的数量。四个物种在2014earlywet,2014latewet两个时期同时被标记,其中三个物种都在7个样本中被标记,一个物种在8个样本中被标记。

3)在2014earlywet这个时期中,出现大量新的标记物种。这可能表明这些物种对hadza部落该时期的素食饮食更有适应性。

本发明各个实施例的实现基础是通过具有处理器功能的设备进行程序化的处理实现的。因此在工程实际中,可以将本发明各个实施例的技术方案及其功能封装成各种模块。基于这种现实情况,在上述各实施例的基础上,本发明的实施例提供了一种确定肠道细菌亚种的装置,该装置用于执行上述方法实施例中的确定肠道细菌亚种的方法。参见图2,该装置包括:

基因序列比对模块201,用于分析肠道细菌物种的每个样本,获取基因测序深度大于测序深度阈值的细菌物种,将选出的细菌物种的基因序列与phylophlan标记基因进行比对,实现肠道细菌物种样本的基因序列比对到相应的细菌物种;

肠道细菌亚种集合确定模块202,用于将基因序列比对后的肠道细菌物种样本进行snp调用,得到调用snp的肠道细菌物种样本,根据snp出现的频率采用k中心点算法计算欧氏距离,将所述调用snp的肠道细菌物种样本以细菌物种的形式进行聚类,根据每个聚类的中心点,获取所述调用snp的肠道细菌物种样本的候选肠道细菌亚种集,评估所述候选肠道细菌亚种集的拟合优良性,最终确定肠道细菌亚种的集合。

本发明实施例提供的确定肠道细菌亚种的装置,采用基因序列比对模块及肠道细菌亚种集合确定模块,通过肠道细菌物种的基因序列比对,然后采用优化后的multi-gems,snp-flow以及k聚类算法pam,可以精确确定肠道细菌亚种的构成及种类,确保肠道细菌亚种的确定结果更加接近真实情况。

本发明实施例的方法是依托电子设备实现的,因此对相关的电子设备有必要做一下介绍。基于此目的,本发明的实施例提供了一种电子设备,如图3所示,该电子设备包括:至少一个处理器(processor)301、通信接口(communicationsinterface)304、至少一个存储器(memory)302和通信总线303,其中,至少一个处理器301,通信接口304,至少一个存储器302通过通信总线303完成相互间的通信。至少一个处理器301可以调用至少一个存储器302中的逻辑指令,以执行如下方法:分析肠道细菌物种的每个样本,获取基因测序深度大于测序深度阈值的细菌物种,将选出的细菌物种的基因序列与phylophlan标记基因进行比对,实现肠道细菌物种样本的基因序列比对到相应的细菌物种;将基因序列比对后的肠道细菌物种样本进行snp调用,得到调用snp的肠道细菌物种样本,根据snp出现的频率采用k中心点算法计算欧氏距离,将所述调用snp的肠道细菌物种样本以细菌物种的形式进行聚类,根据每个聚类的中心点,获取所述调用snp的肠道细菌物种样本的候选肠道细菌亚种集,评估所述候选肠道细菌亚种集的拟合优良性,最终确定肠道细菌亚种的集合。

此外,上述的至少一个存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。例如包括:分析肠道细菌物种的每个样本,获取基因测序深度大于测序深度阈值的细菌物种,将选出的细菌物种的基因序列与phylophlan标记基因进行比对,实现肠道细菌物种样本的基因序列比对到相应的细菌物种;将基因序列比对后的肠道细菌物种样本进行snp调用,得到调用snp的肠道细菌物种样本,根据snp出现的频率采用k中心点算法计算欧氏距离,将所述调用snp的肠道细菌物种样本以细菌物种的形式进行聚类,根据每个聚类的中心点,获取所述调用snp的肠道细菌物种样本的候选肠道细菌亚种集,评估所述候选肠道细菌亚种集的拟合优良性,最终确定肠道细菌亚种的集合。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1