一种微生物组识别方法和装置、设备与流程

文档序号:14911614发布日期:2018-07-10 23:34阅读:171来源:国知局

本发明涉及生物识别技术,尤指一种微生物组识别方法和装置、设备。



背景技术:

微生物遍布于自然环境各个地方,在人体身上也不例外,从内部肠道到外部皮肤,微生物中的主要成员细菌的数量甚至与人体细胞数量相当。微生物不单独出现,常以微生物群落的形式存在,由于现有的实验条件还是很难分离培养所有的微生物,因此就有了通过DNA测序的方法间接获得微生物基础构成的组学,即微生物组学。微生物组是微生物群落所有遗传物质的总和,由于通过高通量测序得到的是混合基因组片段数据,因此用宏基因组来表示微生物组的测序数据。

个体的微生物组有很高的特异性,在很多宏基因组测序数据中都得到了证实。一些方法通过对序列进行特征提取来唯一地表征一个人的微生物组,在一定时间内能被作为该人特定的分子标签,并在小样本量的实验中得到了应用。但是,由于个体的微生物组时刻变化,宏基因组测序数据并不像基因组一样稳定,将其作为分子标签并不能持续有效。



技术实现要素:

本发明至少一实施例提供了一种微生物组识别方法和装置、设备,能有效对微生物组进行识别。

为了达到本发明目的,本发明至少一实施例提供了一种微生物组识别方法,包括:

获取多个生物个体的微生物组特征信息生成多个样本,计算该多个样本中第一样本分别与其他样本的相似度以获得多个相似度,根据该多个相似度建立所述第一样本的相似度概率分布模型;

获取待测样本,计算所述待测样本与所述第一样本的相似度,根据所述待测样本与所述第一样本的相似度以及所述第一样本的相似度概率分布模型确定所述待测样本的第一概率值,根据所述第一概率值判断所述待测样本与所述第一样本是否属于同一生物个体。

本发明至少一实施例提供一种微生物组识别装置,包括:

信息采集模块,用于获取多个生物个体的微生物组特征信息生成多个样本,以及,获取待测样本;

相似度计算模块,用于计算该多个样本中第一样本分别与其他样本的相似度以获得多个相似度;以及,计算所述待测样本与所述第一样本的相似度;

相似度分布建立模块,用于根据该多个相似度建立第一样本的相似度概率分布模型;

识别模块,用于根据所述待测样本与所述第一样本的相似度在所述第一样本的相似度概率分布模型中的位置,判断所述待测样本与所述第一样本是否属于同一生物个体。

本发明一实施例提供一种微生物组识别设备,包括存储器和处理器,所述存储器存储有程序,所述程序在被所述处理器读取执行时,实现上述任一实施例所述的微生物组识别方法。

与相关技术相比,本发明一实施例中,通过建立样本的相似度概率分布模型,根据待测样本与该样本的相似度在该相似度概率分布模型中的概率值,进而判断待测样本是否和该样本属于同一生物个体。本申请的方案,能实现对微生物组的识别。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。

图1为本发明一实施例提供的微生物组识别方法流程图;

图2为本发明一实施例提供的微生物组识别装置框图;

图3为本发明一实施例提供的识别模块框图;

图4为本发明另一实施例提供的识别模块框图;

图5为本发明一实施例提供的微生物组识别方法示意图;

图6为本发明一实施例提供的微生物组识别方法流程图;

图7为本发明一实施例提供的微生物组识别方法与其他方法的成功率比较图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

除非另外定义,本公开使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。

本申请中通过构建个体间的微生物组特征信息的相似度分布模型对个体进行识别,不同于寻找固定的标签,而是从个体的微生物组相似度要显著大于其他人这一点出发。如果两个宏基因组样本的相似度显著地高,就认为来自一个生物个体。对于一个分布来说,如果取值落在极少出现的位置就可以看作是某种程度的显著,因此本申请也寻求类似的概念,通过生成个体间的相似度分布来进行个体样本的识别。对于个体间相似度的分布,如果说把微生物群落特异性描述为一个生物个体的不同样本可以分成一类的分类问题的话,对于剩下的样本都将是另外一类。因此一个生物个体某个时间点的样本与其他生物个体的样本生成的分布,自己的另一个时间点的采样应该不属于这个分布,也就是p-value(概率值)会足够的小。

如图1所示,本发明一实施例提供一种微生物组识别方法,包括:

步骤101,获取多个生物个体的微生物组特征信息生成多个样本,计算该多个样本中第一样本分别与其他样本的相似度以获得多个相似度,根据该多个相似度建立所述第一样本的相似度概率分布模型;

其中,第一样本是该多个样本中的任一样本。每个样本对应一个生物个体的微生物组特征信息。

其中,该多个生物个体是已知的,比如,生物个体为人时,已知各样本对应的人。另外,多个样本中可以包含一个生物个体的不同时间采集的微生物组特征信息。另外,样本数越多,相似度概率分布模型越准确,因此,尽可能获取大量样本。该多个生物个体包含不同的生物个体。生物个体可以是人,也可以是动物,或者其他生物。微生物组比如肠道微生物(可以从粪便中提取)、口腔微生物等等。

需要说明的是,在其他实施例中,也可以计算该多个样本中除第一样本外的其他样本的相似度概率分布模型。

步骤102,获取待测样本,计算所述待测样本与所述第一样本的相似度;

其中,待测样本是一个未知的生物个体的微生物组特征信息。

步骤103,根据所述待测样本与所述第一样本的相似度以及所述第一样本的相似度概率分布模型确定所述待测样本的第一概率值,根据所述第一概率值判断所述待测样本与所述第一样本是否属于同一生物个体。

本实施例提供的微生物组识别方法,通过建立第一样本的相似度概率分布模型,通过待测样本的相似度在相似度概率分布模型中的概率值,判断待测样本和第一样本是否来自同一生物个体。

在一实施例中,所述步骤101中,所述微生物组特征信息包括:微生物组的宏基因组测序数据,或者,微生物组的基因芯片数据,或者,微生物组的染色信息。

在一实施例中,所述微生物组的特征信息为微生物数组的宏基因组测序数据时,对所述宏基因组测序数据进行k-mer分割,所述k大于1。在一实施例子中,所述k大于15,比如k取值为18。需要说明的是,可以不进行k-mer分割,直接基于宏基因组测序数据计算相似度。进行k-mer分割再计算相似度,可以大大减小运算量。在其他实施例中,也可以获取宏基因组测序数据进行物种标记,或者,进行基因功能组标记,根据物种信息或基因信息计算相似度。

k-mer是按照固定长度k对序列进行截取,对于一条序列,按序滑动一个碱基就能得到一个k-mer,因此对于一条长度为n的序列就能得到n-k+1条k-mer。k-mer的提取不涉及任何参考基因组,因此所有序列都可以得到利用。k-mer的长度选择需要根据不同需求作出调整,k等于1的时候就想当于统计碱基的分布情况,k在小于10的范围内都可以看作是短序列,这时候统计k-mer的出现频率可以用来样本之间的比较,在一些分类问题中一般也用该长度大小的k-mer作为特征。k在10到15之间可以看作是中等大小的选择,在拼接中可以作为基础k-mer的长度,对细菌有一定的区分度,由于k-mer的种类不超过1,000,000,000(k等于15,种类超过十亿),有时可以不用考虑降维的问题。当k大于15的时候可以看作是长k-mer,作为特征可以区分很多细菌,特别是序列超过30,很多k-mer可以作为菌种唯一识别的分子标签。

其中,相似度分布理论上应该形如正态分布,但取值区间为(0,1),因此Gamma分布在(0,1)区间上的变体Beta被选作个体间相似度分布的模型。

其中,计算相似度时,使用的微生物组特征信息可以是根据宏基因组测序数据得到的物种信息、基因信息或直接使用k-mer,相似度的度量方式可以是空间距离,Jaccard距离,Bray-Crutis距离等等。以k-mer作为特征计算相似度的时候,尽可能的保证样本之间的k-mer数量的统一,同时根据样本量的需求适当取舍。

在一实施例中,所述相似度基于MinHash(最小哈希,Jaccard距离的LSH优化方法)算法获得。

LSH的核心思想是把高维中的空间关系映射到低维空间中,尽可能的恢复出原始的对应关系,是一种化简的方法,而不是强化的方法。也就是说如果样本在原始空间中有类似的对应关系,通过LSH的算法能更快的,比较接近地还原这种关系。许多相似度/距离的度量都有对应的LSH算法,欧式距离、余弦距离、Jaccard相似度都有对应的LSH算法,其中Jaccard相似度对应的LSH算法即最小哈希算法(简称MinHash)。

对于每个样本均能得到k-mer种类的一个集合,假设现有集合A和集合B分别来自两次肠道微生物群落的采样,测序并计算k-mer。因此就有两个样本的Jaccard相似度为:

J(A,B)=(A∩B)/(A∪B)

现在假设存在一个哈希函数h(),为A、B集合中所有k-mer的一个随机排列,并且hmin(S)定义为集合S在该哈希函数中第一个出现的k-mer(h()是一个有序的排列,从该排列中依次查看是否存在与集合S,第一个出现的k-mer,对应在该排列中的序号即为hmin(S)),如果存在

Pr(hmin(A)=hmin(B))=J(A,B)

为了计算hmin(A)=hmin(B)的概率,很自然地需要多个h()的随机生成,假设进行了n次随机试验,其中hmin(A)=hmin(B)的次数为mJ(A,B),就可以用m/n作为近似计算,这就是MinHash最初的定义,通过多个h()近似得到Jaccard相似度,这里的期望误差也被证明为

MinHash的计算并不复杂,但限速步骤往往在于生成n个哈希函式(随机排列),特别是当两个集合中的k-mer比较多的时候,比较费时,因此就有了用一个哈希函数作为计算的变形。现在定义h(n)(S)表示从h()的排列中获取前n个在集合S中出现的k-mer,于是J(A,B)就可以近似表示为:

J(A,B)≈|h(n)(A∪B)∩h(n)(A)∩h(n)(B)|/n

需要说明的是,上述仅给出了一种相似度的计算方法,但本申请不限于此,其他计算相似度的方法也可应用在本申请中。

在一实施例中,所述步骤103中,所述根据所述第一概率值判断所述待测样本与所述第一样本是否属于同一生物个体包括:

当所述第一概率值小于第一预设阈值时,所述待测样本与所述第一样本属于同一生物个体,当所述第一概率值大于等于第一预设阈值时,所述待测样本与所述第一样本不属于同一生物个体。

其中,第一预设阈值根据统计学上认为显著相似的要求设定,比如可以设置为0.01,或者,根据需要设定。

对于待测样本在多个分布中测试,为了避免假阳性,还可进行错误发现率(false discovery rate,FDR)的校正,可以使用Benjamin&Yekutieli(BY)的方法进行错误发现率校正,当然,也可以使用其他方法进行错误发现率的校正。在一实施例中,所述方法还包括:

建立所述多个样本中除所述第一样本外的其他样本的相似度概率分布模型,获取所述待测样本与所述其他样本的相似度,根据所述待测样本与所述其他样本的相似度以及所述其他样本的相似度概率分布模型确定所述待测样本的其他概率值;比如,存在n个样本时,可以为每个样本建立相似度概率分布模型,共建立n个相似度概率分布模型,计算待测样本与该n个样本的相似度,得到n个相似度,根据该n个相似度概率分布模型,进而得到待测样本的n个概率值。

所述根据所述第一概率值判断所述待测样本与所述第一样本是否属于同一生物个体包括:对所述第一概率值和所述其他概率值进行错误发现率校正,得到校正后的第一概率值,当所述校正后的第一概率值小于第二预设阈值时,所述待测样本与所述第一样本属于同一生物个体,当所述校正后的第一概率值大于等于第二预设阈值时,所述待测样本与所述第一样本不属于同一生物个体。

即对该n个概率值进行错误发现率校正,得到n个校正后的概率值,然后根据该n个校正后的概率值分别判断待测样本与该n个样本是否属于同一生物个体。第二预设阈值代表错误发现率,可以设置为0.01,当然,也可以设置为其他值,通常值越小,代表错误发现率越小。

本实施例提供的方案,与直接利用相似度作为判断的方案相比,可以通过错误发现率校正降低错误概率。比如错误发现率阈值为0.01时,代表错误判断的概率是1%,那么如果待测样本只在所有样本的一个分布中显著,那么基本可以认为结果是可靠的,因为错误的概率是0.01。

本发明一实施例提供一种微生物组识别装置,如图2所示,包括:

信息采集模块201,用于获取多个生物个体的微生物组特征信息生成多个样本,以及,获取待测样本;

相似度计算模块202,用于计算该多个样本中第一样本分别与其他样本的相似度以获得多个相似度;以及,计算所述待测样本与所述第一样本的相似度;

相似度分布建立模块203,用于根据该多个相似度确定第一样本的相似度概率分布模型;

识别模块204,用于根据所述待测样本与所述第一样本的相似度在所述第一样本的相似度概率分布模型中的位置,判断所述待测样本与所述第一样本是否属于同一生物个体。

在一实施例中,所述微生物组特征信息包括:微生物组的宏基因组测序数据,或者,微生物组的芯片数据,或者,微生物组的染色信息。

在一实施例中,所述相似度计算模块203计算相似度包括:所述微生物组的特征信息为微生物数组的宏基因组测序数据时,对所述宏基因组测序数据进行k-mer分割,所述k大于1,基于所述进行k-mer分割后的宏基因组测序数据计算相似度。

在一实施例中,所述相似度计算模块203可以基于多种算法计算相似度,比如,基于MinHash算法计算相似度。当然,也可以是其他算法,本申请对此不作限定。

在一实施例中,如图3所示,所述识别模块204包括:第一概率值确定单元301和第一判断单元302,其中:

所述第一概率值确定单元301用于,根据所述第一样本的相似度概率分布模型确定所述待测样本与所述第一样本的相似度对应的第一概率值;

所述第一判断单元302用于,将所述第一概率值与预设阈值进行比较,当所述第一概率值小于第一预设阈值时,所述待测样本与所述第一样本属于同一生物个体;当所述第一概率值大于等于第一预设阈值时,所述待测样本与所述第一样本不属于同一生物个体。

在一实施例中,如图4所示,所述识别模块204包括第二概率值确定单元401、校正单元402和第二判断单元403,其中:

所述相似度计算模块还用于,计算该多个样本中除第一样本外其他样本两两之间的相似度;以及,计算所述待测样本与所述其他样本的相似度;

所述相似度分布建立模块还用于,建立所述多个样本中除所述第一样本外的其他样本的相似度概率分布模型,获取所述待测样本与所述其他样本的相似度;

所述第二概率值确定单元用于,根据所述第一样本的相似度概率分布模型确定所述待测样本与所述第一样本的相似度对应的第一概率值,根据所述待测样本与所述其他样本的相似度以及所述其他样本的相似度概率分布模型确定所述待测样本的其他概率值;

所述校正单元用于,对所述第一概率值和所述其他概率值进行错误发现率校正,得到校正后的第一概率值;

所述第二判断单元用于,将所述校正后的第一概率值与预设阈值进行比较,当所述校正后的第一概率值小于第二预设阈值时,所述待测样本与所述第一样本属于同一生物个体,当所述校正后的第一概率值大于等于第二预设阈值时,所述待测样本与所述第一样本不属于同一生物个体。

下面通过一具体实施例进一步说明本申请。

如图5和图6所示,本实施例提供的微生物组识别方法包括:

步骤601,获取n个样本的宏基因组测序数据,进行k-mer分割,得到分割后的宏基因组测序数据;

步骤602,计算该n个样本两两之间的相似度;

利用MinHash的方法进行计算获得相似度。具体的,样本进行k-mer分割后,每个宏基因组样本得到对应的k-mer集合。哈希函数是一组k-mer的有序的排列,这样每个宏基因组样本都能通过该函数映射得到一组序号。这组序号就是哈希值,根据哈希函数选择m个对应最小哈希值,然后按下式计算相似度:

J(A,B)≈|h(m)(A∪B)∩h(m)(A)∩h(m)(B)|/m

步骤603,对每个样本,根据其与其他n-1个样本的n-1个相似度生成该样本的相似度分布模型,可以利用Beta分布进行拟合得到该相似度分布模型,进而得到n个相似度分布模型。

步骤604,计算待测样本与该n个样本中每个样本的相似度,共得到n个相似度,对任一样本,根据待测样本与该样本的相似度,以及该样本的相似度概率分布模型中,得到一概率值,根据该概率值判断待测样本与该样本是否来自同一个人。判断方法是根据概率值判断是否显著相似,即与预设第一阈值比较,当小于第一预设阈值时,表示显著相似,当大于等于第一预设阈值时,表示非显著相似。比如,图5中,P2<α,待测样本与目标样本来自同一人,P1>α,待测样本与目标样本来自不同生物个体,α为预设第一阈值,比如,可以取0.01。

在另一实施例中,步骤604中得到n个概率值p1,p2,…pn后,可以对p1,p2,…pn进行错误发现率校正,得到q1,q2,…qn,分别根据q1,q2,…qn判断待测样本和目标样本是否来自同一人,具体的,可以将q1,q2,…qn和阈值q进行比较,当qi(i=1,…,n)小于q时,表示待测样本和qi对应的目标样本来自同一人,当qi大于等于q时,表示待测样本和qi对应的目标样本来自不同生物个体。阈值q是错误发现率,可以根据需要设定,比如为0.01。

图7为本发明一实施例提供的采取不同特征信息进行相似度计算时的示意图。图7中为612个样本中的测试结果。其中,图7中左侧图为受试者工作特征曲线(receiver operating characteristic curve,ROC)中,宏基因组测序数据使用ker分割(与图中Gemini对应)与使用物种(Species)标记、使用基因(KEGG)标记的比较结果。图7中右侧图为准确率与召回率曲线(Precision-Recall curve,PRC),宏基因组测序数据使用ker分割(与图中Gemini对应)与使用物种(Species)标记、使用基因(KEGG)标记的比较结果。其中,实线代表Gemini的结果,圆角虚线为物种的结果,直角虚线为基因的结果。可以看到,Gemini方法对个体判断的效果很好,详见auROC,auPRC的值,值越高说明预测越准确。另外,与物种,基因作为特征进行比较,k-mer作为特征的结果更好,其auROC,auPRC高于物种,基因作为特征时的auROC,auPRC值。

本发明一实施例提供一种微生物组识别设备,包括存储器和处理器,所述存储器存储有程序,所述程序在被所述处理器读取执行时,实现上述任一实施例所述的微生物组识别方法。

本发明一实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一实施例所述的微生物组识别方法。

所述计算机可读存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1