1.本发明涉及生物医学技术领域,尤其涉及一种肠道菌群移植配型的数据处理方法、系统、设备及介质。
背景技术:2.菌群移植指将健康供体的肠道菌群,移植到患者胃肠道内,通过重建患者正常功能的肠道菌群以实现其肠道及肠道外疾病的治疗,其中,在进行肠道菌群移植时,需要对供体和受体的肠道菌群数据进行精准配型。
3.目前,现有的肠道菌群移植配型方法多是利用原始的肠道菌群数据直接进行匹配计算,没有对原始的肠道菌群数据进行处理,然而,用于移植配型的原始菌群数据由于涉及基因组、代谢组等多组学数据的整合,其维度一般较高,直接进行匹配计算不仅消耗大量计算资源,而且效率低下,存在大量冗余计算。
4.另外,现有的研究中存在采用有监督学习对肠道菌群数据进行降维,但是,其需要大量的标注数据,成本太高,而现有的无监督学习的数据降维方法虽然无需使用标签,但通常为线性降维,无法建模原始菌群数据中复杂的非线性关系。
技术实现要素:5.本发明提供了一种肠道菌群移植配型的数据处理方法、系统、设备及介质,解决的技术问题是,现有的肠道菌群移植配型方法在进行肠道菌群移植时,不仅计算效率低下,而且通常采用线性降维方法对数据进行降维,此方式无法建模原始菌群数据中复杂的非线性关系。
6.为解决以上技术问题,本发明提供了一种肠道菌群移植配型的数据处理方法、系统、设备及介质。
7.第一方面,本发明提供了一种肠道菌群移植配型的数据处理方法,所述方法包括以下步骤:
8.采集供体和受体的原始菌群数据,得到对应的原始菌群数据集;
9.分别从供体和受体的原始菌群数据集中选取一原始菌群数据,将其作为供体和受体的待处理菌群数据;
10.在所述原始菌群数据集中查找所述待处理菌群数据的k个近邻点构成近邻数据集;
11.基于所述近邻数据集,通过最小化重构代价函数,计算得到重构权重;
12.根据重构权重以及嵌入价值函数,计算得到待处理菌群数据的低维菌群数据。
13.在进一步的实施方案中,采用欧氏距离,在所述原始菌群数据集中查找所述待处理菌群数据的k个近邻点构成近邻数据集。
14.在进一步的实施方案中,所述在所述原始菌群数据集中查找所述待处理菌群数据的k个近邻点构成近邻数据集的步骤包括:
15.以预设的递增规则依次选取不同的近邻点数,对选取的近邻点数,利用最近邻法得到对应的近邻点矩阵,计算近邻点矩阵的马氏距离,并根据马氏距离计算相似度系数,计算相似度系数均值,判断各近邻点数对应的相似度系数均值,选取相似度系数均值最大的近邻点数作为最优近邻点数。
16.在进一步的实施方案中,所述相似度系数计算公式为:
[0017][0018]
式中,α
mn
表示相似度系数,b
mn
表示近邻点矩阵中两个样本点之间的马氏距离,β表示近邻点矩阵中所有样本点马氏距离的平均值。
[0019]
在进一步的实施方案中,所述重构代价函数的计算公式为:
[0020][0021]
式中,ε(w)表示重构代价函数,xi表示第i个待处理菌群数据,xj表示第j个近邻点,w
ij
表示xj对xi的重构权重,n表示待处理菌群数据的总数,k表示近邻点的总数,w表示重构权重矩阵。
[0022]
在进一步地实施例中,最小化重构代价函数的约束条件包括:
[0023]
每个待处理菌群数据只能由其近邻点重构,且若xj不属于xi的近邻点,则使重构权重为零;
[0024]
由重构权重构成的权重矩阵中每一列和为1。
[0025]
在进一步地实施例中,所述嵌入价值函数的计算公式为:
[0026][0027]
式中,表示嵌入价值函数,yi表示映射后的低维菌群数据,yj表示映射后的低维近邻点,w
ij
表示重构权重。
[0028]
第二方面,本发明提供了一种肠道菌群移植配型的数据处理系统,所述系统包括:
[0029]
数据采集模块,用于采集供体和受体的原始菌群数据,得到对应的原始菌群数据集;还用于分别从供体和受体的原始菌群数据集中选取一原始菌群数据,将其作为供体和受体的待处理菌群数据;
[0030]
近邻点选取模块,用于在所述原始菌群数据集中查找所述待处理菌群数据的k个近邻点构成近邻数据集;
[0031]
权重构造模块,用于基于所述近邻数据集,通过最小化重构代价函数,计算得到重构权重;
[0032]
数据降维模块,用于根据重构权重以及嵌入价值函数,计算得到待处理菌群数据的低维菌群数据。
[0033]
第三方面,本发明还提供了一种计算机设备,包括处理器和存储器,所述处理器与
所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述计算机设备执行实现上述方法的步骤。
[0034]
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0035]
本发明提供了一种肠道菌群移植配型的数据处理方法、系统、设备及介质,所述方法通过分别采集供体和受体的原始肠道菌群数据,通过最近邻法选取若干近邻点构成近邻数据集,并根据近邻数据集最小化重构代价函数,从而计算得到重构权重,以通过重构权重以及嵌入价值函数,将高维肠道菌群数据映射至低维肠道菌群数据。与现有技术相比,该方法基于流形学习的方法,对肠道菌群移植时供体和受体的原始数据进行非线性降维优化,以将高维菌群数据映射至低维菌群数据,极大地提高了后续的计算效率和匹配精度,为患者匹配合适的菌群供体提供了有效数据。
附图说明
[0036]
图1是本发明实施例提供的一种肠道菌群移植配型的数据处理方法流程示意图;
[0037]
图2是本发明实施例提供的非线性降维示意图;
[0038]
图3是本发明实施例提供的一种肠道菌群移植配型的数据处理系统框图;
[0039]
图4是本发明实施例提供的计算机设备的结构示意图。
具体实施方式
[0040]
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
[0041]
参考图1,本发明实施例提供了一种肠道菌群移植配型的数据处理方法,如图1所示,该方法包括以下步骤:
[0042]
s1.采集供体和受体的原始菌群数据,得到对应的原始菌群数据。
[0043]
s2.分别从供体和受体的原始菌群数据集中选取一原始菌群数据,将其作为供体和受体的待处理菌群数据。
[0044]
现有的流形学习方法具有的共同特性包括:构造流形上样本点的局部邻域结构,利用局部邻域结构将样本点全局映射至一个低维空间;不同流形学习方法之间的区别在于:构造的局部邻域结构以及利用局部邻域结构构造全局低维嵌入的方法不同,同时由于lle(locally linear embedding-局部线性嵌入)是一种非线性降维算法,它能够使降维后的数据较好地保持原有流形结构,通过局部线性反映全局的非线性的算法,并能够使降维的数据保持原有数据的拓扑结构,如图2所示,从本质上来说,lle算法是将流形上的近邻点映射到低维空间的近邻,在图2中,(b)是从(a)中提取的三维样本点,通过非线性降维算法lle将三维样本点映射到二维空间(c)中,由(c)可以看出,通过lle算法处理后的数据能很好的保持原有数据的邻域特性,因此,本实施例基于lle算法对原始菌群数据的降维处理。
[0045]
本实施例通过分别采集供体和受体的原始菌群数据,构建其对应的原始菌群数据集,本实施例假设原始菌群数据集为x={x1,x2,...,xn},n表示原始菌群数据集中的向量个数,向量的维度为d,且假设所述原始菌群数据菌采样于某个潜在的光滑流形,采样数据点
及其近邻点均落在此潜在光滑流形的一个局部线性块上或者该局部线性块附近,从而可以通过每个原始菌群数据的近邻点重构该原始菌群数据,得到一组线性系数,并通过该线性系数刻画光滑流形的局部线性几何性质。
[0046]
s3.在所述原始菌群数据集中查找所述待处理菌群数据的k个近邻点构成近邻数据集。
[0047]
在一个实施例中,本实施例利用最近邻法确定每个原始菌群数据的k个近邻点,其中,所述最近邻法包括欧式距离。
[0048]
由于在现有的lle算法中,选取不同的最近邻样本数对最后的降维结果也存在一定影响,这点也可以类比于词嵌入的窗口大小,过小的窗口无法捕捉远距离的上下文信息,过长的窗口也会相应的稀释中间词的特征,因此,选择一个合适的最近邻样本数对最终的降维数据存在较大影响,在此基础上,本实施例在现有lle算法基础上进行改进。
[0049]
在另一实施例中,所述在所述原始菌群数据集中查找所述待处理菌群数据的k个近邻点构成近邻数据集的步骤包括:
[0050]
以预设的递增规则依次选取不同的近邻点数,对选取的近邻点数,利用最近邻法得到对应的近邻点矩阵,计算近邻点矩阵的马氏距离,并根据马氏距离计算相似度系数,计算相似度系数均值,判断各近邻点数对应的相似度系数均值,选取相似度系数均值最大的近邻点数作为最优近邻点数。
[0051]
在本实施例中,所述相似度系数计算公式为:
[0052][0053]
式中,α
mn
表示相似度系数,b
mn
表示近邻点矩阵中两个样本点之间的马氏距离,β表示近邻点矩阵中所有样本点马氏距离的平均值。
[0054]
s4.基于所述近邻数据集,通过最小化重构代价函数,计算得到重构权重。
[0055]
本实施例通过约束条件以及近邻点最小化重构代价函数,从而计算能够从近邻点中最优重构样本点的权重,得到重构权重,并根据所述重构权重构造重构权重矩阵w,其中,所述重构代价函数的计算公式及约束条件如下:
[0056][0057]
式中,ε(w)表示重构代价函数,xi表示第i个待处理菌群数据,xj表示第j个近邻点,w
ij
表示xj对xi的重构权重,n表示待处理菌群数据的总数,k表示近邻点的总数,w表示重构权重矩阵。
[0058]
在本实施例中,最小化重构代价函数的约束条件包括:
[0059]
约束条件一:每个所述待处理菌群数据只能由其k个近邻点重构,且若xj不属于xi的近邻点,则使重构权重为零,即w
ij
=0;
[0060]
约束条件二:重构权重矩阵中每一列和为1,即∑iw
ij
=1。
[0061]
在本实施例中,由于重构代价函数同时最小化得到的重构权重应该遵循对称性,因此,每个数据点的近邻权值在平移、旋转、伸缩变换下是保持不变的,同时本实施例提供
的基于lle算法的降维方法,具有解析的全局最优解,无需迭代,且将低维嵌入的计算归结为稀疏矩阵特征值的计算,从而降低了计算的复杂度。
[0062]
s5.根据重构权重以及嵌入价值函数,计算得到待处理菌群数据的低维菌群数据。
[0063]
在本实施例中,所述嵌入价值函数的计算公式为:
[0064][0065]
式中,表示嵌入价值函数,yi表示映射后的低维菌群数据,yj表示映射后的低维近邻点。
[0066]
本实施例根据重构权重矩阵求解稀疏对称阵m=(i-w)
t
(i-w)的第2个到d+1个最小特征值对应的特征向量y,得到低维菌群数据,其中,i为单位矩阵,w为n
×
n维的重构权重矩阵。
[0067]
本实施例提供了一种肠道菌群移植配型的数据处理方法,通过局部的线性来逼近全局的非线性,保持局部的几何结构不变,通过相互重叠的局部邻域来提供整体的信息,从而保持整体的几何性质,其计算复杂度低,有效融合了非线性降维和线性降维的优点;另外,本实施例采用的降维方法不仅在降维时能够保持样本局部的线性特征,无需迭代,而且基于无监督学习方法,无需任何标注数据,大大降低了技术应用的门槛。
[0068]
需要说明的是,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
[0069]
在一个实施例中,如图3所示,本实施例提供了一种肠道菌群移植配型的数据处理系统,所述系统包括:
[0070]
数据采集模块101,用于采集供体和受体的原始菌群数据,得到对应的原始菌群数据集;还用于分别从供体和受体的原始菌群数据集中选取一原始菌群数据,将其作为供体和受体的待处理菌群数据;
[0071]
近邻点选取模块102,用于在所述原始菌群数据集中查找所述待处理菌群数据的k个近邻点构成近邻数据集;
[0072]
权重构造模块103,用于基于所述近邻数据集,通过最小化重构代价函数,计算得到重构权重;
[0073]
数据降维模块104,用于根据重构权重以及嵌入价值函数,计算得到待处理菌群数据的低维菌群数据。
[0074]
关于一种肠道菌群移植配型的数据处理系统的具体限定可以参见上述对于一种肠道菌群移植配型的数据处理方法的限定,此处不再赘述。本领域普通技术人员可以意识到,结合本技术所公开的实施例描述的各个模块和步骤,能够以硬件、软件或者两者结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0075]
本技术提供的一种肠道菌群移植配型的数据处理系统,利用流形学习的方法,对肠道菌群移植时供体和受体的菌群数据进行非线性降维优化,不仅保持了高维菌群数据局
部的线性特征,能够更为准确地对供体和受体的肠道菌群特征进行更为精准地描述,而且降低了运算量,更方便后续计算和匹配,为后续的供受体配型提供了可靠的基础数据,以保证菌群移植配型的有效性。
[0076]
图4是本发明实施例提供的一种计算机设备,包括存储器、处理器和收发器,它们之间通过总线连接;存储器用于存储一组计算机程序指令和数据,并可以将存储的数据传输给处理器,处理器可以执行存储器存储的程序指令,以执行上述方法的步骤。
[0077]
其中,存储器可以包括易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者;处理器可以是中央处理器、微处理器、特定应用集成电路、可编程逻辑器件或其组合。通过示例性但不是限制性说明,上述可编程逻辑器件可以是复杂可编程逻辑器件、现场可编程逻辑门阵列、通用阵列逻辑或其任意组合。
[0078]
另外,存储器可以是物理上独立的单元,也可以与处理器集成在一起。
[0079]
本领域普通技术人员可以理解,图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有相同的部件布置。
[0080]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
[0081]
本发明实施例提供的一种肠道菌群移植配型的数据处理方法、系统、设备及介质,其一种肠道菌群移植配型的数据处理方法基于无监督学习的方式,通过流形学习的方法,对肠道菌群受体和供体的高维原始菌群数据进行非线性降维处理,不仅无需标签,降低了应用成本,而且保持了原始菌群数据局部的线性特征,从而去除了高维度数据集中的噪声和冗余信息,减少不必要的运算过程,提高后续匹配的效率。
[0082]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如ssd)等。
[0083]
本领域技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
[0084]
以上所述实施例仅表达了本技术的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和
替换也应视为本技术的保护范围。因此,本技术专利的保护范围应以所述权利要求的保护范围为准。