肠道菌群移植配型的度量学习方法、系统、设备及介质与流程

文档序号:30066005发布日期:2022-05-18 00:57阅读:173来源:国知局
肠道菌群移植配型的度量学习方法、系统、设备及介质与流程

1.本发明涉及肠道菌群移植技术领域,特别是涉及一种面向肠道菌群移植精准配型的度量学习方法、系统、计算机设备及可读存储介质。


背景技术:

2.度量学习(metric learning)是从数据中学习一种度量数据对象间距离的方法。其目标是使得在学得的距离度量下,相似对象间的距离小,不相似对象间的距离大。
3.在进行肠道菌群移植时,需要对供体和受体的数据进行精准配型。目前是直接计算特征间的欧式距离,但是欧式距离是假定所有的特征的重要性权重是完全一致的,这显然不合理,因此需要基于有监督学习,应用度量学习方法,找出受体和共体匹配度的精准度量模型。
4.因此,现有技术还有待进一步提升和改进。


技术实现要素:

5.本发明的目的是:利用孪生神经网络(siamese network),对肠道菌群移植的供体和受体收据进行匹配度量学习,以生成更加精准的匹配度量计算模型。
6.为了达到上述目的,第一方面,本发明提供了一种肠道菌群移植配型的度量学习方法,所述方法包括:
7.构建孪生神经网络;
8.将供体数据和受体数据输入所述孪生神经网络进行训练,得到供体度量特征和受体度量特征;
9.通过损失函数对所述供体度量特征和受体度量特征进行学习训练,并输出训练结果。
10.进一步地,所述将供体数据和受体数据输入所述孪生神经网络进行训练,得到供体度量特征和受体度量特征的步骤包括:
11.所述孪生神经网络分别从所述供体数据和受体数据中提取供体数据特征和受体数据特征;
12.分别将所述供体数据特征和受体数据特征映射到新空间,形成在新空间表示的供体度量特征和受体度量特征。
13.进一步地,通过以下损失函数对所述供体度量特征和受体度量特征进行学习训练:
14.15.其中,w为网络权重,y为成对标签,为供体度量特征,为受体度量特征,dw为和在潜变量空间的的欧拉距离,m为预定阈值。
16.进一步地,如果和属于同一个类,为正样本,则y=0,调整dw为最小值;如果和不同类,为负样本,则y=1,且若dw小于预定阈值,则将dw增大到所述预定阈值。
17.进一步地,所述将供体数据和受体数据输入所述孪生神经网络进行训练的步骤之前还包括:
18.对供体数据和受体数据进行标准化处理。
19.进一步地,所述孪生神经网络的两个神经网络均为lstm神经网络或cnn神经网络。
20.第二方面,本发明实施例提供一种肠道菌群移植配型的度量学习系统,所述系统包括:
21.网络构建模块,用于构建孪生神经网络;
22.特征处理模块,用于将供体数据和受体数据输入所述孪生神经网络进行训练,得到供体度量特征和受体度量特征;
23.匹配学习模块,用于通过损失函数对所述供体度量特征和受体度量特征进行匹配学习训练,并输出训练结果。
24.进一步地,所述系统还包括:
25.标准化模块,用于对供体数据和受体数据进行标准化处理。
26.第三方面,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
27.第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
28.本发明实施例一种肠道菌群移植配型的度量学习方法、系统、设备及介质,利用孪生神经网络(siamese network),对肠道菌群移植的供体和受体收据进行匹配度量学习,能够生成更加精准的匹配度量计算模型。而且使用contrastive loss损失函数训练匹配数据,学习出受体与供体的相似性量计算模型更加合理。
附图说明
29.图1是本发明实施例中肠道菌群移植配型的度量学习方法的应用场景示意图;
30.图2是本发明实施例中肠道菌群移植配型的度量学习方法的流程图;
31.图3是对供体数据和受体数据进行标准化处理前后的对比图;
32.图4是图2中步骤s200的具体流程图;
33.图5是本发明一实施例中肠道菌群移植配型的度量学习系统的组成框图;
34.图6是本发明另一实施例中肠道菌群移植配型的度量学习系统的组成框图;
35.图7是本发明实施例中计算机设备的示意图。
具体实施方式
36.为了使本技术的目的、技术方案和有益效果更加清楚明白,下面结合附图及实施例,对本发明作进一步详细说明,显然,以下所描述的实施例是本发明实施例的一部分,仅用于说明本发明,但不用来限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
37.本发明提供的肠道菌群移植配型的度量学习方法,可以应用于如图1所示的终端或服务器上。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
38.在一个实施例中,如图2所示,本发明实施例优选实施例的一种肠道菌群移植的群组配型方法,所述方法包括步骤:
39.s100、构建孪生神经网络。
40.其中,孪生神经网络(siamese network)是基于两个人工神经网络建立的耦合架构,孪生神经网络以两个样本为输入,输出其嵌入高维空间的表征,以比较两个样本的相似程度,狭义的孪生神经网络由两个结构相同,且权重共享的神经网络拼接而成,其权重可以由能量函数或分类损失优化,广义的孪生神经网络(又称pseudo-siamese network,伪孪生神经网络),由两个任意的神经网络拼接而成,可由卷积神经网络、循环神经网络等组成。在监督学习范式下,孪生神经网络会最大化不同标签的表征,并最小化相同标签的表征,在自监督或非监督学习范式下,孪生神经网络可以最小化原输入和干扰输入间的表征。
41.为了面向肠道菌群精准配型的度量学习,本发明实施例优选采用权重共享的孪生神经网络,由于肠道菌群配型中的供体和受体具有一定相似性,因此,权重共享的孪生神经网络模型能够更适用于肠道菌群的精准配型。本实施例孪生神经网络的两个神经网络选用相同的神经网络,如均为lstm神经网络或cnn神经网络。
42.s200、将供体数据和受体数据输入所述孪生神经网络进行训练,得到供体度量特征和受体度量特征。
43.其中,本实施例在供体数据和受体数据输入孪生神经网络之前,首先对供体数据和受体数据进行标准化处理,对于标准化处理的作用,请参见图3,图3中左边的图为供体和受体的原始数据,右边的图为经过标准化处理的供体和受体数据,b为偏差,w为权重,而中心表示需要达到的最小成本。图3中右边的图看起来更对称,其能够显示本实施例将数据标准化处理的作用。如果特征的范围变化很大,则不同权重的值也会随着发生很大的变化,并且将花费更多的时间来选择完美的权重集。然而,如果使用标准化数据,那么权重就不会有很大的变化,从而在较短的时间内获得理想的权重集。此外,如果使用原始数据,则必须使用较低的学习率来适应不同的等高线高度。但在归一化数据的情况下,我们有更多的球面轮廓,通过选择更大的学习速率,可以直接实现最小值。因此,当特征在相似的尺度上时,优化权重和偏差变得容易。所以,本实施例对供体数据和受体数据进行标准化处理,能够更有利于后续神经网络的训练,而且能够提高训练效率,节约成本。
44.在步骤s200中,参见,4,孪生神经网络对供体数据和受体数据的训练包括以下步骤:
45.s201、所述孪生神经网络分别从所述供体数据和受体数据中提取供体数据特征和
受体数据特征;
46.s202、分别将所述供体数据特征和受体数据特征映射到新空间,形成在新空间表示的供体度量特征和受体度量特征。
47.经过孪生神经网络的训练,能够得到在新空间表示的供体度量特征和受体度量特征,供体度量特征和受体度量特征均为向量特征,以便后续计算二者的欧拉距离。新空间记为潜变量空间。
48.s300、通过损失函数对所述供体度量特征和受体度量特征进行学习训练,并输出训练结果。
49.本实施例通过以下损失函数对所述供体度量特征和受体度量特征进行学习训练:
[0050][0051]
其中,w为网络权重,y为成对标签,为供体度量特征,为受体度量特征,dw为和在潜变量空间的的欧拉距离,m为预定阈值。
[0052]
在学习训练时,如果和属于同一个类,为正样本,则y=0,调整dw为最小值,即调整参数最小化和之前的距离;如果和不同类,为负样本,则y=1,且若dw小于预定阈值,则将dw增大到所述预定阈值。通过使用contrastive loss损失函数训练匹配数据,包括正样本(匹配)和负样本(不匹配),使学习出受体与供体的相似性量计算模型更加合理。
[0053]
本发明实施例的肠道菌群移植配型的度量学习方法,利用孪生神经网络(siamese network),对肠道菌群移植的供体和受体收据进行匹配度量学习,生成了更加精准的匹配度量计算模型,而且通过损失函数训练匹配数据,能够使学习出的受体与供体的相似性量计算模型更加合理。
[0054]
第二方面,本发明实施例提供一种肠道菌群移植配型的度量学习系统,参见图5,该系统包括:
[0055]
网络构建模块1,用于构建孪生神经网络;
[0056]
特征处理模块2,用于将供体数据和受体数据输入所述孪生神经网络进行训练,得到供体度量特征和受体度量特征;
[0057]
匹配学习模块3,用于通过损失函数对所述供体度量特征和受体度量特征进行匹配学习训练,并输出训练结果。
[0058]
在一个实施例中,参见图6,该系统还包括:标准化模块4,用于对供体数据和受体数据进行标准化处理。
[0059]
本发明实施例的肠道菌群移植配型的的度量学习系统,通过网络构建模块所构建的孪生神经网络,对供体数据和受体数据进行学习训练,并通过损失函数匹配数据,不仅能
够生成更加精准的匹配度量计算模型,而且能够使学习出的受体与供体的相似性量计算模型更加合理。
[0060]
需要说明的是,上述肠道菌群移植配型的度量学习系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。关于肠道菌群移植配型的度量学习系统的具体限定参见上文中对于肠道菌群移植配型的度量学习方法的限定,二者具有相同的功能和作用,在此不再赘述。
[0061]
此外,本发明的实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
[0062]
本发明的实施例还提出一种计算机设备,参见图7,包括存储器701、处理器702以及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器702执行所述程序时实现上述方法的步骤。处理器702以及存储器701可以通过总线或者其他方式连接,图6中以通过总线连接为例。
[0063]
存储器701作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中肠道菌群移植的群组配型系统对应的程序指令/模块。处理器702通过运行存储在存储器701中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述系统实施例中肠道菌群移植的群组配型系统。
[0064]
存储器701可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据肠道菌群移植的群组配型系统的使用所创建的数据等。此外,存储器701可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器701可选包括相对于处理器702远程设置的存储器,这些远程存储器可以通过网络连接至肠道菌群移植的群组配型系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0065]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
[0066]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0067]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0068]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0069]
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
[0070]
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1