代谢特征谱推断方法、系统、计算机设备及存储介质

文档序号:27097833发布日期:2021-10-27 17:17阅读:156来源:国知局
代谢特征谱推断方法、系统、计算机设备及存储介质

1.本发明涉及代谢组学数据分析领域,尤其涉及一种代谢特征谱推断方法、系统、计算机设备及存储介质。


背景技术:

2.人类血清中的代谢物包含宿主代谢物、微生物衍生代谢物、以及饮食等外源物质,与各种疾病的发生发展关系紧密。目前的代谢组学方法能够对血清中代谢物质进行定量测定、以及鉴定和分析。液相色谱质谱联用技术(liquid chromatograph

mass spectrometer,lc

ms)是一种常用的代谢物质检测技术,通过高效液相色谱分离不同物质,使用质谱对不同时相分离出来的物质进行质量分析。目前,非靶向lc

ms原始数据的物质鉴定主要是通过数据库比对进行,首先对原始数据进行质谱峰提取,再将不同质谱峰的保留时间、质荷比等属性与数据库中的已知物质进行比较。其中,人类代谢组数据库(the human metabolome database,hmdb)包含114305个代谢物条目。但他们相比于实际的化学空间还是很少。化学宇宙数据库gdb

17中列举了超过1660亿个有机小分子。此外,代谢组学数据的处理过程中也存在着若干挑战(即稀疏、嘈杂、异质、依赖时间等)。现阶段,深度学习技术在代谢组学数据中的应用较少。steroidxtract工具应用深度学习技术,能够直接使用原始的质谱图谱,对类固醇物质和非类固醇物质进行分类。然而,lc

ms数据是一种复杂的三维空间数据,同一样本包含多个时相数据(即不同的保留时间),每一时相数据均有一张质谱图。steroidxtract方法与其它的代谢组学分析方法,均需要人为地对这些大量质谱图进行去冗余处理。此外,血清中代谢物质所参与的生物过程往往不止与单一的某一类或者某一个物质相关联,而这些不同的物质往往分布于不同的时相。
3.传统的代谢组学方法,首先需要经过复杂过程进行噪音的去除、提取信号质谱峰,后使用统计方法、依赖已有的数据库进行相关分析与物质鉴定。首先,在数据处理的过程中,数据的稀疏性、嘈杂性、批次效应等问题为质谱峰峰对齐、质谱峰提取和后续的统计分析等带来了大量误差。其次,已有的数据库无法囊括真实化学世界的大量代谢物质,一些未知的代谢物可能也在疾病的发生发展过程中发挥重要的作用。已有的深度学习技术使用质谱图作为输入数据,不仅需要繁复的去冗余处理,而且只能进行类固醇和非类固醇的大类区分。一些具有不同功能的同分异构体等可能有着近似的质谱表现,但在液相色谱中被分离至不同的时相。


技术实现要素:

4.本发明所要解决的技术问题在于,提供一种代谢特征谱推断方法、系统、计算设备及存储介质,能够解决现有代谢组学方法所存在的误差处理难、原始信号大量丢失以及大类区分局限性的问题。
5.为了解决上述技术问题,本发明提供了一种代谢特征谱推断方法,包括:将目标样本数据进行lc

ms技术处理以获得lc

ms原始数据;将所述lc

ms原始数据进行降维转换处
理以获得二维矩阵,所述二维矩阵保留所述lc

ms原始数据的保留时间、质荷比及离子强度;将所述二维矩阵输入卷积神经网络模型以推断出所述目标样本数据的代谢物质特征谱。
6.优选地,所述将所述lc

ms原始数据进行降维转换处理以获得二维矩阵的步骤包括;将所述lc

ms原始数据进行格式转换;设置起始保留时间、终止保留时间、保留时间区间、保留时间采样间隔、起始质荷比、终止质荷比、质荷比区间以及质荷比采样间隔,其中,所述保留时间区间的范围为起始保留时间至终止保留时间之间的范围,所述质荷比区间为起始质荷比至终止质荷比之间的范围;在所述保留时间区间和质荷比区间内,以所述保留时间采样间隔以及质荷比采样间隔为滑窗,采样所述保留时间区间和质荷比区间内内的最大离子强度,以获得离子强度二维矩阵。
7.优选地,所述将所述二维矩阵输入卷积神经网络模型以推断出所述样本的代谢物质特征谱的步骤包括:根据所述卷积神经网络模型进行类激活热力图计算,生成每一样本的类激活分数s(t,r),其中,t为保留时间,r为质荷比;根据所述卷积神经网络模型的网络结构,提取映射函数:t=map1(x),r=map2(y),其中,t为保留时间,r为质荷比;根据所述映射函数将所述类激活热力图的二维坐标映射至保留时间和质荷比;对所述类激活分数进行过滤处理以获得保留特征;根据所述保留特征筛选关键代谢物质,并进行相关性计算以推断所述出目标样本数据的代谢标志物与代谢网络模式,进而生成所述目标样本数据的代谢特征谱。
8.优选地,所述对所述类激活分数进行过滤处理以获得保留特征的步骤包括:过滤掉所述类激活分数小于第一预设阈值且离子强度小于第二预设阈值的分子特征,以获得保留特征。
9.本发明还提供了一种代谢特征谱推断系统,包括:lc

ms处理模块,用于将目标样本数据进行lc

ms技术处理以获得lc

ms原始数据;降维转换处理模块,用于将所述lc

ms原始数据进行降维转换处理以获得二维矩阵,所述二维矩阵保留所述lc

ms原始数据的保留时间、质荷比及离子强度;代谢特征谱推断模块,用于将所述二维矩阵输入卷积神经网络模型以推断出所述目标样本数据的代谢物质特征谱。
10.优选地,所述降维转换处理模块包括:格式转换单元,用于将所述lc

ms原始数据进行格式转换;参数设置单元,用于设置起始保留时间、终止保留时间、保留时间区间、保留时间采样间隔、起始质荷比、终止质荷比、质荷比区间以及质荷比采样间隔,其中,所述保留时间区间的范围为起始保留时间至终止保留时间之间的范围,所述质荷比区间为起始质荷比至终止质荷比之间的范围;降维采样单元,用于在所述保留时间区间和质荷比区间内,以所述保留时间采样间隔以及质荷比采样间隔为滑窗,采样所述保留时间区间和质荷比区间内内的最大离子强度,以获得离子强度二维矩阵。
11.优选地,所述代谢特征谱推断模块包括:类激活分数获取单元,用于根据所述卷积神经网络模型进行类激活热力图计算,生成每一样本的类激活分数s(t,r),其中,t为保留时间,r为质荷比;提取单元,用于根据所述卷积神经网络模型的网络结构,提取映射函数:t=map1(x),r=map2(y),其中,t为保留时间,r为质荷比;映射单元,用于根据所述映射函数将所述类激活热力图的二维坐标映射至保留时间和质荷比;过滤单元,用于对所述类激活分数进行过滤处理以获得保留特征;计算推断单元,用于根据所述保留特征筛选关键代谢
物质,并进行相关性计算以推断所述出目标样本数据的代谢标志物与代谢网络模式,进而生成所述目标样本数据的代谢特征谱。
12.优选地,所述过滤单元用于过滤掉所述类激活分数小于第一预设阈值且离子强度小于第二预设阈值的分子特征,以获得保留特征。
13.本发明还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现上述方法的步骤。
14.本发明还提供了一种存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现上述方法的步骤。
15.实施本发明的有益效果在于:
16.本发明,通过先将需要推断代谢特征谱的样本进行lc

ms技术处理以获得lc

ms原始数据,其中,所述lc

ms技术为液相色谱质谱联用技术;再将所述lc

ms原始数据进行降维转换处理以获得二维矩阵,最后将所述二维矩阵输入所述卷积神经网络模型以推断出所述样本的代谢物质特征谱。
17.采用本发明,对lc

ms原始数据的二维转换处理,能够有效的降低数据大小,从而有助于后续计算;相比于现有方法去冗余时会导致的大量信号丢失,对lc

ms原始数据的二维转换处理,能够最大程度的保留物质信号;本发明从最终卷积神经网络模型中提取样本属性相关特征,能够更有效的评估多个物质与样本分类的联合相关性,而不是孤立地逐一比较各个物质,从而能够更准确地推断样本相关代谢谱。
附图说明
18.图1是本发明提供的代谢特征谱推断方法流程图;
19.图2是本发明提供的降维转换处理的方法流程图;
20.图3是本发明提供的代谢物质特征谱的推断方法流程图;
21.图4是本发明提供的代谢特征谱推断方法原理图;
22.图5是本发明提供的代谢特征谱推断系统的原理框图;
23.图6是本发明提供的降维转换处理模块的原理框图;
24.图7是本发明提供的代谢特征谱推断模块的原理框图。
具体实施方式
25.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。仅此声明,本发明在文中出现或即将出现的上、下、左、右、前、后、内、外等方位用词,仅以本发明的附图为基准,其并不是对本发明的具体限定。
26.如图1所示,本发明提供了一种代谢特征谱推断方法,包括:
27.s101,将目标样本数据进行lc

ms技术处理以获得lc

ms原始数据;
28.s102,将所述lc

ms原始数据进行降维转换处理以获得二维矩阵,所述二维矩阵保留所述lc

ms原始数据的保留时间、质荷比及离子强度;
29.s103,将所述二维矩阵输入卷积神经网络模型以推断出所述目标样本数据的代谢物质特征谱。
30.本发明,通过先将需要推断代谢特征谱的样本进行lc

ms技术处理以获得lc

ms原
始数据,其中,所述lc

ms技术为液相色谱质谱联用技术;再将所述lc

ms原始数据进行降维转换处理以获得二维矩阵,最后将所述二维矩阵输入所述卷积神经网络模型以推断出所述样本的代谢物质特征谱。
31.采用本发明,对lc

ms原始数据的二维转换处理,能够有效的降低数据大小,从而有助于后续计算;相比于现有方法去冗余时会导致的大量信号丢失,对lc

ms原始数据的二维转换处理,能够最大程度的保留物质信号;本发明从最终卷积神经网络模型中提取样本属性相关特征,能够更有效的评估多个物质与样本分类的联合相关性,而不是孤立地逐一比较各个物质,从而能够更准确地推断样本相关代谢谱。
32.如图2所示,优选地,所述将所述lc

ms原始数据进行降维转换处理以获得二维矩阵的步骤包括;
33.s201,将所述lc

ms原始数据进行格式转换;
34.将所述lc

ms原始数据转换为.mzml格式数据,但不限于此;
35.s202,设置起始保留时间、终止保留时间、保留时间区间、保留时间采样间隔、起始质荷比、终止质荷比、质荷比区间以及质荷比采样间隔。
36.所述保留时间区间的范围为起始保留时间至终止保留时间之间的范围,所述质荷比区间为起始质荷比至终止质荷比之间的范围;
37.s203,在所述保留时间区间和质荷比区间内,以所述保留时间采样间隔以及质荷比采样间隔为滑窗,采样所述保留时间区间和质荷比区间内内的最大离子强度,以获得离子强度二维矩阵。
38.离子强度二维矩阵为:
39.i(t,r)=max{intensity(t,r),...,intensity(t,r+rgap)...,intensity(t+tgap,r+rgap)},t∈(t0,te),r∈(r0,re),其中,t为保留时间,r为质荷比,intensity为离子强度,t0为起始保留时间,te为终止保留时间,tgap为保留时间采样间隔,r0为起始质荷比,re为终止质荷比,rgap为质荷比采样间隔。
40.需要说明的是,在数据预处理方面,现有的深度学习技术获取各时相的二维质谱图,基于质谱图进行物质的鉴定与后续分析。质谱图中仅含有物质的质荷比、离子强度信息,加上每一质谱图的时相标签,仍然是庞大的三维数据。因此需要进行去冗余操作,去除大量的时相信息,从而只能够针对类固醇单类物质进行处理。而本发明创新性地将三维空间的原始数据降维转换为二维矩阵,能够同时保留原始数据的保留时间、质荷比、离子强度等信息。血清样本经lc

ms检测后的原始数据是一种三维点云数据,分别是保留时间、质荷比、离子强度三个维度。以本发明的方法进行降维转换后,获得以保留时间、质荷比为轴,离子强度为值的二维矩阵数据。有效地对原始数据进行了降维,同时最大程度地保留了代谢物质信号。
41.如图3所示,优选地,所述将所述二维矩阵输入卷积神经网络模型以推断出所述样本的代谢物质特征谱的步骤包括:
42.s301,根据所述卷积神经网络模型进行类激活热力图计算,生成每一样本的类激活分数。
43.需要说明的是,类激活分数可表示为s(t,r),其中,t为保留时间,r为质荷比;
44.s302,根据所述卷积神经网络模型的网络结构,提取映射函数。
45.所述映射函数为:t=map1(x),r=map2(y),其中,t为保留时间,r为质荷比;
46.s303,根据所述映射函数将所述类激活热力图的二维坐标映射至保留时间和质荷比。
47.其中,将类激活热力图的二维坐标(x,y)映射至保留时间(t)、质荷比(r)。
48.s304,对所述类激活分数进行过滤处理以获得保留特征;
49.s305,根据所述保留特征筛选关键代谢物质,并进行相关性计算以推断所述出目标样本数据的代谢标志物与代谢网络模式,进而生成所述目标样本数据的代谢特征谱。
50.优选地,所述对所述类激活分数进行过滤处理以获得保留特征的步骤包括:过滤掉所述类激活分数小于第一预设阈值且离子强度小于第二预设阈值的分子特征,以获得保留特征。具体地,过滤掉类激活分数s(t,r)小于第一阈值或离子强度intensity(t,r)小于第二阈值的分子特征(t,r),以获得保留特征[(t1,r1),(t2,r2),(t3,r3),...,(tn,rn)]。
[0051]
具体地,现有深度学习技术因涉及物质种类有限,仅能够对类固醇物质进行分类提取。而传统的代谢组学技术需要经复杂地数据前处理过程,提取质谱峰获得样本的代谢物质矩阵后,以统计驱动的方式获取代谢物质特征谱。根据lc

ms数据特性,本发明创新性地提出映射函数,将深度学习技术监督学习到的样本特征映射到原始数据属性(保留时间、质荷比)。对lc

ms数据而言,保留时间、质荷比是鉴定具体物质的标签。本发明利用深度学习技术,以计算类激活热力图的方法获取样本特征后,可以使用映射函数推断出组成样本特征的具体物质,从而进一步挖掘样本特征标志代谢物质、代谢网络模式,推断样本的代谢特征谱。
[0052]
另外,事先构建和训练卷积神经网络模型的步骤包括:
[0053]
(1)获取数据集并将所述数据集划分为训练集、验证集以及测试集,并纳入不同来源数据作为外部测试集,以样本属性作为分类标签;
[0054]
其中,所述数据集均为通过二维矩阵变换得到的二维矩阵数据。
[0055]
(2)构建初始卷积神经网络模型,并使用训练集对所述初始卷积神经网络模型进行模型训练;
[0056]
(3)评估训练过后的所述初始卷积神经网络模型在验证集与测试集中的性能表现,若性能不佳则调整模型结构和超参数后重新训练;
[0057]
(4)将训练过后中准确率与鲁棒性最高的所述初始卷积神经网络模型作为最终卷积神经网络模型。
[0058]
综上,如图4所示,本发明提供的代谢特征谱推断方法,通过直接输入lc

ms原始数据,经最大程度保留原始信号的方法进行转换处理后使用卷积神经网络模型进行分类,并从分类模型中提取特征,获取不同分类中不同的代谢物质模式;采用本发明,对lc

ms原始数据的二维转换处理,能够有效的降低数据大小,从而有助于后续计算;相比于现有方法去冗余时会导致的大量信号丢失,对lc

ms原始数据的二维转换处理,能够最大程度的保留物质信号;本发明从最终卷积神经网络模型中提取样本属性相关特征,能够更有效的评估多个物质与样本分类的联合相关性,而不是孤立地逐一比较各个物质,从而能够更准确地推断样本相关代谢谱。
[0059]
如图5所示,本发明还提供了一种代谢特征谱推断系统100,包括:
[0060]
lc

ms处理模块1,用于将目标样本数据进行lc

ms技术处理以获得lc

ms原始数
据;
[0061]
降维转换处理模块2,用于将所述lc

ms原始数据进行降维转换处理以获得二维矩阵,所述二维矩阵保留所述lc

ms原始数据的保留时间、质荷比及离子强度;
[0062]
代谢特征谱推断模块3,用于将所述二维矩阵输入卷积神经网络模型以推断出所述目标样本数据的代谢物质特征谱。
[0063]
本发明,通过所述lc

ms处理模块1先将需要推断代谢特征谱的样本进行lc

ms技术处理以获得lc

ms原始数据,再通过所述降维转换处理模块2将所述lc

ms原始数据进行降维转换处理以获得二维矩阵,最后通过所述代谢特征谱推断模块3将所述二维矩阵输入所述卷积神经网络模型以推断出所述样本的代谢物质特征谱。采用本发明,对lc

ms原始数据的二维转换处理,能够有效的降低数据大小,从而有助于后续计算;相比于现有方法去冗余时会导致的大量信号丢失,对lc

ms原始数据的二维转换处理,能够最大程度的保留物质信号;本发明从最终卷积神经网络模型中提取样本属性相关特征,能够更有效的评估多个物质与样本分类的联合相关性,而不是孤立地逐一比较各个物质,从而能够更准确地推断样本相关代谢谱。
[0064]
如图6所示,所述降维转换处理模块2包括:
[0065]
格式转换单元21,用于将所述lc

ms原始数据进行格式转换;
[0066]
参数设置单元22,用于设置起始保留时间、终止保留时间、保留时间区间、保留时间采样间隔、起始质荷比、终止质荷比、质荷比区间以及质荷比采样间隔,其中,所述保留时间区间的范围为起始保留时间至终止保留时间之间的范围,所述质荷比区间为起始质荷比至终止质荷比之间的范围;
[0067]
降维采样单元23,用于在所述保留时间区间和质荷比区间内,以所述保留时间采样间隔以及质荷比采样间隔为滑窗,采样所述保留时间区间和质荷比区间内的最大离子强度,以获得离子强度二维矩阵。
[0068]
需要说明的是,在数据预处理方面,现有的深度学习技术获取各时相的二维质谱图,基于质谱图进行物质的鉴定与后续分析。质谱图中仅含有物质的质荷比、离子强度信息,加上每一质谱图的时相标签,仍然是庞大的三维数据。因此需要进行去冗余操作,去除大量的时相信息,从而只能够针对类固醇单类物质进行处理。而本发明创新性地将三维空间的原始数据降维转换为二维矩阵,能够同时保留原始数据的保留时间、质荷比、离子强度等信息。血清样本经lc

ms检测后的原始数据是一种三维点云数据,分别是保留时间、质荷比、离子强度三个维度。以本发明的方法进行降维转换后,获得以保留时间、质荷比为轴,离子强度为值的二维矩阵数据。有效地对原始数据进行了降维,同时最大程度地保留了代谢物质信号。
[0069]
如图7所示,所述代谢特征谱推断模块3包括:
[0070]
类激活分数获取单元31,用于根据所述卷积神经网络模型进行类激活热力图计算,生成每一样本的类激活分数s(t,r),其中,t为保留时间,r为质荷比;
[0071]
提取单元32,用于根据所述卷积神经网络模型的网络结构,提取映射函数:t=map1(x),r=map2(y),其中,t为保留时间,r为质荷比;
[0072]
映射单元33,用于根据所述映射函数将所述类激活热力图的二维坐标映射至保留时间和质荷比;
[0073]
过滤单元34,用于对所述类激活分数进行过滤处理以获得保留特征;
[0074]
计算推断单元35,用于根据所述保留特征筛选关键代谢物质,并进行相关性计算以推断所述出目标样本数据的代谢标志物与代谢网络模式,进而生成所述目标样本数据的代谢特征谱。
[0075]
进一步地,所述过滤单元用于过滤掉所述类激活分数小于第一预设阈值且离子强度小于第二预设阈值的分子特征,以获得保留特征。
[0076]
需要说明的是,现有深度学习技术因涉及物质种类有限,仅能够对类固醇物质进行分类提取。而传统的代谢组学技术需要经复杂地数据前处理过程,提取质谱峰获得样本的代谢物质矩阵后,以统计驱动的方式获取代谢物质特征谱。根据lc

ms数据特性,本发明创新性地提出映射函数,将深度学习技术监督学习到的样本特征映射到原始数据属性(保留时间、质荷比)。对lc

ms数据而言,保留时间、质荷比是鉴定具体物质的标签。本发明利用深度学习技术,以计算类激活热力图的方法获取样本特征后,可以使用映射函数推断出组成样本特征的具体物质,从而进一步挖掘样本特征标志代谢物质、代谢网络模式,推断样本的代谢特征谱。
[0077]
另外,代谢特征谱推断系统100还包括模型构建模块,所述模型构建模块包括:
[0078]
数据集划分单元,用于获取数据集并将所述数据集划分为训练集、验证集以及测试集,并纳入不同来源数据作为外部测试集,以样本属性作为分类标签;
[0079]
其中,所述数据集均为通过二维矩阵变换得到的二维矩阵数据;
[0080]
构建训练单元,用于构建初始卷积神经网络模型,并使用训练集对所述初始卷积神经网络模型进行模型训练;
[0081]
评估单元,用于评估训练过后的所述初始卷积神经网络模型在验证集与测试集中的性能表现,若性能不佳则调整模型结构和超参数后重新训练;
[0082]
筛选单元,用于将训练过后中准确率与鲁棒性最高的所述初始卷积神经网络模型作为最终卷积神经网络模型。
[0083]
相应地,本发明还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现上述方法的步骤。同时,本发明还提供了一种存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现上述方法的步骤。
[0084]
综上,本发明直接输入lc

ms原始数据,经最大程度保留原始信号的方法进行转换处理后使用卷积神经网络模型进行分类,并从分类模型中提取特征,获取不同分类中不同的代谢物质模式;采用本发明,对lc

ms原始数据的二维转换处理,能够有效的降低数据大小,从而有助于后续计算;相比于现有方法去冗余时会导致的大量信号丢失,对lc

ms原始数据的二维转换处理,能够最大程度的保留物质信号;本发明从最终卷积神经网络模型中提取样本属性相关特征,能够更有效的评估多个物质与样本分类的联合相关性,而不是孤立地逐一比较各个物质,从而能够更准确地推断样本相关代谢谱。
[0085]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1