一种基于代谢组学质谱数据的数字图像编码方法

文档序号:34313023发布日期:2023-05-31 22:27阅读:45来源:国知局
一种基于代谢组学质谱数据的数字图像编码方法

本技术涉及数据处理,尤其涉及一种基于代谢组学质谱数据的数字图像编码方法。


背景技术:

1、液相色谱-串联质谱(liquid chromatography-tandem mass spectrometry,lc-ms)数据可以是包含质荷比(m/z)、色谱保留时间(retention time,rt)以及离子信号强度值的二维矩阵,质谱数据的数字图像编码是指将lc-ms数据信息转换为一种图像,这类图像可被用于构建疾病诊断的深度学习模型。

2、然而,如果直接将lc–ms数据编码为常规的数据图像分辨率大小,相近的质谱信号将会出现重叠,使得编码后的图像是多个质谱信号混合后的结果,导致图像分辨率过低,破坏了质谱数据的原始质谱结构,无法反映lc–ms中代谢组学的原始状态。


技术实现思路

1、本技术实施例的目的是提供一种基于代谢组学质谱数据的数字图像编码方法、装置和计算机设备,能够解决相关技术中编码后的图像信息是多个质谱信号混合后的结果,导致图像分辨率过低,破坏质谱数据的原始质谱结构,无法反映lc–ms中代谢组学的原始状态的问题。

2、为了解决上述技术问题,本技术是这样实现的:

3、第一方面,本技术实施例提供了一种基于代谢组学质谱数据的数字图像编码方法,该方法可以包括:

4、获取第一液相色谱-串联质谱数据;

5、按照预设划分条件,对第一液相色谱-串联质谱数据中预设质量区间内的质荷比进行分组,得到p个组别,p为正整数;

6、根据p个组别的每个组别中的第一质荷比和第一扫描索引,生成全代谢组轮廓图像,第一扫描索引为采集第一质荷比所在质谱图的顺序标识;

7、对全代谢组轮廓图像进行切割和堆叠,得到第一多通道图像;

8、基于与第一多通道图像对应的池化信号强度和图像熵,从第一多通道图像中筛选第一目标图块,第一目标图块的目标池化信号强度满足第一预设条件且第一目标图块的目标图像熵满足第二预设条件,第一目标图块用于训练生物样本分类的深度学习模型。

9、在一种可能的实施例中,上述涉及的“根据p个组别的每个组别中的第一质荷比和第一扫描索引,生成全代谢组轮廓图像”的步骤中,具体可以包括:

10、按照第一扫描索引的排布顺序,对每个组别中的第一质荷比进行对齐排列,得到目标二维矩阵;

11、将目标二维矩阵表示的图像确定为全代谢组轮廓图像。

12、在另一种可能的实施例中,上述涉及的“对全代谢组轮廓图像进行切割和堆叠,得到第一多通道图像”的步骤中,具体可以包括:

13、按照预设分割顺序,通过预设分割窗口,对全代谢组轮廓图像进行切分,得到n个第一图块,n为正整数;

14、按照预设分割顺序,对n个第一图块进行堆叠,得到第一多通道图像。

15、在又一种可能的实施例中,上述涉及的“按照预设分割顺序,通过预设分割窗口,对全代谢组轮廓图像进行切分,得到n个第一图块”的步骤中,具体可以包括:

16、在第一图块包括第一类图块和第二类图块的情况下,按照预设分割顺序,通过预设分割窗口,对全代谢组轮廓图像进行切割,得到第一类图块和边缘区域,第一类图块的大小等于预设分割窗口的大小;

17、通过预设填充函数,对边缘区域进行填充,得到第二类图块,第二类图块的大小满足预设分割窗口的大小。

18、基于此,上述涉及的“基于与第一多通道图像对应的池化信号强度和图像熵,从第一多通道图像中筛选第一目标图块”的步骤中,具体可以包括:

19、通过预设池化信号强度算法,根据第一多通道图像中每个第二图块在第一多通道图像中对应位置的信号强度,计算每个第二图块的池化信号强度;以及,通过预设图像熵算法,根据信号强度分布概率,计算每个第二图块的图像熵,其中,信号强度分布概率是由每个第二图块的信号强度计算得到;

20、在多个第二图块对应的多个池化信号强度中筛选满足第一预设条件的第一目标池化信号强度,以及在多个第二图块对应的多个图像熵中筛选满足第二预设条件的第一目标图像熵;

21、将第一目标池化信号强度和第一目标图像熵对应的图块确定为第一目标图块。

22、在再一种可能的实施例中,上述涉及的“在多个第二图块对应的多个池化信号强度中筛选满足第一预设条件的第一目标池化信号强度,以及在多个第二图块对应的多个图像熵中筛选满足第二预设条件的第一目标图像熵”的步骤之前,还可以包括:

23、在第一液相色谱-串联质谱数据为多个第一液相色谱-串联质谱数据,多个第一液相色谱-串联质谱数据中的每个第一液相色谱-串联质谱数据对应一个第一多通道图像的情况下,将多个第一多通道图像中第i个第二图块的池化信号强度的平均值确定为第i个第二图块的池化信号强度;以及,将多个第二多通道图像中第i个第二图像的图像熵的平均值确定为第i个第二图像的图像熵,i为正整数。

24、第二方面,本技术实施例提供了一种基于第一方面的代谢物分析方法,该方法可以包括:

25、获取待检测的生物样本的目标液相色谱-串联质谱数据;

26、按照预设划分条件,对目标液相色谱-串联质谱数据中预设质量区间内的质荷比进行分组,得到v个组别,v为正整数;

27、根据v个组别的每个组别中的第二质荷比和第二扫描索引,生成目标全代谢组轮廓图像,第二扫描索引为采集第二质荷比所在质谱图的顺序标识;

28、对目标全代谢组轮廓图像进行切割和堆叠,得到第三多通道图像;

29、根据所述第一目标图块对应的第一目标扫描索引,从第三多通道图像中筛选与所述第一目标扫描索引对应的第二目标图块;

30、将第二目标图块堆叠的第四多通道图像和归零图像分别输入到目标深度学习模型,得到第四多通道图像的第一分类预测概率值和归零图像的第二分类预测概率值;其中,目标深度学习模型由如第一方面得到的第一目标图块构建的第二多通道图像训练得到,归零图像由第二目标图块经过归零处理后得到;

31、对比第一分类预测概率值和第二分类预测概率值,得到第二目标图块的目标概率值,目标概率值用于表征第二目标图块能够参与生物样本分类的重要程度。

32、在一种可能的实施例中,上述涉及的“对比第一分类预测概率值和第二分类预测概率值,得到第二目标图块的目标概率值”的步骤之后,该方法还可以包括:

33、根据第二目标图块对应的第二目标扫描索引,获取与第二目标扫描索引对应的目标色谱保留时间,以及,根据所述第二目标图块对应的第二目标组别提取目标代谢物峰的质荷比;

34、按照目标色谱保留时间和目标代谢物峰的质荷比,从第二液相色谱-串联质谱数据中提取目标二级质谱谱图;

35、利用目标色谱保留时间、目标代谢物峰的质荷比和目标二级质谱信息在标准品库中确定目标代谢物。

36、在另一种可能的实施例中,上述涉及的“从所述第三多通道图像中筛选与所述第一目标扫描索引对应的第二目标图块”的步骤之后,方法还可以包括:

37、分别对所述第四多通道图像中多个第二目标图块中每个第二目标图块的信号强度值进行归零处理,得到多个归零图像;

38、基于此,上述涉及的“对比所述第一分类预测概率值和所述第二分类预测概率值,得到所述第二目标图块的目标概率值”的步骤具体可以包括:

39、将所述第一分类预测概率值分别与所述多个归零图像中每个归零图像的第二分类预测概率值进行对比,得到每个第二目标图块对应的目标概率值。

40、在又一种可能的实施例中,上述涉及的“从第三多通道图像中筛选第二目标图块”的步骤之后,方法还可以包括:

41、获取模型训练样本,模型训练样本包括由第一目标图块构建的第二多通道图像以及第二多通道图像对应的预设分类标签;

42、将模型训练样本输入初始深度学习模型,对初始深度学习模型进行训练,直至满足预设训练条件,得到目标深度学习模型。

43、第三方面,本技术实施例提供了一种基于代谢组学质谱数据的数字图像编码装置,该装置可以包括:

44、获取模块,用于获取第一液相色谱-串联质谱数据;

45、划分模块,用于按照预设划分条件,对第一液相色谱-串联质谱数据中预设质量区间内的质荷比进行分组,得到p个组别,p为正整数;

46、生成模块,用于根据p个组别的每个组别中的第一质荷比和第一扫描索引,生成全代谢组轮廓图像,第一扫描索引为采集第一质荷比所在质谱图的顺序标识;

47、处理模块,用于对全代谢组轮廓图像进行切割和堆叠,得到第一多通道图像;

48、筛选模块,用于基于与第一多通道图像对应的池化信号强度和图像熵,从第一多通道图像中筛选第一目标图块,第一目标图块的目标池化信号强度满足第一预设条件且第一目标图块的目标图像熵满足第二预设条件,第一目标图块用于训练生物样本分类的深度学习模型。

49、在一种可能的实施例中,本技术实施例中的数字图像编码装置还可以包括排列模块和第一确定模块;其中,

50、排列模块,用于按照第一扫描索引的排布顺序,对每个组别中的第一质荷比进行对齐排列,得到目标二维矩阵;

51、第一确定模块,用于将目标二维矩阵表示的图像确定为全代谢组轮廓图像。

52、在另一种可能的实施例中,上述涉及的“处理模块”具体可以用于:

53、按照预设分割顺序,通过预设分割窗口,对全代谢组轮廓图像进行切分,得到n个第一图块,n为正整数;

54、按照预设分割顺序,对n个第一图块进行堆叠,得到第一多通道图像。

55、在又一种可能的实施例中,本技术实施例中的数字图像编码装置还可以包括填充模块;其中,

56、上述涉及的“处理模块”还可以用于,在第一图块包括第一类图块和第二类图块的情况下,按照预设分割顺序,通过预设分割窗口,对全代谢组轮廓图像进行切割,得到第一类图块和边缘区域,第一类图块的大小等于预设分割窗口的大小;

57、填充模块,用于通过预设填充函数,对边缘区域进行填充,得到第二类图块,第二类图块的大小满足预设分割窗口的大小。

58、基于此,本技术实施例中的数字图像编码装置还可以包括计算模块和第二确定模块;其中,

59、计算模块,用于通过预设池化信号强度算法,根据第一多通道图像中每个第二图块在第一多通道图像中对应位置的信号强度,计算每个第二图块的池化信号强度;以及,通过预设图像熵算法,根据信号强度分布概率,计算每个第二图块的图像熵,其中,信号强度分布概率是由每个第二图块的信号强度计算得到;

60、上述涉及的“筛选模块”还可以用于,在多个第二图块对应的多个池化信号强度中筛选满足第一预设条件的第一目标池化信号强度,以及在多个第二图块对应的多个图像熵中筛选满足第二预设条件的第一目标图像熵;

61、第二确定模块,用于将第一目标池化信号强度和第一目标图像熵对应的图块确定为第一目标图块。

62、在再一种可能的实施例中,本技术实施例中的数字图像编码装置还可以包括第三确定模块;其中,

63、第三确定模块,用于在第一液相色谱-串联质谱数据为多个第一液相色谱-串联质谱数据,多个第一液相色谱-串联质谱数据中的每个第一液相色谱-串联质谱数据对应一个第一多通道图像的情况下,将多个第一多通道图像中第i个第二图块的池化信号强度的平均值确定为第i个第二图块的池化信号强度;以及,将多个第二多通道图像中第i个第二图像的图像熵的平均值确定为第i个第二图像的图像熵,i为正整数。

64、第四方面,本技术实施例提供了一种基于第一方面的代谢物分析装置,该装置可以包括:

65、获取模块,用于获取待检测的生物样本的目标液相色谱-串联质谱数据;

66、划分模块,用于按照预设划分条件,对目标液相色谱-串联质谱数据中预设质量区间内的质荷比进行分组,得到v个组别,v为正整数;

67、生成模块,用于根据v个组别的每个组别中的第二质荷比和第二扫描索引,生成目标全代谢组轮廓图像,第二扫描索引为采集第二质荷比所在质谱图的顺序标识;

68、处理模块,用于对目标全代谢组轮廓图像进行切割和堆叠,得到第三多通道图像;

69、筛选模块,用于根据所述第一目标图块对应的第一目标扫描索引,从第三多通道图像中筛选与所述第一目标扫描索引对应的第二目标图块;

70、模型模块,用于将第二目标图块堆叠的第四多通道图像和归零图像分别输入到目标深度学习模型,得到第四多通道图像的第一分类预测概率值和归零图像的第二分类预测概率值;其中,目标深度学习模型由如第一方面得到的第一目标图块构建的第二多通道图像训练得到,归零图像由第二目标图块经过归零处理后得到;

71、对比模块,用于对比第一分类预测概率值和第二分类预测概率值,得到第二目标图块的目标概率值,目标概率值用于表征第二目标图块能够参与生物样本分类的重要程度。

72、在一种可能的实施例中,本技术实施例中的代谢物分析装置还可以包括提取模块和确定模块;其中,

73、上述涉及的“获取模块”还可以用于,根据第二目标图块对应的第二目标扫描索引,获取与第二目标扫描索引对应的目标色谱保留时间,以及,根据所述第二目标图块对应的第二目标组别提取目标代谢物峰的质荷比;

74、提取模块,用于按照目标色谱保留时间和目标代谢物峰的质荷比,从第二液相色谱-串联质谱数据中提取目标二级质谱谱图;

75、确定模块,用于利用目标色谱保留时间、目标代谢物峰的质荷比和目标二级质谱信息在标准品库中确定目标代谢物。

76、在另一种可能的实施例中,上述涉及的“处理模块”还可以用于,分别对所述第四多通道图像中多个第二目标图块中每个第二目标图块的信号强度值进行归零处理,得到多个归零图像;

77、基于此,上述涉及的“对比模块”具体可以用于,将所述第一分类预测概率值分别与所述多个归零图像中每个归零图像的第二分类预测概率值进行对比,得到每个第二目标图块对应的目标概率值。

78、在又一种可能的实施例中,申请实施例中的数字图像编码装置还可以包括训练模块;其中,

79、上述涉及的“获取模块”还可以用于,获取模型训练样本,模型训练样本包括由第一目标图块构建的第二多通道图像以及第二多通道图像对应的预设分类标签;

80、训练模块,用于将模型训练样本输入初始深度学习模型,对初始深度学习模型进行训练,直至满足预设训练条件,得到目标深度学习模型。

81、第五方面,本技术实施例提供了一种计算机设备,该计算机设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面所示的基于代谢组学质谱数据的数字图像编码方法的步骤,或者,实现如第二方面所示的基于第一方面的代谢物分析的步骤。

82、第六方面,本技术实施例提供了一种计算机可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如第一方面所示的基于代谢组学质谱数据的数字图像编码方法的步骤,或者,实现如第二方面所示的基于第一方面的代谢物分析的步骤。

83、第七方面,本技术实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面所示的基于代谢组学质谱数据的数字图像编码方法的步骤,或者,实现如第二方面所示的基于第一方面的代谢物分析的步骤。

84、综上,本技术实施例提供的基于代谢组学质谱数据的数字图像编码方法,可以按照预设划分条件,对获取到的第一液相色谱-串联质谱数据中预设质量区间内的质荷比进行分组,得到p个组别,接着,根据p个组别的每个组别中的第一质荷比和第一扫描索引,生成全代谢组轮廓图像,再者,对全代谢组轮廓图像进行切割和堆叠,得到第一多通道图像,然后,基于与第一多通道图像对应的池化信号强度和图像熵,从第一多通道图像中筛选第一目标图块,第一目标图块堆叠的第二多通道图像用于训练生物样本分类的深度学习模型。由此,通过数字图像编码方式,可以将代谢组学质谱数据转化为第二多通道图像,该第二多通道图像能够保留解析代谢组学中代谢物种类和水平的质谱数据的质谱结构,以及,该第二多通道图像中的代谢组学信息可以被解析,这样,可以通过第一目标图块堆叠的第二多通道图像训练生物样本分类的深度学习模型,分析生物样本中哪些代谢物或质谱信号可以帮助区分不同生物样本。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1