质谱谱图解析方法、装置及智能终端与流程

文档序号:31850739发布日期:2022-10-19 01:03阅读:172来源:国知局
质谱谱图解析方法、装置及智能终端与流程

1.本技术涉及蛋白质解谱分析的领域,尤其是涉及一种质谱谱图解析方法、装置及智能终端。


背景技术:

2.人类基因组中包含了关于人类发展和进化的所有信息,揭示了基因编码蛋白质的真理。在后基因组计划的时期,生物学的研究逐渐从基因组研究转变到蛋白质组研究上。蛋白质几乎涉及细胞功能的各个方面,蛋白质的表征目前已经成为现代生物学的重要组成部分,它激发了一门新学科:蛋白质组学。质谱技术是目前研究蛋白质的主要技术,拥有高精度、高速度等特点。质谱技术的进步为蛋白质鉴定提供了以前所未有的速度、灵敏度和准确性识别,为蛋白质组学的研究与发展提供了优势。
3.目前应用比较广泛的蛋白质组质谱技术几乎都是利用计算机软件算法进行质谱谱图解析,但是普遍存在计算成本高昂、分析时间过长的问题。


技术实现要素:

4.本技术目的一是提供一种质谱谱图解析方法,具有分析时间短的特点。
5.本技术的上述发明目的一是通过以下技术方案得以实现的:一种质谱谱图解析方法,包括:获取目标谱图,其中,所述目标谱图用于反映蛋白质肽段的质谱数据;基于所述目标谱图的质荷比,确定所述目标谱图的谱图特征;将所述目标谱图的谱图特征输入预设的解谱模型,得到所述目标谱图的解析类别,其中,所述解析类别用于反映所述目标谱图对应的肽段序列。
6.通过采用上述技术方案,基于目标谱图的质荷比得到谱图特征,并将谱图特征输入解谱模型中,通过解谱模型得到解析分类,从而可有效、准确、快速地分析出目标谱图所对应的蛋白质的肽段序列。
7.可选的,所述基于所述目标谱图的质荷比,确定所述目标谱图的谱图特征,包括:基于所述质荷比的强度值,对所述目标谱图的所有所述质荷比进行筛选,得到特征数量个特征质荷比;基于所述目标谱图的所有所述特征质荷比,得到所述目标谱图的谱图特征。
8.通过采用上述技术方案,对应于不同的蛋白质肽段的目标谱图,在质荷比上具有较大的差异,利用指定数量的质荷比得到谱图特征,使得谱图特征相对于目标谱图具有较强的代表性,提高检测分析的准确率。
9.可选的,所述解谱模型的输出包括由所述谱图特征压缩得到的特征矩阵,以及所述特征矩阵所对应的所述解析类别;所述特征矩阵的长度为7。
10.通过采用上述技术方案,谱图特征压缩后的特征损失,并且提高蛋白质谱图的利用率。
11.可选的,所述解谱模型包括4层用于压缩所述谱图特征以得到所述特征矩阵的平均值下采样层;所述基于所述质荷比的强度值,对所述目标谱图的所有所述质荷比进行筛选,得到特征数量个特征质荷比,包括:基于所述质荷比的强度值,对所述目标谱图的所有所述质荷比进行筛选,得到112个特征质荷比。
12.通过采用上述技术方案,使得解谱模型对于目标谱图的适用范围较广,提高质谱数据的利用率。
13.可选的,所述解谱模型利用以下方式进行训练:获取模型训练数据集,其中,所述模型训练数据集包含训练谱图、对应于所述训练谱图的谱图特征,以及对应标注于所述训练谱图的肽段标签;将所述训练谱图的谱图特征输入所述解谱模型,得到所述训练谱图的训练类别;基于所述训练谱图的肽段标签和所述训练谱图的训练类别,训练所述解谱模型。
14.通过采用上述技术方案,将预先标注好的肽段标签作为真实结果,将解谱模型输出的训练类别作为实际结果,利用肽段标签和训练类别对解谱模型进行训练,使得解谱模型的分析结果更加准确、更接近真实值。
15.可选的,所述获取模型训练数据集,包括:获取质谱原始数据集和解谱数据集,其中,所述质谱原始数据集包含原始谱图,所述解谱数据集包含对应于所述原始谱图的解谱结果;对所述质谱原始数据集中的所述原始谱图进行筛选,得到过滤谱图;移除所述质谱原始数据集中的所述过滤谱图,得到质谱训练数据集;获取所述质谱训练数据集的谱图特征;基于所述解谱数据集,对所述质谱训练数据集中所述中的所有原始谱图进行标注,得到所述质谱训练数据集的肽段标签。
16.通过采用上述技术方案,对解谱模型的训练数据进行筛选,预先排除掉部分有效信息较少、可信度不足的数据,提高训练后的模型效果,使得训练完成的解谱模型的分析结果更加准确。
17.可选的,所述对所述质谱原始数据集中的所述原始谱图进行筛选,得到过滤谱图,包括:基于所述原始谱图的解谱结果,筛选所述解谱结果为反库的所述原始谱图,得到过滤谱图;和/或,基于所述原始谱图的解谱结果,筛选所述解谱结果为空的所述原始谱图,得到过滤谱图;和/或,基于所述原始谱图的解谱结果,筛选所述解谱结果的评分小于评分阈值的所述原始谱图,得到过滤谱图;和/或,基于所述原始谱图的质荷比的数量,筛选所述质荷比的数量小于特征阈值的所述原始图像,得到过滤谱图,其中,所述特征阈值小于等于所述谱图特征包含的所述质荷比的数量;和/或,基于所述原始谱图的母离子化合价,对所述质谱原始数据集中的所述原始
谱图进行分组,得到化合价分类组别;筛选谱图数量小于化合价图数阈值的所述化合价分类组别,得到过滤谱图;和/或,基于所述解谱结果中的肽段序列,对所述质谱原始数据集中的所述原始谱图进行分组,得到肽段分类组别;筛选谱图数量小于肽段图数阈值的所述肽段分类组别,得到过滤谱图。
18.通过采用上述技术方案,解谱结果为反库、解谱结果为空或解谱结果评分小于评分阈值的原始谱图,均为可信度过低的原始谱图,将这部分原始谱图作为过滤谱图后续进行排除,可以对模型的训练进行优化。若原始谱图的质荷比数量小于特征阈值,则此原始谱图并不能提取出或者筛选出足够数量的质荷比作为谱图特征参与后续的计算,因此需要将这部分原始谱图作为过滤谱图后续进行排除。若化合价分类组别中的原始谱图的数量小于化合价图数阈值,则说明此化合价分类组别中的数据量过少;肽段分类组别中的原始谱图的数量小于肽段图数阈值,则说明此肽段分类组别中的数据量过少。当化合价分类组别中的数据量过少或者肽段分类组别中的数据量过少的情况发生时,会导致训练过程中模型难以收敛,因此需要排过滤这部分数据,使得模型训练可以快速收敛。
19.本发明的主要发明目的二还提出一种质谱谱图解析装置。
20.一种质谱谱图解析装置,包括:谱图获取模块,用于获取目标谱图,其中,所述目标谱图对应于蛋白质的肽段;特征提取模块,用于基于所述目标谱图的质荷比,确定所述目标谱图的谱图特征;模型解析模块,用于将所述目标谱图的谱图特征输入预设的所述解谱模型,得到所述目标谱图的解析类别,其中,所述解析类别用于反映所述目标谱图对应的肽段序列。
21.本发明的主要发明目的三还提出一种智能终端。
22.一种智能终端,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如上述任一技术方案的质谱谱图解析方法的计算机程序。
23.本发明的主要发明目的四还提出一种计算机可读存储介质。
24.一种计算机可读存储介质,存储有能够被处理器加载并执行如上述任一技术方案的质谱谱图解析方法的计算机程序。
附图说明
25.图1是本技术的质谱谱图解析方法的流程示意图。
26.图2是本技术的质谱谱图解析方法的步骤s2的子流程示意图。
27.图3是本技术的解谱模型的结构示意图。
28.图4是本技术的平均值下采样层对谱图特征进行压缩的示意图。
29.图5是本技术的质谱谱图解析方法中解谱模型的训练方法的流程示意图。
30.图6是本技术的质谱谱图解析方法中解谱模型的训练方法的步骤e1的子流程示意图。
31.图7是本技术的解谱模型的优化过程的示意图。
32.图8是本技术的训练谱图的筛选过程的示意图。
33.图9是本技术的质谱谱图解析装置的模块示意图。
34.图中,1、谱图获取模块;2、特征提取模块;3、模型解析模块。
具体实施方式
35.目前,蛋白质组质谱技术主要是通过专用软件和利用深度学习算法进行分析。
36.在专用软件中,应用比较广泛的蛋白质解谱软件有pfind、mascot、maxquant,但是普遍存在计算成本高昂、分析时间过长的问题。例如,pfind在使用24核服务器的情况下,每10gb的谱图平均需要约8小时的解谱时间,并且如果需要分析的蛋白质肽段序列较为复杂,则需要花更多的时间。相当于做一次蛋白质质谱实验,至少要8小时才能出结果,存在质谱分析技术计算成本高昂、分析时间过长的问题。
37.在利用深度学习识别蛋白质肽段序列的研究中,相关技术中也有结合cnn和lstm算法处理谱图数据的技术方案,此技术方案利用cnn算法提取谱图的图像特征,并且利用lstm算法预测图像特征所对应的肽段序列,可以依次预测蛋白质中的多个氨基酸,通过前一个氨基酸预测后一个氨基酸,准确率最高可以达到75%。但是,当有任何一个位于前置位的氨基酸预测错误时,往后的氨基酸的预测错误率会大幅提高。
38.上述两种方法存在的问题,不仅仅让科研项目的成果产出效率受到了很大的限制,而且对于临床上的应用,很可能会让医生错过了病人的最佳治疗时间,因此蛋白质组质谱技术在临床上的应用也受到局限性。
39.基于上述存在的技术问题,本技术提出一种分析时间短、准确率高的质谱谱图解析方法。
40.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
41.另外,本实施例中各步骤的标号仅为方便说明,不代表对各步骤运动顺序的限定,在实际应用时,可以根据需要各步骤运动顺序进行调整,或同时进行,这些调整或者替换均属于本发明的保护范围。
42.下面结合说明书附图1-图9对本技术实施例作进一步详细描述。
43.本技术实施例提供一种质谱谱图解析方法,质谱谱图解析方法的主要流程描述如下。
44.参照图1,s1、获取目标质谱数据集。
45.其中,目标质谱数据集包含一组蛋白质组质谱数据,目标质谱数据集内具有多张目标谱图。目标谱图为待解析的蛋白质谱图,一个蛋白质谱图代表了蛋白质中的其中一个肽段。目标质谱数据集包含有此蛋白质肽段的质谱数据,质谱数据反映目标谱图所对应的肽段的基本属性,质谱数据包括有目标谱图的母离子化合价、目标谱图的质荷比和质荷比于目标谱图的强度值。其中,一张目标谱图对应于一种母离子化合价,一张目标谱图对应有多个质荷比,一个质荷比对应于一个强度值。
46.具体的,质荷比又称为m/z,质荷比指的是利用质量除以电荷得到的数据。强度值又被称为intensity,强度值用于指示质荷比所对应的母离子的离子浓度,质荷比的强度值越大,则代表质荷比所对应的离子浓度较高。对于肽段序列相同的蛋白质谱图,蛋白质谱图中强度较高的质荷比位置都比较接近。
47.可以理解的是,上述质谱数据均是目标谱图中已知的信息,而目标谱图所对应的
蛋白质肽段是未知的,本技术提供的质谱谱图解析方法的目的在于,如何快速、准确地基于目标谱图中已知的信息,分析出目标谱图所对应的蛋白质肽段的肽段序列。
48.在一个实施例中,目标质谱数据集中的目标谱图储存在mgf文件中。
49.s2、基于目标谱图的质荷比,确定目标谱图的谱图特征。
50.其中,每一张目标谱图具有一项谱图特征,谱图特征能够反映对应的目标谱图所具有的特性,能够代表此目标谱图。在本实施例中,谱图特征由多个质荷比组成,由于对应于不同的肽段的目标谱图,在各自的质荷比上具有较大的差异,利用指定数量的质荷比得到谱图特征,使得谱图特征相对于目标谱图具有较强的代表性。
51.参照图1和图2,具体的,步骤s2包括:s21、基于质荷比的强度值,对目标谱图的所有质荷比进行筛选,得到特征数量个特征质荷比。
52.其中,特征质荷比为从目标谱图的所有质荷比中筛选出来的、最能够代表目标谱图的质荷比。特征数量为系统预设值。在本实施例中,读取目标谱图中所有质荷比强度值,保留强度值最大的特征数量个质荷比,即离子浓度最高的特征数量个质荷比,作为目标谱图的特征质荷比。
53.s22、基于目标谱图的所有特征质荷比,得到目标谱图的谱图特征。
54.其中,谱图特征为由特征数量个特征质荷比组成的、一维的特征数组。
55.s3、将目标谱图的谱图特征输入预设的解谱模型,得到目标谱图的解析类别。
56.其中,解谱模型是基于蛋白质谱图的谱图特征和蛋白质谱图所对应的肽段序列进行训练后得到的数学模型。解析类别用于反映目标谱图对应的肽段序列。解谱模型通过对由多个质荷比组成的谱图特征进行分析,得到解析类别。
57.本实施例中,解谱模型为以googlenet的网络结构为基础,根据蛋白质谱图的特性而修改过的数学模型。googlenet是一种深度学习结构,与alexnet、vgg等其他深度学习结构相比,并不需要通过增大网络的深度(层数)来获得更好的训练效果,减少了如overfit、梯度消失、梯度爆炸等负面影响,并且能更高效地利用计算资源,在相同的计算量下能提取到更多的特征,从而提升训练结果。
58.参照图3和图4,具体的,解谱模型的结构包括有卷积层、平均值下采样层、inception层和全连接层。
59.卷积层用于从输入的内容或者从上一层神经网络的输出中提取特征。在本实施例中,输入解谱模型的谱图特征,实际上为由多个质荷比组成、以矩阵的形式排列的特征数组,卷积层处理的数据也为一维数组。
60.平均值下采样层的计算过程为,从输入的数组的第一个值开始,连续三个数取平均值,并且每次步进为2,因此计算后输出的数组的长度比原来的数组长度减少一半,达到压缩特征的效果。
61.inception层通过4个不同的计算,提取特征,然后融合,4个不同的计算是指过程中涉及的卷积核尺寸不同,即能够把多个不同尺寸的卷积结果串接起来,最终得出的结果再组合成一个数组。
62.全连接层的作用是让数据不断地学习,然后计算误差,把误差反馈重新修改参数继续学习,达到收敛的目的。在本实施例中,全连接层的结构为1*2048个神经元节点组成的
隐藏层,全连接成的dropout值设为0.8,意味着每次训练过程中,只激活隐藏层中80%的神经元。
63.解谱模型的训练数据包括有蛋白质谱图的谱图特征和蛋白质谱图对应的肽段序列。在实际应用中,将谱图特征的特征数组输入解谱模型之后,卷积层会基于预设的卷积核结构和步进值,对特征数组进行多次的卷积运算,而平均值下采样层则会缩小特征数组的长度,最后解谱模型的输出结果是一个特征矩阵,以及此特征矩阵属于各个肽段序列的概率。特征矩阵可以理解为被压缩后的谱图特征,能表达一张目标谱图的特征,比较特征矩阵相对于各个肽段序列的概率,针对概率最高的肽段序列,即可判断此特征矩阵最有可能属于的肽段序列,从而分析出谱图特征属于的肽段序列。
64.具体的,本实施例中的特征压缩的长度为7,即谱图特征经过多层平均值下采样层之后长度压缩为7,以达到解析准确率高的效果。
65.上述有益效果的具体分析如下:对于googlenet构建的数学模型,其输出的特征矩阵的长度通常为3、5、7或9。若特征压缩后的特征矩阵的长度设定为3,则会特征矩阵难以表示一张谱图特征,存在严重的特征损失,导致模型分析的准确性较差。若特征压缩后的特征矩阵的长度为5,则会存在严重的特征损失,特征矩阵无法表示一张谱图特征,导致模型的准确性较差。
66.若特征压缩后的特征矩阵的长度设定为5,则相较于长度设定为3的情况,只是减少了部分的特征损失,在同一个数据集内部做验证可以得到较好的验证效果,但是在不同的数据集之间做验证时效果较差,同样存在模型分析的准确性较差的问题。其中,一个数据集指的是同一批提取的蛋白质组质谱数据,如同一批97h细胞提取的蛋白质经过质谱仪后产生的谱图数据,就是一个数据集,这个数据集通常按照8:2比例拆分,其中80%的部分数据用来训练,20%的部分数据用来预测验证。
67.特征压缩后的特征矩阵的长度越小,则蛋白质谱图的利用率越高,若特征矩阵的长度设定为9,则会导致蛋白质谱图的利用率较低,在实际应用中效果不佳。将特征压缩后的特征矩阵的长度设定为7,可以在能够表示蛋白质谱图的同时,兼顾的蛋白质谱图的利用率,权衡两者达到更好的模型效果。
68.进一步的,本实施例中的谱图特征的长度设定为112,即谱图特征包含有112个质荷比,并且平均值下采样层的层数设定为4。在解谱模型的计算过程中,原本长度为112的谱图特征,会经过4层平均值下采样层的特征压缩,即谱图特征的特征数组会经过四次二分一的缩小,最终得到长度为7的特征矩阵。
69.对于属于不同蛋白质肽段的蛋白质谱图,蛋白质谱图所具有的质荷比的数据量也会有所不同,所有质荷比经过筛选或数据清洗之后,实际有效的质荷比的数据量会更少。若谱图特征的长度过大,如将谱图特征的长度设定为224、平均值下采样层的层数设定为5,则会导致需要参与计算的质荷比数据量过多,很多蛋白质谱图难以通过解谱模型得到较好的预测效果,模型适用范围较窄。
70.在本实施例中,谱图特征的长度设定为112,即解谱模型的输入内容的矩阵长度为112,解耦模型设计有4层平均值下采样层,以达到解谱分析准确率更高、适用范围更广、分析速度更快的特点。
71.可以理解的是,在其他实施例中,若在实际应用场景中,只使用解谱模型针对单项
的数据集做分析,不考虑不同数据集带来的验证效果差的影响,则降低特征矩阵的长度,如使用长度为5的特征矩阵,采用4层平均值下采样层,则谱图特征中需要包含80个质荷比。同理,若在实际应用场景中,只是针对质荷比数据量较少/较多的肽段序列进行分析,也可以采用更少层/更多层的平均值下采样层,如在需要针对质荷比数据量较多的肽段序列的情况下,采用5层平均值下采样层,特征矩阵的长度设定为7,则谱图特征中需要包含224个质荷比。
72.本技术提供的一种质谱谱图解析方法的实施原理为:基于目标谱图的质荷比得到谱图特征,并将谱图特征输入解谱模型中,通过解谱模型得到解析分类。本质谱谱图解析方法准确率高、解谱耗时短,可以以交底的计算成本做到实时解谱,即蛋白质谱图一产生出来就能够进行解析并快速得到解析结果,大幅削短解析时间,不仅减少对科研项目的成果产出效率的限制,并且有利于快速临床检验,有益于蛋白质组质谱技术在临床上应用。
73.本技术实施例提供一种解谱模型的训练方法,训练方法的主要流程描述如下。
74.参照图5,e1、获取模型训练数据集。
75.其中,模型训练数据集包含多张训练谱图、对应于各张训练谱图的质谱数据以及对应标注于各张训练谱图的肽段标签。
76.训练谱图指的是蛋白质谱图,对应于目标谱图,训练谱图也代表了蛋白质中的其中一个肽段。质谱数据用于反映训练谱图所对应的肽段的基本属性,质谱数据包括有训练谱图的母离子化合价、训练谱图的质荷比和质荷比于训练谱图的强度值。肽段标签用于反映训练谱图所对应的肽段的肽段序列。
77.参照图5和图6,具体的,步骤e1包括:e11、获取质谱原始数据集和解谱数据集。
78.其中,质谱原始数据集包含原始谱图,解谱数据集包含对应于原始谱图的解谱结果,在实施例中,解谱数据集通过专用的计算机软件对原始谱图进行解析得到。
79.在本实施例中,质谱原始数据集中的所有原始图像会对应生成一个字典类型,此字典类型包含有的值有质荷比、肽段序列、解谱结果评分和翻译后修饰。
80.e12、对质谱原始数据集中的原始谱图进行筛选,得到过滤谱图。
81.其中,为了提高模型训练的效果,需要对质谱原始数据集中的数据进行筛选和清理,过滤谱图指的是筛选出来的、有效信息较少的原始谱图,需要清理过滤掉。
82.e13、移除质谱原始数据集中的过滤谱图,得到质谱训练数据集。
83.e14、获取质谱训练数据集中所有训练谱图的谱图特征。
84.其中,将所有过滤谱图从质谱训练数据集中移除之后,质谱训练数据集中剩余的所有原始谱图均会作为训练谱图参与后续的模型训练。
85.e15、基于解谱数据集,对质谱训练数据集中的所有原始谱图进行标注,得到质谱训练数据集的肽段标签。
86.参照图5和图7,在本实施例中,基于目前已知的多个肽段序列,每一个序列定义为一个分类,如使用0、1、2等分类编号来表示,每一个肽段标签对应于一个肽段分类。
87.可以理解的是,训练谱图相当于是质谱谱图分析前的蛋白质谱图,质谱数据是质谱数据已知的基本属性,而肽段标签则是训练谱图经过质谱谱图分析后得出的真实的分析结果。在本实施例中,生成肽段标签的具体方法为:通过专用的计算机软件如pfind对训练
谱图进行质谱谱图分析,然后根据解谱结果,确定训练谱图所对应的肽段序列,并根据肽段序列对应的肽段分类,生成训练谱图的肽段标签。
88.e2、将训练谱图的谱图特征输入解谱模型,得到训练谱图的训练类别。
89.其中,将谱图特征的特征数组输入解谱模型之后,卷积层会基于预设的卷积核结构和步进值,对特征数组进行多次的卷积运算,而4层平均值下采样层则会缩小特征数组的长度,解谱模型的最后输出长度为7的特征矩阵,以及此特征矩阵属于各个肽段分类的概率。其中概率最高的肽段分类为训练谱图的训练类别。
90.e3、基于训练谱图的肽段标签和训练谱图的训练类别,训练解谱模型。
91.其中,根据训练谱图的肽段标签和训练谱图的解析结果,对解谱模型的模型参数进行调整,直至训练谱图的肽段标签和训练谱图的解析结果在允许的差距范围内为止,得到训练完成的解谱模型。
92.参照图8,为了提高模型训练效果,在本实施例中的步骤e12中,需要进行深层次的数据筛选和清洗。在本实施例中,步骤e12包括:e121、基于原始谱图的解谱结果,筛选解谱结果为反库的原始谱图,得到过滤谱图。
93.具体的,从解谱数据集中提取所有原始谱图的解谱结果,将解谱结果为反库的原始谱图作为过滤谱图。
94.e122、基于原始谱图的解谱结果,筛选解谱结果为空的原始谱图,得到过滤谱图。
95.具体的,从解谱数据集中提取所有原始谱图的解谱结果,将解谱结果为空的原始谱图作为过滤谱图。
96.e123、基于原始谱图的解谱结果,筛选解谱结果的评分小于评分阈值的原始谱图,得到过滤谱图。
97.具体的,从解谱数据集中提取所有原始谱图的解谱结果的评分,将评分小于评分阈值的原始谱图作为过滤谱图。解谱结果的评分又称为raw_score,评分越高,则解谱结果的可信度越高;反之,则解谱结果的可信度越高。
98.其中,评分阈值为系统预设值,若评分阈值过高,则会导致在筛选之后可利用的训练谱图数量过少,若评分阈值过高,则会导致有较多不可信的解谱结果也参与进行模型训练中,为了在提高训练数据利用率的同时兼顾训练数据的有效性,评分阈值在本实施例中优选为10。
99.综合上述步骤e121
‑ꢀ
e123,解谱结果为反库、解谱结果为空或解谱结果评分小于评分阈值的原始谱图,均为可信度过低的原始谱图,步骤e121-步骤e123的目的是将这部分原始谱图作为过滤谱图后续进行排除,以对模型的训练进行优化。
100.e124、基于原始谱图的质荷比的数量,筛选质荷比的数量小于特征阈值的原始图像,得到过滤谱图。
101.具体的,获取所有原始谱图中的质荷比的数量,将质荷比数量小于特征阈值的原始图像作为过滤谱图。特征阈值大于等于谱图特征中的质荷比数量。若原始谱图的质荷比数量小于特征阈值,则此原始谱图并不能提取出或者筛选出足够数量的质荷比作为谱图特征参与后续的计算,因此需要将这部分原始谱图作为过滤谱图后续进行排除。
102.在本实施例中,特征阈值优选为120。
103.e125、基于原始谱图的母离子化合价,对质谱原始数据集中的原始谱图进行分组,得到化合价分类组别,然后,筛选谱图数量小于化合价图数阈值的化合价分类组别,得到过滤谱图。
104.具体的,按照原始谱图的母离子化合价,将所有原始谱图分成多个化合价分类组别,然后统计所有化合价分类组别中的原始谱图的数量,若化合价分类组别中的原始谱图的数量小于化合价图数阈值,则说明此化合价分类组别中的数据量过少。在本实施例中,化合价图数阈值优选为1000。
105.在深度学习模型训练的过程中,理论上属于同一母离子化合价的分类的数据量越多越好,因为不同的母离子化合价所对应的蛋白质谱图需要分开进行讨论,所以要保证每一个母离子化合价所对应的蛋白质谱图的数量足够,否则会导致训练过程中模型难以收敛,因此需要将数据量过少的化合价分类组别去除,即将这部分化合价分类组别包含的所有原始图像作为过滤谱图。
106.在一个实施例中,步骤e125还包括:计算不同的化合价分类组别之间的原始谱图的数量差,将此数量差与差值阈值进行比较,当此数量差大于差值阈值时,则将原始谱图数量较少的化合价分类组别中的所有原始谱图作为过滤谱图。其中,差值阈值为原始谱图数量较少的化合价分类组别的原始谱图数量。
107.可以理解的是,当数据集中存在多个化合价分类组别,虽然每个化合价分类组别的原始谱图的数量均大于1000,但是不同化合价分类组别的原始谱图的数量之间的差异过大时,则还需要将原始谱图数量明显过小的化合价分类组别去除掉。例如,数据集包含母离子化合价为+2、+3、+4、+5、+6,其中,+2、+3的原始谱图数量平均超过10万,而+2、+3、+4、+5、+6的原始谱图数量均约为2万,则将+2、+3、+4、+5、+6的化合价分类组别的原始谱图作为过滤谱图。若存在一个数据集,其内部包含母离子化合价+4、+5、+6的原始谱图的数量均较多,则可以作为案例讨论,参与解谱模型的训练中。
108.e126、基于解谱结果中的肽段序列,对质谱原始数据集中的原始谱图进行分组,得到肽段分类组别,然后,筛选谱图数量小于肽段图数阈值的肽段分类组别,得到过滤谱图。
109.具体的,按照原始谱图的肽段分类,将所有原始谱图分成多个肽段分类组别,然后统计所有肽段分类组别中的原始谱图的数量,若肽段分类组别中的原始谱图的数量小于肽段图数阈值,则说明此肽段分类组别中的数据量过少。在本实施例中,肽段图数阈值为120。
110.在深度学习模型训练的过程中,理论上属于同一肽段分类的数据量越多越好,因为不同的肽段分类所对应的蛋白质谱图需要分开进行讨论,所以要保证每一个肽段分类所对应的蛋白质谱图的数量足够,否则会导致训练过程中模型难以收敛,因此需要将数据量过少的肽段分类去除,即将中这部分肽段分类包含的所有原始图像作为过滤谱图。
111.利用步骤e125-步骤e126,可以保证在肽段序列的分类和母离子化合价的分类上,同时保持较高的数据量,使得解谱模型在训练过程中可以快速收敛,模型效果更好。
112.以下以一组97h细胞全蛋白质组质谱数据来进行解谱模型的训练过程的示例。
113.97h细胞全蛋白质组质谱数据总共有2108428张原始谱图,根据所有原始谱图的解谱结果,统计得到解谱结果为反库的原始谱图数量为570722张、解谱结果为空的原始谱图数量为82335张、解谱结果的评分小于10的原始谱图数量为1151436张,将这部分原始谱图
作为过滤谱图过滤掉之后,剩余303935张原始谱图。
114.剩余303935张原始谱图的母离子化合价包括有+2、+3、+4、+5、+6。将剩余303935张原始谱图对应地分成5个化合价分类组别。其中,化合价分类组别为+2、+3的原始谱图数量平均超过10万,而化合价分类组别为+4、+5、+6的原始谱图数量相加的总数低于10万,平均只有3万-4万左右,则将+4、+5、+6的化合价分类组别的原始谱图作为过滤谱图过滤掉。
115.基于剩余的各张原始谱图属于的肽段分类,将所有原始谱图进行分组,得到多个肽段分类组别,再将谱图数量小于120的肽段分类组别的筛选出来,将这部分肽段分类组别中的原始谱图作为过滤谱图过滤掉。
116.经过上述过滤操作,最终得到的原始谱图为训练谱图,包括:6356张母离子化合价为+2的训练谱图,其中包括有44个肽段分类;7856张母离子化合价为+3的训练谱图,其中包括有55个肽段分类。
117.根据训练谱图中强度值最高的前112个质荷比,得到训练谱图的谱图特征;根据训练谱图所属于的肽段分类,得到训练谱图的肽段标签。
118.例如,其中一张训练谱图,此训练谱图的母离子化合价为+2,此训练谱图的谱图特征为包括112个质荷比的特征数组,具体为:[169.13239,198.08661,199.07051, 216.09682,217.1366,

1746.78259];此训练谱图属于的肽段序列为pvssaasvyagaggsgsr,肽段分类为17,肽段标签为17。
[0119]
将训练谱图的谱图特征输入解谱模型,得到训练谱图的训练类别,然后基于训练谱图的肽段标签和训练谱图的训练类别,可以训练解谱模型。
[0120]
本技术还提供一种质谱谱图解析装置,与上述质谱谱图解析方法相对应。
[0121]
参照图9,质谱谱图解析装置包括:谱图获取模块1,用于获取目标谱图,其中,目标谱图对应于蛋白质的肽段;特征提取模块2,用于基于目标谱图的质荷比,确定目标谱图的谱图特征;模型解析模块3,用于将目标谱图的谱图特征输入预设的解谱模型,得到目标谱图的解析类别,其中,解析类别用于反映目标谱图对应的肽段序列。
[0122]
特征提取模块2包括:谱图筛选子模块,用于基于质荷比的强度值,对目标谱图的所有质荷比进行筛选,得到特征数量个特征质荷比。
[0123]
特征组合子模块,用于基于目标谱图的所有特征质荷比,得到目标谱图的谱图特征。
[0124]
本实施例提供的质谱谱图解析装置,由于其各模块本身的功能及彼此之间的逻辑连接,能实现前述实施例的各个步骤,因此能够达到与前述方法相同的技术效果,原理分析可参见前述质谱谱图解析方法步骤的相关描述,在此不再累述。
[0125]
本技术还提供一种智能终端。
[0126]
一种智能终端,其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中存储器存储训练模型中的训练数据、算法公式以及滤波机制等。处理器用于提供计算和控制能力,处理器执行计算机程序时实现质谱谱图解析方法。
[0127]
本实施例提供的智能终端,由于其存储器中的计算机程序在处理器上运行后,会实现前述方法的各个步骤,因此能够达到与前述方法相同的技术效果,原理分析可参见前
述方法步骤的相关描述,在此不再累述。
[0128]
本技术还提供一种计算机可读存储介质。
[0129]
一种计算机可读存储介质,包括存储器和处理器,存储器上存储有能够被处理器加载并执行如上述的质谱谱图解析方法的计算机程序,计算机程序被处理器执行时实现质谱谱图解析方法。
[0130]
本实施例提供的可读存储介质,由于其中的计算机程序在处理器上加载并运行后,会实现前述方法的各个步骤,因此能够达到与前述方法相同的技术效果,原理分析可参见前述方法步骤的相关描述,在此不再累述。
[0131]
所述计算机可读存储介质例如包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0132]
以上仅是本技术的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1