临床蛋白质质谱数据的分类方法与流程

文档序号:14129709阅读:1326来源:国知局

本发明涉及一种分类方法,尤其涉及一种临床蛋白质质谱数据的分类方法。



背景技术:

质谱学是一门研究气相离子结构、性质及反应行为的科学。质谱分析是将生物样本通过激光照射等方法转化为运动的气态离子碎片,并进入质量分析仪在磁场和电场的作用下离子碎片按质荷比(m/z)大小分离并记录得到质谱数据图的分析方法。

现在比较重要的质谱分析技术有:辅助激光解析电离飞行时间质谱(maldi—toffms)和表面加强激光解析电离飞行时间质谱(seldi—toffms)。质谱分析方法灵敏度高,试样通常只需要微克级,就可得到一张很好的谱图,因此质谱方法被广泛用于分子细胞结构分析。随质谱分析技术的快速提高,质谱数据已得到广泛的研究利用。如应用到医疗治疗中,完成疾病的早期诊断,细菌的识别等。

在蛋白质质谱数据分类的问题中,目前大部分研究针对的是成熟的标准质谱数据集,这些数据集都包含了完整且相同的质荷比(m/z)数据,样本数据维度统一,可以直接通过某些特征选择方法提取到对应的生物标志物,从而对不同细胞样本质谱数据进行分类。然而在临床数据获取上,即使在每一个获取ms数据的生物实验中,使用相同的材料,并执行相同的操作流程。不同的实验室环境和多样化的个人操作细节是不可避免的。kathryna.jackson曾研究表明培养基的变化,培养条件,培养时间对于产生的质谱数据都有显著影响。所以最后临床得到的数据会存在噪声数据,多个样本得到的质谱数据会存在分子量不对应,特征数杂乱无规律,还包含较多的噪声的问题。

因此,为了解决上述技术问题,需要提出一种新的质谱数据的分类方法。



技术实现要素:

有鉴于此,本发明的目的是提供一种临床蛋白质质谱数据的分类方法,能够对蛋白质质谱数据中的噪声进行有效剔除,而且确保剔除噪声的质谱数据的完整性,并且不损坏质谱数据的原有特征,而且算法过程准确,进而确保最终的分类准确性。

本发明提供的一种临床蛋白质质谱数据的分类方法,包括如下步骤:

s1.对含噪的临床蛋白质质谱数据进行预处理,剔除质谱数据中的噪声;

s2.从剔除噪声的质谱数据中提取出类别区分特征;

s3.采用决策树对类别区分特征进行训练,然后将待测的蛋白质质谱数据输入到决策树中进行训练分类。

进一步,步骤s1中,根据如下方法剔除质谱数据中的噪声:

s101.线性扫描蛋白质质谱数据中的峰值信号,并判断每个峰值信号的峰值是否为左右相邻峰值信号的峰值为最大值,如是,则该峰值信号确定为有效的局部峰值信号;

s102.对局部有效峰值信号进行两步分窗算法取窗内有效峰值信号的平均值形成剔除噪声的质谱数据。

进一步,步骤s102中,根据如下方法进行两步分窗算法处理:

将质谱数据中的mass坐标按照系统的最大误差进行分窗,然后取每个窗口的平均峰值作为该窗口的新的峰值,并以分窗时的各窗口的序列值作为新的mass值;

采用滑窗处理算法对新的峰值进行处理,剔除噪声。

进一步,在对mass坐标分窗时,第一步分窗的窗口宽度取系统最大误差,第二步分窗为新的mass坐标的宽度为2的窗口大小进行滑窗处理。

进一步,s201.将步骤s1中剔除噪声的质谱数据样本进行t检验:

其中,为第一类样本的均值,σi0为第一类样本的方差;为第二类样本的均值,σi1为第二类样本的方差,ti为样本中第i个质谱数据的t统计值;

s201.将t统计值进行排序,选出t统计值最大的10个特征作为先验信息,并采用遗传算法得到质谱数据的类别区分特征。

进一步,步骤s3中,决策树分类过程中,集合多棵决策树组成随机森林对前面步骤提取的区别性特征数据,进行训练以及分类。

本发明的有益效果:通过本发明,能够对蛋白质质谱数据中的噪声进行有效剔除,而且确保剔除噪声的质谱数据的完整性,并且不损坏质谱数据的原有特征,而且算法过程准确,进而确保最终的分类准确性。

附图说明

下面结合附图和实施例对本发明作进一步描述:

图1为本发明的流程图。

图2为本发明的有效的局部峰值示意图。

图3为本发明的t统计量用于提取区别特征原理图。

图4为本发明的遗传算法提取特征的迭代图。

具体实施方式

以下结合说明书附图对本发明做出进一步详细说明:

本发明提供的一种临床蛋白质质谱数据的分类方法,包括如下步骤:

s1.对含噪的临床蛋白质质谱数据进行预处理,剔除质谱数据中的噪声;

s2.从剔除噪声的质谱数据中提取出类别区分特征;

s3.采用决策树对类别区分特征进行训练,然后将待测的蛋白质质谱数据输入到决策树种进行训练分类,其中,决策树分类过程中,集合多棵决策树组成随机森林对前面步骤提取的区别性特征数据,进行训练以及分类;通过本发明,能够对蛋白质质谱数据中的噪声进行有效剔除,而且确保剔除噪声的质谱数据的完整性,并且不损坏质谱数据的原有特征,而且算法过程准确,进而确保最终的分类准确性;其中,决策树算法为现有算法,在此不加以赘述。

本实施例中,在质谱仪中所获得的质谱数据可以描述为水平轴上为质量电荷比(massm/z),垂直轴上为离子强度(intensity特征值)的直方图,对于非零强度的条带表示为峰值,相应的m/z比值称为峰值位置,非零强度称为峰高;在医疗或研究机构临床获取质谱数据过程中,由于实验环境、器材、流程、操作的微小差别都会导致获得含噪声的数据;又由于实际实验环境和操作细节等因素的影响,导致所得质谱数据存在数据缺失和随机误差;因此,步骤s1中,根据如下方法剔除质谱数据中的噪声:

s101.线性扫描蛋白质质谱数据中的峰值信号,并判断每个峰值信号的峰值是否为左右相邻峰值信号的峰值最大值,如是,则该峰值信号确定为有效的局部峰值信号,又称为局部极值蛋白峰,如图2所示,图2中虚线区域内的圆圈标注的即为即为局部极值蛋白峰;

s102.对局部有效峰值信号进行两步分窗算法求取所有具有有效峰值信号的平均值形成剔除噪声的质谱数据;具体地:

根据如下方法进行两步分窗算法处理:

将质谱数据中的mass坐标按照系统的最大误差进行分窗,然后取每个窗口的平均峰值作为该窗口的新的峰值,并以分窗时的各窗口的序列值作为新的mass值;

采用滑窗处理算法对新的峰值进行处理,剔除噪声,通过上述的方法,能够有效地剔除数据中存在的各种噪声,而且,在噪声剔除过程中不会对质谱数据的原有特征造成任何影响,确保后续处理中能够准确提取出分类区别特征,从而确保最终结果的准确性。

本实施例中,在对mass坐标分窗时,在对mass坐标滑分窗时,第一步分窗的窗口的宽度取系统的最大误差,但测量峰值是可能落在标准峰左右最大系统误差范围内,即2倍最大误差范围内,所以第二步进行对应新mass坐标的宽度为2滑窗处理;通过以上两步分窗的方法,能够有效地剔除噪声,又能够避免质谱数据的过度损失造成分类解结果的不准确性,其中,滑窗处理算法为现有技术,在此不加以赘述。

本实施例中,步骤s2中,根据如下方法提取出类别区分特征:

s201.将步骤s1中剔除噪声的质谱数据样本进行t检验:

第一类样本:

第二类样本:

其中,为第一类样本的第i个特征的均值,σi0为第一类样本的第i个特征的方差;为第二类样本的第i特征均值,σi1为第二类样本的第i特征的方差,ti为第i个质谱特征数据的t检验统计值;

s201.将t统计值进行排序,选出t统计值最大的10个特征作为先验信息,并采用遗传算法得到质谱数据的类别区分特征;其中,遗传算法基本框架为现有算法,其具体过程不加以赘述,在遗传算法中,将先验信息编码为基因1,而将其他信息随机标记为0或者1,标记为基因1的特征为有效类别区分特征,通过上述方法,能够准确提取出分类区别特征,确保最终结果的准确性;图3中的虚线框1表示为两类样本特征值存在显著的差异,即高区别度区域;图3中的虚线框2为两类样本特征值无显著差异,即低区别度区域。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1