针对质谱缺失蛋白质数据的分类方法

文档序号:10535231阅读:429来源:国知局
针对质谱缺失蛋白质数据的分类方法
【专利摘要】本发明提供的针对质谱缺失蛋白质数据的分类方法,其特征在于:包括对质谱缺失蛋白质数据进行预处理,所述预处理过程包括:对蛋白质确实数据的原始质谱进行滑动平均补值处理。将处理后的质谱数据转化为小波谱数据,并对小波谱数据中的有用信息进行噪声过滤,根据特征信息,将对所述小波谱数据中的有用信息区别度检验,对经过区别度检验的数据进行训练和分类;本发明中的针对质谱缺失蛋白质数据的分类方法,对质谱缺失蛋白质数据进行预处理,在通过SVM支持向量机的分类方法对经过预处理后的数据进行训练和分类,可以针对长度不一致以及特征不明显的恶劣数据,识别区分特征,最终实现准确分类。
【专利说明】
针对质谱缺失蛋白质数据的分类方法
技术领域
[0001]本发明涉及蛋白质组学分类领域及通信领域,尤其涉及一种针对质谱缺失蛋白质数据的分类方法。
【背景技术】
[0002]蛋白质质谱技术原理是:利用得到的生物样本,在电子源中进行电离产生离子束,最后进入质量分析仪利用磁场和电场产生速度色散得到质谱数据图。最后得到蛋白质质谱数据。现在比较重要的质谱分析技术有:辅助激光解析电离飞行时间质谱(MALDI — T0FFMS)和表面加强激光解析电离飞行时间质谱(SELDI — T0FFMS)。
[0003]随质谱分析技术的快速提高,对质谱数据的有效分析利用也得到广泛研究。如应用到医疗治疗中。在蛋白质质谱数据分类的问题中,由于蛋白质质谱数据本身具有很高的噪声与冗余性等特征,同时蛋白质质谱数据中也有很多与样本识别相关的特征。因此,这些导致分类器训练的复杂性和准确性。
[0004]目前大部分研究针对的是成熟的标准质谱数据集,这些数据集都包含了完整且相同的质荷比(m/z)数据,样本数据维度统一,可以直接通过某些特征选择方法提取到对应的生物标志物,从而对不同细胞样本质谱数据进行分类。然而由于实际质谱分析仪器分辨率的影响,以及实际实验生物样本处理失误,最后得到的数据会存在质谱缺失,因而并不是每一个样本对应同一质荷比处对应都有数据,而且每个样本包含的大分子数量也会不一样。由此一般的数据处理,数据挖掘技术无法应用。这将导致数据处理的困难,以及错误分类率的增加。因此,迫切需要一种针对质谱缺失蛋白质数据的高效准确的分类技术,以克服现有技术中的技术缺陷。

【发明内容】

[0005]有鉴于此,本发明提供的针对质谱缺失蛋白质数据的分类方法,以解决上述问题。
[0006]本发明提供的针对质谱缺失蛋白质数据的分类方法,包括
[0007]a.对质谱缺失蛋白质数据进行预处理,所述预处理过程包括:
[0008]al.对蛋白质确实数据的原始质谱进行滑动平均补值处理,
[0009]a2.将处理后的质谱数据转化为小波谱数据,并对小波谱数据中的有用信息进行噪声过滤,
[0010]a3.根据特征信息,将对所述小波谱数据中的有用信息区别度检验,
[0011]b.对经过区别度检验的数据进行训练和分类。
[0012]进一步,所述步骤a3具体包括:根据特征信息将区别度区域分为高区别度区域和低区别度区域,对小波谱数据中的有用信息进行筛选,将低区别度区域中的特征信息删除,将高区别度区域中的特征信息保留。
[0013]进一步,所述步骤al具体包括采用滑动窗口进行滑动取平均值处理,对质谱缺失区域的数据缺失部分,则采用插值的方式进行补值处理。
[0014]进一步,所述步骤a2还包括在谱转换过程中,对进行滑动平均补值处理后的含噪信号进行离散二进小波变换,获取小波变换系数对应的模极大值点,根据预先设置的阈值对所有模极大值点进行筛选,根据筛选后的模极大值点重构小波系数,保留小波分解最大尺度。
[0015]进一步,所述步骤b还包括采用支持向量机方法,对经过区别度检验后的数据进行分类训练,得到最优的分类器。
[0016]进一步,在对新的预测数据集进行预测时,对预测集进行预处理,并将预处理后的数据输入到训练好的分类器进行分类预测。
[0017]本发明的有益效果:本发明中的针对质谱缺失蛋白质数据的分类方法,对质谱缺失蛋白质数据进行预处理,在通过SVM支持向量机的分类方法对经过预处理后的数据进行训练和分类,可以针对长度不一致以及特征不明显的恶劣数据,识别区分特征,最终实现准确分类。
【附图说明】
[0018]下面结合附图和实施例对本发明作进一步描述:
[0019]图1是本发明的原理示意图。
[0020]图2是本发明的滑动平均补值原理图。
[0021]图3是本发明的区别度检验原理图。
【具体实施方式】
[0022]下面结合附图和实施例对本发明作进一步描述:图1是本发明的原理示意图。
[0023]如图1所示,本实施例中的针对质谱缺失蛋白质数据的分类方法,包括
[0024]a.对质谱缺失蛋白质数据进行预处理,所述预处理过程包括:
[0025]al.对蛋白质确实数据的原始质谱进行滑动平均补值处理,
[0026]a2.将处理后的质谱数据转化为小波谱数据,并对小波谱数据中的有用信息进行噪声过滤,
[0027]a3.根据特征信息,将对所述小波谱数据中的有用信息区别度检验,
[0028]b.对经过区别度检验的数据进行训练和分类。
[0029]如图2所示,在本实施例中,由于质谱缺失数据的质荷比数据量比较小,仅有几十到几百的量级,然而其值域却有上万量级。而且在该值域范围内,样本质荷比一致性较低。所以采用滑动取平均的方法实现数据降维与对齐,并且由于窗口长度的取值问题,对遇到的数据缺失的窗口采用数值插值技术利用周围已有数据进行补值处理,滑动平均补值过程是在原始质谱I的基础上,利用滑动窗口 3,对进行滑动取平均值处理,通过滑动窗口 3在原始质谱I中自左向右移动,移动过程中对质谱没有缺失的区域进行平均取值,获取数据的变化趋势,若遇到质谱缺失区域2的数据缺失部分,则采用插值的方式,利用周围已有的数据进行补值处理。
[0030]在本实施例中,采用小波分析的手段,将质谱数据转化为小波谱数据,将有用信息从噪声中提取出来,通过对滑动平均补值后的数据进行小波谱转换,可以排除噪声提取出有用信息,同时消除在滑动平均补值过程中引入的主观噪声。小波变换(wavelettranSf0rm,WT)继承和发展了短时傅立叶变换局部化的思想,同时又克服了窗口大小不随频率变化等缺点,能够提供一个随频率改变的“时间-频率”窗口,是进行信号时频分析和处理的理想工具。它的主要特点是通过变换能够充分突出问题某些方面的特征,能对时间(空间)频率的局部化分析,通过伸缩平移运算对信号(函数)逐步进行多尺度细化,最终达到高频处时间细分,低频处频率细分,能自动适应时频信号分析的要求,从而可聚焦到信号的任意细节,解决了Fourier变换的困难问题,本实施例在谱转换过程中,首先对含噪信号进行离散二进小波变换,并且获取小波变换系数对应的模极大值点。然后对所有模极大值点使用阈值筛选处理。接下来根据保留下来的极大值,重构小波系数。最后保留大尺度层面的小波系数信息,本实施例中的大尺度层面相当于傅里叶变换后的低频。
[0031]在本实施例中,对谱转换之后的小波系数信息,利用显著性检验进行区别度检验,显著性检验(significance test)就是事先对总体的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。或者说,显著性检验要判断样本与总体所做的假设之间的差异是纯属机会变异,还是由所做的假设与总体真实情况之间不一致所引起的。显著性检验是针对总体所做的假设做检验,其原理就是“小概率事件实际不可能性原理”来接受或否定假设,优选地,采用显著性检验中的T检验,进一步提取出具有类别区分性的特征信息,对于小波谱上的数据,进一步的筛选区别度大的特征信息,保留高区别度区域4中的特征信息,去掉低区别度区域5中的特征信息,从而大量减少数据的维度,即冗余或者干扰信息,减少分类处理的复杂度。本实施例中的T检验,用于样本含量较小(例如n〈30),总体标准差未知的正态分布资料。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。它与z检验、卡方检验并列。本领域技术人员可以知晓也可以采用可以实现本实施例功能的显著性检验中的其他检验方式来进行,在此不再赘述。
[0032]在本实施例中,采用SVM支持向量机这种统计学方法分类方法,对经过区别度检验后的数据进行分类训练,得到最优的分类器,在对新的预测数据集进行预测时,也对预测集施以同样三步预处理,并将预处理之后的数据输入到训练好的分类器进行分类预测。
[0033]最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
【主权项】
1.一种针对质谱缺失蛋白质数据的分类方法,其特征在于:包括 a.对质谱缺失蛋白质数据进行预处理,所述预处理过程包括: al.对蛋白质确实数据的原始质谱进行滑动平均补值处理, a2.将处理后的质谱数据转化为小波谱数据,并对小波谱数据中的有用信息进行噪声过滤, a3.根据特征信息,将对所述小波谱数据中的有用信息区别度检验, b.对经过区别度检验的数据进行训练和分类。2.根据权利要求1所述的针对质谱缺失蛋白质数据的分类方法,其特征在于:所述步骤a3具体包括:根据特征信息将区别度区域分为高区别度区域和低区别度区域,对小波谱数据中的有用信息进行筛选,将低区别度区域中的特征信息删除,将高区别度区域中的特征信息保留。3.根据权利要求1所述的针对质谱缺失蛋白质数据的分类方法,其特征在于:所述步骤al具体包括采用滑动窗口进行滑动取平均值处理,对质谱缺失区域的数据缺失部分,则采用插值的方式进行补值处理。4.根据权利要求1所述的针对质谱缺失蛋白质数据的分类方法,其特征在于:所述步骤a2还包括在谱转换过程中,对进行滑动平均补值处理后的含噪信号进行离散二进小波变换,获取小波变换系数对应的模极大值点,根据预先设置的阈值对所有模极大值点进行筛选,根据筛选后的模极大值点重构小波系数,保留小波分解最大尺度。5.根据权利要求1所述的针对质谱缺失蛋白质数据的分类方法,其特征在于:所述步骤b还包括采用支持向量机方法,对经过区别度检验后的数据进行分类训练,得到最优的分类器。6.根据权利要求5所述的针对质谱缺失蛋白质数据的分类方法,其特征在于:在对新的预测数据集进行预测时,对预测集进行预处理,并将预处理后的数据输入到训练好的分类器进行分类预测。
【文档编号】G06F19/24GK105893790SQ201610465657
【公开日】2016年8月24日
【申请日】2016年6月23日
【发明人】范子川, 白娟, 代亚兰, 张自力
【申请人】西南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1