本发明属于计算机数据处理领域,具体涉及一种面向质谱数据的去噪压缩算法。
背景技术:
1、质谱技术经过几十年的发展,在环境工程、食品分析,制药工程等领域广泛应用。随着质谱仪的精度越来越高,质谱仪产生的数据急剧增大。特别是质谱成像(msi)中,一次msi实验中提取数千个离子图像,能够产生数百gb的数据,如何对这些数据进行高效压缩具有重要的实用价值。
2、现有针对质谱数据的压缩算法分为有损压缩算法和无损压缩算法。其中无损压缩算法通过取数据的差值等方法降低单个数据的长度,从而达到压缩的效果,其压缩效果比较有限。有损压缩算法常采用dct等传统方法去除质谱采集数据中的高频分量,从而达到压缩效果,但高频分量的去处往往会影响正常质谱数据中峰值数据的精度,而且有损压缩的压缩比也较小,难以对质谱数据进行有效压缩。
技术实现思路
1、通过实验发现,由于质谱仪本身精度、样本以及实验方法等因素导致质谱数据中存在大量的噪声数据,这些噪声数据没有实质使用价值且难以压缩。基于以上发现,本发明目的在于针对上述现有质谱数据有损压缩技术中压缩比低且压缩影响有效数据精度的问题,提供一种基于去噪的有损压缩技术及系统,通过消除质谱数据中的噪声,在提高质谱数据的压缩比、降低数据存储空间。
2、为了实现上述目的,本发明有如下的技术方案:
3、一种基于去噪的高压缩比质谱数据存储方法,包括以下步骤:
4、步骤一、对质谱数据在m/z轴方向按照一定均值和方差阈值划分为噪声段和有效数据段;
5、步骤二、将噪声段数据替换为某个恒定的值,保留有效数据段数据不变。
6、步骤三、对经过上述处理的质谱数据进行gzip、zstd等传统压缩。
7、作为本发明基于去噪的高压缩比质谱数据存储方法的一种优选方案,步骤一将质谱数据按照m/z从大到小的顺序进行排列,构成序列s。
8、作为本发明基于去噪的高压缩比质谱数据存储方法的一种优选方案,在序列s中按照确定的均值阈值μ和方差阈值σ2划分为噪声段和有效数据段。
9、作为本发明基于去噪的高压缩比质谱数据存储方法的一种优选方案,噪声段m={si,si+1,…sj}的划分标准为是μ-σ2≤s≤μ+σ2。
10、作为本发明基于去噪的高压缩比质谱数据存储方法的一种优选方案,序列s中,除噪声段外,其他所有数据均属于有效数据段。
11、作为本发明基于去噪的高压缩比质谱数据存储方法的一种优选方案,步骤二设置所有噪声段内的数据设置为0或者某恒定值;保持有效数据段内的数据不变。
12、作为本发明基于去噪的高压缩比质谱数据存储方法的一种优选方案,步骤三采用gzip、zstd等传统算法对经过上述处理的质谱数据进行压缩。
13、本发明还提供一种基于去噪的高压缩比质谱数据存储系统,包括:
14、质谱数据预处理模块,用于划分质谱数据为噪声段和有效数据段,对噪声段进行设定常数处理;
15、压缩与存储模块,用于对经过上述处理的数据进行传统压缩,并保存。
16、相较于现有技术,本发明具有如下的有益效果:通过划分噪声段与有效数据段,并对噪声对进行设置常数处理,使得噪声段的数据从随机噪声变为常数,由于常数的压缩比远远高于随机数的压缩比,该方法可以有效提高质谱数据的压缩比。通过划分噪声段与有效数据段,保持有效数据段的数据不变,可以降低压缩对有效数据精度的影响。与现有有损压缩方法比较,本发明所提供方法可以有效提高质谱数据的压缩比,同时不会对有效数据的精度造成影响。
1.一种基于去噪的高压缩比质谱数据存储方法,其特征在于为了提高数据压缩比,把质谱数据中噪声数据设置为常数,保留有效数据,包括以下步骤:
2.根据权利要求1所述基于去噪的高压缩比质谱数据存储方法,其特征在于:对质谱数据在m/z轴方向按照一定均值和方差阈值划分为噪声段和有效数据段。
3.根据权利要求2所述基于去噪的高压缩比质谱数据存储方法,其特征在于:将噪声段数据替换为某个恒定的值,保留有效数据段数据不变。
4.根据权利要求2所述基于去噪的高压缩比质谱数据存储方法,其特征在于:对经过上述处理的质谱数据进行gzip、zstd等传统压缩。
5.一种基于去噪的高压缩比质谱数据存储系统,其特征在于,包括: