本申请涉及大数据领域,尤其涉及一种基于大数据的数据压缩存储方法。
背景技术:
1、目前,在大数据系统中,将数据压缩后再存储在存储介质上,既可以节约存储介质成本又可以提升数据库的性能。然而,现有的数据压缩方法对数据的压缩率较低。因此,如何提高对数据压缩的压缩率,成为了亟待解决的技术问题。
技术实现思路
1、本申请实施例的主要目的在于提出了一种基于大数据的数据压缩存储方法,能够提高对数据压缩的压缩率。
2、为实现上述目的,本申请实施例的第一方面提出了一种基于大数据的数据压缩存储方法,所述方法
3、包括:
4、接收数据压缩信号,所述数据压缩信号包括待压缩的数据页,所述数据页包括至少一条待压缩数据和所述待压缩数据的压缩标识;
5、根据预训练的压缩模型对所述待压缩数据进行数据压缩,得到数据压缩集,所述数据压缩集包括多个字符类型子集,所述字符类型子集用于存储所述待压缩数据经过数据压缩后得到的字符信息;
6、根据所述压缩标识和所述字符类型子集构建目标熵编码器;
7、根据所述目标熵编码器对所述数据压缩集进行编码,得到压缩结果。
8、在一些实施例中,在所述根据预训练的压缩模型对所述待压缩数据进行数据压缩,得到数据压缩集之前,所述方法还包括:
9、构建压缩模型,具体包括:根据所述数据页构建训练数据集,所述训练数据集包括多条所述待压缩数据;根据预设的字符长度对所述待压缩数据进行字符划分,得到多个候选字符串;根据每个所述候选字符串对所述待压缩数据进行哈希映射,得到映射结果和所述映射结果的映射频率;对全部所述映射频率进行数值比较,确定参考字符串;根据所述参考字符串构建所述压缩模型。
10、在一些实施例中,所述根据所述压缩标识和所述字符类型子集构建目标熵编码器,包括:若识别到所述压缩标识不是结束标识,重复执行所述根据预训练的压缩模型对所述待压缩数据进行数据压缩,得到数据压缩集。在一些实施例中,
11、所述根据所述压缩标识和所述字符类型子集构建目标熵编码器,还包括:
12、若识别到所述压缩标识是结束标识,根据所述字符类型子集构建目标熵编码器。
13、在一些实施例中,
14、所述字符类型子集包括未压缩字符子集、匹配字符子集,所述若识别到所述压缩标识是所述结束标识,根据所述字符类型子集构建目标熵编码器,包括:若识别到所述压缩标识是所述结束标识,通过对所述未压缩字符子集中的字符信息进行频率统计,得到第一频率统计结果;根据所述第一频率统计结果构建第一熵编码器;通过对所述匹配字符子集中的字符信息进行频率统计,得到第二频率统计结果;根据所述第二频率统计结果构建第二熵编码器;
15、根据所述第一熵编码器和所述第二熵编码器得到所述目标熵编码器。
16、在一些实施例中,
17、所述根据所述目标熵编码器对所述数据压缩集进行编码,得到压缩结果,包括:根据所述第一熵编码器对所述未压缩字符子集进行编码,得到第一编码数据流;根据所述第二熵编码器对所述匹配字符子集进行编码,得到第二编码数据流;根据所述第一编码数据流和所述第二编码数据流得到压缩结果。
18、在一些实施例中,
19、所述根据所述第一编码数据流和所述第二编码数据流得到压缩结果,
20、包括:
21、获取所述目标熵编码器的编码器元数据和所述压缩模型的参考字符串;
22、根据所述第一编码数据流和所述第二编码数据流得到目标压缩数据流;
23、根据所述编码器元数据、所述参考字符串和所述目标压缩数据流得到压缩结果。
24、为实现上述目的,
25、本申请实施例的第二方面提出了一种基于大数据的数据压缩存储装置,所述装置
26、包括:
27、压缩信号接收模块,
28、用于接收数据压缩信号,所述数据压缩信号包括待压缩的数据页,所述待压缩的数据页包括至少一条待压缩数据和所述待压缩数据的压缩标识;
29、数据压缩模块,
30、用于根据预训练的压缩模型对所述待压缩数据进行数据压缩,得到数据压缩集,所述数据压缩集包括多个字符类型子集,所述字符类型子集用于存储所述待压缩数据经过数据压缩后得到的字符信息;
31、编码器构建模块,
32、用于根据所述压缩标识和所述字符类型子集构建目标熵编码器;
33、编码模块,
34、用于根据所述目标熵编码器对所述数据压缩集进行编码,
35、得到压缩结果。
36、为实现上述目的,本申请实施例的第三方面提出了一种计算机设备,
37、包括:
38、至少一个存储器;
39、至少一个处理器;
40、至少一个计算机程序;
41、所述至少一个计算机程序被存储在所述至少一个存储器中,
42、所述至少一个处理器执行所述至少一个计算机程序以实现上述第一方面所述的数据压缩方法。
43、为实现上述目的,
44、本申请实施例的第四方面提出了一种计算机可读存储介质,
45、所述计算机可读存储介质存储有计算机程序,
46、所述计算机程序用于使计算机执行上述第一方面所述的数据压缩方法。
47、本申请实施例提出的一种基于大数据的数据压缩存储方法、
48、数据压缩装置、计算机设备及存储介质,
49、通过接收包括待压缩的数据页的数据压缩信号,
50、该待压缩的数据页包括至少一条待压缩数据和待压缩数据的压缩标识。
51、根据预训练的压缩模型对待压缩数据进行数据压缩,得到数据压缩集,该数据压缩集包括多个字符类型子集,每个字符类型子集用于存储待压缩数据经过数据压缩后得到的字符信息。根据压缩标识和字符类型子集构建目标熵编码器,并根据得到的目标熵编码器对数据压缩集进行编码,得到压缩结果。本申请实施例能够提高对数据压缩的压缩率。
1.一种基于大数据的数据压缩存储方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在所述根据预训练的压缩模型对所述待压缩数据进行数据压缩,得到数据压缩集之前,所述方法还包括:构建压缩模型,具体包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述压缩标识和所述字符类型子集构建目标熵编码器,还包括:
4.根据权利要求1所述的方法,其特征在于,所述字符类型子集包括未压缩字符子集、匹配字符子集,所述若识别到所述压缩标识是所述结束标识,根据所述字符类型子集构建目标熵编码器,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标熵编码器对所述数据压缩集进行编码,得到压缩结果,包括:
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一编码数据流和所述第二编码数据流得到压缩结果,包括:
7.一种基于大数据的数据压缩存储装置,其特征在于,所述装置包括:
8.一种计算机设备,其特征在于,包括:
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使计算机执行: