一种数据压缩方法、装置、电子设备及存储介质与流程

文档序号:29122920发布日期:2022-03-04 22:54阅读:125来源:国知局
一种数据压缩方法、装置、电子设备及存储介质与流程

1.本技术涉及数据库技术领域,尤其涉及一种数据压缩方法、装置、电子设备及存储介质。


背景技术:

2.大数据时代,数据库需要存储大量数据,在此背景下,数据库压缩技术应运而生,通常将数据库中的数据以列为单位进行存储并压缩。
3.具体地,以列为单位进行存储并压缩为:将数据库中按列存储的数据,逐列分别进行压缩,然而,压缩后的数据可能依旧占有比较大的存储空间,压缩率较高,导致压缩效果差,压缩效率低。


技术实现要素:

4.本技术实施例提供了一种数据压缩方法、装置、电子设备及存储介质,以解决或部分解决现有技术中对于按列存储的数据源压缩后仍然占有比较大的存储空间,压缩率较高,导致压缩效果差,压缩效率低的问题。
5.本技术实施例的第一方面,提供一种数据压缩方法,该方法包括:获取列存缓存区中的多列待压缩数据源;基于智能化压缩模型,将多列待压缩数据源分为至少一组数据源,并对每组数据源分别进行压缩,得到至少一个压缩数据;其中,每个压缩数据是对一组数据源压缩得到的,智能化压缩模型是根据历史样本数据训练得到。
6.可选地,将多列待压缩数据源分为至少一组数据源,包括:根据多列待压缩数据源的属性信息,确定多列待压缩数据源对应的目标分组规则;根据目标分组规则,将多列待压缩数据源分为所述至少一组数据源;属性信息包括:每列待压缩数据源的类型。
7.可选地,属性信息还包括以下任一项:多列待压缩数据源的生成时间信息;每列待压缩数据源的数据大小。
8.可选地,目标分组规则包括以下任一项:分为一组的至少一列数据源属于同一数据类型大类;分为一组的至少一列数据源属于不同数据类型大类,但数据内容相似程度大于或等于相似阈值。
9.可选地,目标分组规则还包括:分为一组的至少一列数据源的数据规模小于或等于规模阈值。
10.可选地,对每组数据源分别进行压缩,得到至少一个压缩数据,包括:针对每组数据源执行s1,得到至少一个压缩数据;其中,s1包括:根据一组数据源,确定对应的压缩算法;根据对应的压缩算法,对一组数据源进行压缩,得到一个压缩数据。
11.本技术实施例的第二方面,提供一种数据压缩装置,该装置包括:获取模块,用于获取列存缓存区中的多列待压缩数据源;压缩模块,用于基于智能化压缩模型,将多列待压缩数据源分为至少一组数据源,并对每组数据源分别进行压缩,得到至少一个压缩数据;其中,每个压缩数据是对一组数据源压缩得到的,所述智能化压缩模型是根据历史样本数据
训练得到。
12.可选地,该压缩模块,具体用于根据多列待压缩数据源的属性信息,确定多列待压缩数据源对应的目标分组规则;根据目标分组规则,将多列待压缩数据源分为所述至少一组数据源;属性信息包括:每列待压缩数据源的类型。
13.可选地,属性信息还包括以下任一项:多列待压缩数据源的生成时间信息;每列待压缩数据源的数据大小。
14.可选地,目标分组规则包括以下任一项:分为一组的至少一列数据源属于同一数据类型大类;分为一组的至少一列数据源属于不同数据类型大类,但数据内容相似程度大于或等于相似阈值。
15.可选地,目标分组规则还包括:分为一组的至少一列数据源的数据规模小于或等于规模阈值。
16.可选地,该压缩模块具体用于针对每组数据源执行s1,得到至少一个压缩数据;其中,s1包括:根据一组数据源,确定对应的压缩算法;根据对应的压缩算法,对一组数据源进行压缩,得到一个压缩数据。
17.本技术实施例的第三方面,提供一种电子设备,该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的程序或指令,该程序或指令被该处理器执行时实现如第一方面所述的数据压缩方法的步骤。
18.本技术实施例的第四方面,提供一种可读存储介质,该可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现如第一方面所述的数据压缩方法的步骤。
19.本技术实施例的第五方面,提供一种计算机程序产品,其中,该计算机程序产品包括计算机程序或指令,当该计算机程序产品在处理器上运行时,使得处理器执行该计算机程序或指令,实现如第一方面所述的数据压缩方法的步骤。
20.本技术实施例的第六方面,提供了一种芯片,该芯片包括处理器和通信接口,该通信接口和该处理器耦合,该处理器用于运行程序或指令,实现如第一方面所述的数据压缩方法。
21.本技术实施例中,获取列存缓存区中的多列待压缩数据源;基于智能化压缩模型,将多列待压缩数据源分为至少一组数据源,并对每组数据源分别进行压缩,得到至少一个压缩数据;其中,每个压缩数据是对一组数据源压缩得到的,智能化压缩模型是根据历史样本数据训练得到。本方案通过将多列待压缩数据源进行分组,灵活选择将至少一列待压缩数据源同时压缩,得到一个压缩数据,可以使得压缩后的数据源占用的存储空间更小,进而压缩率降低,压缩效果变好,提高压缩效率,而且可以使得总压缩时间变短,提高压缩效率。
附图说明
22.为了更清楚地说明本技术实施例技术方案,下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,还可以根据这些附图获得其它的附图。
23.图1为本技术实施例提供的数据压缩方法的流程示意图之一;
24.图2为本技术实施例提供的数据压缩方法的流程示意图之二;
25.图3为本技术实施例提供的一种数据压缩装置的结构框图;
26.图4为本技术实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
27.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
28.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
29.下面首先对本发明的权利要求书和说明书中涉及的一些名词或者术语进行解释说明。
30.本技术实施例中的电子设备可以为移动电子设备,也可以为非移动电子设备。移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等;非移动电子设备可以为个人计算机(personal computer,pc)、电视机(television,tv)、柜员机或者自助机等;本技术实施例不作具体限定。
31.本技术实施例提供的数据压缩方法的执行主体可以为上述的电子设备(包括移动电子设备和非移动电子设备),也可以为该电子设备中能够实现该数据压缩方法的功能模块和/或功能实体,具体的可以根据实际使用需求确定,本技术实施例不作限定。
32.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的数据压缩方法进行详细地说明。
33.如图1所示,本技术实施例提供一种数据压缩方法,本方案的执行主体可以为上述电子设备,也可以是电子设备中能够实现该方案的功能模块或功能实体,本技术实施例不做限定。该方法可以包括下述的步骤101至步骤102。
34.101、获取列存缓存区中的多列待压缩数据源。
35.102、基于智能化压缩模型,将多列待压缩数据源分为至少一组数据源,并对每组数据源分别进行压缩,得到至少一个压缩数据。
36.其中,每个压缩数据是对一组数据源压缩得到的。即对一组数据源同时进行压缩,得到一个压缩数据。
37.其中,智能化压缩模型是根据历史样本数据训练得到。
38.其中,每列待压缩数据源指列存缓存区中的一列中存储的所有待压缩数据。
39.可以理解,可以将多列待压缩数据源分为一组数据源或多组数据源,至少一组数据源中包含该多列待压缩数据源中的多列数据源。
40.可以理解,历史样本数据包括n(大于1的整数)个历史样本,每个历史样本包括历史多列待压缩数据源。
41.可以理解,智能化压缩模型是通过对大量历史样本数据的学习,并根据学习结果对模型参数调整和训练得到的,因此可以通过智能化压缩模型实现对输入其中的多列待压缩数据源进行智能化压缩。
42.示例性地,第一列数据源:aaabbcccc,第二列数据源:ccccaabb,根据游程编码进行数据压缩,第一列数据源压缩为:(a,3)(b,2)(c,4),压缩后占用15个字符,第二列数据源压缩为:(c,4)(a,2)(b,2),压缩后占用15个字符,两列数据源压缩后共占30个字符;把第一列数据和第二列数据作为一组:aaabbccccccccaabb,压缩后为:(a,3)(b,2)(c,8)(a,2)(b,2),这一组数据源压缩后占用25个字符;因此对比将单列数据源进行压缩和两列数据源作为一组数据源进行压缩,两列数据源作为一组数据源压缩后占用空间更小,压缩率更低,压缩效果更好。
43.本技术实施例中先获取列存缓存区中的多列待压缩数据源,再基于智能化压缩模型,将多列待压缩数据源分为至少一组数据源,并对每组数据源分别进行压缩,得到至少一个压缩数据;通过将多列待压缩数据源进行分组,灵活选择将哪几列作为一个数据源进行压缩,使得,压缩后的数据源占用的存储空间更小,压缩率降低。
44.其中,压缩率指压缩后数据源的大小与压缩前数据源大小的百分比。
45.可以理解,智能化压缩模型中设置有对多列待压缩数据源的分组规则,依据给定的分组规则将多列数据源分为至少一组。分组规则可以是固定的,即对任何多列待压缩数据源,均采用同一种分组规则;分组规则可以是变化的,即对于不同的多列待压缩数据源,智能化压缩模型可以为其匹配不同的分组规则。
46.可选地,分组规则包括以下任一项:分为一组的至少一列数据源属于同一数据类型大类;分为一组的至少一列数据源属于不同数据类型大类,但数据内容相似程度大于或等于相似阈值。
47.其中,数据类型大类是依据照数据的存储形式进行分类。数据类型大类可以包括但不限于:数字类型,字符类型,二进制数据类型,xml类型,json类型等,数据类型的每个大类下又可以分为具体地数据类型。
48.示例性地,数字类型包括:smallint、integer、bigint、decimal(p,s)、numeric(p,s)、real、double precision、smallserial、serial、bigserial等;字符类型包括:character varying(n)、varchar(n)、character(n)、char(n)、text、clob、nclob等;二进制数据类型包括:bytea、blob等;xml类型包括:xml等;json类型包括:json、jsonb等。
49.可以理解,数据内容相似程度大于或等于相似阈值中,相似阈值依据实际情况而定;示例性地,设定相似阈值为50%,有两列数据源,数据类型大类分别为字符类型和json类型,如果内容的相似度超过50%,那么这两列数据源可以分为一组。
50.其中,几列数据源的相似度可以依据现有的相似度算法计算得到,此处不做限定。几列数据源的相似度也可以是根据历史经验总结的。
51.示例性地,分组规则可以为:分为一组的至少一列数据源属于同一数据类型大类,那么对多列待压缩数据源可以将数据类型大类相同的分为一组,对每组数据源分别进行压缩得到压缩后的数据源,依据压缩前后数据源的大小可以计算出压缩率。
52.示例性地,分组规则可以为:分为一组的至少一列数据源属于不同数据类型大类,但数据内容相似程度大于或等于相似阈值,那么对多列待压缩数据源可以将属于不同数据
类型大类,但数据内容相似程度大于或等于相似阈值的多列分为一组,对每组数据源分别进行压缩得到压缩后的数据源,依据压缩前后数据源的大小可以计算出压缩率。
53.本技术实施例中,通过设置分组规则,能够更合理的对多列待压缩数据源进行分类,从而得到压缩率低的分组方式,有效减少数据源的存储空间,提升压缩效率。
54.可选地,目标分组规则还包括:分为一组的至少一列数据源的数据规模小于或等于规模阈值。
55.可以理解,一次压缩的数据规模太大,可能会使压缩时间很长,以致影响压缩效率,因此,设定每次压缩的最大数据规模,即设定一个规模阈值。规模阈值可以依据实际情况而定,可以根据经验总结。例如,可以通过对大量的数据源压缩,总结压缩率、压缩时长和规模阈值之间的关系,进而确定合适的规模阈值。
56.示例性地,数据规模小于100m时的压缩率比数据规模大于100m时的压缩率更低,压缩时长更短,因此,将规模阈值设置为100m;当根据同一数据类型大类选择出第一、第二、第三、第五列数据源作为一组数据源,但这四列数据源的大小超过100m,这时可以根据规模阈值将这四列数据源再分为多组,每组数据源的大小不超过100m。
57.可以理解,在训练智能化压缩模型的过程中,可以通过对模型参数的调整设置合理的规模阈值,从而智能化压缩模型在对多列待压缩数据源进行压缩时可以通过限定数据规模来提升压缩效率。
58.可以理解,本技术实施例中,历史样本包括历史多列待压缩数据源以及分组规则,分组规则中加入数据规模,通过限定数据规模来提升压缩效率;使用多个上述历史样本对智能化压缩模型进行训练,训练后的智能化压缩模型可以对于多列待压缩数据源选择最优的分组方式自动进行分组,对分组后的数据源分别进行压缩。
59.本技术实施例中,通过设置合理的规模阈值对多列待压缩数据源进行合理的分组,可以大大降低压缩率,减少压缩时间,进而提升压缩效率。
60.可选地,上述步骤102还可以通过下述步骤102a实现。
61.102a、基于智能化压缩模型,依据多列待压缩数据源的属性信息,确定多列待压缩数据源对应的目标分组规则,根据目标分组规则,将多列待压缩数据源分为至少一组数据源。
62.其中,属性信息包括每列待压缩数据源的类型。
63.可以理解,从属性信息中可以看出数据源的数据类型,从而可以确定哪些列属于同一数据大类,哪些列属于不同数据大类,哪些列数据内容相似,进而可以根据每列待压缩数据源的类型确定分组规则。
64.可以理解,列存缓存区中的数据源都是按列存储,每列存放的数据类型一样并且是提前定义的,属性信息中每列数据源的类型代表的是该列存储的数据类型;从数据源的类型得到列存缓存区中的数据源类型大类相同的多,那么目标分组规则就为:分为一组的至少一列数据源属于同一数据类型大类;如果列存缓存区中的数据源属于不同数据类型大类,但数据内容相似的多,那么目标分组规则就为:分为一组的至少一列数据源属于不同数据类型大类,但数据内容相似程度大于或等于相似阈值。
65.示例性地,定义的列存缓存区的第一列数据类型为int型,第二列数据类型为char型,第三列数据类型为json型;对应的列存缓存区存放的第一列数据源的数据类型都是int
型,列存缓存区存放的第二列数据源的数据类型都是char型,列存缓存区存放的第三列数据源的数据类型都是json型。
66.本技术实施例中,通过每列待压缩数据源的类型确定分组规则,可以更合理的判断对于多列待压缩数据源,使用哪种分组规则进行分组更合理,选择更有效的分组规则能够减少压缩后数据源占用的存储空间,降低压缩率,提升压缩效率。
67.可选地,属性信息还包括以下任一项:多列待压缩数据源的生成时间信息,每列待压缩数据源的大小。
68.可以理解,从属性信息中多列待压缩数据源的生成时间信息,可以看出数据源是哪个时间段产生的,由此可以结合历史哪个时间段产生的数据量比较多,哪个时间段产生的数据量比较少,预测多列待压缩数据源数据量,进而可以考虑分组规则是否包括:分为一组的至少一列数据源的数据规模小于或等于规模阈值。
69.可以理解,属性信息中的多列待压缩数据源的生成时间信息,记录的是该数据源产生的时间,因为列存缓存区的数据是实时变化的,时间段不同列存存缓存区的数据也不同,根据不同的时间段选择不同的分组规则。
70.示例性地,9:00-21:00数据比较多,一组待压缩数据源可以依据同一数据类型大类的不同列和各个列数据规模来确定;22:00-8:00数据比较少,这时就不用考虑数据规模,一组待压缩数据源只依据同一数据类型大类来确定。
71.可以理解,每列待压缩数据源的大小可以得出实际多列待压缩数据源数据量,进而可以考虑分组规则是否包括:分为一组的至少一列数据源的数据规模小于或等于规模阈值。
72.本技术实施例中,通过多列待压缩数据源的生成时间信息或者每列待压缩数据源的大小确定分组规则,因为一组待压缩数据源的大小会影响压缩需要的时长和压缩率,因此在分组规则的确定中考虑数据源的生成时间信息或者每列待压缩数据源的大小是为了能够更合理的选择分组规则,进而减少压缩时间,降低压缩率,提升压缩效率。
73.可以理解,针对上述步骤102a历史样本数据包括n(大于1的整数)个历史样本,每个历史样本包括历史多列待压缩数据源和目标分组规则。
74.可以理解,本技术实施例中,每个历史样本包括历史多列待压缩数据源、历史多列待压缩数据源对应的分组规则,使用多个历史样本对智能化压缩模型进行训练,训练后的智能化压缩模型可以根据学习到的规律,对于多列待压缩数据源使用压缩率低的分组规则对待压缩数据源进行分组。
75.本技术实施例中的智能化压缩模型通过大量历史样本训练,对于与历史样本类似的数据源可以使用合理的分组规则对多列待压缩数据进行分组,使得按照该分组规则对多列对待压缩数据源进行分组并对每组数据进行压缩后的数据源占用的存储空间更小,压缩率更低,有效提升了压缩效率。
76.可选地,影响压缩率大小的最主要因素有压缩算法以及待压缩的数据源,因此,除了改变待压缩数据源(多列待压缩数据源作为一个整体压缩),也可以通过合理选择压缩算法来降低压缩率,降低压缩时长;上述步骤102还可以通过下述步骤102b至步骤102c实现。
77.102b、基于智能化压缩模型,将多列待压缩数据源分为至少一组数据源。
78.102c、针对每组数据源执行s1,得到至少一个压缩数据。
79.其中,s1包括:根据一组数据源,确定对应的压缩算法;根据对应的压缩算法,对所述一组数据源进行压缩,得到一个压缩数据。
80.可以理解,根据每列待压缩数据源的内容类型选择对应的压缩算法,该算法是对待压缩数据源压缩后压缩率更低的压缩算法。
81.其中,数据源的内容类型是依据照数据的输出形式进行分类的,数据源的内容类型包括但不限于以下任一项:程序,文本,图像,音频,视频。
82.示例性地,一组待压缩数据源的内容类型为文本,则可以采用huffman编码算法对该数据源进行压缩。
83.示例性地,一组待压缩数据源的内容类型为图像,则可以采用jpeg压缩算法对该数据源进行压缩。
84.可以理解,不同内容类型的数据源对应的压缩算法不同,同种内容类型的数据源对应的压缩算法也可以不同。
85.可以理解,本技术实施例中,每个历史样本包括历史多列待压缩数据源、压缩算法,使用多个历史样本数据对智能化压缩模型进行训练,训练后的智能化压缩模型可以根据学习到的规律,对于多列待压缩数据源使用压缩率低的算法对待压缩数据源进行压缩。
86.本技术实施例中的智能化压缩模型通过大量历史样本训练,对于与历史样本类似的数据源可以使用压缩率低、压缩时长短的算法对待压缩数据源进行压缩,使得压缩后的数据源占用的存储空间更小,压缩率更低。
87.可选地,上述步骤102a之后,本技术实施例的方法还包括上述步骤102c。
88.可以理解,通过学习大量的历史样本数据得到的智能化压缩模型,可以先智能的对多列待压缩数据进行分组,再根据每组待压缩数据中的内容类型选择相应的压缩算法。
89.其中,样本数据包括:多列待压缩数据源,目标分组规则,压缩算法。
90.可以理解,本技术实施例中,每个历史样本包括历史多列待压缩数据源、目标分组规则以及压缩算法,使用多个历史样本数据对智能化压缩模型进行训练,训练后的智能化压缩模型可以根据学习到的规律,对于多列待压缩数据源,使用合理的目标分组规则对多列待压缩数据源进行分组,再对每组待压缩数据源使用压缩率低、压缩时长短的算法分别进行压缩。
91.本技术实施例中的智能化压缩模型通过大量历史样本训练,对于不同的数据源使用最优的目标分组规则对多列待压缩数据源进行分组,再对每组待压缩数据源使用压缩率低、压缩时长短的算法分别进行压缩,使得压缩后的数据源占用的存储空间更小,有效提升了压缩效率。
92.列存缓存区中的多列待压缩数据在持续更新,新的数据源可能在智能压缩模型中匹配不到压缩效率较好的分组规则或者压缩算法,因此,可以基于该新的数据源,对智能压缩模型进一步训练,使得训练后的智能压缩模型可以为该新的数据源匹配到压缩效率较好的分组规则或者压缩算法。
93.可选地,结合图1,如图2所示,可以在上述步骤102之后,本技术实施例提供的数据压缩方法还可以包括下述的步骤103至步骤104。
94.103、获取目标参数。
95.其中,目标参数包括以下至少一项:对每组数据源分别进行压缩的压缩率,对每组
数据源分别进行压缩的压缩时长。
96.可以理解,压缩率越小压缩效果越好,压缩后的数据源占用的存储空间越小。
97.可以理解,压缩数据源时,压缩时长也是判别压缩效果好坏的一个参数,压缩时长越短压缩效果越好。
98.104、在目标参数不满足预设条件的情况下,根据多列待压缩数据源、以及为多列待压缩数据源设置的目标分组规则和压缩算法,对智能化压缩模型进行训练。
99.可以理解,多列待压缩数据源设置的目标分组规则和压缩算法是通过测试显示该目标分组规则和压缩算法是压缩后数据源占用内存空间更小,压缩率更低,压缩时长更短,压缩效率更高的分组规则和压缩算法。
100.示例性地,设定压缩率小于80%;对待压缩数据压缩后,如果压缩率为85%,多次调整目标分组规则,直到数据源的压缩率小于80%;也可以通过改变压缩算法,使得数据源的压缩率小于80%;如果多次调整压缩算法或者目标分组规则压缩后的数据源还是不能满足预设条件,也可以两者同时调整;将最终得到的满足预设条件的分组规则、压缩算法和多列待压缩数据源作为历史样本训练智能化压缩模型。
101.示例性地,设定压缩时长小于一分钟;对待压缩数据进行压缩的时长超过一分钟,多次调整目标分组规则,直到数据源的压缩时长小于一分钟;也可以通过改变压缩算法,使得数据源的压缩时长小于一分钟;如果多次调整压缩算法或者目标分组规则压缩后的数据源还是不能满足预设条件,也可以两者同时调整;将最终得到的满足预设条件的分组规则、压缩算法和多列待压缩数据源作为历史样本训练智能化压缩模型。
102.示例性地,设定压缩率小于80%并且压缩时长小于一分钟;对待压缩数据进行压缩后的压缩率超过80%或者压缩的时长超过一分钟,多次调整目标分组规则,直到数据源的压缩率小于80%并且压缩时长小于一分钟;也可以通过改变压缩算法,使得数据源的压缩率小于80%并且压缩时长小于一分钟;如果多次调整压缩算法或者目标分组规则压缩后的数据源还是不能满足预设条件,也可以两者同时调整;将最终得到的满足预设条件的分组规则、压缩算法和多列待压缩数据源作为历史样本训练智能化压缩模型。
103.本技术实施例中,对于目标参数不满足预设条件的,智能化压缩模型对于新数据源学习新的更合理的目标分组规则和压缩算法,使得对于与历史数据源不同的新数据源,压缩后的压缩率以及压缩时长都满足预设条件,训练后的智能化压缩模型对于待压缩数据源进行压缩的压缩时长更短,压缩后数据源占用的存储空间大幅减小,压缩率更低,提升了压缩效率。
104.图3为本技术实施例示出的一种数据压缩装置的结构框图,如图3所示,该装置包括:获取模块301,用于获取列存缓存区中的多列待压缩数据源;压缩模块302,用于基于智能化压缩模型,将多列待压缩数据源分为至少一组数据源,并对每组数据源分别进行压缩,得到至少一个压缩数据;其中,每个压缩数据是对一组数据源压缩得到的,所述智能化压缩模型是根据历史样本数据训练得到。
105.可选地,该压缩模块302,具体用于根据多列待压缩数据源的属性信息,确定多列待压缩数据源对应的目标分组规则;根据目标分组规则,将多列待压缩数据源分为所述至少一组数据源;属性信息包括:每列待压缩数据源的类型。
106.可选地,属性信息还包括以下任一项:多列待压缩数据源的生成时间信息;每列待
压缩数据源的数据大小。
107.可选地,目标分组规则包括以下任一项:分为一组的至少一列数据源属于同一数据类型大类;分为一组的至少一列数据源属于不同数据类型大类,但数据内容相似程度大于或等于相似阈值。
108.可选地,目标分组规则还包括:分为一组的至少一列数据源的数据规模小于或等于规模阈值。
109.可选地,该压缩模块302,具体用于针对每组数据源执行s1,得到至少一个压缩数据;其中,s1包括:根据一组数据源,确定对应的压缩算法;根据对应的压缩算法,对一组数据源进行压缩,得到一个压缩数据。
110.需要说明的是,上述数据压缩装置可以为本技术上述方法实施例中的电子设备,也可以是该电子设备中能够实现该装置实施例功能的功能模块和/或功能实体,本技术实施例不做限定。
111.本技术实施例中,各模块可以实现上述方法实施例提供的一种数据压缩方法,且能达到相同的技术效果,为避免重复,这里不再赘述。
112.本实施例中各种实现方式具有的有益效果具体可以参见上述数据压缩方法实施例中相应实现方式所具有的有益效果,为避免重复,此处不再赘述。
113.本技术实施例还提供一种电子设备,该电子设备可以包括:处理器401,存储器402以及存储在存储器402上并可在处理器401上运行的程序或指令,该程序或指令被处理器401执行时可以实现上述方法实施例提供的数据压缩方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
114.本技术实施例提供一种可读存储介质,该可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现上述方法实施例提供的数据压缩方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
115.本技术实施例还提供一种计算机程序产品,其中,该计算机程序产品包括计算机程序或指令,当该计算机程序产品在处理器上运行时,使得处理器执行该计算机程序或指令,实现上述方法实施例提供的数据压缩方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
116.本技术实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述数据压缩方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
117.应理解,本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
118.在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置,服务器和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
119.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显
示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
120.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
121.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
122.以上所述,以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1