一种数据压缩方法、装置、电子设备及存储介质与流程

文档序号:29122920发布日期:2022-03-04 22:54阅读:来源:国知局

技术特征:
1.一种数据压缩方法,其特征在于,所述方法包括:获取列存缓存区中的多列待压缩数据源;基于智能化压缩模型,将所述多列待压缩数据源分为至少一组数据源,并对每组数据源分别进行压缩,得到至少一个压缩数据;其中,每个压缩数据是对一组数据源压缩得到的,所述智能化压缩模型是根据历史样本数据训练得到。2.根据权利要求1所述的方法,其特征在于,所述将所述多列待压缩数据源分为至少一组数据源,包括:根据所述多列待压缩数据源的属性信息,确定所述多列待压缩数据源对应的目标分组规则;根据所述目标分组规则,将所述多列待压缩数据源分为所述至少一组数据源;所述属性信息包括:每列待压缩数据源的类型。3.根据权利要求2所述的方法,其特征在于,所述属性信息还包括以下任一项:所述多列待压缩数据源的生成时间信息;每列待压缩数据源的大小。4.根据权利要求2所述的方法,其特征在于,所述目标分组规则包括以下任一项:分为一组的至少一列数据源属于同一数据类型大类;分为一组的至少一列数据源属于不同数据类型大类,但数据内容相似程度大于或等于相似阈值。5.根据权利要求4所述的方法,其特征在于,所述目标分组规则还包括:分为一组的至少一列数据源的数据规模小于或等于规模阈值。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述对所述每组数据源分别进行压缩,得到至少一个压缩数据,包括:针对每组数据源执行s1,得到至少一个压缩数据;其中,s1包括:根据一组数据源,确定对应的压缩算法;根据对应的压缩算法,对所述一组数据源进行压缩,得到一个压缩数据。7.一种数据压缩装置,其特征在于,所述装置包括:获取模块,用于获取列存缓存区中的多列待压缩数据源;压缩模块,用于基于智能化压缩模型,将所述多列待压缩数据源分为至少一组数据源,并对每组数据源分别进行压缩,得到至少一个压缩数据;其中,每个压缩数据是对一组数据源压缩得到的,所述智能化压缩模型是根据历史样本数据训练得到。8.根据权利要求7所述的装置,其特征在于,所述压缩模块,具体用于根据所述多列待压缩数据源的属性信息,确定所述多列待压缩数据源对应的目标分组规则;根据所述目标分组规则,将所述多列待压缩数据源分为所述至少一组数据源;所述属性信息包括:每列待压缩数据源的类型。9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的数据压缩方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的数据压缩方法的步骤。

技术总结
本申请实施例公开了一种数据压缩方法、装置、电子设备及存储介质,属于数据库技术领域,能够解决对于按列存储的数据源压缩后仍然占有比较大的存储空间,压缩率较高,导致压缩效果差,压缩效率低的问题。该方法包括:获取列存缓存区中的多列待压缩数据源;基于智能化压缩模型,将多列待压缩数据源分为至少一组数据源,并对每组数据源分别进行压缩,得到至少一个压缩数据;其中,每个压缩数据是对一组数据源压缩得到的,智能化压缩模型是根据历史样本数据训练得到。本方案通过将多列待压缩数据源进行分组,灵活选择将至少一列待压缩数据源作为一个数据源进行压缩,使得压缩后的数据源占用的存储空间更小,压缩率降低,进一步提高了压缩效率。压缩效率。压缩效率。


技术研发人员:康明 杨尚
受保护的技术使用者:北京人大金仓信息技术股份有限公司
技术研发日:2021.11.26
技术公布日:2022/3/3
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1