一种基于人工智能的企业数据压缩方法及系统与流程

文档序号:37558498发布日期:2024-04-09 17:51阅读:74来源:国知局
一种基于人工智能的企业数据压缩方法及系统与流程

本发明涉及企业数据管理领域,尤其涉及一种基于人工智能的企业数据压缩方法及系统。


背景技术:

1、企业数据包括公司概况、产品信息、经营数据、研究成果等多个方面的数据,数据量非常大,需要进行压缩存储。

2、霍夫曼编码能够达到较高的压缩效率,因此常用霍夫曼编码对企业数据进行压缩。但对于霍夫曼编码的压缩结果,若需要查看企业数据中的某个指定数据,需要对霍夫曼编码的压缩结果全部进行解压,使得企业数据的查看效率非常慢。


技术实现思路

1、为了解决以上问题,本发明提供一种基于人工智能的企业数据压缩方法及系统。

2、第一方面,本发明提供一种基于人工智能的企业数据压缩方法,采用如下的技术方案:

3、一种基于人工智能的企业数据压缩方法,包括步骤:

4、将待压缩的企业数据转换为待压缩序列;

5、对企业数据中每条信息的每个字段的查看频率进行预测,得到所述每条信息的每个字段的查看频率的预测值,根据所述查看频率的预测值获取待压缩序列中每种待压缩数据的预测查看频率;

6、根据每种待压缩数据的预测查看频率以及重复频率对待压缩序列进行压缩,得到待压缩序列中每个元素的编码结果;

7、对待压缩序列中所有元素的编码结果进行分层存储;根据分层存储的信息对企业数据中的指定信息的指定字段进行解压查看。

8、优选的,所述对企业数据中每条信息的每个字段的查看频率进行预测,得到所述每条信息的每个字段的查看频率的预测值,包括步骤:

9、构建神经网络,神经网络采用全连接结构,输入数据为企业数据,输出数据为企业数据中每条信息的每个字段的查看频率的预测值;神经网络的训练集为历史的企业数据构成的数据集,训练集的标签为历史的企业数据中每条信息的每个字段的实际查看频率,神经网络的损失函数为均方差损失;

10、将待压缩的企业数据输入到训练好的神经网络中,输出待压缩的企业数据中每条信息的每个字段的查看频率的预测值。

11、优选的,根据所述查看频率的预测值获取待压缩序列中每种待压缩数据的预测查看频率,包括步骤:

12、对于待压缩序列中每个元素,将元素在待压缩的企业数据中对应信息的对应字段的查看频率的预测值,作为元素的查看频率的预测值;

13、将待压缩序列中每种待压缩数据对应的所有元素的查看频率的预测值的均值作为每种待压缩数据的预测查看频率。

14、优选的,所述根据每种待压缩数据的预测查看频率以及重复频率对待压缩序列进行压缩,得到待压缩序列中每个元素的编码结果,包括步骤:

15、根据每种待压缩数据的预测查看频率以及重复频率获取每种待压缩数据的编码频率;根据每种待压缩数据的编码频率,利用霍夫曼编码的方法构建霍夫曼树,根据霍夫曼树得到每种待压缩数据的码字;

16、对于待压缩序列中的每个元素,获取与该元素的元素值相同的待压缩数据,将该待压缩数据的码字作为该元素的编码结果。

17、优选的,所述每种待压缩数据的编码频率满足关系式:

18、

19、其中,i表示待压缩序列中待压缩数据的序号;表示待压缩序列中第i种待压缩数据的编码频率;表示待压缩序列中第i种待压缩数据的重复频率;表示待压缩序列中第i种待压缩数据的预测查看频率;n表示待压缩数据的种类数。

20、优选的,所述重复频率的获取方法为:

21、统计待压缩序列中每种待压缩数据出现的次数,将每种待压缩数据出现的次数与待压缩序列的长度的比值,作为每种待压缩数据的重复频率。

22、优选的,所述对待压缩序列中所有元素的编码结果进行分层存储,包括步骤:

23、根据待压缩序列中每个元素的编码结果以及预设的分层长度,计算每个元素的补充编码长度;根据每个元素的补充编码长度对每个元素的编码结果进行补充,得到每个元素的第二编码结果;

24、将待压缩序列中每个元素的第二编码结果中前m个比特位按照元素的顺序拼接在一起,作为第一层的编码信息;将待压缩序列中每个元素的第二编码结果中第m+1个比特位至第2m个比特位按照元素的顺序拼接在一起,作为第二层的编码信息,其中,当某个元素的第二编码结果不存在第m+1个比特位至第2m个比特位时,该元素不参与第二层的编码信息的获取;将待压缩序列中每个元素的第二编码结果中第2m+1个比特位至第3m个比特位按照元素的顺序拼接在一起,作为第三层的编码信息,其中,当某个元素不存在第2m+1个比特位至第3m个比特位时,该元素不参与第三层的编码信息的获取;依次类推,直到获取第r层的编码信息时停止迭代,其中m为预设的分层长度,r为最大层的序号,,d表示待压缩序列中所有元素的编码结果的长度构成的集合,max( )表示最大值函数,表示向上取整符号;

25、在第二层,对于待压缩序列中的每个元素,若该元素的第二编码结果存在第m+1个比特位至第2m个比特位,将1作为该元素的第二层标记,若该元素的第二编码结果不存在第m+1个比特位至第2m个比特位,将0作为该元素的第二层标记;将所有元素的第二层标记构成一个一维的序列,作为第二层的标记序列;在第三层,对于待压缩序列中第二层标记为1的每个元素,若该元素的第二编码结果存在第2m+1个比特位至第3m个比特位,将1作为该元素的第三层标记,若该元素的第二编码结果不存在第2m+1个比特位至第3m个比特位,将0作为该元素的第三层标记;将待压缩序列中第二层标记为1的所有元素的第三层标记构成一个一维的序列,作为第三层的标记序列;依次类推,直到获取第r层的标记序列时停止迭代;

26、对每一层的编码信息以及标记序列分别进行存储。

27、优选的,所述每个元素的补充编码长度满足关系式:

28、

29、其中,k表示待压缩序列中元素的序号,表示待压缩序列中第k个元素的补充编码长度;表示待压缩序列中第k个元素的编码结果的长度;表示分层长度;表示除法取余操作。

30、优选的,所述根据每个元素的补充编码长度对每个元素的编码结果进行补充,得到每个元素的第二编码结果,包括步骤:

31、设置补充比特和标识比特;

32、对于待压缩序列中的每个元素,在该元素的编码结果之前添加一位标识比特,将得到的结果作为第一编码结果,将由补充比特组成的,且长度为补充编码长度的二进制数据,添加到第一编码结果之前,得到第二编码结果。

33、第二方面,本发明提供一种基于人工智能的企业数据压缩系统,采用如下的技术方案:

34、一种基于人工智能的企业数据压缩系统,包括:处理器和存储器,所述存储器存储有计算机程序指令,当所述计算机程序指令被所述处理器执行时实现上述一种基于人工智能的企业数据压缩方法。

35、通过采用上述技术方案,将上述的一种基于人工智能的企业数据压缩方法生成计算机程序,并存储于存储器中,以被处理器加载并执行,从而根据存储器及处理器制作终端设备,方便使用。

36、本发明具有以下技术效果:本发明通过对待压缩序列中每个元素的编码结果进行分层存储,实现了在需要查看企业数据中的指定信息的指定字段时,仅需要选择性的解压一部分数据,无需解压全部数据,提高了企业数据的查看效率。

37、进一步地,本发明通过获取待压缩序列中每种待压缩数据的预测查看频率,根据每种待压缩数据的预测查看频率以及重复频率对待压缩序列进行压缩,保证了压缩效率的同时,使得预测查看频率大的数据对应的编码结果的长度尽可能短,在需要查看预测查看频率较大的数据时,仅需要解压较少层中的部分数据,使得数据的查看效率进一步提升。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1