一种压缩策略选择方法及装置的制造方法

文档序号:9546880阅读:255来源:国知局
一种压缩策略选择方法及装置的制造方法
【技术领域】
[0001] 本发明涉及大数据技术领域,更具体地说,涉及一种压缩策略选择方法及装置。
【背景技术】
[0002] 随着电子商务、社会计算、物联网等新应用的发展,促使相关数据的规模呈现出快 速增长的趋势,大数据正改变着人们的生活、工作和思维方式。准确、高效地从大数据中挖 掘出潜在的有用信息进而支持决策变得越发重要,并逐步成为数据科学领域关注的热点。 分布式存储和计算平台Hadoop以分布式文件系统HDFS和分布式计算框架MapReduce为核 心,已成为大数据处理领域事实上的标准。多年来,在磁盘存储容量快速增长的同时,磁盘 I/O速度却未能成比例地加快;现有的网络带宽越来越难以满足人们的需求,I/O常常成为 了磁盘与网络的性能瓶颈。
[0003] 以HDFS作为分布式文件系统的Hadoop能实现PB级的海量数据存储,I/O问题更 加明显,因此I/O操作的优化都有可能带来Hadoop性能的提升。而压缩可以减少存储数据 所占用的磁盘空间,加速数据在网络和磁盘上的传输。因此,在处理大数据时,压缩是提升 处理性能的重要手段。Hadoop作为一个比较通用的大数据处理平台,提供了对一些常见的 重量级压缩方法的支持,以牺牲CPU时间的方式来提高I/O的性能。此外,很多厂家也针对 Hadoop中HDFS特点,提供了面向大数据处理的硬件压缩卡,将压缩工作交由压缩卡CPU来 完成,这样可以最大化的节省集群的CPU时间,但是这也往往带来了成本的上升。同时,针 对MapReduce和应用的特点,可以在计算的不同阶段采取不同的压缩方式,最终形成一整 套的压缩方式的组合,这里称之为压缩策略。
[0004] 因此,如何根据用户的实际应用情况,选择最合适的、性价比最高的压缩策略是现 在需要解决的问题。

【发明内容】

[0005] 本发明的目的在于提供一种压缩策略选择方法及装置,以帮助用户根据实际应用 情况,选择最合适的、性价比最高的压缩策略。
[0006] 为实现上述目的,本发明实施例提供了如下技术方案:
[0007] -种压缩策略选择方法,包括:
[0008] 接收数据压缩信息;其中,所述数据压缩信息中携带待压缩数据的数据量信息;
[0009] 根据所述待压缩数据的数据量信息,确定所述待压缩数据的处理场景信息;
[0010] 根据所述待压缩数据的数据量信息和所述待压缩数据的处理场景信息,确定所述 待压缩数据的压缩策略。
[0011] 优选的,根据所述待压缩数据的数据量信息和所述待压缩数据的处理场景信息, 确定所述待压缩数据的压缩策略,包括:
[0012] 根据所述待压缩数据的数据量信息,确定所述待压缩数据在不同压缩策略下的时 间收益和/或空间收益;
[0013] 根据所述待压缩数据的处理场景信息,及所述待压缩数据在不同压缩策略下的时 间收益和/或空间收益,确定所述待压缩数据的压缩策略;其中,所述压缩策略为不压缩策 略、软压缩策略和硬压缩策略。
[0014] 优选的,根据所述待压缩数据的处理场景信息,及所述待压缩数据在不同压缩策 略下的时间收益和/或空间收益,确定所述待压缩数据的压缩策略,包括:
[0015] 当所述待压缩数据的处理场景信息为计算密集型应用场景时,根据所述待压缩数 据的数据量信息,确定所述待压缩数据在所述不压缩策略下的第一压缩时间;
[0016] 根据所述待压缩数据的数据量信息,确定所述待压缩数据在所述软压缩策略下的 第二压缩时间;
[0017] 根据所述待压缩数据的数据量信息,确定所述待压缩数据在所述硬压缩策略下的 第三压缩时间;
[0018] 根据所述第一压缩时间和所述第二压缩时间,确定所述软压缩策略与所述不压缩 策略的第一时间收益;
[0019] 根据所述第一压缩时间和所述第三压缩时间,确定所述硬压缩策略与所述不压缩 策略的第二时间收益;
[0020] 根据所述第一时间收益和所述第二时间收益,确定所述待压缩数据的压缩策略。
[0021] 优选的,根据所述待压缩数据的处理场景信息,及所述待压缩数据在不同压缩策 略下的时间收益和/或空间收益,确定所述待压缩数据的压缩策略,包括:
[0022] 当所述待压缩数据的处理场景信息为数据密集型应用场景时,根据所述待压缩数 据的数据量信息,确定所述待压缩数据在所述不压缩策略下的第一压缩数据量;
[0023] 根据所述待压缩数据的数据量信息,确定所述待压缩数据在所述软压缩策略下的 第二压缩数据量;
[0024] 根据所述待压缩数据的数据量信息,确定所述待压缩数据在所述硬压缩策略下的 第三压缩数据量;
[0025] 根据所述第一压缩数据量和所述第二压缩数据量,确定所述软压缩策略与所述不 压缩策略的第一空间收益;
[0026] 根据所述第一压缩数据量和所述第三压缩数据量,确定所述硬压缩策略与所述不 压缩策略的第二空间收益;
[0027] 根据所述第一空间收益和所述第二空间收益,确定所述待压缩数据的压缩策略。
[0028] 优选的,根据所述待压缩数据的数据量信息和所述待压缩数据的处理场景信息, 确定所述待压缩数据的压缩策略,包括:
[0029] 当所述待压缩数据的处理场景信息为计算密集型应用场景时,若所述待压缩数据 的数据量信息大于第一阈值,则确定所述待压缩数据的压缩策略为硬压缩策略;
[0030] 若所述待压缩数据的数据量信息大于第二阈值且小于等于所述第一阈值,则确定 所述待压缩数据的压缩策略为软压缩策略;
[0031] 若所述待压缩数据的数据量信息小于等于所述第二阈值,则确定所述待压缩数据 的压缩策略为不压缩策略;
[0032] 当所述待压缩数据的处理场景信息为数据密集型应用场景时,确定所述待压缩数 据的压缩策略为硬压缩策略。
[0033] 一种压缩策略选择装置,包括:
[0034] 接收模块,用于接收数据压缩信息;其中,所述数据压缩信息中携带待压缩数据的 数据量信息;
[0035] 第一确定模块,用于根据所述待压缩数据的数据量信息,确定所述待压缩数据的 处理场景信息;
[0036] 第二确定模块,用于根据所述待压缩数据的数据量信息和所述待压缩数据的处理 场景信息,确定所述待压缩数据的压缩策略。
[0037] 优选的,所述第二确定模块,包括:
[0038] 第一确定单元,用于根据所述待压缩数据的数据量信息,确定所述待压缩数据在 不同压缩策略下的时间收益和/或空间收益;
[0039] 第二确定单元,用于根据所述待压缩数据的处理场景信息,及所述待压缩数据在 不同压缩策略下的时间收益和/或空间收益,确定所述待压缩数据的压缩策略;其中,所述 压缩策略为不压缩策略、软压缩策略和硬压缩策略。
[0040] 优选的,所述第二确定单元,包括:
[0041] 第一确定子单元,用于当所述待压缩数据的处理场景信息为计算密集型应用场景 时,根据所述待压缩数据的数据量信息,确定所述待压缩数据在所述不压缩策略下的第一 压缩时间;根据所述待压缩数据的数据量信息,确定所述待压缩数据在所述软压缩策略下 的第二压缩时间;根据所述待压缩数据的数据量信息,确定所述待压缩数据在所述硬压缩 策略下的第三压缩时间;
[0042] 第二确定子单元,用于根据所述第一压缩时间和所述第二压缩时间,确定所述软 压缩策略与所述不压缩策略的第一时间收益;根据所述第一压缩时间和所述第三压缩时 间,确定所述硬压缩策略与所述不压缩策略的第二时间收益;
[0043] 第三确定子单元,用于根据所述第一时间收益和所述第二时间收益,确定所述待 压缩数据的压缩策略。
[0044] 优选的,所述第二确定单元,包括:
[0045] 第四确定子单元,用于当所述待压缩数据的处理场景信息为数据密集型应用场景 时,根据所述待压缩数据的数据量信息,确定所述待压缩数据在所述不压缩策略下的第一 压缩数据量;根据所述待压缩数据的数据量信息,确定所述待压缩数据在所述软压缩策略 下的第二压缩数据量;根据所述待压缩数据的数据量信息,确定所述待压缩数据在所述硬 压缩策略下的第三压缩数据量;
[0046] 第五确定子单元,用于根据所述第一压缩数据量和所述第二压缩数据量,确定所 述软压缩策略与所述不压缩策略的第一空间收益;根据所述第一压缩数据量和所述第三压 缩数据量,确定所述硬压缩策略与所述不压缩策
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1