一种智能数据处理方法及装置的制造方法

文档序号:9349810阅读:550来源:国知局
一种智能数据处理方法及装置的制造方法
【技术领域】
[0001]本发明属于数据处理领域,尤其涉及一种智能数据处理方法及装置。
【背景技术】
[0002]随着人类社会全面进入信息时代,数据成为与水、石油同等重要的战略资源。通过挖掘海量数据,能够使政府和企业的运行决策建立在更加科学的依据基础上,提高决策效率、危机应对能力和公共服务水平。
[0003]大数据虽然极具价值,但由于规模巨大,面临着持续可扩展问题。例如,数据仓库中常用的记录某个对象行为的历史状态数据,在大数据时代随着对象数量(如客户)的急速增加,以及每个处理对象行为(如客户交易)的迅速增加,规模成爆炸式增长,给处理环境的CPU、存储、网络带来了巨大压力。其中,CPU通过水平扩展能够满足大数据处理需求,而磁盘读写1和网络传输1由于机械部件、工艺技术、物理介质等条件限制,成为制约大数据处理的主要瓶颈。为此,采用压缩方式进行大数据的存储和传输,以牺牲少量CPU时间进行压缩和解压,以换取1时间,成为提高大数据处理性能的一个必然选择。
[0004]针对上述需求,当前的主流大数据处理系统,如Hadoop、Hbase、Hive等,都支持在应用中Gzip、LZO、Snappy等压缩方式,但是无论采取何种方法,本质都是使用CPU运行时间进行数据的编码、压缩和解压,不可避免的要对CPU的运行效率产生影响。
[0005]针对上述问题,业界提出采用硬件压缩卡技术,使用硬件压缩卡上自带的计算机芯片独立进行数据的压缩和解压,但对于CPU和硬盘负载都较低的任务,使用硬件压缩卡相当于额外对数据进行了一道压缩和解压处理,产生的处理延迟时间往往还要高于节省下的1时间。
[0006]因此,迫切需要一种综合考虑CPU压缩和硬件压缩卡压缩的解决方案,来提高大数据处理效率。

【发明内容】

[0007]本发明提供一种智能数据处理方法及装置,以解决上述问题。
[0008]本发明提供一种智能数据处理方法。上述方法包括以下步骤:
[0009]获取网络传输速率、磁盘读写速率、CPU利用率并分别与第一预设值、第二预设值、第三预设值进行比较,获取比较结果;
[0010]根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理。
[0011]本发明还提供一种智能数据处理装置,包括获取模块、比较模块、解压缩模块;其中,所述获取模块通过所述比较模块与所述解压缩模块相连;
[0012]所述获取模块,用于获取网络传输速率、磁盘读写速率、CPU利用率并将所述网络传输速率、磁盘读写速率、CPU利用率发送至所述比较模块;
[0013]所述比较模块,用于将网络传输速率、磁盘读写速率、CPU利用率分别与第一预设值、第二预设值、第三预设值进行比较,获取比较结果并将所述比较结果发送至所述解压缩丰吴块;
[0014]所述解压缩模块,用于根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理。
[0015]通过以下方案:获取网络传输速率、磁盘读写速率、CPU利用率并分别与第一预设值、第二预设值、第三预设值进行比较,获取比较结果;根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理;采用独立的硬件压缩卡进行数据的解压缩处理,因此减轻了 CPU的计算负担,使得CPU可以专注于处理运算相关的任务,提高大数据计算的执行效率。
[0016]通过以下方案:所述网络传输速率、所述磁盘读写速率分别小于第一预设值、第二预设值时,进一步比较所述CPU利用率是否大于第三预设值,若小于或等于所述第三预设值,则控制所述CPU对数据进行解压缩处理;此时,所述CPU利用率若小于或等于所述第三预设值,则说明CPU负载未满,则关闭硬件压缩卡,使用CPU进行压缩,避免数据多经过一道硬件压缩卡处理,产生不必要的处理延迟,最终提高大数据计算的运行效率。
【附图说明】
[0017]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0018]图1所示为本发明实施例1的智能数据处理方法流程图;
[0019]图2所示为本发明实施例2的智能数据处理装置结构图。
【具体实施方式】
[0020]下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0021]图1所示为本发明实施例1的智能数据处理方法流程图,包括以下步骤:
[0022]步骤101:获取网络传输速率、磁盘读写速率、CPU利用率并分别与第一预设值、第二预设值、第三预设值进行比较,获取比较结果;
[0023]其中,获取网络传输速率、磁盘读写速率、CPU利用率后,将所述网络传输速率与第一预设值进行比较;将所述磁盘读写速率与第二预设值进行比较;将CPU利用率与第三预设值进行比较。
[0024]其中,所述第一预设值、所述第二预设值、所述第三预设值可以根据实际情况进行灵活设定,在此不用于限定本实施例的保护范围。例如第一预设值为IGbps ;第二预设值为200MBps ;第三预设值为50%。
[0025]进一步地,获取网络传输速率、磁盘读写速率、CPU利用率之前,还包括:
[0026]预先在各个节点服务器上设置硬件压缩卡并对所述硬件压缩卡的运行环境进行配置。
[0027]进一步地,预先在各个节点服务器上设置硬件压缩卡并对所述硬件压缩卡的运行环境进行配置的过程为:
[0028]预先在各个节点服务器插槽(PCI插槽)上设置硬件压缩卡;
[0029]通过配置文件将硬件压缩卡驱动包(jar包)配置到预设文件目录(classpath)下。
[0030]进一步地,任务运行时,通过将运行参数传输至硬件压缩卡驱动,触发所述硬件压缩卡对所述任务进行解压缩处理。
[0031]所述运行参数包括运行模式参数、启动状态参数;其中,运行模式参数包括自动运行模式参数、人工运行模式参数;所述任务是指mapreduce任务。
[0032]步骤102:根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理。
[0033]进一步地,根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理的过程为:
[0034]所述网络传输速率、所述磁盘读写速率分别小于第一预设值、第二预设值时,进一步比较所述CPU利用率是否大于第三预设值,若大于所述第三预设值,则触发所述硬件压缩卡对文件数据进行解压缩处理。
[0035]其中,若所述网络传输速率小于第一预设值并且所述磁盘读写速率小于第二预设值,则进一步比较所述CPU利用率是否大于第三预设值,若大于所述第三预设值,则触发所述硬件压缩卡对文件数据进行解压缩处理。
[0036]上述方案特点在于使用独立的硬件压缩卡进行数据的解压缩处理,因此减轻了CPU的计算负担,使得CPU可以专注于处理运算相关的任务,提高大数据计算的执行效率。
[0037]进一步地,所述文件数据包括文件系统中存储的数据、本地文件系统外存储的中间数据。
[0038]其中,所述硬件压缩卡中的压缩编解码器在Hadoop进程中的MapReduce阶段压缩中间数据;基于PCIe的硬件压缩卡自动加速所有压缩操作,在卸载主CPU的同时最大化性能;应用程序透明文件系统过滤位低于Hadoop分布式文件系统(HDFS),从而使用HDFS压缩所有文件。
[0039]进一步地,所述硬件压缩卡进行解压缩处理的文件数据是指由内存向磁盘传输的文件数据。
[0040]进一步地,根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理的过程为:
[0041]所述网络传输速率、所述磁盘读写速率分别小于第一预设值、第二预设值时,进一步比
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1