业务数据汇总方法及其系统与流程

文档序号:11620595阅读:795来源:国知局
业务数据汇总方法及其系统与流程

本申请涉及信息技术领域,尤其涉及一种业务数据汇总方法及其系统。



背景技术:

分布式存储场景下,数据汇总会面临很多问题,其中时效与成本是两个矛盾的因素。如果汇总频率高,则时效性也高,但是增加了网络传输成本以及存储的成本;如果汇总频率低,则时效性无法得到满足,且数据产生过快时,反而会加大汇总的成本。

在大数据场景下,随着汇总粒度的不断增长,数据汇总的成本也会随之增长,最终导致无法承受其汇总成本。综上所述,现有技术中缺少对于分布式存储的大数据的数据汇总的有效的解决方案,因此有必要提出改进的技术手段解决上述问题。



技术实现要素:

本申请实施例提供了一种业务数据汇总方法及其系统,以解决现有技术中的分布式存储的数据汇总成本较高的问题。

为了解决上述问题,根据本申请实施例提供一种业务数据汇总方法,其包括:通过分布式存储方式存储多个客户端产生的各业务数据;针对各业务数据,判断该业务数据是否属于热点数据,其中根据该业务数据对应的客户端的属性判断该业务数据是否属于热点数据;若是,则根据预设的第一数据汇总方式对所述热点数据进行业务数据汇总。

其中,在第一存储单元存储所述热点数据;所述根据预设的第一数据汇总方式对所述热点数据进行业务数据汇总,具体包括:待预设时间后,对所述第一存储单元存储的热点数据执行第一阶段数据汇总处理得到第一阶段汇总数据;将所述第一阶段汇总数据发送至第二存储单元进行存储;对所述第二存储单元存储的各第一阶段汇总数据执行第二阶段数据汇总处理。

其中,还包括:若判断所述业务数据属于非热点数据,则根据预设的第二数据汇总方式对所述非热点数据进行业务数据汇总。

其中,在第一存储单元存储所述非热点数据;所述根据预设的第二数据汇总方式对所述非热点数据进行业务数据汇总,具体包括:将所述非热点数据发送至第二存储单元进行存储;对所述第二存储单元存储的各非热点数据执行数据汇总处理。

其中,还包括:根据近期最少使用算法lru识别客户端是否属于热点客户端,若是则判断该热点客户端产生的业务数据属于热点数据。

其中,还包括:设置所述热点客户端的热点时段,所述热点客户端在热点时段产生的业务数据属于热点数据。

根据本申请实施例提供一种业务数据汇总系统,其包括:存储模块,用于通过分布式存储方式存储多个客户端产生的各业务数据;热点数据判断模块,用于针对各业务数据,判断该业务数据是否属于热点数据,其中根据该业务数据对应的客户端的属性判断该业务数据是否属于热点数据;第一汇总处理模块,用于若判断所述业务数据属于热点数据,则根据预设的第一数据汇总方式对所述热点数据进行业务数据汇总。

其中,所述存储模块包括:第一存储单元,用于存储热点数据;第二存储单元,用于存储汇总数据;所述第一汇总处理模块还用于,待预设时间后,对所述第一存储单元存储的热点数据执行第一阶段数据汇总处理得到第一阶段汇总数据;将所述第一阶段汇总数据发送至第二存储单元进行存储;对所述第二存储单元存储的各第一阶段汇总数据执行第二阶段数据汇总处理。

其中,还包括:第二汇总处理模块,用于若判断所述业务数据属于非热点数据,则根据预设的第二数据汇总方式对所述非热点数据进行业务数据汇总。

其中,所述第一存储单元,还用于存储非热点数据;第二存储单元,还用于存储非热点数据及汇总数据;所述第二汇总处理模块,还用于将所述非热点数据发送至第二存储单元进行存储;对所述第二存储单元存储的各非热点数据执行数据汇总处理。

其中,所述热点数据判断模块还用于,根据lru算法识别客户端是否属于热点客户端,若是则判断该热点客户端产生的业务数据属于热点数据。

其中,所述热点数据判断模块还用于,设置所述热点客户端的热点时段,所述热点客户端在热点时段产生的业务数据属于热点数据。

根据本申请的技术方案,通过判断业务数据是否属于热点数据,并根据判断结果使用对应的数据汇总方式,通过本申请能够有效降低分布式存储的大数据的数据汇总的成本。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请一个实施例的业务数据汇总方法的流程图;

图2是根据本申请另一实施例的业务数据汇总方法的流程图;

图3是根据本申请一个实施例的数据汇总的示意图;

图4是根据本申请一个实施例的业务数据汇总系统的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

以下结合附图,详细说明本申请各实施例提供的技术方案。

图1是根据本申请一个实施例的业务数据汇总方法的流程图,如图1所示,该方法包括以下步骤:

步骤s102,通过分布式存储方式存储多个客户端产生的各业务数据。

其中,所述客户端可以是指电子商务平台的客户端,这些客户端产生大量的业务数据。在本申请实施例中,这些大量的业务数据通过分布式存储方式存储在不同的存储单元。具体地,存储单元可以是一个存储分区、一块磁盘、一台计算机、一个数据库实例、一个数据库集群、一个机房等,本申请对存储单元的应用范围并不进行限制。

步骤s102,针对各业务数据,判断该业务数据是否属于热点数据,其中根据该业务数据对应的客户端的属性判断该业务数据是否属于热点数据。

在本申请实施例中,判断所存储的业务数据是否属于热点数据。其中,可以根据对应客户端的属性判断该客户端是否属于热点客户端,也就是说热点客户端在单位时间内产生的业务数据量大于预设值。进一步,热点客户端产生的业务数据属于热点数据。

步骤s104,若判断业务数据属于热点数据,则根据预设的第一数据汇总方式对所述热点数据进行业务数据汇总。

下面详细描述第一数据汇总方式:首先在第一存储单元存储所述热点数据,待预设时间后,对所述第一存储单元存储的热点数据执行第一阶段数据汇总处理,得到第一阶段汇总数据;然后将所述第一阶段汇总数据发送至第二存储单元进行存储,并对所述第二存储单元存储的各第一阶段汇总数据执行第二阶段数据汇总处理。简单来说,第一数据汇总方式对判断属于热点数据的业务数据执行二次数据汇总,其中第一次是在第一存储单元执行,第二次是在第二存储单元执行。

在本申请的一个实施例中,若判断所述业务数据属于非热点数据,则根据预设的第二数据汇总方式对所述非热点数据进行业务数据汇总。下面详细描述第二数据汇总方式:首先在第一存储单元存储所述非热点数据,将所述非热点数据发送至第二存储单元进行存储,并对所述第二存储单元存储的各非热点数据执行数据汇总处理。简单来说,第二数据汇总方式对判断属于非热点数据的业务数据只执行一次数据汇总,即仅在第二存储单元执行一次数据汇总,而不在第一存储单元执行数据汇总,因此在第一存储单元处不产生汇总成本。

下面结合图2详细描述上述处理的细节。图2是根据本申请另一实施例的业务数据汇总方法的流程图,如图2所示,该方法包括以下步骤:

步骤s202,存储多个客户端产生的业务数据。

在本申请实施例中,通过分布式存储方式存储多个客户端产生的业务数据。在实际实施中,可以根据地域划分存储方式,例如,在北京产生的业务数据存储在设置在北京的存储单元,在上海产生的业务数据存储在设置在上海的存储单元。此外,还可以按照其他维度进行分布式存储,此处不再赘述。

步骤s204,判断所存储的业务数据是否属于热点数据,若判断是则执行步骤s206,否则执行步骤s208。

在本申请实施例中,在判断所存储的业务数据是否属于热点数据时,可以根据对应客户端的属性判断该客户端是否属于热点客户端,也就是说热点客户端在单位时间内产生的业务数据量大于预设值。并且,还可以进一步设置所述热点客户端的热点时段,即热点客户端在热点时段产生的业务数据属于热点数据,而热点客户端在非热点时段产生的业务数据属于非热点数据。此外,对于突发性活动,热点数据识别可能会滞后,可以采用提前人工预测的方式,人工识别并设置热点客户端。由此,热点客户端产生的业务数据属于热点数据。在本申请的其他实施例中,还可以通过设置热点活动、热点商品等方式识别热点数据。需要说明,本申请对于热点数据的判断方式不进行限制。

步骤s206,按照第一数据汇总方式对热点数据进行业务数据汇总。

具体来说,如果识别业务数据属于热点数据后,将热点数据进行标记,等待进行第一阶段数据汇总。待预设时间后,根据标记对热点数据进行第一阶段数据汇总,第一阶段数据汇总也可称为单元汇总。单元汇总完成之后,将单元数据发送到汇总点装置执行第二阶段汇总。在本申请中,所述汇总点装置是指执行最终汇总处理的装置。一般地,处理单元汇总的装置与存储热点数据的装置设置在同一系统或同一地域,而汇总点装置与处理单元汇总的装置设置在不同的地域。例如,在北京产生的热点数据在北京执行第一阶段数据汇总,在上海产生的热点数据在上海执行第一阶段数据汇总,在北京单元汇总的第一阶段汇总数据和在上海单元汇总的第一阶段汇总数据发送至汇总点装置(可以设置在第三地),并由汇总点装置执行第二阶段汇总。

步骤s208,按照第二数据汇总方式对非热点数据进行业务数据汇总。

具体来说,如果识别业务数据属于非热点数据,则直接将交易数据复制到汇总点装置,由汇总点装置进行数据汇总。也就是说,对非热点数据的业务数据并不执行单元汇总,仅在汇总点装置执行一次数据汇总。例如,在北京产生的非热点数据复制后直接发送到汇总点装置(可以设置在第三地),在上海产生的热点数据复制后直接发送到汇总点装置,由汇总点装置执行一次数据汇总。

需要说明,数据汇总的汇总粒度可以根据多种维度进行设置,以交易数据为例,如果以商家维度进行数据汇总,假设有100万商家,则汇总粒度为100万;如果以商品维度进行数据汇总,假设商品有1亿种,则汇总粒度为1亿。汇总粒度不随交易数据的增加而增加,汇总粒度根据汇总维度的颗粒数决定。

下面结合图3描述本申请实施例。在本实施例中,将业务数据以交易数据为例进行描述。如图3所示,对电子商务平台的交易过程中产生的交易数据采用分布式存储方式进行存储,交易数据根据一定的存储规则分别存储在多个第一存储单元301中(为简明起见,图3中仅示出一个第一存储单元)。其中,可以根据数据产生的地域或其他规则分布式存储数据,本申请对此不进行限定。

判断第一存储单元301存储的交易数据是否属于热点数据,具体的判断过程请参考本说明书之前的描述,此处不再赘述。若判断第一存储单元301存储的交易数据属于热点数据,则为该热点数据进行标记,待预设时间后,将第一存储单元301存储的一或多个(笔、批)热点数据在本地执行第一次数据汇总(单元汇总),然后将单元汇总数据发送至第二存储单元302进行存储,并在第二存储单元302进行第二次汇总(汇总点装置汇总)。若判断第一存储单元301存储的交易数据属于非热点数据,则复制一份相同的数据到第二存储单元302进行存储,并在第二存储单元302进行一次数据汇总(汇总点装置汇总)。需要说明,第二存储单元302接收到的数据可以是多个第一存储单元301发送的数据,这些数据可以是热点数据(即经过第一次数据汇总处理),也可以是非热点数据(未经过第一次数据汇总处理)。

下面举例说明数据汇总的成本。假设商户数量为m,每分钟产生的交易数据为n,汇总频率为1分钟,每次汇总仅有20%的商户存在数据,交易数据和商户数据离散度(即存储单元的数量)均为100。

对于非热点数据,其数据汇总的每分钟的成本为:数据传输成本n,存储成本为n,汇总成本为m*20%;

对于热点数据,其数据汇总的每分钟的成本为:第一次汇总成本m*20%*100,数据传输成本m*20%*100,存储成本为m*20%*100,第二次汇总成本为m*20%。

根据本申请的上述实施例,判断业务数据是否属于热点数据,并使用对应业务数据类型的数据汇总方法,有效降低了汇总成本。

图4是根据本申请实施例的业务数据汇总系统的结构框图,如图4所示,该系统包括:

存储模块41,用于通过分布式存储方式存储多个客户端产生的各业务数据。

热点数据判断模块42,用于针对各业务数据,判断该业务数据是否属于热点数据,其中根据该业务数据对应的客户端的属性判断该业务数据是否属于热点数据。

第一汇总处理模块43,用于若判断所述业务数据属于热点数据,则根据预设的第一数据汇总方式对所述热点数据进行业务数据汇总。

在本申请的实施例中,所述存储模块41包括:第一存储单元(未示出),用于存储热点数据;第二存储单元(未示出),用于存储汇总数据;所述第一汇总处理模块43还用于,待预设时间后,对所述第一存储单元存储的热点数据执行第一阶段数据汇总处理得到第一阶段汇总数据;将所述第一阶段汇总数据发送至第二存储单元进行存储;对所述第二存储单元存储的各第一阶段汇总数据执行第二阶段数据汇总处理。

继续参考图4,所述系统还包括:

第二汇总处理模块44,用于若判断所述业务数据属于非热点数据,则根据预设的第二数据汇总方式对所述非热点数据进行业务数据汇总。

在本申请的一个实施例中,所述第一存储单元还用于存储非热点数据;第二存储单元,还用于存储非热点数据及汇总数据;所述第二汇总处理模块44还用于将所述非热点数据发送至第二存储单元进行存储;对所述第二存储单元存储的各非热点数据执行数据汇总处理。

在本申请的一个实施例中,所述热点数据判断模块42还用于,根据lru算法识别客户端是否属于热点客户端,若是则判断该热点客户端产生的业务数据属于热点数据。

在本申请的一个实施例中,所述热点数据判断模块42还用于,设置所述热点客户端的热点时段,所述热点客户端在热点时段产生的业务数据属于热点数据。

本申请的方法的操作步骤与装置的结构特征对应,可以相互参照,不再一一赘述。

综上所示,根据本申请的上述技术方案,通过判断业务数据是否属于热点数据,并根据判断结果使用对应的数据汇总方式,通过本申请能够有效降低分布式存储的大数据的数据汇总的成本。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1