一种数据处理方法及装置与流程

文档序号:12747721阅读:343来源:国知局
一种数据处理方法及装置与流程

本发明涉及互联网技术领域,尤其涉及一种数据处理方法及装置。



背景技术:

互联网科技的发展使得数据量急剧增加,在数据科技的大力发展下,人们所能存储、处理的数据已经达到前所未有的量级,大数据的核心价值就是在于对于海量数据进行存储和统计分析。因此,如何对海量数据进行存储和管理成为当前亟待解决的问题。



技术实现要素:

本发明实施例提供一种数据处理方法及装置,用于提高用户行为数据的存储及统计效率。

一种数据处理方法,包括以下步骤:

当发生用户访问行为时,根据用户行为数据的时间戳确定所述用户行为数据对应的日期信息;

根据所述日期信息确定所述用户行为数据对应的待存储分区;

将所述用户行为数据存储至所述待存储分区中。

在一个实施例中,所述根据所述日期信息确定所述用户行为数据对应的待存储分区之前,所述方法还包括:

根据所述日期信息确定所述用户行为数据对应的分钟数;

将所述用户行为数据按所述分钟数进行分组,获得每分钟对应的参与用户临时表;

所述根据所述日期信息确定所述用户行为数据对应的待存储分区,包括:

根据所述日期信息确定所述用户行为数据在所述参与用户临时表中对应的待存储分区,所述参与用户临时表中包括用于存储所述用户行为数据的多个分区。

在一个实施例中,所述日期信息为秒数信息。

在一个实施例中,所述根据所述日期信息确定所述用户行为数据在所述参与用户临时表中对应的待存储分区,包括:

按照以下公式计算所述用户行为数据在所述参与用户临时表中对应的待存储分区n:

n=(s+8*3600)%(24*3600)

其中,所述s为所述用户行为数据对应的秒数值。

在一个实施例中,所述方法还包括:

确定所述参与用户临时表中的各分区的分区标识;包括:

计算所述日期信息距离格林威治开始时间的天数;

利用所述天数对预设数值取余,所述预设数值等于所述用户行为表中的分区个数;

根据所述取余后的数值确定所述参与用户临时表中的分区标识。

在一个实施例中,所述方法还包括:

根据已存储至所述用户行为表中的用户行为数据对应的日期信息,判断所述用户行为表中是否存在日期与当前日期之间的时长超过预设时长的无效用户行为数据;

当所述用户行为表中存在日期与当前日期之间的时长超过预设时长的无效用户行为数据时,删除日期在所述无效用户行为数据对应的日期之前的用户行为数据。

一种数据处理装置,包括:

第一确定模块,用于当发生用户访问行为时,根据用户行为数据的时间戳确定所述用户行为数据对应的日期信息;

第二确定模块,用于根据所述日期信息确定所述用户行为数据对应的待存储分区;

存储模块,用于将所述用户行为数据存储至所述待存储分区中。

在一个实施例中,所述装置还包括:

第三确定模块,用于在所述根据所述日期信息确定所述用户行为数据对应的待存储分区之前,根据所述日期信息确定所述用户行为数据对应的分钟数;

分组模块,用于将所述用户行为数据按所述分钟数进行分组,获得每分钟对应的参与用户临时表;

所述第二确定模块,用于根据所述日期信息确定所述用户行为数据在所述参与用户临时表中对应的待存储分区,所述参与用户临时表中包括用于存储所述用户行为数据的多个分区。

在一个实施例中,所述日期信息为秒数信息。

在一个实施例中,所述第二确定模块,用于按照以下公式计算所述用户行为数据在所述参与用户临时表中对应的待存储分区n:

n=(s+8*3600)%(24*3600)

其中,所述s为所述用户行为数据对应的秒数值。

本发明实施例的一些有益效果可以包括:

采用本发明实施例提供的技术方案,能够当发生用户访问行为时,根据用户行为数据的时间戳确定用户行为数据对应的日期信息,进而根据日期信息确定用户行为数据对应的待存储分区,并将用户行为数据存储至待存储分区中,便于后续对用户行为数据进行统计,实现了根据日期信息来管理用户行为数据的目的,从而使得用户行为数据的存储和管理更加系统化,在后续进行统计分析时,能够高效率地查找并提取需要统计分析的用户行为数据,提高了数据管理的效率。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例中一种数据处理方法的示意性流程图;

图2为本发明实施例中一种数据处理方法的示意性流程图;

图3为本发明实施例中一种数据处理方法中确定分区标识的示意性流程图;

图4为本发明实施例中一种数据处理装置的示意性框图;

图5为本发明实施例中另一种数据处理装置的示意性框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

图1为本发明实施例中一种数据处理方法的示意性流程图。如图1所示,该数据处理方法包括以下步骤S11-S13:

步骤S11,当发生用户访问行为时,根据用户行为数据的时间戳确定用户行为数据对应的日期信息。

步骤S12,根据日期信息确定用户行为数据对应的待存储分区。

步骤S13,将用户行为数据存储至待存储分区中。

在一个实施例中,执行步骤S12前,上述方法还包括以下步骤S21-S22:

步骤S21,根据日期信息确定用户行为数据对应的分钟数。

步骤S22,将用户行为数据按分钟数进行分组,获得每分钟对应的参与用户临时表。

该实施例中,将用户行为数据按分钟数进行分组,使得每分钟写入的用户行为数据都存储至各自对应的参与用户临时表中,便于后续对用户行为数据进行管理和统计。

执行完步骤S22之后,继续执行步骤S12此时,步骤S12可执行为以下步骤:根据日期信息确定用户行为数据在参与用户临时表中对应的待存储分区,参与用户临时表中包括用于存储用户行为数据的多个分区。

在一个实施例中,日期信息为秒数信息。

基于上述实施例,可按照如下公式(1)计算用户行为数据在参与用户临时表中对应的待存储分区n:

n=(s+8*3600)%(24*3600) (1)

其中,s为用户行为数据对应的秒数值,符号%表示求余数。

该实施例中,秒数信息即用户行为数据在当天的秒数值,例如,根据用户行为数据的时间戳确定出用户行为数据对应的日期信息为8月24日5时整,则该用户行为数据对应的秒数值s=5*3600(秒),因此,该用户行为数据对应的待存储分区n=(5*3600+8*3600)%(24*3600)=13。通常情况下,为方便数据统计,可将参与用户临时表中每个分区的分区标识设置为与待存储分区n的值一致,即,将参与用户临时表中的分区划分为第一分区、第二分区、第三分区等等。当n=13时,则用户行为数据的待存储分区为第十三分区。

在一个实施例中,参与用户临时表中的各分区的分区标识可通过如图3所示的步骤S31-S33确定:

步骤S31,计算日期信息距离格林威治开始时间的天数。

其中,格林威治时间是指位于英国伦敦郊区的皇家格林尼治天文台的标准时间,因为本初子午线被定义在通过那里的经线。格林威治开始时间即为1970年1月1日。

步骤S32,利用天数对预设数值取余,预设数值等于用户行为表中的分区个数。

步骤S33,根据取余后的数值确定参与用户临时表中的分区标识。

该实施例中,预设数值可设定为10,那么参与用户临时表中的分区个数为10。举例而言,用户行为数据对应的日期信息为2000年1月5日,首先执行步骤S31,由于格林威治开始时间为1970年1月1日,因此该日期信息距离格林威治开始时间的天数为30*365+5=10955天;然后执行步骤S32,10950/10取余数为5;最后执行步骤S33,确定用户行为数据在参与用户临时表中对应的分区标识为5,即第五分区。此外,当取余后的数值为0时,可将分区标识确定为10,即第十分区,也可将分区标识确定为0,即第零分区。

该实施例能够准确简便地确定出用户行为数据在参与用户临时表中对应的待存储分区,且根据格林威治开始时间计算的每个分区中仅能存储一天的数据,这使得后续对数据进行统计时,便于按照日期进行统一管理统计,从而提高数据处理的效率。

在一个实施例中,上述方法还包括以下步骤:根据已存储至用户行为表中的用户行为数据对应的日期信息,判断用户行为表中是否存在日期与当前日期之间的时长超过预设时长的无效用户行为数据;当用户行为表中存在日期与当前日期之间的时长超过预设时长的无效用户行为数据时,删除日期在无效用户行为数据对应的日期之前的用户行为数据。用户行为表每日运行一次,可在每次运行之前首先删除表中的无效用户行为数据,从而保证用户行为表始终保持较小的提及,以及上述所述的参与用户临时表也能始终保持最小的提及,便于提升数据统计的速度。

举例而言,为方便统计,用户行为表中仅保持7天的用户行为数据,当用户行为表中存在日期超过7天的用户行为数据,则该用户行为数据即为无效用户行为数据,系统会删除这些无效用户行为数据,以避免用户行为表中存储的用户行为数据的数据量过大的情况,进而避免数据量过大时影响数据管理的效率的情况。

该实施例中,通过删除日期在无效用户行为数据对应的日期之前的用户行为数据,能够避免用户行为表中存储的用户行为数据的数据量过大的情况,进而避免数据量过大时影响数据管理的效率的情况。

本发明提供的上述任一实施例中的数据处理方法至少能够达到以下有益效果:

采用本发明实施例提供的技术方案,能够当发生用户访问行为时,根据用户行为数据的时间戳确定用户行为数据对应的日期信息,进而根据日期信息确定用户行为数据对应的待存储分区,并将用户行为数据存储至待存储分区中,便于后续对用户行为数据进行统计,实现了根据日期信息来管理用户行为数据的目的,从而使得用户行为数据的存储和管理更加系统化,在后续进行统计分析时,能够高效率地查找并提取需要统计分析的用户行为数据,提高了数据管理的效率。

图4为本发明实施例中一种数据处理装置的示意性框图。如图4所示,该装置包括:

第一确定模块41,用于当发生用户访问行为时,根据用户行为数据的时间戳确定用户行为数据对应的日期信息;

第二确定模块42,用于根据日期信息确定用户行为数据对应的待存储分区;

存储模块43,用于将用户行为数据存储至待存储分区中。

在一个实施例中,如图5所示,装置还包括:

第三确定模块44,用于在根据日期信息确定用户行为数据对应的待存储分区之前,根据日期信息确定用户行为数据对应的分钟数;

分组模块45,用于将用户行为数据按分钟数进行分组,获得每分钟对应的参与用户临时表;

第二确定模块42,还用于根据日期信息确定用户行为数据在参与用户临时表中对应的待存储分区,参与用户临时表中包括用于存储用户行为数据的多个分区。

在一个实施例中,日期信息为秒数信息。

在一个实施例中,第二确定模块42,还用于按照以下公式计算用户行为数据在参与用户临时表中对应的待存储分区n:

n=(s+8*3600)%(24*3600)

其中,s为用户行为数据对应的秒数值。

采用本发明实施例提供的装置,能够当发生用户访问行为时,根据用户行为数据的时间戳确定用户行为数据对应的日期信息,进而根据日期信息确定用户行为数据对应的待存储分区,并将用户行为数据存储至待存储分区中,便于后续对用户行为数据进行统计,实现了根据日期信息来管理用户行为数据的目的,从而使得用户行为数据的存储和管理更加系统化,在后续进行统计分析时,能够高效率地查找并提取需要统计分析的用户行为数据,提高了数据管理的效率。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1