账号数据集的处理方法、装置和存储介质及电子设备与流程

文档序号:37012123发布日期:2024-02-09 13:01阅读:17来源:国知局
账号数据集的处理方法、装置和存储介质及电子设备与流程

本技术涉及计算机领域,具体而言,涉及一种账号数据集的处理方法、装置和存储介质及电子设备。


背景技术:

1、在账号数据集的处理场景中,通常会先利用二进制全量储存的方式,构建账号数据集,但二进制构建的账号数据集,对于一个维度数据通常只能包含0或1两种状态,如同一维度下用户有多种的行为类型(a/b/c),则需要更多的维度来表示和计算(是否为a/是否为b/是否为c);且二进制储存只能储存64位的行为类型,无法储存更多数据,若维度为日期,则一个字段只能够储存用户在64天内的行为类型,而实际业务场景中往往需要考虑至少1年或更长的时间周期,此时也需要更多个字段(1-64天,65-128天)来表示和存储用户的行为类型。

2、由此可见,若想二进制构建的账号数据集适用于实际业务场景,则需要构建出较大量级的账号数据集,而较大量级的账号数据集不利于数据处理的高效执行,进而导致账号数据集的处理效率较低的问题出现。因此,存在账号数据集的处理效率较低的问题。

3、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本技术实施例提供了一种账号数据集的处理方法、装置和存储介质及电子设备,以至少解决账号数据集的处理效率较低的技术问题。

2、根据本技术实施例的一个方面,提供了一种账号数据集的处理方法,包括:获取全量账号数据集,其中,上述全量账号数据集中包括至少一条行为数据,上述行为数据由账号标识、第一时间标识、第二时间标识,和类型标识序列组成,上述账号标识用于指示上述行为数据所属的用户账号,上述第一时间标识用于指示开始写入上述行为数据的第一时间点,上述第二时间标识用于指示最后更新上述行为数据的第二时间点,从上述第一时间点至上述第二时间点之间包含n个单位时间点,上述类型标识序列包括n个按序排列的类型标识,上述类型标识用于指示上述用户账号在对应的上述单位时间点执行的行为所属的行为类型,n为大于或等于2的整数;响应于对上述全量账号数据集执行的数据处理请求,从上述全量账号数据集中筛选或统计出自定义数据集,其中,上述数据处理请求用于请求按照自定义条件对上述全量账号数据集进行筛选或统计,上述自定义数据集中包括与上述自定义条件匹配的行为数据。

3、根据本技术实施例的另一方面,还提供了一种账号数据集的处理装置,包括:获取单元,用于获取全量账号数据集,其中,上述全量账号数据集中包括至少一条行为数据,上述行为数据由账号标识、第一时间标识、第二时间标识,和类型标识序列组成,上述账号标识用于指示上述行为数据所属的用户账号,上述第一时间标识用于指示开始写入上述行为数据的第一时间点,上述第二时间标识用于指示最后更新上述行为数据的第二时间点,从上述第一时间点至上述第二时间点之间包含n个单位时间点,上述类型标识序列包括n个按序排列的类型标识,上述类型标识用于指示上述用户账号在对应的上述单位时间点执行的行为所属的行为类型,n为大于或等于2的整数;处理单元,用于响应于对上述全量账号数据集执行的数据处理请求,从上述全量账号数据集中筛选或统计出自定义数据集,其中,上述数据处理请求用于请求按照自定义条件对上述全量账号数据集进行筛选或统计,上述自定义数据集中包括与上述自定义条件匹配的行为数据。

4、作为一种可选的方案,上述处理单元,包括:筛选模块,用于响应于对上述全量账号数据集执行的数据筛选请求,从上述全量账号数据集中筛选出自定义时间数据集,其中,上述数据处理请求包括上述数据筛选请求,上述自定义数据集包括上述自定义时间数据集,上述数据筛选请求用于请求从上述全量账号数据集中筛选出第一自定义时间点与第二自定义时间点之间的行为数据,上述第一自定义时间点与第二自定义时间点之间包括自定义时间段,上述自定义条件包括上述至少两个自定义时间点之间的筛选条件,上述自定义时间数据集中包括上述自定义时间段内的行为数据。

5、作为一种可选的方案,上述装置还包括以下至少之一:第一确定模块,用于在上述从上述全量账号数据集中筛选出自定义时间数据集之前,在上述第一自定义时间点位于上述第一时间点之前、上述第二自定义时间点位于上述第二时间点之后的情况下,将上述第一时间点与上述第二时间点之间的时间段确定为上述自定义时间段;第二确定模块,用于在上述从上述全量账号数据集中筛选出自定义时间数据集之前,在上述第一自定义时间点位于上述第一时间点之后、上述第二自定义时间点位于上述第二时间点之后的情况下,将上述第一自定义时间点与上述第二时间点之间的时间段确定为上述自定义时间段;第三确定模块,用于在上述从上述全量账号数据集中筛选出自定义时间数据集之前,在上述第一自定义时间点位于上述第一时间点之后、上述第二自定义时间点位于上述第二时间点之前的情况下,将上述第一自定义时间点与上述第二自定义时间点之间的时间段确定为上述自定义时间段;第四确定模块,用于在上述从上述全量账号数据集中筛选出自定义时间数据集之前,在上述第一自定义时间点位于上述第一时间点之前、上述第二自定义时间点位于上述第二时间点之前的情况下,将上述第一时间点与上述第二自定义时间点之间的时间段确定为上述自定义时间段。

6、作为一种可选的方案,上述处理单元,包括:统计模块,用于响应于对上述全量账号数据集执行的数据统计请求,对上述全量账号数据集进行汇总计算,得到自定义类型数据集,其中,上述数据处理请求包括上述数据统计请求,上述自定义数据集包括上述自定义类型数据集,上述数据统计请求用于请求利用上述自定义统计条件对上述全量账号数据集中的行为数据进行汇总计算,上述自定义统计条件为依据上述行为类型自定义得到的统计条件,上述自定义条件包括上述自定义统计条件,上述自定义类型数据集中包括满足上述自定义统计条件的行为数据。

7、作为一种可选的方案,上述统计模块,包括:第一统计模块,用于在上述行为类型包括第一类型和第二类型、且上述自定义统计条件为统计各个上述用户账号最高行为优先级的行为类型的情况下,将上述类型标识指示上述第一类型和上述第二类型的用户账号最高行为优先级的行为类型确定为上述第二类型,以及将上述类型标识指示上述第一类型的用户账号最高行为优先级的行为类型确定为上述第一类型,其中,上述第二类型的行为优先级高于上述第一类型的行为优先级。

8、作为一种可选的方案,上述统计模块,包括:第二统计模块,用于在上述自定义统计条件为统计的上述行为类型发生变更的第一用户账号的情况下,将上述类型标识序列上存在连续且不同的至少两个上述类型标识的用户账号,确定为上述第一用户账号。

9、作为一种可选的方案,上述统计模块,包括:第三统计模块,用于在上述自定义统计条件为统计上述类型标识序列上以相同的类型标识为起点和终点之间的范围行为数据的情况下,获取上述类型标识序列上存在的上述相同的类型标识为起点和终点之间的至少一个类型标识,并将上述至少一个类型标识确定为上述范围行为数据。

10、作为一种可选的方案,上述装置还包括:确定单元,用于在上述获取全量账号数据集之后,在获取到任一用户账号新的行为数据的情况下,按照上述任一用户账号对应的账号标识从上述全量账号数据集中确定出上述任一用户账号对应的全量数据集;更新单元,用于在上述获取全量账号数据集之后,在上述新的行为数据的行为时间点位于上述全量数据集中记录的第二时间点之后的情况下,更新上述全量数据集中记录的第二时间标识,得到上述更新后的第二时间标识,其中,上述更新后的第二时间标识用于指示上述新的行为数据的行为时间点;新增单元,用于在上述获取全量账号数据集之后,在获取到上述新的行为数据的行为类型的情况下,在上述全量数据集中记录的类型标识序列上的更新位置处,新增新的类型标识,其中,上述新的类型标识用于指示上述新的行为数据的行为类型,上述更新位置为上述类型标识序列上与上述更新后的第二时间标识对应的标识位置。

11、作为一种可选的方案,上述获取单元,包括:获取模块,用于获取包括商家标识的全量账号数据集,其中,上述商家标识用于指示上述用户账号执行行为时的执行对象;上述处理单元,包括:处理模块,用于响应于对上述全量账号数据集执行的商家数据处理请求,从上述包括商家标识的全量账号数据集中统计出自定义商家数据集,其中,上述数据处理请求包括上述商家数据处理请求,上述自定义数据集包括上述自定义商家数据集,上述商家数据处理请求用于请求从上述全量账号数据集中统计出以目标商家作为执行对象的第二用户账号。

12、根据本技术实施例的又一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上账号数据集的处理方法。

13、根据本技术实施例的又一方面,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的账号数据集的处理方法。

14、在本技术实施例中,获取全量账号数据集,其中,上述全量账号数据集中包括至少一条行为数据,上述行为数据由账号标识、第一时间标识、第二时间标识,和类型标识序列组成,上述账号标识用于指示上述行为数据所属的用户账号,上述第一时间标识用于指示开始写入上述行为数据的第一时间点,上述第二时间标识用于指示最后更新上述行为数据的第二时间点,从上述第一时间点至上述第二时间点之间包含n个单位时间点,上述类型标识序列包括n个按序排列的类型标识,上述类型标识用于指示上述用户账号在对应的上述单位时间点执行的行为所属的行为类型,n为大于或等于2的整数;响应于对上述全量账号数据集执行的数据处理请求,从上述全量账号数据集中筛选或统计出自定义数据集,其中,上述数据处理请求用于请求按照自定义条件对上述全量账号数据集进行筛选或统计,上述自定义数据集中包括与上述自定义条件匹配的行为数据。通过由账号标识、第一时间标识、第二时间标识,和类型标识序列组成的行为数据构建全量账号数据集,使得全量账号数据集可针对各个行为类型的行为数据,且按照写入上述行为数据的第一时间点,和最后更新上述行为数据的第二时间点,对各个行为类型的行为数据进行有限量级的全量存储,方便于后续的数据处理,进而达到了使用利于数据处理的高效执行的全量账号数据集进行行为数据的存储目的,从而实现了提高账号数据集的处理效率的技术效果,进而解决了账号数据集的处理效率较低的技术问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1