一种存储数据的方法和装置与流程

文档序号:21031340发布日期:2020-06-09 20:12阅读:130来源:国知局
本发明涉及计算机
技术领域
:,尤其涉及一种存储数据的方法和装置。
背景技术
::在大数据存储匹配查询场景中,通过布隆过滤器对数据进行存储,以此来对数据进行匹配查询。比如广告投放的场景中,将选择好的标签数据通过在数据库(如hive等)中进行数据筛选,然后将投放人群存储于布隆过滤器当中,以此来达到投放效果的实时性。在算法模型构建中,经常会使用hive或者spark对数据进行存储和使用,来提取模型的特征数据,然后以提取出的特征数据进行模型的匹配。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:在广告投放的场景中,如果投放标签变动,需要重新计算投放的人群,然后将投放人群存储于布隆过滤器中,这样会严重地影响时效性。而且在多个广告主同时投放时,如果投放广告主过多,需要多次访问布隆过滤器,如果存在请求响应延时,会导致投放效率大大降低,并且在投放时如果在选择标签后立刻需要投放,布隆过滤器无法支撑。而在构建算法模型时,如果利用hive或者spark进行特征提取,则会在数据查询阶段浪费许多的时间,而且不能将模型利用在实时计算的场景。技术实现要素:有鉴于此,本发明实施例提供一种存储数据的方法和装置,以解决数据查询效率低的技术问题。为实现上述目的,根据本发明实施例的一个方面,提供了一种存储数据的方法,包括:将用户标识进行拆分,得到第一标识和第二标识;将所述第一标识存储至主键,将所述第二标识存储至字段;将所述用户标识对应的标签数据转换为位数组,将所述位数组存储至主键值。可选地,将所述第一标识存储至主键,将所述第二标识存储至字段,包括:采用信息摘要算法计算所述第一标识的第一摘要值,将所述第一摘要值存储至主键;采用信息摘要算法计算所述第二标识的第二摘要值,将所述第二摘要值存储至字段。可选地,所述信息摘要算法为md5信息摘要算法。可选地,所述用户标识为m+n位数据,所述第一标识为所述用户标识中连续的前m位数据,所述第二标识为所述用户标识中连续的后n位数据。可选地,将所述用户标识对应的标签数据转换为位数组,包括:所述用户标识对应的标签数据中的每一个特征占用位数组中的一个比特位;其中,所述比特位的值表示所述比特位对应的特征是否存在。可选地,所述用户标识为用户设备号、用户手机号或者用户账号。可选地,将所述位数组存储至主键值之后,还包括:对各个主键及其对应的字段进行压缩,得到压缩列表。另外,根据本发明实施例的另一个方面,提供了一种存储数据的装置,包括:拆分模块,用于将用户标识进行拆分,得到第一标识和第二标识;第一存储模块,用于将所述第一标识存储至主键,将所述第二标识存储至字段;第二存储模块,用于将所述用户标识对应的标签数据转换为位数组,将所述位数组存储至主键值。可选地,所述第一存储模块还用于:采用信息摘要算法计算所述第一标识的第一摘要值,将所述第一摘要值存储至主键;采用信息摘要算法计算所述第二标识的第二摘要值,将所述第二摘要值存储至字段。可选地,所述信息摘要算法为md5信息摘要算法。可选地,所述用户标识为m+n位数据,所述第一标识为所述用户标识中连续的前m位数据,所述第二标识为所述用户标识中连续的后n位数据。可选地,所述第二存储模块还用于:所述用户标识对应的标签数据中的每一个特征占用位数组中的一个比特位;其中,所述比特位的值表示所述比特位对应的特征是否存在。可选地,所述用户标识为用户设备号、用户手机号或者用户账号。可选地,所述第二存储模块还用于:将所述位数组存储至主键值之后,对各个主键及其对应的字段进行压缩,得到压缩列表。根据本发明实施例的另一个方面,还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例所述的方法。根据本发明实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。上述发明中的一个实施例具有如下优点或有益效果:因为采用将用户标识进行拆分为第一标识和第二标识,将第一标识存储至主键,将第二标识存储至字段,将标签数据转换为位数组后存储至主键值的技术手段,所以克服了现有技术中数据查询效率低的技术问题。本发明实施例将bitmap与redis的hashmap存储结合,不但可以提高数据以主键进行查询时的查询效率,以达到毫秒级反馈速度,还可以显著提高数据的存储效率。本发明实施例尤其适用于大数据存储匹配查询场景,需要标签化处理的大存储量数据,并且需要支持高并发查询请求,要求限制在毫秒级查询数据请求的需求等场景。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本发明,不构成对本发明的不当限定。其中:图1是根据本发明实施例的存储数据的方法的主要流程的示意图;图2是根据本发明实施例的bitmap数据结构的示意图;图3是根据本发明实施例的hash表链表的示意图;图4是根据本发明一个可参考实施例的存储数据的方法的主要流程的示意图;图5是根据本发明另一个可参考实施例的存储数据的方法的主要流程的示意图;图6是根据本发明实施例的存储数据的装置的主要模块的示意图;图7是本发明实施例可以应用于其中的示例性系统架构图;图8是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。为了解决现有技术中存在的技术问题,本发明实施例提供了一种存储数据的方法,该方法将bitmap与redis的hashmap存储结合,不但能够提高查询效率,还可以解决存储效率低下的问题。图1是根据本发明实施例的存储数据的方法的主要流程的示意图。作为本发明的一个实施例,如图1所示,所述存储数据的方法可以包括:步骤101,将用户标识进行拆分,得到第一标识和第二标识。在该步骤中,首先将用户标识拆分为第一标识和第二标识,可以减少主键的数量,从而提高存储效率。可选地,所述用户标识为用户设备号、用户手机号或者用户账号。可选地,所述用户标识为m+n位数据,所述第一标识为所述用户标识中连续的前m位数据,所述第二标识为所述用户标识中连续的后n位数据。如果用户标识为32位,则可以将该32位的用户标识拆分为包含前22位的第一标识和包含后10位的第二标识,也可以将该32位的用户标识拆分为包含前16位的第一标识和包含后16位的第二标识,还可以将该32位的用户标识拆分为包含前15位的第一标识和包含后17位的第二标识,等等,本发明实施例对此不作限制。步骤102,将所述第一标识存储至主键,将所述第二标识存储至字段。通过redis的hashmap存储机制可以提高存储效率,由于在步骤101中将用户标识拆分成了第一标识和第二标识,因此利用hashmap存储策略存储将第一标识存储至主键、将第二标识存储至字段,可以减少主键的数量。可选地,步骤102可以包括:采用信息摘要算法计算所述第一标识的第一摘要值,将所述第一摘要值存储至主键;采用信息摘要算法计算所述第二标识的第二摘要值,将所述第二摘要值存储至字段。通过信息摘要算法分别计算第一标识的第一摘要值和第二标识的第二摘要值,使得第一摘要值和第二摘要值的数据长度相同,本发明实施例对数据进行拆分的同时,可以有效地将所有数据的长度进行统一,这样能够有效减少redis造成的内存碎片,从而进一步提高存储效率。可选地,所述信息摘要算法为md5信息摘要算法,进行数据长度转换,以统一第一摘要值和第二摘要值的数据长度,减少内存碎片。步骤103,将所述用户标识对应的标签数据转换为位数组,将所述位数组存储至主键值。将所述用户标识对应的标签数据转换为bitmap数据结构,然后将bitmap数据结构存储在hashmap的主键值上,以减少主键的数量。bitmap(即位数组)的基本原理就是用一个bit来标记某个元素对应的value,而key即是该元素。由于采用一个bit来存储一个数据,因此可以大大的节省空间,比如将男、女两个性别存储时,以1、0进行标识,那么如果为女性则保存为01,如果为男性则标识为10。可选地,将所述用户标识对应的标签数据转换为位数组,包括:所述用户标识对应的标签数据中的每一个特征占用位数组中的一个比特位;其中,所述比特位的值表示所述比特位对应的特征是否存在。如图2所示,可以预先设定每个比特位描述的特征,以特征“男性”为例,如果第五个比特位的值为1,说明该用户的标签数据中存在“男性”这一特征,以特征“青年”为例,如果第八个比特位的值为1,说明该用户的标签数据中存在“青年”这一特征。如果需要查询某一个用户的标签数据时,按照与步骤101相同的方法,对该用户的用户标识进行拆分,得到第一标识和第二标识,然后采用信息摘要算法计算第一摘要值和第二摘要值,最后通过第一摘要值(作为主键)和第二摘要值(作为字段),就可以匹配出主键值,也就是bitmap,根据bitmap中各个比特位的值(0或1)就可以查询出该用户的标签数据。利用bitmap数据结构对标签数据进行处理,以bit数组的形式将标签数据存储,可用尽可能少的空间,存储尽可能多的数据,利用此结构可大量压缩数据存储成本。本发明实施例通过redis存储bitmap数据,利用redis高效的高并发、高速反馈的机制,可以提高数据查询效率,从而实现毫秒级反馈的技术效果。可选地,在步骤103之后,还包括:对各个主键及其对应的字段进行压缩,得到压缩列表。如图3所示,redis在存储数据的时候会以hash表链表hashtable(哈希表)结构进行储存,所有的键值都会存储在redisdb.dict里面,而dict中不止存储hash表还存储了一些指针、rehash进度标识等等,所以如果redis的主键越多那么存储空间消耗的也就越大。而hashmap虽然存储结构也和hash表链表结构的存储方式相似,但是因为redis的hashmap在底层处理时会将hashtable压缩为ziplist(即压缩列表)结构,以此来提高存储效率。但是这种优化有一定限制,最好将hashmap中的字段限制在512个以内,防止hashmap快速膨胀,还要将主键的长度限制在64字节,主键值的长度限制在64字节(这个长度可以通过修改底层配置进行调节)。以此存储结构对数据进行存储,可以减少主键数量,将其分割在多个field中储存,在数据量开始不断增多,尤其是当数据量超过2000w的时候,存储空间消耗成指数下降,可大大节省存储空间。结论:ziplist结构储存比hashtable结构储存的存储效率高了至少7倍。因此,本发明实施例还解决了压缩存储空间会导致查询效率降低、提高查询效率会增加存储空间的技术问题。如果存在请求响应延时时,可以只进行一次数据调用就可以对多种标签情况进行匹配,并且在选择标签后,可以立刻进行标签数据的匹配。根据上面所述的各种实施例,可以看出本发明通过将用户标识进行拆分为第一标识和第二标识,将第一标识存储至主键,将第二标识存储至字段,将标签数据转换为位数组后存储至主键值的技术手段,解决了现有技术中数据查询效率低的技术问题。本发明实施例将bitmap与redis的hashmap存储结合,不但可以提高数据以主键进行查询时的查询效率,以达到毫秒级反馈速度,还可以显著提高数据的存储效率。本发明实施例尤其适用于大数据存储匹配查询场景,需要标签化处理的大存储量数据,并且需要支持高并发查询请求,要求限制在毫秒级查询数据请求的需求等场景。在广告投放的场景中,可以高效实时地对用户的标签数据进行匹配,并且在匹配后可以灵活快速地提取所需要的标签数据。在构建算法模型时,可以高效地提取模型所需的特征数据,从而提高算法模型的生成效率。图4是根据本发明一个可参考实施例的存储数据的方法的主要流程的示意图。作为本发明的又一个实施例,如图4所示,所述存储数据的方法可以包括:步骤401,将用户标识进行拆分,得到第一标识和第二标识。将用户标识拆分为第一标识和第二标识,可以减少主键的数量,从而提高存储效率。可选地,所述用户标识为用户设备号、用户手机号或者用户账号。可选地,所述用户标识为m+n位数据,所述第一标识为所述用户标识中连续的前m位数据,所述第二标识为所述用户标识中连续的后n位数据。步骤402,采用md5信息摘要算法计算所述第一标识的第一摘要值,将所述第一摘要值存储至主键。步骤403,采用md5信息摘要算法计算所述第二标识的第二摘要值,将所述第二摘要值存储至字段。通过md5信息摘要算法分别计算第一标识的第一摘要值和第二标识的第二摘要值,使得第一摘要值和第二摘要值的数据长度相同,本发明实施例对数据进行拆分的同时,可以有效地将所有数据的长度进行统一,这样能够有效减少redis造成的内存碎片,从而进一步提高存储效率。步骤404,将所述用户标识对应的标签数据转换为位数组,将所述位数组存储至主键值。将所述用户标识对应的标签数据转换为bitmap数据结构,然后将bitmap数据结构存储在hashmap的主键值上,以减少主键的数量。所述用户标识对应的标签数据中的每一个特征占用位数组中的一个比特位;其中,所述比特位的值表示所述比特位对应的特征是否存在。利用bitmap数据结构对标签数据进行处理,以bit数组的形式将标签数据存储,可用尽可能少的空间,存储尽可能多的数据,利用此结构可大量压缩数据存储成本。本发明实施例通过redis存储bitmap数据,利用redis高效的高并发、高速反馈的机制,可以提高数据查询效率,从而实现毫秒级反馈的技术效果。步骤405,对各个主键及其对应的字段进行压缩,得到压缩列表。另外,在本发明一个可参考实施例中存储数据的方法的具体实施内容,在上面所述存储数据的方法中已经详细说明了,故在此重复内容不再说明。图5是根据本发明另一个可参考实施例的存储数据的方法的主要流程的示意图。作为本发明的另一个实施例,以32位用户设备号为例,如图5所示,所述存储数据的方法可以包括:将32位用户设备号进行拆分,得到前22位数据(即第一标识)和后10为数据(即第二标识)。采用md5信息摘要算法计算前22位数据的第一摘要值,将计算得到的第一摘要值存储至主键。采用md5信息摘要算法计算后10位数据的第二摘要值,将计算得到的第二摘要值存储至字段。获取该32位用户设备号对应的标签数据,将标签数据转化为1、0数据结构,标签数据中的每一个特征占用位数组中的一个比特位。其中,所述比特位的值(1或0)表示所述比特位对应的特征是否存在。将1、0数据结构转化为bitmap数据结构,然后将bitmap数据结构存储至主键值。另外,在本发明另一个可参考实施例中存储数据的方法的具体实施内容,在上面所述存储数据的方法中已经详细说明了,故在此重复内容不再说明。图6是根据本发明实施例的存储数据的装置的主要模块的示意图,如图6所示,所述存储数据的装置600包括拆分模块601、第一存储模块602和第二存储模块603。其中,拆分模块601用于将用户标识进行拆分,得到第一标识和第二标识;第一存储模块602用于将所述第一标识存储至主键,将所述第二标识存储至字段;第二存储模块603用于将所述用户标识对应的标签数据转换为位数组,将所述位数组存储至主键值。可选地,所述第一存储模块602还用于:采用信息摘要算法计算所述第一标识的第一摘要值,将所述第一摘要值存储至主键;采用信息摘要算法计算所述第二标识的第二摘要值,将所述第二摘要值存储至字段。可选地,所述信息摘要算法为md5信息摘要算法。可选地,所述用户标识为m+n位数据,所述第一标识为所述用户标识中连续的前m位数据,所述第二标识为所述用户标识中连续的后n位数据。可选地,所述第二存储模块603还用于:所述用户标识对应的标签数据中的每一个特征占用位数组中的一个比特位;其中,所述比特位的值表示所述比特位对应的特征是否存在。可选地,所述用户标识为用户设备号、用户手机号或者用户账号。可选地,所述第二存储模块603还用于:将所述位数组存储至主键值之后,对各个主键及其对应的字段进行压缩,得到压缩列表。根据上面所述的各种实施例,可以看出本发明通过将用户标识进行拆分为第一标识和第二标识,将第一标识存储至主键,将第二标识存储至字段,将标签数据转换为位数组后存储至主键值的技术手段,解决了现有技术中数据查询效率低的技术问题。本发明实施例将bitmap与redis的hashmap存储结合,不但可以提高数据以主键进行查询时的查询效率,以达到毫秒级反馈速度,还可以显著提高数据的存储效率。本发明实施例尤其适用于大数据存储匹配查询场景,需要标签化处理的大存储量数据,并且需要支持高并发查询请求,要求限制在毫秒级查询数据请求的需求等场景。在广告投放的场景中,可以高效实时地对用户的标签数据进行匹配,并且在匹配后可以灵活快速地提取所需要的标签数据。在构建算法模型时,可以高效地提取模型所需的特征数据,从而提高算法模型的生成效率。需要说明的是,在本发明所述存储数据的装置的具体实施内容,在上面所述存储数据的方法中已经详细说明了,故在此重复内容不再说明。图7示出了可以应用本发明实施例的存储数据的方法或存储数据的装置的示例性系统架构700。如图7所示,系统架构700可以包括终端设备701、702、703,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。服务器705可以是提供各种服务的服务器,例如对用户利用终端设备701、702、703所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的物品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、物品信息——仅为示例)反馈给终端设备。需要说明的是,本发明实施例所提供的存储数据的方法一般由服务器705执行,相应地,所述存储数据的装置一般设置在服务器705中。本发明实施例所提供的存储数据的方法也可以由终端设备701、702、703执行,相应地,所述存储数据的装置可以设置在终端设备701、702、703中。应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。下面参考图8,其示出了适于用来实现本发明实施例的终端设备的计算机系统800的结构示意图。图8示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图8所示,计算机系统800包括中央处理单元(cpu)801,其可以根据存储在只读存储器(rom)802中的程序或者从存储部分808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。在ram803中,还存储有系统800操作所需的各种程序和数据。cpu801、rom802以及ram803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。以下部件连接至i/o接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至i/o接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(cpu)801执行时,执行本发明的系统中限定的上述功能。需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括拆分模块、第一存储模块和第二存储模块,其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:将用户标识进行拆分,得到第一标识和第二标识;将所述第一标识存储至主键,将所述第二标识存储至字段;将所述用户标识对应的标签数据转换为位数组,将所述位数组存储至主键值。根据本发明实施例的技术方案,因为采用将用户标识进行拆分为第一标识和第二标识,将第一标识存储至主键,将第二标识存储至字段,将标签数据转换为位数组后存储至主键值的技术手段,所以克服了现有技术中数据查询效率低的技术问题。本发明实施例将bitmap与redis的hashmap存储结合,不但可以提高数据以主键进行查询时的查询效率,以达到毫秒级反馈速度,还可以显著提高数据的存储效率。本发明实施例尤其适用于大数据存储匹配查询场景,需要标签化处理的大存储量数据,并且需要支持高并发查询请求,要求限制在毫秒级查询数据请求的需求等场景。上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1