一种大数据处理方法与流程

文档序号:12887317阅读:1070来源:国知局
一种大数据处理方法与流程

本发明涉及大数据处理技术领域,特别是涉及。



背景技术:

随着网络技术的发展,网络上存在的数据量越来越大,对这些数据进行处理是一个亟待解决的技术问题。

目前,互联网公司通常会根据各条数据的产生时间存储到存储服务器中,比如,在00:00:01产生了第一条数据,将该条数据打上时间戳00:00:01后,存储到存储服务器中;在00:00:02产生了第二条数据,将该条数据打上时间戳00:00:02后,存出道存储服务器中。在需要使用这些数据时,根据用户需求,从各个存储服务器中检索对应的数据,然后再使用这些数据。

但是,现有技术按照产生的时间顺序存储各条数据,会将含有不同预设内容和/或不同预设信息的数据存储到同一存储服务器上,还可能会出现,将相同预设内容和/或相同预设信息的数据存储到不同的存储服务器上,这样在用户搜索这些数据时候,需要检索所有的服务器,导致用户检索数据的耗时较长。



技术实现要素:

本发明实施例的目的在于提供一种大数据处理方法,以实现降低用户检索数据的耗时。具体技术方案如下:

为解决现有技术问题,本发明实施例提供了一种大数据处理方法,所述方法包括:

获得用户需求,其中,所述目标需求中包含预设内容,且所述预设内容,包括:用户id、用户硬件id以及用户的点击记录;

根据所述用户需求,将待处理数据流中与所述预设内容对应的数据流提取出来,得到目标待处理数据流;

根据所述目标待处理数据中包含的各条数据对应的预设信息,将所述目标待处理数据划分成多个子数据流,其中,所述预设信息包括:所述目标待处理数据中包含的各条数据对应的数据类型信息和/或所述目标待处理数据中包含的各条数据对应的时间信息;

针对每一子数据流,将该子数据流存储到对应的存储服务器中。

可选的,在根据所述用户需求,将待处理数据流中与所述预设内容对应的数据流提取出来,得到目标待处理数据流之前,所述方法还包括:

对待处理数据流中的说是有数据进行合法性验证,以去除不合法的数据。

可选的,所述根据所述用户需求,将待处理数据流中与所述预设内容对应的数据流提取出来,得到目标待处理数据流,包括:

针对待处理数据流中的每一条数据,将包含所述预设内容的数据作为目标待处理数据;

将获得的至少一条目标待处理数据的集合作为目标待处理数据流。

可选的,所述针对每一子数据流,将该子数据流存储到对应的存储服务器中,包括:

读取存储服务器中存储的数据的所述预设信息,包含有所述预设信息的子数据流存储到该存储服务器中。

可选的,所述方法还包括:

针对每一子数据流,获取所述子数据流包含的数据量的大小;

获取与所述子数据流包含的预设信息和预设内容对应的存储服务器,其中,所述存储服务器中存储的数据的具有与所述预设信息和预设内容相同的信息;

获取各个所述存储服务器剩余容量的大小;

判断是否存在剩余容量大于所述子数据流的包含的数据量的存储服务器;

若是,将所述子数据流切分后,分别存储到至少两个剩余容量小于所述子数据流的包含的数据量的存储服务器上,且所述至少两个剩余容量小于所述子数据流的包含的数据量的存储服务器的剩余容量之和,不小于所述子数据流的包含的数据量,并在用于存储所述子数据流的存储服务器内建立指向其他用于存储所述子数据流的存储服务器的文件;

若否,执行所述将该子数据流存储到对应的存储服务器中的步骤,其中,所述将该子数据流存储到对应的存储服务器中,包括:将所述子数据流存储到所述剩余容量大于所述子数据流的包含的数据量的存储服务器中。

可选的,所述指向其他用于存储所述子数据流的存储服务器的文件为,指向所述其他用于存储所述子数据流的存储服务器中存储所述子数据流的位置的文件。

本发明实施例提供了一种大数据处理方法,所述方法包括:获得用户需求,其中,所述目标需求中包含预设内容;根据所述用户需求,将待处理数据流中与所述预设内容对应的数据流提取出来,得到目标待处理数据流;根据所述目标待处理数据中包含的各条数据对应的预设信息,将所述目标待处理数据划分成多个子数据流;针对每一子数据流,将该子数据流存储到对应的存储服务器中。

应用本发明实施例提供的一种大数据处理方法,根据各条数据中包含的预设内容和预设信息,将不同的数据存储到对应的存储服务器上,在用户需要检索这些数据时,只需要检索对应的存储服务器,而不需要检索所有的存储服务器,相对于现有技术需要检索所有的存储服务器,检索的存储服务器的数量更少,因此,应用本发明实施例可以降低用户检索数据的耗时。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的第一种大数据处理方法。

图2为本发明实施例提供的第二种大数据处理方法。

图3为本发明实施例提供的第三种大数据处理方法。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为达到上述目的,本法发明实施例提供了一种大数据处理方法,下面对该方法进行详细介绍。

图1为本发明实施例提供的一种大数据处理方法,如图1所示,该方法包括:

s101:获得用户需求,其中,所述目标需求中包含预设内容,且所述预设内容,包括:用户id、用户硬件id以及用户的点击记录。

在实际应用中,若用户需求为对用户id为0001的数据进行处理。

需要说明的是,预设内容包括但不仅限于用户id、用户硬件id以及用户的点击记录,本发明再次并不对其做出限定。

s102:根据所述用户需求,将待处理数据流中与所述预设内容对应的数据流提取出来,得到目标待处理数据流。

可选的,在本发明实施例的一种具体实施方式中,可以针对待处理数据流中的每一条数据,将包含所述预设内容的数据作为目标待处理数据;将获得的至少一条目标待处理数据的集合作为目标待处理数据流。

在实际应用中,将包含用户id为0001的所有数据归集到一起,作为目标待处理数据流。

s103:根据所述目标待处理数据中包含的各条数据对应的预设信息,将所述目标待处理数据划分成多个子数据流,其中,所述预设信息包括:所述目标待处理数据中包含的各条数据对应的数据类型信息和/或所述目标待处理数据中包含的各条数据对应的时间信息。

在实际应用中,由于目标待处理数据流比较庞大,对其处理耗时较长,且目标待处理数据流中的每一条数据可能包含的预设信息比较多,因此根据每一条数据中包含的预设信息对目标待处理数据进行划分,得到多个子数据流。

例如,得到了包含数据类型信息的子数据流a;包含时间信息的子数据流b,其中所述时间信息可以为2017年4月1日00:00:00时刻以前。

需要强调的是,预设信息包括但不仅限于目标待处理数据中包含的各条数据对应的数据类型信息、目标待处理数据中包含的各条数据对应的时间信息,本发明实施例并不对预设信息包含的内容作出限定。

s104:针对每一子数据流,将该子数据流存储到对应的存储服务器中。

可选的,在本发明实施例的一种具体实施方式中,可以读取存储服务器中存储的数据的所述预设信息,包含有所述预设信息的子数据流存储到该存储服务器中。

在实际应用中,读取各个存储服务器中存储的数据的时间信息,如果读取的存储服务器m中的数据的时间信息为2017年4月1日00:00:00时刻以前,则将子数据流b存储到存储服务器m中。

在实际应用中,读取各个存储服务器中存储的数据的时间信息,如果读取的存储服务器m中的数据的时间信息为2017年4月1日00:00:00时刻以前;且该存储服务器也用于存储用户id为0001的数据时,将子数据流b存储到存储服务器m中。

应用本发明图1所示实施例提供的一种大数据处理方法,根据各条数据中包含的预设内容和预设信息,将不同的数据存储到对应的存储服务器上,在用户需要检索这些数据时,只需要检索对应的存储服务器,而不需要检索所有的存储服务器,相对于现有技术需要检索所有的存储服务器,检索的存储服务器的数量更少,因此,应用本发明实施例可以降低用户检索数据的耗时。

图2为本发明实施例提供的另一种大数据处理方法,本发明图2所示实施例在本发明图1所示实施例的基础上,在s102之前,增加了:

s105:对待处理数据流中的说是有数据进行合法性验证,以去除不合法的数据。

在实际应用中,如果该用户id是非法id,则将包含该用户id的数据全部去除。

在实际应用中,还可以根据用户硬件id对数据进行合法性验证。

应用本发明图2所示实施例可以去除不合法的数据,提高数据的安全性。

图3为本发明实施例提供的第三种大数据处理方法,本发明图3所示实施例在本发明图1所示实施例的基础上,增加了:

s105:针对每一子数据流,获取所述子数据流包含的数据量的大小。

示例性的,如果获取的子数据流b的数据量的大小为30m。

s106:获取与所述子数据流包含的预设信息和预设内容对应的存储服务器,其中,所述存储服务器中存储的数据的具有与所述预设信息和预设内容相同的信息。

示例性的,获取存储的数据包含预设信息和用户id0001的存储服务器x,其中,存储服务器x存储的数据的时间信息为2017年4月1日00:00:00时刻以前。

获取存储的数据包含预设信息和用户id0001的存储服务器y,其中,存储服务器y存储的数据的时间信息为2017年4月1日00:00:00时刻以前。

获取存储的数据包含预设信息和用户id0001的存储服务器z,其中,存储服务器z存储的数据的时间信息为2017年4月1日00:00:00时刻以前。

s107:获取各个所述存储服务器剩余容量的大小。

示例性的,获取存储服务器x、存储服务器y、存储服务器z的剩余容量分别为15m、1000m、20m。

s108:判断是否存在剩余容量大于所述子数据流的包含的数据量的存储服务器,在判断结果为否的情况下执行s109步骤;在判断结果为否的情况下执行s104步骤。

示例性的,显然存储服务器x的剩余容量小于子数据流b的数据量,因此存储服务器x不能用于存储子数据流b;执行s109步骤。

s109:将所述子数据流切分后,分别存储到至少两个剩余容量小于所述子数据流的包含的数据量的存储服务器上,且所述至少两个剩余容量小于所述子数据流的包含的数据量的存储服务器的剩余容量之和,不小于所述子数据流的包含的数据量,并在用于存储所述子数据流的存储服务器内建立指向其他用于存储所述子数据流的存储服务器的文件。

可选的,在本发明实施例的一种具体实施方式中,所述指向其他用于存储所述子数据流的存储服务器的文件为,指向所述其他用于存储所述子数据流的存储服务器中存储所述子数据流的位置的文件。

示例性的,如果判断结果为否,将子数据流b切分成大小分别为15m和15m两部分,将其中一部分存储到存储服务器x上,将另外一部分存储到存储服务器y上。并在存储服务器x建立一个文件,该文件用于纸箱服务器y中存储子数据流的另一部分数据的位置,以使数据管理设备更方便的检索到该子数据流。

另外,将一个子数据流切分成多个部分,分别存储,可以充分利用存储服务器的剩余容量,降低了投资成本。

可以理解的是,子数据流可以切分成三个部分或者更多、四个部分或者更多,本发明实施例对此并不做限定。而且,每一个用于存储子数据流的部分数据的存储服务器的剩余容量应该大于或者额等于该部分数据的数据量。

示例性的,在s108步骤的判断结果为否的情况下,将子数据流b存储到存储服务器y中。

应用本发明图3所示实施例,可以将子数据流单独存储,当用户需要使用该部分数据时,系统可以很快的检索到该部分数据,提高了效率。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1