一种数据处理方法、分布式文件系统及数据服务器与流程

文档序号:11251002
一种数据处理方法、分布式文件系统及数据服务器与流程

本发明涉及大数据分析领域,尤其涉及一种数据处理方法、分布式文件系统及数据服务器。



背景技术:

大数据分析,是指企业采用各种方式捕获到海量、多样、真实的数据,然后对这些数据进行分析处理。分布式文件系统是大数据分析的基础,其中包含多个数据服务器,为大数据分析提供所需的数据。分布式文件系统对应有多个客户端,各个客户端采用页面埋点技术收集用户行为数据,然后将采集的数据上报至分布式文件系统,由分布式文件系统过滤不合格的数据,保留合格的数据。

在现有技术中,分布式文件系统不能提供其内部的数据处理情况,从而无法为技术人员判断分布式文件系统的运行情况提供依据。



技术实现要素:

有鉴于此,本发明提供一种数据处理方法、分布式文件系统及数据服务器,以解决现有技术中分布式文件系统不能提供其内部的数据处理情况的问题。技术方案如下:

一种数据处理方法,所述方法应用于分布式文件系统,所述方法包括:

接收客户端上传的数据;

统计接收到所述客户端上传的所有数据的接收数据总条数;

过滤所述客户端上传的数据中的不合格数据;

统计过滤掉的所有不合格数据的过滤数据总条数。

上述的方法,优选的,所述分布式文件系统包括多个数据服务器;所述统计接收到所述客户端上传的所有数据的接收数据总条数,包括:

获取每个所述数据服务器接收到数据的接收数据条数;其中,所述接收数据条数由所述数据服务器统计该数据服务器所接收到的、所述客户端上传的数据的条数得到;

对获取的各个所述接收数据条数求和,得到所述接收数据总条数。

上述的方法,优选的,所述分布式文件系统包括多个数据服务器;所述统计过滤掉的所有不合格数据的过滤数据总条数,包括:

获取每个所述数据服务器过滤掉的不合格数据的过滤数据条数;其中,所述过滤数据条数由所述数据服务器统计该数据服务器过滤掉的不合格数据的条数得到;

对获取的各个所述过滤数据条数求和,得到所述过滤数据总条数。

上述的方法,优选的,还包括:

实时显示所述接收数据总条数和所述过滤数据总条数。

上述的方法,优选的,还包括:

按照预设周期,保存所述接收数据总条数和所述过滤数据总条数。

上述的方法,优选的,还包括:

当接收到包含目标时间范围的查询请求时,确定与所述目标时间范围相对应的单位时间;

按所述单位时间将所述目标时间范围划分成多个时间区间;

对于每一个所述时间区间,当所述时间区间内存在已保存的所述接收数据总条数和所述过滤数据总条数时,确定所述时间区间为目标时间区间;

依据已保存的所述接收数据总条数和所述过滤数据总条数,计算所述目标时间区间内的目标接收数据条数和目标过滤数据条数;

显示与每个所述目标时间区间相对应的目标接收数据条数和目标过滤数据条数。

上述的方法,优选的,所述依据已保存的所述接收数据总条数和所述过滤数据总条数,计算所述目标时间区间内的目标接收数据条数和目标过滤数据条数,包括:

在所述目标时间区间内,确定所述接收数据总条数的最大值和最小值,以及,确定所述过滤数据总条数的最大值和最小值;

对所述接收数据总条数的最大值和最小值做差,得到目标接收数据条数,以及,对所述过滤数据总条数的最大值和最小值做差,得到目标过滤数据条数。

一种数据处理方法,应用于数据服务器,包括:

接收客户端上传的数据;

统计所述数据服务器接收到的所述客户端上传的数据的接收数据条数;

过滤所述客户端上传的数据中的不合格数据;

统计所述数据服务器过滤掉的不合格数据的过滤数据条数。

一种分布式文件系统,包括统计装置和多个数据服务器,其中,所述统计装置包括第一统计单元和第二统计单元;其中:

所述数据服务器用于,接收客户端上传的数据;

所述第一统计单元用于,统计每个所述数据服务器接收到所述客户端上传的数据的接收数据总条数;

所述数据服务器还用于,过滤所述客户端上传的数据中的不合格数据;

所述第二统计单元用于,统计每个所述数据服务器过滤掉的不合格数据的过滤数据总条数。

一种数据服务器,包括:

接收单元,用于接收客户端上传的数据;

第一统计单元,用于统计所述数据服务器接收到的所述客户端上传的数据的接收数据条数;

过滤单元,用于过滤所述客户端上传的数据中的不合格数据;

第二统计单元,用于统计所述数据服务器过滤掉的不合格数据的过滤数据条数。

本发明提供了一种数据处理方法,应用于分布式文件系统,该方法包括:接收客户端上传的数据;统计接收到所述客户端上传的所有数据的接收数据总条数;过滤所述客户端上传的数据中的不合格数据;统计过滤掉的所有不合格数据的过滤数据总条数。从而使得,分布式文件系统对接收到客户端上传的所有数据的条数,以及,对过滤掉的所有不合格数据的条数,分别进行了统计,从而可使技术人员以统计的数据处理情况为依据,判断分布式文件系统的运行情况。

当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种数据处理方法的流程图;

图2为本发明提供的一种数据处理方法的又一流程图;

图3为本发明提供的一种数据处理方法的又一流程图;

图4为本发明提供的一种数据处理方法的又一流程图;

图5为本发明提供的一种数据处理方法的又一流程图;

图6为本发明提供的一种数据处理方法的又一流程图;

图7为本发明提供的一种数据处理方法的又一流程图;

图8为本发明提供的一种分布式文件系统的结构示意图;

图9为本发明提供的一种数据服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明中,客户端指的是智能电视、互联网电视机顶盒、有线电视机顶盒、智能手机、平板电脑和计算机等终端设备。

实施例一

本发明提供的一种数据处理方法的流程图如图1所示,该方法应用于分布式文件系统,包括:

步骤S11:接收客户端上传的数据;

本实施例中,分布式文件系统对应有多个客户端,各客户端采用“埋点”的方式采集用户的行为数据。客户端埋点采集的数据,当满足以下两个条件中的任意一个时,即进行上传。两个条件为:①用户行为数据满足预设条数,如20条,预设条数可以根据实际情况进行设置;②满足预设时间间隔,如1分钟,同样的,预设时间间隔也可以根据实际情况进行设置。

分布式文件系统接收客户端上传的数据。

步骤S12:统计接收到所述客户端上传的所有数据的接收数据总条数;

本实施例中,在所有客户端上传的数据中,对于接收到的所有数据,分布式文件系统统计它们的条数,作为接收数据总条数。接收数据总条数是一个累计值。

步骤S13:过滤所述客户端上传的数据中的不合格数据;

本实施例中,步骤S13即为,分布式文件系统对接收到的所有数据中的不合格数据进行过滤。不合格数据即不符合上报规范的数据。不合格数据如果不被筛除,将会占据真实数据的比例,最后导致大数据分析时结果失真。

步骤S14:统计过滤掉的所有不合格数据的过滤数据总条数。

本实施例中,对于在分布式文件系统中被过滤掉的所有不合格数据,分布式文件系统统计它们的条数,作为过滤数据总条数。过滤数据总条数是一个累计值。

本实施例提供的数据处理方法,接收客户端上传的数据;统计接收到所述客户端上传的所有数据的接收数据总条数;过滤所述客户端上传的数据中的不合格数据;统计过滤掉的所有不合格数据的过滤数据总条数。从而使得,分布式文件系统对接收到客户端上传的所有数据的条数,以及,对过滤掉的所有不合格数据的条数,分别进行了统计,从而可使技术人员以统计的数据处理情况为依据,判断分布式文件系统的运行情况。

在前述的基础上,进一步的,本实施例提供的数据处理方法,可以应对客户端数据采集机制、生成机制、上报机制等问题。数据采集机制存在问题使客户端无法正常采集数据,数据上报机制存在问题使客户端无法上报数据,数据生成机制存在问题使客户端上报的数据不符合规范而被过滤。这些问题,会使整个大数据系统出现异常。例如,广东省网数据采集机制出现程序异常导致没有采集到数据,进而会使分布式文件系统无法从广东省接收到数据,整个大数据系统也会因此出现异常。

如前述所说,本实施例提供的方法可使技术人员以统计的数据处理情况为依据,判断分布式文件系统的运行情况,也就可以及时发现数据采集机制、生成机制、上报机制等存在问题,避免数月过后发现无合格数据上报才给出补救措施的情况出现。

实施例二

在实施例一的基础上,本实施例具体介绍实施例一中步骤S12和步骤S14的具体过程。在本实施例中,首先需要说明的是,在分布式文件系统中,包括多个数据服务器。

在分布式文件系统中,接收客户端上传的数据,以及,过滤客户端上传的数据中的不合格数据,均由系统内的各个数据服务器完成。同样的,与分布式文件系统对应的多个客户端,则是分别与各个数据服务器相对应。

对于步骤S12,本发明提供的一种数据处理方法的又一流程图如图2所示,示出了统计接收到所述客户端上传的所有数据的接收数据总条数的具体步骤,包括:

步骤S21:获取每个所述数据服务器接收到数据的接收数据条数;其中,所述接收数据条数由所述数据服务器统计该数据服务器所接收到的、所述客户端上传的数据的条数得到;

本实施例中,对于任意一个数据服务器,该数据服务器对其所接收到的、客户端上传的数据的条数进行统计,得到该数据服务器的接收数据条数。分布式文件系统获取每个数据服务器的接收数据条数。

数据服务器本身在统计接收数据条数时,可采用以下方法:只要成功接收到一条客户端上传的数据,及可认定为一条数据的成功上传,将接收数据条数作加1处理,依此方法累计接收数据条数。更具体的,这个过程是由数据服务器内置的函数完成的,每成功接收到一条数据,函数累计值加1。

步骤S22:对获取的各个所述接收数据条数求和,得到所述接收数据总条数。

本实施例中,对获取的各个数据服务器的接收数据条数求和,即为分布式文件系统的接收数据总条数。

对于步骤S14,本发明提供的一种数据处理方法的又一流程图如图3所示,示出了统计过滤掉的所有不合格数据的过滤数据总条数的具体步骤,包括:

步骤S31:获取每个所述数据服务器过滤掉的不合格数据的过滤数据条数;其中,所述过滤数据条数由所述数据服务器统计该数据服务器过滤掉的不合格数据的条数得到;

本实施例中,对于任意一个数据服务器,该数据服务器对其接收到的、客户端上传的数据进行过滤,并对所过滤掉的不合格数据的条数进行统计,得到该数据服务器的过滤数据条数。分布式文件系统获取每个数据服务器的过滤数据条数。

数据服务器本身在统计过滤数据条数时,可采用以下方法:只要过滤掉一条数据,就将过滤数据条数作加1处理,依此方法累计过滤数据条数。更具体的,这个过程同样是由数据服务器内置的函数完成的,每过滤掉一条数据,函数累计值加1。

步骤S32:对获取的各个所述过滤数据条数求和,得到所述过滤数据总条数。

本实施例中,对获取的各个数据服务器的过滤数据条数求和,即为分布式文件系统的过滤数据总条数。

在本实施例中,还需要说明的是,对于图2和图3所示的数据处理方法,优选的,可以基于Zabbix(一个基于Web界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案)来实现其中的获取过程和求和过程。Zabbix可以实时监视并获取各个数据服务器的接收数据条数和过滤数据条数,并可以对这两者各自求和,得到接收数据总条数和过滤数据总条数。

实施例三

在实施例一的基础上,本发明提供的一种数据处理方法的又一流程图如图4所示,在步骤S14之后,还可以包括:

步骤S15:实时显示所述接收数据总条数和所述过滤数据总条数。

本实施例提供的数据处理方法,将接收数据总条数和过滤数据总条数实时显示,便于直观查看。显示时可以采用单一的数字显示方式,也可以采用数字、曲线图相结合的方式,曲线图内保留一个历史时间段(如1小时等)的历史曲线。

实施例四

在实施例一的基础上,本发明提供的一种数据处理方法的又一流程图如图5所示,包括:

步骤S41:接收客户端上传的数据;

步骤S42:统计接收到所述客户端上传的所有数据的接收数据总条数;

步骤S43:过滤所述客户端上传的数据中的不合格数据;

步骤S44:统计过滤掉的所有不合格数据的过滤数据总条数。

步骤S45:按照预设周期,保存所述接收数据总条数和所述过滤数据总条数;

本实施例中,预设周期可以根据实际需求进行设置,通常可以为1分钟。在保存时,同时记录保存时间,以便于后期的历史查询,或者作为基础数据被使用。

步骤S46:当接收到包含目标时间范围的查询请求时,确定与所述目标时间范围相对应的单位时间;

本实施例中,目标时间范围通常是某一天、某一月或者某一年。对于某一天,其相对应的单位时间是小时;对于某一月,其相对应的单位时间是天;对于某一年,其相对应的单位时间是月。根据目标时间范围确定相对应的单位时间。

考虑到本实施例中,最小的单位时间为1小时,同时,各个单位时间的起点都是某小时的起点,各个单位时间的终点都是某小时的终点。因此,步骤S45中的预设周期在设置时应相匹配,在时间覆盖和节约系统资源综合考虑,1分钟为佳。

步骤S47:按所述单位时间将所述目标时间范围划分成多个时间区间;

本实施例中,将目标时间范围按对应的单位时间划分为多个时间区间,如,对于某一天,将其划分为24小时,即24个时间区间。

步骤S48:对于每一个所述时间区间,当所述时间区间内存在已保存的所述接收数据总条数和所述过滤数据总条数时,确定所述时间区间为目标时间区间;

本实施例中,对于目标时间范围,可能存在以下情况:该目标时间范围内不存在已保存的接收数据总条数和过滤数据总条数;该目标时间范围内包含有不存在已保存的接收数据总条数和过滤数据总条数的时间段。由于这些情况的存在,因此,对于步骤S47中划分出的多个时间区间,首先确定存在已保存的接收数据总条数和过滤数据总条数的时间区间为目标时间区间。

步骤S49:依据已保存的所述接收数据总条数和所述过滤数据总条数,计算所述目标时间区间内的目标接收数据条数和目标过滤数据条数;

本实施例中,分布式文件系统对于每一个目标时间区间,依据该目标时间区间内的、已保存的接收数据总条数,计算目标接收数据条数;依据该目标时间区间内的、已保存的过滤数据总条数,计算目标过滤数据条数

步骤S410:显示与每个所述目标时间区间相对应的目标接收数据条数和目标过滤数据条数。

本实施例中,分布式文件系统在计算得到各个目标时间区间的目标接收数据条数和目标过滤数据条数后,可以按表格的形式,或者折线图的形式,将它们显示出来。

本实施例提供的数据处理方法,分布式文件系统提供了历史数据追溯的功能,可以直观的反应所要查询的一个历史时期内各目标时间区间的目标接收数据条数和目标过滤数据条数。从而,使技术人员可以以此为依据,分析数据走向,进而从中判断分布式文件系统的运行情况。

本实施例中,优选的,提供一种数据处理方法的又一流程图如图6所示,示出了依据已保存的所述接收数据总条数和所述过滤数据总条数,计算所述目标时间区间内的目标接收数据条数和目标过滤数据条数的具体步骤,包括:

步骤S51:在所述目标时间区间内,确定所述接收数据总条数的最大值和最小值,以及,确定所述过滤数据总条数的最大值和最小值;

本实施例中,之所以采用确定接收数据总条数的最大值和最小值、确定过滤数据总条数的最大值和最小值,是因为,接收数据总条数和过滤数据总条数均为累计值,也就是说,在一个目标时间区间内,存在已保存的接收数据总条数和过滤数据总条数的最初时刻必然对应接收数据总条数和过滤数据总条数两者的最小值,最末时刻必然对应两者的最大值。还需要说明的是,在本实施例中,对于接收数据总条数和过滤数据总条数,在目标时间区间内,任意一者的最大值和最小值可以相等。

步骤S52:对所述接收数据总条数的最大值和最小值做差,得到目标接收数据条数,以及,对所述过滤数据总条数的最大值和最小值做差,得到目标过滤数据条数。

实施例五

本发明提供的一种数据处理方法的又一流程图如图7所示,该方法应用于数据服务器,包括:

步骤S61:接收客户端上传的数据;

本实施例中,分布式文件系统内包含多个数据服务器,分布式文件系统接收客户端上传的数据,其实质上是,各个数据服务器接收与其各自相对应的客户端上传的数据。

客户端采集、上传数据的情况如实施例一种步骤S11处所述,不再赘述。

步骤S62:统计所述数据服务器接收到的所述客户端上传的数据的接收数据条数;

本实施例中,对该数据服务器所接收到的、客户端上传的数据的条数进行统计,得到该数据服务器的接收数据条数。接收数据条数是一个累计值。

更具体的,只要成功接收到一条客户端上传的数据,及可认定为一条数据的成功上传,将接收数据条数作加1处理,依此方法累计接收数据条数。这个过程可以由数据服务器内置的函数完成的,每成功接收到一条数据,函数累计值加1。

步骤S63:过滤所述客户端上传的数据中的不合格数据;

本实施例中,对于该数据服务器接收到的数据中的不合格数据进行过滤。不合格数据即不符合上报规范的数据。

步骤S64:统计所述数据服务器过滤掉的不合格数据的过滤数据条数。

本实施例中,对该数据服务器过滤掉的不合格数据的条数进行统计,得到该数据服务器的过滤数据条数。过滤数据条数是一个累计值。

更具体的,只要过滤掉一条数据,就将过滤数据条数作加1处理,依此方法累计过滤数据条数。这个过程同样可以由数据服务器内置的函数完成的,每过滤掉一条数据,函数累计值加1。

本实施例提供的数据处理方法,接收客户端上传的数据;统计所述数据服务器接收到的所述客户端上传的数据的接收数据条数;过滤所述客户端上传的数据中的不合格数据;统计所述数据服务器过滤掉的不合格数据的过滤数据条数。从而使得,分布式文件系统中的各个数据服务器,对接收到与其对应的客户端上传的数据的条数,以及,对过滤掉的不合格数据的条数,分别进行了统计,从而可使技术人员通过汇总各个数据服务器统计的数据处理情况,并以此为依据,判断分布式文件系统的运行情况。

实施例六

与实施例一相对应,本发明提供了一种分布式文件系统的结构示意图,如图8所示,包括统计装置71和多个数据服务器72,其中,所述统计装置71包括第一统计单元711和第二统计单元712;其中:

所述数据服务器72用于,接收客户端上传的数据;

所述第一统计单元711用于,统计每个所述数据服务器72接收到所述客户端上传的数据的接收数据总条数;

所述数据服务器72还用于,过滤所述客户端上传的数据中的不合格数据;

所述第二统计单元712用于,统计每个所述数据服务器72过滤掉的不合格数据的过滤数据总条数。

实施例七

与实施例五相对应,本发明提供了一种数据服务器的结构示意图,如图9所示,包括:

接收单元81,用于接收客户端上传的数据;

第一统计单元82,用于统计所述数据服务器接收到的所述客户端上传的数据的接收数据条数;

过滤单元83,用于过滤所述客户端上传的数据中的不合格数据;

第二统计单元84,用于统计所述数据服务器过滤掉的不合格数据的过滤数据条数。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种数据处理方法、分布式文件系统及数据服务器进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1