数据处理方法、装置及系统的制作方法

文档序号:6512356阅读:139来源:国知局
数据处理方法、装置及系统的制作方法
【专利摘要】本发明提供一种数据处理方法,包括:服务器获取待统计的源数据,根据预置的处理进程分配规则与服务器内的所有已启动的进程,为待统计的源数据预分配处理进程;根据预置的源数据处理规则,将获取的源数据转换为统一格式的数据元;将转换后的数据元分发到对应的处理进程,处理进程根据预置的数据流处理规则,将数据元进行合并统计;以及输出合并统计后的数据元。此外,本发明还提供一种数据处理装置及系统。上述数据处理方法、装置及系统可极大地提高数据处理的效率。
【专利说明】数据处理方法、装置及系统

【技术领域】
[0001]本发明涉及计算机通信【技术领域】,尤其涉及一种数据处理方法、装置及系统。

【背景技术】
[0002]数据统计分析通常采用的方法是接收外端模块数据,在存储介质中(例如,内存、磁盘、数据库、网络存储等)进行加工处理,然后输出结果数据。但是,现有的数据处理技术只抽象出统计框架,也就是说其提供的统计逻辑只适配同源数据的处理,对来自于不同数据源的异构数据则不适配,机器每新接入一类数据,或者变更接入数据,都需要对接入和加工分析模块进行代码变更,通过人工编码提供对应数据的接入以及数据加工处理的逻辑,人力成本较高且缺乏效率。


【发明内容】

[0003]有鉴于此,本发明提供一种数据处理方法、装置及系统,可极大地提高数据处理的效率。
[0004]一种数据处理方法,包括:服务器获取待统计的源数据,根据预置的处理进程分配规则与所述服务器内的所有已启动的进程,为所述待统计的源数据预分配处理进程;根据预置的源数据处理规则,将获取的所述源数据转换为统一格式的数据元;将转换后的数据元分发到对应的处理进程,所述处理进程根据预置的数据流处理规则,将所述数据元进行合并统计;以及输出合并统计后的数据元。
[0005]一种数据处理方法,包括:配置服务器获取全局配置规则信息,并将所述全局配置规则信息发送给统计服务器,所述全局配置规则信息包括预置的处理进程分配规则、预置的源数据处理规则以及预置的数据流处理规则;所述统计服务器获取待统计的源数据,根据所述预置的处理进程分配规则与所述统计服务器内的所有已启动的进程,为所述待统计的源数据预分配处理进程;所述统计服务器根据所述预置的源数据处理规则,将获取的所述源数据转换为统一格式的数据元;所述统计服务器将转换后的数据元分发到对应的处理进程,所述处理进程根据所述预置的数据流处理规则,将所述数据元进行合并统计;以及所述统计服务器输出合并统计后的数据元。
[0006]一种数据处理装置,应用于服务器,包括:源数据获取模块,用于获取待统计的源数据,根据预置的处理进程分配规则与所述服务器内的所有已启动的进程,为所述待统计的源数据预分配处理进程;源数据转换模块,用于根据预置的源数据处理规则,将所述源数据获取模块获取的所述源数据转换为统一格式的数据元;数据元合并统计模块,用于将所述源数据转换模块转换后的数据元分发到对应的处理进程,所述处理进程根据预置的数据流处理规则,将所述数据元进行合并统计;以及输出模块,用于输出所述数据元合并统计模块合并统计后的数据元。
[0007]—种数据处理系统,包括:包括:配置服务器以及统计服务器,所述配置服务器用于获取全局配置规则信息,并将所述全局配置规则信息发送给所述统计服务器,所述全局配置规则信息包括预置的处理进程分配规则、预置的源数据处理规则以及预置的数据流处理规则;所述统计服务器用于获取待统计的源数据,根据所述预置的处理进程分配规则与所述统计服务器内的所有已启动的进程,为所述待统计的源数据预分配处理进程;根据所述预置的源数据处理规则,将获取的所述源数据转换为统一格式的数据元;将转换后的数据元分发到对应的处理进程,所述处理进程根据所述预置的数据流处理规则,将所述数据元进行合并统计;以及输出合并统计后的数据元。
[0008]在上述的数据处理方法、装置及系统中,通过根据预置的源数据处理规则,将源数据转换为统一格式的数据元,然后根据预置的数据流处理规则,将数据元进行合并统计,可为数据处理提供通用的数据接入方式与通用的数据处理加工逻辑,从而实现多类型数据从接入到处理再到输出的全流程自动化,极大地提高数据处理的效率。
[0009]为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。

【专利附图】

【附图说明】
[0010]图1为本发明第一实施例提供的数据处理方法的流程图。
[0011]图2为本发明第二实施例提供的数据处理方法的流程图。
[0012]图3为本发明第二实施例提供的数据处理方法中数据元分发的示意图。
[0013]图4为本发明第二实施例提供的数据处理方法中源数据流转及处理的一示意图。
[0014]图5为本发明第二实施例提供的数据处理方法中源数据流转及处理的又一示意图。
[0015]图6为本发明第三实施例提供的数据处理方法的流程图。
[0016]图7为本发明第四实施例提供的数据处理方法的应用环境图。
[0017]图8为本发明第四实施例提供的数据处理方法的流程图。
[0018]图9为本发明第五实施例提供的数据处理装置的结构示意图。
[0019]图10为本发明第六实施例提供的数据处理装置的结构示意图。
[0020]图11为本发明第七实施例提供的数据处理系统的结构示意图。
[0021]图12为本发明第八实施例提供的数据处理系统的结构示意图。

【具体实施方式】
[0022]为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的【具体实施方式】、结构、特征及其功效,详细说明如后。
[0023]第一实施例
[0024]请参阅图1,所示为本发明第一实施例提供的数据处理方法的流程图。如图1所示,本实施例提供的数据处理方法包括以下步骤:
[0025]步骤11,服务器获取待统计的源数据,根据预置的处理进程分配规则与所述服务器内的所有已启动的进程,为所述待统计的源数据预分配处理进程。
[0026]具体地,服务器从本地存储器或其他网络存储服务器获取待统计的源数据,同时根据每个进程的资源标识(ID),计算本服务器内所有启动的统计分析进程,然后根据预置的处理进程分配规则与计算出的服务器内的所有已启动的进程,为待统计的源数据预分配处理进程。其中,进程的资源ID由系统在进程注册时分配给该进程。可以理解的,由于服务器可以为单个的服务器,也可为多个服务器组成的服务器集群,因此根据预置的启动规则,统计分析进程可以由多机部署启动,也可以在单机中启动多个。
[0027]步骤12,根据预置的源数据处理规则,将获取的所述源数据转换为统一格式的数据元。
[0028]预置的源数据处理规则中可包括数据元的格式规则,以使服务器根据统计目标,将获取的源数据转换为统一格式的数据元。
[0029]不同的源数据的来源是不同的,例如,有的源数据来源于手机,有的源数据来源于计算机等等,这些源数据的数据类型及数据格式也是不相同的,无法直接对其进行统计分析,因此需要将获取的源数据转换为统一格式的数据元。
[0030]具体地,服务器根据预置的源数据处理规则筛选出源数据中用于分析统计的字段,然后将筛选出的字段根据预置的源数据处理规则中的数据元的格式规则转换成统一格式的数据元。
[0031]步骤13,将转换后的数据元分发到对应的处理进程,所述处理进程根据预置的数据流处理规则,将所述数据元进行合并统计。
[0032]预置的数据流处理规则中包括对数据元进行合并统计的具体规则,例如:累加、计数、平均、取最大、取最小等。服务器通过预置的分发方式,将转换后的数据元分发到对应的处理进程,然后由该处理进程根据预置的数据流处理规则对数据元进行合并统计。
[0033]步骤14,输出合并统计后的数据元。
[0034]本发明实施例提供的数据处理方法,通过根据预置的源数据处理规则,将源数据转换为统一格式的数据元,然后根据预置的数据流处理规则,将数据元进行合并统计,可为数据处理提供通用的数据接入方式与通用的数据处理加工逻辑,从而实现多类型数据从接入到处理再到输出的全流程自动化,极大地提高数据处理的效率。
[0035]第二实施例
[0036]请参阅图2,所示为本发明第二实施例提供的数据处理方法的流程图。如图2所示,本实施例提供的数据处理方法包括以下步骤:
[0037]步骤21,服务器查询并获取用于统计分析源数据的全局配置规则信息。
[0038]具体地,服务器从配置服务器查询并获取用于统计分析源数据的全局配置规则信息。全局配置规则信息具体可包括预置的处理进程分配规则、预置的源数据处理规则、预置的数据流处理规则、以及预置的输出控制规则。
[0039]步骤22,所述服务器由所述预置的源数据处理规则中的源数据的目录中获取待统计的源数据。
[0040]预置的源数据处理规则中包括源数据的目录,也即源数据存储于服务器本地或其它网络服务器的目录地址,服务器根据预置的源数据处理规则中配置的源数据的目录,从指定的目录地址将源数据读入。
[0041]步骤23,根据预置的处理进程分配规则与所述服务器内的所有已启动的进程,为所述待统计的源数据预分配处理进程。
[0042]本步骤具体请参考第一实施例中的相应内容,此处不再赘述。
[0043]步骤24,根据所述预置的源数据处理规则,将获取的所述源数据转换为统一格式的数据元,为转换后的数据元分配数据类型标识与身份标识。
[0044]预置的源数据处理规则具体还包括待处理的源数据的构成字段描述与数据元的格式。
[0045]待处理的源数据的构成字段描述具体包括源数据的字段位置、字段类型、维度属性、以及指标属性描述,用于使服务器获得待处理的源数据的数据格式,例如:待处理的源数据的第X个字段是什么类型、是否是关注的字段、是作为维度还是作为指标等。
[0046]数据元的格式具体包括数据类型标识(ID)、身份标识(KeyId)、以及指标字段。其中,KeyId是该数据类型ID下的唯一标识,取决于数据处理要求的维度组合。
[0047]具体地,服务器根据预置的源数据处理规则,将获取的源数据转换为统一格式的数据元,为转换后的数据元分配数据类型ID与Keyld。举例而言,假设源数据的格式为 datald=168str=〃2013-07_3122:51:41110.149.18.84|496121168|2013-07-3122:50:00|378917|74〃,预置的源数据处理规则中将维度字段配置为:4,1 ;指标字段配置为:6,SUM,则根据上述规则,提取源数据中相应数据字段,然后将提取的相应数据字段按照该预置的源数据处理规则中的数据元的格式规则,重新封装为以下格式的数据元:
[0048]数据类型ID:307
[0049]维度部分格式:{字符串2013-07-3122:50:00,字符串 10.149.18.84}
[0050]统计部分格式:{整形KeyId=0x344E75C5204D9E88 整形 v=74 枚举类型 op=SUM}
[0051]从而完成由源数据到数据元的格式转换。其中,数据类型ID与KeyId由服务器在将源数据转换为数据元时分配并封装在转换后的数据元中。
[0052]通过根据预置的源数据处理规则,屏蔽数据类型,将源数据转换为统一格式的数据元,可为数据处理提供通用的接入方式,从而可节省现有技术中通过人工编码提供对应数据的接入所花费的大量人力成本,实现数据接入的自动化,提高数据处理的效率。
[0053]步骤25,通过分别对具有相同数据类型标识的数据元的身份标识进行哈希处理,将所述具有相同数据类型标识的数据元分发到对应的处理进程,所述处理进程根据预置的数据流处理规则,将所述数据元进行合并统计。
[0054]具体地,服务器根据预置的哈希(HASH)规则,通过分别对具有相同数据类型ID的数据元的KeyId进行哈希处理,将具有相同数据类型ID的数据元分发到对应的处理进程,由对应的处理程序根据预置的数据流处理规则进行合并统计。于本实施例一【具体实施方式】中,如图3所示,可将哈希规则预置为KeyId%process_num,其中process_num为可用处理进程资源的数量,也即服务器集群中所有机器上用于统计分析的处理进程总数,也可简单理解为集群的节点个数。根据可用处理进程资源的数量,通过在KeyId上进行哈希处理,将数据元分发到集群中的各个统计处理进程上,由此实现统计任务的分发,并且能够保证下一统计归并工作中,对同一 KeyId的归并能囊括该实例的所有数据。此外,将待统计分析的数据元通过哈希处理,按KeyId均匀散列到不同的集群节点,还可以有效均衡集群内节点机器的负载,当处理单元越多,可以承载的整体任务量越大,因此可极大地提高数据处理的效率。可以理解的,对KeyId进行哈希处理的处理结果与各处理进程的对应关系,可由服务器在初始化处理进程时,根据预置的配置规则以及统计的可用处理进程资源的数量进行配置。
[0055]通过根据预置的数据流处理规则,将所述数据元进行合并统计,可为数据处理提供通用的数据处理加工逻辑,节省现有技术中通过人工编码提供数据加工处理的逻辑所花费的大量人力成本,实现数据加工处理的自动化,从而提高处理处理的效率。
[0056]步骤26,为合并统计后的数据元重新分配数据类型标识。
[0057]具体地,服务器为合并统计后的数据元重新分配数据类型ID,以生成下一类型ID的结果数据。
[0058]为进一步说明源数据在步骤24至步骤26中流转及处理的过程,举例而言,请参考图4,假设统计目标为即时通讯软件的信息量地域分布;数据类型ID:X为A即时通讯软件,数据类型ID:Y为B即时通讯软件,D1、D2、D3、D4、D5、D6分别为广州、深圳、安庆、长沙、武汉;Key为统计维度(也即统计参数),可包括一个也可包括多个,如图4所示,假设包括广州和深圳的两个key,如果有多个,为了提高效率,可用哈希算法将多个Key映射为唯一 Key作为该维度的识别KeyId ;Value为指标字段的值,假设A即时通讯软件的Value=12,B即时通讯软件的Value=15。具体地,服务器根据预置的源数据处理规则“ ID =IKey:D1, D2Value:D”,分别将获取的A即时通讯软件的源数据“ID:X D1,D2,D3,D4,D5”与B即时通讯软件的源数据“ID:Y Dl,D2,D4,D6” 转换为统一格式的数据元“ID:1KeyId Value” 与“ID:1KeyIdValue”,由于分别对数据兀“ID:1KeyldValue”与“ID:1KeyId Value”中的KeyId进行哈希处理获得的值相同,上述两个数据元被分发到同一个处理进程,由该处理进程根据预置的数据流处理规则“ID:1=>ID:2SUM”对上述两个数据元中的Value字段做求和运算,因此得到的值是Value=27,同时为合并统计后的数据元重新分配数据类型ID:2,根据求和运算的结果生成下一步流转所需的数据元。
[0059]步骤27,根据重新分配的数据类型标识,再分别对具有相同数据类型标识的数据元的身份标识进行哈希处理,将所述具有相同数据类型标识的数据元分发到对应的处理进程,所述处理进程根据预置的数据流处理规则,将所述数据元进行合并统计。
[0060]步骤28,根据所述预置的输出控制规则中的输出方式与输出模式,输出合并统计后的数据元。
[0061]预置的输出控制规则具体可包括输出方式、输出模式、以及输出时间控制参数。
[0062]其中,输出方式包括中间输出方式以及结果输出方式。中间输出方式用于将合并统计后的数据元作为中间数据输出,中间数据是指数据加工处理流程中进行数据合并流转的非最终输出结果状态,是某一级数据的输出,同时是下一级合并处理的数据源,若预置的输出控制规则未包含输出方式的规定,也即用户通过Web页面中对数据流的转换配置中,未做任何输出结果配置时,则该类数据元都会是中间状态,根据服务器集群运行状态,这类结果数据只是暂存在内存中,或者持久化存储中。结果输出方式用于将合并统计后的数据元作为结果数据输出,结果数据是满足用户数据处理的合并归纳之后的数据,可以存为文本转给其它系统或者数据展现应用处理。
[0063]输出模式包括修正模式与时效模式。修正模式下,假设数据具备一定的连续性,给予一定的缓存时间的缓冲期可以让逾期达到的数据叠加到统计数据中。时效模式下,由于待统计的源数据具有一定的时效性,因此对于逾期数据做丢弃处理,并将处理情况记录为日志。
[0064]输出时间控制参数包括缓存时间、输出间隔、忽略输出时间、强制输出时间。其中,缓存时间是指该类数据在输出之后,还会缓存在系统中的时间。输出间隔是指该类数据每隔多久会进行一次输出操作,满足输出条件的数据会输出。忽略输出时间是指当该类数据最后一次更新时间距今的时间如果小于预设值时,忽略输出。强制输出时间是指当该类数据的第一次进入系统的时间距今的时间大于预设值时,则强制输出,并为该类数据设置状态位标识,以标识该类数据的输出状态。
[0065]具体地,服务器根据预置的输出控制规则中的输出方式与输出模式,在输出时间控制参数设定的输出时间,输出合并统计后的数据元。
[0066]为进一步说明步骤22至步骤27中源数据的流转及处理过程,以非同源数据的统计分析为例,如图5所示,第一步,假设服务器根据预置的源数据处理规则从本地源数据存储目录读取源数据1、源数据2以及源数据3,其中源数据I为Andi1d (安卓)手机数据,源数据2为iphone (苹果)手机数据,源数据3为PC (台式计算机)数据。第二步,服务器根据预置的源数据处理规则,分别将源数据1、源数据2以及源数据3转换为统一格式的数据元1、数据元2、以及数据元3,由于手机的源数据具有相同的无线特征,因此服务器分别为源数据I与源数据2分配相同的数据类型ID:1,为源数据3分配数据类型ID:2。第三步,服务器根据预置的数据流处理规则,对具有相同数据类型ID:1的数据元I与数据元2进行合并统计,生成数据元4,并为数据元4重新分配下一流转所需的数据类型ID:2。第四步,服务器根据预置的数据流处理规则,对具有相同数据类型ID:2的数据元3与数据元4进行合并统计,生成数据元5,并为数据元4重新分配数据类型ID:3。第五步,服务器根据预置的输出控制规则,输出结果数据。
[0067]本发明实施例提供的数据处理方法,通过根据预置的源数据处理规则,将源数据转换为统一格式的数据元,然后根据预置的数据流处理规则,将数据元进行合并统计,可为数据处理提供通用的数据接入方式与通用的数据处理加工逻辑,从而实现多类型数据从接入到处理再到输出的全流程自动化,极大地提高数据处理的效率。
[0068]第三实施例
[0069]请参阅图6,所示为本发明第三实施例提供的数据处理方法的流程图。如图6所示,本实施例提供的数据处理方法包括以下步骤:
[0070]步骤61,配置服务器获取全局配置规则信息,并将所述全局配置规则信息发送给统计服务器。
[0071]全局配置规则信息包括预置的处理进程分配规则、预置的源数据处理规则以及预置的数据流处理规则。
[0072]具体地,配置服务器获取用户输入的,用于统计分析源数据的全局配置规则信息,并随时为统计服务器提供全局配置规则信息的查询服务器,当配置服务器接收到统计服务器查询请求时,根据该查询请求,将全局配置规则信息发送给统计服务器。
[0073]步骤62,所述统计服务器获取待统计的源数据,根据所述预置的处理进程分配规则与所述统计服务器内的所有已启动的进程,为所述待统计的源数据预分配处理进程。
[0074]步骤62具体请参考第一实施例中步骤11的相应内容,此处不再赘述。
[0075]步骤63,所述统计服务器根据所述预置的源数据处理规则,将获取的所述源数据转换为统一格式的数据元。
[0076]步骤64,所述统计服务器将转换后的数据元分发到对应的处理进程,所述处理进程根据所述预置的数据流处理规则,将所述数据元进行合并统计。
[0077]步骤65,所述统计服务器输出合并统计后的数据元。
[0078]步骤62至步骤65具体请参考第二实施例中的相应内容,此处不再赘述。
[0079]本发明实施例提供的数据处理方法,通过根据预置的源数据处理规则,将源数据转换为统一格式的数据元,然后根据预置的数据流处理规则,将数据元进行合并统计,可为数据处理提供通用的数据接入方式与通用的数据处理加工逻辑,从而实现多类型数据从接入到处理再到输出的全流程自动化,极大地提高数据处理的效率。
[0080]第四实施例
[0081]请参阅图7,所示为本发明第四实施例提供的数据处理方法的应用环境图。如图7所示,前端服务器71、数据库存储服务器72、配置服务器73、统计服务器74、以及管理服务器75位于无线或有线网络中,通过该无线或有线网络,上述各服务器相互通信。
[0082]可以理解的,上述各服务器可以是单个服务器,也可以是由多个单独服务器构成的服务器集群,例如:统计服务器74可以是单个统计服务器,也可以是由多个统计服务器构成的服务器集群。
[0083]优选地,前端服务器71可为LVS (Linux Virtual Server Linux,虚拟服务器)集群,数据库存储服务器72、配置服务器73、统计服务器74、以及管理服务器75可分别为由多个单独服务器构成的服务器高可用(热备)集群。
[0084]请参阅图8,所示为本发明第四实施例提供的数据处理方法的流程图。如图8所示,结合图7,本实施例提供的数据处理方法包括以下步骤:
[0085]步骤801,前端服务器接收用户输入的全局配置规则信息,将所述全局配置规则信息发送给数据库存储服务器。
[0086]全局配置规则信息用于统计分析源数据,具体可包括预置的处理进程分配规则、预置的源数据处理规则、预置的数据流处理规则、以及预置的输出控制规则。
[0087]具体地,前端服务器71通过Web (网页)页面获取用户输入的全局配置规则信息,并将获取的该全局配置规则信息发送给数据库存储服务器72。
[0088]步骤802,数据库存储服务器接收并存储所述全局配置规则信息,定期将所述全局配置规则信息发送给所述配置服务器。
[0089]具体地,数据库存储服务器72间隔预置的时长将全局配置规则信息发送给配置服务器73。于本实施一【具体实施方式】中,数据库存储服务器72也可在接收到前端服务器71发送的全局配置规则信息时,或在预置的时间,将当前存储的全局配置规则信息发送给配置服务器73。
[0090]步骤803,配置服务器将所述全局配置规则信息发送给统计服务器。
[0091]具体地,配置服务器定期接收数据库存储服务器72发送的全局配置规则信息,并将获取的全局配置规则信息存储于本地存储器中,然后根据统计服务器74实时发送的查询请求,将全局配置规则信息发送给统计服务器74,或根据统计服务器74订阅的通知服务,当检测到本地存储器中存储的全局配置规则信息有更新时,主动发送更新通知给统计服务器74,并根据统计服务器74根据更新通知返回的更新请求将全局配置规则信息发送给统计服务器74。
[0092]步骤804,所述统计服务器获取待统计的源数据,根据所述预置的处理进程分配规则与所述统计服务器内的所有已启动的进程,为所述待统计的源数据预分配处理进程。
[0093]具体地,首先,统计服务器74根据全局配置规则信息中的预置的处理进程分配规贝U,从该预置的处理进程分配规则配置的源数据存储目录获取待统计的源数据。可以理解的,源数据存储目录可以位于统计服务器74的本地存储器中,也可位于其它网络服务器中。然后,统计服务器74计算本服务器内所有启动的统计分析进程,然后根据预置的处理进程分配规则与计算出的服务器内的所有已启动的进程,为待统计的源数据预分配处理进程。
[0094]步骤805,所述统计服务器根据所述预置的源数据处理规则,将获取的所述源数据转换为统一格式的数据元。
[0095]预置的源数据处理规则具体还包括待处理的源数据的构成字段描述与数据元的格式。其中待处理的源数据的构成字段描述具体包括源数据的字段位置、字段类型、维度属性、以及指标属性描述,用于使服务器获得待处理的源数据的数据格式。数据元的格式具体包括数据类型标识(ID)、身份标识(KeyId)、以及指标字段。其中,KeyId是该数据类型ID下的唯一标识,取决于数据处理要求的维度组合。
[0096]具体地,统计服务器74根据预置的源数据处理规则,将获取的源数据转换为统一格式的数据元,为转换后的数据元分配数据类型ID与Keyld。
[0097]步骤806,所述统计服务器将转换后的数据元分发到对应的处理进程,所述处理进程根据所述预置的数据流处理规则,将所述数据元进行合并统计。
[0098]具体地,首先,统计服务器74根据预置的哈希(HASH)规则,通过分别对具有相同数据类型ID的数据元的KeyId进行哈希处理,将具有相同数据类型ID的数据元分发到对应的处理进程,由对应的处理程序根据预置的数据流处理规则进行合并统计。预置的数据流处理规则中包括对数据元进行合并统计的具体规则,例如:累加、计数、平均、取最大、取最小等。然后,统计服务器74为合并统计后的数据元重新分配数据类型ID。
[0099]于本实施例中,统计分析是由各个数据元依据数据流信息进行统计归并的,因此基于数据流信息是可以完成数据的分发以及数据归并的。统计分析中的输出数据采用分布式文件系统作为持久化存储交互,因此数据流的分发控制实质是将数据输出到对应的分布式文件系统的目录下,再由对应处理该目录的处理进程进行处理。
[0100]步骤807,所述统计服务器输出合并统计后的数据元。
[0101]预置的输出控制规则具体可包括输出方式、输出模式、以及输出时间控制参数。其中,输出方式包括中间输出方式以及结果输出方式。中间输出方式用于将合并统计后的数据元作为中间数据输出。结果输出方式用于将合并统计后的数据元作为结果数据输出。输出模式包括修正模式与时效模式。修正模式下,假设数据具备一定的连续性,给予一定的缓存时间的缓冲期可以让逾期达到的数据叠加到统计数据中。时效模式下,由于待统计的源数据具有一定的时效性,因此对于逾期数据做丢弃处理,并将处理情况记录为日志。输出时间控制参数包括缓存时间、输出间隔、忽略输出时间、强制输出时间。其中,缓存时间是指该类数据在输出之后,还会缓存在系统中的时间。输出间隔是指该类数据每隔多久会进行一次输出操作,满足输出条件的数据会输出。忽略输出时间是指当该类数据最后一次更新时间距今的时间如果小于预设值时,忽略输出。强制输出时间是指当该类数据的第一次进入系统的时间距今的时间大于预设值时,则强制输出,并为该类数据设置状态位标识,以标识该类数据的输出状态。
[0102]具体地,统计服务器74根据预置的输出控制规则中的输出方式与输出模式,在输出时间控制参数设定的输出时间,输出合并统计后的数据元。当输出控制规则中的输出方式为中间输出方式时,统计服务器74将合并统计后的数据元暂存在内存中,或者持久化存储中,然后执行步骤806。当输出控制规则中的输出方式为结果输出方式时,统计服务器74将合并统计后的数据元存为文本转给其它系统或者数据展现应用处理。
[0103]步骤808,所述统计服务器定期将所述统计服务器的统计监控数据上报给管理服务器。
[0104]统计监控数据包括统计服务器74的容量、统计服务器74内单机的故障情况、以及进程健康状态。
[0105]步骤809,所述配置服务器定期将所述配置服务器的配置监控数据上报给所述管理服务器。
[0106]配置监控数据包括配置服务器73的容量、以及配置服务器73内单机的故障情况。
[0107]步骤810,所述管理服务器接收并分析所述统计服务器上报的统计监控数据与所述配置服务器上报的配置监控数据,当监控数据中包含预置工作异常信息时,通过预置的报警方式向管理人员发送预警信息。
[0108]具体地,管理服务器75接收并分析统计服务器74上报的统计监控数据与配置服务器73上报的配置监控数据,当监控数据中包含预置工作异常信息时,通过预置的报警方式向管理人员发送预警信息,以便管理人员根据预警信息,将备用服务器加入到发生工作异常的服务器集群中,以代替发生工作异常的服务器。于本实施例一【具体实施方式】中,管理服务器也可在接收的监控数据中包含预置工作异常信息时,根据预置的替代方案,从备用资源池中将备用服务器加入到集群中,以替换故障机器。当统计服务器集群74中的单机发生故障时,备用统计服务器从配置服务器集群73获取当前数据处理信息,从分布式文件系统中恢复当前数据,从而完成容灾替换。由于配置服务器73与统计服务器74为服务器高可用(热备)集群,所有的统计服务器在本地存储器中均存储有相应的内存副本,所以一般情况下配置服务器集群73即使全部宕机,也不会对工作中的统计服务器产生任何影响,当配置服务器集群73恢复工作之后,通讯链接会自动重新建立,从而具有较高的容灾性。
[0109]本发明实施例提供的数据处理方法,通过根据预置的源数据处理规则,将源数据转换为统一格式的数据元,然后根据预置的数据流处理规则,将数据元进行合并统计,可为数据处理提供通用的数据接入方式与通用的数据处理加工逻辑,从而实现多类型数据从接入到处理再到输出的全流程自动化,极大地提高数据处理的效率。
[0110]第五实施例
[0111]图9为本发明第五实施例提供的数据处理装置的结构示意图。本实施例提供的数据处理装置应用于服务器,可以用于实现上述实施例中的数据处理方法。如图9所示,数据处理装置90包括:源数据获取模块91、源数据转换模块92、数据元合并统计模块93、输出模块94。
[0112]其中,源数据获取模块91用于获取待统计的源数据,根据预置的处理进程分配规则与所述服务器内的所有已启动的进程,为所述待统计的源数据预分配处理进程。
[0113]源数据转换模块92用于根据预置的源数据处理规则,将所述源数据获取模块91获取的所述源数据转换为统一格式的数据元。
[0114]数据元合并统计模块93用于将所述源数据转换模块92转换后的数据元分发到对应的处理进程,所述处理进程根据预置的数据流处理规则,将所述数据元进行合并统计。
[0115]输出模块94用于输出所述数据元合并统计模块93合并统计后的数据元。
[0116]本实施例数据处理装置90的各功能模块实现各自功能的具体过程,请参见上述图1至图8所示实施例中描述的具体内容,此处不再赘述。
[0117]本发明实施例提供的数据处理装置,通过根据预置的源数据处理规则,将源数据转换为统一格式的数据元,然后根据预置的数据流处理规则,将数据元进行合并统计,可为数据处理提供通用的数据接入方式与通用的数据处理加工逻辑,从而实现多类型数据从接入到处理再到输出的全流程自动化,极大地提高数据处理的效率。
[0118]第六实施例
[0119]图10为本发明第六实施例提供的数据处理装置的结构示意图。本实施例提供的数据处理装置应用于服务器,可以用于实现上述实施例中的数据处理方法。如图10所示,数据处理装置100包括:源数据获取模块101、源数据转换模块102、数据元合并统计模块103、输出模块104、以及全局配置规则信息获取模块105。
[0120]其中,源数据获取模块101用于获取待统计的源数据,根据预置的处理进程分配规则与所述服务器内的所有已启动的进程,为所述待统计的源数据预分配处理进程。所述源数据获取模块101包括:源数据获取单元1011,用于由所述预置的源数据处理规则中的源数据的目录中获取待统计的源数据。
[0121]源数据转换模块102用于根据预置的源数据处理规则,将所述源数据获取模块101获取的所述源数据转换为统一格式的数据元。所述源数据转换模块102包括:源数据转换单元1021,用于根据所述预置的源数据处理规则,将获取的所述源数据转换为统一格式的数据元,为转换后的数据元分配数据类型标识与身份标识。
[0122]数据元合并统计模块103用于将所述源数据转换模块102转换后的数据元分发到对应的处理进程,所述处理进程根据预置的数据流处理规则,将所述数据元进行合并统计。所述数据元合并统计模块103包括:第一分发单元1031、第二分发单元1032、合并统计单元1033。第一分发单元1031用于通过分别对具有相同数据类型标识的数据元的身份标识进行哈希处理,将所述具有相同数据类型标识的数据元分发到对应的处理进程。数据类型标识分配单元,用于为合并统计后的数据元重新分配数据类型标识。第二分发单元1032用于根据重新分配的数据类型标识,再分别对具有相同数据类型标识的数据元的身份标识进行哈希处理,将所述具有相同数据类型标识的数据元分发到对应的处理进程。合并统计单元1033用于通过所述处理进程根据预置的数据流处理规则,将所述数据元进行合并统计。
[0123]输出模块104用于输出所述数据元合并统计模块103合并统计后的数据元。所述输出模块104包括:输出单元1041,用于根据所述预置的输出控制规则中的输出方式与输出模式,输出合并统计后的数据元。
[0124]全局配置规则信息获取模块105用于查询并获取用于统计分析源数据的全局配置规则信息,所述全局配置规则信息包括所述预置的处理进程分配规则、所述预置的源数据处理规则、所述预置的数据流处理规则、以及预置的输出控制规则。
[0125]优选地,所述预置的源数据处理规则包括:待处理的源数据的构成字段描述与数据元的格式,所述数据元的格式包括数据类型标识、身份标识、以及指标字段。
[0126]优选地,所述预置的输出控制规则包括:输出方式以及输出模式,所述输出方式包括中间输出方式以及结果输出方式,所述中间输出方式用于将合并统计后的数据元作为中间数据输出,所述结果输出方式用于将合并统计后的数据元作为结果数据输出,所述输出模式包括修正模式与时效模式。
[0127]本实施例数据处理装置100的各功能模块实现各自功能的具体过程,请参见上述图1至图8所示实施例中描述的具体内容,此处不再赘述。
[0128]本发明实施例提供的数据处理装置,通过根据预置的源数据处理规则,将源数据转换为统一格式的数据元,然后根据预置的数据流处理规则,将数据元进行合并统计,可为数据处理提供通用的数据接入方式与通用的数据处理加工逻辑,从而实现多类型数据从接入到处理再到输出的全流程自动化,极大地提高数据处理的效率。
[0129]第七实施例
[0130]请参阅图11,所示为本发明第七实施例提供的数据处理系统的结构示意图。如图11所示,本实施例提供的数据处理系统I1包括:配置服务器111、以及统计服务器112。
[0131]其中,所述配置服务器111用于获取全局配置规则信息,并将所述全局配置规则信息发送给所述统计服务器112,所述全局配置规则信息包括预置的处理进程分配规则、预置的源数据处理规则以及预置的数据流处理规则。
[0132]所述统计服务器112用于获取待统计的源数据,根据所述预置的处理进程分配规则与所述统计服务器112内的所有已启动的进程,为所述待统计的源数据预分配处理进程;根据所述预置的源数据处理规则,将获取的所述源数据转换为统一格式的数据元;将转换后的数据元分发到对应的处理进程,所述处理进程根据所述预置的数据流处理规则,将所述数据元进行合并统计;以及输出合并统计后的数据元。
[0133]本实施例中的数据处理系统中各装置实现功能的具体过程请参阅图1至图8对应实施例的方法,以及图9至图10对应实施例的装置,此处不再赘述。
[0134]本发明实施例提供的数据处理系统,通过统计服务器根据预置的源数据处理规贝U,将源数据转换为统一格式的数据元,然后根据预置的数据流处理规则,将数据元进行合并统计,可为数据处理提供通用的数据接入方式与通用的数据处理加工逻辑,从而实现多类型数据从接入到处理再到输出的全流程自动化,极大地提高数据处理的效率。
[0135]第八实施例
[0136]请参阅图12,所示为本发明第八实施例提供的数据处理系统的结构示意图。如图12所示,本实施例提供的数据处理系统120包括:配置服务器121、统计服务器122、前端服务器123、数据库存储服务器124、以及管理服务器125。
[0137]其中,所述配置服务器121用于获取全局配置规则信息,并将所述全局配置规则信息发送给所述统计服务器122,所述全局配置规则信息包括预置的处理进程分配规则、预置的源数据处理规则以及预置的数据流处理规则。
[0138]所述统计服务器122用于获取待统计的源数据,根据所述预置的处理进程分配规则与所述统计服务器122内的所有已启动的进程,为所述待统计的源数据预分配处理进程;根据所述预置的源数据处理规则,将获取的所述源数据转换为统一格式的数据元;将转换后的数据元分发到对应的处理进程,所述处理进程根据所述预置的数据流处理规则,将所述数据元进行合并统计;以及输出合并统计后的数据元。
[0139]所述前端服务器123用于接收用户输入的所述全局配置规则信息,将所述全局配置规则信息发送给所述数据库存储服务器124。
[0140]所述数据库存储服务器124用于接收并存储所述全局配置规则信息,定期将所述全局配置规则信息发送给所述配置服务器。
[0141]所述统计服务器122还用于定期将所述统计服务器122的统计监控数据上报给所述管理服务器125,所述统计监控数据包括所述统计服务器122的容量、所述统计服务器内单机的故障情况、以及进程健康状态。
[0142]所述管理服务器125用于接收并分析所述配置监控数据,当监控数据中包含预置工作异常信息时,通过预置的报警方式向管理人员发送预警信息。
[0143]所述配置服务器121还用于定期将所述配置服务器的配置监控数据上报给所述管理服务器125,所述配置监控数据包括所述配置服务器的容量、以及所述配置服务器内单机的故障情况。
[0144]本实施例中的数据处理系统中各装置实现功能的具体过程请参阅图1至图8对应实施例的方法,以及图9至图10对应实施例的装置,此处不再赘述。
[0145]本发明实施例提供的数据处理系统,通过统计服务器根据预置的源数据处理规贝U,将源数据转换为统一格式的数据元,然后根据预置的数据流处理规则,将数据元进行合并统计,可为数据处理提供通用的数据接入方式与通用的数据处理加工逻辑,从而实现多类型数据从接入到处理再到输出的全流程自动化,极大地提高数据处理的效率。
[0146]需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0147]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0148]本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0149]以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
【权利要求】
1.一种数据处理方法,其特征在于,包括: 服务器获取待统计的源数据,根据预置的处理进程分配规则与所述服务器内的所有已启动的进程,为所述待统计的源数据预分配处理进程; 根据预置的源数据处理规则,将获取的所述源数据转换为统一格式的数据元; 将转换后的数据元分发到对应的处理进程,所述处理进程根据预置的数据流处理规贝U,将所述数据元进行合并统计;以及 输出合并统计后的数据元。
2.根据权利要求1所述的方法,其特征在于,所述服务器获取待统计的源数据的步骤之前,还包括: 服务器查询并获取用于统计分析源数据的全局配置规则信息,所述全局配置规则信息包括所述预置的处理进程分配规则、所述预置的源数据处理规则、所述预置的数据流处理规则、以及预置的输出控制规则。
3.根据权利要求1所述的方法,其特征在于,所述预置的源数据处理规则中包括源数据的目录,所述服务器获取待统计的源数据的步骤,包括: 所述服务器由所述预置的源数据处理规则中的源数据的目录中获取待统计的源数据。
4.根据权利要求1所述的方法,其特征在于,所述预置的源数据处理规则包括:待处理的源数据的构成字段描述与数据元的格式,所述数据元的格式包括数据类型标识、身份标识、以及指标字段。
5.根据权利要求4所述的方法,其特征在于,所述根据预置的源数据处理规则,将获取的所述源数据转换为统一格式的数据元的步骤包括: 根据所述预置的源数据处理规则,将获取的所述源数据转换为统一格式的数据元,为转换后的数据元分配数据类型标识与身份标识。
6.根据权利要求5所述的方法,其特征在于,所述将转换后的数据元分发到对应的处理进程的步骤,包括; 通过分别对具有相同数据类型标识的数据元的身份标识进行哈希处理,将所述具有相同数据类型标识的数据元分发到对应的处理进程。
7.根据权利要求6所述的方法,其特征在于,所述将所述数据元进行合并统计的步骤以及所述输出合并统计后的数据元的步骤之间,包括: 为合并统计后的数据元重新分配数据类型标识; 根据重新分配的数据类型标识,再分别对具有相同数据类型标识的数据元的身份标识进行哈希处理,将所述具有相同数据类型标识的数据元分发到对应的处理进程; 所述处理进程根据预置的数据流处理规则,将所述数据元进行合并统计。
8.根据权利要求2所述的方法,其特征在于,所述预置的输出控制规则包括: 输出方式以及输出模式,所述输出方式包括中间输出方式以及结果输出方式,所述中间输出方式用于将合并统计后的数据元作为中间数据输出,所述结果输出方式用于将合并统计后的数据元作为结果数据输出,所述输出模式包括修正模式与时效模式。
9.根据权利要求8所述的方法,其特征在于,所述输出合并统计后的数据元的步骤,包括: 根据所述预置的输出控制规则中的输出方式与输出模式,输出合并统计后的数据元。
10.一种数据处理方法,其特征在于,包括: 配置服务器获取全局配置规则信息,并将所述全局配置规则信息发送给统计服务器,所述全局配置规则信息包括预置的处理进程分配规则、预置的源数据处理规则以及预置的数据流处理规则; 所述统计服务器获取待统计的源数据,根据所述预置的处理进程分配规则与所述统计服务器内的所有已启动的进程,为所述待统计的源数据预分配处理进程; 所述统计服务器根据所述预置的源数据处理规则,将获取的所述源数据转换为统一格式的数据元; 所述统计服务器将转换后的数据元分发到对应的处理进程,所述处理进程根据所述预置的数据流处理规则,将所述数据元进行合并统计;以及 所述统计服务器输出合并统计后的数据元。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括: 所述统计服务器定期将所述统计服务器的统计监控数据上报给管理服务器,所述统计监控数据包括所述统计服务器的容量、所述统计服务器内单机的故障情况、以及进程健康状态。
12.根据权利要求10所述的方法,其特征在于,所述配置服务器获取全局配置规则信息的步骤之前还包括: 前端服务器接收用户输入的所述全局配置规则信息,将所述全局配置规则信息发送给数据库存储服务器; 数据库存储服务器接收并存储所述全局配置规则信息,定期将所述全局配置规则信息发送给所述配置服务器。
13.根据权利要求10所述的方法,其特征在于,所述方法还包括: 所述配置服务器定期将所述配置服务器的配置监控数据上报给所述管理服务器,所述配置监控数据包括所述配置服务器的容量、以及所述配置服务器内单机的故障情况。
14.一种数据处理装置,应用于服务器,其特征在于,包括: 源数据获取模块,用于获取待统计的源数据,根据预置的处理进程分配规则与所述服务器内的所有已启动的进程,为所述待统计的源数据预分配处理进程; 源数据转换模块,用于根据预置的源数据处理规则,将所述源数据获取模块获取的所述源数据转换为统一格式的数据元; 数据元合并统计模块,用于将所述源数据转换模块转换后的数据元分发到对应的处理进程,所述处理进程根据预置的数据流处理规则,将所述数据元进行合并统计;以及 输出模块,用于输出所述数据元合并统计模块合并统计后的数据元。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括: 全局配置规则信息获取模块,用于查询并获取用于统计分析源数据的全局配置规则信息,所述全局配置规则信息包括所述预置的处理进程分配规则、所述预置的源数据处理规贝U、所述预置的数据流处理规则、以及预置的输出控制规则。
16.根据权利要求14所述的装置,其特征在于,所述源数据获取模块包括: 源数据获取单元,用于由所述预置的源数据处理规则中的源数据的目录中获取待统计的源数据。
17.根据权利要求14所述的装置,其特征在于,所述预置的源数据处理规则包括:待处理的源数据的构成字段描述与数据元的格式,所述数据元的格式包括数据类型标识、身份标识、以及指标字段。
18.根据权利要求17所述的装置,其特征在于,所述源数据转换模块包括: 源数据转换单元,用于根据所述预置的源数据处理规则,将获取的所述源数据转换为统一格式的数据元,为转换后的数据元分配数据类型标识与身份标识。
19.根据权利要求18所述的装置,其特征在于,所述数据元合并统计模块包括: 第一分发单元,用于通过分别对具有相同数据类型标识的数据元的身份标识进行哈希处理,将所述具有相同数据类型标识的数据元分发到对应的处理进程。
20.根据权利要求19所述的装置,其特征在于,所述数据元合并统计模块还包括: 数据类型标识分配单元,用于为合并统计后的数据元重新分配数据类型标识; 第二分发单元,用于根据重新分配的数据类型标识,再分别对具有相同数据类型标识的数据元的身份标识进行哈希处理,将所述具有相同数据类型标识的数据元分发到对应的处理进程; 合并统计单元,用于通过所述处理进程根据预置的数据流处理规则,将所述数据元进行合并统计。
21.根据权利要求15所述的装置,其特征在于,所述预置的输出控制规则包括: 输出方式以及输出模式,所述输出方式包括中间输出方式以及结果输出方式,所述中间输出方式用于将合并统计后的数据元作为中间数据输出,所述结果输出方式用于将合并统计后的数据元作为结果数据输出,所述输出模式包括修正模式与时效模式。
22.根据权利要求21所述的装置,其特征在于,所述输出模块包括: 输出单兀,用于根据所述预置的输出控制规则中的输出方式与输出模式,输出合并统计后的数据元。
23.一种数据处理系统,其特征在于,包括:配置服务器以及统计服务器, 所述配置服务器用于获取全局配置规则信息,并将所述全局配置规则信息发送给所述统计服务器,所述全局配置规则信息包括预置的处理进程分配规则、预置的源数据处理规则以及预置的数据流处理规则; 所述统计服务器用于获取待统计的源数据,根据所述预置的处理进程分配规则与所述统计服务器内的所有已启动的进程,为所述待统计的源数据预分配处理进程;根据所述预置的源数据处理规则,将获取的所述源数据转换为统一格式的数据元;将转换后的数据元分发到对应的处理进程,所述处理进程根据所述预置的数据流处理规则,将所述数据元进行合并统计;以及输出合并统计后的数据元。
24.根据权利要求23所述的系统,其特征在于,所述系统还包括前端服务器以及数据库存储服务器, 所述前端服务器用于接收用户输入的所述全局配置规则信息,将所述全局配置规则信息发送给所述数据库存储服务器; 所述数据库存储服务器用于接收并存储所述全局配置规则信息,定期将所述全局配置规则信息发送给所述配置服务器。
25.根据权利要求23所述的系统,其特征在于,所述系统还包括管理服务器, 所述统计服务器还用于定期将所述统计服务器的统计监控数据上报给所述管理服务器,所述统计监控数据包括所述统计服务器的容量、所述统计服务器内单机的故障情况、以及进程健康状态; 所述管理服务器用于接收并分析所述配置监控数据,当监控数据中包含预置工作异常信息时,通过预置的报警方式向管理人员发送预警信息。
26.根据权利要求25所述的系统,其特征在于,所述配置服务器还用于定期将所述配置服务器的配置监控数据上报给所述管理服务器,所述配置监控数据包括所述配置服务器的容量、以及所述配置服务器内单机的故障情况。
【文档编号】G06F9/46GK104462121SQ201310430540
【公开日】2015年3月25日 申请日期:2013年9月18日 优先权日:2013年9月18日
【发明者】何涛, 杨帅, 罗伟 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1