数据处理方法及数据处理装置的制造方法

文档序号:9828330阅读:376来源:国知局
数据处理方法及数据处理装置的制造方法
【技术领域】
[0001 ]本发明涉及数据处理技术领域,具体而言,涉及一种数据处理方法和一种数据处理装置。
【背景技术】
[0002]目前,移动端的数据采集有很多种方式,最常见的是消息总线的方式。但消息总线的方式存在以下几个问题:
[0003]1、数据量太大,导致数据收集服务器的压力过大;
[0004]2、由于大量的数据到达数据收集服务器,因此数据质量难以保证;
[0005]3、收集到的数据存在异常的情况,如数据量突增或突减;
[0006]4、无法保证实现攻击预防,可能会受到恶意攻击。

【发明内容】

[0007]本发明正是基于上述技术问题至少之一,提出了一种新的数据处理方案,提高了数据接收过程的可靠性,并保证了数据接收过程的高性能要求,同时能够对接收到的数据质量进行监控。
[0008]有鉴于此,根据本发明的第一方面,提出了一种数据处理方法,包括:构建分布式的消息接收系统;通过所述分布式的消息接收系统接收客户端发送的数据;对所述分布式的消息接收系统接收到的数据进行格式转换处理,以得到格式化数据;对所述格式化数据进行格式检测和数据量检测,以对所述客户端发送的数据进行质量监控。
[0009]在该技术方案中,通过构建分布式的消息接收系统,并通过分布式的消息接收系统接收客户端发送的数据,使得能够避免现有技术中通过单一的数据收集服务器来接收客户端发送的大量数据而导致数据收集服务器的压力过大的问题,提高了在数据接收过程中的可靠性,并保证了数据接收过程的高性能要求;通过对分布式的消息接收系统接收到的数据进行格式转换处理,使得能够便于后续对数据质量进行分析和监控处理;通过对格式化数据进行格式检测和数据量检测,使得能够保证接收到的数据的质量,并且避免接收到的数据出现数据量突增突减等问题。
[0010]在上述任一技术方案中,优选地,对所述格式化数据进行格式检测和数据量检测,以对所述客户端发送的数据进行质量监控的步骤,具体包括:检测所述格式化数据的格式是否异常;确定所述格式化数据中格式异常的数据所占的比例;在所述比例大于或等于预定值时,确定所述客户端发送的数据出现异常,并进行报警提示。
[0011]在该技术方案中,通过在格式化数据中格式异常的数据所占的比例大于或等于预定值时,确定客户端发送的数据出现异常,使得数据处理装置能够在监控数据质量的前提下,具有一定的容错性能,即在格式化数据中格式异常的数据所占的比例小于预定值时,不进行报警提示。
[0012]在上述任一技术方案中,优选地,对所述格式化数据进行格式检测和数据量检测,以对所述客户端发送的数据进行质量监控的步骤,具体还包括:统计对所述格式化数据的历史接收量;根据所述历史接收量,判断当前接收到的所述格式化数据的接收量变化率是否处于预定范围内;在判定当前接收到的所述格式化数据的接收量变化率未处于所述预定范围内时,进行报警提示。
[0013]在该技术方案中,通过根据历史接收量对当前接收到的格式化数据的接收量变化量是否处于预定范围内进行判断,使得能够在数据接收量发生异常时,及时进行报警提示。具体地,如在通过由Kafka(—种高吞吐量的分布式发布订阅消息系统)集群构成的分布式的消息接收系统来接收数据时,通过该技术方案,能够有效检测到由于Kafka原因导致的数据量骤降的问题;同时,也能够避免客户端重复上传重复的数据而导致接收到的数据量过高的问题。
[0014]在上述任一技术方案中,优选地,在通过所述分布式的消息接收系统接收客户端发送的数据的步骤之前,还包括:判断任一客户端在预定时间内发送的数据量是否超过数据量阈值,若是,则拒绝接收所述任一客户端发送的数据。
[0015]在该技术方案中,若任一客户端在预定时间内发送的数据量过大,则可能是恶意攻击,因此通过在判定任一客户端在预定时间内发送的数据量超过数据量阈值时,拒绝接收该客户端发送的数据,使得能够进行攻击预防,避免可能出现的恶性攻击问题,保证数据处理装置的正常稳定运行。
[0016]在上述任一技术方案中,优选地,通过Spark streaming(构建在Spark上处理Stream数据的框架)对所述分布式的消息接收系统接收到的数据进行格式转换处理;
[0017]所述构建分布式的消息接收系统的步骤,具体包括:构建Kafka集群,以构成所述分布式的消息接收系统。
[0018]根据本发明的第二方面,还提出了一种数据处理装置,包括:系统构建单元,用于构建分布式的消息接收系统;数据接收单元,用于通过所述分布式的消息接收系统接收客户端发送的数据;格式化单元,用于对所述分布式的消息接收系统接收到的数据进行格式转换处理,以得到格式化数据;质量监控单元,用于对所述格式化数据进行格式检测和数据量检测,以对所述客户端发送的数据进行质量监控。
[0019]在该技术方案中,通过构建分布式的消息接收系统,并通过分布式的消息接收系统接收客户端发送的数据,使得能够避免现有技术中通过单一的数据收集服务器来接收客户端发送的大量数据而导致数据收集服务器的压力过大的问题,提高了在数据接收过程中的可靠性,并保证了数据接收过程的高性能要求;通过对分布式的消息接收系统接收到的数据进行格式转换处理,使得能够便于后续对数据质量进行分析和监控处理;通过对格式化数据进行格式检测和数据量检测,使得能够保证接收到的数据的质量,并且避免接收到的数据出现数据量突增突减等问题。
[0020]在上述技术方案中,优选地,所述质量监控单元包括:第一检测单元,用于检测所述格式化数据的格式是否异常;确定单元,用于确定所述格式化数据中格式异常的数据所占的比例;处理单元,用于在所述比例大于或等于预定值时,确定所述客户端发送的数据出现异常,并进行报警提示。
[0021]在该技术方案中,通过在格式化数据中格式异常的数据所占的比例大于或等于预定值时,确定客户端发送的数据出现异常,使得数据处理装置能够在监控数据质量的前提下,具有一定的容错性能,即在格式化数据中格式异常的数据所占的比例小于预定值时,不进行报警提示。
[0022]在上述任一技术方案中,优选地,所述质量监控单元还包括:统计单元,用于统计对所述格式化数据的历史接收量;第一判断单元,用于根据所述历史接收量,判断当前接收到的所述格式化数据的接收量变化率是否处于预定范围内;所述处理单元,还用于在所述第一判断单元判定当前接收到的所述格式化数据的接收量变化率未处于所述预定范围内时,进行报警提示。
[0023]在该技术方案中,通过根据历史接收量对当前接收到的格式化数据的接收量变化量是否处于预定范围内进行判断,使得能够在数据接收量发生异常时,及时进行报警提示。具体地,如在通过由Kafka集群构成的分布式的消息接收系统来接收数据时,通过该技术方案,能够有效检测到由于Kafka原因导致的数据量骤降的问题;同时,也能够避免客户端重复上传重复的数据而导致接收到的数据量过高的问题。
[0024]在上述任一技术方案中,优选地,还包括:第二判断单元,用于所述数据接收单元接收客户端发送的数据之前,判断任一客户端在预定时间内发送的数据量是否超过数据量阈值;所述数据接收单元还用于,在所述第二判断单元判定所述任一客户端在预定时间内发送的数据量是否超过所述数据量阈值时,拒绝接收所述任一客户端发送的数据。
[0025]在该技术方案中,若任一客户端在预定时间内发送的数据量过大,则可能是恶意攻击,因此通过在判定任一客户端在预定时间内发送的数据量超过数据量阈值时,拒绝接收该客户端发送的数据,使得能够进行攻击预防,避免可能出现的恶性攻击问题,保证数据处理装置的正常稳定运行。
[0026]在上述任一技术方案中,优选地,所述格式化单元具体用于,通过Sparkstreaming对所述分布式的消息接收系统接收到的数据进行格式转换处理;所述系统构建单元具体用于:构建Kafka集群,以构成所述分布式的消息接收系统。
[0027]通过以上技术方案,提高了数据接收过程的可靠性,并保证了数据接收过程的高性能要求,同时能够对接收到的数据质量进行监控,并且能够进行攻击预防,避免可能出现的恶性攻击问题,保证数据处理装置的正常稳定运行。
【附图说明】
[0028]图1示出了根据本发明的实施例的数据处理方法的示意流程图;
[0029]图2示出了根据本发明的实施例的数据处理装置的示意
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1