1.一种税务端系统日志实时分析方法,其特征在于,包括:
步骤1:对税务端系统业务操作产生的日志数据进行多线程分布式实时采集;
步骤2:将采集的所述日志数据缓存至消息队列集群中,同时将采集的所述日志数据作为原始日志数据进行分布式存储;
步骤3:提取所述消息队列集群中的所述日志数据并基于流计算工具对所述日志数据进行实时分析处理,同时将分析结果进行实时存储;
步骤4:提供操作界面,通过所述操作界面基于大数据计算引擎对所述原始日志数据进行查询、查询结果展示以及离线分析处理,或通过所述操作界面根据查询条件对实时存储的所述分析结果进行实时查询和查询结果展示。
2.根据权利要求1所述的税务端系统日志实时分析方法,其特征在于,所述步骤1包括:
在税务端服务器上部署至少一个flume日志采集客户端,所述flume日志采集客户端基于配置文件对税务端系统进行多线程的日志数据采集。
3.根据权利要求1所述的税务端系统日志实时分析方法,其特征在于,所述步骤2包括:
通过kafka消息队列集群对实时采集的所述日志数据进行缓存,同时将采集的所述日志数据存储至hadoop分布式文件系统中,作为原始日志数据进行持久化保持;
对所述kafka消息队列集群设置自动清理机制,以对过期的日志数据进行清理。
4.根据权利要求3所述的税务端系统日志实时分析方法,其特征在于,所述通过kafka消息队列集群对采集的所述日志数据进行缓存包括:
通过所述kafka消息队列集群创建的分区以及与日志数据关联的消息类别对所述日志数据进行缓存。
5.根据权利要求1所述的税务端系统日志实时分析方法,其特征在于,所述步骤3包括:
通过spark流实时计算程序拉取所述kafka消息队列集群中缓存的日志数据进行分析以获取每个业务操作的完整信息,并实时输出分析结果,同时将所述分析结果进行存储。
6.根据权利要求1所述的税务端系统日志实时分析方法,其特征在于,在所述步骤4中,所述基于大数据计算引擎对所述原始日志数据进行离线分析处理包括:
通过所述操作界面利用spark计算引擎对所述原始日志数据进行离线分析处理。
7.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6任一所述的税务端系统日志实时分析方法。
8.一种非暂态计算机可读存储介质,其特征在于,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行权利要求1-6任一所述的税务端系统日志实时分析方法。
9.一种税务端系统日志实时分析系统,其特征在于,包括:
日志采集模块,用于多线程实时采集税务端系统每个业务操作的产生的日志数据;
日志缓存模块,用于将采集的所述日志数据缓存至消息队列集群中;
日志存储模块,用于将采集的所述日志数据作为原始日志数据进行分布式存储;
日志分析模块,用于提取所述消息队列集群中的所述日志数据并基于流计算工具对所述日志数据进行实时分析处理,同时将分析结果进行实时存储;
日志展示模块,用于提供操作界面,通过所述操作界面基于大数据计算引擎对所述原始日志数据进行查询、查询结果展示以及离线分析处理,或通过所述操作界面根据查询条件对实时存储的所述分析结果进行实时查询和查询结果展示。
10.根据权利要求9所述的税务端系统日志实时分析系统,其特征在于,
所述日志采集模块包括至少一个flume日志采集客户端,所述flume日志采集客户端基于配置文件对税务端系统进行多线程的日志数据采集;
所述日志缓存模块包括kafka消息队列集群,所述kafka消息队列集群用于对实时采集的所述日志数据进行缓存;
所述日志存储模块包括hadoop分布式文件系统,所述hadoop分布式文件系统用于将采集的所述日志数据作为原始日志数据进行持久化的分布式存储;
所述日志分析模块包括spark流实时计算程序和spark计算引擎,其中,所述spark流实时计算程序用于拉取所述kafka消息队列集群中缓存的日志数据进行分析以获取每个业务操作的完整信息,并实时输出分析结果;所述spark计算引擎用于对所述原始日志数据进行离线分析处理。