日志实时统计方法及装置的制造方法

文档序号:8324925阅读:179来源:国知局
日志实时统计方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术领域,特别涉及一种日志实时统计方法及装置。
【背景技术】
[0002] 互联网服务已经成为人们生活中必不可少的一部分。每天,即时通讯、游戏、电商、 搜索等应用,产生海量的运营日志。作为互联网服务提供方,对海量日志进行实时聚类统 计,如统计网站的UV (unique visitor,网站独立访客)值、PV (Page View,页面浏览量) 值,以便实时监控服务的异常是互联网产品的常用功能。
[0003] 对日志进行实时聚类统计,传统的方案是日志先入库,然后准实时进行聚类统计 分析。如图1所示,目前对日志的聚类统计包括如下过程:
[0004] (1)日志实时接收:实时接收生产系统(即时通讯、游戏、电商、搜索等应用服务器) 产生的运营日志;
[0005] (2)日志存储:将接收到的海量日志存储到本地数据库,可以是采用mysql (MySQL AB公司开发的一个关系型数据库管理系统)、〇rcale (Orcale公司研制的一种管理系统)或 hadoop (Apache Software Foundation公司开发的一个分布式系统基础架构)等方式来存 储;
[0006] (3)聚类规则配置:系统管理员设置要实时聚类统计的规则,如对UV统计;
[0007] (4)实时统计展示:发出实时统计请求,以及接收反馈来的统计结果并显示;
[0008] (5)日志实时聚类统计:保存聚类规则,以及根据接收到的实时统计请求,访问数 据库完成日志的聚类统计,并将统计结果返回。
[0009] 现有的这种日志聚类统计方式,在日志规模较少时可以运作良好。但面对每天数 百亿条日志,每天数T的存储量规模的日志时,进行实时聚类统计,会面临如下缺点:
[0010] 1)统计性能差。无论是传统的mysql、orcale等数据库,还是用hadoop的 map-reduce(map_reduce是Google公司提出的一个软件架构,用于大规模数据集的并行运 算),对十亿以上级别的记录进行统计,处理时间通常在数十分钟级别;而实时统计往往又 要求每隔一段时间(如1分钟或5分钟)就需要启动一次统计循环,在每1个统计循环里,1 个聚类规则就进行1次聚类统计,多个聚类规则,则需要进行多次聚类统计。这样的统计频 率对性能要求极高,传统的方案要满足这种海量日志的实时统计性能要求,需要非常多的 机器并行计算才行,成本非常大。
[0011] 2)存储成本大。为了满足实时统计需求,把每天的日志全部保存下来,对于海量日 志来说,存储成本是十分巨大的。

【发明内容】

[0012] 本发明实施例的目的是提供一种日志实时统计方法及装置,以解决现有的日志实 时聚类统计方式统计性能差、成本高的问题。
[0013] 本发明实施例提出一种日志实时统计方法,包括:
[0014] 配置聚类统计规则;
[0015] 对在线日志进行规则匹配,并记录下满足所述聚类统计规则的待统计信息;
[0016] 每隔一个统计周期接收记录下的符合聚类统计规则的待统计信息;
[0017] 对接收到的待统计信息进行聚类统计运算;
[0018] 保存经过聚类统计运算的统计结果;
[0019] 根据接收到查询请求对保存的统计结果进行查询,并展示查询结果。
[0020] 本发明实施例还提出一种日志实时统计装置,包括:
[0021] 聚类规则配置模块,用于配置聚类统计规则;
[0022] 日志发送代理模块,用于对在线日志进行规则匹配,并记录下满足所述聚类统计 规则的待统计信息;
[0023] 统计字段接收模块,用于每隔一个统计周期接收所述日志发送代理模块记录下的 符合聚类统计规则的待统计信息;
[0024] 统计字段计算模块,用于对所述统计字段接收模块接收到的待统计信息进行聚类 统计运算;
[0025] 结果存储模块,用于保存经过所述日志实时聚类统计模块聚类统计运算的统计结 果;
[0026] 实时统计展示模块,用于根据接收到查询请求对所述结果存储模块保存的统计结 果进行查询,并展示查询结果。
[0027] 相对于现有技术,本发明的有益效果是:本发明实施例的方法及装置将原始日志 通过聚类统计规则初步过滤处理后,只需一个统计周期内发有限个网络包,并且每个网络 包只包含必须的统计字段,其它用不着的字段不会包含,这样可以大大减少网络10次数和 网络带宽。此外,统计数据接收和统计数据计算分不同的进程处理,最大限度利用机器CPU 资源,避免极其影响性能的磁盘10。由于实时聚类统计流程是高性能、低存储成本的核心所 在。通过本发明实施例的装置,能做到1台普通的服务器每天可完成百亿级别日志记录,50 个聚类规则的实时统计需求;并且只需存储M级的统计结果,大大节约了硬件成本。
【附图说明】
[0028] 图1为现有的一种日志聚类统计过程示意图;
[0029] 图2为本发明实施例的一种日志实时统计方法的流程图;
[0030] 图3为本发明实施例的另一种日志实时统计方法的流程图;
[0031] 图4为本发明实施例的一种日志实时统计装置的结构图。
【具体实施方式】
[0032] 有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实 施例详细说明中将可清楚的呈现。通过【具体实施方式】的说明,当可对本发明为达成预定目 的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说 明之用,并非用来对本发明加以限制。
[0033] 请参见图2,其为本发明实施例的一种日志实时统计方法的流程图,其包括以下步 骤:
[0034] S201,配置聚类统计规则。聚类统计规则用来对生产系统产出的日志作初步过滤, 聚类统计规则可以根据需要来配置,并且对于配置好的聚类统计规则也可以根据需要作增 加、修改、删除、查询、存储等操作。
[0035]S202,对在线日志进行规则匹配,并记录下满足所述聚类统计规则的待统计信息。 所述对在线日志进行规则匹配是指对生产系统生产的日志进行实时规则匹配,满足则临时 缓存记录。
[0036]S203,每隔一个统计周期接收记录下的符合聚类统计规则的待统计信息。每隔一 个统计周期批量接收待统计信息,这样减少了网络1〇(输入/输出,Input/Output),节约了 网络带宽。
[0037]S204,对接收到的待统计信息进行聚类统计运算。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1