一种日志文件的异常检测与处理的方法与装置的制造方法

文档序号:9921943阅读:332来源:国知局
一种日志文件的异常检测与处理的方法与装置的制造方法
【技术领域】
[0001 ]本发明涉及网站日志分析领域,具体而言,是一种日志文件的异常检测与处理的 方法与装置。
【背景技术】
[0002] 迅速发展的互联网技术使得网站积累了更加庞大的访问日志。对访问日志的完整 全面地分析可以挖掘用户行为特征,提升网站自身运营效率获取更大利润。然而,由于访问 日志文件庞大且分散,且在整个分析过程中日志文件需要历经几次传输存储,这个过程中 日志文件的完整性和准确性不能保证。以中国制造网(以下简称MIC)为例,整个日志分析流 程及可能出现的问题可归纳如下:
[0003] 1.每日凌晨运维部门将前一日日志进行打包,存放在服务器上形成了日志文件的 数据源。BI日志服务器从数据源处下载日志文件形成BI日志原始文件。该过程可能出现数 据源文件异常,或者BI日志服务器文件缺失或者文件受损等问题。
[0004] 2.将BI日志服务器日志PUT到HDFS。该过程中,可能出现HDFS文件缺失或文件受损 等异常。
[0005] 3.HAD00P程序日志解析。该过程中可能由于某个程序的Bug而出现最终结果不准 确的情况。
[0006] 如若日志文件的完整性和准确性不能得到保证,则会造成网站对用户行为的分析 不准确进而影响整个网站的分析效果甚至运营效果。因此,日志的完整性和准确性对日志 分析具有至关重要的作用。本发明对网站日志文件的异常检测提出一种解决方法,并针对 各个环节的各种异常情况提出了处理办法,以确保日志文件最终能完整准确地被解析从而 提升网站分析效果。

【发明内容】

[0007] 本发明目的是,针对基于HAD00P平台(适合大数据的分布式存储和计算的平台)的 日志解析系统提出了一种日志文件的异常检测与处理方法,解决日志文件从数据源到数据 表过程中可能出现的各种异常。
[0008] -种日志文件的异常检测与处理的方法,其特征是包括如下步骤:
[0009] 1 )BI日志服务器日志与数据源MD5异常监控与处理,
[0010] (1 )BI日志服务器日志与数据源MD5比对,检测是否异常;运维打包挂载数据源日 志文件与BI日志服务器下载日志时分别以相同的MD5加密方式给每个文件生成MD5值,并分 别存至两张表中,通过数据源文件的MD5值与BI日志服务器原始日志文件的MD5值比对就能 判断BI日志服务器日志是否与数据源文件一致,对于异常情况给出相应预警;
[0011] (2)处理BI日志服务器日志文件与数据源日志文件不一致的异常情况,
[0012] 从数据源到BI日志服务器可能出现数据源异常、日志未挂到BI日志服务器、挂载 的文件大小异常。对于数据源异常,需要联系运维相关维护人员及时解决;对于日志未挂载 到BI日志服务器以及挂载的文件大小异常,则BI部门需及时查看修复程序,并重新挂载。 [0013] 2)BI日志服务器日志文件异常检测与处理,
[0014] (1)检测BI日志服务器日志文件是否出现异常,即使BI日志服务器日志与数据源 一致,仍有可能出现其他异常;
[0015] 文件数量异常:在业务不发生变化的情况下,每日的日志文件数量是固定的。当BI 日志服务器上文件数量比以往出现偏多或偏少时,一方面是业务发生变化导致文件数量发 生变化,另一方面也有可能是由于文件出现了命名或者打包错误,此时需结合文件命名错 误、打包错误与人工判断,根据业务作出判断,对于异常情况给出相应预警;
[0016] 文件大小异常:文件大小异常是随着文件数量异常问题出现而存在的;通常为这 个异常值设置一个阈值,当当日文件大小超过(或低于)比上一日或(上周)的20%时给出预 警提示,并结合文件数量一起判断是否出现异常;
[0017] 文件命名错误:文件名通常由业务主题、站点名、文件日期、打包时间等组成,通过 两种方法识别文件命名错误:(1)从文件名判断:当日凌晨打包的日志文件其业务发生时间 通常都是前一日,此时文件名中的文件日期应为打包的前一日,若存在文件打包时间为当 日凌晨且文件名上日期也为打包当日时则可判断文件命名错误;(2)通过识别文件中的内 容判断:日志文件通常都记录了业务发生的时间,通过比对文件名中的日期与文件内容中 的业务发生日期判断该日志文件是否命名错误;
[0018] 文件打包错误:文件打包错误是指将属于当天的日志文件打包到另外一天的文件 中;日志文件打包后通常被放置在以业务发生日期命名的文件夹下;
[0019] 与文件命名错误类似,文件打包错误也有两种检测方法:(1)通过文件夹名判断; 若某个不属于该文件名日期的文件被放至该文件下时则出现了打包错误;(2)通过识别文 件中的内容判断,当在该文件夹下有文件中存在非该文件夹日期下的记录,或者文件中既 存在该日期的又存在部分非该日期的记录,则可认为日志文件出现了打包错误;
[0020]通常文件命名错误与文件打包错误都是随着文件数量异常同时存在,当判断文件 数量出现异常且非业务变化原因而引起时,需人工结合文件命名错误和文件打包错误共同 判断,对于异常情况给出相应的预警提示;
[0021] (2)BI日志服务器日志文件异常处理,
[0022]当对BI日志服务器日志文件进行异常检测并发现异常后需要及时处理;对于文件 数量异常,需结合文件命名错误以及文件打包错误一起处理;当出现命名错误时需要对文 件重新命名,当出现文件打包错误时需重新对日志文件进行打包;而文件大小异常则需结 合文件数量异常判断,当文件数量正确时文件大小也会相应正常;
[0023] 3)HDFS文件异常检测与处理 [0024] (l)HDFS文件异常检测
[0025]日志文件从BI日志服务器PUT到HDFS上的过程中,会出现文件未PUT到HDFS或者 HDFS上的文件不全的问题;将HDFS上的文件信息存至一张表中,通过与BI日志服务器表中 的日志信息进行对比,能发现异常,若有异常,则给出预警信息;
[0026] (2)HDFS日志文件异常处理
[0027] 对于HDFS文件异常,一般只需将日志文件从BI日志服务器重新PUT到HDFS即可解 决。若重新PUT后还未解决,则可能是PUT程序有异常或者BI日志服务器上日志有异常,这种 情况需结合上文BI日志服务器日志文件异常检测与处理解决;
[0028] 4)目标表数据量异常监控与处理
[0029]日志文件的最终去处是经HAD00P程序解析到目标表中;因此,为确保最终的数据 是完整并准确的,需对目标表的数据量进行监控,以便及时发现并修复HAD00P程序中可能 出现的Bug;
[0030] 该步骤需将目标表或其衍生表配置成监控表,每日监控表的数据量,并为其设置 阈值,例如当目标表数据量超过(或低于)前一天(或上周同一天)50%时,给出相关预警。
[0031] 有益效果,本发明提出的方法得到日志的完整性和准确性对日志分析,并对网站 日志文件的异常检测与处理提出一种解决方法,并针对各个环节的各种异常情况提出了处 理办法(解决日志文件从数据源到数据表过程中可能出现的各种异常),以确保日志文件最 终能完整准确地被解析从而提升网站分析效果。
【附图说明】
[0032]图1为本发明实施例一种日志文件异常检测与处理方法的流程图;
[0033]图2为本发明实施例一种日志文件异常检测与处理方法装置的结构示意图。
【具体实施方式】
[0034]图1展示了本发明实施例的一种日志文件异常检测与处理方法的流程图。
[0035] 一种日志文件的异常检测与处理的方法与装置,包括:
[0036] 1)、BI日志服务器日志与数据源MD5异常监控与处理
[0037] (1 )BI日志服务器日志与数据源MD5比对,检测是否异常
[0038]运维打包挂载数据源日志文件与BI日志服务器下载日志时分别以相同的MD5加密 方式给每个文件生成MD5值,并分别存至两张表中,通过数据源文件的MD5值与BI日志服务 器原始日志文件的MD5值比对就可以判断BI日志服务器日志是否与数据源文件一致,对于 异常情况给出相应预警。
[0039] (2)处理BI日志服务器日
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1