一种海量日志数据的高效低成本处理方法与流程

文档序号:14835892发布日期:2018-06-30 12:23阅读:来源:国知局
一种海量日志数据的高效低成本处理方法与流程

技术特征:

1.一种海量日志数据的高效低成本处理方法,其特征在于,包括:

并行处理临时表初始化,删除临时数据;

并行导入日志文件数据到临时表;

并行计算临时表数据,执行数据清洗,合并各路数据,生成最终的日志表数据;

根据最终的日志表数据并行计算,获得日志统计分析报表。

2.根据权利要求1所述的方法,其特征在于,所述的方法具体包括以下步骤:

步骤1中,并行删除日志记录数汇总临时表LOG_INTERFACE_BUFF数据、删除各路日志对应的临时表数据、删除日志结果表当天分区表数据、删除404日志临时表数据、删除404日志结果表数据当天的日志数据;

步骤2中,等待最后一个删除完成;

步骤3中,记录待处理的访问日志目录;

步骤4中,判断当前日志目录是否JSP目录,不是JSP目录执行步骤5,是JSP目录执行步骤6;

步骤5中,定义静态日志文件名;

步骤6中,定义动态JSP日志文件名;

步骤7中,合并前天最后10000条日志,昨天日志和当天的前10000条日志;

步骤8中,导入合并后的当前目录日志到各路日志对应的临时表;

步骤9中,删除合并后的文件及临时文件;

步骤10中,等待最后一路数据导入完成;

步骤11中,执行SP_HIS_APACHE_ACCESS_LOG存储过程;

步骤12中,执行SP_HIS_APACHE_ACCESS_LOG21存储过程;

步骤13中,执行SP_HIS_APACHE_ACCESS_LOG22存储过程;

步骤14中,执行SP_HIS_APACHE_ACCESS_LOG3存储过程;

步骤15中,执行SP_HIS_APACHE_ACCESS_LOG41存储过程;

步骤16中,执行SP_HIS_APACHE_ACCESS_LOG42存储过程;

步骤17中,等待各路存储过程执行完成;

步骤18中,执行SP_HIS_APACHE_ACCESS_LOG51存储过程;

步骤19中,执行SP_HIS_APACHE_ACCESS_LOG52存储过程;

步骤20中,等待最慢一个存储过程执行完成;

步骤21中,执行SP_FACT_APACHE_ACCESS_D,SP_UPDATE_APACHE_PV和SP_WAP_PV_CORRECT存储过程计算PV和UV。

3.根据权利要求2所述的方法,其特征在于,所述的步骤11中,执行SP_HIS_APACHE_ACCESS_LOG存储过程具体为:

删除第n路日志临时表3_n数据和索引(HIS_APACHE_ACCESS_LOG_BUFF3_n),

删除日志临时表4_n(HIS_APACHE_ACCESS_LOG_BUFF4_n),

日志临时表5_n(HIS_APACHE_ACCESS_LOG_BUFF5_n),

日志临时表6_n数据(HIS_APACHE_ACCESS_LOG_BUFF6_n),

插入日志临时表_n入库的记录数(his_apache_access_log_buff_n)到日志记录数汇总临时表(log_INTERFACE_buff),

转储日志临时表_n当天的数据(his_apache_access_log_buff_n)到日志临时表5_n(HIS_APACHE_ACCESS_LOG_BUFF5_n)。

4.根据权利要求2所述的方法,其特征在于,所述的步骤12中,执行SP_HIS_APACHE_ACCESS_LOG21存储过程具体为:

删除日志临时表1_n数据(HIS_APACHE_ACCESS_LOG_BUFF1_n),

转储日志临时表5_n手机号不为空的记录到日志临时表1_n(HIS_APACHE_ACCESS_LOG_BUFF1_n),

根据日志临时表1_n手机号段匹配省份转储到日志临时表3_n,

删除HIS_APACHE_ACCESS_LOG_BUFF1_n数据,

转储手机号不为空的记录到HIS_APACHE_ACCESS_LOG_BUFF1_n表,

根据手机号段匹配省份转储到HIS_APACHE_ACCESS_LOG_BUFF3_n表。

5.根据权利要求2所述的方法,其特征在于,所述的步骤13中,执行SP_HIS_APACHE_ACCESS_LOG22存储过程具体为:

删除HIS_APACHE_ACCESS_LOG_BUFF2_n数据,

转储手机号为空的记录到HIS_APACHE_ACCESS_LOG_BUFF2_n表,

根据IP地址匹配省份转储到HIS_APACHE_ACCESS_LOG_BUFF3_n表。

6.根据权利要求2所述的方法,其特征在于,所述的步骤14中,执行SP_HIS_APACHE_ACCESS_LOG3存储过程具体为:

后3位不为数值的数据,将该数据移到HIS_APACHE_ACCESS_LOG_BUFF3_n表000分区,

执行SUB_SP_HIS_APACHE_ACCESS_LOG存储过程,转储数据到HIS_APACHE_ACCESS_LOG_BUFF6_n表。

7.根据权利要求2所述的方法,其特征在于,所述的步骤15中,执行SP_HIS_APACHE_ACCESS_LOG41存储过程具体为:

转储404数据到HIS_APACHE_ACCESS_404_LOG_BUFF表。

8.根据权利要求2所述的方法,其特征在于,所述的步骤16中,执行SP_HIS_APACHE_ACCESS_LOG42存储过程具体为:

转储不包含404的数据到HIS_APACHE_ACCESS_LOG表。

9.根据权利要求2所述的方法,其特征在于,所述的步骤18中,执行SP_HIS_APACHE_ACCESS_LOG51存储过程具体为:log_interface_buff表中数据合并到LOG_INTERFACE表。

10.根据权利要求2所述的方法,其特征在于,所述的步骤19中,执行SP_HIS_APACHE_ACCESS_LOG52存储过程具体为:

HIS_APACHE_ACCESS_404_LOG_BUFF表中数据合并到HIS_APACHE_ACCESS_404_LOG表。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1