1.一种海量日志数据的高效低成本处理方法,其特征在于,包括:
并行处理临时表初始化,删除临时数据;
并行导入日志文件数据到临时表;
并行计算临时表数据,执行数据清洗,合并各路数据,生成最终的日志表数据;
根据最终的日志表数据并行计算,获得日志统计分析报表。
2.根据权利要求1所述的方法,其特征在于,所述的方法具体包括以下步骤:
步骤1中,并行删除日志记录数汇总临时表LOG_INTERFACE_BUFF数据、删除各路日志对应的临时表数据、删除日志结果表当天分区表数据、删除404日志临时表数据、删除404日志结果表数据当天的日志数据;
步骤2中,等待最后一个删除完成;
步骤3中,记录待处理的访问日志目录;
步骤4中,判断当前日志目录是否JSP目录,不是JSP目录执行步骤5,是JSP目录执行步骤6;
步骤5中,定义静态日志文件名;
步骤6中,定义动态JSP日志文件名;
步骤7中,合并前天最后10000条日志,昨天日志和当天的前10000条日志;
步骤8中,导入合并后的当前目录日志到各路日志对应的临时表;
步骤9中,删除合并后的文件及临时文件;
步骤10中,等待最后一路数据导入完成;
步骤11中,执行SP_HIS_APACHE_ACCESS_LOG存储过程;
步骤12中,执行SP_HIS_APACHE_ACCESS_LOG21存储过程;
步骤13中,执行SP_HIS_APACHE_ACCESS_LOG22存储过程;
步骤14中,执行SP_HIS_APACHE_ACCESS_LOG3存储过程;
步骤15中,执行SP_HIS_APACHE_ACCESS_LOG41存储过程;
步骤16中,执行SP_HIS_APACHE_ACCESS_LOG42存储过程;
步骤17中,等待各路存储过程执行完成;
步骤18中,执行SP_HIS_APACHE_ACCESS_LOG51存储过程;
步骤19中,执行SP_HIS_APACHE_ACCESS_LOG52存储过程;
步骤20中,等待最慢一个存储过程执行完成;
步骤21中,执行SP_FACT_APACHE_ACCESS_D,SP_UPDATE_APACHE_PV和SP_WAP_PV_CORRECT存储过程计算PV和UV。
3.根据权利要求2所述的方法,其特征在于,所述的步骤11中,执行SP_HIS_APACHE_ACCESS_LOG存储过程具体为:
删除第n路日志临时表3_n数据和索引(HIS_APACHE_ACCESS_LOG_BUFF3_n),
删除日志临时表4_n(HIS_APACHE_ACCESS_LOG_BUFF4_n),
日志临时表5_n(HIS_APACHE_ACCESS_LOG_BUFF5_n),
日志临时表6_n数据(HIS_APACHE_ACCESS_LOG_BUFF6_n),
插入日志临时表_n入库的记录数(his_apache_access_log_buff_n)到日志记录数汇总临时表(log_INTERFACE_buff),
转储日志临时表_n当天的数据(his_apache_access_log_buff_n)到日志临时表5_n(HIS_APACHE_ACCESS_LOG_BUFF5_n)。
4.根据权利要求2所述的方法,其特征在于,所述的步骤12中,执行SP_HIS_APACHE_ACCESS_LOG21存储过程具体为:
删除日志临时表1_n数据(HIS_APACHE_ACCESS_LOG_BUFF1_n),
转储日志临时表5_n手机号不为空的记录到日志临时表1_n(HIS_APACHE_ACCESS_LOG_BUFF1_n),
根据日志临时表1_n手机号段匹配省份转储到日志临时表3_n,
删除HIS_APACHE_ACCESS_LOG_BUFF1_n数据,
转储手机号不为空的记录到HIS_APACHE_ACCESS_LOG_BUFF1_n表,
根据手机号段匹配省份转储到HIS_APACHE_ACCESS_LOG_BUFF3_n表。
5.根据权利要求2所述的方法,其特征在于,所述的步骤13中,执行SP_HIS_APACHE_ACCESS_LOG22存储过程具体为:
删除HIS_APACHE_ACCESS_LOG_BUFF2_n数据,
转储手机号为空的记录到HIS_APACHE_ACCESS_LOG_BUFF2_n表,
根据IP地址匹配省份转储到HIS_APACHE_ACCESS_LOG_BUFF3_n表。
6.根据权利要求2所述的方法,其特征在于,所述的步骤14中,执行SP_HIS_APACHE_ACCESS_LOG3存储过程具体为:
后3位不为数值的数据,将该数据移到HIS_APACHE_ACCESS_LOG_BUFF3_n表000分区,
执行SUB_SP_HIS_APACHE_ACCESS_LOG存储过程,转储数据到HIS_APACHE_ACCESS_LOG_BUFF6_n表。
7.根据权利要求2所述的方法,其特征在于,所述的步骤15中,执行SP_HIS_APACHE_ACCESS_LOG41存储过程具体为:
转储404数据到HIS_APACHE_ACCESS_404_LOG_BUFF表。
8.根据权利要求2所述的方法,其特征在于,所述的步骤16中,执行SP_HIS_APACHE_ACCESS_LOG42存储过程具体为:
转储不包含404的数据到HIS_APACHE_ACCESS_LOG表。
9.根据权利要求2所述的方法,其特征在于,所述的步骤18中,执行SP_HIS_APACHE_ACCESS_LOG51存储过程具体为:log_interface_buff表中数据合并到LOG_INTERFACE表。
10.根据权利要求2所述的方法,其特征在于,所述的步骤19中,执行SP_HIS_APACHE_ACCESS_LOG52存储过程具体为:
HIS_APACHE_ACCESS_404_LOG_BUFF表中数据合并到HIS_APACHE_ACCESS_404_LOG表。