一种网络日志URL的分析方法及装置与流程

文档序号:12200783阅读:来源:国知局
一种网络日志URL 的分析方法及装置与流程

技术特征:
1.一种网络日志URL的分析方法,其特征在于,包括:提取网页日志中的URL;对所述URL进行去重处理,去除所述网页日志中重复的网络地址,保留下的URL均不相同;依次采用预置的多个正则表达式,对去重后URL进行正则匹配,提取与去重后URL匹配的正则表达式的编号;针对去重前URL,复制与其相同的去重后URL的正则表达式编号,作为对应的正则表达式编号;对去重前各URL对应的不同的正则表达式编号进行统计。2.如权利要求1所述的方法,其特征在于,去重前和去重后的URL分别以列的形式存储在第一表格和第二表格中;所述去重后的URL对应的正则表达式编号,对应存储在第二表格中。3.如权利要求2所述的方法,其特征在于,针对所有所述去重前的URL,在去重后的URL中,找到与其相同的URL对应的正则表达式,作为对应的正则表达式的步骤包括:将第二表格的数据进行行转列;通过对第一表格和第二表格中URL所在列进行等值连接,使去重前的所有URL找到其对应的正则表达式编号。4.如权利要求2所述的方法,其特征在于,所述去重前URL对应的正则表达式编号,对应添加到第一表格中。5.如权利要求2所述的方法,其特征在于,所述去重前URL对应的正则表达式编号,替换第一表格中对应的URL。6.如权利要求1所述的方法,其特征在于,所述对去重前各URL对应的不同的正则表达式编号进行统计的步骤为,分别计算各个不同的正则表达式编号在去重前所有URL中出现的次数。7.如权利要求1-6任一项所述的方法,其特征在于,所述正则表达式的编号为其所属商业类别的编号。8.一种网络日志URL的分析装置,其特征在于,包括:URL提取模块,用于提取网页日志中的URL;URL去重模块,用于对所述URL进行去重处理,去除所述网页日志中重复的网络地址,保留下的URL均不相同;正则匹配模块,用于依次采用预置的多个正则表达式,对去重后URL进行正则匹配,提取与去重后URL匹配的正则表达式的编号;匹配结果复制模块,用于针对去重前URL,复制与其相同的去重后URL的正则表达式编号,作为对应的正则表达式编号;统计模块,用于对去重前各URL对应的不同的正则表达式编号进行统计。9.如权利要求8所述的装置,其特征在于,去重前和去重后的URL分别以列的形式存储在第一表格和第二表格中;所述去重后的URL对应的正则表达式编号,对应存储在第二表格中。10.如权利要求9所述的装置,其特征在于,所述匹配结果复制模块包括:行转列子模块,用于将第二表格的数据进行行转列;等值连接子模块,用于通过对第一表格和第二表格中URL所在列进行等值连接,使去重前的所有URL找到其对应的正则表达式编号。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1