一种网络日志URL的分析方法及装置与流程

文档序号：12200783阅读：来源：国知局

技术特征：
1.一种网络日志URL的分析方法，其特征在于，包括：提取网页日志中的URL；对所述URL进行去重处理，去除所述网页日志中重复的网络地址，保留下的URL均不相同；依次采用预置的多个正则表达式，对去重后URL进行正则匹配，提取与去重后URL匹配的正则表达式的编号；针对去重前URL，复制与其相同的去重后URL的正则表达式编号，作为对应的正则表达式编号；对去重前各URL对应的不同的正则表达式编号进行统计。2.如权利要求1所述的方法，其特征在于，去重前和去重后的URL分别以列的形式存储在第一表格和第二表格中；所述去重后的URL对应的正则表达式编号，对应存储在第二表格中。3.如权利要求2所述的方法，其特征在于，针对所有所述去重前的URL，在去重后的URL中，找到与其相同的URL对应的正则表达式，作为对应的正则表达式的步骤包括：将第二表格的数据进行行转列；通过对第一表格和第二表格中URL所在列进行等值连接，使去重前的所有URL找到其对应的正则表达式编号。4.如权利要求2所述的方法，其特征在于，所述去重前URL对应的正则表达式编号，对应添加到第一表格中。5.如权利要求2所述的方法，其特征在于，所述去重前URL对应的正则表达式编号，替换第一表格中对应的URL。6.如权利要求1所述的方法，其特征在于，所述对去重前各URL对应的不同的正则表达式编号进行统计的步骤为，分别计算各个不同的正则表达式编号在去重前所有URL中出现的次数。7.如权利要求1-6任一项所述的方法，其特征在于，所述正则表达式的编号为其所属商业类别的编号。8.一种网络日志URL的分析装置，其特征在于，包括：URL提取模块，用于提取网页日志中的URL；URL去重模块，用于对所述URL进行去重处理，去除所述网页日志中重复的网络地址，保留下的URL均不相同；正则匹配模块，用于依次采用预置的多个正则表达式，对去重后URL进行正则匹配，提取与去重后URL匹配的正则表达式的编号；匹配结果复制模块，用于针对去重前URL，复制与其相同的去重后URL的正则表达式编号，作为对应的正则表达式编号；统计模块，用于对去重前各URL对应的不同的正则表达式编号进行统计。9.如权利要求8所述的装置，其特征在于，去重前和去重后的URL分别以列的形式存储在第一表格和第二表格中；所述去重后的URL对应的正则表达式编号，对应存储在第二表格中。10.如权利要求9所述的装置，其特征在于，所述匹配结果复制模块包括：行转列子模块，用于将第二表格的数据进行行转列；等值连接子模块，用于通过对第一表格和第二表格中URL所在列进行等值连接，使去重前的所有URL找到其对应的正则表达式编号。

完整全部详细技术资料下载

当前第2页1 2 3