一种访问日志中url的预处理方法_2

文档序号:9288434阅读:来源:国知局
REFERER、REQUEST等,以及上述REFERER编码、REQUEST编码;
[0033]未匹配URL监测单元包括:未匹配数据获取单元:用于获取匹配结果集中未匹配成功REFERER和REQUEST,并将其合并为未匹配URL集;未匹配数据统计模块:统计出未匹配URL集中每个URL的记录条数;未匹配数据监测模块:根据出未匹配URL集中每个URL的记录条数并按照记录条数进行降序排列,可以收集到未匹配的URL集合。再结合实际的业务需求,可确定是否将这些URL配置到URL规则存储表中,如果需要配置,则重新回到URL收集单元按照上述流程执行,直至所有需要分析的URL都加入到URL规则存储表中。
[0034]本发明的有益结果如下:本发明提供一种网站访问日志中记录的原始的URL的预处理方法,能解决路径分析中对于访问日志中记录的REFERER和REQUEST的数据预处理问题:
[0035]I)通过收集网站的页面URL并形成网站URL规则存储表,将原始访问日志中记录的REFERER和REQUEST与URL规则存储表中的URL识别规则进行匹配,将每一个REFERER和REQUEST进行编码和命名,把REFERER和REQUEST的原始URL地址格式转化为便于后续统计分析和应用的编码和业务名称。
[0036]2)通过对未匹配URL集的监测和分析,可以不断的完善URL规则存储表,可以使得URL规则存储表逐步全面的覆盖所有的网站页面,从而保证访问日志中的记录尽可能多的匹配得到REFERER编码和REQUEST编码。为后续基于访问日志的分析提供完善的预处理好的数据。
【附图说明】
[0037]图1为本发明实施例一种网站访问日志URL的预处理方法流程图;
[0038]图2为本发明实施例一种网站访问日志URL的预处理装置的结构示意图。
具体实施方案
[0039]下面结合附图和实施例,对本发明的具体实施方案作进一步详细描述,很显然,所描述的实施例仅为本发明的一部分实施例,而不是全部实施例。基于本申请的实施例,以及本发明权利要求的技术实质所做的改变或等同变化,仍落入本申请保护的范围。
[0040]参阅图1所示,本申请的实施步骤如下:
[0041]Sll:网站URL收集,即对网站URL地址体系的整理和归纳。网站URL的收集在初始阶段可以依靠人工收集的方式,通过人工收集网站比较主要的或重要的页面URL,并确认这些URL的基本信息,包括URL识别规则、URL名称等。其中,URL识别规则是指根据原始网页的URL分析和归纳得出的某一类页面的URL的构成特征。
[0042]比如,中国制造网的产品搜索列表页的URL地址都是以“www.made-1n-china.com/productdirectory.do ? ”开头;则产品搜索列表页的识别规则就是“www.made-1n-china.com/productdirectory.do ? ”。而且,URL识别规则可以使用正则表达式进行描述。
[0043]产品搜索列表页的URL地址是如下形式:
[0044]www.made-1n-china.com/productdirectory.do ? word = led&subact1n=hunt&style = b&mode = and&code = O&comProvince = nolimit&order =O&isOpenCorrect1n = I,其特征是
[0045]以“www.made-1n-china.com/productdirectory.do ? ” 开头,后面的 “word” 等参数记录了所用的搜索词等信息。那么就可以根据如果某个URL以“www.made-1n-china.com/productdirectory.do ? ”开头,则该URL为产品搜索列表页。
[0046]中国制造网的首页URL地址是:www.made-1n-china.com。
[0047]中国制造网的专题活动首页URL地址是:www.made-1n-china.com/special ο
[0048]中国制造网的专题活动detail页URL地址是:(比如magic-show专题)
[0049]www.made-1n-china.com/special/magic-show/。
[0050]则以上四个页面对应的的URL识别规则和URL名称可以分别是:
[0051]“www.made-1n-china.com/productdirectory.do ? ”,“产品搜索列表页”;
[0052]“www.made-1n-china.com$” , “MIC 首页”;
[0053]“www.made-1n_china.com/special,,,“专题首页”;
[0054]“www.made-1n_china.com/special/,,,“专题 detail 页”。
[0055]其中,MIC首页的识别规则中的“$ ”是正则表达式的表示方法,表示以“$ ”之前的字符串结尾,在此表示以“WWW.made-1n-china.com”结尾的所有字符串;
[0056]S12:URL配置和存储,将Sll中收集得到的网站URL配置并存储到URL规则存储表中。URL规则存储表包括以下字段..URL唯一编码、URL识别规则、URL名称、URL匹配顺序。其中,“URL唯一编码”用于标注每一个URL识别规则的唯一身份,可由数据库自动生成;“URL识别规则”和“URL名称”来源于Sll步骤;“URL匹配顺序”用于控制URL匹配顺序。
[0057]“URL匹配顺序”的确定方法为:假设BJJRL是AJJRL的一个子字符串(比如AJJRL为“abcd”,B_URL为“abc”),则称AJJRL和BJJRL之间具有字符串包含关系,其中AJJRL为母URL,BJJRL为子URL。则是AJJRL与BJJRL的匹配顺序为AJJRL在前,BJJRL在后,即母URL排在子URL之前。
[0058]具体的,如果是配置网站的第一个页面URL到URL规则存储表中,中国制造网的产品搜索列表页为例,则URL唯一编码、URL识别规则、URL名称、URL匹配顺序分别为:
[0059]“1001”,“www.made-1n-china.com/productdirectory.do ? ”,“产品搜索列表页”,“产品搜索列表页”。需要注意的是目前URL规则存储表中还没有已经配置好的URL识别规则,因此“URL匹配顺序”的值可以随意,在此可取URL名称作为URL匹配顺序的取值。
[0060]上述4个页面的URL唯一编码、URL识别规则、URL名称、URL匹配顺序分别为:
[0061]“1002”,“www.made-1n-china.com/productdirectory.do ? ”,“产品搜索列表页”,“产品搜索列表页”;
[0062]“ 1003”,“www.made-1n-china.com$”, “MIC 首页”,“MIC 首页”;
[0063]“ 1004”,“www.made-1n-china.com/special,,,“专题首页,,,“专题页 2”;
[0064]“ 1005”,“www.made-1n-china.com/special/,,,“专题 detail 页,,,“专题页 I”。
[0065]其中,专题detail 页的 URL 识别规则(www.made-1n-china.com/special/)是专题首页的识别规则(www.made-1n_china.com/special)的母URL,因此专题detail页和专题首页的URL匹配顺序分别为“专题页1”,“专题页2”,这样能够保证按照URL匹配顺序升序排列时,专题detail页排在专题首页之前。
[0066]S13:取出S12中得到的URL规则存储表中的信息,并按照“URL匹配顺序”进行排序,保证母URL排在子URL之前。
[0067]具体的,取出上述URL规则存储表中的信息,并按照“URL匹配顺序”升序排列,得到:
[0068]“ 1003”,“www.made-1n-china.com$”, “MIC 首页”,“MIC 首页”;
[0069]“1002”,“www.made-1n-china.com/productdirectory.do ? ”,“产品搜索列表页”,“产品搜索列表页”;
[0070]“ 1005”,“www.made-1n-china.com/special/,,,“专题 detail 页,,,“专题页 I”;
[0071]“ 1004”,“www.made-1n-china.com/special,,,“专题首页,,,“专题页 2”。
[0072]S14:获取访问日志的记录,包括访客的IP、访问时间、REFERER(上一次访问的页面)、REQUEST(访问的页面)等信息。具体的,访问日志中的记录可以是如下形式:
[0073]192.168.1.1,2015-01-0112:01:00, www.made-1n-china.com, www.google, com ;
[0074]192.168.1.1,2015-01-0112:01:30, www.made-1n-china.com/special/vacuum-pump/, www.made-1n-china.com
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1