一种访问日志中url的预处理方法

文档序号:9288434阅读:656来源:国知局
一种访问日志中url的预处理方法
【技术领域】
[0001]本发明涉及网站分析领域,具体而言,涉及一种网站访问日志URL的预处理方法和装置。
【背景技术】
[0002]网站访问路径分析为优化网站的结构和页面布局,以及了解访客的行为偏好等提供了重要的数据支持和指导。而网站路径分析的基础数据来源于网站的访问日志,访问日志里记录了访客的IP、访问时间、、REFERER(上一次访问的页面)、REQUEST(当前访问的页面)等信息。其中,REFERER和REQUEST是构建访问网页集合和访问路径的非常主要的信息。
[0003]访问日志中记录的REFERER和REQUEST都是URL地址的形式,比如中国制造网(以下简称:MIC)首页的URL (统一资源定位器,即WWW页的地址)地址为
[0004]“www.made-1n-china.com”。基于访问日志中记录的原始 REFERER 和 REQUEST 进行路径分析的时候会遇到一个问题,REFERER和REQUEST过于明细,不利于后续统计分析和提取访问路径。比如,MIC的访客主要通过GOOGLE进入到MIC搜索列表页,不同的搜索词或搜索条件对应的搜索列表页的URL地址是不同的,比如,用“led “进行搜索,搜索列表页的URL为
[0005]“www.made-1n-china.com/productdirectory.do ? word = led&subact1n=hunt&style = b&mode = and&code = O&comProvince = nolimit&order =O&isOpenCorrect1n = I,,。
[0006]用“led light “进行搜索,搜索列表页的URL为
[0007]^www.made-1n-china.com/productdirectory.do ? subact1n = hunt&style =b&mode = and&code = O&comProvince = nolimit&order = O&isOpenCorrect1n = l&word=led+light”,实际上我们在进行访问路径分析的时候是将类似于上面两个具体的URL进行一定的归纳和分类,比如将它们都识别为"MIC搜索列表页“,这样才能分析得到整个网站的访客访问路径情况。
[0008]当前,对于访问路径的研究主要集中在如何收集每个访客的访问页面集合和构建访问路径。对于访问日志中如何对REFERER和REQUEST进行预处理很少提及,而这一步骤是构建访问路径的重要前提。
[0009]HTTP Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器当前页是从哪个页面跳转过来的地址(从哪个页面链接过来的,即上一次访问的页面),服务器籍此可以获得一些信息用于处理。REQUESTheader是一个客户端(通常是浏览器)向Web服务器发送一个请求时发送一个请求的命令行(访问的页面URL)。

【发明内容】

[0010]发明目的:本发明提供一种网站访问日志中记录的原始的URL的预处理方法和装置,解决路径分析中对于访问日志中记录的REFERER和REQUEST的数据预处理问题。
[0011]一种网站访问日志URL的预处理方法,其步骤包括:
[0012]Sll:网站URL收集,即对网站URL地址体系的整理和归纳;收集网站主要的或重要的页面URL,并确认这些URL的基本信息,包括URL识别规则、URL名称;其中,URL识别规则是指根据原始网页的URL分析和归纳得出的某一类页面的URL的构成特征;URL识别规则能使用正则表达式进行描述;
[0013]S12:URL配置和存储,将Sll中收集得到的网站URL配置并存储到URL规则存储表中;URL规则存储表包括以下字段..URL唯一编码、URL识别规则、URL名称、URL匹配顺序;其中,“URL唯一编码”用于标注每一个URL识别规则的唯一身份,由数据库自动生成;“URL识别规则”和“URL名称”来源于Sll步骤;“URL匹配顺序”用于控制URL匹配顺序;
[0014]“URL匹配顺序”的确定方法为:假设BJJRL是AJJRL的一个子字符串,则称AJJRL和BJJRL之间具有字符串包含关系,其中AJJRL为母URL,BJJRL为子URL ;则AJJRL与B_URL的匹配顺序为AJJRL在前,BJJRL在后,即母URL排在子URL之前;
[0015]S13:取出S12中得到的URL规则存储表中的信息,并按照“URL匹配顺序”进行排序,保证母URL排在子URL之前;
[0016]S14:获取访问日志的记录,包括访客的IP、访问时间、REFERER(上一次访问的页面)、REQUEST (访问的页面)信息;
[0017]S15:将S14中每一条访问日志记录中的REFERER和REQUEST分别与S13中获取的URL规则存储表中的URL识别规则按照S13中的获取排序进行匹配;如果匹配成功,则记录下URL识别规则对应的URL唯一编码,作为REFERER的编码和REQUEST编码;如果REFERER或REQUEST与任何一条URL识别规则都不能匹配,则取_1或空值作为REFERER的编码或REQUEST 编码;
[0018]优选的,本发明在步骤S15将步骤S14中每一条访问日志记录中的REFERER和REQUEST分别与S13中获取的URL规则存储表中的URL识别规则按照S13中的排序进行匹配,包括:
[0019]当REFERER或REQUEST与URL规则存储表中的URL识别规则是字符串包含关系,即REFERER或REQUEST是该URL识别规则的母URL,则表示REFERER或REQUEST与该URL识别规则匹配成功;
[0020]如果REFERER或REQUEST能够与URL规则存储表中的多个URL识别规则匹配成功,则取按照S13中的排序排在第一位的URL识别规则;
[0021]S16:获取S15中没有匹配成功的REFERER和REQUEST,即REFERER编码或REQUEST编码为-1或者空值的记录,将所有的没有匹配成功的REFERER和REQUEST合并到一起,得到未匹配URL集;
[0022]S17:对S16中的未匹配URL集进行统计分析,得到未匹配URL集中数量最多的URL,(并可结合人工的判断和监测,)将没有匹配成功的URL匹配到URL规则配置表中,从而能不断完善URL规则配置表中的URL识别规则。
[0023]本发明提供一种访问日志中的URL预处理装置,其特征包括:
[0024]URL收集单元:用于收集网站的URL,并且确定URL识别规则、URL名称;其中,URL识别规则是指根据原始网页的URL分析和归纳得出的某一类页面的URL的构成特征,URL识别规则能使用正则表达式进行描述;
[0025]URL规则存储单元:用于存储URL的识别规则以及相关信息,包括:URL唯一编码、URL识别规则、URL名称、URL匹配顺序。其中,“URL唯一编码”用于标注每一个URL识别规则的唯一身份;“URL识别规则”和“URL名称”来源于URL收集单元;用于控制URL匹配顺序。
[0026]优选的,URL规则存储单元包括:
[0027]URL规则配置模块:用于确定“URL唯一编码”和“URL匹配顺序”。其中“URL唯一编码”可由数据库自动生成,或者手动生成,只要保证URL唯一编码与URL识别规则是一对一的关系即可。“URL匹配顺序”的确定方法为:假设BJJRL是AJJRL的一个子字符串(比如AJJRL为“abcd”,B_URL为“abc”),则称AJJRL和BJJRL之间具有字符串包含关系,其中AJJRL为母URL,BJJRL为子URL。则是AJJRL与BJJRL的匹配顺序为AJJRL在前,BJJRL在后,即母URL排在子URL之前。
[0028]URL规则存储模块:用于存储URL规则存储表,包括URL的识别规则以及相关信息,包括:URL唯一编码、URL识别规则、URL名称、URL匹配顺序;
[0029]URL规则获取单元:将所述URL识别规则按照URL匹配顺序进行排序,并按此顺序获取URL识别规则及URL唯一编码;
[0030]日志记录获取单元:用于获取访问日志中每一条记录,包括访客的IP、访问时间、、REFERER (上一次访问的页面)、REQUEST (访问的页面)等信息;
[0031]URL匹配单元:用于将访问日志中的每一条记录的REFERER和REQUEST与URL识别规则进行匹配。取出一条日志记录,并将REFERER或REQUEST按照URL识别规则获取的顺序逐一与URL识别规则进行匹配,如果REFERER或REQUEST是某一 URL识别规则的母URL,则匹配成功并取出该URL识别规则的URL唯一编码作为REFERER编码或REQUEST编码;如果REFERER或REQUEST与任何一个URL识别规则都不具有字符串包含关系,则将REFERER编码或REQUEST编码做特殊标记,比如标记为“-1 “或空值,至此完成这条日志记录的匹配并且跳出此次匹配。然后,取下一条日志记录,按照上述方法进行匹配,直至所有的日志记录全部匹配完成;
[0032]匹配结果集存储单元:用于存储访问日志与URL识别规则的匹配结果,包括:访问日志中的原始信息如IP、访问时间、
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1