一种访问日志中url的预处理方法_4

文档序号:9288434阅读:来源:国知局
中的每一条记录的REFERER和REQUEST与URL识别规则进行匹配。取出一条日志记录,并将REFERER或REQUEST按照URL识别规则获取的顺序逐一与URL识别规则进行匹配,如果REFERER或REQUEST是某一 URL识别规则的母URL,则匹配成功并取出该URL识别规则的URL唯一编码作为REFERER编码或REQUEST编码;如果REFERER或REQUEST与任何一个URL识别规则都不具有字符串包含关系,则将REFERER编码或REQUEST编码做特殊标记,比如标记为“-1 “或空值,至此完成这条日志记录的匹配并且跳出此次匹配。然后,取下一条日志记录,按照上述方法进行匹配,直至所有的日志记录全部匹配完成。
[0116]匹配结果集存储单元:用于存储访问日志与URL识别规则的匹配结果,包括:访问日志中的原始信息如IP、访问时间、REFERER、REQUEST等,以及上述REFERER编码、REQUEST编码。
[0117]未匹配URL监测单元:用于对访问日志中未匹配成功的REFERER和REQUEST进行分析,从而完善URL识别规则以覆盖网站的全部页面,达到逐步完善和优化的目的。
[0118]未匹配URL监测单元包括:
[0119]未匹配数据获取单元:用于获取匹配结果集中未匹配成功REFERER和REQUEST,并将其合并为未匹配URL集。
[0120]未匹配数据统计模块:统计出未匹配URL集中每个URL的记录条数。
[0121]未匹配数据监测模块:根据出未匹配URL集中每个URL的记录条数并按照记录条数进行降序排列,可以收集到未匹配的URL集合。再结合实际的业务需求,可确定是否将这些URL配置到URL规则存储表中,如果需要配置,则重新回到URL收集单元按照上述流程执行,直至所有需要分析的URL都加入到URL规则存储表中。
[0122]以上对本发明所提供的方法与系统进行了详细的介绍,但这些说明不能被理解为限制了本发明的范围,本发明的保护范围由随附的权利要求书限定,任何在本发明权利要求基础上的改动都是本发明的保护范围。
【主权项】
1.一种网站访问日志URL的预处理方法,其特征是包括步骤: 511:网站URL收集,即对网站URL地址体系的整理和归纳;收集网站主要的或重要的页面URL,并确认这些URL的基本信息,包括URL识别规则、URL名称;其中,URL识别规则是指根据原始网页的URL分析和归纳得出的某一类页面的URL的构成特征;URL识别规则能使用正则表达式进行描述; 512:URL配置和存储,将Sll中收集得到的网站URL配置并存储到URL规则存储表中;URL规则存储表包括以下字段..URL唯一编码、URL识别规则、URL名称、URL匹配顺序;其中,“URL唯一编码”用于标注每一个URL识别规则的唯一身份,由数据库自动生成;“URL识别规则”和“URL名称”来源于Sll步骤;“URL匹配顺序”用于控制URL匹配顺序; “URL匹配顺序”的确定方法为:假设BJJRL是AJJRL的一个子字符串,则称AJJRL和B_URL之间具有字符串包含关系,其中AJJRL为母URL,BJJRL为子URL ;则AJJRL与BJJRL的匹配顺序为AJJRL在前,BJJRL在后,即母URL排在子URL之前; 513:取出S12中得到的URL规则存储表中的信息,并按照“URL匹配顺序”进行排序,保证母URL排在子URL之前; 514:获取访问日志的记录,包括访客的IP、访问时间、REFERER(上一次访问的页面)、REQUEST (访问的页面)信息; 515:将S14中每一条访问日志记录中的REFERER和REQUEST分别与S13中获取的URL规则存储表中的URL识别规则按照S13中的获取排序进行匹配;如果匹配成功,则记录下URL识别规则对应的URL唯一编码,作为REFERER的编码和REQUEST编码;如果REFERER或REQUEST与任何一条URL识别规则都不能匹配,则取_1或空值作为REFERER的编码或REQUEST 编码; 516:获取S15中没有匹配成功的REFERER和REQUEST,即REFERER编码或REQUEST编码为-1或者空值的记录,将所有的没有匹配成功的REFERER和REQUEST合并到一起,得到未匹配URL集; 517:对S16中的未匹配URL集进行统计分析,得到未匹配URL集中数量最多的URLj^没有匹配成功的URL匹配到URL规则配置表中,从而能不断完善URL规则配置表中的URL识别规则。2.根据权利要求1所述的网站访问日志URL的预处理方法,其特征是步骤S15将步骤S14中每一条访问日志记录中的REFERER和REQUEST分别与S13中获取的URL规则存储表中的URL识别规则按照S13中的排序进行匹配,包括: 当REFERER或REQUEST与URL规则存储表中的URL识别规则是字符串包含关系,即REFERER或REQUEST是该URL识别规则的母URL,则表示REFERER或REQUEST与该URL识别规则匹配成功; 如果REFERER或REQUEST能够与URL规则存储表中的多个URL识别规则匹配成功,则取按照S13中的排序排在第一位的URL识别规则。3.一种访问日志中的URL预处理装置,其特征包括: URL收集单元:用于收集网站的URL,并且确定URL识别规则、URL名称;其中,URL识别规则是指根据原始网页的URL分析和归纳得出的某一类页面的URL的构成特征,URL识别规则能使用正则表达式进行描述; URL规则存储单元:用于存储URL的识别规则以及相关信息,包括:URL唯一编码、URL识别规则、URL名称、URL匹配顺序;其中,“URL唯一编码”用于标注每一个URL识别规则的唯一身份;“URL识别规则”和“URL名称”来源于URL收集单元;用于控制URL匹配顺序;日志记录获取单元:用于获取访问日志中每一条记录,包括访客的IP、访问时间、REFERER、REQUEST 信息; URL匹配单元:用于将访问日志中的每一条记录的REFERER和REQUEST与URL识别规则进行匹配。取出一条日志记录,并将REFERER或REQUEST按照URL识别规则获取的顺序逐一与URL识别规则进行匹配,如果REFERER或REQUEST是某一 URL识别规则的母URL,则匹配成功并取出该URL识别规则的URL唯一编码作为REFERER编码或REQUEST编码;如果REFERER或REQUEST与任何一个URL识别规则都不具有字符串包含关系,则将REFERER编码或REQUEST编码做特殊标记,比如标记为“-1 “或空值,至此完成这条日志记录的匹配并且跳出此次匹配。然后,取下一条日志记录,按照上述方法进行匹配,直至所有的日志记录全部匹配完成; 匹配结果集存储单元:用于存储访问日志与URL识别规则的匹配结果,包括:访问日志中的原始信息如IP、访问时间、REFERER、REQUEST等,以及上述REFERER编码、REQUEST编码; 未匹配URL监测单元包括:未匹配数据获取单元:用于获取匹配结果集中未匹配成功REFERER和REQUEST,并将其合并为未匹配URL集;未匹配数据统计模块:统计出未匹配URL集中每个URL的记录条数;未匹配数据监测模块:根据出未匹配URL集中每个URL的记录条数并按照记录条数进行降序排列,可以收集到未匹配的URL集合。再结合实际的业务需求,可确定是否将这些URL配置到URL规则存储表中,如果需要配置,则重新回到URL收集单元按照上述流程执行,直至所有需要分析的URL都加入到URL规则存储表中。 URL规则存储单元包括: URL规则配置模块:用于确定“URL唯一编码”和“URL匹配顺序”;其中“URL唯一编码”由数据库自动生成,或者手动生成,只要保证URL唯一编码与URL识别规则是一对一的关系;“URL匹配顺序”的确定方法为:假设BJJRL是AJJRL的一个子字符串,则称AJJRL和B_URL之间具有字符串包含关系,其中AJJRL为母URL,B_URL为子URL。则是AJJRL与BJJRL的匹配顺序为AJJRL在前,BJJRL在后,即母URL排在子URL之前; URL规则存储模块:用于存储URL规则存储表,包括URL的识别规则以及相关信息,包括:URL唯一编码、URL识别规则、URL名称、URL匹配顺序; URL规则获取单元:将所述URL识别规则按照URL匹配顺序进行排序,并按此顺序获取URL识别规则及URL唯一编码。
【专利摘要】一种网站访问日志URL的预处理方法,包括:S11:网站URL收集,即对网站URL地址体系的整理和归纳;S12:URL配置和存储,将S11中收集得到的网站URL配置并存储到URL规则存储表中;URL规则存储表包括以下字段:URL唯一编码、URL识别规则、URL名称、URL匹配顺序;S13:取出S12中得到的URL规则存储表中的信息,并按照“URL匹配顺序”进行排序,保证母URL排在子URL之前;S14:获取访问日志的记录,包括访客的IP、访问时间、REFERER、REQUEST信息;S15:将S14中每一条访问日志记录中的REFERER和REQUEST分别与S13中获取的URL规则存储表中的URL识别规则按照S13中的获取排序进行匹配;S16:获取S15中没有匹配成功的REFERER和REQUEST编码为-1或者空值的记录。
【IPC分类】G06F17/30
【公开号】CN105005600
【申请号】CN201510383588
【发明人】陈静, 房鹏展
【申请人】焦点科技股份有限公司
【公开日】2015年10月28日
【申请日】2015年7月2日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1