一种访问日志中url的预处理方法_3

文档序号:9288434阅读:来源:国知局

[0075]192.168.1.1,2015-01-0112:01:30,sourcing, made-1n-china.com/suppliers,html,www.made-1n-china.com/special/vacuum-pump/ ;
[0076]192.168.2.1, 2015-01-0112:02:10, www.made-1n-china.com, www.google, com ;
[0077]192.168.2.1,2015-01-0112:03:10,
[0078]http://www.made-1n_china.com/productdirectory.do ? word =led&subact1n = hunt&style = b&mode = and&code = O&comProvince = nolimit&order=O&isOpenCorrect1n = 1,
[0079]www.made-1n-china.com ;
[0080]其中,“192.168.1.1”和“192.168.2.1”为访客的IP地址;与IP地址临近的时间为访客访问相应页面的访问时间;与访问时间相邻的URL地址为访客当前所访问的页面URL即REQUEST,如第一条记录中的www.made-1n-china.com ;在当前访问的页面URL后的URL地址为访客所访问的上一个页面URL即REFERER,如第一条记录中的www.google, com。也就是说访客是从上一访问页面(REFERER)跳到当前访问页面(REQUEST)的,即访客是从www.google, com 跳至Ij www.made-1n-china.com 的。
[0081]S15:将S14中每一条访问日志记录中的REFERER和REQUEST分别与S13中获取的URL规则存储表中的URL识别规则按照S13中的获取排序进行匹配。如果匹配成功,则记录下URL识别规则对应的URL唯一编码,作为REFERER的编码和REQUEST编码。如果REFERER或REQUEST与任何一条URL识别规则都不能匹配,则取_1或空值作为REFERER的编码或REQUEST 编码。
[0082]优选的,本申请中,在S15将S14中每一条访问日志记录中的REFERER和REQUEST分别与S13中获取的URL规则存储表中的URL识别规则按照S13中的排序进行匹配。包括:
[0083]当REFERER或REQUEST与URL规则存储表中的URL识别规则是字符串包含关系,即REFERER或REQUEST是该URL识别规则的母URL,则表示REFERER或REQUEST与该URL识别规则匹配成功。
[0084]如果REFERER或REQUEST能够与URL规则存储表中的多个URL识别规则匹配成功,则取按照S13中的排序排在第一位的URL识别规则。
[0085]具体的,将S14中列出的日志记录,与S13中的URL规则存储表进行匹配。
[0086]取出第一条记录:
[0087]192.168.1.1,2015-01-0112:01:00, www.made-1n-china.com, www.google, com ;
[0088]REQUES 为 www.made-1n-china.com,可匹配上 S13 的 URL 规则存储表中的 MIC 首页,取MIC首页对应的URL唯一编码“ 1003”作为这条记录的REQUEST编码。REFERFER为WWW.google, com,与S13的URL规则存储表中的任何一个URL识别规则都匹配不上,设置“-1 ”为这条记录的REFERER编码。
[0089]取出第二条记录:
[0090]192.168.1.1,2015-01_0112:01:30,www.made-1n-china.com/special/vacuum-pump/,www.made-1n-china.com ;
[0091]REQUES 为 www.made-1n-china.com/special/vacuum-pump/,可同时匹配上 S13 的URL规则存储表中的专题detail页和专题首页,取按照匹配顺序排在第一的识别规则,即取专题detail页对应的URL唯一编码“1005”作为这条记录的REQUEST编码。REFERFER为WWW.made-1n-china.com,与S13的URL规则存储表中的MIC首页匹配成功,这条记录的REFERER 编码为 “1003”。
[0092]照此方法,直至所有日志记录匹配完成。最后,所有记录的匹配结果如下(IP,访问时间,REQUEST, REFERER, REQUEST 编码,REFERER 编码):
[0093]192.168.1.1,2015-01—0112:01:00,www.made-1n_china.com,www.google.com,1003,-1 ;
[0094]192.168.1.1,2015-01_0112:01:30,www.made-1n-china.com/special/vacuum-pump/,www.made-1n-china.com,1005,1003 ;
[0095]192.168.1.1,2015-01-0112:01:30,sourcing, made-1n-china.com/suppliers,html,www.made-1n-china.com/special/vacuum-pump/,-1,1005 ;
[0096]192.168.2.1,2015-01-0112:02:10,www.made-1n_china.com,www.google.com,1003,-1 ;
[0097]192.168.2.1,2015-01-0112:02:10,
[0098]http: / / www.made-1n-china.com/product directory, do ? word =led&subact1n = hunt&style = b&mode = and&code = O&comProvince = nolimit&order=O&isOpenCorrect1n = I,
[0099]www.made-1n-china.com,1002,1003 ;
[0100]S16:获取S15中没有匹配成功的REFERER和REQUEST,即REFERER编码或REQUEST编码为-1或者空值的记录,将所有的没有匹配成功的REFERER和REQUEST合并到一起,得到未匹配URL集。
[0101]具体的,在S15中没有匹配成功的REFERER为:
[0102]www.google, com ;
[0103]www.google.com0
[0104]没有匹配成功的REQUEST为:
[0105]sourcing, made-1n-china.com/suppliers, htmlo
[0106]合并得到未匹配URL集:
[0107]www.google, com ;
[0108]www.google, com ;
[0109]sourcing, made-1n-china.com/suppliers, htmlo
[0110]S17:对S16中的未匹配URL集进行统计分析,得到未匹配URL集中数量最多的URL,并结合人工的判断和监测,可以把没有匹配成功的URL匹配到URL规则配置表中,从而可以不断完善URL规则配置表中的URL识别规则。
[0111]具体的,在S16的未匹配URL集中未匹配的URL为:www.google, com,sourcing,made-1n-china.com/suppliers, html0 其中 www.google, com 为主要的搜索引擎,为大多数国外访客的访问入口,应该是大多数网站都应该重点关注的访问来源。因此,可将WWW.google, com也收集和配置到URL规则存储表中,则重复Sll至S13。
[0112]本发明还提供一种访问日志中的URL预处理装置其于上述方法设置各功能模块,URL收集单元:用于收集网站的URL,并且确定URL识别规则、URL名称等。其中,URL识别规则是指根据原始网页的URL分析和归纳得出的某一类页面的URL的构成特征,比如中国制造网的产品搜索列表页的URL地址都是以“www.made-1n-china.com/productdirectory.do ? ”开头,贝丨』产品搜索列表页的识别规则就是“www.made-1n-china.com/productdirectory.do ? ”。而且,URL识别规则可以使用正则表达式进行描述。
[0113]URL规则存储单元:用于存储URL的识别规则以及相关信息,包括:URL唯一编码、URL识别规则、URL名称、URL匹配顺序。其中,“URL唯一编码”用于标注每一个URL识别规则的唯一身份;“URL识别规则”和“URL名称”来源于URL收集单元;用于控制URL匹配顺序。
[0114]日志记录获取单元:用于获取访问日志中每一条记录,包括访客的IP、访问时间、、REFERER (上一次访问的页面)、REQUEST (访问的页面)等信息。
[0115]URL匹配单元:用于将访问日志
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1