设置率确定方法和装置与流程

文档序号:12719702阅读:来源:国知局

技术特征:

1.一种设置率确定方法,其特征在于,包括:

对目标网站的访问日志进行解析,确定出所述目标网站中被访问的网页;

从所述被访问的网页中识别出目标网页,统计出第一网页数量,其中,所述第一网页数量为所述目标网页的数量,所述目标网页为所述被访问的网页中设置有返回首页链接的网页;

对所述被访问的网页中除所述目标网页之外的其他网页的源代码进行解析,统计出第二网页数量,其中,所述第二网页数量为存在返回首页链接的网页的数量;以及

根据所述被访问的网页的网页总数、所述第一网页数量以及所述第二网页数量计算得到所述目标网站上的所述返回首页链接的设置率。

2.根据权利要求1所述的方法,其特征在于,对所述被访问的网页中除所述目标网页之外的其他网页的源代码进行解析包括:

通过爬虫程序爬取所述被访问的网页中除所述目标网页之外的其他网页;

从所述被访问的网页中除所述目标网页之外的其他网页中查询所述返回首页链接。

3.根据权利要求1所述的方法,其特征在于,从所述被访问的网页中识别出目标网页包括:

从所述目标网站的访问日志中查询出目标访问日志,其中,所述目标访问日志为访问所述目标网站的首页页面的日志;

对所述目标访问日志进行解析,提取出访问所述目标网站的首页页面的访问来源;

判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页;

在所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页时,确定所述访问来源的网页为所述目标网页。

4.根据权利要求3所述的方法,其特征在于,判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页包括:

判断所述访问来源的网页的统一资源定位符中包含的域名是否与所述目标网站的域名相同;

在所述访问来源的网页的统一资源定位符中包含的域名与所述目标网站的域名相同时,确定所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页。

5.根据权利要求4所述的方法,其特征在于,对所述目标访问日志进行解析,提取出访问所述目标网站的首页页面的访问来源包括:

从所述目标访问日志中解析出目标字段,其中,所述目标字段为记录有上一跳网页的统一资源定位符的字段。

6.一种设置率确定装置,其特征在于,包括:

确定单元,用于对目标网站的访问日志进行解析,确定出所述目标网站中被访问的网页;

第一统计单元,用于从所述被访问的网页中识别出目标网页,统计出第一网页数量,其中,所述第一网页数量为所述目标网页的数量,所述目标网页为所述被访问的网页中设置有返回首页链接的网页;

第二统计单元,用于对所述被访问的网页中除所述目标网页之外的其他网页的源代码进行解析,统计出第二网页数量,其中,所述第二网页数量为存在返回首页链接的网页的数量;以及

计算单元,用于根据所述被访问的网页的网页总数、所述第一网页数量以及所述第二网页数量计算得到所述目标网站上的所述返回首页链接的设置率。

7.根据权利要求6所述的装置,其特征在于,所述第二统计单元包括:

爬取模块,用于通过爬虫程序爬取所述被访问的网页中除所述目标网页之外的其他网页;

第一查询模块,用于从所述被访问的网页中除所述目标网页之外的其他网页中查询所述返回首页链接。

8.根据权利要求6所述的装置,其特征在于,所述第一统计单元包括:

第二查询模块,用于从所述目标网站的访问日志中查询出目标访问日志,其中,所述目标访问日志为访问所述目标网站的首页页面的日志;

提取模块,用于对所述目标访问日志进行解析,提取出访问所述目标网站的首页页面的访问来源;

判断模块,用于判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页;

确定模块,用于在所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页时,确定所述访问来源的网页为所述目标网页。

9.根据权利要求8所述的装置,其特征在于,所述判断模块包括:

判断子模块,用于判断所述访问来源的网页的统一资源定位符中包含的域名是否与所述目标网站的域名相同;

确定子模块,用于在所述访问来源的网页的统一资源定位符中包含的域名与所述目标网站的域名相同时,确定所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页。

10.根据权利要求9所述的装置,其特征在于,所述提取模块具体用于从所述目标访问日志中解析出目标字段,其中,所述目标字段为记录有上一跳网页的统一资源定位符的字段。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1