网页检测方法和装置与流程

文档序号:12719693阅读:来源:国知局

技术特征:

1.一种网页检测方法,其特征在于,包括:

对目标网站在预设时间段内的访问日志进行解析,得到在所述预设时间段内多个被访问网页;

从所述多个被访问网页中确定出目标网页,所述目标网页为在所述预设时间段之前未被访问的网页;

爬取所述目标网页的页面内容,从所述页面内容中解析出所述目标网页的发布时间;

判断所述发布时间是否处于所述预设时间段内;以及

在判断出所述发布时间处于所述预设时间段内时,确定所述目标网页为在所述预设时间段内更新的网页。

2.根据权利要求1所述的方法,其特征在于,从所述多个被访问网页中确定出目标网页包括:

逐条将所述多个被访问网页的统一资源定位符与在所述预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。

3.根据权利要求2所述的方法,其特征在于,逐条将所述多个被访问网页的统一资源定位符与在所述预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页包括:

对所述多个被访问网页中每一个被访问网页的统一资源定位符进行哈希编码,得到所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值;

在预先设置的布隆过滤器中查询所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;

将未查询到的哈希值对应的网页作为所述目标网页。

4.根据权利要求1所述的方法,其特征在于,在爬取所述目标网页的页面内容之后,所述方法还包括:

根据所述页面内容判断所述目标网页是否为列表页;

在判断出所述目标网页是列表页时,丢弃所述目标网页。

5.根据权利要求1所述的方法,其特征在于,从所述页面内容中解析出所述目标网页的发布时间包括:

按照所述目标网站配置的解析规则从所述页面内容中解析出所述目标网页的发布时间;或者

按照预先设置的解析规则从所述页面内容中解析出所述目标网页的发布时间。

6.一种网页检测装置,其特征在于,包括:

第一解析单元,用于对目标网站在预设时间段内的访问日志进行解析,得到在所述预设时间段内多个被访问网页;

第一确定单元,用于从所述多个被访问网页中确定出目标网页,所述目标网页为在所述预设时间段之前未被访问的网页;

第二解析单元,用于爬取所述目标网页的页面内容,从所述页面内容中解析出所述目标网页的发布时间;

第一判断单元,用于判断所述发布时间是否处于所述预设时间段内;以及

第二确定单元,用于在判断出所述发布时间处于所述预设时间段内时,确定所述目标网页为在所述预设时间段内更新的网页。

7.根据权利要求6所述的装置,其特征在于,所述第一确定单元具体用于逐条将所述多个被访问网页的统一资源定位符与在所述预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。

8.根据权利要求7所述的装置,其特征在于,所述第一确定单元包括:

编码模块,用于对所述多个被访问网页中每一个被访问网页的统一资源定位符进行哈希编码,得到所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值;

查询模块,用于在预先设置的布隆过滤器中查询所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;

确定模块,用于将未查询到的哈希值对应的网页作为所述目标网页。

9.根据权利要求6所述的装置,其特征在于,所述装置还包括:

第二判断单元,用于在爬取所述目标网页的页面内容之后,根据所述页面内容判断所述目标网页是否为列表页;

丢弃单元,用于在判断出所述目标网页是列表页时,丢弃所述目标网页。

10.根据权利要求6所述的装置,其特征在于,所述第二解析单元包括:

第一解析模块,用于按照所述目标网站配置的解析规则从所述页面内容中解析出所述目标网页的发布时间;或者

第二解析模块,用于按照预先设置的解析规则从所述页面内容中解析出所述目标网页的发布时间。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1