网页检测方法和装置与流程

文档序号:12719693阅读:327来源:国知局
网页检测方法和装置与流程

本申请涉及互联网领域,具体而言,涉及一种网页检测方法和装置。



背景技术:

在互联网领域,网站上的网页会不断更新,而网站更新量也是评价网站绩效的一项重要指标。这里的网站更新量指的是在一定时间内网站更新的网页的数量。在统计网站更新量的过程中,如何确定哪些网页是网站在一定时间内更新的网页是一个难以解决的问题。目前,通常是通过爬虫程序爬取网站上的网页,然后逐个网页分析是否为更新的网页。然而,如果要统计更新量的网站越大,每次爬取的网页数就越多,而这些网页中大部分不是更新的网页,使得需要检测的网页数量大,导致更新网页的检测过程效率低。

针对上述的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请实施例提供了一种网页检测方法和装置,以至少解决由于检测的网页数量大造成更新网页的检测过程效率低的技术问题。

根据本申请实施例的一个方面,提供了一种网页检测方法,包括:对目标网站在预设时间段内的访问日志进行解析,得到在所述预设时间段内多个被访问网页;从所述多个被访问网页中确定出目标网页,所述目标网页为在所述预设时间段之前未被访问的网页;爬取所述目标网页的页面内容,从所述页面内容中解析出所述目标网页的发布时间;判断所述发布时间是否处于所述预设时间段内;以及在判断出所述发布时间处于所述预设时间段内时,确定所述目标网页为在所述预设时间段内更新的网页。

进一步地,从所述多个被访问网页中确定出目标网页包括:逐条将所述多个被访问网页的统一资源定位符与在所述预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。

进一步地,逐条将所述多个被访问网页的统一资源定位符与在所述预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页包括:对所述多个被访问网页中每一个被访问网页的统一资源定位符进行哈希编码,得到所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值;在预先设置的布隆过滤器中查询所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;将未查询到的哈希值对应的网页作为所述目标网页。

进一步地,在爬取所述目标网页的页面内容之后,所述方法还包括:根据所述页面内容判断所述目标网页是否为列表页;在判断出所述目标网页是列表页时,丢弃所述目标网页。

进一步地,从所述页面内容中解析出所述目标网页的发布时间包括:按照所述目标网站配置的解析规则从所述页面内容中解析出所述目标网页的发布时间;或者,按照预先设置的解析规则从所述页面内容中解析出所述目标网页的发布时间。

根据本申请实施例的另一方面,还提供了一种网页检测装置,包括:第一解析单元,用于对目标网站在预设时间段内的访问日志进行解析,得到在所述预设时间段内多个被访问网页;第一确定单元,用于从所述多个被访问网页中确定出目标网页,所述目标网页为在所述预设时间段之前未被访问的网页;第二解析单元,用于爬取所述目标网页的页面内容,从所述页面内容中解析出所述目标网页的发布时间;第一判断单元,用于判断所述发布时间是否处于所述预设时间段内;以及第二确定单元,用于在判断出所述发布时间处于所述预设时间段内时,确定所述目标网页为在所述预设时间段内更新的网页。

进一步地,所述第一确定单元具体用于逐条将所述多个被访问网页的统一资源定位符与在所述预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。

进一步地,所述第一确定单元包括:编码模块,用于对所述多个被访问网页中每一个被访问网页的统一资源定位符进行哈希编码,得到所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值;查询模块,用于在预先设置的布隆过滤器中查询所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值,其中,所 述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;确定模块,用于将未查询到的哈希值对应的网页作为所述目标网页。

进一步地,所述装置还包括:第二判断单元,用于在爬取所述目标网页的页面内容之后,根据所述页面内容判断所述目标网页是否为列表页;丢弃单元,用于在判断出所述目标网页是列表页时,丢弃所述目标网页。

进一步地,所述第二解析单元包括:第一解析模块,用于按照所述目标网站配置的解析规则从所述页面内容中解析出所述目标网页的发布时间;或者,第二解析模块,用于按照预先设置的解析规则从所述页面内容中解析出所述目标网页的发布时间。

根据本申请实施例,通过对目标网站在预设时间段内的访问日志进行解析,得到在预设时间段内多个被访问网页;从多个被访问网页中确定出目标网页,目标网页为在预设时间段之前未被访问的网页;爬取目标网页的页面内容,从页面内容中解析出目标网页的发布时间;判断发布时间是否处于预设时间段内,在判断出发布时间处于预设时间段内时,确定目标网页为在预设时间段内更新的网页。由于仅检测预设时间段内的被访问网页,相对于现有技术中爬取网站的所有网页而言,其网页的数量大大减少,解决了由于检测的网页数量大造成更新网页的检测过程效率低的技术问题,提高了更新网页的检测效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的网页检测方法的流程图;

图2是根据本申请实施例的网页检测装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例,提供了一种网页检测方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的网页检测方法的流程图,如图1所示,该方法包括如下步骤:

步骤S102,对目标网站在预设时间段内的访问日志进行解析,得到在预设时间段内多个被访问网页。

其中,预设时间段可以是指待检测的时间段,例如,如果要检测目标网站在2015年12月1日更新的网页,则可以从目标网站的访问日志中确定出这一天的访问日志,然后从中解析出这一天被访问网页。其中,目标网站的访问日志可以从目标网站的服务器上获取,也可以通过设置在目标网站上的监测代码监测得到。由于更新的网页通常会吸引网络用户的关注和访问,因此,本实施例中,在检测预设时间段内的更新的网页时,确定出该预设时间段内的被访问网页,以便于从中确定初次被访问的网页。

步骤S104,从多个被访问网页中确定出目标网页,目标网页为在预设时间段之前未被访问的网页。

由于在预设时间段内的被访问网页包括在预设时间段内更新的网页,也包括在预设时间段之间就已经更新的网页,本实施例中,从上述多个被访问网页中初次被访问的网页,即在预设时间段之前未被访问的网页,也即是目标网页。

可选地,本实施例中可以预先统计出在预设时间段之前被访问的网页,并进行记录,然后将上述多个被访问网页分别与记录的网页进行匹配,如果匹配到,则表明相应的网页在预设时间段之间也被访问过,则该网页不是更新的网页,反之,如果未匹配到,则表明相应的网页可能是在预设时间段内更新的网页,则作为目标网页,以便于做进一步判断。

步骤S106,爬取目标网页的页面内容,从页面内容中解析出目标网页的发布时间。

本实施例中,目标网页可以是一个或者多个。如果目标网页为多个,则需要爬取每个目标网页的页面内容,并从爬取的页面内容中解析出相应的目标网页的发布时间。通常网站上更新网页时,网页的页面内容中会记录网页的发布时间,该发布时间即是网页更新的时间,通过解析出该发布时间可准地确定目标网页是否为在预设时间段内更新的网页。

步骤S108,判断发布时间是否处于预设时间段内。

步骤S110,在判断出发布时间处于预设时间段内时,确定目标网页为在预设时间段内更新的网页。在判断出发布时间在预设时间段之外时,确定目标网页不是在预设时间段内更新的网页。

根据本申请实施例,通过对目标网站在预设时间段内的访问日志进行解析,得到在预设时间段内多个被访问网页;从多个被访问网页中确定出目标网页,目标网页为在预设时间段之前未被访问的网页;爬取目标网页的页面内容,从页面内容中解析出目标网页的发布时间;判断发布时间是否处于预设时间段内,在判断出发布时间处于预设时间段内时,确定目标网页为在预设时间段内更新的网页。由于仅检测预设时间段内的被访问网页,相对于现有技术中爬取网站的所有网页而言,其网页的数量大大减少,解决了由于检测的网页数量大造成更新网页的检测过程效率低的技术问题,提高了更新网页的检测效率。

进一步地,本申请实施例中,对在预设时间段内初次被访问的网页即目标网页做进一步判断,爬取目标网页的网页内容,解析出其发布时间,通过该发布时间确定出在预设时间段内更新的网页,从而剔除早已更新但是是在预设时间段内初次被访问的网页,提高了检测更新网页的准确性。

优选地,从多个被访问网页中确定出目标网页包括:逐条将多个被访问网页的统一资源定位符与在预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为目标网页。

本实施例中,预先记录目标网站上在预设时间段之前已经被访问的网页URL,在确定目标网页时,可以通过利用被访问网页的统一资源定位符(URL)与在预设时间段之前记录的网页的URL进行匹配的方式来判断被访问网页是否是目标网页。

具体地,从目标网站在该预设时间段内的访问日志中解析出,所有被访问网页的 URL,将该URL与预先记录的URL进行匹配,如果匹配到相同的URL,则认为该URL不是在预设时间段内初次被访问的网页,即非目标网页;反之,如果未匹配到相同的URL,则该URL对应的网页为目标网页。

进一步优选地,逐条将多个被访问网页的统一资源定位符与在预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为目标网页包括:对多个被访问网页中每一个被访问网页的统一资源定位符进行哈希编码,得到多个被访问网页中每一个被访问网页的统一资源定位符的哈希值;在预先设置的布隆过滤器中查询多个被访问网页中每一个被访问网页的统一资源定位符的哈希值,其中,布隆过滤器中存储有目标网站上在预设时间段之前发布的网页的统一资源定位符的哈希值;将未查询到的哈希值对应的网页作为目标网页。

具体地,在进行URL匹配时,可以利用预先设置的布隆过滤器,该布隆过滤器在构建完成之后,按照预设规则计算出预设时间段之前目标网站上的所发布的所有网页的URL的哈希值,并存储在布隆过滤器中,这样,在检测目标网页过程中,按照相同的规则计算在预设时间段内被访问网页的URL的哈希值,然后利用在布隆过滤器中查询该哈希值,当查询出相同的哈希值时,表明在预设时间段之前该哈希值对应的网页已经发布;反之,如果未查询到,则表明该网页是目标网页。

本实施例中,通过计算预设时间段内被访问网页的URL的哈希值,利用该在布隆过滤器中查询哈希值,相对于直接采用URL进行匹配查询的方式,能够降低匹配查询的复杂度,提高查询效率。

进一步地,在进行目标网页的检测之前,需要先构建布隆过滤器,具体如下:

首先估算目标网站规模,即目标网站的网页的URL的总量n,然后设置布隆过滤器中能够容纳的元素数x,该n值可以是根据x的值来确定,例如将x乘以10作为估算的布隆过滤器中容纳的元素数n,根据实际情况录入误差容忍度p,例如0.001%。

然后计算需要的内存大小m bits:

由m,n得到哈希函数的个数:

最后根据以上参数(m,p,k)初始化布隆过滤器,并提取系统中已经被访问的URL,在对URL进行哈希编码后,将编码得到的哈希值存入布隆过滤器中。

优选地,在查询出不存在被访问网页的统一资源定位符的哈希值之后,方法还包括:将被访问网页的统一资源定位符的哈希值存储到布隆过滤器中。

本实施例中,在确定出目标网页之后,可以将目标网页的URL的哈希值存储到布隆过滤器中,以保证在检测后续的更新的网页时剔除掉该预设时间段内的更新的网页。

优选地,在爬取目标网页的页面内容之后,方法还包括:根据页面内容判断目标网页是否为列表页;在判断出目标网页是列表页时,丢弃目标网页。

由于目标网站中会存在一些列表页(也可以称为导航页),而列表页上通常只含有用于连接到其他网页的超链接,不具有实际的页面内容。为了避免列表页对判断结果的影响,本申请实施例中,在爬取目标网页的页面内容之后,判断该网页是否为列表页,如果是,则丢弃该列表页,无需对该列表页的页面内容进行解析,减少了需要解析的数据量。

优选地,从页面内容中解析出目标网页的发布时间包括:按照目标网站配置的解析规则从页面内容中解析出目标网页的发布时间;或者,按照预先设置的解析规则从页面内容中解析出目标网页的发布时间。

如果目标网站配置有解析规则,在进行网页页面内容解析时,可以按照该解析规则来解析出发布时间。如果目标网站没有配置解析规则,则可以按照通用的规则进行解析。

下面对本申请实施例的一种优选实施方式进行描述,具体包括:

步骤1:在目标网站部署监测代码Tracker。该监测代码Tracker可以是一段JS脚本,嵌入在目标网站的源代码中,可以将用户在网站的访问日志发送到指定的服务器;

步骤2:逐条解析服务器收集到的目标网站在预设时间段内的访问日志;

步骤3:提取出访问日志中的URL,即用户在预设时间段内访问的网页的URL;

步骤4:对步骤3得到的URL进行哈希编码,得到对应的哈希值,然后通过在布隆过滤器中查询该哈希值来检测该URL是否存在,若存在表示该URL在预设时间段以前已经被访问过,则该网页不是新发布的网页即更新的网页,若该URL在预设时间段 之前没有被访问过,则认为该URL对应的网页为目标网页;;

步骤5:解析汇总完预设时间段内的所有访问日志;

步骤6:对于步骤5中得到的目标网页,通过爬虫程序爬取每个URL对应的页面内容。相比于现有技术中爬取几乎整个网站的所有URL,而本申请通过前几步的处理后得到的目标网页数量少,因此爬取的内容更少;

步骤7:若检测到目标网站配置了解析规则,则按照该解析规则解析爬取的页面内容中的发布日期,若没有则按照通用规则进行解析。然后对比解析出的发布日期,若该发布日期等于该网页的访问日期即在预设时间段内,则可确定该网页是在预设时间段内更新的网页,将其URL标记为预设时间段内更新的网页,否则认为该URL不是预设时间段内更新的;

步骤8:对于步骤7中得到网页,判断其是否为列表页面,若是则丢弃该网页。

步骤9:记录步骤8中统计的URL和对应的日期;

步骤10:将步骤4中判断得到的目标网页的URL的哈希值写入布隆过滤器中。

综上,本发明实施例能够达到如下技术效果:

1、大幅减少爬虫爬取网站更新时的服务器成本和带宽成本;

2、能够有效识别出孤岛页面(未被访问的页面),从而提升更新量统计的准确性;

3、增加了列表页判断,进一步提高准确度;

4、通过使用布隆过滤器大大提高历史页面判断的速度。

本申请实施例还提供了一种网页检测装置,该装置可以用于执行本申请实施例的网页检测方法,如图2所示,该装置包括:第一解析单元10、第一确定单元20、第二解析单元30、第一判断单元40和第二确定单元50。

第一解析单元10用于对目标网站在预设时间段内的访问日志进行解析,得到在所述预设时间段内多个被访问网页。

其中,预设时间段可以是指待检测的时间段,例如,如果要检测目标网站在2015年12月1日更新的网页,则可以从目标网站的访问日志中确定出这一天的访问日志,然后从中解析出这一天被访问网页。其中,目标网站的访问日志可以从目标网站的服务器上获取,也可以通过设置在目标网站上的监测代码监测得到。由于更新的网页通常会吸引网络用户的关注和访问,因此,本实施例中,在检测预设时间段内的更新的 网页时,确定出该预设时间段内的被访问网页,以便于从中确定初次被访问的网页。

第一确定单元20用于从所述多个被访问网页中确定出目标网页,所述目标网页为在所述预设时间段之前未被访问的网页。

由于在预设时间段内的被访问网页包括在预设时间段内更新的网页,也包括在预设时间段之间就已经更新的网页,本实施例中,从上述多个被访问网页中初次被访问的网页,即在预设时间段之前未被访问的网页,也即是目标网页。

可选地,本实施例中可以预先统计出在预设时间段之前被访问的网页,并进行记录,然后将上述多个被访问网页分别与记录的网页进行匹配,如果匹配到,则表明相应的网页在预设时间段之间也被访问过,则该网页不是更新的网页,反之,如果未匹配到,则表明相应的网页可能是在预设时间段内更新的网页,则作为目标网页,以便于做进一步判断。

第二解析单元30用于爬取所述目标网页的页面内容,从所述页面内容中解析出所述目标网页的发布时间。

本实施例中,目标网页可以是一个或者多个。如果目标网页为多个,则需要爬取每个目标网页的页面内容,并从爬取的页面内容中解析出相应的目标网页的发布时间。通常网站上更新网页时,网页的页面内容中会记录网页的发布时间,该发布时间即是网页更新的时间,通过解析出该发布时间可准地确定目标网页是否为在预设时间段内更新的网页。

第一判断单元40用于判断所述发布时间是否处于所述预设时间段内。

第二确定单元50用于在判断出所述发布时间处于所述预设时间段内时,确定所述目标网页为在所述预设时间段内更新的网页。

根据本申请实施例,通过对目标网站在预设时间段内的访问日志进行解析,得到在预设时间段内多个被访问网页;从多个被访问网页中确定出目标网页,目标网页为在预设时间段之前未被访问的网页;爬取目标网页的页面内容,从页面内容中解析出目标网页的发布时间;判断发布时间是否处于预设时间段内,在判断出发布时间处于预设时间段内时,确定目标网页为在预设时间段内更新的网页。由于仅检测预设时间段内的被访问网页,相对于现有技术中爬取网站的所有网页而言,其网页的数量大大减少,解决了由于检测的网页数量大造成更新网页的检测过程效率低的技术问题,提高了更新网页的检测效率。

进一步地,本申请实施例中,对在预设时间段内初次被访问的网页即目标网页做 进一步判断,爬取目标网页的网页内容,解析出其发布时间,通过该发布时间确定出在预设时间段内更新的网页,从而剔除早已更新但是是在预设时间段内初次被访问的网页,提高了检测更新网页的准确性。

优选地,所述第一确定单元具体用于逐条将所述多个被访问网页的统一资源定位符与在所述预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。

本实施例中,预先记录目标网站上在预设时间段之前已经被访问的网页URL,在确定目标网页时,可以通过利用被访问网页的统一资源定位符(URL)与在预设时间段之前记录的网页的URL进行匹配的方式来判断被访问网页是否是目标网页。

具体地,从目标网站在该预设时间段内的访问日志中解析出,所有被访问网页的URL,将该URL与预先记录的URL进行匹配,如果匹配到相同的URL,则认为该URL不是在预设时间段内初次被访问的网页,即非目标网页;反之,如果未匹配到相同的URL,则该URL对应的网页为目标网页。

优选地,所述第一确定单元包括:编码模块,用于对所述多个被访问网页中每一个被访问网页的统一资源定位符进行哈希编码,得到所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值;查询模块,用于在预先设置的布隆过滤器中查询所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;确定模块,用于将未查询到的哈希值对应的网页作为所述目标网页。

具体地,在进行URL匹配时,可以利用预先设置的布隆过滤器,该布隆过滤器在构建完成之后,按照预设规则计算出预设时间段之前目标网站上的所发布的所有网页的URL的哈希值,并存储在布隆过滤器中,这样,在检测目标网页过程中,按照相同的规则计算在预设时间段内被访问网页的URL的哈希值,然后利用在布隆过滤器中查询该哈希值,当查询出相同的哈希值时,表明在预设时间段之前该哈希值对应的网页已经发布;反之,如果未查询到,则表明该网页是目标网页。

本实施例中,通过计算预设时间段内被访问网页的URL的哈希值,利用该在布隆过滤器中查询哈希值,相对于直接采用URL进行匹配查询的方式,能够降低匹配查询的复杂度,提高查询效率。

优选地,所述装置还包括:第二判断单元,用于在爬取所述目标网页的页面内容之后,根据所述页面内容判断所述目标网页是否为列表页;丢弃单元,用于在判断出 所述目标网页是列表页时,丢弃所述目标网页。

由于目标网站中会存在一些列表页(也可以称为导航页),而列表页上通常只含有用于连接到其他网页的超链接,不具有实际的页面内容。为了避免列表页对判断结果的影响,本申请实施例中,在爬取目标网页的页面内容之后,判断该网页是否为列表页,如果是,则丢弃该列表页,无需对该列表页的页面内容进行解析,减少了需要解析的数据量。

优选地,所述第二解析单元包括:第一解析模块,用于按照所述目标网站配置的解析规则从所述页面内容中解析出所述目标网页的发布时间;或者,第二解析模块,用于按照预先设置的解析规则从所述页面内容中解析出所述目标网页的发布时间。

如果目标网站配置有解析规则,在进行网页页面内容解析时,可以按照该解析规则来解析出发布时间。如果目标网站没有配置解析规则,则可以按照通用的规则进行解析。

所述网页检测装置包括处理器和存储器,上述第一解析单元10、第一确定单元20、第二解析单元30、第一判断单元40和第二确定单元50等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来检测目标网站在预设时间段内更新的网页。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:对目标网站在预设时间段内的访问日志进行解析,得到在预设时间段内多个被访问网页;从多个被访问网页中确定出目标网页,目标网页为在预设时间段之前未被访问的网页;爬取目标网页的页面内容,从页面内容中解析出目标网页的发布时间;判断发布时间是否处于预设时间段内;以及在判断出发布时间处于预设时间段内时,确定目标网页为在预设时间段内更新的网页。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它 的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1