小说网页抓取方法和装置与流程

文档序号:11286321阅读:674来源:国知局
小说网页抓取方法和装置与流程

本发明实施例涉及网络技术,尤其涉及一种小说网页抓取方法和装置。



背景技术:

随着信息与通信技术的迅速发展,手机等移动终端中的功能越来越多,小说应用也成为了移动终端中的一项必备应用。小说应用通过抓取全网小说网页并进行实时转码后展现给用户。

现有技术中,在抓取小说网页时是定期抓取热门小说的网页,而对非热门小说的抓取周期则比较长。热门小说的挖掘存在一定的滞后性,例如一本新小说在成为热门小说之前需要积攒一定的阅读量,在这个过程中无法挖掘出该小说属于热门小说,这就导致了这本新小说的时效性很差。因此,总体来说,现有技术存在着小说的时效性较差的缺陷。



技术实现要素:

有鉴于此,本发明实施例提供一种小说网页抓取方法和装置,以提高抓取的小说的时效性。

第一方面,本发明实施例提供了一种小说网页抓取方法,所述方法包括:

根据配置规则区分小说网页,所述小说网页包括封面页、列表页和更新页;

根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率;

根据所述抓取频率对相应的小说网页进行抓取。

第二方面,本发明实施例还提供了一种小说网页抓取装置,所述装置包括:

小说网页区分模块,用于根据配置规则区分小说网页,所述小说网页包括封面页、列表页和更新页;

抓取频率配置模块,用于根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率;

小说网页抓取模块,用于根据所述抓取频率对相应的小说网页进行抓取。

本发明实施例的技术方案,由于分别以不同的抓取频率对封面页、列表页和更新页进行抓取,可以保证包括新小说在内的所有小说的时效性,进而提高了抓取的小说的时效性,吸引更多的用户。

附图说明

图1是本发明实施例一提供的一种小说网页抓取方法的流程图;

图2是本发明实施例二提供的一种小说网页抓取方法的流程图;

图3是本发明实施例三提供的一种小说网页抓取方法的流程图;

图4是本发明实施例四提供的一种小说网页抓取装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。

在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1是本发明实施例一提供的一种小说网页抓取方法的流程图,本实施例可适用于抓取小说网页时保证时效性的情况,该方法可以由服务器来执行,具体包括如下:

s110,根据配置规则区分小说网页,所述小说网页包括封面页、列表页和更新页。

其中,配置规则是根据不同的小说网页的url(uniformresourcelocator,统一资源定位符)及页面特点,配置一定的规则来区分不同的小说网页。所述小说网页可以包括封面页、列表页和更新页,封面页是指一个小说的封面所在的网页,列表页是指一个网站中的所有小说的列表所在的网页,更新页是指一个网站中最近一段时间更新的小说的列表页。

s120,根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率。

网站中的小说更新的内容在于一本小说的实际内容(包括章节等),而封面页很少会改变,另外当网站中的小说更新时,该更新的小说会在更新页中列出。由此可知,更新页是指的网站中最近一段时间更新的小说列表页,其更新速度比较快,因此配置更新页的抓取频率要相对较高一些;列表页是网站中的 小说列表,其更新速度交更新页的更新速度慢,因此配置列表页的抓取频率要比更新页的抓取频率低一些;封面页是网站中的小说的封面,由于一个网站中的小说的封面很少会改变,因此可以配置极低的抓取频率进行抓取。除了前述的配置抓取频率的方法外,还可以根据更新页中的小说的前后顺序配置不同的抓取频率,也可以根据列表页中的小说的前后顺序配置不同的抓取频率。当然,还可以有其他的配置抓取频率的方法。

s130,根据所述抓取频率对相应的小说网页进行抓取。

根据配置的封面页、列表页和更新页的抓取频率,分别以相应的抓取频率对封面页、列表页和更新页进行抓取,更新页中会包括新小说,因此可以保证抓取的小说的时效性。

本实施例的技术方案,通过根据配置规则区分小说网页,根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率,根据所述抓取频率对相应的小说网页进行抓取,由于分别以不同的抓取频率对封面页、列表页和更新页进行抓取,可以保证包括新小说在内的所有小说的时效性,进而提高了抓取的小说的时效性,吸引更多的用户。

在上述技术方案的基础上,根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率优选包括:

配置第一抓取频率抓取更新页的前设定数量的页面;

配置第二抓取频率抓取所述更新页的前设定数量的页面以外的页面及列表页;

配置第三抓取频率抓取封面页;

其中,所述第一抓取频率大于所述第二抓取频率,所述第二抓取频率大于所述第三抓取频率。

由于在更新页中,排在前面的小说更新的时间距离当前时间比较近,因此可以配置比较大的第一抓取频率对更新页的前设定数量的页面进行抓取,以保证抓取的小说的时效性;配置小于第一抓取频率的第二抓取频率来对除更新页中的前设定数量的页面以外的页面及列表页进行抓取,以保证小说的覆盖率,以免出现漏抓的情况;配置小于第二抓取频率的第三抓取频率来对封面页进行抓取。

通过配置第一抓取频率抓取更新页中前设定数量的页面,配置第二抓取频率抓取更新页中除前设定数量的页面外的页面及列表页,配置第三抓取频率抓取封面页,可以保证抓取的小说的时效性,同时保证抓取的小说的覆盖率。

实施例二

图2是本发明实施例二提供的一种小说网页抓取方法的流程图,本实施例对实施例一进行了优化,在实施例一的基础上,小说网页还可以包括目录页,该方法还包括根据网站的历史数据及所述网站中小说的历史数据,计算网站中的小说的目录页的抓取频率,具体包括如下:

s210,根据配置规则区分小说网页,所述小说网页包括封面页、列表页和更新页。

在本实施例中,配置规则还包括区分目录页的规则。目录页是指一本小说的目录所在的网页。

s220,根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率。

s230,根据网站的历史数据及所述网站中小说的历史数据,计算网站中的小说的目录页的抓取频率。

一般来说,抓取了更新页,基本可以覆盖所有的小说更新信息,但是,小说的更新信息有一定的概率没有在更新页中体现,而在小说的目录页中可体现,因此,为了保证覆盖所有小说的更新信息,还需要对小说的目录页进行抓取。在对小说的目录页进行抓取之前,要计算小说的目录页的抓取频率。在对小说网页进行抓取时,每天对全网小说的抓取量是一定的,因此可以根据每个网站的历史数据,将抓取量分配到每个网站中,再根据该网站中的小说的历史数据,计算得到该网站中的相应小说的目录页的抓取频率。

其中,网站的历史数据包括用户的点击情况,即点击的小说是该网站中的小说的出现的次数,还包括每个网站的历史更新情况。网站中的小说的历史数据包括用户点击的小说的次数及网站中的小说的更新情况。

其中,根据网站的历史数据及所述网站中小说的历史数据,计算网站中的小说的目录页的抓取频率优选包括:

根据网站的历史数据,计算网站每天的抓取配额;

根据所述抓取配额及所述网站中小说的历史数据,计算所述小说的目录页的抓取频率。

根据每个网站的用户点击情况及每个网站的历史更新情况,将一天的抓取量分配到每个网站中,得到一个网站每天的抓取配额,再结合该网站中的小说的用户点击情况及历史更新情况,将抓取配额分配到该网站中的小说中,进而可以得到该网站中的小说的目录页的抓取频率。通过对小说的目录页的抓取频率的计算,可以保证小说的更新信息的覆盖率。

上述s220和s230不限于上述的执行顺序,可以同时执行,也可以先执行s230,再执行s220。

s240,根据所述抓取频率对相应的小说网页进行抓取。

在本实施例中,抓取频率除了包括封面页、列表页和更新页的抓取频率外,还包括目录页的抓取频率,即对封面页、列表页和更新页抓取外,还需要根据目录页的抓取频率对相应网站中的相应小说的目录页进行抓取。

本实施例的技术方案,通过根据配置规则区分小说网页,根据面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率,根据网站的历史数据及所述网站中小说的历史数据,计算网站中的小说的目录页的抓取频率,根据所述抓取频率对相应的小说网页进行抓取,由于分别以不同的抓取频率对封面页、列表页、更新页和目录页进行抓取,可以保证包括新小说在内的所有小说的时效性,进而提高了抓取的小说的时效性,而且还可以保证覆盖的小说的更新信息更加全面。

在上述技术方案的基础上,根据网站的历史数据,计算网站每天的抓取配额优选包括:

根据网站的历史数据,对所述网站进行排名;

根据所述排名,计算所述网站的权重;

根据所述权重,计算所述网站每天的抓取配额。

综合网站的用户点击情况及网站的历史更新情况,对小说网站进行排名,根据网站的排名,通过映射函数计算得到每个网站的权重,再将每天的抓取量根据权重分配到每个网站中,得到每个网站每天的抓取配额。通过上述计算得到的抓取配额比较准确,可以保证网站的覆盖率。

在上述技术方案的基础上,根据所述抓取配额及所述网站中小说的历史数据,计算所述小说的目录页的抓取频率优选包括:

根据所述网站中小说的历史数据,将所述小说分为热门小说和非热门小说;

按照设定比例将所述抓取配额分配给所述热门小说和非热门小说;

根据分配后的抓取配额,计算所述热门小说和非热门小说的目录页的抓取频率。

根据一个网站中的小说的用户点击情况即小说的更新情况,可以对该网站中的小说进行分类,即将用户点击比较多的及更新频率较高的小说归为热门小说,其他小说归为非热门小说,再按照一定的比例将抓取配额分配给热门小说和非热门小说,由于该抓取配额是一天内的抓取配额,从而可以得到该网站中热门小说和非热门小说的目录页的抓取周期,进而得到热门小说和非热门小说的目录页的抓取频率。由于在对小说进行分类时考虑了小说的更新情况,保证了小说的更新信息的覆盖率。

实施例三

图3是本发明实施例三提供的一种小说网页抓取方法的流程图,本实施例在实施例一的基础上,将根据所述抓取频率对相应的小说网页进行抓取优化为将所述抓取频率与预设频率进行比较;当所述抓取频率超过预设频率时,以所述预设频率对相应的小说网页进行抓取。具体包括如下:

s310,根据配置规则区分小说网页,所述小说网页包括封面页、列表页和更新页。

s320,根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率。

s330,将所述抓取频率与预设频率进行比较。

设置封面页、列表页和更新页的抓取频率的临界值,即预设频率,当抓取频率超过预设频率时,说明可能会造成网络阻塞,因此,为了保证网络的通 畅,需要比较抓取频率与相应的预设频率,以得到抓取频率与相应的预设频率的关系。

s340,当所述抓取频率超过预设频率时,以所述预设频率对相应的小说网页进行抓取。

当封面页、列表页或更新页的抓取频率超过相应小说网页的预设频率时,为了避免网络被阻塞,以相应小说网页的预设频率对该小说网页进行抓取;当封面页、列表页或更新页的抓取频率没有超过相应小说网页的预设频率时,以相应小说网页的抓取频率对该小说网页进行抓取。

本实施例的技术方案,通过根据配置规则区分小说网页,根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率,将所述抓取频率与预设频率进行比较,当所述抓取频率超过预设频率时,以所述预设频率对相应的小说网页进行抓取,由于分别以不同的抓取频率对封面页、列表页和更新页进行抓取,可以保证包括新小说在内的所有小说的时效性,进而提高了抓取的小说的时效性,与实施例一相比,当抓取频率超过预设频率时就以预设频率对相应的小说网页进行抓取,实现了对小说网站的压力控制,可以避免网络阻塞。

实施例四

图4是本发明实施例四提供的一种小说网页抓取装置的结构示意图,如图4所示,本实施例所述的小说网页抓取装置包括:小说网页区分模块410、抓取频率配置模块420和小说网页抓取模块430。

其中,小说网页区分模块410用于根据配置规则区分小说网页,所述小说网页包括封面页、列表页和更新页;

抓取频率配置模块420用于根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率;

小说网页抓取模块430用于根据所述抓取频率对相应的小说网页进行抓取。

优选的,所述小说网页还包括目录页;

所述装置还包括:

抓取频率计算模块,用于在根据所述抓取频率对相应的小说网页进行抓取之前,根据网站的历史数据及所述网站中小说的历史数据,计算网站中的小说的目录页的抓取频率。

优选的,所述抓取频率计算模块包括:

抓取配额计算单元,用于根据网站的历史数据,计算网站每天的抓取配额;

抓取频率计算单元,用于根据所述抓取配额及所述网站中小说的历史数据,计算所述小说的目录页的抓取频率。

优选的,所述抓取配额计算单元包括:

网站排名子单元,用于根据网站的历史数据,对所述网站进行排名;

权重计算子单元,用于根据所述排名,计算所述网站的权重;

抓取配额计算子单元,用于根据所述权重,计算所述网站每天的抓取配额。

优选的,所述抓取频率计算单元包括:

分类子单元,用于根据所述网站中小说的历史数据,将所述小说分为热门小说和非热门小说;

抓取配额分配子单元,用于按照设定比例将所述抓取配额分配给所述热门 小说和非热门小说;

抓取频率计算子单元,用于根据分配后的抓取配额,计算所述热门小说和非热门小说的目录页的抓取频率。

优选的,所述抓取频率配置模块具体用于:

配置第一抓取频率抓取更新页的前设定数量的页面;

配置第二抓取频率抓取所述更新页的前设定数量的页面以外的页面及列表页;

配置第三抓取频率抓取封面页;

其中,所述第一抓取频率大于所述第二抓取频率,所述第二抓取频率大于所述第三抓取频率。

优选的,所述小说网页抓取模块包括:

频率比较单元,用于将所述抓取频率与预设频率进行比较;

小说网页抓取单元,用于当所述抓取频率超过预设频率时,以所述预设频率对相应的小说网页进行抓取。

上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1