电子报抓取方法和装置与流程

文档序号:11829842阅读:来源:国知局

技术特征:

1.一种电子报抓取方法,其特征在于,包括:

接收抓取请求,所述抓取请求中包括待抓取电子报的标识;

获取与所述电子报的标识对应电子报总览页的源码;

从所述电子报总览页的源码中抓取所述电子报的叠信息及版面列表;

从所述版面列表中各个版面的源码中抓取各个版面的信息,所述版面的信息包括版面的图及版面中的新闻稿件;

从所述新闻稿件的源码中抓取所述新闻稿件的信息;

将所述电子报的各个新闻稿件的信息、新闻稿件所属的版面信息及叠的信息进行整合并输出。

2.根据权利要求1所述的电子报抓取方法,其特征在于,所述从所述版面列表中的各个版面的源码中抓取各个版面的信息,包括:

根据所述各个版面的源码中的热区源码,确定各个版面中新闻稿件的第一信息,所述第一信息包括所述各个版面中新闻稿件的第一数量;

根据所述各个版面网址源码中的页面链接源码,确定各个版面中新闻稿件的第二信息,所述第二信息包括各个版面中新闻稿件的第二数量;

比较所述第一数量与第二数量是否相同;

若相同,则根据所述各个版面的源码中的所述热区源码或页面链接源码确定所述各个版面中的新闻稿件的网址源码。

3.根据权利要求1所述的电子报抓取方法,其特征在于,所述从所述版面列表中的各个版面的源码中抓取各个版面的信息,包括:

根据所述各个版面的源码中的热区源码,确定各个版面中新闻稿件的第一网址源码;

根据所述各个版面源码中的页面链接源码,确定各个版面中新闻稿件的第二网址源码;

比较所述第一网址源码与第二网址源码是否匹配;

若匹配,则确定所述各个版面中的新闻稿件的网址源码为所述第一网址源码或第二网址源码。

4.根据权利要求3所述的电子报抓取方法,其特征在于,所述比较所述第一网址源码与第二网址源码是否匹配之后,还包括:

若不匹配,则将所述第一网址源码和第二网址源码中包括的所有网址源码确定为所述各版面中新闻稿件的网址源码。

5.根据权利要求1~4任一所述的电子报抓取方法,其特征在于,所述待抓取电子报的标识为所述待抓取电子报的网址,所述从所述电子报总览页的源码中抓取所述电子报的叠信息及版面列表,包括:

从所述电子报总览页的源码中抓取所述电子报的名称、叠信息及版面列表。

6.一种电子报抓取装置,其特征在于,包括:

接收模块,用于接收抓取请求,所述抓取请求中包括待抓取电子报的标识;

处理模块,用于获取与所述电子报的标识对应电子报总览页的源码;

抓取模块,用于从所述电子报总览页的源码中抓取所述电子报的叠信息及版面列表;

所述抓取模块,还用于从所述版面列表中各个版面的源码中抓取各个版面的信息,所述版面的信息包括版面的图及版面中的新闻稿件;

所述抓取模块,还用于从所述新闻稿件的源码中抓取所述新闻稿件的信息;

输出模块,用于将所述电子报的各个新闻稿件的信息、新闻稿件所属的版面信息及叠的信息进行整合并输出。

7.根据权利要求6所述的电子报抓取装置,其特征在于,所述抓取模块,具体用于:

根据所述各个版面的源码中的热区源码,确定各个版面中新闻稿件的第一信息,所述第一信息包括所述各个版面中新闻稿件的第一数量;

根据所述各个版面网址源码中的页面链接源码,确定各个版面中新闻稿件的第二信息,所述第二信息包括各个版面中新闻稿件的第二数量;

比较所述第一数量与第二数量是否相同;

若相同,则根据所述各个版面的源码中的所述热区源码或页面链接源码确定所述各个版面中的新闻稿件的网址源码。

8.根据权利要求6所述的电子报抓取装置,其特征在于,所述抓取模块,具体用于:

根据所述各个版面的源码中的热区源码,确定各个版面中新闻稿件的第一网址源码;

根据所述各个版面源码中的页面链接源码,确定各个版面中新闻稿件的第二网址源码;

比较所述第一网址源码与第二网址源码是否匹配;

若匹配,则确定所述各个版面中的新闻稿件的网址源码为所述第一网址源码或第二网址源码。

9.根据权利要求8所述的电子报抓取装置,其特征在于,所述抓取模块,还用于:

若不匹配,则将所述第一网址源码和第二网址源码中包括的所有网址源码确定为所述各版面中新闻稿件的网址源码。

10.根据权利要求6~9任一所述的电子报抓取装置,其特征在于,所述待抓取电子报的标识为所述待抓取电子报的网址,所述抓取模块,还用于:

从所述电子报总览页的源码中抓取所述电子报的名称、叠信息及版面列表。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1