一种信息处理方法及装置的制造方法

文档序号:9375781阅读:192来源:国知局
一种信息处理方法及装置的制造方法
【技术领域】
[0001]本发明涉及互联网技术领域,尤其涉及一种信息处理方法及装置。
【背景技术】
[0002]目前,当网站达到某一规模时,用户访问流量会快速上涨,此时则往往需要在合法的范围内聚合其他网站的内容,从而与其他网站交换流量,吸引更多用户访问。在聚合其他网站的内容时,需要服务器去该网站页面抓取网站信息,如抓取新闻网站的新闻标题、新闻来源、新闻链接等等,在一个网站可能需要抓取成千上万条,甚至更多的网站信息。
[0003]在实际应用中,服务器抓取网站信息是实时进行的,需要不断去抓取需要聚合的其他网站的网站信息,并在抓取信息时即触发对该抓取信息进行数据处理。也就是说,服务器每抓取一条网站信息,则紧接着对该网站信息进行数据处理,在抓取该网站的网站信息时,该信息抓取和数据处理是同时进行的。这就使得抓取网站信息的服务器的负荷较大,尤其是在抓取的信息量较多时,可能会因为服务器压力过大而导致抓取失败。

【发明内容】

[0004]本发明实施例提供了一种信息处理方法及装置,能够通过信息抓取和数据处理的异步进行减轻服务器的负荷。
[0005]本发明实施例公开了一种信息处理方法,包括:
[0006]检测当前时间是否到达预设时间点;
[0007]当到达所述预设时间点时,抓取目标网站的网站信息,其中,所述目标网站的网站信息包括需要从所述目标网站抓取的所有网站信息;
[0008]对所述目标网站的网站信息进行数据处理,并输出所述数据处理后的网站信息。
[0009]可选的,所述抓取目标网站的网站信息,包括:
[0010]解析目标网站的页面结构;
[0011]以所述目标网站的页面结构为依据,确定对所述目标网站的信息抓取策略,并通过所述信息抓取策略抓取所述目标网站的网站信息。
[0012]可选的,所述信息抓取策略包括文档对象模型DOM节点解析策略和/或基于正则表达式的信息抓取策略。
[0013]可选的,所述目标网站的网站信息是通过预设的第一方式抓取得到的;所述对所述目标网站的网站信息进行数据处理,包括:
[0014]分别将抓取的所述目标网站的每一条网站信息作为目标网站信息,并对所述目标网站信息进行数据处理;
[0015]所述方法还包括:
[0016]若对所述目标网站信息的数据处理失败,则通过预设的第二方式重新抓取所述数据处理失败的目标网站信息,并对重新抓取的所述目标网站信息进行数据处理。
[0017]可选的,所述目标网站包括与服务器关联的多个网站,且所述多个网站为网站类型相同的网站;或,
[0018]所述目标网站存在多个信息源,所述目标网站的网站信息包括所述多个信息源的网站彳目息。
[0019]相应地,本发明实施例还公开了一种信息处理装置,包括:
[0020]时间检测模块,用于检测当前时间是否到达预设时间点;
[0021]信息抓取模块,用于在所述时间检测模块检测到所述当前时间到达所述预设时间点时,抓取目标网站的网站信息,其中,所述目标网站的网站信息包括需要从所述目标网站抓取的所有网站信息;
[0022]数据处理模块,用于对所述信息抓取模块抓取的所述目标网站的网站信息进行数据处理;
[0023]信息输出模块,用于输出所述数据处理模块进行所述数据处理后的网站信息。
[0024]可选的,所述信息抓取模块包括:
[0025]页面解析单元,用于解析目标网站的页面结构;
[0026]策略确定单元,用于以所述页面解析单元解析出的所述目标网站的页面结构为依据,确定对所述目标网站的信息抓取策略,并通过所述信息抓取策略抓取所述目标网站的网站彳目息。
[0027]可选的,所述信息抓取策略包括文档对象模型DOM节点解析策略和/或基于正则表达式的信息抓取策略。
[0028]可选的,所述目标网站的网站信息是通过预设的第一方式抓取得到的;
[0029]所述数据处理模块具体用于:
[0030]分别将抓取的所述目标网站的每一条网站信息作为目标网站信息,并对所述目标网站信息进行数据处理;
[0031]所述信息抓取模块,还用于在所述数据处理模块对所述目标网站信息的数据处理失败时,通过预设的第二方式重新抓取所述数据处理失败的目标网站信息;
[0032]所述数据处理模块,还用于对所述信息抓取模块重新抓取的所述目标网站信息进行数据处理。
[0033]可选的,所述目标网站包括与服务器关联的多个网站,且所述多个网站为网站类型相同的网站;或,
[0034]所述目标网站存在多个信息源,所述目标网站的网站信息包括所述多个信息源的网站彳目息。
[0035]本发明实施例可在定时时间即预设时间点到达时,触发从目标网站抓取得到需要的所有网站信息,而无需一直抓取该目标网站的网站信息,使得减轻了服务器的压力,降低了服务器的功率消耗。进一步的,通过在需要抓取的所述网站信息均抓取完成之后,再对该抓取的网站信息进行数据处理,即可通过信息抓取和数据处理异步进行进一步减轻服务器压力,尤其是在需要抓取的网站信息的数据量较大时,很大程度上减小了服务器负荷,并提升了输出信息的准确性。
【附图说明】
[0036]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]图1是本发明实施例提供的一种信息处理方法的流程示意图;
[0038]图2是本发明实施例提供的另一种信息处理方法的流程示意图;
[0039]图3是本发明实施例提供的一种信息处理装置的结构示意图;
[0040]图4是本发明实施例提供的另一种信息处理装置的结构示意图;
[0041]图5是本发明实施例提供的一种服务器的结构示意图。
【具体实施方式】
[0042]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0043]本发明实施例公开了一种信息处理方法及装置,能够通过信息抓取和数据处理的异步进行减轻服务器的负荷。以下分别详细说明。
[0044]请参阅图1,图1是本发明实施例提供的一种信息处理方法的流程示意图;具体的,如图1所示,该信息处理方法可以包括以下步骤:
[0045]SlOl:检测当前时间是否到达预设时间点。
[0046]需要说明的是,本发明实施例的所述方法可具体应用于服务器,如为手机(如Android手机、1S手机等)、平板电脑、移动互联网设备(Mobile Internet Devices,MID)、个人数字助理(Personal Digital Assistant,PDA)、个人电脑等终端提供服务的网站服务器中。
[0047]具体的,所述预设时间点可包括预设周期内的多个时间点。例如,以24小时为周期,则可以将每24小时内的多个时间点作为该预设时间点。可选的,该预设时间点可以由系统设置得到,或者由用户自定义设置得到,本发明实施例不做限定。
[0048]S102:当到达所述预设时间点时,抓取目标网站的网站信息,其中,所述目标网站的网站信息包括需要从所述目标网站抓取的所有网站信息。
[0049]其中,该目标网站可包括与该服务器关联的至少一个网站,该至少一个网站可以为网站类型相同的网站,或者该目标网站还可以为一个网站但存在多个信息源。也就是说,本发明实施例的所述服务器可兼容多个网站信息源,即可以从多个网站信息源分别抓取得到该网站的网站信息,比如从多个新闻网站抓取新闻信息(具体可包括新闻标题、新闻来源、新闻链接等等),又比如从多个小说网站抓取小说信息(具体可包括小说名称、作者、小说简介以及小说章节等等),而不仅仅依赖于一个网站的信息源,这就使得提高了抓取的网站信息的准确性。
[0050]具体实施例中,通过设置多个定时时间,即该预设时间点,并在该定时时间到达时,触发抓取目标网站的网站信息,而无需一直抓取该目标网站的
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1