一种智能化的网络信息采集方法及网络信息采集系统的制作方法

文档序号:9814278阅读:610来源:国知局
一种智能化的网络信息采集方法及网络信息采集系统的制作方法
【技术领域】
[0001]本发明涉及信息采集技术领域,更具体地说,涉及一种智能化的网络信息采集方法及智能化的网络信息采集系统。
【背景技术】
[0002]为了提供更精准更高效的搜索服务,信息采集系统通常会通过多台服务器节点从各大网站采集所需信息。然而,出于安全考虑,众多网站服务器300开始针对同一终端的单日访问量进行限制,并对一日或一段时间内的访问量超过设定访问上限的终端实施IP封锁的“惩诫”。由于现有的信息采集系统的任务分配机制缺乏灵活性,该信息采集系统不能为“ IP”地址遭到封锁的服务器节点及时更换信息采集任务,该遭“惩戒”的服务器节点易处于闲置状态,造成了系统资源的浪费,同时降低了信息采集效率。

【发明内容】

[0003]本发明要解决的技术问题在于针对现有技术的上述缺陷,提供一种智能化的网络信息采集方法及智能化的网络信息采集系统。
[0004]本发明解决其技术问题所采用的技术方案是:构造一种智能化的网络信息采集方法,包括以下步骤;
[0005]S1、判断多台信息采集服务器中当前最适于执行信息采集工作的信息采集服务器及多个常用网站中当前最适于访问的目标网站,将信息采集任务分配到该台信息采集服务器,并指令该台信息采集服务器根据分配到其的信息采集任务对该目标网站服务器进行访问及下载所需的网络信息;
[0006]S2、判断是否接收到由该台信息采集服务器返回的网络信息,并在接收到该网络信息时,对该网络信息进行整理及将整理后的网络信息存入数据库。
[0007]在本发明上述智能化的网络信息采集方法中,在所述步骤SI之前还包括如下步骤:
[0008]SO、将多个常用网站的多个URL信息预存到任务分配及调度中心。
[0009]在本发明上述智能化的网络信息采集方法中,所述步骤SI中所述判断多台信息采集服务器中当前最适于执行信息采集工作的信息采集服务器及多个常用网站中当前最适于访问的目标网站,将信息采集任务分配到该台信息采集服务器的步骤包括:
[0010]SI 1、对各台信息采集服务器的信息采集任务分配及完成情况进行实时监控;
[0011]S12、累计设定的第一时间阈值Tl内各台信息采集服务器针对各大网站的访问次数;
[0012]S13、基于各台信息采集服务器当前的信息采集任务分配及完成情况,每台信息采集服务器在第一时间阈值Tl内针对各大网站的访问次数,以及各台信息采集服务器的当前网络状况判断该多台信息采集服务器中当前最适于执行信息采集工作的信息采集服务器。
[0013]在本发明上述智能化的网络信息采集方法中,所述步骤SI中所述判断多台信息采集服务器中当前最适于执行信息采集工作的信息采集服务器及多个常用网站中当前最适于访问的目标网站,将信息采集任务分配到该台信息采集服务器的步骤还包括:
[0014]S14、基于该多台信息采集服务器在该第一时间阈值Tl内针对该多个常用网站分别进行的访问次数从该多个常用网站中选择当前最适于访问的目标网站;
[0015]S15、查找数据库中该目标网站的URL,将包含有该目标网站的URL及第一关键词的网络信息采集任务分配到该当前最适于执行信息采集工作的信息采集服务器。
[0016]在本发明上述智能化的网络信息采集方法中,所述步骤SI中指令该台信息采集服务器根据分配到其的信息收集任务对该目标网站服务器进行访问及下载所需的网络信息的步骤包括:
[0017]S16、对该网络信息采集任务中目标网站的URL所链接到的网站服务器进行访问,查找该网站服务器存储的包含有该第一关键词的所有URL ;
[0018]S17、链接到所查找的每一个URL的网页页面,并下载该网页页面所包含的所有有效的网络信息。
[0019]在本发明上述智能化的网络信息采集方法中,在所述步骤S17与所述步骤S2之前还包括如下步骤:
[0020]S172、将第二关键词输入该台信息采集服务器,并指令该台信息采集服务器依给定的第二关键词对其下载的网络信息进行过滤以从中筛选出包含有第二关键词的网络信肩、O
[0021]在本发明上述智能化的网络信息采集方法中,所述步骤S2中判断是否接收到由该台信息采集服务器传回的网络信息的步骤包括:
[0022]判断是否在设定的第二时间阈值T2内接收到由该台信息采集服务器返回的经过滤的网络信息;如未在该第二时间阈值T2内接收到该网络信息,则判定该台信息采集服务器执行任务超时,指令该台信息采集服务器停止该超时的信息采集任务,并对该信息采集任务进行重新调度。
[0023]在本发明上述智能化的网络信息采集方法中,所述步骤S2中判断是否接收到由该台信息采集服务器传回的网络信息的步骤还包括:
[0024]判断是否在设定的第二时间阈值T2内接收到由该台信息采集服务器传回的通信连接中断信息,及在接收到该通信连接中断信息时,指令该台网络信息采集服务器停止该失效的信息采集任务,并对该信息采集任务进行重新调度。
[0025]在本发明上述智能化的网络信息采集方法中,所述步骤S2还包括:
[0026]在指令该台网络信息采集服务器停止该次信息采集任务的同时启动计时,判断是否在启动计时之后的第三时间阈值T3内接收到由该台网络信息采集服务器返回的响应信息;如未接收到该响应信息,则判定该台网络信息采集服务器出现宕机事故,及通过报警模块发出报警语音。
[0027]本发明还构造一种智能化的网络信息采集系统,所述系统包括任务分配及调度中心以及受控于所述任务分配及调度中心的多台信息采集服务器;
[0028]所述任务分配及调度中心用于基于各台信息采集服务器的当前任务分配及完成情况、各台信息采集服务器的当前网络状况、以及各台信息采集服务器在设定的第一时间阈值Tl内针对多个常用网站的访问次数判断及选择所述多台信息采集服务器中当前最适于执行信息采集工作的信息采集服务器,以及多个常用网站中当前最适于访问的目标网站,并将信息采集任务分配到所选中的信息采集服务器;
[0029]所述选中的信息采集服务器用于根据分配到其的信息采集任务对该目标网站服务器进行访问及下载所需的网络信息;
[0030]所述任务分配及调度中心还用于判断是否接收到由所述选中的信息采集服务器返回的网络信息,并在接收到该网络信息时,对该网络信息进行整理及将整理的网络信息存入数据库。
[0031 ] 实施本发明智能化的网络信息采集方法及智能化的网络信息采集系统,可实现以下有益效果:
[0032]1、本发明智能化的网络信息采集系统引入了灵活的任务分配机制,智能化的网络信息采集系统可参考各台信息采集服务器当前的任务分配及完成情况,各台信息采集服务器的当前网络状况,以及各台信息采集服务器在设定时间Tl内针对各大常用网站的访问量执行任务分配工作,在任务分配过程中,任务分配及调度中心对同一服务器节点针对同一个网站服务器的访问次数进行累计,避免该服务器节点在设定时段针对同一网站服务器的总访问次数超限,以规避各大应用网站对于各台信息采集服务器“过分”的信息采集行为所实施的封锁IP的反制措施,从而提高了信息采集效率。
[0033]2、本发明智能化的网络信息采集系统可对超时的信息采集任务或分配到出现宕机事故的信息采集服务器的信息采集任务进行重新调度,提高了信息采集服务器的系统资源利用率,进一步提高了服务器节点的信息采
当前第1页1 2 3 
网友询问留言 已有1条留言
  • 访客 来自[中国] 2022年08月31日 04:10
    怎样联系?
    0
1