一种智能化的网络信息采集方法及网络信息采集系统的制作方法_3

文档序号:9814278阅读:来源:国知局
[0063]在步骤S108中,任务分配及调度中心100向该台信息采集服务器200发送停止信息采集指令,并判断其在设定的第三时间阈值Τ3内是否接收到该台信息采集服务器200的响应信息。如任务分配及调度中心100在设定的第三时间阈值Τ3 (例如10秒)内接收到该台信息采集服务器200的响应信息,执行下一步骤S109。如任务分配及调度中心100未接收到该台信息采集服务器200的响应信息,则执行下一步骤S110。
[0064]在步骤S109中,该任务分配及调度中心100判断该台信息采集服务器200执行任务超时,指示该台信息采集服务器200停止信息采集工作。步骤S109执行完毕时,跳回步骤 S102。
[0065]在步骤SllO中,任务分配及调度中心100判定该台信息采集服务器200出现宕机事故,通过报警模块106发出报警语音。步骤SllO执行完毕时,跳回步骤S102。
[0066]上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的【具体实施方式】,上述的【具体实施方式】仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
【主权项】
1.一种智能化的网络信息采集方法,其特征在于,包括以下步骤; 51、判断多台信息采集服务器中当前最适于执行信息采集工作的信息采集服务器及多个常用网站中当前最适于访问的目标网站,将信息采集任务分配到该台信息采集服务器,并指令该台信息采集服务器根据分配到其的信息采集任务对该目标网站服务器进行访问及下载所需的网络信息; 52、判断是否接收到由该台信息采集服务器返回的网络信息,并在接收到该网络信息时,对该网络信息进行整理及将整理后的网络信息存入数据库。2.根据权利要求1所述的智能化的网络信息采集方法,其特征在于,在所述步骤SI之前还包括如下步骤: SO、将多个常用网站的多个URL信息预存到任务分配及调度中心。3.根据权利要求2所述的智能化的网络信息采集方法,其特征在于,所述步骤SI中所述判断多台信息采集服务器中当前最适于执行信息采集工作的信息采集服务器及多个常用网站中当前最适于访问的目标网站,将信息采集任务分配到该台信息采集服务器的步骤包括: 511、对各台信息采集服务器的信息采集任务分配及完成情况进行实时监控; 512、累计设定的第一时间阈值Tl内各台信息采集服务器针对各大网站的访问次数; 513、基于各台信息采集服务器当前的信息采集任务分配及完成情况,每台信息采集服务器在第一时间阈值Tl内针对各大网站的访问次数,以及各台信息采集服务器的当前网络状况判断该多台信息采集服务器中当前最适于执行信息采集工作的信息采集服务器。4.根据权利要求3所述的智能化的网络信息采集方法,其特征在于,所述步骤SI中所述判断多台信息采集服务器中当前最适于执行信息采集工作的信息采集服务器及多个常用网站中当前最适于访问的目标网站,将信息采集任务分配到该台信息采集服务器的步骤还包括: 514、基于该多台信息采集服务器在该第一时间阈值Tl内针对该多个常用网站分别进行的访问次数从该多个常用网站中选择当前最适于访问的目标网站; 515、查找数据库中该目标网站的URL,将包含有该目标网站的URL及第一关键词的网络信息采集任务分配到该当前最适于执行信息采集工作的信息采集服务器。5.根据权利要求4所述的智能化的网络信息采集方法,其特征在于,所述步骤SI中指令该台信息采集服务器根据分配到其的信息收集任务对该目标网站服务器进行访问及下载所需的网络信息的步骤包括: 516、对该网络信息采集任务中目标网站的URL所链接到的网站服务器进行访问,查找该网站服务器存储的包含有该第一关键词的所有URL ; 517、链接到所查找的每一个URL的网页页面,并下载该网页页面所包含的所有有效的网络信息。6.根据权利要求5所述的智能化的网络信息采集方法,其特征在于,在所述步骤S17与所述步骤S2之前还包括如下步骤: S172、将第二关键词输入该台信息采集服务器,并指令该台信息采集服务器依给定的第二关键词对其下载的网络信息进行过滤以从中筛选出包含有第二关键词的网络信息。7.根据权利要求6所述的智能化的网络信息采集方法,其特征在于,所述步骤S2中判断是否接收到由该台信息采集服务器传回的网络信息的步骤包括: 判断是否在设定的第二时间阈值T2内接收到由该台信息采集服务器返回的经过滤的网络信息;如未在该第二时间阈值T2内接收到该网络信息,则判定该台信息采集服务器执行任务超时,指令该台信息采集服务器停止该超时的信息采集任务,并对该信息采集任务进行重新调度。8.根据权利要求7所述的智能化的网络信息采集方法,其特征在于,所述步骤S2中判断是否接收到由该台信息采集服务器传回的网络信息的步骤还包括: 判断是否在设定的第二时间阈值T2内接收到由该台信息采集服务器传回的通信连接中断信息,及在接收到该通信连接中断信息时,指令该台网络信息采集服务器停止该失效的/[目息米集任务,并对该彳目息米集任务进行重新调度。9.根据权利要求7所述的智能化的网络信息采集方法,其特征在于,所述步骤S2还包括: 在指令该台网络信息采集服务器停止该次信息采集任务的同时启动计时,判断是否在启动计时之后的第三时间阈值T3内接收到由该台网络信息采集服务器返回的响应信息;如未接收到该响应信息,则判定该台网络信息采集服务器出现宕机事故,及通过报警模块发出报警语音。10.一种智能化的网络信息采集系统,其特征在于,所述系统包括任务分配及调度中心以及受控于所述任务分配及调度中心的多台信息采集服务器; 所述任务分配及调度中心用于基于各台信息采集服务器的当前任务分配及完成情况、各台信息采集服务器的当前网络状况、以及各台信息采集服务器在设定的第一时间阈值Tl内针对多个常用网站的访问次数判断及选择所述多台信息采集服务器中当前最适于执行信息采集工作的信息采集服务器,以及多个常用网站中当前最适于访问的目标网站,并将信息采集任务分配到所选中的信息采集服务器; 所述选中的信息采集服务器用于根据分配到其的信息采集任务对该目标网站服务器进行访问及下载所需的网络信息; 所述任务分配及调度中心还用于判断是否接收到由所述选中的信息采集服务器返回的网络信息,并在接收到该网络信息时,对该网络信息进行整理及将整理的网络信息存入数据库。
【专利摘要】一种智能化的网络信息采集方法及网络信息采集系统。所述系统包括任务分配及调度中心以及受控于所述任务分配及调度中心的多台信息采集服务器。所述任务分配及调度中心用于判断所述多台信息采集服务器中当前最适于执行信息采集工作的信息采集服务器,以及多个常用网站中当前最适于访问的目标网站,并将信息采集任务分配到所选中的信息采集服务器。所述选中的信息采集服务器用于对该目标网站服务器进行访问及下载所需的网络信息并将下载的网络信息返回所述任务分配及调度中心。所述任务分配及调度中心用于对该返回的网络信息进行整理及将整理的网络信息存入数据库。本发明实现了每台服务器系统资源的充分利用,大大提高了网络信息采集效率。
【IPC分类】H04L29/08, G06F17/30
【公开号】CN105577718
【申请号】CN201410545367
【发明人】许晓加, 杨星星, 黄雅静, 张耀武, 李海平, 刘劲松, 高宝兵, 陈国锐
【申请人】卓望数码技术(深圳)有限公司
【公开日】2016年5月11日
【申请日】2014年10月15日
当前第3页1 2 3 
网友询问留言 已有1条留言
  • 访客 来自[中国] 2022年08月31日 04:10
    怎样联系?
    0
1