网站状态侦察方法及装置的制造方法

文档序号:10612724阅读:318来源:国知局
网站状态侦察方法及装置的制造方法【专利摘要】本发明涉及网络信息
技术领域
,具体涉及一种网站状态侦察方法及装置。本发明提出的网站状态侦察方法,包括以下步骤:按照预先设定的侦察周期,周期性地向采集目标网页发送访问请求,并接收该采集目标网页的服务器返回的应答信息;处理该应答信息;并在该应答信息指示该采集目标网页不可访问时,发出第一告警信息,该第一告警信息用于指示该采集目标网页不可访问。本发明提出的网站状态侦察方法周期性地侦察采集目标网页的可访问状态,并在不可访问时发出告警消息,提高信息采集程序的可用性和大规模采集的管理能力。【专利说明】网站状态侦察方法及装置
技术领域
[0001]本发明涉及网络信息
技术领域
,具体涉及一种网站状态侦察方法及装置。【
背景技术
】[0002]网络爬虫是一种按照一定的规则自动地抓取互联网信息的程序或者脚本。网络爬虫负责从互联网中搜集网页,并从搜集到的网页中采集信息。更具体地,是从网络服务器中获取网页内容数据。[0003]目前的爬虫程序,在进行大规模网页信息采集时,经常出现在按照预先配置的参数进行信息采集时,返回非预期有用信息的异常输出,而被迫中止网页信息采集的情况。针对爬虫程序的这类异常输出,需要人工消耗大量的时间进行故障排除,重新修改爬虫程序,才能继续进行网页信息采集工作。【
发明内容】[0004]针对网页信息采集中出现意外中断的问题,本发明提供一种网站状态侦察方法及装置,在一定程度地改善信息采集程序的可用性。[0005]第一方面,本发明提出的网站状态侦察方法,包括以下步骤:按照预先设定的侦察周期,周期性地向采集目标网页发送访问请求,并接收该采集目标网页的服务器返回的应答信息;处理该应答信息;并在该应答信息指示该采集目标网页不可访问时,发出第一告警信息,该第一告警信息用于指示该采集目标网页不可访问;该采集目标网页为任务网页列表中的一项;该任务网页列表中的每一项采集目标网页对应的网页信息分别按照预先设定的采集周期,周期性地被采集。[0006]进一步地,本发明提出的网站状态侦察方法,该处理该应答信息,还包括:在该应答信息指示该采集目标网页可以访问时,访问该采集目标网页,获取该采集目标网页的网页结构信息;并在根据该网页结构信息,检测到该采集目标网页的网页结构发生变化时,发出第二告警信息,该第二告警信息用于指示该采集目标网页的网页结构发生了变化。[0007]进一步地,本发明提出的网站状态侦察方法,该根据该网页结构信息,检测到该采集目标网页的网页结构发生变化,包括以下任一项或多项:检测到该采集目标网页的框架信息发生了变化;检测到该采集目标网页的内容信息发生了变化;检测到该采集目标网页的渲染信息发生了变化;检测到该采集目标网页的格式信息发生了变化。[0008]进一步地,本发明提出的网站状态侦察方法,该预先设定的侦察周期小于该预先设定的采集周期。[0009]与现有技术相比,本发明提出的网站状态侦察方法周期性地侦察采集目标网页的可访问状态,并在不可访问时发出告警消息,从而能够在下次对目标网页进行信息采集之前,预先获得网页的可访问状态,从而减少因为网页不可访问导致爬虫程序不可用的情形,减少了无效采集操作,提高了信息采集程序的可用性和管理人员的综合管理能力。[0010]第二方面,本发明提出的网站状态侦察装置,包括:请求访问模块,该请求访问模块用于按照预先设定的侦察周期,周期性地向采集目标网页发送访问请求,并接收该采集目标网页的服务器返回的应答信息;应答信息处理模块,该应答信息处理模块用于处理该应答信息;第一告警模块,该第一告警模块用于在该应答信息指示该采集目标网页不可访问时,发出第一告警信息,该第一告警信息用于指示该采集目标网页不可访问;该采集目标网页为任务网页列表中的一项;该任务网页列表中的每一项采集目标网页对应的网页信息分别按照预先设定的采集周期,周期性地被采集。[0011]进一步地,本发明提出的网站状态侦察装置,还包括:[0012]网页结构信息获取模块,该网页结构信息获取模块用于在该应答信息指示该采集目标网页可以访问时,访问该采集目标网页,并获取该采集目标网页的网页结构信息;第二告警模块,该第二告警模块用于根据该网页结构信息,检测到该采集目标网页的网页结构发生变化时,发出第二告警信息,该第二告警信息用于指示该采集目标网页的网页结构发生了变化。[0013]进一步地,本发明提出的网站状态侦察装置,该根据该网页结构信息,检测到该采集目标网页的网页结构发生变化,包括以下任一项或多项:检测到该采集目标网页的框架信息发生了变化;检测到该采集目标网页的内容信息发生了变化;检测到该采集目标网页的渲染信息发生了变化;检测到该采集目标网页的格式信息发生了变化。[0014]进一步地,本发明提出的网站状态侦察装置,该预先设定的侦察周期小于该预先设定的采集周期。[0015]与现有技术相比,本发明提出的网站状态侦察装置周期性地侦察采集目标网页的可访问状态,并在不可访问时发出告警消息,从而能够在下次对目标网页进行信息采集之前,预先获得网页的可访问状态,从而减少因为网页不可访问导致爬虫程序不可用的情形,减少了无效采集操作,提高了信息采集程序的可用性和管理人员的综合管理能力。【附图说明】[0016]为了更清楚地说明本发明【具体实施方式】或现有技术中的技术方案,下面将对【具体实施方式】或现有技术描述中所需要使用的附图作简单地介绍。[0017]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。[0018]图1是本发明实施例1网站状态侦察方法的流程示意图;[0019]图2是本发明实施例2网站状态侦察方法的流程示意图;[0020]图3是本发明实施例3网站状态侦察方法的流程示意图;[0021]图4是本发明实施例4网站状态侦察装置的组成示意图;[0022]图5是本发明实施例5网站状态侦察装置的组成示意图。【具体实施方式】[0023]为使实施例的目的、技术方案和优点更加清楚,下面将结合实施例中的附图,对实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。[0024]基于下述的实施例,本领域普通技术人员在未做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0025]实施例1[0026]如图1所示,本实施例网站状态侦察方法,包括:[0027]步骤S10:按照预先设定的侦察周期,周期性地向采集目标网页发送访问请求,并接收该采集目标网页的服务器返回的应答信息;[0028]步骤S20:处理该应答信息;[0029]步骤S30:判断该应答信息指示该采集目标网页是否可访问,并在该采集目标网页不可以访问时,执行步骤S40:[0030]步骤S40:发出第一告警信息,该第一告警信息用于指示该采集目标网页不可访问;该采集目标网页为任务网页列表中的一项。[0031]优选地,该任务网页列表中的每一项采集目标网页对应的网页信息分别按照预先设定的采集周期周期性地被采集。[0032]由于互联网网站及网页结构天然的不稳定性,经常会出现采集程序上个月可用,而这个月就无法使用的情况。特别是需要紧急采集的时候,会给维护人员造成很大的工作压力;如果并发任务很多,则情况会变得非常被动和窘迫。[0033]目前常规的爬虫程序,只按照预先配置的参数进行常规的信息采集,基本不关注网站的可用性和网页的改版情况。这种被动的工作方式无法适应大规模采集任务的管理的需要。[0034]本实施例网站状态侦察方法周期性地侦察采集目标网页的可访问状态,并在不可访问时发出告警消息,从而能够在下次对目标网页进行信息采集之前,预先获得网页的可访问状态,从而减少因为网页不可访问导致爬虫程序不可用的情形,减少了无效采集操作,提高了信息采集程序的可用性和管理人员的综合管理能力。[0035]实施例2[0036]本实施例网站状态侦察方法是在实施例1基础上,进一步对侦察网页结构进行说明。[0037]如图2所示,本实施例网站状态侦察方法,还包括:[0038]步骤S50:在该应答信息指示该采集目标网页可以访问时,访问该采集目标网页,获取该采集目标网页的网页结构信息;[0039]步骤S60:在根据该网页结构信息,检测到该采集目标网页的网页结构发生变化时,发出第二告警信息,该第二告警信息用于指示该采集目标网页的网页结构发生了变化。[0040]爬虫程序通常是根据针对该网页定制的采集模板进行信息解析。因此,若网页结构发生变化,导致网页结构与该预先设定的采集模板不相匹配时,爬虫程序将返回异常数据。[0041]本实施例网站状态侦察方法在采集目标网页可以访问时,访问该采集目标网页,获取该采集目标网页的网页结构信息,并根据该网页结构信息检测该采集目标网页的网页结构是否发生变化,并在网页结构发生变化时,发出告警信息,从而能够在下次对目标网页进行信息采集之前,预先获知网页结构已经发生改变的状态,从而减少因为网页不可访问导致爬虫程序不可用的情形,减少了无效采集操作,提高了信息采集程序的可用性和管理人员的综合管理能力。[0042]实施例3[0043]本实施例网站状态侦察方法是在实施例2基础上,进一步对侦察网页结构变化的方法进行说明。[0044]如图3所示,本实施例网站状态侦察方法中根据该网页结构信息,检测到该采集目标网页的网页结构发生变化,可以包括以下一项或多项:[0045]步骤S61:检测到该采集目标网页的框架信息发生了变化;[0046]步骤S62:检测到该采集目标网页的内容信息发生了变化;[0047]步骤S63:检测到该采集目标网页的渲染信息发生了变化;[0048]步骤S64:检测到该采集目标网页的格式信息发生了变化。[0049]—个网页是承载按照一定布局展示的内容的一种复合文件。常规的网页遵循HTML规范的要求。[0050]超文本标记语言(HTML:HyperTextMarkupLanguage,以下简称HTML)是用来描述网页的一种语言。HTML不是一种编程语言,而是一种标记语言(markuplanguage)。标记语言是一套标记标签(markuptag)JTML使用标记标签来描述网页。例如:〈HTML〉与〈/HTML>之间的文本描述网页;〈body〉与〈/body〉之间的文本是可见的页面内容;<hl>与</hl>之间的文本被显示为标题;〈P〉与〈/P〉之间的文本被显示为段落。[0051]在HTML中通常采用h标签、P标签、table标签进行内容的显示,采用CSS进行显示效果的控制,采用JS实现动态处理效果(如异步加载JSON信息)。[0052]网页内容数据的变动通常分为以下三种:[0053]a、核心显示内容部分的变动,即用户关注的可见内容部分的变动;[0054]b、CSS等控制显示效果的元素或定义的变动;[0055]C、其他非关键元素的变动,如页面meta元素、JS代码的变动等。[0056]需要说明的是,其他非关键元素的变动还可以包括用户所有不关注的显示内容。[0057]基于业务场景的考虑,具体实施时,通常只关注第一种,即用户关注的可见内容部分,也即核心显示内容的变动。[0058]具体过程如下:[0059]第一步,获取指定页面的内容,抛弃CSS、JS等所有的非用户关注的HTML元素,抽取出只带基本格式的核心显示内容,并保存。[0060]需要说明的是,该核心显示内容为用户预先指定的网页采集信息,如企业名称或企业注册代号等,可以为一项或多项。[0061]第二步,采取与第一步相同的抽取逻辑,然后比对两次的结果,侦察指定网页是否发生变动。[0062]通过第一步启动之后,随后的侦察过程则为周期性地重复上述第二步。[0063]优选地,有时候目标网页可能比较大,可以引入一些优化措施,以减少上述第二步中比对的计算量。[0064]该核心显示内容又可以进一步分为业务元数据和业务内容,例如某企业信息页面中,存在“企业名称”和“ABC技术有限责任公司”字样,其中“企业名称”即为业务元数据,“ABC技术有限责任公司”即为业务内容。[0065]由于业务内容具体字样变动通常并不会对采集程序造成阻塞性影响,所以在抽取出只带基本格式的核心显示内容的过程中可以不抽取业务内容部分,这样可以加速比对过程,同时减少数据存储量。[0066]本实施例网站状态侦察方法通过检测该采集目标网页的框架信息、内容信息、渲染信息或格式信息对网页结构变化进行侦察。[0067]优选地,实施例1至3网站状态侦察方法中,该预先设定的侦察周期小于该预先设定的采集周期。[0068]需要说明的是,上述实施例1至3可组合实施,并实现组合后的功能。[0069]实施例4[0070]如图4所示,本实施例网站状态侦察装置,包括:[0071]请求访问模块10,该请求访问模块用于按照预先设定的侦察周期,周期性地向采集目标网页发送访问请求,并接收该采集目标网页的服务器返回的应答信息;[0072]应答信息处理模块20,该应答信息处理模块用于处理该应答信息;[0073]第一告警模块30,该第一告警模块用于在该应答信息指示该采集目标网页不可访问时,发出第一告警信息,该第一告警信息用于指示该采集目标网页不可访问;该采集目标网页为任务网页列表中的一项;该任务网页列表中的每一项采集目标网页对应的网页信息分别按照预先设定的采集周期,周期性地被采集。[0074]本实施例网站状态侦察装置周期性地侦察采集目标网页的可访问状态,并在不可访问时发出告警消息,从而能够在下次对目标网页进行信息采集之前,预先获得网页的可访问状态,从而减少因为网页不可访问导致爬虫程序不可用的情形,减少了无效采集操作,提高了信息采集程序的可用性和管理人员的综合管理能力。[0075]本实施例网站状态侦察装置的【具体实施方式】和技术效果参见实施例1,这里不再赘述。[0076]实施例5[0077]本实施例网站状态侦察装置是在实施例4基础上,进一步对侦察网页结构的方法进行说明。[0078]如图5所示,本实施例网站状态侦察装置,还包括:[0079]网页结构信息获取模块40,该网页结构信息获取模块用于在该应答信息指示该采集目标网页可以访问时,访问该采集目标网页,并获取该采集目标网页的网页结构信息;[0080]第二告警模块50,该第二告警模块用于根据该网页结构信息,检测到该采集目标网页的网页结构发生变化时,发出第二告警信息,该第二告警信息用于指示该采集目标网页的网页结构发生了变化。[0081]优选地,本实施例网站状态侦察装置,该根据该网页结构信息,检测到该采集目标网页的网页结构发生变化,包括以下任一项或多项:检测到该采集目标网页的框架信息发生了变化;检测到该采集目标网页的内容信息发生了变化;检测到该采集目标网页的渲染信息发生了变化;检测到该采集目标网页的格式信息发生了变化。[0082]优选地,实施例4至5网站状态侦察装置中,该预先设定的侦察周期小于该预先设定的采集周期。[0083]本实施例网站状态侦察装置的【具体实施方式】和技术效果参见实施例2至3,这里不再赘述。[0084]需要说明的是,上述实施例4至5可组合实施,并实现组合后的功能。[0085]以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本
技术领域
的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本
技术领域
的其它普通技术人员能理解本文披露的各实施例。[0086]本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本
技术领域
中的公知常识或惯用技术手段。[0087]所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(R0M,Read-0nlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。[0088]最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。【主权项】1.一种网站状态侦察方法,其特征在于,包括以下步骤:按照预先设定的侦察周期,周期性地向采集目标网页发送访问请求,并接收所述采集目标网页的服务器返回的应答信息;处理所述应答信息;并在所述应答信息指示所述采集目标网页不可访问时,发出第一告警信息,所述第一告警信息用于指示所述采集目标网页不可访问;所述采集目标网页为任务网页列表中的一项;所述任务网页列表中的每一项采集目标网页对应的网页信息分别按照预先设定的采集周期,周期性地被采集。2.根据权利要求1所述的网站状态侦察方法,其特征在于,所述处理所述应答信息,还包括:在所述应答信息指示所述采集目标网页可以访问时,访问所述采集目标网页,获取所述采集目标网页的网页结构信息;并在根据所述网页结构信息,检测到所述采集目标网页的网页结构发生变化时,发出第二告警信息,所述第二告警信息用于指示所述采集目标网页的网页结构发生了变化。3.根据权利要求2所述的网站状态侦察方法,其特征在于,所述根据所述网页结构信息,检测到所述采集目标网页的网页结构发生变化,包括以下任一项或多项:检测到所述采集目标网页的框架信息发生了变化;检测到所述采集目标网页的内容信息发生了变化;检测到所述采集目标网页的渲染信息发生了变化;检测到所述采集目标网页的格式信息发生了变化。4.根据权利要求1所述的网站状态侦察方法,其特征在于,所述预先设定的侦察周期小于所述预先设定的采集周期。5.一种网站状态侦察装置,其特征在于,包括:请求访问模块,所述请求访问模块用于按照预先设定的侦察周期,周期性地向采集目标网页发送访问请求,并接收所述采集目标网页的服务器返回的应答信息;应答信息处理模块,所述应答信息处理模块用于处理所述应答信息;第一告警模块,所述第一告警模块用于在所述应答信息指示所述采集目标网页不可访问时,发出第一告警信息,所述第一告警信息用于指示所述采集目标网页不可访问;所述采集目标网页为任务网页列表中的一项;所述任务网页列表中的每一项采集目标网页对应的网页信息分别按照预先设定的采集周期,周期性地被采集。6.根据权利要求5所述的网站状态侦察装置,其特征在于,还包括:网页结构信息获取模块,所述网页结构信息获取模块用于在所述应答信息指示所述采集目标网页可以访问时,访问所述采集目标网页,并获取所述采集目标网页的网页结构信息;第二告警模块,所述第二告警模块用于根据所述网页结构信息,检测到所述采集目标网页的网页结构发生变化时,发出第二告警信息,所述第二告警信息用于指示所述采集目标网页的网页结构发生了变化。7.根据权利要求6所述的网站状态侦察装置,其特征在于,所述根据所述网页结构信息,检测到所述采集目标网页的网页结构发生变化,包括以下任一项或多项:检测到所述采集目标网页的框架信息发生了变化;检测到所述采集目标网页的内容信息发生了变化;检测到所述采集目标网页的渲染信息发生了变化;检测到所述采集目标网页的格式信息发生了变化。8.根据权利要求5所述的网站状态侦察装置,其特征在于,所述预先设定的侦察周期小于所述预先设定的采集周期。【文档编号】G06F17/30GK105975395SQ201610370314【公开日】2016年9月28日【申请日】2016年5月30日【发明人】张军,贾西贝【申请人】深圳市华傲数据技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1