一种网页获取方法、装置、设备及计算机可读存储介质与流程

文档序号：18797242发布日期：2019-09-29 19:52阅读：175来源：国知局

本申请涉及计算机技术领域，特别涉及一种网页获取方法，还涉及一种网页获取装置、设备及计算机可读存储介质。

背景技术：

网页是构成网站的基本元素，是承载各种网站应用的平台，随着互联网技术的快速发展，用户对网络的需求量越来越大，网页浏览器的功能也随之增多。因此，对网站中的网页进行有效管理，才能更好的满足用户的众多需求，为用户提供便利。

网页的有效管理离不开网页的获取，传统技术中的网页获取主要依赖于网络爬虫进行页面爬取，然而，由于网站中存在有大量的网页孤链，而这些网页孤链与网站中的其他网页并没有建立超级链接关系，导致网络爬虫无法发现；另外，网站中的部分网页由于受到登录或权限控制等限制同样也无法获取到，例如，现有的网络爬虫在进行网页访问时，经常会遇到加密数据和网页权限的问题，其中有些网页则是需要会员权限才能访问。由此可见，现有的基于网络爬虫的网页获取技术无法实现孤岛网页以及受权限控制的网页的获取，从而导致严重的网页获取不完整、不全面的问题，无法对网页管理提供强有效的保证。

因此，如何实现孤岛网页以及受权限控制的网页的获取是本领域技术人员亟待解决的问题。

技术实现要素：

本申请的目的是提供一种网页获取方法，该网页获取方法可有效实现孤岛网页以及受权限控制的网页的获取，进而保证获取网页的全面性和完整性；本申请的另一目的是提供一种网页获取装置、设备及计算机可读存储介质，均具有上述有益效果。

第一方面，本申请提供了一种网页获取方法，所述网页获取方法包括：

根据接收的网页获取指令启动预设探测脚本；

利用所述预设探测脚本探测目标网站的网页访问行为；

对各所述网页访问行为对应的被访问网页进行数据采集，获得第一网页数据集。

优选的，所述网页获取方法还包括：

根据所述网页获取指令启动云端爬虫；

通过所述云端爬虫进行网页探测，获得第二网页数据集；

对所述第一网页数据集和所述第二网页数据集进行合并处理，获得样本网页数据集。

优选的，所述对所述第一网页数据集和所述第二网页数据集进行合并处理，获得样本网页数据集，包括：

计算所述第一网页数据集和所述第二网页数据集的并集，获得所述样本数据集。

优选的，所述网页获取方法还包括：

对所述样本网页数据集中的各个样本网页数据进行漏洞识别，以确定各个所述样本网页数据是否存在web漏洞。

优选的，所述对所述样本网页数据集中的各个样本网页数据进行漏洞识别，以确定各个所述样本网页数据是否存在web漏洞，包括：

将所述样本网页数据集中的各个样本网页数据与预设漏洞网页数据集中的各个漏洞网页数据进行对比分析，若所述样本网页数据与所述漏洞网页数据相同，则判定所述样本网页数据存在所述web漏洞。

优选的，所述将所述样本网页数据集中的各个样本网页数据与预设漏洞网页数据集中的各个漏洞网页数据进行对比分析，若所述样本网页数据与所述漏洞网页数据相同，则判定所述样本网页数据存在所述web漏洞，包括：

将各所述样本网页数据的页面访问顺序与各所述漏洞网页数据的页面访问顺序进行对比分析；

若所述页面访问顺序相同，则判定所述样本网页数据存在所述web漏洞。

优选的，所述对所述样本网页数据集中的各个样本网页数据进行漏洞识别，以确定各个所述样本网页数据是否存在web漏洞，包括：

判断所述样本网页数据是否为权限类网页；

若是，则对所述权限类网页发起http请求；

判断是否接收到所述权限类网页根据所述http请求反馈的登录成功信息；若是，则判定所述权限类网页存在身份验证漏洞。

第二方面，本申请还提供了一种网页获取装置，所述网页获取装置包括：

脚本启动模块，用于根据接收的网页获取指令启动预设探测脚本；

行为探测模块，用于利用所述预设探测脚本探测目标网站的网页访问行为；

网页获取模块，用于对各所述网页访问行为对应的被访问网页进行数据采集，获得第一网页数据集。

第三方面，本申请还提供了一种网页获取设备，所述网页获取设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任意一种网页获取方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一种网页获取方法的步骤。

本申请所提供的一种网页获取方法，包括根据接收的网页获取指令启动预设探测脚本；利用所述预设探测脚本探测目标网站的网页访问行为；对各所述网页访问行为对应的被访问网页进行数据采集，获得第一网页数据集。

可见，本申请所提供的技术方案，由于用户在进行网页访问时，除了正常的基于超链接实现的网页访问之外，还可以通过手动输入网址的方式实现孤岛网页的访问，也可以基于预先获知或注册的权限信息实现受权限控制的网页的访问，因此，可以在前端设置探测脚本对用户的网页访问行为进行探测，进一步对被访问网页进行数据采集，即可获得相应的网页数据，相较于传统的基于网络爬虫的网页获取方式，本申请所提出的技术方案还可实现对孤岛网页以及受权限控制的网页的获取，解决了现有技术中网页获取不完整、不全面的问题，为网站页面管理提供了有效保证。

本申请所提供的一种网页获取装置、设备及计算机可读存储介质，均具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请所提供的一种网页获取方法的流程示意图；

图2为本申请所提供的另一种网页获取方法的流程示意图；

图3为本申请所提供的一种web漏洞识别方法的流程示意图；

图4为本申请所提供的一种网页获取装置的结构示意图；

图5为本申请所提供的另一种网页获取装置的结构示意图；

图6为本申请所提供的一种网页获取设备的结构示意图。

具体实施方式

本申请的核心是提供一种网页获取方法，该网页获取方法可有效实现孤岛网页以及受权限控制的网页的获取，进而保证获取网页的全面性和完整性；本申请的另一核心是提供一种网页获取装置、设备及计算机可读存储介质，均具有上述有益效果。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

请参考图1，图1为本申请所提供的一种网页获取方法的流程示意图，该网页获取方法可以包括：

s101：根据接收的网页获取指令启动预设探测脚本；

本步骤旨在基于网页获取指令启动预设探测脚本，该预设探测脚本为技术人员预先设置在web前端的探测程序，用以探测web前端是否发生网页访问行为，该网页访问行为即为用户基于web前端进行网页访问的行为。其中，网页获取指令可以为用户直接基于web前端输入的指令，也可以为基于预设响应条件自动触发的指令，其具体获取方式并不影响本技术方案的实施。

s102：利用预设探测脚本探测目标网站的网页访问行为；

具体的，当预设探测脚本启动后，将会针对目标网站是否发生网页探测行为进行实时探测，其中，该目标网站即为用户所需要访问的网页所属的网站，具体可从网页获取指令中解析获得。

s103：对各网页访问行为对应的被访问网页进行数据采集，获得第一网页数据集。

具体的，当确定目标网站发生有网页访问行为时，可立即对该网页访问行为对应的被访问网页进行数据采集，获得被访问网页的所有数据信息；进一步，将针对该目标网站的所有被访问网页的数据信息生成数据集，即上述第一网页数据集，由此，完成了网页获取。

可以理解的是，上述被访问网页并不受网页类型的限制，不论是孤岛网页还是受到权限控制的网页，基于本申请所提供的技术方案均可实现获取。其中，对于孤岛网页，虽然并未与目标网站中的其他网页建立超链接关系，无法通过网络爬虫技术获取到，但用户可以直接在web前端输入孤岛网页的网址实现对孤岛网页的访问，因此，可通过预设探测脚本实现针对孤岛网页访问行为的探测，获得孤岛网页的数据信息。对于受权限控制的网页，由于网络爬虫不携带权限验证信息，同样也无法实现该类网页的爬取，但用户却可以通过输入权限验证信息实现对受权限控制的网页的访问，因此，同样可通过预设探测脚本实现针对权限类网页访问行为的探测，获得受权限控制的网页的数据信息。当然，对于正常的通过超链接的方法进行访问的网页，上述预设探测脚本同样可以探测到，并实现相应数据的获取。由此，基于以上操作流程，实现了网站中超链接网页，孤岛网页和权限类网页等各类网页的全面获取，有效保证了网页获取的全面性和完整性。

可见，本申请所提供的网页获取方法，由于用户在进行网页访问时，除了正常的基于超链接实现的网页访问之外，还可以通过手动输入网址的方式实现孤岛网页的访问，也可以基于预先获知或注册的权限信息实现受权限控制的网页的访问，因此，可以在前端设置探测脚本对用户的网页访问行为进行探测，进一步对被访问网页进行数据采集，即可获得相应的网页数据，相较于传统的基于网络爬虫的网页获取方式，本申请所提出的技术方案还可实现对孤岛网页以及受权限控制的网页的获取，解决了现有技术中网页获取不完整、不全面的问题，为网站页面管理提供了有效保证。

在上述实施例的基础上，为获得更为全面完整的网页，本申请提供了另一种较为具体的网页获取方法，请参考图2，图2为本申请所提供的另一种网页获取方法的流程示意图，该网页获取方法可包括：

s201：接收网页获取指令；

s202：根据网页获取指令启动预设探测脚本，利用预设探测脚本探测目标网站的网页访问行为，对各网页访问行为对应的被访问网页进行数据采集，获得第一网页数据集；

s203：根据网页获取指令启动云端爬虫，通过云端爬虫进行网页探测，获得第二网页数据集；

s204：对第一网页数据集和第二网页数据集进行合并处理，获得样本网页数据集。

为更进一步的保证网页获取的全面性和完整性，可采用将预设探测脚本和网络爬虫技术相结合的方法。具体的，在接收到网页获取指令后，可一方面基于网页获取指令启动预设探测脚本实现网页数据采集，获得第一网页数据集，另一方面基于网页获取指令启动网络爬虫进行网页爬取，获得第二网页数据集，其中，上述网络爬虫可以采用云端爬虫，云端爬虫为分布式爬虫，可通过接入代理云平台直接进行多线程操作，以有效提高网页采集效率；进一步，将第一网页数据集与第二网页数据集进行合并，即可获得目标网站中更为全面完整的网页数据，即样本网页数据集。

优选的，上述对第一网页数据集和第二网页数据集进行合并处理，获得样本网页数据集，可以包括：计算第一网页数据集和第二网页数据集的并集，获得样本数据集。

本申请提供了一种较为具体的针对数据集的合并处理方法，旨在避免采集的网页出现重复的问题。具体的，由于网页数据的获取采用了多种实现方式来保证网页数据获取的全面性和完整性，但不可避免的，采用多种采集方法结合的方式会使得获取到的网页数据存在数据重复的问题，因此，在进行数据集合并的过程中，可采用求取二者并集的方式实现数据去重处理，以保证样本网页数据集中各个网页数据的唯一性。

对于s201和s202的具体实现过程，可参照上一实施例，本申请在此不再赘述。

在上述各个实施例的基础上，本申请实施例所提供的又一种网页获取方法还可包括：对样本网页数据集中的各个样本网页数据进行漏洞识别，以确定各个样本网页数据是否存在web漏洞。

一般的，在获得网页数据后，还可对其进行进一步的网页处理，具体而言，对网页的有效管理可体现在web漏洞识别以及网页分类上，因此，在前述各个实施例的基础上，本申请实施例旨在基于前述获取的样本网页数据集实现针对目标网站的web漏洞识别。可以理解的是，本实施例旨在更为全面的识别出网站中存在的web漏洞，因此采用了样本网页数据集中的样本网页数据进行web漏洞识别，但并不唯一，同样可以采用上述第一网页数据集或第二网页数据集中的网页数据实现。

其中，web漏洞通常是指网站程序上的漏洞，多是由代码编写者在编写代码时考虑不周全造成的，然而，一旦网站存在web漏洞并被黑客攻击者利用，攻击者便可轻易控制整个网站，并可进一步获取网站服务器权限，控制整个服务器，带来严重的网络危机。因此，需要对网站进行全面准确的web漏洞识别，以保证网络安全。但是，由于传统的网页获取技术存在网页获取不完整、不全面的问题，进而导致网站中的web漏洞识别存在严重的能力不足，使得网络安全无法得以保证。

进一步，由于本申请所提供的网页获取方法可有效保证目标网站中网页获取的完整性，因此，可在基于本申请所提供的网页获取方法获得样本网页数据集之后，对其中的各个样本网页数据进行web漏洞识别，以实现对整个目标网站的全面且准确的web漏洞识别，进而保证网络安全。

当然，对于上述漏洞识别方法，可采用已有技术中的任意一种，例如，可根据实际需求设置不同的web漏洞识别规则，也可根据web漏洞类型的不同设置不同的漏洞识别方法，可以理解的是，其具体实现方法并不影响本技术方案的实施。

更进一步的，在上述实施例的基础上，针对样本网页数据集中的各个样本网页数据，本申请实施例给出了几种更为具体的web漏洞识别方法，具体实现方案请参照如下介绍。

优选的，上述对样本网页数据集中的各个样本网页数据进行漏洞识别，以确定各个样本网页数据是否存在web漏洞，可以包括：将样本网页数据集中的各个样本网页数据与预设漏洞网页数据集中的各个漏洞网页数据进行对比分析，若样本网页数据与漏洞网页数据相同，则判定样本网页数据存在web漏洞。

本实施例所提供的web漏洞识别方法可以通过与漏洞网页数据进行对比分析实现。具体的，可预先建立漏洞网页数据集，即上述预设漏洞网页数据集，其中的漏洞网页数据均为预先采集的、存在web漏洞的网页数据；进一步，将各个样本网页数据与预设漏洞网页数据集中的各个漏洞网页数据进行对比分析，如果某一样本网页数据与预设漏洞网页数据集中的某一漏洞网页数据相同，即可确定该样本网页数据存在web漏洞，也就是说，该样本网页数据为漏洞网页数据。由此，通过数据对照分析的方法实现对样本网页数据的web漏洞识别，有效保证了识别结果的准确性。

优选的，该网页获取方法还可以包括：当确定样本网页数据存在web漏洞时，将存在web漏洞的样本网页数据添加至预设漏洞网页数据集。

具体的，当确定某一样本网页数据存在web漏洞时，即确定该样本网页数据为漏洞网页数据时，可将其存储至上述预设漏洞网页数据集，以将其作为用于实现对比分析的数据进而实现对后续样本网页数据的漏洞识别，进一步提高网站web漏洞识别的全面性。

以上，以预设漏洞网页数据集为例对本申请所提供的漏洞识别方法进行了介绍，可以想到的是，上述用于进行数据对比的网页数据集也可以为预设合格网页数据集。具体的，预设合格网页数据集中的合格网页数据均为不存在web漏洞的网页数据，由此，将样本网页数据集中的各个样本网页数据与各个合格网页数据进行对比，如果某一样本网页数据与预设合格网页数据集中的任一合格网页数据相同，即可确定该样本网页数据不存在web漏洞，也就是说，该样本网页数据为合格网页数据，反之，则为漏洞网页数据。进一步，当确定某一样本网页数据不存在web漏洞时，即确定该样本网页数据为合格网页数据时，同样可将其存储至上述预设合格网页数据集，以将其作为用于实现对比分析的数据进而实现对后续样本网页数据的漏洞识别，同样可提高网站web漏洞识别的全面性。

可以理解的是，上述漏洞网页数据集和合格网页数据集的选择并不唯一，可由技术人员根据实际需求进行设定。对于一个网站而言，其中的漏洞网页数据一般是远远少于合格网页数据的，因此，当采用预设漏洞网页数据集进行数据对比分析时，需要进行对比分析的漏洞网页数据较少，可有效保证web漏洞的识别效率。反之，采用预设合格网页数据集进行数据对比分析时，则可以与所有的合格网页数据进行对比分析，有效保证了web漏洞识别结果的准确率。可见，预设漏洞网页数据集与预设合格网页数据集各有优势，因此，技术人员根据实际需求对其进行选择即可。

优选的，上述将样本网页数据集中的各个样本网页数据与预设漏洞网页数据集中的各个漏洞网页数据进行对比分析，若样本网页数据与漏洞网页数据相同，则判定样本网页数据存在web漏洞，可以包括：将各样本网页数据的页面访问顺序与各漏洞网页数据的页面访问顺序进行对比分析；若页面访问顺序相同，则判定样本网页数据存在web漏洞。

本实施例提供了一种较为具体的关于样本网页数据的对比分析方法，具体而言，网站中网页的访问一般需要经过特定的页面访问顺序实现，如果没有经过特定的网页访问顺序就实现了对某个网页的访问，则该网页必然存在web漏洞。因此，基于该特性，在对样本网页数据与漏洞网页数据进行对比分析时，可将二者的页面访问顺序进行对比，如若二者相同，即可确定该样本网页数据存在web漏洞。其中，网页访问顺序信息可在上述网页获取流程中实现。

更进一步的，由于网站中web漏洞的类型各有不同，因此，对于不同类型的web漏洞，可采用不同的漏洞识别方法实现，基于以上根据页面访问顺序实现web漏洞识别的实现过程，以下对网站中的业务逻辑漏洞和身份识别漏洞的识别方法进行了详细介绍，其具体实现流程可包括：

步骤一、将各样本网页数据的页面访问顺序与各漏洞网页数据的页面访问顺序进行对比分析；

步骤二、若页面访问顺序相同，则判断样本网页数据是否为权限类网页；

步骤三、若样本网页数据为权限类网页，则判定样本网页数据存在身份验证漏洞；

步骤四、若样本网页数据不为权限类网页，则判定样本网页数据存在业务逻辑漏洞。

首先，对网站中的身份识别漏洞和业务逻辑漏洞进行介绍。

其中，业务逻辑漏洞是指由于程序逻辑不严或逻辑太复杂，导致一些逻辑分支不能够正常处理或处理错误的漏洞，一般出现在任意密码修改(没有旧密码验证)、越权访问、密码找回、交易支付金额等情境下。然而，由于业务逻辑漏洞涉及页面访问顺序的问题，而传统web漏洞识别中的网络爬虫爬取网页并不涉及页面访问顺序，仅涉及http请求应答，因此，对于现有技术中业务逻辑漏洞的识别，除存在网页获取不全面的问题外，还存在不易于获取由于网页访问顺序不正常导致的业务逻辑漏洞的问题。

其中，身份验证漏洞是指由于安全配置或权限认证的地址、授权页面等存在缺陷，导致其他用户可以直接访问，从而引发重要权限可被操作、数据库以及网站目录等敏感信息被泄露的漏洞。当然，身份验证漏洞中同样涉及页面访问顺序的问题，例如，用户在访问网站中的某一网页时，实际登录该网页的顺序与正常登录该网页的顺序并不相同，此时，该网页同样存在身份验证漏洞。

进一步，针对以上问题，本申请实施例给出了较为具体的解决办法，具体而言，在进行网页数据对比分析的过程中，可将样本网页数据集中各个样本网页数据的页面访问顺序与预设漏洞网页数据集中各个漏洞网页数据的页面访问顺序进行对比分析，若二者的页面访问顺序相同，再判定该样本网页数据对应的样本网页是否为权限类网页，如果为权限类网页，则说明该样本网页存在身份验证漏洞，如果不为权限类网页，则说明该样本网页存在业务逻辑漏洞。

优选的，上述对样本网页数据集中的各个样本网页数据进行漏洞识别，以确定各个样本网页数据是否存在web漏洞，可以包括：

步骤一、判断样本网页数据是否为权限类网页；

步骤二、若样本网页数据为权限类网页，则对权限类网页发起http请求；

步骤三、判断是否接收到权限类网页根据http请求反馈的登录成功信息；若是，则判定权限类网页存在身份验证漏洞。

本实施例提供了另一种身份验证漏洞识别的方法，具体的，当确定样本网页数据对应的样本网页为权限类网页时，可对该权限类网页发起http请求，如果其不存在身份验证漏洞，则将无法实现网页登陆，该网页也不会反馈登陆成功信息；反之，如果存在身份验证漏洞，则将成功实现网页登录，并且该网页也将基于http请求反馈登陆成功信息。因此，基于该特性，即可通过判断是否接收到权限类网页反馈的登陆成功信息来判定对应的权限类网页是否存在身份验证漏洞。

以上，本申请实施例详细介绍了多种web漏洞识别的实现方式，在技术方案的实施过程中，技术人员根据实际需求进行选择设定即可。可以理解的，以上实现方式也仅为本申请所提供的几种具体实施例，其他类似实现方法同样可以采用，并不影响本技术方案的实施。

在上述各个实施例的基础上，本申请提供了更为具体的web漏洞识别方法，请参考图3，图3为本申请所提供的一种web漏洞识别方法的流程示意图，该web漏洞识别方法可包括：

s301：创建业务数据库和漏洞数据库，对业务数据库和漏洞数据库完成初始化；其中，漏洞数据库对应于上述预设漏洞网页数据集；

s302：通过云端网络爬虫获取样本网页数据；其中，通过http向对应网站发起请求，接收应答响应，并将请求数据和响应数据一同录入至业务数据库；

s303：通过预设探测脚本获取样本网页数据；其中，将样本网页数据的页面访问顺序、请求数据以及响应数据一同录入至业务数据库；

s304：建立样本数据库，将基于云端网络爬虫获取的样本网页数据和基于预设探测脚本获取的样本网页数据录入至样本数据库，并持续性更新样本数据库；其中，样本数据库对应于上述样本网页数据集，其更新过程具体依靠于s302和s303实现；

s305：将样本数据库中的样本网页数据与漏洞数据库中的漏洞网页数据进行对比分析，以确定样本网页数据是否存在web漏洞；其中，web漏洞的识别包括身份验证漏洞识别和业务逻辑漏洞识别；

s306：将存在web漏洞的样本网页数据录入至漏洞数据库。

可见，本申请实施例通过在前端设置探测脚本对用户的网页访问行为进行探测，并对被访问网页进行数据采集获得相应的网页数据，解决了现有技术中网页获取不完整、不全面的问题，为网站页面管理提供了有效保证；进一步，基于获取的网页数据实现网站中的web漏洞识别，以实现对整个网站的全面且准确的web漏洞识别，进而保证网络安全。

下面对本申请实施例提供的网页获取装置进行介绍，下文描述的网页获取装置与上文描述的网页获取方法可相互对应参照。

请参考图4，图4为本申请所提供的一种网页获取装置的结构示意图，该网页获取装置可以包括：

脚本启动模块10，用于根据接收的网页获取指令启动预设探测脚本；

行为探测模块20，用于利用预设探测脚本探测目标网站的网页访问行为；

网页获取模块30，用于对各网页访问行为对应的被访问网页进行数据采集，获得第一网页数据集。

本申请所提供的网页获取装置，由于用户在进行网页访问时，除了正常的基于超链接实现的网页访问之外，还可以通过手动输入网址的方式实现孤岛网页的访问，也可以基于预先获知或注册的权限信息实现受权限控制的网页的访问，因此，可以在前端设置探测脚本对用户的网页访问行为进行探测，进一步对被访问网页进行数据采集，即可获得相应的网页数据，相较于传统的基于网络爬虫的网页获取方式，本申请所提出的技术方案还可实现对孤岛网页以及受权限控制的网页的获取，解决了现有技术中网页获取不完整、不全面的问题，为网站页面管理提供了有效保证。

进一步，请参考图5，图5为本申请所提供的另一种网页获取方法的流程示意图。

在上述实施例的基础上，作为一种优选实施例，本申请所提供的网页获取装置中，还可包括：

爬虫启动模块40，用于根据网页获取指令启动云端爬虫；

网页探测模块50，用于通过云端爬虫进行网页探测，获得第二网页数据集；

样本合并模块60，用于对第一网页数据集和第二网页数据集进行合并处理，获得样本网页数据集。

在上述实施例的基础上，作为一种优选实施例，本申请所提供的网页获取装置中，上述样本合并模块60可具体用于：计算第一网页数据集和第二网页数据集的并集，获得样本数据集。

在上述实施例的基础上，作为一种优选实施例，本申请所提供的网页获取别装置中，还可包括web漏洞识别模块70，用于对样本网页数据集中的各个样本网页数据进行漏洞识别，以确定各个样本网页数据是否存在web漏洞。

在上述实施例的基础上，作为一种优选实施例，本申请所提供的网页获取装置中，上述web漏洞识别模块70可具体用于：将样本网页数据集中的各个样本网页数据与预设漏洞网页数据集中的各个漏洞网页数据进行对比分析，若样本网页数据与漏洞网页数据相同，则判定样本网页数据存在web漏洞。

在上述实施例的基础上，作为一种优选实施例，本申请所提供的网页获取装置中，上述web漏洞识别模块70可包括：

数据对比分析单元，用于将各样本网页数据的页面访问顺序与各漏洞网页数据的页面访问顺序进行对比分析；

web漏洞判定单元，用于若页面访问顺序相同，则判定样本网页数据存在web漏洞。

在上述实施例的基础上，作为一种优选实施例，本申请所提供的网页获取装置中，上述web漏洞识别模块70可包括：

网页属性判断单元，用于判断样本网页数据是否为权限类网页；

权限请求发起单元，用于若样本网页数据为权限类网页，则对权限类网页发起http请求；

身份验证漏洞判定单元，用于判断是否接收到权限类网页根据http请求反馈的登录成功信息；若是，则判定权限类网页存在身份验证漏洞。

对于本申请提供的装置的介绍请参照上述方法实施例，本申请在此不做赘述。

下面对本申请实施例提供的网页获取设备进行介绍，下文描述的网页获取设备与上文描述的网页获取方法可相互对应参照。

请参考图6，图6为本申请所提供的一种网页获取设备的结构示意图，该网页获取设备可以包括：

存储器1，用于存储计算机程序；

处理器2，用于执行上述存储器1存储的计算机程序时可实现上述任意一种网页获取方法的步骤。

对于本申请提供的设备的介绍请参照上述方法实施例，本申请在此不做赘述。

进一步的，本申请实施例还公开了一种计算机可读存储介质，用于存储计算机程序，其中，计算机程序被处理器执行时可实现上述任意一种网页获取方法的步骤。

其中，该计算机可读存储介质可以包括：u盘、移动硬盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。

对于本申请提供的计算机可读存储介质的具体介绍请参照上述方法实施例，本申请在此不做赘述。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的网页获取方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围要素。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王振兴
技术所有人：深信服科技股份有限公司
我是此专利的发明人

上一篇：网站资源的爬取方法、装置、计算机设备和存储介质与流程
上一篇：一种芬顿氧化反应处理装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。