一种网页扫描方法、装置和系统的制作方法

文档序号:7771264阅读:427来源:国知局
一种网页扫描方法、装置和系统的制作方法
【专利摘要】本发明实施方式公开了一种网页扫描方法,该方法包括:接收目标域名;通过代理服务器访问所述目标域名,在所述目标域名的身份认证过程中接收身份认证信息,并在身份认证通过后记录访问所述目标域名所使用的会话标识;利用该会话标识来供网页扫描器访问所述目标域名并执行网页扫描。相应的,本发明实施方式还公开了一种网页扫描的装置和系统。通过本发明实施方式提供的网页扫描方法、装置和系统,可以解决扫描器集成平台中由采用CAPTCHA等技术的身份认证方式而导致的登录困难问题。
【专利说明】一种网页扫描方法、装置和系统

【技术领域】
[0001] 本发明涉及计算机网络安全【技术领域】,特别是涉及一种网页扫描的方法、装置和 系统。

【背景技术】
[0002] 网页扫描器(Web Scanner)有助于识别网络应用的安全弱点。当前,可以由多个 网页扫描器执行网络安全扫描,通过比较和集成这些不同网页扫描工具的扫描结果,可以 得到更加准确的扫描结果。因此,通常向企业提供可以集成不同类型网页扫描器产品的集 成平台。对于用户而言,集成平台看起来就像是一个单独的扫描器。实际上,集成平台与多 个扫描器相交互,驱动它们扫描目标网页,收集和分析结果,并且提供最终报告。
[0003] 许多网站针对重要页面予以保护以防止未授权访问。对于扫描器而言,能够支持 经过鉴权的扫描非常重要。举例来说,如果没有经过鉴权,网页扫描器只能够访问大部分网 站的登录页面,而无法登陆网站对全部网页执行安全扫描。支持经过鉴权的扫描的主要困 难在于如何登录进入受到图灵测试(CAPTCHA)技术保护的网站以进行扫描。网站可以通过 多种方式实施CAPTCHA技术,比如显示失真数字的动态图像、短语发音或由数个文本和数 字组成的小提问。如,在用户访问网站时,向用户呈现动态图像,用户需要正确地输入图 像中的数字才可以登录进入网站。
[0004] 对于传统的单机网页扫描器,可向用户弹出呈现动态图像的窗口提示用户输入正 确信息。然而,对于集成有多个网页扫描器的集成平台,这需要用户与每个网页扫描器进行 交互,而且通常这种交互过程仅针对该网页扫描器才有效。不仅于此,许多网页扫描器界面 甚至还不支持这种弹出窗口并交互的功能。因此,目前在集成有多个网页扫描器的集成平 台中尚未很好地解决由采用CAPTCHA等技术的身份认证方式而导致的登录问题。


【发明内容】

[0005] 本发明实施方式提出一种网页扫描的方法、装置和系统,以解决扫描器集成平台 中由采用CAPTCHA等技术的身份认证方式而导致的登录困难问题。
[0006] 根据本发明实施方式的网页扫描方法,该方法包括:
[0007] 接收目标域名;
[0008] 通过代理服务器访问所述目标域名,在所述目标域名的身份认证过程中接收身份 认证信息,并在身份认证通过后记录访问所述目标域名所使用的会话标识;
[0009] 利用该会话标识来供网页扫描器访问所述目标域名并执行网页扫描。
[0010] 根据本发明的一个方面,所述利用该会话标识来供网页扫描器访问所述目标域名 并执行网页扫描包括:
[0011] 向所述网页扫描器提供所述代理服务器记录的会话标识,以供所述网页扫描器应 用所述会话标识直接访问所述目标域名并执行网页扫描。
[0012] 根据本发明的另一个方面,所述利用该会话标识来供网页扫描器访问所述目标域 名并执行网页扫描包括:
[0013] 通过所述代理服务器向所述目标域名发送所述网页扫描器的访问请求,以供所述 网页扫描器通过所述代理服务器访问所述目标域名并执行网页扫描,其中,所述网页扫描 器的访问请求中的会话标识被替换为所述代理服务器记录的会话标识。
[0014] 根据本发明的一个方面,该方法进一步包括:生成与所述目标域名相对应的扫描 任务标识;
[0015] 记录与所述目标域名相对应的扫描任务标识以及与该扫描任务标识相对应的网 页扫描器IP地址列表;
[0016] 所述利用该会话标识来供网页扫描器访问所述目标域名并执行网页扫描进一步 包括:利用与该扫描任务标识相对应的会话标识来供与该扫描任务标识相对应的网页扫描 器访问所述目标域名并执行网页扫描。
[0017] 根据本发明的另一个方面,该方法进一步包括:在网页扫描停止或结束之后,删除 所述所记录的会话标识。
[0018] 根据本发明的另一个方面,所述身份认证信息包括用户名、密码和图灵测试 CAPTCHA验证信息。
[0019] 根据本发明实施方式的网页扫描装置,该装置包括目标域名接收单元、会话标识 记录单元和目标域名访问支持单元,其中:
[0020] 目标域名接收单元,用于接收目标域名;
[0021 ] 会话标识记录单元,用于通过代理服务器访问所述目标域名,在所述目标域名的 身份认证过程中接收身份认证信息,并在身份认证通过后记录访问所述目标域名所使用的 会话标识;
[0022] 目标域名访问支持单元,用于利用所述会话标识来供网页扫描器访问所述目标域 名并执行网页扫描。
[0023] 根据本发明的一个方面,所述目标域名访问支持单元,具体用于向网页扫描器提 供所述会话标识,以供所述网页扫描器应用所述会话标识直接访问所述目标域名并执行网 页扫描。
[0024] 根据本发明的另一个方面,所述目标域名访问支持单元,具体用于接收网页扫描 器的目标域名访问请求,将该访问请求中的会话标识替换为所述会话标识记录单元记录的 会话标识,以供所述网页扫描器通过所述代理服务器访问所述目标域名并执行网页扫描。
[0025] 根据本发明的一个方面,所述装置进一步包括:
[0026] 扫描任务标识生成单元,用于生成与所述目标域名接收单元接收的目标域名相对 应的扫描任务标识,并为该扫描任务标识关联对应的网页扫描器;
[0027] 会话标识记录单元,进一步用于记录与所述目标域名相对应的扫描任务标识以及 与该扫描任务标识相对应的网络扫描器IP地址列表;
[0028] 目标域名访问支持单元,进一步用于利用与该扫描任务标识相对应的会话标识来 供与该扫描任务标识相对应的网页扫描器访问目标域名并执行网页扫描。
[0029] 根据本发明的一个方面,所述会话标识记录单元,进一步用于在网页扫描停止或 结束之后,删除所记录的会话标识。
[0030] 根据本发明实施方式的网页扫描系统,包括至少两个网页扫描器、统一接口和代 理服务器;其中:
[0031] 所述统一接口,用于接收目标域名,并向用户提供所述代理服务器的网络地址;
[0032] 所述代理服务器,用于以代理方式访问所述目标域名,在所述目标域名的身份认 证过程中接收身份认证信息,并在身份认证通过后记录访问所述目标域名所使用的会话标 识;
[0033] 所述每个网页扫描器,用于通过所述代理服务器访问所述目标域名并执行网页扫 描;
[0034] 所述代理服务器,进一步用于将所述网页扫描器的目标域名访问请求中的会话标 识替换为其所记录的会话标识。
[0035] 根据本发明实施方式的网页扫描系统,包括至少两个网页扫描器、统一接口和代 理服务器;其中:
[0036] 所述统一接口,用于接收目标域名,并向用户提供所述代理服务器的网络地址;
[0037] 所述代理服务器,用于以代理方式访问所述目标域名,在所述目标域名的身份认 证过程中接收身份认证信息,并在身份认证通过后记录访问所述目标域名所使用的会话标 识;
[0038] 所述每个网页扫描器,用于利用所述代理服务器记录的会话标识直接访问所述目 标域名并执行网页扫描。
[0039] 从上述技术方案可以看出,在发明实施方式中,通过代理服务器访问目标域名,在 该目标域名的身份认证过程中接收身份认证信息,并在身份认证通过后记录访问该目标域 名所使用的会话标识,从而可利用该会话标识来供网页扫描器对目标域名执行网页扫描。 本发明实施方式通过巧妙地运用代理服务机制,提供了一种网页扫描中的集中鉴权方法, 能够解决扫描器集成平台进行网页扫描时由目标域名服务器的身份认证过程而导致的登 录问题。
[0040] 而且,本发明实施方式可基于广泛采用的HTTP协议以及HTTP代理机制,实施后可 以集成多种类型的网页扫描器,因此具有极大的实用性,并可以节约成本。
[0041] 此外,本发明实施方式还可以根据扫描任务标识来区分相应扫描任务,因此本发 明实施方式还适用于多用户多任务的应用环境中。

【专利附图】

【附图说明】
[0042] 图1为根据本发明实施方式的网页扫描的方法示意图;
[0043] 图2为根据本发明实施方式的提取会话标识(Session identifier)的流程示意 图;
[0044] 图3为根据本发明实施方式的网页扫描的流程示意图;
[0045] 图4为根据本发明实施方式的数据删除流程示意图;
[0046] 图5为根据本发明实施方式的网页扫描的装置结构示意图;
[0047] 图6为根据本发明实施方式的网页扫描的系统结构示意图。

【具体实施方式】
[0048] 为了使本发明的技术方案及优点更加清楚明白,以下结合附图及实施方式,对本 发明进行进一步详细说明。应当理解,此处所描述的【具体实施方式】仅仅用以阐述性说明本 发明,并不用于限定本发明的保护范围。
[0049] 在本发明实施方式中提出一种网页扫描方案,以解决扫描器集成平台在执行网页 扫描时由采用CAPTCHA等技术的身份认证方式而导致的登录问题,而无需对扫描器集成平 台中各个扫描器的接口进行改变。
[0050] 图1为根据本发明实施方式的网页扫描的方法流程图。
[0051] 如图1所示,该方法包括:
[0052] 步骤101 :接收目标域名。
[0053] 当用户期望通过扫描器集成平台扫描某个网页时,用户可以通过扫描器集成平台 的用户界面输入该网页的域名地址(比如URL),该网页的域名地址即为目标域名。扫描器集 成平台可由用户界面接收目标域名。
[0054] 收到目标域名后,扫描器集成平台可向该用户返回代理服务器的网络地址,以供 用户通过代理服务器访问目标域名。在这里,可以通过扫描器集成平台的用户界面向用户 提供代理服务器的网络地址。
[0055] 或者可选的,扫描器集成平台可通过一客户端在用户处自动启动网页浏览器等应 用程序,使用户通过代理服务器访问目标域名。
[0056] 步骤102 :通过代理服务器访问目标域名,其中在该目标域名的身份认证过程中 接收身份认证信息,并在身份认证通过后记录访问该目标域名所使用的会话标识。
[0057] 优选地,身份认证信息包括CAPTCHA验证信息。
[0058] 在这里,用户可以根据扫描器集成平台用户界面所提供的代理服务器网络地址通 过代理服务器访问目标域名。在用户通过代理服务器访问目标域名的过程中,目标域名服 务器提示用户进行身份认证。以采用CAPTCHA技术的身份认证方式为例,比如目标域名服 务器会提示用户提供CAPTCHA答案、用户名和密码等信息。代理服务器可以利用用户提供 的CAPTCHA答案、用户名和密码等信息完成针对目标域名的身份认证。在身份认证通过后, 代理服务器可以提取由目标域名服务器提供的、用于后续访问目标域名的会话标识,而且 可以在代理服务器中保存该会话标识。
[0059] 虽然上述以采用CAPTCHA技术的身份认证方式为例对本发明的实施方式进行了 说明。本领域技术人员可以意识到,这种说明是示范性的,本发明实施方式所提供的网页扫 描方法还可以用于采用其它方式对用户的身份进行认证的网页扫描中。
[0060] 步骤103 :利用该会话标识来供网页扫描器对目标域名执行网页扫描。
[0061] 在代理服务器获取了访问目标域名所使用的会话标识后,各网页扫描器便可利用 该会话标识访问目标域名,并对目标域名执行网页扫描。
[0062] 在一个实施方式中,扫描器集成平台中的各网页扫描器可以从代理服务器获取该 会话标识,并应用该会话标识直接访问目标域名。
[0063] 在另一个实施方式中,各网页扫描器可以向代理服务器发送目标域名访问请求, 代理服务器将网页扫描器的目标域名访问请求中的会话标识替换为其所记录的会话标识。 从而,各网页扫描应用可以通过代理服务器访问目标域名。
[0064] 优选地,扫描器集成平台驱动各扫描器开始扫描,同时扫描器集成平台向各扫描 器提供代理服务器参数和/或会话标识。扫描器集成平台可判断各扫描器是否支持设置会 话标识,如果支持设置会话标识,则扫描器集成平台驱动该扫描器利用该会话标识直接访 问目标域名;如果不支持设置会话标识,则扫描器集成平台驱动该扫描器通过代理服务器 访问目标域名,并由代理服务器来替换扫描器目标域名访问请求中的会话标识。在实际应 用中,大部分扫描器都支持设置代理服务器的功能,但是仅少数扫描器支持设置会话标识 的功能。
[0065] 进一步地,可以基于上述流程实现多用户多扫描任务的协调分工。优选地,可以由 扫描器集成平台进一步生成与目标域名相对应的扫描任务标识。扫描任务标识用于标识扫 描任务,优选是唯一的。每个扫描任务标识对应于一个扫描任务,一个用户或多个用户可以 发起多个扫描任务,而且每个扫描任务可以具体由多个网页扫描器来执行。
[0066] 由扫描器集成平台生成与目标域名相对应的扫描任务标识之后,可以向代理服务 器发送并保存该扫描任务标识以及与该扫描任务标识相对应的网页扫描器IP地址列表。 [0067] 此时,网页扫描器IP地址列表中的网页扫描器可以从代理服务器获取访问目标 域名所需的会话标识,并应用该会话标识直接访问目标域名。或者,网页扫描器IP地址列 表中的网页扫描器向代理服务器发送目标域名访问请求,代理服务器将该目标域名访问请 求中的会话标识替换为其所记录的会话标识。从而,网页扫描器IP地址列表中的网页扫描 器可以通过代理服务器访问目标域名。
[0068] 由此可见,本发明实施方式通过巧妙地运用代理服务机制,提供了一种网页扫描 中的集中鉴权方法,能够解决扫描器集成平台进行网页扫描时由目标域名服务器的身份认 证过程而导致的登录问题。进一步地,通过为针对各目标域名的不同扫描任务生成扫描任 务标识,还可实现多用户多扫描任务的协调分工。
[0069] 基于上述流程,下面详细描述本发明实施方式的示范性具体实施。
[0070] 图2为根据本发明实施方式的提取会话标识(Session identifier)的流程示意 图。
[0071] 如图2所示,在该流程中,
[0072] 步骤0 :当用户期望通过扫描器集成平台扫描某个网页时,用户可以向扫描器集 成平台的用户界面输入该网页的URL (比如为http://www. example, com)。
[0073] 步骤la :扫描器集成平台生成唯一的扫描任务标识(TOKEN),并可将该扫描任务 标识与目标URL相附加以形成变换后的URL,然后提示用户通过代理服务器访问变换后的 URL。扫描器集成平台可以将代理服务器的IP地址以及变换后的URL发送给用户。
[0074] t匕如,目标网页 URL 为 http://www. example, com ;变换后的 URL 为 http://www. example. com/?id=T0KEN ;在具体应用场景中,TOKEN可以是一个固定长度的随机串。
[0075] 步骤lb :扫描器集成平台将该TOKEN以及目标网页URL发送到代理服务器。
[0076] 步骤2a :用户向代理服务器发送针对变换后URL的访问请求。其中代理服务器收 到用户发起的该访问请求后,将向目标URL发送访问请求。在访问过程中,目标URL需要用 户提供CAPTCHA答案、用户名和密码等信息以进行身份认证。用户可以通过代理服务器提 供CAPTCHA答案、用户名和密码等信息,以完成身份认证。当用户成功完成身份认证之后, 用户可以关闭网页浏览器并且命令扫描器集成平台开始扫描。
[0077] 步骤2b :在用户身份认证通过后,代理服务器可保存访问目标域名所使用的会话 标识。
[0078] 具体地,代理服务器可首先解析针对目标URL且包含有TOKEN的HTTP请求。如果 在HTTP请求中检索出TOKEN,意味着用户准备登录目标URL,此时可以记录用户的IP地址, 并且可以分析该用户IP地址与目的URL之间的所有HTTP数据包以解析出会话标识。
[0079] 比如,当用户通过代理服务器访问http://www. example. com/?id=T0KEN时,代理 服务器可以识别出该TOKEN,而且记录下用户IP地址以及目标URL(www. example, com)。之 后,在该用户IP地址和目标URL之间交互的所有HTTP数据包都可以被解析,以解析出会话 标识。
[0080] 更具体地,用户起始通过代理服务器向目标域名发送的HTTP请求具有下列格式:

【权利要求】
1. 一种网页扫描方法,该方法包括: 接收目标域名; 通过代理服务器访问所述目标域名,在所述目标域名的身份认证过程中接收身份认证 信息,并在身份认证通过后记录访问所述目标域名所使用的会话标识; 利用该会话标识来供网页扫描器访问所述目标域名并执行网页扫描。
2. 根据权利要求1所述的网页扫描方法,其特征在于,所述利用该会话标识来供网页 扫描器访问所述目标域名并执行网页扫描包括: 向所述网页扫描器提供所述代理服务器记录的会话标识,W供所述网页扫描器应用所 述会话标识直接访问所述目标域名并执行网页扫描。
3. 根据权利要求1所述的网页扫描方法,其特征在于,所述利用该会话标识来供网页 扫描器访问所述目标域名并执行网页扫描包括: 通过所述代理服务器向所述目标域名发送所述网页扫描器的访问请求,W供所述网页 扫描器通过所述代理服务器访问所述目标域名并执行网页扫描,其中,所述网页扫描器的 访问请求中的会话标识被替换为所述代理服务器记录的会话标识。
4. 根据权利要求1所述的网页扫描方法,其特征在于,该方法进一步包括:生成与所述 目标域名相对应的扫描任务标识; 记录与所述目标域名相对应的扫描任务标识W及与该扫描任务标识相对应的网页扫 描器IP地址列表; 所述利用该会话标识来供网页扫描器访问所述目标域名并执行网页扫描进一步包括: 利用与该扫描任务标识相对应的会话标识来供与该扫描任务标识相对应的网页扫描器访 问所述目标域名并执行网页扫描。
5. 根据权利要求1-4中任一项所述的网页扫描方法,其特征在于,该方法进一步包括: 在网页扫描停止或结束之后,删除所述所记录的会话标识。
6. 根据权利要求1-4中任一项所述的网页扫描方法,其特征在于,所述身份认证信息 包括用户名、密码和图灵测试CAPTCHA验证信息。
7. -种网页扫描装置,该装置包括目标域名接收单元、会话标识记录单元和目标域名 访问支持单元,其中: 目标域名接收单元,用于接收目标域名; 会话标识记录单元,用于通过代理服务器访问所述目标域名,在所述目标域名的身份 认证过程中接收身份认证信息,并在身份认证通过后记录访问所述目标域名所使用的会话 标识; 目标域名访问支持单元,用于利用所述会话标识来供网页扫描器访问所述目标域名并 执行网页扫描。
8. 根据权利要求7所述的网页扫描装置,其特征在于, 所述目标域名访问支持单元,具体用于向网页扫描器提供所述会话标识,W供所述网 页扫描器应用所述会话标识直接访问所述目标域名并执行网页扫描。
9. 根据权利要求7所述的网页扫描装置,其特征在于, 所述目标域名访问支持单元,具体用于接收网页扫描器的目标域名访问请求,将该访 问请求中的会话标识替换为所述会话标识记录单元记录的会话标识,W供所述网页扫描器 通过所述代理服务器访问所述目标域名并执行网页扫描。
10. 根据权利要求7所述的网页扫描装置,其特征在于,所述装置进一步包括: 扫描任务标识生成单元,用于生成与所述目标域名接收单元接收的目标域名相对应的 扫描任务标识,并为该扫描任务标识关联对应的网页扫描器; 会话标识记录单元,进一步用于记录与所述目标域名相对应的扫描任务标识W及与该 扫描任务标识相对应的网络扫描器IP地址列表; 目标域名访问支持单元,进一步用于利用与该扫描任务标识相对应的会话标识来供与 该扫描任务标识相对应的网页扫描器访问目标域名并执行网页扫描。
11. 根据权利要求7所述的网页扫描装置,其特征在于, 所述会话标识记录单元,进一步用于在网页扫描停止或结束之后,删除所记录的会话 标识。
12. -种网页扫描系统,包括至少两个网页扫描器、统一接口和代理服务器;其中: 所述统一接口,用于接收目标域名,并向用户提供所述代理服务器的网络地址; 所述代理服务器,用于W代理方式访问所述目标域名,在所述目标域名的身份认证过 程中接收身份认证信息,并在身份认证通过后记录访问所述目标域名所使用的会话标识; 所述每个网页扫描器,用于通过所述代理服务器访问所述目标域名并执行网页扫描; 所述代理服务器,进一步用于将所述网页扫描器的目标域名访问请求中的会话标识替 换为其所记录的会话标识。
13. -种网页扫描系统,包括至少两个网页扫描器、统一接口和代理服务器;其中: 所述统一接口,用于接收目标域名,并向用户提供所述代理服务器的网络地址; 所述代理服务器,用于W代理方式访问所述目标域名,在所述目标域名的身份认证过 程中接收身份认证信息,并在身份认证通过后记录访问所述目标域名所使用的会话标识; 所述每个网页扫描器,用于利用所述代理服务器记录的会话标识直接访问所述目标域 名并执行网页扫描。
【文档编号】H04L29/06GK104468485SQ201310435962
【公开日】2015年3月25日 申请日期:2013年9月23日 优先权日:2013年9月23日
【发明者】汪涛, 胡建钧 申请人:西门子公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1