管理web应用中外链的方法及装置制造方法

文档序号:6551382阅读:127来源:国知局
管理web应用中外链的方法及装置制造方法
【专利摘要】本发明涉及一种管理web应用中外链的方法,包括:获取输入的web应用的网络地址;通过网络爬虫递归抓取所述网络地址下包含的内部链接,提取所述网络地址和所述内部链接对应的网页包含的外部链接;抓取所述外部链接对应的网页内容,根据所述网页内容获取所述外部链接对应的类型及链接信息,所述链接信息包括标题、摘要信息和/或其对应的内部链接;展示所述外部链接及其链接信息。此外,还包括一种管理web应用中外链的装置。上述管理web应用中外链的方法及装置能够提高操作的便利性,也为web应用的管理员发现恶意外链提供了便捷。
【专利说明】管理web应用中外链的方法及装置

【技术领域】
[0001] 本发明涉及网络【技术领域】,特别是涉及一种管理web应用中外链的方法及装置。

【背景技术】
[0002] 传统技术中,web应用中的外链即为外部链接的简称,与之相对的即为内部链接。 用户点击内部链接,则web应用返回相应的页面,而若用户点击外部链接,则用户会向该外 部链接对应的服务器发起访问请求。
[0003] 然而,外部链接对应的页面并不属于该web应用,因此其安全性得不到保障。现有 技术中缺乏对web应用中外链的管理手段。当web应用的管理人员希望去了解其web应用 包含有哪些外链时,通常需要管理人员手动去查询web应用的源代码,使得操作的便利性 不足。


【发明内容】

[0004] 基于此,有必要提供一种能提高操作的便利性的管理web应用中外链的方法。
[0005] -种管理web应用中外链的方法,包括:
[0006] 获取输入的web应用的网络地址;
[0007] 通过网络爬虫递归抓取所述网络地址下包含的内部链接,提取所述网络地址和所 述内部链接对应的网页包含的外部链接;
[0008] 抓取所述外部链接对应的网页内容,根据所述网页内容获取所述外部链接对应的 类型及链接信息,所述链接信息包括标题、摘要信息和/或其对应的内部链接;
[0009] 展示所述外部链接及其链接信息。
[0010] 在其中一个实施例中,所述通过网络爬虫递归抓取所述网络地址下包含的内部链 接,提取所述网络地址和所述内部链接对应的网页包含的外部链接的步骤包括:
[0011] 将所述网络地址作为目标地址;
[0012] 遍历提取所述目标地址下包含的链接,判断所述链接是否为内部链接,若是,则将 所述内部链接作为目标地址,并递归执行所述遍历提取所述目标地址下包含的链接的步 骤。
[0013] 在其中一个实施例中,所述抓取所述外部链接对应的网页内容的步骤为:
[0014] 在沙盒环境下抓取所述外部链接对应的网页内容。
[0015] 在其中一个实施例中,所述链接信息还包括外部链接对应的阻止访问状态;
[0016] 所述展示所述外部链接及其链接信息的步骤之后还包括:
[0017] 获取输入的配置指令及其对应的外部链接,根据所述配置指令配置所述外部链接 的阻止访问状态。
[0018] 在其中一个实施例中,所述方法还包括:
[0019] 接收网络访问请求,获取其对应的内链地址,查找所述内链地址包含的外链地址 的阻止访问状态,判断所述阻止访问状态是否为阻止,若是,则将所述网络访问请求重定向 至错误提示页面。
[0020] 此外,还有必要提供一种能提高操作的便利性的管理web应用中外链的装置。
[0021] 一种管理web应用中外链的装置,包括:
[0022] 应用地址获取模块,用于获取输入的web应用的网络地址;
[0023] 外部链接抓取模块,用于通过网络爬虫递归抓取所述网络地址下包含的内部链 接,提取所述网络地址和所述内部链接对应的网页包含的外部链接;
[0024] 链接信息获取模块,用于抓取所述外部链接对应的网页内容,根据所述网页内容 获取所述外部链接对应的类型及链接信息,所述链接信息包括标题、摘要信息和/或其对 应的内部链接;
[0025] 外部链接展示模块,用于展示所述外部链接及其链接信息。
[0026] 在其中一个实施例中,所述外部链接抓取模块还用于将所述网络地址作为目标地 址;遍历提取所述目标地址下包含的链接,判断所述链接是否为内部链接,若是,则将所述 内部链接作为目标地址,并递归遍历提取所述目标地址下包含的链接。
[0027] 在其中一个实施例中,所述链接信息获取模块还用于在沙盒环境下抓取所述外部 链接对应的网页内容。
[0028] 在其中一个实施例中,所述链接信息还包括外部链接对应的阻止访问状态;
[0029] 所述外部链接展示模块还用于获取输入的配置指令及其对应的外部链接,根据所 述配置指令配置所述外部链接的阻止访问状态。
[0030] 在其中一个实施例中,所述装置还包括请求过滤模块,用于接收网络访问请求,获 取其对应的内链地址,查找所述内链地址包含的外链地址的阻止访问状态,判断所述阻止 访问状态是否为阻止,若是,则将所述网络访问请求重定向至错误提示页面。
[0031] 上述管理web应用中外链的方法及装置中,用户只需输入web应用对应的网络地 址,即可通过网络爬虫获取到web应用下所有的外部链接以及相应的链接信息,从而可方 便快捷地了解到该web应用下的外链的安全情况,并根据展示的外链及其链接信息对web 应用中页面上的外面进行修改,而无需手动查阅web应用的源代码,从而提高了操作的便 利性。同时,也为web应用的管理员发现恶意外链提供了便捷。

【专利附图】

【附图说明】
[0032] 图1为一个实施例中管理web应用中外链的方法的流程图;
[0033] 图2为一个实施例中管理web应用中外链的装置的结构示意图;
[0034] 图3为另一个实施例中管理web应用中外链的装置的结构示意图。

【具体实施方式】
[0035] 如图1所示,在一个实施例中,一种管理web应用中外链的方法,该方法的执行依 赖于计算机程序,可运行于基于冯洛伊曼体系的计算机系统上,该计算机系统可以是具有 网关功能的计算机设备。
[0036] 该方法包括:
[0037] 步骤S102,获取输入的web应用的网络地址。
[0038] 在本实施例中,web应用发布在远程服务器上。web应用的网络地址即为部署该 web应用的远程服务器的IP地址或域名。
[0039] 例如,一个小型企业内部可假设有子网,该子网通过运行本方法的网关与外网连 接。远程服务器可以放置于外网的服务器托管中心的机房中。基于web的应用系统(web 应用)可部署在该远程服务器上,部署后通过域名服务商可将该远程服务器的IP地址与相 应的域名绑定,用户通过该域名即可访问该web应用。该方法还可运行于web应用服务器 托管中心的机房所在的网关设备上。部署多个web应用的多个服务器可放置在该机房中, 通过该网关设备构成子网并与外网连接。互联网用户对web应用的访问均需要通过该网关 设备的转发才能抵达相应的web应用服务器。
[0040] 步骤S104,通过网络爬虫递归抓取网络地址下包含的内部链接,提取网络地址和 内部链接对应的网页包含的外部链接。
[0041] 网络爬虫即网络蜘蛛,为一种抓取网页内容的计算机程序。可通过网页的链接地 址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的 其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网 站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络爬虫就可以用这 个原理把互联网上所有的网页都抓取下来。
[0042] 在本实施例中,通过网络爬虫递归抓取网络地址下包含的内部链接,提取网络地 址和内部链接对应的网页包含的外部链接的步骤包括:
[0043] 将网络地址作为目标地址;遍历提取目标地址下包含的链接,判断链接是否为内 部链接,若是,则将内部链接作为目标地址,并递归执行遍历提取目标地址下包含的链接的 步骤。
[0044] 也就是说,网络爬虫在抓取到目标地址对应的网页内容后,提取该网页内容中包 含的全部链接地址,该链接地址包括外部链接和内部链接两种,对于内部链接,则将其作为 目标地址以递归的方式获取其对应的网页内容,提取包含的全部链接地址,而对于外部链 接,则可将其存储在外链数据库中,而无需对其进行递归抓取操作。
[0045] 需要说明的是,可通过比对提取到的链接地址的字符串和输入的web应用的网络 地址的字符串判断是否为提取到的链接地址为内部链接还是外部链接,若提取到的链接地 址的字符串以输入的web应用的网络地址作为起始或以作为起始,则该提取到的 链接地址即为内部链接,反之,则为外部链接。
[0046] 例如,若输入的web应用的网络地址为:www. abc. com,而提取到的链接地址为:./ media/js/globle. js 或 www. abc. com/media/js/globle. js,则提取到的链接地址为内部 链接,而若提取到的链接地址为:http://www. def. com/index. html,则该链接地址为外部 链接。
[0047] 优选的对于后缀为.js、. jpg或.css等资源型的内部链接,可跳过对其进行抓取, 从而节省时间。
[0048] 步骤S106,抓取外部链接对应的网页内容,根据网页内容获取外部链接对应的类 型及链接信息,链接信息包括标题、摘要信息和/或其对应的内部链接。
[0049] 外部链接的类型可包括病毒、钓鱼、赌博、木马、欺诈、恶意广告和友情链接等。在 本实施例中,可根据抓取到的外部链接对应的网页内容中包含的关键字来判断该外部链接 的类型。
[0050] 例如,若抓取到的外部链接对应的网页内容中包含有"私服"、"推广"等关键字,则 可判定该外部链接为游戏推广的恶意链接,其类型即为恶意广告,若其网页内容中包含有 "六合彩"、"投注"等关键字,则可判定该外部链接对应赌博网站,其类型即为赌博。
[0051] 优选的,还可在沙盒环境下抓取外部链接对应的网页内容。沙盒(sandbox)环境 即沙箱环境,计算机程序可在沙箱环境中独立运行,而不会对沙盒外的内存空间或存储空 间产生影响。在沙盒环境下抓取外部链接可避免抓取到的网页内容中的恶意程序造成危 害,从而提高安全性。
[0052] 在本实施例中,还可预先根据url库判断外部链接的类型。例如,可在病毒库或木 马库中查找该外部链接,若存在,则该外部链接的类型即为病毒或木马。
[0053] 步骤S108,展示外部链接及其链接信息。
[0054] 如表1所示:
[0055] 表 1
[0056]

【权利要求】
1. 一种管理web应用中外链的方法,包括: 获取输入的web应用的网络地址; 通过网络爬虫递归抓取所述网络地址下包含的内部链接,提取所述网络地址和所述内 部链接对应的网页包含的外部链接; 抓取所述外部链接对应的网页内容,根据所述网页内容获取所述外部链接对应的类型 及链接信息,所述链接信息包括标题、摘要信息和/或其对应的内部链接; 展示所述外部链接及其链接信息。
2. 根据权利要求1所述的管理web应用中外链的方法,其特征在于,所述通过网络爬虫 递归抓取所述网络地址下包含的内部链接,提取所述网络地址和所述内部链接对应的网页 包含的外部链接的步骤包括: 将所述网络地址作为目标地址; 遍历提取所述目标地址下包含的链接,判断所述链接是否为内部链接,若是,则将所述 内部链接作为目标地址,并递归执行所述遍历提取所述目标地址下包含的链接的步骤。
3. 根据权利要求1所述的管理web应用中外链的方法,其特征在于,所述抓取所述外部 链接对应的网页内容的步骤为: 在沙盒环境下抓取所述外部链接对应的网页内容。
4. 根据权利要求1所述的管理web应用中外链的方法,其特征在于,所述链接信息还包 括外部链接对应的阻止访问状态; 所述展示所述外部链接及其链接信息的步骤之后还包括: 获取输入的配置指令及其对应的外部链接,根据所述配置指令配置所述外部链接的阻 止访问状态。
5. 根据权利要求4所述的管理web应用中外链的方法,其特征在于,所述方法还包括: 接收网络访问请求,获取其对应的内链地址,查找所述内链地址包含的外链地址的阻 止访问状态,判断所述阻止访问状态是否为阻止,若是,则将所述网络访问请求重定向至错 误提示页面。
6. -种管理web应用中外链的装置,其特征在于,包括: 应用地址获取模块,用于获取输入的web应用的网络地址; 外部链接抓取模块,用于通过网络爬虫递归抓取所述网络地址下包含的内部链接,提 取所述网络地址和所述内部链接对应的网页包含的外部链接; 链接信息获取模块,用于抓取所述外部链接对应的网页内容,根据所述网页内容获取 所述外部链接对应的类型及链接信息,所述链接信息包括标题、摘要信息和/或其对应的 内部链接; 外部链接展示模块,用于展示所述外部链接及其链接信息。
7. 根据权利要求6所述的管理web应用中外链的装置,其特征在于,所述外部链接抓取 模块还用于将所述网络地址作为目标地址;遍历提取所述目标地址下包含的链接,判断所 述链接是否为内部链接,若是,则将所述内部链接作为目标地址,并递归遍历提取所述目标 地址下包含的链接。
8. 根据权利要求6所述的管理web应用中外链的装置,其特征在于,所述链接信息获取 模块还用于在沙盒环境下抓取所述外部链接对应的网页内容。
9. 根据权利要求6所述的管理web应用中外链的装置,其特征在于,所述链接信息还包 括外部链接对应的阻止访问状态; 所述外部链接展示模块还用于获取输入的配置指令及其对应的外部链接,根据所述配 置指令配置所述外部链接的阻止访问状态。
10. 根据权利要求9所述的管理web应用中外链的装置,其特征在于,所述装置还包括 请求过滤模块,用于接收网络访问请求,获取其对应的内链地址,查找所述内链地址包含的 外链地址的阻止访问状态,判断所述阻止访问状态是否为阻止,若是,则将所述网络访问请 求重定向至错误提示页面。
【文档编号】G06F21/56GK104102697SQ201410302298
【公开日】2014年10月15日 申请日期:2014年6月27日 优先权日:2014年6月27日
【发明者】曾加良 申请人:深信服网络科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1