一种网络安全检测方法、系统、电子设备和介质与流程

文档序号:17771695发布日期:2019-05-28 19:30阅读:257来源:国知局
一种网络安全检测方法、系统、电子设备和介质与流程

本申请涉及一种网络安全检测方法、系统、电子设备和介质。



背景技术:

随着互联网技术的发展和广泛应用,给人们的生活带来了诸多便利,网络已经和人们的生活息息相关,因此网络安全受到了越来越多的关注和重视。

网站是人们通过网络进行的一项重要获取咨询的渠道,但网站存在着各种安全隐患。例如木马、跨站脚本攻击、cookie中毒等。目前的技术中,通常通过针对网站安全的检测方法,例如基于爬虫技术抓取待检测网站中包含的网页的统一资源定位符(uniformresourcelocator,url),通过对待检测网站中包含的网页统一资源定位符进行安全检测,发现安全隐患。

但由于孤岛页面的存在,包含孤岛页面的网站中并没有链接指向此孤岛页面,基于页面链接进行爬取的方法无法发现这些孤岛页面。攻击者往往将孤岛页面放到搜索权重较高的网站上,然后在孤岛页面里添加各种链接,以提高这些链接的搜索排名,或者在孤岛页面中加入直接跳转到恶意网站的代码,然后将此孤岛页面的链接植入其他页面中。孤岛页面的域名属于一个正常的网站,因此可以躲避对恶意域名的安全检查。



技术实现要素:

本申请的一个方面提供了一种网络安全检测方法,所述方法包括:获取待检测网站中包含的所有链接对应的网页统一资源定位符,得到第一统一资源定位符集合;通过搜索引擎获取属于所述待检测网站的所有链接对应的网页统一资源定位符,得到第二统一资源定位符集合;判断所述第二统一资源定位符集合中是否包含不存在于所述第一统一资源定位符集合中的元素,若是,发出告警提示。

可选地,所述获取待检测网站中包含的所有链接对应的网页统一资源定位符,包括:通过分布式网站爬虫爬取所述待检测网站中包含的所有同站链接对应的网页,提取所述网页的统一资源定位符。

可选地,所述通过搜索引擎获取属于所述待检测网站的所有链接对应的网页统一资源定位符,包括:通过搜索引擎接口获取属于所述待检测网站的所有链接对应的网页统一资源定位符。

可选地,所述通过搜索引擎获取属于所述待检测网站的所有链接对应的网页统一资源定位符,包括:通过搜索引擎爬虫获取属于所述待检测网站的所有链接对应的网页统一资源定位符。

可选地,所述通过搜索引擎获取属于所述待检测网站的所有链接对应的网页统一资源定位符,包括:通过site语句固定搜索引擎查找内容进行所述待检测网站的所有链接对应的网页统一资源定位符的获取。

可选地,在所述发出告警提示之前,还包括:判断所述不存在于所述第一统一资源定位符集合中的元素所对应的网页是否存在,若是,对所述元素对应的网页进行安全性判别,识别出特征网页。

可选地,所述对所述元素对应的网页进行安全性判别,识别出特征网页,包括:通过机器学习模型对所述元素对应的网页进行安全性判别,识别出特征网页。

本申请另一个方面提供了一种网络安全检测系统,所述系统包括:第一获取模块,用于获取待检测网站中包含的所有链接对应的网页统一资源定位符,得到第一统一资源定位符集合;第二获取模块,用于通过搜索引擎获取属于所述待检测网站的所有链接对应的网页统一资源定位符,得到第二统一资源定位符集合;判断提示模块,用于判断所述第二统一资源定位符集合中是否包含不存在于所述第一统一资源定位符集合中的元素,若是,发出告警提示。

本申请又一个方面提供了一种电子设备,所述设备包括:处理器;存储器,其存储有计算机可执行程序,该程序在被所述处理器执行时,使得所述处理器执行如上文所述的网络安全检测方法。

本申请再一个方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上文所述的网络安全检测方法。

附图说明

为了更完整地理解本申请及其优势,现在将参考结合附图的以下描述,其中:

图1示意性示出了本申请实施例提供的网络安全检测方法的方法流程图;

图2示意性示出了本申请实施例提供的网络安全检测方法的框图;

图3示意性示出了本申请实施例提供的网络安全检测系统框图;

图4示意性示出了根据本申请实施例提供的电子设备框图。

具体实施方式

以下,将参照附图来描述本申请的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本申请的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本申请实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。

在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本申请。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在说明本申请实施例的具体实施过程之前,对本申请实施例所涉及到的名词进行说明。其中,下文中所述的孤岛页面是指一个网站中的其他任何页面都没有链接可以到达这个页面,例如孤岛页面属于a网站,但a网站中不存在任何链接可以达到该孤岛页面,而其他不属于a网站的例如b网站则可链接到该孤岛页面,因此孤岛页面可以隐藏自身从而对仅a网站通过爬虫技术无法发现该孤岛页面。爬虫技术是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,可以采集所有其能够访问到的页面内容。通常所述爬虫指从一个或若干初始网页的网页统一资源定位符url开始,获得初始网页上包含的url(即初始网页中所有链接指向的网页,这些网页所对应的url),在抓取网页的过程中,不断从当前页面上抽取新的url放入队列,直到满足系统的一定停止条件。

本申请的一个实施例提供了一种网络安全检测方法,参见图1和图2,所述方法包括步骤s101~步骤s103的内容:

步骤s101,获取待检测网站中包含的所有链接对应的网页统一资源定位符,得到第一统一资源定位符集合。

在一个可选的方式中,获取步骤s101中所述的网页统一资源定位符的步骤可以通过分布式网站爬虫爬取所述待检测网站中包含的所有同站链接对应的网页,提取所述网页的统一资源定位符进行实现。

其中,分布式网站爬虫包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似,其可以实现从一个网站上下载网页,并把网页保存在本地的磁盘,从中抽取url并沿着这些url的指向继续爬行。由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的url发送给其他爬虫。

在本申请实施例中,通过分布式网站爬虫爬取所述待检测网站中包含的所有链接对应的网页的过程,是对网站站内的所有链接进行爬取url。本领域技术人员可以理解的是,在一个初始的网站中,通常会为用户呈现一个初始页面,该初始页面中包含多个以图片或者文字等方式呈现的链接,用户可以通过点击该初始页面上的这些链接转入不同的其他页面,其他页面中同样又会包含更多个不同的链接,因此通过分布式网站爬虫爬取待检测网站中包含的所有链接,也包含这些其余页面中的各种链接,直至链接所到达的页面中不再包含其余链接为止。将这些所有存在的链接指向的页面所对应的url收集,可以形成一个以该网站站内所有链接组成的url集合。

步骤s102,通过搜索引擎获取属于所述待检测网站的所有链接对应的网页统一资源定位符,得到第二统一资源定位符集合。

在一个可选的方式中,获取步骤s101中所述的网页统一资源定位符,可以通过搜索引擎接口获取属于所述待检测网站的所有链接对应的网页统一资源定位符的方式进行实现。

根据不同的搜索引擎,可以通过获取搜索引擎api对网站url进行提取,其中api为应用程序接口(applicationprogramminginterface),例如通过谷歌api″http://www.google.com.search″可以调用谷歌搜索引擎。

其中,在通过搜索引擎接口进行调用搜索引擎时,可以通过site语句固定搜索引擎查找内容进行所述待检测网站的所有链接对应的网页统一资源定位符的获取。例如通过site语句把搜索范围限定在特定站点中,如site:待检测网站.com。

由此搜索得到的网页均属于该待检测网站,

例如http://www.待检测网站.com/aa.1d

http://www.待检测网站.com/aa.2d

http://www.待检测网站.com/aa.3d

可以看出,这些网页均属于待检测网站。将通过调用搜索引擎得到的所有这些网页所对应的url进行收集,得到一个以属于待检测网站的url集合。

在一个可选的方式中,获取步骤s101中所述的网页统一资源定位符,可以通过搜索引擎爬虫获取属于所述待检测网站的所有链接对应的网页统一资源定位符的方式进行实现。

通过搜索引擎爬虫的方式,即可直接利用例如百度、谷歌等搜索引擎进行待检测网站的搜索,同样地,通过site语句固定搜索引擎查找内容进行所述待检测网站的所有链接对应的网页统一资源定位符的获取。通过site语句把搜索范围限定在特定站点中,如site:待检测网站.com。

同理,得到的搜索结果为:

例如http://www.待检测网站.com/aa.1d

http://www.待检测网站.com/aa.2d

http://www.待检测网站.com/aa.3d

可以看出,这些网页均属于待检测网站。将通过搜索引擎得到的所有这些网页所对应的url进行收集,得到一个以属于待检测网站的url集合。

步骤s103,判断所述第二统一资源定位符集合中是否包含不存在于所述第一统一资源定位符集合中的元素,若是,发出告警提示。

将步骤s101中得到的以待检测网站站内所有链接组成的url集合,与从步骤s102中得到的以属于待检测网站的url集合进行比较,由于待检测网站中不存在任何链接可以达到该孤岛页面,而其他属于待检测网站中网站的例如b网站则可能链接到该孤岛页面。因此当以属于待检测网站的url集合中出现一部分url,这部分url是以待检测网站站内所有链接组成的url集合中并不包含的,那么可以说明这部分url即为孤岛页面。

因此,通过上述比较,一旦出现第二统一资源定位符集合包含了不存在于所述第一统一资源定位符集合中的url,则应发出安全提示或者产生告警。

另外,在一个可选的方式中,在所述发出告警提示之前,还包括:判断所述不存在于所述第一统一资源定位符集合中的元素所对应的网页是否存在,若是,对所述元素对应的网页进行安全性判别,识别出特征网页。

由于孤岛页面通常会在一定的期限内存在,在出现第二统一资源定位符集合包含了不存在于所述第一统一资源定位符集合中的url后,需要对这些url对应的网页进行判别,将已经被删除或者不存在的页面进行去除。

而还存在的页面则需要进行安全性判别。在一个可选的方式中,可以通过机器学习模型对所述元素对应的网页进行安全性判别,识别出特征网页。

机器学习模型例如可以通过数学模型对目前已知的异常的网页,例如带有危险信息的网页、被黑客攻击的网页等进行获取,通过对已知异常页面进行数据处理,形成多个数学模型组合,在对未知的网页进行检测时,可以通过该数学模型组合判别其是否属于异常网页。数学模型例如高斯模型等。所述安全性判别,识别出特征网页,即是指通过该数学模型组合进行异常判别,判别其是否属于异常网页,若是,则为特征网页。

综上所述,本申请实施例通过获取以待检测网站站内所有链接组成的url集合,同时获取以属于待检测网站的url集合,将两个集合进行比较,以属于待检测网站的url集合中出现一部分url,这部分url是以待检测网站站内所有链接组成的url集合中并不包含的,那么可以说明这部分url即为孤岛页面,并进行提示或者告警。实现了孤岛页面的识别和告警,解决了现有技术中无法通过对待检测网站中包含的网页统一资源定位符进行安全检测,发现孤岛页面的问题。

参见图3,图3示例性示出了根据本申请实施例的网络安全检测系统,所述系统300包括:第一获取模块301,用于获取待检测网站中包含的所有链接对应的网页统一资源定位符,得到第一统一资源定位符集合;第二获取模块302,用于通过搜索引擎获取属于所述待检测网站的所有链接对应的网页统一资源定位符,得到第二统一资源定位符集合;判断提示模块303,用于判断所述第二统一资源定位符集合中是否包含不存在于所述第一统一资源定位符集合中的元素,若是,发出告警提示。

根据本申请的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本申请实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。

图4示意性示出了根据本申请实施例的电子设备的框图。

如图4所示,电子设备400包括处理器401和存储器402。该电子设备400可以执行根据本申请实施例的方法。

具体地,处理器401例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器401还可以包括用于缓存用途的板载存储器。处理器401可以是用于执行根据本申请实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

存储器402,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(hdd);光存储装置,如光盘(cd-rom);存储器,如随机存取存储器(ram)或闪存;和/或有线/无线通信链路。其存储有计算机可执行程序,该程序在被所述处理器执行时,使得所述处理器执行如上文所述的直播间标签的添加方法。

本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本申请实施例的方法。

根据本申请的实施例,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频信号等等,或者上述的任意合适的组合。

本领域技术人员可以理解,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本申请的范围。

尽管已经参照本申请的特定示例性实施例示出并描述了本申请,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本申请的精神和范围的情况下,可以对本申请进行形式和细节上的多种改变。因此,本申请的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1