一种识别暗链的方法与系统与流程

文档序号:16381658发布日期:2018-12-22 09:32阅读:414来源:国知局
一种识别暗链的方法与系统与流程

本发明涉及网络安全技术领域,尤其是涉及一种识别暗链的方法与系统。

背景技术

“暗链”就是看不见的网站链接,“暗链”在网站中的链接做得非常隐蔽,短时间内不易被搜索引擎察觉。所谓暗链攻击,是指黑客通过隐形篡改技术在被攻击网站的网页植入暗链,这些暗链往往被非法链接到色情、诈骗、甚至反动信息。随着黑产技术的进步,大部分暗链代码增加了判断用户代理user-agent的功能以区分是正常用户访问还是爬虫访问。黑产向网站植入暗链目的主要是推广某些非法的产品,其中以博彩内容居多。专业的暗链为了隐藏自己,只将非法内容提供给搜索引擎的爬虫,以此达到隐藏普通用户,并发现该暗链存在的目的。此时,如果采用传统的暗链检测机制对暗链进行检测时,暗链检出率将大大降低,针对上述问题,还未提出有效解决方案。



技术实现要素:

有鉴于此,本发明的目的在于提供一种识别暗链的方法与系统,解决了传统的暗链检测机制对暗链进行检测时,暗链检出率将较低的技术问题。

第一方面,本发明实施例提供了一种识别暗链的方法,应用于服务器端,包括:获取待检测网站网址信息;获取第一用户代理user-agent在访问所述待检测网站之后得到的第一响应内容和第一网站标题;获取第二用户代理在访问所述待检测网站之后得到第二响应内容和第二网站标题,其中,所述第二用户代理为模拟搜索引擎的用户代理;基于所述第一响应内容和所述第二响应内容之间的相似度,以及所述第一网站标题和所述第二网站标题之间的相似度,确定所述待检测网站是否存在暗链。

进一步地,基于所述第一响应内容和所述第二响应内容之间的相似度,以及所述第一网站标题和所述第二网站标题之间的相似度,确定所述待检测网站是否存在暗链包括:判断所述第一网站标题与所述第二网站标题之间的相似度是否高于第一阈值;如果判断出是,则判断所述第一响应内容和所述第二响应内容之间的相似度是否高于第二阈值;如判断出所述第一响应内容和所述第二响应内容之间的相似度不高于所述第二阈值,则确定暗链存在。

进一步地,所述方法还包括:如果判断出所述第一网站标题与所述第二网站标题之间的相似度不高于所述第一阈值,则确定所述暗链存在。

进一步地,所述方法还包括:如判断出所述第一响应内容和所述第二响应内容之间的相似度高于所述第二阈值,则确定所述暗链不存在。

进一步地,所述响应内容包括:所述待检测网站的md5值。

进一步地,所述方法还包括:将目标检测结果保存到数据库,其中,所述目标检测结果包括以下任意一种:第一检测结果和/或第二检测结果,所述第一检测结果表示所述待检测网站中存在暗链,所述第二检测结果表示所述检测网站中不存在暗链。

第二方面,本发明实施例还提供一种识别暗链的系统,所述系统包括:第一获取模块、第二获取模块,第三获取模块和确定模块;所述获取模块,用于获取待检测网站网址信息;所述第二获取模块,用于获取第一用户代理在访问所述待检测网站之后得到的第一响应内容和第一网站标题;所述第三获取模块,用于获取第二用户代理在访问所述待检测网站之后得到第二响应内容和第二网站标题,其中,所述第二用户代理为模拟搜索引擎的用户代理;所述确定模块,用于基于所述第一响应内容和所述第二响应内容之间的相似度,以及所述第一网站标题和所述第二网站标题之间的相似度,确定所述待检测网站是否存在暗链。

进一步地,所述确定模块用于:判断所述第一网站标题与所述第二网站标题之间的相似度是否高于第一阈值;如果判断出是,则判断所述第一响应内容和所述第二响应内容之间的相似度是否高于第二阈值;如判断出所述第一响应内容和所述第二响应内容之间的相似度不高于所述第二阈值,则确定暗链存在。

进一步地,所述系统还用于:如果判断出所述第一网站标题与所述第二网站标题之间的相似度不高于所述第一阈值,则确定所述暗链存在。

第三方面,本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述第一方面中任一所述方法。

本发明通过主动模拟搜索引擎的用户代理来触发暗链代码处理机制,从而根据相似度来判断网站是否存在暗链,该方式能够快速、有效识别出新型暗链,增强了对新型暗链的检出率。

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种识别暗链的方法示意图;

图2为本发明实施例提供的一种识别暗链的具体方法示意图;

图3为本发明实施例提供的一种识别暗链的系统示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1:

根据本发明实施例,提供了一种识别暗链的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种识别暗链的方法的流程图,如图1所示,该方法包括如下步骤:

步骤s102,获取待检测网站网址信息;

步骤s104,获取第一用户代理user-agent在访问所述待检测网站之后得到的第一响应内容和第一网站标题;

步骤s106,获取第二用户代理在访问所述待检测网站之后得到第二响应内容和第二网站标题,其中,所述第二用户代理为模拟搜索引擎的用户代理;

步骤s108,基于所述第一响应内容和所述第二响应内容之间的相似度,以及所述第一网站标题和所述第二网站标题之间的相似度,确定所述待检测网站是否存在暗链。

本发明通过主动模拟搜索引擎的用户代理来触发暗链代码处理机制,从而根据相似度来判断网站是否存在暗链,该方式能够快速、有效识别出新型暗链,增强了对新型暗链的检出率。

在一个可选的实施方式中,具体地,如图2所示,所述识别暗链的方法应用于服务器端,基于所述第一响应内容和所述第二响应内容之间的相似度,以及所述第一网站标题和所述第二网站标题之间的相似度,确定所述待检测网站是否存在暗链,包括如下具体步骤:

步骤s201,获取待检测网站网址;步骤s201与步骤s102相同;

步骤s202,获取第一用户代理在访问所述待检测网站之后得到的第一响应内容和第一网站标题;步骤s202与步骤s104相同;

步骤s203,获取第二用户代理在访问所述待检测网站之后得到第二响应内容和第二网站标题,其中,所述第二用户代理为模拟搜索引擎的用户代理;步骤s203与步骤s106相同;

步骤s204,判断所述第一网站标题与所述第二网站标题之间的相似度是否高于第一阈值;如果判断出是,则执行步骤s205,否则执行步骤s206;

步骤s205,判断所述第一响应内容和所述第二响应内容之间的相似度是否高于第二阈值;

步骤s206,如果判断出所述第一网站标题与所述第二网站标题之间的相似度不高于所述第一阈值,则确定所述暗链存在;如果判断出是,则执行步骤s207,否则执行步骤s208;

步骤s207,如判断出所述第一响应内容和所述第二响应内容之间的相似度不高于所述第二阈值,则确定暗链存在;

步骤s208,如判断出所述第一响应内容和所述第二响应内容之间的相似度高于所述第二阈值,则确定所述暗链不存在。

具体地,上述过程描述如下:首先,获取待检测网站网址信息,然后,获取通过第一用户代理user-agent在访问待检测网站之后得到的第一响应内容c1和第一网站标题t1;之后,获取通过模拟搜索引擎的用户代理user-agent(即,第二用户代理)在访问所述待检测网站之后得到第二响应内容c2和第二网站标题t2。

接下来,判断t1与t2之间的相似度是否高于第一阈值y1,如果是,继续判断c1与c2之间的相似度是否高于第二阈值y2;如果否,则确定待检测网站存在暗链;其中y1为可人为预先设定阈值,设定范围:0%<y1≤100%。

如果判断出c1与c2之间的相似度高于第二阈值y2,则判断所述待检测网站不存在暗链;如果不是,则判断所述待检测网站存在暗链;其中y2为可人为预先设定阈值,设定范围:0%<y2≤100%。

具体地,在本发明实施例中,所述响应内容c1和c2包括:所述待检测网站的md5值。

需要说明的是,在本实施例中,该方法还包括:将检测结果保存到数据库,其中,所述目标检测结果包括以下任意一种:第一检测结果和/或第二检测结果,所述第一检测结果表示所述待检测网站中存在暗链,所述第二检测结果表示所述检测网站中不存在暗链。

也就是说,在本实施例中,在上述步骤s206至步骤s208之后,如果确定出待检测网站中存在暗链,则将存在暗链的第一检测结果保存至数据库中;如果确定出待检测网站中不存在暗链,则将不存在暗链的第二检测结果保存至数据库中。

通过上述描述可知,在本发明实施例中,采用主动模拟搜索引擎爬虫的方式,通过与非法暗链技术保持同步改进,达到了增强了对新型暗链的检出率的目的,进而解决了现有技术中没有跟进黑产的技术改进,无法获取到新型暗链的响应内容,没有考虑到用户代理user-agent字符串对触发暗链的关键性的技术问题。

实施例2:

本发明实施例还提供了一种识别暗链的系统,该识别暗链的系统主要用于执行本发明实施例上述内容所提供的识别暗链的方法,以下对本发明实施例提供的一种识别暗链的系统做具体介绍。

图3是根据本发明实施例的一种识别暗链的系统的示意图,如图3所示,该识别暗链的系统主要包括:第一获取模块10、第二获取模块20,第三获取模块30和确定模块40,其中:

第一获取模块10,用于获取待检测网站网址信息;

第二获取模块20,用于获取第一用户代理在访问所述待检测网站之后得到的第一响应内容和第一网站标题;

第三获取模块30,用于获取第二用户代理在访问所述待检测网站之后得到第二响应内容和第二网站标题,其中,所述第二用户代理为模拟搜索引擎的用户代理;

确定模块40,用于基于所述第一响应内容和所述第二响应内容之间的相似度,以及所述第一网站标题和所述第二网站标题之间的相似度,确定所述待检测网站是否存在暗链。

通过上述描述可知,在本发明实施例中,该识别暗链的系统采用主动模拟搜索引擎爬虫的方式,通过与非法暗链技术保持同步改进,达到了增强了对新型暗链的检出率的目的,进而解决了现有技术中没有跟进黑产的技术改进,无法获取到新型暗链的响应内容,没有考虑到用户代理user-agent字符串对触发暗链的关键性的技术问题。

可选地,所述确定模块40还用于:判断所述第一网站标题与所述第二网站标题之间的相似度是否高于第一阈值;如果判断出是,则判断所述第一响应内容和所述第二响应内容之间的相似度是否高于第二阈值;如判断出所述第一响应内容和所述第二响应内容之间的相似度不高于所述第二阈值,则确定暗链存在。

可选地,该识别暗链的系统还用于:如果判断出所述第一网站标题与所述第二网站标题之间的相似度不高于所述第一阈值,则确定所述暗链存在。

在一个可选的实施方式中,本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行如前述方法实施例所述的方法。

另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1