一种钓鱼网站的检测方法及装置与流程

文档序号:14914649发布日期:2018-07-11 00:23阅读:189来源:国知局

本发明涉及网络安全技术领域,尤其涉及一种钓鱼网站的检测方法及装置。



背景技术:

由于互联网的特性,钓鱼网站的来源分布和危害跨越国界,已成为一个令全球关注并感到棘手的问题。目前全球钓鱼网站频繁出现,对公众利益造成了极大伤害,降低了公众使用互联网的信心,严重影响了在线金融服务、电子商务的发展。

所谓“钓鱼网站”是一种不法分子利用各种手段,仿冒真实网站的URL(Uniform Resource Locator,统一资源定位符)地址以及页面内容,或者利用真实网站服务器程序上的漏洞,在站点的某些网页中插入危险的HTML(Hyper Text Mark-up Language,超文本标记语言)代码,来骗取用户银行或信用卡账号、密码等私人资料的网络欺诈行为。

现有技术中存在多种钓鱼网站的检测方法。但是,这些方法的实现设计较为复杂,从而造成了系统处理钓鱼网站不及时。



技术实现要素:

有鉴于此,本发明提供一种钓鱼网站的检测方法及装置,用以提高系统处理的及时性。

为解决上述技术问题,本发明提供一种钓鱼网站的检测方法,包括:

获取待检测网站的第一域名信息和目标网站的第二域名信息;

如果所述第一域名信息和所述第二域名信息相似,则将所述待检测网站作为待确认网站;

获取所述待确认网站的第一网站页面内容标识信息和目标网站的第二网站页面内容标识信息;

如果所述第一网站页面内容标识信息和所述第二网站页面内容标识信息相同,确定所述待确认网站为钓鱼网站。

其中,所述如果所述第一网站页面内容标识信息和所述第二网站页面内容标识信息相同,确定所述待确认网站为钓鱼网站的步骤,包括:

获取所述待确认网站的IP归属信息和所述目标网站的IP归属信息;

如果所述待确认网站的IP归属信息和所述目标网站的IP归属信息不一致,确定所述待确认网站为钓鱼网站;

如果所述待确认网站的IP归属信息和所述目标网站的IP归属信息一致,获取所述待确认网站的链接比率信息,并在确定所述链接比率信息满足预设条件时,确定所述待确认网站为钓鱼网站。

其中,所述如果所述待确认网站的IP归属信息和所述目标网站的IP归属信息一致,获取所述待确认网站的链接比率信息,并在确定所述链接比率信息满足预设条件时,确定所述待确认网站为钓鱼网站的步骤,包括:

获取所述待确认网站的链接比率信息,所述链接比率信息包括所述待确认网站链接到所述目标网站的比率;

如果所述待确认网站链接到所述目标网站的比率大于或等于第一预设值,确定所述待确认网站为钓鱼网站。

其中,所述链接比率信息还包括所述待确认网站的异常链接比率;

所述如果所述待确认网站的IP归属信息和所述目标网站的IP归属信息一致,获取所述待确认网站的链接比率信息,并在确定所述链接比率信息满足预设条件时,确定所述待确认网站为钓鱼网站的步骤,还包括:

如果所述待确认网站链接到所述目标网站的比率小于所述第一预设值,确定所述待确认网站链接到所述目标网站的比率与所述异常链接比率之和是否大于或等于第二预设值;

如果所述待确认网站链接到所述目标网站的比率与所述异常链接比率之和大于或等于所述第二预设值,确定所述待确认网站为钓鱼网站。

其中,在所述获取所述待确认网站的链接比率信息的步骤前,还包括:

对所述待确认网站进行网页内容检测;

所述获取所述待确认网站的链接比率信息具体为:

当检测到所述待确认网站中包括预设内容时,获取所述待确认网站的链接比率信息。

其中,所述待确认网站链接到所述目标网站的比率为,所述待确认网站链接到所述目标网站的链接次数与所述待确认网站的超链接总数的商;

所述异常链接比率为,所述待确认网站的异常链接次数与所述待确认网站的超链接总数的商。

其中,所述待确认网站的第一网站页面内容标识信息为,所述待确认网站的ICP号信息;所述目标网站的第二网站页面内容标识信息为,所述目标网站的ICP号信息。

第二方面,本发明提供一种钓鱼网站的检测装置,包括:

第一信息获取模块,用于获取待检测网站的第一域名信息和目标网站的第二域名信息;

域名检测模块,用于如果所述第一域名信息和所述第二域名信息相似,则将所述待检测网站作为待确认网站;

第二信息获取模块,用于获取所述待确认网站的第一网站页面内容标识信息和目标网站的第二网站页面内容标识信息;

确定模块,用于如果所述第一网站页面内容标识信息和所述第二网站页面内容标识信息相同,确定所述待确认网站为钓鱼网站。

其中,所述确定模块包括:

第一信息获取子模块,用于获取所述待确认网站的IP归属信息和所述目标网站的IP归属信息;

第一确定子模块,用于如果所述待确认网站的IP归属信息和所述目标网站的IP归属信息不一致,确定所述待确认网站为钓鱼网站;

第二确定子模块,用于如果所述待确认网站的IP归属信息和所述目标网站的IP归属信息一致,获取所述待确认网站的链接比率信息,并在确定所述链接比率信息满足预设条件时,确定所述待确认网站为钓鱼网站。

其中,所述第二确定子模块包括:

信息获取单元,获取所述待确认网站的链接比率信息,所述链接比率信息包括所述待确认网站链接到所述目标网站的比率;

第一确定单元,用于如果所述待确认网站链接到所述目标网站的比率大于或等于第一预设值,确定所述待确认网站为钓鱼网站。

其中,所述链接比率信息还包括所述待确认网站的异常链接比率;所述第二确定子模块还包括:

第一判断单元,用于如果所述待确认网站链接到所述目标网站的比率小于所述第一预设值,确定所述待确认网站链接到所述目标网站的比率与所述异常链接比率之和是否大于或等于第二预设值;

第二确定单元,用于如果所述待确认网站链接到所述目标网站的比率与所述异常链接比率之和大于或等于所述第二预设值,确定所述待确认网站为钓鱼网站。

其中,所述第二确定子模块还包括:

内容检测单元,用于对所述待确认网站进行网页内容检测;

所述信息获取单元具体用于,当检测到所述待确认网站中包括预设内容时,获取所述待确认网站的链接比率信息。

其中,所述待确认网站链接到所述目标网站的比率为,所述待确认网站链接到所述目标网站的链接次数与所述待确认网站的超链接总数的商;

所述异常链接比率为,所述待确认网站的异常链接次数与所述待确认网站的超链接总数的商。

其中,所述待确认网站的第一网站页面内容标识信息为,所述待确认网站的ICP号信息;所述目标网站的第二网站页面内容标识信息为,所述目标网站的ICP号信息。

本发明的上述技术方案的有益效果如下:

在本发明实施例中,当根据待检测网站的域名信息确定待检测网站为待确认网站时,通过对比待确认网站的网站页面内容标识信息和目标网站的网站页面内容标识信息,即可确定待确认网站为钓鱼网站。由于网站页面内容标识信息获取较为便利,因此,利用本发明实施例的方案可快速的确定待确认网站是否为钓鱼网站,进而提高了系统处理的及时性。

附图说明

图1为本发明实施例一的钓鱼网站的检测方法的流程图;

图2为本发明实施例二的进行钓鱼网站检测的网络架构示意图;

图3为本发明实施例二的钓鱼网站识别检测系统的结构图;

图4为本发明实施例二的钓鱼网站的检测方法的流程图;

图5为本发明实施例二中结合IP归属信息进行钓鱼网站判断的示意图;

图6为本发明实施例二中结合链接比率信息进行钓鱼网站判断的示意图;

图7为本发明实施例三的钓鱼网站的检测装置的示意图。

具体实施方式

下面将结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

目前,常见的钓鱼网站的检测方法主要有如下几种方式:

(1)、相似域名检测:为了达到欺骗用户的效果,钓鱼网站的域名一般都和钓鱼目标网站比较相似,故可通过相似域名检测方式进行钓鱼网站检测。

(2)、页面内容检测:钓鱼网站页面一般会让用户输入银行卡号、密码、身份证号及手机号等敏感信息,故可通过页面内容检测方式进行钓鱼网站检测。

(3)、页面相似检测:为了达到欺骗用户的效果,钓鱼网站页面的内容及布局一般都和钓鱼目标网站比较相似,故可通过页面相似检测进行钓鱼网站检测。

现有技术中的相似域名检测技术及页面内容检测均存在误报问题,而页面相似检测技术,由于需要对比整体页面存在检测效率比较低下的问题。虽然现有的钓鱼网站检测系统会整合现有几种检测技术,但检测效率低下的问题仍然存在,从而导致系统处理不及时。

实施例一

如图1所示,本发明实施例一的钓鱼网站的检测方法,包括:

步骤101、获取待检测网站的第一域名信息和目标网站的第二域名信息。

其中,所述待检测网站可以包括一个或多个网站。如果包括多个网站,那么对每个网站的检测方式都可按照本发明实施例的检测方法进行检测。该目标网站指的是被钓鱼网站攻击的网站,也即钓鱼目标网站。

在本发明实施例中,当用户上网时,无论是访问目标网站还是访问钓鱼网站,用户的访问行为都会被记录下来。通过对获取的用户上网流量或用户上网日志进行解析,提取待检测网站的URL(Uniform Resource Locator,统一资源定位符)和目标网站的URL。

步骤102、如果所述第一域名信息和所述第二域名信息相似,则将所述待检测网站作为待确认网站。

其中,所述待确认网站指的是有可能是被认为是钓鱼网站的待检测网站。

在此步骤中,根据获取的待检测网站的第一域名信息和目标网站的第二域名信息进行相似域名检测。具体的,根据目标网站的域名构造相似域名正则表达式,其中,相似规则为域名中的某个或者某些字母被替换为相似的字母或数字,如l被替换为1或I等。将待检测网站的域名和该表达式进行匹配,如果结果为匹配,则将待检测网站作为待确认网站,以做进一步判断。否则,可认为非钓鱼网站。

步骤103、获取所述待确认网站的第一网站页面内容标识信息和目标网站的第二网站页面内容标识信息。

在本发明实施例中,所述待确认网站的第一网站页面内容标识信息为,所述待确认网站的ICP(Internet Content Provider,因特网内容提供商)号信息;所述目标网站的第二网站页面内容标识信息为,所述目标网站的ICP号信息。

通常,钓鱼网站为了达到欺骗访问者的目标,除了用来欺骗用户输入银行卡号、密码、身份证号及手机号等敏感信息的输入框部分,其他部分都会尽力模仿钓鱼目标网站,包括页面布局、配色、页面图片及页面文字等。正常情况下,经过合法备案的网站都会被分配一个ICP号信息,用于记录网站的备案信息,通常网站都会把ICP号信息标注在网站页面的底部,用于标识网站是经过合法注册的网站。

经研究发现,很多钓鱼网站为了尽可能模仿钓鱼目标网站,也会在钓鱼网站页面底部标注ICP号信息,而这些ICP号信息都是直接复制钓鱼目标网站的ICP号信息。正是由于很多钓鱼网站具有这一特征,所以可以通过对比钓鱼网站页面的ICP号信息与钓鱼目标网站页面的ICP号信息来进行钓鱼网站的检测。

在具体应用中,可通过页面爬趋技术获取待确认网站的页面(如首页等),进而获取对应的第一ICP号信息。同理,可通过页面爬趋技术获取目标网站的页面(如首页等),进而获取对应的第二ICP号信息。

步骤104、如果所述第一网站页面内容标识信息和所述第二网站页面内容标识信息相同,确定所述待确认网站为钓鱼网站。

经对比,如果第一ICP号信息和第二ICP号信息相同,那么在此可确定待确认网站为钓鱼网站。

由上可以看出,在本发明实施例中,当根据待检测网站的域名信息确定待检测网站为待确认网站时,通过对比待确认网站的网站页面内容标识信息和目标网站的网站页面内容标识信息,即可确定待确认网站为钓鱼网站。由于网站页面内容标识信息获取较为便利,因此,利用本发明实施例的方案可快速的确定待确认网站是否为钓鱼网站,进而提高了系统处理的及时性。

实施例二

如图2所示,为进行钓鱼网站检测的网络架构示意图。在图2中,示出了以通过手机上网为例的示意图。实际应用中,还可通过电脑等设备上网。在进行钓鱼网站检测时,主要涉及钓鱼网站、钓鱼目标网站、流量镜像系统或上网日志留存系统、钓鱼网站识别检测系统。

当用户上网(如通过手机上网)时,无论是访问正常网站还是访问钓鱼网站,流量镜像系统或上网日志留存系统都可通过流量镜像或保存上网日志的方式,如实的记录用户的上网行为。钓鱼网站识别检测系统,从流量镜像系统或上网日志留存系统中获取用户上网流量或用户上网日志,用于钓鱼网站识别检测。钓鱼网站识别检测系统需要接入互联网,爬取钓鱼目标网站页面中的ICP号信息,获取钓鱼目标网站的IP及归属信息,以及获取待确认钓鱼网站的页面内容。

在以下的实施例中,将待确认网站称为疑似钓鱼网站,将目标网站称为钓鱼目标网站。钓鱼网站识别检测系统的结构如图3所示。其中,各个主要功能模块的功能及工作原理如下:

1、钓鱼目标网站信息获取模块

钓鱼目标网站信息获取模块的功能是:获取钓鱼目标网站的IP、IP归属及页面ICP号等信息。本模块的具体功能及实现方式如下:

(1)使用nslookup、host等命令或DNS(Domain Name System,域名系统)查询工具查询获取钓鱼目标网站的IP或IP列表;

(2)根据获取到的钓鱼目标网站的IP或IP列表,通过查询在线或离线IP归属信息库,获取钓鱼目标网站的归属地或归属地列表;

(3)爬取钓鱼目标网站首页或任意其他页面,提取页面底部标注的ICP号信息,包括省份信息及编号信息;

(4)存储上述查询或获取得到的IP或IP列表信息、归属地或归属地列表信息以及ICP号信息。

2、流量或日志采集解析模块

流量或日志采集解析模块的功能是:采集流量镜像系统的流量或上网留存日志系统的日志,然后解析流量或日志,提取关键信息,以用于钓鱼网站识别检测。本模块的具体功能及实现方式如下:

(1)接收流量镜像系统镜像的流量或主动获取上网日志留存系统的日志,其中日志的主动获取方式可以为FTP(File Transfer Protocol,文件传输协议)方式或上网日志留存系统API(Application Program Interface,应用程序接口)接口方式;

(2)使用libpcap库解析流量,或者根据上网留存日志格式解析日志;

(3)提取流量或日志中的访问URL、访问目标IP以及访问目标端口,用于后续钓鱼网站识别检测。

3、相似域名检测模块

相似域名检测模块的功能是:根据需要防护的钓鱼目标网站的域名,检测上一模块提取的URL中的域名是否为相似域名。本模块的具体功能及实现方式如下:

(1)根据钓鱼目标网站的域名构造相似域名正则表达式,相似规则为域名中字母替换为相似字母,如l替换为1或I等;

(2)对流量或日志采集解析模块提取的URL中的域名,基于相似域名正则表达式进行匹配,命中的域名作为待确认域名,用于进一步识别检测,未命中域名不做处理,可以认为为非钓鱼网站。

4、疑似钓鱼网站页面爬取模块

疑似钓鱼网站页面爬取模块的功能是:爬取疑似钓鱼网站页面内容,为之后的ICP号对比检测、链接比率计算以及钓鱼网站综合识别判定模块提供检测数据输入。本模块的具体功能及实现方式如下:

(1)依据相似域名检测模块匹配命中的域名,基于流量或日志采集解析模块中的原始URL爬取页面内容,例如爬取域名对应的首页内容;

(2)提取爬取到的疑似钓鱼网站页面中的ICP号信息,包括省份信息及编号信息;

(3)根据流量或日志采集解析模块中提取到的目的IP信息,查询疑似钓鱼网站的归属地信息。

5、ICP号对比检测模块

ICP号对比检测模块的功能是:对比疑似钓鱼网站页面的ICP信息与钓鱼目标网站页面的ICP信息,并结合域名及IP归属信息判定疑似钓鱼网站是否为钓鱼网站。本模块的具体功能及实现方式如下:

(1)对比钓鱼目标网站及疑似钓鱼网站的ICP信息,包括省份信息及编号信息;

(2)如果两者ICP信息相同,域名不同,且IP归属信息不同,则直接判断待检测网站为钓鱼网站;

(3)如果两者ICP信息相同,域名不同,且IP归属信息相同,则需由钓鱼网站综合识别判定模块做进一步判定;

(4)如果两者ICP信息不同,则可直接判断为非钓鱼网站。

6、链接比率计算模块

链接比率计算模块的功能是:根据疑似钓鱼网站页面爬取模块爬取的疑似钓鱼网站页面,计算疑似钓鱼网站首页页面链接到钓鱼目标网站的链接比率、非正常链接(异常链接)的比率、以及链接到钓鱼目标网站的链接比率与非正常链接的比率之和。

其中,非正常链接是指在正常网页中通常不会出现的链接为空或链接为当前路径“./”的链接。非正常链接具体包括如下情况:

<a href>

<a href=”>

<a href=””>

<a href=’#’>

<a href=”#”>

<a href=’#2’>

<a href=”#2”>

<a href=’./’>

<a href=”./”>

本模块的具体功能及实现方式如下:

(1)获取疑似钓鱼网站首页内的所有超链接;

(2)对所有链接,计算链接到钓鱼目标网站的链接比率;

(3)对所有链接,计算非正常链接的比率;

(4)计算链接到钓鱼目标网站的链接比率与非正常链接的比率之和。

具体过程如下:假设疑似钓鱼网站首页内的所有超链接数为z,链接到钓鱼目标网站的链接为x,非正常链接为y。设链接到钓鱼目标网站的链接比率为p,正常链接的比率为q,链接到钓鱼目标网站的链接比率与非正常链接的比率之和为r。

其中,链接到钓鱼目标网站的链接比率p的计算公式如下:

非正常链接的比率q的计算公式如下:

链接到钓鱼目标网站的链接比率与非正常链接的比率之和r的计算公式如下:

7、钓鱼网站综合识别判定模块

钓鱼网站综合识别判定模块的功能是:对ICP号对比检测模块无法判定的疑似钓鱼网站进行进一步判定。本模块的具体功能和实现方式如下:

(1)对ICP号对比检测模块无法判定的疑似钓鱼网站进行网页内容检测,检测页面中是否需要输入银行卡号、密码、身份证号或手机号等敏感信息;

(2)如果网页内容检测未发现需要输入银行卡号、密码、身份证号或手机号等敏感信息,则判定疑似钓鱼网站为非钓鱼网站;

(3)如果网页内容检测发现需要输入银行卡号、密码、身份证号或手机号等敏感信息,则进一步做链接比率判定;

(4)如果链接比率中链接链接到钓鱼目标网站的比率p大于等于指定阀值δ(如70%),即p≥δ,则判定疑似钓鱼网站为钓鱼网站。

(5)如果链接比率中链接链接到钓鱼目标网站的比率p小于指定阀值δ,即p<δ时,则比较链接到钓鱼目标网站的链接比率与非正常链接的比率之和r是否大于等于指定阀值θ(如80%)。

如果链接到钓鱼目标网站的链接比率与非正常链接的比率之和r大于等于指定阀值θ,即r≥θ,则判定疑似钓鱼网站为钓鱼网站。

(6)如果链接比率中链接链接到钓鱼目标网站的比率p小于指定阀值δ,且链接到钓鱼目标网站的链接比率与非正常链接的比率之和r小于指定阀值θ,即p<δ且r<θ,则判定疑似钓鱼网站为非钓鱼网站。

如图4所示,本发明实施例二的钓鱼网站的检测方法,包括:

步骤401、获取待检测网站的第一域名信息和钓鱼目标网站的第二域名信息。

步骤402、如果所述第一域名信息和所述第二域名信息相似,则将所述待检测网站作为疑似钓鱼网站。

步骤401和步骤402的过程,可参照流量或日志采集解析模块、钓鱼目标网站信息获取模块、相似域名检测模块的工作过程。

步骤403、获取所述疑似钓鱼网站的第一网站页面内容标识信息和钓鱼目标网站的第二网站页面内容标识信息。

其中,在此主要是获取疑似钓鱼网站的ICP信息和钓鱼目标网站的ICP信息,具体过程可参照疑似钓鱼网站页面爬取模块、钓鱼目标网站信息获取模块的工作过程。

步骤404、如果所述第一网站页面内容标识信息和所述第二网站页面内容标识信息相同,确定所述疑似钓鱼网站为钓鱼网站,否则确定为非钓鱼网站。

具体的,在此步骤中,为了提高检测准确率,结合图5所示,包括如下过程:

步骤501、获取所述疑似钓鱼网站的IP归属信息和所述钓鱼目标网站的IP归属信息。

步骤502、如果所述疑似钓鱼网站的IP归属信息和所述钓鱼目标网站的IP归属信息不一致,确定所述疑似钓鱼网站为钓鱼网站。

步骤503、如果所述疑似钓鱼网站的IP归属信息和所述钓鱼目标网站的IP归属信息一致,获取所述疑似钓鱼网站的链接比率信息,并在确定所述链接比率信息满足预设条件时,确定所述疑似钓鱼网站为钓鱼网站。

具体的,此步骤如图6所示:

步骤601、对所述疑似钓鱼网站进行网页内容检测。

步骤602、当检测到所述疑似钓鱼网站中包括预设内容时,获取所述疑似钓鱼网站的链接比率信息。当检测到所述疑似钓鱼网站中不包括预设内容时,确定疑似钓鱼网站为非钓鱼网站。

其中,该连接比率信息包括:所述疑似钓鱼网站链接到所述钓鱼目标网站的比率、疑似钓鱼网站的异常链接比率。所述预设内容可以是需要输入银行卡号、密码、身份证号或手机号等敏感信息。

步骤603、如果所述疑似钓鱼网站链接到所述钓鱼目标网站的比率大于或等于第一预设值,确定所述疑似钓鱼网站为钓鱼网站。

步骤604、如果所述疑似钓鱼网站链接到所述钓鱼目标网站的比率小于所述第一预设值,确定所述疑似钓鱼网站链接到所述钓鱼目标网站的比率与所述异常链接比率之和是否大于或等于第二预设值。

步骤605、如果所述疑似钓鱼网站链接到所述钓鱼目标网站的比率与所述异常链接比率之和大于或等于所述第二预设值,确定所述疑似钓鱼网站为钓鱼网站。

其中,该第一预设值和第二预设值可任意设定。

在确认为钓鱼网站后,可将该钓鱼网站的信息存储到钓鱼网站库中。

由上可以看出,在本发明实施例中,结合相似域名检测技术、IP归属以及ICP等检测技术,能进一步提高钓鱼网站检测的效率,提高钓鱼网站检测准确率。同时,由于在该方案中无需存储、查询ICP备案信息,节约了系统的存储量和计算量,简化了系统设计的复杂度,提高了系统处理的及时性和可靠性。

实施例三

如图7所示,本发明实施例三的钓鱼网站的检测装置,包括:

第一信息获取模块701,用于获取待检测网站的第一域名信息和目标网站的第二域名信息;域名检测模块702,用于如果所述第一域名信息和所述第二域名信息相似,则将所述待检测网站作为待确认网站;第二信息获取模块703,用于获取所述待确认网站的第一网站页面内容标识信息和目标网站的第二网站页面内容标识信息;确定模块704,用于如果所述第一网站页面内容标识信息和所述第二网站页面内容标识信息相同,确定所述待确认网站为钓鱼网站。

其中,所述待确认网站的第一网站页面内容标识信息为,所述待确认网站的ICP号信息;所述目标网站的第二网站页面内容标识信息为,所述目标网站的ICP号信息。

其中,所述确定模块704包括:第一信息获取子模块,用于获取所述待确认网站的IP归属信息和所述目标网站的IP归属信息;第一确定子模块,用于如果所述待确认网站的IP归属信息和所述目标网站的IP归属信息不一致,确定所述待确认网站为钓鱼网站;第二确定子模块,用于如果所述待确认网站的IP归属信息和所述目标网站的IP归属信息一致,获取所述待确认网站的链接比率信息,并在确定所述链接比率信息满足预设条件时,确定所述待确认网站为钓鱼网站。

具体的,所述第二确定子模块包括:信息获取单元,获取所述待确认网站的链接比率信息,所述链接比率信息包括所述待确认网站链接到所述目标网站的比率;第一确定单元,用于如果所述待确认网站链接到所述目标网站的比率大于或等于第一预设值,确定所述待确认网站为钓鱼网站。

此外,所述链接比率信息还包括所述待确认网站的异常链接比率;所述第二确定子模块还包括:第一判断单元,用于如果所述待确认网站链接到所述目标网站的比率小于所述第一预设值,确定所述待确认网站链接到所述目标网站的比率与所述异常链接比率之和是否大于或等于第二预设值;第二确定单元,用于如果所述待确认网站链接到所述目标网站的比率与所述异常链接比率之和大于或等于所述第二预设值,确定所述待确认网站为钓鱼网站。

为进一步提高准确率,所述第二确定子模块还包括:内容检测单元,用于对所述待确认网站进行网页内容检测;所述信息获取单元具体用于,当检测到所述待确认网站中包括预设内容时,获取所述待确认网站的链接比率信息。

在本发明实施例中,所述待确认网站链接到所述目标网站的比率为,所述待确认网站链接到所述目标网站的链接次数与所述待确认网站的超链接总数的商;所述异常链接比率,所述待确认网站的异常链接次数与所述待确认网站的超链接总数的商。

本发明所述装置的工作原理可参照前述方法实施例的描述。

由上可以看出,在本发明实施例中,当根据待检测网站的域名信息确定待检测网站为待确认网站时,通过对比待确认网站的网站页面内容标识信息和目标网站的网站页面内容标识信息,即可确定待确认网站为钓鱼网站。由于网站页面内容标识信息获取较为便利,因此,利用本发明实施例的方案可快速的确定待确认网站是否为钓鱼网站,进而提高了系统处理的及时性。

在本申请所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括如果干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出如果干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1