一种启发式检测钓鱼网站的方法及系统的制作方法

文档序号:9888018阅读:339来源:国知局
一种启发式检测钓鱼网站的方法及系统的制作方法
【技术领域】
[0001]本发明涉及信息安全技术领域,尤其涉及一种启发式检测钓鱼网站的方法及系统。
【背景技术】
[0002]随着互联网的迅速发展,人们的日常生活和互联网联系的越来越紧密,即时通讯、网络游戏、网上理财、网上支付等几乎每天伴随着人们。但是,随着信息发展而带来的信息安全问题也日趋严重。当前,网络钓鱼已经成为网络安全领域最热门的话题。它虽然不是一种新的病毒入侵方法,但是其危害范围却在逐渐扩大,成为近期最严重的网络威胁之一。所谓“钓鱼网站”是指不法分子利用各种手段仿冒真实网站的地址以及页面内容,欺骗用户输入真实的账户资料,从而获取用户的相关资料,包括:银行账户、社交账号、手机号码、身份信息、游戏账号等多种私人资产。
[0003]据统计,钓鱼网站带来的危害已经逐步赶上,甚至超过病毒给用户带来的危害。据估计,国内网络钓鱼让网民的损失已达76亿元。如此巨大的利益引诱下,钓鱼网站也已逐步显现出较为成熟和完整的“产业链”,甚至可以花费很少的资金就能立刻拥有一个和某些电子商务网站一摸一样的界面。例如:最近比较常见的QQ异常登录的钓鱼网站,该事件的场景是,黑客通过发送一个电子邮件给用户,告知该用户的QQ号码频繁异地登录,并提供一个链接,声称通过此链接来解除限制,该链接点击进去是一个和QQ安全中心非常相似的一个页面,页面要求输入用户QQ号和密码,并随后要求输入财付通账户、用户身份证和支付密码等敏感信息,一旦输入该用户的私人账号和钱财就会被窃。随着互联网的普及,越来越多的中老年和青少年入网,他们对互联网涉世不深,网络安全知识匮乏,极易被引诱上当,这也就驱使着越来越多的人将矛头指向钓鱼网站来“钓”取网络安全弱势群体的利益。为此打击网络犯罪、抵制网络钓鱼变的刻不容缓。目前钓鱼网站的识别主要依靠人工举报、基于黑名单技术识别。
[0004]在钓鱼网站刚刚兴起的早期阶段,由于钓鱼网站的数量少,种类简单,依靠人工识别的方式来反钓鱼是可以满足当时的背景,但如今钓鱼网站激增,人工识别周期较慢,已经不能完全应对如今的信息安全情境。另一个是黑名单识别技术,黑名单识别技术是将恶意网站入库,当访问未知网站时,进行和黑名单库比对,如果匹配成功之后就会向用户显示钓鱼网站的警告,同时拦截用户对该页面的访问。黑名单技术的一个明显缺陷是:它仅仅可以检测识别已知的有害的恶意网站。对新的钓鱼攻击威胁则无能为力,这直接导致这种传统检测拦截方法的成功率较低。

【发明内容】

[0005]本发明所述的技术方案通过分析钓鱼网站存在的普遍共性特征,对待检测网站的首页页面源码进行爬取,并进一步判断是否存在重复相同的超链接URL,并继续判断这些重复的超链接URL所对应的超链接文本标签是否重复相同,若彼此不同,则该网站为钓鱼网站的可能性较大。本发明所述技术方案不仅能够迅速识别钓鱼网站,并且能够给出待检测网站为钓鱼网站的概率,从而降低误报。
[0006]本发明采用如下方法来实现:一种启发式检测钓鱼网站的方法,包括:
爬取待检测网站的首页页面源码;
提取待检测网站的所有超链接URL ;
判断是否存在重复的超链接URL,若不存在,则判定为安全网站,否则提取重复率最高的超链接URL对应的所有超链接文本标签;
计算提取的超链接文本标签的内容重复率,并基于内容重复率给出可疑指数A,所述A的值与所述内容重复率成反比;
基于A的值给出待检测网站为钓鱼网站的概率。
[0007]进一步地,在所述提取待检测网站的所有超链接URL之前,还包括:将所述待检测网站与白名单匹配,过滤已知安全网站。
[0008]进一步地,还包括:对待检测网站的内容进行爬取,并判断是否存在敏感库中存储的敏感词汇,若不存在,则为安全网站,否则设定可疑指数B,所述B的值根据经验设定;
所述基于A的值给出待检测网站为钓鱼网站的概率,替换为:基于A与B的值综合给出待检测网站为钓鱼网站的概率。
[0009]进一步地,还包括:判断待检测网站是否具备表单提交功能,若不具备,则为安全网站,否则设定可疑指数为C,所述C的值根据经验设定;
所述基于A的值给出待检测网站为钓鱼网站的概率,替换为:基于A与C的值综合给出待检测网站为钓鱼网站的概率。
[0010]更进一步地,还包括:判断所述表单提交过程是否为加密传输,若是,则设定可疑指数为D,否则设定可疑指数为d ;
所述D和d的值根据经验进行设定,并满足D小于d ;
所述基于A与C的值综合给出待检测网站为钓鱼网站的概率,替换为:基于A、C和D或者d的值综合给出待检测网站为钓鱼网站的概率。
[0011]本发明可以采用如下系统来实现:一种启发式检测钓鱼网站的系统,包括:
源码获取模块,用于爬取待检测网站的首页页面源码;
超链接提取模块,用于提取待检测网站的所有超链接URL ;
第一判定模块,用于判断是否存在重复的超链接URL,若不存在,则判定为安全网站,否则提取重复率最高的超链接URL对应的所有超链接文本标签;
计算模块,用于计算提取的超链接文本标签的内容重复率,并基于内容重复率设定可疑指数A,所述A的值与所述内容重复率成反比;
反馈模块,用于基于A的值给出待检测网站为钓鱼网站的概率。
[0012]进一步地,还包括:白名单过滤模块,用于将所述待检测网站与白名单匹配,过滤已知安全网站。
[0013]进一步地,还包括:敏感库匹配模块,用于对待检测网站的内容进行爬取,并判断是否存在敏感库中存储的敏感词汇,若不存在,则为安全网站,否则设定可疑指数B,所述B的值根据经验进行设定;
所述反馈模块,替换为:用于基于A与B的值综合给出待检测网站为钓鱼网站的概率。
[0014]进一步地,还包括:第二判定模块,用于判断待检测网站是否具备表单提交功能,若不具备,则为安全网站,否则设定可疑指数为C,所述C的值根据经验进行设定;
所述反馈模块,替换为:用于基于A与C的值综合给出待检测网站为钓鱼网站的概率。
[0015]更进一步地,还包括:第三判定模块,用于判断所述表单提交过程是否为加密传输,若是,则设定可疑指数为D,否则设定可疑指数为d ;
所述D和d的值根据经验进行设定,并满足D小于d ;
所述反馈模块,替换为:用于基于A、C和D或者d的值综合给出待检测网站为钓鱼网站的概率。
[0016]综上,本发明给出一种启发式检测钓鱼网站的方法及系统,首先,提取待检测网站的所有超链接URL,并判断是否存在重复的超链接URL,若不存在则为安全网站,否则找出重复率最高的超链接URL所对应的超链接文本标签,并进一步判断这些超链接文本标签是否重复相同,并计算内容重复率;该内容重复率越低,则待检测网站为钓鱼网站的可能性就越尚。
[0017]有益效果为:本发明通过分析钓鱼网站的普遍特性,例如,钓鱼网站的多数超链接文本标签是虚设的,不同的超链接文本标签实际上是对应一个超链接URL。本发明通过验证待检测网站是否存在上述特性,从而判断待检测网站为钓鱼网站的概率。同时,可以辅助本发明所提供的进一步的技术方案,从而综合判断待检测网站为钓鱼网站的概率,进而达到减少误报,并且快速发现钓鱼网站的目的。
【附图说明】
[0018]为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本发明提供的一种启发式检测钓鱼网站的方法实施例流程图;
图2为本发明提供的一种启发式检测钓鱼网站的系统实施例结构图。
【具体实施方式】
[0020]本发明给出了一种启发式检测钓鱼网站的方法及系统实施例,为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明:
本发明首先提供了一种启发式检测钓鱼网站的方法实施例,如图1所示,包括:
SlOl爬取待检测网站的首页页面源码;
S102提取待检测网站的所有超链接URL ;
S103判断是否存在重复的超链接URL,若否,则判定为安全网站,否则执行S104 ;即判断待检测网站中是否存在多个相同的超链接URL ;
S104提取重复率最高的超链接URL对应的所有超链接文本标签;
其中,若存在多个相同的超链接URL,则继续获取这些相同的超链接URL对应的超链接文本标签;所述超链接文本标签是指,网页内用于标注超链接的标签;
S105计算提取的超链接文本标签的内容重复率,并基于内容重复率给出可疑指数A,所述A的值与所述内容重复率成反比;
其中,所述内容重复率为,提取的超链接文本标签中标签内容相同的数量除以提取的超链接文本标签的总数量。所以,内容重复率越低,说明存在越多具备不同标签内容的超链接文本标签,指向同一个超链接URL,从而待检测网站为钓鱼网站的可疑指数A的值就越大;
通常钓鱼网站不会如真实网站那样做的比较精细,很多超链接文本标签形同虚设,都指向同一个可疑的超链接URL,这也是多数钓鱼网站的共性;
S106基于A的值给出待检测网站为钓鱼网站的概率。
[0021]其中,由于钓鱼网站的判断比较复杂,所以这里会根据可疑指数,从而反馈待检测网站为钓鱼网站的概率,供用户参考并做出合理的处置,避免由于误报而带来的损失。
[0022]优选地,在所述提取待检测网站的所有超链接URL之前,还包括:将所述待检测网站与白名单匹配,过滤已知安全网站。
[0023]如上,对待检测网站进一
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1