一种启发式检测钓鱼网站的方法及系统的制作方法_2

文档序号:9888018阅读:来源:国知局
步处理之前,先通过与白名单匹配的形式,过滤已知安全网站,例如:淘宝网、京东网、各银行官网等已知安全网站。从而,可以有效减少进入后续检测步骤的待检测网站数量,能够有效提尚检测效率,节省检测时间。
[0024]优选地,还包括:对待检测网站的内容进行爬取,并判断是否存在敏感库中存储的敏感词汇,若不存在,则为安全网站,否则设定可疑指数B,所述B的值根据经验设定;
所述基于A的值给出待检测网站为钓鱼网站的概率,替换为:基于A与B的值综合给出待检测网站为钓鱼网站的概率。
[0025]其中,所述B可以根据不同的敏感词汇设置不同的值,或者针对网站内容中出现的敏感词汇的数量,适当增大B的值。
[0026]其中,所述敏感库中存储的敏感词汇,是日常收集和更新的有可能诱导用户输入敏感信息的词汇,包括:QQ号、密码、支付宝、各种银行的全称和简称、各种游戏账号名称或者财付通等;若待检测网站内容中存在敏感词汇,则针对该敏感词汇的级别设定可疑指数B ;进而依据A和B的值从而综合判定待检测网站为钓鱼网站的概率,该技术手段能够大大减少误报,提高检测准确性。
[0027]优选地,还包括:判断待检测网站是否具备表单提交功能,若不具备,则为安全网站,否则设定可疑指数为C,所述C的值根据经验设定;
所述基于A的值给出待检测网站为钓鱼网站的概率,替换为:基于A与C的值综合给出待检测网站为钓鱼网站的概率。
[0028]其中,一般具备表单提交功能的网站,实现钓鱼网站的可能性更大,利用该技术手段,可以有效过滤掉多数的纯静态的网页;从而节省检测所需时间,也提高了钓鱼网站的检出率。
[0029]更优选地,还包括:判断所述表单提交过程是否为加密传输,若是,则设定可疑指数为D,否则设定可疑指数为d ;
所述D和d的值根据经验进行设定,并满足D小于d ;
所述基于A与C的值综合给出待检测网站为钓鱼网站的概率,替换为:基于A、C和D或者d的值综合给出待检测网站为钓鱼网站的概率。
[0030]其中,通过对于已知钓鱼网站的分析发现,与多数安全网站对表单进行加密不同,多数钓鱼网站手法不够精密,会明文传输用户提交的敏感信息。基于此,本发明认为表单被明文传输比被加密传输更有可能是钓鱼网站,从而提出,基于A、C和D或者d的值综合判断待检测网站是否为钓鱼,会达到更好的检出效果和准确性。例如,通过判断所述表单是否采用了 443端口进行HTTP加密传输,若是,则设定D的值,否则设定d的值,进而组合其他判定方法给出的可疑指数,进一步判断是否是钓鱼网站。
[0031]本发明还提供了一种启发式检测钓鱼网站的系统实施例,如图2所示,包括: 源码获取模块201,用于爬取待检测网站的首页页面源码;
超链接提取模块202,用于提取待检测网站的所有超链接URL ;
第一判定模块203,用于判断是否存在重复的超链接URL,若不存在,则判定为安全网站,否则提取重复率最高的超链接URL对应的所有超链接文本标签;
计算模块204,用于计算提取的超链接文本标签的内容重复率,并基于内容重复率设定可疑指数A,所述A的值与所述内容重复率成反比;
反馈模块205,用于基于A的值给出待检测网站为钓鱼网站的概率。
[0032]优选地,还包括:白名单过滤模块,用于将所述待检测网站与白名单匹配,过滤已知安全网站。
[0033]优选地,还包括:敏感库匹配模块,用于对待检测网站的内容进行爬取,并判断是否存在敏感库中存储的敏感词汇,若不存在,则为安全网站,否则设定可疑指数B,所述B的值根据经验进行设定;
所述反馈模块,替换为:用于基于A与B的值综合给出待检测网站为钓鱼网站的概率。
[0034]优选地,还包括:第二判定模块,用于判断待检测网站是否具备表单提交功能,若不具备,则为安全网站,否则设定可疑指数为C,所述C的值根据经验进行设定;
所述反馈模块,替换为:用于基于A与C的值综合给出待检测网站为钓鱼网站的概率。
[0035]更优选地,还包括:第三判定模块,用于判断所述表单提交过程是否为加密传输,若是,则设定可疑指数为D,否则设定可疑指数为d ;
所述D和d的值根据经验进行设定,并满足D小于d ;
所述反馈模块,替换为:用于基于A、C和D或者d的值综合给出待检测网站为钓鱼网站的概率。
[0036]如上所述,所给实施例抓取待检测网站的首页页面源码,判断是否存在重复的超链接URL,提取所述重复率最高的超链接URL所对应的所有超链接文本标签;进一步判断这些超链接文本标签中相同的文本标签所占的比率,即内容重复率;并基于内容重复率的数值给出待检测网站为钓鱼网站的可疑指数A的值。同时,本发明还给出了可以辅助判断待检测网站是否为钓鱼网站的其他技术手段。
[0037]综上,基于传统检测钓鱼网站的弊端,本发明通过分析钓鱼网站的共性,即多数钓鱼网站做的比较粗糙,同时为了引导用户上传敏感信息,网站上的多数超链接文本标签都指向同一个超链接URL。因此,本发明提出主要针对重复超链接URL所对应的超链接文本标签进行检测,判断所述超链接文本标签的内容重复率,从而给出待检测网站为钓鱼网站的概率。本发明同时公开了其他辅助判断的技术手段,能够进一步提高检测的准确性。本发明可以为用户提供本网站为钓鱼网站的概率,避免直接给出是否为钓鱼网站的判定结果,而是为用户提供更多的信息,辅助用户做出更准确的决策。
[0038]以上实施例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换,均应涵盖在本发明的权利要求范围当中。
【主权项】
1.一种启发式检测钓鱼网站的方法,其特征在于,包括: 爬取待检测网站的首页页面源码; 提取待检测网站的所有超链接URL ; 判断是否存在重复的超链接URL,若不存在,则判定为安全网站,否则提取重复率最高的超链接URL对应的所有超链接文本标签; 计算提取的超链接文本标签的内容重复率,并基于内容重复率给出可疑指数A,所述A的值与所述内容重复率成反比; 基于A的值给出待检测网站为钓鱼网站的概率。2.如权利要求1所述的方法,其特征在于,在所述提取待检测网站的所有超链接URL之前,还包括:将所述待检测网站与白名单匹配,过滤已知安全网站。3.如权利要求1所述的方法,其特征在于,还包括:对待检测网站的内容进行爬取,并判断是否存在敏感库中存储的敏感词汇,若不存在,则为安全网站,否则设定可疑指数B,所述B的值根据经验设定; 所述基于A的值给出待检测网站为钓鱼网站的概率,替换为:基于A与B的值综合给出待检测网站为钓鱼网站的概率。4.如权利要求1所述的方法,其特征在于,还包括:判断待检测网站是否具备表单提交功能,若不具备,则为安全网站,否则设定可疑指数为C,所述C的值根据经验设定; 所述基于A的值给出待检测网站为钓鱼网站的概率,替换为:基于A与C的值综合给出待检测网站为钓鱼网站的概率。5.如权利要求4所述的方法,其特征在于,还包括:判断所述表单提交过程是否为加密传输,若是,则设定可疑指数为D,否则设定可疑指数为d ; 所述D和d的值根据经验进行设定,并满足D小于d ; 所述基于A与C的值综合给出待检测网站为钓鱼网站的概率,替换为:基于A、C和D或者d的值综合给出待检测网站为钓鱼网站的概率。6.一种启发式检测钓鱼网站的系统,其特征在于,包括: 源码获取模块,用于爬取待检测网站的首页页面源码; 超链接提取模块,用于提取待检测网站的所有超链接URL ; 第一判定模块,用于判断是否存在重复的超链接URL,若不存在,则判定为安全网站,否则提取重复率最高的超链接URL对应的所有超链接文本标签; 计算模块,用于计算提取的超链接文本标签的内容重复率,并基于内容重复率设定可疑指数A,所述A的值与所述内容重复率成反比; 反馈模块,用于基于A的值给出待检测网站为钓鱼网站的概率。7.如权利要求6所述的系统,其特征在于,还包括:白名单过滤模块,用于将所述待检测网站与白名单匹配,过滤已知安全网站。8.如权利要求6所述的系统,其特征在于,还包括:敏感库匹配模块,用于对待检测网站的内容进行爬取,并判断是否存在敏感库中存储的敏感词汇,若不存在,则为安全网站,否则设定可疑指数B,所述B的值根据经验进行设定; 所述反馈模块,替换为:用于基于A与B的值综合给出待检测网站为钓鱼网站的概率。9.如权利要求6所述的系统,其特征在于,还包括:第二判定模块,用于判断待检测网站是否具备表单提交功能,若不具备,则为安全网站,否则设定可疑指数为C,所述C的值根据经验进行设定; 所述反馈模块,替换为:用于基于A与C的值综合给出待检测网站为钓鱼网站的概率。10.如权利要求9所述的系统,其特征在于,还包括:第三判定模块,用于判断所述表单提交过程是否为加密传输,若是,则设定可疑指数为D,否则设定可疑指数为d ; 所述D和d的值根据经验进行设定,并满足D小于d ; 所述反馈模块,替换为:用于基于A、C和D或者d的值综合给出待检测网站为钓鱼网站的概率。
【专利摘要】本发明公开了一种启发式检测钓鱼网站的方法,包括:爬取待检测网站的首页页面源码;提取待检测网站的所有超链接URL;判断是否存在重复的超链接URL,若不存在,则判定为安全网站,否则提取重复率最高的超链接URL对应的所有超链接文本标签;计算提取的超链接文本标签的内容重复率,并基于内容重复率给出可疑指数A,所述A的值与所述内容重复率成反比;基于A的值给出待检测网站为钓鱼网站的概率。本发明还公开了一种启发式检测钓鱼网站的系统。本发明所公开的技术方案从钓鱼网站本身的共性出发,快速准确地识别钓鱼网站。
【IPC分类】G06F21/55, G06F17/30
【公开号】CN105653941
【申请号】
【发明人】张慧云, 李柏松
【申请人】哈尔滨安天科技股份有限公司
【公开日】2016年6月8日
【申请日】2015年7月31日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1