一种基于url分类的钓鱼网站检测方法

文档序号:7857740阅读:1527来源:国知局
专利名称:一种基于url分类的钓鱼网站检测方法
技术领域
本发明属于网络安全领域,涉及一种反网络钓鱼的方法,特别涉及一种基于URL(网页地址)分类的钓鱼网站检测方法。
背景技术
网络钓鱼攻击已经成为当前网上交易安全的一个重大威胁,其对电子商务的发展造成了很大阻碍,因而对钓鱼防范的研究成为网络安全领域的热点问题。钓鱼网站的规模逐年成倍递增,从机器学习与模式识别角度讲,大量的钓鱼网站已经呈现出一种有迹可循的模式,这给用模式识别的方法进行学习分类带来了一定的应用空间。目前存在的基于模式识别的钓鱼网站判别方法主要有 基于邮件特征的钓鱼邮件检测方法。其主要方法是通过对大量钓鱼邮件的学习训练找出一组普遍存在的现象特征。方案从邮件的语言,布局以及结构入手获取诸如特殊句法,结构布局特点,词汇使用模式,反常语言应用等特征。基于网页文本特征的钓鱼网页检测方法。该方法借助于TF-IDF算法计算一篇文档中的重要程度较高的词汇,然后以这些词汇为网页特征对网页进行分类,分类过程借鉴了 google对网页的评价排名。基于网页图像相似度得钓鱼网页检测。首先将HTML网页转换为标准图片形式,提取主色调和图片重心位置等属性标示图片特征,然后应用EMD (Earth Mover’s Distance)算法计算两图像间的相似度,设定一个阈值判断当前网页是否有模仿现象。目前钓鱼检测方法存在一定的不足,无论是基于邮件特征还是基于网页特征都要通过对邮件或网页内容进行整体分析,这可能带来以下问题,一是邮件或网页标准不统一,这导致预先设定的检测特征有可能缺失;二是对邮件或网页进行整体分析花费时间较多,从应用角度来讲可能超过用户所能忍受的网络延时;三是受保护机构合法邮件或网页更新时,检测机构没有相应的联动机制。

发明内容
发明目的针对上述现有技术存在的问题和不足,本发明的目的是提供一种适用性强、效率高的基于URL分类的钓鱼网站检测方法。技术方案为实现上述发明目的,本发明采用的技术方案为一种基于URL分类的钓鱼网站检测方法,包括如下步骤(I)对钓鱼网站的URL特征进行归纳分析,并将所述URL特征向量化;(2)根据URL特征向量,对原始数据进行训练得到初始分类模型。进一步地,还包括步骤(3):检测钓鱼网站的服务器根据在线增量学习策略对当前分类模型进行升级。进一步地,所述步骤(I)中,钓鱼网站的URL特征包括DURL中存在IP地址。一定比例的钓鱼URL包含有IP地址,而在合法URL中几乎不存在包含IP地址的情况;2)用”来对域名进行混淆。钓鱼网页往往通过用很多”来隔开一个正常的字段以达到迷惑用户的目的,如http //paypal. com. online-update. onlinebanking. service, customer. /而这种URL在合法网站几乎很少见到;3) URL路径深度异常。即URL中包括“/”的数目,伪造的URL通过加长路径来混淆合法网址;4)包含特殊字符。如在钓鱼URL中经常会出现;5)存在较多数字、字母相混合的情况。该特征在合法URL与钓鱼URL中都有体现,但在钓鱼URL中更为明显; 6)域名字段长度异常。一般情况下,认为出现在‘http ://’与第一个‘/’之间的字符串为域名字段,大部分合法URL的域名长度比较适中,而有一部分钓鱼URL此部分长度显得过长;7) PageRank排名较低。PageRank是Google对所收录网页按照重要程度进行的排名,在检测中发现,绝大部分钓鱼URL此项数值较低或没有记录。8)合法域名篡改。钓鱼网站域名往往对合法网站域名进行篡改,如把“paypal”中的字母“ I ”替换为数字“ I ”,根据一定方法可以对该现象进行检测。9)可疑词汇。钓鱼URL中有些词汇出现频率较高,如“login”,“account”等,根据一定方法可以对这些可疑词汇进行统计提取。对URL特征I)至6)采用正则表达式匹配的方式获取,对URL特征7)通过谷歌获取,对URL特征8)和9)进行特征建模。进一步地,所述步骤(I)中,域名篡改特征的检测方法为设从URL提取出的域名字符串U = U^U2'…、Um,受保护域名字符串T = tp t2、;计算分别以Ui和&结束的两个域名子字符串的最大相似度值,该最大相似度值用Hi,j表示,那么根据Ui与&相对位置的不同,Hiij值有以下四种情况I)两子字符串到Ui与&结束时长度相同,此时有Hi, j = Hh,h+s (Ui, tj)其中
权利要求
1.一种基于URL分类的钓鱼网站检测方法,包括如下步骤 (1)对钓鱼网站的URL特征进行归纳分析,并将所述URL特征向量化; (2)根据URL特征向量,对原始数据进行训练得到初始分类模型。
2.根据权利要求I所述一种基于URL分类的钓鱼网站检测方法,其特征在于还包括步骤(3):检测钓鱼网站的服务器根据在线增量学习策略对当前分类模型进行升级。
3.根据权利要求I所述一种基于URL分类的钓鱼网站检测方法,其特征在于所述步骤(I)中,钓鱼网站的URL特征包括 1)URL中存在IP地址; 2)用来对域名进行混淆; 3)URL路径深度异常; 4)包含特殊字符; 5)存在较多数字、字母相混合的情况; 6)域名字段长度异常; 7)PageRank排名较低; 8)域名由合法域名篡改而来; 9)存在可疑词汇; 对URL特征I)至6)采用正则表达式匹配的方式获取,对URL特征7)通过谷歌获取,对URL特征8)和9)进行特征建模。
4.根据权利要求3所述一种基于URL分类的钓鱼网站检测方法,其特征在于所述步骤(I)中,域名篡改特征的检测方法为设从URL提取出的域名字符串U = U1, U2,…、Uffl,受保护域名字符串T = tp t2、; 计算分别以Ui和&结束的两个域名子字符串的最大相似度值,该最大相似度值用Hu表示,那么根据Ui与&相对位置的不同,Hiij值有以下四种情况 1)两子字符串到Ui与结束时长度相同,此时有 Hi, j = Us(UiJj) 其中
5.根据权利要求3所述一种基于URL分类的钓鱼网站检测方法,其特征在于所述步骤(I)中,可疑词汇特征的统计步骤为 步骤I :构造一棵空的广义后缀树GST,设定路径结束符为“ $”; 步骤2 将URL字符串产生的后缀依次插入GST,若遇到相同后缀则合并当前节点,若无已存在的相同后缀则分裂当前节点产生新的后缀节点; 步骤3 :重复步骤2直至URL集合中的所有URL处理完毕,此时GST构建完成; 步骤4 :初始化Map集合S〈P,S〉,其中P表示路径集合,S表示P所对应的字符串; 步骤5 :遍历GST,对于每个节点所对应的路径e,查询其所属的URL子字符串S,根据s搜索Map集合5得到s所对应的所有路径集合p’,如果$’=0,则将路径e和其子字符串s组合成<e,s>加入到Map集合5中,否则转步骤6 ; 步骤6 :如果e比p’中任一路径都要长,则p’ = p’ Ue ; 步骤7 :重复步骤5、6,直到所有路径都遍历完成; 步骤8 :遍历集合8〈P,S〉,输出s出现次数超过k次的s的集合D,D即为所求。
6.根据权利要求I所述一种基于URL分类的钓鱼网站检测方法,其特征在于所述步骤(2)中,根据URL特征向量,采用支持向量机算法对所述URL特征向量进行训练得到初始分类模型M,用于对待检测URL进行分类。
7.根据权利要求2所述一种基于URL分类的钓鱼网站检测方法,其特征在于所述在线增量学习策略包括如下步骤 步骤I :定义两个空数据集C-SET与B-SET,其中C-SET用于存放分类器训练样本,B-SET用于存放增量过程中的丢弃样本; 步骤2 :定义初始样本集为Yh,此时有C-SET = Yh ; 步骤3 :以Yh为训练样本得到初始分类器WH,以Wh检验增量样本集Y1,其中违背KKT条件的样本记为Y/K,符合KKT条件的样本记为Y/,若YinK=O则本轮增量结束,否则转步骤.4 ; 步骤4 :令C-SET=C-SET U Y , B-SET=B-SET U Y115 ;对C-SET进行训练得到增量分类器屯1;步骤5 :利用对B-SET进行再分类得到YBffi,若Ybnk=0,则为最终增量 分类器,否则令C-SET=C-SET U YBNK,对C-SET进行再次训练得到修正的最终分类器W。。
全文摘要
本发明公开了一种基于URL分类的钓鱼网站检测方法,包括如下步骤对钓鱼网站的URL特征进行归纳分析,并将所述URL特征向量化;根据URL特征向量,对原始数据进行训练得到初始分类模型。本发明适用性强、效率高。
文档编号H04L29/06GK102739679SQ20121022350
公开日2012年10月17日 申请日期2012年6月29日 优先权日2012年6月29日
发明者东方, 刘波, 吴江林, 曹玖新, 杨鹏伟, 王田峰, 罗军舟, 董丹 申请人:东南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1