一种钓鱼网站检测方法

文档序号：7835573阅读：2421来源：国知局

专利名称：一种钓鱼网站检测方法
技术领域：
本发明属于计算机网络安全技术领域，具体涉及一种钓鱼网站检测方法。
背景技术：
网络钓鱼是一种企图从电子通信中，通过伪装成信誉卓著的法人媒体以获得如用户名、密码和信用卡明细等个人敏感信息的犯罪诈骗过程。一个典型的网络钓鱼攻击是发送声称来自于某银行欺骗性垃圾邮件，引诱收信人点击到一个伪装成这个银行的网页，让用户输入如用户名、口令、银行账号或信用卡密码等个人信息。自从钓鱼攻击出现以来，近年来钓鱼攻击的数量持续迅速增加，范围不断迅速增广，种类层出不穷，引起危害的迅速扩大。钓鱼网站(phishing site)已经成为威胁互联网安全和窃取用户隐私信息的重要因素，钓鱼网站的检测问题引起了越来越多的重视，成为了一个越来越迫切的问题。现有的钓鱼网站检测方法主要有两种，一种是基于黑名单、白名单形式的钓鱼网站检测方式，另一种是基于网站特征的启发式检测方式。基于白名单、黑名单的检测方式主要是要维护一个已经出现的钓鱼网站的黑名单和确定是正常网址的白名单。每次要访问某个网址的时候，通过比对名单上的网址，可以知道这个网址的可疑程度。这种方法的缺点在于攻击者可以通过构造网页内容一样，但是却是新的不在黑名单上的网址来绕过检测。基于网站特征的启发式检测是主要基于页面特征、URL特征等自身特征进行机器学习，从而得到检测钓鱼邮件的系统。但是攻击者很容易通过改变钓鱼网页的特征来绕过这种检测。以上两种方法都没有引入信用机制抵抗攻击者的恶意攻击。另外，其他一些重要的钓鱼网站检测方法也存在各种各样的缺陷。Anthony Y. Fu 等(Detecting phishing web pages with visual similarity assessment based on earth mover' s distance ；Anthony Y. Fu, Liu ffenyin, Xiaotie Deng ；IEEE TRANSACTIONS ON DEPENDABLEAND SECURE COMPUTING ；2006)提出基于视觉相似度检测钓鱼网页的方法-EMD (earth move distance) Anti-phishing方法。这个方法将 web页面转换为图片，并生成签名图片。然后，利用线性规划的EMD算法从像素级别比较两个签名图片的相似度。它与基于页面特征的方法一样，没有引入信用抵抗机制，容易被攻击者通过改变页面特征的方法来绕过。CANTINA(Carnegie Mellon Anti-phishing and Network Analysis Tool) Tj ..法(Cantina -.a content-based approach to detecting phishing web sites ； Y. Zhang, J. I. Hong, and L. F Cranor ；Proc. WWW, 2007, pp. 639-648 ；2007)是对某个待检测的网站 U,利用 TF-IDF (term frequency-inverse document frequency)算法(Term frequency-Inverse document frequency implementation in C# ；Dao，T. ；The Code Project-C#Programming Visited ；Nov 20,2006)进行特征提取，然后将这些特征作为关键词通过google搜索出前N个结果，看这前N个结果是否含有U的网址。如果不含，说明U 是仿冒的其他网站，疑似为钓鱼网站。CANTINA没有运用到网页间互相关联的思想，没有建立信用机制。如果某个流行网站不负责任地链接到待测嫌疑网站，CANTINA很可能不负责任地把待测嫌疑网站判断为可信网站。但是攻击者可以伪造流行网站到钓鱼网站的链接，从而造成CANTINA对钓鱼网站的漏报。所以CANTINA这种方法仍然涉及到利用网页的特征，与基于网页特征的检测方法一样，没有引入本文所述的信用抵抗机制，它容易被攻击者以改变网页内容和特征的方式绕过，从而容易导致高漏报率。iTrustPage(Itrustpage a user-assisted anti-phishing tool ；Ronda,Saroiu, Wolman ；ACMSIGOPS Operating Systems Review ；2008)是利用 PageRank来检测钓鱼网站，其工作原理是当用户需要在网页表格中输入信息的时候，让用户根据该表格的特征，定义该表格的搜索词，然后利用这些搜索词在Google里面搜索。如果得到的前十个结果中有用户正在填写的表格，就认为该表格不是钓鱼网站的表格；如果得到的前十个结果中没有用户正在填写的表格，而且前十个结果中有与目前表格相似的表格(由用户辅助标定)，则认为这个表格是可疑的。该方法只利用了 Google的搜索结果，没用到网页间互相关联的思想。这种方法与CANTINA—样，没有引入信用抵抗机制，不能抵抗流行网站的不负责任的链接，所以容易被攻击者以改变网页内容和特征的方式绕过。PageRank(The PageRank Citation Ranking :Bringing Order to the Web ；Page, Lawrenc e and Brin, Sergey and Motwani, Rajeev and ffinograd, Terry ；Technical Report. Stanford I nfoLab ； 1999)是Larry Page提出的一种网页排名算法。它的基本思想是与不流行网站相比，一个流行网站的特征是连接到它的流行网站较多。这种直观想法包含两个部分链接到一个网站的网站数目越多，这个网站越流行；链接到一个网站的网站流行度越高，这个网站越流行。换句话说，一个网站的流行度与链接到该网站的网站数目和链接到该网站的网站的流行度成正比。

发明内容
本发明的目的在于解决现有技术中钓鱼网站检测容易被绕过的问题和检测漏报率太高的问题，提出一种钓鱼网站检测方法，利用搜索技术中的I3ageRank思想和网站互联关系来建立网站的信用机制，能够实时有效地检测钓鱼网站，且不易被恶意攻击攻破。在整个互联网范围内，网页相互之间经常有链接。本发明的主要原理可以概述为链接到一个网站的安全网址越多，这个网站就越安全。该原理包括两个方面链接到一个网站的网站数目越多，这个网站越安全；链接到一个网站的网站可信度越高，这个网站越安全。换句话说，一个网站的可信度与链接到该网站的网站数目和链接到该网站的网站的可信度成正比。具体来说，本发明采用如下技术方案一种钓鱼网站检测方法，其步骤包括1)通过反链接提取得到一已知可信网站集合的反链接集合和一已知钓鱼网站集合的反链接集合，由所述各集合构成一网络拓扑结构集合；2)计算所述网络拓扑结构集合中网站的可信度，得到一可信度数据库；3)通过反链接提取得到待测网站的反链接集合；4)在所述可信度数据库中查找所述待测网站的反链接集合中网页的可信度，得到所述待测网站的可信度，5)将可信度低于一预设阈值的所述待测网站确定为钓鱼网站。
进一步地，通过搜索引擎Google提供的Wfeb karch Api服务或Yahoo提供的APi 进行所述反链接提取。但也可以采用其它方式，本发明并不限于此。进一步地，所述可信度的计算公式为
权利要求
1.一种钓鱼网站检测方法，其步骤包括.1)通过反链接提取得到一已知可信网站集合的反链接集合和一已知钓鱼网站集合的反链接集合，由所述各集合构成一网络拓扑结构集合；.2)计算所述网络拓扑结构集合中网站的可信度，得到一可信度数据库；.3)通过反链接提取得到待测网站的反链接集合；.4)在所述可信度数据库中查找所述待测网站的反链接集合中网页的可信度，得到所述待测网站的可信度，.5)将可信度低于一预设阈值的所述待测网站确定为钓鱼网站。
2.如权利要求1所述的方法，其特征在于，通过搜索引擎Google提供的ffebSearch Api服务或Yahoo提供的APi进行所述反链接提取。
3.如权利要求1所述的方法，其特征在于，所述可信度的计算公式为么 N(V)其中，R(U)为网页u的可信度，B(U)为链接到网页u的网页ν的集合，R(V)为网页ν 的可信度，N(V)为网页ν上正向链接的集合中元素的个数。
4.如权利要求3所述的方法，其特征在于，在计算所述可信度时，采用模式识别方法进行机器学习，使得已知钓鱼网站和已知可信网站的特征得以提取，以得到所述网络拓扑结构集合中网站的可信度。
5.如权利要求4所述的方法，其特征在于，所述模式识别方法包括线性回归方法、支持向量机方法和感知器神经网络算法。
6.如权利要求4所述的方法，其特征在于，所述预设阈值根据机器学习的结果来确定。
7.如权利要求6所述的方法，其特征在于，所述预设阈值为0.5。
8.如权利要求1所述的方法，其特征在于，将检测出的经人工确认的钓鱼网站加入步骤1)中所述的钓鱼网站集合，用以提高后续检测的正确率。
全文摘要
本发明提供一种钓鱼网站检测方法，首先通过反链接提取得到一已知可信网站集合的反链接集合和一已知钓鱼网站集合的反链接集合，并由所述各集合构成一网络拓扑结构集合；然后应用基于PageRank的网页可信度算法并结合模式识别方法计算所述网络拓扑结构集合中网站的可信度，得到一可信度数据库；再提取待测网站的反链接集合，在所述可信度数据库中查找该待测网站的反链接集合中网页的可信度，得到该待测网站的可信度，最后将可信度低于一预设阈值的待测网站确定为钓鱼网站。本发明的方法利用了网站间的互联关系，能够实时有效地检测钓鱼网站，且不易被恶意攻击攻破。
文档编号H04L29/06GK102571768SQ201110442188
公开日2012年7月11日申请日期2011年12月26日优先权日2011年12月26日
发明者张利华, 韦韬申请人:北京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韦韬;张利华
技术所有人：北京大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。