一种基于最近邻及相似度测量检测钓鱼网页的方法

文档序号：6423460阅读：183来源：国知局

专利名称：一种基于最近邻及相似度测量检测钓鱼网页的方法
技术领域：
本发明涉及一种钓鱼网页检测的方法，主要从网页整体视觉特性来提取特征值并进行相应的特征值距离计算从而对钓鱼网页进行匹配和识别，属于信息安全领域。
背景技术：
钓鱼网站是随着网络普及和在线交易增加而变得异常猖獗的网络诈骗行为。钓鱼网站是犯罪分子做出的诈骗网站，钓鱼网站通常与银行网站或其他知名网站几乎完全相同，从而引诱网站使用者在钓鱼网站上提交出敏感信息(如用户名、口令、银行帐号或信用卡详细信息等)[Zhang2007]。图1是钓鱼网站的体系结构。最典型的网络钓鱼攻击过程如下首先将用户引诱到一个通过精心设计与目标组织的网站非常相似的钓鱼网站上，然后获取用户在该钓鱼网站上输入的个人敏感信息，例如银行帐号、银行密码等。通常这个攻击过程不会让受害者警觉。这些个人信息对钓鱼网站持有者具有非常大的吸引力，通过使用窃取到的个人信息，他们可以假冒受害者进行欺诈性金融交易，获得极大的经济利益，而受害者们却因此而遭受到巨大的经济损失，非但如此，被窃取的个人信息还可能被用于其他非法活动。如何识别钓鱼网站，如何保证网站信息传输的保密完整性，愈发的显示出其重要性和必要性。当前钓鱼网站识别主要靠计算机自动识别和人工识别两种方式，人工识别采用黑名单机制，用户对某个网站进行举报，通过人工鉴定是否为钓鱼网站，这样显然速度太慢。计算机自动识别目前主要是基于页面视觉相似性检测方式判断是否为钓鱼网站，电脑通过抽取网页的视觉、文字特征与大多数主要的合法网站页面进行相似度对比或进行机器学习，从而判断是否为钓鱼网站。大多数用户会受骗，很多时候是由于钓鱼网页总是与真实网页有高度的相似性。由于人们一般都比较注重自己浏览网页的主要目的，进而忽视了安全性问题的提示，并且视觉欺骗率很高。由此人们想到从视觉角度来检测，基于视觉的检测分为基于HMTL文本的检测、基于布局的检测和基于图像[Chen2009]的检测。基于超文本链接标示语言文本的检测方法很多，如现有web文档识别方法的评估，叠瓦法，用单词序列来检测两个文档中的差异，以及随机投影算法，用单词的随机投影作为相似性检测的一个签名。但是由于超文本链接标示语言语言的灵活性和网页元素的动态性及丰富性，仿冒者可以轻易地做出视觉上一样但是超文本链接标示语言结构不同的网页，这样，基于超文本链接标示语言的匹配将会失效。基于布局特征和图像特征的网页相似检测方法根据人的视觉原理，对网页的相似性进行计算，是一种通用的检测方法，如2006年Fu等人提出了一种基于像素的EMD距离的匹配算法[Fu2006]，这种算法是在像素水平上从视觉的相似性角度来察觉钓鱼网页的。从实验结果可以看出效果要明显好于基于超文本链接标示语言内容的检测，但也有其局限性，该算法只考虑了网页图像中的颜色及其分布特点，没有考虑网页中不同部分之间的位置关系。根据格斯塔视觉原理，相对位置在人的视觉中占主要地位，特别是多个形体间的相对位置关系，相对位置关系的变化必然导致视觉上的区别，而该算法由于没有考虑相对位置因素可能导致相似检测的失效，所以这种方法只能检测出与真实网页在视觉上有相似性的网页。钓鱼者为了取得用户的信任，通常会模仿合法网站来构建钓鱼网站，所以一个钓鱼网站跟它的目标网站是有很好关联的。根据格斯塔理论，可以认为网页是一个不可分割的整体。简化复杂信息，获取主要信息，对一系列的问题进行整合。基于这种两种思想，结合网页之间的关联性和网页的整体性，可以有效地判断是否为钓鱼网页。[Zhang2007] Y. Zhang, J. Hong, and L. Cranor. Cantina :A content-based approachto detecting phishing websites. WWW,2007.[Fu2006]Anthony Y. Fu, Wenyin Liu, Xiaotie Deng. Detecting Phishing Web Pageswith Visual Similarity Assessment based on Earth Mover' s Distance (EMD). IEEE Transactions on Dependable and Secure Computing,2006,3(4), pages 301-311. [Chen2009]K. -T. Chen, J. -Y. Chen, C. -R. Huang, and C. -S. Chen. Fighting Phishingwith Discriminative Keypoint Features of ffebpages. IEEE Internet Computing,2009.

发明内容
技术问题本发明的目的是提供一种基于最近邻及相似度测量检测钓鱼网页的方法，以往钓鱼网页识别主要通过人工识别，目前现有的计算机识别的钓鱼网页检测技术主要从网页元素角度对检测网页进行匹配检测，匹配速度往往无法达到实际使用的要求。本发明从网页整体视觉性进行特征提取、特征距离计算，大大提高了页面匹配的速度，同时保证了高精度和低误判率。技术方案钓鱼者为了取得用户的信任，他们通常会模仿合法网页来构建钓鱼网页，所以一个钓鱼网页与它的目标网页是有很大的视觉相似性的。这为我们采用基于钓鱼网页的视觉相似性检测研究提供了可能性。我们的目标就是在尺度不变特征转换算法提取特征的基础上建立基于陆地移动距离的相似度计算的分类模型，高效地对钓鱼网页的视觉性进行检测。我们提出一种新的检测钓鱼网页的方法，改善钓鱼网页的检测精确度和效率。基于最近邻及相似度测量检测钓鱼网页的方法是以网页整体图像的图片为出发点，提取其尺度不变转化特征在钓鱼网页检测阶段进行相似特征的快速查询，查询所得相似特征交给机器学习匹配模块进行识别；机器学习匹配模块在系统训练阶段接收特征提取模块传来的特征数据进行训练，优化网页相似性阈值的参数；在钓鱼网页检测阶段，接收特征提取模块传来的特征数据，计算网页之间的相似度，最后根据网页相似性阈值判断钓鱼网页；另外，还加入了一种分类方法一贝叶斯可添加回归树，对可疑网页进行预测；在钓鱼网页检测过程中通过提取特征，以此作为钓鱼网页检测的依据，具体实现步骤为步骤1)训练阶段数据准备过程采集可能被钓鱼网页模仿的正规网站页面，并用图像特征提取算法提取网页图片的特征组织成样本数据；采集钓鱼网站页面以及普通网页，并提取尺度不变转化特征组织成检测数据；步骤2)待检测数据集的标定过程将待检测数据中的所有普通网页标注为“0”，表示非钓鱼网页；再将待检测数据中的所有钓鱼网页标注为“1”，表示钓鱼网页；步骤3)对所有待检测网页的特征在训练库中查找相似的特征，并统计找到每一个检测网页在库中最相似的网页，计算它们的相似度作为待检测网页最终的相似度；
步骤4)将所有待检测网页的标注以及待检测网页与库的相似度送入机器学习匹配模块，遍历所有可能的相似度阈值，找到一个值使得相似度大于这个值的钓鱼网页数量与相似度小于这个值的钓鱼网页数量差值最大，那么这个值就可以作为钓鱼网页相似度阈值；步骤5)对疑似钓鱼网页的检测过程对可疑网页采集特征；用可疑网页的特征在训练库中查找相似的特征，并统计找到可疑网页在库中最相似的网页，以它们的相似度作为可疑网页最终的相似度；将待可疑网页与库的相似度送入训练好的匹配模块进行预测，预测所得结果作为本方案最终的钓鱼网站检测结果。有益效果高准确率本发明方法综合了尺度不变转换算法特征提取和陆地移动距离算法的文本和图像特征。将网页以图片形式保存，然后提取其尺度不变特征转换特征，计算尺度不变特征转换等特征的陆地移动距离。通过使用本发明的方法，能够提高钓鱼网页检测的精度和召回率，节省程序运算时间和空间。

图1是钓鱼邮件体系结构图2是基于不变特征转换的钓鱼检测特征处理流程3是分类器分类流程
具体实施例方式实施方法需要以下步骤步骤1)收集钓鱼网页、对应合法网页及其他合法网页数据集从网站http://www. phishtank. com/收集钓鱼网页；与钓鱼网页对应的合法网页；普通的其它合法网页。步骤2)对收集到的数据进行特征的提取将搜集的网页保存为图片的形式，对这些图片可以提取各种颜色特征，纹理特征，形状特征，以及一些能用在局部不变的SIFT (Scale-invariant featuretransform)特征。步骤3)通过提取的网页图片的特征来计算两个图片的陆地移动距离。步骤4)用机器学习方法进行训练，获取一个阈值；步骤5)选定好阈值后，对可疑网页进行预测。本发明技术方案具体分为三大部分1.特征提取部分钓鱼者为了试图取得用户的信任，通常会模拟合法网页来构建钓鱼网页，所以一个钓鱼网站和它的目标网站有很好的视觉相似性。这使得从视觉上进行钓鱼网页的检测成为可能。本发明用尺度不变特征转换算法提取不变特征描述符作为网页图片特征库，则图片的签名为； = {(灼，Wp1 )，(p2, Wp2),...，(pm，Wpm ) }.Pi为不变特征描述符，Pi的权重，m为不变特征描述符的个数，i = {1,2,…
m} ο
2.相似度计算部分提取好特征后，对尺度不变特征转换算法等提取的图片特征计算其与标准网页图片数据库中每一个图片的陆地移动距离，并选取其中最小值，记为Di，i = {1,2,…，N}；其EMD距离
权利要求
1. 一种基于最近邻及相似度测量检测钓鱼网页的方法，其特征在于该方法是以网页整体图像的图片为出发点，提取其尺度不变转化特征在钓鱼网页检测阶段进行相似特征的快速查询，查询所得相似特征交给机器学习匹配模块进行识别；机器学习匹配模块在系统训练阶段接收特征提取模块传来的特征数据进行训练，优化网页相似性阈值的参数；在钓鱼网页检测阶段，接收特征提取模块传来的特征数据，计算网页之间的相似度，最后根据网页相似性阈值判断钓鱼网页；另外，还加入了一种分类方法一贝叶斯可添加回归树，对可疑网页进行预测；在钓鱼网页检测过程中通过提取特征，以此作为钓鱼网页检测的依据，具体实现步骤为步骤1)训练阶段数据准备过程采集可能被钓鱼网页模仿的正规网站页面，并用图像特征提取算法提取网页图片的特征组织成样本数据；采集钓鱼网站页面以及普通网页，并提取尺度不变转化特征组织成检测数据；步骤2)待检测数据集的标定过程将待检测数据中的所有普通网页标注为“0”，表示非钓鱼网页；再将待检测数据中的所有钓鱼网页标注为“1”，表示钓鱼网页；步骤3)对所有待检测网页的特征在训练库中查找相似的特征，并统计找到每一个检测网页在库中最相似的网页，计算它们的相似度作为待检测网页最终的相似度；步骤4)将所有待检测网页的标注以及待检测网页与库的相似度送入机器学习匹配模块，遍历所有可能的相似度阈值，找到一个值使得相似度大于这个值的钓鱼网页数量与相似度小于这个值的钓鱼网页数量差值最大，那么这个值就可以作为钓鱼网页相似度阈值；步骤5)对疑似钓鱼网页的检测过程对可疑网页采集特征；用可疑网页的特征在训练库中查找相似的特征，并统计找到可疑网页在库中最相似的网页，以它们的相似度作为可疑网页最终的相似度；将待可疑网页与库的相似度送入训练好的匹配模块进行预测，预测所得结果作为本方案最终的钓鱼网站检测结果。
全文摘要
一种基于最近邻及相似度测量检测钓鱼网页的方法是以网页整体图像的图片为出发点，提取其尺度不变转化特征在钓鱼网页检测阶段进行相似特征的快速查询，查询所得相似特征交给机器学习匹配模块进行识别；机器学习匹配模块在系统训练阶段接收特征提取模块传来的特征数据进行训练，优化网页相似性阈值的参数；在钓鱼网页检测阶段，接收特征提取模块传来的特征数据，计算网页之间的相似度，最后根据网页相似性阈值判断钓鱼网页；另外，还加入了一种分类方法——贝叶斯可添加回归树，对可疑网页进行预测；在钓鱼网页检测过程中通过提取特征，以此作为钓鱼网页检测的依据，在保证高准确率的同时，显著减小网页检测时间。
文档编号G06F17/30GK102170447SQ20111011244
公开日2011年8月31日申请日期2011年4月29日优先权日2011年4月29日
发明者周国强, 张卫丰, 张迎周, 李涛贤, 许碧欢, 陆柳敏申请人:南京邮电大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张卫丰;李涛贤;周国强;张迎周;许碧欢;陆柳敏
技术所有人：南京邮电大学
我是此专利的发明人

上一篇：多处理器的运作控制方法及其系统的制作方法
上一篇：利用改进的高斯混合模型分类器检测图像垃圾邮件的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。