一种基于空间布局与视觉特征的钓鱼网页检测方法

文档序号:7655768阅读:199来源:国知局
专利名称:一种基于空间布局与视觉特征的钓鱼网页检测方法
技术领域
本发明涉及一种钓鱼页检测的方法,主要从网页视觉布局视觉相似性角度对钓鱼网页进行匹配和识别,属于信息安全领域。
背景技术
钓鱼网站是随着网络普及和在线交易增加而变得异常猖獗的网络诈骗行为。钓鱼网站是犯罪分子做出的诈骗网站,钓鱼网站通常与银行网站或其他知名网站几乎完全相同,从而引诱网站使用者在钓鱼网站上提交出敏感信息(如用户名、口令、银行帐号或信用卡详细信息等)[Zhang2007]。图1是钓鱼网站的体系结构。最典型的网络钓鱼攻击过程如下首先将用户引诱到一个通过精心设计与目标组织的网站非常相似的钓鱼网站上,然后获取用户在该钓鱼网站上输入的个人敏感信息,例如银行帐号、银行密码等。通常这个攻击过程不会让受害者警觉。这些个人信息对钓鱼网站持有者具有非常大的吸引力,通过使用窃取到的个人信息,他们可以假冒受害者进行欺诈性金融交易,获得极大的经济利益,而受害者们却因此而遭受到巨大的经济损失,非但如此,被窃取的个人信息还可能被用于其他非法活动。如何识别钓鱼网站,如何保证网站信息传输的保密完整性,愈发的显示出其重要性和必要性。大多数用户会受骗,很多时候是由于钓鱼网页总是与真实网页有高度的相似性。 计算相似性的方法很多,文献[Liu2005]、[Fu2006]、[Chen2009]、[Afroz2009]。正如[Dhamija2006]、[Jackson2007]、[Afroz2009]中提到的,由于人们一般都比较注重自己浏览网页的主要目的,进而忽视了安全性问题的提示,并且视觉欺骗率很高。 由此人们想到从视觉角度来检测,基于视觉的检测分为基于HMTL文本的检测、基于布局 [Liu2005]、[Afroz2009]的检测和基于图像[Chen2009]的检测。由于HMTL语言的灵活性和网页元素的动态性及丰富性,仿冒者可以轻易地做出视觉上一样但是HMTL结构不同的网页,这样,基于HMTL的匹配将会失效。基于布局特征和图像特征的网页相似检测方法根据人的视觉原理,对网页的相似性进行计算,是一种通用的检测方法,如2006年Fu等人提出了一种基于像素的EMD距离的匹配算法[Fu2006],这种算法是在像素水平上从视觉的相似性角度来察觉钓鱼网页的。从实验结果可以看出效果要明显好于基于HTML内容的检测,但也有其局限性,该算法只考虑了网页图像中的颜色及其分布特点,没有考虑网页中不同部分之间的位置关系。根据格斯塔视觉原理,相对位置在人的视觉中占主要地位,特别是多个形体间的相对位置关系,相对位置关系的变化必然导致视觉上的区别,而该算法由于没有考虑相对位置因素可能导致相似检测的失效,所以这种方法只能检测出与真实网页在视觉上有相似性的网页。[Cao2009]在Fu的基础上解决了相对位置的问题,首先对网页进行分块,然后再用EMD算法计算相似度。空间数据库是一种在地理信息方面应用较多的空间查询技术,采用R树为数据结构。由于网页布局特征信息需要查找视觉上靠近的所有矩形,这里结合空间数据库存储网页的特征,可以快速获取特征库中所有视觉上相似以及位置上靠近的布局特征。
[Zhang2007] Y. Zhang, J. Hong, and L. Cranor. Cantina :A content-based approach todetecting phishing websites. WWW,2007[Fu2006]Anthony Y. Fu, Wenyin Liu, Xiaotie Deng. Detecting Phishing Web Pages withVisual Similarity Assessment based on Earth Mover' s Distance (EMD). IEEETransactions on Dependable and Secure Computing, 2006, 3(4), pages 301-311[Dong2010]X. Dong, J. A. Clark, J. L. Jacob. Defending the weakest 1 ink :phishingwebsites detection by analysing user behaviours.Springer Science+Business Media, LLC 2010.[Liu2010]ff. Y. Liu, N. Fang, X. J. Quan, B. Qiu, G. Liu. Discovering phishing target based onsemantic link network. Future Generation Comp. Syst. ,2010 :381 388. [Cao2009] Jiuxin Cao, Bo Mao, Junzhou Luo, and Bo Liu. A Phishing Web Pages DetectionAlgorithm Based on Nested Structure of Earth Mover' s Distance (Nested-EMD). Chinese Journal of Computers. 2009, (05) -.922-929.(中文曹玖新,毛波,罗军舟,刘波.基于嵌套EMD的钓鱼网页检测算法.计算机学报,2009,(05) 922-929.)

发明内容
技术问题本发明的目的是提供一种基于空间布局与视觉特征的钓鱼网页检测方法,以往钓鱼网页识别主要通过人工识别,目前现有的计算机识别的钓鱼网页检测技术主要从网页元素角度对检测网页进行匹配检测,匹配速度往往无法达到实际使用的要求。本发明从网页的布局角度进行特征抽取、特征匹配,大大提高页面匹配的速度,配合对应图块之间的图片视觉特征的相似性对比,在提高检测速度的同时保证了高精度和低误判率。技术方案本发明结合浏览器渲染引擎,对指定的可疑网页进行视觉布局特征抽取,再利用空间数据库索引查找空间位置相近、视觉相似的布局特征,经过统计分析找到样本空间中最为相似的合法网页,比对两者之间对应图块的视觉特征相似度,从而达到钓鱼网页检测的目的。该方法由5个模块组成,其中最上层是用户界面模块,主要负责获取用户输入并将结果反馈回用户,中间是控制模块,负责调度所有功能模块完成钓鱼网站检测,下面是最核心的3个功能模块,即布局特征抽取模块、空间数据库模块、机器学习匹配模块;其中布局特征抽取模块抽取块状网页布局特征,该布局特征在训练阶段送交空间数据库模块建立索引或进行查询,在钓鱼网页检测阶段该模块抽取的布局特征送至空间数据库模块查询相似特征;空间数据库模块在训练时期对数据特征建立空间索引,在钓鱼网页检测阶段进行相似特征的快速查询,查询所得相似特征交给机器学习匹配模块进行识别;机器学习匹配模块在系统训练阶段接收特征提取模块传来的特征数据进行训练,优化网页相似性阀值的参数;在钓鱼网页检测阶段,接收特征提取模块传来的特征数据,与空间数据库中相似特征,计算网页之间的相似性,最后根据网页相似性阀值判断钓鱼网页;在钓鱼网页检测过程中通过浏览器内核解析网页源代码并提取空间布局特征,以此作为钓鱼网页检测的依据,并在特征库中结合空间数据库提高查询速度,具体实现步骤为 步骤1)训练阶段数据准备过程采集至少100个可能被钓鱼网页模仿的正规网站页面,并抽取出布局特征组织成样本数据;将所有样本数据的布局特征插入空间数据库; 采集至少100个钓鱼网站页面以及100个普通网页,并抽取特征组织成测试数据;布局特征由以下四个数值属性组成·文档对象模型节点的高度这里的高度表示浏览器引擎解析了网页的HTML源代码,层叠样式表源代码以及 Java页面脚本源代码以后所得网页元素在垂直方向上象素点个数,·文档对象模型节点的宽度这里的宽度表示浏览器引擎解析了网页的HTML源代码,层叠样式表源代码以及 Java页面脚本源代码以后所得网页元素在水平方向上象素点个数, 文档对象模型节点的X坐标设Web浏览器显示区域最左上角的象素点坐标为(0,0),这里的X坐标表示浏览器引擎解析了网页的HTML源代码,层叠样式表源代码以及Java页面脚本源代码以后所得网页元素的最左上角象素点相对于(0,0)坐标在水平方向上的距离,其中距离为1表示相差一个象素点, 文档对象模型节点的Y坐标设Web浏览器显示区域最左上角的象素点坐标为(0,0),这里的X坐标表示浏览器引擎解析了网页的HTML源代码,层叠样式表源代码以及源代码以后所得网页元素的最左上角象素点相对于(0,0)坐标在垂直方向上的距离,其中距离为1表示相差一个象素点,步骤2)测试数据集的标定过程将测试数据中的所有普通网页标注为“0”,表示非钓鱼网页;再将测试数据中的所有钓鱼网页标注为“1”,表示钓鱼网页;步骤3)对所有测试网页的特征在空间数据库中查找相似的特征,并统计找到每一个测试网页在库中最相似的网页,计算它们的相似度作为测试网页与库的相似度;步骤4)将所有测试网页的标注以及测试网页与库的相似度送入机器学习匹配模 ±夬,遍历所有可能的相似度阀值,找到一个值T使得相似度大于T的钓鱼网页数量与相似度小于T的钓鱼网页数量差值最大,T作为钓鱼网页布局相似度阀值;第二阶段对相应的图块进行内容图片的特征提取和比对步骤5)分别对钓鱼网页和普通网页之间对应的相似图块进行图片特征的提取, 得到对应图片的特征向量;步骤6)对图片的特征向量进行处理,利用相关算法来计算对应的图片之间的相似度,看相似度结果是否超过设定的视觉特征相似度阈值P ;步骤7)对疑似钓鱼网页的检测过程对可疑网页采集布局特征;用可疑网页的特征在空间数据库中查找相似的特征的网页,将可疑网页的图像特征、布局特征与特征库过滤后的网页的图像特征与布局特征进行相似度计算,看相似度结果是否超过设定的视觉特征相似度阈值,如大于阈值则判定是否为钓鱼网页,否则为普通网页。有益效果由于基于网络拓扑采用面相站点分析手段,本发明具有以下一些特殊优点和有益成果高准确率机器学习主要的评价指标为精度(precision)和召回率(recall),在钓鱼网站检测识别中,精度表示机器判断为钓鱼网页的所有页面中,确实是钓鱼网页的比例,召回率表示所有钓鱼网页中被机器识别为钓鱼网页所占比例。显然精度和召回率越高表示效果越好。经过实验证明,本发明提出的钓鱼网页检测采用机器学习模型进行机器学习以后检测精度和召回率分别为97. 9%和95%,该结果与目前最好的钓鱼网页自动检测技术不相上下。高速检测本发明最大的优势在于大大缩短了检测时间,由于结合空间数据库并对数据库查询做了一定的优化改进,可以充分利用树形结构降低时间复杂度的特性,同时只对认为是空间对应的图块之间进行图片特征提取和对比,大大简化了图片比对的计算量,提高了检测速度。应用领域广泛由于本发明实际提出了一种网页布局和图片视觉相似性计算方案,所以在网页相似性上用途广泛。


图1是钓鱼网站的体系结构示意图。图2是钓鱼网页检测过程示意图。
具体实施例方式本发明技术方案主要分为三大部分1.布局特征抽取部分。这里的布局特征是指网页上所有可见信息的矩形边界,比如网页中的一段文字的矩形边界,一副图片的矩形边界,或者视觉上靠近的元素组合的矩形边界等。布局特征抽取模块的主要工作就是结合浏览器内核以及文档对象模型树分析工具抽取网页中所有大小合适的矩形块信息。所以该模块的功能就是遍历一个web页面的文档对象模型树,结合浏览器内核中的布局渲染引擎分析该页面的html,层叠样式表,java页面脚本源代码,获取每个节点所代表的标签的显示位置和大小,并按照指定格式记录下这些信息组成网页布局特征信息。在特征库采集阶段,该模块将采集到的可能被模仿的合法网页布局特征数据交给空间数据库模块进行数据存储;在钓鱼网页分析阶段,该模块将疑似页面的布局特征数据传给页面布局分析模块进行综合分析。2.空间数据库部分空间数据库采用R树为数据结构,是一种在地理信息方面应用较多的空间查询技术,由于网页布局特征信息需要查找视觉上靠近的所有矩形,这里结合空间数据库存储网页的特征,可以快速获取特征库中所有视觉上相似以及位置上靠近的布局特征。下面简单介绍一下空间数据库所采用的R树数据结构R树是一种与B树相似的树形数据结构,但是主要用于空间数据的组建和获取,比如可以使用空间数据库“查找在当前位置两千米范围内的所有加油站”。该数据结构使用层次聚合的方法分割空间,这些分割以后的空间可能会重叠,空间使用最小边框矩形表示R 树中的每一个节点都有一定数量的入口(数量有指定的上限),每一个非叶节点的入口存储两类信息,一类是该入口对应的子节点的索引,另一类信息则是该字节点的MBR。使用空间数据库的这种树形结构以及最小边框矩形的思想,可以快速地在海量数据中查询地理上或者视觉上靠近的数据。这里使用空间数据库的这种特性可以对特征库中的所有布局信息进行有效索引, 当获取到待检测网页的布局信息以后可以进行快速查询,得到视觉上靠近的所有布局信肩、ο该模块在组建特征库时候建立空间数据索引,在钓鱼网页检测阶段进行空间数据查询。3.机器学习匹配部分。其核心任务就是根据待检测页面的布局信息以及特征库中与待检测页面中相似的特征块综合统计,根据指定的网页相似性算法,找到相似程度最高的η个网页,如果相似性超过一定的阀值,则认为待检测网页是需要进一步进行图片特征提取和比对的网页,如果低于阀值,则认为是正常网页。其中阀值的确定需要使用训练阶段的标注数据根据我们的机器学习算法进行训练所得。 4.图片特征提取和比对部分其核心任务就是对机器学习匹配部分所得到的空间布局相似的网页,进行对应图块之间的图片特征提取和比对。该模块利用相应的特征算法,提取图片的特征向量,然后对可疑网页和普通网页进行图片特征向量的相似度计算,看得到的结果是否超过视觉相似度阈值,从而判定可疑网页是否是钓鱼网页。 基于空间拓扑的网页布局与视觉特征的钓鱼网页检测及其实现方法所包含的步骤为主要可以分为三大部分1.机器学习模块的训练步骤1)采集至少100个可能被钓鱼网页模仿的正规网站页面,并抽取出布局特征组织成样本数据;步骤2)将所有样本数据的布局特征插入空间数据库;步骤3)采集至少100个钓鱼网站页面以及100个普通网页,并抽取特征组织成测试数据,将钓鱼网站标注为“1”,普通网站标注为“0”;步骤4)对所有测试网页的特征在空间数据库中查找相似的特征,并按照Sim公式统计找到每一个测试网页在库中最相似的网页,计算它们的相似度作为测试网页与库的相似度;步骤5)将所有测试网页的标注以及测试网页与库的相似度送入机器学习匹配模块,使用机器学习匹配部分的数据训练算法计算出钓鱼网页空间布局的相似度阀值。2.视觉特征的提取与相似度计算步骤1)根据网页布局相似度检测的结果,对判定为最相似的两组网页进行对应图块的图片特征提取(可提取局部不变特征等),得到对应图片的特征向量;步骤2)对提取的图片特征向量,利用相关算法进行相似度计算(比如计算特征向量之间的欧式距离或者马氏距离),得到相似度比对结果。步骤3)利用得到钓鱼网站空间布局相似度阈值的方法,计算出钓鱼网站图片相似度的阈值。
3.钓鱼网站检测 步骤1)对可疑网页采集布局特征步骤2)用可疑网页的特征在空间数据库中查找相似的特征,并按照Sim公式统计找到可疑网页在库中最相似的网页,计算它们的相似度作为可疑网页与库的相似度;步骤3)将待可疑网页的与库的相似度送入训练好的机器学习匹配模块进行预测,预测所得结果作为是否需要进行图片特征相似度检测的依据如果判定空间布局不一致,则认为可疑网页为普通网页;如果判定空间布局一致,则进行对应图块之间的图片相似度比较。步骤4)对步骤3中认为是空间布局一致的网页,提取对应图块的图片特征,得到图片的特征向量,然后利用相关算法进行特征向量的相似度计算。如果所得结果超过设定的阈值,则认为是钓鱼网页;否则,认为是普通网页。1.系统模块之间的关系系统由6个模块组成,其中最上层是用户界面模块,主要负责获取用户输入并将结果反馈回用户,中间是控制模块,负责调度所有功能模块完成钓鱼网站检测。共有4个功能模块布局特征抽取模块,负责按照特征抽取算法抽取网页布局特征,该布局特征在训练阶段送交空间数据库模块建立索引或进行查询,在钓鱼网页检测阶段该模块抽取的布局特征送至空间数据库模块查询相似特征。空间数据库模块,该模块对以往的空间数据库模块进行了改进,改进算法参考下面的空间数据库的索引和查询算法,该模块的功能是对训练数据特征建立空间索引,在钓鱼网页检测阶段进行相似特征的快速查询,查询所得相似特征交给机器学习匹配模块进行识别;机器学习匹配模块,在系统训练阶段接收特征提取模块传来的特征数据进行训练,优化网页相似性阀值的参数;在钓鱼网页检测阶段,接收特征提取模块传来的特征数据,与空间数据库中相似特征,计算网页之间的相似性。图片特征提取和比对模块,在系统中接受机器学习匹配模块传来的结果,然后对网页进行对应图块之间的图片特征提取和图片特征相似度进行,最终判定可疑网页与普通网页之间的相似度,进而判定是否为钓鱼网页。2.系统模块的实现a)布局特征抽取模块布局特征抽取模块需要调用浏览器布局引擎,以及文档对象模型源代码分析工具,对制定URL的HTML文档及其附属图片文件,层叠样式表文件,Java页面脚本文件进行分析,最终抽取出布局特征。布局特征由以下四个数值属性组成·文档对象模型节点的高度这里的高度表示浏览器引擎解析了网页的HTML源代码,层叠样式表源代码以及 Java页面脚本源代码以后所得网页元素在垂直方向上象素点个数。·文档对象模型节点的宽度这里的宽度表示浏览器引擎解析了网页的HTML源代码,层叠样式表源代码以及 Java页面脚本源代码以后所得网页元素在水平方向上象素点个数。
文档对象模型节点的X坐标设Web浏览器显示区域最左上角的象素点坐标为(0,0),这里的X坐标表示浏览器引擎解析了网页的HTML源代码,层叠样式表源代码以及Java页面脚本源代码以后所得网页元素的最左上角象素点相对于(0,0)坐标在水平方向上的距离,其中距离为1表示相差一个象素点。 文档对象模型节点的Y坐标 设Web浏览器显示区域最左上角的象素点坐标为(0,0),这里的X坐标表示浏览器引擎解析了网页的HTML源代码,层叠样式表源代码以及Java页面脚本源代码以后所得网页元素的最左上角象素点相对于(0,0)坐标在垂直方向上的距离,其中距离为1表示相差一个象素点。在理解Web浏览器工作原理的情况下,选择一款主流的浏览器内核,了解该浏览器内核的API,并了解如何调用文档对象模型源代码分析工具分析网页的HTML源代码。该模块的具体实施步骤如下步骤1)使用所选择的Web浏览器解析需要抽取特征的网页;步骤2)获取该页面的HTML源代码并使用文档对象模型分析工具解析源代码;步骤3)根据算法获取所有文档对象模型节点的布局特征。b)空间数据库模块该模块结合空间数据库进行数据索引,并在此基础上对传统意义上的空间数据库进行算法上的改进,使之更适应钓鱼网页检测查询。具体实施步骤如下步骤1)设计并实现一个以R树为数据结构的空间数据库模块,可以对输入的任意形状进行插入、修改、删除、查询,其中查询应可以进行一般的空间查询,比如输入一个矩形,查找数据库中包含在该矩形内的所有图形,或者查找与该矩形中心距小于15的所有矩形;步骤2)按照相应算法改进空间数据库的查询过程;步骤3)所有查询结果按照与查询特征的中心距降序的标准进行排序;c)机器学习匹配模块根据被检测网页A的特征以及从空间数据库中所得与所有A的特征相似的所有特征综合分析,找到特征库中与A最相似的网页B,进而计算A与B的相似度,如果这一相似度超过预定阀值,则认为A是钓鱼网页,反之则认为A不是钓鱼网页。这一模块需要根据前面抽取的布局特征计算两个页面之间的相似度,首先需要了解一个对应特征块的概念,即两个网页A与B中如果分别有两个特征块A-I与B-1,如果A-I 与B-I的中心距小于预定的中心距阀值D,并且A-I与B-I的宽度之比在预定范围内,高度之比也在预定分为内,则认为A-2块与B-I块相对应,根据实验所得结果,这里取D为50个像素点,宽度比例范围为W. 8,1.2],高度比例范围为W. 8,1.2]。相似度计算公式如下Sim(nq,nr,ncor) = (\
max( , )nq-nr 表示A页面中的特征块总数,nr表示B页面中的特征块总数,ncor表示两页面对应的特征块总数。计算所得Sim为两个网页之间的相似值。
d)图片特征的提取和相似度计算 对c)中得到的结果为布局一致的网页,进行相应图块之间的图片特征提取,得到每幅图片的特征向量,然后利用相应的算法进行向量之间的相似度计算,得到的结果与设定的阈值进行比较。最终判定可疑网页是否为钓鱼网页。
权利要求
1. 一种基于空间布局与视觉特征的钓鱼网页检测方法,其特征在于该方法由5个模块组成,其中最上层是用户界面模块,主要负责获取用户输入并将结果反馈回用户,中间是控制模块,负责调度所有功能模块完成钓鱼网站检测,下面是最核心的3个功能模块,即布局特征抽取模块、空间数据库模块、机器学习匹配模块;其中布局特征抽取模块抽取块状网页布局特征,该布局特征在训练阶段送交空间数据库模块建立索引或进行查询,在钓鱼网页检测阶段该模块抽取的布局特征送至空间数据库模块查询相似特征;空间数据库模块在训练时期对数据特征建立空间索引,在钓鱼网页检测阶段进行相似特征的快速查询,查询所得相似特征交给机器学习匹配模块进行识别;机器学习匹配模块在系统训练阶段接收特征提取模块传来的特征数据进行训练,优化网页相似性阀值的参数;在钓鱼网页检测阶段, 接收特征提取模块传来的特征数据,与空间数据库中相似特征,计算网页之间的相似性,最后根据网页相似性阀值判断钓鱼网页;在钓鱼网页检测过程中通过浏览器内核解析网页源代码并提取空间布局特征,以此作为钓鱼网页检测的依据,并在特征库中结合空间数据库提高查询速度,具体实现步骤为步骤1)训练阶段数据准备过程采集至少100个可能被钓鱼网页模仿的正规网站页面,并抽取出布局特征组织成样本数据;将所有样本数据的布局特征插入空间数据库;采集至少100个钓鱼网站页面以及100个普通网页,并抽取特征组织成测试数据; 布局特征由以下四个数值属性组成 文档对象模型节点的高度这里的高度表示浏览器引擎解析了网页的HTML源代码,层叠样式表源代码以及Java 页面脚本源代码以后所得网页元素在垂直方向上象素点个数, 文档对象模型节点的宽度这里的宽度表示浏览器引擎解析了网页的HTML源代码,层叠样式表源代码以及Java 页面脚本源代码以后所得网页元素在水平方向上象素点个数, 文档对象模型节点的X坐标设Web浏览器显示区域最左上角的象素点坐标为(0,0),这里的X坐标表示浏览器引擎解析了网页的HTML源代码,层叠样式表源代码以及Java页面脚本源代码以后所得网页元素的最左上角象素点相对于(0,0)坐标在水平方向上的距离,其中距离为1表示相差一个象素点, 文档对象模型节点的Y坐标设Web浏览器显示区域最左上角的象素点坐标为(0,0),这里的X坐标表示浏览器引擎解析了网页的HTML源代码,层叠样式表源代码以及源代码以后所得网页元素的最左上角象素点相对于(0,0)坐标在垂直方向上的距离,其中距离为1表示相差一个象素点,步骤2)测试数据集的标定过程将测试数据中的所有普通网页标注为“0”,表示非钓鱼网页;再将测试数据中的所有钓鱼网页标注为“1”,表示钓鱼网页;步骤3)对所有测试网页的特征在空间数据库中查找相似的特征,并统计找到每一个测试网页在库中最相似的网页,计算它们的相似度作为测试网页与库的相似度;步骤4)将所有测试网页的标注以及测试网页与库的相似度送入机器学习匹配模块, 遍历所有可能的相似度阀值,找到一个值T使得相似度大于T的钓鱼网页数量与相似度小于T的钓鱼网页数量差值最大,T作为钓鱼网页布局相似度阀值;第二阶段对相应的图块进行内容图片的特征提取和比对步骤5)分别对钓鱼网页和普 通网页之间对应的相似图块进行图片特征的提取,得到对应图片的特征向量;步骤6)对图片的特征向量进行处理,利用相关算法来计算对应的图片之间的相似度, 看相似度结果是否超过设定的视觉特征相似度阈值P ;步骤7)对疑似钓鱼网页的检测过程对可疑网页采集布局特征;用可疑网页的特征在空间数据库中查找相似的特征的网页,将可疑网页的图像特征、布局特征与特征库过滤后的网页的图像特征与布局特征进行相似度计算,看相似度结果是否超过设定的视觉特征相似度阈值,如大于阈值则判定是否为钓鱼网页,否则为普通网页。
全文摘要
基于空间布局与视觉特征的钓鱼网页检测方法涉及了一种基于页面视觉布局特征结合空间数据库以及图片特征相似度比较的设计方案,主要解决了基于网页布局与视觉相似度角度进行快速钓鱼网页检测的问题,系统由6个模块组成,其中最上层是用户界面模块,主要负责获取用户输入并将结果反馈回用户,中间是控制模块,负责调度所有功能模块完成钓鱼网站检测。最核心的是4个功能模块,即布局特征抽取模块、空间数据库模块、机器学习匹配模块、图片特征提取与比对模块。经大量实验数据检验证明,该方法构建了一种高速高精度钓鱼网页检测系统,在保证高准确率的同时,处理数据容量上有了重大提升,并显著减小网页检测时间。
文档编号H04L29/06GK102170446SQ201110112428
公开日2011年8月31日 申请日期2011年4月29日 优先权日2011年4月29日
发明者周国强, 张卫丰, 张迎周, 曾兵, 许碧欢, 陆柳敏 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1