利用空间混合索引机制检测钓鱼网页的方法

文档序号:6360630阅读:134来源:国知局
专利名称:利用空间混合索引机制检测钓鱼网页的方法
m m £ isi mg m i m\\ mi & ^ ra ssI^£rK 3'J,
Wmi£7K^mm^mmmi^Rm^m^mijm^m^mmmmmmn^o f #£ffl/iil'Jl>^F [Zhang2007]oM&MffiMi&gj&JkftitUlnT1"M:f^iM£i+% gfea
ftJ NftJ FTO±,P £ N 36±3t A iKJ^h Ai^if J., M
ifc. W^Aff J.&'nTo MsiiKSiJ^JfiN^, MstfBiENiMf J.^iirmN^iK5ij±siPifmji ^mrnmxxmm^x&, ai^m/bhifma^mm @mm
if[Liu2005, Fu2006, Chen2009, Afroz2009] $|l]fttgj#^—RIIMI^r[Zhang2007] Y. Zhang, J. Hong, and L. Cranor. Cantina :A content-basedapproach to detecting phishing websites. WWW,2007.[Fu2006]Anthony Y. Fu, ffenyin Liu, Xiaotie Deng. Detecting Phishing WebPages with Visual Similarity Assessment based on Earth Mover’ s Distance(EMD).IEEE Transactions on Dependable and Secure Computing, 2006, 3(4), pages 301-311.[Liu2005]ff. Liu, G. Huang, X. Liu, M. Z, and X. Deng. Detection of PhishingWebpages Based on Visual Similarity. International World Wide Web Conference,2005, pp.1060-1061.[Chen2009]K. -T. Chen, J. -Y. Chen, C. -R. Huang, and C. -S. Chen. FightingPhisnmg with Discriminative Keypomt Features 01 Webpages.Internet
Computing,2009.[Afroz2009]Sadia Afroz and Rachel Greenstadt. Phishzoo An Automated Web Phisnmg Detection Approach Based on Proiiling and Fuzzy Matching. Technical Report DU-CS-09-03, Drexel University,2009.

发明内容
技术问题本发明的目的是提供ー种利用空间索引与倒排索引结合的混合索引机 制检测钓鱼网页的方法,以往钓鱼网页识别主要通过人工识别,目前现有的计算机识别的 钓鱼网页检测技术主要从网页元素角度对检测网页进行匹配检测,匹配速度往往无法达到 实际使用的要求。本发明从网页的布局角度进行文本特征及图像特征的提取及提出基于空 间混合索引机制的相似性检测方法,有效提高了页面匹配的速度,同时保证了高精度和低 误判率。技术方案本发明利用空间布局特征并同步结合网页的文字及图像特征的钓鱼网 页检测及其实现方法。通过结合浏览器渲染引擎,对指定的可疑网页进行视觉布局特征抽 取,再利用空间数据库索引同步结合网页的文本特征以及图像特征的机制空间混合索引 机制,也就是综合文件图像倒排索引的空间树DIIR树。利用空间混合索引机制检测钓鱼网页的方法,首先从网页标题、主体和网页图片 中提取关键词,组成该钓鱼网页的词汇签名;然后在多个搜索引擎上用词汇签名进行检索, 综合这些搜索引擎的結果,找出最相近的前K个网页,K为整数;将这K个网页和钓鱼网页 以图片形式保存,提取图像感知哈希序列,最后分别计算这K个网页图片与钓鱼网页图片 之间海明距离,根据距离的大小选出该钓鱼网页的ー个或者多个目标网页;利用空间混合索引机制检测钓鱼网页的方法通过结合浏览器渲染引擎,对指定的 可疑网页进行视觉布局特征抽取,再利用空间数据库索引同步结合网页文本特征的倒排索 引以及网页图像特征的倒排索引来检测钓鱼网页;空间混合索引机制是指综合文字与图像 倒排索引的空间树,记为DIIR树;空间混合索引机制即DIIR树是对空间索引机制的空间区域R树进行改进,在空间 区域R树的每ー个结点上添加网络对象中文字的倒排索引文件以及图像特征的倒排索弓I 文件,在查询ー个新的网络对象时并不仅仅考虑其空间布局特征,而是同步结合网络对象 的文字特征以及图像特征;对文字特征运用语言模型来计算待查询的网络对象与结点之间 的语义相关性,对于图像特征,则提取图像的旋转不变特征,并对其进行标准化,将标准化 后的特征向量的每ー维作为ー种可视化文字,然后运用语言模型来计算待查询的网络对象 与结点之间的可视化文字的语义相关性,运用对象之间的空间距离以及两个语义相关性模 型,设计空间混合索引的剪枝函数;利用空间混合索引机制即DIIR树的整个方法主要步骤 包括a)特征提取过程将网页按照空间位置分割成各个网络对象,即提取网页的布局 特征,提取每个网络对象的文字特征以及图像特征;步骤al)布局特征抽取模块的主要工作就是结合浏览器内核以及文档对象模型 DOM树分析工具抽取网页中所有大小合适的矩形块信息并且各矩形块相互之间没有重叠;
步骤a2)遍历一个网页的文档对象模型DOM树,结合浏览器内核中的布局渲染引 擎分析该页面的超文本标记文档html源文件,级联样式表css源文件以及java脚本js源 代码,获取每个节点所代表的标签的显示位置和大小,并记录下这些信息组成网页布局特 征信息;步骤a3)在特征库采集阶段,将采集到的可能被模仿的合法网页布局特征数据交 给空间数据库模块进行数据存储;在钓鱼网页分析阶段,将疑似页面的布局特征数据传给 页面布局分析模块进行综合分析;步骤a4)统计每个网络对象中各个单词出现的次数,据此,创建网络对象中各个 单词的语言模型;b)空间混合索引的建树过程在空间索引机制的空间区域R树的基础上同步结合 文字倒排文件以及图像倒排文件;步骤bl)选择子树过程从根结点开始,在每一层选择待查询对象与该结点之间 由公式1与公式2给出的最小距离,也就是最小的伪文件结点所属的子树,直到找到叶子结占.步骤b2)结点分割过程如果插入对象后,叶子结点的容量超过了最大值,此时, 使用由步骤b3)到步骤b8)的分割算法对该结点进行分割;步骤b3)对于当前结点中的伪文件对Ep Ep创建包含Ep Ej的矩形框Ru ;步骤b4)计算矩形框Ru的面积与伪文件Ei的面积以及Ej的面积之差,记为d ;步骤b5)计算伪文件对之间的文字特征余弦相似性及图片特征余弦相似性,选择 两者中较大的值,记为cosSim ;步骤b6)计算(1-P)d+P (1-cosSim)作为两个伪文件之间的距离,其中0是权
重参数;步骤b7)选择距离最大的一对伪文件分别作为两个分组的第一个元素;步骤b8)对于余下的伪文件结点,根据公式2计算其与两个组之间的距离,并将其 加入到这个值较小的组里,直到结点中的伪文件都被分为两组;AreaCost (Ek) = area(E/ k. rectangle)-area (Ek. rectangle)公式 1其中,Ek指的是当前结点的伪文件结点,也就是下一分支的入口结点;E' k. rectangle指的是插入新结点之后伪文件结点可能的扩展矩形区域,Ek. rectangle指的是 未插入新结点时伪文件结点的矩形区域,SimAreaCost(Ek,O) = (1 - /3) AreaCost(Ek) +
max Areay0min[(l - cosine(Ek.DcVector,0.DVector)),公式 2(1 - cos ine(Ek .IcVector, OJVector))]其中,&是一个权重参数,其取值范围为
;AreaCost (Ek)如公式1所示;max Area指的是包含所有对象的最小矩形框,用于标准化;cosine(Ek. DcVector,0. DVector)是 指文本向量之间的余弦相似度,用于表示文本文件之间的相似度;其中Ek. DcVector指的 是伪文件结点中的文字权重向量,是伪文件结点中各个单词的最大权重,0. DVector指的是 待查询的文件中文字权重向量;cosine(Ek. IcVector, 0. IVector)是指图像的可视化文字 特征向量之间的余弦相似度,用于表示图像之间的相似度;Ek. IcVector指的是伪文件中图像的可视化文字特征的权重向量,是伪文件结点中各个可视化文字的最大权重;0. IVector 指的是待插入对象的可视化文字特征的权重向量;min指的是取最小值;c)空间混合索引机制的查询过程查询过程使用最佳优先遍历算法检索空间网络对象,并计算结点的排名分值,从 而找出前n个对象的列表,n为整数;在查询处理的过程中,需要用到两个距离公式,如公式 3与公式4所示,表示待查询网络对象和包含在结点中的对象之间的空间文本距离的最小 下界,用来在搜索的过程中进行排序和搜索空间的有效剪枝
权利要求
1.一种利用空间混合索引机制检测钓鱼网页的方法,其主要方法在于通过结合浏览器渲染引擎,对指定的可疑网页进行视觉布局特征抽取,再利用空间数据库索引同步结合网页文本特征的倒排索引以及网页图像特征的倒排索引来检测钓鱼网页;空间混合索引机制是指综合文字与图像倒排索引的空间树,记为DIIR树; 空间混合索引机制即DIIR树是对空间索引机制的空间区域R树进行改进,在空间区域R树的每一个结点上添加网络对象中文字的倒排索引文件以及图像特征的倒排索引文件,在查询一个新的网络对象时并不仅仅考虑其空间布局特征,而是同步结合网络对象的文字特征以及图像特征;对文字特征运用语言模型来计算待查询的网络对象与结点之间的语义相关性,对于图像特征,则提取图像的旋转不变特征,并对其进行标准化,将标准化后的特征向量的每一维作为一种可视化文字,然后运用语言模型来计算待查询的网络对象与结点之间的可视化文字的语义相关性,运用对象之间的空间距离以及两个语义相关性模型,设计空间混合索引的剪枝函数;利用空间混合索引机制即DIIR树的整个方法主要步骤包括 a)特征提取过程将网页按照空间位置分割成各个网络对象,即提取网页的布局特征,提取每个网络对象的文字特征以及图像特征; 步骤al)布局特征抽取模块的主要工作就是结合浏览器内核以及文档对象模型DOM树分析工具抽取网页中所有大小合适的矩形块信息并且各矩形块相互之间没有重叠; 步骤a2)遍历一个网页的文档对象模型DOM树,结合浏览器内核中的布局渲染引擎分析该页面的超文本标记文档html源文件,级联样式表css源文件以及java脚本js源代码,获取每个节点所代表的标签的显示位置和大小,并记录下这些信息组成网页布局特征信息; 步骤a3)在特征库采集阶段,将采集到的可能被模仿的合法网页布局特征数据交给空间数据库模块进行数据存储;在钓鱼网页分析阶段,将疑似页面的布局特征数据传给页面布局分析模块进行综合分析; 步骤a4)统计每个网络对象中各个单词出现的次数,据此,创建网络对象中各个单词的语目模型; b)空间混合索引的建树过程在空间索引机制的空间区域R树的基础上同步结合文字倒排文件以及图像倒排文件; 步骤bl)选择子树过程从根结点开始,在每一层选择待查询对象与该结点之间由公式I与公式2给出的最小距离,也就是最小的伪文件结点所属的子树,直到找到叶子结点;步骤b2)结点分割过程如果插入对象后,叶子结点的容量超过了最大值,此时,使用由步骤b3)到步骤b8)的分割算法对该结点进行分割; 步骤b3)对于当前结点中的伪文件对Ei, Ep创建包含Ei, Ej的矩形框Rij ; 步骤b4)计算矩形框Rij的面积与伪文件Ei的面积以及Ej的面积之差,记为d ; 步骤b5)计算伪文件对之间的文字特征余弦相似性及图片特征余弦相似性,选择两者中较大的值,记为cosSim ; 步骤b6)计算(l-P)d+0 (1-cosSim)作为两个伪文件之间的距离,其中P是权重参数; 步骤b7)选择距离最大的一对伪文件分别作为两个分组的第一个元素; 步骤b8)对于余下的伪文件结点,根据公式2计算其与两个组之间的距离,并将其加入到这个值较小的组里,直到结点中的伪文件都被分为两组;AreaCost (Ek) = area(E/ k. rectangle)-area (Ek. rectangle)公式 I其中,Ek指的是当前结点的伪文件结点,也就是下一分支的入口结点;E' k. rectangle指的是插入新结点之后伪文件结点可能的扩展矩形区域,Ek. rectangle指的是未插入新结点时伪文件结点的矩形区域,
全文摘要
一种基于空间混合索引机制的综合利用网页的空间布局、文字特征以及图像特征的钓鱼网页检测方法,涉及了一种基于页面视觉布局特征结合空间数据库的设计方案,主要解决了基于网页视觉相似性角度进行快速钓鱼网页检测的问题。方法结合浏览器渲染引擎,对指定的可疑网页进行视觉布局特征抽取,再利用空间数据库索引同步结合网页的文本特征以及图像特征,形成空间混合索引机制的综合文件图像倒排索引的空间树,即DIIR树。DIIR树是对空间索引机制的空间区域R树进行改进,在空间区域R树的每一个结点上添加网络对象中文字的倒排索引文件以及图像特征的倒排索引文件。在查询一个新的网络对象时并不仅仅考虑其空间布局特征,而是同步结合网络对象的文字特征以及图像特征。
文档编号G06F17/30GK102662959SQ20121005773
公开日2012年9月12日 申请日期2012年3月7日 优先权日2012年3月7日
发明者周国富, 周国强, 张卫丰, 张迎周, 王慕妮, 田先桃, 许碧欢, 陆柳敏, 顾赛赛 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1