一种钓鱼网页检测方法

文档序号：6550422阅读：385来源：国知局

一种钓鱼网页检测方法
【专利摘要】一种钓鱼网页检测方法，它有四大步骤：一：网页样式特征提取；提取可疑网页Ps与目标网页Pi网页可视部分的文档树结构和CSS文本；二：网页样式特征筛选；筛选Tree(Ps)与Tree(Pi)中的元素；解析可疑网页Ps与目标网页Pi的CSS文本，得到对应的规则对象集合，并对所有的规则对象进行筛选；三：网页相似度计算；根据步骤二中得到的CSS规则对象集和网页元素树，分别计算可疑网页Ps与目标网页Pi的网页样式复杂度C(Ps)、C(Pi)和网页样式匹配度M(Ps,Pi)，最后利用Jaccard系数计算Ps与Pi的网页样式匹配度S(Ps,Pi)；四：结果判决；根据步骤三中得到的计算结果和可疑网页Ps与目标网页Pi的域名，判断Ps是否为钓鱼网页。
【专利说明】一种钓鱼网页检测方法

【技术领域】
[0001] 本发明提供一种钓鱼网页检测方法，它具体涉及一种基于网页样式相似度的钓鱼网页检测方法，属于计算机互联网（Web)安全领域。

【背景技术】
[0002] 钓鱼网页通过仿冒真实网页的统一资源定位符（Uniform Resource Locator, URL)和页面特征，构造在视觉效果上与真实网页相似的页面，或者利用真实网页的服务器漏洞注入危险的超文本标记语言（Hyper Text Markup Language,即HTML)代码，以骗取用户个人信息（如信用卡账号、密码和身份证号码等），达到获取经济利益的目的。近年来，钓鱼网页数量持续高速增长，每年给用户造成巨大的经济损失，已成为互联网的主要安全威胁之一。钓鱼网页的检测与识别是Web安全领域的重要研究内容。
[0003] 主流的钓鱼网页检测技术可分为基于URL和基于页面相似度的两类方法。URL是互联网上可以访问的资源的唯一标识。传统的钓鱼网页检测方法主要基于URL建立钓鱼网页黑名单或者从统计学的角度对URL的语义和结构进行分析。但是很多钓鱼网页将URL隐藏在多层iframe下，检测引擎需要对其进行连续追踪下载才能获取钓鱼网页的真实URL，增加了检测难度。判断一个网页是否是钓鱼网页，最准确的方法就是判断这个网页在视觉效果或网页内容上与真实的合法网页是否具有相似性。一些方案采用检测页面内容关键字和网页徽标的方法，根据页面内容关键字词频和网页徽标的匹配识别钓鱼网页。这种方法准确度难以保证，攻击者可以通过替代关键字和对网页徽标做出微小修改的方式躲避检测。一些方案使用页面内容布局作为相似度检测的依据，将页面中的元素按内容划分为小方块，通过检测小方块的面积和位置的相似度识别钓鱼网页。攻击者可以通过改变网页样式影响小方块的划分，或者通过改变网页布局、不改变网页内容的方法躲避检测。还有一些机制使用图像分析的方法，比较可疑网页的页面截图与目标网页截图的相似度。这种方案的缺点是计算复杂、效率不高、难以应用。因此，如何实现快速、便捷、准确地检测钓鱼网页称为Web安全领域研究的热点和难点。
[0004] 标记语言（Markup Language,如HTML、XHTML和XML等）是一种将文本和与文本相关的信息展现出文档结构的计算机文字编码，被广泛应用与网页的制作。层叠样式表（即 Cascading Style Sheet,缩写为CSS)，是一种用于为由标记语言编写的结构化文档添加样式（字体、间距和颜色等）的语言，在很大程度上决定了网页的视觉效果。如今，几乎所有的网页都使用CSS来修改网页的样式。每条CSS语句就是一条规定网页样式的CSS规则，由选择器和声明两部分组成。选择器是该CSS规则所作用网页元素的索引。声明包含该CSS 规则所修改或定义的属性名称和相应的值。

【发明内容】

[0005] (1)发明目的
[0006] 针对上述问题，本发明的目的在于提供一种钓鱼网页检测方法，涉及一种基于网页样式相似度的钓鱼网页检测方法。本发明通过比对可疑网页与目标网页的层叠样式表等网页样式特征，计算网页外观、样式的相似度，作为判断可疑网页是否在视觉效果上相似于目标网页的依据，支持在客户端实现快速、精准的钓鱼网页检测。
[0007] (2)技术方案
[0008] 本发明的步骤涉及以下三个核心操作：1)网页样式特征提取；2)网页样式特征筛选；3)网页样式相似度计算。下面对这三个核心操作做出说明。
[0009] 1)网页样式特征提取
[0010] 网页样式特征包括两部分，网页可视部分的文档树结构和网页的css文本。
[0011] a)文档树提取
[0012] 网页可视部分是指网页的HTML文档中能在浏览器主窗体内显示的元素，均位于 HTML文档的<bodyX/body>标签内。提取HTML文档树中以<bodyX/body>元素为根节点的部分。
[0013] b)CSS文本提取
[0014] CSS文本在网页中一般以四种形式存在：内联样式表、内嵌样式表、夕卜部样式表和输入样式表。分别从网页中的上述四种样式表中提取所有的CSS文本，并将其合并到一个文件中。
[0015] 2)网页样式特征筛选
[0016] 该操作通过筛选已提取的文档树中的元素，筛除在网页中不显示或对网页样式影响较小的元素，并用筛选后的文档树过滤CSS规则，删除无用CSS规则，简化相似度计算。
[0017] a)文档树元素筛选
[0018] 已提取的文档树中，并非所有元素都对网页的样式有影响：部分元素的显示属性被设置为隐藏，即不在网页中显示；部分元素在网页中的面积为〇,对网页样式无影响；部分元素被其子元素覆盖，只能显示面积很小的一部分；部分元素在网页中的面积很小，对网页样式的影响可以忽略。综合上述原因，对文档树中的元素进行筛选，筛除对网页样式没有影响或影响很小的元素，减少CSS相似度的计算量。被筛除的元素不参与CSS相似度计算，即作用于该元素的所有CSS规则不参与相似度计算。使用以下五条规则对文档树元素进行筛选：
[0019] 1.若元素面积占网页总面积的比例小于预设阈值，该元素不参加相似度计算。
[0020] 2.若所有子元素面积总和占父元素面积比例超过预设阈值，父元素不参加相似度计算。
[0021] 3.若子元素所有边框与父元素边框的距离小于预设阈值，父元素不参加相似度计算。
[0022] 4.若元素的visibility属性值为hidden,该元素不参加相似度计算。
[0023] 5.若元素的display属性为none,该元素不参加相似度计算。
[0024] b)CSS规则筛选
[0025] 为了便于筛选，利用解析器将CSS文本解析为CSS规则对象集合。CSS规则对象集合为属性-值-选择器结构，包括CSS属性名称、该属性的值和该规则对象作用的网页元素索引。每个CSS规则对象只包含一个属性、一个值和一个元素。复合形式的CSS属性在解析时会自动被拆分成单一属性的CSS规则对象。
[0026] 将集合中每个CSS规则对象的选择器在筛选后的文档树中遍历，寻找匹配元素。若匹配元素不存在或匹配元素不参与相似度计算，则该CSS规则对象不参加相似度计算。若匹配元素参与相似度计算，则该CSS规则对象也参加相似度计算。
[0027] 3)网页样式相似度计算
[0028] 对于两个网页X和Y，分别计算其网页样式复杂度C(X)、C(Y)和网页样式匹配度 Μ (X，Y)，并利用Jaccard系数计算网页X和网页Y的网页样式相似度S (X，Y)。
[0029] a)网页样式复杂度计算
[0030] 对于一个网页P，用公式（1)计算其网页样式复杂度C(P)。

【权利要求】

与目标网页Pi的网页样式相似度S(Ps，Pi); 步骤四：结果判决；根据步骤三中得到的计算结果和可疑网页Ps与目标网页Pi的域名，判断Ps是否为钓鱼网页；步骤4. 1 :网页样式复杂度判决；若C(PS)小于预设阈值，则认为可疑网页的网页样式复杂度过低，该页面可能采用图片或表单形式来模仿某个网页样式复杂度较高的页面，此时需提醒用户：PS存在钓鱼的风险；若C(p s)大于预设阈值，说明Ps的网页结构正常，使用网页样式相似度s (Ps，Pi)来判断Ps的安全性；步骤4. 2 :网页样式相似度判决；当S(Ps，Pi)大于预设阈值且匕与？1的域名相同时，Ps 为非法钓鱼网页，其它情况下，Ps为合法的真实网页。
【文档编号】G06F17/30GK104092667SQ201410282730
【公开日】2014年10月8日申请日期:2014年6月23日优先权日:2014年6月23日
【发明者】毛剑, 李佩, 李腾, 陈岳, 马寒军, 刘建伟申请人:北京航空航天大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：毛剑;李佩;李腾;陈岳;马寒军;刘建伟
技术所有人：北京航空航天大学
我是此专利的发明人

上一篇：基于UKF与修正Dugoff轮胎模型路面峰值附着系数估算方法
上一篇：一种基于实测雷击数据的输电线路引雷宽度计算方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。