一种钓鱼网站检测方法

文档序号：7866626阅读：1229来源：国知局

专利名称：一种钓鱼网站检测方法
一种钓鱼网站检测方法
技术领域：
本发明提供一种钓鱼网站检测方法，属于计算机互联网(Web)安全领域。
背景技术：
钓鱼网站仿冒真实网站的域名(URL)地址以及页面内容(通常伪装成银行及电子商务网站)，或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的Javascript代码，以此来骗取用户银行或信用卡账号、密码等私人资料，使用户受到经济上的损失。目前针对网购的攻击则日益普遍，钓鱼网站取代病毒木马成为互联网第一大安全威胁，钓鱼网站的检测识别成为Web安全领域重要研究内容。
判断一个网站是否是钓鱼网站，一个重要的途径是验证该网站是否跟某个真实网站在视觉效果或内容上具有相似性。一些方案使用页面内容作为检测方法，根据页面内容关键字频度或者页脚版权声明大致确定疑似仿冒的目标网站。这种方式精确度不高，攻击者很容易使用替代的关键字躲避检测。一些方案使用网页文档对象模型(HTML DocumentObject Mode, DOM)结构作为相似度检测的依据，这种检测机制也很容易躲避，攻击者可以使用不同的DOM结构仿冒一个真实网站，普通用户在视觉上很难分辨。还有一些机制使用页面截图比较的方式计算相似度，该机制使用图形软件比较可疑网页的截图与目标网页截图的相似度。该方案缺点是效率不高、使用不方便，用户无法通过简单便捷的方法如浏览器扩展进行检测。

发明内容(I)发明目的本发明目的在于提供一种基于网页层叠样式表(Cascading Style Sheet, CSS)的相似度的钓鱼网站检测方法。传统方法在确定疑似网页后很难判断该网页是否仿照某个真实网页，本方案根据CSS相似度能为这种判决提供依据。(2)技术方案已知网页Ps以及疑似目标网页集D={P1; P2, . . .Pn}，检测Ps与D中任一网页Pd的相似度是否超过某一门限，若超过且二者不属于同一域名，则认为网页Ps是钓鱼网页。为了实现上述目的，本发明一种钓鱼网站检测方法，它基于CSS的相似度检测的流程，其步骤如下步骤一 CSS文本提取HTML文件的CSS —般有3种存在形式外部样式表、内部样式表和内联样式表，按照不同的存在形式分别进行提取。将以上提取的所有的CSS字符串合并到同一个文件中。步骤二 css文本解析使用CSS解析器对步骤一得到的CSS文件进行自动解析，得到对应的规则对象集合。每条规则对象为键-值结构，包含该规则的规则类型、选择器名称、声明集合。规则类型表明该条规则是否是注释或者一条有功能的CSS语句。选择器名称表明该规则应用的目标。声明集合保存对相应目标使用的样式，集合中的每个元素都是对当前选择器一条属性描述，包括属性名称和属性值等信息。对于CSS文件中复合属性的条目在解析时可自动分解为多个单属性集合。步骤三比较元提取本发明从规则集合中选择带某些特征的属性并重新整合，以便于相似度的快速计
笪对于值具有数字特征的属性，进一步处理生成比较元。比较元为“键值”对，以便于查找和比较。其中，键为属性和属性值的链接，值为拥有该属性和属性值的选择器集合。由于很多网页中包含大量值为O的属性，给相似度计算的准确性带来一定干扰，本发明不将其当作比较元步骤四相似度计算可以根据两个网页的比较元集合的匹配情况计算相似度。假设有比较元集合A和B，A对B的相似度定义为A对B的相似度等于A与B的匹配集合得分与A的比较元总分之比。即
权利要求
1.一种钓鱼网站检测方法，其特征在于该方法步骤如下步骤一层叠样式表CSS文本提取超文本标记语言HTML文件的层叠样式表CSS有3种存在形式外部样式表、内部样式表和内联样式表，按照不同的存在形式分别进行提取；将以上提取的所有的层叠样式表CSS字符串合并到同一个文件中；步骤二层叠样式表CSS文本解析使用层叠样式表CSS解析器对步骤一得到的层叠样式表CSS文件进行自动解析，得到对应的规则对象集合；每条规则对象为键-值结构，包含该规则的规则类型、选择器名称及声明集合；规则类型表明该条规则是否是注释或者一条有功能的层叠样式表CSS语句；选择器名称表明该规则应用的目标；声明集合保存对相应目标使用的样式，集合中的每个元素都是对当前选择器一条属性描述，包括属性名称和属性值信息；对于层叠样式表CSS文件中复合属性的条目在解析时自动分解为多个单属性集合；步骤三比较元提取从规则集合中选择带某些特征的属性并重新整合，以便于相似度的快速计算；对于值具有数字特征的属性，进一步处理生成比较元；比较元为“键值”对，以便于查找和比较；其中，键为属性和属性值的链接，值为拥有该属性和属性值的选择器集合；步骤四相似度计算根据两个网页的比较元集合的匹配情况计算相似度；假设有比较元集合A和B，A对B的相似度定义为A对B的相似度等于A与B的匹配集合得分与A的比较元总分之比；即
2.根据权利要求1所述的一种钓鱼网站检测方法，其特征在于在步骤二中所述的层叠样式表CSS文本进行解析，是使用层叠样式表CSS解析器自动进行操作，以输出层叠样式表CSS对象模型。
3.根据权利要求1所述的一种钓鱼网站检测方法，其特征在于在步骤三中所述的从规则集合中选择带某些特征的属性并重新整合，其方法如下 A.提取值以’号开头的属性； B.提取值以数字开头的属性； C.提取属值为颜色的属性； D.对提取的属性及对应值进行处理生成比较元；比较元为“键值”对，以便于查找和比较。
全文摘要
本发明一种钓鱼网站检测方法，步骤如下1、CSS文本提取，按照不同的存在形式分别进行提取；将以上提取的所有的CSS字符串合并到同一个文件中；2、CSS文本解析，使用CSS解析器对步骤1得到的CSS文件进行自动解析，得到对应的规则对象集合；3、比较元提取，从规则集合中选择带某些特征的属性并重新整合，以便于相似度的快速计算；4、相似度计算，根据两个网页的比较元集合的匹配情况计算相似度。本发明有以下优点1)轻量级，算法轻量级，易于使用浏览器扩展实现；2)普适性强，由于正常网站内所有网页一般采用统一的样式风格，因此只需检测可疑网页与目标网站内任一个网页是否匹配即可，而且不受网页语言种类的限制；3)低误报。
文档编号H04L29/06GK103023874SQ201210477139
公开日2013年4月3日申请日期2012年11月21日优先权日2012年11月21日
发明者李坤, 毛剑, 刘建伟, 冯克, 李佩申请人:北京航空航天大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李坤;毛剑;刘建伟;冯克;李佩
技术所有人：北京航空航天大学
我是此专利的发明人

上一篇：基于身份的安全签名方法
上一篇：3d电视内容信息发送速率自适应控制的文件传输方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。