一种由钓鱼网页聚类定位目标网页的方法

文档序号:10471116阅读:246来源:国知局
一种由钓鱼网页聚类定位目标网页的方法
【专利摘要】本发明提供了一种由钓鱼网页聚类定位目标网页的方法,包括以下步骤:S1、查找给定钓鱼网页的相关网页集合;S2、提取和建模所述钓鱼网页和所述相关网页集合的网页特征信息;S3、利用DBSCAN算法聚类分析所述网页特征信息的相似度,得到同一类相似网页;S4、通过域名相似关系,定位出所述同一类相似网页中的目标网页。本发明通过已知的钓鱼网页,根据多种网页特征进行相关网页查找以及聚类分析,将相关网页集合进行筛选识别,从而能够更好地应对钓鱼网页的欺骗手段,且大范围,高准确率地找出钓鱼网站模仿的目标网页。
【专利说明】
-种由钓鱼网页聚类定位目标网页的方法
技术领域
[0001] 本发明设及信息安全领域,更具体地说,设及一种由钓鱼网页定位目标网页的方 法。
【背景技术】
[0002] 随着互联网的广泛使用与电子商务的日益发展和普及,越来越多的用户在进行网 上交易的时候都是通过输入个人信息进行鉴定。与此同时,伴随着电子交易的进行,在最近 几年非法业界的网络钓鱼现象层出不穷,不法分子模仿真实网站的消息格式,诱导用户登 入一个假冒的网页,从而窃取用户个人信息如银行或者信用卡账号,密码等。由于运些虚假 网页越来越逼真,所W很多粗屯、的用户很容易上当受骗,导致敏感信息的曝光W及个人财 务损失。
[0003] 目前,中国专利号CN102629261A公开了由钓鱼网页查找目标网页的方法,其主要 是从视觉相似的角度出发,通过感知哈希方法定位目标网页,即达到了 "形似"。然而,当前 的钓鱼网页在模仿目标网页时,很多通过配色一致,或者整体风格一致来达到和目标网页 "神似"的效果而欺骗用户,此时,该方法无法解决运种"神似"而非"形似"情况。

【发明内容】

[0004] 本发明要解决的技术问题在于,针对现有的由钓鱼网页查找目标网页的缺陷,提 供一种由钓鱼网页定位目标网页的方法。 阳〇化]本发明解决上述问题的技术方案是提供了一种由钓鱼网页聚类定位目标网页的 方法,其特征在于,包括W下步骤:
[0006] S1、查找给定钓鱼网页的相关网页集合;
[0007] S2、提取和建模所述钓鱼网页和所述相关网页集合的网页特征信息;
[0008] S3、利用DBSCAN算法聚类分析所述网页特征信息的相似度,得到同一类相似网 页;
[0009] S4、通过域名相似关系,定位出所述同一类相似网页中的目标网页。
[0010] 在上述由钓鱼网页聚类定位目标网页的方法中,所述步骤S1包括: W11] S101、抽取所述钓鱼网页的HTML源码的U化超链接,获得直接关联网页的网址;
[0012] S102、提取所述钓鱼网页的关键词,并通过捜索引擎进行捜索,获得非直接关联的 网页的网址;
[0013] S103、根据所述直接关联网页和非直接关联网页的网址,使用爬虫进行爬取,获得 相关网页集合。
[0014] 在上述由钓鱼网页聚类定位目标网页的方法中,在所述步骤S2中,还包括计算所 述钓鱼网页和所述相关网页集合中的每一网页的相似距离,该相似距离为Vi (Li,Ri,USi,TS 1,LSi),其中,Li是链接关系相似度,Ri是等级关系相似度,US 1是域名相似关系相似度,TS 1 是文本相似关系相似度,LSi是视觉相似关系相似度。
[0015] 在上述由钓鱼网页聚类定位目标网页的方法中,在所述步骤S2中,所述网页特征 信息包括链接关系、等级关系、域名相似关系、文本相似关系及视觉相似关系。
[0016] 在上述由钓鱼网页聚类定位目标网页的方法中,在所述步骤S2中,进一步包括计 算相似关系到所述钓鱼网页的建模长度,其中,所述相似关系包括域名相似关系,文本相似 关系及视觉相似关系。
[0017] 在上述由钓鱼网页聚类定位目标网页的方法中,在所述步骤S3中,还包括利用所 述建模长度进行聚类分析。
[0018] 本发明提供的方法通过已知的钓鱼网页,根据多种网页特征进行相关网页查找W 及聚类分析,将相关网页集合进行筛选识别,能够更好地应对钓鱼网页的欺骗手段,且大范 围,高准确率地找出钓鱼网站模仿的目标网页。
【附图说明】
[0019] 图1是本发明实施例的由钓鱼网页定位目标网页的方法的流程示意图。
[0020] 图2是执行图1中步骤S1的细化流程图。
【具体实施方式】
[0021] 为了使本发明的目的、技术方案及优点更加清楚明白,W下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用W解释本发明,并不 用于限定本发明。
[00巧如图1所示,是本发明实施例的由钓鱼网页定位目标网页的方法流程图。在本实 施例中,该方法包括W下步骤:
[0023] S1、查找给定钓鱼网页的相关网页集合;
[0024] 在此步骤中,钓鱼网页是仿冒真实网站的U化地址W及页面内容,假设给定钓鱼 网页标记为P,其相关网页集合标记为Wp,如图2所示,该步骤进一步包括:
[0025] S101、抽取钓鱼网页P的HTML源码的U化超链接,获得直接关联网页的网址;其 中,U化超链接包含在BODY标签内。
[00%] S102、提取钓鱼网页P的关键词,并通过捜索引擎进行捜索,获得非直接关联的网 页的网址;
[0027] 在此步骤中,关键词包括title、meta tag及body中的key word等,捜索引擎是 GOOGLE,但并不限于此,也可W是百度等。
[0028] S103、根据上述直接关联网页和非直接关联网页的网址,使用爬虫进行爬取,获得 相关网页集合。其中,钓鱼网页P的相关网页集合Wp的形式化定义为:Wp= {Wi,W2,...,W。}, η为钓鱼网页P的相关网页集合包含的网页数目,。
[0029] S2、提取和建模所述钓鱼网页和所述相关网页集合的网页特征信息;
[0030] 在此步骤中,通过五种关系对网页进行建模,将每一个网页关系表示为一个特征 向量:Vp= {f 1,fz,fs,f4, fs},其中,fl,fz,fs,f4, fs分别表示链接关系,等级关系,域名相似关 系,文本相似关系W及视觉相似关系,其中,每种网页关系表示。
[00川链接关系k,表示钓鱼网页链接指向目标网页的概率值,其计算公式如下: 阳的2] Li,j=M/YNi, 阳03引其中,化U是网页i中所有指向网页j所在网站的任一网页的链接的数量;Ni是网 页i包含的链接数量。
[0034] 等级关系Rii为基于网页j在W网页i的代表性关键词作为查询得到的结果列表 中的等级,即定义从网页i到网页j的等级关联关系,其计算公式如下:
[0035]
[0036] 其中,Nf是查询所返回的结果列表长度,可W作为参数调节。Rg是网页j在返回列 表中的等级。如果网页j不在返回列表中,则氏设为0。
[0037] 域名相似关系USi,,用于计算两个域名(字符串)之间的相似度,利用编辑距离算 法对疑似网站进行域名相似度分析,其中编辑距离指两个字符串之间,由一个转成另一个 所需的最少编辑操作次数,如果该距离越大,说明两个字符串越不同。
[003引文本相似关系TSi,用于衡量网页i到网页j的文本相似度,通过如下步骤进行计 算:
[0039] S201、利用TF-IDF算法提取关键词及词频,并构造词频向量;
[0040] S202、利用余弦相似算法度量两个词频向量的距离。其中,余弦值越接近1,表明夹 角越接近0,则两个词频向量越相似。
[0041] 视觉相似关系LSi,,用于衡量网页i到网页j布局相似度,通过感知哈希算法 任ere巧化al hash algorithm)建立视觉相似关系,其中,该感知哈希算法包括W下步骤: 缩小尺寸;简化色彩;计算平均值;比较像素灰度;计算哈希值进行比较。
[0042] 在本实施例中,此步骤还包括计算钓鱼网页P和相关网页集合Wp中的每一网页的 相似距离,该相似距离为Vi (Li,Ri,USi,TSi,LSi),其中,i表示相关网页集合Wp中任一网页 i,i = 1,2, ...n,Li是链接关系相似度,Ri是等级关系相似度,US i是域名相似关系相似度, TSi是文本相似关系相似度,LS 1是视觉相似关系相似度。对于钓鱼网页P,其与本身的相似 距罔记为:Vp二(1, 1, 1, 1, 1}。
[0043] 在本实施例中,此步骤进一步包括计算每个相似关系到钓鱼网页P的建模长度。
[0044] S3、利用DBSCAN算法聚类分析所述网页特征信息的相似度,得到同一类相似网 页;
[0045] 在此步骤中,将钓鱼网页P的相似距离Vp与相似距离V 1进行组合,构成一个新的 集合,根据钓鱼网页的坐标点,并利用每个相似关系到钓鱼网页P的建模长度,得到相关网 页集合中各个相关网页间的距离,再结合DBSCAN值ensity-Based Spatial Clustering of Applications with Noise,聚类算法)算法进行聚类分析,可形成任意形状的聚类簇,其 中,通过调整关键参数化S (扫描半径)与MinPts (最小包含点数),将相关网页集合中的 网页与钓鱼网页的聚类距离控制在合适范围,当邱S与MinPts的取值增大时,相关网页更 容易聚类,同时钓鱼网页的正确识别率也相应增加。在本实施例中,Eps的取值约为0. 1~ 0. 2,MinPts的取值为4或者大于4。经过分析之后,分析的结果会显示Vp是否会和某些V 1 聚到一类,即同一类相似网页。
[0046] S4、通过域名相似关系,定位出所述同一类相似网页中的目标网页。
[0047] 在此步骤中,和钓鱼网页P聚类在同一类别中的其他网页即是钓鱼网页会模仿的 目标网页。
[0048] 因此,本发明根据多种网页特征进行查找相似网页,并根据多种网页相似关系进 行建模,其中,引用了编辑距离算法、TF-IDF算法和感知哈希算法,从域名到文本到图像, 对不同类型的网页特征信息进行提取,保证了信息的全面性。对于已提取的特征信息,采 用DBSCAN聚类算法将多种相似关系模型进行整合聚类,通过调节参数化S (扫描半径)与 MinPts (最小包含点数)控制各个相似关系模型的合适距离范围,找到合适的聚类簇,从而 高效地得到聚类结果,从真假识别率综合分析,得到较高的识别准确率。
[0049] W上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明掲露的技术范围内,可轻易想到的变化或替换, 都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该W权利要求的保护范围 为准。
【主权项】
1. 一种由钓鱼网页聚类定位目标网页的方法,其特征在于,包括以下步骤: 51、 查找给定钓鱼网页的相关网页集合; 52、 提取和建模所述钓鱼网页和所述相关网页集合的网页特征信息; 53、 利用DBSCAN算法聚类分析所述网页特征信息的相似度,得到同一类相似网页; 54、 通过域名相似关系,定位出所述同一类相似网页中的目标网页。2. 根据权利要求1所述的由钓鱼网页聚类定位目标网页的方法,其特征在于,所述步 骤S1包括: 5101、 抽取所述钓鱼网页的HTML源码的URL超链接,获得直接关联网页的网址; 5102、 提取所述钓鱼网页的关键词,并通过搜索引擎进行搜索,获得非直接关联的网页 的网址; 5103、 根据所述直接关联网页和非直接关联网页的网址,使用爬虫进行爬取,获得相关 网页集合。3. 根据权利要求1所述的由钓鱼网页聚类定位目标网页的方法,其特征在于,在所述 步骤S2中,还包括计算所述钓鱼网页和所述相关网页集合中的每一网页的相似距离,该相 似距离为Vi (Q,民,USd TSd IA),其中,Q是链接关系相似度,R i是等级关系相似度,US 1是 域名相似关系相似度,TSi是文本相似关系相似度,LS i是视觉相似关系相似度。4. 根据权利要求3所述的由钓鱼网页聚类定位目标网页的方法,其特征在于,在所述 步骤S2中,所述网页特征信息包括链接关系、等级关系、域名相似关系、文本相似关系及视 觉相似关系。5. 根据权利要求4所述的由钓鱼网页聚类定位目标网页的方法,其特征在于,在所述 步骤S2中,进一步包括计算相似关系到所述钓鱼网页的建模长度,其中,所述相似关系包 括域名相似关系,文本相似关系及视觉相似关系。6. 根据权利要求5所述的由钓鱼网页聚类定位目标网页的方法,其特征在于,在所述 步骤S3中,还包括利用所述建模长度进行聚类分析。
【文档编号】G06F17/30GK105824822SQ201510003979
【公开日】2016年8月3日
【申请日】2015年1月5日
【发明人】唐新民, 景晓军, 沈智杰
【申请人】任子行网络技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1