一种检测黑链的方法和装置的制作方法

文档序号:6365542阅读:113来源:国知局
专利名称:一种检测黑链的方法和装置的制作方法
一种检测黑链的方法和装置
技术领域
本发明涉及计算机安全技术领域,特别涉及一种检测黑链的方法和装置。
背景技术
黑链又称暗链、隐藏链接,是黑帽手法中相当普遍的一种手段,是指用非正常手段获取的其他网页的反向链接,最常见的黑链就是通过各种网页程序漏洞获取搜索引擎权重或网页级别(PR)较高的网页的管理权限代码(Webshell),进而在被黑网页上链接自己的网页。该手段是搜索引擎中进行作弊最有效最迅速的方法之一,在暴利行业使用尤多,例如游戏、外挂、彩铃等业务的行业。现有的黑链检测方法主要包括以下几种其一、网站管理人员通过经常查看网页源代码的方式,检查网页是否被挂上黑链。其二、查看网页中的链接是否可访问,如果存在未知链接,则怀疑被挂上黑链,删除该未知链接。其三、通过FTP工具查看网页文件的修改时间,如果存在修改时间异于大多数文件修改时间的文件,则该文件就可能被修改了文件源代码,挂了黑链。上述几种黑链检测方法都需要大量的人工操作,一方面浪费人力资源,对网站管理人员的黑链知识提出较高要求,无法实现黑链的自动检测;另一方面,对于新出现的黑链作弊方式,很难及时有效地发现。

发明内容本发明提供了一种检测黑链的方法和装置,以便于实现黑链的自动检测。具体技术方案如下一种检测黑链的方法,该方法包括SI、提取待检测网页的超链接,逐一对获取的超链接执行黑链检测流程所述黑链检测流程包括:Al、判断超链接的视觉特征参数是否满足预设的不可见特征要求,如果是,则确定该超链接为黑链。根据本发明一优选实施例,在所述黑链检测流程的步骤Al中,如果判断结果为否,则进一步执行步骤A2:A2、判断该超链接的外链引用次数是否超过预设的次数阈值,如果是,则确定该超链接为黑链。根据本发明一优选实施例,如果所述A2的判断结果为否,则将该超链接加入白名单数据库,结束对该超链接的黑链检测流程。根据本发明一优选实施例,在所述步骤SI之前还包括S0、将所述待检测网页的网址与已有的白名单数据库进行匹配,如果匹配得上,则确定所述待检测网页不存在黑链,结束流程;否则继续执行所述步骤Si。
根据本发明一优选实施例,所述确定该超链接为黑链进一步包括
获取该超链接的网页内容特征;将获取的内容特征与已挖掘出的恶意特征数据库进行匹配,如果匹配得上,则确定该超链接为黑链。
根据本发明一优选实施例,所述恶意特征数据库中存储有被识别为黑链的网页的关键词;所述将获取的内容特征与已挖掘出的恶意特征数据库进行匹配具体包括将获取的该超链接的网页标题title或网页元信息Meta与所述恶意特征数据库中存储的关键词进行匹配。根据本发明一优选实施例,在确定出该超链接为黑链后,进一步包括从该黑链的网页中进一步提取关键词,将该关键词存储于恶意特征数据库。根据本发明一优选实施例,在所述步骤Al中,当所述视觉特征参数为颜色设置参数时,对应的不可见特征要求为该超链接的颜色设置参数与所述待检测网页背景颜色一致;或者,当所述视觉特征参数为字体参数时,对应的不可见特征要求为该超链接的字体参数的值小于或等于预设的字体参数阈值;或者,当所述视觉特征参数为关键字位置参数时,对应的不可见特征要求为该超链接的关键字位置在所述待检测网页的可见范围之外;或者,当所述视觉特征参数为链接展现参数时,对应的不可见特征要求为该超链接以跑马灯形式闪现或者不显示。根据本发明一优选实施例,所述恶意特征数据库存储有被确定为黑链的链接;该方法还包括从网页库中获取超链接中包含了所述恶意特征数据库中链接的网页,对该网页中的其他超链接逐一执行所述黑链检测流程,并将检测出的黑链加入所述恶意特征数据库;或者,从网页库中找出与所述恶意特征数据库中链接的网页相似度满足预设相似度要求的网页,将找出的网页作为待检测网页转至步骤Si处开始执行,然后将检测出的黑链加入所述恶意特征数据库。一种检测黑链的装置,该装置包括链接提取模块,用于提取待检测网页的超链接,并将提取的超链接逐一提供给检测模块;检测模块,用于判断超链接的视觉特征参数是否满足预设的不可见特征要求,如果是,则将该超链接发送给黑链确定模块;黑链确定模块,用于将接收到的超链接确定为黑链。根据本发明一优选实施例,该装置还包括引用次数判断模块,用于在所述检测模块的判断结果为否时,判断该超链接的外链引用次数是否超过预设的次数阈值,如果是,则将该超链接发送给所述黑链确定模块。根据本发明一优选实施例,该装置还包括白名单维护模块,用于在所述引用次数判断模块的判断结果为否时,将该超链接加入白名单数据库。根据本发明一优选实施例,该装置还包括白名单判断模块,用于将所述待检测网页的网址与已有白名单数据库进行匹配,如果匹配得上,则确定所述待检测网页不存在黑链;否则,触发所述链接提取模块。
根据本发明一优选实施例,该装置还包括恶意特征匹配模块,用于获取发送给所述黑链确定模块的超链接,获取该超链接的网页内容特征,将获取的内容特征与已挖掘出的恶意特征数据库进行匹配,如果匹配得上,则将该超链接发送给所述黑链确定模块。根据本发明一优选实施例,所述恶意特征数据库中存储有被识别为黑链的网页的关键词;所述恶意特征匹配模块在将获取的内容特征与已挖掘出的恶意特征数据库进行匹配时,具体将获取的该超链接的网页标题title或网页元信息Meta与所述恶意特征数据库中存储的关键词进行匹配。根据本发明一优选实施例,该装置还包括恶意特征库维护模块,用于在所述黑链确定模块将该超链接确定黑链后,从该黑链的网页中进一步提取关键词,将该关键词存储于恶意特征数据库。根据本发明一优选实施例,在所述检测模块中,当所述视觉特征参数为颜色设置参数时,采用的不可见特征要求为该超链接的颜色设置参数与所述待检测网页背景颜色一致;或者,当所述视觉特征参数为字体参数时,采用的不可见特征要求为该超链接的字体参数的值小于或等于预设的字体参数阈值;或者,当所述视觉特征参数为关键字位置参数时,采用的不可见特征要求为该超链接的关键字位置在所述待检测网页的可见范围之外;或者,当所述视觉特征参数为链接展现参数时,采用的不可见特征要求为该超链接以跑马灯形式闪现或者不显示。根据本发明一优选实施例,所述恶意特征数据库存储有被确定为黑链的链接;该装置还包括恶意特征库挖掘模块,用于从网页库中获取超链接中包含了所述恶意特征数据库中链接的网页,将该网页中的其他超链接逐一提供给所述检测模块,并将所述黑链确定模块确定的黑链加入所述恶意特征数据库;或者,从网页库中找出与所述恶意特征数据库中链接的网页相似度满足预设相似度要求的网页,将找出的网页作为待检测网页提供给所述链接提取模块,然后将所述黑链确定模块确定的黑链加入所述恶意特征数据库。由以上技术方案可以看出,本发明提供了一种自动实现黑链检测的方式,无需手工操作,不再受限于网站管理员对黑链知识的掌握,由于本发明基于黑链的基本行为特性,即不可见的视觉特征,因此即便是新出现的黑链,只要满足该基本行为特性均能够及时有效地发现。

图I为本发明实施例一提供的检测黑链的方法流程图;图2为本发明实施例二提供的对超链接的视觉特征参数进行检测的流程图; 图3为本发明实施例四提供的检测黑链的装置结构图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。实施例一、图I为本发明实施例一提供的检测黑链的方法流程图,如图I所示,该方法可以包括以下步骤步骤101 :将待检测网页的网址与已有的白名单数据库进行匹配,如果待检测网页存在于白名单数据库中,则确定该待检测网页不存在黑链,结束流程;否则执行步骤102。进行黑链检测时,可以首先调用白名单数据库进行检测。在本发明实施例中可以预先将已经确认的没有被挂黑链的网页的url存储在白名单数据库中,该白名单数据库可以是一个动态更新的数据库,可以采用手工方式进行添加,也可以在本实施例步骤104中确定某超链接安全时,将该超链接加入白名单数据库。本步骤用于提高黑链的检测效率,并不是本发明的必要步骤。步骤102 :提取该待检测网页的超链接,逐一对获取的超链接执行步骤103至步骤106。针对待检测网页进行黑链检测时,目的是为了检测该待检测网页中是否被挂上了黑链,因此提取其中所有的超链接,逐一进行检测。步骤103 :判断超链接的视觉特征参数是否满足预设的不可见特征要求,如果是,则确定该超链接为可疑链接,执行步骤105 ;否则,执行步骤104。经观察被挂的黑链通常都具有一些不可见特征,目的是为了不易被察觉,这些特征通过链接的视觉特征参数体现,这些视觉特征参数包括但不限于颜色设置参数、字体参数、关键字位置参数、链接展现参数等中的一种或任意组合。当视觉特征参数为颜色设置参数时,对应的不可见特征要求可以为该超链接的颜色设置参数与待检测网页背景颜色一致。当视觉特征参数为字体参数时,其中字体参数可以为字体大小和/或字体高度,对应的不可见特征要求可以为该超链接的字体参数的值小于或等于预设字体参数阈值。例如,字体大小小于I像素,或者,字体高度小于I像素等。当视觉特征参数为关键字位置参数时,关键字位置参数可以通过div标签中的left和top参数体现,对应的不可见特征要求可以为该超链接的关键字位置在待检测网页的可见范围之外。当视觉特征参数为链接展现参数时,链接展现参数可以为滚动文字(marquee)标签中的,此时对应的不可见特征要求可以为该超链接以跑马灯形式闪现;链接展现参数还可以为显示属性(display)参数,该参数可以是div标签中的、document, write中的或者javascript中的,此时对应的不可见特征要求为该超链接不显示。具体检测将以实施例二为例进行描述。步骤104 :判断该超链接的外链引用次数是否超过预设的次数阈值,如果是,则确定该超链接为可疑链接,执行步骤105 ;否则将该超链接加入白名单数据库,结束对该超链接的判断流程。
在通过步骤103所述的检测方式没有确定出可疑链接时,还可以通过本步骤进行进一步的判断,如果一个超链接被挂在其他网页上的次数,即外链引用次数,超过预设的次数阈值,说明该超链接多次被挂在其他网页上,这通常是不正常的现象,例如多个视频或音频等网页上均挂了一个相同的卖药的超链接,则该卖药的超链接很有可能就是黑链。其中预设的次数阈值通常采用经验值。 优选地,在判断出该超链接的外链引用次数没有超过预设的次数阈值时,可以进一步存在一个审核的步骤,待审核确认后可以将该超链接加入白名单,从而避免误报。步骤105 :获取该超链接的网页内容特征。在确定出可疑链接时,为了提高检测准确性,可以进一步对该超链接进行基于内容特征的检测。本步骤中获取的网页内容特征可以包括但不限于网页标题(title)、网页元信息(Meta)等。步骤106 :将获取的内容特征与已挖掘出的恶意特征数据库进行匹配,如果匹配得上,则确定该超链接为黑链。本发明实施例中恶意特征数据库的形成可以通过手工的方式预先设置,也可以通过自动挖掘的方式形成。恶意特征数据库中至少存储有被识别为黑链的网页的关键词,该关键词可以从网页title和/或Meta中提取,关键词用于在黑链检测过程中将超链接的内容特征与恶意特征数据库进行匹配时使用,即将从超链接的网页中提取的title或Meta与恶意特征数据库中的关键词进行匹配,如果匹配得上,则可以确认该超链接为黑链,也就是说被检测网页存在黑链,如果没有匹配上,则可以确认该超链接为安全的链接。除此之外,恶意特征数据库还可以存储有被识别为黑链的网页url,用于进行恶意特征数据库的进一步挖掘,该过程将在实施例三中详细描述。在此从确定出的黑链的网页中进一步提取关键词,将该关键词存入恶意特征数据库,并将该黑链存入恶意特征数据库。在确定出黑链之后,可以将黑链和挂黑链的网页(即待检测网页)进行上报。需要说明的是,上述步骤105和步骤106可以是进一步的过程,如果不需要足够高的准确度,也可以直接将可疑链接确定为黑链。实施例二、图2为本发明实施例二提供的对超链接的视觉特征参数进行检测的流程图,如图2所示,该流程可以具体包括以下步骤步骤201 :获取超链接的颜色设置参数。步骤202 :判断该颜色设置参数是否与被检测网页的网页背景颜色设置一致,如果是,则确定该超链接为可疑链接;否则执行步骤203。如果超链接的颜色设置与其被挂在的网页背景颜色设置一致,这种情况该超链接不易被察觉,很有可能是黑链。这种黑链实现代码为<a href = http://www. xxx. com/style = " color :#FFFFFF ;" > 关键字〈/a>步骤203 :获取该超链接的字体大小(font-size)参数和字体高度(line-size)参数。本步骤是获取超链接的字体参数。步骤204 :判断font-size或line-size是否小于或等于I像素,如果是,则确定该超链接为可疑链接;否则执行步骤205。
此处I像素 是采用的一个经验值,如果超链接的链接文字大小小于或等于I像素,则不易被察觉,很有可能为黑链。这种黑链实现代码为<a herf = http://www. xxx. com/style = " font-size: Ipx ;" > 关键字 </a><a herf = http://www. xxx. com/style = " line-height: Ipx ; 〃 > 关键字 </a>步骤205 :获取该超链接所对应标签中的关键字位置参数。例如,获取超链接所对应div标签中的top和left参数。步骤206 :根据该关键字位置参数判断该超链接是否位于被检测网页的可见范围之外,如果是,确定该超链接为可疑链接;否则执行步骤207。如果链接的关键字位于其锁挂在的网页可见范围之外,则不易被察觉,很有可能为黑链,例如偏离屏幕左上角999像素,在屏幕上是显示不到的,再例如如果其位置参数为一个较大的负值,在屏幕上也是显示不到的。其黑链实现代码为〈div style = " position:absolute ;top:_999px ;lefi:_999px ;" ><a herf = http://www. xxx. com〉关键词 </a>〈/div>或者,〈div style = " position:absolute ;Ieft:expression_r(1-900) ;top:expression_r(3-999);" ><a href = http://www. xxx. com/〉关键字 </a>〈/div>步骤207 :获取超链接所对应的marquee标签中的链接展现参数。步骤208 :判断该marquee标签中的链接展现参数是否为跑马灯形式闪现,如果是,则确定该超链接为可疑链接;否则执行步骤209。如果marquee标签中的长度和高度参数为I或者0,则说明该超链接以跑马灯形式闪现,不易被察觉,很有可能是黑链。这种黑链实现代码为〈marquee height = I width = I scrollamount = 3000 scrolldelay =20000><ahref = http://www. xxx. com> 关键词 </a></marquee>除了从超链接的marquee标签直接判断之外,还可以采用检测超链接脚本(javascript)中marquee标签的方式来判断,如果脚本中marquee标签指示调用跑马灯形式闪现,同样确定为黑链。此种黑链实现代码为〈script language = " javascript" type = " text/javascript" >document, write ( " 〈marquee scrolIAmount = 5000 width = ' I ' height=,5,〉");〈/script〉<div><a href = " http://www.xxx.com/" title ="关键字" > 关键字〈/a>〈script language = " javascript" type = " text/javascript" >document, write ("〈/marquee〉");〈/script〉步骤209 :获取超链接所对应标签的display参数。步骤210 :判断display参数是否为none,如果是,则确定该超链接为可疑链接;否则,转至实施例一中的步骤104。
其中display参数可以是div标签中的,如果div标签中出现display:none,则表明其属性为不显示,有可能该超链接为黑链。这种黑链的实现代码为<a herf = http://www. xxx. com style = " display:none" > 关键词 </a>或者〈div style = " display:none ;" ><a href = http://www. xxx. com/〉关键字 </a>〈/div>另外,display参数也可以该超链接的document, write中的,如果document.write中出现display:none,贝U表明其属性为不显示,有可能该超链接为黑链。这种黑链的实现代码为〈script language = " javascript" type = " text/javascript" >document, write ("〈div style = ' display:none ;' >")</script><div><a href = http://www. xxx. com/〉关键字 </a>〈script language = " javascript" type = " text/javascript" >document, write (" </div>" ) ;</script)另外,display参数也可以该超链接的javascript中的,如果javascript中出现displaymone,则表明其属性为不显示,有可能该超链接为黑链。这种黑链的实现代码为〈div id ="关键字"><a href = " http://www.xxx.com" > 关键字〈/a></div>〈script language = javascript)document. getElementByld (关键字)· style, display = " none "〈/script〉需要说明的是,本实施例中各步骤的实现可以采用其中的一种或任意组合的方式以任意顺序实现,本实施例所示的仅是一种优选实例。实施例三、在该实施例中主要对恶意特征数据库的挖掘过程进行描述,首先说明恶意数据库的挖掘来源,在此主要存在两种来源第一种来源包含黑链的网页中的其他超链接。如果确定出某链接为黑链,则说明挂了该链接的网页存在漏洞,很有可能还挂有其他黑链,因此,可以从网页库中获取超链接中包含了恶意特征数据库中链接的网页,该对该网页中的其他超链接逐一执行本发明实施例一中步骤103至步骤106所述的检测黑链的方式来检测其他超链接是否为黑链。当然,如实施例一种所述,也可以仅采用步骤103的方式检测黑链,也可以采用步骤103至步骤104检测黑链。如果检测到其他超链接中存在黑链,则将检测出的黑链加入恶意特征数据库。第二种来源从网页库中找出与恶意特征数据库中的网页相似度满足预设相似度要求的网页,将该网页作为待检测网页执行本发明实施例一所述的检测方法来检测该待检测网页中是否包含黑链,并将检测出的黑链加入恶意特征数据库。之所以采用这种挖掘来源,是因为攻击者在挂黑链时通常会采用具有相似性的网页。当采用了上述恶意特征数据库的挖掘方式之后,使本发明实施例提供的黑链检测方法形成了一个迭代,可以利用恶意网页数据库对网页进行检测确定是否存在黑链,而对于挖掘到黑链的网页又可以作为恶意网页数据库的挖掘来源或者作为特征从网页库中为恶意网页数据库中选取挖掘来源。以上是对本发明所提供的方法进行的描述,下面通过实施例四对本发明所提供的装置进行详细描述。实施例四、图3为本发明实施例四提供的检测黑链的装置结构图,如图3所示,该装置包括链接提取模块301、检测模块302以及黑 链确定模块303。链接提取模块301提取待检测网页的超链接,并将提取的超链接逐一提供给检测模块302。检测模块302判断超链接的视觉特征参数是否满足预设的不可见特征要求,如果是,则将该超链接发送给黑链确定模块303。这些视觉特征参数包括但不限于颜色设置参数、字体参数、关键字位置参数、链接展现参数等中的一种或任意组合。在检测模块302中,当视觉特征参数为颜色设置参数时,采用的不可见特征要求为该超链接的颜色设置参数与待检测网页背景颜色一致;或者,当视觉特征参数为字体参数时,采用的不可见特征要求为该超链接的字体参数的值小于或等于预设的字体参数阈值;或者,当视觉特征参数为关键字位置参数时,采用的不可见特征要求为该超链接的关键字位置在待检测网页的可见范围之外;或者,当视觉特征参数为链接展现参数时,采用的不可见特征要求为该超链接以跑马灯形式闪现或者不显示。黑链确定模块303将接收到的超链接确定为黑链。除此之外,黑链确定模块303可以进一步上报确定出的黑链以及被挂了黑链的网页。为了提高检测效率,该装置还可以包括白名单判断模块300,在检测开始时,该白名单判断模块300首先被调用,用于将待检测网页的网址与已有白名单数据库进行匹配,如果匹配得上,则确定待检测网页不存在黑链;否则,触发链接提取模块301。在本发明实施例中可以预先将已经确认的没有被挂黑链的网页的url存储在白名单数据库中,该白名单数据库可以是一个动态更新的数据库。更进一步地,如果一个超链接被挂在其他网页上的次数,S卩外链引用次数,超过预设的次数阈值,说明该超链接多次被挂在其他网页上,这通常是不正常的现象,例如多个视频或音频等网页上均挂了一个相同的卖药的超链接,则该卖药的超链接很有可能就是黑链。针对于此,该装置还可以包括引用次数判断模块304,用于在检测模块302的判断结果为否时,判断该超链接的外链引用次数是否超过预设的次数阈值,如果是,则将该超链接发送给黑链确定模块303。其中预设的次数阈值通常采用经验值。如果引用次数判断模块304的判断结果为否,则说明该超链接安全,对于此,该装置还可以包括白名单维护模块305,用于在引用次数判断模块304的判断结果为否时,将该超链接加入白名单数据库。为了进一步提高检测准确性,该装置还可以包括恶意特征匹配模块306,用于获取检测模块302以及引用次数判断模块304发送给黑链确定模块303的超链接,获取该超链接的网页内容特征,将获取的内容特征与已挖掘出的恶意特征数据库进行匹配,如果匹配得上,则将该超链接发送给黑链确定模块303。也就是说,检测模块302以及引用次数判断模块304经过判断后,如果判断结果为是,可以首先确定该超链接为可疑链接,然后经由恶意特征匹配模块306的匹配之后,在进一步确定该可疑链接是否为黑链。其中,恶意特征数据库中存储有被识别为黑链的网页的关键词;此时,恶意特征匹 配模块306在将获取的内容特征与已挖掘出的恶意特征数据库进行匹配时,可以具体将获取的该超链接的网页title或Meta与恶意特征数据库中存储的关键词进行匹配。另外,该装置还可以包括恶意特征库维护模块307,用于在黑链确定模块303将该超链接确定黑链后,从该黑链的网页中进一步提取关键词,将该关键词存储于恶意特征数据库。上述恶意特征数据库的形成可以通过手工的方式预先设置,也可以通过自动挖掘的方式形成。恶意特征数据库存储有被确定为黑链的链接,为了实现恶意特征数据库的挖掘,该装置还包括恶意特征库挖掘模块308,从网页库中获取超链接中包含了恶意特征数据库中链接的网页,将该网页中的其他超链接逐一提供给检测模块302,并将黑链确定模块303确定的黑链加入恶意特征数据库;或者,从网页库中找出与恶意特征数据库中链接的网页相似度满足预设相似度要求的网页,将找出的网页作为待检测网页提供给链接提取模块301,然后将黑链确定模块303确定的黑链加入恶意特征数据库。在采用本发明的上述实施例检测出黑链以及被挂了黑链的网页之后,可以方便对被挂了黑链的网页进行漏洞扫描和安全加固。例如,可以进行端口扫描、系统漏洞扫描或web安全漏洞扫描等等。具体的漏洞扫描和安全加固方式本发明并不加以限制。由以上描述可以看出,本发明提供的方法和装置具备以下优点I)能够自动实现黑链的检测,无需手工操作,不再受限于网站管理员对黑链知识的掌握。2)本发明基于黑链的基本行为特性,即不可见的视觉特征,因此即便是新出现的黑链,只要满足该基本行为特性均能够及时有效地发现。3)对于基于不可见的视觉特性无法检测出的黑链,能够进一步采用基于外链引用次数的判别方式,从而提高黑链检测的覆盖率。4)在基于不可见的视觉特性和外链引用次数的判别方式之外,进一步对可疑的超链接进行基于恶意特征数据库的匹配,从而提高黑链的检测正确率。5)本发明还额外提供了恶意特征数据库的挖掘方式,这种挖掘方式使黑链检测方法形成了一个迭代,从而使得黑链检测更加趋近于丰富和高覆盖率。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
权利要求
1.一种检测黑链的方法,其特征在于,该方法包括 Si、提取待检测网页的超链接,逐一对获取的超链接执行黑链检测流程 所述黑链检测流程包括Al、判断超链接的视觉特征参数是否满足预设的不可见特征要求,如果是,则确定该超链接为黑链。
2.根据权利要求I所述的方法,其特征在于,在所述黑链检测流程的步骤Al中,如果判断结果为否,则进一步执行步骤A2 A2、判断该超链接的外链引用次数是否超过预设的次数阈值,如果是,则确定该超链接为黑链。
3.根据权利要求2所述的方法,其特征在于,如果所述A2的判断结果为否,则将该超链接加入白名单数据库,结束对该超链接的黑链检测流程。
4.根据权利要求I或3所述的方法,其特征在于,在所述步骤SI之前还包括 SO、将所述待检测网页的网址与已有的白名单数据库进行匹配,如果匹配得上,则确定所述待检测网页不存在黑链,结束流程;否则继续执行所述步骤SI。
5.根据权利要求I或2所述的方法,其特征在于,所述确定该超链接为黑链进一步包括 获取该超链接的网页内容特征; 将获取的内容特征与已挖掘出的恶意特征数据库进行匹配,如果匹配得上,则确定该超链接为黑链。
6.根据权利要求5所述的方法,其特征在于,所述恶意特征数据库中存储有被识别为黑链的网页的关键词; 所述将获取的内容特征与已挖掘出的恶意特征数据库进行匹配具体包括将获取的该超链接的网页标题title或网页元信息Meta与所述恶意特征数据库中存储的关键词进行匹配。
7.根据权利要求6所述的方法,其特征在于,在确定出该超链接为黑链后,进一步包括从该黑链的网页中进一步提取关键词,将该关键词存储于恶意特征数据库。
8.根据权利要求I所述的方法,其特征在于,在所述步骤Al中,当所述视觉特征参数为颜色设置参数时,对应的不可见特征要求为该超链接的颜色设置参数与所述待检测网页背景颜色一致;或者, 当所述视觉特征参数为字体参数时,对应的不可见特征要求为该超链接的字体参数的值小于或等于预设的字体参数阈值;或者, 当所述视觉特征参数为关键字位置参数时,对应的不可见特征要求为该超链接的关键字位置在所述待检测网页的可见范围之外;或者, 当所述视觉特征参数为链接展现参数时,对应的不可见特征要求为该超链接以跑马灯形式闪现或者不显示。
9.根据权利要求5所述的方法,其特征在于,所述恶意特征数据库存储有被确定为黑链的链接; 该方法还包括从网页库中获取超链接中包含了所述恶意特征数据库中链接的网页,对该网页中的其他超链接逐一执行所述黑链检测流程,并将检测出的黑链加入所述恶意特征数据库;或者,从网页库中找出与所述恶意特征数据库中链接的网页相似度满足预设相似度要求的网页,将找出的网页作为待检测网页转至步骤Si处开始执行,然后将检测出的黑链加入所述恶意特征数据库。
10.一种检测黑链的装置,其特征在于,该装置包括 链接提取模块,用于提取待检测网页的超链接,并将提取的超链接逐一提供给检测模块; 检测模块,用于判断超链接的视觉特征参数是否满足预设的不可见特征要求,如果是,则将该超链接发送给黑链确定模块; 黑链确定模块,用于将接收到的超链接确定为黑链。
11.根据权利要求10所述的装置,其特征在于,该装置还包括引用次数判断模块,用于在所述检测模块的判断结果为否时,判断该超链接的外链引用次数是否超过预设的次数阈值,如果是,则将该超链接发送给所述黑链确定模块。
12.根据权利要求11所述的装置,其特征在于,该装置还包括白名单维护模块,用于在所述引用次数判断模块的判断结果为否时,将该超链接加入白名单数据库。
13.根据权利要求10或12所述的装置,其特征在于,该装置还包括白名单判断模块,用于将所述待检测网页的网址与已有白名单数据库进行匹配,如果匹配得上,则确定所述待检测网页不存在黑链;否则,触发所述链接提取模块。
14.根据权利要求10或11所述的装置,其特征在于,该装置还包括恶意特征匹配模块,用于获取发送给所述黑链确定模块的超链接,获取该超链接的网页内容特征,将获取的内容特征与已挖掘出的恶意特征数据库进行匹配,如果匹配得上,则将该超链接发送给所述黑链确定模块。
15.根据权利要求14所述的装置,其特征在于,所述恶意特征数据库中存储有被识别为黑链的网页的关键词; 所述恶意特征匹配模块在将获取的内容特征与已挖掘出的恶意特征数据库进行匹配时,具体将获取的该超链接的网页标题title或网页元信息Meta与所述恶意特征数据库中存储的关键词进行匹配。
16.根据权利要求15所述的装置,其特征在于,该装置还包括恶意特征库维护模块,用于在所述黑链确定模块将该超链接确定黑链后,从该黑链的网页中进一步提取关键词,将该关键词存储于恶意特征数据库。
17.根据权利要求10所述的装置,其特征在于,在所述检测模块中,当所述视觉特征参数为颜色设置参数时,采用的不可见特征要求为该超链接的颜色设置参数与所述待检测网页背景颜色一致;或者, 当所述视觉特征参数为字体参数时,采用的不可见特征要求为该超链接的字体参数的值小于或等于预设的字体参数阈值;或者, 当所述视觉特征参数为关键字位置参数时,采用的不可见特征要求为该超链接的关键字位置在所述待检测网页的可见范围之外;或者, 当所述视觉特征参数为链接展现参数时,采用的不可见特征要求为该超链接以跑马灯形式闪现或者不显示。
18.根据权利要求14所述的装置,其特征在于,所述恶意特征数据库存储有被确定为黑链的链接;该装置还包括恶意特征库挖掘模块,用于从网页库中获取超链接中包含了所述恶意特征数据库中链接的网页,将该网页中的其他超链接逐一提供给所述检测模块,并将所述黑链确定模块确定的黑链加入所述恶意特征数据 库;或者,从网页库中找出与所述恶意特征数据库中链接的网页相似度满足预设相似度要求的网页,将找出的网页作为待检测网页提供给所述链接提取模块,然后将所述黑链确定模块确定的黑链加入所述恶意特征数据库。
全文摘要
本发明提供了一种检测黑链的方法和装置,其中方法包括提取待检测网页的超链接,逐一对获取的超链接执行黑链检测流程,所述黑链检测流程包括判断超链接的视觉特征参数是否满足预设的不可见特征要求,如果是,则确定该超链接为黑链,并进一步可以结合外链引用次数和恶意特征数据库的检测方式,自动实现黑链检测,无需手工操作,不再受限于网页管理员对黑链知识的掌握,对于新出现的黑链也能够及时有效地发现。
文档编号G06F21/00GK102622435SQ20121004949
公开日2012年8月1日 申请日期2012年2月29日 优先权日2012年2月29日
发明者周向荣 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1