一种基于聚合度分析的暗链检测技术的制作方法

文档序号:13804812阅读:285来源:国知局
本发明是关于网络安全领域,特别涉及一种基于聚合度分析的暗链检测技术。
背景技术
::暗链是一种特殊的网页超链接,通过比较隐蔽的技术手法植入于网站代码中,通常无法直接通过浏览器查看到,主要用途为利用搜索引擎以及网站相互引用来获得较高的搜索排名以及较大的网站访问流量。由于该技术主要用于推广一些非法或不健康的内容,嵌入网页的技术手段也通常为非受权的入侵式植入为主,因此通常暗链也是网站被黑的一种显性标志。目前,对于暗链的检测技术主要依赖于特征库黑名单检测技术、浏览器渲染链接元素样式属性判断等技术,但是这些技术都需要依赖于特征进行计算,容易产生误报。技术实现要素:本发明的主要目的在于克服现有技术中的不足,提供一种能准确识别网页已经被植入的暗链的方法。为解决上述技术问题,本发明的解决方案是:提供一种基于聚合度分析的暗链检测方法,用于检测网页中植入的暗链,所述基于聚合度分析的暗链检测方法具体包括下述步骤:步骤一:向待检测的web网站服务器发送http请求,抓取待检测页面的响应html源代码;步骤二:对获得的响应html源代码建立链接坐标平面图(链接坐标系是指:以(0,0)为坐标原点,水平线方向为x轴,垂直方向为y轴);外部链接(即一个网页中所有的链接,且链向的目的链接不是本网站的链接;以http://www.dbappsecurity.com.cn页面的源代码为例,凡是不指向www.dbappsecurity.com.cn的链接相对于网站http://www.dbappsecurity.com.cn都是外链)在链接坐标系中的坐标取值方式如下:1)外部链接在链接坐标系中的y值:该外部链接在响应html源代码中的行数;2)外部链接在链接坐标系中的x值,每一行分别计算获得:首先将本行源代码中的每一个链接(<ahref=*>*</a>)作为一个整体,然后以空格分隔每一个链接,将这一行源代码分割成一个数组,作为整体的链接不参与分割,各链接在分割产生的数组中的顺序即为该链接的x坐标值(比如源代码“test<br><ahref=x>k</a>fff”,分割之后链接“<ahref=x>k</a>”所在数组的顺序为2,所以该链接的x取值为2);通过上述定位,获得所有外部链接在链接坐标系中的坐标值,然后将各外部链接在链接坐标系中绘制出来,获得链接坐标平面图;步骤三:计算聚合度,获取疑似暗链的外链集:在链接坐标平面图中,计算所有外部链接的x值,是否存在连续n个点的x值相近;相近是指这n个点的连线近似于水平直线,即连线与y轴的夹角值在88°到90°之间,则认为这连续的n个点对应的外部链接聚合符合条件;所述n是指大于0的自然数(n为经验值,取值为3~10);同理,在链接坐标平面图中,计算外部链接的y值是否满足聚合条件:是否存在连续n个点的y值相近;相近是指这n个点的连线近似于垂直直线,即连线与x轴的夹角值在88°到90°之间,则认为这连续的n个点对应的外部链接聚合符合条件;所述n是指大于0的自然数(n为经验值,取值为3~10);只要外部链接的x值或者y值满足聚合条件,则认为这一批外部链接符合聚合,判定为疑似暗链的外链集;步骤四:敏感关键字匹配:使用暗链敏感关键字集合(暗链敏感关键字集合是历史整理的暗链敏感关键字,主要指涉及色情、博彩、广告之类的关键词,这一类关键字在暗链中利用最多),对疑似暗链的外链集中的锚文本进行匹配(暗链敏感关键字对锚文本的匹配算法是,逐一使用各链接的锚文本,在关键字集合中查找,如果命中则判定为匹配),如果匹配次数超过二次,则判定该外链集是暗链;所述锚文本是指一个链接中的文本内容(如源代码链接“<ahref=xx>qqq</a>”中,“qqq”则是锚文本)。本发明的工作原理:采用基于网页代码聚合度分析技术,对待检测的网页进行提取,检测网页中的块结构中的外部超级链接,通过超级链接的聚合度分析快速定位可能存在暗链的块,然后针对定位的块进行关键字校验,从而实现大批量网站暗链检测。与现有技术相比,本发明的有益效果是:本发明主要从黑客入侵篡改植入暗链的主观目的性上出发,从数学脚本考虑其植入链接的结构特性,来进行检测,能够极大的提高检测结果的准确性。本发明采用基于代码聚合度的技术手段,识别网页中植入的暗链,并通过采用关键字校验技术,在识别准确度方面有了明显的提升。在大批量检测对象的情况下,本发明可以非常快速地展开大范围的暗链检测工作,实现了高性能检测,在检测性能方面有着明显的优势。附图说明图1为本发明的检测流程图。图2为实施例中的链接坐标平面图。具体实施方式下面结合附图与具体实施方式对本发明作进一步详细描述:暗链,同时满足以下两个条件为暗链:1)大量外部链接聚合成水平、垂直的直线;2)聚合成直线的外链描文本,包含诸如“赌场”、“百家乐”等敏感关键字。下面的实施例可以使本专业的专业技术人员更全面地理解本发明,但不以任何方式限制本发明。如图1所示的一种基于聚合度分析的暗链检测技术,能检测出网页中植入的暗链,具体检测步骤如下:步骤一:向待检测的web网站服务器发送http请求,抓取待检测页面的响应html源代码。本实施例中待检测页面的响应html源代码如下(左边一列为在响应html源代码中的行数):766</table><divid="tesi">767<ahref="http://cjdszx.com">太阳城娱乐城</a>768<ahref="http://xapabx.com">赌场</a>769<ahref="http://maxecu.com">威尼斯人</a>770<ahref="http://byzhongye.com">澳门金沙</a>771<ahref="http://mir32008.com">赌博</a>772<ahref="http://bjdhhkyj.com">博彩</a>773<ahref="http://designxun.com">新葡京</a>774<ahref="http://bjyhjjm.com">澳门赌场</a>775<ahref="http://jhgangbanwang.com">轮盘</a>776<ahref="http://lzhousui.com">博彩网</a>777<ahref="http://jaybwx.com">足球投注</a>778<ahref="http://www.lyjgqz.com">全讯网</a>779<ahref="http://qingdaogoldenplaza.com">线上百家乐</a>780<ahref="http://sxlfzs.com">百家乐论坛</a>781<ahref="http://www.taomeileshop.com">百家乐软件</a>782<ahref="http://qzlcjx.com">www.hg0088.com</a>783<ahref="http://mastsy.com">皇冠hg0088</a>784<ahref="http://www.zzhyqzj.com">hg0088.com开户</a>785<ahref="http://www.hndzgs.com">博彩评级</a></p></div></table>步骤二:对获得的响应html源代码建立链接坐标平面图,链接坐标系是指:以(0,0)为坐标原点,水平线方向为x轴,垂直方向为y轴。外部链接是指:一个网页中所有的链接,链向的目的链接不是本网站的链接。以http://www.dbappsecurity.com.cn页面的源代码为例,凡是不指向www.dbappsecurity.com.cn的链接相对于网站http://www.dbappsecurity.com.cn都是外链。外部链接在链接坐标系中的坐标取值方式如下:1)外部链接在链接坐标系中的y值:该外部链接在响应html源代码中的行数;2)外部链接在链接坐标系中的x值,每一行分别计算获得:首先将本行源代码中的每一个链接(<ahref=*>*</a>)作为一个整体,然后以空格为分隔符,将这一行分割成一个数组,作为整体的链接不参与分割,各链接在分割产生的数组中的顺序即为该链接的x坐标值。如源代码:“test<br><ahref=x>k</a>fff”分割之后链接“<ahref=x>k</a>”所在数组的顺序为2,所以该链接的x取值为2。通过上述定位,获得所有外部链接在链接坐标系中的坐标值,然后将各外部链接在链接坐标系中绘制出来,获得链接坐标平面图。步骤三:计算聚合度,获取疑似暗链的外链集:在链接坐标平面图中,计算所有外部链接的x值,是否存在连续n个点的x值相近;相近是指这n个点的连线近似于水平直线,即连线与y轴的夹角值在88°到90°之间,则认为这连续的n个点对应的外部链接聚合符合条件。所述n是指大于0的自然数,n为经验值,取值为3~10。同理可以计算外部链接的y坐标值是否满足聚合条件。只要有一个坐标轴的取值符合聚合,则认为这一批外链符合聚合,判定为疑似暗链的外链集。步骤四:敏感关键字匹配:使用的“暗链敏感关键字”对疑似暗链的外链集中的锚文本进行匹配,如果匹配次数大于二次,则判定该外链集是暗链。暗链敏感关键字,主要指涉及色情、博彩、广告之关键词,这一类关键字在暗链中利用最多。锚文本是指一个链接中的文本内容,如源代码链接“<ahref=xx>qqq</a>”中,“qqq”则是锚文本。暗链敏感关键字对锚文本的匹配算法是,逐一使用各链接的锚文本,在关键字集合中查找,如果命中则判定为匹配。最后,需要注意的是,以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导出或联想到的所有变形,均应认为是本发明的保护范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1