一种暗链检测方法、装置、设备及计算机可读存储介质与流程

文档序号:17222207发布日期:2019-03-27 12:06阅读:184来源:国知局
一种暗链检测方法、装置、设备及计算机可读存储介质与流程

本发明涉及暗链检测技术领域,更具体地说,涉及一种暗链检测方法、装置、设备及计算机可读存储介质。



背景技术:

暗链在网站中的链接做得非常隐蔽,短时间内不易被察觉。现阶段的暗链植入方式很多,如通过css样式来达到视觉不可见的形式植入,具体可以是设置暗链的字体颜色与网站的背景颜色一致,隐藏代码块等;通过js脚本跳转,具体可以是在网站网页中植入一个js文件,网页加载的时候执行这个js文件,通过js文件跳转到暗链网站。

现阶段常用的用于实现暗链的检测的技术方案为由管理人员基于网站的网页源代码确定是否存在暗链,但是这种方式对管理人员专业知识要求较高,耗费人力。

综上所述,现有技术实现暗链检测的技术方案存在对管理人员的专业知识要求较高且耗费人力的问题。



技术实现要素:

本发明的目的是提供一种暗链检测方法、装置、设备及计算机可读存储介质,能够解决现有技术实现暗链检测的技术方案存在的对管理人员的专业知识要求较高且耗费人力的问题。

为了实现上述目的,本发明提供如下技术方案:

一种暗链检测方法,包括:

获取待检测网站,并确定所述待检测网站在指定搜索引擎中的权重值;

爬取所述待检测网站,解析爬取得到的页面得到其中的链接,将解析得到的链接中与所述待检测网站的域名相同的链接剔除,得到全部的外链,并确定每个所述外链在所述指定搜索引擎中的权重值;

按照预设算法计算每个外链中任一外链的权重值与所述待检测网站的权重值的权重差值,判断该权重差值是否大于权重阈值,如果是,则初步确定对应的外链为暗链,否则,则确定对应的外链为正常的链接。

优选的,所述获取待检测网站之后,还包括:获取所述待检测网站的归属地;

所述得到全部的外链之后,还包括:确定每个所述外链的归属地;

判断所述权重差值是否大于权重阈值之前,还包括:判断每个所述外链中任一外链的归属地与所述待检测网站的归属地是否相同;

对应的,判断所述权重差值是否大于权重阈值,包括:如果任一外链的归属地与所述待检测网站的归属地相同,则判断该任一外链对应的权重差值是否大于第一阈值,否则,则判断该任一外链对应的权重差值是否大于第二阈值,所述权重阈值包括第一阈值及小于所述第一阈值的第二阈值。

优选的,判断每个所述外链中任一外链的归属地与所述待检测网站的归属地是否相同,包括:

确定每个所述外链中任一外链的归属地为第一归属地,所述待检测网站的归属地为第二归属地;

判断所述第一归属地及所述第二归属地是否属于同一国籍,如果是,则判断所述第一归属地及所述第二归属地是否均属于中国,如果否,则确定所述第一归属地及所述第二归属地不相同;如果所述第一归属地及所述第二归属地均属于中国,则判断所述第一归属地及所述第二归属地是否均属于内地,如果所述第一归属地及所述第二归属地不是均属于中国,则确定所述第一归属地及所述第二归属地相同;如果所述第一归属地及所述第二归属地均属于内地,则确定所述第一归属地及所述第二归属地相同,如果所述第一归属地及所述第二归属地不是均属于内地,则确定所述第一归属地及所述第二归属地不相同。

优选的,确定出全部外链中的每个外链是否为暗链之后,还包括:

统计暗链的总数量,如果该总数量大于预先设定的数量阈值,则最终确定所述待检测网站被植入暗链,否则,则最终确定所述待检测网站未被植入暗链。

优选的,最终确定所述待检测网站被植入暗链之后,还包括:

将所述待检测网站的链接及确定出的全部暗链封装成扫描结果对象,并返回写入至对应的数据库。

优选的,确定所述待检测网站或任一暗链在指定搜索引擎中的权重值,包括:

如果指定搜索引擎的数量为一个,则确定所述待检测网站或任一暗链在所述指定搜索引擎中的权重值为需要获取的权重值,如果指定搜索引擎的数量为多个,则确定所述待检测网站或任一暗链在多个指定搜索引擎中的权重值的平均值为需要获取的权重值。

优选的,按照预设算法计算每个外链中任一外链的权重值与所述待检测网站的权重值的权重差值,包括:

确定每个外链中任一外链的权重值及所述待检测网站的权重值分别所属的权重等级,所述权重等级为预先对全部权重值划分得到的对应等级;

按照下列公式计算所述权重差值:

w=q1*l1-q2*l2;

其中,w表示权重差值,q1及l1分别表示所述待检测网站的权重值及权重等级,q2及l2分别表示每个外链中任一外链的权重值及权重等级。

一种暗链检测装置,包括:

获取模块,用于:获取待检测网站,并确定所述待检测网站在指定搜索引擎中的权重值;

爬取模块,用于:爬取所述待检测网站,解析爬取得到的页面得到其中的链接,将解析得到的链接中与所述待检测网站的域名相同的链接剔除,得到全部的外链,并确定每个所述外链在所述指定搜索引擎中的权重值;

判断模块,用于:按照预设算法计算每个外链中任一外链的权重值与所述待检测网站的权重值的权重差值,判断该权重差值是否大于权重阈值,如果是,则初步确定对应的外链为暗链,否则,则确定对应的外链为正常的链接。

一种暗链检测设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如权上任一项所述暗链检测方法的步骤。

一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述暗链检测方法的步骤。

本发明提供了一种暗链检测方法、装置、设备及计算机可读存储介质,其中该方法包括:获取待检测网站,并确定所述待检测网站在指定搜索引擎中的权重值;爬取所述待检测网站,解析爬取得到的页面得到其中的链接,将解析得到的链接中与所述待检测网站的域名相同的链接剔除,得到全部的外链,并确定每个所述外链在所述指定搜索引擎中的权重值;按照预设算法计算每个外链中任一外链的权重值与所述待检测网站的权重值的权重差值,判断该权重差值是否大于权重阈值,如果是,则初步确定对应的外链为暗链,否则,则确定对应的外链为正常的链接。本申请公开的技术方案中,首先获取待检测网站在指定搜索引擎中的权重值,再获取待检测网站中各外链在指定搜索引擎中的权重值,进而基于任一外链的权重值与待检测网站的权重值之间的差距是否过大确定出对应的外链是否为暗链,由于一般情况下一网站及该网站包含的正常的链接占同样的搜索引擎的权重值的差距不会过大,因此通过本申请公开的技术方案能够基于外链及待检测网站对应于指定搜索引擎的权重值的差距有效确定出该外链是否为非法植入的暗链,且无需人工介入即可自动实现暗链检测,解决了现有技术实现暗链检测的技术方案存在的对管理人员的专业知识要求较高且耗费人力的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种暗链检测方法的流程图;

图2为本发明实施例提供的一种暗链检测方法的具体实现框图;

图3为本发明实施例提供的一种暗链检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,其示出了本发明实施例提供的一种暗链检测方法的流程图,可以包括:

s11:获取待检测网站,并确定待检测网站在指定搜索引擎中的权重值。

需要说明的是,本发明实施例提供的一种暗链检测方法的执行主语可以为对应的装置。首先,任一需要实现暗链检测的网站均可以作为待检测网站,获取待检测网站可以是获取外界输入的需要实现暗链检测的网站的域名。而网站或者链接的权重值是指搜索引擎给对应的网站(包括网页)赋予的一定的权威值,也即对对应的网站(含网页)权威的评估评价,简单来说,一个网站的权重值越高,在搜索引擎中所占的份量越大,在搜索引擎中排名就越好;对应的,提高网站或者链接的权重值,不但利于对应的网站(包括网页)在搜索引擎的排名更靠前,还能提高整个网站的流量,提高网站的信任度。而任一网站的权重值在搜索引擎中是给出的,也即确定了需要确定权重值的网站及对应的搜索引擎,即可确定出当前该网站在对应搜索引擎中的权重值,此与现有技术中对应技术方案的实现原理一致,在此不再赘述。而指定搜索引擎可以为根据实际需要指定的搜索引擎,如360、百度、google等,在此不做具体限定。其中,权重值可以以map对象的形式存储,key值对应指定搜索引擎的名称,value值对应指定搜索引擎下的权重值。

s12:爬取待检测网站,解析爬取得到的页面得到其中的链接,将解析得到的链接中与待检测网站的域名相同的链接剔除,得到全部的外链,并确定每个外链在指定搜索引擎中的权重值。

需要说明的是,因为网站可以具有很多子页面(均为网页),每个子页面即为一层,因此在获取外界输入的待检测网站的域名时,还可以获取外界设置的需要爬取的网页层数,该爬取层数对应爬取待检测网站时需爬取的网页的层数,一般该网页层数的设置为根据客户需求选取的。另外,为了有效实现暗链检测,还可以设置对应的参数,如待检测网站的referer、useragent及cookie等。具体来说,爬取待检测网站可以是利用网络爬虫实现的,并且可以爬取的层数为上述设置的网页层数,利用网络爬虫爬取待检测网站,得到待检测网站的html页面(即爬取得到的页面),基于现有技术中对应技术方案的实现原理,通过正则匹配和超链接标签,获取html页面中的url链接(即解析爬取得到的页面得到其中的链接),剔除与待检测网站相同域名的链接,得到该html页面的所有外链。

s13:按照预设算法计算每个外链中任一外链的权重值与待检测网站的权重值的权重差值,判断该权重差值是否大于权重阈值,如果是,则初步确定对应的外链为暗链,否则,则确定对应的外链为正常的链接。

需要说明的是,预设算法可以根据实际需要进行确定,不管预设算法具体如何设置,得到的权重差值均能够表现出任一外链的权重值与待检测网站的权重值之间的差距,由于一般情况下一网站中正常的链接的权重值与该网站的权重值差距不会太大,因此如果任一外链的权重值与待检测网站的权重值之间的差距过大(权重差值大于根据实际需要设定的权重阈值),则可初步认为对应的外链为非法植入的暗链,否则,则可以初步认为对应的外链为正常的链接。另外需要说明的是,本申请中针对每个外链中任一外链判断其是否为暗链的相关步骤为需要对每个外链均实现的步骤。

本申请公开的技术方案中,首先获取待检测网站在指定搜索引擎中的权重值,再获取待检测网站中各外链在指定搜索引擎中的权重值,进而基于任一外链的权重值与待检测网站的权重值之间的差距是否过大确定出对应的外链是否为暗链,由于一般情况下一网站及该网站包含的正常的链接占同样的搜索引擎的权重值的差距不会过大,因此通过本申请公开的技术方案能够基于外链及待检测网站对应于指定搜索引擎的权重值的差距有效确定出该外链是否为非法植入的暗链,且无需人工介入即可自动实现暗链检测,解决了现有技术实现暗链检测的技术方案存在的对管理人员的专业知识要求较高且耗费人力的问题。

本发明实施例提供的一种暗链检测方法,获取待检测网站之后,还可以包括:获取待检测网站的归属地;

得到全部的外链之后,还可以包括:确定每个外链的归属地;

判断权重差值是否大于权重阈值之前,还可以包括:判断每个外链中任一外链的归属地与待检测网站的归属地是否相同;

对应的,判断权重差值是否大于权重阈值,可以包括:如果任一外链的归属地与待检测网站的归属地相同,则判断该任一外链对应的权重差值是否大于第一阈值,否则,则判断该任一外链对应的权重差值是否大于第二阈值,权重阈值包括第一阈值及小于第一阈值的第二阈值。

需要说明的是,第一阈值及第二阈值均可以根据实际需要进行确定,一般情况下一网站及其包含的链接的归属地是相同的,因此,本申请中通过对任一外链的归属地及待检测网站的归属地的比对,增加了一层暗链检测机制。而之所以设置第一阈值大于第二阈值,是因为待检测网站与任一外链的归属地相同,则说明由归属地来看该任一外链是正常的链接,此时如果待检测网站与该任一外链的权重值的差距又不足够大时,则可综合认为该任一外链为正常的外链,而只有待检测网站与该任一外链的权重值的差距足够大时,才可综合认为该任一外链为非法植入的暗链;并且待检测网站与任一外链的归属地不同,则说明由归属地来看该任一外链为非法植入的暗链,因此只要该任一外链与待检测网站的权重值存在一定的差距即可综合判断出该任一外链为非法植入的暗链;这种综合判断的方式通过增加了一层基于归属地实现暗链检测的机制,大大增加了暗链检测的准确性。

本发明实施例提供的一种暗链检测方法,判断每个外链中任一外链的归属地与待检测网站的归属地是否相同,可以包括:

确定每个外链中任一外链的归属地为第一归属地,待检测网站的归属地为第二归属地;

判断第一归属地及第二归属地是否属于同一国籍,如果是,则判断第一归属地及第二归属地是否均属于中国,如果否,则确定第一归属地及第二归属地不相同;如果第一归属地及第二归属地均属于中国,则判断第一归属地及第二归属地是否均属于内地,如果第一归属地及第二归属地不是均属于中国,则确定第一归属地及第二归属地相同;如果第一归属地及第二归属地均属于内地,则确定第一归属地及第二归属地相同,如果第一归属地及第二归属地不是均属于内地,则确定第一归属地及第二归属地不相同。

之所以在第一归属地及第二归属地不是均属于中国时确定第一归属地及第二归属地相同,是因为统计表明,目前国内出现的国外链接数量很少,且一般情况下国外链接的权重值都很高,因此本申请中将国外链接均看做正常的链接,也即本申请中主要是针对中国国内的链接进行暗链检测,由此,能够大大减少获取国外的链接相关信息的工作量,且基本不会对暗链检测的准确性造成不良影响。

本发明实施例提供的一种暗链检测方法,

确定出全部外链中的每个外链是否为暗链之后,还包括:

统计暗链的总数量,如果该总数量大于预先设定的数量阈值,则最终确定待检测网站被植入暗链,否则,则最终确定待检测网站未被植入暗链。

需要说明的是,本申请中还为暗链检测设置了第三层检测机制,即暗链数量的统计,如果统计所得数量较多(总数量大于预先根据实际需要设定的数量阈值),则可最终判断出待检测网站被植入了非法的暗链,而初步确定出的暗链即为被待检测网站中被非法植入的外链;如果统计所得数量较少(总数量不大于预先根据实际需要设定的数量阈值),则可认为可能由于一些特殊原因造成正常的链接被误认为暗链,因此可确定待检测网站未被植入非法的暗链,通过这层机制进一步保证了最终所得结论的准确性,提高了技术方案的容错性。

本发明实施例提供的一种暗链检测方法,最终确定待检测网站被植入暗链之后,还可以包括:

将待检测网站的链接及确定出的全部暗链封装成扫描结果对象,并返回写入至对应的数据库。

需要说明的是,将待检测网站的链接及全部暗链封装成扫描结果对象并写入数据库,能够方便随时查看及使用。

本发明实施例提供的一种暗链检测方法,确定待检测网站或任一暗链在指定搜索引擎中的权重值,可以包括:

如果指定搜索引擎的数量为一个,则确定待检测网站或任一暗链在指定搜索引擎中的权重值为需要获取的权重值,如果指定搜索引擎的数量为多个,则确定待检测网站或任一暗链在多个指定搜索引擎中的权重值的平均值为需要获取的权重值。

为了保证待检测网站与任一外链的权重值差距的可信性,本申请中需要确保待检测网站与各外链得到权重值的搜索引擎一致,因此无论指定搜索引擎数量是多少,均需要由每个指定搜索引擎中确定出待检测网站及各外链的权重值,具体指定搜索引擎的数量可以根据实际需要确定,通过上述方式实现权重值的获取,不仅简单且能够得到有效体现对应链接的权重的值。

本发明实施例提供的一种暗链检测方法,按照预设算法计算每个外链中任一外链的权重值与待检测网站的权重值的权重差值,可以包括:

确定每个外链中任一外链的权重值及待检测网站的权重值分别所属的权重等级,权重等级为预先对全部权重值划分得到的对应等级;

按照下列公式计算权重差值:

w=q1*l1-q2*l2;

其中,w表示权重差值,q1及l1分别表示待检测网站的权重值及权重等级,q2及l2分别表示每个外链中任一外链的权重值及权重等级。

需要说明的是,可以将全部外链均存储至外链集合中,进而通过遍历外链集合,查询每个外链的权重值及归属地等相关信息,另外,可以由根据实际需要为每个权重值设置对应的权重等级,以指定搜索引擎为百度为例进行说明,百度中对于链接的权重值包含10个值,如表1所示;本申请中为了减少权重等级的数量,也是为了简化计算过程,预先对全部权重值划分得到权重等级,包括:将全部权重值划分为五个权重等级,其中,权重值0至权重值3属于权重等级1,权重值4至权重值5属于权重等级2,权重值6至权重值7属于权重等级3,权重值8属于权重等级4,权重值9属于权重等级5。从而通过权重值及权重等级综合计算出待检测网站与任一外链的权重差值,能够有效体现出两者之间的权重差距,进而保证后续步骤的有效实现。

表1

另外,本发明实施例提供的暗链检测方法的具体实现框图可以如图3所示,其中,g=1表示归属地相同,g=0表示归属地不同,第一阈值为10,第二阈值为5,其他步骤均与本发明上述实施例中的步骤一致,在此不再赘述说明。从而通过多层验证删选,大大提高了发现暗链的准确率,减少了误报情况,进而能够保障网站的安全,增强网站的健壮性。

本发明还提供了一种暗链检测装置,如图3所示,可以包括:

权重值获取模块11,用于:获取待检测网站,并确定待检测网站在指定搜索引擎中的权重值;

网站爬取模块12,用于:爬取待检测网站,解析爬取得到的页面得到其中的链接,将解析得到的链接中与待检测网站的域名相同的链接剔除,得到全部的外链,并确定每个外链在指定搜索引擎中的权重值;

初步判断模块13,用于:按照预设算法计算每个外链中任一外链的权重值与待检测网站的权重值的权重差值,判断该权重差值是否大于权重阈值,如果是,则确定对应的外链为暗链,否则,则确定对应的外链为正常的链接。

本发明提供的一种暗链检测装置,还可以包括:

归属地获取模块,用于:获取待检测网站之后,获取待检测网站的归属地;

归属地确定模块,用于:得到全部的外链之后,确定每个外链的归属地;

归属地判断模块,用于:判断权重差值是否大于权重阈值之前,判断每个外链中任一外链的归属地与待检测网站的归属地是否相同;

初步判断模块可以包括:

初步判断单元,用于:如果任一外链的归属地与待检测网站的归属地相同,则判断该任一外链对应的权重差值是否大于第一阈值,否则,则判断该任一外链对应的权重差值是否大于第二阈值,权重阈值包括第一阈值及小于第一阈值的第二阈值。

本发明提供的一种暗链检测装置,归属地判断模块可以包括:

归属地判断单元,用于:确定每个外链中任一外链的归属地为第一归属地,待检测网站的归属地为第二归属地;判断第一归属地及第二归属地是否属于同一国籍,如果是,则判断第一归属地及第二归属地是否均属于中国,如果否,则确定第一归属地及第二归属地不相同;如果第一归属地及第二归属地均属于中国,则判断第一归属地及第二归属地是否均属于内地,如果第一归属地及第二归属地不是均属于中国,则确定第一归属地及第二归属地相同;如果第一归属地及第二归属地均属于内地,则确定第一归属地及第二归属地相同,如果第一归属地及第二归属地不是均属于内地,则确定第一归属地及第二归属地不相同。

本发明提供的一种暗链检测装置,还可以包括:

最终判断模块,用于:初步确定对应的外链为暗链之后,统计暗链的总数量,如果该总数量大于预先设定的数量阈值,则最终确定待检测网站被植入暗链,否则,则最终确定待检测网站未被植入暗链。

本发明提供的一种暗链检测装置,还可以包括:

入库模块,用于:最终确定待检测网站被植入暗链之后,将待检测网站的链接及确定出的全部暗链封装成扫描结果对象,并返回写入至对应的数据库。

本发明提供的一种暗链检测装置,权重值获取模块及网站爬取模块均可以包括:

权重值获取单元,用于:如果指定搜索引擎的数量为一个,则确定待检测网站或任一暗链在指定搜索引擎中的权重值为需要获取的权重值,如果指定搜索引擎的数量为多个,则确定待检测网站或任一暗链在多个指定搜索引擎中的权重值的平均值为需要获取的权重值。

本发明提供的一种暗链检测装置,初步判断模块可以包括:

差值计算单元,用于:确定每个外链中任一外链的权重值及待检测网站的权重值分别的权重等级,权重等级为预先对全部权重值划分得到的对应等级;按照下列公式计算权重差值:

w=q1*l1-q2*l2;

其中,w表示权重差值,q1及l1分别表示待检测网站的权重值及权重等级,q2及l2分别表示每个外链中任一外链的权重值及权重等级。

本发明实施例还提供了一种暗链检测设备,可以包括:

存储器,用于存储计算机程序;

处理器,用于执行计算机程序时实现如上任一项暗链检测方法的步骤。

本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可以实现如上任一项暗链检测方法的步骤。

需要说明的是,本发明实施例提供的一种暗链检测装置、设备及计算机可读存储介质中相关部分的说明请参见本发明实施例提供的一种暗链检测方法中对应部分的详细说明,在此不再赘述。另外本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1