一种网站后门检测方法、装置和计算设备与流程

文档序号：11657408阅读：284来源：国知局

本发明涉及信息安全技术领域，尤其涉及一种网站后门检测方法、装置和计算设备。

背景技术：

webshell是以asp、php、jsp、cgi等网页文件形式存在的一种命令执行环境，也可以称为一种网页后门。入侵者在入侵网站后，经常在web服务器的web目录中放置webshell后门文件，且与web服务器web目录下正常的文件混在一起，不易被发现。入侵者可以用web方式访问webshell得到命令执行环境以达到控制网站或web服务器的目的，可进行的操作包括上传下载文件、查看数据库、执行任意程序命令等。由于webshell其大多是以动态脚本的形式出现，也有人称之为网站的后门工具。

有些恶意网页脚本可以嵌套在正常网页中运行，且不容易被查杀。webshell可以穿越服务器防火墙，由于webshell与被控制的web服务器或远程主机交换的数据都是通过80端口传递的，因此不会被防火墙拦截。而且使用webshell一般不会在系统日志中留下记录，只会在web服务器的日志中留下一些数据提交记录，没有经验的管理员是很难看出入侵痕迹的。

现有的webshell检测方法通常是通过收集网络上公开的webshell并分析其特征，或者添加一些敏感函数建立webshell特征库，然后在网站的访问日志中匹配这些特征或敏感函数，如果匹配上，则进行人工确认其是否为webshell。但基于特征匹配容易出现大量误报，且webshell特征随时变换，特征库不能完全包含所有的特征，容易出现遗漏。

因此，需要一种更准确且适用性更广的webshell检测方法。

技术实现要素：

为此，本发明提供一种网站后门检测方法、装置和计算设备，以解决或至少缓解上面存在的问题。

根据本发明的一个方面，提供一种网站后门检测方法，适于在计算设备中执行，其中网络用户经由网络防火墙来访问所述网站，该方法包括：获取网络防火墙所产生的、与针对该网站的访问相应的日志文件，并从中筛选出针对该网站的动态页面的访问记录；从所筛选出的访问记录中进一步筛选出访问次数小于第一阈值的ip地址，以及该ip地址所请求过的动态页面的页面地址集合；获取针对该网站的页面请求错误时所返回的通用页面内容，并逐个对所述页面地址集合中的每个页面地址进行访问，以得到每个页面地址的实际页面内容；以及计算每个页面地址所对应的实际页面内容与所述通用页面内容的莱文斯坦比，并选择莱文斯坦比不小于第二阈值的页面内容对应的页面地址作为候选的网站后门地址。

可选地，在根据本发明的方法中，还包括：获取对候选的网站后门地址进行请求后所返回的页面内容，并根据所返回的页面内容确定该候选的网站后门地址中是否包括网站后门。

可选地，在根据本发明的方法中，日志文件为被防火墙拦截的用户请求而产生的访问日志集合。

可选地，在根据本发明的方法中，在从所筛选出的访问记录中进一步筛选出访问次数小于第一阈值的ip地址之前，还包括步骤：将访问记录中的ip地址按照访问次数进行排序。

可选地，在根据本发明的方法中，实际页面内容包括该实际页面内容的第一页面代码；获取针对该网站的页面请求错误时所返回的通用页面内容的步骤包括：随机生成一个不存在的错误页面地址，并获取该错误页面地址所对应页面内容的第二页面代码；计算每个页面地址所对应页面的实际页面内容与所述通用页面内容的莱文斯坦比的步骤包括：计算第一页面代码与所述第二页面代码的莱文斯坦比。

可选地，在根据本发明的方法中，选择莱文斯坦比不小于第二阈值的页面内容所对应的页面地址作为候选的网站后门地址的过程包括：选择莱文斯坦比不小于第二阈值、且返回状态码为200的页面内容所对应的页面地址作为候选的网站后门地址。

可选地，在根据本发明的方法中，第一阈值为8-11，第二阈值为75％-90％。

可选地，在根据本发明的方法中，第一阈值为预设时段内ip地址的平均访问次数。

根据本发明的一个方面，提供一种网站后门检测装置，适于驻留在计算设备中，其中网络用户经由网络防火墙来访问所述网站，该装置包括：记录获取模块，适于获取网络防火墙所产生的、与针对该网站的访问相应的日志文件，并从中筛选出针对该网站的动态页面的访问记录；地址获取模块，适于从所筛选出的访问记录中进一步筛选出访问次数小于第一阈值的ip地址，以及该ip地址所请求过的动态页面的页面地址集合；内容获取模块，适于获取针对该网站的页面请求错误时所返回的通用页面内容，并逐个对所述页面地址集合中的每个页面地址进行访问，以得到每个页面地址的实际页面内容；以及后门确定模块，适于计算每个页面地址所对应的实际页面内容与所述通用页面内容的莱文斯坦比，并选择莱文斯坦比不小于第二阈值的页面内容所对应的页面地址作为候选的网站后门页面地址。

根据本发明的一个方面，提供一种计算设备，包括一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由一个或多个处理器执行，所述一个或多个程序包括用于执行根据如上所述的任一方法的指令。

根据本发明的一个方面，提供一种存储一个或多个程序的计算机可读存储介质，其中一个或多个程序包括指令，该指令当由计算设备执行时，使得所述计算设备执行根据如上所述的任一方法。

根据本发明的技术方案，使用基于ip访问频率的方法来筛选出疑似webshell的访问记录，然后再通过自动化脚本模拟请求并过滤掉自定义404页面，进一步缩小嫌疑范围，从而实现了从海量攻击日志中分析出真实的webshell，并降低人工分析的成本。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的网络服务系统100的示意图；

图2示出了根据本发明一个实施例的计算设备200的结构图；

图3示出了根据本发明一个实施例的网站后门检测方法300的流程图；以及

图4示出了根据本发明一个实施例的网站后门检测装置400的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的网络服务系统100的示意图。图1所示的网络服务系统100包括客户端110(如图中所示的4个客户端111-114)、防火墙120和网络服务器130。网络服务器130具有不同网站地址所对应的内容，并可以向用户提供网络内容。网络用户可以通过客户端110向网络服务器130发送访问请求，并经由网络防火墙来访问网站，请求访问网络服务器130上的网络内容。其中，防火墙120会对用户向网络服务器130发送的访问请求进行过滤，拦截掉可疑的恶意访问请求，并记录下拦截日志。

计算设备200可以通过网络与防火墙120和网络服务器130连接，获取网络防火墙所产生的、与针对目标网站的访问相应的日志文件，并检测出来恶意的网站后门地址。计算设备200具体可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和web服务器等，也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。当然，计算设备也可以设置为网络服务器130本身。此外，计算设备200还可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(pda)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。

客户端110可以是诸如pc、笔记本电脑、手机、平板电脑、笔记本电脑、电视盒子、可穿戴设备等可以接入互联网的设备。客户端110可以通过有线的方式接入互联网，也可以通过3g、4g、wifi、个人热点、ieee802.11x、蓝牙等无线的方式接入互联网。

应当指出，图1中的网络服务系统100仅是示例性的，在具体的实践情况中，网络服务系统100中可以有不同数量的客户端110和网络服务器130，本发明对网络系统中所包括的客户端110和网络服务器130的数量不做限制。

图2示出了根据本发明一个实施例的计算设备200的结构图。在基本配置202中，计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。

取决于期望的配置，处理器204可以是任何类型的处理，包括但不限于：微处理器(μp)、微控制器(μc)、数字信息处理器(dsp)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(alu)、浮点数单元(fpu)、数字信号处理核心(dsp核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用，或者在一些实现中，存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置，系统存储器206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如ram)、非易失性存储器(诸如rom、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据224。在一些实施方式中，应用222可以布置为在操作系统上利用程序数据224进行操作。

计算设备200还可以包括有助于从各种接口设备(例如，输出设备242、外设接口244和通信设备246)到基本配置102经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个a/v端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256，它们可以被配置为有助于经由一个或者多个i/o端口258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260，其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(rf)、微波、红外(ir)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

在一些实施例中，计算设备200被配置为执行根据本发明的网站后门检测方法300，应用222中包括根据本发明的网站后门检测装置400。装置400可以作为搜索引擎的一个插件驻留于计算设备200的浏览器中，或作为一个独立的软件安装于计算设备200中，本发明对装置400在计算设备200中的存在形式不做限制。

图3示出了根据本发明一个实施例的网站后门检测方法300的流程图，该方法适于在计算设备200中执行，其中，网络用户经由网络防火墙来访问所述网站。如图3所示，该方法始于步骤s320。

在步骤s320中，获取网络防火墙所产生的、与针对该网站的访问相应的日志文件，并从中筛选出针对该网站的动态页面的访问记录。其中，日志文件可以为被防火墙拦截的用户请求而产生的访问日志集合，动态页面是一种可以动态生成网页文件的技术，其通常以.php/.jsp/.asp等后缀结尾，如：

http://www.example.com/index.php

http://www.example.net/index.asp

http://www.example.cn/index.jsp

随后，在步骤s340中，从所筛选出的访问记录中进一步筛选出访问次数小于第一阈值的ip地址，以及该ip地址所请求过的动态页面的页面地址集合。其中，第一阈值可以为8-11，进一步可以设定为10。

根据一个实施例，也可以将第一阈值设置为预设时段内ip地址的平均访问次数。其中，预设时段可以是该ip地址发送访问请求的访问时段，平均访问次数可以是该访问时段内的大多数正常ip地址的平均访问次数。比如，对于初步确定比较可疑的ip地址，其主要访问时段为18:00-22:00，则可以统计多个正常ip地址在该时段的访问次数取平均，作为预设时段内ip地址的平均访问次数。当然，也可以对多个正常ip地址的访问次数进行加权后再取平均，或者采用其他取平均算法，本发明对平均访问次数的计算方法不作限定。

根据一个实施例，在步骤s340之前，还可以包括步骤：将访问记录中的ip地址按照访问次数进行排序。

在步骤s340中筛选出了一些可疑的ip地址的访问记录，但这些访问记录中有些页面地址对应的可能是自定义的404页面，因此还需剔除掉这些404页面地址。按照http协议规范，当访问一个存在的页面时，服务器返回200状态码；当访问一个不存在的页面时，服务器会返回404状态码。但是有些网站处于安全性考虑，有时候即使访问的是一个不存在的网页，也会返回一个200状态码(即访问成功)，这样做主要是出于安全性的考虑，目的是可以防止某些恶意爬虫爬取网站数据，或者防止黑客猜测网站目录和文件。既然访问一个不存在的页面服务器不再返回404状态码，那么就不能再用返回状态码的方法来判断该页面是否存在。

因此，可以在步骤s360中，获取针对该网站的页面请求错误时所返回的通用页面内容，并逐个对所述页面地址集合中的每个页面地址进行访问，以得到每个页面地址的实际页面内容。其中，实际页面内容可以包括该实际页面内容的第一页面代码。

根据一个实施例，获取针对该网站的页面请求错误时所返回的通用页面内容的步骤包括：随机生成一个不存在的错误页面地址，并获取该错误页面地址所对应页面内容的第二页面代码。这里的主要思想是：由于网站的404页面内容基本都是一致的，那么可以随机生成一个肯定不存在的页面，比如：www.domain.com/aaa/bbb/ccc/dddd/eee.php，并记录下该页面的html代码作为通用页面代码。对于之后的url访问请求，如果发现某个访问请求页面的html代码和这个通用页面代码相似度很高，那么就可以判断该请求所访问的是一个不存在的页面。

另外，基于网站每天的访问量比较大，因此筛选自定义404页面的过程可以通过自动化脚本实现。具体地，可以通过自动化脚本获取针对该网站的页面请求错误时所返回的通用页面内容(如通过自动化脚本随机生成一个不存在的页面地址)，并继续使用自动化脚本逐个对所述页面地址集合中的每个页面地址进行访问，以得到每个页面地址的实际页面内容。

其具体实现代码如下：

随后，在步骤s380中，计算每个页面地址所对应的实际页面内容与通用页面内容的莱文斯坦比，并选择莱文斯坦比不小于第二阈值的页面内容对应的页面地址作为候选的网站后门地址。其中，第二阈值可以设定为75％-90％，进一步可以设定为80％。

这里的莱文斯坦比是一种用于衡量两个字符串之间相似度的算法，只需要提供两个字符串即可得到结果。页面里的文字、字符、标点都可以认为是字符串的组成部分，而对于图片等富媒体内容可以不作处理。在步骤s360中得到了每个页面地址的实际页面内容和访问错误时的异常页面内容，将这些内容认为是包含文字、字符和标点的一系列字符串，就可以计算得到这两个页面内容的莱文斯坦比。

根据一个实施例，计算每个页面地址所对应页面的实际页面内容与通用页面内容的莱文斯坦比可以是计算第一页面代码(代表实际页面内容)与第二页面代码(代表通用页面内容)的莱文斯坦比。

根据另一个实施例，还可以进一步选择莱文斯坦比不小于第二阈值、且返回状态码为200的页面内容所对应的页面地址作为候选的网站后门地址。

图4示出了根据本发明一个实施例的网站后门检测装置400的结构图。如图4所示，装置400包括记录获取模块420，地址获取模块440、内容获取模块460和后门确定模块480。

记录获取模块420适于获取网络防火墙所产生的、与针对该网站的访问相应的日志文件，并从中筛选出针对该网站的动态页面的访问记录。根据一个实施例，日志文件为被防火墙拦截的用户请求而产生的访问日志集合。

地址获取模块440适于从所筛选出的访问记录中进一步筛选出访问次数小于第一阈值的ip地址，以及该ip地址所请求过的动态页面的页面地址集合。其中，地址获取模块440在这步操作之前，还适于将访问记录中的ip地址按照访问次数进行排序。第一阈值可以为8-11，或者为预设时段内ip地址的平均访问次数

内容获取模块460适于获取针对该网站的页面请求错误时所返回的通用页面内容，并逐个对页面地址集合中的每个页面地址进行访问，以得到每个页面地址的实际页面内容。

根据一个实施例，实际页面内容包括该实际页面内容的第一页面代码。内容获取模块460适于随机生成一个不存在的错误页面地址，并获取该错误页面地址所对应页面内容的第二页面代码。

后门确定模块480适于计算每个页面地址所对应的实际页面内容与通用页面内容的莱文斯坦比，并选择莱文斯坦比不小于第二阈值的页面内容所对应的页面地址作为候选的网站后门页面地址。其中，第二阈值为75％-90％；后门确定模块480可以计算实际页面内容所对应的第一页面代码与通用页面内容所对应的第二页面代码之间的莱文斯坦比。

根据一个实施例，后门确定模块480还可以获取对候选的网站后门地址进行请求后所返回的页面内容，并根据所返回的页面内容确定该候选的网站后门地址中是否包括网站后门。

根据本发明的技术方案，在海量攻击日志中，通过分析黑客的行为特征，使用了基于ip访问频率的方法再配合自动化识别404页面的方法，实现了webshell页面的快速准确分析，从而既降低人力审查的成本，又提高了webshell检测分析的效率。

a8、如a1所述的方法，其中所述第一阈值为预设时段内ip地址的平均访问次数。

b10、如b9所述的装置，所述后门确定模块还适于：

获取对所述候选的网站后门地址进行请求后所返回的页面内容，并根据所返回的页面内容确定该候选的网站后门地址中是否包括网站后门。

b11、如b9所述的装置，其中，所述日志文件为被所述防火墙拦截的日志文件。

b12、如b9所述的装置，其中，所述地址获取模块适于在从所筛选出的访问记录中进一步筛选出访问次数小于第一阈值的ip地址之前，将所述访问记录中的ip地址按照访问次数进行排序。

b13、如b9所述的装置，其中，所述实际页面内容包括该实际页面内容的第一页面代码；所述内容获取模块适于随机生成一个不存在的错误页面地址，并获取该错误页面地址所对应页面内容的第二页面代码；所述后门确定模块适于计算所述第一页面代码与所述第二页面代码的莱文斯坦比。

b14、如b9-b13中任一项所述的装置，其中所述后门确定模块还适于选择莱文斯坦比不小于第二阈值、且返回状态码为200的页面内容所对应的页面地址作为候选的网站后门地址。

b15、如b9所述的装置，其中所述第一阈值为8-11，所述第二阈值为75％-90％。

b16、如b9所述的装置，其中所述第一阈值为预设时段内ip地址的平均访问次数。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：仲俊霖
技术所有人：北京知道创宇信息技术有限公司
我是此专利的发明人

上一篇：柔性悬挂轨道的制造方法与工艺
上一篇：一种便于操控的码坯机提升装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。