基于机器学习与动静态分析的Webshell检测方法及系统与流程

文档序号:13617484阅读:885来源:国知局
基于机器学习与动静态分析的Webshell检测方法及系统与流程

本发明涉及webshell检测技术领域,具体而言,涉及一种基于机器学习与动静态分析的webshell检测方法及系统。



背景技术:

随着互联网应用的蓬勃发展与互联网数据的极速增长,服务器安全问题日益严峻,而webshell这类基于web应用的后门程序对用户信息、甚至整个应用系统的危害极大,因此及时检测发现服务器的漏洞和后门,保证服务器的安全至关重要。

由于webshell大多由脚本语言编写,易修改变形,其特征并非只限于特征码,还包括文件操作函数、恶意执行函数、文件注释大小、单行字符串长度、混淆程度等,当webshell进行简单变种或将其特征码故意混淆时,传统方法即会漏报此类webshell,即很容易通过混淆的方式绕过防火墙和杀毒软件的检测,故目前基于特征匹配的webshell检测方法很难快速检测和识别webshell的变种。

因此,如何克服传统基于特征码匹配的webshell检测方式的单一性和滞后性,应对webshell的文本混淆手段,实现快速检测webshell及其变种,一直以来都是本领域技术人员关注的重点。



技术实现要素:

本发明的目的在于提供一种基于机器学习与动静态分析的webshell检测方法,以克服传统基于特征码匹配的webshell检测方式的单一性和滞后性,提高webshell检测的准确性,快速检测webshell及其变种。

本发明的目的还在于提供一种基于机器学习与动静态分析的webshell检测系统,以克服传统基于特征码匹配的webshell检测方式的单一性和滞后性,提高webshell检测的准确性,快速检测webshell及其变种。

为了实现上述目的,本发明实施例采用的技术方案如下:

第一方面,本发明实施例提出一种基于机器学习与动静态分析的webshell检测方法,所述基于机器学习与动静态分析的webshell检测方法包括:获取样本文件;提取所述样本文件的静态特征和动态特征;依据所述静态特征、所述动态特征和机器学习算法得到分类模型,所述分类模型对待检测文件进行分析并得到检测结果。

进一步地,所述提取所述样本文件的静态特征和动态特征的步骤包括:对所述样本文件进行静态分析得到所述静态特征,其中,所述静态特征包括所述样本文件的文档特征、基本函数特征、文件行为特征;对所述样本文件进行动态分析得到所述动态特征,其中,所述动态特征包括文件包含操作特征、敏感函数运行特征、敏感字符串特征。

进一步地,所述依据所述静态特征、所述动态特征和机器学习算法得到分类模型的步骤包括:对所述静态特征和所述动态特征采用所述机器学习算法进行学习,得到所述分类模型。

进一步地,所述机器学习算法为结合了多种分类算法的集体学习方式。

进一步地,所述基于机器学习与动静态分析的webshell检测方法还包括:当所述待检测文件经检测后确认为webshell时,依据所述待检测文件与所述样本文件重新进行机器学习以更新所述分类模型。

第二方面,本发明实施例还提出一种基于机器学习与动静态分析的webshell检测系统,所述基于机器学习与动静态分析的webshell检测系统包括样本获取模块、特征提取模块及模型建立模块。所述样本获取模块用于获取样本文件;所述特征提取模块用于提取所述样本文件的静态特征和动态特征;所述模型建立模块用于依据所述静态特征、所述动态特征和机器学习算法得到分类模型,所述分类模型对待检测文件进行分析并得到检测结果。

进一步地,所述特征提取模块包括静态分析模块和动态分析模块。所述静态分析模块用于对所述样本文件进行静态分析得到所述静态特征,其中,所述静态特征包括所述样本文件的文档特征、基本函数特征、文件行为特征;所述动态分析模块用于对所述样本文件进行动态分析得到所述动态特征,其中,所述动态特征包括文件包含操作特征、敏感函数运行特征、敏感字符串特征。

进一步地,所述模型建立模块用于对所述静态特征和所述动态特征采用所述机器学习算法进行学习,得到所述分类模型。

进一步地,所述模型建立模块采用的所述机器学习算法为结合了多种分类算法的集体学习方式。

进一步地,所述基于机器学习与动静态分析的webshell检测系统还包括模型更新模块,所述模型更新模块用于用于当所述待检测文件经检测后确认为webshell时,依据所述待检测文件与所述样本文件重新进行机器学习以更新所述分类模型。

相对现有技术,本发明具有以下有益效果:本发明实施例提供的基于机器学习与动静态分析的webshell检测方法及系统,通过获取样本文件,提取所述样本文件的静态特征和动态特征,依据所述静态特征、所述动态特征和机器学习算法得到分类模型,所述分类模型对待检测文件进行分析并得到检测结果。本发明实施例采用动静态相结合的分析手段,提取特征更全面,采用多种分类算法结合的机器学习算法对大量webshell样本和正常网页样本进行学习形成分类模型,分类模型稳定性更高,分类更加准确。采用机器学习算法可以应对多特征的复杂分类计算,使检测所涉及的特征不会局限于单一的特征码。用户采用该分类模型可有效检测出webshell及其变种,预测新型webshell,能较好地应对文本混淆手段,弥补传统采用特征码匹配检测方式的不足。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的服务器的方框示意图。

图2示出了本发明第一实施例所提供的基于机器学习与动静态分析的webshell检测系统的功能模块图。

图3示出了图2中特征提取模块的功能模块图。

图4示出了基于机器学习与动静态分析的webshell检测系统进行webshell检测的流程示意图。

图5示出了本发明第二实施例所提供的基于机器学习与动静态分析的webshell检测方法的流程示意图。

图6示出了图5中步骤s202的具体流程示意图。

图标:100-服务器;400-基于机器学习与动静态分析的webshell检测系统;110-存储器;120-存储控制器;130-处理器;410-样本获取模块;420-特征提取模块;430-模型建立模块;440-模型更新模块;421-静态分析模块;422-动态分析模块。

具体实施方式

下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

本发明实施例所提供的基于机器学习与动静态分析的webshell检测方法及系统可应用于如图1所示的服务器100。在本实施例中,所述服务器100可以是,但不限于,网络服务器、数据库服务器、云端服务器等。如图1所示,服务器100可以包括存储器110、存储控制器120及处理器130。

所述存储器110、存储控制器120及处理器130,各元件之间直接或间接地电性连接,以实现数据的传输或者交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。基于机器学习与动静态分析的webshell检测系统400包括至少一个可以软件或固件(firmware)的形式存储于所述存储器110中或固化在所述服务器100的操作系统(operatingsystem,os)中的软件功能模块。所述处理器130用于执行存储器110中存储的可执行模块,例如,该基于机器学习与动静态分析的webshell检测系统400所包括的软件功能模块及计算机程序等。

其中,存储器110可以是,但不限于,随机存取存储器(randomaccessmemory,ram),只读存储器(readonlymemory,rom),可编程只读存储器(programmableread-onlymemory,prom),可擦除只读存储器(erasableprogrammableread-onlymemory,eprom),电可擦除只读存储器(electricerasableprogrammableread-onlymemory,eeprom)等。存储器110可用于存储软件程序以及模块,处理器130用于在接收到执行指令后,执行所述程序。

处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器130可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器130也可以是任何常规的处理器等。

可以理解,图1所示的结构仅为示意,所述服务器100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

第一实施例

请参照图2,为本发明第一实施例所提供的基于机器学习与动静态分析的webshell检测系统400的功能模块图。所述基于机器学习与动静态分析的webshell检测系统400包括样本获取模块410、特征提取模块420及模型建立模块430。

所述样本获取模块410用于获取样本文件。在本实施例中,所述样本文件包括大量的webshell样本和正常网站样本,其中,所述webshell样本的类型包括:asp木马、php木马、jsp木马等多种语言编写的木马,从种类上还可分为一句话木马、图片码、功能性上传大马等;正常网站样本为php语言的各类cms,或者为所需检测网站的原始代码等,对此不做限定。优选地,获取的大量样本文件存储在数据库中,用户可自由添加自己收集的webshell样本和正常网页代码。根据检测环境的不同,提供网站原始文件代码作为正样本通常能够提高模型的准确率,降低误报率。

所述特征提取模块420用于提取所述样本文件的静态特征和动态特征。

在本实施例中,所述特征提取模块420用于对大量的样本文件进行动静态分析。如图3所示,所述特征提取模块420具体包括静态分析模块421和动态分析模块422。

所述静态分析模块421用于对所述样本文件进行静态分析得到所述静态特征,其中,所述静态特征包括所述样本文件的文档特征、基本函数特征、文件行为特征。在本实施例中,所述静态分析模块421主要对样本文件中的字符进行分析,统计出样本文件在多个特征维度上的数值。具体地,所述文档特征可包括但不限于:单词数量、不同单词数量、行数、平均每行单词数、空字符和空格数量、最大单词长度、注释数量等;所述基本函数特征可包括但不限于:字符操作函数、敏感函数调用、系统函数调用数量、脚本区块数、函数参数最大长度、加解密函数调用等;所述文件行为特征可包括但不限于:文件操作、ftp操作、数据库操作等。

所述动态分析模块422用于对所述样本文件进行动态分析得到所述动态特征,其中,所述动态特征包括文件包含操作特征、敏感函数运行特征、敏感字符串特征。在本实施例中,所述动态分析模块422主要是针对不同程序语言,分别建立编译环境或hook扩展,监控并结合外部输入变量的标记追踪、黑白名单机制来进行webshell的实时动态检测,总结出样本文件的动态特征。在本实施例中,应对webshell混淆的特征包括:计算文本墒值、文本无效字符数、动态分析运行生成的敏感字符串、敏感函数等。

所述模型建立模块430用于依据所述静态特征、所述动态特征和机器学习算法得到分类模型,所述分类模型对待检测文件进行分析并得到检测结果。

在本实施例中,用户通过上传待检测文件到系统中,该分类模型可完成对待检测文件的webshell检测,得出分类结果,并生成检测报告供用户查看。

在本实施例中,所述模型建立模块430用于对所述静态特征和所述动态特征采用所述机器学习算法进行学习,得到所述分类模型。具体地,所述模型建立模块430首先对所述静态特征和所述动态特征进行归一化操作得到特征向量集,采用机器学习算法对特征向量集进行学习,计算得到分类模型。优选地,在本实施例中,所述机器学习算法为结合了多种分类算法的集体学习方式,具体可包括:随机森林算法、决策树算法、逻辑算法等。结合多种分类算法的集体学习方式能提高模型的稳定性和鲁棒性,从而提高分类模型的检测准确率。

需要说明的是,在本实施例中,在分类模型建立完成后,还可使用部分未进行学习的数据对所述分类模型进行测试所述分类模型的检错率、误报率、漏报率等,然后根据测试出的数据调整分类模型,例如调整样本文件中正负样本的比例、数量、类型等,从而提高分类模型的准确度,实现分类模型的优化。

进一步地,所述基于机器学习与动静态分析的webshell检测系统400还包括模型更新模块440,所述模型更新模块440用于当所述待检测文件符合webshell特征时,依据所述待检测文件与所述样本文件重新进行机器学习以更新所述分类模型。

在本实施例中,用户可采用该基于机器学习与动静态分析的webshell检测系统400对未知文件(也即是待检测文件)进行webshell检测,当检测到待检测文件为恶意文件webshell时,则将该待检测文件添加到恶意样本数据库中,和之前的样本文件一起重新进行机器学习实现分类模型的优化和更新。用户使用该系统进行webshell检测的具体流程可参照图4,具体包括:

步骤s101,获取待检测文件。

具体地,用户连入到该系统并上传待检测文件,系统通过样本获取模块410获取到该待检测文件。

步骤s102,提取所述待检测文件的静态特征和动态特征。

在本实施例中,该系统自动通过特征提取模块420对所述待检测文件进行动静态特征提取。

步骤s103,采用所述分类模型对所述待检测文件进行分析并得到检测结果。

具体地,当待检测文件的特征提取完成后,通过建立的分类模型进行检测,以确定该待检测文件是否为恶意文件webshell,得到检测结果,然后结合特征提取模块420提取出的动静态特征,形成检测报告以便用户查看。例如,检测报告所展示的内容可包括:待检测文件是恶意文件webshell的可能性百分比、提取的特征(例如恶意的函数、文件操作行为、出现的黑名单字符)等。

第二实施例

请参照图5,为本发明第二实施例所提供的基于机器学习与动静态分析的webshell检测方法的流程示意图。需要说明的是,本发明实施例所述的基于机器学习与动静态分析的webshell检测方法并不以图5以及以下所述的具体顺序为限制,其基本原理及产生的技术效果与第一实施例相同,为简要描述,本实施例中未提及部分,可参考第一实施例中的相应内容。应当理解,在其它实施例中,本发明所述的基于机器学习与动静态分析的webshell检测方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。下面将对图5所示的具体流程进行详细阐述。

步骤s201,获取样本文件。

可以理解,该步骤s201可以由上述的样本获取模块410执行。

步骤s202,提取所述样本文件的静态特征和动态特征。

可以理解,该步骤s202可以由上述的特征提取模块420执行。

如图6所示,在本实施例中,所述步骤s202具体包括如下子步骤:

子步骤s2021,对所述样本文件进行静态分析得到所述静态特征,其中,所述静态特征包括所述样本文件的文档特征、基本函数特征、文件行为特征。

可以理解,该步骤s2021可以由上述的静态分析模块421执行。

子步骤s2022,对所述样本文件进行动态分析得到所述动态特征,其中,所述动态特征包括文件包含操作特征、敏感函数运行特征、敏感字符串特征。

可以理解,该步骤s2022可以由上述的动态分析模块422执行。

需要说明的是,在本实施例中,对子步骤s2021、s2022的顺序不做限定,也可以是同时执行。

步骤s203,依据所述静态特征、所述动态特征和机器学习算法得到分类模型,所述分类模型对待检测文件进行分析并得到检测结果。

可以理解,该步骤s203可以由上述的模型建立模块430执行。

步骤s204,当所述待检测文件经检测后确认为webshell时,依据所述待检测文件与所述样本文件重新进行机器学习以更新所述分类模型。

可以理解,该步骤s204可以由上述的模型更新模块440执行。

综上所述,本发明实施例所提供的基于机器学习与动静态分析的webshell检测方法及系统,通过获取样本文件,对所述样本文件进行静态分析和动态分析分别提取所述样本文件的静态特征和动态特征,依据所述静态特征和所述动态特征采用机器学习算法进行学习得到分类模型,所述分类模型对待检测文件进行分析并得到检测结果。进一步地,当所述待检测文件经检测后确认为webshell时,则将该待检测文件添加到样本数据库中,与之前的样本文件一起重新进行机器学习实现所述分类模型的更新。本发明实施例采用动静态相结合的分析手段,提取特征更全面,采用多种分类算法结合的机器学习算法对大量webshell样本和正常网页样本进行学习形成分类模型,分类模型稳定性更高,分类更加准确。采用机器学习算法可以应对多特征的复杂分类计算,使检测所涉及的特征不会局限于单一的特征码。用户采用该分类模型可有效检测出webshell及其变种,预测新型webshell,能较好地应对文本混淆手段,弥补传统采用特征码匹配检测方式的不足。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1