网页后门检测方法、设备、存储介质及装置与流程

文档序号:17479395发布日期:2019-04-20 06:20阅读:132来源:国知局
网页后门检测方法、设备、存储介质及装置与流程

本发明涉及监控技术领域,尤其涉及一种网页后门检测方法、设备、存储介质及装置。



背景技术:

目前,网页后门(webshell)就是以动态服务器页面(activeserverpages,asp)、超文本预处理器(hypertextpreprocessor,php)、java服务器页面(javaserverpages,jsp)或者通用网关接口(commongatewayinterface,cgi)等网页文件形式存在的一种命令执行环境。黑客在入侵了一个网站后,通常会将asp或php后门文件与网站服务器web目录下正常的网页文件混在一起,然后就可以使用浏览器来访问asp或php后门,得到一个命令执行环境,以达到控制网站服务器的目的。

网页后门通常包含较为明显的静态特征,目前,根据所述静态特征对网页脚本进行检测,以检测所述网页脚本是否为网页后门,往往会产生很多的误报,因此,如何提高对网页后门检测的准确率是亟待解决的技术问题。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。



技术实现要素:

本发明的主要目的在于提供一种网页后门检测方法、设备、存储介质及装置,旨在解决现有技术中网页后门的检测误报率高的技术问题。

为实现上述目的,本发明提供一种网页后门检测方法,所述网页后门检测方法包括以下步骤:

获取待检测网络脚本,将所述待检测网络脚本与预设网页后门规则进行匹配;

若匹配失败,则通过预设提取模型对所述待检测网络脚本进行特征提取,获得目标脚本特征;

通过预设检测模型对所述目标脚本特征进行检测,获得目标检测结果。

优选地,所述通过预设检测模型对所述目标脚本特征进行检测,获得目标检测结果之后,所述网页后门检测方法还包括:

若所述目标检测结果为所述目标脚本特征是网页后门对应的特征,则根据所述目标脚本特征与对应的所述目标检测结果对所述预设检测模型进行训练。

优选地,所述若匹配失败,则通过预设提取模型对所述待检测网络脚本进行特征提取,获得目标脚本特征,包括:

若匹配失败,则对所述待检测网络脚本进行数据清洗,获得目标网络脚本;

通过所述预设提取模型对所述目标网络脚本进行特征提取,获得目标脚本特征。

优选地,所述获取待检测网络脚本,将所述待检测网络脚本与预设网页后门规则进行匹配,包括:

通过网关获取待检测网络脚本,对所述待检测网络脚本进行分析,提取出多个预设维度的特征;

将所述预设维度的特征与预设网页后门规则进行匹配。

优选地,所述通过预设检测模型对所述目标脚本特征进行检测,获得目标检测结果之前,所述网页后门检测方法还包括:

建立基础预测模型;

获取样本网络脚本及对应的样本检测结果;

将所述样本网络脚本通过所述预设提取模型进行特征提取,获得第一脚本特征;

根据所述第一脚本特征及对应的所述样本检测结果对所述基础预测模型进行训练,获得预设检测模型。

优选地,所述通过预设检测模型对所述目标脚本特征进行检测,获得目标检测结果之前,所述网页后门检测方法还包括:

获取第一数量的样本网页后门,将所述样本网页后门通过所述预设提取模型进行特征提取,获得第二脚本特征;

通过所述预设检测模型对所述第二脚本特征进行检测,获得评估检测结果,所述评估检测结果包括所述第二脚本特征是网页后门对应的特征的第一检测结果;

统计所述第一检测结果的第二数量,根据所述第一数量和所述第二数量计算所述预设检测模型的准确率;

在所述准确率超过预设阈值时,执行所述通过预设检测模型对所述目标脚本特征进行检测,获得目标检测结果的步骤。

优选地,所述评估检测结果包括所述第二脚本特征不是网页后门对应的特征的第二检测结果;

所述统计所述第一检测结果的第二数量,根据所述第一数量和所述第二数量计算所述预设检测模型的准确率之后,所述网页后门检测方法还包括:

获取所述第二检测结果对应的第二脚本特征作为误测网页后门特征;

设置所述误测网页后门特征的真实检测结果为所述误测网页后门特征是网页后门对应的特征,根据所述误测网页后门特征与对应的真实检测结果对所述预设检测模型进行训练。

此外,为实现上述目的,本发明还提出一种网页后门检测设备,所述网页后门检测设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网页后门检测程序,所述网页后门检测程序配置为实现如上文所述的网页后门检测方法的步骤。

此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有网页后门检测程序,所述网页后门检测程序被处理器执行时实现如上文所述的网页后门检测方法的步骤。

此外,为实现上述目的,本发明还提出一种网页后门检测装置,所述网页后门检测装置包括:

匹配模块,用于获取待检测网络脚本,将所述待检测网络脚本与预设网页后门规则进行匹配;

提取模块,用于若匹配失败,则通过预设提取模型对所述待检测网络脚本进行特征提取,获得目标脚本特征;

检测模块,用于通过预设检测模型对所述目标脚本特征进行检测,获得目标检测结果。

本发明中,获取待检测网络脚本,将所述待检测网络脚本与预设网页后门规则进行匹配,通过基于规则的匹配对所述待检测网络脚本进行检测,对于特征明显的网页后门能够被检测出来;若匹配失败,则通过预设提取模型对所述待检测网络脚本进行特征提取,获得目标脚本特征,通过预设检测模型对所述目标脚本特征进行检测,获得目标检测结果,通过将规则检测和基于机器学习的模型检测相结合,未能通过规则匹配检测出的网页后门,可通过基于机器学习的模型进一步进行检测,所述预设检测模型经过大量的样本学习和检测准确率的评估,具有较好的检测效果,从而提高系统检测网络脚本是否为网页后门的准确性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的网页后门检测设备的结构示意图;

图2为本发明网页后门检测方法第一实施例的流程示意图;

图3为本发明网页后门检测方法第二实施例的流程示意图;

图4为本发明网页后门检测方法第三实施例的流程示意图;

图5为本发明网页后门检测装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

参照图1,图1为本发明实施例方案涉及的硬件运行环境的网页后门检测设备结构示意图。

如图1所示,该网页后门检测设备可以包括:处理器1001,例如中央处理器(centralprocessingunit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display),可选用户接口1003还可以包括标准的有线接口、无线接口,对于用户接口1003的有线接口在本发明中可为usb接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(randomaccessmemory,ram)存储器,也可以是稳定的存储器(non-volatilememory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的结构并不构成对网页后门检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,认定为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及网页后门检测程序。

在图1所示的网页后门检测设备中,网络接口1004主要用于连接后台服务器,与所述后台服务器进行数据通信;用户接口1003主要用于连接用户设备;所述网页后门检测设备通过处理器1001调用存储器1005中存储的网页后门检测程序,并执行本发明实施例提供的网页后门检测方法。

基于上述硬件结构,提出本发明网页后门检测方法的实施例。

参照图2,图2为本发明网页后门检测方法第一实施例的流程示意图,提出本发明网页后门检测方法第一实施例。

在第一实施例中,所述网页后门检测方法包括以下步骤:

步骤s10:获取待检测网络脚本,将所述待检测网络脚本与预设网页后门规则进行匹配。

应理解的是,本实施例的执行主体是所述网页后门检测设备,其中,所述网页后门检测设备可为个人电脑或服务器等电子设备。所述预设网页后门(webshell)规则可以是恶意字符串库,例如,包括:“组专用大马|提权|木马|php\s?反弹提权cmd执行”和“wscript.shell、shell.application、eval()、excute()、setserver、run()、exec()以及shellexcute()”等恶意字符串。将所述待检测网络脚本进行特征提取,是指对所述待检测脚本中所使用的关键词、高危函数、文件修改的时间、文件权限、文件的所有者以及和其它文件的关联性等多个维度的特征进行提取,从而获得所述脚本特征,将获得的脚本特征与所述预设webshell规则库进行匹配,获得匹配结果。若所述匹配结果为匹配成功,则说明所述待检测网络脚本为webshell;若所述匹配结果为匹配失败,则说明所述待检测网络脚本不是webshell,可能为正常的网络脚本,或者是检测失误的webshell。

在本实施例中,所述步骤s10,包括:

通过网关获取待检测网络脚本,对所述待检测网络脚本进行分析,提取出多个预设维度的特征;

将所述预设维度的特征与预设网页后门规则进行匹配。

需要说明的是,所述网关(gateway)从代理服务器(agent)获取所述待检测网络脚本,所述待检测网络脚本通常为多个,也可以是一个。对所述待检测网络脚本进行分析,通常是将所述待检测网络脚本拆分成字符串,从所述待检测网络脚本对应的所有字符串中提取出多个预设维度的特征,所述多个预设维度包括:关键词、高危函数、文件修改的时间、文件权限、文件的所有者以及和其它文件的关联性等。正常的网络脚本不会包含所述预设网页后门规则中的特征,则将所述预设维度的特征与所述预设网页后门规则进行匹配,从而识别出所述待检测网络脚本是否为网页后门,或者是正常的网络脚本。

步骤s20:若匹配失败,则通过预设提取模型对所述待检测网络脚本进行特征提取,获得目标脚本特征。

可理解的是,若匹配失败,说明所述待检测网络脚本不是webshell,可能为正常的网络脚本,或者是检测失误的webshell。为了进一步识别所述待检测脚本是否为webshell,可通过所述预设提取模型进行特征提取,所述预设提取模型包括卷积神经网络模型等。可预先建立基础提取模型,获取样本网络脚本与对应的特征对所述基础提取模型进行训练,获得所述预设提取模型。通过所述预设提取模型进行特征提取,获得合适的所述目标脚本特征。

步骤s30:通过预设检测模型对所述目标脚本特征进行检测,获得目标检测结果。

在具体实现中,所述预设检测模型包括神经网络模型,经过丰富的大量的训练样本的训练,保证所述预设检测模型对所述目标脚本特征检测的准确性。所述目标检测结果可以是所述目标脚本特征为网页后门对应的特征,即所述目标脚本特征对应的所述待检测网络脚本为网页后门;所述目标检测结果还可以是所述目标脚本特征为正常网络脚本对应的特征,即所述目标脚本特征对应的所述待检测网络脚本为正常的网络脚本。

应理解的是,对于所述预设检测模型的建立过程,首先建立基础预测模型,从数据库中获取大量的样本网络脚本及对应的样本检测结果,所述样本网络脚本包括大量的正常的网页脚本和大量的网页后门,可将所述样本网络脚本进行数据清洗,将数据清洗后的样本网络脚本通过所述预设提取模型进行特征提取,获得所述样本网络脚本对应的第一脚本特征,则可根据大量的所述第一脚本特征及对应的所述样本检测结果对所述基础预测模型进行训练,获得所述预设检测模型。所述数据清洗包括对所述样本网络脚本中的无关数据、重复数据和平滑噪声数据,处理所述样本网络脚本中缺失值和异常值。本实施例中,所述步骤s30之前,还包括:建立基础预测模型;获取样本网络脚本及对应的样本检测结果;将所述样本网络脚本通过所述预设提取模型进行特征提取,获得第一脚本特征;根据所述第一脚本特征及对应的所述样本检测结果对所述基础预测模型进行训练,获得预设检测模型。

本实施例中,获取待检测网络脚本,将所述待检测网络脚本与预设网页后门规则进行匹配,通过基于规则的匹配对所述待检测网络脚本进行检测,对于特征明显的网页后门能够被检测出来;若匹配失败,则通过预设提取模型对所述待检测网络脚本进行特征提取,获得目标脚本特征,通过预设检测模型对所述目标脚本特征进行检测,获得目标检测结果,通过将规则检测和基于机器学习的模型检测相结合,未能通过规则匹配检测出的网页后门,可通过基于机器学习的模型进一步进行检测,所述预设检测模型经过大量的样本学习和检测准确率的评估,具有较好的检测效果,从而提高系统检测网络脚本是否为网页后门的准确性。

参照图3,图3为本发明网页后门检测方法第二实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明网页后门检测方法的第二实施例。

在第二实施例中,所述步骤s30之后,还包括:

步骤s40:若所述目标检测结果为所述目标脚本特征是网页后门对应的特征,则根据所述目标脚本特征与对应的所述目标检测结果对所述预设检测模型进行训练。

可理解的是,若所述目标检测结果为所述目标脚本特征是网页后门对应的特征,说明所述目标脚本特征对应的待检测网络脚本是网页后门,可将所述待检测网络脚本与对应的所述目标检测结果存入数据库中,后续可作为在线训练或离线训练的样本数据,还可根据所述目标脚本特征与对应的所述目标检测结果对所述预设检测模型进行训练,以提高所述预设检测模型的训练量,从而提高所述预设检测模型进行检测的准确率。

在本实施例中,所述步骤s20,包括:

步骤s201:若匹配失败,则对所述待检测网络脚本进行数据清洗,获得目标网络脚本。

应理解的是,若将所述待检测脚本与预设网页后门规则进行匹配的结果为匹配失败,则说明所述待检测网络脚本不是webshell。需要将所述待检测网络脚本发送至所述预设高吞吐量的分布式发布订阅消息系统(kafka),所述预设高吞吐量的分布式发布订阅消息系统作为消息队列,可以缓存数据,也可以对数据分流,通常将所述待检测网络脚本进行复制分发。所述预设高吞吐量的分布式发布订阅消息系统首先将所述待检测脚本复制一份存入hadoop,hadoop是一个由apache基金会所开发的分布式系统基础架构,hadoop将所述待检测网络脚本用于离线学习以及回溯事件的时候使用。所述预设高吞吐量的分布式发布订阅消息系统还复制一份所述待检测脚本进行在线学习,发送至所述网页后门检测设备。在线学习和离线学习都需要将所述待检测网络脚本经过数据清洗和特征提取两个流程,再对所述预设检测模型进行训练。

需要说明的是,所述网页后门检测设备接收所述预设高吞吐量的分布式发布订阅消息系统发送的待检测网络脚本,进行在线学习,通常需先将所述待检测网络脚本进行数据清洗,数据清洗主要是负责将不符合规则的数据过滤掉,对敏感的数据脱敏和对数据进行格式化,以方便特征提取。例如,删除所述待检测网络脚本中的无关数据、重复数据和平滑噪声数据,处理所述待检测网络脚本中缺失值和异常值。可通过设置哪些字段是允许的,哪些字段是不允许的,构成清洗规则,通过所述清洗规则来过滤掉所述待检测脚本中不符合格式的数据。对所述待检测网络脚本进行数据清洗之后,获得目标网络脚本,将所述目标网络脚本再进行特征提取,获得所述目标脚本特征。

步骤s202:通过所述预设提取模型对所述目标网络脚本进行特征提取,获得目标脚本特征。

在具体实现中,若匹配失败,说明所述待检测网络脚本不是webshell,可能为正常的网络脚本,或者是检测失误的webshell。为了进一步识别所述待检测脚本是否为webshell,可通过所述预设提取模型对所述目标网络脚本进行特征提取,所述目标网络脚本经过数据清洗,避免处理过多重复数据和不相关的数据,提取出更合适的所述目标脚本特征,提高特征提取的效率和质量。

本实施例中,若匹配失败,则对所述待检测网络脚本进行数据清洗,获得目标网络脚本,通过所述预设提取模型对所述目标网络脚本进行特征提取,获得目标脚本特征,经过数据清洗,过滤掉所述待检测网络脚本中的重复数据和无关数据,从而提高特征提取的效率和质量。

参照图4,图4为本发明网页后门检测方法第三实施例的流程示意图,基于上述图3所示的第二实施例,提出本发明网页后门检测方法的第三实施例。

在第三实施例中,所述步骤s30之前,还包括:

步骤s203:获取第一数量的样本网页后门,将所述样本网页后门通过所述预设提取模型进行特征提取,获得第二脚本特征。

应理解的是,为了确保所述待检测网络脚本通过所述预设检测模型进行检测的准确率,在通过所述预设检测模型进行检测之前,需要对所述预设检测模型进行准确率或召回率的计算,在所述准确率超过预设阈值(比如80%)时,使用所述预设检测模型进行检测,或者,在所述召回率小于预设召回阈值(比如20%)时,使用所述预设检测模型进行检测。可通过从数据库中获取所述第一数量的样本网页后门,根据所述预设检测模型对所述第一数量的样本网页后门的检测结果来计算其准确率或召回率。由于所述预设检测模型进行检测的是网络脚本对应的特征,则需将所述样本网页后门通过所述预设提取模型进行特征提取,获得所述第二脚本特征。

步骤s204:通过所述预设检测模型对所述第二脚本特征进行检测,获得评估检测结果,所述评估检测结果包括所述第二脚本特征是网页后门对应的特征的第一检测结果。

需要说明的是,所述第二脚本特征为所述样本网页后门对应的特征,将所述第二脚本特征通过所述预设检测模型,从而检测出所述第二脚本特征是否为网页后门的特征,若所有的所述第二脚本特征都能够被所述预设检测模型成功检测出来,说明所述预设检测模型的准确率为100%。所述评估检测结果中包括第一检测结果和第二检测结果,所述第一检测结果为所述第二脚本特征是网页后门对应的特征,所述第二检测结果为所述第二脚本特征不是网页后门对应的特征。

步骤s205:统计所述第一检测结果的第二数量,根据所述第一数量和所述第二数量计算所述预设检测模型的准确率。

在具体实现中,通常所述预设检测模型不能完全将所有的第一数量的样本网页后门成功检测出来,则可对所述评估检测结果进行分析,统计出所述评估检测结果为所述第二脚本特征是网页后门对应的特征的所述第一检测结果的第二数量,所述第二数量即所述预设检测模型能够正确检测出的所述第二脚本特征的数量,即能够正确检测出对应的样本网页后门的数量,将所述第二数量除以所述第一数量,即获得所述预设检测模型的准确率。将所述第一数量减去所述第二数量,获得差值数量,将所述差值数量除以所述第一数量,即获得所述预设检测模型的召回率。

步骤s206:在所述准确率超过预设阈值时,执行所述步骤s30。

可理解的是,在所述准确率超过所述预设阈值时,或者,所述召回率小于预设召回阈值时,说明所述预设检测模型进行检测的准确率较高,值得信赖,则可通过所述预设检测模型对所述待检测网络脚本对应的目标脚本特征进行检测,以检测出所述目标脚本特征是否为网页后门对应的特征。

在本实施例中,所述评估检测结果包括所述第二脚本特征不是网页后门对应的特征的第二检测结果;所述步骤s205之后,还包括:

获取所述第二检测结果对应的第二脚本特征作为误测网页后门特征;

设置所述误测网页后门特征的真实检测结果为所述误测网页后门特征是网页后门对应的特征,根据所述误测网页后门特征与对应的真实检测结果对所述预设检测模型进行训练。

应理解的是,所述评估检测结果包括所述第二检测结果,所述第二检测结果为所述第二脚本特征不是网页后门对应的特征,获取所述第二检测结果对应的第二脚本特征,即所述预设检测模型未能成功检测出的第二脚本特征,可将其作为误测网页后门特征,并设置所述误测网页后门特征的真实检测结果为所述误测网页后门特征是网页后门对应的特征。根据所述误测网页后门特征与对应的真实检测结果对所述预设检测模型进行训练,以使所述预设检测模型在后续检测时能够识别出所述误测网页后门特征为网页后门对应的特征,以提高所述预设检测模型进行检测的准确率。再对所述样本网页后门进行特征提取之前,可先对所述样本网页后门进行数据清洗,再将数据清洗后的样本网页后门通过所述预设提取模型进行特征提取,获得第二脚本特征。数据清洗包括删除所述样本网页后门中的无关数据、重复数据和平滑噪声数据,处理所述样本网页后门中缺失值和异常值。可通过设置哪些字段是允许的,哪些字段是不允许的,构成清洗规则,通过所述清洗规则来过滤掉所述样本网页后门中不符合格式的数据。

本实施例中,获取第一数量的样本网页后门,将所述样本网页后门通过所述预设提取模型进行特征提取,获得第二脚本特征,通过所述预设检测模型对所述第二脚本特征进行检测,获得评估检测结果,所述评估检测结果包括所述第二脚本特征是网页后门对应的特征的第一检测结果,统计所述第一检测结果的第二数量,根据所述第一数量和所述第二数量计算所述预设检测模型的准确率,在所述准确率超过预设阈值时,执行所述通过预设检测模型对所述目标脚本特征进行检测,获得目标检测结果的步骤,在所述准确率超过所述预设阈值时,说明所述预设检测模型进行检测的准确率较高,值得信赖,从而确保所述预设检测模型对所述待检测脚本的目标脚本特征进行检测的准确性。

此外,本发明实施例还提出一种存储介质,所述存储介质上存储有网页后门检测程序,所述网页后门检测程序被处理器执行时实现如上文所述的网页后门检测方法的步骤。

此外,参照图5,本发明实施例还提出一种网页后门检测装置,所述网页后门检测装置包括:

匹配模块10,用于获取待检测网络脚本,将所述待检测网络脚本与预设网页后门规则进行匹配;

提取模块20,用于若匹配失败,则通过预设提取模型对所述待检测网络脚本进行特征提取,获得目标脚本特征;

检测模块30,用于通过预设检测模型对所述目标脚本特征进行检测,获得目标检测结果。

应理解的是,本实施例的执行主体是所述网页后门检测设备,其中,所述网页后门检测设备可为个人电脑或服务器等电子设备。所述预设网页后门(webshell)规则可以是恶意字符串库,例如,包括:“组专用大马|提权|木马|php\s?反弹提权cmd执行”和“wscript.shell、shell.application、eval()、excute()、setserver、run()、exec()、shellexcute()”等恶意字符串。将所述待检测网络脚本进行特征提取,是指对所述待检测脚本中所使用的关键词、高危函数、文件修改的时间、文件权限、文件的所有者以及和其它文件的关联性等多个维度的特征进行提取,从而获得所述脚本特征,将获得的脚本特征与所述预设webshell规则库进行匹配,获得匹配结果。若所述匹配结果为匹配成功,则说明所述待检测网络脚本为webshell;若所述匹配结果为匹配失败,则说明所述待检测网络脚本不是webshell,可能为正常的网络脚本,或者是检测失误的webshell。

在本实施例中,所述提取模块20,还用于通过网关获取待检测网络脚本,对所述待检测网络脚本进行分析,提取出多个预设维度的特征;

所述匹配模块10,还用于将所述预设维度的特征与预设网页后门规则进行匹配。

需要说明的是,所述网关(gateway)从代理服务器(agent)获取所述待检测网络脚本,所述待检测网络脚本通常为多个,也可以是一个。对所述待检测网络脚本进行分析,通常是将所述待检测网络脚本拆分成字符串,从所述待检测网络脚本对应的所有字符串中提取出多个预设维度的特征,所述多个预设维度包括:关键词、高危函数、文件修改的时间、文件权限、文件的所有者以及和其它文件的关联性等。正常的网络脚本不会包含所述预设网页后门规则中的特征,则将所述预设维度的特征与所述预设网页后门规则进行匹配,从而识别出所述待检测网络脚本是否为网页后门,或者是正常的网络脚本。

可理解的是,若匹配失败,说明所述待检测网络脚本不是webshell,可能为正常的网络脚本,或者是检测失误的webshell。为了进一步识别所述待检测脚本是否为webshell,可通过所述预设提取模型进行特征提取,所述预设提取模型包括卷积神经网络模型等。可预先建立基础提取模型,获取样本网络脚本与对应的特征对所述基础提取模型进行训练,获得所述预设提取模型。通过所述预设提取模型进行特征提取,获得合适的所述目标脚本特征。

在具体实现中,所述预设检测模型包括神经网络模型,经过丰富的大量的训练样本的训练,保证所述预设检测模型对所述目标脚本特征检测的准确性。所述目标检测结果可以是所述目标脚本特征为网页后门对应的特征,即所述目标脚本特征对应的所述待检测网络脚本为网页后门;所述目标检测结果还可以是所述目标脚本特征为正常网络脚本对应的特征,即所述目标脚本特征对应的所述待检测网络脚本为正常的网络脚本。

应理解的是,对于所述预设检测模型的建立过程,首先建立基础预测模型,从数据库中获取大量的样本网络脚本及对应的样本检测结果,所述样本网络脚本包括大量的正常的网页脚本和大量的网页后门,可将所述样本网络脚本进行数据清洗,将数据清洗后的样本网络脚本通过所述预设提取模型进行特征提取,获得所述样本网络脚本对应的第一脚本特征,则可根据大量的所述第一脚本特征及对应的所述样本检测结果对所述基础预测模型进行训练,获得所述预设检测模型。所述数据清洗包括对所述样本网络脚本中的无关数据、重复数据和平滑噪声数据,处理所述样本网络脚本中缺失值和异常值。本实施例中,还包括:建立模块,用于建立基础预测模型;获取模块,用于获取样本网络脚本及对应的样本检测结果;所述提取模块20,还用于将所述样本网络脚本通过所述预设提取模型进行特征提取,获得第一脚本特征;训练模块,用于根据所述第一脚本特征及对应的所述样本检测结果对所述基础预测模型进行训练,获得预设检测模型。

本实施例中,获取待检测网络脚本,将所述待检测网络脚本与预设网页后门规则进行匹配,通过基于规则的匹配对所述待检测网络脚本进行检测,对于特征明显的网页后门能够被检测出来;若匹配失败,则通过预设提取模型对所述待检测网络脚本进行特征提取,获得目标脚本特征,通过预设检测模型对所述目标脚本特征进行检测,获得目标检测结果,通过将规则检测和基于机器学习的模型检测相结合,未能通过规则匹配检测出的网页后门,可通过基于机器学习的模型进一步进行检测,所述预设检测模型经过大量的样本学习和检测准确率的评估,具有较好的检测效果,从而提高系统检测网络脚本是否为网页后门的准确性。

在一实施例中,所述网页后门检测装置还包括:训练模块,用于若所述目标检测结果为所述目标脚本特征是网页后门对应的特征,则根据所述目标脚本特征与对应的所述目标检测结果对所述预设检测模型进行训练。

在一实施例中,所述网页后门检测装置还包括:数据清洗模块,用于若匹配失败,则对所述待检测网络脚本进行数据清洗,获得目标网络脚本;

所述提取模块20,还用于通过所述预设提取模型对所述目标网络脚本进行特征提取,获得目标脚本特征。

在一实施例中,所述提取模块20,还用于通过网关获取待检测网络脚本,对所述待检测网络脚本进行分析,提取出多个预设维度的特征;

所述匹配模块10,还用于将所述预设维度的特征与预设网页后门规则进行匹配。

在一实施例中,所述网页后门检测装置还包括:建立模块,用于建立基础预测模型;

获取模块,用于获取样本网络脚本及对应的样本检测结果;

所述提取模块20,还用于将所述样本网络脚本通过所述预设提取模型进行特征提取,获得第一脚本特征;

训练模块,用于根据所述第一脚本特征及对应的所述样本检测结果对所述基础预测模型进行训练,获得预设检测模型。

在一实施例中,所述获取模块,还用于获取第一数量的样本网页后门,将所述样本网页后门通过所述预设提取模型进行特征提取,获得第二脚本特征;

所述检测模块30,还用于通过所述预设检测模型对所述第二脚本特征进行检测,获得评估检测结果,所述评估检测结果包括所述第二脚本特征是网页后门对应的特征的第一检测结果;

所述网页后门检测装置还包括:计算模块,用于统计所述第一检测结果的第二数量,根据所述第一数量和所述第二数量计算所述预设检测模型的准确率;

所述检测模块30,还用于在所述准确率超过预设阈值时,执行所述通过预设检测模型对所述目标脚本特征进行检测,获得目标检测结果的步骤。

在一实施例中,所述评估检测结果包括所述第二脚本特征不是网页后门对应的特征的第二检测结果;

所述获取模块,还用于获取所述第二检测结果对应的第二脚本特征作为误测网页后门特征;

所述训练模块,还用于设置所述误测网页后门特征的真实检测结果为所述误测网页后门特征是网页后门对应的特征,根据所述误测网页后门特征与对应的真实检测结果对所述预设检测模型进行训练。

本发明所述网页后门检测装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为名称。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器镜像(readonlymemoryimage,rom)/随机存取存储器(randomaccessmemory,ram)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1