网页后门检测方法及装置与流程

文档序号:13532569阅读:320来源:国知局
网页后门检测方法及装置与流程

本发明涉及数据检测技术领域,具体而言,涉及一种网页后门检测方法及装置。



背景技术:

随着互联网的快速发展,以网上银行、电子商务、个人空间、微博、大数据、云存储等为代表的互联网应用不断深入人们到生活方方面面。

如果这些承载着大量信息的互联网应用被攻击者恶意利用,那么个人信息、甚至是整个应用系统都会面临安全风险。目前,不法分子可通过成功利用网站或第三方应用的漏洞,在网站服务器植入网页后门文件,从而达到获取对网站程序或服务器系统访问控制权,将对网站的安全造成极大的影响。因此,对于网页后门文件的检测尤为关键。

但在目前对网页后门文件的检测中,通常为采用人工的方式,以人工分析采集的大量样本来获得网页后门文件。该方式耗费了大量的人力、物力,以及时间成本,使得网页后门文件检测的应用受到极大限制。



技术实现要素:

有鉴于此,本发明的目的在于提供一种网页后门检测方法及装置,其能够有效改善上述问题。

本发明实施例的实现方式如下:

第一方面,本发明实施例提供了一种网页后门检测方法。所述方法包括:获取每个网址访问日志中的特征数据;根据每个所述特征数据中的网址特征数据,建立多个所述网址特征数据对应的有向图;根据所述有向图中,判断是否存在异常网址特征数据,在为是时,获取每个所述异常网址特征数据对应的网页后门文件。

第二方面,本发明实施例提供了一种网页后门检测装置。所述装置包括:数据获取模块,用于获取每个网址访问日志中的特征数据。模型建立模块,用于根据每个所述特征数据中的网址特征数据,建立多个所述网址特征数据对应的有向图。判断处理模块,用于根据所述有向图中,判断是否存在异常网址特征数据,在为是时,获取每个所述异常网址特征数据对应的网页后门文件。

本发明实施例的有益效果是:

通过每个特征数据中的网址特征数据,来建立多个网址特征数据对应的有向图,以通过分析有向图则能够获得异常网址特征数据,进而根据每个异常网址特征数据来获取对应的网页后门文件。因此,通过建立并分析多个网址特征数据对应的有向图,准确快速的检测出网页后门文件,极大的节约了人力、物力,以及时间成本,使得网页后门文件检测的实际应用不再受到限制。

本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本发明的主旨。

图1示出了本发明实施例提供的一种网页后门检测系统的结构框图;

图2示出了本发明第一实施例提供的一种网页后门检测方法的流程图;

图3示出了本发明第一实施例提供的一种网页后门检测方法中步骤s300的方法子流程图;

图4示出了本发明第二实施例提供的一种网页后门检测装置的结构框图;

图5示出了本发明第二实施例提供了一种网页后门检测装置中判断处理模块的结构框图;

图6示出了本发明第二实施例提供了一种网页后门检测装置中判断单元的结构框图;

图7示出了本发明第二实施例提供了一种网页后门检测装置中判断处理单元的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

请参阅图1,图1是网页后门检测系统10的方框示意图。所述网页后门检测系统10包括:网页后门检测装置、存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105、显示单元106。

所述存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105、显示单元106,各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述弹幕数据展示装置包括至少一个可以软件或固件(firmware)的形式存储于所述存储器中或固化在所述网页后门检测系统10的操作系统中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块,例如所述漏洞数据检测装置包括的软件功能模块或计算机程序。

其中,存储器101可以是,但不限于,随机存取存储器(randomaccessmemory,ram),只读存储器(readonlymemory,rom),可编程只读存储器(programmableread-onlymemory,prom),可擦除只读存储器(erasableprogrammableread-onlymemory,eprom),电可擦除只读存储器(electricerasableprogrammableread-onlymemory,eeprom)等。其中,存储器101用于存储程序,所述处理器103在接收到执行指令后,执行所述程序,后续本发明实施例任一实施例揭示的过程定义的网页后门检测系统10所执行的方法可以应用于处理器103中,或者由处理器103实现。

处理器103可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器103可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述外设接口104将各种输入输出单元105耦合至处理器103以及存储器101。在一些实施例中,外设接口,处理器以及存储控制器可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。

输入输出单元105用于提供给用户输入数据实现用户与数据采集终端的交互。所述输入输出单元可以是,但不限于,鼠标和键盘等。

显示单元106在所述移动终端与用户之间提供一个交互界面,例如用户操作界面,或用于显示图像数据给用户参考。在本实施例中,所述显示单元可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器进行计算和处理。

第一实施例

请参阅图2,本发明第一实施例提供了一种网页后门检测方法,该网页后门检测方法应用于网页后门检测系统,所述网页后门检测方法包括:步骤s100、步骤s200和步骤s300。

步骤s100:获取每个网址访问日志中的特征数据。

网页后门检测系统首先去获取目标网站在预设时间段内访问成功的多个网址访问日志。该目标网站可以为市面上的常用网站,例如,新浪、腾讯、网易等。网页后门检测系统中设置的预设时间段可根据实际需求进行调制,例如,预设时间段可以为以每一天为单位,也可以为以每一个小时为单位。

在获取过程中,针对预设时间段内的每一个网址访问日志,网页后门检测系统首先判断网址访问日志内是否存在访问成功的标识,该标识的数据类型可以为:2**或3**。当一网址访问日志内存在该访问成功的标识,网页后门检测系统判定该网址访问日志为访问成功。进而网页后门检测系统可在预设时间内获取到多个访问成功的多个网址访问日志。之后,网页后门检测系统解析该多个网址访问日志,并对根据预先设定的归一化处理算法对多个网址访问日志执行归一化处理,进而获取执行归一化处理处理后的每个网址访问日志。通过归一化处理将数据压缩到0-1之间能够有效的减小后续过程中的运算量。

归一化处理之后,网页后门检测针对每个网址访问日志,按预先设定好的网址访问日志的数据格式来提取网址访问日志中的特征数据。提取出的特征数据包括:网址特征数据和访问特征数据。

其中,网址特征数据为该网址访问日志中的请求url,访问特征数据则包括了多个访问特征项,且多个访问特征项可以表示为:http_host(访问站点)、root_domain(访问域名)、url(请求url)、query(请求的路径)、referer(来源)、ip(访问源ip)、timestamp(访问时间)、http_response_code(页面响应状态码)、http_method(请求方式)、request_body(请求包体)、cookie(请求cookie)、user_agent(浏览器特征)等。可以理解到,上述访问特征数据中的每一项均为一访问特征项,例如,http_host(访问站点)则为对应的一访问特征项。

可以理解到,在对应的一预设时间段内,所获取的多个网址访问日志的数量可达几千万次,甚至上亿次。为进一步的降低运算量,在获取到预设时间段内每个网址访问日志中的特征数据后,网页后门检测系统对该预设时间段内多个网址访问日志做进一步的分割处理,即再将一预设时间段分割为多个子时间段,例如每个子时间段可以为1分钟、5分钟、10分钟等。进而网页后门检测系统获得每个子时间段内的多个特征数据。

此时,网页后门检测系统在以每个子时间段为单位,将每个子时间段内每个网址访问日志所对应的特征数据均进行存储,以便后续流程在执行过程中,以每个子时间段为单位,针对每个子时间段,对该子时间段内每个特征数据均进行分析和处理。

步骤s200:根据每个所述特征数据中的网址特征数据,建立多个所述网址特征数据对应的有向图。

在对一子时间段内的每个特征数据进行处理的过程中,网页后门检测系统首先获取每个特征数据中的网址特征数据。之后,网页后门检测系统根据预设的有向图建立规则,建立该子时间段内多个网址特征数据对应的path、referer有向图。该有向图能够表征每个网址特征数据与其他网址特征数据之间的链接关系。例如,一用户首先访问了新浪首页,该新浪首页的网址特征数据为a,之后该用户又基于新浪首页访问了新浪体育网页,新浪体育网页的网址特征数据为b,进一步该用户又基于新浪体育网页访问了新浪nba网页,新浪nba网页的网址特征数据为c。那么在有向图中,a、b、c之间便能够建立链接关系,即a→b→c。

步骤s300:根据所述有向图中,判断是否存在异常网址特征数据,在为是时,获取每个所述异常网址特征数据对应的网页后门文件。

建立在一子时间段内的有向图之后,网页后门检测系统也基于预设的有向图分析规则对该有向图进行分析。具体的,网页后门检测系统首先分析出有向图中疑似异常网址特征数据,该疑似异常网址特征数据即为网站中的孤立页和自回页面。例如,a→b→c建立链接,则判定a、b、c所对应的三个网址特征数据均不是疑似异常网址特征数据。但若存在d,且d在有向图中没有任何链接,则判定d所对应的网址特征数据均是疑似异常网址特征数据。

此时,网页后门检测再获取每个疑似异常网址特征数据对应的特征数据,并获取对应的每个特征数据中的访问特征数据。针对每个疑似异常网址特征数据所对应的访问特征数据,网页后门检测系统再对该访问特征数据进行解析,从而通过解析访问特征数据来确定出该疑似异常网址特征数据是否就是确定的异常网址特征数据。若一子时间段内未存在确定出的异常网址特征数据,则说明子时间段内无网页后门文件。若一子时间段内存在确定出的异常网址特征数据,则说明子时间段内存在网页后门文件。进一步的,网页后门检测根据预设的网页后门文件检测程序,通过分析每个异常网址特征数据对应的特征数据,则能够检测到每个特征数据所对应的网页后门文件。

请参阅图3,本发明第一实施例提供了一种网页后门检测方法中,步骤s300的方法子流程还包括:步骤s310和步骤s320。

步骤s310:判断所述有向图中是否存在疑似异常网址特征数据,在为是时,获取每个所述疑似异常网址特征数据所对应的访问特征数据。

网页后门检测系统获取到有向图时,网页后门检测系统分析对有向图中每个网址特征数据所对应的点进行分析,获得每个网址特征数据在有向图与其他网址特征数据建立链接的链路数量。例如,有向图中存在a→b→c建立链接,则网址特征数据b的链路数量为2个。

本实施例中,网页后门检测系统中预先设定有第一阈值,第一阈值的值可以为例如2,且该第一阈值的值可根据实际使用需求进行调整。获取到每个网址特征数据的链路数量,网页后门检测系统针对每个网址特征数据的链路数量进行分析。网页后门检测系统判断网址特征数据的链路数量是否小于第一阈值。在为否时,说明该网址特征数据为正常,并不对该网址特征数据为正常再做进一步的分析。在为是时,说明该网址特征数据为不正常,进而判定该网址特征数据为疑似异常网址特征数据。

当一子时间段的多个网址访问日志中存在网页后门,则后续的检查势必会检测到对应的至少一个疑似异常网址特征数据。为便于后续的处理,网页后门检测系统获取到疑似异常网址特征数据后,则获取该疑似异常网址特征数据所在的特征数据中对应的访问特征数据。

步骤s320:针对每个所述疑似异常网址特征数据所对应的所述访问特征数据,判断所述访问特征数据是否满足预设标准,在为否时,判定所述访问特征数据对应的所述疑似异常网址特征数据为所述异常网址特征数据,以根据对应的所述特征数据获取对应的所述网页后门文件。

获取到每个疑似异常网址特征数据所对应的访问特征数据后,针对每个对应的访问特征数据,网页后门检测系统需要对每个访问特征数据做进步的判定,并以此来确定访问每个特征数据所对应的疑似异常网址特征数据是否真的为异常网址特征数据。

具体的,网页后门检测系统中预先设定有第二阈值,第二阈值的值可以为例如5,且该第二阈值的值也可根据实际使用需求进行调整。由于访问访问特征数据包含了多个访问特征项,且网页后门检测系统中还预先存储了每个访问特征项应当对应的预设访问特征项,进而网页后门检测系统将疑似异常网址特征数据对应的访问特征数据中的每一个访问特征项均与对应的预设访问特征项匹配。例如,一访问特征项为user_agent(浏览器特征),而该访问特征项对应的预设访问特征项为市面上常见浏览器的特征,例如,qq浏览器、ie浏览器、360浏览器等。在该访问特征项与对应的预设访问特征项匹配过程中,若该访问特征项user_agent(浏览器特征)属于市面上常见浏览器的特征,则该访问特征项必然与预设访问特征项匹配,反之,则不匹配。

进一步的,网页后门检测系统通过匹配获取到每个访问特征数据中的访问特征项均与对应的预设访问特征项不匹配的总数量。也是针对每个总数量,网页后门检测系统判断总数量是否大于第二阈值。在为否时,则判定满足预设标准,则说明该总数量对应的访问特征数据为正常,进而该访问特征数据对应的疑似异常网址特征数据为正常的网址特征数据。可以理解到,满足预设标准即为总数量是不大于第二阈值。在为是时,判定不满足预设标准,则说明该总数量对应的访问特征数据也为异常,进而该访问特征数据对应的疑似异常网址特征数据即被确定为异常网址特征数据。

因此,当一子时间段的多个网址访问日志中存在至少一个网页后门,通过上述的总数量匹配,则势必会从多个疑似异常网址特征数据中确定出至少一个异常网址特征数据。进一步的,网页后门检测根据预设的网页后门文件检测程序,通过分析每个异常网址特征数据对应的特征数据,则能够检测到每个特征数据所对应的网页后门文件。

第二实施例

请参阅图4,本发明第二实施例提供了一种网页后门检测装置100,该网页后门检测装置100应用于网页后门检测系统,网页后门检测装置100包括:

数据获取模块110,用于获取每个网址访问日志中的特征数据.

模型建立模块120,用于根据每个所述特征数据中的网址特征数据,建立多个所述网址特征数据对应的有向图.

判断处理模块130,用于根据所述有向图中,判断是否存在异常网址特征数据,在为是时,获取每个所述异常网址特征数据对应的网页后门文件。

请参阅图5,在本发明第二实施例的判断处理模块130中,判断处理模块130包括:

判断单元131,用于判断所述有向图中是否存在疑似异常网址特征数据,在为是时,获取每个所述疑似异常网址特征数据所对应的访问特征数据。

判断处理单元132,用于针对每个所述疑似异常网址特征数据所对应的所述访问特征数据,判断所述访问特征数据是否满足预设标准,在为否时,判定所述访问特征数据对应的所述疑似异常网址特征数据为所述异常网址特征数据,以根据对应的所述特征数据获取对应的所述网页后门文件。

请参阅图6,在本发明第二实施例的判断判断单元131中,判断单元131包括:

第一获取子单元1311,用于获取所述有向图中的每个所述网址特征数据的链路数量。

判断子单元1312,用于针对每个所述网址特征数据的链路数量,判断所述链路数量是否小于第一阈值,在为是时,判定该所述网址特征数据为所述疑似异常网址特征数据。

第二获取子单元1313,用于获取每个所述疑似异常网址特征数据所对应的访问特征数据。

请参阅图7,在本发明第二实施例的判断处理单元132中,判断处理单元132包括:

特征匹配子单元1321,用于将所述访问特征数据中的每个所述访问特征项均与对应的预设访问特征项匹配。

判断处理子单元1322,用于获取不匹配的所述访问特征项的总数量,判断所述总数量是否大于第二阈值,在为是时,判定不满足所述预设标准,并判定所述访问特征数据对应的所述疑似异常网址特征数据为所述异常网址特征数据,以根据对应的所述特征数据获取对应的所述网页后门文件。

需要说明的是,由于所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本发明实施例所提供的进行处理器可执行的非易失的程序代码的计算机可读存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述,本发明实施例提供了一种网页后门检测方法及装置。方法包括:获取每个网址访问日志中的特征数据;根据每个特征数据中的网址特征数据,建立多个网址特征数据对应的有向图;根据有向图中,判断是否存在异常网址特征数据,在为是时,获取每个异常网址特征数据对应的网页后门文件。

通过每个特征数据中的网址特征数据,来建立多个网址特征数据对应的有向图,以通过分析有向图则能够获得异常网址特征数据,进而根据每个异常网址特征数据来获取对应的网页后门文件。因此,通过建立并分析多个网址特征数据对应的有向图,准确快速的检测出网页后门文件,极大的节约了人力、物力,以及时间成本,使得网页后门文件检测的实际应用不再受到限制。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1