数据处理方法及装置与流程

文档序号:19791888发布日期:2020-01-24 14:24阅读:165来源:国知局
数据处理方法及装置与流程

本发明涉及计算机技术领域,具体而言,涉及一种数据处理方法及装置。



背景技术:

随着计算机的广泛应用和网络的不断普及,来自网络内部和外部的危险和犯罪也日益增多。目前流行的攻击程序和有害代码如拒绝服务攻击,分布式拒绝服务攻击,暴力猜解,端口扫描,嗅探,病毒,蠕虫,垃圾邮件,木马等等。此外还存在利用软件的漏洞和缺陷进行的攻击。入侵防御系统深入网络数据内部,查找它所认识的攻击代码特征,过滤有害数据流,丢弃有害数据包,并进行记载,以便事后分析。

入侵防御系统基于特征匹配进行识别,特征数据的提供者通过人工分析攻击流量并提取特征数据,误报现象不可避免。误报率是衡量特征库质量的重要标准,表征着特征数据的准确率。出现误报有可能会影响网络正常业务,同时会产生大量的攻击事件,管理员需要在海量日志数据中寻找真正有价值的攻击内容。

因此,改进特征数据,降低误报率是入侵防御系统应用的核心,而这项工作的基础是对特征数据的质量进行管理。

针对上述的问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明实施例提供了一种数据处理方法及装置,以至少解决现有技术中通过人工校验特征数据的效率过低,导致误报率较高且特征库的质量较低的技术问题。

根据本发明实施例的一个方面,提供了一种数据处理方法,包括:获取预先部署的入侵防御系统中的特征匹配日志,其中,上述特征匹配日志基于对应的特征数据生成;确定与上述特征匹配日志对应的上述特征数据的评分;依据上述评分与预设阈值的比对结果,确定是否删除目标特征库中的上述特征数据。

根据本发明实施例的另一方面,还提供了一种数据处理装置,包括:获取模块,用于获取预先部署的入侵防御系统中的特征匹配日志,其中,上述特征匹配日志基于对应的特征数据生成;第一确定模块,用于确定与上述特征匹配日志对应的上述特征数据的评分;第二确定模块,用于依据上述评分与预设阈值的比对结果,确定是否删除目标特征库中的上述特征数据。

根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行任意一项所述的数据处理方法。

根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任意一项所述的数据处理方法。

在本发明实施例中,采用对特征数据的质量进行评分,并依据评分对特征数据进行管理的方式,通过获取预先部署的入侵防御系统中的特征匹配日志,其中,上述特征匹配日志基于对应的特征数据生成;确定与上述特征匹配日志对应的上述特征数据的评分;依据上述评分与预设阈值的比对结果,确定是否删除目标特征库中的上述特征数据,达到了降低分析攻击流量的误报率,并提高目标特征库的质量的目的,从而实现了保证网络的正常业务运行的技术效果,进而解决了现有技术中通过人工校验特征数据的效率过低,导致误报率较高且特征库的质量较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的一种数据处理方法的流程图;

图2是根据本发明实施例的一种可选的数据处理方法的流程图;

图3是根据本发明实施例的一种可选的数据处理方法的流程图;

图4是根据本发明实施例的一种数据处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先,为方便理解本发明实施例,下面将对本发明中所涉及的部分术语或名词进行解释说明:

入侵防御系统:是一部能够监视网络或网络设备的网络资料传输行为的计算机网络安全设备,能够即时的中断、调整或隔离一些不正常或是具有伤害性的网络资料传输行为。

特征数据:也称为规则数据,指一组条件,如果满足这组条件的话,就表明是某种类型的入侵活动。

误报:是指将无害的网络资料传输行为识别为有害的网络资料传输行为。

ip/url信誉:是指针对ip地址或url地址的可信度评价。

实施例1

根据本发明实施例,提供了一种数据处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种数据处理方法的流程图,如图1所示,该方法包括如下步骤:

步骤s102,获取预先部署的入侵防御系统中的特征匹配日志,其中,上述特征匹配日志基于对应的特征数据生成;

步骤s104,确定与上述特征匹配日志对应的上述特征数据的评分;

步骤s106,依据上述评分与预设阈值的比对结果,确定是否删除目标特征库中的上述特征数据。

在本发明实施例中,采用对特征数据的质量进行评分,并依据评分对特征数据进行管理的方式,通过获取预先部署的入侵防御系统中的特征匹配日志,其中,上述特征匹配日志基于对应的特征数据生成;确定与上述特征匹配日志对应的上述特征数据的评分;依据上述评分与预设阈值的比对结果,确定是否删除目标特征库中的上述特征数据,达到了降低分析攻击流量的误报率,并提高目标特征库的质量的目的,从而实现了保证网络的正常业务运行的技术效果,进而解决了现有技术中通过人工校验特征数据的效率过低,导致误报率较高且特征库的质量较低的技术问题。

需要说明的是,本申请实施例基于针对典型网络流量的特征匹配日志进行分析,确定与特征匹配日志对应的特征数据,并通过确定该特征数据的评分确定该特征数据的质量,进而确定是否删除目标特征库中的上述特征数据。

作为一种可选的实施例,本申请实施例利用网络攻击发作的统计规律,也即针对固定的网络攻击,其发作次数往往在一个固定的取值范围内,一部分低质量的特征数据由于缺乏足够的限制条件,造成针对正常网络流量的大量报警,其异常的日志量可以被作为误报的一个特征数据被识别出。

可选的,在确定该特征数据的评分的过程中,由于特征匹配日志中还可能包含ip地址和url地址,还可以结合已有的ip/url信誉记录,在统计规律的基础上进一步对特征数据进行打分评价。

需要说明的是,上述特征匹配日志中包含ip地址和url地址的情况下,该特征匹配日志所对应的特征数据的评分的准确性相应更高。

可选的,上述预设阈值的取值可以为20,但不限于此,在实际应用过程中,还可以为其他取值。

可选的,上述目标特征库可以为入侵防御系统特征库,包括一个或多个特征数据;在上述可选的实施例中,若上述评分低于上述预设阈值,则认为该特征数据的质量和价值较低,例如,该条特征数据的限定条件非常宽泛,很容易引起误报,因此确定删除目标特征库中的上述特征数据,有效减少了后续误报率;若上述评分高于上述预设阈值,则认为该特征数据的质量和价值较高,则确定无需删除目标特征库中的上述特征数据。

在一种可选的实施例中,图2是根据本发明实施例的一种数据处理方法的流程图,如图2所示,在获取预先部署的入侵防御系统中的特征匹配日志之前,上述方法还包括:

步骤s202,选取预设数量的目标网络环境;

步骤s204,分别在每个上述目标网络环境中部署上述入侵防御系统,其中,所述入侵防御系统用于获取所述特征数据以生成所述特征匹配日志。

可选的,上述入侵防御系统即一种用于获取特征数据的外置探针(可以理解为一个用于捕获和/或分析网络数据包的组件)。

在本申请的一种可选的实施例中,上述目标网络环境可以但不限于为以下任意之一的典型网络环境:存在拒绝服务攻击、分布式拒绝服务攻击、暴力猜解、端口扫描、嗅探、病毒、蠕虫、垃圾邮件、木马等等攻击程序或有害代码的网络环境。

在上述可选的实施例中,不同于现有技术中通过人工检验特征数据的质量,检验效率较低且准确性不高的方式,在获取上述特征匹配日志之前,可以通过选取预设数量的目标网络环境,分别在每个上述目标网络环境中部署上述入侵防御系统,也即,预先部署多个入侵防御系统。

可选的,可以在每个上述目标网络环境中旁路部署上述入侵防御系统,进而可以实现借助实际网络流量生成的特征匹配日志,对特征数据的质量进行评价。

在一种可选的实施例中,获取预先部署的入侵防御系统中的特征匹配日志,包括:

步骤s302,确定预先设定的获取周期;

步骤s304,依据上述获取周期,分别获取预先部署的多个上述入侵防御系统中的上述特征匹配日志。

可选的,上述获取周期用于指示定期获取上述特征匹配日志,通过确定预设的获取周期,进而可以依据上述获取周期,分别获取预先部署的多个上述入侵防御系统中的上述特征匹配日志,得到多个特征匹配日志。

在一种可选的实施例中,图3是根据本发明实施例的一种可选的数据处理方法的流程图,如图3所示,确定与上述特征匹配日志对应的上述特征数据的评分,包括:

步骤s402,获取上述特征数据在每个上述入侵防御系统中的触发次数,其中,上述触发次数用于表征上述特征数据识别到的网络攻击的发生频率;

步骤s404,依据上述特征匹配日志中的网络地址信息,获取上述特征数据的网络地址可信度数据;

步骤s406,获取上述特征数据的来源属性数据;

步骤s408,依据上述触发次数、上述网络地址可信度数据和上述来源属性数据确定上述评分。

可选的,在本申请实施例中,针对特征匹配日志中对应的每一条特征数据,均可以依据预先确定的计算公式计算与该特征数据的评分。

具体的,每一条特征数据的评分与该特征数据在每个上述入侵防御系统中的触发次数、该特征数据的网络地址可信度数据、该特征数据的来源属性数据,均存在相关关系,进而可以通过获取该特征数据的触发次数、网络地址可信度数据和来源属性数据,进而确定该特征数据的评分。

可选的,上述触发次数即用于表征上述特征数据识别到的网络攻击的发生频率,可以依据上述特征数据识别到的网络攻击的发生频率进行确定。

可选的,上述网络地址信息包括以下至少之一:ip地址和url地址。在本申请实施例中,依据上述特征匹配日志中的网络地址信息,可以但不限于通过信誉查询的方式,获取上述特征数据的网络地址可信度数据。

可选的,上述特征数据的来源属性数据可以为第三方提供、非第三方提供(例如,内部自主研发的特征数据);针对第三方提供的来源属性数据又分可以为:经人工审核的特征数据、未经人工审核的特征数据。

在一种可选的实施例中,依据上述触发次数、上述网络地址可信度数据和上述来源属性数据确定上述评分,包括:

步骤s502,依据上述触发次数确定上述特征数据的第一分值;

步骤s504,依据上述网络地址可信度数据确定上述特征数据的第二分值;

步骤s506,依据上述来源属性数据确定上述特征数据的第三分值;

步骤s508,依据上述第一分值、上述第二分值和上述第三分值确定上述评分。

在上述可选的实施例中,可以通过选取三个典型的入侵防御系统,部署入侵防御系统作为探针,每周从上述三个入侵防御系统上收集特征匹配日志,并使用以下计算公式对特征匹配日志涉及的每条特征数据进行打分,在结果中发现一条得分为5分的低分特征数据,导致该特征数据得分低的原因如下:

例如,该特征数据平均在单个入侵防御系统上当周的触发次数(触发量/探针)为125743次,根据如下表1所示的第一分值hitcount项的评分表格,第一分值hitcount项对应的得分为0。

表1

在本申请实施例中,依据上述特征匹配日志中的网络地址信息,可以但不限于通过信誉查询的方式,获取上述特征数据的网络地址可信度数据。

在上述可选的实施例中,通过对该特征数据对应特征匹配日志的外部ip地址进行信誉查询,仅发现102条不良网络地址记录(坏记录),根据第二分值的打分规则,第二分值ipurl_reputation项得分为0;其中,第二分值ipurl_reputation=(不良网络地址记录数/总记录数)*10。

可选的,上述第三分值依据上述来源属性数据确定,例如,若该特征数据由第三方提供,第三分值得分为5分;针对内部自主研发的特征数据,第三分值得分为10分。若该特征数据由第三方提供,未经过人工审核,第三分值得分为5分;若该特征数据由第三方提供,未经过人工审核,第三分值得分为10分。

在一种可选的实施例中,通过以下计算公式计算得到上述评分:

grade=hitcount+ipurl_reputation+origin;

其中,grade为上述评分,hitcount为上述第一分值,ipurl_reputation为上述第二分值,origin为上述第三分值。

在一种可选的实施例中,依据上述评分与预设阈值的比对结果,确定是否删除目标特征库中的上述特征数据,包括:

步骤s602,若上述比对结果指示上述评分小于或等于上述预设阈值,则确定删除上述目标特征库中的上述特征数据;

步骤s604,若上述比对结果指示上述评分大于上述预设阈值,则确定无需删除上述目标特征库中的上述特征数据。

在上述可选的实施例中,若上述评分低于(小于或等于)上述预设阈值,则认为该特征数据的质量和价值较低,例如,该条特征数据的限定条件非常宽泛,很容易引起误报,因此确定删除目标特征库中的上述特征数据,有效减少了后续误报率;若上述评分高于(大于)上述预设阈值,则认为该特征数据的质量和价值较高,则确定无需删除目标特征库中的上述特征数据。

在一种可选的实施例中,在确定是否删除目标特征库中的上述特征数据之后,上述方法还包括:

步骤s702,获取更新后的上述目标特征库;

步骤s704,将上述更新后的目标特征库推送至预先部署的多个上述入侵防御系统,并返回执行上述获取预先部署的入侵防御系统中的特征匹配日志的步骤。

可选的,在本申请实施例中,通过预先设置的预设阈值和特征数据的评分进行比较,依据比较结果对特征数据进行过滤,进而生成更新后的目标特征库(入侵防御系统特征库),并将更新后的目标特征库推送至预先部署的多个上述入侵防御系统,且返回执行上述获取预先部署的入侵防御系统中的特征匹配日志的步骤,持续对特征匹配日志对应的特征数据进行评价,并持续改进目标特征库。

通过本申请上述实施例,可以实现高效及时地发现入侵防御系统规则库中的低质量的特征数据的技术效果,可以达到有效降低分析攻击流量的误报率,并提高目标特征库的质量的目的,使入侵防御系统的网络得以顺畅运行。

实施例2

根据本发明实施例,还提供了一种用于实施上述数据处理方法的装置实施例,图4是根据本发明实施例的一种数据处理装置的结构示意图,如图4所示,上述数据处理装置,包括:获取模块40、第一确定模块42和第二确定模块44,其中:

获取模块40,用于获取预先部署的入侵防御系统中的特征匹配日志,其中,上述特征匹配日志基于对应的特征数据生成;第一确定模块42,用于确定与上述特征匹配日志对应的上述特征数据的评分;第二确定模块44,用于依据上述评分与预设阈值的比对结果,确定是否删除目标特征库中的上述特征数据。

需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;或者,上述各个模块以任意组合的方式位于不同的处理器中。

此处需要说明的是,上述获取模块40、第一确定模块42和第二确定模块44对应于实施例1中的步骤s102至步骤s106,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在计算机终端中。

需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。

上述的数据处理装置还可以包括处理器和存储器,上述获取模块40、第一确定模块42和第二确定模块44等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元,上述内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

根据本申请实施例,还提供了一种存储介质实施例。可选地,在本实施例中,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行上述任意一种数据处理方法。

可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中,上述存储介质包括存储的程序。

可选地,在程序运行时控制存储介质所在设备执行以下功能:获取预先部署的入侵防御系统中的特征匹配日志,其中,上述特征匹配日志基于对应的特征数据生成;确定与上述特征匹配日志对应的上述特征数据的评分;依据上述评分与预设阈值的比对结果,确定是否删除目标特征库中的上述特征数据。

根据本申请实施例,还提供了一种处理器实施例。可选地,在本实施例中,上述处理器用于运行程序,其中,上述程序运行时执行上述任意一种数据处理方法。

本申请实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取预先部署的入侵防御系统中的特征匹配日志,其中,上述特征匹配日志基于对应的特征数据生成;确定与上述特征匹配日志对应的上述特征数据的评分;依据上述评分与预设阈值的比对结果,确定是否删除目标特征库中的上述特征数据。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取预先部署的入侵防御系统中的特征匹配日志,其中,上述特征匹配日志基于对应的特征数据生成;确定与上述特征匹配日志对应的上述特征数据的评分;依据上述评分与预设阈值的比对结果,确定是否删除目标特征库中的上述特征数据。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1