基于机器学习提高风险感知能力的方法及装置、计算机设备和存储介质与流程

文档序号:17248431发布日期:2019-03-30 08:56阅读:389来源:国知局
基于机器学习提高风险感知能力的方法及装置、计算机设备和存储介质与流程

本发明公开的实施例涉及计算机网络信息安全领域,具体而言,涉及一种基于机器学习提高风险感知能力的方法及装置、计算机设备和存储介质。



背景技术:

在现代社会中,计算设备正在从仅是便利品变为必需品。在全球规模上,通信正在变得电子占主导,并且这些通信经常包括敏感或机密信息的传输。

现有的防护技术是通过端口流量镜像解析http协议的请求数据并提取数据头,利用正则规则来匹配恶意数据直接按照攻击的类型来进行感知和警报。该防护技术具有很大的缺陷,例如:1)、难以确保正则表达式覆盖的攻击面是否完整;2)、维护规则费心费力;3)、难以确保漏报和误报;4)、性能会随着正则表达式的增多越来越差;5)、存在自动化算法或编码等绕过;6)、可读性差,修改繁琐;7)、加载量大,影响处理速度。

现有的防护技术对云端的应用与客户端进行数据交互时没有做到很好的风险感知能力,从而使一些攻击对云端应用或者客户端造成比较大的危害和损失,因此,如何提高风险感知能力,降低危害和损失,是本领域技术人员需要解决的技术问题。



技术实现要素:

本发明公开的第一个方面的实施例的目的在于,提供一种基于机器学习提高风险感知能力的方法。

本发明公开的第二个方面的实施例的目的在于,提供一种基于机器学习提高风险感知能力的装置。

本发明公开的第三个方面的实施例的目的在于,提供一种计算机设备。

本发明公开的第四个方面的实施例的目的在于,提供一种计算机可读存储介质。

本发明公开的实施例提供了一种基于机器学习提高风险感知能力的方法,包括:对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,得到被标记上恶意特征的数据;将被标记上恶意特征的数据写入机器学习的恶意样本数据集;至少利用所述恶意样本数据集,通过机器学习算法生成恶意流量模板;判定检测数据与所述恶意流量模板的匹配性;根据匹配结果确定所述检测数据是否为恶意数据。

另外,本发明公开的实施例提供的方法还具有如下附加技术特征:

上述实施例中,优选地,所述的方法还包括:将所述恶意流量模板更新到线上。

上述任一实施例中,优选地,所述对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,具体包括:对数据进行黑白名单机制处理和正则规则处理;对黑白名单机制处理和正则规则处理中未识别的数据进行人工识别处理。

上述任一实施例中,优选地,所述通过机器学习算法生成恶意流量模板,具体包括:对检测的数据进行特征提取;利用机器学习算法进行特征标记,以生成所述恶意流量模板。

上述任一实施例中,优选地,所述利用机器学习算法进行特征标记,以生成所述恶意流量模板,具体包括:根据攻击的类型,对不同的检测数据进行不同的所述机器学习算法,以生成不同的所述恶意流量模板。

上述任一实施例中,优选地,所述至少利用所述恶意样本数据集,具体包括:利用adfa-ld数据集和kdd99数据集中的至少一种及所述恶意样本数据集。

上述任一实施例中,优选地,所述对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一个处理环节之前,还包括:在网关出口进行端口流量镜像以得到镜像流量;利用正则规则对镜像流量进行格式化解析,拆分数据头和数据内容并写入数据中心。

本发明第二个方面的技术方案提供一种基于机器学习提高风险感知能力的装置,包括:处理单元,用于:对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,得到被标记上恶意特征的数据;写入单元,用于将被标记上恶意特征的数据写入机器学习的恶意样本数据集;生成单元,用于至少利用所述恶意样本数据集,通过机器学习算法生成恶意流量模板;判定单元,用于判定检测数据与所述恶意流量模板的匹配性;确定单元,用于根据匹配结果确定所述检测数据是否为恶意数据。

上述实施例中,优选地,所述装置还包括:更新单元,用于将所述恶意流量模板更新到线上。

上述任一实施例中,优选地,所述处理单元具体用于:对数据进行黑白名单机制处理和正则规则处理;对黑白名单机制处理和正则规则处理中未识别的数据进行人工识别处理。

上述任一实施例中,优选地,所述生成单元具体用于:对检测的数据进行特征提取;利用机器学习算法进行特征标记,以生成所述恶意流量模板。

上述任一实施例中,优选地,所述生成单元还用于:根据攻击的类型,对不同的检测数据进行不同的所述机器学习算法,以生成不同的所述恶意流量模板。

上述任一实施例中,优选地,所述的装置还包括:镜像单元,用于在网关出口进行端口流量镜像以得到镜像流量;解析单元,用于:利用正则规则对镜像流量进行格式化解析,拆分数据头和数据内容并写入数据中心。

本发明第三个方面的技术方案提供一种计算机设备,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现上述任一技术方案所述的基于机器学习提高风险感知能力的方法的步骤。

本发明第四个方面的技术方案提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一技术方案所述的基于机器学习提高风险感知能力的方法的步骤。

本发明公开的实施例的附加方面和优点将在下面的描述部分中变得明显,或通过本发明公开的实施例的实践了解到。

附图说明

本发明公开的实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1是本发明的一个实施例所述的方法的流程示意图;

图2是本发明的一个实施例所述的方法的流程示意图;

图3是本发明的一个实施例所述的装置的示意框图;

图4是本发明的一个实施例所述的装置的示意框图。

其中,图3和图4中附图标记与部件名称之间的对应关系为:

200装置,202处理单元,204写入单元,206生成单元,208判定单元,210确定单元,212更新单元,214镜像单元,216解析单元。

具体实施方式

为了能够更清楚地理解本发明公开的实施例的上述目的、特征和优点,下面结合附图和具体实施方式对本发明公开的实施例进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明公开的实施例,但是,本发明公开的实施例还可以采用其他不同于在此描述的方式来实施,因此,本发明公开的实施例的保护范围并不受下面公开的具体实施例的限制。

下面参照附图1至4描述根据本发明一些实施例的基于机器学习提高风险感知能力的方法、装置、计算机设备和计算机可读存储介质。

如图1和图2所示,根据本发明一些实施例提供的一种基于机器学习提高风险感知能力的方法,包括:

步骤s10,对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,得到被标记上恶意特征的数据;

步骤s20,将被标记上恶意特征的数据写入机器学习的恶意样本数据集;

步骤s30,至少利用恶意样本数据集,通过机器学习算法生成恶意流量模板;

步骤s40,判定检测数据与恶意流量模板的匹配性;

步骤s50,根据匹配结果确定所述检测数据是否为恶意数据。

本发明上述实施例提供的方法,对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,在处理完成后标记为恶意特征的数据直接写入机器学习的恶意样本数据集(包含人工录入样本,匹配的样本,黑白名单过滤后的样本,公开的样本),使用海量的样本数据这样的优点在于识别出的恶意流量范围扩大;至少利用恶意样本数据集,生成恶意流量模板,至少利用恶意样本数据集指的是除可以利用恶意样本数据集外,还可以利用技术人员整理完成的数据集(如:adfa-ld数据集,kdd99数据集等)。将检测数据与恶意样本流量模板进行对比,判定检测数据与恶意流量模板的匹配性,并根据匹配性判定结果确定是否将检测数据标记上恶意特征,即判定该检测数据是否为恶意数据,恶意数据主要指带有特殊参数、代码或符号的攻击性数据。具体的,利用机器学习算法和生成的恶意流量模板对检测数据进行对比,优选地,该处为,在机器学习当中利用机器学习算法提取出的特征进行对比,提取特征的时候精确度更加好,对比的时候缩小误差和误报率,所有的操作都在机器学习当中,设置预设阈值,当大于预设阈值时对检测数据标记上恶意特征,成为恶意数据。

机器学习是一门人工智能的科学,通过经验自动改进的计算机算法研究,用数据或以往的经验,以此优化计算机程序的性能标准。通过对数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,不断优化风险感知的机器学习算法,持续提高风险感知能力,使得传统的攻击或者新型的攻击能快速的提前感知,提前建立对应的防御方案或防护措施,使得攻击者的攻击无法产生影响或把影响的损失降到最小。

其中,黑名单由已知的风险数据组成,白名单则由已知的安全数据组成,对数据进行黑白名单机制处理时,把识别的数据和云端的黑白名单进行对比,与黑名单匹配的标记上恶意特征。正则规则中正则表达式:又称规则表达式,计算机科学的一个概念,正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本,对数据进行正则规则处理时,用专业技术人员写好的恶意数据正则表达式来匹配数据,匹配上恶意规则的标记上恶意特征。人工识别是指对于不明确的数据,专业技术人工进行后台确认,确认是否标记为恶意流量。

优选地,基于机器学习提高风险感知能力的方法还包括:将恶意流量模板更新到线上,即更新到云端应用服务器上,从而将恶意流量模板和对数据的处理过程直接部署或更新到线上进行数据识别,进而循环的使用至少利用恶意样本数据集,通过机器学习算法生成的恶意流量模板,可以不断的更新线上恶意流量模板,这样的优点在于每一天都在增强系统的恶意流量识别度、识别范围和准确度,能够快速识别出最新的攻击模式,后期的运营中也可以对机器学习中的算法进行优化和改进以扩大整个系统的准确率和精度,减少漏报率。

优选地,对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,具体包括:对数据进行黑白名单机制处理和正则规则处理,可以对数据进行黑白名单机制处理和正则规则处理中的一种处理,或者对数据进行黑白名单机制处理和正则规则处理,将处理完成后被标记为恶意特征的数据直接写入及学习的恶意样本数据集;对黑白名单机制处理和正则规则处理中未识别的数据进行人工识别处理,对于经过人工识别处理的数据,进行特征提取写入样本集,进行机器学习训练,并按照算法进行分类,得到不同分类的训练模型。

优选地,通过机器学习算法生成恶意流量模板,具体包括:对检测的数据进行特征提取;利用机器学习算法进行特征标记,以生成恶意流量模板。

利用已知的样本(恶意流量样本集)和技术人员整理完成的数据集(如:adfa-ld数据集,kdd99数据集等)对检测数据进行特征提取,然后利用算法(如:tf-idf算法等)进行特征标记,生成恶意流量模板。

优选地,利用机器学习算法进行特征标记,以生成恶意流量模板,具体包括:根据攻击的类型,对不同的检测数据进行不同的机器学习算法,以生成不同的恶意流量模板。

对不同的样本数据进行不同机器学习算法的处理,生成不同的恶意流量模板提高识别恶意流量的正确率和精确度(例如:跨站点伪造攻击,先利用分词算法对数据进行分词处理,tf-idf算法组成向量空间,然后利用朴素贝叶斯算法可对数据的属性进行处理以提高精确度和准确度,设定基础阈值相同属性越多就说明相同的恶意属性越多,这样精确度和准确率就越高)。

优选地,至少利用恶意样本数据集,具体包括:利用adfa-ld数据集和kdd99数据集中的至少一种及恶意样本数据集。

除利用恶意样本数据集外,还利用技术人员整理完成的数据集例如adfa-ld数据集和kdd99数据集中的至少一种,对检测数据进行特征提取,然后利用机器学习算法进行特征标记,以生成恶意流量模板。

利用adfa-ld数据集和kdd99数据集中的至少一种及恶意样本数据集,可以增大样本数据的量,从而识别出的恶意流量范围扩大,提高识别的准确率和精度。

优选地,对数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一个处理环节之前,还包括:在网关出口进行端口流量镜像以得到镜像流量;利用正则规则对镜像流量进行格式化解析,拆分数据头和数据内容并写入数据中心。

pc端或者web端等和云端应用服务器进行网络交互(http/https)时,需要在pc端或者web端等和云端应用服务器进行交互的网关出口做端口流量镜像,得到镜像流量,如果是https协议直接使用证书对流量数据包进行https解密。

利用正则规则按照预设的格式对数据进行格式化解析,拆分数据头和数据内容写入到大数据中心。

示例性的,本申请中的方法包括以下步骤:

a)pc端或者web端等和云端应用服务器进行网络交互(http/https)时,需要在pc端或者web端等和云端应用服务器进行交互的网关出口做端口流量镜像,如果是https协议直接使用证书对流量数据包进行https解密。

b)利用正则按照一定的格式对数据进行格式化解析,拆分数据头和数据内容写入到大数据中心。

c)提取大数据中心的数据先经过黑白名单机制处理,再经过正则规则和人工识别的处理,每个环节处理完成后被标记为恶意特征的数据直接写入机器学习的恶意样本数据集(包含人工录入样本,匹配的样本,黑白名单过滤后的样本,公开的样本),使用海量的样本数据这样的优点在于识别出的恶意流量范围扩大,然后对不同的样本数据进行不同算法的处理生成不同的恶意流量模板提高识别恶意流量的正确率和精确度(例如:跨站点伪造攻击,先利用分词算法对数据进行分词处理,tf-idf算法组成向量空间,然后利用朴素贝叶斯算法可对数据的属性进行处理以提高精确度和准确度,设定基础阈值相同属性越多就说明相同的恶意属性越多,这样精确度和准确率就越高)。

d)根据c步骤中生成的恶意流量模板和处理过程直接部署或更新到线上进行数据识别。

e)整个系统是一个闭环系统:就是循环的使用c步骤生成出来的恶意流量模板,可以不断的更新线上恶意流量模板,这样的优点在于每一天都在增强系统的恶意流量识别度,识别范围和准确度,能够快速识别出最新的攻击模式,后期的运营中也可以对机器学习中的算法进行优化和改进以扩大整个系统的准确率和精度,减少漏报率。

如图3所示,本发明第二个方面的实施例提供一种基于机器学习提高风险感知能力的装置200,包括:处理单元202、写入单元204、生成单元206、判定单元208和确定单元210。处理单元202用于:对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,得到被标记上恶意特征的数据;写入单元204用于将被标记上恶意特征的数据写入机器学习的恶意样本数据集;生成单元206用于至少利用恶意样本数据集,通过机器学习算法生成恶意流量模板;判定单元208用于判定检测数据与恶意流量模板的匹配性;确定单元210用于根据匹配结果确定检测数据是否为恶意数据。

本发明第二个方面的实施例提供一种基于机器学习提高风险感知能力的装置200,对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,在处理完成后标记为恶意特征的数据直接写入机器学习的恶意样本数据集(包含人工录入样本,匹配的样本,黑白名单过滤后的样本,公开的样本),使用海量的样本数据这样的优点在于识别出的恶意流量范围扩大;至少利用恶意样本数据集,生成恶意流量模板,至少利用恶意样本数据集指的是除可以利用恶意样本数据集外,还可以利用技术人员整理完成的数据集(如:adfa-ld数据集,kdd99数据集等)。将检测数据与恶意样本流量模板进行对比,判定检测数据与恶意流量模板的匹配性,并根据匹配性判定结果确定是否将检测数据标记上恶意特征,即判定该检测数据是否为恶意数据,恶意数据主要指带有特殊参数,代码或符号的攻击性数据。具体的,利用机器学习算法和生成的恶意流量模板对检测数据进行对比,优选地,该处为,在机器学习当中利用机器学习算法提取出的特征进行对比,提取特征的时候精确度更加好,对比的时候缩小误差,和误报率,所有的操作都在机器学习当中,设置预设阈值,当大于预设阈值时对检测数据标记上恶意特征,成为恶意数据。

机器学习是一门人工智能的科学;通过经验自动改进的计算机算法研究,用数据或以往的经验,以此优化计算机程序的性能标准。通过对数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,不断优化风险感知的机器学习算法,持续提高风险感知能力,使得传统的攻击或者新型的攻击能快速的提前感知,提前建立对应的防御方案或防护措施,使得攻击者的攻击无法产生影响或把影响的损失降到最小。

其中,黑名单由已知的风险数据组成,白名单则由已知的安全数据组成,对数据进行黑白名单机制处理时,把识别的数据和云端的黑白名单进行对比,与黑名单匹配的标记上恶意特征。正则规则中正则表达式:又称规则表达式,计算机科学的一个概念,正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本,对数据进行正则规则处理时,用专业技术人员写好的恶意数据正则表达式来匹配数据,匹配上恶意规则的标记上恶意特征。人工识别是指对于不明确的数据,专业技术人工进行后台确认,确认是否标记为恶意流量。

如图4所示,优选地,装置200包括:更新单元212,用于将恶意流量模板更新到线上,即更新到云端应用服务器上,从而将恶意流量模板和对数据的处理过程直接部署或更新到线上进行数据识别,进而循环的使用至少利用恶意样本数据集,通过机器学习算法生成的恶意流量模板,可以不断的更新线上恶意流量模板,这样的优点在于每一天都在增强系统的恶意流量识别度、识别范围和准确度,能够快速识别出最新的攻击模式,后期的运营中也可以对机器学习中的算法进行优化和改进以扩大整个系统的准确率和精度,减少漏报率。

优选地,处理单元202具体用于:对数据进行黑白名单机制处理和正则规则处理,可以对数据进行黑白名单机制处理和正则规则处理中的一种处理,或者对数据进行黑白名单机制处理和正则规则处理,将处理完成后被标记为恶意特征的数据直接写入及学习的恶意样本数据集;对黑白名单机制处理和正则规则处理中未识别的数据进行人工识别处理,对于经过人工识别处理的数据,进行特征提取写入样本集,进行机器学习训练,并按照算法进行分类,得到不同分类的训练模型。

优选地,生成单元206具体用于:对检测的数据进行特征提取;利用机器学习算法进行特征标记,以生成恶意流量模板。

利用已知的样本(恶意流量样本集)和技术人员整理完成的数据集(如:adfa-ld数据集,kdd99数据集等)对检测数据进行特征提取,然后利用算法(如:tf-idf算法等)进行特征标记,生成恶意流量模板。

优选地,生成单元206还用于:根据攻击的类型,对不同的检测数据进行不同的机器学习算法,以生成不同的恶意流量模板。

对不同的样本数据进行不同机器学习算法的处理,生成不同的恶意流量模板提高识别恶意流量的正确率和精确度(例如:跨站点伪造攻击,先利用分词算法对数据进行分词处理,tf-idf算法组成向量空间,然后利用朴素贝叶斯算法可对数据的属性进行处理以提高精确度和准确度,设定基础阈值相同属性越多就说明相同的恶意属性越多,这样精确度和准确率就越高)。

优选地,装置200包括:镜像单元214,用于在网关出口进行端口流量镜像以得到镜像流量;解析单元216,用于:利用正则规则对镜像流量进行格式化解析,拆分数据头和数据内容并写入数据中心。

pc端或者web端等和云端应用服务器进行网络交互(http/https)时,需要在pc端或者web端等和云端应用服务器进行交互的网关出口做端口流量镜像,得到镜像流量,如果是https协议直接使用证书对流量数据包进行https解密。

利用正则规则按照预设的格式对数据进行格式化解析,拆分数据头和数据内容写入到大数据中心。

本发明第三个方面的实施例提供一种计算机设备,包括处理器,处理器用于执行存储器中存储的计算机程序时实现上述任一实施例基于机器学习提高风险感知能力的方法的步骤。因此,该车计算机设备具有上述任一实施例的基于机器学习提高风险感知能力的方法的有益效果,在此不再赘述。

本发明第四个方面的实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例的基于机器学习提高风险感知能力的方法的步骤。因此,该计算机可读存储介质具有上述任一实施例的基于机器学习提高风险感知能力的方法的有益效果,在此不再赘述。

综上所述,本发明实施例提供的方法,对云端的应用和云端与客户端的数据交互防护有极好效果,且在防护中,利用机器学习结合正则规则和黑白名单机制不断优化风险感知算法,持续提高风险感知能力,使得传统的攻击和新型的攻击能快速的提前感知,提前建立对应的防御方案或防护措施,使得攻击者的攻击无法产生影响或把损失降到最低。

现有的技术属于云端安全监控,云端应用和客户端之间的数据处于安全监控之下。本发明可以实现对云端应用和客户端之间的通讯(http/https)风险感知,且可以不断的通过机器学习的能力来优化风险感知算法,让云端应用和客户端之间的风险能及时发现和处理。

在本发明公开的实施例的描述中,除非另有明确的规定和限定,术语“多个”是指两个或两个以上;除非另有规定或说明,术语“连接”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接,或电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明公开的实施例中的具体含义。

本说明书的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明公开的实施例和简化描述,而不是指示或暗示所指的装置200或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本发明公开的实施例的限制。

在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1