模型的验证方法及装置、电子设备和计算机可读存储介质与流程

文档序号:27103492发布日期:2021-10-27 17:59阅读:85来源:国知局
模型的验证方法及装置、电子设备和计算机可读存储介质与流程

1.本技术涉及数据能力领域,具体涉及一种模型的验证方法及装置、电子设备和计算机可读存储介质。


背景技术:

2.目前,广告异常流量识别主要依靠基于经验的规则来进行判别,规则判别体系的缺点是不能主动的及时地去识别一些新的作弊方式,也就是说,需要一定的时间进行各种信息收集和反馈,再进行总结从而增加新的规则。所以,利用机器学习模型来进行异常流量识别的方法开始被业界所关注。因此,提出了利用规则增强机器学习模型以进行异常流量识别,但是对于增强后机器学习模型的识别效果是否确实得到的改善,目前尚未存在有效的解决方案。


技术实现要素:

3.本技术实施例的目的在于提供一种模型的验证方法及装置、电子设备和计算机可读存储介质,以解决现有技术中无法验证增强后机器学习模型的识别效果是否确实得到的改善的问题。具体技术方案如下:
4.在本技术实施例的第一方面,提供了一种模型的验证方法,包括:获取由第一模型从第一数据中识别出的第一异常流量;其中,所述第一模型由第二模型基于第二异常流量调整得到;所述第二异常流量为第三异常流量中不包括第四异常流量的异常流量,所述第三异常流量由所述第二模型从所述第一数据中识别得到,所述第四异常流量由通过预设的第一规则从所述第一数据中识别得到;比较所述第一异常流量和所述第三异常流量,根据比较结果生成验证结果,其中,所述验证结果用于表征所述第一模型是否为所述第二模型增强后的模型。
5.在本技术实施例的第二方面,提供了一种模型的验证装置,包括:获取模块,用于获取由第一模型从第一数据中识别出的第一异常流量;其中,所述第一模型由第二模型基于第二异常流量调整得到;所述第二异常流量为第三异常流量中不包括第四异常流量的异常流量,所述第三异常流量由所述第二模型从所述第一数据中识别得到,所述第四异常流量由通过预设的第一规则从所述第一数据中识别得到;比较模块,用于比较所述第一异常流量和所述第三异常流量,根据比较结果生成验证结果,其中,所述验证结果用于表征所述第一模型是否为所述第二模型增强后的模型。
6.在本技术实施例的第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现第一方面所述的方法步骤
7.在本技术实施的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行第一方面所述的方法。
8.本技术可以应用于数据能力技术领域用于数据挖掘。通过本技术,将第二模型能够识别,且第一规则无法识别的第二异常流量对第二模型进行调整得到第一模型,然后将第一模型识别出的第一异常流量与第二模型识别出的第三异常流量进行比较,从而可以确定第一模型是否相对于第二模型得到增强,通过该验证过程能够方便快速的确定第一模型是否为增强后的模型,如果得到增强则可以通过第一模型提升异常流量的识别效果,从而解决了现有技术中无法验证增强后机器学习模型的识别效果是否确实得到的改善的问题。
附图说明
9.图1是本技术实施例中的模型的验证方法的流程图;
10.图2是本技术实施例中的检验规则增强后的异常流量识别模型的方法流程图;
11.图3是本技术实施例中的模型的验证装置的结构示意图;
12.图4是本技术实施例中的电子设备的结构示意图。
具体实施方式
13.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
14.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
15.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行描述。
16.如图1所示,在本技术实施例中提供了一种模型的验证方法,该方法的步骤包括:
17.步骤102,获取由第一模型从第一数据中识别出的第一异常流量;其中,第一模型由第二模型基于第二异常流量调整得到;第二异常流量为第三异常流量中不包括第四异常流量的异常流量,第三异常流量由第二模型从第一数据中识别得到,第四异常流量由通过预设的第一规则从第一数据中识别得到;
18.需要说明的是,本技术实施例中的第一模型和第二模型均为机器学习模型,可以是监督类型的机器学习模型,也可以是无监督类型的额机器学习模型。具体可以根据识别的数据是否存在数据标签而定,如有数据标签,可以用支持向量机等监督类型的模型,如果没有确定的标签,可以用孤立森林等无监督类型的模型。上述仅仅是举例说明,具体可以根据实际情况进行相应模型的选择。
19.此外,该第一规则可以根据具体的用户经验来确定,以异常数据为广告数据为例,用户可以根据具体的从业经历对异常数据进行分类或者定义,例如自动刷量工具,恶意流量消耗工具,恶意的域名误导等。上述仅仅是举例说明,用户可以基于实践和广告主要求建立异常流量定义分类表,该异常流量定义分类表用于确定异常流量的类型或工具等。
20.步骤104,比较第一异常流量和第三异常流量,根据比较结果生成验证结果,其中,
验证结果用于表征第一模型是否为第二模型增强后的模型。
21.通过上述步骤102和步骤104,将第二模型能够识别,且第一规则无法识别的第二异常流量对第二模型进行调整得到第一模型,然后将第一模型识别出的第一异常流量与第二模型识别出的第三异常流量进行比较,从而可以确定第一模型是否相对于第二模型得到增强,通过该验证过程能够方便快速的确定第一模型是否为增强后的模型,如果得到增强则可以通过第一模型提升异常流量的识别效果,从而解决了现有技术中无法验证增强后机器学习模型的识别效果是否确实得到的改善的问题。
22.在本技术实施例的可选实施方式中,对于上述步骤104中涉及到的比较第一异常流量和第三异常流量,以生成验证结果的方式,进一步可以包括:
23.步骤11,在第一异常流量中除第三异常流量外还包括第五异常流量的情况下,生成第一验证结果;其中,第一验证结果用于表征第一模型为第二模型增强后的模型;
24.步骤12,在第一异常流量为第三异常流量,或第一异常流量为所述第三异常流量的部分的情况下,生成第二验证结果;其中,第二验证结果用于表征第一模型为第二模型增强失败后的模型。
25.由上述步骤11和步骤12,如果通过第一模型识别的第一异常流量中除了第三异常流量外还包括第五异常流量,则表明第一模型能够识别出第二模型不能识别的第五异常流量,则说明第一模型在第二模型的基础上得到了增强。如果说果通过第一模型识别的第一异常流量等于第三异常流量,或第一异常流量仅仅是第三异常流量的部分,则说明第一模型相对于第二模型未得到增强。
26.进一步需要说明的是,这里的第一异常流量与第三异常流量的比较,可以是异常流量的数据量的比较,也可以是异常流量的类型的比较。例如,第一异常流量与第三异常流量中的流量类型相同,但对于其中一种或多种异常流量类型,该第一模型能够对其识别出更多的异常流量的数据量,如第一模型能够识别出的异常流量a的数据量为50m,异常流量b的数据量为100m,第二模型能够识别出的异常流量a的数据量为30m,异常流量b的数据量为50m;则说明第一模型能够相对于第二模型对于同一类型的异常流量,能够识别出更多的异常流量,即第一模型相对于第二模型得到了增强。
27.又例如,如果第一异常流量与第三异常流量中的流量类型不相同,且第一异常流量中的类型多于第三异常流量中的类型,则也说明第一模型相对于第二模型得到了增强。
28.在本技术实施例的另一个可选实施方式中,对于上述步骤102中涉及到的获取由第一模型从第一数据中识别出的第一异常流量的方式,进一步可以包括:
29.步骤21,对第一模型中的阈值进行n次调整,直到通过基于n次调整阈值后的第一模型从第一数据中识别出的异常流量的数量大于第三异常流量的数量;其中,阈值用于表征识别出的异常流量的最大值;n为正整数;
30.步骤22,将通过基于n次调整阈值后的第一模型从第一数据中识别出的异常流量确定第一异常流量。
31.需要说明的是,第一模型是通过阈值控制识别异常流量的量,通过调整第一模型的阈值,可以增大识别出的异常流量的量,即保证增强后的模型能找到更多的异常流量,也就是说,能同时发现新的异常而且又能发现原有模型(未增强前模型)的异常,所以输出结果的数量应该要比原来的模型输出结果大,即n的取值根据上述具体调整过来确定,例如调
整3次后其第一模型输出结果的数量应该要比原来的第二模型输出结果中数量值大,则n的取值为3。
32.在本技术实施例的再一个实施方式中,在步骤102中涉及到的获取由第一模型从第一数据中识别出的第一异常流量之前,本技术实施例的方法还可以包括:
33.步骤31,基于第三异常流量确定用于识别异常流量的第二规则,其中,第二规则不同于第一规则;
34.步骤32,对第二规则进行特征工程得到对应的特征;
35.步骤33,将特征输入到第一模型中,得到第二模型。
36.可见,可以基于第二模型能识别,而第一规则不能识别的异常流量确定出于第一规则不同的第二规则,基于该第二规则进行特征工程,并将提取的特征输入到第二模型,以得到第一模型。
37.其中,对于上述步骤32中涉及到的对第二规则进行特征工程得到对应的特征的方式,进一步可以包括:
38.步骤41,对第二规则中的规则内容进行二值化处理;
39.其中,该规则内容是指第二规则中的定量描述的特征,对其进行二值化处理,其中,对于二值化处理可以基于one

hot编码方式得到二值化结果。
40.步骤42,对二值化处理结果进行无量纲处理,并对无量纲处理结果进行归一化处理;
41.其中,无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和区间缩放法。标准化的前提是特征值服从正态分布,标准化后,其转换成标准正态分布。区间缩放法利用了边界值信息,将特征的取值区间缩放到某个特点的范围,例如[0,1]等。
[0042]
此外,归一化处理是对无量纲处理结果依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准。
[0043]
步骤43,对归一化处理结果进行降维处理得到特征。
[0044]
其中,当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大,导致计算量大,训练时间长的问题,因此需要降低特征矩阵维度以节省训练时间。降维的方式包括:主成分分析法(principal component analysis,pca)和线性判别分析(linear discriminant analysis,lda),线性判别分析本身也是一个分类模型。pca和lda有很多的相似点,其本质是要将原始的样本映射到维度更低的样本空间中,但是pca和lda的映射目标不一样:pca是为了让映射后的样本具有最大的发散性;而lda是为了让映射后的样本有最好的分类性能。所以说pca是一种无监督的降维方法,而lda是一种有监督的降维方法。
[0045]
下面结合本技术实施例的具体实施方式,对本技术进行解释说明;该具体实施方式提供了一种检验规则增强后的异常流量识别模型的方法,如图2所示,该方法的步骤包括:
[0046]
步骤201,利用给定的模型和现有的规则分别对异常流量进行识别;
[0047]
其中,给定的模型可以分为有监督和无监督两类,根据是否有确定的数据标签而定,如果有数据标签,可以用支持向量机等模型,如果没有确定的标签,可以用孤立森林等模型。而规则主要基于从业人员的经验来决定,一般从业者或从业企业都存在一套自己的
规则;
[0048]
步骤202,将分别识别出来的异常流量进行比对,确定出只有给定的模型能识别,而规则不能识别的异常流量部分;
[0049]
步骤203,基于确定的那部分的异常流量,概括出一些新的规则;
[0050]
其中,所谓新的规则就是原有规则体系中不存在的,根据新识别出的流量的特征进行总结归纳出来的规则,不同于上述现有的规则;
[0051]
步骤204,对概括出的新规则进行特征工程;
[0052]
具体可以通过以下方式来实现:首先,对这些规则中定量的描述进行二值化表示,可以采用one

hot编码方式,然后,对定性的描述进行数值化表示,必要的话要移除量纲并归一化;对新特征进行降维得到想要的特征;
[0053]
步骤205,将提取出的特征作为新的特征输入到模型中,得到规则增强后的模型;
[0054]
步骤206,将增强后模型的识别结果和原给定模型的识别结果进行比较;
[0055]
其中,若增强后模型能在保有识别出原模型识别出的异常流量之外,有新的异常流量被识别出来,即规则增强的效果得到了验证。
[0056]
对应于上述图1,本技术实施例还提供了一种模型的验证装置,如图3所示,该装置包括:
[0057]
获取模块32,用于获取由第一模型从第一数据中识别出的第一异常流量;其中,第一模型由第二模型基于第二异常流量调整得到;第二异常流量为第三异常流量中不包括第四异常流量的异常流量,第三异常流量由第二模型从第一数据中识别得到,第四异常流量由通过预设的第一规则从第一数据中识别得到;
[0058]
比较模块34,用于比较第一异常流量和第三异常流量,根据比较结果生成验证结果,其中,验证结果用于表征第一模型是否为第二模型增强后的模型。
[0059]
通过本技术实施例的装置,将第二模型能够识别,且第一规则无法识别的第二异常流量对第二模型进行调整得到第一模型,然后将第一模型识别出的第一异常流量与第二模型识别出的第三异常流量进行比较,从而可以确定第一模型是否相对于第二模型得到增强,通过该验证过程能够方便快速的确定第一模型是否为增强后的模型,如果得到增强则可以通过第一模型提升异常流量的识别效果,从而解决了现有技术中无法验证增强后机器学习模型的识别效果是否确实得到的改善的问题。
[0060]
可选地,本技术实施例中的比较模块34进一步可以包括:第一比较单元,用于在第一异常流量中除第三异常流量外还包括第五异常流量的情况下,生成第一验证结果;其中,第一验证结果用于表征第一模型为第二模型增强后的模型;第二比较单元,用于在第一异常流量为第三异常流量,或第一异常流量为第三异常流量的部分的情况下,生成第二验证结果;其中,第二验证结果用于表征第一模型为第二模型增强失败后的模型。
[0061]
可选地,本技术实施例中的获取模块32进一步可以包括:调整单元,用于对第一模型中的阈值进行n次调整,直到通过基于n次调整阈值后的第一模型从第一数据中识别出的异常流量的数量大于第三异常流量的数量;其中,阈值用于表征识别出的异常流量的最大值;n为正整数;确定单元,用于将通过基于n次调整阈值后的第一模型从第一数据中识别出的异常流量确定第一异常流量。
[0062]
可选地,本技术实施例中的装置还可以进一步包括:确定模块,用于在获取由第一
模型从第一数据中识别出的第一异常流量之前,基于第三异常流量确定用于识别异常流量的第二规则,其中,第二规则不同于第一规则;第一处理模块,用于对第二规则进行特征工程得到对应的特征;第二处理模块,用于将特征输入到第一模型中,得到第二模型。
[0063]
可选地,该第一处理模块进一步可以包括:第一处理单元,用于对第二规则中的规则内容进行二值化处理;第二处理单元,用于对二值化处理结果进行无量纲处理,并对无量纲处理结果进行归一化处理;第三处理单元,用于对归一化处理结果进行降维处理得到特征。
[0064]
本技术实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
[0065]
存储器403,用于存放计算机程序;
[0066]
处理器401,用于执行存储器403上所存放的程序时,实现图1中的方法步骤。
[0067]
该电子设备中的处理实现图1中的方法步骤,所带来的技术效果与上述图1中的模型的验证方法的技术效果一致,在此不再赘述。
[0068]
上述终端提到的通信总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0069]
通信接口用于上述终端与其他设备之间的通信。
[0070]
存储器可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non

volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0071]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0072]
在本技术提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的模型的验证方法。
[0073]
在本技术提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的api的处理方法。
[0074]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字
用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0075]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0076]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0077]
以上所述仅为本技术的较佳实施例而已,并非用于限定本技术的保护范围。凡在本技术的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本技术的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1