一种分类模型更新方法、装置、设备及存储介质与流程

文档序号:37923226发布日期:2024-05-11 00:02阅读:11来源:国知局
一种分类模型更新方法、装置、设备及存储介质与流程

本技术涉及计算机,具体涉及一种分类模型更新方法、装置、设备及存储介质。


背景技术:

1、网络流分类(network traffic classification,ntc)对收集到的各种应用程序的网络流数据进行分类识别,在服务质量(quality of service,qos)保证、网络安全、流量趋势分析等方面发挥着关键作用。ntc在测试集为已知类时可以展现出较高的分类精度,但在现实中,网络环境是动态变化的,在测试过程中会不断出现训练集中没有的类别,这种问题称为开集流识别(open set flow recognition,osfr)问题。

2、已有技术中,一方面可以通过找到接近训练实例的数据生成已知类的负样本,并根据已知类和负样本定位决策边界来区分已知类和新类,然而该方法生成的负样本与目标样本高度相似可能反而会降低已知类分类精度,另外生成负样本需要花费大量时间。另一方面,极限值理论(extreme value theory,evt)被用来对决策边界处的正训练样本进行建模,如果已知类数据被准确建模就可以拒绝新类,如此可以通过卷积神经网络和随机森林模型,将投票模式与evt相结合,用于拟合威布尔分布,通过阈值来拒绝新类样本。但根据实验结果得出正样本数据并不能完全拟合威布尔分布,已知类的召回率低于预期。

3、综上,针对osfr问题,上述方法均会出现分类精度低的问题。


技术实现思路

1、本技术实施例提供一种分类模型更新方法、装置、设备及存储介质,用于提高分类模型的分类精度。

2、第一方面,本技术实施例提供一种分类模型更新方法,所述方法包括:

3、基于第一分类模型中的第一分类器从测试样本集中确定出第一新类样本集;所述第一分类器用于将样本分为属于可识别的第一已知类的第一已知类样本或者属于不可识别的第一新类的第一新类样本;一个样本包括一条网络流数据对应的至少一个统计特征的取值;

4、基于所述第一新类样本集训练出第二分类器,所述第二分类器用于将所述第一新类样本和所述第一已知类样本以外的样本的类型输出为不可识别的第二新类;

5、在所述第一分类模型中添加所述第二分类器得到第二分类模型,所述第二分类模型用于将样本的类型分为以下任意一种:所述第一已知类、所述第一新类、所述第二新类。

6、在本方案中,第一分类器可以识别样本属于第一已知类样本,基于第一分类器从测试样本集中确定出第一新类样本集,基于第一新类样本集训练出第二分类器,如此第二分类器可以识别样本的类型为第一新类,在第一分类模型中添加第二分类器得到第二分类模型,由于第二分类模型中有第一分类器与第二分类器,第一分类器可以识别样本的类型为第一已知类,第二分类器可以识别样本的类型为第一新类,如此当出现样本类型为第一已知类、第一新类以外的类时(即osfr问题),第二分类模型可以将其分为第二新类,相较于第一分类器输出样本的类型为第一已知类或者第一新类,第二分类器的分类精度更高。

7、可选的,所述基于所述第一新类样本集训练出第二分类器,包括:将所述第一新类样本集与第一样本集共同作为第二已知类样本集,基于所述第二已知类样本集训练出所述第二分类器;所述第一样本集中包括多个所述第一已知类样本。

8、通过本方式,第二分类器可以识别样本的类型为第二已知类,如此当出现样本类型为第二已知类以外的类时,第二分类器可以快速将其分为第二新类,提高了第二分类模型的分类速度。

9、可选的,所述方法还包括:获取多条网络流数据中每条网络流数据对应的多个统计特征的取值,得到多个统计特征序列,一个统计特征序列中的值对应同一种统计特征;确定所述多个统计特征序列中任意两个统计特征序列之间的皮尔森相关系数;从所述多个统计特征中确定出目标统计特征组;其中,所述目标统计特征组包括至少两个统计特征,所述至少两个统计特征中任意两个统计特征对应的两个统计特征序列之间的皮尔森相关系数小于第一阈值,并且所述至少两个统计特征中每个统计特征的时间复杂度满足预设条件;将一条网络流数据对应的目标统计特征组中各个特征的取值作为一个样本。

10、通过本方法,一条网络流数据对应多个统计特征,若将一条网络流数据对应所有统计特征的取值作为一个样本,则分类模型的分类时间较长,根据多条网络流数据中每条网络流数据对应的多个统计特征的取值,得到多个统计特征序列,根据任意两个统计特征序列之间的皮尔森相关系数,从多个统计特征中确定出目标统计特征组,如此组成样本的统计特征较少,样本的大小减少,提高了第二分类模型的分类速度。

11、可选的,所述第一已知类包括至少一个子类,一条网络流数据对应一个子类,所述从所述多个统计特征中确定出目标统计特征组,包括:根据所述每条网络流数据对应的子类,得到子类序列;确定所述每个统计特征序列与子类序列之间的皮尔森相关系数;将对应的两个统计特征序列之间的皮尔森相关系数大于或者等于所述第一阈值的两个统计特征作为一组待选统计特征,得到所述多个统计特征中的至少一组待选统计特征;确定各组待选统计特征中对应的统计特征序列与所述子类序列之间的皮尔森相关系数较小的统计特征,得到至少一个待删除的统计特征;从所述多个统计特征中删除所述至少一个待删除的统计特征,并从剩余的统计特征中确定时间复杂度满足预设条件的统计特征,得到所述目标统计特征组。

12、通过本方式,由于对应的两个统计特征序列之间的皮尔森相关系数大于或者等于第一阈值的两个统计特征较为相似,对于这样一组待选统计特征,保留其中一个即可,确定各组待选统计特征中对应的统计特征序列与所述子类序列之间的皮尔森相关系数较小的统计特征,得到至少一个待删除的统计特征,从多个统计特征中删除至少一个待删除的统计特征,如此剩余的统计特征对样本类别的影响力大,再从剩余的统计特征中确定时间复杂度满足预设条件的统计特征,得到目标统计特征组,如此一个样本可以很好的代表一条网络流数据,通过样本训练出的分类模型的分类精度高。

13、可选的,所述基于第一分类模型中的第一分类器从测试样本集中确定出第一新类样本集,包括:将所述第一分类器判断的属于所述第一已知类并且置信度低于第二阈值的测试样本的类型修改为所述第一新类。

14、通过本方式,第一分类器判别出的部分第一已知类样本置信度低于第二阈值,若第一分类器的分类精度低,这种第一已知类样本实际可能不为第一已知类样本,而是第一新类样本,因此将这种第一已知类样本的类型修改为第一新类,使得根据第一新类样本集训练出的第二分类器的分类精度高。

15、可选的,所述方法还包括:基于所述第一新类样本集与第一样本集训练所述第一分类器,得到更新后的所述第一分类模型。

16、通过本方式,若第一分类器的分类精度低,可以通过第一新类样本集与第一样本集训练第一分类器,由于第一新类样本集中还包括了修改样本类型得到的第一新类样本,如此训练出的第一分类器分类精度高,使得更新后第一分类模型的分类精度高。

17、第二方面,本技术实施例一种分类模型更新装置,该装置包括用于执行上述第一方面或第一方面任一种可选的实施方式中的方法的模块/单元/技术手段。

18、示例性的,该装置可以包括:

19、处理模块,用于基于第一分类模型中的第一分类器从测试样本集中确定出第一新类样本集;所述第一分类器用于将样本分为属于可识别的第一已知类的第一已知类样本或者属于不可识别的第一新类的第一新类样本;一个样本包括一条网络流数据对应的至少一个统计特征的取值;基于所述第一新类样本集训练出第二分类器,所述第二分类器用于将所述第一新类样本和所述第一已知类样本以外的样本的类型输出为不可识别的第二新类;

20、添加模块,用于在所述第一分类模型中添加所述第二分类器得到第二分类模型,所述第二分类模型用于将样本的类型分为以下任意一种:所述第一已知类、所述第一新类、所述第二新类。

21、可选的,所述处理模块在基于所述第一新类样本集训练出第二分类器时,具体用于:将所述第一新类样本集与第一样本集共同作为第二已知类样本集,基于所述第二已知类样本集训练出所述第二分类器;所述第一样本集中包括多个所述第一已知类样本。

22、可选的,所述处理模块还用于:获取多条网络流数据中每条网络流数据对应的多个统计特征的取值,得到多个统计特征序列,一个统计特征序列中的值对应同一种统计特征;确定所述多个统计特征序列中任意两个统计特征序列之间的皮尔森相关系数;从所述多个统计特征中确定出目标统计特征组;其中,所述目标统计特征组包括至少两个统计特征,所述至少两个统计特征中任意两个统计特征对应的两个统计特征序列之间的皮尔森相关系数小于第一阈值,并且所述至少两个统计特征中每个统计特征的时间复杂度满足预设条件;将一条网络流数据对应的目标统计特征组中各个特征的取值作为一个样本。

23、可选的,所述第一已知类包括至少一个子类,一条网络流数据对应一个子类,所述处理模块从所述多个统计特征中确定出目标统计特征组时,具体用于:根据所述每条网络流数据对应的子类,得到子类序列;确定所述每个统计特征序列与子类序列之间的皮尔森相关系数;将对应的两个统计特征序列之间的皮尔森相关系数大于或者等于所述第一阈值的两个统计特征作为一组待选统计特征,得到所述多个统计特征中的至少一组待选统计特征;确定各组待选统计特征中对应的统计特征序列与所述子类序列之间的皮尔森相关系数较小的统计特征,得到至少一个待删除的统计特征;从所述多个统计特征中删除所述至少一个待删除的统计特征,并从剩余的统计特征中确定时间复杂度满足预设条件的统计特征,得到所述目标统计特征组。

24、可选的,所述处理模块在基于第一分类模型中的第一分类器从测试样本集中确定出第一新类样本集时,具体用于:将所述第一分类器判断的属于所述第一已知类并且置信度低于第二阈值的测试样本的类型修改为所述第一新类。

25、可选的,所述处理模块还用于:基于所述第一新类样本集与第一样本集训练所述第一分类器,得到更新后的所述第一分类模型。

26、第三方面,本技术实施例提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令,使得所述至少一个处理器执行上述第一方面所述的数据处理方法的步骤。

27、第四方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行上述第一方面所述的数据处理方法的步骤。

28、此外,本技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1