基于改进的孤立森林的异常样本检测方法及相关设备与流程

文档序号:26728991发布日期:2021-09-22 21:29阅读:来源:国知局

技术特征:
1.一种基于改进的孤立森林的异常样本检测方法,其特征在于,所述方法包括:解析接收的异常样本检测请求,获取原始样本数据集,其中,所述原始样本数据集中包含有多个维度的样本数据集;计算每个所述维度的样本数据集的变异系数;根据所述多个维度的样本数据集的多个变异系数对所述原始样本数据集进行维度选择,及对所述原始样本数据集进行分割处理;根据维度选择过程和分割处理过程构建多颗目标孤立树,并集成所述多颗目标孤立树构成孤立森林;根据所述原始样本数据集在所述孤立森林中的平均遍历路径,对所述原始样本数据集进行异常检测。2.如权利要求1所述的基于改进的孤立森林的异常样本检测方法,其特征在于,所述根据所述原始样本数据集在所述孤立森林中的平均遍历路径,对所述原始样本数据集进行异常检测包括:从所述原始样本数据集中随机选取一个样本,基于每个所述样本遍历所述孤立森林的每一颗孤立树,计算每个所述样本在所述孤立森林的每一颗孤立树上的深度;根据每个所述样本在所述孤立森林的每一颗孤立树上的深度计算每个所述样本的异常值,所述异常值采用如下公式计算得到:,其中,表示所述原始样本数据集中的任意一个样本,表示任意一个样本在所述孤立森林的每一颗孤立树上的深度,表示所述任意一个样本在所述孤立森林中的深度平均值,表示所述孤立森林中的多个目标样本中的任意一个目标样本,表示所述任意一个目标样本在所述孤立森林中的深度平均值,表示所述任意一个样本在所述孤立森林中的每一棵孤立树上的深度与对应孤立树深度之差的深度平均值;将计算得到的每个所述样本的异常值与预设的异常阈值进行比较;当每个所述样本的异常值大于或者等于所述预设的异常阈值时,确定每个所述样本的异常值对应的样本异常。3.如权利要求1所述的基于改进的孤立森林的异常样本检测方法,其特征在于,所述计算每个所述维度的样本数据集的变异系数包括:将每个所述维度的样本数据集的标准差除以对应维度的样本数据集的平均值之商数,确定为每个所述维度的样本数据集的变异系数。4.如权利要求1所述的基于改进的孤立森林的异常样本检测方法,其特征在于,所述对所述原始样本数据集进行分割处理包括:从所述原始样本数据集中的每个所述维度的样本数据集中随机挑选出多个目标样本,形成每个所述维度的目标样本数据集;按照预设的转换规则将每个所述维度的目标样本数据集中的每个目标样本转换为装
箱值,根据每个目标样本的装箱值进行装箱处理,得到多个箱子,并记录每个箱子中的样本数;遍历每个所述箱子,计算每个所述箱子的右侧所有箱子中的目标样本数之和与对应箱子的左侧所有箱子中的目标样本数之和的差值的绝对值,从所述绝对值中选取最大绝对值对应的箱子的装箱值,确定为每个所述维度的目标样本数据集的分割值。5.如权利要求4所述的基于改进的孤立森林的异常样本检测方法,其特征在于,所述根据维度选择过程和分割处理过程构建多颗目标孤立树包括:根据维度选择过程确定目标维度,并对所述目标维度构建一棵目标孤立树,其中,所述对所述目标维度构建一棵目标孤立树包括:根据所述分割处理过程确定所述目标维度的目标样本集的分割值;将所述分割值左侧所有箱子的目标样本放入预设孤立树的左分支,将所述分割值右侧所有箱子的目标样本放入预设孤立树的右分支;重复执行所述维度选择过程和所述分割处理过程,直至所述预设孤立树的叶子节点上只有一个数据或者所述预设孤立树达到了预设高度,结束所述预设孤立树的构建,并将构建好的所述预设孤立树,确定为所述目标维度的目标孤立树。6.如权利要求1所述的基于改进的孤立森林的异常样本检测方法,其特征在于,所述根据所述多个维度的样本数据集的多个变异系数对所述原始样本数据集进行维度选择包括:对所述多个维度的多个变异系数进行降序排序;从所述降序排序结果的队头开始依次进行维度的选择。7.如权利要求1所述的基于改进的孤立森林的异常样本检测方法,其特征在于,所述解析接收的异常样本检测请求,获取原始样本数据集包括:解析异常样本检测请求获取多个维度及每个维度的样本数据集的调用接口;根据所述异常样本检测请求及每个维度的样本数据集的调用接口组成调用接口列表;通过所述调用接口列表的第一个调用接口开始依次获取对应维度的样本数据集;将所述多个维度的样本数据集进行合并得到原始样本数据集。8.一种基于改进的孤立森林的异常样本检测装置,其特征在于,所述装置包括:解析模块,用于解析接收的异常样本检测请求,获取原始样本数据集,其中,所述原始样本数据集中包含有多个维度的样本数据集;计算模块,用于计算每个所述维度的样本数据集的变异系数;选择和分割模块,用于根据所述多个维度的样本数据集的多个变异系数对所述原始样本数据集进行维度选择,及对所述原始样本数据集进行分割处理;构建模块,用于根据维度选择过程和分割处理过程构建多颗目标孤立树,并集成所述多颗目标孤立树构成孤立森林;异常检测模块,用于根据所述原始样本数据集在所述孤立森林中的平均遍历路径,对所述原始样本数据集进行异常检测。9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的基于改进的孤立森林的异常样本检测方法。10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征
在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于改进的孤立森林的异常样本检测方法。

技术总结
本申请涉及人工智能技术领域,提供一种基于改进的孤立森林的异常样本检测方法及相关设备,所述方法包括:解析接收的异常样本检测请求,获取原始样本数据集;计算每个维度的样本数据集的变异系数;根据多个维度的样本数据集的多个变异系数对原始样本数据集进行维度选择,及对原始样本数据集进行分割处理;根据维度选择过程和分割处理过程构建多颗目标孤立树,并集成多颗目标孤立树构成孤立森林;根据原始样本数据集在孤立森林中的平均遍历路径,对原始样本数据集进行异常检测。本申请通过对所述原始样本数据集进行分割处理,避免随机选取分割值导致的分割次数多的问题,提高目标样本的分割速度,进而提高了异常样本检测效率。率。率。


技术研发人员:吴志成 张莉 乔延柯
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2021.08.23
技术公布日:2021/9/21
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1