网络流量数据的自适应增强方法及装置与流程

文档序号:26949761发布日期:2021-10-16 00:45阅读:来源:国知局

技术特征:
1.一种网络流量数据的自适应增强方法,其特征在于,包括:基于层次凝聚聚类hac算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类;获取所述少数类聚类中少数类样本的稀疏度权重和数量权重;根据所述稀疏度权重和所述数量权重,确定少数类合成样本数量;基于过采样算法和所述少数类合成样本数量,对所述原始网络流量数据集进行数据增强。2.根据权利要求1所述的网络流量数据的自适应增强方法,其特征在于,所述基于层次凝聚聚类hac算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类,包括:根据所述原始网络流量数据集中的第一多数类样本数量和第一少数类样本数量,确定所述原始网络流量数据集的第一不平衡比;基于所述hac算法对所述原始网络流量数据集进行聚类,并根据聚类结果中聚类的第二多数类样本数量和第二少数类样本数量,确定所述聚类的第二不平衡比;将所述第二不平衡比小于所述第一不平衡比的聚类作为所述少数类聚类。3.根据权利要求1所述的网络流量数据的自适应增强方法,其特征在于,所述获取所述少数类聚类中少数类样本的稀疏度权重和数量权重,包括:根据所述少数类样本与目标少数类聚类中其余少数类样本的马哈拉诺比斯距离,确定所述目标少数类聚类的马氏距离矩阵;基于目标relisf算法对所述原始网络流量数据集的特征集进行处理,以获取所述特征集中每个特征的特征权重值;根据所述马氏距离矩阵和所述每个特征的特征权重值,确定所述稀疏度权重和所述数量权重;其中,所述目标少数类聚类是根据与所述少数类样本处于同一聚类的少数类聚类确定的;所述特征集是根据所述原始网络流量数据集中每个样本的特征确定的。4.根据权利要求3所述的网络流量数据的自适应增强方法,其特征在于,所述基于目标relisf算法对所述原始网络流量数据集的特征集进行处理,以获取所述特征集中每个特征的特征权重值,包括:从所述原始网络流量数据集中随机选择第一预设数量个第一目标样本;确定每个第一目标样本与同类样本集中每个第二目标样本间的第一欧式距离;确定每个第一目标样本与每个不同类样本集中第三目标样本间的第二欧式距离;从所述同类样本集中筛选出第二预设数量个所述第一欧式距离最小的第二目标样本,作为所述第一目标样本的同类最近邻样本;从每个所述不同类样本集中筛选出所述第二预设数量个所述第二欧式距离最小的第二目标样本,作为所述第一目标样本的不同类最近邻样本;根据所述同类最近邻样本和所述不同类最近邻样本,确定所述每个特征的特征权重值;其中,所述同类样本集是根据与所述第一目标样本同类别的样本确定的;
所述不同类样本集是根据与所述第一目标样本不同类别的样本确定的。5.根据权利要求3所述的网络流量数据的自适应增强方法,其特征在于,所述根据所述马氏距离矩阵和所述每个特征的特征权重值,确定所述稀疏度权重和所述数量权重,包括:按照从大到小将所述每个特征的特征权重值顺序排序,以确定特征权重向量;根据所述特征权重向量和所述马氏距离矩阵,确定所述少数类聚类中的少数类样本加权距离;根据所述少数类样本加权距离和每个少数类聚类中的少数类样本数量,确定所述每个少数类聚类中少数类样本的稀疏度;对所述稀疏度进行归一化处理,以确定所述稀疏度权重;根据每个少数类聚类中的少数类样本数量和所有少数类聚类中的少数类样本总数量,确定每个少数类聚类的聚类数量;对所述聚类数量进行归一化处理,以确定所述数量权重。6.根据权利要求1所述的网络流量数据的自适应增强方法,其特征在于,所述根据所述稀疏度权重和所述数量权重,确定少数类合成样本数量,包括:根据所述稀疏度权重和所述数量权重,确定少数类合成样本权重;根据所述少数类合成样本权重和预设采样比例,确定所述少数类合成样本数量。7.根据权利要求1所述的网络流量数据的自适应增强方法,其特征在于,所述基于过采样算法和所述少数类合成样本数量,对所述原始网络流量数据集进行数据增强,包括:确定每个少数类聚类中的目标少数类样本与少数类样本集中所有样本的第三欧氏距离;从所述少数类样本集中所有样本中筛选出第二预设数量个与所述目标少数类样本的第三欧氏距离最小的近邻样本;根据所述少数类合成样本数量,确定采样倍率;从所述近邻样本中随机选择所述采样倍率个目标近邻样本,并根据所述过采样算法、所述近邻样本和所述目标近邻样本,对所述原始网络流量数据集进行数据增强。8.一种网络流量数据的自适应增强装置,其特征在于,包括:聚类分类模块、权重确定模块、数量确定模块和数据增强模块;所述聚类分类模块,用于基于层次凝聚聚类hac算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类;所述权重确定模块,用于获取所述少数类聚类中少数类样本的稀疏度权重和数量权重;所述数量确定模块,用于根据所述稀疏度权重和所述数量权重,确定少数类合成样本数量;所述数据增强模块,用于基于过采样算法和所述少数类合成样本数量,对所述原始网络流量数据集进行数据增强。9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述网络流量数据的自适应增强方法的步骤。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算
机程序被处理器执行时实现如权利要求1至7任一项所述网络流量数据的自适应增强方法的步骤。

技术总结
本发明提供一种网络流量数据的自适应增强方法及装置,方法包括:基于层次凝聚聚类HAC算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类;获取少数类聚类中少数类样本的稀疏度权重和数量权重;根据稀疏度权重和数量权重,确定少数类合成样本数量;基于过采样算法和少数类合成样本数量,对原始网络流量数据集进行数据增强。所述装置用于执行上述方法。本发明利用HAC聚类算法不需要参数的特性,减少需要预先设置的参数,降低噪声的影响,并且提出根据聚类中样本稀疏度和样本数量比例分配每个聚类合成样本数量的方案,能够自适应分配每个聚类需要合成新样本的数量,解决了现有技术中合成样本依赖信息不足的问题。了现有技术中合成样本依赖信息不足的问题。了现有技术中合成样本依赖信息不足的问题。


技术研发人员:杨杨 高志鹏 赵倩 郭义豪 赵斌男 李昱廷 王臻 赵龙军 李恒
受保护的技术使用者:中国雄安集团数字城市科技有限公司
技术研发日:2021.06.17
技术公布日:2021/10/15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1