本发明涉及数据处理,具体涉及一种数据分类方法、系统及电子设备。
背景技术:
1、在计算机视觉领域,图像识别和分类是一种常见的图像处理任务,其中,对于类别不均衡的数据集,通常会采用卷积神经网络进行图像特诊提取与分类,例如大多使用残差网络作为基本的网络架构,然而其性能低于目前主流的分类神经网络。
2、综上,急需一种对数据分类化处理的分类模型。
技术实现思路
1、针对现有技术中的上述不足,本发明提供了一种数据分类方法、系统及电子设备。
2、为了达到上述发明目的,本发明采用的技术方案为:
3、第一方面,一种数据分类方法,包括以下步骤:
4、获取待分类数据集,并对待分类数据集进行预处理,得到预处理后的待分类数据集;其中,待分类数据集为类别不平衡的数据集;
5、构建基于cbam的数据分类模型,并利用预处理后的待分类数据集训练该数据分类模型,得到训练后的数据分类模型;
6、利用训练后的数据分类模型对类别不平衡的数据集进行数据分类。
7、进一步地,所述获取待测数据集,并对数据集进行预处理的步骤为:
8、获取待测数据集,并对待测数据集中各图像进行矫正;
9、随机划分矫正后的待测数据集,得到验证样本集与训练样本集;
10、分别对训练样本集与验证样本集进行数据增强,并将数据增强后的验证样本集、训练样本集,作为预处理后的训练样本集及预处理后的验证样本集,其中,预处理后的待分类数据集包括所述预处理后的训练样本集及预处理后的验证样本集。
11、进一步地,所述获取待测数据集,并对待测数据集中各图像进行矫正的步骤包括:
12、利用灰度算法对待测数据集中各图像进行矫正,其中,灰度算法表示为:
13、rnew=r×(k/rave)bnew=b×(k/bave)gnew=g×(k/gave)
14、
15、其中,rnew为图像中各像素的光照值,rave,gave,bave分别为该待测数据集中各图像在rgb三通道中像素平均值,k为第一中间量,r、g、b分别代表红、绿、蓝三个通道的标准参数。
16、进一步地,所述构建基于cbam的数据分类模型,并利用预处理后的待分类数据集训练该数据分类模型,得到训练后的数据分类模型的步骤为:
17、基于cbam模型构建数据分类模型,得到基于cbam的数据分类模型;
18、利用多权重损失函数根据预处理后的训练样本集迭代训练所述数据分类模型,得到训练后的数据分类模型;其中,多权重损失函数表示为:
19、
20、其中,loss(.)为交叉熵损失函数,log(.)为对数函数,z为特征信息的类别向量,y为该特征信息所对应的图像的真实类别标签,ny为数据集中y类样本的数量,α和r分别为第一超参数、第二超参数;c为分类的类别数,由以下公式表示:
21、
22、
23、zi表示神经网络输出类别向量第i个单位的内容。
24、根据预处理后的验证样本集评估训练后的神经网络模型,并判断验证结果是否满足预期结果,若满足则将当前训练的神经网络模型作为训练后的数据分类模型,否则继续利用多权重损失函数根据预处理后的训练样本集迭代训练数据分类模型,直至满足预期结果。
25、进一步地,所述基于cbam模型构建神经网络模型,该神经网络模型包括依次连接的:
26、第一卷积层;
27、数量不少于一的基于cbam的mbconv层;
28、第二卷积层;
29、池化层;
30、全连接层;
31、其中,
32、所述第一卷积层,用于提取预处理后的数据集中各图像的特征信息,得到初始特征信息;
33、所述基于cbam的mbconv层,用于根据通道注意力特征及空间注意力特征再次提取初始特征信息中各图像的特征信息,得到优化后的特征信息;
34、第二卷积层用于再次提取优化后的特征信息,得到最终特征信息;
35、所述全连接层,用于将提取的最终特征信息表示映射到类别空间,以进行数据分类。
36、进一步地,所述根据预处理后的验证样本集评估训练后的神经网络模型的步骤包括:
37、利用平衡准确率bacc结合预处理后的验证样本集评估训练后的神经网络模型的平衡准确率,该平衡准确率的计算式表示为:
38、
39、其中,bacc为平衡准确率,c为待测数据集的类别数,tpi为该真实类别i预测正确的数目,fni表示将真实类别i预测错误的数目。
40、进一步地,所述基于cbam的mbconv层还包括依次连接的:
41、第一卷积模块、第一归一化模块、第一激活函数模块、第一深度卷积模块、第二归一化模块、第二激活函数模块、cbam注意力机制模块、第二卷积模块、第三归一化模块以及droppath模块;
42、所述droppath模块还与第一卷积模块连接;
43、其中,所述cbam注意力机制模块用于利用通道注意力特征及空间注意力特征对初始特征信息进行修正;
44、所述droppath模块用于将按照预设概率对第一卷积模块以及第三归一化模块的输出分支进行舍弃,得到优化后的特征信息。
45、进一步地,所述cbam注意力机制模块用于利用通道注意力特征及空间注意力特征对初始特征信息进行修正的步骤包括:
46、根据初始特征信息的输入特征获取通道注意力特征;
47、将通道注意力特征与初始特征信息的输入特征相乘,获取中间特征;
48、根据中间特征获取空间注意力特征;
49、将中间特征与空间注意力特征相乘得到最终特征,并将该最终特征作为优化后的特征信息。
50、第二方面,一种数据分类系统,包括:
51、数据获取单元,用于获取需要均衡化的数据集;
52、数据分类单元,用于对数据集进行分类处理,所述分类处理方案包含上述第一方面任一项所述的数据分类方法。
53、第三方面,一种电子设备,包含上述第三方面任一项所述的一种数据分类系统。
54、本发明具有以下有益效果:
55、本技术提出一种数据分类方法、系统及电子设备,获取待分类数据集,并对待分类数据集进行预处理,得到预处理后的待分类数据集;其中,待分类数据集为类别不平衡的数据集;构建基于cbam的数据分类模型,并利用预处理后的待分类数据集训练该数据分类模型,得到训练后的数据分类模型;利用训练后的数据分类模型对类别不平衡的数据集进行数据分类。通过构建基于cbam的神经网络模型有效地提升了图像分类准确率,并采用合适的droppath方法对cbam注意力机制层提取特征信息进行优化,可进一步提高模型泛化能力;并构建多权重损失函数对基于cbam的神经网络模型提取地特征函数进行迭代优化,可有效实现数据集地类别均衡化,提升平衡准确率。