基于类平衡编码器的长尾图像识别方法

文档序号：33746184发布日期：2023-04-06 11:43阅读：32来源：国知局

本发明属于类别不平衡图像识别领域，具体涉及一种自然场景下基于类平衡编码器的长尾图像识别方法。

背景技术：

1、自然界中的数据广泛存在分布不平衡的现象，在图像分类的相关研究中，不平衡数据，特别是样本量分布呈长尾状的数据，是目前研究的热门方向之一，其相关研究内容和成果也符合实际应用的需求。不平衡图像数据即在数据集中，不同类别所占有的图像数量是不相等的，在长尾数据分布中，极少数类别（头部类别）占有数据集中的大部分样本，而大多数类别（尾部类别）只占有很少的图像数据。

2、神经网络模型在不平衡数据集上训练后，在尾部类别上表现很差，主要原因在于尾部类别的图片数量少。在神经网络模型训练过程中，大部分训练数据都被头部类别所占有，模型训练中所利用的尾部类别图片相比头部类别过少，因此模型在尾部类别数据上的分类性能很差。对于神经网络模型在尾部类别表现差的现象，一个传统解决方案为类重平衡策略，即在训练期间增加尾部类样本对模型参数优化的贡献，如增加尾部类样本的采样频率或者在损失函数中为尾部类别的训练样本分配较大的权重。

3、类重平衡技术在不平衡数据上虽然已有很好的分类效果，但是尾部类只包含少量信息，增加尾部类在训练中的比重会导致模型无法充分利用包含更多信息的头部类数据，破坏了模型的表征学习。

技术实现思路

1、本发明的目的在于提供一种自然场景下基于类平衡编码器的长尾图像识别方法。

2、实现本发明目的的技术方案为：第一方面，本发明提供一种基于类平衡编码器的长尾图像数据训练方法，包括以下步骤：

3、步骤1，获取自然场景下物种图像数据样本，将输入图像分别经过两次数据增强获得两组样本，第一组样本输入编码器和类平衡编码器获得特征表示和，第二组样本输入动量编码器获取特征表示；

4、数据增强包含autoaugment，随机水平翻转，随机改变图像亮度、对比度、饱和度、灰度以及随机高斯模糊。autoaugment每次从直方图均衡、反相、倾斜、旋转、锐化、亮度调节、色彩调节中随机选取一个对图像进行增强。编码器和动量编码器为结构相同、初始参数相同的卷积神经网络。

5、步骤2，将特征表示和分别输入分类器、并分别计算加权交叉熵损失；

6、步骤3，分别将特征表示和s’输入不同的非线性映射器和并进行二范数归一化获得新的特征表示和，计算和之间的余弦相似度损失，并根据分类器预测将以及预测置信度存入特征缓存区；

7、步骤4，计算和之间、和之间的余弦相似度损失；

8、步骤5，使用随机梯度下降法更新编码器、类平衡编码器、分类器、非线性映射器的参数，同时使用动量更新法更新动量编码器和非线性映射器的参数，完成训练并保存模型参数。

9、第二方面，本发明提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法的步骤。

10、第三方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的方法的步骤。

11、第四方面，本发明提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面所述的方法的步骤。

12、本发明与现有技术相比，其显著优点为：（1）通过关注头部类的编码器和关注尾部类的类平衡编码器构成的双分支结构，兼顾所有类别的表征学习；（2）通过基于余弦相似度损失的自监督学习发掘更全面的图像特征，让模型具有更强的泛化性。

技术特征：

1.一种基于类平衡编码器的长尾图像识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于类平衡编码器的长尾图像识别方法，其特征在于，步骤1所使用的数据增强包含autoaugment，随机水平翻转，随机改变图像亮度、对比度、饱和度、灰度以及随机高斯模糊；autoaugment每次从直方图均衡、反相、倾斜、旋转、锐化、亮度调节、色彩调节中随机选取一个对图像进行增强；编码器和动量编码器为结构相同、初始参数相同的卷积神经网络。

3.根据权利要求1所述的基于类平衡编码器的长尾图像识别方法，其特征在于，步骤2交叉熵损失的权重为，其中为输入图片类别，为训练集中类别样本量，将分类器输出加上权重后计算交叉熵损失。

4.根据权利要求1所述的基于类平衡编码器的长尾图像识别方法，其特征在于，在步骤3中，非线性映射器由线性分类器、批归一化、relu激活构成；和结构与初始化参数相同。

5.根据权利要求1所述的基于类平衡编码器的长尾图像识别方法，其特征在于，在步骤4中，和之间的余弦相似度损失为

6.根据权利要求1所述的基于类平衡编码器的长尾图像识别方法，其特征在于，步骤5的动量更新法为

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1~6中任一项所述的方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1~6中任一项所述的方法的步骤。

9.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-6中任一所述的方法的步骤。

技术总结
本发明公开了一种基于类平衡编码器的长尾图像识别方法，包括以下步骤：对输入图片使用两种不同的数据增强方法，获得两组样本；将两组样本分别输入编码器、类平衡编码器与动量编码器，得到三组特征表示；将编码器与类平衡编码器输出的特征表示输入分类器进行分类并根据图像真实标签计算加权的交叉熵损失；将三组特征表示分别进行非线性映射以及二范数归一化；计算余弦相似度损失；对编码器、类平衡编码器和分类器进行随机梯度下降优化，对动量编码器进行动量优化。在自然物种识别任务中，本发明利用类平衡编码器增强对于稀缺物种样本的特征学习，并使用自监督训练学习更全面的特征表示，可提高自然场景下物种图像识别准确率。

技术研发人员：沈阳,孙旭豪,魏秀参
受保护的技术使用者：南京理工大学
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：沈阳孙旭豪魏秀参
技术所有人：南京理工大学
我是此专利的发明人

上一篇：用于降落在竖直结构上的混合动力无人机的制作方法
上一篇：一种醋酸纤维素定量提取装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。