一种基于多模态学习的细粒度图像分类方法

文档序号：35421551发布日期：2023-09-13 08:33阅读：137来源：国知局

本发明属于图像识别，更为具体地讲，涉及一种基于多模态学习的细粒度图像分类方法。

背景技术：

1、近年来，图像分类已成为计算机视觉领域的一个重要研究方向，并在自动驾驶、人脸识别等诸多现实场景中得到应用。图像分类的研究工作主要基于监督学习方法，即使用机器学习或深度学习方法对人工标记的数据集进行学习、分类和识别。传统的图像分类方法只专注于对猫、狗、场景等区分度高的对象进行分类。然而，大类的对象仍然可以细分为更多小类。例如，在鸟类图像分类中，可以将鸟类细分为不同种类的鸟类类别，使用传统方法很难识别这些细粒度的差异。细粒度图像分类是指对细粒度子类的识别。细粒度数据集的特点是类内差异大且类间差异小。例如，属于相似子类别的两个物种的图像看起来很相似，但属于相同类别的物种在不同的光照下或保持不同的姿势时可能看起来不同。细粒度图像分类的难点在于挖掘视觉相似度高的不同物种的细微视觉差异。因此，与传统的图像分类相比，细粒度图像分类要求分类模型更高效地学习图像中微小的特征。

2、除了最大限度地提高模型学习不同类别图像之间微小差异的能力外，引入与图像相关的多模态信息来辅助分类也是提高细粒度图像分类准确率的有效途径。一些公共数据集不仅包含大量图片，还包含摄影师在拍照时的一些信息。例如，图片拍摄地点的经纬度信息可以反映物种的栖息地分布，图片拍摄时间可以反应物种的活动时间等。科学地利用这些数据可以区分外观非常相似但栖息地和生活习性不同的物种，进而提高细粒度图像分类的准确率。inaturalist2018、inaturalist2021等网络公开权威数据集不仅包含大量图像，还包含与图像相关的多模态信息，本文基于这些数据集进行了一系列实验，验证了所提出方法的有效性。

3、目前，有一些方法将多模态信息应用于细粒度图像分类。kevin tang等人首先将多模态特征引入细粒度图像分类，通过mlp(多层感知机)网络提取年龄、日期等附加信息的特征，并将其与图像特征连接起来实现类别预测。oisin mac aodha等人开发了一种地理先验策略来微调具有地理信息的图像特征的预测。grace chu等人使用地理位置先验模型、后处理模型和特征调制模型来利用多模态信息。j.christopher等人使用乘法策略来整合预测结果。这些基于多模态信息的细粒度图像分类方法取得了优异的分类精度结果。然而，它们在多模态数据预处理方法、多模态特征提取方法、融合特征方法以及决策策略方面存在不足。本文在学习和参考这些方法的基础上，提出了改进方法。

技术实现思路

1、本发明的目的在于克服现有技术的不足，提供一种基于多模态学习的细粒度图像分类方法，使城域网与接入网得到有效融合，同时具有可扩展、高灵活以及低成本的性能。

2、为实现上述发明目的，本发明一种基于多模态学习的细粒度图像分类方法，其特征在于，包括以下步骤；

3、(1)、数据采集；

4、从已知数据集中下载不同物种的原始图片及对应的附加信息文件，附加信息文件中包含有原始图片拍摄时的纬度信息lat、经度信息lon、时间信息data，以及图片中对应的物种类别标签；

5、(2)、附加信息文件预处理；

6、(2.1)、将纬度信息lat与经度信息lon进行连接得到位置信息loc，再对位置信息loc进行非线性化处理；

7、loc＝concat(lat,lon)

8、

9、(2.2)、将时间信息data进行非线性化处理；

10、

11、(3)、将非线性化处理后的位置信息和时间信息分别通过可训练的线性层后再进行拼接，得到时空信息xm：

12、

13、其中，f(·)表示可训练的线性层；

14、(4)、在原始图像中加入多模态信息标签；

15、(4.1)、生成多模态信息标签；

16、将时空信息xm直接作为多模态信息标签或使用单层或多层mlp对时空信息xm进行初步特征提取后再作为多模态信息标签；

17、(4.2)、将多模态信息标签添加至原始图像；

18、将多模态信息标签与原始图像边缘处对应尺寸下的色素点进行直接替换；或将多模态信息标签与原始图像边缘处对应尺寸下的色素点进行像素点乘；

19、(5)、通过搭建自注意力多层感知机samlp网络提取多模态特征zm；

20、samlp网络由四个samlp模块串联组成，在每个samlp模块中依次包括串联的自注意力机制模块、多层感知机mlp和前馈网络；

21、将时空信息xm输入至samlp网络，通过自注意力机制模块提取相似度特征再通过mlp提取特征其中，relu()表示激活函数，ln()表示层正则化；然后通过前馈网络提取特征其中，dropou(t)表示随机失活，f1(),f2()均表示可训练的线性层；最终使samlp网络输出多模态特征zm；

22、(6)、提取视觉特征zi；

23、利用混合数据增强mix-up方法对添加过多模态信息标签的原始图像进行增强处理，得到增强后的新图像，再使用res2net网络提取新图像的视觉特征zi；

24、(7)、特征融合；

25、(7.1)、利用多模态特征zm对视觉特征zi进行注意力增强；

26、计算多模态特征zm与视觉特征zi的向量相似度，再以相似度为权重对视觉特征zi进行注意力增强；

27、(7.2)、多级联动态mlp的特征融合；

28、在单个动态mlp中，将多模态特征zm与视觉特征zi进行特征拼接，再分别通过不同的mlp进行动态滤波和大小调整，最后将调整后的两个特征相乘得到新的视觉特征zi，并作为下一级动态mlp的视觉特征输入，并以此类推，最后通过最后一级动态mlp输出融合特征；

29、

30、其中，mlp1与mlp2表示输出大小不同两个的mlp网络，concat()表示特征拼接过程；

31、(8)、训练网络至收敛；

32、(8.1)、通过归一化指数函数softmax分别计算物种类别标签对应的多模态特征和融合特征的预测概率；

33、(8.2)、计算损失函数值loss；

34、loss＝loss1+loss2

35、

36、

37、其中，loss1为res2net网络的损失值，loss2为samlp网络的损失值，λ为标签平滑系数，k为物种类别数量，p表示输入图片的真实标签值，qi,j为融合特征预测第j个类别的概率，qm,j为多模态特征预测第j个类别的概率；

38、(8.3)、通过反复训练直至损失函数值loss收敛；

39、(9)、细粒度图像的实时分类；

40、(9.1)、将待分类的图像按照步骤(2)-(8.1)进行处理，从而计算物种类别标签对应的多模态特征和融合特征的预测概率；

41、(9.2)、在融合特征预测的概率中选出前n个最大概率值，然后将这n个概率值对应的标签pred1_k构成标签集pred1＝{pred1_k}；在多模态特征预测的概率中选出前n个最大概率值，然后将这n个概率值对应的标签pred2_k构成标签集pred2＝{pred2_k}，k＝1,2,…,n；

42、(9.3)、计算标签的综合概率total_prob：

43、记标签pred1_k、pred2_k对应的概率分别为pr1ed__k和pred2_k_prob；

44、

45、其中，条件1是指：某标签同时存在于标签集pred1和标签集pred2中，则该标签的综合概率total_prob是pred1_k_prob和pred2_k_prob之和；条件2是指：如果某标签只出现在标签集pred1中且排在第一位，则该标签的综合概率total_prob是pred1中排在第一位的概率值和pred2中排在第最后一位的概率值之和；条件3是指：如果某标签只出现在标签集pred1中且没有排在第一位，则该标签的综合概率total_prob是pred1_k_prob；

46、(9.4)、如果标签集pred1中排名第一的标签出现在pred2中，则直接将pred1中排名第一的标签作为输出的物种类别；否则，将total_prob作为最终的预测概率，然后输出对应的物种类别。

47、本发明的发明目的是这样实现的：

48、本发明基于多模态学习的细粒度图像分类方法，先从已知数据集中下载不同物种的原始图片及对应的附加信息文件，通过对附加信息文件进行预处理后，用于训练提取多模态特征和融合特征的神经网络并收敛，然后通过收敛的神经网络对应细粒度图像进行标签概率预测，再对两个神经网络的预测概率进行决策修正，最后根据修正结果输出图像中物种的类别。

49、同时，本发明基于多模态学习的细粒度图像分类方法还具有以下有益效果：

50、(1)、本发明提出了一种多模态信息预处理方法，解决了多模态信息处理复杂，分布不同等问题，提供了一种固定有效的数据预处理方法。

51、(2)、本发明提出了一种多时段的特征融合方法，它包含前期特征融合和后期特征融合两部分，多时段融合方法在高维度，不同时段以及不同深度将多模态特征与视觉特征融合，具有优异的特征融合效果。

52、(3)、本发明提出了一个samlp模块来提高提取多模态特征的能力，现有方法中多模态信息的特征提取主要基于mlp，结构简单，特征提取能力不足，samlp为多个多模态数据输入建立关联，根据输入向量的内部相关性增强有效数据，提高多模态数据的利用率。

53、(4)、本发明提出了一种决策校正策略，根据多模态特征的预测结果直接校正最终预测的标签；决策修正策略不会大规模推翻原来的预测结果，而是根据多模态特征的预测结果在一定程度上直接干预最终的预测结果，在决策阶段将无法进行特征融合的部分进行一定程度的互补。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐杰张笑谦郑豪冯渝荏刘恒耿子力
技术所有人：电子科技大学
我是此专利的发明人

上一篇：一种胶膜的形成方法及光伏组件与流程
上一篇：一种多元复杂白铜合金材料及其粉末冶金工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。