基于预训练跨模态检索的小样本多要素场景图像识别方法

文档序号：36930898发布日期：2024-02-02 21:56阅读：15来源：国知局

本发明属于人工智能，涉及一种场景识别方法，尤其涉及一种基于预训练跨模态检索的小样本多要素场景图像识别方法。

背景技术：

1、场景识别是将图像分类为预定义的场景类别之一。往往根据图像的环境内容、物体及其布局进行分类，如厨房、森林和客厅等。可以帮助机器理解图片中周围的环境，有助于机器对过去和未来事情的理解，广泛应用于多个科技领域，如智能机器人、智能驾驶和智能视频监控等。现有的场景识别技术常采用端到端的深度学习框架，直接输出图片的各个场景预测概率值，相关改进往往是针对图像特征进行。

2、基于全局cnn特征的方法是直接根据整个场景图像来预测场景类别的。通常，全局cnn特征是通过cnn模型从输入图像中提取得到的,该模型首先在大规模数据集上预先训练(参考文献deng j,dong w,socher r,et al.imagenet:a large-scale hierarchicalimage database[c]//2009ieee conference on computer vision and patternrecognition.leee,2009:248-255；zhou b,lapedriza a,xiao j,et al.learning deepfeatures for scene recognition using places database[j].advances in neuralinformation processing systems,2014,27:1-9；zhou b,lapedriza a,khosla a,etal.places:a10million image database for scene recognition[j].ieeetransactions on pattern analysis and machine intelligence,2017,40(6):1452-1464)，然后在目标数据集上微调(参考文献xiao j,hays j,ehinger k a,et al.sundatabase:large-scale scene recognition from abbey to zoo[c]//2010ieeecomputer society conference on computer vision and pattern recognition.ieee,2010:3485-3492；quattoni a,torralba a.recognizing indoor scenes[c]//2009ieeeconference on computer vision and pattern recognition.ieee,2009:413-420)。伴随着深度网络变得更深更复杂,这促使来自这些网络的全局表征也能够在包括场景分类在内的许多任务上实现更好的性能。除了通用的cnn之外,一些特定于场景识别的cnn被设计用于提取全局特征。zuo等人提出了层次lstm(hlstm)来描述上下文关系(参考zuo z,shuaib,wang g,et al.learning contextual dependence with convolutional hierarchicalrecurrent neural networks[j].ieee transactions on image processing,2016,25(7):2983-2996)。liu等人提出了dl-cnn模型，从整个场景图像中提取稀疏全局特征(参考xie l,lee f,liu l,et al.scene recognition:a comprehensive survey[j].patternrecognition,2020,102:107205)。hayat等人设计了一种空间非结构化层,以应对大规模空间布局变形和尺度变化的挑战(参考hayat m,khan s h,bennamoun m,et al.a spatiallayout and scale invariant feature representation for indoor sceneclassification[j].ieee transactions on image processing,2016,25(10):4829-4841)。

3、科研人员发现，不同层的特征是互补的。低层特征通常捕捉小物体，而高层特征捕捉大物体(参考wu r,wang b,wang w,et al.harvesting discriminative meta objectswith deep cnn features for scene classification[c]//proceedings of the ieeeinternational conference on computer vision.2015:1287-1295)。虽然使用来自不同层的所有特征似乎可以改善最终的网络性能，但也会导致网络过拟合，从而损害性能。所以很多方法只从某些层提取特征。例如xie等人构建了两种基于字典的表示法，通过cfv和mlr来对辅助场景图像分类(参考xie g s,zhang x y,yan s,et al.hybrid cnn anddictionary-based models for scene recognition and domain adaptation[j].ieeetransactions on circuits and systems for video technology,2015,27(6):1263-1274)。tang等人自下而上将googlenet的图层分为三个部分，并提取每个部分的最终特征图。liu等人分别从resnet中每个残差块中提取特征图。

4、仅使用单一且紧凑的特征表征来描述复杂的场景是一项艰巨的任务。科研人员发现，根据不同数据集训练的网络生成的特征通常是互补的。herranz等人发现了以物体为中心的cnn和以场景为中心的cnn的最佳比例响应。这一发现被广泛应用，例如wang等人外使用以物体为中心的cnn来携带图像中描绘的物体的信息，而以场景为中心的cnn用于捕捉全局场景信息。按照这种方式，wang等人设计了patchnet,这是一种弱监督学习方法，它使用图像级监督信息作为有效提取块级特征的监督信号。为了提高识别性能，scene-patchnet和object-patchnet共同用于提取每个图像块的特征。

5、尽管场景识别技术已发展几十年，但针对类别快速多变、特殊地点(如固定拍摄区域、同一地点的不同拍摄角度、布局不变等)的视频图片场景，大多数方法仍不能满足需求：

6、1、现有的场景识别模型在训练时，是采用封闭式的标签集进行训练的，其只能识别标签集内的场景，不支持新出现类别的场景识别。

7、2、现有的场景识别模型的可解释性较低。由于先前模型多采用端到端的深度学习模型，仅输出各个场景的预测概率值，不能给出模型做出场景分类判断的依据要素。

8、3、现有的场景识别模型识别的场景多为通用场景，如自然场景、人造场景(室内/室外)等，不支持某个特有地点附近、目标功能意图的场景识别。

技术实现思路

1、针对现有技术中存在的问题，本发明的目的在于提供一种基于预训练跨模态检索的小样本多要素场景图像识别方法。本发明为使模型具备较强的场景识别能力，采用预训练技术训练强大的视觉特征提取模块。

2、本发明的技术方案为：

3、一种基于预训练跨模态检索的小样本多要素场景图像识别方法，其步骤包括：

4、1)建立图像数据库，所述图像数据库中包括多个通用场景类别的图像和若干目标场景类别的图像，每一场景类别包括多个图像，每一图像设置对应的场景类别标签；

5、2)利用场景识别模型提取所述图像数据库中每一场景类别图像的特征，得到每一场景类别对应的特征数据库；根据所述特征数据库中同一图像的特征生成一特征向量；

6、3)对于一待类别识别的图像a，利用所述场景识别模型提取该图像a的特征并生成一特征向量；

7、4)所述场景识别模型将该图像a的特征向量分别与各所述特征数据库中的特征向量进行相似度计算；将相似度最高的特征向量对应的图像的场景类别作为该图像a的场景类别。

8、进一步的，为每一场景类别设定若干与该场景类别的特点相关的场景特点关键词和场景特点物体；所述场景识别模型包括场景文本识别模型和场景物体识别模型；所述场景文本识别模型包括文本检测模型和文字识别模型，所述文本检测模型从图像i中检测出的文字后，与该图像i对应的场景类别的场景特点关键词进行匹配，将检测出的匹配文字作为图像i的文本特征；所述场景物体识别模型从图像i中检测出候选物体后，与该图像i对应的场景类别的场景特点物体进行匹配，提取检测出的匹配物体的特征作为图像i的物体特征。

9、进一步的，对于新增的场景类别，获取该新增的场景类别的若干图像加入到所述图像数据库，并利用场景识别模型提取对应图像的特征生成特征向量加入到该新增的场景类别的特征数据库中。

10、进一步的，利用pp-ssld精馏法对pp-lcnet模型进行蒸馏处理得到所述场景识别模型；对所述场景识别模型提取的特征使用arcmargin进行处理并生成hash值，然后对所得hash值进行pact量化、去除离群点后进行激活，得到所述特征向量。

11、进一步的，采用ivf、hnsw32或flat算法从各所述特征数据库中提取特征向量与该图像a的特征向量进行相似度计算。

12、进一步的，所述场景识别模型为预训练后的视觉骨干网络。

13、进一步的，所述目标场景类别图像为具有目标场景特点的图片。

14、一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上述方法中各步骤的指令。

15、一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述方法的步骤。

16、本发明针对先前方法场景标签集合封闭的问题，提出了开放域(场景标签集合任意)的场景识别算法；首先使用大量数据预训练得到较强的视觉特征提取模块；随后通过化分类为检索的思想，为要识别的场景标签建立向量库，支持任意场景标签的图片识别。

17、本发明针对场景识别模型可解释性低的问题，提出了可解释性的场景识别算法。在模型给出场景图片标签的同时，也对图片中的感兴趣物体区域进行元素识别，给出模型做出判断的具体要素，使模型具备可解释性。

18、本发明针对特有地点和特定意图场景的识别，提出了基于检索思路的少样本场景识别算法。支持添加少量新标签的样本图像，即可实现新标签的图像识别。

19、在特征提取阶段，本发明使用视觉大规模预训练模型作为特征提取器。相较于借助描述子和词袋向量获取的特征，经过大量图片预训练后的模型提取的特征更具有鲁棒性和判别性。

20、本专利将大模型提取的特征向量直接作为检索对象，无需进行多次聚类和特征的重编码(词袋模型)获得检索对象，大大节省了时间开销。此外，本专利为每类场景图像存储了多个不同视角的特征向量，相较于单个特征向量，测试图片的特征与每类场景的多个特征中的其中一个相似度较高即可完成类别判断，从而使模型检索的准确性更优、鲁棒性更高。

21、本专利采用了更快速的向量检索算法，相较于逐个遍历所有的特征向量，本专利采用了ivf、hnsw32和flat算法，降低了检索的算法复杂度。

22、本发明的优点如下：

23、1.相比于现有技术仅支持封闭式标签集的场景识别，本提案基于化分类为检索的思路，通过将要识别的图像与图像数据库中已有的标签图像进行相似度检索，从而支持开放域的场景识别。

24、2.相比于现有场景识别模型往往仅给出分类标签的概率值，本提案同时给出了模型分类的要素判断依据。

25、3.相比于现有模型识别的场景多为通用场景，本提案支持特有地点、特定意图的场景识别。

26、4.相比于现有模型识别新场景时，往往需要重新训练模型，本提案仅需存储少量的新场景样本图片，即可完成图片识别。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：于静,熊刚,屈详颜,李镇,苟高鹏
技术所有人：中国科学院信息工程研究所
我是此专利的发明人

上一篇：一种压片机的制作方法
上一篇：一种可折弯角度检测的折弯机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。