一种结合图像和实例特征的模糊混合实例搜索方法

文档序号：33374650发布日期：2023-03-08 03:33阅读：30来源：国知局

1.本发明涉及计算机视觉目标识别和模糊信息检索领域，尤其是一种基于卷积神经网络的结合完整图像特征信息和识别目标对象特征信息的搜索方法。

背景技术：

2.自动驾驶和智能机器人通常使用摄像头收集视频和连续图像，以增强环境识别和导航等任务。运动的车辆和机器人在采集图像/视频时，带有运动模糊(with motion blur)的图像/视频频繁出现。这些带有模糊的图像/视频可能会成为信息检索的目标。实例搜索(instance search)在计算机视觉领域已经被研究了多年，作为一项基本任务，实例搜索直接从整个场景图像中检索查询对象，即使实例只占图像的一小部分，也适用于环境识别和导航场景中的多媒体和视频图像语义分析。实例搜索任务的目标是从数据库中检索包含查询实例的那些图像(例如，在查询图像中作为边界框提供)。因此，与基于内容的图像检索(content based information retrieval，cbir)相比，由于查询的多样性和响应的及时性，实例搜索是一项更高级、更具挑战性的任务。当前的研究领域，缺少关于上述模糊图像的实例搜索。
3.在真实场景中，由于摄像机的校准由于安装在移动智能车辆和机器人上，采集到的视频和图像中会出现大量模糊帧，这会影响实例搜索的性能。目前，已经提出了许多算法来解决由于图像中的模糊而导致的目标检测精度下降的问题。通常，这些算法利用一些图像论证方法生成包含模糊图像的数据集，并训练卷积神经网络(convolutional neural network,cnn)进行目标检测。但是，目前没有文献解决直接从带有模糊的图像中搜索实例的问题。

技术实现要素：

4.本发明的目的是提供了一种模糊混合查询，将图像特征和实例特征相结合，对模糊图像进行实例搜索的方法。并且还设计并采集了一个类似trecvid ins的数据集，对其进行性能实验。
5.实现本发明目的的具体技术方案是：
6.一种结合图像和实例特征的模糊混合实例搜索方法，该方法包括以下具体步骤：
7.步骤1：查询模糊混合
8.在图像库中对实例搜索查询，得到查询图像i，将该查询图像进行模糊增强，使用具有不同模糊度的模拟模糊核，采用模糊化算法将查询图像转换成模糊图像，得到n个不同模糊度的模糊图像i
b1
,i
b2
,...i
bn
；然后，将模糊图像与原始图像进行混合，混合具体包括：
9.1)像素级混合
10.以图像的rgb值直接将查询图像及其模糊图像，在每像素模糊图像相加，然后取平均值，得到混合图像；将混合图像作为一个新的查询图像输入到深度卷积神经网络cnn结构中，进行特征抽取；查询图像i在(x,y)像素的rgb值为v
ix,y
，则混合图像im的rgb值由以下公
式计算：
[0011][0012]
2)特征级别混合
[0013]
首先提取查询图像及其模糊图像i
b1
,i
b2
,...i
bn
的cnn特征，然后进行混合；并将新的混合特征作为实际的查询特征用作之后的查询使用；将查询图像i通过cnn抽取的特征用向量fi表示，其中，每一个维度z为f
zi
；模糊特征的混合分为三个：相加平均和最大值计算公式分别如下：
[0014][0015][0016][0017]
步骤2：基于图像特征的排序
[0018]
混合的结果将作为图像特征进入到排序，对整个图像库进行过滤得到一个粗略排序；排序使用以下相似函数，其中fa为图像a的特征向量，|
·
|为求内积，
·
是向量乘法；
[0019][0020]
根据图像库中的每张图片fc与混合后的查询图片im的向量进行相似度计算，并根据相似度进行排序得到排序结果；
[0021]
步骤3：基于实例特征的重排序
[0022]
首先，进行查询扩展qe；qe将在基于图像特征的排序结果中选取排名最靠前的k个结果，作为扩展对象图像；查询图像经过步骤1模糊混合后的全局特征与查询在cnn中区域建议网络rpn特征作为查询特征，执行新一轮的搜索；rpn提供的特征包含图像中的实例特征和roi区域的特征，表示为r1,r2,...,rm，添加了roi区域特征的最终特征为ε；应用操作子计算ε，可采用归一化的取最大值、取和或取平均，计算公式为：
[0023][0024]
再以最终特征ε计算重排序结果，并将靠前的结果作为查询结果。
[0025]
本发明利用图像特征完成首次排序，再利用实例特征的再次排序进行增强的查询提升。
[0026]
本发明中，cnn网络的构建采用计算速度更快的rcnn网络，其中图像特征和实例特征均采用cnn网络中的resnet主干网络，因此ε的计算在同一网络中获取并计算；特别地，在得到区域建议网络rpn实例特征过程中，采用rcnn的conv5_3版本，并将它的roi池层分离后进行特征提取。
[0027]
本发明带有模糊图像的实例搜索是这样实现的：包含三个部分：用于模糊的查询处理、用于第一次排序的基于cnn的图像特征、用于重新排序的基于区域建议网络region proposal network,rpn的实例特征。如前所述，在实例搜索中仍然没有适合物理和真实场景的数据集。现有的实例搜索数据集中于清晰的图像，很少包含模糊的图像。根据coco-c
[9]和模糊视频跟踪blurred video tracking,缩写为bvt，在本发明中提出了一个实例搜索基准，专门用于访问具有运动模糊的图像的任务鲁棒性。它被命名为模糊实例搜索blur ins基准测试，用于is任务。模糊实例搜索同时满足上述blurins图像和视频场景。
[0028]
针对实例搜索，本发明借助于从视频或带有模糊的图像中重新识别对象的任务。首先，使用目标跟踪算法来识别特定类型的目标，并在作为基准的真实数据集中使用模糊标记这些图像的目标。其次，使用预先训练的卷积网络进行实例搜索，以获取查询中可能包含相同实例的帧。为了检验解决方案的有效性，定义了视频/图像模糊的程度。因此，可以对不同模糊度的图像查询进行实验。还使用排名平均精度作为测试度量，它由正确检索项目在排名检索结果中的位置定义。关键的gopro数据作为模糊视频或图像库用于实例搜索。
[0029]
本发明将增强实例搜索在以运动模糊图片数据为对象的搜索效果，在有相似背景和包含同一实体图像的图像搜索中能获得较好的搜索效果。为自动驾驶和运动机器人处理视觉相关的检索任务，如目标跟踪，物体重识别等，提供更好的检索支持。
附图说明
[0030]
图1为本发明流程图；
[0031]
图2为不同模糊核和随机模糊角度的合成运动模糊图；
[0032]
图3为blur-ins数据集中正例样本与测试查询检索数量分布情况示意图；
[0033]
图4为数据集中混淆图例抽样示意图。
具体实施方式
[0034]
以下结合附图对本发明做进一步详细描述。
[0035]
参阅图1，本发明包括以下具体步骤：
[0036]
步骤1：查询模糊混合
[0037]
向搜索系统提出一个实例搜索查询。它将被用于模糊增强，即使用具有不同模糊度的模拟模糊核(显示在最左侧的虚线框中)，使查询图像模糊。然后，在本发明方法中有两个分支。查询图片i包含n个不同模糊度的模糊图像i
b1
,i
b2
,...i
bn
。在混合阶段使用不同的混合策略：
[0038]
1)像素级混合
[0039]
以rgb值直接将查询图像及其每像素模糊图像相加，然后取平均值。将混合图像作为一个新的查询图像输入到典型的深度卷积神经网络结构中，如resnet50，vgg16等。这些特征可以通过激活这些瓶颈网络块来表达全局信息。图像i在(x,y)像素的rgb值为v
ix,y
，则混合后图像im的rgb值由以下公式计算：
[0040][0041]
2)特征级别混合
[0042]
首先提取查询图像及其模糊图像的cnn特征。特征级别的模糊混合分为三个步骤：相加、平均和合并。并将新的混合特征作为实际的查询特征进行处理，之后再使用。将图像i通过cnn抽取的特征用向量fi表示，其中，每一个维度z为f
zi
，模糊特征和模糊特征的混合分为三个步骤：相加、平均和合并，计算公式分别如下：
ins中真实正例的分布。
[0056]
为了验证解决方案，进行了消融实验，以确保运动模糊确实影响实例搜索的结果，并验证了本发明方法的技术正确性和可行性。将数据分为两类，一类是轻度模糊的图像，另一类是重度模糊的图像。这里，使用模糊度判断算法，该算法利用一些模糊核来调整或测量特定图像的模糊度。它使用一个参数设置模糊度，该参数在图像更模糊时更大。将图像设置为轻度模糊，k＝10，中度模糊，k＝30，重度模糊，k＝60(见图2)。
[0057]
还向数据集中添加了大量不易被察觉的反例和干扰图像，以更好地评估鲁棒性。它们具有一些与查询类似的功能，例如具有相同的背景或场景。图4中有一个混乱的图像示例，最右边的图像是一个混乱的图像，它与其他图像具有相同的场景，但没有目标实例。
[0058]
利用平均精度(map)指标来评估检索任务的性能。在表1中总结了结果。图像库分为两类：简明集(无混淆图像)和混淆集。对于每种类型的集合，进一步将它们划分为不同的模糊度部分。为了真实性和公平性，用于生成模糊数据库图像的方法不同于混合阶段使用的方法。对于每个分区，尝试不同的混合或qe策略，并计算表1中的平均map值。可以看到，在简洁的集合和较轻的模糊度部分的效果优于其他部分。此外，这表明两种混合策略都有利于搜索结果。最佳地图值以粗体显示。研究表明，难度越高，量化宽松效应就越弱，甚至无效，比如在重简明和中等混乱的部分。当难度较大时，像素级的混合策略远不如特征级，在中等混淆情况下的性能甚至比不进行任何处理的尖锐查询还要差。分析了像素级混合模糊变换似乎存在噪声的情况，否则会对结果带来负面影响。当难度降低时，两种混合策略的效果几乎相同。
[0059]
表1本发明在不同难易和模糊程度下实例搜索的效果
[0060][0061]
以上只是对本发明作进一步的说明，并非用以限制本发明，凡为本发明等效实施，均应包含于本发明的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汪洋张逸星
技术所有人：华东师范大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。