基于样本增强与实例感知的真实场景行人检索方法

文档序号：31660746发布日期：2022-09-27 23:01阅读：58来源：国知局

1.本发明涉及计算机视觉领域，具体涉及一种基于样本增强与实例感知的真实场景行人检索方法。

背景技术：

2.行人检索是计算机视觉领域最近的一个热门话题，它整合了行人检测和行人重识别(re-id)，目的是从图像库中定位一个目标人物。与re-id任务相比，行人检索更接近实际应用，可用于视频监控、寻找丢失的人等。现有的行人检索任务由融合训练(端到端)或是相互独立训练(两阶段)的行人检测阶段和行人再识别(re-id)阶段组成，因此面临着效率低下且难以获得判别性特征等重大挑战。然而，一些工作要么转向性能受到任务冲突的限制的端到端框架，要么一直试图获得更准确的边界框。很少有两阶段的行人检索方法研究关注行人检索数据集中的样本特异性对训练细粒度re-id模型的影响，也很少有研究考虑如何以更有效的方式从边界框中获得更具判别性的行人特征，不能有效提高检测的精确度和准确度。

技术实现要素：

3.有鉴于此，本发明的目的在于提供一种基于样本增强与实例感知的真实场景行人检索方法，实现更高效且更具判别性的行人检索。
4.为实现上述目的，本发明采用如下技术方案：
5.一种基于样本增强与实例感知的真实场景行人检索方法，包括以下步骤：
6.步骤s1：基于yolov5构建并训练检测模型，并将待处理的图像通过检测模型，获得预测的边界框；
7.步骤s2：将预测边界框送入样本增强组合sec，对出现的假阳性边界框进行抑制；同时将图像的真实边界框会送入sec，通过sec随机抖动后生成若干边界框，这些边界框与预测边界框一起作为检测阶段产生的边界框，送入重识别阶段；
8.步骤s3：在重识别阶段，输入的图像被送入全粒度特征提取网络osnet的1-3层网络结构，提取整体图像特征；
9.步骤s4：在整体图像特征与检测阶段产生的边界框送入特征裁剪模块roialign，获得根据边界框从整体图像中裁剪后得到的行人特征；
10.步骤s5：裁剪所得的行人特征被送入osnet4-5层网络结构，提取256维度特征；
11.步骤s6：通过实例感知损失函数进行优化，利用无标签信息以监督特征学习，获得最终检测结果。
12.进一步的，所述步骤s1具体为：
13.s11：将行人检索数据集中的边界框真实值数据与行人图像数据提取出来，构建行人检测数据集，使用yolov5检测模型在此数据集上训练，获得训练好的行人检测模型权重；
14.s12：在行人检索任务训练中，输入待处理的图像，将其进行固定图像大小调整预
处理后，输入离线训练好的yolov5检测模型中，检测输入图像获得图中所有行人的预测边界框。
15.进一步的，所述步骤s2具体为：
16.s21：将预测边界框送入样本增强组合sec，对出现的假阳性边界框进行抑制，对预测边界框进行置信度过滤处理；
17.s22：在训练阶段，将图像的真实边界框会送入sec，通过sec随机抖动后生成多个高质量边界框，以预设范围[c
x
±
x_δ，cy±
y_γ]随机抖动每个边界框的真实值，其中x_δ，y_γ～int(1，5)，c
x
，cy是真实值的中心点x轴坐标和中心点y轴坐标；；
[0018]
s23：抖动的边界框与预测边界框一起作为检测阶段产生的边界框，送入重识别阶段。至于推理阶段，sec不产生随机抖动的边界框。
[0019]
进一步的，对无标签和有标签的身份分别设置了不同的抖动生成的边界框值，在检测阶段生成的边界框总数n
bbox
如下：
[0020]nbbox
＝n
det
+n
jittered
，
[0021][0022]
其中n
det
表示检测结果的数量，n
jittered
表示由边界框生成增量产生的边界框的数量，而表示真实值中标签/未标签身份的数量。n_α是真实值中每个标记身份的抖动数字，n_β是真实值中每个未标记身份的抖动数字
[0023]
进一步的，所述步骤s4具体为：
[0024]
s41：在整体图像特征与检测阶段产生的边界框送入特征裁剪模块roialign；
[0025]
s42：roialign根据边界框从整体图像特征中裁剪去对应的特征区域，并重新调整大小；
[0026]
s43：调整后的特征块经过池化层获得每个行人的特征表示。
[0027]
进一步的，所述步骤s6具体为：
[0028]
s61：当输入的行人数据都有身份标签时，实例感知损失函数isl如下所示，isl有一个查找表和一个循环队列来分别存储标记的身份和未标记的身份，其中d表示特征维度，nn是所有标签身份类别的数量，q是循环列表的大小，其公式写成：
[0029][0030][0031]
其中，vi是查找表v中第i类的特征，fi指输入特征f属于第i类行人身份(i∈[1，nn]，每个行人都属于一类)，pi是fi被识别为第i类标签身份的概率，pk是fi被识别为第k个
无标签身份的概率(k∈[1，q])，表示fi被分类为v的第j类标签身份的置信度，表示fi被分类为u的第k个未标签身份的置信度；τ是平滑不同类别的概率分布的温度参数；isl损失是优化pi的对数可能性；vi在l2归一化后以固定动量v_η被更新，公式如下所示：
[0032]
vi←
v_ηvi+(1-v_η)fi，v_η∈[0，1]
[0033]
s62：如当输入行人数据满足预设条件时，循环列表中的无标签身份会被更新，否则直接加入循环列表尾部。
[0034]
进一步的，所述预设条件，包括：
[0035]
1)输入行人数据是无标签的；
[0036]
2)与查找表中的身份相比，输入的身份与循环列表中的身份更相似，且相似度分数大于固定的阈值；此时的isl损失中未标记的身份被更新的方式如下公式，其中pk的最大值表示为pi的最大值表示为u
(len(u)+1)％q
表示当前循环列表尾部；更新因子用u_θ表示，相似性阈值用u_ε表示；行人特征输入isl损失，实现实例感知特征学习；
[0037][0038]
一种基于样本增强与实例感知的真实场景行人检索系统，，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上述的方法步骤。
[0039]
本发明与现有技术相比具有以下有益效果：
[0040]
1、本发明提出了一种融合样本增强和实例感知的两阶段框架，通过简化边界框的使用和专注于获得更多的判别性特征，将两阶段的准确性和端到端的简单性结合起来；
[0041]
2、本发明设计了一种样本增强组合来提高行人检索中检测阶段的边界框的质量和数量，从而为训练细粒度re-id模型提供更多更好的训练样本；
[0042]
3、本发明设计了一种实例相似度损失，通过利用不同的未标记实例之间的相似性来提高oim损失中循环队列的特征表现力，从而进一步增强了判别性表征的学习，有效提高行人识别准确度。
附图说明
[0043]
图1是本发明方法流程图。
具体实施方式
[0044]
下面结合附图及实施例对本发明做进一步说明。
[0045]
请参照图1，本发明提供一种基于样本增强与实例感知的真实场景行人检索方法，具体包括以下步骤：
[0046]
s1：输入待处理的图像进入离线训练好的检测模型yolov5，获得预测的边界框；
[0047]
s2：将预测边界框送入样本增强组合sec，对出现的假阳性边界框进行抑制；同时将图像的真实边界框会送入sec，通过sec随机抖动后生成多个高质量边界框，这些边界框与预测边界框一起作为检测阶段产生的边界框，送入重识别阶段；
[0048]
s3：在重识别阶段，输入的图像被送入全粒度特征提取网络osnet的1-3层网络结构，提取整体图像特征；
[0049]
s4：在整体图像特征与检测阶段产生的边界框送入特征裁剪模块roialign，获得根据边界框从整体图像中裁剪后得到的行人特征；
[0050]
s5：裁剪所得的行人特征被送入osnet4-5层网络结构，提取256维度特征；
[0051]
s6：通过实例感知损失函数进行优化，利用无标签信息以监督特征学习
[0052]
在本实施例中，所述s1具体为：
[0053]
s11：将行人检索数据集中的边界框真实值与行人图像提取，构建行人检测数据集，使用yolov5检测模型在此数据集上训练，获得训练好的行人检测模型权重；
[0054]
s12：在行人检索任务训练中，输入待处理的图像，将其进行固定图像大小调整预处理后，输入离线训练好的yolov5检测模型中，yolov5不参与训练，其中yolov5的置信度阈值和nms阈值都固定，并采用s11训练好的权重，检测输入图像获得图中所有行人的预测边界框。
[0055]
在本实施例中，所述s2具体为：
[0056]
s21：在训练阶段，将预测边界框送入样本增强组合sec，对出现的假阳性边界框进行抑制，sec设置分类置信度阈值为0.5，对预测边界框进行置信度过滤处理，只有具有高置信度的检测结果才被认为是合格的边界框。至于推理阶段，分类置信度阈值被设置为0.01，以获得更多的可能的候选者；
[0057]
s22：在训练阶段，将图像的真实边界框会送入sec，通过sec随机抖动后生成多个高质量边界框，它以一个很小的范围[c
x
±
x_δ，cy±
y_γ]随机抖动每个边界框的真实值，其中x_δ，y_γ～int(1，5)，c
x
，cy是真实值的中心点x轴坐标和中心点y轴坐标。由于数据集的特殊性，我们对无标签和有标签的身份分别设置了不同的抖动生成的边界框值，在检测阶段生成的边界框总数n
bbox
如下：
[0058]nbbox
＝n
det
+n
jittered
，
[0059][0060]
其中术语n
det
表示检测结果的数量，n
jittered
表示由边界框生成增量产生的边界框的数量，而表示真实值中标签/未标签身份的数量。n_α是真实值中每个标记身份的抖动数字，n_β是真实值中每个未标记身份的抖动数字；
[0061]
s23：抖动的边界框与预测边界框一起作为检测阶段产生的边界框，送入重识别阶段。至于推理阶段，sec不产生随机抖动的边界框；
[0062]
在本实施例中，所述s3具体为：在重识别阶段，将输入的图像被送入全粒度特征提取网络osnet的1-3层网络结构，提取整体图像特征。
[0063]
在本实施例中，所述s4具体为：
[0064]
s41：在整体图像特征与检测阶段产生的边界框送入特征裁剪模块roialign；
[0065]
s42：roialign根据边界框从整体图像特征中裁剪去对应的特征区域，并重新调整大小为14
×
14；
[0066]
s43：调整后的特征块经过池化层获得每个行人的特征表示；
[0067]
在本实施例中，所述s5具体为：裁剪所得的行人特征被送入osnet4-5层网络结构，
提取256维度特征。
[0068]
在本实施例中，所述s6具体为：
[0069]
s61：当输入的行人数据都有身份标签时，实例感知损失函数isl如下所示，isl有一个查找表和一个循环队列来分别存储标记的身份和未标记的身份，其中d表示特征维度，nn是所有标签身份类别的数量，q是循环列表的大小，其公式可以写成：
[0070][0071][0072]
其中，vi是查找表v中第i类的特征，fi指输入特征f属于第i类行人身份(i∈[1，nn]，每个行人都属于一类)，pi是fi被识别为第i类标签身份的概率，pk是fi被识别为第k个无标签身份的概率(k∈[1，q])，表示fi被分类为v的第j类标签身份的置信度，表示fi被分类为u的第k个未标签身份的置信度。τ是平滑不同类别的概率分布的温度参数。isl损失是优化pi的对数可能性。vi在l2归一化后以固定动量v_η被更新，公式如下所示。
[0073]
vi←
v_ηvi+(1-v_η)fi，v_η∈[0，1]
[0074]
s62：如当输入行人数据满足两个条件时，循环列表中的无标签身份会被更新，否则直接加入循环列表尾部。1)输入行人数据是无标签的；2)与查找表中的身份相比，输入的身份与循环列表中的身份更相似，且相似度分数大于固定的阈值。此时的isl损失中未标记的身份被更新的方式如下公式，其中pk的最大值表示为pi的最大值表示为u
(len(u)+1)％q
表示当前循环列表尾部。更新因子用u_θ表示，而相似性阈值用u_ε表示。行人特征输入isl损失，实现实例感知特征学习；
[0075][0076]
本实施例还提供了一种基于样本增强与实例感知的真实场景行人检索方法，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-7所述的方法步骤。
[0077]
本实施例还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。
[0078]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0079]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0080]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0081]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0082]
以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：柯逍刘浩
技术所有人：福州大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。