一种人数检测方法、装置、电子设备及存储介质与流程

文档序号：29447145发布日期：2022-03-30 11:12阅读：312来源：国知局

1.本技术涉及图像处理技术领域，具体而言，涉及一种人数检测方法、装置、电子设备及存储介质。

背景技术：

2.目前，现有的电梯人数检测方法主要包括如下三种：基于人脸识别的人数检测方法、基于图像处理的人数检测方法和基于红外热传感器的人数检测方法。
3.现有技术中，基于人脸识别的人数检测方法依据人脸的检测统计搭乘电梯的人数，当人脸出现遮挡时将会存在漏检的情况；基于传统图像处理的人数检测方法依靠颜色、形状等特征进行人体分割和形状检测，从而实现人数检测的功能，但对于施工升降梯这种存在较大光照变化的场景中，传统图像处理算法鲁棒性较差；基于红外热传感器的人数检测方法受温度的影响较大，当环境温度和人体温度相近时传感器的灵敏度明显下降，有时造成短时失灵。

技术实现要素：

4.本技术实施例的目的在于提供一种人数检测方法、装置、电子设备及存储介质，鲁棒性强，受光照影响较小，可以实现提高适用性和检测准确性的技术效果。
5.第一方面，本技术实施例提供了一种人数检测方法，包括：
6.获取待检测图像；
7.根据预设深度卷积神经网络对所述待检测图像进行特征提取，获得特征图；
8.通过语义特征和定位特征提取所述特征图的特征信息；
9.对所述特征信息进行处理，生成候选结果信息；
10.根据所述候选结果信息进行筛选，生成目标检测结果。
11.在上述实现过程中，该人数检测方法通过对待检测图像进行特征提取，并通过语义特征和定位特征的互相传递以及融合，进一步提升特征提取的能力，最终可以提升模型的识别精度和定位精度，从而实现了基于深度卷积神经网络的人数检测方法；该人数检测方法鲁棒性强、受光照影响较小，可以实现提高适用性和检测准确性的技术效果。
12.进一步地，所述对所述待检测图像进行特征提取，获得特征图的步骤，包括：
13.通过cbl、res unit、csp1、csp2和spp中的一种或多种模块对所述待检测图像进行特征提取，获得所述特征图。
14.在上述实现过程中，通过上述基础模块的组合使得预设深度卷积神经网络具有更深的网络结构，提升对图像更深层次特征的表征能力，从而达到提升模型检测精度的目的。
15.进一步地，所述通过语义特征和定位特征提取所述特征图的特征信息的步骤，包括：
16.通过fpn结构和网络深层对所述特征图进行处理，产生所述语义特征并向下传递；
17.通过pan结构和网络浅层对所述特征图进行处理，产生所述定位特征并向上传递；
18.通过所述语义特征和所述定位特征的互相传递和融合，获得所述特征图的特征信息。
19.在上述实现过程中，通过语义特征和定位特征的互相传递以及融合，最终可以提升模型的识别精度和定位精度。
20.进一步地，所述对所述特征信息进行处理，生成候选结果信息的步骤，包括：
21.通过卷积操作对所述特征信息进行处理，分别输出包括多个分支的候选结果信息，每个分支的候选结果信息对应一个输出矩阵；
22.对所述多个分支的候选结果信息进行解耦处理，分别进行类别预测、边界框回归和置信度的输出。
23.在上述实现过程中，将原来的一个卷积层负责多种不同类型任务(同时负责类别预测、目标预测以及边界框回归)的结构解耦成三个部分，分别进行类别预测、边界框回归和置信度的输出，这种结构避免了不同类型的任务依靠同一个卷积层推理所带来的精度损失，从而针对如施工升降梯内这种小范围密集人群的检测任务中容易出现的遮挡场景实现改进，进一步提升检测准确率。
24.进一步地，所述根据所述候选结果信息进行筛选，生成目标检测结果的步骤，包括：
25.对所述多个分支的候选结果信息进行解析，获得候选框集合；
26.根据预设置信值和非极大值抑制对所述候选框集合进行筛选，获得所述目标检测结果，其中所述非极大值抑制中diou的计算公式如下；
[0027][0028]
其中，a为预测框和真实框的交集，b为所述预测框和所述真实框的并集，b为所述预测框的中心点，b
gt
为所述真实框的中心点，ρ为所述预测框的中心点和所述真实框的中心点之间的欧式距离，c为能够同时包含所述预测框和所述真实框的最小闭包区域的对角线距离。
[0029]
在上述实现过程中，针对于yolo网络模型中后处理部分中将iou计算方法替换为diou；diou在评价候选边界框生成的质量时，不仅仅考虑重叠率，还把尺度和距离都考虑在内，可以使回归的候选框更加稳定，且对于重叠目标有一定程度的提升。
[0030]
进一步地，在所述获取待检测图像的步骤之前，还包括：
[0031]
通过鱼眼摄像头采集所述待检测图像；
[0032]
对所述待检测图像进行图像增强处理。
[0033]
在上述实现过程中，通过使用鱼眼摄像头可以覆盖更大的视野，减少视觉死角和视觉遮挡，通过图像增强的方式减少在检测过程中搭乘人员与安全帽、反光衣的强关联，并且还可以模拟不同施工升降梯在实际应用中出现的不同光照变换场景。
[0034]
进一步地，在所述获取待检测图像的步骤之后，还包括：
[0035]
对所述待检测图像中相邻四个像素点进行变换，将宽、高维度的信息转化到通道维度上，并利用卷积计算进行信息融合。
[0036]
在上述实现过程中，可以保证信息量不丢失的情况下减少计算量，加速算法推理。
[0037]
第二方面，本技术实施例提供了一种人数检测装置，包括：
[0038]
获取模块，用于获取待检测图像；
[0039]
第一提取模块，用于根据预设深度卷积神经网络对所述待检测图像进行特征提取，获得特征图；
[0040]
第二提取模块，用于通过语义特征和定位特征提取所述特征图的特征信息；
[0041]
候选结果模块，用于对所述特征信息进行处理，生成候选结果信息；
[0042]
目标检测模块，用于根据所述候选结果信息进行筛选，生成目标检测结果。
[0043]
进一步地，所述第一提取模块具体用于通过cbl、res unit、csp1、csp2和spp中的一种或多种模块对所述待检测图像进行特征提取，获得所述特征图。
[0044]
进一步地，该人数检测装置中的第二提取模块可以是信息融合模块，用于将不同尺度特征图中的语义特征和定位特征进行融合。
[0045]
进一步地，所述第二提取模块包括：
[0046]
fpn结构单元，用于通过fpn结构和网络深层对所述特征图进行处理，产生所述语义特征并向下传递；
[0047]
pan结构单元，用于通过pan结构和网络浅层对所述特征图进行处理，产生所述定位特征并向上传递；
[0048]
融合单元，用于通过所述语义特征和所述定位特征的互相传递和融合，获得所述特征图的特征信息。
[0049]
进一步地，候选结果模块包括：
[0050]
输出单元，用于通过卷积操作对所述特征信息进行处理，分别输出包括多个分支的候选结果信息，每个分支的候选结果信息对应一个输出矩阵；
[0051]
解耦单元，用于对所述多个分支的候选结果信息进行解耦处理，分别进行类别预测、边界框回归和置信度的输出。
[0052]
进一步地，所述目标检测模块包括：
[0053]
解析单元，用于对所述多个分支的候选结果信息进行解析，获得候选框集合；
[0054]
筛选单元，用于根据预设置信值和非极大值抑制对所述候选框集合进行筛选，获得所述目标检测结果，其中所述非极大值抑制中diou的计算公式如下；
[0055][0056]
其中，a为预测框和真实框的交集，b为所述预测框和所述真实框的并集，b为所述预测框的中心点，b
gt
为所述真实框的中心点，ρ为所述预测框的中心点和所述真实框的中心点之间的欧式距离，c为能够同时包含所述预测框和所述真实框的最小闭包区域的对角线距离。
[0057]
进一步地，所述人数检测装置还包括：
[0058]
采集模块，用于通过鱼眼摄像头采集所述待检测图像；
[0059]
增强处理模块，用于对所述待检测图像进行图像增强处理。
[0060]
进一步地，所述人数检测装置还包括：
[0061]
像素变换模块，用于对所述待检测图像中相邻四个像素点进行变换，将宽、高维度
的信息转化到通道维度上，并利用卷积计算进行信息融合。
[0062]
第三方面，本技术实施例提供的一种电子设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
[0063]
第四方面，本技术实施例提供的一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行如第一方面任一项所述的方法。
[0064]
第五方面，本技术实施例提供的一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行如第一方面任一项所述的方法。
[0065]
本技术公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本技术公开的上述技术即可得知。
[0066]
为使本技术的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
[0067]
为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
[0068]
图1为本技术实施例提供的一种人数检测方法的流程示意图；
[0069]
图2为本技术实施例提供的yolo网络模型的模型原理图；
[0070]
图3为本技术实施例提供的另一种人数检测方法的流程示意图；
[0071]
图4为本技术实施例提供的crowd-yolo网络模型中head部分的模型原理图；
[0072]
图5为本技术实施例提供的diou计算公式的原理图；
[0073]
图6为本技术实施例提供的升降梯内鱼眼摄像头安装位置的结构示意图；
[0074]
图7为本技术实施例提供的人数检测装置的结构框图；
[0075]
图8为本技术实施例提供的一种电子设备的结构框图。
具体实施方式
[0076]
下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行描述。
[0077]
应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本技术的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
[0078]
本技术实施例提供了一种人数检测方法、装置、电子设备及存储介质，可以应用于封闭空间内的人数检测，如施工升降梯内的人数检测中；该人数检测方法通过对待检测图像进行特征提取，并通过语义特征和定位特征的互相传递以及融合，进一步提升特征提取的能力，最终可以提升模型的识别精度和定位精度，从而实现了基于深度卷积神经网络的人数检测方法；该人数检测方法鲁棒性强、受光照影响较小，可以实现提高适用性和检测准确性的技术效果。
[0079]
请参见图1，图1为本技术实施例提供的一种人数检测方法的流程示意图，该人数检测方法包括如下步骤：
[0080]
s100：获取待检测图像。
[0081]
示例性地，待检测图像可以是直接拍摄获得的图像，也可以是从监控视频中提取的图像帧，此处不作限定。
[0082]
s200：根据预设深度卷积神经网络对待检测图像进行特征提取，获得特征图。
[0083]
示例性地，卷积神经网络(convolutional neural networks，cnn)是一类包含卷积计算且具有深度结构的前馈神经网络(feedforward neural networks)，是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)，因此也被称为“平移不变人工神经网络(shift-invariant artificial neural networks,siann)”。
[0084]
示例性地，通过将待检测图像输入预设深度卷积神经网络，可以进行特征提取并生成特征图，并最终获得人数检测的结果。
[0085]
s300：通过语义特征和定位特征提取特征图的特征信息。
[0086]
示例性地，通过语义特征和定位特征的互相传递以及融合，进一步提升特征提取的能力，最终可以提升模型的识别精度和定位精度。
[0087]
s400：对特征信息进行处理，生成候选结果信息。
[0088]
示例性地，对提取的特征信息进行处理并预测，可以产生候选结果信息；在候选结果信息中，可以将原始图像均匀的划分为多个网格，每个网格负责预测该网格中不同比例大小的候选框中是否存在目标，以及目标的分类结果。
[0089]
s500：根据候选结果信息进行筛选，生成目标检测结果。
[0090]
示例性地，对s400部分产生的候选结果信息进行筛选，可以产生最终的输出结果，对待检测图像内的人数进行预测。
[0091]
在一些实施方式中，该人数检测方法通过对待检测图像进行特征提取，并通过语义特征和定位特征的互相传递以及融合，进一步提升特征提取的能力，最终可以提升模型的识别精度和定位精度，从而实现了基于深度卷积神经网络的人数检测方法；该人数检测方法鲁棒性强、受光照影响较小，可以实现提高适用性和检测准确性的技术效果。
[0092]
请参见图2，图2为本技术实施例提供的yolo网络模型的模型原理图。
[0093]
可选地，本技术实施例提供的人数检测方法中，在目标检测算法(预设深度卷积神经网络)上，除了yolo系列的网络可以实现人数检测以外，还可以采用rcnn系列网络、crowddet等网络实现目标检测，此处不作限定；需要注意的是，本技术实施例主要以yolo5网络模型和基于yolov5网络模型改进后的crowd-yolo网络模型为基础进行说明，不代表排斥其他网络模型，下文不再赘述。
[0094]
示例性地，采用crowd-yolo模型，是基于yolov5做出改进的模型，避免了不同类型的任务依靠同一个卷积层推理所带来的精度损失，针对拥挤人群场景进行优化，提升密集人群场景下人体检测的精度，通过人体检测，实现人数统计。本技术提供的人数检测方法不需要做行人轨迹的判断这种操作，可直接从视频中提取帧，计算得到结果；换言之，本技术是针对单帧的图像进行处理，检测到人体，通过人体检测，即可实现人数统计，和常规方法
不同。此外，本技术是针对现有拥挤场景做出的改进；图像预处理部分中做图像增强，可特别适用于工地场景。
[0095]
示例性地，基于目标检测模型——yolov5网络模型提出的改进模型——crowd-yolo网络模型，针对拥挤人群场景进行了优化，提升算法检测准确率，并减少工地服饰、人员遮挡等因素造成的影响，可以提升密集人群场景下人体检测的精度；其中，yolov5网络模型可至少分为五个部分(也可以进一步细分)，包括输入端部分、backbone部分、neck部分、head部分和后处理部分，其中backbone部分、neck部分、head部分和后处理部分分别对应图1中的s200、s300、s400和s500。
[0096]
请参见图3，图3为本技术实施例提供的另一种人数检测方法的流程示意图。
[0097]
示例性地，s200：对待检测图像进行特征提取，获得特征图的步骤，包括：
[0098]
s210：通过cbl、res unit、csp1、csp2和spp中的一种或多种模块对待检测图像进行特征提取，获得特征图。
[0099]
示例性地，yolov5网络模型中backbone部分主要是用于图像的特征提取，主要组成部件包括cbl、res unit、csp1、csp2和spp等基础模块中的一种或多种模块。通过上述基础模块的组合使得backbone部分具有更深的网络结构，提升对图像更深层次特征的表征能力，从而达到提升模型检测精度的目的。
[0100]
在一些实施方式中，spp模块分别采用5*5、9*9、13*13尺寸对特征图进行池化操作，并与原始特征图延通道方向进行concat拼接，再利用cbl模块进行卷积操作，通过这种操作将局部特征和全局特征融合到一起，使获得的特征图具有更丰富的特征信息。
[0101]
示例性地，s300：通过语义特征和定位特征提取特征图的特征信息的步骤，包括：
[0102]
s310：通过fpn结构和网络深层对特征图进行处理，产生语义特征并向下传递；
[0103]
s320：通过pan结构和网络浅层对特征图进行处理，产生定位特征并向上传递；
[0104]
s330：通过语义特征和定位特征的互相传递和融合，获得特征图的特征信息。
[0105]
示例性地，yolov5网络模型中neck部分对backbone部分生成的特征图进行充分利用，融合fpn结构和pan结构双向传递不同的特征信息，进一步提升特征提取的能力。结合图2和图3，可以看出fpn结构特征信息传递方向自上而下，通过网络深层产生语义特征并向下传递；而pan结构正好相反，特征信息传递方向自下而上，通过网络浅层产生定位特征并向上传递。通过语义特征和定位特征的互相传递以及融合，最终可以提升模型的识别精度和定位精度。
[0106]
示例性地，yolov5网络模型中head部分利用neck部分中提取的特征信息进行预测，产生候选结果信息。如图2所示，head部分有三个分支，利用卷积操作输出候选结果，分别输出大小为76*76*255、38*38*255以及19*19*255的矩阵。对于每个分支而言，输出的矩阵前两个维度表示将原始图像均匀的划分为76*76、38*38、19*19个网格，每个网格负责预测该网格中三种不同比例大小的候选框中是否存在目标，以及目标的分类结果。以76*76*255输出矩阵为例，可以将其解析为76*76*(3*(1+4+80))，其中3表示对于每个网格存在三种比例大小的候选框，而对于每个候选框而言，需要预测1个置信度(表示该候选框中存在目标的概率)、4个候选框几何参数(表示候选框左上角坐标x，y和候选框宽高w，h的修正参数)以及80个识别概率(对应coco数据集80个类别)。
[0107]
示例性地，s400：对特征信息进行处理，生成候选结果信息的步骤，包括：
[0108]
s410：通过卷积操作对特征信息进行处理，分别输出包括多个分支的候选结果信息，每个分支的候选结果信息对应一个输出矩阵；
[0109]
s420：对多个分支的候选结果信息进行解耦处理，分别进行类别预测、边界框回归和置信度的输出。
[0110]
示例性地，s410和s420为crowd-yolo网络模型中的改进点之一，对head部分的三个分支进行解耦，原理如图4所示，将原来的一个卷积层负责多种不同类型任务(同时负责类别预测、目标预测以及边界框回归)的结构解耦成三个部分，分别进行类别预测、边界框回归和置信度的输出。这种结构避免了不同类型的任务依靠同一个卷积层推理所带来的精度损失，从而针对如施工升降梯内这种小范围密集人群的检测任务中容易出现的遮挡场景实现改进，进一步提升检测准确率。
[0111]
在一些实施方式中，yolov5网络模型中后处理部分需要对head部分产生的候选结果进行筛选，产生最终的输出结果，其具体步骤如下：
[0112]
第一步：将输出的三个矩阵解析成3*(76*76+38*38+19*19)*(1+4+1)，其中，3*(76*76+38*38+19*19)部分表示候选框数目，而(1+4+1)分别表示1个置信度(候选框中存在目标的概率)，4个候选框修正参数，1个类别下标(根据80个类别概率找出概率最大值指代的类别)；
[0113]
第二步：根据自定义的置信度阈值，将置信度较低的候选框滤除，进行第一次筛选；
[0114]
第三步：利用非极大值抑制(nms，non-maximum suppression)方法进行进一步筛选，针对每一类ci的候选框，选出置信度最高的候选框bbox a，计算其余候选框与bbox a的重合度评价参数交并比值(iou，intersection over union)，滤除所有iou大于自定义的iou阈值的其他候选框，滤除后将bbox a放入最终输出结果集合中；
[0115]
第四步：对于第三步中与bbox a的iou值小于阈值的其余候选框将重复第三步，直至ci类中全部的候选框筛选完为止；
[0116]
第五步：对于全部的类的候选框执行第三步和第四部操作，至此完成整个后处理部分的操作。
[0117]
示例性地，s500：根据候选结果信息进行筛选，生成目标检测结果的步骤，包括：
[0118]
s510：对多个分支的候选结果信息进行解析，获得候选框集合；
[0119]
s520：根据预设置信值和非极大值抑制对候选框集合进行筛选，获得目标检测结果，其中非极大值抑制中diou的计算公式如下；
[0120][0121]
其中，a为预测框和真实框的交集，b为预测框和真实框的并集，b为预测框的中心点，b
gt
为真实框的中心点，ρ为预测框的中心点和真实框的中心点之间的欧式距离，c为能够同时包含预测框和真实框的最小闭包区域的对角线距离。
[0122]
示例性地，针对于yolo网络模型中后处理部分中将iou计算方法替换为diou；diou在评价候选边界框生成的质量时，不仅仅考虑重叠率，还把尺度和距离都考虑在内；这样使得回归的候选框更加稳定，且对于重叠目标有一定程度的提升。diou的具体计算原理如图5
所示，从diou的计算公式中可以看到，diou分为两个部分，前一个部分是常规的iou，而后一个部分是两个候选框的中心点距离与包含两候选框的最小闭包区域的对角线距离的比值。
[0123]
示例性地，iou又称为交并比，diou中的d表示距离(distance)；diou又称为距离交并比，但是在业内一般较少会用到diou的中文名称。
[0124]
示例性地，在s100：获取待检测图像的步骤之前，还包括：
[0125]
s101：通过鱼眼摄像头采集待检测图像；
[0126]
s102：对待检测图像进行图像增强处理。
[0127]
示例性地，通过使用鱼眼摄像头可以覆盖更大的视野，减少视觉死角和视觉遮挡，通过图像增强的方式减少在检测过程中搭乘人员与安全帽、反光衣的强关联，并且还可以模拟不同施工升降梯在实际应用中出现的不同光照变换场景。
[0128]
在一些实施方式中，鱼眼摄像头采用hdr技术和红外夜视功能，可以保证在不同光照环境中能够有较好的成像效果。
[0129]
可选地，采用copypaste、mosaic、翻转、扭曲、缩放和光照变换等手段对摄像头采集的图像进行数据增强，防止算法对于安全帽和反光衣等衣物特征的依赖，具体做法如下：剪切安全帽和反光衣图像，按照随机位置、大小、比例、翻转和扭曲程度对剪切图像进行随机变换并插入到摄像头采集的图像中。另外，随机变换图像的亮度和对比度，模型不同光照环境。
[0130]
示例性地，在s100：获取待检测图像的步骤之后，还包括：
[0131]
s110：对待检测图像中相邻四个像素点进行变换，将宽、高维度的信息转化到通道维度上，并利用卷积计算进行信息融合。
[0132]
示例性地，对待检测图像进行focus操作，即对输入图像中相邻四个像素点进行变换，将宽、高维度(w和h)的信息转化到通道维度(c)上，并利用卷积(cbl模块)计算进行信息融合，可以保证信息量不丢失的情况下减少计算量，加速算法推理。
[0133]
请参见图6，图6为本技术实施例提供的升降梯内鱼眼摄像头安装位置的结构示意图。
[0134]
示例性地，l为将鱼眼摄像头安装在升降梯顶部横向距门1/3至2/3长，纵向居中的位置，保证摄像头采集的图像覆盖整个升降梯内部，且尽可能的减少视觉遮挡的可能性。
[0135]
示例性地，当目标算法完成对图像的处理后，输出目标检测结果，形式如下：
[0136]
(indexc，bbox
x
，bboxy，bboxw，bboxh，prob)；
[0137]
其中，indexc表示类别索引，(bbox
x
，bboxy)表示边界框左上角坐标，(bboxw，bboxh)表示边界框的宽和高，prob表示边界框内目标的置信度。通过统计人体的检测目标数，可最终确定施工升降梯中的搭乘人数。
[0138]
在一些实施场景中，结合图1至图6所示的人数检测方法，在实际工地现场采集三天视频数据，并从视频中随机挑选1048张图像作为测试数据。完成方法测试，测试结果如表1所示。从表中可以看到人数准确无误的情况下，方法准确率达98.66％；按照允许多检1人的情况下准确率达98.85％。
[0139]
表1通用测试集测试结果
[0140][0141]
其中，通用测试集有效样本1048份，测试集所有图片均为实际现场图片；true—识别正确的数量，false—识别错误的数量；准确率—所有样本中判定正确的概率；漏检率—样本中单个或多个人体未识别到的图片的概率；误检率—样本中将非人体识别为人体或单个人体识别为多个人体的图片的概率。
[0142]
请参见图7，图7为本技术实施例提供的人数检测装置的结构框图，该人数检测装置包括：
[0143]
获取模块100，用于获取待检测图像；
[0144]
第一提取模块200，用于根据预设深度卷积神经网络对待检测图像进行特征提取，获得特征图；
[0145]
第二提取模块300，用于通过语义特征和定位特征提取特征图的特征信息；
[0146]
候选结果模块400，用于对特征信息进行处理，生成候选结果信息；
[0147]
目标检测模块500，用于根据候选结果信息进行筛选，生成目标检测结果。
[0148]
示例性地，第一提取模块200具体用于通过cbl、res unit、csp1、csp2和spp中的一种或多种模块对待检测图像进行特征提取，获得特征图。
[0149]
优选地，该人数检测装置中的第二提取模块300可以是信息融合模块，用于将不同尺度特征图中的语义特征和定位特征进行融合。
[0150]
示例性地，第二提取模块300包括：
[0151]
fpn结构单元，用于通过fpn结构和网络深层对特征图进行处理，产生语义特征并向下传递；
[0152]
pan结构单元，用于通过pan结构和网络浅层对特征图进行处理，产生定位特征并向上传递；
[0153]
融合单元，用于通过语义特征和定位特征的互相传递和融合，获得特征图的特征信息。
[0154]
示例性地，候选结果模块400包括：
[0155]
输出单元，用于通过卷积操作对特征信息进行处理，分别输出包括多个分支的候选结果信息，每个分支的候选结果信息对应一个输出矩阵；
[0156]
解耦单元，用于对多个分支的候选结果信息进行解耦处理，分别进行类别预测、边界框回归和置信度的输出。
[0157]
示例性地，目标检测模块500包括：
[0158]
解析单元，用于对多个分支的候选结果信息进行解析，获得候选框集合；
[0159]
筛选单元，用于根据预设置信值和非极大值抑制对候选框集合进行筛选，获得目标检测结果，其中非极大值抑制中diou的计算公式如下；
[0160][0161]
其中，a为预测框和真实框的交集，b为预测框和真实框的并集，b为预测框的中心点，b
gt
为真实框的中心点，ρ为预测框的中心点和真实框的中心点之间的欧式距离，c为能够同时包含预测框和真实框的最小闭包区域的对角线距离。
[0162]
示例性地，人数检测装置还包括：
[0163]
采集模块，用于通过鱼眼摄像头采集待检测图像；
[0164]
增强处理模块，用于对待检测图像进行图像增强处理。
[0165]
示例性地，人数检测装置还包括：
[0166]
像素变换模块，用于对待检测图像中相邻四个像素点进行变换，将宽、高维度的信息转化到通道维度上，并利用卷积计算进行信息融合。
[0167]
应理解，图7所示的人数检测装置与图1至图6所示的方法实施例相对应，为避免重复，此处不再赘述。
[0168]
本技术还提供一种电子设备，请参见图8，图8为本技术实施例提供的一种电子设备的结构框图。电子设备可以包括处理器510、通信接口520、存储器530和至少一个通信总线540。其中，通信总线540用于实现这些组件直接的连接通信。其中，本技术实施例中电子设备的通信接口520用于与其他节点设备进行信令或数据的通信。处理器510可以是一种集成电路芯片，具有信号的处理能力。
[0169]
上述的处理器510可以是通用处理器，包括中央处理器(cpu，central processing unit)、网络处理器(np，network processor)等；还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器510也可以是任何常规的处理器等。
[0170]
存储器530可以是，但不限于，随机存取存储器(ram，random access memory)，只读存储器(rom，read only memory)，可编程只读存储器(prom，programmable read-only memory)，可擦除只读存储器(eprom，erasable programmable read-only memory)，电可擦除只读存储器(eeprom，electric erasable programmable read-only memory)等。存储器530中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器510执行时，电子设备可以执行上述图1至图6方法实施例涉及的各个步骤。
[0171]
可选地，电子设备还可以包括存储控制器、输入输出单元。
[0172]
所述存储器530、存储控制器、处理器510、外设接口、输入输出单元各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通信总线540实现电性连接。所述处理器510用于执行存储器530中存储的可执行模块，例如电子设备包括的软件功能模块或计算机程序。
[0173]
输入输出单元用于提供给用户创建任务以及为该任务创建启动可选时段或预设执行时间以实现用户与服务器的交互。所述输入输出单元可以是，但不限于，鼠标和键盘等。
[0174]
可以理解，图8所示的结构仅为示意，所述电子设备还可包括比图8中所示更多或
者更少的组件，或者具有与图8所示不同的配置。图8中所示的各组件可以采用硬件、软件或其组合实现。
[0175]
本技术实施例还提供一种存储介质，所述存储介质上存储有指令，当所述指令在计算机上运行时，所述计算机程序被处理器执行时实现方法实施例所述的方法，为避免重复，此处不再赘述。
[0176]
本技术还提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行方法实施例所述的方法。
[0177]
在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0178]
另外，在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
[0179]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0180]
以上所述仅为本技术的实施例而已，并不用于限制本技术的保护范围，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
[0181]
以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应所述以权利要求的保护范围为准。
[0182]
需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备
所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张志威龚思宇唐子健董忠蔡巍凌小凤
技术所有人：广东博智林机器人有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。