基于分块遮挡感知的行人检测方法及系统与流程

文档序号:16088717发布日期:2018-11-27 22:45阅读:201来源:国知局

本发明属于模式识别技术领域,具体涉及一种基于分块遮挡感知的行人检测方法及系统。



背景技术:

行人检测技术是一种在任意输入图像中自动搜索行人的位置和大小的技术,其广泛应用于的计算机视觉和模式识别等领域,例如自动驾驶、视频监控和生物特征识别等。

在现实生活中的复杂环境下,行人的遮挡问题是目前行人检测面临的最大挑战之一,尤其是在拥挤场景下,如何进行高效且精准的行人检测更是研究的热点与难点。针对该问题,目前大多数行人检测方法都使用基于分块的模型,通过学习一系列分块检测器,并综合每个检测器的结果用于对行人进行最终定位。但这些方法只是要求每个预测的检测窗口尽可能接近于行人标注框,而没有考虑到它们之间的内在联系。因此,这些行人检测器的性能对于非极大值抑制法(Non Maximum Suppression)阈值的设置非常敏感,尤其是对于存在大规模拥挤的场景,非极大值抑制法阈值对检测器性能的影响更大。



技术实现要素:

为了解决现有技术中的上述问题,即为了解决行人被遮挡而造成的行人检测准确率较低的技术问题,本发明的一方面,提供了一种基于分块遮挡感知的行人检测方法,包括:

基于预先构建的行人检测模型,并根据待测行人图像,获取每个预设的人体检测区域对应的图像特征;

对所获取的图像特征进行特征融合,得到对应行人的整体特征;

根据所述整体特征,获取所述待测行人图像的多个检测结果框;

选取所获取的多个所述检测结果框中满足预设的筛选条件的检测结果框;

其中,所述行人检测模型是基于Faster R-CNN神经网络构建的模型,并且所述Faster R-CNN神经网络的高卷积层中关联有锚点框。

进一步地,在“基于预先构建的行人检测模型,并根据待测行人图像,获取每个预设的人体检测区域对应的图像特征”之前,所述方法还包括:

对所述预设的训练图像进行数据增广处理,得到训练样本;

对锚点框与所述训练样本中的行人标注框进行匹配,并根据匹配结果将锚点框划分为正样本和负样本;所述正样本为与行人标注框匹配的锚点框,所述负样本为与行人标注框未匹配的锚点框;

采用困难负样本挖掘方法选取预设的第一数量的负样本;

根据所述正样本与所选取的负样本计算损失函数值,并根据损失函数值更新所述Faster R-CNN神经网络;对更新后的Faster R-CNN神经网络重新进行网络训练,直至其满足预设的收敛条件。

进一步地,所述Faster R-CNN神经网络包括RPN模块;在“基于预先构建的行人检测模型,并根据待测行人图像,获取每个预设的人体检测区域对应的图像特征”之前,所述方法还包括:

基于预设的训练图像,并按照下式所示的损失函数,对所述RPN模块进行网络训练:

其中,为行人分类损失函数,为聚合损失函数,i表示锚点框的标号,pi和ti分别表示第i个锚点框为行人的预测概率和该行人对应的预测坐标;和分别表示与第i个锚点框相关联的物体类别标号和对应的标定坐标,α1为第一超参数;

所述行人分类损失函数为:

其中,Ncls为RPN模块分类过程中的锚点框总数;

所述聚合损失函数:

其中,为回归损失函数,为紧凑性损失函数,β是第二超参数;

所述回归损失函数为:

其中,Nreg为回归阶段锚点框的总数,是关于预测的检测窗口ti的L1损失函数的损失值;

所述紧凑性损失函数为:

其中,Ncom为与锚点框存在相交的行人总数,|Φi|为与第i个标定行人相关联的锚点框总数,j为锚点框标号,tj为预测的第j个锚点框行人对应的坐标,p为与标定的行人窗口相关联的锚点框标记序列号,Φp为与标定的行人窗口相关联的锚点框标记。

进一步地,所述Faster R-CNN神经网络还包括Fast R-CNN模块;在“基于预先构建的行人检测模型,并根据待测行人图像,获取每个预设的人体检测区域对应的图像特征”之前,所述方法还包括:

基于预设的训练图像,按照下式所示的损失函数,对所述Fast R-CNN模块进行网络训练:

其中,为行人分类损失函数,为聚合损失函数,为遮挡处理损失函数,i表示锚点框的标号,pi和ti分别表示第i个锚点框为行人的预测概率和该行人对应的预测坐标;和分别表示与第i个锚点框相关联的物体类别标号和对应的标定坐标,α3为第三超参数,λ为第四超参数;

所述行人分类损失函数为:

其中,Ncls为RPN模块分类过程中的锚点框总数;

所述聚合损失函数:

其中,为回归损失函数,为紧凑性损失函数,β是第二超参数;

所述回归损失函数为:

其中,Nreg为回归阶段锚点框的总数,是关于预测的检测窗口ti的L1损失函数的损失值;

所述紧凑性损失函数为:

其中,Ncom为与锚点框存在相交的行人总数,|Φi|为与第i个标定行人相关联的锚点框总数,j为锚点框标号,tj为预测的第j个锚点框行人对应的坐标,p为与标定的行人窗口相关联的锚点框标记序列号,Φp为与标定的行人窗口相关联的锚点框标记。

进一步地,“对锚点框与所述训练样本中的行人标注框进行匹配”的步骤具体包括:

计算各锚点框与每个行人标注框的交除并重叠比;

选取与每个行人标注框的交除并重叠比最大的锚点框,并将所选取的各锚点框与各对应的人脸标注框进行匹配;

判断去除所选取的锚点框之后,剩余的各锚点框与每个行人标注框的交除并重叠比是否大于预设的第一阈值:若大于则进行匹配;

获取锚点框匹配数量小于预设的第二数量的人脸标注框,并选取与所述每个行人标注框的交除并重叠比大于预设的第二阈值的所有锚点框;所述预设的第一阈值大于预设的第二阈值;

按照所选取的所有锚点框的交除并重叠比由大到小的顺序,选取预设的第三数量的锚点框与对应的行人标注框进行匹配;所述预设的第三数量的取值为锚点框匹配数量大于或等于预设的第二数量的行人标注框的锚点框平均匹配数量。

本发明的另一方面,还提供了一种基于分块遮挡感知的行人检测系统,包括:

图像特征获取模块,其配置为基于预先构建的行人检测模型,并根据待测行人图像,获取每个预设的人体检测区域对应的图像特征;

图像特征融合模块,其配置为对所述图像特征获取模块所获取的图像特征进行特征融合,得到对应行人的整体特征;

检测结果框获取模块,其配置为根据所述图像特征融合模块得到的整体特征,获取所述待测行人图像的多个检测结果框;

检测结果框筛选模块,其配置为选取所获取的多个所述检测结果框中满足预设的筛选条件的检测结果框;

其中,所述行人检测模型是基于Faster R-CNN神经网络构建的模型,并且所述Faster R-CNN神经网络的高卷积层中关联有锚点框。

进一步地,所述行人检测系统还包括模型训练模块,该模型训练模块包括:

训练图像处理单元,其配置为对所述预设的训练图像进行数据增广处理,得到训练样本;

正负样本划分单元,其配置为对锚点框与所述训练样本中的行人标注框进行匹配,并根据匹配结果将锚点框划分为正样本和负样本;所述正样本为与行人标注框匹配的锚点框,所述负样本为与行人标注框未匹配的锚点框;

负样本筛选单元,其配置为采用困难负样本挖掘方法选取预设的第一数量的负样本;

网络更新单元,其配置为根据所述正样本与所选取的负样本计算损失函数值,并根据损失函数值更新所述Faster R-CNN神经网络;对更新后的Faster R-CNN神经网络重新进行网络训练,直至其满足预设的收敛条件。

进一步地,所述Faster R-CNN神经网络包括RPN模块;在此情况下,所述模型训练模块进一步配置为执行如下操作:

基于预设的训练图像,并按照下式所示的损失函数,对所述RPN模块进行网络训练:

其中,为行人分类损失函数,为聚合损失函数,i表示锚点框的标号,pi和ti分别表示第i个锚点框为行人的预测概率和该行人对应的预测坐标;和分别表示与第i个锚点框相关联的物体类别标号和对应的标定坐标,α1为第一超参数;

所述行人分类损失函数为:

其中,Ncls为RPN模块分类过程中的锚点框总数;

所述聚合损失函数:

其中,为回归损失函数,为紧凑性损失函数,β是第二超参数;

所述回归损失函数为:

其中,Nreg为回归阶段锚点框的总数,是关于预测的检测窗口ti的L1损失函数的损失值;

所述紧凑性损失函数为:

其中,Ncom为与锚点框存在相交的行人总数,|Φi|为与第i个标定行人相关联的锚点框总数,j为锚点框标号,tj为预测的第j个锚点框行人对应的坐标,p为与标定的行人窗口相关联的锚点框标记序列号,Φp为与标定的行人窗口相关联的锚点框标记。

进一步地,所述Faster R-CNN神经网络包括Fast R-CNN模块;在此情况下,所述模型训练模块进一步配置为执行如下操作:

基于预设的训练图像,并按照下式所示的损失函数,对所述Fast R-CNN模块进行网络训练:

其中,为行人分类损失函数,为聚合损失函数,为遮挡处理损失函数,i表示锚点框的标号,pi和ti分别表示第i个锚点框为行人的预测概率和该行人对应的预测坐标;和分别表示与第i个锚点框相关联的物体类别标号和对应的标定坐标,α3为第三超参数,λ为第四超参数;

所述行人分类损失函数为:

其中,Ncls为RPN模块分类过程中的锚点框总数;

所述聚合损失函数:

其中,为回归损失函数,为紧凑性损失函数,β是第二超参数;

所述回归损失函数为:

其中,Nreg为回归阶段锚点框的总数,是关于预测的检测窗口ti的L1损失函数的损失值;

所述紧凑性损失函数为:

其中,Ncom为与锚点框存在相交的行人总数,|Φi|为与第i个标定行人相关联的锚点框总数,j为锚点框标号,tj为预测的第j个锚点框行人对应的坐标,p为与标定的行人窗口相关联的锚点框标记序列号,Φp为与标定的行人窗口相关联的锚点框标记。

进一步地,所述正负样本划分单元包括:

交除并重叠比计算子单元,其配置为计算各锚点框与每个行人标注框的交除并重叠比;

第一匹配子单元,其配置为选取与每个行人标注框的交除并重叠比最大的锚点框,并将所选取的各锚点框与各对应的人脸标注框进行匹配;

第二匹配子单元,其配置为判断去除所选取的锚点框之后,剩余的各锚点框与每个行人标注框的交除并重叠比是否大于预设的第一阈值:若大于则进行匹配;

第三匹配子单元,其配置为获取锚点框匹配数量小于预设的第二数量的人脸标注框,并选取与所述每个行人标注框的交除并重叠比大于预设的第二阈值的所有锚点框;所述预设的第一阈值大于预设的第二阈值;

第四匹配子单元,其配置为按照所选取的所有锚点框的交除并重叠比由大到小的顺序,选取预设的第三数量的锚点框与对应的行人标注框进行匹配;所述预设的第三数量的取值为锚点框匹配数量大于或等于预设的第二数量的人脸标注框的锚点框平均匹配数量。

与最接近的现有技术相比,上述技术方案至少具有以下有益效果:

1、本发明提供的一种基于分块遮挡感知的行人检测方法,依据Faster R-CNN神经网络构建的行人检测模型,按预设的人体检测区域分块获取行人的图像特征,然后再对获取的图像特征进行融合,可以有效检测出待测图像中被遮挡的行人。

2、本发明提供的行人检测模型中高卷积层关联有锚点框,高卷基层可以提取更深层次的语义信息,提高行人检测的精度。

3、本发明提供的一种基于分块遮挡感知的行人检测系统,该系统可以实现上述基于分块遮挡感知的行人检测方法。

附图说明

图1是本发明实施例中一种基于分块遮挡感知的行人检测方法的主要步骤示意图;

图2是本发明实施例中一种分块遮挡感知ROI池化单元的主要结构示意图;

图3是本发明实施例中一种分块遮挡感知的遮挡处理单元的主要结构示意图;

图4是本发明实施例中一种基于分块遮挡感知的行人检测系统的主要结构示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。

在大规模的拥挤环境中行人极易被遮挡,如此行人检测过程中难以对行人进行有效检测。基于此,本发明提供了一种基于分块遮挡感知的行人检测方法,该方法能够在复杂环境下进行高效且精准的行人检测,并且对于存在大规模遮挡的情形,依然能够得到满意的检测结果。

下面结合附图,对本发明提供的一种基于分块遮挡感知的行人检测方法进行说明。

图1示例性示出了本实施例中的一种基于分块遮挡感知的行人检测方法的实施流程,如图1所示,本实施例中基于分块遮挡感知的行人检测方法可以包括下述步骤:

步骤S101:基于预先构建的行人检测模型,并根据待测行人图像,获取每个预设的人体检测区域对应的图像特征。

步骤S102:对所获取的图像特征进行特征融合,得到对应行人的整体特征。

步骤S103:根据整体特征,获取待测行人图像的多个检测结果框。

步骤S104:选取所获取的多个检测结果框中满足预设的筛选条件的检测结果框;

具体地,本实施例中的行人检测模型是基于Faster R-CNN神经网络构建的模型,并且Faster R-CNN神经网络的高卷积层中关联有锚点框。下面详细介绍行人检测模型的锚点框的尺寸和关联层,以及设计的基本网络框架。

对锚点框的尺寸和关联层进行设计中,不同卷积层提取到的特征图所具有的语义信息和空间信息的丰富程度不同,考虑到对于大规模遮挡的情况下,目标行人的特征信息会因遮挡的存在变得难以提取,需要更多语义信息的支持。并且在实际应用中,也不存在像人脸检测那样极小尺寸的行人目标,这对空间信息的要求大大减少。浅层神经网络底层的特征包含的语义信息较浅,且由于感受野较小,对于较大尺度物体的辨识能力不足;且由于提取的浅层特征缺乏足够的语义信息,因此在遮挡等干扰下,由于特征的提取更加困难,将会导致分辨器性能大大降低,鲁棒性不够;而深层神经网络层相比较下能提取到更深层次的语义信息和全局信息,虽然会丢失一部分的空间信息,但对于复杂环境,特别是存在遮挡的情况下,深层卷积层的这些特点能有效克服因遮挡而导致的特征提取不充分问题。

因此,本实施例中选取顶端的一个卷积层(即高卷积层)来与锚点框关联。例如,选择VGG-16模型为基本架构,选取的高层卷积层为conv5_3,则一张尺寸为1000×600的地待测行人图像,其对应特征图大小为60×40。为了实现对图像中不同尺寸行人的检测,对于该特征图的每一个位置,密集地铺设了11种不同尺寸的锚点框:面积分别为(322,432,582,782,1062,1442,1942,2612,3532,4772,6432),所有锚点框的宽高比值均为0.41(人体大致比例),以实现图像中不同尺寸的行人检测。

针对因行人之间遮挡而引起的误检、漏检问题,本实施例中行人检测模型的网络框架中,基于一个分块遮挡感知RoI池化单元来替代行人检测模型中原先Fast R-CNN模块里的RoI池化层,用于将人体不同位置的结构化信息进行综合之后,输入到Fast R-CNN模块中,并经一个小型的神经网络来对遮挡状况进行估计。

参阅附图2,图2示例性示出了本实施例中一种分块遮挡感知ROI池化单元的主要结构。如图2所示,首先将人体区域分成五个部分,对每个部分都使用RoI池化层来对特征进行采样成为一个固定大小的小特征图(宽和高均为7)。接着,基于得到的不同人体区域的特征图,使用遮挡处理单元对每个部分的可见度进行估计。参阅附图3,图3示例性示出了本发明实施例中一种分块遮挡感知的遮挡处理单元的主要结构示意图,如图3所示,遮挡处理单元由三个卷积层后接一个softmax层组成,并使用log损失函数来对遮挡处理单元进行参数训练。具体地,假设ci,j表示第i个候选窗口的第j个部分,oi,j表示对应预测的可见度得分,为对应标定的真实可见度得分。如果ci,j的一半以上部分是可见的,则否则为0。从数学上来说,即如果ci,j与相对应的标定窗口之间的交并比大于或等于0.5,则否则为0。公式(1)所示为基于遮挡处理单元对每个部分的可见度进行评分的公式,

其中,Ω(·)为面积计算函数,U(ci,j)为ci,j的区域,为的真实标定区域,θ为设置的交并比阈值,这里设置为0.5,表示一半以上部分若是可见的,则否则为0。因此,本实施例按公式(2)定义遮挡处理单元的损失函数:

其中,i为锚点框的标号,ti为预测的第i个锚点框行人对应的坐标,为第i个锚点框相关联的物体的标定坐标。

之后,再对每个人体部位的特征图与对应的预测可见度进行点积操作得到最终的特征,特征维度为512×7×7。最后,再对人体五个部位的特征图按元素逐一相加,用于Fast R-CNN模块的分类和窗口回归。

进一步地,本实施例中图1所示的行人检测方法可以依据预设的训练图像,对行人检测模型进行网络训练,得到满足预设的收敛条件的行人检测模型。

具体地,本实施例中可以按照下述步骤对行人检测模型进行网络训练:

步骤S201:对预设的训练图像进行数据增广处理,得到训练样本。

本实施例中对训练图像进行数据增广处理,可以包括颜色抖动操作、随机裁剪操作、水平翻转操作和尺度变换操作:

首先,对训练图像进行颜色抖动操作,具体为:分别以0.6的概率,随机地调整训练图像的亮度、对比度和饱和度等参数。

其次,对经过颜色抖动操作后的训练图像进行随机裁剪操作,具体为:随机裁剪6张正方形的子图像。其中,1个子图像是该训练图像中最大的正方形子图像,其余4个子图像的边长为训练图像短边的0.4~1.0倍。随机选取5张子图像中的1个子图像作为最终的训练样本。

再次,对选取的训练样本进行水平翻转操作,具体为:可以0.6的概率随机进行水平翻转操作。

最后,对经水平翻转操作后的训练样本进行尺度变换操作,具体为:将该训练样本缩放为1000×600的图像。

本实施例中依次对训练图像进行颜色抖动操作、随机裁剪操作、水平翻转操作和尺度变换操作,可以在不改变图像类别的情况下,增加数据量,能提高模型的泛化能力。

步骤S202:对锚点框与训练样本中的行人标注框进行匹配,并根据匹配结果将锚点框划分为正样本和负样本;其中,正样本为与行人标注框匹配的锚点框,负样本为与行人标注框未匹配的锚点框。

具体地,为了解决现有的匹配策略下,部分行人不能匹配到充足的锚点框这一问题,本发明对标注框采取了一定的补偿策略。对锚点框与训练样本中的行人标注框进行匹配的步骤如下:

首先,计算各锚点框与每个行人标注框的交除并重叠比;

其次,选取与每个行人标注框的交除并重叠比最大的锚点框,并将所选取的各锚点框与各对应的行人标注框进行匹配;

再次,判断去除所选取的锚点框之后,剩余的各锚点框与每个行人标注框的交除并重叠比是否大于预设的第一阈值:若大于则进行匹配;本实施例中,第一阈值为0.4,需要说明的是,这里匹配到足够锚点框的所有行人标注框所匹配的锚点框数量的平均值为Np。

再一次,获取锚点框匹配数量小于预设的第二数量的行人标注框,并选取与每个行人标注框的交除并重叠比大于预设的第二阈值的所有锚点框;其中,预设的第一阈值大于预设的第二阈值;本实施例中,该步骤是查缺补漏的尺度补偿操作,第二阈值设置为0.1,对于没有匹配到足够多锚点框的行人标注框,选出所有与该行人标注框的交除并重叠比大于0.1的锚点框。公式(3)示出的是交除并重叠比大于0.1的所有锚点框序列:

[a1,a2,a3,...,aN] (3)

其中,aN包括锚点框的位置和大小。

最后,按照所选取的所有锚点框的交除并重叠比由大到小的顺序,选取预设的第三数量的锚点框与对应的行人标注框进行匹配;本实施中,根据它们与该行人标注框的交并比大小,按公式(4)进行降序排序,

[A1,A2,A3,...,AN] (4)

最后,选取前Np个锚点框,作为该行人标注框匹配到的锚点框。其中Np为可调参数,默认设为行人标注框的平均匹配数量。

其中,预设的第三数量的取值为锚点框匹配数量大于或等于预设的第二数量的人脸标注框的锚点框平均匹配数量。

步骤S203:采用困难负样本挖掘方法选取预设的第一数量的负样本

具体地,对于所有的负样本,计算出它们分类预测所带来的误差值,并根据误差值进行降序排序,选取误差值最大的一批负样本作为训练数据集的负样本,其余负样本全部抛弃,保证正样本与负样本的数量比例为1:3。这样正负样本之间有着比较平衡的数量关系,有利于网络训练的平稳进行。

步骤S204:根据正样本与所选取的负样本计算损失函数值,并根据损失函数值更新Faster R-CNN神经网络;对更新后的Faster R-CNN神经网络重新进行网络训练,直至其满足预设的收敛条件。

具体地,为了减少因相邻行人之间互相遮挡而引起的误检问题,要求候选窗口应该更加接近于数据集中标定的与之相关联的行人位置。传统的Faster R-CNN检测框架由两个部分组成,分别为区域建议网络(RPN)模块和Fast R-CNN模块。前者用于生成高质量的候选窗口,而后者则用于进行物体分类以及对这些候选窗口进行回归计算以更好定位物体的位置。

针对因相邻行人遮挡而造成的误检问题,本实施例中对区域建议网络(RPN)模块的损失函数进行了调整,并重新定义,区域建议网络(RPN)模块的损失函数如公式(5)所示:

其中,i为锚点框的标号,pi和ti为第i个锚点框为行人的预测概率和该行人对应的预测坐标;和为与第i个锚点框相关联的物体类别标号和对应的标定坐标(这里是一个二分类问题,行人类别为1,背景类别为0);α1为引入第一超参数,用于对这两个损失函数进行权重调整。为行人分类损失函数,而为聚合损失函数。

分类损失用log损失函数来进行估计,函数定义如公式(6)所示:

其中,Ncls为分类过程中的锚点框总数。

为了使RPN模块能更加高效地生成正确的候选窗口,本发明在该模块引入了一个新的损失函数,称为聚合损失函数(aggregation loss)。该损失函数不仅能够使候选窗口更加准确地定位与之关联的行人的标注位置,还能减小与同一个行人相关联的候选窗口之间的距离。该聚合损失函数的定义如公式(7)所示:

其中,为回归损失函数,用于对候选窗口进行约束使其能更加接近于目标的标定窗口;而为紧凑性损失函数,约束候选窗口使其能更加紧凑地定位目标标定物体的位置;β是第二超参数,用于对这两个损失函数的权重进行调整。

本发明使用平滑的L1损失函数定义回归损失函数用于对预测的检测窗口的准确性进行测量,具体如公式(8)所示:

其中,Nreg为回归阶段锚点框的总数,是关于预测的检测窗口ti的L1损失函数的损失值。

紧凑性损失函数用于对与相同标注行人相关联的所有候选窗口的可信度进行评价。具体来说,假设是标定的行人序列,这些行人标定窗口均有与之相关联的锚点框,即存在至少一个锚点框与标定窗口相交;{Φ1,...,Φp}为与标定的行人窗口相关联的锚点框标记序列,即对于标号为Φk的锚点框而言,它是与标号为的行人相关联的。这里,使用平滑的L1损失函数来对锚点框预测的位置信息和实际标定的位置信息之间的误差进行测量,用来描述预测的检测窗口与实际的标定窗口之间的紧凑性,紧凑性损失函数具体形式如公式(9)所示:

其中,Ncom为与锚点框存在相交的行人总数,|Φi|为与第i个标定行人相关联的锚点框总数,tj为预测的第j个锚点框行人对应的坐标,p为与标定的行人窗口相关联的锚点框标记序列号,Φp为与标定的行人窗口相关联的锚点框标记。

与此同时,为了进一步提高窗口回归的准确度,强化模型对于遮挡环境的行人检测能力,本发明在Fast R-CNN模块的损失函数中同样引入了聚合损失项,其损失函数如公式(10)所示:

其中,α3为第三超参数,λ为第四超参数,分类损失函数和聚合损失函数的定义同RPN网络,为遮挡处理损失函数如公式(2)所示。通过在行人检测器的RPN模块和Fast R-CNN模块中同时引入聚合损失项,可以强化检测窗口的定位能力,从而提升整体的检测性能。

之后利用随机梯度下降法,反向传播误差,迭代更新网络参数,直至训练收敛或达到设置的最大训练次数,得到最终的网络模型参数。

在测试阶段,把测试图像输入训练好的网络模型进行行人检测,输出检测结果框。由于输出的检测框的数量非常多,首先通过置信度阈值T=0.05,筛掉大部分的检测框,接着根据置信度选出前Na=400个检测框。然后使用非极大值抑制法去除重复的检测框,并根据置信度选出前Nb=200个检测框,即得到最终的检测结果。

本发明针对大规模遮挡环境下的行人检测问题,通过引入了遮挡感知R-CNN模型来提高行人检测的准确率。具体来说,本发明设计了一个新的聚合损失函数以减少相邻行人之间因交叠而引起的误检问题,并使候选窗口能更加紧凑和精确地定位到目标行人位置;与此同时,为了解决因遮挡而引起的检测问题,本发明设计了一个分块遮挡感知RoI池化单元来代替传统Fast R-CNN中使用的ROI池化层,该池化单元通过综合人体不同部位可见度预测值以减小遮挡对行人检测的影响。在训练卷积神经网络时,需要匹配行人标注框和锚点框,但在现有的匹配策略下,有些尺度的行人标注框,不能匹配到足够多的锚点框,本发明对这些标注框采取了一定的补偿,很好解决了这个问题。最终本发明实现了基于分块遮挡感知的行人检测方法,能对图像中的行人进行高效且精准的检测,尤其是显著地提升了大规模遮挡环境下的行人检测能力。

本发明还提供了一种基于分块遮挡感知的行人检测系统,参考附图4,图4示例性示出了本实施例中一种基于分块遮挡感知的行人检测系统示意图,如图4所示该系统包括:

图像特征获取模块,其配置为基于预先构建的行人检测模型,并根据待测行人图像,获取每个预设的人体检测区域对应的图像特征;

图像特征融合模块,其配置为对图像特征获取模块所获取的图像特征进行特征融合,得到对应行人的整体特征;

检测结果框获取模块,其配置为根据图像特征融合模块得到的整体特征,获取待测行人图像的多个检测结果框;

检测结果框筛选模块,其配置为选取所获取的多个所述检测结果框中满足预设的筛选条件的检测结果框;

其中,行人检测模型是基于Faster R-CNN神经网络构建的模型,并且所述Faster R-CNN神经网络的高卷积层中关联有锚点框。

在上述基于分块遮挡感知的行人检测系统的优选实施方案中,行人检测系统还包括模型训练模块,该模型训练模块包括:

训练图像处理单元,其配置为对预设的训练图像进行数据增广处理,得到训练样本;

正负样本划分单元,其配置为对锚点框与训练样本中的行人标注框进行匹配,并根据匹配结果将锚点框划分为正样本和负样本;正样本为与行人标注框匹配的锚点框,负样本为与行人标注框未匹配的锚点框;

负样本筛选单元,其配置为采用困难负样本挖掘方法选取预设的第一数量的负样本;

网络更新单元,其配置为根据所述正样本与所选取的负样本计算损失函数值,并根据损失函数值更新所述Faster R-CNN神经网络;对更新后的Faster R-CNN神经网络重新进行网络训练,直至其满足预设的收敛条件。

在上述基于分块遮挡感知的行人检测系统的优选实施方案中,Faster R-CNN神经网络包括RPN模块;在此情况下,模型训练模块进一步配置为执行如下操作:

基于预设的训练图像,并按照公式(11)所示的损失函数,对所述RPN模块进行网络训练:

其中,为行人分类损失函数,为聚合损失函数,i表示锚点框的标号,pi和ti分别表示第i个锚点框为行人的预测概率和该行人对应的预测坐标;和分别表示与第i个锚点框相关联的物体类别标号和对应的标定坐标,α1为第一超参数;

行人分类损失函数如公式(12)所示:

其中,Ncls为RPN模块分类过程中的锚点框总数;

聚合损失函数如公式(13)所示:

其中,为回归损失函数,为紧凑性损失函数,β是第二超参数;

回归损失函数如公式(14)所示:

其中,Nreg为回归阶段锚点框的总数,是关于预测的检测窗口ti的L1损失函数的损失值;

紧凑性损失函数如公式(15)所示:

其中,Ncom为与锚点框存在相交的行人总数,|Φi|为与第i个标定行人相关联的锚点框总数,j为锚点框标号,tj为预测的第j个锚点框行人对应的坐标,p为与标定的行人窗口相关联的锚点框标记序列号,Φp为与标定的行人窗口相关联的锚点框标记。

在上述基于分块遮挡感知的行人检测系统的优选实施方案中,Faster R-CNN神经网络包括Fast R-CNN模块;在此情况下,模型训练模块进一步配置为执行如下操作:

基于预设的训练图像,并按照公式(16)所示的损失函数,对Fast R-CNN模块进行网络训练:

其中,为行人分类损失函数,为聚合损失函数,为遮挡处理损失函数,i表示锚点框的标号,pi和ti分别表示第i个锚点框为行人的预测概率和该行人对应的预测坐标;和分别表示与第i个锚点框相关联的物体类别标号和对应的标定坐标,α3为第三超参数,λ为第四超参数;

行人分类损失函数如公式(17)所示:

其中,Ncls为RPN模块分类过程中的锚点框总数;

聚合损失函数如公式(18)所示:

其中,为回归损失函数,为紧凑性损失函数,β是第二超参数;

回归损失函数如公式(19)所示:

其中,Nreg为回归阶段锚点框的总数,是关于预测的检测窗口ti的L1损失函数的损失值;

紧凑性损失函数如公式(20)所示:

其中,Ncom为与锚点框存在相交的行人总数,|Φi|为与第i个标定行人相关联的锚点框总数,j为锚点框标号,tj为预测的第j个锚点框行人对应的坐标,p为与标定的行人窗口相关联的锚点框标记序列号,Φp为与标定的行人窗口相关联的锚点框标记。

在上述基于分块遮挡感知的行人检测系统的优选实施方案中,正负样本划分单元包括:

交除并重叠比计算子单元,其配置为计算各锚点框与每个行人标注框的交除并重叠比;

第一匹配子单元,其配置为选取与每个行人标注框的交除并重叠比最大的锚点框,并将所选取的各锚点框与各对应的人脸标注框进行匹配;

第二匹配子单元,其配置为判断去除所选取的锚点框之后,剩余的各锚点框与每个行人标注框的交除并重叠比是否大于预设的第一阈值:若大于则进行匹配;

第三匹配子单元,其配置为获取锚点框匹配数量小于预设的第二数量的人脸标注框,并选取与每个行人标注框的交除并重叠比大于预设的第二阈值的所有锚点框;所述预设的第一阈值大于预设的第二阈值;

第四匹配子单元,其配置为按照所选取的所有锚点框的交除并重叠比由大到小的顺序,选取预设的第三数量的锚点框与对应的行人标注框进行匹配;预设的第三数量的取值为锚点框匹配数量大于或等于预设的第二数量的人脸标注框的锚点框平均匹配数量。

本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的系统及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1