一种基于二值化FasterRCNN网络的行人检测方法与流程

文档序号：20755245发布日期：2020-05-15 17:22阅读：606来源：国知局

本发明涉及图像识别技术领域，尤其是一种基于二值化fasterrcnn网络的行人检测方法。

背景技术：

随着人工智能的高速发展，现如今深度学习技术深入计算机视觉的各个方面，各种不同思路的新方法广泛应用于各个场景中，解决传统方法存在的弊端，性能各个方面超越了传统方法。

行人检测是计算机视觉的重要应用之一，目前已广泛应用于各个场景，如摄像头监控技术、汽车高级辅助驾驶技术等。传统行人检测着重于特征提取、分类与定位两个问题。行人特征一般分为低层特征、基于学习的特征和混合特征，分类与定位方法分为滑动窗口法、超越滑动窗口法。这些方法均存在实用性低、效果差、准确率不高的问题。

fasterrcnn目标检测算法主要流程分为基于深度卷积网络的特征提取部分、候选区域生成网络部分、候选窗口分类和微调部分、非极大值抑制部分。fasterrcnn网络虽然在行人检测上取得了不错的效果，但是因为该网络具有较多的学习参数，因此目前来说仅限于服务器上运行，利用gpu进行结果测试，在嵌入式设备上运行尚存在一定难度。

技术实现要素：

本发明提供一种基于二值化fasterrcnn网络的行人检测方法，将fasterrcnn网络二值化，以解决现有fasterrcnn目标识别网络难以运行在嵌入式终端上的问题。

一种基于二值化fasterrcnn网络的行人检测方法，先构建并训练网络模型，然后通过训练好的网络模型对公路车道进行检测，网络模型构建和训练主要包括以下步骤：

1、收集大量汽车行驶过程中行车记录仪拍摄到的包含行人的图片，方框标记出图片中行人部分，构成包含行人的数据集，将数据集从数量上分为训练集、验证集和测试集三部分；

2、构建fasterrcnn网络，并对其进行二值化，形成二值化fasterrcnn网络，fasterrcnn网络主要由vgg16网络层、rpn网络层和roi池化层组成；二值化操作具体为，将vgg网络层的权重利用符号函数二值化，激活函数采用hardsigmoid函数，卷积操作为其中i表示输入矩阵，w表示未二值化的权重，k和α为调整参数；层叠模式改为批标准化→二值化激活→二值化卷积→池化；

3、利用训练集对二值化fasterrcnn网络进行训练，具体包为，权重初始化为浮点，前向传播过程中利用通过符号函数将权重量化为+1/-1，由二值权重与二值输入进行卷积运算，获得卷积层输出；在反向传播过程中，放松符号函数，计算相应梯度值，并根据梯度值对权重进行参数更新，参数更新完成后再权重量化为+1/-1，以便后期推断使用；

4、将测试集输入训练好的二值化fasterrcnn网络，获得行人预测框，采用非极大值抑制法，对行人预测框进行进一步筛选，确定行人预测框的最终位置，并在图像中显示出来。

进一步的，网络训练阶段，先利用imagenet数据集初始化rpn网络，再利用训练集微调rpn网络；固定二值化vgg16网络和rpn网络参数后，再对分类和回归层进行同样的训练；根据训练好的rpn网络生成感兴趣区域，单独训练二值化后的vgg16网络，训练方法与rpn网络相同。

进一步的，输入图片经过vgg16网络二值化卷积后得到512通道的特征图，使用21600个固定大小的锚点框作为检测候选区域，通过rpn网络从所有候选区域中初步筛选出包含行人的候选区域，并将这些区域送入分类和回归网络最终得到行人的预测位置，最终通过非极大值抑制法产生行人检测结果。

进一步的，采用非极大值抑制算法对行人预测框进行进一步筛选的方式为，将预测框检测到的行人概率按照从大到小的顺序排列，删除与检测到行人的概率最大的预测框的交叠率大于50％的预测框，再删除与检测到行人的概率次大的预测框的交叠率大于50％的预测框，以此类推，最后留下的预测框即为非极大值抑制法进一步筛选得到的预测框。

本发明将fasterrcnn网络的骨干网络即vgg16网络的卷积层，卷积核和激活函数均改为二值化数据，采用二值化后的数据进行卷积运算和激活函数激活的时候，避免了原有fasterrcnn网络因需要学习大量参数而计算量大的问题，在检测速度方面提高了约6倍，在内存消耗方面缩减了近20倍，具有占用内存容量下、运算速度快的优点，不仅能够在服务器上以较高帧率运行，在嵌入式系统方面也展现了良好的性能，具有较好的应用前景。

附图说明

图1为fasterrcnn网络结构图；

图2为行人检测输出图片。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

实施例1

1、收集集5万张汽车行驶过程中行车记录仪拍摄到的包含行人的图片。由于车辆行驶过程中通常是通过行车记录仪实时拍摄红绿灯情况的，因此，收集图片的来源也最好来源于行车记录仪的视频截图，将行车记录仪拍摄视频按照固定频率进行分帧处理并保留包含行人的图片进行处理分析。

采用labelimage软件进行图片标注，方框标记出图片中行人部分，构成包含行人的数据集，将数据集按照6:2:2的比例分为训练集、测试集和验证集三部分。

2、构建图1所示fasterrcnn网络，并对其进行二值化，形成二值化fasterrcnn网络，fasterrcnn网络主要由vgg16网络层、rpn网络层和roi池化层组成。

该fasterrcnn网络的特征提取采用vgg16网络，候选区域生成采用rnp网络，候选窗口分类和微调采用roi池化层以及分类和回归网络。

二值化操作具体为，将vgg网络层的权重利用符号函数二值化，激活函数采用hardsigmoid函数，卷积操作为其中i表示输入矩阵，w表示未二值化的权重，k和α为调整参数，其中其中w、c、h分别表示卷积权重矩阵的宽、高和通道数；层叠模式改为批标准化→二值化激活→二值化卷积→池化。

3、利用训练集对二值化fasterrcnn网络进行训练，具体包括：

⑴权重初始化为浮点，先利用imagenet数据集初始化rpn网络，再利用训练集微调rpn网络；固定二值化vgg16网络和rpn网络参数后，再对分类和回归层进行同样的训练；根据训练好的rpn网络生成感兴趣区域，单独训练二值化后的vgg16网络，训练方法与rpn网络相同；

⑵前向传播过程中，输入图片经过vgg16网络二值化卷积后得到512通道的特征图，使用21600个固定大小的锚点框作为检测候选区域，通过rpn网络从所有候选区域中初步筛选出包含行人的候选区域，并将这些区域送入分类和回归网络最终得到行人的预测位置，最终通过非极大值抑制法产生行人检测结果；

⑶反向传播，放松符号函数，计算相应梯度值，并根据梯度值对权重进行参数更新；

⑷参数更新完成后再权重量化为+1/-1，以便后期推断使用。

4、将测试集输入训练好的二值化fasterrcnn网络，获得行人预测框，采用非极大值抑制法，对行人预测框进行进一步筛选，确定行人预测框的最终位置，并在图像中显示出来；

采用非极大值抑制算法对行人预测框进行进一步筛选的方式为，将预测框检测到的行人概率按照从大到小的顺序排列，删除与检测到行人的概率最大的预测框的交叠率大于50％的预测框，再删除与检测到行人的概率次大的预测框的交叠率大于50％的预测框，以此类推，最后留下的预测框即为非极大值抑制法进一步筛选得到的预测框。

这里需要说明的是，本发明未特殊强调部分，均属于本领域技术人员根据现有目标识别技术可以或容易知晓如何实现的。

向本发明训练好的网路模型输入待检测图片，输出带行人预测框的图片，如图2所示。

显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张中;张莉蓉
技术所有人：合肥湛达智能科技有限公司
我是此专利的发明人

上一篇：一种基于双天线的WiFi终端测向装置的制作方法
上一篇：一种燃烧器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。