级联神经网络模型的行人检测方法、装置、设备及介质与流程

文档序号:28956384发布日期:2022-02-19 11:52阅读:170来源:国知局
级联神经网络模型的行人检测方法、装置、设备及介质与流程

1.本技术涉及深度学习技术领域,尤其是涉及级联神经网络模型的行人检测方法、装置、设备及介质。


背景技术:

2.车辆和行人是路面上最为常见的可移动目标,其中,行人由于碰撞风险高、碰撞后果严重,对自动驾驶车辆的感知控制系统有着更为苛刻的要求。目前,普遍采用一个计算量巨大的端到端检测模型,即一级检测器,将所有行人目标归为一类目标,进行全图检测。
3.上述方法虽易于训练,但在实际应用过程中有诸多问题:为保证检测结果的实时性,在很大程度上限制了一级检测器的体量,从而需舍弃对行人目标的姿态、移动速率及方向等重要信息的感知;因行人目标分散在路面各处且处于不同遮挡环境,容易将路边的树木、灯杆、导改设施等误检为行人而误触发刹车。行人目标具有远超车辆目标的复杂性,不同属性组合的行人所能导致的安全风险远超于车辆目标,现有的一级检测器难以支撑下游规控系统做出安全决策。
4.针对上述中的相关技术,发明人认为现有的一级检测器存在有无法感知行人目标的精细属性,易误检行人目标的缺陷。


技术实现要素:

5.为了降低行人目标的误检率,本技术提供了级联神经网络模型的行人检测方法、装置、设备及介质。
6.第一方面,本技术提供一种级联神经网络模型的行人检测方法,具有降低行人目标误检率,提供行人目标更多行为信息的特点。
7.本技术是通过以下技术方案得以实现的:一种级联神经网络模型的行人检测方法,包括以下步骤:获取行人目标的原样本框;对所述原样本框进行附加属性的补充标注,并生成以行人目标为中心的补丁式小图片;沿行人目标的头脚方向拓展所述补丁式小图片至预设高度,并按照预设的第一阈值拓展所述补丁式小图片至预设宽度,得到训练样本;基于预设的可重参数化的残差单元,构建轻量化的多头分类网络;使所述训练样本输入所述多头分类网络中,训练得到二级重参数化模型;将所述二级重参数化模型与一级检测器串联,并输入包含行人目标的原始图像进行预测。
8.通过采用上述技术方案,获取行人目标的原样本框,即一个从头到脚、 从左到右框住某一行人目标的一个矩形框,且这个矩形框只标注“人”这一属性;对原样本框进行附加属性的补充标注,使得矩形框包括“人”和附加属性的至少两个属性特征,并生成以行人
目标为中心的补丁式小图片,实现了原样本框到以行人目标为中心的带“人”和附加属性标注的目标样本框的转换,且保留了原样本框,以便于数据追溯;沿行人目标的头脚方向拓展补丁式小图片至预设高度,以使训练样本既能以人为中心,又能露出人的脚部和头部的位置区域,也方便后续预测行人目标的头和脚位置;按照预设的第一阈值拓展补丁式小图片至预设宽度,以使得训练样本的框宽保持一致,达到预处理训练样本的目的,便于减少后续的样本训练时间;基于预设的可重参数化的残差单元,设置残差单元的参数,构建轻量化的多头分类网络,使训练样本输入多头分类网络中,得到二级重参数化模型,以搭建一个轻量化的训练架构,使训练样本输入多头分类网络中训练,减少样本训练过程中的计算量;进而一种级联神经网络模型的行人检测方法能充分利用更丰富的附加属性的图像语义信息,指导模型习得行人目标的精细特征,降低了行人目标的误检率。
9.本技术在一较佳示例中可以进一步配置为:所述可重参数化的残差单元包括conv 3x3、conv 1x1、若干用于提取语义信息的归一化层和激活函数silu,所述conv 3x3和所述conv 1x1和其中一个所述归一化层并行设置,若干所述归一化层分别连接于所述conv 3x3和所述conv 1x1的输出端,所述conv 3x3所在支路的输出结果、所述conv 1x1所在支路的输出结果和并行设置的所述归一化层的输出结果依次叠加,再输入所述激活函数silu内。
10.通过采用上述技术方案,借助可重参数化的残差单元的conv 3x3、conv 1x1、归一化层和激活函数silu的结构设计,在相同输入通道和输出通道数量的情况下, 并结合已有的gpu计算单元的硬件特性,相较于传统的残差单元,计算量减少至原有的残差单元的1/2,大大降低了模型计算量,运行效率更高,在模型实际部署阶段能做到实时预测,降低了系统的延迟性。
11.本技术在一较佳示例中可以进一步配置为:使所述训练样本输入所述多头分类网络中,训练得到二级重参数化模型的步骤还包括:在所述多头分类网络中,采用标签组合多项分布采样方法对所述训练样本进行训练。
12.通过采用上述技术方案,在多头分类网络中,采用标签组合多项分布采样方法对训练样本进行训练,以避免采用单纯的随机采样训练策略而导致模型各分支训练不充分或过拟合的问题,使得训练得到的多头分类网络的分类精度更高。
13.本技术在一较佳示例中可以进一步配置为:在所述多头分类网络中,采用标签组合多项分布采样方法对所述训练样本进行训练的步骤包括:对所述原样本框的附加属性进行排列组合,得到组合标签;计算每个组合标签的权重值;基于所述权重值对所述训练样本进行采样与训练。
14.通过采用上述技术方案,对原样本框的附加属性进行排列组合,每种附加属性的排列组合方式构成一个组合标签,并将所有的组合标签形成的集合,作为得到的组合标签;计算每个组合标签的权重值,基于权重值对训练样本进行采样与训练,以更充分地训练模型各分支,减少模型训练过程中发生的过拟合现象,提高模型的训练精度。
15.本技术在一较佳示例中可以进一步配置为:在所述多头分类网络中,采用标签组合多项分布采样方法对所述训练样本进行训练的步骤还包括:预设第二阈值,使组合标签的数量低于所述第二阈值所对应的组合标签作为稀有
组合标签;预设第三阈值,使所述稀有组合标签按所述第三阈值进行采样。
16.通过采用上述技术方案,预设第二阈值以从组合标签中筛选得到稀有组合标签,并使稀有组合标签按第三阈值进行采样,以使稀有组合标签出现的频率保持恒定,进而能够在每批训练数据中保证稀有组合标签的采样次数,使得模型在训练时有机会学习到稀有组合标签带有的特征,以提升模型整体的泛化性能,增强适用性。
17.本技术在一较佳示例中可以进一步配置为:所述沿行人目标的头脚方向拓展所述补丁式小图片至预设高度,并按照预设的第一阈值拓展已缩放的所述补丁式小图片至预设宽度的步骤前,还包括以下步骤:使所述补丁式小图片缩放至预设尺寸。
18.通过采用上述技术方案,在拓展补丁式小图片前,使补丁式小图片缩放至预设尺寸,以减小补丁式小图片的尺寸,进而减少后续补丁式小图片在模型训练时的计算量。
19.本技术在一较佳示例中可以进一步配置为:所述得到训练样本的步骤前,还包括以下步骤:使所述补丁式小图片的四个顶点坐标在行人目标的原始图像内自适应移动。
20.通过采用上述技术方案,使补丁式小图片的四个顶点坐标在行人目标的原始图像内自适应移动,得到训练样本,以调整图像大小,自适应平台支持的运算操作,避免了补黑边操作,便于后续的图像处理。
21.第二方面,本技术提供一种级联神经网络模型的行人检测装置,具有降低行人目标误检率,提供行人目标更多行为信息的特点。
22.本技术是通过以下技术方案得以实现的:一种级联神经网络模型的行人检测装置,包括:获取模块,用于获取行人目标的原样本框;补充模块,用于对所述原样本框进行附加属性的补充标注,并生成以行人目标为中心的补丁式小图片;拓展模块,用于沿行人目标的头脚方向拓展所述补丁式小图片至预设高度,并按照预设的第一阈值拓展已缩放的所述补丁式小图片至预设宽度,得到训练样本;构建模块,用于基于预设的可重参数化的残差单元,构建轻量化的多头分类网络;训练模块,用于使所述训练样本输入所述多头分类网络中,训练得到二级重参数化模型;检测模块,用于将所述二级重参数化模型与一级检测器串联,并输入包含行人目标的原始图像进行检测。
23.第三方面,本技术提供一种计算机设备,具有降低行人目标误检率,提供行人目标更多行为信息的特点。
24.本技术是通过以下技术方案得以实现的:一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种级联神经网络模型的行人检测方法的步骤。
25.第四方面,本技术提供一种计算机可读存储介质,具有降低行人目标误检率,提供
行人目标更多行为信息的特点。
26.本技术是通过以下技术方案得以实现的:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述一种级联神经网络模型的行人检测方法的步骤。
27.第五方面,本技术提供一种计算机程序产品,具有降低行人目标的误检率,提供行人目标更多行为信息的特点。
28.本技术是通过以下技术方案得以实现的:一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述一种级联神经网络模型的行人检测方法的步骤。
29.综上所述,本技术包括以下至少一种有益技术效果:1、一种级联神经网络模型的行人检测方法能充分利用更丰富的附加属性的图像语义信息,指导模型习得行人目标的精细特征,降低了行人目标的误检率;2、基于可重参数化的残差单元的conv 3x3、conv 1x1、归一化层和激活函数silu的结构设计,在相同输入通道和输出通道数量的情况下,能大大降低模型的计算量;3、在多头分类网络中,采用标签组合多项分布采样方法对训练样本进行训练,使训练得到的多头分类网络的分类精度更高;4、在每批训练数据中保证稀有组合标签的采样次数,使得模型在训练时有机会学习到稀有组合标签带有的特征,以提升模型整体的泛化性能,增强适用性;5、在拓展补丁式小图片前,使补丁式小图片缩放至预设尺寸,以减小补丁式小图片的尺寸,进而减少其在模型训练时的计算量;6、使补丁式小图片的四个顶点坐标在行人目标的原始图像内自适应移动,以调整图像大小,自适应平台支持的运算操作,避免补黑边操作。
附图说明
30.图1是本技术其中一实施例一种级联神经网络模型的行人检测方法的流程示意图。
31.图2是采用标签组合多项分布采样方法对训练样本进行训练的流程图。
32.图3是可重参数化的残差单元的结构示意图。
33.图4是函数relu和函数silu的趋势变化曲线示意图。
34.图5是标签组合多项分布采样方法的训练示意图。
35.图6是二级重参数化模型串联一级检测器后输出的带附加属性的行人目标样本框。
36.图7是一种级联神经网络模型的行人检测方法更正误检样本的示意图。
37.图8是本技术其中一实施例一种级联神经网络模型的行人检测装置的结构框图。
具体实施方式
38.本具体实施例仅仅是对本技术的解释,其并不是对本技术的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本技术的权利要求范围内都受到专利法的保护。
39.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
40.另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
41.下面结合说明书附图对本技术实施例作进一步详细描述。
42.参照图1,本技术实施例提供一种级联神经网络模型的行人检测方法,所述方法的主要步骤描述如下。
43.s1:获取行人目标的原样本框;s2:对原样本框进行附加属性的补充标注,并生成以行人目标为中心的补丁式小图片;s3:沿行人目标的头脚方向拓展补丁式小图片至预设高度,并按照预设的第一阈值拓展补丁式小图片至预设宽度,得到训练样本;s4:基于预设的可重参数化的残差单元,构建轻量化的多头分类网络;s5:使训练样本输入多头分类网络中,训练得到二级重参数化模型;s6:将二级重参数化模型与一级检测器串联,并输入包含行人目标的原始图像进行预测。
44.进一步地,s3:沿行人目标的头脚方向拓展补丁式小图片至预设高度,并按照预设的第一阈值拓展已缩放的补丁式小图片至预设宽度的步骤前,还包括以下步骤:s31:使补丁式小图片缩放至预设尺寸。
45.进一步地,s3:得到训练样本的步骤前,还包括以下步骤:s32:使补丁式小图片的四个顶点坐标在行人目标的原始图像内自适应移动。
46.进一步地,参照图2,s5:使训练样本输入多头分类网络中,训练得到二级重参数化模型的步骤还包括:在多头分类网络中,采用标签组合多项分布采样方法对训练样本进行训练。
47.其中,在多头分类网络中,采用标签组合多项分布采样方法对训练样本进行训练的步骤包括:s51:对原样本框的附加属性进行排列组合,得到组合标签;s52:计算每个组合标签的权重值;s53:基于权重值对训练样本进行采样与训练。
48.进一步地,在多头分类网络中,采用标签组合多项分布采样方法对训练样本进行训练的步骤还包括:s511:预设第二阈值,使组合标签的数量低于第二阈值所对应的组合标签作为稀有组合标签;s521:预设第三阈值,使稀有组合标签按第三阈值进行采样。
49.进一步地,参照图3,s4:可重参数化的残差单元包括conv 3x3、conv 1x1、若干用于提取语义信息的归一化层和激活函数silu,conv 3x3和conv 1x1和其中一个归一化层并
行设置,若干归一化层分别连接于conv 3x3和conv 1x1的输出端,conv 3x3所在支路的输出结果、conv 1x1所在支路的输出结果和并行设置的归一化层的输出结果依次叠加,再输入激活函数silu内。
50.具体地,上述各个实施例的具体流程步骤描述如下。
51.s1:获取一级检测器输出的行人目标的原样本框。
52.s2:对原样本框进行附加属性的补充标注,并基于补充标注的样本框,调用patch函数,拓展出对应的补丁式小图片的脚本,生成以行人目标为中心的补丁式小图片。
53.其中,附加属性包括人的姿态、脚部是否遮挡、移动朝向、是否是儿童等类型。人的姿态包括坐姿、站立或骑行。脚部是否遮挡包括遮挡或未遮挡。移动朝向包括向左、向右、与车同向或与车对向。是否是儿童包括成人或儿童。
54.s31:使补丁式小图片缩放至预设尺寸。考虑到系统预留给二级模型的算力空间很小,使补丁式小图片缩放至预设尺寸,以减小补丁式小图片的尺寸,进而减少模型中补丁式小图片的计算量。
55.本实施例中,预设尺寸可以为128x64pixels。具体地,在缩放的128x64尺寸的补丁式图片上,当沿行人目标的头脚方向、向上和向下各拓展原样本框框高的20%后,图片的背景面积更大,则图片中的人体所占面积相对来说就很小,容易造成行人目标检测的误报。特别是在密集行人场景的图片中,更容易造成行人目标检测的误报。同时,通过统计大量的行人目标图像样本的原样本框的长宽比,发现原样本框的长宽比均值在2.0左右浮动, 即身高/身宽约等于2.0,且沿用一般深度学习网络所采用的正方形图像的样本进行模型训练时,比如128x128的尺寸,则在密集行人的场景下,128 x128的补丁式小图片会出现多个行人的情况,进而使得训练后的模型很难区分前景后景的行人,在系统集成测试中的测试效果不好。故基于得到的行人目标样本框的长宽比均值在2.0左右浮动,使行人目标样本框的长宽比为2,以控制行人目标图像样本的尺寸为128x64,进而减少训练后的模型很难区分前景后景的行人的情况,改善系统集成测试的测试效果。
56.s3:沿行人目标的头脚方向拓展已缩放的补丁式小图片至预设高度,并按照预设的第一阈值拓展已缩放的补丁式小图片至预设宽度。
57.由行人样本中心出发,采用了分别在行人头脚方向进行原高度的5-10%的拓展,即以现有的原样本框的位置为基准, 沿行人目标的头脚方向、向上和向下各拓展原样本框框高的5%-10%,故最终拓展至目标样本框的框高范围至原样本框框高的1.1-1.2倍,并按照预设的第一阈值拓展已缩放的补丁式小图片至预设宽度,以使训练样本既能以人为中心,又能露出人的脚部和头部的位置区域,也方便后续预测行人目标的头和脚位置。
58.本实施例中,沿行人目标的头脚方向、向上和向下各拓展原样本框框高的5%,作为目标样本框的框高。
59.第一阈值可以为长宽比为2:1,符合身高/身宽约等于2.0的统计规律,并基于目标样本框的框高,使目标样本框的框宽为框高的一半,进而得到目标样本框的框宽。本实施例中,沿原样本框的框宽方向向左和向右各拓展原框宽的2.5%,作为目标样本框的框宽。
60.特别地,拓展补丁式小图片的过程中,可加入一些随机抖动,以模拟一级模型部署时的检测结果并不总是很稳定的情景,通过人造的扰动数据,增强训练的二级模型的泛化性能,使得二级模型在实际环境中的检测表现更稳定。
61.s32:使补丁式小图片的四个顶点坐标在行人目标的原始图像内自适应移动,避免所得样本图像边界落在原始图像外侧进而需要补黑边的问题,便于后续的图像处理。
62.该自适应移动过程主要考虑补丁式小图片的四个顶点坐标与原始图像四边界的相对位置关系。若某顶点落在边界外,则与其同属一边的对应顶点自适应地向原始图像内部移动,直至补丁式小图片的内容全部来自原始图像。
63.此自适应移动过程对于模型开发非必需,可以采用按照所需尺寸补黑边的替代操作。但考虑到后续模型部署阶段的硬件要求和算法效率,采用自适应移动的方法生成数据,显然更为方便、高效。
64.通过调用函数padding(),假设所需样本框的尺寸为128x64, 而获取到的待处理样本框落在所需样本框内部部分的区域尺寸为96x60,且是彩色的,则需对待处理样本框落在所需样本框外部部分的区域填充0, 以使得样本框处理后落在所需样本框外的区域变成黑色,以完成补黑边操作。
65.s4:基于预设的可重参数化的残差单元,构建轻量化的多头分类网络。
66.其中,轻量化的多头分类网络可以基于repperson搭建。
67.因行人目标训练样本的图像尺寸较小,在很大程度上限制了模型的最大下采样倍率,为了在每次降采样后都能够充分提取行人目标的特征并进行融合,本技术可重参数化残差单元,作为搭建多头分类网络的基本单元,以在有效提升模型精度、改善模型寻优过程的同时,提升卷积神经网络在部署阶段的运算效率。
68.参照图3,可重参数化的残差单元包括一个conv 3x3、一个conv 1x1、三个用于提取语义信息的归一化层和激活函数silu,conv 3x3和conv 1x1和其中一个归一化层并行设置,剩余的两个归一化层分别连接于conv 3x3和conv 1x1的输出端,conv 3x3所在支路的输出结果、conv 1x1所在支路的输出结果和并行设置的归一化层的输出结果依次叠加,合并单元分支,再将结果输入激活函数silu内,最后将激活函数silu的结果输。
69.相比于传统的残差单元,本技术通过新增一条含归一化层的、且与conv 1x1和conv 3x3并行设置的支路,以尽可能地提取更多的不同层次的语义信息。
70.在原conv 1x1和conv 3x3所在支路批量引入归一化层,以在达到相同性能的情况下,模型所需要的训练gpu小时数更少,加速了模型收敛,加快了检测速度。
71.参照图4,相比于传统的残差单元,本技术将函数relu改用为更光滑的激活函数silu,对于负值数据特征,激活函数silu依旧能传递给下游网络结构,函数relu则直接忽略负值数据特征而无法下传,故在模型学习期间,函数relu忽略的负值数据特征会导致模型指标上下震荡,即学习曲线呈锯齿状,而激活函数silu因保留了负值数据特征信息,训练时模型指标震荡幅度收窄, 学习曲线更为光滑,即提升了模型训练的平滑性。同时,因silu函数是一条过0点的曲线而非直线,故能增加模型的非线性。
72.进而基于可重参数化残差单元的轻量化的多头分类网络,既可以在模型训练阶段充分利用更丰富的图像语义信息、指导模型习得行人目标的精细特征,以获得泛化能力更好的模型权重,使得模型每一层结构的参数性能更佳;又可以在现有gpu计算单元的硬件特性下达到更高的运行效率。
73.s5:使训练样本输入多头分类网络中。
74.因行人目标样本的各个属性相互独立且分布高度不均,单纯的随机采样训练策略
极易导致模型各分支训练不充分或过拟合,故采用标签组合多项分布采样方法对训练样本进行训练,得到二级重参数化模型。
75.其中,参照图5,采用标签组合多项分布采样方法对训练样本进行训练的步骤包括:s51:对原样本框的附加属性进行排列组合,得到组合标签。具体地,按预设顺序遍历从每个行人目标样本获取的附加属性,并对各附加属性进行排列组合,使得到的所有可能的排列组合形成集合,得到组合标签。
76.进一步地,得到的组合标签的数量有不合理的,需要剔除,即最终的组合标签数量是剔除了不合理数量后的,以使得模型的分类更精准。
77.例如,行人目标的目标样本框内含有3个附加属性,每个附加属性各有2个可能值, 则对附加属性进行排列组合后,得到2x2x2=8个组合,8个组合即为得到的组合标签。
78.基于组合标签,遍历和统计每个行人目标样本带有的附加属性,并在每次获取到与组合标签内附加属性的排列组合相同的、行人目标样本的附加属性时,使组合标签内对应元素的数量依次加1,最终更新组合标签内对应元素的数量,得到各个标签组合在数据集中的样本分布情况。
79.s511:预设第二阈值,使组合标签的数量低于第二阈值所对应的组合标签作为稀有组合标签。稀有组合标签的数量较少,出现几率较小,故被模型学习的几率更小。本实施例中,第二阈值可以为2。
80.s52:计算每个组合标签的权重值。具体计算公式如下:。
81.其中,为每种组合标签的数量;为组合标签的总数量。
82.s521:预设第三阈值,使稀有组合标签按第三阈值进行采样。本实施例中,当模型中的batch_size设置为128时, 第三阈值可以为0.1,即保留10%的样本量。
83.s53:基于权重值和第三阈值对训练样本进行采样与训练。当组合标签为非稀有组合标签时,按对应的权重值进行训练;当组合标签为稀有组合标签时,按第三阈值进行训练。通过使稀有组合标签按第三阈值进行采样,以增加稀有组合标签出现的频率,让模型有机会学习到稀有组合标签带有的特征,进而提升模型整体的泛化性能。
84.输入的训练样本采用标签组合多项分布采样方法,经历模型前传、模型反传更新参数的训练过程,并循环反复,直至达到预设训练标准,则二级重参数化模型完成训练。
85.s6:将二级重参数化模型与一级检测器的输出端串联,并输入包含行人目标的原始图像至一级检测器的输入端,得到最终预测的行人目标及其相应的细分附加属性,比一级检测器结果提供了更为丰富的属性信息,如图6所示,同时,二级重参数化模型与一级检测器串联后,更正了一级检测器的误检样本,改善了误检率,如图7所示。
86.当然,本实施例也可根据不同场景,结合系统的算力条件做相应调整,在此不再赘述。
87.进而一种级联神经网络模型的行人检测方法通过级联一个轻量级的分类模型压制误检样本,修正了现有一级检测器的误检结果,且能对样本的精细属性做出预测,以输出
更为精细化的样本属性,提高了行人目标的误检率;也为下游规划控制系统提供更多行人目标的信息以供决策, 提升整体安全性;同时,模型计算量小, 在模型实际部署阶段做到实时预测,改善了系统延迟问题,不会产生明显的系统延迟,适用性更强。
88.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
89.参照图8,本技术实施例还提供一种级联神经网络模型的行人检测装置,该一种级联神经网络模型的行人检测装置与上述实施例中一种级联神经网络模型的行人检测方法一一对应。该一种级联神经网络模型的行人检测装置包括:获取模块,用于获取行人目标的原样本框;补充模块,用于对原样本框进行附加属性的补充标注,并生成以行人目标为中心的补丁式小图片;拓展模块,用于沿行人目标的头脚方向拓展补丁式小图片至预设高度,并按照预设的第一阈值拓展已缩放的补丁式小图片至预设宽度,得到训练样本;构建模块,用于基于预设的可重参数化的残差单元,构建轻量化的多头分类网络;训练模块,用于使训练样本输入多头分类网络中,训练得到二级重参数化模型;检测模块,用于将二级重参数化模型与一级检测器串联,并输入包含行人目标的原始图像进行预测。
90.其中,训练模块包括:组合标签单元,用于对原样本框的附加属性进行排列组合,得到组合标签;权重单元,用于计算每个组合标签的权重值;训练单元,用于基于权重值和预设的第三阈值对训练样本进行采样与训练。
91.进一步地,组合标签单元还包括:稀有组合标签子单元,用于预设第二阈值,使组合标签的数量低于第二阈值所对应的组合标签作为稀有组合标签;权重单元还包括:阈值子单元,用于预设第三阈值,使稀有组合标签按第三阈值进行采样。
92.进一步地,一种级联神经网络模型的行人检测装置还包括:缩放模块,用于使补丁式小图片缩放至预设尺寸。
93.进一步地,一种级联神经网络模型的行人检测装置还包括:调整模块,用于使补丁式小图片的四个顶点坐标在行人目标的原始图像内自适应移动。
94.关于一种级联神经网络模型的行人检测装置的具体限定可以参见上文中对于一种级联神经网络模型的行人检测方法的限定,在此不再赘述。上述一种级联神经网络模型的行人检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
95.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的
处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种级联神经网络模型的行人检测方法。
96.在一个实施例中,提供了一种计算机可读存储介质,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:s1:获取行人目标的原样本框;s2:对原样本框进行附加属性的补充标注,并生成以行人目标为中心的补丁式小图片;s3:沿行人目标的头脚方向拓展补丁式小图片至预设高度,并按照预设的第一阈值拓展补丁式小图片至预设宽度,得到训练样本;s4:基于预设的可重参数化的残差单元,构建轻量化的多头分类网络;s5:使训练样本输入多头分类网络中,训练得到二级重参数化模型;s6:将二级重参数化模型与一级检测器串联,并输入包含行人目标的原始图像进行预测。
97.在一个实施例中,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现一种级联神经网络模型的行人检测方法。
98.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink) dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
99.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述系统的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1