一种基于全局卷积、局部深度卷积融合的目标检测方法与流程

文档序号：21547878发布日期：2020-07-17 18:00阅读：来源：国知局

技术特征：

1.一种基于全局卷积、局部深度卷积融合的目标检测方法，其特征在于，包括：

s1：构建基于全局卷积、局部深度卷积融合的目标检测网络，其中，目标检测网络包括主干网络、全局网络和深度感知卷积区域建议网络，主干网络用于对输入的图片进行特征提取，全局网络用于对主干网络处理后的图片进行全局特征抽取，深度感知卷积区域建议网络用于对主干网络处理后的图片进行局部特征抽取；

s2：设置2d目标的锚点模板、3d目标的锚点模板以及可视化锚点生成方式，采用rpn机制生成预测框，采用非极大值抑制方法删除不符合条件的框；

s3：对剩余的预测框进行调整，生成2d边界框、3d边界框以及在各个类别上的概率；

s4：基于分类损失、2d边界框回归损失和3d边界框回归损失，设置目标检测网络的损失函数；

s5：将3d边界框投影至2d边界框，并根据损失函数对目标检测网络的参数进行优化处理，得到优化后的目标检测网络；

s6：利用优化后的目标检测网络对待检测图片进行检测，得到检测的目标参数。

2.如权利要求1所述的方法，其特征在于，s1中深度感知卷积区域建议网络对主干网络处理后的图片进行局部特征抽取的方式，包括横向非对称分割深度感知卷积、竖向非对称分割深度感知卷积以及针对多目标分支的卷积，其中，横向非对称分割深度感知卷积采用条带分割方法，竖向非对称分割深度感知卷积采用纵向切割的方法，针对多目标分支的卷积根据检测目标的数量采用不同的分支。

3.如权利要求2所述的方法，其特征在于，当深度感知卷积区域建议网络的特征提取方式为多目标分支卷积时，采用将已有的大模型学习到的参数模型应用至深度感知卷积区域建议网络的训练，具体包括：

采用带有绝对标签的数据训练大模型，绝对标签为hard目标，表示已知的目标在各个分类上的概率分布，一个目标在所属类别上的概率为1，在其他类别上的概率为0，即非0即1；

利用训练好的大模型来计算相对标签：soft目标，其中，大模型经过温度系数t软化后，再经过softmax的输出为soft目标，soft目标表示已知的目标在各个分类上的概率分布，一个目标在所属类别上的概率大于在其他类别上的概率；

训练小模型，在小模型的基础上再加一个额外与soft目标对应的损失函数，将hard目标和soft目标分别代入小模型训练，得到的第一损失和第二损失，并通过lambda匿名函数来调节第一损失和第二损失的比重，得到训练好的小模型，作为训练好的网络。

4.如权利要求3所述的方法，其特征在于，s2具体包括：

s2.1：设置2d目标的锚点模板：[w,h]2d、3d目标的锚点模板：[w,h,l,θ]3d,其中，w、h和l分别表示目标检测物体宽度、高度和长度，θ表示相机对目标检测物的观察视角角度；

s2.2：设置可视化锚点生成方式为公式(1)：

其中，2d共享空间的中心像素位置为[x,y]p，2d共享空间的参数[w,h]2d与像素坐标[x,y]2d之间的关系为[x,y]2d＝p·[w,h]2d，p表示需要将目标物投影的已知投影矩阵，[x,y，z,1]3d表示3d共享空间的参数或者坐标，zp表示预设深度信息，[x,y，z]p表示3d共享空间的中心像素位置，即锚点的位置坐标；

s2.3：根据2d目标的锚点模板、3d目标的锚点模板、可视化锚点生成方式以及预先计算的3d先验信息，采用rpn机制生成预测框；每个锚点的输出包括c,[tx,ty,tw,th]2d,[tx,ty,tz]p,[tw,th,tl,tθ]3d，其中，c表示类别，[tx,ty,tw,th]2d表示2d预测框的参数，[tx,ty,tz]p,[tw,th,tl,tθ]3d表示3d预测框的参数；

s2.4：采用非极大值抑制方法删除不符合条件的框。

5.如权利要求1所述的方法，其特征在于，s3包括

通过下述公式对2d预测框、3d预测框进行转换，得到生成2d边界框、3d边界框，

其中，xp和yp表示每个框的空间中心位置，为相机坐标系下的参数，表示2d预测框的参数，w2d、h2d表示2d预测框的宽度和高度，x′2d、w′2d、y′2d和h′2d为生成的2d边界框的参数，为相机坐标系下的参数，为3d预测框的参数，zp为深度信息，w3d、h3d、l3d、θ3d为3d预测框的宽度、高度、长度和偏转角，x′p、w′3d、y′p、h′3d、z′p、l′3d和θ′3d为生成的3d边界框的参数。

6.如权利要求3所述的方法，其特征在于，s4包括：

s4.1：采用基于softmax的多项逻辑损失函数计算分类损失，公式为：

s4.2：引入2d框回归损失用于匹配2d真实框与2d边界框b′2d之间的交并比：

s4.3：对3d框回归损失函数分析，用于将3d边界框中的每项用smoothl1回归损失函数来优化，其公式为：

s4.4：对2d框回归损失函数和3d框回归损失函数进行加权，获得目标检测网络的损失函数：

其中，nc表示类别的数量，ci表示在第i类上的得分，exp为指数函数，cτ表示当前类的得分，公式(4)的分母是表示第i到nc类得分的指数结果之和，分子为当前类得分的指数结果，为2d真实框,b′2d是2d边界框，b3d、分别为3d边界框和3d真实框，l为目标检测网络的损失函数，λ1和λ2分别表示2d框回归损失函数和3d框回归损失函数的正则化权重。

7.如权利要求1所述的方法，其特征在于，s5包括：

将3d投影至2d框的步骤的公式如下：

其中，φ表示轴[x,y,z]的索引，γ0等式右边的l,h,w为3d边界框b′3d中的l,h,w，θ为偏转角，p为相机坐标系投影矩阵，x,y,z为3d边界框b′3d变换得到的坐标参数，利用3d框投影后的2d框参数[xmin,ymin,xmax,ymax]与2d边界框b′2d计算损失，当θ±σ范围内损失没有更新时，则用衰减因子γ来改变步长σ，当σ＞β时反复执行上述操作，直到σ＜β。

8.如权利要求1所述的方法，其特征在于，在步骤s1之后，所述方法还包括：对全局特征和局部特征提取的输出进行加权处理。

9.如权利要求6所述的方法，其特征在于，采用标度-旋转-平移评分srts指标对2d框回归损失函数和3d框回归损失函数进行优化，将分数ssrt定义为尺度ss、旋转sr和平移st三个独立分数的组成：

sx,sy,sz表示在x,y,z方向的尺寸比例,θ表示不同的偏航角,t两个对象中心之间的欧式距离，pt是处罚函数，st是根据两个对象的大小来计算，两个物体的对角线的长度di被用来计算两个半径ri，i可取1,2，为调整分数，使用ws,wt和wr，用于控制单个分数的严格程度，之前所有的分数都在区间[0,1]，用简单的加权平均和惩罚pt合并成最终分数ssrt；

ssrt＝pt·(αss+βst+γsr)(14)

其中，α+β+γ＝1。

10.如权利要求9所述的方法，其特征在于，当检测目标包括三类目标时针对多目标分支的卷积根据检测目标的数量采用不同的分支，包括：采用三分支网络结构，其中，检测目标包括汽车car、行人pedestrian和骑自行车的人cyclist，3d框回归损失函中新增在各类目标上的损失函数，如下：

l＝lcar+lpedestrian+lcyclist+lcls(15)

其中，lcarlpedestrianlcyclist分别是car在2d、3d回归框上损失，pedestrian在2d、3d回归框上损失以及cyclist三类在2d、3d回归框上损失，lcls为总的分类上的损失，

lcar＝λcar1lcar2d+λcar2lcar3d(16)

lpedestrian＝λpedestrian1lpedestrian2d+λpedestrian2lpedestrian3d(17)

lcyclist＝λcyclist1lcyclist2d+λcyclist2lcyclist3d(18)

其中λi1、λi2，其中i为car、pedestrian、cyclist的定义如下：

技术总结
本发明公开了一种基于全局卷积、局部深度卷积融合的目标检测方法，改变原来的三维区域建议网络，提出一种基于非对称分割深度感知的ASD网络结构用于目标检测。通过这样做，可以更充分地提取特征图中每个层次和深度的特征。此外，还引入水平和垂直卷积融合网络以及蒸馏网络、角度优化算法等创新技术，进一步提高了检测效果。

技术研发人员：高戈;杜能;余星源;李明;常军;陈怡
受保护的技术使用者：武汉大学
技术研发日：2020.03.17
技术公布日：2020.07.17

完整全部详细技术资料下载

当前第2页1 2