本发明涉及机器人视觉定位,具体是涉及一种抗运动模糊的小目标检测方法。
背景技术:
1、视觉抓取系统广泛应用于工业自动化抓取与柔性制造,其中“眼在手(eye-in-hand)”构型因其灵活性高、遮挡少而备受青睐。在此类系统中,嵌入式端目标检测算法的精度与推理速度直接决定了闭环控制的稳定性与抓取成败。目前,以yolo系列为代表的单阶段检测算法虽应用广泛,但在实际的动态抓取与边缘计算场景下,仍面临以下严峻挑战:
2、第一,抗运动模糊能力弱。在视觉抓取过程中,相机随末端执行器快速逼近目标,不可避免地产生图像运动模糊。现有的卷积神经网络通常依赖清晰的梯度纹理进行特征提取,在模糊场景下,目标的边缘高频信息被平滑,导致网络难以区分前景与背景,极易引发漏检或定位漂移,严重影响高速运动下的抓取成功率。
3、第二,轻量化与小目标特征保留的矛盾。受限于工业现场边缘计算设备(树莓派)的有限算力,必须使用轻量化模型。然而,轻量化模型为减少计算量,通常采用大步长下采样和通道压缩。这一过程会导致小目标的细微几何特征在深层特征图中严重丢失。现有的特征金字塔(fpn)结构虽能融合多尺度信息,但在极度压缩的模型中,仍难以保留足以支撑精密抓取任务的像素级边缘位置信息。
4、第三,缺乏算力自适应机制。现有深度学习模型多采用静态计算图结构,即无论输入图像是简单背景下的清晰目标,还是复杂遮挡下的模糊目标,均执行固定的全量推理流程。在视觉抓取控制回路中,这种“一刀切”的机制导致计算资源的巨大浪费,无法在简单场景下通过降低算力来换取更高的控制帧率,造成系统延时波动,影响闭环控制的平滑性。
5、第四,抓取策略缺乏几何感知与位姿优选。现有的通用目标检测算法通常仅输出轴对齐的边界框,缺乏对物体几何主轴方向的精确感知。在面对长方体、圆柱体等非各向同性物体时,若控制系统简单地以几何中心为抓取点,而不调整夹爪角度使其垂直于物体长轴(即沿短边抓取),极易因力臂过大或接触面积不足导致物体滑落。
6、然而,现有技术中的注意力机制(如se、coordinate attention)普遍采用全局平均池化(global average pooling)来聚合空间信息。在运动模糊场景下,模糊区域的像素值依然存在且能量较高,平均池化操作会将这些‘模糊噪声’与‘清晰纹理’混合,导致注意力权重无法区分背景与模糊目标。此外,传统的边缘检测算子(如sobel)仅具有固定感受野,难以适应机械臂从低速到高速变化过程中产生的变长拖影,导致特征提取在不同运动速度下鲁棒性差。
技术实现思路
1、发明目的:针对以上缺点,本发明提供一种准确性高的抗运动模糊的小目标检测方法。
2、技术方案:为解决上述问题,本发明采用一种抗运动模糊的小目标检测方法,包括以下步骤:
3、步骤1:获取进行了运动模糊模拟增强的目标检测的数据集;
4、步骤2:构建基于改进yolov8n的目标检测模型;所述目标检测模型包括依次连接的骨干网络、颈部网络和检测端,骨干网络用于提取特征,将提取的特征输入颈部网络进行聚合,聚合后的特征在检测端进行识别和标记;将所述骨干网络的第二个c2f模块替换为局部边缘引导leg模块,将所述颈部网络自底向上融合路径中拼接中间特征替换为通过横向连接拼接leg模块的输出特征;
5、所述leg模块将输入特征分流为语义分支和边缘分支,所述边缘分支对特征进行梯度提取,得到梯度图,根据梯度图通过归一化函数计算得到池化的权重,根据权重对语义分支的特征进行调制,输出调制后的特征;
6、步骤3:根据获取的数据集训练目标检测模型,得到训练好的目标检测模型;
7、步骤4:将实时获取的待检测图像输入训练好的目标检测模型,输出目标的边界框。
8、进一步的,进行了运动模糊模拟增强的图像表达为:
9、;
10、其中,表示生成的模拟模糊图像;表示原始清晰图像;表示线性运动模糊核;表示卷积运算符号;表示高斯噪声矩阵。
11、进一步的,还包括对目标检测的数据集进行多尺度变换增强,通过随机缩放因子对数据集中的图像进行缩放。
12、进一步的,采用多尺度扩张差分对特征进行梯度提取,具体为:对基础差分算子分别应用不同的扩张率进行差分卷积,得到梯度图:
13、;
14、其中,为输入特征,、为常数,表示卷积。
15、进一步的,采用水平差分算子和垂直差分算子对特征进行水平梯度和垂直梯度提取,得到水平梯度图和垂直梯度图,根据梯度图通过归一化函数计算得到权重,所述归一化函数采用softmax函数,权重包括水平方向权重和垂直方向权重;通过水平方向权重重构水平方向特征,通过垂直方向权重重构垂直方向特征,将重构的水平方向特征和垂直方向特征生成注意力系数,将生成的注意力系数对语义分支的特征进行调制。
16、进一步的,通过水平梯度图和垂直梯度图计算梯度总能量比值,将梯度总能量比值生成修正系数修正所述注意力系数,将修正的注意力系数对语义分支的特征进行调制,输出的调制后的特征为:
17、;
18、其中,为修正的注意力系数,为逐元素相乘运算;
19、 ;
20、其中,为激活函数,表示特征拼接,为水平重构特征,为垂直重构特征,为多层感知器,为梯度总能量比值;
21、;
22、其中,为水平梯度图,为垂直梯度图,为防止分母为零的常数。
23、进一步的,所述检测端包括先验检测头和主检测头,所述先验检测头的输入为颈部网络输出的p3层融合特征,先验检测头包括一层卷积层和一个sigmoid激活函数,根据先验检测头的检测结果生成置信度评分,若置信度评分满足要求,则输出先验检测头的检测结果,若置信度评分不满足要求则激活主检测头,所述主检测头的输入为颈部网络输出的p3、p4、p5层融合特征,主检测头采用解耦头结构,分别通过并行的分类分支和回归分支进行处理,所述分类分支输出目标的类别概率,所述回归分支输出边框位置、尺寸及角度。
24、进一步的,在训练目标检测模型时,对于检测端不进行置信度评分判断,同时对主检测头和先验检测头训练,且对于检测端引入自蒸馏损失函数,将主检测头的输出作为教师信号,将先验检测头的输出作为学生信号,计算主检测头与先验检测头输出概率分布之间的kl散度损失,使先验检测头尽可能模仿主检测头的特征表达。
25、进一步的,将所述颈部网络的所有c2f模块替换为gs模块,将颈部网络的所有卷积层替换为ghost卷积,ghost卷积包括通道混洗模块,所述gs模块包括卷积层、线性变换模块、拼接模块和通道混洗模块;卷积层用于对gs模块的输入进行卷积操作,卷积层的卷积核数量为普通卷积层卷积核数量的一半;线性变换模块用于对卷积层的输出进行廉价操作,廉价操作为对每个通道的特征图逐个进行线性变换;拼接模块用于将卷积层的输出和线性变换模块的输出进行拼接;通道混洗模块用于将拼接模块的输出进行通道混洗操作,通道混洗模块的输出为cs-ghost模块的最终输出。
26、进一步的,根据输出的目标的边界框,获取目标的中心坐标、长边、短边及旋转角度,根据目标的长边和短边计算长宽比,根据长宽比控制机械臂的抓取角度。
27、有益效果:本发明相对于现有技术,其显著优点是:充分考虑了机械臂动态抓取过程中运动模糊程度变化剧烈及场景复杂度差异大的特点;对yolov8n模型进行了优化改进,引入了leg模块,leg模块中构建基于梯度的权重,使得因为运动模糊导致梯度消失的区域权重趋近0,实现该区域的模糊特征被滤除,使得模型抗模糊能力强,leg模块通过横向连接将提取的“纯净高频梯度”直接输送到深层网络,用于跨层恢复细节,解决小目标特征丢失严重的问题。另外对yolov8n模型引入gs-panet、dynamic-head模块,利用基于模糊置信度的动态级联路由策略,对推理路径进行实时分级调度;使模型轻量化、解决了现有模型的推理算力无法自适应调节的问题,同时引入几何自适应抓取策略,显著提升了物理抓取的成功率与鲁棒性。本发明有效解决了视觉抓取过程中因运动模糊导致的漏检、小目标定位精度低以及系统实时性与准确性难以平衡的问题。