动态场景下基于全卷积神经网络的视觉SLAM方法及系统

文档序号：25048403发布日期：2021-05-14 12:48阅读：来源：国知局

技术特征：
1.一种动态场景下基于全卷积神经网络的视觉slam方法，其特征在于，所述方法包括：获取图像数据集；根据所述图像数据集构建全卷积神经网络模型；利用所述全卷积神经网络模型对摄像机当前采集的单目实时图像进行语义分割，得到语义标签图像；根据所述语义标签图像剔除所述单目实时图像的动态特征点，得到所述单目实时图像的静态特征点；根据所述静态特征点估计所述摄像机的位姿。2.根据权利要求1所述的方法，其特征在于，所述利用所述全卷积神经网络模型对摄像机当前采集的单目实时图像进行语义分割，得到语义标签图像，包括：利用所述全卷积神经网络模型中与vgg16网络的全连接层输入数据尺寸相同的卷积核将所述vgg16网络的全连接层转化为卷积层，得到fcn
‑
vgg16网络；对所述fcn
‑
vgg16网络进行优化；利用优化后的fcn
‑
vgg16网络对所述单目实时图像进行动态目标与背景的二分类操作，得到所述语义标签图像。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：在所述fcn
‑
vgg16网络中每一次卷积计算后，使用线性整流函数作为激励函数对前一卷积层进行稀疏性处理；对所述fcn
‑
vgg16网络中每一池化层进行池化操作。4.根据权利要求3所述的方法，其特征在于，所述对所述fcn
‑
vgg16网络进行优化，包括：引入跳跃结构对所述fcn
‑
vgg16网络中的每一池化层进行上采样操作和融合，得到所述优化后的fcn
‑
vgg16网络。5.根据权利要求4所述的方法，其特征在于，所述利用优化后的fcn
‑
vgg16网络对所述单目实时图像进行动态目标与背景的二分类操作，得到所述语义标签图像，包括：确定所述优化后的fcn
‑
vgg16网络的热图的类别个数；确定所述单目实时图像属于目标类别的预测概率；根据所述热图的类别个数和所述预测概率识别所述单目实时图像的动态目标；根据识别出的动态目标对所述单目实时图像进行语义分割，得到所述语义标签图像。6.根据权利要求5所述的方法，其特征在于，根据所述热图的类别个数和所述预测概率通过以下方式识别所述单目实时图像的动态目标：其中，m为所述热图的类别个数，c为所述单目实时图像的目标类别，y
ic
为虚拟参数，p
ic
为所述单目实时图像属于目标类别c的预测概率，l为损失值；根据所述损失值的大小识别所述单目实时图像的动态目标。7.根据权利要求6所述的方法，其特征在于，所述根据语义分割结果剔除所述单目实时图像的动态特征点，得到所述单目实时图像的静态特征点，包括：
以第一缩放因子对所述单目实时图像进行图像金字塔分层，得到多层第一缩放图像；以第二缩放因子对所述语义标签图像进行图像金字塔分层，得到多层第二缩放图像；依次剔除每一中的动态特征点：对所述每一第一缩放图像进行orb特征提取，得到每一第一缩放图像的orb特征点；对所述每一第二缩放图像中的动态区域的像素点输出像坐标值形成集合u
i
，其中，i为第二缩放图像的层数，所述动态区域为所述动态目标所在的区域；将每一第一缩放图像的orb特征点的坐标值与对应的集合u
i
中的坐标值进行匹配；在每一第一缩放图像中剔除坐标值与所述集合u
i
中的坐标值匹配的orb特征点；将每一第一缩放图像中保留下的orb特征点形成静态特征点集合m；所述根据所述静态特征点估计所述摄像机的位姿，包括：根据所述静态特征点集合m估计所述摄像机的位姿。8.根据权利要求7所述的方法，其特征在于，所述第一缩放因子与所述第二缩放因子相同。9.根据权利要求8所述的方法，其特征在于，将所述orb特征点的坐标值与所述集合u
i
中的坐标值进行匹配之前，还包括：存储所述orb特征点。10.一种动态场景下基于全卷积神经网络的视觉slam系统，其特征在于，所述系统被配置为采用权利要求1
‑
9中任一项所述的动态场景下基于全卷积神经网络的视觉slam方法来估计摄像机的位姿。

完整全部详细技术资料下载

当前第2页1 2 3