场景深度和相机运动预测方法及装置、电子设备和介质与流程

文档序号：28118031发布日期：2021-12-22 14:53阅读：来源：国知局

技术特征：
1.一种场景深度预测方法，其特征在于，包括：获取t时刻的目标图像帧；通过场景深度预测网络利用t
‑
1时刻的第一隐状态信息对所述目标图像帧进行场景深度预测，确定所述目标图像帧对应的预测深度图，其中，所述第一隐状态信息包括与场景深度相关的特征信息，所述场景深度预测网络是基于相机运动预测网络辅助训练得到的；其中，所述方法还包括：获取t时刻对应的样本图像帧序列，其中，所述样本图像帧序列包括t时刻的第一样本图像帧和所述第一样本图像帧的相邻样本图像帧；通过相机运动预测网络利用t
‑
1时刻的第二隐状态信息对所述样本图像帧序列进行相机位姿预测，确定所述样本图像帧序列对应的样本预测相机运动，其中，所述第二隐状态信息包括与相机运动相关的特征信息；通过待训练的场景深度预测网络利用t
‑
1时刻的第一隐状态信息对所述第一样本图像帧进行场景深度预测，确定所述第一样本图像帧对应的样本预测深度图，其中，所述第一隐状态信息包括与场景深度相关的特征信息；根据所述样本预测深度图和所述样本预测相机运动，构建损失函数；根据所述损失函数，对所述待训练的场景深度预测网络进行训练，以得到所述场景深度预测网络。2.根据权利要求1所述的方法，其特征在于，所述通过场景深度预测网络利用t
‑
1时刻的第一隐状态信息对所述目标图像帧进行场景深度预测，确定所述目标图像帧对应的预测深度图，包括：对所述目标图像帧进行特征提取，确定所述目标图像帧对应的第一特征图，其中，所述第一特征图为与场景深度相关的特征图；根据所述第一特征图和t
‑
1时刻的所述第一隐状态信息，确定t时刻的所述第一隐状态信息；根据t时刻的所述第一隐状态信息，确定所述预测深度图。3.根据权利要求2所述的方法，其特征在于，t
‑
1时刻的所述第一隐状态信息包括t
‑
1时刻的不同尺度下的所述第一隐状态信息；所述对所述目标图像帧进行特征提取，确定所述目标图像帧对应的第一特征图，包括：对所述目标图像帧进行多尺度下采样，确定所述目标图像帧对应的不同尺度下的所述第一特征图；所述根据所述第一特征图和t
‑
1时刻的所述第一隐状态信息，确定t时刻的所述第一隐状态信息，包括：针对任一尺度，根据该尺度下的所述第一特征图和t
‑
1时刻的该尺度下的所述第一隐状态信息，确定t时刻的该尺度下的所述第一隐状态信息；所述根据t时刻的所述第一隐状态信息，确定所述预测深度图，包括：将t时刻的不同尺度下的所述第一隐状态信息进行特征融合，确定所述预测深度图。4.根据权利要求1所述的方法，其特征在于，所述根据所述样本预测深度图和所述样本预测相机运动，构建损失函数，包括：根据所述样本预测相机运动，确定所述样本图像帧序列中所述第一样本图像帧的相邻
样本图像帧相对所述第一样本图像帧的重投影误差项；根据所述样本预测深度图的分布连续性，确定惩罚函数项；根据所述重投影误差项和所述惩罚函数项，构建所述损失函数。5.根据权利要求1所述的方法，其特征在于，所述场景深度预测网络采用的是多尺度特征融合机制，所述场景深度预测网络中包括：深度编码器、多尺度卷积门控循环单元和深度解码器；所述通过场景深度预测网络利用t
‑
1时刻的第一隐状态信息对所述目标图像帧进行场景深度预测，确定所述目标图像帧对应的预测深度图，包括：利用所述深度编码器，对所述目标图像帧进行多尺度下采样，确定所述目标图像帧对应的不同尺度下的第一特征图，其中，所述第一特征图为与场景深度相关的特征图；针对任一尺度，利用所述多尺度卷积门控循环单元中该尺度下的卷积门控循环单元，根据该尺度下的所述第一特征图和t
‑
1时刻的该尺度下的所述第一隐状态信息，确定t时刻的该尺度下的所述第一隐状态信息；利用所述深度解码器，将t时刻的不同尺度下的所述第一隐状态信息进行特征融合，确定所述预测深度图。6.根据权利要求1所述的方法，其特征在于，所述场景深度预测网络采用的是单尺度特征融合机制，所述场景深度预测网络中包括：深度编码器、卷积门控循环单元和深度解码器；所述通过场景深度预测网络利用t
‑
1时刻的第一隐状态信息对所述目标图像帧进行场景深度预测，确定所述目标图像帧对应的预测深度图，包括：利用所述深度编码器，对所述目标图像帧进行特征提取，确定所述目标图像帧对应的第一特征图，其中，所述第一特征图为与场景深度相关的特征图；利用所述卷积门控循环单元，根据所述第一特征图和t
‑
1时刻的所述第一隐状态信息，确定t时刻的所述第一隐状态信息；利用所述深度解码器，根据t时刻的所述第一隐状态信息，确定所述预测深度图。7.根据权利要求4所述的方法，其特征在于，所述根据所述样本预测深度图的分布连续性，确定惩罚函数项，包括：确定所述第一样本图像帧中各像素点的梯度值，其中，所述第一样本图像帧中各像素点的梯度值用于反映所述第一样本图像帧的分布连续性；根据所述第一样本图像帧中各像素点的梯度值，确定所述第一样本图像帧中的边缘区域和非边缘区域，以及根据所述第一样本图像帧中的边缘区域和非边缘区域，确定所述样本预测深度图中的边缘区域和非边缘区域；根据所述样本预测深度图中的边缘区域和非边缘区域，确定所述样本预测深度图中各像素点的梯度值；针对所述样本预测深度图的非边缘区域中的各像素点，设置与梯度值成正比的惩罚因子，以及针对所述样本预测深度图的边缘区域中的各像素点，设置与梯度值成反比的惩罚因子；根据所述样本预测深度图中各像素点的惩罚因子，构建所述惩罚函数项。8.根据权利要求1至7中任意一项所述的方法，其特征在于，所述方法还包括：
利用相邻时刻之间的场景深度和相机位姿在时序上的关联关系，基于滑动窗口数据融合的机制，提取并记忆滑动窗口序列中与t时刻的场景深度和相机运动相关的隐状态信息；其中，t时刻对应的所述滑动窗口序列是所述样本图像帧序列，与t时刻的场景深度相关的隐状态信息是t
‑
1时刻的所述第一隐状态信息，与t时刻的相机运动相关的隐状态信息是t
‑
1时刻的所述第二隐状态信息。9.一种相机运动预测方法，其特征在于，包括：获取t时刻对应的图像帧序列，其中，所述图像帧序列包括t时刻的目标图像帧和所述目标图像帧的相邻图像帧；通过相机运动预测网络利用t
‑
1时刻的第二隐状态信息对所述图像帧序列进行相机位姿预测，确定所述图像帧序列对应的预测相机运动，其中，所述第二隐状态信息包括与相机运动相关的特征信息，所述相机运动预测网络是基于场景深度预测网络辅助训练得到的；其中，所述方法还包括：获取t时刻对应的样本图像帧序列，其中，所述样本图像帧序列包括t时刻的第一样本图像帧和所述第一样本图像帧的相邻样本图像帧；通过场景深度预测网络利用t
‑
1时刻的第一隐状态信息对所述第一样本图像帧进行场景深度预测，确定所述第一样本图像帧对应的样本预测深度图，其中，所述第一隐状态信息包括与场景深度相关的特征信息；通过待训练的相机运动预测网络利用t
‑
1时刻的第二隐状态信息对所述样本图像帧序列进行相机位姿预测，确定所述样本图像帧序列对应的样本预测相机运动，其中，所述第二隐状态信息包括与相机运动相关的特征信息；根据所述样本预测深度图和所述样本预测相机运动，构建损失函数；根据所述损失函数，对所述待训练的相机运动预测网络进行训练，以得到所述相机运动预测网络。10.根据权利要求9所述的方法，其特征在于，所述通过相机运动预测网络利用t
‑
1时刻的第二隐状态信息对所述图像帧序列进行相机位姿预测，确定所述图像帧序列对应的预测相机运动，包括：对所述图像帧序列进行特征提取，确定所述图像帧序列对应的第二特征图，其中，所述第二特征图为与相机运动相关的特征图；根据所述第二特征图和t
‑
1时刻的所述第二隐状态信息，确定t时刻的所述第二隐状态信息；根据t时刻的所述第二隐状态信息，确定所述预测相机运动。11.根据权利要求9或10所述的方法，其特征在于，所述预测相机运动包括所述图像帧序列中相邻图像帧之间的相对位姿。12.根据权利要求9所述的方法，其特征在于，所述根据所述样本预测深度图和所述样本预测相机运动，构建损失函数，包括：根据所述样本预测相机运动，确定所述样本图像帧序列中所述第一样本图像帧的相邻样本图像帧相对所述第一样本图像帧的重投影误差项；根据所述样本预测深度图的分布连续性，确定惩罚函数项；根据所述重投影误差项和所述惩罚函数项，构建所述损失函数。
13.根据权利要求9所述的方法，其特征在于，所述相机运动预测网络中包括：位姿编码器、卷积门控循环单元和位姿解码器；所述通过相机运动预测网络利用t
‑
1时刻的第二隐状态信息对所述图像帧序列进行相机位姿预测，确定所述图像帧序列对应的预测相机运动，包括：利用所述位姿编码器，对所述图像帧序列进行特征提取，确定所述图像帧序列对应的第二特征图，其中，所述第二特征图为与相机运动相关的特征图；利用所述卷积门控循环单元，根据所述第二特征图和t
‑
1时刻的所述第二隐状态信息，确定t时刻的所述第二隐状态信息；利用所述位姿解码器，根据t时刻的所述第二隐状态信息，确定所述预测相机运动。14.一种场景深度预测装置，其特征在于，包括：第一获取模块，用于获取t时刻的目标图像帧；第一场景深度预测模块，用于通过场景深度预测网络利用t
‑
1时刻的第一隐状态信息对所述目标图像帧进行场景深度预测，确定所述目标图像帧对应的预测深度图，其中，所述第一隐状态信息包括与场景深度相关的特征信息，所述场景深度预测网络是基于相机运动预测网络辅助训练得到的；其中，所述场景深度预测装置还包括：第二获取模块，用于获取t时刻对应的样本图像帧序列，其中，所述样本图像帧序列包括t时刻的第一样本图像帧和所述第一样本图像帧的相邻样本图像帧；相机运动预测模块，用于通过相机运动预测网络利用t
‑
1时刻的第二隐状态信息对所述样本图像帧序列进行相机位姿预测，确定所述样本图像帧序列对应的样本预测相机运动，其中，所述第二隐状态信息包括与相机运动相关的特征信息；第二场景深度预测模块，用于通过待训练的场景深度预测网络利用t
‑
1时刻的第一隐状态信息对所述第一样本图像帧进行场景深度预测，确定所述第一样本图像帧对应的样本预测深度图，其中，所述第一隐状态信息包括与场景深度相关的特征信息；损失函数构建模块，用于根据所述样本预测深度图和所述样本预测相机运动，构建损失函数；训练模块，用于根据所述损失函数，对所述待训练的场景深度预测网络进行训练，以得到所述场景深度预测网络。15.一种相机运动预测装置，其特征在于，包括：第一获取模块，用于获取t时刻对应的图像帧序列，其中，所述图像帧序列包括t时刻的目标图像帧和所述目标图像帧的相邻图像帧；第一相机运动预测模块，用于通过相机运动预测网络利用t
‑
1时刻的第二隐状态信息对所述图像帧序列进行相机位姿预测，确定所述图像帧序列对应的预测相机运动，其中，所述第二隐状态信息包括与相机运动相关的特征信息，所述相机运动预测网络是基于场景深度预测网络辅助训练得到的；其中，所述相机运动预测装置，还包括：第二获取模块，用于获取t时刻对应的样本图像帧序列，其中，所述样本图像帧序列包括t时刻的第一样本图像帧和所述第一样本图像帧的相邻样本图像帧；场景深度预测模块，用于通过场景深度预测网络利用t
‑
1时刻的第一隐状态信息对所
述第一样本图像帧进行场景深度预测，确定所述第一样本图像帧对应的样本预测深度图，其中，所述第一隐状态信息包括与场景深度相关的特征信息；第二相机运动预测模块，用于通过待训练的相机运动预测网络利用t
‑
1时刻的第二隐状态信息对所述样本图像帧序列进行相机位姿预测，确定所述样本图像帧序列对应的样本预测相机运动，其中，所述第二隐状态信息包括与相机运动相关的特征信息；损失函数构建模块，用于根据所述样本预测深度图和所述样本预测相机运动，构建损失函数；训练模块，用于根据所述损失函数，对所述待训练的相机运动预测网络进行训练，以得到所述相机运动预测网络。16.一种电子设备，其特征在于，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至13中任意一项所述的方法。17.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至13中任意一项所述的方法。

技术总结
本公开涉及一种场景深度和相机运动预测方法及装置、电子设备和介质，所述方法包括：获取t时刻的目标图像帧；通过场景深度预测网络利用t

技术研发人员：韩滔张展鹏成慧
受保护的技术使用者：深圳市商汤科技有限公司
技术研发日：2020.04.28
技术公布日：2021/12/21

完整全部详细技术资料下载

当前第2页1 2