模型训练方法、装置、电子设备和计算机可读介质与流程

文档序号：33620636发布日期：2023-03-25 11:33阅读：41来源：国知局

1.本公开的实施例涉及计算机技术领域，具体涉及模型训练方法、装置、电子设备和计算机可读介质。

背景技术：

2.目前，拍摄距离估计和图像间的姿态变换确定在自动驾驶，安防等场景具有重要的意义。对于拍摄距离的估计和图像间的姿态变换确定，通常采用的方式为：使用有监督学习的深度学习网络模型，来预测图像中每个像素对应的拍摄距离值以及确定图像间的姿态变换。
3.然而，发明人发现，当采用上述方式来估计拍摄距离和确定姿态变换，经常会存在如下技术问题：第一，基于有监督学习的深度学习网络模型的估计方法，需要海量精准的拍摄距离标签和姿态变换标签，需要浪费大量的人力物力；第二，静态像素内容确定不够精准的问题，导致后续模型训练时间较长，计算量较大。
4.该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解，并因此，其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。

技术实现要素：

5.本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。
6.本公开的一些实施例提出了模型训练方法、装置、电子设备和计算机可读介质，来解决以上背景技术部分提到的技术问题中的一项或多项。
7.第一方面，本公开的一些实施例提供了一种模型训练方法，包括：获取目标摄像装置所拍摄的图像序列；对于上述图像序列中的每个图像，执行模型训练步骤：将上述图像输入至初始拍摄距离估计网络，以输出初始拍摄距离值集，其中，上述初始拍摄距离值集中的初始拍摄距离值表征在图像被拍摄时，上述图像中像素对应的拍摄物体部位与上述目标摄像装置之间的距离；确定上述图像序列中的、与上述图像相邻的图像，作为相邻图像，得到相邻图像序列；将上述图像和上述相邻图像序列中的每个相邻图像输入至初始姿态变换确定网络，以生成姿态变换信息，得到姿态变换信息序列，其中，姿态变换信息表征上述图像的像素与相邻图像的像素之间的像素变换情况；根据上述图像对应的真实拍摄距离值集和上述初始拍摄距离值集，生成距离损失信息；根据上述初始拍摄距离值集和上述姿态变换信息序列，生成针对上述图像的重构图像集；根据上述重构图像集和上述图像，生成图像特征匹配损失信息集组；根据上述距离损失信息和上述图像特征匹配损失信息集组，对上述初始拍摄距离估计网络和上述初始姿态变换确定网络进行网络训练，得到训练后的拍摄距
离估计网络和训练后的姿态变换确定网络。
8.第二方面，本公开的一些实施例提供了一种模型训练装置，包括：获取单元，被配置成获取目标摄像装置所拍摄的图像序列；执行单元，被配置成对于上述图像序列中的每个图像，执行模型训练步骤：将上述图像输入至初始拍摄距离估计网络，以输出初始拍摄距离值集，其中，上述初始拍摄距离值集中的初始拍摄距离值表征在图像被拍摄时，上述图像中像素对应的拍摄物体部位与上述目标摄像装置之间的距离；确定上述图像序列中的、与上述图像相邻的图像，作为相邻图像，得到相邻图像序列；将上述图像和上述相邻图像序列中的每个相邻图像输入至初始姿态变换确定网络，以生成姿态变换信息，得到姿态变换信息序列，其中，姿态变换信息表征上述图像的像素与相邻图像的像素之间的像素变换情况；根据上述图像对应的真实拍摄距离值集和上述初始拍摄距离值集，生成距离损失信息；根据上述初始拍摄距离值集和上述姿态变换信息序列，生成针对上述图像的重构图像集；根据上述重构图像集和上述图像，生成图像特征匹配损失信息集组；根据上述距离损失信息和上述图像特征匹配损失信息集组，对上述初始拍摄距离估计网络和上述初始姿态变换确定网络进行网络训练，得到训练后的拍摄距离估计网络和训练后的姿态变换确定网络。
9.第三方面，本公开的一些实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
10.第四方面，本公开的一些实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
11.本公开的上述各个实施例具有如下有益效果：通过本公开的一些实施例的模型训练方法估计拍摄距离更为精准的拍摄距离估计网络和确定姿态变换信息更为精准的姿态变换确定网络。具体来说，造成相关的拍摄距离和姿态变换信息不够精准的原因在于：基于有监督学习的深度学习网络模型的估计方法，需要海量精准的拍摄距离标签和姿态变换标签，需要浪费大量的人力物力。基于此，本公开的一些实施例的模型训练方法，首先，获取目标摄像装置所拍摄的图像序列，以用于后续拍摄距离估计网络和姿态变换确定网络的网络训练。然后，对于上述图像序列中的每个图像，执行模型训练步骤：第一步，将上述图像输入至初始拍摄距离估计网络，以输出初始拍摄距离值集。其中，上述初始拍摄距离值集中的初始拍摄距离值表征在图像被拍摄时，上述图像中像素对应的拍摄物体部位与上述目标摄像装置之间的距离。第二步，确定上述图像序列中的、与上述图像相邻的图像，作为相邻图像，得到相邻图像序列，以便于针对图像的姿态变换信息序列的确定。第三步，将上述图像和上述相邻图像序列中的每个相邻图像输入至初始姿态变换确定网络，以生成姿态变换信息，得到姿态变换信息序列。其中，姿态变换信息表征上述图像的像素与相邻图像的像素之间的像素变换情况。第四步，根据上述图像对应的真实拍摄距离值集和上述初始拍摄距离值集，生成距离损失信息，以用于后续拍摄距离估计网络和姿态变换确定网络的训练。第五步，根据上述初始拍摄距离值集和上述姿态变换信息序列，生成针对上述图像的重构图像集，以用于与图像进行比较，来后续用于对拍摄距离估计网络和姿态变换确定网络进行训练。综上，可以得到估计拍摄距离更为精准的拍摄距离估计网络和确定姿态变换信息更为精准的姿态变换确定网络。
附图说明
12.结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，元件和元素不一定按照比例绘制。
13.图1是根据本公开的模型训练方法的一些实施例的流程图；图2是根据本公开的模型训练装置的一些实施例的结构示意图；图3是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
14.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
15.另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。
16.需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
17.需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
18.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
19.下面将参考附图并结合实施例来详细说明本公开。
20.参考图1，示出了根据本公开的模型训练方法的一些实施例的流程100。该模型训练方法，包括以下步骤：步骤101，获取目标摄像装置所拍摄的图像序列。
21.在一些实施例中，上述模型训练方法的执行主体可以通过有线连接方式或者无线连接方式来获取目标摄像装置所拍摄的图像序列。其中，图像序列可以是各个场景下的图像序列。例如，图像序列可以是人物拍摄场景下的图像序列。图像序列中的各个图像都是与拍摄任务相关的图像。
22.步骤102，对于上述图像序列中的每个图像，执行模型训练步骤：步骤1021，将上述图像输入至初始拍摄距离估计网络，以输出初始拍摄距离值集。
23.在一些实施例中，上述执行主体可以将上述图像输入至初始拍摄距离估计网络，以输出初始拍摄距离值集。其中，上述初始拍摄距离值集中的初始拍摄距离值表征在图像被拍摄时，上述图像中像素对应的拍摄物体部位与上述目标摄像装置之间的预测距离。其中，初始拍摄距离值集中的初始拍摄距离值与图像中的像素存在一一对应关系。上述初始拍摄距离估计网络可以是网络还未训练结束的拍摄距离估计网络。上述拍摄距离估计网络可以是估计像素对应拍摄物体部位与上述目标摄像装置之间的预测距离的网络。例如，拍摄距离估计网络可以是多层卷积神经网络(convolutional neural networks，cnn)。
24.例如，针对图像中像素为手指像素，手指像素对应初始拍摄距离值可以表征在图
像被拍摄时，手指与目标摄像装置之间的距离。
25.再例如，针对图像中像素为眼睛像素，眼睛像素对应初始拍摄距离值可以表征在图像被拍摄时，眼睛与目标摄像装置之间的距离。
26.在一些实施例的一些可选的实现方式中，上述初始拍摄距离估计网络包括：第一下采样卷积网络、第二下采样卷积网络、第三下采样卷积网络、第四下采样卷积网络、中间卷积网络、第一上采样卷积网络、第二上采样卷积网络、第三上采样卷积网络和第四上采样卷积网络；以及上述将上述图像输入至初始拍摄距离估计网络，以输出初始拍摄距离值集，可以包括以下步骤：第一步，将上述图像输入至上述第一下采样卷积网络，以输出第一特征矩阵。其中，第一下采样卷积网络可以是卷积神经网络。
27.第二步，将上述第一特征矩阵输入至上述第二下采样卷积网络，以输出第二特征矩阵。其中，第二下采样卷积网络可以是卷积神经网络。上述第一特征矩阵的矩阵维度大于上述第二特征矩阵的矩阵维度。
28.第三步，将上述第二特征矩阵输入至上述第三下采样卷积网络，以输出第三特征矩阵。其中，第三下采样卷积网络可以是卷积神经网络。上述第二特征矩阵的矩阵维度大于上述第三特征矩阵的矩阵维度。
29.第四步，将上述第三特征矩阵输入至上述第四下采样卷积网络，以输出第四特征矩阵。其中，第四下采样卷积网络可以是卷积神经网络。上述第三特征矩阵的矩阵维度大于上述第四特征矩阵的矩阵维度。
30.第五步，将上述第四特征矩阵输入至上述中间卷积网络，以输出第五特征矩阵。其中，中间卷积网络可以是卷积神经网络。上述第四特征矩阵的矩阵维度不小于上述第五特征矩阵的矩阵维度。
31.第六步，将上述第五特征矩阵输入至上述第一上采样卷积网络，以输出第六特征矩阵。其中，上述第六特征矩阵的矩阵维度与上述第四特征矩阵的矩阵维度相同。第一上采样卷积网络可以是卷积神经网络。
32.第七步，将上述第六特征矩阵和上述第四特征矩阵进行矩阵融合，得到第一融合矩阵。
33.作为示例，上述执行主体可以将上述第六特征矩阵和上述第四特征矩阵进行矩阵元素对应拼接，得到第一融合矩阵。
34.第八步，将上述第一融合矩阵输入至上述第二上采样卷积网络，以输出第七特征矩阵。其中，上述第七特征矩阵的矩阵维度与上述第三特征矩阵的矩阵维度相同。第二上采样卷积网络可以是卷积神经网络。
35.第九步，将上述第七特征矩阵与上述第三特征矩阵进行矩阵融合，得到第二融合矩阵。
36.作为示例，上述执行主体可以将上述第七特征矩阵和上述第三特征矩阵进行矩阵元素对应拼接，得到第二融合矩阵。
37.第十步，将上述第二融合矩阵输入至上述第三上采样卷积网络，得到第八特征矩阵。其中，上述第八特征矩阵的矩阵维度与上述第一特征矩阵的矩阵维度相同。第三上采样
卷积网络可以是卷积神经网络。
38.第十一步，将上述第八特征矩阵与上述第一特征矩阵进行矩阵融合，得到第三融合矩阵。
39.作为示例，上述执行主体可以将上述第八特征矩阵和上述第一特征矩阵进行矩阵元素对应拼接，得到第三融合矩阵。
40.第十二步，根据上述第三融合矩阵，生成上述初始拍摄距离值集。
41.作为示例，上述执行主体可以将第三融合矩阵输入至第一回归函数，以生成初始拍摄距离值集。
42.步骤1022，确定上述图像序列中的、与上述图像相邻的图像，作为相邻图像，得到相邻图像序列。
43.在一些实施例中，上述执行主体可以通过图像查询的方式，确定上述图像序列中的、与上述图像相邻的图像，作为相邻图像，得到相邻图像序列。
44.步骤1023，将上述图像和上述相邻图像序列中的每个相邻图像输入至初始姿态变换确定网络，以生成姿态变换信息，得到姿态变换信息序列。
45.在一些实施例中，上述执行主体可以将上述图像和上述相邻图像序列中的每个相邻图像输入至初始姿态变换确定网络，以生成姿态变换信息，得到姿态变换信息序列。其中，姿态变换信息表征上述图像的像素与相邻图像的像素之间的像素变换情况。姿态变换信息序列中的姿态变换信息与相邻图像序列中的相邻图像存在一一对应关系。初始姿态变换确定网络可以是网络还未训练结束的姿态变换确定网络。姿态变换确定网络可以是确定图像中的像素与相邻图像中的像素之间姿态变换的网络。例如，姿态变换确定网络可以是多层卷积神经网络。
46.在一些实施例的一些可选的实现方式中，上述初始姿态变换确定网络包括：第一卷积网络、第二卷积网络、第三卷积网络、第四卷积网络和第五卷积网络，其中，上述第一卷积网络的特征输出矩阵的矩阵维度大于上述第二卷积网络的特征输出矩阵的矩阵维度，上述第二卷积网络的特征输出矩阵的矩阵维度大于上述第三卷积网络的特征输出矩阵的矩阵维度，上述第三卷积网络的特征输出矩阵的矩阵维度大于上述第四卷积网络的特征输出矩阵的矩阵维度，上述第四卷积网络的特征输出矩阵的矩阵维度大于上述第五卷积网络的特征输出矩阵的矩阵维度；以及上述将上述图像和上述相邻图像序列中的每个相邻图像输入至初始姿态变换确定网络，以生成姿态变换信息，可以包括以下步骤：第一步，以颜色通道拼接的方式，将上述图像和上述相邻图像进行图像拼接，得到拼接图像。
47.第二步，将上述拼接图像输入至上述第一卷积网络，以输出第九特征矩阵。
48.第三步，将上述第九特征矩阵输入至上述第二卷积网络，以输出第十特征矩阵。
49.第四步，将上述第十特征矩阵输入至上述第三卷积网络，以输出第十一特征矩阵。
50.第五步，将上述第十一特征矩阵输入至上述第四卷积网络，以输出第十二特征矩阵。
51.第六步，将上述第十二特征矩阵输入至上述第五卷积网络，以输出第十三特征矩阵。
52.第七步，根据上述第十三特征矩阵，生成姿态变换信息。
53.作为示例，上述执行主体可以将第十三特征矩阵输入至第二回归函数，以生成姿态变换信息。
54.步骤1024，根据上述图像对应的真实拍摄距离值集和上述初始拍摄距离值集，生成距离损失信息。
55.在一些实施例中，上述执行主体可以根据上述图像对应的真实拍摄距离值集和上述初始拍摄距离值集，生成距离损失信息。其中，真实拍摄距离值集中的真实拍摄距离值与图像中的像素存在一一对应的关系。真实拍摄距离值可以表征在图像被拍摄时，上述图像中像素对应的拍摄物体部位与上述目标摄像装置之间的真实距离。距离损失信息可以表征真实拍摄距离值集与初始拍摄距离值集之间距离差异信息。
56.作为示例，首先，上述执行主体可以确定真实拍摄距离值集中每个真实拍摄距离值与上述初始拍摄距离值集中对应的初始拍摄距离值进行相减处理，以生成相减结果，得到相减结果集。然后，上述执行主体可以对相减结果集所包括的各个相减结果进行求平均处理，得到平均值，作为距离损失信息。
57.在一些实施例的一些可选的实现方式中，上述根据上述图像对应的真实拍摄距离值集和上述初始拍摄距离值集，生成距离损失信息，可以包括以下步骤：对于上述图像中的每个像素，执行以下像素损失信息确定步骤：子步骤1，确定上述真实拍摄距离值集中、上述像素对应的真实拍摄距离值作为目标真实拍摄距离值。
58.例如，针对像素为手指像素，目标真实拍摄距离值为6米。
59.子步骤2，确定上述初始拍摄距离值集中、上述像素对应的初始拍摄距离值，作为目标初始拍摄距离值。
60.例如，针对像素为手指像素，目标初始拍摄距离值为5.5米。
61.子步骤3，确定上述像素对应的像素坐标。
62.例如，针对像素为手指像素，像素坐标为（40，123）。
63.子步骤4，将上述像素坐标与上述目标真实拍摄距离值进行组合，生成真实拍摄距离值坐标。
64.其中，上述真实拍摄距离值坐标为上述图像对应时刻下相机坐标系中的坐标。
65.例如，针对像素为手指像素，像素坐标（40，123），目标真实拍摄距离值为6米，则真实拍摄距离值坐标可以是（40，123，6）。
66.需要说明的是，图像序列中的每个图像对应时刻都存在对应的相机坐标系。其中，相机坐标系可以是以目标摄像装置为中心，所建立的坐标系。
67.子步骤5，将上述像素坐标与上述目标初始拍摄距离值进行组合，生成初始拍摄距离值坐标。
68.其中，上述初始拍摄距离值坐标为上述相机坐标系中的坐标。
69.例如，针对像素为手指像素，像素坐标（40，123），目标初始拍摄距离值为5.5米，则真实拍摄距离值坐标可以是（40，123，5.5）。
70.子步骤6，对上述真实拍摄距离值坐标和上述初始拍摄距离值坐标进行相机坐标转换，以转换成目标相机坐标系下的坐标，得到转换真实拍摄距离值坐标和转换初始拍摄
距离值坐标。
71.其中，上述目标相机坐标系为目标相邻图像对应时刻下的相机坐标系。
72.子步骤7，根据上述转换真实拍摄距离值坐标和上述转换初始拍摄距离值坐标，生成针对上述像素的像素损失信息。
73.作为示例，上述执行主体可以将上述转换真实拍摄距离值和上述转换初始拍摄距离值坐标输入至坐标损失确定函数中，以输出针对上述像素的像素损失信息。其中，坐标损失确定函数可以是用于确定两个坐标中对应位置的元素差的均方误差函数。
74.子步骤8，对所得到的像素损失信息集包括的像素损失信息进行求和处理，得到求和损失信息，作为上述距离损失信息。
75.步骤1025，根据上述初始拍摄距离值集和上述姿态变换信息序列，生成针对上述图像的重构图像集。
76.在一些实施例中，上述执行主体可以根据上述初始拍摄距离值集和上述姿态变换信息序列，生成针对上述图像的重构图像集。
77.作为示例，上述执行主体可以将上述初始拍摄距离值集、上述姿态变换信息序列中的每个姿态变换信息和姿态变换信息对应的相邻图像输入至图像重构模型，以输出重构图像，得到针对上述图像的重构图像集。其中，图像重构模型可以是生成重构图像的模型。例如，上述图像重构模型可以是残差网络（residual networks，resnets）模型。
78.步骤1026，根据上述重构图像集和上述图像，生成图像特征匹配损失信息集组。
79.在一些实施例中，上述执行主体可以根据上述重构图像集和上述图像，生成图像特征匹配损失信息集组。
80.作为示例，上述执行主体可以确定重构图像集中的每个重构图像与图像之间对应像素差，作为图像特征匹配损失信息，得到图像特征匹配损失信息集。
81.在一些实施例的一些可选的实现方式中，上述根据上述重构图像集和上述图像，生成图像特征匹配损失信息集组，可以包括以下步骤：对于上述重构图像集中的每个重构图像，执行图像特征匹配损失信息集生成步骤：子步骤1，对于上述重构图像中的每个像素，执行图像特征匹配损失信息生成步骤：第一子步骤，确定与上述像素对应坐标相同的、上述图像中的像素，作为坐标相同像素。
82.第二子步骤，根据上述像素和坐标相同像素，确定针对上述像素的结构相似性损失信息和正则化损失信息。其中，结构相似性损失信息是基于结构相似性损失函数生成的。
83.作为示例，上述执行主体可以通过以下第一公式生成结构相似性损失信息：。
84.其中，为结构相似性损失信息。为图像对应像素。为相邻图像对应像素。为结果相似行函数的输出值。为0-1之间的参数。
85.作为示例，上述执行主体可以通过以下第二公式生成正则化损失信息：。
86.其中，为正则化损失信息。
87.第三子步骤，将上述结构相似性损失信息与上述正则化损失信息进行相加，得到相加损失信息，作为图像特征匹配损失信息。
88.子步骤2，将所得到的各个图像特征匹配损失信息确定为上述重构图像对应的图像特征匹配损失信息集。
89.步骤1027，根据上述距离损失信息和上述图像特征匹配损失信息集组，对上述初始拍摄距离估计网络和上述初始姿态变换确定网络进行网络训练，得到训练后的拍摄距离估计网络和训练后的姿态变换确定网络。
90.在一些实施例中，上述执行主体可以根据上述距离损失信息和上述图像特征匹配损失信息集组，通过各种方式来对上述初始拍摄距离估计网络和上述初始姿态变换确定网络进行网络训练，得到训练后的拍摄距离估计网络和训练后的姿态变换确定网络。
91.在一些实施例的一些可选的实现方式中，上述根据上述距离损失信息和上述图像特征匹配损失信息集组，对上述初始拍摄距离估计网络和上述初始姿态变换确定网络进行网络训练，得到训练后的拍摄距离估计网络和训练后的姿态变换确定网络，可以包括以下步骤：第一步，对于上述图像中的每个像素，执行以下生成步骤：子步骤1，确定上述图像序列中的、与上述像素对应像素坐标相同的像素，作为目标像素，得到目标像素组。
92.子步骤2，确定上述目标像素组中的各个目标像素与上述像素之间的像素差，得到像素差信息。
93.子步骤3，响应于确定上述像素差信息表征上述像素对应像素值与每个目标像素对应的像素差为预定阈值，生成表征对上述像素进行掩码处理的处理信息。其中，预定阈值可以是“0”。
94.第二步，根据所得到处理信息集，生成掩码矩阵。
95.作为示例，上述执行主体可以依据处理信息集中各个处理信息对应像素的像素坐标，对处理信息集进行组合，以生成掩码矩阵。
96.第三步，根据上述距离损失信息、上述掩码矩阵和所得到的图像特征匹配损失信息组，通过各种方式来对上述初始拍摄距离估计网络和上述初始姿态变换确定网络进行网络训练，得到训练后的拍摄距离估计网络和训练后的姿态变换确定网络。
97.可选地，上述根据上述距离损失信息和上述图像特征匹配损失信息集组，对上述初始拍摄距离估计网络和上述初始姿态变换确定网络进行网络训练，得到训练后的拍摄距离估计网络和训练后的姿态变换确定网络，可以包括以下步骤：第一步，对于上述图像中的每个像素，执行以下损失生成步骤：子步骤1，确定上述图像序列中的、与上述像素对应像素坐标相同的像素，作为目标像素，得到目标像素组。
98.子步骤2，对于上述目标像素组中的每个目标像素，将上述目标像素和上述像素输入至pixel-wise损失函数集，以输出像素损失信息集。其中，pixel-wise损失函数集可以包括：mse损失函数，l2损失函数，mae损失函数，交叉熵损失函数和l1损失函数。
99.子步骤3，对于上述目标像素组中的每个目标像素，将上述目标像素对应的像素损
失信息集进行加权处理，以生成加权损失信息。
100.子步骤4，从上述目标像素组筛选出对应加权损失信息之间差值小于预定差值的目标像素，得到至少一个目标像素，其中，上述差值可以是目标像素对应加权损失信息和上述像素对应加权损失信息的数值差。
101.子步骤5，响应于确定至少一个目标像素对应的像素数值除以目标像素组对应的像素数目的数值大于预定比例，生成表征对上述像素进行掩码处理的处理信息。
102.第二步，根据所得到处理信息集，生成掩码矩阵。
103.作为示例，上述执行主体可以依据处理信息集中各个处理信息对应像素的像素坐标，对处理信息集进行组合，以生成掩码矩阵。
104.第三步，根据上述距离损失信息、上述掩码矩阵和所得到的图像特征匹配损失信息组，通过各种方式来对上述初始拍摄距离估计网络和上述初始姿态变换确定网络进行网络训练，得到训练后的拍摄距离估计网络和训练后的姿态变换确定网络。
105.上述“可选地的内容”作为本公开的一个发明点，解决了背景技术提及的技术问题二，即“静态像素内容确定不够精准的问题，导致后续模型训练时间较长，计算量较大”。由此，本公开通过对应像素间的多个像素级损失函数，可以精准的确定出需要掩码的像素信息，以使得后续模型训练时间相对减少，计算量相对变少。
106.可选地，上述根据上述距离损失信息、上述掩码矩阵和所得到的图像特征匹配损失信息组，对上述初始拍摄距离估计网络和上述初始姿态变换确定网络进行网络训练，得到训练后的拍摄距离估计网络和训练后的姿态变换确定网络，可以包括以下步骤：第一步，对上述掩码矩阵和上述图像特征匹配损失信息组进行点积处理，得到点积结果。其中，图像特征匹配损失信息组可以是矩阵形式。
107.第二步，对于上述图像中的每个像素，生成针对上述像素的深度平滑损失信息。
108.作为示例，上述执行主体可以通过以下公式来生成深度平滑损失信息：，其中，可以是上述像素对应的初始拍摄距离值。可以是上述像素在x坐标轴方向的拍摄距离梯度值。可以是上述像素在y坐标轴方向的拍摄距离梯度值。可以是上述像素对应的深度平滑损失信息。
109.第三步，对上述点积结果、所得到的深度平滑损失信息集和上述距离损失信息进行加权求和处理，得到加权求和损失信息。
110.第四步，根据上述加权求和损失信息，对上述初始拍摄距离估计网络和上述初始姿态变换确定网络进行网络训练，得到训练后的拍摄距离估计网络和训练后的姿态变换确定网络。
111.作为示例，响应于确定加权求和损失信息小于或等于目标数值，将上述初始拍摄距离估计网络和上述初始姿态变换确定网络确定为训练后的拍摄距离估计网络和训练后的姿态变换确定网络。
112.作为又一个示例，响应于确定加权求和损失信息大于目标数值，对上述初始拍摄距离估计网络和上述初始姿态变换确定网络进行网络参数更新，得到更新后的拍摄距离估计网络和更新后的姿态变换确定网络，作为训练后的拍摄距离估计网络和训练后的姿态变
换确定网络。
113.本公开的上述各个实施例具有如下有益效果：通过本公开的一些实施例的模型训练方法估计拍摄距离更为精准的拍摄距离估计网络和确定姿态变换信息更为精准的姿态变换确定网络。具体来说，造成相关的拍摄距离和姿态变换信息不够精准的原因在于：基于有监督学习的深度学习网络模型的估计方法，需要海量精准的拍摄距离标签和姿态变换标签，需要浪费大量的人力物力。基于此，本公开的一些实施例的模型训练方法，首先，获取目标摄像装置所拍摄的图像序列，以用于后续拍摄距离估计网络和姿态变换确定网络的网络训练。然后，对于上述图像序列中的每个图像，执行模型训练步骤：第一步，将上述图像输入至初始拍摄距离估计网络，以输出初始拍摄距离值集。其中，上述初始拍摄距离值集中的初始拍摄距离值表征在图像被拍摄时，上述图像中像素对应的拍摄物体部位与上述目标摄像装置之间的距离。第二步，确定上述图像序列中的、与上述图像相邻的图像，作为相邻图像，得到相邻图像序列，以便于针对图像的姿态变换信息序列的确定。第三步，将上述图像和上述相邻图像序列中的每个相邻图像输入至初始姿态变换确定网络，以生成姿态变换信息，得到姿态变换信息序列。其中，姿态变换信息表征上述图像的像素与相邻图像的像素之间的像素变换情况。第四步，根据上述图像对应的真实拍摄距离值集和上述初始拍摄距离值集，生成距离损失信息，以用于后续拍摄距离估计网络和姿态变换确定网络的训练。第五步，根据上述初始拍摄距离值集和上述姿态变换信息序列，生成针对上述图像的重构图像集，以用于与图像进行比较，来后续用于对拍摄距离估计网络和姿态变换确定网络进行训练。进一步参考图2，作为对上述各图所示方法的实现，本公开提供了一种模型训练装置的一些实施例，这些装置实施例与图1所示的那些方法实施例相对应，该模型训练装置具体可以应用于各种电子设备中。
114.如图2所示，一种模型训练装置200包括：获取单元201和执行单元202。其中，获取单元201，被配置成获取目标摄像装置所拍摄的图像序列；执行单元202，被配置成对于上述图像序列中的每个图像，执行模型训练步骤：将上述图像输入至初始拍摄距离估计网络，以输出初始拍摄距离值集，其中，上述初始拍摄距离值集中的初始拍摄距离值表征在图像被拍摄时，上述图像中像素对应的拍摄物体部位与上述目标摄像装置之间的距离；确定上述图像序列中的、与上述图像相邻的图像，作为相邻图像，得到相邻图像序列；将上述图像和上述相邻图像序列中的每个相邻图像输入至初始姿态变换确定网络，以生成姿态变换信息，得到姿态变换信息序列，其中，姿态变换信息表征上述图像的像素与相邻图像的像素之间的像素变换情况；根据上述图像对应的真实拍摄距离值集和上述初始拍摄距离值集，生成距离损失信息；根据上述初始拍摄距离值集和上述姿态变换信息序列，生成针对上述图像的重构图像集；根据上述重构图像集和上述图像，生成图像特征匹配损失信息集组；根据上述距离损失信息和上述图像特征匹配损失信息集组，对上述初始拍摄距离估计网络和上述初始姿态变换确定网络进行网络训练，得到训练后的拍摄距离估计网络和训练后的姿态变换确定网络。
115.可以理解的是，该模型训练装置200中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用于模型训练装置200及其中包含的单元，在此不再赘述。
下面参考图3，其示出了适于用来实现本公开的一些实施例的电子设备（例如，电子设备）300的结构示意图。图3示出的电子设备仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。
116.如图3所示，电子设备300可以包括处理装置（例如中央处理器、图形处理器等）301，其可以根据存储在只读存储器（rom）302中的程序或者从存储装置308加载到随机访问存储器（ram）303中的程序而执行各种适当的动作和处理。在ram 303中，还存储有电子设备300操作所需的各种程序和数据。处理装置301、rom 302以及ram 303通过总线304彼此相连。输入/输出（i/o）接口305也连接至总线304。
117.通常，以下装置可以连接至i/o接口305：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306；包括例如液晶显示器（lcd）、扬声器、振动器等的输出装置307；包括例如磁带、硬盘等的存储装置308；以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。
118.特别地，根据本公开的一些实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的一些实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中，该计算机程序可以通过通信装置309从网络上被下载和安装，或者从存储装置308被安装，或者从rom 302被安装。在该计算机程序被处理装置301执行时，执行本公开的一些实施例的方法中限定的上述功能。
119.需要说明的是，本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（ram）、只读存储器（rom）、可擦式可编程只读存储器（eprom或闪存）、光纤、便携式紧凑磁盘只读存储器（cd-rom）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf（射频）等等，或者上述的任意合适的组合。
120.在一些实施方式中，客户端、服务器可以利用诸如http（hypertext transfer protocol，超文本传输协议）之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信（例如，通信网络）互连。通信网络的示例包括局域网
（“lan”），广域网（“wan”），网际网（例如，互联网）以及端对端网络（例如，ad hoc端对端网络），以及任何当前已知或未来研发的网络。
121.上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取目标摄像装置所拍摄的图像序列；对于上述图像序列中的每个图像，执行模型训练步骤：将上述图像输入至初始拍摄距离估计网络，以输出初始拍摄距离值集，其中，上述初始拍摄距离值集中的初始拍摄距离值表征在图像被拍摄时，上述图像中像素对应的拍摄物体部位与上述目标摄像装置之间的距离；确定上述图像序列中的、与上述图像相邻的图像，作为相邻图像，得到相邻图像序列；将上述图像和上述相邻图像序列中的每个相邻图像输入至初始姿态变换确定网络，以生成姿态变换信息，得到姿态变换信息序列，其中，姿态变换信息表征上述图像的像素与相邻图像的像素之间的像素变换情况；根据上述图像对应的真实拍摄距离值集和上述初始拍摄距离值集，生成距离损失信息；根据上述初始拍摄距离值集和上述姿态变换信息序列，生成针对上述图像的重构图像集；根据上述重构图像集和上述图像，生成图像特征匹配损失信息集组；根据上述距离损失信息和上述图像特征匹配损失信息集组，对上述初始拍摄距离估计网络和上述初始姿态变换确定网络进行网络训练，得到训练后的拍摄距离估计网络和训练后的姿态变换确定网络。
122.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网（lan）或广域网（wan）——连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。
123.附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
124.描述于本公开的一些实施例中的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元和执行单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取目标摄像装置所拍摄的图像序列的单元”。
125.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例
如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列（fpga）、专用集成电路（asic）、专用标准产品（assp）、片上系统（soc）、复杂可编程逻辑设备（cpld）等等。
126.以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：袁飞杨
技术所有人：禾多科技（北京）有限公司
我是此专利的发明人

上一篇：一种基于姿轨耦合控制策略的在轨目标接近导引方法
上一篇：一种路径规划方法、装置、设备及存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。