用于生成合成深度数据的系统、方法和存储介质与流程

文档序号：31716162发布日期：2022-10-04 21:54阅读：来源：国知局

技术特征：
1.一种由神经网络实现的方法，所述神经网络用于确定为从2维图像数据生成合成深度图像数据而优化的映射函数加权，所述方法包括：接收训练数据，所述训练数据包括至少一个2维图像数据集和对应的配准深度图像数据；利用训练数据训练第一生成器，以开发映射函数加权集，用于在2维图像数据集和对应的配准深度图像数据之间进行映射；由第二生成器将映射函数加权应用于第一2维图像数据集，以由此生成对应于2维图像数据集的合成深度数据；由逆生成器处理合成深度数据，以将深度数据变换成第二2维图像数据集；将第一2维图像数据集与第二2维图像数据集进行比较，并基于所述比较生成误差信号；基于误差信号来调整映射函数加权集；以及重复应用、处理、比较和调整步骤，直到满足指定的结束准则为止。2.根据权利要求1所述的方法，其中所述神经网络是师生生成对抗网络（ts-gan），所述ts-gan包括由作为教师生成器的第一生成器和教师鉴别器组成的教师组件，所述ts-gan还包括由作为学生生成器的第二生成器、学生逆生成器和学生鉴别器组成的学生组件，所述学生生成器与教师生成器共享公共加权集。3.根据权利要求1所述的方法，其中所述第一生成器和第二生成器被实现为生成器的相同实例。4.根据权利要求2所述的方法，其中所述教师生成器和学生生成器被实现为具有相同映射函数加权集的生成器的单独实例。5.根据权利要求1所述的方法，其中所述2维图像数据是rgb图像数据。6.根据权利要求1所述的方法，其中所述2维图像数据是表示人脸的面部数据。7.根据权利要求1所述的方法，其中所述2维图像数据表示道路上的对象、车辆或机器中的至少一个。8.根据权利要求1所述的方法，进一步包括使用2维图像数据和合成深度数据进行图像识别。9.根据权利要求1所述的方法，其中所述2维图像数据和深度数据存储在单个文件中。10.根据权利要求2所述的方法，其中基于以下等式来确定教师鉴别器的损失：其中：表示从训练数据采样的深度图像；表示2维图像数据集；表示对应于的深度数据；以及是映射函数。11.根据权利要求2所述的方法，其中基于以下等式来确定教师鉴别器的欧几里德损
失：。12.根据权利要求2所述的方法，其中基于以下等式来确定学生鉴别器的损失：其中：表示2维目标数据集的分布；表示从采样的图像；是映射函数；以及是逆映射函数。13.根据权利要求2所述的方法，其中教师生成器、学生生成器和学生逆生成器中的至少一个包括卷积神经网络。14.根据权利要求13所述的方法，其中所述2维图像数据和合成深度数据具有128
×
128
×
3的大小，并且其中学生生成器的编码器部分和教师生成器的编码器部分包括以下结构：应用整流线性激活函数（relu）的3个卷积层；特征图的数量从64到128到256逐渐增加，其中第一层的核大小为7
×
7，并且步幅为1；以及后续层使用3
×
3的核大小和2的步幅，继之以6个残差块，包括2个卷积层，每个卷积层具有3
×
3的核大小和2的步幅；以及生成器的最终解码器部分包括以下结构：用于上采样的3个去卷积层，应用整流线性激活函数（relu）；特征图的数量从128到64到3逐渐减少；以及用于将特征映射回图像的最后一个去卷积层，使用7
×
7的核大小和1的步幅，具有tanh激活函数。15.根据权利要求1所述的方法，其中接收、训练、应用、处理和调整步骤存在多次迭代。16.一种实现神经网络的计算系统，所述神经网络用于确定为从2维图像数据生成合成深度图像数据而优化的映射函数加权，所述系统包括：至少一个硬件计算机处理器，可操作以执行计算机可读指令；和至少一个非瞬态存储器设备，其上存储计算机可执行指令，当由所述至少一个硬件计算机处理器执行时，所述指令使所述至少一个硬件计算机处理器执行以下方法：接收训练数据，所述训练数据包括至少一个2维图像数据集和对应的配准深度图像数据；利用训练数据训练第一生成器，以开发映射函数加权集，用于在2维图像数据集和对应的配准深度图像数据之间进行映射；由第二生成器将映射函数加权应用于第一2维图像数据集，以由此生成对应于2维图像
数据集的合成深度数据；由逆生成器处理合成深度数据，以将深度数据变换成第二2维图像数据集；将第一2维图像数据集与第二2维图像数据集进行比较，并基于所述比较生成误差信号；基于误差信号来调整映射函数加权集；以及重复应用、处理、比较和调整步骤，直到满足指定的结束准则为止。17.根据权利要求16所述的系统，其中所述神经网络是师生生成对抗网络（ts-gan），所述ts-gan包括由作为教师生成器的第一生成器和教师鉴别器组成的教师组件，所述ts-gan还包括由作为学生生成器的第二生成器、学生逆生成器和学生鉴别器组成的学生组件，所述学生生成器与教师生成器共享公共加权集。18.根据权利要求16所述的系统，其中所述教师生成器和学生生成器被实现为生成器的相同实例。19.根据权利要求17所述的系统，其中所述教师生成器和学生生成器被实现为具有相同映射函数加权集的生成器的单独实例。20.根据权利要求16所述的系统，其中所述2维图像数据是rgb图像数据。21.根据权利要求16所述的系统，其中所述2维图像数据是表示人脸的面部数据。22.根据权利要求16所述的系统，其中所述2维图像数据表示道路上的对象、车辆或机器中的至少一个。23.根据权利要求16所述的系统，还包括使用2维图像数据和合成深度数据进行图像识别。24.根据权利要求16所述的系统，其中所述2维图像数据和深度数据存储在单个文件中。25.根据权利要求17所述的系统，其中教师鉴别器的损失基于以下等式来确定：其中：表示从训练数据采样的深度图像；表示2维图像数据集；表示对应于的深度数据；以及是映射函数。26.根据权利要求17所述的方法，其中基于以下等式来确定教师鉴别器的欧几里德损失：。27.根据权利要求17所述的方法，其中基于以下等式来确定学生鉴别器的损失：
其中：表示2维目标数据集的分布；表示从采样的图像；是映射函数；以及是逆映射函数。28.根据权利要求7所述的方法，其中教师生成器、学生生成器和学生逆生成器中的至少一个包括卷积神经网络。29.根据权利要求28所述的方法，其中所述2维图像数据和合成深度数据具有128
×
128
×
3的大小，并且其中学生生成器的编码器部分和教师生成器的编码器部分包括以下结构：应用整流线性激活函数（relu）的3个卷积层；特征图的数量从64到128到256逐渐增加，其中第一层的核大小为7
×
7，并且步幅为1；以及后续层使用3
×
3的核大小和2的步幅，继之以6个残差块，包括2个卷积层，每个卷积层具有3
×
3的核大小和2的步幅；以及生成器的最终解码器部分包括以下结构：用于上采样的3个去卷积层，应用整流线性激活函数（relu）；特征图的数量从128到64到3逐渐减少；以及用于将特征映射回图像的最后一个去卷积层，使用7
×
7的核大小和1的步幅，具有tanh激活函数。30.根据权利要求1所述的方法，其中接收、训练、应用、处理和调整步骤存在多次迭代。31.其上存储有计算机可读指令的非瞬态计算机可读介质，当由计算机处理器执行时，所述计算机可读指令使计算机处理器执行由神经网络实现的方法，用于确定为从2维图像数据生成合成深度图像数据而优化的映射函数加权，所述方法包括：接收训练数据，所述训练数据包括至少一个2维图像数据集和对应的配准深度图像数据；利用训练数据训练第一生成器，以开发映射函数加权集，用于在2维图像数据集和对应的配准深度图像数据之间进行映射；由第二生成器将映射函数加权应用于第一2维图像数据集，以由此生成对应于2维图像数据集的合成深度数据；由逆生成器处理合成深度数据，以将深度数据变换成第二2维图像数据集；将第一2维图像数据集与第二2维图像数据集进行比较，并基于所述比较生成误差信号；基于误差信号来调整映射函数加权集；以及重复应用、处理、比较和调整步骤，直到满足指定的结束准则为止。

技术总结
所公开的实现包括一种深度生成方法，该方法使用新型师生GAN架构（TS-GAN）来生成诸如RGB图像之类的2-D图像的深度图像，其中没有对应的深度信息可用。一个示例模型由两个组件——教师和学生——组成。该教师由作为生成器的全卷积编码器-解码器网络连同作为鉴别器的全卷积分类网络组成。生成器将2维图像取作输入，并且旨在输出对应的深度图像。教师学习2维和配准的深度图像之间的初始潜在映射，并且学生应用该潜在映射来向分类网络提供反馈以进行细化。进行细化。进行细化。

技术研发人员：A
受保护的技术使用者：爱迪德技术有限公司
技术研发日：2022.03.15
技术公布日：2022/10/3

完整全部详细技术资料下载

当前第2页1 2