一种机器人视觉识别方法、装置及计算机可读存储介质与流程

文档序号:14418290阅读:182来源:国知局
一种机器人视觉识别方法、装置及计算机可读存储介质与流程

本发明涉及深度学习技术领域,尤其涉及一种机器人视觉识别方法、装置及计算机可读存储介质。



背景技术:

不论是用于搜救的户外机器人或者行星机器人,或是用于工业的无轨道自动导引小车agv(automatedguidedvehicles),能够感知和模拟周围环境是自主式移动机器人的能力要求之一,也是执行例如兼容式操作以及安全导航等高层次任务的基础。传统的路径规划方法通常会假定路面及障碍物等都是刚性物体,然而在现实情况中,自主式移动机器人可能需要面对的路面和障碍物可能是会变形且不坚硬的材质。

目前,解决非刚性物体变形问题的方式主要包括利用质量弹簧系统进行模拟,或者是借助有限元技术进行计算。质量弹簧系统虽然计算量较少,但是无法直观和精确的模拟出目标材料的特性,同时也很难拓展到三维建模的层面上;有限元方法得到的结果虽然相对精确,但是由于需要精确建模大量的变形网格节点,计算成本很高,通常会需要花费十几分钟到若干小时,而在对路面和障碍物情况的实时预测方面,需要机器人进行快速的计算和响应,因此有限元方法不适宜用于机器人行走过程中的在线实时预测。从而提出一种方法,使得自主式移动机器人能够在路径规划的过程中预测路况以及估计路面变形,选择安全性高的路径行驶,避免出现由于变形材料被困住或由于路基超载产生危险的情况。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。



技术实现要素:

本发明的主要目的在于提供一种机器人视觉识别方法、装置及计算机可读存储介质,旨在解决自主式移动机器人通过预先评估目标路径和障碍物的特性进行路径规划的技术问题。

为实现上述目的,本发明提供一种机器人视觉识别方法,所述机器人视觉识别方法包括以下步骤:

基于图片数据库对所述生成网络进行训练,以使所述生成网络的预测能力逐渐增强;

在获取到基于对实时环境图片下采样得到的第一体素网格时,通过生成网络将所述第一体素网格转化为一维向量,合并所述一维向量与基于空间特性生成的第一条件向量;

将所述生成网络输出的预测信息作为判别网络的输入值,结合基于空间特性生成的第二条件向量,确定所述生成网络输出的预测信息是否符合期望。

优选地,所述基于图片数据库对所述生成网络进行训练,以使所述生成网络的预测能力逐渐增强的步骤之前,所述方法还包括:

收集若干真实环境图片,建立对应的图片数据库。

优选地,所述机器人视觉识别系统包括物理模拟器,所述基于图片数据库对所述生成网络进行训练,以使所述生成网络的预测能力逐渐增强的步骤包括:

基于图片数据库获取若干个体素网格和条件向量,通过物理模拟器生成由所述若干个体素网格和条件向量组成的若干个地面真值对;

基于所述若干个地面真值对训练生成网络,不断优化生成网络的相关参数,以使所述生成网络的预测能力逐渐增强。

优选地,所述生成网络包括自动编码器,所述在获取到基于对实时环境图片下采样得到的第一体素网格时,通过生成网络将所述第一体素网格转化为一维向量,合并所述一维向量与基于空间特性生成的第一条件向量的步骤包括:

在获取到机器人拍摄的实时环境图片时,对所述实时环境图片进行下采样得到所述实时环境图片对应的第一体素网格;

通过自动编码器将所述第一体素网格转化为对应的一维向量,与基于空间特性生成的第一条件向量合并。

优选地,所述通过自动编码器将所述第一体素网格转化为对应的一维向量,与基于空间特性生成的第一条件向量合并的步骤包括:

通过自动编码器将所述第一体素网格转化为对应的一维向量,并且基于所述第一体素网格获取所述第一体素网格的内部结构信息;

在获取到当前环境的空间特性时,将所述空间特性编码为第一条件向量,与所述一维向量合并。

优选地,所述生成网络包括解码器,所述在获取到基于对实时环境图片下采样得到的第一体素网格时,通过生成网络将所述第一体素网格转化为一维向量,合并所述一维向量与基于空间特性生成的第一条件向量的步骤之后,所述方法还包括:

通过解码器将合并后的所述一维向量和第一条件向量转化为第二体素网格,作为生成网络输出的预测信息。

优选地,所述将所述生成网络输出的预测信息作为判别网络的输入值,结合基于空间特性生成的第二条件向量,确定所述生成网络输出的预测信息是否符合期望的步骤包括:

获取基于当前环境的空间特性生成的第二条件向量;

在获取到所述生成网络输出的预测信息时,结合所述第二条件向量以及所述第一体素网格,确定所述预测信息是否符合期望。

优选地,所述空间特性条件包括外力的大小、外力的作用位置、以及受力材料。

此外,为实现上述目的,本发明还提供一种机器人视觉识别装置,其特征在于,所述机器人视觉识别装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的机器人视觉识别程序,所述机器人视觉识别程序被所述处理器执行时实现上述任一项所述的机器人视觉识别方法的步骤。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有机器人视觉识别程序,所述机器人视觉识别程序被处理器执行时实现上述任一项所述的机器人视觉识别方法的步骤。

本发明方案,通过基于图片数据库对所述生成网络进行训练,以使所述生成网络的预测能力逐渐增强;然后在获取到基于对实时环境图片下采样得到的第一体素网格时,通过生成网络将所述第一体素网格转化为一维向量,合并所述一维向量与基于空间特性生成的第一条件向量;之后将所述生成网络输出的预测信息作为判别网络的输入值,结合基于空间特性生成的第二条件向量,确定所述生成网络输出的预测信息是否符合期望;本方法将可逆条件生成对抗网络应用于物体变形的研究,能够从一个单一rgb-d图像预测目标对象收到外力时的变形,作为一种传统有限元方法的近似,有效提高了预测速度,因而能够用于实时在线预测,适合于自主机器人对地域环境进行评估,能够适用于多种不同的地质成分和结构。

附图说明

图1是本发明实施例方案涉及的硬件运行环境中机器人视觉识别装置所属终端的结构示意图;

图2为本发明机器人视觉识别方法第一实施例的流程示意图;

图3为本发明机器人视觉识别方法第一实施例中的生成对抗网络结构图;

图4为本发明机器人视觉识别方法第二实施例中基于图片数据库对所述生成网络进行训练,以使所述生成网络的预测能力逐渐增强的步骤的细化流程示意图;

图5为本发明机器人视觉识别方法第二实施例中的训练阶段流程图;

图6为本发明机器人视觉识别方法第三实施例中在获取到基于对实时环境图片下采样得到的第一体素网格时,通过生成网络将所述第一体素网格转化为一维向量,合并所述一维向量与基于空间特性生成的第一条件向量的步骤的细化流程示意图;

图7为本发明机器人视觉识别方法第三实施例中的测试阶段流程图;

图8为本发明机器人视觉识别方法第四实施例中通过自动编码器将所述第一体素网格转化为对应的一维向量,与基于空间特性生成的第一条件向量合并的步骤的细化流程示意图;

图9为本发明机器人视觉识别方法第六实施例中将所述生成网络输出的预测信息作为判别网络的输入值,结合基于空间特性生成的第二条件向量,确定所述生成网络输出的预测信息是否符合期望的步骤的细化流程示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图1所示,图1是本发明实施例方案涉及的硬件运行环境的装置所属终端结构示意图。

本发明实施例终端可以是pc,也可以是智能手机、平板电脑、电子书阅读器、mp3(movingpictureexpertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)播放器、mp4(movingpictureexpertsgroupaudiolayeriv,动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的可移动式终端设备。

如图1所示,该终端可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地,终端还可以包括摄像头、rf(radiofrequency,射频)电路,传感器、音频电路、wifi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及机器人视觉识别程序。

在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的机器人视觉识别程序。

在本实施例中,机器人视觉识别装置包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的机器人视觉识别程序,其中,处理器1001调用存储器1005中存储的机器人视觉识别程序时,并执行以下操作:

基于图片数据库对所述生成网络进行训练,以使所述生成网络的预测能力逐渐增强;

在获取到基于对实时环境图片下采样得到的第一体素网格时,通过生成网络将所述第一体素网格转化为一维向量,合并所述一维向量与基于空间特性生成的第一条件向量;

将所述生成网络输出的预测信息作为判别网络的输入值,结合基于空间特性生成的第二条件向量,确定所述生成网络输出的预测信息是否符合期望。

进一步地,处理器1001可以调用存储器1005中存储的机器人视觉识别程序,还执行以下操作:

收集若干真实环境图片,建立对应的图片数据库。

进一步地,处理器1001可以调用存储器1005中存储的机器人视觉识别程序,还执行以下操作:

基于图片数据库获取若干个体素网格和条件向量,通过物理模拟器生成由所述若干个体素网格和条件向量组成的若干个地面真值对;

基于所述若干个地面真值对训练生成网络,不断优化生成网络的相关参数,以使所述生成网络的预测能力逐渐增强。

进一步地,处理器1001可以调用存储器1005中存储的机器人视觉识别程序,还执行以下操作:

在获取到机器人拍摄的实时环境图片时,对所述实时环境图片进行下采样得到所述实时环境图片对应的第一体素网格;

通过自动编码器将所述第一体素网格转化为对应的一维向量,与基于空间特性生成的第一条件向量合并。

进一步地,处理器1001可以调用存储器1005中存储的机器人视觉识别程序,还执行以下操作:

通过自动编码器将所述第一体素网格转化为对应的一维向量,并且基于所述第一体素网格获取所述第一体素网格的内部结构信息;

在获取到当前环境的空间特性时,将所述空间特性编码为第一条件向量,与所述一维向量合并。

进一步地,处理器1001可以调用存储器1005中存储的机器人视觉识别程序,还执行以下操作:

通过解码器将合并后的所述一维向量和第一条件向量转化为第二体素网格,作为生成网络输出的预测信息。

进一步地,处理器1001可以调用存储器1005中存储的机器人视觉识别程序,还执行以下操作:

获取基于当前环境的空间特性生成的第二条件向量;

在获取到所述生成网络输出的预测信息时,结合所述第二条件向量以及所述第一体素网格,确定所述预测信息是否符合期望。

进一步地,处理器1001可以调用存储器1005中存储的机器人视觉识别程序,还执行以下操作:

所述空间特性条件包括外力的大小、外力的作用位置、以及受力材料。

本发明第一实施例提供一种机器人视觉识别方法,参照图2,图2为本发明机器人视觉识别方法第一实施例的流程示意图,所述机器人视觉识别方法应用于机器人视觉识别系统,机器人视觉识别系统包括生成网络和判别网络,所述机器人视觉识别方法包括:

步骤s100,基于图片数据库对所述生成网络进行训练,以使所述生成网络的预测能力逐渐增强;

生成网络和判别网络是生成对抗网络gan(generativeadversarialnetwork)的两个主要组成部分。其目的是生成与真实数据非常相似的数据。通过生成对抗网络,可以生成与训练样本具有同一性但训练样本中没有的数据。生成对抗网络由生成网络和判别网络组成,生成网络的作用是生成接近于真实的图片或者数据来欺骗判别网络,以使判别网络相信生成网络输出的图片或数据是真实的,而判别网络通过训练获得识别生成网络输出的图片或者数据的真实性的能力。在这个过程中,生成网络和判别网络相互对抗,也共同提高进而获得了能力的增强。也就是说,生成网络生成的图片或数据越来越接近于真实的输入值,而判别网络识别虚假图片或数据的能力也逐渐提高。最终的目的是使生成网络输出的图片或者数据达到以假乱真的程度。

生成对抗网络是深度学习的一个分支。深度学习作为目前机器学习的重要领域,在图像识别、语音分析等方向都有着重要应用。深度学习由神经网络演化而来,深度学习本质上是深层的人工神经网络,它不是一项孤立的技术,而是数学、统计机器学习、计算机科学和人工神经网络等多个领域的综合。到目前为止,人们己经针对分类、检测、识别等各类不同的问题设计了多种行之有效的网络结构。其中在很多领域如人脸识别等已经超过了人眼识别的准确率。通俗地讲,深度学习通过在大量的样本中学习有价值的信息,从而得到了对目标分析判断的能力。由于现实中的问题往往比简单的识别和线性预测更加复杂,例如,立体图像重建需要输出完整的3d模型,智能排版需要输出完整的排版方案,这些是现有神经网络所不能做的。在高维度、高复杂度的生成模型上,仍然非常欠缺。作为近两年人工智能领域的里程碑式的工作,生成对抗网络和德雷斯登生成对抗网络(wassersteingan)为高维生成模型奠定了基础,其中一项应用就是计算机视觉预测物理形变的高纬度模型,使机器人像人一样,对重力、摩擦力、张力等现实世界的理解变为可能。

本发明的机器人视觉识别方法是基于一种可逆条件生成对抗网络实现的,所述网络的完整结构如图3所示,主要包括生成网络和判别网络两部分,生成网络输出的预测信息和判别网络输出的判别结果还受到基于空间特性生成的条件向量的影响。

步骤s200,在获取到基于对实时环境图片下采样得到的第一体素网格时,通过生成网络将所述第一体素网格转化为一维向量,合并所述一维向量与基于空间特性生成的第一条件向量;

对日常物体的物理特性进行建模是自主机器人的基本前提。我们提出了一个新的生成对抗网络,能够从一个单一的rgb-d图像预测目标对象在受到外力下的变形。该网络基于可逆条件生成对抗网络,并且在由物理有限元模型模拟器生成的不同对象集合上进行训练。本方法继承了生成对抗网络的泛化属性。这意味着网络能够在给定对象的单个深度视图的情况下重建对象的整个三维外观。生成网络主要由自动编码器和解码器组成,为了便于重建体素网格的内部结构,本发明中的自动编码器在传统的编码器和解码器之间具有跳跃式连接。

进一步地,所述空间特性条件包括外力的大小、外力的作用位置、以及受力材料。

步骤s300,将所述生成网络输出的预测信息作为判别网络的输入值,结合基于空间特性生成的第二条件向量,确定所述生成网络输出的预测信息是否符合期望。

与传统的有限元方法相反,我们的方法足够快,可用于实时应用。我们将这个网络应用于在不同的障碍物和地板材料上运载有效载荷的移动机器人的安全快速导航问题。实际情况下的实验结果显示,配备rgb-d摄像头的机器人如何使用网络来预测不同有效负载配置下的地形变形,并利用此功能来避免不安全区域。

进一步地,在一实施例中,在步骤s100之前,所述机器人视觉识别方法还包括:

收集若干真实环境图片,建立对应的图片数据库。

进一步地,在一实施例中,在步骤s200之后,所述机器人视觉识别方法还包括:

通过解码器将合并后的所述一维向量和第一条件向量转化为第二体素网格,作为生成网络输出的预测信息。

解码器的组成基本上遵循自动编码器的逆过程,包括第一至第四反卷积层加激活层、第一输出层,其中每一卷积层都被嵌入至反卷积层。解码器在获取到合并后的一维向量和第一条件向量时,通过上述第一至第四反卷积层加激活层、第一输出层生成第二体素网格,从生成网络输出,作为判别网络的输入值之一。

本实施例中提出的机器人视觉识别方法,通过基于图片数据库对所述生成网络进行训练,以使所述生成网络的预测能力逐渐增强;然后在获取到基于对实时环境图片下采样得到的第一体素网格时,通过生成网络将所述第一体素网格转化为一维向量,合并所述一维向量与基于空间特性生成的第一条件向量;之后将所述生成网络输出的预测信息作为判别网络的输入值,结合基于空间特性生成的第二条件向量,确定所述生成网络输出的预测信息是否符合期望;本方法将可逆条件生成对抗网络应用于物体变形的研究,能够从一个单一rgb-d图像预测目标对象收到外力时的变形,作为一种传统有限元方法的近似,有效提高了预测速度,因而能够用于实时在线预测,适合于自主机器人对地域环境进行评估,能够适用于多种不同的地质成分和结构。

基于第一实施例,提出本发明机器人视觉识别方法的第二实施例,参照图4,所述机器人视觉识别系统包括物理模拟器,步骤s100包括:

步骤s110,基于图片数据库获取若干个体素网格和条件向量,通过物理模拟器生成由所述若干个体素网格和条件向量组成的若干个地面真值对;

物理模拟器(physicssimulator)也叫物理引擎(physicsengine),能够模拟真实世界中各种物体运动的规律。物理引擎可以将预设的图片数据库存储在自身的存储器中,在对生成网络进行训练时,基于图片数据库生成若干个对面真值对,该地面真值对由三维点云和条件向量组成,之后将三维点云通过软件转化为对应的体素网格。其中,三维点云是指目标表面特性的海量点集合,根据激光测量原理得到的点云,包括三维坐标和激光反射强度,根据摄影测量原理得到的点云,包括三维坐标和颜色信息,结合激光测量和摄影测量原理得到点云,包括三维坐标、激光反射强度和颜色信息,在获取物体表面每个下采样点的空间坐标后,得到的是一个点的集合,称之为“点云”;条件向量是对多个物理条件进行离散化,得到多个对应的数值集合,用独热向量的形式表示。用独热向量表示一个特征时,有多少个状态就有多少比特,而且只有一个比特为1,其他全为0。例如,在机器人需要判断目标障碍物的变形量时,在得到了通过该障碍物时对其施加的力的大小,力的作用位置,以及障碍物的材料时,可以通过将这三个特征编码为独热向量(f,a,m),包括f,a,m在内的每个特征都用二进制的形式表示离散化的条件;还可以对每个特征设置固定的二进制位数。

步骤s120,基于所述若干个地面真值对训练生成网络,不断优化生成网络的相关参数,以使所述生成网络的预测能力逐渐增强。

如图5所示,将物理引擎生成的地面真值对输入至生成网络,在得到生成网络输出的预测信息时,将该预测信息和上述地面真值对作为判别网络的输入,预测信息就是由生成网络对地面真值对按照一定规则估算出的预测值。之后由判别网络计算预测信息和地面真值对之间的差值,根据该差值来更新判别网络的损失函数中对应的参数。同时,根据上述损失函数更新生成网络的相关参数,以使生成网络的预测能力逐渐增强,也就是输出的预测信息越来越接近于输入的地面真值对,达到判别网络无法分辨的程度。

本实施例中提出的机器人视觉识别方法,通过基于图片数据库获取若干个体素网格和条件向量,通过物理模拟器生成由所述若干个体素网格和条件向量组成的若干个地面真值对;然后基于所述若干个地面真值对训练生成网络,不断优化生成网络的相关参数,以使所述生成网络的预测能力逐渐增强;采用独热向量表示不同的条件可以避免训练过程中因为分类值表示的问题对模型产生的负面影响。

基于第一实施例,提出本发明机器人视觉识别方法的第三实施例,参照图6,所述生成网络包括自动编码器,步骤s200包括:

步骤s210,在获取到机器人拍摄的实时环境图片时,对所述实时环境图片进行下采样得到所述实时环境图片对应的第一体素网格;

为了便于对实时环境图片的处理,避免因为原始图片包含的数据量过大从而造成计算成本高昂,需要在获取到机器人拍摄的实时环境图片时,对该实时环境图片进行下采样。图像的采样分为上采样和下采样,上采样通常是利用内插值法对原始图像进行放大,而下采样是对原始图像进行缩小。下采样的主要目的在于使得图像符合显示区域的大小或者生成对应图像的缩略图。例如,对于一幅分辨率为m*n的图像,若对其进行s倍下采样,即可得到(m/s)*(n/s)尺寸的分辨率图像,从本质上来说,就是把原始图像中的多个像素点缩小到一个像素点上。机器人拍摄的rgb-d图片就是在进行下采样时的原始图片,由于该原始图片通常是2.5d图片,包含了目标对象的平面信息和部分立体信息,因此在通过对所述实时环境图片进行下采样时,可以得到三维的第一体素网格。

步骤s220,通过自动编码器将所述第一体素网格转化为对应的一维向量,与基于空间特性生成的第一条件向量合并。

自动编码器包括第一输入层、第一至第四卷积层、激活层、降维层、第一批归一化层、第一至第二全连接层。将第一体素网格输入生成网络后,首先进入自动编码器部分,在经过第一输入层、第一至第四卷积层、激活层、降维层,以及第一批归一化层之后,输出为一个较大的通道特征值,再经过全连接层输出为一个较小的通道特征值,可以得到最终的一维向量。将该一维向量和基于空间特性生成的第一条件向量合并。例如,在输入一个分辨率为64*64*64的实时环境图片时,经过自动编码器后输出一个大小为32768的通道特征值,之后再经过自动编码器中的全连接层输出一个大小为5000的通道特征值。图7为生成网络的测试阶段流程图,表示出了参与测试阶段的各个元素及其相互作用关系,其中,生成网络根据输入的深度图像预,结合条件向量,输出目标对象的预测变形量。

本实施例中提出的机器人视觉识别方法,通过在获取到机器人拍摄的实时环境图片时,对所述实时环境图片进行下采样得到所述实时环境图片对应的第一体素网格;然后通过自动编码器将所述第一体素网格转化为对应的一维向量,与基于空间特性生成的第一条件向量合并;将数据量较大的实时环境图片采样为三维体素网格的形式表示,之后通过自动编码器转换为一维向量形式,结合空间特性生成的条件向量,以供之后的编码器得到更为准确的预测信息。

基于第三实施例,提出本发明机器人视觉识别方法的第四实施例,参照图8,步骤s220包括:

步骤s221,通过自动编码器将所述第一体素网格转化为对应的一维向量,并且基于所述第一体素网格获取所述第一体素网格的内部结构信息;

本发明中的机器人视觉识别系统基于可逆条件生成对抗网络icgan(invertibleconditionalgenerativeadversarialnetwork),并且在物理模拟器上进行大量训练。本发明继承了gan的泛化属性,意味着网络能够在给定对象的单个深度图像上重建对象的整个三维点云,进而获得便于下一步处理的体素网格,并基于该体素网格获取对象的内部结构信息。自动编码器能够通过插值技术或者设置变量的方法获取第一体素网格的内部结构信息,也就是说,在根据目标对象的rgb-d图像获取到目标对象的第一体素网格后,可以进一步地得到图像没有显示出的内部结构信息。

生成网络由自动编码器和解码器组成。自动编码器包括第一输入层、第一至第四卷积层、激活层、降维层、第一批归一化层、第一至第二全连接层;解码器包括第一至第四反卷积层、激活层、第一输出层,其中每一卷积层都被嵌入至反卷积层。判别网络包括第一输入层、第二至四卷积层、激活层、第一批归化一层。在本实施例中,给生成网络输入64*64*64分辨率的特征图,经过编码器后输出32768通道特征值,再经过全连接输出5000通道特征。通过解码器,还原为64*64*64分辨率生成特征图。生成特征图和实际数据图进入辨别网络,辨别网络输出为真/假。通过反向传播算法,来更新迭代生成网络和辨别网络。并通过可适应状态量估计来优化网络参数。

步骤s222,在获取到当前环境的空间特性时,将所述空间特性编码为第一条件向量,与所述一维向量合并。

第一条件向量是一个一维向量。条件向量是对多个物理条件进行离散化,得到多个对应的数值集合,用独热向量的形式表示。用独热向量表示一个特征时,有多少个状态就有多少比特,而且只有一个比特为1,其他全为0。例如,在机器人需要判断目标障碍物的变形量时,在得到了通过该障碍物时对其施加的力的大小,力的作用位置,以及障碍物的材料时,可以通过将这三个特征编码为独热向量(f,a,m),包括f,a,m在内的每个特征都用二进制的形式表示离散化的条件;还可以对每个特征设置固定的二进制位数。空间特性就是指机器人所处空间的目标对象的性质,包括目标对象的受力大小,力的作用位置,以及受力材料。

本实施例中提出的机器人视觉识别方法,通过自动编码器将所述第一体素网格转化为对应的一维向量,并且基于所述第一体素网格获取所述第一体素网格的内部结构信息;然后在获取到当前环境的空间特性时,将所述空间特性编码为第一条件向量,与所述一维向量合并;本方法继承了gan的泛化属性,因此生成网络能够在给定对象的单个深度视图的情况下重建对象的整个3-d外观,并能够重建对象的内部结构。

基于第一实施例,提出本发明机器人视觉识别方法的第五实施例,参照图9,步骤s300包括:

步骤s310,获取基于当前环境的空间特性生成的第二条件向量;

当前环境的空间特性是指影响到路面及障碍物变形的物理特征,包括但不限于变形时的受力大小,力的作用位置,以及受力材料等。在机器人需要对某目标对象的变形量进行预测时,获取上述空间特性。在获取到上述空间特性时,对多个物理条件进行离散化,得到多个对应的数值集合,用独热向量的形式表示。用独热向量表示一个特征时,有多少个状态就有多少比特,而且只有一个比特为1,其他全为0。例如,在机器人需要判断目标障碍物的变形量时,在得到了通过该障碍物时对其施加的力的大小,力的作用位置,以及障碍物的材料时,可以通过将这三个特征编码为独热向量(f,a,m),包括f,a,m在内的每个特征都用二进制的形式表示离散化的条件;还可以对每个特征设置固定的二进制位数。第二条件向量就是用独热向量表示的当前环境的空间特性。

步骤s320,在获取到所述生成网络输出的预测信息时,结合所述第二条件向量以及所述第一体素网格,确定所述预测信息是否符合期望。

判别网络在获取到所述生成网络输出的预测信息时,获取第一体素网格和第二条件向量,对预测信息和由上述第一体素网格和第二条件向量组成的真实输入值进行比较,通过判别网络的损失函数确定预测信息和真实值之间的偏差,输出判别结果为真或为假。如果判别网络无法区分生成网络输出的预测信息和真实值,则输出预测信息为真的判别结果,如果判别网络能够区分出预测信息和真实值之间的差距,则输出预测信息为假的判别结果。

本实施例中提出的机器人视觉识别方法,通过获取基于当前环境的空间特性生成的第二条件向量;然后在获取到所述生成网络输出的预测信息时,结合所述第二条件向量以及所述第一体素网格,确定所述预测信息是否符合期望;在整个过程中,生成网络生成的预测信息逐渐接近于真实值,判别网络的判别能力越来强,能够识别出的预测信息与真实值之间的差异在减小,生成网络和判别网络在相互博弈的过程中共同提高。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有机器人视觉识别程序,所述机器人视觉识别程序被处理器执行时实现如下操作:

基于图片数据库对所述生成网络进行训练,以使所述生成网络的预测能力逐渐增强;

在获取到基于对实时环境图片下采样得到的第一体素网格时,通过生成网络将所述第一体素网格转化为一维向量,合并所述一维向量与基于空间特性生成的第一条件向量;

将所述生成网络输出的预测信息作为判别网络的输入值,结合基于空间特性生成的第二条件向量,确定所述生成网络输出的预测信息是否符合期望。

进一步地,所述机器人视觉识别程序被处理器执行时还实现如下操作:

收集若干真实环境图片,建立对应的图片数据库。

进一步地,所述机器人视觉识别程序被处理器执行时还实现如下操作:

基于图片数据库获取若干个体素网格和条件向量,通过物理模拟器生成由所述若干个体素网格和条件向量组成的若干个地面真值对;

基于所述若干个地面真值对训练生成网络,不断优化生成网络的相关参数,以使所述生成网络的预测能力逐渐增强。

进一步地,所述机器人视觉识别程序被处理器执行时还实现如下操作:

在获取到机器人拍摄的实时环境图片时,对所述实时环境图片进行下采样得到所述实时环境图片对应的第一体素网格;

通过自动编码器将所述第一体素网格转化为对应的一维向量,与基于空间特性生成的第一条件向量合并。

进一步地,所述机器人视觉识别程序被处理器执行时还实现如下操作:

通过自动编码器将所述第一体素网格转化为对应的一维向量,并且基于所述第一体素网格获取所述第一体素网格的内部结构信息;

在获取到当前环境的空间特性时,将所述空间特性编码为第一条件向量,与所述一维向量合并。

进一步地,所述机器人视觉识别程序被处理器执行时还实现如下操作:

通过解码器将合并后的所述一维向量和第一条件向量转化为第二体素网格,作为生成网络输出的预测信息。

进一步地,所述机器人视觉识别程序被处理器执行时还实现如下操作:

在获取到所述生成网络输出的预测信息时,结合所述第二条件向量以及所述第一体素网格,确定所述预测信息是否符合期望。

进一步地,所述机器人视觉识别程序被处理器执行时还实现如下操作:

所述空间特性条件包括外力的大小、外力的作用位置、以及受力材料。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1