单眼人体姿态估计网络训练方法、图像处理方法和装置与流程

文档序号:17732371发布日期:2019-05-22 02:56阅读:141来源:国知局
单眼人体姿态估计网络训练方法、图像处理方法和装置与流程

本发明涉及人工智能领域,具体涉及一种单眼人体姿态估计网络训练方法、图像处理方法和装置。



背景技术:

单眼三维人体姿态估计是人体相关计算机视觉问题中重要的一类,其目标是给定一张带有人体的图片,计算出人体上预先定义好的若干个特征点的三维空间位置。

单眼三维人体姿态估计问题可以通过深度学习即卷积神经网络方法解决,但是现有的基于深度神经网络的算法依赖大量的基于运动捕捉系统的人工标注数据,并且这种系统部署复杂,往往需要在严格的采集环境下,人穿戴特定设备来获得,从而限制了广泛应用。另外,目前的单眼(或者说单张图片)估计三维人体姿态是丢失了人体的三维结构信息,多个三维姿态可能会对应同一个二维姿态,并且其中的大部分三维姿态都是不符合人体测量学约束的,比如肢体的长度和角度不合理。基于此,在大范围人体姿态变化、背景环境、相机视角变化等复杂情况下的人体三维姿态估计精度下降严重。



技术实现要素:

为解决现有存在的技术问题,本发明实施例提供了一种单眼人体姿态估计网络训练方法、图像处理方法和装置。

为达到上述目的,本发明实施例的技术方案是这样实现的:

本发明实施例提供了一种单眼人体姿态估计网络训练方法,所述方法包括:

获得第一样本图片和第二样本图片;所述第一样本图片表征第一视角下的二维骨架图片;所述第二样本图片表征第二视角下的二维骨架图片;

根据所述第一样本图片、所述第二样本图片和预设约束条件训练人体姿态估计网络,以使所述第一样本图片经所述人体姿态估计网络获得的第一三维特征数据按照预设旋转关系旋转后与所述第二样本图片经所述人体姿态估计网络获得的第二三维特征数据满足所述预设约束条件。

上述方案中,所述根据所述第一样本图片、所述第二样本图片和预设约束条件训练人体姿态估计网络,包括:

将所述第一样本图片输入人体姿态估计网络,获得对应于所述第一视角的第一三维特征数据;

将所述第一三维特征数据按照预设旋转参数进行数据处理,获得对应于所述第二视角的第三三维特征数据;

将所述第二样本图片输入参考人体姿态估计网络,获得对应于所述第二视角的第二三维特征数据;所述参考人体姿态估计网络与所述人体姿态估计网络具有相同的网络结构;

根据所述第三三维特征数据和所述第二三维特征数据对所述人体姿态估计网络进行训练,以调整所述人体姿态估计网络的网络参数。

上述方案中,所述根据所述第三三维特征数据和所述第二三维特征数据对所述人体姿态估计网络进行训练,包括:

根据所述第三三维特征数据和所述第二三维特征数据计算损失函数,当所述损失函数不满足所述预设约束条件时,调整所述人体姿态估计网络的网络参数以对所述人体姿态估计网络进行训练,直至所述损失函数满足所述预设约束条件时终止对所述人体姿态估计网络的训练。

上述方案中,所述预设旋转参数基于所述第二视角和所述第一视角之间的差异程度确定。

上述方案中,所述获得第一样本图片和第二样本图片,包括:

分别获得对应于第一视角的第一图片以及对应于第二视角的第二图片;所述第一图片和所述第二图片对应于同一样本目标对象;

基于关键点检测网络分别获得所述第一图片的第一二维关键点信息以及所述第二图片的第二二维关键点信息;

基于所述第一二维关键点信息生成第一样本图片,基于所述第二二维关键点信息生成第二样本图片。

本发明实施例还提供了一种图像处理方法,所述方法包括:获得待处理图片;所述待处理图片中包括目标对象;

基于关键点检测网络获得所述待处理图片的二维关键点信息,基于所述二维关键点信息生成对应于所述目标对象的二维骨架图片;

基于所述二维骨架图片和人体姿态估计网络获得所述目标对象对应的目标三维特征数据。

上述方案中,所述基于所述二维骨架图片和所述人体姿态估计网络获得所述目标对象对应的目标三维特征数据,包括:

将所述二维骨架图片输入所述人体姿态估计网络,获得初始三维特征数据;

对所述初始三维特征数据进行调整处理,获得目标三维特征数据。

上述方案中,所述人体姿态估计网络基于本发明实施例所述的单眼人体姿态估计网络训练方法训练获得。

本发明实施例还提供了一种单眼人体姿态估计网络训练装置,所述装置包括第一处理单元和网络训练单元;其中,

所述第一处理单元,用于获得第一样本图片和第二样本图片;所述第一样本图片表征第一视角下的二维骨架图片;所述第二样本图片表征第二视角下的二维骨架图片;

所述网络训练单元,用于根据所述第一处理单元获得的所述第一样本图片、所述第二样本图片和预设约束条件训练人体姿态估计网络,以使所述第一样本图片经所述人体姿态估计网络获得的第一三维特征数据按照预设旋转关系旋转后与所述第二样本图片经所述人体姿态估计网络获得的第二三维特征数据满足所述预设约束条件。

上述方案中,所述网络训练单元,用于将所述第一样本图片输入人体姿态估计网络,获得对应于所述第一视角的第一三维特征数据;将所述第一三维特征数据按照预设旋转参数进行数据处理,获得对应于所述第二视角的第三三维特征数据;将所述第二样本图片输入参考人体姿态估计网络,获得对应于所述第二视角的第二三维特征数据;所述参考人体姿态估计网络与所述人体姿态估计网络具有相同的网络结构;根据所述第三三维特征数据和所述第二三维特征数据对所述人体姿态估计网络进行训练,以调整所述人体姿态估计网络的网络参数。

上述方案中,所述网络训练单元,用于根据所述第三三维特征数据和所述第二三维特征数据计算损失函数,当所述损失函数不满足所述预设约束条件时,调整所述人体姿态估计网络的网络参数以对所述人体姿态估计网络进行训练,直至所述损失函数满足所述预设约束条件时终止对所述人体姿态估计网络的训练。

上述方案中,所述网络训练单元,用于基于所述第二视角和所述第一视角之间的差异程度确定预设旋转参数。

上述方案中,所述第一处理单元,用于分别获得对应于第一视角的第一图片以及对应于第二视角的第二图片;所述第一图片和所述第二图片对应于同一样本目标对象;基于关键点检测网络分别获得所述第一图片的第一二维关键点信息以及所述第二图片的第二二维关键点信息;基于所述第一二维关键点信息生成第一样本图片,基于所述第二二维关键点信息生成第二样本图片。

本发明实施例还提供了一种图像处理装置,所述装置包括获取单元和图像处理单元;其中,

所述获取单元,用于获得待处理图片;所述待处理图片中包括目标对象;

所述图像处理单元,用于基于关键点检测网络获得所述待处理图片的二维关键点信息,基于所述二维关键点信息生成对应于所述目标对象的二维骨架图片;基于所述二维骨架图片和人体姿态估计网络获得所述目标对象对应的目标三维特征数据。

上述方案中,所述图像处理单元,用于将所述二维骨架图片输入所述人体姿态估计网络,获得初始三维特征数据;对所述初始三维特征数据进行调整处理,获得目标三维特征数据。

上述方案中,所述人体姿态估计网络基于本发明实施例所述的单眼人体姿态估计网络训练装置训练获得。

本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所述单眼人体姿态估计网络训练方法的步骤;或者,该程序被处理器执行时实现本发明实施例所述图像处理方法的步骤。

本发明实施例还提供了一种单眼人体姿态估计网络训练装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明实施例所述单眼人体姿态估计网络训练方法的步骤。

本发明实施例还提供了一种图像处理装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明实施例所述图像处理方法的步骤。

本发明实施例提供的一种单眼人体姿态估计网络训练方法、图像处理方法和装置,其中,网络训练方法包括:获得第一样本图片和第二样本图片;所述第一样本图片表征第一视角下的二维骨架图片;所述第二样本图片表征第二视角下的二维骨架图片;根据所述第一样本图片、所述第二样本图片和预设约束条件训练人体姿态估计网络,以使所述第一样本图片经所述人体姿态估计网络获得的第一三维特征数据按照预设旋转关系旋转后与所述第二样本图片经所述人体姿态估计网络获得的第二三维特征数据满足所述预设约束条件。采用本发明实施例的技术方案,一方面,通过不同视角下的二维骨架图片作为人体姿态估计网络的训练数据,剥离了二维纹理信息,保留的是与人体姿态相关的三维结构信息的共性特征;另一方面,基于该共性特征(即不同视角下的二维骨架图片)通过弱监督训练方式获得表征人体结构的三维人体结构特征(即第一三维特征数据和第二三维特征数据),以及将获得的三维人体结构特征按照预设约束条件融合到人体姿态估计网络中,在融合过程中获得更多更准确的三维人体结构信息,从而降低网络模型对标注数据的依赖,使得网络模型的精度大幅提升,尤其在大范围人体姿态变化,背景环境、相机视角变化等复杂场景下,仍然取得很高的精度。

附图说明

图1为本发明实施例的单眼人体姿态估计网络训练方法的流程示意图;

图2为本发明实施例的单眼人体姿态估计网络训练方法中的应用示意图;

图3为本发明实施例的图像处理方法的流程示意图;

图4为本发明实施例的图像处理方法中的应用示意图;

图5为本发明实施例的单眼人体姿态估计网络训练装置的组成结构示意图;

图6为本发明实施例的图像处理装置的种组成结构示意图;

图7为本发明实施例的处理装置的硬件组成结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细的说明。

本发明实施例提供了一种单眼人体姿态估计网络训练方法。图1为本发明实施例的单眼人体姿态估计网络训练方法的流程示意图;如图1所示,所述方法包括:

步骤101:获得第一样本图片和第二样本图片;所述第一样本图片表征第一视角下的二维骨架图片;所述第二样本图片表征第二视角下的二维骨架图片;

步骤102:根据所述第一样本图片、所述第二样本图片和预设约束条件训练人体姿态估计网络,以使所述第一样本图片经所述人体姿态估计网络获得的第一三维特征数据按照预设旋转关系旋转后与所述第二样本图片经所述人体姿态估计网络获得的第二三维特征数据满足所述预设约束条件。

在本发明的一种可选实施例中,所述获得第一样本图片和第二样本图片,包括:分别获得对应于第一视角的第一图片以及对应于第二视角的第二图片;所述第一图片和所述第二图片对应于同一样本目标对象;基于关键点检测网络分别获得所述第一图片的第一二维关键点信息以及所述第二图片的第二二维关键点信息;基于所述第一二维关键点信息生成第一样本图片,基于所述第二二维关键点信息生成第二样本图片。

本实施例中,所述第一样本图片和所述第二样本图片分别通过图像采集设备分别在第一视角和第二视角采集的第一图片和第二图片获得。其中,所述图像采集设备可以是摄像头、照相机等设备,也可以是具有图像采集模组的移动终端,例如手机等。

其中,所述第一视角和所述第二视角分别表示图像采集设备与目标对象之间的相对位置关系。图像采集设备在采集第一图片时与目标对象之间的相对位置关系可通过第一视角表示,图像采集设备在采集第二图片时与目标对象之间的相对位置关系可通过第二视角标识。作为一种示例,以目标对象的正前方对应的直线作为参考,图像采集设备在采集第一图片时,图像采集设备与目标对象之间的连线与正前方对应的直线之间的夹角可作为第一视角;图像采集设备在采集第二图片时,图像采集设备与目标对象之间的连线与正前方对应的直线之间的夹角可作为第二视角。

作为一种示例,以目标对象为中心、与所述目标对象的距离为r的圆形区域设置多个图像采集设备,则可通过多个图像采集设备中的第一图像采集设备采集第一图片,通过多个图像采集设备中的第二图像采集设备(第二图像采集设备不同于第一图像采集设备)采集第二图片。

本实施例中,通过关键点检测网络获得第一图片对应的第一样本图片,以及通过关键点检测网络获得第二图片对应的第二样本图片,其中,所述第一图片和第二图片是对应于同一目标对象、且对应不同视角的二维图片。具体是将第一图片和第二图片分别输入关键点检测网络,获得第一图片对应的第一二维关键点信息以及第二图片对应的第二二维关键点信息;可以理解,通过关键点检测网络分别获得第一图片中的目标对象的关键点的二维坐标,以及获得第二图片中的目标对象的关键点的二维坐标;其中,作为一种示例,所述目标对象的关键点为目标对象的骨骼关键点,例如关节点;当然,其他能够标定目标对象的肢体的关键点也可作为本实施例中的关键点;进一步对第一二维关键点信息中相邻两个二维关键点进行插值处理,获得第一图片对应的二维骨架图片(即第一样本图片);相应的,对第二二维关键点信息中相邻两个二维关键点进行插值处理,获得第二图片对应的二维骨架图片(即第二样本图片)。

实际应用中,所述关键点检测网络可以是回归网络或分类网络。作为一种示例,所述关键点检测网络至少包括卷积层和池化层,通过该关键点检测网络获得图片对应的二维关键点信息。

在本发明的一种可选实施例中,所述根据所述第一样本图片、所述第二样本图片和预设约束条件训练人体姿态估计网络,包括:将所述第一样本图片输入人体姿态估计网络,获得对应于所述第一视角的第一三维特征数据;将所述第一三维特征数据按照预设旋转关系进行旋转,获得对应于所述第二视角的第三三维特征数据;将所述第二样本图片输入参考人体姿态估计网络,获得对应于所述第二视角的第二三维特征数据;所述参考人体姿态估计网络与所述人体姿态估计网络具有相同的网络结构;根据所述第三三维特征数据和所述第二三维特征数据对所述人体姿态估计网络进行训练,以调整所述人体姿态估计网络的网络参数。

其中,在本发明的一种可选实施例中,所述根据所述第三三维特征数据和所述第二三维特征数据对所述人体姿态估计网络进行训练,包括:根据所述第三三维特征数据和所述第二三维特征数据计算损失函数,当所述损失函数不满足所述预设约束条件时,调整所述人体姿态估计网络的网络参数以对所述人体姿态估计网络进行训练,直至所述损失函数满足所述预设约束条件时终止对所述人体姿态估计网络的训练。

本实施例的所述人体姿态估计网络是基于另一人体姿态估计网络(本实施例中称为参考人体姿态估计网络)的中间数据进行相互约束而训练获得。

具体的,图2为本发明实施例的单眼人体姿态估计网络训练方法中的应用示意图;如图2所示,完整的网络模型可包括关键点检测网络和人体姿态估计网络,在对人体姿态估计网络进行训练过程中需要参考人体姿态估计网络进行相互约束,假设图2中的第一行的人体姿态估计网络(φ)为待训练的人体姿态估计网络,第二行的人体姿态估计网络(μ)为参考人体姿态估计网络。

分别将第一视角的第一图片(ii)和第二视角的第二图片(ij)输入关键点检测网络,获得第一图片对应的二维关键点,对获得的二维关键点进行插值处理获得二维骨架图片(vi);以及获得第二图片对应的二维关键点,对获得的二维关键点进行插值处理获得二维骨架图片(vj)。

将二维骨架图片(vi)输入人体姿态估计网络,获得第一三维特征数据(gi);此时第一三维特征数据(gi)是第一视角下的、对应于第一图片(ii)的三维特征;将二维骨架图片(vj)输入参考人体姿态估计网络获得第二三维特征数据(gj),此时,第二三维特征数据(gj)是第一视角下的、对应于第二图片(ij)的三维特征。

对第一三维特征数据(gi)按照旋转参数(如图中所示的ri-j)进行数据处理,获得对应于第二视角下的第三三维特征数据(gij)。其中,所述预设旋转参数(如图中所示的ri-j)基于所述第二视角和所述第一视角之间的差异程度确定。作为一种示例,若第一图片和第二图片的获取方式是以目标对象为中心、与所述目标对象的距离为r的圆形区域均匀设置多个图像采集设备,则可确定每个图像采集设备的位置以及对应的编号,进一步确认任意两个图像采集设备与目标对象的视角差值,根据该视角差值预先确定并配置旋转参数;可以理解,可根据第一图片和第二图片对应的编号从预先配置的多个旋转参数中选择与之匹配的旋转参数,根据该旋转参数对第一三维特征数据(gi)进行旋转处理。实际应用中,旋转参数可通过矩阵实现。

理想情况下,由于二维骨架图片剥离了二维纹理信息,保留的是与人体姿态相关的三维结构信息的共性特征,则获得的第三三维特征数据(gij)应于第二三维特征数据(gj)是一致的。但二维图片并不具有三维结构信息,因此,本实施例中采用弱监督训练方式、通过约束条件约束第三三维特征数据(gij)尽可能的靠近第二三维特征数据(gj),调整所述人体姿态估计网络的网络参数以对所述人体姿态估计网络进行训练。实际应用中,通过上述约束条件设置损失函数的收敛条件,基于预设的损失函数计算方式计算第三三维特征数据(gij)与第二三维特征数据(gj)之间的差异程度,并判断计算得到的差异程度是否满足收敛条件,在不满足收敛条件时,调整所述人体姿态估计网络的网络参数以对所述人体姿态估计网络进行训练;在满足该收敛条件时,终止对所述人体姿态估计网络的训练。

在一实施方式中,用于训练人体姿态估计网络的初始网络模型是用于获得不同视角的二维骨架图片的,称为多视角二维骨架转换器,如图2所示,一种视角的二维骨架图片(vj)输入至多视角二维骨架转换器获得另一视角的二维骨架图片(vj');相应的,另一种视角的二维骨架图片(vj)输入至多视角二维骨架转换器获得一视角的二维骨架图片(vi')。多视角二维骨架转换器中包括用于提取三维特征的编码器结构,这个编码器结构可作为本申请中的人体姿态估计网络,可以理解,所述人体姿态估计网络为多视角二维骨架转换器的部分网络结构,可以理解,通过该人体姿态估计网络输出的三维特征数据可作为该多视角二维骨架转换器的过程数据,也可称为中间数据。本实施例的目的在于对该多视角二维骨架转换器中的用于输出三维特征数据的人体姿态估计网络进行监督训练。

实际应用中,将第一视角的二维骨架图片(vi)输入至该人体姿态估计网络,获得第一三维特征数据(gi);对第一三维特征数据(gi)按照旋转参数(如图中所示的ri-j)进行数据处理,获得对应于第二视角下的第三三维特征数据(gij);将第三三维特征数据(gij)输入多视角二维骨架转换器中的解码器结构(ψ),从而获得对应于第二视角的二维骨架图片(vj')。相应的,通过第二视角的二维骨架图片(vj)获得第一视角的二维骨架图片(vi')的处理方式与上述同理,这里不再赘述。

作为一种实施方式,人体姿态估计网络可通过编码器网络实现。作为一种示例,所述编码器网络可至少包括卷积层、线性整流单元(relu,rectifiedlinearunit)+批归一化(bn,batchnormalization)层、bn层,通过上述编码器网络获得三维特征数据。

采用本发明实施例的技术方案,一方面,通过不同视角下的二维骨架图片作为人体姿态估计网络的训练数据,剥离了二维纹理信息,保留的是与人体姿态相关的三维结构信息的共性特征;另一方面,基于该共性特征(即不同视角下的二维骨架图片)通过弱监督训练方式获得表征人体结构的三维人体结构特征(即第一三维特征数据和第二三维特征数据),以及将获得的三维人体结构特征按照预设约束条件融合到人体姿态估计网络中,在融合过程中获得更多更准确的三维人体结构信息,从而降低网络模型对标注数据的依赖,使得网络模型的精度大幅提升,尤其在大范围人体姿态变化,背景环境、相机视角变化等复杂场景下,仍然取得很高的精度。

本发明实施例还提供了一种图像处理方法。图3为本发明实施例的图像处理方法的流程示意图;如图3所示,所述方法包括:

步骤201:获得待处理图片;所述待处理图片中包括目标对象;

步骤202:基于关键点检测网络获得所述待处理图片的二维关键点信息,基于所述二维关键点信息生成对应于所述目标对象的二维骨架图片;

步骤203:基于所述二维骨架图片和人体姿态估计网络获得所述目标对象对应的目标三维特征数据。

本实施例中,所述人体姿态估计网络的训练过程可参照上述实施例中的具体描述,为节省篇幅,这里不再赘述。

在本发明的一种可选实施例中,所述基于所述待处理图片和所述人体姿态估计网络获得所述目标对象对应的目标三维特征数据,包括:将所述待处理图片输入所述人体姿态估计网络,获得初始三维特征数据;对所述初始三维特征数据进行调整处理,获得目标三维特征数据。

本实施例中,二维骨架图片的获取方式可参照前述实施例中的第一样本图片(或第二样本图片)的获取方式的详细描述,初始三维特征数据的获取方式可参照前述人体姿态估计网络中的三维特征数据的获取方式的详细描述,为节省篇幅,这里不再赘述。

本实施例中,所述对所述初始三维特征数据进行调整处理具体可以是用于降低数据量的调整处理。例如,初始三维特征数据对应的三维关键点可以有几百个,则通过调整处理后,所获得的目标三维特征数据对应的目标三维关键点可以是十几个。

图4为本发明实施例的图像处理方法中的应用示意图;具体可参照图4所示,输入二维图片至关键点检测网络,该二维图片可以是任意视角的二维图片;通过关键点检测网络获得该输入图片对应的二维关键点,对获得的二维关键点进行插值处理获得二维骨架图片;将该二维骨架图片输入人体姿态估计网络,获得初始三维特征数据(g);进一步通过浅层网络(shallownetwork)对该初始三维特征数据(g)进行微调处理,获得目标三维特征数据。

采用本发明实施例的技术方案,一方面,通过不同视角下的二维骨架图片作为人体姿态估计网络的训练数据,剥离了二维纹理信息,保留的是与人体姿态相关的三维结构信息的共性特征;另一方面,基于该共性特征(即不同视角下的二维骨架图片)通过弱监督训练方式获得表征人体结构的三维人体结构特征(即第一三维特征数据和第二三维特征数据),以及将获得的三维人体结构特征按照预设约束条件融合到人体姿态估计网络中,在融合过程中获得更多更准确的三维人体结构信息,从而降低网络模型对标注数据的依赖,使得网络模型的精度大幅提升,尤其在大范围人体姿态变化,背景环境、相机视角变化等复杂场景下,仍然取得很高的精度。

本发明实施例还提供了一种单眼人体姿态估计网络训练装置;图5为本发明实施例的单眼人体姿态估计网络训练装置的一种组成结构示意图;如图5所示,所述装置包括第一处理单元31和网络训练单元32;其中,

所述第一处理单元31,用于获得第一样本图片和第二样本图片;所述第一样本图片表征第一视角下的二维骨架图片;所述第二样本图片表征第二视角下的二维骨架图片;

所述网络训练单元32,用于根据所述第一处理单元31获得的所述第一样本图片、所述第二样本图片和预设约束条件训练人体姿态估计网络,以使所述第一样本图片经所述人体姿态估计网络获得的第一三维特征数据按照预设旋转关系旋转后与所述第二样本图片经所述人体姿态估计网络获得的第二三维特征数据满足所述预设约束条件。

在本发明的一种可选实施例中,所述网络训练单元32,用于将所述第一样本图片输入人体姿态估计网络,获得对应于所述第一视角的第一三维特征数据;将所述第一三维特征数据按照预设旋转参数进行数据处理,获得对应于所述第二视角的第三三维特征数据;将所述第二样本图片输入参考人体姿态估计网络,获得对应于所述第二视角的第二三维特征数据;所述参考人体姿态估计网络与所述人体姿态估计网络具有相同的网络结构;根据所述第三三维特征数据和所述第二三维特征数据对所述人体姿态估计网络进行训练,以调整所述人体姿态估计网络的网络参数。

在本发明的一种可选实施例中,所述网络训练单元32,用于根据所述第三三维特征数据和所述第二三维特征数据计算损失函数,当所述损失函数不满足所述预设约束条件时,调整所述人体姿态估计网络的网络参数以对所述人体姿态估计网络进行训练,直至所述损失函数满足所述预设约束条件时终止对所述人体姿态估计网络的训练。

在本发明的一种可选实施例中,所述网络训练单元32,用于基于所述第二视角和所述第一视角之间的差异程度确定预设旋转参数。

在本发明的一种可选实施例中,所述第一处理单元31,用于分别获得对应于第一视角的第一图片以及对应于第二视角的第二图片;所述第一图片和所述第二图片对应于同一样本目标对象;基于关键点检测网络分别获得所述第一图片的第一二维关键点信息以及所述第二图片的第二二维关键点信息;基于所述第一二维关键点信息生成第一样本图片,基于所述第二二维关键点信息生成第二样本图片。

本发明实施例中,所述装置中的第一处理单元31和网络训练单元32、,在实际应用中均可由中央处理器(cpu,centralprocessingunit)、数字信号处理器(dsp,digitalsignalprocessor)、微控制单元(mcu,microcontrollerunit)或可编程门阵列(fpga,field-programmablegatearray)实现。

需要说明的是:上述实施例提供的单眼人体姿态估计网络训练装置在进行单眼人体姿态估计网络训练时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的单眼人体姿态估计网络训练装置与单眼人体姿态估计网络训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

本发明实施例还提供了一种图像处理装置,图6为本发明实施例的图像处理装置的种组成结构示意图;如图6所示,所述装置包括获取单元33和图像处理单元34;其中,

所述获取单元33,用于获得待处理图片;所述待处理图片中包括目标对象;

所述图像处理单元34,用于基于关键点检测网络获得所述待处理图片的二维关键点信息,基于所述二维关键点信息生成对应于所述目标对象的二维骨架图片;基于所述二维骨架图片和人体姿态估计网络获得所述目标对象对应的目标三维特征数据。

本实施例中,所述人体姿态估计网络可基于本发明实施例的单眼人体姿态估计网络训练装置训练获得,这里不再赘述。

在本发明的一种可选实施例中,所述图像处理单元34,用于将所述二维骨架图片输入所述人体姿态估计网络,获得初始三维特征数据;对所述初始三维特征数据进行调整处理,获得目标三维特征数据。

本发明实施例中,所述装置中的获取单元33和图像处理单元34,在实际应用中均可由cpu、dsp、mcu或fpga实现。

需要说明的是:上述实施例提供的图像处理装置在进行图像处理时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

本发明实施例还提供了一种处理装置,图7为本发明实施例的处理装置的硬件组成结构示意图,如图7所示,所述装置包括存储器42、处理器41及存储在存储器42上并可在处理器41上运行的计算机程序,所述处理器41执行所述程序时实现本发明实施例所述单眼人体姿态估计网络训练方法的步骤;或者,所述处理器41执行所述程序时实现本发明实施例所述图像处理方法的步骤。

可以理解,处理装置中的各个组件可通过总线系统43耦合在一起。可理解,总线系统43用于实现这些组件之间的连接通信。总线系统43除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统43。

可以理解,存储器42可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom,readonlymemory)、可编程只读存储器(prom,programmableread-onlymemory)、可擦除可编程只读存储器(eprom,erasableprogrammableread-onlymemory)、电可擦除可编程只读存储器(eeprom,electricallyerasableprogrammableread-onlymemory)、磁性随机存取存储器(fram,ferromagneticrandomaccessmemory)、快闪存储器(flashmemory)、磁表面存储器、光盘、或只读光盘(cd-rom,compactdiscread-onlymemory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram,randomaccessmemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram,staticrandomaccessmemory)、同步静态随机存取存储器(ssram,synchronousstaticrandomaccessmemory)、动态随机存取存储器(dram,dynamicrandomaccessmemory)、同步动态随机存取存储器(sdram,synchronousdynamicrandomaccessmemory)、双倍数据速率同步动态随机存取存储器(ddrsdram,doubledataratesynchronousdynamicrandomaccessmemory)、增强型同步动态随机存取存储器(esdram,enhancedsynchronousdynamicrandomaccessmemory)、同步连接动态随机存取存储器(sldram,synclinkdynamicrandomaccessmemory)、直接内存总线随机存取存储器(drram,directrambusrandomaccessmemory)。本发明实施例描述的存储器42旨在包括但不限于这些和任意其它适合类型的存储器。

上述本发明实施例揭示的方法可以应用于处理器41中,或者由处理器41实现。处理器41可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器、dsp,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器41可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器42,处理器41读取存储器42中的信息,结合其硬件完成前述方法的步骤。

在示例性实施例中,单眼人体姿态估计网络训练装置可以被一个或多个应用专用集成电路(asic,applicationspecificintegratedcircuit)、dsp、可编程逻辑器件(pld,programmablelogicdevice)、复杂可编程逻辑器件(cpld,complexprogrammablelogicdevice)、fpga、通用处理器、控制器、mcu、微处理器(microprocessor)、或其他电子元件实现,用于执行前述方法。

本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所述单眼人体姿态估计网络训练方法的步骤;或者,该程序被处理器执行时实现本发明实施例所述图像处理方法的步骤。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1