一种视角无关的视频三维人体姿态识别方法与流程

文档序号:20953718发布日期:2020-06-02 20:17阅读:323来源:国知局
一种视角无关的视频三维人体姿态识别方法与流程

本发明涉及计算机视觉技术领域中的三维人体姿态识别技术,尤其是涉及一种针对视频任务的未知视角数据合成、模块化神经网络训练及预处理方法,即视角无关的视频三维人体姿态识别方法。



背景技术:

近几十年来,随着人工智能和深度学习有关技术的发展,人体姿态识别这一课题也取得了长足的进步。视频人体姿态识别,特别是针对视频的三维人体姿态识别长期以来一直是计算机视觉和智能人机交互领域的重要内容;它融合了数字图像处理、人机交互、计算机图形学、计算机视觉等多个学科,并伴随着安防监控网络、智能机器人、智能手机、平板电脑等便携式移动电子设备的普及,进一步融入人们的生活。

现有的三维人体姿态识别算法按照预测目标往往可以分为单阶段人体姿态识别和多阶段人体姿态识别:前者一般是指使用rgb或rgb-d图片直接回归得到三维人体关键点位置或参数化模型的参数信息,此类方法优点是利用了图片中更多的隐藏信息,实验室环境下精度较高,但囿于带三维标注的rgb图片数据缺失,无法脱离实验室采集环境,因而泛化能力较差,难以转化为易用性强的产品产生商业价值;后者一般是指分阶段地先估计出二维人体姿态的关键点位置,再估计出三维人体姿态,这类方法的优点在于可以利用人工标注方式通过采集大量互联网无约束图片进行二维人体姿态估计部分的训练,而二维到三维的预测问题也经由martinez等人的论文证明了是一个相对容易完成的任务。本发明为了利于转化总体上沿用了多阶段人体姿态识别的架构,然而在已有较强二维人体关键点检测模型的基础上,现有方法仍会因为受限于三维采集数据的视角缺失,比较容易过拟合到数据集相机参数上。



技术实现要素:

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种视角无关的视频三维人体姿态识别方法,提出虚拟视角合成方法,利用相机视角增强模块生成随机视角,配合相机投影关系获得二维/三维数据元组,用于神经网络多模块训练和泛化能力验证;此外提出利用二维人体姿态检测框的方式归一化三维预测的输入,使得无约束环境下的三维人体姿态估计方法脱离相机内外参限制,因此具有更强的泛化能力。

本发明的目的可以通过以下技术方案来实现:

一种视角无关的视频三维人体姿态识别方法,该识别方法包括:

步骤1:虚拟数据生成阶段:基于任意包含三维标注的人体姿态数据集,合成虚拟相机参数后生成二维/三维数据元组;

步骤2:模型训练阶段:利用生成的二维/三维数据元组分别训练用于获得具有相机视角泛化能力的模型的模块化神经网络第一模块和用于获得能够保护帧间动作连续性的模型的模块化神经网络第二模块;

步骤3:无约束视频推理阶段:对于任意无约束采集得到的视频,通过利用步骤2训练得到的多模块深度神经网络预测得到三维人体姿态识别结果。

进一步地,所述的步骤1具体包括:对于任意包含三维标注的人体姿态数据集,采用相机视角增强模块合成虚拟相机参数,并利用投影关系生成二维/三维数据元组。

进一步地,所述的相机参数包括决定相机位置和朝向的外参和决定相机投影焦距画幅的内参。

进一步地,所述的步骤2中的第一模块使用单帧数据元组进行视角增强的训练。

进一步地,所述的步骤2中的第二模块使用连续序列的数据元组进行时序模型训练。

所述第一模块与所述第二模块只要满足第一模块是一个单帧的二维到三维的预测模块,且第二模块是一个时序的三维到三维的修正模块即可,第一第二模块串联起来完成二维到三维的预测。

进一步地,所述的步骤2与步骤3中,在输入神经网络前,还包括对二维检测结果进行相机无关的二维检测归一化预处理过程,其对应描述公式为:

式中,kx,y表示二维检测归一化预处理后的二维点坐标,表示原二维点坐标,表示二维检测框的中心坐标,wd,hd分别为二维检测框的宽度和高度。

进一步地,所述的步骤3中的无约束采集得到的视频具体包括自然条件采集,或经过缩放、裁剪、变速、和其他颜色调整变换的视频序列。

与现有技术相比,本发明具有以下优点:

(1)本发明提出的视角无关的视频三维人体姿态识别方法,其虚拟数据生成阶段,以假设合理的随机视角取代原有固定视角训练中对数据集采集时使用的相机视角,克服了数据集相机内外参依赖;其模型训练阶段,模块化设计既可以分别训练两个单独模块,也可以串行地对视频流数据元组进行完整训练,两个单独模块的任务目的明确,可单独验证,泛化能力强。

(2)且因为本发明利用了时序模型训练,可以在控制感受野的基础上获得较长时间的预测提示;其无约束视频推理阶段,因有效的归一化框设计和选取,解耦合了投影关系依赖,对于互联网采集的大量缺少相机参数、人物比例极端(往往表现为人物在原始视频内尺度比例过小)、经过裁切等处理的视频都能取得较好的预测效果。

(3)本发明提出了一种视角无关的视频三维人体姿态识别方法,使用大量经过相机视角增强的二维/三维数据元组对多模块神经网络进行训练,同时利用一种相机无关的二维检测归一化方法进行二维输入的预处理;本发明中的第一模块可以适应无约束的三维人体姿态估计任务,获得较强的相机泛化能力,第二模块可以有效利用时间序列上的连续特征,使得预测关键点获得较好的空间稳定性,并使得整个预测达到较为理想的精度。

附图说明

图1为本发明的方法结构流程图;

图2为本发明的方法中的相机参数生成时的旋转(姿态角)控制示意图;

图3为本发明的方法中的第一模块神经网络和第二模块神经网络的结构实例图;

图4为本发明方法中的投影关系示意图;

图5为本发明方法中的二维检测框归一化方法示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

如图1所示为本发明一种视角无关的视频三维人体姿态识别方法的整体结构流程图,主要包括以下三个阶段:虚拟数据生成阶段,模型训练阶段,无约束视频推理阶段,此外还包含一个在训练和推理两阶段均会使用到的相机无关的二维检测归一化方法;

虚拟数据生成阶段:对于任意公开的三维人体姿态学术数据集,或动作捕捉系统采集得到的三维人体姿态数据集,通过本发明提出的相机视角合成原理和投影变换生成对应的二维投影和三维立体姿态数据元组;

模型训练阶段:训练神经网络模型,对于本发明提出的第一模块,使用大规模视角增强单帧数据元组进行训练,获得较好的视角抗性并与相机参数解耦合;对于本发明提出的第二模块,使用包含三维标注的视频流数据进行时序学习与预测,获得时序上的空间连续性,提升姿态识别准确度;

无约束视频推理阶段:对于一般环境下(in-the-wild)获取得到的视频数据流,和基于任意二维人体关键点检测的模块,通过本发明提出的一种特殊的二维人体检测关键点结果的归一化方法进行预处理,处理后的二维数据依次通过第一、第二模块前向预测,得到基于三维关键点表示的人体姿态。

本发明所提及人体姿态数据表示方法主要为关键点-骨骼表示法;本发明提出的第一模块主要用于提升视角泛化能力,第二模块主要用于获得时序预测具有更大感受野和良好稳定性的特性。本发明所描述的场景包括但不限于涉及视频人体姿态识别的研究和应用。本发明基于模块化神经网络组合训练方法,有效提高三维人体姿态识别的泛化能力。

其中,虚拟数据生成阶段的方法进程,适用范围包括但不限于公开的学术数据集、动作捕捉系统采集数据集等,只要有三维标注和相机参数(即只要存在二维/三维投影关系)均适用。

模型训练阶段与无约束视频推理阶段各自的方法进程中定义的第一、第二模块,其实现不限于本发明说明书中举例实现,凡适用于基于单帧二维人体检测预测三维人体姿态的、和基于时序模型预测连续序列三维人体姿态的神经网络等,均可替代本发明所指代的第一、第二模块。

无约束视频推理阶段的方法进程,适用于无约束视频,即自然条件采集,或经过包括但不限于缩放、裁剪、变速、和其他颜色调整变换的视频序列。

模型训练阶段和无约束视频推理阶段中作为特殊预处理阶段的归一化方法,均适用于无约束视频:即便人物和相机的相对投影位置关系被破坏,只要有可检出的二维人体关键点结果或检测模块,本发明所述的方法均适用。

进一步地,本发明方法中各阶段的具体流程细节如下:

本发明提出的视角无关的视频三维人体姿态识别方法中,所述虚拟数据生成阶段进一步包括:对于已有三维人体姿态数据的数据集,通过设计合理的随机方案生成若干不同的相机参数,包括决定相机位置和朝向的外参和决定相机投影焦距画幅的内参。在随机参数的基础上不断利用投影关系,为三维人体数据生成不同相机参数下的对应二维人体数据,进而获得二维/三维人体姿态数据元组;对于视频数据集,还应考虑视频序列内被观测人体的运动范围,依据运动轨迹获得合理的内参,使得投影视锥尽可能包含三维人体关键点的运动点集。

本发明提出的视角无关的视频三维人体姿态识别方法中,所述模型训练阶段进一步包括:分模块的神经网络训练。即对于第一模块,既可以使用单帧、也可以使用连续、但主要是使用单帧数据元组进行视角增强的训练,以获得具有相机视角泛化能力的模型;对于第二模块,主要使用连续序列的数据元组进行时序模型训练,以获得能够保护帧间动作连续性的模型。需要注意:一般地,对于rgb视频输入,第一模块可以理解为一个二维到三维的回归问题,第二模块是一个时序连续三维到时序连续三维的回归问题;对于rgb-d视频输入,额外的深度纬度可以同时增加至第一、第二模块。

本发明提出的视角无关的视频三维人体姿态识别方法中,所述无约束视频推理阶段进一步包括:先经由任意已知二维人体关键点检测方法得到二维检出结果,接着使用本发明所述相机无关的二维检测归一化方法进行数据预处理,再顺次经由本发明所述第一、第二模块前向推理,得到视频序列对应的三维人体姿态估计结果。

本发明提出的视角无关的视频三维人体姿态识别方法中,所述相机无关的二维检测归一化方法进一步包括:使用二维人体关键点检出框(或乘以适当系数)作为归一化标准,对二维人体关键点输入进行归一化,此种归一化方法具有较好的相机抗性,对因图片局部缩放、裁切等带来的投影关系丢失、破坏具有较好的抗性。

以下结合具体实施例,对本发明所提出的此种视角无关的视频三维人体姿态识别方法作具体说明。

在本发明方法的第一阶段,虚拟数据生成阶段:首先依据现有三维人体姿态数据集,如human3.6m这一公开学术数据集,针对每一段视频的三维人体世界坐标生成一个相机参数随机配置,该配置会依据被观测人体身高、活动范围设定相机位置和旋转角度,如:以人物活动范围在地平面投影的均值为中心点、以人物身高的0.75为观测球心、以人物身高的0.5倍为高斯半径,随机确定一点作为相机光轴方向的经过点o;以4.0米到6.5米内的均匀分布随机选取相机距离o点欧式距离,相机姿态角如图2所示,固定roll(rotateoncamera’sdirectionvector相机摄像方向上的旋转)角不动,随机在-15度到+15度之间生成pitch(rotateonthecrossproductoftheothercamera’supanddirectionvectors相机横向方向上的旋转)角,随机在0度到+360度之间生成yaw(rotateoncamera’supvector相机竖直方向上的旋转)角;因human3.6m数据集自带相机内参,此处可暂不做内参生成。每次采样时都重新随机生成上述取值,并利用投影关系得到二维/三维人体姿态数据元组。

在本发明的第二阶段,模型训练阶段:对于第一模块(camera-agnosticregressor)采用随机单帧数据元组进行训练,本实现采用基于深度神经网络的带有残差连接的两次迭代回归模型,依据二维人体姿态关键点回归得到三维人体姿态关键点,具有相机无关、强视角泛化的特性;对于第二模块(temporalregressor)基于时序上的空洞卷积模型进行改进,设计一个三维姿态修正网络,用于利用空洞卷积方法可以扩大感受野的特性增加时序上三维预测结果的空间连续性,起到补偿第一模块预测结果的作用。训练过程的两部分监督所用损失函数如下所示。

式中,l为总损失,分别为第一模块和第二模块各自的权重,分别为第一模块和第二模块各自的损失。

在本发明的第三阶段,无约束视频推理阶段:对于任意无约束条件采集得到的视频,在已有二维检测结果的基础上,利用本发明第二阶段训练收敛得到的多模块深度神经网络,顺次预测得到三维人体姿态结果。本举例所述第一、第二模块的实现,以及推理过程如图3,图3中的single-frame和multi-frame分别表示单张和多张二维框架。

在本发明的第二、第三阶段所使用的前述相机无关的二维检测归一化方法:如图4所示,图4中的principalpoint和opticalpoint分别表示投影前后的二维检测框中心点,一般情况下的投影关系和传统方法使用原图画幅像素尺寸或原图外接正方形尺寸作为归一化标准的方法,其计算函数如下所示:

可见其依赖相机参数(焦距)并且其等价形式也依赖原图尺寸,缺少裁剪等变换抗性。本发明提出的归一化方法如图5所示,具体计算函数如下所示,具有可以保持二维检出大小稳定、且与相机参数无关的特点:

式中,kx,y表示二维检测归一化预处理后的二维点坐标,表示原二维点坐标,表示二维检测框的中心坐标,m大于1,本实施例取1.2,wd,hd分别为二维检测框的宽度和高度。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1