面向虚拟服装走秀的三维人体姿态估计方法

文档序号:34015186发布日期:2023-04-30 00:01阅读:48来源:国知局
面向虚拟服装走秀的三维人体姿态估计方法

本发明涉及一种三维人体姿态估计技术,特别涉及一种面向虚拟服装走秀的三维人体姿态估计方法。


背景技术:

1、服装走秀逐渐走向虚拟化。传统的虚拟服装走秀方法主要分为动画仿真和特效制作两种:动画仿真需要专业的美工人员设计走秀动作,动画制作周期长且效果单一;特效制作需有真人模特参与,很难实现真正意义上的虚拟服装秀,同时该方法实现服装走秀需要投入大量的人力物力,耗费大量资金。

2、三维人体姿态估计作为计算机视觉的重要组成部分,随着深度学习的发展已经被广泛应用于各种领域,如增强现实、人机交互等。如果可以将三维人体姿态估计技术应用于虚拟服装走秀领域,通过模特服装走秀视频驱动虚拟人物模型实现走秀则可以在节省大量资源的同时实现服装走秀动作的多样化和虚拟化。

3、当前基于图像的三维人体姿态估计方法主要分为单阶段模式和两阶段模式。单阶段模式直接以rgb图像作为输入,从图像中提取人体主要关节点信息,回归出人体三维姿态。但此类方法由于缺少有监督训练,容易受背景、光照等因素影响,精度和泛化能力较差。两阶段模式首先利用二维人体姿态估计网络对输入的rgb图片进行二维人体姿态估计,得到人体主要关节点的二维坐标,然后以二维骨架作为输入通过构建的神经网络进行三维姿态回归。由于两阶段模式针对二维人体姿态估计网络进行有监督的训练,因此网络整体泛化能力较好。但三维回归的精度往往会依赖二维人体姿态估计的精度。结合服装走秀过程的复杂性,现有两阶段模式的三维人体姿态估计方法无法很好实现基于三维人体姿态估计的虚拟服装走秀。


技术实现思路

1、针对三维人体姿态估计在虚拟服装走秀场景中精度缺失问题,提出了一种面向虚拟服装走秀的三维人体姿态估计方法,实现三维人体姿态精确估计,满足虚拟走秀场景需要。

2、本发明的技术方案为:一种面向虚拟服装走秀的三维人体姿态估计方法,具体包括如下步骤:

3、1)图像数据获取:将单人场景下的模特走秀视频处理为一帧一帧的图片,获取输入视频的图像数据;

4、2)图像预处理:使用改进的卡尔曼滤波优化人体运动状态,减小因为视频图像中人体衣物遮挡和自遮挡造成的人体关节点预测偏差,实现图像预处理;

5、3)构建并训练二维人体姿态估计网络模型,将预处理后图像送入训练后二维人体姿态估计网络模型获得二维姿态估计;

6、其中二维人体姿态估计网络模型结构:包括hrnet-w32的高分辨率二维人体姿态估计网络的前三阶层,其中的第一阶层中的bottleneck模块和第二、三阶层中的basicblock模块卷积核由金字塔分割注意力模块替换,弥补去除hrnet-w32网络第四阶层造成的精度损失;

7、其中二维人体姿态估计网络模型训练:针对该网络模型,使用公开数据集c0c02017进行训练,在进行训练之前需对coco2017数据集中的图片进行预处理,将图片大小固定为256×192,学习率设置为0.001,训练周期设置为210,使用平均精度指标作为二维姿态估计的评价标准;

8、4)构建并训练三维人体姿态回归网络模型构建,将二维姿态估计输入训练后三维人体姿态回归网络模型进行三维姿态的回归;

9、其中三维人体姿态回归网络模型为一个基于残差连接和注意力机制的图卷积网络,使用图卷积结合语义信息学习二维人体姿态中隐含的先验边的信道加权,同时将其与核矩阵相结合,提高图卷积的能力;将人体骨架看作一张图结构数据,在图卷积堆叠过程中使用残差连接来消除过平滑问题;使用注意力机制通过全局上下文获取不同关键点之间局部和全局的上下文信息,同时解决在三维人体姿态估计中的遮挡和深度模糊问题;

10、其中三维人体姿态回归网络模型训练:以human 3.6m数据集中的s1、s5、s6、s7和s8作为训练集对三维人体姿态回归网络进行训练,使用s9和s11作为验证集验证效果;以网络预测得到的三维关节点坐标与真实标签人体关节点坐标之间的欧式距离作为最终三维人体姿态估计结果的评价标准,验证三维人体姿态估计的效果。

11、进一步,所述步骤2)改进的卡尔曼滤波优化人体运动状态具体方法:人体在三维空间各个轴线上的运动是贝塞尔曲线,在每个轴线上的运动近似为匀加速或减速运动,对当前位置的预测通过前三个位置的状态结合加速度的变化得到;

12、卡尔曼滤波优化:首先要获取前三个状态xk-1、xk-2、xk-3的值,通过前三个状态预测当前状态:其中为预测位置、为观测位置、kk为卡尔曼增益。

13、进一步,所述步骤3)中金字塔分割注意力模块由spc模块和se weight模块组成,spc模块对注意力通道进行分割,针对每个通道特征图像上的空间信息进行多尺度特征提取;se weight模块用于提取不同尺度特征图像的通道注意力,从而得到其在各个尺度上的通道注意力向量;之后利用softmax对多尺度注意力向量进行特征重标定,得到新的多尺度交互的注意力权重,然后对重新校准的注意力权重和对应的特征图按元素进行点成操作,最终输出一个对多尺度信息表示能力更丰富的特征图,实现更细粒度的多尺度特征信息的提取和融合,提高网络精度。

14、进一步,所述步骤3)二维人体姿态估计网络最后一阶层输出3种不同大小的特征图,使用自适应空间特征融合算法,在网络的最后阶段融合多尺度特征,选取尺寸和通道数作为特征融合标准进行自适应空间特征融合,融合后的输出进行1×1卷积得到最终输出。

15、进一步,所述步骤4)为避免二维姿态估计网络输出的人体关节点热力图在进行三维回归时特征信息丢失,造成网络模型性能下降,将二维姿态的关节点估计为热力图中所有位置的积分,并根据概率加权求和作归一化,具体计算公式如下:

16、

17、

18、其中p为域中存在的位置;q为与位置相关的像素点;nk为转换后的关节点;mk为热图;为正则化后的热图;ω是mk的域。

19、本发明的有益效果在于:本发明面向虚拟服装走秀的三维人体姿态估计方法,以原始二维人体姿态估计网络hrnet-w32为基础,剔除了网络中信息冗余严重的第四阶段,同时使用金字塔分割注意力模块替换原始网络中bottleneck模块和basicblock模块中的3×3卷积,实现更高效的多尺度信息提取,之后在输出阶段使用自适应空间特征融合策略将各层特征进行融合后输出,更充分地获取高层特征的语义信息,以此来弥补第四阶段剔除后造成的低分辨率下特征提取的缺失问题,最终实现二维人体姿态的精确计算。由二维姿态进行三维回归时,本发明首先对二维姿态估计网络输出的关节点热力图进行积分回归,避免使用热力图进行三维回归时造成特征信息丢失;同时使用图卷积结合语义信息克服卷积滤波器被限制在每个节点单步邻域内运行,卷积核感受野始终为1,网络信息交换率严重低下的问题;最后在三维回归部分引入非局部层(non-local)捕获节点之间局部和全局的关系,提高三维人体姿态回归的性能。



技术特征:

1.一种面向虚拟服装走秀的三维人体姿态估计方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述面向虚拟服装走秀的三维人体姿态估计方法,其特征在于,所述步骤2)改进的卡尔曼滤波优化人体运动状态具体方法:人体在三维空间各个轴线上的运动是贝塞尔曲线,在每个轴线上的运动近似为匀加速或减速运动,对当前位置的预测通过前三个位置的状态结合加速度的变化得到;

3.根据权利要求1所述面向虚拟服装走秀的三维人体姿态估计方法,其特征在于,所述步骤3)中金字塔分割注意力模块由spc模块和se weight模块组成,spc模块对注意力通道进行分割,针对每个通道特征图像上的空间信息进行多尺度特征提取;se weight模块用于提取不同尺度特征图像的通道注意力,从而得到其在各个尺度上的通道注意力向量;之后利用softmax对多尺度注意力向量进行特征重标定,得到新的多尺度交互的注意力权重,然后对重新校准的注意力权重和对应的特征图按元素进行点成操作,最终输出一个对多尺度信息表示能力更丰富的特征图,实现更细粒度的多尺度特征信息的提取和融合,提高网络精度。

4.根据权利要求3所述面向虚拟服装走秀的三维人体姿态估计方法,其特征在于,所述步骤3)二维人体姿态估计网络最后一阶层输出3种不同大小的特征图,使用自适应空间特征融合算法,在网络的最后阶段融合多尺度特征,选取尺寸和通道数作为特征融合标准进行自适应空间特征融合,融合后的输出进行1×1卷积得到最终输出。

5.根据权利要求1所述面向虚拟服装走秀的三维人体姿态估计方法,其特征在于,所述步骤4)为避免二维姿态估计网络输出的人体关节点热力图在进行三维回归时特征信息丢失,造成网络模型性能下降,将二维姿态的关节点估计为热力图中所有位置的积分,并根据概率加权求和作归一化,具体计算公式如下:


技术总结
本发明涉及一种面向虚拟服装走秀的三维人体姿态估计方法,使用改进的卡尔曼滤波对输入图像进行预处理;设计一种基于HRNet‑W32的高分辨率二维人体姿态估计网络,使用二维标准数据集对该网络进行训练,利用其估计三维数据集中RGB图像对应的二维人体姿态;构建一个基于残差连接和注意力机制,同时结合语义信息的图卷积三维回归网络,以二维人体姿态估计网络估计的人体姿态作为输入,以对应的三维人体姿态实际值为标签,对三维回归网络进行训练;串联两个训练好的网络最终得到三维人体姿态估计模型。同其它三维人体姿态估计方法相比,在三维标准数据集上,本发明实现了更为精确的三维人体姿态估计。

技术研发人员:李耿,张朋,袁可欣,丁鹏飞,张洁
受保护的技术使用者:东华大学
技术研发日:
技术公布日:2024/1/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1