一种动作捕捉方法和系统与流程

文档序号:31331848发布日期:2022-08-31 07:18阅读:119来源:国知局
一种动作捕捉方法和系统与流程

1.本技术实施例涉及动作捕捉技术领域,具体涉及一种动作捕捉方法和系统。


背景技术:

2.传统的动作捕捉方法是使用光学动作捕捉或者惯性动作捕捉,用于影视、虚拟主播、游戏等领域。光学捕捉价格高昂,并且对动捕场地有着极高要求,需要在动捕前花大量时间进行动捕场地的搭建和校准标定。另外,动捕人员还需进行动捕时需要穿着特定动捕服饰。价格、安装繁琐、服装要求高都是传统光学动捕难以走向普通消费者的重要阻碍。惯性动作捕捉虽然在价格、安装上相对于光学捕捉有了明显的提升,但对动捕人员依旧有着较高的服装要求,动捕人员需要佩戴一定数量传感器才能顺利进行动作捕捉。惯性动捕由于自身传感器的缺陷,还会存在捕捉精度低的问题。
3.所以,传统动捕方案都无法解决动捕人员对服装的依赖性,并且同时保证动作捕捉的精准度。


技术实现要素:

4.为此,本技术实施例提供一种动作捕捉方法和系统,无需购买成本高昂的传统光学捕捉设备,无需穿戴惯性捕捉的传感器,仅需摄像头即可实现动作捕捉,提高了动作捕捉的泛化能力和精准度。
5.为了实现上述目的,本技术实施例提供如下技术方案:
6.根据本技术实施例的第一方面,提供了一种动作捕捉方法,所述方法包括:
7.采集动捕人员的设定动作图像和待动作捕捉图像;
8.将所述设定动作图像输入校准特征网络中,得到服装形态特征隐变量;
9.将所述服装形态特征隐变量输入动作捕捉网络,以对所述动作捕捉网络进行训练;
10.将所述待动作捕捉图像输入所述动作捕捉网络,得到姿态估计结果。
11.可选地,在采集动捕人员的设定动作图像和待动作捕捉图像时,所述方法还包括:
12.采集动捕人员的随机动作图像;
13.基于动捕人员随机动作图像进行图像和关节旋转对应关系的标注;
14.将标注结果输入所述动作捕捉网络,以训练所述动作捕捉网络。
15.可选地,所述将所述服装形态特征隐变量输入动作捕捉网络,以对所述动作捕捉网络进行训练,包括:
16.将所述服装形态特征隐变量进行线性变换,得到特征图;所述特征图包括动捕人员的服装形态特征和动捕环境的先验信息;
17.将所述特征图输入所述动作捕捉网络进行训练。
18.可选地,所述将所述服装形态特征隐变量进行线性变换,得到特征图,包括:
19.将所述服装形态特征隐变量进行归一化处理;
20.将归一化处理后的结果、所述服装形态特征隐变量的均值和标准差三者相乘,得到所述特征图。
21.可选地,所述将所述设定动作姿势图像输入校准特征网络中,得到服装形态特征隐变量,包括:
22.提取所述设定动作图像中的动捕人员的服装姿体特征;
23.将所述服装姿体特征输入校准特征网络中,得到服装形态特征隐变量。
24.根据本技术实施例的第二方面,提供了一种动作捕捉系统,所述系统包括:
25.图像采集模块,用于采集动捕人员的设定动作图像和待动作捕捉图像;
26.特征校准模块,用于将所述设定动作图像输入校准特征网络中,得到服装形态特征隐变量;
27.动作捕捉模块训练模块,用于将所述服装形态特征隐变量输入动作捕捉网络,以对所述动作捕捉网络进行训练;
28.动作捕捉模块,用于将所述待动作捕捉图像输入所述动作捕捉网络,得到姿态估计结果。
29.可选地,所述系统还包括:
30.所述图像采集模块,还用于采集动捕人员的随机动作图像;
31.微调模块,用于基于动捕人员随机动作图像进行图像和关节旋转对应关系的标注;还用于将标注结果输入所述动作捕捉网络,以训练所述动作捕捉网络。
32.可选地,所述动作捕捉模块训练模块,用于:
33.将所述服装形态特征隐变量进行线性变换,得到特征图;所述特征图包括动捕人员的服装形态特征和动捕环境的先验信息;
34.将所述特征图输入所述动作捕捉网络进行训练。
35.根据本技术实施例的第三方面,提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现上述第一方面所述的方法。
36.根据本技术实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现上述第一方面所述的方法。
37.综上所述,本技术实施例提供了一种动作捕捉方法和系统,通过采集动捕人员的设定动作图像和待动作捕捉图像;将所述设定动作图像输入校准特征网络中,得到服装形态特征隐变量;将所述服装形态特征隐变量输入动作捕捉网络,以对所述动作捕捉网络进行训练;将所述待动作捕捉图像输入所述动作捕捉网络,得到姿态估计结果。高效进行动作捕捉,且提升了动作捕捉的精度。
附图说明
38.为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
39.本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供
熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
40.图1为本技术实施例提供的一种动作捕捉方法流程示意图;
41.图2为本技术实施例提供的动作捕捉实施例示意图;
42.图3为本技术实施例提供的一种动作捕捉系统框图;
43.图4示出了本技术实施例提供的一种电子设备的结构示意图;
44.图5示出了本技术实施例提供的一种计算机可读存储介质的示意图。
具体实施方式
45.以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
46.本技术实施例的目的是降低传统动势捕捉方案的高成本和解决动捕人员对服装的依赖性问题,提供一种基于神经网络多动作校准的图像动作捕捉方法,使得动作捕捉人员无需进行光学动捕的复杂场地搭配、无需穿着特定动作捕捉服装或设备,仅日常穿着和一个摄像头即可实现高精度的动作捕捉,在保证动作捕捉精度的前提下,显著的提高了整个捕捉过程的效率。
47.图1示出了本技术实施例提供的一种动作捕捉方法,所述方法包括:
48.步骤101:采集动捕人员的设定动作图像和待动作捕捉图像;
49.步骤102:将所述设定动作图像输入校准特征网络中,得到服装形态特征隐变量;
50.步骤103:将所述服装形态特征隐变量输入动作捕捉网络,以对所述动作捕捉网络进行训练;
51.步骤104:将所述待动作捕捉图像输入所述动作捕捉网络,得到姿态估计结果。
52.在一种可能的实施方式中,在步骤101在采集动捕人员的设定动作图像和待动作捕捉图像时,所述方法还包括:采集动捕人员的随机动作图像;基于动捕人员随机动作图像进行图像和关节旋转对应关系的标注;将标注结果输入所述动作捕捉网络,以训练所述动作捕捉网络。
53.在一种可能的实施方式中,在步骤102中,所述将所述设定动作姿势图像输入校准特征网络中,得到服装形态特征隐变量,包括:
54.提取所述设定动作图像中的动捕人员的服装姿体特征;将所述服装姿体特征输入校准特征网络中,得到服装形态特征隐变量。
55.在一种可能的实施方式中,在步骤103中,所述将所述服装形态特征隐变量输入动作捕捉网络,以对所述动作捕捉网络进行训练,包括:
56.将所述服装形态特征隐变量进行线性变换,得到特征图;所述特征图包括动捕人员的服装形态特征和动捕环境的先验信息;将所述特征图输入所述动作捕捉网络进行训练。
57.在一种可能的实施方式中,所述将所述服装形态特征隐变量进行线性变换,得到
特征图,包括:将所述服装形态特征隐变量进行归一化处理;将归一化处理后的结果、所述服装形态特征隐变量的均值和标准差三者相乘,得到所述特征图。
58.可以看出,本技术实施例提出的动作捕捉方法首先通过让动捕人员做标准动作姿势用于提取当前动捕人的服饰形态特征隐变量,然后通过将该隐变量作为动作捕捉网络固定层的特征输入部分,用于改变特征的统计量以自动校准动作捕捉网络,适应于当前动捕人员和动捕场景特征。在获得当前动捕人员特征后,该网络实现针对当前动捕人员的更加精确姿态估计,最后驱动控制虚拟角色的身体动作。使得动作捕捉能通过rgb图像采集实现,且提高了整个动作捕捉系统的精准度和鲁棒性,增加了虚拟角色动作捕捉的流畅性和场景的适应性。
59.下面结合附图2对本技术实施例提供的方案进行进一步的解释说明。
60.在采集图像阶段,采集的图像分为三类,分别是:
61.1.采集图像用于特征校准:动作捕捉人员按照指定动作标准进行动作模仿,摄像头将模仿的指定动作进行采集,以提取当前动捕人员的姿体外貌特征用于第二步骤的特征校准。指定动作标准包括:正面t-pose,背身t-pose,左右侧身t-pose,体前手交叉、左右腿高抬腿等10种动作类型。此处标准校准动作由训练数据进行影响力分析无监督计算所得。
62.2.采集图像用于后微调动作捕捉模块:动作动捕网络预测易产生偏移,故采集当前动捕人员复杂随机动作,人工进行k帧处理,用于后微调动作捕捉模块。
63.3.采集图像用于动作捕捉:采集摄像头前人物的姿态动作图像进行实时3d姿态估计,作为动作捕捉模块的输入。
64.其中,第一种和第三种图像需在相同动捕场景下采集,通过第一种图像作为校准特征网络的输入,获得输出特征向量作为校准动作捕捉模块特征层输入后,动捕人员的特殊性以及环境的特殊性在动捕模块中作为先验信息,使后续正式捕捉中动作捕捉模块无需进行连续帧输入,单帧人体图像输入动作捕捉模块得到的输出姿态也不会发生抖动,提高了正式动作捕捉的运算效率,从而实现实时高精度的姿态估计。
65.需要说明的是,本技术实施例中的动捕场景不对动捕人员衣着有特殊要求,无需穿戴传统的动作服饰或动作传感器,不对动捕场景光照、物体摆设有特殊要求。
66.进一步,在特征校准阶段,通过专用于特征校准的卷积神经网络前向传播得到用于描述当前动捕人员的服装姿体的特征隐变量。该隐变量包含当前动捕人员的服装和形体特征,作为姿态估计网络固定层的特征输入,用于校准和自适应当前动捕人员和动捕环境,有效的降低了动捕模块对于泛化动捕人员和动捕场景的要求,使得动作捕捉模块可更专注于动作姿态的3d估计方向的泛化,通过解耦动作姿态和动捕服装动捕环境,提高了整个动作捕捉的泛化能力和动作捕捉的精准度。
67.所述校准特征网络在进行正式姿态估计(动作捕捉网络)之前只运行一次,得到的特征隐变量对应当前的动捕人员穿着和当前动捕环境,随后进行正式姿态估计时该特征隐变量始终作为姿态估计网络的特征层输入,无需重新采集新的图像用于再校准。由于校准只运行一次,故该校准特征网络的计算资源在整体计算资源的统计中可忽略不计,从而提高了整体运行效率,实现实时动作捕捉。
68.校准特征模块通过与动作捕捉模块联合训练,在数据标记过程中无需进行当前动捕人员的姿体外貌特征、动捕环境特征的显性标记描述。这里数据标记指的是整体训练时
候用的大量的“图像、关节旋转对应关系”,后面的人工标记指的是用于微调训练时用的极少量“图像、关节旋转对应关系”。
69.该训练方式充分利用神经网络的特征学习能力,通过系统设计间接解决环境描述的维度灾难问题和数据标注复杂问题,降低了动作捕捉的标注成本。
70.进一步,动作捕捉网络的微调阶段,为人工标记动捕人员复杂姿势的对应姿态标签,用于解决部分动作动捕网络预测易产生偏移,进行动作捕捉模块的微调训练。
71.有些动作太过复杂,需要标注了之后再微调训练,才能使得网络能处理这些复杂的动作。动作动捕网络预测易产生偏移,故采集当前动捕人员复杂随机动作,人工进行k帧处理。可以理解为人工处理极少部分的复杂数据后,再训练网络。k帧处理指的是人工标注“图像、关节旋转对应关系”。进行该步骤之后对于复杂动作动捕效果提升明显,有效地通过极小化人工参与实现影视级别的图像动作捕捉效果。
72.进一步,在动作捕捉阶段,根据采集的待动作捕捉的图像,捕捉出对应的姿态动作。动作捕捉模块受动捕人员特征校准模块提取的特征隐变量影响,自动校准到当前动捕人员及捕捉环境,以实现更高精度的专用动捕网络。
73.将校准特征结果作为动作捕捉模块的特征层的额外输入,改变特征层的统计量。然后将用于动作捕捉的图像作为动作捕捉模块的输入,输出动作捕捉的结果。该步骤通过结合校准特征,解耦动作姿态和动捕服装动捕环境,动作捕捉模块只要专注解决动作捕捉问题,使得动作捕捉模块自动化校准到每一位外貌衣着不同的动捕人员及不同的动作捕捉环境,从而提高了整个动作捕捉系统的精准度和鲁棒性。
74.所述动作捕捉模块输入包括采集图像和校准特征,输出为3d姿态估计骨骼旋转四元数。校准特征在该动作捕捉模块中作为恒定输入,不随输入采集图像变化,通过adain模块实现。adain是动作捕捉网络组成的一部分,它实现了将校准特征网络的输出,转换成动作捕捉网络的输入。
75.adain模块输入是上一层卷积网络的输出特征图、经过当前adain模块的线性变换校准特征均值方差,输出为新的特征图。adain模块首先将输入的特征图进行归一化,归一化为均值为0,标准差为1的新特征图,随后与由校准特征获得的均值和标准差相乘,得到的特征图包含了当前动捕人员的姿体外貌特征、当前动捕环境的先验信息,作为下一卷积层的输入。
76.通过校准特征动作捕捉模块降低了对姿体外貌特征、动捕环境特征的解耦压力,从而更专注于动作估计核心任务,实现了动捕系统泛化能力的拆分和聚合,提高了系统整体的动捕精度、运算效率、泛化能力。可运用在虚拟主播、vr游戏、影视拍摄等多个动作捕捉场景。
77.一旦动捕环境或者动捕人员更改,则需要从第一步重新进行动作捕捉。
78.综上所述,本技术实施例提供了一种动作捕捉方法,通过采集动捕人员的设定动作图像和待动作捕捉图像;将所述设定动作图像输入校准特征网络中,得到服装形态特征隐变量;将所述服装形态特征隐变量输入动作捕捉网络,以对所述动作捕捉网络进行训练;将所述待动作捕捉图像输入所述动作捕捉网络,得到姿态估计结果。高效进行动作捕捉,且提升了动作捕捉的精度。
79.基于相同的技术构思,本技术实施例还提供了一种动作捕捉系统,如图3所示,所
述系统包括:
80.图像采集模块301,用于采集动捕人员的设定动作图像和待动作捕捉图像;
81.特征校准模块302,用于将所述设定动作图像输入校准特征网络中,得到服装形态特征隐变量;
82.动作捕捉模块训练模块303,用于将所述服装形态特征隐变量输入动作捕捉网络,以对所述动作捕捉网络进行训练;
83.动作捕捉模块304,用于将所述待动作捕捉图像输入所述动作捕捉网络,得到姿态估计结果。
84.在一种可能的实施方式中,所述系统还包括:所述图像采集模块301,还用于采集动捕人员的随机动作图像;
85.微调模块,用于基于动捕人员随机动作图像进行图像和关节旋转对应关系的标注;还用于将标注结果输入所述动作捕捉网络,以训练所述动作捕捉网络。
86.在一种可能的实施方式中,所述动作捕捉模块训练模块303,用于:
87.将所述服装形态特征隐变量进行线性变换,得到特征图;所述特征图包括动捕人员的服装形态特征和动捕环境的先验信息;将所述特征图输入所述动作捕捉网络进行训练。
88.本技术实施方式还提供一种与前述实施方式所提供的方法对应的电子设备。请参考图4,其示出了本技术的一些实施方式所提供的一种电子设备的示意图。所述电子设备20可以包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本技术前述任一实施方式所提供的方法。
89.其中,存储器201可能包含高速随机存取存储器(ram:random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个物理端口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
90.总线202可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本技术实施例任一实施方式揭示的所述方法可以应用于处理器200中,或者由处理器200实现。
91.处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存
储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
92.本技术实施例提供的电子设备与本技术实施例提供的方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
93.本技术实施方式还提供一种与前述实施方式所提供的方法对应的计算机可读存储介质,请参考图5,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的方法。
94.需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
95.本技术的上述实施例提供的计算机可读存储介质与本技术实施例提供的方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
96.需要说明的是:
97.在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本技术也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本技术的内容,并且上面对特定语言所做的描述是为了披露本技术的最佳实施方式。
98.在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本技术的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
99.类似地,应当理解,为了精简本技术并帮助理解各个发明方面中的一个或多个,在上面对本技术的示例性实施例的描述中,本技术的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本技术要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本技术的单独实施例。
100.本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
101.此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本技术的
范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
102.本技术的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本技术实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本技术还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本技术的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
103.应该注意的是上述实施例对本技术进行说明而不是对本技术进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本技术可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
104.以上所述,仅为本技术较佳的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1