基于深度学习的人际交互肢体语言自动生成方法及系统与流程

文档序号：16136993发布日期：2018-12-01 01:07阅读：250来源：国知局

本发明涉及人工智能技术领域，特别是涉及基于深度学习的人际交互肢体语言自动生成方法及系统。

背景技术

演讲是给观众传递信息的最有效方式之一。除了演讲者的演说内容外，在其演讲过程中演讲者的肢体语言对信息传达也十分重要。通常，不同的演讲者在演讲过程中的表达方式有很大不同。其中，手势作为一种视觉感知，与演说一同表达演讲者的思想。在演讲过程中，手势不仅帮助演讲者丰富其语言内容的画面感，帮助传达情绪，有时还能传达言语无法表达的信息(例如，好的站姿和肢体动作能表现一个人的精神面貌与气质，这是语言所无法传达的)。所以，好的肢体语言能帮助演讲者更好的诠释主题。通常，提高演讲水平最有效方法之一是通过专家的反馈和建议来练习，但雇用专家是昂贵的，因此大部分情况下不太实际。

随着大数据和人工智能技术的兴起，人们对多媒体数据的处理能力飞速增长。在演讲领域，人们对演讲的深度分析的需求越来越大，但始终没能得到很好的解决。在此之前，人们进行了很多诸如演讲打分，语音行为分析等一系列研究。但这些研究结果一方面需要人工标注，只能在小批量数据上进行。另一方面，没有给出具体的建议，无论是分数还是一系列的统计信息，都不能直观的给用户明了的建议。

技术实现要素：

为了解决现有技术的不足，本发明提供了基于深度学习的人际交互肢体语言自动生成方法及系统；

本发明第一方面，提供了基于深度学习的人际交互肢体语言自动生成方法；

基于深度学习的人际交互肢体语言自动生成方法，包括：

步骤(1)：从演讲视频中提取每一帧图像所对应时间范围内人物的音频训练特征；同时，从演讲视频中提取每一帧图像内人物的肢体训练特征，建立音频训练特征与肢体训练特征之间的的一一对应关系；

步骤(2)：构建双层循环神经网络模型；将音频训练特征作为双层循环神经网络模型的输入值，将肢体训练特征作为双层循环神经网络模型的输出值，对已构建的双层循环神经网络模型进行训练，得到训练好的双层循环神经网络模型；

步骤(3)：从待推荐肢体动作的音频中提取音频测试特征；

步骤(4)：将音频测试特征输入到训练好的双层循环神经网络模型中，输出推荐的肢体测试特征。

作为本发明的进一步改进，所述从演讲视频中提取每一帧图像所对应时间范围内人物的音频训练特征；是指：

将演讲视频的音频信号均匀划分为长度为秒的语音区间，其中framerate为每秒的帧数；对每个语音区间提取声音强度特征，通过音频信号转为文本，对文本进行分类得到感情类别特征；将声音强度特征和感情类别特征进行特征融合作为音频训练特征。

作为本发明的进一步改进，所述从演讲视频中提取每一帧图像内人物的肢体训练特征；是指：

将演讲视频的视频信号以帧为单位划分为若干帧图像，对每一帧图像使用肢体语言识别系统openpose检测出图像中人物各关节点坐标位置，对各关节点坐标位置进行归一化后，得到每一帧图像的人物关节与关节坐标位置关系矩阵；根据每一帧图像的人物关节与关节坐标位置关系矩阵计算关节夹角的角度，根据关节夹角的角度将当前帧图像映射到预先设定活动状态中最接近的一个状态作为肢体训练特征。

所述关节夹角是指：在头部位置预先设定一个点为头部节点，在颈部位置预先设定一个点为颈部节点，在右肩关节位置预先设定一个点为右肩关节点，在左肩关节位置预先设定一个点为左肩关节点，在右胳膊肘位置预先设定一个点为右肘关节点，在左胳膊肘位置预先设定一个点为左肘关节点，在右手位置预先设定一个点为右手关节点，在左手位置预先设定一个点为左手关节点；

第一个夹角是指：头部节点与颈部节点连线和颈部节点与右肩关节点连线之间的夹角α^h；

第二个夹角是指：颈部节点与右肩关节点连线和右肩关节点与右肘关节点连线之间的身体内侧夹角α^rs；

第三个夹角是指：右肩关节点与右肘关节点连线和右肘关节点与右手关节点连线之间的身体内侧夹角α^re；

第四个夹角是指：颈部节点与左肩关节点连线和左肩关节点与左肘关节点连线之间的身体内侧夹角α^ls；

第五个夹角是指：左肩关节点与左肘关节点连线和左肘关节点与左手关节点连线之间的身体内侧夹角α^le；

预先设定活动状态，包括：第一个夹角设置m个状态，第二个夹角设置n个状态，第三个夹角设置o个状态，第四个夹角设置p个状态，第五个夹角设置q个状态；根据各个夹角的状态的组合，将人物姿态划分为m*n*o*p*q个状态。

例如：第一个夹角设置三个状态：

α^h∈[60°,90°,120°]；

例如：第二个夹角设置四个状态：

α^rs∈[60°,112.5°,157.5°,210°]；

例如：第三个夹角设置五个状态：

α^re∈[90°,135°,180°,225°,270°]；

例如：第四个夹角设置四个状态：

α^ls∈[60°,112.5°,157.5°,210°]；

例如：第五个夹角设置五个状态：

α^le∈[90°,135°,180°,225°,270°]。

这里将人物状态划分为1200种状态。

所述肢体包括上肢和头部。

作为本发明的进一步改进，所述双层循环神经网络模型包括两个嵌套组合循环神经网络：第一循环神经网络和第二循环神经网络；第二循环神经网络在第一循环神经网络内部；第一循环神经网络包括第一编码器和第一解码器；第二循环神经网络包括第二编码器和第二解码器；第一编码器、第二编码器、第二解码器和第一解码器依次串联；第一编码器的输入值为音频训练特征，第一编码器的输出值输入到第二编码器中，第二编码器的输出值输入到第二解码器中，第二解码器的输出值输入到第一解码器中，第一解码器的输出值为肢体训练特征；

作为本发明的进一步改进，所述步骤(2)中，将将音频训练特征作为双层循环神经网络模型的输入值，将肢体训练特征作为双层循环神经网络模型的输出值，对已构建的双层循环神经网络模型进行训练，得到训练好的双层循环神经网络模型，步骤为：

步骤(201)：根据声音强度将音频信号划分为若干个声音行为，划分过程中将声音强度超过设定阈值的连续音频信号视为一个声音行为，将声音强度未超过设定阈值的连续音频信号视为一个声音行为，每个声音行为包括若干个语音区间，每个语音区间都有对应的音频训练特征；将每个声音行为对应的音频训练特征输入到第一编码器中，第一编码器输出每个音频训练特征的隐藏层状态；

第一编码器输出每个音频训练特征的隐藏层状态：

其中，xi,u代表第i个声音行为的第u个语音区间，hi,u指对xi,u编码所得的隐藏层状态，特别的，记最终的隐藏层状态为hi。是第一编码器；ni为第i个声音行为所具有的语音区间个数。

步骤(202)：对于第一编码器输出的每个音频训练特征的隐藏层状态，采用第二编码器进行编码，得到第二编码器的编码结果：

其中表示每个声音行为的隐藏层状态，l0＝0，dh为隐藏层状态的向量空间的维度。第二编码器的最终编码结果记为c。

步骤(203)：将每个声音行为对应的肢体训练特征集合视为肢体动作行为；将第二编码器每次输出的隐藏层状态作为与声音行为对应的肢体动作行为的隐藏层状态；

步骤(203)第二解码器解码输出隐表达oi的条件概率p(oi|fi-1,c)表示为：

其中fi-1为第二解码器的最后一个隐藏层状态输出，当i＝1时，fi-1设置为0，o1…oi-1为之前所有第二解码器解码得到的肢体动作行为的隐表达，c为所有声音行为的隐藏层状态。

步骤(204)：将每一帧图像的肢体训练特征视为肢体动作单元，在得到每个肢体动作行为的隐表达之后，构建肢体动作行为与肢体动作行为包含的每一帧图像的关系，并通过第一解码器将肢体动作单元的隐表达解码为每个语音区间对应的帧的肢体动作特征的预测，选取概率最大的肢体动作作为预测的肢体动作；

步骤(204)预测的概率p(fi,j|gi,j,oi)计算如下，

其中fi,j表示xi,j所对应的预测值,gi,j表示xi,j所对应的真实值，oi为解码出的肢体动作行为的隐表达；

步骤(205)：利用损失函数计算预测的肢体动作特征与肢体训练特征之间的损失值，如果损失值在设定范围内，则表示双层循环神经网络模型训练合格，进入步骤(3)；否则表示双层循环神经网络模型训练不合格，调整双层循环神经网络模型的参数后，返回步骤(201)继续训练，直至损失值在设定范围内，结束。

调整双层循环神经网络模型的参数，例如：gru函数中的wz,wr,wh，uz,ur,uh，以及bz,br,bh。

作为本发明的进一步改进，所述步骤(3)中，从待推荐肢体动作的音频中提取音频测试特征，步骤为：

对待测试音频信号划分为长度为秒的语音区间，其中framerate为每秒的帧数；对每个语音区间提取声音强度特征；将待测试音频信号转为文本，对文本进行分类得到感情类别特征；将声音强度特征和感情类别特征进行特征融合作为音频测试特征。

作为本发明的进一步改进，所述步骤(4)中，根据声音强度将音频信号划分为若干个声音行为，划分过程中将声音强度超过设定阈值的连续音频信号视为一个声音行为，将声音强度未超过设定阈值的连续音频信号视为一个声音行为，每个声音行为包括若干个语音区间，每个语音区间都有对应的音频测试特征；将每个声音行为对应的音频测试特征输入到训练好的双层循环神经网络模型中，输出推荐的肢体测试特征，对肢体测试特征进行展示。

本发明的第二方面，提供了基于深度学习的人际交互肢体语言自动生成系统；

基于深度学习的人际交互肢体语言自动生成系统，包括：

存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

本发明的第三方面，提供了一种计算机可读存储介质；

一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

与现有技术相比，本发明的有益效果是：

1、本发明能够利用数据分析方法以及人工智能技术为演讲者提供更为准确的肢体动作指导，使其能够与演讲内容深度结合，更好的表达交流内容，提高人际沟通的效率。

2、相比现有技术给出评分和各种统计信息的方式，本发明能给出更直观的建议。

3、设计了一个分层网络结构。一方面，网络结构中的单元层通过对声音行为和肢体动作内部连续的语音区间同时进行编码，保证了动作流的连续性。另一方面，网络结构中的序列层对不同的声音行为所产生的肢体动为以及不同肢体动作之间的概率转移关系进行建模，保证了肢体动作的完整性和丰富性。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明的流程图；

图2(a)和图2(b)为肢体动作提取效果图；

图3为模型流程图；

图4为编码器部分示意图；

图5为解码器部分示意图；

图6为声音行为检测示意图；

图7(a)～图7(d)为关节角度示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明第一个实施例，提供了基于深度学习的人际交互肢体语言自动生成方法；

如图1所示，基于深度学习的人际交互肢体语言自动生成方法，包括：

作为本发明的进一步改进，所述从演讲视频中提取每一帧图像所对应时间范围内人物的音频训练特征；是指：

作为本发明的进一步改进，所述从演讲视频中提取每一帧图像内人物的肢体训练特征；是指：

第一个夹角是指：头部节点与颈部节点连线和颈部节点与右肩关节点连线之间的夹角α^h；

第二个夹角是指：颈部节点与右肩关节点连线和右肩关节点与右肘关节点连线之间的身体内侧夹角α^rs；

第三个夹角是指：右肩关节点与右肘关节点连线和右肘关节点与右手关节点连线之间的身体内侧夹角α^re；

第四个夹角是指：颈部节点与左肩关节点连线和左肩关节点与左肘关节点连线之间的身体内侧夹角α^ls；

第五个夹角是指：左肩关节点与左肘关节点连线和左肘关节点与左手关节点连线之间的身体内侧夹角α^le；

如图7(a)～图7(d)所示。例如：第一个夹角设置三个状态：

α^h∈[60°,90°,120°]；

例如：第二个夹角设置四个状态：

α^rs∈[60°,112.5°,157.5°,210°]；

例如：第三个夹角设置五个状态：

α^re∈[90°,135°,180°,225°,270°]；

例如：第四个夹角设置四个状态：

α^ls∈[60°,112.5°,157.5°,210°]；

例如：第五个夹角设置五个状态：

α^le∈[90°,135°,180°,225°,270°]。

这里将人物状态划分为1200种状态。

所述肢体包括上肢和头部。

第一编码器输出每个音频训练特征的隐藏层状态：

步骤(202)：对于第一编码器输出的每个音频训练特征的隐藏层状态，采用第二编码器进行编码，得到第二编码器的编码结果：

其中表示每个声音行为的隐藏层状态，l0＝0，dh为隐藏层状态的向量空间的维度。第二编码器的最终编码结果记为c。

步骤(203)：将每个声音行为对应的肢体训练特征集合视为肢体动作行为；将第二编码器每次输出的隐藏层状态作为与声音行为对应的肢体动作行为的隐藏层状态，第二解码器解码输出隐表达oi的条件概率p(oi|fi-1,c)表示为：

预测的概率p(fi,j|gi,j,oi)计算如下，

其中fi,j表示xi,j所对应的预测值,gi,j表示xi,j所对应的真实值，oi为解码出的肢体动作行为的隐表达；步骤(205)：利用损失函数计算预测的肢体动作特征与肢体训练特征之间的损失值，如果损失值在设定范围内，则表示双层循环神经网络模型训练合格，进入步骤(3)；否则表示双层循环神经网络模型训练不合格，调整双层循环神经网络模型的参数后，返回步骤(201)继续训练，直至损失值在设定范围内结束。

调整双层循环神经网络模型的参数，例如：gru函数中的wz,wr,wh，uz,ur，uh，以及bz,br,bh。

步骤(3)：从待推荐肢体动作的音频中提取音频测试特征；

作为本发明的进一步改进，所述步骤(3)中，从待推荐肢体动作的音频中提取音频测试特征，步骤为：

对待测试音频信号划分为长度为秒的语音区间，其中framerate为每秒的帧数；对每个语音区间提取声音强度特征或声音频率特征；将待测试音频信号转为文本，对文本进行分类得到感情类别特征；将声音强度特征和感情类别特征进行特征融合作为音频测试特征；

步骤(4)：将音频测试特征输入到训练好的双层循环神经网络模型中，输出推荐的肢体测试特征。

根据声音强度将音频信号划分为若干个声音行为，划分过程中将声音强度超过设定阈值的连续音频信号视为一个声音行为，将声音强度未超过设定阈值的连续音频信号视为一个声音行为，每个声音行为包括若干个语音区间，每个语音区间都有对应的音频测试特征；将每个声音行为对应的音频测试特征输入到训练好的双层循环神经网络模型中，输出推荐的肢体测试特征，对肢体测试特征进行展示。

本发明的第二个实施例，提供了基于深度学习的人际交互肢体语言自动生成系统；

基于深度学习的人际交互肢体语言自动生成系统，包括：

存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

本发明的第三个实施例，提供了一种计算机可读存储介质；

一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

本发明提出了一个双层循环编码器-解码器网络来编码语音和手势序列之间的关系以及手势层次结构。最后，当给定语音输入时，用学习出来的网络模型将生成适当的手势，并进行可视化以获得更有效的肢体语言推荐。

本发明一方面构建了大规模的数据库，且不需要人工标注，能在大量的数据中学习到更为准确的概率模型。另一方面，提出了用于分析语音和肢体语言之间关系的分层模型，能更好的模拟人在演讲时的状态。最后，我们将由音频生成的肢体动作可视化，直接展示给用户生成的结果。

在语言交流中，语言被认为是离散单元的有序组织，肢体语言也是如此。我们首先将模型的输入和输出，即音频和肢体动作离散化。通过对语音本身以及各种特征离散化为等长的单元作为语音的语音区间，对视频则将每一帧的肢体特征(见图2(a)和图2(b))作为一个动作语音区间。语音和视频的语音区间在时间轴上是一一对应的。在语义层面，我们将声音(动作)语音区间聚合为完整的声音(肢体动作)，并分析完整的动作之间的概率转移关系。我们通过构建双层循环神经网络，对语音和动作在分别底层和语义层面分析建模，并建立输入和输出之间的映射关系，整个流程如图3所示。一方面我们保证了整个肢体动作的流畅性，另一方面我们确保了手势和手势之间根据输入音频的合理变换。

1.基于语言结构模型的双层循环编码-解码网络包括：单元层面的编码、解码器，以及序列层面的编码、解码器。

我们定义x为视频中提取的语音特征集合，y为视频中检测到的肢体的特征集合。

第一编码器：

为了将数量不同的语音区间分组并统一为等长的声音行为的表示，例如某一个声音行为包含5个语音区间，而另一段较长的声音行为由10个语音区间组成，我们要对这些语音区间进行编码，使用统一长度的表示方法。具体的，我们使用第一编码器进行编码：

其中xi,u代表第i个声音行为的第u个语音区间，ni为第i个声音行为所具有的语音区间个数。hi,u指对xi,u编码所得的隐藏状态，是编码函数.。对于gru函数，具体的，有：

zt＝σg(wzxt+uzht-1+bz),

rt＝σg(wrxt+urht-1+br),

其中σg为sigmoid函数，σh为tanh函数。且有以及我们使用矩阵w来编码输入x，并以ht作为输出的隐藏层状态。

最终，我们取每个声音行为输出的最后一个隐藏层状态作为整个声音行为的表示。此隐藏层状态包含了之前所有输入的信息，可以作为整个声音行为的所有语音区间的语义编码。

第二编码器：

当我们使用离散化的基本音频特征单元将不等长的声音行为表达为等长的特征表示qi之后，我们得到了语义层面上的声音行为(如升高音调，语速加快等)的特征表示序列。对于这个序列，我们要建立不同的声音行为在大量数据下的概率转移关系。于是我们建立了第二层循环神经网络模型，用于对声音行为序列编码并得到整个序列的特定表示，

其中表示每个声音行为的隐层表达，特殊的，l0＝0，dh为隐表达的向量空间的维度。整个编码过程如图4所示。

第二解码器：

当我们得到包含整个声音序列的编码信息的中间表示之后，便要建立声音行为和肢体语言的生成关系。对于整个声音序列的中间隐藏层状态c，我们按照与声音行为的时间区间相同的时间划分方式，将输出y分组，表示为与声音行为相对应的肢体动作行为，构建与第二编码器对应的解码器，并使解码器每次的输出隐藏层状态作为与此声音行为对应的肢体动作行为的隐表达，其概率表示为：

其中fi-1为前一个第一解码器的最后一个隐藏层状态输出，特别的，当i＝1时，fi-1设置为go_id＝0，oi为之前所有解码得到的肢体动作行为的隐表达，c为所有语音行为的中间隐变量。根据这一概率公式，我们便可以使用第二解码器解码出我们想要得到的肢体动作行为的隐表达。

第一解码器：

类似的，得到每个肢体动作行为的隐表达之后，我们便可以构建肢体动作行为与其包含的每一帧的生成关系，并通过单元层解码将肢体动作单元的隐表达解码为每个语音区间对应的帧，具体对应的概率计算如下，

其中fi,j,gi,j分别表示xi,j所对应的预测值和真实值，oi为输入的肢体动作行为的隐表达，整个解码过程如图5所示。

2.模型训练

我们使用交叉熵来作为网络训练的损失函数，并通过梯度下降和反向传播来更新四个gru函数，包括内的参数。其损失函数定义如下：

其中nf为语音(肢体动作)语音区间的个数。

如图6所示，阴影的边界将声音序列划分为若干个声音行为。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：甘甜;马志鑫;宋雪萌;聂礼强
技术所有人：山东大学
我是此专利的发明人

上一篇：一种铁酸钙气凝胶材料制备方法与流程
上一篇：一种可在线更换退火炉内支撑辊的机构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。