基于图像的识别与重建的人机交互方法和使用该方法的系统及装置与流程

文档序号：21550296发布日期：2020-07-21 10:54阅读：141来源：国知局

本专利申请要求2018年10月10日提交的第62743682号美国临时专利申请的优先权，并通过引用将其包括在内。

本发明涉及图像捕捉、识别与重建技术领域，尤其涉及一种基于图像的识别与重建的人机交互方法和使用该方法的系统及装置。

背景技术：

随着信息识别技术的不断发展，各种交互式机器设备不断出现，并逐步丰富了人们的精神文化生活。

然而现有的交互式机器设备在对现实场景进行识别时，仅仅是对场景中的人脸表情和姿态进行简单的模拟，即现有的交互式机器设备与真实场景之间的互动仅为简单的模拟、模仿，而无法对场景中的信息进行识别以匹配相应的交互内容，致使现有技术中的交互式机器设备的互动程度低。

有鉴于此，确有必要提供一种新的基于图像的识别与重建的人机交互方法，以解决上述问题。

技术实现要素：

本发明的目的在于提供一种基于图像的识别与重建的人机交互方法和使用该方法的系统及装置，该人机交互方法可对视频序列中的图像和语音信息进行识别并重建模型，以建立交互数据库；进一步通过识别显示场景中的图像、运动或声音信息调用并匹配交互数据库中的模型，实现机器人与显示场景之间的互动。

为实现上述发明目的，本发明提供了一种基于图像的识别与重建的人机交互方法，包括：

s1、采集标准用户的标准视频序列，将所述标准视频序列进行表征和解调，获取并定义该标准视频序列的对应的运动模型和语音模型；

s2、按照标准视频序列的时序，分别提取所述运动模型和语音模型中的运动特征信息和语音特征信息；

s3、检测目标用户的个性视频序列，按照个性视频序列的时序对其进行表征，分别获取目标用户的运动个性信息和语音个性信息；

s4、同时对运动特征信息和运动个性信息、语音特征信息和语音个性信息进行匹配，以调用相应的运动模型和语音模型直接/间接的控制机器人进行显示和/或运动，实现目标用户与机器人之间的交互。

作为本发明的进一步改进，所述步骤s1具体包括：

s11、采集标准用户的标准视频序列，并对所述标准视频序列进行解析，获取标准视频序列对应的标准图像序列和标准语音序列，所述标准图像序列包括若干按时序排列的标准图像帧；

s12、对每一所述标准图像帧进行表征和解调，同时定义标准图像帧中的若干关键点，并在每个所述标准图像帧中对所述关键点进行标记；

s13、根据不同标准图像帧中各个所述关键点在二维平面内的坐标变化，确定各个所述关键点的位移轨迹；

s14、根据不同标准图像帧中各个所述关键点在三维空间内的角度变化，确定各个所述关键点的转动轨迹；

s15、按照标准视频序列的时序，对各个所述关键点的位移轨迹和转动轨迹进行匹配，以构建所述标准视频序列对应的运动模型；

s16、按照标准视频序列的时序对所述标准语音序列进行表征和解调，定义标准语音序列在每一时序中的音频标志，并将所述音频标志与对应时序的标准图像帧进行匹配，以构建所述标准视频序列对应的语音模型。

作为本发明的进一步改进，所述运动模型包括表情模型和动作模型，所述表情模型用于重建机器人的面部图像并控制机器人产生相应的表情变化；所述动作模型用于控制机器人产生相应的动作/姿态变化。

作为本发明的进一步改进，所述步骤s2具体为：按照标准视频序列的时序，提取所述运动模型的运动特征信息和所述语音模型的语音特征信息，所述运动特征信息用于控制机器人产生对应的交互动作；所述运动特征信息包括肢体运动特征点、肢体运动单元、面部表情特征点以及表情运动单元，所述语音特征信息用于控制机器人产生对应的交互声音；所述语音特征信息包括语气、声调以及音素随时序变化的声学信号特征。

作为本发明的进一步改进，所述人机交互方法还包括数据库的建立，所述数据库的建立至少包括运动模型与机器人之间结构数据框架的搭建、语音模型与机器人之间结构数据框架的搭建，且所述运动模型和语音模型均存储在所述数据库中。

为实现上述发明目的，本发明提供了一种基于图像的识别与重建的人机交互系统，包括：

视频采集处理单元，包括视频采集模块和视频处理模块，所述视频采集模块用于采集标准用户的标准视频序列和目标用户的个性视频序列；所述视频处理模块用于对所述标准视频序列和个性视频序列进行表征和解调；

运动控制单元，与所述视频采集处理单元电性连接，包括运动轨迹提取模块和运动状态拟合模块，所述运动轨迹提取模块用于获取标准视频序列中各个关键点的位移轨迹和转动轨迹；所述运动状态拟合模块用于构建所述标准视频序列对应的运动模型；

语音合成单元，分别与所述视频采集处理单元和运动控制单元电性连接，包括语音提取模块和音频重建模块，所述语音提取模块用于按照标准视频序列的时序提取标准视频序列中的音频信息；所述音频重建模块用于按照标准视频序列的时序重建语音模型；

特征点匹配单元，分别与所述视频采集处理单元、运动控制单元以及语音合成单元电性连接，所述特征点匹配单元包括运动特征匹配模块和语音特征匹配模块，所述运动特征匹配模块用于将目标用户的运动个性信息与运动模型进行匹配，以产生相应的运动控制指令；所述语音特征匹配模块用于将目标用户的语音个性信息与语音模型进行匹配，以产生相应的语音控制指令；

行为执行单元，与所述特征点匹配单元电性连接，用于接收所述特征点匹配单元发出的运动控制指令和/或语音控制指令，以与目标用户进行交互。

作为本发明的进一步改进，所述运动控制单元还包括表情重建模组，所述表情重建模组包括表情拟合模块和表情驱动模块，所述表情拟合模块用于根据标准视频序列中的各个关键点拟合重建机器人的面部表情模型；所述表情驱动模块用于根据标准视频序列中的各个关键点的位移轨迹驱动面部表情模型产生相应的表情。

作为本发明的进一步改进，所述人机交互系统还包括存储单元，所述存储单元分别与所述运动控制单元和语音合成单元电性连接，以存储运动模型、语音模型以及面部表情模型。

为实现上述发明目的，本发明还提供了一种基于图像的识别与重建的交互式装置，所述基于图像的识别与重建的交互式装置为机器人，所述机器人包括主体、与所述主体活动连接的头部以及连接在所述主体上的躯干部，其特征在于：所述机器人还包括视频采集模组，用于采集标准用户的标准视频序列和目标用户的个性视频序列，并对所述标准视频序列和个性视频序列进行表征和解调；

模型重建模组，用于根据标准视频序列构建运动模型和语音模型；

数据处理模组，用于将运动模型和语音模型与所述个性视频序列进行匹配，并产生相应的控制指令，以控制机器人进行相应的显示/动作。

为实现上述发明目的，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在被处理器执行时，可实现前述的基于图像的识别与重建的人机交互方法。

本发明的有益效果是：本发明的基于图像的识别与重建的人机交互方法可对现实场景/视频中的视频序列进行采集并解析，以根据采集、解析到的数据重建机器人的运动模型和语音模型，进一步的为每个运动模型和语音模型匹配控制数据，构建交互信息与控制数据之间的结构数据框架，当机器人检测到现实场景中的交互信息后，机器人可在交互信息和控制数据的匹配控制下完成与现实场景中人物的互动，实现人机交互。

附图说明

图1是本发明基于图像的识别与重建的人机交互方法的流程图。

图2是图1中步骤s1的流程图。

图3是本发明基于图像的识别与重建的人机交互系统的模块示意图。

图4是图3中运动控制单元的模块示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

请参阅图1所示，为本发明的一种基于图像的识别与重建的人机交互方法100，包括：

s1、采集标准用户的标准视频序列，将所述标准视频序列进行表征和解调，获取并定义该标准视频序列的对应的运动模型和语音模型；

s2、按照标准视频序列的时序，分别提取所述运动模型和语音模型中的运动特征信息和语音特征信息；

s3、检测目标用户的个性视频序列，按照个性视频序列的时序对其进行表征，分别获取目标用户的运动个性信息和语音个性信息；

以下说明书部分将对基于图像的识别与重建的人机交互方法100进行详细说明。

请参阅图2所示，步骤s1具体包括：

s12、对每一所述标准图像帧进行表征和解调，同时定义标准图像帧中的若干关键点，并在每个所述标准图像帧中对所述关键点进行标记；

s13、根据不同标准图像帧中各个所述关键点在二维平面内的坐标变化，确定各个所述关键点的位移轨迹；

s14、根据不同标准图像帧中各个所述关键点在三维空间内的角度变化，确定各个所述关键点的转动轨迹；

s15、按照标准视频序列的时序，对各个所述关键点的位移轨迹和转动轨迹进行匹配，以构建所述标准视频序列对应的运动模型；

步骤s1主要由图像采集单元执行，且图像采集单元包括图像采集装置和图像解析装置。进一步的，在步骤s11中，标准图像序列主要通过图像采集装置进行采集，以用于获取/拍摄标准用户的局部/整体的标准图像序列，其中标准图像序列可为图像采集装置直接获取，也可为自网络或视频中截取的部分视频信息。进一步的，标准图像序列由若干按照时序排列的标准图像帧组合获得，图像解析装置可按照时序对若干标准图像帧进行表征、调解，以捕捉每个标准图像帧中的运动信息节点及语音信息节点，并按照时序将运动信息节点拟合为标准图像序列、将语音信息节点拟合为标准语音序列。

在步骤s12中，图像解析装置将对每一标准图像帧进行表征和解调，以定义标准图像帧中的若干关键点，并在每个所述标准图像帧中对关键点进行标记，具体来讲，在本发明中，关键点包括标准图像帧中关节/肌肉运动节点，眼睛、口鼻、眉毛、面部轮廓等图像点。

在步骤s13～s15中，图像解析装置还用于根据不同标准图像帧中各个关键点在二维平面/三维空间内的坐标变化和角度变化，确定各个关键点的位移轨迹和转动轨迹；并根据关键点、位移轨迹和转动轨迹以构建标准视频序列对应的运动模型。

在本发明中，运动模型包括表情模型和动作模型，表情模型用于重建机器人的面部图像并控制机器人产生相应的表情变化。具体来讲，表情模型通过图像渲染装置重建获得，在本发明的一个实施例中，图像渲染装置被配置成检测标准用户的面部的关键点，图像渲染装置可用于定义标准用户的面部矩形，并在面部矩形中给定关键点的初始标志位置，并进一步通过显示形状递归法拟合获取标准用户的表情模型，以控制机器人产生相应的面部情绪表达；在本发明中，表情模型可为3d真实的人脸模型还可为卡通图像模型。

动作模型用于控制机器人产生相应的动作/姿态变化，以下说明书部分将以动作模型为标准用户的头部动作模型为例进行举例说明。具体来讲，头部动作模型的建立主要通过动作构建装置拟合获取，在本发明中，动作构建装置用于接收标准图像帧中各个关键点在三维空间内的角度变化，其中关键点在三维空间内的角度变化至少包括俯仰角变化和偏航角变化。

具体来讲，当标准图像序列中涉及人脸的头部转动时，不同标准图像帧中人脸的关键点之间的相对位置将随头部的转动发生变化，动作构建装置用于获取头部关键点在第一时序内的位置信息，建立标准用户头部的三维坐标，然后通过头部关键点在后续时序中的位置变化，拟合获取头部在三维空间的偏航角数值和俯仰角数值；进一步的，动作构建装置还可同时定义标准用户的头部在三维坐标中各个坐标轴方向上的运动速度，以最终拟合获取标准用户头部动作模型。最后，动作构建装置按照标准视频序列的时序将标准用户的头部的表情模型和头部动作模型进行拟合，以定义标准用户的头部运动模型，其中头部运动模型的定义至少包括运动模型的含义及相应的控制结构数据框架。

所述步骤s2具体为：按照标准视频序列的时序，提取所述运动模型的运动特征信息和语音模型的语音特征信息。运动特征信息用于控制机器人产生对应的交互动作；在本发明中，运动特征信息包括肢体运动特征点、肢体运动单元、面部表情特征点以及表情运动单元，且运动特征信息至少部分包括运动模型的关键点，以匹配动作交互信息和运动模型，以在检测到交互信息后调用相应的运动模型，并控制机器人根据运动特征信息产生相应的动作。

语音特征信息用于控制机器人产生对应的交互声音；具体来讲，语音特征信息包括语气、声调以及音素随时序变化的声学信号特征，语音特征信息至少部分包含在语音序列的音频标志中，以匹配语音交互信息和语音模型，其中语音交互信息为按照时序排列的语音交互信息点，当语音交互信息点和按照时序排列的音频标志匹配后，语音交互信息可调用相应的语音模型，并通过机器人按照书序进行播放，并匹配相应的运动模型。

步骤s3具体为：检测目标用户的个性视频序列，按照个性视频序列的时序对其进行表征，分别获取目标用户的运动个性信息和语音个性信息。具体来讲，个性视频序列通过图像采集装置采集获取，且在本发明中，个性视频序列可为图像采集装置实时采集获取的图像信息或录制的视频信息。进一步的，图像解析装置可对个性视频序列进行表征，以将个性视频序列分解成运动个性信息和语音个性信息，其中运动个性信息包括用于标记和显示目标用户的动作特征的个性动作特征点，且在本发明中，运动个性信息包括表情个性信息和动作个性信息；语音个性信息用于标记和显示目标用户的语音特征的个性语音特征点。进一步的，运动个性信息和语音个性信息均可作为交互信息与运动模型和语音模型进行匹配。

步骤s4具体为：同时对运动特征信息和运动个性信息、语音特征信息和语音个性信息进行匹配，以调用相应的运动模型和语音模型直接/间接的控制机器人进行显示和/或运动，实现目标用户与机器人之间的交互。具体来讲，在本发明中，运动特征信息和运动个性信息的匹配具体为运动特征信息中的肢体运动特征点、肢体运动单元、面部表情特征点以及表情运动单元与运动个性信息中的个性动作特征点之间的匹配；语音特征信息和语音个性信息之间的匹配为声学信号特征与个性语音特征点之间的匹配。

需要说明的是，本发明的基于图像的识别与重建的人机交互方法100还包括数据库的建立，数据库的建立至少包括运动模型与机器人之间结构数据框架的搭建、语音模型与机器人之间结构数据框架的搭建，结构数据框架的搭建可方便个性视频序列和标准视频序列之间的匹配。结构数据框架中还包括分别与每个运动模型和语音模型匹配的控制数据，控制数据可用于根据个性视频序列调用相应的运动模型和/或语音模型，以驱动机器人产生相应的交互，进一步的，在本发明中数据库还用于存储运动模型和语音模型。

请参阅图3所示，本发明还提供了一种基于图像的识别与重建的人机交互系统200，包括：视频采集处理单元1、运动控制单元2、语音合成单元3、特征点匹配单元4以及行为执行单元5。

具体来讲，视频采集处理单元1包括视频采集模块11和视频处理模块12，视频采集模块11用于采集标准用户的标准视频序列和目标用户的个性视频序列；视频处理模块12用于对标准视频序列和个性视频序列进行表征和解调，以分离标准视频序列和个性视频序列中的图像信息和语音信息，并按照时序进行排列以构成用于定义机器人运动的标准图像序列和标准语音序列，以及用于识别匹配的个性图像序列和个性语音序列。

请参阅图4并结合图3所示，运动控制单元2与视频采集处理单元1电性连接，包括运动轨迹提取模块21和运动状态拟合模块22，运动轨迹提取模块21用于获取标准视频序列中各个关键点的位移轨迹和转动轨迹；运动状态拟合模块22用于构建所述标准视频序列对应的运动模型。

进一步的，运动控制单元2还包括表情重建模组23，表情重建模组23包括表情拟合模块231和表情驱动模块232，表情拟合模块231用于根据标准视频序列中的各个关键点拟合重建机器人的面部表情模型；表情驱动模块232用于根据标准视频序列中的各个关键点的位移轨迹驱动面部表情模型产生相应的表情。

语音合成单元3与视频采集处理单元1电性连接，包括语音提取模块31和音频重建模块32，语音提取模块31用于按照标准视频序列的时序提取标准语音序列中的音频信息；音频重建模块32用于按照标准视频序列的时序重建语音模型。

特征点匹配单元4分别与视频采集处理单元1、运动控制单元2以及语音合成单元3电性连接，包括运动特征匹配模块41和语音特征匹配模块42，运动特征匹配模块41用于将目标用户的运动个性信息与运动模型进行匹配，以产生相应的运动控制指令；语音特征匹配42模块用于将目标用户的语音个性信息与语音模型进行匹配，以产生相应的语音控制指令。需要说明的是，在本发明中，运动控制指令和语音控制指令均为结构数据框架中的一部分，以构建基于图像的识别与重建的人机交互系统200进行交互时所需的控制模型。

行为执行单元5与特征点匹配单元4电性连接，用于接收特征点匹配单元4发出的运动控制指令和/或语音控制指令，以与目标用户进行交互。进一步的，行为执行单元5还用于控制机器人的运动，具体来讲，行为执行单元5可将运动控制指令进行分类，并至少将运动控制指令分为表情控制指令和动作控制指令，其中表情控制指令用于通过结构数据框架控制机器人产生相应的表情变化；动作控制指令用于通过结构数据框架控制机器人的头部/躯干部产生相应的动作。

进一步的，基于图像的识别与重建的人机交互系统200还包括存储单元6，存储单元6分别与运动控制单元2、语音合成单元3以及特征点匹配单元4电性连接，以存储动作模型、语音模型以及面部表情模型，且特征点匹配单元4可对存储在存储单元6中的数据进行匹配、调用。

本发明还提供一种基于图像的识别与重建的交互式装置，在本发明中，基于图像的识别与重建的交互式装置为机器人，该机器人包括主体、与主体活动连接的头部以及连接在主体上的躯干部，其中，机器人还包括视频采集模组、模型重建模组以及数据处理模组，视频采集模组用于采集标准用户的标准视频序列和目标用户的个性视频序列，并对标准视频序列和个性视频序列进行表征和解调。优选的，在本发明中视频采集模组包括图像采集装置和图像解析装置，且图像采集装置收容在头部内，图像解析装置收容在头部或者躯干部中。

模型重建模组与视频采集模组电性连接并收容在躯干部中，进一步的，模型重建模组用于根据标准视频序列构建运动模型和语音模型。

具体来讲，在本发明中模型重建模组还包括数据库和图形渲染器，数据库用于存储图像采集装置采集的视频序列，视频序列包括标准视频序列和个性视频序列，并对标准视频序列和个性视频序列进行解析，以获取标准视频序列中的关键点和个性视频序列中的个性特征点；图形渲染器用于根据标准视频序列中的关键点渲染生成面部表情模型，需要说明的是，头部设有用于显示播放面部表情模型的显示屏，且在本发明中面部表情模型可为3d人脸表情模型还可为动画表情模型。

数据处理模组用于将运动模型和语音模型与个性视频序列进行匹配，并产生相应的控制指令，以控制机器人进行相应的显示/动作。

本发明的机器人在使用过程中，首先通过视频采集模组采集标准用户的标准视频序列，并通过大数据/机械学习建立运动模型和语音模型，其中，运动模型和语音模型为标准用户在相应时序中连续的信息点拟合获取的时序数据，进一步的，模型重建模组可对运动模型和语音模型进行定义，以固定运动模型和语音模型的含义，且具有相同含义的运动模型和语音模型可同时或单独进行展示/播放。

然后，数据处理模组可对运动模型和语音模型中的标志信息进行提取定义，在本发明中，标志信息至少被分析并重建为三种不同的控制数据，包括用于驱动表情变化的表情标志信息、驱动机器人动作的动作标志信息以及用于驱动机器人发声的语音标志信息，其中，表情标志信息和动作标志信息需按照时序被同时构建成用于控制机器人面部和躯干部运动的运动标志信息；语音标志信息可单独进行播放，即在本发明中语音标志信息既可单独控制机器人发声，也可与运动标志信息拟合控制机器人产生相应的交互动作。

进一步的，视频采集模组可对现实环境中目标用户的个性视频序列进行采集，并对个性视频序列进行解析以获取相应个性运动信息和/或个性语音信息。具体来讲，个性运动信息和/或个性语音信息可在数据处理模组中与尚未分类的标志信息进行匹配，数据处理模组可根据标志信息中的动作发生的位置对标志信息进行分类，以分别控制机器人不同的位置发生变化；主体和躯干部通过若干驱动电机活动连接，驱动电机与数据处理模组电性连接，经数据处理模组分类后的标志信息将分别用于驱动不同位置处的驱动电机进行运动。

最后，视频采集模组采集目标用户的个性视频序列，并对个性视频序列进行解析以提取个性视频序列中的交互信息，在本发明中，交互信息包括运动交互信息和语音交互信息，且当视频采集模组在交互信息中检测到相应的标志信息时，可通过数据处理模组调用标志信息对应的运动模型和语音模型，匹配结束后，数据处理模组可控制机器人主体和躯干部之间的驱动电机按照运动模型进行运动、控制显示屏进行相应的面部表情模型的展示以及控制机器人进行相应的语音模型的播放，完成机器人与目标用户之间的交互。

本发明还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序在被处理器执行时，可实现本发明基于图像的识别与重建的人机交互方法100，即在本发明中，基于图像的识别与重建的人机交互方法100可以计算机程序的形式存储在计算机可读存储介质中。基于上述理解，本发明的技术方案在本质上或者说对现有技术做出贡献的全部或者部分可以以软件产品的形式进行体现，该计算机软件产品存储在一个存储介质中，包括若干指令，以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)或处理器执行本发明各个实施例中的方法的全部或者部分内容，且所述计算机可读存储介质包括u盘、移动硬盘或者光盘等可以存储程序代码的介质。

综上所述，本发明的基于图像的识别与重建的人机交互方法100可对现实场景/视频中的视频序列进行采集并解析，以根据采集、解析到的数据重建机器人的运动模型和语音模型，进一步的为每个运动模型和语音模型匹配控制数据，构建交互信息与控制数据之间的结构数据框架，当机器人检测到现实场景中的交互信息后，机器人可在交互信息和控制数据的匹配控制下完成与现实场景中人物的互动，实现人机交互。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：梅俊峰
技术所有人：合肥虹慧达科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。