一种用于智能机器人的数据处理方法及装置与流程

文档序号：12677306阅读：196来源：国知局

本发明涉及机器人技术领域，具体地说，涉及一种用于智能机器人的数据处理方法及装置。

背景技术：

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。提高智能机器人的交互水平，改善用户与机器人的交互体验，成为本领域技术人员亟需解决的技术问题。

技术实现要素：

为解决上述问题，本发明提供了一种用于智能机器人的数据处理方法，其包括：

多模态输入数据获取步骤，获取交互环境中的多模态输入数据；

多模态输入数据处理步骤，对所述多模态输入数据中的音频信息进行声源定位，得到声源定位结果，对所述多模态输入数据进行解析，得到情感信息；

指令生成步骤，根据所述声源定位结果生成视线转移指令，根据所述情感信息生成表情输出指令，并将所述视线转移指令和表情输出指令传输至下位机中的面部载体。

根据本发明的一个实施例，所述面部载体包括能够显示多种面部图形的显示屏，所述方法还包括：

反馈信息输出步骤，根据所述视线转移指令在所述显示屏中显示注视对应方向的眼睛图形，并根据所述表情输出指令显示对应形状的面部图形。

根据本发明的一个实施例，所述面部载体包括能够显示眼睛图形的显示屏，所述方法还包括：

反馈信息输出步骤，根据所述视线转移指令在所述显示屏中显示注视对应方向的眼睛图形，并根据所述表情输出指令调整所述眼睛图形的形状。

根据本发明的一个实施例，所述面部载体包括面部模拟部件，所述方法还包括：

反馈信息输出步骤，根据所述视线转移指令调整所述面部模拟部件的朝向，并根据所述表情输出指令调整所述面部模拟部件中眼部指示灯的亮灭状态。

本发明还提供了一种用于智能机器人的数据处理装置，其包括：

多模态输入数据获取模块，其用于获取交互环境中的多模态输入数据；

多模态输入数据处理模块，其用于对所述多模态输入数据中的音频信息进行声源定位，得到声源定位结果，对所述多模态输入数据进行解析，得到情感信息；

指令生成模块，其用于根据所述声源定位结果生成视线转移指令，根据所述情感信息生成表情输出指令，并将所述视线转移指令和表情输出指令传输至下位机中的面部载体。

根据本发明的一个实施例，所述面部载体包括能够显示多种面部图形的显示屏，所述装置还包括：

反馈信息输出模块，其用于根据所述视线转移指令在所述显示屏中显示注视对应方向的眼睛图形，并根据所述表情输出指令显示对应形状的面部图形。

根据本发明的一个实施例，所述面部载体包括能够显示眼睛图形的显示屏，所述装置还包括：

反馈信息输出模块，其用于根据所述视线转移指令在所述显示屏中显示注视对应方向的眼睛图形，并根据所述表情输出指令调整所述眼睛图形的形状。

根据本发明的一个实施例，所述面部载体包括面部模拟部件，所述装置还包括：

反馈信息输出模块，其用于根据所述视线转移指令调整所述面部模拟部件的朝向，并根据所述表情输出指令调整所述面部模拟部件中眼部指示灯的亮灭状态。

本发明所提供的用于智能机器人的数据处理方法能够使得智能机器人主动将视线转移到交互场景中的敏感方向，并且根据获取到的语音信息来自动地呈现出相应的表情，这样也就使得智能机器人的行为更加类人化，从而提高了智能机器人的用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要的附图做简单的介绍：

图1是根据本发明一个实施例的用于智能机器人的数据处理方法的实现流程示意图；

图2是根据本发明另一个实施例的用于智能机器人的数据处理方法的实现流程示意图；

图3是根据本发明再一个实施例的用于智能机器人的数据处理方法的实现流程示意图；

图4是根据本发明又一个实施例的用于智能机器人的数据处理方法的实现流程示意图；

图5是根据本发明一个实施例的用于智能机器人的数据处理装置的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

同时，在以下说明中，出于解释的目的而阐述了许多具体细节，以提供对本发明实施例的彻底理解。然而，对本领域的技术人员来说显而易见的是，本发明可以不用这里的具体细节或者所描述的特定方式来实施。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

现有的智能机器人在与用户进行交互的过程中，通常只是简单地获取用户所输入的音频信息或是获取关于用户的图像信息，这使得智能机器人表现得较为机械、呆板。

针对现有技术中所存在的上述问题，本发明提供了一种新的用于智能机器人的数据处理方法，该方法能够使得智能机器人主动地视线转移到交互场景中的敏感方向，并且根据获取到的语音信息来自动地呈现出相应的表情。

为了更加清楚地阐述本发明所提供的用于智能机器人的数据处理方法的实现原理、实现流程以及优点，以下分别结合不同的实施例来对该方法作进一步地说明。

实施例一：

图1示出了本实施例所提供的用于智能机器人的数据处理方法的实现流程示意图。

如图1所示，本实施例所提供的数据处理方法首先在步骤S101中获取交互环境中的多模态输入数据。本实施例中，该方法在步骤S101中所获取到的交互环境中的多模态输入数据包括音频信息。需要指出的是，在本发明的其他实施例中，根据实际交互场景，该方法在步骤S101中所获取到的多模态输入数据中还可以包含其他合理数据(例如图像数据或场景数据等)，本发明不限于此。

在得到多模态输入数据后，该方法会在步骤S102中对上述多模态输入数据中的音频信息进行声源定位，从而得到声源定位结果。

如图1所示，在得到声源定位结果后，该方法还会在步骤S103中对上述步骤S101中所获取到的多模态输入数据进行解析，从而得到情感信息。需要指出的是，本实施例中，根据步骤S101中所获取到的多模态输入数据中所包含的交互信息的具体形式的不同，该方法在步骤S103中可以采用多种不同的方式来对分别上述各种不同的交互信息进行解析，从而得到情感信息。

例如，对于步骤S101中所获取到的多模态输入数据中所包含的音频信息，该方法在步骤S103中可以通过对上述音频信息进行语音识别、语义识别和/或语音情绪识别来确定情感信息。

由于周围环境的光线强弱并不会对音频的监测过程产生干扰，而如果用户处于黑暗环境下时，监测用户的面部图像和/或肢体动作就需要配备专用设备(例如红外摄像头)以及特定的处理软件，因此本实施例所提供的通过音频信息确定用户的情感信息的方法更加容易实现，其实现成本也较低，同时也能够保证确定出的用户情绪的准确度。

而对于步骤S101中所获取到的多模态输入数据中所包含的图像信息，该方法在步骤S103中则可以通过对上述图像信息进行人脸识别来确定出人脸所表征的情绪，从而得到用户的情感信息。

需要指出的是，在本发明的其他实施例中，上述步骤S102与步骤S103还可以采用其他合理的执行顺序，本发明不限于此。如图1所示，在得到声源定位结果和情感信息后，该方法会在步骤S104中根据步骤S102中所得到的声源定位结果来生成相应的视线转移指令，并根据步骤S103中所得到的情感信息来生成相应的表情输出指令。

在分别得到视线转移指令和情感信息后，该方法会在步骤S105中将上述视线转移指令和表情输出指令作为控制指令发送至下位机的面部载体，以由下位机的面部载体来对上述视线转移指令和表情输出指令进行响应。

实施例二：

图2示出了本实施例所提供的用于智能机器人的数据处理方法的实现流程示意图。

如图2所示，本实施例所提供的数据处理方法首先在步骤S201中获取交互环境中的多模态输入数据。在得到交互环境中的多模态输入数据后，该方法会在步骤S202中对上述步骤S201中所获取到的多模态输入数据中的音频信息进行声源定位，从而得到声源定位结果。此外，该方法还会在步骤S203中对上述步骤S201中所获取到的多模态输入数据进行解析，从而得到情感信息。

在得到声源定位结果和情感信息后，该方法会在步骤S204中根据步骤S202中所得到的声源定位结果来生成相应的视线转移指令，并根据步骤S203中所得到的情感信息来生成相应的表情输出指令。在分别得到视线转移指令和情感信息后，该方法会在步骤S205中将上述视线转移指令和表情输出指令作为控制指令发送至下位机的面部载体。

需要指出的是，本实施例中，上述步骤S201至步骤S205的实现原理以及实现过程与上述实施例一中步骤S101至步骤S105的实现原理以及实现过程类似，故在此不再对上述步骤S201至步骤S205的相关内容进行赘述。

本实施例中，下位机的面部载体包括能够显示多种面部图形(例如眼睛图形、鼻子图像以及嘴巴图形等)的显示屏。如图2所示，本实施例中，该方法会在步骤S206中根据上述视线转移指令在显示屏中显示注视对应方向的眼睛图像。此外，该方法还会在步骤S207中根据上述表情输出指令显示出对应形状的面部图像。

例如，用户在智能机器人的左侧发出了诸如“你真棒”的声音，那么该方法将会控制下位机将显示的面部图形的视线朝向该用户并显示出“笑脸”的面部图形。

需要指出的是，本发明并不对上述步骤S206和步骤S207的执行顺序进行限定，在本发明的不同实施例中，该方法既可以先执行上述步骤S206再执行步骤S207，也可以先执行步骤S207再执行步骤S206，还可以同时执行步骤S206和步骤S207，本发明不限于此。

实施例三：

图3示出了本实施例所提供的用于智能机器人的数据处理方法的实现流程示意图。

如图3所示，本实施例所提供的数据处理方法首先在步骤S301中获取交互环境中的多模态输入数据。在得到交互环境中的多模态输入数据后，该方法会在步骤S302中对上述步骤S301中所获取到的多模态输入数据中的音频信息进行声源定位，从而得到生源地定位结果。此外，该方法还会在步骤S303中对上述步骤S301中所获取到的多模态输入数据进行解析，从而得到情感信息。

在得到声源定位结果和情感信息后，该方法会在步骤S304中根据步骤S302中所得到的声源定位结果来生成相应的视线转移指令，并根据步骤S303中所得到的情感信息来生成相应的表情输出指令。在分别得到视线转移指令和情感信息后，该方法会在步骤S305中将上述视线转移指令和表情输出指令作为控制指令发送至下位机的面部载体。

需要指出的是，本实施例中，上述步骤S301至步骤S305的实现原理以及实现过程与上述实施例一中步骤S101至步骤S105的实现原理以及实现过程类似，故在此不再对上述步骤S301至步骤S305的相关内容进行赘述。

下位机的面部载体包括能够显示眼睛图形的显示屏。如图3所示，本实施例中，该方法会在步骤S306中根据上述视线转移指令在显示屏中显示注视对应方向的眼睛图形。此外，该方法还会在步骤S307中根据上述表情输出指令调整上述眼睛图形的形状，以通过所显示出的眼睛图形的形状来表征出相应的情绪。

需要指出的是，本发明并不对上述步骤S306和步骤S307的执行顺序进行限定，在本发明的不同实施例中，该方法既可以先执行上述步骤S306再执行步骤S307，也可以先执行步骤S307再执行步骤S306，还可以同时执行步骤S306和步骤S307，本发明不限于此。

实施例四：

图4示出了本实施例所提供的用于智能机器人的数据处理方法的实现流程示意图。

如图4所示，本实施例所提供的数据处理方法首先在步骤S401中获取交互环境中的多模态输入数据。在得到交互环境中的多模态输入数据后，该方法会在步骤S402中对上述步骤S401中所获取到的多模态输入数据中的音频信息进行声源定位，从而得到生源地定位结果。此外，该方法还会在步骤S403中对上述步骤S401中所获取到的多模态输入数据进行解析，从而得到情感信息。

在得到声源定位结果和情感信息后，该方法会在步骤S404中根据步骤S402中所得到的声源定位结果来生成相应的视线转移指令，并根据步骤S403中所得到的情感信息来生成相应的表情输出指令。在分别得到视线转移指令和情感信息后，该方法会在步骤S405中将上述视线转移指令和表情输出指令作为控制指令发送至下位机的面部载体。

需要指出的是，本实施例中，上述步骤S401至步骤S405的实现原理以及实现过程与上述实施例一中步骤S101至步骤S105的实现原理以及实现过程类似，故在此不再对上述步骤S401至步骤S405的相关内容进行赘述。

本实施例中，下位机的面部载体包括面部模拟部件(例如仿真头部等)，该面部模拟部件能够进行转动。如图4所示，本实施例中，该方法会在步骤S406中根据上述视线转移指令来调整面部模拟部件的朝向，以使得面部模拟部件的视线方向朝向声源方向。此外，该方法还会在步骤S407中根据上述表情输出指令调整面部模拟部件中眼部指示灯的亮灭状态，从而通过眼部指示灯的亮灭状态来表征出相应的情绪。当然，在本发明的其他实施例中，根据实际需要，该方法在步骤S407中还可以根据上述表情输出指令来调整面部模拟部件中对应部件的位置(例如通过调整嘴部各区域的位置来调整嘴部的形状等)来呈现出不同的面部表情。

需要指出的是，本发明并不对上述步骤S406和步骤S407的执行顺序进行限定，在本发明的不同实施例中，该方法既可以先执行上述步骤S406再执行步骤S407，也可以先执行步骤S407再执行步骤S406，还可以同时执行步骤S406和步骤S407，本发明不限于此。

从上述描述中可以看出，本发明所提供的用于智能机器人的数据处理方法能够使得智能机器人主动将视线转移到交互场景中的敏感方向，并且根据获取到的语音信息来自动地呈现出相应的表情，这样也就使得智能机器人的行为更加类人化，从而提高了智能机器人的用户体验。

本发明还提供了一种用于智能机器人的数据处理装置，其中，图5输出了本实施例中该数据处理装置的结构示意图。

如图5所示，本实施例所提供的数据处理装置优选地包括：多模态输入数据获取模块501、多模态输入数据处理模块502以及指令生成模块503。其中，多模态输入数据获取模块501用于获取交互环境中的多模态输入数据。

本实施例中，多模态输入数据获取模块501所获取到的交互环境中的多模态输入数据包括音频信息。需要指出的是，在本发明的其他实施例中，根据实际交互场景，多模态输入数据获取模块501所获取到的多模态输入数据中还可以包含其他合理数据(例如图像数据或场景数据等)，本发明不限于此。

在得到多模态输入数据后，多模态输入数据获取模块501会将上述多模态输入数据传输至与之连接的多模态输入数据处理模块502。多模态输入数据处理模块502会对上述多模态输入数据中的音频信息进行声源定位，从而得到声源定位结果。此外，多模态输入数据处理模块502还对对上述多模态输入数据进行解析，从而得到情感信息。

多模态输入数据处理模块502与指令生成模块503连接，其会自身生成的声源定位结果和情感信息传输至指令生成模块503。本实施例中，指令生成模块503会根据上述声源定位结果来生成视线转移指令，同时，其还会根据上述情感信息生成相应的表情输出指令，并将上述视线转移指令和表情输出指令传输至下位机的面部载体。

如图5所示，本实施例中，该数据处理装置优选地还包括反馈信息输出模块504，其中，反馈信息输出模块504配置在下位机的面部载体中，其能够根据指令生成模块503所传输来的声源定位结合和表情输出指令来输出多模态反馈信息。

需要指出的是，多模态输入数据获取模块501、多模态输入数据处理模块502、指令生成模块503以及反馈信息输出模块504实现其各自功能的原理以及过程既可以与上述实施例二中步骤S201至步骤S207所阐述的内容相同，也可以与上述实施例三中步骤S301至步骤S307所阐述的内容相同，还可以与上述实施例四中步骤S401至步骤S407所阐述的内容相同，故在此不再对多模态输入数据获取模块501、多模态输入数据处理模块502、指令生成模块503以及反馈信息输出模块504的相关内容进行赘述。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构或处理步骤，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然上述示例用于说明本发明在一个或多个应用中的原理，但对于本领域的技术人员来说，在不背离本发明的原理和思想的情况下，明显可以在形式上、用法及实施的细节上作各种修改而不用付出创造性劳动。因此，本发明由所附的权利要求书来限定。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张振宇
技术所有人：北京光年无限科技有限公司
我是此专利的发明人

上一篇：一种焊枪电极帽自动拆卸装置的制作方法
上一篇：一种多层可配置足式攀爬机器人移动控制系统的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、平老师：1.功能涂层设计与应用 2.柔性电子器件设计与应用 3.结构动态参数测试与装置研发 4.智能机电一体化产品研发 5.3D打印工艺与设备
2、潘老师：1.机电一体化装备及其控制技术 2.多传感器信息融合与质量评定
3、王老师：机械制造
4、袁老师：1.薄膜气敏传感器 2.薄膜太阳能电池
5、李老师：新型电力电子技术在微网中的应用
如您是高校老师，可以点此联系我们加入专家库。