一种用于智能机器人的人机交互方法及装置与流程

文档序号：12128373阅读：221来源：国知局

本发明涉及机器人技术领域，具体地说，涉及一种用于智能机器人的人机交互方法及装置。

背景技术：

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。

在人机交互过程中，用户对智能机器人的交互需求日益增多，需要智能机器人不断提高自身的交互能力，实现与用户的多方面交互，满足用户的多种多样的用户需求。

技术实现要素：

为解决上述问题，本发明提供了一种用于智能机器人的人机交互方法，其包括：

交互信息获取步骤，获取用户输入的多模态交互信息；

情感信息生成步骤，对所述多模态交互信息进行解析生成用户情感参量；

数据输出步骤，根据所述用户情感参量生成与所述用户情感参量匹配的音乐，结合所述音乐生成多模态输出数据并输出。

根据本发明的一个实施例，在所述数据输出步骤中，还生成对应于所述多模态交互信息的反馈信息，并将所述音乐作为所述反馈信息的背景音进行输出。

根据本发明的一个实施例，在所述数据输出步骤中，根据所述用户情感参量生成与所述用户情感参量匹配的音乐，具体包括：

根据所述用户情感参量确定当前情感场景；

获取与所述当前情感场景相对应的音乐。

根据本发明的一个实施例，在所述情感信息生成步骤中，利用预设情感引擎来根据所述多模态交互信息生成所述用户情感参量。

根据本发明的一个实施例，所述多模态交互信息包括以下所列项中的任一项或几项：

图像信息、语音信息和文本信息。

本发明还提供了一种用于智能机器人的人机交互装置，其包括：

交互信息获取模块，其用于获取用户输入的多模态交互信息；

情感信息生成模块，其用于对所述多模态交互信息进行解析生成用户情感参量；

数据输出模块，其用于根据所述用户情感参量生成与所述用户情感参量匹配的音乐，结合所述音乐生成多模态输出数据并输出。

根据本发明的一个实施例，所述数据输出模块配置为还生成对应于所述多模态交互信息的反馈信息，并将所述音乐作为所述反馈信息的背景音进行输出。

根据本发明的一个实施例，所述数据输出模块根据所述用户情感参量生成与所述用户情感参量匹配的音乐，具体包括：

根据所述用户情感参量确定当前情感场景；

获取与所述当前情感场景相对应的音乐。

根据本发明的一个实施例，所述情感信息生成模块配置为利用预设情感引擎来根据所述多模态交互信息生成所述用户情感参量。

根据本发明的一个实施例，所述多模态交互信息包括以下所列项中的任一项或几项：

图像信息、语音信息和文本信息。

本发明所提供的用于智能机器人的人机交互方法能够在播放响应多模态输出数据的同时，输出与用户当前情绪相匹配的音乐，从而使得用户感知到智能机器人能够真正地理解用户当前的情境与情绪，并在理解用户当前情境与情绪的基础上有趣地给予反馈，进而极大地满足了用户对智能机器人的情感需求，这也使得智能机器人更加人性化。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要的附图做简单的介绍：

图1是根据本发明一个实施例的用于智能机器人的人机交互方法的实现流程图；

图2是根据本发明另一个实施例的用于智能机器人的人机交互方法的实现流程图；

图3是根据本发明一个实施例的用于智能机器人的人机交互装置的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

同时，在以下说明中，出于解释的目的而阐述了许多具体细节，以提供对本发明实施例的彻底理解。然而，对本领域的技术人员来说显而易见的是，本发明可以不用这里的具体细节或者所描述的特定方式来实施。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在机器人技术的发展过程中，人们对机器人的交互需求越来越高，这也就需要机器人能够更为生动、智能地与用户进行交互。然而，现有的用于智能机器人的人机交互方法通常只会与用户进行单一的语音交互或文本交互，这显然无法满足现有的交互需求。

针对现有技术中所存在的问题，本发明提供了一种新的用于智能机器人的人交互方法，该方法使得智能机器人能够在输出相关数据的同时，还能够输出与当前情境氛围相适应的音乐。

为了更加清楚地阐述本发明所提供的人机交互方法的实现原理、实现过程以及优点，以下分别结合不同的实施例来对该方法作进一步地说明。

实施例一：

图1示出了本实施例所提供的用于智能机器人的人机交互方法的实现路程图。

如图1所示，本实施例所提供给的人机交互方法首先在步骤S101中获取用户输入的多模态交互信息。需要指出的是，上述多模态交互信息可以是诸如语音信息、文本信息、肢体信息、动作信息和视觉信息(即图像信息)等信息中的某一项或某几项，本发明不限于此。

其中，该方法可以通过智能机器人所配置的音频传感器(例如麦克风)来获取用户输入的语音信息，可以通过智能机器人所配置的文本输入设备(例如键盘)来获取用户输入的文本信息，可以通过智能机器人所配置的视频传感器(例如摄像头)来获取用户输入的视觉信息和/或肢体信息，可以通过配置在智能机器人壳体或内部的相应传感器(例如压力传感器等)来用户用户输入的动作信息。

在得到多模态交互信息后，该方法会在步骤S102中对步骤S101中所得到的多模态交互信息进行解析，从而得到用户情感参量。本实施例中，该方法在步骤S102中优选地利用预设情感引擎来根据上述多模态交互信息生成用户情感参量。具体地，对应于多模态交互信息所包含的信息的不同，预设情感引擎可以采用不同的方式来生成用户情感参量。

需要指出的是，在本发明的不同实施例中，该方法在对获取到的多模态交互信息进行解析过程中所使用的预设情感引擎既可以是本地情感引擎，也可以是云端情感引擎，还可以是本地情感引擎与云端情感引擎的结合，本发明不限于此。

语音既是人的发声器官发出的一种声波，它就像其他各种声音一样，也具有声音的物理属性。每一种音都具有一定的音色、音调、音强和音长。音色也称为音质，是一种声音区别于其他声音的基本特征。

音调是指声音的高低，它取决于声波的频率。而声波频率又与发音体长短、厚薄以及松紧程度有关。声音的强弱叫做音强，它是由声波振动幅度决定的。声音的长短叫做音长，它取决于发音时间的长短，一个多音节的词，各个音节的轻重不同，其长短就不一样，此外不同音长还可以表达不同的语气和情态。

因此，本实施例所提供的方法所采用的情感引擎便可以通过提取获取到的语音信息的相关特征参数(例如音色、音调、音强和音长等)，并通过对这些特征参数进行解析来确定出用户情感参量。

对于获取到的文本信息来说，该方法则可以通过对该文本信息进行语法分析，从而生成对应于该文本信息的相关情绪参数，这样也就确定出了对应的用户情感参量。

例如，对于中文文本信息来说，根据分析粒度的不同，中文文本信息的情感分析可以分为词语级、句子级、篇章级和海量级情感倾向性。对于本实施例所提供的方法来说，其主要集中在词语级以及句子级的情感分析。

词语倾向性分析的分析对象是单独的词语，在分析过程中需要确定出词语的褒贬性以及极性的强度。作为示例地，正值表示褒义，负值表示贬义。其中，上述取值的绝对值越大，其褒贬的极性强度也就越大。需要指出的是，在本发明的不同实施例中，对于词语倾向性的分析既可以采用基于语义词典的方式来进行分析，也可以采用大规模语料库的方式来进行分析，还可以采用其他合理方式来进行分析，本发明不限于此。

对于获取到的视觉信息来说，本实施例所提供的方法所采用的情感引擎可以从上述视觉信息中获取到相应的图像，并通过图像处理来确定出图像所表征的用户情感参量。具体地，该方法可以对获取到的图像进行人脸识别，并对识别到的人脸进行表情解析，从而得到对应于该图像的用户的表情信息，进而得到用户情感参量。

在得到用户情感参量后，该方法会在步骤S103中根据上述用户情感参量生成与该用户情感参量相匹配的音乐，并在步骤S104中结合步骤S103中生成音乐生成多模态输出数据并输出给当前用户。

例如，如果智能机器人的用户为儿童，该用户向智能机器人输入了诸如“我今天得奖了，我真开心”的语音信息，本实施例所提供的人机交互方法通过对该语音信息进行解析可以生成表征用户当前情感处于“开心”状态的用户情感参量。而根据该用户情感参量，该方法可以确定出与该用户情感参量相匹配的音乐应为欢快喜悦的音乐，因此，该方法也就可以在步骤S103中生成一段较为欢快喜悦的音乐，并在输出诸如“你真棒”的语音信息的同时输出上述音乐，以此来配合用户的当前情绪。

从上述描述中可以看出，本实施例所提供的用于智能机器人的人机交互方法能够在播放响应多模态输出数据的同时，输出与用户当前情绪相匹配的音乐，从而使得用户感知到智能机器人能够真正地理解用户当前的情境与情绪，并在理解用户当前情境与情绪的基础上有趣地给予反馈，进而极大地满足了用户对智能机器人的情感需求，这也使得智能机器人更加人性化。

实施例二：

图2示出了本实施例所提供的用于智能机器人的人机交互方法的实现路程图。

如图2所示，本实施例所提供的人机交互方法首先在步骤S201中获取用户输入的多模态交互信息，并在步骤S201中对步骤S201中所获取到的多模态交互信息进行解析来生成用户情感参量。

需要指出的是，本实施例中，上述步骤S201和步骤S202的具体实现原理以及实现过程分别与上述实施例一中步骤S101和步骤S102所阐述的内容相同，故在此不再对步骤S201和步骤S202的具体内容进行赘述。

在得到用户情感参量后，本实施例所提供的方法会在步骤S203中根据上述用户情感参量来确定当前情感场景，并在步骤S204中获取与当前情感场景相对应的音乐。

具体地，本实施例中，该方法优选地根据用户情感参量和交互场景信息来确定当前情感场景。其中，当前情感场景不仅能够表征出用户的当前情感状态，还能够表征出当前交互场景的相关状态。例如，在本发明的一个实施例中，该方法在步骤S203中确定出的当前情感场景表征出用户当前的情感状态为“焦虑”状态，当前交互场景为用户躺在床上准备睡觉，此时该方法在步骤S204中便可以生成诸如“流水声”或“海浪拍打沙滩的声音”等音乐来对用户进行安抚，从而帮助用户尽早入睡。

本实施例中，该方法还会在步骤S205中生成对应于多模态交互信息的反馈信息，并在步骤S206中将步骤S204中所得到的音乐作为上述反馈信息的背景音进行输出。

例如，用户需要上床睡觉但其情绪较为焦虑，该方法在步骤S204中生成了“海浪拍打沙滩的声音”，其在步骤S205中还可以生成能够帮助用户睡眠的哼唱曲调来作为反馈信息。该方法可以在步骤S205中同时输出上述反馈信息和音乐，从而更加有效地安抚用户情绪并帮助用户入眠。

本发明还提供了一种新的用于智能机器人的人机交互装置，图3示出了本实施例中该人机交互装置的结构示意图。

如图3所示，本实施例所提供的人机交互装置优选地包括：交互信息获取模块301、情感信息生成模块302以及数据输出模块303。其中，交互信息获取模块301用于获取用户输入的多模态交互信息。需要指出的是，在本发明的不同实施例中，述多模态交互信息可以是诸如语音信息、文本信息、肢体信息、动作信息和视觉信息(即图像信息)等信息中的某一项或某几项，本发明不限于此。

与之对应地，交互信息获取模块301可以采用不同的合理设备来实现。例如，交互信息获取模块301可以包括智能机器人所配置的音频采集设备(例如麦克风)，并利用该音频采集设备来获取用户输入的语音信息；交互信息获取模块301还可以包括视觉采集设备(例如高清摄像头或体感摄像头)，并利用该视觉采集设备来获取用户输入的图像信息和/或肢体信息。

本实施例中，交互信息获取模块301在获取到多模态交互信息后，会将该多模态交互信息传输至情感信息生成模块302。其中，情感信息生成模块302在接收到上述多模态交互信息后，会对该多模态交互信息进行解析，从而得到用户情感参量。

具体地，本实施例中，情感信息生成模块302可以采用预设情感引擎来对接收到的多模态交互信息进行解析，以得到用户情感参量。需要指出的是，本实施例中，情感信息生成模块302根据多模态交互信息生成用户情感参量的具体实现原理与实现过程与上述实施例一中步骤S102所涉及的内容类似，故在此不再对情感信息生成模块302的相关内容进行赘述。

在得到用户情感参量后，情感信息生成模块302会将上述用户情感参量传输至数据输出模块303。数据输出模块303则可以根据上述用户情感参量生成与用户情感参量相匹配的音乐，并结合上述音乐生成多模态输出数据并输出给当前用户。

本实施例中，数据输出模块303优选地首先根据用户情感参量和交互场景信息来确定当前情感场景，随后再获取与当前情感场景相对应的音乐。在得到上述音乐后，数据输出模块303还会生成对应于上述多模态交互信息的反馈信息，并将所得到的音乐作为上述反馈信息的背景音进行输出。

需要指出的是，本实施例中，数据输出模块303实现其功能的具体原理以及过程与上述实施例二中步骤S203～步骤S206所涉及的内容类似，故在此不再对数据输出模块303的相关内容进行赘述。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构或处理步骤，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然上述示例用于说明本发明在一个或多个应用中的原理，但对于本领域的技术人员来说，在不背离本发明的原理和思想的情况下，明显可以在形式上、用法及实施的细节上作各种修改而不用付出创造性劳动。因此，本发明由所附的权利要求书来限定。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：石琰;
技术所有人：北京光年无限科技有限公司;
我是此专利的发明人