一种基于虚拟机器人的人机交互方法及装置与流程

文档序号：13886939阅读：265来源：国知局

本发明涉及机器人技术领域，具体地说，涉及一种基于虚拟机器人的人机交互方法及装置。

背景技术：

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。

目前，虚拟机器人作为一种具有虚拟形象的智能机器人，越来越受到用户的欢迎，但是虚拟机器人的交互场景较局限，能够提供的服务有限，如何拓宽虚拟机器人的服务领域成为目前亟需解决的问题

技术实现要素：

为解决上述问题，本发明提供了一种基于虚拟机器人的人机交互方法，所述方法启用虚拟机器人并将所述虚拟机器人的形象显示在预设显示区域中，其包括：

步骤一、获取多模态输入信息；

步骤二、对所述多模态输入信息进行解析，判断指定区域内是否存在用户，其中，如果所述指定区域内存在用户，则执行步骤三；

步骤三、基于所述多模态输入信息的解析结果进行意图识别，确定用户意图，根据所述用户意图，调用与当前交互场景相关的多模态交互数据生成并输出相应的多模态反馈信息，其中，所述多模态反馈信息中的虚拟机器人版权形象与所述当前交互场景信息相关。

根据本发明的一个实施例，在所述步骤二中，如果所述指定区域中不存在用户，则执行步骤四，在所述步骤四中，生成并输出预设企业推广信息。

根据本发明的一个实施例，在所述步骤三中，还通过对所述多模态输入信息进行解析，获取所述用户的用户情感信息，并结合所述用户情感信息生成并输出相应的多模态反馈信息。

根据本发明的一个实施例，所述多模态反馈信息还包括与所述虚拟机器人版权形象相对应的语音反馈信息。

根据本发明的一个实施例，在所述步骤三中，主动生成并输出接待功能提示信息，并根据所述用户就所述接待功能提示信息所反馈的输入信息判断是否需要启动接待功能，其中，如果需要启动接待功能，则根据当前交互场景信息生成并输出相应的多模态反馈信息，其中，所述多模态反馈信息包括与所述接待功能相对应的二维码。

本发明还提供了一种基于虚拟机器人的人机交互装置，所述装置配置为将虚拟机器人的形象显示在预设显示区域中，所述装置包括：

输入信息获取模块，其用于获取多模态输入信息；

数据处理模块，其与所述输入信息获取模块连接，用于对所述多模态输入信息进行解析，判断指定区域内是否存在用户，其中，如果所述指定区域内存在用户，则基于所述多模态输入信息的解析结果进行意图识别，确定用户意图，根据所述用户意图，调用与当前交互场景相关的多模态交互数据生成并输出相应的多模态反馈信息，其中，所述多模态反馈信息中的虚拟机器人版权形象与所述当前交互场景信息相关。

根据本发明的一个实施例，如果所述指定区域中不存在用户，所述数据处理模块则配置为生成并输出预设企业推广信息。

根据本发明的一个实施例，所述数据处理模块配置为还通过对所述多模态输入信息进行解析，获取所述用户的用户情感信息，并结合所述用户情感信息生成并输出相应的多模态反馈信息。

根据本发明的一个实施例，所述多模态反馈信息还包括与所述虚拟机器人版权形象相对应的语音反馈信息。

根据本发明的一个实施例，所述数据处理模块配置为主动生成并输出接待功能提示信息，并根据所述用户就所述接待功能提示信息所反馈的输入信息判断是否需要启动接待功能，其中，如果需要启动接待功能，则根据当前交互场景信息生成并输出相应的多模态反馈信息，其中，所述多模态反馈信息包括与所述接待功能相对应的二维码。

本发明还提供了一种存储介质，所述存储介质上存储有可执行如上任一项所述的基于虚拟机器人的人机交互方法步骤的程序代码。

本发明所提供的基于虚拟机器人的人机交互方法使得所显示的虚拟机器人的版权形象或者动作与当前交互场景相匹配，将企业及企业产品的相关内容(例如企业介绍、企业产品介绍等)通过虚拟机器人交互的形式进行输出，从而使客户对企业宣传内容的接收更完全，这样也就使得用户能够通过虚拟机器人来方便、快捷地获取到有关企业以及企业产品的相关内容，从而有助于企业业务的推广。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要的附图做简单的介绍：

图1是根据本发明一个实施例的基于虚拟机器人的人机交互方法的实现场景示意图；

图2是根据本发明一个实施例的基于虚拟机器人的人机交互方法的实现流程示意图；

图3是根据本发明另一个实施例的基于虚拟机器人的人机交互方法的实现流程示意图；

图4是根据本发明又一个实施例的基于虚拟机器人的人机交互方法的实现流程示意图；

图5是根据本发明一个实施例的基于虚拟机器人的人机交互装置的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

同时，在以下说明中，出于解释的目的而阐述了许多具体细节，以提供对本发明实施例的彻底理解。然而，对本领域的技术人员来说显而易见的是，本发明可以不用这里的具体细节或者所描述的特定方式来实施。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明提供了一种新的基于虚拟机器人的人机交互方法，该人机交互方法能够通过显示相应与企业以及企业产品相关的虚拟机器人版权形象来与用户进行人机交互。图1示出了本实施例中该方法的实现场景示意图。

如图1所示，本实施例中，该基于虚拟机器人的人机交互方法在实现过程中会使用到用于显示虚拟机器人形象103的图像显示设备101。需要指出的是，在本发明的不同实施例中，上述图像显示设备101可以根据实际需要来采用不同的设备实现，本发明不限于此。例如，在本发明的一个实施例中，上述图像显示设备101可以利用液晶显示器来显示虚拟机器人形象；而在本发明的另一个实施例中，上述图像显示设备101还可以利用全息投影仪来显示虚拟机器人形象103。

本实施例中，图像显示设备101所显示的虚拟机器人形象是与企业以及企业产品相对应的。为了更加清楚地阐述本发明所提供的基于虚拟机器人的人机交互方法的实现原理、实现过程以及优点，以下分别结合不同的实施例来对该基于虚拟机器人的人机交互方法作进一步地说明。

实施例一：

图2示出了本实施例所提供的基于虚拟机器人的人机交互方法的实现流程示意图。

如图2所示，本实施例所提供的基于虚拟机器人的人机交互方法首先在步骤s201中获取多模态输入信息。本实施例中，该方法在步骤s201中所获取到的多模态输入信息既可以包含关于用户的视频信息(即用户图像信息)，也可以包含用户所输入的音频信息(即用户语音信息)。当然，在本发明的其它实施例中，根据实际情况，该方法在步骤s201中所获取到的多模态交互信息中还可以包含其它合理信息，本发明不限于此。

在获取到多模态输入信息后，该方法会在步骤s202中对上述多模态输入信息进行解析，并在步骤s203中根据步骤s202所得到的解析结果来判断指定区域中是否存在用户。本实施例中，上述指定区域可以是用于显示虚拟机器人版权形象的图像显示设备前的一定区域范围，本发明并不对上述指定区域的具体位置以及大小进行限定。在本发明的其他实施例中，该方法还可以通过其他方式确定指定区域中是否存在用户，例如，通过麦克风阵列，在该麦克风阵列的接收范围内，确定接收到用户语音时，即可确定存在用户。

具体地，本实施例中，该方法在步骤s202中优选地对上述多模态输入信息中的图像信息进行图像处理，以确定所获取到的图像的特定区域(即与上述指定区域相对应的区域)中是否存在人形图像。其中，如果所获取到的图像的特定区域中不存在人形图像，那么该方法也就可以在步骤s203中判定指定区域中不存在用户；而如果所获取的图像的指定区域中存在人形图像，那么该方法也就可以在步骤s203中判定指定区域中存在用户。

如果指定区域中不存在用户，那么则表示图像显示设备前没有出现行人或客户，那么此时该方法优选地会生成并输出预设企业推广信息。本实施例中，上述预设企业推广信息可以是当前交互场景中相关企业的企业介绍视频或是企业产品介绍视频等。当然，在本发明的其它实施例中，如果指定区域中不存在用户，该方法还可以不输出相关反馈信息，从而使得图像显示设备处于休眠状态，这样有助于减少能耗。

如果指定区域中存在用户，那么则表示图像显示设备前出现了行人或客户，此时该方法会在步骤s204中基于多模态输入信息的解析结果来进行意图识别，从而确定出用户意图。

具体地，本实施例中，该方法在步骤s204中会对上述多模态输入信息中的音频信息进行解析，从而得到出交互话题。交互话题能够表征用户与机器人在单轮交互或者多轮交互过程中所围绕的交互主题，该方法利用所确定出的交互话题能够初步确定出最终需要生成的反馈信息所需要涉及的内容范围。

当然，在本发明的其它实施例中，当上述多模态输入信息中包含文本信息时，该方法在步骤s204中还可以通过提取文本信息中的关键词的方式来确定交互话题。而当用户所输入的交互输入信息为语音对话信息时，该方法可以首先将语音对话信息转换为相应的文本信息，再通过对文本信息进行解析来确定出交互话题。

在确定出交互话题后，该方法会利用预设意图图谱，根据所确定出的交互话题来确定出用户意图。意图可以视为机器人以自身视角来尝试理解人机交互过程中，用户在某种主题或者话题下期望达到某种目的的打算。由于交互话题所涉及的内容较为广泛，因此该方法也就需要以意图图谱来挖掘和确定在后续人机交互过程中用户需要从机器人获取的信息(即机器人需要向用户反馈的信息)。

具体地，本实施例中，在根据交互话题来确定用户的意图时，该方法首先会在预设意图图谱中确定出上述交互话题所对应的节点，随后在预设意图图谱中确定出以上述交互话题所对应的节点为初始节点的连线所对应的节点(即终端节点)，从而根据终端节点来确定出用户意图。

由于与初始节点所连接的节点可能存在多个，因此该方法所确定出的终端节点也就可能为多个。针对这种情况，本实施例中，该方法首先会根据与初始节点相连接的多个节点确定出多个候选用户意图，随后对这些候选用户意图进行置信度排序，并根据排序结果来确定出所需要的用户意图。

具体地，本实施例中，该方法根据预设意图图片中各个节点连线的权重来对这些候选用户意图进行排序，并选取权重最大的候选用户意图来作为最终所需要的用户意图。

当然，在本发明的其它实施例中，该方法还可以采用其它合理方式来根据多模态输入信息确定出用户意图，本发明不限于此。

如图2所示，本实施例中，在确定出用户意图后，该方法会在步骤s205中根据用户意图，调用与当前交互场景相关的多模态输入信息来生成相应的多模态反馈信息。

本实施例中，该方法所生成的多模态反馈信息中包含有虚拟机器人版权形象，该虚拟机器人版权形象与当前交互场景所对应的企业或企业产品相关。例如，该方法在步骤s205中所生成并显示的虚拟机器人版权形象可以是企业的吉祥物形象，也可以是该企业的某一产品的卡通形象等。

需要指出的是，本实施例中，根据实际需要，上述步骤s201至步骤s205既可以完全在设置于当前交互场景中的用于直接与用户进行交互的相关硬件设备来实现，也可以由上述用于直接与用户进行交互的相关硬件设备与云端服务器配合地实现，本发明不限于此。

例如，当上述步骤需要由用于直接与用户进行交互的相关硬件设备与云端服务器配合地实现时，该方法可以将获取到的多模态输入信息传输至云端服务器，以由云端服务器通过执行上述步骤s202至步骤s205来生成多模态反馈信息，随后再将所生成的多模态反馈信息传输至用于直接与用户进行交互的相关硬件设备来进行输出。

同时，还需要指出的是，在本发明的不同实施例中，该方法在步骤s205中所生成并输出的多模态反馈信息既可以是包含虚拟机器人版权形象的动画，也可以是包含虚拟机器人版权形象的动画与相应语音信息(例如与该虚拟机器人版权形象相关的故事语音)的结合，抑或是包含虚拟机器人版权形象的动画与其它合理形式的信息的结合，本发明不限于此。

从上述描述中可以看出，本实施例所提供的基于虚拟机器人的人机交互方法使得所显示出的虚拟机器人的版权形象或者动作与当前交互场景相匹配，将企业及企业产品的相关内容(例如企业介绍、企业产品介绍等)，通过虚拟机器人交互的形式进行输出，从而使客户对企业宣传内容的接收更完全，这样也就使得用户能够通过虚拟机器人来方便、快捷地获取到有关企业以及企业产品的相关内容，从而有助于企业业务的推广。

实施例二：

图3示出了本实施例所提供的基于虚拟机器人的人机交互方法的实现流程示意图。

如图3所示，本实施例所提供的基于虚拟机器人的人机交互方法首先在步骤s301中获取多模态输入信息，随后在步骤s302中对上述多模态输入信息解析，并在步骤s303中根据步骤s302所得到的解析结果判断指定区域中是否存在用户。如果指定区域中存在用户，那么该方法则会在步骤s304中通过对步骤s301中所获取到多模态输入信息进行意图识别，从而确定出用户意图。

需要指出的是，本实施例中，上述步骤s301至步骤s304的具体实现原理以及实现过程与上述实施例一中步骤s201至步骤s204的实现原理以及实现过程相同，故在此不再对上述步骤s301至步骤s304的相关内容进行赘述。

本实施例中，该方法除了确定用户意图外，还会在步骤s305中对上述步骤s301中所获取到的多模态输入信息进行解析来确定出用户情感信息。具体地，本实施例中，该方法在步骤s305中可以对步骤s301中所获取到的多模态输入信息中的图像信息进行人脸识别来得到图像中的人脸图像，随后再对得到的人脸图像进行表情识别，这样也就可以根据表情识别结果来确定出用户情感信息。

当然，在本发明的其它实施例中，该方法在步骤s305中还可以采用其它合理方式来根据多模态输入信息确定用户情感信息，本发明不限于此。例如，在发明的一个实施例中，该方法还可以通过对所获取到的多模态输入信息的语音信息进行声纹识别，根据声纹识别结果来确定用户情感信息。

在得到用户意图以及用户情感信息后，本实施例中，该方法会在步骤s306中根据上述用户意图以及用户情感信息，来调用与当前交互场景相关的多模态交互数据，以生成相应的多模态反馈信息。

实施例三：

图4示出了本实施例所提供的基于虚拟机器人的人机交互方法的实现流程示意图。

如图4所示，本实施例所提供的基于虚拟机器人的人机交互方法首先在步骤s401中获取多模态输入信息，随后在步骤s402中对上述多模态输入信息解析，并在步骤s403中根据步骤s402所得到的解析结果判断指定区域中是否存在用户。

需要指出的是，本实施例中，上述步骤s401至步骤s403的具体实现原理以及实现过程与上述实施例一中步骤s201至步骤s203的实现原理以及实现过程相同，故在此不再对上述步骤s401至步骤s403的相关内容进行赘述。

本实施例中，如果指定区域中存在用户，那么该方法则会在步骤s404中主动生成并输出接待功能提示信息。例如，该方法检测到指定区域中存在用户(即检测到有用户进入到指定服务范围)时，会显示企业的吉祥物的虚拟形象并输出诸如“你好，需要我为你服务么”的语音信息。

该方法在输出接待功能提示信息后，会在步骤s405中获取用户针对上述接待功能提示信息所反馈的输入信息，并根据该输入信息来判断此时是否需要启动接待功能。

例如，如果用户针对接待功能提示信息所反馈的输入信息是诸如“我想了解一下你们企业的产品”的语音信息，那么该方法也就会判定此时需要启动接待功能；而如果用户针对接待功能提示信息所反馈的输入信息是诸如“不用了，谢谢”的语音信息，那么该方法也就会判定此时不需要启动接待功能，这时该方法则会执行步骤s407来生成并输出预设企业推广信息。

本实施例中，如果该方法在步骤s405中此时需要启动接待功能，那么该方法则会在步骤s406中根据当前交互场景信息来生成并输出相应的多模态反馈信息。本实施例中，该方法在步骤s406中所生成并输出的多模态反馈信息优选地包括与该接待功能相对应的二维码。用户可以通过扫描该二维码来获取当前企业的公众号或该企业的企业接待app，这样用户可以在自己的智能终端上实时地接收虚拟机器人的引导。

例如，如果该方法的应用场景为酒店，那么该方法在步骤s406中所输出的多模态反馈信息则可以包含该酒店的接待app，用户可以在自己的智能终端上安装该接待app。用户在使用该酒店的接待app的过程中，可以获知该酒店的房型引导信息以及酒店整体结构信息等。

再例如，如果该方法的应用场景为游乐园，那么该方法在步骤s406中所输出的多模态反馈信息则可以包含该游乐园的公众号，用户可以通过该公众号来获知该游乐园的场所格局、注意事项介绍以及各个场地的排队情况等信息。

本发明还提供了一种存储介质，该存储介质上存储有可执行如上所述的基于虚拟机器人的人机交互方法步骤的程序代码。此外，本发明还提供了一种基于虚拟机器人的人机交互装置，图5示出了本实施例中该人机交互装置的结构示意图。

如图5所示，本实施例中，该基于虚拟机器人的人机交互装置优选地包括：输入信息获取模块501以及数据处理模块502。其中，根据实际需要，输入信息获取模块501可以采用不同的器件或设备来实现，以便能够获取不同类型的输入信息。

例如，如果需要获取图像信息，那么输入信息获取模块501则需要包括相应的图像采集设备(例如摄像头等)；而如果需要获取语音信息，那么输入信息获取模块501则需要包括相应的语音采集设备(例如麦克风等)；而如果需要获取文本信息，那么输入信息获取模块501则需要包括相应的文本采集设备(例如实体键盘或是虚拟键盘等)。

数据处理模块502与输入信息获取模501连接，其能对输入信息获取模块501所传输来的多模态输入信息进行解析，并根据解析结果进行意图识别，从而确定出用户意图。

具体地，本实施例中，数据处理模块502优选地包括云端服务器。输入信息获取模块501在获取到多模态输入信息后，会将上述多模态输入信息通过相关数据传输网络(例如以太网等)传输至云端服务器，以由云端服务器对上述多模态输入信息进行解析。

本实施例中，云端服务器优选地利用预设意图图谱来对多模态输入信息的解析结果进行意图识别，从而得到用户意图。当然，在本发明的其它实施例中，云端服务器还可以采用其它合理方式来确定用户意图，本发明不限于此。

在得到用户意图后，云端服务器还根据所确定出的用户意图来调用与当前交互场景相关的多模态交互数据，来生成并输出相应的多模态反馈信息。其中，上述多模态反馈信息中的虚拟机器人版权形象与当前交互场景信息相关(例如为当前交互场景所对应的企业的吉祥物形象或相关卡通形象等)。

在生成上述多模态反馈信息后，云端服务器会将上述多模态反馈信息传输至设置在当前交互场景中的输出设备，以由该输出设备来将上述多模态反馈信息进行输出(例如显示虚拟机器人版权形象或输出与虚拟机器人版权形象相对应的语音等)。

需要指出的是，在本发明的不同实施例中，上述云端服务器实现其功能的具体原理以及过程既可以与上述实施例一中步骤s202至步骤s205所公开的内容相同，也可以与上述实施例二中步骤s302至步骤s306所公开的内容相同，还可以与上述实施例三中步骤s402至步骤s407所公开的内容相同，故在此不再对云端服务器的相关内容进行赘述。

当然，在本发明的其它实施例中，云端服务器的功能以及输出设备的功能还可以集成在一设置在当前交互场景中的某一设备中来实现，这样输入信息获取模块501也就无需将获取到的多模态输入信息上传至云端服务器，而可以改由在本地进行数据处理。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构或处理步骤，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然上述示例用于说明本发明在一个或多个应用中的原理，但对于本领域的技术人员来说，在不背离本发明的原理和思想的情况下，明显可以在形式上、用法及实施的细节上作各种修改而不用付出创造性劳动。因此，本发明由所附的权利要求书来限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王恺
技术所有人：北京光年无限科技有限公司
我是此专利的发明人

上一篇：一种远红外保健涤纶复合纤维的制作方法
上一篇：一种棉纱清洁装置的制作方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。