一种针对具有视觉能力的机器人的多模态输出方法与流程

文档序号：12121991阅读：180来源：国知局

本发明涉及计算机领域，具体说涉及一种针对具有视觉能力的机器人的多模态输出方法。

背景技术：

随着机器人技术的不断发展，机器人的应用范围被不断拓展，尤其的，越来越多的机器人被应用到日常的生产生活中。如何提高机器人的拟人化水平，提高机器人的用户体验就成了当前机器人技术的主要研发方向。

在日常的生产生活中，机器人的主要应用场景通常集中在与人的交互上。因此，提高机器人的拟人化水平，提高机器人的用户体验的主要针对方向也就集中在如何使得机器人的人机交互行为更为拟人化。

随着机器人硬件技术的不断发展，机器人在硬件基础上的功能不断提高。但是，伴随着机器人硬件的不断升级，其人机交互模式并没有进行相应的升级调整。尤其的，当前大多机器人具备了图像采集功能，但是机器人的人机交互模式还停留在最初的文字语音交互方式上。这就造成了机器人硬件资源的极大浪费。

技术实现要素：

本发明提出了一种针对具有视觉能力的机器人的多模态输出方法，所述方法包括：

调用机器人视觉处理模块检测并在出现用户时主动获取该用户图像数据；

根据所述当前用户图像数据确定用户身份；

生成并输出与所述用户身份匹配的主动交互输出。

在一实施例中，根据所述当前用户图像数据确定用户身份，其中：

分析所述当前用户图像数据获取当前用户特征信息；

查找与所述当前用户特征信息匹配的已保存用户特征信息；

获取所述已保存用户特征信息对应的用户身份。

在一实施例中，根据所述当前用户图像数据确定用户身份，其中，当无法确定用户身份时，调用获取身份机制获取当前用户身份信息并保存。

在一实施例中，根据所述当前用户图像数据确定用户身份由服务器或本地处理器执行。

在一实施例中，生成并输出与所述用户身份匹配的主动交互输出，其中：

基于当前的对话内容生成第一多模态输出内容；

在所述第一多模态输出内容的基础上基于用户身份生成第二多模态输出内容，所述第二多模态输出内容与所述用户身份匹配；

结合所述第一多模态输出内容以及所述第二多模态输出内容生成并输出所述多模态输出。

本发明还提出了一种具有视觉能力的机器人，所述机器人包括：

用户图像数据获取模块，其配置为调用机器人视觉处理模块检测并在出现用户时主动获取该用户图像数据；

用户身份确定模块，其配置为根据所述当前用户图像数据确定用户身份；

交互输出生成模块，其配置为生成并输出与所述用户身份匹配的主动交互输出。

在一实施例中，所述用户身份确定模块配置为：

分析所述当前用户图像数据获取当前用户特征信息；

查找与所述当前用户特征信息匹配的已保存用户特征信息；

获取所述已保存用户特征信息对应的用户身份。

在一实施例中，所述机器人还包含用户身份获取模块，所述用户身份获取模块配置为当无法确定用户身份时，调用获取身份机制获取当前用户身份信息并保存。

在一实施例中，所述用户身份确定模块配置为基于服务器或本地处理器执行身份确定操作。

在一实施例中，所述交互输出生成模块配置为：

基于当前的对话内容生成第一多模态输出内容；

在所述第一多模态输出内容的基础上基于用户身份生成第二多模态输出内容，所述第二多模态输出内容与所述用户身份匹配；

结合所述第一多模态输出内容以及所述第二多模态输出内容生成并输出所述多模态输出。

根据本发明的方法，机器人基于其图像采集装置识别当前用户的身份，然后针对用户的不同身份有针对性的做出不同的交互应答，尤其的，在用户尚未进行交互时主动向用户输出匹配用户身份的交互输出。机器人的图像采集能力被辅助应用到机器人的人机交互过程中，相较于现有技术，机器人的应用功能被大大拓展，机器人的用户体验得到显著提高。

本发明的其它特征或优点将在随后的说明书中阐述。并且，本发明的部分特征或优点将通过说明书而变得显而易见，或者通过实施本发明而被了解。本发明的目的和部分优点可通过在说明书、权利要求书以及附图中所特别指出的步骤来实现或获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据本发明一实施例的方法流程图；

图2～4是根据本发明不同实施例的部分方法流程图；

图5是根据本发明一实施例的机器人结构简图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

为了扩展机器人的应用范围，提升机器人的用户体验本发明的发明人提出了一种针对具有视觉能力的机器人的多模态输出方法。具体的，机器人基于其图像采集装置识别当前用户的身份，然后针对用户的不同身份有针对性的做出不同的交互应答。这样，将机器人的图像采集能力辅助应用到机器人的人机交互过程中，不但拓展了机器人的应用功能，而且大大提高了机器人的用户体验。

接下来基于附图详细描述本发明具体实施例的详细执行过程。附图的流程图中示出的步骤可以在包含诸如一组计算机可执行指令的计算机系统中执行。虽然在流程图中示出了各步骤的逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示，在本发明一实施例中，机器人调用机器人视觉处理模块获取当前图像(步骤S100)；检测当前图像从而判断当前是否存在用户(步骤S110)；如果不存在用户，则返回步骤S100，再次获取当前图像并重复检测步骤。

如果当前存在用户，则机器人主动获取该用户图像数据(步骤S120)；并进一步的根据当前用户图像数据确定用户身份(步骤S130)；最后，机器人生成并输出与所述用户身份匹配的主动交互输出(步骤S140)。

在图1所示的步骤中，关键步骤之一是步骤S130，确定用户身份。具体的，在一实施例中，如图2所示，机器人首先分析当前用户图像数据获取当前用户特征信息(步骤S200)；然后查找与当前用户特征信息匹配的已保存用户特征信息(步骤S210)；最后获取已保存用户特征信息对应的用户身份(步骤S220)。

进一步的，在图1所示的步骤S130中，会出现机器人无法识别当前用户身份的情况。例如，当前的用户为新用户，机器人之前并未储存其对应的用户特征信息。那么在图2所示的步骤S210中，机器人也就无法查找到与当前用户特征信息匹配的已保存用户特征信息。在这种情况下，在本发明一实施例中，当无法确定用户身份时，调用获取身份机制获取当前用户身份信息并保存。

如图3所示，机器人首先分析当前用户图像数据获取当前用户特征信息(步骤S300)；然后查找与当前用户特征信息匹配的已保存用户特征信息(步骤S310)；接着确定步骤S310中是否可以查找到与当前用户特征信息匹配的已保存用户特征信息(步骤S320)；在步骤S320中，如果确定存在与当前用户特征信息匹配的已保存用户特征信息则获取已保存用户特征信息对应的用户身份(步骤S330)。

在步骤S320中，如果确定不存在与当前用户特征信息匹配的已保存用户特征信息则获取新用户身份信息并保存(步骤S340)。

具体的，在本发明一实施例中，步骤S340的具体执行方式是机器人主动向用户询问以获取新用户的身份信息。

进一步的，在图1所示的步骤S130中，无法确定用户身份的另一个原因可能是步骤S100和/或步骤S120出现错误，即机器人并没有获取到足以识别用户身份的正确的用户图像数据。在这种情况下，在本发明一实施例中，在图3所示的步骤S340执行过程中，机器人将获取到的新用户身份信息与当前已保存的用户特征信息做比对，如果发现新用户身份信息是已经保存了的，那么说明机器人的用户图像数据获取环节出了问题，机器人进行相应的自检或发出警报。

进一步的，在本发明一实施例中，用户身份的确认是在机器人本地进行的，也就是说，用户特征信息是保存在机器人本地存储器上的，由机器人本地处理器进行用户身份的识别。为了减小机器人的数据存储压力以及数据处理压力，在本发明一实施例中，机器人基于网络云端服务器进行用户身份的识别。

具体的，在本发明一实施例中，已保存的用户特征信息保存在云端服务器。当机器人需要进行用户身份识别时，从云端服务器的数据库中查找与当前用户特征信息匹配的已保存用户特征信息。这样，机器人就不需要将已保存用户特征信息保存在自身的存储器中，机器人的存储压力大大降低。并且，进一步的，当已保存用户特征信息需要更新时(例如机器人获取到新用户身份信息时)，只需要更新云端服务器存储的数据(机器人通过网络将获取到的新用户身份信息写入云端服务器的数据库)，这样同一服务网络下的所有机器人都可以调用到新的用户身份信息，而不需要逐一对机器人进行新用户身份信息的更新。

进一步的，在本发明一实施例中，为了进一步降低机器人的数据处理压力，用户身份的确认(查找与当前用户特征信息匹配的已保存用户特征信息)过程也在云端服务器完成。机器人只需将获取到的用户特征信息发送到云端服务器，然后接受来自云端服务器的用户身份确认结果。

在图1所示的步骤中，关键步骤还包括步骤S140，生成并输出与用户身份匹配的主动交互输出。具体的，在本发明一实施例中，如图4所示，机器人首先基于当前的对话内容生成第一多模态输出内容(步骤S400)；然后在第一多模态输出内容的基础上基于用户身份生成第二多模态输出内容(步骤S410)，其中，第二多模态输出内容与用户身份匹配；最后，结合第一多模态输出内容以及第二多模态输出内容生成并输出多模态输出。

例如，在一应用环境中，用户向机器人询问天气状况，机器人识别出用户身份为A。此时，机器人生成第一多模态输出内容“今天会下雨”(回答用户提问)；然后在第一多模态输出内容“今天会下雨”机器人结合用户身份生成第二多模态输出内容“A，上班时要带伞”(A每天这个时候出去上班)；最后，机器人生成并输出多模态输出“今天会下雨，A，上班时要带伞”。相较于现有技术中机器人仅仅有针对性的回答“今天会下雨”，根据本发明方法的机器人拟人化程度大大增强，用户体验得到提高。

进一步的，当机器人和用户的交互并未开始时(当前的对话内容为空)，那么第一多模态输出内容也就为空。此时，在本发明一实施例中，机器人直接生成与用户身份匹配的第二多模态输出内容。具体的，在一实施例中，在一具体的应用环境中，当机器人识别出用户身份时，主动向用户打招呼。例如，说出用户名字，然后问候(早上好、你好、或是天气不错等)。

综上，根据本发明的方法，机器人基于其图像采集装置识别当前用户的身份，然后针对用户的不同身份有针对性的做出不同的交互应答，尤其的，在用户尚未进行交互时主动向用户输出匹配用户身份的交互输出。这样，将机器人的图像采集能力辅助应用到机器人的人机交互过程中，不但拓展了机器人的应用功能，而且大大提高了机器人的用户体验。

基于本发明的方法，本发明还提出了一种具有视觉能力的机器人。在一实施例中，如图5所示，机器人包括：

用户图像数据获取模块510，其配置为调用机器人视觉处理模块检测并在出现用户时主动获取该用户图像数据；

用户身份确定模块520，其配置为根据当前用户图像数据确定用户身份；

交互输出生成模块530，其配置为生成并输出与用户身份匹配的主动交互输出。

进一步的，在一实施例中，用户身份确定模块520配置为：分析当前用户图像数据获取当前用户特征信息；查找与当前用户特征信息匹配的已保存用户特征信息；获取已保存用户特征信息对应的用户身份。

进一步的，在一实施例中，机器人还包含用户身份获取模块540，用户身份获取模块配置为当无法确定用户身份时，调用获取身份机制获取当前用户身份信息并保存。

进一步的，在一实施例中，用户身份确定模块520配置为基于服务器或本地处理器执行身份确定操作。

进一步的，在一实施例中，交互输出生成模块530配置为：基于当前的对话内容生成第一多模态输出内容；在第一多模态输出内容的基础上基于用户身份生成第二多模态输出内容，第二多模态输出内容与所述用户身份匹配；结合第一多模态输出内容以及第二多模态输出内容生成并输出多模态输出。

本发明的机器人基于其图像采集装置识别当前用户的身份，然后针对用户的不同身份有针对性的做出不同的交互应答，尤其的，在用户尚未进行交互时主动向用户输出匹配用户身份的交互输出。这样，将机器人的图像采集能力辅助应用到机器人的人机交互过程中，不但拓展了机器人的应用功能，而且大大提高了机器人的用户体验。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。本发明所述的方法还可有其他多种实施例。在不背离本发明实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变或变形，但这些相应的改变或变形都应属于本发明的权利要求的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汪霄鹏;
技术所有人：北京光年无限科技有限公司;
我是此专利的发明人

上一篇：一种查询DMP的方法及装置与流程
上一篇：适用于快速充电的新能源汽车用蓄电池板栅的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。