智能辅助机器人交互方法、系统、电子设备及存储介质与流程

文档序号：26013867发布日期：2021-07-23 21:35阅读：119来源：国知局

本发明属于机器人语音交互技术领域，尤其涉及一种智能辅助机器人交互方法、系统、电子设备及存储介质。

背景技术：

我国已经进入老龄化社会，越来越多的养老陪伴的产品进入市场，其中近年来用于养老陪护的机器人产品受到越来越多人的关注。目前需要一种养老陪护智能辅助机器人交互方法。因此为丰富相关领域的算法研究，设计了该养老陪护智能辅助机器人交互方法。

目前如专利申请号cn112562685.a提供一种服务机器人的语音交互方法和装置，专利申请cn202011210092.8提供一种基于智能交互系统的情感陪护智能机器人，专利申请cn202011190277.7提供一种机器人的语音交互处理方法及机器人。从以上专利申请中可以看出大多数交互方法，存在过程繁琐且耦合性强，整个交互过程的便利性有待进一步提高。针对机器人与用户进行交互过程的服务体验差，算法复杂的问题，设计了一种智能辅助机器人交互方法、系统、电子设备及存储介质。

技术实现要素：

基于以上技术不足，本申请提供一种智能辅助机器人交互方法、系统、电子设备及存储介质。

第一方面，本申请提出一种智能辅助机器人交互方法，包括如下步骤：

智能辅助机器人接收用户的语音信息；

智能辅助机器人根据接收的所述语音信息进行自动语音识别，得到对应的文字信息；

智能辅助机器人对所述文字信息进行自然语言处理，将所述文字信息转换为结构化的语言；

根据所述结构化的语言，智能辅助机器人从预设数据库中提取回答文本信息；

智能辅助机器人将所述回答文本信息转换成语音，从智能辅助机器人的音响设备播放出去。

所述智能辅助机器人接收用户的语音信息，包括：当接收到的语音信息中包含设定的激活词信息，则智能辅助机器人启动交互功能。

所述自动语音识别，即对采集到的所述语音信息进行音频数据处理，包括如下步骤：

对所述语音信息分别进行滤波处理、分帧处理；

针对处理后的语音信息，将其时域信息转换到频域信息，把每一帧波形变成一个多维特征向量；

根据声学特性计算每一个所述特征向量在声学特征上的得分；

根据语言学模型计算所述语音信息对应可能词组序列的概率；

最后根据已有的字典，对词组序列进行解码，得到对应的文字信息。

所述智能辅助机器人将所述回答文本信息转换成语音，包括如下步骤：

预设智能辅助机器人语音播报声纹信息；

对所述对应的文字信息进行编码，并结合声纹信息进行拼接处理；

通过注意力机制模型进行解码，得到解码信息；

将所述解码信息输出到所述智能辅助机器人的声码器；

所述声码器根据解码后的信息生成声音波形。

第二方面，本申请提出一种智能辅助机器人交互系统，包括：

接收模块、语音识别模块、自然语言处理模块、文本提取模块、语音转换播放模块；

所述接收模块、语音识别模块、自然语言处理模块、文本提取模块、语音转换播放模块依次顺序相连接；

所述接收模块，用于接收用户的语音信息；

语音识别模块，用于根据接收的所述语音信息进行自动语音识别，得到对应的文字信息；

自然语言处理模块，用于对所述文字信息进行自然语言处理，将所述文字信息转换为结构化的语言；

文本提取模块，用于根据所述结构化的语言，智能辅助机器人从预设数据库中提取回答文本信息；

语音转换播放模块，用于将所述回答文本信息转换成语音，从智能辅助机器人的音响设备播放出去。

第三方面，本申请提出一种电子设备，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其被存储在所述存储器中并被配置为由所述一个或多个处理器加载和运行以便第一方面所述的智能辅助机器人交互方法。

第四方面，本申请提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面或者第一方面任一可能的实现方式所述的智能辅助机器人交互方法。

有益技术效果：

与现有技术相比，本发明的优点在于：该交互算法将语音处理过程进一步优化，流程上减低繁琐性，方法简单、效率高。

附图说明

图1为本申请实施例的一种智能辅助机器人交互方法示意图；

图2为本申请实施例的一种智能辅助机器人交互系统原理框图；

图3为本申请实施例的一种电子设备示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面将结合附图和实例对本发明作进一步的详细说明。

本申请提供一种智能辅助机器人交互方法、系统、电子设备及存储介质。

第一方面，本申请提出一种智能辅助机器人交互方法，如图1所示，包括如下步骤：

步骤s1：智能辅助机器人接收用户的语音信息；

步骤s2：智能辅助机器人根据接收的所述语音信息进行自动语音识别，得到对应的文字信息；

所述自动语音识别，将声学语音进行分析，得到对应的文字信息。

步骤s3：智能辅助机器人对所述文字信息进行自然语言处理，将所述文字信息转换为结构化的语言；

步骤s4：根据所述结构化的语言，智能辅助机器人从预设数据库中提取回答文本信息；

步骤s5：智能辅助机器人将所述回答文本信息转换成语音，从智能辅助机器人的音响设备播放出去。

所述智能辅助机器人接收用户的语音信息，包括：当接收到的语音信息中包含设定的激活词信息，则智能辅助机器人启动交互功能。

所述自动语音识别，即对采集到的所述语音信息进行音频数据处理，包括如下步骤：

对所述语音信息分别进行滤波处理、分帧处理；

针对处理后的语音信息，将其时域信息转换到频域信息，把每一帧波形变成一个多维特征向量；

根据声学特性计算每一个所述特征向量在声学特征上的得分；

根据语言学模型计算所述语音信息对应可能词组序列的概率；

语音学模型包括很多中经典模型，均属于本申请中的保护范围，本实施例采用的语音学模型是利用语音识别领域经典的隐马尔可夫模型(hmm)。在语音识别中，隐藏的马尔可夫模型用于对子词级别(例如英语音素)的声学观察(特征向量)建模。通常为每个音素建模3个状态，分别对音素的开头，中间和结尾进行建模。

隐马尔可夫模型从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模，一个音素就是一个三状态的hmm，一个词就是构成词的多个音素的hmm串行起来构成的hmm，而连续语音识别的整个模型就是词和静音组合起来的hmm。

最后根据已有的字典，对词组序列进行解码，得到对应的文字信息。

所述智能辅助机器人将所述回答文本信息转换成语音，包括如下步骤：

预设智能辅助机器人语音播报声纹信息；

对所述对应的文字信息进行编码，并结合声纹信息进行拼接处理；所述拼接处理具体为：按照每句话内各词的顺序，将词的词的声纹信息练成整句话的声纹。

通过注意力机制模型进行解码，得到解码信息；

本申请中注意力机制模型，所有改进注意力机制模型以及注意力机制模型的变体，均在本申请保护范围之内。

本实施例采用的注意力机制模型是现有的一种在序列到序列的模型中，从特征序列中提取有效特征的技术。作为一种经典的处理序列数据深度学习模型。模型计算中定义特征序列和中间序列。解码时首先由编码器神经网络对输入特征进行预处理，将特征序列编码成更易于分类的向量序列，然后送入解码器，结合解码器神经网络的历史解码输出得到输出概率向量，可取概率最大的维度对应的文本的输出字符。为了处理编码器输出和解码器输出的长度不匹配问题，可以使用注意力机制。

将所述解码信息输出到所述智能辅助机器人的声码器；

所述声码器根据解码后的信息生成声音波形。

第二方面，本申请提出一种智能辅助机器人交互系统，如图2所示，包括：

接收模块、语音识别模块、自然语言处理模块、文本提取模块、语音转换播放模块；

所述接收模块、语音识别模块、自然语言处理模块、文本提取模块、语音转换播放模块依次顺序相连接；

所述接收模块，用于接收用户的语音信息；

语音识别模块，用于根据接收的所述语音信息进行自动语音识别，得到对应的文字信息；

自然语言处理模块，用于对所述文字信息进行自然语言处理，将所述文字信息转换为结构化的语言；

文本提取模块，用于根据所述结构化的语言，智能辅助机器人从预设数据库中提取回答文本信息；

语音转换播放模块，用于将所述回答文本信息转换成语音，从智能辅助机器人的音响设备播放出去。

第三方面，本申请提出一种电子设备，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其被存储在所述存储器中并被配置为由所述一个或多个处理器加载和运行以便第一方面所述的智能辅助机器人交互方法。

如图3所示，电子设备100包括：处理器101和存储器103。其中，处理器101和存储器103相连，如通过总线102相连。

该电子设备100的结构并不构成对本申请实施例的限定。

处理器101可以是cpu，通用处理器，dsp，asic，fpga或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器101也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，dsp和微处理器的组合等。

总线102可包括一通路，在上述组件之间传送信息。总线102可以是pci总线或eisa总线等。总线102可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器103可以是rom或可存储静态信息和指令的其他类型的静态存储设备，ram或者可存储信息和指令的其他类型的动态存储设备，也可以是eeprom、cd-rom或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

需要说明的是，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴新开;霍向;马亚龙
技术所有人：北京洛必德科技有限公司
我是此专利的发明人