用于智能机器人的对话交互方法及系统与流程

文档序号：14571863发布日期：2018-06-01 22:42阅读：559来源：国知局

本发明涉及智能机器人领域，尤其涉及一种用于智能机器人的对话交互方法及系统。

背景技术：

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。因此，提升智能机器人的交互能力，改善机器人的类人性和智能性，是现在亟需解决的重要问题。

技术实现要素：

本发明所要解决的技术问题之一是需要提供一种用于智能机器人的人机交互方法及系统，该方案能够保证对话的连贯性，增强人机对话的趣味性，改善用户的交互体验。

为了解决上述技术问题，本申请的实施例首先提供了一种用于智能机器人的对话交互处理方法，该方法包括如下步骤：在智能机器人与用户对话交互的过程中，解析上下文对话交互信息，生成对应的话题标签，所述话题标签用来标注每一轮次对话交互所属的话题；获取当前轮次用户输出的对话数据，结合上下文对话交互信息的话题标签解析得到用户意图；根据所述用户意图决策生成对话交互数据。

优选地，利用话题标签确定模型对每轮对话进行话题标签的确定，所述话题标签确定模型是通过对同一话题下多轮对话的数据进行深度学习训练来形成的。

优选地，在根据所述用户意图决策生成对话交互数据的步骤中，从对话数据库选择与所述话题标签匹配的对话交互内容并结合当前轮次用户对话意图，生成对话交互数据并输出给用户，其中，所述对话数据库的数据标注有不同的话题标签。

优选地，在所述对话数据库中，对同一问题设置不同话题标签下的对应答复方式；在确定当前轮次话题标签后，结合其对应答复方式，生成对话交互数据。

优选地，还包括：对用户身份进行识别，判断当前用户是否为儿童用户；若为儿童用户，则基于为儿童用户搭建的对话数据库和对话标签来进行对话交互。

根据本发明实施例的另一方面，还提供了一种用于智能机器人的对话交互处理系统，该系统包括如下模块：话题标签确定模块，其在智能机器人与用户对话交互的过程中，解析上下文对话交互信息，生成对应的话题标签，所述话题标签用来标注每一轮次对话交互所属的话题；用户意图解析模块，其获取当前轮次用户输出的对话数据，结合上下文对话交互信息的话题标签解析得到用户意图；对话数据生成模块，其根据所述用户意图决策生成对话交互数据。

优选地，所述话题标签确定模块，其利用话题标签确定模型对每轮对话进行话题标签的确定，所述话题标签确定模型是通过对同一话题下多轮对话的数据进行深度学习训练来形成的。

优选地，所述对话数据生成模块，其从对话数据库选择与所述话题标签匹配的对话交互内容并结合当前轮次用户对话意图，生成对话交互数据并输出给用户，其中，所述对话数据库的数据标注有不同的话题标签。

优选地，在所述对话数据库中，对同一问题设置不同话题标签下的对应答复方式；所述对话数据生成模块，其在确定当前轮次话题标签后，结合其对应答复方式，生成对话交互数据。

优选地，还包括：用户身份识别模块，其对用户身份进行识别，判断当前用户是否为儿童用户；所述对话数据生成模块，其在用户为儿童用户时，基于为儿童用户搭建的对话数据库和话题标签进行对话交互。

根据本发明实施例的另一方面，还提供了一种用于智能机器人的对话交互系统，该系统包括：云端服务器，其具备如上所述的对话交互处理系统；智能机器人，其采集与用户交互的多模态交互数据，并将所述多模态交互数据发送至所述云端服务器，向用户输出来自所述云端服务器的对话交互语句。

优选地，所述智能机器人为故事机或聊天机器人。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

本发明实施例通过在智能机器人与用户对话交互的过程中，解析上下文对话交互信息，生成对应的话题标签，然后，获取当前轮次用户输出的对话数据，结合上下文对话交互信息的话题标签解析得到用户意图，并根据所述用户意图决策生成对话输出数据。本发明实施例通过深度学习的方法，训练话题标签生成模型，这样，针对任意轮对话，都可以确定对应的话题标签，在接收到用户的语音信息后，结合当前的话题标签，可以生成同一话题下的输出，保证对话的连贯性，进而提高对话质量，提升用户的对话体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1为本申请实施例的故事机或聊天机器人的应用场景示意图。

图2为本申请实施例的故事机或聊天机器人的功能结构框图。

图3为本申请实施例的故事机或聊天机器人的硬件结构示意图。

图4为本申请实施例的云端服务器(云端大脑)的对话交互处理系统的示例一的功能结构示意图。

图5为本申请实施例的云端服务器(云端大脑)的对话交互处理系统的示例二的功能结构示意图。

图6为本申请实施例的用于智能机器人的对话交互处理方法的示例一的流程示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

近年来，随着人工智能的迅速发展，聊天机器人也受到了学术界和工业界的广泛关注。聊天机器人是一种通过自然语言模拟人类进行对话的智能机器人。目前聊天机器人主要分为在线客服、娱乐、教育、个人助理和智能问答这五个种类。无论哪种机器人都能与用户进行一定程度的交互。然而，在当前聊天机器人应用场景中，机器人和用户的对话，往往是基于知识库的问答系统来实现的，这样容易导致对话总是在几个回合之后就很快结束，聊天的可扩展性差，往往使得对话枯燥且常常一两轮对话之后就终结。而且，话题聊天中有些话题是有些是在聊有实体节点的内容，有些聊天内容是没有实体的内容，在聊天内容是没有实体的情况下，只能通过数据库的方式来支撑，但是对于存储在数据库中的数据，如果不做话题标签，也常常会出现答非所问的情况。比如下例所示，其中Q表示用户端，A表示机器人端：

Q：有好看的电影推荐吗？

A:听说《罗马假日》不错。

Q:看过了。

A1(错误)：那就好，医生怎么说的？

A2(正确)：那我再给你推荐一个吧，《狼战》。

显然，上面A1更应该用来做话题“生病看医生”的回复。当机器人回复A1的内容后，会给用户带来非常不好的体验，认为机器人的智能性较低，进而降低了使用该机器人的积极性，而正确推荐了《狼战》电影给用户后，则会更好地满足用户需求。

本发明实施例提供了一种用于智能机器人的对话交互处理方法及系统，通过对问答数据库和每轮对话交互做话题标签处理，可以对于同一个问题，选择合适的应答，保证对话的连贯性，进而提高对话质量，提升用户的对话体验。

为了更好地理解本发明，在对实施例进行说明之前，先对本例中涉及的用语“话题”和“话题标签”稍作说明。

话题：借用语言学上关于话题的狭义的界定，即一句话的中心主体即为这句话的话题。由于我们希望话题能够更好的延展，所有把围绕话题的中心主体相关属性界定为主话题下的子话题。例如：“你喜欢刘德华吗？”中心主体为刘德华，那这句话的话题为“刘德华”，如果这时我们界定讨论的主话题为“刘德华”，那么当下一句问到“你喜欢听他的《冰雨》吗？”中心主体为“刘德华的《冰雨》”，则为子话题。

话题分为主话题和子话题，需要识别哪些是主话题，哪些是子话题，主话题在明星这一领域下主要是指明星人物，子话题是他的直接属性，是围绕明星人物展开的。此外，如果问题是“你喜欢听《冰雨》吗？”，那这句话聊的话题是音乐，主话题是《冰雨》，如果接下来还问“这首歌是刘德华唱的，你知道刘德华吗？”，那这句话聊的“刘德华”则为子话题。综上，一句话可能有多个话题标签，在某一个话题下是主话题，在另一个话题下则可能为子话题，这样的界定主要跟之后的话题延展相关。

“话题标签”主要用在人机对话交互过程中标注每轮次对话交互所属的话题。针对每一轮对话的问答语句，标注对应的话题，然后对标注了话题的问答语句设置话题ID并存储在存储器中。由于，在本例中决策对话输出数据主要依赖于对话数据库，为了更准确地筛选应答内容，预先利用话题标签对本实施例的对话数据库中问答数据的话题也进行了明确标注。

实施例

图1为本申请实施例的故事机或聊天机器人的应用场景示意图。在该应用场景中，包括智能机器人(也称“对话机器人”)20和云端大脑(云端服务器)10，该智能机器人20与用户U进行语音对话交互。该机器人20除了可以为图1所示的实体机器人以外，还可以为搭载在智能设备上的机器人应用程序，智能设备可以为传统的PC个人电脑、LapTop笔记本电脑、全息投影设备等，也可以是能够随身携带且能通过无线局域网、移动通信网络等无线方式接入互联网的终端设备。本申请实施例中，无线终端包括但不限于手机、Netbook(上网本)等，无线终端一般具有多模态信息采集和数据传输等功能。云端大脑10作为智能机器人20的大脑端，其配置了对话交互处理系统100，该系统100用来处理智能机器人20传输的多模态输入数据，如解析视觉数据，完成视觉识别、视觉检测，以及，执行情感计算、认知计算和语义理解等，主要是对话交互过程中用户的语音数据，从而决策出机器人20待输出的对话语音或其他多模态输出数据。

需要指出的是，本智能机器人的对话交互方法及系统，也适用于适合儿童AI设备，如儿童故事机(一种能满足儿童人群听音乐、故事、国学等音视频的儿童AI设备，该设备可具备动物和人物的卡通IP形象)的对话应用场景，另外，所述故事机可受控于智能手持设备，以完成智能机器人的设置和指令执行。

下面以实体形式的聊天机器人为例来说明本发明涉及的智能机器人的组成和功能。

图2为本申请实施例的故事机或聊天机器人的功能结构框图。如图2所示，该机器人主要是采集与用户交互的多模态交互数据，并将多模态交互数据发送至云端服务器10，向用户输出来自云端服务器的对话交互语句。机器人控制系统主要包括交互信息采集模块2110、通信模块2120、语音输出单元2130、机器人肢体控制单元2210和姿态传感器2220。

交互信息采集模块2110采集外部交互输入信息，其具体包含采集外界语音信息的语音采集单元2111、采集外部触摸压力数据的触摸传感器2112和采集外界图像信息的图像采集单元2113。通信模块2120将交互信息采集模块2110采集到的多模态信息通过联网交互单元2121发送到云端大脑10处进行处理，并接收来该云端大脑10决策出的、响应用户的交互意图而得到的对话输出数据或其他多模态决策数据。联网交互单元2121实现通信模块2120与云端大脑10的数据交互。语音输出单元2130根据语音控制信息输出匹配的语音回应。机器人肢体控制单元2210根据动作控制信息输出匹配的机器人肢体控制信号以驱动机器人的肢体做出相应动作。姿态传感器2220监控机器人当前姿态，这样就可以避免机器人无视当前自身的姿态强行执行动作，从而避免动作姿态错误或失去平衡摔倒等情况的发生。

考虑到各个功能模块的电源需求、数据处理需求以及功能上的不同，该聊天机器人的电子控制系统被构造成上位机系统以及下位机系统两部分。上位机系统以及下位机系统分别各包含一块独立的主控板，上位机系统以及下位机系统的外部电路原件连接到各自的主控板上。这样在保证系统整体的集成度的前提下将资源有冲突的模块分开，从而保证了系统的稳定高效运行。

在本例中，按照图2所示的方式将不同的功能模块分散到上位机系统和下位机系统中。具体来说，将机器人肢体控制单元2210以及姿态传感器2220构造在下位机系统220中，其他功能模块构造在上位机系统210中。

在本实施例中，系统还可以包含显示机器人当前的电量信息的电量显示模块。考虑到电量显示需要的数据处理量不高但是需要一定的电源驱动支持(驱动发光二极管)，因此电量显示模块设置在下位机系统中。在具体操作上，上位机系统的主控板采集并发送机器人当前的电量信息，电量显示模块根据电量信息输出对应的电量显示。

进一步的，为了便于用户了解机器人当前的交互状态，在下位机系统中还设置了显示机器人当前的交互状态的交互显示模块。在具体操作上，上位机系统的主控板采集并发送机器人当前的交互状态，交互状态包括录音状态、语音/动作输出状态以及语义解析状态；交互显示模块根据交互状态输出对应的交互状态显示。

如图3所示的硬件结构框图，上位机系统的主控板为基于全志双核A20处理器的主控板，且集成有无线联网模块(WiFi)、麦克降噪模块以及音频放大模块。其中，A20处理器进行外部交互输入信息的预处理分析，可以生成机器人移动的动作控制指令；WiFi联网模块实现与云端大脑10的数据交互；麦克降噪模块以及连接在主控板上的麦克风实现外界语音信息的采集；音频放大模块以及连接在主控板上的扬声器实现语音回应的输出。

上位机主控板210提供的接口有：电容触摸接口212，三线接口，线序为供电(VCC)接地(GND)输出(OUT)，其连接到触摸模块204；串口通信接口216，三线接口，线序为接地(GND)上行(RX)下行(TX)，其连接到下位机主控板220的串口通信接口217；扬声器接口213，两线接口，线序为音频信号正(Speaker+)音频信号负(Speaker-)(在本例中，具有2个扬声器接口)，其连接到扬声器205；麦克接口211，两线接口，线序为麦克风信号正(Mic+)麦克风信号负(Mic-)，其连接到麦克风203；充电口214，两线接口，线序为供电(VCC)接地(GND)，其连接到机器人充电口201并连接电源管理模块215；电源管理模块215的电池充电接口，两线接口，线序为电源输入(DCIN)接地(GND)，其连接到锂电池202。

下位机系统的主控板为基于意法半导体微控制器STM32的主控板，其上集成有六轴姿态传感器MPU6500以及电机驱动模块。其中，微控制器STM32生成机器人肢体控制信号；六轴姿态传感器MPU6500监控机器人当前姿态；电机驱动模块驱动机器人肢体动作。

下位机主控板220提供的接口有：电源接口，两线接口，线序为VCC GND(未图示)，电源管理模块的稳压芯片223通过电源接口与锂电池202以及上位机主控板210的电源管理模块215相连；串口通信接口227，三线接口，线序为GND RX TX，上位机主控板210以及下位机主控板220之间通过串口通信实现数据传输；三路电机接口，每路为两线接口，线序为电机正(Motor+)电机负(Motor-)，电机驱动(224、225、226)通过三路电机接口驱动机器人的电机(231、232、233)(三个电机分别为两个腿部电机一个手臂电机)运转以实现机器人动作；系统电量显示接口，四线接口，线序为输出(IO)输出(IO)输出(IO)接地(GND)，连接到电量显示灯206(电量显示灯为多色发光二极管(LED)灯，三个IO接口分别对应红R、绿G、蓝B)；交互显示接口，两线接口，线序为PWM GND，连接到交互显示灯207(交互显示灯为鼻子呼吸灯)。

系统上下位机主控板210和220由一个物理开关控制。系统开机过程为：

系统上电，上位机主控板210完成联网、初始化；

下位机主控板220的交互显示灯207处于呼吸状态等待上位机主控板210初始化完成。

交互过程：

上位机主控板210初始化完成，上下位机主控板210和220通过串口(216、217)正常传递数据；

麦克风203采集音频信号，经过对音频的降噪和放大送给上位机主控板210的处理芯片A20，A20通过联网模块将语音信息传递给云端大脑10，云端大脑10返回多模态决策数据经联网模块传回A20，A20控制扬声器205反馈给用户语音回应，与此同时A20将动作控制信息(需要执行的动作)、电量信息以及交互状态信息通过串口发送给下位机主控板220；

下位机主控板220通过串口接收A20的控制指令，完成电量显示，交互显示，腿部及手部动作等多模态交互动作。

在电量显示过程中，系统电量通过RGB三色灯展现：R代表电量不足，B代表电量正常，G代表电量充足。同时上位机主控板210通过扬声器告知用户电量情况。在交互显示过程中，通过PWM控制的LED灯：常亮提示用户此时机器人处于录音状态，常灭提示用户此时机器人语音输出，闪烁提示用户机器人在联网进行语义解析。

下面对云端大脑10的对话交互系统100的各个组成部分和功能进行说明。

如图4所示，对话交互系统100包括话题标签确定模块110、用户意图解析模块120和对话数据生成模块130。下面对上述各个模块的功能进行具体说明。

话题标签确定模块110，其在智能机器人与用户对话交互的过程中，解析上下文对话交互信息，生成对应的话题标签，该话题标签用来标注每一轮次对话交互所属的话题。

具体来说，话题标签确定模块110，其在接收到通信模块2120转发后的语音信息后，响应该语音信息生成对应的文本信息。首先，对经例如去噪预处理后的语音信息进行语音识别的综合分析，生成与语音信息对应的文本信息。接着，对文本信息进行文本分析，即获取文本的具体语义内容。具体地，在获取识别结果之后，利用自然语言处理技术对识别结果进行语义解析。语义分析，指的是将给定的自然语言转化为反映其意义的某种形式化表示，也就是将人类能够理解的自然语言转化为计算机能够理解的形式语言。在获得解析结果后，计算该解析结果与已设定的知识库中的内容的语义相似度(问题和问题的相似度)，从而在知识库中搜索与解析结果相匹配的数据。至此，完成了对对话交互信息的解析操作。

在语义理解之后，可以通过判断得到的语音文本信息中是否存在与话题相关的特定词汇来确定该文本信息的话题。“特定词汇”为事先已被设定好的与话题相关的词汇或短语，例如，明星的名字、电影的名字等内容。而且，本领域技术人员可以根据当前网络技术用语或用户需求更新或添加“特定词汇”，使数据库的内容更加丰富，提高用户体验。可以遍历“特定词汇”数据库中的每个词汇，将得到的语音文本信息与每个特定词汇进行词形相似度和/或语义相似度计算，判断语音文本信息中是否存在对应的特定词汇。当词形相似度大于阈值，且数值极大，则无需计算语义相似度即可判断语音文本存在特定词汇，否则，计算语义相似度和词形相似度的加权和来判断是否存在特定词汇。关于判断得到的语音文本信息中是否存在特定词汇的方法，还可以通过其他技术来实现，此处不做限定。

若没有找到特定词汇，则根据前几轮对话的话题来解析对话交互信息的用户意图，并基于用户意图确定话题。如下示例所示：

Q：最近的动作电影《战狼2》很好看，你看了吗？

A：我没看。

在对该轮对话交互信息中的A内容进行话题判断时，由于没有找到匹配的特定词汇，则无法单纯地依靠特定词汇来确定其主题信息，因此，结合前一交互语句的主题-电影《战狼2》，则可以确定A内容的用户意图是“没看过电影《战狼2》”，由此可以确定话题仍然是电影《战狼2》。随后保存该话题标签与提取该话题标签的对话交互语句的对应关系在某一存储器中，例如：

Q：最近的动作电影《战狼2》很好看，你看了吗？【主题-电影《战狼2》】

A：我没看。【主题-电影《战狼2》】

待确定下一轮对话交互信息的话题内容时，通过从该存储器中调取上下文对话交互的主题就能够很好地完成话题确定处理。

除了通过查找特定词汇的方式来确定话题标签以外，在一个优选示例中，话题标签确定模块110，其利用话题标签确定模型对每轮对话进行话题标签的确定，其中的话题标签确定模型是通过对同一话题下多轮对话的数据进行深度学习训练来形成的。

具体的学习方法如下：

步骤1，获取用于对预设的分类器进行训练的样本信息。本实施例中，选择多个话题下的多轮对话数据，分别利用每个话题下的样本对话数据对预设的分类器进行训练。优选地，可以采集历史上通过人工分类标记为不同主题的语音作为样本数据，在进行训练前将语音信息转换为文本模式。

步骤2，对样本数据进行预处理，去除其中的例如“啊、吗、吧”等噪声文本，得到训练文本。

步骤3，提取训练文本的文本特征。

具体地，可以对训练文本按照预设步长进行切词处理，基于切词结果获取文本特征。

步骤4，将训练文本的文本特征输入到分类器中进行训练，得到目标分类器。

当话题标签确定模块110完成对输入的每轮对话交互信息的语音转文本处理后，将处理得到的文本输入到目标分类器中，即可得到该轮次对话交互信息的主题。通过本方法可以在语音-文本转换得到的内容无实体信息的情况下，例如，对话中包括“没有了”的无实体信息的内容时，仍能准确确定其主题内容，且在处理速度上较上面提到的特定词汇查询方法更加快捷。

用户意图解析模块120，其获取当前轮次用户输出的对话数据，结合上下文对话交互信息的话题标签解析得到用户意图。

对于信息量较为丰富的用户对话数据中，例如包括实体信息的内容，用户意图解析模块120可以按照话题标签确定模块110的语义理解操作，将语音信息生成对应的文本信息，然后进行语义理解获取用户意图。考虑到某些用户对话内容较为简洁，一般不包括具有实际意义的内容，例如“没有”、“看过了”、“还没看”等这些不完整语义的内容，无法简单根据语音对应的文本来直接识别用户的真实意图，因此，在解析用户意图时，优选结合上下文对话交互的话题标签来进行识别。

参照上面的例子，通过语音识别得到的分析结果是“我没看”，而上一对话内容的主题信息为：电影-《战狼2》，因此，通过将二者结合能够确定本次对话交互的真实意图是“没有电影《战狼2》”。相比现有技术来说，如果单纯地依据当前对话内容的解析结果来获取的用户意图会多种多样，那么很容易导致回复的语音信息与实际意图存在较大的偏差，带来不好的用户体验，而本例通过结合上下文对话的主题信息确定意图则能较好地解决上述问题。

对话数据生成模块130，其根据用户意图决策生成对话交互数据。

具体地，对话数据生成模块130，其从对话数据库140选择与话题标签匹配的对话交互内容并结合当前轮次用户对话意图，生成对话交互数据并输出给用户，其中，对话数据库140的数据标注有不同的话题标签。

在对话数据库140中，对同一问题设置不同话题标签下的对应答复方式。具体来说，在该数据库140中，存储了问题和应答内容的列表，其结构是将同一问题可能(概率较大)对应的应答方式均整理出来，且根据应答内容针对不完整语义的问题进行话题标识。如下所示的列表：

其中具体的话题标签确定方法，可以采用话题标签确定模型来实现，即将应答内容输入至该模型中，进而获取对应标签。通过对数据库中的数据打上话题标签，使得当用户输入的问题Q在多个话题中可能出现的时候，能够选择恰当的回复。

对话数据生成模块130，其在确定当前轮次话题标签后，结合其对应答复方式，生成对话交互数据。对于数据库中设定的应答方式均有匹配的输出模版，基于该输出模版生成对话交互数据。

话题1：

Q：有好看的电影推荐吗？

A:听说《罗马假日》不错。

Q:看过了。

A2(正确)：那我再给你推荐一个吧，刚上映的《狼战2》好评如潮哦。

话题2：

Q：我感冒了。

A:可怜的乖乖，去看过医生了吗？

Q:看过了。

A2：那就好，医生怎么说的？

另外，在其他例子中，如图5所示，本发明的对话交互处理系统100还可以包括用户身份识别模块150，其对用户身份进行识别，判断当前用户是否为儿童用户；若为儿童用户，基于为儿童用户搭建的对话数据库和话题标签进行对话交互。

具体可以参考下面的儿童用户识别方法。例如，图像采集单元2113采集当前用户的人脸信息，通过通信模块2120发送给云端大脑10的用户身份识别模块150，其先从场景中检测出人脸的存在并确定其位置。然后，在检测到人脸后，进行人脸识别，即将已检测到的待识别的人脸与数据库中的不同类型人脸进行比较匹配，得到相关信息。人脸识别可以采取提取人脸几何特征的方法和模板匹配的方法，本例中优先采取模板匹配的方法。另外，还可以通过声音特征检测的方式来识别当前用户是否为儿童用户，例如对用户所输入的语音进行识别，判断语音是否为童声。本实施例中，预先在用户身份识别模块150中设置有语音识别模型，通过语音识别模型可以对用户所输入的语音进行识别，以确定该语音的类别。该语音识别模型可以为机器学习模型，通过对大量样本数据的训练和学习后，该机器学习模型可以对语音的类别进行分类。在对语音进行测试之前，需要对分类器进行训练，以获取到目标分类器。具体包括以下步骤：

步骤1，获取用于对预设的分类器进行训练的样本语音。本实施例中，可以对儿童的声音进行采样作为样本语音，利用这些采集到的样本语音对预设的分类器进行训练。优选地，可以采集历史上通过人工分类标记为童声的语音作为样本语音。

步骤2，对样本语音进行语音活动侦测去除训练数据中的静音，得到训练语音。

步骤3，提取训练语音的声学特征。

具体地，可以对训练语音按照预设步长进行分帧，然后按照预设步长对训练语音的每帧提取声学特征，其中，声学特征可以为滤波器组(Filter bank40，简称Fbank40)特征或者梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，简称MFCC)特征。

步骤4，将训练语音的声学特征输入到分类器中进行训练，得到目标分类器。

设置用户身份识别模块150主要考虑到：云端大脑10中的对话数据库中比较繁多，可能包含有敏感内容，或者不良网络信息。用户身份识别模块150在识别出儿童用户后，云端大脑10进一步选择为儿童用户搭建的对话数据库和对话标签进行对话交互，如此能够避免向该儿童用户发送敏感的内容，防止给儿童的身心健康造成不利的影响。

针对儿童用户搭建的对话数据库的结构与前述的数据库结构类似，但其中的问答内容主要包括儿童教育、娱乐等益智类内容，而一些敏感、晦涩难懂的信息则被屏蔽掉，基于该种对话数据库，能够有针对性地输出适宜儿童的对话，而类似成人娱乐文化这种敏感性内容则不会在人机交互中进行推送。

图6为本申请实施例的用于智能机器人的对话交互方法的示例一的流程示意图。下面结合图6来说明本交互系统的交互流程。

如图6所示，在步骤S610中，话题标签确定模块110在智能机器人与用户对话交互的过程中，解析上下文对话交互信息，生成对应的话题标签，所述话题标签用来标注每一轮次对话交互所属的话题；在步骤S620中，用户意图解析模块120获取当前轮次用户输出的对话数据，结合上下文对话交互信息的话题标签解析得到用户意图；在步骤S130中，对话数据生成模块130根据所述用户意图决策生成对话交互数据。

在本发明实施例中，通过深度学习的方法，训练话题标签生成模型，这样，针对任意轮对话，都可以确定对应的话题标签，在接收到用户的语音信息后，结合当前的话题标签，可以生成同一话题下的输出，保证对话的连贯性，进而提高对话质量，提升用户的对话体验。

补充说明

在本实施例中的智能机器人为故事机时，除了上面描述的特点以外，进一步还可以具备如下特征。

(1)故事机可以作为家庭物联网的一部分，与微信实现互联；

(2)具备点播、收藏、语音控制打断、声音等功能；

(3)具备OCR(Optical Character Recognition，光学字符识别)功能，实现语音读绘本及读书的功能；

(4)可以根据儿童用户的喜好，主动进行内容推送。

由于本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在控制核心处理器中。例如，本文所述的方法可以实现为能以控制逻辑来执行的软件，其由操作系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时，该计算机程序包括一组指令，当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中，例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外，本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如，现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑，或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。

应该理解的是，本发明所公开的实施例不限于这里所公开的处理步骤，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韦克礼;赵媛媛
技术所有人：北京光年无限科技有限公司
我是此专利的发明人

上一篇：结构化文本的生成方法、检索方法及装置与流程
上一篇：一种PDF边界及网格线标识的方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。