基于儿童情绪的交互方法及装置与流程

文档序号：15445965发布日期：2018-09-14 23:22阅读：1049来源：国知局

本发明涉及情绪识别技术，尤其涉及一种基于儿童情绪的交互方法及装置，以及应用该方法的电子设备及可读存储介质。

背景技术：

随着人工智能的兴起，人机交互设备越来越广泛地应用到了人们的日常生活中。

以儿童故事机为例，现有技术中的儿童故事机普遍采用的人机交互方式是根据儿童话语中的字面意图返回相应的结果，进行“一问一答”的交互，例如，故事机询问儿童“想听什么故事？”，儿童回答“我想听小红帽”，则故事机在数据库中找到与关键词“小红帽”相对应的故事资源并为其播放。

这种儿童与故事机间的人机交互方式，一方面，由于儿童的表达能力有限，不一定可以准确说出想要收听的故事名称，使得故事机为其随机选择故事播放，但该故事并不一定是儿童想要收听的；另一方面，儿童通常喜欢将能够对话的故事机视为朋友而与其分享自己的心情，然而，故事机都以一种相对固定的话语进行回答，不能根据儿童的情绪给与适宜的答案，且还可能出现因所问非所答，而影响到儿童情绪的情况。

因此，现有的儿童故事机的交互方式比较机械化和生硬，不能很好的理解儿童，不利于语言形成期的儿童的交流能力培养。

技术实现要素：

为解决现有技术中存在的问题，本发明提供一种基于儿童情绪的交互方法、装置、电子设备及可读存储介质，通过对儿童用户的语音交互信息进行内容及语音特征的分析，准确确定其情绪，并根据其情绪提供对应的应答策略。实现准确掌握儿童情绪，提升与儿童交流的和谐性与顺畅性，保证了对儿童情绪的良性引导。

第一方面，本发明实施例提供一种基于儿童情绪的交互方法，包括：

接收儿童用户的语音交互信息；

在所述语音交互信息中确定交互内容；

在所述语音交互信息中确定儿童用户的语音特征；

根据所述交互内容，确定所述儿童用户的情绪特征；

根据所述语音特征，确定所述情绪特征的程度值；

根据所述情绪特征，所述情绪特征的程度值，确定应答策略。

可选地，所述在所述语音交互信息中确定交互内容，包括：

将所述语音交互信息转换为文本信息；

对所述文本信息进行语义分析，在所述文本信息中提取主题词语和/或情感词语，得到交互内容；

相应的，所述根据所述交互内容，确定所述儿童用户的情绪特征，包括：

基于预设的识别规则，根据所述主题词语和/或情感词语，确定所述儿童用户的情绪特征。

可选地，还包括：

基于儿童语言，建立儿童词典；

其中，所述儿童语言至少包括：儿童的叠词表达语言、动物拟人化表达语言；所述儿童词典包含：儿童语言的释义，儿童语言结合上下文的释义，儿童语言的情绪标识；

所述儿童语言的情绪标识用于标识正面情绪类别、负面情绪类别、中性情绪类别。

可选地，所述基于预设的识别规则，根据所述主题词语和/或情感词语，确定所述儿童用户的情绪特征，包括：

在所述儿童词典中确定每个所述主题词语和/或每个所述情感词语对应的情绪标识；

若确定出的各个情绪标识中不包含负面情绪类别，且包含正面情绪类别，则确定所述儿童用户的情绪特征为正面情绪特征；

若确定出的各个情绪标识中不包含正面情绪类别，且包含负面情绪类别，则确定所述儿童用户的情绪特征为负面情绪特征；

若确定出的各个情绪标识中仅包含中性情绪类别，则确定所述儿童用户的情绪特征为中性情绪特征；

若确定出的各个情绪标识中既包含正面情绪类别，又包含负面情绪类别，则根据所述主题词语和/或情感词语在所述语音交互信息中的语序，基于上下文语意，确定所述儿童用户的情绪特征。

可选地，还包括：

获取儿童情绪标注数据，训练得到儿童情绪识别模型；

相应的，所述基于预设的识别规则，根据所述主题词语和/或情感词语，确定所述儿童用户的情绪特征，包括：

将所述主题词语和/或情感词语输入到所述儿童情绪识别模型中，识别得到所述儿童用户的情绪特征。

可选地，所述在所述语音交互信息中确定儿童用户的语音特征，包括：

在所述语音交互信息中确定以下语音特征中的至少一项，语音强度、语速、语调。

可选地，根据所述语音特征，确定所述情绪特征的程度值，包括：

以所述语音交互信息整体作为统计对象，确定所述语音交互信息对应的所述语音特征的平均值；

根据所述语音特征的平均值，确定所述情绪特征的程度值。

可选地，所述根据所述语音特征，确定所述情绪特征的程度值，包括：

确定所述语音交互信息中每个所述主题词语和/或所述情感词语的所述语音特征；

根据不同词性的权重值，对所述语音交互信息的语音特征进行加权计算，得到所述语音交互信息对应的所述语音特征的加权平均值；

根据所述语音特征的加权平均值，确定所述情绪特征的程度值。

可选地，所述应答策略包括：对话谈心应答方式，和/或音频资源播放方式；所述根据所述情绪特征，所述情绪特征的程度值，确定应答策略，包括：

若所述情绪特征为负面的情绪特征，且所述情绪特征的程度值超过预设阈值，确定应答策略为所述对话谈心应答方式；或者确定应答策略为先以所述对话谈心应答方式进行应答，再以所述音频资源播放方式进行应答。

可选地，还包括：

确定所述儿童用户的用户画像；其中，所述用户画像包括以下特征中的至少一个，儿童用户的属性信息、儿童用户的历史交互记录、儿童用户的习惯性用语、儿童用户的作息规律、儿童用户喜好的音频资源、地理位置与儿童用户之间的关联关系；

根据确定的所述儿童用户的用户画像，对所述应答策略进行优化。

可选地，还包括：

获取接收所述语音交互信息的时间信息和/或地点信息；

根据所述时间信息和/或地点信息，基于所述用户画像，确定所述儿童用户当前所处场景；

根据所述当前所处场景，对所述应答策略进行优化。

可选地，还包括：

根据预设周期，生成所述儿童用户的情绪分析报告。

第二方面，本发明实施例提供一种基于儿童情绪的交互装置，包括：

接收模块，用于接收儿童用户的语音交互信息；

确定模块，用于在所述语音交互信息中确定交互内容；在所述语音交互信息中确定儿童用户的语音特征；根据所述交互内容，确定所述儿童用户的情绪特征；根据所述语音特征，确定所述情绪特征的程度值；根据所述情绪特征，所述情绪特征的程度值，确定应答策略。

可选地，所述确定模块，包括：

转换子模块，用于将所述语音交互信息转换为文本信息；

分析子模块，用于对所述文本信息进行语义分析；

提取子模块，用于在所述文本信息中提取主题词语和/或情感词语，得到交互内容；

情绪特征确定子模块，用于基于预设的识别规则，根据所述主题词语和/或情感词语，确定所述儿童用户的情绪特征。

可选地，还包括：

词典模块，用于基于儿童语言，建立儿童词典；

所述儿童语言的情绪标识用于标识正面情绪类别、负面情绪类别、中性情绪类别。

可选地，所述情绪特征确定子模块，具体用于在所述儿童词典中确定每个所述主题词语和/或每个所述情感词语对应的情绪标识；

当确定出的各个情绪标识中不包含负面情绪类别，且包含正面情绪类别时，确定所述儿童用户的情绪特征为正面情绪特征；

当确定出的各个情绪标识中不包含正面情绪类别，且包含负面情绪类别时，确定所述儿童用户的情绪特征为负面情绪特征；

当确定出的各个情绪标识中仅包含中性情绪类别时，确定所述儿童用户的情绪特征为中性情绪特征；

当确定出的各个情绪标识中既包含正面情绪类别，又包含负面情绪类别时，根据所述主题词语和/或情感词语在所述语音交互信息中的语序，基于上下文语意，确定所述儿童用户的情绪特征。

可选地，还包括：

识别模型模块，用于获取儿童情绪标注数据，训练得到儿童情绪识别模型；

相应的，所述情绪特征确定子模块，具体用于将所述主题词语和/或情感词语输入到所述识别模型模块的所述儿童情绪识别模型中，识别得到所述儿童用户的情绪特征。

可选地，所述确定模块，包括：

语音特征确定子模块，用于在所述语音交互信息中确定以下语音特征中的至少一项，语音强度、语速、语调。

可选地，所述确定模块，包括：

第一程度值确定子模块，用于以所述语音交互信息整体作为统计对象，确定所述语音交互信息对应的所述语音特征的平均值；根据所述语音特征的平均值，确定所述情绪特征的程度值。

可选地，所述确定模块，包括：

第二程度值确定子模块，用于确定所述语音交互信息中每个所述主题词语和/或所述情感词语的所述语音特征；根据不同词性的权重值，对所述语音交互信息的语音特征进行加权计算，得到所述语音交互信息对应的所述语音特征的加权平均值；根据所述语音特征的加权平均值，确定所述情绪特征的程度值。

可选地，所述应答策略包括：对话谈心应答方式，和/或音频资源播放方式；所述确定模块，包括：

第一确定子模块，用于当所述情绪特征为负面的情绪特征，且所述情绪特征的程度值超过预设阈值时，确定应答策略为所述对话谈心应答方式；或者确定应答策略为先以所述对话谈心应答方式进行应答，再以所述音频资源播放方式进行应答。

可选地，所述确定模块，还包括：

用户画像确定子模块，用于确定所述儿童用户的用户画像；其中，所述用户画像包括以下特征中的至少一个，儿童用户的属性信息、儿童用户的历史交互记录、儿童用户的习惯性用语、儿童用户的作息规律、儿童用户喜好的音频资源、地理位置与儿童用户之间的关联关系；

优化子模块，用于根据所述用户画像确定子模块确定的所述儿童用户的用户画像，对所述应答策略进行优化。

可选地，所述装置，还包括：

获取模块，用于获取接收所述语音交互信息的时间信息和/或地点信息；

所述确定模块还包括：

场景确定子模块，用于根据所述时间信息和/或地点信息，基于所述用户画像，确定所述儿童用户当前所处场景；

所述优化子模块，还用于根据所述当前所处场景，对所述应答策略进行优化。

可选地，还包括：

生成模块，用于根据预设周期，生成所述儿童用户的情绪分析报告。

第三方面，本发明实施例提供一种电子设备，包括：

处理器；存储器；以及程序；其中，所述程序被存储在所述存储器中，并且被配置为由所述处理器执行，所述程序包括用于执行如第一方面所述的方法的指令。

第四方面，本发明实施例提供一种电子设备可读存储介质，所述电子设备可读存储介质存储有程序，所述程序使得电子设备执行第一方面所述的方法。

本发明提供的基于儿童情绪的交互方法、装置、电子设备及可读存储介质，通过接收儿童用户的语音交互信息；在该语音交互信息中确定交互内容；并在该语音交互信息中确定儿童用户的语音特征；然后，根据交互内容，确定儿童用户的情绪特征；根据语音特征，确定该情绪特征的程度值；根据情绪特征，情绪特征的程度值，确定应答策略。实现准确掌握儿童情绪，提升与儿童交流的和谐性与顺畅性，保证了对儿童情绪的良性引导。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一示例性实施例示出的本发明基于儿童情绪的交互方法的流程图；

图2为另一示例性实施例示出的本发明基于儿童情绪的交互方法的流程图；

图3为一示例性实施例示出的本发明基于儿童情绪的交互装置的结构示意图；

图4为另一示例性实施例示出的本发明基于儿童情绪的交互装置的结构示意图；

图5a为一示例性实施例示出的本发明电子设备的结构示意图；

图5b为另一示例性实施例示出的本发明电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为一示例性实施例示出的本发明基于儿童情绪的交互方法的流程图，如图1所示，本发明实施例提供了一种基于儿童情绪的交互方法，该方法可以由任意执行基于儿童情绪的交互方法的装置来执行，该装置可以通过软件和/或硬件实现。本实施例中，执行该基于儿童情绪的交互方法的装置可以集成在用户的电子设备中，也可以集成在与用户的电子设备进行网络数据交互的云端服务器中。其中，电子设备，包括但不限于儿童交互设备(故事机、智能手表、交互机器人)、智能手机、平板电脑、便携式计算机和台式计算机等。其通过接收儿童的语音交互信息，基于本发明的基于儿童情绪的交互方法对该语音交互信息进行分析识别，得到符合儿童用户当前情绪的应答策略，从而以更加理解儿童情绪的方式与儿童进行顺畅的交流。云端服务器可以包括一台或多台用于执行运算、分析、存储等功能的服务器，以执行该基于儿童情绪的交互方法的装置为故事机为例，故事机接收儿童的语音交互信息，发送给云端服务器，云端服务器接收到该语音交互信息后，基于本发明的基于儿童情绪的交互方法对该语音交互信息进行分析识别，得到符合儿童用户当前情绪的应答策略，将该应答策略通过网络传输反馈给故事机，实现故事机以更加理解儿童情绪的方式与儿童进行顺畅的交流。以下各个实施例中的执行主体均以故事机为例进行说明，本实施例的基于儿童情绪的交互方法包括：

步骤101、接收儿童用户的语音交互信息。

在本实施例中，故事机内的音频接收器件，如麦克风等，可以接收儿童用户的语音交互信息，该语音交互信息为故事机感应到的儿童所发出的语音信息。其中，语音交互信息可以包含有儿童向故事机发出的指令性语言，例如，指示故事机“我想听索菲亚公主的故事”，“咱们两个聊聊天吧”等；也可以仅仅包含儿童发出的声音信息，例如，啼哭声，笑声，或是感叹声“哎～～”，“啊，啊，啊～～～”等。

步骤102、在语音交互信息中确定交互内容。

在本实施例中，所谓交互内容，就是在语音交互信息中识别出的意图，例如，儿童用户表达其想听索菲亚公主的故事的意图时，可能不会像成人一样可以准确无误的表达出来，而是在表达其意愿的过程中，加入了停顿、拉长音、叠词等各种干扰因素，例如，儿童用户表达出的语音交互信息可能为，“我……嗯…….索菲亚…….喵～～～～喵～～～～～听听……..”，则故事机需要从该语音交互信息中确定中交互内容，该交互内容可以为以文字形式能够表达出的内容，例如，故事机确定出的交互内容可以为“我嗯索菲亚喵喵听听”；故事机也可以根据预设的识别规则，例如，去除感叹词，叠词简化，语序调整等规则，在该语音交互信息中确定出“我听索菲亚，喵”的交互内容。从而使得故事机可以根据从语音交互信息中确定出交互内容，并根据交互内容识别其语意，以确定儿童的意图。对于在语音交互信息中从何得到交互内容可以采用现有技术中语义识别、分词处理等技术，本实施例对此不作具体限定。

步骤103、在语音交互信息中确定儿童用户的语音特征。

在本实施例中，所谓语音特征为用于对声音进行评估和描述的特征。其可以包括，反映声音能量的声强；反映声音强弱程度的响度；例如，声音频率一定时，声强越强，响度越大；还可以包括，反映听觉系统对声音频率高低感觉的音高，用于识别发声者性别的基音周期，信噪比等特征。其中，语音特征中所包含的特征维度可以由本领域技术人员根据识别需求自行确定，本实施例对此不作具体限定。通过分析语音特征，有助于确定儿童用户的属性信息，例如，儿童用户为男孩还是女孩；根据语音特征反映出的声线特征还可以确定儿童的大致年龄阶段等；从而为描述用户画像提供了预测数据。此外，一句话以不同的音强进行表达时，语音特征还可以反映出说话者的情绪状态，例如，儿童表达“我想听索菲亚公主的故事”时以较为轻柔的语调进行表达，则可以确定此时儿童情绪较为平和，预测其真的是想听这个故事；而当儿童以嘶吼的语调表达“我想听索菲亚公主的故事”的相同内容时，很可能此时儿童刚刚与人发生过争吵，非常气愤，则虽然儿童表达了其想听该故事，但真是情况可能是，儿童并非真的想要听故事，而是以故事机作为发泄对象，向其释放情绪，则此刻若为儿童播放该故事似乎就不是很合适，而是应该根据儿童此刻的情绪，采用其他的交流方式，以舒缓其愤怒的情绪。因此，通过从语音交互信息中确定儿童的语音特征，可以更加准确地掌握儿童的情绪状态。

步骤104、根据交互内容，确定儿童用户的情绪特征。

在本实施例中，言语通常都是表达情绪最直接的方式，情绪以大类来划分，可以概括为喜、怒、哀、乐；通过对词语的辨识，可以较为准确地掌握说话者的情绪。举例来说，儿童用户在表达“喜”的情感时，可能会说“今天真开心”；则通过步骤102中确定出的交互内容“开心”可以初步确定儿童的情绪特征倾向于开心；而当儿童在表达“怒”的情感时，可能会说“我讨厌你”；则通过步骤102中确定出的交互内容“讨厌”可以初步确定儿童的情绪特征倾向于不开心或生气。其中，对于情绪特征的分类，可以基于喜、怒、哀、乐衍生出更为细化的分类，例如，喜还可以分为，高兴、喜欢；怒还可以分为，生气、恨；此外，还可以包括的情绪特征有，恐惧，害怕等。通过对情绪特征进行类别或子类别的细分，提升情绪识别的准确率。

步骤105、根据语音特征，确定情绪特征的程度值。

在本实施例中，如前步骤103所述，语音特征中的音高、音调、语速等特征可以在一定程度上反映出说话者的情绪，例如，例子a、当妈妈对孩子温柔地说“快点儿吃啊～～”则在一定程度上反映出时间上并不是很紧急，可能只是希望孩子可以更加专心在吃饭这件事情上的一种表达习惯；然而，例子b、若妈妈对孩子嘶吼般的说“快！点！吃！啊！！！”，则有可能反映出的情况是，妈妈的情绪为生气；也有可能时间确实非常紧迫了。因此，基于语音特征可以对步骤104确定出的情绪特征，如“着急”的情绪特征进行程度值的评估，例如，针对上述例子a的情况，其“着急”的情绪程度值小于例子b中的情绪程度值；即例子a反映出了“一般着急”、“时间不是非常紧张”的情绪特征；例子b反映出了“非常着急”、“十分紧张”的情绪特征。

步骤106、根据情绪特征，情绪特征的程度值，确定应答策略。

在本实施例中，根据从交互内容中确定出的情绪特征，并根据从语音特征中确定出的情绪特征的程度值，确定与交互内容对应且符合儿童情绪的应答策略。举例来说，接收到儿童用户的语音交互信息为儿童哭着说“我今天不开心，呜呜～～～～”，从中确定出交互内容为“我今天不开心，呜呜”；则根据该交互内容，确定儿童的情绪特征为“不开心”、“伤心”等情绪；基于儿童在该交互信息中传达出的哭声，确定儿童的语音特征为能够标识出“哭泣声”的一些声音特征(如，哭泣声的声音强度、抽泣声的持续时间等特征)，则根据该“哭泣声”的语音特征，确定儿童的情绪特征“不开心”、“伤心”的程度值为“中度伤心”，或“非常地不开心”。从而故事机可以采用的应答策略可以为，与儿童谈心，询问儿童“你怎么了？为什么哭了？”，或者为儿童播放其最喜欢的故事，以对症缓解其悲伤的情绪。

本发明实施例提供的基于用户情绪的交互方法，通过接收儿童用户的语音交互信息；在该语音交互信息中确定交互内容；并在该语音交互信息中确定儿童用户的语音特征；然后，根据交互内容，确定儿童用户的情绪特征；根据语音特征，确定该情绪特征的程度值；根据情绪特征，情绪特征的程度值，确定应答策略。实现准确掌握儿童情绪，提升与儿童交流的和谐性与顺畅性，保证了对儿童情绪的良性引导。

图2为另一示例性实施例示出的本发明基于用户情绪的交互方法的流程图。在图1所示实施例的基础上，本实施例的基于用户情绪的交互方法具体包括：

步骤201、接收儿童用户的语音交互信息。

步骤202、将语音交互信息转换为文本信息。

在本实施例中，可以采用现有技术中将语音交互信息中具有语义信息的文字提取出来的技术，形成文本信息。由于文本信息一般占用的存储空间以及计算过程中占用的处理器资源都比较小，因此，将语音交互信息翻译为对应的文本有利于提升情绪确定过程中对文本信息的处理效率，且处理效率的提升有利于保证情绪分析的正确率。举例来说，接收到儿童的语音交互信息为“我今天啊，去了幼儿园呢，哈～～～哈～～～～哈～～～哈～～～～”，则转换后的文本信息可以为“我今天啊去了幼儿园呢哈”。其中，对于持续的笑声“哈～～～哈～～～～哈～～～哈～～～～”的转换，以保留能够准确识别的语言要素为原则进行文本确定，例如，笑声中可以清楚识别到的一个或多个“哈”字作为该笑声的文本信息，则在文本信息中保留相应个数的“哈”字。

步骤203、对文本信息进行语义分析，在文本信息中提取主题词语和/或情感词语，得到交互内容。

在本实施例中，通过对文本信息进行语义分析，从转换得到的文本信息中提取出具有分析价值的元素，如主题词语、情感词语；其中，对于语义分析可以采用现有技术中的分词技术，如以以下粒度中的至少一种：单个汉字、单个字符、单个单词、短语对文本信息进行分词，并根据分词中的词性或语法等特征，提取出可以表达一句话主题内容的主题词语，和/或，可以表达说话者情感倾向的情感词语。如步骤202中的例子，儿童说“我今天啊去了幼儿园呢哈”其中，提取出的主题词语可以为“幼儿园”，情感词语可以为“啊”、“呢”、“哈”等语气词语。则通过主题词语“幼儿园”可以在应答策略中回应与幼儿园有关的内容，通过情感词语“啊”、“呢”、“哈”等语气词语，可以判断儿童现在的情绪较为开心，从而在应答策略中配合以欢快的内容。

步骤204、基于预设的识别规则，根据主题词语和/或情感词语，确定儿童用户的情绪特征。

在本实施例中，该预设的识别规则可以为基于儿童词典，查找主题词语和/或情感词语在词典中对应的情绪特征。其中，所谓儿童词典，是基于儿童语言建立的，也就是说，儿童词典是针对儿童语言中的语言习惯形成的词典。

其中，儿童语言至少可以包括：儿童的叠词表达语言、动物拟人化表达语言等；该儿童词典中可以包含：儿童语言的释义，儿童语言结合上下文的释义，儿童语言的情绪标识等；其中，儿童语言的情绪标识可以用于标识儿童所表达的语言中的正面情绪类别、负面情绪类别、或中性情绪类别。

例如，儿童喜欢说叠词，如“好好呢”，“吃果果”，则儿童词典中除了有“好”的释义，还可以有对叠词“好好”的释义，如对叠词“好好”的释义可以为“非常的好、非常的喜欢”；所谓儿童语言结合上下文的释义，是基于儿童语言表达一般没有成人严谨，其表达习惯中可能会出现褒贬义混用，前后语序混乱等情况，因此，仅仅根据分词处理后得到的词面意思确定出的含义可能并非是儿童的本意，因此，可以基于上下文对词语进行释义，例如，儿童说“妈妈坐坐发沙”，词语“发沙”在儿童词典中可能并不存在其释义，但是结合上下文根据“发沙”前面的“坐”可以判断“发沙”为“沙发”的语序颠倒，则结合上下文可以正确对“发沙”进行释义。再例如，儿童说“我好不喜欢你，亲亲小猫咪”，根据“不”确定儿童要表达的为不喜欢，但是，根据上下文，“好不喜欢”，则表达为喜欢，若在儿童词典中对“好不喜欢”存在“喜欢”和“不喜欢”的多种释义，则还可以继续根据上下文“亲亲小猫咪”，确定“好不喜欢”在本句中表达出的为“喜欢”、“高兴”的情绪。因此，对于“好不喜欢”这个词在儿童词典中可以以“喜欢”、“高兴”、“开心”等情绪标识进行标识。该情绪标识指示出儿童现在的情绪为正面情绪类别，而对于正面、负面、中性等情绪类别，本领域技术人员可以根据统计数据进行细分类，以实现更为丰富和准确的儿童词典，提升情绪识别的准确性。

基于该儿童词典，可以在儿童词典中确定每个主题词语和/或每个情感词语对应的情绪标识；

a)若确定出的各个情绪标识中不包含负面情绪类别，且包含正面情绪类别，则确定儿童用户的情绪特征为正面情绪特征；

具体的，语音交互信息提取出的主题词语和情感词语可能有多个，则通过在儿童词典中查询，以确定每个词语的情绪特征。若确定每个词语表达出的情绪特征都是正面的，或者是正面或中性的，则可以确定整句话表达的情感为正面情绪。例如，儿童说“猫咪今天好美丽”，则提取出的主题词语可以为“猫咪”、“今天”；情感词语可以为“好”、“美丽”；基于儿童词典“猫咪”、“今天”的情绪标识可以为中性情绪特征，而“好”、“美丽”的情绪标识可以为正面情绪特征，因此，确定整句话表达的情绪特征为正面情绪特征。

b)若确定出的各个情绪标识中不包含正面情绪类别，且包含负面情绪类别，则确定儿童用户的情绪特征为负面情绪特征；

举例来说，儿童说“我讨厌猫咪”，则提取出的主题词语可以为“猫咪”，其中“我”基于主题词语提取的规则可以被确定为主题词语，也可以被确定为人称代词而被忽略，本领域技术人员可以根据预设的语义分析规则进行确定，本实施例对此不作具体限定。该句中的情感词语为“讨厌”；基于儿童词典“猫咪”、“我”的情绪标识可以为中性情绪特征，而“讨厌”的情绪标识可以为负面情绪特征，因此，确定整句话表达的情绪特征为负面情绪特征。

c)若确定出的各个情绪标识中仅包含中性情绪类别，则确定儿童用户的情绪特征为中性情绪特征；

举例来说，儿童说“我今天去了幼儿园”，则提取出的主题词语可以为“今天”，“幼儿园”，也可以为“我”、“今天”、“去了”、“幼儿园”，该句中不包含情感词语，则基于儿童词典，上述这些词语可以被标识为中性情绪特征，则确定整句话表达的情绪特征为中性情绪特征。

d)若确定出的各个情绪标识中既包含正面情绪类别，又包含负面情绪类别，则根据主题词语和/或情感词语在语音交互信息中的语序，基于上下文语意，确定儿童用户的情绪特征。

举例来说，儿童说“我好讨厌猫咪”，则提取出的主题词语可以为“猫咪”，该句中的情感词语可以为“好”、“讨厌”；基于儿童词典“猫咪”的情绪标识可以为中性情绪特征，而“好”的情绪标识可以为正面情绪特征，“讨厌”的情绪标识可以为负面情绪特征，则此时可以根据“好”及“讨厌”在原句中的语序，基于上下文语意，确定“好讨厌”为负面情绪特征。需要说明的是，对于“好讨厌”的情绪识别，既可以根据d)中的识别方式确定为负面情绪，也可能根据儿童的表达习惯，在儿童字典中所包含的儿童语言结合上下文的释义中确定出“好讨厌”作为整个词语标识“不喜欢”的情绪特征。

该预设的识别规则除了可以基于儿童词典，查找主题词语和/或情感词语在词典中对应的情绪特征，还可以基于儿童情绪识别模型，对儿童语言表达中的情绪进行识别。

首先，需要建立该儿童情绪识别模型，通过获取儿童情绪标注数据，训练得到儿童情绪识别模型；然后将主题词语和/或情感词语输入到该儿童情绪识别模型中，识别得到儿童用户的情绪特征。

对于前一种儿童词典的方式，其是基于大量的统计数据，得到的字典式查询规则；而对于语言的千变万化，以及跟随流行随时发生的语言的演变，儿童词典的更新将会受到较大的挑战，因此，可以基于神经网络等先进算法，对大数据量的儿童习惯用语进行训练，使该模型通过不断学习儿童的说话方式，得到对儿童语言所表达出的情绪具有识别能力的儿童情绪识别模型，以实现对儿童情绪的准确识别，并可以通过不断的学习与训练进行更新，提升识别的准确率。

步骤205、在语音交互信息中确定以下语音特征中的至少一项，语音强度、语速、语调。

在本实施例中，语音强度可以包含声强、响度、音高等声音特征；

语速可以通过单位时间内所包括的词汇容量，反映儿童的紧张、急迫、欢快、兴奋等情绪表现；

语调是说话的腔调，指示高低抑扬轻重的配制和变化。一句话的语调意义可以表示出说话者的态度或口气。同样的句子，语调不同，意思就会不同。例如，儿童说“我今天要做作业”若采用的语调为平稳的语调或较为低沉的语调，可能表示其不太愿意做作业，不太开心的情绪；而若采用的语调为升调，则该句话表达出了问句“我今天要做作业”？的效果。

因此，通过对语音交互信息中的语音强度、语速、语调等的识别，明确儿童用户的情绪倾向。

步骤206、根据语音特征，确定情绪特征的程度值。

在本实施例中，在确定情绪特征的程度值的时候，可以基于整句话的语音特征进行统计，也可以基于整句话中的每个词语的语音特征进行统计。具体的，

第一种方式，以语音交互信息整体作为统计对象，确定语音交互信息对应的语音特征的平均值；根据语音特征的平均值，确定情绪特征的程度值。

第二种方式，确定语音交互信息中每个主题词语和/或情感词语的语音特征；根据不同词性的权重值，对语音交互信息的语音特征进行加权计算，得到语音交互信息对应的语音特征的加权平均值；根据语音特征的加权平均值，确定情绪特征的程度值。

上述两种方式各有利弊，第一种方式，根据整句表达的语音特征，例如根据语音波形，统计得到语音特征的平均值，该平均值可以与预设的阈值进行比对，以确定其所反映出的情绪特征的程度值。其好处是，算法量小，算法简单，有效提升确定情绪特征的程度值的效率。但是，由于是基于整句的表达进行的平均，有时整句中可能仅存在个别词语的语调或语音强度有比较强烈的变化，则对整体的语音特征进行取平均运算时，这种强化的作用有可能被弱化了，平均掉了。第二种方式，其对整句中的每个主题词语和/或情感词语的语音特征进行提取，并且还根据词语的词性赋予了不同权重值，通过对每个词语进行加权处理，并对整句进行加权平均计算，得到程度值。这种方式确定出的程度值更为精确，但是由于是对每个词语的语音特征进行确定，并进行加权运算，因此，相较于第一种方式，计算量会有些大，但准确率会有所提升。举例来说，儿童用户说“我不！！！喜欢吃萝卜”，其在表达词语“不”时采用了高声调，且“不”作为否定词的词性，被赋予较大的权重值，则加权平均计算后，该句所表达出的负面情绪的程度值会被增强。

步骤207、根据情绪特征，情绪特征的程度值，确定应答策略。

在本实施例中，应答策略可以包括：对话谈心应答方式，和/或音频资源播放方式；则，若情绪特征为负面的情绪特征，且情绪特征的程度值超过预设阈值，可以确定应答策略为对话谈心应答方式；或者确定应答策略为先以对话谈心应答方式进行应答，再以音频资源播放方式进行应答。

也就是说，当儿童处于情绪非常低落的时候，应该以较为关切的形式应答，如与其进行对话，从而了解其情绪低落的原因；若此时，直接以音乐或故事回应儿童，会使儿童感觉自己的情绪被忽略了，而越发地情绪低落。因此，对于负面的情绪特征，应答策略可以为对话谈心的应答方式；或者先与其对话谈心，再根据其情绪变化，穿插入音频资源(如儿童喜欢的歌曲或故事)进行情绪舒缓。

步骤208、根据确定的儿童用户的用户画像和/或根据当前所处场景，对应答策略进行优化。

在本实施例中，在确定应答策略的时候，除了根据上述步骤201～步骤207中对儿童的语音交互信息进行分析从而确定应答策略外，该应答策略还可以结合儿童的用户画像(如，男孩还是女孩，喜欢什么，讨厌什么等)进行确定。有关用户画像的确定方式，本领域技术人员可以采用现有技术中确定用户画像的方法，如分析用户以往的交互记录进行确定。本实施例对此不作具体的限定。

其中，用户画像可以包括以下特征中的至少一个，儿童用户的属性信息、儿童用户的历史交互记录、儿童用户的习惯性用语、儿童用户的作息规律、儿童用户喜好的音频资源、地理位置与儿童用户之间的关联关系等；从而根据确定的儿童用户的用户画像，对应答策略进行优化。

此外，故事机还可以获取接收语音交互信息的时间信息和/或地点信息；根据时间信息和/或地点信息，基于用户画像，确定儿童用户当前所处场景；根据当前所处场景，对应答策略进行优化。

举例来说，根据前述步骤201～步骤207，确定出儿童当前的情绪为开心，然而，此时获取到的地点信息为该儿童的家里，时间信息为晚上9点，则根据儿童的用户画像，发现儿童一般的睡觉时间为9点30分左右，则根据步骤207确定的应答策略可能为播放一段欢快的音乐，但是考虑到当前的场景为儿童入睡前，则可以在欢快的音乐中选择一首较为舒缓的曲目，从而有助于儿童在9点30分左右准时入睡。因此，与多维度的考虑因素(如用户画像，时间，地点等)相结合，可以使得应答策略更为优化，使其在符合儿童用户的情绪的同时，有助于将其情绪向更为良性的方向引导。

可选的，还可以根据预设周期，生成儿童用户的情绪分析报告，以使家长可以更加了解自己的孩子。

图3为一示例性实施例示出的本发明基于儿童情绪的交互装置的结构示意图，该装置可以为支持信息通信的各种电子设备，包括但不限于儿童交互设备(故事机、智能手表、交互机器人)、智能手机、平板电脑、便携式计算机和台式计算机等。该基于儿童情绪的交互装置还可以设置在云端服务器中，云端服务器通过与儿童交互设备(故事机、智能手表、交互机器人)、智能手机、平板电脑、便携式计算机和台式计算机等电子设备进行网络数据交互，实现针对儿童情绪提供应答策略的服务。其中，云端服务器可以包括一台或多台用于执行运算、分析、存储等功能的服务器，以儿童交互设备为故事机为例，故事机接收儿童的语音交互信息，发送给云端服务器，云端服务器接收到该语音交互信息后，基于前述实施例中的基于儿童情绪的交互方法对该语音交互信息进行分析识别，得到符合儿童用户当前情绪的应答策略，将该应答策略通过网络反馈给故事机，实现故事机以更加理解儿童情绪的方式与儿童进行顺畅的交流。该基于儿童情绪的交互装置可以通过软件、硬件或者软硬件结合的方式实现。如图3所示，该装置包括：

接收模块31，用于接收儿童用户的语音交互信息。

确定模块32，用于在语音交互信息中确定交互内容；在语音交互信息中确定儿童用户的语音特征；根据交互内容，确定儿童用户的情绪特征；根据语音特征，确定情绪特征的程度值；根据情绪特征，情绪特征的程度值，确定应答策略。

本实施例提供的基于儿童情绪的交互装置，可以执行上述图1所示的方法实施例，其实现原理和技术效果类似，在此不再赘述。

本实施例提供的基于用户情绪的交互装置，通过接收儿童用户的语音交互信息；在该语音交互信息中确定交互内容；并在该语音交互信息中确定儿童用户的语音特征；然后，根据交互内容，确定儿童用户的情绪特征；根据语音特征，确定该情绪特征的程度值；根据情绪特征，情绪特征的程度值，确定应答策略。实现准确掌握儿童情绪，提升与儿童交流的和谐性与顺畅性，保证了对儿童情绪的良性引导。

图4为另一示例性实施例示出的本发明基于儿童情绪的交互装置的结构示意图，如图4所示，在上述实施例的基础上，该装置还包括：

确定模块32，包括：

转换子模块321，用于将语音交互信息转换为文本信息。

分析子模块322，用于对文本信息进行语义分析。

提取子模块323，用于在文本信息中提取主题词语和/或情感词语，得到交互内容。

情绪特征确定子模块324，用于基于预设的识别规则，根据主题词语和/或情感词语，确定儿童用户的情绪特征。

可选的，还包括：

词典模块33，用于基于儿童语言，建立儿童词典。

其中，儿童语言至少包括：儿童的叠词表达语言、动物拟人化表达语言；儿童词典包含：儿童语言的释义，儿童语言结合上下文的释义，儿童语言的情绪标识。

儿童语言的情绪标识用于标识正面情绪类别、负面情绪类别、中性情绪类别。

可选的，情绪特征确定子模块324，具体用于在儿童词典中确定每个主题词语和/或每个情感词语对应的情绪标识。

当确定出的各个情绪标识中不包含负面情绪类别，且包含正面情绪类别时，确定儿童用户的情绪特征为正面情绪特征；

当确定出的各个情绪标识中不包含正面情绪类别，且包含负面情绪类别时，确定儿童用户的情绪特征为负面情绪特征；

当确定出的各个情绪标识中仅包含中性情绪类别时，确定儿童用户的情绪特征为中性情绪特征；

当确定出的各个情绪标识中既包含正面情绪类别，又包含负面情绪类别时，根据主题词语和/或情感词语在语音交互信息中的语序，基于上下文语意，确定儿童用户的情绪特征。

可选的，还包括：

识别模型模块34，用于获取儿童情绪标注数据，训练得到儿童情绪识别模型。

相应的，情绪特征确定子模块324，具体用于将主题词语和/或情感词语输入到识别模型模块的儿童情绪识别模型中，识别得到儿童用户的情绪特征。

可选的，确定模块32，包括：

语音特征确定子模块325，用于在语音交互信息中确定以下语音特征中的至少一项，语音强度、语速、语调。

可选的，确定模块32，包括：

第一程度值确定子模块326，用于以语音交互信息整体作为统计对象，确定语音交互信息对应的语音特征的平均值；根据语音特征的平均值，确定情绪特征的程度值。

可选的，确定模块32，包括：

第二程度值确定子模块327，用于确定语音交互信息中每个主题词语和/或情感词语的语音特征；根据不同词性的权重值，对语音交互信息的语音特征进行加权计算，得到语音交互信息对应的语音特征的加权平均值；根据语音特征的加权平均值，确定情绪特征的程度值。

可选的，应答策略包括：对话谈心应答方式，和/或音频资源播放方式；确定模块32，包括：

第一确定子模块328，用于当情绪特征为负面的情绪特征，且情绪特征的程度值超过预设阈值时，确定应答策略为对话谈心应答方式；或者确定应答策略为先以对话谈心应答方式进行应答，再以音频资源播放方式进行应答。

可选的，确定模块32，还包括：

用户画像确定子模块329，用于确定儿童用户的用户画像；其中，用户画像包括以下特征中的至少一个，儿童用户的属性信息、儿童用户的历史交互记录、儿童用户的习惯性用语、儿童用户的作息规律、儿童用户喜好的音频资源、地理位置与儿童用户之间的关联关系。

优化子模块330，用于根据用户画像确定子模块确定的儿童用户的用户画像，对应答策略进行优化。

可选的，还包括：

获取模块35，用于获取接收语音交互信息的时间信息和/或地点信息。

确定模块32还包括：

场景确定子模块331，用于根据时间信息和/或地点信息，基于用户画像，确定儿童用户当前所处场景。

优化子模块330，还用于根据当前所处场景，对应答策略进行优化。

可选的，还包括：

生成模块36，用于根据预设周期，生成儿童用户的情绪分析报告。

本实施例提供的基于用户情绪的交互装置，可以执行上述图2所示的方法实施例，其实现原理和技术效果类似，在此不再赘述。

图5a为一示例性实施例示出的本发明电子设备的结构示意图。电子设备500包括：处理单元502和通信单元503。处理单元502用于对电子设备500的动作进行控制管理，例如，处理单元502用于支持电子设备500执行图1的步骤102-步骤106，处理单元502还可以用于支持电子设备500执行图2的步骤202-步骤208，和/或用于本发明所描述的技术的其它过程。通信单元503用于电子设备500与其它网络实体的通信，还可以用于支持电子设备500执行图1的步骤101、或者图2的步骤201。电子设备500还可以包括存储单元501，用于存储电子设备500的程序代码和数据。

其中，处理单元502可以是处理器或控制器，例如可以是cpu，通用处理器，数字信号处理器(digitalsignalprocessor，dsp)，专用集成电路(application-specificintegratedcircuit，asic)，现场可编程门阵列(fieldprogrammablegatearray，fpga)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，dsp和微处理器的组合等等。通信单元503可以是通信接口、收发器、收发电路等，其中，通信接口是统称，可以包括一个或多个接口。存储单元501可以是存储器。

当处理单元502为处理器，通信单元503为通信接口，存储单元501为存储器时，本发明所涉及的电子设备可以为图5b所示的电子设备510。

参阅图5b所示，该电子设备510包括：处理器512、通信接口513、存储器511。可选的，电子设备510还可以包括总线514。其中，通信接口513、处理器512以及存储器511可以通过总线514相互连接；总线514可以是外设部件互连标准(peripheralcomponentinterconnect，简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture，简称eisa)总线等。总线514可以分为地址总线、数据总线、控制总线等。为便于表示，图5b中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

另外，存储器511中存储有程序，并且被配置为由处理器512执行，该程序包括用于执行如上任一实施例所述的方法的指令。

本发明实施例还提供一种电子设备可读存储介质，其中，电子设备可读存储介质存储有程序，程序使得服务器执行前述任一实施例提供的基于用户情绪的交互方法。其中，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄鸣夏;钱隽夫
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：一种纸塑复合的箱式八边封袋的制作方法
上一篇：一种组焊装置、方法及采油树导向架与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。