基于情绪引擎技术的语音交互方法、智能终端及存储介质与流程

文档序号:21365553发布日期:2020-07-04 04:40阅读:199来源:国知局
基于情绪引擎技术的语音交互方法、智能终端及存储介质与流程

本发明涉及互联网交互技术领域,具体涉及一种基于情绪引擎技术的语音交互方法、智能终端及存储介质。



背景技术:

随着人机交互技术的持续创新,人们的交互方式在不断改变,从鼠标、键盘、遥控器再到触屏,交互方式越来越简单。计算机的第一平台时代,人和机器的交互只能通过键盘和鼠标,这个时期的技术只能存在于机房,操作十分繁琐;到了第二平台时代,计算机增加了一些相对友好的交互界面设计,人们无需在dos界面输入命令,通过简单的界面操作即可与计算机交互,交互体验得到了很大提升;到了第三平台时代,触屏技术兴起,人们直接动动手指即可完成交互操作,摆脱了键盘鼠标等辅助交互设备的束缚,交互方式更加便捷,同时也为移动设备的改革提供了可能,使得技术能够存在于人人的口袋里。而人工智能技术的兴起,为更加自然的交互方式提供了可能——自然语言会话,使用者可通过自然语言的方式与机器交互、获取信息,并以对话式交互为核心,将语音技术、图像技术、人脸识别技术、增强显示技术相结合,使技术存在于无处不在的设备中。

会话式人工智能是ai技术的一个主要应用,主要是指利用语音识别、语义理解、多轮对话和自然语言理解等技术,让用户以自然语言的方式与机器人沟通。但是,目前用户与机器人之间语音交互的主要停留在被动任务式的对话,通过固化的对话管理机制对用户进行反问或应答,这种方式虽然能够完成用户基本的对话需求,但是并不能依据用户的当前情绪来进行更为智能的应答,使用不便。

因此,现有技术还有待于改进和发展。



技术实现要素:

本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于情绪引擎技术的语音交互方法、智能终端及存储介质,旨在解决现有技术中的用户在与智能机器人之间的对话采用的固化的应答模式,智能机器人并不能依据用户当前的情绪来做出更为智能的应答等问题。

本发明解决技术问题所采用的技术方案如下:

一种基于情绪引擎技术的语音交互方法,其中,所述方法包括:

获取用户输入的语音信息,并获取用户的人脸图像信息;

从所述语音信息与人脸图像信息中提取情绪识别特征,并将提取的情绪识别特征输入至预设的情绪识别模型;

通过所述情绪识别模型计算出用户的情绪,并基于用户的情绪生成拟人化的语音交互策略,并输出。

所述的基于情绪引擎技术的语音交互方法,其中,所述获取用户输入的语音信息,并获取用户的人脸图像信息的步骤,具体包括:

通过预设的远程设备或者遥控器拾音设备获取用户输入的语音信息;

通过预设的摄像头设备获取用户的人脸图像信息。

所述的基于情绪引擎技术的语音交互方法,其中,所述从所述语音信息与人脸图像信息中提取情绪识别特征,并将提取的情绪识别特征输入至预设的情绪识别模型的步骤,具体包括:

将获取到的语音信息中的一路语音信号通过asr语音识别模块转换成文本信息,并从所述文本信息中提取用户的文本情绪状态;

将获取到的语音信息中的另一路语音信号通过预设的语音情绪感知器提取出用户的音频情绪状态;

将获取到的人脸图像信息通过预设的表情识别系统提取出用户的表情状态;

将所述文本情绪状态、音频情绪状态以及表情状态输入至预设的情绪识别模型。

所述的基于情绪引擎技术的语音交互方法,其中,所述从所述文本信息中提取用户的文本情绪状态的步骤,具体包括:

对所述文本信息进行特征提取,提取出语句信息,并根据所述语句信息从预设的记忆图谱中获取到用户的个人信息;

将所述语句信息与用户的个人信息输入到预设的情绪状态识别模型,识别出用户的文本情绪状态。

所述的基于情绪引擎技术的语音交互方法,其中,所述将所述语句信息与用户的个人信息输入到预设的情绪识别模型,识别出用户的文本情绪状态的步骤,具体包括:

从所述语句信息中提取出关键词,并根据所述关键词得到用户的第一情绪状态和第一信心分值;

将所述语句信息和用户的个人信息输入至深度学习模型中,得到用户的第二情绪状态和第二信心分值;

将所述第一信心分值与预设的阈值进行比较;

若所述第一信心分值大于阈值,将所述第一情绪状态作为用户的文本情绪状态;若所述第一信心分值小于阈值,将第一情绪状态和所述第二情绪状态进行动态排序,并根据动态排序的结果决定出用户的文本情绪状态。

所述的基于情绪引擎技术的语音交互方法,其中,所述通过所述情绪识别模型计算出用户的情绪,并基于用户的情绪生成拟人化的语音交互策略,并输出的步骤,具体包括:

所述情绪识别模型对输入的文本情绪状态、音频情绪状态以及表情状态进行加权计算,得出用户的情绪;

将得出的情绪与预设的情绪数据库进行对比匹配,得出对应的情绪特征信息;

基于得到的情绪特征信息,进行情绪意图决策和用户画像填充;

根据得到的情绪意图决策结果和用户画像信息,通过对话生成模型来生成带有情绪的语音交互信息,并输出。

所述的基于情绪引擎技术的语音交互方法,其中,所述通过对话生成模型来生成带有情绪的语音交互信息的步骤,具体包括:

对话生成模型接收用户输入的问题信息,并记录用户的历史对话信息、位置变换信息以及情绪变化信息;

分析出用户的个人信息和活动状态,得到用户画像信息;

根据问题信息和用户画像信息,生成语音交互信息;所述语音交互信息还用于对所述对话生成模型进行更新。

所述的基于情绪引擎技术的语音交互方法,其中,所述通过所述情绪识别模型计算出用户的情绪,并基于用户的情绪生成拟人化的语音交互策略,并输出的步骤,还包括:

将用户的情绪以及得到的情绪意图决策结果作为网络模型的第一输入;

将自定义的场景结构化数据作为网络模型的第二输入;

通过网络模型的学习与训练,得到在特定场景下输出拟人化语音交互策略的情绪引擎模型。

一种智能终端,其中,包括:处理器、与处理器通信连接的存储介质,所述存储介质适于存储多条指令;所述处理器适于调用所述存储介质中的指令,以执行实现上述任一项所述的基于情绪引擎技术的语音交互方法的步骤。

一种存储介质,其上存储有多条指令,其中,所述指令适于由处理器加载并执行,以执行实现上述任一项所述的基于情绪引擎技术的语音交互方法的步骤。

本发明的有益效果:本发明通过对用户情感的分析,并在语音交互中加入情感,从而塑造出有情感的智能语音交互方式,使得用户与智能终端之间实现更为趣味性的语音交互,摆脱传统语音交互系统机械化、被动式的交流模式,给用户的使用提供了方便。

附图说明

图1是本发明的基于情绪引擎技术的语音交互方法的较佳实施例的流程图。

图2是本发明的基于情绪引擎技术的语音交互方法的总体控制流程图。

图3是本发明的基于情绪引擎技术的语音交互方法的情感识别系统逻辑流程图。

图4是本发明的智能终端的功能原理图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供的基于情绪引擎技术的语音交互方法,可以应用于终端中。其中,终端可以但不限于是各种个人计算机、笔记本电脑、手机、平板电脑、车载电脑和便携式可穿戴设备。本发明的终端采用多核处理器。其中,终端的处理器可以为中央处理器(centralprocessingunit,cpu),图形处理器(graphicsprocessingunit,gpu)、视频处理单元(videoprocessingunit,vpu)等中的至少一种。

本发明提供一种基于情绪引擎技术的语音交互方法,具体如图1所示,所述方法包括:

步骤s100、获取用户输入的语音信息,并获取用户的人脸图像信息。

步骤s200、从所述语音信息与人脸图像信息中提取情绪识别特征,并将提取的情绪识别特征输入至预设的情绪识别模型。

步骤s300、通过所述情绪识别模型计算出用户的情绪,并基于用户的情绪生成拟人化的语音交互策略,并输出。

由于目前的语音交互方式还停留在被动任务式的对话,通过固化的对话管理机制对用户进行反问或应答,这种方式通常枯燥无趣。为了解决上述问题,本实施例提供一种基于情绪引擎技术的语音交互方法,主要是通过对用户情感的分析,并在语音交互中加入情感,从而塑造出有情感的智能语音交互方式,摆脱传统语音交互系统机械化、被动式的交流模式,给用户的使用提供了方便。

具体地,本实施例中会实时监测用户是否进行语音交互,当监测到用户进行语音交互时,通过预先设置远程设备或遥控拾音设备获取用户自身输入的语音信息;考虑到用户在不同情绪状态下的面部表情也会有所变化,而面部表情的变化也同样代表着用户的情绪状态,因此本实施例预先设置摄像头设备,当用户进行语音交互时通过预设的摄像头设备实时获取用户的人脸图像信息,结合语音信息和用户的人脸图像信息能够更加准确的判断出用户当前的情绪。

进一步地,由于获取到的语音信息包括用户说话时的语言文字信息和用户说话时的语调语速信息等,如用户的语言表达中出现了高兴的表达语句说明用户当前可能处在相对高兴的状态,用户语速较快,声音较大则说明用户处于较激动状态。此外,用户的语音信息中的某一些字眼也是可以表示出用户当前的情绪状态的,例如,用户的语音信息中包含了“很烦”的字眼,这说明用户比较焦虑。因此,为了更好地对用于的语音信息进行分析,如图2中所示,本实施例中将获取到的语音信息分为两路语音信号,一路语音信号通过预设的asr(automaticspeechrecognition)语音识别模块转换成文本信息,并从所述文本信息中提取用户的文本情绪状态;另一路语音信号通过预设的语音情绪感知器提取出用户的音频情绪状态。而由于用户在不同情绪状态下的面部表情会有所变化,因此将获取到的人脸图像信息通过预设的表情识别系统就可以提取出用户的表情状态;最后将提取出的文本情绪状态、音频情绪状态以及表情状态输入至预设的情绪识别模块进行情绪识别,能够更加精确的识别到用户情绪。

具体地,如图3所示,本实施例中从所述文本信息中提取用户的文本情绪状态具体包括如下步骤:

步骤301、根据用户输入提取语句信息。

步骤302、从记忆图谱中获取用户个人信息。

步骤303、将语句信息输入规则模型,提取关键词,并根据关键词得到用户的第一情感状态和第一信心分值。

步骤304、将语句信息和用户信息输入深度学习模型得到用户的第二情感状态和第二信心分值。

步骤305、判断第一信心分值是否大于预设阈值,若否,则执行步骤307,若是,则执行步骤306。

步骤306、将第一情感状态作为用户的文本情感状态。

步骤307、将第一情感状态和第二情感状态进行动态排序,根据动态排序的结果决策。

优选地,上述步骤中的语句信息包括:语句的中文分词信息,语句分词后的词性标注信息,语句的句式信息,语句的sentence2vector信息等;用户的个人信息包括:姓名、性别、生日、年龄、星座、用户的心理状态和生理状态等。动态排序涉及的参数包括:文本长度、提取的关键词、用户输入的文本、第一/第二情感状态的信心分值等。当上述第一信心分值小于预设的阈值时,本实施例这些参数作为输入进入动态排序模型,通过赋予不同权重影响排序结果,最后根据排序结果来判断出用户的文本情感状态。动态排序的参数选择和权重调整会根据整体模型的表现进行调整。语句信息的提取方式包括现有的中文分词信息和词性标注信息技术,在此不作赘述。

进一步地,本实施例中预先统计多个用户的情绪数据生成情绪数据库,优选地,该情绪数据库中包含有人类情感的喜怒哀乐等22种情绪,并且还包括每一种情绪所对应的情绪特征信息,例如在该情绪数据库中愉快的情绪特征信息包含了对应的表情图像数据(如嘴角上扬)、对应的高频文字(例如开心,快乐等字眼),对应的语气及语调信息(如:欢快的语调)等。因此当在该情绪库中找到愉快的情绪,即可得到对应的情绪特征信息,同样,通过情绪特征信息也可以在情绪数据库中找到对应的情绪状态。

具体实施时,考虑到在不同的应用场景下用户语音信息以及面部图像信息对最终的情绪状态判断的影响权重可能不同,因此本实施例通过将获取到的文本情绪状态、音频情绪状态以及表情状态输入到情绪识别模型,通过情绪识别模型对输入的文本情绪状态、音频情绪状态以及表情状态进行加权计算,将计算结果与预设的情绪数据库进行对比匹配,可以得出用户的情绪。具体地,所述情绪识别模型是预先通过将采集到的各种文本情绪状态、音频情绪状态以及表情状态输入至网络模型中进行深度学习与训练而成。本实施例中可以预先对文本情绪状态、音频情绪状态以及表情状态这三者设置不用的权重,如,设置文本情绪状态的权重为20%,音频情绪状态的权重为50%,表情状态的权重为30%,根据设置的权重进行计算,就可以得出与用户当前情绪状态最为接近的情绪。然后根据得到的用户情绪在情绪数据库中进行对比匹配,得出该情绪对应的情绪特征信息,该情绪特征信息用于进行情绪意图决策和用户画像填充,以便生成带有情绪的语音交互信息。例如,当计算得到用户的情绪为愉快,因此愉快对应的情绪特征信息就包括:频繁出现的“开心”、“快乐”等字眼、嘴角上扬的表情图像以及欢快的语调,根据这些情绪特征信息就可以确定出用户画像以及用户当前具体的情绪,智能终端就可以做出相应的情绪意图决策(即智能终端根据用户情绪所要作出的情绪反馈),并做出带有相应情绪的应答信息,即同样输出带有愉快情绪的应答信息,实现更加人性化的语音交互。

进一步地,本实施例中在进行语音信息交互时,采用的是对话生成模块来实现应答,具体地,对话生成模块接收用户输入的问题信息,记录用户的历史对话信息、位置变换信息以及情绪变化信息,然后根据上述信息分析出用户的个人信息和活动状态,得到用户画像信息;根据问题信息和用户画像信息(此时的用户画像信息就是基于用户的情绪所对应的情绪特征信息分析出来的),生成语音交互信息。可见,本实施例中不但可以根据用户的情绪状态做出带有情绪应答信息,而且还可以根据用户的情绪变化,实时做出不同的语音交互策略,语音交互策略中所带有的情绪也会实时变化。优选地,本实施例中的对话生成模块通过三层循环神经网络rnn架构实现,采用反向传播算法(backpropagation,bp)算法为基础。优选地,对话生成模型中的用户信息越完善,语音交互信息的准确率越高,因此,本实施例提供的方法还包括:将语音交互信息添加到对话生成模型中,可以混合使用规则、机器学习、深度学习的技术来从语音交互信息中将语音交互信息保存并对对话生成模型进行学习与训练,从而更新对话生成模型,以使对话生成模型更好的生成带有情绪的语音应答信息。

进一步地,本实施例中,考虑到在不同的场景下,交互方的人物特征属性会有所不同,根据不同的场景所对应的人物特征属性,设置对应的场景结构化数据。在获取到用户的情绪后,将用户的情绪以及得到的情绪意图决策结果(即智能终端根据用户的情绪所作出的情绪反馈)作为网络模型的第一输入;将自定义的场景结构化数据作为网络模型的第二输入;通过网络模型的学习与训练,得到在特定场景下输出拟人化语音交互策略的情绪引擎模型,该情绪引擎模型可以使得智能终端根据特定的场景自动输出拟人化的语音交互策略,实现更加智能且人性化的语音交互。

基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图4所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏和温度传感器。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于情绪引擎技术的语音交互方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏,该智能终端的温度传感器是预先在智能终端内部设置,用于检测内部设备的当前运行温度。

本领域技术人员可以理解,图4中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种智能终端,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时至少可以实现以下步骤:

获取用户输入的语音信息,并获取用户的人脸图像信息;

从所述语音信息与人脸图像信息中提取情绪识别特征,并将提取的情绪识别特征输入至预设的情绪识别模型;

通过所述情绪识别模型计算出用户的情绪,并基于用户的情绪生成拟人化的语音交互策略。

在其中的一个实施例中,该处理器执行计算机程序时还可以实现:启动预设的监听程序监听用户是否进行语音交互;当监听到用户进行语音交互时,启动预设的远程设备或遥控拾音设备获取用户自身输入的语音信息,启动预设的摄像头获取用户的人脸信息。将获取到的语音信息分为两路语音信号,一路语音信息通过预设的asr语音识别模块转换成文本信息,并从所述文本信息中提取用户的文本情绪状态;另一路语音信号通过预设的语音情绪感知器提取出用户的音频情绪状态;将获取到的人脸图像信息通过预设的表情识别系统就可以提取出用户的表情状态;将提取出的文本情绪状态、音频情绪状态以及表情状态输入至预设的情绪识别模块进行情绪识别。

在其中的一个实施例中,该处理器执行计算机程序时还可以实现:获取用户语音交互的文本信息后,根据用户输入的语音信息提取语句信息,从记忆图谱中获取用户个人信息;将将语句信息输入规则模型,提取关键词,并根据关键词得到用户的第一情感状态和第一信心分值;将语句信息和用户信息输入深度学习模型得到用户的第二情感状态和第二信心分值;判断第一信心分值与预设阈值的大小,当第一信心分值大于预设阈值时,将第一情感状态作为用户的情感状态;当第一信心分值小于预设阈值时,将第一情感状态和第二情感状态进行动态排序,根据动态排序的结果决策。

在其中的一个实施例中,该处理器执行计算机程序时还可以实现:预先统计多个用户的情绪数据生成情绪数据库,将获取到的文本情绪状态、音频情绪状态以及表情状态输入到情绪识别模型后进行加权计算,得到用户的情绪,将用户的情绪与预设的情绪数据库进行对比匹配,得到对应的情绪特征信息。基于得到的情绪特征信息,进行情绪意图决策和用户画像填充;根据得到的情绪意图决策结果和用户画像信息,通过对话生成模型来生成带有情绪的语音交互信息。在具体的语音交互过程中,对话生成模型接收用户输入的问题信息,记录用户的历史对话信息、位置变换信息以及情绪变化信息,分析出用户的个人信息和活动状态,得到用户画像信息;根据问题信息和用户画像信息,生成语音交互信息,该语音交互信息还可以用来更新对话生成模型。本实施例中不但可以根据用户的情绪状态做出带有情绪应答信息,而且还可以根据用户的情绪变化,实时做出不同的语音交互策略,语音交互策略中所带有的情绪也会实时变化。

在其中的一个实施例中,该处理器执行计算机程序时还可以实现:将用户的情绪以及得到的情绪意图决策结果作为网络模型的第一输入;将自定义的场景结构化数据作为网络模型的第二输入;通过网络模型的学习与训练,得到在特定场景下输出拟人化语音交互策略的情绪引擎模型,该情绪引擎模型可以使得智能终端根据特定的场景自动输出拟人化的语音交互策略,实现更加智能且人性化的语音交互。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

综上所述,本发明提供了一种基于情绪引擎技术的语音交互方法,方法包括:获取用户输入的语音信息,并获取用户的人脸图像信息;从所述语音信息与人脸图像信息中提取情绪识别特征,并将提取的情绪识别特征输入至预设的情绪识别模型;通过所述情绪识别模型计算出用户的情绪,并基于用户的情绪生成拟人化的语音交互策略,并输出。本发明通过对用户情感的分析,并在语音交互中加入情感,从而塑造出有情感的智能语音交互方式,摆脱传统语音交互系统机械化、被动式的交流模式,给用户的使用提供了方便。

应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1