交互意图确定方法及装置、计算机设备及存储介质与流程

文档序号:14835100发布日期:2018-06-30 12:03阅读:133来源:国知局
交互意图确定方法及装置、计算机设备及存储介质与流程

本发明涉及通信技术领域,尤其涉及一种交互意图确定方法及装置、计算机设备及存储介质。



背景技术:

在人机交互领域,技术发展越来越成熟,交互的方式也越来越多样化,为用户提供了便利。

现有技术中,在用户进行交互的过程中,用户输入语音、文字等数据,终端可以对用户输入的数据进行一系列的处理,例如语音识别、语义识别,最终确定并反馈给用户答案。

但是,终端反馈给用户的答案通常是客观答案。用户在交互过程中可能带有情绪,现有技术中的人机交互无法针对用户的情绪进行反馈,影响了用户体验。



技术实现要素:

本发明解决的技术问题是如何在情感上实现理解用户的意图,提高交互过程的用户体验。

为解决上述技术问题,本发明实施例提供一种交互意图确定方法,情感交互方法包括:获取用户数据;

获取用户的情感状态;

至少根据所述用户数据确定意图信息,其中,所述意图信息包括与所述情感状态对应的情感意图,所述情感意图包括所述情感状态的情感需求。

可选的,所述获取用户的情感状态,包括:对所述用户数据进行情感识别,以得到用户的情感状态。

可选的,所述至少根据所述用户数据确定意图信息包括:

确定上下文交互数据,所述上下文交互数据包括上下文情感状态和/或上下文意图信息;

根据所述用户数据、所述情感状态和所述上下文交互数据确定所述情感意图。

可选的,所述根据所述用户数据、所述情感状态和所述上下文交互数据确定所述情感意图包括:

获取所述用户数据的时序;

至少根据所述时序、所述情感状态和所述上下文交互数据确定所述情感意图。

可选的,所述至少根据所述时序、所述情感状态和所述上下文交互数据确定所述情感意图包括:

基于所述用户数据的时序提取所述用户数据中的每个时序对应的焦点内容;针对每个时序,将所述时序对应的焦点内容与情感类型库中的内容进行匹配,确定相匹配的内容对应的情感类型为所述时序对应的焦点情感类型;

根据所述时序,将所述时序对应的焦点情感类型、所述时序对应的情感状态和所述时序对应的上下文交互数据确定所述情感意图。

可选的,所述根据所述用户数据、所述情感状态和所述上下文交互数据确定所述情感意图包括:

基于所述用户数据、所述情感状态和所述上下文交互数据利用贝叶斯网络确定所述情感意图;

或者,将所述用户数据、所述情感状态和所述上下文交互数据与情感语义库中的预设情感意图进行匹配,以获得所述情感意图;

或者,利用所述用户数据、所述情感状态和所述上下文交互数据在预设意图空间进行搜索,以确定所述情感意图,所述预设意图空间包括多种情感意图。

可选的,所述意图信息还包括基本意图,以及所述情感状态与所述基本意图的关联关系,所述基本意图为预先设定的事务意图类别中的一个或多个。

可选的,所述情感状态与所述基本意图的关联关系为预先设定的,或者所述情感状态与所述基本意图的关联关系是基于预设训练模型获取的。

可选的,所述意图信息还包括所述基本意图,所述用户的基本意图为预先设定的事务意图类别中的一个或多个;

所述至少根据所述用户数据确定意图信息,还包括:根据所述用户数据确定基本意图信息;

所述根据所述用户数据确定基本意图信息,包括:

获取所述用户数据的语义;

确定上下文意图信息;

根据所述用户数据的语义和所述上下文意图信息确定所述基本意图。

可选的,所述根据所述用户数据的语义和所述上下文意图信息确定基本意图包括:

获取所述用户数据的时序以及各时序的用户数据的语义;

至少根据所述时序、所述各时序的用户数据的语义和所述时序对应的上下文意图信息确定所述基本意图。

可选的,所述根据所述用户数据的语义和所述上下文意图信息确定基本意图包括:

基于所述用户数据的时序提取所述用户数据中的每个时序对应的焦点内容;

确定当前交互环境;

确定所述时序对应的上下文意图信息;

针对每个时序,使用该时序对应的相关信息确定用户的基本意图,所述相关信息包括:所述焦点内容、所述当前交互环境、所述上下文意图信息、所述时序和所述语义。

可选的,所述针对每个时序,使用该时序对应的相关信息确定用户的基本意图包括:

针对每个时序,基于该时序对应的相关信息利用贝叶斯网络确定所述基本意图;

或者,针对每个时序,将该时序对应的相关信息与语义库中的预设基本意图进行匹配,以获得所述基本意图;

或者,将该时序对应的相关信息在预设意图空间进行搜索,以确定所述基本意图,所述预设意图空间包括多种基本意图。

可选的,所述上下文交互数据包括之前数次交互对话中的交互数据和/或本次交互对话中的其他交互数据。

可选的,所述至少根据所述用户数据确定意图信息还包括:

通过调用获取与所述用户数据相对应的基本意图,并将所述基本意图加入所述意图信息,所述用户的基本意图为预先设定的事务意图类别中的一个或多个。

可选的,所述意图信息包括用户意图,所述用户意图基于所述情感意图和基本意图确定,所述基本意图为预先设定的事务意图类别中的一个或多个,所述至少根据所述用户数据确定意图信息,包括:

根据所述情感意图、所述基本意图以及所述用户数据对应的用户个性化信息确定所述用户意图,所述用户个性化信息与所述用户数据的来源用户ID具备关联关系。

可选的,还包括:

根据所述情感状态和所述意图信息控制与用户之间的交互。

可选的,所述根据所述情感状态和所述意图信息控制与用户之间的交互包括:

根据所述情感状态和所述意图信息确定可执行指令,以用于对所述用户进行情感反馈。

可选的,所述可执行指令中包括至少一种情感模态和至少一种输出情感类型;

所述根据所述情感状态和所述意图信息确定可执行指令之后,还包括:根据所述至少一种情感模态中的每种情感模态进行所述至少一种输出情感类型中的一种或多种输出情感类型的情感呈现。

可选的,所述根据所述情感状态和所述意图信息确定可执行指令包括:

上一轮情感交互生成可执行指令完成之后,根据本次交互中的所述情感状态和所述意图信息确定可执行指令,或

若所述情感状态为动态变化的,且所述情感状态的变化量超过预定阈值,则至少根据变化后的所述情感状态对应的情感意图确定可执行指令;

或者,若所述情感状态为动态变化的,则在设定时间间隔内根据所述动态变化的情感状态确定对应的所述可执行指令。

可选的,当所述可执行指令包括情感模态和输出情感状态时,执行所述可执行指令,利用所述情感模态对所述用户呈现所述输出情感状态;

当所述可执行指令包括情感模态、输出情感状态和情感强度时,执行所述可执行指令,根据所述情感模态和所述情感强度对所述用户呈现所述输出情感状态。

可选的,所述用户数据包括至少一种模态,所述用户数据选自以下一种或多种:触摸点击数据、语音数据、面部表情数据、身体姿态数据、生理信号和输入文本数据。

可选的,所述用户的情感状态表示为情感分类;或者所述用户的情感状态表示为预设的多维度的情感坐标点。

本发明实施例还公开了一种互意图确定装置,交互意图确定置包括:用户数据获取模块,用以获取用户数据;

情感获取模块,用以获取用户的情感状态;

意图信息确定模块,用以至少根据所述用户数据确定意图信息,其中,所述意图信息包括与所述情感状态对应的情感意图,所述情感意图包括所述情感状态的情感需求。

本发明实施例还公开了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述交互意图确定方法的步骤。

本发明实施例还公开了一种计算机设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述交互意图确定方法的步骤。

与现有技术相比,本发明实施例的技术方案具有以下有益效果:

本发明技术方案获取用户数据;获取用户的情感状态;至少根据所述用户数据确定意图信息,其中,所述意图信息包括与所述情感状态对应的情感意图,所述情感意图包括所述情感状态的情感需求,也就是说,意图信息包括用户的情感需求。例如,用户的情感状态为伤心时,所述情感意图可以包括用户的情感需求“安慰”。通过将情感意图用于与用户之间的交互,可以使得交互过程更加人性化,提高交互过程的用户体验。

对所述用户数据进行情感识别,以得到用户的情感状态;至少根据所述用户数据确定意图信息;根据所述情感状态和所述意图信息控制与用户之间的交互。本发明技术方案通过识别用户数据获得用户的情感状态,可以提高情感识别的准确度;此外,情感状态可以结合所述意图信息用于控制与用户之间的交互,从而使得针对用户数据的反馈中可以携带情感数据,进而提高交互的精准性,以及提高交互过程中的用户体验。

进一步,所述意图信息包括所述情感意图和基本意图,所述情感意图包括所述情感状态的情感需求,以及所述情感状态与所述基本意图的关联关系,所述基本意图为预先设定的事务意图类别中的一个或多个。本发明技术方案中,意图信息包括用户的情感需求以及预先设定的事务意图类别,从而在利用意图信息控制与用户的交互时,可以在回复用户答案的同时满足用户的情感需求,进一步提高用户体验;此外,意图信息还包括所述情感状态与所述基本意图的关联关系,通过该关联关系可以判定用户当前的真实意图;由此在与用户交互时,可以利用该关联关系确定最终的反馈信息或操作,从而提高交互过程的精准性。

进一步,所述根据所述情感状态和所述意图信息控制与用户之间的交互包括:根据所述情感状态和所述意图信息确定可执行指令,以用于对所述用户进行情感反馈。本发明技术方案中,可执行指令可以被计算机设备执行,且可执行指令是基于情感状态和意图信息确定的,从而使得计算机设备的反馈能够满足用户的情感需求以及客观需求。

进一步,所述可执行指令包括情感模态和输出情感状态,或者所述可执行指令包括情感模态、输出情感状态和情感强度。本发明技术方案中,可执行指令可以被计算机指示计算机设备执行,可执行指令中可以为设备输出的数据的形式:情感模态和输出情感状态;也就是说,最终呈现给用户的数据是情感模态的输出情感状态,从而实现了与用户的情感交互。此外,可执行指令还可以包括情感强度,情感强度可以表征输出情感状态的强烈程度,通过利用情感强度,可以更好地实现与用户的情感交互。

进一步,所述用户数据有至少一种模态,情感模态根据所述用户数据的至少一种模态来确定。本发明技术方案中,为了保证交互的流畅性,计算机设备反馈的输出情感状态的情感模态可以与用户数据的模态保持一致,换言之,所述情感模态可以选自所述用户数据的至少一种模态。

附图说明

图1是本发明实施例一种情感交互方法的流程图;

图2是本发明实施例一种情感交互场景的示意图;

图3是图1所示步骤S102的一种具体实施的示意图;

图4是图1所示步骤S103的一种具体实施的流程图;

图5是图1所示步骤S103的另一种具体实施的流程图;

图6是本发明实施例一种情感交互方法的具体实施的流程图;

图7是本发明实施例另一种情感交互方法的具体实施的流程图;

图8是本发明实施例再一种情感交互方法的具体实施的流程图;

图9-图11是情感交互方法在具体应用场景下的示意图;

图12是本发明实施例一种情感交互方法的部分流程示意图;

图13是本发明实施例另一种情感交互方法的部分流程示意图;

图14是本发明实施例一种情感交互装置的结构示意图;

图15和图16是图14所示意图信息确定模块803的具体结构示意图;

图17是图14所示交互模块804的一种具体结构示意图;

图18是本发明实施例另一种情感交互装置的结构示意图。

具体实施方式

如背景技术中所述,终端反馈给用户的答案通常是客观答案。用户在交互过程中可能带有情绪,现有技术中的人机交互无法针对用户的情绪进行反馈,影响了用户体验。

本发明技术方案通过识别至少一种模态的用户数据获得用户的情感状态,可以提高情感识别的准确度;此外,情感状态可以结合所述意图信息用于控制与用户之间的交互,从而使得针对用户数据的反馈中可以携带情感数据,进而提高交互的精准性,以及提高交互过程中的用户体验。

下面结合具体应用场景对本发明技术方案的效果进行说明。机器人通过其摄像头、麦克风、触屏设备或键盘等输入装置采集用户的多模态数据,进行情感识别。通过的意图分析确定意图信息,生成可执行指令,并通过机器人的显示屏、扬声器、机械动作装置等进行喜悦、悲伤、惊讶等情感的情感反馈。

为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种情感交互方法的流程图。

图1所示的情感交互方法可以包括以下步骤:

步骤S101:获取用户数据;

步骤S102:获取用户的情感状态;

步骤S103:至少根据所述用户数据确定意图信息,其中,所述意图信息包括与所述情感状态对应的情感意图,所述情感意图包括所述情感状态的情感需求。

其中,作为优选地,步骤S102为:对所述用户数据进行情感识别,以得到用户的情感状态。

优选地,还可以包括步骤S104:根据所述情感状态和所述意图信息控制与用户之间的交互。

一并参照图2,图2所示情感交互方法可以用于计算机设备102。计算机设备102可以执行步骤S101至步骤S104。进一步地,计算机设备102可以包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行步骤S101至步骤S104。计算机设备102可以包括但不限于计算机、笔记本、平板电脑、机器人、智能穿戴设备等。

可以理解的是,本发明实施例的情感交互方法可以应用于多种应用场景,例如客服服务、家庭陪伴看护、虚拟智能个人助理等。

在步骤S101的具体实施中,计算机设备102可以获取用户103的用户数据,用户数据可以具备至少一种模态。进一步地,所述至少一种模态的用户数据选自:触摸点击数据、语音数据、面部表情数据、身体姿态数据、生理信号、输入文本数据。

具体地,如图2所示,计算机设备102内部集成有文本输入设备101a,例如触摸屏、惯性传感器、键盘等,文本输入设备101a可以供用户103输入文本数据。计算机设备102内部集成有语音采集设备101b,例如麦克风,语音采集设备101b可以采集用户103的语音数据。计算机设备102内部集成有图像采集设备101c,例如摄像头、红外仪、体感设备等,图像采集设备101c可以采集用户103的面部表情数据、身体姿态数据。计算机设备102内部集成有生理信号采集设备101n,例如心率计、血压计、心电仪、脑电仪等,生理信号采集设备101n可以采集用户103的生理信号。所述生理信号可以选自体温、心率、脑电、心电、肌电和皮电反应电阻等。

需要说明的是,除上述所列设备之外,计算机设备102还可以集成有其他任意可采集数据的设备或传感器,本发明实施例对此不做限制。此外,文本输入设备101a、语音采集设备101b、图像采集设备101c和生理信号采集设备101n也可以外部耦接于所述计算机设备102。

更具体地,计算机设备102可以同时采集多种模态的数据。

继续参照图1和图2,在步骤S101之后,步骤S102之前,还可以对用户数据的来源用户进行身份识别和验证。

具体地,可以通过用户密码或指令方式确认用户ID是否与已存储的身份一致。也可以通过声纹密码确认用户的身份是否与已存储的用户ID一致。通过身份验证的用户的输入,以及通过身份验证的语音可以作为长期用户数据进行积累,以用于构建该用户的个性化模型,解决用户自适应性的优化问题。比如优化声学模型和个性化语言模型。

还可以通过人脸识别进行身份识别和验证。预先通过图像采集设备101c得到用户的人脸图像并抽取人脸特征(例如像素特征与几何特征等),记录备案存储。在用户后续开启图像采集设备101c采集实时人脸图像时,可以将实时采集到的图像与预存人脸特征进行匹配。

还可以通过生物特征进行身份识别和验证。例如可以利用用户的指纹、虹膜等。也可以结合生物特征和其他手段(如密码等)进行身份识别和验证。通过身份验证的生物特征作为长期用户数据进行积累,以用于构建该用户的个性化模型,比如用户正常心率水平、血压水平等。

具体地,在获取到用户数据之后,对用户数据进行情感识别之前,还可以对用户数据进行预处理。例如,对于获取到的图像,可以将图像进行预处理以使其转换为能够直接处理的设定尺寸、通道或者颜色空间;对于获取到的语音数据,还可以经过唤醒、音频编码解码、端点检测、降噪、去混响、回声消除等操作。

继续参照图1,在步骤S102的具体实施中,基于采集到的用户数据可以得到用户的情感状态。对于不同模态的用户数据,可以采用不同的方式进行情感识别。如果获取到多种模态的用户数据,则可以结合多种模态的用户数据进行情感识别,以提高情感识别的准确性。

一并参照图2和图3,对于至少一种模态的用户数据:触摸点击数据、语音数据、面部表情数据、身体姿态数据、生理信号和输入文本数据中的一种或多种,计算机设备102可以采用不同的模块进行情感识别。具体地,基于表情的情感获取模块301可以对面部表情数据进行情感识别,获得面部表情数据对应的情感状态。以此类推,基于姿态的情感获取模块302可以对身体姿态数据进行情感识别,获得身体姿态数据对应的情感状态。基于语音的情感获取模块303可以对语音数据进行情感识别,获得语音数据对应的情感状态。基于文本的情感获取模块304可以对输入文本数据进行情感识别,获得输入文本数据对应的情感状态。基于生理信号的情感获取模块305可以对生理信号进行情感识别,获得生理信号对应的情感状态。

不同的情感获取模块可以采用不同的情感识别算法。基于文本的情感获取模块304可以利用学习模型、自然语言处理或者两者结合的方式确定情感状态。具体地,利用学习模型的方式时,需要预先训练学习模型。首先确定对应用领域的输出情感状态的分类,例如是情感分类模型或维度模型、维度模型坐标和数值范围等。按照上述要求对训练语料进行标注。训练语料可以包括输入文本和标记好的情感状态(也即期望输出情感状态分类、维度数值)。将文本输入训练完成的学习模型,学习模型可以输出情感状态。利用自然语言处理的方式时,需要预先构建情感表达词库和情感语义数据库。情感表达词库可以包括多元情感词汇搭配,情感语义数据库可以包括语言符号。具体地,词汇本身不具有情感成分,但多个词汇组合起来可以用于传达情感信息,这种组合称为多元情感词汇搭配。多元情感词汇搭配可能通过预置情感语义数据库、或外部开源接口得到情感语义数据库的作用是根据当前用户数据或上下文(例如历史用户数据)对多情感歧义词进行消歧,以明确多情感歧义词表达的情感类别,从而进行下一步的情感识别。采集到的文本通过分词、词性判断、句法分析后,结合情感词库和情感语义数据库判断该文本的情感状态。

语音数据包含音频特征和语言特征,基于语音的情感获取模块303可以通过这两种特征分别实现或者组合实现语音数据的情感识别。音频特征的可以包括能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征等,可以通过比例值、均值、最大值、中值以及标准差等方式体现特征;语言特征可以通过语音转文本后的自然语言处理(类似文本模态处理)来获得。利用音频特征进行情感识别时,确定输出情感状态类型,根据输出需求标注音频数据,并训练分类模型(如高斯混合模型),在训练过程中优化选取主要音频特征和表现形式。根据优化后的模型和特征集合提取待识别语音音频流的声学特征向量,并进行情感分类或回归。利用音频特征和语言特征进行情感识别时,将语音数据分别经过两个模型得到输出结果,然后根据置信度或者倾向性(倾向文本判断or音频判断)综合考虑输出结果。

基于表情的情感获取模块301可以基于图像提取表情特征,并确定表情分类:表情特征的提取根据图像性质的不同可以分为:静态图像特征提取和序列图像特征提取。静态图像中提取的是表情的形变特征,即表情的暂态特征。而对于序列图像不仅要提取每一帧的表情形变特征还要提取连续序列的运动特征。形变特征提取依赖中性表情或模型,把产生的表情与中性表情做比较从而提取特征,而运动特征的提取则直接依赖于表情产生的面部变化。特征选择的依据是:尽可能多的携带人脸面部表情的特征,即信息量丰富;尽可能容易提取;信息相对稳定,受光照变化等外界的影响小。具体可以使用基于模板的匹配方法、基于概率模型的方法与基于支持向量机的方法。基于表情的情感获取模块301也可以基于深度学习人脸表情识别方式进行情感识别。例如,可以采用3D形变模型(3D Morphable Models,3DMM),在该方法中,预处理后的图像经过可参数化的3DMM模型进行重建,并且保留了原图像与头部三维模型之间对应关系。三维模型中包含头部的结构(texture)、深度(depth)、标记(landmark)点等信息。随后将图像经过卷积层后得到的特征与三维模型中的结构进行级联得到新的结构信息,并用标记点周围的邻域的几何信息(depth patches)与指级联,将该特征分别送入两个结构中进行信息分离,分别得到用户的表情信息与身份信息。通过嵌入可参数化的3DMM,建立图像和三维头部模型的对应关系;使用图像、结构和深度映射相结合的全局表观信息;使用标记点周围邻域内的局部几何信息;建立身份识别和表情识别之间的多任务对抗关系,提纯表情特征。

基于生理信号的情感获取模块305依据不同生理信号的特点进行情感识别。具体地,对生理信号进行降采样、滤波、降噪等预处理操作。抽取特定数量的统计特征(即特征选择),如傅里叶变换的能量谱。特征选择可以采用遗传算法、小波变换、独立成分分析、共空间模式、序列浮动前向选择(sequential floating forward selection,SFFS)、方差分析法等。最后根据信号特征分类至对应的情感类别中,或映射到连续维度空间中,可以通过支持向量机、k最邻近分类算法(k-Nearest Neighbor)、线性判别分析、神经网络等算法实现。

其他模块的情感识别原理可以参照现有技术,此处不再赘述。

更近一步地,在实际的交互中,需要对多种模态的用户数据进行情感识别,也即基于多模态融合的情感识别。例如,用户交谈时有手势和表情等,图片中也含有文字等。多模态融合可以覆盖文本、语音、表情、姿态和生理信号等多种模态数据。

多模态融合可以包括数据级融合、特征级融合、模型级融合和决策级融合。其中,数据级融合要求多模态数据具有同构性。特征级融合需要从多种模态中提取情感特征,构建联合特征向量,以用于确定情感状态,比如一段视频中包含人脸表情和语音数据,首先需要同步音频和视频数据,分别提取人脸表情特征和语音数据中的音频特征等,共同构成联合特征向量,进行整体判别。模型级融合是指建立各模态数据统一处理的模型,如视频和语音等数据可以采用隐形马尔科夫模型;根据不同的应用需求建立不同模态数据之间的联系和互补性,比如识别用户在观看电影时的情绪变化时,可以结合影片视频和字幕。在进行模型级融合时,也需要基于每个模态的数据提取特征来进行模型训练。决策级融合是为各模态的数据分别建立模型,每个模态模型分别独立判断识别结果,然后在最后决策的时候统一输出,比如将语音识别、人脸识别和生理信号做权重叠加等操作,并输出结果;也可以利用神经网络多层感知器等实现决策级融合。优选地,所述用户的情感状态表示为情感分类;或者所述用户的情感状态表示为预设的多维度的情感坐标点。

或者,所述用户的情感状态包括:静态情感状态和/或动态情感状态;所述静态情感状态可以通过不具有时间属性的离散情感模型或维度情感模型进行表示,以表示当前交互的情感状态;所述动态情感状态可以通过具有时间属性的离散情感模型、维度情感模型进行表示,或其他具有时间属性的模型进行表示,以表示某个时间点或一定时间段内的情感状态。更具体地,所述静态情感状态可以表示为情感分类或维度情感模型。维度情感模型可以是多个维度构成的情感空间,每个情感状态对应情感空间中的一点,每个维度是描述情感的一个因素。例如,二维空间理论:激活度-愉悦度或三维空间理论:激活度-愉悦度-优势度。离散情感模型是情感状态用离散的标签形式表示的情感模型,例如:六种基本情绪包括高兴、生气、悲伤、惊讶、害怕、恶心。

具体实施中,情感状态可以采用不同的情感模型进行表述,具体有分类情感模型和多维情感模型。

如果采用分类情感模型,则所述用户的情感状态表示为情感分类。如果采用多维情感模型,则所述用户的情感状态表示为多维度的情感坐标点。

具体实施中,静态情感状态可以表示用户在某一时刻的情感表达。动态情感状态可以表示用户在某一时间段内的连续情感表达,动态情感状态能够反映用户情感变化的动态过程。对于静态情感状态,可以通过分类情感模型和多维情感模型表达。

继续参照图1,在步骤S103的具体实施中,可以根据所述用户数据确定意图信息,也可以根据情感状态和所述用户数据确定意图信息。

在本发明一个实施例中,根据所述用户数据确定意图信息时,所述意图信息包括基本意图。基本意图可以表示用户需要获取的服务,例如用户需要执行某种操作,或者获取问题的答案等。所述基本意图为预先设定的事务意图类别中的一个或多个。具体实施中,可以通过用户数据匹配预先设定的事务意图类别来确定用户的基本意图。具体而言,预先设定的事务意图类别可以预先存储在本地服务器或者云端服务器。本地服务器可以直接利用语义库和搜索等方式对用户数据进行匹配,而云端服务器则可以利用接口通过参数调用的方式对用户数据进行匹配。更具体地,匹配的方式可以有多种,比如通过在语义库中预先定义事务意图类别,通过计算用户数据与预先设定的事务意图类别的相似度来进行匹配;也可以通过搜索算法进行匹配;还可以通过深度学习进行分类等等。

在本发明另一个实施例中,可以根据情感状态和所述用户数据确定意图信息。在这种情况下,所述意图信息包括所述情感意图和基本意图,所述情感意图包括所述情感状态的情感需求,以及所述情感状态与所述基本意图的关联关系。其中,所述情感意图对应所述情感状态,所述情感意图包括所述情感状态的情感需求。

进一步地,所述情感状态与所述基本意图的关联关系为预先设定的。据具体而言,当情感状态与基本意图之间具备关联关系时,其关联关系通常是预先设定的关系。该关联关系可以影响最终反馈给用户的数据。例如,基本意图为控制运动器械时,与该基本意图具有关联关系的情感状态为兴奋;如果用户的基本意图是增加运动器械的运转速度,为了用户的安全考虑,计算机设备最终反馈给用户的内容可以是提示用户该操作可能带来危险。

或者,所述情感状态与所述基本意图的关联关系也可以是基于预设训练模型获取的。例如,利用训练完成的端到端模型等确定情感状态与所述基本意图的关联关系。预设训练模型可以是固定的深度网络模型,可以输入情感状态和当前交互环境,也可以通过在线学习不断更新(比如利用增强学习模型,在增强学习模型中设定目标函数和奖励函数,随着人机交互次数增加,该增强学习模型也可以不断更新演化)。

在一个具体应用场景中,在银行客服领域,用户对客服机器人用语音说:“信用卡要挂失怎么办?”。客服机器人通过配备的麦克风和摄像头捕捉用户的语音和面部图像。机器人通过分析其语音和面部表情的特征信息识别得到用户的情感状态,并得到该领域所关注的客户情感状态为“焦急”,并可以通过分类情感模型进行表示。由此客服机器人可以确定用户的情感意图为安慰。同时语音输入信息转换为文本,经过自然语言处理等步骤得到客户的基本意图为“挂失信用卡”。

继续参照图1,确定用户的意图信息后,在步骤S104的具体实施中,可以根据意图信息对用户进行内容反馈,此外,还可以根据情感状态对用户进行情感反馈。

具体实施中,计算机设备在针对情感状态进行情感反馈时,可以通过控制输出数据的特征参数来满足用户需求。例如,计算机设备输出数据为语音时,可以通过调整语音的语速和语调来针对不同的情感状态进行反馈;计算机设备输出数据为文本时,可以通过调整输出文本的语义来针对不同的情感状态进行反馈。

例如,在银行客服领域,客服机器人确定用户情感状态为“焦急”,意图信息为“挂失信用卡”。客服机器人可以在输出‘信用卡挂失步骤’的同时呈现情感需求‘安慰’。具体地,客服机器人可以在屏幕输出‘信用卡挂失步骤’,同时通过语音播报并呈现情感‘安慰’。客服机器人呈现的情感可以通过语音输出的声调、语速等语音参数来调整。输出给用户符合该情感的可能是音调轻快,中等语速的语音播报:“挂失信用卡的步骤请见屏幕显示,请您不要担心,如果是信用卡遗失或被盗,卡挂失后立刻冻结,不会对您的财产和信誉造成损失…”。此处不单单是做情感需求的呈现,而是对用户情感状态、产生情感原因的推理做了呈现说明,即确定了基本意图与情感之间的关系为“信用卡遗失或被盗”,从而可以更好的理解用户,使用户得到更准确的安慰和更精准的信息。

本发明一个实施例中,一并参照图1和图4,计算机设备可以结合历史交互过程中产生的上下文交互数据和用户数据确定情感意图。

其中,上下文交互数据可以包括上下文情感状态和/或上下文意图信息。进一步地,在用户进行第一轮交互时,上下文交互数据可以是空(Null)。

步骤S103可以包括以下步骤:

步骤S401:确定上下文交互数据,所述上下文交互数据包括上下文情感状态和/或上下文意图信息;

步骤S402:根据所述用户数据、所述情感状态和所述上下文交互数据确定所述情感意图,所述意图信息包括所述情感意图。

本实施例中,为了更准确的确定用户的情感意图,也即用户的情感需求,可以结合上下文交互数据中的上下文情感状态和/或上下文意图信息。尤其是在用户的情感状态不明确时,可以通过上下文交互数据推断用户潜在的情感需求,例如用户的情感状态的产生原因,从而有利于后续更精准地对用户进行反馈。具体而言,情感状态不明确是指当前交互中无法判断用户的情感状态。比如用户当前的语句无法以很高置信度判断情感状态,然而该用户在上一轮交互中的情绪可能很激动;则可以在上一轮交互中的用户的情感状态明显的情况下,借鉴上一轮交互的情感状态,以避免情感判断失败,无法获取当前交互中用户的情感状态的情况。

进一步而言,上下文交互数据可以包括之前数次交互对话中的交互数据和/或本次交互对话中的其他交互数据。

在本实施例中,之前数次交互对话中的交互数据是指之前交互对话中的意图信息和情感状态;本次交互对话中的其他交互数据,是指本次交互对话中的其他意图信息和其他情感状态。

在具体实施中,其他交互数据可以是用户数据在本次交互对话中的上下文。例如,用户说了一段话或者数据采集设备采集到一个连续流数据,则一段话中可以分成几句话来处理,彼此互为上下文,一个连续流数据可以是多个时间点采集的数据,彼此互为上下文。

交互数据可以是多次交互的上下文。例如,用户与机器进行了多轮对话,每轮对话的内容彼此为上下文。

上下文交互数据包括之前数次交互对话中的交互数据和/或本次交互对话中的其他交互数据。

本发明一个具体实施例中,步骤S402还可以包括以下步骤:获取所述用户数据的时序;至少根据所述时序、所述情感状态和所述上下文交互数据确定所述情感意图。

具体地,获取所述用户数据的时序是指,在用户数据中存在多个操作或多个意图时,需要确定用户数据所包括的多个操作的时序信息。每个操作的时序会影响后续意图信息。

本实施例中,可以根据预设时序规则来获取用户数据的时序;也可以根据获取所述用户数据的时间顺序来确定用户数据的时序;也可以是,用户数据的时序是预先设定好的,在这种情况下,可以直接调用获取所述用户数据的时序。

进一步而言,至少根据所述时序、所述情感状态和所述上下文交互数据确定所述情感意图可以包括以下步骤:基于所述用户数据的时序提取所述用户数据中的每个时序对应的焦点内容;针对每个时序,将所述时序对应的焦点内容与情感类型库中的内容进行匹配,确定相匹配的内容对应的情感类型为所述时序对应的焦点情感类型;根据所述时序,将所述时序对应的焦点情感类型、所述时序对应的情感状态和所述时序对应的上下文交互数据确定所述情感意图。

具体实施例中,所述焦点内容可以是用户所关注的内容,例如一幅图,一段文字。

焦点内容可以包括文本焦点、语音焦点和语义焦点。在提取文本焦点时,文本中每个词在处理时的权重都不同,通过焦点(attention,或注意力的机制确定词语的权重。更具体地,可以通过词性、关注词表等内容提取当前文本中重点关注的文本或词汇内容;也可以与语义理解或意图理解相结合形成统一的编码解码(encoder-decoder)模型中实现焦点模型。在提取语音焦点时,除了针对转换成文本数据的词语权重和焦点模型外,还有声学韵律特征的捕捉,包括声调、重音、停顿和语调等特征。上述特征可以帮助消除歧义,提高关键词的关注度。

焦点内容还可以包括图像焦点或视频焦点。在提取图像(或视频)焦点时,由于图像与视频中有相对突出的部分,因此可以使用计算机视觉的方式,经过预处理(如二值化等方式)之后,查看图像的像素分布,得到图像中的物体等;若图像中存在人的区域,人的视线方向注意点或者肢体动作或者手势的指向也可获得图像焦点。在获得图像焦点之后,可以通过语义转换将图像或者视频中实体转换为文本或者符号,作为焦点内容进行下一步处理。

可以采用现有技术中任意可实施的方式实现焦点内容的提取,此处不做限制。

本实施例中,焦点内容、焦点情感类型、情感状态和上下文交互数据分别与时序相对应。时序对应的上下文交互数据为当前时序的前一个时序的情感状态和意图信息。

本发明另一个实施例中,所述意图信息包括所述基本意图,所述用户的基本意图为预先设定的事务意图类别中的一个或多个,一并参照图1和图5,图1所示步骤S103中还包括:根据所述用户数据确定基本意图信息,其中确定基本意图信息的过程可以包括以下步骤:

步骤S501:获取所述用户数据的语义;

步骤S502:确定上下文意图信息;

步骤S503:根据所述用户数据的语义和所述上下文意图信息确定基本意图,所述意图信息包括所述基本意图,所述用户的基本意图为预先设定的事务意图类别中的一个或多个。

进一步地,步骤S503可以包括以下步骤:获取所述用户数据的时序以及各时序的用户数据的语义;至少根据所述时序、所述各时序的用户数据的语义和所述时序对应的上下文意图信息确定所述基本意图。

获取所述用户数据的时序是指,在用户数据中存在多个操作或多个意图时,需要确定用户数据所包括的多个操作的时序信息。每个操作的时序会影响后续意图信息。

获取各时序的用户数据的语义的具体方式可以根据用户数据的模态来确定。用户数据为文本时,可以直接通过语义分析确定文本的语义;用户数据为语音时,则可以先将语音转换为文本,再进行语义分析确定语义。所述用户数据还可以是多模态数据融合后的数据,可以结合具体的应用场景进行语义提取。例如,用户数据为不含任何文字的图片时,可以通过图像理解技术来获取语义。

具体地,语义可以经过自然语言处理、语义库匹配的过程来获取。

进一步地,计算机设备可以结合当前交互环境、上下文交互数据和用户数据确定基本意图。

步骤S503还可以包括以下步骤:

提取所述用户数据中的每个时序对应的焦点内容;

确定当前交互环境;

确定所述时序对应的上下文意图信息;

针对每个时序,使用该时序对应的相关信息确定用户的基本意图,所述相关信息包括:所述焦点内容、所述当前交互环境、所述上下文意图信息、所述时序和所述语义。

本实施例中,所述上下文意图信息包括之前数次交互对话中的意图信息和/或本次交互对话中的其他意图信息。

为了更准确的确定用户的基本意图,可以结合焦点内容、当前交互环境、上下文交互数据中的上下文意图信息。尤其是在用户的基本意图不明确时,可以通过当前交互环境、上下文交互数据更准确地推断用户的基本意图,例如用户需要获取的服务,从而有利于后续更精准地对用户进行反馈。

具体实施中,当前交互环境可以通过情感交互的应用场景来确定,例如交互场所、交互环境和计算机设备的动态变化更新等。

更具体地,当前交互环境可以包括预置当前交互环境和当前当前交互环境。预置当前交互环境可以是长期有效的场景设置,可以直接影响应用的逻辑规则设计、语义库、知识库等。当前当前交互环境可以是根据当前交互信息提取的,也即根据用户数据和/或上下文交互数据得到的。例如,如果用户使用公共服务助手进行报案,预置当前交互环境可以提示通过“电话、网页、手机拍照、GPS”等途径选择报案方式;如果用户正在现场,那么可能直接进一步更新当前交互环境,直接推荐更便捷的方式“手机拍照、GPS”。当前交互环境可以提升对意图理解的准确性。

进一步地,上下文交互数据可以记录在计算机设备中,并可以在当前交互过程中被调用。

在提取语义的过程中,优先使用用户数据,如果用户数据有内容缺失,或者无法定位用户意图,则可以参考上下文交互数据中的上下文意图信息。

在图6所示的具体实施方式中,首先进入步骤S1001,交互流程开始。在步骤S1002中,进行数据采集,以得到用户数据。数据的采集可以是对多个模态的数据进行采集。具体可以包括静态数据,例如文本、图像;还可以包括动态数据,例如语音、视频与生理信号等。

采集到的数据分别送入步骤S1003、S1004和S1005进行处理。在步骤S1003中,对用户数据进行分析。具体可以执行步骤S1006、步骤S1007和步骤S1008。其中,步骤S1006可以对用户数据中的用户身份进行识别。以用于在步骤S1007中进行个性化建模。具体地,在初次对于用户的基本条件有所了解之后,将产生个人的个性化模型,用户在进行情感交互时,对于服务的反馈或者偏好,将会记录下来,对于初始的个性化模型进行不断的修正。在步骤S1008中,则可以对用户数据进行情感识别,以得到用户的情感状态。

在步骤S1004中,将会获取到用户数据的上下文交互数据,并作为历史数据存储。在后续具有上下文交互数据的需求时再调用。

在步骤S1005中,对用户数据中的场景数据进行分析,以获得场景数据,也即当前交互环境。

上述步骤得到的情感状态、个性化信息、上下文交互数据和当前交互环境将会参与到步骤S1009中的意图理解过程,以得到用户的意图信息。可以理解的是,在意图理解过程中,还可以使用语义库、领域知识库A和通识知识库B。

可以理解的是,通识知识库B中可以包括通用知识,通用知识是指不受应用领域和场景限制的知识,如百科知识、新闻评论等。通用知识对于情感意图的判断具有指导作用,如通识知识可以是:用户呈现负面情绪的时候,需要正向的鼓励言语等。通识知识可以通过语义网络、本体、框架、贝叶斯网络等传统知识表示方法,以及事理图谱和深度学习等新型人工智能技术来获取。领域知识库A可以包括针对某个应用领域的知识,比如金融、教育领域内特有的术语知识等。

在步骤S1010中,根据意图信息进行情感决策,以获得情感指令。进而在步骤S1011中,执行所述情感指令,进行情感反馈。在步骤S1012中,判断本次交互是否结束,如果是,则结束;否则,继续进入步骤S1002进行数据采集。

图7是图6所示步骤S1009的一种具体实施方式。

输入信息有上下文交互数据1101、用户数据1102和当前交互环境1103。上述数据分别进入步骤S1104、步骤S1105和步骤S1106进行处理。

其中,在步骤S1104中,分析用户数据的时序,以获得交互状态的转换,例如,当前交互的时序,以及是否有前序交互以及后序交互。在步骤S1105中,可以对用户数据进行焦点提取,以获取焦点内容。在步骤S1106中,可以对用户数据对应的文本进行文本语义提取,以获取语义。在语义提取过程中,可以对用户数据进行自然语言处理,并结合语义库和当前交互环境进行语义分析。

将交互状态转换、焦点内容、语义、个性化信息和情感状态作为输入信息,在步骤S1107中进行意图推理,以获得意图信息1108。具体地,在意图推理过程中,可以结合领域知识库1109和通识知识库1110。

图8是图7所示步骤S1107的一种具体实施方式。

本实施例中,可以利用基于规则的贝叶斯网络进行意图推理。

利用情感常识库1203和焦点内容1201进行匹配,以获得焦点情感类型1202。焦点情感类型1202和情感状态序列1210作为输入,利用情感意图推理器1205进行推理,以获得情感意图概率组合1206。

具体地,情感意图推理器1205可以利用贝叶斯网络来实现。贝叶斯网络中的联合概率分布矩阵由情感意图规则库1204进行初始化,之后可根据决策反馈信息进行机器主动学习或利用经验知识1207进行人机协同优化。情感意图规则库可以给出情感意图变量与其它相关变量之间的联合概率分布。或给出基本规则,根据基本规则估计出联合概率分布

语义1209、焦点内容1201、上下文交互数据1211和当前交互环境1212作为输入,利用交互意图推理器1214进行推理,以获得交互意图概率组合1215。具体地,交互意图推理器1214可以结合领域知识图谱1213进行推理。交互意图推理器1214根据输入在领域知识图谱1213内进行查询推理,得到交互意图概率组合1215。

情感意图概率组合1206、交互意图概率组合1215和个性化特征1216作为输入,利用用户意图推理器1217进行推理,以获得人机融合用户意图概率组合1218。具体地,用户意图推理器1217可以利用贝叶斯网络来实现。贝叶斯网络中的联合概率分布矩阵可以利用用户意图规则库1208进行初始化,之后可根据决策反馈信息进行机器主动学习或利用经验知识1207进行人机协同优化。

根据人机融合用户意图概率组合1218可以筛选出单个意图,确定决策动作1219。决策动作1219可以直接执行,也可以由用户确认后执行。进而,用户可以对决策动作1219作出用户反馈1220。用户反馈1220可以包括隐式被动反馈1221和显示主动反馈1222。其中,隐式被动反馈1221可以是指自动获取用户对决策结果做出的反应,比如言语、情感、动作等。显示主动反馈1222可以是指用户主动对决策结果给出评价意见,可为打分类型,也可为言语类型。

在本发明一个具体应用场景中,可以利用贝叶斯网络确定情感意图和基本意图。请参照图9-图11,下面结合具体的交互场景进行详细的说明。

如图9所示,用户与智能音箱进行第一次交互。用户在办公室对智能音箱说:“今天开了一天会头好疼,放首歌吧。”智能音箱:“好的,请听音乐。”智能音箱动作:放了一首舒缓的歌曲。

在本轮交互中,确定用户意图为“放舒缓歌曲”的具体过程如下。得到此次交互的焦点内容的概率分布为:开会概率0.1;放歌概率0.5;头疼概率0.4。通过情感识别,计算出情感状态的概率分布(此例为离散情感状态)为:中性0.1;疲惫0.5;悲伤0.4。根据上下文交互数据确定上下文情感状态为空(Null)。根据情感常识库,把焦点内容信息映射到焦点情感类型(此时只有“头疼”对焦点情感类型起作用),确定焦点情感类型的概率分别为:身体不适概率1。结合情感状态、焦点情感类型、上下文情感状态(此时为空),根据预先设定的情感意图推理的联合概率分布矩阵(未完全展开),计算出情感意图的概率分布为:安抚概率0.8;振奋概率0.2。由于目前的焦点情感类型为“身体不适”(100%),在当前的情感意图联合概率矩阵中(此时的联合概率矩阵并没有完全展开,三种情感状态并没有列全),查找“身体不适“,对应的概率分布为此焦点情感状态下的需要安抚的意图为0.8,需要振奋的意图为0.2,由此推断出情感意图的概率为安抚为0.8,振奋为0.2(此处的焦点情感状态为“身体不适”,概率为100%,直接查表可得)。

确定基本意图时,确定用户数据的语义为:今天/开会/头疼/放歌。根据上下文交互数据确定上下文交互数据信息为空(Null),以及当前交互环境为:时间6:50;地点办公室。根据上述信息计算出基本意图的概率分布(主要方法为计算交互内容与领域知识图谱中交互意图之间的匹配概率)为:放歌概率0.8;休息概率0.2。结合情感意图概率分布、交互意图概率分布、用户个性化特征(比如某个用户更倾向于某个意图,此例暂未考虑),根据用户意图推理的联合概率分布矩阵(XX表示此变量可取任意值),计算出人机协同用户意图的概率分布为:放舒缓歌曲概率0.74;放欢快歌曲概率0.26。

根据用户意图概率分布,筛选出一个用户意图(得到的两个意图是互斥的,选择概率高的),并根据决策库,映射到相应的决策行动(放舒缓的歌曲,以及提示语言)。

在将用户的个性化特征引入时,例如,在大多数情况下,用户不希望得到系统不做任何反馈的回复,因此决策部分将休息(系统不做任何反馈)的交互意图)删去,即当前的用户意图为“放歌”,概率为1。随即,将情感意图概率组合与交互意图组合,根据既定规则,最终得到用户意图的概率分布(由用户意图规则库得来),由用户意图概率分布得到当前的意图序列。

如果没有个性化信息,则输出有下面三种概率:P(放舒缓音乐)=(P(安抚,放歌/放舒缓音乐)×P(安抚)+P(振奋,放歌/放舒缓音乐)×P(振奋))×P(放歌)=(0.9×0.8+0.1×0.2)×0.8=0.74×0.8=0.592;P(放欢快歌曲)=(P(安抚,放歌/放欢快音乐)×P(安抚)+P(振奋,放歌/放振奋音乐)×P(振奋))×P(放歌)(0.1×0.8+0.9×0.2)×0.8=0.26×0.8=0.208P(休息)=0.2。

由于,用户的个性化信息,将休息的情感意图舍去,此时的概率分别为P(放舒缓音乐)=0.9×0.8+0.2×0.1=0.74;P(放欢快歌曲)=0.1×0.8+0.9×0.2=0.26;P(休息)=0。

需要说明的是,在完成一次意图推理后,该用户在该场景下的情感意图与交互意图,可以通过显式或者隐式的方式进行记录,并用于后续的交互过程。还可以以其作为历史数据对意图推理过程进行强化学习,或者人机协同的调控,实现渐进式的更新与优化。

至此,用户与智能音箱的第一次交互完成。在这种情况下,用户不再与智能音箱进行交互,本轮交互完成。

或者,用户在设定时间内与智能音箱进行了第二次交互、第三次交互等后续交互过程;也就是说,本轮交互包括多次交互。下面以用户与智能音箱继续进行第二次交互和第三次交互为例进行说明。

请参照图10,用户与智能音箱进行第二次交互。用户:”快睡着了,不行啊,换个歌吧,等下还要加班。”智能音箱:“好的。”智能音箱执行动作:放一首欢快的歌曲。

在本轮交互中,确定用户意图为“放欢快歌曲”的具体过程如下。得到此次交互的焦点内容的概率分布为:睡着概率0.2;换歌概率0.6;加班概率0.2。通过情感识别,计算出情感状态的概率分布(此例为离散情感状态)为:中性0.1;疲惫0.3;无聊0.6。根据情感常识库,把焦点内容信息映射到焦点情感类型(此时只有“加班”和“睡着”同时对焦点情感类型起作用,根据权重叠加),,确定焦点情感类型的概率分别为:劳累概率0.7;烦躁概率0.3。根据上下文交互数据确定上下文情感状态为:安抚概率0.8;振奋概率0.2(此处为上一次交互过程中计算出的情感意图概率分布)。结合情感状态、焦点情感类型、上下文情感状态,根据情感意图推理的联合概率分布矩阵(未完全展开),计算出情感意图的概率分布为:安抚概率0.3;振奋概率0.7。

确定基本意图时,确定用户数据的语义为:睡着/不行/换歌/等下/加班。根据上下文交互数据确定上下文交互数据信息(此处的上下文交互数据信息为上一次交互过程中计算出的交互意图概率分布)为:放歌概率0.8;休息概率0.2。以及当前交互环境为:时间6:55;地点办公室。根据上述信息计算出基本意图的概率分布(主要方法为计算交互内容与领域知识图谱中交互意图之间的匹配概率)为:放歌概率0.9;休息概率0.1。

结合情感意图概率分布、交互意图概率分布、用户个性化特征(比如某个用户更倾向于某个意图,此例暂未考虑),根据用户意图推理的联合概率分布矩阵(XX表示此变量可取任意值),计算出人机协同用户意图的概率分布为:放舒缓歌曲概率0.34;放欢快歌曲概率0.66。

根据用户意图概率分布,筛选出一个用户意图(得到的两个意图是互斥的,选择概率高的),并根据决策库,映射到相应的决策行动(放欢快的歌曲,以及提示语言。例如,根据上下文可以确定不用再提示“请听音乐”,而只用回复“好的”。

在将用户的个性化特征引入时,例如,在大多数情况下,用户不希望得到系统不做任何反馈的回复,因此决策部分将休息(系统不做任何反馈)的交互意图)删去;也即因此消除了休息0.1的可能性,播放舒缓音乐和欢快音乐的总概率为1。

请参照图11,用户与智能音箱进行第三次交互。用户:“这个不错,过半个小时叫我出门”智能音箱:“已设置7:30的闹铃”(半个小时后的闹铃)智能音箱执行动作:继续播放欢快的歌曲。

在本轮交互中,确定用户意图为“放欢快歌曲”的具体过程如下。得到此次交互的焦点内容的概率分布为:不错概率0.2;半个小时概率0.6;出门概率0.2。通过情感识别,计算出情感状态的概率分布(此例为离散情感状态)为:中性概率0.2;高兴概率0.7;无聊概率0.1。根据情感常识库,把焦点内容信息映射到焦点情感类型(此时没有焦点内容对焦点情感类型起作用,故此处为空);根据上下文交互数据确定上下文情感状态为:安抚概率0.3;振奋概率0.7(此时为上一次交互过程中计算出的情感意图概率分布)。结合情感状态、焦点情感类型、上下文情感状态,根据情感意图推理的联合概率分布矩阵(未完全展开),计算出情感意图的概率分布为:安抚概率0.3;振奋概率0.7(此时不产生新的情感意图,故等于上一次交互过程中的情感意图概率分布);

确定基本意图时,确定用户数据的语义为:这个/不错/半个小时/叫我出门。根据上下文交互数据确定上下文交互数据信息(此处的上下文交互数据信息为上一次交互过程中计算出的交互意图概率分布)为:放歌概率0.9;休息概率0.1。以及当前交互环境为:时间7:00;地点办公室。根据上述信息计算出基本意图的概率分布为:放歌概率0.4;设闹铃概率0.6。

结合情感意图概率分布、基本意图概率分布、用户个性化特征(比如某个用户更倾向于某个意图,此例暂未考虑),根据用户意图推理的联合概率分布矩阵(XX表示此变量可取任意值),计算出人机协同用户意图的概率分布为:放舒缓歌曲概率0.14;放欢快歌曲概率0.26;设闹铃0.6。

根据用户意图概率分布,筛选出两个用户意图(前两个互斥,选择概率高的一个,“设闹铃”与它们都不互斥,也选择),并根据决策库,映射到相应的决策行动(放欢快的歌曲(已无需提示语言),同时按用户要求设置闹铃(场景中的时间信息和交互内容中提取的“半个小时”作为参数))。

这里没有用户个性化特征作为辅助,放欢快的歌曲和设闹钟都保存在最后的结果中。

在本发明另一个具体应用场景中,可以利用情感语义库确定情感意图;以及利用语义库确定基本意图。情感语义库还可以包括所述情感状态与所述基本意图的关联关系。

具体可参照表1,表1示出了情感状态与所述基本意图的关联关系。

表1

如表1所示,当基本意图为开通信用卡时,根据情感状态的不同,情感意图也有所不同:情感状态为焦虑时,情感意图为期望获得安慰;情感状态为喜悦时,情感意图为期望获得鼓励。其他情况类似,此处不再赘述。

本发明另一个实施例中,步骤S103还可以包括以下步骤:通过调用获取与所述用户数据相对应的基本意图,并将所述基本意图加入所述意图信息,所述用户的基本意图为预先设定的事务意图类别中的一个或多个。

本实施例中,确定基本意图的过程可以在其他设备中进行处理,计算机设备可以通过接口访问调用所述其他设备,以获取所述基本意图。

在步骤S402和步骤S503的具体实施中,计算机设备可以通过规则逻辑和/或学习系统来实现。具体而言,可以是利用所述用户数据、所述情感状态、所述上下文交互数据与情感意图的匹配关系来确定用户的情感意图;可以利用用户数据、所述当前交互环境、所述上下文交互数据与基本意图的匹配关系来确定用户的基本意图。还可以使计算机设备通过机器学习获得模型后,利用该模型获取用户的基本意图。具体地,对于非专业领域中意图信息的确定,可以通过学习通用语料得到,对于专业领域中意图信息的确定,可以结合机器学习和逻辑规则来提升理解准确率。

具体地,一并参照图2,计算机设备102通过多种输入设备提取用户多种模态的用户数据,可以选自语音、文字、身体姿态以及生理信号等。其中语音、文字、用户表情、身体姿态中蕴含着丰富的信息,通过提取其中的语义信息,并进行融合;再结合当前的交互环境,上下文交互数据与用户交互对象,识别的用户情感状态,推断用户的当前行为倾向,即用户的意图信息。

不同模态的用户数据获取意图信息的过程不相同,比如:文本模态的数据可以通过自然语言处理等算法进行语义分析得到用户的基本意图,然后通过用户的基本意图结合情感状态获得情感意图;语音模态数据通过语音转文字得到语音文本后进行语义分析得到用户的基本意图,然后结合情感状态(通过音频数据参数得到)获得情感意图;面部表情和姿态动作等图像或视频数据通过计算机视觉的图像和视频识别方法来判断用户的基本意图和情感意图;生理信号的模态数据可以与其他模态数据进行匹配,共同获得基本意图和情感意图,如配合用户的语音等输入确定此次交互的意图信息;或者,在动态情感数据处理过程,可能有最初的触发指令,如用户通过语音指令开启交互,获得用户的基本意图,随后追踪一段时间内的生理信号,每隔一定时间段判定出用户的情感意图,此时生理信号只影响情感意图而不改变基本意图。

在另一个具体应用场景中,用户在开门的时候,找不到钥匙,焦急地说了一句话:“我的钥匙呢?”。该用户的动作为拉着门把手,或者在背包口袋中寻找钥匙。此时,用户的情感状态可能为着急,烦躁等负面情绪,计算机设备可以通过采集到的面部表情,语音特征与生理信号等,结合用户的动作、语音(“钥匙在哪里”)、以及情感状态(焦急),可以判断用户的基本意图应该是想找到钥匙,或者寻求帮助打开门;情感意图是需要安抚。

继续参照图1,步骤S104可以包括以下步骤:根据所述情感状态和所述意图信息确定可执行指令,以用于对所述用户进行情感反馈。

本实施例中,计算机设备确定可执行指令的过程可以是情感决策的过程。计算机设备可以执行所述可执行指令,并能够呈现用户所需求的服务以及情感。更具体地,计算机设备还可以结合意图信息、交互环境、上下文交互数据和/或交互对象确定可执行指令。交互环境、上下文交互数据、交互对象等是可以供计算机设备调用和选择的。

优选地,所述可执行指令可以包括情感模态和输出情感状态,或者所述可执行指令包括情感模态、输出情感状态和情感强度。具体地,所述可执行指令具有明确的可执行的含义,可以包括计算机设备情感呈现所需的具体参数,例如呈现的情感模态、呈现的输出情感状态和呈现的情感强度等。

优选的,可执行指令中包括至少一种情感模态和至少一种输出情感类型;

根据情感状态和意图信息确定可执行指令之后,还可以包括以下步骤:根据至少一种情感模态中的每种情感模态进行至少一种输出情感状态中的一种或多种输出情感类型的情感呈现。

本实施例中情感模态可以包括文本情感呈现模态、声音情感呈现模态、图像情感呈现模态、视频情感呈现模态、机械运动情感呈现模态中的至少一种,本发明对此不作限制。

本实施例中,输出情感状态可以表示为情感分类;或者输出情感状态也可以表示为预设的多维度的情感坐标点或区域。输出情感状态也可以为输出情感类型。

其中,输出情感状态包括:静态输出情感状态和/或动态输出情感状态;所述静态输出情感状态可以通过不具有时间属性的离散情感模型或维度情感模型进行表示,以表示当前交互的输出情感状态;所述动态输出情感状态可以通过具有时间属性的离散情感模型、维度情感模型进行表示,或其他具有时间属性的模型进行表示,以表示某个时间点或一定时间段内的输出情感状态。更具体地,所述静态输出情感状态可以表示为情感分类或维度情感模型。维度情感模型可以是多个维度构成的情感空间,每个输出情感状态对应情感空间中的一点或一个区域,每个维度是描述情感的一个因素。例如,二维空间理论:激活度-愉悦度或三维空间理论:激活度-愉悦度-优势度。离散情感模型是输出情感状态用离散的标签形式表示的情感模型,例如:六种基本情绪包括高兴、生气、悲伤、惊讶、害怕、恶心。

该可执行指令应当具有明确的可执行含义且容易理解和接受。可执行指令的内容可以包括至少一种情感模态和至少一种输出情感类型。

需要说明的是,最终的情感呈现可以仅为一种情感模态,例如文本情感模态;也可以为几种情感模态的结合,例如文本情感模态和声音情感模态的结合,或者文本情感模态、声音情感模态和图像情感模态的结合。

输出情感状态也可以为输出情感类型(也称为情感成分)可以为情感分类,通过分类输出情感模型和维度输出情感模型来表示。分类输出情感模型的情感状态是离散的,因此也称为离散输出情感模型;多维情感空间中的一个区域和/或至少一个点的集合可以定义为分类输出情感模型中的一个输出情感类型。维度输出情感模型是构建一个多维情感空间,该空间的每个维度对应一个心理学定义的情感因素,在维度情感模型下,输出情感状态由情感空间中的坐标值表示。另外,维度输出情感模型可以是连续的,也可以是离散的。

具体地,离散输出情感模型是情感类型的主要形式和推荐形式,其可以根据领域和应用场景对情感信息所呈现的情感进行分类,并且不同的领域或应用场景的输出情感类型可以相同,也可以不同。例如,在通用领域,一般采取的基本情感分类体系作为一种维度输出情感模型,即多维情感空间包括六种基本情绪维度包括高兴、生气、悲伤、惊讶、害怕、恶心;在客服领域,常用的情感类型可以包括但不限于高兴、悲伤、安慰、劝阻等;而在陪伴看护领域,常用的情感类型可以包括但不限于高兴、悲伤、好奇、安慰、鼓励、劝阻等。

维度输出情感模型是情感类型的补充方法,目前仅用于连续动态变化和后续情感计算的情况,例如需要实时微调参数、或者对上下文情感状态的计算影响很大的情况。维度输出情感模型的优势在于方便计算和微调,但是后续需要通过与所呈现的应用参数进行匹配来加以利用。

另外,每个领域都有主要关注的输出情感类型(通过情感识别用户信息得到在该领域关注的情感类型)和主要呈现的输出情感类型(情感呈现或交互指令中的情感类型),这两者可以是不同的两组情绪分类(分类输出情感模型)或者不同的情感维度范围(维度输出情感模型)。在某个应用场景下,通过一定的情感指令决策过程来完成确定该领域所主要关注的输出情感类型对应的主要呈现的输出情感类型。

当可执行指令包括多种情感模态时,优先采用文本情感模态来呈现至少一种输出情感类型,然后再采用声音情感模态、图像情感模态、视频情感模态、机械运动情感模态中的一种或多种情感模态来补充呈现至少一种输出情感类型。这里,补充呈现的输出情感类型可以是文本情感模态所未呈现的至少一种输出情感类型,或者文本输出情感模态呈现的情感强度和/或情感极性不符合可执行指令所要求的至少一种输出情感类型。

需要说明的是,可执行指令可以指定一种或多种输出情感类型,并且可以按照每种输出情感类型的强度进行排序,以确定各输出情感类型在情感呈现过程中的主次。具体地,如果输出情感类型的情感强度小于预设的情感强度阈值,则可以认为该输出情感类型在情感呈现过程中的情感强度不可以大于其它在可执行指令中情感强度大于或等于情感强度阈值的输出情感类型。

在本发明实施例中,情感模态的选择取决于以下因素:情感输出设备及其应用状态(例如,是否具备显示文本或图像的显示器、是否连接有扬声器等)、交互场景类型(例如,日常聊天、业务咨询等)、对话类型(例如,常见问题的解答主要以文本回复为主,导航则以图像为主、语音为辅)等。

进一步地,情感呈现的输出方式取决于情感模态。举例来说,如果情感模态为文本情感模态,则最终的情感呈现的输出方式为文本的方式;如果情感模态为文本情感模态为主,声音情感模态为辅,则最终的情感呈现的输出方式为文本和语音结合的方式。也就是说,情感呈现的输出可以仅包括一种情感模态,也可以包括几种情感模态的结合,本发明对此不作限制。

根据本发明实施例提供的技术方案,通过获取可执行指令,其中可执行指令包括至少一种情感模态和至少一种输出情感类型,至少一种情感模态包括文本情感模态,以及根据至少一种情感模态中的每种情感模态进行至少一种情感类型中的一种或多种情感类型的情感呈现,实现了以文本为主的多模态情感呈现方式,因此,提高了用户体验。

在本发明的另一个实施例中,根据至少一种情感模态中的每种情感模态进行至少一种输出情感类型中的一种或多种输出情感类型的情感呈现,包括:根据至少一种输出情感类型查找情感呈现数据库以确定至少一种输出情感类型中的每种输出情感类型对应的至少一个情感词汇;以及呈现至少一个情感词汇。

具体地,情感呈现数据库可以是预置人工标记的,也可以是通过大数据学习得到的,或者也可以是通过半学习半人工的半监督人机协作得到的,甚至还可以是通过大量情感对话数据训练整个交互系统得到的。需要说明的是,情感呈现数据库允许在线学习和更新。

情感词汇及其输出情感类型、情感强度和情感极性的参数可以存储在情感呈现数据库中,也可以通过外部接口得到。另外,情感呈现数据库包括多个应用场景的情感词汇的集合以及相应的参数,因此,可以根据实际应用情况对情感词汇进行切换和调整。

情感词汇可以按照应用场景下所关注的用户的情感状态进行分类。也就是说,同一个情感词汇的输出情感类型、情感强度和情感极性与应用场景有关。其中,情感极性可以包括褒义、贬义和中性中的一种或多种。

可以理解的是,所述可执行指令还可以包括计算机设备需要执行的功能操作,例如回复用户问题答案等。

进一步地,所述意图信息包括用户的基本意图,所述可执行指令包括与所述基本意图相匹配的内容,所述用户的基本意图为预先设定的事务意图类别中的一个或多个。获取所述基本意图的方法可以参照图5所示实施例,此处不再赘述。

优选地,所述情感模态根据所述用户数据的至少一种模态来确定。更近一步地,所述情感模态与所述用户数据的至少一种模态相同。本发明实施例中,为了保证交互的流畅性,计算机设备反馈的输出情感状态的情感模态可以与用户数据的模态保持一致,换言之,所述情感模态可以选自所述用户数据的至少一种模态。

可以理解的是,所述情感模态还可以结合交互场景、对话类别来确定。例如,在日常聊天,业务咨询等场景下,情感模态通常是语音、文本;对话类别为问答系统(Frequently Asked Questions,FAQ)时,情感模态主要是文本;对话类别为导航时,情感模态以图像为主,语音为辅。

请一并参照图9,进一步地,根据所述情感状态和所述意图信息确定可执行指令可以包括以下步骤:

步骤S601:上一轮情感交互生成可执行指令完成之后,根据本次交互中的所述情感状态和所述意图信息确定可执行指令,或

步骤S602:若所述情感状态为动态变化的,且所述情感状态的变化量超过预定阈值,则至少根据变化后的所述情感状态对应的情感意图确定可执行指令;

或者,步骤S603:若所述情感状态为动态变化的,则在设定时间间隔内根据所述动态变化的情感状态确定对应的所述可执行指令。

本实施例中,计算机设备确定可执行指令的具体过程可以和应用场景相关,在不同的应用中可以有不同的策略。

在步骤S601的具体实施中,不同的交互过程相互独立,一次情感交互过程只产生一个可执行指令。确定上一轮情感交互的可执行指令之后,再确定本次交互中的可执行指令。

在步骤S602的具体实施中,对于动态变化的情感状态的情况,情感状态会随时间动态变化。计算机设备可以在当情感状态变化超过预定阈值后,触发下一次交互,也即根据变化后的所述情感状态对应的情感意图确定可执行指令。具体实施中,如果所述情感状态为动态变化的,则可以从某个指令开始采样第一个情感状态作为基准情感状态后,采用设定采样频率对情感状态进行采样,比如每间隔1s采样一次情感状态,只有当情感状态与基准情感状态的变化超过预定阈值,才将此时的情感状态输入反馈机制,以用于调整交互策略。也可以采用设定采样频率反馈情感状态。也即从某个指令开始,采用设定采样频率对情感状态进行采样,比如每间隔1s采样一次情感状态,该情感状态的使用情况与静态状况一致。进一步地,超过预定阈值的情感状态在用于确定交互指令之前,需要与历史数据(例如基准情感状态、上一轮交互情感状态等)进行结合,来调整情感状态(如平滑情感过度等),然后基于调整后的情感状态进行反馈,以确定可执行指令。

在步骤S603的具体实施中,对于动态变化的情感状态的情况,计算机设备可以产生变化的间断的可执行指令,也即对设定时间间隔内情感状态确定对应的所述可执行指令。

此外,动态的情感状态的变化也可以作为上下文交互数据进行存储,并参与后续情感交互过程。

确定可执行指令可以利用规则逻辑的匹配,也可以通过学习系统(如神经网络、增强学习)等方式,也可以是两者的结合。进一步地,将所述情感状态和所述意图信息与预设指令库进行匹配,以匹配得到所述可执行指令。

一并参照图1和图10,在确定可执行指令之后,所述情感交互方法还可以包括以下步骤:

步骤S701:当所述可执行指令包括情感模态和输出情感状态时,执行所述可执行指令,利用所述情感模态对所述用户呈现所述输出情感状态;

步骤S702:当所述可执行指令包括情感模态、输出情感状态和情感强度时,执行所述可执行指令,根据所述情感模态和所述情感强度对所述用户呈现所述输出情感状态。

本实施例中,计算机设备可以根据可执行指令的具体参数呈现出相应的内容或执行相应的操作。

在步骤S701的具体实施中,可执行指令包括情感模态和输出情感状态,则计算机设备将以所述情感模态指示的方式呈现所述输出情感状态。而在步骤S702的具体实施中,计算机设备还将呈现所述输出情感状态的情感强度。

具体而言,情感模态可以表示输出情感状态呈现的用户界面渠道,比如文本、表情、手势、语音等。计算机设备最终呈现的情感状态可以是一种模态或者多种模态的结合。计算机设备可以通过显示器等文本或图像输出设备呈现文本、图像或视频;通过扬声器呈现语音等。进一步地,对于通过多种情感模态共同呈现输出情感状态时,涉及到协同操作,例如空间和时间的协同:显示器呈现的内容与声音播报内容的时间同步;空间和时间同步:机器人需要移动到特定位置同时播放/展示其他模态信息的等。

可以理解的是,计算机设备除了呈现所述输出情感状态,还可以执行功能操作。执行功能操作可以是针对基本意图理解的回馈操作,可以具有明确的呈现内容。例如对用户所咨询内容进行回复;对用户命令的操作进行执行等。

进一步地,用户的情感意图可以影响对其基本意图的操作,计算机设备可以在执行所述可执行指令时,更改或修正针对基本意图的直接操作。例如,用户对智能穿戴设备命令:“再预定30分钟的运动时间”,其基本意图明确。现有技术中没有情感识别功能和情感交互步骤,将会直接设定该时间;但本发明技术方案中,如果计算机设备检测到用户的心跳、血压等数据偏离正常值很高,具有严重的“兴奋过度”等特征,则计算机设备可以语音播报警示信息,以提示用户:“您现在心跳过快,长时间运动可能不利于身体健康,请确认是否延长运动时间”,然后再根据用户的回复进行进一步的交互决策。

需要说明的是,通过计算机设备将可执行指令指示的内容呈现给用户后,可能激发用户接下来的情感交互,从而进入新一轮的情感交互过程。而之前的交互内容,包括情感状态、意图信息等将作为该用户的上下文交互数据用在接下来的情感交互过程中。上下文交互数据还可以进行存储,并用于对意图信息的确定进行迭代学习和改进。

本发明又一个具体应用场景中,智能穿戴设备通过测量生理信号进行情感识别,通过意图分析确定意图信息,生成可执行指令,通过显示屏或扬声器等输出设备发送与可执行指令相匹配的图片、音乐或提示音等进行情感反馈,如愉悦、惊讶、鼓励等。

例如,正在跑步的用户对智能穿戴设备用语音说:“我现在跑了多久了?”智能穿戴设备将通过麦克风和心跳实时测量装置捕捉用户的语音和心跳数据,并进行情感识别。通过分析其语音特征得到该场景下所关注的用户情感“烦躁”,同时分析用户的心跳特性得到用户的另一个情感状态“过度兴奋”,可以通过分类情感模型进行表示。同时智能穿戴设备将语音转换为文本,并可能需要匹配领域语义得到用户的基本意图为“获得用户本次运动的时间”。这一步骤可能需要涉及到医疗健康领域的语义库以及个性化信息。

用户的情感状态“烦躁”和“过度兴奋”与基本意图“获得用户本次运动的时间”联系在一起,可以分析得到“获得用户本次运动的时间,用户表示烦躁,并可能因为当前的运动导致过度兴奋等不适症状”。这一步骤可能需要涉及到医疗健康领域的情感语义库以及个性化信息。

智能穿戴设备的最终反馈需要满足应用场景的需求,如预置情感策略数据库可能为:“对于意图为‘获得用户的实时运动数据’的用户,如果其情感状态为‘烦躁’则需要在输出‘实时运动数据’的同时呈现情感‘安抚’;如果其生理信号显示其情感状态为‘过度兴奋’,则需同时显示‘警示’,情感强度分别为中等和高等”。此时智能穿戴设备将根据当前的交互内容和情感输出设备状态指定输出设备,发出可执行指令“屏幕输出‘运动时间’,同时通过语音播报呈现情感‘安抚’和‘警示’,情感强度分别为中等和高等。”

此时智能穿戴设备的语音输出,其语音输出的声调、语速等语音参数需要根据情感状态“安抚”和“警示”以及相应的情感强度来调整。输出给用户符合该可执行指令的可能是音调轻快,缓慢语速的语音播报:“您本次运动持续了35分钟。恭喜!已经达到有氧运动的时间长度。您当前的心跳略快,如有感到心跳过快等不适症状请中断当前运动并做深呼吸进行调整。”智能穿戴设备也可能考虑交互内容的隐私性或展现手法而避免语音播报操作,并改为纯文本或通过视频和动画表示。

如图14所示,本发明实施例还公开了一种情感交互装置80。情感交互装置80可以用于图1所示的计算机设备102。具体地,情感交互装置80可以内部集成于或者外部耦接于所述计算机设备102。

情感交互装置80可以包括用户数据获取模块801、情感获取模块802和意图信息确定模块803。

其中,用户数据获取模块801用以获取用户数据;情感获取模块802用以获取用户的情感状态;意图信息确定模块803用以至少根据所述用户数据确定意图信息,其中,所述意图信息包括与所述情感状态对应的情感意图,所述情感意图包括所述情感状态的情感需求。

在一实施例中,作为优选地,情感获取模块802进一步用以对所述至少一种模态的用户数据进行情感识别,以得到用户的情感状态;

在一实施例中,优选地,还可以包括交互模块804用以根据所述情感状态和所述意图信息控制与用户之间的交互。

本发明实施例通过识别至少一种模态的用户数据获得用户的情感状态,可以提高情感识别的准确度;此外,情感状态可以结合所述意图信息用于控制与用户之间的交互,从而使得针对用户数据的反馈中可以携带情感数据,进而提高交互的精准性,以及提高交互过程中的用户体验。

优选地,所述意图信息包括与所述情感状态对应的情感意图,所述情感意图包括所述情感状态的情感需求。本发明实施例中,基于至少一种模态的用户数据还可以获得针对所述情感状态的情感需求;也就是说,意图信息包括用户的情感需求。例如,用户的情感状态为伤心时,所述情感意图可以包括用户的情感需求“安慰”。通过将情感意图用于与用户之间的交互,可以使得交互过程更加人性化,提高交互过程的用户体验。

优选地,一并参照图14和图15,意图信息确定模块803可以包括:第一上下文交互数据确定单元8031,用以确定上下文交互数据,所述上下文交互数据包括上下文情感状态和/或上下文意图信息;情感意图确定单元8032,用以根据所述用户数据、所述情感状态和所述上下文交互数据确定所述情感意图,所述意图信息包括所述情感意图。

本实施例中,上下文交互数据可以用于确定情感状态。可以在当前的情感状态不明确时,比如无法识别,或者存在多种情感状态无法判别的情况,可以通过使用上下文交互数据进一步判别,以保证当前交互中情感状态的确定。

具体而言,情感状态不明确是指当前交互中无法判断用户的情感状态。比如用户当前的语句无法以很高置信度判断情感状态,然而该用户在上一轮交互中的情绪可能很激动;则可以在上一轮交互中的用户的情感状态明显的情况下,借鉴上一轮交互的情感状态,以避免情感判断失败,无法获取当前交互中用户的情感状态的情况。

其中,上下文交互数据可以包括上下文情感状态和/或上下文意图信息。进一步地,在用户进行第一轮交互时,上下文交互数据可以是空(Null)。

上下文交互数据还可以用于意图理解,确定基本意图。基本意图需要上下文关联得到;情感状态与基本意图的关系也需要上下文信息辅助来确定。

进一步而言,上下文交互数据可以包括之前数次交互对话中的交互数据和/或本次交互对话中的其他交互数据。

在本实施例中,之前数次交互对话中的交互数据是指之前交互对话中的意图信息和情感状态;本次交互对话中的其他交互数据,是指本次交互对话中的其他意图信息和其他情感状态。

在具体实施中,其他交互数据可以是用户数据在本次交互对话中的上下文。例如,用户说了一段话或者数据采集设备采集到一个连续流数据,则一段话中可以分成几句话来处理,彼此互为上下文,一个连续流数据可以是多个时间点采集的数据,彼此互为上下文。

交互数据可以是多次交互的上下文。例如,用户与机器进行了多轮对话,每轮对话的内容彼此为上下文。

上下文交互数据还可以包括长期的历史数据。长期的历史数据可以为超过本次多轮对话的时限,长期积累形成的用户数据。

进一步地,情感意图确定单元8032可以包括:时序获取子单元(图未示),用以获取所述用户数据的时序;计算子单元(图未示),用以至少根据所述时序、所述情感状态和所述上下文交互数据确定所述情感意图。

本实施例中,可以根据预设时序规则来获取用户数据的时序;也可以根据获取所述用户数据的时间顺序来确定用户数据的时序;也可以是,用户数据的时序是预先设定好的,在这种情况下,可以直接调用获取所述用户数据的时序。

更近一步地,计算子单元可以包括第一焦点内容提取子单元,用以基于所述用户数据的时序提取所述用户数据中的每个时序对应的焦点内容;匹配子单元,用以针对每个时序,将所述时序对应的焦点内容与情感类型库中的内容进行匹配,确定相匹配的内容对应的情感类型为所述时序对应的焦点情感类型;最终计算子单元,用以根据所述时序,将所述时序对应的焦点情感类型、所述时序对应的情感状态和所述时序对应的上下文交互数据确定所述情感意图。

本实施例中,焦点内容、焦点情感类型、情感状态和上下文交互数据分别与时序相对应。时序对应的上下文交互数据为当前时序的前一个时序的情感状态和意图信息。

本发明另一个优选实施例中,情感意图确定单元8032还可以包括:第一贝叶斯网络计算子单元,用以基于所述用户数据、所述情感状态和所述上下文交互数据利用贝叶斯网络确定所述情感意图;第一匹配计算子单元,用以将所述用户数据、所述情感状态和所述上下文交互数据与情感语义库中的预设情感意图进行匹配,以获得所述情感意图;第一搜索子单元,用以利用所述用户数据、所述情感状态和所述上下文交互数据在预设意图空间进行搜索,以确定所述情感意图,所述预设意图空间包括多种情感意图。

本发明一个具体实施例中,所述意图信息包括所述情感意图和基本意图,所述情感意图包括所述情感状态的情感需求,以及所述情感状态与所述基本意图的关联关系,所述基本意图为预先设定的事务意图类别中的一个或多个。

具体实施中,事务意图类别可以是根据应用领域和场景而定的与业务和操作相关的明确的意图类别。比如银行领域的“开通银行卡”、“转账业务”等类别;个人助理的“查阅日程”、“发送邮件”等类别。事物意图类别通常与情感无关。

进一步地,所述情感状态与所述基本意图的关联关系为预先设定的。据具体而言,当情感状态与基本意图之间具备关联关系时,其关联关系通常是预先设定的关系。该关联关系可以影响最终反馈给用户的数据。例如,基本意图为控制运动器械时,与该基本意图具有关联关系的情感状态为兴奋;如果用户的基本意图是增加运动器械的运转速度,为了用户的安全考虑,计算机设备最终反馈给用户的内容可以是提示用户该操作可能带来危险。

或者,所述情感状态与所述基本意图的关联关系也可以是基于预设训练模型获取的。例如,利用训练完成的端到端模型等确定情感状态与所述基本意图的关联关系。预设训练模型可以是固定的深度网络模型,可以输入情感状态和当前交互环境,也可以通过在线学习不断更新(比如利用增强学习模型,在增强学习模型中设定目标函数和奖励函数,随着人机交互次数增加,该增强学习模型也可以不断更新演化)。

本发明实施例中,意图信息包括用户的情感需求以及预先设定的事务意图类别,从而在利用意图信息控制与用户的交互时,可以在回复用户答案的同时满足用户的情感需求,进一步提高用户体验;此外,意图信息还包括所述情感状态与所述基本意图的关联关系,通过该关联关系可以判定用户当前的真实意图;由此在与用户交互时,可以利用该关联关系确定最终的反馈信息或操作,从而提高交互过程的精准性。

所述上下文交互数据包括之前数次交互对话中的交互数据和/或本次交互对话中的其他交互数据。

具体实施中,当前交互环境可以通过情感交互的应用场景来确定,例如交互场所、交互环境和计算机设备的动态变化更新等。

更具体地,当前交互环境可以包括预置当前交互环境和当前交互环境。预置当前交互环境可以是长期有效的场景设置,可以直接影响应用的逻辑规则设计、语义库、知识库等。当前交互环境可以是根据当前交互信息提取的,也即根据用户数据和/或上下文交互数据得到的。例如,如果用户使用公共服务助手进行报案,预置当前交互环境可以提示通过“电话、网页、手机拍照、GPS”等途径选择报案方式;如果用户正在现场,那么可能直接进一步更新当前交互环境,直接推荐更便捷的方式“手机拍照、GPS”。当前交互环境可以提升对意图理解的准确性。

优选地,一并参照图14和图16,意图信息确定模块803可以包括:语义获取单元8033,用以获取所述用户数据的时序以及各时序的用户数据的语义;上下文意图信息确定单元8034,用以确定上下文意图信息;基本意图确定单元8035,用以根据所述用户数据的语义和所述上下文意图信息确定基本意图,所述意图信息包括所述基本意图,所述用户的基本意图为预先设定的事务意图类别中的一个或多个。

获取所述用户数据的时序是指,在用户数据中存在多个操作或多个意图时,需要确定用户数据所包括的多个操作的时序信息。每个操作的时序会影响后续意图信息。

获取各时序的用户数据的语义的具体方式可以根据用户数据的模态来确定。用户数据为文本时,可以直接通过语义分析确定文本的语义;用户数据为语音时,则可以先将语音转换为文本,再进行语义分析确定语义。所述用户数据还可以是多模态数据融合后的数据,可以结合具体的应用场景进行语义提取。例如,用户数据为不含任何文字的图片时,可以通过图像理解技术来获取语义。

具体地,语义可以经过自然语言处理、语义库匹配的过程来获取。

进一步地,基本意图确定单元8035可以包括时序获取子单元(图未示),用以获取所述用户数据的时序以及各时序的用户数据的语义;基本意图确定子单元(图未示),用以至少根据所述时序、所述各时序的用户数据的语义和所述时序对应的上下文意图信息确定所述基本意图。

本发明一个优选实施例中,计算机设备可以结合当前交互环境、上下文交互数据和用户数据确定基本意图。

基本意图确定单元8035还可以包括:第二焦点内容提取子单元,用以提取所述用户数据中的每个时序对应的焦点内容;当前交互环境确定子单元,用以确定当前交互环境;上下文意图信息确定子单元,用以确定所述时序对应的上下文意图信息;最终基本意图确定子单元,用以针对每个时序,使用该时序对应的相关信息确定用户的基本意图,所述相关信息包括:所述焦点内容、所述当前交互环境、所述上下文意图信息、所述时序和所述语义。

本实施例中,所述上下文意图信息包括之前数次交互对话中的意图信息和/或本次交互对话中的其他意图信息。

为了更准确的确定用户的基本意图,可以结合焦点内容、当前交互环境、上下文交互数据中的上下文意图信息。尤其是在用户的基本意图不明确时,可以通过当前交互环境、上下文交互数据更准确地推断用户的基本意图,例如用户需要获取的服务,从而有利于后续更精准地对用户进行反馈。

具体实施中,当前交互环境可以通过情感交互的应用场景来确定,例如交互场所、交互环境和计算机设备的动态变化更新等。

更具体地,当前交互环境可以包括预置当前交互环境和当前当前交互环境。预置当前交互环境可以是长期有效的场景设置,可以直接影响应用的逻辑规则设计、语义库、知识库等。当前当前交互环境可以是根据当前交互信息提取的,也即根据用户数据和/或上下文交互数据得到的。例如,如果用户使用公共服务助手进行报案,预置当前交互环境可以提示通过“电话、网页、手机拍照、GPS”等途径选择报案方式;如果用户正在现场,那么可能直接进一步更新当前交互环境,直接推荐更便捷的方式“手机拍照、GPS”。当前交互环境可以提升对意图理解的准确性。

更近一步地,最终基本意图确定子单元可以包括:第二贝叶斯网络计算子单元,用以针对每个时序,基于该时序对应的相关信息利用贝叶斯网络确定所述基本意图;第二匹配计算子单元,用以针对每个时序,将该时序对应的相关信息与语义库中的预设基本意图进行匹配,以获得所述基本意图;第二搜索子单元,用以将该时序对应的相关信息在预设意图空间进行搜索,以确定所述基本意图,所述预设意图空间包括多种基本意图。

可选的,意图信息确定模块803还可以包括:基本意图调取单元,用以通过调用获取与所述用户数据相对应的基本意图,并将所述基本意图加入所述意图信息,所述用户的基本意图为预先设定的事务意图类别中的一个或多个。

具体而言,预先设定的事务意图类别可以预先存储在本地服务器或者云端服务器。本地服务器可以直接利用语义库和搜索等方式对用户数据进行匹配,而云端服务器则可以利用接口通过参数调用的方式对用户数据进行匹配。更具体地,匹配的方式可以有多种,比如通过在语义库中预先定义事务意图类别,通过计算用户数据与预先设定的事务意图类别的相似度来进行匹配;也可以通过搜索算法进行匹配;还可以通过深度学习进行分类等等。

优选地,请参照图14和图17,交互模块804可以包括可执行指令确定单元8041,用以根据所述情感状态和所述意图信息确定可执行指令,以用于对所述用户进行情感反馈。

优选的,可执行指令中包括至少一种情感模态和至少一种输出情感类型;

所述交互模块还包括输出情感类型呈现单元,用以根据至少一种情感模态中的每种情感模态进行至少一种输出情感状态中的一种或多种输出情感类型的情感呈现。

本实施例中情感模态可以包括文本情感呈现模态、声音情感呈现模态、图像情感呈现模态、视频情感呈现模态、机械运动情感呈现模态中的至少一种,本发明对此不作限制。

本实施例中,输出情感状态可以表示为情感分类;或者输出情感状态也可以表示为预设的多维度的情感坐标点或区域。输出情感状态也可以为输出情感类型。

其中,输出情感状态包括:静态输出情感状态和/或动态输出情感状态;所述静态输出情感状态可以通过不具有时间属性的离散情感模型或维度情感模型进行表示,以表示当前交互的输出情感状态;所述动态输出情感状态可以通过具有时间属性的离散情感模型、维度情感模型进行表示,或其他具有时间属性的模型进行表示,以表示某个时间点或一定时间段内的输出情感状态。更具体地,所述静态输出情感状态可以表示为情感分类或维度情感模型。维度情感模型可以是多个维度构成的情感空间,每个输出情感状态对应情感空间中的一点或一个区域,每个维度是描述情感的一个因素。例如,二维空间理论:激活度-愉悦度或三维空间理论:激活度-愉悦度-优势度。离散情感模型是输出情感状态用离散的标签形式表示的情感模型,例如:六种基本情绪包括高兴、生气、悲伤、惊讶、害怕、恶心。

该可执行指令应当具有明确的可执行含义且容易理解和接受。可执行指令的内容可以包括至少一种情感模态和至少一种输出情感类型。

需要说明的是,最终的情感呈现可以仅为一种情感模态,例如文本情感模态;也可以为几种情感模态的结合,例如文本情感模态和声音情感模态的结合,或者文本情感模态、声音情感模态和图像情感模态的结合。

输出情感状态也可以为输出情感类型(也称为情感成分)可以为情感分类,通过分类输出情感模型和维度输出情感模型来表示。分类输出情感模型的情感状态是离散的,因此也称为离散输出情感模型;多维情感空间中的一个区域和/或至少一个点的集合可以定义为分类输出情感模型中的一个输出情感类型。维度输出情感模型是构建一个多维情感空间,该空间的每个维度对应一个心理学定义的情感因素,在维度情感模型下,输出情感状态由情感空间中的坐标值表示。另外,维度输出情感模型可以是连续的,也可以是离散的。

具体地,离散输出情感模型是情感类型的主要形式和推荐形式,其可以根据领域和应用场景对情感信息所呈现的情感进行分类,并且不同的领域或应用场景的输出情感类型可以相同,也可以不同。例如,在通用领域,一般采取的基本情感分类体系作为一种维度输出情感模型,即多维情感空间包括六种基本情绪维度包括高兴、生气、悲伤、惊讶、害怕、恶心;在客服领域,常用的情感类型可以包括但不限于高兴、悲伤、安慰、劝阻等;而在陪伴看护领域,常用的情感类型可以包括但不限于高兴、悲伤、好奇、安慰、鼓励、劝阻等。

维度输出情感模型是情感类型的补充方法,目前仅用于连续动态变化和后续情感计算的情况,例如需要实时微调参数、或者对上下文情感状态的计算影响很大的情况。维度输出情感模型的优势在于方便计算和微调,但是后续需要通过与所呈现的应用参数进行匹配来加以利用。

另外,每个领域都有主要关注的输出情感类型(通过情感识别用户信息得到在该领域关注的情感类型)和主要呈现的输出情感类型(情感呈现或交互指令中的情感类型),这两者可以是不同的两组情绪分类(分类输出情感模型)或者不同的情感维度范围(维度输出情感模型)。在某个应用场景下,通过一定的情感指令决策过程来完成确定该领域所主要关注的输出情感类型对应的主要呈现的输出情感类型。

当可执行指令包括多种情感模态时,优先采用文本情感模态来呈现至少一种输出情感类型,然后再采用声音情感模态、图像情感模态、视频情感模态、机械运动情感模态中的一种或多种情感模态来补充呈现至少一种输出情感类型。这里,补充呈现的输出情感类型可以是文本情感模态所未呈现的至少一种输出情感类型,或者文本输出情感模态呈现的情感强度和/或情感极性不符合可执行指令所要求的至少一种输出情感类型。

需要说明的是,可执行指令可以指定一种或多种输出情感类型,并且可以按照每种输出情感类型的强度进行排序,以确定各输出情感类型在情感呈现过程中的主次。具体地,如果输出情感类型的情感强度小于预设的情感强度阈值,则可以认为该输出情感类型在情感呈现过程中的情感强度不可以大于其它在可执行指令中情感强度大于或等于情感强度阈值的输出情感类型。

在本发明实施例中,情感模态的选择取决于以下因素:情感输出设备及其应用状态(例如,是否具备显示文本或图像的显示器、是否连接有扬声器等)、交互场景类型(例如,日常聊天、业务咨询等)、对话类型(例如,常见问题的解答主要以文本回复为主,导航则以图像为主、语音为辅)等。

进一步地,情感呈现的输出方式取决于情感模态。举例来说,如果情感模态为文本情感模态,则最终的情感呈现的输出方式为文本的方式;如果情感模态为文本情感模态为主,声音情感模态为辅,则最终的情感呈现的输出方式为文本和语音结合的方式。也就是说,情感呈现的输出可以仅包括一种情感模态,也可以包括几种情感模态的结合,本发明对此不作限制。

根据本发明实施例提供的技术方案,通过获取可执行指令,其中可执行指令包括至少一种情感模态和至少一种输出情感类型,至少一种情感模态包括文本情感模态,以及根据至少一种情感模态中的每种情感模态进行至少一种情感类型中的一种或多种情感类型的情感呈现,实现了以文本为主的多模态情感呈现方式,因此,提高了用户体验。

在本发明的另一个实施例中,根据至少一种情感模态中的每种情感模态进行至少一种输出情感类型中的一种或多种输出情感类型的情感呈现,包括:根据至少一种输出情感类型查找情感呈现数据库以确定至少一种输出情感类型中的每种输出情感类型对应的至少一个情感词汇;以及呈现至少一个情感词汇。

具体地,情感呈现数据库可以是预置人工标记的,也可以是通过大数据学习得到的,或者也可以是通过半学习半人工的半监督人机协作得到的,甚至还可以是通过大量情感对话数据训练整个交互系统得到的。需要说明的是,情感呈现数据库允许在线学习和更新。

情感词汇及其输出情感类型、情感强度和情感极性的参数可以存储在情感呈现数据库中,也可以通过外部接口得到。另外,情感呈现数据库包括多个应用场景的情感词汇的集合以及相应的参数,因此,可以根据实际应用情况对情感词汇进行切换和调整。

情感词汇可以按照应用场景下所关注的用户的情感状态进行分类。也就是说,同一个情感词汇的输出情感类型、情感强度和情感极性与应用场景有关。其中,情感极性可以包括褒义、贬义和中性中的一种或多种。

所述可执行指令确定单元8041包括:第一可执行指令确定子单元80411,用以在上一轮情感交互生成可执行指令完成之后,根据本次交互中的所述情感状态和所述意图信息确定可执行指令;第二可执行指令确定子单元80412,用以在所述情感状态为动态变化的,且所述情感状态的变化量超过预定阈值时,至少根据变化后的所述情感状态对应的情感意图确定可执行指令;第三可执行指令确定子单元80413,用以在所述情感状态为动态变化的时,在设定时间间隔内根据所述动态变化的情感状态确定对应的所述可执行指令。

具体实施中,如果所述情感状态为动态变化的,则可以从某个指令开始采样第一个情感状态作为基准情感状态后,采用设定采样频率对情感状态进行采样,比如每间隔1s采样一次情感状态,只有当情感状态与基准情感状态的变化超过预定阈值,才将此时的情感状态输入反馈机制,以用于调整交互策略。进一步地,超过预定阈值的情感状态在用于确定交互指令之前,需要与历史数据(例如基准情感状态、上一轮交互情感状态等)进行结合,来调整情感状态(如平滑情感过度等),然后基于调整后的情感状态进行反馈,以确定可执行指令。

如果所述情感状态为动态变化的,也可以采用设定采样频率反馈情感状态。也即从某个指令开始,采用设定采样频率对情感状态进行采样,比如每间隔1s采样一次情感状态,该情感状态的使用情况与静态状况一致。

所述可执行指令确定单元8041还可以包括:匹配子单元80414,用以将所述情感状态和所述意图信息与预设指令库进行匹配,以匹配得到所述可执行指令。

所述可执行指令包括情感模态和输出情感状态;或所述可执行指令包括情感模态、输出情感状态和情感强度。当所述可执行指令包括情感模态、输出情感状态和情感强度时,可以通过多维坐标或离散状态的方式来表示所述输出情感状态和情感强度。

本发明实施例中,可执行指令可以被计算机设备执行,可执行指令中可以指示计算机设备输出的数据的形式:情感模态和输出情感状态;也就是说,最终呈现给用户的数据是情感模态的输出情感状态,从而实现了与用户的情感交互。此外,可执行指令还可以包括情感强度,情感强度可以表征输出情感状态的强烈程度,通过利用情感强度,可以更好地实现与用户的情感交互。

一并参照图14和图18,相对于图14所示情感交互装置80,图18所示情感交互装置110还可以包括第一执行模块805和/或第二执行模块806。第一执行模块805用以当所述可执行指令包括情感模态和输出情感状态时,执行所述可执行指令,利用所述情感模态对所述用户呈现所述输出情感状态;第二执行模块806用以当所述可执行指令包括情感模态、输出情感状态和情感强度时,执行所述可执行指令,根据所述情感模态和所述情感强度对所述用户呈现所述输出情感状态。

关于所述情感交互装置80的工作原理、工作方式的更多内容,可以参照图1至图13中的相关描述,这里不再赘述。

本发明实施例还公开了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时可以执行图1至图13中所示的情感交互方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。

应当理解,虽然以上描述了本发明实施方式的一种实现形式可以是计算机程序产品,但是本发明的实施方式的方法或装置可以被依软件、硬件、或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的方法和设备可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的方法和装置可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。

应当理解,尽管在上文的详细描述中提及了装置的若干模块或单元,但是这种划分仅仅是示例性而非强制性的。实际上,根据本发明的示例性实施方式,上文描述的两个或更多模块/单元的特征和功能可以在一个模块/单元中实现,反之,上文描述的一个模块/单元的特征和功能可以进一步划分为由多个模块/单元来实现。此外,上文描述的某些模块/单元在某些应用场景下可被省略。

应当理解,本发明实施例描述中所用到的限定词“第一”、“第二”和“第三”等仅用于更清楚的阐述技术方案,并不能用于限制本发明的保护范围。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1