一种语音情绪识别方法、装置以及相关设备与流程

文档序号：19832820发布日期：2020-02-04 12:38阅读：169来源：国知局

本申请涉及通信技术领域，特别涉及一种语音情绪识别方法，还涉及一种语音情绪识别装置、电子设备以及计算机可读存储介质。

背景技术：

通讯技术的发展日新月异，智能手机也不断更新，功能越来越多，同时，随着用户生活节奏的日益加快，用户对通信服务体验的要求也越来越高，希望能得到更专业化、个性化、智能化的通信服务。但是，现有的电话通信业务仅仅能够实现简单的来电显示和骚扰拦截等功能，无法获取其他更为有效的数据信息，以有效帮助用户根据实际情况对来电进行接听或挂断，可见，现有的电话通信服务愈来愈无法满足用户对接听电话的一些智能化、多样化需求，导致用户体验性较差。

因此，如何根据来电信息获取更为有效的数据信息，以便用户根据反馈信息对来电进行处理，满足用户对电话通信服务的智能化需求，提高用户体验是本领域技术人员亟待解决的问题。

技术实现要素：

本申请的目的是提供一种语音情绪识别方法，该语音情绪识别方法可以根据来电信息获取更多更为有效的数据信息，更加便于用户根据反馈信息对来电进行处理，满足了用户对电话通信服务的智能化需求，进一步提高了用户体验；本申请的另一目的是提供一种语音情绪识别装置、电子设备以及计算机可读存储介质，也具有上述有益效果。

为解决上述技术问题，本申请提供了一种语音情绪识别方法，所述语音情绪识别方法包括：

根据接收到的呼叫请求与呼叫请求端进行智能对话，获得来电语音信息；

对所述来电语音信息进行文字转换获得文本信息，并对所述文本信息进行情感分析获得情感特征；

对所述来电语音信息进行特征提取，获得语气特征；

对所述情感特征和所述语气特征进行整合，获得组合特征词；

在预设情绪信息库中匹配获得所述组合特征词对应的情绪类别；

输出所述情绪类别。

优选的，所述根据接收到的呼叫请求与呼叫请求端进行智能对话，获得来电语音信息包括：

根据所述呼叫请求获得语音信息；

对所述语音信息进行文字转换，获得文本转换信息；

对所述文本转换信息进行特征提取，获得文本特征；

在预设问题知识库中匹配获得所述文本特征对应的问题信息；

在预设答案知识库中匹配获得所述问题信息对应的答案信息；

对所述答案信息进行语音转换，获得语音答复信息；

将所述语音答复信息反馈至所述呼叫请求端，实现所述智能对话；

将所述智能对话过程中的各语音信息进行统计，获得所述来电语音信息。

优选的，所述对所述文本转换信息进行特征提取，获得文本特征，包括：

对所述文本转换信息进行分词处理和标注处理，获得处理后的文本转换信息；

利用预设语言模型对所述处理后的文本转换信息进行特征提取，获得所述文本特征。

优选的，所述语音情绪识别方法还包括：

对所述文本转换信息、所述问题信息和所述答案信息进行记录，生成问答记录；

根据所述问答记录对所述预设问题知识库和所述预设答案知识库进行更新。

优选的，所述语音情绪识别方法还包括：

当无法在所述预设情绪信息库中匹配获得所述组合特征词对应的情绪类别时，根据所述组合特征词创建新的情绪类别，并输出所述新的情绪类别。

优选的，所述语音情绪识别方法还包括：

将所述新的情绪类别添加至所述预设情绪信息库中，实现对所述预设情绪信息库的更新。

优选的，所述语音情绪识别方法还包括：

根据所述情绪类别生成接听电话的建议信息；

输出所述建议信息。

优选的，所述语音情绪识别方法还包括：

通过播音器对所述建议信息进行语音播放。

优选的，所述语音情绪识别方法还包括：

根据所述情绪类别，调整所述智能对话的语气模式。

为解决上述技术问题，本申请还提供了一种语音情绪识别装置，所述语音情绪识别装置包括：

智能对话模块，用于根据接收到的呼叫请求与呼叫请求端进行智能对话，获得来电语音信息；

第一特征提取模块，用于对所述来电语音信息进行文字转换获得文本信息，并对所述文本信息进行情感分析获得情感特征；

第二特征提取模块，用于对所述来电语音信息进行特征提取，获得语气特征；

特征整合模块，用于对所述情感特征和所述语气特征进行整合，获得组合特征词；

语义匹配模块，用于在预设情绪信息库中匹配获得所述组合特征词对应的情绪类别；

信息输出模块，用于输出所述情绪类别。

为解决上述技术问题，本申请还提供了一种语音情绪识别的电子设备，所述语音情绪识别的电子设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任意一种语音情绪识别方法的步骤。

优选的，所述语音情绪识别的电子设备还包括：

显示器，用于显示呼叫请求端的身份类别。

为解决上述技术问题，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一种语音情绪识别方法的步骤。

本申请所提供的一种语音情绪识别方法，包括根据接收到的呼叫请求与呼叫请求端进行智能对话，获得来电语音信息；对所述来电语音信息进行文字转换获得文本信息，并对所述文本信息进行情感分析获得情感特征；对所述来电语音信息进行特征提取，获得语气特征；对所述情感特征和所述语气特征进行整合，获得组合特征词；在预设情绪信息库中匹配获得所述组合特征词对应的情绪类别；输出所述情绪类别。

可见，本申请所提供的语音情绪识别方法，在接收到呼叫请求时，首先与呼叫请求端进行智能对话，以获得来电语音信息，进而将来电语音信息转换为文本信息后，对其进行情感分析获得情感特征，与此同时，对来电语音信息进行特征提取，获得语气特征，也就是分别对语音和文本进行处理，获取各自对应的特征信息，再进行特征组合后获得组合特征词，最后在预设情绪信息库中匹配确定呼叫请求方的情绪类别并输出，以实现来电提醒，可见，该种实现方式可以根据呼叫请求端发出的来电信息获取更多更为有效的数据信息，确定呼叫请求方的情绪信息，更加便于用户根据反馈信息对来电进行处理，极大的满足了用户对电话通信服务的智能化需求，进一步提高了用户体验。

本申请所提供的一种语音情绪识别装置、电子设备以及计算机可读存储介质，均具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请所提供的一种语音情绪识别方法的流程示意图；

图2为本申请所提供的一种语音情绪识别系统框架图；

图3为本申请所提供的一种语音情绪识别系统中智能问答模块的框架图；

图4为本申请所提供的一种语音情绪识别装置的结构示意图；

图5为本申请所提供的一种语音情绪识别的电子设备的结构示意图。

具体实施方式

本申请的核心是提供一种语音情绪识别方法，该语音情绪识别方法可以根据来电信息获取更多更为有效的数据信息，更加便于用户根据反馈信息对来电进行处理，满足了用户对电话通信服务的智能化需求，进一步提高了用户体验；本申请的另一核心是提供一种语音情绪识别装置、电子设备以及计算机可读存储介质，也具有上述有益效果。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

请参考图1，图1为本申请所提供的一种语音情绪识别方法的流程示意图，该语音情绪识别方法可以包括：

s101：根据接收到的呼叫请求与呼叫请求端进行智能对话，获得来电语音信息；

本步骤旨在实现来电语音信息的获取，具体的，呼叫方可基于呼叫请求端向被呼叫端发起呼叫请求，被呼叫端即可根据该呼叫请求与呼叫请求端进行智能对话，即智能化对话，从而获得智能对话过程中呼叫请求端发送的所有语音信息，即上述来电语音信息。

优选的，上述根据接收到的呼叫请求与呼叫请求端进行智能对话，获得来电语音信息可以包括：根据呼叫请求获得语音信息；对语音信息进行文字转换，获得文本转换信息；对文本转换信息进行特征提取，获得文本特征；在预设问题知识库中匹配获得文本特征对应的问题信息；在预设答案知识库中匹配获得问题信息对应的答案信息；对答案信息进行语音转换，获得语音答复信息；将语音答复信息反馈至呼叫请求端，实现智能对话；将智能对话过程中的各语音信息进行统计，获得来电语音信息。

对于上述智能对话流程，本优选实施例提供了一种较为具体的实现方法，其中，上述预设问答知识库可包括预设问题知识库和预设答案知识库，预设问题知识库用于对出厂设定或自定义设定的多个标准的问题信息进行存储；预设答案知识库用于对出厂设定或自定义设定的多个标准的答案信息进行存储，可以理解的是，预设答案知识库中的答案信息与预设问题知识库中的问题信息均是一一对应的；进一步，其具体实现流程如下：

首先，根据呼叫请求接听来电，获得语音信息，并对该语音信息进行文字转换获得文本转换信息，其具体实现过程可通过相应的语音识别模型实现，如pytorch-kaldi(thepytorch-kaldispeechrecognitiontoolkit，语音识别工具包)等；其次，利用预先建立的语言模型对文本转换信息进行特征提取，以获得文本特征，该预设语音模型具体可以为xlnet(generalizedautoregressivepretrainingforlanguageunderstanding，基于语言理解的广义自回归前训练模型)；然后，通过预设语义匹配模型，如dssm(deepstructuredsemanticmodels，深度结构语音模型)，在预设问题知识库中对文本特征进行语义匹配，以查询获得来电请求端发送的语音信息对应的标准的问题信息，并在预设答案知识库中对问题信息进行语义匹配，以查询获得问题信息对应的标准的答案信息；进一步，通过预设的语音合成模型对答案信息进行语音转换，即可获得语音答复信息，其中，该语音合成模型具体可以为waenet(agenerativemodelforrawaudio，原始音频生成模型)，clarinet(parallelwavegenerationinend-to-endtext-to-speech，基于端对端阿勒尔波的文语转换模型)，paranet(parallelneuraltext-to-speech，全并行文语转换模型)等；最后，将语音答复信息反馈至来电请求端，实现智能对话。由此，即可对上述整个智能对话过程中，呼叫请求端发送的各个语音信息进行统计，获得上述来电语音信息。

可以理解的是，上述所提及的各个语言处理模型仅为本申请实施例所提供的一种具体实现形式，并不唯一，研发人员根据实际需求进行选用即可。

优选的，上述对文本转换信息进行特征提取，获得文本特征，可以包括：对文本转换信息进行分词处理和标注处理，获得处理后的文本转换信息；利用预设语言模型对处理后的文本转换信息进行特征提取，获得文本特征。

本优选实施例提供了一种较为具体的文本特征提取方法，具体的，在进行特征提取之前，可先对文本转换信息进行分词和标注处理，具体可利用分词、标注工具thulac(thulexicalanalyzerforchinese，中文词汇分析器)实现；进一步，再利用xlnet对分词、标注后的文本转换信息进行特征提取，以获得文本特征。

优选的，该语音情绪识别方法还可以包括：对文本转换信息、问题信息和答案信息进行记录，生成问答记录；根据问答记录对预设问题知识库和预设答案知识库进行更新。

具体的，在上述智能对话过程中，还可以对文本转换信息、问题信息和答案信息进行实时记录，最后生成问答记录，用于对预设问题知识库和预设答案知识库进行更新，即将生成的新的问题信息和答案信息，或更新后的更为标准的问题信息和答案信息分别添加至对应的知识库中，以便后续再次接收到同类型的呼叫请求时可快速实现语音情绪识别。

s102：对来电语音信息进行文字转换获得文本信息，并对文本信息进行情感分析获得情感特征；

本步骤旨在通过文本分析获得情感特征信息，该情感特征具体可以为表征情绪的特征词，具体的，首先对来电语音信息进行文字转换，获得文本信息，该文字转换过程具体可参照上述智能对话过程中的文字转换方法，本申请在此不再赘述；进一步，对该文本信息进行情感分析获得情感特征，其具体实现过程可基于预设的情感分析模型实现，如xlnet、bert(bidirectionalencoderrepresentationfromtransformers，语言表征模型)等。

s103：对来电语音信息进行特征提取，获得语气特征；

本步骤旨在通过对来电语音信息进行特征提取获得语气特征，该特征同样可以为表征情绪的特征词，对于该特征提取过程，同样可通过预设模型实现，例如，在本申请中采用wfst(weightedfinaite-statetransducer，带权有限状态转录机)模型实现。

可以理解的是，上述s102和s103的执行顺序并不影响本技术方案的实施，二者可同时执行，也可按照先后顺依次执行，例如，在本申请中，如图1所示，为保证执行效率，采用二者同步执行的实现方式。

s104：对情感特征和语气特征进行整合，获得组合特征词；

具体的，可以对情感特征和语气特征进行整合，获得组合特征词，由此，相当于既对语音进行了情感分析，又对文本进行了情感分析，有效保证了语音情绪识别结果的准确性。

s105：在预设情绪信息库中匹配获得组合特征词对应的情绪类别；

本步骤旨在通过语义匹配确定呼叫请求端的情绪类别，具体的，可预先建立情绪信息库，用于对出厂设定或自定义设定的多种类的情绪信息进行存储，由此，即可在预设情绪信息库中对组合特征词进行语义匹配，以查询获得呼叫请求端的情绪类别。其中，上述语义匹配过程同样可基于相应的语义匹配模型实现，具体可参照上述描述，本申请在此不再赘述。

s106：输出情绪类别。

本步骤旨在实现情绪类别信息的输出，即将确定的情绪类别反馈至显示界面，其中，对于情绪类别在显示界面的显示形式，可由用户进行自定义设定，如可以为“来电号码：***；来电人情绪：***；来电时间：***”。

本申请所提供的语音情绪识别方法，在接收到呼叫请求时，首先与呼叫请求端进行智能对话，以获得来电语音信息，进而将来电语音信息转换为文本信息后，对其进行情感分析获得情感特征，与此同时，对来电语音信息进行特征提取，获得语气特征，也就是分别对语音和文本进行处理，获取各自对应的特征信息，再进行特征组合后获得组合特征词，最后在预设情绪信息库中匹配确定呼叫请求方的情绪类别并输出，以实现来电提醒，可见，该种实现方式可以根据呼叫请求端发出的来电信息获取更多更为有效的数据信息，确定呼叫请求方的情绪信息，更加便于用户根据反馈信息对来电进行处理，极大的满足了用户对电话通信服务的智能化需求，进一步提高了用户体验。

在上述实施例的基础上：

作为一种优选实施例，该语音情绪识别方法还可以包括：当无法在预设情绪信息库中匹配获得组合特征词对应的情绪类别时，根据组合特征词创建新的情绪类别，并输出新的情绪类别。

具体的，预设情绪信息库中存储的情感类别不一定达到完全全面，因此，可能存在无法在预设情绪信息库中匹配到组合特征词对应的情绪类别的问题，为解决该问题，可以根据组合特征词为呼叫请求端创建新的情绪类别，从而输出新的情绪类别。

作为一种优选实施例，该语音情绪识别方法还可以包括：将新的情绪类别添加至预设情绪信息库中，实现对预设情绪信息库的更新。

本步骤旨在实现对预设情绪信息库进行更新，即将新创建的情绪类别及其对应的特征关键词对应添加至预设情绪信息库中，以便后续再次接收到同类型的呼叫请求时可快速实现语音情绪识别。

作为一种优选实施例，该语音情绪识别方法还可以包括：根据情绪类别生成接听电话的建议信息；输出建议信息。

本实施例旨在根据确定的呼叫请求端的情绪类别生成相应的建议信息，以便被请求方根据建议信息执行相应的操作，例如，当判定呼叫请求端的情绪类别为“焦急”时，则可以生成“紧急回电”的建议信息并输出至显示界面，以便被呼叫者及时向呼叫请求端回电。

作为一种优选实施例，该语音情绪识别方法还可以包括：通过播音器对建议信息进行语音播放。

本优选实施例提供了一种较为具体的建议信息的输出方式，即语音提醒，具体可通过播音器对建议信息进行播放，以及时提醒被呼叫方。

作为一种优选实施例，该语音情绪识别方法还可以包括：根据情绪类别调整智能对话的语气模式。

本优选实施例旨在实现智能对话过程中语气模式的调整，即根据呼叫请求端的情绪类别调整自身的语音模式，以给与用户更加人性化的体验，达到提升用户友好性的目的。

在上述各个实施例的基础上，请参考图2和图3，图2为本申请所提供的一种语音情绪识别系统框架图，图3为本申请所提供的一种语音情绪识别系统中智能问答模块的框架图，以下为本申请所提供的语音情绪识别方法进行更为详细的介绍。

一、语音情绪识别系统的来电信息分析流程：

(1)来电情况下，语音情绪识别系统接收呼入请求(呼叫请求)101，首先将其呼叫转移至智能问答模块102，根据已有的话术主题、问答知识库(预设问题知识库和预设答案知识库)等，与来电进行智能对话，并进行语音识别103；

(2)语音识别103之后进入两个并行的操作流程：一方面，对来电语音信息进行文本转录106，并将获得的文本信息输入至情感分析模块107进行情感分析，得到情感分析结果，即情感特征词108(输出形式可以为高兴、中性、难过等，具体可以比例占比的形式给出)；另一方面，直接对来电语音信息进行语音解析104，提取获得其中的语气特征词105(包括但不限于音量大小、是否急促等)；最后，将两个并行步骤所获得的结果进行组合109，获得组合特征词；

(3)将组合特征词109与情绪主题库(如心情、性格等)1011进行匹配1010，如果匹配成功，则输出语音情绪类别(即呼叫方的心情、性格等)1013；如果匹配失败，则选择是否创建新的情绪类别1012，并将其添加至情绪主题库1011以实现数据库更新，同时，将新创建的情绪类别输出至显示界面，以告知用户呼叫者的情绪类别判断结果1013，信息格式如“来电号码：***，来电人心情：***，来电人性格：***，来电时间：***”，当然，如果来电号码属于通讯录号码，显示信息还可包括来电姓名等信息。

二、语音情绪识别系统的智能对话流程：

(1)对于语音输入(语音信息)201，利用语音识别模型202对其进行识别并转录为语音文本(文本信息)203；

(2)对语音文本203进行分词和标注处理204，并利用语言模型对其进行解析和特征提取，获得问题信息(文本特征)205；

(3)通过语义匹配模型，搜索问题库(预设问题知识库)207中的存储信息与问题信息205进行语义匹配，获得匹配相似度最高的问题206；

(4)通过语义匹配模型，搜索答案库(预设答案知识库)209中的存储信息与问题206进行语音匹配，获得匹配相似度最高的答案208；

(5)利用语音合成模型对答案信息208进行语音合成，并进行语音输出2011；此外，了利用全双工语音交互技术2012结合语音输入201实现实时生成回应，控制对话节奏和对话被打断的实时恢复；

(6)根据本次问答记录对问答知识库2010进行更新。

可见，本申请实施例提供的语音情绪识别方法，在接收到呼叫请求时，首先与呼叫请求端进行智能对话，以获得来电语音信息，进而将来电语音信息转换为文本信息后，对其进行情感分析获得情感特征，与此同时，对来电语音信息进行特征提取，获得语气特征，也就是分别对语音和文本进行处理，获取各自对应的特征信息，再进行特征组合后获得组合特征词，最后在预设情绪信息库中匹配确定呼叫请求方的情绪类别并输出，以实现来电提醒，可见，该种实现方式可以根据呼叫请求端发出的来电信息获取更多更为有效的数据信息，确定呼叫请求方的情绪信息，更加便于用户根据反馈信息对来电进行处理，极大的满足了用户对电话通信服务的智能化需求，进一步提高了用户体验。

为解决上述问题，请参考图4，图4为本申请所提供的一种语音情绪识别装置的结构示意图，该语音情绪识别装置可包括：

智能对话模块10，用于根据接收到的呼叫请求与呼叫请求端进行智能对话，获得来电语音信息；

第一特征提取模块20，用于对来电语音信息进行文字转换获得文本信息，并对文本信息进行情感分析获得情感特征；

第二特征提取模块30，用于对来电语音信息进行特征提取，获得语气特征；

特征整合模块40，用于对情感特征和语气特征进行整合，获得组合特征词；

语义匹配模块50，用于在预设情绪信息库中匹配获得组合特征词对应的情绪类别；

信息输出模块60，用于输出情绪类别。

对于本申请提供的装置的介绍请参照上述方法实施例，本申请在此不做赘述。

为解决上述问题，请参考图5，图5为本申请所提供的一种语音情绪识别的电子设备的结构示意图，该语音情绪识别的电子设备可包括：

存储器1，用于存储计算机程序；

处理器2，用于执行计算机程序时可实现上述任意一种语音情绪识别的步骤。

作为一种优选实施例，该语音情绪识别的电子设备还可以包括显示器，用于显示呼叫请求端的身份类别。

对于本申请提供的系统的介绍请参照上述方法实施例，本申请在此不做赘述。

为解决上述问题，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现上述任意一种语音情绪识别方法的步骤。

该计算机可读存储介质可以包括：u盘、移动硬盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。

对于本申请提供的计算机可读存储介质的介绍请参照上述方法实施例，本申请在此不做赘述。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的语音情绪识别方法、装置、电子设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围要素。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谌明
技术所有人：浙江同花顺智能科技有限公司
我是此专利的发明人

上一篇：爬架连接座及防掉落爬架装置的制作方法
上一篇：一种建筑工地施工用防高空坠落砸伤防护装置的制作方法