基于语音识别的通信服务方法、装置、计算机设备及存储介质与流程

文档序号：19119886发布日期：2019-11-13 01:32阅读：193来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本申请涉及数据分析技术领域，尤其涉及一种基于语音识别的通信服务方法、装置、计算机设备及存储介质。

背景技术：

人们可以通过现有的电信运营商或者其他社交平台进行通话，但是其提供的服务较为单一。例如有时通话人之间的交流需要一些干预才能更好的实现交流目的，但是现有的这些通信服务平台无法及时准确的在通话人进行通话时注入干预，以引导通话人更好的实现通话。

技术实现要素：

本申请实施例提供一种基于语音识别的通信服务方法、装置、计算机设备及存储介质，能够较佳地实现在通话人进行通话时及时准确的注入干预，以引导通话人更好的实现通话。

第一方面，本申请提供了一种基于语音识别的通信服务方法，所述方法包括：

若第一通话终端与第二通话终端之间的通话接通，获取所述第一通话终端对应的第一通话音频和所述第二通话终端对应的第二通话音频；

对所述第一通话音频和所述第二通话音频进行语音识别以得到对话文本数据；

基于预先构建的场景识别模型对所述对话文本数据进行识别，以获取通话场景的类型数据；

基于预先构建的情绪识别模型对所述第一通话音频、第二通话音频进行识别，以获取所述第一通话终端对应的第一通话人的情绪数据、所述第二通话终端对应的第二通话人的情绪数据；

根据所述通话场景的类型数据和所述第一通话人的情绪数据生成并向所述第一通话终端发送用于提示所述第一通话人调整情绪的第一提示信息；

根据所述通话场景的类型数据和所述第二通话人的情绪数据生成并向所述第一通话终端发送用于提示所述第一通话人调整对话策略以应对所述第二通话人情绪的第二提示信息。

第二方面，本申请提供了一种基于语音识别的通信服务装置，所述装置包括：

音频获取模块，用于若第一通话终端与第二通话终端之间的通话接通，获取所述第一通话终端对应的第一通话音频和所述第二通话终端对应的第二通话音频；

语音识别模块，用于对所述第一通话音频和所述第二通话音频进行语音识别以得到对话文本数据；

场景识别模块，用于基于预先构建的场景识别模型对所述对话文本数据进行识别，以获取通话场景的类型数据；

情绪识别模块，用于基于预先构建的情绪识别模型对所述第一通话音频、第二通话音频、对话文本数据中的至少一项进行识别，以获取所述第一通话终端对应的第一通话人的情绪数据和所述第二通话终端对应的第二通话人的情绪数据；

第一提示模块，用于根据所述通话场景的类型数据和所述第一通话人的情绪数据生成并向所述第一通话终端发送用于提示所述第一通话人调整情绪的第一提示信息；

第二提示模块，用于根据所述通话场景的类型数据和所述第二通话人的情绪数据生成并向所述第一通话终端发送用于提示所述第一通话人调整对话策略以应对所述第二通话人情绪的第二提示信息。

第三方面，本申请提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现上述的基于语音识别的通信服务方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，若所述计算机程序被处理器执行，实现上述的基于语音识别的通信服务方法。

本申请公开了一种基于语音识别的通信服务方法、装置、设备及存储介质，通过在第一通话终端与第二通话终端之间通话时获取相应的音频，然后通过语音识别得到对话文本并根据对话文本识别通话场景，以及根据获取的音频识别通话人的情绪；之后根据通话场景和通话人的情绪对通话人作出相应的提示，从而实现及时准确的在通话人进行通话时注入干预，以引导通话人更好的实现通话。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的基于语音识别的通信服务方法的使用场景示意图；

图2为本申请一实施例的基于语音识别的通信服务方法的流程示意图；

图3为通过语音识别以得到对话文本数据的子流程示意图；

图4为本申请另一实施例的基于语音识别的通信服务方法的流程示意图；

图5为获取通话场景的类型数据的子流程示意图；

图6为抽取文本特征的子流程示意图；

图7为基于词袋模型提取文本特征的子流程示意图；

图8为获取第一通话人的情绪数据的子流程示意图；

图9为情绪识别模型识别获取情绪数据的子流程示意图；

图10为本申请再一实施例的基于语音识别的通信服务方法的流程示意图；

图11为本申请又一实施例的基于语音识别的通信服务方法的流程示意图；

图12为本申请一实施例提供的基于语音识别的通信服务装置的结构示意图；

图13为本申请另一实施例提供的基于语音识别的通信服务装置的结构示意图；

图14为本申请一实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。

本申请的实施例提供了一种基于语音识别的通信服务方法、装置、计算机设备及计算机可读存储介质。其中，该通信服务方法可以应用于终端或服务器中，以实现在需要时干预通话人之间的交流。

在一些实施例中，第一通话终端和第二通话终端进行通话，基于语音识别的通信服务方法应用于第一通话终端、第二通话终端中的至少一个。在另一些实施例中，第一通话终端和第二通话终端进行通话，服务器为第一通话终端和第二通话终端之间的通话提供支持，基于语音识别的通信服务方法可以应用于该服务器。请参阅图1，图1是本申请的实施例提供的基于语音识别的通信服务方法的应用场景示意图。该应用场景包括服务器、第一通话终端和第二通话终端。

其中，通话终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理、穿戴式设备、智能音箱等电子设备；服务器可以为独立的服务器，也可以为服务器集群。

但为了便于理解，以下实施例将以应用于服务器的基于语音识别的通信服务方法进行详细介绍。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图2，图2是本申请的实施例提供的一种基于语音识别的通信服务方法的流程示意图。

如图2所示，基于语音识别的通信服务方法包括以下步骤s110-步骤s160。

步骤s110、若第一通话终端与第二通话终端之间的通话接通，获取所述第一通话终端对应的第一通话音频和所述第二通话终端对应的第二通话音频。

在一些实施方式中，第一通话人使用第一通话终端拨出第二通话人的电话，第二通话人使用第二通话终端接听了该电话，则第一通话终端与第二通话终端之间的通话接通。

在第一通话终端与第二通话终端之间的通话接通，第一通话人与第二通话人通话的时候，服务器为第一通话终端和第二通话终端之间的通话提供支持。示例性的，服务器采集第一通话人的音频，即第一通话终端对应的第一通话音频，并将第一通话音频向第二通话终端发送以便第二通话终端的喇叭将音频播放给第二通话人收听；服务器还采集第二通话人的音频，即第二通话终端对应的第二通话音频，并将第二通话音频向第一通话终端发送以便第一通话终端的喇叭将音频播放给第一通话人收听。因此在服务器监测到第一通话终端与第二通话终端之间的通话接通时，可以获取所述第一通话终端对应的第一通话音频和所述第二通话终端对应的第二通话音频。

步骤s120、对所述第一通话音频和所述第二通话音频进行语音识别以得到对话文本数据。

具体的，服务器将第一通话音频和第二通话音频通过语音识别的方式转换为文本以得到对话文本数据。

在一些实施方式中，如图3所示，步骤s120对所述第一通话音频和所述第二通话音频进行语音识别以得到对话文本数据，具体包括步骤s121-步骤s123。

步骤s121、对所述第一通话音频进行语音识别以得到第一通话人对应的第一文本。

示例性的，服务器在采集第一通话终端对应的第一通话音频时，对采集的第一通话音频进行语音识别，并将识别出的文本标记为第一文本。

步骤s122、对所述第二通话音频进行语音识别以得到第二通话人对应的第二文本。

示例性的，服务器在采集第二通话终端对应的第二通话音频时，对采集的第二通话音频进行语音识别，并将识别出的文本标记为第二文本。

步骤s123、根据预设排序规则对所述第一文本、第二文本排序，以得到对话文本数据。

示例性的，按照各第一文本、第二文本的记录时间的先后，将所述第一文本、第二文本排序得到对话文本数据。

示例性的，对话文本数据包括间隔排列的多个第一文本、第二文本。

步骤s130、基于预先构建的场景识别模型对所述对话文本数据进行识别，以获取通话场景的类型数据。

在一些实施方式中，场景识别模型保存或学习了若干场景识别规则，场景识别模型基于场景识别规则识别对话文本数据对应的通话场景。

在一些实施方式中，如图4所示，步骤s130基于预先构建的场景识别模型对所述对话文本数据进行识别，以获取通话场景的类型数据，包括步骤s131。

步骤s131、基于内置场景判断规则的场景规则引擎，对所述对话文本数据进行分析以获取通话场景的类型数据。

示例性的，场景规则引擎是内置场景判断规则的规则引擎，如drools规则引擎。规则引擎起源于基于规则的专家系统，而基于规则的专家系统又是专家系统的其中一个分支。专家系统属于人工智能的范畴，它模仿人类的推理方式，使用试探性的方法进行推理，并使用人类能理解的术语解释和证明它的推理结论。规则引擎是为了响应和处理复杂的业务规则而设计的核心技术组件，通过引入规则引擎，可以通过灵活配置的方式动态及时定义和调整场景判断规则。

示例性的，场景规则引擎内置的场景判断规则具体为基于人的实践经验而设定的规则，且本实施例对于预置的场景判断规则的设置不做限制。例如，若对话文本数据中包括“您好，王先生，我是某某某”时，场景识别模型基于某一场景判断规则识别对话文本数据对应通话场景的类型为陌生人通话。

场景规则引擎的构建包括：首先根据预设的规则修改模板获取若干与所述规则修改模板匹配的场景判断规则；然后对所述场景判断规则进行预编译和测试，测试通过后根据场景判断规则生成脚本文件；之后将所述脚本文件存储于服务器并将所述脚本文件与所述场景规则引擎的规则调用接口相关联，以便场景规则引擎调用相应的场景判断规则。

在一些实施方式中，规则修改模板为可视化规则修改模板。通过将规则修改模板可视化，更有利于相关人员直接在规则修改模板上进行编辑，生成场景判断规则；使得了解通话场景判断规律的相关人员不用了解模版背后的实现方式就可以通过模版修改场景判断规则，将使用规则引擎的门槛进一步降低从而利于提高场景规则引擎对通话场景识别的准确性。

在另一些实施方式中，场景识别模型可采用如下方式构建：通过机器学习算法，从场景训练样本集中学习获得所述场景识别模型。

如图5所示，步骤s130基于预先构建的场景识别模型对所述对话文本数据进行识别，以获取通话场景的类型数据，包括步骤s132、步骤s133。

步骤s132、抽取所述对话文本数据中的文本特征。

在识别对话文本数据对应的通话场景时，需要从对话文本数据中提取特征，提取出对识别有价值的信息，而不是把所有的词都用上，那样会造成维度灾难。

示例性的，从对话文本数据中抽取出特征词进行量化来表示文本信息，即对话文本数据中的文本特征，实现对对话文本数据进行科学的抽象，建立它的数学模型，用以描述和代替对话文本数据。

示例性的，基于词袋(bag-of-words，bow)模型从对话文本数据中抽取文本特征。

在一些实施方式中，如图6所示，步骤s132抽取所述对话文本数据中的文本特征，包括步骤s1321、步骤s1322。

步骤s1321、根据预设过滤规则滤除所述对话文本数据中的噪音字符。

示例性的，根据预设的包括若干停用词的停用词库，将所述对话文本数据中的所述停用词删除或者以预设符号替换。

具体的，可以根据通话场景规定一些特殊词语如“的”“得”等噪音字符、无效词为停用词，以构建停用词库，以配置文件的形式保存起来。服务器在需要时调取停用词库。

具体的，分别查找停用词库中的各停用词是否在所述对话文本数据中出现，若出现则删除所述对话文本数据中的停用词；或者，分别查找停用词库中的各停用词是否在所述对话文本数据中出现，若出现则将所述对话文本数据的停用词替换为预设符号，如空格等，以在一定程度上保留所述对话文本数据的结构。

步骤s1322、基于词袋模型，从滤除噪音字符的对话文本数据提取文本特征。

词袋(bag-of-words，bow)是描述文档中单词元素出现的文本的一种表示形式。词袋模型是用机器学习算法对文本进行建模时表示文本数据的方法。它涉及两件方面：已知单词的集合、测试已知单词的存在。

具体的，词袋模型包括词典，词典中包括若干词语。词袋模型把滤除噪音字符的对话文本数据划分成一个个词语，想象将所有词语放入一个袋子里，忽略其词序、语法、句法等要素，将其仅仅看作是若干个词语的集合，对话文本数据中每个词语的出现都是独立的，不依赖于其他词语是否出现。词袋模型从滤除噪音字符的对话文本数据提取的文本特征包括词袋特征向量。

示例性的，如图7所示，步骤s1322基于词袋模型，从滤除噪音字符的对话文本数据提取文本特征，包括步骤s1301-步骤s1303。

步骤s1301、初始化全零的词袋特征向量。

其中，所述词袋特征向量中的元素与所述词袋模型的词典中的词语一一对应。

示例性的，根据词袋模型的词典{1：“小明”，2：“喜欢”，3：“看”，4：“电影”5：“也”，6：“踢”，7：“足球”}，初始化全零的词袋特征向量为[0，0，0，0，0，0，0]。

步骤s1302、统计所述词典中各所述词语在滤除所述噪音字符的对话文本数据中出现的次数。

步骤s1303、根据所述词语在所述对话文本数据中出现的次数对所述词袋特征向量中对应的元素赋值。

示例性的，如果去除噪音字符的对话文本数据为“小明喜欢看电影”，则词袋特征向量为[1，1，1，1，0，0，0]。如果去除噪音字符的对话文本数据为“小明喜欢看电影小明也喜欢踢足球”，则词袋特征向量为[2，2，1，1，1，1，1]。

步骤s133、基于训练好的机器学习模型，根据所述对话文本数据中的文本特征识别出通话场景的类型数据。

具体的，将对话文本数据中的文本特征作为训练好的机器学习模型的输入，机器学习模型的输出作为识别出的通话场景的类型数据。

在一些实施方式中，用于训练机器学习模型的场景训练样本集包括若干场景训练样本。所述场景训练样本包括历史对话文本数据和与历史对话文本数据对应的场景类型数据两方面信息。从历史对话文本数据可以提取出文本特征，所述场景类型数据为所述历史对话文本数据的标注数据，在进行模型训练时，将所述历史对话文本数据对应的文本特征作为输入数据，将所述场景类型数据作为输出数据，通过选定的机器学习模型，从包括大量场景训练样本的场景训练样本集中学习以获得训练好的机器学习模型。

在一些实施方式中，训练好的机器学习模型可以设置为仅识别单一场景下通话场景类型的模型，则基于预先构建的场景识别模型对所述对话文本数据进行识别获取的通话场景的类型数据可以体现第一通话人与第二通话人间是否属于某个特定的通话场景。在另一些实施方式中，训练好的机器学习模型还可以设置为能够识别多场景下通话场景类型的模型，则基于预先构建的场景识别模型对所述对话文本数据进行识别获取的通话场景的类型数据可以体现第一通话人与第二通话人间属于多个特定通话场景的概率。如某实施例中基于预先构建的场景识别模型对所述对话文本数据进行识别获取的通话场景的类型数据中对应于“朋友”“借钱”两个场景类型的概率分别为40％和43％，均大于预设的阈值30％，则所述对话文本数据对应的通话场景的类型为“朋友”“借钱”。

步骤s140、基于预先构建的情绪识别模型对所述第一通话音频、第二通话音频进行识别，以获取所述第一通话终端对应的第一通话人的情绪数据、所述第二通话终端对应的第二通话人的情绪数据。

在一些实施方式中，服务器基于预先构建的情绪识别模型对所述第一通话音频进行识别，以获取第一通话人的情绪数据；以及服务器基于预先构建的情绪识别模型对所述第二通话音频进行识别，以获取第二通话人的情绪数据。

示例性的，通过机器学习算法，从情绪训练样本集中学习获得所述情绪识别模型。

所述情绪训练样本集包括若干情绪训练样本。所述情绪训练样本包括历史音频数据和与历史音频数据对应的情绪类型数据两方面信息。根据历史音频数据可以提取出特征数据，例如音量特征、语速特征、顺畅特征、停顿特征等；所述情绪类型数据为所述历史音频数据的标注数据，在进行模型训练时，将所述历史音频数据对应的特征数据作为输入数据，将所述情绪类型数据作为输出数据，通过选定的机器学习模型，从包括若干情绪训练样本的情绪训练样本集中学习以获得所述情绪识别模型。

在一些实施方式中，先对第一通话音频进行处理以获取用于体现第一通话人语音顺畅性的顺畅特征，以及获取用于体现停顿时长的停顿特征；具体的，顺畅特征的识别是通过对第一通话人语音声音抖动频率进行侦测与评定获取的，停顿特征的识别是通过在第一通话人、第二通话人声音停止时开启计时器进行计时获取的。训练好的情绪识别模型可以根据顺畅特征、停顿特征、音量特征和/或语速特征等识别出第一通话人的情绪数据。相应的，情绪识别模型可以对第二通话音频进行识别以获取第二通话人的情绪数据。

示例性的，在第一通话音频的音量高于预设阈值时情绪识别模型识别所述第一通话终端对应的第一通话人的情绪数据为“激动”；在第一通话人语音声音抖动频率高于预设频率阈值时情绪识别模型识别所述第一通话终端对应的第一通话人的情绪数据为“紧张”。

在一些实施方式中，情绪识别模型对对话文本数据进行识别以获取文本特征；情绪识别模型还可以根据文本特征识别出第一通话人或者第二通话人的情绪数据。例如，对话文本数据中第二文本包括与第二通话人对应的语句“你需要冷静，不要激动”，则情绪识别模型可以识别出第一通话人的情绪为“激动”；如果对话文本数据中第二文本包括与第二通话人对应的语句“你这个**”，则情绪识别模型可以识别出第二通话人的情绪为“激动”或“生气”。

在一些实施方式中，如图8所示，步骤s140基于预先构建的情绪识别模型对所述第一通话音频、第二通话音频进行识别，以获取所述第一通话终端对应的第一通话人的情绪数据、所述第二通话终端对应的第二通话人的情绪数据，具体包括步骤s141、步骤s142。

步骤s141、基于预先构建的情绪识别模型对所述第一通话音频和对话文本数据进行识别，以获取所述第一通话终端对应的第一通话人的情绪数据。

具体的，将从第一通话音频提取的音量特征、语速特征、顺畅特征和/或停顿特征，以及从对话文本数据提取的文本特征进行融合后作为情绪识别模型的输入，由情绪识别模型识别出第一通话人的情绪数据；进一步提高了模型识别的准确度。

步骤s142、基于预先构建的情绪识别模型对所述第二通话音频和对话文本数据进行识别，以获取所述第二通话终端对应的第二通话人的情绪数据。

具体的，将从第二通话音频提取的音量特征、语速特征、顺畅特征和/或停顿特征，以及从对话文本数据提取的文本特征进行融合后作为情绪识别模型的输入，由情绪识别模型识别出第二通话人的情绪数据；进一步提高了模型识别的准确度。

示例性的，如图9所示，步骤s141基于预先构建的情绪识别模型对所述第一通话音频和对话文本数据进行识别，以获取所述第一通话终端对应的第一通话人的情绪数据，具体包括步骤s1411-步骤s1413。

步骤s1411、从所述第一通话音频提取音量特征、语速特征、顺畅特征、停顿特征中的至少一种。

具体的，音量特征是用于体现第一通话音频振幅大小的特征，语速特征的识别是通过计算第一通话音频在时域上的能量包络的变化率获取的，顺畅特征的识别是通过对第一通话人语音声音抖动频率进行侦测与评定获取的，停顿特征的识别是通过在第一通话人、第二通话人声音停止时开启计时器进行计时获取的。

步骤s1412、从所述对话文本数据提取文本特征。

具体的，可以复用步骤s132抽取的对话文本数据的文本特征。

步骤s1413、基于预先构建的情绪识别模型，对所述文本特征以及所述音量特征、语速特征、顺畅特征、停顿特征中的至少一种进行处理，以得到所述第一通话终端对应的第一通话人的情绪数据。

具体的，对所述文本特征以及所述音量特征、语速特征、顺畅特征、停顿特征进行融合处理，如拼接处理后作为情绪识别模型的输入，由情绪识别模型识别出第一通话人的情绪数据，进一步提高了模型识别的准确度。

所述情绪训练样本集包括若干情绪训练样本。所述情绪训练样本包括历史音频数据、对应对话文本数据和对应的情绪类型数据。根据历史音频数据可以提取出音量特征、语速特征、顺畅特征、停顿特征等，根据对话文本数据可以获取文本特征；所述情绪类型数据为所述历史音频数据的标注数据，在进行模型训练时，将所述历史音频数据对应的音量特征、语速特征、顺畅特征、停顿特征等，以及文本特征作为输入数据，将所述情绪类型数据作为输出数据，通过选定的机器学习模型，从包括若干情绪训练样本的情绪训练样本集中学习以获得所述情绪识别模型。

步骤s150、根据所述通话场景的类型数据和所述第一通话人的情绪数据生成并向所述第一通话终端发送用于提示所述第一通话人调整情绪的第一提示信息。

示例性的，通话场景的类型为父子间通话，第一通话人的情绪数据为“很激动”，则生成并向所述第一通话终端发送的第一提示信息包括“情绪过于激动”等。

示例性的，第一提示信息可以通过显示或者发声的方式提供给使用第一通话终端的第一通话人。

在一些实施例中，如图10所示，步骤s150根据所述通话场景的类型数据和所述第一通话人的情绪数据生成并向所述第一通话终端发送用于提示所述第一通话人调整情绪的第一提示信息，包括步骤s151：

步骤s151、基于内置提示规则的提示规则引擎，对所述通话场景的类型数据和所述第一通话人的情绪数据进行分析以获取对应的第一提示信息，并将所述第一提示信息向所述第一通话终端发送以提示所述第一通话人调整情绪。

示例性的，提示规则引擎是内置提示规则的规则引擎，如drools规则引擎。例如提示规则引擎中包括提示规则：如果通话场景的类型为父子，第一通话人的情绪数据为“很激动”，则生成包括“情绪过于激动”等的第一提示信息。

在另一些实施例中，如图11所示，步骤s150根据所述通话场景的类型数据和所述第一通话人的情绪数据生成并向所述第一通话终端发送用于提示所述第一通话人调整情绪的第一提示信息，包括步骤s152：

步骤s152、基于预先训练的第一提示模型，根据所述通话场景的类型数据、所述第一通话人的情绪数据以及所述对话文本数据生成并向所述第一通话终端发送用于提示所述第一通话人调整情绪的第一提示信息。

在一些实施方式中，第一提示模型可采用如下方式构建：通过机器学习算法，从第一提示训练样本集中学习获得第一提示模型。

所述第一提示训练样本集包括若干第一提示训练样本。各第一提示训练样本包括历史通话场景的类型数据、第一通话人对应的历史情绪数据、历史对话文本数据对应的文本特征，以及训练样本对应的提示信息。所述提示信息为所述训练样本的标注数据；在进行模型训练时，将所述历史通话场景的类型数据、第一通话人对应的历史情绪数据、历史对话文本数据对应的文本特征作为输入数据，将所述提示信息作为输出数据，通过选定的机器学习模型，从包括第一提示训练样本的第一提示训练样本集中学习以获得所述第一提示模型。

从而第一提示模型可以根据历史对话文本数据学习通话中的话术规则，在生成和提示信息时可以提供包括话术信息的提示。

示例性的，如通话场景的类型为父子间通话，第一通话人的情绪数据为“很激动”，则生成并向所述第一通话终端发送第一提示信息包括“情绪过于激动，尝试谈谈天气”等。

步骤s160、根据所述通话场景的类型数据和所述第二通话人的情绪数据生成并向所述第一通话终端发送用于提示所述第一通话人调整对话策略以应对所述第二通话人情绪的第二提示信息。

示例性的，通话场景的类型为母子间通话，第二通话人的情绪数据为“疲惫”，则生成并向所述第一通话终端发送第二提示信息包括“你的妈妈最近比较疲惫”；或者通话场景的类型为情侣间通话，第二通话人的情绪数据为“撒娇”，则生成并向所述第一通话终端发送第二提示信息包括“你的女朋友在撒娇”；或者通话场景的类型为朋友间通话，第二通话人的情绪数据为“气愤”，则生成并向所述第一通话终端发送第二提示信息包括“你的朋友生气了”等。

示例性的，第二提示信息可以通过显示或者发声的方式提供给使用第一通话终端的第一通话人。

在一些实施例中，如图10所示，步骤s160根据所述通话场景的类型数据和所述第二通话人的情绪数据生成并向所述第一通话终端发送用于提示所述第一通话人调整对话策略以应对所述第二通话人情绪的第二提示信息，包括步骤s161：

步骤s161、基于内置提示规则的提示规则引擎，对所述通话场景的类型数据和所述第二通话人的情绪数据进行分析以获取对应的第二提示信息，并将所述第二提示信息向所述第一通话终端发送以提示所述第一通话人调整对话策略以应对所述第二通话人的情绪。

示例性的，提示规则引擎是内置提示规则的规则引擎，如drools规则引擎。例如提示规则引擎中包括提示规则：如果通话场景的类型为情侣，第二通话人的情绪数据为“撒娇”，则生成包括“你的女朋友在撒娇”等的第二提示信息。

在另一些实施例中，如图11所示，步骤s160根据所述通话场景的类型数据和所述第二通话人的情绪数据生成并向所述第一通话终端发送用于提示所述第一通话人调整对话策略以应对所述第二通话人情绪的第二提示信息，包括步骤s162：

步骤s162、基于预先训练的第二提示模型，根据所述通话场景的类型数据、所述第二通话人的情绪数据以及所述对话文本数据生成并向所述第一通话终端发送用于提示所述第一通话人调整对话策略以应对所述第二通话人情绪的第二提示信息。

在一些实施方式中，第二提示模型可采用如下方式构建：通过机器学习算法，从第二提示训练样本集中学习获得第二提示模型。

所述第二提示训练样本集包括若干第二提示训练样本。各第二提示训练样本包括历史通话场景的类型数据、第二通话人对应的历史情绪数据、历史对话文本数据对应的文本特征，以及训练样本对应的提示信息。所述提示信息为所述训练样本的标注数据；在进行模型训练时，将所述历史通话场景的类型数据、第二通话人对应的历史情绪数据、历史对话文本数据对应的文本特征作为输入数据，将所述提示信息作为输出数据，通过选定的机器学习模型，从包括第二提示训练样本的第二提示训练样本集中学习以获得所述第二提示模型。

从而第二提示模型可以根据历史对话文本数据学习通话中的话术规则，在生成和提示信息时可以提供包括话术信息的提示。

示例性的，通话场景的类型为母子间通话，第二通话人的情绪数据为“疲惫”，则生成并向所述第一通话终端发送的第二提示信息包括“你的妈妈最近比较疲惫，慰问一下妈妈的生活”；或者通话场景的类型为情侣间通话，第二通话人的情绪数据为“撒娇”，则生成并向所述第一通话终端发送的第二提示信息包括“你的女朋友在撒娇，温柔地叫她小宝贝儿”；或者通话场景的类型为朋友间通话，第二通话人的情绪数据为“气愤”，则生成并向所述第一通话终端发送的第二提示信息包括“你的朋友生气了，尝试谈谈天气”等。

可以理解的，本申请的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象，或者用于区别对同一对象的不同处理，而不是用于描述对象的特定顺序，不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

示例性的，还可以根据所述通话场景的类型数据和所述第二通话人的情绪数据生成并向所述第二通话终端发送用于提示所述第二通话人调整情绪的相应提示信息；还可以根据所述通话场景的类型数据和所述第一通话人的情绪数据生成并向所述第二通话终端发送用于提示所述第二通话人调整对话策略以应对所述第一通话人情绪的相应提示信息。

在一些实施方式中，步骤s152中的第一提示模型和步骤s162中的第二提示模型可以综合为一个提示模型。具体可以通过在提示训练样本中置入用于表示提示对象标识；从而例如运行于服务器的提示模型可以生成相应的提示信息并预测出该提示信息对应的提示对象，并将该提示信息发送给该提示对象，如发送给第一通话终端或第二通话终端。

在一些实施例中，步骤s150中向所述第一通话终端发送用于提示所述第一通话人调整情绪的第一提示信息时，暂停将所述第一通话终端对应的第一通话音频向所述第二通话终端发送以对所述第二通话人屏蔽所述第一提示信息。

在一些实施例中，步骤s160中向所述第一通话终端发送用于提示所述第一通话人调整对话策略以应对所述第二通话人情绪的第二提示信息时，暂停将所述第一通话终端对应的第一通话音频向所述第二通话终端发送以对所述第二通话人屏蔽所述第二提示信息。

具体的，服务器在向第一通话终端发送相应的提示信息时，第一通话终端通过声音提示的方式提示第一通话人；此时服务器可以暂停采集第一通话终端麦克风获取的音频，即第一通话音频，例如控制第一通话终端的通话模式置为静音模式；从而停止将包含相应声音提示的第一通话音频向第二通话终端发送，因此第一提示信息、第二提示信息不会被第二通话人收听到。

上述实施例提供的基于语音识别的通信服务方法，通过在第一通话终端与第二通话终端之间通话时获取相应的音频，然后通过语音识别得到对话文本并根据对话文本识别通话场景，以及根据获取的音频识别通话人的情绪；之后根据通话场景和通话人的情绪对通话人作出相应的提示，从而实现及时准确的在通话人进行通话时注入干预，以引导通话人更好的实现通话。

请参阅图12，图12是本申请一实施例提供的一种基于语音识别的通信服务装置的结构示意图，该基于语音识别的通信服务装置可以配置于服务器中，用于执行前述的基于语音识别的通信服务方法。

如图12所示，该基于语音识别的通信服务装置，包括：音频获取模块110、语音识别模块120、场景识别模块130、情绪识别模块140、第一提示模块150、第二提示模块160。

音频获取模块110，用于若第一通话终端与第二通话终端之间的通话接通，获取所述第一通话终端对应的第一通话音频和所述第二通话终端对应的第二通话音频。

语音识别模块120，用于对所述第一通话音频和所述第二通话音频进行语音识别以得到对话文本数据。

具体的，如图13所示，语音识别模块120包括：

第一语音子模块121，用于对所述第一通话音频进行语音识别以得到第一通话人对应的第一文本；

第二语音子模块122，用于对所述第二通话音频进行语音识别以得到第二通话人对应的第二文本；

文本排序子模块123，用于根据预设排序规则对所述第一文本、第二文本排序，以得到对话文本数据。

场景识别模块130，用于基于预先构建的场景识别模型对所述对话文本数据进行识别，以获取通话场景的类型数据。

在一些实施方式中，如图13所示，场景识别模块130包括：

场景规则子模块131，用于基于内置场景判断规则的场景规则引擎，对所述对话文本数据进行分析以获取通话场景的类型数据

在另一些实施方式中，如图13所示，场景识别模块130包括：

特征抽取子模块132，用于抽取所述对话文本数据中的文本特征；

场景识别子模块133，用于基于训练好的机器学习模型，根据所述对话文本数据中的文本特征识别出通话场景的类型数据。

情绪识别模块140，用于基于预先构建的情绪识别模型对所述第一通话音频、第二通话音频进行识别，以获取所述第一通话终端对应的第一通话人的情绪数据、所述第二通话终端对应的第二通话人的情绪数据。

具体的，如图13所示，情绪识别模块140包括：

第一情绪识别子模块141，用于基于预先构建的情绪识别模型对所述第一通话音频和对话文本数据进行识别，以获取所述第一通话终端对应的第一通话人的情绪数据。

示例性的，第一情绪识别子模块141包括：

音频特征提取子模块，用于从所述第一通话音频提取音量特征、语速特征、顺畅特征、停顿特征中的至少一种；

文本特征提取子模块，用于从所述对话文本数据提取文本特征；

情绪数据获取子模块，用于基于预先构建的情绪识别模型，对所述文本特征以及所述音量特征、语速特征、顺畅特征、停顿特征中的至少一种进行处理，以得到所述第一通话终端对应的第一通话人的情绪数据。

第二情绪识别子模块142，用于基于预先构建的情绪识别模型对所述第二通话音频和对话文本数据进行识别，以获取所述第二通话终端对应的第二通话人的情绪数据。

第一提示模块150，用于根据所述通话场景的类型数据和所述第一通话人的情绪数据生成并向所述第一通话终端发送用于提示所述第一通话人调整情绪的第一提示信息。

在一些实施方式中，如图13所示，第一提示模块150包括：

第一提示规则子模块151，用于基于内置提示规则的提示规则引擎，对所述通话场景的类型数据和所述第一通话人的情绪数据进行分析以获取对应的第一提示信息，并将所述第一提示信息向所述第一通话终端发送以提示所述第一通话人调整情绪。

在另一些实施方式中，如图13所示，第一提示模块150包括：

第一提示生成子模块152，用于基于预先训练的第一提示模型，根据所述通话场景的类型数据、所述第一通话人的情绪数据以及所述对话文本数据生成并向所述第一通话终端发送用于提示所述第一通话人调整情绪的第一提示信息。

第二提示模块160，用于根据所述通话场景的类型数据和所述第二通话人的情绪数据生成并向所述第一通话终端发送用于提示所述第一通话人调整对话策略以应对所述第二通话人情绪的第二提示信息。

在一些实施方式中，如图13所示，第二提示模块160包括：

第二提示规则子模块161，用于基于内置提示规则的提示规则引擎，对所述通话场景的类型数据和所述第二通话人的情绪数据进行分析以获取对应的第二提示信息，并将所述第二提示信息向所述第一通话终端发送以提示所述第一通话人调整对话策略以应对所述第二通话人的情绪

在另一些实施方式中，如图13所示，第二提示模块160包括：

第二提示生成子模块162，用于基于预先训练的第二提示模型，根据所述通话场景的类型数据、所述第二通话人的情绪数据以及所述对话文本数据生成并向所述第一通话终端发送用于提示所述第一通话人调整对话策略以应对所述第二通话人情绪的第二提示信息。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

示例性的，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图14所示的计算机设备上运行。

请参阅图14，图14是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备可以是服务器或终端。

参阅图14，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种基于语音识别的通信服务方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种基于语音识别的通信服务方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，该计算机设备的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(centralprocessingunit，cpu)，该处理器还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

若第一通话终端与第二通话终端之间的通话接通，获取所述第一通话终端对应的第一通话音频和所述第二通话终端对应的第二通话音频；

对所述第一通话音频和所述第二通话音频进行语音识别以得到对话文本数据；

基于预先构建的场景识别模型对所述对话文本数据进行识别，以获取通话场景的类型数据；

根据所述通话场景的类型数据和所述第一通话人的情绪数据生成并向所述第一通话终端发送用于提示所述第一通话人调整情绪的第一提示信息；

具体的，所述处理器实现对所述第一通话音频和所述第二通话音频进行语音识别以得到对话文本数据时，具体实现：对所述第一通话音频进行语音识别以得到第一通话人对应的第一文本；对所述第二通话音频进行语音识别以得到第二通话人对应的第二文本；根据预设排序规则对所述第一文本、第二文本排序，以得到对话文本数据。

具体的，所述处理器实现基于预先构建的场景识别模型对所述对话文本数据进行识别，以获取通话场景的类型数据时，具体实现：基于内置场景判断规则的场景规则引擎，对所述对话文本数据进行分析以获取通话场景的类型数据。

或者，所述处理器实现基于预先构建的场景识别模型对所述对话文本数据进行识别，以获取通话场景的类型数据时时，具体实现：抽取所述对话文本数据中的文本特征；基于训练好的机器学习模型，根据所述对话文本数据中的文本特征识别出通话场景的类型数据。

具体的，所述处理器实现基于预先构建的情绪识别模型对所述第一通话音频、第二通话音频进行识别，以获取所述第一通话终端对应的第一通话人的情绪数据、所述第二通话终端对应的第二通话人的情绪数据时，具体实现：基于预先构建的情绪识别模型对所述第一通话音频和对话文本数据进行识别，以获取所述第一通话终端对应的第一通话人的情绪数据；基于预先构建的情绪识别模型对所述第二通话音频和对话文本数据进行识别，以获取所述第二通话终端对应的第二通话人的情绪数据。

具体的，所述处理器实现基于预先构建的情绪识别模型对所述第一通话音频和对话文本数据进行识别，以获取所述第一通话终端对应的第一通话人的情绪数据时，具体实现：从所述第一通话音频提取音量特征、语速特征、顺畅特征、停顿特征中的至少一种；从所述对话文本数据提取文本特征；基于预先构建的情绪识别模型，对所述文本特征以及所述音量特征、语速特征、顺畅特征、停顿特征中的至少一种进行处理，以得到所述第一通话终端对应的第一通话人的情绪数据。

具体的，所述处理器实现根据所述通话场景的类型数据和所述第一通话人的情绪数据生成并向所述第一通话终端发送用于提示所述第一通话人调整情绪的第一提示信息时，具体实现：基于内置提示规则的提示规则引擎，对所述通话场景的类型数据和所述第一通话人的情绪数据进行分析以获取对应的第一提示信息，并将所述第一提示信息向所述第一通话终端发送以提示所述第一通话人调整情绪；或者具体实现：基于预先训练的第一提示模型，根据所述通话场景的类型数据、所述第一通话人的情绪数据以及所述对话文本数据生成并向所述第一通话终端发送用于提示所述第一通话人调整情绪的第一提示信息。

具体的，所述处理器实现向所述第一通话终端发送第一提示信息或向所述第一通话终端发送第二提示信息时时，还实现：暂停将所述第一通话终端对应的第一通话音频向所述第二通话终端发送以对所述第二通话人屏蔽所述第一提示信息或第二提示信息。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法，如：

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项基于语音识别的通信服务方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(smartmediacard，smc)，安全数字(securedigital，sd)卡，闪存卡(flashcard)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨一凡;徐国强
技术所有人：深圳壹账通智能科技有限公司
我是此专利的发明人