情绪识别方法、设备及可读存储介质与流程

文档序号：17686672发布日期：2019-05-17 20:41阅读：184来源：国知局

本申请实施例涉及语音识别领域，特别涉及一种情绪识别方法、设备及可读存储介质。
背景技术：
：语音识别技术是一种应用广泛的技术，语音识别技术可以用于对待识别语音中的文本进行识别、对待识别语音的表达情绪进行识别以及对待识别语音的语义进行识别等。相关技术中，在对待识别语音的表达情绪进行识别的过程中，通常是通过从待识别语音中提取音频特征，该音频特征用于表示该待识别语音的音调、音色等特征，将该音频特征输入预设识别模型后输出得到该待识别语音对应表达的情绪。然而，通过上述方式进行情绪识别的过程中，仅通过音频特征进行识别无法避免由于不同对象说话方式不同而导致的识别结果不准确的问题，上述情绪识别方法的误识别率较高。技术实现要素：本申请实施例提供了一种情绪识别方法、设备及可读存储介质，可以解决情绪识别方法的误识别率较高的问题。所述技术方案如下：一方面，提供了一种情绪识别方法，应用于客服质检系统中，所述方法包括：获取待识别语音，所述待识别语音为目标客服帐号对应的语音；确定所述待识别语音的语音特征，所述语音特征是对所述待识别语音进行特征提取后得到的特征；确定所述目标客服帐号对应的画像特征，所述画像特征包括用于表示所述目标客服帐号的历史服务情况的特征；根据所述语音特征和所述画像特征确定所述待识别语音对应的情绪识别结果。另一方面，提供了一种情绪识别结果展示方法，所述方法包括：获取目标客服帐号对应的待识别语音；将所述待识别语音发送至服务器，所述服务器用于对所述待识别语音的情绪识别结果进行确定；接收所述服务器反馈的所述情绪识别结果，所述情绪识别结果是所述服务器根据所述待识别语音的语音特征以及所述目标客服帐号对应的画像特征确定的；显示所述目标客服帐号对应的所述待识别语音的所述情绪识别结果。另一方面，提供了一种情绪识别装置，应用于客服质检系统中，所述装置包括：获取模块，用于获取待识别语音，所述待识别语音为目标客服帐号对应的语音；确定模块，用于确定所述待识别语音的语音特征，所述语音特征是对所述待识别语音进行特征提取后得到的特征；所述确定模块，还用于确定所述目标客服帐号对应的画像特征，所述画像特征包括用于表示所述目标客服帐号的历史服务情况的特征；识别模块，用于根据所述语音特征和所述画像特征确定所述待识别语音对应的情绪识别结果。另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的情绪识别方法或上述本申请实施例中提供的情绪识别结果展示方法。另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的情绪识别方法或上述本申请实施例中提供的情绪识别结果展示方法。另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述本申请实施例中提供的情绪识别方法或上述本申请实施例中提供的情绪识别结果展示方法。本申请实施例提供的技术方案带来的有益效果至少包括:通过在对情绪进行识别的过程中结合目标客服帐号的画像特征进行识别，将待识别语音对应的目标客服帐号的历史服务情况结合在对待识别语音的情绪识别过程中，结合目标客服帐号的服务表现进行情绪识别，避免由于不同对象的表达方式不同而导致的识别结果准确率较低的问题，避免历史服务情况较好的客服人员的待识别语音与情绪识别模型的识别方式有偏差而导致的情绪识别较差，与真实情绪不一致的问题。附图说明为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1是本申请一个示例性实施例提供的实施环境的示意图；图2是本申请一个示例性实施例提供的质检展示界面示意图；图3是本申请一个示例性实施例提供的情绪识别方法流程图；图4是本申请另一个示例性实施例提供的情绪识别方法流程图；图5是本申请另一个示例性实施例提供的情绪识别方法流程图；图6是本申请一个示例性实施例提供的相关技术中通过文本内容对情绪进行识别的流程图；图7是本申请另一个示例性实施例提供的情绪识别方法流程图；图8是本申请一个示例性实施例提供的情绪识别结果展示方法的流程图；图9是本申请一个示例性实施例提供的情绪识别装置的结构框图；图10是本申请另一个示例性实施例提供的情绪识别装置的结构框图；图11是本申请一个示例性实施例提供的情绪识别结果展示装置的结构框图；图12是本申请一个示例性的实施例提供的服务器的结构框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。首先，对本申请实施例中涉及的名词进行简单介绍：画像特征：是指用于表示语音对应的客服帐号的表现的特征，可选地，该客服帐号的表现通过画像参数进行表示，该画像参数包括该客服帐号的历史服务情况，可选地，该画像参数还包括该客服帐号的基础表现。可选地，该基础表现包括该客服帐号的年龄、性别、性格关键词、职位中的至少一种，如：客服帐号m的基础表现包括：客服帐号m的年龄：25岁；性别：男；性格关键词：开朗；职位：客服部员工。可选地，该历史服务情况包括该客服帐号在当前时刻之前的服务情况，该历史服务情况包括该客服帐号的历史服务时长、历史服务评价、历史奖惩情况以及历史投诉情况中的至少一种，其中，历史服务时长用于表示客服帐号对应的服务年限，历史服务评价用于表示客服帐号接收到的服务评分，历史奖惩情况用于表示客服帐号是否属于优秀员工，历史投诉情况用于表示客服帐号对应的投诉数量。其次，对本申请实施例涉及的应用场景进行示意性说明，如图1所示，图1示出了本申请一个示例性实施例提供的实施环境示意图，该实施环境中包括通话设备110、服务器120以及质检终端130；通话设备110用于接听来电，并对来电通话内容进行录制，即，用户拨打客服号码至该通话设备110后，客服人员通过该通话设备110接听用户来电，并对用户与客服人员之间的通话内容进行录制。可选地，该通话设备110还用于将录制得到的通话内容发送至服务器120，其中，通话设备110将通话内容发送至服务器120的方式包括如下方式中的任意一种：第一，通话设备110与服务器120通过通信网络140连接，该通信网络140可以是有线网络也可以是无线网络。通话设备110在每次通话结束后通过该通信网络140将通话内容发送至服务器120，或，通话设备110在通话过程中通过通信网络140将通话内容实时发送至服务器120；第二，通话设备110与服务器120之间通过终端进行连接，该终端通过通信网络140与通话设备110以及服务器120连接，该终端作为通话设备110以及服务器120之间信息传递的媒介，通话设备110在通话过程中或者一段通话结束后，通过通信网络140将通话内容发送至终端，并由终端通过通信网络140将通话内容上传至服务器120；该终端可以实现为上述质检终端130，也可以实现为其他终端；第三，通话设备110中包括存储卡，通话设备110在通话过程中将通话内容存储至存储卡中，当用户将该存储卡与服务器120连接时，从该存储卡中将通话内容读取至服务器120中，或，当用户将该存储卡与终端连接时，从该存储卡中将通话内容读取至终端中，并由终端将通话内容上传至服务器120。可选地，该通话设备110可以是手机、平板电脑、智能手表等移动终端，也可以是座机、台式电脑等设备，本申请实施例对此不加以限定。服务器120中包括客服质检系统121，该客服质检系统121中包括情绪分类模型1211，该情绪分类模型1211用于根据待识别语音的语音特征以及目标客服帐号的画像特征对待识别语音对应的情绪识别结果进行识别。可选地，该目标客服帐号的画像特征中包括用于表示目标客服帐号的历史服务情况的特征，则该客服质检系统121中还包括画像特征数据库1212，该画像特征数据库1212中包括客服帐号对应的画像参数，可选地，该画像特征数据库1212中存储有客服帐号与画像参数的对应关系，通过该画像特征数据库1212中与目标客服帐号对应的画像参数确定该目标客服帐号对应的画像特征。可选地，服务器120与质检终端130之间通过通信网络140连接，服务器120在对待识别语音的情绪识别结果进行识别后，将该情绪识别结果发送至质检终端130，该质检终端130用于对情绪识别结果进行展示。可选地，该情绪识别结果可以是以情绪分类方式进行展示，如：服务器120对待识别语音a进行识别后，得到情绪识别结果为积极，则终端在对待识别语音a的识别结果进行展示时，展示结果为“积极”；可选地，该情绪识别结果还可以是以得分的形式进行展示，分数越高表示待识别语音所表达的情绪越好，如：服务器120对待识别语音b进行识别后，得到情绪识别结果为5分，则终端在对待识别语音b的识别结果进行展示时，展示结果为“5”。示意性的，请参考图2，图2是本申请一个示例性实施例提供的情绪识别结果的用户界面示意图，以该情绪识别结果以得分形式进行展示为例进行说明，如图2所示，该质检展示界面20中包括语音a、语音b语音c以及语音d的识别结果，其中，语音a对应的客服帐号为mikotang、语音b对应的客服帐号为alingan、语音c对应的客服帐号为sunren、语音d对应的客服帐号为mikotang，语音a涉及产品a、语音b涉及产品b、语音c涉及产品c以及语音d涉及产品b，语音a的得分为-2分，语音b的得分为5分，语音c的得分为0分，语音d的得分为8分，其中，-1分至1分代表客观情绪，高于1分代表积极情绪，低于-1分代表消极情绪，即，语音a为消极情绪，语音c为客观情绪，语音b和语音d为积极情绪。结合上述对画像特征的介绍以及本申请实施例的应用场景，对本申请实施例中涉及的情绪识别方法进行说明，请参考图3，图3是本申请一个示例性实施例提供的情绪识别方法的流程图，以该方法应用于如图1所示的服务器120中为例进行说明，该方法包括：步骤301，获取待识别语音。可选地，该待识别语音为目标客服帐号对应的语音。可选地，该待识别语音是由通话设备发送至服务器的，可选地，该待识别语音为通话设备的通话内容中的全部或部分。可选地，该通话设备对应有目标客服帐号，则该通话设备将通话内容发送至服务器时，将目标客服帐号以及通话内容绑定发送至服务器。可选地，当目标客服帐号将通话内容实时发送至服务器时，由服务器记录该通话内容的通话时间，或，通话设备记录该通话内容的通话时间，并将通话时间、通话内容以及目标客服帐号对应发送至服务器。可选地，当通话设备和服务器之间通过终端作为通信媒介时，通话设备将通话时间、通话内容发送至终端，终端根据通话设备的设备标识对通话内容的目标客服帐号进行记录，并将目标客服帐号以及通话内容发送至服务器进行情绪识别，可选地，客服人员在终端中记录该通话内容对应的产品，以及生成有该通话内容对应的通话标识，可选地，服务器识别得到情绪识别结果后，将情绪识别结果发送至该终端，终端对通话标识、通话内容对应的产品、目标客服帐号、通话时间以及情绪识别结果进行展示。即，该终端可以实现为上述图1所示的质检终端130。可选地，服务器确定待识别语音的方式，包括如下方式中的任意一种：第一，服务器接收到通话设备发送的通话内容后，对通话内容中的待识别语音直接进行情绪识别；第二，服务器接收到终端发送的通话内容后，对通话内容中的待识别语音直接进行情绪识别；第三，服务器中存储有未进行识别的所有通话内容，从未进行识别的通话内容中选择通话结束时刻距离当前时刻最远的通话内容，对该通话内容中的待识别语音进行情绪识别；第四，服务器中存储有未进行识别的所有通话内容，从未进行识别的通话内容中随机选择通话内容，并对该通话内容中的待识别语音进行情绪识别；第五，服务器中存储有未进行识别的所有通话内容，从未进行识别的通话内容中选择未进行过识别的目标客服帐号对应的任意一个通话内容，对该通话内容中的待识别语音进行情绪识别。步骤302，确定目标客服帐号对应的画像特征。可选地，上述画像特征中包括用于表示目标帐号的历史服务情况的特征。可选地，上述画像特征是确定目标客服帐号的帐号标识后，从画像特征数据库中获取与帐号标识对应的画像参数，并对该画像参数进行第一处理后得到的特征，其中，画像参数中包括用于表示目标客服帐号的历史服务情况的参数。可选地，该第一处理包括标准化、归一化中的至少一种。步骤303，确定待识别语音的语音特征。可选地，该语音特征是对待识别语音进行特征提取后得到的特征。可选地，上述语音特征包括如下情况中的任意一种：第一，该语音特征包括待识别语音的音频特征和待识别语音的文本特征中的至少一种，则当语音特征中包括音频特征时，从待识别语音中提取音频特征，该音频特征用于标识待识别语音的韵律、音质以及频谱中的至少一项；当语音特征中包括文本特征时，从待识别语音中提取文本特征，该文本特征用于表示待识别语音对应的文本的词性、词频以及词汇中的至少一项；第二，语音特征是根据待识别语音的音频特征和文本特征确定得到的，则从待识别语音中提取音频特征和文本特征，将音频特征和文本特征输入预识别模型，输出得到预识别结果，对该预识别结果进行第二处理，得到语音特征。可选地，该第二处理包括归一化处理和标准化处理中的至少一种。可选地，对应上述第一种情况，且语音特征中包括音频特征和文本特征时，则该语音特征为将音频特征和文本特征进行串联得到的特征。值得注意的是，上述步骤302和步骤303，可以先执行步骤302再执行步骤303，也可以先执行步骤303再执行步骤302，也可以步骤302和步骤303同时执行，本申请实施例对此不加以限定。步骤304，根据语音特征和画像特征确定待识别语音对应的情绪识别结果。可选地，根据语音特征和画像特征确定待识别语音对应的情绪识别结果的方式包括如下方式中的任意一种：第一，根据语音特征和画像特征计算待识别语音对应的情绪得分，将该情绪得分作为待识别语音的情绪识别结果；，如：待识别语音的情绪得分为3分。第二，根据语音特征和画像特征得到待识别语音的情绪分类作为情绪识别结果，如：待识别语音的情绪分类为积极情绪。可选地，根据语音特征和画像特征确定待识别语音的情绪识别结果时，可以通过情绪分类模型进行确定，即，将语音特征和画像特征输入情绪分类模型，并输出得到情绪识别结果；也可以根据预设分类规则根据语音特征和画像特征对待识别语音进行分类，如：当待识别语音中出现关键词汇“不知道”，且画像特征中包括特征“非优秀员工”时，将待识别语音分类至消极情绪。可选地，当通过情绪分类模型确定待识别语音的情绪识别结果时，语音特征和画像特征可以分别输入该情绪分类模型，也可以将语音特征和画像特征串联后，将串联得到的特征输入情绪分类模型。可选地，该情绪分类模型可以是基于支持向量机(supportvectormachine，svm)的分类模型，可选地，该情绪分类模型为三分类模型，通过该情绪分类模型将待识别语音与消极情绪、客观情绪以及积极情绪进行匹配，并匹配得到该待识别语音对应的每种情绪的比值。可选地，该情绪分类模型还可以是基于卷积神经网络(convolutionalneuralnetworks，cnn)的模型，或，该情绪分类模型还可以是基于深度神经网络(deepneuralnetworks，dnn)的模型，本申请实施例对情绪分类模型的具体实现方式不做限定。可选地，该情绪分类模型是通过标注有情绪类型的语音训练集进行训练后得到的模型。可选地，该情绪识别结果可以是识别得到的该待识别语音对应的情绪名称，如：该待识别语音对应的每种情绪的比值分别为消极情绪66％，客观情绪23％，积极情绪11％，则该待识别语音的情绪识别结果为“消极情绪”；可选地，该情绪识别结果还可以是情绪识别得分，如：该待识别语音对应的每种情绪的比值分别为消极情绪66％，客观情绪23％，积极情绪11％，消极情绪的置信系数为-5，客观情绪的置信系数为0，积极情绪的置信系数为5，则该情绪识别结果为0.66*(-5)+0.11*5＝-2.75。综上所述，本实施例提供的情绪识别方法，通过在对情绪进行识别的过程中结合目标客服帐号的画像特征进行识别，将待识别语音对应的目标客服帐号的历史服务情况结合在对待识别语音的情绪识别过程中，结合目标客服帐号的服务表现进行情绪识别，避免由于不同对象的表达方式不同而导致的识别结果准确率较低的问题，避免历史服务情况较好的客服人员的待识别语音与情绪识别模型的识别方式有偏差而导致的情绪识别较差，与真实情绪不一致的问题。在一个可选的实施例中，以上述语音特征包括音频特征和文本特征为例进行说明，图4是本申请一个示例性实施例提供的情绪识别方法流程图，以该方法应用在如图1所示的服务器120中为例进行说明，如图4所示，该方法包括：步骤401，获取待识别语音。可选地，该待识别语音为目标客服帐号对应的语音。该获取待识别语音的方式在上述步骤301中已进行了详细说明，请参考上述步骤301。步骤402，确定目标客服帐号对应的帐号标识。可选地，每个目标客服帐号对应有帐号标识，该帐号标识可以是该目标客服帐号的帐号名称，也可以是该目标客服帐号对应的帐号编号。步骤403，从画像特征数据库中获取与帐号标识对应的画像参数。可选地，画像参数中包括用于表示目标客服帐号的历史服务情况的参数。可选地，该画像参数中还包括目标客服帐号的基础表现。可选地，该基础表现包括该客服帐号的年龄、性别、性格关键词、职位中的至少一种，如：客服帐号m的基础表现包括，客服帐号m的年龄：25岁；性别：男；性格关键词：开朗；职位：客服部员工。可选地，该历史服务情况包括该客服帐号在当前时刻之前的服务情况，该历史服务情况包括该客服帐号的历史服务时长、历史服务评价、历史奖惩情况以及历史投诉情况中的至少一种，其中，历史服务时长用于表示客服帐号对应的服务年限，历史服务评价用于表示客服帐号接收到的服务评分，历史奖惩情况用于表示客服帐号是否属于优秀员工，历史投诉情况用于表示客服帐号对应的投诉数量。示意性的，该画像特征数据库中对帐号标识与画像参数进行存储的方式如下表一所示：表一帐号标识性别历史服务时长历史服务评价历史奖惩情况mikotangmale23falinganmale24tsunrenfemale33.5fmikmale14.5t其中，帐号标识mikotang对应性别为男性(male)，历史服务时长为2年，历史服务评价为3星，历史奖惩情况表示mikotang并非优秀员工；帐号标识alingan对应性别为男性(male)，历史服务时长为2年，历史服务评价为4星，历史奖惩情况表示alingan是优秀员工；帐号标识sunren对应性别为女性(female)，历史服务时长为3年，历史服务评价为3.5星，历史奖惩情况表示sunren并非优秀员工；帐号标识mik对应性别为男性(male)，历史服务时长为1年，历史服务评价为4.5星，历史奖惩情况表示mik是优秀员工。步骤404，对画像参数进行第一处理，得到待识别语音的画像特征。可选地，该第一处理包括归一化处理和标准化处理中的至少一种。示意性的，结合上述表一中的员工mik为例，则该员工mik对应的画像参数为male14.5t，将该画像参数进行归一化后，得到该员工mik对应的画像特征。步骤405，从待识别语音中提取音频特征。可选地，该音频特征用于表示待识别语音的韵律、音质以及频谱中的至少一项。示意性的，针对韵律、音质以及频谱分别进行说明：第一，对待识别语音的韵律学特征进行提取，该韵律学特征包括该待识别语音的时长、语速、短时平均过零率的平均值、短时平均过零率的最大值、短时平均过零率的最小值、短时平均过零率的标准差、短时能量的平均值、短时能量的最大值、短时能量的最小值、短时能量的标准差、基频的平均值、基频的最大值、基频的最小值、基频的标准差中的至少一个特征；第二，对待识别语音的音质特征进行提取，该音质特征包括该待识别语音的共振峰频率的均值、共振峰频率的最大值、共振峰频率的最小值、共振峰频率的标准差中的至少一个特征，其中，共振峰频率可以取该待识别语音中前n个共振峰频率，如前五共振峰频率；第三，对待识别语音的频谱特征进行提取，该频谱特征包括梅尔倒谱系数的均值、梅尔倒谱系数的最大值、梅尔倒谱系数的最小值、梅尔倒谱系数的标准差中的至少一个特征，其中，该梅尔倒谱系数可以去1至12阶的梅尔倒谱系数。步骤406，从待识别语音中提取文本特征。可选地，该文本特征用于标识待识别语音对应的文本的词性、词频以及词汇中的至少一项。示意性的，针对文本的词性、词频以及词汇分别进行说明：第一，针对词性特征，对待识别语音的文本内容进行分词处理，根据分词后的文本内容确定待识别语音的词性特征，该词性特征中包括叹词个数、形容词个数以及语气词个数中的至少一种特征；第二，针对词频特征，首先构建语料库，并由人工或分类模型将语料库中的语料分类为积极、客观以及消极三类，对语料进行分词处理后，进行筛选得到积极情感词典以及消极情感词典，其中，采用特征选择算法确定代表性较强的n个词汇作为积极情感词典以及消极情感词典中的词汇，示意性的，针对每个词汇通过卡方(chi)算法计算每个词的chi值，并根据chi值进行排序，选择排序中的前n个词汇作为积极情感词典以及消极情感词典中的词汇，值得注意的是，上述chi算法仅为特征选择算法的示意性举例，该chi算法还可以替换实现为其他特征选择算法，如：词频逆文本频率指数(termfrequency–inversedocumentfrequency，tf-idf)算法。将待识别语音的文本分词后，与积极情感词典以及消极情感词典进行匹配后，得到词频特征，该词频特征中包括文本中积极情感词汇的个数(即与积极情感词典匹配的词汇的个数)，和/或，文本中消极情感词汇的个数(即与消极情感词典匹配的词汇的个数)；第三，针对词汇特征，通过人工自定义领域相关主题词，构建主题特征词词典，如：主题特征词词典中包括词汇“提现”、“被盗”、“充值”、“扣分”等，人工自定义敏感词，构建敏感词词典，如：敏感词词典中包括词汇“不知道”、“随便”、“不清楚”等。将待识别语音的文本分词后，与主题特征词词典和/或敏感词词典进行匹配，得到词汇特征，该词汇特征中，针对主题特征词词典和/或敏感词词典中的词汇，出现在文本中时为1，未出现在文本中时为0。可选地，上述文本特征还可以通过句向量(sentenceembedding)方式进行提取。值得注意的是，上述步骤402至步骤404、步骤405以及步骤406可以同时执行，也可以先执行步骤402至步骤404，再执行步骤405和步骤406，还可以先执行步骤405或步骤406，再执行步骤402至步骤404，本申请实施例对此不加以限定。步骤407，确定待识别语音的语音特征。可选地，该语音特征中包括上述音频特征和文本特征，将音频特征和文本特征进行串联后得到该语音特征。步骤408，根据语音特征和画像特征确定待识别语音对应的情绪识别结果。可选地，根据语音特征和画像特征进行情绪识别的过程在上述步骤304中已进行了详细说明，此处不再赘述。综上所述，本实施例提供的情绪识别方法，通过在对情绪进行识别的过程中结合目标客服帐号的画像特征进行识别，将待识别语音对应的目标客服帐号的历史服务情况结合在对待识别语音的情绪识别过程中，结合目标客服帐号的服务表现进行情绪识别，避免由于不同对象的表达方式不同而导致的识别结果准确率较低的问题，避免历史服务情况较好的客服人员的待识别语音与情绪识别模型的识别方式有偏差而导致的情绪识别较差，与真实情绪不一致的问题。本实施例提供的方法，通过音频特征对待识别语音进行情绪识别，将待识别语音的韵律、音质以及频谱中的至少一项作为识别待识别语音的参数，提高对待识别语音进行情绪识别的准确率。本实施例提供的方法，通过文本特征对待识别语音进行情绪识别，将待识别语音的文本的词性、词频以及词汇中的至少一项作为识别待识别语音的参数，提高对待识别语音进行情绪识别的准确率。在一个可选的实施例中，由于通话设备存储的通话内容为客服人员与用户之间的对话，该通话内容中既包括客服人员的待识别语音，也包括用户所陈述的内容，即上述待识别语音被切分为了n个语音片段，图5是本申请另一个示例性实施例提供的情绪识别方法流程图，以该方法应用于如图1所示的服务器120中为例进行说明，该方法包括：步骤501，获取待识别语音。可选地，该待识别语音被切分为n个语音片段，n为正整数。可选地，该待识别语音的切分方式包括如下方式：服务器获取通话设备存储的通话内容，该通话内容中包括客服人员的待识别语音以及用户的语音。可选地，针对通话内容，通过规则库对通话内容进行筛选，对不符合规则的通话内容进行过滤，如：规则库中包括时长规则，通话内容大于10秒，则对小于10秒的通话内容进行过滤；规则库中包括标识过滤规则，过滤帐号标识为kim的客服帐号的通话内容。可选地，在对通话内容进行切分之前，可以对通话内容进行预处理，该预处理包括：预加重、分帧、加窗中的至少一种。可选地，在对通话内容进行切分时，通过贝叶斯信息准则(bayesianinformationcriterion，bic)以及凝聚层次聚类算法(agglomerativehierarchicalclustering，ahc)将通话内容中的待识别语音以及用户语音进行分离，如：对通话内容“您好，很高兴为您服务，请问有什么可以帮助您。在软件上交的宽带费怎么还没到账。您的来电号码与软件绑定吗。是的。”进行分离后，得到：角色a“您好，很高兴为您服务，请问有什么可以帮助您。”角色b“在软件上交的宽带费怎么还没到账。”角色a“您的来电号码与软件绑定吗。”角色b“是的”。可选地，根据语音的文本内容结合文本规律，区分角色a以及角色b的具体角色，如，根据文本规律可知，“您好，很高兴为您服务”为客服人员的语音内容，故角色a为客服人员，角色b为客户。上述角色a的每句话都是待识别语音中的一个语音片段。如：待识别语音包括“您好，很高兴为您服务，请问有什么可以帮助您。您的来电号码与软件绑定吗。”该待识别语音中包括2个语音片段，分别为“您好，很高兴为您服务，请问有什么可以帮助您。”以及“您的来电号码与软件绑定吗”。步骤502，确定待识别语音中n个语音片段对应的n个片段特征。可选地，该n个语音片段对应的n个片段特征的确定方式可参考上述步骤303中对待识别语音的语音特征的确定方式。该n个片段特征中包括是对语音片段进行特征提取后得到的特征。可选地，上述片段特征包括如下情况中的任意一种：第一，该片段特征包括语音片段的音频特征和待识别语音的文本特征中的至少一种，则当片段特征中包括音频特征时，从语音片段中提取音频特征，该音频特征用于标识语音片段的韵律、音质以及频谱中的至少一项；当片段特征中包括文本特征时，从语音片段中提取文本特征，该文本特征用于表示语音片段对应的文本的词性、词频以及词汇中的至少一项；第二，片段特征是根据语音片段的音频特征和文本特征确定得到的，则从语音片段中提取音频特征和文本特征，将音频特征和文本特征输入预识别模型，输出得到预识别结果，对该预识别结果进行第二处理，得到片段特征。可选地，该第二处理包括归一化处理和标准化处理中的至少一种。可选地，该片段特征为上述第一种情况中的包括音频特征和文本特征时，将音频特征、文本特征串联得到该片段特征。步骤503，将n个片段特征分别与画像特征输入情绪分类模型，输出得到n个情绪识别得分。可选地，画像特征中包括用于表示目标帐号的历史服务情况的特征。可选地，上述画像特征是确定目标客服帐号的帐号标识后，从画像特征数据库中获取与帐号标识对应的画像参数，并对该画像参数进行第一处理后得到的特征，其中，画像参数中包括用于表示目标客服帐号的历史服务情况的参数。可选地，该第一处理包括标准化、归一化中的至少一种。可选地，针对第i个语音片段，将第i个片段特征和画像特征输入情绪分类模型，得到第i个语音片段对应积极情绪类型的第一比值，第i个语音片段对应客观情绪类型的第二比值，以及第i个语音片段对应消极情绪类型的第三比值，1≤i≤n，根据置信算法确定第一比值与第一置信系数的第一乘积、第二比值与第二置信系数的第二乘积，以及第三比值与第三置信系数的第三乘积，将第一乘积、第二乘积以及第三乘积之和确定为第i个语音片段的情绪识别得分。可选地，依次对n个语音片段的情绪识别得分进行获取。步骤504，根据n个情绪识别得分确定待识别语音对应的情绪得分作为情绪识别结果。可选地，根据n个情绪识别得分确定待识别语音对应的情绪得分的方式包括如下方式中的任意一种：第一，将n个情绪识别得分中的最低分作为待识别语音的情绪得分；第二，确定n个情绪识别得分的平均分作为待识别语音的情绪得分。综上所述，本实施例提供的情绪识别方法，通过在对情绪进行识别的过程中结合待识别语音的画像特征进行识别，将待识别语音对应的目标客服帐号的历史服务情况结合在对待识别语音的情绪识别过程中，结合目标客服帐号的服务表现进行情绪识别，避免由于不同对象的表达方式不同而导致的识别结果准确率较低的问题，避免历史服务情况较好的客服人员的待识别语音与情绪识别模型的识别方式有偏差而导致的情绪识别较差，与真实情绪不一致的问题。本实施例提供的方法，通过将n个语音片段对应的情绪识别得分中的最低分作为待识别语音的情绪得分，避免待识别语音中单句语音的情绪较差，其他语音情绪缓和而导致情绪较差的单句语音无法被准确识别，对待识别语音的情绪识别结果偏高的问题。在一个可选的实施例中，以相关技术中通过待识别语音的文本内容对待识别语音的情绪进行识别为例，对相关技术与本申请提供的方案进行对比，请参考图6和图7，图6是相关技术中提供的通过待识别语音的文本内容对待识别语音的情绪进行识别的方法流程图，如图6所示，该方法包括：步骤601，获取待识别语音对应的文本内容。可选地，对待识别语音进行语音识别，得到该待识别语音的文本内容。步骤602，将文本内容与预定词典进行对比，检测文本内容中是否包括词典中的词汇。步骤603，根据检测结果以及预定评分规则进行评分。可选地，该预定词典中包括加分词汇和扣分词汇以及客观词汇，当文本内容中包括加分词汇时，对评分增加与加分词汇对应的分数，当文本内容中包括扣分词汇时，对评分扣除与扣分词汇对应的分数，并最终得到待识别语音的评分。步骤604，人工核对评分。如图6所示，通过待识别语音的文本内容对待识别语音的情绪进行识别时，仅通过文本内容进行识别而未将客服人员的语气、音调等因素考虑进去，也未考虑不同对象的表达方式不同的问题，故待识别语音的识别准确率较低。而如图7所示，通过过滤器701对通话内容700进行过滤，并执行步骤702，对通话内容进行切分，得到n个语音片段u1、u2、…、un，针对每个语音片段进行执行步骤703，片段特征获取，得到音频特征731、文本特征732以及画像特征733，通过情绪识别模型704对片段特征进行识别，得到n个情绪识别得分，s1、s2、…、sn，并根据n个情绪识别得分得到待识别语音的情绪得分sall。图8是本申请一个示例性实施例提供的情绪识别结果展示方法的流程图，以该方法应用于如图1所示的质检终端130中为例进行说明，如图8所示，该方法包括：步骤801，获取目标客户帐号对应的待识别语音。可选地，客服人员通过通话设备进行客服通话时，该客服通话内容会适时进行保存，终端可以通过通话设备中的存储器获取待识别语音，也可以接收通话设备发送的待识别语音。可选地，通话设备存储并发送的为完整的通话内容，该通话内容中包括客服人员对应的待识别语音。步骤802，将所述待识别语音发送至服务器。可选地，服务器用于对待识别语音的情绪识别结果进行确定，具体确定方式请参考如图3、图4以及图5所示的实施例。步骤803，接收服务器反馈的情绪识别结果。可选地，该情绪识别结果是服务器根据待识别语音的语音特征以及目标客服帐号对应的画像特征确定的。步骤804，显示目标客服帐号对应的待识别语音的情绪识别结果。可选地，该情绪识别结果以情绪得分的形式进行展示，该情绪得分的分值越高标识该待识别语音的情绪越好。可选地，该情绪识别结果中还包括待识别语音对应积极情绪类型的第一比值，该待识别语音对应客观情绪类型的第二比值以及待识别语音对应消极情绪类型的第三比值，该待识别语音的情绪得分是根据置信算法确定第一比值与第一置信系数的第一乘积、第二比值与第二置信系数的第二乘积以及第三比值与第三置信系数的第三乘积后，将第一乘积、第二乘积以及第三乘积相加得到的。具体计算过程请参考上述步骤503。图9是本申请一个示例性实施例提供的情绪识别装置的结构框图，以该装置应用于如图1所示的服务器120中的客服质检系统中为例进行说明，如图9所示，该装置包括：获取模块91、确定模块92以及识别模块93；获取模块91，用于获取待识别语音，所述待识别语音为目标客服帐号对应的语音；确定模块92，用于确定所述待识别语音的语音特征，所述语音特征是对所述待识别语音进行特征提取后得到的特征；所述确定模块92，还用于确定所述目标客服帐号对应的画像特征，所述画像特征包括用于表示所述目标客服帐号的历史服务情况的特征；识别模块93，用于根据所述语音特征和所述画像特征确定所述待识别语音对应的情绪识别结果。在一个可选的实施例中，所述客服质检系统中还包括画像特征数据库，所述画像特征数据库中包括客服帐号对应的画像参数，所述确定模块92，还用于确定所述目标客服帐号对应的帐号标识；所述获取模块91，还用于从画像特征数据库中获取与所述帐号标识对应的画像参数，所述画像参数中包括用于表示所述目标客服账号的历史服务情况的参数；所述确定模块92，还用于对所述画像参数进行第一处理，得到所述目标客服帐号的画像特征，所述第一处理包括归一化处理和标准化处理中的至少一种。在一个可选的实施例中，所述画像参数包括：所述目标客服帐号对应的历史服务时长、历史服务评价、历史奖惩情况、历史投诉情况中的至少一种；其中，所述历史服务时长用于表示所述客服帐号对应的服务年限；所述历史服务评价用于表示所述客服帐号接收到的服务评分；所述历史奖惩情况用于表示所述客服帐号是否属于优秀员工；所述历史投诉情况用于表示所述客服帐号对应的投诉数量。在一个可选的实施例中，所述根据所述语音特征和所述画像特征确定所述待识别语音对应的情绪识别结果，包括：根据所述语音特征和所述画像特征计算所述待识别语音对应的情绪得分，并将所述情绪得分作为所述情绪识别结果，其中，所述情绪得分越高表示所述待识别语音的情绪越好。在一个可选的实施例中，所述待识别语音被切分为n个语音片段，所述语音特征包括所述n个语音片段对应的n个片段特征，n为正整数；所述识别模块93，还用于将所述n个片段特征分别与所述画像特征输入所述情绪分类模型，输出得到n个情绪识别得分；根据所述n个情绪识别得分确定所述待识别语音对应的情绪得分作为所述情绪识别结果。在一个可选的实施例中，所述识别模块93，还用于将所述n个情绪识别得分中的最低分作为所述待识别语音对应的情绪得分；或，所述识别模块93，还用于确定所述n个情绪识别得分的均分作为所述待识别语音对应的情绪得分。在一个可选的实施例中，所述识别模块93，还用于将第i个片段特征与所述画像特征输入所述情绪分类模型，得到第i个所述语音片段对应积极情绪类型的第一比值、所述第i个语音片段对应客观情绪类型的第二比值以及所述第i个语音片段对应消极情绪类型的第三比值，1≤i≤n；根据置信算法确定所述第一比值与第一置信系数的第一乘积、所述第二比值与第二置信系数的第二乘积以及所述第三比值与第三置信系数的第三乘积；将所述第一乘积、所述第二乘积和所述第三乘积之和确定为所述第i个片段特征的情绪识别得分。在一个可选的实施例中，所述语音特征包括所述待识别语音的音频特征和所述待识别语音的文本特征中的至少一种；如图10所示，所述装置，还包括：提取模块94，用于从所述待识别语音中提取所述音频特征，所述音频特征用于表示所述待识别语音的韵律、音质以及频谱中的至少一项；所述提取模块94，还用于从所述待识别语音中提取所述文本特征，所述文本特征用于表示所述待识别语音对应的文本的词性、词频以及词汇中的至少一项。在一个可选的实施例中，所述语音特征是根据所述待识别语音的音频特征和所述待识别语音的文本特征确定得到的，所述客服质检系统中还包括预识别模型；所述装置，还包括：提取模块94，用于从所述待识别语音中提取所述音频特征和所述文本特征，所述音频特征用于表示所述待识别语音的韵律、音质以及频谱中的至少一项，所述文本特征用于表示所述待识别语音对应的文本的词性、词频以及词汇中的至少一项；所述确定模块92，还用于将所述音频特征和所述文本特征输入所述预识别模型，输出得到预识别结果；对所述预识别结果进行第二处理，得到所述语音特征，所述第二处理包括归一化处理和标准化处理中的至少一种。值得注意的是，上述获取模块91、确定模块92、识别模块93以及提取模块94可以由处理器实现，也可以是由处理器和存储器结合实现。图11是本申请一个示例性实施例提供的情绪识别结果展示装置的结构框图，以该装置应用于如图1所示的质检终端130中为例进行说明，如图11所示，该装置包括：获取模块1110、发送模块1120、接收模块1130以及显示模块1140；获取模块1110，用于获取目标客服帐号对应的待识别语音；发送模块1120，用于将所述待识别语音发送至服务器，所述服务器用于对所述待识别语音的情绪识别结果进行确定；接收模块1130，用于接收所述服务器反馈的所述情绪识别结果，所述情绪识别结果是所述服务器根据所述待识别语音的语音特征以及所述目标客服帐号对应的画像特征确定的；显示模块1140，用于显示所述目标客服帐号对应的所述待识别语音的所述情绪识别结果。在一个可选的实施例中，显示模块1140，还用于将所述情绪识别结果以情绪得分的形式进行展示，所述情绪得分的分值越高表示所述待识别语音的情绪越好。在一个可选的实施例中，所述情绪识别结果还包括所述待识别语音对应积极情绪类型的第一比值、所述待识别语音对应客观情绪类型的第二比值以及所述待识别语音对应消极情绪类型的第三比值；所述待识别语音的情绪得分是根据置信算法确定所述第一比值与第一置信系数的第一乘积、所述第二比值与第二置信系数的第二乘积以及所述第三比值与第三置信系数的第三乘积后，将所述第一乘积、所述第二乘积以及所述第三乘积相加得到的。本申请还提供了一种服务器，该服务器包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的情绪识别方法。需要说明的是，该服务器可以是如下图12所提供的服务器。请参考图12，其示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲：所述服务器1200包括中央处理单元(cpu)1201、包括随机存取存储器(ram)1202和只读存储器(rom)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述服务器1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(i/o系统)1206，和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。所述基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说，所述大容量存储设备1207可以包括诸如硬盘或者cd-roi驱动器之类的计算机可读介质(未示出)。不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、eprom、eeprom、闪存或其他固态存储其技术，cd-rom、dvd或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1201执行，一个或多个程序包含用于实现上述情绪识别方法的指令，中央处理单元1201执行该一个或多个程序实现上述各个方法实施例提供的情绪识别方法。根据本发明的各种实施例，所述服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在所述系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本发明实施例提供的情绪识别方法中由服务器所执行的步骤。本申请实施例还提供一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述如图3至图5任一所述的情绪识别方法，或如图8所示的情绪识别结果的展示方法。本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图3至图5任一所述的情绪识别方法，或如图8所示的情绪识别结果的展示方法。本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的情绪识别方法，或如图8所示的情绪识别结果的展示方法。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图3至图5任一所述的情绪识别方法。可选地，该计算机可读存储介质可以包括：只读存储器(rom，readonlymemory)、随机存取记忆体(ram，randomaccessmemory)、固态硬盘(ssd，solidstatedrives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(reram,resistancerandomaccessmemory)和动态随机存取存储器(dram，dynamicrandomaccessmemory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈岁迪;杨杰
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：位移监测站及地质监测预警系统的制作方法
上一篇：一种大批量制备高质量石墨烯的方法与流程