本发明涉及数据处理技术领域,尤其涉及一种客服语音评估方法、系统、设备及存储介质。
背景技术:
作为ota(onlinetravelagency,在线旅行社)平台对客和对商的重要枢纽,呼叫中心客服服务质量至关重要。质检是把控服务质量的重要一环,此前对于客服服务的质检,一般由考评部门以人工的方法进行抽检。呼叫中心每天都会产生海量的通话,相比较来说,质检的人力资源较为有限,如果抽出的样本量较小,这样抽出的样本存在较大的随机性,难以代表客服的实际服务质量,而增加抽样的数量则会带来成本的增加。总而言之,人工质检只能进行抽检,也难以针对客服的表现进行跟踪、具体分析。同时,人工的质检的主观性较强,会有标准不一致或者失误的可能。
质量管理是客服中心运营管理的重要板块,而质检则是定义客服中心服务质量好坏的标准。客服服务质量的考核一般与客人的满意度挂钩,但客人的满意度有时与客人提出的诉求是否得到满足有关,和客服的服务质量关联性较小。此时较难通过客人满意度衡量客服的服务质量,更难通过这种方式了解客服服务中需要改进的地方。因此需要相对客观的质检标准,在把控员工服务质量的同时也为员工指明问题。
对于呼叫中心的客服人员来说,语腔语调是非常重要的,客服在沟通时应该让人觉得亲切热情、温和有礼,不应该表现出冷淡和不耐烦。然而客服人员常年面对客人、商家,很多时候都在处理类似的问题,可能产生倦怠,导致在沟通中缺乏热情,具体表现为语调平板无波动,给客人以一种无动于衷的感觉;同时客服面对的人员也十分多种多样,在客人带有负面情绪时,客服也不容易保持一个正面积极的语气。
对客服语腔语调的考核之前是由人工完成的,人工质检往往存在几个问题:1、主观性强,质检人员对考核标准的理解不统。2、随机性强,呼叫中心每天都会产生海量的通话,无法通过人工的方式对每一个客服员的每一通电话进行考核。只能通过随机抽样的方式以偏看全地完成,存在很大的随机性。因此这样的质检对客服的表现进行全面了解,也无法通过长期的跟踪来帮助客服发现问题、改进问题。
技术实现要素:
针对现有技术中的问题,本发明的目的在于提供一种客服语音评估方法、系统、设备及存储介质,自动对客服语音进行分析,提高客服语音质检效率。
本发明实施例提供一种客服语音评估方法,包括如下步骤:
采集待评估的客服语音;
将所述待评估的客服语音分割为多个语音段落;
将每个语音段落分别输入训练好的语调检测模型,检测所述语音段落中是否存在特定负面语调;
根据所述语调检测模型对于各个所述语音段落的检测结果,得到所述客服语音的评估结果。
在一些实施例中,将所述待评估的客服语音分割为多个语音段落,包括如下步骤:
基于自动语音识别技术对所述客服语音进行识别,得到所述客服语音所对应的语音文本;
基于所述语音文本对所述客服语音进行分割,并去除未包含语音文本的语音段落。
在一些实施例中,所述将每个语音段落分别输入训练好的语调检测模型,检测所述语音段落中是否存在特定负面语调,包括如下步骤:
提取所述语音段落的情感特征;
将所述语音段落的情感特征输入训练好的语调检测模型,得到所述语调检测模型输出的负面语调检测结果。
在一些实施例中,提取所述语音段落的情感特征,包括如下步骤:
提取所述语音段落的音频数据的llds特征;
基于所述llds特征,提取hsfs特征。
在一些实施例中,所述语调检测模型包括多个分类器,所述多个分类器分别与多个特定负面语调一一对应,每个所述分类器用于输出所述语音段落中包括所对应的特定负面语调的概率值。
在一些实施例中,所述语调检测模型包括特征提取层、目标任务分类层和说话人识别层;
所述特征提取层对所述语音段落的情感特征进行特征提取后分别输入所述目标任务分类层和所述说话人识别层,所述目标任务分类层输出所述语音段落包括特定负面语调的概率值,所述说话人识别层用于输出所述语音段落对应于各个说话人的概率值。
在一些实施例中,所述语调检测模型采用对抗学习方式训练,所述特征提取层通过一梯度反转层连接至所述说话人识别层,所述梯度反转层在正向传播时保持传递权值不变,在反向传播时梯度反向。
在一些实施例中,根据所述语调检测模型对于各个所述语音段落的检测结果,得到所述客服语音的评估结果,包括如下步骤:
对于一特定负面语调,如果所述语音段落中存在至少一个语音段落的检测结果为包括该特定负面语调,则将所述客服语音认定为问题语音。
在一些实施例中,根据所述语调检测模型对于各个所述语音段落的检测结果,得到所述客服语音的评估结果,包括如下步骤:
对于一特定负面语调,计算包括该特定负面语调的语音段落在所述客服语音中的占比;
如果计算得到的占比大于预设占比阈值,则将所述客服语音认定为问题语音。
在一些实施例中,所述计算包括该特定负面语调的语音段落在所述客服语音中的占比包括:
计算包括该特定负面语调的语音段落的语音时长在所述客服语音的整体时长中的占比;或
计算包括该特定负面语调的语音段落的句子的数量在所述客服语音的句子总数中的占比。
本发明实施例还提供一种客服语音评估系统,用于实现所述的客服语音评估方法,所述系统包括:
语音采集模块,用于采集待评估的客服语音;
语音分割模块,用于将所述待评估的客服语音分割为多个语音段落;
语调检测模块,用于将每个语音段落分别输入训练好的语调检测模型,检测所述语音段落中是否存在特定负面语调;
语音评估模块,用于根据所述语调检测模型对于各个所述语音段落的检测结果,得到所述客服语音的评估结果。
本发明实施例还提供一种客服语音评估设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的客服语音评估方法的步骤。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被处理器执行时实现所述的客服语音评估方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本发明的客服语音评估方法、系统、设备及存储介质具有如下有益效果:
本发明提供了一种用于检测客服语音的语腔语调的语调检测模型,自动识别客服语音中是否存在负面的语调,并根据检测结果对客服语音进行自动评估,无需人工进行评估,评估准确性更高,并且可以大大提高质检效率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明一实施例的客服语音评估方法的流程图;
图2是本发明一实施例的客服语音评估方法的过程示意图;
图3是本发明一实施例的语调检测模型的示意图;
图4是本发明一实施例的客服语音评估系统的结构示意图;
图5是本发明一实施例的客服语音评估设备的结构示意图;
图6是本发明一实施例的计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此,实际执行的顺序有可能根据实际情况改变。
如图1所示,本发明实施例提供一种客服语音评估方法,包括如下步骤:
s100:采集待评估的客服语音;
s200:将所述待评估的客服语音分割为多个语音段落;
s300:将每个语音段落分别输入训练好的语调检测模型,检测所述语音段落中是否存在特定负面语调;
s400:根据所述语调检测模型对于各个所述语音段落的检测结果,得到所述客服语音的评估结果。
本发明通过采用该客服语音评估方法,提供了一种用于检测客服语音的语腔语调的语调检测模型,通过步骤s100采集到客服语音后,通过步骤s200对客服语音进行分割,并通过步骤s300自动识别客服语音的语音段落中是否存在负面的语调,然后可以通过步骤s400根据检测结果对客服语音进行自动评估,无需人工进行评估,评估准确性更高,并且可以大大提高质检效率,用以保证客服的服务质量,帮助客服发现自身服务中存在的问题。
如图2所示,所述步骤s100中,采集待评估的客服语音,可以具体根据客服人员的标识信息eid和通话标识信息callid来获取客服语音的音频数据。
如图2所示,在该实施例中,所述步骤s200:将所述待评估的客服语音分割为多个语音段落,包括如下步骤:
基于自动语音识别技术asr对所述客服语音进行识别,得到所述客服语音所对应的语音文本,本发明所采用的语音识别技术可以为现有技术中已有的语音识别技术,对客服语音的音频数据的内容进行识别;
基于所述语音文本对所述客服语音进行分割。具体地,每个语音段落可以对应于一个短句。
由于存在一小段音频大部分都是静音或者噪音的情况存在,需要在切割后对所有的音频使用vad(voiceactivitydetection,语音活动检测)进行端点检测,以滤除噪音,去除未包含语音文本的语音段落。
在该实施例中,所述步骤s300:将每个语音段落分别输入训练好的语调检测模型,检测所述语音段落中是否存在特定负面语调,包括如下步骤:
提取所述语音段落的情感特征,此处提取所述情感特征也可以采用深度学习模型,例如包括多个卷积层的卷积神经网络模型;
将所述语音段落的情感特征输入训练好的语调检测模型,得到所述语调检测模型输出的负面语调检测结果。
在训练所述语调检测模型时,同样也需要采集作为样本的客服语音,然后进行分割得到多个语音段落,并去除未包含语音文本的语音段落。并且需要对所述语音段落进行人工标注。例如,在需要对语气不耐烦、说话无波动、语气下沉三种负面语调进行检测时,每个语音段落的音频标注三个标签,分别是是否存在语气不耐烦、说话无波动、语气下沉。
如图2所示,在该实施例中,提取所述语音段落的情感特征,包括如下步骤:
提取所述语音段落的音频数据的llds(lowleveldescriptors)特征,llds指的是手工设计的一些低水平特征,一般是在一帧语音上进行的计算,是用来表示一帧语音的特征;
基于所述llds特征,提取hsfs(highlevelstatisticsfunctions)特征,hsfs是在llds的基础上做一些统计而得到的特征,比如均值,最大值等等。本发明基于所述llds特征,提取得到6373维hsfs作为语音情感特征,输入到语调检测模型中。
如图2所示,在该实施例中,所述语调检测模型包括多个分类器,所述多个分类器分别与多个特定负面语调一一对应,每个所述分类器用于输出所述语音段落中包括所对应的特定负面语调的概率值。例如,在该实施例中,设定三种特定负面语调:不耐烦、语调下沉、说话无波动。对应地,设定三个分类器,分别用于检测语音段落中是否包含不耐烦、语调下沉、说话无波动的情况。
如图3所示,在该实施例中,所述语调检测模型包括特征提取层、目标任务分类层和说话人识别层。所述特征提取层可以包括多个卷积层conv、多个批处理层batchnormalization和输出层dense。所述特征提取层对所述语音段落的情感特征进行特征提取后分别输入所述目标任务分类层和所述说话人识别层。所述目标任务分类层输出所述语音段落包括特定负面语调的概率值,在所述目标任务分类层用于对多种特定负面语调检测时,包括多个对应的分类器。所述说话人识别层用于输出所述语音段落对应于各个说话人的概率值,即实现对说话人的检测。在该实施例中,所述目标任务分类层和所述说话人识别层分别包括输出层dense和softmax分类器,分别得到语腔语调的分类结果和说话人的分类结果。
本发明目的在于对客服的语腔语调进行识别,检测出客服在服务的过程中是否存在语气不耐烦、语调下沉、说话无波动的情况,这是一个语音情感识别邻域的任务,相比于其他语音分类任务,语音情感识别的特殊之处在于,作为识别目标的“情感”,它的衡量相对主观,目前还没有一个统一的标准。现有的语音情感语料库非常多样,区别也较大。由于不同情感在语音信号中的特点不同,现有研究中使用的特征和情感识别方法种类也非常繁多。在该实施例中,提取所述语音段落的情感特征使用的是compare特征集,由interspeech2013paralinguisticschallenge举办方设定。这些情感特征中包含与说话人相关的信息,传统上需要使用每一个说话人的中性语音来对情感语音归一化,以消除说话人信息带来的影响。
情感特征一般基于韵律特征,主要包括基音、能量和时长相关的韵律。基音是由声带的振动产生的,男声的基音频率在100—200hz之间,而女声则在200—350hz之间。由此可知,情感特征中包含了了一些说话人相关的信息。为了消除说话人信息带来的影响,一种做法是利用说话人的中性情感特征对情感特征做归一化。如利用每个说话人中性语音的f0均值和全体中性情感语音的f0均值对情感做归一化。这种做法虽然在某种程度上消除了说话人的影响,但它在预测时也需要被预测者的中性情感语音。
基于此,本发明为了消除说话人信息带来的影响,采用对抗式学习来训练所述语音检测模型。如图3所示,所述特征提取层通过一梯度反转层grl连接至所述说话人识别层,所述梯度反转层grl在正向传播时保持传递权值不变,在反向传播时梯度反向。
如图2所示,在该实施例中,所述步骤s400:根据所述语调检测模型对于各个所述语音段落的检测结果,得到所述客服语音的评估结果,为基于各个所述语音段落的检测结果,基于整通电话的判断规则,来判断所述客服语音是否为问题语音。
例如,对应于语气不耐烦的负面语调,会给客人留下很不好的负面印象,如果所述语音段落中存在至少一个语音段落的检测结果为包括该特定负面语调,则将所述客服语音认定为问题语音。
而对于其他的一些负面语调,则可以根据负面语调在整通电话中的占比来判断。例如,对应于说话无波动或语调下沉等负面情绪,所述步骤s400:包括如下步骤:
对于一特定负面语调,计算包括该特定负面语调的语音段落在所述客服语音中的占比;
如果计算得到的占比大于预设占比阈值,则将所述客服语音认定为问题语音。
在该实施例中,所述计算包括该特定负面语调的语音段落在所述客服语音中的占比包括:
计算包括该特定负面语调的语音段落的语音时长在所述客服语音的整体时长中的占比,即语音时长的占比;或
计算包括该特定负面语调的语音段落的句子的数量在所述客服语音的句子总数中的占比,即句子数量的占比。
因此,本发明针对人工质检中存在比较重要的几个语腔语调问题:语气不耐烦、说话无波动、语气下沉,进行数据标注并训练了对应的模型。进一步地,本发明采用的对抗学习的方法,用梯度反转层连接说话人分类模块,使得反向传播时说话人识别模块的梯度乘以-1,这样的设计起到了对抗的作用,让特征提取层提取出的信息更少地与说话人相关。本发明使用的方法在预测时不需要再采集目标说话人的中性语音来对情感语音进行归一化,使用方便。本发明的方法可以代替人力质检检测出客服存在的语腔语调问题,实用性强。
如图4所示,本发明实施例还提供一种客服语音评估系统,用于实现所述的客服语音评估方法,所述系统包括:
语音采集模块m100,用于采集待评估的客服语音;
语音分割模块m200,用于将所述待评估的客服语音分割为多个语音段落;
语调检测模块m300,用于将每个语音段落分别输入训练好的语调检测模型,检测所述语音段落中是否存在特定负面语调;
语音评估模块m400,用于根据所述语调检测模型对于各个所述语音段落的检测结果,得到所述客服语音的评估结果。
本发明通过采用该客服语音评估系统,提供了一种用于检测客服语音的语腔语调的语调检测模型,通过语音采集模块m100采集到客服语音后,通过语音分割模块m200对客服语音进行分割,并通过语调检测模块m300自动识别客服语音的语音段落中是否存在负面的语调,然后可以通过语音评估模块m400根据检测结果对客服语音进行自动评估,无需人工进行评估,评估准确性更高,并且可以大大提高质检效率,用以保证客服的服务质量,帮助客服发现自身服务中存在的问题。
在该实施例中,所述语音分割模块m200将所述待评估的客服语音分割为多个语音段落,包括:基于自动语音识别技术asr对所述客服语音进行识别,得到所述客服语音所对应的语音文本,本发明所采用的语音识别技术可以为现有技术中已有的语音识别技术,对客服语音的音频数据的内容进行识别;基于所述语音文本对所述客服语音进行分割。具体地,每个语音段落可以对应于一个短句。
由于存在一小段音频大部分都是静音或者噪音的情况存在,需要在切割后对所有的音频使用vad进行端点检测,以滤除噪音,去除未包含语音文本的语音段落。
在该实施例中,所述客服语音评估方法还包括情感特征提取模块,用于提取所述语音段落的情感特征,所述语调检测模块m300将每个语音段落的情感特征分别输入训练好的语调检测模型,检测所述语音段落中是否存在特定负面语调。
进一步地,所述情感特征提取模块提取所述语音段落的情感特征包括:提取所述语音段落的音频数据的llds特征,llds指的是手工设计的一些低水平特征,一般是在一帧语音上进行的计算,是用来表示一帧语音的特征;基于所述llds特征,提取hsfs特征,hsfs是在llds的基础上做一些统计而得到的特征,比如均值,最大值等等。本发明基于所述llds特征,提取得到6373维hsfs作为语音情感特征。
在该实施例的一种实施方式中,所述语音评估模块m400根据所述语调检测模型对于各个所述语音段落的检测结果,得到所述客服语音的评估结果,包括:对于一特定负面语调,如果所述语音段落中存在至少一个语音段落的检测结果为包括该特定负面语调,则将所述客服语音认定为问题语音。
在该实施例的另一种实施方式中,所述语音评估模块m400根据根据所述语调检测模型对于各个所述语音段落的检测结果,得到所述客服语音的评估结果,包括:对于一特定负面语调,计算包括该特定负面语调的语音段落在所述客服语音中的占比;如果计算得到的占比大于预设占比阈值,则将所述客服语音认定为问题语音。
本发明实施例还提供一种客服语音评估设备,包括处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的客服语音评估方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述客服语音评估方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(rom)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
所述客服语音评估设备中,所述存储器中的程序被处理器执行时实现所述的客服语音评估方法的步骤,因此,所述计算机存储介质也可以获得上述客服语音评估方法的技术效果。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被处理器执行时实现所述的客服语音评估方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上执行时,所述程序代码用于使所述终端设备执行本说明书上述客服语音评估方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上执行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
所述计算机存储介质中的程序被处理器执行时实现所述的客服语音评估方法的步骤,因此,所述计算机存储介质也可以获得上述客服语音评估方法的技术效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。