本发明涉及语音识别,尤其是涉及一种音频文件的质检方法、装置、设备及存储介质。
背景技术:
1、随着深度学习技术的发展,在录音智能质检的方法上了有重大的突破,深度学习方法的性能已远超传统的质检方法。
2、在录音的质检方法中,通常是基于人工听取判断、规则匹配判断等传统方法对听取的录音进行质检,过程复杂且识别准确率不高,当进行录音的质检操作时,很难快速的检测出目标角色在其中存在的异常并及时处理。
技术实现思路
1、本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种音频文件的质检方法、装置、设备及存储介质,能够协助质检人员快速检测出目标角色在交流当中产生的异常情绪,进而进行目标角色的质量评估,增加工作效率。
2、根据本发明的第一方面实施例的一种音频文件的质检方法,所述音频文件的质检方法包括如下步骤:
3、获取由目标角色和其余角色交流产生的待质检音频;
4、将所述待质检音频拆分为所述目标角色的第一音频和所述其余角色的第二音频,根据所述第一音频识别所述目标角色的身份;
5、将所述第一音频转录成第一文本、将所述第二音频转录成第二文本,从所述第一文本和所述第二文本中分别提取出所述目标角色和其余角色的文本特征;
6、从所述第一音频和所述第二音频中分别提取所述目标角色和其余角色的声学特征;
7、拼接所述文本特征和所述声学特征,将拼接后的特征输入至预设的多模态模型中,以得到所述多模态模型识别所述目标角色和所述其余角色的情绪;
8、根据所述情绪对所述目标角色进行质量评估。
9、根据本发明实施例的音频文件的质检方法,至少具有如下有益效果:
10、本方法首先将待质检音频划分为目标角色的音频部分和其它角色音频部分,进而利用目标角色的音频部分识别目标角色的身份,将音频划分也能够提升后续各角色的声学特征和文本特征提取和学习的准确度;然后将各个角色的音频部分转换成文本,一方面能提取文本中包含角色的文本特征,一方面提取音频中的包含角色的声学特征;最后基于文本特征和声学特征进行拼接,将拼接后的特征输入至预设的多模态模型中,以得到各角色的情绪,进而能够利用情绪进行目标角色的质量评估。
11、传统对待质检音频的质检为基于人工听取判断、规则匹配判断等传统方法,过程复杂且识别准确率不高,当进行待质检音频的质检操作时,很难快速的检测出目标角色在其中存在的异常并及时处理。本方法通过语音识别、说话人分离、声纹识别和录音质检等过程,方法可以协助质检人员快速检测出目标角色和其余角色在交流当中产生的异常情绪,进而对目标角色进行质量评估,以辅助目标角色进行交流中的改进,能够增加工作效率和节省人力资源。
12、根据本发明的一些实施例,所述根据所述第一音频识别所述目标角色的身份,包括:
13、提取所述第一音频中的目标声纹特征;
14、将所述目标声纹特征与声纹特征数据库进行声纹特征的匹配,将匹配的一个声纹特征对应的角色身份作为所述目标角色的身份。
15、根据本发明的一些实施例,所述提取所述第一音频中的目标声纹特征,包括:
16、对所述第一音频进行1维空洞卷积后,再进行池化,得到目标声纹特征。
17、根据本发明的一些实施例,通过如下方式从所述待质检音频中拆分出不同角色的音频:
18、对所述待质检音频进行卷积和池化,得到特征向量;
19、根据所述特征向量计算当前时间每个角色语音活动的概率;
20、使用滑动窗口对所有时间序列下的角色语音活动的概率分布进行扫描,当角色在连续时间集合中的概率较高,则判定角色在当前时间段内有语音活动;
21、把所有角色概率分布遍历结束后,切分出每一角色对应的语音活动时间段,根据语音活动时间段从所述待质检音频中切分出每一角色对应的音频。
22、根据本发明的一些实施例,通过如下公式识别角色的情绪:
23、p=softmax(f(cat(m(xv),g(xt))))
24、其中,p为角色的音频和文本的情感概率分布,f()为多模态融合模型,cat()为多模态的特征拼接,m()为mfcc提取声学特征,g()为词嵌入提取文本特征,xv为输入的角色的音频,xt为输入的角色的文本,softmax()为softmax函数。
25、根据本发明的一些实施例,在所述根据所述情绪对所述目标角色进行质量评估之前,所述音频文件的质检方法还包括:将所述第一文本的文本特征输入至预设的bert模型,得到所述bert模型输出所述第一文本的语义;提取所述语义中的关键信息,根据所述关键信息判断所述目标角色的专业性和规范性;所述根据所述情绪对所述目标角色进行质量评估,包括:根据所述情绪和所述专业性和规范性评价对所述目标角色进行质量评估。
26、根据本发明的一些实施例,所述根据所述关键信息判断所述目标角色的专业性和规范性,包括:
27、将所述关键信息与知识库中的内容进行匹配,根据匹配结果判断所述目标角色的专业性和规范性。
28、根据本发明的第二方面实施例的一种音频文件的质检系统,所述音频文件的质检系统包括:
29、音频获取单元,用于获取由目标角色和其余角色交流产生的待质检音频;
30、音频切分单元,用于将所述待质检音频拆分为所述目标角色的第一音频和所述其余角色的第二音频;
31、目标识别单元,用于根据所述第一音频识别所述目标角色的身份;
32、文本转录单元,用于将所述第一音频转录成第一文本、将所述第二音频转录成第二文本;
33、文本特征提取单元,用于从所述第一文本和所述第二文本中分别提取出所述目标角色和其余角色的文本特征;
34、声学特征提取单元,用于从所述第一音频和所述第二音频中分别提取所述目标角色和其余角色的声学特征;
35、情绪识别单元,用于拼接所述文本特征和所述声学特征,将拼接后的特征输入至预设的多模态模型中,以得到所述多模态模型识别所述目标角色和所述其余角色的情绪;
36、质量评估单元,用于根据所述情绪对所述目标角色进行质量评估。
37、本系统首先将待质检音频划分为目标角色的音频部分和其它角色音频部分,进而利用目标角色的音频部分识别目标角色的身份,将音频划分也能够提升后续各角色的声学特征和文本特征提取准确度;然后将各个角色的音频部分转换成文本,一方面能提取文本中包含角色的文本特征,一方面提取音频中的包含角色的声学特征;最后基于文本特征和声学特征进行拼接,将拼接后的特征输入至预设的多模态模型中,以得到各角色的情绪,进而能够利用情绪进行目标角色的质量评估。传统对录音数据的质检为基于人工听取判断、规则匹配判断等传统方法,过程复杂且识别准确率不高。当进行待质检音频的质检操作时,很难快速的检测出目标角色在其中存在的异常并及时处理,本系统通过语音识别、说话人分离、声纹识别和录音质检等功能,对待质检数据进行智能化且全面地分析,精准地找出异常所在,从而解决问题通过本系统可以协助质检人员快速检测出目标角色在交流当中产生的异常情绪,增加工作效率和节省人力资源。
38、根据本发明的第三方面实施例的一种电子设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行上述的音频文件的质检方法。
39、根据本发明的第四方面实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述的音频文件的质检方法。
40、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。