本公开涉及人工智能,尤其涉及一种重叠语音检测方法、装置、电子设备及存储介质。
背景技术:
1、重叠语音是指在同一时间存在两个或以上说话人同时发声,广泛存在于多人对话场景中,比如电话交谈、会议、辩论和广播新闻。主流的语音识别、说话人识别和说话人日志等技术假设同一时间只有一个说话人讲话,重叠语音段的存在会使得这些语音处理系统的效果出现下降。相关研究表明,对重叠语音片段进行单独处理有潜力解决该问题,例如先对重叠语音片段进行语音分离,然后对分离后语音分别进行转写,可以提高语音识别系统性能。因此,精确地检测重叠语音至关重要。
技术实现思路
1、本公开提供了一种重叠语音检测方法、装置、电子设备及计算机可读存储介质,以至少解决现有技术中存在的以上技术问题。
2、第一方面,本公开实施例提供了一种重叠语音检测方法,所述方法包括:
3、获取重叠语音检测模型;
4、运用所述重叠语音检测模型检测待识别语音,确定检测结果;所述检测结果包括所述待识别语音中的至少一帧语音的分类结果,所述分类结果包括重叠音、静音和单个说话人语音;
5、其中,所述重叠语音检测模型包括:多个第一网络层和第一输出层;所述多个第一网络层依次串联后与所述第一输出层串联;
6、所述多个第一网络层中的至少一个第一网络层通过迁移学习训练后的语音识别模型中的至少一个第二网络层得到;所述语音识别模型包括:多个第二网络层和第二输出层;所述多个第二网络层依次串联后与所述第二输出层串联。
7、第二方面,本公开实施例提供了一种重叠语音检测装置,所述装置包括:
8、获取模块,用于获取重叠语音检测模型;
9、处理模块,用于运用所述重叠语音检测模型检测待识别语音,确定检测结果;所述检测结果包括所述待识别语音中的至少一帧语音的分类结果,所述分类结果包括重叠音、静音和单个说话人语音;
10、其中,所述重叠语音检测模型包括:多个第一网络层和第一输出层;所述多个第一网络层依次串联后与所述第一输出层串联;
11、所述多个第一网络层中的至少一个第一网络层通过迁移学习训练后的语音识别模型中的至少一个第二网络层得到;所述语音识别模型包括:多个第二网络层和第二输出层;所述多个第二网络层依次串联后与所述第二输出层串联。
12、第三方面,本公开实施例提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,
13、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行以上任一项所述的重叠语音检测方法。
14、第四方面,本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行根据以上任一项所述的重叠语音检测方法。
15、本公开实施例提供的重叠语音检测方法、装置、电子设备及存储介质,所述方法包括:获取重叠语音检测模型;运用所述重叠语音检测模型检测待识别语音,确定检测结果;所述检测结果包括所述待识别语音中的至少一帧语音的分类结果,所述分类结果包括重叠音、静音和单个说话人语音;其中,所述重叠语音检测模型包括:多个第一网络层和第一输出层;所述多个第一网络层依次串联后与所述第一输出层串联;所述多个第一网络层中的至少一个第一网络层通过迁移学习训练后的语音识别模型中的至少一个第二网络层得到;所述语音识别模型包括:多个第二网络层和第二输出层;所述多个第二网络层依次串联后与所述第二输出层串联。如此,重叠语音检测模型迁移学习语音识别模型的网络层,即采用训练后的语音识别声学模型的浅层网络参数初始化重叠语音检测模型的浅层网络(即所述至少一个第一网络层),将语音识别模型学习到的语音内容信息提取能力迁移到重叠语音检测模型,实现对重叠语音中语言现象检测和识别,既提高了重叠语音检测模型对说话人、背景噪音和信道等干扰的鲁棒性,又提高了重叠语音检测模型的检测性能。
16、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种重叠语音检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述运用所述m个第二网络层构建所述第二神经网络模型,包括:
4.根据权利要求2所述的方法,其特征在于,所述第二训练语料集包括:多个样本语音、每个样本语音对应的标签;所述标签包括:重叠音、静音和单个说话人语音;
5.根据权利要求2所述的方法,其特征在于,所述从所述训练后的多个第二网络层中确定m个网络层,包括:
6.根据权利要求2所述的方法,其特征在于,所述第一训练语料集包括:多个样本语音、每个样本语音对应的标签;所述标签包括语音内容;
7.根据权利要求2所述的方法,其特征在于,所述多个第二网络层以输入端的第二网络层为起始,以连接输出层的第二网络层为结尾,从小到大依次编号;
8.一种重叠语音检测装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行根据权利要求1至7中任一项所述的方法。