本申请涉及语音信号处理,尤其涉及一种语音关键词检测方法、存储介质及电子设备。
背景技术:
1、关键词检测(keyword spotting,kws),也称为唤醒词检测(wake worddetection,wwd),是人机交互的重要接口。kws系统通常部署在设备上并持续运行。随着应用场景日益多样化,在资源受限的条件下提高噪声鲁棒性已成为kws领域的一个关键研究重点。
2、为了增强kws系统的噪声鲁棒性,开发了多种方法。其中一种方法是在kws模块之前引入单通道/多通道语音增强(speech enhancement,se)模块。另一种方法是设计新的训练策略或架构,以实现噪声鲁棒的kws系统。无论方法如何,模拟的噪声数据在提升kws性能中起着至关重要的作用。本申请的初步实验突出了两个关键观察结果:首先,在低信噪比(signal-to-noise ratio,snr)水平下,强噪声能量自然导致召回率降低;其次,信噪比过低的模拟数据使模型过拟合于噪声,最终降低整体性能。这些现象的发生是因为具有挑战性的训练数据中的噪声遮蔽了关键词语音的部分内容,导致模型将噪声与目标关键词混淆。
3、因此,噪声引起的语音错误,可能导致训练期间语音内容与配对文本转录之间的不匹配。在复杂声学环境下,尤其是在高噪声、低信噪比的复杂声学场景下,致使模型训练时对噪声过拟合,导致唤醒率偏低。
4、针对上述问题,目前业界暂未提出较佳的解决方案。
技术实现思路
1、本申请提供一种语音关键词检测方法、存储介质及电子设备,用以至少解决目前相关技术中语音关键词检测在噪音环境下的性能较差的问题。
2、第一方面,本申请实施例提供一种语音关键词检测方法,包括:确定待检测的目标语音的声学特征序列所对应的音素评分路径和背景音路径;所述音素评分路径包含顺序的多个关键词音素和相应的关键词激活评分,所述关键词激活评分用于指示关键词音素针对目标关键词中相应关键词片段的激活评分;识别所述背景音路径中的各个背景音中的至少一个噪音背景音,并识别各个所述噪音背景音所分别对应的噪音类型;根据所述音素评分路径构建初始的第一线性语法有限状态转换器,并利用各个所提取的噪音类型为所述第一线性语法有限状态转换器配置相应的通配符弧,以得到基于噪音感知的第二线性语法有限状态转换器;对所述第二线性语法有限状态转换器、词汇表和所述音素评分路径进行复合操作,以创建复合加权有限状态转换器;所述词汇表包含各个关键词片段的正常音素与相应的标记之间的映射关系;对所述复合加权有限状态转换器进行解码,以预测所述目标语音中是否存在所述目标关键词。
3、第二方面,本申请实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任一实施例的语音关键词检测方法的步骤。
4、第三方面,本申请实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本申请任一实施例的语音关键词检测方法的步骤。
5、第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任一实施例的语音关键词检测方法的步骤。
6、本申请实施例的有益效果在于:
7、通过区分不同类型的噪音背景,并引入噪音类型作为通配符弧配置在语法有限状态转换器中,通过复合操作构建搜索空间,并在复合加权有限状态转换器的搜索空间进行解码,使得能够在保留音素信息的同时,有效整合噪声信息,使得关键词检测系统可以感知不同的噪声环境,从而动态的调整系统对噪声的敏感程度,实现在高噪声、低信噪比的环境中,依然可以保持较高的关键词检测准确率,并能减少过拟合现象的发生率。
1.一种语音关键词检测方法,包括:
2.根据权利要求1所述的方法,其中,所述对所述复合加权有限状态转换器进行解码,以预测所述目标语音中是否存在所述目标关键词,包括:
3.根据权利要求1所述的方法,其中,所述根据所述音素评分路径构建初始的第一线性语法有限状态转换器,并利用各个所提取的噪音类型为所述第一线性语法有限状态转换器配置相应的通配符弧,以得到基于噪音感知的第二线性语法有限状态转换器,包括:
4.根据权利要求2所述的方法,其中,所述通过维特比解码算法对所述更新图结构进行解码,以预测所述目标语音中是否存在所述目标关键词,包括:
5.根据权利要求4所述的方法,其中,所述通过维特比解码算法,计算所述更新图结构中的各个解码路径的总得分,包括:
6.根据权利要求5所述的方法,其中,所述通过维特比解码算法计算解码路径的总得分,包括:
7.根据权利要求6所述方法,其中,所述通配符弧的类型包含自环弧和旁路弧;所述自环弧用于指示噪声插入错误的噪音类型,以及所述旁路弧用于指示过量噪声造成的掩蔽或干扰的噪音类型。
8.根据权利要求1-7中任一项所述的方法,其中,所述确定待检测的目标语音的声学特征序列所对应的音素评分路径和背景音路径,包括:
9.一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。
10.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述方法的步骤。