本申请实施例涉及语音信号处理,特别涉及一种语音活动检测方法、装置、电子设备及存储介质。
背景技术:
1、语音活动检测(voice activity detection,vad)是许多音频应用中的基础模块,用于检测音频中是否存在语音,可以定位语音中的开始和结束位置,有利于后续的关键词检测、语音识别、语音增强等模块。实际应用中可以让后续模块只在检测到语音活动的时候进行后续处理,可以有效降低功耗。
2、然而,现有的语音活动检测方法仍然存在一些错检、漏检等问题,导致语音活动检测的准确性不高。
技术实现思路
1、本申请实施例提供了一种语音活动检测方法、装置、电子设备及存储介质,至少有利于提高语音活动检测的准确性。
2、根据本申请一些实施例,本申请实施例一方面提供了一种语音活动检测方法,包括:获取麦克风信号和骨声纹信号,其中,所述麦克风信号和所述骨声纹信号为针对同一场景同时通过麦克风和骨声纹传感器采集到的信号;对所述麦克风信号和所述骨声纹信号分别进行特征提取;对提取得到的麦克风特征和骨声纹特征进行拼接,得到输入特征;利用预先训练好的模型处理所述输入特征,得到语音活动的检测结果,其中,所述模型为通过对同一场景同时通过麦克风和骨声纹传感器采集到的信号进行特征提取和特征拼接得到的训练数据训练得到。
3、在一些实施例中,所述对提取得到的麦克风特征和骨声纹特征进行拼接,得到输入特征,包括:对所述麦克风特征进行维度压缩后取对数,得到n维麦克风特征;在所述骨声纹特征的低频段上进行截取后,取对数并进行平移,得到n维骨声纹特征;对所述n维麦克风特征和所述n维骨声纹特征进行拼接,得到所述输入特征。
4、在一些实施例中,所述利用预先训练好的模型处理所述输入特征,得到语音活动的检测结果之前,所述方法还包括:获取训练麦克风信号和训练骨声纹信号,其中,所述训练麦克风信号和所述训练骨声纹信号为针对同一场景同时通过麦克风和骨声纹传感器采集到的信号;对所述训练麦克风信号和所述训练骨声纹信号分别进行特征提取;对提取得到的训练麦克风特征和训练骨声纹特征进行拼接,得到训练特征数据;确定所述训练特征数据的标签,其中,所述标签用于指示对应的所述训练特征数据是否存在语音活动;根据所述训练特征数据和对应的所述标签进行模型训练,得到预先训练好的所述模型。
5、在一些实施例中,所述训练麦克风信号和所述训练骨声纹信号的采集场景具有安静的环境;所述确定所述训练特征数据的标签,包括:将所述麦克风信号的语音活动检测结果确定为对应的所述训练特征数据的所述标签。
6、在一些实施例中,所述训练麦克风信号和所述训练骨声纹信号中语音活动时长与无语音活动时长之差不超过预设值。
7、在一些实施例中,所述利用预先训练好的模型处理所述输入特征,得到语音活动的检测结果之后,所述方法还包括:在根据连续若干帧的所述麦克风信号和所述骨声纹信号的所述语音活动的检测结果,确定语音结束点后,保持对后续预设数量帧的所述麦克风信号和所述骨声纹信号的语音活动检测;和/或,根据连续若干帧的所述麦克风信号和所述骨声纹信号的所述语音活动的检测结果进行滑动平均,以更新所述语音活动的检测结果。
8、在一些实施例中,所述模型从输入端到输出端之间包括依次连接的两个一维卷积层、两个门控循环单元、两个密集层、一个激活函数层。
9、根据本申请一些实施例,本申请实施例第二方面还提供了一种语音活动检测装置,包括:输入模块,用于获取麦克风信号和骨声纹信号,其中,所述麦克风信号和所述骨声纹信号为针对同一场景同时通过麦克风和骨声纹传感器采集到的信号;特征提取模块,用于对所述麦克风信号和所述骨声纹信号分别进行特征提取;拼接模块,用于对提取得到的麦克风特征和骨声纹特征进行拼接,得到输入特征;检测模块,用于利用预先训练好的模型处理所述输入特征,得到语音活动的检测结果,其中,所述模型为通过对同一场景同时通过麦克风和骨声纹传感器采集到的信号进行特征提取和特征拼接得到的训练数据训练得到。
10、根据本申请一些实施例,本申请实施例第三方面还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面中任一项所述的语音活动检测方法。
11、根据本申请一些实施例,本申请实施例第四方面还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面中任一项所述的语音活动检测方法。
12、本申请实施例提供的技术方案,至少具有以下优点:
13、在针对同一场景同时通过麦克风和骨声纹传感器采集到麦克风信号和骨声纹信号后,对其分别进行特征提取,并对提取得到的麦克风特征和骨声纹特征进行拼接,得到输入特征,因此,输入特征中麦克风特征和骨声纹信号特征能够互相为彼此提供参考、补偿,使得输入特征能够更加全面完整、准确可靠地反映对应场景中的语音特征,从而利用预先训练好的模型处理输入特征所得到的语音活动的检测结果将会更加准确可靠,能够减少错检、漏检等情况的发生。
1.一种语音活动检测方法,其特征在于,包括:
2.根据权利要求1所述的语音活动检测方法,其特征在于,所述对提取得到的麦克风特征和骨声纹特征进行拼接,得到输入特征,包括:
3.根据权利要求1或2所述的语音活动检测方法,其特征在于,所述利用预先训练好的模型处理所述输入特征,得到语音活动的检测结果之前,所述方法还包括:
4.根据权利要求3所述的语音活动检测方法,其特征在于,所述训练麦克风信号和所述训练骨声纹信号的采集场景具有安静的环境;
5.根据权利要求3所述的语音活动检测方法,其特征在于,所述训练麦克风信号和所述训练骨声纹信号中语音活动时长与无语音活动时长之差不超过预设值。
6.根据权利要求1或2所述的语音活动检测方法,其特征在于,所述利用预先训练好的模型处理所述输入特征,得到语音活动的检测结果之后,所述方法还包括:
7.根据权利要求1或2所述的语音活动检测方法,其特征在于,所述模型从输入端到输出端之间包括依次连接的两个一维卷积层、两个门控循环单元、两个密集层、一个激活函数层。
8.一种语音活动检测装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音活动检测方法。