本说明书涉及计算机,尤其涉及一种语音质量检测方法、装置、存储介质及设备。
背景技术:
1、近年来,随着增强现实(ar)与虚拟现实(vr)等技术的快速发展,可穿戴设备日益普及,其中,头戴式设备,如智能眼镜因其便携性与沉浸式体验优势备受关注。语音交互凭借其自然性和低功耗特性,成为智能眼镜主流的交互方案。语音交互过程中可先对语音质量进行评估,以便在语音质量较低时,及时停止语音交互过程,避免由于语音质量低导致交互失败,用户体验不佳的情况出现。
2、在现有技术中,一般先对采集的音频数据进行语音活动检测(voice activitydetection,vad),分割出语音段与非语音段。之后,通过计算语音段与非语音段,计算语音段相对非语音段的信噪比,再结合语音段的声压值和时长,确定语音质量。
3、但是,在头戴式设备的语音交互场景中,直接应用vad算法难以适配复杂且动态的声学环境,导致容易出现过检和漏检。为保障语音的完整性,vad算法中的拓展时长策略,容易将头戴式设备采集的非语义人声,如呼吸声、咳嗽声、语气词,错误地纳入语音段。而为了提高语音段的纯净度,vad算法对低能量音频过滤门槛较高,导致将头戴式设备采集的弱辅音或尾音被错误地归类到非语音段中。
4、基于此,本说明书提供一种语音质量检测方法,以部分解决现有技术中尤其是头戴式设备中存在的问题。
技术实现思路
1、本说明书实施例提供一种语音质量检测方法、装置、存储介质及电子设备,以部分解决上述现有技术存在的问题。
2、本说明书实施例采用下述技术方案:
3、本说明书提供的一种语音质量检测方法,所述方法应用于头戴式可设备,所述方法包括:
4、获取待检测的音频数据;
5、通过预设的语音活动检测算法,确定各帧的语音分类结果,以将所述音频数据划分语音段以及非语音段;
6、根据所述各帧的语音分类结果,确定所述非语音段中分类结果为语音数据的各帧音频,作为干扰帧;
7、将所述非语音段中的干扰帧删除后,与所述语音段计算信噪比,至少基于所述信噪比,确定所述音频数据的语音质量检测结果。
8、本说明书提供的一种语音质量检测的装置,应用于头戴式设备,所述装置包括:
9、获取模块,用于获取待检测的音频数据;
10、分类模块,用于通过预设的语音活动检测算法,确定各帧的语音分类结果,以将所述音频数据划分语音段以及非语音段;
11、干扰屏蔽模块,用于根据所述各帧的语音分类结果,确定所述非语音段中分类结果为语音数据的各帧音频,作为干扰帧;
12、质量检测模块,用于将所述非语音段中的干扰帧删除后,与所述语音段计算信噪比,至少基于所述信噪比,确定所述音频数据的语音质量检测结果。
13、本说明书提供的一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音质量检测方法。
14、本说明书提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述语音质量检测方法。
15、本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
16、本说明书实施例公开了一种语音质量检测方法,该方法通过预设的语音活动检测算法,确定各帧的语音分类结果,以将所述音频数据划分语音段以及非语音段,并将非语音段中分类结果为语音数据的各帧音频,作为干扰帧进行剔除,之后所述语音段计算信噪比以确定质量检测结果。从非语音段中精细剔除被误判为语音的干扰帧,获得更纯净的噪声估计。基于此计算的信噪比,能更真实地反映语音信号质量,有效解决了因vad误检导致噪声功率高估、信噪比低估的问题,从而提升了语音质量检测的准确性与可靠性。
1.一种语音质量检测方法,所述方法应用于头戴式设备,所述方法包括:
2.如权利要求1所述的方法,将所述音频数据划分语音段以及非语音段,具体包括:
3.如权利要求2所述的方法,根据所述各帧的语音分类结果,确定所述非语音段中分类结果为语音数据的各帧音频,作为干扰帧,具体包括:
4.如权利要求3所述的方法,将记录中的待选语音段中的各帧,作为所述非语音段中的干扰帧,具体包括:
5.如权利要求2所述的方法,将所述非语音段中的干扰帧删除后,与所述语音段计算信噪比,具体包括:
6.如权利要求1所述的方法,将所述非语音段中的干扰帧删除后,与所述语音段计算信噪比之前,所述方法还包括:
7.如权利要求2所述的方法,至少基于所述信噪比,确定所述音频数据的语音质量检测结果,包括:
8.一种语音质量检测的装置,应用于头戴式设备,包括:
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-7任一项所述的方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1-7任一项所述的方法。