本技术涉及信号处理,具体涉及一种语音信号处理方法、装置、电子设备。本技术同时还涉及一种音频设备以及一种语音唤醒系统。
背景技术:
1、随着语音信号处理技术的发展,语音唤醒功能逐渐成为一种重要的语音交互方式。提供语音唤醒功能的智能音频设备(如智能音箱、智能手机、智能电视等)同时有扬声器和麦克风,以采集声音信号和播放声音信号。智能音频设备往往集成其他音频播放功能,因而扬声器播放音频的同时进行语音唤醒是实际中常见的应用场景。麦克风会拾取扬声器播放的扬声器信号以及其他音频信号如用户发出的语音唤醒信号,被麦克风拾取的扬声器信号,称为回声。回声消除效果是影响语音唤醒信号识别率的重要因素。
2、现有技术中,智能音频设备一般采用声学回声消除器(aec)进行音频信号如语音唤醒信号的语音识别,声学回声消除器(aec)的参考信号采用扬声器之前的信号,如功率放大之后的信号或者数模转换之前的信号,但该参考信号和实际经过扬声器通路及音腔腔体结构影响带来的非线性失真影响后的信号有较大差异,因此存在回声消除效果不好而使得语音唤醒信号的语音识别率低的问题。尤其是大音量播放时,由于麦克风拾取到的扬声器信号远大于语音唤醒信号,信噪比很低,从而进一步降低了语音识别率,导致设备很难被唤醒或错误唤醒。
3、因此,如何解决语音识别率较低及唤醒率较低是需要解决的问题。
4、在所述背景技术部分公开的上述信息仅用于加强对本技术的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、本技术实施例提供的语音信号处理方法,解决了语音识别率以及语音唤醒率较低的问题,提高人机交互效率。
2、本技术实施例提供一种语音信号处理方法,所述方法应用于音频设备,所述音频设备包括扬声器和麦克风,包括:获取待播放的第一音源信号,对所述第一音源信号进行频分压缩处理,使得部分频带的信号强度被压缩以得到第二音源信号;根据所述第二音源信号得到用于进行回声消除的参考信号,以及,将所述第二音源信号继续传输并通过所述扬声器播放;获取待识别的语音采集信号,所述语音采集信号为所述麦克风在所述扬声器播放所述第二音源信号期间所采集到的音频信号,其中包括目标待识别音频信号;基于所述参考信号对所述语音采集信号进行回声消除,基于回声消除后的语音信号进行语音识别,得到与所述目标待识别音频信号对应的语音识别结果。
3、可选的,所述基于回声消除后的语音信号进行语音识别,包括:在用于进行语音识别的语音识别算法中,增大所述回声消除后的语音信号中对应于所述部分频带的语音信号的识别权重。
4、可选的,所述获取待播放的第一音源信号,对所述第一音源信号进行频分压缩处理,使得部分频带的信号强度被压缩以得到第二音源信号,包括:将所述第一音源信号的总带宽划分为一系列不重叠的频带,从中选取部分频带进行信号强度压缩;其中,所述从中选取部分频带进行信号强度压缩,包括:均匀选取或者不均匀选取进行压缩的频带。
5、可选的,所述将所述第一音源信号的总带宽划分为一系列不重叠的频带,从中选取部分频带进行信号强度压缩,包括:将所述第一音源信号进行傅里叶变换,得到对应的第一频率信号;将所述第一频率信号划分为多个不重叠的频带,并将每一频带标识为一个表示该频带信息的索引,每一索引为所述第一频率信号的一个频点;从所述第一频率信号的频点中确定压缩频点,并将所述压缩频点所标识的频带信号进行压缩处理,将部分信号压缩处理后的第一频率信号作为第二频率信号;将所述第二频率信号进行反傅里叶变换,将反傅里叶变换得到的时域信号作为所述第二音源信号;所述根据所述第二音源信号得到用于进行回声消除的参考信号,包括:根据所述第二音源信号获得所述用于进行回声消除的参考信号。
6、可选的,所述将所述第一频率信号划分为多个不重叠的频带,包括:根据语音信号采样频率以及傅里叶变换的点数确定用于划分频带的频点带宽,按照所述频点带宽将所述第一频率信号划分为多个不重叠的频带;所述频点带宽为频带的频率范围;所述从所述第一频率信号的频点中确定压缩频点,包括:从所述频点中均匀选取或不均匀选取部分频点,作为所述压缩频点。
7、可选的,还包括:根据压缩频点处的语音信号强度动态设置该压缩频点处的压缩比,或者,按照与语音信号强度的线性关系设置压缩比;其中,所述压缩比表示对所述压缩频点所标识的频带的信号压缩幅度;和/或,将部分压缩频点进行置空处理。
8、可选的,还包括:控制所述压缩频点在频点总数量中的占比,以降低压缩处理对所述第一音源信号的播放音质的影响。
9、可选的,所述基于所述参考信号对所述语音采集信号进行回声消除,基于回声消除后的语音信号进行语音识别,包括:所述语音采集信号包括所述扬声器信号以及所述目标待识别音频信号;其中,所述目标待识别音频信号为语音唤醒信号;所述扬声器信号,为在所述压缩频点上被压缩的第二音源信号通过所述扬声器播放产生;将所述语音采集信号进行模数转换后得到数字麦克风信号;将所述参考信号作为所述扬声器信号对应的回声数字估计信号,从所述数字麦克风信号中剔除所述参考信号,得到在所述压缩频点上较干净的信号,作为回声消除后的语音信号;在用于进行语音识别的语音唤醒算法中,增大所述压缩频点对应的语音信号的识别权重,以识别出与所述语音唤醒信号对应的语音唤醒词。
10、可选的,所述根据所述第二音源信号获得参考信号,包括:将所述第二音源信号进行数模转换以及功率放大之后,且在进入扬声器之前的信号作为第一参考信号,将所述第一参考信号进行模数转换所得到的数字参考信号作为所述用于进行回声消除的参考信号;或者,将所述第二音源信号进行数模转换之前的信号作为第二参考信号,将所述第二参考信号作为所述用于进行回声消除的参考信号。
11、本技术实施例还提供一种语音信号处理装置,应用于音频设备,所述音频设备包括:扬声器、麦克风,包括:频分压缩单元,用于获取待播放的第一音源信号,对所述第一音源信号进行频分压缩处理,使得部分频带的信号强度被压缩以得到第二音源信号;参考信号获取单元,用于根据所述第二音源信号得到用于进行回声消除的参考信号,以及,将所述第二音源信号继续传输并通过所述扬声器播放;拾音单元,用于获取待识别的语音采集信号,所述语音采集信号为所述麦克风在所述扬声器播放所述第二音源信号期间所采集到的音频信号,其中包括目标待识别音频信号;识别单元,用于基于所述参考信号对所述语音采集信号进行回声消除,基于回声消除后的语音信号进行语音识别,得到与所述目标待识别音频信号对应的语音识别结果。
12、本技术实施例还提供一种音频设备,包括:扬声器、麦克风以及如所述的语音信号处理装置。
13、本技术实施例还提供一种语音唤醒系统,包括:扬声器、多个麦克风、频分压缩模块、参考信号获取模块、数模转换器、功率放大器、模数转换器、声学回声消除器、唤醒处理模块;所述频分压缩模块,用于获取待播放的第一音源信号,对所述第一音源信号进行频分压缩处理,使得部分频带的信号强度被压缩以得到第二音源信号;所述第二音源信号通过所述数模转换器后进入所述功率放大器,再由所述功率放大器输出给扬声器进行播放;所述参考信号获取模块,用于根据所述第二音源信号得到用于进行回声消除的参考信号;所述参考信号传输至所述声学回声消除器;所述多个麦克风,用于获取待识别的语音采集信号,所述语音采集信号为所述麦克风在所述扬声器播放所述第二音源信号期间所采集到的音频信号,其中包括语音唤醒信号;所述语音采集信号通过所述模数转换器转换为数字麦克风信号;所述回声消除器,用于根据所述参考信号对所述数字麦克风信号进行回声消除,得到回声消除后的语音信号,所述语音信号为较干净的语音唤醒信号;所述唤醒处理模块,用于基于回声消除后的语音信号进行语音识别,得到与所述语音唤醒信号对应的语音识别结果,所述语音识别结果包括用于触发语音唤醒功能的唤醒词。
14、本技术实施例还提供一种电子设备,包括:存储器,以及处理器;所述存储器用于存储计算机程序,所述计算机程序被所述处理器运行后,执行本技术实施例提供的所述方法。
15、与现有技术相比,本技术具有的优点如下:
16、本技术实施例提供的一种语音信号处理方法、装置、电子设备及存储介质,所述方法应用于音频设备,所述音频设备包括扬声器和麦克风,通过获取待播放的第一音源信号,对所述第一音源信号进行频分压缩处理,使得部分频带的信号强度被压缩以得到第二音源信号;根据所述第二音源信号得到用于进行回声消除的参考信号,以及,将所述第二音源信号继续传输并通过所述扬声器播放;获取待识别的语音采集信号,所述语音采集信号为所述麦克风在所述扬声器播放所述第二音源信号期间所采集到的音频信号,其中包括目标待识别音频信号;基于所述参考信号对所述语音采集信号进行回声消除,基于回声消除后的语音信号进行语音识别,得到与所述目标待识别音频信号对应的语音识别结果。通过对音频语音信号进行频分及部分信号压缩处理,基于频分及压缩处理后的信号进行回声消除,被压缩部分的信号输出功率降低,而语音采集信号中频率位于该被压缩部分所属频带范围内的音频信号如语音唤醒信号不变,因此语音识别时对应的句错率(sentence errorrate,ser)能够被降低,从而提高语音识别率及语音唤醒率。进一步,通过控制被压缩的信号占总信号(带宽)的比例,从而能够控制扬声器播放的音质以及回声消除效果的平衡,以保证播放效果的同时得到较干净的音频信号,提升语音识别率及唤醒效率,尤其适用于解决扬声器大音量播放下的语音唤醒率/语音识别率低的问题。
17、较佳方式中,进行语音信号频分及压缩的处理中,在对扬声器播放音质不造成影响的情况下选取一定数量的频点作为压缩频点,对部分压缩频点的信号强度进行压缩,而在回声消除时,由于这些压缩频点的输出功率受到压缩,而采集到的语音采集信号中这些压缩频点处的语音唤醒信号不变,因此这些压缩频点上的信噪比能够被提升,所述信噪比中的噪声为麦克风拾取到的扬声器播放的音频信号。进一步,控制压缩频点在总频点中的占比以确保信号强度压缩对扬声器播放音质的影响程度被控制在一定范围内,同时增大压缩频点处的识别权重,则这些压缩频点上的语音唤醒信号进行语音识别时句错率ser能够被降低,并且可平衡音质和识别率。通过控制压缩频点的压缩比,可大幅降低压缩频点处的句错率ser,从而提升语音信号的识别率,提升语音唤醒效率以及人机交互效率,尤其是大功率音频设备下提升效果更加明显。