本发明涉及声学信号处理分析,具体涉及一类单通道频域非因果语音降噪方法、系统、设备及介质。
背景技术:
1、语音降噪在智能语音、人机交互、远程会议、助听设备、车载、虚拟现实、临境通讯和军用超高背景噪声下的语音通信等系统中都起着举足轻重的作用,其性能的好坏直接影响着语音交互的体验。
2、根据是否利用空间信息,面向语音通信的语音降噪算法可以分为单通道语音降噪和多通道语音降噪两大类。尽管多通道降噪语音降噪利用了空间信息,可取得更好的语音降噪性能,但大多数多通道语音降噪方法在理论上等价于波束形成加单通道语音降噪方法的结合,且在实际中,由于成本、结构、硬件空间的限制,很多设备只能装备一个麦克风,另外,单通道语音降噪算法实现起来比较简单、复杂度较低,所以对单通道语音降噪算法仍具有重要意义。
3、目前,绝大多数频域单通道语音降噪方法为滤波增益(即每个频点的滤波器长度为1)的方法。这是由于为使得求解问题简单而通常假设相邻语音帧的统计特性不相关。但由于:1)语音信号的相邻帧本身具有一定的自相关性;2)在处理语音信号时,通常设置语音帧有一定的重叠率(通常为50%或75%),所以语音信号相邻帧的相关性通常较强。因此,可通过设计长度大于1的滤波器来利用相邻帧的相关性以改善语音降噪性能。cn114495964a公开了一种基于皮尔逊相关系数的频域滤波语音降噪方法,其主要思路为:对带噪语音信号进行短时傅里叶变换stft处理,得到频域带噪语音信号;利用该频域带噪语音信号进行带噪语音信号的自相关矩阵估计、加性噪声信号的自相关矩阵估计和期望信号的自相关矩阵估计,将结果代入最优降噪滤波器的公式,得到最优降噪滤波器,所述最优降噪滤波器是基于皮尔逊相关系数的幅度平方最大和基于失真的均方误差最小求解所得;用最优降噪滤波器对频域带噪语音信号进行滤波处理,输出频域语音降噪信号;对频域降噪语音信号进行反短时傅里叶变换,输出时域语音降噪信号。但在现有的滤波器长度大于1的语音降噪方法中,只能利用过去语音帧和当前语音帧的相关性来实现语音降噪。无法有效利用未来语音帧的信息,导致语音降噪性能无法进一步提升。
技术实现思路
1、为了克服上述现有技术存在的缺陷,本发明的目的在于提供一类单通道频域非因果语音降噪方法、系统、设备及介质,基于系统可允许一定延时的假设,推导可同时利用过去帧和未来帧信息的非因果降噪滤波器,更好地改善带噪信号(输入信号)的信噪比及语音失真,提升其语音质量且方法更简单。
2、为了达到上述目的,本发明采用的技术方案为:
3、一类单通道频域非因果语音降噪方法,具体包括以下步骤:
4、步骤1、采集带噪语音信号;
5、步骤2、对带噪语音信号进行分帧、加窗、傅里叶变换等预处理,并引入帧间相关性及非因果机制;
6、步骤3、估计带噪信号及噪声信号的统计特性;
7、步骤4、估计语音降噪滤波器;
8、步骤5、对频域带噪信号滤波,得到干净语音信号的估计值;
9、步骤6、将经过滤波处理的频域语音信号转换到时域。
10、所述步骤2的具体方法为:
11、已知时域带噪语音信号模型表示为:y(t)=x(t)+v(t);
12、其中,t表示离散时间点,x(t)和v(t)分别表示干净语音信号(即期望信号)和加性噪声,y(t)表示带噪信号;
13、假设x(t)和v(t)彼此互不相关,同时假设所有信号都是零均值、宽带实信号;经过分帧、加窗及傅里叶变换后,信号模型写为:
14、y(k,n)=x(k,n)+v(k,n)
15、其中,y(k,n),x(k,n),v(k,n)分别表示y(t)、x(t)和v(t)在第n帧第k个频点的傅立叶变换系数,为简洁起见,后面的描述中将去掉k和n;
16、为引入帧间相关性,将n个连续的时间帧组合在一起,定义为:
17、y=[y(1) y(2) ... y(n)]t=x+v
18、其中,向量y是长度为n的带噪信号向量,向量x的定义为x=[x(1) x(2) ... x(n)]t,向量v的定义为v=[v(1) v(2) ... v(n)]t,分别表示语音信号向量和噪声信号向量;向量y中的元素y(τ)表示y(k,n-τ+1),其中1≤τ≤n,上标(·)t表示转置;
19、为引入非因果机制,设x(q)为期望信号(1≤q≤n,x(q)表示x(k,n-q+1)),即通过带噪信号向量y估计信号x(q),从而引入非因果机制。
20、所述步骤3的具体方法为:
21、通过现有的噪声估计算法估计噪声信号向量v的自相关矩阵φv,通过递归方法估计带噪语音信号向量y的自相关矩阵φy:
22、φy(k,n)=αyφy(k,n-1)+(1-αy)y(k,n)yh(k,n)
23、其中αy为遗忘因子(0<αy<1),上标(·)h表示共轭转置;因语音信号和噪声信号相互独立,通过φx=φy-φv估计语音信号向量x的自相关矩阵φx;矩阵φx中第q行第q列的元素即为期望信号x(q)的方差φx(q),应用φx(q)对矩阵φx的第q列进行归一化,则可得到向量
24、
25、基于φx(q)和通过计算最后,通过式估计干扰信号加噪声信号的自相关矩阵φin。
26、所述步骤4的具体方法为:
27、基于步骤3中估计得到的信号统计特性,通过估计非因果维纳滤波器,通过估计非因果最小方差无失真响应滤波器,通过估计非因果折中滤波器。
28、所述步骤5的具体方法为:
29、基于步骤4所估计得到的滤波器,可通过z(q)=hhy得到干净语音信号的估计值z(q)。
30、所述步骤6的具体方法为:
31、通过反傅里叶变换以及重叠相加或重叠保留法,即可将步骤5得到的干净语音信号估计值z(q)转换到时域。
32、一类单通道频域非因果语音降噪系统,包括:
33、音频数据采集模块,用于采集带噪语音信号;
34、信号预处理模块,用于对带噪语音信号进行分帧、加窗、傅里叶变换等预处理;
35、信号统计特性估计模块,用于估计带噪信号及噪声信号的统计特性;
36、滤波器估计模块,用于估计语音降噪滤波器;
37、语音降噪模块,对频域带噪信号滤波,得到干净语音信号的估计值;
38、后处理模块,用于将经过滤波处理的频域语音信号转换到时域。
39、一类单通道频域非因果语音降噪的设备,包括:
40、存储器,用于存储计算机程序;
41、处理器,用于执行所述计算机程序时实现如步骤1至步骤6所述的单通道频域非因果语音降噪方法。
42、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,能够对带噪语音信号进行单通道频域非因果语音降噪。
43、本发明具有如下有益效果:
44、1、本发明基于系统允许一定延时的假设,推导出同时利用过去帧和未来帧信息的单通道频域非因果降噪滤波器,能够同时利用过去帧和未来帧信息,相较于现有技术,本发明可更好地改善带噪信号(输入信号)的信噪比及语音失真,提升其语音质量。
45、2、本发明更好地利用相邻语音帧的信息,既可直接用于单麦克风系统中的语音降噪模块,也可以用于麦克风阵列做完回声消除、回声抑制、波束形成后的单通道语音降噪模块。
46、3、本发明中设计了三种可同时利用过去帧和未来帧信息的单通道非因果滤波器,可根据不同的要求及应用环境灵活地选择不同的滤波器。如非因果最小方差无失真响应滤波器可实现无失真语音降噪,非因果折中滤波器可以灵活地调整输出信噪比和语音失真之间的折中等,非因果维纳滤波器能够在最小均方误差准则下取得最优的结果。