本发明涉及声信号处理,尤其涉及一种基于对数处理机制的声信号分离方法、系统、设备及介质。
背景技术:
1、在声探测设备的应用场景中,环境噪声和背景干扰是不可避免的问题,因此导致声探测设备接收到的声源信号中混杂有大量的噪声信号,影响探测设备的正常工作及其探测效果。为了提升声探测设备对目标声信号的探测能力,需采取信号增强技术对含噪信号进行预处理,其核心目的在于有效抑制背景噪声的同时,尽可能减少目标信号的失真。
2、相关技术中,较有效的信号增强方法主要是基于时频(t-f,time-frequency)掩模原理的方法,即通过作用于带噪信号的每个频带,选择性地保留由目标信号主导的t-f分量,并屏蔽掉由噪声主导的分量,从而实现对目标信号的有效提取。
3、对于t-f掩模,包括根据目标和噪声的统计特征来估计t-f掩模的方法,将目标和噪声的统计分布在频域中假设为特定的统计模型,并结合不同的优化准则获得从含噪声的信号中恢复目标信号的t-f掩码。除了这种基于频域模型的声信号分离方法,还有对数谱域模型的方法,如:基于隐马尔可夫模型(hmm)的方法,使用hmm对目标信号和噪声的样本数据进行训练完成对它们的对数谱的分布进行建模,并借助于交叉积推导出t-f掩码来估计目标信号信息。基于高斯混合模型的方法,通过使用不同数量的混合高斯分量对目标信号和噪声进行预训练,并构建对数概率密度分布来恢复目标声音信号。
4、由于对声音信号不同频率的感知并不是线性的,呈现出对数分布的特点,使得相对于频域模型,对数谱域模型更适合对声音信号进行处理。然而,由于对数谱域的非线性特性,从数学角度准确推导声音信号的估计是一个难题。因此,大多数信号分离方法仍然选择在频域中直接处理声源信号,显然基于频域模型的方法会存在一些信号分离能力的局限性。
5、相关技术为了克服对数非线性导致的难以准确推导目标声信号表达式的问题,通过自回归模型和隐马尔可夫等模型对声数据进行训练,直接获取目标信号和噪声的对数分布。但噪声信号千差万别,且种类居多,对其的训练样本有限,使得基于噪声训练的手段具有噪声泛化性不足的问题。
技术实现思路
1、本发明提供一种基于对数处理机制的声信号分离方法、系统、设备及介质,解决了基于对数谱域的信号分离方法中,依赖噪声训练而导致的泛化性不足的问题。
2、为达到上述目的,本技术采用如下技术方案:
3、第一方面,提供一种基于对数处理机制的声信号分离方法,包括:
4、接收混合带噪信号,进行预处理并提取参数;所述参数包括目标信号、噪声和带噪信号的幅度谱以及短促信号功率估计;
5、基于提取的所述参数,构建对数概率密度分布模型,并通过模型获得所述目标信号、噪声和带噪信号的对数概率密度分布;
6、基于所述目标信号、噪声和带噪信号的对数概率密度分布,利用mmse估计理论生成t-f掩模;
7、根据所述t-f掩模,对所述带噪信号进行处理,获得所述目标信号的频谱幅度估计。
8、在第一方面的第一种可能的实现方式中,所述接收混合带噪信号,进行预处理并提取参数,包括:
9、对所述混合带噪信号进行短时傅里叶变换,获得所述目标信号、噪声和带噪信号的幅度谱;
10、根据所述带噪信号的幅度谱获得所述带噪信号的功率谱,基于所述带噪信号功率谱,计算所述短促信号功率估计。
11、在第一方面的第二种可能的实现方式中,所述基于提取的所述参数,构建对数概率密度分布模型,并通过模型获得所述目标信号、噪声和带噪信号的对数概率密度分布,包括:
12、对所述混合带噪信号进行傅里叶变换和对数处理,获得所述目标信号、噪声和带噪信号的对数幅度谱的表示;
13、分别用拉普拉斯分布和瑞利分布来近似所述目标信号和噪声的幅度谱的概率密度分布;
14、将所述目标信号和噪声的幅度谱的概率密度分布转换为对应的对数概率密度分布;
15、基于所述目标信号、噪声和带噪信号在对数域存在的混合最大模型关系,获得所述带噪信号的对数概率密度分布。
16、基于第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述将所述目标信号和噪声的幅度谱的概率密度分布转换为对应的对数概率密度分布,包括:
17、分别计算目标信号和噪声幅度谱系数的对数累积分布函数;
18、分别求导对应的所述对数累积分布函数得到所述目标信号和噪声的对数概率密度分布。
19、基于第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,目标信号、噪声和带噪信号的对数幅度谱的表示为:
20、slog=[slog,1,...,slog,k,...,slog,k]t
21、nlog=[nlog,1,...,nlog,k,...,nlog,k]t
22、ylog=[ylog,1,...,ylog,k,...,ylog,k]t,
23、其中,slog表示目标信号的幅度对数谱向量,nlog表示噪声信号的幅度对数谱向量,ylog表示带噪信号的幅度对数谱向量,k表示向量元素的总个数,k表示向量中的第k个元素;
24、分别用拉普拉斯分布和瑞利分布来近似所述目标信号和噪声的幅度谱的概率密度分布,包括:
25、
26、
27、其中,向量ss和nn为目标信号和噪声的幅度谱向量,并可表示为ss=[ss1...,ssk...,ssk]t和nn=[nn1...,nnk...,nnk]t,λs和λn表示目标信号和噪声的短促信号功率估计;
28、目标信号和噪声的对数概率密度分布为:
29、
30、
31、带噪信号的对数概率密度分布为:
32、
33、基于第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,t-f掩模为:
34、
35、目标信号的频谱幅度估计为:
36、
37、第二方面,提供一种基于对数处理机制的声信号分离系统,包括:
38、预处理模块,用于接收混合带噪信号,进行预处理并提取参数;所述参数包括目标信号、噪声和带噪信号的幅度谱以及短促信号功率估计;
39、对数概率密度分布模型模块,用于基于提取的所述参数,构建对数概率密度分布模型,并通过模型获得所述目标信号、噪声和带噪信号的对数概率密度分布;
40、t-f掩模模块,用于基于所述目标信号、噪声和带噪信号的对数概率密度分布,利用mmse估计理论生成t-f掩模;
41、信号分离模块,用于根据所述t-f掩模,对所述带噪信号进行处理,获得所述目标信号的频谱幅度估计。
42、在第二方面的第一种可能的实现方式中,所述对数概率密度分布模型模块,具体用于:
43、对所述混合带噪信号进行傅里叶变换和对数处理,获得所述目标信号、噪声和带噪信号的对数幅度谱的表示;
44、分别用拉普拉斯分布和瑞利分布来近似所述目标信号和噪声的幅度谱的概率密度分布;
45、将所述目标信号和噪声的幅度谱的概率密度分布转换为对应的对数概率密度分布;
46、基于所述目标信号、噪声和带噪信号在对数域存在的混合最大模型关系,获得所述带噪信号的对数概率密度分布。
47、第三方面,提供一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述基于对数处理机制的声信号分离方法的步骤。
48、第四方面,提供一种可读存储介质,所述可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现如第一方面所述基于对数处理机制的声信号分离方法的步骤。
49、本技术采取一种基于无监督策略去获得噪声和目标信号对数函数的方式,该方式将目标信号和噪声信号在频域下的分布,通过一种变换函数将其转换到对数域下,然后借助于目标信号、噪声和带噪信号之间的对数关系,利用最小均方误差估计理论实现对目标信号的分离。相对于基于数据训练的信号分离方法,这种无监督的方式使得该方法不易受噪声种类的影响,对噪声具有较好的泛化能力,在具体使用中对不同环境的适应性更好。
50、同时,由于本技术不依赖于数据的训练,使其没有较大的模型参数,从而在实现时降低了计算复杂度,从而可以在具有较低运算能力的硬件平台中运行。
51、综上所述,本技术所提出的声信号分离方法可以从含噪信号中估计出目标声信号。由于本技术采用的是非监督的方式获取声音信号的对数谱分布,因此其对噪声种类不敏感,泛化性较好,且计算复杂度较低,可以在众多低算力的硬件平台中实现噪声的抑制效果。