一种采用核化听觉模型的单通道声源分离方法

文档序号:30947530发布日期:2022-07-30 05:56阅读:115来源:国知局
一种采用核化听觉模型的单通道声源分离方法

1.本发明属于信号处理领域,具体涉及一种采用核化听觉模型的单通道声源分离方法。


背景技术:

2.在实际场景中,目标语音信号通常伴随着环境噪声、背景音乐、干扰话音等因素的影响。这些干扰不仅降低了目标信号的听感质量和语音可懂度,也严重影响了后续相关语音应用(例如自动语音识别)的效果。
3.为了应对这个问题,声源分离和语音增强逐渐成为提高系统鲁棒性的重要环节。单通道声源分离主要面对背景为话音、音乐、噪声等通用音频干扰时,如何从单一混合通道信号中提取出有效目标语音信号。
4.传统上,独立成分分析(independent component analysis,ica)、非负矩阵分解(nonnegative matrix factorization,nmf)被广泛应用于声源分离。它们或者通过假定目标信号与干扰信号之间统计独立,达到分离源信号的目的(如ica);或者利用nmf事先学习到待分离源的先验字典,用于指导后续分离。对于ica,当目标信号和干扰信号的统计独立假设不强时,分离效果通常很差;对于nmf,当待分离的源之间高度相似时(例如同类音混叠),nmf学到的先验字典通常存在混叠,导致无法完成分离目标。
5.随着深度学习技术的发展,各种基于深度神经网络(deep neural network,dnn)的有监督、无监督方法被成功应用于单通道声源分离。这些方法基于编码器-解码器结构,利用dnn估计一个隐藏空间的掩蔽矩阵,实现目标信号信息的抽取;接着,利用解码器和抽取的隐藏空间特征重建出目标源信号的估计。在这些方法中,编码器通常采用固定形式(如,傅里叶变换)或者基于神经网络的端到端优化,通过全数据驱动的方式自学习得到。采用固定变换层的方式,极大影响了网络的表达能力;而基于端到端方式的优化,常需要大量训练数据,且让编码器易于过拟合到待训练的数据,影响模型泛化能力。


技术实现要素:

6.本发明的目的在于克服上述技术缺陷,提出了一种采用参数化听觉前端的声源分离方法。该方法受听觉模型启发,采用核化听觉外周模型作为分离系统的编码器和解码器。为了提升模型的训练效率,采用两步级联的训练策略:第一步,通过独立优化编码器-解码器,完成从输入混合信号到隐分离空间的变换;第二步,固定优化后的编码器-解码器,独立优化声源分离器。
7.为实现上述目的,本发明提出了一种采用核化听觉模型的单通道声源分离方法,所述方法包括:
8.将混合声源信号输入编码器,输出隐藏空间矩阵;
9.将隐藏空间矩阵输入声源分离器,输出待分离声源信号的掩蔽矩阵;
10.将隐藏空间矩阵和掩蔽矩阵进行点乘,得到待分离声源信号在隐藏空间的估计
值;
11.将估计值输入解码器,输出分离后的目标信号波形;
12.其中,所述编码器和解码器均采用核化听觉模型;所述声源分离器采用基于一维时域卷积的源分离模型,所述编码器和解码器的训练过程和所述声源分离器的训练过程是独立的。
13.作为上述方法的一种改进,所述编码器包括:模拟耳蜗被动机制的尾部滤波器和模拟耳蜗主动机制的顶部滤波器,且顶部滤波器被调整的耳蜗增益函数加权;则编码器的频率函数w(f)的表达式为:
14.w(f)=w
tail
(f)+w
lin
·wtip
(f)
15.其中,w
tail
(f)和w
tip
(f)分别是尾部滤波器和顶部滤波器的频率函数,w
lin
是顶部滤波器相对于尾部滤波的增益;该增益和基底膜的i/o增益函数相关;
16.i/o增益函数w
db
可以表示为:
[0017][0018]
a=-0.0894
·gmax
+10.89
[0019]
b=1.1789
·gmax-11.789
[0020]
其中,c表示输入信号强度,g
max
是耳蜗放大器的最大增益,以db为单位;
[0021]
顶部滤波器表示为频率f和三个参数{fc,p
l
,pu}的函数:
[0022]wtip
(f)=r
x
(f;fc,p
l
,pu)
[0023]
顶部滤波器的低频边和高频边的表达式为:
[0024][0025]
其中,fc为顶部滤波器中心频率,g=|f-fc|/fc是一个标准化的频率变量,描述了中心频率fc到掩蔽噪声边相对中心频率的距离;
[0026]
dc=[erbn(1000)]/[erbn(fc)]
·
(fc/1000),将到中心频率fc的间隔表达为相对中心频率erbn的值,dc被标准化为在fc=1000hz时等于1;p
l
和pu决定了顶部滤波器低频边和高频边的尖锐程度;erbn(f)是在频率f处的erbn值;erbn表示听觉滤波器的等价直角带宽,erbn(f)=6.23
·
f2+93.39
·
f+28.52;
[0027]
尾部滤波器表示为频率f和三个参数{fc/f
rat
,t
l
,tu}的函数:
[0028]wtail
(f)=r
x
(f;fc/f
rat
,t
l
,tu)
[0029][0030]
其中,t
l
和tu决定了尾部滤波器低频边和高频边的尖锐度;顶部滤波器的中心频率可以根据信号的强度相对尾部滤波器的中心频率进行调整,f
rat
表示这两个滤波器的中心频率之比;
[0031]
{f
rat
,p
l
,pu,g
max
}是p
rxp
的线性函数,则它们可以表示为如下形式:
[0032]
[0033]
p
l
=p
l(0)
+p
l(1)
·
p
rxp

[0034][0035][0036]
其中,p
rxp
表示探测音加掩蔽音在中心频率为探测频率处尾部滤波器的输出级;以上函数的截距和斜率分别为
[0037]
则编码器的滤波器w(f)由参数θ唯一确定,其中则编码器的滤波器w(f)由参数θ唯一确定,其中
[0038]
作为上述方法的一种改进,所述解码器的滤波器的参数和编码器的滤波器的参数相同。
[0039]
作为上述方法的一种改进,所述编码器和解码器的训练过程具体包括:
[0040]
生成混合信号其中和均为干净源信号,α和β表示混合系数;l为信号的长度参数;
[0041]
将和输入编码器,输出三个隐藏空间向量输入编码器,输出三个隐藏空间向量和d为维度参数;
[0042]
将通过softmax层,估计出对应的第一掩蔽矩阵和第二掩蔽矩阵
[0043][0044][0045][0046][0047]
计算第一估计第二估计
[0048]
将第一估计和第二估计输入解码器,重建出干净源信号的估计和
[0049]
采用尺度无关信号损失比作为代价函数
[0050][0051]
其中,t表示转置运算;||
·
||表示2-范数运算;矩阵矩阵
[0052]
利用反向传播和upit算法更新编码器和解码器的参数,直至代价函数收敛。
[0053]
作为上述方法的一种改进,所述声源分离器的训练过程具体包括:
[0054]
固定训练好的编码器和解码器,混合信号输入到训练好的编码器,输出隐藏空间
矩阵将隐藏空间矩阵输入声源分离器;
[0055]
声源分离器对输入的进行掩蔽估计,得到第三掩蔽矩阵和第四掩蔽矩阵
[0056]
将第三掩蔽矩阵和第四掩蔽矩阵分别与作对应元素点乘得到第三估计和第四估计
[0057]
采用隐藏空间中的代价函数si-sdr:
[0058][0059]
其中,t表示转置运算;是理想掩蔽分离出的源信号在隐藏空间中的表示;矩阵
[0060]
利用反向传播和upit算法更新声源分离器的参数,直至代价函数收敛。
[0061]
本发明的优势在于:
[0062]
1、本发明的方法在编码器和解码器中引入了模型偏置,从而有效减少了模型参数,极大降低了模型复杂度;
[0063]
2、针对编码器-解码器,本发明采用了分治式的独立优化过程,降低了模型的训练难度和对训练数据总量的要求。
附图说明
[0064]
图1为本发明的采用核化听觉模型的单通道声源分离方法的示意图;
[0065]
图2为proex模型结构示意图;
[0066]
图3为本发明的编码器-解码器的训练示意图;
[0067]
图4为本发明的声源分离器的训练流程示意图。
具体实施方式
[0068]
下面结合附图对本发明的技术方案进行详细说明。
[0069]
本发明的方法分为两步:
[0070]
第一步,优化编码器-解码器。编码器和解码器是两个配对层:编码器用于将输入信号进行变换,解码器将变换空间中处理后的信号重建为目标信号。由于算法关注声源分离,因而本发明中编码器将输入信号变换到一个隐藏空间,在这个空间中能够采用基于掩蔽的方法对信号进行最佳分离;解码器则将隐藏空间中分离出的信号要素重建为目标信号。
[0071]
第二步,优化声源分离器。在得到编码器-解码器后,将其固定,并独立优化声源分离器,使其产生隐藏空间中的最佳掩蔽估计。由于声源分离器相对独立,本发明选取主流的基于一维空洞卷积的声源分离器作为分离模型(图1中虚线部分)。
[0072]
如图1所示,本发明提出了一种采用核化听觉模型的单通道声源分离方法,下面将对其进行详细介绍。
[0073]
步骤1)构建并训练编码器-解码器;
[0074]
1.1基于proex核化听觉模型的编码器-解码器
[0075]
编码器主要负责将输入的声学信号进行变换,产生适用于后续声源分离的信号表示。受核化听觉模型相关研究的启发,模拟人类听觉处理的模型,通常具有较高的鲁棒性。这与听觉处理中各种响度补偿、非线性频率分辨率尺度等密不可分。另外,引入核化听觉模型作为先验偏置(bias),能够有效减少编码器的参数,极大降低模型复杂度,减少过拟合的风险。
[0076]
proex(parallel rounded exponential filter)核化听觉模型通常由两部分组成:模拟耳蜗被动机制的尾部滤波器和模拟耳蜗主动机制的顶部滤波器,且顶部滤波器还被由p
rxp
调整的耳蜗增益函数所加权,以模拟模型对输入信号强度的变化。其结构见图2。
[0077]
proex模型的数学表达为:
[0078]
w(f)=w
tail
(f)+w
lin
·wtip
(f)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0079]
其中,w
tail
(f)和w
tip
(f)分别是尾部滤波器和顶部滤波器的频率函数,w
lin
是顶部滤波器相对于尾部滤波的增益该相对增益和基底膜的输入输出(i/o)增益函数相关,即耳蜗的主动机制。假定i/o增益函数w
db
可以表示为(以db记):
[0080][0081]
a=-0.0894
·gmax
+10.89
[0082]
b=1.1789
·gmax-11.789
[0083]
其中,c表示输入信号强度,g
max
是耳蜗放大器的最大增益(以db为单位)。
[0084]
顶部roex滤波器能够表示为频率f和三个参数{fc,p
l
,pu}的函数:
[0085]wtip
(f)=r
x
(f;fc,p
l
,pu)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0086]
顶部滤波器的低频边和高频边的表达式为:
[0087][0088]
其中,g=|f-fc|/fc是一个标准化的频率变量,描述了滤波器中心频率fc到掩蔽噪声边相对中心频率的距离;dc=[erbx(1000)]/[erbn(fc)]
·
(fc/1000),将到中心频率fc的间隔表达为相对中心频率erbn的值,dc被标准化为在fc=1000hz时等于1;p
l
和pu决定了顶部滤波器低频边和高频边的尖锐程度。erbn(f)是在频率f处的erbn值;erbn表示听觉滤波器的等价直角带宽,erbn(f)=6.23
·
f2+93.39
·
f+28.52。
[0089]
相类似地,尾部roex滤波器能够表示为频率f和三个参数{fc/f
rat
,t
l
,tu}的函数:
[0090]wtail
(f)=r
x
(f;fc/f
rat
,t
l
,tu)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0091][0092]
其中,t
l
和tu决定了尾部滤波器低频边和高频边的尖锐度。值得注意的是,顶部滤波器的中心频率可以根据信号的强度相对尾部滤波器的中心频率进行调整,f
rat
表示这两个滤波器的中心频率之比。proex滤波器就是式(3)和(5)的加权和。刻画proex滤波器的参数共有六个:{g
max
,f
rat
,t
l
,tu,p
l
,pu}。其中t
l
,tu与信号强度无关,它们分别控制了尾部滤波器的形状(带宽和不对称性),而其他参数{g
max
,f
rat
,p
l
,pu}则依赖于p
rxp
(如图2所示):
p
rxp
表示探测音加掩蔽音在中心频率为探测频率处尾部滤波器的输出级;同时假定{f
rat
,p
l
,pu,g
max
}是p
rxp
的线性函数,其函数截距和斜率分别为
[0093]
1.2编码器-解码器的优化
[0094]
如上所述,对于proex滤波器w(f),其由参数{θ}唯一确定,其中如上所述,对于proex滤波器w(f),其由参数{θ}唯一确定,其中为了表述方便,假定编码器和解码器分别为ε(θi;x)、其中,x={x0,

,x
l
}表示长度为l+1的混合信号;θi和θj分别表示编码器和解码器的模型参数。
[0095]
1.3对编码器-解码器进行训练;
[0096]
训练方法如图3:假定干净源信号为和则有则有其中α和β表示混合系数。和和分别是通过编码器ε(θi;
·
)的输出,d+1是隐藏空间向量的维度;将通过softmax层,估计出对应的理想掩蔽矩阵其中,i=0,

,d,j∈{1,2}。
[0097]
接着,与作对应元素相乘得到每个待分离声源在隐藏空间的估计:最后解码器利用和作为输入,重建出干净源信号的估计和训练的目标是最小化和之间的差异。此处采用尺度无关信号损失比(scale-independent signal to distortion ratio,si-sdr)作为代价函数:
[0098][0099]
其中,t表示转置运算;||
·
||表示2-范数运算;矩阵矩阵
[0100]
步骤2)声源分离器的优化
[0101]
在两步训练框架中,声源分离器采用基于一维时域卷积的源分离模型。图4给出了的训练优化流程。首先,固定训练好的编码器-解码器,混合信号被映射到隐藏空间表示接着,对输入的进行掩蔽估计,产生出相应掩蔽和最后,两个掩蔽分别与作对应元素点乘产生两个
源信号在隐藏空间中的估计和
[0102]
源分离器的优化采用隐藏空间中的si-sdr:
[0103][0104]
其中,t表示转置运算;是理想掩蔽分离出的源信号在隐藏空间中的表示(见图3和1.2);矩阵
[0105]
上述两个步骤的实施过程如下:
[0106]
为简化计算,设f
rat
=1
[0107]
输入:混合信号干净源信号和
[0108]
参数:设置编码器解码器源分离器其中,是ε(θi;
·
)的逆。
[0109]
输出:训练好的ε(θi;
·
),
[0110]
step 1:优化编码器-解码器
[0111]
repeat
[0112]
1.输入ε(θi;
·
),产生隐藏空间表示
[0113]
2.经过softmax运算,产生对应每个声源的理想掩蔽估计
[0114]
softmax(vi)=mi=exp(vi)/∑iexp(vi),i∈{1,2}
[0115]
3.计算并将经过得到估计
[0116]
4.用式(7)计算
[0117]
5.利用反向传播和upit(utterance-level permutation invariant training)算法更新参数θi。
[0118]
until收敛
[0119]
step 2:优化声源分离器
[0120]
repeat
[0121]
1.输入ε(θi;
·
),产生隐藏空间表示
[0122]
2.输入产生掩蔽估计和并分别和作按向量元素点积产生和
[0123]
3.用式(8)计算
[0124]
4.利用反向传播和upit(utterance-level permutation invariant training)算法更新参数
[0125]
until收敛
[0126]
步骤3)混合信号通过编码器、源分离器和解码器,重建出分离的目标信号波形;
[0127]
混合信号x={x0,

,x
l
};编码器ε(θi;
·
),解码器源分离器
[0128]
x输入编码器ε(θi;
·
)产生隐藏空间表示
[0129]
经过源分离器估计出对应源信号的理想掩蔽矩阵并计算并计算
[0130]
输入解码器重建出分离的目标信号波形:
[0131][0132][0133]
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1