多分辨率UNet去混响网络

文档序号：31675910发布日期：2022-09-28 02:02阅读：来源：国知局

技术特征：
1.一种多分辨率unet去混响网络，其特征在于：所述多分辨率unet去混响网络，包括三个分辨率块，每个分辨率块的输入特征为特定分辨率的时频特征，去混响网络采用编码器-解码器结构三个分辨率块分别称作b1,b2和b3，其中每个分辨率块所输入的时频特征的分辨率均不相同，在分辨率块b3中，输入特征沿着时间维度均匀切分为4个部分，每个部分经过卷积块以及编码器编码后沿时间维度进行两两拼接，拼接后的特征送入解码器进行解码，解码器的输出经过掩模块后得到b3的去混响结果；同理，分辨率块b2中的输入特征被沿着时间维度切分为相同大小的2个部分，每个部分经过卷积块、编码器后沿时间维度拼接后，送入解码器进行解码，然后经过掩模块后得到b2的去混响结果；在分辨率块b1中不进行任何分割操作，直接经过编码器和解码器输出后，经二维卷积得到b1的去混响结果；通过信息的直接相加和通道拼接，将当前分辨率块输出的有用信息传递到下一分辨率块中，从而渐进式的提高mr-unet网络的去混响性能。2.根据权利要求1所述的多分辨率unet去混响网络，其特征在于：所述卷积块中，cb看作是在每个分辨率块中提取特征的由多个二维卷积层组成的残差网络；混响语音的幅度谱由x表示，cb的输出用z表示，则：z＝x+w
cb
x
ꢀꢀꢀꢀ
(1)其中w
cb
表示cb的权重矩阵，将输入特征x经过二维卷积层跟参数化修正线性单元的结果再经过二维卷积层的输出称作为x1，x1通过全局池化层得到x2，公式为：其中h和w表示频谱的维度，x1(i,j)表示在时频点(i,j)处的频谱值；h
gp
是全局池化函数，有助于表示整个频谱的所有信息；为了充分利用全局池化后的信息，利用门函数以及sigmoid函数：x3＝f(w
u
δ(w
d
x2))
ꢀꢀꢀꢀ
(3)其中f(
·
)表示sigmoid激活函数，δ(
·
)表示线性修正单元(rectified linear unit，relu)激活函数，w
d
表示在全局池化后的第一个二维卷积层，下采样率为r，w
u
表示全局池化后的第二个二维卷积层，上采样率为r，最终，得到：z＝x+x1x3ꢀꢀꢀꢀ
(4)其中z为卷积块的输出结果。3.根据权利要求1所述的多分辨率unet去混响网络，其特征在于：所述掩模块中，当前分辨率块未处理幅度谱与中间产物经过1
×
1卷积后的结果相加，得到当前阶段的处理后的幅度谱，所得到的当前阶段的处理后的幅度谐将通过1
×
1卷积以及sigmoid激活函数与中间产物经过二维卷积后的结果进行掩模处理；掩模处理后的结果在经过残差连接后将与下一分辨率块的未处理幅度谱进行通道连接，掩模块的好处在于在当前分辨率块抑制信息量较小的特征，只允许有用的特征传播到下一分辨率块，其中“当前分辨率块未处理幅度谱”和“下一分辨率块未处理幅度谱”指的是两个相邻的分辨率块的未处理的含混响语音幅度谱，“中间产物”指的是当前分辨率块中的解码器的输出，“处理后幅度谱”指的是估计的去混响语音的幅度谱。4.根据权利要求1所述的多分辨率unet去混响网络，其特征在于：在每个分辨率块，采用u-net网络，将卷积块堆叠起来形成多卷积块，mcb中不含有下采
样操作，从而不会损失频谱信息，每个mcb中包含8个cb以及一个二维卷积层，mcb的输入与输出通过残差连接连接起来，使用3个mcb代替unet。5.根据权利要求1所述的多分辨率unet去混响网络，其特征在于：多分辨率unet去混响网络所采用的损失函数为：其中l
mr-unet
表示mr-unet的损失函数，r表示一个分辨率块的分辨率，表示该分辨率块所估计的去混响语音，y表示直达声语音的幅度谱，l
r
表示为：其中ε设置为10-3
。

技术总结
本发明提供了一种多分辨率UNet去混响网络，通过在不同的分辨率块中将语音频谱沿时间维度进行切块，并在不同的分辨率块之间加入信息交互，实现了不同分辨率块间信息的互补，有助于语音去混响性能的提升。本发明由于使用了多分辨率特征，将下层分辨率块中的信息与上层分辨率块之间的信息进行交互，从而渐进式的提高了去混响的性能，解决了基线方法中采用单分辨率特征带来的性能局限问题。在实际录制的强混响环境中进行了实验验证，实验结果表明所提出的去混响网络仍然有很好的去混响性能，解决了原有方法在强混响环境中性能较差的问题。了原有方法在强混响环境中性能较差的问题。了原有方法在强混响环境中性能较差的问题。

技术研发人员：张晓雷朱文博郭红梅
受保护的技术使用者：西北工业大学
技术研发日：2022.05.31
技术公布日：2022/9/27

完整全部详细技术资料下载

当前第2页1 2