本发明涉及音频信号处理与人工智能交叉,特别指一种基于局部注意力与特征融合的音频降噪方法及系统。
背景技术:
1、音频降噪是指通过技术手段去除音频信号中的噪声,以提高音频的清晰度和质量;音频降噪在多个领域都有广泛应用,比如音乐制作、语音通信、视频编辑等。音频降噪技术主要经历三个阶段:
2、第一阶段:基于信号处理的方法(2000-2010),采用谱减法、维纳滤波等算法,虽计算效率高,但在非稳态噪声环境下会产生"音乐噪声"伪影(musical noise phenomenon);第二阶段:机器学习时代(2011-2018),利用gmm、dnn等模型进行噪声分类,信噪比(snr)提升约8-12db,但模型参数量普遍超过10m,难以部署在移动终端;第三阶段:深度学习突破期(2019至今),wavenet、demucs等端到端架构实现15db+的snr提升,但transformer类模型的自注意力机制产生o(n2)计算复杂度,处理1秒音频需消耗算力较大。
3、然而,目前主流的音频降噪方法存在如下缺陷:
4、1、架构局限性:单阶段去噪网络无法处理噪声的时间相关性,在突发性噪声场景下psnr波动较大,即单级去噪结构对复杂噪声模式的适应性不足;
5、2、计算效率低下:全局注意力机制带来的计算资源消耗过大,使rtf(real-timefactor)低,无法满足实际需求的延迟要求;
6、3、特征提取冗余:传统编解码网络在128维以上特征空间时,卷积核参数占比较大,造成内存带宽瓶颈,进而影响计算效率。
7、因此,如何提供一种基于局部注意力与特征融合的音频降噪方法及系统,实现提升音频降噪的质量、泛化性以及效率,成为一个亟待解决的技术问题。
技术实现思路
1、本发明要解决的技术问题,在于提供一种基于局部注意力与特征融合的音频降噪方法及系统,实现提升音频降噪的质量、泛化性以及效率。
2、第一方面,本发明提供了一种基于局部注意力与特征融合的音频降噪方法,包括如下步骤:
3、步骤s1、基于编码器、去噪模块以及解码器创建一音频降噪模型,设定所述音频降噪模型的损失函数;
4、所述编码器用于对输入的音频数据进行高维编码得到高维编码特征向量;所述去噪模块用于对高维编码特征向量执行多级降噪操作,得到去噪特征向量;所述解码器用于将去噪特征向量还原为无噪音频;
5、步骤s2、获取大量的历史音频数据,对各所述历史音频数据进行预处理,对预处理后的各所述历史音频数据进行至少包括干净音频、噪声类型、噪声强度、音频场景以及音频内容的标注以构建数据集;
6、步骤s3、将所述数据集划分为训练集、验证集以及测试集,通过所述训练集、验证集以及测试集分别对音频降噪模型进行训练、验证和测试;
7、步骤s4、对测试通过的所述音频降噪模型进行部署,通过部署的所述音频降噪模型执行音频降噪操作。
8、进一步的,所述步骤s1中,所述编码器基于一维卷积以及第一非线性模块构建,公式为:
9、fen=relu1(conv1d(anoisy));
10、其中,fen表示高维编码特征向量;relu1()表示relu激活函数,即第一非线性模块;conv1d()表示一维卷积;anoisy表示输入的音频数据;
11、所述去噪模块基于多级堆叠的去噪单元构建,各所述去噪声单元基于第一层归一化模块、正弦位置编码模块、逐点卷积、第一一维深度可分离卷积、第二非线性模块、局部注意力模块以及第三非线性模块构建;
12、所述第一层归一化模块以及正弦位置编码模块用于对输入的高维编码特征向量进行正则化并增加音频位置信息,得到位置增强的正则化特征向量:
13、fpos=spe(layenorm1(fen))+layenorm1(fen);
14、其中,fpos表示正则化特征向量;spe()表示正弦位置编码模块;layenorm1()表示第一层归一化模块;
15、所述逐点卷积、第一一维深度可分离卷积以及第二非线性模块用于对正则化特征向量进行卷积操作,得到深度特征向量:
16、fdepth=relu2(dw_conv1(pointwise_conv(fpos))+pointwise_conv(fpos));
17、其中,fdepth表示深度特征向量;relu2()表示relu激活函数,即第二非线性模块;dw_conv1()表示第一一维深度可分离卷积;pointwise_conv()表示逐点卷积;
18、所述局部注意力模块以及第三非线性模块用于对深度特征向量进行特征挖掘,得到去噪特征向量;
19、所述解码器基于一维反卷积构建,用于将去噪特征向量还原为无噪音频:
20、aclean=transposed_conv1 d(fde,r);
21、其中,aclean表示无噪音频;transposed_conv1d()表示一维反卷积;fde,r表示去噪特征向量。
22、进一步的,所述局部注意力模块基于第二层归一化模块、第二一维深度可分离卷积、第四非线性模块、第一线性层、第二线性层以及第三线性层构建;
23、所述第二层归一化模块、第二一维深度可分离卷积以及第四非线性模块用于从深度特征向量中提取局部特征:
24、fmiddle=relu4(dw_conv2(layenorm2(fdepth))+layenorm2(fdepth));
25、其中,fmiddle表示局部特征;relu4()表示relu激活函数,即第四非线性模块;dw_conv2()表示第二一维深度可分离卷积;layenorm2()表示第二层归一化模块;
26、将局部特征分成h份大小为p的不重叠的特征片段,通过所述第一线性层、第二线性层以及第三线性层,将各所述特征片段转换为query向量q、key向量k和value向量v,基于所述向量q、向量k以及向量v计算局部注意力,基于各所述局部注意力构建局部注意力集合:
27、
28、其中,linearlayer1()表示第一线性层;linearlayer2()表示第二线性层;linearlayer3()表示第三线性层;fmiddle,h表示第h段特征片段;flocal,h表示第h段特征片段的局部注意力;softmax()表示归一化指数函数;t表示转置;flocal,h表示第h段特征片段的局部注意力;flocal表示局部注意力集合;
29、所述第三非线性模块用于对局部注意力集合进行计算以生成去噪mask,将所述去噪mask与输入的音频数据相乘,得到去噪特征子向量,对各所述去噪特征子向量执行多级去噪操作,得到去噪特征向量:
30、
31、其中,fde,1表示第1个去噪特征子向量;relu3()表示relu激活函数,即第三非线性模块;表示第一级的局部注意力集合;表示逐元素相乘;fde,r表示重复r次去噪后的去噪特征向量;表示第r级的局部注意力集合;fde,r-1表示重复r-1次去噪后的去噪特征向量。
32、进一步的,所述步骤s2具体为:
33、获取大量的历史音频数据,对各所述历史音频数据进行至少包括格式转换、信号裁剪、重采样、归一化、音频分割以及特征提取的预处理,对预处理后的各所述历史音频数据进行至少包括干净音频、噪声类型、噪声强度、音频场景以及音频内容的标注,基于标注后的各所述历史音频数据构建数据集。
34、进一步的,所述步骤s3具体为:
35、基于时间序列,按8:1:1的比例将所述数据集划分为训练集、验证集以及测试集,通过所述训练集对音频降噪模型进行训练,直至所述损失函数的损失值小于预设的损失阈值;
36、通过所述验证集调整训练后的音频降噪模型的超参数,并验证所述音频降噪模型的性能指标,验证不通过,则扩充所述训练集继续训练;验证通过,则:
37、通过所述测试集计算psnr值以对验证通过的音频降噪模型进行测试,测试不通过,则扩充所述训练集继续训练;测试通过,则结束训练。
38、第二方面,本发明提供了一种基于局部注意力与特征融合的音频降噪系统,包括如下模块:
39、音频降噪模型创建模块,用于基于编码器、去噪模块以及解码器创建一音频降噪模型,设定所述音频降噪模型的损失函数;
40、所述编码器用于对输入的音频数据进行高维编码得到高维编码特征向量;所述去噪模块用于对高维编码特征向量执行多级降噪操作,得到去噪特征向量;所述解码器用于将去噪特征向量还原为无噪音频;
41、数据集构建模块,用于获取大量的历史音频数据,对各所述历史音频数据进行预处理,对预处理后的各所述历史音频数据进行至少包括干净音频、噪声类型、噪声强度、音频场景以及音频内容的标注以构建数据集;
42、音频降噪模型训练模块,用于将所述数据集划分为训练集、验证集以及测试集,通过所述训练集、验证集以及测试集分别对音频降噪模型进行训练、验证和测试;
43、音频降噪模块,用于对测试通过的所述音频降噪模型进行部署,通过部署的所述音频降噪模型执行音频降噪操作。
44、进一步的,所述音频降噪模型创建模块中,所述编码器基于一维卷积以及第一非线性模块构建,公式为:
45、fen=relu1(conv1d(anoisy));
46、其中,fen表示高维编码特征向量;relu1()表示relu激活函数,即第一非线性模块;conv1d()表示一维卷积;anoisy表示输入的音频数据;
47、所述去噪模块基于多级堆叠的去噪单元构建,各所述去噪声单元基于第一层归一化模块、正弦位置编码模块、逐点卷积、第一一维深度可分离卷积、第二非线性模块、局部注意力模块以及第三非线性模块构建;
48、所述第一层归一化模块以及正弦位置编码模块用于对输入的高维编码特征向量进行正则化并增加音频位置信息,得到位置增强的正则化特征向量:
49、fpos=spe(layenorm1(fen))+layenorm1(fen);
50、其中,fpos表示正则化特征向量;spe()表示正弦位置编码模块;layenorm1()表示第一层归一化模块;
51、所述逐点卷积、第一一维深度可分离卷积以及第二非线性模块用于对正则化特征向量进行卷积操作,得到深度特征向量:
52、fdepth=relu2(dw_conv1(pointwise_conv(fpos))+pointwise_conv(fpos));
53、其中,fdepth表示深度特征向量;relu2()表示relu激活函数,即第二非线性模块;dw_conv1()表示第一一维深度可分离卷积;pointwise_conv()表示逐点卷积;
54、所述局部注意力模块以及第三非线性模块用于对深度特征向量进行特征挖掘,得到去噪特征向量;
55、所述解码器基于一维反卷积构建,用于将去噪特征向量还原为无噪音频:
56、aclean=transposed_conv1 d(fde,r);
57、其中,aclean表示无噪音频;transposed_conv1d()表示一维反卷积;fde,r表示去噪特征向量。
58、进一步的,所述局部注意力模块基于第二层归一化模块、第二一维深度可分离卷积、第四非线性模块、第一线性层、第二线性层以及第三线性层构建;
59、所述第二层归一化模块、第二一维深度可分离卷积以及第四非线性模块用于从深度特征向量中提取局部特征:
60、fmiddle=relu4(dw_conv2(layenorm2(fdepth))+layenorm2(fdepth));
61、其中,fmiddle表示局部特征;relu4()表示relu激活函数,即第四非线性模块;dw_conv2()表示第二一维深度可分离卷积;layenorm2()表示第二层归一化模块;
62、将局部特征分成h份大小为p的不重叠的特征片段,通过所述第一线性层、第二线性层以及第三线性层,将各所述特征片段转换为query向量q、key向量k和value向量v,基于所述向量q、向量k以及向量v计算局部注意力,基于各所述局部注意力构建局部注意力集合:
63、
64、其中,linearlayer1()表示第一线性层;linearlayer2()表示第二线性层;linearlayer3()表示第三线性层;fmiddle,h表示第h段特征片段;flocal,h表示第h段特征片段的局部注意力;softmax()表示归一化指数函数;t表示转置;flocal,h表示第h段特征片段的局部注意力;flocal表示局部注意力集合;
65、所述第三非线性模块用于对局部注意力集合进行计算以生成去噪mask,将所述去噪mask与输入的音频数据相乘,得到去噪特征子向量,对各所述去噪特征子向量执行多级去噪操作,得到去噪特征向量:
66、
67、其中,fde,1表示第1个去噪特征子向量;relu3()表示relu激活函数,即第三非线性模块;表示第一级的局部注意力集合;表示逐元素相乘;fde,r表示重复r次去噪后的去噪特征向量;表示第r级的局部注意力集合;fde,r-1表示重复r-1次去噪后的去噪特征向量。
68、进一步的,所述数据集构建模块具体用于:
69、获取大量的历史音频数据,对各所述历史音频数据进行至少包括格式转换、信号裁剪、重采样、归一化、音频分割以及特征提取的预处理,对预处理后的各所述历史音频数据进行至少包括干净音频、噪声类型、噪声强度、音频场景以及音频内容的标注,基于标注后的各所述历史音频数据构建数据集。
70、进一步的,所述音频降噪模型训练模块具体用于:
71、基于时间序列,按8:1:1的比例将所述数据集划分为训练集、验证集以及测试集,通过所述训练集对音频降噪模型进行训练,直至所述损失函数的损失值小于预设的损失阈值;
72、通过所述验证集调整训练后的音频降噪模型的超参数,并验证所述音频降噪模型的性能指标,验证不通过,则扩充所述训练集继续训练;验证通过,则:
73、通过所述测试集计算psnr值以对验证通过的音频降噪模型进行测试,测试不通过,则扩充所述训练集继续训练;测试通过,则结束训练。
74、本发明的优点在于:
75、1、通过编码器、去噪模块以及解码器创建音频降噪模型,设定音频降噪模型的损失函数;编码器用于对输入的音频数据进行高维编码得到高维编码特征向量;去噪模块用于对高维编码特征向量执行多级降噪操作,得到去噪特征向量;解码器用于将去噪特征向量还原为无噪音频;接着获取大量的历史音频数据,对各历史音频数据进行预处理,对预处理后的各历史音频数据进行至少包括干净音频、噪声类型、噪声强度、音频场景以及音频内容的标注以构建数据集;接着将数据集划分为训练集、验证集以及测试集,通过训练集、验证集以及测试集分别对音频降噪模型进行训练、验证和测试;最后对测试通过的音频降噪模型进行部署,通过部署的音频降噪模型执行音频降噪操作;即通过编码器、去噪模块以及解码器创建的音频降噪模型执行音频降噪操作,由于去噪模块基于多级堆叠的去噪单元构建,通过各去噪单元生成去噪mask与输入的音频数据相乘,实现噪声的渐进式消除,克服传统上单级去噪结构对复杂噪声模式适应性不足的缺陷;通过去噪模块的局部注意力模块代替传统的全局注意力机制,有效降低计算量,同时保持噪声特征的捕获能力;构建基于高维特征空间的编解码架构,采用深度可分离卷积等轻量化操作进行噪声特征提取与重构,在保证特征表达力的前提下,使模型推理速度提升,满足实时处理需求,最终极大的提升了音频降噪的质量、泛化性以及效率。
76、2、通过将局部特征分割为不重叠片段并独立计算注意力,大幅降低传统全局注意力的计算复杂度,且局部注意力聚焦于邻近上下文,更适配音频信号的时序连续性特征,在保证降噪精度的同时提升实时性。
77、3、去噪模块采用多级堆叠结构(r次重复操作),每级通过残差连接融合前级输出,逐层细化噪声特征,可有效处理不同强度噪声,避免单级模型的信息丢失问题。
78、4、通过采用一维深度可分离卷积(dw_conv)替代标准卷积,分离空间与通道维度计算,在减少参数量的同时保留局部特征提取能力,适合嵌入式设备部署。
79、5、通过在去噪单元中引入正弦位置编码(spe模块),将绝对位置信息(音频位置信息)注入特征向量,弥补卷积操作对长时序依赖捕捉的不足,提升模型对音频时序结构的理解。
80、6、通过在每个去噪单元内使用层归一化和残差连接,有效缓解梯度消失问题,加速模型收敛,且多级结构下特征传递更稳定,避免深层网络退化。
81、7、通过多级relu激活函数与逐元素相乘操作,实现噪声掩码的动态生成,特征融合过程保留原始输入信息(anoisy参与计算),抑制过拟合风险。
82、8、通过数据集标注涵盖噪声类型、强度、场景等多维度标签,使模型学习不同噪声分布与场景特征的关联性,增强对复杂真实环境的适应性;通过设置训练采用“训练-验证-测试”三阶段流程,并结合性能指标动态扩充数据集,有效解决数据不足导致的过拟合问题,确保模型鲁棒性;通过设置预处理包含重采样、归一化、音频分割等操作,统一输入尺度并提取关键特征,减少无关信号干扰,提升模型收敛效率。
83、9、通过设置音频降噪模型采用编码器-去噪模块-解码器的端到端结构,无需分步处理噪声检测与消除,简化部署流程,适用于实时降噪场景(如语音通信、助听设备)。
84、10、局部注意力模块中特征分段数h可灵活配置,高h值适合捕捉细粒度局部特征,低h值则侧重长程依赖,用户可根据音频采样率或噪声粒度动态调整,平衡精度与速度。
85、11、通过局部注意力机制与多级堆叠去噪单元的创新设计,在保证降噪精度的同时显著降低计算复杂度,结合一维深度可分离卷积和残差连接实现轻量化模型架构,适配嵌入式设备的实时处理需求;利用正弦位置编码和动态噪声掩码生成增强音频时序特征的捕捉能力,并通过多维度标注数据集与分阶段训练策略提升模型对复杂噪声场景的泛化性;其模块化结构支持灵活扩展(如调整去噪级数、注意力分块数),端到端架构简化部署流程,兼具高信号保真度、低内存占用及动态噪声适应性,为工业级音频降噪提供了高效、鲁棒且可解释的解决方案。