非负矩阵分解与深度学习的降噪方法、装置、介质及设备与流程

文档序号:40867508发布日期:2025-02-11 12:17阅读:186来源:国知局

本申请属于蓝牙音频,特别是涉及一种结合非负矩阵分解与深度学习的语音降噪方法、装置、存储介质及设备。


背景技术:

1、在很多蓝牙应用中,如蓝牙通话、蓝牙麦克风以及录音等,都需要进行降噪。

2、非负矩阵分解(nonnegative matrix factorization),简称nmf,使分解后的所有矩阵分量均为非负值,同时实现非线性的降维。nmf已逐渐成为信号处理、生物医学工程、模式识别、计算机视觉和图像工程等研究领域中最受欢迎的多维数据处理工具之一。

3、非负矩阵分解在语音降噪中有一定的应用,但其在较低信噪比时性能一般,会引起失真。

4、深度学习在语音降噪中得到了广泛的关注,目前有很多成熟的算法在服务器及pc端成功部署且效果良好,但由于网络模型复杂且权重占据较大内存空间,在嵌入式系统部署较为困难,通常需要npu的协助,而蓝牙相关设备很多都是基于嵌入式系统,具备npu的较少。


技术实现思路

1、针对现有技术中存在的上述技术问题,本申请提供了一种结合非负矩阵分解与深度学习的语音降噪方法、装置、存储介质及设备,基于mdct谱系数,通过在子带上执行非负矩阵分解生成降噪增益,再基于深度学习修正降噪增益,从而实现语音降噪,不但能够保证音质,还能减小矩阵的尺寸,既避免了非负矩阵分解的不足,又避免了深度学习使用过于复杂的网络模型。

2、为了实现上述目的,本申请采用的第一个技术方案是:提供一种结合非负矩阵分解与深度学习的语音降噪方法,包括:输入单声道带噪语音pcm数据,并执行离散余弦变换,得到mdct谱系数;根据mdct谱系数计算子带能量,并构建子带能量观察矩阵;对子带能量观察矩阵执行非负矩阵分解,并计算语音子带能量值和噪声子带能量值;根据语音子带能量值和噪声子带能量值,计算第一子带降噪增益;将第一子带降噪增益输入预训练的深度神经网络中,输出第二子带降噪增益,并对第二子带降噪增益执行插值,得到所有的频仓增益;根据频仓增益和mdct谱系数,得到降噪谱系数;以及对降噪谱系数执行离散余弦逆变换和重叠相加,输出降噪语音pcm。

3、本申请采用的第二个技术方案是:提供一种结合非负矩阵分解与深度学习的语音降噪装置,包括:用于输入单声道带噪语音pcm数据,并执行离散余弦变换,得到mdct谱系数的模块;用于根据mdct谱系数计算子带能量,并构建子带能量观察矩阵的模块;用于对子带能量观察矩阵执行非负矩阵分解,并计算语音子带能量值和噪声子带能量值的模块;用于根据语音子带能量值和噪声子带能量值,计算第一子带降噪增益的模块;用于将第一子带降噪增益输入预训练的深度神经网络中,输出第二子带降噪增益,并对第二子带降噪增益执行插值,得到所有的频仓增益的模块;用于根据频仓增益和mdct谱系数,得到降噪谱系数的模块;用于对降噪谱系数执行离散余弦逆变换和重叠相加,输出降噪语音pcm的模块。

4、本申请采用的第三个技术方案是:提供一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行方案一中的结合非负矩阵分解与深度学习的语音降噪方法。

5、本申请采用的第四个技术方案是:提供一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中处理器操作计算机指令以执行方案一中的结合非负矩阵分解与深度学习的语音降噪方法。

6、本申请技术方案可以达到的有益效果是:本申请的技术方案既可以应用于经典蓝牙(br、edr),也可以应用于低功耗蓝牙(ble),基于mdct谱系数,通过在子带上执行非负矩阵分解生成降噪增益,再基于深度学习修正降噪增益,从而实现语音降噪,保证了音质,既避免了非负矩阵分解的不足,又避免了深度学习使用过于复杂的网络模型。基于离散余弦变换的处理,在逆变换时不需要相位谱,与传统的傅里叶变换和逆变换的降噪需要相位谱相比,避免了因纯净语音的相位谱无法获得而只能使用带噪语音相位谱对重建语音的损伤;在子带上执行非负矩阵分解,与传统的幅度谱相比,矩阵的尺寸极大降低,运算量和存储量都相应的降低;深度学习模型主要用来修正非负矩阵分解的降噪增益,与传统的端到端的基于幅度谱的深度学习降噪模型相比,网络结构更简单,运算量和存储量都相应的降低。



技术特征:

1.一种结合非负矩阵分解与深度学习的语音降噪方法,其特征在于,包括:

2.根据权利要求1所述的结合非负矩阵分解与深度学习的语音降噪方法,其特征在于,所述输入单声道带噪语音pcm数据,并执行离散余弦变换,得到mdct谱系数,包括:

3.根据权利要求1所述的结合非负矩阵分解与深度学习的语音降噪方法,其特征在于,所述根据所述mdct谱系数计算子带能量,包括:

4.根据权利要求1所述的结合非负矩阵分解与深度学习的语音降噪方法,其特征在于,所述对所述子带能量观察矩阵执行非负矩阵分解,并计算语音子带能量值和噪声子带能量值,包括:

5.根据权利要求3所述的结合非负矩阵分解与深度学习的语音降噪方法,其特征在于,所述对所述第二子带降噪增益执行插值,得到所有的频仓增益,包括:

6.根据权利要求1所述的结合非负矩阵分解与深度学习的语音降噪方法,其特征在于,所述语音基础矩阵和所述噪音基础矩阵的训练过程,包括:

7.根据权利要求1所述的结合非负矩阵分解与深度学习的语音降噪方法,其特征在于,所述预训练的深度神经网络的训练过程,包括:

8.一种结合非负矩阵分解与深度学习的语音降噪装置,其特征在于,包括:

9.一种计算机可读存储介质,其存储有计算机指令,其中所述计算机指令被操作以执行权利要求1-7任一项所述的结合非负矩阵分解与深度学习的语音降噪方法。

10.一种计算机设备,其包括处理器和存储器,所述存储器存储有计算机指令,其中所述处理器操作所述计算机指令以执行权利要求1-7任一项所述的结合非负矩阵分解与深度学习的语音降噪方法。


技术总结
本申请公开了一种结合非负矩阵分解与深度学习的语音降噪方法、装置、存储介质及设备,属于蓝牙音频技术领域,该方法包括输入单声道带噪语音PCM数据,并执行离散余弦变换,得到MDCT谱系数;根据MDCT谱系数计算子带能量,并构建子带能量观察矩阵;对子带能量观察矩阵执行非负矩阵分解,并计算语音和噪声子带能量值;根据语音和噪声子带能量值,计算第一子带降噪增益;将第一子带降噪增益输入预训练的深度神经网络中,输出第二子带降噪增益,并对第二子带降噪增益插值,得到频仓增益;根据频仓增益和MDCT谱系数,得到降噪谱系数;对降噪谱系数执行离散余弦逆变换和重叠相加,输出降噪语音。本申请通过结合非负矩阵分解与深度学习实现语音降噪,保证了音质。

技术研发人员:李强,叶东翔,朱勇
受保护的技术使用者:百瑞互联集成电路(上海)有限公司
技术研发日:
技术公布日:2025/2/10
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1