单通道语音增强模型的训练方法、装置、设备及存储介质

文档序号：37067921发布日期：2024-02-20 21:20阅读：17来源：国知局

本发明涉及语音增强，尤其涉及一种单通道语音增强模型的训练方法、装置、设备及存储介质。

背景技术：

1、现实生活场景中语音信号往往受到周围噪声的干扰，这些干扰会对助听器、手机通讯及网络视频会议等设备产生影响，语音增强技术能够缓解语音信号在通讯过程中被污染的问题。

2、相关技术中，基于深度学习模型的单通道语音增强法是目前主流的方法，主要分为时频域上增强和时域上增强两类方法，其中，时频域上增强的方法由于其可解释性被应用更广泛，但仍存在以下缺陷：相位谱呈现出一个随机复杂的图案，神经网络模型难以从中提取到有效高级特征；更关注于有效捕获语音信号的长距离上下文依赖关系，而忽略了语音频谱的时频分布信息。

3、综合以上该技术领域发展状况分析，现有的技术中方案缺少生成规律结构和纹理相位图，并捕捉语音频谱时频分布信息的单通道语音增强模型。

技术实现思路

1、本发明的目的在于提供一种单通道语音增强模型的训练方法、装置、设备及存储介质，旨在解决现有技术中的上述问题。

2、根据本发明实施例的第一方面，提供一种单通道语音增强模型的训练方法，包括：

3、步骤1，生成用于训练的带噪音频谱的集合；

4、步骤2，获取带噪音频谱，计算带噪音频谱对应的初始幅度谱和初始相位谱，将初始相位谱转化为差分平方相位谱；

5、步骤3，将初始幅度谱依次输入幅度分支对应的幅度编码器和幅度模块，得到分解时频注意力特征，将差分平方相位谱输入相位分支对应的相位编码器和相位模块，得到差分平方相位特征；

6、步骤4，通过分解时频注意力特征和差分平方相位特征间的交互计算，得到交互后时频特征和交互后相位特征；

7、步骤5，将交互后时频特征输入幅度分支对应的掩码解释器，得到增强幅度谱，将交互后相位特征输入相位分支对应的相位解码器，得到增强相位谱，根据增强幅度谱和增强相位谱计算总损失，更新模型参数；

8、步骤6，进行多个轮次迭代，在每个轮次迭代中分批次重复步骤2至步骤5进行迭代训练，轮次迭代执行结束后得到训练好的单通道语音增强模型。

9、根据本发明实施例的第二方面，提供一种单通道语音增强模型的训练装置，包括：

10、训练集生成模块，用于生成用于训练的带噪音频谱的集合；

11、相位谱生成模块，用于获取带噪音频谱，计算带噪音频谱对应的初始幅度谱和初始相位谱，将初始相位谱转化为差分平方相位谱；

12、双分支编码模块，用于将初始幅度谱依次输入幅度分支对应的幅度编码器和幅度模块，得到分解时频注意力特征，将差分平方相位谱输入相位分支对应的相位编码器和相位模块，得到差分平方相位特征；

13、交互计算模块，用于通过分解时频注意力特征和差分平方相位特征间的交互计算，得到交互后时频特征和交互后相位特征；

14、双分支解码模块，用于将交互后时频特征输入幅度分支对应的掩码解释器，得到增强幅度谱，将交互后相位特征输入相位分支对应的相位解码器，得到增强相位谱，根据增强幅度谱和增强相位谱计算总损失，更新模型参数；

15、训练迭代模块，用于进行多个轮次迭代，在每个轮次迭代中分批次重复调用相位谱生成模块、双分支编码模块、交互计算模块及双分支解码模块中步骤进行迭代训练，轮次迭代执行结束后得到训练好的单通道语音增强模型。

16、根据本发明实施例的第三方面，提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被处理器执行时实现如本公开第一方面所提供的单通道语音增强模型的训练方法的步骤。

17、根据本发明实施例的第四方面，提供一种计算机可读存储介质，其上存储有信息传递的实现程序，该程序被处理器执行时实现本公开第一方面所提供的单通道语音增强模型的训练方法的步骤。

18、本发明实施例提供的技术方案包括以下有益效果：采用幅度-相位平行双分支结构处理单通道语音增强问题，在幅度分支处理中通过幅度模块捕获到时频分布的有效信息，在相位分支处理前将呈现随机复杂的初始相位谱转化为差分平方相位谱，得到了具有更明显结构和纹理的相位信息。

19、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

技术特征：

1.一种单通道语音增强模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述计算所述带噪音频谱对应的初始幅度谱和初始相位谱，将所述初始相位谱转化为差分平方相位谱具体包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述初始幅度谱依次输入幅度分支对应的幅度编码器和幅度模块，得到分解时频注意力特征，将所述差分平方相位谱输入相位分支对应的相位编码器和相位模块，得到差分平方相位特征具体包括：

4.根据权利要求3所述的方法，其特征在于，所述通过掩码划分法计算所述时频注意力矩阵对应各区间的掩码具体包括：

5.根据权利要求1所述的方法，其特征在于，所述通过所述分解时频注意力特征和所述差分平方相位特征间的交互计算，得到交互后时频特征和交互后相位特征具体包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述交互后时频特征输入幅度分支对应的掩码解码器，得到增强幅度谱，将所述交互后相位特征输入相位分支对应的相位解码器，得到增强相位谱具体包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述增强幅度谱和所述增强相位谱计算总损失具体包括：

8.一种单通道语音增强模型的训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的单通道语音增强模型的训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现如权利要求1至7中任一项所述的单通道语音增强模型的训练方法的步骤。

技术总结
本发明提供了一种单通道语音增强模型的训练方法、装置、设备及存储介质，其中，方法包括：步骤1，生成带噪音频谱；步骤2，计算初始幅度谱和初始相位谱，将初始相位谱转化为差分平方相位谱；步骤3，将初始幅度谱依次输入幅度编码器和幅度模块，得到分解时频注意力特征，将差分平方相位谱输入相位编码器和相位模块，得到差分平方相位特征；步骤4，通过分解时频注意力特征和差分平方相位特征交互，得到交互后时频特征和交互后相位特征；步骤5，将交互后时频特征输入掩码解码器得到增强幅度谱，将交互后相位特征输入相位解码器得到增强相位谱，计算总损失更新模型参数；步骤6，多轮次迭代，每轮次迭代分批次重复步骤2至5。

技术研发人员：杨柳,毛忌,翁士龙,周昱彬
受保护的技术使用者：广州大学
技术研发日：
技术公布日：2024/2/19

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨柳,毛忌,翁士龙,周昱彬
技术所有人：广州大学
我是此专利的发明人

上一篇：带有过滤装置的多级离心泵的制作方法
上一篇：一种带有防撞发带的防撞帽的制作方法