基于深度学习的语音增强方法及系统与流程

文档序号:40417482发布日期:2024-12-24 14:50阅读:187来源:国知局
技术简介:
本发明针对传统语音增强方法依赖数学模型导致效果不佳的问题,提出基于深度学习的解决方案。通过参数共享和通道维度计算降低模型参数量,结合卷积神经网络(CNN)与循环神经网络(RNN)提取语音特征,采用特征融合与深度滤波技术提升去噪效果。系统通过多帧掩码特征处理实现语音信号优化,解决了深度学习模型参数量大、计算开销高的问题,提升了语音增强的泛化能力与质量。
关键词:语音增强,深度学习模型优化

本发明涉及音频信息处理,尤其是涉及一种基于深度学习的语音增强方法及系统。


背景技术:

1、在传统的单通道语音增强方法中,通常需要对噪声信号与干净语音信号之间的相互作用做出一些假设。这些假设往往是基于特定的数学模型或统计特性,而这限制了增强技术的性能和适用范围,导致增强后的语音质量往往不尽如人意。相比之下,基于深度学习的方法不需要对语音信号和噪声信号之间的关系进行明确的假设。这类方法利用大量的训练数据来直接学习纯净语音与噪声之间的映射关系。这种方法的优势在于它能够从数据中自动提取特征并学习复杂的非线性关系,从而克服了传统语音增强算法的一些固有问题,实现了更好的去噪效果和更强的泛化能力。

2、但同时带来了新的挑战,深度学习算法往往需要较大的参数量和计算开销,嵌入式设备中的计算开销问题随着芯片性能的发展已经得到了一定的解决,模型参数的大小往往制约的深度学习模型在设备中的广泛应用,而往往参数数量又与模型的性能息息相关。

3、故而亟需提出一种语音增强方法来解决所提出的问题。


技术实现思路

1、基于此,有必要针对现有技术的不足,提供一种基于深度学习的语音增强方法及系统,通过参数共享的方式达到降低模型整体参数量的目的。

2、为解决上述技术问题,本发明所采用的技术方案是:

3、第一方面,提供了一种基于深度学习的语音增强方法,其包括如下步骤:

4、获取原始语音数据对应的fft特征;

5、基于卷积神经网络对fft特征进行特征提取,获取卷积特征信息;

6、基于循环神经网络对卷积特征信息进行处理,获取处理后的卷积特征信息;

7、基于不同层次特征融合结构结合卷积神经网络获取编码特征及解码特征的权重系数,将编码特征、解码特征分别与对应权重系数相乘后再相加获取特征融合信息;

8、基于卷积神经网络对特征融合信息及处理后的卷积特征信息进行特征提取,获取反卷积特征信息;

9、基于反卷积特征信息求出多帧掩码特征,结合多帧输入特征求得当前帧的输出结果。

10、在一个实施例中,所述步骤获取原始语音数据对应的fft特征之前,还包括:

11、构建语音增强模型。

12、在一个实施例中,所述步骤基于卷积神经网络对fft特征进行特征提取,获取卷积特征信息的方法,包括如下步骤:

13、卷积模块共计五层,前三层卷积通道数设置为16,后两层卷积为分组卷积,分组数大小与输入的通道数相等,分组数等于16,通过前三层卷积来对fft特征进行初步特征提取,再配合后两层卷积获取到卷积特征信息。

14、在一个实施例中,所述步骤基于循环神经网络对卷积特征信息进行处理,获取处理后的卷积特征信息的方法,包括以下步骤:

15、定义每一个通道上的lstm的输入特征为x,inter为每个lstm输入特征在通道维度上拼接后的集合,concat表示拼接操作,则具体计算公式满足:

16、

17、对lstm输入特征在通道维度上拼接后的集合在特征和通道维度上计算均值和方差后进行归一化处理,获取处理后的卷积特征信息;其中,

18、均值

19、方差

20、处理后的卷积特征信息y满足如下公式:

21、

22、其中,ξ是一个常量,λ和β是可训练的参数,c、f、x的定义分别为通道数、特征数及lstm输入特征。

23、在一个实施例中,所述步骤基于不同层次特征融合结构结合卷积神经网络获取编码特征及解码特征的权重系数,将编码特征、解码特征分别与对应权重系数相乘后再相加获取特征融合信息的方法,具体操作包括:

24、将编码特征ef、解码特征df进行拼接后输入至由两层核为1*1的卷积中求出编解码的掩码特征;

25、将求得的编解码的掩码特征通过sigmoid函数映射到[0,1],获取编码特征对应的权重系数;

26、将编码特征、解码特征分别与对应权重系数相乘后再相加获取特征融合信息en=(sigmoid(k(ef,df)))*ef+(1-sigmoid(k(ef,df)))*df。

27、在一个实施例中,所述步骤基于卷积神经网络对特征融合信息及处理后的卷积特征信息进行特征提取,获取反卷积特征信息的方法,具体操作包括:

28、反卷积模块与卷积模块结构对称,反卷积模块共计五层,前两层为分组卷积,后三层为与卷积模块的卷积层对称设置的反卷积层,通过前两层分组卷积进行初步特征提取,再配合后三层反卷积获取反卷积特征信息。

29、在一个实施例中,所述步骤基于反卷积特征信息求出多帧掩码特征,结合多帧输入特征求得当前帧的输出结果的方法,具体操作包括,

30、设定反卷积输出特征用e表示,掩码特征mask用m来表示,掩码特征m与反卷积输出特征e的关系满足:

31、m=tanh(e);

32、将当前帧的输入与前一帧的输入及后一帧的输入拼接,得到当前帧的输入特征x;

33、将当前帧的输入特征x与输出的掩码特征m点乘求和,得到当前帧的输出结果。

34、在一个实施例中,所述步骤将当前帧的输入特征x与输出的掩码特征m点乘求和,得到当前帧的输出结果的方法,具体操作包括,

35、通过深度滤波方式将当前帧的输入特征x与输出的掩码特征m点乘求和,计算表达式如下:其中,x(ct)表示对应帧的输入特征,m(ct)表示多帧掩码特征,ct表示观测帧数。

36、第二方面,提供了一种基于深度学习的语音增强系统,其包括

37、fft模块,用于获取原始语音数据对应的fft特征;

38、卷积模块,用于基于卷积神经网络对fft特征进行特征提取,获取卷积特征信息;

39、rnn模块,用于基于循环神经网络对卷积特征信息进行处理,获取处理后的卷积特征信息;

40、ffa模块,用于基于不同层次特征融合(ffa)结构结合卷积神经网络获取编码特征及解码特征的权重系数,将编码特征、解码特征分别与对应权重系数相乘后再相加获取特征融合信息;

41、反卷积模块,用于基于卷积神经网络对特征融合信息及处理后的卷积特征信息进行特征提取,获取反卷积特征信息;

42、深度滤波模块,用于基于反卷积特征信息求出多帧掩码特征,结合多帧输入特征求得当前帧的输出结果。

43、在一个实施例中,还包括构建模块,用于构建语音增强模型。

44、综上所述,本发明基于深度学习的语音增强方法及系统通过基于卷积神经网络及循环神经网络以通道进行计算可以有效的保留语音信号的结构信息,同时采用通道特征归一化方式可以使得模型的训练更为稳定,以及可以降低输出语音幅度带来的影响,由于循环神经网络模块参数占模型整体参数的主要部分,因此通过lstm单元使用参数共享的方式可达到降低模型整体参数量的目的,以及对编解码信息采用注意力机制使得模型更为有效的关注重要信息部分,此外采用深度滤波的方式来链接前后语音帧信息,从而进一步可以提高输出的语音信号质量。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!