相位敏感的门控多尺度空洞卷积网络语音增强方法与系统与流程

文档序号：23818191发布日期：2021-02-03 14:14阅读：来源：国知局

技术特征：
1.一种相位敏感的门控多尺度空洞卷积网络语音增强方法，其特征在于：利用神经网络模型构建语音信号复数频谱之间的映射关系，将经过时频分析处理后的带噪语音实虚部频谱进行映射，获得增强后的实虚部频谱，并恢复成增强的时域语音信号。2.根据权利要求1所述的相位敏感的门控多尺度空洞卷积网络语音增强方法，其特征在于：首先，将带噪语音信号进行分帧加窗处理，然后进行短时傅里叶变换，得到带噪语音信号的复数谱，分离实虚部，并只取有效值部分，便得到了两组输入特征：实部特征和虚部特征。3.根据权利要求2所述的相位敏感的门控多尺度空洞卷积网络语音增强方法，其特征在于：随后将两组输入特征送入门控多尺度空洞卷积网络模型。4.根据权利要求3所述的相位敏感的门控多尺度空洞卷积网络语音增强方法，其特征在于：所述门控多尺度空洞卷积网络模型的处理流程包括：首先，由门控编码模块进行门控编码操作，来获取高纬度非线性的特征表示形式，紧接着利用多尺度特征分析模块分别对编码的实部特征和虚部特征表示进行时序特征分析，并由门控解码模块分别进行门控解码操作，得到增强后的实虚部频谱。5.根据权利要求4所述的相位敏感的门控多尺度空洞卷积网络语音增强方法，其特征在于：将增强后的实虚部频谱进行反傅里叶变换，再重叠相加，最终得到增强语音信号。6.根据权利要求4所述的相位敏感的门控多尺度空洞卷积网络语音增强方法，其特征在于：所述门控编码模块由至少两个门控线性编码单元堆叠而成，每个门控线性编码单元采用1
×
3的卷积核，以步长为1
×
2的方式进行二维卷积操作。7.根据权利要求6所述的相位敏感的门控多尺度空洞卷积网络语音增强方法，其特征在于：每个门控线性编码单元的输出都进行指数线性激活，来进行特征的非线性变换。8.根据权利要求4所述的相位敏感的门控多尺度空洞卷积网络语音增强方法，其特征在于：所述多尺度特征分析模块的输入包括两组特征：(1)原始的带噪语音的实或虚部谱；(2)所述门控编码模块输出的实或虚部特征。9.根据权利要求8所述的相位敏感的门控多尺度空洞卷积网络语音增强方法，其特征在于：所述多尺度特征分析模块由至少两个多尺度分析单元堆叠而成，每个多尺度分析单元将两组特征张量进行拼接操作，拼接之前需要对两组张量进行重塑操作，使其变成一个三维的张量，形状为[句子数，句子长度，322]。接下来，将拼接的特征张量进行子带分解，这里一共分成8个子带，前7个子带的张量形状为[句子数，句子长度，40]，最后一个子带的形状为[句子数，句子长度，42]，将当前子带的输入和其邻近的子带卷积输出相拼接，然后再进行一维的空洞卷积操作，在每个子带卷积之后，采用指数线性激活，经过多个多尺度分析单元之后，利用一层1024维的全连接层对多尺度分析后的特征进行拓展，并将输出的特征张量再重塑成4维的张量形式[句子数，句子长度，4，256]，紧接着，将两组重塑后的特征张量分别送进门控解码模块进行解码操作。10.一种相位敏感的门控多尺度空洞卷积网络语音增强系统，其特征在于：包括可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现如权利要求1至9中任一项所述的方法。

完整全部详细技术资料下载

当前第2页1 2 3