本发明涉及语音信号处理,特别是涉及一种基于门控重标定与路由加权的语音重建方法及系统。
背景技术:
1、低速率语音编码技术在卫星通信、短波通信、水声通信及保密通信等带宽受限、信道环境复杂的应用场景中具备重要实用价值与迫切需求。采用低比特率语音编码方案,可有效节约带宽与传输资源,提高通信链路利用率,也为语音加密与安全传输预留更大实现空间,因此成为恶劣信道与窄带条件下语音通信的核心支撑技术。
2、近年来,基于深度学习的神经声码器在中高码率语音生成任务中已取得较好效果,然而在低比特率场景下仍存在明显瓶颈:编码特征在通道维度存在信息冗余与分布不均问题,量化资源易被感知贡献度较低的特征通道占用,导致对高频擦音、瞬态突变等关键感知细节的表达能力不足,重建语音出现高频模糊、边界钝化、失真加剧等现象。
技术实现思路
1、为了解决现有技术的不足,本发明提供了一种基于门控重标定与路由加权的语音重建方法及系统,在保持编码器-量化器-解码器主流程不变的前提下,通过轻量级门控重标定与训练阶段路由加权,提升重建语音清晰度、自然度与细节保真度,尤其改善低比特率下高频擦音细节与瞬态结构易受损的问题。
2、一方面,提供了一种基于门控重标定与路由加权的语音重建方法,包括:
3、获取原始语音信号,并进行预处理;
4、将预处理后的语音信号输入至神经声码器模型中,输出得到重建语音信号;
5、其中,所述预处理后的语音信号在神经声码器模型中的处理过程包括:
6、输入的语音信号首先进入编码器,编码器由多级一维卷积下采样结构及序列建模结构共同构成,得到编码特征;随后将所述编码特征输入组内通道门控重标定模块,对编码特征进行通道分组并提取组级全局统计,生成组门控权重,并基于所述组门控权重对编码特征进行自适应重标定,以得到重标定后的特征;将重标定后的特征输入残差矢量量化器进行离散化,得到离散索引序列;解码时,根据所述离散索引序列恢复量化特征,并将恢复的量化特征输入解码器,通过上采样与波形重建进行解码,得到重建语音。
7、进一步的,组内通道门控重标定模块包括特征统计模块、门控生成模块和广播重标定模块。
8、进一步的,编码特征进入特征统计模块,对编码特征执行全局平均池化,得到通道统计向量,随后按照预设组数对通道维进行划分,并将统计向量重新排列,在组内通道维度上进行均值聚合获得组级描述向量;
9、所述组级描述向量进一步输入门控生成模块,所述门控生成模块由两层全连接层构成,用于生成组门控权重;
10、所述组门控权重随后输入广播重标定模块,以得到重标定后的特征表示。
11、进一步的,在神经声码器模型训练框架中引入基于路由引导的自适应加权重建损失机制,在训练阶段参与损失计算与参数更新。
12、进一步的,基于路由引导的自适应加权重建损失机制,包括:
13、将重标定后的特征输入轻量级路由网络,路由网络由两层一维卷积构成,基于逐时间帧的通道统计信息得到预设路由状态上的概率分布,所述概率分布用于确定重建损失加权系数的组合方式;
14、随后,对逐帧概率沿时间维进行聚合得到样本级路由系数,并将该系数与预设的权重模板线性组合,形成作用于mel频谱域的通道段权重向量;
15、在重建损失计算中,将该权重向量施加于mel频谱差异,得到路由引导的自适应加权重建损失。
16、进一步的,预设的权重模板为三个具有不同加权特性的mel通道段加权模板:第一模板为低中频通道段侧重模板;第二模板为平滑过渡模板;第三模板为高频通道段侧重模板。
17、另一方面,提供了基于门控重标定与路由加权的语音重建系统,包括:
18、信号获取模块:获取原始语音信号,并进行预处理;
19、语音重建模块:将预处理后的语音信号输入至神经声码器模型中,输出得到重建语音信号;
20、其中,所述预处理后的语音信号在神经声码器模型中的处理过程包括:
21、输入的语音信号首先进入编码器,编码器由多级一维卷积下采样结构及序列建模结构共同构成,得到编码特征;随后将所述编码特征输入组内通道门控重标定模块,对编码特征进行通道分组并提取组级全局统计,生成组门控权重,并基于所述组门控权重对编码特征进行自适应重标定,以得到重标定后的特征;将重标定后的特征输入残差矢量量化器进行离散化,得到离散索引序列;解码时,根据所述离散索引序列恢复量化特征,并将恢复的量化特征输入解码器,通过上采样与波形重建进行解码,得到重建语音。
22、再一方面,还提供了一种电子设备,包括:
23、存储器,用于非暂时性存储计算机可读指令;以及
24、处理器,用于运行所述计算机可读指令,
25、其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
26、再一方面,还提供了一种存储介质,非暂时性存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法。
27、再一方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
28、上述技术方案具有如下优点或有益效果:
29、本发明公开了一种基于门控重标定与路由加权的语音重建方法及系统,通过对输入语音进行编码得到编码特征,并在编码器输出端引入组内通道门控重标定模块对编码特征进行重标定,从而提升编码特征的信息有效性与量化效率。在训练阶段引入路由网络根据编码特征输出路由状态概率分布,并基于所述路由状态概率分布对重建损失进行自适应加权,以优化模型参数,从而提升低比特率条件下的语音重建质量。
1.一种基于门控重标定与路由加权的语音重建方法,其特征在于,包括:
2.根据权利要求1所述的一种基于门控重标定与路由加权的语音重建方法,其特征在于,组内通道门控重标定模块包括特征统计模块、门控生成模块和广播重标定模块。
3.根据权利要求2所述的一种基于门控重标定与路由加权的语音重建方法,其特征在于,编码特征进入特征统计模块,对编码特征执行全局平均池化,得到通道统计向量,随后按照预设组数对通道维进行划分,并将统计向量重新排列,在组内通道维度上进行均值聚合获得组级描述向量;
4.根据权利要求1所述的一种基于门控重标定与路由加权的语音重建方法,其特征在于,在神经声码器模型训练框架中引入基于路由引导的自适应加权重建损失机制,在训练阶段参与损失计算与参数更新。
5.根据权利要求4所述的一种基于门控重标定与路由加权的语音重建方法,其特征在于,基于路由引导的自适应加权重建损失机制,包括:
6.根据权利要求5所述的一种基于门控重标定与路由加权的语音重建方法,其特征在于,预设的权重模板为三个具有不同加权特性的mel通道段加权模板:第一模板为低中频通道段侧重模板;第二模板为平滑过渡模板;第三模板为高频通道段侧重模板。
7.一种基于门控重标定与路由加权的语音重建系统,其特征在于,采用上述权利要求1-6任一项所述的一种基于门控重标定与路由加权的语音重建方法,包括:
8.一种电子设备,其特征在于,包括:
9.一种存储介质,其特征在于,非暂时性存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行上述权利要求1-6任一项所述的一种基于门控重标定与路由加权的语音重建方法。
10.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述权利要求1-6任一项所述的一种基于门控重标定与路由加权的语音重建方法。