一种基于扩散概率模型的可扩展骨传导语音信号传输方法

文档序号:42188825发布日期:2025-06-17 18:03阅读:32来源:国知局
技术特征:

1.一种基于扩散概率模型的可扩展骨传导语音信号传输方法,其特征在于包括:

2.根据权利要求1所述的一种基于扩散概率模型的可扩展骨传导语音信号传输方法,其特征在于:所述生成模型从采样率为16khz的骨传导语音信号生成粗略增强的语音信号,将该语音输入扩散概率模型进行增强处理,以生成采样率为48khz的空气传导语音信号,其中采样率为48khz的音频信号通过子带滤波器被分为五个子带,分别是0~4khz、4~8khz、8~12khz、12~16khz和16~20khz,其中每个子带经过改进的离散余弦变换,作为残差矢量量化器的输入语音特征。

3.根据权利要求2所述的一种基于扩散概率模型的可扩展骨传导语音信号传输方法,其特征在于:所述残差矢量量化器包括五个结构完全相同、模型参数不同的残差矢量量化器分支,将由语音编码器产生的语音特征分别输入五个残差矢量量化器分支中进行量化处理获得五个量化结果。

4.根据权利要求1所述的一种基于扩散概率模型的可扩展骨传导语音信号传输方法,其特征在于:所述特征提取模块包括两种类型的卷积:3×3卷积+relu和1×1卷积+relu,其中卷积+relu表示卷积后跟随relu激活函数,具体来说,当层数为奇数时使用3×3卷积+relu,而当层数为偶数时使用1×1卷积+relu,采用残差学习整合层次信息并保留浅层信息,该过程表示为

5.根据权利要求1所述的一种基于扩散概率模型的可扩展骨传导语音信号传输方法,其特征在于:所述高频重建模块基于u-net结构的生成器模型,采用对称的编码器块和解码器块,并具有跳跃连接结构,其中编码器的布局与解码器对称,跳跃连接添加在每个编码器块与其对称的解码器块之间,最外层的跳跃连接仅连接输出的必要语音通道,编码器块和解码器块各包含四个块,并分别夹在两个常规卷积层之间,编码器块包括四个下采样层,其中下采样倍数分别为2、2、8和8,而解码器块则以相反的顺序进行上采样;每次下采样时,通道数量加倍;每次上采样时,通道数量减半,每个解码器块由一个上采样层和三个残差单元组成,每个单元包含扩张率分别为1、3和9的一维卷积,编码器块与解码器块相对应,由相同的残差单元组成,并通过一维卷积实现降采样。

6.根据权利要求1所述的一种基于扩散概率模型的可扩展骨传导语音信号传输方法,其特征在于:所述生成模型中的整体优化模块包含1层relu、4层conv+relu和1层conv;每个conv+relu层由一个卷积层和一个relu激活函数组成,其中卷积层的滤波器大小为3×3,输入和输出通道数均为64,最终的卷积层的滤波器大小为3×3,输入和输出通道数分别为64和1,该过程表示为


技术总结
本发明公开了一种基于扩散概率模型的可扩展骨传导语音信号传输方法,包括:获取骨传导语音信号以及对应的空气传导语音信号,基于骨传导语音信号与空气传导语音信号建立训练集和测试集,构建基于扩散概率模型的可扩展骨传导语音编解码器网络,本文发明方法能够在语音编码的同时实现语音增强,降低了使用的复杂度。避免了传统语音编解码器无法在较低比特率下进行语音编解码的问题。除此之外还引入了可扩展的思想,在传输过程中可以根据网络负载的变化动态调整数据包,以满足网络的传输需求。即使部分数据包丢失,也能解码出高质量的语音信号,从而实现可扩展骨传导语音信号传输方法。

技术研发人员:胡小龙,陈喆,殷福亮
受保护的技术使用者:大连理工大学
技术研发日:
技术公布日:2025/6/16
当前第2页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!