本发明涉及骨传导语音信号传输,尤其涉及一种基于扩散概率模型的可扩展骨传导语音信号传输方法。
背景技术:
1、空气传导语音是通过将空气传播的声波转换为电信号来记录语音,骨传导语音信号是通过将围绕说话人头骨的振动转换为电信号来记录语音,这意味着在嘈杂的环境中,如公共交通或者嘈杂的工作场所,使用骨传导设备能够更清晰准确的传递语音信息。然而,由于其传播机理的限制,骨传导语音存在以下缺点:由于人体骨骼相当于一个低通滤波器,导致骨传导语音信号中的高频分量丢失,其能量分布通常限制在2khz以下。这会大大降低语音的清晰度,使骨传导语音听起来沉闷。在语音通信过程中,发送端需要将骨传导语音信号编码压缩为二进制码流发送至接收端,为了充分利用骨传导语音的优势并克服其局限性,一些研究工作尝试开发用于骨传导语音信号的高频补偿技术,并使用现有的语音编解码器对增强后的骨传导语音进行编码。这使得骨传导语音能够更得到广泛地应用。
2、传统的语音编解码器用于通过上述方法后获得的增强骨传导语音进行编码,以便在通信信道上进行传输,再由接收端进行解码和播放。但这个过程包括两个步骤:骨传导语音的增强、增强后语音的编码,两个独立步骤导致了较大的计算复杂度。传统语音编解码器还无法在较低比特率下进行语音编解码。
技术实现思路
1、根据现有技术存在的问题,本发明公开了一种基于扩散概率模型的可扩展骨传导语音信号传输方法,具体包括如下步骤:
2、采集待发送的骨传导语音信号以及该骨传导语音对应的空气传导语音信号,基于骨传导语音信号和空气传导语音信号建立训练集和测试集;
3、构建基于扩散概率模型的骨传导语音编解码器网络,所述骨传导语音编解码器网络包括语音编码器、残差矢量量化器和语音解码器,所述语音编码器包括生成模型和扩散概率模型,其中生成模型包括特征提取模块、高频重建模块和整体优化模块;
4、在划分好的训练集上训练骨传导语音编解码器网络并对该网络参数进行更新,利用反向传播算法传递该网络的梯度值,反复训练更新该网络参数、控制生成的语音信号逼近空气传导语音信号从而获得最佳模型参数,完成该骨传导语音编解码器的训练过程;
5、进入部署阶段,将所述语音编码器和语音解码器分开控制,将测试集中的骨传导语音信号输入至加载最佳模型参数的骨传导语音编解码器网络中获得待发送的二进制码流;
6、将所述二进制码流经发送端传输到接收端,采用语音解码器对二进制码流进行解码合成空气传导语音;
7、将连续的空气传导语音通过扬声器播放。
8、进一步的,所述生成模型从采样率为16khz的骨传导语音信号生成粗略增强的语音信号,将该语音输入扩散概率模型进行增强处理,以生成采样率为48khz的空气传导语音信号,其中采样率为48khz的音频信号通过子带滤波器被分为五个子带,分别是0~4khz、4~8khz、8~12khz、12~16khz和16~20khz,其中每个子带经过改进的离散余弦变换,作为残差矢量量化器的输入语音特征。
9、进一步的,所述残差矢量量化器包括五个结构完全相同、模型参数不同的残差矢量量化器分支,将由语音编码器产生的语音特征分别输入五个残差矢量量化器分支中进行量化处理获得五个量化结果。
10、进一步的,所述特征提取模块包括两种类型的卷积:3×3卷积+relu和1×1卷积+relu,其中卷积+relu表示卷积后跟随relu激活函数,具体来说,当层数为奇数时使用3×3卷积+relu,而当层数为偶数时使用1×1卷积+relu,采用残差学习整合层次信息并保留浅层信息,该过程表示为
11、okf=r((conv1(conv2(ofull)))+conv3(conv4(okey))) (1)
12、其中,r表示relu函数,convi表示卷积操作,ofull和okey分别表示全局和局部关键特征,okf表示特征提取模块的输出信息。
13、进一步的,所述高频重建模块基于u-net结构的生成器模型,采用对称的编码器块和解码器块,并具有跳跃连接结构,其中编码器的布局与解码器对称,跳跃连接添加在每个编码器块与其对称的解码器块之间,最外层的跳跃连接仅连接输出的必要语音通道,编码器块和解码器块各包含四个块,并分别夹在两个常规卷积层之间,编码器块包括四个下采样层,其中下采样倍数分别为2、2、8和8,而解码器块则以相反的顺序进行上采样;每次下采样时,通道数量加倍;每次上采样时,通道数量减半,每个解码器块由一个上采样层和三个残差单元组成,每个单元包含扩张率分别为1、3和9的一维卷积,编码器块与解码器块相对应,由相同的残差单元组成,并通过一维卷积实现降采样。
14、进一步的,所述生成模型中的整体优化模块包含1层relu、4层conv+relu和1层conv;每个conv+relu层由一个卷积层和一个relu激活函数组成,其中卷积层的滤波器大小为3×3,输入和输出通道数均为64,最终的卷积层的滤波器大小为3×3,输入和输出通道数分别为64和1,该过程表示为
15、orb=cv1(r(cv2(r(cv3(r(cv4(r(cv5(ohf))))))))) (2)
16、其中,r表示relu函数,cvi表示卷积操作,ohf表示高频重建模块的输出,orb表示特征提取模块的输出。
17、进一步的,所述扩散概率模型是一种生成趋势的生成模型,通过迭代的蒙特卡罗马尔可夫链采样,从简单的噪声分布(如正态分布)生成复杂数据。扩散概率模型的工作包含两个过程:正向过程和反向过程。其中正向过程是基于概率模型的一种逐步生成的机制,按照时间步或序列依赖关系,从初始状态开始依次生成后续状态,可记作q(y1:n|y),表示给定条件y下从y1到yn的联合分布,即条件概率q(yn|yn-1)表示在已知前一个状态yn-1后,当前状态yn的可能性。其中固定的噪声方差为λ1:n=[λ1,λ2,...,λn]是通过线性插值从0.001到0.02设定的,该过程由多个高斯分布相乘构成。正向过程可表示为
18、
19、其中,y代表输入信号,i表示单位矩阵,在该公式中起到缩放作用,确保高斯分布的协方差矩阵是对角阵,并且每个元素等于λn。这种设置允许模型通过不同的缩放因子控制噪声强度,从而在调整生成数据的变化性方面提供更大的灵活性。
20、逆过程由参数ω表示,定义为扩散的反向过程,模型从高斯分布中采样yn开始,这表示一个随机噪声。逆过程被定义为转换概率的乘积,通过逆过程的转换概率,模型逐步移除噪声,得到接近真实数据的样本。转换概率pω(yn-1|yn)表示从当前状态yn恢复到前一个状态yn-1的条件概率。该概率分布被建模为一个多元高斯分布。
21、
22、其中,μω(yn,n)和分别为模型估计的yn-1的均值和方差。潜变量yn-1从分布p(yn-1|yn)中采样。
23、逆向过程可表示为
24、
25、其中,∈ω是模型估计的噪声,其中φn定义为1-λn,定义为
26、由于采用了上述技术方案,本发明公开的一种基于扩散概率模型的可扩展骨传导语音信号传输方法,具有如下优点:采用深度学习模型,提出了一个适用于骨传导语音的神经语音编解码器架构,能够在语音编码的同时实现语音增强,降低了使用的复杂度。
27、引入可扩展的思想,在传输过程中可以根据网络负载的变化动态调整数据包,传输的数据包被分为五个等级:code1、code2、code3、code4和code5,其中code1为基础层,code2、code3、code4和code5为增强层。当网络负载较低时,可以完整地传输数据包。当网络负载较高时,在确保基础层不丢失的前提下,从code5开始依次丢弃数据包,以满足网络的传输需求。即使部分数据包丢失,也能解码出高质量的语音信号,从而实现可扩展骨传导语音信号传输方法。
28、残差矢量量化器采用五个结构完全相同,但模型参数不同的残差矢量量化器,将由编码器产生的语音特征同时送入到五个结构完全相同,但模型参数不同的残差矢量量化器中进行量化处理获得五个量化结果。
29、语音解码器部分采用了高保真语音合成的生成对抗网络声码器作为可扩展神经骨传导语音编解码器的解码器架构。高保真语音合成的生成对抗网络是目前最先进的神经声码器之一,能够实现高度真实的语音合成。
30、架构中采用特征提取模块,该模块首先提取语音信号的低频特征,并通过残差学习逐步聚合这些特征,这可以增强网络对语音低频信号的关注,同时提高浅层对深层的记忆能力。此外,残差连接也是促进网络特征学习和融合能力的有效方式,因为它们能在不引入过多额外参数的情况下提高性能。
31、架构中采用高频重建模块,该模块首先使用卷积网络将全局特征和提取的关键特征转换为非线性。然后,利用残差学习来整合全局和局部特征。接着,将融合后的特征输入编码器-解码器网络,以有效重建语音信号的高频成分。
32、架构中采用整体优化模块,以进一步精细化高频重建模块重建的语音信号的高频部分,从而改善语音质量。