本申请涉及语音通信,特别是涉及一种语音通信系统及方法。
背景技术:
1、目前,语音编解码技术已经广泛应用于语音通信等技术领域。其中,语音编解码(speech codec)技术指的是将语音信号压缩为离散码后,再利用这些离散码重构语音信号的技术,利用语音编解码器即可实现语音编解码。
2、相关技术中,语音编解码器主要分为参数编解码器和波形编解码器。其中,参数编解码器通常是对语音信号的特征参数进行解码和编码。由于语音信号具有短时平稳特性,因此参数编解码器具有编码比特率较低的优点。但是,参数编解码器也具有解码出的语音信号质量较差且对噪声敏感的缺点。波形编解码器通常是对语音信号的波形进行编码和解码,因此波形编解码器解码出的语音信号具有高还原度的优点,但是这也需要更高的编码比特率,从而增加了语音信号的存储和传输成本。
3、因此,如何用尽量少的比特(即低编码比特率)存储或传输语音信号的同时,保证解码出的语音信号性能较好,成为亟待解决的技术问题。
技术实现思路
1、本申请提供了一种语音通信系统及方法,能够在低编码比特率存储或传输语音信号的同时,保证解码出的语音信号性能较好。
2、本申请公开了如下技术方案:
3、第一方面,本申请提供了一种语音通信系统,所述系统包括:第一电子设备和第二电子设备;
4、所述第一电子设备,用于获取语音信号的波形;通过短时傅里叶变换,从所述语音信号的波形中提取第一对数幅度谱和第一相位谱;根据所述第一对数幅度谱和所述第一相位谱,生成连续码;对所述连续码进行离散化处理,得到索引向量;将所述索引向量发送至所述第二电子设备;
5、所述第二电子设备,用于根据所述索引向量,生成量化码;根据所述量化码,生成第二对数幅度谱和第二相位谱;通过逆短时傅里叶变换,将所述第二对数幅度谱和所述第二相位谱恢复为所述语音信号的波形。
6、可选的,所述第一电子设备包括:编码器模块和量化器模块;
7、所述编码器模块,用于获取语音信号的波形;通过短时傅里叶变换,从所述语音信号的波形中提取第一对数幅度谱和第一相位谱;根据所述第一对数幅度谱和所述第一相位谱,生成连续码;将所述连续码发送至所述量化器模块;
8、所述量化器模块,用于对所述连续码进行离散化处理,得到索引向量;将所述索引向量发送至所述第二电子设备。
9、可选的,所述编码器模块具体用于:对所述第一对数幅度谱进行编码,得到幅度码;对所述第一相位谱进行编码,得到相位码;将所述幅度码和所述相位码进行拼接,生成连续码。
10、可选的,所述编码器模块包括:幅度子编码器和相位子编码器;
11、所述幅度子编码器,用于对所述第一对数幅度谱进行编码,得到幅度码;
12、所述相位子编码器,用于对所述第一相位谱进行编码,得到相位码。
13、可选的,所述第二电子设备包括:解码器模块;
14、所述解码器模块,用于根据所述索引向量,生成量化码;根据所述量化码,生成第二对数幅度谱和第二相位谱;通过逆短时傅里叶变换,将所述第二对数幅度谱和所述第二相位谱恢复为所述语音信号的波形。
15、可选的,所述第二电子设备还用于:
16、根据所述量化码、所述第二对数幅度谱、所述第二相位谱和所述语音信号的波形,生成波形恢复模型,所述波形恢复模型为通过所述量化码生成所述语音信号的波形的神经网络模型。
17、可选的,所述第二电子设备还用于:根据幅度谱损失函数、相位谱损失函数、短时谱损失函数和波形损失函数中的一种或多种损失函数的值,更新所述波形恢复模型。
18、可选的,所述相位谱损失函数为瞬时相位损失函数、群延时损失函数和瞬时角频率损失函数的线性组合,所述短时谱损失函数为实部损失函数、虚部损失函数和短时谱一致性损失函数的线性组合,所述波形损失函数为生成对抗网络的损失函数、特征匹配损失函数和梅尔谱损失函数的线性组合。
19、第二方面,本申请提供了一种语音通信方法,应用于第一电子设备,所述方法包括:
20、获取语音信号的波形;
21、通过短时傅里叶变换,从所述语音信号的波形中提取第一对数幅度谱和第一相位谱;
22、根据所述第一对数幅度谱和所述第一相位谱,生成连续码;
23、对所述连续码进行离散化处理,得到索引向量;
24、将所述索引向量发送至第二电子设备。
25、第三方面,本申请提供了一种语音通信方法,应用于第二电子设备,所述方法包括:
26、接收第一电子设备发送的索引向量;
27、根据所述索引向量,生成量化码;
28、根据所述量化码,生成第二对数幅度谱和第二相位谱;
29、通过逆短时傅里叶变换,将所述第二对数幅度谱和所述第二相位谱恢复为语音信号的波形。
30、相较于现有技术,本申请具有以下有益效果:
31、本申请提供了一种语音通信系统及方法,该系统包括:第一电子设备和第二电子设备;第一电子设备,用于获取语音信号的波形;通过短时傅里叶变换,从语音信号的波形中提取第一对数幅度谱和第一相位谱;根据第一对数幅度谱和第一相位谱,生成连续码;对连续码进行离散化处理,得到索引向量;将索引向量发送至第二电子设备;第二电子设备,用于根据索引向量,生成量化码;根据量化码,生成第二对数幅度谱和第二相位谱;通过逆短时傅里叶变换,将第二对数幅度谱和第二相位谱恢复为语音信号的波形。由此,通过短时傅里叶变换,将还原度高的语音信号的波形转换为语音幅度谱和相位谱,再通过语音幅度谱和相位谱作为语音参数特征进行平行地编码。类似的,也可以对编码出的量化码进行平行的解码,再将解码出的语音幅度谱和相位谱通过逆短时傅里叶变换,还原为语音信号的波形,在低编码比特率存储或传输语音信号的同时,保证解码出的语音信号性能较好,从而提高了语音通信的效率和还原度。
1.一种语音通信系统,其特征在于,所述系统包括:第一电子设备和第二电子设备;
2.根据权利要求1所述的系统,其特征在于,所述第一电子设备包括:编码器模块和量化器模块;
3.根据权利要求2所述的系统,其特征在于,所述编码器模块具体用于:对所述第一对数幅度谱进行编码,得到幅度码;对所述第一相位谱进行编码,得到相位码;将所述幅度码和所述相位码进行拼接,生成连续码。
4.根据权利要求3所述系统,其特征在于,所述编码器模块包括:幅度子编码器和相位子编码器;
5.根据权利要求1所述的系统,其特征在于,所述第二电子设备包括:解码器模块;
6.根据权利要求1所述的系统,其特征在于,所述第二电子设备还用于:
7.根据权利要求6所述的方法,其特征在于,所述第二电子设备还用于:根据幅度谱损失函数、相位谱损失函数、短时谱损失函数和波形损失函数中的一种或多种损失函数的值,更新所述波形恢复模型。
8.根据权利要求7所述的方法,其特征在于,所述相位谱损失函数为瞬时相位损失函数、群延时损失函数和瞬时角频率损失函数的线性组合,所述短时谱损失函数为实部损失函数、虚部损失函数和短时谱一致性损失函数的线性组合,所述波形损失函数为生成对抗网络的损失函数、特征匹配损失函数和梅尔谱损失函数的线性组合。
9.一种语音通信方法,其特征在于,应用于第一电子设备,所述方法包括:
10.一种语音通信方法,其特征在于,应用于第二电子设备,所述方法包括: