本技术涉及音频处理,特别是涉及一种音频修复方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术:
1、在金融业务场景中,有时候需要对金融系统的音频进行审核,比如贷款面签过程中的音频。为了方便进行音频审核,需要对金融系统的音频进行修复,避免音频质量较差,影响音频审核结果。
2、传统技术中,对金融系统的音频进行修复时,主要是通过降噪的方式对音频进行修复。但是,在音频降噪过程中,可能存在音频损失的情况,导致音频修复效果较差。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高音频修复效果的音频修复方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本技术提供了一种音频修复方法。所述方法包括:
3、获取金融系统的待修复音频的原始频谱图;
4、对所述原始频谱图进行特征提取处理,得到所述待修复音频的原始频谱特征图,对所述原始频谱特征图进行不同倍数的下采样处理,得到所述待修复音频的多个尺度的频谱特征图;
5、对各个尺度的频谱特征图进行特征提取处理,得到所述各个尺度的目标频谱特征图;
6、根据所述待修复音频和所述各个尺度的目标频谱特征图,进行音频重建处理,得到所述待修复音频的目标频谱图;
7、对所述目标频谱图进行音频转化,得到所述待修复音频的修复音频。
8、在其中一个实施例中,所述对所述原始频谱图进行特征提取处理,得到所述待修复音频的原始频谱特征图,包括:
9、将所述原始频谱图输入预先训练的音频修复模型中的卷积层进行卷积处理,得到所述原始频谱图的特征图,作为所述待修复音频的原始频谱特征图;
10、所述对各个尺度的频谱特征图进行特征提取处理,得到所述各个尺度的目标频谱特征图,包括:
11、将所述各个尺度的频谱特征图输入所述预先训练的音频修复模型中的各个特征提取层进行特征提取处理,得到所述各个尺度的目标频谱特征图;所述各个特征提取层均包括多个依次连接的子特征提取层。
12、在其中一个实施例中,所述根据所述待修复音频和所述各个尺度的目标频谱特征图,进行音频重建处理,得到所述待修复音频的目标频谱图,包括:
13、对所述各个尺度的目标频谱特征图进行不同倍数的上采样处理,得到多个同一尺度的目标频谱特征图;
14、将所述待修复音频和所述多个同一尺度的目标频谱特征图进行叠加后,输入所述预先训练的音频修复模型中的重建层进行音频重建处理,得到所述待修复音频的重建频谱图,作为所述待修复音频的目标频谱图。
15、在其中一个实施例中,所述预先训练的音频修复模型通过下述方式训练得到:
16、获取金融系统的样本音频和所述样本音频的实际修复音频;
17、获取所述样本音频的原始频谱图;
18、将所述样本音频的原始频谱图输入待训练的音频修复模型,得到所述样本音频的目标频谱图;
19、对所述样本音频的目标频谱图进行音频转化,得到所述样本音频的预测修复音频;
20、根据所述样本音频的预测修复音频和实际修复音频,对所述待训练的音频修复模型进行训练,得到训练完成的音频修复模型,作为所述预先训练的音频修复模型。
21、在其中一个实施例中,所述根据所述样本音频的预测修复音频和实际修复音频,对所述待训练的音频修复模型进行训练,得到训练完成的音频修复模型,包括:
22、根据所述样本音频的预测修复音频和实际修复音频,确定重建损失值、感知损失值和对抗损失值;
23、将所述重建损失值、所述感知损失值和所述对抗损失值进行融合处理,得到目标损失值;
24、根据所述目标损失值,对所述待训练的音频修复模型进行训练,直到达到训练结束条件;
25、将达到所述训练结束条件的训练后的音频修复模型,作为训练完成的音频修复模型。
26、在其中一个实施例中,在对所述目标频谱图进行音频转化,得到所述待修复音频的修复音频之后,还包括:
27、提取所述修复音频的目标音频特征;
28、将所述目标音频特征和所述待修复音频进行叠加,得到所述待修复音频的目标修复音频。
29、在其中一个实施例中,所述获取金融系统的待修复音频的原始频谱图,包括:
30、对金融系统的待修复音频进行预处理,得到预处理后音频;
31、对所述预处理后音频进行傅里叶变换,得到频谱图,作为所述待修复音频的原始频谱图。
32、第二方面,本技术还提供了一种音频修复装置。所述装置包括:
33、获取模块,用于获取金融系统的待修复音频的原始频谱图;
34、处理模块,用于对所述原始频谱图进行特征提取处理,得到所述待修复音频的原始频谱特征图,对所述原始频谱特征图进行不同倍数的下采样处理,得到所述待修复音频的多个尺度的频谱特征图;
35、提取模块,用于对各个尺度的频谱特征图进行特征提取处理,得到所述各个尺度的目标频谱特征图;
36、重建模块,用于根据所述待修复音频和所述各个尺度的目标频谱特征图,进行音频重建处理,得到所述待修复音频的目标频谱图;
37、转化模块,用于对所述目标频谱图进行音频转化,得到所述待修复音频的修复音频。
38、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
39、获取金融系统的待修复音频的原始频谱图;
40、对所述原始频谱图进行特征提取处理,得到所述待修复音频的原始频谱特征图,对所述原始频谱特征图进行不同倍数的下采样处理,得到所述待修复音频的多个尺度的频谱特征图;
41、对各个尺度的频谱特征图进行特征提取处理,得到所述各个尺度的目标频谱特征图;
42、根据所述待修复音频和所述各个尺度的目标频谱特征图,进行音频重建处理,得到所述待修复音频的目标频谱图;
43、对所述目标频谱图进行音频转化,得到所述待修复音频的修复音频。
44、第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
45、获取金融系统的待修复音频的原始频谱图;
46、对所述原始频谱图进行特征提取处理,得到所述待修复音频的原始频谱特征图,对所述原始频谱特征图进行不同倍数的下采样处理,得到所述待修复音频的多个尺度的频谱特征图;
47、对各个尺度的频谱特征图进行特征提取处理,得到所述各个尺度的目标频谱特征图;
48、根据所述待修复音频和所述各个尺度的目标频谱特征图,进行音频重建处理,得到所述待修复音频的目标频谱图;
49、对所述目标频谱图进行音频转化,得到所述待修复音频的修复音频。
50、第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
51、获取金融系统的待修复音频的原始频谱图;
52、对所述原始频谱图进行特征提取处理,得到所述待修复音频的原始频谱特征图,对所述原始频谱特征图进行不同倍数的下采样处理,得到所述待修复音频的多个尺度的频谱特征图;
53、对各个尺度的频谱特征图进行特征提取处理,得到所述各个尺度的目标频谱特征图;
54、根据所述待修复音频和所述各个尺度的目标频谱特征图,进行音频重建处理,得到所述待修复音频的目标频谱图;
55、对所述目标频谱图进行音频转化,得到所述待修复音频的修复音频。
56、上述音频方法、装置、计算机设备、存储介质和计算机程序产品,通过获取金融系统的待修复音频的原始频谱图,并对原始频谱图进行特征提取处理,得到待修复音频的原始频谱特征图,对原始频谱特征图进行不同倍数的下采样处理,得到待修复音频的多个尺度的频谱特征图;然后对各个尺度的频谱特征图进行特征提取处理,得到各个尺度的目标频谱特征图,并根据待修复音频和各个尺度的目标频谱特征图,进行音频重建处理,得到待修复音频的目标频谱图;最后对目标频谱图进行音频转化,得到待修复音频的修复音频。这样,在进行音频修复时,将待修复音频转化为频谱图进行处理,并利用待修复音频的不同尺度的目标频谱特征图中的特征细节不一样,且不同尺度的目标频谱特征图之间具备一定的结构相似性的特点,来辅助目标频谱图的重建,使得基于待修复音频和各个尺度的目标频谱特征图重建出的目标频谱图的质量更高,进而使得基于目标频谱图转化得到的修复音频的音频质量更高,避免了通过降噪方式对音频进行修复,容易存在音频损失情况,导致音频修复效果较差的缺陷,从而提高了音频修复效果。同时,先对原始频谱图进行特征提取处理和下采样处理,得到不同尺度的频谱特征图,再对不同尺度的频谱特征图进行特征提取处理,可以不断优化不同尺度的频谱特征图的特征,使得重建出的目标频谱图的质量更高,进而使得通过目标频谱图转化得到的修复音频的修复效果更好,有利于进一步提高音频修复效果。