本技术涉及编解码,更具体而言,涉及一种音频编解码方法、编解码装置、计算机设备、计算机程序产品和非易失性计算机可读存储介质。
背景技术:
1、近年来,深度学习方案被广泛应用于不同维度的信号(如音频,图像以及视频)处理技术中。在基于深度学习的音频编解码方法中,编码器会将原始音频信号转化成编码数据,解码端根据编码数据进行解码,以得到最终的重构音频信号。
2、在编解码过程中,会产生结构性延时。现有的编解码装置的参数固定,导致同一个编解码装置的结构性延时也是固定的,当结构性延时的需求发生改变时,该编解码装置无法满足当前的需求,导致适用场景受限。
技术实现思路
1、本技术实施方式提供一种音频编解码方法、编解码装置、计算机设备、计算机程序产品和非易失性计算机可读存储介质,在上采样模块中加入可配置的解码采样倍率,在下采样模块中加入可配置的编码采样倍率,以使得编解码装置可实现结构性延时的可配置,从而使得编解码装置能够适用于较多场景。
2、本技术实施方式的音频编解码方法包括获取当前配置参数,所述当前配置参数为预设的多个配置参数中的任一个,所述配置参数包括编码配置参数和解码配置参数中至少一者,当用于编码时,所述配置参数包括所述编码配置参数,当用于解码时,所述配置参数包括所述解码配置参数,所述编码配置参数至少包括编码采样倍率,所述解码配置参数至少包括解码采样倍率,各个所述配置参数至少对应的结构性延时不同;根据所述编码配置参数对输入数据进行编码,以生成编码数据;根据所述解码配置参数对所述编码数据进行解码,以生成解码数据,在基于各个所述配置参数进行编解码时,所述编解码装置的网络参数中,所述配置参数之外的其他网络参数不变。
3、在某些实施方式中,所述方法还包括:获取输入配置参数,以确定所述当前配置参数,所述输入配置参数包括编解码采样倍率、结构性延时及信号采样率中至少一者。
4、在某些实施方式中,所述获取输入配置参数,以确定所述当前配置参数,包括:根据所述输入配置参数确定一个或多个目标配置参数,所述目标配置参数为任一所述配置参数;获取输入的参数索引号,以在一个或多个所述目标配置参数中确定与所述参数索引号对应的所述当前配置参数。
5、在某些实施方式中,对应所述编码采样倍率的参数的个数根据编码器预设的下采样层数确定,对应所述解码采样倍率的参数的个数根据解码器预设的上采样层数确定,各个所述编码采样倍率的编码乘积和各个所述解码采样倍率的解码乘积相同。
6、在某些实施方式中,用于编码的下采样层的数量和用于解码的上采样层的数量相同,所述编码采样倍率和所述解码采样倍率一一对应。
7、在某些实施方式中,用于编码的下采样层的数量和用于解码的上采样层的数量不相同。
8、在某些实施方式中,所述配置参数还包括编码量化参数和解码量化参数,所述根据所述编码配置参数对输入数据进行编码,以生成编码数据,包括:根据所述编码采样倍率对所述输入数据进行下采样,以生成编码中间数据;根据所述编码量化参数对所述编码中间数据进行量化,以生成所述编码数据;所述根据所述解码配置参数对所述编码数据进行解码,以生成解码数据,包括:根据所述解码量化参数对所述编码数据进行反量化,以生成解码中间数据;根据所述解码采样倍率对所述解码中间数据进行上采样,以生成所述解码数据。
9、在某些实施方式中,所述配置参数还包括下采样层中的卷积层参数和上采样层中的卷积层参数,所述卷积层参数至少包括权重参数和偏置参数,所述根据所述编码配置参数对输入数据进行编码,以生成编码数据,包括:根据所述编码采样倍率和所述下采样层中的卷积层参数对输入数据进行编码,以生成编码数据;所述根据所述解码配置参数对所述编码数据进行解码,以生成解码数据,包括:根据所述解码采样倍率和所述上采样层中的卷积层参数对所述编码数据进行解码,以生成所述解码数据。
10、在某些实施方式中,所述配置参数包括第一目标层的所述下采样层中的卷积层参数和第二目标层的所述上采样层中的卷积层参数,所述第一目标层为所述编码采样倍率在不同的所述配置参数中发生变化的所述下采样层,所述第二目标层为所述解码采样倍率在不同的所述配置参数中发生变化的所述上采样层。
11、在某些实施方式中,所述方法还包括:获取当前输入样本,并随机选取任一所述配置参数配置所述编码器和所述解码器,当前输入样本为预设的样本集中的任一样本;通过配置后的所述编码器和所述解码器对所述当前输入样本进行编解码处理得到当前输出样本;根据所述当前输入样本和所述当前输出样本确定所述编码器和所述解码器的损失值;根据所述损失值调整所述编码器和所述解码器,以更新所述编码器和所述解码器的网络参数,直至所述编码器和所述解码器训练至收敛。
12、在某些实施方式中,所述根据所述编码配置参数对输入数据进行编码,以生成编码数据,包括:根据所述编码采样倍率和更新后的所述编码器的网络参数对输入数据进行编码,以生成编码数据;所述根据所述解码配置参数对所述编码数据进行解码,以生成解码数据,包括:根据所述解码采样倍率和更新后的所述解码器的网络参数对所述编码数据进行解码,以生成解码数据。
13、在某些实施方式中,编码器根据设定的结构性延时信息获取所述编码配置参数,解码器根据所述编码数据形成的码流中的所述结构性延时信息,获取所述解码配置参数。
14、在某些实施方式中,所述结构性延时信息的结构性延时根据所述输入数据的内容复杂度和实时性参数中至少一者确定。
15、在某些实施方式中,所述结构性延时和所述内容复杂度呈正相关关系,所述结构性延时和所述实时性参数呈负相关关系,所述内容复杂度根据所述输入数据的采样率、声道数、声源类型数量中至少一者确定。
16、本技术实施方式的编解码装置包括编码器及解码器。所述编码器用于根据当前配置参数的编码配置参数对输入数据进行编码,以生成编码数据。所述解码器用于根据所述当前配置参数的解码配置参数对所述编码数据进行解码,以生成解码数据,所述当前配置参数为预设的多个配置参数中的任一个,所述编码配置参数至少包括编码采样倍率,所述解码配置参数至少包括解码采样倍率,各个所述配置参数对应的结构性延时不同。
17、在某些实施方式中,所述配置参数还包括编码量化参数和解码量化参数,所述编码器包括下采样模块和量化模块,所述下采样模块用于根据所述编码采样倍率对所述输入数据进行下采样,以生成编码中间数据;所述量化模块用于根据所述编码量化参数对所述编码中间数据进行量化,以生成所述编码数据;所述解码器包括上采样模块和反量化模块;所述反量化模块用于根据所述解码量化参数对所述编码数据进行反量化,以生成解码中间数据;所述上采样模块用于根据所述解码采样倍率对所述解码中间数据进行上采样,以生成所述解码数据。
18、在某些实施方式中,所述编码器包括多个下采样模块,所述下采样模块包括第一卷积单元和第一残差单元,所述解码器包括多个上采样模块,所述上采样模块包括反卷积单元和第二残差单元,所述配置参数还包括第一卷积单元的卷积层参数和反卷积单元的卷积层参数;所述第一残差单元用于对所述输入数据对应的输入特征向量进行第一卷积操作,以生成第一中间特征向量;所述第一卷积单元用于根据所述编码采样倍率和所述第一卷积单元的卷积层参数对所述中间特征向量进行第二卷积操作,以生成所述编码数据,所述反卷积单元用于根据所述解码采样倍率和所述反卷积单元的卷积层参数对所述编码数据进行第三卷积操作,以生成第二中间特征向量,所述第二残差单元用于对所述第二中间特征向量进行第四卷积操作,以生成所述解码数据。
19、本技术实施方式的计算机设备包括处理器、存储器及计算机程序,其中,所述计算机程序被存储在所述存储器中,并且被所述处理器执行,所述计算机程序包括用于执行上述任一实施方式所述的音频编解码方法的指令。
20、本技术实施方式的计算机程序产品包括计算机程序,其中,所述计算机程序被所述处理器执行时实现上述任一实施方式所述的音频编解码方法。
21、本技术实施方式的非易失性计算机可读存储介质包括计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述任一实施方式所述的音频编解码方法。
22、本技术实施方式的音频编解码方法、编解码装置、计算机设备、计算机程序产品和非易失性计算机可读存储介质,在上采样模块中加入可配置的解码采样倍率,在下采样模块中加入可配置的编码采样倍率,以提供改变结构性延时的功能。当前配置参数可根据当前结构性延时要求进行调整,各个配置参数至少对应的结构性延时不同。编解码装置可获取与当前结构性延时要求对应的当前配置参数,并根据编码配置参数对输入数据进行编码,根据解码配置参数对编码数据进行编码,以生成解码数据,且在基于各个配置参数进行编解码时,编解码装置的网络参数中,配置参数之外的其他网络参数不变。如此,由于编解码装置可实现结构性延时的可配置,编码配置参数和解码配置参数都可根据结构性延时要求来进行设置,使得编解码装置可满足不同的结构性延时要求,从而使得编解码装置能够适用于较多场景。
23、本技术的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实施方式的实践了解到。