本公开涉及音频处理领域,尤其涉及一种音质评估模型的训练方法及装置、音质评估方法及装置。
背景技术:
1、音乐、长视频、短视频等多媒体数据已经广泛存在于人们的日常生活中。对于提供这些数据和服务的流媒体平台,无论平台的音频算法迭代,还是网络传输服务提供商的资源统筹和排障,都需要一种能够在各种使用场景下评价音频质量的方法。但是,目前的基于信号处理的客观音频质量评估算法,如常用的音频质量的感知评价(perceptualevaluation of audio quality,缩写为peaq)和虚拟语音质量目标听者(virtual speechquality objective listener,缩写为visqol)等,需要同时输入损伤音频和参考音频,由于在很多实际使用场景中无法得到参考音频,因此使用场景相对受限。
技术实现思路
1、本公开提供一种音质评估模型的训练方法及装置、音质评估方法及装置,以至少解决相关技术中音频质量评估应用场景单一的问题。
2、根据本公开实施例的第一方面,提供一种音质评估模型的训练方法,包括:获取音频样本,其中,音频样本是基于至少一种预定损伤类型对对应原始音频进行处理得到的,且每个音频样本具有对应的音质评估标签,音质评估标签是基于音频样本的多个预定评估指标信息得到的;将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息;基于音频样本的音质评估标签和预估音质评估信息,计算损失;基于损失调整音质评估模型的参数。
3、可选地,音质评估标签通过如下方式得到:基于音频样本和对应的原始音频,得到音频样本的多个预定评估指标信息;将多个预定评估指标信息进行融合,得到音频样本的音质评估标签。
4、可选地,将多个预定评估指标信息进行融合,得到音频样本的音质评估标签,包括:确定多个预定评估指标信息中每个预定评估指标信息的权重;基于权重,将多个预定评估指标信息进行线性融合,得到音频样本的音质评估标签。
5、可选地,预定损失类型包括以下至少之一:不同码率的编码方式、不同截止频率的滤波器。
6、可选地,音频样本通过以下至少一种处理方式得到:通过至少一种码率的编码方式对原始音频进行编码,得到原始音频对应的音频样本;通过至少一种截止频率的滤波器对原始音频进行滤波,得到原始音频对应的音频样本。
7、可选地,音质评估模型包括至少一层二维卷积层、至少一层双向循环网络层和至少一层全连接层,将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息,包括:将音频样本的音频特征输入至少一层二维卷积层,得到音频样本的损伤信息;将损伤信息输入至少一层双向循环网络层,得到音频样本的融合损伤信息;将融合损伤信息输入至少一层全连接层,得到音频样本的预估音质评估信息。
8、可选地,将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息,包括:对音频样本进行短时傅里叶变换,得到音频样本的频谱;将频谱输入至少一个梅尔谱滤波器,得到音频样本的梅尔频谱;将音频样本的梅尔频谱输入音质评估模型,得到音频样本的预估音质评估信息。
9、可选地,基于音频样本的音质评估标签和预估音质评估信息,计算损失,包括:获取音频样本的音质评估标签和预估音质评估信息的均方误差,作为损失。
10、可选地,基于损失调整音质评估模型的参数,包括:通过最小化均方误差,调整音质评估模型的参数。
11、根据本公开实施例的第二方面,提供一种音质评估方法,包括:获取待评估音频;将待评估音频输入音质评估模型,得到待评估音频的音质评估信息,其中,音质评估模型是通过如上任意的训练方法训练得到。
12、根据本公开实施例的第三方面,提供一种音质评估模型的训练装置,包括:样本获取单元,被配置为获取音频样本,其中,音频样本是基于至少一种预定损伤类型对对应原始音频进行处理得到的,且每个音频样本具有对应的音质评估标签,音质评估标签是基于音频样本的多个预定评估指标信息得到的;音质预估单元,被配置为将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息;损失获取单元,被配置为基于音频样本的音质评估标签和预估音质评估信息,计算损失;训练单元,被配置为基于损失调整音质评估模型的参数。
13、可选地,样本获取单元,还被配置为通过如下方式得到音质评估标签:基于音频样本和对应的原始音频,得到音频样本的多个预定评估指标信息;将多个预定评估指标信息进行融合,得到音频样本的音质评估标签。
14、可选地,样本获取单元,还被配置确定多个预定评估指标信息中每个预定评估指标信息的权重;基于权重,将多个预定评估指标信息进行线性融合,得到音频样本的音质评估标签。
15、可选地,预定损失类型包括以下至少之一:不同码率的编码方式、不同截止频率的滤波器。
16、可选地,样本获取单元,还被配置为通过以下至少一种处理方式得到音频样本:通过至少一种码率的编码方式对原始音频进行编码,得到原始音频对应的音频样本;通过至少一种截止频率的滤波器对原始音频进行滤波,得到原始音频对应的音频样本。
17、可选地,音质评估模型包括至少一层二维卷积层、至少一层双向循环网络层和至少一层全连接层,音质预估单元,还被配置为将音频样本的音频特征输入至少一层二维卷积层,得到音频样本的损伤信息;将损伤信息输入至少一层双向循环网络层,得到音频样本的融合损伤信息;将融合损伤信息输入至少一层全连接层,得到音频样本的预估音质评估信息。
18、可选地,音质预估单元,还被配置为对音频样本进行短时傅里叶变换,得到音频样本的频谱;将频谱输入至少一个梅尔谱滤波器,得到音频样本的梅尔频谱;将音频样本的梅尔频谱输入音质评估模型,得到音频样本的预估音质评估信息。
19、可选地,损失获取单元,还被配置为获取音频样本的音质评估标签和预估音质评估信息的均方误差,作为损失。
20、可选地,训练单元,还被配置为通过最小化均方误差,调整音质评估模型的参数。
21、根据本公开实施例的第四方面,提供一种音质评估装置,包括:待评估音频获取单元,被配置为获取待评估音频;音质信息获取单元,被配置为将待评估音频输入音质评估模型,得到待评估音频的音质评估信息,其中,音质评估模型是通过如上任意的训练方法训练得到。
22、根据本公开实施例的第五方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现根据本公开的音质评估模型的训练方法和/或音质评估方法。
23、根据本公开实施例的第六方面,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行如上根据本公开的音质评估模型的训练方法和/或音质评估方法。
24、根据本公开实施例的第七方面,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现根据本公开的音质评估模型的训练方法和/或音质评估方法。
25、本公开的实施例提供的技术方案至少带来以下有益效果:
26、根据本公开的音质评估模型的训练方法及装置、音质评估方法及装置,基于至少一种预定损伤类型对对应原始音频进行处理得到音频样本,且音频样本具有对应的音质评估标签,从而基于音质评估标签和音质评估模型输出的预估音质评估信息,可以调整音质评估模型,实现对音质评估模型的训练,训练出的音质评估模型无需参考音频,也即无需原始音频,基于音频样本(如待评估音频)既可以直接预估出相应的音质评估信息,而且本公开的音质评估标签是基于音频样本的多个预定评估指标信息得到,因此,该音质评估指标具有更好的预测准确性以及对于各种类型的音频数据的鲁棒性都很好,从而可以训练出更优秀的模型。因此,本公开解决了相关技术中音频质量评估应用场景单一的问题。
27、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。