1.一种音频质量评估方法,其特征在于,包括:
获取待评估音频和参考音频;
提取所述待评估音频对应的待评估音素-时间序列,提取所述参考音频对应的参考音素-时间序列;
根据预设的评估策略为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列;
计算所述待评估音素-时间序列与所述参考音素-时间序列中对应音素的音素距离,获得音素距离-时间序列;
根据所述参考音素-时间-权重序列和所述音素距离-时间序列确定所述待评估音频的质量评估得分。
2.如权利要求1所述的音频质量评估方法,其特征在于,提取所述待评估音频对应的待评估音素-时间序列,包括:
根据预设的语音识别法提取所述待评估音频对应的待评估音素序列和每个待评估音素对应的时间;
根据所述待评估音素序列和每个所述待评估音素对应的时间生成待评估音素-时间序列。
3.如权利要求1所述的音频质量评估方法,其特征在于,提取所述参考音频对应的参考音素-时间序列,包括:
根据预设的语音识别法提取所述参考音频对应的参考音素序列和每个参考音素对应的时间;
根据所述参考音素序列和每个所述参考音素对应的时间生成参考音素-时间序列。
4.如权利要求3所述的音频质量评估方法,其特征在于,根据预设的评估策略为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列,包括:
根据预设的评估策略和音素类型确定每个音素类型的权重值;
根据每个音素类型的权重值为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列。
5.如权利要求1所述的音频质量评估方法,其特征在于,计算所述待评估音素-时间序列与所述参考音素-时间序列中对应音素的音素距离,包括:
将所述待评估音素-时间序列与所述参考音素-时间序列进行音素对齐;
通过客观语音质量评估方法计算音素对齐后的所述待评估音素-时间序列和所述参考音素-时间序列中相应音素对应音频片段之间的音素距离。
6.如权利要求1所述的音频质量评估方法,其特征在于,根据所述参考音素-时间-权重序列和所述音素距离-时间序列确定所述待评估音频的质量评估得分,包括:
根据所述参考音素-时间-权重序列和所述音素距离-时间序列每个目标时间点对应的音素权重和音素距离确定所述目标时间点对应的音素分值;
根据每个目标时间点对应的音素分值确定所述待评估音频的质量评估得分。
7.如权利要求1所述的音频质量评估方法,其特征在于,在提取所述待评估音频对应的待评估音素-时间序列之前,还包括:
对所述待评估音频进行预处理,获得预处理后的待评估音频。
8.如权利要求7所述的音频质量评估方法,其特征在于,对所述待评估音频进行预处理,包括:
对所述待评估音频进行降噪处理和/或语音增强处理。
9.一种音频质量评估装置,其特征在于,包括:
获取模块,被配置为获取待评估音频和参考音频;
提取模块,被配置为提取所述待评估音频对应的待评估音素-时间序列,提取所述参考音频对应的参考音素-时间序列;
设置模块,被配置为根据预设的评估策略为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列;
计算模块,被配置为计算所述待评估音素-时间序列与所述参考音素-时间序列中对应音素的音素距离,获得音素距离-时间序列;
确定模块,被配置为根据所述参考音素-时间-权重序列和所述音素距离-时间序列确定所述待评估音频的质量评估得分。
10.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-8任意一项所述方法的步骤。
11.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-8任意一项所述方法的步骤。