基于ResNet的音频质量评价模型及应用

文档序号:41539341发布日期:2025-04-07 23:15阅读:60来源:国知局

本发明涉及音频质量评价模型,尤其是基于resnet的音频质量评价模型及应用。


背景技术:

1、伴随着音频处理技术的飞速发展,特别是深度学习技术的广泛应用,音频质量评价已成为一个备受关注的研究领域。传统的音频质量评价方法通常依赖手工设计的特征或基于傅里叶变换的频域分析,然而,这些方法在处理复杂多变的音频场景时,常常表现出一定的局限性,难以满足对高精度和高效率的需求,尤其是在演唱音频的质量评价中。


技术实现思路

1、针对背景技术中提到的技术问题,本发明提供基于resnet的音频质量评价模型及应用。

2、本发明所采用的技术方案是:基于resnet的音频质量评价模型,评价模型按照以下步骤构建:

3、s1、将音频数据通过傅里叶变换后的频率信息映射到梅尔频率尺度,再将其转换成对数幅度谱,以获取接近人耳感知方式的频谱图;

4、s2、将频谱图划分成一系列w×h大小的局部特征区域,并将每个区域重塑成大小c×w×h的特征向量x;

5、s3、将特征向量x送入resnet模块中提取特征;

6、s4、将特征f'送入分类器中,输出音频质量评分结果。

7、本发明进一步的设置为,所述resnet模块的特征提取操作具体如下:

8、s31、通过一个的卷积核为1×1,通道数为c/4的卷积层,将输入x映射到高维空间中,再分别通过relu激活函数提升模块的非线性,获得大小为c/4×w×h特征f1;

9、s32、再将特征f1在通过第二层卷积核为3×3,通道数为c/4的卷积层,获得特征f2;

10、s33、然后将特征f2送入1×1卷积核,通道数为c的第三层卷积中,输出为c×w×h的特征f3,最后通过一个跳跃连接,将x与f3逐元素相加,获得最后的残差特征f';

11、s34、残差特征f'经过非线性激活函数relu激活后,传递给batchnormalization函数进行正则化,最后输出特征f。

12、s35、通过堆叠18层残差卷积模块,我们构建了用于音频评价的resnet的网络。

13、本发明进一步的设置为,基于resnet的音频质量评价模型的应用,将其应用在音频质量评价软件中。

14、本发明的有益效果是:本发明中,采用了具有残差结构的卷积神将网络,针对mfcc音频特征进行建模。通过结合残差连接和二维卷积的卷积层,网络能够深度挖掘音频的纹理特征。同时,残差连接拼接上一层与下一层的输出,保持特征的细节不随着网络深入而损失。从而提升了音频质量评估的效率和准确性。



技术特征:

1.基于resnet的音频质量评价模型,其特征在于,评价模型按照以下步骤构建:

2.根据权利要求1所述的基于resnet的音频质量评价模型,其特征在于,所述resnet模块的特征提取操作具体如下:

3.基于resnet的音频质量评价模型的应用,其特征在于,将其应用在音频质量评价软件中。


技术总结
本发明涉及音频质量评价模型技术领域,具体公开了基于ResNet的音频质量评价模型及应用,评价模型按照以下步骤构建:S1、将音频数据通过傅里叶变换后的频率信息映射到梅尔频率尺度,再将其转换成对数幅度谱,以获取接近人耳感知方式的频谱图;S2、将频谱图划分成一系列W×H大小的局部特征区域,并将每个区域重塑成大小C×W×H的特征向量X;本发明中,采用了具有残差结构的卷积神将网络,针对MFCC音频特征进行建模。通过结合残差连接和二维卷积的卷积层,网络能够深度挖掘音频的纹理特征。同时,残差连接拼接上一层与下一层的输出,保持特征的细节不随着网络深入而损失。从而提升了音频质量评估的效率和准确性。

技术研发人员:侯震一,范广宇,皮伟宁,罗代均,张天浩,陶致荣,姜尚格日乐,盛薪瑜,赵徐,叶柯杰,夏嘉璟,班晨希,张诣弢,张玉炎,陈佳星,张语桐
受保护的技术使用者:上海理工大学
技术研发日:
技术公布日:2025/4/6
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!