本发明涉及音频场景分类,尤其是涉及一种基于特征融合的音频分类方法、系统及装置。
背景技术:
1、目前,音频场景分类作为人工智能领域场景理解的研究热点被广泛关注。音频场景分类是通过算法模型将音频数据集按照记录环境声音的场景类别进行分类,是计算机听觉场景分析(computational auditory scene analysis,casa)领域的主要研究内容,广泛应用于野生动物研究、机器人导航、音频检索和辅助等方面。
2、随着计算机性能的提高,深度学习模型在音频场景分类中表现出良好的性能,例如卷积神经网络(convolutional neural networks,cnn)、长短时记忆网络( long shortterm memory network,lstm)和深度神经网络(deep neural networks,dnn)已经成功应用于音频场景分类。
3、针对传统的机器学习算法在分类性能上难以提高的情况,许多研究人员开始利用深度学习算法和机器学习算法结合起来的混合模型来改善分类性能。例如,利用cnn与lstm相混合算法提升音频分类正确率;在cnn中引入i-vectors的方法,同样在音频场景分类中取得了很好的效果;有学者将机器学习中的梯度向量机与cnn结合产生并行结构模型,用于处理音频场景的混合特征,也使分类性能有所提高;此外,在cnn的最后一层加上高斯混合模型的supervector,作为概率线性判别分析分类器的特征向量,也可以提高分类性能。综上所述,机器学习与深度网络构造的混合模型在音频场景分类上应用越来越广泛,并在一定程度上提升了分类精确率,但仍无法满足音频场景分类的高精度需求。
技术实现思路
1、本发明的目的在于提供一种基于特征融合的音频分类方法、系统及装置,以解决现有技术中存在的至少一种上述技术问题。
2、第一方面,为解决上述技术问题,本发明提供的基于特征融合的音频分类方法,包括如下步骤:
3、步骤1、获取音频场景数据,进行预处理,得到音频信号;
4、步骤2、将所述音频信号转换成梅尔声谱图,并按比例划分为两部分,一部分作为训练集,另一部分作为测试集;
5、步骤3、将所述训练集输入融合模型进行训练,通过融合数据特征优化模型参数,并调整超参数,得到数据标签;所述参数,是指模型可以根据数据自动学习得到的变量,例如权重、偏差等;所述超参数,是指人为定义模型的参数,例如学习速率、迭代次数、层数、每层神经元的个数等;
6、步骤4、将所述测试集输入所述融合模型进行计算,得到分类标签;
7、步骤5、基于分类标签,进行评价计算,得到分类准确率。
8、通过上述方法,将音频场景数据,通过融合模型识别特征,再将特征进行融合优化模型,从而提升了音频场景分类的整体效率及准确率。
9、在一种可行的实施方式中,所述步骤1中预处理的方法包括:
10、步骤11、对所述音频场景数据进行集成,例如构建数据库、数据立方体或文件夹;
11、步骤12、对所述音频场景数据进行规约,例如维规约、数量规约及数据无损压缩;
12、步骤13、将所述音频场景数据变换成音频信号;
13、步骤14、对所述音频信号进行特征提取。
14、需要说明的是,所述步骤2中的梅尔声谱图,属于现有技术,是指将频率转换为mel标度的谱图,以便于接近人耳的感受,有利于进行后序识别。
15、在一种可行的实施例中,所述步骤2中的比例可以为8:2,将80%的数据作为训练集,将20%的数据作为测试集。当然还可以根据实际需要,设置为其他比例。
16、在一种可行的实施例中,所述融合模型包括至少两个全连接神经网络模型,分别用于提取梅尔声谱图的特征。
17、在一种可行的实施例中,所述步骤3包括:
18、步骤31、将所述训练集输入至融合模型中的第一全连接神经网络,得到第一数据特征;
19、步骤32、将所述训练集输入至融合模型中的第二全连接神经网络,得到第二数据特征;所述第二全连接神经网络接近但不同于所述第一全连接神经网络;
20、步骤33、将所述第一数据特征与所述第二数据特征相加,得到第三数据特征;
21、步骤34、将所述第三数据特征通过融合模型的激活函数计算,例如sott算法,得到数据标签。
22、需要说明的是,所述的全连接神经网络属于一种卷积神经网络。
23、通过上述步骤,可以实现将两个相似的全连接神经网络进行数据特征融合,从而得到优化的融合模型及相应的数据标签。
24、在一种可行的实施方式中,所述第二全连接神经网络接近但不同于所述第一全连接神经网络,具体是指二者的层数、输入数据维度及输出数据维度分别相同,而其他超参数可以不同,这样可以减少数据的处理步骤,加快数据处理进程。
25、在一种可行的实施方式中,所述步骤4中得到分类标签后,还包括若干次迭代交叉验证,例如5次,返回步骤2重新进行划分,直至达到迭代次数,用于使每组音频信号都有机会进入测试集。
26、第二方面,基于相同的发明构思,本申请还提供了一种基于特征融合的音频分类系统,包括数据接收模块、数据处理模块及结果生成模块:
27、所述数据接收模块,用于接收音频场景数据;
28、所述数据处理模块,包括预处理单元、转换划分单元、融合模型单元、训练单元及评价单元;
29、所述预处理单元,对所述音频场景数据进行预处理,得到音频信号;
30、所述转换划分单元,将所述音频信号转换为梅尔声谱图,并按比例划分为两部分,一部分作为训练集,另一部分作为测试集;
31、所述融合模型单元,用于存储融合模型,所述融合模型包括至少两个用于识别特征的深度学习模型;
32、所述训练单元,调用所述训练集迭代训练所述融合模型,基于所述测试集,通过所述融合模型计算,得到分类标签;
33、所述评价单元,基于所述分类标签,进行评价计算,得到分类准确率;
34、所述结果生成模块,用于对外发布所述分类标签及所述分类准确率。
35、第三方面,基于相同的发明构思,本申请还提供了一种基于特征融合的音频分类装置,包括处理器、存储器及总线,所述存储器存储可由处理器读取的指令及数据,所述处理器用于调用所述存储器中的指令及数据,以执行如上所述的基于特征融合的音频分类方法,所述总线连接各功能部件之间传送信息。
36、采用上述技术方案,本发明具有如下有益效果:
37、本发明提供的一种基于特征融合的音频分类方法、系统及装置,
38、基于若干深度学习模型,识别特征并进行融合,得到优化的融合模型,通过所述融合模型,可以更有效地完成音频场景数据分类,并大幅提高分类准确率。
1.一种基于特征融合的音频分类方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,所述步骤1中预处理的方法包括如下步骤:
3.根据权利要求1所述的方法,其特征在于,所述融合模型包括至少两个全连接神经网络模型,分别用于提取梅尔声谱图的特征。
4.根据权利要求3所述的方法,其特征在于,所述步骤3包括如下步骤:
5.根据权利要求4所述的方法,其特征在于,所述第二全连接神经网络接近但不同于所述第一全连接神经网络,具体是指二者的层数、输入数据维度及输出数据维度分别相同。
6.根据权利要求1所述的方法,其特征在于,所述步骤4中得到分类标签后,还包括若干次迭代交叉验证。
7.根据权利要求6所述的方法,其特征在于,所述迭代交叉验证的次数为至少5次。
8.一种基于特征融合的音频分类系统,其特征在于,包括数据接收模块、数据处理模块及结果生成模块:
9.一种基于特征融合的音频分类装置,其特征在于,包括处理器、存储器及总线,所述存储器存储可由处理器读取的指令及数据,所述处理器用于调用所述存储器中的指令及数据,以执行如权利要求1~7中任一所述的方法,所述总线连接各功能部件之间传送信息。