技术总结
本发明涉及一种基于卷积神经网络与随机森林分类的声音场景识别方法。首先,声音场景通过Mel滤波器生成Mel能量谱及其片段样本集;然后,利用片段样本集对CNN进行两阶段训练,截断全连接层的特征输出,得到片段样本集的CNN特征;最后,用随机森林对片段样本集的CNN特征进行分类,得到最终识别结果。相关实验结果表明,本发明方法在IEEE DCASE2016声音场景评估数据集上的识别率既优于Mel频率倒谱系数特征结合高斯混合模型(MFCC‑GMM)的基准方法,也优于现有的相关识别方法。
技术研发人员:李应;李俊华
受保护的技术使用者:福州大学
技术研发日:2018.01.13
技术公布日:2018.06.29