一种音频场景分类方法、装置、电子设备和存储介质

文档序号:33093762发布日期:2023-01-31 23:35阅读:32来源:国知局
一种音频场景分类方法、装置、电子设备和存储介质

1.本发明涉及音频信号处理技术领域,特别是涉及一种音频场景分类方法、装置、电子设备和存储介质。


背景技术:

2.随着多媒体技术的发展,静态的图像、音频及动态的视频遍布各地,充斥在人们日常生活中。除图像和视频外,人们接触最多的多媒体信息就是音频信息。随着音频录制设备的发展和人们对音频信息利用率的提高,不同种类的音频文件被大量收集,如何用计算机对音频信息进行存储、分析及充分的利用是音频信号处理的热点问题之一。
3.计算机每天需要处理数以万计的音频数据,对所获音频数据分析和处理所涉及到的声学场景分类(acousticsceneclassification,asc)是其中不可或缺的任务,同时也是极具挑战性的难题。声学场景分类作为场景理解(sceneunderstanding)的重要环节,主要任务是通过识别音频特征并将其归类到特定的环境类型。由于各类环境存在噪声干扰,所以声学场景分类任务很难研究出具有高精度且泛化能力强的分类器。
4.随着神经网络的兴起,在图像识别、目标检测、音视频识别以及声学场景分类等方向广泛应用并取得了一定的效果。卷积神经网络(convolutionalneuralnetworks,cnn)和循环神经网络(recurrentneuralnetwork,rnn)是其中最具代表性的网络。cnn可以通过卷积强化图像中的关键信息,进行特征提取,但是在提取特征时忽略了特征间的空间关系(spatialrelationship)以及姿态信息(poseinformation);rnn是一种擅长处理和预测序列数据的网络模型,尤其是数据对时序有一定依赖性的时候,常被用于语音识别、文本分类、机器翻译、信息检索、声学场景分类等依赖时序的任务中。但是rnn却常难以训练,训练次数过多后,多数情况下梯度会趋向于消失,也有较少情况存在梯度爆炸的问题。


技术实现要素:

5.本发明的目的在于提供一种音频场景分类方法、装置、电子设备和存储介质,至少解决传统卷积神经网络丢失音频间空间关系、丢失姿态特征和时序性特征等问题,以此提高音频场景分类的准确性。本公开的技术方案如下:
6.根据本公开的第一方面,本发明提供了一种音频场景分类方法,所述方法包括:获取待分类的音频信息;提取待分类的音频信息的log-mel特征;使用卷积神经网络提取log-mel特征中易于分类的关键特征,并去除冗余特征;使用胶囊网络和bi-gru并行的方式提取音频信号的姿态特征以及时序性特征;通过concatenate函数融合所提取的时序特征、姿态特征以及易于分类的关键特征,通过全连接层完成分类。
7.在本公开的一种示例性实施例中,提取待分类的音频信息的log-mel特征的方法包括:对获取的待分类音频信息进行分帧;接着在时域部分加汉宁窗进行信号截断;之后进
行短时傅里叶变换,转换为频域上的功率谱特征;接着对音频信号的频谱取模的平方;之后将功率谱通过具有mel刻度的三角滤波器提取具有不同分辨率的频带能量;最后音频信号经过离散傅里叶变换计算后的功率谱分别跟每一个滤波器进行频率的相乘累加,得到该帧的值在该滤波器对应频段的能量值,之后对mel谱进行对数运算获得log-mel特征。
8.在本公开的一种示例性实施例中,使用卷积神经网络提取log-mel特征中易于分类的关键特征,并去除冗余特征的方法包括:在卷积层中,卷积核对log-mel特征图进行卷积操作;之后通过最大池化操作,压缩输入音频的特征图。
9.在本公开的一种示例性实施例中,使用bi-gru提取音频信号的时序性特征后由concatenate函数拼接,并使用全局平均池化减小网络参数以及减小特征维度。
10.在本公开的一种示例性实施例中,使用胶囊网络将特征以向量的形式封装在胶囊单元中,替代传统神经网络中以标量神经元作为网络输入的形式,向量的长度表示对应特征存在的概率,向量的方向表示对应特征内部的状态,特征通过动态路由机制在底层胶囊与高层胶囊之间传递;并通过squash函数训练胶囊网络,使胶囊单元量化值小的胶囊接近0,使量化值大的胶囊接近1。
11.根据本公开的第二方面,本技术提供了一种音频场景分类装置,所述装置包括:
12.音频信息获取模块,被配置为执行获取待分类的音频信息。
13.声学特征提取模块,被配置为执行提取待分类的音频信息的log-mel特征。
14.关键分类特征提取模块,被配置为执行使用卷积神经网络提取log-mel特征中易于分类的关键特征,并去除冗余特征。
15.姿态特征以及时序性特征提取模块,被配置为执行使用胶囊网络和bi-gru并行的方式提取音频信号的姿态特征以及时序性特征。
16.融合分类模块;被配置为执行通过concatenate函数融合所提取的时序特征、姿态特征以及易于分类的关键特征,通过全连接层完成分类。
17.根据本公开的第三方面,本技术还提供了一种电子设备,所述电子设备包括存储器和处理器,该存储器存储有计算机程序,该处理器执行该计算机程序时实现如上所述的音频场景分类方法。
18.根据本公开的第四方面,本技术提供了一种计算机可读存储介质,该计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上所述的音频场景分类方法。
19.根据本公开的第五方面,本技术提供了一种计算机程序产品,该计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述的音频场景分类方法。
20.本发明的有益效果在于:本发明通过并行胶囊网络的声学场景分类模型(parallelingneuralnetworkwithcapsule,caps-pnn)解决复杂音频场景分类问题,该模型由胶囊网络(capsulenet)与双向门控循环单元(bidirectionalgatedrecurrentunit,bi-gru)并行组成,既可以利用capsulenet提取音频中cnn不能提取的姿态信息和特征间的空间信息,同时也可以利用bi-gru解决传统rnn长期依赖问题,更好地提取音频的时序性特征。解决了传统卷积神经网络丢失音频间空间关系、丢失姿态特征和时序性特征等问题,以此提高音频场景分类的准确性。
附图说明
21.图1是本技术实施例提供的一种音频场景分类方法的流程图。
22.图2是一种提取待分类的音频信息的log-mel特征方法的流程图。
23.图3是提取的log-mel特征图。
24.图4是本技术实施例方法中步骤4的流程图。
25.图5是双向门控循环单元的结构图。
26.图6是本技术实施例方法中动态路由流程图。
27.图7是本技术实施例提供的一种音频场景分类装置的结构框图。
28.图8是本技术实施例提供的一种电子设备的内部结构图。
具体实施方式
29.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
30.需要说明的是,本技术实施例提供的音频场景分类方法,其执行主体可以是音频场景分类装置,该音频场景分类装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部,该计算机设备可以为服务器或者终端,其中,上文所述的服务器指的可以是一台服务器,也可以是由多台服务器组成的服务器集群,上文所述的终端可以为台式电脑、平板电脑、笔记本电脑或者智能手机等,本技术实施例不对终端的具体类型进行限定。下述方法实施例中,均以执行主体是计算机设备为例来进行说明。
31.如图1所示,其示出了本技术实施例提供的一种音频场景分类方法的流程图,该音频场景分类方法包括以下步骤:
32.步骤1、获取待分类的音频信息。
33.步骤2、提取待分类的音频信息的log-mel特征。
34.作为一个可选的实施例,如图2所示是一种提取待分类的音频信息的log-mel特征方法的流程图,该方法包括如下步骤:
35.步骤201、对获取的待分类音频信息进行分帧操作,优选的,帧长设置为46ms;此外,为防止相邻帧之间的变化过大,帧移优选设置为帧长的二分之一,为23ms;经处理,每一帧音频信号可以视为平稳不变信号,方便之后进行短时分析。
36.步骤202、对音频信号在时域部分加汉宁窗进行信号截断;具体计算公式如下:
37.步骤203、步骤202处理后信号的时域特征通常不明显,因此对加窗之后的时域信号x(n)进行短时傅里叶变换,转换为频域上的功率谱特征;具体计算公式如下:
38.步骤204、将不同的音频特性反应到不同的功率谱特征上,即对音频信号的频谱取模的平方,具体计算公式如下:
39.步骤205、步骤204处理后得到的功率谱在全频率上具有相同的分辨率,为模仿人耳对高低频率声音的辨别的特点,将功率谱通过一组具有mel刻度的三角滤波器提取具有不同分辨率的频带能量。人耳对低频声音的敏感度高于高频信号,因此要在低频区设置更多的三角滤波器,高频区设置更少的三角滤波器。频率与mel刻度的转换公式如下:其中代表频率,代表所对应的刻度值。
40.步骤206、音频信号经过离散傅里叶变换计算后的功率谱分别跟每一个滤波器进行频率的相乘累加,得到的值即为该帧的值在该滤波器对应频段的能量值。人耳对听觉系统的感知是近似于对数函数这种的非线性关系,所以要对mel谱进行对数运算,即计算获得的值即为log-mel特征(如图3所示是提取的log-mel特征图)。
41.步骤3、使用卷积神经网络提取步骤2中log-mel特征中易于分类的关键特征,并去除冗余特征。
42.作为一个可选的实施例,步骤3包括如下步骤:
43.步骤301、在卷积层中,卷积核对log-mel特征图进行卷积操作;如下是卷积核函数并作用于非线性映射函数:其中表示卷积层的输入,表示卷积核中学习的权值。
44.步骤302、通过最大池化操作,压缩输入音频的特征图。
45.步骤4、使用胶囊网络和bi-gru并行的方式提取步骤3处理后音频信号的姿态特征以及时序性特征。
46.作为一个可选的实施例,如图4所示为步骤4流程图,左侧架构由两组并行bi-gru框架组成,每组bi-gru架构中的双向门控循环单元进一步由更新门和重置门组成,其中,更新门决定前面记忆单元信息保存到当前时间步的量,重置门决定如何将前面记忆单元信息与新输入信息相结合。
47.如图5所示是双向门控循环单元的结构图,双向门控循环单元中,(1)第t个隐藏层单元重置门和更新门的计算公式如下:的计算公式如下:(2)重置门隐藏状态计算公式如下:
(3)更新门隐藏状态的计算公式如下其中表示sigmoid激活函数,xt表示t时刻的输入,ht-1表示t时刻之前隐藏层单元状态,

表示同或运算,w和u分别为不同的权值矩阵,随着训练着更新,训练结束之后确定。
48.步骤3提取的关键特征信息输入到双向门控循环单元(bidirectionalgatedrecurrentunit,bi-gru);通过bi-gru架构提取音频的时序性特征,然后由concatenate函数拼接,并使用全局平均池化(globalaveragepoolilng,gap)减小网络参数以及减小特征维度。
49.如图4所示,右侧为胶囊网络架构,由卷积神经网络提取的利于音频分类的关键信息输入胶囊网络中,将所含有利于音频分类的关键特征封装到胶囊单元中,胶囊网络将特征以向量的形式封装在胶囊单元中,替代传统神经网络中以标量神经元作为网络输入的形式,向量的长度表示对应特征存在的概率,向量的方向表示对应特征内部的状态,特征通过动态路由机制在底层胶囊与高层胶囊之间传递。
50.动态路由流程图如下图6所示,设前一胶囊层的输入向量为,输出向量为,其中为前一胶囊层输入的预测向量,由前一胶囊层的输出向量乘以对应变换矩阵得到,即,是一个系数,且,它通过函数作用于,即其中根据底层胶囊与高层胶囊方向的一致性更新连接权重,初值为0,更新过程如下,为保证低级胶囊与高级胶囊的空间关系充分显现,迭代上述过程r次直至收敛。其次,设为前一胶囊层所有预测向量的加权和,用squash函数作用于得到输出向量。squash函数用于训练胶囊网络,使胶囊单元量化值小的胶囊接近0,使量化值大的胶囊接近1。
51.通过胶囊网络架构,以及动态路由算法,提取音频特征中适合分类的姿态特征。
52.步骤5、通过concatenate函数将左侧bi-gru架构与胶囊网络架构拼接,融合所提
取的时序特征、姿态特征以及易于分类的关键特征,通过全连接层完成分类。
53.应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
54.实验验证
55.本发明选用dcase2019挑战任务1中的数据集,包含十类音频场景,总时长约为40余小时,包含14440个片段,本实验随机选取12446个音频片段作为训练集、516个音频片段作为开发集、1478个音频片段作为验证集。在ubuntu18.04系统上进行实验,框架选用tensorflow深度学习框架,epoch设定为150个,batchsize设定为128,采用了adam优化器,初始学习率设定为0.001,并对实验音频进行下采样,采样频率为44100hz。
56.其中,基线系统(baseline)是经过两层卷积层(其中包含批标准化层、最大池化层和dropout层)提取音频特征,然后进行扁平化处理,最后经过全连接层完成分类。优化器采用adam优化器,初始学习率为0.001。epoch为200个,batchsize设定为16。
57.实验采用准确率(accuracy)作为评估方法,计算方法如下:其中tp(truepositives)表示实际分类正确与预测正确的标签数量,fp(falsepositives)表示预测标签中分类错误的标签数量,fn(falsenegatives)表示实际分类标签中分类错误的标签数量。在计算验证集的准确率(val_acc)时,综合考虑模型的泛化能力,将不同城市的不同音频场景随机划分,测试准确率时看不见音频所属城市(unseencities)。
58.各网络模型测试结果如下表所示,从表中可知,本发明所提出的并行胶囊网络模型在开发集和验证集分别获得了71.1%和70.2%的准确率,比基线方法分别提升了8.6%和24.1%。这说明通过cnn网络模型提取音频的低级特征信息,输入到胶囊网络提取音频的姿态信息和特征间的空间信息,外加bi-gru架构提取音频的时序性特征适用于声学场景分类任务,并且具有很好的泛化能力。表1各网络模型实验性能 dev_accval_acc(unseencity)baseline0.6250.461capsulenet0.4860.437cnn+gru0.7050.682cnn+bi-gru+capsulenet0.7110.702
59.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的音频场景分类方法的音频场景分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个音频场景分类装置实施例中的具体限定可
以参见上文中对于音频场景分类方法的限定,在此不再赘述。
60.在一个实施例中,如图7所示是本技术实施例提供的一种音频场景分类装置的结构框图,该装置包括:
61.音频信息获取模块,被配置为执行获取待分类的音频信息。
62.声学特征提取模块,被配置为执行提取待分类的音频信息的log-mel特征。
63.关键分类特征提取模块,被配置为执行使用卷积神经网络提取log-mel特征中易于分类的关键特征,并去除冗余特征。
64.姿态特征以及时序性特征提取模块,被配置为执行使用胶囊网络和bi-gru并行的方式提取音频信号的姿态特征以及时序性特征。
65.融合分类模块;被配置为执行通过concatenate函数融合所提取的时序特征、姿态特征以及易于分类的关键特征,通过全连接层完成分类。
66.上述音频场景分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
67.在一个实施例中,本发明还提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频场景分类方法。
68.本领域技术人员可以理解,图8中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
69.在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本公开实施例中一种音频场景分类方法。
70.在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备的处理器执行以完成上述方法。可选地,计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
71.在示例性实施例中,还提供一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现上述的音频场景分类方法。
72.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1