音频场景识别方法、音频场景识别模型的训练方法和装置与流程

文档序号：21681110发布日期：2020-07-31 21:52阅读：569来源：国知局

本公开涉及计算机技术领域，尤其涉及一种音频场景识别方法、音频场景识别模型的训练方法、装置、电子设备以及存储介质。

背景技术：

声音携带大量信息，并在人们的日常生活中发挥重要作用。人们可以通过各种声音，来判断在哪里(地铁、机场、森林等)以及正在发生什么(鸣笛、犬吠等)，前者称为声音场景，后者称为声音事件。随着人工智能的飞速发展，计算机也可以做出这样的判断，计算机听觉和机器听觉成为流行且极有应用前景的研究领域。

音频场景识别，本质上是对声音信号中包含的声音特征及声音事件进行感知，并加以处理和分析，从而对音频信号进行分类。音频场景识别具有非常广泛的应用价值，将其用于移动终端设备可以使设备感知周围环境，进而能自动地调整设备状态；音频场景识别还可以用于物联网、移动导航设备等领域。

近几年，将深度学习技术应用于音频场景识别成为一种趋势。目前采用的方法通常是直接将音频文档本身作为神经网络的输入，在神经网络的输出端直接输出识别结果。但这种方式识别音频场景的准确率和效率不高，不能满足日益增长的对音频场景准确识别分类的需求。

技术实现要素：

本公开提供一种音频场景识别方法、装置、电子设备以及存储介质，以至少解决相关技术中识别音频场景准确率和效率不高的问题。

本公开还提供一种音频场景识别模型的训练方法、装置、电子设备以及存储介质。

本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频场景识别方法，包括：

获取音频信号；

提取所述音频信号的频谱；

将所述音频信号的频谱切分为至少两个子频带；

根据所述至少两个子频带，确定所述音频信号的音频场景识别结果。

在一种可选的实施方式中，所述的音频场景识别方法，包括：

基于时频变换，将所述音频信号从时域转换到频域，得到频域下的音频信号；

将所述频域下的音频信号从线性频谱转换为梅尔非线性频谱；

通过对所述梅尔非线性频谱取对数处理，将所述梅尔非线性频谱转换为对数梅尔频谱，作为所述音频信号的频谱。

在一种可选的实施方式中，所述的音频场景识别方法，包括：

根据预设频率间隔和预设的频带重叠率，沿频率轴将所述频谱切分为所述至少两个子频带；

其中，所述至少两个子频带中每对相邻子频带之间具有所述预设的频带重叠率。

在一种可选的实施方式中，所述根据所述至少两个子频带，确定所述音频信号的音频场景识别结果，包括：

将所述至少两个子频带输入到训练好的音频场景识别模型中，以得到所述音频信号的音频场景识别结果；

其中，所述音频场景识别模型，基于对音频信号样本的频谱切分得到的至少两个子频带训练得到。

在一种可选的实施方式中，所述音频场景识别模型包含多个卷积神经网络和分类器；所述多个卷积神经网络的数量与所述至少两个子频带的数量相同；则，

将所述至少两个子频带输入到训练好的音频场景识别模型中，以得到所述音频信号的识别结果，具体包括：

通过所述训练好的音频场景识别模型的多个卷积神经网络，对所述至少两个子频带分别进行卷积处理，以得到多个卷积处理后的子频带；

将所述多个卷积处理后的子频带进行拼接，以得到全局特征；

将所述全局特征输入所述分类器，以使得所述分类器根据所述全局特征，输出所述音频信号的识别结果。

根据本公开实施例的第二方面，提供一种音频场景识别模型的训练方法，包括：

获取已标注音频场景类别的音频信号样本；

提取所述音频信号样本的频谱；

将所述频谱切分为至少两个子频带；

将所述至少两个子频带输入到待训练的音频场景识别模型中，通过调整模型参数至符合预设标准，以得到训练好的音频场景识别模型。

在一种可选的实施方式中，所述音频场景识别模型的训练方法，包括：

获取已标注音频场景类别的视频数据；

从所述视频数据中获取音频信号，作为所述已标注音频场景类别的音频信号样本。

根据本公开实施例的第三方面，提供一种音频场景识别装置，包括：

获取模块，被配置为执行获取音频信号；

提取模块，被配置为执行提取所述音频信号的频谱；

切分模块，被配置为执行将所述音频信号的频谱切分为至少两个子频带；

确定模块，被配置为执行根据所述至少两个子频带，确定所述音频信号的音频场景识别结果。

根据本公开实施例的第四方面，提供一种音频场景识别模型的训练装置，包括：

样本获取模块，被配置为执行获取已标注音频场景类别的音频信号样本；

样本频谱提取模块，被配置为执行提取所述音频信号样本的频谱；

样本频谱切分模块，被配置为执行将所述频谱切分为至少两个子频带；

训练模块，被配置为执行将所述至少两个子频带输入到待训练的音频场景识别模型中，通过调整模型参数至符合预设标准，以得到训练好的音频场景识别模型。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述第一方面中任一项音频场景识别方法步骤，或，执行如上述第二方面中所述的音频场景识别模型的训练方法。

根据本公开实施例的第六方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面中任一项音频场景识别方法，或，执行如上述第二方面中所述的音频场景识别模型的训练方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，当其在电子设备上运行时，使得音频场景识别电子设备执行：上述第一方面中任一项音频场景识别方法的方法步骤，或，执行如上述第二方面中所述的音频场景识别模型的训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过提取获取到的音频信号的频谱，将频谱切分为至少两个子频带，使得在对音频信号进行音频场景识别时，可以基于频率切分得到的子频带进行识别。相较于现有技术中直接根据整个音频文档进行识别的方式来说，本公开的实施例提供的技术方案可针对每段子频带的特征分别进行分析处理，以实现将不同声音场景的频带差异性应用到音频场景识别中，从而提高识别音频场景的准确率和效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频场景识别方法的流程图。

图2是根据一示例性实施例示出的一种频谱示意图。

图3是根据一示例性实施例示出的一种模型结构示意图。

图4是根据一示例性实施例示出的一种音频场景识别模型的训练方法的流程图。

图5是根据一示例性实施例示出的一种音频场景识别装置的框图。

图6是根据一示例性实施例示出的一种音频场景识别模型的训练装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本文中提供的技术方案应用于机器学习技术领域，机器学习技术可通过训练模型来实现机器的智能化，广泛应用于目标识别、分类、聚类等实际场景中。机器学习可利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果。机器学习是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。机器学习通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

近几年，将机器学习技术中的深度学习技术应用于音频场景识别称为一种趋势。目前现有技术中采用的方法通常是直接将音频文档本身作为神经网络的输入，在神经网络的输出端直接输出识别结果。但这种方式识别音频场景的准确率和效率不高，不能满足日益增长的对音频场景准确识别分类的需求。

可以知晓，声音场景中可以包含各种声音事件，例如：在机场的场景中，可以包含飞机的轰鸣声、机场的播报声等，而在室内的场景中，可以包含人声、键盘声等。发明人发现，虽然声音事件在时间上的分布上通常是不确定的，但是在频率上的分布相对来说是固定的。例如：女声的频率范围一般在145hz到1034hz之间，而鸣笛频率可以达到7.5khz到10khz等，但一段时间内可能只有女声或者鸣笛，也可能同时有女声和鸣笛。也就是说，在声音场景中特定的频带可以包含特定的信息，且不同声音场景中的频带所包含的信息也具有差异性，即，不同声音场景中包含的声音事件是具有差异性的。

为解决现有技术中对识别音频场景的准确率和效率不高的问题，本公开一个或多个实施例将不同声音场景的频带差异性应用到音频场景识别中，以提高模型识别音频场景的准确率和效率。

图1是根据一示例性实施例示出的一种音频场景识别方法的流程图，通过该方法可以实现提高识别音频场景的准确率。

该方法的执行主体包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备。其中，所述服务器可以是单个网络服务器或者多个网络服务器组成的服务器组或基于云计算(cloudcomputing)的由大量计算机或网络服务器构成的云。本公开实施例以执行主体为服务器为例进行说明，该方法可以包括以下步骤：

在步骤11中，获取音频信号。

在实际应用中，这里的音频信号可以是任意的待确定音频场景的音频信号。比如，可以是从某视频文件中提取的音频信号。该视频文件可以是任一终端发送至服务器的任一视频文件，例如，该视频文件可以是直播视频、录播视频等，本公开实施例对视频文件的来源不做限定。

在实际应用中，可以通过音视频解码器对视频文件中的视频数据进行解码，以得到该视频数据的音频数据和和画面数据，可以将解码得到的音频数据作为本公开实施例中获取的音频信号。其中，所述音视频解码器可以是ffmpeg，也可以是ffdshow等，本公开实施例对采用何种音视频解码器不做限制。

可以理解的是，本公开实施例中的音频信号也可以是从任一终端发送至服务器的任一音频文件中获取，例如，该音频文件可以是录音文件、语音消息等。在实际应用中，可以通过所述音视频解码器对该音频文件中的音频数据进行解码，以得到音频信号。

在步骤12中，提取音频信号的频谱。

这里的音频信号可以是通过步骤11获取的。

如前文所述，本公开实施例拟将不同声音场景的频带差异性应用到音频场景识别中，以提高模型识别音频场景的准确率和效率，因此，针对获取到的音频信号，进一步执行步骤12，以提取音频信号的频谱。

在一种实施方式中，提取音频信号的频谱，具体可以包括：

基于时频变换，将音频信号从时域转换到频域，得到频域下的音频信号；

将频域下的音频信号从线性频谱转换为梅尔非线性频谱；

通过对梅尔非线性频谱取对数处理，将梅尔非线性频谱转换为对数梅尔频谱，作为音频信号的频谱。

其中，所述时频变换可以是通过傅里叶变换，对音频信号的每帧信号进行傅里叶变换，将音频信号从时域转换到频域，得到频域下的音频信号，以对频域下的音频信号进行进一步的频谱分析。当然所述时频变换还可以通过短时傅里叶变换(short-timefouriertransform，stft)，或快速傅里叶变换(fastfouriertransform，fft)等方法将音频信号从时域转换到频域，本公开实施例对具体采用何种时频变换方式不做限定。

由于通过傅里叶变换，所得到的频域下的音频信号的频谱是线性频谱，不足以体现人耳听觉感知的特性，因此可以进一步通过将该线性频谱输入梅尔滤波器组，输出梅尔非线性频谱。也即，可以通过梅尔滤波器，将频域下的音频信号从线性频谱转换为梅尔非线性频谱，从而能够模拟人耳对听觉感知的处理过程，可以进一步提升音频场景识别的准确率。

在实际应用中，所述梅尔滤波器可以用于输出能够模拟人耳听觉感知的梅尔非线性频谱，通过梅尔滤波器的滤波作用，滤除与人耳听觉感知不匹配的频率分量，使得与人耳听觉感知相匹配的频率分量通过，从而输出梅尔非线性频谱。其中，与人耳听觉感知相匹配是指与人耳听觉的感知度呈线性关系。

在实际应用中，通过对梅尔非线性频谱取对数，可以将梅尔非线性谱中的乘法关系转换为对数谱中的加法关系，从而能够简化后续的计算过程，减小音频场景识别过程中的计算量。

需要注意的是，本公开实施例中上述提取音频信号的频谱的方式，是本公开实施例提供的一种具体实施方式，在实际应用中，为了简化流程，还可以不对梅尔非线性频谱取对数，或者还可以不转换为梅尔非线性频谱等，以得到音频信号的频谱。

在步骤13中，将音频信号的频谱切分为至少两个子频带。

这里的音频信号的频谱可以通过步骤12提取的。

在实际应用中，如上所述，不同声音场景对应的频带具有差异性，在本公开一个或多个实施例中，可以将音频信号的频谱切分为至少两个子频带，以便于之后对切分的至少两个子频带分别进行处理，即，可以实现基于频带差异性对不同频带包含的特征信息分别处理，以提高模型的识别的准确率和效率。这里的子频带可以是基于频率段切分得到的音频信号的频谱中的部分频谱特征。

在一种具体的实施方式中，将音频信号的频谱切分为至少两个子频带，具体可以包括：

根据预设频率间隔和预设的频带重叠率，沿频率轴将频谱切分为至少两个子频带；其中，至少两个子频带中每对相邻子频带之间具有预设的频带重叠率。

为了便于理解切分过程，如图2所示，本公开实施例以横轴为频率、纵轴为时间的频谱示意图为例进行解释说明。

如图2所示，横轴设置的坐标间隔为5khz，若假设预设频率间隔与坐标间隔相等，根据该预设频率间隔，若假设频带重叠率为0，则可以沿横轴(频率轴)，按照每5khz划分为一个子频带的方式，将图2中所示频谱切分为0至5khz对应的频带、5khz至10khz对应的频带等，以此类推。

可以理解的是，频谱图中的频率轴的坐标间隔可以根据实际情况设置。在实际应用中，预设频率间隔可以根据频率轴的坐标间隔，以及要得到的子频带的数量设定，例如，在图2所示的例子中，在有限的频率范围内，即0至15khz内，若要得到2个子频带，则预设频率间隔还可以是7.5khz，若要得到3个子频带，则预设频率间隔可以是5khz，当然，预设频率间隔的具体数值也可以根据其它需求设定，本公开实施例对预设频率间隔的具体数值以及切分得到的子频带数量不做限制。

在实际应用中，为了避免在切分过程中，由于计算误差等，导致切分的子频带丢失边缘数据，或者为了避免切分时可能产生频谱的跳变，在本公开一个或多个实施例中可以根据预设频率间隔和预设的频带重叠率，沿频率轴将频谱切分为至少两个子频带。

针对前文所述的预设的频带重叠率，该参数值可以根据需求预先设定。例如，可以设定50％的频带重叠率，则在图2的频谱示意图中，根据预设频率间隔为5khz和频带重叠率为50％，沿频率轴进行切分时，可以得到0至5khz对应的频带、2.5khz至7.5khz对应的频带、5khz至10khz对应的频带等，依次类推。

在实际应用中，可以通过窗函数对频谱进行加窗处理，以得到切分好的至少两个子频带。具体来说，可以根据预设频率间隔和频带重叠率，利用频率轴移动窗函数将频谱分割为的至少两个子频带。其中，该窗函数可以是哈明(hamming)窗、汉宁(hanning)窗或者矩形窗等，本公开实施例不对该窗函数的形式进行具体限定。

在实际应用中，如上所述，不同声音事件在频率上的分布通常是固定的，本公开实施例将音频信号的频谱切分为至少两个子频带，以便之后在通过音频场景识别模型识别音频场景时，强化与突出频率很可能分布于不同子频带的不同声音事件的特征，这样，可以使得音频场景识别模型识能够更为准确地识别出音频场景。

在步骤14中，根据至少两个子频带，确定音频信号的音频场景识别结果。

这里的至少两个子频带可以是通过步骤13切分好的。

在实际应用中，在根据至少两个子频带，确定音频信号的音频场景识别结果时，可以根据至少两个子频带确定相应的音频场景特征，基于音频场景特征进行音频场景识别。

如上所述，由于近几年，将深度学习技术应用于音频场景识别成为一种趋势，且将深度学习技术应用于音频场景识别中，可以更为准确的识别出音频信号的音频场景，则在本公开一个或多个实施例中，根据至少两个子频带，确定音频信号的音频场景识别结果，可以具体包括：将至少两个子频带输入到训练好的音频场景识别模型中，以得到音频信号的音频场景识别结果。

在实际应用中，音频场景识别模型可以采用神经网络、深度神经网络、循环神经网络(recurrentneuralnetworks，rnn)或卷积神经网络(convolutionalneuralnetworks，cnn)等。研究人员发现，基于卷积神经网络可以较好的实现音频场景的识别分类，则在本公开实施例中以音频场景识别模型采用卷积神经网络为例，解释音频场景识别过程，可以理解的是，音频场景识别模型可以采用其它类型的神经网络，对此本公开不做限制。

在本公开一个或多个实施例中，这里的音频场景识别模型的模型结构可以如图3所示，具体可以包含多个卷积神经网络和分类器，其中多个卷积神经网络的数量可以与至少两个子频带的数量相同。由于多个卷积神经网络的数量可以与至少两个子频带的数量相同，可以实现通过多个卷积神经网络分别对应提取各子频带的特征，提高音频场景识别模型的识别效率。

在实际应用中，所述多个卷积神经网络的每个卷积神经网络可以包括至少一个卷积层，该至少一个卷积层可以用于对输入的子频带特征进行卷积操作，每个卷积层中可以包括至少一个卷积核，每个卷积核可以用于指示一次卷积操作时的权重矩阵。在该每个卷积神经网络中，至少一个卷积层中各个卷积层可以采用串行连接，也即可以是，上一个卷积层的输出特征作为下一个卷积层的输入特征。

可选的，在每个卷积层后还可以设置有激活层，该激活层用于为该卷积层的输出特征添加非线性的激活函数，例如该激活函数可以是tanh函数、relu函数或sigmoid函数等。

可选的，该每个卷积神经网络还可以包含至少一个池化层，该至少一个池化层可以用于对至少一个卷积层的输出特征进行特征压缩。在该卷积神经网络中，可以在每一对相邻的卷积层之间设置一个池化层，当然，也可以仅在一些相邻的卷积层之间设置一个池化层，而对于另一些相邻的卷积层之间不设置池化层。

可选的，该每个卷积神经网络还可以包括至少一个全连接层，该至少一个全连接层可以用于对该至少一个卷积层的输出特征进行整合。

在本公开实施例中，可以认为经每个卷积神经网络对每个子频带分别进行卷积操作后的特征，为卷积处理后的子频带。可选的，由于卷积神经网络对输入的子频带还可以包括池化、激活、全连接等操作过程，则可以认为经池化、激活、全连接等操作后得到的特征，可以是卷积处理后的子频带。

可以理解的是，对切分好的至少两个子频带中的每个子频带，均可以经过上述卷积神经网络进行卷积处理，以得到多个卷积处理后的子频带。

在实际应用中，经多个卷积神经网络进行卷积处理后的子频带，可以认为得到该音频信号的局部特征，可以理解的是，该音频信号的局部特征可以是仅反应该音频信号的部分特征，则在本公开实施例中，可以将局部特征进行拼接，以得到该音频信号的全局特征。可以理解的是，在将局部特征进行拼接后得到的全局特征，可以是比较能准确且全面表征该音频信号的特征。

在实际应用中，在经卷积神经网络进行卷积处理后的子频带可以具体是局部特征向量，则在对子频带进行拼接时，可以具体是将局部特征向量组合成全局特征向量，得到全局特征。

在本公开一个或多个实施例中，可以将该全局特征输入到所述音频场景识别模型所包含的分类器中，通过该分类器输出该音频信号的识别结果。

在实际应用中，该分类器可以采用朴素贝叶斯算法、k近邻(knearestneighbors，knn)算法、支持向量机(supportvectormachines，svm)算法、随机森林(randomforest)算法、逻辑回归(logisticregression)算法等方法，实现根据全局特征对音频信号的识别分类。本公开实施例对采用何种分类器不做限制。

在本公开实施例中，这里的音频场景识别模型，可以是基于对音频信号样本的频谱切分得到的至少两个子频带训练得到。具体的训练方法，将在下文本公开实施例提供的音频场景识别模型的训练方法中进行描述，详见下文，在这里不做赘述。

在本公开实施例中，通过提取获取到的音频信号的频谱，将频谱切分为至少两个子频带，使得在对音频信号进行音频场景识别时，可以基于频率切分得到的子频带进行识别。相较于现有技术中直接根据整个音频文档进行识别的方式来说，本公开的实施例提供的技术方案可针对每段子频带的特征分别进行分析处理，以实现将不同声音场景的频带差异性应用到音频场景识别中，从而提高识别音频场景的准确率和效率。

前文实施例中公开了利用音频场景识别模型进行音频场景识别，本公开实施例进一步介绍该音频场景识别模型的一种训练方法。该训练方法的执行主体包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备。其中，所述服务器可以是单个网络服务器或者多个网络服务器组成的服务器组或基于云计算(cloudcomputing)的由大量计算机或网络服务器构成的云。本公开实施例对该方法的执行主体不做限定。

图4是根据一示例性实施例示出的一种音频场景识别模型的训练方法的流程图，如图4所示该方法可以包括以下步骤：

在步骤21中，获取已标注音频场景类别的音频信号样本；

在步骤22中，提取通过步骤21获取的音频信号样本的频谱；

在步骤23中，将通过步骤22提取的频谱切分为至少两个子频带；

在步骤24中，将通过步骤23切分的至少两个子频带输入到待训练的音频场景识别模型中，通过调整模型参数至符合预设标准，以得到训练好的音频场景识别模型。

在一种实施方式中，获取已标注音频场景类别的音频信号样本，具体可以包括：

获取已标注音频场景类别的视频数据；

从所述视频数据中获取音频信号，作为所述已标注音频场景类别的音频信号样本。

其中，已标注音频场景类别的视频数据可以是通过人工标注的方式，对视频数据添加音频场景标签。在实际应用中，如前所述，可以通过音视频解码器对视频数据进行解码，得到该视频数据的音频数据和画面数据，则已标注音频场景类别的视频数据，具体可以是已标注音频场景类别的音频数据。在本公开实施例中，可以将具备音频场景标签的音频数据，作为已标注音频场景类别的音频信号样本。

在本公开实施例中，这里的提取音频信号的频谱和将提取的频谱切分为至少两个子频带，具体可以采用与上述本公开实施例提供的音频场景识别方法的步骤12和步骤13中记载的类似方法，为避免赘述，此处不再说明。

在一种实施方式中，这里的待训练的音频场景识别模型，可以与本公开实施例提供的音频场景识别方法中所采用的音频场景识别模型采用相同或相似的模型结构，即，可以包含多个卷积神经网络和分类器。该多个卷积神经网络，对切分得到的至少两个子频带分别进行卷积处理，以得到多个卷积处理后的子频带，再将所述多个卷积处理后的子频带进行拼接，以得到全局特征，将得到的全局特征输入到分类器中，得到待训练的音频场景模型的预测识别结果。

在实际应用中，可以通过损失函数来评估待训练的音频场景识别模型的预测识别结果和真实结果的不一致程度，然后根据不一致程度对音频场景识别模型的模型参数进行修正。通过反复调整音频场景识别模型的模型参数，在音频场景识别模型符合预设标准后，即可获得训练好的音频场景识别模型。其中，所述预设标准可以是音频场景识别模型的训练结果的召回率、精准率等达到预设值。

在得到训练好的音频场景识别模型后，可以将其用于线上对音频场景的识别分类，例如：在短视频平台中，可以用于对用户发布的短视频自动添加音频场景标签，以便于在视频的画面内容不清晰时提供需要的声音场景感知信息；或者，还可以用于根据用户浏览的短视频的声音场景，基于模型添加的音频场景标签向用户个性化推荐视频；或者，还可以通过训练好的音频场景识别模型，基于识别出的声音场景判断视频的合法性等。

在本公开实施例中，通过将获取到的音频信号样本的频谱，切分为至少两个子频带，基于切分的至少两个子频带进行模型训练，可以对每段子频带的特征分别进行分析处理，以实现将不同声音场景的频带差异性应用到音频场景识别模型的训练中，从而提高训练得到的音频场景识别模型识别音频场景的准确率和效率。

出于与上述音频场景识别方法相同的发明构思，为解决现有技术中识别音频场景准确率和效率不高的问题，本公开实施例还提供一种音频场景识别装置。

图5是根据一示例性实施例示出的一种音频场景识别装置的框图。参照图5，该装置包括获取模块121，提取模块122，切分模块123，确定模块124。

该获取模块121，被配置为执行获取音频信号；

该提取模块122，被配置为执行提取音频信号的频谱；

该切分模块123，被配置为执行将音频信号的频谱切分为至少两个子频带；

该确定模块124，被配置为执行根据所述至少两个子频带，确定所述音频信号的音频场景识别结果。

上述装置实施例的具体工作流程可以包括：获取模块121，获取音频信号；提取模块122，提取音频信号的频谱；切分模块123，将音频信号的频谱切分为至少两个子频带；确定模块124，根据至少两个子频带，确定音频信号的音频场景识别结果。

在一种实施方式中，所述提取模块122，具体包括：

变换单元，被配置为执行基于时频变换，将音频信号从时域转换到频域，得到频域下的音频信号；

转换单元，被配置为执行将频域下的音频信号从线性频谱转换为梅尔非线性频谱；

对数处理单元，被配置为执行通过对梅尔非线性频谱取对数处理，将梅尔非线性频谱转换为对数梅尔频谱，作为音频信号的频谱。

在一种实施方式中，所述切分模块123，被配置为具体执行根据预设频率间隔和预设的频带重叠率，沿频率轴将所述频谱切分为至少两个子频带；其中，所述至少两个子频带中每对相邻子频带之间具有所述预设的频带重叠率。

在一种实施方式中，所述确定模块124，被配置为具体执行：将所述至少两个子频带输入到训练好的音频场景识别模型中，以得到所述音频信号的音频场景识别结果；其中，所述音频场景识别模型，基于对音频信号样本的频谱切分得到的至少两个子频带训练得到。

在一种实施方式中，所述音频场景识别模型包含多个卷积神经网络和分类器；所述多个卷积神经网络的数量与所述至少两个子频带的数量相同；则，

所述确定模块124，包括：

卷积处理单元，被配置为执行通过所述训练好的音频场景识别模型的多个卷积神经网络，对所述至少两个子频带分别进行卷积处理，以得到多个卷积处理后的子频带；

拼接单元，被配置为执行将所述多个卷积处理后的子频带进行拼接，以得到全局特征；

输出单元，被配置为执行将所述全局特征输入所述分类器，以使得所述分类器根据所述全局特征，输出所述音频信号的识别结果。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在本公开实施例中，通过提取获取到的音频信号的频谱，将频谱切分为至少两个子频带，使得在对音频信号进行音频场景识别时，可以基于频率切分得到的子频带进行识别。相较于现有技术中直接整个音频文档进行识别的方式来说，本公开的实施例提供的技术方案可针对每段子频带的特征分别进行分析处理，以实现将不同声音场景的频带差异性应用到音频场景识别中，从而提高识别音频场景的准确率和效率。

出于与上述音频场景识别模型的训练方法相同的发明构思，为解决现有技术中通过训练得到的模型识别音频场景准确率和效率不高的问题，本公开实施例还提供一种音频场景识别模型的训练装置。

图6是根据一示例性实施例示出的一种音频场景识别模型的训练装置的框图。参照图6，该装置包括样本获取模块221，样本频谱提取模块222，样本频谱切分模块223，训练模块224。

该样本获取模块221，被配置为执行获取已标注音频场景类别的音频信号样本；

该样本频谱提取模块222，被配置为执行提取音频信号样本的频谱；

该样本频谱切分模块223，被配置为执行将频谱切分为至少两个子频带；

该训练模块224，被配置为执行将至少两个子频带输入到待训练的音频场景识别模型中，通过调整模型参数至符合预设标准，以得到训练好的音频场景识别模型。

上述装置实施例的具体工作流程是，样本获取模块221，获取已标注音频场景类别的音频信号样本；样本频谱提取模块，提取音频信号样本的频谱；样本频谱切分模块，将所述频谱切分为至少两个子频带；训练模块，将所述至少两个子频带输入到待训练的音频场景识别模型中，通过调整模型参数至符合预设标准，以得到训练好的音频场景识别模型。

在一种实施方式中，所述样本获取模块221，具体包括：

视频获取单元，被配置为执行获取已标注音频场景类别的视频文件；

获取单元，被配置为执行从所述视频文件中获取音频信号，作为所述已标注音频场景类别的音频信号样本。

在本公开实施例中，通过将获取到的音频信号样本的频谱，切分为至少两个子频带，基于切分的至少两个子频带进行模型训练，可以对每段子频带的特征分别进行分析处理，以实现将不同声音场景的频带差异性应用到音频场景识别模型的训练中，从而提高训练得到的模型识别音频场景的准确率和效率。

本公开实施例还提出了一种电子设备，示意图请参考图7，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(random-accessmemory，ram)，也可能还包括非易失性存储器(non-volatilememory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是isa(industrystandardarchitecture，工业标准体系结构)总线、pci(peripheralcomponentinterconnect，外设部件互连标准)总线或eisa(extendedindustrystandardarchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成音频场景识别装置，或形成音频场景识别模型的训练装置。处理器，执行存储器所存放的程序，并至少用于执行以下操作：

获取音频信号；

提取音频信号的频谱；

将音频信号的频谱切分为至少两个子频带；

根据所述至少两个子频带，确定所述音频信号的音频场景识别结果。

或，至少用于执行以下操作：

获取已标注音频场景类别的音频信号样本；

提取音频信号样本的频谱；

将频谱切分为至少两个子频带；

将至少两个子频带输入到待训练的音频场景识别模型中，通过调整模型参数至符合预设标准，以得到训练好的音频场景识别模型。

上述如本公开图1所示实施例揭示的音频场景识别装置执行的方法，或，如本公开图4所示实施例揭示的音频场景识别模型的训练装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(centralprocessingunit，cpu)、网络处理器(fetworkprocessor，fp)等；还可以是数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field－programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1中音频场景识别装置执行的方法，并实现音频场景识别装置在图1所示实施例的功能，或，可执行图4中音频场景识别模型的训练装置执行的方法，并实现音频场景识别模型的训练装置在图4所示实施例的功能，本公开实施例在此不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述音频场景识别方法，或，实现上述音频场景识别模型的训练方法的实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(read-onlymemory，简称rom)、随机存取存储器(randomaccessmemory，简称ram)、磁碟或者光盘等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王俊;卢亮;张大威
技术所有人：北京达佳互联信息技术有限公司
我是此专利的发明人

上一篇：池塘尾水生态处理系统的制作方法
上一篇：一种电磁能蒸汽清洗机用的高效加热组件的制作方法