确定音频数据的音频类型的方法和装置与流程

文档序号：16047039发布日期：2018-11-24 10:57阅读：288来源：国知局

技术简介：
本专利针对音频类型识别中误差累积导致的准确率不足问题，提出一种基于特征矩阵整体分类的解决方案。通过降采样分割音频单元，提取特征数据并构建时序特征矩阵，结合全局池化与分类模型实现整体判断，有效避免局部误差影响全局结果，显著提升纯音乐音频检测准确率。
关键词：音频分类,特征提取

本发明涉及网络技术领域，特别涉及一种确定音频数据的音频类型的方法和装置。

背景技术

随着人们生活水平日益提高，越来越多的人喜欢听音乐，以此放松心情。一般来说，音乐平台或音乐网站上的音频可分为有人声的声乐音频和没有人声的纯音乐音频。对声乐音频和纯音乐音频进行分类是目前音频检测领域较为热门的研究课题。

目前，检测音频是否为纯音乐音频的方法通常是，将需要判断的整段音频分成多个片段，逐一确定每个片段中是否包含有人声音频，进而确定每个片段是否是纯音乐音频。如果整段音频的所有片段均为纯音乐音频，则确定该整段音频为纯音乐音频，如果整段音频的所有片段中存在至少一个片段不是纯音乐音频，则确定该整段音频不是纯音乐音频。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

在确定单个片段中是否包含有人声音频时，可能会存在误差，进而，在确定所有片段是否是纯音乐音频时就会累积较大的误差，进而，导致检测音频是否为纯音乐音频的准确率降低。

技术实现要素：

为了解决现有技术的问题，本发明实施例提供了一种确定音频数据的音频类型的方法和装置。所述技术方案如下：

第一方面，提供了一种确定音频数据的音频类型的方法，所述方法包括：

对输入的音频数据进行降采样处理；

切分降采样处理后的音频数据，得到多个音频单元；

提取所述多个音频单元中每个音频单元对应的特征数据；

根据每个特征数据对应的音频单元的时序，对所述特征数据进行排列，得到所述输入的音频数据的特征矩阵；

基于所述特征矩阵和预先训练的分类模型，确定所述输入的音频数据的音频类型。

可选地，所述提取所述多个音频单元中每个音频单元对应的特征数据，包括：

提取每个音频单元的频率数据；

将每个音频单元的频率数据分别输入预先训练的特征提取模型，得到所述每个音频单元对应的特征数据。

可选地，所述特征提取模型包括至少一个空洞门限残差卷积神经网络rgcnn模块和全局池化模块；

所述将每个音频单元的频率数据分别输入预先训练的特征提取模型，得到所述每个音频单元对应的特征数据，包括：

对于每个音频单元，基于所述至少一个rgcnn模块，对所述音频单元的频率数据进行处理，得到中间特征矩阵，将所述中间特征矩阵输入所述全局池化模块，得到所述音频单元对应的特征数据。

可选地，所述特征提取模型包括n个rgcnn模块，所述n个rgcnn模块中的每个rgcnn模块包括不带激活函数的卷积层、带激活函数的卷积层、元素乘积计算模块和元素加和计算模块，其中，n为正整数；

所述基于所述至少一个rgcnn模块，对所述音频单元的频率数据进行处理，得到中间特征矩阵，将所述中间特征矩阵输入所述全局池化模块，得到所述音频单元对应的特征数据，包括：

对于第1个rgcnn模块，将所述频率数据输入第1个rgcnn模块中不带激活函数的卷积层，得到所述第1个rgcnn模块的非激活卷积特征矩阵，将所述频率数据输入第1个rgcnn模块中带激活函数的卷积层，得到所述第1个rgcnn模块的激活卷积特征矩阵，将所述第1个rgcnn模块的非激活卷积特征矩阵与激活卷积特征矩阵输入所述元素乘积计算模块，得到所述第1个rgcnn模块对应的特征乘积矩阵；将所述频率数据与所述第1个rgcnn模块对应的特征乘积矩阵输入所述元素加和计算模块，得到所述第1个rgcnn模块对应的中间特征矩阵；

对于第i个rgcnn模块，将第i-1个rgcnn模块对应的中间特征矩阵输入所述第i个rgcnn模块中不带激活函数的卷积层，得到所述第i个rgcnn模块的非激活卷积特征矩阵；将所述第i-1个rgcnn模块对应的中间特征矩阵输入所述第i个rgcnn模块中带激活函数的卷积层，得到所述第i个rgcnn模块的激活卷积特征矩阵，将所述第i个rgcnn模块的非激活卷积特征矩阵与激活卷积特征矩阵输入所述元素乘积计算模块，得到所述第i个rgcnn模块对应的特征乘积矩阵；将所述第i-1个rgcnn模块对应的中间特征矩阵与所述第i个rgcnn模块对应的特征乘积矩阵输入所述元素加和计算模块，得到所述第i个rgcnn模块对应的中间特征矩阵；其中，i是大于1且不大于n的任意整数；

将第n个rgcnn模块对应的中间特征矩阵输入所述全局池化模块，得到所述音频单元对应的特征数据。

可选地，在同一个rgcnn模块中，不带激活函数的卷积层的膨胀系数与带激活函数的卷积层的膨胀系数相同；

第i个rgcnn模块的卷积层的膨胀系数大于第i-1个rgcnn模块的卷积层的膨胀系数。

可选地，所述提取所述多个音频单元中每个音频单元对应的特征数据之前，还包括：

获取多个第一训练样本，其中，每个第一训练样本包括样本音频单元的频率数据和音频类型；

基于所述多个第一训练样本和预设的第一训练函数，对初始特征提取模型进行训练，得到所述特征提取模型。

可选地，所述得到所述特征提取模型之后，还包括：

获取多个第二训练样本，其中，每个第二训练样本包括样本音频数据中各样本音频单元的频率数据和所述样本音频数据的音频类型；

基于所述特征提取模型和所述多个第二训练样本中的频率数据，得到多个样本特征数据；

基于所述多个样本特征数据、多个第二训练样本中的音频类型和预设的第二训练函数，对初始分类模型进行训练，得到所述分类模型。

第二方面，提供了一种确定音频数据的音频类型的装置，所述装置包括：

处理模块，用于对输入的音频数据进行降采样处理；

切分模块，用于切分降采样处理后的音频数据，得到多个音频单元；

提取模块，用于提取所述多个音频数据中每个音频单元对应的特征数据；

排列模块，用于根据每个特征数据对应的音频单元的时序，对所述特征数据进行排列，得到所述输入的音频数据的特征矩阵；

确定模块，用于基于所述特征矩阵和预先训练的分类模型，确定所述输入的音频数据的音频类型。

可选地，所述提取模块，用于：

提取每个音频单元的频率数据；

将每个音频单元的频率数据分别输入预先训练的特征提取模型，得到所述每个音频单元对应的特征数据。

可选地，所述特征提取模型包括至少一个空洞门限残差卷积神经网络rgcnn模块和全局池化模块；

所述提取模块，用于：

将第n个rgcnn模块对应的中间特征矩阵输入所述全局池化模块，得到所述音频单元对应的特征数据。

可选地，在同一个rgcnn模块中，不带激活函数的卷积层的膨胀系数与带激活函数的卷积层的膨胀系数相同；

第i个rgcnn模块的卷积层的膨胀系数大于第i-1个rgcnn模块的卷积层的膨胀系数。

可选地，所述装置还包括：

第一获取模块，用于提取所述多个音频单元中每个音频单元对应的特征数据之前，获取多个第一训练样本，其中，每个第一训练样本包括样本音频单元的频率数据和音频类型；

第一训练模块，用于基于所述多个第一训练样本和预设的第一训练函数，对初始特征提取模型进行训练，得到所述特征提取模型。

可选地，所述装置还包括：

第二获取模块，用于得到所述特征提取模型之后，获取多个第二训练样本，其中，每个第二训练样本包括样本音频数据中各样本音频单元的频率数据和所述样本音频数据的音频类型；

第三获取模块，用于基于所述特征提取模型和所述多个第二训练样本中的频率数据，得到多个样本特征数据；

第二训练模块，用于基于所述多个样本特征数据、多个第二训练样本中的音频类型和预设的第二训练函数，对初始分类模型进行训练，得到所述分类模型。

第三方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述第一方面所述的确定音频数据的音频类型的方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述第一方面所述的确定音频数据的音频类型的方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，基于目标音频数据的多个特征数据，对目标音频数据整体进行分类，以此确定目标音频数据对应的音频类型，无需对每个音频单元分别进行分类，这样可以防止误差累积，因此，可以提高检测音频是否是纯音乐音频的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种确定音频数据的音频类型的方法的流程图；

图2是本发明实施例提供的一种确定音频数据的音频类型的方法的频谱示意图；

图3是本发明实施例提供的一种确定音频数据的音频类型的方法的模型示意图；

图4是本发明实施例提供的一种确定音频数据的音频类型的方法的模型结构示意图；

图5是本发明实施例提供的一种确定音频数据的音频类型的方法的场景示意图；

图6是本发明实施例提供的一种确定音频数据的音频类型的装置的结构示意图；

图7是本发明实施例提供的一种确定音频数据的音频类型的装置的结构示意图；

图8是本发明实施例提供的一种确定音频数据的音频类型的装置的结构示意图；

图9是本发明实施例提供的一种服务器结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种确定音频数据的音频类型的方法，该方法可以由服务器实现。

服务器可以包括处理器、存储器等部件。处理器，可以为cpu(centralprocessingunit，中央处理单元)等，可以用于提取目标音频数据的音频单元、提取每个音频单元对应的特征数据、将特征数据进行排列醉成目标音频数据的特征矩阵、确定目标音频数据的音频类型等处理。存储器，可以为ram(randomaccessmemory，随机存取存储器)，flash(闪存)等，可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等，如目标音频数据、音频单元、特征数据、目标音频数据的音频类型等。服务器还可以包括收发器、图像检测部件、音频输出部件和音频输入部件等。收发器，可以用于与其它设备进行数据传输，可以包括天线、匹配电路、调制解调器等。图像检测部件可以是摄像头等。音频输出部件可以是音箱、耳机等。音频输入部件可以是麦克风等。

如图1所示，该方法的处理流程可以包括如下的步骤：

在步骤101中，对输入的音频数据进行降采样处理。

一个可能的实施例中，当用户想要检测输入的音频数据(可称为目标音频数据)的音频类型，即用户想要确定目标音频数据属于纯音乐类型还是属于声乐类型，需要先对这段目标音频数据进行一些处理，如降采样处理。优选地，可以将目标音频数据降采样到16000hz，这样处理的好处有三点：一是可以得到统一数据形式的输入数据，二是可以减少输入数据量，三是可以避免频谱高度对目标音频数据的影响。

在步骤102中，切分降采样处理后的音频数据，得到多个音频单元。

一个可能的实施例中，得到降采样处理后的音频数据后，可以按照预设时长，将目标音频数据进行分割，将目标音频数据分割为多个音频片段，每个音频片段为一个音频单元，优选的预设时长为3s，如果最后一个音频单元的时长不足3s，可以将这个音频单元舍弃。

在步骤103中，提取多个音频单元中每个音频单元对应的特征数据。

一个可能的实施例中，得到多个音频单元后，用户可以对每个音频单元进行特征提取处理，得到每个音频单元对应的特征数据。

可选地，上述特征提取处理可以通过特征提取模型来实现，相应的步骤103的处理过程可以如下：提取每个音频单元的频率数据；将每个音频单元的频率数据分别输入预先训练的特征提取模型，得到每个音频单元对应的特征数据。

一个可能的实施例中，对得到的至少一个音频单元分别提取mel-spectrogram(梅尔声谱图)，一个音频单元对应的梅尔声谱图可以如图2所示，其中，梅尔声谱图的横轴表示时间，纵轴表示频带数，频带数表示一个频率范围，优选的频带数可以确定为128。

根据每个音频单元的mel-spectrogram，沿时间方向计算每个频带所在频率的均值，得到128个频率均值；沿时间方向计算每个频带所在频率的方差，得到128个频率方差。为了使输入的数据归一化，可以计算每个频带的均值与方差的比值，将比值确定为每个音频单元的频率数据。

将每个音频单元的频率数据分别输入预先训练的特征提取模型，对每个音频单元的频率数据进行特征提取，得到每个音频单元对应的特征数据。

可选地，上述训练好的特征提取模型包括至少一个空洞门限残差卷积神经网络rgcnn模块和全局池化模块；将每个音频单元的频率数据输入预先训练的特征提取模型中，具体的处理过程是：对于每个音频单元，基于至少一个rgcnn模块，对音频单元的频率数据进行处理，得到中间特征矩阵，将中间特征矩阵输入全局池化模块，得到音频单元对应的特征数据。

一个可能的实施例中，上述训练好的特征提取模型的结构可以包括至少一个空洞门限残差卷积神经网络rgcnn模块和全局池化模块，当一个音频单元的频率数据输入特征提取模型时，按照预设的处理流程，使所有rgcnn模块对输入的频率数据进行处理，得到中间特征矩阵，然后将得到的中间特征矩阵输入全局池化模块，对中间特征矩阵进行全局池化处理，得到音频单元对应的向量形式的特征数据，

可选地，上述至少一个特征提取模型可以包括n个rgcnn模块，n个rgcnn模块中的每个rgcnn模块包括不带激活函数的卷积层、带激活函数的卷积层、元素乘积计算模块和元素加和计算模块，其中，激活函数为sigmoid激活函数，n为正整数。

对于第1个rgcnn模块，将频率数据输入第1个rgcnn模块中不带激活函数的卷积层，得到第1个rgcnn模块的非激活卷积特征矩阵，将频率数据输入第1个rgcnn模块中带激活函数的卷积层，得到第1个rgcnn模块的激活卷积特征矩阵，将第1个rgcnn模块的非激活卷积特征矩阵与激活卷积特征矩阵输入元素乘积计算模块，得到第1个rgcnn模块对应的特征乘积矩阵；将频率数据与第1个rgcnn模块对应的特征乘积矩阵输入元素加和计算模块，得到第1个rgcnn模块对应的中间特征矩阵；对于第i个rgcnn模块，将第i-1个rgcnn模块对应的中间特征矩阵输入第i个rgcnn模块中不带激活函数的卷积层，得到第i个rgcnn模块的非激活卷积特征矩阵；将第i-1个rgcnn模块对应的中间特征矩阵输入第i个rgcnn模块中带激活函数的卷积层，得到第i个rgcnn模块的激活卷积特征矩阵，将第i个rgcnn模块的非激活卷积特征矩阵与激活卷积特征矩阵输入元素乘积计算模块，得到第i个rgcnn模块对应的特征乘积矩阵；将第i-1个rgcnn模块对应的中间特征矩阵与第i个rgcnn模块对应的特征乘积矩阵输入元素加和计算模块，得到第i个rgcnn模块对应的中间特征矩阵；其中，i是大于1且不大于n的任意整数；将第n个rgcnn模块对应的中间特征矩阵输入全局池化模块，得到音频单元对应的特征数据。

一个可能的实施例中，上述n的取值优选为4至6，即上述rgcnn模块的个数优选为4至6个，本实施例中以rgcnn模块的个数为5个进行举例说明。每个rgcnn模块包括不带激活函数的卷积层、带激活函数的卷积层、元素乘积计算模块和元素加和计算模块。

通过上述步骤得到音频单元的频率数据后，如图3所示，将频率数据同时输入第1个rgcnn模块中的不带激活函数的卷积层和待激活函数的卷积层，根据不带激活函数的卷积层得到第1个rgcnn模块的非激活卷积特征矩阵，根据带激活函数的卷积层得到第1个rgcnn模块的激活卷积特征矩阵，将得到的非激活卷积特征矩阵和激活卷积特征矩阵输入元素乘积计算模块，得到第1个rgcnn模块对应的特征乘积矩阵，将第1个rgcnn模块对应的特征乘积矩阵和频率数据输入元素加和计算模块，得到第1个rgcnn模块对应的中间特征矩阵。

将得到的第1个rgcnn模块对应的中间特征矩阵输入到第2个rgcnn模块中的不带激活函数的卷积层和待激活函数的卷积层，根据不带激活函数的卷积层得到第2个rgcnn模块的非激活卷积特征矩阵，根据带激活函数的卷积层得到第2个rgcnn模块的激活卷积特征矩阵，将得到的非激活卷积特征矩阵和激活卷积特征矩阵输入元素乘积计算模块，得到第2个rgcnn模块对应的特征乘积矩阵，将第1个rgcnn模块对应的中间特征矩阵和第2个rgcnn模块对应的特征乘积矩阵输入元素加和计算模块，得到第2个rgcnn模块对应的中间特征矩阵。

然后将第2个rgcnn模块对应的中间特征矩阵输入到第3个rgcnn模块中的不带激活函数的卷积层和待激活函数的卷积层，参照上述处理步骤进行处理，得到第3个rgcnn模块中的中间特征矩阵。重复上面的处理步骤以此类推，直到得到最后一个rgcnn模块的中间特征矩阵。

将最后一个rgcnn模块对应的中间特征矩阵输入全局池化模块，通过全局池化模块的全局池化处理，将中间特征矩阵的每行数据处理为一个数值，得到音频单元对应的向量形式的特征数据。

可选地，在同一个rgcnn模块中，不带激活函数的卷积层的膨胀系数与带激活函数的卷积层的膨胀系数相同；第i个rgcnn模块的卷积层的膨胀系数大于第i-1个rgcnn模块的卷积层的膨胀系数。

其中，卷积层的膨胀系数用于指示提取特征的范围，膨胀系数越大，提取的特征越全局化，膨胀系数越小，提取的特征越具体。

一个可能的实施例中，在上述n个rgcnn模块中，在同一个rgcnn模块中，不带激活函数的卷积层的膨胀系数与带激活函数的卷积层的膨胀系数相同。任意两个rgcnn模块中的卷积层的膨胀系数都不相同，且按照进行特征提取处理的顺序，所有rgcnn模块中的卷积层的膨胀系数是递增的，例如，假设第i个rgcnn模块为n个rgcnn模块中除了第1个rgcnn模块之外的任意一个模块，则第i个rgcnn模块的卷积层的膨胀系数大于第i-1个rgcnn模块的卷积层的膨胀系数。优选地，可以将rgcnn模块设置为5个，将这5个rgcnn模块中的卷积层的膨胀系数按指数递增的形式设置，如第1个rgcnn模块中的卷积层的膨胀系数设置为2，第2个rgcnn模块中的卷积层的膨胀系数设置为4，第3个rgcnn模块中的卷积层的膨胀系数设置为8，第4个rgcnn模块中的卷积层的膨胀系数设置为16，第5个rgcnn模块中的卷积层的膨胀系数设置为32。

可选地，上述特征提取模型的训练过程可以如下：获取多个第一训练样本；基于多个第一训练样本和预设的第一训练函数，对初始特征提取模型进行训练，得到特征提取模型。

其中，每个第一训练样本包括样本音频单元的频率数据和音频类型。

一个可能的实施例中，在使用特征提取模型之前，需要先对特征提取模型进行训练。首先，获取多个用于训练特征提取模型的训练样本(即第一训练样本)，每个第一训练样本包括样本音频单元的频率数据和音频类型。

获取样本音频单元的频率数据的过程可以是，首先获取样本音频数据，将样本音频数据降采样到16000hz，然后按照预设时长，将样本音频数据分割为样本音频单元，优选的，预设时长可以为3s，即将样本音频数据分割为时长3s的多个样本音频单元，并确定每个样本音频单元的音频类型(即样本音频类型)，即确定每个样本音频单元是纯音乐音频还是声乐音频。

然后，提取每个样本音频单元的频率数据，相应的处理过程可以参照上述处理步骤，在此不做赘述。

将样本音频单元的频率数据输入初始特征提取模型，通过初始特征提取模型的特征提取，得到每个样本音频单元对应的样本特征数据。将样本特征数据输入到全连接模型，如图4所示，该全连接模型用于根据每个样本特征数据确定其音乐类型，该全连接模型中包括一个正则模块dropout和两个稠密连接模块dense。通过全连接模型，得到样本音频单元对应的测试音频类型，该测试音频类型是一个概率数值。

计算测试音频类型和样本音频类型之间的误差值，确定得到的误差值是否小于预设误差值阈值，如果计算得到的误差值不小于预设误差值阈值，根据误差值确定初始特征提取模型中各系数的调整值，并对初始特征提取模型中的各系数进行调整。根据多个样本音频单元得到多个测试音频类型，根据多个测试音频类型和样本音频类型得到多个误差值，根据各误差初始特征提取模型进行训练，直到计算得到的误差值小于预设误差值阈值，将当前的特征提取模型确定为训练好的特征提取模型，训练过程结束。

可选地，上述分类模型也需要进行训练，相应的处理过程可以如下：获取多个第二训练样本；基于特征提取模型和多个第二训练样本中的频率数据，得到多个样本特征数据；基于多个样本特征数据、多个第二训练样本中的音频类型和预设的第二训练函数，对初始分类模型进行训练，得到分类模型。

其中，每个第二训练样本包括样本音频数据中各样本音频单元的频率数据和样本音频数据的音频类型，样本音频单元是样本音频数据按照预设时长进行分割得到的，每个样本音频数据的时长设定为8分钟，时长不足的音频单元用0补足；每个样本音频单元的时长优选为3s。

一个可能的实施例中，通过上述处理步骤得到训练好的特征提取模型后，可以对初始分类模型进行训练。首先，获取多个用于训练初始分类模型的训练样本(即第二训练样本)，每个第二训练样本包括样本音频数据中各样本音频单元的频率数据和样本音频数据的音频类型。然后，将每个第二训练样本中的频率数据输入训练好的特征提取模型中，得到每个第二训练样本的样本特征数据。将得到的样本特征数据输入初始分类模型中，优选地，为了取消样本音频数据中用于补足时长而添加的0带来的影响，可以在初始分类模型之前添加一个掩码层。通过初始分类模型对样本特征数据的分类处理，得到该第二训练样本的测试音乐类型。

计算测试音频类型和第二训练样本中的样本音频类型之间的误差值，确定得到的误差值是否小于预设误差值阈值，如果计算得到的误差值不小于预设误差值阈值，根据误差值确定初始分类模型中各系数的调整值，并对初始分类模型中的各系数进行调整。根据多个样本音频单元得到多个测试音频类型，根据多个测试音频类型和样本音频类型得到多个误差值，根据各误差初始分类模型进行训练，直到计算得到的误差值小于预设误差值阈值，将当前的分类模型确定为训练好的分类模型，训练过程结束。

在步骤104中，根据每个特征数据对应的音频单元的时序，对特征数据进行排列，得到输入的音频数据的特征矩阵。

一个可能的实施例中，通过上述步骤得到每个音频单元的特征数据后，确定每个音频单元的时间顺序，并按照每个音频单元的时间顺序，将每个音频单元的特征数据进行排列，得到输入的音频数据的特征矩阵，如图5所示。

在步骤105中，基于特征矩阵和预先训练的分类模型，确定输入的音频数据的音频类型。

其中，音频类型包括纯音乐类型或声乐类型。优选地，上述分类模型可以是rnn模型(recurrentneuralnetworks，循环神经网络)。

一个可能的实施例中，将通过上述步骤104得到的目标音频数据的特征矩阵后，将目标音频数据的特征矩阵输入到预先训练的分类模型中，通过分类模型的分类处理，确定目标音频数据的音频类型。音频数据的音频类型可以包括纯音乐类型和声乐类型，对应的，训练好的分类模型可以分为用于确定音频数据为纯音乐类型的概率的分类模型和用于确定音频数据为声乐类型的概率的分类模型。

如果将目标音频数据的特征矩阵输入用于确定音频数据为纯音乐类型的概率的分类模型，则分类模型输出为目标音频数据为纯音乐类型的概率，在这种情况下，当输出的概率大于第一预设概率阈值时，可以确定目标音频数据为纯音乐类型，当输出的概率不大于第一预设概率阈值时，可以确定目标音频数据为声乐类型。

如果将目标音频数据的特征矩阵输入用于确定音频数据为声乐类型的概率的分类模型，则分类模型输出为目标音频数据为声乐类型的概率，在这种情况下，当输出的概率大于第二预设概率阈值时，可以确定目标音频数据为声乐类型，当输出的概率不大于第二预设概率阈值时，可以确定目标音频数据为纯音乐类型。

基于相同的技术构思，本发明实施例还提供了一种确定音频数据的音频类型的装置，该装置可以为上述实施例中的服务器，如图6所示，该装置包括：处理模块610，切分模块620，提取模块630，排列模块640和确定模块650。

处理模块610，被配置为对输入的音频数据进行降采样处理；

切分模块620，被配置为切分降采样处理后的音频数据，得到多个音频单元；

提取模块630，被配置为提取所述多个音频单元中每个音频单元对应的特征数据；

排列模块640，被配置为根据每个特征数据对应的音频单元的时序，对所述特征数据进行排列，得到所述输入的音频数据的特征矩阵；

确定模块650，被配置为基于所述特征矩阵和预先训练的分类模型，确定所述输入的音频数据的音频类型。

可选地，所述提取模块630，被配置为：

提取每个音频单元的频率数据；

将每个音频单元的频率数据分别输入预先训练的特征提取模型，得到所述每个音频单元对应的特征数据。

可选地，所述特征提取模型包括至少一个空洞门限残差卷积神经网络rgcnn模块和全局池化模块；

所述提取模块630，被配置为：

将第n个rgcnn模块对应的中间特征矩阵输入所述全局池化模块，得到所述音频单元对应的特征数据。

可选地，在同一个rgcnn模块中，不带激活函数的卷积层的膨胀系数与带激活函数的卷积层的膨胀系数相同；

第i个rgcnn模块的卷积层的膨胀系数大于第i-1个rgcnn模块的卷积层的膨胀系数。

可选地，如图7所示，所述装置还包括：

第一获取模块710，被配置为提取所述多个每个音频单元中每个音频单元对应的特征数据之前，获取多个第一训练样本，其中，每个第一训练样本包括样本音频单元的频率数据和音频类型；

第一训练模块720，被配置为基于所述多个第一训练样本和预设的第一训练函数，对初始特征提取模型进行训练，得到所述特征提取模型。

可选地，如图8所示，所述装置还包括：

第二获取模块810，被配置为得到所述特征提取模型之后，获取多个第二训练样本，其中，每个第二训练样本包括样本音频数据中各样本音频单元的频率数据和所述样本音频数据的音频类型；

第三获取模块820，被配置为基于所述特征提取模型和所述多个第二训练样本中的频率数据，得到多个样本特征数据；

第二训练模块830，被配置为基于所述多个样本特征数据、多个第二训练样本中的音频类型和预设的第二训练函数，对初始分类模型进行训练，得到所述分类模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是：上述实施例提供的确定音频数据的音频类型的装置在确定音频数据的音频类型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的确定音频数据的音频类型的装置与确定音频数据的音频类型的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessingunits，cpu)901和一个或一个以上的存储器902，其中，所述存储器902中存储有至少一条指令，所述至少一条指令由所述处理器901加载并执行以实现下述确定音频数据的音频类型的方法步骤：

对输入的音频数据进行降采样处理；

切分降采样处理后的音频数据，得到多个音频单元；

提取所述多个音频单元中每个音频单元对应的特征数据；

根据每个特征数据对应的音频单元的时序，对所述特征数据进行排列，得到所述输入的音频数据的特征矩阵；

基于所述特征矩阵和预先训练的分类模型，确定所述输入的音频数据的音频类型。

可选的，所述至少一条指令由所述处理器901加载并执行以实现下述方法步骤：

提取每个音频单元的频率数据；

将每个音频单元的频率数据分别输入预先训练的特征提取模型，得到所述每个音频单元对应的特征数据。

可选的，所述至少一条指令由所述处理器901加载并执行以实现下述方法步骤：

将第n个rgcnn模块对应的中间特征矩阵输入所述全局池化模块，得到所述音频单元对应的特征数据。

可选的，所述至少一条指令由所述处理器901加载并执行以实现下述方法步骤：

获取多个第一训练样本，其中，每个第一训练样本包括样本音频单元的频率数据和音频类型；

基于所述多个第一训练样本和预设的第一训练函数，对初始特征提取模型进行训练，得到所述特征提取模型。

可选的，所述至少一条指令由所述处理器901加载并执行以实现下述方法步骤：

获取多个第二训练样本，其中，每个第二训练样本包括样本音频数据中各样本音频单元的频率数据和所述样本音频数据的音频类型；

基于所述特征提取模型和所述多个第二训练样本中的频率数据，得到多个样本特征数据；

基于所述多个样本特征数据、多个第二训练样本中的音频类型和预设的第二训练函数，对初始分类模型进行训练，得到所述分类模型。

在示例性实施例中，还提供了一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述实施例中的识别动作类别的方法。例如，所述计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王征韬
技术所有人：腾讯音乐娱乐科技（深圳）有限公司
我是此专利的发明人

上一篇：一种电力自动化填充机的制作方法
下一篇：一种果蔬混合的小麦胚芽粉的加工方法与流程