音频分类方法、装置及存储介质与流程

文档序号：17493656发布日期：2019-04-23 20:58阅读：260来源：国知局

本发明涉及互联网技术领域，特别涉及一种音频分类方法、装置及存储介质。

背景技术：

随着互联网技术的高速发展，互联网的信息规模逐渐扩大，导致很多敏感信息广泛传播，如敏感视频和敏感音频等，这些敏感视频和敏感音频对人们的心理健康产生了恶劣的影响，污染了网络环境，极易引起网络信息安全问题。因此，如何识别敏感信息成为亟待解决的问题。

相关技术中提供了一种音频分类方法，能够对音频信息进行分类，识别出正常音频信息和敏感音频信息。首先，获取多个敏感音频信息，对每个敏感音频信息进行特征提取，得到每个敏感音频信息的音频特征，根据多个音频特征进行模型训练，得到混合高斯模型。之后，获取待识别的目标音频信息，对目标音频信息进行特征提取，得到目标音频信息的目标音频特征，基于混合高斯模型，确定目标音频特征与混合高斯模型的马氏距离，判断该马氏距离是否大于预设阈值，当该马氏距离大于预设阈值时，确定目标音频信息为正常音频信息，而当该马氏距离不大于预设阈值时，确定目标音频信息为敏感音频信息。

当目标音频信息中包括低频噪声时，该低频噪声与敏感音频信息的特征较为相似，导致基于混合高斯模型进行分类时，会将低频噪声误认为是敏感音频信息，导致音频分类出现错误，精确度较低。

技术实现要素：

本发明实施例提供了一种音频分类方法、装置及存储介质，可以解决相关技术存在的问题。所述技术方案如下：

第一方面，提供了一种音频分类方法，所述方法包括：

获取目标音频信息中的至少一个目标音频片段；

对所述至少一个目标音频片段进行高通滤波和特征提取，得到所述至少一个目标音频片段对应的至少一个音频特征；

基于音频分类模型和所述至少一个音频特征，确定所述至少一个目标音频片段的分类标识，根据所述至少一个目标音频片段的分类标识，确定所述目标音频信息的分类标识；

所述分类标识包括第一标识和第二标识，所述第一标识用于指示对应的音频信息为正常音频信息，所述第二标识用于指示对应的音频信息为敏感音频信息。

可选地，所述获取目标音频信息中的至少一个目标音频片段，包括：

按照第一预设长度对所述目标音频信息进行划分，得到长度等于所述第一预设长度的多个音频片段；

对于所述多个音频片段中的每个音频片段，获取所述音频片段中的多个基频，获取所述多个基频中大于第一预设频率的基频所占的比例；

从所述多个音频片段中，获取所述比例小于第一预设比例的音频片段，作为目标音频片段。

可选地，所述获取目标音频信息中的至少一个目标音频片段，包括：

按照第二预设长度和第三预设长度对所述目标音频信息进行划分，得到长度等于所述第二预设长度的多个音频片段，且所述多个音频片段中任两个相邻的音频片段包括所述第三预设长度的相同音频信息；所述第三预设长度小于所述第二预设长度；

对于所述多个音频片段中的每个音频片段，按照第四预设长度对所述音频片段进行划分，得到长度等于所述第四预设长度的多个音频子片段，获取每个音频子片段的幅值的统计值；所述第四预设长度小于所述第二预设长度；

从所述多个音频片段中，获取任一统计值大于预设数值的音频片段，作为目标音频片段。

可选地，所述获取目标音频信息中的至少一个目标音频片段，包括：

对于所述多个音频片段中的每个音频片段，获取所述音频片段中的多个基频，获取所述多个基频中大于第一预设频率的基频所占的比例；

从所述多个音频片段中，获取所述比例大于第二预设比例且小于第三预设比例的音频片段，作为目标音频片段。

可选地，所述对所述至少一个目标音频片段进行高通滤波和特征提取，得到所述至少一个目标音频片段对应的至少一个音频特征，包括：

对所述至少一个目标音频片段进行高通滤波，得到高通滤波后的至少一个音频片段；

按照第五预设长度对高通滤波后的每个音频片段进行划分，得到长度等于所述第五预设长度的多个音频子片段；

对每个音频子片段进行特征提取，得到每个音频子片段的音频特征。

可选地，所述根据所述至少一个目标音频片段的分类标识，确定所述目标音频信息的分类标识，包括以下至少一项：

当所述至少一个目标音频片段中，连续第一预设数量的目标音频片段的分类标识为所述第二标识时，确定所述目标音频信息的分类标识为所述第二标识；

当所述至少一个目标音频片段中，分类标识为所述第二标识的目标音频片段数量所占的比例达到第四预设比例时，确定所述目标音频信息的分类标识为所述第二标识。

可选地，所述方法还包括：

获取多个样本音频信息和所述多个样本音频信息的分类标识；

对所述多个样本音频信息进行高通滤波和特征提取，得到所述多个样本音频信息对应的多个音频特征；

根据所述多个音频特征以及每个音频特征对应的分类标识进行模型训练，得到所述音频分类模型。

可选地，所述音频分类模型包括第一音频分类模型和第二音频分类模型，所述根据所述多个音频特征以及每个音频特征对应的分类标识进行模型训练，得到所述音频分类模型，包括：

根据所述多个音频特征中，分类标识为所述第一分类标识的音频特征进行模型训练，得到所述第一音频分类模型；

根据所述多个音频特征中，分类标识为所述第二分类标识的音频特征进行模型训练，得到所述第二音频分类模型。

第二方面，提供了一种音频分类装置，所述装置包括：

获取模块，用于获取目标音频信息中的至少一个目标音频片段；

提取模块，用于对所述至少一个目标音频片段进行高通滤波和特征提取，得到所述至少一个目标音频片段对应的至少一个音频特征；

确定模块，用于基于音频分类模型和所述至少一个音频特征，确定所述至少一个目标音频片段的分类标识，根据所述至少一个目标音频片段的分类标识，确定所述目标音频信息的分类标识；

可选地，所述获取模块，包括：

第一划分单元，用于按照第一预设长度对所述目标音频信息进行划分，得到长度等于所述第一预设长度的多个音频片段；

基频获取单元，用于对于所述多个音频片段中的每个音频片段，获取所述音频片段中的多个基频，获取所述多个基频中大于第一预设频率的基频所占的比例；

获取单元，用于从所述多个音频片段中，获取所述比例小于第一预设比例的音频片段，作为目标音频片段。

可选地，所述获取模块，包括：

第二划分单元，用于按照第二预设长度和第三预设长度对所述目标音频信息进行划分，得到长度等于所述第二预设长度的多个音频片段，且所述多个音频片段中任两个相邻的音频片段包括所述第三预设长度的相同音频信息；所述第三预设长度小于所述第二预设长度；

所述第二划分单元，还用于对于所述多个音频片段中的每个音频片段，按照第四预设长度对所述音频片段进行划分，得到长度等于所述第四预设长度的多个音频子片段，获取每个音频子片段的幅值的统计值；所述第四预设长度小于所述第二预设长度；

获取单元，用于从所述多个音频片段中，获取任一统计值大于预设数值的音频片段，作为目标音频片段。

可选地，所述获取模块，包括：

第三划分单元，用于按照第二预设长度和第三预设长度对所述目标音频信息进行划分，得到长度等于所述第二预设长度的多个音频片段，且所述多个音频片段中任两个相邻的音频片段包括所述第三预设长度的相同音频信息；所述第三预设长度小于所述第二预设长度；

获取单元，用于从所述多个音频片段中，获取所述比例大于第二预设比例且小于第三预设比例的音频片段，作为目标音频片段。

可选地，所述提取模块，包括：

滤波单元，用于对所述至少一个目标音频片段进行高通滤波，得到高通滤波后的至少一个音频片段；

划分单元，用于按照第五预设长度对高通滤波后的每个音频片段进行划分，得到长度等于所述第五预设长度的多个音频子片段；

提取单元，用于对每个音频子片段进行特征提取，得到每个音频子片段的音频特征。

可选地，所述确定模块，用于执行以下至少一项：

可选地，所述装置还包括：

所述获取模块，还用于获取多个样本音频信息和所述多个样本音频信息的分类标识；

所述提取模块，还用于对所述多个样本音频信息进行高通滤波和特征提取，得到所述多个样本音频信息对应的多个音频特征；

训练模块，用于根据所述多个音频特征以及每个音频特征对应的分类标识进行模型训练，得到所述音频分类模型。

可选地，所述音频分类模型包括第一音频分类模型和第二音频分类模型；

所述训练模块，还用于根据所述多个音频特征中，分类标识为所述第一分类标识的音频特征进行模型训练，得到所述第一音频分类模型；

所述训练模块，还用于根据所述多个音频特征中，分类标识为所述第二分类标识的音频特征进行模型训练，得到所述第二音频分类模型。

第三方面，提供了一种音频分类装置，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如第一方面所述的音频分类方法中所执行的操作。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如第一方面所述的音频分类方法中所执行的操作。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的方法、装置及存储介质，通过获取目标音频信息中的至少一个目标音频片段，对至少一个目标音频片段进行高通滤波和特征提取，通过高通滤波可以将低频噪声滤除，进行特征提取得到至少一个目标音频片段对应的至少一个音频特征，基于音频分类模型和至少一个音频特征，确定至少一个目标音频片段的分类标识，根据至少一个目标音频片段的分类标识，确定目标音频信息的分类标识，从而可以将目标音频信息确定为正常音频信息或者敏感音频信息，由于在确定目标音频信息的分类标识之前进行高通滤波，能将目标音频信息的低频噪声滤除，因此不会出现将低频噪声确定为敏感音频信息的情况，提高了音频分类的精确度。

并且，在获取目标音频信息中的至少一个目标音频片段时，对该目标音频信息进行划分，从而得到划分之后的多个音频片段，通过设置预设条件，对多个音频片段进行筛选，将满足预设条件的音频片段作为目标音频片段，通过上述方式，可以减少其他音频片段的干扰，减少误分类的情况，提高了音频分类的精确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音频分类方法的流程图；

图2是本发明实施例提供的一种音频分类方法的流程图；

图3是本发明实施例提供的一种音频分类装置的结构示意图；

图4是本发明实施例提供的一种服务器的结构示意图；

图5是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种音频分类方法的流程图。该发明实施例的执行主体为分类装置，参见图1，该方法包括：

101、获取目标音频信息中的至少一个目标音频片段。

102、对至少一个目标音频片段进行高通滤波和特征提取，得到至少一个目标音频片段对应的至少一个音频特征。

103、基于音频分类模型和至少一个音频特征，确定至少一个目标音频片段的分类标识，根据至少一个目标音频片段的分类标识，确定目标音频信息的分类标识。

其中，分类标识包括第一标识和第二标识，第一标识用于指示对应的音频信息为正常音频信息，第二标识用于指示对应的音频信息为敏感音频信息。

本发明实施例提供的方法，通过获取目标音频信息中的至少一个目标音频片段，对至少一个目标音频片段进行高通滤波和特征提取，通过高通滤波可以将低频噪声滤除，进行特征提取得到至少一个目标音频片段对应的至少一个音频特征，基于音频分类模型和至少一个音频特征，确定至少一个目标音频片段的分类标识，根据至少一个目标音频片段的分类标识，确定目标音频信息的分类标识，从而可以将目标音频信息确定为正常音频信息或者敏感音频信息，由于在确定目标音频信息的分类标识之前进行高通滤波，能将目标音频信息的低频噪声滤除，因此不会出现将低频噪声确定为敏感音频信息的情况，提高了音频分类的精确度。

可选地，获取目标音频信息中的至少一个目标音频片段，包括：

按照第一预设长度对目标音频信息进行划分，得到长度等于第一预设长度的多个音频片段；

对于多个音频片段中的每个音频片段，获取音频片段中的多个基频，获取多个基频中大于第一预设频率的基频所占的比例；

从多个音频片段中，获取比例小于第一预设比例的音频片段，作为目标音频片段。

可选地，获取目标音频信息中的至少一个目标音频片段，包括：

按照第二预设长度和第三预设长度对目标音频信息进行划分，得到长度等于第二预设长度的多个音频片段，且多个音频片段中任两个相邻的音频片段包括第三预设长度的相同音频信息；第三预设长度小于第二预设长度；

对于多个音频片段中的每个音频片段，按照第四预设长度对音频片段进行划分，得到长度等于第四预设长度的多个音频子片段，获取每个音频子片段的幅值的统计值；第四预设长度小于第二预设长度；

从多个音频片段中，获取任一统计值大于预设数值的音频片段，作为目标音频片段。

可选地，获取目标音频信息中的至少一个目标音频片段，包括：

对于多个音频片段中的每个音频片段，获取音频片段中的多个基频，获取多个基频中大于第一预设频率的基频所占的比例；

从多个音频片段中，获取比例大于第二预设比例且小于第三预设比例的音频片段，作为目标音频片段。

可选地，对至少一个目标音频片段进行高通滤波和特征提取，得到至少一个目标音频片段对应的至少一个音频特征，包括：

对至少一个目标音频片段进行高通滤波，得到高通滤波后的至少一个音频片段；

按照第五预设长度对高通滤波后的每个音频片段进行划分，得到长度等于第五预设长度的多个音频子片段；

对每个音频子片段进行特征提取，得到每个音频子片段的音频特征。

可选地，根据至少一个目标音频片段的分类标识，确定目标音频信息的分类标识，包括以下至少一项：

当至少一个目标音频片段中，连续第一预设数量的目标音频片段的分类标识为第二标识时，确定目标音频信息的分类标识为第二标识；

当至少一个目标音频片段中，分类标识为第二标识的目标音频片段数量所占的比例达到第四预设比例时，确定目标音频信息的分类标识为第二标识。

可选地，方法还包括：

获取多个样本音频信息和多个样本音频信息的分类标识；

对多个样本音频信息进行高通滤波和特征提取，得到多个样本音频信息对应的多个音频特征；

根据多个音频特征以及每个音频特征对应的分类标识进行模型训练，得到音频分类模型。

可选地，音频分类模型包括第一音频分类模型和第二音频分类模型，根据多个音频特征以及每个音频特征对应的分类标识进行模型训练，得到音频分类模型，包括：

根据多个音频特征中，分类标识为第一分类标识的音频特征进行模型训练，得到第一音频分类模型；

根据多个音频特征中，分类标识为第二分类标识的音频特征进行模型训练，得到第二音频分类模型。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图2是本发明实施例提供的一种音频分类方法的流程图。该发明实施例的执行主体为分类装置，该分类装置可以为手机、计算机或者平板电脑等终端，也可以为服务器。参见图2，该方法包括：

201、获取音频分类模型。

本发明实施例中，基于音频分类模型可以对任一音频信息进行分类，确定该音频信息为正常音频信息还是敏感音频信息。其中，音频分类模型用于确定音频信息的分类标识，该分类标识包括第一标识和第二标识，第一标识用于指示对应的音频信息为正常音频信息，第二标识用于指示对应的音频信息为敏感音频信息。

第一标识与第二标识为不同的两个标识，例如，第一标识为1，第二标识为0，或者，第一标识为0，第二标识为1。

该音频分类模型可以由分类装置训练得到，并由分类装置存储，或者，该音频分类模型可以由其他设备训练后发送给分类装置，并由分类装置存储。

在训练音频分类模型时，获取多个样本音频信息和多个样本音频信息的分类标识，对于每个样本音频信息，对该样本音频信息进行高通滤波，滤除该样本音频信息中的低频噪声，对高通滤波后的样本音频信息进行特征提取，得到该样本音频信息对应的音频特征。采用上述方式可以得到多个样本音频信息对应的多个音频特征，并将多个样本音频信息的分类标识作为多个音频特征对应的分类标识，根据多个音频特征以及每个音频特征对应的分类标识进行模型训练，得到音频分类模型。

例如，每个音频特征可以对样本音频信息进行描述，可以为梅尔频率倒谱系数、线性预测倒谱系数或者其他可以描述目标音频片段的特征。相应地，在对样本音频信息进行特征提取时，可以采用梅尔频率倒谱系数算法、线性预测倒谱系数算法或者其他特征提取算法进行特征提取。

另外，可以采用多种训练算法训练音频分类模型，该音频分类模型可以为高斯混合模型、神经网络模型、决策树模型或者其他模型。

通过对样本音频信息进行高通滤波，可以滤除样本音频信息中的低频噪声，提取得到更能准确描述样本音频信息的音频特征，还能避免低频噪声的干扰，提高了训练的音频分类模型的准确率。

可选地，在训练音频分类模型时，可以先构建初始的音频分类模型，获取训练数据集和测试数据集，训练数据集和测试数据集中均包括多个样本音频信息。

对训练数据集中的多个样本音频信息分别进行高通滤波，对高通滤波后的多个样本音频信息进行特征提取，得到多个样本音频信息对应的多个音频特征，将多个音频特征作为音频分类模型的输入，对音频分类模型进行训练，使音频分类模型对正常音频信息和敏感音频信息之间的区别进行学习，具备区分正常音频信息和敏感音频信息的能力。

之后，对测试数据集中的多个样本音频信息分别进行高通滤波，对高通滤波后的多个样本音频信息进行特征提取，得到多个样本音频信息对应的多个音频特征，将多个音频特征输入到音频分类模型中，基于音频分类模型，确定每个样本音频信息的分类标识，将确定的分类标识与实际分类标识进行对比，根据对比结果对音频分类模型进行更新。

后续过程中，还可以获取新的样本音频信息及其分类标识，继续训练音频分类模型，从而可以提高音频分类模型的准确率。

可选地，音频分类模型包括第一音频分类模型和第二音频分类模型，在进行模型训练时，获取多个样本音频信息和多个样本音频信息的分类标识，对多个样本音频信息进行高通滤波和特征提取，得到多个样本音频信息对应的多个音频特征，根据分类标识为第一分类标识的多个音频特征进行模型训练，得到第一音频分类模型，根据分类标识为第二分类标识的音频特征进行模型训练，得到第二音频分类模型。

其中，第一音频分类模型能够对正常音频信息的特征进行学习，具备识别正常音频信息的能力。基于第一音频分类模型能够确定任一音频信息属于正常音频信息的概率。第二音频分类模型能够对敏感音频信息的特征进行学习，具备识别敏感音频信息的能力。基于第二音频分类模型能够确定任一音频信息属于敏感音频信息的概率。后续可以基于第一音频分类模型和第二音频分类模型，对目标音频信息进行分类。

通过对两种不同的样本音频信息分别进行训练，得到第一音频分类模型和第二音频分类模型，能够提高针对性，进而提高音频分类模型的准确率。

202、获取目标音频信息中的至少一个目标音频片段。

本发明实施例中，该目标音频信息为待分类的音频信息，需要对目标音频信息进行分类，确定该目标音频信息为正常音频信息还是敏感音频信息。

从信息形式上来说，该目标音频信息可以为单个音频文件中的音频信息，或者可以为从视频文件中提取的音频信息，或者还可以为其他形式的音频信息。

从信息来源上来说，该目标音频信息可以由分类装置录制得到，或者由分类装置从互联网中下载得到，或者由其他设备发送给分类装置。例如，在分类装置播放直播视频的过程中，可以获取直播视频中的音频信息，作为目标音频信息。

从信息内容上来说，该目标音频信息可以包括歌唱音频信息、聊天音频信息、敏感音频信息、噪声音频信息等。

可选地，分类装置可以将完整的目标音频信息作为待分类的目标音频片段。

或者，还可以设置预设条件，该预设条件用于规定可能是敏感音频信息的音频信息所满足的条件，即当某一音频片段满足该预设条件时，表示该音频片段可能包含敏感音频信息，而当该音频片段不满足该预设条件时，表示该音频片段不包含敏感音频信息。

当分类装置获取目标音频信息时，为了提高准确率，可以不对整个目标音频信息直接进行分类，而是将目标音频信息划分为至少一个音频片段，判断至少一个音频片段是否满足预设条件，从而将满足预设条件的音频片段确定为目标音频片段，以便后续能够对目标音频片段进行分类，而不再对其他音频片段进行分类。

可选地，该步骤202包括以下步骤2021-2023中的至少一项：

2021、获取目标音频信息中除歌唱音频片段以外的其他音频片段，作为目标音频片段。

按照第一预设长度对目标音频信息进行划分，得到长度等于第一预设长度的多个音频片段，对于多个音频片段中的每个音频片段，获取音频片段中的多个基频，获取多个基频中大于第一预设频率的基频所占的比例。

其中，基频为音频片段的基本音频的频率，获取多个基频中大于第一预设频率的基频所占的比例时，获取大于第一预设频率的基频数量，计算获取的基频数量与该音频片段中的基频数量之间的比例，从而得出多个基频中大于第一预设频率的基频所占的比例。

当音频片段中大于第一预设频率的基频所占的比例不小于第一预设比例时，确定该音频片段为歌唱片段，不包含敏感音频信息。而当音频片段中大于第一预设频率的基频所占的比例小于第一预设比例时，确定该音频片段不是歌唱片段，则可能会包含敏感音频信息。

因此，分类装置从多个音频片段中，获取大于第一预设频率的基频所占的比例小于第一预设比例的音频片段，作为目标音频片段。

其中，第一预设长度可以设置为10秒，20秒或者其他时长。第一预设频率可以设置为150赫兹，160赫兹或者其他频率。第一预设比例可以设置为60％，70％或者其他百分比。

例如，第一预设长度为20秒，第一预设比例为60％，第一预设频率为150赫兹。将目标音频信息划分为20秒的多个音频片段，从每个音频片段中提取100个基频，如果某一音频片段中大于150赫兹的基频数量为50个，所占的比例为50％，小于第一预设比例60％，则将该音频片段作为目标音频片段。

通过将目标音频信息划分为多个音频片段，对于每个音频片段，根据该音频片段的基频判断该音频片段是否为歌唱片段，从而可以将目标音频信息中的歌唱片段排除，减少了计算量，并且提高了后续对目标音频信息分类的准确率。

2022、获取目标音频信息中除静音音频片段以外的其他音频片段，作为目标音频片段。

按照第二预设长度和第三预设长度对目标音频信息进行划分，得到长度等于第二预设长度的多个音频片段，且多个音频片段中任两个相邻的音频片段包括第三预设长度的相同音频信息，对于多个音频片段中的每个音频片段，按照第四预设长度对音频片段进行划分，得到长度等于第四预设长度的多个音频子片段，获取每个音频子片段的幅值的统计值。

其中，幅值用于表示音频片段的能量大小，该幅值的统计值可以为每个音频子片段的幅值的绝对值的平均值、平方的平均值或者其他统计值。

当每个音频子片段中的幅值的统计值小于预设数值时，确定音频片段为静音片段，不包含敏感音频信息。而当任一幅值的统计值不小于预设数值时，确定该音频片段为非静音片段，则可能会包含敏感音频信息。

因此，分类装置从多个音频片段中，获取任一统计值大于预设数值的音频片段，作为目标音频片段。

其中，第二预设长度可以设置为1秒、2秒或者其他时长，第三预设长度可以设置为0.4秒、0.5秒或者其他时长，该第三预设长度小于第二预设长度。第四预设长度可以设置为0.1秒、0.2秒或者其他时长，该第四预设长度小于第二预设长度，且根据该第四预设长度可以将第二预设长度的音频片段划分为音频子片段。预设数值可以设置为0.2、0.3或者其他数值。

例如，第二预设长度为1秒，第三预设长度为0.5秒，第四预设长度为0.2秒，预设数值为0.3。根据第二预设长度和第三预设长度进行划分，得到多个音频片段，分别为0-1秒，0.5秒-1.5秒，1秒-2秒，依次类推，将目标音频信息划分为多个音频片段，然后将该多个音频片段分别划分为0.2秒的多个音频子片段，分别计算每个音频片段中的多个音频子片段的幅值的平均值，如果某一音频片段中任一个音频子片段的平均值为0.4，大于预设数值0.3，则将该音频片段作为目标音频片段。

通过第二预设长度和第三预设长度对目标音频信息进行划分，使该多个音频片段中任两个相邻的音频片段包括第三长度的相同音频信息，每个音频片段中均包括上一个音频片段结尾的音频信息，从而减少音频片段的断层，保证音频信息的完整。

并且，通过将目标音频信息划分为多个音频片段，对于每个音频片段，将该音频片段划分为多个音频子片段，根据每个音频子片段的统计值确定该音频片段是否为静音片段，从而可以将目标音频信息中的静音片段排除，减少了计算量，并且提高了下述对目标音频信息分类的准确率。

2023、获取目标音频信息中除噪声片段和歌唱片段以外的其他音频片段，作为目标音频片段。

按照第二预设长度和第三预设长度对目标音频信息进行划分，得到长度等于第二预设长度的多个音频片段，且多个音频片段中任两个相邻的音频片段包括第三预设长度的相同音频信息，对于多个音频片段中的每个音频片段，获取音频片段中的多个基频，获取多个基频中大于第一预设频率的基频所占的比例。

当音频片段中大于第一预设频率的基频所占的比例不大于第二预设比例时，确定该音频片段为噪声片段，不包含敏感音频信息。当音频片段中大于第一预设频率的基频所占的比例不小于第三预设比例时，确定该音频片段为歌唱片段，不包含敏感音频信息。而当音频片段中大于第一预设频率的基频所占的比例大于第二预设比例，且小于第三预设比例时，确定该音频片段既不是噪声片段，也不是歌唱片段，则可能会包含敏感音频信息。

因此，分类装置从多个音频片段中，获取大于第一预设频率的基频所占的比例大于第二预设比例，且小于第三预设比例的音频片段，作为目标音频片段。

其中，第二预设长度为1秒，第三预设长度为0.5秒，第二预设比例可以设置为10％、20％或者其他百分比。第三预设比例可以设置为60％、70％或者其他百分比。该第三预设比例可以与步骤2021中的第一预设比例相同，也可以不同。

通过将目标音频信息划分为多个音频片段，对于每个音频片段，通过该音频片段的基频判断该音频片段是噪声片段、歌唱片段还是除噪声片段和歌唱片段以外的片段，从而将目标音频信息中的噪声片段和歌唱片段排除，减少了计算量，并且提高了后续对目标音频信息分类的准确率。

需要说明的是，上述步骤2021-2023可以相互结合，可以将目标音频信息中的噪声片段、静音片段和歌唱片段以及除上述三个片段以外的片段进行区分，从而排除噪声片段、静音片段和歌唱片段，确定需要进行分类的目标音频片段，根据目标音频片段确定目标音频片段是正常音频信息还是敏感音频信息。

203、对至少一个目标音频片段进行高通滤波，得到高通滤波后的至少一个音频片段。

分类装置可以设置高通滤波时的预设截止频率，在对音频信息进行高通滤波时，若音频信息的频率低于预设截止频率，将音频信息滤除，若音频信息的频率不低于预设截止频率，将音频信息保留。

通过上述步骤202确定至少一个目标音频片段后，根据预设截止频率，对该至少一个目标音频片段进行高通滤波，若音频信息的频率低于预设截止频率，将音频信息滤除，若音频信息的频率不低于预设截止频率，将音频信息保留，从而能够将低频噪声滤除，得到高通滤波后的至少一个音频片段。

其中，预设截止频率可以设置为100赫兹、120赫兹或者其他频率，可以根据日常生活中一般的低频噪声可能达到的最大频率设置。

204、对高通滤波后的至少一个目标音频片段进行特征提取，得到至少一个目标音频片段对应的至少一个音频特征。

其中，至少一个音频特征可以对目标音频片段进行描述，可以为梅尔频率倒谱系数、线性预测倒谱系数或者其他可以描述目标音频片段的特征。相应地，在对目标音频片段进行特征提取时，可以采用梅尔频率倒谱系数算法、线性预测倒谱系数算法或者其他特征提取算法进行特征提取。

例如，当采用梅尔频率倒谱系数算法进行提取时，设置的维数为40，将1-13维的特征作为目标音频片段的特征。

可选地，按照第五预设长度对高通滤波后的每个音频片段进行划分，得到长度等于第五预设长度的多个音频子片段，对每个音频子片段进行特征提取，得到每个音频子片段的音频特征，将每个音频子片段的音频特征均作为目标音频片段的音频特征，或者，将多个音频子片段的音频特征组合构成目标音频片段的一个音频特征。

例如，第五预设长度可以为20毫秒、25毫秒或者其他时长。

通过按照第五预设长度对每个音频片段进行划分，得到多个音频子片段，能够对音频片段进行更精确地划分，从而提取到更为精确的特征，可以提高准确率。

205、基于音频分类模型和至少一个音频特征，确定至少一个目标音频片段的分类标识，根据至少一个目标音频片段的分类标识，确定目标音频信息的分类标识。

对于每个目标音频片段的音频特征，基于音频分类模型对该音频特征进行计算，得到分类标识，即为该目标音频片段的分类标识。采用上述方式可以获取到至少一个目标音频片段的分类标识，从而确定每个目标音频片段是否包括敏感音频信息。

可选地，当音频分类模型包括第一音频分类模型和第二音频分类模型时，将目标音频片段的音频特征分别输入至第一音频分类模型和第二音频分类模型中，基于第一音频分类模型输出第一概率，第二音频分类模型输出第二概率，第一概率表示目标音频片段属于正常音频信息的概率，第二概率表示目标音频片段属于敏感音频信息的概率。

当第一概率大于第二概率时，确定该目标音频片段属于正常音频信息，分类标识为第一标识。当第一概率小于第二概率时，确定该目标音频片段属于敏感音频信息，分类标识为第二标识。当第一概率等于第二概率时，可以确定该目标音频片段的分类标识为第一标识或第二标识，或者重新对目标音频片段进行分类。

之后，根据至少一个目标音频片段的分类标识，确定目标音频信息的分类标识。可选地，该过程可以包括以下步骤2051-2052中的至少一项：

2051、当至少一个目标音频片段中，连续第一预设数量的目标音频片段的分类标识为第二标识时，确定目标音频信息的分类标识为第二标识。

该至少一个目标音频片段为多个目标音频片段时，按照该多个目标音频片段的顺序，遍历该多个目标音频片段，且统计分类标识为第二标识的连续目标音频片段的数量，则当遍历到的目标音频片段的分类标识为第二标识时，将统计的数量加1，当遍历到的目标音频片段的分类标识为第一标识时，将统计的数量清零。

当确定统计的数量达到第一预设数量时，确定目标音频信息的分类标识为第二标识，也即是确定该目标音频信息为敏感音频信息。

其中，第一预设数量可以设置为3个、4个或者其他大小的数目。该多个目标音频片段的顺序可以为该多个目标音频片段在目标音频信息中的时间从早到晚的顺序。

2052、当至少一个目标音频片段中，分类标识为第二标识的目标音频片段数量所占的比例达到第四预设比例时，确定目标音频信息的分类标识为第二标识。

该至少一个目标音频片段为多个目标音频片段时，统计分类标识为第二标识的目标音频片段的数量，当分类标识为第二标识的目标音频片段的数量所占比例达到第四预设比例时，确定目标音频信息的分类标识为第二标识，也即是确定该目标音频信息为敏感音频信息。

其中，第四预设比例可以设置为70％、75％或者其他百分比。

需要说明的是，步骤2051和步骤2052可以进行结合，当至少一个目标音频片段中，连续第一预设数量的目标音频片段的分类标识为第二标识，且分类标识为第二标识的目标音频片段的数量所占比例达到第四预设比例时，才确定目标音频信息的分类标识为第二标识。在对目标音频信息进行分类时，同时满足两个条件时，确定目标音频信息为敏感音频信息，提高了分类的准确率。

本发明实施例可以应用在网络直播、语音互动以及视频播放等场景下，例如，在网络直播场景下，从直播视频中提取音频信息，对音频信息进行分类，当确定该音频信息为敏感音频信息时，确定网络直播视频为敏感视频，关闭网络直播。在语音互动场景下，提取语音中的音频信息，对音频信息进行分类，当确定该音频信息为敏感音频信息时，将语音删除。在视频播放场景下，从视频中提取音频信息，对音频信息进行分类，当确定该音频信息为敏感音频信息时，确定该视频为敏感视频，关闭该视频。

图3是本发明实施例提供的一种音频分类装置的结构示意图，参见图3，该装置包括：获取模块301、提取模块302以及确定模块303；

获取模块301，用于获取目标音频信息中的至少一个目标音频片段；

提取模块302，用于对至少一个目标音频片段进行高通滤波和特征提取，得到至少一个目标音频片段对应的至少一个音频特征；

确定模块303，用于基于音频分类模型和至少一个音频特征，确定至少一个目标音频片段的分类标识，根据至少一个目标音频片段的分类标识，确定目标音频信息的分类标识；

分类标识包括第一标识和第二标识，第一标识用于指示对应的音频信息为正常音频信息，第二标识用于指示对应的音频信息为敏感音频信息。

可选地，获取模块301，包括：

第一划分单元，用于按照第一预设长度对目标音频信息进行划分，得到长度等于第一预设长度的多个音频片段；

基频获取单元，用于对于多个音频片段中的每个音频片段，获取音频片段中的多个基频，获取多个基频中大于第一预设频率的基频所占的比例；

获取单元，用于从多个音频片段中，获取比例小于第一预设比例的音频片段，作为目标音频片段。

可选地，获取模块301，包括：

第二划分单元，用于按照第二预设长度和第三预设长度对目标音频信息进行划分，得到长度等于第二预设长度的多个音频片段，且多个音频片段中任两个相邻的音频片段包括第三预设长度的相同音频信息；第三预设长度小于第二预设长度；

第二划分单元，还用于对于多个音频片段中的每个音频片段，按照第四预设长度对音频片段进行划分，得到长度等于第四预设长度的多个音频子片段，获取每个音频子片段的幅值的统计值；第四预设长度小于第二预设长度；

获取单元，用于从多个音频片段中，获取任一统计值大于预设数值的音频片段，作为目标音频片段。

可选地，获取模块301，包括：

第三划分单元，用于按照第二预设长度和第三预设长度对目标音频信息进行划分，得到长度等于第二预设长度的多个音频片段，且多个音频片段中任两个相邻的音频片段包括第三预设长度的相同音频信息；第三预设长度小于第二预设长度；

基频获取单元，用于对于多个音频片段中的每个音频片段，获取音频片段中的多个基频，获取多个基频中大于第一预设频率的基频所占的比例；

获取单元，用于从多个音频片段中，获取比例大于第二预设比例且小于第三预设比例的音频片段，作为目标音频片段。

可选地，提取模块302，包括：

滤波单元，用于对至少一个目标音频片段进行高通滤波，得到高通滤波后的至少一个音频片段；

划分单元，用于按照第五预设长度对高通滤波后的每个音频片段进行划分，得到长度等于第五预设长度的多个音频子片段；

提取单元，用于对每个音频子片段进行特征提取，得到每个音频子片段的音频特征。

可选地，确定模块303，用于执行以下至少一项：

当至少一个目标音频片段中，连续第一预设数量的目标音频片段的分类标识为第二标识时，确定目标音频信息的分类标识为第二标识；

当至少一个目标音频片段中，分类标识为第二标识的目标音频片段数量所占的比例达到第四预设比例时，确定目标音频信息的分类标识为第二标识。

可选地，装置还包括：

获取模块301，还用于获取多个样本音频信息和多个样本音频信息的分类标识；

提取模块301，还用于对多个样本音频信息进行高通滤波和特征提取，得到多个样本音频信息对应的多个音频特征；

训练模块，用于根据多个音频特征以及每个音频特征对应的分类标识进行模型训练，得到音频分类模型。

可选地，音频分类模型包括第一音频分类模型和第二音频分类模型；

训练模块，还用于根据多个音频特征中，分类标识为第一分类标识的音频特征进行模型训练，得到第一音频分类模型；

训练模块，还用于根据多个音频特征中，分类标识为第二分类标识的音频特征进行模型训练，得到第二音频分类模型。

本发明实施例提供的装置，通过获取目标音频信息中的至少一个目标音频片段，对至少一个目标音频片段进行高通滤波和特征提取，通过高通滤波可以将低频噪声滤除，进行特征提取得到至少一个目标音频片段对应的至少一个音频特征，基于音频分类模型和至少一个音频特征，确定至少一个目标音频片段的分类标识，根据至少一个目标音频片段的分类标识，确定目标音频信息的分类标识，从而可以将目标音频信息确定为正常音频信息或者敏感音频信息，由于在确定目标音频信息的分类标识之前进行高通滤波，能将目标音频信息的低频噪声滤除，因此不会出现将低频噪声确定为敏感音频信息的情况，提高了音频分类的精确度。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的音频分类装置在对音频信息进行分类时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将分类装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频分类装置与音频分类方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本发明实施例提供的一种服务器的结构示意图，该服务器400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessingunits，cpu)401和一个或一个以上的存储器402，其中，所述存储器402中存储有至少一条指令，所述至少一条指令由所述处理器401加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器400可以用于执行上述音频分类方法中分类装置所执行的步骤。

图5是本发明实施例提供的一种终端的结构示意图。该终端500可以是便携式移动终端，比如：智能手机、平板电脑、mp3播放器(movingpictureexpertsgroupaudiolayeriii，动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv，动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、头戴式设备，或其他任意智能终端。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用dsp(digitalsignalprocessing，数字信号处理)、fpga(field－programmablegatearray，现场可编程门阵列)、pla(programmablelogicarray，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(centralprocessingunit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有gpu(graphicsprocessingunit，图像处理的交互器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括ai(artificialintelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所具有以实现本申请中方法实施例提供的预测模式选择方法。

在一些实施例中，终端500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、触摸显示屏505、摄像头506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将i/o(input/output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射rf(radiofrequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2g、3g、4g及8g)、无线局域网和/或wifi(wirelessfidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括nfc(nearfieldcommunication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏505用于显示ui(userinterface，用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置终端500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在终端500的不同表面或呈折叠设计；在再一些实施例中，显示屏505可以是柔性显示屏，设置在终端500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用lcd(liquidcrystaldisplay，液晶显示屏)、oled(organiclight-emittingdiode,有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtualreality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位终端500的当前地理位置，以实现导航或lbs(locationbasedservice，基于位置的服务)。定位组件508可以是基于美国的gps(globalpositioningsystem，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制触摸显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测终端500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3d动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在终端500的侧边框和/或触摸显示屏505的下层。当压力传感器513设置在终端500的侧边框时，可以检测用户对终端500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在触摸显示屏505的下层时，由处理器501根据用户对触摸显示屏505的压力操作，实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户具有相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商logo时，指纹传感器514可以与物理按键或厂商标志集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制触摸显示屏505的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏505的显示亮度；当环境光强度较低时，调低触摸显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时，由处理器501控制触摸显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时，由处理器501控制触摸显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对终端500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本发明实施例还提供了一种音频分类装置，该音频分类装置包括处理器和存储器，存储器中存储有至少一条指令，该指令由处理器加载并执行以实现上述实施例的音频分类方法中所执行的操作。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令，该指令由处理器加载并执行以实现上述实施例的音频分类方法中所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：劳振锋
技术所有人：广州酷狗计算机科技有限公司
我是此专利的发明人

上一篇：一种快递分拣系统及分拣方法与流程
上一篇：风力发电机风轮转速测量结构、装置及风力发电机组的制作方法