一种音频噪声检测方法及装置与流程

文档序号：21681098发布日期：2020-07-31 21:52阅读：268来源：国知局

本申请涉及语音识别技术领域，尤其涉及一种音频噪声检测方法及装置。

背景技术：

目前针对音频质量缺陷种类繁多，有噪声类(喀嚓声、突发噪声、直流偏置、电流声、嘶声)、静音类(短空白、长空白)、品质类(假双声道、频谱过低)、音量类(音量过大或过小、长溢出)等。这些噪声缺陷通过人耳主观感受很容易辨别，然而对于数量巨大的音频数据并不可能使用人工针对每一个音频数据都进行检查判别，目前关于音频噪声缺陷检测的方案都是基于传统信号的变换处理，这种处理方式受限于大量人工设置的超参数，例如：帧长、偏移、时长、相关阈值等。该种方式仅能解决特定场景的缺陷，泛化能力不高，同时准确率低，召回率不高，很难运用于实际检测项目中。

技术实现要素：

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种音频噪声检测方法及装置。

第一方面，本申请实施例提供了一种音频噪声检测方法，可包括：

获得音频数据，其中所述音频数据包括多帧音频帧；

分段对所述音频数据进行特征提取，得到分段后每个音频数据段的特征数据；

将所述每个音频数据段的特征数据输入至目标检测模型中，获得所述每个音频数据段的检测结果，其中，所述目标检测模型包括深度神经网络以及与所述深度神经网络连接的长短期记忆网络，且所述长短期记忆网络使用所述每个音频数据段中时序关联的音频帧对所述音频数据段进行检测；

根据所述每个音频数据段的检测结果，得到所述音频数据的检测结果，其中所述检测结果用于指示所述音频数据是否包含噪声。

通过第一方面，本申请实施例使用深度学习的方案，分段对音频数据进行特征提取，获得所述音频数据分段后每个音频数据段的特征数据，并将获得分段后每个音频数据段的特征数据输入基于深度神经网络dnn-长短期记忆网络lstm的目标检测模型中，获得所述分段后每个音频数据段的特征数据对应的检测结果，最后将所述分段后每个音频数据段的特征数据的检测结果累加后获得用于指示所述音频数据中包含的噪声大小的检测结果。综上所述，本申请实施例通过频域特征的转换和提取，然后使用训练好的深度神经网络进行检测，能显著提高检测噪声的准确率和召回率。一方面充分利用dnn特征变换能力，并且利用输入信息随时间动态变化规律进行学习，将过去语音帧的判决信息作用于当前帧判决的算法，提出dnn-lstm混合神经网络，结合了dnn善于对数据进行非线性变换与lstm善于对时间序列分析的能力，很好的利用了音频帧之间的强相关性，相邻帧的信息对当前帧的影响也被学习关注，相对于单纯的使用dnn针对每个独立的帧进行噪音/非噪音二分类，具有更高的识别准确度，抗干扰能力更强，减少一些特效音频文件的误识别操作，综合学习前后帧之间的相关性进行判断，进而得出整段音频文件的噪声活性(noiseactivity)，即检测结果。例如：使用本申请实施例可以检测出曲库中一定数量的突发噪声缺陷文件，还能在入库过程中提前预防，阻止有缺陷问题的音频文件入库，大大提高了曲库的音质，有效的提升了用户的听歌体验。

在一种可能实现的方式中，所述分段对音频数据进行特征提取，得到每个音频数据段的特征数据，包括：将所述音频数据通过信号处理转化为频域特征信号；将所述频域特征信号按照时间顺序以每组n帧音频帧的顺序分段提取，组成总长度为n的特征数据xtn，其中，n为音频帧总帧数除以n帧后取整获得，n为大于或等于1的正整数，t为大于或等于1且小于或等于n的正整数。

在一种可能实现的方式中，所述将所述每个音频数据段的特征数据输入至目标检测模型中，获得所述每个音频数据段的检测结果，包括：从所述总长度为n的特征数据xtn中，按照预设批次大小，将每一批次的多个特征数据xtn依次提取空间特征；从提取所述空间特征后的所述每一批次的多个特征数据xtn依次进行时域处理；将进行所述时域处理后的所述每一批次的多个特征数据xtn输入所述目标检测模型的输出层，获得所述每一批次中的多个特征数据xtn对应的多个检测结果，所述检测结果ytn∈{0，1}，其中，若xtn中含有噪声，则ytn＝1，否则ytn＝0。

在一种可能实现的方式中，所述基于深度神经网络和长短期记忆网络的目标检测模型，包括第一子模型，其中，所述第一子模型为：音频数据段中的每一帧音频帧的特征数据按时间顺序依次作为第一层深度神经网络的输入，第一层深度神经网络的输出作为第二层长短期记忆网络的输入，且将前一帧音频帧对应的第二层长短期记忆网络的输出作为后一帧音频帧对应的第二层长短期记忆网络的输入，最后一帧音频帧对应的第二层长短期记忆网络的输出作为第三层深度神经网络的输入，所述第三层深度神经网络的输出作为第四层sigmoid的输入，所述第四层sigmoid的输出检测结果；其中，所述将所述每个音频数据段的特征数据输入至目标检测模型中，获得所述每个音频数据段的检测结果包括：按时间顺序依次将每个音频数据段中的每一帧音频帧均先通过所述第一层深度神经网络，然后将所述第一层深度神经网络处理后的每一帧音频帧以及所述每一帧音频帧对应前一帧的相关行输入所述第二层长短期记忆网络；并将所述第二层长短期记忆网络处理后的最后一帧音频帧输入到所述第三层深度神经网络中，第三层深度神经网络的输出结果输入至第四层sigmoid中，获得所述每个音频数据段的检测结果，其中，所述第四层sigmoid的目标函数为sigmoid交叉熵损失函数。

在一种可能实现的方式中，所述基于深度神经网络和长短期记忆网络的目标检测模型，包括第二子模型，其中，所述第二子模型包括：按时间顺序依次将音频数据段中的每一帧音频帧作为第一层深度神经网络的输入，将第一层深度神经网络的输出作为第二层双向长短时记忆网络的输入，且将相邻前后两帧音频帧分别对应的第二层双向长短时记忆网络的输出作为所述相邻前后两帧音频帧对应的第二层双向长短时记忆网络的输入；再将所述音频数据段的中间音频帧对应的第二层双向长短时记忆网络的输出作为第三层深度神经网络的输入，将第三层深度神经网络的输出作为第四层sigmoid的输入，所述第四层sigmoid的输出检测结果；其中，所述将所述每个音频数据段的特征数据输入至目标检测模型中，获得所述每个音频数据段的检测结果包括：按时间顺序依次将所述音频数据段的每一帧音频帧均先通过所述第一层深度神经网络，然后将所述第一层深度神经网络处理后的每一帧音频帧输入第二层双向长短时记忆网络，且将相邻前后两帧音频帧分别对应的第二层双向长短时记忆网络的输出作为所述相邻前后两帧音频帧对应的第二层双向长短时记忆网络的输入；并将所述音频数据段的中间音频帧的第二层双向长短时记忆网络的输出作为第三层深度神经网络的输入，将第三层深度神经网络的输出作为第四层sigmoid的输入，第四层sigmoid的输出作为所述音频数据段的检测结果，其中，所述第四层sigmoid的目标函数为sigmoid交叉熵损失函数。

在一种可能实现的方式中，所述基于深度神经网络和长短期记忆网络的目标检测模型，包括第一子模型，其中，所述第三子模型包括：按时间顺序依次将音频数据段中的每一帧音频帧作为第一层深度神经网络的输入，将所述第一层深度神经网络的输出作为第二层长短时记忆网络的输入，且将前一帧音频帧对应的第二层长短期记忆网络的输出作为后一帧音频帧对应的第二层长短期记忆网络的输入；再将所述音频数据段中每一帧音频帧对应的第二层长短期记忆网络的输出均作为第三层合并层的输入，将所述第三层合并层的输出作为第四层深度神经网络的输入，所述第四层深度神经网络的输出为第五层sigmoid的输入，所述第五层sigmoid的输出为所述音频数据段的检测结果；其中，所述将所述每个音频数据段的特征数据输入至目标检测模型中，获得所述每个音频数据段的检测结果包括：按时间顺序依次将所述音频数据段中的每一帧音频帧均先通过所述第一层深度神经网络，然后将所述第一层深度神经网络处理后的每一帧音频帧以及所述每一帧音频帧对应前一帧的相关行输入所述第二层长短期记忆网络；并将所述第二层长短期记忆网络处理后的每一帧音频帧通过所述第三层合并层拼接后输入到所述第四层深度神经网络，将所述第四层深度神经网络的输出作为所述第五层sigmoid的输入，将第五层sigmoid的输出作为所述音频数据段的检测结果，其中，所述第五层sigmoid的目标函数为sigmoid交叉熵损失函数。

在一种可能实现的方式中，所述将所述每个音频数据段的特征数据输入至目标检测模型中，获得所述每个音频数据段的检测结果之前，所述方法还包括：获取多组样本音频数据，以及所述多组样本音频数据对应的噪声结果；将所述样本音频数据，以及所述样本音频数据对应的噪声结果，输入到深度神经网络-长短期记忆网络混合模型中进行训练，获得训练好的所述目标检测模型以及权重参数，所述权重参数包括：学习率、批次大小、深度神经网络或者长短期记忆网络隐藏层节点大小中的一个或多个。

第二方面，本申请实施例提供了一种音频噪声检测装置，可包括：

获取单元，用于获得音频数据，其中所述音频数据包括多帧音频帧；

提取单元，用于分段对所述音频数据进行特征提取，得到分段后每个音频数据段的特征数据；

检测单元，用于将所述每个音频数据段的特征数据输入至目标检测模型中，获得所述每个音频数据段的检测结果，其中，所述目标检测模型包括深度神经网络以及与所述深度神经网络连接的长短期记忆网络，且所述长短期记忆网络使用所述每个音频数据段中时序关联的音频帧对所述音频数据段进行检测；

结果单元，用于根据所述每个音频数据段的检测结果，得到所述音频数据的检测结果，其中所述检测结果用于指示所述音频数据是否包含噪声。

在一种可能实现的方式中，所述提取单元，具体用于：将所述音频数据通过信号处理转化为频域特征信号；将所述频域特征信号按照时间顺序以每组n帧音频帧的顺序分段提取，组成总长度为n的特征数据xtn，其中，n为音频帧总帧数除以n帧后取整获得，n为大于或等于1的正整数，t为大于或等于1且小于或等于n的正整数。

在一种可能实现的方式中，所述检测单元，具体用于：从所述总长度为n的特征数据xtn中，按照预设批次大小，将每一批次的多个特征数据xtn依次提取空间特征；从提取所述空间特征后的所述每一批次的多个特征数据xtn依次进行时域处理；将进行所述时域处理后的所述每一批次的多个特征数据xtn输入所述目标检测模型的输出层，获得所述每一批次中的多个特征数据xtn对应的多个检测结果，所述检测结果ytn∈{0，1}，其中，若xtn中含有噪声，则ytn＝1，否则ytn＝0。

在一种可能实现的方式中，所述基于深度神经网络和长短期记忆网络的目标检测模型，包括第一子模型，其中，所述第一子模型为：音频数据段中的每一帧音频帧的特征数据按时间顺序依次作为第一层深度神经网络的输入，第一层深度神经网络的输出作为第二层长短期记忆网络的输入，且将前一帧音频帧对应的第二层长短期记忆网络的输出作为后一帧音频帧对应的第二层长短期记忆网络的输入，最后一帧音频帧对应的第二层长短期记忆网络的输出作为第三层深度神经网络的输入，所述第三层深度神经网络的输出作为第四层sigmoid的输入，所述第四层sigmoid的输出检测结果；其中，所述结果单元，具体用于：按时间顺序依次将每个音频数据段中的每一帧音频帧均先通过所述第一层深度神经网络，然后将所述第一层深度神经网络处理后的每一帧音频帧以及所述每一帧音频帧对应前一帧的相关行输入所述第二层长短期记忆网络；并将所述第二层长短期记忆网络处理后的最后一帧音频帧输入到所述第三层深度神经网络中，第三层深度神经网络的输出结果输入至第四层sigmoid中，获得所述每个音频数据段的检测结果，其中，所述第四层sigmoid的目标函数为sigmoid交叉熵损失函数。

在一种可能实现的方式中，所述基于深度神经网络和长短期记忆网络的目标检测模型，包括第二子模型，其中，所述第二子模型包括：按时间顺序依次将音频数据段中的每一帧音频帧作为第一层深度神经网络的输入，将第一层深度神经网络的输出作为第二层双向长短时记忆网络的输入，且将相邻前后两帧音频帧分别对应的第二层双向长短时记忆网络的输出作为所述相邻前后两帧音频帧对应的第二层双向长短时记忆网络的输入；再将所述音频数据段的中间音频帧对应的第二层双向长短时记忆网络的输出作为第三层深度神经网络的输入，将第三层深度神经网络的输出作为第四层sigmoid的输入，所述第四层sigmoid的输出检测结果；其中，所述结果单元，具体用于：按时间顺序依次将所述音频数据段的每一帧音频帧均先通过所述第一层深度神经网络，然后将所述第一层深度神经网络处理后的每一帧音频帧输入第二层双向长短时记忆网络，且将相邻前后两帧音频帧分别对应的第二层双向长短时记忆网络的输出作为所述相邻前后两帧音频帧对应的第二层双向长短时记忆网络的输入；并将所述音频数据段的中间音频帧的第二层双向长短时记忆网络的输出作为第三层深度神经网络的输入，将第三层深度神经网络的输出作为第四层sigmoid的输入，第四层sigmoid的输出作为所述音频数据段的检测结果，其中，所述第四层sigmoid的目标函数为sigmoid交叉熵损失函数。

在一种可能实现的方式中，所述基于深度神经网络和长短期记忆网络的目标检测模型，包括第一子模型，其中，所述第三子模型包括：按时间顺序依次将音频数据段中的每一帧音频帧作为第一层深度神经网络的输入，将所述第一层深度神经网络的输出作为第二层长短时记忆网络的输入，且将前一帧音频帧对应的第二层长短期记忆网络的输出作为后一帧音频帧对应的第二层长短期记忆网络的输入；再将所述音频数据段中每一帧音频帧对应的第二层长短期记忆网络的输出均作为第三层合并层的输入，将所述第三层合并层的输出作为第四层深度神经网络的输入，所述第四层深度神经网络的输出为第五层sigmoid的输入，所述第五层sigmoid的输出为所述音频数据段的检测结果；其中，所述结果单元，具体用于：按时间顺序依次将所述音频数据段中的每一帧音频帧均先通过所述第一层深度神经网络，然后将所述第一层深度神经网络处理后的每一帧音频帧以及所述每一帧音频帧对应前一帧的相关行输入所述第二层长短期记忆网络；并将所述第二层长短期记忆网络处理后的每一帧音频帧通过所述第三层合并层拼接后输入到所述第四层深度神经网络，将所述第四层深度神经网络的输出作为所述第五层sigmoid的输入，将第五层sigmoid的输出作为所述音频数据段的检测结果，其中，所述第五层sigmoid的目标函数为sigmoid交叉熵损失函数。

在一种可能实现的方式中，所述装置还包括：训练单元，用于在将所述每个音频数据段的特征数据输入至目标检测模型中，获得所述每个音频数据段的检测结果之前，获取多组样本音频数据，以及所述多组样本音频数据对应的噪声结果；将所述样本音频数据，以及所述样本音频数据对应的噪声结果，输入到深度神经网络-长短期记忆网络混合模型中进行训练，获得训练好的所述目标检测模型以及权重参数，所述权重参数包括：学习率、批次大小、深度神经网络或者长短期记忆网络隐藏层节点大小中的一个或多个。

第三方面，本申请实施例提供了一种音频噪声检测装置，包括存储组件，处理组件和通信组件，存储组件，处理组件和通信组件相互连接，其中，存储组件用于存储计算机程序，通信组件用于与外部设备进行信息交互；处理组件被配置用于调用计算机程序，执行第一方面所述的方法，此处不再赘述

第四方面，本申请实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现上述第一方面的方法。

第五方面，本申请实施例提供了一种计算机程序，该计算机程序包括指令，当该计算机程序被计算机执行时，使得计算机可以执行上述第二方面中的音频噪声检测的装置所执行的流程。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1是本申请实施例提供的一种音频噪声检测系统架构的示意图；

图2a是本申请实施例提供的一种音频噪声检测方法流程的示意图；

图2b是本申请实施例提供的一种子模型的模型框示意图；

图2c是本申请实施例提供的另一种子模型的模型框示意图；

图2d是本申请实施例提供的又一种子模型的模型框示意图；

图3是本申请实施例提供的一种音频噪声检测装置的结构示意图；

图4是本申请实施例提供的另一种音频噪声检测装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例进行描述。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在本申请中使用的术语“服务器”、“单元”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如，服务器可以是但不限于，处理器，数据处理平台，计算设备，计算机，两个或更多个计算机等。

首先，对本申请中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)短时傅里叶变换(short-timefouriertransform，stft)，是和傅里叶变换相关的一种数学变换，用以确定时变信号其局部区域正弦波的频率与相位。

(2)梅尔倒频谱系数(mel-frequencycipstalcoefficients,mfcc)，是一组用来建立梅尔倒频谱的关键系数。由音乐讯号当中的片段，我们可以得到一组足以代表此音乐讯号之倒频谱，而梅尔倒频谱系数即是从这个倒频谱中推得的倒频谱(也就是频谱的频谱)。与一般的倒频谱不同，梅尔倒频谱最大的特色在于，梅尔倒频谱上的频带是均匀分布于梅尔刻度上的，也就是说，这样的频带会较一般我们所看到、线性的倒频谱表示方法，和人类非线性的听觉系统(audiosystem)更为接近。将一讯号进行傅里叶转换(fouriertransform)将频谱映射(mapping)至梅尔刻度，利用三角窗函数(triangularoverlappingwindow)取对数(logarithm)，取离散余弦转换(discretecosinetransform)，mfcc是转换后的频谱。

(3)过零率(zero-crossingrate，zcr)，是指一个信号的符号变化的比率，例如信号从正数变成负数，或反过来。这个特征已在语音识别和音乐信息检索领域得到广泛使用，是对敲击的声音的分类的关键特征。

其次，对本申请实施例所基于的其中一种音频噪声检测系统架构进行描述。

情况一，音频噪声检测装置101可以为云端的一个服务器，这个服务器与本地终端构成一个系统，请参考附图1，图1是本申请实施例提供的一种音频噪声检测系统架构的示意图，如图1所示，系统架构可以包括一个或多个服务器(多个服务器可以构成一个服务器集群)，以及一个或多个终端(或设备)，其中包括：音频噪声检测装置101和终端设备102。

音频噪声检测装置101可以包括但不限于后台服务器、组件服务器、数据处理服务器、处理插件等，当上述音频噪声检测装置101为服务器时，所述服务器可以通过互联网与多个终端进行通信，服务器上也需要运行有相应的服务器端程序来提供相应音频噪声检测服务。例如，服务器可以获得音频数据，其中所述音频数据包括多帧音频帧；分段对所述音频数据进行特征提取，得到分段后每个音频数据段的特征数据；将所述每个音频数据段的特征数据输入至目标检测模型中，获得所述每个音频数据段的检测结果，其中，所述目标检测模型包括深度神经网络以及与所述深度神经网络连接的长短期记忆网络，且所述长短期记忆网络使用所述每个音频数据段中时序关联的音频帧对所述音频数据段进行检测；根据所述每个音频数据段的检测结果，得到所述音频数据的检测结果，其中所述检测结果用于指示所述音频数据是否包含噪声。

终端设备102可以安装并运行相关的应用。应用是指与服务器相对应，为客户提供本地服务的程序。这里，该本地服务可包括但不限于：向服务器发送音频数据，以便服务器检测该音频数据是否包含噪声，以及若包含噪声，则该音频数据包含噪声的程度甚至是包含的噪声的类型。本方案实施例中的终端可以包括但不限于任何一种基于智能操作系统的电子产品，其可与用户通过键盘、虚拟键盘、触摸板、触摸屏以及声控设备等输入设备来进行人机交互，诸如智能手机、平板电脑、个人电脑等。其中，智能操作系统包括但不限于任何通过向移动设备提供各种移动应用来丰富设备功能的操作系统，诸如：安卓(android^tm)、ios^tm、windowsphone^tm等。

情况二，系统架构可以是一个设备，这个设备可以为本地的一个终端，终端可以安装并运行相关的应用。应用是指与服务器相对应，为客户提供本地服务的程序。例如，该终端可以获得音频数据，其中所述音频数据包括多帧音频帧；分段对所述音频数据进行特征提取，得到分段后每个音频数据段的特征数据；将所述每个音频数据段的特征数据输入至目标检测模型中，获得所述每个音频数据段的检测结果，其中，所述目标检测模型包括深度神经网络以及与所述深度神经网络连接的长短期记忆网络，且所述长短期记忆网络使用所述每个音频数据段中时序关联的音频帧对所述音频数据段进行检测；根据所述每个音频数据段的检测结果，得到所述音频数据的检测结果，其中所述检测结果用于指示所述音频数据是否包含噪声。本方案实施例中的终端可以包括但不限于任何一种基于智能操作系统的电子产品，其可与用户通过键盘、虚拟键盘、触摸板、触摸屏以及声控设备等输入设备来进行人机交互，诸如智能手机、平板电脑、个人电脑等。其中，智能操作系统包括但不限于任何通过向移动设备提供各种移动应用来丰富设备功能的操作系统，诸如安卓(android^tm)、ios^tm、windowsphone^tm等。

还可以理解的是，图1的音频噪声检测系统架构只是本申请实施例中的部分示例性的实施方式，本申请实施例中的音频噪声检测系统架构包括但不仅限于以上音频噪声检测系统架构。

请参考附图2a，图2a是本申请实施例提供的一种音频噪声检测方法流程的示意图。可应用于上述图1中的系统，下面将结合图2a从音频噪声检测装置101的单侧进行描述。该方法可以包括以下步骤s201-步骤s203。

步骤s201：获得音频数据，分段对音频数据进行特征提取，得到分段后每个音频数据段的特征数据。

具体地，音频噪声检测装置获得音频数据，其中，所述音频数据包括多帧音频帧；并分段对获得的所述音频数据进行特征提取，得到分段后每个音频数据段的特征数据。即，对音频数据进行特征提取，获得每个音频数据段对应的特征数据。可以理解的是，音频数据进行特征提取主要以频域为主，其他特征为辅，例如stft、mfcc、mel频谱、chroma特征、过零率等，然后过滤一些干扰特征，仅保留有用的频域特征。需要说明的是，音频数据包括多帧音频帧，对音频数据进行特征提取时，可以获得不同音频帧对应的多组特征数据。

可选的，音频噪声检测装置分段对所述音频数据进行特征提取，得到分段后每个音频数据段的特征数据，可以包括：将所述音频数据通过信号处理转化为频域特征信号；将所述频域特征信号按照时间顺序以每组n帧音频帧的顺序分段提取，组成总长度为n的特征数据xtn，长度为n的特征数据xtn指的是有n个特征数据xtn。其中，n为音频帧总帧数除以n帧后取整获得，n为大于或等于1的正整数，t为大于或等于1且小于或等于n的正整数。需要说明的是，n可以用于指示该特征数据xtn被分段后的数量。可以理解的是，若音频总帧数为55，n＝7，则n为音频帧总帧数除以n帧后取整为55÷7＝7余6，则n＝7。例如：音频噪声检测装置将所述音频数据提取出特征为xi，xi∈rd，即为d维语音特征向量，r为常数；再将音频按长度n顺序提取，组成总长度为n的特征数据xtn，xi∈xtn。举例来说：一段音频数据共有56帧音频帧，将56帧音频帧中每7帧(n＝7)音频帧做为一段音频数据段，即，特征数据xtn，共分为8组(n＝8)，8组特征数据xtn可以分别表示为x17、x27、x37、……、x87。其中，x17中包含的7帧音频帧数据可以对应提取出特征为xi＝1、…….、xi＝7的数据，同理可知其他特征数据。

步骤s202：将每个音频数据段的特征数据输入至目标检测模型中，获得每个音频数据段的检测结果。

具体地，音频噪声检测装置将所述每个音频数据段的特征数据输入至目标检测模型中，获得所述每个音频数据段的检测结果，其中，所述目标检测模型包括深度神经网络以及与所述深度神经网络连接的长短期记忆网络，且所述长短期记忆网络使用所述每个音频数据段中时序关联的音频帧对所述音频数据段进行检测。将所述多组特征数据输入基于深度神经网络dnn-长短期记忆网络lstm的目标检测模型中，获得所述每个音频数据段的特征数据对应的检测结果，所述检测结果用于指示对应的所述特征数据中是否包含噪声。

可选的，音频噪声检测装置将所述每个音频数据段的特征数据输入至目标检测模型中，获得所述每个音频数据段的检测结果，包括：从所述总长度为n的特征数据xtn中，按照预设批次大小，将每一批次的多个特征数据xtn依次提取空间特征；从提取所述空间特征后的所述每一批次的多个特征数据xtn依次进行时域处理；将进行所述时域处理后的所述每一批次的多个特征数据xtn输入所述目标检测模型的输出层，获得所述每一批次中的多个特征数据xtn对应的多个检测结果，所述检测结果ytn∈{0，1}，其中，若xtn中含有噪声，则ytn＝1，否则ytn＝0。其中ytn与xtn一一对应。可以理解的是，每一批次有多个特征数据xtn时，需要依次提取每一个特征数据xtn空间特征，即对低维度的频域特征信号进行提取空间特征的相关处理后，获得高维度的频域特征信号，再将该高纬度的频域特征信号进行时域处理，最后将进行所述时域处理后的频域特征信号输入所述目标检测模型的输出层中，其中，输出层为目标检测模型中的最后一层，用于输出检测结果的神经网络层。检测到一个特征数据xtn中含有噪声时，就可以用ytn＝1来表示此次检测结果，而这个数值的大小还可以用于表示噪声的大小。

可选的，所述基于深度神经网络和长短期记忆网络的目标检测模型，包括以下至少一个子模型，其中，第一子模型包括：音频数据段中的每一帧音频帧的特征数据按时间顺序依次作为第一层深度神经网络的输入，第一层深度神经网络的输出作为第二层长短期记忆网络的输入，且将前一帧音频帧对应的第二层长短期记忆网络的输出作为后一帧音频帧对应的第二层长短期记忆网络的输入，最后一帧音频帧对应的第二层长短期记忆网络的输出作为第三层深度神经网络的输入，所述第三层深度神经网络的输出作为第四层sigmoid的输入，所述第四层sigmoid的输出检测结果。

所述第二子模型包括：按时间顺序依次将音频数据段中的每一帧音频帧作为第一层深度神经网络的输入，将第一层深度神经网络的输出作为第二层双向长短时记忆网络的输入，且将相邻前后两帧音频帧分别对应的第二层双向长短时记忆网络的输出作为所述相邻前后两帧音频帧对应的第二层双向长短时记忆网络的输入；再将所述音频数据段的中间音频帧对应的第二层双向长短时记忆网络的输出作为第三层深度神经网络的输入，将第三层深度神经网络的输出作为第四层sigmoid的输入，所述第四层sigmoid的输出检测结果。

所述第三子模型包括：按时间顺序依次将音频数据段中的每一帧音频帧作为第一层深度神经网络的输入，将所述第一层深度神经网络的输出作为第二层长短时记忆网络的输入，且将前一帧音频帧对应的第二层长短期记忆网络的输出作为后一帧音频帧对应的第二层长短期记忆网络的输入；再将所述音频数据段中每一帧音频帧对应的第二层长短期记忆网络的输出均作为第三层合并层的输入，将所述第三层合并层的输出作为第四层深度神经网络的输入，所述第四层深度神经网络的输出为第五层sigmoid的输入，所述第五层sigmoid的输出为所述音频数据段的检测结果。

可以理解的是，所述长短期记忆网络使用所述每个音频数据段中时序关联的音频帧对所述音频数据段进行检测。

请参考附图2b，图2b是本申请实施例提供的一种第一子模型的模型框示意图。如图2b所示，图2b中的模型框图为基于最后帧预测，可以根据所述第一子模型，按时间顺序依次将每个音频数据段中的每一帧音频帧均先通过所述第一层深度神经网络，然后将所述第一层深度神经网络处理后的每一帧音频帧以及所述每一帧音频帧对应前一帧的相关行输入所述第二层长短期记忆网络；并将所述第二层长短期记忆网络处理后的最后一帧音频帧输入到所述第三层深度神经网络中，第三层深度神经网络的输出结果输入至第四层sigmoid中，获得所述每个音频数据段的检测结果，其中，所述第四层sigmoid的目标函数为sigmoid交叉熵损失函数。例如：仅使用长短期记忆网络lstm的特征数据的最后一个特征数据特征作为深度神经网络dnn的输入，仅利用其前面帧的相关行。

请参考附图2c，图2c是本申请实施例提供的一种第二子模型的模型框示意图。如图2c所示，图2c中的模型框图为基于中间帧预测，可以根据所述第二子模型，按时间顺序依次将所述音频数据段的每一帧音频帧均先通过所述第一层深度神经网络，然后将所述第一层深度神经网络处理后的每一帧音频帧输入第二层双向长短时记忆网络，且将相邻前后两帧音频帧分别对应的第二层双向长短时记忆网络的输出作为所述相邻前后两帧音频帧对应的第二层双向长短时记忆网络的输入；并将所述音频数据段的中间音频帧的第二层双向长短时记忆网络的输出作为第三层深度神经网络的输入，将第三层深度神经网络的输出作为第四层sigmoid的输入，第四层sigmoid的输出作为所述音频数据段的检测结果，其中，所述第四层sigmoid的目标函数为sigmoid交叉熵损失函数。例如：仅使用双向长短时记忆网络bilstm的特征数据的中间特征数据特征作为输出层深度神经网络dnn的输入，充分利用上下帧的音频帧关系，提高了检测的准确度。

请参考附图2d，图2d是本申请实施例提供的又一种子模型的模型框示意图。如图2d所示，图2d中的模型框图为基于多帧合并预测，可以根据所述第三子模型，按时间顺序依次将所述音频数据段中的每一帧音频帧均先通过所述第一层深度神经网络，然后将所述第一层深度神经网络处理后的每一帧音频帧以及所述每一帧音频帧对应前一帧的相关行输入所述第二层长短期记忆网络；并将所述第二层长短期记忆网络处理后的每一帧音频帧通过所述第三层合并层拼接后输入到所述第四层深度神经网络，将所述第四层深度神经网络的输出作为所述第五层sigmoid的输入，将第五层sigmoid的输出作为所述音频数据段的检测结果，其中，所述第五层sigmoid的目标函数为sigmoid交叉熵损失函数。其中，需要说明的是，第三层合并层拼接方法有两种，一种为拼接flatten：即将多个特征数据按照时间先后顺序拼接起来，将输出格式shape由(batch_size，time_sequence,feat_dims)变为(batch_size，time_sequence*feat_dims)，即，所述第三层合并层merge将输入的所述第二层lstm处理后的每一帧音频帧数据按照先后顺序拼接后，输入到所述第四层dnn；另外一种为全局平均池化(averageglobalpooling)，将输出格式shape由(batch_size，time_sequence，feat_dims)变为(batch_size,1，feat_dims)按照shape的第二个维度取平均，即，所述第三层合并层merge将输入的所述第二层lstm处理后的每一帧音频帧数据的第二个维度取平均后，再一起输入到所述第四层dnn。

可选的，音频噪声检测装置将所述每个音频数据段的特征数据输入至目标检测模型中，获得所述每个音频数据段的检测结果之前，所述方法还包括：音频噪声检测装置可以获取多组样本音频数据，以及所述多组样本音频数据对应的噪声结果；将所述样本音频数据，以及所述样本音频数据对应的噪声结果，输入到深度神经网络-长短期记忆网络混合模型中进行训练，获得训练好的所述目标检测模型以及权重参数，所述权重参数包括：学习率、批次大小batch_size、深度神经网络或者长短期记忆网络隐藏层hiddenlayersize节点大小中的一个或多个。例如：音频噪声检测装置可以将多组样本音频数据xtn进行标注，若xtn中含有噪声缺陷，如：噪声类(喀嚓声、突发噪声、直流偏置、电流声、嘶声)、静音类(短空白、长空白)、品质类(假双声道、频谱过低)、音量类(音量过大或过小、长溢出)等，则标注对应的噪声结果ytn＝1，否则标注对应的噪声结果ytn＝0。

可选的，通过调整模型中的权重参数，使得模型中的权重得到充分的训练和学习，提高目标检查的准确率和召回率。

步骤s203：根据每个音频数据段的检测结果，得到音频数据的检测结果。

具体地，音频噪声检测装置根据所述每个音频数据段的检测结果，得到所述音频数据的检测结果，其中所述检测结果用于指示所述音频数据是否包含噪声。例如：将所述每个音频数据段的检测结果累加后获得所述音频数据的检测结果，所述音频数据的检测结果用于指示所述音频数据中包含的噪声大小。可以理解的是，其所述音频数据的检测结果累加的值越大，其音频数据中包含的噪声大小也越大。当所述音频数据的检测结果大于预设阈值时，则可以认为音频数据中包含较大音量的噪声，会对用户正常的收听音频数据造成影响。例如：对目标歌曲的总长度为n的特征数据xtn进行预测，然后统计{xtn}，t＝1,2,…,n的检测结果，再将该检测结果累加得到所述音频数据的检测结果sum(ytn)，若所述音频数据的检测结果超过阈值3，则可以认为该歌曲为含有突发噪声缺陷的音频文件。

实施本申请实施例，可以使用深度学习的方案，分段对音频数据进行特征提取，获得所述音频数据分段后每个音频数据段的特征数据，并将获得分段后每个音频数据段的特征数据输入基于深度神经网络-长短期记忆网络的目标检测模型中，获得所述分段后每个音频数据段的特征数据对应的检测结果，最后将所述分段后每个音频数据段的特征数据的检测结果累加后获得用于指示所述音频数据中包含的噪声大小的检测结果。

综上所述，本申请实施例通过频域特征的转换和提取，然后使用训练好的深度神经网络进行检测，能显著提高检测噪声的准确率和召回率。一方面充分利用dnn特征变换能力，并且利用输入信息随时间动态变化规律进行学习，将过去语音帧的判决信息作用于当前帧判决的算法，提出dnn-lstm混合神经网络，结合了dnn善于对数据进行非线性变换与lstm善于对特征数据分析的能力，很好的利用了音频帧之间的强相关性，相邻帧的信息对当前帧的影响也被学习关注，相对于单纯的使用dnn针对每个独立的帧进行噪音/非噪音二分类，具有更高的识别准确度，抗干扰能力更强，减少一些特效音频文件的误识别操作，综合学习前后帧之间的相关性进行判断，进而得出整段音频文件的噪声活性(noiseactivity)，即检测结果。例如：使用本申请实施例可以检测出曲库中一定数量的突发噪声缺陷文件，还能在入库过程中提前预防，阻止有缺陷问题的音频文件入库，大大提高了曲库的音质，有效的提升了用户的听歌体验。

总的来说，可以基于dnn-lstm的音频噪声缺陷检测方法，首先通过特征转换将音频波形文件转换为多维特征数据，首次将dnn和lstm混合网络结构应用于音频噪声活性检测，且使用深度学习的方式进行检测，能同时保证准确率和召回率。

上述详细阐述了本申请实施例的方法，下面提供了与本申请实施例的相关音频噪声检测装置，音频噪声检测装置10可以是一种通过快速获取、处理、分析和提取有价值的数据，以交互数据为基础，为第三方使用带来各种便利的服务设备。请参考附图3，图3是本申请实施例提供的一种音频噪声检测装置的结构示意图。可以包括获取单元301，提取单元302，检测单元303，结果单元304以及训练单元305。

获取单元301，用于获得音频数据，其中所述音频数据包括多帧音频帧；

提取单元302，用于分段对所述音频数据进行特征提取，得到分段后每个音频数据段的特征数据；

检测单元303，用于将所述每个音频数据段的特征数据输入至目标检测模型中，获得所述每个音频数据段的检测结果，其中，所述目标检测模型包括深度神经网络以及与所述深度神经网络连接的长短期记忆网络，且所述长短期记忆网络使用所述每个音频数据段中时序关联的音频帧对所述音频数据段进行检测；

结果单元304，用于根据所述每个音频数据段的检测结果，得到所述音频数据的检测结果，其中所述检测结果用于指示所述音频数据是否包含噪声。

在一种可能实现的方式中，所述提取单元302，具体用于：将所述音频数据通过信号处理转化为频域特征信号；将所述频域特征信号按照时间顺序以每组n帧音频帧的顺序分段提取，组成总长度为n的特征数据xtn，其中，n为音频帧总帧数除以n帧后取整获得，n为大于或等于1的正整数，t为大于或等于1且小于或等于n的正整数。

在一种可能实现的方式中，所述检测单元303，具体用于从所述总长度为n的特征数据xtn中，按照预设批次大小，将每一批次的多个特征数据xtn依次提取空间特征；从提取所述空间特征后的所述每一批次的多个特征数据xtn依次进行时域处理；将进行所述时域处理后的所述每一批次的多个特征数据xtn输入所述目标检测模型的输出层，获得所述每一批次中的多个特征数据xtn对应的多个检测结果，所述检测结果ytn∈{0，1}，其中，若xtn中含有噪声，则ytn＝1，否则ytn＝0。

在一种可能实现的方式中，所述基于深度神经网络和长短期记忆网络的目标检测模型，包括第一子模型，其中，所述第一子模型为：音频数据段中的每一帧音频帧的特征数据按时间顺序依次作为第一层深度神经网络的输入，第一层深度神经网络的输出作为第二层长短期记忆网络的输入，且将前一帧音频帧对应的第二层长短期记忆网络的输出作为后一帧音频帧对应的第二层长短期记忆网络的输入，最后一帧音频帧对应的第二层长短期记忆网络的输出作为第三层深度神经网络的输入，所述第三层深度神经网络的输出作为第四层sigmoid的输入，所述第四层sigmoid的输出检测结果；其中，所述结果单元304，具体用于：按时间顺序依次将每个音频数据段中的每一帧音频帧均先通过所述第一层深度神经网络，然后将所述第一层深度神经网络处理后的每一帧音频帧以及所述每一帧音频帧对应前一帧的相关行输入所述第二层长短期记忆网络；并将所述第二层长短期记忆网络处理后的最后一帧音频帧输入到所述第三层深度神经网络中，第三层深度神经网络的输出结果输入至第四层sigmoid中，获得所述每个音频数据段的检测结果，其中，所述第四层sigmoid的目标函数为sigmoid交叉熵损失函数。

在一种可能实现的方式中，所述基于深度神经网络和长短期记忆网络的目标检测模型，包括第二子模型，其中，所述第二子模型包括：按时间顺序依次将音频数据段中的每一帧音频帧作为第一层深度神经网络的输入，将第一层深度神经网络的输出作为第二层双向长短时记忆网络的输入，且将相邻前后两帧音频帧分别对应的第二层双向长短时记忆网络的输出作为所述相邻前后两帧音频帧对应的第二层双向长短时记忆网络的输入；再将所述音频数据段的中间音频帧对应的第二层双向长短时记忆网络的输出作为第三层深度神经网络的输入，将第三层深度神经网络的输出作为第四层sigmoid的输入，所述第四层sigmoid的输出检测结果；其中，所述结果单元304，具体用于：按时间顺序依次将所述音频数据段的每一帧音频帧均先通过所述第一层深度神经网络，然后将所述第一层深度神经网络处理后的每一帧音频帧输入第二层双向长短时记忆网络，且将相邻前后两帧音频帧分别对应的第二层双向长短时记忆网络的输出作为所述相邻前后两帧音频帧对应的第二层双向长短时记忆网络的输入；并将所述音频数据段的中间音频帧的第二层双向长短时记忆网络的输出作为第三层深度神经网络的输入，将第三层深度神经网络的输出作为第四层sigmoid的输入，第四层sigmoid的输出作为所述音频数据段的检测结果，其中，所述第四层sigmoid的目标函数为sigmoid交叉熵损失函数。

在一种可能实现的方式中，所述基于深度神经网络和长短期记忆网络的目标检测模型，包括第一子模型，其中，所述第三子模型包括：按时间顺序依次将音频数据段中的每一帧音频帧作为第一层深度神经网络的输入，将所述第一层深度神经网络的输出作为第二层长短时记忆网络的输入，且将前一帧音频帧对应的第二层长短期记忆网络的输出作为后一帧音频帧对应的第二层长短期记忆网络的输入；再将所述音频数据段中每一帧音频帧对应的第二层长短期记忆网络的输出均作为第三层合并层的输入，将所述第三层合并层的输出作为第四层深度神经网络的输入，所述第四层深度神经网络的输出为第五层sigmoid的输入，所述第五层sigmoid的输出为所述音频数据段的检测结果；其中，所述结果单元304，具体用于：按时间顺序依次将所述音频数据段中的每一帧音频帧均先通过所述第一层深度神经网络，然后将所述第一层深度神经网络处理后的每一帧音频帧以及所述每一帧音频帧对应前一帧的相关行输入所述第二层长短期记忆网络；并将所述第二层长短期记忆网络处理后的每一帧音频帧通过所述第三层合并层拼接后输入到所述第四层深度神经网络，将所述第四层深度神经网络的输出作为所述第五层sigmoid的输入，将第五层sigmoid的输出作为所述音频数据段的检测结果，其中，所述第五层sigmoid的目标函数为sigmoid交叉熵损失函数。

在一种可能实现的方式中，所述装置还包括：训练单元305，用于在将所述每个音频数据段的特征数据输入至目标检测模型中，获得所述每个音频数据段的检测结果之前，获取多组样本音频数据，以及所述多组样本音频数据对应的噪声结果；将所述样本音频数据，以及所述样本音频数据对应的噪声结果，输入到深度神经网络-长短期记忆网络混合模型中进行训练，获得训练好的所述目标检测模型以及权重参数，所述权重参数包括：学习率、批次大小batch_size、深度神经网络或者长短期记忆网络隐藏层hiddenlayersize节点大小中的一个或多个。

需要说明的是，各个操作的实现还可以对应参照图2a-图2d所示的方法实施例的相应描述，此处不再赘述。

如图4所示，图4是本申请实施例提供的另一种音频噪声检测装置的结构示意图，该装置20包括至少一个处理器401，至少一个存储器402、至少一个通信接口403。此外，该设备还可以包括天线等通用部件，在此不再详述。

处理器401可以是通用中央处理器(cpu)，微处理器，特定应用集成电路(application-specificintegratedcircuit，asic)，或一个或多个用于控制以上方案程序执行的集成电路。

通信接口403，用于与其他设备或通信网络通信，如以太网，无线接入网(ran)，核心网，无线局域网(wirelesslocalareanetworks，wlan)等。

存储器402可以是只读存储器(read-onlymemory，rom)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(randomaccessmemory，ram)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasableprogrammableread-onlymemory，eeprom)、只读光盘(compactdiscread-onlymemory，cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，所述存储器402用于存储执行以上方案的应用程序代码，并由处理器401来控制执行。所述处理器401用于执行所述存储器402中存储的应用程序代码。

存储器402存储的代码可执行以上图2a-图2d提供的音频噪声检测方法，比如，当装置20为音频噪声检测装置101时，可以获得音频数据，其中所述音频数据包括多帧音频帧；分段对所述音频数据进行特征提取，得到分段后每个音频数据段的特征数据；将所述每个音频数据段的特征数据输入至目标检测模型中，获得所述每个音频数据段的检测结果，其中，所述目标检测模型包括深度神经网络以及与所述深度神经网络连接的长短期记忆网络，且所述长短期记忆网络使用所述每个音频数据段中时序关联的音频帧对所述音频数据段进行检测；根据所述每个音频数据段的检测结果，得到所述音频数据的检测结果，其中所述检测结果用于指示所述音频数据是否包含噪声。

需要说明的是，本申请实施例中所描述的音频噪声检测装置20中各功能单元的功能可参照图2a-图2d所示的方法实施例的相应描述，此处不再赘述。

在本申请中，所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能组件可以集成在一个组件也可以是各个组件单独物理存在，也可以是两个或两个以上组件集成在一个组件中。上述集成的组件既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的组件如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个本申请实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。尽管在此结合各实施例对本申请进行了描述，然而，在实施例所要求保护的本申请过程中，本领域技术人员可理解并实现公开实施例的其他变化。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张斌;赵伟峰
技术所有人：腾讯音乐娱乐科技(深圳)有限公司
我是此专利的发明人

上一篇：一种卧式污水多级处理装置的制作方法
上一篇：一种余热利用锅的制作方法