噪声数据获取方法、装置及存储介质与流程

文档序号：20692376发布日期：2020-05-08 19:45阅读：576来源：国知局

本申请涉及一种噪声数据获取方法、装置及存储介质，属于计算机技术领域。

背景技术：

在通话场景中保证声音的清晰度才能保证通话有效进行。比如：在视频会议场景、语音通话场景等。若通话场景存在噪声，会影响语音的清晰度，降低通话效果。因此，噪声抑制在通话场景中的作用尤为重要。

随着深度学习的发展，基于深度学习的噪声抑制算法广泛使用，例如深度学习噪声抑制(learningnoisesuppression，rnnoise)等。在使用基于深度学习的噪声抑制算法之前，需要使用大量的噪声数据来训练噪声抑制网络模型。噪声数据的数量越多，对提升噪声抑制网络模型的模型性能越有利。

目前常用的噪声数据的获取方法包括：在各种不同场景人工采集噪声数据。由于噪声数据的采集数量非常大，通过人工采集的效率较低。

技术实现要素：

本申请提供了一种噪声数据获取方法、装置及存储介质，可以解决人工采集噪声数据的效率较低的问题。本申请提供如下技术方案：

第一方面，提供了一种噪声数据获取方法，所述方法包括：

采集音频数据；

确定所述音频数据是否包括目标音频数据，所述目标音频数据是除噪声数据之外的音频数据；

在所述音频数据未包括所述目标音频数据时确定所述音频数据为所述噪声数据。

可选地，所述确定所述音频数据是否包括目标音频数据，包括：

检测所述音频数据是否包括人声；和/或，

检测所述音频数据是否包括音乐。

可选地，所述方法还包括：

确定所述音频数据的最大能量值是否大于或等于能量阈值；

在所述最大能量值大于或等于能量阈值时触发执行所述确定所述音频数据是否包括目标音频数据的步骤。

可选地，所述噪声数据用于训练目标场景中的噪声抑制模型，所述方法还包括：

确定当前是否处于所述目标场景，

在当前处于所述目标场景时触发执行所述采集音频数据的步骤。

可选地，所述在所述音频数据未包括所述目标音频数据时确定所述音频数据为所述噪声数据之后，还包括：

将所述噪声数据发送至服务器，以供所述服务器将所述噪声数据与已存储噪声数据进行匹配；在所述噪声数据与所述已存储噪声数据之间的相似度值小于或等于相似度阈值时存储所述噪声数据。

第二方面，提供了一种噪声数据获取方法，所述方法包括：

接收客户端发送的噪声数据；所述噪声数据是所述客户端采集到音频数据之后，在确定出所述音频数据未包括目标音频数据时发送的；所述目标音频数据是除噪声数据之外的音频数据；

将所述噪声数据与已存储噪声数据进行匹配；

在所述噪声数据与所述已存储噪声数据之间的相似度值小于或等于相似度阈值时存储所述噪声数据。

可选地，所述将所述噪声数据与已存储噪声数据进行匹配，包括：

确定所述噪声数据的哈希值；

将所述噪声数据的哈希值与所述已存储噪声数据的哈希值进行比较。

可选地，所述确定所述噪声数据的哈希值，包括：

对每帧噪声数据进行时频转换，得到每帧噪声数据对应的频域数据；

对所述每帧噪声数据对应的频域数据所构成的矩阵进行离散余弦变换，得到系数矩阵；

对于所述系数矩阵中m×n的二维矩阵，对所述二维矩阵进行二值化处理，得到所述噪声数据的哈希值，所述噪声数据的哈希值为二值化处理后的二维矩阵，所述m和所述n均为正整数。

可选地，所述将所述噪声数据的哈希值与所述已存储噪声数据的哈希值进行比较，包括：

计算噪声数据的哈希值与所述已存储噪声数据的哈希值之间的海明距离，得到所述相似度值。

第三方面，提供了一种噪声数据获取装置，所述装置包括：

音频采集模块，用于采集音频数据；

音频检测模块，用于确定所述音频数据是否包括目标音频数据，所述目标音频数据是除噪声数据之外的音频数据；

音频确定模块，用于在所述音频数据未包括所述目标音频数据时确定所述音频数据为所述噪声数据。

第四方面，提供了一种噪声数据获取装置，所述装置包括：

数据接收模块，用于接收客户端发送的噪声数据；所述噪声数据是所述客户端采集到音频数据之后，在确定出所述音频数据未包括目标音频数据时发送的；，所述目标音频数据是除噪声数据之外的音频数据；

噪声匹配模块，用于将所述噪声数据与已存储噪声数据进行匹配；

噪声存储模块，用于在所述噪声数据与所述已存储噪声数据之间的相似度值小于或等于相似度阈值时存储所述噪声数据。

第五方面，提供一种噪声数据获取装置，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现第一方面所述的噪声数据获取方法；或者，实现第二方面所述的噪声数据获取方法。

第六方面，提供一种计算机可读存储介质，所述存储介质中存储有程序，所述程序由所述处理器加载并执行以实现第一方面所述的噪声数据获取方法；或者，实现第二方面所述的噪声数据获取方法。

本申请的有益效果在于：通过采集音频数据；确定音频数据是否包括目标音频数据，目标音频数据是除噪声数据之外的音频数据；在音频数据未包括目标音频数据时确定音频数据为噪声数据；可以解决人工采集噪声数据的效率较低的问题；由于可以实现噪声数据的自动采集，因此，可以提高噪声数据的采集效率。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

附图说明

图1是本申请一个实施例提供的噪声数据获取系统的结构示意图；

图2是本申请一个实施例提供的噪声数据获取方法的流程图；

图3是本申请另一个实施例提供的噪声数据获取方法的流程图；

图4是本申请一个实施例提供的噪声数据对应的频域数据的二维矩阵示意图；

图5是本申请另一个实施例提供的噪声数据获取方法的流程图；

图6是本申请一个实施例提供的噪声数据获取装置的框图；

图7是本申请一个实施例提供的噪声数据获取装置的框图；

图8是本申请一个实施例提供的噪声数据获取装置的框图。

具体实施方式

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

首先，对本申请涉及的若干名词进行解释。

脉冲编码调制(pulsecodemodulation，pcm)：是数字通信的编码方式之一。主要过程是将话音、图像等模拟信号每隔一定时间进行取样，使其离散化，同时将抽样值按分层单位四舍五入取整量化，同时将抽样值按一组二进制码来表示抽样脉冲的幅值。

离散余弦变换(discretecosinetransform，dct)：主要用于对数据或图像进行压缩，能够将空域的信号转换到频域上，具有良好的去相关性的性能。

海明距离(hammingdistance)：在信息编码中，两个合法代码对应位上编码不同的位数称为码距，又称海明距离。举例如下：10101和00110从第一位开始依次有第一位、第四位、第五位不同，则海明距离为3。

图1是本申请一个实施例提供的噪声数据获取系统的结构示意图，如图1所示，该系统至少包括：客户端110和服务器120。

客户端110用于为用户提供语音通话场景。客户端110可以是视频会议客户端等支持语音通话的应用程序，本实施例不对客户端110的实现方式作限定。

可选地，客户端110运行于终端中，该终端可以是视频会议终端、计算机、手机、平板电脑等具有音频采集及播放功能的电子设备，本实施例不对终端的类型作限定。终端中设置有音频采集设备，比如：麦克风组件。

客户端110用于采集音频数据；确定音频数据是否包括目标音频数据；在音频数据未包括目标音频数据时确定音频数据为噪声数据。

其中，目标音频数据是除噪声数据之外的音频数据。比如：目标音频数据是人声、和/或音乐等。可选地，目标音频数据可以由用户设置；或者，默认设置在客户端110中。

客户端110通过有线或者无线的方式与服务器120通信相连。

可选地，客户端110确定出噪声数据之后，将该噪声数据发送至服务器120。

服务器120可以实现为独立的服务器主机；或者，实现为多台服务器主机构成的服务器集群，本实施例不对服务器120的实现方式作限定。

服务器120用于接收客户端110发送的噪声数据；将噪声数据与已存储噪声数据进行匹配；在噪声数据与已存储噪声数据之间的相似度值小于或等于相似度阈值时存储噪声数据。

可选地，客户端110在确定出噪声数据后，也可以将噪声数据与已存储噪声数据进行匹配；在噪声数据与已存储噪声数据之间的相似度值小于或等于相似度阈值时存储噪声数据。

可选地，本申请中，客户端110或者服务器120获取到噪声数据后，使用该噪声数据训练噪声抑制网络模型。噪声抑制网络模型用于识别并筛选音频数据中的噪声。其中，噪声抑制网络模型是基于神经网络模型建立得到的，比如：深度学习噪声抑制(learningnoisesuppression，rnnoise)等，本实施例不对噪声抑制网络模型的类型作限定。

可选地，图1中以客户端110的数量为一个为例进行说明，在实际实现时，客户端110的数量可以为多个，本实施例不对客户端110的数量作限定。

图2是本申请一个实施例提供的噪声数据获取方法的流程图，本实施例以该方法应用于图1所示的噪声数据获取系统中为例进行说明。该方法至少包括以下几个步骤：

步骤201，客户端采集音频数据。

在一个示例中，客户端实时采集音频数据。

在另一个示例中，客户端确定当前是否处于目标场景，在当前处于目标场景时采集音频数据。在当前未处于目标场景时再次执行确定当前是否处于目标场景的步骤。

可选地，目标场景包括但不限于：视频会议场景、语音通话场景等，目标场景是指需要进行噪声抑制的场景。

以目标场景为视频会议场景为例，客户端确定当前是否开启视频会议；在开启视频会议(即处于目标场景)时采集音频数据。此时，客户端可以是视频会议客户端；或者，也可以是监听视频会议客户端的其它客户端，本实施例不对客户端的实现方式作限定。

可选地，音频数据可以是pcm数据，

步骤202，客户端确定音频数据是否包括目标音频数据。

其中，目标音频数据是除噪声数据之外的音频数据，比如：人声、音乐等。目标音频数据可以是用户确定的；或者，也可以是客户端中默认设置的。

若目标音频数据是用户确定的，则客户端提供有多种目标音频数据供用户选择，获取用户选择的目标音频数据。目标音频数据即为不视为噪声的音频数据。

示意性地，客户端确定音频数据是否包括目标音频数据，包括：客户端检测音频数据是否包括人声；和/或，检测音频数据是否包括音乐。

其中，客户端可以使用神经网络模型检测人声和音乐；或者，使用语音识别算法识别人声、使用并行处理基因检测器检测音乐等，本实施例不对检测人声和音乐的方式作限定。

在目标音频数据包括人声和音乐时，客户端可以先检测音频数据是否包括人声；在不包括人声时再检测音频数据是否包括音乐；在包括人声时流程结束。在不包括音乐时执行步骤203；在包括音乐时流程结束。或者，客户端可以先检测音频数据是否包括音乐；在不包括音乐时再检测音频数据是否包括人声；在包括音乐时流程结束。在不包括人声时执行步骤203；在包括音人声时流程结束。或者，客户端可以同时检测是否包括音乐和是否包括人声；在包括音乐和人声中的至少一种时流程结束；在不包括音乐和人声时执行步骤203。

由于在音频数据的能量较低时，该音频数据即使不是目标音频数据，可能也无法被用户感知，此时，将该音频数据作为噪声数据来训练噪声抑制模型，并不会提高噪声抑制模型。基于此，客户端可以对能量较低的音频数据进行筛除。可选地，客户端确定音频数据的最大能量值是否大于或等于能量阈值；在最大能量值大于或等于能量阈值时再执行确定音频数据是否包括目标音频数据的步骤。在最大能量值小于能量阈值时流程结束。

能量阈值预设在客户端中，本实施例不对能量阈值的取值作限定。

步骤203，在音频数据未包括目标音频数据时，客户端确定音频数据为噪声数据。

可选地，客户端确定出噪声数据之后，也可以不执行步骤204-207。或者，客户端在确定出噪声数据之后，也可以由客户端执行步骤206和207。

为了更清楚地理解客户端获取噪声数据的过程，参考图3，图3以目标场景为视频会议场景、目标音频数据包括人声和音乐为例进行说明，该过程至少包括步骤31-37：

步骤31，获取视频会议状态；

步骤32，基于视频会议状态确定当前场景是否是视频会议场景；若是，则执行步骤33；若否，则执行步骤31；

步骤33，采集音频数据；

步骤34，获取音频数据的能量值；

步骤35，确定音频数据的能量值是否大于或等于能量阈值；若是，则执行步骤36；若否，对下一音频数据，执行步骤34；

步骤36，检测音频数据是否包括人声；若是，则对下一音频数据，执行步骤34；若否，则执行步骤37；

步骤37，检测音频数据是否包括音乐；若是，则对下一音频数据，执行步骤34；若否，则执行步骤204。

步骤204，客户端将噪声数据发送至服务器。

噪声数据供服务器与已存储噪声数据进行匹配；在噪声数据与已存储噪声数据之间的相似度值小于或等于相似度阈值时存储噪声数据。

步骤205，服务器接收客户端发送的噪声数据。

其中，噪声数据是客户端采集到音频数据之后，在确定出音频数据未包括目标音频数据时发送的；目标音频数据是除噪声数据之外的音频数据。

步骤206，服务器将噪声数据与已存储噪声数据进行匹配。

在一个示例中，服务器可以将噪声数据与已存储噪声数据逐帧进行匹配。

在另一个示例中，服务器将噪声数据与已存储噪声数据进行匹配包括：确定噪声数据的哈希值；将噪声数据的哈希值与已存储噪声数据的哈希值进行比较。

其中，确定噪声数据的哈希值，包括：

1、对每帧噪声数据进行时频转换，得到每帧噪声数据对应的频域数据。

使用快速傅里叶变换(fastfouriertransform，fft)对每帧噪声数据进行时频转换，假设各帧噪声数据对应的频域数据如图4所示的二维矩阵m1，该二维矩阵的行为以时间轴为顺序的帧id，列为频率的映射。其中，若音频数据存在对应的频率，则在二维矩阵中映射为1；若音频数据不存在对应的频率，则在二维矩阵中映射为0。

2、对每帧噪声数据对应的频域数据所构成的矩阵进行离散余弦变换，得到系数矩阵。

由于人能够听到的声音频率范围是20hz～20khz，因此，只需要提取预设频率范围内的噪声数据进行训练即可。基于此，客户端可以在确定出噪声数据的频域数据之后，对预设频率范围内的频率数据进行离散余弦变换，得到系数矩阵。比如：使用20hz～20khz频域范围内的频域数据。

当然，客户端也可以使用全部的频域数据进行离散余弦变换。

3、对于系数矩阵中m×n的二维矩阵，对二维矩阵进行二值化处理，得到噪声数据的哈希值，噪声数据的哈希值为二值化处理后的二维矩阵，m和n均为正整数。

在一个示例中，m×n二维矩阵位于系数矩阵的左上角；当然，m×n二维矩阵也可以是其它位置的二维矩阵，本实施例不对m×n二维矩的获取方式作限定。

对二维矩阵进行二值化处理包括：对于二维矩阵中的每个值，若该值大于系数矩阵的平均值，则二值化为1；若小于或等于系数矩阵的平均值，则二值化为0。

将噪声数据的哈希值与已存储噪声数据的哈希值进行比较，包括：计算噪声数据的哈希值与已存储噪声数据的哈希值之间的海明距离，得到相似度值。

换句话说，客户端将噪声数据的哈希值中的每个元素与已存储噪声数据的哈希值中对应的元素一一进行比较；将相同元素的个数确定为相似度值。

步骤207，在噪声数据与已存储噪声数据之间的相似度值小于或等于相似度阈值时，服务器存储噪声数据。

相似度阈值预设在服务器中，本实施例不对相似度阈值的取值作限定。

为了更清楚地理解服务器获取噪声数据的过程，参考图5，该过程至少包括步骤51-58：

步骤51，获取客户端发送的噪声数据；

步骤52，对噪声数据进行fft变换；

步骤53，获取预设频率范围内的频域数据；

步骤54，计算频域数据的哈希值；

步骤55，将频域数据的哈希值与已存储噪声数据的哈希值进行比较，得到相似度值；

步骤56，确定相似度值是否小于或等于相似度阈值；若是，则执行步骤57；若否，则执行步骤58；

步骤57，存储噪声数据，流程结束；

步骤58，删除噪声数据。

综上所述，本实施例提供的噪声数据获取方法，通过采集音频数据；确定音频数据是否包括目标音频数据，目标音频数据是除噪声数据之外的音频数据；在音频数据未包括目标音频数据时确定音频数据为噪声数据；可以解决人工采集噪声数据的效率较低的问题；由于可以实现噪声数据的自动采集，因此，可以提高噪声数据的采集效率。

另外，通过在当前处于目标场景时才采集噪声数据，使用该噪声数据训练和/或测试噪声抑制网络模型，可以使得客户端采集到的噪声数据更符合噪声抑制网络模型的使用场景，从而提高噪声抑制网络模型的网络性能。

另外，通过客户端筛选最大能量值大于或等于能量阈值的音频数据；服务器获取预设频率范围内的频域数据，可以使得获取到的噪声数据是人类能够感知的噪声数据，提高噪声数据的有效性。

另外，通过筛除包括人声和音乐的音频数据，可以使得客户端采集到的噪声数据均为用户不期望听到的噪声，提高噪声数据的有效性。

另外，通过将噪声数据与已存储噪声数据进行匹配；筛除与已存储噪声数据的相似度值大于相似度阈值的噪声数据，可以保证噪声数据的多样性，提高通过该噪声数据训练得到的噪声抑制网络模型的性能。

可选地，步骤201-204可单独实现为客户端侧的实施例；步骤205-207可单独实现为服务器侧的实施例。

图6是本申请一个实施例提供的噪声数据获取装置的框图，本实施例以该装置应用于图1所示的噪声数据获取系统中的客户端110为例进行说明。该装置至少包括以下几个模块：音频采集模块610、音频检测模块620和音频确定模块630。

音频采集模块610，用于采集音频数据；

音频检测模块620，用于确定所述音频数据是否包括目标音频数据，所述目标音频数据是除噪声数据之外的音频数据；

音频确定模块630，用于在所述音频数据未包括所述目标音频数据时确定所述音频数据为所述噪声数据。

相关细节参考上述方法实施例。

图7是本申请一个实施例提供的噪声数据获取装置的框图，本实施例以该装置应用于图1所示的噪声数据获取系统中的服务器120为例进行说明。该装置至少包括以下几个模块：数据接收模块710、噪声匹配模块720和噪声存储模块730。

数据接收模块710，用于接收客户端发送的噪声数据；所述噪声数据是所述客户端采集到音频数据之后，在确定出所述音频数据未包括目标音频数据时发送的；所述目标音频数据是除噪声数据之外的音频数据；

噪声匹配模块720，用于将所述噪声数据与已存储噪声数据进行匹配；

噪声存储模块730，用于在所述噪声数据与所述已存储噪声数据之间的相似度值小于或等于相似度阈值时存储所述噪声数据。

相关细节参考上述方法实施例。

需要说明的是：上述实施例中提供的噪声数据获取装置在进行噪声数据获取时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将噪声数据获取装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的噪声数据获取装置与噪声数据获取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是本申请一个实施例提供的噪声数据获取装置的框图，该装置可以是包含图1所示的噪声数据获取系统中客户端110的装置；或者，也可以是服务器120。该装置至少包括处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如：4核心处理器、8核心处理器等。处理器801可以采用dsp(digitalsignalprocessing，数字信号处理)、fpga(field－programmablegatearray，现场可编程门阵列)、pla

(programmablelogicarray，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(centralprocessingunit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有gpu(graphicsprocessingunit，图像处理器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括ai(artificialintelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的噪声数据获取方法。

在一些实施例中，噪声数据获取装置还可选包括有：外围设备接口和至少一个外围设备。处理器801、存储器802和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地，外围设备包括但不限于：音频采集组件、射频电路、触摸显示屏、音频电路、和电源等。

当然，噪声数据获取装置还可以包括更少或更多的组件，本实施例对此不作限定。

可选地，本申请还提供有一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的噪声数据获取方法。

可选地，本申请还提供有一种计算机产品，该计算机产品包括计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的噪声数据获取方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王展;胡小鹏;顾振华
技术所有人：苏州科达科技股份有限公司
我是此专利的发明人

上一篇：一种主轴的中心吹气夹紧机构的制作方法
上一篇：一种非接触式超声加工装置及其加工工艺的制作方法