语音增强模型的训练方法及系统与流程

文档序号：20268239发布日期：2020-04-03 18:40阅读：443来源：国知局

本发明涉及智能语音领域，尤其涉及一种语音增强模型的训练方法及系统。

背景技术：

为了提高语音识别模型的识别效果，通常会在识别之前进行语音增强(麦克风阵列、谱减法、维纳滤波)前端，用来增加复杂场景下的声纹识别系统的鲁棒性。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

基于麦克风阵列的语音增强技术通常用在多通道的语音增强；谱减法通常用来处理噪声与纯净语音不相关，并且噪声类型属于加性平稳噪声，增强后的语音包含较强的音乐噪声；使用维纳滤波进行语音增强，增强过后的语音类似白噪声，此外维纳滤波输入的过程和语音类似也是广义平稳的，所以维纳滤波也有很大的缺陷。通过这些方法训练的语音增强模型不具备同时进行降噪和降混响能力；对后端声纹识别的性能提升较小甚至没有作用。

技术实现要素：

为了至少解决现有技术中的语音增强模型不具备同时进行降噪和降混响能力，对后端声纹识别的性能提升较小甚至没有作用的问题。

第一方面，本发明实施例提供一种语音增强模型的训练方法，包括：

接收纯净语音以及与所述纯净语音对应的带噪语音，其中，所述带噪语音包括：噪声语音和远场语音；

分别提取所述纯净语音的第一音频谱特征和所述带噪语音的第二音频谱特征；

对所述带噪语音的第二音频谱特征进行压缩以生成第一深度语音特征；

对所述第一深度语音特征进行去噪，得到去噪后的第二深度语音特征；

对所述第二深度语音特征进行音频谱恢复，得到所述带噪语音的第三音频谱特征；

确定所述纯净语音的第一音频谱特征和所述带噪语音的第三音频谱特征的特征均方误差，基于所述均方误差训练所述语音增强模型，直至所述特征均方误差符合预设阈值，确定语音增强模型，其中，所述语音增强模型输入为带噪语音，将处理后的带噪语音作为输出。

第二方面，本发明实施例提供一种声纹识别方法，包括：

接收带噪语音信号，提取所述带噪语音信号中的音频谱特征；

将所述音频谱特征输入至所述语音增强模型，得到去噪后的纯净音频的音频谱特征；

将所述纯净音频的音频谱特征输入至声纹识别网络，确定出纯净音频的特征向量，基于所述纯净音频的特征向量确定出识别结果。

第三方面，本发明实施例提供一种语音增强模型的训练系统，包括：

语音接收程序模块，用于接收纯净语音以及与所述纯净语音对应的带噪语音，其中，所述带噪语音包括：噪声语音和远场语音；

音频谱特征提取程序模块，用于分别提取所述纯净语音的第一音频谱特征和所述带噪语音的第二音频谱特征；

深度语音特征确定程序模块，用于对所述带噪语音的第二音频谱特征进行压缩以生成第一深度语音特征；

去噪程序模块，用于对所述第一深度语音特征进行去噪，得到去噪后的第二深度语音特征；

音频谱恢复程序模块，用于对所述第二深度语音特征进行音频谱恢复，得到所述带噪语音的第三音频谱特征；

模型训练程序模块，用于确定所述纯净语音的第一音频谱特征和所述带噪语音的第三音频谱特征的特征均方误差，基于所述均方误差训练所述语音增强模型，直至所述特征均方误差符合预设阈值，确定语音增强模型，其中，所述语音增强模型输入为带噪语音，将处理后的带噪语音作为输出。

第四方面，本发明实施例提供一种声纹识别系统，包括：

音频谱特征提取程序模块，用于接收带噪语音信号，提取所述带噪语音信号中的音频谱特征；

去噪程序模块，用于将所述音频谱特征输入至所述语音增强模型，得到去噪后的纯净音频的音频谱特征；

识别程序模块，用于将所述纯净音频的音频谱特征输入至声纹识别网络，确定出纯净音频的特征向量，基于所述纯净音频的特征向量确定出识别结果。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音增强模型的训练方法的步骤。

第六方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的语音增强模型的训练方法的步骤。

本发明实施例的有益效果在于：在语音增强前端使用卷积和反卷积网络分别进行编解码，在卷积和反卷积之间采用lstm对序列进行时序处理，将噪声语音和远场语音的谱特征经过神经网络后和目标纯净语音的谱特征做mse，从而使得网络具备解决噪声和远场的能力。

在声纹识别后端，采用多层卷积和归一化操作，将卷积操作后的结果经过最大池化和全连接后得到固定大小的embedding嵌入，采用am损失函数将相同说话人的embedding之间的距离变小，反之变大，从而使得不同说话人的embedding在空间上具有区分性，提高识别性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种语音增强模型的训练方法的流程图；

图2是本发明一实施例提供的一种语音增强模型的训练方法的语音增强模块网络结构图；

图3是本发明一实施例提供的一种声纹识别方法的流程图；

图4是本发明一实施例提供的一种声纹识别方法的声纹识别模块网络结构图；

图5是本发明一实施例提供的一种语音增强模型的训练系统的结构示意图；

图6是本发明一实施例提供的一种声纹识别系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种语音增强模型的训练方法的流程图，包括如下步骤：

s11：接收纯净语音以及与所述纯净语音对应的带噪语音，其中，所述带噪语音包括：噪声语音和远场语音；

s12：分别提取所述纯净语音的第一音频谱特征和所述带噪语音的第二音频谱特征；

s13：对所述带噪语音的第二音频谱特征进行压缩以生成第一深度语音特征；

s14：对所述第一深度语音特征进行去噪，得到去噪后的第二深度语音特征；

s15：对所述第二深度语音特征进行音频谱恢复，得到所述带噪语音的第三音频谱特征；

s16：确定所述纯净语音的第一音频谱特征和所述带噪语音的第三音频谱特征的特征均方误差，基于所述均方误差训练所述语音增强模型，直至所述特征均方误差符合预设阈值，确定语音增强模型，其中，所述语音增强模型输入为带噪语音，将处理后的带噪语音作为输出。

在本实施方式中，现有方法为了提高声纹识别的鲁棒性，通常会单独对噪声语音进行处理或者单独对混响语音处理，一个模型用来解决噪声和混响的影响，一般的模型很难具备这种功能，并且很难学习到这种能力。本方法为了解决这种情况，在语音增强前端使用了多个网络分别进行处理。

对于步骤s11，为了进行语音增强模型的训练，需要准备好训练数据。训练数据包括纯净语音，以及与所述纯净语音对应的带噪语音。例如，对纯净语音加入噪声(车辆噪声、家电噪声等)生成的噪声语音，以及对纯净语音进行处理，加入远场效果生成的远场语音。将噪声语音以及远场语音混合，确定为带噪语音。收集好这些纯净语音以及带噪语音，为语音增强模型训练做好充足的准备。

对于步骤s12，分别提取所述纯净语音的第一音频谱特征和所述带噪语音的第二音频谱特征，其中，所述音频谱特征为音频的谱特征，包括fbank(filterbank,滤波器组)特征、mfcc(melfrequencycepstrumcoefficient，梅尔频率倒谱系数)特征、plp(perceptuallinearpredictive，感知线性预测)特征、功率谱特征。

其中，采用kaldi工具包提取语音的fbank特征并存储在本地，在训练语音增强模块时，同时存储一条的原始语音路径和带噪语音路径。在网络训练的过程中就可以直接进行均方误差的计算。

对于步骤s13，对步骤s12中确定的第二音频谱特征进行压缩，在本实施方式中，包括：通过卷积神经网络对所述第二音频谱特征进行压缩，生成第一深度语音特征；

所述卷积神经网络为四层卷积神经网络，所述卷积神经网络的卷积层通道数分别为8,16,32,64；

如图2所示，将第二音频谱特征经过四层卷积神经网络，卷积层的通道数分别为(8,16,32,64)，卷积核的大小为(3,3)，步长为(1,2)。生成第一深度语音特征。

对于步骤s14，对在步骤s13中确定的第一深度语音特征进行去噪，在本实施方式中，包括：通过长短时记忆网络对所述第一深度语音特征进行逐帧去噪，得到去噪后的第二深度语音特征；

将卷积后的第一深度语音特征经过2层lstm,此时注意经过lstm的隐层数要和输入的尺寸设置相同，这样在后面步骤中反卷积才能顺利恢复到原始特征尺寸大小。

对于步骤s15，对步骤s14确定的第二深度语音特征进行音频谱恢复，在本实施方式中，包括：基于反卷积神经网络对所述第二深度语音特征进行音频谱恢复，用于避免神经网络训练的梯度消失；

反卷积的通道数分别为(32,16,8,1)，第一个反卷积层的卷积核大小为(3,3)，其余均设置为(3,4)，步长均为(1,2)。得到带噪语音的第三音频普特征。

对于步骤s16：确定第一音频谱特征和所述带噪语音的第三音频谱特征的特征均方误差，也就是根据fbank特征计算均方误差(mse)。基于确定的均方误差来训练所述语音增强模型。直至所述特征均方误差符合预设阈值的时候，停止训练。

在本实施方式中，通过上述特定的步骤(卷积神经网络，反卷积神经网络)训练的语音增强模型为卷积-长短时记忆网络-反卷积结构的语音增强模型。

通过该实施方式可以看出，在语音增强前端使用卷积和反卷积网络分别进行编解码，在卷积和反卷积之间采用lstm对序列进行时序处理，将噪声语音和远场语音的谱特征经过神经网络后和目标纯净语音的谱特征做mse，从而使得网络具备解决噪声和远场的能力。

如图3所示为本发明一实施例提供的一种声纹识别方法的流程图，包括如下步骤：

s21：接收带噪语音信号，提取所述带噪语音信号中的音频谱特征；

s22：将所述音频谱特征输入至语音增强模型，得到去噪后的纯净音频的音频谱特征；

s23：将所述纯净音频的音频谱特征输入至声纹识别网络，确定出纯净音频的特征向量，基于所述纯净音频的特征向量确定出识别结果。

在本实施方式中，在声纹识别前端增加语音增强模块，对带噪语音进行过滤。

对于步骤s21，可以将本方法搭载到智能设备中进行使用，接收用户输入的带噪语音信号，提取所述带噪音频信号中的音频谱特征。

在本实施方式中，通过语音活性检测获取所述带噪语音信号中的人声信号，提取所述带噪语音信号中的人声信号的音频谱特征。例如，通过智能设备上的麦克风获取到用户的音频，通过vad(voiceactivatedetection,语音活性检测)来获取人声信号的音频谱特征。

对于步骤s22，将确定的音频普特征输入到语音增强模型进行音频增强，得到去噪后的纯净音频谱特征。

对于步骤s23，在得到纯净的音频谱特征后，如图4所示，将增强模块预测的纯净语音的fbank特征经过多层卷积层，其中通道数分别为(16,16,32,32,64,64,128,128)，卷积核大小均为(3，3)，步长分别为(1，1)、(1，1)、(2，2)、(1，1)、(2，2)、(1，1)、(2，2)、(1，1)。将卷积后的结果经过最大池化和1层全连接网络映射到固定维度得到一条语音的表征向量embedding。

在本实施方式中，通过am损失函数确定出纯净音频的特征向量，用于区分特征向量中的不同说话人。其中，am损失函数为amsoftmaxloss(additivemarginsoftmax)最先提出并应用在人脸识别上。是在a-softmax上引入了一个参数因子m,将余弦距离cosθ变为cos(mθ),通过m来调节特征间的距离,从而使得同一个说话人的类内和类间间距更加具有区分性。从而确定出识别结果。

通过该实施方式可以看出，在声纹识别后端，采用多层卷积和归一化操作，将卷积操作后的结果经过最大池化和全连接后得到固定大小的embedding嵌入，采用am损失函数将相同说话人的embedding之间的距离变小，反之变大，从而使得不同说话人的embedding在空间上具有区分性，提高识别性能。

如图5所示为本发明一实施例提供的一种语音增强模型的训练系统的结构示意图，该系统可执行上述任意实施例所述的语音增强模型的训练方法，并配置在终端中。

本实施例提供的一种语音增强模型的训练系统包括：语音接收程序模块11，音频谱特征提取程序模块12，深度语音特征确定程序模块13，去噪程序模块14，音频谱恢复程序模块15和模型训练程序模块16。

其中，语音接收程序模块11用于接收纯净语音以及与所述纯净语音对应的带噪语音，其中，所述带噪语音包括：噪声语音和远场语音；音频谱特征提取程序模块12用于分别提取所述纯净语音的第一音频谱特征和所述带噪语音的第二音频谱特征；深度语音特征确定程序模块13用于对所述带噪语音的第二音频谱特征进行压缩以生成第一深度语音特征；去噪程序模块14用于对所述第一深度语音特征进行去噪，得到去噪后的第二深度语音特征；音频谱恢复程序模块15用于对所述第二深度语音特征进行音频谱恢复，得到所述带噪语音的第三音频谱特征；模型训练程序模块16用于确定所述纯净语音的第一音频谱特征和所述带噪语音的第三音频谱特征的特征均方误差，基于所述均方误差训练所述语音增强模型，直至所述特征均方误差符合预设阈值，确定语音增强模型，其中，所述语音增强模型输入为带噪语音，将处理后的带噪语音作为输出。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音增强模型的训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

接收纯净语音以及与所述纯净语音对应的带噪语音，其中，所述带噪语音包括：噪声语音和远场语音；

分别提取所述纯净语音的第一音频谱特征和所述带噪语音的第二音频谱特征；

对所述带噪语音的第二音频谱特征进行压缩以生成第一深度语音特征；

对所述第一深度语音特征进行去噪，得到去噪后的第二深度语音特征；

对所述第二深度语音特征进行音频谱恢复，得到所述带噪语音的第三音频谱特征；

如图6所示为本发明一实施例提供的一种声纹识别系统的结构示意图，该系统可执行上述任意实施例所述的声纹识别方法，并配置在终端中。

本实施例提供的一种声纹识别系统包括：音频谱特征提取程序模块21，去噪程序模块22和识别程序模块23。

其中，音频谱特征提取程序模块21用于接收带噪语音信号，提取所述带噪语音信号中的音频谱特征；去噪程序模块22用于将所述音频谱特征输入至语音增强模型，得到去噪后的纯净音频的音频谱特征；识别程序模块23用于将所述纯净音频的音频谱特征输入至声纹识别网络，确定出纯净音频的特征向量，基于所述纯净音频的特征向量确定出识别结果。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的声纹识别方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

接收带噪语音信号，提取所述带噪语音信号中的音频谱特征；

将所述音频谱特征输入至所述语音增强模型，得到去噪后的纯净音频的音频谱特征；

将所述纯净音频的音频谱特征输入至声纹识别网络，确定出纯净音频的特征向量，基于所述纯净音频的特征向量确定出识别结果。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的语音增强模型的训练方法以及声纹识别方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音增强模型的训练方法以及声纹识别方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵飞;黄厚军;钱彦旻
技术所有人：苏州思必驰信息科技有限公司
我是此专利的发明人