声纹谱提取方法及装置与流程

文档序号：11776296阅读：580来源：国知局

本发明涉及语音信号处理技术领域，尤其涉及一种声纹谱提取方法及装置。

背景技术：

声纹是判断语音信号中包含的说话人特征。在司法实践中，声纹是对目标进行验证的有效工具之一，在司法鉴定及身份识别等领域具有重要意义。

传统的声纹比对方法一般通过频谱来实现，即先将声音(即语音信号)转换成频谱，再由鉴定专家通过观察两段声音的频谱来判断这两段声音是否来源于同一个说话人。

但是，这两段声音的频谱中不仅包含说话人信息，也包含说话内容信息，通常说话内容的变动更为显著，这意味着鉴定专家通过频谱看到的大多数信息是和发音变异相关的，与说话人其实没有太大关系。这种信息的混杂使得声纹比对非常困难，验证误差较大。特别是在司法鉴定中，这种高误差率导致声纹验证无法列为重要的呈堂证供。为了能够实现精准的声纹验证，声纹谱的提取(即在语音频谱中滤除说话内容信息，只保留说话人信息)具有重要的作用。

鉴于此，如何从语音信号中提取声纹谱成为目前需要解决的技术问题。

技术实现要素：

为解决上述的技术问题，本发明实施例提供一种声纹谱提取方法及装置，能够实现从语音信号中精确的提取声纹谱。

第一方面，本发明实施例提供一种声纹谱提取方法，包括：

获取样本语音信号，将所述样本语音信号转换成log域频谱；

基于所述log域频谱，利用预先训练的声纹因子提取模型，提取每一帧样本语音信号的声纹因子，以及利用预先训练的内容因子提取模型，提取每一帧样本语音信号的内容因子；

基于所提取的内容因子和声纹因子，训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将声纹因子重构成声纹谱的声纹谱重构模型；

将所述内容谱重构模型丢弃，将目标语音信号输入所述声纹谱重构模型，获得所述目标语音信号中的声纹谱。

可选地，所述将所述样本语音信号转换成log域频谱，包括：

将所述样本语音信号进行傅立叶变换，获得所述样本语音信号的log域频谱。

可选地，在基于所述log域频谱，利用预先训练的声纹因子提取模型，提取每一帧样本语音信号的声纹因子之前，所述方法还包括：

对声纹因子提取模型进行预先训练，以使所述声纹因子提取模型对说话人的区分能力最大化，以及对内容因子提取模型进行预先训练，以使所述内容因子提取模型对音素的区分能力最大化。

可选地，所述对声纹因子提取模型进行预先训练，以使所述声纹因子提取模型对说话人的区分能力最大化，包括：

基于fisher准则，对声纹因子提取模型进行预先训练，以使所述声纹因子提取模型对说话人的区分能力最大化；

相应地，所述对内容因子提取模型进行预先训练，以使所述内容因子提取模型对音素的区分能力最大化，包括：

基于fisher准则，对内容因子提取模型进行预先训练，以使所述内容因子提取模型对音素的区分能力最大化。

可选地，所述对声纹因子提取模型进行预先训练，以使所述声纹因子提取模型对说话人的区分能力最大化，包括：

基于交叉熵，对声纹因子提取模型进行预先训练，以使所述声纹因子提取模型对说话人的区分能力最大化；

相应地，所述对内容因子提取模型进行预先训练，以使所述内容因子提取模型对音素的区分能力最大化，包括：

基于交叉熵，对内容因子提取模型进行预先训练，以使所述内容因子提取模型对音素的区分能力最大化。

可选地，所述声纹因子提取模型、所述内容因子提取模型、所述声纹谱重构模型和所述内容谱重构模型均是基于深度神经网络来实现的。

第二方面，本发明实施例提供一种声纹谱提取装置，包括：

转换模块，用于获取样本语音信号，将所述样本语音信号转换成log域频谱；

第一提取模块，用于基于所述log域频谱，利用预先训练的声纹因子提取模型，提取每一帧样本语音信号的声纹因子，以及利用预先训练的内容因子提取模型，提取每一帧样本语音信号的内容因子；

第一训练模块，用于基于所提取的内容因子和声纹因子，训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将声纹因子重构成声纹谱的声纹谱重构模型；

第二提取模块，用于将所述内容谱重构模型丢弃，将目标语音信号输入所述声纹谱重构模型，获得所述目标语音信号中的声纹谱。

可选地，所述装置还包括：

第二训练模块，用于对声纹因子提取模型进行预先训练，以使所述声纹因子提取模型对说话人的区分能力最大化，以及对内容因子提取模型进行预先训练，以使所述内容因子提取模型对音素的区分能力最大化。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

其中，所述处理器，存储器通过所述总线完成相互间的通信；

所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述方法。

由上述技术方案可知，本发明实施例的声纹谱提取方法及装置，通过获取样本语音信号，将所述样本语音信号转换成log域频谱，基于所述log域频谱，利用预先训练的声纹因子提取模型提取每一帧样本语音信号的声纹因子，以及利用预先训练的内容因子提取模型提取每一帧样本语音信号的内容因子，基于所提取的内容因子和声纹因子，训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将声纹因子重构成声纹谱的声纹谱重构模型，将所述内容谱重构模型丢弃，将目标语音信号输入所述声纹谱重构模型，获得所述目标语音信号中的声纹谱，由此，能够实现从语音信号中精确的提取声纹谱，进而使后续可以根据所提取的声纹谱清晰观察到说话人特性，以帮助提高司法鉴定及身份识别等领域中声纹验证的准确度。

附图说明

图1为本发明一实施例提供的一种声纹谱提取方法的流程示意图；

图2为本发明一实施例提供的一种声纹谱提取装置的结构示意图；

图3为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例，都属于本发明保护的范围。

图1示出了本发明一实施例提供的声纹谱提取方法的流程示意图，如图1所示，本实施例的声纹谱提取方法如下所述。

101、获取样本语音信号，将所述样本语音信号x(t)转换成log域频谱log(x(t))。

在具体应用中，举例来说，所述步骤101可以将所述样本语音信号x(t)进行傅立叶变换，获得所述样本语音信号的log域频谱log(x(t))。

102、基于所述log域频谱log(x(t))，利用预先训练的声纹因子提取模型，提取每一帧样本语音信号的声纹因子s(t)，以及利用预先训练的内容因子提取模型，提取每一帧样本语音信号的内容因子v(t)。

可以理解的是，本实施例中，每一帧样本语音信号包含两类因子：内容因子v(t)和声纹因子s(t)(即说话人因子)。其中，内容因子v(t)和说话内容相关，声纹因子s(t)和说话人特征相关。

在具体应用中，所述声纹因子提取模型可用函数g来表示，所述步骤102可通过声纹因子提取模型，提取每一帧样本语音信号的声纹因子s(t)，所述声纹因子提取模型为：

s(t)＝g(log(x(t)))(1)。

在具体应用中，所述内容因子提取模型可用函数f来表示，所述步骤102可通过内容因子提取模型，提取每一帧样本语音信号的内容因子v(t)，所述内容因子提取模型为：

v(t)＝f(log(x(t)))(2)。

在具体应用中，在所述步骤102之前，还可以包括：

可以理解的是，所述声纹因子提取模型是基于深度神经网络和使声纹因子提取模型对说话人的区分能力最大化准则来训练实现的，使声纹因子提取模型对说话人的区分能力最大化准则可以有多种，举例来说，可以基于fisher准则，对声纹因子提取模型进行预先训练，以使所述声纹因子提取模型对说话人的区分能力最大化；

或者，也可以基于交叉熵，对声纹因子提取模型进行预先训练，以使所述声纹因子提取模型对说话人的区分能力最大化，即声纹因子提取模型g采用说话人作为区分学习对象，用模型预结果和实际说话人标记的交叉熵作为训练的目标函数。

可以理解的是，所述内容因子提取模型是基于深度神经网络和使内容因子提取模型对音素的区分能力最大化准则来训练实现的，使内容因子提取模型对音素的区分能力最大化准则可以有多种，举例来说，可以基于fisher准则，对内容因子提取模型进行预先训练，以使所述内容因子提取模型对音素的区分能力最大化；

或者，也可以基于交叉熵，对内容因子提取模型进行预先训练，以使所述内容因子提取模型对音素的区分能力最大化，即内容因子提取模型f可采用音素作为区分学习的对象，用模型预结果和实际音素标记的交叉熵作为训练的目标函数。

103、基于所提取的内容因子v(t)和声纹因子s(t)，训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将声纹因子s(t)重构成声纹谱s(t)的声纹谱重构模型。

可以理解的是，所述声纹谱重构模型可用函数g来表示，所述声纹谱重构模型是基于深度神经网络来训练实现的，所述声纹谱重构模型为：

s(t)＝g(s(t))＝g(g(log(x(t))))(3)。

可以理解的是，所述内容谱重构模型可用函数f来表示，所述内容谱重构模型是基于深度神经网络来训练实现的，所述内容谱重构模型为：

v(t)＝f(v(t))＝f(f(log(x(t))))(4)。

需要说明的是，所述步骤103训练时的目标是使重构后的log域频谱与重构前的原log域频谱尽可能相近，在训练时可以通过对下述公式(5)进行优化，进而得到优化的f和g；

l(f,g)＝∑td(v(t)+s(t),log(x(t)))(5)

式中：d为距离度量函数，l为训练目标函数。

在具体应用中，d对距离的度量可以采用平方误差。

104、将所述内容谱重构模型丢弃，将目标语音信号输入所述声纹谱重构模型，获得所述目标语音信号中的声纹谱。

可以理解的是，所述步骤104是将所述内容谱重构模型丢弃后用x(t)作为目标语音信号，代入上述公式(3)，得到所述目标语音信号中的声纹谱s(t)。

本实施例的声纹谱提取方法，通过获取样本语音信号，将所述样本语音信号转换成log域频谱，基于所述log域频谱，利用预先训练的声纹因子提取模型提取每一帧样本语音信号的声纹因子，以及利用预先训练的内容因子提取模型提取每一帧样本语音信号的内容因子，基于所提取的内容因子和声纹因子，训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将声纹因子重构成声纹谱的声纹谱重构模型，将所述内容谱重构模型丢弃，将目标语音信号输入所述声纹谱重构模型，获得所述目标语音信号中的声纹谱，由此，能够实现从语音信号中精确的提取声纹谱，进而使后续可以根据所提取的声纹谱清晰观察到说话人特性，以帮助提高司法鉴定及身份识别等领域中声纹验证的准确度。

图2示出了本发明一实施例提供的一种声纹谱提取装置的结构示意图，如图2所示，本实施例的声纹谱提取装置，包括：转换模块21、第一提取模块22、第一训练模块23和第二提取模块24；其中：

转换模块21，用于获取样本语音信号，将所述样本语音信号转换成log域频谱；

第一提取模块22，用于基于所述log域频谱，利用预先训练的声纹因子提取模型，提取每一帧样本语音信号的声纹因子，以及利用预先训练的内容因子提取模型，提取每一帧样本语音信号的内容因子；

第一训练模块23，用于基于所提取的内容因子和声纹因子，训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将声纹因子重构成声纹谱的声纹谱重构模型；

第二提取模块24，用于将所述内容谱重构模型丢弃，将目标语音信号输入所述声纹谱重构模型，获得所述目标语音信号中的声纹谱。

在具体应用中，举例来说，所述转换模块21可以将所述样本语音信号x(t)进行傅立叶变换，获得所述样本语音信号的log域频谱log(x(t))。

在具体应用中，所述声纹因子提取模型可用函数g来表示，所述第一提取模块22可通过声纹因子提取模型，提取每一帧样本语音信号的声纹因子s(t)，所述声纹因子提取模型为：

s(t)＝g(log(x(t)))(1)。

在具体应用中，所述内容因子提取模型可用函数f来表示，所述第一提取模块22可通过内容因子提取模型，提取每一帧样本语音信号的内容因子v(t)，所述内容因子提取模型为：

v(t)＝f(log(x(t)))(2)。

在具体应用中，本实施例所述装置还可以包括图中未示出的：

可以理解的是，所述声纹因子提取模型是基于深度神经网络和使声纹因子提取模型对说话人的区分能力最大化准则来训练实现的，其中，使声纹因子提取模型对说话人的区分能力最大化准则可以有多种，举例来说，所述第二训练模块可以基于fisher准则，对声纹因子提取模型进行预先训练，以使所述声纹因子提取模型对说话人的区分能力最大化；

或者，所述第二训练模块也可以基于交叉熵，对声纹因子提取模型进行预先训练，以使所述声纹因子提取模型对说话人的区分能力最大化，即声纹因子提取模型g采用说话人作为区分学习对象，用模型预结果和实际说话人标记的交叉熵作为训练的目标函数。

可以理解的是，所述内容因子提取模型是基于深度神经网络和使内容因子提取模型对音素的区分能力最大化准则来训练实现的，使内容因子提取模型对音素的区分能力最大化准则可以有多种，举例来说，所述第二训练模块可以基于fisher准则，对内容因子提取模型进行预先训练，以使所述内容因子提取模型对音素的区分能力最大化；

或者，所述第二训练模块也可以基于交叉熵，对内容因子提取模型进行预先训练，以使所述内容因子提取模型对音素的区分能力最大化，即内容因子提取模型f可采用音素作为区分学习的对象，用模型预结果和实际音素标记的交叉熵作为训练的目标函数。

可以理解的是，本实施例所述声纹谱重构模型可用函数g来表示，所述声纹谱重构模型是基于深度神经网络来训练实现的，所述声纹谱重构模型为：

s(t)＝g(s(t))＝g(g(log(x(t))))(3)。

可以理解的是，所述内容谱重构模型可用函数f来表示，所述内容谱重构模型是基于深度神经网络来训练实现的，所述内容谱重构模型为：

v(t)＝f(v(t))＝f(f(log(x(t))))(4)。

需要说明的是，所述第一训练模块22训练时的目标是使重构后的log域频谱与重构前的原log域频谱尽可能相近，在训练时可以通过对下述公式(5)进行优化，进而得到优化的f和g；

l(f,g)＝∑td(v(t)+s(t),log(x(t)))(5)

式中：d为距离度量函数，l为训练目标函数。

在具体应用中，d对距离的度量可以采用平方误差。

可以理解的是，所述第二提取模块24是将所述内容谱重构模型丢弃后用x(t)作为目标语音信号，代入上述公式(2)，得到所述目标语音信号中的声纹谱s(t)。

本实施例的声纹谱提取装置，通过转换模块获取样本语音信号，将所述样本语音信号转换成log域频谱，第一提取模块基于所述log域频谱，利用预先训练的声纹因子提取模型提取每一帧样本语音信号的声纹因子，利用预先训练的内容因子提取模型提取每一帧样本语音信号的内容因子，第一训练模块基于所提取的内容因子和声纹因子，训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将声纹因子重构成声纹谱的声纹谱重构模型，第二提取模块将所述内容谱重构模型丢弃，将目标语音信号输入所述声纹谱重构模型，获得所述目标语音信号中的声纹谱，由此，能够实现从语音信号中精确的提取声纹谱，进而使后续可以根据所提取的声纹谱清晰观察到说话人特性，以帮助提高司法鉴定及身份识别等领域中声纹验证的准确度。

本实施例的声纹谱提取装置，可以用于执行前述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图3示出了本发明实施例提供的一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器11、存储器12、总线13及存储在存储器12上并可在处理器11上运行的计算机程序；

其中，所述处理器11，存储器12通过所述总线13完成相互间的通信；

所述处理器11执行所述计算机程序时实现上述各方法实施例所提供的方法，例如包括：获取样本语音信号，将所述样本语音信号转换成log域频谱；基于所述log域频谱，利用预先训练的声纹因子提取模型，提取每一帧样本语音信号的声纹因子，以及利用预先训练的内容因子提取模型，提取每一帧样本语音信号的内容因子；基于所提取的内容因子和声纹因子，训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将声纹因子重构成声纹谱的声纹谱重构模型；将所述内容谱重构模型丢弃，将目标语音信号输入所述声纹谱重构模型，获得所述目标语音信号中的声纹谱。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例所提供的方法，例如包括：获取样本语音信号，将所述样本语音信号转换成log域频谱；基于所述log域频谱，利用预先训练的声纹因子提取模型，提取每一帧样本语音信号的声纹因子，以及利用预先训练的内容因子提取模型，提取每一帧样本语音信号的内容因子；基于所提取的内容因子和声纹因子，训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将声纹因子重构成声纹谱的声纹谱重构模型；将所述内容谱重构模型丢弃，将目标语音信号输入所述声纹谱重构模型，获得所述目标语音信号中的声纹谱。

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置/系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王东;李蓝天
技术所有人：清华大学;北京孚睿星辰智能科技有限责任公司
我是此专利的发明人

上一篇：一种基于语音识别引擎的AR界面交互方法及系统与流程
上一篇：一种根据语音生成业务单据的方法及装置与流程