一种基于语音降噪的声纹识别方法和相关装置与流程

文档序号：20621372发布日期：2020-05-06 20:52阅读：336来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本申请涉及声纹识别技术领域，尤其涉及一种基于语音降噪的声纹识别方法和相关装置。

背景技术：

声纹识别是指通过未知说话人或不确定说话人的语音声学特征与已知说话人的语音声学特征进行综合分析比对，做出两者是否同一的结论的过程。现有的声纹识别方法中由于采集的待识别语音中通常包含有环境噪声或信道噪声，使得声纹识别效果不佳。

技术实现要素：

本申请提供了一种基于语音降噪的声纹识别方法和相关装置，用于解决现有的声纹识别方法对于含有噪声的待识别语音存在识别效果不佳的技术问题。

有鉴于此，本申请第一方面提供了一种基于语音降噪的声纹识别方法，包括：

获取待识别语音；

对所述待识别语音进行去噪处理；

提取去噪后的所述待识别语音的第一语谱图；

将所述第一语谱图输入到预置卷积神经网络模型，得到所述待识别语音的声纹识别结果。

优选地，所述将所述第一语谱图输入到预置卷积神经网络模型，得到所述待识别语音的声纹识别结果，之前还包括：

获取训练样本语音；

对所述训练样本语音进行去噪处理；

提取去噪后的所述训练样本语音的第二语谱图；

将所述第二语谱图输入到卷积神经网络模型中进行训练；

计算所述卷积神经网络模型对所述训练样本语音的识别率，当所述识别率达到阈值时，得到训练好的所述卷积神经网络模型，将训练好的所述卷积神经网络模型作为所述预置卷积神经网络模型。

优选地，所述对所述待识别语音进行去噪处理，包括：

基于经验模态分解和小波阈值相结合的方法对所述待识别语音进行去噪处理。

优选地，所述基于经验模态分解和小波阈值相结合的方法对所述待识别语音进行去噪处理，包括：

基于经验模态分解对所述待识别语音进行自适应分解，得到若干个本征模函数分量；

基于小波阈值对所述本征模函数分量中的高频本征模函数分量进行去噪处理；

将去噪后的所述高频本征模函数分量和非高频本征模函数分量进行相加重构，得到去噪后的所述待识别语音。

本申请第二方面提供了一种基于语音降噪的声纹识别装置，包括：

第一获取模块，用于获取待识别语音；

第一去噪模块，用于对所述待识别语音进行去噪处理；

第一提取模块，用于提取去噪后的所述待识别语音的第一语谱图；

识别模块，用于将所述第一语谱图输入到预置卷积神经网络模型，得到所述待识别语音的声纹识别结果。

优选地，还包括：

第二获取模块，用于获取训练样本语音；

第二去噪模块，用于对所述训练样本语音进行去噪处理；

第二提取模块，用于提取去噪后的所述训练样本语音的第二语谱图；

训练模块，用于将所述第二语谱图输入到卷积神经网络模型中进行训练；

计算模块，用于计算所述卷积神经网络模型对所述训练样本语音的识别率，当所述识别率达到阈值时，得到训练好的所述卷积神经网络模型，将训练好的所述卷积神经网络模型作为所述预置卷积神经网络模型。

优选地，所述第一去噪模块包括：

分解子模块，用于基于经验模态分解对所述待识别语音进行自适应分解，得到若干个本征模函数分量；

去噪子模块，用于基于小波阈值对所述本征模函数分量中的高频本征模函数分量进行去噪处理；

重构子模块，用于将去噪后的所述高频本征模函数分量和非高频本征模函数分量进行相加重构，得到去噪后的所述待识别语音。

本申请第三方面提供了一种基于语音降噪的声纹识别设备，所述设备包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的基于语音降噪的声纹识别方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面任一种所述的声基于语音降噪的声纹识别方法。

本申请第五方面提供了一种包括指令的计算机程序产品，其特征在于，当其在计算机上运行时，使得所述计算机执行第一方面任一种所述的基于语音降噪的声纹识别方法。

从以上技术方案可以看出，本申请具有以下优点：

本申请提供了一种基于语音降噪的声纹识别方法，包括：获取待识别语音；对待识别语音进行去噪处理；提取去噪后的待识别语音的第一语谱图；将第一语谱图输入到预置卷积神经网络模型，得到待识别语音的声纹识别结果。本申请中的基于语音降噪的声纹识别方法，通过对获取的待识别语音进行去噪处理，得到去噪后的待识别语音，基于去噪后的待识别语音进行声纹识别，有助于提高声纹识别结果，从而解决了现有的声纹识别方法对于含有噪声的待识别语音存在鉴别效果不佳的技术问题。

附图说明

图1为本申请提供的一种基于语音降噪的声纹识别方法的一个实施例的流程示意图；

图2为本申请提供的一种基于语音降噪的声纹识别方法的另一个实施例的流程示意图；

图3为本申请提供的一种基于语音降噪的声纹识别装置的一个实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的一种基于语音降噪的声纹识别方法的一个实施例，包括：

步骤101、获取待识别语音。

需要说明的是，可以通过语音录制设备获得待识别语音。

步骤102、对待识别语音进行去噪处理。

需要说明的是，可以采用小波变换、小波阈值或基于听觉模型对待识别语音进行去噪处理，在此不做具体的限定。

步骤103、提取去噪后的待识别语音的第一语谱图。

需要说明的是，可以通过语谱图仪获取待识别语音的第一语谱图。

步骤104、将第一语谱图输入到预置卷积神经网络模型，得到待识别语音的声纹识别结果。

需要说明的是，将第一语谱图输入到预置卷积神经网络模型中进行特征提取和分类识别，得到待识别语音的声纹识别结果。

本申请实施例中的基于语音降噪的声纹识别方法，通过对获取的待识别语音进行去噪处理，得到去噪后的待识别语音，基于去噪后的待识别语音进行声纹识别，有助于提高声纹识别结果，从而解决了现有的声纹识别方法对于含有噪声的待识别语音存在鉴别效果不佳的技术问题。

为了便于理解，请参阅图2，本申请提供的一种基于语音降噪的声纹识别方法的另一个实施例，包括：

步骤201、获取训练样本语音。

需要说明的是，可以在声纹识别数据库中获取训练样本语音。

步骤202、对训练样本语音进行去噪处理。

需要说明的是，本申请实施例中优选采用经验模态分解和小波阈值相结合的方法对训练样本语音进行去噪处理，具体过程为：首先，采用经验模态分解方法对训练样本语音进行自适应分解，得到若干个本征模函数分量，其中，若干个本征模函数分量中包括训练样本语音信号和噪声；其次，对本征模函数分量进行分析，从而确定含有噪声的高频本征模函数分量，采用小波阈值法对高频本征模函数分量进行去噪处理；最后，将去噪后的高频本征模函数分量和剩余的非高频本征模函数分量相加重构出初始的训练样本语音，从而得到去噪后的训练样本语音。

步骤203、提取去噪后的训练样本语音的第二语谱图。

需要说明的是，可以通过语谱图仪获取训练样本语音的第一语谱图。

步骤204、将第二语谱图输入到卷积神经网络模型中进行训练。

需要说明的是，通过卷积神经网络模型提取第二语谱图中声纹特征，并根据提取的声纹特征进行分类训练。

步骤205、计算卷积神经网络模型对训练样本语音的识别率，当识别率达到阈值时，得到训练好的卷积神经网络模型，将训练好的卷积神经网络模型作为预置卷积神经网络模型。

需要说明的是，识别率根据正确识别的第二语谱图数和第二语谱图的总数量的比值得到，当识别率达到阈值时，停止训练，得到训练好的卷积神经网络模型，将训练好的卷积神经网络模型作为预置卷积神经网络模型，其中，卷积神经网络模型可以是残差网络、深度全序列卷积神经网络等。

步骤206、获取待识别语音。

需要说明的是，可以通过语音录制设备获得待识别语音。

步骤207、对待识别语音进行去噪处理。

需要说明的是，优选基于经验模态分解和小波阈值相结合的方法对待识别语音进行去噪处理，具体过程为：首先，采用经验模态分解方法对待识别语音进行自适应分解，得到若干个本征模函数分量，其中，若干个本征模函数分量中包括待识别语音信号和噪声；其次，对本征模函数分量进行分析，从而确定含有噪声的高频本征模函数分量，采用小波阈值法对高频本征模函数分量进行去噪处理；最后，将去噪后的高频本征模函数分量和剩余的非高频本征模函数分量相加重构出初始的待识别语音，从而得到去噪后的待识别语音。

步骤208、提取去噪后的待识别语音的第一语谱图。

需要说明的是，可以通过语谱图仪获取待识别语音的第一语谱图。

步骤209、将第一语谱图输入到预置卷积神经网络模型，得到待识别语音的声纹识别结果。

需要说明的是，将第一语谱图输入到预置卷积神经网络模型中进行特征提取和分类识别，得到待识别语音的声纹识别结果。本申请实施例中的基于语音降噪的声纹识别方法，通过卷积神经网络模型进行特征提取和分类识别，利用卷积神经网络模型端到端的学习能力，可以提高声纹识别准确率和识别速度；通过对获取的待识别语音进行去噪处理，得到去噪后的待识别语音，基于去噪后的待识别语音进行声纹识别，有助于进一步提高声纹识别结果，从而解决了现有的声纹识别方法对于含有噪声的待识别语音存在鉴别效果不佳的技术问题。

为了便于理解，请参阅图3，本申请提供的一种基于语音降噪的声纹识别装置的一个实施例，包括：

第一获取模块301，用于获取待识别语音。

第一去噪模块302，用于对待识别语音进行去噪处理。

第一提取模块303，用于提取去噪后的待识别语音的第一语谱图。

识别模块304，用于将第一语谱图输入到预置卷积神经网络模型，得到待识别语音的声纹识别结果。

进一步地，还包括：

第二获取模块305，用于获取训练样本语音。

第二去噪模块306，用于对训练样本语音进行去噪处理。

第二提取模块307，用于提取去噪后的训练样本语音的第二语谱图。

训练模块308，用于将第二语谱图输入到卷积神经网络模型中进行训练。

计算模块309，用于计算卷积神经网络模型对训练样本语音的识别率，当识别率达到阈值时，得到训练好的卷积神经网络模型，将训练好的卷积神经网络模型作为预置卷积神经网络模型。

进一步地，第一去噪模块302包括：

分解子模块3021，用于基于经验模态分解对待识别语音进行自适应分解，得到若干个本征模函数分量。

去噪子模块3022，用于基于小波阈值对所述本征模函数分量中的高频本征模函数分量进行去噪处理。

重构子模块3023，用于将去噪后的高频本征模函数分量和非高频本征模函数分量进行相加重构，得到去噪后的待识别语音。

本申请提供了一种基于语音降噪的声纹识别设备的一个实施例，设备包括处理器以及存储器；

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行前述基于语音降噪的声纹识别方法实施例中的基于语音降噪的声纹识别方法。

本申请提供了一种计算机可读存储介质的一个实施例，计算机可读存储介质用于存储程序代码，程序代码用于执行前述基于语音降噪的声纹识别方法实施例中的声基于语音降噪的声纹识别方法。

本申请还提供了一种包括指令的计算机程序产品的一个实施例，当其在计算机上运行时，使得计算机执行前述基于语音降噪的声纹识别方法实施例中的基于语音降噪的声纹识别方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(英文全称：read-onlymemory，英文缩写：rom)、随机存取存储器(英文全称：randomaccessmemory，英文缩写：ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈昊亮;罗伟航
技术所有人：广州国音智能科技有限公司
我是此专利的发明人