一种基于小波变换的分布声纹识别方法和装置与流程

文档序号：12806161阅读：467来源：国知局

本发明语音识别领域，尤其涉及一种基于小波变换的分布声纹识别方法和装置。

背景技术：

语音信号本质上是一种非平稳信号，小波变换不受短时平稳约束，可有效提取动态声纹特征。声纹作为生物特征多应用于身份识别，要求快速实时的完成认证，但目前算法识别的速度尚无法满足业务需求。例如，现有基于小波变换的声纹识别中，全信息匹配导致计算复杂度高，识别效率低，从而导致当声纹库大时，响应时间慢，不足以满足业务需求降低定位精度。

技术实现要素：

本发明要解决的技术问题是现有基于小波变换的声纹识别中，全信息匹配导致计算复杂度高，识别效率低。

根据本发明一方面，提出一种基于小波变换的分布声纹识别方法，包括：对预识别语音信号进行小波变换，以提取预识别语音信号的分层特征参数，分层特征参数包括低频特征参数和高频特征参数；判断低频特征参数是否与测试语音库中的低频信号相匹配；若低频特征参数与测试语音库中的低频信号相匹配，则将高频特征参数与测试语音库中的高频信号进行精确匹配识别。

进一步地，若低频特征参数与测试语音库中的低频信号不相匹配，则不再进行精确匹配识别。

进一步地，对预识别语音信号进行小波变换，以提取语音信号的分层特征参数的步骤包括：对预识别语音信号进行多层小波包分解；对分解后的低频信号进行线性预测倒谱系数lpcc提取，对分解后的高频信号提取平均信息量，从而获得分层特征参数。

进一步地，还包括：将各语音信号的低频特征参数和高频特征参数合并为矩阵作为训练和识别的语音特征参数，并保存在测试语音库中。

进一步地，对预识别语音信号进行小波变换的步骤之前还包括：对预识别语音信号进行预处理，预处理包括对预识别语音信号进行加窗、端点检测和预加重处理。

根据本发明的另一方面，还提出一种基于小波变换的分布声纹识别装置，包括：分层特征参数提取单元，用于对预识别语音信号进行小波变换，以提取预识别语音信号的分层特征参数，分层特征参数包括低频特征参数和高频特征参数；低频匹配判断单元，用于判断低频特征参数是否与测试语音库中的低频信号相匹配；高频精确匹配单元，用于若低频特征参数与测试语音库中的低频信号相匹配，则将高频特征参数与测试语音库中的高频信号进行精确匹配识别。

进一步地，高频精确匹配单元用于若低频特征参数与测试语音库中的低频信号不相匹配，则不再进行精确匹配识别。

进一步地，分层特征参数提取单元用于对预识别语音信号进行多层小波包分解；对分解后的低频信号进行线性预测倒谱系数lpcc提取，对分解后的高频信号提取平均信息量，从而获得分层特征参数。

进一步地，测试语音库中保存有各语音信号的低频特征参数和高频特征参数合并为矩阵作为训练和识别的语音特征参数。

进一步地，还包括：信号预处理单元，用于对预识别语音信号进行预处理，预处理包括对预识别语音信号进行加窗、端点检测和预加重处理。

与现有技术相比，本发明对预识别语音信号进行小波变换，以提取预识别语音信号的分层特征参数，判断低频特征参数是否与测试语音库中的低频信号相匹配；若低频特征参数与测试语音库中的低频信号相匹配，则将高频特征参数与测试语音库中的高频信号进行精确匹配识别。由于采用分步识别，先识别计算量小的低频信号部分，快速剔除不匹配的特征模板；若低频特征相符，再针对整体声纹特征开展精确匹配识别，在保证精度的同时提升识别效率。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同说明书一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明基于小波变换的分布声纹识别方法的一个实施例的流程示意图。

图2为本发明基于小波变换的分布声纹识别方法的另一个实施例的流程示意图。

图3为本发明基于小波变换的分布声纹识别装置的一个实施例的结构示意图。

图4为本发明基于小波变换的分布声纹识别装置的另一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1为本发明基于小波变换的分布声纹识别方法的一个实施例的流程示意图。该方法包括以下步骤：

在步骤110，对预识别语音信号进行小波变换，以提取预识别语音信号的分层特征参数。

任何一个语音信号都可以通过小波变换分解成低频“粗画像”和高频“细画像”。例如，根据著名mallat塔式重构算法的思想，任何函数f∈l²(r)都可以根据分辨率为2^-n时f的低频部分(“粗糙像”)和分辨率2^-j(1≤j≤n)下f的高频部分(“细节”部分)完全重构。其中n为预设值，例如可以为5，本领域的技术人员应当理解，n为5只是用于举例，可以根据实际情况设置n的值。本发明的分层特征参数包括低频特征参数和高频特征参数。分辨率为2-ⁿ的特征参数为低频特征参数，分辨率为2^-j(1≤j≤n)的特征参数为高频特征参数。

在步骤120，判断低频特征参数是否与测试语音库中的低频信号相匹配。若相匹配，则执行步骤130，否则，执行步骤140。

其中，可以预先将各语音信号的低频特征参数和高频特征参数合并为矩阵作为训练和识别的语音特征参数，并保存在测试语音库中。例如，先将多人的语音信号保存在测试语音库中，其中每个人的语音信号包含低频信号和高频信号。

在步骤130，将高频特征参数与测试语音库中的高频信号进行精确匹配识别。

在步骤140，不再进行精确匹配识别。

其中，可以根据现有技术中矢量量化vq模型或者高斯混合模型gmm进行特征参数的匹配，此处不再做进一步介绍。

在该实施例中，对预识别语音信号进行小波变换，以提取预识别语音信号的分层特征参数，判断低频特征参数是否与测试语音库中的低频信号相匹配；若低频特征参数与测试语音库中的低频信号相匹配，则将高频特征参数与测试语音库中的高频信号进行精确匹配识别。由于采用分步识别，先识别计算量小的低频信号部分，快速剔除不匹配的特征模板；若低频特征相符，再针对整体声纹特征开展精确匹配识别，在保证精度的同时提升识别效率。

图2为本发明基于小波变换的分布声纹识别方法的另一个实施例的流程示意图。该方法包括以下步骤：

在步骤210，获取预识别的语音信号。

在步骤220，对预识别的语音信号进行采样、量化、加窗、端点检测和预加重等预处理。

其中，分帧加窗操作中所加的窗函数为汉明窗；端点检测可以采用基于短时能量和短时过零率法相结合的端点检测法；预加重的加重系数的范围为0.90～1.00。

在步骤230，对经过预处理的预识别的语音信号进行多层小波包分解。

其中，可以按照mallat算法对语音信号进行多层小波包分解。

在步骤240，对分解后的低频信号进行lpcc(linearpredictioncepstrumcoefficient，线性预测倒谱系数)提取，对分解后的高频信号提取平均信息量，获得经过预处理的预识别的语音信号的分层特征参数。

例如，对低频部分的概貌信号，进行m阶lpcc的提取。其中lpcc的提取，可以按照如下进行：在语音信号的线性预测模型中，声道的传递函数为两边取对数，然后对z^-i做傅里叶展开，得其中，p为预测器系数，ai为数字滤波器系数，clp即为所求的lpcc系数。

对高频部分的细节信号，提取平均信息量，即熵h(s)。其中熵的求解，可以按照如下进行：先将该尺度下的小波系数空间聚成i类，然后求出各类所占的概率pi,，通过计算熵h(s)。

在步骤250，判断低频特征参数是否与测试语音库中的低频信号相匹配。若相匹配，则执行步骤260，否则，执行步骤280。

在步骤260，判断高频特征参数是否与测试语音库中的高频信号相匹配。若相匹配，则执行步骤270，否则，执行步骤290。

在步骤270，声纹验证成功，并反馈结果。

在步骤280，声纹验证不成功，不再进行精确匹配识别。

在步骤290，声纹验证不成功，并反馈结果。

在该实施例中，利用小波包分析技术可有效提取声纹动态特征，同时提取速度更高。分步的声纹识别仅通过计算量小的低频信号识别可快速剔除大多数与测试语音不匹配的参考模板。因此，本发明采用的方法更安全，声纹识别精度更高。

图3为本发明基于小波变换的分布声纹识别装置的一个实施例的结构示意图。该装置包括分层特征参数提取单元310、低频匹配判断单元320和高频精确匹配单元330。

分层特征参数提取单元310用于对预识别语音信号进行小波变换，以提取预识别语音信号的分层特征参数。

任何一个语音信号都可以通过小波变换分解成低频“粗画像”，高频“细画像”。例如，根据著名mallat塔式重构算法的思想，任何函数f∈l²(r)都可以根据分辨率为2^-n时f的低频部分(“粗糙像”)和分辨率2^-j(1≤j≤n)下f的高频部分(“细节”部分)完全重构。其中n为预设值，例如可以为5，本领域的技术人员应当理解，n为5只是用于举例，可以根据实际情况设置n的值。本发明的分层特征参数包括低频特征参数和高频特征参数。分辨率为2^-n的特征参数为低频特征参数，分辨率为2^-j(1≤j≤n)的特征参数为高频特征参数。

低频匹配判断单元320用于判断低频特征参数是否与测试语音库中的低频信号相匹配。

高频精确匹配单元330用于将高频特征参数与测试语音库中的高频信号进行精确匹配识别。若低频特征参数与测试语音库中的低频信号不相匹配，则高频精确匹配单元330不再进行精确匹配识别。

其中，可以根据现有技术中矢量量化vq模型或者高斯混合模型gmm进行特征参数的匹配。此处不再做进一步介绍。

图4为本发明基于小波变换的分布声纹识别装置的另一个实施例的结构示意图。该系统包括信号预处理单元410、分层特征参数提取单元420、低频匹配判断单元430和高频精确匹配单元440。

信号预处理单元410用于对预识别的语音信号进行采样、量化、加窗、端点检测和预加重等预处理。

分层特征参数提取单元420用于对经过预处理的预识别的语音信号进行多层小波包分解，并对分解后的低频信号进行lpcc提取，对分解后的高频信号提取平均信息量，获得经过预处理的预识别的语音信号的分层特征参数。

其中，可以按照mallat算法对语音信号进行多层小波包分解。对低频部分的概貌信号，进行m阶lpcc的提取。其中lpcc的提取，可以按照如下进行：在语音信号的线性预测模型中，声道的传递函数为两边取对数，然后对z^-i做傅里叶展开，得其中，p为预测器系数，ai为数字滤波器系数，clp即为所求的lpcc系数。

低频匹配判断单元430用于判断低频特征参数是否与测试语音库中的低频信号相匹配。

高频精确匹配单元430用于将高频特征参数与测试语音库中的高频信号进行精确匹配识别。若低频特征参数与测试语音库中的低频信号不相匹配，则高频精确匹配单元430不再进行精确匹配识别。

声纹识别已经应用在手机解锁场景，预计不久的将来会应用在移动支付中。在移动支付场景中,采用动态数字口令+声纹识别的方法可以有效的规避密码被人窥视、泄露等不安全问题。但因为声纹识别处理相对原有的密码短时间里需处理的流量较大，会延缓识别的速度，带来不好的用户体验。因此在此过程中，使用本发明高低频声纹识别算法，能有效提升识别速率，从而提升用户体验。

至此，已经详细描述了本发明。为了避免遮蔽本发明的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本发明的方法以及装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵静;陈新河;李慧芳
技术所有人：中国电信股份有限公司
我是此专利的发明人

上一篇：夜光羽毛球的制作方法与工艺
上一篇：一种温度检测光纤汇聚箱的制作方法与工艺