一种基于声纹识别的智能锁及其语音识别方法和系统与流程

文档序号：11213901阅读：1387来源：国知局

本发明涉及信号处理技术领域，特别涉及一种基于声纹识别的智能锁的语音识别方法。本发明还涉及一种基于声纹识别的智能锁的语音识别系统。本发明还涉及一种包括上述语音识别系统的基于声纹识别的智能锁。

背景技术：

随着入室盗窃事件时常发生，如何升级家居门锁，确保室内的安全，是人们不得不应对的新挑战。

目前，市面上传统的家居门锁基本采用钥匙解锁、密码解锁，由于钥匙易丢失、易复制、特征性不强等特点，同样的，密码解锁存在易遗忘密码，密码易泄露的缺点，容易造成资源浪费的同时给用户带来安全隐患。另外，现有采用其他生物认证技术的智能化设备如指纹识别，虹膜识别等，成本高，具有接触性的不便性、不卫生，例如指纹识别需要将手指放在传感器上、虹膜识别需要将眼睛凑近摄像头，不能提供很好的用户体验且给用户造成经济负担。

在现有技术中，已经出现了基于声纹识别的智能门锁。声纹锁是基于声音的模式识别，跟指纹锁有异曲同工之用。只要主人说出事先设定的暗语就能把锁打开，别人即使说出暗语也打不开，这种声纹锁辨别声音的主要依据是音色。但是，由于大多数声纹锁对声音的识别和验证往往只采用gmm模型(gaussianmixturemodel，高斯混合模型)方法训练方法，实验表明，只采用gmm说话人识别模型，在训练和测试时的语音上下文内容对识别结果有很大的影响。当非目标说话人的识别语音上下文和目标说话人识别语音上下文较接近的时候，用该语音进行目标说话人测试时，错误接受的概率会大大的提高。

因此，如何提高声纹锁对目标说话人的识别率，降低错误接受概率，保证门锁安全性能，是本领域技术人员亟待解决的技术问题。

技术实现要素：

本发明的目的是提供一种基于声纹识别的智能锁的语音识别方法，能够提高声纹锁对目标说话人的识别率，降低错误接受概率，保证门锁安全性能。本发明的另一目的是提供一种基于声纹识别的智能锁的语音识别系统和一种包括上述语音识别系统的基于声纹识别的智能锁。

为解决上述技术问题，本发明提供一种基于声纹识别的智能锁的语音识别方法，包括：

提取待验证语音信号对应的梅尔倒谱系数；

将所述梅尔倒谱系数作为输入层输入具有预设参数空间的区分深度置信网络，以获得所述区分深度置信网络的隐层输出，并将其作为所述梅尔倒谱系数的特征向量；

将所述特征向量与各个注册语音信号预先构建的高斯混合模型进行对比，并计算所述特征向量分别与各个注册语音信号相匹配的后验概率；

判断各所述后验概率中的最大值是否大于预设阈值，如果是，则待验证语音信号通过验证，并对锁具进行开锁操作；反之则使锁具保持锁定状态。

优选地，在提取待验证语音信号对应的梅尔倒谱系数之前，还包括：

对智能锁的注册人进行注册语音录入，并对输入的各个注册语音信号构建高斯混合模型。

优选地，对输入的各个注册语音信号构建高斯混合模型，具体包括：

提取各个注册语音信号对应的梅尔倒谱系数，并对输入的各个所述注册语音信号进行预设编号绑定；

将各个所述注册语音信号对应的梅尔倒谱系数作为输入层，同时将各个所述注册语音信号绑定的编号作为输出层，进行区分深度置信网络训练，并获得所述区分深度置信网络的参数空间；

将各个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络，以获得所述区分深度置信网络的隐层输出，并将其作为各个所述注册语音信号对应的梅尔倒谱系数的特征向量；

将各所述特征向量作为输入，并以最大期望算法为准构建高斯混合模型。

优选地，提取待验证语音信号或各个注册语音信号对应的梅尔倒谱系数，具体包括：对待验证语音信号或各个注册语音信号依次进行预加重、加汉明窗、通过维纳滤波法进行去噪、进行快速傅里叶变换、通过三角带通滤波器进行滤波和离散余弦转换。

优选地，在将各个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络，以获得所述区分深度置信网络的隐层输出后，还包括：

通过公式：

校核所述区分深度置信网络的隐层输出质量，若d的值大于预设阈值，则隐层输出质量满足预设要求；

其中，d为区分度，li为各注册语音信号对应的特征向量的对应权值，si为矩阵s中的元素，s＝sb-sw，sb为类内离散度矩阵，sw为类间离散度矩阵。

优选地，在提取待验证语音信号对应的梅尔倒谱系数之前，对智能锁的注册人进行注册语音录入之后，还包括：

采集若干个未训练的注音信号；

若当前未训练的语音信号的数量小于预设阈值，则将各未训练的语音信号所对应的梅尔倒谱系数输入所述区分深度置信网络，以修正其参数空间；

若当前未训练的语音信号的数量超过预设阈值，则将各未训练的语音信号所对应的梅尔倒谱系数输入已修正后的区分深度置信网络，以获取对应的修正特征向量，并利用所述修正特征向量对所述高斯混合模型进行修正。

优选地，对所述高斯混合模型进行修正，具体包括：

设各个未训练的语音信号分别对应t个修正特征向量：

且各个修正特征向量分别对应的似然比为：

{k1,k2,k3,...,kt}

则通过公式：

修正高斯混合模型的均值和方差。

本发明还提供一种基于声纹识别的智能锁的语音识别系统，包括：

提取模块，用于待验证语音信号对应的梅尔倒谱系数；

矫正模块，用于将所述梅尔倒谱系数作为输入层输入具有预设参数空间的区分深度置信网络，以获得所述区分深度置信网络的隐层输出，并将其作为所述梅尔倒谱系数的特征向量；

计算模块，用于将所述特征向量与各个注册语音信号预先构建的高斯混合模型进行对比，并计算所述特征向量分别与各个注册语音信号相匹配的后验概率；

验证模块，用于判断各所述后验概率中的最大值是否大于预设阈值，如果是，则待验证语音信号通过验证，并对锁具进行开锁操作；反之则使锁具保持锁定状态。

优选地，还包括：

注册模块，用于对智能锁的注册人进行注册语音录入；

训练模块，用于对输入的各个注册语音信号构建高斯混合模型。

本发明还提供一种基于声纹识别的智能锁，包括声音采集器、锁具和如上述两项中任一项所述的语音识别系统。

本发明所提供的基于声纹识别的智能锁的语音识别方法，主要包括四个步骤，其中，在第一步中，待验证语音信号输入后，首先对其进行预处理，将待验证语音信号所对应的梅尔倒谱系数提取出来；在第二步中，再联合区分深度置信网络对待验证语音信号的梅尔倒谱系数进行深度处理，将该梅尔倒谱系数作为输入层输入到区分深度置信网络中，该区分深度置信网络具有预设参数空间，可以直接获得区分深度置信网络的隐层输出，并且将该隐层输出作为待验证语音信号的梅尔倒谱系数的特征向量；在第三步中，一般在智能锁内储存有预设的若干个注册语音信号，并且为了精确分析各个注册语音信号，各个注册语音信号均预先构建好了高斯混合模型，如此，在本步骤中，将经过预处理和深度处理后的待验证语音信号与各个注册语音信号进行对比，具体的，即将第二步中获得的特征向量与各个注册语音信号对应的高斯混合模型进行对比，在对比过程中可计算出该特征向量与各个注册语音信号相匹配的后验概率；在第四步中，计算出待验证语音信号与各个注册语音信号相匹配的后验概率后，为提高识别速率和质量，可选择各个后验概率中的最大值与预设阈值相比较，若其中的最大值大于(含等于)预设阈值，则说明该后验概率的可信度较高，并且该后验概率所对应的待验证语音信号与其相比较的注册语音信号相匹配的可信度较高，此时，待验证语音信号通过识别验证，可对锁具进行正常开锁操作，反之，则待验证语音信号未通过识别验证，锁具保持锁定状态。综上所述，本发明所提供的语音识别方法，通过对待验证语音信号的预处理，获得其梅尔倒谱系数，再对该梅尔倒谱系数导入区分深度置信网络进行深度处理，获取其特征向量，再将该特征向量与各个注册语音信号对应的高斯混合模型进行对比，计算待验证语音信号的识别概率，相比于现有技术，本发明通过区分深度置信网络对待验证语音信号对应的梅尔倒谱系数进行矫正，改善了现有技术中仅使用高斯混合模型对语音文本的依赖性，提高了声纹锁对目标说话人的识别率，降低错误接受概率，保证门锁安全性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明所提供的一种具体实施方式的流程图；

图2为本发明所提供的一种具体实施方式的模块图；

图3为本发明所提供的一种具体实施方式的结构图；

图4为图3的内部结构示意图。

其中，图2—4中：

提取模块—1，矫正模块—2，计算模块—3，验证模块—4，注册模块—5，训练模块—6，声音采集器—7，按键—8，显示屏—9，语音提示器—10，存储器—11，锁具—12，控制器—13。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的一种具体实施方式的流程图。

在本发明所提供的一种具体实施方式中，基于声纹识别的智能锁的语音识别方法，主要包括四个步骤，分别为：提取待验证语音信号对应的梅尔倒谱系数；将梅尔倒谱系数作为输入层输入具有预设参数空间的区分深度置信网络，以获得区分深度置信网络的隐层输出，并将其作为梅尔倒谱系数的特征向量；将特征向量与各个注册语音信号预先构建的高斯混合模型进行对比，并计算特征向量分别与各个注册语音信号相匹配的后验概率；判断各后验概率中的最大值是否大于预设阈值，如果是，则待验证语音信号通过验证，并对锁具进行开锁操作；反之则使锁具保持锁定状态。

其中，在第一步中，待验证语音信号输入后，首先对其进行预处理，将待验证语音信号所对应的梅尔倒谱系数提取出来。具体的，该本步骤中，对待验证语音信号的预处理具体包括：依次对待验证语音信号进行预加重、加汉明窗、通过维纳滤波法进行去噪、进行快速傅里叶变换、通过三角带通滤波器进行滤波和离散余弦转换操作，之后即可获得梅尔倒谱系数(mel-frequencycepstralcoefficients，mfcc)。

在第二步中，再联合区分深度置信网络对待验证语音信号的梅尔倒谱系数进行深度处理，将该梅尔倒谱系数作为输入层输入到区分深度置信网络中，该区分深度置信网络具有预设参数空间，可以直接获得区分深度置信网络的隐层输出，并且将该隐层输出作为待验证语音信号的梅尔倒谱系数的特征向量。

在第三步中，一般在智能锁内储存有预设的若干个注册语音信号，并且为了精确分析各个注册语音信号，各个注册语音信号均预先构建好了高斯混合模型，如此，在本步骤中，将经过预处理和深度处理后的待验证语音信号与各个注册语音信号进行对比，具体的，即将第二步中获得的特征向量与各个注册语音信号对应的高斯混合模型进行对比，在对比过程中可计算出该特征向量与各个注册语音信号相匹配的后验概率。

在第四步中，计算出待验证语音信号与各个注册语音信号相匹配的后验概率后，为提高识别速率和质量，可选择各个后验概率中的最大值与预设阈值相比较，若其中的最大值大于(含等于)预设阈值，则说明该后验概率的可信度较高，并且该后验概率所对应的待验证语音信号与其相比较的注册语音信号相匹配的可信度较高，此时，待验证语音信号通过识别验证，可对锁具进行正常开锁操作，反之，则待验证语音信号未通过识别验证，锁具保持锁定状态。

综上所述，本实施例所提供的语音识别方法，通过对待验证语音信号的预处理，获得其梅尔倒谱系数，再对该梅尔倒谱系数导入区分深度置信网络进行深度处理，获取其特征向量，再将该特征向量与各个注册语音信号对应的高斯混合模型进行对比，计算待验证语音信号的识别概率，相比于现有技术，本实施例通过区分深度置信网络对待验证语音信号对应的梅尔倒谱系数进行矫正，改善了现有技术中仅使用高斯混合模型对语音文本的依赖性，提高了声纹锁对目标说话人的识别率，降低错误接受概率，保证门锁安全性能。

为方便待验证语音信号与注册语音信号的对比，在进行验证步骤之前，还需首先进行注册步骤。如此，在提取待验证语音对应的梅尔倒谱系数之前，还包括步骤：对智能锁的注册人进行注册语音录入，并对输入的各个注册语音信号构建高斯混合模型。

具体的，注册人(即智能锁的拥有者)可对智能锁按照提示文本说出若干段语音，比如两段对应同一文本的语音等，然后智能锁将其录入并保存，录入之后，首先可按照与待验证识别信号的相同处理方法进行处理，即提取各个注册语音信号对应的梅尔倒谱系数，然后可对各个注册语音信号所对应的梅尔倒谱系数与预设编号进行绑定，以便后续步骤中的辨识和匹配。优选地，该编号可由注册人进行手动输入，若输入的编号已经存在，则智能锁提醒用户重新输入新的编号。

之后，在注册语音信号的编号绑定结束后，可对各个注册语音信号进行深度处理和矫正，以提高信号质量和高清晰辨识度。具体的，可联合区分深度置信网络模式(ddbn，divisiondeepbeliefnetwork，dbn)，将各个注册语音信号所对应的梅尔倒谱系数作为输入层，同时将各个注册语音信号所绑定的编号作为输出层，以此进行区分深度置信网络训练，训练完成后即可获得该区分深度置信网络的参数空间。

接着，在区分深度置信网络训练完成后，即可将各个注册语音信号所对应的梅尔倒谱系数输入到该区分深度置信网络，以获得该区分深度置信网络的隐层输出，同时可将该隐层输出作为各个注册语音信号所对应的梅尔倒谱系数的特征向量。如此，通过区分深度置信网络对各个注册语音信号进行深度处理，对其对应的梅尔倒谱系数进行矫正，提高各个注册语音信号的高清晰度和高辨识度。

最后，即可将各个注册语音信号经过区分深度置信网络矫正后获得的特征向量作为输入，以此构建高斯混合模型，同时，为提高精确性和分析质量，在构建高斯混合模型时，可以最大期望算法为准则进行构建。同时，在高斯混合模型构建完成之后，智能锁还可将高斯混合模型与对应编号进行绑定，并且将训练好的高斯混合模型进行存储。

另外，在验证阶段，计算待验证语音信号与各个注册语音信号相匹配的后验概率时，具体的，可设待验证语音信号对应的梅尔倒谱系数的特征向量为注册语音信号集合数量为n，其中一个注册语音信号n，对应的高斯混合模型为λn，待验证语音信号是注册语音信号n的后验概率为：

其中，p(λn)为第n个注册语音信号输入的先验概率，为在所有语音信号同时输入的条件下特征向量的概率。

最后识别结果由最大后验概率准则给出识别结果，即：

一般的，由于各个语音信号的先验概率都是未知的，可设其相等，即：

另外，对于一个确定的观察特征矢量是一个对所有语音信号都相等的确定的常数。因此，求取最大后验概率的问题转化为求取最大似然度的问题，即：

为了使模型更具备一般性，可采用对数似然比作为判断标准。设选取注册语音信号n*时待验证语音信号取得最大后验概率，对应的高斯混合模型为其他注册语音信号的高斯混合模型为则对数似然比为：

其中，可以是任意选择的一个其他注册语音信号的高斯混合模型，也可以遍历所有的注册语音信号的高斯混合模型。前者只需要求出的对数似然比大于阈值k即可，后者需要所有求出的对数似然比均大于k才能确认待验证语音信号和注册语音信号属同一个人。

进一步的，若对数似然比大于k*，其中k*>k，说明该段语音信号为优质语音信号，将对应的梅尔倒谱系数标注未训练标志，绑定注册人编号和对数似然比，并且，智能锁将待验证语音信号的梅尔倒谱系数进行储存。

另外，考虑到高斯混合模型对训练数据量往往存在较高要求，若数据量不足的话，会大幅影响系统性能和精确度。为此，本实施例在提取待验证语音信号对应的梅尔倒谱系数之前，以及智能锁的注册人进行注册语音录入之后，增设了训练数据量采集步骤。

具体的，在智能锁处于非注册阶段和非验证阶段时，采集注册人的若干个未训练的语音信号，当前未训练的语音信号的数量小于预设阈值，比如小于50个时，可将各个未训练的语音信号所对应的梅尔倒谱系数直接作为训练数据输入区分深度置信网络，对其参数空间进行修正，以提高区分深度置信网络对待验证语音信号和注册语音信号的梅尔倒谱系数的矫正精确度。同时，若采集了足够的未训练的语音信号时，比如超过50个时，可将各个未训练的语音信号所对应的梅尔倒谱系数输入已修正后的区分深度置信网络，以获取各个未训练的语音信号的梅尔倒谱系数所对应的特征向量，同时利用该特征向量对前述已经构建好的高斯混合模型进行修正。

具体的，在对高斯混合模型进行修正时，可设各个未训练的语音信号分别t个修正特征向量：

同时，可各个修正特征向量分别对应的似然比为：

{k1，k2,k3,...,kt}

最后，可通过公式：

对已经构建好的高斯混合模型进行均值和方差修正，其中，li为各个特征向量或修正特征向量所对应的权值。

不仅如此，考虑到无论是待验证语音信号还是注册语音信号，在联合区分深度置信网络进行对应的梅尔倒谱系数矫正时，区分深度置信网络的隐层输出直接影响到特征向量的精确性，为此，本实施例中增设了对区分深度置信网络的隐层输出的质量检测步骤。

具体的，可通过公式：

校核区分深度置信网络的隐层输出质量。

具体的，可以类间距离最大，类内距离最小为衡量标准，定义区分度d。设注册语音信号有k个，以注册语音信号n为例，该注册语音信号拥有特征向量c个，每个特征向量对应的权值为li，则注册语音信号n特征向量的平均权值为：

定义矩阵s＝sb-sw，si为矩阵s中元素，其中，sb为类内离散度矩阵，sw是类间离散度矩阵。如此，d越大，说明隐含层所提取的特征分量质量越好，反之则越小。若d的值大于预设阈值，则说明隐层输出质量满足预设要求。

如图2所示，图2为本发明所提供的一种具体实施方式的模块图。

本实施例还提供一种基于声纹识别的智能锁的语音识别系统，主要包括提取模块1、矫正模块2、计算模块3和验证模块4。其中，提取模块1主要用于待验证语音信号对应的梅尔倒谱系数。矫正模块2主要用于将所述梅尔倒谱系数作为输入层输入具有预设参数空间的区分深度置信网络，以获得所述区分深度置信网络的隐层输出，并将其作为所述梅尔倒谱系数的特征向量。计算模块3主要用于将所述特征向量与各个注册语音信号预先构建的高斯混合模型进行对比，并计算所述特征向量分别与各个注册语音信号相匹配的后验概率。验证模块4主要用于判断各所述后验概率中的最大值是否大于预设阈值，如果是，则待验证语音信号通过验证，并对锁具12进行开锁操作；反之则使锁具12保持锁定状态。

该语音识别系统的语音识别方法与前述相关内容相同，此处不再赘述。

另外，本实施例中还增设了注册模块5和训练模块6。其中，注册模块5主要用于对智能锁的注册人进行注册语音录入，而训练模块6与注册模块5信号连接，主要用于对输入的各个注册语音信号构建高斯混合模型。

如图3和图4所示，图3为本发明所提供的一种具体实施方式的结构图，图4为图3的内部结构示意图。

本实施例还提供一种基于声纹识别的智能锁，主要包括声音采集器7、锁具12、按键8、显示屏9、语音提示器10、存储器11、控制器13和语音识别系统。其中，语音识别系统与上述相关内容相同，此处不再赘述。而声音采集器7主要用于收集语音信号，锁具12可为电磁锁，而按键8主要用于供用户输入数字编号等，显示屏9主要用于为用户提供反馈信息，比如语音文本、编号重新输入等，语音提示器10主要用于为用户提供反馈信息，比如语音文本声音信息等，存储器11主要用于存储注册语音信号或待验证语音信号的梅尔倒谱系数所对应的编号等，控制器13主要用于在识别系统的识别结果的控制下，控制锁具12进行解锁操作或保持锁定操作。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王炜婷;温坤华;朱慧广;陈俊
技术所有人：广东工业大学
我是此专利的发明人