一种手机语音钥匙的制作方法

文档序号：2821698阅读：366来源：国知局

专利名称：一种手机语音钥匙的制作方法
技术领域：
本发明涉及电子领域，尤其涉及数字信号处理领域，特别涉及一种神经网络语音非接触的识别技术的应用，特别是一种手机语音钥匙。
背景技术：
目前，市场上手机的操作系统中仍采用传统的解锁方式，即组合键解锁和密码(PIN码)解锁。操作起来不但程序繁琐，而且还很不安全。譬如遇到手机遗失，密码泄漏等情况时，手机里储存的信息、资料、甚至隐私，就有被泄漏、盗用、甚至被偷窥的危险。

发明内容
本发明所要解决的技术问题是目前的手机解锁主要采用组合键解锁或者密码解锁的技术，这两种方式不仅操作过程繁琐，而且安全性差，在手机丢失或密码被盗用的情况下，手机会被轻易解锁，以至于信息泄漏，甚至隐私被偷窥。
本发明为解决已有技术中的上述技术问题所采用的技术方案是提供一种手机语音钥匙，所述的这种手机语音钥匙由语音接收装置、语音预处理模块、语音钥匙训练模块和解锁模块构成，其中，所述的语音接收装置接收被识别人的语音信号，并把语音信号传送至所述的语音预处理模块，所述的语音预处理模块对语音文件进行语音分析处理，包括数字化、预加重、加窗、加帧、去噪等分析处理，并输出语音的微特征参数供所述的训练模块和解锁模块，所述的语音钥匙训练模块接收所述的语音预处理模块的处理结果，对语音样本进行训练，利用手机主人的语音样本和非手机主人的语音样本来分割一个多维的频谱空间，使得手机主人语音样本所占据的频谱空间被映射到手机主人的输出，而非手机主人语音样本所占据的频谱空间被映射到非手机主人的输出，形成手机主人独有的语音钥匙声纹编码，所述的解锁模块利用训练生成的语音钥匙声纹模板、多层聚类神经网络、以及语音预处理得到的说话人语音微特征参数完成语音信号特征模糊动态集合的聚类，并利用单层感知机网络实现已聚类的激励群到说话人的转换，识别出说话人，完成解锁过程，进一步，所述的语音预处理模块，语音钥匙训练模块和解锁模块中的内嵌算法可在线升级。
进一步的，在所述的手机语音钥匙训练模块中，以解锁指令作为语音钥匙，语音钥匙采用4到6个字。
进一步的，在所述的手机语音钥匙训练模块中，手机主人可以随时更换语音钥匙指令，以提高语音钥匙的安全性。
进一步的，在所述的手机语音钥匙识别模块中，采用多层聚类神经网络完成语音信号特征模糊动态集合的聚类，以及已聚类的激励群到说话人的转换，实现激励群映射到说话人输出。
本发明与已有技术相对照，效果是积极且明显的。本发明采用了先进的神经网络语音识别算法进行研制开发。这种语音钥匙用于手机待机锁定后，进行语音解锁。用手机主人的语音特征作为钥匙，通过简单的语音命令来解锁，这就保障了安全性。本发明不具有可传递性，可保障您手机内信息的安全。这种解锁方式改变了传统意义上人机交互模式，大大简化了原来繁琐的键盘输入过程，与传统的密码解锁相比较，更安全、更简便、更实用。
本发明具体的优点如下所述易操作性训练过程简单、快捷、使用方便。
安全性采用高效的识别算法，正识率高于99％，误识率低于1％。
识别速度快识别延迟小，可满足用户即时性、高效率的要求。
抗噪能力强产品具有非语音信号过滤功能。
支持语种任何语种。
保密性具有不可传递性，即他人获取手机，但没有主人的语音信息，仍然无法获取其中的资料并使用，所以较安全。
科学时尚应用了尖端科技领域的神经网络语音识别算法，具有科学时尚的概念，代表了手机类产品的一个发展新趋势。
本发明的目的、特征及优点将通过实施例结合附图进行详细说明。
图2是本发明一种手机语音钥匙的一个优选实施例的语音预处理及特征提取过程示意图。
图3是本发明一种手机语音钥匙的一个优选实施例的训练模块原理图。
图4是本发明一种手机语音钥匙的一个优选实施例的多层神经网络框架。
具体实施例方式
如

图1、图2、图3和图4所示，本发明一种手机语音钥匙，由语音接收装置1，语音预处理模块2，语音钥匙训练模块3和解锁模块4构成，其特征在于所述的语音接收装置1接收被识别人的语音信号，并把语音信号传送至所述的语音预处理模块2，所述的语音预处理模块2对语音文件进行语音分析处理，包括数字化、预加重、加窗、加帧、去噪等分析处理，并输出语音的微特征参数供所述的训练和解锁模块，所述的语音钥匙训练模块3接收所述的语音预处理模块2的处理结果，对语音样本进行训练，利用手机主人的语音样本和非手机主人的语音样本来分割一个多维的频谱空间，使得手机主人语音样本所占据的频谱空间被映射到手机主人的输出，而非手机主人语音样本所占据的频谱空间被映射到非手机主人的输出，形成手机主人独有的语音钥匙声纹编码，所述的解锁模块4利用训练生成的语音钥匙声纹模板、多层聚类神经网络、以及语音预处理处理得到的说话人语音微特征参数完成语音信号特征模糊动态集合的聚类，并利用单层感知机网络实现已聚类的激励群到说话人的转换，识别出说话人，完成解锁过程。
本发明的工作原理及实现过程结合如下所述(一)语音接收模块在语音接收模块中利用手机中的语音接收装置，如微型话筒等，接收到语音信号，并直接将接收到的语音流传给系统的语音预处理模块。
(二)语音预处理模块语音预处理模块接收到语音信号后，将对语音信号做分析处理，并提取语音微特征，为训练及解锁做准备。语音预处理及特征提取过程如图2所示。
具体语音预处理及特征提取过程包括以下内容放大及增益控制将语音信号适当增大，以便于之后的其它信号处理。
预滤波抑制输入信号各频域分量中频率超出fs/2的所有分量(fS为采样频率)，以防止混叠干扰，同时抑制50Hz的电源工频干扰。
语音信号的数字化语音信号经预滤波和采样后，由A/D变换器变换为二进制数字码。
非语音信号过滤扫描数字化后的语音数据，将非语音信号如振铃音、噪音等剪辑掉。
预加重提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析。
加帧一般每秒的帧数约为33～100帧，视实际情况而定。
加窗为了避免倒谱中的基音峰变得不清晰甚至消失，本优选实施例采用汉明窗。
经过上面介绍的过程，语音信号就被分割成一帧一帧的加过窗函数的短信号，在进行处理时，按帧从数据区中取出数据，处理完成后再取下一帧，最后得到由每一帧组成参数组成的语音特征参数的时间序列。
8.语音特征参数提取语音特征参数的选择是整个系统中的基础，对语音识别率有着极其重要的影响。
本发明的优选实施例采用多种语音特征提取技术，包括MFCC系数及微分系数、基音相关特征、线性预测系数相关特征以及人耳听觉模型相关参数等。利用神经网络的自学习能力，可以克服声纹特征的动态性和复杂性，自组织地完成对个性声纹特征的提取。传统方法只提取少数语音特征参数，而采用本技术可以提取多种语音特征参数，从而有效提高识别的正识率。提取到个性声纹特征后，再将各连续的特征参数转化为输入神经元的激活或抑制信号。
(三)训练模块所谓训练过程，就是利用对象的语音样本(正相样本)和非对象的语音样本(反相样本)来分割一个多维的频谱空间，使得对象语音样本所占据的频谱空间被映射到对象的输出，而非对象语音样本所占据的频谱空间被映射到非对象的输出，也就是将对象和其语音在频谱空间的分布区域建立关联。从数学模型上说，就是利用这些语音训练样本来调整一个复杂的神经网络权值，使得对象的语音样本映射到对象的激励输出，非对象的语音样本映射到对象的抑制输出。训练原理的示意图如图3所示，某对象A的语音，经语音特征参数提取，根据特征参数值调整权值使对象A的输出受到激励，同时使非对象A的输出受到抑制，之后得到对象A的输出和非对象A的输出。
训练过程具体如下1.创建背景模型背景模型中包含大量随机语音样本，主要用于在训练中建立而非对象语音样本所占据的频谱空间向非对象的输出映射的关联。背景模型由本发明的优选实施例在手机主人进行训练之前创建。
2.解锁命令训练由手机主人通过手机录制一段解锁指令，即语音钥匙。语音钥匙一般为4-6个字。语音经预处理后，立即通过训练模块进行训练，训练后形成手机主人独有的声纹编码。为了获得理想的识别效果，要求手机主人每次训练时以不同的语气输入相同的语音钥匙指令，并且训练多次。
3.保存训练结果经多次累加训练后，训练过程结束，声纹编码随即被保存在手机中，以备解锁使用。
4.重新训练由于用来参与训练的语音包含的文字固定且时间较短，声纹识别和文本及语言就存在较强的相关性，即同一个人说不同的语言和词语会被认为是不同的人。手机主人可以利用这个特点随时更换语音钥匙指令，以提高语音钥匙的安全性。在更换语音锁时，需首先删除原有语音钥匙，之后按照步骤2重新训练新的语音钥匙。
(四)解锁模块本发明的优选实施例利用建立在一种全新的神经网络算法基础上的多层聚类神经网络完成语音信号特征模糊动态集合的聚类，以及已聚类的激励群到说话人的转换，实现激励群映射到说话人输出。
当有语音波形输入时，首先由输入层神经网络得到预处理后的语音频谱特征，并将其转化为输入神经元的激活或抑制信号。使用这些神经元的激活或抑制信号去同步激励所有待识别对象的输出，采用能量反传网络完成已聚类的激励群到说话人的转换，实现激励群映射到说话人输出。在正确训练的情况下，只有目标对象的输出被激励，而所有非目标对象的输出被抑制，从而可以快速地识别出目标对象。
多层神经网络框架如图4所示，每一层和上一层是全连接。每个中间层网络神经元的个数大致与输入层神经元的个数相同。
本发明的优选实施例采用能量反馈和Hebb学习规则。具体的原理如下设每个神经元的能量计算为e＝b-y其中，b是每个神经元的能量反馈值，对于输出层而言，就是强制指导状态；y是每个神经元的输出。
对于中间层(用m表示)第j个神经元，其反馈值来自于其下层网络(用n表示)，反馈值的计算为下式，其中ω为连接权值bjm=Σkγ·ωjk·ekn]]>对于m层的第j个神经元，其输入值x来自于上层网络p，计算公式为xjm=Σkλ·ωkj·ykp]]>每个神经元的输出和输入关系为y＝f(xt，xt-1)其中，f是一种非线性函数，并且与当前输入和过去输入相关。因此，神经网络的输出不仅依赖当前帧的输入，同时也与过去的输入有关。这种输入记忆功能可以克服神经网络算法不能有效处理时序问题的缺陷。识别系统在根据语音特征映射到某个对象时，不是完全根据当前语音帧，而是根据当前帧和之前的许多帧，大致相当于几百毫秒的语音长度。这种特性与生物听觉特征类似之处。
权值改变算法如下
Δωjk＝α·yj·yk+β·yj·ek其中，第一项为Hebb学习项，作用在于特征聚类，越接近最后输出层，此项作用越小。Hebb学习项可以使同时出现的特征之间的激励作用加强，从而使这些同时出现的特征之间形成一种有关联的激励群。有关联的激励群实际上是一种分布式联想记忆功能，可以起到抵抗噪声、恢复畸变的功能。
第二项为反馈能量学习项，是一种基于能量的反传学习算法。越接近最后输出层，此项作用越大。基于能量反馈的学习算法与BP网络有点类似。但比BP网络在算法上和训练上更方便，更容易理解，更容易实现。同时，权值改变只与能量相关，只与连接的前后两个神经元节点相关，因此，算法的实现更容易，速度更快。
本发明的优选实施例采用识别肯定度的中标方法，识别肯定度在一个0，1之间的小数，越接近1，越肯定说话人就是手机的持有者。
本发明的手机语音钥匙具有仿生性、增量式训练、可学习性、强分辨能力和识别率、强鲁棒性、识别速度快、非语音信号过滤等特点。可以替代传统密码的解锁方式，使用更方便、更快捷、更安全。
权利要求
1，一种手机语音钥匙，由语音接收装置、语音预处理模块、语音钥匙训练模块和解锁模块构成，其特征在于所述的语音接收装置接收被识别人的语音信号，并把语音信号传送至所述的语音预处理模块，所述的语音预处理模块对语音文件进行语音分析处理，所述的语音分析处理的过程包括数字化、预加重、加窗、加帧和去噪处理，所述的语音预处理模块向所述的语音钥匙训练模块和解锁模块输出语音的微特征参数，所述的语音钥匙训练模块接收所述的语音预处理模块的处理结果，对语音样本进行训练，形成说话人独有的语音钥匙声纹编码，所述的解锁模块利用训练生成的语音钥匙声纹模板、多层聚类神经网络、以及语音预处理模块处理得到的说话人语音微特征参数完成语音信号特征模糊动态集合的聚类，并利用单层感知机网络实现已聚类的激励群到说话人的转换，识别出说话人，完成解锁过程。
2，如权利要求1所述的手机语音钥匙，其特征在于在所述的对语音样本进行训练的过程中，利用手机主人的语音样本和非手机主人的语音样本分割一个多维频谱空间，使得手机主人语音样本所占据的频谱空间被映射到手机主人的输出，而非手机主人语音样本所占据的频谱空间被映射到非手机主人的输出。
3，如权利要求1所述的手机语音钥匙，其特征在于在所述的手机语音钥匙训练模块中，以解锁指令作为语音钥匙，语音钥匙采用4到6个字。
4，如权利要求1所述的手机语音钥匙，其特征在于在所述的手机语音钥匙训练模块中，语音钥匙指令被更换。
5，如权利要求1所述的手机语音钥匙，其特征在于在所述的手机语音钥匙识别模块中，采用多层聚类神经网络完成语音信号特征模糊动态集合的聚类，以及已聚类的激励群到说话人的转换，实现激励群映射到说话人输出。
全文摘要
一种手机语音钥匙，由语音接收装置，语音预处理模块，语音钥匙训练模块和解锁模块构成，其特征在于采用神经网络语音识别技术，利用人的生物特征之一“语音”，作为手机解锁的钥匙，完成对手机主人身份认证的过程。本发明采用了先进的神经网络语音识别算法进行研制开发。这种语音钥匙用于手机待机锁定后，进行语音解锁。用手机主人的语音特征作为钥匙，通过简单的语音命令来解锁，这就保障了安全性。本发明不具有可传递性，可保障手机内信息的安全。这种解锁方式改变了传统意义上人机交互模式，大大简化了原来繁琐的键盘输入过程，与传统的密码解锁相比较，更安全、更简便、更实用。
文档编号G10L15/28GK1746971SQ20041006625
公开日2006年3月15日申请日期2004年9月9日优先权日2004年9月9日
发明者吴田平申请人:上海优浪信息科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴田平
技术所有人：上海优浪信息科技股份有限公司
我是此专利的发明人