任务相关的说话人身份确认片上系统及其确认方法

文档序号：2837302阅读：258来源：国知局

专利名称：任务相关的说话人身份确认片上系统及其确认方法
技术领域：
本发明涉及说话人确认系统，特别是涉及应用说话人的语音特征来确认说话人的身份的任务相关的说话人身份确认片上系统及其确认方法。
背景技术：
目前用于身份确认的方法很多，包括密码输入、指纹识别、虹膜识别、人脸识别，这些识别系统都己经比较成熟。事实上，语音和指纹一样，每个人的声音具备自己独特的特征，其他人无法模仿代替，因此语音特征用于说话人身份确认是当前安全、保密方面的一个研究热点。目前，己经有
很多基于PC/服务器等大系统的声纹确认发明，主要用于侦听、安保等产
□
叩o
中国专利号200610103612的专利申请公开了一种基于分布式结构的说话人确认方法，前端采集说话人语音，提取特征，压縮为比特流格式，并送入数据传输信道；数据传输信道负责系统前端与系统后端数据的传输；系统后端将比特流格式数据解压縮为特征，并进行说话人确认。中国专利号200310118507的专利申请公开了用语义信息确认来替代基于声纹确认的训练过程，在基于声纹确认的准备工作还没有完成之前来进行识别工作。同时语义信息确认帮助声纹确认搜集所需的训练语料，等基于声纹识别的准备工作完成之后，把二者结合起来，进一步增强系统的安全性。采取的技术方案是根据说话人的声纹特征通过GMM模型(高斯混合模型) 建立声纹模型；通过电话等语音输入设备录入语音，对声音进行预处理；对处理后的声音根据一定的声纹模型进行声纹特征提取；同时进行文本判断；用声纹特征和文本判断来识别说话人身份。中国专利号200510061955 公开了一种基于锚模型空间投影序数比较的快速说话人确认方法，首先对
测试语音进行特征提取，得到一组特征向量序列，然后对锚模型中的每个高斯混合模型以及背景模型估算概率密度，得到映射后的得分向量，并比较测试语音与声明说话人的得分序数并计算序数的欧式距离，最后将序数距离与阈值比较得到最终结果。还有"声纹考勤机"公开了语音采集模块采
用说话人输入的语音ID号码口令，将其转换成数字信号，并把数字信号传送至语音处理模块；语音预处理模块对输入语音的数字信号进行语音分析处理，并输出处理得到的语音的微特征参数传送至训练模块；训练模块接收语音预处理的数据，对指定的语音样本进行训练，形成声纹考勤模板，存入存储系统模块中的员工档案中；考勤时，识别模块调用存储系统中的利用训练模块生成的现有声纹考勤模板和从语音预处理模块得到的说话人语音微特征参数，找出合法ID，进入声纹识别模块进行说话人确认，声纹识别模块识别出说话人，找出说话人所对应的ID号，在将这个ID号所对应的员工信息显示在液晶显示模块的显示屏上。
以上这些发明都是基于PC/服务器等具备较强运算能力、较大存储空间的运算平台，这类产品最大的缺点是工作平台是PC机或者大型服务器，不可以应用在便携、移动的场合。

发明内容
鉴于上述现有技术应用领域的限制，本发明的目的是提供一种便携、低功耗的任务相关的说话人身份确认片上系统及其实现方法，该任务相关的说话人身份确认片上系统主要是基于嵌入式语音处理专用芯片来实现任务相关的说话人确认方法，且具有良好的抗干扰性能。
本发明提供的任务相关的说话人身份确认片上系统，包括为该系统提供电源的电源模块、启动模块，存储数据的存储器，上述系统还包括嵌入式语音处理芯片，上述嵌入式语音处理芯片包括电源管理模块，处理器系统，及与放音模块和拾音模块连接的音频采样接口模块，上述处理器系统与上述音频采样接口模块连接，上述电源模块与上述电源管理模块连接、上述启动模块与上述处理器系统连接，用于启动语音处理芯片。
一种任务相关的说话人身份确认方法，首先提供上述任务相关的说话
人身份确认片上系统，而后进行用户训练步骤和用户确认步骤，上述用户训练步骤和用户确认步骤均采用用于提取语音特征参数的语音特征提取
和采用动态规划(Dynamic Programming,简称DP )的矢量匹配。
优选地，上述动态规划对上述任务相关的说话人身份确认片上系统提取两次训练的上述语音特征参数进行匹配运算，计算上述两次训练的语音特征参数之间的失真距离。
优选地，如果上述失真距离小于预设阈值，则上述任务相关的说话人身份确认片上系统确认为训练成功，上述任务相关的说话人身份确认片上系统存储上述两次训练的语音特征参数；如果上述失真距离大于预设阈值，则上述任务相关的说话人身份确认片上系统确认为训练不成功，上述任务相关的说话人身份确认片上系统要求用户重新训练。
优选地，在上述用户确认步骤中，上述任务相关的说话人身份确认片上系统提取用户输入的语音特征参数，上述任务相关的说话人身份确认片上系统将上述用户输入的语音特征参数与上述存储的两次训练的语音特征参数进行匹配运算，得到两个失真距离；如果其中最小的失真距离小于预设阈值，则上述任务相关的说话人身份确认片上系统确认为身份确认成功；如果其中最小的失真距离大于预设阈值，则上述任务相关的说话人身份确认片上系统确认为身份确认失败。
优选地，上述语音特征参数为13维语音特征参数，包括12维美尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,以下简称MFCC)和短
时归一化对数能量E。
基于嵌入式语音处理专用芯片，来实现任务相关的说话人身份确认系统，可以用于便携、低功耗、低成本的安保、考勤等身份确认产品中。
下面结合附图，对本发明的具体实施方式
作进一步的详细说明。对于所属技术领域的技术人员而言，从对本发明的详细说明中，本发明的上述和其他目的、特征和优点将显而易见。

图l为说话人确认系统结构图2为特征参数提取流程图3为动态规划方法计算失真距离的示意图4为用户的完整训练流程图5为用户的识别流程图。
具体实施例方式
本发明优选实施例提供的身份确认片上系统采用声纹辨识的方式，事先将用户的语音特征参数存储在系统中。在进行身份确认的时候，辨识用户的输入声音声纹是否与预存的相符。
基于语音处理专用芯片实现任务相关的说话人身份确认片上系统，主要的技术难点在于
*嵌入式芯片系统不同于PC/服务器，运算能力较低、RAM空间通常只有几十K字节。在小系统上开发说话人确认算法，目标要接近或达到基于PC/服务器的系统性能；
*基于嵌入式芯片开发说话人确认算法，最终产品的成本大大降低，就是为了应用到更多的民用产品中去。这样的产品在使用的时候，声音环境较复杂，可能会存在噪声变化等情况。算法开发需要考虑抗噪方面的性能。
本发明优选实施例基于语音处理专用芯片UniSpeech和UniLite，这两款芯片专为语音处理应用而设计，芯片采用高集成度的SOC (System on Chip)系统结构以0.18um半导体工艺制造，以16位定点DSP (100MIPS) 为核心，片内集成了直接双访问快速SRAM、 ADC/DAC (有效精度达到 12Bit)及相应的模拟信号放大器和抗混叠滤波器，外部只需扩展Flash存储器、电源芯片、启动芯片等少量芯片即可构成完整系统应用。
图1是以嵌入式语音处理专用芯片为核心构成完整系统应用的参考设计方案图。本优选实施例选用语音处理专用芯片UniLite400。图中
1. 电源芯片即电源模块406，提供给系统三路稳定电源，分别为 33V(20mA max) /2.5V(20mAmax) /1.8V(60mAmax);
2. 启动芯片即启动管理模块401，为UniLite 400启动所需的专用芯片，与DSP处理器系统402相连接。
3. SPI Flash存储器芯片403为UniLite 400工作必需的芯片，存储程序和数据信息。lMByte容量的SPI Flash芯片403，如SST25VF080;
4. 功放芯片410为系统外接放音模块即扬声器407时所需的选配芯片。
扬声器407通过功放芯片410、 DAC数模转换器与音频采样接口 404 连接；拾音模块即麦克风408经预放、ADC模数转换器与音频采样接口 404连接；音频采样接口 404与DSP处理器系统402相连接；连接DSP 处理器系统402还有片上RAM&ROM 409。
当嵌入式语音处理专用芯片UniLite 400接收到语音，首先进行语音特征提取。本发明选择具备较好抗噪性能的MFCC特征作为说话人确认系统的特征参数。整个语音特征提取流程图如图2所示。经过预滤波，A/D 转换器转换，预加重，分帧，加窗等进行音频预处理，经由快速傅立叶变换，三角窗滤波，离散余弦变换，谱加权及倒谱均值减等，来提取语音的特征参数，包括12维的MFCC特征参数和短时归一化对数能量E。
矢量匹配采用动态规划的方法。动态规划方法用于比对两次训练语音的特征参数，具有算法复杂度较小的特点，而且能够包容用户两次说话时的语速差异。语音识别中的动态规划方法也被称作动态时间归正技术 (Dynamic Time Warping ，简称DTW)。
假设存储的一段语音的特征参数包括M帧/ = {咖)，附=1，2，'省},另一段语音的特征参数包括^帧T = W")，" = 1，2， — W，为了比较两者的相似度，可以计算他们之间的失真"F，W，失真越小，两者相似度越高。将两者中的第z'和第7帧之间的失真记作"(n")，M")) ， "(n")，W"))采用欧氏距离
测度。通过动态规划过程，在搜索路径中找到累积失真最小的路径，即最
优的匹配结果。
假设识别特征序列的帧数较大(如果N〈M，可以将R和T交换)，把识别特征的各个帧号"=1，2，"'^在一个二维直角坐标系中的横轴上表示出来，将训练特征的各个帧号"^^，…，M在纵轴上标出。
DP算法可以归结为寻找一条通过此网格中的路径，该路径不是随意选择的，语音的发音快慢、状态对比都不是可以随意变化的。点(n,m) 的前一个匹配位置只可以是(n-l，m-l)、 (n-l, m)、 (n-l， m-2)这其中的一个。这三点中的具体选择是根据下面的式子决定
<formula>formula see original document page 9</formula>
根据此规则，可以从(0， 0)至U (N， M)找到一条匹配的路径，如图3所示，并据此路径来计算特征矢量序列的失真距离。
本发明在实际操作中，包括两种工作状态用户训练和用户确认。 *用户训练
一个完整的训练流程如图4所示
步骤4.1，身份确认语音系统启动训练过程；
步骤4.2，在用户训练状态，系统提醒用户进行第一次训练，用户用正常的语速讲话3 4秒，如"芝麻开门"；
步骤4.3，系统完成步骤4.2提醒用户进行第二次训练，在步骤4.3第二次训练中，工作人员需要重复步骤4.2第一次训练中同样内容的声音；
步骤4.4，系统提取两次训练语音的特征参数，保留两次训练模型，并对两次保留的特征参数进行匹配运算，判断训练模型对比是否通过；
如果采用矢量匹配动态规划运算得到两者失真距离小于预设阈值，身份确认语音处理系统确认为训练成功两次为同一个人所训练，并且内容相同，则完成一次训练，进行步骤4.5，系统将用户两次训练语音的特征参数存储下来，存储两次训练的模型；
如果采用矢量匹配动态规划运算得到两者失真距离大于预设阈值，身份确认语音处理系统确认为训练不成功两次训练为不同认输入，或者同一人两次输入的语音不相同。那么转为步骤4.2，系统要求用户重新训练。
參用户确认
参照图5。
步骤5.1，在用户确认操作中，启动身份确认语音系统，用户输入和
训练过程中相同的语音；
步骤5.2，身份确认语音处理系统将用户输入语音的特征参数和训练
过程中保留的两次语音特征参数进行匹配运算，得到两个失真距离，进行
识别；
步骤5.3，判断模型对比是否通过；
如果其中最小的失真距离小于预设阈值，则执行步骤5.4，系统确认为身份确认成功训练和确认为同一个人，并且语音内容相同；
否则，执行步骤5.5，如果其中最小的失真距离大于预设阈值，系统确认为身份确认失败训练和确认为不同人，或者同一个人输入了不同内容的语音，则要求用户重新输入语音。
当然，本发明还可有其他实施例，在不背离本发明精神及其实质的情况下，所属技术领域的技术人员当可根据本发明作出各种相应的改变，但这些相应的改变都应属于本发明的权利要求的保护范围。
权利要求
1.一种任务相关的说话人身份确认片上系统，包括为该系统提供电源的电源模块、启动模块，存储数据的存储器，其特征在于，上述系统还包括嵌入式语音处理芯片，上述嵌入式语音处理芯片包括电源管理模块，处理器系统，及与放音模块和拾音模块连接的音频采样接口模块，上述处理器系统与上述音频采样接口模块连接，上述电源模块与上述电源管理模块连接，上述启动模块与上述处理器系统连接，用于启动语音处理芯片。
2. —种任务相关的说话人身份确认方法，其特征在于，首先提供一种如权利要求1所述的任务相关的说话人身份确认片上系统，而后进行用户训练步骤和用户确认步骤，上述用户训练步骤和用户确认步骤均采用用于提取语音特征参数的语音特征提取和采用动态规划的矢量匹配。
3. 根据权利要求2所述的身份确认方法，其特征在于，上述动态规划对上述任务相关的说话人身份确认片上系统提取两次训练的上述语音特征参数进行匹配运算，计算上述两次训练的语音特征参数之间的失真距离。
4. 根据权利要求3所述的身份确认方法，其特征在于，如果上述失真距离小于预设阈值，则上述任务相关的说话人身份确认片上系统确认为训练成功，上述任务相关的说话人身份确认片上系统存储上述两次训练的语音特征参数；如果上述失真距离大于预设阈值，则上述任务相关的说话人身份确认片上系统确认为训练不成功，上述任务相关的说话人身份确认片上系统要求用户重新训练。
5. 根据权利要求4所述的身份确认方法，其特征在于，在上述用户确认步骤中，上述任务相关的说话人身份确认片上系统提取用户输入的语音特征参数，上述任务相关的说话人身份确认片上系统将上述用户输入的语音特征参数与上述存储的两次训练的语音特征参数进行匹配运算，得到两个失真距离；如果其中最小的失真距离小于预设阈值，则上述任务相关的说话人身份确认片上系统确认为身份确认成功；如果其中最小的失真距离大于预设阈值，则上述任务相关的说话人身份确认片上系统确认为身份确认失败。
6.根据权利要求2至5任一项所述的身份确认方法，其特征在于，上述语音特征参数为13维语音特征参数，包括12维美尔频率倒谱系数和短时归一化对数能量。
全文摘要
任务相关的说话人身份确认片上系统，是针对现有技术应用说话人的语音特征来确认说话人的身份的工作平台是PC机或者大型服务器而提出的，其基于嵌入式语音处理芯片来实现任务相关的说话人的确认。本任务相关的说话人身份确认片上系统可以用于便携、低功耗、低成本的安保、考勤等身份确认产品中。同时也提出该任务相关的说话人身份确认片上系统的确认方法，包括用户训练步骤和用户确认步骤，均采用语音特征提取和采用动态规划的矢量匹配，具有良好的抗干扰性能。
文档编号G10L17/00GK101350196SQ20071011928
公开日2009年1月21日申请日期2007年7月19日优先权日2007年7月19日
发明者丁玉国, 志刘, 鹏张, 梁维谦, 明董申请人:丁玉国

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丁玉国;刘志;梁维谦;董明;张鹏
技术所有人：丁玉国
我是此专利的发明人

上一篇：一种Abis接口不连续传输模式的语音传输装置及方法
上一篇：一种音频信号的发生装置及方法