基于嵌入式的开集说话人识别系统的制作方法

文档序号：2822687阅读：458来源：国知局

专利名称：：基于嵌入式的开集说话人识别系统的制作方法
技术领域：
：本实用新型涉及语音信号处理领域的说话人识别，尤其是涉及采用开集方式的说话人识别系统，特别涉及利用嵌入式系统实现的开集说话人识别系统。
背景技术：
：通过查阅相关资料和有关专利，主要引证下列专利国名公开号公开日期1.中国CN101350196A2009.7.192.中国CN101064043A2007.10.313.中国CN1746972A2006.3.15专利1(CN101350196A)申请公开了一种任务相关的说话人身份确认片上系统及其确认方法。使用专用的语音处理芯片UniLite400进行系统的硬件设计，对说话人确认方法进行系统实现。在芯片UniLite400接收到语音后，提取12维美尔频率倒谱系数和短时归一化对数能量共13维，作为说话人的语音特征参数，采用动态规划的矢量匹配技术进行用户的训练和确认。专利2(CN101064043A)申请公开了一种声纹门禁系统及其应用。采用两个微处理器进行系统硬件设计，采集到的语音信号经过预处理模块，提取大帧特征、DTff模板特征和DCT模板特征数据作为说话的语音特征参数。在用户进行语音模型的训练时，首先录制10遍语音口令，每个口令经过预处理模块形成一个训练样本集，按时间顺序保存，训练DTW和DCT模板。然后进行人工神经网络模型的训练。在进行用户识别时，首先进行DCT特征比对，得到最小距离的N个用户，然后使用DTW特征比对，得到一个最小距离的用户，最后利用人工神经网络进行最后的用户识别。专利3(CN1746972A)申请公开了一种语音锁。由电子信号处理电路和锁具动作执行机构构成，电子信号处理电路由语音接收装置、语音预处理模块、训练模块、识别模块和开锁模块构成。语音接收装置接收被识别人的语音信号，并把语音信号传送至所述的语音预处理模块，语音预处理模块通过所述的键盘取得用户ID号码，对用户ID号码进行确认，确认ID号码有效以后，对语音信号进行语音分析处理，提取语音的微特征参数，并将ID号码和语音微特征参数输入到训练和识别模块中。训练模块接收语音预处理的处理结果并对该ID号码相对应的语音样本进行训练，形成主人独有的语音钥匙声纹编码，识别模块根据语音预处理模块提供的ID号码，利用多层聚类神经网络识别出说话人。上述专利在解决本申请的技术要求方面主要存在下面几点问题1.专利1采用专用的语音处理芯片UniLite400进行系统的硬件设计，导致的外围芯片类型的选择受到限制。专利2采用两个微处理器进行系统硬件设计，增加了系统的成本。2.当用户数大于1时，实际的说话人识别系统是一个开集的识别系统，不仅要判断待识别语音是属于参考说话人中的哪一个，同时对于系统的冒认者还要给出一个拒绝的格外判定。然而上述专利对说话人确认系统进行嵌入式系统的实现，无法满足开集方式的说话人识别系统的实际要求。3.为了增强系统的通用性，使系统能够适应不同的应用环境，系统安全等级的设定十分重要。上述专利没有考虑系统安全等级的问题，无法使系统适应于不同的应用场合。4.功耗问题严重制约着嵌入式系统的应用与发展，尤其是对于便携式的嵌入式系统。上述专利没有考虑系统实际应用的功耗问题。在本专利中，解决了上述说话人识别系统实用化过程中存在的四个问题。
发明内容本实用新型提供一种基于嵌入式的开集说话人识别系统，以解决上述说话人识别系统实用化过程中存在的四个问题。本实用新型采取的技术方案是语音信号处理单元分别与语音信号采集单元、数据存储单元、人机接口单元、通信接口单元连接，电源管理模块与语音信号处理单元连接，人机接口单元包括状态指示模块、键盘模块、显示模块、启动模块。上述系统以语音信号处理单元为核心，控制语音信号采集单元、系统数据存储单元、人机接口单元和通信接口单元完成相应的功能。本实用新型的优点在于，采用基于模糊核矢量量化的开集说话人识别方法对说话人的语音模型进行训练和识别，包括语音信号的预处理和特征提取、基于模糊核矢量量化的参考说话人语音模型的训练、基于模糊核矢量量化的最近近邻分类器的开集模式匹配方法。在语音信号的预处理和特征提取阶段，对由AD采样得到的短时帧采样信号进行处理，保证系统的实时性要求。增加了语音信号的小数据、尖峰及饱和处理，并采用循环维纳滤波的扩展谱相减的语音增强算法，提高输入语音的质量。参考说话人语音模型的训练不仅形成参考说话人的语音模型，同时在训练识别过程对形成的语音模型进行可靠性判断，并对产生可靠语音模型的参考说话人产生说话人确认的初始阈值，提高了模型产生的可靠性。开集模式匹配采用先辨认后确认的模式匹配方法，利用模糊核矢量量化的最近近邻分类器完成说话人的辨认，利用辨认过程产生的最小失真与待识别语音参数与背景模型的匹配失真值的差值，根据不同安全设置，对说话人的确认采用不同的判决决策，使系统能够适应不同的应用场合，同时提高了系统的安全性能。设计嵌入式系统对上述开集说话人识别方法进行嵌入式实现，该系统具有实时性高、识别性能好、低功耗、低成本、便携、通用性强等特点ο图1是基于嵌入式的开集说话人识别系统结构示意图。图2是本实用新型的用户操作界面。图3a是本实用新型的存储单元硬件系统逻辑图。图3b是本实用新型的AD芯片AIC23与DSPVC5416接口框图。图3c是本实用新型的AIC23的电路连接原理图。图3d键盘显示扩展芯片HD7279A与DSPVC5416接口框图。图3e是本实用新型的键盘电路原理图.图3f是本实用新型的指示模块电路示意图。具体实施方案如图1所示，语音信号处理单元101分别与语音信号采集单元102、数据存储单元103、人机接口单元104、通信接口单元106连接，电源管理模块105与语音信号处理单元连接，人机接口单元包括状态指示模块、键盘模块、显示模块、启动模块。上述系统以语音信号处理单元101为核心，控制语音信号采集单元102、系统数据存储单元103、人机接口单元104和通信接口单元106完成相应的功能。语音信号处理单元101采用TI公司54X系列的增强型数字信号处理器(DSPDigitalSignalProcessor)TMS320VC5416完成语音信号的预处理、说话人语音个性特征的提取、说话人声纹识别建模、相似度匹配等系统所需的运算，同时还作为核心微处理芯片对外围芯片进行接口控制操作。TMS320VC5416(以下简称VC5416)是为实现低功耗、高性能而专门设计的定点DSP芯片，也是TI公司TMS320VC54X系列DSP中性价比最高的一款芯片。语音采集单元102由麦克和可编程增益、采样率调节A/D转换器组成，由DSP控制完成语音信号的增益控制和数字化处理。DSP采用DMA方式对由麦克输入的语音进行采样，在采样的同时可以对采集的前一帧语音信号进行预处理和特征提取，预处理的时间小于一帧语音信号的采样时间，因此保证了系统的实时性。数据存储单元103使用FLASH存储器实现DSP程序代码以及用户语音模型信息的永久存储，并构建基于FLASH的DSP脱机独立运行系统。当用户进行训练、删除、识别操作后，系统自动完成用户信息的在线实时更新。人机接口单元[104]由状态指示模块、键盘模块、显示模块、启动模块组成。其中状态指示模块、键盘模块和显示模块都由键盘显示扩展芯片控制。系统的指示模块，由三个指示灯和一个蜂鸣器组成，指示系统当前的状态并提示用户进行相应的操作。系统的键盘模块由数字按键及功能按键组成，其中数字按键包括0-9的10个数字，功能键包括训练、识另O、删除、取消、确认、安全键等。显示模块可以由LED数码管或IXD显示器构成，系统的用户操作界面如图7所示。启动模块包括总电源开关和呼吸模式开关，系统采用电池供电，由电源管理模块105进行电压转换，整个嵌入式系统的上电都由总电源开关控制。呼吸模式开关采用红外扫描的方式，实现系统的休眠与启动。当用户到来时，红外扫描电路触发，系统启动开始进行语音的录入。这样不但降低了本实用新型的功耗，而且使本实用新型不需要长期处于连续工作状态，延长了系统电池的使用寿命。通信接口单元106采用有线或无线两种模式和上位机进行通信，二者可自动切换。本实用新型采用四种方式对系统进行低功耗设计。(1)低电压供电的CMOS器件。包括低电压供电的DSP芯片、存储单元Flash、用于逻辑控制的CPLD、以及语音采集转换芯片；(2)分时/分区供电技术。利用电源开关对电源进行分割，从而控制系统的各个部分，使系统在休眠或掉电工作时关掉外围电路的电源，仅仅保留DSP的电源；(3)DSP的节电模式。在系统无人操作时，令DSP进入空闲方式，使DSP处于休眠状态；(4)多种工作频率在线变换技术。动态改变DSP的工作时钟，在等待中断还有非语音处理等DSP相对空闲阶段，降低DSP系统的工作时钟，当需要DSP进行高速运算时，再提高DSP系统的工作时钟。系统使用16位并行引导装载模式构建基于FLASH的DSP脱机独立运行系统，并使DSP工作在并行装载模式下的数据容量达到最大，即可以引导装载最大为32K的程序代码，并且在运行程序时DSP所寻址的64K的区域(0000H-0FFFFH)都可以作为运行时的程序或数据区使用。DSP通过CPLD选通FLASH，其逻辑连接如图8a。TLV320AIC23B(以下简称AIC23)是TI推出的一款高性能的立体声音频Codec芯片。内置耳机输出放大器，支持MIC和LINEIN两种输入方式，且对输入和输出都具有可编程增益调节。AIC23的模数转换(ADC)和数模转换(DAC)可以在8K到96K的频率范围内提供16bit、20bit、24bit、32bit的采样。在本系统设计中，DSPVC5416以SPI模式(时钟停止模式)与多通道缓冲串行口1(McBSPl)连接。AIC23做为主设备，VC5416的McBSPl的发送与接收时钟均由AIC23的数据口位时钟信号(BCLK)来提供。DSP需要处理来自AIC23的数据，这些来自AIC23的数据要先经过CPLD进行锁存缓冲和时序规整后再传向DSP的McBSPl。本设计中McBSPl通过DMA方式向VC5416的内存传输数据，每当通过DMA接收完一组数据时，就向CPU产生中断请求。AIC23与DSP接口框图如图8b所示，AIC23的电路连接原理图如图8c所示。说明了DSPVC5416与键盘显示扩展芯片HD7279A的接口方式，令DSP的主从接口HPI口为普通IO口，将HD7279A的DATA和CLK弓|脚分别连接到DSP的HDO和HDl引脚。HD7279A的而引脚通过CPLD进行电压转换后接到DSP的INTO引脚上。DSP通过程序来模拟HD7279A的命令时序，完成同HD7279A的通信。HD7279A芯片能同时控8个8位LED数码管(或64只LED指示灯)及64键键盘(内含去抖动电路)。HD7279A内部含有译码器，可直接接受BCD码或16进制码，具有多种控制指令(消隐、闪烁、左移、右移、段寻址等)。其逻辑标准为5VTTL电平，兼容3.3VTTL电平，可与DSP无缝连接。图8e给出了键盘电路原理图。在系统的设计中，设有9个小键盘(从0到8)，通过HD7279A来与DSP通信，占用DSP资源却极少，只占用两个I/O口(DSP的HDO，HDl)和一个外部中断INTO。这9个小键盘是合法用户在训练前输入密码验证用的。其中，键盘值与键盘码值的对应关系如下表所示。表1键盘值与键盘码值的对应关系<table>tableseeoriginaldocumentpage6</column></row><table>下面给出HD7279A读取键盘数据指令的格式，如表3_3所示。表2HD7279A读键盘的指令格式<table>tableseeoriginaldocumentpage7</column></row><table>[0049]读取键盘数据指令，宽度为16bit，前8bit(00010101B)为微处理器发到HD7279A的指令，后8bit为HD7279A返回的键盘代码。执行此指令时，数据在CLK引脚上升沿被写入HD7279A的缓冲寄存器，HD7279A的DATA端在第9个CLK脉冲的上升沿变为输出状态，并在第16个脉冲的下降沿回复为输入状态，等待接收下一个指令。为了方便与HD7279的通信，将DSP的主从接口(HPI接口)中的HDl、HDO配置为通用1/0口，即GPI0。当HD7279A检测到有效的按键时，ΚΕ引脚从高电平变为低电平去触发DSP的INTO中断，并一直保持到按键结束。在此期间，如果HD7279A接收到“读键盘数据指令”，则输出当前按键的键盘代码；如果在收到“读键盘数据指令”时没有有效按键，HD7279A将输出FFH。为了方便用户的操作，设计了系统的指示模块，它由三个发光LED和一个蜂鸣器组成。将HPI接口中的HD2、HD3、HD4、HD7配置为GPI0，其中HD2、HD3、HD4依次对应红黄绿三种颜色。当GPIO为高电平时，与其相应的指示起作用。指示模块部分的电路示意图如图8f所示。权利要求一种基于嵌入式的开集说话人识别系统，其特征在于语音信号处理单元分别与语音信号采集单元、数据存储单元、人机接口单元、通信接口单元连接，电源管理模块与语音信号处理单元连接，人机接口单元包括状态指示模块、键盘模块、显示模块、启动模块。专利摘要本实用新型涉及一种基于嵌入式的开集说话人识别系统，属于利用嵌入式系统实现的开集说话人识别系统。语音信号处理单元分别与语音信号采集单元、数据存储单元、人机接口单元、通信接口单元连接，电源管理模块与语音信号处理单元连接，人机接口单元包括状态指示模块、键盘模块、显示模块、启动模块。本实用新型的优点在于结构新颖，具有实时性高、识别性能好、低功耗、低成本、便携、通用性强等特点。文档编号G10L17/00GK201570259SQ20092009507公开日2010年9月1日申请日期2009年12月31日优先权日2009年12月31日发明者孙晓颖,林琳,温泉,燕学智,王波,胡封晔,陈建,魏小丽申请人:吉林大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林琳;孙晓颖;陈建;燕学智;胡封晔;温泉;王波;魏小丽
技术所有人：吉林大学
我是此专利的发明人

上一篇：手风琴琴键传动系统中的键杆槽的制作方法
上一篇：穿孔复合降噪板材的制作方法