Dsp语音识别用于激光大屏幕拼接控制系统的制作方法

文档序号:2832673阅读:675来源:国知局
专利名称:Dsp语音识别用于激光大屏幕拼接控制系统的制作方法
技术领域
本发明属于显示技术领域,结合人们对大屏幕拼接控制系统应用的需求,具体涉及ー种使用DSP实现的说话人识别系统,对激光大屏幕拼接系统的基本功能进行语音控制,从而将语音识别技术应用到激光大屏幕拼接控制系统中。
背景技术
传统的大屏幕拼接控制系统多采用基于Arm架构的触摸式按键控制系统,这使得人们在控制大屏幕拼接显示模块时不得不随时携带,这对进行大屏幕拼接控制时造成了不大不小的麻烦;另外从市场的角度来看,存在这样的需求,当到一个陌生的会议室时,完全不了解它的大屏幕拼接控制开关的位置、对应关系及特点,给人的拼接控制带来诸多的不便。大屏幕拼接控制系统还有待于作进一歩的人性化设计。
·[0003]语音识别是近二十几年发展起来的信息学科,特别是近十年来国内外竞相研究的热点。语音识别具有最自然、最快速、最方便等优点。始于二十世纪六十年代的语音识别研究,识别率有了很大的提高,基本可达实用水平。但是因为语音识别的计算量非常大,难以实时实现,因此一直制约着它的应用。随着DSP和专用集成电路技术的发展,始语音识别尤其是计算量较小的说话人实时实现成为可能。本发明是基于DSP语音识别的激光大屏幕拼接控制系统,以TMS320C5509DSP芯片作为系统运算控制中心,微型麦克风作为语音采集方式,TLV320AIC23B芯片作为语音输入的模拟前端,有机结合实现了孤立词、小词汇量的嵌入式语音识别控制系统。在该系统中,合法用户(经过注册)可通过语音密码进入该控制系统,然后可进行口述命令,控制大屏幕拼接的启动、调节和关闭等,而非法用户则被语音密码阻挡,无法进行控制。
发明内容为解决现有技术存在的上述缺陷,本发明的目的在于提供一种基于DSP语音识别的激光大屏幕拼接控制系统,具有硬件电路简单、工作性能稳定,对特定人,正确识别率在93. 96%,系统平均响应时间小于O. 4s,可进行口述命令,控制大屏幕拼接的启动、调节和关闭。为实现上述目的,本发明采用的技术方案该DSP语音识别用于激光大屏幕拼接控制系统,其特征在于具有麦克风,麦克风连接语音信号采集模块,将人的语音信号转化为模拟信号,输入至DSP模块,DSP模块完成识别后,将识别结果传输至激光大屏幕拼接控制系统;电源模块对系统供电,DSP模块连接有JTAG ロ,用于和PC机进行联机在线仿真,键盘则用于參数调整和功能的切換,DSP,模块连接FLASH用于存储系统程序和语音库并完成系统的上电加载;软件模块对系统采集语音信号进行预滤波和预加重,将语音信号进行分帧和端点检测,用语音信号的特征值与模板逐个进行匹配,根据识别结果就可以向外发出控制信号。所述语音信号采集模块采用TLV320AIC23音频编解码器。[0008]所述DSP模块采用TMS320VC5509A处理器。采用上述技术方案的有益效果该DSP语音识别用于激光大屏幕拼接控制系统工作原理语音识别本质上是一种模式识别的过程,主要包括语音信号的预处理、特征提取、特征建模(建立参考模板库)、相似性度量和激光大屏幕拼接控制几个功能模块。以TMS320C5509 DSP芯片作为系统运算控制中心,微型麦克风作为语音采集方式,TLV320AIC23B芯片作为语音输入的模拟前端,有机结合实现了孤立词、小词汇量的嵌入式语音识别控制系统。在该系统中,合法用户(经过注册)可通过语音密码进入该控制系统,然后可进行口述命令,控制大屏幕拼接的启动、调节和关闭等,而非法用户则被语音密码阻挡、无法进行控制。与现有相比,具有硬件电路简单、工作性能稳定,对特定人,正确识别率在93. 96%,系统平均响应时间小于O. 4s,系统应用于激光大屏幕拼接控制系统。因此这一语音识别方法和系统用于大屏幕拼接控制系统具有良好的应用前景。


以下结合附图对发明的具体实施例作进一步详细的说明。图I为本发明系统框图。图2为本发明硬件结构框图。图3为系统电源电路。图4为5509A与FLASH连接框图。图5为5509与SDRAM的接口图。图6为TLV320AIC23B和麦克风的连线图。图7为5509作为与TLV320AIC23B接口原理框。图8为软件流程图。图9为DTW模板匹配流程图。
具体实施方式
如图1、2所示的DSP语音识别用于激光大屏幕拼接控制系统,具有麦克风1,麦克风I连接语音信号采集模块8,将人的语音信号转化为模拟信号,输入至DSP模块6,DSP模块6完成识别后,将识别结果传输至激光大屏幕拼接控制系统7。电源模块5对系统供电,DSP模块6连接有JTAG 口 4,用于和PC机进行联机在线仿真,键盘2则用于参数调整和功能的切换,DSP,模块6连接FLASH3用于存储系统程序和语音库并完成系统的上电加载。软件模块对系统采集语音信号进行预滤波和预加重,将语音信号进行分帧和端点检测,用语音信号的特征值与模板逐个进行匹配,根据识别结果就可以向外发出控制信号。如图I所示,语音识别本质上是一种模式识别的过程,主要包括语音信号的预处理、特征提取、特征建模(建立参考模板库)、相似性度量和激光大屏幕拼接控制等几个功能丰旲块。预处理模块对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声等,并进行语音信号的端点检测,即判定语音有效范围的开始和结束位置,并进行语音分帧以及预加重等处理工作。特征提取模块负责计算语音的声学参数,并进行特征的提取,以便提取出反映信号特征的关键特征参数,以降低维数并便于后续处理。语音识别系统常用的特征参数有幅度、能量、过零率、线性预测系数(LPC)、LPC倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、共振峰频率、反映人耳听觉特征的Mel频率倒谱系数(MFCC)等。特征的选择和提取是系统构建的关键。在训练阶段用户输入若干次训练语音,系统经过上述预处理和特征提取后得到特征矢量参数(序列),然后通过特征建模模块建立训练语音的参考模板,或者对已在模式库中的参考模式做适应性修正。在识别阶段将输入语音的特征矢量参数(序列)和参考模式库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识别的中间候选结果输出。而后处理模块对上述得到的候选识别结果继续处理,通过更多的知识(比如语言学的语言模型、词法、句法和语义信息等)的约束,得到最终的识别结果。激光大屏幕拼接控制;由识别的结果驱动拼接控制器,执行相应的拼接控制指令。如图3所示的系统时钟电路与电源电路。利用5509A内部提供的内部震荡器,通过在X2/CLKIN和Xl引脚之间外接一个20M的晶体来启动内部的震荡器,用以提供时钟。 系统中由于TMS320VC5509A需要双电源供电,其内核工作电压需要I. 6V,I/O与部分外围设备供电需求为3. 3V,因此选择TI公司的TPS73HD301,它能将输入的5V电压经过两个不同的调节器分别输出3. 3V的电压和I. 2V-9. 75V范围之内的电压。核心处理器和存储模块由于DSP在进行数字信号处理时的速度高于一般的PC机处理器和单片机。所以本设计中选择TI公司55x系列的TMS320VC5509A,它的价格低廉,产品成熟,应用广泛。如图4所示的DSP与外扩FLASH模块的接口设计。TMS320VC5509片上有16K字的R0M,且16K字空间在出厂前已经固化了 DSP的中断向量表和DSP的BOOT程序。设计需扩展程序存储空间,本系统选用的FLASH是AMD公司的AM29LV800B。如图 5 所示的 TMS320VC5509A 与 SDRAM 的接口,TMS320VC5509片上只有32K字的DRAM,为了具有较高的数据吞吐率。需扩展数据存储空间。本系统选用HY57V641620,它具有以下特点64Mbit的存储容量(lM*4Banks*16bit),内部配置为4个存储体;具有完全的同步特性,即所有信号都在同一个上升沿有效;自动预充电,包括同时发生的自动预充电和自动刷新模式。5509A的EMIF能与SDRAM进行无缝连接。语音信号采集模块如图6所示,TLV320AIC23是TI公司推出的一款高性能立体声音频编解码器,支持mic和line in 二选一的输入方式,输入和输出都具有可编程的增益调节功能。TLV320AIC23的模/数转换器(ADC)和数/模转换器(DAC)集成在芯片内部,采用先进的E-Δ过采样技术,可以在8kHz至96kHz的采样率下提供16bit,20bit,24bit和32bit的采样数据。ADC和DAC的输出信噪比分别可达90dB和100dB。同时,还具有很低的功耗,与TI的DSP系列相配合更是相得益彰。TLV320AIC23与DSP的电路连接及接口设计如图7所示,TLV320AIC23B能在数字和模拟电压下工作,与TMS320C55x DSP的I/O电压相兼容,能够实现与C55x DSP的McBSP (多通道缓冲串口)端口的无缝连接,从而使系统设计更加简单。这里是TMS320VC5509作为与TLV320AIC23B相搭配的DSP芯片。其接口原理框图如图7所示。通过I2C对TLV320AIC23B进行编程控制,I2C模块接ロ由串行数据SDA和串行时钟SCL组成,SDA和SCL均为双向接ロ。连接在同一总线上的I°C设备可以工作在多主线エ作模式下。包括TMS320C55x DSP在内的每个I2C设备都有唯一的设备地址可供软件寻址。其中,主设备用于发送时钟并启动数据传输,被主设备寻址的则为从设备。这些设备根据各自的功能,既可以作为发送器,也可以作为接收器。软件模块部分软件流程如图8所示,系统采集语音信号后,首先要进行预滤波和预加重 ;接着将语音信号进行分帧,在分帧时,要考虑语音信号具有极强的相关性,然后计算每帧信号的短时能量与短时平均过零率,两种方法相结合进行端点检测。利用门限判决进行端点检测后,提取每帧信号的LPC系数,作为该帧信号的特征值;最后,用语音信号的特征值与模板逐个进行匹配。相似度最大的模板所对应的语音信号为识别结果,根据识别结果就可以向外发出控制信号。端点检测端点检测是从含噪声的环境中检测出说话人语音信号的起点和終点。系统采用短时能量和过零率来实现,前者描述了信号的幅度,后者描述了 I帧信号穿越O电平的次数。在计算短时能量前,对信号进行预加重,目的在于滤除低频干扰,将高频成分提高。然后对语音信号加汉明窗,再计算能量值进行判断。双门限的端点检测算法可以准确地检测出语音信号中有效的成份,为特征參数提取作充分的准备。特征參数提取由于语音信号之间存在相关性,可以用过去的样点值来预测现在或未来的样点值。线性预测系数(LPC)倒谱运算采用声道系统函数中的最小相位特性,避免了相位卷绕问题,并且LPC倒谱运算量较FFT求倒谱运算量小,在实时语音识别中经常采用LPC倒谱作为特征矢量。在线性预测分析过程中,若采用的阶数P很大,LPC的值出现振荡,其携帯的信息会使语音内在特征出现很大的随机性,导致语音识别率大大降低,本系统选择P为13。模板匹配——动态时间规整(DTW)语音识别中的模板匹配技术主要有动态时间弯折(DTW)算法、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。考虑到DSP系统资源的有限性,本系统采用了计算相对简单而有效的DTW算法。该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题。DTW模板匹配流程图如图9所示,在DSP中用程序实现DTW算法时,可以在数据区开辟出两个MXN的矩阵,分别为累积距离矩阵D和帧匹配距离矩阵d,D(M,N)即为最佳匹配路径所对应的匹配距离。通过计算匹配距离得到最小的输出结果进而识别出输入的语音信号,然后根据实际情况,给出相应的响应。本方案的实现以TMS320C320VC5509的语音信号处理板为核心,采用DTW算法实现小词汇量、孤立词的语音识别,算法本身计算量小,系统具有硬件电路简单、工作性能稳定,对特定人,正确识别率在93. 96%,系统平均响应时间小于O. 4s,系统应用于激光大屏幕拼接控制系统。因此这ー语音识别方法和系统用于大屏幕拼接控制系统具有良好的应用前

-5^ O
权利要求1.ー种DSP语音识别用于激光大屏幕拼接控制系统,其特征在于具有麦克风,麦克风连接语音信号采集模块,将人的语音信号转化为模拟信号,输入至DSP模块,DSP模块完成识别后,将识别结果传输至激光大屏幕拼接控制系统;电源模块对系统供电,DSP模块连接有JTAG ロ,用于和PC机进行联机在线仿真,键盘则用于參数调整和功能的切換,DSP模块连接FLASH用于存储系统程序和语音库并完成系统的上电加载。
2.根据权利要求I所述的DSP语音识别用于激光大屏幕拼接控制系统,其特征在于所述语音信号采集模块采用TLV320AIC23音频编解码器。
3.根据权利要求I所述的DSP语音识别用于激光大屏幕拼接控制系统,其特征在于所述DSP模块采用TMS320VC5509A处理器。
专利摘要本实用新型公开了一种DSP语音识别用于激光大屏幕拼接控制系统,其中具有麦克风,麦克风连接语音信号采集模块,将人的语音信号转化为模拟信号,输入至DSP模块,DSP模块完成识别后,将识别结果传输至激光大屏幕拼接控制系统;电源模块对系统供电,DSP模块连接有JTAG口,用于和PC机进行联机在线仿真,键盘则用于参数调整和功能的切换,DSP,模块连接FLASH用于存储系统程序和语音库并完成系统的上电加载;软件模块根据识别结果就可以向外发出控制信号。与现有相比,具有硬件电路简单、工作性能稳定,对特定人,正确识别率在93.96%,系统平均响应时间小于0.4s,系统应用于激光大屏幕拼接控制系统。
文档编号G10L15/02GK202677367SQ20112057705
公开日2013年1月16日 申请日期2011年12月30日 优先权日2011年12月30日
发明者杜辉, 汪鑫, 陈俊宵, 李世藏 申请人:南阳首控光电有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1