一种实时音乐语音识别系统的制作方法

文档序号：2833210阅读：535来源：国知局

专利名称：一种实时音乐语音识别系统的制作方法
技术领域：
本发明涉及音乐语音识别，更具体地讲，涉及嵌入式实时音乐语音识别系统。
背景技术：
语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域，是一个多学科综合性研究领域。随着电子音乐的快速发展，迫切需要一种更智能、更便捷的用户操作系统。自动音乐语音识别系统能够提供便利的人机交互，方便人们自己学习音乐知识，将成为一种主要方法，也是一个发展的方向。目前，实验室环境中自动语音识别系统已经取得了很好的效果，但是应用于电子音乐方面的自动音乐语音识别却很少。当自动语音识别应用于电子音乐时，必须对识别方法进行相应改进，才能满足其对运算速度、内存资源等方面的要求。为了解决这个问题，本文将结合音乐语音的特点，设计并实现嵌入式音乐语音识别系统。

发明内容
本发明的目的在于提供一种实时音乐语音识别系统，该采用了一种基于多频段能量曲线分割结合过零率来检测端点的新方法，简化了运算量，进一步提高了识别性能，把语音识别技术很好的用在电子音乐方面，实现了嵌入式实时音乐语音识别，实验结果表明，本系统精度高，基本能满足实用化需求。为了解决上述技术问题，本发明提供一种嵌入式实时音乐语音识别系统。一种实时音乐语音识别系统，其特征在于，包括
硬件电路主要由音乐语音信息采集部分、音乐语音处理DSP部分、程序数据存储器FLASH部分、数据存储器SRAM部分、键盘管理部分、音源芯片语音输出部分、以及电源部分组成；
音乐语音识别设计音乐语音识别软硬件系统，采用滤波、消除毛刺的预处理方法，提高语音识别精度；
检测端点建立一种基于多频段能量曲线分割结合过零率来检测端点的方法，在保证不错分的情况下，提高语音分割的正确率，同时结合过零率的门限，提高端点检测的精度。其中，所述的音乐语音识别包括语音信号预处理，端点检测，特征参数求取和语音识别的步骤，具体内容如下
1)语音信号预处理对语音信号进行前期的优化处理，方便后面的端点检测和语音识别；语音信号预处理主要包括分帧处理、预加重处理、加窗处理、滤波和消除毛刺处理；
2)端点检测使用语音信号的能量曲线结合过零率来进行端点检测，从带有噪声的语音中检测出说话人的语音命令，找出语音段开始和结束的时点；
3)语音特征参数提取采用美尔频标倒谱参数MFCC；
4)语音信号的训练与识别采用DTW算法来进行语音识别；基于动态规划的思想，将语音信号的每一帧信号的特征参数提取出来，转化成一组特征向量；将特征向量同模板库中已存的语音特征向量进行模板匹配，寻找距离最短的模板。所述的检测端点，具体内容如下
对原语音信号进行不同频段的信号滤波，得到六个频段滤波后的能量曲线，E(I)为50-1000HZ段的语音信号；E(2) 100-1000HZ段的语音信号；E (3) 200-1000HZ段的语音信号；E(4)400-1000HZ 段的语音信号；E(5)600-1000HZ 段的语音信号；E(5)800-1000HZ 段的语音信号；能量分割是依据峰谷点检测来进行的，利用能量曲线峰谷点地变化，把能量曲线中的语音段分割出来，且把语音段的起点和終点作为端点。所述的语音特征參数提取，具体内容如下利用人耳的感知特性，在语音的频谱范围内设置若干个带通滤波器，每个滤波器具备三角或者正弦的形滤波特性，计算相应滤波器组的信号能量，再通过DCT计算对应的倒谱系数。
所述的语音信号的训练与识别，具体内容如下
语音识别需要语音模板库的建立參照音乐语音音高频率对照表，对人声范围共四个八度32个音高进行训练。所述的步骤I)的滤波、消除毛刺，具体内容如下
采用50-1000HZ的FIR带通滤波器对原信号进行滤波；消除毛刺影响主要采用语音信号峰谷值检测的方法，把相邻两峰值之间很不明显的谷值和相邻两谷值之间很不明显的峰值去掉，对语音曲线中ー些较小的毛刺进行曲线整形，消除那些明显的毛刺。本发明具体的方法如下步骤
SI:麦克风阵列米集声音信号；
S2:信号预处理；
S3:端点检测；
S4:语音特征參数提取；
S5:语音信号的训练与识别进ー步，信号预处理的步骤包括
S201:分帧语音信号的特征是随着时间而变化的，只有在一段短的时间间隔中，语音信号才保持相对稳定一致的特征，通常这段时间取5 50ms。在程序中取200个采样点，对于8k的采样频率，即相当于25ms。帧间重叠为100个采样点，亦即12. 5ms ；
S202:预加权由于语音信号平均功率谱受声门激励和ロ鼻辐射影响，800HZ以上的高频信号按6dB/倍频跌落，所以求语音信号频谱时，频率越高相应成分越少，高频部分的频谱比低频部分难求，所以要进行预加权处理；
S203:加窗对每ー帧语音进行加窗实质是语音波形乘窗函数，为减少时间窗两端的坡度，使窗ロ边缘两端平滑过渡到零，减小语音帧的截断效应，这里采用典型的应用在语音识别系统中加ham-ming窗。S204:滤波、消除毛刺由于语音信号包含很多噪声信号，这些噪声信号在时域中表现出高频随机、毛刺等信号，这些信号很可能影响识别的效果，所以，对信号进行带通滤波和消除毛刺处理能很好提高识别的精度。由于人声主要在60- 1000HZ，采用50-1000HZ的FIR带通滤波器对原信号进行滤波，即可获得良好的效果。消除毛刺影响主要采用语音信号峰谷值检测的方法，把相邻两峰值之间很不明显的谷值和相邻两谷值之间很不明显的峰值去棹，对语音曲线中ー些较小的毛刺进行曲线整形，消除那些明显的毛刺。
进ー步,端点检测的步骤包括
S301:首先对原语音信号进行不同频段的信号滤波，得到六个频段滤波后的能量曲线，E (I)为50-1000HZ段的语音信号，E⑵100-1000HZ段的语音信号，E(3)200-1000HZ 段的语音信号，E(4)400-1000HZ 段的语音信号，E(5)600-1000HZ 段的语音信号，E^)800-1000HZ段的语音信号。能量分割是依据峰谷点检测来进行的，利用能量曲线峰谷点地变化，把能量曲线中的语音段分割出来，且把语音段的起点和終点作为我们要求得端点。S302:对语音信号进行六个频段的滤波得出的基于能量曲线分割的改进算法，在判决依据中，赋予E(I)的权值为1，而E(2)、E(3)、E(4)、E(5)、E(6)要求两个以上相同才被视为端点。基于所有能量曲线的分割点都要看过零率的门限是否满足要求。此外，优选的，本发明所提供技术方案中的麦克风阵列全部由全指向麦克风组成或者由全指向麦克风和单指向麦克风组成或者全部由单指向麦克风组成。系统的识别性能测试。由6个测试者(3男3女音乐专业人士)在安静室内环境下，选择方向性较好的麦克风，进行测试实验。由于男生和女生一般能发音的音高不一样，一般男生比女生偏低，首先让6位测试者对照音名表把他(她)能发的音的全部录音、训练，再随机选择几首曲子进行测试，实验结果表明，在对特定人的乐音识别中，由于女生发音ロ齿比较清晰，男生比较发音浑厚，男生的正确识别率在96%以上，女生的正确识别率在98%以上，平均正确识别率在97%以上，满足实用化要求。

图I是本发明提供的一种实施方案的系统示意图。图2是系统识别算法流程图。图3端点检测流程图。图4 MFCC參数求取过程图。
具体实施例方式 图I是本发明提供的硬件电路设计的原理框图。主要由音乐语音信息采集部分、音乐语音处理DSP部分、程序数据存储器FLASH部分、数据存储器SRAM部分、键盘管理部分、音源芯片语音输出部分、以及电源部分組成。音乐语音信息采集部分主要由MCUGPL162001来完成，该芯片自带12bit ADC和72个I/O ロ，方便键盘管理。音乐语音处理DSP部分选用了目前通用的TI公司的TMS320VC5402 16位微处理器，处理速度快，最快运行速度可达100MIPS，功耗低，是ー款理想的DSP处理器。考虑到速度要求较快，DSP的晶振选用100MHZ的晶振。另外，由于音乐输出要求有专业的乐音效果，电路中选择了由中芯微公司提供的64和弦MIDI音频处理芯片。此外，TMS320VC5402片上没有FLASH且片内RAM只有16K，考虑到语音数据比较大，我们外扩了 IM的FLASH芯片和64K的SRAM芯片。(TMS320VC5402)是整个硬件系统的信号处理中心，完成音乐语音识别エ作，进行RAM及FLASH存储芯片的数据管理与调度，井向主控芯片MCU提供反馈信息。电源的工作电压为3. 3V。图2是是系统识别算法流程图。主要包括语音信号预处理，端点检测，特征參数求取和语音识别等几个步骤。图3端点检测流程图。目的在于尽可能准确的情况下尽量分割开语言信号，尽量保证不错分，尽量提高分割的准确度，避免误分。图4是MFCC参数求取过程图。本系统采用了经典的美尔频标倒谱参数MFCC， MFCC参数建立在Fourier频谱分析的基础上，它的核心思想是利用人耳的感知特性，在语音的频谱范围内设置若干个带通滤波器，每个滤波器具备三角或者正弦的形滤波特性，计算相应滤波器组的信号能量，再通过DCT计算对应的倒谱系数。
权利要求
1.一种实时音乐语音识别系统，其特征在于，包括硬件电路主要由音乐语音信息采集部分、音乐语音处理DSP部分、程序数据存储器FLASH部分、数据存储器SRAM部分、键盘管理部分、音源芯片语音输出部分、以及电源部分组成；音乐语音识别设计音乐语音识别软硬件系统，采用滤波、消除毛刺的预处理方法，提高语音识别精度；检测端点建立一种基于多频段能量曲线分割结合过零率来检测端点的方法，在保证不错分的情况下，提高语音分割的正确率，同时结合过零率的门限，提高端点检测的精度。
2.根据权利要求I所述的实时音乐语音识别系统，其特征在于所述的音乐语音识别包括语音信号预处理，端点检测，特征参数求取和语音识别的步骤，具体内容如下语音信号预处理对语音信号进行前期的优化处理，方便后面的端点检测和语音识别；语音信号预处理主要包括分帧处理、预加重处理、加窗处理、滤波和消除毛刺处理；检测端点使用语音信号的能量曲线结合过零率来进行端点检测，从带有噪声的语音中检测出说话人的语音命令，找出语音段开始和结束的时点；语音特征参数提取采用美尔频标倒谱参数MFCC ；语音信号的训练与识别采用DTW算法来进行语音识别；基于动态规划的思想，将语音信号的每一帧信号的特征参数提取出来，转化成一组特征向量；将特征向量同模板库中已存的语音特征向量进行模板匹配，寻找距离最短的模板。
3.根据权利要求2所述的实时音乐语音识别系统，其特征在于所述的检测端点，具体内容如下对原语音信号进行不同频段的信号滤波，得到六个频段滤波后的能量曲线，E(I)为50-1000HZ段的语音信号；E(2) 100-1000HZ段的语音信号；E (3) 200-1000HZ段的语音信号；E(4)400-1000HZ 段的语音信号；E (5) 600-1000HZ 段的语音信号；E (5) 800-1000HZ 段的语音信号；能量分割是依据峰谷点检测来进行的，利用能量曲线峰谷点地变化，把能量曲线中的语音段分割出来，且把语音段的起点和终点作为端点。
4.根据权利要求2所述的实时音乐语音识别系统，其特征在于所述的语音特征参数提取，具体内容如下利用人耳的感知特性，在语音的频谱范围内设置若干个带通滤波器，每个滤波器具备三角或者正弦的形滤波特性，计算相应滤波器组的信号能量，再通过DCT计算对应的倒谱系数。
5.根据权利要求2所述的实时音乐语音识别系统，其特征在于所述的语音信号的训练与识别，具体内容如下语音识别需要语音模板库的建立参照音乐语音音高频率对照表，对人声范围共四个八度32个音高进行训练。
6.根据权利要求2所述的实时音乐语音识别系统，其特征在于所述的步骤I)的滤波、消除毛刺，具体内容如下采用50-1000HZ的FIR带通滤波器对原信号进行滤波；消除毛刺影响主要采用语音信号峰谷值检测的方法，把相邻两峰值之间很不明显的谷值和相邻两谷值之间很不明显的峰值去掉，对语音曲线中一些较小的毛刺进行曲线整形，消除那些明显的毛刺。
全文摘要
本发明提供了嵌入式实时音乐语音识别系统，设计并实现了一种嵌入式实时音乐语音识别系统。叙述了音乐语音识别系统硬件结构、软件流程，建立了一种基于多频段能量曲线分割结合过零率来检测端点的新方法，实验结果表明，该系统对特定人的平均识别率在97%以上。
文档编号G10L15/02GK102708859SQ20121020463
公开日2012年10月3日申请日期2012年6月20日优先权日2012年6月20日
发明者苏淳申请人:太仓博天网络科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏淳
技术所有人：太仓博天网络科技有限公司
我是此专利的发明人

上一篇：一种小体积封闭空间中畸变语音的矫正方法
上一篇：一种吉他拍锤的制作方法