语音识别系统的制作方法

文档序号：2829134阅读：510来源：国知局

专利名称：语音识别系统的制作方法
技术领域：
本发明涉及语音检测技术领域，尤其是指一种语音识别系统。
背景技术：
目前，在电信、服务业和工业生产线的电子产品开发中，许多产品上使用了语音识别技术，并创造出一批新颖的语音产品，如语音记事本、声控玩具、语音摇控器及家用服务器等，从而极大地减轻了劳动强度、提高了工作效率，并日益改变着人们的日常生活。因此，目前语音识别技术被视为本世纪最有挑战性、最具市场前景的应用技术之一。语音识别包含说话人识别和说话人语义识别两种，前者利用的是语音信号中说话人的个性特征，不考虑包含在语音中的字词的含义，强调的是说话人的个性；而后者的目的是识别出语音信号中的语义内容，并不考虑说话人的个性，强调的是语音的共性。然而现有技术识别说话人的技术可靠性不高，因此使得采用说话人检测的语音产品不能被广泛应用。

发明内容
根据以上，本发明技术方案的目的是提供一种语音识别系统，以提高说话人检测的可靠性，使语音产品能够被广泛应用。本发明提供一种语音识别系统，包括:存储单元，用于存储至少一个用户的语音模型；语音采集及预处理单元，用于采集待识别语音信号，对所述待识别语音信号进行格式转换及编码；特征提取单元，用于从编码后的所述待识别语音信号中提取语音特征参数；模式匹配单元，用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，确定所述待识别语音信号所属的用户。优选地，上述所述的语音识别系统，在采集所述待识别语音信号后，所述语音采集及预处理单元还用于依次对所述待识别语音信号进行放大、增益控制、滤波及采样，之后对所述待识别语音信号进行格式转换及编码，使所述待识别语音信号被分割为由多帧组合而成的短时信号。优选地，上述所述的语音识别系统，所述语音采集及预处理单元还用于对进行格式转换及编码后的所述待识别语音信号采用窗函数进行预加重处理。优选地，上述所述的语音识别系统，还包括:端点检测单元，用于计算进行格式转换及编码后的所述待识别语音信号的语音起点及语音终点，去除所述待识别语音信号中的静音信号，获得所述待识别语音信号中语音的时域范围；以及用于对所述待识别语音信号中的语音频谱进行傅里叶变换FFT分析，根据分析结果计算所述待识别语音信号中的元音信号、浊音信号及轻辅音信号。

优选地，上述所述的语音识别系统，所述特征提取单元通过从编码后的所述待识别语音信号中提取频率倒谱系数MFCC特征，获得所述语音特征参数。优选地，上述所述的语音识别系统，所述语音识别系统还包括:语音建模单元，用于利用所述语音特征参数，采用频率倒谱系数MFCC建立与文本无关的高斯混合模型为语音的声学模型。优选地，上述所述的语音识别系统，所述模式匹配单元利用高斯混合模型，使用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，计算所述待识别语音信号与每一个所述语音模型的似然度。优选地，上述所述的语音识别系统，采用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，确定所述待识别语音信号所属的用户的方式具体采用以下公式:
权利要求
1.一种语音识别系统，其特征在于，包括: 存储单元，用于存储至少一个用户的语音模型；语音采集及预处理单元，用于采集待识别语音信号，对所述待识别语音信号进行格式转换及编码；特征提取单元，用于从编码后的所述待识别语音信号中提取语音特征参数；模式匹配单元，用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，确定所述待识别语音信号所属的用户。
2.如权利要求1所述的语音识别系统，其特征在于，在采集所述待识别语音信号后，所述语音采集及预处理单元还用于依次对所述待识别语音信号进行放大、增益控制、滤波及采样，之后对所述待识别语音信号进行格式转换及编码，使所述待识别语音信号被分割为由多帧组合而成的短时信号。
3.如权利要求2所述的语音识别系统，其特征在于，所述语音采集及预处理单元还用于对进行格式转换及编码后的所述待识别语音信号采用窗函数进行预加重处理。
4.如权利要求1所述的语音识别系统，其特征在于，所述语音识别系统还包括: 端点检测单元，用于计算进行格式转换及编码后的所述待识别语音信号的语音起点及语音终点，去除所述待识别语音信号中的静音信号，获得所述待识别语音信号中语音的时域范围；以及用于对所述待识别语音信号中的语音频谱进行傅里叶变换FFT分析，根据分析结果计算所述待识别语音信号中的元音信号、浊音信号及轻辅音信号。
5.如权利要求1所述的语音识别系统，其特征在于，所述特征提取单元通过从编码后的所述待识别语音信号中提取频率倒谱系数MFCC特征，获得所述语音特征参数。
6.如权利要求5所述的语音识别系统，其特征在于，所述语音识别系统还包括:语音建模单元，用于利用所述语音特征参数，采用频率倒谱系数MFCC建立与文本无关的高斯混合模型为语音的声学模型。
7.如权利要求1所述的语音识别系统，其特征在于，所述模式匹配单元利用高斯混合模型，使用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，计算所述待识别语音信号与每一个所述语音模型的似然度。
8.如权利要求7所述的语音识别系统，其特征在于，采用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，确定所述待识别语音信号所属的用户的方式具体采用以下公式:
9.如权利要求8所述的语音识别系统，其特征在于，利用高斯混合模型，所述待识别语音信号的特征参数由一组参数丨w,、总、丨唯一确定，其中K、兵、Ci分别为说话人语音特征参数的混合加权值、平均值向量及协方差矩阵。
10.如权利要求7所述的语音识别系统，其特征在于，所述语音识别系统还包括判决单元，用于将与所述待识别语音信号具有最高似然度的所述语音模型与预设识别门限进行比对，确定所述待识别语音信号所属的用户`。
全文摘要
本发明提供一种语音识别系统，包括存储单元，用于存储至少一个用户的语音模型；语音采集及预处理单元，用于采集待识别语音信号，对所述待识别语音信号进行格式转换及编码；特征提取单元，用于从编码后的所述待识别语音信号中提取语音特征参数；模式匹配单元，用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，确定所述待识别语音信号所属的用户。该系统从语音的产生原理开始分析语音的特性，并使用MFCC参数，建立说话人的语音特征模型，实现说话人的特征识别算法，能够达到提高说话人检测可靠性的目的，使得最终能够在电子产品上实现说话人识别的功能。
文档编号G10L25/93GK103236260SQ20131010904
公开日2013年8月7日申请日期2013年3月29日优先权日2013年3月29日
发明者王健铭申请人:京东方科技集团股份有限公司, 北京京东方显示技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王健铭
技术所有人：京东方科技集团股份有限公司;北京京东方显示技术有限公司
我是此专利的发明人

上一篇：一种特定人语音识别的方法
上一篇：基于韵律特征参数和情感参数关联性的语音情感修正方法