一种语音识别系统的制作方法

文档序号:12475879阅读:207来源:国知局

本发明涉及语音技术领域,尤其是指一种语音识别系统。



背景技术:

语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

语音识别技术,也被称为自动语音识别(英语:Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与用户识别及用户确认不同,后者尝试识别或确认发出语音的用户而非其中所包含的词汇内容。

语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。

语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

语音识别包含用户识别和用户语义识别两种,前者利用的是语音信号中用户的个性特征,不考虑包含在语音中的字词的含义,强调的是用户的个性;而后者的目的是识别出语音信号中的语义内容,并不考虑用户的个性,强调的是语音的共性;同时对于具体用户的实际语意没有进行考虑。

然而现有技术识别用户的技术可靠性不高,因此使得采用具有特定语意的用户语音产品不能被广泛应用。



技术实现要素:

为了解决上述技术问题,本发明提供一种语音识别系统。

本发明是以如下技术方案实现的,一种语音识别系统,包括:

语音采集模块,用于收集用户待识别的语音数据;

预处理模块,用于对所述待识别的语音数据进行预处理;

特征提取模块,用于从预处理后的所述待识别的语音数据中提取语音特征参数;

存储模块,用于存储至少一个用户的语音模型;

模式匹配模块,基于提取所述语音特征参数,并且选择对应于所述语音特征参数的语音模型;

参数调整模块,用于通过使用所选择的所述模式匹配模块来调整语音参数,所述语音参数是用于识别所述待识别的语音数据的语音指令和语意;

语音指令识别模块,用于基于调整的所述语音参数来识别所述用户的所述语音指令;

语意识别模块,用于基于调整的所述语音参数来识别所述用户的所述语意。

优选的是,所述预处理模块包括模数转换单元、信号放大单元、增益控制单元、降噪单元、滤波单元和采样单元,用于依次对所述待识别的语音数据进行将采集到的模拟语音数据转换为数字语音数据、数字语音数据进行放大、校正所述数字语音数据的增益、消除所述数字语音数据中的噪声、对所述所述数字语音数据进行滤波和采样;其中,语音信号具有相关性,而背景噪声则无相关性,因而利用相关性的不同,可以检测出语音,尤其是可以将清音从噪声中检测出来。

优选的是,所述预处理模块还包括编码单元,用于对采样的数字语音数据进行格式转换及编码,使其被分割为由多帧组合而成的短时信号;其中,语音短时信号中包含有激励源和声道的特性,因而可以反映用户生理上的差别。而短时信号随时间变化,又在一定程度上反映了用户的发音习惯,因此,由语音短时信号中导出的参数可以有效地用于用户识别中。

优选的是,所述预处理模块还包括端点检测单元,用于计算进行格式转换及编码后的所述待识别的语音数据的语音起点和终点,获得所述待识别的语音数据中语音的时域范围。

优选的是,所述特征提取模块通过从编码后的所述待识别的语音数据中提取频率倒谱系数MFCC特征,来提取所述语音特征参数。

优选的是,所述语意识别模块包括储存单元、识别单元和选择单元,所述储存单元储存不同语音情感的语意;所述识别单元基于调整的所述语音参数来识别所述语调,并通过选择单元选取所述储存单元中的语意。

优选的是,所述模式匹配模块利用高斯混合模型,使用最大后验概率算法MAP将所提取的所述语音特征参数与所述语音模型进行匹配,计算所述待识别语音信号与每一个所述语音模型的似然度,来选择对应于所述语音特征参数的语音模型。

本发明的有益效果是:从语音的产生原理开始分析语音的特性,并使用MFCC参数,来提取所述语音特征参数,进而建立用户的语音模型并识别用户的实际语意。

附图说明

图1是本发明语音识别系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。

如图1所示,本发明是以如下技术方案实现的,一种语音识别系统,包括:

语音采集模块,用于收集用户待识别的语音数据;

预处理模块,用于对所述待识别的语音数据进行预处理;

特征提取模块,用于从预处理后的所述待识别的语音数据中提取语音特征参数;

存储模块,用于存储至少一个用户的语音模型;

模式匹配模块,基于提取所述语音特征参数,并且选择对应于所述语音特征参数的语音模型;

参数调整模块,用于通过使用所选择的所述模式匹配模块来调整语音参数,所述语音参数是用于识别所述待识别的语音数据的语音指令和语意;

语音指令识别模块,用于基于调整的所述语音参数来识别所述用户的所述语音指令;

语意识别模块,用于基于调整的所述语音参数来识别所述用户的所述语意。

优选的是,所述预处理模块包括模数转换单元、信号放大单元、增益控制单元、降噪单元、滤波单元和采样单元,用于依次对所述待识别的语音数据进行将采集到的模拟语音数据转换为数字语音数据、数字语音数据进行放大、校正所述数字语音数据的增益、消除所述数字语音数据中的噪声、对所述所述数字语音数据进行滤波和采样;其中,语音信号具有相关性,而背景噪声则无相关性,因而利用相关性的不同,可以检测出语音,尤其是可以将清音从噪声中检测出来。

优选的是,所述预处理模块还包括编码单元,用于对采样的数字语音数据进行格式转换及编码,使其被分割为由多帧组合而成的短时信号;其中,语音短时信号中包含有激励源和声道的特性,因而可以反映用户生理上的差别。而短时信号随时间变化,又在一定程度上反映了用户的发音习惯,因此,由语音短时信号中导出的参数可以有效地用于用户识别中。

优选的是,所述预处理模块还包括端点检测单元,用于计算进行格式转换及编码后的所述待识别的语音数据的语音起点和终点,获得所述待识别的语音数据中语音的时域范围。

优选的是,所述特征提取模块通过从编码后的所述待识别的语音数据中提取频率倒谱系数MFCC特征,来提取所述语音特征参数。

优选的是,所述语意识别模块包括储存单元、识别单元和选择单元,所述储存单元储存不同语音情感的语意;所述识别单元基于调整的所述语音参数来识别所述语调,并通过选择单元选取所述储存单元中的语意。

优选的是,所述模式匹配模块利用高斯混合模型,使用最大后验概率算法MAP将所提取的所述语音特征参数与所述语音模型进行匹配,计算所述待识别语音信号与每一个所述语音模型的似然度,来选择对应于所述语音特征参数的语音模型。

以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1