语音识别的方法及系统的制作方法

文档序号:9397884阅读:846来源:国知局
语音识别的方法及系统的制作方法
【技术领域】
[0001] 本发明属于语音识别技术领域,特别是涉及一种嵌入式语音识别的方法及系统。
【背景技术】
[0002] 语音识别是通过用机器识别用户声音命令来实现人机交互的关键技术,其可以显 著改进人机交互的方式以使得用户可以在说出命令的同时完成更多任务。语音识别是通过 在线或离线训练得到的语音识别引擎来实现的。语音识别过程通常可以分为训练阶段和识 别阶段。在训练阶段中,根据语音识别引擎所基于的数学模型,从训练数据中统计地得到声 学模型(acoustic model,AM)和词汇表(lexicon)。在识别阶段中,语音识别引擎使用声 学模型和词汇表对输入的语音进行处理,得到语音识别结果。例如,从输入声音的声波图进 行特征提取以获得特征向量,然后根据声学模型得到音素(如[i],[0]等)序列,最后从词 汇表中定位与音素序列匹配度较高的单词,甚至是句子。
[0003] 然而,现有的语音识别技术在识别过程中,由于语音识别系统的适应性差,且对环 境依赖性强,要求测试条件和训练条件必须保持一直,否则系统性能会会大大下降;或者, 高噪声环境下识别困难,特别是车载条件下,人的发音变化大,像发音失真、发音速度和音 调的改变因,导致语音识别的效率低下;或者,端点检测不确定性,即使在安静环境下,语音 识别系统一般以上的识别错误来自错误的端点检测,造成转化存在大量的问题。

【发明内容】

[0004] 鉴于以上所述现有技术的缺点,本发明的目的在于提供一种语音识别的方法及系 统,用于解决现有语音识别的方法适应性差、对环境依赖性强和端点检测不确定性,导致解 码效率低的问题。
[0005] 为实现上述目的及其他相关目的,本发明提供一种语音识别的方法,包括:
[0006] 获取语音信号;
[0007] 将所述语音信号进行模数转换,生成相应的语音数字信号;
[0008] 对所述语音数字信号进行预处理,根据预处理后相应的结果提取语音特征参数, 以提取所述语音特征参数的时间顺序构建相应的特征序列;
[0009] 将所述语音特征参数与模板库中语音模型进行匹配,根据搜索算法对所述特征序 列进行解码,以生成相应的识别结果。
[0010] 发明的另一目的还在于提供一种语音识别的系统,所述系统包括:
[0011] 获取单元,适用于获取语音信号;
[0012] 转换单元,适用于将所述语音信号进行模数转换,生成相应的语音数字信号;
[0013] 处理单元,适用于对所述语音数字信号进行预处理,根据预处理后相应的结果提 取语音特征参数,以提取所述语音特征参数的时间顺序构建相应的特征序列;
[0014] 识别单元,适用于将所述语音特征参数与模板库中语音模型进行匹配,根据搜索 算法对所述特征序列进行解码,以生成相应的识别结果。
[0015] 如上所述,本发明为一种语音识别的方法及系统,具有以下有益效果:
[0016] 首先,该语音系统从信号层、特征层和模型层方面,根据实际情况选择合适的处理 方法,提高了语音识别的噪声鲁棒性和语音增加的技术;
[0017] 其次,将时域GFCC特征替代频域上MFCC特征,且采用离散余弦变换替换传统的快 速傅立叶变换,大大减少了计算量,当嵌入至设备上,根据GFCC特征的识别实时性更高,也 变相的提尚了识别效率;
[0018] 最后,构建了基于加权有限状态转换的解码图来完成对识别的解码操作,将加权 有限状态机理论引入语音识别,用加权有限状态转换器构建词图,通过对模型的平滑和压 缩处理,以及对词图的剪枝操作,更够压缩整个系统的大小,并保证识别性能维持在一个较 高的水平,解码速度也能相应的提高。
【附图说明】
[0019] 图1显示本发明的实施例中提供的语音识别的方法流程图;
[0020] 图2显示本发明的实施例图1中提供的语音识别的方法步骤S103的流程图;
[0021] 图3显示本发明的实施例图1中提供的语音识别的方法步骤S104的流程图;
[0022] 图4显示本发明的实施例图3中提供的语音识别的方法步骤S303的流程图;
[0023] 图5显示本发明的实施例中提供的语音识别系统框架原理图;
[0024] 图6显示本发明的实施例中提供的语音识别系统框架完整结构图;
[0025] 图7显示本发明的实施例中提供的语音识别系统的识别单元Viterbi解析流程 图;
[0026] 图8显示本发明的实施例中提供的语音识别系统的识别单元Viterbi-beam解析 流程图。
[0027] 附图标号说明:
[0028] 1、语音信号,2、获取单元,3、转换单元,4、处理单元,5、识别单元,6、识别结果,41、 处理子单元,42、第一处理子单元,43、第二处理子单元,44、第三处理子单元,51、组合子单 元,52、确定子单元,53、优化子单元,54、解码子单元。
【具体实施方式】
[0029] 以下通过特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明 书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体 实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背 离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实 施例中的特征可以相互组合。
[0030] 需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构 想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸 绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也 可能更为复杂。
[0031] 如图1所示,为本发明提供一种语音识别的方法流程图;具体包括:
[0032] 步骤S101,获取语音信号;
[0033] 在本实例中,获取语音信号的方式优选采取麦克风进行采样,麦克风将声音从物 理状态转换为模拟的电信号,人的听力所能听到的声音频率范围约为20HZ-20KHZ,通常在 PC(perS〇nal computer)机的采样频率为16KHZ,嵌入式设备为8HZ,采样频率越高、数字化 的声波的保真度就越高。
[0034] 步骤S102,将所述语音信号进行模数转换,生成相应的语音数字信号;
[0035] 在本实施例中,将采集的语音信号通过AD转换(模数转换器),由模拟信号转为数 字信号,为了确保系统处理结果的精确度,必须保证AD转换具有足够的转换精度,通常采 用的方法是均匀量化和脉冲编码调制,且当前语音识别中常用16bit量化。
[0036] 步骤S103,对所述语音数字信号进行预处理,根据预处理后相应的结果提取语音 特征参数,以提取所述语音特征参数的时间顺序构建相应的特征序列;
[0037] 在本实施例中,训练过程中,获得的特征参数通过不同的训练方法获得,而后存 入至模板库,在解码过程中,新采集的语音信号经处理后为语音特征参数,在模板库中进 行模式匹配;提取的语音特征参数为倒谱系数(GFCC,Gammatone Frequency Cepstrum Coefficient)特征,使用特征空间的去噪技术,如倒谱均值归一,提升GFCC特征的噪声鲁 棒性和语音增加的技术。
[0038] 步骤S104,将所述语音特征参数与模板库中语音模型进行匹配,根据搜索算法对 所述特征序列进行解码,以生成相应的识别结果。
[0039] 在本实施例中,通过语音识别中噪声鲁棒性技术的研究基础上,以语音特征角度 出发,选用基于Gammatone滤波的GFCC特征作为语音识别中的特征,与传统的MFCC特 征相比,模拟人类听觉感知系统设计的GFCC特征对噪声有更强的区分性,在静音和多种 带噪语音的环境中,GFCC均有高于MFCC(梅尔频率倒谱系数,Mel Frequency Cepstrum Coefficient)的识别性能;而在时域上的GFCC特征提取与频域上的MFCC提取方式相比, 计算量更小,能够节省设备资源,更适合于嵌入式语音识别的任务要求。
[0040] 在Mohri等研究者对加权有限状态转换器(WFST,Weighted Finite State Transducer)的先期研究工作的铺垫下,目前主流的大词汇量非特定人连续语音识别系统 均采用WFST框架。在该理论框架下,语音识别中各层次的模型和知识被转换成WFST的形 式,并通过加权有限状态机理论中的组合操作,将模型和知识源整合成
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1