基于嵌入式gpu系统的并行化语音识别系统及方法

文档序号：8224540阅读：414来源：国知局

基于嵌入式gpu系统的并行化语音识别系统及方法
【技术领域】
[0001] 本发明设及一种语音识别系统及方法，尤其设及一种基于嵌入式GPU系统的并行化语音识别系统及方法，属于语音识别领域。
【背景技术】
[0002] 随着人工智能，智能终端等技术与设备的发展，语音识别被越来越广泛地应用，传统的语音识别方法通常是利用DSP等硬件装置或者结合人工神经网络算法等方式，将音频整个送入识别引擎作处理，该样做的好处是保留了语义的连贯性，可W最大限度地确保识别结果的准确率，但该种语音识别方法的缺点也显而易见；一方面是硬件成本高，系统结构复杂；另一方面是识别时间过长，难W处理大数据量的音频文件，所W需要做并行化处理W 缩短其识别时间。
[0003] 而现有的并行化技术目前还只停留在W数据为驱动的宏观层面上，即由多路引擎组成集群，在同一个时间段可W在不同的机器上处理多个文件，一定程度上减小了处理器的压力。但随之而来的问题是；切分后的音频数据在网络中传输所带来的时间开销大，不能达到实时性要求、算法复杂，缺乏合理有效地并行调度控制W及部署集群来做语音识别成本过大，难W民用化。

【发明内容】

[0004] 本发明在于提供一种基于嵌入式GPU系统的并行化语音识别系统及方法，W解决现有语音识别方法并行化程度低、时间开销大W及成本高的技术问题。
[0005] 本发明的目的通过W下技术方案予W实现；基于嵌入式GPU系统的并行化语音识别系统，包括嵌入式GPU系统1、语音输入模块2和显示输出模块3 ;其中嵌入式GPU系统1 由预处理模块1-1、并行化特征提取模块1-2、并行化特征匹配模块1-3和语音库1-4组成；语音输入模块2的输出信号进入嵌入式GPU系统1，在嵌入式GPU系统1内顺序通过预处理模块1-1、并行化特征提取模块1-2和并行化特征匹配模块1-3,信号在嵌入式GPU系统 1内处理后输出进入显示输出模块3进行输出显示；语音库1-4的输入信号进入并行化特征匹配模块1-3。
[0006] 基于嵌入式GPU系统的并行化语音识别系统的方法，包括下列步骤：
[0007] 1、语音输入模块2采集语音信号，并将数字化的信号送入基于CUDA平台架构的嵌入式GPU系统1 ;
[000引 2、信号进入嵌入式GPU系统1的预处理模块1-1，利用CUDA架构在预处理模块1-1 中进行W下预处理步骤：
[0009] (a)通过并行化的一阶数字预加重滤波程序滤除输入语音信号的低频干扰，提升对语音识别有用的高频部分；
[0010] 化）利用并行化的方法给输入语音信号加窗分帖，使得语音信号更易于处理；
[0011] (C)采用双口限比较法进行端点检测，将输入语音信号切分为若干片段，减少计算量，提高系统的识别率；
[0012] 3、利用CUDA架构，在并行化特征提取模块1-2中对切分后的每个语音片段并行化地进行特征提取；
[0013] 4、利用CUDA架构，在并行化特征匹配模块1-3中将分段特征提取后的信号特征值与语音库1-4中的语音模板进行并行化的特征匹配；
[0014] 5、整合各片段的匹配识别结果，得出完整的语音识别信息，送入显示输出模块3 显不结果。
[0015] 其中，所述步骤2(a)中一阶数字预加重滤波程序由一阶高通滤波器实现，其传递函数为；H(z) = 1-az-i。
[0016] 其中，所述步骤2(b)中对语音信号的分帖加窗是由可移动的有限长度窗口进行加权的方法来实现的，即5,〇1)=5〇1)*巧〇1)，其中5〇1)为加窗前的函数，5,〇1)为加窗后的函数，w(n)即为所加的窗函数。
[0017] 其中，所述步骤2(c)中端点检测是通过将语音信号的短时能量和短时过零率作为特征参数，同时采用双口限判定法来检测语音，根据语音间短暂停顿切分语音信号实现。
[0018] 其中，所述步骤3中提取各段语音信号的特征值，是通过对切分后的每个语音片段并行化进行特征提取来实现，提取的特征值参数为该片段的Mel频率倒谱系数MFCC和片段索引数组。特征值参数中的索引数组是指本语音片段中每帖的特征向量的一维量化值组成的一维数组；该一维量化值是采用自相似加权距离法对音频特征数据进行降维处理产生的对于第i帖n维特征向量Xi，对应的一维量化值Pi:
[0019]
【主权项】
1. 基于嵌入式GPU系统的并行化语音识别系统，其特征在于，包括嵌入式GPU系统 (1)、语音输入模块（2)和显示输出模块（3);其中嵌入式GPU系统（1)由预处理模块（1-1)、并行化特征提取模块（1-2)、并行化特征匹配模块（1-3)和语音库（1-4)组成；语音输入模块（2)的输出信号进入嵌入式GPU系统（1)，在嵌入式GPU系统（1)内顺序通过预处理模块（1-1)、并行化特征提取模块（1-2)和并行化特征匹配模块（1-3)，信号在嵌入式GPU系统（1)内处理后输出进入显示输出模块（3)进行输出显示；语音库（1-4)的参考信号进入并行化特征匹配模块（1-3)。
2. 基于嵌入式GPU系统的并行化语音识别系统的方法，其特征在于，包括下列步骤： (1) 语音输入模块（2)采集语音信号，并将数字化的信号送入基于CUDA平台架构的嵌入式GPU系统（1); (2) 信号进入嵌入式GPU系统（1)的预处理模块（1-1)，利用CUDA架构在预处理模块 (1-1)中进行以下预处理步骤： (a) 通过并行化的一阶数字预加重滤波程序滤除输入语音信号的低频干扰，提升对语音识别有用的高频部分； (b) 利用并行化的方法给输入语音信号加窗分帧，使得语音信号更易于处理； (c) 采用双门限比较法进行端点检测，将输入语音信号切分为若干片段，减少计算量，提尚系统的识别率； (3) 利用CUDA架构，在并行化特征提取模块（1-2)中对切分后的每个语音片段并行化地进行特征提取； (4) 利用CUDA架构，在并行化特征匹配模块（1-3)中将分段特征提取后的信号特征值与语音库（1-4)中的语音模板进行并行化的特征匹配； (5) 整合各片段的匹配识别结果，得出完整的语音识别信息，送入显示输出模块（3)显不结果。
3. 根据权利要求2所述的基于嵌入式GPU系统的并行化语音识别系统及方法，其特征在于，所述步骤（a)中一阶数字预加重滤波程序由一阶高通滤波器实现，其传递函数为： H(z) = l_az-1〇
4. 根据权利要求2所述的基于嵌入式GPU系统的并行化语音识别系统及方法，其特征在于，所述步骤（b)中对语音信号的加窗分帧是由可移动的有限长度窗口进行加权的方法来实现的，即3?=3〇1)*￥(11)，其中5(11)为加窗前的函数，5?为加窗后的函数，￥(11) 即为所加的窗函数。
5. 根据权利要求2所述的基于嵌入式GPU系统的并行化语音识别系统及方法，其特征在于，所述步骤（c)中端点检测是通过将语音信号的短时能量和短时过零率作为特征参数，同时采用双门限判定法来检测语音，根据语音间短暂停顿切分语音信号实现。
6. 根据权利要求2所述的一种基于嵌入式GPU系统的并行化语音识别系统及方法，其特征在于，所述步骤（3)对切分后的每个语音片段并行化进行特征提取，提取的特征值参数为该片段的Mel频率倒谱系数MFCC和片段索引数组。
7. 根据权利要求2或6所述的基于嵌入式GPU系统的并行化语音识别系统及方法，其特征在于，所述步骤（3)中，特征值参数中的索引数组是指本语音片段中每帧的特征向量的一维量化值组成的一维数组；该一维量化值是采用自相似加权距离法对音频特征数据进行降维处理产生的；对于第i帧η维特征向量Xi，对应的一维量化值pi:
其中，d^Xy)表示两个特征向量间的距离，R为计算范围，Cj为加权系数，其值可采用下列公式确定：
8. 根据权利要求2或7所述的基于嵌入式GPU系统的并行化语音识别系统及方法，其特征在于，所述并行化特征提取模块（1-2)对每一语音片段进行特征值提取计算的过程是并行化的；在CUDA平台架构下，为每个语音片段分配一个线程，并行执行特征值计算，以加快处理速度，提高系统效率。
9. 根据权利要求2所述的基于嵌入式GPU系统的并行化语音识别系统及方法，其特征在于，所述步骤（4)中，分段特征提取后的信号特征值与已有语音库（1-4)中的模板进行并行化特征匹配过程：首先利用各片段的索引数组来计算该音频片段与各模板的相似度，如果相似度小于所设定的阈值，则本次匹配失败，接着进行下一个索引数组与模板的相似度计算；否则，继续利用该语音片段的MFCC特征值来计算与当前模板的相似度，如果MFCC特征值相似度大于设定阈值，则该片段与模板匹配成功；按此方法通过并行化的片段匹配，最终识别完整的语音内容。
10. 根据权利要求2或9所述的基于嵌入式GPU系统的并行化语音识别系统及方法，其特征在于，所述并行化特征匹配模块（1-3)语音片段的特征值匹配是通过基于CUDA平台的并行化音频检索方法实现的；根据每次输入GPU的语音片段数自适应的设置相应GPU执行配置，多个线程组成一个线程块，若干个线程块组成一个线程格；将语音库中的众多模板分给各线程块去处理，即：线程格内的每个线程块处理不同的模板，而每个线程块内的所有线程处理同一个模板；每个语音片段分别与一个线程块中同一模板的每个线程进行并行匹配计算；这样每个CUDA线程都相互独立地执行各自的匹配运算。
【专利摘要】本发明公布了一种基于GPU系统的并行化语音识别系统及方法，该系统包括嵌入式GPU系统、语音输入模块和显示输出模块；其中，嵌入式GPU系统由预处理模块、并行化特征提取模块和并行化特征匹配模块组成。语音输入模块输出信号进入嵌入式GPU系统，在嵌入式GPU系统内顺序通过预处理模块、并行化特征提取模块和并行化特征匹配模块，输入至显示输出模块显示；语音库的信号模板进入并行化特征匹配模块。本发明对部分模块进行了并行化改进，能够处理大数据量的音频识别。同时利用并行化方法优化语音信号处理等过程，提高语音识别系统效率，保证语音识别功能实时性，增强语音识别系统的健壮性和稳定性。本发明还公布了一种基于GPU系统的并行化语音识别系统的方法。
【IPC分类】G10L15-26
【公开号】CN104538033
【申请号】CN201410837018
【发明人】刘镇, 吕超, 孟腾腾, 范远超
【申请人】江苏科技大学
【公开日】2015年4月22日
【申请日】2014年12月29日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘镇;吕超;孟腾腾;范远超;
技术所有人：江苏科技大学;
我是此专利的发明人

上一篇：一种语音识别方法及系统的制作方法
上一篇：一种融合用户反馈的汉语语音识别方法及系统的制作方法