一种电动轮椅语音识别过程中的语音增强方法

文档序号：2827363阅读：339来源：国知局

一种电动轮椅语音识别过程中的语音增强方法
【专利摘要】本发明涉及电动轮椅语音识别过程中的语音增强方法，该增强方法在信号空间，运用听觉掩蔽效应和先验信噪比相结合的语音增强算法进行增强，克服了在智能轮椅鲁棒语音识别在噪声环境中识别率偏低的问题。本发明的方法对于特定人语音识别系统具有较好的通用性，其用于电动轮椅语音控制系统中的语音识别，能够提高系统在噪声环境下的识别率，实现了对电动轮椅的精确控制，达到用户与电动轮椅之间语音交互的目的。
【专利说明】一种电动轮椅语音识别过程中的语音增强方法
【技术领域】
[0001]本发明涉及语音控制领域，具体涉及到语音识别技术在电动轮椅中的应用。
【背景技术】
[0002]随着社会的发展和人类文明程度的提高，对老年人、残疾人的服务需求会日益增加，他们需要运用现代高新技术来改善他们的生活质量和生活自由度。世界人口老龄化的进程正在加快，另外由于各种交通事故、天灾人祸和种种疾病，每年均有成千上万的人丧失一种或多种能力(如行走、动手能力等)，这种社会现实促进了无障碍技术在助老、助残方面的应用。因此，无障碍技术成为国内外科技人员研究的热点。
[0003]无障碍技术是借助先进的科学技术为老年人和残障人士提供有效的辅助手段，使他们能够重新融入社会。人机交互技术是无障碍技术的重要研究内容之一。人机交互技术根据采用控制模式的不同可以分为两类:第一，通过硬件实施操作完成人机交互，如操作鼠标、键盘、操纵杆等。这种控制方式容易操作，但是并不适用于失去上肢或上肢存在缺陷的人群；第二，采用模式识别技术，利用人体自身的器官，如手、腕部、头部和脑电等完成人机交互。具体说来是通过语音识别、手势识别、头部运动、腕部运动、肌电信号和脑电信号(EEG)等来完成对电子设备的控制。这种人机交互方式具有非接触性，交互过程也比较直观，并且适用范围更广。因此，基于语音识别的无障碍技术具有潜在的研究价值和意义。
[0004]语音识别研究是多门学科交叉的研究，语言交流是人与人之间最有效、最直接，也是最方便和快捷的交流方式，同时是人机交互的重要交流方式。语音识别作为人机交互的常用方法，具有巨大的优势。目前绝大多数的语音识别系统都只能在低噪声的环境下使用。虽然在安静环境下语音控制电动轮椅能达到比较好的效果，但是在噪声环境下不能达到预期的要求，因此鲁棒语音识别的研究是当前语音识别研究的前沿，具有重要的理论和实际应用价值，对于推动语音识别系统走向市场化应用具有重要的意义。
[0005]电动轮椅作为一种代步工具，主要是为老年人和残障人士提供服务。它融合了多种技术，如自主导航、避障和人机交互等技术。传统意义上的电动轮椅是通过手动操纵杆来完成对运动的控制，但是并不适用于上肢不便的用户，因此应用的人群范围受到了限制。随着科技的迅猛发展，基于模式识别的新型控制技术已经在电动轮椅上得到了广泛应用，如手势、头部运动、肌电信号和基于脑电信号的BCI技术等。基于鲁棒语音识别技术的电动轮椅控制能给许许多多的残障人带来了方便，使他们能够参加正常的社交活动。电动轮椅作为人机交互的一个应用平台，融合了机器人研究领域的多种技术，具有十分广泛的应用前
旦
-5^ O

【发明内容】

[0006]本发明所要解决的技术问题针对现有语音识别在噪声环境下识别效果不理想的困境，提供一种基于语音增强的电动轮椅控制系统。本发明要用于电动轮椅语音控制系统中的语音识别，能够提高系统在噪声环境下的识别率，实现了对电动轮椅的精确控制，达到用户与电动轮椅之间语音交互的目的。
[0007]为了达到上述发明目的，本发明专利提供的技术方案如下:
一种电动轮椅语音识别过程中的语音增强方法，所述电动轮椅语音识别过程包括有输入语音信号预处理、特征参数提取、训练阶段中处理特征参数为每个命令词得到一个模块保存为模板库、识别阶段中先得到语音参数生成测试模板，该测试模板与模板库中的参考模板匹配，将匹配相似度最好的参考模块作为识别结果，其特征在于，所述的语音增强方法包括如下步骤:
第一步，对带噪声的输入语音信号进行预处理、分帧以及快速傅里叶变换算法，得到带噪声语音信号的频谱；
第二步，计算每一帧带噪声语音信号的先验信噪比，通过谱减法得到较为纯净的语音信号;
第三步，通过听觉掩蔽效应计算噪声掩蔽门限，得到噪声掩蔽门限后计算自适应的谱减系数；
第四步，进行第二次谱减，得到纯净语音信号的频谱；
第五步，通过逆快速傅里叶变换，得到增强后的语音信号。
[0008]在计算先验信噪比时，根据谱减法可以用线性时变滤波器形式表示，即I昊丨乘以增益函数兔，如式(I)所示:
【权利要求】
1.一种电动轮椅语音识别过程中的语音增强方法，所述电动轮椅语音识别过程包括有输入语音信号预处理、特征参数提取、训练阶段中处理特征参数为每个命令词得到一个模块保存为模板库、识别阶段中先得到语音参数生成测试模板，该测试模板与模板库中的参考模板匹配，将匹配相似度最好的参考模块作为识别结果，其特征在于，所述的语音增强方法包括如下步骤: 第一步，对带噪声的输入语音信号进行预处理、分帧以及快速傅里叶变换，得到带噪音语音信号的频谱；第二步，计算每一帧带噪声语音信号的先验信噪比，通过第一次谱减法，得到较为纯净的语音信号频谱；第三步，通过听觉掩蔽效应计算噪声掩蔽门限，得到噪声掩蔽门限后计算自适应的谱减系数；第四步，进行第二次谱减法，得到纯净的语音信号频谱；第五步，通过逆快速傅里叶变换，得到增强后的语音信号。
2.根据权利要求1所述的一种电动轮椅语音识别过程中的语音增强方法，其特征在于，所述第二步中的计算先验信噪比时，根据谱减法用线性时变滤波器形式表示，即乘以增益函数如式⑴所示:
3.根据权利要求1所述的一种电动轮椅语音识别过程中的语音增强方法，其特征在于，所述第三步中计算基于人耳掩蔽效应的听觉掩蔽阈值时需先划定临界带宽，该临界带宽是当纯音信号的功率等于该噪声信号的功率时，纯音信号刚好被人耳听到的临界状态的频率宽度，该临界宽度为实验测得的常数。
4.根据权利要求3所述的一种电动轮椅语音识别过程中的语音增强方法，其特征在于，所述听觉掩蔽阈值的计算过程如下:先分别计算临界带宽的功率谱、扩展临界带宽的功率谱和噪声掩蔽扩展门限，再将计算得到的噪声掩蔽扩展门限与人耳听觉的绝对门限比较，取两者最大的一个作为听觉掩蔽阈值。
5.根据权利要求4所述的一种电动轮椅语音识别过程中的语音增强方法，其特征在于，临界带宽个数的计算，
6.根据权利要求5所述的一种电动轮椅语音识别过程中的语音增强方法，其特征在于，把每个临界带宽内语音信号的功率谱求和即可得到每个临界带宽的功率谱，设为信号快速傅里叶变换的功率谱，则每个临界带宽的功率谱为:
7.根据权利要求5所述的一种电动轮椅语音识别过程中的语音增强方法，其特征在于，将临界带宽功率谱转换为扩展临界带宽功率谱，用扩展函数&^?来估计不同临界带宽之间的掩蔽效应，如式(7)所示:
8.根据权利要求5所述的一种电动轮椅语音识别过程中的语音增强方法，其特征在于，确定带噪声语音信号是类似纯音还是类似噪声，其通过谱平坦测度(SpectralFlatness Measure, SFM)来确定:
9.根据权利要求8所述的一种电动轮椅语音识别过程中的语音增强方法，其特征在于，根据语音频谱的清音与浊音特性产生的门限偏移量表示式(13)所示: Oi=^x04J+i)fP~i|)x5i(13) 由此可得到扩展噪声掩蔽阈值为:TSFi(14) 噪声的掩蔽阈值通过阈值归一化，并通过绝对听阈值进行比较得到，如式(15)所示:
10.根据权利要求9所述的一种电动轮椅语音识别过程中的语音增强方法，其特征在于，所述第三步中自适应的谱减法系数计算，得到听觉掩蔽阈值后，通过下式计算得到自适应的谱减法系数:

(17) ---%.^?-蝴 Twm~Ti _ Ti~Tmmn、則-1lT#腿-綱其中1]为Bark频率段的听觉掩蔽阈值，；和是每一帧的听觉掩蔽阈值的最大值和最小值；通过下式计算得到自适应的谱减系数:
【文档编号】G10L21/0232GK103824564SQ201410099003
【公开日】2014年5月28日申请日期:2014年3月17日优先权日:2014年3月17日
【发明者】金会庆, 宋扬, 金来, 章志达, 魏晶, 张毅, 刘想德, 徐晓东申请人:上海申磬产业有限公司, 金会庆, 宋扬, 金来

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金会庆;宋扬;金来;章志达;魏晶;张毅;刘想德;徐晓东
技术所有人：上海申磬产业有限公司;金会庆;宋扬;金来
我是此专利的发明人

上一篇：中文语音识别系统的制作方法
上一篇：信息处理方法和信息处理装置制造方法