利用增益自适应提高语音识别率的方法

文档序号:7601605阅读:325来源:国知局
专利名称:利用增益自适应提高语音识别率的方法
技术领域
本发明涉及自动语音识别领域,特别是一种利用增益自适应提高语音识别率的方法。
背景技术
近年来语音识别技术得到了巨大的发展,并且在手机等嵌入式领域大量普及,其中语音拨号程序更是逐渐成为高端智能手机的必备功能之一。使用语音拨号方便,快捷,不需记忆繁琐的电话号码,也不需要从屏幕上一页页的查找联系人,极大的提高了人们的沟通效率。
但是现在各种语音识别方法以及产品在噪音环境中都表现不佳,主要存在以下几个方面的问题一是噪音环境下的误触发问题,容易将吵闹的背景音误认为开始说话。二是噪音环境下的识别率问题信噪比相对较低,因而导致识别率不高。三是噪音环境下的语音结束判断问题容易将吵闹的背景音误认为一直在说话,从而很长时间都无法结束。四是噪音环境下的信道饱和问题外部环境吵闹时信道容易饱和,从而使录音数据失真,影响语音识别。

发明内容
本发明的目的在于提出一种新的噪音环境下的评估处理方法,以使得在各种噪音环境中仍然能够使用语音识别这一技术,并保证比较高的识别率。在噪音环境中提高手机语音识别率的方法,发明的基本特征是在噪音环境中通过对背景噪音的评估分析,相应调节手机的录音增益,调整端点检测方法参数,以达到抑止通道饱和,增加信噪比,进而提高语音识别率以及任务完成率。
该发明的技术要点是,在吵闹环境中,用户会自觉将手机靠近嘴说话,或者提高声音。因此,根据此时背景噪音的评估设置相应的麦克风增益,同时调节端点检测方法参数。如果环境很吵,则降低增益,否则提高增益,这样能够最大可能的压制噪音,提高信噪比。
利用增益自适应提高语音识别率的方法,其特征是通过噪音评估,调节录音增益,调整端点检测方法参数来提高语音识别率。
根据评估出来的背景设定不同的增益值,方法如下在每种噪音环境中,通过调节录音增益,用权利要求2提供的方法分别测试并记录所有增益下的背景音评估值,然后从中选择使得背景噪音评估取值最小的增益值。这样就得到一个背景类型和增益值的对应表,增益的调节按照这个表来进行。
该方法主要由以下几个连续的流程组成背景音评估,录音增益调整,端点检测,进行识别。具体说明如下1.背景音评估方法本方法用于评估当前的背景环境噪声。用相互不叠加的长度为N=960(0.125秒)的矩形窗把语音分成K段,并计算每一段的子带能量Ei(i=0,1,...,K)。则在检测到第i个语音块时的背景噪声的计算公式为B=[Ei+(ω-1)B]/ω,其中ω是一个正整数,我们取ω=10。根据计算出来的B值范围作等差分布,将背景环境划分为以下几个类型安静环境如办公室普通环境如室外吵闹环境如公共汽车上2.录音增益调整方法在吵闹的背景中,用户习惯大声说话,而在安静的环境中用户通常会轻轻的说话。这样在用户的参与下,能够保证一定的信噪比,进而保证识别率。但是存在以下问题在吵闹环境下说话声稍微提高就容易造成通道饱和,数据失真,从而降低识别率。另一方面,背景音的能量起伏变化很大,给语音的起始结束判断带来难度。
录音增益调整的目的是使得在任何环境下保证录下的背景噪音保持一个稳定的水平,从而解决上面提到的问题。方法的主要步骤如下首先给定的手机必须能够设置录音增益。在步骤一中评估出来的每种噪音环境中,通过调节录音增益,用同样的方法分别测试并记录所有增益下的背景音评估值。然后从中选择使得背景噪音评估取值最小的增益值。这样就得到一个背景类型和增益值的对应表,增益的调节按照这个表来进行。对于不同型号的手机这个表不完全相同,需要通过该方法测试得到。下面是在某款手机上的实测数据(该手机的增益调节范围为1到30)

3.端点检测方法本端点检测方法对语音的首尾端点分别采用不同的检测方法。
以往的研究结果表明,准确确定语音的尾端点更难,特别是对于某些被弱化了的语音结尾,很容易被丢失,从而造成识别错误。因此我们采用语音识别过程来决定语音的尾端点当系统检测到语音,并且最佳路径已经到达词尾的静音模型并保持连续0.375秒,则判定语音结束,测试表明,该方法对尾端点的检测准确率接近100%,优于任何尾端点检测方法。
语音首端点的检测采用基于子带能量的方法,判决门限的计算公式为T=λB,其中λ为一个常量,这里选择λ=14,B为评估的背景噪声值。判决方法假设当前块语音的能量为E,首先更新背景噪声的值B;当E<=T时,表示是背景噪声,则并将最新的两块语音(0.25秒)保存下来;当E>T时,表示检测到语音,由于还保存了0.25秒的语音,因此将语音首端点向前推0.25秒,以保证语音不被丢失。
本发明的优点在于能够有效解决噪音环境中使用语音识别遇到的系列问题,提高识别率和任务完成率。
实例分别在电视机前,城铁,马路上录制一批数据,图1是使用本方法前后的任务完成率对比数据(百分比数据)。
以下专有名词“噪音自适应”,“SEA(Smart EnvironmentAdaptation)”,其表现为在各种噪音环境中都能有效提高语音识别率。
利用使用者说话习惯,在吵闹环境中降低录音增益,抑止通道饱和。


图1是使用本发明方法前后的任务完成率对比数据(百分比数据)图。
图2是本发明的利用增益自适应提高语音识别率方法流程图。
具体实施例方式
图1是使用本方法前后的任务完成率对比数据(百分比数据)。
分别在电视机前,城铁,马路上录制一批数据比较结果。在各种噪音环境中都能有效提高语音识别率。
图2的利用增益自适应提高语音识别率方法,其步骤如下步骤S1,评估背景噪音;步骤S2,根据步骤S1评估出来的背景噪音类型调整录音增益;步骤S3,在步骤S1,S2的基础上进行端点检测和语音识别。
权利要求
1.一种利用增益自适应提高语音识别率的方法,其特征是通过噪音评估,调节录音增益,调整端点检测方法参数来提高语音识别率。
2.根据权利要求1所述的背景音评估方法,其特征是根据历史噪音和当前噪音将背景环境分类,具体方法为用相互不叠加的长度为N=960(0.125秒)的矩形窗把语音分成K段,并计算每一段的子带能量Ei(i=0,1,…,K),则在检测到第i个语音块时的背景噪声的计算公式为B=[Ei+(ω-1)B]/ω,其中ω是一个正整数,我们取ω=10,将背景噪音划分为三种类型安静环境,如办公室,普通环境,如室外,吵闹环境,如公共汽车上。
3.根据权利要求1所述的录音增益调整方法,其特征是根据评估出来的背景设定不同的增益值,方法如下在每种噪音环境中,通过调节录音增益,用权利要求2提供的方法分别测试并记录所有增益下的背景音评估值,然后从中选择使得背景噪音评估取值最小的增益值,这样就得到一个背景类型和增益值的对应表,增益的调节按照这个表来进行。
4.根据权利要求1所述的端点检测方法,其特征是首尾端点采用不同的检测方法,并根据背景评估出来的参数调节。采用语音识别过程来决定语音的尾端点当系统检测到语音,并且最佳路径已经到达词尾的静音模型并保持连续0.375秒,则判定语音结束。语音首端点的检测采用基于子带能量的方法,判决门限的计算公式为T=λB,其中λ为一个常量,这里选择λ=14,B为评估的背景噪声值。
5.根据权利要求1的利用增益自适应提高语音识别率的方法,其具体步骤如下步骤S1,评估背景噪音;步骤S2,根据步骤S1评估出来的背景噪音类型调整录音增益;步骤S3,在步骤S1,S2的基础上进行端点检测和语音识别。
全文摘要
本发明涉及自动语音识别领域,特点是一种利用增益自适应提高语音识别率的方法。通过噪音评估,调节录音增益,调整端点检测方法参数来提高语音识别率。其具体步骤如下步骤S1,评估背景噪音;步骤S2,根据步骤S1评估出来的背景噪音类型调整录音增益;步骤S3,在步骤S1,S2的基础上进行端点检测和语音识别。
文档编号H04M9/08GK1801326SQ20041010465
公开日2006年7月12日 申请日期2004年12月31日 优先权日2004年12月31日
发明者徐波, 谢传泉, 张东泉, 普剑涛, 张亮, 张建 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1