具有后端声音活动检测的分布式语音识别设备和方法

文档序号:2821096阅读:157来源:国知局

专利名称::具有后端声音活动检测的分布式语音识别设备和方法
技术领域
:本发明通常涉及语音识别,且尤其涉及分布式语音识别。
背景技术
:在本领域语音识别是众所周知的。通常,先语音音频输入数字化,然后进行处理,帮助鉴别包含在语音输入中的特定的口语单词。依照一种方法,从数字化后的语音中抽取所谓的特征,然后与预先存储的模式进行对比实现语音内容的识别。同样众所周知的是通过两个不同的处理单元解析或分布特征抽取和模式匹配行为。例如,欧洲技术标准组织(ETSI)已经于2000年4月在标准ES201108Ver.1.12中提出了一种分布式语音识别系统,其中诸如蜂窝手持设备的便携式设备执行特征抽取功能,并将得到的特征传输给便于完成模式匹配功能的固定端平台。同样众所周知的是,通常情况下当输入可以准确地区分为语音或非语音音频输入的时候,模式匹配可以更加成功地完成。例如,当有足够的信息确定一段给定的音频输入为非语音信号时,该信息可以通过诸如减少对于特定的非语音信号段进行模式匹配行为的方式有效地影响模式匹配行为的功能。不幸的是,声音活动检测的优点在诸如上面提及的ETSI标准中的分布式语音识别系统中并未得到体现。相反,在没有任何声音信号检测信息的情况下将语音内容特征传输给远程的模式匹配平台。通过下面详细实施方式描述的具有后端声音活动检测的分布式语音识别设备和方法,可以部分地满足上面的需求,尤其是在结合附图进行研究的时候,其中图1包含现有技术中分布式语音识别系统的前端特征抽取器的描述。图2包含具有依照本发明不同实施例配置的声音活动检测的后端模式匹配平台的结构图描述;图3包含依照本发明实施例配置的声音活动检测器的结构图。本领域技术人员将意识到,附图中的元素是为了阐述得更加简单和清楚,并不需要按照比例绘制。例如,为了更加全面地展现本发明这些不同实施例,商业上可行的实施例中有用或必要的一些普通但公知的组件通常未被图示。具体实施例方式一般而言,依照这些不同的实施例,对多个语音识别的特征进行处理,提供至少一份产生这些语音识别特征的原始信息的近似。随后对这些原始信息进行处理,检测可能对应于语音的部分,从而提供相应的鉴定。然后使用这些语音检测信息帮助语音识别特征的识别过程。在一种实施例中,语音识别特征包括Mel频率倒谱系数。在一种实施例中,通过反离散余弦变换对语音识别特征进行处理,产生用于提供原始信息近似的结果值。如果需要,这些结果值本身可以通过求幂运算进行处理,提供原始信息。在另一种实施例中,对语音识别特征进行处理确定信噪比信息,此信息可以单独或者与其他声音活动信息一起帮助语音识别特征的识别过程。如此配置下,尽管初始时前端特征抽取部分并没有传送声音活动检测信息,分布式语音识别系统中的模式匹配行为可以得益于声音活动检测信息。这样可以提高识别和/或减少功率和/或处理的需求。在说明依照本发明的不同实施例之前,首先说明分布式语音识别系统的前端特征抽取器的解说示例。这个示例将为说明一些特定的实施例提供有益的上下文。现在参考图1,诸如语音的音频输入在模数转换器11进行数字化(可选,如本领域所公知的那样,数字化后的语音随后通过直流偏置移除滤波器(未图示))。分帧单元12随后将数字化后的语音解析成对应的帧。帧的大小通常取决于采样频率。例如,早期参考的ETSI分布式语音识别标准采用三种不同的采样频率,即8、11和16KHz。对应这三种采样频率的合适的帧的大小分别为200,256和400个采样点。随后对数(log)能量单元13计算每一帧全部能量的自然对数,提供Log-E参数,该参数包括一个最终提供给分布式语音识别系统后端的语音识别特征。分帧后的信息提供给滤波器和快速傅立叶变换(FFT)单元14。特别地,一个预加重过滤器对语音内容的高频分量进行加强。随后采用同样大小的海明窗(Hammingwindow)对这些经过预加重的帧进行加窗处理。加窗后的帧在频域上进行快速傅立叶变换。FFT的大小取决于采样频率,即对应于8和11KHz的256点以及对应于16KHz的512点。FFT频率幅值在64Hz和Fs/2之间,其中Fs是采样频率,随后进行Mel滤波15。Mel滤波可以按照如下方式完成。首先采用下面的表达式将上述范围内的频率转换到Mel频率标度Mel(f)=2595.0*log10(1+f700.0).]]>随后将转换后的频率划分为23个相同大小的,半交迭的频带(也叫做通道或栅格)。例如,如果Fs为8000Hz,在64Hz到4000HZ之间的频率范围转换为98.6到2146.1之间的Mel频率标度,并将其划分为23个频带,每个频带宽170.6,频带中心距离为85.3。第一个频带的中心频率位于98.6+85.3=183.9,而最后一个频带的中心频率位于2146.1-85.3=2060.8。这些中心随后进行反变换并取舍到最近的FFT栅格频率。在线性频域中,这23个频带的大小不再一致,且通常每个频带的大小随着频率的增加而增加。然后采用三角加权窗(中心权重为1.0而每端权重接近0.0)将每个频带内的FFT幅值混合在一起。随后Mel滤波器组的输出经过(自然)对数功能单元16。对这23个对数值采用离散余弦变换(DCT)17进行变换,获得13个Mel频率倒谱系数C0到C12。在这个实施例中,舍去了C13到C22的值,也就是说并没有对其进行计算,这是因为它们并不传输或提供给后端模式匹配行为。随后对Mel频率倒谱系数参数和log-E参数进行量化,并在编码器18进行适当编码,提供给作为传输选择的无线发送装置发送给远程后端模式识别平台。上述特征抽取的功能可以很容易地集成在诸如蜂窝手持设备地无线收发平台中。在这样的配置下,提供给手持设备的可听语音能在其中为后续的远程处理过程提取语音识别特征。在上面提及的示例中,语音识别特征包括Mel频率倒谱系数和log-E参数。需要理解的是,这个示例仅仅是为了说明,但是是实现本发明的一些实施例的详细实施方式的有益的基础。有多个其他的可供提取的语音识别特征,既可以作为补充,也可以替代上面的特征。本发明的范围同样适用于这些可选的实施例。图2提供了适合使用上述前端特征提取平台的后端模式识别平台的结构图的概述。合适的无线接收装置21接收从上述前端平台传输的语音识别特征信息。解码器22对所接收的信息进行解码,恢复出上述的语音识别特征信息。这些信息随后提供给反离散余弦变换单元23,如下面等式描述Di=C023+223&Sigma;j=112Cjcos((2i+1)j&pi;2*23);i=0,1,...,22.]]>(注意上面的等式中倒谱系数C13到C22假定为0)。得到的Di值随后在加幂单元24进行加幂,获得如下的滤波器组输出Fi=exp(Di);i=0,1,...,22。当然,由于前面的切除操作(即舍弃值C13到C22)和Mel频率倒谱值C0到C12的量化,上面获得的滤波器频带输出F0到F22仅仅是在前端计算的原始滤波器组输出的近似值。这些滤波器的输出表示了可用于获取语音识别特征的原始信息的近似。将该原始信息提供给声音活动检测器25,检测器用于检测原始信息是否可能包括至少一定的语音。分割单元26随后使用这个信息,向模式匹配单元27提供一个或多个信号,确定由解码器22向模式匹配单元27提供的片断中哪一个可能包括语音内容。如此配置,模式匹配单元27由此可以处理语音识别特征,从而可能提高识别质量和准确性和/或减少获得类似结果的功率/处理需求。如果需要,声音活动检测器25可以对所恢复的原始信息进行处理,获得对应于原始音频输入的表示信噪比(SNR)的信号。对于模式匹配单元27,该信息在上面提及的类似的目的方面潜在地是有用的。现在参考图3,提供了对示例性的声音活动检测器25更加详细的描述。上面提及的滤波器组输出F0到F22可以认为是当前输入帧的不同频带或通道的平均频谱幅值的估计值。我们将用F(m,i)表示第m帧和第i通道的滤波器组输出,并且在没有特定的通道特别重要的时候,采用F(m)表示第m帧的所有滤波器组输出。采用这些值作为输入,通道能量估计单元30提供了如下的通道能量的平滑后的估计值Ech(m,i)=max{Emin,αch(m)Ech(m-1,i)+(1-αch(m))(λiF(m,i))2};i=1,...,22其中Ech(m,i)是第m帧和第i通道平滑后的通道能量的估计值,Emin是允许的最小通道能量,{i,i=0,1,...,22}是补偿预加重滤波器和在Mel滤波中三角加权窗不同窗宽的修正系数,而ch(m)是如下定义的通道能量平滑系数&alpha;ch(m)=0;m&le;10.45;m>]]>它表示对于第1帧(m=1)设定为0的值,而对所有后续的帧设定0.45。这保证了第一帧未滤波通道能量的通道能量估计值的初始化。在优选的实施例中,Emin=5000,修正系数i的值(对应于8kHz采样频率)由23个元素的表格中第i个值给出{3.2811,2.2510,1.4051,1.1038,0.8867,0.6487,0.5482,0.4163,0.3234,0.2820,0.2505,0.2036,0.1680,0.1397,0.1179,0.1080,0.0931,0.0763,0.0674,0.0636,0.0546,0.0478,0.0046}。根据通道能量估计值,峰值均值比率估算单元31按照如下方式估算当前帧m的峰值均值比,用P2A(m)表示P2A(m)10log10(max(Ech(m,i)|i=422)(1/23)&Sigma;i=022Ech(m,i)).]]>与通道能量估计类似,在优选的实施例中,通道噪音能量估计(如下定义)可以按照如下方式进行初始化if((m≤INIT_FRAMES)OR(fupdate_flag==TRUE)){if(P2A(m)<PEAK_TO_AVE_THLD){En(m,i)=Ech(m,i);m=1,0&le;i&le;22;0.7En(m-1,i)+0.3Ech(m,i);2&le;m&le;INIT_FRAMES,0&le;i&le;22;]]>}else{En(m,i)=Emin;0≤i≤22;}}其中En(m,i)是第m帧和第i通道的平滑后的噪音能量估计值,INIT_FRAMES是假定为只是噪音帧的初始帧的数量,而fupdate_flag是如下定义的强制更新标志位。在优选的实施例中,INIT_FRAMES=10,而PEAK_TO_AVE_THLD=10。分别用Ech(m)和En(m)表示所有23个通道的当前帧m的通道能量估计值和通道噪音估计值。通道能量估计值Ech(m)和通道噪音估计值En(m)用于在通道SNR估算单元32估算量化后的信噪比(SNR)指数&sigma;q(m,i)=max(0,min(89,round(10log10(Ech(m,i)En(m,i))/0.375)));0&le;i&le;22]]>其中值{q(m,i),i=0,1,...,22}限制在0到89之间,并包含这两个数。根据当前帧的通道SNR估计值q(m)可以在声音衡量指标计算单元33以求和的形式计算当前帧的声音衡量指标V(m)V(m)=&Sigma;i=022v(&sigma;q(i))]]>其中v(k)是如下定义的90个元素的声音衡量指标表v中第k个值v={1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,4,4,4,5,5,5,6,6,7,7,7,8,8,9,9,10,10,11,12,12,13,13,14,15,15,16,17,17,18,19,20,20,21,22,23,24,24,25,26,27,28,28,29,30,31,32,33,34,35,36,37,37,38,39,40,41,42,43,44,45,46,47,48,49,50,50,50,50,50,50,50,50,50,50}当前帧的通道能量估计值Ech(m)也用作为频谱偏差估算单元34的输入,该估算单元按照如下方式估计当前帧的频谱偏差E(m)。首先,按照如下公式估计对数能量频谱EdB(m,i)=10log10(Ech(m,i));i=0,1,...,22。然后,用当前对数能量频谱和用EdB(m)表示的平均长期对数能量频谱的绝对值差的总和估计频谱偏差E(m),即&Delta;E(m)=&Sigma;i=022|EdB(m,i)-E&OverBar;dB(m,i)|.]]>平均长期对数能量频谱按照如下方式进行初始化if((m≤INIT_FRAMES)OR(fupdate_flag==TRUE)){EdB(m,i)=EdB(m,i);0≤i≤22;}平均长期对数能量频谱按照如下方式更新E&OverBar;dB(m+1,i)=0.9E&OverBar;dB(m,i)+0.1EdB(m,i);V(m)>SIG_THLD(m)0.7E&OverBar;dB(m,i)+0.3EdB(m,i);V(m)&le;SIG_THLD(m)]]>其中参数SIG_THLD(m)取决于下面描述的量化后的信号信噪比。信号信噪比估算单元35按照如下方式估算语音信号的信噪比。首先,用通道噪音能量的总和计算当前帧的全部噪音能量Etn(m),即Etn(m)=&Sigma;i=022En(m,i).]]>然后,按照如下方式计算瞬时全部信号能量Ets,inst(m)if(V(m)>SIG_THLD(m)){Ets,inst(m)=&Sigma;i=022max(Ech(m,i),En(m,i))]]>}瞬时全部信号能量Ets,inst(m)仅在当前帧通过核对V(m)是否大于SIG_THLD(m)确定为信号帧的时候才按照如上方式更新。同样需要指明的是,上述估算的信号能量在严格意义下实际是(信号+噪音)能量。Ets,inst(m)按照如下方式完成初始化if((m≤INIT_FRAMES)OR(fupdate_flag==TRUE)){Ets,inst(m)=INIT_SIG_ENRG;}其中在优选的实施例中INIT_SIG_ENRG的值为1.0E+09。一旦计算了全部瞬时信号能量和全部噪音能量,表示为SNRinst(m)的当前帧的瞬时信噪比可以计算如下SNRinst=max(0.0,10log10(Ets,inst(m)/Etn(m)))。从瞬时SNR可以按照如下方式估算平滑后的SNR<prelisting-type="program-listing"><![CDATA[  if((m≤INIT_FRAMES)OR(fupdate_flag==TRUE))  {  SNR(m)=SNRinst(m);  }  else  {  if(V(m)>SIG_THLD(m))  {  SNR(m)=βSNR(m-1)+(1-β)SNRinst(m);  β=min(β+0.003,HI_BETA);  }  else  {  β=max(β-0.003,LO_BETA);  }  }]]></pre>在优选的实施例中,平滑系数β的上下限分别为LO_BETA=0.950和HI_BETA=0.998。因为我们用(信号+噪音)能量与信号能量的比率估算信噪比,所以估算的SNR的最低值为0。估算值在SNR较高时比较准确,而随着SNR值减少,估算值也越来越不精确。信号的SNR随后量化成如下20个不同的值SNRq(m)=max(0,min(round(SNR(m)/1.5),19))。量化后的信号SNR用于确定不同的阈值。例如,在优选的实施例中,采用SNRq(m)的值作为索引在20个元素的表格{36,43,52,62,73,86,101,117,134,153,173,194,217,242,268,295,295,295,295,295}中确定下一帧SIG_THLD(m+1)的信号阈值。此时,声音衡量指标V(m)、频谱偏差E(m)、峰值均值比P2A(m)和量化后的信号信噪比SNRq(m)作为更新决策判定单元36的输入。下面伪码表示的逻辑说明了如何决定更新噪音估计。此外,还说明了如何决定进行强制更新(强制更新策略通过突然增加背景噪声的等级使得声音活动检测器从将背景噪声划分为语音的错误中恢复)。首先,在优选的实施例中,采用SNRq(m)作为索引在20个元素的表格{31,32,33,34,35,36,37,37,37,37,37,37,37,37,37,38,38,38,38,38}中确定当前帧的更新阈值UPDATE_THLD(m)。通过清空更新标志位(update_flag)和强制更新标志位(fupdate_flag)开始更新决定判定过程。如果满足如下伪码描述的一定条件,则设置这些标志位<prelisting-type="program-listing"><![CDATA[  update_flag=FALSE;  fupdate_flag=FALSE;  if((m>INIT_FRAMES)AND(V(m)<UPDATE_THLD(m))AND  (P2A(m)<PEAK_TO_AVE_THLD)  {  update_flag=TRUE;  update_cnt=0;  }  else  {  if((P2A(m)<PEAK_TO_AVE_THLD)AND(E(m)<DEV_THLD))  {  update_cnt=update_cnt+1;  if(update_cnt≥UPDATE_CNT_THLD)  {  update_flag=TRUE;  fupdate_flag=TRUE;  }  }}]]></pre>为了避免在上面的伪码中更新计数器(update_cnt)长期“爬行”对强制更新标志位(fupdate_flag)错误地设置,采用如下描述实现的滞后逻辑方法<prelisting-type="program-listing"><![CDATA[  if(update_cnt==last_update_cnt)  {  hyster_cnt=hyster_cnt+1;  }  else  {  hyster_cnt=0;  last_update_cnt=update_cnt;  }  if(hyster_cnt>HYSTER_CNT_THLD)  {  update_cnt=0;  }]]></pre>在优选的实施例中,上面使用的常数(先前未定义)的数值如下DEV_THLD=70UPDATE_CNT_THLD=500HYSTER_CNT_THLD=9只要对于给定的帧设置了上面提及的更新标志位,下一帧的通道噪音估计值在噪音能量平滑单元37使用如下公式进行更新En(m+1,i)=0.9En(m,i)+0.1Ech(m,i));i=0,1,...,22。更新后的通道噪音估计值存储在噪音能量估计存储单元38以备所有后来的帧所用,直到下一次更新发生。噪音能量估计存储单元38的输出En(m)用作前面描述的通道SNR估算单元32的输入。现在说明声音活动判定单元39的操作。声音衡量指标V(m)和量化后信号SNR值SNRq(m)作为声音活动判定单元39的输入。对于最初的INIT_FRAMES帧,由于这些帧只作为噪音帧,所以用VAD_FLAG表示的声音活动判定单元的输出设置为FALSE(否)。对于后续的帧,声音活动判决单元按照如下方式进行操作。首先,利用量化后的SNR值确定当前帧的声音衡量指标阈值Vth、时滞数阈值Hcnt和突发数阈值Bcnt,如下Vth(m)=Vtable[SNRq(m)],Hcnt(m)=Htable[SNRq(m)],Bcnt(m)=Btable[SNRq(m)],其中SNRq(m)用于在各自的表格中进行索引。在优选的实施例中,这些表格定义如下Vtable={33,35,36,37,38,40,42,44,46,48,50,52,54,56,58,58,58,58,58,58},Htable={54,52,50,48,46,44,42,40,38,36,34,32,30,28,26,24,22,20,18,16},andBtable={3,3,3,4,4,4,4,4,5,5,5,5,5,5,6,6,6,6,6,6}。随后,当前帧的声音活动通过测试声音衡量指标是否超过声音活动衡量指标阈值进行判定。如果测试的输出是TRUE(是),则声明当前帧为“具有声音活动”。否则,对时滞数变量(hangover_count)进行测试,判定其是大于还是等于0。如果该测试的输出是TRUE(是),则同样声明当前帧为“具有声音活动”。如果两个测试的输出都是FALSE(否),则声明当前帧为“无声音活动”。“时滞”机制通常用于包括慢衰变的语音,否则这些语音可能会被划分为噪音,并且在主动的声音活动检测削弱的语音中桥接一些小的间隙或暂停。如果连续的“具有声音活动”的帧的数量(用burst_count计数)至少等于突发数阈值Bcnt,则激活时滞机制。为了激活该机制,时滞帧的数量设置为时滞数阈值Hcnt,。下面描述了声音活动判定单元的伪码<prelisting-type="program-listing"><![CDATA[  if(V(m)>Vth(m))  {  VAD_LOCAL=TRUE;  burst_count=burst_count+1;  if(burst_count>=Bcnt(m))  {  hangover_count=Hcnt(m);  }  }  else  {  VAD_LOCAL=FALSE  burst_count=0;  if(hangover_count>=0)  {  hangover_count=hangover_count-1;  }  }  if((VAD_LOCAL==TRUE)OR(hangover_count>=0))  {  VAD_FLAG=TRUE;  }  else  {  VAD_FLAG=FALSE;  }]]></pre>来自310的变量VAD_FLAG作为每一帧语音活动信息的输出。可选地,也可以将来自于306的SNR值SNR(m)作为输出。如此配置下,由分布式语音识别系统中远程前端提供的语音识别特征得到的原始信息的近似可以用于帮助鉴定其对应于语音和非语音的语音识别特征信息的部分。依照本
技术领域
公知的方法,该信息易于依次用于向后端模式匹配过程传递行为和功能,有助于提高识别和/或提高逻辑操作。简言之,声音活动检测的优点是体现在分布式语音识别系统的后端,尽管该信息并不是在前端初始时就得到然后提供给后端。相反,至少部分地对前端提供的信息进行反向处理,获得与初始时前端显现的信息至少近似的信息,从而帮助声音活动检测行为。本领域技术人员将意识到,在不违背本发明精神和范围的基础上可以参照上面描述的实施例进行各种修改、替代和组合,而且这些修改、替代和组合均在本发明概念的范围内。特别地,需要再次重申,这里提出的特定的实施例只是为了进行示例性的说明;本发明本质的概念适用于非常广泛的分布式语音识别系统和环境,且不应当视为局限于这里为了说明而提出的实施例中。权利要求1.一种有助于识别语音的方法,包括-接收多个语音识别特征;-处理多个语音识别特征中的至少一些特征,至少提供对产生多个语音识别特征的原始信息的近似;-对原始信息的至少近似进行处理,检测可能对应于语音的部分并提供语音部分的相应鉴定;-处理多个语音特识别特征,至少部分地作为鉴定语音部分的功能,用于帮助识别由至少一些语音识别特征表示的语音内容。2.如权利要求1所述的方法,其中,接收多个语音识别特征包括通过无线通道接收多个语音识别特征。3.如权利要求1所述的设备,其中,接收多个语音识别特征包括接收包括至少一个Mel频率倒谱系数的多个语音识别特征。4.如权利要求3所述的方法,其中,接收包括至少一个Mel频率倒谱系数的多个语音识别特征包括接收多个Mel频率倒谱系数。5.如权利要求4所述的方法,其中,接收多个Mel频率倒谱系数包括接收对应原始信息的每个采样的至少13个Mel频率倒谱系数。6.如权利要求1所述的方法,其中,处理多个语音识别特征中的至少一些特征,至少提供对来自于多个语音识别特征的原始信息的近似包括采用反离散余弦变换的方式处理多个语音识别特征的至少一些特征,用以提供多个结果值。7.如权利要求6所述的方法,其中,采用反离散余弦变化的方法处理多个语音识别特征中的至少一些特征进一步包括采用加幂的方式处理至少一个结果值。8.如权利要求1所述的方法,进一步包括对原始信息的至少近似进行处理,确定可能对应于产生多个语音识别特征的语音的信噪比值。9.如权利要求1所述的方法,其中,处理多个语音特识别特征,至少部分地作为鉴定语音部分的功能,用于帮助识别由至少一些语音识别特征表示的语音内容的步骤进一步包括处理多个语音识别特征,至少部分地作为鉴定语音部分和信噪比值的功能,用于帮助识别由至少一些语音识别特征表示的语音内容。10.一种用于帮助分布式语音识别的设备,该设备包括-声音活动检测器,该检测器具有输入,连接以接收源自原始信息的语音识别特征,检测器还具有至少第一个输出,提供语音检测信号来鉴定可能对应语音的原始信息的至少近似的每个采样;-分割单元,该分割单元具有输入,连接到声音活动检测器第一个输出,该分割单元还具有输出,提供语音检测信号来鉴定可能对应于语音的原始信息的至少近似的部分;和-模式匹配单元,具有输入,连接以接收语音识别特征和语音检测信号,还具有输出,提供对应语音识别特征的已识别的语音。11.如权利要求10所述的设备,其中,声音活动检测器进一步包括第二个输出,该输出提供对应于产生多个语音识别特征的语音的信噪比信号。12.如权利要求11所述的设备,其中,模式识别单元进一步具有连接以接收信噪比信号的输入。13.如权利要求10所述的设备,其中,语音识别特征包括多个Mel频率倒谱系数。14.如权利要求13所述的设备,其中,声音活动检测器包括反离散余弦变换装置,该装置帮助使用多个Mel频率倒谱系数提供原始信息的至少近似。15.如权利要求14所述的设备,其中,声音活动检测器进一步包括加幂装置,该装置进一步帮助使用多个Mel频率倒谱系数提供原始信息的至少近似。16.如权利要求10所述的设备,进一步包括解码器,该解码器具有连接以接收已编码码流的输入以及提供语音识别特征的输出。17.如权利要求16所述的设备,进一步包括连接到解码器的无线接收装置。18.一种方法,包括-从无线信道接收信号,该信号包括包含源自多个输入采样的信息的码流;-对此码流进行解码,恢复13个Mel频率倒谱系数以及对应输入采样每一帧的能量的对数值;-采用反离散余弦变换和加幂单元将Mel频率倒谱系数转换为对应的频谱表示;-利用这些频谱表示鉴定可能包括语音的部分;-采用Mel频率倒谱系数、输入采样每一帧的对数值和鉴定可能包括语音部分的信息,帮助模式匹配过程识别输入中的语音内容。19.如权利要求18所述的方法,进一步包括采用输入的频谱表示来判定信噪比值。20.如权利要求19所述的方法,其中,采用Mel频率倒谱系数、输入采用每一帧的对数值和鉴定可能包括语音部分的信息,帮助模式匹配过程识别输入中的语音内容的步骤包括采用Mel频率倒谱系数、输入采样每一帧的对数值,鉴定输入中可能包括语音的部分的信息和信噪比值,帮助模式匹配过程识别输入中的语音内容。全文摘要在分布式语音识别系统中,可以向后端模式匹配单元(27)传递用后端声音活动检测器(25)得到的声音活动检测信息。虽然系统的前端并没有得到或传递任何特定的声音活动检测信息,但是声音活动检测器可以使用后端得到的原始信息相对准确地确定是否存在由系统前端抽取的对应的声音识别特征中的声音。文档编号G10L15/02GK1675684SQ03819414公开日2005年9月28日申请日期2003年8月1日优先权日2002年8月9日发明者滕卡西·拉马巴德兰申请人:摩托罗拉公司(特拉华州注册)
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1