在分布式语音识别处理和系统中减轻传输错误影响的方法和设备的制作方法

文档序号:2822946阅读:483来源:国知局
专利名称:在分布式语音识别处理和系统中减轻传输错误影响的方法和设备的制作方法
技术领域
本发明涉及一种在分布式语音识别系统中减轻传输错误影响的方法。本发明还涉及一种在分布式语音识别系统中减轻传输错误影响的设备。本发明适用于但不仅限于减轻当语音识别参数在无线电通信链路上传输时传输错误对其产生的影响。
已经开发了各种自动语音识别的方法,并正在进行改进。一些方法基于使用相应启发式策略的扩展知识,其它方法则使用统计模型。
在典型的语音识别处理中,将被处理的语音在一个抽样时间帧内被多次抽样。在一个典型的处理中,语音可以在8至20KHz范围内的速率上被抽样,并且每秒可以有50至100个抽样帧。使用算法处理抽样值以提供语音识别参数。例如,一种语音识别参数包括一个系数,称作唛耳对数倒频谱(mel cepstral)系数。这些语音识别参数以矢量也称为矩阵的形式排列,这些矢量或矩阵可以视为以某种等级顺序排列的参数组。为更多的抽样时间帧重复抽样处理。一种典型的形式是为每个抽样时间帧生成一个矢量。
上述参数化和排列成矢量构成所谓的语音识别处理的前端操作。随后在所谓的语音识别处理的后端操作中根据语音识别技术分析上述排列成矢量的语音识别参数。在相同位置或相同设备中执行前端处理和后端处理的语音识别处理中,在语音识别参数从前端传送到后端时引入错误的可能性最小。
然而,在一种所谓的分布式语音识别处理中,语音识别处理的前端部分被远离后端部分来执行。语音在第一位置上被抽样和参数化,并将语音识别参数排列成矢量。语音识别参数被量化,然后例如在一个已经建立的通信系统的通信链路上发送给第二位置。第一位置通常将是一个远程终端,第二位置则将是一个中央处理站。随后在第二位置上根据语音识别技术分析所接收的语音识别参数。
可以考虑在分布式语音识别处理中使用多种通信系统中的多种通信链路。一个例子是常规的有线通信系统,例如公用交换电话网。另一个例子是无线通信系统,例如TETRA。另一个例子是蜂窝无线通信系统。一个可应用的蜂窝通信系统的例子是全球移动通信系统(GSM),另一个例子是诸如当前正在标准化的通用移动电信系统(UMTS)的系统。
在任何一种通信系统中使用任一条通信链路都可能导致在该通信链路上将语音识别参数从第一位置发送给第二位置时将错误引入语音识别参数。
在通信系统中提供错误检测技术以能够检测到在所发送信息给定部分中出现的一个错误是公知的。一种公知技术是循环冗余编码。
当检测到出现一个错误时,根据所发送信息的特性使用不同的减轻技术来减少错误的影响。用于降低在其它形式信息的传输过程中所出现错误的影响的技术并不必然适合于降低在分布式语音识别处理中传输错误的影响。这是因为这些参数被使用了专门的语音识别技术,因此需要提供减轻在分布式语音识别处理中传输错误影响的装置。
根据本发明的一个方面,提供一种如权利要求1所要求保护的降低在分布式语音识别系统中传输错误影响的方法。
根据本发明的另一个方面,提供一种如权利要求8所要求保护的降低在分布式语音识别系统中传输错误影响的设备。
在一些实施例中,通过用选定数据来替换标识为已经经受一个错误的至少一个语音识别参数,以便由语音识别解码器因为异常而丢弃来处理将被发送给后端解码器的数据。
这些实施例提供了用于减轻取决于语音识别后端解码器操作的传输错误的影响,同时不必改变后端编码的装置。
在分布式语音识别处理中降低传输错误影响的另一种技术是检测所接收参数中的错误,并在检测到一个错误时向语音识别后端解码器发信号。然而,这将要求修改后端以根据这种信号采取动作。实际上,这将导致需要改变后端编码。
本发明的其它方面如在从属权利要求中所要求保护的。
本发明减轻了在分布式语音识别处理中传输错误的影响。根据下述描述和附图,其它具体优点是显而易见的。


图1是根据本发明的一个用于分布式语音识别的设备的示意图。
图2是在分布式语音识别处理中使用的对应于抽样时间帧排列成矢量的语音识别参数的示意图。
图3是本发明一个实施例的处理流程图。
本发明实施例的描述图1示意性地图示在本发明的一个实施例中使用的分布式语音识别设备。该设备通常包括前端处理装置1,用于根据一个如下面将参考图2更详细地描述的抽样语音信号生成语音识别参数。前端处理装置1的输出连接到一个传输装置,该传输装置用于处理语音识别参数以在一条通信链路上将这些参数和其它必要信息发送给一个远端位置。如在发明概述中所述的,可以使用多种通信链路,但特别设想将在移动通信系统中使用本发明。
在远端位置上,经通信网络发送的信号被接收装置3接收,接收装置3用于将所发送的数据转发给传输错误检测装置4,传输错误检测装置4用于识别在通过通信网的路程中经受传输错误的所有语音识别参数。传输错误检测装置4连接到数据处理装置5,数据处理装置5用于替换与已标识为经受一个传输错误的所有语音识别参数相关的数据。数据处理装置5连接到后端处理装置6,后端处理装置6包括一个用于处理所接收的语音识别参数以完成分布式语音识别处理的解码器。
下面将更详细地描述分布式语音识别处理。
在本发明的一个实施例所应用的分布式语音识别处理中,语音识别参数被排列成对应于抽样时间帧的矢量,如图2示意性地图示。
在图2中图示将被处理的一部分语音信号110。语音110被以非常简单的形式图示,因为它实际上将包括非常复杂的抽样值序列。
在图2中图示为第一抽样时间帧121、第二抽样时间帧122、第三抽样时间帧123和第四抽样时间帧124的抽样时间帧被如图2所示施加在语音信号上。在下面描述的实施例中,每秒有100个抽样时间帧。在每个抽样时间帧中重复抽样语音信号。
在下面描述的实施例中,语音识别处理是一个总共使用十四个语音识别参数的语音识别处理。这些参数的前十二个参数是前十二个静态唛耳对数倒频谱系数,即c(m)=[c1(m),c2(m),...,c12(m)]T式中m表示抽样时间帧编号。所使用的第十三个语音识别参数是第零个对数倒频谱系数即C0(m)。所使用的第十四个语音识别参数为能量项的对数即log[E(m)]。这些系数的细节和它们在语音识别处理中的使用在本领域是公知的,在此并不需要进一步描述。而且,应当指出可以使用构成语音识别参数的对数倒频谱系数的其它组合,也可以使用除了对数倒频谱系数之外的其它语音识别参数选择或方案来执行本发明。
用于每个抽样时间帧的十四个参数被排列或格式化成一个相应矢量,也称作一个矩阵,如图2所示。矢量131对应于抽样时间帧121,矢量132对应于抽样时间帧122,矢量133对应于抽样时间帧123和矢量134对应于抽样时间帧124。这样一个矢量通常可以表示为y(m)=c(m)c0(m)log[E(m)]]]>在从第一位置传输到第二位置之前处理语音识别参数。在下面描述的实施例中,如下所述执行处理。量化来自矢量131的参数。这通过使用一个分割矢量量化器直接量化该矢量来执行。系数被分组成对,并使用预先为各对确定的矢量量化(VQ)编码本量化每对系数。随后使用最终的索引值组来表示语音帧。前端参数的系数对和用于每对的编码本大小如表1所示。
表1分割矢量量化特性对编码本 大小 加权矩阵(Wi,i+1) 元素1 元素2Q0,164 I c1c2Q2,364 I c3c4Q4,564 I c5c6Q6,764 I c7c8Q8,964 I c9c10Q10,1164 I c11c12Q12,13256非单位阵c0log[E]使用加权欧几里德距离来找到最近的VQ矩心以确定索引,dji,i+1=yi(m)yi+1(m)-qji,i+1]]>idxi,i+1(m)=0≤j≤(Ni,i+1-1)argmin{(dji,i+1)iWi,i+1dji,i+1},i=0,2,4,K,12]]>式中 表示编码本Qi,i+1中第j个编码矢量,Ni,i+1是编码本大小,Wi,i+1是应用于编码本Qi,i+1的加权矩阵(可能是单位矩阵),和idxi,i+1(m)表示选择用于表示矢量[yi(m),yi+1(m)]T的编码本索引。
所生成的索引随后以44个比特的形式表示。这44个比特放置在一个比特流帧150的前44个时隙中,如图2的参考数字141所示。为下一矢量即矢量132生成的相应44个比特放置在比特流帧150的随后44个时隙中,如图2中的参考数字142所示。比特流帧150的其余比特包括4比特的循环冗余编码,如图2的参考数字146所示,确定这些比特的值以一种公知的方式为比特流帧150的所有前88个比特提供错误检测。类似地,从矢量133提供的44个比特放置在第二比特流帧155的前44个时隙中,如图2的参考数字143所示。而且,为随后的矢量即矢量134生成的相应44个比特放置在比特流帧155的随后44个时隙中,如图2中参考数字144所示。比特流帧155的其余比特包括循环冗余编码的4个比特,如图2的参考数字148所示。为随后的矢量重复这种结构。将两个矢量的比特数据排列在一个组合比特流帧中的上述比特流帧的格式仅仅是示例性的。例如,也可以在一个包含其自身错误检测比特的比特流帧中放置每个矢量数据。类似的,每比特流帧时隙的数目仅仅是示例性的。还应当说明上述矢量压缩技术仅仅是示例性的。
为了避免混淆,指出不应当混淆上述比特流帧和随后在通信系统的通信链路上的比特流数据传输中使用的传输帧,其中在通信系统中,将数据从第一位置发送到第二位置,例如GSM蜂窝无线电通信系统的时分多址(TDMA)时间帧,该系统是在此所述实施例中使用的通信系统。在该例子中,第一位置包括远端用户站,第二即接收位置包括中央处理站,它可以位于例如蜂窝通信系统的基站上。因此,在此所述的实施例中,语音识别参数经一条无线通信链路在第一位置和第二位置之间传输。然而,第一位置和第二位置的特性显然将取决于所考虑的通信系统类型和其中的分布式语音识别处理方案。
在接收之后在第二位置上根据比特流帧的传输格式来重新构建该比特流帧。
因此,上面描述了一种分布式语音识别处理,其中语音识别参数被排列成对应于抽样时间帧的矢量,所述语音识别参数在从第一位置发送之后在第二位置上被接收。根据该实施例的一个在这样一个语音识别处理中减轻传输错误影响的方法在图3的处理流程图200中图示。参见图3,功能框210表示识别一组包括一个或多个所述经受传输错误的矢量的步骤。在该实施例中,通过使用公知的循环冗余编码方法比较诸如146和148的4个循环冗余编码比特和各个比特流帧150,155的内容来执行错误检测。在该例子中,这将识别任何一个已经经受一个传输错误的的比特流帧。因此,在该例子中,所识别的矢量组包括两个矢量,这是来自单个比特流帧的成对矢量。在另一个例子中,如果带有错误检测手段的每个比特流帧仅包含一个矢量,则所识别的矢量组将是单个矢量。确定在这样一个识别组中有多少矢量的确切形式和技术理由显然将取决于矢量在比特流中的不同排列方式,以及在其上如何使用一个错误检测方法。具体地说,除了在本实施例中使用的循环冗余编码之外的错误检测方法可以提供一个识别组中的其它数目的矢量。而且,对于任何一个给定的比特流结构,如何处理错误信息的辅助设计选择也可以用于确定一个识别组中的矢量个数。例如,参考本实施例,可以为了节省处理功率的原因而决定仅考虑在一批比特流帧中是否包含一个错误,即使错误检测装置实际上能够更准确地检测到错误。
通过执行上述矢量量化程序的相反过程,从比特流帧中提取语音识别参数。更具体地说,从比特流中提取索引,并使用这些索引,以下述形式重新构建矢量 功能框220表示本实施例的下一步骤,即使用下面将更详细讨论的异常数据替换所标识矢量组中的一个或多个语音识别参数。在本实施例中,执行不同处理步骤的命令,以便在用异常数据替换一个或多个语音识别参数之前,从比特流帧中提取所有被接收的语音识别参数并临时存储。然而,应当指出也可以在从比特流格式中实际提取包括新引入的替换参数的语音识别参数之前,以一种对应方式改变比特流信息来替换一个或多个语音识别参数。
如本领域的普通技术人员所公知的,用于执行后端处理的语音识别解码器一般被如此安排,以便当接收到一个对应于一个抽样时间帧的语音识别参数的矢量,并且当比较该帧与解码器的字模型时给出异常高的成本时,由解码器拒绝该帧(即参数矢量)。语音识别解码器通常随后将用一个缺省值替换与该帧有关的分数或概率。常规的后端语音识别解码器通常具有这种拒绝帧的能力以解决因一个突发噪声严重失真的帧。在本发明中,使用后端语音识别解码器的这种拒绝异常或可能是非语音的帧的能力来减轻传输错误的影响。因此,这个系统的优点在于它不再必需修改后端语音识别解码器来处理传输错误,因此避免改变后端编码的需要。同时,避免了因为使用一个更有效的(active)纠错技术而对语音识别处理产生不利影响的可能。
如上所述,在本实施例中,一旦已经识别出一个比特流帧1 50,155已经经受一个传输错误,它知道两个相关矢量131、132;133、134任一个中的一个或多个语音识别参数已经经受一个传输错误。在本实施例中,用已经选择的一组预先计算的值替换两个矢量的识别组中的所有语音参数,因此它们远离在普通语音中将出现的所有参数,因此将因为异常而被后端解码器丢弃。因此,如上所述,后端编码器将用一个缺省值替代,因此避免了出错数据影响语音识别处理的可能性。
在上述矢量量化处理中,矢量量化器对成对的对数倒频谱参数进行操作。这一过程是每个矢量量化器限制在上述矢量重建处理中可以为各对对数倒频谱参数解码的可能数值范围。在该实施例中,这一事实被用于选择异常数据。确定位于所允许范围之外并与所有量化器矩心的距离超过某一阈值的用于每个对数倒频谱的可选值。这又确保在接收到一帧即包括这些可选预先计算值的一个参数矢量时,后端解码器将登记一个非常高的成本并因为上述缺省值而拒绝这个帧。
在本实施例中,每个比特流帧150和155包括两个矢量,并且错误检测技术是使一个所检测的传输错误与两个矢量相关。因此,当确定比特流帧150和155已经经受一个传输错误时,用于对数倒频谱参数的所计算的可选值在两个矢量中被替换。然而如上所述,如果使用不同的错误检测技术,则可能仅需要在一个矢量中替换对数倒频谱参数,或者可能必需在大量矢量中替换参数。
在上述实施例的情况下,由一个可编程数字信号处理设备来执行上述数据处理步骤,例如从摩托罗拉公司的DSP56xxx(商标)系列设备中选择的一个设备。也可以使用一个专用集成电路(ASIC)。也存在其它可能。例如,可以使用一个接口单元,其中无线电接收机和计算机系统之间的接口构成后端语音识别处理器的一部分。
权利要求
1.一种在分布式语音识别处理中减轻传输错误影响的方法,该分布式语音识别处理是这样一个处理,其中语音识别参数在第一位置上排列成对应于抽样时间帧的矢量,并在从第一位置发送之后在第二位置上接收以由一个语音识别解码器处理,该方法的特征在于步骤识别包括一个或多个已经经受一个传输错误的所述矢量的一组矢量;和处理将发送给所述语音识别解码器的数据以确保从后端处理中排除所识别组中的至少一个语音识别参数。
2.根据权利要求1的方法,其中从后端处理中排除所述组每个矢量的所有语音识别参数。
3.根据权利要求1或权利要求2的方法,其中处理将发送给所述语音识别解码器的数据的步骤包括步骤用选定数据替换所述至少一个语音识别参数以便由语音识别解码器因为异常而丢弃。
4.根据权利要求3的方法,其中所述选定数据包括其值与普通语音中将出现的任意值完全不同的一个或多个语音识别参数。
5.根据权利要求3或权利要求4的方法,其中所述语音识别参数在传输之前被量化,且在传输之后被重新构建,其中所述量化限制一个可能数值范围,在该范围内可以重新构建参数,所述选定数据包括所述范围之外的一个或多个值。
6.根据权利要求5的方法,包括步骤使用一个分割矢量量化技术,其中每个量化器对一对语音识别参数进行操作;和选择所述选定数据以包括偏离每个量化器矩心至少一个预定量值的一个或多个值。
7.根据权利要求3至6中任意一个权利要求的方法,其中所述后端处理包括步骤用一个缺省值替代处理选定异常数据时生成的分数。
8.一种在分布式语音识别处理中减轻传输错误影响的设备,该分布式语音识别处理是这样一个处理,其中语音识别参数在第一位置上排列成对应于抽样时间帧的矢量,并在从第一位置发送之后在第二位置上接收以由一个语音识别解码器处理,该设备的特征在于识别装置,用于识别包括一个或多个已经经受一个传输错误的所述矢量的一组矢量;和数据处理装置,用于处理将发送给所述语音识别解码器的数据以确保从后端处理中排除所识别组中的至少一个语音识别参数。
9.根据权利要求8的设备,其中所述处理装置用于从后端处理中排除所述组每个矢量的所有语音识别参数。
10.根据权利要求8或权利要求9的设备,其中所述处理装置用于用选定数据替代所述至少一个语音识别参数以便由所述语音识别解码器因为异常而丢弃。
11.根据权利要求10的设备,其中所述选定数据包括其值与普通语音中将出现的任意值完全不同的一个或多个语音识别参数。
12.根据权利要求10或权利要求11的设备,包括在传输之前量化语音识别参数的装置,在所述传输之后重新构建参数的装置,其中所述量化限制一个可能的数值范围,在该范围内可以重新构建参数,并且所述选定数据包括在所述范围之外的一个或多个值。
13.根据权利要求12的设备,其中所述量化装置用于执行一个分割矢量量化,其中每个量化器对一对语音识别参数进行操作,并且所述选定数据包括偏离每个量化器矩心至少一个预定量值的一个或多个值。
14.根据权利要求8至13中任意一个权利要求的设备,其中所述后端解码器包括用于用一个缺省值替代处理选定异常数据时所生成分数的装置。
全文摘要
一种分布式语音识别的方法和设备用于减轻传输错误的影响。该方法包括步骤识别已经经受一个传输错误的语音识别参数,并处理将发送给语音识别解码器的数据以确保从后端处理中排除已经经受这样一个错误的所有语音识别参数。通过用选定数据替换这些参数以便由语音识别解码器因为异常和/或非语音帧而丢弃,从而从后端处理中排除已经经受传输错误的语音识别参数。
文档编号G10L19/005GK1437745SQ01809628
公开日2003年8月20日 申请日期2001年6月5日 优先权日2000年6月5日
发明者戴维·约翰·本杰明·皮尔斯 申请人:摩托罗拉公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1