确定和降噪相关联的不确定性的方法

文档序号：2821050阅读：209来源：国知局

专利名称：确定和降噪相关联的不确定性的方法
背景技术：
本发明涉及模式识别，尤其涉及在降噪后执行模式识别。
模式识别系统，例如语音识别系统，接受输入信号并试图对所述信号进行解码以找出由所述信号表示的模式。例如，在语音识别系统中，语音信号(通常称为测试信号)由识别系统接收并解码，以标识由所述语音信号表示的单词串。
为了对输入的测试信号进行解码，大多数识别系统使用描述所述测试信号的一部分表示一个特定模式的似然性的一个或多个模型。这类模型的示例包括神经网络、动态时间伸缩、分段模型和隐马尔可夫模型。
在模型能够用于对输入信号进行解码前，它必须先得到训练。这通常通过对从已知训练模式生成的输入训练信号进行测量来完成。例如，在语音识别中，通过说话人朗读已知文本产生语音信号的集合。然后使用这些语音信号来训练所述模型。
为了让模型起到最佳作用，用于训练模型的信号应该于被解码的最终测试信号相似。具体地，希望训练信号含有与要解码的测试信号相同数量和类型的噪声。
通常，训练信号是在“干净”的条件下收集的，并且可以认为是相对无噪声的。为在测试信号中达到这一同样低水平的噪声，本领域中很多已有系统向所述测试信号应用降噪技术。这些降噪技术能获得之后在模式识别中使用的“净化”测试信号。在大多数系统里，所述降噪技术产生一系列多维特征矢量，每一特征矢量表示一经降噪的信号的帧。
不幸的是，降噪技术并不能完美起作用，其结果是在净化信号有某种内在的不确定性。在过去，使用两种通用技术来处理这种不确定性。第一种技术是忽略所述不确定性而把所述降噪过程视为是完美的。由于这种方法忽略了所述识别系统的真实状态，所以它导致本来可以避免的识别错误。
另一种在降噪中处理不确定性的已有技术是标识可能在其中较差地执行降噪技术的输入信号帧。在这些帧中，很可能是错误的特征矢量的维度由所述降噪系统标记，使在识别期间不使用它们。由此，其不确定性多于预定量的所述特征矢量分量在解码过程中完全被忽略。虽然这种系统确认降噪中的不确定性，但完全忽略一个分量的该技术将这一分量作为没有提供任何将在识别期间有帮助的信息看待。这是极不可能的，因为即使有大量的不确定性，所述经降噪的分量仍然提供了将识别期间有帮助的某些信息。
另外，现有技术没有提供用于确定某些噪声消除过程的不确定性的装置。其结果是，不可能确定和这些过程相关联的不确定性。
鉴于这一点，需要用于确定降噪中的不确定性并在模式识别过程中使用这一不确定性的技术。
发明概述提供了一种在含噪声信号中降低噪声的方法和装置。具体地，通过使用一声学环境模型从含噪声信号的一个片段的表示中降低噪声，以产生净化信号的表示。然后计算出与所述降噪过程相关联的不确定性。在一个实施例中，使用所述降噪过程中的不确定性对净化信号的模式状态进行解码。
附图简述

图1是可在其中实践本发明的一个计算环境的方框图。
图2是可在其中实践本发明的替换计算环境的方框图。
图3是本发明的一个实施例的使用降噪系统的方法的流程图。
图4是可使用本发明的实施例的模式识别系统的方框图。
说明性实施例的详细描述图1说明了可实现本发明的合适的计算环境100的一个示例。所述计算环境100只是合适的计算环境的一个示例，并不意味着对本发明的使用和功能范围的任何限制。也不应该把所述计算环境100解释为对示例性操作环境100中所示的任一元素或元素组合具有任何依赖或需求。
本发明可以在许多其它的通用或专用计算系统环境或配置上运作。可以使用本发明的众所周知的计算系统、环境和/或配置的示例包括，但不限于，个人计算机、服务器计算机、手持或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、电话系统和包括上述系统或设备的分布式计算环境等等。
本发明可以在诸如由计算机执行的程序模块等计算机可执行的指令的通用环境中描述。一般而言，程序模块包括完成特定任务或实现特定抽象数据类型的例程、程序、对象、组件和数据结构等等。本发明也可以在由通过通信网络连接的远程处理设备完成任务的分布式计算环境中实践。在分布式计算环境中，程序模块可以位于本地和远程计算机存储媒质中，包括存储器存储设备。
参考图1，实现本发明的示例性系统包括计算机110形式的通用计算装置。计算机110的组件可包括，但不限于，处理单元120、系统存储器130和把包括系统存储器在内的各种系统组件耦合到处理单元120的系统总线121。系统总线121可以是几种类型的总线结构的任一种，包括存储器总线或存储器控制器、外围总线、或使用多种总线体系结构的任一种的局部总线。作为示例而非局限，这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和外围部件互连(PCI)总线，即Mezzanine总线。
计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机110访问的任一可用媒质，包括易失和非易失媒质、可移动和不可移动媒质两者。作为示例而非局限，计算机可读媒质可包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失和非易失、可移动和不可移动媒质。计算机存储媒质包括，但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储村所需信息并可由计算机110访问的任一其它媒质。通信媒质通常在诸如载波或其它传输机制这样的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据，并包括任何信息传递媒质。术语“已调制数据信号”的意思是以对信号中的信息进行编码的方式改变或设置其一个或多个特征的信号。作为示例而非局限，通信媒质包括有线媒质，例如有线网或直接连线连接，以及无线媒质，例如声学、RF、红外或其它无线媒质。上述媒质的任何组合也应该包括在计算机可读媒质的范围之内。
系统存储器130包括诸如只读存储器(ROM)131和随机存取存储器(RAM)132等易失和/或非易失存储器形式的计算机存储媒质。基本输入输出系统(BIOS)，包含如在启动期间帮助在计算机110内部元件之间传输信息的基本例程，通常存储在ROM 131中。RAM 132通常包含处理单元120即刻可访问和/或当前正在操作的数据和/或程序模块。作为示例而非局限，图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可以包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作为示例，图1示出了在不可移动、非易失磁媒质上读写的硬盘驱动器141、在可移动、非易失磁盘152上读写的磁盘驱动器151、以及在诸如CD ROM或其它光媒质等可移动、非易失光盘156上读写的光盘驱动器155。在示例性操作环境中也可以使用其它可移动/不可移动、易失/非易失计算机存储媒质，包括但不限于，盒式磁带、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过诸如接口140等不可移动存储器接口连接到系统总线121，而磁盘驱动器151和光盘驱动器155通常通过诸如接口150等可移动存储器接口连接到系统总线121。
如上所述和图1所示的驱动器及其关联的计算机存储媒质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如，在图1中，示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意，这些组件可以和操作系统134、应用程序135、其它程序模块136和程序资料137相同或不同。此处给操作系统144、应用程序145、其它程序模块146和程序资料147不同的标号是为了说明至少它们是不同的副本。
用户可以通过输入设备，如键盘162、麦克风163，以及诸如鼠标、跟踪球或触摸板等定点设备161向计算机110输入命令和信息。其它输入设备(未示出)可以包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合到系统总线的用户输入接口160连接到处理单元120，但也可以通过其它接口和总线结构连接，例如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过诸如视频接口190等接口连接到系统总线120。除监视器之外，计算机也可以包括其它外围输出设备，如扬声器197和打印机196，它们通过输出外围接口190连接。
计算机110可以在使用到一个或多个远程计算机，如远程计算机180的逻辑连接的网络化环境中运转。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它公用网络节点，并通常包括上面相对于计算机110所描述的许多或全部元件。图1所述的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但也可以包括其它网络。这样的网络环境常见于办公室、企业范围计算机网络、内联和因特网。
当在LAN网络环境中使用时，计算机110通过网络接口或适配器170连接到LAN 171。当在WAN网络环境中使用时，计算机110通常包括调制解调器172或其它装置，用于通过WAN 173，如因特网建立通信。调制解调器172，可以内置或外置的，可以通过用户输入接口160或其它适当的机制连接到系统总线121。在网络化环境中，相对于计算机110所描述的程序模块或其部分可以储村在远程存储器存储设备中。作为示例而非局限，图1示出远程应用程序185驻留在远程计算机180中。可以理解，所示的网络连接是示例性的，也可使用在计算机之间建立通信链路的其它装置。
图2是移动设备200的方框图，它是一种示例性的计算环境。移动设备200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其它移动设备进行通信的通信接口208。在一个实施例中，上述组件被耦合在一起，用于通过合适的总线210相互通信。
存储器204被实现为诸如随机存取内存(RAM)等非易失电子存储器，它具有电池备份模块(未示出)，使得当关闭移动设备200的总电源时储存在存储器204中的信息不会丢失。较佳地分配存储器204的一部分作为用于程序执行的可寻址存储器，而存储器204的另一部分较佳地用作存储，如模拟盘驱动器上的存储。
存储器204包括操作系统212、应用程序214和对象存储216。在操作过程中，较佳地由处理器202从存储器204中执行操作系统212。在一个实施例中，操作系统212是可从微软公司购买的WindowsCE操作系统。操作系统212较佳地被设计成用于移动设备，并实现可由应用程序214通过一组展现的应用编程接口和方法使用的数据库特征。对象存储216中的对象至少部分地响应于对展现的应用编程接口和方法的调用，由应用214和操作系统212维护。
通信接口208表示众多允许移动设备200发送和接收信息的设备和技术。仅举几个例子，这些设备包括有线和无线调制解调器、卫星接收器和广播调谐器。移动设备200也可以直接连接到计算机以与之交换数据。在这种情况下，通信接口208可以是红外收发器或串行或并行通信连接，其所有都能够传输流信息。
输入/输出组件206包括各种输入设备，例如触敏屏幕、按钮、滚轴和麦克风，也包括各种输出设备，如音频发生器、振动设备和显示器。上文列出的设备都作为示例，而不需要都在移动设备200中存在。另外，在本发明范围内，也可以在移动设备200上附加其它输入/输出设备，或在其中找到。
在下面的讨论中，参考语音识别来描述本发明，以便于理解本发明。但是，本领域的技术人员将认识到，本发明不限于语音识别，而可以在任一模式识别系统中使用。
语音识别的目的是把语音信号转换成一列单词。要做到这一点，通常把语音信号划分成重叠的语音帧，并把每一帧转换为描述帧内容的特征矢量y。在识别—也称为解码期间，使用声学模型来标识可以用特征矢量表示的最可能的语音状态序列。所得的语音状态序列表示单词的已解码序列。
许多声学模型对高斯型(Gaussian)混合进行估算来确定任何一个语音状态的概率。这样，在每一帧，对每一语音状态估算出高斯型混合以标识该帧最可能的语音状态。对每一高斯型的评估都可以看作是确定p(y|m)，即给定该语音状态的混合分量m时，该特征矢量y的概率。
当结合语音识别使用降噪时，由降噪系统将含噪声的输入特征矢量y转换为净化特征矢量该净化特征矢量表示实际净化特征矢量x的估算。然后将该净化特征矢量作为输入信号应用到语音识别系统中，后者在给定净化特征矢量时试图确定最可能的语音状态。
如果没有噪声恶化，则观测矢量y和干净矢量x相同。由此，估算干净观测矢量的混合分量的高斯型p(y|m)与给定混合分量m时估算干净矢量x的概率p(x|m)是一样的。
但是，当观测矢量被噪声恶化，并使用降噪系统时，对识别器的输入不再是理想的干净矢量x，而仅仅是x的估算一净化特征矢量在过去，普遍地简单将净化特征矢量看成等于理想的干净特征矢量x来对待。在这种情况下，估算混合分量的高斯型p(y|m)通过确定概率来近似。
在本发明中，使用了一种更严格的方法，通过在所有可能的看不见的干净语音矢量上临界化(marginalize)联合条件概率密度函数p(y，x|m)来确定概率p(y|m)。用等式表示p(y|m)=&Integral;-∞∞p(y,x|m)dx]]>等式1
等式1的右侧可以展开，这样等式1变成p(y|m)=&Integral;-∞∞p(y|x,m)p(x|m)dx]]>等式2为了使与等式2相关联的计算更容易实现，假设概率p(y|x，m)和m无关，使得它变成p(y|x)。然后将这一概率模型化为描述降噪过程的确定性的高斯分布。具体地p(y|x)=αN(x^;x,σx^2)]]>等式3其中，该分布在净化特征矢量上定义，并和理想干净特征矢量x具有相等的平均值，以及表示与降噪过程相关联的方差的方差注意，在等式3中使用了简化符号以将高斯分布表示为整个矢量上的单一高斯型。实际上，对特征矢量的每一维，有单独的高斯型，它有自己的平均值和方差。例如p(yl|xl)=αN(x^l;xl,σx^,l2)]]>等式4其中yl是含噪声的特征矢量的l分量，xl是干净特征矢量的l分量，是净化特征矢量的l分量，而是与该特征矢量的l分量的降噪过程相关联的方差(也称为不确定性)。
先验概率p(x|m)，也被模型化为高斯分布的集合，对该矢量的每一分量模型化一个概率，使得p(xl|m)=N(xl;μm,l,σm,l2)]]>等式5其中μm.l是先验分布的平均值，而σm.l2是特征矢量的l分量的分布的方差。
组合等式2、4、5，并估算积分，得p(yl|m)=αN(x^l;μm,l,σm,l2+σx^,l2)]]>等式6这样，在本发明的框架下，在声学模型中使用的分布的方差是与先验模型相关联的方差σm.l2和与降噪过程相关联的方差或不确定性的组合。结果是，如果对一个分量，与降噪过程相关联的不确定性很高，则在对每一语音状态生成的概率之间将几乎没有区别。结果是，该分量在语音状态序列的解码中将没有什么作用。但是，如果降噪过程的不确定性很小，各种语音状态的声学模型将对该分量生成与众不同的概率，从而该分量将对语音状态的选择产生很大的影响。
本发明的一个实施例中，所述降噪过程使用了干净语音的动态方面的先验模型、干净语音的静态方面的先验模型、以及描述干净语音、含噪声的语音和噪声之间的关系的声学失真或声学环境模型。由此，本发明提供了一种确定这一基于参数的降噪过程中的不确定性的技术。
在下面的论述中，在倒谱域中实现该降噪方法。具体地，干净语音、含噪声的语音和噪声的每一帧都用一倒谱特征矢量来表示，该倒谱特征矢量是通过对本帧内的信号的频域表示取对数并进行离散余弦变换来形成的。由此，在下面的讨论中，该方法试图从含噪声的语音特征矢量中标识经降噪的特征矢量。与上面的等式3一样，在下面使用了简化符号，将每一矢量作为由单个分布表示来看待。在实现中，对该矢量的每一分量都有一个独立分布。
为了降低含噪声矢量中的噪声，使用条件期望来确定经降噪的矢量的最小均方估算x^t=E[xt|yt,x^t-1]=&Integral;xtp(xt|yt,x^t-1)dxt]]>等式7其中是当前帧的经降噪的特征矢量的估算，是对上一帧确定的经降噪的特征矢量的估算，yt是当前帧的含噪声的语音特征矢量，xt是当前帧的干净语音特征矢量。
使用贝叶斯规则，等式1的估算可以重新叙述为x^t=&Integral;xtp(xt|x^t-1)p(yt|xt)dxtp(yt)]]>等式8其中是给定上一帧的干净语音矢量的估算时干净语音矢量xt的条件概率，p(yt|xt)是给定干净语音矢量xt时含噪声的语音矢量yt的条件概率，p(yt)是含噪声的语音矢量yt的概率。
在本发明的一个实施例中，使用一种混合模型来描述条件概率用等式表示p(xt|x^t-1)=Σm=1Mcmp(xt|m,x^t-1)]]>等式9其中，条件先验概率是由第m个混合分量提供概率，cm是第m个混合分量的加权因子。
在一个实施例中，认为含噪声的语音是干净语音添加了噪声的结果。这提供了一种声学环境模型，也被称为含噪声的语音的失真模型。在时域中，这一添加是线性的。但是在倒谱特征域，这一添加变为非现行，导致以下的特征矢量关系yt＝xt+g(nt-xt)+r 等式10其中g(nt-xt)=log(1+ent-xt)]]>等式11r是余量。
为了使等式10更易于使用，使用截断泰勒级数近似来线性化该非线性。具体地，使用在xt＝x0处g(nt-xt)上的零阶泰勒级数展开来形成近似yt≈xt+g(n-x0)+r 等式12其中，g(n-x0)是展开点x0处的零阶泰勒级数展开，n是当前帧的噪声估算。在大多数实施例中，选择展开点x0作为降噪过程的前一次迭代中确定的干净语音信号的估算，n使用递归技术来确定。本领域的技术人员可以认识到，噪声估算的递归技术只是可以在本发明中使用的众多不同的噪声估算技术的一个示例。
基于等式12中所示的关系，等式8的条件概率p(yt|xt)变为声学环境概率p(yt|xt，nt)。使用这一声学环境概率以及上文的等式9，等式8可以被重写为x^t=Σm=1Mcm&Integral;xtp(xt|m,x^t-1)p(yt|xt,n&OverBar;t)dxtp(yt)]]>等式13为计算等式13的积分，首先估算条件先验概率为使该估算更简单，认识到(xt|m,x^t-1)&Proportional;p(xt,Δxt|m)]]>等式14其中Δxt=xt-x^t-1]]>等式15由此，在等式14中，xt表示干净语音的静态方面，Δxt表示干净语音的动态方面。
为进一步简化条件先验的估算，假设干净语音的静态方面与干净语音的动态方面无关。结果是p(xt，Δxt|m)＝p(xt|m)p(Δxt|m)等式16在一个实施例中，干净语音的静态方面的先验概率和干净语音的动态方面的先验概率的每一个都，被模型化为高斯分布，使得
p(xt,Δxt|m)=N(xt;μmx,Φmx)N(Δxt;μmΔx,ΦmΔt)]]>等式17其中，μmx和Φmx是干净语音的静态方面的先验模型的平均值和方差，μmΔx和ΦmΔx是干净语音的动态放慢的先验模型的平均值和方差。
将上述两个高斯分布的乘积中的指数代入xt的标准二次方程式，并使用上面的等式14，产生p(xt|m,x^t-1)=N(xt;μm,Φm)]]>等式18其中μm=ΦmΔx(Φmx+ΦmΔx)μmx+Φmx(Φmx+ΦmΔx)(xt-1+μmΔx).]]>等式19且Φm=ΦmxΦmΔx(Φmx+ΦmΔx)]]>等式20在许多实施例中，声学环境概率p(yt|xt，nt)也被模型化为生成以下形式的声学模型的高斯分布p(yt|xt，nt)＝N(yt；xt+g(n-x0)，Ψ)等式21其中，Ψ是固定对角协方差矩阵，它是余量r的协方差矩阵的近似。
由此，等式13中的分子中的积分变为Im＝∫xtN(xt；μm，Φm)N(yt；xt+g(n-x0)，Ψ)dxt等式22估算该积分，产生Im=[v1(m)μmx+v2(m)(xt-1+μmΔx)+w2(m)(yt-g(n&OverBar;-x0))]NM(yt)]]>等式23其中
Nm(yt)=N(yt;μmx+g(n&OverBar;-x0),Φmx+Ψ)]]>等式24v1(m)=Ψ(Φmx+Ψ)ΦmΔx(Φmx+ΦmΔx)]]>等式25v2(m)=Ψ(Φmx+Ψ)Φmx(Φmx+ΦmΔx)]]>等式26w2(m)=I-Ψ(Φmx+Ψ)]]>等式27给定等式15中作出的0阶近似下干净语音模型的第m个分量，等式25中的高斯分布可被示出为在观测yt的似然性。即p(yt|m)≈Nm(yt)等式28结果是，等式13中的分母可被确定为p(yt)=Σm=1Mcmp(yt|m)≈Σm=1McmNm(yt)]]>等式29组合等式13、23和29，产生xt的估算量xt=Σm=1Mγm(yt)[v1(m)μmx+v2(m)(xt-1+μmΔx)+w2(m)(yt-g(n&OverBar;-x0))]]]>等式30其中γm(yt)=cmNm(yt)Σm=1McmNm(yt)]]>等式31等式30中的每一被加数都是贡献给最终经降噪的矢量的混合分量。每一被加数通过将这三项的加权和乘以含噪声的特征矢量yt的相对概率而形成。第一项是从先前的干净语音模型的静态方面的平均值中获得的经降噪的矢量的预测μmx。第二项是基于对上一帧的经降噪的矢量和先前的干净语音模型的静态方面的平均值的估算对经降噪的矢量的预测(xt-1+μmΔx)。最后一项yt-g(n-x0)是在没有任何先验信息时基于声学失真模型对经降噪的干净语音矢量的预测。
由此，等式30中的估算量使用了干净语音的静态方面的先验模型、干净语音的动态方面的先验模型以及声学失真模型。结果是，使用等式30的估算量产生的经降噪的矢量序列包含更少的中断并显得更加自然。
另外，应用于每一被加数中的每一项的加权值使得当其中一项的方差增加时其相对加权值减小。由此，当某一项对经降噪的值的描述变得更准确时，其加权值相对于其他项的加权值增加。
例如，应用于由干净语音的静态方面的先验模型预测的值的加权值是干净语音的动态方面的先验模型的方差的函数。结果是，当干净语音的动态方面的模型的方差相对于干净语音的静态方面的模型的方差增加时，由静态方面的先验模型预测的值的相对加权就增加。
对由干净语音的动态方面的先验模型预测的值的加权也产生相似的效果，因为该加权值是干净语言的静态方面的先验模型的方差的函数。
在可使用等式31的估算量之前，必须训练各种模型的参数。在一个实施例中，使用EM算法来训练倒频域中的平均值和协方差参数μmx、Φmx、μmΔx和ΦmΔx。在这一训练过程中，也训练混合分量权值cm。完成这一训练的技术在本领域中是众所周知的。固定协方差矩阵Ψ通过将训练数据与所有可用的信噪比进行汇聚(pooling)来估算。
在一个实施例中，以迭代方式确定经降噪的矢量xt，使得当前迭代中经降噪的矢量的值用作下一迭代中泰勒级数近似g(n-x0)的展开点x0。对于第一次迭代，泰勒级数近似的展开点是混合分量平均值μmx，它使用正态分布提供了含噪声的矢量的最高概率N(yt;μmx+g(n&OverBar;-x0),Ψ)]]>等式32在每一迭代中，经降噪的矢量计算如下x^tj+1=Σm=1Mγmj(yt)[v1(m)μmx+v2(m)(x^t-1+μmΔx)+w2(m)(yt-g(n&OverBar;-x^tj))]]]>等式33其中j表示迭代次数，并且γmj(yt)=cmN(yt;μmx+g(n&OverBar;-x^tj),Φmx+Ψ)Σm=1McmN(yt;μmx+g(n&OverBar;-x^tj),Φmx+Ψ)]]>等式34由此，经降噪的矢量的期望是μx^t=x^tJ]]>等式35其中J是迭代总次数。
在本发明中，也计算由等式33的迭代表示的与降噪过程相关联的不确定性，使其能识别过程中使用。该不确定性是中的方差定义如下Σx^t=E[xt2|yt]-μx^t2]]>等式36其中等式37使用上面等式14-21的近似和模型，积分Im变为Im=&Integral;xt2N(xt;μm,Φm)N(yt;xt+g(n&OverBar;-x0),Ψ)dxt]]>=&Integral;xt2N(xt;θm(t),(Φm+Ψ)-1ΦmΨ)dxt×Nm(yt)]]>等式38=[(Φm+Ψ)-1ΦmΨ+θm2(t)]×Nm(yt)]]>其中μm=ΦmΔx(Φmx+ΦmΔx)μmx+Φmx(Φmx+ΦmΔx)(xt-1+μmΔx)]]>等式39Φm=ΦmxΦmΔx(Φmx+ΦmΔx)]]>等式40θm(t)＝(Φm+Ψ)-1[Ψμm+Φm(yt-g(n-x0))] 等式41Nm(yt)＝N(yt；μm+g(n-x0)，Φm+Ψ) 等式42将等式38的结果代入等式37，得到E[xt2|yt]≈Σm=1Mγm(yt)[(Φm+Ψ)-1ΦmΨ+θm2(t)]]]>等式43其中γm(yt)=cmNm(yt)Σm=1McmNm(yt)]]>等式44
然后，使用等式43中计算的值以及等式33-35中计算的经降噪的矢量的期望的平方，以使用上述等式36来确定降噪过程的不确定性。注意，等式36中，是不确定性的矢量表示，它表示静态经降噪的矢量的每一分量的各自的不确定性上述等式33-35确定了经降噪的矢量的静态分量。在本发明的实施例中，也可确定描述分量如何在帧之间变化的这些静态分量的差分。这些差分通常被称为动态特征。在本发明中，确定两种类型的动态特征。一种是表明帧间变化的增量特征，另一种是表明增量特征变化率的加速度特征。在一个实施例中，增量特征计算如下Δx^t=Στ=-KKωτx^t+τ]]>等式45其中，是经降噪的矢量的动态特征，K表明用于确定动态特征的相邻帧的数量，ωτ是提供对相邻帧的相对加权的固定权值。注意，在等式45中使用了矢量符号来表明对经降噪的特征矢量的每一分量执行单独计算。
加速度特征也基于等式45中计算的增量特征来确定。具体地Δ2x^t=Στ=-KK&upsi;τΔx^t+τ]]>等式46其中，是经降噪的矢量的加速度特征，K表明用于确定动态特征的相邻帧的数量，υτ是提供对相邻帧的相对加权的固定权值。
增量和加速度特征与静态降噪特征一起提供给解码器。另外，计算增量和加速度特征的不确定性，并将其提供给解码器。具体地，增量和加速度特征的不确定性计算如下ΣΔx^t=Στ=-KKωτ2Σx^t]]>等式47ΣΔ2x^t=Στ=-KK&upsi;τ2ΣΔx^t]]>等式48其中，是上述等式36中计算的不确定性，是增量特征的不确定性，是加速度特征的不确定性，ωτ和υτ是等式45和46中所使用的相同的加权值。
静态特征、增量特征和加速度特征的不确定性的每一个都用在等式6中，以在解码过程中确定含噪声的特征矢量的对应特征的概率。具体地，等式45和46中计算的增量特征和加速度特征的每一分量都作为经降噪的矢量的个别分量来看待，而与增量特征的每一元素和每一加速度特征相关联的对应的不确定性都用作等式6中的不确定性在语音识别中使用本发明的方法和系统在图3的流程图和图4的方框图中示出。该方法从图3的步骤300开始，将含噪声的语音信号转换成特征矢量序列。为了完成这一点，图4的麦克风404把来自说话者400和一个或多个附加噪声源402的音频波转换成电信号。然后由模—数转换器406对该电信号进行采样以生成数字值序列，该序列由帧构造器408分组成值的帧。在一个实施例中，模—数转换器406以16kHz和每样值16比特对模拟信号进行采样，从而产生每秒32千字节的语音数据，并且帧构造器408每10毫秒产生一个包含25毫秒数据的新帧。
帧构造器408提供的每一数据帧由特征提取器410转换成特征矢量。标识这一特征矢量的方法在本领域中是众所周知的，并包括13维梅尔频率倒谱系数(MFCC)提取。
在图3的步骤302，将含噪声的语音信号的特征矢量提供给图4中的噪声估算模块411。噪声估算模块411估算当前帧的的噪声，并将表示噪声估算的特征矢量和含噪声的语音信号一起提供给降噪模块412。
在图3的步骤304，降噪模块412使用上述等式33-35、45和46以及储存在降噪参数存储413中的这些等式的模型参数，以从含噪声的特征矢量序列中产生经降噪的特征矢量序列。具体地，降噪模块412使用上述声学失真模型。另外，降噪模块412使用等式36-44、47和48以确定与形成经降噪的特征矢量相关联的不确定性。
降噪模块412的输出是一系列经降噪的特征矢量和对应的与那些经降噪的特征矢量相关联的一系列不确定性。如果输入信号是训练信号，则将经降噪的特征矢量序列提供给训练器424，它使用经降噪的特征矢量和训练文本426来训练声学模型418。训练这一模型的技术在本领域中是众所周知的，因此不需要为了理解本发明而描述它们。
如果输入信号是测试信号，则将经降噪的特征矢量和对应的不确定性提供给解码器414，后者基于特征矢量流、不确定性流、词典415、语言模型416以及如图3的步骤306中所示的声学模型418来标识最可能的单词序列。特别地，解码使用上述等式6。
将最可能的假设单词序列提供给置信度测量模块420。置信度测量模块420部分地基于二级声学模型(未示出)，来标识哪些单词最可能被语音识别器不正确地标识。置信度测量模块420然后向输出模块422提供假设单词序列以及指示哪些单词可能被不正确地标识的标识符。本领域的技术人员将认识到，置信度测量模块420对实践本发明并不是必需的。
虽然图4描述了一种语音识别系统，然而本发明也可在任一模式识别系统中使用，而不局限于语音。
虽然参考具体实施例描述了本发明，然而本领域的技术人员将认识到，可以在不脱离本发明的精神和范围的情况下在形式和细节上作出改动。
权利要求
1.一种降低含噪声的信号中的噪声的方法，其特征在于，所述方法包括使用一声学环境模型降低所述含噪声的信号的一部分的表示中的噪声，以产生经降噪的信号的一部分的表示；以及标识与所述降噪相关联的不确定性。
2.如权利要求1所述的方法，其特征在于，它还包括使用所述不确定性来调整一概率分布，以形成经修改的概率分布；以及使用所述经降噪的信号的一部分的表示和所述经修改的概率分布来对一模式状态进行解码。
3.如权利要求1所述的方法，其特征在于，所述经降噪的信号的一部分的表示包括所述经降噪的信号的增量特征的表示。
4.如权利要求3所述的方法，其特征在于，所述标识不确定性包括标识与所述经降噪的信号的增量特征相关联的不确定性。
5.如权利要求1所述的方法，其特征在于，所述经降噪的信号的一部分的表示包括所述经降噪的信号的加速度特征的表示。
6.如权利要求5所述的方法，其特征在于，所述标识不确定性包括标识与所述经降噪的信号的加速度特征相关联的不确定性。
7.如权利要求1所述的方法，其特征在于，所述降噪包括使用一干净信号的动态方面的先验模型。
8.一种具有用于执行以下步骤的计算机可执行指令的计算机可读媒质将一含噪声的信号的帧转换成一包括至少两个分量的特征矢量；通过使用一声学失真模型降低所述含噪声的信号的特征矢量的分量中的噪声，以产生净化信号的特征矢量的分量；以及标识与降低所述分量的噪声相关联的不确定性。
9.如权利要求8所述的计算机可读媒质，其特征在于，所述计算机可执行的指令还执行以下步骤部分地基于所述净化信号的分量和与从所述分量中降噪相关联的不确定性，来确定一语音状态的概率的概率分量；无论所述不确定性的值如何，使用所述概率分量来确定所述语音状态的概率。
10.如权利要求9所述的计算机可读媒质，其特征在于，所述确定概率分量包括部分地基于所述不确定性来定义一概率分布。
11.如权利要求10所述的计算机可读媒质，其特征在于，所述定义概率分布包括向概率分布的方差增加所述不确定性。
12.如权利要求8所述的计算机可读媒质，其特征在于，所述计算机可执行指令还执行确定所述净化信号的增量特征的步骤。
13.如权利要求12所述的计算机可读媒质，其特征在于，所述计算机可执行指令还执行确定所述净化信号的增量特征的不确定性的步骤。
14.如权利要求8所述的计算机可读媒质，其特征在于，所述计算机可执行指令还执行确定所述净化信号的加速度特征的步骤。
15.如权利要求14所述的计算机可读媒质，其特征在于，所述计算机可执行指令还执行确定所述净化信号的加速度特征的不确定性的步骤。
16.如权利要求8所述的计算机可读媒质，其特征在于，所述从分量中降噪还包括使用一干净信号的动态方面的先验模型。
全文摘要
提供了一种基于语音失真的参数模型确定降噪中的不确定性的方法和装置。该方法首先用于降低含噪声的信号中的噪声。具体地，通过使用一声学环境模型(413)从含噪声的信号的一部分的表示中降低(304)噪声以产生净化信号的表示。然后计算与所述降噪过程相关联的不确定性。在一个实施例中，使用降噪过程的不确定性以及经降噪的信号对模式状态进行解码。
文档编号G10L15/14GK1653520SQ03811403
公开日2005年8月10日申请日期2003年5月20日优先权日2002年5月20日
发明者邓立, A·阿塞罗, J·G·德罗普申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邓立;A.阿塞罗;J.G.德罗普
技术所有人：微软公司
我是此专利的发明人