多传感器语音增强的方法和装置的制作方法

文档序号:2822442阅读:176来源:国知局
专利名称:多传感器语音增强的方法和装置的制作方法
技术领域
本发明涉及降噪,尤其涉及从语音信号中去除噪声。
背景技术
在语音识别和语音传输中的一个常见问题是加性噪声对语音信号的破坏。更具体地,由于另一扬声器的语音造成的破坏被证明是难以检测和/或纠正的。
近来,开发了一种试图使用诸如骨导麦克风等备选的传感器和气导麦克风的组合来去除噪声的系统。该系统使用以下三个训练信道来训练有噪声的备选传感器训练信号、有噪声的气导麦克风训练信号和干净的气导麦克风训练信号。每个信号都被转化至特征域中。有噪声的备选传感器信号和有噪声的气导麦克风信号的特征被组合成表示有噪声的信号的单个向量。干净的气导麦克风信号的特征形成单个干净向量。这些向量而后用来训练有噪声的向量和干净向量间的映射。一旦训练后,该映射被应用于由有噪声的备选传感器测试信号和有噪声的气导麦克风测试信号的组合所形成的有噪声的向量。该映射产生干净信号向量。
当测试信号的噪声条件与训练信号的噪声条件不匹配时,该系统不是最优的,因为该映射是为训练信号的噪声条件而设计的。

发明内容
一种方法和装置使用备选传感器信号和气导麦克风信号来确定对备选传感器的信道响应。该信道响应而后用于使用备选传感器信号的至少一部分来估算干净语音值。


图1是其中可实现本发明的一个计算环境的框图。
图2是其中可实现本发明的另一计算环境的框图。
图3是本发明的通用语音处理系统的框图。
图4是本发明的一个实施例中增强语音的系统的框图。
图5是本发明的一个实施例中增强语音的流程图。
图6是本发明的另一实施例中增强语音的流程图。
图7是本发明的又一实施例中增强语音的流程图。
具体实施例方式
图1示出了可在其上实现本发明的合适的计算系统环境100的示例。计算环境100仅仅是合适的计算环境的一个示例,并不旨在对本发明的使用范围或功能提出任何限制。也不应该把计算环境100解释为对在示例性操作环境100中示出的任一组件或其组合有任何依赖或要求。
本发明可用众多其它通用或专用计算系统环境或配置来操作。适合在本发明中使用的公知的计算系统、环境和/或配置的示例包括,但不限于,个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子产品、网络PC、小型机、大型机、电话系统、包含上述系统或设备中的任一个的分布式计算机环境等。
本发明可在诸如由计算机执行的程序模块等的计算机可执行指令通用语境下描述。一般而言,程序模块包括例程、程序、对象、组件、数据结构等,它们执行特定任务或实现特定抽象数据类型。本发明也可以在分布式计算环境下实现,其中任务由通过通信网络连接的远程处理设备执行。在分布式计算环境中,程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质中。
参考图1,用于实现本发明的示例性系统100包括计算机110形式的通用计算设备。计算机110的组件包括,但不限于,处理单元120、系统存储器130和将包括系统存储器在内的各种系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干类型的总线结构中的任一种,包括存储器总线或存储器控制器、外围总线和使用多种总线体系结构中的任一种的局部总线。作为示例,而非限制,这样的体系结构包括工业标准体系结构(ISA)总线、微信道体系结构(MCA)总线、增强的ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和外围部件互连(PCI)总线(也被称为Mezzanine总线)。
计算机110通常包括各种计算机可读介质。计算机可读介质可以是能够被计算机110访问到的任何可用介质,且包括易失性和非易失性介质、可移动和不可移动介质。作为示例,而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术,CD-ROM、数字多功能盘(DVD)或其它光盘存储,磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以由计算机100访问的任何其它介质。通信介质通常具体化为诸如载波或其它传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据,且包括任何信息传递介质。术语“已调制数据信号”指的是一种信号,其一个或多个特征以在信号中编码信息的方式被设定或更改。作为示例,而非限制,通信介质包括有线介质,诸如有线网络或直接线连接,和无线介质,诸如声学、RF、红外线和其它无线介质。上述中任何的组合也应包括在计算机可读介质范围之内。
系统存储器130包括易失性或非易失性存储器形式的计算机存储介质,诸如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包含有助于诸如启动时在计算机110中的元件之间传递信息的基本例程,它通常存储在ROM131中。RAM132通常包含处理单元120可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例,而非限制,图2示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可以包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例,图1示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器141,从可移动、非易失性磁盘152中读取或向其写入的磁盘驱动器151,和从诸如CD ROM或其它光学介质等可移动、非易失性光盘156中读取或向其写入的光盘驱动器155。可以在示例性操作环境下使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括,但不限于,盒式磁带、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器141通常由不可移动存储器接口,诸如接口140连接至系统总线121,磁盘驱动器151和光盘驱动器155通常由可移动存储器接口,诸如接口150连接至系统总线121。
以上描述和在图1中示出的驱动器及其相关联的计算机存储介质为计算机110提供了对计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,硬盘驱动器141被示为存储操作系统144、应用程序145、其它程序模块146和程序数据147。注意到这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同或不同。操作系统144、应用程序145、其它程序模块146和程序数据147在这里被标注了不同的标号是为了说明至少它们是不同的副本。
用户可以通过输入设备,诸如键盘162、麦克风163和定点设备161(通常指鼠标、跟踪球或触摸垫)向计算机110输入命令和信息。其它输入设备(未示出)可以包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等。这些和其它输入设备通常由耦合至系统总线的用户输入接口160连接至处理单元120,但也可以由其它接口或总线结构,诸如并行端口、游戏端口或通用串行总线(USB)连接。监视器191或其它类型的显示设备也经由一接口,诸如视频接口190,连接至系统总线121。除监视器以外,计算机也可以包括其它外围输出设备,诸如扬声器197和打印机196,它们可以通过输出外围接口195连接。
计算机110可使用至一个或多个远程计算机,诸如远程计算机180的逻辑连接在网络化环境下操作。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它常见网络节点,且通常包括上文相对于计算机110所描述的许多或所有元件。图1中所示逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可以包括其它网络。这样的网络环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接至LAN171。当在WAN网络环境中使用时,计算机110通常包括调制解调器172或用于通过诸如因特网等WAN173建立通信的其它装置。调制解调器172可以是内部的或外部的,可以通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中,相对于计算机110所描述的程序模块或其部分可以存储在远程存储器存储设备中。作为示例,而非限制,图1示出了远程应用程序185驻留在存储器设备181上。可以理解,所示的网络连接是示例性的,且可以使用在计算机之间建立通信链路的其它手段。
图2是移动设备200的框图,它是一个示例性计算环境。移动设备200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于同远程计算机或其它移动设备通信的通信接口208。在一个实施例中,上述组件为相互通信而通过合适的总线210被耦合在一起。
存储器204被实现为诸如带有电池备用模块(未示出)的随机存取存储器(RAM)等的非易失性电子存储器,以使当移动设备200的总电源被关闭时,存储在存储器204中的信息也不会丢失。存储器204的一部分较佳地被分配为用于程序执行的可寻址存储器,而存储器204的另一部分较佳地用于存储,诸如模拟在硬盘驱动器上的存储。
存储器204包括操作系统212、应用程序214和对象存储216。在操作期间,操作系统212较佳地由处理器202从存储器204处执行。在一个较佳的实施例中,操作系统212是可从微软公司购买的WINDOWSCE操作系统。操作系统212较佳地是为移动设备所设计的,且实现可由应用程序214通过一组所展现的应用程序编程接口和方法来使用的数据库特征。对象存储216中的对象由应用程序214和操作系统212至少部分地响应于对所展现的应用程序编程接口和方法的调用来维护。
通信接口208表示允许移动设备200发送和接收信息的众多设备和技术。仅举几个示例,这些设备包括有线和无线调制解调器、卫星接收器和广播调谐器。移动设备200也能够被直接连接至计算机以与其交换数据。在这些情况下,通信接口208能够是红外线收发器或者串行或并行通信连接,上述所有都能够传输流信息。
输入/输出组件206包括各种输入设备,诸如触敏屏幕、按钮、滚轮和麦克风,还包括各种输出设备,包括音频发生器、振动设备和显示器。以上列出的设备仅作为示例,且不需在移动设备200上全部存在。另外,其它输入/输出设备可以在本发明的范围内被附加至移动设备200或与其一同出现。
图3提供了本发明实施例的基本框图。图3中,说话者300生成语音信号302(X),该信号由气导麦克风304和备选传感器306检测。备选传感器的示例包括测量用户喉部振动的喉部麦克风、位于或接近用户面部骨骼或颅骨(诸如颌骨)的或在用户耳朵中,传感与用户生成的语音相对应的颅骨或颌骨的振动的骨导传感器。气导麦克风304是常用于将音频空气波转换成电信号的麦克风类型。
气导麦克风304还接收由一个或多个噪声源310生成的环境噪声308(U)和由背景说话者314生成背景语音312(V)。取决于备选传感器的类型和背景语音的级别,背景语音312也可以由备选传感器306检测。然而,在本发明的实施例中,备选传感器306通常对环境噪声和背景语音不如气导麦克风304敏感。这样,由备选传感器306生成的备选传感器信号316(B)一般比由气导麦克风304所生成的气导麦克风信号318(Y)包含更少的噪声。尽管备选传感器306对环境噪声较不敏感,但它的确生成某些传感器噪声320(W)。
从说话者300至备选传感器信号316的路径能够被建模为拥有信道响应H的信道。从背景说话者314至备选传感器信号316的路径能够被建模为拥有信道响应G的信道。
备选传感器信号316(B)和气导麦克风信号318(Y)被提供给干净信号估算器322,它估算干净信号324,并且在某些实施例中估算背景语音信号326。干净信号估算324被提供给语音处理328。干净信号估算324可以是经滤波的时域信号或傅里叶变换向量。如果干净信号估算324是时域信号,则语音处理328可以采用收听器、语音编码系统或语音识别系统的形式。如果干净信号估算324是傅里叶变换向量,则语音处理328通常可以是语音识别系统,或包含傅里叶反变换用于将傅里叶变换向量转换为波形。
在直接滤波增强322中,备选传感器信号316和麦克风信号318被转换到用于估算干净语音的频域。如图4所示,备选传感器信号316和气导麦克风信号318分别被提供给模-数转换器404和414,用于生成一数字值序列,这些数字值分别由帧构造器406和416组合成值的帧。在一个实施例中,模-数转换器404和414以16kHz和每个样值16比特对模拟信号进行采样,从而创建了每秒32千字节的语音数据,且帧构造器406和416每10毫秒分别创建一个包含20毫秒数据的新帧。
由帧构造器406和416提供的每一各自的数据帧分别使用快速傅里叶变换(FFT)408和418转换到频域。
备选传感器信号和气导麦克风信号的频域值被提供给干净信号估算器420,它使用该频域值来估算干净语音信号324,并在某些实施例中估算背景语音信号326。
在某些实施例中,干净语音信号324和背景语音信号326使用快速傅里叶反变换422和424转换回时域。这样创建了干净语音信号324和背景语音信号326的时域形式。
本发明提供了用于估算干净语音信号324的直接滤波技术。在直接滤波中,备选传感器306的信道响应的最大似然估计是通过最小化与该信道响应相关的函数来确定的。这些估算而后被用来通过最小化与干净语音信号相关的函数来确定干净语音信号的最大似然估计。
在本发明的一个实施例中,与由被选传感器所检测的背景语音相对应的信道响应G被认为是零,且背景语音和环境噪声被结合在一起形成单个噪声项。这能够获得在干净语音信号和气导麦克风信号及备选传感器信号之间的模型y(t)=x(t)+z(t)公式1b(t)=h(t)*x(t)+w(t) 公式2其中,y(t)是气导麦克风信号,b(t)是备选传感器信号,x(t)是干净语音信号,z(t)是包括背景语音和环境噪声的组合噪声信号,w(t)是备选传感器噪声,h(t)是对与备选传感器相关联的干净语音信号的信道响应。从而,在公式2中,备选传感器信号被建模为干净语音的经滤波形式,其中滤波器拥有脉冲响应h(t)。
在频域中,公式1和公式2可以被表达成Yt(k)=Xt(k)+Zt(k) 公式3Bt(k)=Ht(k)Xt(k)+Wt(k)公式4其中,记法Yt(k)表示以时间t为中心的一个信号帧的第k个频率分量。这个记法适用于Xt(k),Zt(k),Ht(k),Wt(k)和Bt(k)。在以下描述中,对频率分量k的引用为清楚起见而被省略。但是,本领域的技术人员应该认识到,下文执行的计算是在每个频率分量的基础上执行的。
在该实施例中,噪声Zt和Wt的实部和虚部被建模为独立的零均值高斯型,使得Zt=N(O,σz2)]]>公式5Wt=N(O,σw2)]]>公式6其中,σz2是噪声Zt的方差,σw2是噪声Wt的方差。
Ht也被建模为高斯型,使得Ht=N(H0,σH2)]]>公式7其中,H0是信道响应的均值,σH2是信道响应的方差。
给定这些模型参数,干净语音值Xt和信道响应值Ht的概率由条件概率描述
p(Xt,Ht|Yt,Bt,H0σz2,σw2,σH2)]]>公式8它与下述成比例p(Yt,Bt|Xt,Ht,σz2σw2)p(Ht|H0,σH2)p(Xt)]]>公式9它等价于p(Yt|Xt,σz2)p(Bt|Xt,Ht,σw2)p(Ht|H0,σH2)p(Xt)]]>公式10在一个实施例中,信道响应的先验概率p(Ht|H0,σH2),和干净语音信号的先验概率p(Xt)被忽略,且剩下的概率被作为高斯分布处理。使用这些简化,公式10变为1(2π)2σz2σw2exp[-12σz2|Yt-Xt|2-12σw2|Bt-Bt-Xt|2]]]>公式11从而,话语的最大似然估计Ht,Xt是通过把公式11在该话语中的所有时间帧T上的指数项最小化来确定的。这样,该最大似然估计通过最小化以下公式来给出F=Σt=1T(12σz2|Yt-Xt|2+12σw2|Bt-YtXt|2)]]>公式12因为公式12是相对于两个变量Ht,Xt来最小化的,因此相对于每个变量的偏导可以被用来确定使该函数最小化的变量的值。特别地,∂F∂Xt=0]]>时可以得到Xt=1σw2+σz2|Ht|2(σw2Yt+σz2Ht*Bt)]]>公式13其中,Ht*表示Ht的复共轭,而|Ht|表示Ht的复值的幅度。
将Xt的该值代入公式12,令偏导∂F∂Ht=0,]]>且然后假定H在所有时间帧T上是常数,得到H的解H=Σt=1T(σz2|Bt|2-σw2|Yt|2)±(Σt=1T(σz2|Bt|2-σw2|Yt|2))2+4σz2σw2|Σt=1TBt*Yt|22σz2Σt=1TBt*Yt]]>公式14在公式14中,对H的估算需要对最后T帧的多个求和,其形式为S(T)=Σt=1Tst]]>公式15其中,st为(σz2|Bt|2-σw2|Yt|2)或Bt*Yt。
由上述公式,第一帧(t=1)与最后一帧(t=T)同样重要。然而,在其它实施例中,较佳的是在对H的估算中让最近的帧比较早的帧起更大的作用。为达到该目的的一种技术是“指数衰退(exponential aging)”,其中公式15中的求和被替代为S(T)=Σt=1TcT-tst]]>公式16其中,c≤1。如果c=1,那么公式16等价于公式15。如果c<1,那么最后一帧的权重为1,最后一帧的前一帧由c加权(即,它起的作用比最后一帧小),且第一帧由cT-1加权(即,它起的作用远小于最后一帧)。举一个例子。令c=0.99且T=100,那么第一帧的权重仅为0.9999=0.37。
在一个实施例中,公式16被递归地估算为S(T)=cS′(T-1)+sT公式17因为公式17自动地给旧的数据分配更小的权重,因此不需要使用固定窗长度,且最后T帧的数据不需存储在存储器中。相反,只有前一帧的S(T-1)的值需要被存储。
使用公式17,公式14变为HT=J(T)+(J(T))2+4σz2σw2|K(T)|22σz2K(T)]]>公式18其中J(T)=cJ(T-1)+(σz2|BT|2-σw2|YT|2)]]>公式19K(T)=cK(T-1)+BT*YT]]>公式20公式19和20中的c的值为用于计算J(T)和K(T)当前值的过去的帧的数目提供了有效长度。特别地,有效长度由以下公式给出L(T)=Σt=1TcT-t=Σi=0T-1ci=1-cT1-c]]>公式21渐近的有效长度为L=linT→∞L(T)=11-c]]>公式22或等价地,c=L-1L]]>公式23这样,使用公式23,c能够被设置以便在公式18中得到不同的有效长度。例如,为得到200帧的有效长度,c被设为c=199200=0.995]]>公式24一旦使用公式14估算了H,它可以被用于代替公式13中所有的Ht,以便确定在每个时间帧t时Xt的单独值。可选地,公式18可以用于估算在每个时间帧t时的Ht。在每个时间帧时的Ht的值而后被用在公式13中来确定Xt。
图5提供了本发明的一方法的流程图,它使用公式13和14来估算话语的干净语音值。
在步骤500处,气导麦克风信号和备选传感器信号的帧的频率分量在整段话语上捕捉。
在步骤502处,气导麦克风噪声的方差σz2和被选传感器噪声的方差σw2分别从气导麦克风信号和备选传感器信号的帧确定,这些帧在早先说话者不发声的时段的话语中捕捉。
因为备选传感器噪声的能量比由备选传感器信号捕捉到的语音信号的能量小得多,因此本方法通过识别备选传感器信号的低能量段来确定说话者何时不发声。在其它实施例中,已知的语音检测技术可以应用于气导语音信号,以识别说话者何时发声。在说话者被认为不在发声时,Xt被假定为零,且来自气导麦克风或备选传感器的任何信号被认为是噪声。这些噪声值的样本从非语音的帧中收集,且用于估算在气导麦克风信号和备选传感器信号中的噪声的方差。
在步骤504处,通过使用上述公式14,使用在话语的所有帧上的备选传感器信号和气导麦克风信号的值来确定H的值。在步骤506处,使用上述公式13,该H的值与每一时间帧上的个别气导麦克风信号和备选传感器信号的值一起用来确定每一时间帧上的增强的或经降噪的语音值。
在其它实施例中,使用公式18为每一帧确定Ht,而不是使用公式14使用话语中的所有帧来确定单个H值。然后使用上述公式13,使用Ht的值来计算该帧的Xt。
在本发明的第二实施例中,备选传感器对背景语音的信道响应被认为是非零的。在该实施例中,气导麦克风信号和备选传感器信号被建模为Yt(k)=Xt(k)+Vt(k)+Ut(k) 公式25Bt(k)=Ht(k)Xt(k)+Gt(k)Vt(k)+Wt(k) 公式26其中,噪声Zt(k)被分成背景语音Vt(k)和环境噪声Ut(k),且对背景语音的备选传感器信道响应是非零值Gt(k)。
在该实施例中,对干净语音Xt的先验知识仍旧被忽略。作以下假定,干净语音Xt的最大似然性能够通过最小化下述目标函数来找到F=1σw2|Bt-HtXt-GtVt|2+1σu2|Yt-Xt-Vt|2+1σv2|Vt|2]]>公式27这就得到以下干净语音的公式Xt=(σw2+σu2Ht*Gt)Yt+[(σu2+σu2)Ht*-σv2Gt*](Bt-GtYt)σv2|Ht-Gt|2+σw2+σu2|Ht|2]]>公式28为了解出公式28,方差σw2,σu2和σv2以及信道响应值Ht和Gt必须已知。图6提供了用于识别这些值和用于确定每一帧的增强的语音值的流程图。
在步骤600处,话语的帧在用户不发声和没有背景语音的时候被识别。这些帧而后用于分别确定备选传感器和气导麦克风的方差σw2和σu2。
为识别用户不发声时的那些帧,可检查备选传感器信号。因为备选传感器信号为背景语音产生的信号值远小于为噪声产生的信号值,则如果备选传感器信号的能量较低,可以假定说话者不在发声。在基于备选信号识别的帧中,能够向气导麦克风信号应用语音检测算法。该语音检测系统可以检测当用户不发声时在气导麦克风信号中是否存在背景语音。这样的语音检测算法在本领域中是公知的,且包括诸如音调跟踪系统等系统。
当确定了与气导麦克风和备选传感器相关联的噪声的方差后,图6所示的方法继续前进至步骤602处,在这里识别出用户不发声但是存在背景语音的帧。这些帧使用上述相同的技术来识别,但只是选择当用户不发声时包含背景语音的那些帧。对用户不发声时包含背景语音的那些帧,可以假定背景语音远大于环境噪声。由此,在那些帧期间气导麦克风信号的任何方差被认为是由背景语音引起的。结果,方差σv2能够由从用户不发声但存在背景语音的那些帧期间气导麦克风信号的值来直接设定。
在步骤604处,所识别的用户不发声但存在背景语音的帧用于估算背景语音的备选传感器信道响应G。具体地,G被确定为G=Σt=1D(σu2|Bt|2-σw2|Yt|2)±(Σt=1D(σu2|Bt|2-σw2|Yt|2))2+4σu2σw2|Σt=1DBt*Yt|22σu2Σt=1DBt*Yt]]>公式29其中,D是用户不发声但存在背景语音的帧的数目。在公式29中,可以假定G在话语的所有帧上保持不变,从而不再依赖于时间帧t。
在步骤606处,对背景语音的备选传感器信道响应G的值用于确定对干净语音信号的备选传感器信道响应。具体地,H如下计算H=G+Σt=1T(σv2|Bt-GYt|2-σw2|Yt|2)±(Σt=1T(σv2|Bt-GYt|2-σw2|Yt|2))2+4σv2σw2|Σt=1T(Bt-GYt)*Yt|22σv2Σt=1T(Bt-GYt)*Yt]]>公式30在公式30中,在T上的求和可以用上文结合公式15-24讨论的递归指数衰减计算来代替。
当在步骤606处确定H之后,公式28可以用来确定所有帧的干净语音值。在使用公式28时,Ht和Gt分别用独立值H和G代替。另外,在某些实施例中,公式28中的Bt-GYt项用 来代替,因为发现难以准确地确定背景语音及其对备选传感器的泄漏之间的相位差。
如果在公式30中使用该递归指数衰减计算来代替求和,则可以对每一时间帧确定单独的Ht值,且可将该值用作公式28中的Ht。
在上述实施例的进一步扩展中,有可能提供对每一时间帧上的背景语音信号的估算。具体地,一旦确定了干净语音值,每一时间帧上的背景语音值可以被确定为Vt=1σw2+H*Gu2[σw2Yt+σu2H*Bt-(σw2+|H|2σu2)Xt]]]>公式31该可任选步骤在图6中的步骤610处示出。
在上述实施例中,备选传感器对干净信号的信道响应的先验知识被忽略。在其它实施例中,如果提供了该先验知识,则它能够用来生成对每一时间帧Ht上的信道响应的估算,并用来确定干净语音值Xt。
在该实施例中,对背景语音噪声的信道响应再次被假定为零。从而,气导信号和备选传感器信号的模型与在上述公式3和4中所示的模型相同。
用于估算每一时间帧上的干净语音值和信道响应Ht的公式通过最小化以下目标函数来确定-12σz2|Yt-Xt|2-12σw2|Bt-HtXt|2-12σH2|Ht-H0|2]]>公式32通过独立地对Xt和Ht两个变量取偏导并令结果等于零,该目标函数对于Xt和Ht被最小化。这提供了下述Xt和Ht的公式
Xt=1σw2+σv2|Ht|2(σw2Yt+σv2Ht*Bt)]]>公式33Ht=1σw2+σH2|Xt|2(σH2BtXt*+σw2H0)]]>公式34其中,H0和σH2分别是备选传感器对干净语音信号的信道响应的先验模型的均值和方差。因为Xt的公式包含Ht,而Ht的公式包含变量Xt,因此公式33和34必须使用迭代的方式解出。图7提供了实现这样一种迭代的流程图。
在图7的步骤700处,确定信道响应的先验模型的参数。在步骤702处,确定对Xt的估算。该估算能够通过使用上述忽略信道响应的先验模型的早先的任何实施例来确定。在步骤704处,先验模型的参数和对Xt的初始估算用于使用公式34来确定Ht。Ht而后在步骤706处用于使用公式33更新干净语音值。在步骤708处,该过程确定是否需要更多的迭代。如果需要更多的迭代,则该过程回到步骤704处,并使用在步骤706处确定的所更新的Xt值来更新Ht值。重复步骤704和706,直到在步骤708处不需要更多的迭代,此时该过程在步骤710处结束。
尽管本发明是参考具体实施例而描述的,然而本领域的技术人员可以认识到,可以在形式和细节上进行修改而不背离本发明的精神和范围。
权利要求
1.一种确定对表示经降噪的语音信号的一部分的经降噪的值的估算的方法,所述方法包括使用除气导麦克风外的备选传感器生成一备选传感器信号;生成一气导麦克风信号;使用所述备选传感器信号和所述气导麦克风信号来估算所述备选传感器的信道响应值;以及使用所述信道响应来估算所述经降噪的值。
2.如权利要求1所述方法,其特征在于,估算信道响应值包括找出一目标函数的极值。
3.如权利要求1所述方法,其特征在于,估算信道响应值包括,将所述备选传感器信号建模为干净语音信号与所述信道响应卷积,并将结果与一噪声项相加。
4.如权利要求1所述方法,其特征在于,所述信道响应包括对干净语音信号的信道响应。
5.如权利要求4所述方法,其特征在于,还包括确定所述备选传感器对背景语音信号的信道响应。
6.如权利要求5所述方法,其特征在于,使用所述信道响应来估算所述经降噪的值包括,使用对所述干净语音信号的信道响应和对所述背景语音信号的信道响应来估算所述经降噪的值。
7.如权利要求1所述方法,其特征在于,还包括使用所述经降噪的值的估算来估算背景语音信号的值。
8.如权利要求1所述方法,其特征在于,估算信道响应值包括,使用所述备选传感器信号和所述气导麦克风信号的帧序列来估算对所述帧序列中的帧的单个信道响应值。
9.如权利要求8所述方法,其特征在于,使用所述信道响应来估算经降噪的值包括为所述帧序列中的每一帧估算一单独的经降噪的值。
10.如权利要求1所述方法,其特征在于,估算信道响应值包括,通过向在当前帧中的备选传感器信号和气导麦克风信号分配比前一帧中的备选传感器信号和气导麦克风信号更大的权重,来估算当前帧的值。
11.一种计算机可读介质,含有用于执行以下步骤的计算机可执行指令使用一备选传感器信号和一气导麦克风信号来确定一备选传感器的信道响应;以及使用所述信道响应,以使用所述备选传感器信号的至少一部分估算一干净语音值。
12.如权利要求11所述的计算机可读介质,其特征在于,确定信道响应包括,确定对所述备选传感器信号和所述气导麦克风信号的帧序列的单个信道响应。
13.如果权利要求11所述的计算机可读介质,其特征在于,所述信道响应包括对干净语音信号的信道响应。
14.如果权利要求13所述的计算机可读介质,其特征在于,还包括确定对背景语音信号的信道响应。
15.如果权利要求14所述的计算机可读介质,其特征在于,还包括使用对所述背景语音信号的信道响应以及对所述干净语音信号的信道响应来估算所述干净语音值。
16.如果权利要求11所述的计算机可读介质,其特征在于,还包括使用所述干净语音值来估算背景语音值。
17.一种识别干净语音信号的方法,所述方法包括估算描述一备选传感器信号中的噪声的噪声参数;使用所述噪声参数来估算对一备选传感器的信道响应;以及使用所述信道响应来估算所述干净语音信号的值。
18.如权利要求17所述的方法,其特征在于,估算噪声参数包括,使用所述备选传感器信号来识别用户不发声的时段。
19.如权利要求18所述的方法,其特征在于,还包括在一气导麦克风信号中与用户不发声时段相关联的部分上执行语音检测,以识别无语音时段和背景语音时段。
20.如权利要求19所述的方法,其特征在于,还包括使用所述备选传感器信号中与无语音时段相关联的部分来估算所述噪声参数。
21.如权利要求20所述的方法,其特征在于,还包括使用所述无语音时段来估算描述所述气导麦克风信号中的噪声的噪声参数。
22.如权利要求20所述的方法,其特征在于,还包括使用所述备选传感器信号中与背景语音时段相关联的部分来估算对背景语音的信道响应。
23.如权利要求22所述的方法,其特征在于,还包括使用对背景语音的信道响应来估算干净语音。
24.如权利要求17所述的方法,其特征在于,还包括确定对背景语音值的估算。
25.如权利要求24所述的方法,其特征在于,确定对背景语音值的估算包括,使用对所述干净语音值的估算来估算所述背景语音值。
26.如权利要求17所述的方法,其特征在于,还包括使用所述信道响应的先验模型来估算所述干净语音值。
全文摘要
一种方法和装置使用备选传感器信号和气导麦克风信号来确定对备选传感器的信道响应。该信道响应而后用于使用备选传感器信号的至少一部分来估算干净语音值。
文档编号G10L15/20GK1750123SQ200510092458
公开日2006年3月22日 申请日期2005年8月17日 优先权日2004年9月17日
发明者A·阿瑟洛, J·G·德罗坡, 黄学东, 张正友, 刘自成 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1