噪声环境中语音信号的健壮分离的制作方法

文档序号:2836910阅读:1450来源:国知局
专利名称:噪声环境中语音信号的健壮分离的制作方法
技术领域
本发明涉及用于从有噪声的声环境中分离语言信号的处理和方 法。更具体地,本发明的一个实施例提供了用于从噪声环境中分离语 音信号的盲信号源处理。
背景技术
声环境通常是有噪声的,这使得难以可靠地检测期望的提供信息 的信号和对该信号作出反应。例如,某人可能希望使用话音通信信道 与另一人通信。该信道可由例如移动无线手持装置、步话机、双向无 线电装置或其他通信装置来提供。为了改进可用性,该人可使用连接 到通信装置的手持装置或听筒。手持装置或听筒通常具有一个或多个 耳机和麦克风。通常,麦克风在话筒吊杆上朝着该人的嘴部延伸,以 增加麦克风拾取该人讲话的声音的似真性。当该人讲话时,麦克风接 收其话音信号,并将该信号转换为电子信号。麦克风还从各种噪声源 接收声音信号,因此在上述电子信号中还包括了噪声分量。由于听筒可将麦克风定位于距离该人的嘴部几英寸处,而环境可具有许多不可 控制的噪声源,因此所得到的电子信号可具有大量的噪声分量。上述 噪声导致了不能令人满意的通信体验,并可使得通信装置以低效率的 方式工作,从而增加了电池消耗。在一个特定示例中,在噪声环境中生成语音信号,并使用语音处 理方法将语音信号从环境噪声中分离。这种语音信号处理在日常通信 的许多领域中是重要的,这是由于在真实世界条件中总是存在噪声。 噪声被定义为干扰感兴趣的语音信号或降低感兴趣的语音信号质量的 所有信号的组合。真实世界充满了多种噪声源,包括经常越界进入多 种声音从而形成混响的单点噪声源。除非将期望的语音信号从背景噪 声中分离和隔离,否则便难以可靠和有效地使用期望的语音信号。背 景噪声可包括由普通环境生成的大量噪声信号、由其他人的背景交谈 生成的信号、以及由上述信号中的每一个生成的反射和混响。在用户 通常在噪声环境中通话的通信中,希望能够将用户的语音信号从背景 噪声中分离。语音通信媒介(例如蜂窝电话、扬声器电话、听筒、无绳电话、电话会议、CB无线电装置、手提式步话机(walkie-talkies)、 计算机电话应用程序、计算机和汽车语音命令应用和其他免提的应用、 对讲电话装置、麦克风系统等等)可利用语音信号处理将期望的语音信号从背景噪声中分离。已经创建出许多方法来从背景噪声信号中分离期望的声音信号, 包括简单的滤波处理。现有技术的噪声滤波器将具有预定特征的信号 识别为白噪声信号,并将这些信号从输入信号中减除。虽然这些方法 对于声音信号的实时处理而言足够简单和快速,但它们不能轻易地适 应不同的声音环境,并可导致想要分解的语音信号质量显著降低。噪 声性质的预定々支i殳可以是过度包含(over-inclusive)或包含不足 (under-inclusive )。因此,这些方法可将人的语音的一些部分一见作"噪 声",并从输出的语音信号中将其去除,而将背景噪声的一些部分(例 如音乐或交谈)视作非噪声,因而将其包含在输出的语音信号中。在信号处理应用中,通常使用换能器传感器(例如麦克风)获得 一个或多个输入信号。由传感器提供的信号是许多源的混合。通常,这些信号源以及它们的混合特性是未知的。如果除了源独立性的一般 统计假设之外,没有这些信号源的其它知识,则信号处理问题在现有技术中通称为"盲源分离(BSS)问题"。盲分离问题以许多熟悉的 形式出现。例如,众所周知,即使在包含许多声音信号源的环境中, 某人可将注意力集中在单个这样的源上,这种现象通常被称为"鸡尾 酒会效应(cocktail-party effect),,。在,人源到麦克风的传输过程中, 这些源信号中的每一个以某种随时间变化的方式被延迟和衰减,然后 在麦克风处与其它独立延迟和衰减的源信号(包括其自身的多径信号 (混响),其为从不同方向到达的延迟的信号)混合。接收到所有这 些声信号的人能够听到声音信号的特定集合,同时滤出或忽略其它干 扰源,包括多径信号。现有技术中已经投入相当多的努力来解决鸡尾酒会效应,既有物 理装置方面的又有上述装置的计算模拟方面的。普遍采用了各种噪声 降低技术,从在分析之前对信号的简单排除到依赖语音和非语音信号 之间的恰当辨别的噪声谱的自适应估计方案。这些技术的描述在第 6,002,776号美国专利(其通过引用并入本文)中一般性地定性。具体 地,第6,002,776号美国专利描述了分离源信号的方案,其中两个或多 个麦克风安装在包含不同声源的环境中,不同声源的数目等于或小于 麦克风的数目。使用到达方向信息,第一模块试图提取原始的源信号, 而第二模块则去除信道之间的剩余串音。这种结构可有效地分离具有清晰定义的到达方向的空间局部化点源,但却不能在真实世界的空间 分布式噪声环境中分离出语音信号,因为在空间分布式噪声环境中不 能确定特定的到达方向。诸如独立成分分析("ICA")的方法提供了用于从噪声源分离 语音信号的相对精确和灵活的手段。ICA是用于分离可假定彼此独立 的混合源信号(成分)的技术。在其筒化形式中,独立成分分析在混 合信号上执行权重的"未混合,,矩阵运算,例如将该矩阵乘以混合信 号,以产生分离的信号。权重是指派的初值,然后进行调节以使信号 的相关熵最大化,从而使信息冗余最小化。重复权重调节和熵增加处 理,直到信号的信息冗余降到最小。由于这一技术不需要各个信号的源的信息,因此其通常被称作"盲源分离"方法。盲分离问题涉及分 离来自多个独立源的混合信号的想法。已经开发出许多流行的ICA算法来最优化它们的性能,包括通过 对仅在十年前存在的算法进行重要的修改而发展出的大量算法。例如, A. J. Bell和TJ Sejnowski在神经计算7: 1129-1159 ( 1995 ) ( Neural Computation 7:1129-1159(1995))和Bell, AJ.在美国专利第5,706,402 号中描述的工作通常不会以其专利形式使用。与之相反,为了最优化 其性能,由许多不同实体对该算法进行了若干重新定性。上述改变的 一种包括使用"自然梯度(natural gradient)",这在Amari, Cichocki, Yang ( 1996)中进行了描述。其它流行的ICA算法包括计算高阶统计 的方法,例3口累积量(Cardoso, 1992; Comon, 1994; Hyvaerinen和 Oja, 1997)。但是,许多公知的ICA算法不能有效地分离已记录在固有地包括 声学回声的真实环境中的信号,这些声学回声例如由与房间建筑结构 有关的反射引起。需要强调的是,迄今为止所提及的方法局限于由源 信号的线性定常混合所引起的信号的分离。由直达信号与其回声对应 物的相加所引起的现象被称作混响,其在人工语音增强和识别系统中 引起主要的问题。ICA算法可能需要能够分离那些时延的回声信号的 长滤波器,从而阻碍了有效的实时使用。公知的ICA信号分离系统通常使用作为神经网络的滤波器网络, 以从输入滤波器网络的任意数量的混合信号中分解单独的信号。也就 是说,ICA网络被用来接收包括钢琴音乐和人的谈话的声音信号,双 端口的ICA网络将声音分离为两个信号具有大部分钢琴音乐的一个 信号,以及具有大部分语音的另一个信号。另 一种现有的技术是基于听觉情景分析(auditory scene analysis ) 来分离声音。在这一分析中,对源所具有的性质的假设构成主要的使 用。假设声音可被分解为较小的元素,例如音调和脉冲,然后可根据 诸如调和性和时间连贯性等属性而对这些元素进行分组。可使用来自 单个麦克风或多个麦克风的信息来执行听觉情景分析。由于计算机器 学习方法的可用性,产生了计算听觉情景分析或CASA,因此听觉情景分析的领域已经得到了更多关注。尽管由于其包括人类听觉处理的 理解而具有科学上受到关注,但是模型假设和计算技术仍然在其解决 现实的鸡尾酒情节的初级阶段。用于分离声音的其它技术通过对其源的空间分离来工作。基于这 一原理的装置的复杂性是变化的。最简单的上述装置是具有高度选择 性、但灵敏度为固定模式的麦克风。例如定向传声器被设计为对从特 定方向发射的声音具有最大化的灵敏度,并因而可用来对一个话音源 相对于其它话音源进行增强。类似地,安装于讲话者嘴部附近的近通 话麦克风可拒绝某些远距离源。因而,麦克风阵列处理技术可用来通 过使用感知到的空间分离来对源进行分离。这些技术并不实用,这是 因为,由于至少 一个麦克风仅包含期望的信号的假设在声环境中并不 实际,因而不能完成对竟争的声源的充分抑制。用于线性麦克风阵列处理的普遍公知的技术通常被称作"波束赋形(beamforming)"。在这一方法中,由于麦克风的空间差异而形成 的信号间的时差被用来增强信号。更具体地,其中一个麦克风可能在 语音源处"看上去"更直接,而其它的麦克风可生成相对衰减的信号。 虽然可获得某些衰减,但波束赋形装置不能提供其波长大于阵列的频 率分量的相对衰减。这些技术是用于空间滤波以调整波束朝向声源、 并因此在其它方向上设置零信号的方法。波束赋形技术不对声源进行 假设,而是为了去除信号的混响或者使声源局部化,而假设源与传感 器或者声源信号本身之间的几何形状是已知的。Hoshuyama, O.、 Sugiyama, A., Hirano在1999年10月的IEEE信 号处理学报第10期第47巻第2677-2684页(IEEE Transactions on Signal Processing, vol 47, No 10, pp 2677-2684, October 1999)发表的 "用于使用带约束的自适应滤波器的具有分块矩阵的麦克风阵列的健 壮的自适应波束赋形装置(A Robust Adaptive Beamformer for Microphone Arrays with a Blocking Matrix using Constrained Adaptive Filters)" —文中对在健壮的自适应波束赋形中^皮称为"通用副瓣对 消(GSC)"的公知技术进行了讨论。GSC的目的在于从一组测量值 x中滤出单个期望的源信号z—i,这一点在GSC原理(Griffiths, L丄、Jim, C.W.的"用以线性受约束的自适应波束赋形的选择性方法"(An alternative approach to linear constrained adaptive beamforming ) , IEEE 天线与传播学报第1期第30巻第27-34页,1982年1月(IEEE Transaction Antennas and Propagation, vol 30, no 1, pp.27-34, Jan 1982))中进行了全面的解释。通常,GSC预先规定信号独立的波束 赋形装置c过滤传感器信号,以使得来自期望的源的直达路径保持无 失真,而理想地,应该对其它的方向进行抑制。最常见地,必须由另 外的定位方法来预先确定期望源的位置。在较低的侧部路径中,自适 应分块矩阵B的目的在于对源自期望信号z—i的所有成分进行抑制, 以使得B的输出处仅出现噪声成分。这样,通过使总的输出功率 E(z—i*z—i)的估计值达到最小,自适应干扰消除器a在c的输出处得到 剩余噪声成分的估计值。因此,固定的波束赋形装置c和干扰消除器 a共同执行千扰抑制。由于GSC要求期望的扬声器限制在有限的追踪 区域中,因此其适用性受到严格的空间方案限制。另一公知技术是一类主动消除算法,其与声音分离相关。但是, 这一技术需要"参考信号",即,仅来自于其中一个源的信号。主动 噪声消除和回声消除技术广泛使用该技术,通过过滤仅包含噪声的已 知信号并将其从混合信号中减除,使噪声降低与噪声对于混合信号的贡献相关。这一方法假设测量信号的其中之一由唯一的源构成,这种 假设在许多现实生活设定中是不实际的。不需要参考信号的用于主动消除的技术被称作"盲的(blind)", 在本申请中受到主要的关注。目前,这些技术在涉及声学处理的基本 假设的现实性程度基础上被分类,不需要的信号通过上述声学处理到 达麦克风。 一类盲的主动消除技术可被称作"基于增益的(gain-based)" 或者也通常^皮称作"瞬时混合(instantaneous mixing),, 其假定各个 源产生的波形由多个麦克风同时接收,但是具有变化的相对增益。(定 向传声器通常被用来产生所需的增益差别。)因此,基于增益的系统 试图通过将相对增益应用于麦克风信号以及减除但并不应用延时或其 它滤波,而消除不同麦克风信号中的不期望的源。已经提出了用于盲 的主动消除的大量基于增益的方法;参见Hemult和Jutten ( 1986)、Tong等人(1991 )以及Molgedey和Schuster ( 1994)。当麦克风在 空间上分隔(与在大部分声学应用中一样)时,基于增益或瞬时混合 的假设不成立。这一方法的简单扩展是包括延时因子但却没有任何其 它滤波,其工作在无回声的条件下。但是,当存在回声和混响时,从 源到麦克风的声传播的筒单模型的使用受限。当前公知的最实际的主 动消除技术是"巻积的(convolutive)":从各个源到各个麦克风的 声传播被模型化为巻积滤波器。这些技术比基于增益和基于延迟的技 术更实际,这是因为它们明显地适应内部麦克风分隔、回声和混响的 效应。原则上,由于增益和延迟是巻积滤波的特殊情况,因此上述技 术也更通用。许多研究者已经描述了巻积盲消除技术,其中包括Jutten等人 (1992 ) 、 Van Compernolle和Van Gerven ( 1992 ) 、 Platt和Faggin (1992 ) 、 Bell和Sejnowski ( 1995 ) 、 Torkkola ( 1996 ) 、 Lee ( 1998 )以及Parra等人(2000)。数学模型主要用于经由麦克风阵列的多信道观测,该多源模型可进行如下公式表示、(o=SIX'(^(卜/)+",.(0其中x(t)表示观测的数据,s(t)是隐藏的源信号,n(t)是附加的感觉 的噪声信号,a(t)是混合滤波器。参数m是源的数目,L是巻积阶并依 赖于环境声学,而t指的是时间系数。第一个求和是对环境中的源的 滤波,第二个求和是对不同源的混合。大部分对于ICA的工作已经集 中于瞬时混合情况的算法,其中去除了第一个求和,任务是进行简化 以倒转混合矩阵a。细微的变化是在假设没有混响时,源自点源的信 号在被记录在不同的麦克风位置时,除了振幅系数和延迟之外均可被 视作是相同的。上述公式所描述的问题被通称为多信道盲去巻积问题。 自适应信号处理的代表性工作包括Yellin和Weinstein ( 1996 ),其中, 高阶统计信息被用来估计感觉的输入信号间的共同信息。ICA和BSS 工作到巻积混合的扩展包括Lambert ( 1996) 、 Torkkola ( 1997) 、 Lee 等人(1997 )以及Parra等人(2000 )。用于解决多信道盲去巻积问题的基于ICA和BSS的算法已经变得 越来越流行,这是因为它们可能能够解决声学上混合的源的分离。但是,在这些算法中仍然具有强烈的假设,这些假设限制了这些算法对 于实际情况的适用性。最矛盾的假设是要求具有至少与要分离的源一 样多的传感器。从数学上讲,这一假设是讲得通的。但是实际上,源 的数目通常是动态变化的,而传感器的数目则需要固定。另外,具有 大量的传感器在许多应用中并不实际。在大部分算法中,调整统计的 源信号模型以确保适当的密度估计,并因此确保各种各样的源信号的 分离。由于除了对滤波器的调整之外,对源模型的调整也需要在线完 成,因此这一需求在计算上是繁重的。假设源之间的统计独立性是比 较实际的假设,但共有信息的计算是密集和困难的。实际的系统需要 良好的近似。此外,通常要考虑到没有传感器噪声,这在使用高级麦 克风时是正当的假设。但是,简单的麦克风具有传感器噪声,这必须注意到,以使得算法能够获得合理的性能。最终,大部分ICA公式表示隐含地假设,基本的源信号本质上来源于空间局部化的点源,虽然 它们具有各自的回声和反射。这一假设通常对于强漫射或空间分布的 噪声源而言并不有效,例如发自许多方向的具有可比声压级的风噪声。对于这些类型的分布式噪声情况而言,单独通过ICA方法实现分离是 不够的。期望有一种简化的语音处理方法,其能够以近乎实时的方式从背 景噪声中分离语音信号,并且不需要大量的计算能力,却仍然产生相 对正确的结果,并且能够灵活地适应不同环境。发明内容筒要地,本发明提供了 一种对从有噪的声学环境中提取的语音信 号的质量进行改进的健壮的方法。在一种方法中,信号分离处理与话 音活动检测器相关。所述话音活动检测器是双通道检测器,其使得能 够进行尤其健壮和正确的话音活动检测。当#全测到语音时,话音活动 检测器生成控制信号。该控制信号用来启动、调节或控制信号分离处 理或后处理操作,以改进所形成的语音信号的质量。在另一种方法中, 提供信号分离处理作为学习级和输出级。学习级主动地适应当前声学 条件,并将系数传递给输出级。输出级适应得比较慢,并生成语音内容信号和噪声为主的信号。当学习级变得不稳定时,仅对学习级复位, 从而使得输出级能够继续输出高质量的语音信号。在另一种方法中,分离处理接收分别由两个麦克风生成的两个输 入信号。所述麦克风与目标讲话者具有预定的关系,从而一个麦克风 生成语音为主的信号,而另一个麦克风生成噪声为主的信号。将两个 信号接收进入信号分离处理,且在一组后处理操作中对来自信号分离处理的输出进行进一步处理。缩放监控器(scaling monitor)对信号分 离处理或者一个或多个后处理操作进行监控。为了在信号分离处理中 进行调节,缩放监控器可控制输入信号的缩放或放大。优选地,各输 入信号可独立地缩放。通过缩放一个或两个输入信号,信号分离处理 可更有效或主动地操作,从而使得需要较少的后处理,并提高总体的 语音信号质量。在另 一种方法中,监控来自麦克风的信号是否受到存在的风噪声 的影响。当从一个麦克风中检测到风噪声时,停止该麦克风或降低该 麦克风的重要性,并将系统设定作为单通道系统操作。当不再存在风 噪声时,再次启动所述麦克风,系统回到正常的双通道操作。


图1是根据本发明分离语音信号的处理的框图; 图2是根据本发明分离语音信号的处理的框图; 图3是根据本发明的声音检测处理的框图; 图4是根据本发明的声音检测处理的框图; 图5是根据本发明分离语音信号的处理的框图; 图6是根据本发明分离语音信号的处理的框图; 图7是根据本发明分离语音信号的处理的框图; 图8是根据本发明的无线听筒的图; 图9是根据本发明的分离过程的流程图;图IO是根据本发明的改进的ICA处理子模快的一个实施方案的 框图;图11是根据本发明的改进的ICA语音分离处理的一个实施方案的框图;图12是根据本发明的对信号分离处理复位的处理的框图; 图13是根据本发明的、用于对信号分离处理的输入信号进行缩放 的处理的方框图;以及图14是根据本发明管理风噪声的处理的流程图。
具体实施方式
现在参照图1,其示出了语音分离处理过程100。语音分离处理 IOO具有一组信号输入(例如来自麦克风的声音信号)102和104,所 述信号输入与预期的交谈者具有预定义的关系。例如,信号输入102 可来自于设置在最靠近交谈者嘴部处的麦克风,而信号输入104可来 自于距离交谈者嘴部较远处的麦克风。通过预定义与预定交谈者的相 对关系,分离、后处理以及话音活动检测处理可更有效地运转。语音 分离处理106通常具有两个单独却相关的处理。分离处理106具有信 号分离处理108,信号分离处理108例如可以是盲信号源(BSS)或独 立成分分析(ICA)处理。在操作中,麦克风生成一对输入信号至信 号分离处理108,而信号分离处理生成具有语音内容的信号112以及 噪声占优的信号114。后处理步骤IIO接受这些信号,并进一步降低 噪声以生成输出语音信号121,输出语音信号121可由传输子系统123 传输125。为了提高稳定性、增加分离的有效性以及降低功耗,处理100使 用话音活动检测器106以启动、调节或控制选定的信号分离、后处理 或传输功能。话音活动检测器是双通道检测器,其使得话音活动检测 器("VAD")能够以特别健壮和精确的方式工作。VAD106接收两 个输入信号105,其中一个信号定义为保持较强的语音信号。因此, VAD以筒单和有效的方式来确定何时出现语音。通过4企测语音,VAD 106生成控制信号107。该控制信号例如可用来仅在出现语音时启动信 号分离处理,从而增加稳定性以及节约功率。在另一实施例中,后处 理步骤IIO可被控制为更精确地表征噪声,这是因为表征处理可限制 为在没有语音出现时进行。通过对噪声的较好表征,剩余的噪声信号可从语音信号中更有效地去除。如下文中将进一步描述的那样,健壮和精确的VAD 106使得能够进行更稳定和有效的语音分离处理。现在参照图2,其示出了通信处理175。通信处理175具有生成第 一麦克风信号178的第一麦克风177,第一麦克风信号178被接收进 入语音分离处理180。第二麦克风175生成第二麦克风信号182,第二 麦克风信号182也被接收进入语音分离处理180。在一种结构中,话 音活动检测器185接收第一麦克风信号178和第二麦克风信号182。 可以理解,麦克风信号可被滤波、数字化或进行其它处理。第一麦克 风177设置在比麦克风179距交谈者的嘴部更近的位置。这一预定义 的结构使得能够简化语音信号的识别,同时改进话音活动检测。例如, 双通道话音活动4全测器185可运行与参照图3或图4描述的处理类似 的处理。话音活动检测电路的一般设计是众所周知的,因此不再详细 描述。有益地,话音活动4企测器185是双通道话音活动^r测器,如参 照图3或4描述的那样。这意味着VAD 185对于合理的SNR是尤其 健壮和精确的,因此可确定地作为核心控制机制在通信处理175中使 用。当双通道话音活动纟企测器185 4全测到语音时,其生成控制信号186。 有益地,控制信号186可用于启动、控制或调节通信处理175中 的几个处理。例如,语音分离处理180可以是自适应的,并可根据具 体的声环境学习。语音分离处理180还可适合于特定的麦克风设置、 声环境或者特定的用户语音。为了改进语音分离处理的适应性,学习 过程188可响应于话音活动控制信号186而启动。通过这种方式,语 音分离过程仅在期望的语音可能出现时才使用其自适应学习处理。同 样地,在仅出现噪声或者不存在噪声时,通过停止学习处理,可保存 处理能力和电池功率。为了解释的目的,将语音分离处理描述为独立成分分析(ICA)处理。通常,当期望的交谈者未说话时,ICA模块在任何时间间隔内 都不能执行其主要的分离功能,因此可被关闭。基于对输入信道之间 的能量含量的比较或者基于对期望的交谈者的先验知识(例如具体的 频谱特征(spectral signature )),话音活动片全测模块185可对"开(on ),, 和"关(off)"状态进行监控和控制。通过在期望的语音未出现时关闭ICA, ICA滤波器不会不适当地进行适应,从而使得仅在这种适应 能够获得分离改进时才能够进行这种适应。控制ICA滤波器的适应使 得,即使在期望交谈者长时间的沉默之后,ICA处理也能够获得和保 持良好的分离质量,并且能够避免为解决ICA级不能解决的情况而作 出无效果的分离努力而导致的算法奇异性。尽管各种ICA算法对于无 向性噪声表现出了不同程度的健壮性或稳定性,但是,在缺少期望的 交谈者或者缺少噪声期间关闭ICA级大大增加了该方法的健壮性。同 样,通过在仅存在噪声时停止ICA处理,可保存处理能力和电池功率。 由于在ICA实现的一个实施例中使用无限脉冲响应滤波器,因此 理论上,不能总是保证组合/学习处理的稳定性。但是,与具有相同性 能的FIR滤波器(即,等价的ICAFIR滤波器要长得多,并且要求明 显更高的MIPS)相比,IIR滤波器的高度期望的效率以及在当前IIR 滤波器结构下不存在白化人为结果(artifact)是吸引人的,其中包含 了与闭环系统的极性布置近似相关的一组稳定性检查,从而触发滤波 器历史的初始条件和ICA滤波器的初始条件的复位。由于IIR滤波本 身可导致由过去的滤波器误差(数值的不稳定性)的累积引起的无界 限输出,因此可使用在有限精确度编码中使用的用以检查不稳定性的 技术。对ICA滤波阶段的输入和输出能量的显式评估被用来检测异常 以及将滤波器和滤波历史复位为管理模块所提供的值。在另一个实施例中,话音活动检测器控制信号186用来设置音量 调节189。例如,语音信'号181的音量可在没有检测到话音活动时被 充分地减小。然后,当检测到话音活动时,语音信号181的音量可增 大。也可对任何后处理阶段的输出进行上述音量调节。这不仅提供了 较好的通信信号,而且节约了有限的电池功率。以类似的方式,在未 检测到话音活动时,噪声估计处理190可用来确定何时可更主动地运 行噪声降低处理。由于噪声估计处理190现在知道信号在何时仅为噪 声,因此可更精确地表征该噪声信号。通过这种方式,噪声处理可更 好地调节以适应实际的噪声特征,并且可在没有语音的时期内更主动 地应用。然后,在4全测到话音活动时,可调节噪声降〗氐处理以在该语 音信号上具有较小的降低效果。例如,虽然一些噪声降低处理在降低噪声方面可非常有效,但它们公知地在语音信号中创建不期望的人为 噪音。这些噪声处理可在不存在语音信号时运行,而在可能存在语音 时被禁止或调节。在另一实施例中,控制信号186可用来调节某些噪声降低处理 192。例如,噪声降低处理192可为频谱减除处理。更具体地,信号分 离处理180生成噪声信号196和语音信号181。语音信号181可仍然 具有噪声成分,并且由于噪声信号196精确地表征噪声,因此频谱减 除处理192可用来进一步从语音信号中去除噪声。但是,所述频镨减 除也起到了降低剩余语音信号的能级的作用。因此,当控制信号指示 存在语音时,通过对剩余的语音信号应用相对较小的放大,可对噪声 降低处理进行调节以补偿频i普减除。所述较小的放大导致了更自然和 一致的语音信号。同样,由于噪声降低处理190知道执行频谱减除的 主动性如何,因此》丈大的程度可得到相应调节。控制信号186也可用来控制自动增益控制(AGC)功能194。 AGC 应用于语音信号181的输出,并用来将语音信号维持在可用的能级。 由于AGC知道何时存在语音,因此AGC可对语音信号更精确地应用 增益控制。通过更精确地控制输出语音信号或对输出语音信号规格化 (normalize),可更容易和有效地应用后处理功能。同样,后处理和 传输中饱和的风险得以降低。可以理解,控制信号186可有益地用来 控制或调节通信系统中的几个处理,包括其它的后处理195功能。在示例性实施方案中,AGC既可完全自适应也可具有固定的增 益。优选地,AGC支持具有约-30dB到30dB范围的完全自适应工 作模式。可独立地建立默认的增益值,通常为0dB。如果使用自适应 增益控制,则初始增益值由这一默认的增益值指定。AGC根据输入信 号181的功率级来调节增益系数。具有低能级的输入信号181被放大 到舒适的声级,而高能信号则被削弱。乘法器将增益系数应用于随后被输出的输入信号。首先将通常为 OdB的默认增益应用于该输入信号。功率估计器估计增益调节信号的 短期平均功率。优选地,每隔八个采样(对于8kHz信号通常每隔lms) 计算一次输入信号的短期平均功率。剪裁逻辑(clipping logic )分析短期平均功率,以识别其振幅大于预定的剪裁阈值的增益调节信号。剪裁逻辑控制AGC旁路开关,AGC旁路开关在增益调节信号的振幅超 过预定的剪裁阈值时,将输入信号直接连接到媒体队列。AGC旁路开 关保持在向上或旁路位置,直到AGC调整到增益调节信号的振幅下降 到小于剪裁阈值为止。在描述的示例性实施方案中,虽然如果检测到溢出或剪裁时AGC 应该较快地调整,但AGC被设计为緩慢调整。从系统观点上看,如果 VAD确定话音是不活动的,则AGC调整应该保持固定或设计为削弱 或删除背景噪声。在另一实施例中,控制信号186可用来启动或停止传输子系统 191。特殊地,如果传输子系统191是无线的无线电装置,则该无线的 无线电装置仅在检测到话音活动时需要被启动或者被充分供能。通过 这种方式,可在未检测到话音活动时降低传输功率。由于本地无线电 系统可能由电池供能,因此节约传输功率为听筒系统提供了增强的可 用性。在一个实施例中,从传输系统191传输的信号是将由控制模块 中的相应蓝牙接收器接收的蓝牙信专193。用于无线通信听筒的信号分离处理可从健壮和精确的话音活动检 测器获益。图3中示出了一种具体的健壮和精确的话音活动检测 (VAD)处理。VAD处理200具有两个麦克风,所述麦克风的其中第 一个位于无线听筒上,从而第一麦克风比第二麦克风更靠近交谈者的 嘴部,如方框206所示。各个麦克风均生成各自的麦克风信号,如方 框207所示。话音活动检测器监控每个麦克风信号的能级,并比较测 量到的能级,如方框208所示。在一个简单的实现中,监控各麦克风 信号之间的能级差别何时超过预定的阈值。该阈值可以是固定的,或 者可以根据声环境调整。通过比较能级的大小,话音活动检测器可精 确地确定目标用户的讲话是否引起了能量峰值。通常,这种比较的结 果为以下二者之一(1 )第一麦克风信号具有比第二麦克风信号更高的能级,如 方框209所示。信号能级之间的差别超过预定的阈值。由于第一 麦克风与交谈者较接近,因此这一能级的关系表示目标用户正在讲话,如方框212所示,可使用控制信号来表示存在期望的语音化"T^ 或者(2)第二麦克风信号具有比第一麦克风信号更高的能级,如 方框210所示。信号能级之间的差别超过预定的阈值。由于第一 麦克风与交谈者较接近,因此这一能级的关系表示目标用户未讲 话,如方框213所示,可使用控制信号来表示信号仅为噪声。 实际上,由于一个麦克风与用户的嘴部比较接近,因此,在该麦 克风中的语音内容比l^响亮,并可通过两个记录的麦克风通道之间的 伴随的较大能量差别来追踪用户的语音活动。同样,由于BSS/ICA阶 段从其它通道中去除了用户的语音,因此通道之间的能量差别在 BSS/ICA输出级可变得更大。使用来自BSS/ICA处理的输出信号的 VAD在图4中示出。VAD处理250具有两个麦克风,所述麦克风的 其中第一个位于无线听筒上,从而第一麦克风比第二麦克风更靠近交 谈者的嘴部,如方框251所示。各个麦克风均生成各自的麦克风信号, 所述信号接收进入信号分离处理。信号分离处理生成噪声占优的信号, 以及具有语音内容的信号,如方框252所示。话音活动检测器监控每 个信号的能级,并比较测量到的能级,如方框253所示。在一个简单 的实现中,监控信号之间的能级差别何时超过预定的阈值。该阈值可 以是固定的,或者可以根据声环境调整。通过比较能级的大小,话音 活动检测器可精确地确定目标用户的讲话是否引起了能量峰值。通常, 这种比较的结果为以下二者之一(1) 语音内容信号具有比噪声占优的信号更高的能级,如方 框254所示。信号能级之间的差别超过预定的阈值。由于预先确 定了语音内容信号具有语音内容,因此这一能级的关系表示目标 用户正在讲话,如方框257所示,可使用控制信号来表示存在期 望的语音信号;或者(2) 噪声占优的信号具有比语音内容信号更高的能级,如方 框255所示。信号能级之间的差别超过预定的阈值。由于预先确 定了语音内容信号具有语音内容,因此这一能级的关系表示目标 用户未讲话,如方框258所示,可使用控制信号来表示信号仅为噪声。在双通道VAD的另一个实施例中,参照图3和图4描述的处理 均被使用。在这一设置中,VAD使用麦克风信号(图3)进行一个比 较,使用从信号分离处理(图4)的输出进行另一个比较。在麦克风 记录级的通道之间的能量差别和ICA阶段的输出的结合可用来对当前 处理的帧是否包含期望的语音进行健壮的评估。双通道话音检测处理与公知的单通道检测器相比具有显著的优 势。例如,扩音器上的话音可使得单通道检测器指示存在语音,而双 通道处理则会理解,扩音器比目标交谈者更远,因此并未引起通道间 的较大能量差别,所以将指示其为噪声。由于单纯基于能量测量的单 通道VAD非常不可靠,因此其可用性受到了很大限制,并需要通过 额外的基准来进行补偿,例如零交叉率或先验期望交谈者语音时间和 频率模型。但是,双通道处理的健壮性和精确性使得VAD能够在对 无线听筒的工作进行的管理、控制和调节中起到中心的作用。VAD检测不包含活动语音的数字话音釆样的机制可通过多种方 式来实现。 一个这样的机制要求监控短周期(周期长度通常在约10 至30毫秒范围)的数字话音采样的能级。如果通道之间的能级差别超 过固定的阈值,则所述数字话音采样被宣称为活动的,否则被宣称为 非活动的。作为一种选择,VAD的阈值水平可以是自适应的,而背景 噪声能量可被追踪。这也可通过多种方式来实现。在一个实施方案中, 如果当前周期中的能量远大于特定的阈值(例如由舒适噪声估算器作 出的背景噪声估计),则所述数字话音采样被宣称为活动的,否则被 宣称为非活动的。在使用自适应阈值水平的单通道VAD中,测量诸如零交叉率、 频谱倾斜、能量和频谱动力(spectral dynamics )等的语音参数,并将 其与噪声值进行比较。如果对于话音的参数明显不同于对于噪声的参 数,则表示存在活动的语音,即使数字话音采样的能级较低。在本实 施方案中,可在不同的通道之间进行比较,尤其是将话音为中心的通 道(例如,话音+噪声或相反)与其它通道进行比较,而不论所述其 它通道是分离的噪声通道、以噪声为中心的通道(其可以或不必被增强或分离,例如,噪声+话音)、或者是用于噪声的存储值或估计值。 虽然对数字话音采样能量的测量对于检测非活动语音而言可能已 经足够,但是数字话音采样相对于固定阔值的频i普动力在辨别具有声 谱的较长话音部分和长期的背景噪声中可以是有用的。在采用频谱分析的VAD的一个示例性实施方案中,VAD使用Itakura或Itakura-Saito 失真来执行自动相关,以对基于背景噪声的长期估计与基于一段时间 内的数字话音采样的短期估计进行比较。另外,如果得到话音编码器 的支持,线频谱对(LSP)可用来对基于背景噪声的长期LSP与基于 一段时间内的数字话音采样的短期估计进行比较。作为一种选择,当 可从另一软件模块中获得的频谱可用时,可使用FFT方法。优选地,应该向具有活动语音的数字话音采样的活动周期的末尾 应用延迟释放(hangover)。延迟释放连接较短非活动部分,以确保 将安静的结尾的清音(例如/s/)或低SNR过渡内容分类为活动的。延 迟释放的量可根据VAD的工作模式来调节。如果较长活动周期之后 的周期明显是非活动的(即,具有与测量的背景噪声相似的频镨的非 常低的能量),则延迟释放周期的长度可缩短。通常,由于延迟释放, 活动语音短脉冲串之后的约20至500毫秒范围的非活动语音将被呈现 为活动语音。该阈值可以通过约-60 dBm至约-50 dBm之间的默认 值在约-IOO和约-30dBm之间进行调节,所述阈值取决于话音质量、 系统效率和带宽需求、或者听力的阈值水平。作为一种选择,所述阈 值可适应于某个固定的或变化的值,该值大于或等于噪声(例如来自 于其它通道的噪声)的值在一个示例性实施方案中,VAD可配置为以多种冲莫式工作, >(人而 提供话音质量、系统效率和带宽需求之间的系统折衷。在一种模式中, VAD总是被禁用,并宣告所有数字话音采样为活动语音。但是,典型 的电话交谈具有差不多百分之六十的安静或非活动内容。因此,如果 在这些周期期间数字话音釆样被主动VAD抑制,则可实现高带宽增 益。另外,可通过VAD (尤其是自适应VAD)实现许多系统效率, 例如,节约能量,减小的处理需求,增加的话音质量或改进的用户接 口。主动VAD不仅试图检测包含活动语音的数字话音采样,高质量的VAD还可检测和使用数字话音(噪声)采样(分离的或未分离的) 的参数,包括介于噪声和语音采样之间的数值范围或者噪声或话音的 能量。因此,主动VAD(尤其是自适应VAD)具有提高了系统效率 的许多附加的特征,包括调整分离和/或后(预)处理步骤。例如,将 数字话音采样识别为活动语音的VAD可开启或关闭分离处理或任何 预/后处理步骤,或者作为一种选择,应用不同的分离和/或处理技术或 分离和/或处理技术的组合。如果VAD没有识别活动语音,则VAD也 可调整不同的处理,包括削弱或删除背景噪声,估计噪声参数或者规 格化或调整信号和/或硬件参数。现在参照图5,其示出了用于操作通信听筒的处理325。处理325 具有生成第一麦克风信号的第一麦克风327和生成第二麦克风信号的 第二麦克风329。虽然所示的方法325具有两个麦克风,但是可以理 解,可使用两个以上的麦克风和麦克风信号。将麦克风信号接收进入 语音分离处理330。语音分离处理330可以为例如盲信号分离处理。 在一个更具体的实施例中,语音分离处理330可以是独立成分分析处 理。题为"在多换能器结构中的目标声信号的分离,,的第10/897,219 号美国专利申请更完整地陈述了用于生成语音信号的特定处理,该申 请的全部内容并入本文。语音分离处理330生成干净的(clean)语音 信号331。将干净的语音信号331接收进入传输子系统332。传输子系 统332可以是例如蓝牙无线电装置、IEEE 802.11无线电装置或者有线 的连接。此外可以理解,所述传输可以是到局域无线电模块、或者可 以是到用于广域基础设施的无线电装置的传输。通过这样的方式,传 输的信号335具有代表干净的语音信号的信息。现在参照图6,其示出了用于操作通信听筒的处理350。通信处理 350具有向语音分离处理354提供第一麦克风信号的第一麦克风351。 第二麦克风352提供第二麦克风信号进入语音分离处理354。语音分 离处理354生成干净的语音信号355,干净的语音信号355被接收进 入传输子系统358。传输子系统358可以是例如蓝牙无线电装置、IEEE 802.11无线电装置、其它这样的无线标准或者有线的连接。传输子系 统将传输信号362传输到控制模块或其它远程无线电装置。干净的语音信号355也由侧音处理模块356接收。侧音处理模块356将削弱的 干净语音信号反馈到本地扬声器360。通过这种方式,听筒上的耳机 向用户提供更自然的话音反馈。可以理解,侧音处理模块356可响应 于本地声环境而调节发送到扬声器360的侧音信号的音量。例如,语 音分离处理354还可输出代表噪声音量的信号。在本地的嘈杂环境中, 侧音处理模块356可被调节以将较高水平的干净语音信号输出作为对 用户的反馈。可以理解,可在设定侧音处理信号的衰减水平中使用其 它因素。现在参照图7,其示出了通信处理400。通信处理400具有第一麦 克风401,第一麦克风401向语音分离处理405提供第一麦克风信号。 第二麦克风402向语音分离处理405提供第二麦克风信号。语音分离 处理405生成相对干净的语音信号406以及代表声学噪声407的信号。 双通道话音活动4企测器410从语音分离处理接收一对信号,用于确定 何时可能出现语音,并在可能出现语音时生成控制信号411。话音活 动检测器410如参照图3或图4所述的那样操作VAD处理。控制信 号411可用来启动或调节噪声估计处理413。如果噪声估计处理413 知道了信号407何时可能未包含语音,则噪声估计处理413可更精确 地表征噪声。因此,对声学噪声特性的这种认识可被噪声降低处理415 使用,以更全面和精确地降低噪声。由于来自语音分离处理的语音信 号406可具有一些噪声成分,因此附加的噪声降低处理415可进一步 提高语音信号的质量。通过这种方式,由传输处理418接收的信号具 有较好的质量和较低的噪声成分。可以理解,控制信号411可用来控 制通信处理400的其它方面,例如,噪声降低处理或传输处理的启动, 或者语音分离处理的启动。噪声采样(分离的或未分离的)的能量可 用来调整输出增强话音的能量或远端用户的语音能量。另外,VAD可 在本发明的处理之前、之中和之后调整信号的参数。通常,所描述的分离处理使用一组至少两个隔开的麦克风。在一 些情况下,麦克风具有至讲话者话音的相对直接路径是理想的。在这 种路径中,讲话者的话音直接行进到各个麦克风,而没有任何干涉的 物理障碍。在另外的情况下,麦克风可设置为其中一个具有相对直接的路径,而另一个远离讲话者。可以理解,特定的麦克风设置可根据 例如预定的声环境、物理界限和可用的处理能力来完成。分离处理可 具有两个以上麦克风,用于需要更健壮分离的应用、或者用于其布置 约束条件使得可使用更多麦克风的应用。例如,在一些应用中,讲话 者可能位于与一个或多个麦克风隔离的位置处。在这种情况下,将使 用另外的麦克风来增加至少两个麦克风具有至讲话者话音的直接通路 的可能性。各个麦克风从语音源以及噪声源接收声能,并生成既具有 语音成分又具有噪声成分的复合麦克风信号。由于各个麦克风与其它 的麦克风隔开,因此各麦克风将生成稍有不同的复合信号。例如,噪 声和语音的相对含量可以变化,各个声音源的计时和延迟也可以变化。 在各个麦克风处生成的复合信号由分离处理接收。分离处理对接 收的复合信号进行处理,并生成语音信号和代表噪声的信号。在一个实施例中,分离处理使用独立成分分析(ICA)处理,用于生成所述 两个信号。ICA处理使用交叉滤波器对接收的复合信号进行过滤,交有界函数是具有可快速计算的预定最大和最小值的非线性函数,例如 根据输入值返回正值或负值作为输出的符号函数。在信号的重复反馈 之后,产生两个通道的输出信号,其中以噪声为主的一个通道基本由 噪声成分构成,而另一个通道则包含噪声和语音的组合。可以理解, 其它的ICA滤波器函数和处理也可与本发明一致地使用。作为一种选 择,本发明预期采用其它源分离技术。例如,分离处理可使用盲信号 源(BSS)处理,或者使用一定程度的关于声环境的先验知识的应用 专用自适应滤波器处理,以实现基本类似的信号分离。现在参照图8,其示出了无线听筒系统450。无线听筒系统450 被构建为具有整合的悬挂式麦克风的耳机。图8中示出了无线听筒系 统450的左侧451和右侧452。可以理解,无线听筒或耳积W又4又是受 益于本发明讨论的通信处理的许多物理装置的其中之一。例如,便携 式通信装置、移动手持装置、听筒、无需用手操作的汽车装备、头盔 以及各种其它装置可受益于用于从嘈杂环境中分离语音的更健壮的处 理。在类似于蜂窝电话手持装置和听筒的移动应用中,通过调整而微调分离ICA滤波器的方向性模型,和/或选择麦克风配置,从而实现对 于期望的讲话者运动的健壮性,所述麦克风配置对最可能一些的装置/ 讲话者嘴部设置导致相同的话音/噪声通道输出顺序。因此,麦克风优 选设置在移动装置的划分线上,在硬件的每侧上不对称。通过这种方 式,当使用移动装置时,同一麦克风总是设置为最有效地接收最多的 语音,而与通信装置的位置无关,例如,不管该装置的用户的位置, 主麦克风都以这样的方式定位以最接近于讲话者的嘴部。这种一致性 和预定义的定位使得ICA处理能够具有更好的默认值并且更容易地识 别语音信号。现在参照图9,其示出了特定的分离处理500。处理500放置换能 器以接收声信息和噪声,并生成复合信号,用于进行如方框502和504 所示的进一步处理。复合信号被处理进入通道,如方框506所示。通 常,处理506包括一组具有自适应滤波器系数的滤波器。例如,如果 处理506使用ICA处理,则处理506具有多个滤波器,其每一个均具 有可适应和可调节的滤波器系数。在处理506工作时,调节所述系数 以改进分离性能,如方框521所示,在滤波器中应用和使用新的系数 如方框523所示。对滤波器系数的这一连续调整使得即使在变化的声 环境中,处理506也能够提供足够的分离水平。处理506通常生成两个通道,在方框508中对这两个通道进行识 别。具体地,将一个通道识别为噪声为主的信号,而将另一个通道识 别为语音信号,语音信号可以是噪声和信息的组合。如方框515中所 示,可对噪声为主的信号或信号组合进行测量,以检测信号分离的水 平。例如,可对噪声为主的信号进行测量以检测语音成分的水平,并 且响应于所述测量,可调节麦克风的增益。可在处理500的工作期间、 或者在处理的建立期间执行所述测量和调节。通过这种方式,可在设 计、测试或者制造处理中选择和预定义用于处理的期望增益因子,从 而在工作期间将处理500从执行这些测量和设定中解脱出来。同样地, 增益的正确设定可受益于高级电子测试装置的使用,例如高速数字示 波器,其可在设计、测试或制造阶4殳中最有效地使用。应该理解,可在设计、测试或制造阶^殳进行初始的增益设定,而在处理500的现场工作期间可进行增益设定的附加调谐。图IO示出了 ICA或BSS处理功能的一个实施方案600。参照图 10和11描述的ICA处理非常好地适合于图8中所示的听筒设计。这 一设计具有良好定义和预定义的麦克风定位,使得两个语音信号能够 从讲话者嘴部前方的相对较小的"泡,,中提取出。输入信号X!和X2 分别从通道610和620中接收。通常,这些信号中的每一个来自于至 少一个麦克风,但是可以理解,可使用其它来源。将交叉滤波器Wj 和W2应用于各个输入信号,以产生分离的信号Ui的通道630和分离 的信号U2的通道540。通道630 (语音通道)包含占优势的期望信号, 而通道640 (噪声通道)包含占优势的噪声信号。应该理解,虽然使 用术语"语音通道"和"噪声通道",但是可基于期望互换术语"语 音"和"噪声",例如,可期望一个语音和/或噪声超过其它的语音和/或噪声。另外,该方法也可用来从两个以上的来源中分离混合的噪声 信号。无限脉冲响应滤波器优选用于本发明的处理过程。无限脉冲响应 滤波器是这样的滤波器,即,其输出信号作为输入信号的至少一部分 反馈进入滤波器。有限脉冲响应滤波器是这样的滤波器,即,其输出信号不作为输入反馈。交叉滤波器W2,和\¥12可具有时间上的分散分布的系数,以捕获较长的时间延迟。在最简化的形式中,交叉滤波器\¥21和W,2是每个滤波器仅具有一个滤波器系数的增益因子,例如,输出信号与反馈输入信号之间时间延迟的延迟增益因子,以及用于放 大输入信号的振幅增益因子。在另外的形式中,交叉滤波器可各自具有数十、数百或数千滤波器系数。如下所述,输出信号U!和U2可通过后处理子模块 一 一 降噪模块或语音特征提取模块一一进行进一 步处 理。虽然已经明确地推导出ICA学习规则以获得盲源分离,但是ICA 学习规则对声环境中语音处理的实际执行可导致滤波方案的不稳定性 能。为了确保该系统的稳定性,必须首先稳定Wn和W^的适应动态 (adaptation dynamics )。上述系统的增益余量通常4交低,这意味着输入增益的增加(例如与不稳定的语音信号相冲突的输入增益的增加) 可导致不稳定性,并因此导致加权系数的指数增长。由于语音信号通 常表现出具有零平均值的分散分布,因此符号函数会在时间上频繁振 荡,从而导致不稳定性能。最后,因为快速收敛希望使用较大的学习 参数,而较大的输入增益会使得系统更不稳定,因此在稳定性和性能 之间具有固有的折衷。已知的学习规则不仅导致不稳定性,还可能因 为非线性的符号函数而形成振荡(尤其在逼近稳定性极限时),从而 导致滤波后的输出信号U, (t)和U2(t)的混响。为了解决这些问题,用 于\¥12和W2!的适应规则必须是稳定的。如果用于滤波器系数的学习 规则是稳定的,并JU人X到U的系统传递函^t的闭环才及点都位于单^f立圓内,那么,大量的分析和实验研究表明,系统在BIBO(有界输入有界输出)中是稳定的。因此,总的处理方案的最终相应目标将是在 稳定性约束下的嘈杂语音的盲源分离。因此,确保稳定性的主要方法是适当地对输入进行缩放。在这一框架中,基于进入的输入信号特征对缩放因子sc—fact进行适应。例如, 如果输入过高,则增大sc—fact的增加以降低输入振幅。在性能和稳定 性之间存在折衷。通过sc—fact将输入减小降低了 SNR,这导致了分离 性能的降低。因此,输入应该仅被缩放到确保稳定性所需的程度。通 过运行考虑了每个采样的加权系数的短期波动的滤波器结构,可实现 用于交叉滤波器的附加的稳定化处理,从而避免了相关的混响。这种 适应规则滤波器可被看作是时域平滑。另外,滤波器平滑可在频域中 执行,以增强收敛的分离滤波器在相邻频点(frequencypin)上的相干 性。这可通过对K抽头滤波器零抽头至长度L、然后用增加的时间支 持对滤波器进行傅立叶变换、接着进行逆变换,来方便地完成。由于 该滤波器已经通过矩形时域窗口被有效地窗口化,因此其通过正弦函 数在频域中进行相应平滑。所述频域平滑可在规则的时间间隔完成, 以周期性地将已适应的滤波器系数重新初始化为相关的方案。下面的公式是ICA滤波器结构的实施例,其可用于每个时间采样 t, k为时间增量变量<formula>formula see original document page 28</formula> (公式1)<formula>formula see original document page 29</formula> (公式2)<formula>formula see original document page 29</formula> (公式3)<formula>formula see original document page 29</formula> (公式4)函数f(x)是非线性有界函数,即,具有预定最大值和预定最小值 的非线性函数。优选地,f(x)是这样的非线性有界函数,即,其根据变量x的符号快速逼近最大值或最小值。例如,可将符号函数作为简单的有界函数来使用。符号函数f(x)是这样的函数,即,其根据x是正或负,而具有1或-1的二进制值。非线性有界函数的实施例包括但不限于<formula>formula see original document page 29</formula>(公式7)<formula>formula see original document page 29</formula>(公式8 )<formula>formula see original document page 29</formula>(公式9)这些规则假设浮点精度可用于执行必要的计算。虽然浮点精度是 优选的,但是也可使用定点运算,尤其是在应用于具有最小计算处理 能力的装置时。不论釆用定点运算的能力如何,收敛到最优ICA方案 都更为困难。实际上,ICA算法是基于必须消除干扰源的原则的。由 于在减去了几乎相等的数(或者加上了非常不同的数)的情况下定点 运算的某些错误,ICA算法可显示出不够最优的收敛性质。可影响到分离性能的另 一 个因素是滤波器系数的量化误差效应。 由于有限的滤波器系数精度(resolution),滤波器系数的适应会在某 一点产生出渐进的附加分离改进,并因此将考虑确定收敛性质。量化 误差效应取决于多个因素,但主要是所用的滤波器长度和位精度的函 数。之前列出的输入缩放问题在避免数值溢出的有限精度计算中也是 必需的。由于滤波处理所涉及的巻积可潜在地合计为大于可用精度范 围的数值,因此缩放因数必须确保滤波器输入足够小,以避免上述情 况发生。本发明的处理函数从至少两个音频输入通道(例如麦克风)接收 输入信号。音频输入通道的数量可增加超过最少的两个通道。随着输入通道数量的增加,可提高语音分离质量,通常到输入通道的数量等 于音频信号源的数量时为止。例如,如果输入音频信号源包括讲话者、 背景讲话者、背景音乐源以及由远处的公路噪声和风噪声所生成的一 般背景噪声,则四通道语音分离系统通常优于双通道系统。当然,在 使用更多输入通道时,需要更多的滤波器和更大的计算能力。作为一 种选择,通常,只要存在用于期望的分离信号和噪声的通道,则可实 现通道数少于源的总数。本发明的处理子模块和过程可用来分离两个以上的输入信号通 道。例如,在蜂窝电话应用中, 一个通道可基本包含期望的语音信号, 另 一个通道可基本包含来自 一个噪声源的噪声信号,再另 一个通道可 基本包含来自另一个噪声源的噪声信号。例如,在多用户环境中,一 个通道可包括主要来自 一个目标用户的语音,而另 一个通道可包括主 要来自另一个目标用户的语音。第三通道可包括噪声,其对于进一步 处理两个语音通道是有用的。可以理解,可使用附加的语音或目标通 道。虽然一些应用仅包括期望语音信号的一个源,但是在其它应用中 可存在期望语音信号的多个源。例如,电话会议应用或音频监督应用 可需要从背景噪声中分离出多个讲话者的语音信号以及将多个讲话者 的语音信号彼此分离。本发明的处理不仅可用来从背景噪声中分离语 音信号的 一 个源,还可用来从一 个讲话者的语音信号中分离出另一个 讲话者语音信号。本发明适应多个源,只要至少一个麦克风与讲话者 具有相对直接的路径即可。如果不能像听筒应用中(其中两个麦克风 都位于用户的耳朵附近且直接的声音路径被用户的脸颊遮挡)那样获 得所述直接路径,那么,由于用户的语音信号仍然局限于空间中的相 当小的区域(嘴部周围的语音泡),使得本发明仍然能发挥作用。本发明的处理将声音信号分离到至少两个通道中,例如,以噪声 信号为主的一个通道(噪声为主通道)以及语音和噪声信号的一个通道(复合通道)。如图11所示,通道730是复合通道,通道740是噪 声为主通道。噪声为主通道很可能仍然包含某些较低水平的语音信号。 例如,如果存在两个以上的显著声源和仅两个麦克风,或者如果两个麦克风靠拢设置而声源远离设置,则单独的处理可能并不总是将噪声 完全分离。因此,经过处理的信号可需要附加的语音处理,以去除剩 余的背景噪声水平和/或进一 步改进语音信号的质量。这是通过经由单 通道或多通道语音增强算法来馈送分离的输出而实现的,所述算法例 如,具有使用噪声为主的输出通道评估的噪声频谱的维纳滤波器(当第二通道仅是噪声为主时,通常并不需要VAD)。维纳滤波器也可使 用通过话音活动检测器检测到的非语音时间间隔,以获得用于由具有 较长时间支持的背景噪声而劣化的信号的较好SNR。另外,有界函数 仅仅是对相关熵计算的简化逼近,并可以不必总是完全降低信号的信 息冗余。因此,在使用本发明的分离处理分离信号之后,可使用后处 理来进一步改进语音信号的质量。基于噪声为主通道中的噪声信号具有与复合通道中的噪声信号类 似的信号特征的合理假设,其特征类似于噪声为主通道信号的特征的 复合通道中的这些噪声信号应该在语音处理函数中被滤除。例如,频 谱减除技术可用来执行所述处理。识别噪声通道中的信号的特征。跟 现有技术中依赖于噪声特征的预定假设的滤波器相比,语音处理更为 灵活,这是因为语音处理分析特定环境的噪声特征并去除代表该特定 环境的噪声信号。因此,不太可能在噪声去除时过度包含或包含不足。 诸如维纳滤波和卡尔曼滤波等的其它滤波技术也可用来执行语音后处 理。由于ICA滤波器方案仅收敛到实际方案的极限环,因此滤波器系 数将继续适应,而不会导致更好的分离性能。已经观察到一些系数漂 移至其精度极限。因此,将包含期望的讲话者信号的ICA输出的后处 理的版本通过所示的IIR反馈结构反馈,从而克服了收敛极限环,并 且不会动摇ICA算法。这一 过程的有益的副产品是显著地加速了收敛。通过一般解释的ICA过程,某些特定的特征对于听筒或耳机装置 是可用的。例如,通常的ICA过程被调节以提供自适应复位机制。信 号分离过程750在图12中示出。信号分离过程750从第一麦克风接收 第一输入信号760,从第二麦克风接收第二输入信号762。如上所述, ICA过程具有在工作期间进行适应的滤波器。在这些滤波器适应时, 总的处理可最终变得不稳定,所引起的信号变得失真或饱和。在输出信号变得饱和后,滤波器需要进行复位,这可导致所生成的语音信号
770中的令人讨厌的"弹出(pop)"。在一个特别期望的结构中,ICA 处理750具有学习级752和输出级756。学习级752采用相对主动的 ICA滤波器结构,而其输出仅用来"教导"输出级756。输出级756 提供平滑函数,并更緩慢地适应于改变的条件。输出级生成具有语音 内容770的信号,以及噪声为主的信号773。通过这种方式,学习级 快速适应并指51对输出级进行这些改变,而输出级表现出对改变的惯 性或抵抗。ICA复位处理765监控每个级中的值以及最终输出信号。 由于学习级752主动地工作,因此学习级752可能比输出级756更经 常饱和。 一旦饱和,学习级滤波器系数754被复位为默认条件,学习 ICA 752使其滤波器历史替换为当前的采样值。但是,由于学习ICA 752的输出并不直接连接到任何输出信号,因此所引起的"一闪信号 (glitch)"不会导致任何可觉察到或可听到的失真。与之相反,所述 改变仅仅导致发送到输出级756的一组不同的滤波器系数。但是,由 于输出级756相对较慢地改变,其也不会生成任何可觉察到或可听到 的失真。通过仅复位学习级752,使得ICA处理750工作,而不会因 复位而导致显著失真。当然,输出级756可仍然偶尔需要被复位,这 种复位可导致通常的"弹出"。但是,这种情况目前很少发生。
另外,期望创建稳定的分离ICA滤波的输出的复位机制,以使得 在生成的音频信号中用户可感知到失真和不连续性最小。由于对一批 立体声系统緩冲采样进行饱和检查的评估,因此緩冲器应该选择为与 实际的一样小,这是因为从ICA级緩冲的复位将被弃用,而且没有足 够的时间在当前采样周期中重新进行ICA滤波。用当前记录的输入緩 沖值对用于两个IC A滤波器级的过去的滤波器历史重新初始化。后处 理级将接收当前记录的语音+噪声信号和当前记录的噪声通道信号作 为参考。由于ICA缓冲器尺寸可减小到4ms,因此将导致期望的讲话 者话音输出中的觉察不到的不连续性。
当启动或复位ICA处理时,将滤波器值754或758或抽头复位为 预定义的值。由于听筒或耳机通常仅具有有限范围的工作条件,因此 可选择用于抽头的默认值,以说明预期的工作结构。例如,从每个麦克风到讲话者嘴部的距离通常保持在较小的范围,并且讲话者的话音 的预期频率可能在相对较小的范围。使用这些约束以及实际的工作值, 可确定一组适当的正确抽头值。通过仔细选择默认值,ICA执行可预 期分离的时间得以减少。应该包括用以约束可能的方案空间的对滤波 器抽头范围的显式约束。可从方向性考虑或者通过之前实验中收敛到 最优方案而获得的实验值而得出这些约束。同样应该理解,默认值可 随时间而适应,以及根据环境条件而适应。
同样可以理解,通信系统可具有一组以上的默认值777。例如, 一组默认值(例如"组1")可在非常嘈杂的环境中使用,另一组默 认值(例如"组2")可在比较安静的环境中使用。在另一个实施例 中,不同的默认值组可存储用于不同的用户。如果提供了一组以上的 默认值,则将包括管理模块767,其确定当前工作环境,并且确定将 使用哪一组可用的默认值组。然后,当从复位监控器765接收到复位 命令时,管理处理767将例如通过在芯片组上的闪速存储器中存储新 的默认值,将所选定的默认值传送给ICA处理滤波器系数。
使用从一组初始条件启动分离优化的任何方法来加速收敛。对于 任何给定的情景,管理模块应该决定是否特定的 一组初始条件适当并 且才丸4于该组初始条件。
在听筒中自然会出现声学回声问题,这是因为由于空间或设计局 限,麦克风可能位于耳机附近。例如,在图8中,麦克风461靠近耳 机456。当来自远端用户的语音在耳机中播放时,该语音也将被麦克 风拾取并回波返回远端用户处。根据耳机的音量和麦克风的位置,这 一不期望的回声可能响亮和令人讨厌。
声学回声可视作干扰噪声,并可通过相同的处理算法来去除。对 一个交叉滤波器的滤波器约束反映出需要从一个通道去除期望的讲话 者并限制了其方案范围。另外的交叉滤波器去除任何可能的外部干扰 和来自扩音器的声回声。因此,通过赋予足够的适应灵活性来确定第 二交叉滤波器抽头上的约束,以去除回声。用于该交叉滤波器的学习 速率可能也需要改变,并可与用于噪声抑制的学习速率不同。根据听 筒设置,耳机与麦克风的相对位置可固定。可提前学习并固定用于去除耳机语音的必需的第二交叉滤波器。另一方面,麦克风的传递特性 可在时间上漂移,或者随环境(例如温度改变)而漂移。可由用户调 节将麦克风的位置调节到某种程度。所有这些都要求调节交叉滤波器 系数,以更好地消除回声。在适应期间,这些系数可被约束在固定的 学习到的一组系数附近。
可使用公式(1 )至(4)中所描述的相同算法去除声学回声。输 出Ui是没有回声的期望的近端用户语音。U2是去除了近端用户语音 的噪声参考通道。
按照惯例,使用自适应规格化最小均方(NLMS)算法以及使用 远端信号作为参考,从麦克风信号中去除声回声。然后,需要检测近 端用户的沉默,并且假设通过麦克风拾取的信号仅包含回声。NLMS 算法使用远端信号作为滤波器输入、使用麦克风信号作为滤波器输出, 建立声学回声的线性滤波器模型。当检测到远端和近端用户均在讲话 时,经过学习的滤波器则停止且应用于进入的远端信号,以生成对回 声的评估。然后从麦克风信号中减除所评估后的回声,将所形成的信 号作为清除了回声的信号进行发送。
上述方案的缺点在于,其需要对近端用户的沉默进行良好检测。 如果用户处于嘈杂环境中,这可能难以实现。上述方案也假设进入到 耳机至麦克风拾取路径的远端电子信号中的线性处理。在将电信号转 换为声音时,耳机很少是线性装置。当扬声器在高音量被驱动时,非 线性效应是明显的。其可能饱和,产生谐波或失真。使用双麦克风设 置,将由两个麦克风拾取来自耳机的失真的声信号。由第二交叉滤波 器将回声评估为U2,并由第一交叉滤波器将其从主麦克风中去除。这 样就产生了去除了回声的信号U,。这一方案评估了对至麦克风路径的 远端信号的非线性度进行模型化的需要。不论近端用户是否沉默,学 习规则(3-4)均运行。这样就可去除双向通话检测器(double talk detector),并且在整个交谈期间都更新交叉滤波器。
在第二麦克风不可用的情况下,可将近端麦克风信号和进入的远 端信号可用作输入X,和X2。本发明中描述的算法仍然可用来去除回 声。唯一的修改是在远端信号X2不包含任何近端语音时,权重W21k均设置为O。这样,学习规则(4)将被去除。虽然非线性度问题在单
麦克风设置中未解决,但交叉滤波器仍然可在整个交谈期间更新,并 且不需要双向通话检测器。在双麦克风或单麦克风结构的任一种中,
声回声抑制和补充梳状滤波。在补充梳状滤波中,首先将到耳机的信 号通过梳状滤波器的频带。将麦克风耦合到补充梳状滤波器,补充梳 状滤波器的阻带是第一滤波器的通带。在声学回声抑制中,当检测到
近端用户沉默时,将麦克风信号衰减6dB或更多。
现在参照图13,其示出了语音分离系统800。语音分离处理808 具有麦克风801,麦克风801比麦克风802距目标讲话者更近。通过 这种方式,麦克风801将生成较强的语音信号,而麦克风802将具有 更占优势的噪声信号。通信处理800具有信号分离处理808,例如BSS 或ICA处理。信号分离处理生成具有语音内容的信号812以及噪声为 主的信号814。通信处理800具有后处理步骤810,在后处理步骤810 中,从语音内容信号812中去除了附加噪声。在一个实施例中,使用 噪声特征从语音信号812中在频谱上减除噪声。这种减除的主动性由 OSF ( over-satumtion-factor,过饱和因数)控制。但是,频谱减除的 主动应用可导致令人讨厌的或不自然的输出语音信号821。为了减少 必需的频谱减除,通信处理800可对ICA/BSS处理的输入应用缩;改805 或806。为了在话音+噪声和仅噪声通道之间的每个频点中匹配噪声 特征和振幅,左、右输入通道可相对于彼此进行缩放,这样,/人噪声 通道获得话音+噪声通道中的噪声的尽可能接近的模型。不在处理级 中对过饱和因数(OSF)进行调谐,而是进行所述缩放,通常可产生 更好的话音质量,这是因为ICA级被迫去除了无向性噪声中尽可能多 的方向成分。在特定实施例中,当需要将附加噪声降低时,可将来自 麦克风802的噪声为主的信号更主动地放大805。通过这种方式, ICA/BSS处理808提供了附加的分离,需要较少的后处理。
真实的麦克风可具有频率和灵敏度失配,而在各个通道,ICA级 可产生高/低频率的不完全分离。因此,需要在各个频点或者频点阵列 中进行OSF的单独缩放,以实现可能的最好的话音质量。同样,可加强或削弱选定频点的重要性,以改进觉察性。
根据期望的ICA/BSS学习速率、或者为了能够更有效地应用后处 理方法,还可对来自麦克风801和802的输入水平独立地调节。 ICA/BSS和后处理采样緩冲器经过了多个不同的振幅。在高输入水平 时期望减小ICA学习速率。例如,在高输入水平时,ICA滤波器的值 可快速改变,并更快地饱和或变得不稳定。通过缩放或衰减输入信号, 学习速率可被适当减小。缩小后处理输入还可期望用于避免计算对导 致失真的语音和噪声功率的粗略评估。为了避免ICA级中的稳定性和 溢出问题以及为了获益于后处理级810中的最大可能动态范围,可对 ICA/BSS 808和后处理810级的输入凄t据应用自适应缩;改。在一个实 施例中,通过适当选择与DSP输入/输出精度相比较更高的中间级输 出緩沖器精度,可全面提高声音质量。
独立的输入缩放也可用来帮助两个麦克风801和802之间的振幅 校准。如前所述,两个麦克风801和802适当匹配是期望的。虽然可 动态地完成某些校准,但其它的校准和选择可在生产过程中完成。应 该对两个麦克风进行校准以匹配频率和总灵敏度,从而使ICA和后处 理级中的调谐达到最小。这可要求将一个麦克风的频率响应倒置,以 获得另一个麦克风的响应。本领域中实现通道倒置的所有公知技术(包 括盲通道倒置)可用来实现上述目的。可通过适当匹配来自生产麦克 风的库(pool)的麦克风而实现硬件校准。考虑离线或在线调谐。在 线调谐要求VAD的帮助,以在仅有噪声的时间间隔中调节校准设定, 即,麦克风频率范围需要通过白噪声优先激励,以能够纠正所有频率。
风噪声通常是由直接施加至麦克风的换能器膜的持续风力所导致 的。高度灵敏的膜生成较大的、有时是饱和的电子信号。所述信号淹 没并经常毁坏麦克风信号中的有用信息,包括任何的语音内容。另外, 由于风噪声非常强,因此其可导致信号分离处理以及后处理步骤中的 饱和以及稳定性问题。同样地,被传输的任何风噪声都产生令收听者 讨厌和不舒适的收听体验。不幸的是,风噪声已经是听筒和耳机装置 具有的尤其困难的问题。
但是,无线听筒的双麦克风结构允许以更健壮的方式来检测风,并允许使风噪声的干扰效应最小化的麦克风结构或设计。图14中示出 了双通道风噪声降低处理900。由于无线听筒具有两个麦克风,因此 该听筒可运行更精确识别风噪声存在的处理900。如上所述,两个麦 克风可设置为使其输入端口朝向不同方向,如方框902中所示,或者 两个麦克风彼此屏蔽以使其每一个从不同方向接收风。在这种结构中, 一股风将导致朝向风的麦克风中能级水平的急剧增加,而另 一麦克风 则仅受到最低限度的影响。因此,当听筒仅在一个麦克风上检测到大 的能量尖峰信号时,该听筒可确定所述麦克风受到了风的影响。另外, 可向麦克风信号应用其它处理,以进一步确定所述尖峰信号是由风噪 声引起的。例如,风噪声通常具有低频模式,当在一个或两个通道发 现所述模式时,则可表示存在风噪声,如方框904所示。作为一种选 择,可考虑用于风噪声的特定的机械或工程设计。
一旦听筒发现麦克风的其中之一被风撞击时,该听筒可运行用以 最小化风的影响的处理。例如,所述处理可阻止来自受到风影响的麦 克风的信号,而仅处理另一个麦克风的信号,如方框906所示。在这 种情况下,也停止分离处理,且噪声降低处理像更传统的麦克风系统 那样工作,如方框908所示。 一旦麦克风不再^皮风撞击,如方框911 所示,则听筒可回到通常的双通道工作,如方框913所示。在一些麦 克风结构中,离讲话者较远的麦克风接收上述受限的语音信号水平, 使得该麦克风不能如同单麦克风输入那样工作。在这种情况下,不能 停止最接近讲话者的麦克风或削弱该麦克风的重要性,即使是在其受 到风的影响的情况下。
因此,通过将麦克风设置为朝向不同的风向,有风环境可仅在一 个麦克风中导致显著的噪声。尽管一个麦克风受到风的影响,但是由 于另一麦克风可能很大程度上不会受到影响,因此,其可单独用来向 听筒提供高质量的语音信号。使用这一处理,无线听筒可在有风环境 中有利地使用。在另一实施例中,听筒在其外部具有机械旋钮,因此 用户可从双通道模式切换到单通道模式。如果单独的麦克风是定向的, 那么,即使单麦克风工作也仍然可以对风噪声过于灵敏。但是,在单 独的麦克风是无向时,虽然会使声学噪声抑制恶化,但是风噪声效果应该可略微减轻。在同时处理风噪声和声学噪声时,信号质量存在固 有的折衷。可通过软件来调节所述平衡中的一些,同时可响应于用户 偏好(例如,使用户在单通道或双通道工作之间进行选择)来做出一 些决定。在一些结构中,用户还可能能够选择使用哪个麦克风作为单 通道输入。
本发明的多个方面可实现为在任意的多种电路中编程的功能性,
所述电路包括可编程逻辑装置(PLD),例如现场可编程门阵列 (FPGA)、可编程阵列逻辑(PAL)装置、电可编程逻辑和存储装置 和标准的基于单元的装置、以及专用集成电路(ASIC)。实现本发明 多个方面的一些其它的可能包括具有存储器的微控制器(例如电可 擦除只读存储器(EEPROM))、嵌入式微处理器、固件、软件等。 如果本发明的多个方面在制造过程中的至少一个阶段(例如,在嵌入 固件或PLD之前)具体化为软件,则该软件可由任何计算机可读介质 (例如可读磁盘或可读光盘(固定盘或软盘))承载、在载波信号上 调制或以其它方式传输等。
此外,本发明的多个方面可嵌入微处理器中,该微处理器具有基 于软件的电路仿真、(顺序的或组合的)离散逻辑、定制器件、模糊 (神经)逻辑、量子器件以及任何上述器件类型的混合。当然,可提 供以下多种组件类型的下层器件技术,例如,如互补金属氧化物半导 体(CMOS)的金属氧化物半导体场效应晶体管(MOSFET)技术, 如发射极耦合逻辑(ECL)的双极技术、聚合体技术(例如硅共轭聚 合物和金属共轭聚合物金属结构)、混合模拟和数字等。
虽然已经公开了本发明的特别优选的实施方案和可选的实施方 案,但是应该理解,可使用本发明的教导来实现上述技术的许多不同 修改和扩展。所有这些修改和扩展应该包括在所附权利要求的实际精 神和范围内。
权利要求
1.一种使用话音活动检测器改进语音信号的方法,所述方法包括接收第一信号;接收第二信号;比较所述第一信号的能级与所述第二信号的能级;当所述第一信号的能级高于所述第二信号的能级时,确定存在话音活动;响应于存在话音活动的所述确定,生成控制信号;以及使用所述控制信号来控制语音增强处理。
2. 根据权利要求1所述的方法,其中,所述第一信号由第一麦克 风生成,所述第二信号由第二麦克风生成。
3. 根据权利要求1所述的方法,其中,所述第一信号是由信号分 离处理生成的语音内容信号,所述第二信号是由所述信号分离处理生 成的噪声为主的信号。
4. 根据权利要求1所述的方法,其中,所述确定的步骤包括确 定所述第一信号与所述第二信号之间的能级差别超过阈值。
5. 根椐权利要求4所述的方法,其中,所述阈值是动态调节的。
6. 根据权利要求1所述的方法,其中,所述比较的步骤包括将 长度约10ms的信号采样与长度约30ms的信号采样进行比较。
7. 根据权利要求1所述的方法,其中,所述语音增强处理是信号 分离处理,所述信号分离处理是响应于所述控制信号而启动的。
8. 根据权利要求1所述的方法,其中,所述语音增强处理是后处 理操作,所述后处理操作是响应于所述控制信号而启动的。
9. 根据权利要求1所述的方法,其中,所述语音增强处理是后处 理操作,所述后处理操作是响应于所述控制信号而停止的。
10. 根据权利要求1所述的方法,其中,所述语音增强处理是信 号分离处理,用于所述信号分离处理的学习过程是响应于所述控制信 号而启动的。
11. 根据权利要求1所述的方法,其中,所述语音增强处理是噪 声评估处理,所述噪声评估处理是响应于所述控制信号而停止的。
12. 根据权利要求1所述的方法,其中,所述语音增强处理是自 动增益控制处理,所述自动增益控制处理是响应于所述控制信号而启 动的。
13. 根据权利要求1所述的方法,其中,所述语音增强处理是后 处理频谱减除处理,所述后处理频谱减除处理的输出响应于所述控制 4言号而缩;改。
14. 根据权利要求1所述的方法,其中,所述语音增强处理是回 声消除处理,所述回声消除处理是在不出现所述控制信号的情况下, 使用远端信号和麦克风信号作为滤波器输入。
15. 根据权利要求1所述的方法,其中,所述语音增强处理是回 声消除处理,所述回声消除处理响应于所述控制信号,停止经过学习 的滤波器且将所述经过学习的滤波器应用于进入的远端信号。
16. —种信号分离处理,包括接收第一信号; 接收第二信号;比较所述第一信号与所述第二信号,以确定存在话音活动; 响应于存在话音活动的所述确定,生成控制信号; 响应于所述控制信号,启动盲信号分离处理; 将所述第一信号和第二信号接收进入所述盲信号分离处理;以及 生成具有语音内容的信号。
17. 根据权利要求16所述的信号分离处理,进一步包括以下步骤 当未存在所述控制信号时,停止所述盲信号分离处理。
18. 根据权利要求16所述的信号分离处理,其中,所述盲信号分 离处理是独立成分分析处理。
19. 一种信号分离系统,包括 第一麦克风,其生成第一信号; 第二麦克风,其生成第二信号;第一学习级,其接收所述第一信号和所述第二信号,并生成一组 学习系数;所述学习级配置为使其系数快速适应于当前的声学条件;输出级,其耦合于所述学习级并接收所述学习系数;所述输出级接收所述第一信号和所述第二信号,并生成语音内容 信号和噪声为主的信号;以及所述输出级配置为更慢地使其系数适应。
20. 根据权利要求19所述的信号分离系统,进一步包括复位监控 器,所述复位监控器监控所述学习级的不稳定条件,并在发现不稳定 条件时生成复位信号。
21. 根据权利要求20所述的信号分离系统,其中,响应于所述复 位信号,对用于所述学习级的所述系数进行复位,而不对所述输出级复位。
22. 根据权利要求20所述的信号分离系统,其中,响应于所述复 位信号,以一组默认的系数对用于所述学习级的所述系数进行复位。
23. 根据权利要求22所述的信号分离系统,其中,从多组默认的 系数中选择所述系数,每组系数根据不同期望操作环境来确定。
全文摘要
提供了一种对从嘈杂声环境中提取的语音信号的质量进行改进的方法。在一种方法中,信号分离处理(180)与话音活动检测器(185)相关。话音活动检测器(185)是双通道(178,182)检测器,其使得能够进行尤其健壮和正确的话音活动检测。当检测到语音时,话音活动检测器生成控制信号(411)。控制信号(411)用来启动、调节或控制信号分离处理或后处理操作(195),以改进所形成的语音信号的质量。在另一种方法中,提供信号分离处理(180)作为学习级(752)和输出级(756)。学习级(752)主动地调节以适应当前的声学条件,并将系数传递给输出级(756)。输出级(756)适应得更慢,并生成语音内容信号(181,770)和噪声为主的信号(407,773)。当学习级变(752)得不稳定时,仅对学习级(752)复位,从而使得输出级(756)能够继续输出高质量的语音信号。
文档编号G10L21/02GK101278337SQ200680034143
公开日2008年10月1日 申请日期2006年7月21日 优先权日2005年7月22日
发明者埃里克·维斯, 杰里米·托曼, 陈国良 申请人:索福特迈克斯有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1