用于与通信系统一起使用的麦克风和声音活动检测(vad)配置的制作方法

文档序号:7891472阅读:425来源:国知局
专利名称:用于与通信系统一起使用的麦克风和声音活动检测(vad)配置的制作方法
技术领域
所公开的实施例涉及用于在存在声学噪声的情况下检测和处理所需声学信号的系统和方法。
背景技术
这些年来已开发了许多噪声抑制算法和技术。现今用于语音通信系统的大多数噪声抑制系统是基于单麦克风谱减法技术,该技术首先开发于20世纪70年代,并且例如由S.F.Boll描述于“Suppression of Acoustic Noise inSpeech using Spectral Subtraction”,IEEE Trans.On ASSP,pp.113-120,1979。这些技术已在这些年来被改进,但工作的基本原理仍然相同。例如见McLaughlin等的美国专利号5,687,243和Vilmur等的美国专利号4,811,404。通常这些技术利用单麦克风声音活动检测器(VAD)来确定背景噪声特征,其中“声音”通常被理解成包括人发出的语音、无声的语音、或者有声和无声语音的组合。
VAD亦已被用在数字蜂窝系统中。作为这种使用的一个实例,见Ashley的美国专利号6,453,291,其中适合于数字蜂窝系统的前端的VAD配置被描述。此外,一些码分多路访问(CDMA)系统利用VAD来最小化所使用的高效射频谱,由此允许较多的系统容量。还有,用于移动通信的全球系统(GSM)系统可包括VAD以减小相互通道干扰并减小客户或用户设备上的电池消耗。
作为对由单麦克风接收的声学信息的分析的结果,这些典型的单麦克风VAD系统在能力上明显受限,其中所述分析是使用典型的信号处理技术来进行的。具体而言,当处理信号具有低信噪比(SNR)时,这些单麦克风VAD系统的性能上的局限性是显著的,并且在背景噪声迅速变化的情况下在设置上的局限性是显著的。这样,类似的局限性被发现于使用这些单麦克风VAD的噪声抑制系统中。
对这些典型单麦克风VAD系统的许多限制是借助引入在相关申请中详述的、加利福尼亚旧金山Aliph(http//www.aliph.com)的Pathfinder噪声抑制系统而克服的。Pathfinder噪声抑制系统以几种重要的方式与典型噪声消除系统不同。例如,它使用精确的发声活动检测(VAD)信号以及两个或多个麦克风,其中麦克风检测噪声和语音信号两者的混合。尽管Pathfinder噪声抑制系统可被与许多通信系统和信号处理系统一起使用并且被集成在其中,各种设备和/或方法亦可被用于提供VAD信号。此外,许多麦克风类型和配置可被用于提供声学信号信息给Pathfinder系统。


图1是一个实施例下包括Pathfinder噪声去除或抑制系统和VAD系统的信号处理系统的方块图。
图1A是图1的实施例下包括用于在接收和处理涉及VAD的信号的过程中使用的硬件并利用特定麦克风配置的噪声抑制/通信系统的方块图。
图1B是现有技术的常规自适应噪声消除系统的方块图。
图2是描述现有技术中不同类型的麦克风和关联空间响应的表。
图3A示出一个实施例下使用单向语音麦克风和全向噪声麦克风的麦克风配置。
图3B示出图3A的实施例下使用单向语音麦克风和全向噪声麦克风的手持机中的麦克风配置。
图3C示出图3A的实施例下使用单向语音麦克风和全向噪声麦克风的头戴机中的麦克风配置。
图4A示出一个实施例下使用全向语音麦克风和单向噪声麦克风的麦克风配置。
图4B示出图4A的实施例下使用全向语音麦克风和单向噪声麦克风的手持机中的麦克风配置。
图4C示出图4A的实施例下使用全向语音麦克风和单向噪声麦克风的头戴机中的麦克风配置。
图5A示出一个可替换实施例下使用全向语音麦克风和单向噪声麦克风的麦克风配置。
图5B示出图5A的实施例下使用全向语音麦克风和单向噪声麦克风的手持机中的麦克风配置。
图5C示出图5A的实施例下使用全向语音麦克风和单向噪声麦克风的头戴机中的麦克风配置。
图6A示出一个实施例下使用单向语音麦克风和单向噪声麦克风的麦克风配置。
图6B示出图6A的实施例下使用单向语音麦克风和单向噪声麦克风的手持机中的麦克风配置。
图6C示出图6A的实施例下使用单向语音麦克风和单向噪声麦克风的头戴机中的麦克风配置。
图7A示出一个可替换实施例下使用单向语音麦克风和单向噪声麦克风的麦克风配置。
图7B示出图7A的实施例下使用单向语音麦克风和单向噪声麦克风的手持机中的麦克风配置。
图7C示出图7A的实施例下使用单向语音麦克风和单向噪声麦克风的头戴机中的麦克风配置。
图8A示出一个实施例下使用单向语音麦克风和单向噪声麦克风的麦克风配置。
图8B示出图8A的实施例下使用单向语音麦克风和单向噪声麦克风的手持机中的麦克风配置。
图8C示出图8A的实施例下使用单向语音麦克风和单向噪声麦克风的头戴机中的麦克风配置。
图9A示出一个实施例下使用全向语音麦克风和全向噪声麦克风的麦克风配置。
图9B示出图9A的实施例下使用全向语音麦克风和全向噪声麦克风的手持机中的麦克风配置。
图9C示出图9A的实施例下使用全向语音麦克风和全向噪声麦克风的头戴机中的麦克风配置。
图10A示出一个实施例下适合于容纳GEMS传感器的人的头部上的灵敏度区域。
图10B示出一个实施例下通用手持机或头戴机设备上的GEMS天线布置。
图11A示出一个实施例下适合于布置加速计/SSM的人的头部上的灵敏度区域。
图11B示出一个实施例下通用手持机或头戴机设备上的加速计/SSM布置。
在附图中,相同的参考数字标识相同或基本上类似的元件或动作。为容易地标识对任何特定元件或动作的讨论,参考数字中的最有效数位或多个数位指的是那个元件被首先介绍的图号(例如,元件105是参照图1而被首先介绍和讨论的)。
在此提供的标题仅仅是为了方便而不没有必要影响所要求权利的发明的范围或意义。以下描述提供了用于全面理解发明实施例和使能描述它们的特定细节。然而,本领域的技术人员将理解,本发明可无需这些细节而被实施。在其它实施例中,众所周知的结构和功能未被详细示出或描述以避免不必要地模糊对本发明实施例的描述。
具体实施例方式
在以下描述了诸多通信系统,包括手持机和头戴机设备两者,其使用各种麦克风配置来接收环境的声学信号。例如,麦克风配置包括包括两个单向麦克风的二麦克风阵列以及包括一个单向麦克风和一个全向麦克风的二麦克风阵列,但不被这样限制。通信系统亦可包括声音活动检测(VAD)设备以提供包括人发声活动的信息的声音活动信号。通信系统的部件接收声学信号和声音活动信号,并且作为响应,从声音活动信号的数据自动产生控制信号。通信系统的部件使用该控制信号来自动选择适合于声学信号频率子带数据的降噪方法。当声学信号包括语音和噪声两者时,所选的降噪方法被应用于声学信号以产生经降噪的声学信号。
用于与Pathfinder噪声抑制系统一起使用的诸多麦克风配置在以下被描述。同样,在Pathfinder系统的情况下,每个配置与用来减小通信设备中的噪声传输的方法一起被详述。当参考Pathfinder噪声抑制系统时,应记住估算噪声波形并将其从信号中减去以及使用或能使用用于可靠工作的VAD信息和所公开的麦克风配置的噪声抑制系统被包括在那个参考中。Pathfinder仅仅是用于对包括所需语音信号以及噪声的信号进行工作的系统的方便的参考实施。这样,这些物理麦克风配置的使用包括但不局限于这样的应用,如通信、语音识别以及对应用和/或设备的声音特点控制。
在此所使用的术语“语音”或“声音”通常指的是有声、无声或混合的有声和无声的人语音。无声语音或有声语音在必要时被区分。然而,当被用作噪声的相反时,术语“语音信号”或“语音”仅仅指的是信号的任何所需部分而不必是人的语音。举例来说,它可以是音乐或某种其它类型的所需声学信息。如在图中所使用的,“语音”旨在指任何兴趣信号,不论是人的语音、音乐还是想要听见的任何其它信号。
以相同的方式,“噪声”指的是使所需语音信号失真或使其较难以理解的不想要的声学信息。“噪声抑制”通常描述减少或消除电子信号中的噪声的任何方法。
而且,术语“VAD”通常被定义为矢量或阵列信号、数据或信息,其以某种方式表示数字或模拟域中语音的出现。VAD信息的一般表示是以与对应声学信号相同的速率采样的一位数字信号,而零值表示在对应的时间采样期间尚未出现语音,并且一值指示在对应的时间采样期间已出现语音。尽管在此所述的实施例通常被描述于数字域中,该描述对于模拟域亦是有效的。
除非被指定,术语“Pathfinder”表示使用两个或多个麦克风、VAD设备和算法并且估算信号中的噪声并将其从所述信号减去的任何降噪系统。Aliph Pathfinder系统仅仅是用于这种类型的降噪系统的方便参考,尽管它比以上定义更有能力。在一些情况下(如在图8和9中描述的麦克风阵列),Aliph Pathfinder系统的“全能力”或“全版本”被使用(因为在噪声麦克风中有明显量的语音能量),并且这些情况将以文本被列举。“全能量”指示在对信号降噪的过程中Pathfinder系统使用H1(z)和H2(z)两者。除非被指定,假定仅H1(z)被用于对信号降噪。
Pathfinder系统是基于数字信号处理(DSP)的声学噪声抑制和回声消除系统。可耦合于语音处理系统前端的Pathfinder系统使用VAD信息和所接收的声学信息以通过估算噪声波形并将其从包括语音和噪声两者的信号中减去来减少或消除所需声学信号中的噪声。Pathfinder系统被进一步描述于以下和相关申请中。
图1是一个实施例下的包括Pathfinder噪声去除或抑制系统105和VAD系统106的信号处理系统100的方块图。信号处理系统100包括两个麦克风MIC 1 103和MIC 2 104,其从至少一个语音信号源101和至少一个噪声源102接收信号或信息。从语音信号源101到MIC 1的路径s(n)和从噪声源102到MIC 2的路径n(n)被认为是统一的(unity)。此外,H1(z)表示从噪声源102到MIC 1的路径,而H2(z)表示从语音信号源101到MIC 2的路径。
信号处理系统100的部件,例如噪声去除系统105,通过无线耦合、有线耦合和/或无线和有线耦合的组合而耦合于麦克风MIC 1和MIC 2。同样,VAD系统106通过无线耦合、有线耦合和/或无线和有线耦合的组合而耦合于信号处理系统100的部件,如噪声去除系统105。举例来说,在以下被描述为VAD系统106的部件的VAD设备和麦克风可服从蓝牙无线规格以便于与信号处理系统的其它部件进行无线通信,但不被这样限制。
图1A是一个实施例下包括用于在接收和处理涉及VAD的信号的过程中使用的硬件并利用特定麦克风配置的噪声抑制/通信系统的方块图。参考图1A,以下描述的每个实施例包括特定配置110中的至少两个麦克风和一个发声活动检测(VAD)系统130,其包括VAD设备140和VAD算法150,如在相关申请中所述。注意,在一些实施例中,麦克风配置110和VAD设备140结合了相同的物理硬件,但它们不被这样限制。麦克风110和VAD130两者均将信息输入到Pathfinder噪声抑制系统120中,该系统使用所接收的信息来对麦克风中的信息降噪并且将经降噪的语音160输出到通信设备170中。
通信设备170包括手持机和头戴机通信设备两者,但不被这样限制。手持机或头戴机通信设备包括但不局限于便携式通信设备,包括麦克风,扬声器,通信电子器件和电子收发器,如蜂窝电话,便携式或移动电话,卫星电话,线路电话,互联网电话,无线收发器,无线通信收音机,个人数字助理(PDA)和个人计算机(PC)。
手持机或头戴机通信设备包括但不局限于自给设备,包括通常被附着于并且/或者被佩戴在身体上的麦克风和扬声器。头戴机常常通过与手持机的耦合而与手持机一起起作用,其中所述耦合可以是有线、无线连接或者有线和无线连接的组合。然而,头戴机可独立与通信网络的部件通信。
VAD设备140包括但不局限于加速计、皮肤表面麦克风(SSM)和电磁设备,以及关联的软件或算法。此外,VAD设备140包括声学麦克风以及关联软件。VAD设备和关联软件被描述于提交于2003年3月5日、题为VOICE ACTIVITY DETECTION(VAD)DEVICES AND METHODSFOR USE WITH NOISE SUPPRESSION SYSTEMS的美国专利申请号10/383,162中。
每个手持机/头戴机设计的以下描述的配置包括麦克风的方位和取向以及被用于获得可靠VAD信号的方法。所有其它部件(包括扬声器和安装硬件,用于头戴机和扬声器,钮,插头,物理硬件等,用于手持机)对于Pathfinder噪声抑制系统的工作是无关紧要的,并且将不被较详细地讨论,除了手持机或头戴机中单向麦克风的安装。所述安装被描述成提供用于定向麦克风的适当通风的信息。如果正确地给予该应用中的布置和取向信息,对当前技术水平熟悉的那些将不难以安装单向麦克风。
此外,以下描述的头戴机的耦合(物理的或电磁的,或者相反)方法是无关紧要的。所述头戴机与任何类型的耦合一起工作,因此在本公开内容中不指定它们。最后,麦克风配置110和VAD 130是独立的,因此任何麦克风配置可与任何VAD设备/方法一起工作,除非需要使用用于VAD和麦克风配置两者的相同麦克风。在此情况下,VAD可将某些要求施加于麦克风配置上。这些例外不以文本指出。
麦克风配置尽管使用了特定的麦克风类型(全向或单向,包括单向性的量)和麦克风取向,Pathfinder系统对给定类型的各个麦克风的响应的典型分布是不敏感的。这样,麦克风不需要在频率响应方面被匹配,它们也不需要是特别敏感或昂贵的。事实上,已使用不昂贵的现货供应的麦克风来构建在此所述的配置,这已被证明是很高效的。作为对回顾的帮助,Pathfinder设置被示出于图1中,并且在以下和相关申请中被详细说明。Pathfinder系统中麦克风的相对布置和取向在此被描述。与指定在噪声麦克风中可以没有语音信号的经典自适应噪声消除(ANC)不同,Pathfinder允许语音信号存在于两种麦克风中,这意味着只要以下部分中的配置被使用,麦克风可被很接近地放置在一起。以下是对被用于实施Pathfinder噪声抑制系统的麦克风配置的描述。
现今有使用中的许多不同类型的麦克风,但一般而言,有两个主要类别全向(在此被称为“OMNI麦克风”或“OMNI”)和单向(在此被称为“UNI麦克风”或“UNI”)。OMNI麦克风的特征在于相对于相对声学信号方位的相对一致的空间响应,而UNI麦克风的特征在于相对于声源和麦克风的相对取向而变化的响应。具体而言,UNI麦克风一般被设计成在麦克风后面和侧面有较少响应,从而使来自麦克风前面的信号相对于来自侧面和后面的那些而被强调。
有几种类型的UNI麦克风(尽管实际上只有一种类型的OMNI),并且所述类型是通过麦克风的空间响应来区分的。图2是描述不同类型的麦克风和关联空间响应的表(来自http//www.shure.com处的Shure麦克风公司网站)。已发现,心形和超心形(super-cardioid)单向麦克风两者在在此所述的实施例中顺利地工作,但过心形(hyper-cardioid)和双向麦克风亦可被使用。还有,“近距离谈话”(或压差)麦克风(其不强调距离麦克风多于几厘米的声源)可被用作语音麦克风,并且为此近距离谈话麦克风在本公开内容中被认为是UNI麦克风。
包括混合的OMNI和UNI麦克风的麦克风阵列在实施例中,OMNI和UNI麦克风被混合以形成二麦克风阵列,用于与Pathfinder系统一起使用。二麦克风阵列包括UNI麦克风是语音麦克风的组合和OMNI麦克风是语音麦克风的组合,但不被这样限制。
作为语音麦克风的UNI麦克风参照图1,在该配置中,UNI麦克风被用作语音麦克风103,而OMNI被用作噪声麦克风104。它们一般在彼此几厘米内被使用,但可被放置得距离15厘米或以上并且仍充分地起作用。图3A示出一个实施例下使用单向语音麦克风和全向噪声麦克风的一般配置300。与麦克风的面垂直的矢量之间的相对角度f近似处于60到135度的范围内。距离d1和d2的每个都近似处于零(0)到15厘米的范围内。图3B示出图3A的实施例下使用单向语音麦克风和全向噪声麦克风的手持机中的一般配置310。图3C示出图3A的实施例下使用单向语音麦克风和全向噪声麦克风的头戴机中的一般配置320。
一般配置310和320示出了可以如何以一般方式来取向麦克风以及分别用于手持机和特等奖的该设置的可能实施。作为语音麦克风,UNI麦克风指向用户的嘴。OMNI没有特定取向,但在该实施例中其方位尽可能将其在物理上屏蔽于语音信号。该设置多于Pathfinder系统顺利地工作,这是因为语音麦克风包含大部分语音而噪声麦克风主要包含噪声。这样,语音麦克风具有高信噪比(SNR)而噪声麦克风具有较低的SNR。这使Pathfinder算法能够是高效的。
作为语音麦克风的OMNI麦克风在该实施例中,并且参考图1,OMNI麦克风是语音麦克风103,而UNI麦克风被定位成噪声麦克风104。这样做的原因是保持噪声麦克风中的语音量小以使Pathfinder算法可被简化,并且去信号(de-signaling)(语音的不需要的去除)可被保持最小。该配置对于已使用OMNI麦克风来捕获语音的现有手持机的简单附件具有最大的前途。同样,两个麦克风可被相当近地放置在一起(几厘米内)或者距离15厘米或以上。当两个麦克风相当接近(小于近似5厘米)并且UNI距离用户的嘴足够远(近似处于10到15厘米的范围内,这取决于产麦克风)以使UNI单向性高效地起作用时,可看到最佳性能。
在语音麦克风是OMNI的该配置中,UNI以这样的方式被取向与OMNI中的语音量相比,保持UNI麦克风中的语音量小。这意味着UNI将远离说话者的嘴而被取向,并且它被远离说话者而取向的量由f来表示,其可在0和180度之间变化,其中f描述任何平面内一个麦克风的方向和另一个麦克风的方向之间的角度。
图4A示出一个实施例下使用全向语音麦克风和单向噪声麦克风的配置400。与麦克风的面垂直的矢量之间的相对角度f是近似180度。距离d近似处于零(0)到15厘米的范围内。图4B示出图4A的实施例下使用全向语音麦克风和单向噪声麦克风的手持机中的一般配置410。图4C示出图4A的实施例下使用全向语音麦克风和单向噪声麦克风的头戴机中的一般配置420。
图5A示出一个可替换实施例下使用全向语音麦克风和单向噪声麦克风的配置500。与麦克风的面垂直的矢量之间的相对角度f近似处于60到135度的范围内。距离d1和d2的每个都近似处于零(0)到15厘米的范围内。图5B示出图5A的实施例下使用全向语音麦克风和单向噪声麦克风的手持机中的一般配置510。图5C示出图5A的实施例下使用全向语音麦克风和单向噪声麦克风的头戴机中的一般配置520。
图4和5的实施例是这样的,MIC 1的SNR通常大于MIC 2的SNR。对于f的大值(180度左右),源自说话者前面的噪声不能被有效地捕获,从而导致略为降低的降噪性能。另外,如果f变得过小,明显量的语音可被噪声麦克风捕获,从而增加了经降噪信号的失真和/或计算代价。因此,为了最大性能,推荐在该配置中用于UNI麦克风的取向角度为近似60-135度,如图5中所示。这允许源自用户前面的噪声被较容易地捕获,从而提高降噪性能。亦保持由噪声麦克风捕获的语音信号量小以使不需要Pathfinder的全能力。本领域的技术人员将能通过简单的实验迅速确定用于众多前途UNI/OMNI组合的高效角度。
包括两个UNI麦克风的麦克风阵列一个实施例的麦克风阵列包括两个UNI麦克风,其中第一UNI麦克风是语音麦克风而第二UNI麦克风是噪声麦克风。在以下描述中,假定语音UNI的空间响应的最大值被向着用户的嘴而取向。
远离说话者而定位的噪声UNI麦克风类似于在以上参照图4A、4B和4C以及图5A、5B和5C而描述的配置,远离说话者而定位噪声UNI可减小噪声麦克风所捕获的语音量,从而允许使用仅使用对H1(z)的计算(如以下所述)的Pathfinder的较简单版本。相对于说话者的嘴的取向角度再一次可在近似零(0)和180度之间变化。在180度处或其附近,从用户的前面产生的噪声不能被噪声麦克风足够好地捕获以允许对噪声的最优抑制。因此,如果使用该配置,则如果心形被用作语音麦克风而超心形被用作噪声麦克风,则它将最佳地工作。这将允许对用户前面的噪声的有限捕获,从而增加噪声抑制。然而,较多的语音亦可被捕获并且可导致去信号,除非Pathfinder的全能力被用在信号处理中。借助该配置在噪声抑制、去信号和计算复杂度之间寻求了折中。
图6A示出一个实施例下使用单向语音麦克风和单向噪声麦克风的配置600。与麦克风的面垂直的矢量之间的相对角度f是近似180度。距离d近似处于零(0)到15厘米的范围内。图6B示出图6A的实施例下使用单向语音麦克风和单向噪声麦克风的手持机中的一般配置610。图6C示出图6A的实施例下使用单向语音麦克风和单向噪声麦克风的头戴机中的一般配置620。
图7A示出一个可替换实施例下使用单向语音麦克风和单向噪声麦克风的配置700。与麦克风的面垂直的矢量之间的相对角度f近似处于60到135度的范围内。距离d1和d2的每个都近似处于零(0)到15厘米的范围内。图7B示出图7A的实施例下使用单向语音麦克风和单向噪声麦克风的手持机中的一般配置710。图7C示出图7A的实施例下使用单向语音麦克风和单向噪声麦克风的头戴机中的一般配置720。
UNI/UNI麦克风阵列图8A示出一个实施例下使用单向语音麦克风和单向噪声麦克风的配置800。与麦克风的面垂直的矢量之间的相对角度f是近似180度。麦克风被放置在在一端(向着语音)包含用户的嘴并且在另一端包含噪声麦克风804的轴802上。为了最优的性能,麦克风之间的间隔d应是在时间上在采样的空间上是倍数(d=1,2,3…),但不被这样限制。不需要两个UNI麦克风位于与说话者的嘴的完全相同的轴上,并且它们可被偏离高达30度或以上而不显著影响降噪。然而,当它们彼此并且与说话者的嘴近似直接成一条线时可观察到最佳性能。其它取向可被用于本领域的技术人员,但为了最佳的性能,两者之间的微分传递函数应是相对简单的。这种阵列的两个UNI麦克风亦可用作用于在计算VAD信号的过程中使用的简单阵列,如在相关申请中所讨论的。
图8B示出图8A的实施例下使用单向语音麦克风和单向噪声麦克风的手持机中的一般配置810。图8C示出图8A的实施例下使用单向语音麦克风和单向噪声麦克风的头戴机中的一般配置820。
当使用UNI/UNI麦克风阵列时,应使用相同类型的UNI麦克风(心形、超心形等)。如果不是这样,一个麦克风可检测另一个麦克风未检测的信号,从而导致噪声抑制效力的减小。两个UNI麦克风应向着说话者在相同的方向上被取向。显然,噪声麦克风将拾取大量语音,因此Pathfinder系统的全版本应被使用以避免去信号。
一端包括用户的嘴而另一端包括噪声麦克风的轴上两个UNI麦克风的布置以及作为在时间上采样的空间上的倍数的麦克风间隔d的使用允许两个麦克风之间的微分传递函数是简单的,并因此允许Pathfinder系统以峰值效率来工作。举例来说,如果声学数据以8kHz被采样,采样之间的时间是1/8000秒或0.125毫秒的倍数。空气中声音的速度是压力和温度相关的,但在海平面和室温下它是大约345米每秒。因此,在0.125毫秒内,声音将行进345(0.000125)=4.3厘米,并且麦克风应被隔开大约4.3厘米,或8.6cm,或12.9cm等等。
例如,并且参照图8,如果对于8kHz采样系统,距离d被选择成1个采样长度,或者大约4.3厘米,则对于位于连接MIC 1和MIC 2的轴上的MIC 1前面的声源,微分传递函数H2(z)将是H2(z)=M2(z)M1(z)=Cz-1,]]>其中Mn(z)是来自麦克风n的离散数字输出,C是常数,其取决于从MIC 1到声源的距离和麦克风的响应,并且z-1是离散数字域中的简单延迟。基本上对于源自用户的嘴的声能,由MIC 2捕获的信息与由MIC 1捕获的相同,仅被延迟单个采样(由于4.3cm的间隔)并且有不同的振幅。这种简单的H2(z)可被硬编码用于该阵列配置并且被与Pathfinder一起使用从而以最小失真来降噪有噪语音。
包括两个OMNI麦克风的麦克风阵列一个实施例的麦克风阵列扭亏两个OMNI麦克风,其中第一OMNI麦克风是语音麦克风而第二OMNI麦克风是噪声麦克风。
图9A示出一个实施例下使用全向语音麦克风和全向噪声麦克风的配置900。麦克风被放置在在一端(向着语音)包含用户的嘴并且在另一端包含噪声麦克风904的轴902上。为了最优的性能,麦克风之间的间隔d应是在时间内采样的空间中的倍数(d=1,2,3…),但不被这样限制。不需要两个OMNI麦克风位于与说话者的嘴的完全相同的轴上,并且它们可被偏离高达30度或以上而不显著影响降噪。然而,当它们彼此并且与说话者的嘴近似直接成一条线时可观察到最佳性能。其它取向可被用于本领域的技术人员,但为了最佳的性能,两者之间的微分传递函数应是相对简单的,如在使用两个UNI麦克风来描述的先前部分中。这种阵列的两个OMNI麦克风亦可用作用于在计算VAD信号的过程中使用的简单阵列,如在相关申请中所讨论的。
图9B示出图9A的实施例下使用全向语音麦克风和全向噪声麦克风的手持机中的一般配置910。图9C示出图9A的实施例下使用全向语音麦克风和全向噪声麦克风的头戴机中的一般配置920。
与以上所述的UNI/UNI麦克风阵列一样,两个OMNI麦克风和说话者的嘴之间的完美对准不是严格必要的,尽管该对准提高了最佳性能。为了价格原因(OMNI比UNI较为不贵)和包装原因(适当通风OMNI比UNI简单),该配置是用于手持机的可能实施。
声音活动检测(VAD)设备参考图1,VAD设备是一个实施例的噪声抑制系统的部件。以下是用于在噪声抑制系统中使用的许多VAD设备和对每个如何被实施用于手持机和头戴机应用两者的描述。VAD是Pathfinder降噪系统的部件,如在提交于2003年3月5日、题为VOICE ACTIVITY DETECTION(VAD)DEVICES AND METHODS FOR USE WITH NOISE SUPPRESSIONSYSTEMS的美国专利申请号10/383,162中所述。
通用电磁传感器(GEMS)VADGEMS是以很低功率在1-5GHz的频率范围内工作的射频(RF)干涉计,并且可被用于检测很小振幅的振动。GEMS被用于检测与语音的产生关联的气管、颈部、脸颊和头部的振动。这些振动由于与语音产生关联的声带的打开和关闭而发生,并且检测它们可导致很精确的噪声强有力的VAD,如在相关申请中所述。
图10A示出一个实施例下适合于容纳GEMS传感器的人的头部上的灵敏度区域1002。灵敏度区域1002进一步包括最优灵敏度区域1004,GEMS传感器可被放置在其附近以检测与发声关联的振动信号。灵敏度区域1002以及最优灵敏度区域1004对于人的头部两侧是相同的。此外,灵敏度区域1002包括颈部和胸部上的区域(未示出)。
由于GEMS是RF传感器,它使用天线。很小(从近似4mm乘7mm到大约20mm乘20mm)的微接线天线已被构建和使用,其允许GEMS检测振动。这些天线被设计成为了最大效率而接近于皮肤。其它天线亦可被使用。可以以任何方式将天线安装在手持机或耳机中,仅有的限制是检测振动的足够能量必须到达振动的对象。在一些情况下,这将需要皮肤接触,在其它情况下,可能不需要皮肤接触。
图10B示出一个实施例下通用手持机或头戴机设备1020上的GEMS天线布置1010。通常,当设备1020在使用中时,GEMS天线布置1010可位于对应于人的头部上的灵敏度区域1002(图10A)的设备1020的任何部分上。
基于表面皮肤振动的VAD如在相关申请中所述,被称为皮肤表面麦克风(SSM)的设备和加速计可被用于检测由于语音产生而发生的皮肤振动。然而,这些传感器可被外部声学噪声污染,因此必须在其布置和使用上当心。加速计是众所周知和理解的,并且SSM是亦可被用于检测振动的设备,尽管没有与加速计相同的保真度。幸运的是,构建VAD不需要对基础的振动的高保真度再现,而是需要确定振动是否发生的能力。为此SSM是很适合的。
SSM是常规麦克风,其被修改以防止空中的声学信息与麦克风的检测元件耦合。硅酮凝胶层或其它覆盖层改变麦克风的阻抗并防止空中的声学信息被检测到明显的程度。这样,该麦克风被屏蔽于空中声学能量,但能检测在除了空气以外的介质中行进的声波,只要它维持与该介质的物理接触。
在语音期间,当加速计/SSM被置于脸颊或颈部上时,与语音产生关联的振动被容易地检测到。然而,空中声学数据不被加速计/SSM有效地检测。一旦被加速计/SSM检测到,组织承载的声学信号被用于产生对被用于处理和降噪兴趣信号的VAD信号。
耳朵中的皮肤振动可被用于减少加速计/SSM所检测的外部噪声的量并且确保好的配合的一种布置是将加速计/SSM放置在耳道中。这已被实现于一些商业产品中,如Temco’s Voiceducer,其中振动被直接用作对通信系统的输入。然而,在在此描述的噪声抑制系统中,加速计信号仅被用于计算VAD信号。因此,耳朵中的加速计/SSM可以较不敏感且需要较小的带宽,并因此是较不贵的。
耳朵外部的皮肤振动有加速计/SSM可检测到与语音产生关联的皮肤振动的耳朵以外的许多方位。加速计/SSM可以以任何方式被安装在手持机或耳机中,仅有的限制是需要可靠的皮肤接触来检测与语音产生关联的皮肤承载的振动。图11A示出一个实施例下适合于布置加速计/SSM的人的头部上的灵敏度区域1102、1104、1106和1108。所述灵敏度区域包括下巴区域1102、头上的区域1104、耳后区域1106和颈部侧面和前面的区域1108。此外,灵敏度区域包括颈部和胸部上的区域(未示出)。灵敏度区域1102-1108对于人的头部的两侧是相同的。
在一个实施例下,灵敏度区域1102-1108包括最优灵敏度区域A-F,在这里语音可由SSM可靠地检测。最优灵敏度区域A-F包括但不局限于耳后区域A、耳朵以上的区域B、下巴的中部脸颊区域C、耳道前面的区域D、与乳突骨和其它振动组织接触的耳道内部的区域E以及鼻子F。任何这些灵敏度区域1102-1108附近加速计/SSM的布置将与头戴机一起工作,但手持机需要与脸颊、下巴、头部或颈部的接触。以上区域仅仅是想要指导,并且可以有亦可检测到有用振动的未指定的其它区域。
图11B示出一个实施例下通用手持机或头戴机设备1120上的加速计/SSM布置1110。通常,当设备1120在使用中时,加速计/SSM布置1110可位于对应于人的头部上的灵敏度区域1102-1108(图11A)的设备1120的任何部分上。
二麦克风声学VAD包括阵列VAD、Pathfinder VAD和立体声VAD的这些VAD与两个麦克风一起工作并且无需任何外部硬件。阵列VAD、Pathfinder VAD和立体声VAD的每个都以不同的方式来利用二麦克风配置,如以下所述。
阵列VAD在相关申请中被进一步描述的阵列VAD以简单线形阵列来安排麦克风并且使用阵列的特征来检测语音。当麦克风和用户的嘴被协同放置并且麦克风位于远离采样距离的倍数处时,它最好地起作用。就是说,如果系统的采样频率是8kHz,并且声音的速度是近似345m/s,则在一个采样中,声音将行进d=345m/s·(1/8000s)=4.3cm并且麦克风应被分离4.3,8.6,12.9…cm。手持机和头戴机两者中的阵列VAD的实施例与以上所述的图8和9的麦克风配置相同。OMNI或UNI麦克风或两者的组合可被使用。如果麦克风应被用于VAD并且用于捕获被用于降噪的声学信息,则该配置使用被安排为以上所述的UNI/UNI麦克风阵列和OMNI/OMNI麦克风阵列的麦克风。
Pathfinder VAD亦在相关申请中被进一步描述的Pathfinder VAD使用Pathfinder技术的微分传递函数H1(z)的增益来确定何时进行发声。同样,它可被与实际上任何以上麦克风配置一起使用而几乎没有修改。已注意到,借助在以上参照图7描述的UNI/UNI麦克风配置可具有很好的性能。
立体声VAD亦在相关申请中被进一步描述的立体声VAD使用来自噪声和语音的频率振幅的差异来确定何时进行发声。它使用SNR在语音麦克风中比在噪声麦克风中大的麦克风配置。同样,实际上任何以上的麦克风配置可被配置成与这种VAD技术一起工作,但已注意到,借助在以上参照图7描述的UNI/UNI麦克风配置可具有很好的性能。
手动激励的VAD在该实施例中,用户或外部观察者使用按钮或开关设备来手动激励VAD。在记录使用以上配置来记录的数据时,这甚至可离线进行。手动VAD设备的激励或手动超越(override)如以上所述的那些自动VAD设备可导致VAD信号的产生。由于这种VAD不依赖于麦克风,可以以与任何以上麦克风配置相等的实用性被使用。
单麦克风/常规VAD任何常规声学方法亦可与语音和噪声麦克风的任何一个或两者一起被使用以构建用于噪声抑制的Pathfinder所使用的VAD信号。例如,常规的移动电话VAD(见Ashley的美国专利申请号6,453,291,其中适合于数字蜂窝系统前端的VAD配置被描述)可与语音麦克风一起被使用以构建用于与Pathfinder噪声抑制系统一起使用的VAD信号。在另一个实施例中,“近距离谈话”或压差麦克风可被用于记录嘴附近的高SNR信号,通过它可容易地计算VAD信号。该麦克风可被用作系统的语音麦克风或者可被完全分离。在压差麦克风亦被用作系统的语音麦克风的情况下,当UNI麦克风是语音麦克风(在以上参照图3所述)时,压差麦克风代替包括混合的OMNI和UNI麦克风的麦克风阵列中的UNI麦克风,或者当噪声UNI麦克风远离说话者而被取向(在以上参照图6和7所述)时,代替包括两个UNI麦克风的麦克风阵列中的UNI麦克风。
Pathfinder噪声抑制系统如以上所述,图1是一个实施例下包括Pathfinder噪声抑制系统105和VAD系统106的信号处理系统100的方块图。信号处理系统105包括两个麦克风MIC 1 103和MIC 2 104,其从至少一个语音信号源101和至少一个噪声源102接收信号或信息。从语音信号源101到MIC 1的路径s(n)和从噪声源102到MIC 2的路径n(n)被认为是统一的。此外,H1(z)表示从噪声源102到MIC 1的路径,而H2(z)表示从语音信号源101到MIC 2的路径。
以某种方式得到的VAD信号106被用于控制噪声去除的方法。进入MIC 1的声学信息由m1(n)来表示。进入MIC 2的信息被类似地标记为m2(n)。在z(数字频率)域中,我们可将其表示为M1(z)和M2(z)。这样M1(z)=S(z)+N(z)H1(z)M2(z)=N(z)+S(z)H2(z) (1)这是对于所有现实的二麦克风系统的一般情况。总是存在噪声到MIC 1中的某种泄漏和信号到MIC 2中的某种泄漏。方程1具有四个未知数和仅两个关系式,因此不能被明确求解。
然而,可能存在借助其它手段来求解方程1中的一些未知数的某种方式。检查信号不是正在被产生的情况,即VAD指示发声不是正在进行的情况。在此情况下,s(n)=S(z)=0,并且方程1简化成M1n(z)=N(z)H1(z)M2n(z)=N(z)其中M变量上的n下标指示仅噪声正被接收。这导致M1n(z)=M2n(z)H1(z)H1(z)=M1n(z)M2n(z)---(2)]]>现在,当仅噪声正被接收时,可使用可用的系统标识算法和麦克风输出的任何一个来计算H1(z)。该计算应当自适应地进行以允许系统跟踪噪声的任何变化。
在对方程1中的未知数之一求解之后,可通过以下来计算H2(z)使用VAD来确定何时正在进行发声而几乎没有噪声。当VAD指示发声,但麦克风的近期(大约1秒左右)历史指示低水平噪声时,假定n(s)=N(z)~0。
则方程1简化成M1s(z)=S(z)M2s(z)=S(z)H2(z)其又导致M2s(z)=M1s(z)H2(z)H2(z)=M2s(z)M1s(z)]]>对H2(z)的该计算看起来恰恰是H1(z)计算的颠倒,但记住当语音正被产生时,在现在发生计算时,不同的输入正被使用。注意,H2(z)应当是相对恒定的,这是因为总是有仅单个源(用户),并且用户和麦克风之间的相对位置应当是相对恒定的。使用用于H2(z)计算的小的自适应增益顺利地工作并且在噪声存在的情况下使该计算较为强有力。
在以上对H1(z)和H2(z)的计算之后,它们被用于从信号中去除噪声。将方程1重写为S(z)=M1(z)-N(z)H1(z)N(z)=M2(z)-S(z)H2(z)S(z)=M1(z)-[M2(z)-S(z)H2(z)]H1(z)S(z)[1-H2(z)H1(z)]=M1(z)-M2(z)H1(z)允许对S(z)求解S(z)=M1(z)-M2(z)H1(z)1-H2(z)H1(z)---(3)]]>通常,H2(z)是相当小的,并且H1(z)小于一,因此对于大多数情况,大多频率H2(z)H1(z)<<1,并且可使用以下来计算信号S(z)≈M1(z)-M2(z)H1(z)。
因此假定不需要H2(z),并且H1(z)是要计算的仅有传递。尽管如果需要可计算H2(z),好的麦克风布置和取向可避免需要H2(z)计算。
显著的噪声抑制仅可通过在处理声学信号的过程中使用多个子带来实现。这是因为被用于计算传递函数的大多数自适应滤波器是FIR类型的,其如下仅使用零而不是极点(pole)来计算包含零和极点两者的系统 给定足够的抽头,这样的模型可足够精确,但这可大大增加计算成本和收敛时间。在基于能量的自适应滤波器系统如最小均方(LMS)系统中通常发生的是,在包含比其它频率多的能量的小范围频率处,系统良好地匹配量级和相位。这允许LMS满足使错误的能量最小化到其最佳能力的其要求,但这种拟合可导致匹配频率以外的区域中的噪声上升,从而减小噪声抑制的效力。
使用子带缓解了该问题。来自主次麦克风两者的信号被滤波成多个子带,并且来自每个子带(如果需要,其可被频率偏移和分样,但这是不必要的)的结果数据被发送给其自己的自适应滤波器。这迫使自适应滤波器尝试在其自己的子带中而不是仅在能量在信号中最高的情况下拟合数据。来自每个子带的经噪声抑制的结果可被加在一起以在末端形成最终的经降噪的信号。保持一切是时间对准的和补偿滤波器偏移是不容易的,但以增加的存储器和处理要求为代价,其结果是对系统的好得多的模型。
乍一看,可能看起来好像Pathfinder算法与诸如图1B中所示的经典ANC(自适应噪声消除)的其它算法很相似。然而,紧密的检查揭示了在噪声抑制性能上大不相同的几个方面,包括使用VAD信息来控制对所接收的信号的噪声抑制系统的适应性,使用诸多子带来确保兴趣谱上的充分收敛,以及用系统基准麦克风中的兴趣声学信号来支持操作,如在以下依次描述的。
对于使用VAD来控制对所接收的信号的噪声抑制系统的适应性,经典的ANC不使用VAD信息。由于在语音产生期间在基准麦克风中有信号,在语音产生的时间内适配H1(z)(从噪声到主麦克风的路径)的系数将导致从兴趣信号中去除大部分语音能量。其结果是信号失真和减小(去信号)。因此,以上所述的各种方法使用VAD信息来构建足够精确的VAD从而指令Pathfinder系统何时适配H1(只有噪声)和H2(当正在产生语音时如果需要)的系数。
经典ANC和Pathfinder系统之间的重要差异包含如以上所述的对声学数据进行分子带(subbanding)。许多子带被Pathfinder系统用来单独支持对子带信息的LMS算法的应用,由此确保兴趣谱上的充分收敛并允许Pathfinder系统在该谱上是高效的。
由于ANC算法通常使用LMS自适应滤波器来模拟H1,并且该模型使用全零来构建滤波器,不可能的是可以以这种方式精确地模拟“真实”运行(functioning)系统。运行的系统几乎不变地具有极点和零两者,并因此具有与LMS滤波器很不同的频率响应。LMS所能做的最好的常常是在单个频率(或很小的范围)处匹配真实系统的相位和量级,从而使在该频率之外,模型拟合很差并且可导致这些区域中噪声能量的增加。因此,在兴趣声学数据的整个谱上LMS算法的应用常常导致在具有差的量级/相位匹配的频率处兴趣信号的降级。
最后,Pathfinder系统用系统基准麦克风中的兴趣声学信号来支持操作。允许声学信号由基准麦克风来接收意味着麦克风可以比在经典ANC配置中彼此被放置得近得多(大约一厘米)。这种较近的间隔简化了自适应滤波器配置并使能较为紧凑的麦克风配置/解决方案。还有,专门的麦克风配置已被开发,其使信号失真和去信号最小化并且支持对兴趣信号源和基准麦克风之间的信号路径的模拟。
在实施例中,使用定向麦克风确保了传递函数不接近于一。即使有定向麦克风,一些信号仍被接收到噪声麦克风中。如果这被忽略并且假定H2(z)=0,则采用极佳的VAD将有某种失真。这可通过参考方程2并当H2(z)不被包括时对结果求解而看到S(z)[1-H2(z)H1(z)]=M1(z)-M2(z)H1(z) (4)这表明信号将被失真[1-H2(z)H1(z)]倍。因此,失真的类型和量将根据噪声环境而变化。在有很少噪声的情况下,H1(z)近似为零并且有很少的失真。在噪声存在的情况下,失真的量可随噪声源的类型、位置和强度而变化。好的麦克风配置设计使这些失真最小。
当VAD指示不是正在进行发声时或者发声正在进行但子带的SNR足够低时,每个子带中对H1的计算被实施。相反,当VAD指示正在进行发声时并且子带SNR足够高时,H2可被计算于每个子带中。然而,借助适当的麦克风布置和处理,信号失真可被最小化并且仅H1需要被计算。这显著减小了所需的处理并且简化了Pathfinder算法的实施。在经典ANC不允许任何信号进入MIC 2的情况下,当使用适当的麦克风配置时,Pathfinder算法容忍MIC 2中的信号。如以上参照图7A所述,适当麦克风配置的实施例是这样的一个在其中两个心形单向麦克风被使用,MIC 1和MIC 2。该配置向着用户的嘴而取向MIC 1。此外,该配置将MIC 2放置得尽可能接近于MIC 1并且将MIC 2取向于相对于MIC 1的90度处。
说明噪声抑制对VAD的依赖性的最佳方式可能是在VAD故障的情况下检查VAD错误对降噪的作用。存在可发生的两种类型的错误。误报(FP)是当尚未进行发声时而VAD指示已进行发声的时候,而漏报(FN)是VAD未检测到语音已发生的时候。仅当误报过于频繁地发生时它们是麻烦的,这是因为偶尔的FP将仅导致H1系数简短地停止更新,并且经验已表明这不显著影响噪声抑制性能。另一方面,漏报可造成问题,特别是在错过的语音的SNR高的情况下。
假定在系统的两个麦克风中均有语音和噪声,并且由于VAD出故障并返回漏报,系统仅检测到噪声,则MIC 2处的信号是M2=H1N+H2S,其中为清楚起见,z已被取消。由于VAD仅指示噪声的存在,系统尝试根据以下将以上系统模拟为单个噪声和单个传递函数TFmodel=H~1N~.]]>Pathfinder系统使用LMS算法来计算 但LMS算法通常在模拟时间不变的、全零的系统时是最佳的。由于噪声和语音被相关是不可能的,系统通常模拟语音及其关联传递函数或噪声及其关联传递函数,这取决于MIC 1中数据的SNR、模拟H1和H2的能力,以及H1和H2的时间不变性,如以下所述。
对于MIC 1中数据的SNR,很低的SNR(小于零(0))趋向于使Pathfinder系统收敛于噪声传递函数。相反,高SNR(大于零(0))趋向于使Pathfinder系统收敛于语音传递函数。至于模拟H1的能力,如果使用LMS(全零模型)较容易模拟H1和H2,则Pathfinder系统趋向于收敛于那个相应的传递函数。
在描述系统模拟对H1和H2的时间不变性的依赖性的过程中,认为LMS在模拟时间不变的系统时是最佳的。这样,Pathfinder系统通常将趋向于收敛于H2,这是因为H2变化得比H1可能变化的慢得多。
如果LMS在噪声传递函数上模拟语音传递函数,则只要LMS滤波器的系数仍相同或者是相似的,语音就被分类成噪声并被去除。因此,在Pathfinder系统已收敛于语音传递函数H2的模型(在可发生大约几毫秒)之后,任何随后的语音(即使是VAD尚未出故障的语音)使能量从中被去除,并且系统“假定”该语音是噪声,这是因为其传递函数类似于当VAD出故障时所模拟的。在此情况下,在主要是H2正被模拟的情况下,噪声将不受影响或仅被部分去除。
所述过程的最终结果是经净化的语音的音量和失真的减小,其严重性由以上所述的变量来确定。如果系统趋向于收敛于H1,则语音的随后的增益损失和失真将不明显。然而,如果系统趋向于收敛于H2,则语音可被严重地失真。
这种VAD故障分析并不试图描述与使用子带以及麦克风的方位、类型和取向关联的细小区别(subtlety),而旨在将VAD的重要性转达给降噪。以上结果适用于单个子带或任意数量的子带,这是因为每个子带中的相互作用是相同的。
另外,对VAD的依赖性和从在以上VAD故障分析中描述的VAD错误而产生的问题不局限于Pathfinder噪声抑制系统。使用VAD来确定如何降噪的任何自适应滤波器噪声抑制系统将被类似地影响。在本公开内容中,当Pathfinder噪声抑制系统被参考时,应记住使用多个麦克风来估算噪声波形并将其从包括语音和噪声两者的信号中减去并且为了可靠工作而依赖于VAD的所有噪声抑制系统都被包括在该参考中。Pathfinder仅仅是方便参考的实施。
以上所述的麦克风和VAD配置是用于与通信系统一起使用的,其中通信系统包括声音检测子系统,其接收包括人发声活动信息的声音活动信号,并且使用声音活动信号的信息来自动产生控制信号;以及降噪子系统,其被耦合于声音检测子系统,该降噪子系统包括麦克风,其被耦合以提供环境的声学信号给降噪子系统的部件,所述麦克风的配置包括两个单向麦克风,其被一个距离分离并具有每个麦克风的空间响应曲线的最大值之间的角度,降噪子系统的部件使用所述控制信号来自动选择适合于声学信号的至少一个频率子带的数据的至少一个降噪方法,并且使用所选降噪方法来处理声学信号以产生经降噪的声学信号,其中降噪方法包括当声学信号包括语音和噪声时,产生与声学信号的噪声关联的噪声波形估算并将该噪声波形估算从声学信号减去。
两个单向麦克风由近似处于零(0)到15厘米的范围内的距离来分离。
两个单向麦克风具有近似处于零(0)到180度的范围内的每个麦克风的空间响应曲线的最大值之间的角度。
一个实施例的声音检测子系统进一步包括至少一个声门电磁微功率传感器(GEMS),其包括用于接收声音活动信号的至少一个天线;以及至少一个声音活动检测器(VAD)算法,用于处理GEMS声音活动信号并产生控制信号。
另一个实施例的声音检测子系统进一步包括至少一个加速计传感器,其与用户的皮肤接触以便于接收声音活动信号;以及至少一个声音活动检测器(VAD)算法,用于处理加速计传感器声音活动信号并产生控制信号。
又一个实施例的声音检测子系统进一步包括至少一个皮肤表面麦克风传感器,其与用户的皮肤接触以便于接收声音活动信号;以及至少一个声音活动检测器(VAD)算法,用于处理皮肤表面麦克风传感器声音活动信号并产生控制信号。
声音检测子系统亦可通过与麦克风的耦合来接收声音活动信号。
再一个实施例的声音检测子系统进一步包括两个单向麦克风,其被一个距离分离并具有每个麦克风的空间响应曲线的最大值之间的角度,其中所述距离近似处于零(0)到15厘米的范围内,并且其中所述角度近似处于零(0)到180度的范围内;以及至少一个声音活动检测器(VAD)算法,用于处理声音活动信号并产生控制信号。
其它可替换实施例的声音检测子系统进一步包括至少一个手动激励的声音活动检测器(VAD),用于产生声音活动信号。
一个实施例的通信系统进一步包括便携式手持机,其包括麦克风,其中便携式手持机包括以下的至少一个蜂窝电话,卫星电话,便携式电话,线路电话,互联网电话,无线收发器,无线通信收音机,个人数字助理(PDA)和个人计算机(PC)。便携式手持机可包括声音检测子系统和降噪子系统的至少一个。
一个实施例的通信系统进一步包括便携式头戴机,其包括麦克风以及至少一个扬声器设备。便携式头戴机耦合于从以下中选择的至少一个通信设备蜂窝电话,卫星电话,便携式电话,线路电话,互联网电话,无线收发器,无线通信收音机,个人数字助理(PDA)和个人计算机(PC)。便携式头戴机使用无线耦合、有线耦合以及无线和有线耦合的组合的至少一个而耦合于通信设备。
通信设备可包括声音检测子系统和降噪子系统的至少一个。可替换的是,便携式头戴机可包括声音检测子系统和降噪子系统的至少一个。
以上所述的便携式头戴机是从以下中选择的便携式通信设备蜂窝电话,卫星电话,便携式电话,线路电话,互联网电话,无线收发器,无线通信收音机,个人数字助理(PDA)和个人计算机(PC)。
以上所述的麦克风和VAD配置是用于与可替换实施例的通信系统一起使用的,其中通信系统包括声音检测子系统,其接收包括人发声活动信息的声音活动信号,并且使用声音活动信号的信息来自动产生控制信号;以及降噪子系统,其被耦合于声音检测子系统,该降噪子系统包括麦克风,其被耦合以提供环境的声学信号给降噪子系统的部件,所述麦克风的配置包括被一个距离分离的全向麦克风和单向麦克风,降噪子系统的部件使用所述控制信号来自动选择适合于声学信号的至少一个频率子带的数据的至少一个降噪方法,并且使用所选降噪方法来处理声学信号以产生经降噪的声学信号,其中降噪方法包括当声学信号包括语音和噪声时,产生与声学信号的噪声关联的噪声波形估算并将该噪声波形估算从声学信号减去。
所述全向和单向麦克风由近似处于零(0)到15厘米的范围内的距离来分离。
全向麦克风定位成从至少一个语音信号源捕获信号而单向麦克风被定位成从至少一个噪声信号源捕获信号,其中语音信号源和单向麦克风的空间响应曲线的最大值之间的角度近似处于45到180度的范围内。
一个实施例的声音检测子系统进一步包括至少一个声门电磁微功率传感器(GEMS),其包括用于接收声音活动信号的至少一个天线;以及至少一个声音活动检测器(VAD)算法,用于处理GEMS声音活动信号并产生控制信号。
另一个实施例的声音检测子系统进一步包括至少一个加速计传感器,其与用户的皮肤接触以便于接收声音活动信号;以及至少一个声音活动检测器(VAD)算法,用于处理加速计传感器声音活动信号并产生控制信号。
又一个实施例的声音检测子系统进一步包括至少一个皮肤表面麦克风传感器,其与用户的皮肤接触以便于接收声音活动信号;以及至少一个声音活动检测器(VAD)算法,用于处理皮肤表面麦克风传感器声音活动信号并产生控制信号。
又一个实施例的声音检测子系统进一步包括两个单向麦克风,其被一个距离分离并具有每个麦克风的空间响应曲线的最大值之间的角度,其中所述距离近似处于零(0)到15厘米的范围内,并且其中所述角度近似处于零(0)到180度的范围内;以及至少一个声音活动检测(VAD)算法,用于处理声音活动信号并产生控制信号。
声音检测子系统亦可包括至少一个手动激励的声音活动检测器(VAD),用于产生声音活动信号。
一个实施例的通信系统进一步包括便携式手持机,其包括麦克风,其中便携式手持机包括以下的至少一个蜂窝电话,卫星电话,便携式电话,线路电话,互联网电话,无线收发器,无线通信收音机,个人数字助理(PDA)和个人计算机(PC)。便携式手持机可包括声音检测子系统和降噪子系统的至少一个。
一个实施例的通信系统进一步包括便携式头戴机,其包括麦克风以及至少一个扬声器设备。便携式头戴机耦合于从以下中选择的至少一个通信设备蜂窝电话,卫星电话,便携式电话,线路电话,互联网电话,无线收发器,无线通信收音机,个人数字助(PDA)和个人计算机(PC)。便携式头戴机使用无线耦合、有线耦合以及无线和有线耦合的组合的至少一个而耦合于通信设备。在一个实施例中,通信设备包括声音检测子系统和降噪子系统的至少一个。在可替换的实施例中,便携式头戴机包括声音检测子系统和降噪子系统的至少一个。
以上所述的便携式头戴机是从以下中选择的便携式通信设备蜂窝电话,卫星电话,便携式电话,线路电话,互联网电话,无线收发器,无线通信收音机,个人数字助(PDA)和个人计算机(PC)。
以上所述的麦克风和VAD配置是用于与可替换实施例的通信系统一起使用的,该通信系统包括至少一个收发器,用于在通信网络中使用;声音检测子系统,其接收包括人发声活动信息的声音活动信号,并且使用声音活动信号的信息来自动产生控制信号;以及降噪子系统,其被耦合于声音检测子系统,该降噪子系统包括麦克风,其被耦合以提供环境的声学信号给降噪子系统的部件,所述麦克风的配置包括第一麦克风和第二麦克风,其被一个距离分离并且具有每个麦克风的空间响应曲线的最大值之间的角度,降噪子系统的部件使用所述控制信号来自动选择适合于声学信号的至少一个频率子带的数据的至少一个降噪方法,并且使用所选降噪方法来处理声学信号以产生经降噪的声学信号,其中降噪方法包括当声学信号包括语音和噪声时,产生与声学信号的噪声关联的噪声波形估算并将该噪声波形估算从声学信号减去。
在一个实施例中,第一和第二麦克风的每个都是单向麦克风,其中所述距离近似处于零(0)到15厘米的范围内,并且所述角度近似处于零(0)到180度的范围内。
在一个实施例中,第一麦克风是全向麦克风而第二麦克风是单向麦克风,其中第一麦克风被取向成从至少一个语音信号源捕获信号而第二麦克风被取向成从至少一个噪声信号源捕获信号,其中语音信号源和第二麦克风的空间响应曲线的最大值之间的角度近似处于45到180度的范围内。
一个实施例的收发器包括第一和第二麦克风,但不被这样限制。
收发器可通过头戴机而耦合信息于通信网络和用户之间。被与收发器一起使用的头戴机可包括第一和第二麦克风。
本发明的方面可被实施为被编程到各种电路的任何一个中的功能性,所述电路包括可编程逻辑设备(PLD),如现场可编程门阵列(FPGA),可编程阵列逻辑(PAL)设备、电可编程逻辑和存储器设备以及标准的基于蜂窝的设备,还有特定用途集成电路(ASIC)。用于实施本发明的方面的一些其它可能性包括具有存储器(如电子可擦除可编程只读存储器(EEPROM))的微控制器,嵌入式微处理器、固件、软件等。如果在制造期间的至少一个阶段(例如在被嵌入固件或PLD中之前),本发明的方面被实施为软件,则该软件可由诸如磁性上或光学上可读的盘(固定盘或软盘)的计算机可读介质来承载,被调制于载波信号上或相反被发送等。
此外,本发明的方面可被实施于具有基于软件的电路仿真的微处理器、离散逻辑(依序的和组合的)、定制设备、模糊(神经)逻辑、量子设备和任何以上设备类型的混合中。当然,基础设备技术可被提供于各种部件类型中,例如金属氧化物半导体场效应晶体管(MOSFET)技术,如互补金属氧化物半导体(CMOS),双极技术,如发射极耦合逻辑(ECL),聚合物技术(例如硅共轭聚合物和金属共轭聚合物-金属结构),混合的模拟和数字等。
除非上下文明确需要,否则在整个说明书和权利要求中,单词“包括”、“包含”等应被理解成处于与排他或详尽的意义相反的包括的意义上;也就是说,处于“包括但不局限于”的意义上。使用单数或复数的单词亦分别包括复数或单数。另外,当被用在本申请中时,单词“在此”、“在下面”、“以上”、“以下”和类似进口(import)的单词应在整体上参考本申请而不是本申请的任何特定部分。当单词“或者”被参照两个或多个项目的清单而使用时,那个单词覆盖该单词的所有以下解释清单中的任何项目、清单中的所有项目和清单中的项目的任何组合。
本发明的实施例的以上描述并不旨在是详尽的或者将本发明局限于所公开的精确形式。尽管本发明的特定实施例和实例在此为了说明的目的而被描述,如相关领域的技术人员将认识到的,本发明的范围内的各种等效修改是可能的。在此所提供的本发明的教导可被应用于其它处理系统和通信系统,而不仅仅是以上所述的处理系统。上述各个实施例的元件和动作可被组合以提供进一步的实施例。可根据以上详述对本发明做出这些和其它改变。
所有以上参考和美国专利申请在此被引入作为参考。如果有必要,本发明的方面可被修改以采用以上所述的各个专利和申请的系统、功能和概念,从而提供本发明的又进一步的实施例。
一般而言,在以下权利要求中,所使用的术语不应被理解成将本发明局限于在说明书和权利要求中公开的特定实施例,而是应被理解成包括在权利要求下工作以提供用于压缩和解压数据文件或流的方法的所有处理系统。因此,本发明不由公开内容来限制,相反,本发明的范围在整体上由权利要求来确定。
尽管本发明的某些方面在以下以某些权利要求形式被呈现,发明人预期有处于任何数量的权利要求形式的本发明的各个方面。例如,尽管本发明的仅一个方面被陈述为被实施于计算机可读介质中,其它方面可同样被实施于计算机可读介质中。因此,发明人保留在提交本申请之后添加附加权利要求的权利以针对本发明的其它方面而继续(pursue)这样的附加权利要求形式。
权利要求
1.一种通信系统,包括声音检测子系统,其接收包括人发声活动信息的声音活动信号,并且使用声音活动信号的信息来自动产生控制信号;以及降噪子系统,其被耦合于声音检测子系统,该降噪子系统包括麦克风,其被耦合以提供环境的声学信号给降噪子系统的部件,所述麦克风的配置包括两个单向麦克风,其被一个距离分离并具有每个麦克风的空间响应曲线的最大值之间的角度,降噪子系统的部件使用所述控制信号来自动选择适合于声学信号的至少一个频率子带的数据的至少一个降噪方法,并且使用所选降噪方法来处理声学信号以产生经降噪的声学信号,其中降噪方法包括当声学信号包括语音和噪声时,产生与声学信号的噪声关联的噪声波形估算并将该噪声波形估算从声学信号减去。
2.如权利要求1的系统,其中所述距离近似处于零(0)到15厘米的范围内。
3.如权利要求1的系统,其中所述角度近似处于零(0)到180度的范围内。
4.如权利要求1的系统,其中声音检测子系统进一步包括至少一个声门电磁微功率传感器(GEMS),其包括用于接收声音活动信号的至少一个天线;以及至少一个声音活动检测器(VAD)算法,用于处理GEMS声音活动信号并产生控制信号。
5.如权利要求1的系统,其中声音检测子系统进一步包括至少一个加速计传感器,其与用户的皮肤接触以便于接收声音活动信号;以及至少一个声音活动检测器(VAD)算法,用于处理加速计传感器声音活动信号并产生控制信号。
6.如权利要求1的系统,其中声音检测子系统进一步包括至少一个皮肤表面麦克风传感器,其与用户的皮肤接触以便于接收声音活动信号;以及至少一个声音活动检测器(VAD)算法,用于处理皮肤表面麦克风传感器声音活动信号并产生控制信号。
7.如权利要求1的系统,其中声音检测子系统通过与麦克风的耦合来接收声音活动信号。
8.如权利要求1的系统,其中声音检测子系统进一步包括两个单向麦克风,其被一个距离分离并具有每个麦克风的空间响应曲线的最大值之间的角度,其中所述距离近似处于零(0)到15厘米的范围内,并且其中所述角度近似处于零(0)到180度的范围内;以及至少一个声音活动检测器(VAD)算法,用于处理声音活动信号并产生控制信号。
9.如权利要求1的系统,其中声音检测子系统进一步包括至少一个手动激励的声音活动检测器(VAD),用于产生声音活动信号。
10.如权利要求1的系统,进一步包括便携式手持机,其包括麦克风,其中便携式手持机包括以下的至少一个蜂窝电话,卫星电话,便携式电话,线路电话,互联网电话,无线收发器,无线通信收音机,个人数字助理(PDA)和个人计算机(PC)。
11.如权利要求10的系统,其中便携式手持机包括声音检测子系统和降噪子系统的至少一个。
12.如权利要求1的系统,进一步包括便携式头戴机,其包括麦克风以及至少一个扬声器设备。
13.如权利要求12的系统,其中便携式头戴机耦合于从以下中选择的至少一个通信设备蜂窝电话,卫星电话,便携式电话,线路电话,互联网电话,无线收发器,无线通信收音机,个人数字助理(PDA)和个人计算机(PC)。
14.如权利要求13的系统,其中便携式头戴机使用无线耦合、有线耦合以及无线和有线耦合的组合的至少一个而耦合于通信设备。
15.如权利要求13的系统,其中通信设备包括声音检测子系统和降噪子系统的至少一个。
16.如权利要求12的系统,其中便携式头戴机包括声音检测子系统和降噪子系统的至少一个。
17.如权利要求12的系统,其中便携式头戴机是从以下中选择的便携式通信设备蜂窝电话,卫星电话,便携式电话,线路电话,互联网电话,无线收发器,无线通信收音机,个人数字助理(PDA)和个人计算机(PC)。
18.一种通信系统,包括声音检测子系统,其接收包括人发声活动信息的声音活动信号,并且使用声音活动信号的信息来自动产生控制信号;以及降噪子系统,其被耦合于声音检测子系统,该降噪子系统包括麦克风,其被耦合以提供环境的声学信号给降噪子系统的部件,所述麦克风的配置包括被一个距离分离的全向麦克风和单向麦克风,降噪子系统的部件使用所述控制信号来自动选择适合于声学信号的至少一个频率子带的数据的至少一个降噪方法,并且使用所选降噪方法来处理声学信号以产生经降噪的声学信号,其中降噪方法包括当声学信号包括语音和噪声时,产生与声学信号的噪声关联的噪声波形估算并将该噪声波形估算从声学信号减去。
19.如权利要求18的系统,其中所述距离近似处于零(0)到15厘米的范围内。
20.如权利要求18的系统,其中全向麦克风被取向成从至少一个语音信号源捕获信号而单向麦克风被取向成从至少一个噪声信号源捕获信号,其中语音信号源和单向麦克风的空间响应曲线的最大值之间的角度近似处于45到180度的范围内。
21.如权利要求18的系统,其中声音检测子系统进一步包括至少一个声门电磁微功率传感器(GEMS),其包括用于接收声音活动信号的至少一个天线;以及至少一个声音活动检测器(VAD)算法,用于处理GEMS声音活动信号并产生控制信号。
22.如权利要求18的系统,其中声音检测子系统进一步包括至少一个加速计传感器,其与用户的皮肤接触以便于接收声音活动信号;以及至少一个声音活动检测器(VAD)算法,用于处理加速计传感器声音活动信号并产生控制信号。
23.如权利要求18的系统,其中声音检测子系统进一步包括至少一个皮肤表面麦克风传感器,其与用户的皮肤接触以便于接收声音活动信号;以及至少一个声音活动检测器(VAD)算法,用于处理皮肤表面麦克风传感器声音活动信号并产生控制信号。
24.如权利要求18的系统,其中声音检测子系统进一步包括两个单向麦克风,其被一个距离分离并具有每个麦克风的空间响应曲线的最大值之间的角度,其中所述距离近似处于零(0)到15厘米的范围内,并且其中所述角度近似处于零(0)到180度的范围内;以及至少一个声音活动检测器(VAD)算法,用于处理声音活动信号并产生控制信号。
25.如权利要求18的系统,其中声音检测子系统进一步包括至少一个手动激励的声音活动检测器(VAD),用于产生声音活动信号。
26.如权利要求18的系统,进一步包括便携式手持机,其包括麦克风,其中便携式手持机包括以下的至少一个蜂窝电话,卫星电话,便携式电话,线路电话,互联网电话,无线收发器,无线通信收音机,个人数字助理(PDA)和个人计算机(PC)。
27.如权利要求26的系统,其中便携式手持机包括声音检测子系统和降噪子系统的至少一个。
28.如权利要求18的系统,进一步包括便携式头戴机,其包括麦克风以及至少一个扬声器设备。
29.如权利要求28的系统,其中便携式头戴机耦合于从以下中选择的至少一个通信设备蜂窝电话,卫星电话,便携式电话,线路电话,互联网电话,无线收发器,无线通信收音机,个人数字助理(PDA)和个人计算机(PC)。
30.如权利要求29的系统,其中便携式头戴机使用无线耦合、有线耦合以及无线和有线耦合的组合的至少一个而耦合于通信设备。
31.如权利要求29的系统,其中通信设备包括声音检测子系统和降噪子系统的至少一个。
32.如权利要求28的系统,其中便携式头戴机包括声音检测子系统和降噪子系统的至少一个。
33.如权利要求28的系统,其中便携式头戴机是从以下中选择的便携式通信设备蜂窝电话,卫星电话,便携式电话,线路电话,互联网电话,无线收发器,无线通信收音机,个人数字助理(PDA)和个人计算机(PC)。
34.一种通信系统,包括至少一个收发器,用于在通信网络中使用;声音检测子系统,其接收包括人发声活动信息的声音活动信号,并且使用声音活动信号的信息来自动产生控制信号;以及降噪子系统,其被耦合于声音检测子系统,该降噪子系统包括麦克风,其被耦合以提供环境的声学信号给降噪子系统的部件,所述麦克风的配置包括第一麦克风和第二麦克风,其被一个距离分离并且具有每个麦克风的空间响应曲线的最大值之间的角度,降噪子系统的部件使用所述控制信号来自动选择适合于声学信号的至少一个频率子带的数据的至少一个降噪方法,并且使用所选降噪方法来处理声学信号以产生经降噪的声学信号,其中降噪方法包括当声学信号包括语音和噪声时,产生与声学信号的噪声关联的噪声波形估算并将该噪声波形估算从声学信号减去。
35.如权利要求34的系统,其中第一和第二麦克风的每个都是单向麦克风,其中所述距离近似处于零(0)到15厘米的范围内,并且所述角度近似处于零(0)到180度的范围内。
36.如权利要求34的系统,其中第一麦克风是全向麦克风而第二麦克风是单向麦克风,其中第一麦克风被取向成从至少一个语音信号源捕获信号而第二麦克风被取向成从至少一个噪声信号源捕获信号,其中语音信号源和第二麦克风的空间响应曲线的最大值之间的角度近似处于45到180度的范围内。
37.如权利要求34的系统,其中收发器包括第一和第二麦克风。
38.如权利要求34的系统,其中收发器通过头戴机而耦合通信网络和用户之间的信息。
39.如权利要求38的系统,其中头戴机包括第一和第二麦克风。
全文摘要
通信系统被描述,其包括便携式手持机(handset)和头戴机(headset)设备两者,使用许多麦克风配置来接收环境的声学信号。麦克风配置包括例如包括两个单向麦克风的二麦克风阵列,以及包括一个单向麦克风和一个全向麦克风的二麦克风阵列。所述通信系统亦包括声音活动检测(VAD)设备,用来提供人发声活动的信息。通信系统的部件接收声学信号和声音活动信号,并且作为响应,从所述声音活动信号的数据自动产生控制信号。通信系统的部件使用所述控制信号来自动选择适合于声学信号的频率子带的数据的降噪方法。当声学信号包括语音(101)和噪声(102)时,所选的降噪方法被应用于声学信号以产生经降噪的声学信号。
文档编号H04R3/00GK1643571SQ03807057
公开日2005年7月20日 申请日期2003年3月27日 优先权日2002年3月27日
发明者格里戈里·C·伯内特, 尼古拉斯·J·珀蒂, 安德鲁·E·埃因瓦蒂, 亚历山大·M·阿萨利 申请人:艾黎弗公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1