用于自适应话音可懂度处理的系统的制作方法

文档序号:6596599阅读:261来源:国知局
专利名称:用于自适应话音可懂度处理的系统的制作方法
用于自适应话音可懂度处理的系统背景技术
移动电话通常在包括高背景噪声的区域中使用。这种噪声通常具有使得来自移动电话扬声器的口头通信信息的可懂度的极大降低的级别。在大多数情况下,因为高环境噪声级别掩盖或扭曲了呼叫方的话音,所以当收听者收听时,丢失或至少部分地丢失了一些通fe fn息ο
在存在高背景噪声的情况下,使可懂度的损失最小化的尝试已经包括使用均衡器、限幅电路,或者简单地增大移动电话的音量。均衡器和限幅电路自身就可能增大背景噪声,因而不能解决该问题。增大移动电话的声音或扬声器音量的总级别,通常不能显著地提高可懂度,并且可能造成其它问题,比如反馈和收听者的不适感。发明内容
在特定实施例中,一种用于自动调整施加至音频信号上的话音可懂度增强的系统,包括增强模块,接收包括共振峰的输入话音信号,并且对所述输入话音信号施加音频增强,来提供增强话音信号。音频增强可以加强所述输入话音信号中的一个或多个共振峰。 该系统还包括增强控制器,具有一个或多个处理器。增强控制器可以至少部分地基于检测到的环境噪声量来调整由所述增强模块施加的音频增强的量。该系统还包括输出增益控制器,可以至少部分地基于所述环境噪声的量和所述输入话音信号,来调整增强话音信号的总增益,以及向增强话音信号施加所述总增益,以产生放大话音信号。该系统还可以包括失真控制模块,可以至少通过将所述放大话音信号的一个或多个采样映射到在正弦和表中存储的一个或多个值,来减小所述放大话音信号中的限幅。可以根据较低次正弦谐波之和来产生所述正弦和表。
在多种实施例中,调整话音可懂度增强的方法可以包括接收话音信号和具有近端环境含量的输入信号,利用一个或多个处理器计算所述输入信号中的所述近端环境含量,利用所述一个或多个处理器,至少部分地基于所述近端环境含量来调整话音增强的级别,以及对所述话音信号施加所述话音增强,以产生增强话音信号。所述话音增强可以加强所述话音信号的一个或多个共振峰。
此外,在特定实施例中,用于自动地调整施加至音频信号上的话音可懂度增强的系统可以包括增强模块,所述增强模块可以接收包括共振峰的输入话音信号,以及对所述输入话音信号施加音频增强,以提供增强话音信号。所述音频增强可以加强所述输入话音信号中的一个或多个共振峰。该系统还可以包括增强控制器,所述增强控制器包括一个或多个处理器。所述增强控制器可以至少部分地基于检测到的环境噪声的量来调整由所述增强模块施加的音频增强的量。该系统还可以包括输出增益控制器,所述输出增益控制器可以至少部分地基于环境噪声的量和所述输入话音信号来调整增强话音信号的总增益,以及向所述增强话音信号施加所述总增益,以产生放大话音信号。
一种处理器可读存储介质,具有在其上存储的指令,所述指令使得一个或多个处理器执行调整话音可懂度增强的方法,所述方法可以包括接收来自远程电话的话音信号和来自麦克风的噪声信号,计算所述噪声信号的值,至少部分地基于所述噪声信号的值来调整施加至所述话音信号的共振峰上的增益,以及对所述话音信号的共振峰施加所述增■、Λfrff. ο
在一些实现中,一种用于调整话音可懂度增强的噪声阈值的系统可以包括话音增强模块,可以利用接收设备来接收来自远程设备的输入话音信号,以及对所述输入话音信号施加音频增强,以加强所述输入话音信号中的一个或多个共振峰。该系统还可以包括话音增强控制器,所述话音增强控制器具有一个或多个处理器。所述话音增强控制器可以至少部分地基于第一噪声阈值以上检测到的环境噪声量,来调整由所述增强模块施加的音频增强的量。该系统还可以包括噪声灵敏度控制器,所述噪声灵敏度控制器可以调整所述第一噪声阈值。所述噪声灵敏度控制器可以包括第一相关器、第一方差模块、第二相关器、 第二方差模块和噪声灵敏度调节器,其中所述第一相关器可以根据从接收设备的麦克风接收的麦克风输入信号计算第一自相关值,所述第一方差模块可以计算第一自相关值的第一方差,所述第二相关器可以根据扬声器输入信号计算第二自相关值,其中扬声器输入信号包括话音增强模块的输出信号,所述第二方差模块可以计算第二自相关值的第二方差,所述噪声灵敏度调节器可以使用所述第一和第二自相关值以及第一和第二方差值中的一个或多个来调整第一噪声阈值,以产生第二噪声阈值。因此,在特定实施例中,话音增强控制器可以至少部分地基于第二噪声阈值以上检测到的环境噪声第二量,来调整施加至第二输入音频信号上的音频增强的量。
在特定实施例中,一种用于调整话音可懂度增强的灵敏度的系统包括话音增强模块,可以利用接收设备接收由接收设备从远程设备处接收的输入话音信号,以及向所述输入话音信号施加音频增强,以加强所述输入话音信号中的一个或多个共振峰。该系统还可以包括增强控制器,所述增强控制器可以至少部分地基于所述输入话音信号中存在的环境噪声的量来调整由所述话音增强模块施加的所述音频增强的量。该系统还可以包括具有一个或多个处理器的噪声灵敏度控制器,所述噪声灵敏度控制器可以至少部分地基于麦克风输入信号和扬声器输入信号中的至少一个或二者的统计分析来调整所述增强控制器对环境噪声的灵敏度,其中麦克风输入信号从接收设备的麦克风获得,扬声器束信号作为话音增强模块的输出信号来提供。
在特定实施例中,一种用于调整话音增强的灵敏度的方法包括接收输入音频信号;检测输入音频信号中的相关含量,其中检测包括使用一个或多个处理器来计算对所述输入音频信号的统计分析;以及响应于执行所述检测,调整施加至所述输入音频信号的增强级别。
此外,在多种实施例中,一种音频信号处理方法包括接收麦克风输入信号;检测所述麦克风输入信号中的实质上周期性含量;以及利用一个或多个处理器,至少部分地基于在所述麦克风输入信号中检测到的实质上周期性含量来调整音频增强。所述音频增强可以至少部分地基于所述麦克风输入信号的级别来选择性地加强音频输出信号。所述方法还可以包括向扬声器提供所述音频输出信号。
为了概括本公开,本文已经描述了本发明的特定方面、优点和新颖特征。应该理解,根据本文公开的本发明的任何特定实施例,可能没有必要实现所有这些优点。因此,可以以下方式实现或执行本文公开的本发明实现或优化本文教导的一个或一组优点,而没有必要实现可能由本文教导或建议的其它优点。


贯穿附图,可以重复使用参考数字,以指示参考元件之间的对应性。提供附图来指示本文描述的本发明的实施例,而非限制其范围。
图1示出了用于实现话音增强系统的移动电话环境的实施例;
图2示出了图1的与增强系统的实施例;
图3示出了由话音增强系统使用的话音增强控制过程的实施例;
图4示出了由话音增强系统使用的输出音量控制过程的实施例;
图5A、5B、5C和6示出了由话音增强系统使用的噪声灵敏度控制过程的实施例
图7示出了图1的系统的示例失真控制模块;
图8示出了正弦波的示例时域图示;
图9示出了图8的正弦波的示例频谱;
图10示出了限幅正弦波的示例时域图示;
图11示出了图10的限幅正弦波的示例频谱;
图12示出了与图11的限幅正弦波频谱相比谐波数目减少的示例频谱,;
图13示出了与图12的频谱相对应的部分饱和波的示例时域图示;
图14示出了正弦和映射函数的实施例;
图15示出了音频信号和该信号的失真控制版本的示例时域图示。
具体实施方式
I.介绍
移动电话以及其它类似尺寸的设备倾向具有小扬声器,其中在小扬声器生产时, 其声音的音量就受到了限制。因此,在存在环境噪声的情况下,很难听到移动电话上的对话。
本公开描述了一种用于基于环境噪声、语音级别(speech level)、两者的结合等来调整话音可懂度处理的系统和方法。话音可懂度处理可以包括加强语音中共振峰的技术。例如,话音可懂度处理可以用于使移动电话对话等的语音清晰。话音可懂度处理可以适于至少部分地基于环境噪声增大或减小话音共振峰或其它声音特性。通过增强话音可懂度处理,可以加强讲话者语音中的共振峰,以使得收听者感觉到更清楚。然而,在存在相当大的环境噪声的情况下,加强语音中的共振峰可能使得语音听起来刺耳。因此,如果环境噪声减小,则可以降低话音可懂度处理的量,以避免语音中的刺耳声。
此外,还可以至少部分地基于噪声级别和/或话音级别,自适应地增大音频信号的总增益。然而,如果将音频信号的总增益增大到超出特定级别,则可能发生音频信号饱和,从而引起谐波失真。在特定实施例中,为了减少饱和的失真效应,可以使用失真控制处理。失真控制处理可以减少高增益情形期间发生的失真,同时允许发生一些失真,以保持或增大响度。在特定实施例中,可以通过将音频信号映射到输出信号来执行失真控制,其中与全饱和信号相比,该输出信号具有较少的谐波。
II.系统概要
图1示出了用于实现话音增强系统110的移动电话环境100的实施例。在示例移动电话环境100中,示出了呼叫方电话104和接收方电话108。呼叫方电话104和接收方电话108可以是移动电话、基于互联网协议的话音(VOIP)电话、智能电话、地面通信线电话等。呼叫方电话104可以被看作是位于移动电话环境100的远端,而接收方电话可以被看作是位于移动电话环境100的近端。当移动电话108的用户说话时,近端与远端可以颠倒。
在所描述的实施例中,呼叫方向呼叫方电话104提供话音输入102。呼叫方电话 104中的发射机106向接收方电话108发送话音输入信号102。发射机106可以根据呼叫方电话104的类型无线地或通过地面通信线发送话音输入信号102。接收方电话108的话音增强系统110可以接收话音输入信号102。话音增强系统110可以包括用于提高话音输入信号102的可懂度的硬件和/或软件。例如,话音增强系统110可以利用话音增强来处理话音输入信号102,其中话音增强加强了口声的区别特性。
话音增强系统110还可以利用接收方电话108的麦克风来检测环境噪声112。环境噪声或含量112可以包括背景噪声或周围噪声(ambient noise)。除了其普通含义之外, 环境噪声或或含量还可以包括一些或全部近端噪音。例如,除了接收方电话108的麦克风接收到的背景声音之外,环境噪声或含量还包括来自扬声器输出114的回声。在一些情况下,环境噪声还可以包括来自接收方电话108的用户的话音输入,包括咳嗽、清嗓子以及双讲(double talk)(参见以下的“噪声灵敏度控制(Noise Sensitivity Control)”)。
有利地,在特定实施例中,话音增强系统110至少部分地基于环境噪声112的量来调整施加至话音输入信号102上的话音增强的强度。例如,如果环境噪声112增大,则话音增强系统110可以增大所施加的话音增强的量,反之亦然。因此,话音增强可以至少部分地跟踪检测到的环境噪声112的量。
此外,话音增强系统110可以至少部分地基于环境噪声112的量来增大施加至话音输入信号102上的总增益。然而,当存在较小的环境噪声112时,话音增强系统110可以减少所施加的话音增强和/或增益增大的量。这种减少有益于收听者,原因在于当存在低级别的背景噪声112时,话音增强和/或音量增大可能听起来刺耳或者讨厌。
因此,在特定实施例中,话音增强系统110将话音输入信号变换为增强的输出信号114,其中存在变化的环境噪声级别的情况下,所述增强的输出信号114对于收听者而言可能更好理解。在一些实施例中,还可以在呼叫方电话104中包括话音增强系统110。话音增强系统110可以至少部分地基于呼叫方电话104检测到的环境噪声的量,来对话音输入信号102施加增强。因此,可以在呼叫方电话104、接收方电话108,或者两者中使用话音增强系统110。
尽管示出的话音增强系统110是电话108的一部分,但是替换地,可以在任何通信设备或与电话通信的设备中实现话音增强系统110。例如,可以在与支持VOIP的电话进行通信或耦合的计算机、路由器、模拟电话适配器等中实现话音增强系统110。还可以在公共地址(“PA”)设备(包括因特网协议上的PA)、无线电收发机、助听设备(例如,助听器)、 对讲电话以及其它音频系统中使用话音增强系统110。此外,可以在向一个或多个扬声器提供音频输出的任何基于处理器的系统中实现话音增强系统110。
图2示出了话音增强系统210的更详细的实施例。话音增强系统210可以具有话音增强系统110的全部特征。可以在以下设备中实现话音增强系统210:移动电话、峰窝电话、智能电话或包括任何上述设备的其它计算设备。有利地,在特定实施例中,话音增强系统210至少部分地基于检测到的环境噪声的量和/或话音信号的级别来调整话音可懂度处理和音量处理。
话音增强系统210包括话音增强模块220。话音增强模块220可以包括用于对话音输入信号202施加话音增强的硬件和/或软件。话音增强可以加强话音输入信号202中的口声的区别特性。在某些实施例中,这些区别特性包括在人(例如,使用电话的呼叫方) 的声道中产生的共振峰。人类话音的可懂度可能很大程度上取决于共振峰的频率分布的图案。因此,话音增强模块220可以选择性地增强共振峰,以在存在背景噪声的情况下提供更容易理解的话音。
在特定实施例中,话音增强模块220利用1995年10月17日提交的发明名称为 “公共地址可懂度系统”的美国专利NO. 5459813( “813专利”)中描述的一些或全部特征来施加话音增强,其全部内容通过引用合并于此。尽管‘813专利在电路的上下文中描述了这些特征,但是话音增强模块220可以利用在诸如数字信号处理器(DSP)之类的处理器中执行的指令来实现这些特征的一部分或全部。此外,话音增强模块220还可以使用‘813专利中没有公开的话音增强技术。
话音增强模块220可以通过将话音输入信号202划分为频率子带来处理共振峰。 话音增强模块220可以将话音输入信号202划分为两个或多个子带等等。话音增强模块 220可以通过应用具有中心频率的带通滤波器来执行这种频率划分,其中,在所述中心频率处倾向于出现共振峰或者在所述中心频率附近倾向于出现共振峰。在实施例中,这种频率划分可以通过例如在‘813专利的第4列第50行至第5列第M行以及第7列中的第10行至32行中描述的频谱分析器42或IM来完成,在此特别并入‘813专利的该部分以供参考。
话音增强模块220可以通过独立地放大子带中的共振峰,并且选择性地对其加权来施加话音增强。对共振峰加权可以使得特定共振峰被加强,从而提高可懂度。话音增强模块220可以将加权后的共振峰与基带话音分量相结合,以向(以下描述的)输出增益控制器230提供输出话音信号。话音增强模块220还可以增强其它的有声区别特性,比如爆破音和摩擦音。
例如,话音增强模块220还可以以与‘813专利的以下部分中描述的方式相同或类似的方式执行这些放大、加权和组合功能(或者其数字实现)第5列第1-7行;第5列第 46行至第6列第19行;以及第9列第8行至39行。因此,特别并入‘813专利的这些部分以供参考。为了对可以如何数字地实现这些功能中的某些功能的示例进行举例说明,‘813 专利描述了利用可变电阻来对特定子带中的信号加权(例如,参见第5列第66行至第6列第19行)。话音增强模块220可以通过将增益值存储在存储器中并利用处理器对信号施加该增益值,来数字地实现这些权重。
有利地,在特定实施例中,提供一种话音增强控制器222,该话音增强控制器可以控制话音增强模块220提供的话音增强的级别。话音增强控制器222可以包括硬件和/或软件。话音增强控制器222可以向话音增强模块220提供增强级别控制信号或值,该话音增强模块220增大或减小施加的话音增强的级别。在一个实施例中,增强级别控制信号调整子带的加权。例如,控制信号可以包括与一些或全部子带的输出(或输入)相乘的一个或多个增益值。同样地,控制信号可以用于加上或减去一些或全部子带的输入或输出。当环境噪声204增大和减小时,控制信号可以逐采样地进行调整。
在特定实施例中,在检测到环境噪声204的阈值能量之后,话音增强控制器222调整话音增强的级别。在阈值以上时,话音增强控制器222可以使得话音增强的级别跟随或实质上跟随环境噪声204的量。在一个实施例中,例如,所提供的噪声阈值以上的噪声增强的级别和噪声能量(或功率)与阈值的比例成比例。在备选实施例中,调整话音增强的级别,而不管存在的环境噪声的量,例如没有使用阈值。
所描述的话音增强系统210的实施例包括噪声灵敏度控制器2M和额外增强控制 226,所述额外增强控制2 用于进一步调整由话音增强控制器222提供的控制量。噪声灵敏度控制器2M可以向话音增强控制器222提供噪声灵敏度控制值,以调整话音增强控制器222对存在的噪声204量敏感的程度。如以下将更详细地描述的,噪声灵敏度控制器2M 可以影响噪声阈值,在该噪声阈值以下,话音增强控制器222不可以调整话音增强的级别。
在特定实施例中,噪声灵敏度控制器2M至少部分地基于从麦克风和/或扬声器输入获得的音频采样自动地产生噪声灵敏度控制。有利地,在特定实施例中,噪声灵敏度控制器2M可以自动地调整噪声灵敏度,以解决由麦克风获得的扬声器回声以及其它噪声伪迹。以下将参考图5和6更详细地描述这些特征。此外,在一些实施例中,噪声灵敏度控制器2M提供用户接口,该用户接口允许用户调整噪声灵敏度控制。因此,噪声灵敏度控制器 224可以提供对话音增强控制器222的自动和/或手动控制。
额外增强控制2 可以向话音增强控制器222提供额外增强控制信号,该额外增强控制信号可以用作在其下增强级别不再下降的值。可以经由用户接口向用户显现额外增强控制226。该控制2 还允许用户将增强级别增大到超出由话音增强控制器222确定的增强级别。在一个实施例中,话音增强控制器222可以将来自额外增强控制226的额外增强加到由话音增强控制器222确定的增强级别中。对于可能想要更强的话音增强处理或者想要频繁施加话音增强处理的听力受损者而言,额外增强控制2 可能特别有用。
在特定实施例中,输出增益控制器230可以控制施加至话音增强模块220的输出信号上的总增益的量。可以以硬件和/或软件实现输出增益控制器230。输出增益控制器 230至少部分地基于噪声输入204的级别和话音输入202的级别来调整施加至输出信号的增益。除了诸如电话的音量控制之类的任何用户设置的增益之外,可以施加这种增益。有利地,基于环境噪声204和/或话音输入202来调整音频信号的增益可能有助于收听者进一步感知话音输入信号202。
在所描述的实施例中,还示出了自适应级别控制232,其可以进一步调整由输出增益控制器230提供的增益量。用户接口还可以向用户显现自适应级别控制232。增大这种控制232可以在来电话音输入202级别下降或者当噪声输入204增大时使控制器230的增益增大得更多。减小这种控制232能够在来电话音输入202级别下降或者当噪声输入204 下降时使控制器230的增益增大得更少。
在一些情况下,话音增强模块220、话音增强控制器222和/或输出增益控制器 230施加的增益可以使得话音信号被限幅或饱和。饱和可能导致令收听者不愉快的谐波失真。因此,在特定实施例中,还提供了失真控制模块140。失真控制模块140可以接收输出增益控制器230的调整增益后的话音信号。失真控制模块140可以包括硬件和/或软件, 在至少部分地保持或者甚至增大由话音增强模块220、话音增强控制器222和/或输出增益控制器230提供的信号能量的同时控制失真。
在特定实施例中,失真控制模块140通过将话音信号中的一个或多个采样映射到输出信号来控制话音信号中的失真,与全饱和信号相比,该输出信号具有较少的谐波。对于不饱和的采样,该映射可以线性地或近似线性地跟随话音信号。对于饱和的采样,该映射可以是施加控制失真上非线性变换。因此,在特定实施例中,与全饱和信号相比,失真控制模块140可以允许话音信号听起来更响亮,具有更少的失真。因此,在特定实施例中,失真控制模块140将代表物理话音信号的数据转换为代表了具有控制失真的另一物理话音信号的数据。
III.话咅增强控制
图3示出了话音增强控制过程300的实施例。可以通过话音增强系统110或210 来实现话音增强控制过程300。具体地,可以通过话音增强控制器222来实现话音增强控制过程300。有利地,在特定实施例中,话音增强控制过程300至少部分地基于环境噪声能量的级别来调整话音增强处理。
在方框302,通过诸如电话之类的通信设备接收环境噪声输入信号。该环境噪声输入信号可以通过通信设备的麦克风来检测。在判定框304,确定是否启用环境控制。如果不启用环境控制,则向方框306提供零值。在一个实施例中,可以由用户通过通信设备的用户接口启用或禁用环境控制。禁用环境控制可能使得话音增强控制过程基于噪声级别以外的因素(诸如上述额外控制级别)来调整话音增强处理。
在方框306,可以通过采用噪声信号的绝对值来计算环境噪声信号的能量,以及在方框308中,通过对噪声信号施加噪声平滑滤波器来计算环境噪声信号的能量。噪声平滑滤波器可以是一阶滤波器或者较高阶滤波器。例如,平滑滤波器可以是低通滤波器等。在一些实施例中,噪声平滑滤波器提供每采样的平均(例如,移动平均)噪声能量级别。在备选实施例中,计算噪声信号的功率,而非能量。
在方框310,可以向输出增益控制过程提供环境噪声信号的能量。以下参考图4描述示例输出增益控制过程。还可以向判定框312提供环境噪声能量,所述判定框312可以确定是否能量已经达到(例如,大于或者等于)噪声阈值。在一个实施例中,如下计算噪声阈值
噪声阈值=1-(α *噪声灵敏度控制)(1)
其中,α是常量,其中噪声灵敏度控制可以是由图2的噪声灵敏度控制器2 产生的值。噪声灵敏度控制可以影响话音增强控制器222对环境噪声输入302的灵敏度。噪声灵敏度控制可以基于多种因素而改变,从而使得噪声阈值改变(参见图5和6)。在实施例中,α和噪声灵敏度控制可以在范围
之间,或者可以具有在该示例范围之外的其它值。
在所描述的实施例中,如果噪声能量大于或等于阈值,则将噪声能量传送至乘法框314。否则,向乘法框314提供零控制级别。因为控制级别可以乘以以上参考图2描述的话音信号子带,所以零控制级别可能潜在地造成不向话音信号应用话音增强处理(例如, 在以下的方框316处,没有提供额外处理)。
在乘法方框314,将判定方框312的输出与噪声阈值的的乘法逆元素 (multiplicative inverse)相乘。备选地,判定框312的输出除以噪声阈值判定。乘法框314的输出可以是初步增强级别。因此,在特定实施例中,增强级别可以是噪声能量与噪声阈值的比值。
在框316,可以将以上参考图2描述的额外增强控制添加至初步增强控制级别中。 额外增强控制可以在范围W,l]之间,或者具有一些其它值。在判定框318,确定是否已经达到高控制级别。高控制级别可以是预定峰值或最大控制级别。如果已经达到了高控制级别,则在判定框318,将增强控制级别限制到高控制级别。否则,判定框318向判定方框320 传递增强控制级别。
在判定框320,可以确定是否启用话音增强控制。如果否,则用户输入可以用于调整话音增强处理级别。可以经由用户接口等向用户显现用户输入。如果启用控制,则在方框322,可以将在方框302至318中计算的增强控制级别作为输出控制级别。
尽管在本示例中使用了噪声阈值,但是不需要在所有实施例中使用噪声阈值。在特定实施例中,可以基于任何噪声级别调整话音增强处理。然而,在一些情况下,使用阈值可能是有益的。例如,在低环境噪声的情况下,话音增强处理可能是刺耳或者令人不快的。 因此,使用阈值来确定何时开启话音增强控制可以使得在存在更大噪声级别时使用话音增强处理。
IV.输出增益控制
图4示出了输出增益控制过程400的实施例。输出增益控制过程400可以通过话音增强系统110或210来实现。具体地,可以通过输出增益控制器230来实现输出增益控制过程400。有利地,在特定实施例中,输出增益控制过程400至少部分地基于环境噪声能量的级别以及话音输入级别来调整输出增益。
在框402,通过诸如电话之类的通信设备接收来自远程呼叫方的话音输入信号。在方框404和406,可以通过在方框404采用话音输入的绝对值来确定话音输入信号中的能量,以及通过在方框406应用话音平滑滤波器来计算话音输入信号中的能量。话音平滑滤波器可以是低通滤波器等,提供每采样(sample per sample basis)的平均(例如,移动平均)话音级别。
在框408,接收环境噪声能量。在上述音量控制过程300中计算该环境噪声能量。 在判定框410,将话音平滑滤波器的输出与接收增益阈值相比较,以及将环境噪声能量与麦克风增益阈值相比较。接收增益阈值可以至少部分地取决于以上参考图2描述的自适应增益控制。麦克风增益阈值可以至少部分地基于以上参考图2描述的噪声灵敏度控制。
在一个实施例中,如下计算接收增益阈值
接收增益阈值=0.5+( Y *自适应增益控制)(2)
其中,Y是范围在W,l]之间的常量,以及自适应增益控制可以是与图2的自适应增益控制232相对应的值。同样,可以如下计算麦克风增益阈值
麦克风增益阈值=1_( η*噪声灵敏度控制) (3)
其中,η是范围在
之间的常量,以及噪声灵敏度控制是由上述噪声灵敏度控制器2Μ产生的值。噪声灵敏度控制可以改变值(也参见图5和6),从而使得在一些实施例中麦克风增益阈值也改变。
在判定方框410,如果满足条件,则向乘法框412提供环境噪声能量。否则,可以向乘法框412提供低增益级别。低增益级别可以是最小增益级别等。例如,在环境噪声能量相对低并且话音输入相对高的情况下,可以使用低增益级别。在这些情况下,因为话音信号可能已经是相对容易理解的,所以可能期望进行细微的增益调整。
在乘法框412,将判定方框410的输出乘以麦克风增益阈值的乘法逆元素,以产生增益级别。备选地,判定框410的输出可以除以麦克风增益阈值。因此,增益级别可以是环境噪声能量与麦克风增益阈值的比值。在方框414,确定是否已经达到了高增益级别。如果没有达到高增益级别,则向输出增益平滑滤波器416传递乘法框412的输出。否则,向输出增益平滑滤波器提供高增益级别。高增益级别可以是最大增益级别等。
在方框416,向判定框414的输出施加输出增益平滑滤波器。输出增益平滑滤波器可以是低通滤波器等,对乘法方框412和/或判定方框414处计算的增益级别进行平均。 该平滑滤波器可以减少增益级别的突然变化。在方框418处,将增益平滑滤波器的输出乘以输出增益控制,其中所述输出增益控制可以是用户设置的值。例如,可以经由用户接口向用户显现输出增益控制。在方框420,提供乘法方框418的输出作为输出增益级别。
V.噪声灵敏度控制
如上所述,可以自动地或者在用户控制之下改变由噪声灵敏度控制器2M产生的噪声灵敏度控制。在特定实施例中,改变噪声灵敏度控制影响了话音增强控制器222和/ 或输出增益控制器230对噪声的灵敏度。在一个实施例中,增大噪声灵敏度控制使得话音增强控制器222通过极大地增强话音的可懂度来极大地响应环境噪声,反之亦然。类似地, 增大噪声灵敏度控制可以使得输出增益控制器230极大地增大施加至增强音频信号的输出增益,反之亦然。
在若干情况下,自动地减小话音增强控制器222和/或输出增益控制器230的灵敏度可能是有益的。例如,如果图1的接收电话108仅接收噪声,而不会接收来自呼叫方电话104的话音信号(例如,由于对话暂停),则施加话音增强可能增大噪声的响度。此外,当接收电话108的麦克风获得来自电话108的扬声器输出114的话音信号时,可能发生令人不快的效果。这种扬声器反馈可以被话音增强控制器222解释为环境噪声,这可以使得话音增强对扬声器反馈进行调制。得到的调制后的输出信号114可能是令收听者不愉快的。 当收听者与接收方电话108通话的同时接收方电话108输出从呼叫方电话104接收到的话音信号时,可能发生类似的问题。接收电话108的麦克风可以检测到双讲,并且话音增强控制器222可以使得话音增强调制该双讲,从而导致令人不快的声音。
在特定实施例中,噪声灵敏度控制器2M可以通过自动调整话音增强控制器222 和/或输出增益控制器230对噪声的灵敏度来克服这些和其它问题。备选地,噪声灵敏度控制器2M可以触发(例如,开启或关闭)话音增强控制器222和/或输出增益控制器230。 参考图5A、5B和5C,示出了更详细的噪声灵敏度控制器52^、524b和52 的实施例。图 5A的噪声灵敏度控制器52 可以调整控制器222、230的噪声灵敏度或者触发控制器222、 230,以说明接收电话108只接收噪声而不接收来自远端(例如,来自呼叫方电话104)的话音信号的情形。图5B的噪声灵敏度控制器52 可以调整控制器222、230的噪声灵敏度或者触发控制器222、230,以说明扬声器反馈和/或双讲的情形。图5C的噪声灵敏度控制器 524c结合了图5A和5B所示的控制器52^、5Mb的特征。
在图5A中,噪声灵敏度控制器52 接收扬声器输入502a。扬声器输入50 可以包括在缓冲器等中存储的一个或多个输出采样,其中所述一个或多个输出采样还被提供至诸如电话108之类的通信设备的扬声器。扬声器输入50 可以是上述话音增强系统210 的输出信号250。向相关器530a提供扬声器输入50加,其中相关器530a可以计算或估计扬声器输入50 的自相关。在实施例中,相关器530a计算扬声器输入50 中的一组采样的自相关。
话音信号倾向于是周期性的或者实质上周期性的。因此,如果扬声器输入50 包括话音信号,则由于自相关的性质,扬声器输入50 的自相关函数也可能是周期性的或实质上周期性的。另一方面,噪声信号通常是不相关的,并且不是周期性的(以下描述一些异常)。对周期性的或实质上周期性的信号的自相关进行评估可能导致比很多噪声信号的自相关要大的值。
向灵敏度调节器550a提供由相关器530a所计算得的自相关。在一个实施例中, 如果自相关较小或低于阈值,则扬声器输入50 极可能是噪声。因此,灵敏度调节器550a 可以减小与以上等式(1)和(3)的噪声灵敏度控制相对应的噪声灵敏度控制5(Ma。因此, 噪声灵敏度控制50 可以调整话音增强控制器222使用的噪声阈值和/或输出增益控制器230使用的麦克风增益阈值。因此,话音增强控制器222和/或输出增益控制器230可以不太积极响应环境噪声。如果自相关较大的或者大于阈值(表示扬声器输入50 可能包括话音),则灵敏度调节器550a可以增大噪声灵敏度控制50如。因此,话音增强控制器 222和/或输出增益控制器230可以积极地响应环境噪声。
在特定实施例中,灵敏度调节器550a提供的灵敏度调整量可以与自相关的级别相对应。例如,自相关越低,灵敏度调节器550a就可以使噪声灵敏度控制50 越小,反之亦然。
在所描述的实施例中,相关器530a还向可选的方差模块MOa提供自相关值。方差模块MOa可以计算或估计一组自相关值的方差。方差模块MOa可以向灵敏度调节器 ^Oa提供得到的方差值,灵敏度调节器550a可以使用该方差值,以细化对噪声灵敏度控制 504a的调整。较大的方差值可以反映话音信号的存在,而较小的方差值则可以反映主要噪声的存在。因此,灵敏度调节器550a可以包括逻辑,以当自相关和方差值都较大时增大噪声灵敏度控制50 ,以及当自相关和方差值中的一个值为小或者两个都较小时减小噪声灵敏度控制504b。
可以提供用于所示示例噪声灵敏度控制器52 的多种备选配置。例如,可以省略方差模块MOa。备选地,相关器530a可以仅向方差模块提供值,以及灵敏度调节器550a可以只基于方差值来调整噪声灵敏度控制504a。此外,相关器530a可以使用其它统计措施来分析扬声器输入502a。例如,相关器530a可以使用任何归一化的无偏估计器。在一个实施例中,相关器530a通过一组采样的总功率或能量来归一化所述相关。通过功率来归一化所述相关可以使得灵敏度调节器^Oa基于输入信号50 的特性而非基于输入信号50 的功率方差来调整噪声灵敏度控制5(Ma。
参考图5B,示例噪声灵敏度控制器524b包括图5A的特征中的大多数特征。然而, 噪声灵敏度控制器524b接收麦克风(“mic”)输入502b,而非扬声器输入50 ,其中麦克风输入520b可以包括由麦克风接收的一组采样。对麦克风输入502b应用以上描述的相关和/或方差技术可以允许噪声灵敏度控制器524b在存在扬声器反馈和/或双讲的情况下改善话音可懂度处理。
向能够提供相同上述自相关特征的相关器530b提供麦克风输入502b。在扬声器反馈或双讲的情况下,麦克风输入502b可以包括周期性的或实质上周期性的信息。因此, 自相关函数可以是周期性的或实质上周期性的,以及相关器530b计算的自相关值可以大于许多形式的噪声的自相关。
如前,相关器530b可以向灵敏度调节器550b提供自相关值。如果自相关值较大或大于阈值,则灵敏度调节器^Ob可以减小噪声灵敏度控制504b,以减小由扬声器反馈和 /或双讲造成的话音增强调制。类似地,如果自相关值较小或者小于阈值,则灵敏度调节器 550b可以增大噪声灵敏度控制504b。如上,灵敏度调节器550b可以至少部分地基于自相关的级别来调整噪声灵敏度控制504b的量。
相关器530b还向可选的方差模块MOb提供自相关值。方差模块MOb可以计算一组自相关值的方差或方差的近似值。方差模块MOb可以向灵敏度调节器550b提供得到的方差值,灵敏度调节器^Ob可以使用该方差值来细化对噪声灵敏度控制504b的调整。较大的方差值可以反映话音反馈和/或双讲的存在,而较小的方差值可以主要反映噪声的存在。因此,当方差较大时,灵敏度调节器550b还可以减小噪声灵敏度控制504b,反之亦然。
有益地,方差模块MOb可以解决具有谐波分量的某些噪声信号。一些噪声信号, 比如由汽车和飞机产生的这些噪声信号,具有低频谐波含量,其可以导致较高的相关值。 然而,与针对话音信号的方差值相比,这些噪声信号的自相关可以具有较低的方差值。因此,灵敏度调节器^Ob可以包括逻辑,以当自相关和方差值都较大时减小噪声灵敏度控制 504b,以及当自相关和方差值中的一个值或者两个值都较小时,增大噪声灵敏度控制504b。
在多种实施例中,以上参考噪声灵敏度控制器52 描述的备选配置还可以用于修改噪声灵敏度控制器524b。此外,在备选实施例中,可以使用声学回声消除器来替代相关器530b、方差模块MOb和/或灵敏度调节器550b (或者除了相关器530b、方差模块MOb 和/或灵敏度调节器阳此以外还可以使用声学回声消除器)。声学回声消除器可以在麦克风输入502b处减少或消除从扬声器接收到的回声。例如,可以采用实现了 1993年3月的 ITU-T建议G. 167中描述的特征的声学回声消除器,因而并入其全部作为参考。然而,有利地,在某些实施例中,可以利用比声学回声消除器要少的处理资源来实现本文描述的相关和/或方差特征。
参考图5C,噪声灵敏度控制器52 组合了噪声灵敏度控制器52 和524b的特征。特别地,噪声灵敏度控制器52 接收麦克风输入502b和扬声器输入5(Ma。向相关器 530a提供扬声器输入502a,相关器530a向灵敏度调节器550c以及方差模块MOa提供自相关值,方差模块MOa向灵敏度调节器550c提供方差值。向相关器530a提供麦克风输入 502b,相关器530b向灵敏度调节器550c以及方差模块MOb提供自相关值,方差模块MOb 向灵敏度调节器^Oc提供方差值。
灵敏度调节器550c可以包括逻辑,以至少部分地基于从以下部件中的任何一个部件接收的信息来调整噪声灵敏度控制5(Mc 部件530a、530b、MOa和MOb。在特定实施例中,灵敏度调节器^Oc执行软判定,以调整噪声灵敏度控制5(Mc。在图6中描述了可以由灵敏度调节器^Oc执行的过程600的一个示例。在过程600的判定框602,确定是否麦克风方差值大于阈值。麦克风方差值可以由方差模块MOb来计算。如果麦克风输入502b 的自相关的方差大于阈值,则可能由于语音反馈或双讲而存在周期性的或实质上周期性的信号。因此,在方框604,灵敏度调节器550c至少部分地基于来自相关器530b的相关值来减小噪声灵敏度控制,其中相关值越大,潜在地导致更大的减小。
如果麦克风方差小于阈值,则在判定框606处确定是否扬声器方差小于阈值。方差模块MOa可以根据扬声器输入50 的自相关来计算扬声器方差值。如果扬声器方差大于等于阈值,则在扬声器输入信号50 中可能存在语音信号。因此,在方框608处,灵敏度调节器550c将噪声灵敏度控制设置为缺省级别。
如果扬声器方差小于阈值,则在扬声器输入50 中可能存在噪声。因此,灵敏度调节器550c至少部分地基于来自相关器530a的相关值来减小噪声灵敏度控制,其中相关值越小,潜在地导致更大的减小。
过程600示出了灵敏度调节器550c的一个示例实现方式。在其它实施例中,可以向过程600中描述的阈值之一或两个阈值提供滞后量。在其它实施例中,在方框604中,将噪声灵敏度控制设置为不直接取决于相关值的特定较小值。同样地,在方框610中,可以将噪声灵敏度控制设置为不取决于相关值的值。此外,可以使用自相关和方差以外的其它统计措施来调整噪声灵敏度,包括标准偏差、高阶矩、声学回声消除等。多种其它配置也是可能的。
更一般地,以上描述的任何噪声灵敏度控制器可以被看作是话音、对话或语音分类器,其检测输入音频信号中的一个或多个声音、对话或语音分量,和/或对输入音频信号中的一个或多个声音、对话或语音分量进行分类。噪声灵敏度控制器还可以被看作是话音检测器或普通信号分类器。噪声灵敏度控制器至少部分地通过使用一个或多个处理器来执行话音或信号分类或检测,以分析输入音频信号的一个或多个统计特征。自相关和方差、声学回声消除及估计器仅是噪声灵敏度控制器可以采用的技术的示例。包括其它统计技术的其它技术可以用于检测输入信号的话音或其它分量。
此外,话音反馈和双讲也仅是可以检测的声音分量的示例。以上参考图5和6描述的噪声灵敏度控制器的特征可以用于检测音频信号中的其它话音分量,包括任何媒体内容(比如,电视、无线电、音乐和其它内容)中的话音。例如,控制器可以使用媒体内容中的音频的自相关来检测媒体内容中的话音分量。在一个实施例中,控制器可以向对话增强提供检测到的话音分量,以增大或减小所施加的对话增强的量,从而使能该对话增强更有效地增强对话。
VI.失真控制
话音增强控制器222和/或输出增益控制器230可以增大施加至话音信号的一个或多个增益。在一些情况下,使增益增大以超过特定点可以导致信号饱和,这可以造成失真。有利地,在特定实施例中,以上描述的失真控制模块240可以提供控制失真,从而提供较大的响度。
图7示出了更详细的失真控制模块740的实施例,其可以具有以上描述的失真控制模块140的所有特征。可以以硬件和/或软件实现失真控制模块740。在特定实施例中, 失真控制模块740可以导致音频信号中的选定失真,以增大信号能量,并从而增大响度。该选定失真可以是控制失真,其增加了比全饱和信号中存在的谐波要少的谐波。
如上所述,失真控制模块740可以至少部分地通过将输入采样映射成输出采样来导致选定失真。失真控制模块740可以通过将输入信号702的采样用作进入正弦和(sum-of-sines)表714或表的索引来执行这种映射。正弦和表714可以包括将谐波相关的正弦波求和来产生的值。
举例说明,如果输入信号702具有值为m的采样,则失真控制模块740可以将输入采样映射到正弦和表714中索引m处的输出采样。如果输入信号702的采样落在表714的索引值之间,则失真控制模块740可以对索引值进行内插。使用内插可以允许减小正弦和表714的大小,以节约存储器。然而,在特定实施例中,正弦和表714可以被设计为足够大, 以避免使用内插。失真控制模块740可以使用正弦和表714中映射后的输出值作为针对输出信号722的输出采样。
正弦和表714可以被实现为任何数据结构,比如数组、矩阵等。产生表714,以包括任意数目的谐波正弦波,该任意数目的谐波正弦波包括奇次谐波、偶次谐波或其结合。在特定实施例中,奇次谐波可以提供针对话音音频信号的良好失真控制。偶次谐波可以在其它实现方式中使用,并且有利于减少音乐信号中的限幅。奇次谐波或偶次谐波可以用于混合的话音和音乐信号。然而,这仅是说明性示例,以及奇次谐波或偶次谐波或者两者可以用于任何应用中。
当使用更多正弦波来产生表714时,信号能量和失真方面的潜在增大就越大,反之亦然。因为使用大量的正弦波可以导致显著的谐波失真,所以在特定实施例中,有益地, 使用相对小数目的低频正弦波来构建正弦和表714。
例如,可以根据两个或三个谐波相关正弦波、四个正弦波、五个正弦波、或者更多正弦波之和来构建表714。可以在存储器中存储多个正弦和表714,并且可以基于不同的目的而由失真控制模块740使用。例如,具有多个谐波的正弦和表714可以用于话音信号,而具有较少谐波的表714可以用于音乐,以构建较少的失真。
失真控制模块740还可以提供用户接口,该用户接口向用户提供失真控制,以调整信号能量增大和/或失真的量。例如,可以提供图形化游标、钮等,或者用户能够按压物理或软按钮来调整所施加的能量增大或失真的量。增大失真控制可以使得能够使用具有更多谐波的表,反之亦然。
现在使用与三个奇次谐波相关正弦波来描述用于产生正弦和表714的示例过程。 在该示例中,可以通过填充具有选定大小的第一表格来产生正弦和表714,其中所述选定大小的第一表格具有一个正弦波周期的值(例如,从0弧度至2pi)。填充大小为N(N是整数) 的表格可以包括将一个正弦波周期划分成N个值,以及将该N个值分配给表格中的N个空位。该第一正弦波表格可以表示基谐波或一次谐波。
可以以类似的方式(通过将三个正弦周期划分为N个值),利用正弦波的三个周期来填充与第一表格相同大小的第二表格。第二表格中的值可以表示第一正弦波的三次谐波。类似地,可以利用五个正弦波周期来填充与前两个表格相同大小的第三表格,该第三表格表示五次谐波。可以根据需要来缩放第一、第二和第三表格中的值。例如,可以缩小第二表格中的值,以使其幅度小于第一表格中那些值的幅度,以及可以缩放第三表格中的值,以包括比第二表格中的值要小的值。
因为在特定实施例中,三个表格大小相同(例如,具有相同数目的N个条目),所以可以将三个表格的相应索引中的值加在一起,以创建新正弦和表714,该新正弦和表714包括一次、三次和五次谐波之和。因此,在特定实施例中,如果要绘制正弦和表714中的值,则应当示出经求和后的波形的一个周期的近似图形。在特定实施例中,使用的正弦波越多,绘制的这个波形将越近似于方波。在多种实施例中,可以以与描述三个奇次谐波的方式相类似的方式,来构建具有不同谐波的其它正弦和表。备选地,可以使用正弦波周期的一些部分而非完整的周期来构建正弦和表714。
由于失真控制模块740将来自输入信号702的采样映射到正弦和表714中,表714 中的谐波频率可以依赖于表查找速率,表查找速率继而可以依赖于输入信号的频率。在特定实施例中,这种频率依赖性使得失真控制模块740以与输入信号702的频率相同速率或者以接近该速率的速率执行表查找操作。
作为说明,对于具有给定频率的简单正弦波输入信号702,失真控制模块740可以以相同频率执行映射操作。得到的谐波可以具有取决于正弦波频率的特定频率。因此,使正弦波的频率加倍可以使得谐波频率加倍。对于包括多个叠加频率的输入信号702,由失真控制模块740执行的映射可能导致谐波叠加。
图8至15示出了失真和正弦波和的示例。作为参考,图8示出了正弦波802的示例时域曲线800。示出了在没有限幅的情况下正弦波802的峰值804。正弦波802的峰值电平804处于Odb处,在一些实施例中,峰值电平804可以是峰值可能数字电平。图9示出了示例曲线900,该示例曲线900示出了图8的正弦波802的频谱902。因为图9是正弦曲线,所以代表了一个频率。
在特定实施例中,使正弦波802的幅度增大到超出峰值电平可能导致硬限幅。图 10的曲线1000中示出了正弦曲线1002的硬限幅。限幅后的正弦曲线1002包括在峰值电平处饱和的限幅部分1004。在图11中示出的频域图示1102中,可以看见限幅后的正弦波 1002的谐波1104的示例。如所示,谐波1104可以扩展为与采样频率一样高(在所示示例图中大约22kHz)。谐波1106的特定部分还是混淆的,从而造成进一步的失真。
为了避免硬限幅的完全失真,同时仍然允许增大音量,如上所述,失真控制模块 740可以使用较低频谐波的复合波。图12示出了这种波的一组谐波的示例,其包括复合波的示例频率响应曲线1200,可以响应于400Hz的输入正弦波而产生所述复合波。与图11的全限幅情况相比,曲线1200中的频谱包括较少的谐波1202。在所描述的实施例中,已经产生了五次谐波1202。与图11的高频谐波1104相比,最高次谐波1202处于较低频率下。在该实施例中不存在混淆谐波1106。
所示示例实施例包括大约400Hz、1200Hz、2000Hz、^OOHz和3600Hz的谐波。这些谐波1202是奇次谐波1202,其包括一次谐波1204、三次谐波1206、五次谐波1208、七次谐波1210和九次谐波1212。一次谐波1204具有约OdB的幅度,在特定实施例中,OdB的幅度是最大可能数字幅度。相继的谐波1202的幅度随着频率的增大而变小。在实施例中,谐波 1202的幅度单调递减。在其它实施例中,这些幅度可以改变。
由较低频率谐波提供的控制失真的结果可以是圆润且更自然的声音波形,该声音波形具有较高的信号能量或者较高的平均信号能量。图13示出了波1302的示例时域曲线 1300,该示例时域曲线1300示出了映射至图12的谐波1204上的正弦波。所示示例波1302 具有部分限幅部分1306和部分圆润部分1308。波1302与硬限幅波1002之间的比较结果, 示出了波1302比硬限幅波1002更圆润。此外,波1302的部分1304是线性的或者近似线性的。弯曲部分1308从限幅部分1306在大约-3dB处开始弯曲。
图14示出了示例曲线1400,该示例曲线1400描绘了正弦和映射函数1410的实施例。可以通过绘制正弦和表(例如上述表714)中的值来绘制所示正弦和映射函数1410。 正弦和映射函数1410包括四分之一周期的正弦和波。为了最佳化,可以使用正弦和波的四分之一周期来替代完整波,这将在下文进行描述。
在χ轴上绘出了输入信号值,其包括范围在0至1之间的正幅度值。类似地,在y 轴上绘出了输出信号值,也包括范围在0至1之间的幅度值。将在下文描述负幅度值。当失真控制模块140或740将输入采样映射到输出采样时,在特定实施例中,将输入采样映射到映射函数1410上的点。与输入采样相比,映射后的输出采样可以具有更大或更小的值, 这取决于输入采样被映射到了何位置。
为了清楚起见,示出正弦和映射函数1410作为连续函数。然而,当在数字系统中实现时,映射函数1410可以是离散的。此外,如上所述,不可能为所有的输入信号值定义映射函数1410。因此,例如,失真控制模块140或740可以在映射函数1410上的两个最近点之间对输出信号值进行内插。
作为参考,示出了虚线1420,其与线y = x相对应。如果根据虚线1420映射输入采样,则输出采样可以与输入采样相同。映射函数1410包括线性或近似线性的映射区域 1412以及非线性或近似非线性的映射区域1414。随着落在线性映射区域1412中的输入采样值增大,线性映射区域1412中的相应输出采样也线性地或实质上线性地增大。落在非线性区域1414中的某些输入采样值非线性地或实质上非线性地增大,具有变化的增大级别。
映射函数1410的大多数值大于虚线1420的值,使得大多数输入采样可以被映射到更大的值。然而,在非线性映射区域1414的区域1416中,映射函数1410的值小于或者等于虚线1420的值。在该区域1416,输入采样被映射到了更小的值。因此,例如,可以减小硬限幅采样的值(例如,具有1. 0或近似1. 0的值)。
如上所述,映射函数1410包括正弦和波的四分之一,而非完整的波。使用四分之一的波(或者甚至是二分之一波)可以使得能够减小正弦和表714的大小,从而节约存储器。对于负输入信号值,(例如,在范围[_1,0]之间等),失真控制模块140、740可以反转 χ轴上的映射函数1410,并且颠倒y轴上的映射函数1410。此后,失真控制模块140、740可以将映射函数1410应用到输入采样上。备选地,可以反转负值,并将其归一化到范围
。然后,可以应用映射函数1410,并且可以将得到的输出采样求反,以恢复到负值。
在备选实施例中,例如,根据用于产生正弦和表714的谐波的数目,所示函数1410 可以看起来不同。例如,线性映射区域1412可以具有更大或更小的斜率。非线性映射区域 1414可以是不同的形状;例如,可以具有更少的峰值。同样地,区域1416可以在幅度上更小或更大。
在特定实施例中,χ轴和/或y轴的范围可以不同于上述范围W,l]。将Χ轴的范围缩减到
可以增大至少一部分输入信号的放大率,其中a小于1。反之,将χ轴范围增大到
可以减小至少一部分输入信号的放大率,其中b大于1。有益地,在一些实施例中,使用大于1的b值可以减少限幅。类似地,可以将y轴改变为
,其中c小于或大于1。
图15示出了在施加失真控制之前的音频信号1512的示例时域图示的曲线1500。 此外,图15示出了施加了失真控制之后相同音频信号1514的示例时域图示。使用失真控制的示例实现将近似6dB的附加增益引入到了该波形中。
失真控制可以用于其它应用中,例如,失真控制可以用于增大低音音量,而减小失真。失真控制还可以被用于频率展开应用中。此外,例如,失真控制还可以用于通过选择多种谐波创建期望的乐器音质,来合成乐器声音或其它声音。
VII.结论
根据实施例,这里描述的任何算法的特定动作、事件或功能可以以不同顺序来执行,可以添加、合并或一起省去(例如,不是所有所描述的动作或事件对于算法的实行是必需的)。此外,在特定实施例中,例如可以通过多线程处理、中断处理或多处理器或处理器核来同时执行动作或事件,而非顺序执行。
结合这里所公开的实施例描述的各个示意逻辑块、模块和算法步骤可以实现为电子硬件、计算机软件或二者的组合。为了清楚示意硬件和软件的可互换性,上述通常在它们的功能方面描述了各个示意组件、块、模块和步骤。将这种功能实现为硬件或软件取决于特定应用并设计施加于总体系统的约束。针对每个特定应用,可以以变化的方式来实现所描述的功能,但是这种实现方式的决定不应当解释为导致对本公开范围的背离。
可以利用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、离散门或晶体管逻辑、离散硬件组件、或其任何组合(被设计为执行这里描述功能),来实现或执行结合这里公开的实施例而描述的各个示意逻辑块和模块。通用处理器可以是微处理器,但可选地,该处理器可以是处理器、控制器、 微控制器或状态机及其组合等。处理器还可以实现为计算设备的组合(例如,DSP和微处理器的组合)、多个微处理器、与DSP内核结合的一个或多个微处理器、或任何其他的这种配置。
结合这里公开的实施例描述的方法或算法的步骤可以直接以硬件、由处理器执行的软件模块或二者的组合的形式来实现。软件模块可以驻留在RAM存储器、闪存存储器、 ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可拆卸盘、CD-ROM或本领域已知的任何其他形式的存储介质中。示例性存储介质可以耦合至处理器,使得处理器可以从存储介质读取信息,并向存储介质写入信息。可选地,存储介质可以与处理器集成。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。可选地,处理器和存储介质可以作为分立组件驻留在用户终端中。
除非另有声明否则将在所使用的上下文理解,这里使用的诸如“可以”、“例如”等之类的条件性语言通常倾向于覆盖特定的实施例包括而其他实施例不包括的特定特征、元素和/或状态。因此,这种条件性语言通常不倾向于暗示对于一个或多个实施例按照任意方式要求所述特征、元素和/或状态,或者一个或多个实施例需要包括利用作者的输入或提示包括来决定是否在任意具体的实施例中要包括或执行这些特征、元素和/或状态的逻辑。
尽管上述详细描述已示出、描述并指出了应用于各个实施例的新颖特征,但将理解,在不背离本公开的精神的前提下,可以对所示设备或算法的形式和细节进行各种省略、 替换和改变。将认识到,由于一些特征可以与其他特征分离地使用或实现,因此这里描述的本发明的特定实施例可以以不能提供这里所述的所有特征和优点的形式来实现。这里公开的本发明的范围由所附权利要求而不是由上述描述来指示。在权利要求的等同意义和范围内的所有改变应包括在其范围内。
权利要求
1.一种用于自动调整施加至音频信号的话音可懂度增强的系统,所述系统包括增强模块,被配置为接收包括共振峰的输入话音信号,以及对输入话音信号施加音频增强,以提供增强话音信号,所述音频增强被配置为加强输入话音信号中的一个或多个共振峰;增强控制器,包括一个或多个处理器,所述增强控制器被配置为至少部分地基于检测到的环境噪声的量来调整由所述增强模块施加的音频增强的量;输出增益控制器被配置为至少部分地基于环境噪声的量和输入话音信号,来调整增强话音信号的总增益,以及向增强话音信号施加所述总增益,以产生放大话音信号;以及失真控制模块,被配置为通过至少将放大话音信号的一个或多个采样映射到在正弦和表中存储的一个或多个值来减小放大话音信号中的限幅,其中所述正弦和表是根据较低次正弦谐波之和来产生。
2.如权利要求1所述的系统,其中,所述增强模块还操作于通过对输入话音信号的频率子带施加增益来加强所述一个或多个共振峰。
3.—种调整话音可懂度增强的方法,所述方法包括接收话音信号以及包括近端环境含量的输入信号;利用一个或多个处理器计算输入信号中的近端环境含量;利用所述一个或多个处理器,至少部分地基于近端环境含量来调整话音增强的级别;以及对所述话音信号施加所述话音增强,以产生增强话音信号,所述话音增强被配置为加强所述话音信号的一个或多个共振峰。
4.如权利要求3所述的方法,其中所述计算包括获得所述近端环境含量的幅度,以及平滑所述近端环境含量的幅度。
5.如权利要求3所述的方法,其中所述利用一个或多个处理器调整话音增强的级别包括当所述近端环境含量在阈值之上时,跟随近端环境含量。
6.如权利要求5所述的方法,其中至少部分地基于用户可调整噪声灵敏度级别来确定阈值。
7.如权利要求3所述的方法,还包括至少部分地基于近端环境含量和话音信号中的能量总量,调整增强话音信号的总增益。
8.如权利要求7所述的方法,其中所述调整总增益包括计算与近端环境含量成比例的增益级别。
9.如权利要求3所述的方法,还包括将增强话音信号的一个或多个采样映射到正弦和表中存储的一个或多个值,以减小增强话音信号中的限幅。
10.一种用于自动调整施加至音频信号的话音可懂度增强的系统,所述系统包括增强模块,被配置为接收包括共振峰的输入话音信号,并且对输入话音信号施加音频增强,以提供增强话音信号,所述音频增强被配置为加强输入话音信号中的一个或多个共振峰;增强控制器,包括一个或多个处理器,所述增强控制器被配置为至少部分地基于检测到的环境噪声的量来调整由增强模块施加的音频增强的量;以及输出增益控制器被配置为至少部分地基于环境噪声的量和输入话音信号来调整增强话音信号的总增益,以及向所述增强话音信号施加所述总增益,以产生放大话音信号。
11.如权利要求10所述的系统,其中,增强控制器还被配置为至少部分地基于环境噪声的量与阈值的比值来调整所施加的环境增强的量。
12.如权利要求10所述的系统,其中,增强模块还操作用于通过对输入话音信号的频率子带施加增益来加强一个或多个共振峰。
13.如权利要求12所述的系统,其中,增强控制器还被配置为通过至少对输入话音信号的频率子带施加附加增益来调整所施加的音频增强的量。
14.如权利要求10所述的系统,其中,输出增益控制器还被配置为通过提供与环境噪声的量成比例的增益级别来调整总增益。
15.如权利要求10所述的系统,其中,输出增益控制器被配置为响应于阈值之下的话音信号的能量,来调整总增益。
16.如权利要求10所述的系统,还包括失真控制模块,用于减少放大话音信号中的限幅。
17.—种处理器可读存储介质,其上存储有使得一个或多个处理器执行调整话音可懂度增强的方法的指令,所述方法包括接收来自远程电话的话音信号和来自麦克风的噪声信号; 计算噪声信号的值;至少部分地基于噪声信号的值,调整施加至话音信号的共振峰的增益;以及对话音信号的共振峰施加增益。
18.如权利要求17所述的处理器可读存储介质,还包括至少部分地基于话音信号的能量总量来调整话音信号的总增益。
19.如权利要求18所述的处理器可读存储介质,其中,响应于阈值以下的话音信号的能量,来调整总增益。
20.一种用于调整话音可懂度增强的噪声阈值的系统,所述系统包括话音增强模块,被配置为利用接收设备接收来自远程设备的输入话音信号,并且对输入话音信号施加音频增强,以加强输入话音信号中的一个或多个共振峰;话音增强控制器,包括一个或多个处理器,所述话音增强控制器被配置为至少部分地基于第一噪声阈值以上的检测到的环境噪声的量,来调整由所述增强模块施加的音频增强的量;以及噪声灵敏度控制器,被配置为调整所述第一噪声阈值,所述噪声灵敏度控制器包括 第一相关器,被配置为根据从接收设备的麦克风接收的麦克风输入信号来计算第一自相关值;第一方差模块,操作用于计算所述第一自相关值的第一方差; 第二相关器,被配置为根据扬声器输入信号计算第二自相关值,其中所述扬声器输入信号包括话音增强模块的输出信号;第二方差模块,操作用于计算所述第二自相关值的第二方差;以及噪声灵敏度调节器,被配置为使用第一和第二自相关值和第一和第二方差值中的一个或多个来调整第一噪声阈值,以产生第二噪声阈值,其中,话音增强控制器被配置为至少部分地基于第二噪声阈值以上的检测到的环境噪声的第二量,来调整施加至第二输入音频信号的音频增强的量。
21.如权利要求20所述的系统,其中,所述噪声灵敏度调节器还被配置为响应于预定量以上的第一方差,来产生小于第一噪声阈值的第二噪声阈值。
22.如权利要求21所述的系统,其中,所述噪声灵敏度调节器还被配置为至少部分地基于第一自相关值中的一个或多个,来减小第二噪声阈值。
23.如权利要求21所述的系统,其中,所述噪声灵敏度调节器还被配置为针对较大的第一自相关值,提供对第二噪声阈值的更大减小。
24.如权利要求23所述的系统,其中,所述噪声灵敏度调节器还被配置为至少部分地基于所述第二自相关值中的一个或多个,减小所述第二噪声阈值。
25.如权利要求21所述的系统,其中,所述噪声灵敏度调节器还被配置为对于较小的第二自相关值,提供对第二噪声阈值的更大减小。
26.如权利要求20所述的系统,其中,所述噪声灵敏度调节器还被配置为响应于小于预定量的第二方差,来产生小于所述第一噪声阈值的第二噪声阈值。
27.一种用于调整话音可懂度增强的灵敏度的系统,所述系统包括话音增强模块,被配置为利用接收设备来接收接收设备从远程设备处接收到的输入话音信号,并且向输入话音信号施加音频增强,以加强输入话音信号中的一个或多个共振峰;增强控制器,被配置为至少部分地基于输入话音信号中存在的环境噪声的量来调整由话音增强模块施加的音频增强的量;以及噪声灵敏度控制器,包括一个或多个处理器,被配置为至少部分地基于从接收设备的麦克风获得的麦克风输入信号和作为话音增强模块的输出信号提供的扬声器输入信号中的至少一个信号或者两者的统计分析,来调整增强控制器对环境噪声的灵敏度。
28.如权利要求27所述的系统,其中,所述噪声灵敏度控制器包括相关器,被配置为计算麦克风输入信号和扬声器输入信号中的一个或者两个的自相关。
29.如权利要求观所述的系统,其中,所述噪声灵敏度控制器还包括方差模块,被配置为估计自相关的方差。
30.如权利要求观所述的系统,其中,所述噪声灵敏度控制器还包括灵敏度调节器, 被配置为至少部分地基于计算的自相关,来调整增强控制器对环境噪声的灵敏度。
31.如权利要求观所述的系统,其中,所述噪声灵敏度控制器还包括灵敏度调节器, 被配置为至少部分地基于估计的方差,来调整增强控制器对环境噪声的灵敏度。
32.一种用于调整话音增强的灵敏度的方法,所述方法包括接收输入音频信号;检测输入音频信号中的相关含量,所述检测包括使用一个或多个处理器来计算输入视频信号的统计分析;以及响应于所述检测,调整施加至输入音频信号的增强级别。
33.如权利要求32所述的方法,其中,所述计算输入音频信号的统计信息包括计算输入音频信号的自相关。
34.如权利要求33所述的方法,其中,所述检测还包括计算自相关的方差。
35.如权利要求32所述的方法,其中,所述调整包括增大施加至输入音频信号的增强级别。
36.如权利要求32所述的方法,其中,所述增强包括对话增强。
37.如权利要求32所述的系统,其中,所述统计分析包括声学回声消除。
38.一种音频信号处理方法,所述方法包括接收麦克风输入信号;检测麦克风输入信号中的实质上周期性含量;利用一个或多个处理器,至少部分地基于在麦克风输入信号中检测到的实质上周期性含量来调整音频增强;所述音频增强被配置为至少部分地基于麦克风输入信号的级别来选择性地增强音频输出信号;以及向扬声器提供所述音频输出信号。
39.如权利要求38所述的方法,其中,所述实质上周期性含量包括来自扬声器的回声。
40.如权利要求38所述的方法,其中,所述实质上周期性含量包括来自通信设备的收听者的话音,所述通信设备被配置为实现所述音频信号处理方法。
41.如权利要求38所述的方法,其中,所述麦克风输入信号包括近端环境含量。
42.如权利要求38所述的方法,其中,所述检测实质上周期性含量包括使用一种或多种统计技术来检测所述实质上周期性含量。
43.如权利要求38所述的方法,其中,所述调整包括调整音频增强对麦克风输入信号的级别的灵敏度。
44.如权利要求38所述的方法,其中,所述调整包括关断所述音频增强。
45.如权利要求38所述的方法,其中,所述音频增强包括话音可懂度增强。
46.如权利要求38所述的方法,其中,在通信设备中实现所述音频信号处理方法。
全文摘要
自适应音频系统可以在通信设备中实现。自适应音频系统可以增强由通信设备接收的音频信号中的话音,以提高话音的可懂度。音频系统可以至少部分地基于由通信设备接收的环境含量(例如,噪声)的级别来调整音频增强。例如,对于更高的环境含量级别,该音频系统可以更强地施加音频增强。此外,该自适应音频系统可以检测环境含量中的实质上周期性含量。自适应音频系统还可以响应于环境含量来调整音频增强。
文档编号G06F15/16GK102498482SQ200980161425
公开日2012年6月13日 申请日期2009年9月14日 优先权日2009年9月14日
发明者何星, 杨钧, 理查德·J·奥利弗, 詹姆斯·特雷西 申请人:Srs实验室有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1