音频信号处理的制作方法

文档序号:10579086阅读:348来源:国知局
音频信号处理的制作方法
【专利摘要】所公开的是一种音频信号处理过程,其包括用于接收具有噪声的音频信号的输入端、可变增益组件、以及噪声抑制组件。具有噪声的音频信号具有期望的音频成分以及噪声成分。可变增益组件和噪声抑制组件分别被配置为将增益过程和噪声抑制过程施加至音频信号,从而生成增益经调整、噪声经降低的音频信号。响应于所施加的增益的改变,噪声抑制过程的激进度快速改变。该改变是从当前值改变了与所施加的增益中的改变大体上相匹配的量而达到新的值的改变。激进度接着逐渐地返回至当前值。
【专利说明】音频信号处理
【背景技术】
[0001] 音频信号处理是指对音频信号的有意改变以达到期望的效果。这可以发生在模拟 域中、数字域中、或两者的组合中,并且可以例如由运行音频处理代码的通用处理器、专用 处理器(例如,具有适应这样的处理的架构的数字信号处理器)、或者专用音频信号处理硬 件来实现。例如,作为语音通话或视频通话的一部分,可以在通过通信网络来传输由用户设 备的麦克风所捕获的音频之前或之后对该音频进行处理。
[0002] 音频信号可以由音频处理链来处理,所述音频处理链包括串联连接的多个音频信 号处理组件(硬件和/或软件);即,所述链的每个组件由此将特定类型的音频信号处理(例 如,增益、动态范围压缩、回音消除等)施加至输入信号,并且将经处理的信号提供至链中的 下一个组件以供进一步处理,而不是施加至第一个组件和最后一个组件,这些组件分别接 收初始模拟信号(例如,如从麦克风等中所捕获的大体上未经处理的或"原始的"音频信号) 作为输入以及提供链的最终输出(例如,用于提供至扬声器以供播出或者提供至通信网络 以供传输)。因此,由链中的一个组件进行的处理中的变化可以产生该链中的随后的组件的 输出中的变化。
[0003] 可以在这样的链中使用的一种类型的音频处理组件是噪声抑制组件。音频信号可 以包括期望的音频成分和不期望的噪声成分;噪声抑制组件目的是抑制不期望的噪声成 分,同时保留期望的音频成分。例如,由用户设备的麦克风所捕获的音频信号可以捕获房间 中的用户的话音,该话音在该实例中构成期望的成分。然而,其也可以捕获源自例如制冷风 扇、环境系统、背景音乐等的不期望的背景噪声;其也可以捕获源自用户设备的扬声器的不 期望的信号(例如,在使用通信客户端应用执行的与另一个用户的通话期间经由通信网络 从另一个用户设备中所接收的信号,或者由在用户设备上执行的其它应用(例如,媒体应 用)所输出的不期望的信号),这些各种不期望的信号全都可以参与构成音频信号的不期望 的噪声成分。

【发明内容】

[0004] 所公开的是音频信号处理设备,其包括用于接收具有噪声的音频信号的输入端、 可变增益组件、以及噪声抑制组件。具有噪声的音频信号具有期望的音频成分以及噪声成 分。可变增益组件和噪声抑制组件分别被配置为将增益和噪声抑制过程施加至音频信号, 从而生成增益经调整、噪声经降低的音频信号。响应于所施加的增益的改变,噪声抑制过程 的激进度迅速改变。该改变是从当前值改变了与所施加的增益的改变大体上相匹配的量而 达到新的值的改变。激进度接着逐渐地返回至当前值。
[0005] 还公开了等同的方法以及被配置为实现该方法的计算机程序产品。
[0006] 提供了该
【发明内容】
以用简化的形式引入了在下文的【具体实施方式】中进一步描述 的概念的选择。该
【发明内容】
不旨在标识所要求保护的主题的关键特征或本质特征,也不旨 在用于限制所要求保护的主题的范围。所要求保护的主题不限于解决了在【背景技术】部分中 所指出的缺点中的任何一个或全部的实现。
【附图说明】
[0007] 为了更好地理解本主题并且示出如何实行本主题,现在将作为示例对附图进行参 考,其中:
[0008] 图1是通信系统的示意图;
[0009] 图2是用户设备的框图;
[0010] 图3是音频信号处理技术的功能框图;
[0011] 图4是噪声抑制技术的功能框图;
[0012] 图5是音频信号处理方法的示意流程图;
[0013] 图6A是时变的所施加的增益和时变的噪声抑制最小增益的示意图。
[0014] 图6B是时变的所施加的增益和时变的噪声抑制最小增益在音频帧等级的示意图。
[0015] 图6C是时变的所施加的增益和时变的噪声抑制最小增益的另一个示意图。
[0016] 图7是重叠的音频帧的示意图。
【具体实施方式】
[0017] 本公开考虑了这样的情况,其中可变增益组件和噪声抑制(噪声降低)组件串联连 接,并且分别被配置为接收和处理具有噪声的音频信号(例如,麦克风信号),该信号具有期 望的音频成分(例如,话音信号)以及噪声成分(例如,背景噪声)。可变增益组件被配置为将 可以改变的增益施加至其输入端。可变增益组件可以例如是被配置为自动调整所施加的增 益以便维持期望的平均信号水平(自动增益控制是在本领域中公知的)的自动增益组件,或 者是被配置为响应于合适的用户输入而调整所施加的增益的手动增益组件。噪声抑制组件 被配置为将噪声抑制过程施加至其输入端,以便例如通过应用频谱减法技术来抑制音频信 号中的噪声成分,利用该频谱减法技术,在话音不活动期间对噪声成分进行估计,并且使用 该噪声成分估计来从具有噪声的音频信号中估计噪声经降低的信号(频谱减法是在本领域 中公知的)。噪声抑制组件和可变增益组件构成了被配置为生成对期望的音频成分的增益 经调整的估计的信号处理链。
[0018] 为了改善感知质量,可以配置噪声抑制过程以使得噪声成分的水平相对于原来的 噪声信号得到衰减,但有意没有全部移除(即使对噪声成分的估计接近完美)。即,使得在噪 声经降低的信号估计中总是保持有噪声成分(尽管相对于有噪声的音频信号而言处于降低 的水平),从而有意不输出"完全"干净的信号。
[0019] 尽管这对改善感知质量没有影响,但是无意的结果是:由可变增益组件所施加的 增益的改变引起了噪声经降低的信号估计中剩余的噪声成分的水平中的显著改变;这对用 户而言可能是令人不悦的。
[0020] 根据本主题,噪声抑制组件被配置为以使得改变对用户较透明(较不显著)的方式 来对由可变增益组件所施加的增益的中的改变做出响应。在一定程度上,所公开的主题关 于对期望的音频成分以及噪声成分的等级的改变进行"去耦合",从而使得一个增益适应速 度用于改变期望的信号水平,而另一个用于改变噪声水平。在描述特定的实施例之前,将描 述可以有用地应用该主题的上下文。
[0021] 图1示出了通信系统100,其包括与第一用户设备104相关联的第一用户102("用户 A")以及与第二用户设备110相关联的第二用户108( "用户B")。在其它实施例中,通信系统 100可以包括任何数量的用户以及相关联的用户设备。用户设备104和110可以通过通信系 统100中的网络106进行通信,从而允许用户102和108通过网络106彼此进行通信。图1中所 示出的通信系统100是基于分组的通信系统,但也可以使用其它类型的通信系统。网络106 可以是例如互联网。用户设备104和用户设备110中的每个都可以是例如:移动电话、平板计 算机、膝上型计算机、个人计算机("PC")(包括例如Window?、Mac OS?、以及Linux? PC)、游 戏设备、电视机、个人数字助理("TOA")、或者能够连接至网络106的其它嵌入式设备。用户 设备104被设置为从用户设备110的用户108处接收信息或者将信息输出至用户设备110的 用户108。用户设备104包括诸如显示器和扬声器之类的输出单元。用户设备104还包括诸如 小键盘、触摸屏、用于接收音频信号的麦克风、和/或用于捕获视频信号的图像的相机之类 的输入单元。用户设备104被连接至网络106。
[0022]用户设备104执行由与通信系统100相关联的软件提供商所提供的通信客户端的 实例。通信客户端是在用户设备104中的本地处理器上执行的软件程序。客户端执行在用户 设备104处要求的处理,以便使用户设备104能通过通信系统100来发送或接收数据。
[0023]用户设备110对应于用户设备104,并且在本地处理器上执行通信客户端,该通信 客户端对应于在用户设备104处执行的通信客户端。用户设备110处的客户端执行所要求的 处理以允许用户108通过网络106进行通信,与用户设备104处的客户端执行所要求的处理 以允许用户102通过网络106进行通信的方式相同。用户设备104和110是通信系统100中的 终端点。
[0024]为了清楚起见,图1示出了仅仅两个用户(102和108)和两个用户设备(104和110), 但是在通信系统100中可以包括更多个用户和用户设备,并且可以使用在相应的用户设备 上执行的相应的通信客户端来通过通信系统100进行通信。
[0025]通过网络106来传输由第一用户设备104的麦克风所捕获的音频信号,以用于由第 二用户设备110来播出,例如作为在分别使用第一用户设备104和第二用户设备110的第一 用户102与第二用户108之间进行的音频或视频通话的一部分。
[0026]图2示出了用户设备104的详细的视图,通信客户端的实例206在该用户设备104上 执行以用于通过通信系统100进行通信。用户设备104包括中央处理单元("CPU")或者"处理 模块"202,其上连接有:输出设备,例如可以被实现为触摸屏的显示器208,以及用于输出音 频信号的扬声器(或者"扩音器")210;输入设备,例如用于接收模拟音频信号的麦克风212、 用于接收图像数据的相机216、以及小键盘218;用于存储数据的存储器214;以及用于与网 络106进行通信的网络接口 220(例如,调制解调器)。用户设备104可以包括除了在图2中所 示出的那些之外的其它元件。可以如在图2中所示出的那样,将显示器208、扬声器210、麦克 风212、存储器214、相机216、小键盘218、以及网络接口 220集成到用户设备104中。在可替代 的用户设备中,显示器208、扬声器210、麦克风212、存储器214、相机216、小键盘218、以及网 络接口220中的一个或多个可以不集成到用户设备104中,并且可以经由相应的接口连接至 CPU 202。这样的接口的一个示例是USB接口。如果用户设备104经由网络接口 220到网络106 的连接是无线连接,则网络接口 220可以包括用于将信号无线地发送至网络106并且从网络 106中无线地接收信号的天线。
[0027]图2还示出了在CPU 202上执行的操作系统("0S")204。在OS 204之上运行的是通 信系统100的客户端实例206的软件。操作系统204管理计算机的硬件资源并且对经由网络 接口 220传输至网络106以及从网络106中传输的数据进行处理。客户端206与操作系统204 进行通信并且管理通过通信系统的连接。客户端206具有客户端用户接口,其用于向用户 102呈现信息并且从用户102处接收信息。通过该方式,客户端206执行所要求的处理以允许 用户102通过通信系统100进行通信。
[0028]现在参考图3、图4和图5,其中描述了一种音频信号处理方法。图3是用户设备104 的一部分的功能图。
[0029]如在图3中所示的,第一用户设备104包括麦克风212、以及音频信号处理系统300。 系统300表示通过在设备104的CPU 202上执行通信客户端应用206而实现的音频信号处理 功能。
[0030] 系统300包括噪声抑制组件312和可变增益组件302。可变增益组件302具有连接至 噪声降低组件312的输出端的第一输入端、连接以接收增益因子G var(k)的第二输入端、以及 连接以提供经处理的音频信号以供进一步处理的输出端,该进一步处理包括在通过网络 106传输至第二用户设备108(例如,作为语音或视频通话的一部分)之前在第一用户设备 104处进行分组。噪声抑制组件312具有连接以从麦克风212接收具有期望的音频成分s(t) 和噪声成分n(t)的麦克风信号y(t)的第一输入端,以及连接以接收增益因子G var(k)的第二 输入端。噪声降低组件312和可变增益组件302因此串联连接并构成信号处理链,噪声降低 组件的第一输入端是该链的输入端而可变增益组件的输出端是该链的输出端。
[0031] 为了方便起见,麦克风212被示出为将麦克风信号直接提供至信号处理链。应当理 解的是,麦克风可以实际上经由其它信号处理组件(例如,模拟到数字转换器组件)来提供 麦克风信号y(t)。
[0032] 可变增益组件302将由增益因子Gvar(k)所定义的量的增益施加至其第一输入信 号,以生成增益经调整的信号。噪声抑制组件将噪声抑制过程施加至其第一输入信号,以生 成对其期望的音频成分的估计。这在下文中详细进行描述。
[0033] 图4是更加详细地示出了噪声抑制组件312的功能图。噪声抑制组件包括噪声经降 低的信号计算组件402、噪声抑制最小增益因子计算组件404、噪声抑制增益因子计算组件 406、(离散)傅里叶变换组件408、以及(离散)傅里叶逆变换组件410。傅里叶变换组件408具 有连接以接收麦克风信号y(t)的输入端。噪声经降低的信号计算组件具有连接至傅里叶变 换组件408的输出端的第一输入端、以及连接至噪声抑制增益因子计算组件406的输出端的 第二输入端。傅里叶逆变换组件具有连接至噪声经降低的信号计算组件410的输出端的输 入端、以及连接至信号处理系统300的可变增益组件302的输出端。
[0034]噪声抑制最小增益因子计算组件404具有连接以接收增益因子Gvar(k)的输入端、 以及连接至噪声抑制增益因素计算组件406的第一输入端的输出端。噪声抑制增益因素计 算组件406还具有连接以接收噪声信号功率估计I Nest(k,f) 12的第二输入端、以及连接至傅 里叶变换组件408的输出端的第三输入端。
[0035]音频信号处理是由系统300逐帧执行的,每帧k、k+l、k+2……的长度在例如5ms到 20ms之间。可变增益组件302和噪声抑制组件312每个都接收相应的输入音频信号作为多个 输入序列音频帧,并且提供相应的输出信号作为多个输出序列音频帧。
[0036]傅里叶变换组件408对每个音频帧k执行离散傅里叶变换操作以计算针对该帧的 频谱Y(k,f)。频谱Y(k,f)可以被认为是麦克风信号y(t)的帧k在频域中的表示。频谱Y(k,f) 是以一组频谱仓(spectral bin)为形式的,例如,每帧64个仓到每帧256个仓之间,其中每 个仓包含关于某一频率(在某一频段中)的信号成分的信息。为了处理带宽信号,可以对例 如从O到SkHz的频率范围进行处理,将其分成例如64或32个频段。所述频段可以或可以不具 有相等的宽度,即这些频段可以例如根据Bark尺度进行调整以更好地反映人类听力的重要 频段。
[0037]噪声抑制最小增益因子计算组件404逐帧k来计算被提供至噪声降低增益因子计 算组件406的噪声抑制最小增益因子Gmin(k)。噪声降低增益因子计算组件406逐帧k来计算 被提供至噪声经降低的信号计算组件402的噪声抑制增益因子G limited(k,f)。噪声经降低的 信号计算组件402计算被提供至可变增益组件302的频域的噪声经降低的信号估计Y nr(k, f)。针对帧k的噪声经降低的信号估计Ynr(k,f)是通过将针对该帧的频谱Y(k,f)调整由噪声 抑制增益因子G limited(k,f)所指定的量来计算的;即,通过跨频谱Y(k,f)而施加依赖频率的 增益Glimited(k,f),从而相对于对期望的音频成分s(t)的频谱的影响而降低噪声成分n(t) 对麦克风信号y(t)的频谱的影响。
[0038]傅里叶逆变换组件对频域的噪声经降低的信号估计Ynr(k,f)执行离散傅里叶逆变 换操作(该操作是由傅里叶变换组件408所执行的傅里叶变换的逆操作)以计算时域的噪声 经降低的信号估计ynr(t)。噪声成分n(t)仍然(有意地)存在于噪声经降低的信号y nr(t)中, 但是处于低于在具有噪声的麦克风信号y(t)中的水平。噪声经降低的信号估计由噪声抑制 组件提供以作为多个序列纯净信号估计的音频帧。傅里叶变换操作和傅里叶逆变换操作可 以在实际中被实现为快速傅里叶变换操作。
[0039]将在下文中更加详细地描述这些噪声抑制组件的功能和交互。
[0040]可变增益组件302执行对噪声经降低的信号ynr(t)的增益调整,以针对每一帧k而 通过将由可变增益因子Gvar(k)所定义的量的增益施加至时域的噪声经降低的信号估计ynr (t)的该帧k来生成增益经调整的音频信号。增益经调整的音频信号由可变增益组件提供作 为多个序列的增益经调整的信号的音频帧。可替代地,可以在系统300中将傅里叶逆变换设 置在可变增益组件302之后,以使得增益调整是在频域中被执行的而不是在时域中被执行 的。
[0041 ]在实施例中,增益因子Gvar (k)可以在帧间变化,并且还可以在帧内变化(按逐个采 样变化)。例如,Gvar(k)可以通过平滑逼近修正值而在帧内变化。
[0042] 可替代地,可变增益组件302和噪声降低组件312的位置可以相对于如在图3和图4 中所描绘的它们的布置相反,以使得可变增益组件302和噪声抑制组件312仍然串联连接, 但同时可变增益组件的第一输入端连接以接收麦克风信号y(t),而噪声抑制组件312的第 一输入端连接至可变增益组件302的输出端。即,可以反置组件302、312在信号处理链中的 位置。在该情况下,可变增益组件将增益施加至麦克风信号y(t)以生成增益经调整的信号, 并且噪声抑制组件将噪声抑制过程施加至增益经调整的信号以生成对其期望的音频成分 的估计。
[0043] 信号处理链还可以包括连接在噪声降低组件312和可变增益组件302之前、之后、 和/或之间的其它信号处理组件(未示出)。即,通过执行通信客户端应用206而实现的信号 处理功能可以包括比在图3中所示出的更多的信号处理功能,所述功能可以在由组件302、 组件312进行处理的之前、之后、和/或之间来实现(其中,组件302、组件312的功能以相对于 彼此的任意一种顺序来实现)。
[0044] 作为信号处理方法的一部分,噪声降低组件和可变增益组件的聚合功能用于将增 益和噪声降低过程的组合施加至噪声音频信号y(t),从而生成具有相对于具有噪声的音频 信号y(t)而言降低的噪声-信号功率比的增益经调整的、噪声经降低的音频信号。这是真实 的而与其在信号处理链中的顺序和/或布置无关(即,无关于施加增益和噪声抑制过程相对 彼此和/或相对于任何其它音频信号处理而串联施加的时间顺序,如果所述其它音频信号 处理是与增益和噪声抑制的施加串联地对音频信号执行的)。
[0045] 现在将参考图5详细地描述音频信号处理方法,其中,图5是该方法的流程图。
[0046] 该方法涉及调整噪声抑制过程的激进度以在增益增加(并且对于降低是相反的) 之后立即施加更多噪声降低,并且接着随后缓慢地回到"正常的"激进度,"正常的"激进度 是选择来优化噪声抑制过程的感知质量的激进度的水平。这里,噪声抑制过程的"激进度" 是噪声成分对整体的信号水平的影响被噪声抑制过程所降低的程度的测量,并且例如可以 被量化为通过噪声抑制过程将噪声成分的信号功率相对于期望的音频成分的信号功率所 降低的量。通常而言,"正常的"激进度将被设置以便确保总是保留一些噪声,而不是将噪声 完全移除,尽管该噪声相对于在噪声降低之前的水平而言处于降低的水平,如在上文中所 讨论的,这是出于增强感知质量的原因。
[0047] 将噪声抑制过程的激进度改变与所施加的增益中的改变大体上相匹配的量。将噪 声抑制的激进度的改变与所施加的增益的改变相匹配抵消了所施加的增益的改变否则将 对噪声经降低的信号估计中剩余的噪声成分的水平的效果(即,防止否则将由于所施加的 增益的"跳变"而产生的剩余的噪声的水平的"跳变"),使得紧接着所施加的增益的改变之 后,在噪声经降低的信号估计中剩余的噪声的水平大体上不改变,尽管所施加的增益中的 改变,其中,所施加的增益从而仅作用于如所期望的那样改变期望的音频成分,而紧接着所 施加的增益的改变之后不作用于噪声成分的水平。
[0048]仍然期望最终将激进度返回至"正常的"水平以保持最佳感知质量,这几乎必定会 引起在信号估计中剩余的噪声的水平的改变;然而,对激进度进行逐渐的改变确保该噪声 水平的改变也是逐渐的改变而不是快速的改变。因此,在噪声抑制之后的增益经调整的、噪 声经降低的信号估计中剩余的可以听到的噪声的水平比其否则将会而言的更加缓慢地变 化,从而在对增益做出用户不易察觉的调整的同时保留了对期望的音频成分的期望的调 整。
[0049]背景噪声降低(BNR)(包括但不限于,功率谱减法、以及诸如幅度谱减法之类的其 它形式的谱减法)通常施加噪声降低限制或者限制噪声降低的降低的"目标",它们可以施 加至具有噪声的音频信号以便生成噪声经降低的信号估计(即,其限制可以由噪声抑制过 程来降低的噪声成分的幅度或功率的量)。在该情况下,限制设置噪声降低的激进度,因此 可以通过调整该限制来调整激进度。通常,可以将该限制表达为最小增益或者最大衰减(当 被表达为信号与增益经调整的信号的比时,它们是彼此的乘法逆元,而当在对数尺度(例 如,dB)上被表达时,它们是彼此的加法逆元),出于降低噪声成分的功率或幅度的目的,它 们可以在任何给定的时间被施加至具有噪声的音频信号。较低的衰减(较大的增益)限制得 出较不激进的噪声抑制,而较大的衰减(较低的增益)限制得出较激进的噪声抑制。限制可 以取例如12dB的衰减(_12dB的增益)的常数值,12dB是可以施加至具有噪声的音频信号以 生成噪声经降低的信号估计的可允许的最大噪声抑制衰减(_12dB是可允许的最小噪声抑 制增益)。选择非零限制确保总是在噪声经降低的信号估计中保留一些噪声,而不是将噪声 完全移除,尽管该噪声相对于原始的具有噪声的音频信号而言处于低的水平(在上文中所 讨论的hWdB广泛地被认为是在噪声降低与话音失真之间的好的权衡,作为比较,例如, ISdB将被认为是有些太过激进了,并且将在极端的情况下导致音频话音失真。
[0050]在实施例中,该噪声降低衰减限制/目标从当前值(例如,12dB)快速增加(或降低) 了与增益已经增加(或降低)的量大致相同的量,并且接着逐渐地返回当前值(例如,12dB)。 例如,响应于所施加的增益的3dB的增加(或降低),噪声降低衰减限制可以立即改变为12dB +3dB = 15dB(或12dB-3dB = 9dB),并且接着逐渐返回至12dB。
[00511在步骤S502处,客户端206从麦克风212中接收具有噪声的音频信号y(t),该信号 具有期望的音频成分s(t)和噪声成分n(t)。具有噪声的音频信号y(t)可以被认为是噪声成 分n(t)与期望的成分s(t)的和。这里,期望的成分s(t)是由用户102发起的;噪声信号n(t) 可以包括背景噪声信号和/或如上文中所讨论的从扬声器210中所输出的不期望的音频信 号。
[0052]在步骤S504处,噪声抑制组件312将噪声抑制过程施加至音频信号y(t)。在该实施 例中,噪声抑制组件施加一种类型的功率频谱减法。频谱减法在本领域中是公知的,并且涉 及在话音非活动期间(即,当在麦克风信号y(t)中仅存在噪声成分n(t)时)估计噪声成分η (t)的功率。例如,可以在话音非活动期间(如使用已知的语音活动检测过程所检测的)来如 下递归地计算针对帧k的噪声信号功率估计IN e3st(I^f) |2,
[0053] |Nest(k,f) |2 = b*|Nest(k-l,f) |2+(l-b)*|Y(k,f) I2
[0054] 其中,b是0到1之间的合适的衰减因子。即,如帧k-1的噪声信号功率估计|Nest(k_ 14)| 2是由下一帧1^的经计算的信号功率|¥仏,〇|2(被计算为帧1^的频谱¥仏,〇的大小的平 方)来更新的。
[0055] 通过噪声降低信号计算组件402将如由噪声抑制增益因子Glimited(k,f)所定义的 增益的量施加至音频信号谱Y(k,f),而在音频信号y(t)中(部分地)抑制噪声成分n(t),如 下所示:
[0056] Ynr(k,f)|2=Glimited(k,f)2*|Y(k,f)|2
[0057] 即,噪声经降低的信号功率估计I Ynr(k,f) 12是通过将噪声抑制增益因子Glimited (k,f)的平方与具有噪声的音频信号y(t)的信号功率|Y(k,f)|2相乘而得到的(噪声抑制增 益因此被施加在大小域中)。原始的帧k的相位信息被保留并且可以用于从功率估计I Ynr(k, f)|2中获得噪声经降低的信号估计Ynr(k,f)(g卩,帧k的噪声经降低信号频谱)。时域的噪声 经降低的信号估计ynr(t)是通过傅里叶逆变换组件410对针对序列中的每一帧的频域噪声 经降低的信号估计(即,噪声经降低的信号频谱)执行傅里叶逆变换来计算的。
[0058] 非受限的噪声抑制增益因子Gunlimited(k,f)是通过噪声抑制增益因子组件406计算
的,如
[0059]
[0060] 噪声抑制增益因子Glimited ( k,f )被计算为:
[0061 ] Glimited ( k,f )= max [Gimlimited ( k,f ),Gmin( k )]
[0062] 即,被计算为非受限的噪声抑制增益因子Gunlimited(k,f)和噪声抑制最小增益因子 Gmin(k)的最大值。因此,只有在高于针对该帧k的噪声抑制最小增益因子Gmin(k)的情况下, 才将非受限的噪声抑制增益因子施加至帧k。减小针对帧k的增益G min(k)的增益下限会增大 针对该帧k的噪声抑制过程的激进度,这是由于这允许更大量的噪声信号衰减;增大增益 Gmin(k)的增益下限会降低针对该帧k的噪声降低过程的激进度,这是由于这允许更少量的 噪声信号衰减。
[0063] 在没有其它考虑的情况下,例如-12dB的下限可以是好的以便改善感知的质量,并 且由于该原因,在已知的频谱减法技术中下限通常固定在该值附近。相反,这里,下限G min (k)可以逐帧地变化(并且,在实施例中,在给定的帧内变化,见下文)(即,噪声抑制过程的 激进度可以逐帧地变化(或者在给定的帧内变化))如所要求的以便追踪在由可变增益组件 所施加的增益中的任何改变,出于在上文中所讨论的原因并且以将在下文中详细讨论的方 式。
[0064] 在步骤S506处,通过可变增益组件302将由增益因子Gvar(k)所定义的增益的量施 加至噪声经降低的信号估计。该所施加的增益逐帧地变化(并且如所讨论的可以在给定的 帧内变化)。增益因子G var(k)作为自动增益控制(AGC)过程的一部分而自动发生变化,使得 噪声经降低的信号估计s(t)的平均输出或峰值输出自动调整到期望的水平,例如在即使存 在信号变化的情况下,也保持大体上恒定的峰值或平均水平。可以例如遍及语音或视频通 话而采用自动增益控制过程,而所施加的增益因此在通话过程中的时间点处改变。可替代 地或额外地,增益因子G var(k)可以响应于用户输入(例如,用户102选择调整其麦克风的水 平)而手动地变化。
[0065] 在该实施例中,增益因子Gvar(k)从初始值Gvar,initial改变至新的目标值G var,target。 从初始值到目标值的变化是平滑的变化,其中,增益因子Gvar(k)以具有第一时间常数^的 第一(陡峭的)时间函数而从初始值改变至目标值。时间常数T 1是所施加的增益从初始值 Gvar,initiai改变总量Ad^(l-l/e)~63%所花费的时间,八:是所施加的增益最终改变的量 (即,ApGmtarget-Gvar.initial,即目标值与初始值之间的差);即,T 1是所施加的增益从 Gvar,initlal改变至Gvaninitial + A1 * (I 所花费的时间。这可以例如受到通过按照等式 1来更新所施加的增益Gvar(k),而由对Gvar(k)从初始值到目标值的一阶递归平滑影响的,如 下所示:
[0066] Gvar ( k ) -Gvar,target+d* [Gvar ( k_l ) _Gvar,target ]
[0067] 其中,0<d<l是平滑参数,该参数确定第一时间常数T1。当增益因子Gvar(k)是按 照等式1而被平滑的时,增益因子以指数方式向目标G var, target改变,如 一 么1 * (这是第一时间函数,其大体上是指数函数),其中t表示时 间,并且增益的改变在时间to处开始。
[0068] 在所施加的增益从初始值到目标值的改变是平滑的同时,然而该改变也是快速的 改变,其中第一时间常数具有大约50-250ms的值(其可以通过相应地设置等式1中的平滑参 数d来实现)。换句话说,可变增益"目标"立即改变(例如,作为阶梯函数)至新的目标值 Gvar, target,并且所施加的增益Gvar (k)跟随增益目标,在少量时间(该时间量取决于第一时间 常数T1和所施加的增益改变的量△ i两者)内快速但平滑地向新的目标值移动。不期望噪声 水平改变得这样快,尤其是如果所施加的增益改变较大时(因为这将引起噪声等级的对应 的大且快速的改变)。
[0069] 在图6A的图600中示出了 Gvar(k)中的示例性变化,该图示出了在大约100秒间隔的 时间内Gvar(k)随时间的示例性变化,并且在图6B的图600 '中以帧等级(每一帧都持续例如 5ms-20ms)示出了 Gvar (k)随时间的示例性变化。尽管为了简单起见,图600'将Gvar (k)示出为 逐帧改变但跨给定的帧k保持恒定,但在实践中,Gvar(k)可以例如通过针对每个采样(而不 每个帧)执行对增益因子G var(k)的平滑而在帧内变化(逐采样)。在步骤S508处,响应于由可 变增益组件302所施加的增益的改变,由噪声抑制组件312所执行的噪声抑制过程从当前值 改变与所施加的增益中的改变大体上相匹配(即,为了与其效果相匹配)的量从而改变至新 的值,并且接着返回(S510)至当前值。激进度快速地从当前值改变至新的值,但接着逐渐地 返回至当前值,如在图6A的图602中所示,其示出了在大约100秒间隔的时间内G var(k)随时 间的示例性变化,并且在图6B的图602'中以帧等级(每一帧都持续例如5ms-20ms)示出了 Gvar(k)随时间的示例性变化。这受到以在下文中所描述的方式来改变噪声抑制最小增益因 子6_(1〇的效果,如所讨论的,该噪声抑制最小增益因子G_(k)设置噪声抑制过程的激进 度。
[0070] 如针对帧k所使用的噪声抑制最小增益因子Gmin(k)在线性域中按照等式2来计算 (更新)
[0071]
[0072] 其中,c是0到1之间的平滑因子。因此,例如,如果所施加的增益Gvar(k)翻倍(或被 减半),则噪声抑制下限6_(1〇被减半(或翻倍),以便匹配将增益因子G_(k)翻倍(或减半) 的效果。
[0073] 即,只要所施加的增益Gvar(k)在变化,则通过将噪声抑制最小增益从当前值(Gmin) 改变至新的值G new的来匹配所施加的增益的改变,所述新的值Gnew是当所施加的增益呈平稳 状态时(例如在图6B的帧"k+3"处)噪声抑制下限达到的值:响应于从当前帧k-Ι到下一相邻 帧k的所施加的增益G var(k)中的改变(即,施加至当前帧k-Ι的Gvar(k-1)不等于施加至下一 相邻帧k的增益G var(k)),如针对相同的下一帧k所使用的噪声抑制最小增益Gmin(k)相对于 针对当前帧所使用的噪声抑制最小增益G_(k-1)而相应地改变了一个因子,该因子是线性 域中所施加的增益的分数变化的乘法逆元(即,[GvdlO/Gvdk-Dr 1),这可以等价地被表 达为与对数域(dB)中的改变大小相等但符号相反的改变。这对应于图5的步骤S508并且在 图6A中可见,图6A示出了(600)如在时间tjPtb处由可变增益组件300所施加的增益的示例 性改变,该示例性改变被噪声抑制最小增益的对应的快速改变匹配(602),该噪声抑制最小 增益的改变与由可变增益组件302所施加的增益的改变大小相等但符号相反。这还可以在 图6B中的帧等级(602')处看到,其示出了发生在帧"k"处的所施加的增益的改变,该改变被 针对该相同的帧"k"所使用的噪声抑制最小增益的相等且相反的改变匹配。尽管为了简单 起见,602 '将Gmin (k)示出为逐帧地变化但跨给定的帧k保持恒定,但在实际中,Gmin (k)可以 在帧内(逐采样地)平滑地变化例如噪声抑制最小增益G_(k),该噪声抑制最小增益G_(k) 针对每个采样改变以在Gvar(k)发生变化期间匹配所施加的增益G var(k)中的任何每个采样 的改变,和/或该噪声抑制最小增益Gmin(k)在Gvar(k)保持恒定的水平期间在帧内针对每个 采样进行平滑。即,在实际中,噪声抑制过程的激进度可以逐采样地改变,其中对等式2的迭 代的一些或全部针对每个音频信号采样来执行而不是针对每一帧k来执行。
[0074] 噪声抑制下限的改变因此追踪所施加的增益的改变,使得所施加的增益和噪声抑 制激进度从当前值到新的值的改变都是快速的并且具有大致相同的持续时间。
[0075] 以上的等式2中的项c*[Gmin(k-l)_Gmin]是影响一阶递归平滑的一阶递归平滑项。 在所施加的增益在改变之后逐帧地保持恒定期间(即,只要施加至当前的帧k-Ι的增益G var (k-Ι)保持等于施加至下一相邻帧k的增益Gvar(k)),一阶递归平滑用于逐渐地使噪声抑制 最小增益因子返回恒定的水平G min。因此,在引起噪声抑制最小增益的对应和快速的改变的 所施加的增益的改变之后,噪声抑制最小增益(以及因此,噪声抑制过程的激进度)逐渐地 返回恒定水平G min。这对应于图5的步骤S510并且在图6A中被示出,其中可以看到在时间ta 和tb处的快速改变之后的相应的逐渐返回,并且也可以在图6B中看到在帧"k"处的快速改 变之后相应的逐渐返回。
[0076] 该Gmin值被选择为下限,其将在由可变增益组件302所施加的增益Gvar(k)没有任何 改变的情况下使感知质量最优化。常数G min可以例如取_12dB的值或者其左右(即,+ 12dB的 衰减或其左右)。
[0077] 选择平滑因子c以影响至恒定的水平Gmin的逐渐返回。即,使得噪声抑制下限G min (k)作为具有第二时间常数12的第二时间函数(大体上比第一时间函数浅)而变化,其中该 第二时间常数τ 2大体上比之前的噪声抑制下限的快速改变的时间常数长,该第二时间常数 τ2大约例如10-40秒(>>^^50-2501118),从而使得6-(1〇花费大约10-40秒而改变了常数 值G min (k)与新的值Gnew之间的差Δ 2 = Gmin-Gnew (激进度的总改变)的(I -1 /e)~6 3 %,即,从 而使得Gmin(k)花费τ2~1〇-40秒从Gnew改变至G new + Δ2 * (1 - 当噪声抑制最小增益 Gmin(k)是按照等式2的第二行来平滑的时,增益因子以指数方式朝向常数Gmin而返回,如 Gnih1 - Δ2 (这是第二时间函数,其大体上是指数函数),其中七表示时间,并 且逐渐的返回在时间V 〇处开始;平滑参数c确定第二时间常数τ2,并且选择c以使得τ2~10- 40秒。
[0078] 在这段时间内,噪声经降低的信号估计ynr(t)中剩余的噪声成分的水平将变化,但 由于Gmin(k)的逐渐的改变,它将会逐渐地变化,并且将因此较不容易被用户注意到。
[0079 ]因此,所施加的增益的快速的改变(其与激进度的快速的改变持续大体上相同的 时间)比随后的逐渐返回快了大约τ2/τ?的因子,即,所施加的增益在第一时间间隔Td(部 分地)改变了所施加的增益的总改变(即,从初始值G var,initiai到中间增益值Gvar,initiai+ Δ 4 P)的〇<Ρ<1的分数(即,〇%<Ρ%<1〇〇%的百分比),并且噪声抑制过程的激进度在第二 时间间隔T 2I (部分地)改变了激进度的总改变(即,从新值Gne3i^ij中间激进度值 Gnew +心* (1---).)的相同的分数P,第二时间间隔T2比第一时间间隔Ti长T2A1的因子 (即,T2 = (T2A1)M1彡大约40)。这对于范围(0,1)内的不同的P值(即,对于范围(0%, 100%)内的不同的百分比,例如,1%、5%、10%、20%、50%、70%、90%等)而言都是正确 的。这在图6C中示出。换句话说,完成噪声抑制激进度从新的值到当前值的随后的逐渐返回 的百分比P比完成所施加的增益从初始值到目标值的快速改变的相同百分比P多花费大约 40倍(或更多)的时间。
[0080] 由于噪声抑制激进度的逐渐返回具有不小于10秒的第二时间常数τ2,而噪声抑制激进 度的快速改变具有不长于大约250ms = 0.25秒的第一时间常数T1, & 2大约^二40, 1.1 U.Z b 艮P,因此第二间隔比第一间隔长至少大约40的因子。
[0081] -阶自动回归平滑器(在改变后具有指数输出)(例如,由等式1或等式2的第二行 影响)接近输入值某一相对量(Ρ%)的时间,将仅取决于由过滤系数(平滑参数b、c)所定义 的时间常数(T 1^2),而不取决于改变(增益/激进度)的大小。通常通过时间常数(τ?、τ 2)来 描述一阶平滑器的收敛时间;即,等式1的平滑器具有第一时间常数T1的收敛时间,而等式2 的第二行的平滑器具有第二时间常数1 2的收敛时间,其大体上比第一时间长(长至少大约 40的因子)。
[0082] 从严格的数学角度而言,如果其是不受约束的,则第一函数和第二函数将花费无 限量的时间来分别收敛至目标增益值Gvar, target以及恒定的噪声抑制最小水平Gmin(它们都 是渐进的值)。这当然不是在现实中的情况,例如,由于舍入错误。严格地讲要花费无限量的 时间来达到输入值具有可忽略的重要性,这是可以接受的,并且无论如何平滑器的输出由 输入来保持"追踪"。
[0083]激进度在第一(有限的)持续时间(图6A中的Δ tl)内从初始值大体上改变至当前 值,该持续时间与所施加的增益的改变的持续时间大体上相同,并且使得激进度在第二(有 限的)持续时间(图6A中的At2)内大体上返回至当前值,该持续时间大体上比第一持续时 间长。对于典型的增益改变(例如,大约I dB ),第一持续时间通常可以不长于例如250ms (例 如,大约50ms与大约250ms之间),而第二持续时间通常可以不短于例如大于10秒(例如,大 约10秒与大约40秒之间)。因此,对于所施加的增益的典型的改变,第二持续时间可以比第 一持续时间长至少大约40的因子(10秒/250ms)。在该实施例中,第一持续时间和第二持续 时间取决于所施加的增益的改变的大小而变化(并且对于所施加的增益的改变的较小的大 小而言持续时间较短,而对于所施加的增益的改变的较大的大小而言持续时间较长)。
[0084] 通常而言,第一持续时间足够短以抵消所施加的增益的改变否则将对噪声水平的 影响,而第二持续时间足够长以确保噪声水平的最终改变相比于其否则作为所施加的增益 的改变的结果而言是可感知地更慢的。
[0085] 作为示例,如果将所施加的增益增加3dB,则噪声抑制组件312将随后快速地施加 15dB的噪声抑制(其是所施加的噪声抑制增益下限_15dB),在接下来的20秒左右内逐渐地 并且平滑地返回至较不激进的例如12dB的抑制。相反地,如果所施加的增益降低3dB,则噪 声抑制组件312将施加9dB的噪声抑制(其是所施加的噪声抑制增益下限-9dB),在接下来的 20秒左右内逐渐地并且平滑地返回更激进的例如12dB的抑制。
[0086] 在实际中,希望帧k、k+l、k+2……在一定程度上重叠。该重叠可以例如是帧长度 (其大约可以是5ms到20ms)的25%到50%,这意味着大约1.25ms到IOms的重叠。即,将音频 信号y(t)分割成音频帧,使得帧k中的音频的初始部分被复制为下一帧k+1的最终部分,这 在图7中示出,图7示出了包含音频信号y(t)的部分重叠的部分的三个示例性帧k-l、k、k+l。 可以在例如通过对相邻的帧的任何重叠的间隔的线性插值处理之后接着对帧进行组合,从 而有效地从一帧到下一帧"渐变(fade)"以生成具有正确的定时的音频信号。这样的帧重叠 技术在本领域中是公知的,并且可以阐明或降低否则可能由于处理或以其它方式产生的相 邻帧之间的不连续性而出现的可听到的伪迹。
[0087] 尽管在上文中,所施加的增益的改变是"平滑的"改变,原则上所施加的增益可以 以阶梯函数而逐帧地改变。在该情况下,当所施加的增益因子G var(k)以阶梯函数而逐帧地 改变时,而帧重叠的结果仍将有效地"平滑"该阶梯函数,以使得所施加的增益在等于帧重 叠的时间间隔(大约Ims-IOms)内有效地大体上连续地从初始值改变至目标值,如在图7中 所示的那样。类似地,尽管噪声抑制最小增益因子G min(k)以阶梯函数而逐帧地改变以匹配 所施加的增益因子Gvar(k),但纯净信号估计的帧的帧重叠意味着噪声抑制最小增益的改变 类似有效地在这些帧之间"平滑",以使得噪声抑制最小增益G min(k)从当前值改变到新的 值,并且因此噪声抑制过程的激进度的改变可以被认为在等于帧重叠的时间间隔内有效地 进行。这是大约lms-lOms,再一次,显著地小于在大约10秒或以上的间隔内进行的到当前值 的逐渐返回,如所讨论的。
[0088] 如在本文中所使用的,短语"将噪声抑制过程的激进度改变与所施加的增益的改 变大体上相匹配的量"(或类似短语)用于意指激进度的改变的影响匹配(即,抵消)所施加 的增益的改变对噪声成分的影响(更加具体而言,当激进度的改变大体上抵消所施加的增 益的改变对噪声成分的水平的影响时,使得在所施加的增益的改变之后紧接着的噪声经降 低的信号中的噪声成分的水平大体上不改变)。
[0089] 这不一定意味着变化的大小之间存在任何一个特定的数值关系,并且特别地,不 一定意味着相应的变化的大小是相等的(可以是或可以不是该情况)。例如,所施加的增益 从IdB到2dB的IdB的改变可以匹配将噪声抑制激进度改变-IdB(例如,从-12dB到-13dB),在 该情况下,所施加的增益的改变的影响匹配具有相等的dB大小的激进度的改变的影响,。然 而,在线性域中所施加的增益从1到2的改变(在线性域中其是2-1 = 1的改变)可以匹配在线 性域中将噪声抑制激进度从例如0.25改变到1/2*0.25 = 0.125(在线性域中其是0.25-0.125 = 0.125的改变),在该情况下,所施加的增益的改变的影响匹配与所施加的增益的改 变大小不相等的激进度的改变的影响。此外,原则上所施加的增益可以在一个域(例如,线 性域或对数域)中实现,而噪声抑制可以在不同的域(例如,对数域或线性域)中实现,其中 在不同的域中投影相应的改变不太可能在大小上相等。即,当激进度的改变的影响与所施 加的增益的改变的影响相匹配时,激进度的改变与所施加的增益的改变大体上相匹配,而 无论增益和噪声抑制过程所施加于其中的相应的域。
[0090] 尽管在上述的图5的方法中,噪声抑制组件被配置为将噪声抑制过程施加至音频 信号以生成噪声经降低的信号估计,而可变增益组件被配置为将增益施加至噪声经降低的 信号估计,但在可替代的实施例中,该顺序可以相反。即,可变增益组件可以被配置为将增 益施加至音频信号以生成增益经调整的信号,而噪声抑制组件可以被配置为将噪声抑制过 程施加至增益经调制的信号。在全部这两种情况中,可变增益组件和噪声抑制过程都是串 联连接的,并且构成被配置以从具有噪声的音频信号来生成增益经调整、噪声经降低的音 频信号的信号处理链。此外,无论哪种情况,如在上文中所指出的,该链可以包括被配置为 执行额外的信号处理的其它信号处理组件,其包括这样的中间处理,该中间处理在噪声降 低和增益施加之间进行,以使得噪声抑制组件和可变组件中的一个不直接作用于另一个的 输出,而是使得一个的输出经由中间信号处理组件提供至另一个,并且因此在由一个处理 之后并且由另一个处理之前受到中间信号处理。在信号处理链中组件302与组件312之间连 接有额外的中间信号处理组件的情况下(即,在增益调整之后但在噪声抑制之前执行额外 的处理的情况下,或者在噪声抑制之后但在增益调整之前执行额外的处理的情况下),为了 避免疑义应当理解的是,在本发明的意义上尽管他们可以因此经由额外的中间信号处理组 件所连接(即,尽管在增益的施加和噪声抑制过程的施加之间可以执行额外的中间信号处 理),但可变增益组件和噪声抑制组件仍是"串联连接"的(即,增益和噪声降低将仍然被认 为是"串联施加"的)。在本上下文中,术语信号处理组件(或过程)"串联连接(或施加)"是指 两个或更多个信号处理组件的链,其中链中的每个组件都将特定类型的音频信号处理施加 至输入信号,并且将经处理的信号提供至链中的下一个组件以供进一步处理,而不是第一 个组件和最后一个组件,这些组件接收初始音频信号作为输入并提供链的最终输出,这样 的链中的每个组件都被认为与该链中的每个其它组件是串联连接的。
[0091] 此外,尽管在上文中,增益组件和噪声抑制组件是串联连接的,但可以设想,并联 连接的增益/噪声抑制组件也可以达到类似的效果,即,至少一个增益组件和至少一个噪声 抑制组件每个都"直接"作用于具有噪声的音频信号(而不是一个作用于另一个的输出),以 生成独立的相应的输出,所述输出接着被例如合并成和(可能是加权求和)以提供最终的输 出音频信号。
[0092] 此外,尽管在上文中,在通过通信网络传输至远端用户之前将所公开的技术施加 至近端信号,但可替代地或额外地,可以将所公开的技术施加至通过通信网络从远端用户 处所接收的远端信号,例如,在从近端扬声器(例如,210)输出之前。即,等效的信号处理链 可以在经由扬声器210输出之前对从网络106中所接收到的音频信号执行等效的处理,以作 为可替代或额外于在经由网络106发送之前对从设备300的麦克风212中所接收到的音频信 号执行音频信号处理的信号处理链。因此,信号处理链可以具有连接以接收经由网络106从 第二用户设备108所接收的音频信号的输入端,以及连接以将经处理的音频信号提供至设 备104的扬声器210的输出端。
[0093] 此外,尽管在上文中,噪声抑制过程的激进度响应于所施加的增益的改变而从当 前值快速改变至新的值,接着以一阶递归平滑逐渐地返回至当前值,但该逐渐的返回可以 通过任何数量的可替代方式实现。例如,逐渐的改变可以是回到当前值线性改变,例如在所 施加的增益改变之后的10到40秒达到当前值,或者可以采用更高阶的递归平滑来实现逐渐 返回。类似地,所施加的增益的快速改变可以是在例如50到250ms的持续时间内从初始值到 目标值的线性改变,或者可以采用更高阶的递归平滑来实现快速改变。
[0094]具有噪声的音频信号可以被接收为多个(离散的)部分(例如,音频帧或音频采样) 并且激进度和增益可以最多逐部分地更新(即,最多可以逐部分地计算其新的值,其中,一 个经计算的值是针对给定的部分的整体而使用的)。
[0095]此外,尽管在上文中,主题是在实时通信系统的上下文中描述的,但应当理解的 是,可以在既与"直播"有关又与预先记录的具有噪声的音频信号有关许多其它上下文中采 用所公开的技术。此外,尽管在上文中,主题是由以用户设备(例如,个人计算机、膝上型计 算机、平板计算、智能电话等)为形式的音频信号处理设备所实现的,但在可替代的实施例 中,主题可以由诸如专用音频信号处理设备之类的任何形式的音频信号处理设备(例如,音 频效果单元、机架等)来实现。
[0096] 通常而言,可以使用软件、固件、硬件(例如,固定逻辑电路)、或这些实现的组合来 实现在本文中所描述的功能中的任何一种功能。如在本文中所使用的术语"模块"、"功能"、 "组件"和"逻辑"通常表示软件、固件、硬件、或其组合。这包括例如以上图3和图4中的组件。 在软件实现的情况下,模块、功能、或逻辑表示当在处理器(例如,一个或多个CPU)上被执行 时执行具体的任务的程序代码,所述具体的任务例如用于实现图5的方法步骤的任务(尽管 图5的这些步骤可以由任何合适的硬件、软件、固件、或其组合来实现)。可以将程序代码存 储在一个或多个计算机可读存储器设备中。在下文中所描述的技术的特征是依赖平台的, 这意味着所述技术可以在具有多种处理器的多种商用计算平台上实现。
[0097] 例如,用户设备还可以包括使得用户设备硬件执行操作(例如,处理器功能块等) 的实体(例如,软件)。例如,用户设备可以包括计算机可读介质,其可以被配置为保存使得 用户设备以及更特别地使得操作系统和相关联的用户设备的硬件执行操作的指令。因此, 所述指令用于配置操作系统和相关联的硬件以执行操作,并且以这样的方式使得操作系统 的变换和相关联的硬件来执行功能。可以由计算机可读介质通过多种不同的配置将指令提 供至用户设备。
[0098]计算机可读介质的一种这样的配置是信号承载介质,并且因此被配置为将指令 (例如,作为载波)传输至计算设备,例如,经由网络。计算机可读介质还可以被配置为计算 机可读存储介质,并且因此不是信号承载介质。计算机可读存储介质的示例包括随机存取 存储器(RAM)、只读存储器(ROM)、光盘、闪速存储器、硬盘存储器、以及可以使用磁、光、和其 它技术来存储指令和其它数据的其它存储器设备。
[0099]尽管已经用特定于结构特征和/或方法行为的语言描述了本主题,但应当理解的 是,在所附权利要求中所定义的主题非必须限于在上文中所描述的具体的特征或行为。相 反,在上文中所描述的具体的特征或行为是作为实现所述权利要求的示例形式而公开的。
【主权项】
1. 一种音频处理设备,包括: 用于接收具有噪声的音频信号的输入端,所述具有噪声的音频信号具有期望的音频成 分以及噪声成分;以及 可变增益组件以及噪声抑制组件,所述可变增益组件以及所述噪声抑制组件分别被配 置为将增益和噪声抑制过程施加至所述具有噪声的音频信号,从而生成增益经调整的、噪 声经降低的音频信号; 其中,响应于所施加的增益的改变,所述噪声抑制过程的激进度从当前值快速改变与 所述所施加的增益的所述改变大体上相匹配的量至新的值,并且接着逐渐地返回至所述当 前值。2. 根据权利要求1所述的音频信号处理设备,其中,所述噪声抑制组件被配置为将受限 的噪声抑制增益施加至所述音频信号,所述受限的噪声抑制增益是非受限的噪声抑制增益 和噪声抑制增益下限的最大值,并且所述噪声抑制增益下限从所述当前值快速改变至所述 新的值,并且接着逐渐地返回至所述当前值;并且 其中,所述噪声抑制组件被配置为根据所述噪声成分的估计而评估所述非受限的噪声 抑制增益。3. 根据前述任何一项权利要求所述的音频信号处理设备,其中,所述具有噪声的音频 信号是作为构成部分的序列的多个部分而被接收的,并且所述激进度最多逐个部分地被更 新;并且 其中,通过在所述序列的多个部分内将所述激进度从所述新的值递归地平滑至所述当 前值,而使所述激进度逐渐地从所述新的值返回至所述当前值。4. 根据权利要求3所述的音频信号处理设备,其中,所述平滑是一阶递归平滑,从而,对 于所述多个部分中的每个部分,所述激进度是针对该部分而根据所述当前值以及根据针对 所述序列中紧接着该部分之前的一部分而先前计算的激进度来计算的,而不是根据针对所 述序列中的任何其它部分而先前计算的激进度来计算的。5. 根据权利要求3或4所述的音频信号处理设备,其中,所述所施加的增益的所述改变 受在所述序列中的多个其它部分上将所述所施加的增益从初始值递归地平滑至目标值的 影响;并且 其中,所述所施加的增益是以第一收敛时间来平滑的,而所述激进度是以大体上比所 述第一收敛时间长的第二收敛时间来平滑的。6. 根据前述任何一项权利要求所述的音频信号处理设备,其中,所述激进度在大约 50ms到250ms之间的第一持续时间内从所述当前值大体上改变至所述新的值,和/或所述激 进度在大约10秒到40秒之间的第二持续时间内从所述新的值大体上返回至所述当前值。7. 根据前述任何一项权利要求所述的音频信号处理设备,其中,在与所施加的增益的 所述改变的持续时间大体上相等的第一持续时间内,所述激进度从所述当前值大体上改变 至所述新的值。8. 根据前述任何一项权利要求所述的音频信号处理设备,其中,所施加的增益的改变 从初始值开始;并且 其中,在第一时间间隔内所述所施加的增益从所述初始值改变了所施加的增益的总改 变的百分比P%至中间增益值的部分改变,而在比所述第一时间间隔至少长大约四十因子 的第二时间间隔内,所述激进度从所述新的值改变了激进度的总改变的相同的百分比P% 至中间激进度值的部分改变。9. 根据前述任何一项权利要求所述的音频信号处理设备,其中,所施加的增益的改变 受将所述所施加的增益以根据具有不大于大约250ms的时间常数的第一函数而进行变化的 影响,和/或通过将所述激进度以根据具有不小于大约10秒的时间常数的第二函数而进行 变化来将所述激进度从所述新的值返回至所述当前值。10. 存储可执行的程序代码的至少一个计算机可读介质,所述可执行的程序代码被配 置为,当被执行时,实现音频信号处理方法,所述方法包括: 接收具有噪声的音频信号,所述具有噪声的音频信号具有期望的音频成分以及噪声成 分; 通过将增益和噪声抑制过程施加至所述具有噪声的音频信号来生成增益经调整的、噪 声经降低的音频信号; 响应于所施加的增益的改变,所述噪声抑制过程的所述激进度从当前值快速改变与所 述所施加的增益的所述改变大体上相匹配的量至新的值;以及 接着,所述噪声抑制过程的所述激进度逐渐地返回至所述当前值。
【文档编号】G10L21/0208GK105940449SQ201580006453
【公开日】2016年9月14日
【申请日】2015年1月28日
【发明人】K·V·索伦森
【申请人】微软技术许可有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1