音频处理方法及音频处理设备的制作方法

文档序号：2836114阅读：275来源：国知局

专利名称：音频处理方法及音频处理设备的制作方法
技术领域：
本发明一般涉及音频信号处理。更具体地，本发明的实施例涉及用于基于单通道音频信号来进行音频信号呈现的音频处理方法及音频处理设备。
背景技术：
在很多音频处理应用中，可以接收单通道音频信号，并基于单通道音频信号来输出声音。例如，在语音通信系统中，语音通信终端A将语音捕获为单通道音频信号。单通道信号被发送至语音通信终端B。语音通信终端B接收并呈现单通道信号。再例如，可以将诸如话音、音乐等的期望声音记录为单通道信号。可以通过重放装置来读取并重放所记录的单通道信号。为了提高期望声音对于听众的可理解性，可以将诸如维纳(Wiener)滤波的噪声减低方法用于减低噪声，使得所呈现的信号中的期望声音能够更为易于理解。

发明内容
根据本发明实施例，提供了一种音频处理方法。根据该方法，将单通道音频信号变换为多个第一子带信号。估计每个子带信号中的期望分量的比例和噪声分量的比例。根据每个第一子带信号生成分别对应于多个通道的第二子带信号。每个第二子带信号包括第一分量和第二分量，该第一分量和该第二分量是通过基于多维听觉表现方法给对应的第一子带信号中的期望分量和噪声分量分别赋予空间听觉特性和不同于该空间听觉特性的感知听觉特性来获得的。将第二子带信号变换为用于以该多维听觉表现方法进行呈现的信号。根据本发明实施例，提供了一种音频处理设备。该设备包括时域-频域变换器、估计器、生成器以及频域-时域变换器。时域-频域变换器被配置为将单通道音频信号变换为多个第一子带信号。估计器被配置为估计每个子带信号中的期望分量的比例和噪声分量的比例。生成器被配置为根据每个第一子带信号生成分别对应于多个通道的第二子带信号。每个第二子带信号包括第一分量和第二分量，该第一分量和该第二分量是通过基于多维听觉表现方法给对应的第一子带信号中的期望分量和噪声分量分别赋予空间听觉特性和不同于该空间听觉特性的感知听觉特性来获得的。频域-时域变换器被配置为将第二子带信号变换为用于以该多维听觉表现方法进行呈现的信号。

在附图的各图中，以示例性和非限制性的方式对本发明进行阐释，在附图中，类似的附图标记指代类似的元件，其中:图1是示出根据本发明实施例的示例音频处理设备的框图；图2是示出根据本发明实施例的示例音频处理方法的流程图；图3是示出根据本发明实施例的生成器的示例结构的框图；图4是示出根据本发明实施例的、基于多通道听觉表现方法来生成子带信号的示例处理的流程图；图5是示出根据本发明实施例的期望声音和噪声的声音位置布置示例的示意图；图6是示出根据本发明实施例的生成器的示例结构的框图；图7是示出根据本发明实施例的、基于多通道听觉表现方法来生成子带信号的示例处理的流程图；图8是示出根据本发明实施例的示例音频处理设备的框图；图9是示出根据本发明实施例的示例音频处理方法的流程图；图10是示出用于实施本发明实施例的示例系统的框图。
具体实施例方式下面参考附图描述本发明实施例。应注意，为清楚起见，在附图和描述中省略了关于本领域技术人员已知但是与本发明无关的组件和过程的陈述和描述。本领域的技术人员可以理解，本发明的各方面可以被实施为系统(例如在线数字媒体商店、云计算服务、流媒体服务、电信网络等)、装置(例如蜂窝电话、便携媒体播放器、个人计算机、电视机顶盒、或数字录像机、或任意其它媒体播放器)、方法或计算机程序产品。因此，本发明的各方面可以采取以下形式:完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合软件部分与硬件部分的实施例，本文可以一般地称之为“电路”、“模块”或“系统”。此外，本发明的各方面可以采取体现为一个或多个计算机可读介质的计算机程序产品的形式，该计算机可读介质上体现有计算机可读程序代码。可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是(但不限于)电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPR0M或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的、其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式，包括但不限于电磁的、光的或其任何适当的组合。计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。体现在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。用于执行本发明各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言，诸如Java、SmalltalKC++之类，还包括常规的过程式程序设计语言，诸如“C”程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户的计算机，或者，可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。
以下参照按照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器，使得通过计算机或其它可编程数据处理装置执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中，使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。
也可以把计算机程序指令加载到计算机、其它可编程数据处理设备或其它装置上，导致在计算机、其它可编程处理设备或其它装置上执行一系列操作步骤以产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图的方框中规定的功能/动作的过程。
图1是示出根据本发明实施例的示例音频处理设备100的框图。
如图1所示，音频处理设备100包括时域-频域变换器101、估计器102、生成器103和频域-时域变换器104。
通常，单通道音频信号流的分段s (t)被输入到音频处理设备100，其中t为时间索弓I。音频处理设备100处理每个分段S(t)，并生成对应的多通道音频信号S(t)。通过音频输出装置(图中未示出)输出多通道音频信号s(t)。下文中，也将分段称为单通道音频信号。
针对每个单通道音频信号s (t)，时域-频域变换器101被配置为将单通道音频信号s (t)变换为数目K的子带信号(对应于K个频率区间)D (k，t)，其中k为频率区间索引。例如，可以通过快速傅里叶变换(FFT)进行该变换。
估计器102被配置为估计每个子带信号D (k，t)中的期望分量的比例和噪声分量的比例。
有噪声的音频信号可被视为期望信号和噪声信号的混合。如果人类听觉系统能够从与噪声信号对应的干扰中提取出与期望信号对应的声音(也称为期望声音)，则音频信号对于人类听觉系统而言是可理解的。例如，在语音通信应用中，期望声音可以是话音，而在录音和播放应用中，期望声音可以是音乐。通常，取决于具体应用，期望声音可包括听众想要听到的一个或更多个声音，相应地，噪声可包括听众不想听到的一个或更多个声音，诸如平稳白噪声或粉红噪声、非平稳多路重合噪声、或干扰话音，等等。基于期望信号和噪声信号的具体的谱特性，能够采用适当方法来估计每个子带信号中与期望信号对应的期望分量的比例以及与噪声信号对应的噪声分量的比例。可以独立地估计期望分量的比例及噪声分量的比例。可替选地，在知道一个比例的情况下，通过将除了所估计的期望分量之外的剩余部分视为噪声分量，或将除了所估计的噪声分量之外的剩余部分视为期望分量，能够获得另一比例。
在一个示例中，可以将期望分量的比例及噪声分量的比例估计为增益函数。具体而言，能够追踪音频信号中的噪声分量以估计噪声谱，并根据所估计的噪声谱和子带信号D(k，t)，导出每个子带信号D (k，t)的增益函数G(k，t)。
通常，可以基于期望(例如，话音)分量*O的比例(如增益函数G(k，t))来获得期望分量左O。在增益函数的情况下，可以获得如下的期望分量左^ O:
S (k, O = G(k,t)D(k,t) (I)。
可以将噪声分量的比例估计为(l_G(k，t))。可以获得如下的噪声分量
N (k, O:
N(k,t) = (\-G(k,t))D(k,t) (2) O
可以使用各种增益函数，包括但不限于谱减法、维纳滤波、最小均方误差对数谱幅度估计(MMSE-LSA)。
在谱减法的示例中，可以获得如下的增益函数Gss(k，t): 广Λ0.5
Gss(Kt)A(3)。 Iv I + Rprio (k, t) J
在维纳滤波的示例中，可以获得如下的增益函数Gwienek(k，t):
Gwm腿(k，t、=(4)。
l+RpRl0(k^t)
在MMSE-LSA的示例中，可以获得如下的增益函数G__lSA (k，t):[_ g—m=Α -〔。+5v#) (5)，
其中，t)= R: Rpost (K t) (6)。
i+UO
在以上示例中，Rpeio(k, t)表示先验信噪比SNR，并可以将其导出如下: P JkJ)
RpriJM= s(7),并且 pm
Rpost (k, t)表示后验SNR，并可以将其导出如下:
RposAkJ) =(8), pm
其中，巧(^>、 ,&，0和PD(k，t)分别表示期望分量左O的功率、噪声分量t)的功率和子带信号D(k，t)的功率。在一个示例中，增益函数的值可以被限制在从O至I的范围中。
应注意，期望分量的比例和噪声分量的比例不限于增益函数。同样可以使用其它提供了对期望分量和噪声分类的指示的函数。也可以基于期望信号(例如话音)或噪声的概率来估计期望分量的比例和噪声分量的比例。可以在Sun, Xuejing/Yen, Kuan-Chieh/Alves, Rogerio (2010): " Robust noise estimation using minimum correction withharmonicity control" , In INTERSPEECH-2010，1085-1088 中找到基于概率的比例的示例。在这个示例中，无话音概率(SAP)q(k，t)可以被计算如下:
权利要求
1.一种音频处理方法，包括: 将单通道音频信号变换为多个第一子带信号；估计每个所述子带信号中的期望分量的比例和噪声分量的比例；根据每个所述第一子带信号生成分别对应于多个通道的第二子带信号，其中每个所述第二子带信号包括第一分量和第二分量，所述第一分量和所述第二分量是通过基于多维听觉表现方法给对应的第一子带信号中的所述期望分量和所述噪声分量分别赋予空间听觉特性和不同于该空间听觉特性的感知听觉特性来获得的；以及将所述第二子带信号变换为用于以所述多维听觉表现方法进行呈现的信号。
2.根据权利要求1所述的音频处理方法，其中，生成第二子带信号包括: 基于所述比例，从每个所述第一子带信号中分别提取所述期望分量和所述噪声分量；以及针对每个所述通道和每个所述第一子带信号，利用第一滤波器对该第一子带信号的所提取的期望分量进行滤波，该第一滤波器对应于该通道并应用用于赋予所述空间听觉特性的第一传递函数，利用第二滤波器对该第一子带信号的所提取的噪声分量进行滤波，该第二滤波器对应于该通道并应用用于赋予所述感知听觉特性的第二传递函数；以及对经滤波的期望分量和经滤波的噪声分量求和，以获得所述第二子带信号之一。
3.根据权利要求1 所述的音频处理方法，其中，生成第二子带信号包括: 针对每个所述通道和每个所述第一子带信号，计算滤波器参数，其中该滤波器参数是用于赋予所述空间听觉特性的传递函数与用于赋予所述感知听觉特性的另一传递函数的加权和，并且用于该传递函数的权重以及用于该另一传递函数的权重分别与对应的第一子带信号中的所述期望分量的比例以及所述噪声分量的比例正相关，针对每个所述通道和每个所述第一子带信号，将对应的滤波器参数应用至该第一子带信号，以获得所述第二子带信号之一。
4.根据权利要求1至3中的任一项权利要求所述的音频处理方法，其中，所述感知听觉特性包括空间听觉特性、或者时间或频率白化特性。
5.根据权利要求4所述的音频处理方法，其中，所述时间或频率白化特性包括反射特性、回响特性或扩散特性。
6.根据权利要求1至3中的任一项权利要求所述的音频处理方法，其中，所述多维听觉表现方法是双耳听觉表现方法，并且其中，每个所述第一传递函数包括用于赋予不同的空间听觉特性的一个或更多个头部关联传递函数。
7.根据权利要求6所述的音频处理方法，其中，每个所述第二传递函数包括用于赋予与所述第一传递函数所赋予的空间听觉特性不同的空间听觉特性的一个或更多个头部关联传递函数。
8.根据权利要求6或7所述的音频处理方法，其中，所述不同的空间听觉特性之间的区别包括以下中的至少一个:所述不同的空间听觉特性的方位角之间的差、所述不同的空间听觉特性的仰角之间的差以及所述不同的空间听觉特性的距离之间的差。
9.根据权利要求1至3中的任一项权利要求所述的音频处理方法，其中，所述多维听觉表现方法基于两个立体声扬声器，并且其中，在对应于同一第一子带信号的第二传递函数之间存在低相关。
10.根据权利要求1至3中的任一项权利要求所述的音频处理方法，其中，将每个所述第一子带信号中的所述期望分量的比例和所述噪声分量的比例分别估计为不大于0.9和不小于0.1。
11.根据权利要求10所述的音频处理方法，其中，假设将所述期望分量的比例表示为G，则将所述噪声分量的比例估计为。
12.根据权利要求1至3中的任一项权利要求所述的音频处理方法，其中，基于增益函数或概率来估计每个所述第一子带信号中的所述期望分量的比例和所述噪声分量的比例。
13.根据权利要求1至3中的任一项权利要求所述的音频处理方法，其中，所述多维听觉表现方法是高保真度声响复制听觉表现方法，并且其中，所述第一传递函数适合于在声场中表现同一声源。
14.根据权利要求1至3中的任一项权利要求所述的音频处理方法，其中，所述多维听觉表现方法基于多个扬声器，并且，其中，将每个所述第一子带信号中的所述期望分量的比例和所述噪声分量的比例分别估计为不大于0.7和不小于O。
15.根据权利要求1至3中的任一项权利要求所述的音频处理方法，进一步包括: 检测为进行音频呈现而在目前激活的音频输出装置；确定该音频输出装置所采用的多维听觉表现方法；以及将所述用于进行呈现的信号发送至该音频输出装置。
16.—种音频处理设备,包括: 时域-频域变换器，被配置为将单通道音频信号变换为多个第一子带信号；估计器，被配置为估计每个所述子带信号中的期望分量的比例和噪声分量的比例；生成器，被配置为根据每个所述第一子带信号生成分别对应于多个通道的第二子带信号，其中每个所述第二子带信号包括第一分量和第二分量，所述第一分量和所述第二分量是通过基于多维听觉表现方法给对应的第一子带信号中的所述期望分量和所述噪声分量分别赋予空间听觉特性和不同于该空间听觉特性的感知听觉特性来获得的；以及频域-时域变换器，被配置为将所述第二子带信号变换为用于以所述多维听觉表现方法进行呈现的信号。
17.根据权利要求16所述的音频处理设备，其中，所述生成器包括: 提取器，被配置为基于所述比例，从每个所述第一子带信号中分别提取所述期望分量和所述噪声分量；分别对应于所述通道的第一滤波器，每个所述第一滤波器被配置为通过应用用于赋予所述空间听觉特性的第一传递函数，对每个所述第一子带信号的所提取的期望分量进行滤波，分别对应于所述通道的第二滤波器，每个所述第二滤波器被配置为通过应用用于赋予所述感知听觉特性的第二传递函数，对每个所述第一子带信号的所提取的噪声分量进行滤波；以及分别对应于所述通道的加法器，每个所述加法器被配置为对每个所述第一子带信号的经滤波的期望分量和经滤波的噪声分量求和，以获得所述第二子带信号之一。
18.根据权利要求16所述的音频处理设备，其中，所述生成器包括: 计算器，被配置为针对每个所述通道和每个所述第一子带信号，计算滤波器参数，其中该滤波器参数是用于赋予所述空间听觉特性的传递函数与用于赋予所述感知听觉特性的另一传递函数的加权和，并且用于该传递函数的权重以及用于该另一传递函数的权重分别与对应的第一子带信号中的所述期望分量的比例以及所述噪声分量的比例正相关，分别对应于所述通道的滤波器，每个所述滤波器被配置为应用与该通道和每个所述第一子带信号对应的滤波器参数，以获得所述第二子带信号之一。
19.根据权利要求16至18中的任一项权利要求所述的音频处理设备，其中，所述感知听觉特性包括空间听觉特性、或者时间或频率白化特性。
20.根据权利要求19所述的音频处理设备，其中，所述时间或频率白化特性包括反射特性、回响特性或扩散特性。
21.根据权利要求16至18中的任一项权利要求所述的音频处理设备，其中，所述多维听觉表现方法是双耳听觉表现方法，并且其中，每个所述第一传递函数包括用于赋予不同的空间听觉特性的一个或更多个头部关联传递函数。
22.根据权利要求21所述的音频处理设备，其中，每个所述第二传递函数包括用于赋予与所述第一传递函数所赋予的空间听觉特性不同的空间听觉特性的一个或更多个头部关联传递函数。
23.根据权利要求21或22所述的音频处理设备，其中，所述不同的空间听觉特性之间的区别包括以下中的至少一个:所述不同的空间听觉特性的方位角之间的差、所述不同的空间听觉特性的仰角之间的差以及所述不同的空间听觉特性的距离之间的差。
24.根据权利要求16至18中的任一项权利要求所述的音频处理设备，其中，所述多维听觉表现方法基于两个立体声扬声器，并且其中，在对应于同一第一子带信号的第二传递函数之间存在低相关。
25.根据权利要求16至18中的任一项权利要求所述的音频处理设备，其中，将每个所述第一子带信号中的所述期望分量的比例和所述噪声分量的比例分别估计为不大于0.9和不小于0.1。
26.根据权利要求25所述的音频处理设备，其中，假设将所述期望分量的比例表示为G，则将所述噪声分量的比例估计为。
27.根据权利要求16至18中的任一项权利要求所述的音频处理设备，其中，基于增益函数或概率来估计每个所述第一子带信号中的所述期望分量的比例和所述噪声分量的比例。
28.根据权利要求16至18中的任一项权利要求所述的音频处理设备，其中，所述多维听觉表现方法是高保真度声响复制听觉表现方法，并且其中，所述第一传递函数适合于在声场中表现同一声源。
29.根据权利要求16至18中的任一项权利要求所述的音频处理设备，其中，所述多维听觉表现方法基于多个扬声器，并且，其中，将每个所述第一子带信号中的所述期望分量的比例和所述噪声分量的比例分别估计为不大于0.7和不小于O。
30.根据权利要求16至18中的任一项权利要求所述的音频处理设备，进一步包括:检测器，被配置为检测为进行音频呈现而在目前激活的音频输出装置，并确定该音频输出装置所采用的多维听觉表现方法，并且，其中，所述时域-频域变换器被进一步配置为将所述用于进行呈现的信号发送至该音频输出装置。
全文摘要
描述了一种音频处理方法和音频处理设备。将单通道音频信号变换为多个第一子带信号。估计每个子带信号中的期望分量的比例和噪声分量的比例。根据每个第一子带信号来生成分别对应于多个通道的第二子带信号。每个第二子带信号包括第一分量和第二分量，该第一分量和该第二分量是通过基于多维听觉表现方法给对应的第一子带信号中的期望分量和噪声分量分别赋予空间听觉特性和不同于该空间听觉特性的感知听觉特性来获得的。将第二子带信号变换为用于以该多维听觉表现方法进行呈现的信号。通过对期望声音和噪声赋予不同的听觉特性，可以改进音频信号的可理解性。
文档编号G10L21/0208GK103165136SQ20111042177
公开日2013年6月19日申请日期2011年12月15日优先权日2011年12月15日
发明者孙学京, 格伦·迪金斯, 邓惠群, 双志伟, 程斌申请人:杜比实验室特许公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙学京;格伦·迪金斯;邓惠群;双志伟;程斌
技术所有人：杜比实验室特许公司
我是此专利的发明人