用于音频信号处理的多声道直接-周围分解的装置及方法

文档序号：9650933阅读：581来源：国知局

用于音频信号处理的多声道直接-周围分解的装置及方法
【技术领域】
[0001] 本发明设及用于音频信号处理的多声道直接-周围分解的装置及方法。
【背景技术】
[0002] 音频信号处理变成愈来愈重要。在此领域中，将声音信号分离成直接声音信号及周围声音信号起到重要作用。
[0003] 一般而言，声音由直接声与周围（或漫射）声的混合物组成。直接声由音源发出，例如乐器、歌手或扬声器，并且W最短可能路径到达接收器，例如收听者的耳道口或麦克风。
[0004] 当收听直接声时感知为来自音源方向。用于定位及用于其它空间声音特性的相关听觉线索为双耳间电平差、双耳间时差及双耳间同调（interauralcoherence)。造成相同的双耳间电平差及双耳间时差的直接声波被感知为来自相同方向。在无漫射声存在的情况下，到达左耳及右耳或任何其它多种传感器的信号为同调。
[0005] 相反地，周围声由许多间隔音源或声音反射边界发出促成相同周围声。当声波到达室内壁面时，其部分被反射，并且在室内的全部反射的迭置（又称混迭）是周围声的杰作。其它实施例为听众声（例如掌声）、环境声（例如雨声）、及其它背景声（例如增杂人声）。周围声感知为漫射性，无法定位，并且由收听者造成包封印象（"浸没于声音内"）。当使用多个间隔传感器捕捉周围声场时，记录的信号至少部分为非同调。
[0006] 声音后现及再现的各项应用可从音频信号分解成直接信号成分及周围信号成分获益。此种信号处理的主要挑战是针对任意数的输入声道信号及针对全部可能的输入信号特性，达成高度分离同时维持高音质。直接-周围分解值AD)亦即音频信号分解成直接信号成分及周围信号成分许可信号成分的分开再现或修正，例如是音频信号的上混所期望的。
[0007] 术语上混是指给定具有N声道的输入信号，产生具有P声道的信号的过程，其中， P〉N。其主要应用在使用具有比较输入信号中可用的声道更多声道的环绕声设置W再现音频信号。通过使用改进信号处理算法再现内容，使收听者能够使用该多声道声音再现设置的全部可用声道。此种处理可将输入信号分解成有意义的信号成分（例如基于在立体影像中觉察的位置、直接声相较于周围声、单一乐器）或分解成此等信号成分衰减或加强的信号。
[0008] 两个上混构思是广为人知的。
[0009] 1.经引导上混：具有额外信息引导上混过程的上混。额外信息可W特定方式"编码"于该输入信号或可另行存储。
[0010] 2.未经引导上混：没有任何额外信息，输出信号排它地得自音频输入信号。
[0011] 就直接信号及周围信号的定位而言，改进上混法可进一步分类。可区分为"直接/ 周围法"及"频带内"办法。W直接/周围为基础的技术的核屯、成分是提取周围信号（其馈至例如多声道环绕声设置的后方声道或高度声道）。利用后方声道或高度声道再现周围信号引起收听者的包封印象（"浸没于声音内"）。此外，根据直接音源在立体全景中的觉察位置，直接音源可分散在前方声道。相反地，"频带内"办法针对将全部声音（直接声及周围声）使用全部可用的扬声器环绕该收听者定位。
[0012] 将音频信号分解成直接信号及周围信号也许可例如通过缩放或滤波而分开修正周围声或直接声。一项使用情况是已经使用过高量周围声记录的音乐表演记录处理。另一项使用情况是制造音频（例如用于电影声音或音乐），其中，在不同位置记录的及因而具有不同周围声特性的音频信号被组合。
[0013] 在任何情况下，此种信号处理的要求针对任意数目的输入声道信号及针对全部可能的输入信号特性达成高度分离同时维持高音质。
[0014] 先前技术针对DAD或衰减或增强直接信号成分或周围信号成分曾经提出多个办法，简短综述如下。
[0015] 已知的构思系设及语音信号的处理，目标针对从麦克风记录中去除非期望的背景噪声。
[0016] 衰减来自具有两个输入声道的语音记录的混响的方法描述于[1]中。通过衰减输入信号中的不相关（或漫射）信号成分可减少混响信号成分。处理时在时频域中实现，使得子带信号系利用频谱加权法处理。实数值加权因子使用功率谱密度（PSD)计算
[0017] k) = E找(m，k)X*(m，k)} (I) 阳0化]k) = E阳(m，k)Y*(m，k)} 似
[0019] d)xy(m，k) = E找(m，k)Y*(m，k)}做
[0020] 其中，X(m,k)及Y(m,k)表示时域输入信号Xt[n]及yjn]的时频域表示型态，E{ ?} 为预期运算，并且X*为X的复共辆。
[002U 原作者指出当与（Ky(m，k)成正比时，例如当使用权值等于标准化交叉相关函数 (或同调函数）时，不同的频谱加权函数为可行。
[0022]
[0023] 根据相似的理论基础，[2]描述的方法使用频谱加权（具有在频带计算的从标准化交叉相关函数获得的权重）来提取周围信号，参考式（4)(或原作者用词"声道间短时间同调函数"）。比较[1]的差异为替代衰减漫射件号成分，直接信号成分使用（1-P(m，k)) 的单调稳定函数的该等频谱权重来衰减。
[0024] 使用多声道Wiener滤波，分解应用于具有二声道之输入信号的之上混应用已经描述于巧]。处理在时频域完成。输入信号系经模型化为周围信号与一个活性直接音源 (每个频带）的混合物，其中，一个声道的直接信号限于为第二声道中的直接信号成分的缩放拷贝，亦即幅值筛选（panning)。筛选系数及直接信号及周围信号的功率使用标准化交叉相关及二声道的输入信号功率估计。直接输出信号及周围输出信号系从输入信号与实数值加权系数的组合得出。施加额外后缩放使得输出信号的功率等于估计量。
[0025] [4]中描述的方法根据周围功率估值而使用频谱加权提取周围信号。周围功率为估值，根据的假设包括二声道的直接信号成分为全然相关，周围声道信号彼此及与直接信号不相关，及二声道的周围功率为相等。
[0026] 用于根据指向性音频编码值irAC)的立体声信号的上混方法描述于[5]。DirAC 针对到达方向、漫射性及一声场频谱的分析及再现。为了立体声输入信号的上混，仿真输入信号的无回声B-格式记录。
[0027] 使用适应性滤波算法从立体声音提取不相关混迭的方法，旨在利用最小均方 (LM巧算法，使用其它声道信号预测一个声道信号中的直接信号成分描述于[6]。接着从输入信号中减去估计得的直接信号而得到周围信号。本办法的理论基础为预测只针对相关信号有用，预测误差类似不相关信号。基于LMS原理的各种适应性滤波算法存在并且可行，例如LMS或标准化LMS(NLM巧算法。
[0028] 针对具有多于两个声道的输入信号的分解，一种方法描述于[7]，其中，多声道信号首先下混W获得2-声道立体声信号，并且随后应用巧]中呈示的用于处理立体声输入信号的方法。
[0029] 针对单声道信号的处理，[引描述的方法使用频谱加权提取周围信号，其中，频谱权重使用特征提取及监督学习计算。
[0030] 另一种针对上混应用从单声道记录提取周围信号的方法从该输入信号的时频域表示与其压缩版本间的差获得时频域表示，较佳地使用非负矩阵因式分解来计算巧]。
[0031] 已经产生混迭信号的混迭系统的幅值转移函数的估计，提取与改变音频信号中的混迭信号成分的方法描述于[10]。信号成分的频域表示的幅值的估计利用递归过滤获得且可经修正。

【发明内容】

[0032] 本发明的目的是提供用于音频信号处理的多声道直接-周围分解的改良构思。本发明的目的通过如权利要求1所述的装置、通过权利要求14所述的方法、及通过权利要求 15所述的计算机程序加W解决。
[0033] 提出一种用于根据两个或更多个音频输入声道信号生成一个或多个音频输出声道信号的装置。两个或更多个音频输入声道信号的每一个包含直接信号部分及周围信号部分。该装置包含用于通过估计第一功率谱密度信息及通过估计第二功率谱密度信息而确定一滤波器的滤波器确定单元。此外，该装置包含用于通过将该滤波器应用于两个或更多个音频输入声道信号来生成一个或多个音频输出声道信号的信号处理器。第一功率谱密度信息指示关于两个或更多个音频输入声道信号的功率谱密度信息，并且第二功率谱密度信息指示关于两个或更多个音频输入声道信号的周围信号部分的功率谱密度信息。或者第一功率谱密度信息指示关于两个或更多个音频输入声道信号的功率谱密度信息，并且第二功率谱密度信息指示关于两个或更多个音频输入声道信号的直接信号部分的功率谱密度信息。或者第一功率谱密度信息指示关于两个或更多个音频输入声道信号的直接信号部分的功率谱密度信息，并且第二功率谱密度信息指示关于两个或更多个音频输入声道信号的周围信号部分的功率谱密度信息。
[0034] 实施例提出用于将音频输入信号分解成直接信号成分及周围信号成分的构思，其可应用于声音后现及再现。此种声音处理的主要挑战是针对任意数目的输入声道信号及针对全部可能的输入信号特性达成高度分离同时维持高音质。所提出的构思基于时频域的多声道信号处理，结果导致就均方差意义上的限制最佳解，及例如经历估计期望信号失真的限制，或残差干设减少的限制。
[0035] 提出用于将音频输入信号分解成直接信号成分及周围信号成分的实施例。此外，将提出计算周围信号成分的滤波器的导算，并且此外，描述滤波器的应用实施例。
[0036] 若干实施例设及遵照直接/周围办法的未经引导的上混，输入信号具有多于一个声道。
[0037] 至于所描述分解的设想应用，关注于计算具有与输入信号等数声道的输出信号。针对此项应用，实施例就分离及音质而言提供极佳结果，原因在于其能够因应直接信号在输入声道间有时间延迟的直接信号。与其它构思相反，例如[3]提出的构思，实施例并不假设输入信号中的直接声仅通过缩放筛选（幅值筛选），同时也在各声道的直接信号间导入差异。
[0038] 此外，与只能处理有一或二个声道的输入信号的先前技术的全部其它构思相反 (参见上文），实施例能够在具有任意数声道的输入信号上操作。
[0039] 实施例的其它优点是控制参数的使用、周围PSD矩阵的估计、及滤波器的进一步修正，容后详述。
[0040] 有些实施例针对全部输入声音物体提供一致的周围声。当输入信号分解成直接及周围声时，有些实施例运用适当音频信号处理调适周围声特性，其它实施例利用人工混响及其它人工周围声来替代周围信号成分。
[0041] 根据实施例，该装置可进一步包含分析滤波器组，其被配置为将两个或更多个音频输入声道信号从时域变换成时频域。该滤波器确定单元可被配置为根据W时频域表示的音频输入声道信号，通过估计该第一功率谱密度信息及该第二功率谱密度信息来确定该滤波器。该信号处理器可被配置为通过将该滤波器应用于W时频域表示的两个或更多个音频输入声道信号上来生成W时频域表示的一个或多个音频输出声道信号。此外，该装置可进一步包含合成滤波器组，其被配置为将W时频域表示的一个或多个音频输出声道信号从时频域变换成时域。
[0042] 再者，提

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：克里斯蒂安·乌勒;埃马努埃尔·哈贝茨;帕特里克·甘普;米夏埃尔·克拉茨;
技术所有人：弗劳恩霍夫应用研究促进协会;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。