用于合并空间音频流的设备的制作方法

文档序号:7735941阅读:100来源:国知局
专利名称:用于合并空间音频流的设备的制作方法
技术领域
本发明涉及音频处理领域,尤其涉及空间音频处理以及多个空间音频流的合并。
背景技术
比照 V. Pulkki 禾口 C. Faller 的"Directional audio coding in spatial sound reproduction and stereo upmixing" (AES 28th International Conference, Pitea,ifnf 典,2006 年 6 月)以及 V. Pulkki 的"A method for reproducing natural or modified spatial impression in Multichannel listening”(申请日为 2004 年 9 月的专利 WO 2004/077884 Al),DirAC(定向音频编码Directional Audio Coding)是分析和再现空间 声音的高效方法。DirAC使用基于特征的声音场的参数表示,该特征与空间声音的感知相 关,该参数即到达方向(DOA=Direction Of Arrival)以及声音场在频率子带的扩散。实 际上,DirAC假设当正确地再现声音场的DOA时即正确地感知双耳时差(ITD =Interaural Time Difference)和双耳电平差(ILD Jnteraural Level Difference),同时假设如果正 确地再现扩散的话则正确地感知双耳连贯性(IC=Interaural Coherence) 0这些参数(即DOA和扩散)表示边信息,该边信息伴随着被称为单声道DirAC流 中的单声道信号(或者单信号;mono signal)。从麦克风信号的时间-频率表示获得DirAC 参数。因而,所述参数依赖于时间和频率。在再现侧,该信息允许准确的空间渲染。为了在 期望的收听位置再生空间声音,需要多扬声器设置。然而,其几何结构是任意的。实际上, 用于扬声器的信号被确定为DirAC参数的函数。DirAC和参数化多通道音频编码(例如环绕MPEG)之间存在实质差异,尽管两者具 有非常相似的处理结构,参照 Lars Villemoes> Juergen Herre> Jeroen Breebaart、Gerard Hotho、Sascha Disch、Heiko Purnhagen 禾口 Kristofer Kjrlingm 的"MPEG surround The forthcoming ISO standard for spatial audio coding" (AES 28th International Conference, Pitea,瑞典,2006年6月)。尽管环绕MPEG基于不同扬声器通道的时间-频 率分析,但是DirAC采用同步麦克风的通道作为输入,这有效地在一个点描述声音场。这 样,DirAC也表示了用于空间音频的高效记录技术。处理空间音频的另一个已有系统是SA0C(空间音频对象编码=Spatial Audio Object Coding), 参 照 Jonas EngdegarcUBarbara Resch、Cornelia Falch、Oliver Hellmuth、Johannes Hilpert、Andreas Hoelzer、Leonid Ternetiev、Jeroen Breebaart> Jeroen Koppens、Erik Schuijer 禾口 Werner Oomen 的"Spatial audio object coding (SAOC) the upcoming MPEG standard on parametric object based audio coding” (124th AES Convention,2008 年 5 月 17-20 日,Amsterdam,荷兰,2008),目前在 ISO/MPEG内进行标准化。SAOC依赖于环绕MPEG的渲染引擎(rendering engine)并且将不同的声音源作 为对象。该音频编码在比特率方面提供非常高的效率并且在再现方面给予了空前的交互自 由。该方法保障在原有系统中的新的引人注目的特征和功能性,以及其它一些新的应用。

发明内容
本发明的目的是提供一种用于合并空间音频信号的认可的概念。通过根据权利要求1或14之一的用于合并的设备以及根据权利要求13或15之 一的用于合并的方法来实现该目的。注意在多通道DirAC流的情况下(即,如果有4B格式音频通道可用),合并是不必 要的。实际上,来自不同源的信号能够被直接相加以获得合并的流的B格式信号(B-format signal) 0然而,如果这些通道不可用,则合并是有问题的。本发明基于如下的发现能够通过将波形表示(例如平面波表示)和扩散场表示 相加来表示空间音频信号。对于前者可以分配一个方向。当合并多个音频流时,实施例可 以允许获得合并的流的边信息(或者边信息;Side information;例如扩散和方向)。实施 例可以从波形表示以及输入音频流获得该信息。当合并数个音频流(能够通过波形部或表 示以及扩散部或表示对这些音频流建模)时,能够单独地合并波形部或分量以及扩散部或 分量。合并波形部产生合并的波形部,对于该合并的波形部,可以基于波形部表示的方向获 得合并的方向。另外,也能够单独地合并扩散部,并且从合并的扩散部能够推导出整体扩散 参数。实施例可以提供一种方法,所述方法用以合并编码为单声道DirAC流的两个或更 多个空间音频信号。所获得的合并的信号也能够被表示作为单声道DirAC流。在实施例中, 单声道DirAC编码能够是描述空间音频的紧凑方式,因为仅需要将单个音频通道与边信息 一起发送。在实施例中,可能的情形是具有多于两方的电话会议应用。例如,让用户A和用户 B和C通信,这些用户生成两个单独的单声道DirAC流。在A的位置,实施例可以允许用户 B和C的流被合并到单个单声道DirAC流,该单个的单音道DirAC流能够使用已有DirAC合 成技术将其重现。在利用看到多点控制单元(MCU multipoint control unit)的网络拓扑 的实施例中,MCU本身可以执行合并操作,从而用户A能够接收已经包含来自B和C两者的 语音的单个单声道DirAC流。清楚地,将被合并的DirAC流也能够被合成地生成,意味着适 当的边信息能够被加入单声道音频信号。在刚才提及的例子中,用户A可以没有任何边信 息地从B和C接收两个音频流。然后可以向每个流分配特定的方向和扩散,因而加入需要 来构造DirAC流的边信息,该DirAC流然后能够由实施例合并。在多玩家在线游戏和虚拟现实应用中能够找到实施例中另一个可能的情形。在这 些情况下,从玩家或虚拟对象生成数个流。每个流的特征在于与收听者相关的特定到达方 向并且因而能够由DirAC流表达。可以使用实施例来将不同的流合并至单个DirAC流,然 后在收听者位置重现该单个DirAC流。


使用附图详细描述本发明的实施例,其中图Ia示出了用于合并的设备的实施例;图Ib示出了在用于平面波形的高斯平面中的颗粒速度矢量的压力和分量;图2示出了 DirAC编码器的实施例;
图3说明了音频流的理想合并;图4示出了通常DirAC合并处理框的实施例的输入和输出;图5示出了实施例的框图;以及图6示出了用于合并的方法的实施例的流程图。
具体实施例方式图Ia显示了用于第一空间音频流与第二空间音频流合并以获得合并的音频流的 设备100的实施例。图Ia中所示的实施例显示了两个音频流的合并,然而不应当受限于 两个音频流,以相似的方式,可以合并多个空间音频流。例如,第一空间音频流和第二空间 音频流可以对应于单声道DirAC流并且合并的音频流也可以对应于单个单声道DirAC音频 流。如同接下来将详细说明的,单声道DirAC流可以包括例如由单声道定向麦克风捕捉的 压力信号以及边信息。后者可以包括声音依赖于时间-频率的扩散和到达方向的测量。图Ia示出了用于将第一空间音频流与第二空间音频流合并以获得合并的音频流 的设备100的实施例,该设备100包括估计器120,用于估计第一波形表示和第二波形表示, 该第一波形表示包括用于第一空间音频流的第一波形方向测量和第一波形场测量,所述第 一空间音频流具有第一音频表示和第一到达方向,该第二波形表示包括用于第二空间音频 流的第二波形方向测量和第二波形场测量,所述第二空间音频流具有第二音频表示和第二 到达方向。在实施例中,第一和/或第二波形表示可以对应于平面波形表示。在图Ia所示的实施例中,设备100还包括处理器130,所述处理器130用于处理第 一波形表示和第二波形表示以获得合并的波形表示并且用于处理第一音频表示和第二音 频表示以获得合并的音频表示,该合并的波形表示包括合并的场测量和合并的到达方向测 量,处理器130还适于提供包括合并的音频表示和合并的到达方向测量的合并的音频流。估计器120可以适于估计以第一波形场幅度而言的第一波形场测量,用于估计以 第二波形场幅度而言的第二波形场测量,以及用于估计第一波形场测量和第二波形场测量 之间的相位差。在实施例中,该估计器能够适于估计第一波形场相位和第二波形场相位。在 实施例中,估计器120可以仅分别估计第一和第二波形表示、第一和第二波形场测量之间 的相位偏移或者相位差。然后处理器130可以相应地适于处理第一波形表示和第二波形表 示以获得合并的波形表示,该合并的波形表示包括合并的波形场测量,该合并的波形场测 量可以包括合并的波形场幅度、合并的波形场相位以及合并的到达方向测量,并且处理器 130可以适于处理第一音频表示和第二音频表示以获得合并的音频表示。在实施例中,处理器130还能够适于处理第一波形表示和第二波形表示以获得合 并的波形表示,该合并的波形表示包括合并的波形场测量,合并的到达方向测量以及合并 的扩散参数,并且能够适于提供合并的音频流,该合并的音频流包括合并的音频表示、合并 的到达方向测量以及合并的扩散参数。换言之,在实施例中,能够基于用于合并的音频流的波形表示确定扩散参数。扩 散参数可以建立音频流的空间扩散的测量,即用于空间分布(例如围绕特定方向的角向分 布)的测量。在实施例中,可能的情形可以是仅使用定向信息的两个单声道合成信号的合 并。处理器130可以适于处理第一波形表示和第二波形表示以获得合并的波形表示,其中合并的扩散参数基于第一波形方向测量和第二波形方向测量。在实施例中,第一和第 二波形表示可以具有不同的到达方向并且合并的到达方向可以位于这两个方向之间。在该 实施例中,尽管第一和第二空间音频流可能不提供任何扩散参数,可以从第一和第二波形 表示(即基于第一波形方向测量和第二波形方向测量)确定合并的扩散参数。例如,如果 两个平面波形从不同方向冲击,即第一波形方向测量与第二波形方向测量不同,则合并的 音频表示可以包括组合的合并的到达方向和非消失合并的扩散参数,以解释第一波形方向 测量和第二波形方向测量。换言之,由于两个被关注的空间音频流可能不具有或不提供任 何扩散,合并的音频流可以具有非消失扩散(non-vanishing diffuseness),因为其基于由 第一和第二音频流建立的角向分布。实施例可以例如为合并的DirAC流估计扩散参数Ψ。通常,实施例然后可以将各 个流的扩散参数设置或假设为固定值,例如O或0. 1,或者设置或假设为从音频表示和/或 方向表示的分析中得到的变化值。在其它实施例中,用于将第一空间音频流和第二空间音频流合并以获得合并的音 频流的设备100可以包括这样的估计器120,所述估计器120用于估计第一波形表示,该第 一波形表示包括用于第一空间音频流的第一波形方向测量和第一波形场测量,第一空间音 频流具有第一音频表示、第一到达方向和第一扩散参数。换言之,第一音频表示可以对应于 具有特定空间宽度或扩散到特定程度的音频信号。在一个实施例中,这可以对应于计算机 游戏中的场景。第一玩家可以在场景中,其中第一音频表示代表音频源,例如经过的火车, 产生一定程度的扩散声音场。在这样实施例中,由火车本身诱发的声音可以是扩散的,由火 车的喇叭产生的声音(即对应的频率分量)可以不是扩散的。估计器120可以进一步适于估计第二波形表示,该第二波形表示包括用于第二空 间音频流的第二波形方向测量和第二波形场测量,第二空间音频流具有第二音频表示、第 二到达方向和第二扩散参数。换言之,第二音频表示可以对应于具有特定空间宽度或扩散 到特定程度的音频信号。这也可以对应于计算机游戏中的场景,其中第二声音源可以由第 二音频流代表,例如另一列火车在另一个轨道上经过的背景噪声。对于在计算机游戏中的 第一玩家,两个声音源都是扩散的,因为他位于火车站位置。在实施例中,处理器130能够适于处理第一波形表示和第二波形表示以获得包括 合并的波形场测量和合并的到达方向测量的合并的波形表示,并且用于处理第一音频表示 和第二音频表示以获得合并的音频表示,并且用于提供包括合并的音频表示和合并的到达 方向测量的合并的音频流。换言之,处理器130可以不确定合并的扩散参数。这可以对应 于由在上述计算机游戏中的第二玩家体验的声音场。第二玩家可以位于远离火车站的位 置,从而两个声音源对于第二玩家的体验来说可能不是扩散的,而是代表集中的声音源,这 是因为更远的距离所导致。在实施例中,设备100还可以包括装置110,所述装置110用于为第一空间音频流 确定第一音频表示和第一到达方向,并且为第二空间音频流确定第二音频表示和第二到达 方向。在实施例中,可以为用于确定的装置110提供直接音频流,即该确定可以仅指的是读 取音频表示(例如以压力信号和DOA而言)以及可选地扩散参数(以边信息而言)。估计器120可以适于从进一步具有第一扩散参数的第一空间音频流估计第一波 形表示和/或从进一步具有第二扩散参数的第二空间音频流估计第二波形表示,处理器130可以适于处理合并的波形场测量、第一和第二音频表示以及第一和第二扩散参数,以获 得用于合并的音频流的合并的扩散参数,并且处理器130能够还适于提供包括合并的扩散 参数的音频流。用于确定的装置110可以适于为第一空间音频流确定第一扩散参数以及为 第二空间音频流确定第二扩散参数。处理器130可以适于分块地(即以样本段或值段)处理空间音频流、音频表示、 DOA和/或扩散参数。在一些实施例中,段(segment)可以包括与在空间音频流的特定时间 上的特定频带的频率表示相对应的预定数目的样本。这样的段可以对应于单声道表示并且 具有相关联的DOA和扩散参数。在实施例中,用于确定的装置110能够适于以依赖于时间-频率的方式确定第一 和第二音频表示、第一和第二到达方向以及第二和第二扩散参数,和/或处理器130能够适 于以依赖于时间-频率的方式处理第一和第二波形表示、扩散参数和/或DOA测量和/或 适于确定合并的音频表示、合并的到达方向测量和/或合并的扩散参数。在实施例中,第一音频表示可以对应于第一单声道表示,第二音频表示可以对应 于第二单声道表示并且合并的音频表示可以对应于合并的单声道表示。换言之,音频表示 可以对应于单个音频通道。在实施例中,用于确定的装置110能够适于确定,和/或处理器能够适于处理第一 和第二单声道表示、第一和第二 DOA以及第一和第二扩散参数,并且处理器130可以以依赖 于时间-频率的方式提供合并的单声道表示、合并的DOA测量和/或合并的扩散参数。在 实施例中,第一空间音频流可以已经由例如DirAC表示的方式提供,用于确定的装置110能 够适于仅通过从第一和第二音频流(例如从DirAC边信息)提取的方式确定第一和第二单 声道表示、第一和第二 DOA以及第一和第二扩散参数。下面,将详细说明一个实施例,其中将首先介绍标记法和数据模型。在实施例中, 用于确定的装置110能够适于确定第一和第二音频表示和/或处理器130能够适于以压力 信号P(t)或时间-频率转换压力信号P (k,η)的方式提供合并的单声道表示,其中k表示 频率指标,η表示时间指标。在实施例中,第一和第二波形方向测量以及合并的到达方向测量可以对应于任何 定向量,例如矢量、角度、方向等,并且能够从代表音频分量(例如强度矢量、颗粒速度矢量 等)的任何定向测量中获取第一和第二波形方向测量以及合并的到达方向测量。第一和第 二波形场测量以及合并的波形场测量可以对应于描述音频分量的任何物理量(能够是实 数或复数),可以对应于压力信号、颗粒速度幅度或幅值、响度等。此外,可以在时域和/或 频考虑测量。实施例可以基于对于输入流的波形表示的波形场测量的平面波形表示的估计,该 估计能够由图Ia中的估计器120执行。换言之,可以使用平面波形表示对波形场测量建 模。通常,存在对于平面波形或波形的数个等同穷举(即详尽)描述。下面将介绍数学描 述来计算对于不同分量的扩散参数和到达方向或方向测量。尽管只有几个描述直接与物理 量(例如压力、颗粒速度等)相关,但是潜在地存在无穷种方式来描述波形表示,下面将举 一个例子作为示例,但是不以任何方式限制本发明的实施例。为了进一步详细地说明不同的潜在描述,考虑两个实数a和b。当
权利要求
1.一种用于合并第一空间音频流和第二空间音频流以获得合并的音频流的设备 (100),包括估计器(120),用于估计第一波形表示,所述第一波形表示包括用于所述第一空间音频流的第一波形 方向测量和第一波形场测量,所述第一空间音频流具有第一音频表示和第一到达方向,和用于估计第二波形表示,所述第二波形表示包括对于所述第二空间音频流的第二波形 方向测量和第二波形场测量,所述第二空间音频流具有第二音频表示和第二到达方向;以 及处理器(130),用于处理所述第一波形表示和所述第二波形表示以获得合并的波形表示,所述合并的 波形表示包括合并的波形场测量、合并的到达方向测量和合并的扩散参数,其中所述合并 的扩散参数基于所述第一波形方向测量和所述第二波形方向测量,用于处理所述第一音频表示和所述第二音频表示以获得合并的音频表示,和 用于提供所述合并的音频流,所述合并的音频流包括所述合并的音频表示、所述合并 的到达方向测量和所述合并的扩散参数。
2.根据权利要求1所述的设备(100),其中所述估计器(120)适于 以估计第一波形场幅度的方式估计所述第一波形场测量,以估计第二波形场幅度的方式估计所述第二波形场测量,估计所述第一波形场测量和所述第二波形场测量之间的相位差,和/或估计第一波形场相位和第二波形场相位。
3.根据权利要求1或2所述的设备(100),其中 所述估计器(120)适于从进一步具有第一扩散参数的所述第一空间音频流估计所述第一波形表示,和/或 从进一步具有第二扩散参数的所述第二空间音频流估计所述第二波形表示, 所述处理器(130)适于处理所述合并的波形场测量、所述第一音频表示和所述第二音频表示以及所述第一扩 散参数和所述第二扩散参数以获得用于所述合并的音频流的合并的扩散参数,并且其中所 述处理器(130)进一步适于提供包括所述合并的扩散参数的所述音频流。
4.根据权利要求1至3中任一项所述的设备,包括装置(110),所述装置(110)用于 为所述第一空间音频流确定所述第一音频表示、所述第一到达方向测量和所述第一扩散参数,以及为所述第二空间音频流确定所述第二音频表示、所述第二到达方向测量和所述第二扩 散参数。
5.根据权利要求1至4中任一项所述的设备,其中所述处理器(130)适于以依赖时 间_频率的方式确定所述合并的音频表示、所述合并的到达方向测量以及所述合并的扩散 参数。
6.根据权利要求1至5中任一项所述的设备(100),其中所述估计器(120)适于估计 所述第一音频表示和/或所述第二音频表示,并且其中所述处理器(130)适于以提供压力 信号P(t)或时间-频率转换压力信号P (k,η)的方式提供所述合并的音频表示,其中k表示频率指标并且η表示时间指标。
7.根据权利要求6所述的设备(100),其中所述处理器(130)适于处理所述第一到达 方向测量和所述第二到达方向测量和/或以单位矢量eMA(k,η)的方式提供所述合并的到 达方向测量,其中eD0A(k, n) = -e^k, η)以及
8.根据权利要求7所述的设备(100),其中所述处理器(130)适于处理所述第一扩散 参数和/或所述第二扩散参数,和/或以下述方式提供所述合并的扩散参数
9.根据权利要求8所述的设备(100),其中所述估计器(120)适于估计N个波形表示 和扩散场表示声篇沐《)作为N个空间音频流户的近似,其中1彡i彡N,并且其中所述处理器(130)适于基于估计确定所述合并的到达方向测量,
10.根据权利要求11所述的设备(100),其中所述估计器(120)适于根据下式估计 α ⑴(k,η)和 β (i) (k,η)
11.根据权利要求9所述的设备(100),其中所述处理器(130)适于根据下式确定α⑴ (k,η)和 β (i) (k,η)
12.根据权利要求9至11中任一项所述的设备(100),其中所述处理器(130)适于通 过下式确定所述合并的扩散参数
13.一种用于合并第一空间音频流和第二空间音频流以获得合并的音频流的方法,包 括步骤估计第一波形表示,所述第一波形表示包括用于所述第一空间音频流的第一波形方向 测量和第一波形场测量,所述第一空间音频流具有第一音频表示和第一到达方向;估计第二波形表示,所述第二波形表示包括用于所述第二空间音频流的第二波形方向 测量和第二波形场测量,所述第二空间音频流具有第二音频表示和第二到达方向;处理所述第一波形表示和所述第二波形表示以获得合并的波形表示,所述合并的波形 表示包括合并的波形场测量、合并的到达方向测量和合并的扩散参数,其中所述合并的扩 散参数基于所述第一波形方向测量和所述第二波形方向测量;处理所述第一音频表示和所述第二音频表示以获得合并的音频表示;以及提供所述合并的音频流,所述合并的音频流包括所述合并的音频表示、所述合并的到 达方向测量和所述合并的扩散参数。
14.一种用于合并第一空间音频流和第二空间音频流以获得合并的音频流的设备 (100),包括估计器(120),用于估计第一波形表示,所述第一波形表示包括对于所述第一空间音频流的第一波形 方向测量和第一波形场测量,所述第一空间音频流具有第一音频表示、第一到达方向和第 一扩散参数,和用于估计第二波形表示,所述第二波形表示包括对于所述第二空间音频流的第二波形 方向测量和第二波形场测量,所述第二空间音频流具有第二音频表示和第二到达方向;以 及处理器(130),用于处理所述第一波形表示和所述第二波形表示以获得合并的波形表示,所述合并的 波形表示包括合并的波形场测量和合并的到达方向测量,用于处理所述第一音频表示和所述第二音频表示以获得合并的音频表示,和 用于提供所述合并的音频流,所述合并的音频流包括所述合并的音频表示和所述合并 的到达方向测量。
15.一种用于合并第一空间音频流和第二空间音频流以获得合并的音频流的方法,包 括步骤估计第一波形表示,所述第一波形表示包括用于所述第一空间音频流的第一波形方向 测量和第一波形场测量,所述第一空间音频流具有第一音频表示、第一到达方向和第一扩 散参数;估计第二波形表示,所述第二波形表示包括用于所述第二空间音频流的第二波形方向 测量和第二波形场测量,所述第二空间音频流具有第二音频表示和第二到达方向;处理所述第一波形表示和所述第二波形表示以获得合并的波形表示,所述合并的波形 表示包括合并的波形场测量和合并的到达方向测量,处理所述第一音频表示和所述第二音频表示以获得合并的音频表示;以及 提供所述合并的音频流,所述合并的音频流包括所述合并的音频表示和所述合并的到 达方向测量。
16.一种计算机程序,具有用于执行权利要求13或15所述的方法的程序代码,其中所 述程序代码在计算机或处理器上运行。
全文摘要
一种用于合并第一空间音频流和第二空间音频流以获得合并的音频流的设备(100),该设备(100)包括估计器(120),用于估计第一波形表示,所述第一波形表示包括对于第一空间音频流的第一波形方向测量和第一波形场测量,所述第一空间音频流具有第一音频表示和第一到达方向。所述估计器(120)适于估计第二波形表示,第二波形表示包括对于第二空间音频流的第二波形方向测量和第二波形场测量,所述第二空间音频流具有第二音频表示和第二到达方向。所述设备(100)还包括处理器(130),所述处理器用于处理第一波形表示和第二波形表示以获得合并的波形表示,所述合并的波形表示包括合并的波形场测量和合并的到达方向测量,用于处理第一音频表示和第二音频表示以获得合并的音频表示,和用于提供包括合并的音频表示和合并的到达方向测量的合并的音频流。
文档编号H04S3/00GK102138342SQ200980131410
公开日2011年7月27日 申请日期2009年8月11日 优先权日2008年8月13日
发明者乔瓦尼·德尔加多, 法比安·库切, 理查德·舒尔茨-阿姆林, 米可-维利·莱迪南, 维利·普尔基, 马库斯·卡林格 申请人:弗朗霍夫应用科学研究促进协会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1