生成并回放复制保护的波场合成音频呈现的方法及装置与流程

文档序号：15424522发布日期：2018-09-14 20:35阅读：258来源：国知局

本发明的实施例涉及用于生成音频场景的复制保护的波场合成音频表示的装置和相关方法，以及涉及用于再现音频场景的复制保护的波场合成音频表示的装置和相关方法。其他实施例涉及用于执行方法的计算机程序。

背景技术：

在波场合成再现系统中，原始数据，即通常作为音频文件以及元数据存在的音频对象被分别存储和传输，并根据在再现室(reproduction room)中真实存在的扬声器以及真实存在的扬声器配置(例如，具有多于30个扬声器分布于空间中的阵列)被分别渲染。为此，元数据通常包括用于所附音频对象的位置信息。在渲染期间，根据位置信息并根据现有的扬声器配置，将音频文件分布至多个扬声器声道以实际上将各个音频对象置于再现室中的适当位置。因此，通常地，通过所有扬声器声道以不同缩放(即以不同响度)和不同延迟输出被分配至音频对象的音频文件。

在一些情况下，必须将再现室中的硬件减至最少，以使得仅需要在其中安装具有扬声器阵列的播放器而无需安装渲染器(以下称为波场合成处理器)。在此方法中，需要考虑针对正确的扬声器配置预渲染音频场景的波场合成音频表示并在正确的再现室中播放经正确预渲染的波场合成音频表示，因为在错误房间(室)(即，具有错误的扬声器阵列)中的音频表示的再现通常导致音频质量的严重下降。例如，基于此概念，在具有多个室以及不同扬声器设置的电影院中，带来随后质量损失的错误操作是无法杜绝的。

通过权限管理提出进一步的需求，特别是在预渲染内容的上下文中，从而需要采取在许可证可用时仅允许特定内容在再现室中再现的措施。在现有技术中，已有多种方法来解决此问题。

例如，一种解决方案可以是(尤其是针对许可证问题)，使用加密并将密钥分开地存储于(例如)电子狗(通常地，便携存储介质)中。在此，优选地设计电子狗，以使得其难以复制。通过此过程，可以确保仅在具有电子狗时使能再现。此方法的缺点是，当电子狗丢失时不可再播放整个许可内容。此外，待加密的数据率相对较高，这与将硬件减少为最基本的目标相悖。

作为加密音频文件的替换，可以使用所谓的音频水印技术(以下称为音频水印)。在此，将被有用信号掩蔽的信号(即，非可听信号)印在音频信号上。例如，为了防止由水印产生的可听干扰，可仅在个别声道中印水印。在再现侧，当水印与许可证可用的再现系统的标识码不匹配时，水印检测器可提取水印并拒绝再现。此水印技术也可与预渲染技术兼容，从而基于水印，可提前确定预渲染的波场合成音频表示与特定再现室的关联。

通过音频水印技术的复制保护中的基本问题在于，通过试误法的蓄意破坏是可能的。背景是“攻击者”已访问水印并可改变信号直到水印不再是可检测的。特别地，在以上阐明的方法(据其水印仅印在单个声道中，如预渲染的波场合成音频表示的扬声器声道中)中，存在如下问题：通过比较两个相邻声道的相关性，针对性攻击变得更容易。因此，需要改进的方法。

技术实现要素：

本发明的目的在于提供改进用于波场合成音频表示以及尤其用于预渲染的波场合成音频表示的复制保护的装置和方法。

通过独立权利要求的主题可解决该问题。

第一实施例提供一种用于生成具有多个音频对象的音频场景的复制保护的波场合成音频表示的装置，其中每个音频对象包括音频文件以及位置信息。该装置包括水印嵌入器，用于将水印嵌入至多个音频对象中的至少一个的音频文件中用以生成用于至少一个音频对象的修改的音频文件，其中水印指定再现室。另外，该装置包括波场合成处理器，用于通过使用用于至少一个音频对象的修改的音频文件的特定再现室的扬声器配置以及用于至少一个音频对象的位置，生成音频场景的复制保护的波场合成音频表示。

本发明的第二方面涉及包括嵌入水印以及生成复制保护的波场合成音频表示的步骤的指定(allocated)方法。

因此，本发明的此前两方面基于如下认识：将水印插入至预渲染的波场合成音频表示中，以便水印指定再现室，波场合成音频表示针对所述再现室而被计算。根据本发明，将水印插入至未渲染的音频文件(原始数据)中(即，在渲染之前提供的音轨中)，以使得水印与至少一个音频对象(而不与特定扬声器声道)相关联。将水印印在原始数据中使得在渲染后水印被分别分布在所有扬声器声道以及至少分布在成组的扬声器声道上。特别地，与在先技术相比，此具有的优势在于水印不再能够从预渲染的波场合成音频表示中轻易移除。此也可以从如下事实得到支持：水印随时间及其取决于用于各个对象的位置信息的“载体对象”变化。

根据另一实施例，将水印嵌入至音频对象的音频文件中，以便通过后向掩蔽、前向掩蔽、同时掩蔽和/或噪声掩蔽，使得水印至少从心理声学的角度来说是非可听的。

根据实施例，水印可被嵌入至具有特定特征的音频对象的音频文件中，如嵌入至最响音频对象中。将水印插入至最响音频对象中的优势在于心理声学掩蔽被最大化。

另一实施例提供(根据第三方面)一种用于在特定再现室中再现音频场景的复制保护的波场合成音频表示的装置。该装置包括：水印检测器，用于在音频场景的复制保护的波场合成音频表示的至少一个扬声器声道中检测指定特定再现室的水印；以及播放器，用于仅在水印检测器检测到指定特定再现室的水印时播放复制保护的波场合成音频表示。

根据本发明的第四方面，提供一种用于再现音频场景的复制保护的波场合成音频表示的方法，其包括检测水印以及播放复制保护的波场合成音频表示的步骤。

根据实施例，待检测水印(即，用于各个室的水印)存储于水印检测器中或可(例如)通过接口从数据载体读入。

根据另一实施例，水印检测器包括扩频器(frequency spreader)以及用于确定通过扩频器而被转换为谱形的待检测水印与至少一个扬声器声道中的信号之间的相关性的相关器。

根据本发明的第五和第六方面，提供可执行上述方法的步骤或子步骤的计算机程序。

附图说明

下面将基于附图论述本发明的实施例，其示出：

图1a为根据第一实施例的用于生成复制保护的波场合成音频表示的装置的示意性框图；

图1b为根据另一实施例的用于生成复制保护的波场合成音频表示的方法的示意性流程图；

图2a为根据第二实施例的用于再现复制保护的波场合成音频表示的装置的示意性框图；

图2b为根据另一实施例的用于再现复制保护的波场合成音频表示的方法的示意性流程图；

图3是波场合成处理器的示意性框图以用来解释在波场合成渲染期间的步骤，以及

图4是水印嵌入器的示意性框图以用来解释将水印嵌入至音频文件中时的操作模式。

具体实施方式

下面参照附图详细论述本发明的实施例，其中，应注意的是，以相同的附图标记表示相同元件或具有相同功能的元件，以使得其描述是可互换的或可互适用的。

在参照图1a、1b、2a以及2b对本发明的实施例进行详细论述之前，将基于图3解释波场合成处理器以及基于图4解释水印嵌入器。

图3示出波场合成处理器10以及示意性扬声器阵列20。

扬声器阵列20通常包括通过扬声器声道LS1-LSn控制的多个独立扬声器。例如，具有40或60个扬声器的扬声器阵列可被实施(例如)为布置在特定再现室22中的360°阵列。例如，室22可以是电影院观众厅，其中扬声器阵列20中的扬声器围绕观众24或呈阵列布置。相应地，例如，将扬声器布置在屏幕后面、在观众后面以及在听众的左边和右边。

并且，在点P处，听众被扬声器阵列20中的多个扬声器围绕，从而在通过扬声器声道LS1-LSn的扬声器阵列20的各个控制下(例如，在扬声器阵列20中的扬声器的子集的单侧控制下)，音频对象分别可被实际上置于空间中的适当位置并可被移动。一个音频对象的分别的实际放置和实际移动很大程度上取决于对扬声器配置(参见扬声器阵列20)的精确认识，从而仅可针对特定再现室22中的特定扬声器阵列20确定各个扬声器声道LS1-LSn。如下所论述的，可由波场合成处理器10分别执行确定以及计算。

波场合成处理器10用于通过使用关于特定再现室22中的扬声器配置20(数量及位置)的信息(I20)基于多个音频对象AO1-AOn计算多个扬声器声道LS1-LSn，每个音频对象包括音频文件和位置信息(被定义为笛卡尔坐标系中的位置以及随时间的移动信息)。

为此，波场合成处理器包括多个输入(参见AD1-ADn)，多个音频信号经由该多个输入被提供给不同的音频对象。以此方法，输入(参见AD1)接收例如用于第一音频对象的音频文件1及该第一音频对象的经分配的位置信息。例如，在电影院设置中，音频对象1可以是从屏幕左侧移动至右侧或此外可能是分别远离观众和朝向观众移动的演员的声音。则，音频文件1将是此演员的实际声音，而位置信息是时间函数，表示在特定时间录制设置中的第一演员的当前位置。另一方面，音频文件n可以是例如以与第一演员相同或不同方式移动的另一演员的声音。其他演员的当前位置通过与音频信号n同步的位置信息而被提供至波场合成处理器10。实际上，根据录制设置，存在不同的实际音频对象，其中各个音频对象的音频文件被提供给波场合成处理器10作为各个轨道(track)。

如上所示，波场合成处理器优选地以数字形式而不是以直接可播放的模拟形式输出多个扬声器声道LS1-LSn，其可随后通过扬声器阵列20中的扬声器被直接播放。波场合成处理器10接收各个扬声器在再现设置(如电影院观众厅)中(分别参见测听室22以及扬声器阵列20)的位置作为输入信息I20。

另外，可通过此信息输入I20读入诸如关于室内声学的更多信息。

通常，例如，被分配至扬声器声道LS1的扬声器信号可以是实际音频对象的分量信号的叠加，从而用于扬声器LS1的扬声器信号包括基于第一扬声器对象1的第一分量、基于音频对象2的第二分量以及基于音频对象n的第n分量。为了在收听者的耳处再现线性叠加，该收听者在实际设置中听到其可感知到的声源的线性叠加，各个分量信号在其计算之后被线性叠加即相加。由于此叠加，第一、第二以及第n音频对象分别包含在各自的扬声器声道LS1-LSn中，其中以对每扬声器声道LS1-LSn的不同缩放因子缩放和/或不同延迟因子延迟音频文件。在此，应当注意的是，在个别扬声器声道LS1-LSn中的缩放也可低至零，以使得音频对象在扬声器声道中不再是可听的。

图4示出用于将水印WS嵌入至音频文件AD中以生成调整的音频文件AD’的水印嵌入器30。

水印嵌入器30读入音频文件AD(其例如作为PCM信号或作为时间离散的音频样本的比特流存在)以及待嵌入的水印WS。此时，通过诸如扩频器(参见阶段30a)将此两个读入的数字信号AD及WS转换为谱形，即，特别地，转换为音频谱值ADS以及水印谱值WSS。例如，可通过将数字信号WS与噪声信号(白噪声)或伪噪声信号相乘以执行WS至WSS的转换。例如，可借助快速傅里叶转换(fast Fourier transformation)直接将AD转换为ADS。出于音频文件AD以及音频文件的谱形ADS，可以确定分别指示(除其他以外的)音频信号的用于掩蔽的区域(例如，具有高总能量的区域)以及(暂时)掩蔽阈值的心理声学模型。掩蔽阈值指示音频信号可以如何变化以使得此变化与产生的听觉印象无关。

不同机制，如暂时掩蔽(后向掩蔽、前向掩蔽或同步掩蔽)以及噪声掩蔽(以信号掩蔽噪声或以噪声掩蔽信号)是可用的。当分别已知ADS的此掩蔽阈值及掩蔽区域(其可用于以掩蔽形式将数据信号插入至AD中)时，在第二阶段(参见附图标记30b)中执行ADS和WSS的结合。具体地，在结合的步骤中，音频信号ADS与数据信号的加权变体WSS相叠加，借此在加权期间分别考虑了确定的掩蔽阈值以及确定的掩蔽区域。此叠加的结果是修改的音频信号AD’以及ADS’(按照谱变形)。通过此过程，当播放音频文件AD’时，可以在不改变人类可听的音频再现的情况下修改音频文件AD直到其作为数据信号如水印WS的载体。

图1a示出用于生成音频场景的复制保护的波场合成音频表示的装置100。装置100包括用于多个音频对象(分别参见AD1+PO1以及ADn+POn)的输入以及用于多个扬声器声道LS1-LSn的输出。另外，装置100包括水印嵌入器102以及波场合成处理器104。水印嵌入器102被布置在输入侧(即，在用于音频对象AD1+PO1以及ADn+POn的输入的一侧)。波场合成处理器104设置在输出侧(即，在用于扬声器声道LS1-LSn的输出的一侧)。随后，参照示出指定方法的图1b，描述装置100的操作模式。

音频场景的波场合成音频表示至少基于多个音频对象(分别参见AD1+PO1以及ADn+POn)。因此，如上所示，每个音频对象包括音频文件AD1或ADn以及经分配的位置信息PO1或POn。

在第一步骤中，装置100(参见图1b，步骤120)将水印WS(可用作用于水印嵌入器102的数字信号)嵌入至至少一个音频文件(即，多个音频对象的AD1或ADn)中。水印指定特定再现室，波场音频表示针对该特定再现室而被渲染。在此，水印可包括：再现室的ID或独特的唯一ID、再现室内的播放器或通常被分配给房间(室)的密钥。可根据上述过程执行嵌入。嵌入的结果至少是修改的音频文件AD1’或ADn’(在此为AD1’)。

因此，水印嵌入器102输出修改的音频文件AD1’以及位置信息PO1并进一步转发未修改的音频文件ADn以及位置信息POn。根据另一实施例，当水印嵌入器102将水印嵌入至多个音频文件AD1以及ADn中时，连同位置信息PO1以及POn一起输出多个修改的音频文件AD1’以及ADn’。可选地，位置信息可不通过水印嵌入器102传递，而是直接提供至波场合成处理器104。

根据另一实施例，水印嵌入器102也可将水印仅嵌入至具有特定特征的一个音频文件中。例如，该特征可以是音频对象相对于其他音频对象的相对音量或音频对象相较于其他对象的相对活性。同样，水印嵌入器102用于检查与待检测特征相关的多个音频对象，并用于选择用于嵌入水印的多个音频对象。

即使当水印嵌入器102被描述为包括如图4中所示的水印嵌入器的功能时，其也可被不同地配置并可使用用于水印的其他嵌入机制。

波场合成处理器104是装置100的第二功能元件，其出于多个音频对象ADn+POn，(其中至少一个音频对象包括修改的音频文件AD1’)计算波场合成音频表示，即用于各自再现室的各个音频对象AD1’+PO1以及ADn+POn的缩放(参见图1b，步骤140)，从而通过各个扬声器声道LS1-LSn以缩放、延迟以及加和形式输出音频对象。为此，波场合成处理器除接收音频对象的音频文件AD1’/ADn以及位置信息PO1/POn之外，还接收关于扬声器配置I20的信息。基本上，如上所解释地执行计算。相应地，音频场景的音频表示被输出为多个扬声器声道LS1-LSn，并可存储于存储介质(如硬盘或蓝光光碟)上，其中，优选地，分开地存储多个扬声器声道LS1-LSn。

因此，水印(音频水印)被(静态地或暂时地)分布至所有或至少多个扬声器声道LS1-LSn上，并具有与各个音频对象相同的声学位置。因此，从心理声学的观点来说，它是最佳不可听的，因为相同的方向也意味着相同的最大掩蔽。另外，此可以确保水印不可被轻易检测并移除(如通过对各个扬声器声道的比较)。对于此的背景是水印以不同的缩放和延迟分布至所有或至少很大部分的扬声器声道上，从而无法检测到允许得到关于水印的结论的声道间相关性。

图2a示出用于再现音频场景的复制保护的波场合成音频表示的装置200。装置200包括水印检测器202以及播放器204。装置200包括用于扬声器声道LS1-LSn的数据接口，其可被水印检测器202以及播放器204访问。播放器204一方面可与水印检测器202在信息上连接，另一方面可直接或通过用于多个扬声器声道(在此以LS1*-LSn*指示)的放大器连接至扬声器阵列20。下面，将结合装置200所基于的指定方法，论述装置200的操作模式(参见图2b)。

例如，将可存储于移动数据载体上的波场合成音频表示以已渲染的扬声器声道LS1-LSn的形式读入装置200，其中各个扬声器声道LS1-LSn对装置200的组件202以及204是可用的。

在第一步骤中(参见图2b，步骤220)，可执行待检测水印SWS的检测，其可存储在水印检测器202中或可从外部读入。例如，可通过电子狗或通常地通过与装置200连接的外部存储介质执行待检测水印SWS的读入。待检测水印SWS与参照图1论述或解释的水印WS相对应。为了检测待检测水印SWS，通常可预先对其进行渲染，其中，基本上可类似于插入来执行渲染。因此，即通过噪声生成器(扩频器)将水印转换为谱形。然后，可通过相关器对待检测水印SWS的此谱变体与扬声器声道LS1-LSn进行对比。优选地，水印检测器202用于在多个扬声器声道LS1-LSn中检测待检测水印SWS。

根据另一实施例，例如，由于最响扬声器声道通常也包括最响对象，当水印被分配至最响音频对象时，仅可在最响扬声器声道中检测到水印。在此，应当注意的是，此并非是一定适用的，尤其是当多个空间上相邻的音频对象比单独的最响对象更响时。

因此，当已通过相关性在扬声器声道中或优选地在多个扬声器声道中确定水印时，可将使能信号(enable signal)传输至播放器204，其随后使能波场合成音频表示的再现。

因此，播放器204再现音频表示(参见图2b，步骤240)，其中真实再现基本上仅代表扬声器信号LS1-LSn(例如以放大形式作为扬声器信号LS1*-LSn*)至扬声器阵列20的传输。

根据另一实施例，基于水印检测器202的播放器204的主动再现预防是可能的。其具有的优势在于，销毁扬声器声道LS1-LSn中的水印仍不能导致成功地分别执行扬声器声道LS1-LSn以及波场合成音频表示的再现。

总之，上述概念提供的优势在于，在播放器侧无需单独的渲染器且因此可维持低运算能力。通过此下降的运算能力，也可由低性能平台(如与数据存储器相连的嵌入板或DSP)播放由音频水印确保的预渲染内容。然后，此播放器可用作(例如)开关箱、暗线箱、外部设备中的移动系统或用作单独设备。

虽然已在装置的上下文中描述一些方面，显而易见地，这些方面也表示对应方法的描述，以使得装置的模块或设备也对应于各自方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也可表示对应装置的对应模块或细节或特征的描述。可通过(或使用)硬件装置(例如，微处理器、可编程计算机或电子电路)执行方法步骤中的一些或全部。在一些实施例中，可通过此装置执行最重要方法步骤的一些或多个。

所发明的编码信号(如音频信号或视频信号或传输流信号)可存储在数字存储介质上，或可在传输介质(如无线传输介质或有线传输介质(如，因特网))上进行传输。

所发明的编码的音频信号可存储在数字存储介质上或可在传输介质(诸如无线传输介质或有线传输介质(如，因特网))上进行传输。

根据特定的实施需求，可以以硬件或软件实施本发明的实施例。可使用具有存储于其上的电子可读控制信号的数字存储介质，例如软盘、DVD、蓝光光盘、CD、ROM、PROM、EPROM、EEPROM或闪存、硬盘或任何其他磁性或光学存储器，执行实施，这些电子可读控制信号与或能够与可编程计算机系统协作以执行各个方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，这些电子可读控制信号能够与可编程计算机系统协作，从而执行在此描述的方法中的一个。

通常，本发明的实施例可被实施为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码有效地用于执行方法中的一个。

例如，程序代码可存储在计算机可读载体上。

其他实施例包括用于执行在此描述的方法中的一个的计算机程序，其中计算机程序存储在计算机可读载体上。

换言之，因此，本发明方法的实施例是包括程序代码的计算机程序，当计算机程序在计算机上运行时，程序代码用于执行在此描述的方法中的一个。

因此，本发明方法的另一实施例是其上记录有用于执行在此描述的方法中的一个的计算机程序的数据载体(或数字存储介质或计算机可读介质)。

因此，本发明方法的另一实施例是表示用于在此描述的方法中的一个的计算机程序的数据流或信号序列。例如，数据流或信号序列可被配置为通过数据通信连接(例如，通过因特网)而被传输。

另一实施例包括处理构建，例如计算机或可编程逻辑设备，其用于或适于执行在此描述的方法中的一个。

另一实施例包括其上安装有用于执行在此描述的方法中的一个的计算机程序的计算机。

根据本发明的另一实施例包括用于将用于执行在此描述的方法中的一个的计算机程序传输至接收器的装置或系统。可以以电子或光学方式执行传输。例如，接收器可以是计算机、移动设备、存储设备或类似装置。例如，装置或系统可包括用于将计算机程序传输至接收器的文件服务器。

在一些实施例中，可编程逻辑设备(例如现场可编程门阵列，FPGA)可用于执行在此描述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可与微处理器协作从而执行在此描述的方法中的一个。通常，优选地通过任意硬件装置执行此方法。硬件装置可以是普遍适用的硬件，如计算机处理器(CPU)或专用于此方法的硬件，如ASIC。

上面描述的实施例仅示出本发明的原理。应理解的是，在此描述的配置及细节的修改和变形对本领域技术人员是显而易见的。因此，本发明仅由所附权利要求的范围限制，而不由通过此处实施例的描述与解释而提出的特定细节限制。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：托马斯·斯波尔;勒内·罗迪加斯特;
技术所有人：弗劳恩霍夫应用研究促进协会;
我是此专利的发明人

上一篇：一种加强弹性底座型护栏的制作方法
上一篇：一种捕捉摄食浮性饲料鱼的装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。