用于自适应音频信号产生、编码和呈现的系统和方法_2

文档序号：9814935阅读：来源：国知局

其支持诸如W下的若干特征:具有向下和向上适应(adaption)到呈现配置的单个清单，即，延迟呈现和启用可用扬声器的最佳使用；改善的声音包封，包括优化的下混来避免声道间相关;通过引导通过(steer-thru)阵列（例如，动态地分配给环绕阵列内的一个或更多个扬声器的音频对象）的增大的空间分辨率；W及对于可替代的呈现方法的支持。
[0044] 图1是按照一个实施例的利用自适应音频系统的音频创建和回放环境的最高一级的概述。如图1所示，综合的、端到端环境100包括在众多数量的端点装置和使用情况之上的内容创建、封装、分发和回放/呈现组件。整个系统100开始于来自及用于许多不同使用情况捕获的内容，该使用情况包括不同的用户体验112。内容捕获元件102包括例如电影、TV、实况广播、用户产生的内容、记录的内容、游戏、音乐等，并且可W包括音频/视觉或者纯音频内容。当内容通过系统100从捕获阶段102进展到最后用户体验112时，该内容通过离散系统组件穿过若干关键处理步骤。运些处理步骤包括音频104的预处理，创作工具和处理106,通过捕获例如音频数据、额外的元数据和再现信息W及对象声道的音频编解码器108编码。各种处理效果(诸如压缩(有损的或者无损的）、加密等)可W被应用于对象声道W用于通过各种介质有效和安全地分发。适当的端点特定的解码和呈现处理110然后被应用W便再现和传送特别的自适应音频用户体验112。音频体验112代表音频或者音频/视觉内容通过适当的扬声器和回放装置的回放，并且可W代表在其中收听者正在体验捕获的内容的回放的任意环境，诸如电影院、音乐厅、露天剧场、家庭或者房间、收听棚（listening booth)、车、游戏控制台、头戴耳机或者耳机系统、扩音(PA)系统、或者任意其它回放环境。
[0045] 系统100的实施例包括音频编解码器108,其能够有效分发和存储多声道的音频节目，并且因此可W被称为'混合'编解码器。编解码器10則尋传统的基于声道的音频数据与关联的元数据结合来产生便于音频的创建和递送的音频对象，该音频被改编和优化W用于在或许与混合环境不同的环境中呈现和回放。运允许声音工程师对关于基于收听者的实际收听环境最终音频应该如何被收听者听到的他或她的意图进行编码。
[0046] 传统的基于声道的音频编解码器在音频节目将由相对于收听者预定的位置中的扬声器的阵列再现的假设之下操作。为了创建完整的多声道的音频节目，声音工程师典型地混合大量的分离的音频流(例如，对话、音乐、效果)来创建整体期望的印象。通过收听由预定位置中的扬声器阵列（例如，特定的剧场中的特别的5.1或者7.1系统)再现的音频节目，典型地做出音频混合决定。最终混合的信号用作到音频编解码器的输入。对于再现，只有当扬声器被放置在预定位置中时空间上准确的声场才被实现。
[0047] 新形式的音频编码(称为音频对象编码）W分离的音频流的形式提供不同的声源 (音频对象)作为到编码器的输入。音频对象的示例包括对话轨道、单个乐器、单独的声音效果、和其它点源。每个音频对象与空间参数关联，该空间参数可W包括但不限于，声音位置、声音宽度和速度信息。音频对象和关联的参数然后被编码W用于分发和存储。最终音频对象混合和呈现在音频分发链的接收端处被执行，作为音频节目回放的部分。运个步骤可W 基于对实际扬声器位置的认识，使得结果是对于用户特定的收听条件可定制的音频分发系统。两种编码形式(基于声道的和基于对象的）针对不同的输入信号条件最佳地执行。基于声道的音频编码器对于对包含不同的音频源的密集的混合的输入信号编码W及对于散射声通常更有效。相反地，对于对少量的高度定向性声源编码，音频对象编码器更有效。
[0048] 在一个实施例中，系统100的组件和方法包括音频编码、分发和解码系统，其被配置为产生包含传统的基于声道的音频元素和音频对象编码元素两者的一个或更多个比特流。与分别采取的基于声道的方法或者基于对象的方法相比，运种结合的方法提供更大的编码效率和呈现灵活性。
[0049] 描述的实施例的其它方面包括W向后可兼容的方式扩展预定义的基于声道的音频编解码器W便包括音频对象编码元素。包含音频对象编码元素的新的'扩展层'被定义和添加到基于声道的音频编解码器比特流的'基本(base)'或者'向后可兼容的'层。运个方法启用一个或更多个比特流，其包括要由遗留（legacy)解码器处理的扩展层，而同时利用新的解码器为用户提供增强的收听者体验。增强的用户体验的一个示例包括音频对象呈现的控制。运个方法的额外的优点是音频对象可W在不解码/混合/重新编码用基于声道的音频编解码器编码的多声道的音频的情况下在沿着分发链的任何地方被添加或者修改。
[0050] 关于参考系，音频信号的空间效果在为收听者提供沉浸体验方面是关键的。打算从观看屏幕或者房间的特定区域发出的声音应该通过位于相同相对位置处的扬声器(多个扬声器)播放。因此，在基于模式的描述中的声音事件的主要的音频元数据是位置，但是也可W描述其它参数，诸如尺寸、取向、速度和声散。为了传送位置，基于模式的、3D、音频空间描述要求3D坐标系统。用于发送的坐标系（欧几里得巧uclidean)、球面等)通常为了方便或者简洁起见被选择，然而，其它坐标系可W被用于呈现处理。除了坐标系之外，还要求参考系来代表对象在空间中的位置。对于用于在各种不同的环境中准确地再现基于位置的声音的系统，选择正确的参考系可W是关键因素。利用非自我中屯、的参考系，音频源位置相对于呈现环境内的特征(诸如房间壁和角落、标准扬声器位置和屏幕位置)被定义。在自我中屯、的参考系中，相对于收听者的视角来表示位置，诸如"在我前方，稍微向左"等等。空间感知 (音频及其他）的科学研究已经示出了几乎到处使用自我中屯、的视角。然而对于电影院，出于若干原因非自我中屯、通常是更适合的。例如，当在屏幕上存在关联对象时音频对象的精确的位置是最重要的。使用非自我中屯、的参考，对于每个收听位置，并且对于任意屏幕尺寸，声音将定位在屏幕上的相同的相对位置处，例如，屏幕的中间向左=分之一处。另一个原因是混合者倾向于W非自我中屯、方面来思考并且混合，并且W非自我中屯、的框架（房间壁)来布局摇移工具，并且混合者期望它们那样被呈现，例如，运个声音应该在屏幕上，运个声音应该在屏幕外，或者来自左壁等。
[0051] 尽管在电影院环境中使用非自我中屯、的参考系，但是存在其中自我中屯、的参考系可W有用且更合适的一些情况。运些包括非剧情声音，即，不存在于"故事空间"中的那些声音，例如，气氛音乐，对于其自我中屯、地均匀的表现可W是期望的。另一种情况是要求自我中屯、的表示的近场效果(例如，在收听者的左耳中的嗦嗦的蚊子）。目前不存在在不使用头戴耳机化ea化hones)或者非常近场的扬声器的情况下呈现运种声场的手段。另外，无限远的声源(和结果得到的平面波)看起来来自恒定的自我中屯、的位置(例如，向左转30度），并且与按照非自我中屯、相比，运种声音更易于按照自我中屯、来描述。
[0052] 在一些情况中，只要标称收听位置被定义就可W使用非自我中屯、的参考系，但是一些示例要求还不可W呈现的自我中屯、的表示。虽然非自我中屯、的参考可W是更有用的和合适的，但是音频表示应该是可扩展的，因为许多新的特征(包括自我中屯、的表示)在特定应用和收听环境中可W是更期望的。自适应音频系统的实施例包括混合空间描述方法，其包括用于最佳的保真度和用于使用自我中屯、的参考呈现扩散或者复杂的、多点源(例如，体育场人群、环境）的推荐声道配置，加上非自我中屯、的、基于模式的声音描述W便有效地使得能够有增大的空间分辨率和可缩放性。
[0版3]系统组件
[0054]参考图1，原始声音内容数据102首先在预处理块104中被处理。系统100的预处理块104包括对象声道滤波组件。在很多情况下，音频对象包含用于启用声音的独立的摇移的单独的声源。在一些情况下，诸如当使用自然的或者"制作"声音创建音频节目时，从包含多个声源的记录中提取单独的声音对象可W是必需的。实施例包括用于将独立源信号与更复杂信号隔离开的方法。要与独立源信号分离的不期望的元素可W包括但不限于，其它独立的声源和背景噪声。另外，混响可W被去除W便恢复"干(dry)"声源。
[0055]预处理器104还包括源分离和内容类型检测功能。系统通过输入音频的分析提供元数据的自动产生。通过分析声道对之间的相关输入的相对水平从多声道记录导出位置元数据。可W例如通过特征提取和分类来实现内容类型(诸如"讲话"或者"音乐"）的检测。 [005引创作工具
[0057] 创作工具块106包括用于通过优化声音工程师的创作意图的输入和编纂 (codification)来改善音频节目的创作W允许他一次创建针对实际上任意回放环境中的回放被优化的最终音频混合的特征。运通过使用与原始的音频内容关联且编码的位置数据和音频对象而被实现。为了将声音准确地放置在观众席周围，声音工程师需要控制声音将如何基于实际约束和回放环境的特征最终被呈现。自适应音频系统通过允许声音工程师通过使用音频对象和位置数据改变如何设计和混合音频内容来提供运个控制。
[0058] 音频对象可W被认为是多组声音元素，其可W被感知为从观众席中的特别的物理位置或者多个位置发出。运种对象可W是静态的，或者它们可W移动。在自适应音频系统 100中，音频对象由元数据控制，该元数据详述给定时间点处的声音的位置等等。当对象在剧场中被监视或者回放时，它们根据位置元数据通过使用存在的扬声器被呈现，而不是必须被输出到物理声道。会话中的轨道可W是音频对象，并且标准的摇移数据类似于位置元数据。W运种方式，位于屏幕上的内容可能W与基于声道的内容相同的方式有效地摇移，但是位于环绕中的内容可W在需要时被呈现到单独的扬声器。虽然音频对象的使用为离散效果提供期望的控制，但是电影音轨的其它方面在基于声道的环境中的确有效地工作。例如，许多环境效果或者混响实际上受益于被供给到扬声器阵列。虽然运些可W被处理为具有足够宽度W填充阵列的对象，但是保留一些基于声道的功能是有益的。
[0059] 在一个实施例中，自适应音频系统除了音频对象之外还支持"基础(bed)"，其中基础是有效地基于声道的子混合或者主干(stem)。运些可W独立地或者结合成单个基础地被传递W用于最终回放(呈现），取决于内容创作者的意图。运些基础可W被创建在不同的基于声道的配置(诸如5.1、7.1)中，并且可扩展到更广泛的格式，诸如9.1，W及包括头上的扬声器的阵列。
[0060] 图2示出按照一个实施例的声道和基于对象的数据的组合W便产生自适应音频混合。如处理200所示，基于声道的数据202(其例如可W是W脉冲编码调制的（PCM)数据形式提供的5.1或者7.1环绕声数据)与音频对象数据204结合W便产生自适应音频混合208。音频对象数据204通过将原始的基于声道的数据的元素与指定关于音频对象的位置的特定参数的关联元数据结合来被产生。
[0061] 如图2中概念上所示出的，创作工具提供创建音频节目的能力，该音频节目同时包含对象声道和扬声器声道组的组合。例如，音频节目可W包含可选地组织成组的一个或更多个扬声器声道(或者轨道，例如立体声或者5.1轨道）、用于一个或更多个扬声器声道的描述元数据、一个或更多个对象声道、W及用于一个或更多个对象声道的描述元数据。在一个音频节目内，每个扬声器声道组W及每个对象声道可W通过使用一个或更多个不同的采样率被表示。例如，数字电影(D电影)应用支持4純化和96kHz采样率，但是还可W支持其它采样率。此外，还可W支持具有不同的采样率的声道的摄取(ingest)、存储和编辑。
[0062] 音频节目的创建要求声音设计的步骤，其包括结合声音元素作为水平调整的构成声音元素的和W便创建新的期望的声音效果。自适应音频系统的创作工具使得能够使用空间-视觉的声音设计图形用户界面创建声音效果作为具有相对位置的声音对象的集合。例如，声音产生对象（例如，汽车）的视觉表示可W被用作用于组装音频元素（排气音调 (exhaust note)、轮胎哼鸣化um)、发动机噪声）作为包含声音和合适的空间位置(在尾管、轮胎、机罩化OOd)处）的对象声道的模板。然后单独的对象声道可W作为整体被链接和操纵。创作工具106包括若干用户接口元素 W便允许声音工程师输入控制信息和观看混合参数，并且改善系统功能。声音设计和创作处理通过允许对象声道和扬声器声道作为整体被链接和操纵而也被改善。一个示例是将具有离散、干声源的对象声道与包含关联的混响信号的一组扬声器声道结合。
[0063] 音频创作工具106支持结合多个音频声道(通常被称为混合）的能力。多个混合方法被支持并且可W包括传统的基于水平的混合和基于响度的混合。在基于水平的混合中，宽带缩放(scaling)被应用于音频声道，并且缩放后的音频声道然后被一起求和。用于每个声道的宽带缩放因子被选择W便控制结果得到的混合的信号的绝对水平，W及混合的信号内的混合的声道的相对水平。在基于响度的混合中，一个或更多个输入信号通过使用依赖频率的振幅缩放被修改，其中依赖频率的振幅被选择W便提供期望的感知的绝对和相对响度，而同时保持输入声音的感知的音色。
[0064] 创作工具允许创建扬声器声道和扬声器声道组的能力。运允许元数据与每个扬声器声道组关联。每个扬声器声道组可W根据内容类型被加标签。内容类型可经由文本描述扩展。内容类型可W包括但不限于，对话、音乐和效果。每个扬声器声道组可W被分配关于如何从一个声道配置上混(upmix巧Ij另一个的唯一的指令，其中上混被定义为从N个声道创建M个音频声道，其中M〉N。上混指令可W包括但不限于W下：用于指示是否容许上混的启用/禁用标志；用于控制每个输入和输出声道之间的映射的上混矩阵;并且默认启用和矩阵设定可W基于内容类型被分配，例如，仅仅对于音乐启用上混。每个扬声器声道组也可W被分配关于如何从一个声道配置下混(downmix)到另一个的唯一的指令，其中下混被定义为从X个声道创建Y个音频声道，其中Y<X。下混指令可W包括但不限于W下：用于控制每个输入和输出声道之间的映射的矩阵;并且默认矩阵设定可W基于内容类型被分配，例如，对话应该下混到屏幕上；效果应该下混离开屏幕。每个扬声器声道也可W与用于在呈现期间禁用低音管理的元数据标志关联。
[0065] 实施例包括使得能够创建对象声道和对象声道组的特征。本发明允许元数据与每个对象声道组关联。每个对象声道组可W根据内容类型被加标签。内容类型是可扩展的经由文本描述，其中内容类型可W包括但不限于对话、音乐和效果。每个对象声道组可W被分配用于描述应该如何呈现一个或多个对象的元数据。
[0066] 位置信息被提供W便指示期望的表观源位置。位置可W通过使用自我中屯、的或非自我中屯、的参考系被指示。在源位置要设及收听者时自我中屯、的参考是合适的。对于自我中屯、的位置，球面坐标对于位置描述是有用的。非自我中屯、的参考对于其中相对于表现环境中的对象(诸如视觉显示屏幕或房间边界)提及源位置的电影或其它音频/视觉表现是典型的参考系。=维(3D)轨迹信息被提供W便使得能够进行位置的内插或用于使用其它呈现决定，诸如使得能够进行"快移（snap巧臘式"。尺寸信息被提供W便指示期望的表观感知的音频源尺寸。
[0067] 空间量子化通过"快移到最接近扬声器"控制被提供，该控制由声音工程师或混合者指示意图W便具有由正好一个扬声器呈现的对象(对空间

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6