用于呈现器与可独立寻址的驱动器的阵列之间的通信的双向互连的制作方法_2

文档序号：8288324阅读：来源：国知局

器位置（通常在分配之前被呈现）将音频流转换成扬声器馈送；（2)高保真度立体声响复制，其中，麦克风信号被转换成用于可缩放扬声器阵列的馈送（通常分配之后被呈现）； (3)波场合成（WFS)，其中，声音事件被转换成合适的扬声器信号以合成声场（通常分配之后被呈现）；以及（4)双耳声的，其中，通常通过耳机而且通过结合串音消除的扬声器将左/ 右双耳信号传送给左/右耳。
[0045] 通常，任何格式可以被转换成另外的格式（虽然这可能要求盲源分离或类似技术），并且使用上述技术中的任一种对格式进行呈现；然而在实践中并非所有转变都产生好的结果。由于扬声器馈送格式简单且有效，所以它是最普及的。直接因为不存在内容创建者与听者之间要求的处理，所以通过在分配扬声器馈送和然后分配扬声器馈送中混合/ 监视可以获得最佳音响效果（即，最准确和最可靠）。如果预先已知播放系统，则扬声器馈送描述提供最高的保真度；然而，播放系统及其配置通常预先不可知。相反，因为基于模型的描述并未关于播放系统做出假设并且因此其最容易适用于多种呈现技术，所以它是适应性最强的。基于模型的描述可以有效捕获空间信息，但是随着音频源数量增加其变得非常低效。
[0046] 自适应音频系统将基于通道的系统与基于模型的系统两者的优势与包括以下各项的特定优势组合：高音质品质、当使用相同的通道配置混合和呈现时艺术意图的最佳再现、关于向下适应呈现配置的单个清单、对系统流水线相当低的影响以及经由更好的水平扬声器空间分辨率和新的高度通道增加的沉浸感。自适应音频系统提供包括以下各项的若干新特性：关于向下和向上适应特定的电影呈现配置，即，延迟呈现和对播放环境中的可用扬声器的最佳使用的单个清单；增强的包围感，包括优化的下混合以避免通道间相关 (ICC)伪声；经由通过操纵的阵列（例如，使得音频对象被动态分配给环绕阵列中的一个或更多扬声器）的增强的空间分辨率；以及经由高分辨率中心扬声器配置或类似的扬声器配置的增强的前通道分辨率。
[0047] 在向听者提供沉浸式体验中，音频信号的空间效果是极重要的。打算从观看屏幕或房间的特定区域发出的声音应当通过位于同一相对位置的扬声器来播放。因此，虽然也可以描述其它参数如大小、方位、速率和声散，但是基于模型的描述中的声音事件的主要音频元数据是位置。为了表达位置，基于模型的3D音频空间描述要求3D坐标系统。通常为了方便或简洁而选择用于传输的坐标系统（例如，欧几里得的、球面的、柱面的）；然而，其它坐标系统可以用于呈现处理。除坐标系统以外，表示空间中的对象的位置需要参照系。对于在多种不同的环境中精确地再现基于位置的声音的系统，选择合适的参照系会是极重要的。对于非自我中心的参照系，关于呈现环境诸如房间的墙和角落中的特性、标准扬声器位置和屏幕位置来定义音频源的位置。在自我中心的参照系中，关于听者的视角如"在我前方"、"略向左"等来表示位置。空间感知（音频和其它）的科学研宄已经显示最普遍使用自我中心的视角。然而，对于电影，非自我中心的参照系通常更合适。例如，当屏幕上存在相关的对象时，音频对象的精确位置是最重要的。当使用非自我中心的参考时，针对每个听音位置并且针对任何屏幕大小，声音将位于屏幕上的同一相对位置，例如"平面的中心向左三分之一"。另外的原因是混合器趋向于以非自我中心来判断和混合，并且使用非自我中心的系统（即，房间墙壁）来布置声像调节工具，并且混合器期望声像调节工具以例如"这声音应该在屏幕上"、"这声音应该在屏幕外"或"离开左边的墙"等的方式被呈现。
[0048] 尽管在电影环境中使用了非自我中心的参照系，但是存在一些自我中心参照系可能是有用的且更合适的情况。这些包括非剧情性声音，即，在"故事空间"中不呈现的声音，例如，可能期望自我中心的统一呈现的气氛音乐。另外的情况是要求自我中心呈现的近场效应（例如，听者左耳边嗡嗡的蚊子）。另外，无限远声源（以及所产生的平面波）可能出现来自常以自我为中心的位置（例如，到左边30度），并且根据自我中心比根据非自我中心更容易描述这种声音。在一些情况下，只要定义了标称听音位置就可以使用非自我中心参照系，而一些示例要求还不可以呈现的自我中心的表示。虽然非自我中心参照可能更有用且更合适，但音频表示应当是可扩展的，原因在于：在某些应用和听音环境中可能更期望包括自我中心表示的很多新特性。
[0049] 自适应音频系统的实施例包括混合空间描述方法，该混合空间描述方法包括针对最佳保真度和针对扩散的呈现所推荐的通道配置；或使用自我中心参照的复杂的多点源 (例如，体育场的人群、周围环境）；将非自我中心的基于模型的声音描述增加至能够有效增强空间分辨率和可缩放性。图3是根据实施例的在自适应音频系统中使用的播放体系结构的框图。图3的系统包括执行传统的、对象和通道音频解码、对象呈现、通道重新映射和在音频被发送至后处理级和/或放大级和扬声器级之前的信号处理的处理框。
[0050] 播放系统300被配置为：呈现并且播放通过一个或更多捕获部件、预处理部件、创作部件和编码部件所生成的音频内容。自适应音频预处理器可以包括通过分析输入音频自动生成合适的元数据的源分离和内容类型检测功能。例如，可以通过分析通道对之间的相关输入的相关度从多通道记录获取位置元数据。可以例如通过特征提取和分类来完成对内容类型如话音或音乐的检测。某些创作工具能够通过以下来创作音频节目：对输入进行优化，并且一旦针对实际上任何播放环境中的播放进行优化，则对音响工程师的创建意图进行编码使得他能够创建最终的音频混合。这可以通过使用与原始的音频内容相关并且使用原始的音频内容被编码的音频对象和位置数据来实现。为了在礼堂周围精确地放置声音，音响工程师需要基于播放环境的实际约束和特征来对将最终如何呈现声音进行控制。自适应音频系统通过使得音响工程师能够通过使用音频对象和位置数据改变如何设计和混合音频内容来提供该控制。一旦自适应音频内容已经被创作并且在合适的编解码器装置中被编码，则在播放系统300的各种部件中对该自适应音频内容进行解码和呈现。
[0051] 如图3中所示，（1)传统的环绕声音频302、（2)包括对象元数据的对象音频304、和（3)包括通道元数据的通道音频306被输入至处理框310中的解码器级308、309。在对象呈现器312中呈现对象元数据，而当需要时可以重新映射通道元数据。空间配置信息307 被提供给对象呈现器和通道重新映射部件。然后，在输出至B链处理级316之前，通过一个或更多信号处理级如均衡器和限制器314对混合音频数据进行处理，并且通过扬声器318 播放。系统300表示自适应音频的播放系统的示例，并且其它配置、部件和互连也是可以的。
[0052] 播放应用
[0053] 如上所述，自适应音频格式和系统的初步实现是包括内容捕获（对象和通道）的数字电影（D电影）内容，其使用新颖的创作工具被创作，使用自适应音频电影编码器被封装，并且使用PCM或使用现有的数字电影倡导联盟（DCI)分配机制的专有无损编解码器被分配。在这种情况下，想要在数字电影中对音频内容进行解码和呈现以创建沉浸式空间音频电影体验。然而，至于先前的电影改进如模拟环绕声、数字多通道音频等，存在以下需要：将由自适应音频格式提供的增强的用户体验直接传送给他们家中的消费者。这要求格式和系统的某些特征适于用在更加有限的听音环境中。例如，如与电影院或剧院环境相比，家庭、房间、小的礼堂或类似的地方可能具有减小的空间、降低的声学特性和降低的设备能力。出于描述的目的，术语"基于消费者的环境"意在包括任何非电影院环境，所述任何非电影院环境包括由普通消费者或专业人员使用的听音环境如家庭、工作室、房间、控制台区域、礼堂等。音频内容可以是有源的并且单独被呈现，或者可以与图形内容如静止图片、光显不器、视频等相关。
[0054] 图4A是例示根据实施例的用于使基于电影的音频内容适合用在消费者环境中的功能部件的框图。如图4A中所示，使用框402中的合适的装备和工具来捕获和/或创作通常包括电影音轨的电影内容。在自适应音频系统中，通过框404中的编码/解码和呈现部件和接口来处理该内容。然后，所得到的对象和通道音频馈送被发送至电影院或剧院406 中的合适的扬声器。在系统400中，电影内容还被处理用于消费者听音环境如家庭影院系统416中的播放。由于有限的空间、减少的扬声器数量等，假定消费者听音环境不像内容创建者所想要的那样全面或者能够再现所有声音内容。然而，实施例涉及以下系统及方法：使得原始音频内容能够以使消费者环境的降低的能力所强加的限制最小化的方式被呈现，并且使得位置线索能够以使可用装置最大化的方式被处理。如图4A中所示，电影音频内容通过电影被处理成消费者转换器部件408,消费者转换器部件408在消费者内容编码和呈现链414中被处理。该链还对在框412中被捕获和/或被创作的原始的消费者音频内容进行处理。然后，在消费者环境416中播放原始的消费者内容和/或所转换的电影内容。以这种方式，音频内容中被编码的相关空间信息可以用于以更沉浸式的方式，甚至使用家庭或消费者环境416的可能有限的扬声器配置来呈现声音。
[0055] 图4B更详细地例示图4A的部件。图4B例示贯穿消费者生态系统的自适应音频电影内容的示例分配机制。如图420中所示，原始的电影和电视内容被捕获422并且被创作423用于在多种不同的环境中播放，以提供电影体验427或消费者环境体验434。同样，某些用户生成的内容（UGC)或消费者内容被捕获423并且被创作425以便在消费者环境 434中播放。通过已知的电影处理426来处理用于在电影环境427中播放的电影内容。然而，在系统420中，电影创作工具箱423的输出还包括传达声音混合器的艺术意图的音频对象、音频通道和元数据。这可以被视为能够用于创建用于消费者播放的电影内容的多个版本的夹层风格音频包。在实施例中，通过电影到消费者自适应音频转换器430来提供该功能。该转换器具有到自适应音频内容的输入，并且根据自适应音频内容为期望的消费者终端434提取合适的音频和元数据内容。转换器依据消费者分配机制和终端创建分离的且可能不同的音频和元数据输出。
[0056] 如系统420的示例中所示，电影到消费者转换器430向图片（例如，广播、磁盘、 OTT等）和游戏音频比特流创建模块428馈送声音。适合于传送电影内容的这两个模块能够被馈送至多个分配流水线432中，所有分配流水线432都可以将电影内容传送至消费者终端。例如，自适应音频电影内容可以使用适合于广播目的的编解码器（诸如杜比数字+) 被编码，其可以被修改以传送通道、对象和相关的元数据，并且经由线缆或卫星通过广播链被传输，然后针对家庭影院或电视播放在消费者家中被解码和呈现。类似地，相同的内容可以使用适合于带宽有限的在线分配的编解码器被编码，其中，然后通过3G或4G移动网络被传输，然后经由使用耳机的移动装置被解码和呈现用于播放。其它内容源诸如电视、现场直播、游戏和音乐也可以使用自适应音频格式来创建和提供用于下一代消费者音频格式的内容。
[0057] 图4B的系统提供了贯穿整个消费者音频生态系统的增强的用户体验，所述整个消费者音频生态系统可以包括家庭影院（例如，音频/视频接收器、条形箱和蓝光）、电子媒介（例如，个人计算机、平板、包括耳机播放的移动装置）、广播（例如，电视和机顶盒）、音乐、游戏、现场声音、用户生成的内容等。这种系统提供：所有终端装置的消费者听众的增强的沉浸感、音频内容创建者的扩展的艺术控制、改进的呈现的改进的内容依赖（描述性）元数据、消费者播放系统的扩展的灵活性和可缩放性、音质保存和匹配以及基于用户位置和交互的内容的动态呈现的时机。系统包括若干部件，所述若干部件包括用于内容创建者的新混合工具、用于分配和播放的更新的和新的封装和编码工具、家中动态混合和呈现（适合于不同的消费者配置）、另外的扬声器位置和设计。
[0058] 基于消费者的自适应音频生态系统被配置为使用自适应音频格式的全面的端到端的下一代音频系统，所述自适应音频格式包括遍及大量终端装置和使用实例的内容创建、封装、分配和播放/呈现。如图4B中所示，系统开始于从大量不同使用实例所捕获的内容422和424以及针对大量不同使用实例所捕获的内容422和424。这些捕获点包括包括电影、电视、现场直播（以及声音）、UGC、游戏和音乐的所有相关的消费者内容格式。随着通过生态系统，内容经过几个关键级，诸如预处理和创作工具、转换工具（即，用于电影到消费者内容分配应用的自适应音频内容的转换）、特定的自适应音频分装/比特流编码（其捕获音频基本数据以及另外的元数据和音频再现信息）、通过各种消费者音频通道使用现有的或新的编解码器（例如，DD+、TrueHD、杜比+)的分配编码用于高效分配、通过相关消费者分配通道（例如，广播、磁盘、移动装置、因特网等）传输，并且最终端点意识到动态呈现以再现并传送由内容创建者定义的提供空间音频体验的优势的自适应音频用户体验。在对于广泛变化数量的消费者终端进行呈现期间可以使用基于消费者的自适应音频系统，并且可以根据终端装置来对所应用的呈现技术进行优化。例如，家庭影院系统和条形箱可以在不同的位置中具有2、3、5、7或甚至9个单独的扬声器。很多其它类型的系统具有仅仅两个扬声器（例如，电视、膝上型计算机、音乐码头），并且几乎所有具有耳机输出的常用装置 (例如，个人计算机、膝上型计算机、平板、蜂窝电话、音乐播放器等）。
[0059] 用于消费者音频的当前创作与分配系统创建并且传送以下音频：该音频意在用于在对音频本质（即，由消费者再现系统播放的实际音频）中传达的内容的类型的了解有限的情况下，将音频再现到预先定义的扬声器位置和固定的扬声器位置。然而，自适应音频系统为音频创建提供新的混合方法，所述混合方法包括对固定扬声器位置特定音频（左通道、右通道等）和基于对象的音频元素这两者的选择，基于对象的音频元素具有包括位置、大小和速率的全面的3D空间信息。该混合方法提供用于呈现中的保真度（由固定扬声器位置提供）和灵活性（全面的音频对象）的均衡方法。该系统还通过在内容创建/创作时由内容创建者经由与音频本质成对的新的元数据，提供关于音频内容的另外的有用信息。该信息提供关于呈现期间可以使用的音频的属性的详细信息。这种属性可以包括内容类型 (例如，会话、音乐、效果、拟音、背景/周围环境等）以及音频对象信息如空间属性（例如，三维位置、对象大小、速率等）和有用的呈现信息（例如，扬声器位置的确定、通道加权、增益、低音管理信息等）。可以由内容创建者手工创建或者通过使用自动的、可以在创作处理期间在后台运行的媒体智能算法来创建音频内容和再现意图元数据，并且如果需要可以在最终的品质控制级中由内容创建者来审查媒体智能算法。
[0060] 图4C是根据实施例的基于消费者的自适应音频环境的功能部件的框图。如图450 中所示，系统对携带基于混合对象和基于通道的音频流两者的编码比特流452进行处理。通过呈现/信号处理块454来处理比特流。在实施例中，可以在图3中示出的呈现块312 中实现该功能块的至少一部分。呈现功能454实现针对自适应音频的各种呈现算法以及某些后处理算法，诸如上混合、处理直接声音与反射声音等。通过双向互连456将来自呈现器的输出提供给扬声器458。在实施例中，扬声器458包括可以被布置在环绕声或类似配置中的多个单独的驱动器。驱动器可单独寻址并且可以被包括在单独的箱或多个驱动器的柜或阵列中。系统450还可以包括提供能够用于对呈现处理进行校准的空间特性的测量的麦克风

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6