面向对象的音频流系统的制作方法

文档序号：2824865阅读：132来源：国知局

专利名称：面向对象的音频流系统的制作方法
面向对象的音频流系统相关申请本申请要求根据35U. S. C第119条第(e)项享有2009年8月14提交的发明名称 "Production, Transmission,Storage and Rendering System for Multi-Dimensional
Audio”的美国临时专利申请No. 61/233，931的优先权，在此并入其公开的全部作为参考。
背景技术：
诸如立体声和环绕声之类的现有音频分发系统基于非灵活的范例，其中实现了从产生点至回放环境的固定数目的声道。传统上，贯穿整个音频链，在创建的声道的数目与物理上传输或记录的声道数目之间存在一对一的对应关系。在一些情况下，通过被称作混合 (mix-down)的过程减少了可用声道的数目以适应回放配置，其中所述回放配置具有比传输流中提供的声道数目要少的再现声道。混合的普通示例是将立体声混入单声道以经由单个扬声器再现，以及将多声道环绕声混入立体声以经由两个扬声器回放。音频分发系统也不适于3D视频应用，因为其不能够从三维空间中精确地再现声音。这些系统受到扬声器的数目和位置的限制，并且受到以下事实的限制一般会忽视心理声学原理。结果，即使最精巧的声音系统也只是创建了对声学空间的粗糙仿真，而并没有接近真实的3D或多维呈现。

发明内容
描述了一种用于提供面向对象的音频的系统和方法。在一些实施例中，通过将声源与这些声源的属性(例如位置、速度、方向性等)相关联来创建音频对象。可以除声道以外还使用音频对象，或替代声道来使用音频对象，以例如通过使音频对象成流来经由网络向客户端设备分发声音。对象可以限定空间中与二维坐标和三维坐标相关联的位置。可以基于可用网络资源和客户端设备资源使对象自适应成流传送至客户端设备。客户端设备上的再现器可以使用对象的属性来确定如何再现对象。再现器还基于与客户端设备的再现环境相关的信息来调整对象的回放。还描述了音频对象创建技术的多种示例。在一些实施例中，一种产生面向对象的音频流的方法包括选择音频对象以在音频流中传输，其中音频对象包括音频信号数据和对象元数据。对象元数据可以包括一个和多个对象属性。所述方法还包括将具有对象元数据的对象报头进行组装，提供具有音频信号数据的音频有效载荷，利用一个和多个处理器组合对象报头和音频有效载荷以形成音频流的至少一部分，以及经由网络传输音频流。在各种实施例中，一种用于产生面向对象的音频流的系统可以包括在一个和多个处理器中实现的面向对象的成流模块。面向对象的成流模块可以选择对声源加以表示的音频对象，其中音频对象包括音频信号数据和对象元数据。对象元数据可以包括声源的一个和多个属性。面向对象的成流模块还可以包括将对象元数据与音频信号数据一起编码，以形成单个面向对象的音频流的至少一部分。此外，面向对象的成流模块还可以经由网络传输面向对象的音频流。
为了概括本公开，本文已经描述了本发明的一些方面、优势和新颖特征。应该理解，根据本文公开的本发明的任意特定实施例，可能没有必要实现所有这些优势。因此，可以以如下方式实现或执行本文所公开的发明实现或优化根据本文教导的一个优势或一组优势，而没有必要实现可能是本文教导或建议的其它优势。

贯穿附图，参考数字被重复使用，以指示所引用元件之间的对应性。提供附图来示出本文所描述的本发明的实施例，而非限制本发明的范围。图IA和IB示出了面向对象的音频系统的实施例；图2示出了面向对象的音频系统的另一实施例；图3示出了用于本文所描述的任意面向对象的音频系统中的成流模块的实施例。图4示出了面向对象的音频流格式的实施例；图5A示出了音频流组装过程的实施例；图5B示出了音频流再现过程的实施例；图6示出了自适应音频对象成流系统的实施例；图7示出了自适应音频对象成流过程的实施例；图8示出了自适应音频对象再现过程的实施例；图9示出了针对面向对象的音频捕获的示例场景；图10示出了用于面向对象的音频捕获的系统的实施例；以及图11示出了用于面向对象的音频捕获的过程的实施例。
具体实施例方式I.介绍除了以上描述的现有系统的问题之外，音频分发系统还没有充分地考虑听众的回放环境。相反，音频系统被设计为向最终的收听环境传送指定数目的声道，而没有对环境、听众偏好或心理声学原理的实现进行任意的补偿。传统上，将这些功能和能力留给了系统集成器。本公开描述了用于使面向对象的音频成流的系统和方法，其解决了这些问题中的至少一部分。在一些实施例中，通过将声源与这些声源的属性(例如，位置、速度、方向性等)相关联来创建音频对象。可以使用音频对象来替代声道，或者除了声道之外还使用音频对象，以例如通过使音频对象成流来经由网络向客户端设备分发声音。在一些实施例中，这些对象与声道不相关或者没有横跨(pan)声道之间的位置，而是利用相关联的二维或三维坐标限定了其在空间上的位置。客户端设备上的再现器可以使用对象的属性来确定如何再现对象。在一些实施例中，再现器还可以基于可用计算资源来调整再现和/或流化，以考量再现器的环境。类似地，可以基于诸如可用带宽之类的网络条件来调整音频对象的流化。还描述了音频对象创建技术的各种示例。有利地，本文描述的系统和方法可以减少或克服关于刚性音频声道分发模型的缺点。作为概括，图IA和IB介绍了面向对象的音频系统的实施例。后面的附图描述了这些面向对象的音频系统可以实现的技术。例如，图2至图5B描述了用于使面向对象的音频成流的各种示例技术。图6至8描述了用于基于环境和网络条件使面向对象的音频自适应地成流并对其进行再现的示例技术。图9至11描述了示例音频对象创建技术。当用于本文时，术语“成流(streaming)，，及其派生词，除了具有其通常含义之外，还意味着将内容从一个计算系统(例如服务器)分发至另一计算系统(例如客户端)。术语“成流”及其派生词还可以涉及通过使用包括BitTorrent和相关协议的各种协议中的任意一种协议来经由对等网络分发内容。II.面向对象的咅频系统概要图IA和IB示出了面向对象的音频系统100AU00B的实施例。可以以计算机硬件和/或软件实现面向对象的音频系统100A、100B。有利地，在一些实施例中，面向对象的音频系统100AU00B可以启用内容创建者创建音频对象、使这些对象成流以及再现对象，而不用被绑定到固定的声道模型上。具体地参考图1A，面向对象的音频系统IOOA包括音频对象创建系统110A、在内容服务器120A中实现的成流模块122A以及用户系统140中实现的再现器142A。音频对象创建系统IlOA可以向用户提供创建和修改音频对象的功能。安装在内容服务器120A上的成流模块122A可以用于使音频对象成流来经由网络130向用户系统140传送。网络130可以包括LAN、WAN、因特网、或其组合。用户系统140上的再现器142A可以再现音频对象，以输出至一个或多个扬声器。在所描述的实施例中，音频对象创建系统IlOA包括对象创建模块114和面向对象编码器112A。对象创建模块114可以例如将音频数据与该音频数据的属性相关联，以提供用于创建对象的功能。任意类型的音频可以被用于产生音频对象。可以将音频生成为对象并使其成流的一些示例可以包括与电影、电视、电影预告、音乐、音乐视频、其它在线视频、视频游戏等相关联的音频。首先，音频数据可以是记录的或获取的。对象创建模块114可以提供用户接口，使得用户能够访问、编辑或操纵音频数据。音频数据可以表示声源或声源的集合。声源的一些示例包括对话、背景音乐以及任意物体(例如汽车、飞机或任意道具)产生的声音。更一般地，声源可以是任意音频片段。声源可以具有一个或多个属性，对象创建模块114可以将该属性与音频数据相关联，以创建对象。属性的示例包括声源的位置、声源的速度、声源的方向性等。一些属性可以从音频数据直接获得，例如反映了何时记录音频的时间属性。用户可以向对象创建模块114 提供其它属性，例如产生音频的声源类型(例如，汽车与演员)。此外，对象创建模块114还可以从其它设备自动导入其它属性。作为示例，可以从全球定位系统(GPS)设备中获得声源位置，并将其导入对象创建模块114。下文将更详细地描述属性的附加示例和用于识别属性的技术。对象创建模块114可以将音频对象存储在对象数据储存库116中，该对象数据储存库116可以包括数据库或其它数据存储库。面向对象编码器112A可以将一个或多个音频对象编码为音频流，以经由网络传输。在一个实施例中，面向对象编码器112A将音频对象编码为未压缩脉码调制(PCM)音频和相关联的属性元数据。在另一实施例中，面向对象编码器112A还在创建流时压缩对象。有利地，在一些实施例中，面向对象编码器产生的音频流可以包括至少一个对象，该对象由元数据报头和音频有效载荷表示。音频流可以由帧构成，每个帧可以包括对象元数据报头和音频有效载荷。一些对象可以只包括元数据而没有音频有效载荷。其它对象可以包括音频有效载荷但具有少量元数据或几乎没有元数据。下文将更详细地描述这些对象的示例。音频对象创建系统IlOA可以经由网络(未示出)向内容服务器120A提供已编码的音频对象。内容服务器120A可以驻留已编码的音频对象，以用于后续传输。内容服务器 120A可以包括一个或多个机器，例如物理计算设备。用户系统可以经由网络130访问内容服务器120A。例如，内容服务器120A可以是web服务器、内容传送网络(CDN)中的边缘节点等。用户系统140可以访问内容服务器120A，以请求音频内容。响应于接收到这个请求，内容服务器120A可以使音频内容成流、向用户系统140上传或发送音频内容。任意形式的计算设备可以访问音频内容。例如，用户系统140可以是桌上型设备、膝上型设备、平板设备、个人数字助理(PDA)、电视、无线手持式设备(例如电话)等。用户系统140上的再现器142A可以对已编码的音频对象进行解码，并再现音频对象，以输出至一个或多个扬声器。再现器142A可以包括多种不同的再现特征、音频增强、心理声学增强等，以再现音频对象。再现器142A可以将音频对象的对象属性用作关于如何再现对象的提示。参考图1B，面向对象的音频系统100B包括系统100A的多种特征，例如音频对象创建系统110B、内容服务器120B和用户系统140。所示部件的功能可以与上述描述的部件的功能相同，但此处应注意具有一些差异。例如，在所描述的实施例中，内容服务器120B包括自适应成流模块122B，其可以动态地适应要成流被传送至用户系统140的对象数据的数量。同样地，用户系统140包括自适应再现器142B，其可以适应于音频成流和/或用户系统 140再现对象的方式。如从图IB中可见，面向对象编码器112B已经从音频对象创建系统IlOB移动到了内容服务器120B。在所描述的实施例中，音频对象创建系统IlOB向内容服务器120B上传音频对象而非音频流。内容服务器120B上的自适应成流模块122B包括面向对象编码器 112B。因此，在所描述的实施例中，在内容服务器120B上执行对音频对象的编码。备选地，音频对象创建系统IlOB可以使已编码对象成流来传送至自适应成流模块122B，自适应成流模块122B对音频对象解码，以用于进一步操纵和后来的重新编码。通过编码内容服务器120B上的对象，自适应成流模块122B可以在使成流之前动态地调整对对象编码的方式。自适应成流模块122B可以监视可用的网络130资源，例如网络带宽、等待时间等。基于可用的网络资源，自适应成流模块122B可以将或多或少的音频对象编码为音频流。例如，随着更多的网络资源变得可用，自适应成流模块122B可以将相对更多的音频对象编码为音频流，反之亦然。自适应成流模块122B还可以调节要编码为音频流的对象的类型，而不是对象的数目(或者还包括对象的数目)。例如，当网络资源受限时，自适应成流模块122B可以对较高优先级的对象(例如对话)进行编码，而不对较低优先级的对象(例如特定背景声音) 进行编码。将在下文更详细地描述基于对象优先权进行自适应成流的概念。自适应再现器142B还可能对如何将音频对象形成流传送到用户系统140中造成影响。例如，自适应再现器142B可以与自适应成流模块122B进行通信，以控制要形成流传送至用户系统140的音频对象的数量和/或类型。自适应再现器142B还可以基于回放环境调节对音频流再现的方式。例如，大型剧院可以指定成百或上千的放大器和扬声器的位置和容量，而自包含的TV则可能指定只有两个放大器声道和扬声器可用。基于这个信息，系统100AU00B可以优化声场呈现。可以根据再现资源和环境而利用系统100AU00B中的不同类型的再现特征，这是因为输入音频流可以是描述性的，并且不取决于回放环境的物理特性。将在下文更详细地描述自适应再现器142B的这些和其它特征。在一些实施例中，即使面向对象编码器(例如编码器112A)向自适应成流模块 122B发送已编码流，也可以实现本文所描述的自适应特征。当计算资源或网络资源变得不大可用时，自适应成流模块122B可以从音频流中去除或过滤对象，而不是匆忙地(on the fly)组装新音频流。例如，自适应成流模块122B可以从流中去除与对再现而言相对不重要的对象相对应的分组。将在下文更详细地描述向对象分配重要度以使对象成流和/或再现对象的技术。如上述实施例所述，所公开的用于音频分发和回放系统100A、100B可以包括从音频内容的初始产品到听众的感知系统的整个链。系统100A和100B是可缩放的，并且可以容易地包含在在传输/存储或多维再现系统中概念改进的未来证明中。系统100AU00B还可以从基于影院的较大呈现形式缩放为家庭影院配置和自包含的TV音频系统。与基于物理声道系统的现有技术相反，系统100AU00B可以将音频内容的作品抽象化为音频对象序列，该音频对象提供了关于场景的结构的信息以及关于场景内的独立部件的信息。假定资源可用，系统100AU00B可以使用与每个对象相关联的信息，来创建对所提供的信息最精确地表示。这些资源可以被指定为针对系统100AU00B的附加输入。除了使用物理扬声器和放大器之外，系统100AU00B还可以并入心理声学处理，以增强听众在声学环境中的体验，并实现对与可视场中的位置精确地对应的3D对象的定位。还可以将这种处理作为可用资源定义到系统100AU00B(例如再现器142)上，以增强或优化对传输流中包括的音频对象信息的呈现。可以将流设计为是可扩展的，使得在任意时刻都可以添加附加信息。再现器142A、 142B可以是通用的或被设计为支持特定环境以及资源混合。可以任意地并入音频再现方面的未来改进和新概念，以及在传输/所存储流中包括的相同描述性信息潜在地用于更精确的再现。与当前系统不同，系统100AU00B是灵活的和适应性的。为了容易说明，本说明书主要描述了在经由网络使音频成流的上下文中的面向对象音频技术。然而，还可以在非网络环境中实现面向对象的音频技术。例如，可以将面向对象的音频流存储在计算机可读存储介质上，例如DVD盘、蓝光盘等。媒体播放器(例如蓝光播放器)可以回放在盘上存储的面向对象音频流。还可以将面向对象的音频包下载至用户系统中的本地存储器上，然后从本地存储器回放。更多其它变型是可能的。应该意识到，可以对参考图IA和IB描述的一些部件的功能进行组合、修改或省略。例如，在一种实现中，可以在内容服务器120上实现音频对象创建系统110。可以从音频对象创建系统110向用户系统140直接连续传送音频流。多种其它配置是可能的。III.音频对象成流实施例现在将参考图2至5B描述音频对象系统的更详细的实施例。参见图2，示出了面向对象的音频系统200的另一实施例。系统200可以实现上述系统100A、100B的任意特征。系统200可以产生面向对象的音频流，对所述面向对象的音频流进行解码、再现，并由一个或多个扬声器输出。在系统200中，向面向对象编码器212提供音频对象202。如上所述，可以通过音频内容创建系统或内容服务器上的成流模块实现面向对象编码器212。面向对象编码器212 可以对音频对象进行编码和/或将其压缩为比特流214。面向对象编码器212可以使用任意编解码或压缩技术来编码对象，包括基于任意运动图像专家组(MPEG)标准的压缩技术 (例如以创建MP3文件)。在一些实施例中，面向对象编码器212创建针对不同音频对象的单个比特流214，单个比特流214具有元数据报头和音频有效载荷。面向对象的编码器212可以经由网络传输比特流214 (例如参见图1B)。在用户系统214上实现的解码器220可以接收比特流214。解码器220可以将比特流214解码为其组成的音频对象202。解码器220向再现器242提供音频对象。在一些实施例中，再现器242可以直接实现解码器220的功能。再现器242可以将音频对象再现为适宜在一个或多个扬声器250上回放的音频信号对4。如上所述，再现器142A可以将音频对象的对象属性用作如何再现音频对象的提示。有利地，在特定实施例中，因为音频对象包括这些属性，所以可以改变再现器142A的功能，而不用改变音频对象的格式。例如，一种类型再现器142A可以使用音频对象的位置属性，以将音频从一个扬声器跨(pan)至另一个扬声器。响应于确定了心理声学增强对于再现器 142A可用，第二再现器142A可以使用相同的位置属性来执行对音频对象的3D心理声学过滤。总之，再现器142A可以考虑可用的部分或所有资源，以创建最佳的可能呈现。随着再现技术的改进，可以将利用了音频对象已有格式的优点的附加再现器142A或再现资源添加到用户系统140中。如上所述，面向对象的编码器212和/或再现器242还可以具有自适应的特征。图3示出了用于本文所描述的任意面向对象的音频系统的成流模块322的实施例。成流模块322包括面向对象编码器312。可以以硬件或软件来实现成流模块322和编码器312。所描述的实施例示出了如何将不同类型的音频对象编码为单个比特流314。所示示例成流模块322接收两种不同类型的对象静态对象302和动态对象304。静态对象302可以表示音频声道，例如5. 1声道环绕声。每个声道可以被表示为静态对象 302。一些内容创建者可能希望使用声道而非系统100AU00B的面向对象功能，或者除了声道之外还希望使用系统100AU00B的面向对象功能。静态对象302为这些内容创建者提供了使用声道的方式，以促进与现有固定声道系统的向后兼容，并使得容易使用。动态对象304可以包括可以使用的任意对象来代替静态对象302，或者除了静态对象302之外还可以包括可以使用的任意对象。动态对象304可以包括增强，使得当一起再现动态对象304与静态对象302时，增强与静态对象302相关联的音频。例如，动态对象 304可以包括心理声学信息，再现器可以使用所述心理声学信息来增强静态对象302。动态对象304还可以包括背景对象(例如，路过的飞机)，再现器可以使用所述背景对象来增强音频场景。然而，动态对象304不必是背景对象。动态对象304可以包括对话或任意其它音频对象。与静态对象302相关联的元数据可以是很少，或者不存在。在一个实施例中，该元数据简单地包括“声道”的对象属性，其指示静态对象302与哪个声道相对应。在一些实现中，因为元数据没有改变，因此，静态对象302的对象属性是静态的。相反，动态对象304可以包括变化的对象属性，例如变化的位置、速度等。因此，与这些对象304相关联的元数据可以是动态的。然而在一些情况下，与静态对象302相关联的元数据可以随着时间改变，而与动态对象304相关联的元数据可以保持不变。此外，如上所述，一些动态对象304可以包括极少的音频有效载荷或者不包括音频有效载荷。例如，环境对象304可以指定所期望的发生了场景的声学环境的特性。这些动态对象可以包括与音频场景发生的建筑物或室外区域的类型相关的信息，例如房间、办公室、教堂、体育场等。再现器可以使用这个信息，以例如应用与所指示的环境相对应的适量的回响或延迟来调节对静态对象302中的音频的回放。在一些实现中，环境动态对象304 还可以包括音频有效载荷。下文将参考图4描述环境对象的一些示例。另一种类型的对象是音频定义对象，其可以包括元数据但是具有极少有效载荷或没有有效载荷。在一个实施例中，用户系统可以包括音频片段或声音的库，再现器可以在接收到音频定义对象时再现所述音频片段或声音的库。音频定义对象可以包括针对在用户系统上存储的音频片段或声音的引用，以及关于将片段播放多少时间、是否循环片段等的指令。可以由音频定义对象部分地或者甚至是单独地构成音频流，其中将一部分或全部的实际音频数据存储在用户系统上(或者可由另一服务器访问)。在另一实施例中，成流模块 322可以向用户系统发送多个音频定义对象，之后发送多个音频有效载荷对象，以分离元数据和实际音频。多种其它配置是可能的。内容创建者可以使用描述性的计算机语言(例如使用音频对象创建系统110)来声明静态对象302或动态对象304。当创建稍后要形成流的音频对象时，内容创建者可以声明期望数目的静态对象302。例如，内容创建者可以请求始终是对话静态对象302 (例如，与中心声道相对应)或任意其它数目的静态对象302。该“始终是”的性质还可以使得静态对象302是静态的。相反，动态对象304可以进入或离开音频流，并且并非总是存在于音频流中。当然，这些特征可以是相反的。例如，可能期望的是选通或触发静态对象302。例如，当在给定静态对象302中不存在对话时，就在音频流中不包括该对象，这可以节约计算和网络资源。图4示出了面向对象的音频流的格式400的实施例。音频流的格式包括比特流 414，其可以与上述任意比特流相对应。将比特流414的格式400分解为更详细的连续视图 (420,430) 0所示比特流的格式400只是示例实施例，并可以根据实现而改变。在所描述的实施例中，比特流414包括流报头412和宏帧420。流报头412可以在比特流414的起始端与末端出现。可以在流报头412中包括的信息的一些示例包括流的作者、流的起源、版权信息、与流的创建和/或传送相关的时间戳、流的长度、关于使用了哪种编解码器来编码流的信息等。解码器和/或再现器可以使用流报头412，以适当地解码流 414。宏帧420将比特流414分为数据部分。每个宏帧420可以与音频场景或音频的时间片断相对应。每个宏帧420还包括宏帧报头422和独立帧430。宏帧报头422可以限定宏帧中包括的音频对象的数目、与宏帧420相对应的时间戳等。在一些实现中，可以在宏帧 420中的帧430之后放置宏帧报头422。每个独立帧430可以表示单个音频对象。然而，在一些实现中，帧430还可以表示多个音频对象。在一个实施例中，再现器在接收整个宏帧 420之后才对与宏帧420相关联的音频对象进行再现。每个帧430包括帧报头432和音频有效载荷434，帧报头432包括对象元数据。在一些实现中，可以在音频有效载荷434之后放置帧报头432。然而，如上所讨论的，一些音频对象可以只具有元数据432或者只具有音频有效载荷434。因此，一些帧432可以包括具有极少或不具有对象元数据的帧报头432 (或者根本没有报头)，以及一些帧432可以包括极少音频有效载荷434或不包括音频有效载荷434。帧报头432中的对象元数据可以包括关于对象属性的信息。下表示出了元数据的示例，其中所述元数据可以用于限定对象属性。具体地，表1示出了各种对象属性，其通过属性名称和属性描述来组织。在一些设计中，可以实现比所示属性更少或更多的属性。
权利要求
1.一种产生面向对象的音频流的方法，所述方法包括选择音频对象以在音频流中传输，其中音频对象包括音频信号数据和对象元数据，对象元数据包括一个或多个对象属性；组装包括对象元数据的对象报头；提供包括音频信号数据的音频有效载荷；利用一个或多个处理器组合对象报头和音频有效载荷，以形成音频流的至少一部分；以及经由网络传输音频流。
2.如权利要求1所述的方法，其中所述传输包括经由网络传输作为单个流的音频流。
3.如权利要求1所述的方法，其中所述一个或多个对象属性包括以下各项中的至少一个或多个音频对象的位置、音频对象的速度、音频对象的阻碍物、以及与音频对象相关联的环境。
4.如权利要求1所述的方法，其中所述组合包括由多个可变长度的帧形成音频流，其中每个帧的长度至少部分地取决于与每个帧相关联的对象元数据的数量。
5.如权利要求1所述的方法，还包括在经由网络传输音频流之前，压缩音频流。
6.如权利要求1所述的方法，其中音频对象包括静态对象。
7.如权利要求6所述的方法，其中静态对象表示音频的声道。
8.如权利要求6所述的方法，还包括将动态音频对象放置在音频流中，动态音频对象包括被配置为增强静态对象的增强数据。
9.如权利要求1所述的方法，还包括减少音频流中的冗余的对象元数据。
10.一种产生面向对象的音频流的系统，所述系统包括面向对象的成流模块，在一个或多个处理器中实现，所述面向对象的成流模块被配置为选择对声源加以表示的音频对象，其中音频对象包括音频信号数据和对象元数据，对象元数据包括声源的一个或多个对象属性；将对象元数据与音频信号数据一起编码，以形成单条面向对象的音频流的至少一部分；以及经由网络传输面向对象的音频流。
11.如权利要求10所述的系统，其中面向对象的成流模块还被配置为将第二音频对象插入所述面向对象的音频流中，所述第二音频对象只包括第二对象元数据而不包括音频有效载荷。
12.如权利要求11所述的系统，其中所述第二音频对象的所述第二对象元数据包括环境定义数据。
13.如权利要求10所述的系统，其中所述面向对象的成流模块还被配置为通过至少压缩对象元数据和音频信号数据中的一个数据或两个数据，来将对象元数据与音频信号数据一起编码。
14.如权利要求10所述的系统，其中所述声源的所述一个或多个属性包括声源的位置。
15.如权利要求14所述的系统，其中相对于与音频对象相关联的视频的摄像机视角来确定所述声源的位置。
16.如权利要求10所述的系统，其中声源的所述一个或多个属性包括以下各项中的两项或多项由音频对象表示的声源的位置；声源的速度；声源的方向性；声源的阻碍物；以及与声源相关联的环境。
17.如权利要求10所述的系统，其中所述面向对象的成流模块还被配置为减少所述音频流中的冗余的对象元数据。
全文摘要
描述了一种用于提供面向对象的音频的系统和方法。通过将声源与这些声源的属性(例如位置、速度、方向性等)相关联来创建音频对象。可以除声道以外还使用音频对象，或替代声道来使用音频对象，以例如通过使音频对象成流来经由网络向客户端设备分发声音。对象可以限定空间中与二维坐标和三维坐标相关联的位置。可以基于可用网络资源和客户端设备资源使对象自适应成流传送至客户端设备。客户端设备上的再现器可以使用对象的属性来确定如何再现对象。再现器还基于与客户端设备的再现环境相关的信息来调整对象的回放。还描述了音频对象创建技术的多种示例。
文档编号G10L19/00GK102576533SQ201080041993
公开日2012年7月11日申请日期2010年8月13日优先权日2009年8月14日
发明者泰米斯·卡奇诺斯, 詹姆斯·特雷西, 阿兰·D·克拉梅尔申请人:Srs实验室有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：詹姆斯·特雷西;泰米斯·卡奇诺斯;阿兰·D·克拉梅尔
技术所有人：SRS实验室有限公司
我是此专利的发明人

上一篇：一种处理音频信号的方法和装置的制作方法
上一篇：自适应成流音频对象的系统的制作方法