发送设备、发送方法、接收设备和接收方法与流程

文档序号:12513556阅读:372来源:国知局
发送设备、发送方法、接收设备和接收方法与流程

本技术涉及发送设备、发送方法,接收设备和接收方法,更具体地,涉及用于发送多种类型的音频数据等的发送设备。



背景技术:

在现有技术中,作为立体(3D)声音技术,存在用于将编码样本数据映射到存在于任意位置处的扬声器以基于元数据渲染的技术(例如,参见专利文献1)。

引用列表

专利文献

专利文献1:PCT公布号2014-520491的日语译文



技术实现要素:

本发明待解决的问题

例如,通过将由编码样本数据和元数据构成的对象数据与5.1通道、7.1通道等的通道数据一起发送,在接收侧实现具有改善逼真感的声音再现。在现有技术中,已经提出将包括通过使用MPEG-H 3D音频(3D音频)编码方法编码通道数据和对象数据而获得的编码数据的音频流发送到接收侧。

3D音频编码方法和编码方法,诸如MPEG4AAC在这些流结构中不兼容。因此,当保持与常规音频接收器(related audio receiver)的兼容性的同时提供3D音频服务时,可以考虑联播。然而,当通过不同的编码方法发送相同内容时,不能有效地使用传输频带。

本技术的目的在于在不损害传输频带的有效利用的情况下提供一种保持与常规音频接收器的兼容性的新服务。

问题的解决方案

本技术的一个构思在于

一种发送设备,包括:

编码单元,被配置为生成包括第一编码数据和与第一编码数据相关的第二编码数据的预定数量的音频流;和

发送单元,被配置为发送包括所生成的预定数量的音频流的预定格式的容器,

其中,编码单元生成预定数量的音频流,使得第二编码数据在与第二编码数据不兼容的接收器中被丢弃。

根据本技术,编码单元生成具有第一编码数据和与第一编码数据相关的第二编码数据的预定数量的音频流。这里,生成预定数量的音频流,使得第二编码数据在与第二编码数据不兼容的接收器中被丢弃。

例如,第一编码数据的编码方法和第二编码数据的编码方法可以不同。在这种情况下,例如第一编码数据可以是通道编码数据,而第二编码数据可以是对象编码数据。另外,在这种情况下,例如,第一编码数据的编码方法可以是MPEG4AAC,而第二编码数据的编码方法可以是MPEG-H 3D音频。

发送单元发送包括所生成的预定数量的音频流的预定格式的容器。例如,容器可为在数字广播标准中使用的传输流(MPEG-2TS)。此外,例如,容器可为通过因特网分发使用的MP4的容器,或者是其他格式的容器。

如上所述,根据本技术,发送具有第一编码数据和与第一编码数据相关的第二编码数据的预定数量的音频流,并且生成预定数量的音频流,使得第二编码数据在与第二编码数据不兼容的接收器中被丢弃。因此,可以保持与常规音频接收器的兼容性、不损害传输频带的有效使用的同时提供新服务。

需注意,在本技术中,例如,编码单元可以生成音频流,其具有第一编码数据并将第二编码数据嵌入在音频流的用户数据区域中。在这种情况下,在常规的音频接收器中,嵌入在用户数据区域中的第二编码数据被读取和丢弃。

在这种情况下,例如,可进一步包括信息插入单元,被配置为在容器的层中插入识别信息,该识别信息识别在具有第一编码数据并且包括在容器中的音频流的用户数据区域中嵌入有与第一编码数据相关的第二编码数据。借助这种配置,在接收侧,在执行音频流的解码处理之前,可以容易地辨识出在音频流的用户数据区域中嵌入有第二编码数据。

另外,在这种情况下,例如,第一编码数据可以是通道编码数据,而第二编码数据可以是对象编码数据,并且预定数量组的对象编码数据可以嵌入在音频流的用户数据区域中,可进一步包括信息插入单元,其被配置为在容器的层中插入属性信息,该属性信息指示预定数量的组的每条对象编码数据的属性。借助这种配置,在接收侧,在解码对象编码数据之前可以容易地辨识预定数量组的每个对象编码数据的属性,使得可以选择性地仅解码和使用必要组的对象编码数据且这可以减少处理负荷。

此外,在本技术中,例如编码单元可以生成包括第一编码数据的第一音频流且生成包括第二编码数据的预定数量的第二音频流。在这种情况下,在常规的音频接收器中,从解码目标中排除预定数量的第二音频流。或者,在该系统中,还可以通过使用AAC系统编码5.1通道的第一编码数据,且通过使用MPEG-H系统将从5.1通道的数据和编码对象数据获得的2通道的数据编码为第二编码数据。在这种情况下,与第二编码方法不兼容的接收器仅解码第一编码数据。

在这种情况下,例如,预定数量的组的对象编码数据可以包括在预定数量的第二音频流中,还可以包括信息插入单元,其配置为在容器的层中插入属性信息,该属性信息指示预定数量的组的每条对象编码数据的属性。借助这种配置,在接收侧,可以在解码对象编码数据之前容易地辨识预定数量的组的每条对象编码数据的属性,并且可以选择性地仅解码和使用必要组的对象编码数据,使得可以减少处理负荷。

然后,在这种情况下,例如,可以使信息插入单元进一步将对流应关系信息插入到容器的层,该流对应关系信息指示预定数量的组的对象编码数据以及预定数量组的通道编码数据及对象编码数据分别包括到哪个第二音频流中。例如,可以将流对应关系信息作为指示组标识符与流标识符之间的对应关系的信息,该组标识符识别多个组的每条编码数据,该流标识符识别预定数量的音频流的每个流。在这种情况下,例如,可以使信息插入单元在容器的层中进一步插入流标识符信息,其指示预定数量的音频流的每个流标识符。利用该配置,接收侧可以容易地辨识必要组的对象编码数据或者包括预定数量的组的通道编码数据和对象编码数据的第二音频流,使得可以减少处理负荷。

此外,本技术的另一个构思在于

接收设备,包括:

接收单元,被配置为接收包括预定数量的音频流的预定格式的容器,所述音频流具有第一编码数据和与所述第一编码数据相关的第二编码数据,

其中生成预定数量的音频流,使得第二编码数据在与第二编码数据不兼容的接收器中被丢弃,

接收设备还包括处理单元,该处理单元被配置为从包括在容器中的预定数量的音频流中提取第一编码数据和第二编码数据,并且处理所提取的数据。

根据本技术,接收单元接收包括预定数量的音频流的预定格式的容器,该音频流具有第一编码数据和与第一编码数据相关的第二编码数据。这里,生成预定数量的音频流,使得第二编码数据在与第二编码数据不兼容的接收器中丢弃。然后,通过处理单元从预定数量的音频流中提取并处理第一编码数据和第二编码数据。

例如,第一编码数据的编码方法和第二编码数据的编码方法可以不同。此外,例如第一编码数据可以是通道编码数据,而第二编码数据可以是对象编码数据。

例如,可以使容器包括具有第一编码数据和嵌入在其用户数据区域中的第二编码数据的音频流。另外,例如,容器可以包括包含第一编码数据的第一音频流和包含第二编码数据的预定数量的第二音频流。

以这种方式,根据本技术,从预定数量的音频流中提取并处理第一编码数据和第二编码数据。因此,除了第一编码数据之外,通过使用第二编码数据的新服务可以实现高质量声音再现。

本发明的效果

根据本技术,可以将新服务提供为保持与常规音频接收器的兼容性,而不劣化传输频带的有效使用。需注意,在本说明书中描述的效果仅仅是示例且不设置任何限制且可存在额外效果。

附图说明

[图1]是示出作为实施例的收发系统的配置示例的框图。

[图2]为用于说明发送音频流配置(流配置(1)和流配置(2))的示图。

[图3]为框图,其示出在发送音频流配置为流配置(1)的情况下在服务发送器中的流生成单元的配置示例。

[图4]为示出构成3D音频传输数据的对象编码数据的配置示例的示图。

[图5]为示出在发送音频流配置是流配置(1)的情况下组与属性等之间的对应关系的示图。

[图6]为示出MPEG4AAC音频帧结构的示图。

[图7]为示出元数据所插入的数据流元素(DSE,data stream element)配置的示图。

[图8]为示出“metadata()(元数据())”的配置和该配置的主要信息的示图。

[图9]为示出MPEG-H 3D音频的音频帧结构的示图。

[图10]为示出对象编码数据的分组配置示例的示图。

[图11]为示出辅助数据描述符的结构示例的示图。

[图12]为示出8字节字段“ancillary_data_identifier”的当前字节和数据类型之间对应关系的示图。

[图13]为示出3D音频流结构描述符的配置示例的示图。

[图14]示出3D音频流结构描述符的配置示例的主要信息内容。

[图15]为示出在“contentKind”中定义的内容的类型的示图。

[图16]为示出在发送音频流的配置为流配置(1)的情况下传输流的配置示例的示图。

[图17]为框图,其示出在发送音频流的配置为流配置(2)的情况下服务发送器的流生成单元的配置示例。

[图18]为示出构成3D音频传输数据的对象编码数据的配置示例(划分成两个)的示图。

[图19]为示出在发送音频流的配置为流配置(2)的情况下组和属性之间对应关系的示图。

[图20]为示出3D音频流ID描述符的结构示例的示图。

[图21]为示出在发送音频流的配置为流配置(2)的情况下传输流的配置示例的示图。

[图22]为示出服务接收器的配置示例的框图。

[图23]为用于说明所接收的音频流(流配置(1)和流配置(2))的结构的示图。

[图24]为示意性地示出在所接收的音频流的配置是流配置(1)的情况下解码处理的示图。

[图25]为示意性地示出在所接收的音频流的配置是流配置(2)的情况下解码处理的示图。

[图26]为示出AC3帧(AC3同步帧)的结构的示图。

[图27]为示出AC3辅助数据(辅助数据)的配置示例的示图。

[图28]为示出AC4简单传输(简单传输)的层的结构的示图。

[图29]为示出TOC(ac4_toc())和子流(ac4_substream_data())的概要配置的示图。

[图30]为示出在TOC(ac4_toc())中的“umd_info()”的配置示例的示图。

[图31]为示出子流(ac4_substream_data())中的“umd_payloads_substream()”的配置示例的示图。

具体实施方式

在下文中,将描述用于实施本发明的模式(以下称为“实施例”)。需注意本说明书将按以下顺序给出。

1.实施例

2.变形例

<1.实施例>

[收发系统的配置示例]

图1示出作为实施例的收发系统10的配置示例。收发系统10包括服务发送器100和服务接收器200。服务发送器100通过广播波或通过网络的分组发送传输流TS。传输流TS包括视频流和预定数量(其为一个或多个)的音频流。

预定数量的音频流包括通道编码数据和预定数量的组的对象编码数据。生成预定数量的音频流,使得当接收器与对象编码数据不兼容时,丢弃对象编码数据。

在第一种方法中,如图2(a)的流配置(1)所示,生成包括用MPEG4AAC编码的通道编码数据的音频流(主流),并且用MPEG-H 3D音频所编码的预定数量组的对象编码数据嵌入在音频流的用户数据区中。

在第二种方法中,如图2(b)的流配置(2)所示,生成包括用MPEG4AAC编码的通道编码数据的音频流(主流)和生成包括用MPEG-H 3D音所频码的预定数量组的对象编码数据的预定数量的音频流(子流1到N),该音频流(主流)。

服务接收器200从服务发送器100接收使用广播波或通过网络的分组发送的传输流TS。如上所述,除了视频流之外,传输流TS包括预定数量的音频流,其包括通道编码数据和预定数量的对象编码数据组。服务接收器200对视频流执行解码处理并获得视频输出。

另外,当服务接收器200与对象编码数据兼容时,服务接收器200从预定数量的音频流中提取通道编码数据和对象编码数据,并且执行解码处理以获得与视频输出对应的音频输出。另一方面,当服务接收器200与对象编码数据不兼容时,服务接收器200仅从预定数量的音频流中提取通道编码数据,并执行解码处理以获得与视频输出对应的音频输出。

[服务发送器的流生成单元]

(采用流配置(1)的情况)

首先,将描述音频流是图2(a)的流配置(1)中的情况。图3示出了在上述情况下服务发送器100中包括的流生成单元110A的配置示例。

流生成单元110包括视频编码器112、音频通道编码器113、音频对象编码器114和TS格式化器115。视频编码器112输入视频数据SV,编码视频数据SV,并且生成视频流。

音频对象编码器114输入构成音频数据SA的对象数据,并通过用MPEG-H 3D音频来编码对象数据而生成音频流(对象编码数据)。音频通道编码器113输入构成音频数据SA的通道数据,通过用MPEG4AAC编码通道数据来生成音频流,并且还将在音频对象编码器114中生成的音频流嵌入音频流的用户数据区域中。

图4示出了对象编码数据的配置示例。在该配置示例中,包括两条对象编码数据。两条对象编码数据是沉浸式音频对象(IAO)和语音对话对象(SDO)的编码数据。

沉浸式音频对象编码数据是用于沉浸式声音的对象编码数据,并且包括用于通过将编码样本数据SCE1与存在于任意位置的扬声器映射而进行渲染(rendering,演奏)的编码样本数据SCE1和元数据EXE_E1(对象元数据)1。

语音对话对象编码数据是用于对白语言的对象编码数据。在该示例中,存在分别对应于第一和第二语言的语音对话对象编码数据。对应于第一语言的语音对话对象编码数据包括用于通过将编码样本数据SCE2与存在于任意位置的扬声器映射而进行渲染的编码样本数据SCE2和元数据EXE_E1(对象元数据)2。另外,对应于第二语言的语音对话对象编码数据包括用于通过将编码样本数据SCE3与存在于任意位置的扬声器映射而进行渲染的编码样本数据SCE3和元数据EXE_E1(对象元数据)3。

通过根据数据类型使用组(Group)的概念来区分对象编码数据。根据所示的示例,将沉浸式音频对象编码数据设定为组1,将与第一语言对应的语音对话对象编码数据设定为组2,将与第二语言对应的语音对话对象编码数据设定为组3。

另外,在接收侧可以在组之间选择的数据被注册在切换组(SW组)中并被编码。然后,根据使用情况可以将这些组分组为预设组(预设组)并再现。在所示的示例中,组1和组2被分组为预设组1,而组1和组3被分组为预设组2。

图5示出组和属性之间的对应关系等。这里,组ID(group ID)是用于识别组的标识符。属性(attribute)表示每个组的编码数据的属性。切换组ID(switch Group ID)是用于识别切换组的标识符。重设组ID(preset Group ID)是用于识别预设组的标识符。流ID(sub Stream ID)是用于识别流的标识符。种类(Kind)表示每个组的内容的种类。

所示的对应关系指示,组1的编码数据为用于沉浸式声音的对象编码数据(沉浸式音频对象编码数据),构成切换组,且嵌入在包括通道编码数据的音频流的用户数据区域中。

另外,所示的对应关系指示,组2的编码数据是用于第一语言的对白的对象编码数据(语音对话对象编码数据),构成切换组1,且嵌入在包括通道编码数据的音频流的用户数据区域中。另外,所示的对应关系指示,组3的编码数据是用于第二语言的对白的对象编码数据(语音对话对象编码数据),构成切换组1,且嵌入在包括通道编码数据的音频流的用户数据区域中。

另外,所示的对应关系指示预设组1包括组1和组2。此外,所示的对应关系指示预设组2包括组1和组3。

图6示出MPEG4AAC的音频帧结构。音频帧包括多个元素。在每个元素(元素)的开始处,存在三位标识符(ID)“id_syn_ele”且可以识别元素内容。

音频帧包括元素,诸如单通道元素(SCE)、通道对元素(CPE)、低频元素(LFE)、数据流元素(DSE)、节目配置元素(PCE)和填充元素(FIL)。SCE、CPE和LFE的元素包括构成通道编码数据的编码样本数据。例如,在5.1通道的通道编码数据的情况下,包括单个SCE、两个CPE和单个LFE。

PCE的元素包括多个通道元素和下混(down_mix)因子。FIL的元素用于定义扩展(extension)信息。在DSE的元素中,可以放置用户数据且该元素的“id_syn_ele”是“0x4”。在DSE中,嵌入对象编码数据。

图7示出DSE(Data Stream Element())的配置(语法)。4位字段“element_instance_tag”表示DSE中的数据的类型;然而,当DSE用作公共用户数据时该值可以被设定为“0”。“data_byte_align_flag”字段被设定为“1”,使得整个DSE的字节对齐。根据用户数据大小适当地设定表示其添加字节数的“count”或“esc_count”的值。“count”和“esc_count”可计数到510个字节。换句话说,放置在单个DSE中的数据的大小最大为510字节。对于“data_stream_byte”字段,插入“metadata()”。

图8(a)示出“metadata()”的配置(语法),而图8(b)示出在该配置中的主要信息的内容(语义)。8位字段“metadata_type”指示元数据的类型。例如,“0x10”表示MPEG-H系统(MPEG-H 3D音频)的对象编码数据。

8位字段的“count”指示按时间升序的元数据的计数数量。如上所述,放置在单个DSE中的数据的大小高达510字节;然而,对象编码数据的大小可以大于510字节。在这种情况下,使用多于一个DSE,并且使由“count”指示的计数数量用于表示这些DSE的连接关系。在“data_byte”的区域中,放置对象编码数据。

图9示出MPEG-H 3D音频的音频帧结构。该音频帧由多个MPEG音频流分组(mpeg Audio Stream Packet)构成。每个MPEG音频流分组由报头(Header)和有效载荷(Payload)构成。

报头包括信息,诸如分组类型(Packet Type)、分组标签(Packet Label)和分组长度(Packet Length)。在有效载荷中,放置由在报头中的分组类型定义的信息。有效载荷信息包括与同步起始码对应的“SYNC”、作为实际数据的“Frame”和表示“Frame”的配置的“Config”。

根据本实施例,“Frame”包括构成3D音频传输数据的对象编码数据。构成3D音频传输数据的通道编码数据包括在如上所述的MPEG4AAC的音频帧中。对象编码数据由单通道元素(SCE)的编码样本数据和用于通过映射编码样本数据与存在于任意位置处的扬声器而渲染的元数据构成(参见图4)。元数据作为扩展元素(Ext_element)被包括。

图10(a)示出对象编码数据的分组配置示例。在该示例中,包括单组的对象编码数据。包括在“Config”中的“#obj=1”的信息指示包括单组的对象编码数据的“Frame”的存在。

在“Config”中的“AudioSceneInfo()”中注册的“GroupID[0]=1”的信息指示放置了包括组1的编码数据的“Frame”。这里,使分组标签(PL)的值在“Config”和与其对应的每个“Frame”中为相同的值。这里,包括组1的编码数据的“Frame”由包括作为扩展元素(Ext_element)的元数据的“Frame”和包括单通道元素(SCE)的编码样本数据的“Frame”构成。

图10(b)示出了对象编码数据的另一个分组配置示例。在该示例中,包括两个组的对象编码数据。包括在“Config”中的“#obj=2”的信息指示存在具有两个组的对象编码数据的“Frame”。

在“Config”中,“GroupID[1]=2,GroupID[2]=3,SW_GRPID[0]=1”以此顺序在“AudioSceneInfo()”中注册的信息指示具有组2的编码数据的“Frame”和具有组3的编码数据的“Frame”以该顺序被放置,且这些组构成切换组1。这里,在“Config”中及其对应的每个“Frame”中将分组标签(PL)的值设定为相同值。

这里,具有组2的编码数据的“Frame”由包括作为扩展元素(Ext_element)的元数据的“Frame”和包括单通道元素(SCE)的编码样本数据的“Frame”构成。相似地,具有组3的编码数据的“Frame”由包括作为扩展元素(Ext_element)的元数据的“Frame”和包括单通道元素(SCE)的编码样本数据的“Frame”构成。

重新参考图3,TS格式化器115将从视频编码器112输出的视频流和从音频通道编码器113输出的音频流封包成PES分组,通过将数据封包为传输分组而进一步复用,并获得作为复用流的传输流TS。

此外,TS格式化器115在容器的层中插入识别信息,该识别信息识别与包括在音频流中的通道编码数据相关的对象编码数据被嵌入音频流的用户数据区域中,这涵盖在根据本实施例的节目映射表(PMT)中。通过使用现有的辅助数据描述符(Ancillary_data_descriptor),TS格式化器115将识别信息插入到与音频流对应的音频基本流循环。

图11示出了辅助数据描述符的结构示例(语法)。8位字段“descriptor_tag”指示描述符类型。在这种情况下,该字段指示辅助数据描述符。8位字段“descriptor_length”指示描述符的长度(大小)且指示作为描述符长度的后续字节的数量。

8位字段“ancillary_data_identifier”指示在音频流的用户数据区域中嵌入何种数据。在这种情况下,当每个位被设定为“1”时,指示嵌入与该位对应的类型的数据。图12示出了在当前条件下在位和数据类型之间的对应关系。根据本实施例,对象编码数据(Object data)重新定义为位7(Bit 7)作为数据类型,并且当“1”设定到字节7时,识别出对象编码数据被嵌入在音频流的用户数据区域中。

此外,TS格式化器115在容器的层中插入属性信息,该属性信息指示预定数量的组的对象编码数据的各自属性,这涵盖在在根据本实施例的节目映射表(PMT)中。通过使用3D音频流配置描述符(3Daudio_stream_config_descriptor),TS格式化器115将属性信息等插入到与音频流对应的音频基本流循环中。

图13示出3D音频流配置描述符的结构示例(语法)。另外,图14示出在结构示例中的主要信息的内容(语义)。8位字段“descriptor_tag”指示描述符类型。在该示例中,指示3D音频流配置描述符。8位字段“descriptor_length”指示描述符的长度(大小)且将后续字节的数量指示为描述符长度。

8位字段“NumOfGroups,N”指示组的数量。8位字段“NumOfPresetGroups,P”指示预设组的数量。以与组的数量相同的次数重复8位字段“组ID”、8位字段“attribute_of_groupID”、8位字段“SwitchGroupID”和8位字段“audio_streamID”。

字段“groupID”表示组的标识符。“attribute_of_groupID”字段指示组的对象编码数据的属性。字段“SwitchGroupID”为指示该组属于哪个切换组的标识符。“0”指示该组不属于任何切换组。“0”以外的值指示该组所属的切换组。8位字段“contentKind”指示组的内容的类型。“audio_streamID”为指示其中包括组的音频流的标识符。图15指示由“contentKind”定义的内容的类型。

另外,以与预设组的数量相同的次数重复8位字段“presetGroupID”和8位字段“NumOfGroups_in_preset,R”。“presetGroupID”字段是指示作为预设的所分组的组的标识符。“NumOfGroups_in_preset,R”字段指示属于预设组的组的数量。然后,在每个预设组中,8位字段“groupID”被重复与属于预设组的组的数量相同的次数,并且指示属于预设组的各组。

图16示出传输流TS的配置示例。在该配置示例中,存在“video PES”,其为由PID1识别的视频流的PES分组。另外,在该配置示例中,存在“audio PES”,其为由PID2识别的音频流的PES分组。PES分组由PES报头(PES_header)和PES有效载荷(PES_payload)构成。

这里,在作为音频流的PES分组的“audio PES”中,包括MPEG4AAC通道编码数据且MPEG-H 3D音频对象编码数据嵌入在其用户数据区域中。

另外,在传输流TS中,包括作为节目特定信息(PSI)的节目映射表(PMT)。PSI为描述包括在传输流中的每个基本流属于哪个节目的信息。在PMT中,存在描述与整个节目相关的信息的节目循环(Program loop)。

另外,在PMT中,存在具有与每个基本流相关的信息的基本流循环。在该配置示例中,存在与视频流对应的视频基本流循环(video ES loop)以及与音频流对应的音频基本流循环(audio ES loop)。

在对应于视频流的视频基本流循环(video ES loop)中,提供以下信息,诸如流类型、分组标识符(PID)等以及描述与视频流相关的信息的描述符。视频流的“Stream_type”的值被设定为“0x24”并且PID信息指示应用于作为上述的视频流的PES分组的“video PES”的PID1。作为描述符之一,放置HEVC描述符。

在与音频流对应的音频基本流循环(audio ES loop)中,提供以下信息,诸如流类型、分组标识符(PID)等以及描述与音频流相关的信息的描述符。音频流的“Stream_type”的值被设定为“0x11”,且PID信息指示PID2应用于作为上述的音频流的PES分组的“audio PES”。在音频基本流循环中,上述辅助数据描述符和3D音频流配置描述符均被提供。

简要描述图3所示的流生成单元110A的操作。视频数据SV供应至视频编码器112。在视频编码器112中,视频数据SV被编码且包括包含所编码视频数据的视频流。将视频流提供至TS格式化器115。

构成音频数据SA的对象数据被供应至音频对象编码器114。在音频对象编码器114中,对对象数据执行MPEG-H 3D音频编码并生成音频流(对象编码数据)。该音频流被供应至音频通道编码器113。

构成音频数据SA的通道数据被供应至音频通道编码器113。在音频通道编码器113中,对通道数据执行MPEG4AAC编码并生成音频流(通道编码数据)。在这种情况下,在音频通道编码器113中,在音频对象编码器114中生成的音频流(对象编码数据)嵌入在用户数据区域中。

在视频编码器112中生成的视频流被供应至TS格式化器115。此外,在音频通道编码器113中生成的音频流被供应至TS格式化器115。在TS格式化器115中,从每个编码器提供的流被封包成PES分组,然后封包成传输分组并进行复用,且获得作为复用流的传输流TS。

另外,在TS格式化器115中,辅助数据描述符插入在音频基本流循环中。该描述符包括识别信息,其识别存在嵌入在音频流的用户数据区域中的对象编码数据。

另外,在TS格式化器115中,3D音频流配置描述符插入在音频基本流循环中。该描述符包括属性信息,该属性信息指示预定数量的组的每条对象编码数据的属性。

(采用流配置(2)的情况)

接下来,将描述音频流处于图2(b)的流配置(2)中的情况。图17示出在上述情况中的服务发送器100中包括的流生成单元110B的配置示例。

流生成单元110B包括视频编码器122、音频通道编码器123、音频对象编码器124-1至124-N和TS格式化器125。视频编码器122输入视频数据SV并编码视频数据SV以生成视频流。

音频通道编码器123输入构成音频数据SA的通道数据且借助MPEG4AAC编码通道数据,以生成音频流(通道编码数据)作为主流。音频对象编码器124-1至124-N分别输入构成音频数据SA的对象数据并借助MPEG-H 3D音频来编码对象数据,以生成作为子流的音频流(对象编码数据)。

例如,在N=2的情况下,音频对象编码器124-1生成子流1,而音频对象编码器124-2生成子流2。例如,如图18所示,在由两条对象编码数据构成的对象编码数据的配置示例中,子流1包括沉浸式音频对象(IAO),子流2包括语音对话对象(SDO)的编码数据。

图19示出组和属性之间的对应关系。这里,组ID(group ID)是用于识别组的标识符。属性(attribute)指示每个组的编码数据的属性。切换组ID(switch Group ID)为用于识别彼此可切换的组的标识符。预设组ID(preset Group ID)是用于识别预设组的标识符。流ID(流ID)是用于识别流的标识符。种类(Kind)指示每个组的内容的类型。

所示的对应关系示出属于组1的编码数据是用于沉浸式声音的对象编码数据(沉浸式音频对象编码数据),不构成切换组,且包括在子流1中

另外,所示的对应关系示出属于组2的编码数据是第一语言的用于对白语言的对象编码数据(语音对话对象编码数据),构成切换组1,且包括在子流2中。另外,所示的对应关系示出属于组3的编码数据是第二语言的用于对白语言的对象编码数据(语音对话对象编码数据),构成切换组1,且包括在子流2中。

另外,所示的对应关系示出预设组1包括组1和组2。另外,所示的对应关系示出预设组2包括组1和组3。

重新参考图17,TS格式化器125将从视频编码器112输出的视频流、从音频通道编码器123输出的音频流以及从音频对象编码器124-1至124-N输出的音频流封包成PES分组,将该数据复用成传输分组,并获得作为复用流的传输流TS。

另外,在容器的层的覆盖范围中,即在本实施例中的节目映射表(PMT)的覆盖范围内,TS格式化器125插入属性信息和流对应关系信息,该属性信息指示预定数量的组中的对象编码数据的每个属性,该流对应关系信息指示在预定数量的组中的对象编码数据属于哪个子流。通过使用3D音频流配置描述符(3Daudio_stream_config_descriptor),TS格式化器125将这些条信息插入到与预定数量的子流中的一个或多个子流对应的音频基本流循环(参见图13)。

另外,在容器的层的覆盖范围中,即在本实施例中的节目映射表(PMT)的覆盖范围内,TS格式化器125插入流标识符信息,其指示预定数量的子流的各流标识符。通过使用3D音频流ID描述符(3Daudio_substreamID_descriptor),TS格式化器125将该信息插入分别对应于预定数量的子流的音频基本流循环。

图20(a)示出3D音频流ID描述符的结构示例(语法)。另外,图20(b)示出在结构示例中的主要信息的内容(语义)。

8位字段“descriptor_tag”示出描述符类型。在该示例中,指示3D音频流ID描述符。8位字段“descriptor_length”指示描述符的长度(大小)且将后续字节的数量指示为描述符长度。8位字段“audio_streamID”指示子流的标识符。

图21示出传输流TS的配置示例。在该配置示例中,存在由PID1识别的视频流的PES分组“video PES”。此外,在该配置示例中,存在分别由PID2和PID3识别的两个音频流的PES分组“audio PES”。PES分组由PES报头(PES_header)和PES有效载荷(PES_payload)构成。在PES报头中,插入DTS和PTS的时间戳。例如,当复用时,通过应用时间戳和匹配PID2和PID3的时间戳,可以在整个系统中保持设备之间的同步。

在由PID2识别的音频流(主流)的PES分组“audio PES”中,包括MPEG4AAC的通道编码数据。在另一个方面中,在由PID3识别的音频流(子流)的PES分组“audio PES”中,包括MPEG-H 3D音频的对象编码数据。

此外,在传输流TS中,包括作为节目特定信息(PSI)的节目映射表(PMT)。PSI为描述包括在传输流中的每个基本流属于哪个节目的信息。在PMT中,存在描述与整个节目相关的信息的节目循环(节目循环)。

此外,在PMT中,存在包括与每个基本流相关的信息的基本流循环。在该配置示例中,存在与视频流对应的视频基本流循环(video ES loop)以及与两个音频流对应的音频基本流循环(audio ES loop)。

在与视频流对应的视频基本流循环(video ES loop)中,放置诸如流类型和分组标识符(PID)的信息且还放置描述与视频流有关的信息的描述符。视频流的“Stream_type”的值被设定为“0x24”,PID信息被假定为指示分配至如上所述的视频流的PES分组“video PES”的PID1。HEVC描述符也作为描述符被放置。

在与音频流(主流)对应的音频基本流循环(audio ES loop)中,放置诸如流类型和分组标识符(PID)的信息且还放置描述与音频流有关的信息的描述符,其与音频流对应。音频流的“Stream_type”的值被设定为“0x11”,并且PID信息被假定为指示PID2,其应用于如上所述的音频流(主流)的PES分组“audio PES”。

另外,在与音频流(子流)对应的音频基本流循环(audio ES loop)中,放置诸如流类型和分组标识符(PID)的信息且还放置描述与音频流有关的信息的描述符,其与音频流对应。音频流的“Stream_type”的值被设定为“0x2D”,并且PID信息被假定为指示PID3,其应用于如上所述的音频流(主流)的PES分组“audio PES”。作为描述符,放置上述3D音频流配置描述符和3D音频流ID描述符。

将简要说明图17所示的流生成单元110B的操作。视频数据SV提供到视频编码器122。在视频编码器122中,视频数据SV被编码且生成包含所编码视频数据的视频流。

构成音频数据SA的通道数据被供应至音频通道编码器123。在音频通道编码器123中,通道数据用MPEG4AAC编码,并且生成作为主流的音频流(通道编码数据)。

另外,构成音频数据SA的对象数据被供应至音频对象编码器124-1至124-N。音频对象编码器124-1至124-N用MPEG-H 3D音频分别编码对象数据且生成作为子流的音频流(对象编码数据)。

在视频编码器122中生成的视频流被供应至TS格式化器125。另外,在音频通道编码器113中生成的音频流(主流)被供应至TS格式化器125。另外,在音频对象编码器124-4至124-N中生成的音频流(子流)被供应至TS格式化器125。在TS格式化器125中,从每个编码器提供的流被封包成PES分组且进一步复用成传输分组,且获得作为复用流的传输流TS。

另外,TS格式化器115将3D音频流配置描述符插入在与预定数量子流中的至少一个或多个子流对应的音频基本流循环中。在3D音频流配置描述符中,包括属性信息和流对应关系信息等,该属性信息指示预定数量的组的每条对象编码数据的属性,该流对应关系为预定数量的组的每条对象编码数据属于哪个子流。

另外,在TS格式化器115中,在与子流对应的音频基本流循环中,即,在分别与预定数量的子流对应的音频基本流循环中,插入3D音频流ID描述符。在该描述符中,包括流标识符信息,该信息指示预定数量的音频流中的每个流标识符。

[服务接收器的配置示例]

图22示出服务接收器200的配置示例。服务接收器200包括接收单元201、TS分析单元202、视频解码器203、视频处理电路204、面板驱动电路205和显示面板206。另外,服务接收器200包括复用缓冲器211-1至211-M、组合器212、3D音频解码器213、声音输出处理电路214和扬声器系统215。另外,服务接收器200包括CPU 221、闪存ROM 222、DRAM223、内部总线224、遥控接收单元225和遥控发送器226。

CPU 221控制在服务接收器200中的每个单元的操作。闪存ROM 222存储控制软件并保持数据。DRAM 223构成CPU 221的工作区域。CPU 221通过在DRAM 223中展开从闪存ROM 222读取的软件或数据而启动软件,并且控制在服务接收器200中的每个单元。

遥控接收单元225接收从遥控发送器226发送的遥控信号(遥控代码)并将该信号供应至CPU 221。基于遥控代码,CPU 221控制在服务接收器200中的各单元。CPU 221、闪存ROM 222和DRAM 223连接到内部总线224。

通过使用广播波或通过网络的分组,接收单元201接收从服务发送器100发送的传输流TS。除了视频流之外,传输流TS还包括预定数量的音频流。

图23(a)和图23(b)示出了待接收的音频流的示例。图23(a)示出了在流配置(1)的情况下的示例。在这种情况下,仅存在包括用MPEG4AAC编码的通道编码数据的主流,并且借助MPEG-H 3D音频编码的预定数量的组的对象编码数据嵌入在音频流的用户数据区域中。主流由PID2识别。

图23(b)示出了在流配置(2)的情况下的示例。在这种情况下,存在包括借助MPEG4AAC编码的通道编码数据的主流且存在预定数量的子流,在该示例的一个子流包括预定数量的组的用MPEG-H 3D音频编码的对象编码数据。主流用PID2识别,子流用PID3识别。这里,需注意,在流配置中,主流可以用PID3识别,而子流可以用PID2识别。

TS分析单元202从传输流TS提取视频流的分组且将视频流的分组发送到视频解码器203。视频解码器203重新配置从在TS分析单元202中提取的视频的分组的视频流,并且通过执行解码处理获得非压缩的图像数据。

视频处理电路204对在视频解码器203中获得的视频数据执行缩放处理和图像质量调整处理,并获得用于显示的视频数据。基于在视频处理电路204中获得的用于显示的图像数据,面板驱动电路205驱动显示面板206。显示面板206例如由液晶显示器(LCD)或有机电致发光显示器(有机EL显示器)构成。

另外,TS分析单元202从传输流TS提取各种信息,诸如描述符信息并将该信息发送到CPU 221。在流配置(1)的情况下,各种信息包括辅助数据描述符(Ancillary_data_descriptor)和3D音频流配置描述符(3Daudio_stream_config_descriptor)的信息(参见图16)。基于描述符信息,CPU 221可以辨识对象编码数据嵌入在被包括在通道编码数据中的主流的用户数据区域中,并且辨识每个组的对象编码数据的属性等。

另外,在流配置(2)的情况下,各种信息包括3D音频流配置描述符(3Daudio_stream_config_descriptor)和3D音频流ID描述符(3Daudio_substreamID_descriptor)的信息(参见图21)。基于描述符信息,CPU 221辨识每个组的对象编码数据的属性以及包括每个组的对象编码数据的子流等。

另外,在CPU 221的控制下,TS分析单元202通过使用PID滤波器选择性地提取在传输流TS中包括的预定数量的音频流。换句话说,在流配置(1)的情况下,提取主流。另一方面,在流配置(2)的情况下,提取主流且提取预定数量的子流。

复用缓冲器211-1至211-M分别导入在TS分析单元202中提取的音频流(仅主流,或主流和子流)。这里,复用缓冲器211-1至211-M的数量M被假定成必要且足够的数量,并且在实际操作中使用与在TS分析单元202中提取的音频流的数量相同数量的缓冲器。

组合器212针对每个音频帧从复用缓冲器211-1至211-M之中向其导入了由TS分析单元202提取的各个音频流的复用缓冲器中读取音频流并且将音频流发送到3D音频解码器213。

在CPU 221的控制下,3D音频解码器213提取通道编码数据和对象编码数据,执行解码处理并获得音频数据以驱动扬声器系统215中的每个扬声器。在这种情况下,在流配置(1)的情况中,从主流提取通道编码数据并且从用户数据区域提取对象编码数据。另一方面,在流配置(2)的情况下,从主流提取通道编码数据且从子流提取对象编码数据。

当解码通道编码数据时,3D音频解码器213根据需要对扬声器系统215的扬声器配置执行下混和上混的处理且获得音频数据以驱动每个扬声器。另外,当解码对象编码数据时,3D音频解码器213基于对象信息(元数据)计算扬声器渲染(各个扬声器的混合比率),并且根据计算结果将对象的音频数据与驱动每个扬声器的音频数据混合。

声音输出处理电路214对在3D音频解码器213中获得的并且用于驱动每个扬声器的音频数据执行必要处理诸如D/A转换、放大等,并将数据供应至扬声器系统215。扬声器系统215包括多个通道(诸如2通道、5.1通道、7.1通道、22.2通道等)的多个扬声器。

将简要解释图22所示的服务接收器200的操作。接收单元201从服务发送器100接收传输流TS,其通过使用广播波或通过网络的分组发送。除了视频流之外,传输流TS还包括预定数量的音频流。

例如,在流配置(1)的情况下,作为音频流,仅存在包括用MPEG4AAC编码的通道编码数据的主流,并且在其用户数据区域中嵌入了用MPEG-H 3D音频编码的对象编码数据的预定数量的组。

另外,例如,在流配置(2)的情况下,作为音频流,存在包括用MPEG4AAC编码的通道编码数据的主流,并且存在预定数量的预定数量的组的子流,其包括用MPEG-H 3D音频编码的对象编码数据。

在TS分析单元202中,从传输流TS中提取视频流的分组且被供应至视频解码器203。在视频解码器203中,从在TS分析单元中提取的视频的分组重新配置视频流并且执行解码处理以获得非压缩视频数据。视频数据供应至视频处理电路204。

视频处理电路204对在视频解码器203中获得的视频数据执行缩放处理、图像质量调整处理等,并获得用于显示的视频数据。用于显示的视频数据供应至面板驱动电路205。基于用于显示的视频数据,面板驱动电路205驱动显示面板206。借助这种配置,在显示面板206上,显示与用于显示的视频数据对应的图像。

另外,在TS分析单元202中,从传输流TS提取各种信息诸如描述符信息,并将该信息发送到CPU 221。在流配置(1)的情况下,各种信息还包括辅助数据描述符和3D音频流配置描述符的信息(参见图16)。基于描述符信息,CPU 221辨识对象编码数据嵌入在包括通道编码数据的主流的用户数据区域中并且还辨识每个组的对象编码数据的属性。

另外,在流配置(2)的情况下,各种信息还包括3D音频流配置描述符和3D音频流ID描述符的信息(参见图21)。基于描述符信息,CPU 221辨识每个组的对象编码数据的属性,或者包括每个组的对象编码数据的子流。

在CPU 221的控制下,在TS分析单元202中,通过使用PID滤波器而选择性地提取在传输流TS中包括的预定数量的音频流。换句话说,在流配置(1)的情况下,提取主流。另一方面,在流配置(2)的情况下,提取主流,并且还提取预定数量的子流。

在复用缓冲器211-1至211-M中,输入在TS分析单元202中提取的音频流(仅主流,或主流和子流)。在组合器212中,从导入音频流的每个复用缓冲器中,从每个音频帧读取音频流,并将其供应至3D音频解码器213。

在CPU 221的控制下,在3D音频解码器213中,提取通道编码数据和对象编码数据,执行解码处理,并获得驱动扬声器系统215中的每个扬声器的音频数据。这里,在流配置(1)的情况下,从主流提取通道编码数据并且还从其用户数据区域提取对象编码数据。另一方面,在流配置(2)的情况下,从主流提取通道编码数据并且从子流提取对象编码数据。

这里,当解码通道编码数据时,根据需要执行扬声器系统215的扬声器配置的下混或上混的处理,并且获得用于驱动每个扬声器的音频数据。另外,当解码对象编码数据时,基于对象信息(元数据)计算扬声器渲染(各个扬声器的混合比率),并且根据计算结果将对象的音频数据混合到用于驱动每个扬声器的音频数据。

在3D音频解码器213中获得的用于驱动每个扬声器的音频数据被供应至声音输出处理电路214。在声音输出处理电路214中,对用于驱动每个扬声器的音频数据执行必要处理诸如D/A转换、放大等。然后,将经处理的音频数据供应至扬声器系统215。借助该配置,从扬声器系统215获得与在显示面板206上的显示图像对应的声音输出。

图24示意性地示出在流配置(1)的情况下的音频解码处理。作为复用流的传输流TS输入到TS分析单元202。在TS分析单元202中,执行系统层分析并且将描述符信息(辅助数据描述符和3D音频流配置描述符的信息)供应至CPU 221。

基于描述符信息,CPU 221辨识对象编码数据嵌入到包括通道编码数据的主流的用户数据区域中并且还辨识每个组的对象编码数据的属性。在CPU 221的控制下,在TS分析单元202中,通过使用PID滤波器选择性地提取主流的分组,并将其导入到复用缓冲器211(211-1至211-M)。

在3D音频解码器213的音频通道解码器中,对导入到复用缓冲器211的主流执行处理。换句话说,在音频通道解码器中,其中放置对象编码数据的DSE从主流提取并被发送到CPU 221。这里,在常规接收器的音频通道解码器中,因为DSE被读取和丢弃,所以保持了兼容性。

另外,在音频通道解码器中,从主流中提取通道编码数据,并且执行解码处理,使得获得用于驱动每个扬声器的音频数据。在这种情况下,在音频通道解码器和CPU 221之间发送通道数量的信息,并且根据需要执行扬声器系统215的扬声器配置的下混和上混的处理。

在CPU 221中,执行DSE分析并且将其中放置的对象编码数据发送到3D音频解码器213的音频对象解码器。在音频对象解码器中,解码对象编码数据并且获得该对象的元数据和音频数据。

在音频通道编码器中获得的用于驱动每个扬声器的音频数据被供应至混合/渲染单元。另外,在音频对象解码器中获得的对象的元数据和音频数据也被供应至混合/渲染单元。

基于对象的元数据,在混合/渲染单元中,通过计算对象的音频数据到相对于扬声器输出目标的语音空间的映射并且将计算结果相加组合到通道数据而执行解码输出。

图25示意性地示出了在流配置(2)的情况下的音频解码处理。作为复用流的传输流TS输入到TS分析单元202。在TS分析单元202中,执行系统层分析,并且描述符信息(3D音频流配置描述符和3D音频流ID描述符的信息)被供应至CPU 221。

基于描述符信息,CPU 221辨识每个组的对象编码数据的属性,并且还从描述符信息辨识每个组的对象编码数据包括在哪个子流中。在CPU221的控制下,在TS分析单元202中,通过使用PID滤波器,选择性地提取主流的分组和预定数量的子流的分组,并将其导入到复用缓冲器211(211-1至211-M)。这里,在常规的接收器中,通过使用PID滤波器,不提取子流的分组且仅提取主流,使得保持兼容性。

在3D音频解码器213的音频通道解码器中,从导入到复用缓冲器211的主流中提取通道编码数据,并且执行解码处理,使得可以获得用于驱动每个扬声器的音频数据。在这种情况下,在音频通道解码器和CPU 221之间发送通道数量的信息,并且根据需要对扬声器系统215的扬声器配置执行下混和上混的处理。

另外,在3D音频解码器213的音频对象解码器中,基于用户的选择等从导入到复用缓冲器211的预定数量的子流中提取预定数量的组的必要对象编码数据,并且执行解码处理,使得可以获得对象的元数据和音频数据。

在音频通道解码器中获得的用于驱动每个扬声器的音频数据被供应至混合/渲染单元。另外,在音频对象解码器中获得的对象的元数据和音频数据被供应至混合/渲染单元。

基于对象的元数据,在混合/渲染单元中,通过计算对象的音频数据到相对于扬声器输出目标的语音空间的映射并且将计算结果相加组合到通道数据而执行解码输出。

如上所述,在图1所示的收发系统10中,服务发送器100发送预定数量的音频流(其包括构成3D音频传输数据的通道编码数据和对象编码数据),并且生成预定数量的音频流,使得在与对象编码数据不兼容的接收器中丢弃对象编码数据。因此,在不劣化传输频带的有效使用的情况下,可以保持与常规音频接收器的兼容性的同时提供新3D音频服务。

<2.变形例>

这里,根据上述实施例,已经描述了通道编码数据编码方法是MPEG4AAC的示例;然而,以类似方式也可以考虑其他编码方法诸如AC3和AC4。图26示出AC3帧(AC3同步帧)的结构。编码通道数据,使得“Audblock 5”、“mantissa data”、“AUX”和“CRC”的总大小不超过整个大小的八分之三。在AC3的情况下,元数据MD被插入到“AUX”的区域。图27示出AC3的辅助数据(Auxiliary Data)的配置(语法)。

当“auxdatae”为“1”时,使“aux data”有效,并且在“auxbits”中定义由14位(以位为单位)“auxdatal”指示的大小的数据。在这种情况下,“auxbits”的大小写在“nauxbits”中。在流配置(1)的情况下,在以上图8所示的“metadata()”插入在“auxbits”字段中,且对象编码数据放置在“data_byte”字段中。

图28(a)示出AC4简单传输(Simple Transport)的层的结构。AC4是用于下一代的AC3音频编码格式之一。存在同步字(syncWord)的字段、帧长度(frame Length)的字段、作为编码数据字段的“RawAc4Frame”字段和CRC字段。如图28(b)所示,在“RawAc4Frame”字段中,在开始时存在内容表(TOC)字段,之后存在预定数量的子流(Substream)字段。

如图29(b)所示,在子流(ac4_substream_data())中,存在元数据区域(metadata)和“umd_payloads_substream()”字段。在流配置(1)的情况下,对象编码数据放置在“umd_payloads_substream()”字段中。

这里,如图29(a)所示,在TOC(ac4_toc())中存在字段“ac4_presentation_info()”,并且还存在字段“umd_info()”,其指示在字段“umd_payloads_substream())中插入的元数据。

图30示出了“umd_info()”的配置(语法)。字段“umd_version”指示umd语法的版本号。“K_id”指示任意信息被包含为“0x6”。版本号和“k_id”的值的组合定义成指示存在“umd_payloads_substream()”的有效载荷中插入的元数据。

图31示出“umd_payloads_substream()”的配置(语法)。5位字段“umd_payload_id”为指示包含“object_data_byte”的ID值,并且该值被假定为除“0”之外的值。16位字段“umd_payload_size”指示在该字段之后的位的数量。8位字段“userdata_syncode”是元数据的开始代码,并且指示元数据的内容。例如,“0x10”指示它是MPEG-H系统(MPEG-H 3D音频)的对象编码数据。在“object_data_byte”的区域中,放置对象编码数据。

另外,上述实施例描述了通道编码数据编码方法是MPEG4AAC、对象编码数据编码方法是MPEG-H 3D音频,且通道编码数据和对象编码数据的编码方法不同的示例。然而,可以考虑这两种类型编码数据的编码方法是相同方法的情况。例如,可以存在通道编码数据编码方法是AC4且对象编码数据编码方法也是AC4的情况。

另外,上述实施例描述了第一编码数据是通道编码数据并且与第一编码数据相关的第二编码数据是对象编码数据的示例。然而,第一编码数据和第二编码数据的组合不限于该示例。本技术可以类似地应用于执行各种可缩放的扩展的情况,扩展例如是通道数量的扩展、采样率扩展。

(通道数量扩展示例)

常规5.1通道的编码数据作为第一编码数据被发送,并且所添加通道的编码数据作为第二编码数据被发送。常规解码器仅解码5.1通道的元素,并且与添加通道兼容的解码器解码所有元素。

(采样率扩展)

具有常规音频采样率的音频样本数据的编码数据作为第一编码数据被发送,并且具有较高采样率的音频样本数据的编码数据作为第二编码数据被发送。常规的解码器仅解码常规的采样率数据,并且与较高采样率兼容的解码器解码所有数据。

另外,上述实施例描述了容器是传输流(MPEG-2TS)的示例。然而,本技术还可以应用于其中以类似方式通过MP4或其他格式的容器递送数据的系统。例如,该系统是基于MPEG-DASH的流递送系统或处理MPEG媒体传输(MMT)结构传输流的收发系统。

另外,上述实施例描述这样的示例:第一编码数据是通道编码数据,而第二编码数据是对象编码数据。然而,可以考虑这样的情况:第二编码数据是另一个类型的通道编码数据或包括对象编码数据和通道编码数据。

这里,本技术可以采用以下配置。

(1)一种发送设备,包括:

编码单元,被配置为生成包括第一编码数据和与所述第一编码数据相关的第二编码数据的预定数量的音频流;和

发送单元,被配置为发送包括所生成的预定数量音频流的预定格式的容器,

其中,所述编码单元生成预定数量的音频流,使得所述第二编码数据在与所述第二编码数据不兼容的接收器中被丢弃。

(2)根据(1)所述的发送设备,其中所述第一编码数据的编码方法和所述第二编码数据的编码方法不同。

(3)根据(2)所述的发送设备,其中所述第一编码数据是通道编码数据,而所述第二编码数据是对象编码数据。

(4)根据(3)所述的发送设备,其中所述第一编码数据的编码方法为MPEG4AAC,而所述第二编码数据的编码方法是MPEG-H 3D音频。

(5)根据(1)到(4)中任一项所述的发送设备,其中所述编码单元生成具有所述第一编码数据的所述音频流并将所述第二编码数据嵌入在所述音频流的用户数据区域中。

(6)根据(5)所述的发送设备,还包括

信息插入单元,被配置为在所述容器的层中插入识别信息,所述识别信息识别在具有所述第一编码数据和包括在所述容器中的所述音频流的所述用户数据区域中嵌入有与所述第一编码数据相关的所述第二编码数据。

(7)根据(5)或(6)所述的发送设备,其中

所述第一编码数据是通道编码数据,而所述第二编码数据是对象编码数据,并且

预定数量的组的所述对象编码数据嵌入在所述音频流的所述用户数据区域中,

所述发送设备还包括信息插入单元,所述信息插入单元被配置为在所述容器的层中插入指示所述预定数量的组的每条对象编码数据的属性的属性信息。

(8)根据(1)到(4)中任一项所述的发送设备,其中,所述编码单元生成包括所述第一编码数据的第一音频流且生成包括所述第二编码数据的预定数量的第二音频流。

(9)根据(8)所述的发送设备,

其中预定数量的组的所述对象编码数据包括在所述预定数量的第二音频流中,

所述发送设备还包括信息插入单元,所述信息插入单元被配置为在所述容器的层中插入指示所述预定数量的组的每条对象编码数据的属性的属性信息。

(10)根据(9)所述的发送设备,其中所述信息插入单元还在所述容器的层中插入流对应关系信息,所述流对应关系信息指示所述预定数量的组的每条对象编码数据分别包括在哪个所述第二音频流中。

(11)根据(10)所述的发送设备,其中所述流对应关系信息是指示在组标识符与流标识符之间对应关系的信息,所述组标识符识别所述预定数量的组的每条所述对象编码数据,所述流标识符识别所述预定数量的第二音频流中的每一个。

(12)根据(11)所述的发送设备,其中所述信息插入单元还在所述容器的层中插入流标识符信息,其指示所述预定数量的第二音频流的每个流标识符。

(13)一种发送方法,包括:

编码步骤,生成包括第一编码数据和与所述第一编码数据相关的第二编码数据的预定数量的音频流;和

发送步骤,通过发送单元发送包括所生成的预定数量的音频流的预定格式的容器,

其中在所述编码步骤中,生成所述预定数量的音频流,使得所述第二编码数据在与所述第二编码数据不兼容的接收器中被丢弃。

(14)一种接收设备,包括:

接收单元,被配置为接收包括预定数量的音频流的预定格式的容器,所述音频流具有第一编码数据和与所述第一编码数据相关的第二编码数据,

其中生成预定数量的音频流,使得第二编码数据在与第二编码数据不兼容的接收器中被丢弃,

所述接收设备还包括处理单元,所述处理单元被配置为从包括在所述容器中的预定数量的音频流中提取所述第一编码数据和所述第二编码数据,并且处理所提取的数据。

(15)根据(14)所述的发送设备,其中所述第一编码数据的编码方法和所述第二编码数据的编码方法不同。

(16)根据(14)或(15)所述的发送设备,其中所述第一编码数据是通道编码数据,而所述第二编码数据是对象编码数据。

(17)根据(14)至(16)中任一项所述的接收设备,其中所述容器包括所述音频流,其具有所述第一编码数据和嵌入在所述音频流的用户数据区域中的所述第二编码数据。

(18)根据(14)至(16)中任一项所述的接收设备,其中所述容器包括包含所述第一编码数据的第一音频流和包含所述第二编码数据的预定数量的第二音频流。

(19)一种接收方法,包括:

接收步骤,由接收单元接收包括预定数量的音频流的预定格式的容器,所述音频流具有第一编码数据和与所述第一编码数据相关的第二编码数据,

其中生成预定数量的音频流,使得所述第二编码数据在与所述第二编码数据不兼容的接收器中被丢弃,

所述接收方法还包括处理步骤,该处理步骤为从在所述容器中包括的所述预定数量的音频流中提取所述第一编码数据和所述第二编码数据和处理所提取的数据。

本技术的主要特征在于,通过发送包括通道编码数据和嵌入在其用户数据区域中的对象编码数据的音频流或者通过一起发送包括通道编码数据的音频流与包括对象编码数据的音频流,可以在不损害传输频带的有效使用的情况下在保持与常规音频接收器的兼容性的同时提供新3D音频服务(参见图2)。

附图标记列表

10 收发系统

100 服务发送器

110A,110B 流生成单元

112,122 视频编码器

113,123 音频通道编码器

114,124-1至124-N 音频对象编码器

115,125 TS格式化器

114 复用器

200 服务接收器

201 接收单元

202 TS分析单元

203 视频解码器

204 视频处理电路

205 面板驱动电路

206 显示面板

211-1至211-M 复用缓冲器

212 组合器

213 3D音频解码器

214 声音输出处理电路

215 扬声器系统

221 CPU

222 闪存ROM

223 DRAM

224 内部总线

225 遥控接收单元

226 遥控发送器

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1