音频编码器及音频解码器的制作方法

文档序号:26009699发布日期:2021-07-23 21:29阅读:348来源:国知局
音频编码器及音频解码器的制作方法

相关申请案的交叉参考

本申请案主张以下优先申请案的优先权:2018年11月2日申请的美国临时申请案62/754,758(参考:d18053usp1)、2018年11月2日申请的ep申请案18204046.9(参考:d18053ep)及2019年1月16日申请的美国临时申请案62/793,073(参考:d18053usp2),所述申请案以引用的方式并入本文中。

本公开涉及音频编码的领域,且特定来说,涉及一种具有至少两种解码模式的音频解码器,及用于此音频解码器的相关解码方法及解码软件。本公开进一步涉及一种对应音频编码器,及用于此音频编码器的相关联编码方法及编码软件。



背景技术:

音频场景通常可包括音频对象。音频对象是具有相关联空间位置的音频信号。如果音频对象的空间位置可随时间变动,那么音频对象通常被称为动态音频对象。如果所述位置是静态的,那么音频对象通常被称为静态音频对象或基础对象(bedobject)。基础对象通常是直接对应于多声道扬声器配置的声道的音频信号,所述配置例如具有左及右扬声器的经典立体声配置,或具有三个前置扬声器、两个环绕扬声器及低频效扬声器的所谓5.1扬声器配置等。基础可含有一个到多个基础对象。其是一组基础对象,其因此可匹配多声道扬声器配置。

由于音频对象的数目通常可能非常大,例如大约数十或数百个音频对象,因此需要允许例如在编码器端处高效地压缩音频对象以尤其在以低传输位速率为目标时作为位流(数据流等)进行传输的编码方法。接着,可以某些解码模式在音频解码器中将动态音频对象的集群以参数方式再次重构成个别音频对象,以取决于用于音频信号的播放的输出装置(例如扬声器、头戴式耳机等)的配置渲染成一组输出音频信号。然而,在一些情况下,所述解码器被迫以核心模式工作,此意味着例如由于所述解码器的处理能力的限制或出于其它原因,以参数方式重构来自动态音频对象的集群的个别动态音频对象是不可能的。尤其在正在收听输出音频的用户期望沉浸式音频体验(例如3d音频)时,这可能引起问题。

因此,需要在这种背景下进行改进。



技术实现要素:

鉴于上述内容,因此本公开的目的是克服或减轻上文所论述的至少一些问题。特定来说,本公开的目的是以核心解码模式在解码器中提供来自经接收动态音频对象的音频输出(优选地为沉浸式音频输出)。此外,本发明的目的是提供一种编码器,所述编码器用于以可允许根据上述内容将音频位流解码成音频输出(优选地为沉浸式音频输出)的方式对来自一组动态音频对象的音频位流进行编码。对于本公开的读者来说,本发明的进一步及/或替代目的将是清楚的。

根据本发明的第一方面,提供一种音频解码器,其包括:一或多个缓冲器,其用于存储经接收音频位流;及控制器,其经耦合到所述一或多个缓冲器。

所述控制器经配置以在从多种不同解码模式选择的解码模式中操作,所述多种不同解码模式包括第一解码模式及第二解码模式,其中在所述第一及第二解码模式中,仅所述第一解码模式允许将所述位流中的一或多个经编码动态音频对象完全解码成经重构个别音频对象。

当所述所选择的解码模式是所述第二解码模式时,所述控制器经配置以:存取所述经接收音频位流;确定所述经接收音频位流是否包含一或多个动态音频对象;且至少响应于确定所述经接收音频位流包含一或多个动态音频对象,将所述一或多个动态音频对象中的至少一者映射到一组静态音频对象,所述一组静态音频对象对应于预定义扬声器配置。

通过包含将所述一或多个动态音频对象中的至少一者映射到一组静态音频对象的步骤,可从低位速率位流实现沉浸式音频输出,例如限于仅包含最多10个音频对象(动态及静态)或最多7个、5个等音频对象,即使在以低复杂度解码模式(核心解码)操作的解码器中也是如此,其中从动态音频对象的集群以参数方式重构个别动态音频对象是不可能的(完全解码是不可能的)。

在本说明书的上下文中,术语“沉浸式音频输出”应被理解为含有用于顶部扬声器的声道的声道输出配置。

术语“沉浸式扬声器配置”应被理解为具有类似含义,即,含有顶部扬声器的扬声器配置。

此外,本实施例提供一种灵活解码方法,因为并非所有经接收动态音频对象都一定映射到对应于预定义扬声器配置的一组静态音频对象。这例如允许在音频位流中包含用于不同目的(例如对话或相关联音频)的额外对话对象。

此外,本实施例允许提供及随后渲染所述一组静态音频对象(此将在下文进一步论述)以实现例如较低计算复杂度或容许重用用于实施解码器的现存软件代码/功能的灵活过程。

通常,本实施例在低位速率、低复杂度场景中实现解码器端灵活性。

可以不同方式完成通过所述控制器确定所述经接收音频位流包含一或多个动态音频对象的步骤。根据一些实施例,这是从所述位流(例如元数据,例如整数值或标志值等)来确定。在其它实施例中,这可通过所述音频对象或相关联对象元数据的分析来确定。

所述控制器可以不同方式选择所述解码模式。例如,所述选择可使用位流参数及/或鉴于经渲染输出音频信号的输出配置及/或通过检查所述音频位流中的动态音频对象(降混音频对象、集群等)的数目及/或基于用户参数等来进行。

应注意,可使用比仅确定所述经接收音频位流是否包含一或多个动态音频对象更多的信息来做出将所述一或多个动态音频对象中的至少一者映射到一组静态音频对象的决定。根据一些实施例,所述控制器还基于例如位流参数的进一步数据来做出此决定。

举例来说,如果确定所述经接收音频位流不包括动态音频对象,或以其它方式确定不应执行上文所论述的动态音频对象的映射,那么所述控制器可决定使用例如适用于所述输出音频声道的配置的经接收渲染系数(例如降混系数)来将所述经接收静态音频对象(基础对象)直接渲染为一组输出音频声道。在所述控制器的这种操作模式下,常规上将任何经接收动态音频对象渲染为所述输出音频声道。

根据一些实施例中,当所述所选择的解码模式是所述第二解码模式时,所述控制器进一步经配置以将所述一组静态音频对象渲染为一组输出音频声道。有利地在同一渲染步骤中,还将所述音频位流中接收的任何其它静态音频对象(例如lfe)渲染为所述一组输出音频声道。

根据一些实施例,所述一组输出音频声道的配置不同于用于如上文所描述那样将所述动态音频对象映射到一组静态音频对象的预定义扬声器配置。由于所述预定义扬声器配置不限于所述输出音频声道的配置,因此可实现增加的灵活性。

根据一些实施例,所述音频位流包括第一组降混系数,其中所述控制器经配置以利用所述第一组降混系数来将所述一组静态音频对象渲染为一组输出音频声道。在所述位流中的进一步经接收静态音频对象的情况下,所述降混系数将经施加到所述一组静态音频对象及所述进一步静态音频对象两者。

在一些实施例中,所述控制器可照原样使用所述经接收的第一组降混系数来将所述一组静态音频对象渲染为一组输出音频声道。然而,在其它实施例中,首先需要基于在所述编码器端上哪种类型的降混操作导致所述位流中接收的所述一或多个动态音频对象来处理所述第一组降混系数。

在一些实施例中,所述控制器进一步经配置以接收与在编码器端上施加在所述一或多个动态音频对象中的至少一者中的衰减有关的信息。可在所述位流中接收,或可在所述解码器中预定义所述信息。接着,所述控制器可经配置以在利用所述第一组降混系数来将所述一组静态音频对象渲染为一组输出音频声道时相应地修改所述第一组降混系数。因此,包含在所述降混系数中但已在所述编码器端上施加的衰减不会被施加两次,从而导致更好的收听体验。

在一些实施例中,所述控制器进一步经配置以接收与在编码器端上执行的降混操作有关的信息,其中所述信息定义音频信号的原始声道配置,其中所述降混操作导致将所述音频信号降混为所述一或多个动态音频对象。在这种情况下,所述控制器可经配置以基于与所述降混信息有关的信息来选择所述第一组降混系数的子集,其中所述利用所述第一组降混系数来将所述一组静态音频对象渲染为一组输出音频声道包括利用所述第一组降混系数的所述子集来将所述一组静态音频对象渲染为一组输出音频声道。这可能导致处置在所述编码器端上执行且导致所述经接收的一或多个动态音频对象的所有类型的降混操作的更灵活解码方法。

根据一些实施例,所述控制器经配置以在组合计算中使用单个矩阵来执行所述一或多个动态音频对象中的所述至少一者的所述映射及所述一组静态音频对象的所述渲染。有利地,这可降低所述经接收音频位流中的所述音频对象的所述渲染的计算复杂度。

根据一些实施例,所述控制器经配置以在个别计算中使用相应矩阵来执行所述一或多个动态音频对象中的所述至少一者的所述映射及所述一组静态音频对象的所述渲染。在这个实施例中,将所述一或多个动态音频对象预渲染成一组静态音频对象,即,定义所述一或多个动态音频对象的中间基础表示。有利地,这容许重用用于实施解码器的现存软件代码/功能,所述解码器经调适以将音频场景的基础表示渲染成一组输出音频声道。此外,这个实施例降低在解码器中实施本文中所描述的本发明的额外复杂度。

根据一些实施例,所述经接收音频位流包括识别所述一或多个动态音频对象中的所述至少一者的元数据。这允许所述解码器方法的增加的灵活性,因为并非所有所述经接收的一或多个动态音频对象都需要映射到所述一组静态音频对象,且所述控制器可容易使用所述元数据来确定所述经接收的一或多个动态对象中的哪一者应被映射,及哪一者应直接转发到所述一组输出音频声道的所述渲染。

根据一些实施例,所述元数据指示所述一或多个动态音频对象中的n者将经映射到所述一组静态音频对象,其中响应于所述元数据,所述控制器经配置以将从所述经接收音频位流中的一预定义位置或若干预定义位置选择的所述一或多个动态音频对象中的n者映射到所述一组静态音频对象。例如,所述n个动态音频对象可为前n个经接收动态音频对象,或最后n个经接收动态音频对象。因此,在一些实施例中,响应于所述元数据,所述控制器经配置以将所述经接收音频位流中的所述一或多个动态音频对象的所述前n者映射到所述一组静态音频对象。这允许较少元数据识别所述一或多个动态音频对象中的所述至少一者,例如,整数值。

根据一些实施例,包含在所述经接收音频位流中的所述一或多个动态音频对象包括n个以上动态音频对象。如上文所提及,例如对于包括不同语言的对话的音频,为所支持语言中的每一者提供动态音频对象可能是有利的。

根据一些实施例,包含在所述经接收音频位流中的所述一或多个动态音频对象包括所述n个动态音频对象及k个进一步动态音频对象,其中所述控制器经配置以将所述一组静态音频对象及所述进一步k个音频对象渲染为一组输出音频声道。因此,例如因此可将根据上述实例的所选择的语言(即,对应动态音频对象)连同所述一组静态音频对象一起渲染为所述一组输出音频信号。

根据一些实施例,所述一组静态音频对象由m个静态音频对象组成,且m>n>0。有利地,由于可减少待映射的动态音频对象的数目,因此可节省位速率。替代地,可增加所述音频位流中的进一步动态音频对象的数目(k)。

根据一些实施例,所述经接收音频位流进一步包括一或多个进一步静态音频对象。所述进一步静态对象可包括lfe,或其它基础或中间空间格式(isf)对象。

根据一些实施例,所述一组输出音频声道是以下一者:立体声输出声道;5.1环绕声音输出声道,5.1.2沉浸式声音输出声道;或5.1.4沉浸式声音输出声道。

根据一些实施例,所述预定义扬声器配置是5.0.2扬声器配置。在这个实施例中,n可等于5。

根据本发明的第二方面,至少一些上述目的通过一种方法在解码器中实现,所述方法包括以下步骤:

-接收音频位流且将所述经接收音频位流存储在一或多个缓冲器中,

-从多种不同解码模式选择解码模式,所述多种不同解码模式包括第一解码模式及第二解码模式,其中在所述第一及第二解码模式中,仅所述第一解码模式允许以参数方式重构来自动态音频对象的集群的个别动态音频对象;

-以所述所选择的解码模式操作耦合到所述一或多个缓冲器的控制器,

-当所述所选择的解码模式是所述第二解码模式时,所述方法进一步包括以下步骤:

ο通过所述控制器,存取所述经接收音频位流;

ο通过所述控制器,确定所述经接收音频位流是否包含一或多个动态音频对象;及

ο至少响应于确定所述经接收音频位流包含一或多个动态音频对象,通过所述控制器将所述一或多个动态音频对象中的至少一者映射到一组静态音频对象,所述一组静态音频对象对应于预定义扬声器配置。

根据本发明的第三方面,至少一些上述目的通过一种包括计算机可读存储媒体的计算机程序产品来获得,所述计算机可读存储媒体具有经调适以当由具有处理能力的装置执行时实行根据第二方面所述的方法的指令。

第二及第三方面通常可具有与第一方面相同的特征及优点。

根据本发明的第四方面,至少一些上述目的通过一种音频编码器来获得,所述音频编码器包括:

接收组件,其经配置以接收一组音频对象;

降混组件,其经配置以将所述一组音频对象降混为一或多个经降混动态音频对象,其中所述一或多个经降混动态音频对象中的至少一者意在以多种解码模式中的至少一者在解码器端上映射到一组静态音频对象,所述一组静态音频对象对应于预定义扬声器配置;

降混系数提供组件,其经配置以确定将用于在所述解码器端处将对应于所述预定义扬声器配置的所述一组静态音频对象渲染为一组输出音频声道的第一组降混系数;

位流多路复用器,其经配置以将所述至少一个经降混动态音频对象及所述第一组降混系数多路复用成音频位流。

根据一些实施例,所述降混组件进一步经配置以将识别所述一或多个经降混动态音频对象中的所述至少一者的元数据提供给所述位流多路复用器,其中所述位流多路复用器进一步经配置以将所述元数据多路复用成所述音频位流。

根据一些实施例,所述编码器进一步经调适以在将所述一组音频对象降混为一或多个经降混动态音频对象时确定与施加在所述一或多个动态音频对象中的至少一者中的衰减有关的信息,其中所述位流多路复用器进一步经配置以将与衰减有关的所述信息多路复用成所述音频位流。

根据一些实施例,所述位流多路复用器进一步经配置以多路复用与由所述接收组件接收的所述音频对象的声道配置有关的信息。

根据本发明的第五方面,至少一些上述目的通过一种方法在编码器中获得,所述方法包括以下步骤:

-接收一组音频对象;

-将所述一组音频对象降混为一或多个经降混动态音频对象,其中所述一或多个经降混动态音频对象中的至少一者意在以多种解码模式中的至少一者在解码器端上映射到一组静态音频对象,所述一组静态音频对象对应于预定义扬声器配置;

-确定将用于在所述解码器端处将对应于所述预定义扬声器配置的一组静态音频对象渲染为一组输出音频声道的第一组降混系数;及

-将所述至少一个经降混动态音频对象及所述第一组降混系数多路复用成音频位流。

根据本发明的第六方面,至少一些上述目的通过一种包括计算机可读存储媒体的计算机程序产品来获得,所述计算机可读存储媒体具有经调适以在由具有处理能力的装置执行时实行根据第五方面所述的方法的指令。

第五及第六方面通常可具有与第四方面相同的特征及优点。此外,第四、第五及第六方面通常可具有与第一、第二及第三方面相对应的特征(但是来自编码器端)。例如,所述编码器可经调适以将所述静态音频对象(例如lfe)包含在所述音频位流中。

进一步应注意,除非另有明确陈述,否则本发明涉及所有可能的特征组合。

附图说明

通过本发明的优选实施例的以下说明性及非限制性详细描述,参考附图将更好地理解本发明的上述以及额外目的、特征及优点,在附图中相同参考数字将用于类似元件,其中:

图1展示根据一些实施例的音频解码器,

图2展示根据第一实施例的解码操作,

图3展示根据第二实施例的解码操作,

图4展示根据第三实施例的解码操作,

图5展示根据一些实施例的编码操作,

图6以实例方式展示用来产生用于渲染一组输出音频声道的增益矩阵的音频解码器的单元。

具体实施方式

现在将在后文中参考附图更全面地描述本发明,在附图中展示本发明的实施例。将在操作期间描述本中所公开的系统及装置。

在下文中,杜比ac-4音频格式(如在文献etsits103190-2v1.2.1(2018-02)中公布)将用作用于例示本发明的背景。然而,应注意,本发明的范围不限于ac-4,且本文中所描述的不同实施例可用于任何合适音频格式。

由于一些音频解码器中的计算限制,以参数方式重构来自动态音频对象的集群的个别动态音频对象是不可能的。此外,音频位流的目标位速率的限制可设置音频位流的内容的限制,例如将经发射音频对象/音频声道的数目限制为10。进一步限制可源自所使用的编码标准,例如在一些特定情况下限制某些编码工具的使用。例如,ac-4解码器经配置在不同级,其中三级解码器限制例如a-jcc(高级联合声道编码)及a-cpl(高级耦合)的编码工具的使用,所述编码工具原本可有利地用于在某些状况下实现沉浸式音频体验。此类状况可包含基本的声道编码模式,但是其中解码器不具有用于对此内容进行解码的编码工具(例如,不容许使用a-jcc)。在这种情况下,如下文所描述,本发明可用于“模仿”基于声道的沉浸。进一步可能的限制包括在同一位流中同时包含基于声道的内容及动态/静态音频对象(离散音频对象)的可能性,这在某些状况下可能是不被允许的。

在本文献中,术语‘集群’是指在编码器中降混的音频对象,如稍后将参考图5所描述。在非限制性实例中,可将10个个别动态对象输入到编码器。如上文所描述,在一些情况下,不可能独立地对所有10个动态音频对象进行编码。例如,目标位速率使得其仅允许对5个动态音频对象进行编码。在这种情况下,有必要减少动态音频对象的总数目。可能的解决方案是将10个动态音频对象组合成更少数目个(在这个实例中,5个)动态音频对象。通过组合(降混)10个动态音频对象所导出的这5个动态音频对象是在本申请案中被称为‘集群’的动态降混音频对象。

本发明旨在规避一些上述限制,且以低位速率及低解码器复杂度向音频输出的收听者提供有利收听体验。

图1以实例方式展示音频解码器100。所述音频解码器包括用于存储经接收音频位流110的一或多个缓冲器102。在一些实施例中,经接收音频位流含有a-joc(高级联合对象编码)子流,其例如表示音乐及效果(m&e),或m&e及对话(d)的组合(即,完整的main(cm))。

高级联合对象编码(a-joc)是用于对一组对象进行高效编码的参数编码工具。a-joc依赖于基于对象的内容的参数模型。这个编码工具可确定音频对象当中的依赖性且利用基于感知的参数模型来实现高编码效率。

音频解码器100进一步包括耦合到一或多个缓冲器102的控制器104。因此,控制器104可从(若干)缓冲器102提取音频位流110的至少部分112,以将经编码音频位流解码成一组音频输出声道118。接着,可使用所述一组音频输出声道118以由一组扬声器120进行播放。

如上文所描述,音频解码器100或控制器104可以不同解码模式操作。在下文中,将以两种解码模式对此进行举例说明。然而,可采用进一步解码模式。

在第一解码模式(完全解码模式、复杂解码模式等)下,以参数方式重构来自动态音频对象的集群的个别动态音频对象是可能的。在ac-4的背景下,第一解码模式可被称为a-joc完全解码。在上文所给出的具有10个个别动态对象及5个集群(动态降混音频对象)的非限制性实例中,完全解码模式允许重构来自5个集群的10个原始个别动态对象(或其近似物)。

在第二解码模式(核心解码、低复杂度解码等)下,由于解码器100中的限制而未实行此重构。在ac-4的背景下,第二解码模式可被称为a-joc核心解码。在上文所给出的具有10个个别动态对象及5个集群(动态降混音频对象)的非限制性实例中,核心解码模式不能重构来自5个集群的10个原始个别动态对象(或其近似物)。

因此,所述控制器经配置以选择解码模式,第一或第二解码模式。可基于例如存储在解码器100的存储器106中的所述解码器的内部参数116来做出此决定。替代地或另外,也可基于来自例如用户的输入114来做出所述决定。替代地或另外,所述决定可进一步基于音频位流110的内容。例如,如果经接收音频位流包括阈值以上数目个动态降混音频对象(例如,6个以上或10个以上,或任何其它合适数目,这取决于背景),那么所述控制器可选择第二解码模式。在一些实施例中,音频位流110可包括向所述控制器指示选择哪种解码模式的标志值。

例如,在ac-4的背景下,根据一个实施例,第一解码模式的选择可为以下一者或多者:

·呈现级是2或更低(位流参数)。

·输出级经配置用于5.1.2输出(用户参数)。

·a-joc子流含有最多5个降混对象(集群)(位流参数)。

·所述应用程序不经由api(用户参数)强制进行核心解码。

在下文中,将结合图2到4来例示第二解码模式(核心解码)。

图2展示将结合图1所解释的第二解码模式109的第一实施例109a。

控制器104经配置以确定经接收音频位流110是否包含一或多个动态音频对象(其在这个实施例中都经映射到一组静态音频对象),且基于所述决定确定如何在其上对经接收音频位流进行解码。根据一些实施例,所述控制器还基于例如位流参数的进一步数据来做出此决定。例如,在ac-4中,所述控制器可根据以下位流参数中的一或两者的值确定如图2中所描述那样对经接收音频位流进行解码,即,以下中的一者是否为真:

1.“num_bed_obj_ajoc”大于零(例如1到7)或

2.位流中不存在“num_bed_obj_ajoc”且“n_fullband_dmx_signals”小于6。

假如控制器104确定应考虑一或多个动态音频对象210且任选地还鉴于如上文所描述的其它数据,那么所述控制器经配置以将所述一或多个动态音频对象中的至少一者210映射到一组静态音频对象。在图2中,将所有经接收动态音频对象映射到所述一组静态音频对象222,所述一组静态音频对象222对应于预定义扬声器配置。所述映射根据以下内容进行。音频位流110包括n个动态音频对象210。所述音频位流进一步包括n个对应对象元数据(对象音频元数据,oamd)212。每一oamd212定义n个动态音频对象210中的每一者的性质,例如增益及位置。n个oamd212用于计算206增益矩阵218,所述增益矩阵218用于将n个动态音频对象210预渲染202成一组静态音频对象222。所述一组静态音频对象的大小是m。因此,将n个动态音频对象210变换(渲染)成基础222,例如5.0.2基础(m=7)。其它配置同样是可能的,例如7.0.2(m=9)。在解码器100中预定义基础的配置(例如5.0.2),所述解码器100使用这个知识来计算206增益矩阵218。换句话说,所述一组静态音频对象222对应于预定义扬声器配置。因此,在这种情况下,增益矩阵218的大小是m×n。

根据一些实施例,m>n>0。

实际上将n个动态音频对象210渲染成基础222的优点是,解码器100的其余操作(即,产生一组输出音频信号118)可通过重用用于实施解码器的现存软件代码/功能来实现,所述解码器经调适以将基础222(及任选地如图3中所描述的进一步动态音频对象)渲染成一组输出音频信号118。

所述解码器产生一组进一步oamd214。这些oamd214定义中间渲染基础222的位置及增益。因此,oamd214不在位流中递送,而是在解码器中本地“生成”以描述预渲染202的输出处生成的(通常5.0.2)声道配置。例如,如果中间基础222经配置为5.0.2,那么oamd214定义5.0.2基础222的位置(l、r、c、ls、rs、ltm、rtm)及增益。如果采用中间基础的另一配置,例如3.0.0,那么位置将是l、r、c。因此,在这个实施例中,oamd214的数目对应于静态音频对象222的数目,例如在5.0.2基础222的情况下是7。在一些实施例中,oamd214中的每一者中的增益是一(1)。因此,oamd214包括所述一组静态音频对象222的性质,例如每一静态音频对象222的增益及位置。换句话说,oamd214指示基础222的预定义配置。

音频位流110进一步包括降混系数216。取决于所述一组输出声道118的配置,所述控制器选择当计算第二增益矩阵220时待利用的对应降混系数216。举例来说,所述一组音频声道是以下一者:立体声输出声道;5.1环绕声音输出声道;5.1.2沉浸式声音输出声道(沉浸式音频输出配置);5.1.4沉浸式声音输出声道(沉浸式音频输出配置);7.1环绕声音输出声道;或9.1环绕声音输出声道。因此,所得增益矩阵的大小是ch(输出声道数)xm。当计算第二增益矩阵220时,可照原样使用所选择的降混系数。然而,如下文将结合图6进一步描述,可能需要修改所选择的降混系数以补偿当对原始音频信号进行降混以实现n个动态音频对象210时在编码器端上执行的衰减。此外,在一些实施例中,除所述一组输出声道118的配置之外,经接收降混系数216当中哪个降混系数应用于计算第二增益矩阵220的选择过程还可基于在编码器端上执行的降混操作。这将在下文结合图6进一步描述。

在解码器100的渲染级204处使用第二增益矩阵,来将所述一组静态音频对象222渲染为所述一组输出音频声道118。

应注意,在图2中,未展示lfe。在这种背景下,lfe应直接发射到最终渲染级204以包含在(或混合到)所述一组输出音频声道118中。

在图3中,展示第二解码模式109的第二实施例109b。与图2中所展示的实施例类似,在这个实施例中,展示以核心解码模式解码的低速率传输(具有低位速率的音频位流)。图3中的差异在于,除映射到静态音频对象222的n个动态音频对象210之外,经接收音频位流110还携载进一步音频对象302。此类额外音频对象可包括离散及联合(a-joc)动态音频对象及/或静态音频对象(基础对象)或isf。例如,额外音频对象302可包括:

·lfe(零到多)

·其它基础对象

·其它动态对象

·isf

因此,在一些实施例中,包含在经接收音频位流中的动态音频对象多于n个动态音频对象210。例如,包含在经接收音频位流中的动态音频对象包括n个动态音频对象及k个进一步动态音频对象。根据一些实施例,经接收音频位流包括m&e+d。在那种情况下,如果当渲染所述一组输出声道118时将添加单独对话,那么这可能在其中仅10个音频对象可包含在经接收音频位流110中的低速率情况下引起问题。在所述一组输出声道118呈5.1.2配置且使用基础对象(即,旧有解决方案)的情况下,将需要发射8个基础对象。这将留下表示对话的仅两个可能的音频对象,所述音频对象可能太少,例如在应支持五个不同对话对象的情况下。使用本发明,在这种情况下例如可通过发射m&e的四(n)个动态音频对象来实现沉浸式输出音频。所述四(n)个动态音频对象经映射202到所述一组静态音频对象222,一个额外静态对象302用于lfe及五(k)个额外动态对象用于对话。

在图3的实施例中,如以上结合图2所描述,将n个动态音频对象210预渲染成m个静态音频对象222。

对于渲染204,采用一组oamd214。在这个实例中,经接收音频位流包括6个oamd214,每一额外音频对象302使用一个oamd214。因此,这6个oamd在编码器端上包含在音频位流中,待在解码器100处用于本文中所描述的解码过程。此外,如上文结合图2所描述,所述解码器产生定义中间渲染基础222的位置及增益的一组进一步oamd214。在这个实例中,总共存在13个oamd214。oamd214包括所述一组静态音频对象222的性质,例如每一静态音频对象222的增益(即,一)及位置,及额外音频对象302的性质,例如每一额外音频对象302的增益及位置。

音频位流110进一步包括用于渲染所述一组输出声道118的降混系数216,这与上文结合图2所描述那样类似,且下文将结合图6进行描述。

在解码器100的渲染级204处使用第二增益矩阵220来将所述一组静态音频对象222及所述一组进一步音频对象302(其可包含动态音频对象及/或静态音频对象及/或isf对象,如上文所定义)渲染为所述一组输出音频声道118。

在图3中所描述的情况下,所述控制器需要意识到应将哪些经接收动态音频对象映射到所述一组静态音频对象222,且应将哪些经接收动态音频对象直接传递到最终渲染级204。这可以多种不同方式来完成。例如,每一经接收音频对象可包括通知控制器音频对象是否将被映射(预渲染)的标志值。在另一实例中,经接收音频位流包括识别应被映射的(若干)动态音频对象的元数据。应注意,在ac-4的背景下,仅在任何额外动态对象是与n个动态音频对象相同的a-joc子流的部分时,才需要例如使用如上文所描述的标志值或元数据来找出去往预渲染器202的子集。

在一个实施例中,元数据指示一或多个动态音频对象中的n者将经映射到所述一组静态音频对象,借此所述控制器知道应从经接收音频位流中的一预定义位置或若干预定义位置选择这n个动态音频对象。将映射的动态音频对象210可例如为音频位流110中的前n个或最后n个音频对象。待映射的音频对象的数目可由标志值num_bed_obj_ajoc来指示(也可被称为num_obj_with_bed_render_info)及/或ac-4标准中的n_fullband_dmx_signals(如在文献etsits103190-2v1.2.1(2018-02)中发布)。在其它标准中,可使用标志值的其它名称。还应注意,标志值可针对上述ac-4标准的较新版本重命名。根据一些实施例,如果num_bed_obj_ajoc大于零,那么这意味着num_bed_obj_ajoc动态对象经映射到所述一组静态音频对象。根据一些实施例,如果不存在num_bed_obj_ajoc且n_fullband_dmx_signals小于6,那么这意味着所有动态对象都经映射到所述一组静态音频对象。

在一些实施例中,在经接收位流110中的任何静态音频对象之前接收动态音频对象。在其它实施例中,在动态音频对象及任何进一步静态音频对象之前,首先在位流110中接收lfe。

图4以实例方式展示第二解码模式109的第三实施例109c。在一些情况下,由于计算复杂度,图2到3的实施例的双重渲染级202、204可能被认为是低效的。因此,在一些实施例中,在将经接收音频位流110的音频对象210、302渲染204成所述一组输出声道118之前,将两个增益矩阵218、220组合402成单个矩阵404。在这个实施例中,采用单个渲染级204。图4的设置适用于图2中所描述的情况(其中仅映射到所述一组静态音频对象222的动态对象210包含在经接收音频位流110中)以及图3中所描述的情况(其中经接收音频位流110另外包括进一步音频对象302)两者。在图3的情况下,应注意,假如应采用根据图4的矩阵乘法,那么矩阵218需要通过处置额外对象302的“通过”的额外列及/或行来扩增。

图5以实例方式展示用于对将根据上文所描述的任何实施例进行解码的音频位流110进行编码的编码器500。一般来说,编码器500包括对应于音频位流110的内容的用于实现此位流110的组件,如本公开的读者所理解。通常,编码器500包括经配置以接收一组音频对象(动态及/或静态)的接收组件(未展示)。编码器500进一步包括经配置以将一组音频对象508降混为一或多个经降混动态音频对象510的降混组件502,其中一或多个经降混动态音频对象中的至少一个经降混音频对象510意在以多种解码模式中的至少一者在解码器端上映射到一组静态音频对象,所述一组静态音频对象对应于预定义扬声器配置。降混组件502可使一些音频对象衰减,如下文将结合图6所描述。在这种情况下,所执行衰减需要在解码器端处进行补偿。因此,在一些实施例中,所执行衰减的信息及/或音频对象508的配置包含在位流110中。在其它实施例中,所述解码器预配置有这个信息中的全部/一些且因此,可从位流110省略此信息。换句话说,在一些实施例中,位流多路复用器506进一步经配置以将与由接收组件接收的音频对象508的声道配置有关的信息多路复用成音频位流。原始声道配置(原始音频信号的格式)可为任何合适配置,例如7.1.4、5.1.4等。在一些实施例中,编码器(例如降混组件502)进一步经调适以确定当将所述一组音频对象508降混为一或多个经降混动态音频对象510时施加在一或多个动态音频对象510中的至少一者中的衰减有关的信息。接着,将这个信息(图5中未展示)发射到位流多路复用器506,所述位流多路复用器506经配置以将与衰减有关的信息多路复用成音频位流110。

编码器500进一步包括降混系数提供组件504,所述降混系数提供组件504经配置以确定将用于在解码器端处将对应于预定义扬声器配置的所述一组静态音频对象渲染为一组输出音频声道的第一组降混系数。如稍后结合图6所描述,取决于例如由降混组件执行的降混操作(已执行的衰减及/或降混类型,从哪种配置到哪种配置),所述解码器可能需要在实际上使用所得降混系数进行渲染之前在第一组降混系数516当中进行进一步选择过程及/或调整。

所述编码器进一步包括位流多路复用器506,所述位流多路复用器506经配置以将至少一个经降混动态音频对象510及第一组降混系数516多路复用成音频位流110。

在一些实施例中,降混组件502还将识别一或多个经降混动态音频对象中的至少一个经降混音频对象510的元数据514提供给位流多路复用器506。在这种情况下,位流多路复用器506进一步经配置以将元数据514多路复用成音频位流110。

在一些实施例中,降混组件502接收目标位速率509,以确定降混操作的细节,例如应从所述一组动态音频对象508计算出多少个经降混音频对象。换句话说,所述目标位速率可确定用于降混操作的聚类参数。

如所理解,假如一或多个经降混动态音频对象510包括比打算在解码器端上映射到所述一组静态音频对象的动态音频对象更多的动态音频对象,那么还需要为其计算降混系数。此外,静态音频对象(例如,lfe等)也可由位流多路复用器506发射以连同对应降混系数一起包含在音频位流110中。此外,包含在音频位流110中的每一音频对象将具有相关联oamd,例如与意在在解码器端处映射到所述一组静态音频对象的所有动态音频对象510相关联的oamd512,所述一组静态音频对象将经多路复用成音频位流110。

图6以实例方式展示可如何使用增益矩阵计算单元208确定图2到4的第二增益矩阵220的进一步细节。如上文所描述,增益矩阵计算单元208从位流接收接收降混系数216。在这个实施例中,增益矩阵计算单元208还接收与在编码器端上执行的音频信号的降混的类型相关的数据612。因此,数据612包括与在编码器端上执行的降混操作相关的信息,所述降混操作导致n个动态音频对象210。数据612可定义/指示降混成n个动态音频对象210的音频信号的原始声道配置。基于经接收数据612及经接收降混系数216,降混系数(dc)选择及修改单元606确定降混系数608,降混系数608随后将在增益矩阵计算单元610中用于使用如上文所描述的oamd214以及输出声道118的配置(例如5.1)来形成第二增益矩阵220。因此,增益矩阵计算单元610正在从降混系数608选择适合于输出声道118的所请求配置的那些系数,且确定将用于这个特定音频渲染设置的第二增益矩阵220。在一些实施例中,dc选择及修改单元606可直接从经接收降混系数216选择一组降混系数608。在其它实施例中,dc选择及修改单元606可能需要首先选择降混系数,且接着对其进行修改以导出将在增益矩阵计算单元610处用于计算第二增益矩阵220的降混系数608。

现在将针对经编码及经解码音频的特定设置例示dc选择及修改单元606的功能性。

在一些实施例中,通过编码器将衰减施加在一些经发射音频对象210中/施加到一些经发射音频对象210。此衰减是在编码器中的原始音频信号到降混音频信号的降混过程的结果。例如,如果原始音频信号的格式是7.1.4(l、r、c、lfe、ls、rs、lb、rb、tfl、tfr、tbl、tbr)(其在编码器中降混为5.1.2(ld、rd、cd、lfe、lsd、rsd、tld、trd)格式),那么在编码器中将lsd信号确定为:

-ndb(ls+lb),

且在编码器中将tld信号确定为:

-mdb(tfl+tbl)

通常,n=m=3,但可施加其它衰减水平。

因此,在这种设置中,已在lsd及tld中施加3db衰减。在这些实例中,仅描述左侧上的声道,而对应地处置右侧上的声道。

应注意,接着在编码器中将降混(例如5.1.2声道音频)进一步减小为例如五个动态音频对象(图2及3中的210)以甚至更多地减小位速率。

在这种情况下,位流中发射的相关降混系数216是

·gain_tfb_to_tm:顶部前置及/或顶部后置到顶部中间增益。

·gain_t2a、gain_t2b:顶部前置声道到相应前置声道及环绕声道的增益

·typical/default:gain_t2a映射到–infdb,gain_t2b映射到-3db,这意味着以-3db降混为环绕声道

·gain_t2d、gain_t2e:顶部后置声道到前置或环绕声道的增益。

·typical/default:gain_t2d映射到–infdb,gain_t2e映射到-3db,这意味着以-3db降混为环绕声道

·gain_b4_to_b2:后置及环绕声道到环绕声道

·typical/default:映射到-3db

然而,如果将上述降混系数直接应用于输出声道118的音频格式是5.1的情况,那么这将导致顶部声道tfl及tbl在环绕输出中衰减6db,即,已施加在编码器中的m=3db及位流中接收的gain_t2b降混系数的3db。较低声道ls及lb也将在环绕输出中衰减6db,即,已施加在编码器中的n=3db及位流中接收的gain_b4_to_b2降混系数的3db。为了补偿已在编码器端上进行的衰减,在这种情况下,dc选择及修改单元606经配置以确定降混系数608使得输出声道将被渲染为:

lout=ld+(+mdb+gain_t2a)tld=l+gain_t2a(tfl+tbl)及

lsout=(+ndb+gain_b4_to_b2)lsd+(+mdb+gain_t2b)tld=gain_b4_to_b2(ls+lb)+gain_t2b(tfl+tbl)。

在这个实施例中,所述解码器选择作为顶部前置声道到相应前置及环绕声道的增益的gain_t2a、gain_t2b。因此,这些增益可能优于作为顶部后置声道的增益的gain_t2d、gain_t2e。还应注意,上述等式用于传达在解码器处补偿由编码器进行的衰减的理念,且实际上,实现这个理念的等式被设计为确保例如正确地处置从对数db域中的增益/衰减到线性增益的转换。

为了实现上述目的,解码器需要意识到由编码器进行的衰减。在一些实施例中,n(db)及m(db)的值在位流中被指示为额外元数据602。因此,额外元数据602定义与在编码器端上施加在一或多个动态音频对象中的至少一者中的衰减有关的信息。在其它实施例中,利用施加在编码器中的衰减603来预配置解码器(在存储器604中)。例如,解码器可能意识到在编码器中进行7.1.4(或5.1.4)到5.1.2降混的情况下始终执行3db衰减。在所述实施例中,解码器正在接收与在编码器端上施加在一或多个动态音频对象中的至少一者中的衰减有关的信息602、603。这个信息602、603结合指示已在编码器中执行哪种类型的降混的经接收数据612,可用于在dc选择及修改单元606中选择及/或调整降混系数216。如上文所提及,将由增益矩阵计算单元610结合oamd214及输出音频信号118的配置使用所选择的及/或经调整系数608来形成第二增益矩阵220。

在另一实例性设置中,编码器处的原始音频信号是具有顶部前置声道(l、r、c、lfe、ls、rs、tfl、tfr)的5.1.2,其经降混为代替地具有顶部中间声道(ld、rd、cd、lfe、lsd、rsd、tld、trd)的5.1.2格式。在这个实施例中,在编码器处不进行衰减。然而,在这种情况下,dc选择及修改单元606需要知道编码器端处的原始信号配置是什么以便为5.1输出信号118选择适当降混系数。在这种情况下,在位流中发射的相关降混系数216是:gain_t2a、gain_t2b,其是顶部前置声道到相应前置及环绕声道的增益。在这种情况下,dc选择及修改单元606经配置以确定降混系数608使得输出声道118将被渲染为:

lout=ld+gain_t2a(tld)=l+gain_t2a(tfl)及

lsout=lsd+gain_t2b(tld)=ls+gain_t2b(tfl)。

在研究以上描述之后,本公开的进一步实施例对于所属领域的技术人员来说将变得显而易见。即使本描述及附图公开实施例及实例,但是本公开不限于这些特定实例。在不脱离由所附权利要求书界定的本公开的范围的情况下,可做出众多修改及变动。权利要求书中出现的任何参考符号不应被理解为限制其范围。

另外,根据对附图、本公开及所附权利要求书的研究,所属领域的技术人员可在实践本公开时理解及实现对所公开实施例的变动。在权利要求书中,单词“包括”不排除其它元件或步骤,且不定冠词“一(a/an)”不排除多个。在互不相同的从属权利要求中列出某些措施的纯粹事实并不指示无法有利地使用这些措施的组合。

上文中所公开的系统及方法可被实施为软件、固件、硬件或其组合。在硬件实施方案中,以上描述中所提到的功能单元之间的任务划分不一定对应于划分成物理单元;相反,一个物理组件可具有多种功能性,且一个任务可由若干物理组件协作地实行。某些组件或所有组件可被实施为由数字信号处理器或微处理器执行的软件,或被实施为硬件或专用集成电路。此软件可经分布在计算机可读媒体上,所述计算机可读媒体可包括计算机存储媒体(或非暂时性媒体)及通信媒体(或暂时性媒体)。如所属领域的技术人员所熟知,术语计算机存储媒体包含以用于存储例如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实施的易失性及非易失性、可卸除及不可卸除媒体两者。计算机存储媒体包含但不限于ram、rom、eeprom、快闪存储器或其它存储器技术、cd-rom、数字多功能磁盘(dvd)或其它光盘存储装置、磁带盒、磁带、磁盘存储或其它磁性存储装置,或可用于存储所要信息且可由计算机存取的任何其它媒体。此外,所属领域的技术人员熟知,通信媒体通常在例如载波或其它传送机构的调制数据信号中体现计算机可读指令、数据结构、程序模块或其它数据且包含任何信息输送媒体。

从以下枚举的实例实施例(eee)可明白本发明的各个方面:

eee1.一种音频解码器,其包括:

一或多个缓冲器,其用于存储经接收音频位流;及

控制器,其经耦合到所述一或多个缓冲器且经配置以:

以从多种不同解码模式选择的解码模式操作,所述多种不同解码模式包括第一解码模式及第二解码模式,其中在所述第一及第二解码模式中,仅所述第一解码模式允许以参数方式重构来自动态音频对象的集群的个别动态音频对象;且

当所述所选择的解码模式是所述第二解码模式时:

存取所述经接收音频位流;

确定所述经接收音频位流是否包含一或多个动态音频对象;且

至少响应于确定所述经接收音频位流包含一或多个动态音频对象,将所述一或多个动态音频对象中的至少一者映射到一组静态音频对象,所述一组静态音频对象对应于预定义扬声器配置。

eee2.根据eee1所述的音频解码器,其中当所述所选择的解码模式是所述第二解码模式时,所述控制器进一步经配置以将所述一组静态音频对象渲染为一组输出音频声道。

eee3.根据eee2所述的音频解码器,其中所述音频位流包括第一组降混系数,其中所述控制器经配置以利用所述第一组降混系数来将所述一组静态音频对象渲染为所述一组输出音频声道。

eee4.根据eee3所述的音频解码器,其中所述控制器进一步经配置以接收与在编码器端上施加在所述一或多个动态音频对象中的至少一者中的衰减有关的信息,其中所述控制器经配置以当利用所述第一组降混系数来将所述一组静态音频对象渲染为一组输出音频声道时相应地修改所述第一组降混系数。

eee5.根据eee3或eee4所述的音频解码器,其中所述控制器进一步经配置以接收与在编码器端上执行的降混操作有关的信息,其中所述信息定义音频信号的原始声道配置,其中所述降混操作导致将所述音频信号降混为所述一或多个动态音频对象,其中所述控制器经配置以基于与所述降混信息有关的所述信息来选择所述第一组降混系数的子集,其中所述利用所述第一组降混系数来将所述一组静态音频对象渲染为一组输出音频声道包括利用所述第一组降混系数的所述子集来将所述一组静态音频对象渲染为一组输出音频声道。

eee6.根据eee2到eee5中任一eee所述的音频解码器,其中所述控制器经配置以在组合计算中使用单个矩阵来执行所述一或多个动态音频对象中的所述至少一者的所述映射及所述一组静态音频对象的所述渲染。

eee7.根据eee2到eee5中任一eee所述的音频解码器,其中所述控制器经配置以在个别计算中使用相应矩阵来执行所述一或多个动态音频对象中的所述至少一者的所述映射及所述一组静态音频对象的所述渲染。

eee8.根据任一前述eee所述的音频解码器,其中所述经接收音频位流包括识别所述一或多个动态音频对象中的所述至少一者的元数据。

eee9.根据eee8所述的音频解码器,其中所述元数据指示所述一或多个动态音频对象中的n者将被映射到所述一组静态音频对象,

其中响应于所述元数据,所述控制器经配置以将从所述经接收音频位流中的一预定义位置或若干预定义位置选择的所述一或多个动态音频对象中的n者映射到所述一组静态音频对象。

eee10.根据eee9所述的音频解码器,其中包含在所述经接收音频位流中的所述一或多个动态音频对象包括n个以上动态音频对象。

eee11.根据eee10所述的音频解码器,其中包含在所述经接收音频位流中的所述一或多个动态音频对象包括所述n个动态音频对象及k个进一步动态音频对象,其中所述控制器经配置以将所述一组静态音频对象及所述进一步k个音频对象渲染为一组输出音频声道。

eee12.根据eee9到eee11中任一eee所述的音频解码器,其中响应于所述元数据,所述控制器经配置以将所述经接收音频位流中的所述一或多个动态音频对象中的所述前n者映射到所述一组静态音频对象。

eee13.根据eee9到eee12中任一eee所述的音频解码器,其中所述一组静态音频对象由m个静态音频对象组成,且m>n>0。

eee14.根据任一前述eee所述的音频解码器,其中所述经接收音频位流进一步包括一或多个进一步静态音频对象。

eee15.根据eee2或从属于eee2的任一前述eee所述的音频解码器,其中所述一组输出音频声道是以下一者:立体声输出声道;5.1环绕声音输出声道,5.1.2沉浸式声音输出声道;或5.1.4沉浸式声音输出声道。

eee16.根据任一前述eee所述的音频解码器,其中所述预定义扬声器配置是5.0.2扬声器配置。

eee17.一种解码器中的方法,其包括以下步骤:

接收音频位流且将所述经接收音频位流存储在一或多个缓冲器中,

从多种不同解码模式选择解码模式,所述多种不同解码模式包括第一解码模式及第二解码模式,其中在所述第一及第二解码模式中,仅所述第一解码模式允许以参数方式重构来自动态音频对象的集群的个别动态音频对象;

以所述所选择的解码模式操作耦合到所述一或多个缓冲器的控制器,

当所述所选择的解码模式是所述第二解码模式时,所述方法进一步包括以下步骤:

通过所述控制器,存取所述经接收音频位流;

通过所述控制器,确定所述经接收音频位流是否包含一或多个动态音频对象;及

至少响应于确定所述经接收音频位流包含一或多个动态音频对象,通过所述控制器将所述一或多个动态音频对象中的至少一者映射到一组静态音频对象,所述一组静态音频对象对应于预定义扬声器配置。

eee18.一种音频编码器,其包括

接收组件,其经配置以接收一组音频对象;

降混组件,其经配置以将所述一组音频对象降混为一或多个经降混动态音频对象,其中所述一或多个经降混动态音频对象中的至少一者意在以多种解码模式中的至少一者在解码器端上映射到一组静态音频对象,所述一组静态音频对象对应于预定义扬声器配置;

降混系数提供组件,其经配置以确定将用于在所述解码器端处将对应于所述预定义扬声器配置的所述一组静态音频对象渲染为一组输出音频声道的第一组降混系数;

位流多路复用器,其经配置以将所述至少一个经降混动态音频对象及所述第一组降混系数多路复用成音频位流。

eee19.根据eee18所述的编码器,其中所述降混组件进一步经配置以将识别所述一或多个经降混动态音频对象中的所述至少一者的元数据提供给所述位流多路复用器,

其中所述位流多路复用器进一步经配置以将所述元数据多路复用成所述音频位流。

eee20.根据eee18或eee19中任一eee所述的编码器,其中所述编码器进一步经调适以当将所述一组音频对象降混为一或多个经降混动态音频对象时确定与施加在所述一或多个动态音频对象中的至少一者中的衰减有关的信息,

其中所述位流多路复用器进一步经配置以将与衰减有关的所述信息多路复用成所述音频位流。

eee21.根据eee18到eee20中任一eee所述的编码器,其中所述位流多路复用器进一步经配置以将与由所述接收组件接收的所述音频对象的声道配置有关的信息多路复用成所述音频位流。

eee22.一种编码器中的方法,其包括以下步骤:

接收一组音频对象;

将所述一组音频对象降混为一或多个经降混动态音频对象,其中所述一或多个经降混动态音频对象中的至少一者意在以多种解码模式中的至少一者在解码器端上映射到一组静态音频对象,所述一组静态音频对象对应于预定义扬声器配置;

确定将用于在所述解码器端处将对应于所述预定义扬声器配置的所述一组静态音频对象渲染为一组输出音频声道的第一组降混系数;及

将所述至少一个经降混动态音频对象及所述第一组降混系数多路复用成音频位流。

eee23.一种计算机程序产品,其包括计算机可读存储媒体,所述计算机可读存储媒体具有经调适以当由具有处理能力的装置执行时实行eee17或eee22中任一eee所述的方法的指令。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1