双端媒体智能的制作方法

文档序号:26009702发布日期:2021-07-23 21:29阅读:87来源:国知局
双端媒体智能的制作方法

本公开涉及将音频内容编码到位流中的方法以及从位流解码音频内容的方法。本公开特别涉及在位流中传输指示音频内容的内容类型的分类信息的此类方法。



背景技术:

当音频信号处理算法知道正在处理的内容时,可改进音频信号后处理的感知益处。例如,当在当前音频帧中存在对话的经测量高置信度时,改进对话增强器对对话的准确检测。此外,可在存在音乐内容时禁用虚拟化器以保留音乐音色,或可在存在电影中的对话时禁用设计为音色匹配音乐的动态均衡器(例如音量智能均衡器)以保留语音音色。

通常,用户可需要切换配置文件,例如“电影”或“音乐”,以在其播放装置上获得最佳设置,但这通常需要存取高级设置或ui,许多用户可不知道高级设置或ui或对其不舒服。

解决此问题的方法将是使用内容分析工具(例如,dolby的媒体智能)来检测音频信号中的特征,以确定音频流中某些内容类型的可能性有多大。

当前播放装置(例如,可播放包含电影和音乐的多种内容的移动电话)可使用内容分析工具(例如,dolby的媒体智能)来确定音频流中存在某些内容类型的置信度值。内容分析工具可返回关于“音乐”、“语音”或“背景效果”的存在的置信度值(置信度分数)。然后可组合使用置信度值以返回算法导向权重,所述算法导向权重又可用于控制某些后处理特征(例如,其强度)。

上面描述的方法是一种“单端”解决方案,其可在解码器内或在接收pcm音频数据的单独后处理库内执行。此单端实施方案在导向后处理算法时是有效的,但是给播放装置增加显著的计算复杂度,并且因此内容分析的实时性可被限制在播放装置上的可承受能力。

因此,需要用于音频内容的内容感知处理的改进方法及装置。



技术实现要素:

本公开提供编码音频内容的方法和解码音频内容的方法,其具有相应独立权利要求的特征。

本公开的一个方面涉及一种编码音频内容的方法。所述方法可包含执行音频内容的内容分析。例如,可通过应用dolby的媒体智能工具来执行所述内容分析。而且,可针对多个连续窗口中的每一者执行所述内容分析,每一窗口包含预定数目个连续(音频)帧。此时,所述内容分析可基于依据所述音频内容内的可确定特征的可能性/置信度的一或多个计算。这些计算可为动态的,并且可调整以放大或去放大特定可能性。一般来说,所述内容分析可为自适应的及/或可预先使用预定音频内容来训练。所述内容分析可使用前瞻缓冲器来减少时延。另外或作为替代,可引入编码时延以适应所述内容分析所需的处理时间。此外,所述内容分析可在多个遍次中执行。所述方法可进一步包含基于所述内容分析(的结果)生成指示所述音频内容的内容类型的分类信息。生成所述分类信息也可基于对所述音频内容中的场景转变的检测(或场景转变的手动指示)。例如,如果检测到/指示场景转变,那么所述分类信息中包含的置信度值的变化率可较大(即,大于稳态中的变化率)。所述方法可进一步包含将所述音频内容和所述分类信息(例如,所述置信度值)编码到位流中。所述经编码的音频内容及所述经编码的分类信息可经复用。所述方法还可包含输出所述位流。

在本公开的上下文中,所述音频内容的“内容类型”是指可在播放装置中播放并且可由人耳通过所述内容类型的一或多个音频特性来区分的内容类型。例如,音乐可与语音或噪声区分,这是因为音乐涉及不同音频带宽、所述音频信号在不同频率上的不同功率分布、不同音调持续时间、基频和主频的不同类型及数目等。

通过在所述编码器侧执行所述内容分析并将所得分类信息编码到所述位流中,所述解码器上的计算负担可显著地减轻。此外,所述编码器的优越的计算能力可用于执行更复杂且更准确的内容分析。除了满足所述编码器和所述解码器的不同的计算能力之外,所提出的方法还在解码音频的音频后处理中为所述解码器侧提供额外灵活性。例如,可根据实施所述解码器的装置的装置类型和/或用户的个人偏好来定制所述后处理。

在一些实施例中,所述内容分析可至少部分地基于所述音频内容的元数据。借此,提供例如由内容创建者对所述内容分析的额外控制。同时,通过提供适当的元数据,可改进所述内容分析的准确性。

本公开的另一方面涉及一种编码音频内容的另外方法。所述方法可包含接收与所述音频内容的内容类型相关的用户输入。例如,所述用户输入可包含手动标记或手动置信度值。所述方法可进一步包含基于所述用户输入生成指示所述音频内容的所述内容类型的分类信息。所述方法可进一步包含将所述音频内容和所述分类信息编码到位流中。例如,可在所述位流中编码所述标记或所述置信度值。所述方法还可包含输出所述位流。通过此方法,提供例如由内容创建者对所述内容分析的额外控制。

在一些实施例中,所述用户输入可包含指示所述音频内容为给定内容类型的标记和一或多个置信度值中的一或多者,每一置信度值与相应内容类型相关联且给出所述音频内容具有所述相应内容类型的可能性的指示。借此,所述编码器的用户可获得对在所述解码器侧执行的所述后处理的额外控制。例如,这使得能够确保内容创建者的艺术意图由所述后期处理所保留。

本公开的另一方面涉及一种编码音频内容的另外方法。所述音频内容可作为音频节目的部分在音频内容流中提供。所述方法可包含接收指示所述音频内容的服务类型(例如,音频节目类型)的服务类型指示。例如,所述服务类型可为音乐服务或新闻(新闻广播)服务/声道。所述方法可进一步包括至少部分地基于所述服务类型指示来执行所述音频内容的内容分析。所述方法可进一步包含基于所述内容分析(的结果)生成指示所述音频内容的内容类型的分类信息。作为所述分类信息的实例的置信度值也可与所述音频内容一起由所述内容创建者直接提供。是否考虑例如由所述内容创建者提供的置信度值等可取决于所述服务类型指示。所述方法可进一步包含将所述音频内容和所述分类信息编码到位流中。所述方法还可包含输出所述位流。

通过考虑所述服务类型指示,可帮助所述编码器执行所述内容分析。此外,所述编码器侧的用户可获得对所述解码器侧音频后处理的额外控制,这使得例如能够确保内容创建者的艺术意图通过所述后处理得到保留。

在一些实施例中,所述方法可进一步包含基于所述服务类型指示来确定所述音频内容的所述服务类型是否是音乐服务。所述方法可进一步包含:响应于确定所述音频内容的所述服务类型是音乐服务,生成所述分类信息以指示所述音频内容的所述内容类型是音乐内容(内容类型“音乐”)。这可等于将内容类型“音乐”的所述置信度值设置为最高可能值(例如,1),同时将任何其它置信度值设置为零。

在一些实施例中,所述方法可进一步包含基于所述服务类型指示来确定所述音频内容的所述服务类型是否是新闻广播服务。所述方法可进一步包含:响应于确定所述音频内容的所述服务类型是新闻广播服务,将所述内容分析调适为具有较高可能性以指示所述音频内容是语音内容。此可通过调适所述内容分析的一或多个计算(计算算法)以增加所述内容分析结果中的语音内容(内容类型“语音”)的可能性/置信度及/或通过调适所述内容分析的一或多个计算以降低语音内容以外的内容类型的可能性/置信度来实现。

在一些实施例中,可在逐帧基础上提供所述服务类型指示。

本公开的另一方面涉及一种编码音频内容的另外方法。可基于文件提供所述音频内容。可基于文件执行所述方法。所述文件可包含用于其相应音频内容的元数据。所述元数据可包含标志、标记、标签等。所述方法可包含至少部分地基于所述音频内容的所述元数据来执行所述音频内容的内容分析。所述方法可进一步包含基于所述内容分析(的结果)生成指示所述音频内容的内容类型的分类信息。所述方法可进一步包含将所述音频内容和所述分类信息编码到位流中。所述方法还可包含输出所述位流。

通过考虑所述文件元数据,可帮助所述编码器执行所述内容分析。此外,所述编码器侧的用户可获得对所述解码器侧音频后处理的额外控制,这使得例如能够确保内容创建者的艺术意图通过所述后处理得到保留。

在一些实施例中,所述元数据可包含指示所述文件的文件内容类型的文件内容类型指示。所述文件内容类型可为音乐文件(文件内容类型“音乐文件”)、新闻广播文件/剪辑(文件内容类型“新闻广播文件”)或包含动态(非静态或混频源)内容的文件(例如,在口语场景和音乐/歌曲场景之间频繁转变(例如每几分钟转变一次)的音乐类型电影;文件内容类型“动态内容”)。对于整个文件,所述文件内容类型可为相同的(统一的),或可在所述文件的部分之间改变。接着,所述内容分析可至少部分地基于所述文件内容类型指示。

在一些实施例中,所述方法可进一步包含基于所述文件内容类型指示来确定所述文件的所述文件内容类型是否是音乐文件。所述方法可进一步包含:响应于确定所述文件的所述文件内容类型是音乐文件,生成指示所述音频内容的所述内容类型是音乐内容的所述分类信息。

在一些实施例中,所述方法可进一步包含基于所述文件内容类型指示来确定所述文件的所述文件内容类型是否是新闻广播文件。所述方法可进一步包含:响应于确定所述文件的所述文件内容类型是新闻广播文件,将所述内容分析调适为具有较高可能性以指示所述音频内容是语音内容。此可通过调适所述内容分析的一或多个计算(计算算法)以增加所述内容分析中的语音内容的可能性/置信度及/或通过调适所述一或多个计算以降低语音内容以外的内容类型的可能性/置信度来实现。

在一些实施例中,所述方法可进一步包含基于所述文件内容类型指示来确定所述文件的所述文件内容类型是否是动态内容。所述方法可进一步包含:响应于确定所述文件的所述文件内容类型是动态内容,将所述内容分析调适为允许不同内容类型之间的较高转变率。例如,可允许所述内容类型在内容类型之间(例如,在音乐和非音乐之间)更频繁地转变(即,比稳态更频繁地转变)。此外,对于动态内容(即,动态文件内容),可禁用所述分类信息的平滑(时间平滑)。

在一些实施例中,在根据上述方面或实施例中的任一者的方法中,所述分类信息可包含一或多个置信度值。每一置信度值可与相应内容类型相关联,并且可获得所述音频内容具有相应内容类型的可能性的指示。

在一些实施例中,在根据上述方面或实施例中的任一者的方法中,所述内容类型可包含音乐内容、语音内容或效果(例如,背景效果)内容中的一或多者。所述内容类型可进一步包含人群噪声/欢呼。

在一些实施例中,根据上述方面或实施例中的任一者的方法可进一步包含将所述音频内容中的场景转变的指示编码到位流中。场景转变的所述指示可包含一或多个场景复位旗标,每一旗标指示相应场景转变。所述场景转变可在所述编码器处检测,或可例如由内容创建者从外部提供。在前者情况下,所述方法将包含检测所述音频内容中的场景转变的步骤,并且在后者情况下,包含接收所述音频内容中的场景转变的(手动)指示的步骤。通过指示所述位流中的所述场景转变,可避免在所述解码器侧可由跨场景转变的不适当后处理导致的可听伪像。

在一些实施例中,根据上述方面或实施例中的任一者的方法可进一步包含在编码之前所述分类信息的平滑(时间平滑)。例如,所述置信度值可随时间平滑。根据控制输入/元数据等,对于标记为动态(非静态)的音频内容,可根据环境(例如,在场景转变)禁用所述平滑。通过对所述分类信息进行平滑,可改进所述解码器侧音频后处理的稳定性/连续性。

在一些实施例中,根据上述方面或实施例中的任一者的方法可进一步包含在编码之前对所述分类信息进行量化。例如,可对所述置信度值进行量化。借此,可减少在所述位流中传输所述分类信息所需的带宽。

在一些实施例中,根据上述方面或实施例中的任一者的方法可进一步包含将所述分类信息编码到所述位流的数据包中的特定数据字段中。所述位流可为例如ac-4(ac-4)位流。所述特定数据字段可为媒体智能(mi)数据字段。所述mi数据字段可包含以下字段的任一者、一些或全部:b_mi_data_present、music_confidence、speech_confidence、effects_confidence、b_prog_switch、b_more_mi_data_present、more_mi_data。

本公开的另一方面涉及一种从包含音频内容和所述音频内容的分类信息的位流解码音频内容的方法。所述分类信息可指示所述音频内容的内容分类。例如,所述内容分类可基于内容分析并且任选地基于与所述音频内容的内容类型相关的用户输入(其中所述内容分析和所述用户提供所述输入两者都在所述编码器处执行)。所述方法可包含接收所述位流。所述方法可进一步包含解码所述音频内容和所述分类信息。所述方法还可进一步包含基于所述分类信息选择用于执行所述经解码音频内容的后处理的后处理模式。换句话说,所述解码方法可基于所述分类信息选择所述经解码音频内容的后处理。

向所述解码器提供所述分类信息允许所述解码器放弃内容分析,这显著地减轻所述解码器上的计算负担。而且,给予所述解码器额外灵活性,其可基于所述分类信息来决定合适的后处理模式。在这样做时,可考虑例如装置类型和用户偏好之类的额外信息。

在一些实施例中,所述解码方法可进一步包含基于所述分类信息计算用于所述经解码音频内容的所述后处理的一或多个控制权重。

在一些实施例中,所述后处理模式的所述选择可进一步基于用户输入。

在一些实施例中,所述音频内容是基于声道。例如,所述音频内容可为两个或两个以上声道的音频内容。所述经解码音频内容的所述后处理可包括将所述基于声道的音频内容上混频到经上混频的基于声道的音频内容。例如,基于双声道的音频内容可被上混频到5.1声道、7.1声道或9.1声道的音频内容。所述方法可进一步包括将虚拟化器应用到所述经上混频的基于声道的音频内容,以获得虚拟化的经上混频的基于声道的音频内容,用于对所需数目个声道的扬声器阵列进行虚拟化。例如,虚拟化可向双声道扬声器阵列(例如,耳机)提供经上混频的5.1声道、7.1声道或9.1声道音频内容。然而,虚拟化也可向双声道或5.1声道扬声器阵列提供经上混频的5.1声道音频内容,向双声道、5.1或7.1声道扬声器阵列提供经上混频的7.1声道音频内容,以及向双声道、5.1、7.1或9.1声道扬声器阵列提供经上混频的9.1声道音频内容。

在一些实施例中,所述方法可进一步包括基于所述分类信息计算用于所述经解码音频内容的所述后处理的一或多个控制权重。

在一些实施例中,所述分类信息(在由所述解码器接收的所述位流中编码)可包括一或多个置信度值,每一置信度值与相应内容类型相关联且给出所述音频内容具有所述相应内容类型的可能性的指示。可基于所述置信度值来计算所述控制权重。

在一些实施例中,所述方法可进一步包括将所述虚拟化器的输出路由到所述扬声器阵列,以及基于所述分类信息计算上混频器和所述虚拟化器的相应控制权重。

在一些实施例中,所述方法可进一步包括在应用所述虚拟化器之后,将交叉渐变器应用到所述基于声道的音频内容和所述虚拟化的经上混频音频内容,且将所述交叉渐变器的输出路由到所述扬声器阵列。在此实施例中,所述方法可进一步包括基于所述分类信息计算用于所述上混频器及所述交叉渐变器的相应控制权重。

在一些实施例中,所述控制权重可用于控制除上混频器、交叉渐变器或虚拟化器之外的模块。类似地,计算所述控制权重的若干替代方法是可能的。与控制权重的数目和类型及其计算方法相关的实施例在下面结合本公开的以下其它方面进行描述。然而,这些实施例不限于本公开的以下方面,而是可应用于本文献中公开的解码音频内容的任何方法。

本公开的另一方面涉及一种从包含音频内容和所述音频内容的分类信息的位流解码音频内容的另外方法。所述分类信息可指示所述音频内容的内容分类。所述方法可包含接收所述位流。所述方法可进一步包含解码所述音频内容和所述分类信息。所述方法可进一步包含基于所述分类信息计算用于所述经解码音频内容的后处理的一或多个控制权重。所述控制权重可为用于后处理算法/模块的控制权重,并且可被称为算法导向权重。所述控制权重可控制相应后处理算法的强度。

在一些实施例中,所述分类信息可包含一或多个置信度值,每一置信度值与相应内容类型相关联且给出所述音频内容具有所述相应内容类型的可能性的指示。可基于所述置信度值来计算所述控制权重。

在一些实施例中,所述控制权重可为用于所述经解码音频内容的后处理的相应模块(算法)的控制权重。用于后处理的所述模块(算法)可包含例如以下一或多者:(智能/动态)均衡器、(自适应)虚拟化器、环绕处理模块、对话增强器、上混频器和交叉渐变器。

在一些实施例中,所述控制权重可包含用于均衡器的控制权重、用于虚拟化器的控制权重、用于环绕处理器的控制权重、用于对话增强器的控制权重、用于上混频器的控制权重和用于交叉渐变器的控制权重中的一或多者。所述均衡器可为智能均衡器,例如,ieq。例如,所述虚拟化器可为自适应虚拟化器。

在一些实施例中,所述控制权重的所述计算可取决于执行所述解码的装置的装置类型。换句话说,所述计算可为端点特定的,或个性化的。例如,所述解码器侧可实施用于后处理的一组端点特定过程/模块/算法,并且可以端点特定方式基于置信度值来确定用于这些过程/模块/算法的参数(控制权重)。借此,在执行所述音频后处理时,可考虑相应装置的特定能力。例如,可通过移动装置和条形音箱装置应用不同的后处理。

在一些实施例中,所述控制权重的所述计算可进一步基于用户输入。所述用户输入可覆盖或部分地覆盖所述基于置信度值的计算。例如,如果用户希望,那么可对语音应用虚拟化,或如果用户希望,那么可对pc用户应用立体声加宽、上混频和/或虚拟化。

在一些实施例中,所述控制权重的所述计算可进一步基于所述音频内容的声道的数目。此外,所述控制权重的所述计算可进一步基于一或多个位流参数(例如,由所述位流携带并且可从所述位流提取的参数)。

在一些实施例中,所述方法可包含执行所述音频内容的内容分析以确定一或多个额外置信度值(例如,对于所述编码器侧未考虑的内容类型)。此内容分析可以与上文关于所述编码器侧描述的相同的方式进行。接着,所述控制权重的所述计算可进一步基于所述一或多个额外置信度值。

在一些实施例中,所述控制权重可包含用于虚拟化器的控制权重。可计算用于所述虚拟化器的所述控制权重,使得如果所述分类信息指示所述音频内容的所述内容类型是音乐或可能是音乐,那么禁用所述虚拟化器。例如,如果音乐的所述置信度值高于给定阈值,那么可为此情况。借此,可保留音乐音色。

在一些实施例中,可计算用于所述虚拟化器的所述控制权重,使得所述虚拟化器的系数在直通虚拟化和完全虚拟化之间缩放。例如,所述虚拟化器的所述控制权重可计算为1-music_confidence*{1-max[effects_confidence,speech_confidence]^2}。在一些实施例中,所述虚拟化器的所述控制权重可进一步取决于所述音频内容中的声道的数目(即,声道计数)或其它位流参数(例如,基于其确定)。例如,可仅基于立体声内容的所述置信度值来确定用于虚拟化的所述控制权重(加权因子),并且可将固定的控制权重(例如,等于1)应用于除立体声内容之外的所有多声道内容(即,用于数目超过2的声道)。

在一些实施例中,所述控制权重可包含用于对话增强器的控制权重。可计算用于所述对话增强器的所述控制权重,使得如果所述分类信息指示所述音频内容的所述内容类型是语音或可能是语音,那么启用/增强由所述对话增强器进行的对话增强。例如,如果语音的所述置信度值高于给定阈值,那么可为此情况。借此,对话增强可限制为实际上从中受益的所述音频内容的部分,同时节省计算能力。

在一些实施例中,所述控制权重可包含用于动态均衡器的控制权重。可计算用于所述动态均衡器的所述控制权重,使得如果所述分类信息指示所述音频内容的所述内容类型是语音或可能是语音,那么禁用所述动态均衡器。例如,如果语音的所述置信度值高于给定阈值,那么可为此情况。借此,可避免语音音色的不希望的改变。

在一些实施例中,所述方法可进一步包含所述控制权重的平滑(时间平滑)。根据控制输入/元数据等,对于标记为动态(非静态)的音频内容,可根据环境(例如,在场景转变)禁用所述平滑。所述控制权重的平滑可改进所述音频后处理的稳定性/连续性。

在一些实施例中,所述控制权重的所述平滑可取决于经平滑的所述特定控制权重。即,所述平滑可在至少两个控制权重之间不同。例如,对于所述对话增强器控制权重可没有平滑或只很少平滑及/或对于所述虚拟化器控制权重可存在较强的平滑。

在一些实施例中,所述控制权重的所述平滑可取决于执行所述解码的装置的装置类型。例如,在移动电话与电视机之间可存在所述虚拟化器控制权重的不同平滑。

在一些实施例中,所述方法可进一步包含将非线性映射函数应用于所述控制权重以增加所述控制权重的连续性(例如,稳定性)。此可涉及对所述控制权重应用映射函数,所述映射函数将接近于所述控制权重的域范围的边界的值映射到接近于图像范围的边界,例如,s形函数。借此,可进一步改进所述音频后处理的稳定性/连续性。

本公开的另一方面涉及一种从包含双声道音频内容和所述双声道音频内容的分类信息的位流解码音频内容的方法。所述位流可为例如ac-4位流。所述分类信息可指示所述双声道音频内容的内容分类。所述方法可包含接收所述位流。所述方法可进一步包含解码所述双声道音频内容和所述分类信息。所述方法可进一步包含将所述双声道音频内容上混合到经上混频的5.1声道音频内容。所述方法可进一步包含将虚拟化器应用到所述经上混频的5.1声道音频内容,以用于针对双声道扬声器阵列的5.1虚拟化。所述方法可进一步包含将交叉渐变器应用到所述双声道音频内容和所述虚拟化的经上混频的5.1声道音频内容。所述方法还可进一步包含将所述交叉渐变器的输出路由到所述双声道扬声器阵列。此时,所述方法可包含基于所述分类信息计算用于所述虚拟化器及/或所述交叉渐变器的相应控制权重。所述虚拟化器及所述交叉渐变器可在其相应控制权重的控制下操作。

本公开的另一方面涉及一种从包含双声道音频内容和所述双声道音频内容的分类信息的位流解码音频内容的另外方法。所述位流可为例如ac-4位流。所述分类信息可指示所述双声道音频内容的内容分类。所述方法可包含接收所述位流。所述方法可进一步包含解码所述双声道音频内容和所述分类信息。所述方法可进一步包含将上混频器应用到所述双声道音频内容以用于将所述双声道音频内容上混频到经上混频的5.1声道音频内容。所述方法可进一步包含将虚拟化器应用到所述经上混频的5.1声道音频内容,以用于针对五声道扬声器阵列的5.1虚拟化。所述方法还可进一步包含将所述虚拟化器的输出路由到所述五声道扬声器阵列。此时,所述方法可包含基于所述分类信息计算用于所述上混频器及/或所述虚拟化器的相应控制权重。所述上混频器及所述虚拟化器可在其相应控制权重的控制下操作。所述上混频器的所述控制权重可与上混频权重相关。

另一方面涉及一种设备(例如,编码器或解码器),其包含处理器,所述处理器耦合到存储用于所述处理器的指令的存储器。可调适所述处理器以执行根据上述方面及其实施例中的任一者的方法。

另外方面涉及:计算机程序,其包含指令,所述指令用于使执行所述指令的处理器执行根据上述方面及其实施例中任一者的方法;以及相应计算机可读存储媒体,其存储这些计算机程序。

附图说明

下文参考附图解释本公开的示例性实施例,其中相同的元件符号指示相同或类似的元件,并且其中

图1示意性地示出根据本公开的实施例的编码器-解码器系统的实例,

图2示意性地示出可应用本公开的实施例的位流的实例,

图3示意性地示出根据本公开实施例的用于存储音频内容的分类信息的数据字段的实例,

图4以流程图形式示意性地示出根据本公开的实施例的编码音频内容的方法的实例,

图5示意性地示出根据本公开的实施例的音频内容的内容分析的实例,

图6以流程图形式示意性地示出根据本公开的实施例的编码音频内容的方法的另一实例,

图7以流程图形式示意性地示出根据本公开的实施例的编码音频内容的方法的另一实例,

图8示意性地示出根据本公开的实施例的音频内容的内容分析的另一实例,

图9以流程图形式示意性地示出根据本公开的实施例的编码音频内容的方法的又一实例,

图10示意性地示出根据本公开的实施例的音频内容的内容分析的又一实例,

图11以流程图形式示意性地示出根据本公开的实施例的解码音频内容的方法的实例,

图12以流程图形式示意性地示出根据本公开的实施例的解码音频内容的方法的另一实例,

图13示意性地示出根据本公开的实施例的控制权重计算的实例,

图14以流程图形式示意性地示出根据本公开的实施例的解码音频内容的方法的另一实例,

图15示意性地示出根据本公开的实施例的在解码器中使用控制权重的实例,

图16以流程图形式示意性地示出根据本公开的实施例的解码音频内容的方法的又一实例,且

图17示意性地示出根据本公开的实施例的在解码器中使用控制权重的另一实例。

具体实施方式

如上文指示,本公开中相同或类似的元件符号指示相同或类似的元件,并且出于简洁的原因可省略其重复描述。

广义地说,本公开提出从音频解码器到音频编码器的内容分析的转移,借此创建音频后处理的双端方法。即,内容分析模块的至少一部分从解码器移动到编码器,并且音频流(位流)经更新以携带由编码器中的内容分析模块的(部分)生成的分类信息(例如,置信度值、置信度标记或置信度分数)。权重计算留给解码器,其中解码器基于与音频流一起接收的分类信息进行操作。

图1中以框图形式示出实施上述方案的编码器-解码器系统100的实例。编码器-解码器系统100包括(音频)编码器105和(音频)解码器115。应理解,下文描述的编码器105和解码器115的模块可例如由相应计算装置的相应处理器实施。

编码器105包括内容分析模块120和多路复用器130。因此,如上文所提及,内容分析现在是编码器阶段的部分。编码器105可能结合相关联的元数据和/或用户输入接收要被编码的输入音频内容101。输入音频内容101提供到内容分析模块120和多路复用器130。内容分析模块120执行音频内容101的内容分析(例如,通过应用dolby的媒体智能工具),并且导出音频内容的分类信息125。分类信息125指示由内容分析推断的输入音频内容101的内容类型。如下文将更详细地所描述,分类信息125可包含与相应内容类型相关的一或多个置信度值(例如,“音乐”、“语音”和“背景效果”置信度值)。在一些实施例中,置信度值可具有比此更高的粒度。例如,代替内容类型“音乐”的置信度值,或者除了内容类型“音乐”的置信度值之外,分类信息125还可包含一或多个音乐流派的置信度值(例如,内容类型“古典音乐”、“摇滚/流行音乐”、“声学音乐”、“电子音乐”等的置信度值)。在一些实施例中,内容分析可进一步基于音频内容的元数据和/或基于用户输入(例如,来自内容创建者的控制输入)。

多路复用器130将音频内容和分类信息125多路复用到位流110中。音频内容可根据已知的音频编码方法进行编码,例如根据ac-4编码标准进行编码。因此,音频内容101和分类信息125可被称为编码到位流110中,并且位流可被称为包含音频内容和音频内容的相关联分类信息。然后可将位流110提供到解码器115。

在一些实施方案中,可针对多个连续窗口中的每一者执行编码器-解码器系统100的编码器105中的内容分析,其中每一窗口包含预定数目个连续(音频)帧。

内容分析可基于依据音频内容内的可确定特征的相应内容类型的可能性/置信度的一或多个计算。

例如,内容分析可包含预处理音频内容、特征提取和计算置信度值的步骤。预处理(可为任选的)可包含下混频、重新成帧、计算幅度谱等。特征提取可从音频内容提取/计算多个特征(例如,几百个特征)。这些特征可包含梅尔频率倒谱系数(mfcc)、mfcc通量、过零率、色度、自相关等中的任一者。例如,最终得到置信度值的计算可通过经训练的机器学习网络来执行。

在内容分析的上下文中(例如,通过机器学习网络)执行的计算可为可变的/自适应的。如果计算是可变的,那么调整其将允许根据特定内容类型的偏好导出分类信息。例如,对于给定段的音频内容,(默认)内容分析可对内容类型“音乐”返回置信度值0.7,对内容类型“语音”返回置信度值0.15,且对内容类型“效果”返回置信度值0.15(注意,此实例中的置信度值加起来为一)。如果调适内容分析以对内容类型“音乐”具有某种偏好(即,如果为此目的调适其计算),那么调适的内容分析/计算可例如对内容类型“音乐”得到0.8的置信度值、对内容类型“语音”得到0.1的置信度值以及对内容类型“效果”得到0.1的置信度值。下面将描述计算被调适的另外非限制性实例。

此外,内容分析(例如,(若干)机器学习网络)可为自适应的和/或可预先使用预定音频内容进行训练。例如,在例如编码器-解码器系统100的双端系统中,可随时间进一步开发内容分析,以改进特征标记的准确性。进步可来自通过编码服务器上的计算能力的增加和/或计算机处理器能力的改进而提供的增加的复杂性。随着时间的推移,还可通过对特定内容类型的手动标记来改进内容分析。

编码器侧内容分析可使用前瞻缓冲器或类似物以减少内容类型决定的时延。这将解决单端实施方案中的已知限制,此需要非常大的音频帧来做出强有力的决定。例如,可需要700ms的音频帧来做出关于对话存在的决定,此时对话置信度得分比语音开始落后700ms,并且可错过口语短语的开始。另外或作为替代,可引入编码时延以适应所述内容分析所需的处理时间。

在一些实施方案中,内容分析可在多个遍次中执行,以改进内容类型决策的准确性。

一般来说,生成所述分类信息也可基于对音频内容中的场景转变的检测(或场景转变的手动指示)。为此,编码器105可包括用于检测音频内容中的此类场景转变/复位的额外复位检测器。可使用手动标记或额外复位场景检测来影响内容分析置信度值的变化率。例如,如果检测到/指示场景转变,那么所述分类信息中包含的置信度值的变化率可较大(即,大于稳态中的变化率)。换句话说,当音频节目改变时,可允许置信度值比在音频节目的稳定状态下较快地适应,以确保后处理效果之间的可听转变最小化。根据场景检测,场景转变的指示(例如,一或多个复位旗标(场景转变旗标),每一旗标指示相应场景转变)可与分类信息125(例如,置信度值)一起编码/多路复用到位流110中。

编码器-解码器系统100中的解码器115包括解多路复用器160、权重计算模块170和后处理模块180。解码器115接收到的位流110在解多路复用器160中经解多路复用,并且提取分类信息125和音频内容(可能在根据已知音频解码方法(例如,根据ac-4编码标准的解码)进行解码之后)。因此,音频内容和分类信息125可被称为从位流110解码。经解码音频内容经提供到后处理模块180,后处理模块180执行经解码音频内容的后处理。为此,解码器115基于从位流110提取的分类信息125为后处理模块180选择后处理模式。更详细来说,将从位流110提取的分类信息125提供到权重计算模块170,权重计算模块170基于分类信息125计算一或多个控制权重175,以用于解码音频内容的后处理。每一控制权重可为例如0与1之间的数字,并且可确定用于后处理的相应过程/模块/算法的强度。一或多个控制权重175经提供到后处理模块180。后处理模块180可根据控制权重175选择/应用后处理模式,以用于后处理经解码音频内容。在一些实施例中,选择后处理模式可进一步基于用户输入。后处理模块180使用所选择的后处理模式对经解码音频内容进行后处理可得到由解码器115输出的输出音频信号102。

所计算的一或多个控制权重175可为用于由后处理模块180执行的后处理算法的控制权重,且因此也可被称为算法导向权重。这样,一或多个控制权重175可为后处理模块180中的后处理算法提供导向。在此意义上,控制权重175可为用于经解码音频内容的后处理的相应(子)模块的控制权重。例如,后处理模块180可包括一或多个相应(子)模块,例如(智能/动态)均衡器、(自适应)虚拟化器、环绕处理器、对话增强器、上混频器及/或交叉渐变器。控制权重175可为这些(子)模块的控制权重,其可在其相应控制权重的控制下操作。因此,控制权重175可包含用于均衡器(例如,智能均衡器(ieq))的控制权重、用于虚拟化器(例如,自适应虚拟化器)的控制权重、用于环绕处理器的控制权重、用于对话增强器的控制权重、用于上混频器的控制权重及/或用于交叉渐变器的控制权重中的一或多者。这里,智能均衡器被理解为使用目标频谱轮廓来调整多个频带。增益曲线取决于应用智能均衡器的音频内容调适。

在编码器105处确定分类信息125并将其作为位流110的部分提供到解码器115可减少解码器115处的计算负担。而且,利用编码器较高的计算能力,可使内容分析更强大(例如,更准确)。

图2示意性地示出作为位流110的实例实施方案的ac-4位流。位流110包括多个帧(ac-4帧)205。每一帧205包括同步字、帧字、原始帧210(ac-4帧)和crc字。原始帧210包括目录(toc)字段和如在toc字段中指示的多个子流。每一子流包含音频数据字段211和元数据字段212。音频数据字段211可包含编码的音频内容,而元数据字段212可包含分类信息125。

给定此位流结构,分类信息125可经编码到位流的数据包中的特定数据字段中。图3示意性地示出用于携带分类信息125的位流(的帧)中的数据字段的实例。此数据字段可被称为mi数据字段。数据字段可包括多个子字段310到370。例如,数据字段可包括指示帧中是否存在分类信息(媒体信息或媒体智能)的b_mi_data_present字段310、包含内容类型“音乐”的置信度值的music_confidence字段320、包含内容类型“语音”的置信度值的speech_confidence字段330、包含内容类型“效果”的置信度值的effects_confidence字段340、b_prog_switch字段350、指示是否存在更多分类信息(媒体信息)的b_more_mi_data_present字段360以及包含更多分类信息(例如,人群噪声的置信度值)的more_mi_data字段370中的任一者、一些或全部。由于分类信息(例如,置信度值)是通过长期分析(内容分析)确定的,因此其变化可比较缓慢。因此,分类信息可不针对每一数据包/帧进行编码,而是可编码到例如n个帧中的一者中,其中n≥2。

或者,分类信息125(例如,置信度值)可编码到ac-4位流的呈现子流中。

此外,对于基于文件的音频内容,分类信息125(例如,置信度值)可不针对每一帧编码,而是可编码到位流的适当数据字段中以对文件中的所有帧有效。

图4是示出编码音频内容的方法400的实例的流程图。方法400可由例如图1的编码器-解码器系统100中的编码器105执行。

步骤s410,执行音频内容的内容分析。

步骤s420,基于内容分析(的结果)生成指示音频内容的内容类型的分类信息。

步骤s430,将音频内容和分类信息编码到位流中。

最后,在步骤s440,输出位流。

值得注意的是,方法400的步骤可以上文针对编码器-解码器系统100所讨论的方式来执行。

如上文所提及,生成分类信息可进一步基于对音频内容中的场景转变的检测(或场景转变的手动指示)。因此,方法400(或以下描述的方法600、700或900中的任一者)可进一步包括检测音频内容中的场景转变(或接收音频内容中的场景转变的手动指示的输入)并将音频内容中的场景转变的指示编码到位流中。

接着将参考图5描述内容分析(例如,由编码器105的内容分析模块120执行的内容分析或在方法400的步骤s410执行的内容分析)的细节。

如上文所提及,内容分析产生指示音频内容101的内容类型的分类信息125。在本公开的一些实施例中,分类信息125包括一或多个置信度值(特征置信度值、置信度分数)。这些置信度值的每一者与相应内容类型相关联且给出音频内容具有相应内容类型的可能性的指示。这些内容类型可包含音乐内容、语音内容和效果(例如,背景效果)内容中的一或多者。在一些实施方案中,内容类型可进一步包含人群噪声内容(例如,欢呼)。即,分类信息125可包含指示音频内容具有内容类型“音乐”的置信度(可能性)的音乐置信度值、指示音频内容101具有内容类型“语音”的置信度(可能性)的语音置信度值及指示音频内容101具有内容类型“效果”的置信度(可能性)的效果置信度值,以及可能指示音频内容101具有内容类型“人群噪声”的置信度(可能性)的人群噪声置信度值中的一或多者。

在下文中,将假设置信度值经归一化以落入从0到1的范围,其中0表示音频内容具有相应内容类型的零可能性(0%),并且1指示音频内容具有相应可能性的确定性(完全可能性,100%)。应当理解,值“0”是指示零可能性的置信度值的非限制性实例,而值“1”是指示完全可能性的置信度值的非限制性实例。

在图5的实例中,音频内容101的内容分析返回(原始)音乐置信度值125a、(原始)语音置信度值125b和(原始)效果置信度值125c。原则上,这些原始置信度值125a、125b、125c可直接用于作为分类信息125(的部分)编码到位流110中。或者,分类信息125(即,原始置信度值125a、125b、125c)可在编码之前经受平滑(例如,时间平滑)以得到大体上连续的置信度值。此可通过分别输出经平滑的置信度值145a、145b、145c的相应平滑模块140a、140b、140c来完成。其中,不同的平滑模块可应用不同的平滑,例如,使用不同的参数/系数进行平滑。

根据上文,方法400(或以下描述的方法600、700或900中的任一者)可进一步包括在多路复用/编码之前对分类信息(例如,置信度值)进行平滑。

分类信息(例如,置信度值)的平滑在某些情况下导致可听失真,例如,在场景转变中执行平滑时。因此,可取决于情况(例如在场景转变时)禁用平滑。此外,如下文将更详细地描述,对于动态(非静态)音频内容,或根据控制输入或元数据,也可禁用平滑。

在一些实施方案中,经平滑的音乐置信度值145a、经平滑的语音置信度值145b和经平滑的效果置信度值145c可在编码之前进一步量化。此可在分别输出经量化的置信度值155a、155b、155c的相应量化器150a、150b、150c来完成。其中,不同的量化器可应用不同的量化,例如,使用不同的参数进行量化。

根据上文,方法400(或以下描述的方法600、700或900中的任一者)可进一步包括在多路复用/编码之前对分类信息(例如,置信度值)进行量化。

分类信息125的平滑可导致解码器处的后处理的连续性和稳定性的改进,并因此导致收听体验改进。对分类信息125进行量化可改进位流110的带宽效率。

如上文已经提及,在编码器105处确定分类信息125并将其作为位流110的部分提供到解码器115从计算能力的角度来看可为有利的。此外,这样做可通过将音频流中传输的置信度值设置为某些期望值来允许对解码器侧音频后处理的一些编码器侧控制。例如,通过使分类信息(至少部分地)依赖于编码器侧的用户输入可给予编码器侧用户(例如,内容创建者)对解码器侧音频后处理的控制。下文将描述允许对解码器侧音频后处理的额外编码器侧控制的一些示例实施方案。

图6以流程图形式示意性地示出编码音频内容的方法600的实例,方法600允许基于用户输入的解码器侧音频后处理的此编码器侧控制。方法600可由例如图1的编码器-解码器系统100中的编码器105执行。

步骤s610,接收用户输入。例如,用户可为内容创建者。用户输入可包含用于将音频内容标记为与特定内容类型相关的手动标记,或其可例如与手动置信度值相关。

步骤s620,至少部分地基于用户输入生成指示音频内容的内容类型的分类信息。例如,手动标记和/或手动置信度值可直接用作分类信息。如果音频内容手动标记为某一内容类型,那么所述特定内容类型的置信度值可设置为1(假设置信度值具有介于0与1之间的值),并且其它置信度值可设置为零。在此情况中,将绕过内容分析。在替代实施方案中,内容分析的输出可与用户输入一起使用以导出分类信息。例如,可基于在内容分析中生成的置信度值和手动置信度值来计算最终置信度值。这可通过对这些置信度值进行平均或任何其它合适的组合来完成。

步骤s630,将音频内容和分类信息编码到位流中。

最后,在步骤s640,输出位流。

可通过至少部分地依赖于与音频内容相关联的元数据在编码器侧做出内容分类决策而实现额外编码器侧控制。下文将描述此编码器侧处理的两个实例。将参考图7和图8描述第一实例。在第一实例中,音频内容作为音频节目的部分在音频内容的流(例如,线性连续流)中提供。音频内容的元数据至少包含音频内容(即,音频节目)的服务类型的指示。因而,服务类型也可被称为音频节目类型。服务类型的实例可包含音乐服务(例如,音乐流式服务或音乐广播等)或新闻(新闻广播)服务(例如,新闻声道的音频组件等)。服务类型指示可在帧基础上提供,或其对于音频流可为相同的(统一/静态的)。将参考图9和图10描述第二实例。在第二实例中,在帧基础上提供音频内容。每一文件可含有用于其相应音频内容的元数据。元数据可包含文件(的音频内容)的文件内容类型。元数据可进一步包含标志、标记、标签等。文件内容类型的实例可包含文件是音乐文件的指示、文件是新闻/新闻广播文件(新闻剪辑)的指示、文件包含动态(非静态)内容(例如,在口语场景和音乐/歌曲场景之间频繁转变的音乐类型电影)的指示。对于整个文件,文件内容类型可为相同的(统一/静态),或可在文件的部分之间改变。第二实例中的处理可为基于文件的。通过指示文件内容类型的元数据对文件进行“标记”可被称为有助于编码器导出分类信息(除了向编码器侧提供对解码器侧的音频后处理的额外控制之外)。

现在参考图7,其以流程图形式示出对作为音频节目的部分的音频内容流中提供的音频内容进行编码的方法700。此方法700在导出分类信息时考虑音频内容的元数据。方法700可由例如图1的编码器-解码器系统100中的编码器105执行。

步骤s710,接收服务类型指示。如上文所提及,服务类型指示指示音频内容的服务类型。

步骤s720,至少部分地基于服务类型指示执行音频内容的内容分析。下文将参考图8描述此内容分析的非限制性实例。

步骤s730,基于内容分析(的结果)生成指示音频内容的内容类型的分类信息。

步骤s740,将音频内容和分类信息编码到位流中。

最后,在步骤s750,输出位流。

图8示意性地示出方法700的步骤s720的音频内容的内容分析的实例。图8的上行810涉及音乐服务的实例,即,指示音频内容具有服务类型“音乐服务”的服务类型指示。在此情况中,可将“音乐”的置信度值设置为1,而将其它内容类型(例如,“语音”、“效果”以及可能的“人群噪声”)的置信度值设置为0。换句话说,内容类型“音乐”可硬编码为分类信息。因而,方法700可包括基于服务类型指示来确定音频内容的服务类型是否是音乐服务。接着,响应于确定音频内容的服务类型是音乐服务,可生成指示音频内容的内容类型是音乐内容的分类信息。

图8的下行820涉及新闻服务的实例,即,指示音频内容具有服务类型“新闻服务”(或新闻广播服务,新闻声道)的服务类型指示。在此情况中,可调适内容分析中使用的计算,使得存在对语音的明确偏好和对例如音乐的较小偏好(例如,由内容分析得到的语音内容(内容类型“语音”)的置信度值可增加,而音乐内容(内容类型“音乐”)以及可能的任何剩余内容类型的置信度值可减少)。这意味着,例如,只有在相当确定内容类型是音乐的情况下才指示内容类型“音乐”。换句话说,通过调适计算来减少内容类型“音乐”的错误指示的机会。因而,方法700可包括基于服务类型指示来确定音频内容的服务类型是否是新闻广播服务。接着,响应于确定音频内容的服务类型是新闻广播服务,可调适步骤s720的内容分析以具有较高可能性指示所述音频内容是语音内容。此外,可调适步骤s720的内容分析以具有较低可能性指示音频内容具有任何其它内容类型。

在一些实施方案中,音频内容的一或多个置信度值可由用户输入(例如,由内容创建者)直接提供或作为元数据的部分提供。接着,其可取决于是否考虑这些置信度值的服务类型指示。例如,如果(且仅当)音频内容的服务类型具有某一类型,那么由用户输入或元数据提供的置信度值可用于编码为分类信息。在一些替代实施方案中,由用户输入或元数据提供的置信度值可用作分类信息的部分,除非音频内容的服务类型具有某一类型。例如,可使用由用户输入或元数据提供的置信度值,除非服务类型指示指示音频内容的服务类型是音乐服务。在后者情况下,可将用于音乐内容的置信度值设置为1,而与用户输入或元数据提供的置信度值无关。

现在参考图9,其以流程图形式示出编码基于文件提供的音频内容的方法900。因此,可基于文件执行方法900。此方法900在导出分类信息时考虑音频内容的文件元数据。方法900可由例如图1的编码器-解码器系统100中的编码器105执行。

步骤s910,至少部分地基于音频内容的(文件)元数据执行音频内容的内容分析。例如,元数据可包含指示文件的文件内容类型的文件内容类型指示。接着,内容分析可至少部分地基于文件内容类型指示。下文将参考图10描述至少部分地基于文件的内容类型的此内容分析的非限制性实例。

步骤s920,基于内容分析(的结果)生成指示音频内容的内容类型的分类信息。

步骤s930,将音频内容和分类信息编码到位流中。

最后,在步骤s940,输出位流。

图10示意性地示出方法900的步骤s910的音频内容的内容分析的实例。图10的上行1010涉及音乐文件的实例,即,指示文件内容具有文件内容类型“音乐”的文件内容类型指示。在此情况中,内容类型“音乐”可硬编码为分类信息。此外,对于整个文件,分类信息可为统一的(静态的)。因此,方法900可进一步包括基于文件内容类型指示来确定文件的文件内容类型是否是音乐文件。接着,响应于确定文件的文件内容类型是音乐文件,可生成指示音频内容的内容类型是音乐内容的分类信息。

图10的中间行1020涉及新闻文件的实例,即,指示文件内容具有文件内容类型“新闻”的文件内容类型指示。在此情况中,方法900可进一步包括基于文件内容类型指示来确定文件的文件内容类型是否是新闻广播文件。接着,响应于确定文件的文件内容类型是新闻广播文件,可调适内容分析以具有较高可能性指示音频内容是语音内容。此可通过调适所述内容分析的一或多个计算(计算算法)以增加所述内容分析中的语音内容的可能性/置信度及/或通过调适所述一或多个计算以降低语音内容以外的内容类型的可能性/置信度来实现。同样,对于整个文件,分类信息可为统一的(静态的)。

图10的下行1030涉及动态(非静态)文件的实例(例如,在口语场景和音乐/歌曲场景之间频繁转变的音乐类型电影),即,指示文件内容具有文件内容类型“动态”的文件内容类型指示。在此情况中,方法900可进一步包括基于文件内容类型指示来确定文件的文件内容类型是否是动态内容(即,动态文件内容)。接着,响应于确定文件的文件内容类型是动态内容(即,动态文件内容),可调适内容分析以允许不同内容类型之间的较高转变率。例如,可允许所述内容类型在内容类型之间(例如,在音乐和非音乐之间)更频繁地转变(即,比稳态更频繁地转变)。因此,可允许分类信息在例如文件的音乐部分和非音乐部分之间切换。与图10的前两行1010和1020不同,这意味着分类信息对于整个文件没有保持统一(静态)。

也应当理解,动态内容(即,动态文件内容)可在文件中的不同内容类型的部分之间具有激剧过渡。例如,在音乐部分和非音乐部分之间可有激剧过渡。在此类情况中,将时间平滑应用到分类信息(例如,应用于置信度值)可没有意义。因此,在一些实施方案中,对于动态内容(即,动态文件内容),可禁用分类信息的平滑(时间平滑)。

接着,将描述与从包含音频内容和所述音频内容的分类信息的位流解码音频内容相关的实施例和实施方案。应当理解,分类信息指示音频内容的内容分类(关于其内容类型)。也应当理解,内容分类可基于已经在编码器侧执行的内容分析。

图11以流程图形式示出从位流解码音频内容的通用方法1100。方法1100可由例如图1的编码器-解码器系统100中的解码器115执行。

步骤s1110,例如通过无线或有线传输或经由存储位流的存储媒体接收位流。

步骤s1120,从位流解码音频内容和分类信息。

步骤s1130,基于在步骤s1120获得的分类信息选择用于对经解码音频内容执行(音频)后处理的后处理模式。在一些实施方案中,选择后处理模式可进一步基于用户输入。

另外,方法1100可进一步包含执行音频内容的内容分析以确定一或多个额外置信度值(例如,对于编码器侧尚未考虑的内容类型)。此内容分析可以与上文参考方法400中的步骤s410描述的相同的方式进行。接着,选择后处理模式可进一步基于一或多个额外置信度值。例如,如果解码器包括(传统)编码器尚未考虑的内容类型的检测器,那么解码器可计算此内容类型的置信度值,并将此置信度值与分类信息中传输的任何置信度值一起使用,以用于选择后处理模式。

如上文在图1的上下文中所描述,可使用后处理算法来执行后处理,例如,实施(智能/动态)均衡器、(自适应)虚拟化器、环绕处理器、对话增强器、上混频器或交叉渐变器的相应算法。因此,选择用于执行后处理的模式可被称为对应于确定(例如,计算)用于后处理的相应过程/模块/算法的一或多个控制权重(导向权重、算法导向权重、算法控制权重)。

对应方法1200由图12的流程图示出。同样,此方法1200可由例如图1的编码器-解码器系统100中的解码器115执行。

步骤s1210步骤s1220分别与方法1100的步骤s1110和步骤s1120相同。

步骤s1230,基于在步骤s1220获得的分类信息,确定(例如,计算)用于经解码音频内容的后处理的一或多个控制权重。

传输置信度值而不是控制权重(导向权重),即,将权重计算模块留在解码器中而不是将其移动到编码器,不仅能够节省解码器处的计算资源,而且其还能够实现可定制且灵活的解码器,其中可个性化权重计算。例如,权重计算可取决于装置类型和/或用户的个人偏好。这与常规方法相反,其中,解码器从编码器接收关于将对经解码音频内容执行哪个音频后处理的特定指令。

即,音频后处理的要求可取决于重放经解码音频内容的装置的装置类型。例如,仅具有两个扬声器的移动装置(例如,移动电话)的扬声器对经解码音频内容的重放可需要与具有五个或五个以上扬声器的条形音箱装置对经解码音频内容的重放不同的音频后处理。因此,在一些实施方案中,控制权重的计算取决于执行解码的装置的装置类型。换句话说,计算可为端点特定的,或个性化的。例如,解码器侧可实施用于后处理的一组端点特定过程/模块/算法,并且可以端点特定方式基于置信度值来确定用于这些过程/模块/算法的参数(控制权重)。

而且,不同的用户可对音频后处理有不同的偏好。例如,语音通常不是虚拟化的,但是可基于用户的偏好来决定虚拟化重语音的音频内容(即,如果用户希望,那么虚拟化可应用于语音)。如另一实例,对于在个人计算机处的音频重放,通常不存在立体声加宽、上混频和虚拟化。然而,取决于用户的偏好,在此情况下可应用立体声加宽、上混频和/或虚拟化(即,如果用户希望,那么可针对pc用户应用立体声加宽、上混频和/或虚拟化)。因此,在一些实施方案中,控制权重的计算进一步基于用户偏好或用户输入(例如,指示用户偏好的用户输入)。因而,用户输入可覆盖或部分地覆盖基于分类信息的计算。

如果分类信息包括每一者与相应内容类型相关联且给出音频内容具有相应内容类型的可能性的指示的置信度值(置信度分数),如上文所描述,那么可基于这些置信度值来计算控制权重。下文将描述此类计算的非限制性实例。

另外,方法1200可进一步包含执行音频内容的内容分析以确定一或多个额外置信度值(例如,对于编码器侧尚未考虑的内容类型)。此内容分析可以与上文参考方法400中的步骤s410描述的相同的方式进行。接着,控制权重模式的计算可进一步基于一或多个额外置信度值。例如,如果解码器包括(传统)编码器尚未考虑的内容类型的检测器,那么解码器可计算此内容类型的置信度值,并将此置信度值与分类信息中传输的任何置信度值一起使用,以用于计算控制权重。

如上文所提及,可在双端编码器-解码器系统中的编码器侧对置信度值进行平滑,以准确且稳定地反映被编码的内容。可替换地或额外地,当确定控制权重(算法导向权重)时,解码器侧的权重计算可提供另外的平滑。借此,可确保每一后处理算法具有适当水平的连续性,以避免可听失真。例如,虚拟化器可希望缓慢改变以避免空间图像中不希望的变化,而对话增强器可希望快速改变以确保对话帧被响应,但非对话帧最小化任何错误的对话增强。因此,方法1200可进一步包括对控制权重进行平滑(时间平滑)的步骤。

平滑可取决于执行解码的装置的装置类型。例如,在用于移动装置(例如,移动电话)的虚拟化器控制权重与用于电视机或条形音箱装置的虚拟化器控制权重之间可存在不同的平滑。其中,平滑可关于确定平滑的一组平滑系数(例如,平滑的时间常数)而不同。

此外,平滑还可取决于经平滑的特定控制权重。即,平滑可在至少两个控制权重之间不同。例如,对于对话增强器控制权重可没有平滑或很少平滑及/或对于虚拟化器控制权重可存在较强的平滑。

最后,需要注意的是,根据情况,可禁用平滑。如上文所提及,平滑对于被标记为动态(非静态)的音频内容或在场景转变时的音频内容可为适得其反的。此外,可根据控制输入和/或元数据禁用平滑。

改进控制权重(且借此改进音频后处理)的连续性/稳定性的另一种方法是将非线性映射φ应用到控制权重。控制权重的值可在从0到1的范围内。非线性映射φ可为映射φ:[0,1]→[0,1]。优选地,非线性映射φ将接近于控制权重的值范围(即,域范围,例如[0,1])的边界的控制值的值映射到接近于映射值的值范围(即,图像范围,例如[0,1])的相应边界。即,φ可将值0+ε(ε<<1)映射较接近0(即,φ(0+ε)<(0+ε)),且可将值1-ε映射较接近1(即,φ(1-ε)>(1-ε))。此非线性映射φ的实例是s形函数。

图13示意性地示出根据上述考虑操作的权重计算模块170的实例。应理解,下文描述的权重计算模块170可例如由计算装置的处理器实施。

在没有预期限制的情况下,此实例中的权重计算模块170确定用于智能/动态均衡器的控制权重和用于虚拟化器的控制权重。应当理解,其它控制权重也可由权重计算模块170计算。

权重计算模块170接收置信度值(即,分类信息125)作为输入。基于置信度值,在框1310计算智能/动态均衡器的控制权重。由于均衡可更改语音的音色并且因此通常不希望用于语音,在一些实现中,可计算用于智能/动态均衡器的控制权重(均衡器控制权重),使得如果分类信息(例如,置信度值)指示经解码音频内容的内容类型是语音或可能是语音(例如,如果语音置信度值高于某个阈值),那么禁用均衡。任选地,可在框1330对均衡器控制权重进行平滑。平滑可取决于均衡器控制权重平滑系数1335,其可特定于均衡器控制权重的平滑。最终,由权重计算模块170输出(经平滑的)均衡器控制权重175a。

在框1320,置信度值还用于计算虚拟化器的控制权重(虚拟化器控制权重)。由于均衡可更改语音的音色并且因此通常不希望用于音乐,在一些实现中,可计算用于虚拟化器的控制权重,使得如果分类信息(例如,置信度值)指示经解码音频内容的内容类型是音乐或可能是音乐(例如,如果音乐置信度值高于某个阈值),那么禁用虚拟化(扬声器虚拟化)。而且,可计算用于虚拟化器的控制权重,使得虚拟化器的系数在直通虚拟化(没处理)和完全虚拟化之间缩放。作为实例,虚拟化器的控制权重可基于音乐置信度值music_confidence、语音置信度值speech_confidence和效果置信度值effects_confidence经由下式来计算:

1-music_confidence*{1-max[effects_confidence,speech_confidence]^2}。

(方程式1)

任选地,可在框1340对虚拟化器控制权重进行平滑。平滑可取决于虚拟化器控制权重平滑系数1345,其可特定于虚拟化器控制权重的平滑。

进一步任选地,在框1350处,(经平滑的)虚拟化器控制权重可例如通过s形函数放大,以改进虚拟化器控制权重的稳定性/连续性。借此,可减少后处理音频内容的呈现表示中的可听伪影。放大可根据上述非线性映射进行。

最终,由权重计算模块170输出(经平滑及/或放大的)虚拟化器控制权重175b。

置信度值还可用于计算对话增强器的控制权重(对话增强器控制权重;图中未展示)。对话增强器可在频域中检测含有对话的时频块。然后可选择性地增强这些时频块,借此增强对话。由于对话增强器的主要目的是增强对话,并且将对话增强应用到无对话内容充其量是计算资源的浪费,因此可计算对话增强器控制权重,使得如果(且仅当)分类信息指示音频内容的内容类型是语音或可能是语音,那么启用由对话增强器进行的对话增强。例如,如果语音的置信度值高于给定阈值,那么可为此情况。类似地,对于均衡器控制权重和虚拟化器控制权重,对话增强器控制权重也可经受平滑和/或放大。

此外,置信度值可用于计算环绕处理器的控制权重(环绕处理器控制权重;图中未展示)、上混频器的控制权重和/或交叉渐变器的控制权重。

图14以流程图形式示出根据本公开的实施例的在用于由具有两个扬声器的移动装置(例如,移动电话)再现的双声道(例如立体声)音频内容的特殊情况中从位流解码音频内容的方法1400。应当理解,位流包含分类信息或双声道音频内容,并且分类信息指示双声道音频内容的内容分类(例如,关于内容类型)。方法1400可由具有两个扬声器的移动装置的解码器执行。此解码器可具有与图1的编码器-解码器系统100中的解码器115相同的基本配置,例如,具有权重计算和后处理的特定实施方案。

步骤s1410,接收ac-4位流。

步骤s1420,从位流解码/解多路复用双声道音频内容和分类信息。

步骤s1430,将在步骤s1420解码的双声道音频内容上混频到经上混频的5.1声道音频内容。

步骤s1440,将虚拟化器应用到经上混频的5.1声道音频内容,以用于针对双声道扬声器阵列的5.1虚拟化。虚拟化器在相应控制权重的控制下操作。基于分类信息(例如,置信度值)计算用于虚拟化器的控制权重。此可例如以上文参考图13描述的方式来完成。

步骤s1450,将交叉渐变器应用到双声道音频内容和虚拟化的经上混频的5.1声道音频内容。交叉渐变器在相应控制权重的控制下操作。基于分类信息(例如,置信度值)计算用于交叉渐变器的控制权重。

最后,在步骤s1460,将交叉渐变器的输出路由到双声道扬声器阵列。

图15示意性地示出根据本公开的实施例的可执行方法1400的双扬声器移动装置1505的解码器1500的实例。应理解,下文描述的解码器1500的模块可例如由计算装置的处理器实施。

解码器1500接收位流110(例如,ac-4位流),其随后由ac-4(移动)解码器模块1510解码/解多路复用。ac-4(移动)解码器模块1510输出经解码双声道音频内容1515和经解码分类信息125。经解码分类信息125经提供到虚拟化器交叉渐变权重计算模块1570,其基于分类信息125(例如,置信度值)来计算交叉渐变控制权重1575。交叉渐变控制权重1575可为确定由交叉渐变模块1540组合的两个信号的相对权重的参数。经解码双声道音频内容1515由上混频模块1520从2.0声道上混频到5.1声道,上混频模块1520输出经上混频的5.1声道音频内容1625。接着,由虚拟化模块(虚拟化器)1530将立体声扬声器的5.1虚拟化应用到经上混频的5.1声道音频内容1525。虚拟化模块输出虚拟化的经上混频的5.1声道音频内容1535,其随后由交叉渐变模块1540与原始经解码双声道音频内容组合。交叉渐变模块1540在交叉渐变控制权重1575的控制下操作,并最终输出经后处理的双声道音频内容102,以用于路由到移动装置1505的扬声器。

尽管在图中未展示,但解码器1500还可包含用于基于分类信息125(例如,置信度值)计算虚拟化模块1530的虚拟化器控制权重的模块。此外,解码器1500可包含用于基于分类信息125(例如,置信度值)计算上混频模块1520的上混频控制权重的模块。

图16以流程图形式示出根据本公开的实施例的在用于由例如条形音箱装置的五个(或更多)扬声器再现的双声道(例如立体声)音频内容的特殊情况中从位流解码音频内容的方法1600。再次应理解,位流包含分类信息或双声道音频内容,并且分类信息指示双声道音频内容的内容分类(例如,关于内容类型)。方法1600可由具有五个(或更多)扬声器阵列的装置(例如,条形音箱装置)的解码器执行。此解码器可具有与图1的编码器-解码器系统100中的解码器115相同的基本配置,例如,具有权重计算和后处理的特定实施方案。

步骤s1610,接收ac-4位流。

步骤s1620,从位流解码/解多路复用双声道音频内容和分类信息。

步骤s1630,将上混频器应用到双声道音频内容以用于将双声道音频内容上混频到经上混频的5.1声道音频内容。上混频器在相应控制权重的控制下操作。基于分类信息(例如,置信度值)计算用于上混频器的控制权重。上混频器的控制权重可与例如上混频权重相关。

步骤s1640,将虚拟化器应用到经上混频的5.1声道音频内容,以用于针对五声道扬声器阵列的5.1虚拟化。虚拟化器在相应控制权重的控制下操作。基于分类信息(例如,置信度值)计算用于虚拟化器的控制权重。此可例如以上文参考图13描述的方式来完成。

最后,在步骤s1650,将虚拟化器的输出路由到五声道扬声器阵列。

图17示意性地示出根据本公开的实施例的可执行方法1600的条形音箱装置1705的解码器1700的实例。应理解,下文描述的解码器1700的模块可例如由计算装置的处理器实施。

解码器1700接收位流110(例如,ac-4位流),其随后由ac-4(条形音箱)解码器模块1710解码/解多路复用。ac-4(条形音箱)解码器模块1710输出经解码双声道音频内容1715和经解码分类信息125。经解码分类信息125经提供到上混频权重计算模块1770,其基于分类信息125(例如,置信度值)来计算上混频控制权重1775。上混频控制权重1775可例如为上混频权重。经解码双声道音频内容1715由上混频模块1720从2.0声道上混频到5.1声道,上混频模块1720输出经上混频的5.1声道音频内容。上混频模块1720在上混频控制权重1775的控制下操作。例如,可对音乐和语音执行不同的上混频(具有不同的上混频控制权重)。虚拟化模块(虚拟化器)1730接着将用于五声道扬声器阵列的5.1虚拟化应用到经上混频的5.1声道音频内容1725,并且输出虚拟化的经上混频的5.1声道音频内容。虚拟化的经上混频的5.1声道音频内容最终输出为经后处理的5.1声道音频内容102,以用于路由到条形音箱装置1705的扬声器。

尽管在图中未展示,但解码器1700还可包含用于基于分类信息125(例如,置信度值)计算虚拟化模块1730的虚拟化器控制权重的模块,例如,以上文参考图13描述的方式。

值得注意的是,方法1400和1600以及对应解码器1500和1700是用于端点特定音频后处理的实例。

可根据下列列举示例性实施例(eee)了解本发明的各种方面:

1.一种编码音频内容的方法,所述方法包括:

执行所述音频内容的内容分析;

基于所述内容分析生成指示所述音频内容的内容类型的分类信息;

在位流中编码所述音频内容和所述分类信息;及

输出所述位流。

2.根据eee1所述的方法,其中所述内容分析至少部分地基于所述音频内容的元数据。

3.一种编码音频内容的方法,所述方法包括:

接收与所述音频内容的内容类型相关的用户输入;

基于所述用户输入生成指示所述音频内容的所述内容类型的分类信息;

在位流中编码所述音频内容和所述分类信息;及

输出所述位流。

4.根据eee3所述的方法,其中所述用户输入包含以下中的一或多者:

标记,其指示所述音频内容具有给定内容类型;及

一或多个置信度值,每一置信度值与相应内容类型相关联且给出所述音频内容具有所述相应内容类型的可能性的指示。

5.一种编码音频内容的方法,其中所述音频内容作为音频节目的部分在音频内容流中提供,所述方法包括:

接收指示所述音频内容的服务类型的服务类型指示;

至少部分地基于所述服务类型指示执行所述音频内容的内容分析;

基于所述内容分析生成指示所述音频内容的内容类型的分类信息;

在位流中编码所述音频内容和所述分类信息;及

输出所述位流。

6.根据eee5所述的方法,其进一步包括:

基于所述服务类型指示来确定所述音频内容的所述服务类型是否是音乐服务;及

响应于所述确定所述音频内容的所述服务类型是音乐服务,生成指示所述音频内容的所述内容类型是音乐内容的所述分类信息。

7.根据eee5或6所述的方法,其进一步包括:

基于所述服务类型指示来确定所述音频内容的所述服务类型是否是新闻广播服务;及

响应于所述确定所述音频内容的所述服务类型是新闻广播服务,将所述内容分析调适为具有较高可能性以指示所述音频内容是语音内容。

8.根据eee5到7中任一项所述的方法,其中所述服务类型指示在逐帧基础上提供。

9.一种编码音频内容的方法,其中基于文件提供所述音频内容且其中所述文件包含用于其相应音频内容的元数据,所述方法包括:

至少部分地基于所述音频内容的所述元数据执行所述音频内容的内容分析;

基于所述内容分析生成指示所述音频内容的内容类型的分类信息;

在位流中编码所述音频内容和所述分类信息;及

输出所述位流。

10.根据eee9所述的方法,

其中所述元数据包含指示所述文件的文件内容类型的文件内容类型指示;且

其中所述内容分析至少部分地基于所述文件内容类型指示。

11.根据eee10所述的方法,其进一步包括:

基于所述文件内容类型指示来确定所述文件的所述文件内容类型是否是音乐文件;及

响应于所述确定所述文件的所述文件内容类型是音乐文件,生成指示所述音频内容的所述内容类型是音乐内容的所述分类信息。

12.根据eee10或11所述的方法,其进一步包括:

基于所述文件内容类型指示来确定所述文件的所述文件内容类型是否是新闻广播文件;及

响应于所述确定所述文件的所述文件内容类型是新闻广播文件,将所述内容分析调适为具有较高可能性以指示所述音频内容是语音内容。

13.根据eee10到12中任一项所述的方法,其进一步包括:

基于所述文件内容类型指示来确定所述文件的所述文件内容类型是否是动态的;及

响应于所述确定所述文件的所述文件内容类型是动态内容,将所述内容分析调适为允许不同内容类型之间的较高转变率。

14.根据eee1到13中任一项所述的方法,其中所述分类信息包括一或多个置信度值,每一置信度值与相应内容类型相关联且给出所述音频内容具有所述相应内容类型的可能性的指示。

15.根据eee1到14中任一项所述的方法,其中所述内容类型包含音乐内容、语音内容或效果内容中的一或多者。

16.根据eee1到15中任一项所述的方法,其进一步包括:

将所述音频内容中的场景转变的指示编码到所述位流中。

17.根据eee1到16中任一项所述的方法,其进一步包括:

在编码前对所述分类信息进行平滑。

18.根据eee1到17中任一项所述的方法,其进一步包括:

在编码前对所述分类信息进行量化。

19.根据eee1到18中任一项所述的方法,其进一步包括:

将所述分类信息编码到所述位流的数据包中的特定数据字段中。

20.一种从包含音频内容和所述音频内容的分类信息的位流解码音频内容的方法,其中所述分类信息指示所述音频内容的内容分类,所述方法包括:

接收所述位流;

解码所述音频内容和所述分类信息;及

基于所述分类信息选择用于执行所述经解码音频内容的后处理的后处理模式。

21.根据eee20所述的方法,其中所述后处理模式的所述选择进一步基于用户输入。

22.一种从包含音频内容和所述音频内容的分类信息的位流解码音频内容的方法,其中所述分类信息指示所述音频内容的内容分类,所述方法包括:

接收所述位流;

解码所述音频内容和所述分类信息;及

基于所述分类信息计算用于所述经解码音频内容的后处理的一或多个控制权重。

23.根据eee22所述的方法,

其中所述分类信息包括一或多个置信度值,每一置信度值与相应内容类型相关联且给出所述音频内容具有所述相应内容类型的可能性的指示;且

其中基于所述置信度值来计算所述控制权重。

24.根据eee22或23所述的方法,其中所述控制权重是用于所述经解码音频内容的后处理的相应模块的控制权重。

25.根据eee22到24中任一项所述的方法,其中所述控制权重包含用于均衡器的控制权重、用于虚拟化器的控制权重、用于环绕处理器的控制权重和用于对话增强器的控制权重中的一或多者。

26.根据eee22到25中任一项所述的方法,其中所述控制权重的所述计算取决于执行所述解码的装置的装置类型。

27.根据eee22到26中任一项所述的方法,其中所述控制权重的所述计算进一步基于用户输入。

28.根据eee22到27中任一项所述的方法,其中所述控制权重的所述计算进一步基于所述音频内容的声道的数目。

29.根据eee22到28中任一项所述的方法,

其中所述控制权重包含用于虚拟化器的控制权重;且

其中计算用于所述虚拟化器的所述控制权重,使得如果所述分类信息指示所述音频内容的所述内容类型是音乐或可能是音乐,那么禁用所述虚拟化器。

30.根据eee22到29中任一项所述的方法,

其中所述控制权重包含用于虚拟化器的控制权重;且

其中计算用于所述虚拟化器的所述控制权重,使得所述虚拟化器的系数在直通虚拟化和完全虚拟化之间缩放。

31.根据eee22到30中任一项所述的方法,

其中所述控制权重包含用于对话增强器的控制权重;且

其中计算用于所述对话增强器的所述控制权重,使得如果所述分类信息指示所述音频内容的所述内容类型是语音或可能是语音,那么增强由所述对话增强器进行的对话增强。

32.根据eee22到31中任一项所述的方法,

其中所述控制权重包含用于动态均衡器的控制权重;且

其中计算用于所述动态均衡器的所述控制权重,使得如果所述分类信息指示所述音频内容的所述内容类型是语音或可能是语音,那么禁用所述动态均衡器。

33.根据eee22到32中任一项所述的方法,其进一步包括对所述控制权重进行平滑。

34.根据eee33所述的方法,其中所述控制权重的所述平滑取决于经平滑的所述特定控制权重。

35.根据eee33或34所述的方法,其中所述控制权重的所述平滑取决于执行所述解码的装置的装置类型。

36.根据eee33到35中任一项所述的方法,其进一步包括将非线性映射函数应用到所述控制权重以增加所述控制权重的连续性。

37.一种从包含双声道音频内容和所述双声道音频内容的分类信息的位流解码音频内容的方法,其中所述分类信息指示所述双声道音频内容的内容分类,所述方法包括:

接收所述ac-4位流;

解码所述双声道音频内容和所述分类信息;

将所述双声道音频内容上混频到经上混频的5.1声道音频内容;

将虚拟化器应用到所述经上混频的5.1声道音频内容,以用于针对双声道扬声器阵列的5.1虚拟化;

将交叉渐变器应用到所述双声道音频内容和所述虚拟化的经上混频的5.1声道音频内容;及

将所述交叉渐变器的输出路由到所述双声道扬声器阵列,

其中所述方法进一步包括基于所述分类信息计算用于所述虚拟化器及所述交叉渐变器的相应控制权重。

38.一种从包含双声道音频内容和所述双声道音频内容的分类信息的位流解码音频内容的方法,其中所述分类信息指示所述双声道音频内容的内容分类,所述方法包括:

接收所述位流;

解码所述双声道音频内容和所述分类信息;

将上混频器应用到所述双声道音频内容以用于将所述双声道音频内容上混频到经上混频的5.1声道音频内容;

将虚拟化器应用到所述经上混频的5.1声道音频内容,以用于针对五声道扬声器阵列的5.1虚拟化;及

将所述虚拟化器的输出路由到所述五声道扬声器阵列,

其中所述方法进一步包括基于所述分类信息计算用于所述上混频器及所述虚拟化器的相应控制权重。

39.一种用于编码音频内容的编码器,所述编码器包括处理器,所述处理器耦合到存储用于所述处理器的指令的存储器,其中所述处理器经调适以执行根据eee1到19中任一项所述的方法。

40.一种用于解码音频内容的解码器,所述解码器包括处理器,所述处理器耦合到存储用于所述处理器的指令的存储器,其中所述处理器经调适以执行根据eee20到38中任一项所述的方法。

41.一种计算机程序,其包含指令,所述指令用于使执行所述指令的处理器执行根据eee1到38中任一项所述的方法。

42.一种计算机可读存储媒体,其存储根据eee41所述的计算机程序。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1