内容自适应的环绕声虚拟化的制作方法

文档序号:11157890阅读:306来源:国知局
内容自适应的环绕声虚拟化的制造方法与工艺

本文中公开的示例实施例总体上涉及环绕声虚拟化,并且更具体地,涉及用于内容自适应的环绕声虚拟化的方法和系统。



背景技术:

在传统音频播放系统中,多声道环绕声音频需要由单独的音频信道中的信号驱动的多个扬声器,以产生“环绕声”聆听体验。例如,5声道音频需要至少五个扬声器用于左声道、中央声道、右声道、左环绕声道和右环绕声道。然而,在诸如个人计算机、耳机、或者头戴式耳机之类的个人播放环境中通常仅采用两个扬声器。为了用较少扬声器实现环绕声聆听体验,可以在音频播放端设置虚拟器,以产生对不同声道的生源的感知。

贯穿本公开内容,术语“虚拟器”(或者“虚拟器系统)指的是如下的系统,该系统被耦合为并且被配置为接收N个输入音频信号的集合(指示来自声源集合的声音),并且生成M个输出音频信号的集合,M个输出音频信号的集合用于由位于与声源的位置不同的输出位置处的M个扬声器的集合(例如,耳机、头戴式耳机或者喇叭)进行重现,其中N和M中的每个是大于一的数。N可以等于或者不同于M。虚拟器生成(或者尝试生成)输出音频信号,从而当输出音频信号被重现时,聆听者感知到所重现的信号像是从声源而不是从物理扬声器的输出位置处被发出(声源位置和输出位置是相对聆听者而言的)。

这样的虚拟器的一个典型示例被设计为对5声道输入音频信号进行虚拟化并且驱动两个物理扬声器发出聆听者感知为来自真实的5声道声源的声音,并且在不需要传统音频播放系统中所要求的大量扬声 器的情况下为聆听者创建虚拟环绕声体验。一般而言,如果在播放端配置了虚拟器,该虚拟器将完全工作以对所有输入音频内容执行虚拟化,从而产生环绕声效果。



技术实现要素:

本文中公开的示例实施例提出了一种用于内容自适应的环绕声虚拟化的方案。

在一个方面,本文中公开的示例实施例提供了一种虚拟化环绕声的方法。该方法包括接收输入音频信号的集合,输入音频信号中的每个输入音频信号指示来自不同声源中的一个声源的声音;并且确定输入音频信号的集合属于预定义的音频内容类别的概率。该方法还包括基于所确定的概率来确定虚拟量。该虚拟量指示输入音频信号的集合被虚拟化为环绕声的程度。该方法进一步包括基于所确定的虚拟量来对集合中的输入音频信号配对(pair)执行环绕声虚拟化,并且基于经虚拟化的输入音频信号和集合中的其他输入音频信号,生成输出音频信号。这方面的实施例还包括相应的计算机程序产品。

在另一个方面,本文中公开的示例实施例提供了一种用于虚拟化环绕声的系统。该系统包括音频接收单元,被配置为接收输入音频信号的集合,输入音频信号中的每个输入音频信号指示来自不同声源中的一个声源的声音;以及内容置信度确定单元,被配置为确定输入音频信号的集合属于预定义的音频内容类别的概率。该系统还包括虚拟量确定单元,被配置为基于所确定的概率来确定虚拟量。该虚拟量指示输入音频信号的集合被虚拟化为环绕声的程度。该系统进一步包括虚拟器子系统,被配置为基于所确定的虚拟量,对集合中的输入音频信号配对执行环绕声虚拟化,并且被配置为基于经虚拟化的输入音频信号和集合中的其他输入音频信号,生成输出音频信号。

通过下文描述将会理解,根据本文中公开的示例实施例,以连续的方式,经由基于输入音频的内容类型确定的虚拟量,以连续的方式来适应性地控制对输入音频的环绕声虚拟化。通过这种方式,取决于 所接收的音频内容的不同类型,变化环绕声虚拟化的程度,以避免环绕声效果对于某些类型的音频内容不适合的情况。本文中公开的示例实施例所带来的其他益处将通过下文描述而清楚。

附图说明

通过参考附图阅读下文的详细描述,本文中公开的示例实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例而非限制性的方式示出了本文中公开的若干示例实施例,其中:

图1是常规环绕声虚拟器系统的框图;

图2是根据本文中公开的一个示例实施例的环绕声虚拟器系统的框图;

图3是根据本文中公开的一个示例实施例的图2的系统中的虚拟器子系统的框图;

图4是根据本文中公开的另一个示例实施例的图2的系统中的虚拟器子系统的框图;

图5是根据本文中公开的又一个示例实施例的图2的系统中的虚拟器子系统的框图;

图6示出了根据本文中公开的一个示例实施例的针对示例输入音频片段的置信度得分和虚拟量的示意性曲线图;

图7是根据本文中公开的一个示例实施例的虚拟化环绕声的方法的流程图;以及

图8是适于实现本文中公开的示例实施例的示例计算机系统的框图。

在各个附图中,相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考附图中示出的若干示例实施例来描述本文中公开的示例实施例的原理。应当理解,描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本文中公开的示例实施例,而并非 以任何方式限制本文中公开的主题的范围。

在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。

在大多数典型环绕声虚拟器系统中,响应于多声道输入音频信号的集合,为位于输出位置的至少两个物理扬声器生成输出信号。图1描绘了常规环绕声虚拟器系统100的框图。如所示出的,在这种配置中,5声道音频信号被用作输入,包括指示来自中央前部声源的声音的中央(C)声道信号、指示来自左前部声源的声音的左(L)声道信号、指示来自右前部声源的声音的右(R)声道信号、指示来自左后部声源的声音的左环绕(LS)声道信号、以及指示来自右后部声源的声音的右环绕(RS)声道信号。

系统100包括虚拟化单元110,用于生成虚拟左环绕输出和虚拟右环绕输出(LS’和RS’),以便虚拟化出聆听者感知为来自LS和RS声源的声音。系统100还通过在放大器120中利用增益G来对中央信号C进行放大、来生成幻象中央声道信号。放大器120的经放大的输出与输入信号L和左环绕输出LS’在相加元件1301中被组合在一起,以生成左输出信号L’,并且经放大的输出还与输入信号R和右环绕输出RS’在相加元件1302中被组合在一起,以生成右输出信号R’。输出信号L’和R’可以由两个物理扬声器分别播放,驱动物理扬声器发出如下的声音,聆听者感知到该声音从输入音频信号的五个声源出发出。

尽管虚拟器可以产生环绕声效果并且为聆听者提供影院般的体验,虚拟器却不适用于一些类型的音频内容的重现。一般而言,对于充满来自各种声源方向的背景声、语音和其他声音的电影内容而言,虚拟器可以通常仅需要两个扬声器就给出愉悦的环绕声效果。然而,对于像纯音乐的其他音频内容,聆听者可能期望关闭虚拟器,因为环 绕声虚拟化可能破坏音乐混音师的艺术意图并且经虚拟化的音乐音频的声像可能被掩蔽或者是模糊的。因此,期望取决于音频内容的类型来应用适当的环绕声虚拟化模式。

针对不同音频内容类型来控制环绕声虚拟器的一种可能的方式是事先设计不同的配置集合。用户被提供选项来选择用于要播放的音频内容的适当配置集合。对于与音乐对应的配置,虚拟器可以被关闭,而对于与电影对应的配置,虚拟器可以被打开。然而,让用户频繁地在预先设计的配置集合之中频繁地切换将是麻烦和恼人的。因此,用户将倾向于对所有内容保持使用仅一种配置,导致了不良的用户体验。此外,由于虚拟器通常以离散的方式在预先设计的配置集合之中被打开或关闭,这还可能导致在转换点处音频中的一些可听到的人为噪声(artifact)。

本文中公开的示例实施例提出了一种用于基于要播放的音频内容功能来自动地适配环绕声虚拟器的方案。利用自动模式,用户可以简单地享受音频内容而不需要考虑在不同配置之中的手动选择。虚拟器可以经由连续的虚拟量而被适应性地配置而不是以离散方式被打开/关闭,从而避免了声效随着音频内容而突然改变。

图2描绘了根据本文中公开的一个示例实施例的环绕声虚拟器系统200的框图。如所示出的,系统200包括音频接收单元201,内容置信度确定单元202,虚拟量确定单元203和虚拟器子系统204。

在系统200中,音频接收单元201接收要播放的N个输入音频信号的集合,其中N是大于1的自然数。N个输入音频信号中的每个音频信号指示来自不同声源中的一个声源的声音。输入音频信号的示例可以包括但不限于3声道音频信号、5声道音频信号或5.1声道音频信号、以及7声道音频信号或7.1声道音频信号。输入音频信号的集合被提供给虚拟器子系统204。虚拟器子系统204用于对N个输入音频信号执行环绕声虚拟化,从而输入音频信号可以被虚拟化为使得聆听者感知为来自不同的声源的环绕声。虚拟器子系统204生成M个输出音频信号,其中M是大于1的自然数。通常,M取决于在播放 端的物理扬声器的数目。在诸如个人计算机、耳机和头戴式耳机之类的一些个人播放环境中,M可以等于2。

在本文中公开的示例实施例中,虚拟器子系统204的环绕声虚拟化可以基于从输入音频信号所识别的音频内容类型来控制。内容置信度确定单元202和虚拟量确定单元203用于确定控制环绕声虚拟化的因数。具体地,内容置信度确定单元202被配置为接收N个输入音频信号的集合并且确定针对该集合的置信度得分。置信度得分指示输入音频信号的集合属于预定义的音频内容类别的概率。虚拟量确定单元203被配置为基于所确定的置信度得分来确定虚拟量(被表示为“VA”)。虚拟量VA指示输入音频信号的集合被虚拟化为环绕声的程度。这个环绕声可以被聆听者感知为来自输入音频信号的不同声源。

在一个示例实施例中,为了确定置信度得分,内容置信度确定单元202可以首先标识输入音频信号的集合属于哪个音频内容类别,并且然后估计该集合关于该音频内容类别的概率。当前已知或者未来要开发的任何用于音频内容识别的适当技术可以被用于标识音频信号的类别。可以事先定义一个或多个音频内容类别。这些类别的示例包括但不限于音乐、语音、背景声、噪声之类的。预定义的类别的数目可以取决于所期望的音频内容分类的粒度。在一些示例实施例中,输入音频信号可能是不同类型的音频内容的混合。在这种情况下,可以由内容置信度确定单元202来估计针对一些或所有预定义的类别的置信度得分。

虚拟量VA可以被提供给虚拟器子系统204,用于控制由这个子系统204产生的环绕声效果。根据本文中公开的示例实施例,虚拟器子系统204被配置为对输入音频信号的集合执行环绕声虚拟化。为此,虚拟器子系统204可以基于所确定的虚拟量VA来虚拟化该集合中的输入音频信号配对。此外,虚拟器子系统204基于经虚拟化的输入音频信号和该集合中的其他输入音频信号,生成若干输出音频信号。如所提及的,输出音频信号的数目取决于所使用的物理扬声器的数目。 在一些示例实施例中,该数目例如大于或等于二。

一般而言,输入音频信号以配对为单位被虚拟化。在一个示例中,对于5声道或5.1声道音频信号,LS和RS声道信号的配对可以被处理以生产虚拟环绕信号。备选地或附加地,L和R声道信号的配对、或者C声道信号和由L与R声道信号混合的信号的配对也可以被虚拟化。对于7声道或7.1声道信号,除了针对5声道或5.1声道音频信号所指示的这些配对之外,还可以备选地或附加地处理在左后(LR)声道和右后(RR)声道中的信号的配对。注意到,要虚拟化哪对音频信号将不会限制本文中公开的主题的范围。

虚拟量VA可以从表示对输入音频信号执行的环绕声虚拟化的程度的任何适当数值范围中进行取值。在一个示例实施例中,虚拟量VA可以从0到1进行取值。在另一个示例实施例中,虚拟量VA可以是0或1的二值化数值。如果虚拟量VA被设置为1(它的最高值),虚拟器子系统204可以完全工作以给出环绕声效果。如果虚拟量VA降到0(它的最低值),子系统204可以认为被关闭。也就是说,如果虚拟量VA具有它的最低值,子系统204可以不对音频信号执行额外的处理,并且系统200所得到的输出信号可以驱动物理扬声器发出使得聆听者感知为来自位于物理扬声器处的声源的声音,而不是来自输入音频信号的声源的声音。在虚拟量VA被设置为最高值与最低值之间的数值时,例如被设置为1与0之间的数值时,虚拟器子系统204可以不完全工作来执行环绕声虚拟化。虚拟量VA的确定将在以下更详细地讨论。

可以通过使用所确定的虚拟量VA,以各种方式来配置虚拟器子系统204。图3描绘了将虚拟量VA作为控制因数的图2中的系统200的虚拟器子系统204的框图。要注意的是,支持环绕声虚拟化的详细结构30仅被描绘为图3和以下图4-5中的虚拟器子系统204中的说明性示例。虚拟器子系统204可以包括更多、更少或其他的单元或组件,这些单元或组件以与图3和以下图4-5中所图示的单元相同的方式来执行环绕声虚拟化的功能。还要注意的是,在图3和以下图4-5 中,出于解释说明的目的而给出5声道输入音频信号和用于由一对物理扬声器重现的两个输出音频信号。其他格式的音频信号也可以用作输入,并且取决于用于播放的物理扬声器的数目,输出音频信号的数目可以多于两个。

虚拟器子系统204中用于实现环绕声虚拟化的结构30可以类似于图1中所图示的结构。在虚拟器子系统204中,虚拟化单元210用于虚拟化左环绕声道输入LS和右环绕声道输入RS,以生成左环绕输出LS’和右环绕输出RS’。虚拟器子系统204还通过经由放大器2201利用增益G划分中央信道输入C、来生成幻象中央声道信号。虚拟器子系统204然后经由相加元件2301和2302将输出LS’和RS’与L和R声道输入以及幻象中央声道信号进行组合,以生成左输出和右输出L’和R’。输出L’和R’可以分别被呈现在相对于聆听者的物理位置处的两个物理扬声器上。

在虚拟化单元210的虚拟化过程期间,可以使用模型来虚拟化从(输入音频信号的)声源到人耳的传播过程,从而聆听者可以感知到位于声源处的一些虚拟扬声器发出声音。这样的模型的一个示例是如图3所示的双耳模型211。如果物理喇叭(与耳机不同)被用于呈现输出音频信号,可以尝试将从左喇叭到左耳的声音与从右喇叭到右耳的声音进行隔离。虚拟器子系统204可以使用串音消除器212来实现这种隔离。串音消除器212可以被设计为从物理喇叭到人耳的声音传播的逆过程。

在常规虚拟器系统中,声源的位置(例如,虚拟扬声器的位置)是预定且固定的。因此,输出音频信号总是听起来像是来自这些声源,生成了环绕声效果。为了控制环绕声效果的程度,在图3的示例中,虚拟器子系统204可以进一步包括位置调整单元240,用于基于虚拟量VA来调整在环绕声虚拟量期间所利用的位置信息。

位置调整单元240可以被配置为基于虚拟量VA和物理扬声器的物理位置,来调整要被虚拟化的(多个)输入音频信号配对的声源的预定的位置信息。经调整的位置信息然后可以被传递给虚拟化单元 210,由例如双耳模型211使用作为虚拟扬声器的位置。根据环绕声虚拟化的原则,双耳模型211中的虚拟扬声器的位置可以与虚拟化声音的空间图像宽度直接相关。如果虚拟扬声器被定位在目标物理扬声器处,双耳模型211和串音消除器212可以被认为是被除去,并且虚拟化单元210因此被认为是关闭的。因此,位置调整单元240可以经由虚拟量VA来调整虚拟扬声器的位置,以便模拟虚拟化单元210可以针对不同的音频内容而被适应性地启用或禁用的行为。

在本文中公开的一些示例实施例中,如果虚拟量VA被确定为较大,这意味着期望虚拟器子系统204完全工作。在这种情况下,位置调整单元240可以将虚拟扬声器的位置(对应于要被虚拟化的输入音频信号的声源位置,在图3的示例中,是输入LS和RS的声源位置)调整朝向它们的预定位置,以便产生环绕声。在虚拟量VA较小的情况下,虚拟扬声器的位置可以被移动朝向物理扬声器的位置,以便减少输出信号的环绕声效果。

在一个示例实施例中,每个虚拟扬声器的位置可以基于虚拟量VA并且基于这个虚拟扬声器的预定位置与要用于播放来自这个虚拟扬声器的声源的声音的目标物理扬声器的位置之间的差异来进行调整。例如,虚拟扬声器的位置的调整可以被表示为如下:

其中θi,virtual表示在双耳模型211中预定的虚拟扬声器i的方位角,θi,physical表示用于播放来自虚拟扬声器i的声源的声音的目标扬声器i的预定方位角,并且表示虚拟扬声器i的经调整的方位角。在图3的示例中,可以基于VA和用于呈现输出信号L’的物理扬声器的位置,在公式(1)中调整与输入LS的声源对应的虚拟扬声器的位置。类似地,可以基于VA和用于呈现输出信号R’的另一个物理扬声器的位置,在公式(1)中调整与输入RS的声源对应的虚拟扬声器位置。

从公式(1)可以看出,如果虚拟量VA被确定为1,虚拟扬声器的位置可以被设置为它们的预定方位角(例如,±90°),从而虚拟化 单元210被完全使用。随着虚拟量VA的减少,虚拟扬声器的方位角可以被逐渐地旋转朝向物理扬声器,并且由虚拟器子系统204重现的输出信号的空间图像变窄。当虚拟量VA降到0时,虚拟扬声器的方位角可以与串音消除器212中的物理扬声器的方位角(例如,±10°)一致,并且双耳模型211和串音消除器212的声效可以被除去。在这种情况下,虚拟器子系统204的输出听起来与虚拟化单元210关闭时所重现的信号相同。

在本文中公开的一些示例实施例中,根据听觉测试的结果,虚拟扬声器的角度改变可能与虚拟化输出的空间图像的宽度不是线性相关。当VA的值较小时,人耳对对应的方位角的声源定位的能力较差,从而空间图像的改变相较于较大的VA而言变得不那么显著。因此,在本文中公开的一些示例实施例中,在由置信度得分确定出虚拟量VA之后,虚拟量确定单元203可以进一步以非线性的方式、例如经由一些非线性映射函数来修改所确定的虚拟量VA。非线性映射函数的示例包括但不限于分段线性函数、幂函数、指数函数或者三角函数。通过这种方式,虚拟量可以被修改为与输出信号的空间图像的宽度线性相关。

在本文中公开的一些另外的实施例中,双耳模型211可以利用头部相关传递函数(HRTF)来表示从虚拟扬声器的声源到人耳的传播过程。随着虚拟扬声器的方位角改变,可以通过使用在声学人体模型或者一些结构模型上测量的复杂数据,来单独地计算虚拟声源的不同位置的对应HRTF。所得到的HRTF可以被存储以便减少实时计算的复杂度。如果虚拟扬声器的位置信息是预定且固定的,仅需要存储一个对应的HRTF系数集合。然而,随着位置信息的调整,与所有可用的方位角对应的HRTF系数的存储可以需要较大的存储。

为了节省存储空间,在本文中公开的一些示例实施例中,可以事先计算和存储针对与不同位置信息对应的HRTF的少量系数集合。预先存储的HRFT的方位角可以在虚拟扬声器的预定位置与物理喇叭的预定位置之间的范围内均匀地分布,或者在考虑到人耳对不同方位角 的声源定位能力时在该范围内非线性地分布。虚拟器子系统204,例如子系统204中的虚拟化单元210可以基于预定义的系数集合来获得与经调整的位置信息相对应的HRTF的系数集合。

在本文中公开的一些示例实施例中,如果存在与经调整的位置信息相对应的HRTF的预定义系数集合,虚拟化单元210可以直接选择并且使用这个系数集合。如果不存在这样的预定义的系数集合,虚拟化单元210可以通过对与另外的位置信息相对应的另外的HRTF的预定义系数集合进行插值,来确定针对HRTF的系数集合。例如,可以根据预先存储的这些系数集合,通过线性插值来确定针对HRTF的系数集合。随着预先存储的HRTF系数的数目减少,HRTF系数所需要的存储空间也可以减少。在一些示例中,可以针对物理扬声器的位置与±30°之间的方位角来预先设置5个HRTF系数集合,并且针对±30°与双耳模型211中的虚拟扬声器的预定位置之间的方位角来预先设置另外5个HRTF系数集合。注意的是,可以预先存储任何其他数量的HRTF系数集合,并且本文中公开的主题的范围在此方面不受影响。

在本文中公开的一些其他示例实施例中,虚拟量VA可以用于在虚拟器子系统204被打开时的输出与被关闭时的输出之间的混合权重。图4描绘了这样的系统的框图。在图4的示例中,虚拟化单元210可以独立于虚拟量VA来对输入音频信号配对LS和RS执行正常的环绕声虚拟化,以生成虚拟环绕输出LS’和RS’。虚拟环绕输出LS’和RS’和原始输入音频信号LS和RS然后可以基于虚拟量VA、经由(线性)插值来进行混合。可以在时域或者频域中进行直接的差值。

如图4所示,除了在图3的结构30中用于实现环绕声虚拟化的这些单元或模块之外,虚拟器子系统204可以进一步包括另外的放大器2202-2205和相加元件2303和2304,用于基于虚拟量VA来控制子系统204的环绕声虚拟化。放大器2202-2205和相加元件2303和2304可以被认为是被增加到子系统204中的混合结构。

在本文中公开的一些示例实施例中,放大器2202和2203被配置为分别经由增益(1-VA)来放大原始输入LS和RS,而放大器2204 和2205被配置为分别使用增益VA来放大来自虚拟化单元210的虚拟输出LS’和RS’。放大器2202和2204的经放大的信号由相加元件2303组合以生成输出LS”,并且放大器2203和2205的经放大的信号由相加元件2304组合以生成输出RS”。混合过程可以例如表示如下:

LS”=(1-VA)*LS+VA*LS’ (2)

RS”=(1-VA)*RS+VA*RS’ (3)

利用混合过程,如果虚拟量VA被设置成0,可以认为虚拟化单元210被关闭,并且输入信号LS和RS可以由物理扬声器呈现而不需要单元210的额外虚拟化处理。随着虚拟量VA的增加,更多由虚拟化单元210虚拟化的信号可以被混合进来,从而逐渐地增强环绕声效果。所得到的混合信号(LS”和RS”)然后可以与前部信道信号L、R和C一起组合以产生输出L’和R’。

在一些使用情况下,要被虚拟化的音频信号、诸如信号LS和RS可以在频域中被处理。可以考虑例如对在高频处HRTF和头部移动的不确定性的鲁棒性,可以在频率范围基础上执行环绕声虚拟化。在本文中公开的一些示例实施例中,虚拟量VA可以用于控制在虚拟器子系统204中要被处理的有效频率范围。图5描绘了在这些实施例中的虚拟器子系统204的框图。

在图5的示例中,虚拟器子系统204包括有效频率范围确定单元250,其被配置为基于虚拟量VA来确定用于在虚拟化单元210中执行的环绕声虚拟化的有效频率范围。虚拟量VA可以用于调谐有效频率范围的上限和/或下限。基于单元250的确定结果,虚拟化单元210、包括双耳模型211和串音消除器212可以处理有效频率范围中的音频信号。当虚拟量VA被设置为1时,可以实施全频带环绕声虚拟化。随着虚拟量VA的减少,要被处理的有效带宽可以被降低,从而可以削弱环绕声效果。如果虚拟量VA是0和1之间的值,有效频率范围确定单元250可以确定带宽低于全频带范围的一个或多个有效频率范围。所确定的多个有效频率范围可以是非连续的。当虚拟量VA降到 0时,虚拟化单元210可以等同于被禁用。因此,通过由虚拟量来控制有效频率范围,单元210的环绕声虚拟化可以针对不同类型的音频内容而进行适应性地配置。

将认识到,尽管在图3-5的示例中仅一个虚拟化单元210用于虚拟化5声道输入的信号LS和RS,虚拟器子系统204可以备选地或附加地包括与单元210的作用相同的一些其他虚拟化单元,用于处理其他输入音频信号配对,诸如信号L和R的配对。图3的位置调整单元240,图4的放大器2202-2205和相加元件2303-2304,和/或图5的有效频率范围确定单元250还可以被配置为基于虚拟量VA来控制所有虚拟化单元的环绕声虚拟化。

参考回图2,如以上所讨论的,在图2的虚拟量确定单元203中确定的虚拟量VA用于以连续的方式来调谐虚拟器子系统204中的环绕声虚拟化。在本文中公开的一些示例实施例中,可以根据来自内容置信度确定单元202的针对预定义音频内容类别的概率(置信度得分),经由一些控制函数来估计虚拟量VA。在一个示例实施例中,音频内容可以被粗略地分类为音乐类别和非音乐类别。在一些其他示例实施例中,音频内容可以被分类成更精细的类别。例如,非音乐类别可以被划分为语音子类别、背景声子类别和/或噪声子类别。

如所提及的,期望针对音乐内容,自动地禁用环绕声效果。因此,在一些示例实施例中,虚拟量VA可以仅与音乐类别的置信度得分相关。虚拟量确定单元203可以被配置为基于由内容置信度确定单元202确定的针对音乐类别的置信度得分来设置虚拟量VA。虚拟量VA可以被确定为输入音频信号的集合属于音乐类别的概率的递减函数,该概率对应于置信度得分。通过这种方式,当针对音乐类别的置信度得分处于高水平时,虚拟量VA可以接近于0,并且如以上所讨论的,经虚拟化的环绕声效果将被显著地削弱。在一些示例实施例中,虚拟量VA可以与针对音乐类别的置信度得分成反比。例如,当虚拟量VA从0到1进行取值时,VA可以被设置为与1和针对音乐类别的置信度得分之间的差异成比例,这可以被表示如下:

VA∝(1-MCS) (4)

其中∝表示“成比例”,并且MCS表示音乐类别的置信度(概率),其可以从0到1进行取值。

备选地或附加地,在本文中公开的一些示例实施例中,期望为非音乐内容、诸如电影内容启用环绕声效果。虚拟量VA还可以与针对非音乐类别的置信度得分相关。在一个示例实施例中,虚拟量确定单元203可以被配置为基于针对非音乐类别的置信度得分来确定虚拟量VA。在一个示例实施例中,虚拟量VA可以被设置为输入音频信号的集合属于非音乐类别的概率的递增函数,该概率对应于置信度得分。例如,虚拟量VA可以与针对非音乐类别的置信度得分成正比。

在一些情况下,仅针对音乐类别或非音乐类别的高置信度得分不足以确定音乐内容或非音乐内容在输入音频信号的音频片段中占主导,因为不同类型的音频内容是独立地被标识的。如果该音频片段具有相对丰富的非音乐内容,尽管针对音乐类别的置信度的值也较大,经虚拟化的环绕声效果也可能不会被明显地抑制。因此,除了针对音乐类别的置信度得分之外,在确定虚拟量VA的时候,还可以联合地考虑其他音频内容类别的置信度得分(例如,针对非音乐类别的置信度得分)。

在一个示例实施例中,虚拟量确定单元203可以被配置为基于针对音乐类别的置信度得分和针对非音乐类别的置信度得分来设置虚拟量VA。虚拟量VA可以被设置为与针对音乐类别的置信度得分负相关,并且与针对非音乐类别的置信度得分正相关。通过这种方式,当针对非音乐类别的置信度得分处于较高水平时,虚拟量VA可以接近于1,并且经虚拟化的环绕声效果将被显著地增强。如果在音频片段中不包括非音乐内容,输入音频信号可以被标识为纯音乐,并且虚拟量VA可以被设置为0。

在虚拟量VA从0到1进行取值的一个示例中,针对音乐类别的置信度得分可以由针对非音乐类别的置信度得分进行加权,并且虚拟 量VA可以被确定为与针对音乐类别的经加权的置信度得分成反比。例如,虚拟量VA与针对音乐类别的置信度得分和针对非音乐类别的置信度得分之间的关闭可以被表示如下:

VA∝(1-MCS*(1-nonMCSP)) (5)

其中MCS表示针对音乐类别的置信度得分,nonMCS表示针对非音乐类别的置信度得分,P表示针对nonMCS的加权系数,并且∝表示“成比例”。MCS和nonMCS可以从0到1进行取值。在一些示例中,根据不同的应用场景,P可以被设置为1、2或3。从公式(5)可以看出,针对非音乐类别的置信度得分用于对音乐类别的置信度得分对虚拟量VA的影响进行加权。虚拟量VA可以被设置为与针对非音乐类别的置信度得分正相关,并且与针对音乐类别的置信度得分负相关。

在本文中公开的一些示例实施例中,针对非音乐类别的置信度得分可以被表示为针对所有非音乐内容的联合置信度得分,非音乐内容诸如语音、背景声和噪声。内容置信度确定单元202可以确定输入音频内容的集合属于相应的语音子类别、背景声子类别和噪声子类别的概率。所确定的概率可以用作这些子类别的置信度得分。内容置信度确定单元202然后可以基于针对这些子类别的置信度得分来估计针对非音乐类别的置信度得分。例如,针对非音乐类别的置信度得分可以被确定为它的子类别的置信度得分的函数,这可以被表示为如下:

nonMCS=f(SCS,BCS,NCS) (6)

其中nonMCS表示非音乐类别的置信度得分,SCS表示语音子类别的置信度得分,BCS表示背景声子类别的置信度得分,NCS表示噪声子类别的置信度得分,并且f(·)表示nonMCS与其他置信度得分SCS、BCS和NCS之间的映射函数。nonMCS、SCS、BCS和NCS可以从0到1进行取值。函数f(·)可以是最大值函数、平均函数、加权平均函数等等。注意到,在确定nonMCS时,可以考虑SCS、BCS和NCS中的一些而不是全部。

在本文中公开的一些示例实施例中,置信度得分和虚拟量VA可 以针对输入的音频片段进行连续地确定。为了避免虚拟量VA的突然改变并且为了在时间上更平滑地控制虚拟器子系统204的行为,可以应用一些平滑方法。以上讨论的不同参数可以被平滑,诸如不同音频内容类别/子类别的置信度得分以及虚拟量VA中的一个或多个可以被平滑。

针对当前输入音频片段(例如,当前音频帧)所确定的每个参数可以从针对先前音频片段所确定的对应参数进行平滑。在一个示例实施例中,通过利用加权平均平滑方法,针对当前输入音频片段确定的参数和针对先前音频片段确定的对应参数可以对经平滑的参数具有相应的贡献。这些贡献取决于平滑因数。例如,可以利用如下的用于平滑参数的加权平均方法:

Parasmooth(n)=α*Parasmooth(n-1)+(1-α)*Para(n) (7)

其中n表示帧索引,Para(n)表示针对帧n确定的参数,Parasmooth(n)表示针对帧n的经平滑的参数,Parasmooth(n-1)表示针对帧n-1的经平滑的参数,并且α表示在0到1的范围内的平滑因数。平滑因数α的值越大,该参数越平滑地改变。根据不同的应用场景,平滑因数α的时间常量可以被设置为0.5s、1s、2s之类的。注意到,可以以类似的方式设计其他平滑函数,诸如非对称平滑函数或者分段平滑函数。

在本文中公开的一些另外的示例实施例中,为了调节虚拟量VA的动态范围,还可以在虚拟量确定单元203中采用缩放(scaling)和/或类sigmoid的函数。在一个示例实施例中,虚拟量确定单元203可以被配置为将虚拟量VA的值限制在0和1之间的范围。存在可以用于缩放虚拟量VA的各种缩放函数,并且以下给出了两个示例函数:

h(VA)=min(max(sigmoid(a*VA+b),0),1) (8)

或者,h(VA)=min(max(a*VA+b,0),1) (9)

其中h(VA)表示经修改的虚拟量,sigmoid(·)表示sigmoid函数,max(·)表示最大值函数,min(·)表示最小值函数,并且因数a和b表示用于 约束虚拟量的增益和偏移。

利用平滑和缩放过程,虚拟量VA可以在不同应用场景中被设置为适当的值。图6示出了根据本文中公开的一个示例实施例的针对示例输入音频片段的置信度得分和虚拟量的示意性曲线图。在图6中分析的输入音频片段是一段具有背景声和噪声的声效(长度是1分钟)、一段流行音乐(长度是34秒)和一段电影音频(长度是43秒)的级联。注意到,这个音频片段仅仅被给出作为说明性示例。

在图6的图形(1)中示出了音频片段中针对音乐的置信度得分的变化曲线。在图形(2)-(4)中,示出了针对语音、背景声和噪声的置信度得分的变化曲线。基于针对于语音、背景声和噪声的置信度得分,通过例如公式(6)来计算针对非音乐的置信度得分,并且结果被示出在图形(5)中。基于图(1)的针对音乐的置信度得分和图形(5)的针对非音乐的置信度得分,确定图形(6)中的初始虚拟量VA。初始虚拟量VA可以例如由公式(7)进行进一步平滑,以避免突然的改变,并且图形(7)示出了虚拟量VA的经平滑的曲线。备选地或附加地,虚拟量VA还可以例如由公式(8)进行缩放,以获得如图形(8)所示的曲线。

要理解的是,系统200的各部件可以是硬件模块,也可以是软件单元模块。例如,在一些示例实施例中,该系统可以部分或者全部利用软件和/或固件来实现,例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地,该系统可以部分或者全部基于硬件来实现,例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本文中公开的主题的范围在此方面不受限制。

图7描绘了根据本文中公开的一个示例实施例的虚拟化环绕声的方法700的流程图。方法700开始于步骤710,其中接收输入音频信号的集合,每个输入音频信号指示来自不同声源中的一个声源的声音。在步骤720中,确定输入音频信号的集合属于预定义的音频内容类别的概率。然后,在步骤730中基于所确定的概率来确定虚拟量。 虚拟量指示输入音频信号的集合被虚拟化为环绕声的程度。在步骤740中,基于所确定的虚拟量来对集合中的输入音频信号配对执行环绕声虚拟化,并且在步骤750中,基于经虚拟化的输入音频信号和集合中的其他输入音频信号,生成输出音频信号。

在本文中公开的一些示例实施例中,输出音频信号可以用于驱动在相对于聆听者的物理位置处的物理扬声器。在本文中公开的一些示例实施例中,可以基于虚拟量和物理扬声器的物理位置来调整针对于输入音频信号配对的声源的预定位置信息,并且然后可以基于经调整的位置信息来对输入音频信号配对执行环绕声虚拟化。

在本文中公开的一些示例实施例中,可以以非线性方式修改虚拟量。在本文中公开的一些示例实施例中,可以基于经修改的虚拟量来调整预定位置信息。

在本文中公开的一些示例实施例中,可以获得针对与经调整的位置信息相对应的HRTF的系数集合,并且可以基于所获得的系数集合来处理输入音频信号配对。

在本文中公开的一些示例实施例中,可以响应于找到针对与经调整的位置信息相对应的HRTF的预定义系数集合,选择预定义系数集合。在本文中公开的一些示例实施例中,可以响应于未找到针对与经调整的位置信息相对应的HRTF的预定义系数集合,通过对与另外的位置信息相对应的另外的HRTF的预定义系数集合进行插值,确定针对HRTF的系数集合。

在本文中公开的一些示例实施例中,可以独立于虚拟量来对输入音频信号配对执行环绕声虚拟化。然后,可以基于虚拟量,将输入音频信号配对和经虚拟化的输入音频信号进行混合。

在本文中公开的一些示例实施例中,可以基于虚拟量来确定针对输入音频信号配对的有效频率范围。可以在所确定的有效频率范围内对输入音频信号配对执行环绕声虚拟化。

在本文中公开的一些示例实施例中,预定义的音频内容类别可以包括音乐类别。在本文中公开的一些示例实施例中,可以将虚拟量确 定为集合属于音乐类别的概率的递减函数。

在本文中公开的一些示例实施例中,预定义的音频内容类别可以包括非音乐类别。在本文中公开的一些示例实施例中,可以将虚拟量确定为集合属于非音乐类别的概率的递增函数。

在本文中公开的一些示例实施例中,非音乐类别可以包括以下至少两个子类别:语音子类别、背景声子类别和噪声子类别。在本文中公开的一些示例实施例中,可以确定集合属于至少两个子类别中的每个子类别的概率,并且可以基于至少两个子类别的所确定的概率来确定集合属于非音乐类别的概率。

图8描绘了适于用来实现本文中公开的示例实施例的示例计算机系统800的示意性框图。如所描绘的,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。如所需要的,在RAM 803中,还存储有CPU 801执行各种过程等需要的数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地,根据本文中公开的示例实施例,上文参考图7描述的方法可以被实现为计算机软件程序。例如,本文中公开的示例实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行方法700的程序代码。在这样 的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。

一般而言,本文中公开的各种示例实施例可以在硬件或专用电路、软件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本文中公开的示例实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或前述的某些组合中实施。

而且,流程图中的各框可以被看作是方法步骤,和/或计算机程序代码的操作生成的操作,和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如,本文中公开的实施例包括计算机程序产品,该计算机程序产品包括有形地实现在机器可读介质上的计算机程序,该计算机程序包含被配置为实现上文描述方法的程序代码。

在公开的上下文内,机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例将包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、便携式压缩盘只读存储器(CD-ROM)、光存储设备、磁存储设备,或前述的任意合适的组合。

用于实现本文中公开的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器,使得程序代码在被计算机或其他可编程的数据处理装置执行的时候,引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在 计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。程序代码可以被分布在被特定编程的设备,这些设备通常在本文中可以被称为“模块”。这些模块的软件分组部分可以以任何具体计算机语言来编写并且可以是单片集成代码库的一部分,或者可以被开发成多个离散代码部分,诸如通常以面向对象的计算机语言来开发。此外,模块可以跨多个计算机平台、服务器、终端、移动设备等来分布。给定的模块甚至可以被实施为使得所描述的功能由单个处理器和/或计算机硬件平台来执行。

如本申请中所使用的,术语“电路装置”指的是以下的所有:(a)仅硬件电路实现方式(诸如仅模拟电路装置和/或仅数字电路装置的实现方式)以及(b)与电路和软件(和/或固件)的组合,诸如(如果可用的话):(i)与处理器的组合或(ii)处理器/软件(包括数字信号处理器)、软件和存储器的部分,这些部分一起工作以使得装置(诸如移动电话或服务器)执行各种功能,以及(c)电路,诸如微处理器或微处理器的一部分,其需要软件或固件用于操作,即使软件或固件不是物理存在的。此外,本领域技术人员已知的是,通信媒介通常体现计算机可读指令、数据结构、程序模块或模块化数据信号中的其他数据,该数据信号诸如载波或其他传输机制,并且通信媒介包括任何信息传送媒介。

另外,尽管操作以特定顺序被描绘,但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成,或者执行所有图示的操作以获取期望结果。在某些情况下,多任务和并行处理会是有益的。同样地,尽管上述讨论包含了某些特定的实施细节,但这并不应解释为限制本文中公开的主题或权利要求的范围,而应解释为对可以针对特定实施例的特征的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。

针对本文中公开的前述示例实施例的各种修改、改变将在连同附 图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本文中公开的示例实施例范围。此外,前述说明书和附图存在启发的益处,涉及本文中公开的这些实施例的技术领域的技术人员将会想到此处阐明的其他实施例。

由此,本主题可以通过在此描述的任何形式来实现。例如,以下的枚举示例实施例(EEE)描述了本文中公开的主题的某些方面的某些结构、特征和功能。

EEE 1.一种通过以连续的方式调谐虚拟量来自动地配置环绕声虚拟器的方法,该虚拟量在由音频分类技术标识的输入音频内容的基础上被评估。

EEE 2.根据EEE 1的方法,音频内容包括诸如音乐、语音、背景声和噪声之类的音频类型。

EEE 3.根据EEE 1的方法,虚拟量用于获得虚拟器中的虚拟扬声器的方位角。

EEE 4.根据EEE 1的方法,虚拟量用于进行在虚拟器被打开时产生的输出与被关闭时产生的输出之间的混合。

EEE 5.根据EEE 1的方法,虚拟量用于调整要在虚拟器中处理的有效频带。

EEE 6.根据EEE 1的方法,虚拟量可以被设置为与(1–MCS)成比例,其中MCS表示音乐的置信度得分。

EEE 7.根据EEE 1的方法,虚拟量可以被设置为与(1–MCS*(1-nonMCSP))成比例,其中MCS表示音乐的置信度得分,nonMCS表示非音乐的置信度得分,并且P表示加权系数。

EEE 8.根据EEE 7的方法,nonMCS可以基于SCS、BCS和NCS的最大值、平均值或加权平均值来设置,其中SCS表示语音的置信度得分、BCS表示背景声的置信度得分、并且SCS表示噪声的置信度得分。

EEE 9.根据EEE 7的方法,参数MCS、nonMCS、SCS、BCS和NCS以及虚拟量中的一个或多个可以被平滑,以便避免突然这些参数 的改变并且获得这些参数的更平滑的估计。

EEE 10.根据EEE 9的方法,在参数的平滑时,可以采用加权平均平滑、非对称平滑或者分段平滑。

EEE 11.根据EEE 7的方法,可以基于缩放和/或类sigmoid函数来对虚拟量的动态范围进行调节。

EEE 12.根据EEE 3的方法,可以经由一些非线性映射函数来修改虚拟量以便使得虚拟量与经虚拟化的音频信号的空间图像的宽度线性相关,非线性映射函数诸如分段线性函数、幂函数、指数函数或者三角函数。

EEE 13.根据EEE 3的方法,仅预先计算和存储于虚拟扬声器的少量方位角对应的HRTF系数,并且根据这些预先设置的系数,通过线性插值来获得其他HRTF系数,以便减少所需要的存储空间。

将会理解,本文中公开的主题的实施例不限于公开的特定实施例,并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语,但是它们仅在通用和描述的意义上使用,而并不用于限制目的。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1