具有深度的空间音频捕获的制作方法

文档序号:31117273发布日期:2022-08-12 22:30阅读:94来源:国知局
具有深度的空间音频捕获的制作方法
具有深度的空间音频捕获


背景技术:

1.诸如可以分别包括或使用麦克风和相机的音频和视频捕获系统可以共处于环境中,并且被配置为从该环境捕获视听信息。所捕获的视听信息可以按需记录、传输和回放。在示例中,可以以沉浸式格式捕获视听信息,例如使用空间音频格式和多维视频或图像格式。
2.在示例中,音频捕获系统可以包括麦克风、麦克风阵列或包括一个或多个换能器以从环境接收音频信息的其他传感器。音频捕获系统可以包括或使用被配置为捕获三维或360度声场的空间音频麦克风,例如ambisonic麦克风。
3.在示例中,视频捕获系统可以包括单透镜相机或多透镜相机系统。在示例中,视频捕获系统可以被配置为接收有时被称为沉浸式视频或球形视频的360度视频信息。在360度视频中,可以同时接收和记录来自多个方向的图像信息。在示例中,视频捕获系统可以包括或包含深度传感器,该深度传感器被配置为检测系统的视场中的一个或多个对象的深度信息。
4.各种音频记录格式可用于对记录中的三维音频提示进行编码。三维音频格式包括ambisonic和包括高度扬声器声道的离散多声道音频格式。在示例中,可以在多声道数字音频信号的声轨分量中包括下混(downmix)。下混可以是向后兼容的,可以由传统解码器解码并在现有或传统的回放设备上重现。下混可以包括具有一个或多个音频声道的数据流扩展,这一个或多个音频声道可以被传统解码器忽略,但可以被非传统解码器使用。例如,非传统解码器可以恢复额外的音频声道,在向后兼容的下混中减去它们的贡献,然后以目标空间音频格式渲染它们。
5.在示例中,可以在编码或制作阶段指定声轨所针对的目标空间音频格式。该方法允许以数据流的形式对多声道音频声轨进行编码,该数据流与传统环绕声解码器和也在编码或制作阶段选择的一个或多个备选目标空间音频格式兼容。这些备选目标格式可以包括适于改进的三维音频提示再现的格式。然而,该方案的一个限制在于,针对另一种目标空间音频格式编码相同的声轨可能需要返回到制作设施来记录和编码针对新格式混合的声轨新版本。
6.基于对象的音频场景编码提供了独立于目标空间音频格式的声轨编码的一般解决方案。基于对象的音频场景编码系统的示例是针对场景的mpeg-4高级音频二进制格式(aabifs)。在该方法中,与渲染提示数据流一起,每个源信号被分别发送。该数据流携带空间音频场景渲染系统的参数的时变值。该参数集合可以以与格式无关的音频场景描述的形式来提供,使得可以通过根据该格式设计渲染系统来以任何目标空间音频格式来渲染声轨。每个源信号可以与其相关联的渲染提示相结合来定义“音频对象”。该方法使得渲染器能够实现准确的空间音频合成技术,从而以在再现端选择的任何目标空间音频格式来渲染每个音频对象。基于对象的音频场景编码系统还允许在解码阶段对所渲染的音频场景进行交互式修改,包括重新混合、音乐重新解释(例如,卡拉ok)或场景中的虚拟导航(例如,视频游戏)。


技术实现要素:

7.本发明人已经认识到,要解决的问题包括将声场信息捕获为深度量化的空间音频格式。例如,本发明人已经认识到,通过对来自不同深度的信号进行内插或混合,空间音频信号可以包括远场或全向分量、近场分量以及来自中间场的信息。例如,要在指定得近场和远场之间的空间区域中模拟的听觉事件可以两个深度之间的交叉渐变(crossfade)来创建。
8.该问题可能包括例如使用声场麦克风捕获的但没有深度信息的音频场景信息。这样捕获的音频场景信息通常被量化为一般或非特定的“声场”,然后被渲染或编码为远场信息。接收这种信息的解码器可以不被配置为区分近场和远场源,并且可以不利用或使用近场渲染。例如,使用声场麦克风捕获的一些信息可以包括近场信息。然而,如果深度信息没有与音频场景信息一起编码,则近场信息可以被归类为远场或其他参考声场或默认深度。
9.声场捕获或音频捕获问题的解决方案可以包括使用深度传感器与音频传感器一起基本上同时接收关于环境的听觉信息和视觉信息。深度传感器可以包括三维深度相机、或二维图像传感器或具有处理能力的多个传感器,等等。深度传感器可以渲染或提供关于环境中的一个或多个对象的信息。音频传感器可以包括一个或多个麦克风元件,该麦克风元件可以感测来自环境的听觉信息。在示例中,该解决方案包括被配置为组合来自深度传感器和音频传感器的信息以提供空间音频信号的系统或编码器。空间音频信号可以包括一个或多个音频对象,并且音频对象可以具有相应的深度特性。
10.本发明内容旨在提供本专利申请的主题的概述。并不意图提供对本发明的排他性或详尽的解释。包括了具体实施方式以提供关于本专利申请的进一步信息。
附图说明
11.为了易于理解对任何特定元素或行为的讨论,附图标记中的一个或多个最高有效数字指的是首次引入该元素的附图编号。
12.图1a-1c一般性地示出了相对于收听者的音频源或对象位置的示意图。
13.图2a一般性地示出了被配置为接收关于环境的音频信息和视觉信息的系统的示例。
14.图2b一般性地示出了针对环境的对象识别和深度分析的示例。
15.图3一般性地示出了示出如何将来自环境的信息量化到不同深度的示例。
16.图4一般性地示出了用于空间音频捕获和编码的系统的框图的示例。
17.图5一般性地示出了可以包括对空间音频信号进行编码的第一方法的示例。
18.图6一般性地示出了可以包括基于相关性信息对空间音频信号进行编码的第二方法的示例。
19.图7一般性地示出了可以包括提供音频场景信息对应于指定对象的置信度指示的第三方法的示例。
20.图8一般性地示出了可以包括确定音频信号特性与接收到的关于音频场景的信息之间的对应性的第四方法的示例。
21.图9一般性地示出了计算机系统形式的机器的示意图,在该计算机系统中可以执行指令集以使机器执行在此讨论的任何一种或多种方法。
具体实施方式
22.在包括用于执行例如用于协调视听节目信息的空间音频信号处理的系统、方法、装置和设备的示例的以下描述中,参考形成该具体实施方式的一部分的附图。作为说明,附图示出了可以实施在此公开的发明的具体实施例。这些实施例在本文中一般被称为“示例”。这样的示例还可以包括除了所示或所描述的那些元素之外的元素。然而,本发明人还设想了仅提供所示或所描述的那些元素的示例。本发明人设想了使用所示或所描述的那些元素(或其一个或多个方面)的任何组合或排列的示例,无论是相对于特定示例(或其一个或多个方面),还是相对于在此示出或描述的其他示例(或其一个或多个方面)。
23.本主题涉及处理音频信号(即,表示物理声音的信号)。这些音频信号通常由数字电子信号表示。如本文所使用的,短语“音频信号”可以包括表示物理声音的信号。在此描述的音频处理系统和方法可以包括被配置为使用音频信号或使用各种滤波器处理音频信号的硬件电路和/或软件。在一些示例中,系统和方法可以使用来自多个音频声道的信号或对应于多个音频声道的信号。在示例中,音频信号可以包括数字信号,该数字信号包括对应于多个音频声道的信息。本主题的一些示例可以在数字字节或字的时间序列的上下文中操作,其中这些字节或字形成模拟信号或最终物理声音的离散近似。离散的数字信号对应于周期性采样的音频波形的数字表示。
24.本系统和方法可以包括环境捕获系统。环境捕获系统可以包括光学、视觉或听觉传感器,诸如包括一个或多个相机、深度传感器、麦克风或被配置为监控环境的其他传感器。系统和方法可以被配置为从环境接收音频信息,并接收关于环境中的物理对象的距离或位置信息。这些系统和方法可以被配置为识别音频信息或其分量与环境中的物理对象之间的相关性。当在音频对象和物理对象之间识别出相关性时,则可以对包括音频对象的音频源的空间音频信号进行编码,例如其中音频源位于相对于参考位置的虚拟距离或位置并且对应于一个或多个物理对象。
25.在示例中,从麦克风接收的音频信息或音频信号可以包括来自声场的信息。接收到的音频信息可以基本上实时地与深度信息一起编码。例如,来自深度传感器(例如,三维深度相机)的信息可以与音频信息一起使用,并且音频信息可以以具有深度特性的空间音频格式编码,例如包括方向或深度量值信息。
26.在示例中,用于执行具有深度的空间音频捕获的系统可以包括麦克风阵列或声场麦克风,其被配置为捕获声场或声音场景。该系统可以包括深度相机或深度传感器,其被配置为确定或估计在传感器的视场中的一个或多个对象的深度,并且可以可选地被配置为从多个方向(例如,上/下、左/右等)接收深度信息。在示例中,该系统可以利用从深度传感器接收的深度或距离信息来增强所捕获的听觉信息,然后将该听觉信息和深度信息编码在空间音频信号中。空间音频信号可以包括相对于原点或参考位置具有相应深度或距离的分量或源。
27.在示例中,来自深度传感器的信息包括关于从参考位置或从参考方向到一个或多个物理对象或潜在音频源的方向的信息。关于物理对象的方向信息可以与音频对象相关。在示例中,在此描述的编码后的空间音频信息可以使用头部相关的传递函数(hrtf),例如可以在距离参考头部的各种距离处(从近场扩展到远场)合成或测量。附加的合成或测量的传递函数可以用于延伸到头部的内部,例如对于比近场更近的距离。此外,每个hrtf集合的
与相对距离相关的增益可以归一化为远场hrtf增益。
28.图1a-1c一般性地示出了示例性音频源或对象位置的近场和远场的示意图。图1a包括示出音频对象22相对于参考位置101的位置的第一图100a。参考位置101可以是收听者的位置、麦克风的位置、相机或深度传感器的位置、或在由第一图100a表示的环境中用作参考点的其他位置。在图1a和1b的示例中,半径r1可以表示远场重合的距参考位置101的距离,并且半径r2可以表示与近场或其边界重合的距参考位置101的距离。该环境可以使用多于两个半径来表示,例如,如下面讨论的图1c所示。
29.图1b包括示出了图1a的第一图100a的球形扩展(例如使用球形表示21)的第二图100b。在图1b中,音频对象22可以具有相关联的高度特性23,和例如到地平面上的相关联的投影特性25,相关联的仰角特性27和相关联的方位角特性29。在图1a和图1b的示例中,可以在半径为rn的全3d球体上采样任何适当数量的hrtf,并且每个公共半径hrtf集合中的采样不必相同。图1c包括示出了被划分或量化为任意数量的深度的声场的第三图10c。例如,对象22可以位于远场位置、近场位置、介于两者之间的某处、近场内部或远场之外。
30.在图1a-1c的示例中,在以参考位置101为中心的半径r1和r2的位置处示出各种hrtf(hxy),其中x表示环号或半径,y表示环上的位置。这种位置相关的hrtf可以被称为“公共半径hrtf集合”。在这些示例中,使用惯例wxy在远场集合中示出了四个位置权重,并且在近场集合中示出了两个位置权重,其中x表示环号,并且y表示环上的位置。指示符wr1和wr2表示可用于将对象22分解成公共半径hrtf集合的加权组合的径向权重。例如,对象22可以包括第一源20和第二源24的组合,当它们一起被渲染时在期望深度或位置处提供对象22。
31.在图1a和1b的示例中,随着音频对象通过参考位置101,例如与收听者位置重合,可以测量到收听者头部中心的径向距离。可以识别限制该径向距离的两个测量的hrtf数据集合。对于每个集合,可以基于声源或对象位置的期望方位角和仰角来导出适当的hrtf对(例如,同侧和对侧)。可以通过对每个新的hrtf对的频率响应进行内插来确定最终的组合hrtf对。该内插可以基于要渲染的声源的相对距离和每个hrtf集合的实际测量距离。然后,可以通过导出的hrtf对来过滤要渲染的声源,并且可以基于到收听者头部的距离来增加或减少所得到的信号的增益。当声源接近听者的一只耳朵时,可以限制该增益以避免饱和。
32.每个hrtf集合可以跨越仅在水平面中做出的测量或合成hrtf的集合,或者可以表示收听者周围的hrtf测量的全范围。此外,基于测量出的径向距离,每个hrtf集合可以具有更少或更多数量的样本。
33.可以使用各种技术来生成具有距离或深度信息的音频信号。例如,标题为“audio rendering using 6-dof tracking”的美国专利9,973,874号(其通过引用整体并入本文)在图2a-2c中包括生成具有距离提示的双耳音频的示例,并且在图3a-3c中包括确定hrtf以及在hrtf对之间内插的示例。
34.在示例中,在近场和远场两者中渲染音频对象可以使得不仅能够渲染对象的深度,而且能够渲染利用主动转向/摇摄(panning)解码的任何空间音频混合的深度,例如使用ambisonics、矩阵编码等,并且由此实现具有6个自由度(6-dof)追踪和渲染的完全平移头部追踪(例如,用户移动)。用于将深度信息附加到例如通过捕获或通过ambisonic摇摄创建的ambisonic混合的各种系统和方法在标题为“audio rendering using 6-dof tracking”的美国专利9,973,874号中进行了讨论,其通过引用整体并入本文,并且其某些
方面被总结于此。这些技术通常使用一阶ambisonics作为示例,但也可应用于三阶或其他更高阶的ambisonics。
35.ambisonic基础
36.在多声道混合将捕获作为来自多个输入信号的贡献的声音时,ambisonics提供从单个点捕获或编码表示声场中所有声音的方向的固定信号集合。换句话说,相同的ambisonic信号可以用于在任意数量的扬声器上重新渲染声场。在多声道的情况下,可以被限制为再现源自声道组合的源。例如,如果没有高度声道,则不传输高度信息。另一方面,在环绕声中,关于全方向图像的信息可以被捕获和传输,并且通常只在再现点施加限制。
37.考虑1阶(例如,b格式)摇摄方程集合,其在很大程度上可以被认为是兴趣点的虚拟麦克风:
38.w=s*1/√2,其中w=全方向分量;
39.x=s*cos(θ)*cos(φ),其中x=图8向前;
40.y=s*sin(θ)*cos(φ),其中y=图8向右;
41.z=s*sin(φ),其中z=图8向上;
42.并且s是要摇摄的信号。
43.从这四个信号(w、x、y和z),可以创建指向任何方向的虚拟麦克风。如此,接收信号的解码器可以重新创建指向用于渲染的每个扬声器的虚拟麦克风。这项技术在很大程度上是有效的,但在某些情况下,它只能像使用真正的麦克风捕获响应一样好。结果,尽管解码信号可以具有针对每个输出声道的所需信号,但是每个声道也可以包括一定量的泄漏或“渗漏”,因此存在某个最佳地表示解码器布局的解码器设计技术,特别是在其具有非均匀间隔的情况下。
44.这些种类的解决方案可以支持头部追踪,因为解码是通过wxyz定向转向信号的组合权重来实现的。为了旋转b格式混合,例如,可以在解码之前对wxyz信号应用旋转矩阵,并且结果将解码到适当调整的方向。然而,这种解决方案可能不能实现平移(例如,用户移动或收听者位置的改变)。
45.主动解码扩展
46.可能需要防止泄漏并提高非均匀布局的性能。诸如harpex或dirac之类的主动解码解决方案不形成用于解码的虚拟麦克风。取而代之的是,他们检查声场的方向,重新创建信号,并专门按照他们针对每个时间-频率识别的方向来渲染它。虽然这大大改进了解码的指向性,但它限制了方向性,因为每个时间-频率块使用硬判决。在dirac的情况下,它对每个时间-频率做出单个方向假设。在harpex的情况下,可以检测到两个方向波前。在任一系统中,解码器可以提供对方向性判决应该有多软或多硬的控制。这样的控制在本文中被称为“焦点”的参数,它可以是允许软聚焦、内摇摄或软化方向性断言的其他方法的有用的元数据参数。
47.即使在主动解码器的情况下,距离或深度可能是缺失的函数。虽然方向直接在ambisonic摇摄方程中编码,但除了基于声源距离对电平或混响比的简单改变之外,不能直接编码关于声源距离的信息。在ambisonic捕获和解码方案中,可以对麦克风“靠近”或“麦克风接近”进行频谱补偿,但这可能不允许主动解码位于2米处的一个源,以及位于4米处的另一个源,因为信号限于仅携带方向信息。事实上,无源解码器的性能依赖于这样一个事
实,即如果收听者恰好位于最佳位置并且所有声道都等距离,则泄漏将不会成为问题。这些条件最大限度地再现了预期的声场。
48.深度编码
49.在示例中,关于音频对象的深度或距离信息可以与关于音频源的其他信息一起编码。在示例中,传输格式或摇摄方程可以被修改或增强以支持在内容制作期间添加深度指示符。不同于在混合中应用诸如响度和混响变化之类的深度提示的方法,这里讨论的方法可以包括或允许测量或恢复关于混合中的源的距离或深度信息,使得可以为最终的回放能力而非制作侧的能力来渲染它。具有不同权衡的各种方法在标题为“audio rendering using 6-dof tracking”的美国专利9,973,874号中进行了讨论,其通过引用整体并入本文,包括基于深度的子混合和“d”声道编码。
50.在基于深度的子混合中,元数据可以与每个混合相关联。在示例中,每个混合可以用关于(1)混合的距离和(2)混合的焦点的信息(例如,混合应该被解码得多么尖锐以例如使得不会用太多的主动转向来解码收听者头部内部的混合的指示)来标记。其他实施例可以使用湿/干混合参数来指示要使用哪个空间模型,如果存在具有更多或更少反射(或可调反射引擎)的hrir的选择。优选地,将关于布局做出适当的假设,从而不需要附加元数据来将其作为例如8声道混合来发送,从而使其与现有流和工具兼容。
51.在“d”声道编码中,支持深度的主动解码器可以使用来自指定转向声道d的信息。深度声道可用于编码关于ambisonic混合的有效深度的时间-频率信息,其可由解码器用于在每个频率处的声源的距离渲染。

d’声道可以被编码为归一化距离,在示例中,该归一化距离可以被恢复为值0(在原点处的头部),0.25为正好在近场中,并且对于在远场中完全渲染的源,最高可达1。这种编码可以通过使用绝对值参考(例如0dbfs)或者通过一个或多个其他声道(例如“w”声道)的相对幅度和/或相位来实现。
52.编码距离声道的另一种方法可以包括使用方向分析或空间分析。例如,如果在特定频率处仅检测到一个声源,则可以对与该声源相关联的距离或深度进行编码。如果在特定频率处检测到多于一个声源,则可以编码与声源相关联的距离的组合,例如加权平均。备选地,深度或距离声道可以通过在特定时间帧处执行每个单独声源的频率分析来编码。可以将每个频率处的距离编码为例如与该频率处的最主导声源相关联的距离,或者编码为与该频率处的主动声源相关联的距离的加权平均值。上述技术可以扩展到附加的d声道,例如扩展到总共n个声道。在解码器可以在每个频率处支持多个声源方向的情况下,可以包括额外的d声道以支持在这些多个方向上扩展距离。
53.深度渲染和源平移
54.这里讨论的距离渲染技术可用于在双耳渲染中实现深度或接近的感觉。距离平移可用于将声源分布在两个或更多个参考距离上。例如,可以渲染远场和近场hrtf的加权平衡以实现目标深度。在深度信息的编码或传输中,使用这样的距离摇摄器在不同深度处创建子混合也是有用的。通常,子混合可以各自包括或表示具有场景编码的相同方向性的信息,并且多个子混合的组合通过它们的相对能量分布揭示深度信息。这样的能量分布可以包括深度的直接量化,例如针对相关性被均匀地分布或分组,例如“近”和“远”。在示例中,这样的能量分布可以包括相对于参考距离的相对转向,或者靠近或远离,例如,一些信号被理解为比远场混合的其余部分更近。
55.视听场景捕获和空间音频信号编码
56.图2a一般性地示出了被配置为接收关于环境的音频信息和视觉信息的系统的示例。图2b一般性地示出了针对相同环境的对象识别和深度分析的示例。
57.图2a的示例包括第一环境210,第一环境210可以包括各种物理对象,并且各物理对象可以发出或产生声音。物理对象可以具有相应的坐标或位置,例如可以相对于环境的原点来定义。在图2a的示例中,原点被指定在参考位置201处,并且在图2a的示例中,参考位置201与传感器位置一致。
58.图2a的示例包括音频捕获设备220和深度传感器230。来自音频捕获设备220和/或深度传感器230的信息可以使用各种记录硬件和软件同时被接收和记录作为视听节目。音频捕获设备220可以包括被配置为从第一环境210接收音频信息的麦克风或麦克风阵列。在示例中,音频捕获设备220包括声场麦克风或ambisonic麦克风,并且被配置为捕获三维音频信号格式的音频信息。
59.深度传感器230可以包括相机,例如可以具有一个或多个透镜或图像接收器。在示例中,深度传感器230包括大视场相机,例如360度相机。作为视听节目的一部分从深度传感器230接收或记录的信息可用于向观看者提供沉浸式或交互式的体验,例如可以允许观看者“四处观看”第一环境210,例如在观看者使用头部追踪系统或其他节目导航工具或设备时。
60.诸如可以与从深度传感器230或相机接收的视频信息同时从音频捕获设备220接收的音频信息可以被提供给观看者。音频信号处理技术可以被应用于从音频捕获设备220接收的音频信息,以确保随着观众导航节目,音频信息追踪观众的位置或观看方向的改变,例如在标题为“non-coincident audio-visual capture system”的pct专利申请序列号pct/us2019/40837中所描述的,其通过引用整体并入本文。
61.深度传感器230可以以各种方式或使用各种设备来实现。在示例中,深度传感器230包括三维深度传感器,该三维深度传感器被配置为捕获第一环境210的视场的深度图像,并且从深度图像提供或确定深度图。深度图可以包括关于一个或多个表面或对象距离的信息。在示例中,深度传感器230包括一个或多个二维图像传感器,这一个或多个二维图像传感器被配置为接收入射光并捕获关于第一环境210的图像信息,并且图像信息可以使用处理器电路来处理以识别对象和相关联的深度信息。深度传感器230可以包括使用例如激光、结构光、飞行时间、立体视觉或其他传感器技术来捕获关于第一环境210的深度信息的设备。
62.在示例中,深度传感器230可以包括具有发射器和接收器的系统,并且可以被配置为使用主动采样技术来确定对象深度。例如,发射器可以发射信号并使用关于反弹信号的定时信息来建立例如环境的点云表示。深度传感器230可以包括或使用两个或更多个传感器,例如无源传感器,其可以同时从环境和从不同视角接收信息。可以使用接收到的数据或图像中的视差来确定关于环境中的各种对象的深度信息。在示例中,深度传感器230可以被配置为渲染可用于聚类和对象识别的数据集。例如,如果数据指示在共同深度处的相对较大的连续平面,则可以在共同深度处识别对象。可以类似地使用其他技术。
63.在图2a的示例中,第一环境210包括在相对于参考位置201的相应不同深度处的各种对象。第一环境210包括可以生成或产生声音的一些对象以及可能不会产生声音的其他
对象。例如,第一环境210包括第一对象211,例如嘎吱叫的鸭子玩具,以及第二对象212,例如咆哮的狮子玩具。第一环境210可以包括其他对象,例如彩色面板、盒子、罐子等。
64.图2b一般性地示出了第一环境210的深度图250表示,在该示例中包括参考位置201、深度传感器230和音频捕获设备220作为上下文。深度图250以较浅的颜色显示来自第一环境210的一些物理对象,以将这些对象指定为属于相对于参考位置201较近的表面或较小的深度。深度图250以较暗的颜色显示来自第一环境210的其他物理对象,以将这些其他对象指定为属于相对于参考位置201较远的表面或较大的深度。在图2b的示例中,第一对象211被识别或确定为比第二对象212更接近参考位置201,如它们的相对伪色(灰度)表示所指示的。
65.在示例中,可以使用音频捕获设备220接收关于第一环境210的音频或听觉信息。例如,音频捕获设备220可以接收从环境中发出的高频、短持续时间的“嘎吱!”声音和较低频率、较长持续时间的“咆哮!”声音。例如可以耦合到音频捕获设备220和深度传感器230的处理器电路可以从音频捕获设备220接收音频信息,并且可以从深度传感器230接收深度图信息。例如包括来自图4的示例的处理器电路410的处理器电路可以识别音频信息和深度信息之间的相关性。基于所识别的相关性,处理器电路可以例如使用这里讨论的一个或多个系统或方法来编码具有关于相应不同深度处的音频对象的信息的空间音频信号。
66.图3一般性地示出了量化示例300,其示出了如何将来自第一环境210的信息量化到不同深度。在图3的示例中,参考位置201对应于声场的原点。图3中指示的观看方向可以对应于图2a或2b中指示的观看方向。在所示的示例中,观看方向在参考位置201的右侧。
67.量化示例300示出了映射到与远场深度或相对于参考位置201的第一半径r1重合的位置的第二对象212。也就是说,当第二对象212被确定为在距参考位置201的距离r1处(例如可以使用深度图或来自深度传感器230的其他信息来确定)时,来自第二对象212的声音(例如可以使用音频捕获设备220接收)可以被编码为远场信号。在示例中,第二对象212可以具有可以由坐标指定的位置,例如径向或球面坐标,并且可以包括关于距参考位置201或距参考方向(例如观看方向)的距离和角度(例如,包括方位角和/或仰角)的信息。在图3的示例中,第二对象212可以具有由半径r1、方位角0
°
和仰角0
°
定义的位置(图3的示例没有图示出“仰角”平面)。
68.量化示例300示出了映射到中间深度或半径r2的第一对象211,该中间深度或半径r2小于远场深度或第一半径r1并且大于近场深度或rn。也就是说,例如当第一对象211被确定为在距参考位置201的距离r2处(例如可以使用深度图或来自深度传感器230的其他信息来确定)时,来自第一对象211的声音(例如可以使用音频捕获设备220接收)可以被编码为具有特定或指定深度r2的信号。在示例中,第一对象211可以具有可由坐标指定的位置,例如径向或球面坐标,并且可以包括关于距参考位置201或距参考方向(例如观看方向)的距离和角度(例如,包括方位角和/或仰角)的信息。在图3的示例中,第一对象211可以具有由半径r2、方位角α
°
和仰角0
°
定义的位置(图3的示例没有图示出“仰角”平面)。
69.在示例中,可以使用来自音频捕获设备220和深度传感器230的信息来生成和编码音频源或虚拟源。例如,如果深度传感器指示位于相对于参考位置210的距离(或半径)r2处并且相对于观看方向的角度α
°
处的对象,则可以提供第一空间音频信号,并且第一空间音频信号可以包括来自位于r2和角度α
°
处的音频捕获设备220(例如,音频对象或虚拟源)的
音频信号信息。如果深度传感器230指示距离(或半径)r1和方位角0
°
处的对象,则可以提供第二空间音频信号,并且第二空间音频信号可以包括来自位于半径r1和方位角0
°
处的音频捕获设备220的音频信号信息。
70.在示例中,来自深度传感器230的信息可以指示环境中同时存在一个或多个对象。可以使用各种技术来确定来自音频捕获设备220的音频信息中的哪个(如果存在)对应于相应对象中的一个或多个。例如,诸如使用来自深度传感器230的信息确定的关于物理对象随时间的移动的信息可以与音频信息中的改变相关。例如,如果观察到物理对象从环境的一侧移动到另一侧,并且音频信息的至少一部分类似地从环境的同一侧移动到另一侧,则可以在物理对象和音频信息的该部分之间找到相关性,并且可以为音频信息分配与移动的物理对象的深度对应的深度。在示例中,例如与物理对象的移动一起,与音频信息相关联的深度信息可以随时间变化。可以使用各种阈值条件或学习后的参数来减少假阳性相关性的发现。
71.在示例中,可以使用分类器电路或软件实现的分类器模块来对物理对象进行分类。例如,分类器电路可以包括被配置为处理来自深度传感器230的关于环境的图像信息的神经网络或其他识别器电路,或者可以处理来自被配置为接收关于相同环境的图像信息的图像捕获设备的图像信息。在示例中,分类器电路可以被配置为识别各种对象并提供关于与这些对象相关联的相应听觉简档的信息。在示例中,听觉简档可以包括关于已知或被认为与特定对象相关联的声音的音频、幅度或其他特性的信息。在图3的示例中,分类器电路可用于将第一对象211识别为鸭子或嘎吱声玩具,并且作为响应,提供以下指示,即“嘎吱”声音(例如,包括相对较高频率信息,具有较短持续时间且高度瞬变的声音)的听觉简档一般可与来自第一对象211的声音相关联。类似地,分类器电路可用于将第二对象212识别为狮子,并且作为响应,提供以下指示,即“咆哮”声音(例如,声音包含相对低频信息,持续时间更长并且具有大幅度和柔和瞬变的声音)的听觉简档一般可与来自第二对象212的声音相关联。在示例中,空间音频编码器电路可以耦合到分类器电路或者可以包括分类器电路,并且可以使用关于经分类的对象的信息来识别输入音频信息与环境中的物理对象之间的相关性。
72.图4一般性地示出了用于音频捕获和空间音频信号编码的音频编码器系统400的框图的示例。图4的示例可以包括处理器电路410,例如可以包括空间音频编码器电路或模块,或对象分类器电路或模块。在示例中,根据音频编码器系统400的框图配置的电路可用于编码或渲染具有相应方向或深度特性的一个或多个信号。图4表示信号流和处理的一个示例,并且在所示的功能块之间或之中的其他互连或数据共享是允许的。类似地,可以在模块之间重新分配处理步骤,以适应各种处理器电路架构或优化。
73.在示例中,音频编码器系统400可用于使用音频捕获设备220接收音频信号,使用深度传感器230接收物理对象位置或朝向信息、以及使用接收到的音频信号和接收到的物理对象信息对空间音频信号进行编码。例如,该电路可以利用关于三维声场中的一个或多个音频源或虚拟源的信息来对空间音频信号进行编码,例如每个源或源组具有不同的相应深度特性。在示例中,接收到的音频信号可以包括声场或3d音频信号,该声场或3d音频信号包括一个或多个分量或音频对象。接收到的物理对象信息可以包括关于经分类的对象和相关联的听觉简档的信息,或者可以包括关于一个或多个物理对象在环境中的放置或朝向的
信息。
74.在示例中,空间音频信号编码可以包括使用处理器电路410或其一个或多个处理模块,以接收第一音频信号并确定该音频信号的分量的位置、方向和/或深度。可以接收、测量或以其他方式确定音频信号分量的参考系坐标或原点信息。一个或多个音频对象可以被解码以经由扬声器或耳机再现,或者可以被提供给处理器以重新编码为新的声场格式。
75.在示例中,处理器电路410可以包括用于执行音频信号编码的各种模块或电路或软件实现的过程(例如可以使用通用或专用构建的电路来执行)。在图4中,音频信号或数据源可以包括音频捕获设备220。在示例中,音频源向处理器电路410提供音频参考系数据或原点信息。音频参考系数据可以包括关于音频信息的固定或变化的原点或参考点的信息,例如相对于环境或相对于深度传感器230。深度传感器230和音频捕获设备220的相应原点、参考位置或朝向可以随时间而改变,并且可以在确定在环境中识别的物理对象与来自环境的音频信息之间的相关性时加以考虑。
76.在示例中,处理器电路410包括fft模块404,fft模块404被配置为从音频捕获设备220接收音频信号信息并将接收到的(多个)信号转换到频域。可以使用空间处理、转向或平移来处理转换后的信号以改变接收到的音频信号信息的位置、深度或参考系。
77.在示例中,处理器电路410可以包括对象分类器模块402。对象分类器模块402可以被配置为实现在此讨论的分类器电路的一个或多个方面。例如,对象分类器模块402可以被配置为从深度传感器230接收图像或深度信息,并应用基于人工智能的工具(例如机器学习或基于神经网络的处理)来识别环境中存在的一个或多个物理对象。
78.在示例中,处理器电路410包括空间分析模块406,空间分析模块406被配置为从fft模块404接收频域音频信号,并且可选地接收与音频信号相关联的音频数据的至少一部分。空间分析模块406可以被配置为使用频域信号来确定一个或多个信号或其信号分量的相对位置。例如,空间分析模块406可以被配置为确定第一声源位于或应该位于收听者或参考视频位置的前面(例如,0
°
方位角),并且第二声源位于或应该位于收听者或参考视频位置的右侧(例如,90
°
方位角)。在示例中,空间分析模块406可以被配置为处理接收到的信号并生成虚拟源,该虚拟源被定位或打算在相对于参考视频或图像位置的指定位置或深度处渲染,包括当该虚拟源基于来自一个或多个输入音频信号的信息并且每个空间音频信号对应于例如相对于参考位置的相应不同位置时。
79.在示例中,空间分析模块406被配置为确定音频源位置或深度,并使用基于参考系的分析来将源变换到新位置,例如对应于视频源的参考系,如在标题为“non-coincident audio-visual capture system”的pct专利申请序列号pct/us2019/40837中类似地讨论的,其全文通过引用整体并入本文。包括ambisonic信号的声场信号的空间分析和处理在标题为“ambisonic depth extraction”的美国专利申请序列号16/212,387中和标题为“audio rendering using 6-dof tracking”的美国专利申请9,973,874号中进行了详细讨论,其中每个申请都通过引用整体并入本文。
80.在示例中,处理器电路410可以包括信号形成模块408。信号形成模块408可以被配置为使用接收到的频域信号来生成一个或多个虚拟源,该一个或多个虚拟源可以被输出作为具有相关联的元数据的声音对象,或者可以被编码为空间音频信号。在示例中,信号形成模块408可以使用来自空间分析模块406的信息来在声场中的相应指定位置或相应深度处
识别或放置各种声音对象。
81.在一个示例中,信号形成模块408可以被配置为使用来自空间分析模块406和对象分类器模块402两者的信息来识别或放置由空间分析模块406识别的各种声音对象。在示例中,信号形成模块408可以使用关于所识别的物理对象或音频对象的信息,例如关于所识别的对象的听觉简档或签名的信息,来确定(例如,使用音频捕获设备220接收的)音频数据是否包括对应于听觉简档的信息。如果在特定对象的听觉简档(例如,与环境中的其他对象不同)和音频数据的特定部分(例如,对应于特定一个或多个频带,或持续时间,或音频频谱在时间上的其他部分)之间存在足够的对应性,则该特定对象可以与音频数据的相应特定部分相关联。在另一示例中,可以使用诸如机器学习或基于神经网络的处理之类的人工智能来确定这种对应性。
82.在另一示例中,信号形成模块408可以使用空间分析模块406的结果或产物与来自深度传感器230的信息(可选地利用对象分类器模块402处理过)来确定音频源位置或深度。例如,信号形成模块408可以使用相关性信息或者可以确定在图像数据中所识别的物理对象或深度与从空间分析模块406接收的音频信息之间是否存在相关性。在示例中,可以至少部分地通过将所识别的视觉对象的方向或位置与所识别的音频对象的方向或位置进行比较来执行确定相关性。处理器电路410的其他模块或部分可以类似地或独立地用于确定图像数据中的信息和音频数据中的信息之间的相关性。
83.在具有高对应性或相关性的示例中,信号形成模块408可以使用来自音频和视觉对象的位置信息的加权组合。例如,权重可用于指示最匹配空间音频分布的音频对象的相对方向,并且可与来自深度传感器视觉数据或图像数据的深度信息一起使用。这可以提供最准确地将空间音频信号输出的深度能力匹配到使用深度传感器和音频捕获设备的听觉环境的最终源位置编码。
84.在示例中,来自信号形成模块408的信号可以被提供给可以帮助生成用于传输、再现或其他处理的信号的其他下游处理模块。例如,从信号形成模块408输出的空间音频信号可以包括或使用虚拟化处理、滤波或其他信号处理来整形或修改音频信号或信号分量。下游处理模块可以从一个或多个模块接收数据和/或音频信号输入,并使用信号处理来旋转或平移接收到的音频信号。
85.在示例中,多个下游模块创建从其观察听觉环境的多个有利点。这些模块可以利用标题为“non-coincident audio-visual capture system”的pct专利申请序列号pct/us2019/40837中描述的方法,其通过引用并入本文。
86.在备选示例中,信号形成模块408的音频编码/渲染部分可以针对每个期望的有利点进行复制。在示例中,空间音频信号输出可以包括具有相应不同参考位置或朝向的多个编码。在示例中,信号形成模块408可以包括逆fft模块或可以向逆fft模块提供信号。逆fft模块可以生成具有或不具有元数据的一个或多个输出音频信号声道。在示例中,来自逆fft模块的音频输出可以用作声音再现系统或其他音频处理系统的输入。在示例中,输出可以包括深度扩展的ambisonic信号,例如可以通过在美国专利10,231,073号“ambisonic audio rendering with depth decoding”中讨论的系统或方法来解码,其通过引用并入本文。在示例中,可能期望保持输出格式不可知,并且支持对各种布局或渲染方法的解码,例如,包括具有位置信息的单声道主干、基底/床混合、或例如包括环绕声格式的其他声场表
示。
87.在示例中,多个深度传感器可以耦合到处理器电路410,并且处理器电路410可以使用来自任何一个或多个深度传感器的信息来识别关于环境中的物理对象的深度信息。每个深度传感器可以具有或者可以关联其自己的参考系或环境中的相应参考位置。因此,环境中的音频对象或源可以相对于每个深度传感器的参考位置具有不同的相对位置或深度。随着观看者视角改变,例如当视频信息从第一相机的视角改变为不同的第二相机的视角时,则收听者视角可以类似地通过更新或调整相关联的一个或多个音频源的深度或朝向或旋转来改变。在示例中,处理器电路410可以被配置为例如使用交叉渐变或其他信号混合技术来调节针对音频信息的这种视角变化。
88.在示例中,多个音频捕获设备(例如,音频捕获设备220的多个实例)可以耦合到处理器电路410,并且处理器电路410可以使用来自任何一个或多个音频捕获设备的信息来接收关于环境的音频信息。在示例中,可以至少部分地基于特定音频捕获设备与在环境中识别的特定物理对象的接近程度来选择音频捕获设备中的特定一个或组合以供使用。也就是说,如果环境中的第一音频捕获设备更靠近第一物理对象,则可以使用来自第一音频捕获设备的音频信息生成针对第一物理对象的深度编码音频信号,例如当第一音频捕获设备比环境中的另一音频捕获设备更好地捕获关于第一物理对象的声音信息时。
89.图5一般性地示出了可以包括对空间音频信号进行编码的第一方法500的示例。第一方法500可以至少部分地使用处理器电路410的一个或多个部分来执行。在步骤502中,第一方法500可以包括从环境中的音频捕获源接收音频场景信息。在示例中,接收音频场景信息可以包括使用音频捕获设备220,并且音频场景信息可以包括具有或不具有深度信息的音频信号。音频场景信息可以可选地具有相关联的视角、观看方向、朝向或其他空间特性。
90.在步骤504中,第一方法500可以包括识别接收到的音频场景中的至少一个音频分量。识别音频分量可以包括例如识别对接收到的音频场景信息的时间-频率表示的信号贡献。音频分量可以包括针对特定频带或范围的音频信号信息,例如音频节目的持续时间或节目的离散部分。在示例中,步骤504可以包括识别与音频场景信息相关联或与音频场景信息的一部分相关联的方向。
91.在步骤506中,第一方法500可以包括从深度传感器接收关于环境中的一个或多个对象的深度特性信息。步骤506可以包括或使用来自深度传感器230的信息。在示例中,步骤506可以包括使用深度传感器230中的电路来接收图像或深度图信息,以处理信息并识别深度信息,或者步骤506可以包括使用耦合到传感器的不同处理器电路。在示例中,步骤506包括使用处理器电路以在图像或深度图信息中识别由深度传感器230监控的环境中的一个或多个物理对象,例如包括识别关于对象的边界信息。在示例中,深度特性信息可以相对于深度传感器230的参考位置或环境的参考位置来提供。
92.在示例中,步骤506可以包括接收关于环境中的一个或多个对象的方向信息,例如使用来自深度传感器230的信息。步骤506可以包括为所识别的任何物理对象识别相应的方向或朝向信息。可以相对于参考位置或观看方向提供方向或朝向信息。在示例中,在步骤506中接收方向信息可以包括接收关于相对于参考的方位角或高度角的信息。
93.在步骤508中,第一方法500可以包括基于所识别的至少一个音频分量和深度特性信息对空间音频信号进行编码。步骤508可以包括使用从步骤502接收到的音频场景信息,
并且使用从步骤506接收到的深度特性来对空间音频信号进行编码。也就是说,在步骤508编码的空间音频信号可以包括例如具有来自在步骤502处接收到的音频场景的音频以及来自在步骤506处接收到的深度信息的深度特性的虚拟源的信息。对空间音频信号进行编码可以是例如包括在不同深度处量化的音频信息的ambisonic信号。在示例中,步骤508可以包括基于在步骤504中识别的或在步骤506处与深度特性一起接收到的方向信息对空间音频信号进行编码。因此,例如除了音频所对应的物理对象的深度之外,对空间音频信号进行编码还可以包括关于虚拟源的方位角或高度角的信息。
94.图6一般性地示出了第二方法600的示例,该方法可以包括基于相关性信息对空间音频信号进行编码。第二方法600可以至少部分地使用处理器电路410的一个或多个部分来执行。在图6的示例中,步骤610可以包括确定来自环境的音频场景信息与在该环境中识别的物理对象的深度特性之间的相关性。在示例中,可以根据第一方法500的示例来接收或确定音频场景信息。步骤610可以包括使用处理器电路410来分析音频信息并确定音频信息与环境中的对象或对象的位置之间的对应性或对应可能性。
95.例如,处理器电路410可以识别环境中的一个或多个潜在音频源随时间改变的位置,并且处理器电路410还可以识别环境中的一个或多个物理对象例如随相同时间改变的位置。如果至少一个潜在音频源的位置改变对应于至少一个物理对象的位置改变,则处理器电路410可以提供音频源和物理对象相关的强相关性或肯定指示。
96.可以使用各种因素或考虑来确定所识别的音频源和物理对象之间的相关性或对应性的强度。例如,来自对象分类器模块402的信息可用于提供关于已知或预期与所识别的特定物理对象相关联的特定音频特征的信息。如果在所识别的物理对象附近发现具有特定音频特性的音频源,则可以认为音频信息和物理对象是对应的或相关的。可以进一步识别或计算对应性的强度或质量,以指示音频和物理对象相关的置信度。
97.在步骤620和步骤630处,可以例如使用处理器电路410来评估在步骤610处识别的相关性的强度。在步骤620处,第二方法600包括确定在音频场景信息和特定物理对象的深度特性之间是否存在强相关性。在示例中,可以基于例如可以在步骤610处确定的相关性的量化值来确定相关性是否强。相关性的量化值可以与各种阈值等级相比较,阈值等级例如可以被指定或编程,或者可以通过机器学习系统随着时间进行学习。在示例中,在620处确定相关性强可以包括确定相关性的值满足或超过所指定的第一阈值。
98.在图6的示例中,如果在步骤620处确定相关性强,则第二方法600可以前进到步骤622,并且使用接收到的特定对象的深度特性来对空间音频信号进行编码。也就是说,如果在步骤620处确定强相关性,则可以认为接收到的或所识别的音频源信息充分对应于特定物理对象,使得音频源可以位于与特定物理对象相同的深度或位置处。
99.如果在步骤620,相关性的相对强度不满足来自步骤620的标准,则第二方法600可以前进到步骤630,以进一步评估相关性。如果相关性的值满足或超过所指定的第二阈值条件或值,则可以确定相关性弱,并且第二方法600在步骤632处继续。步骤632可以包括使用音频源的参考深度特性来对空间音频信号进行编码。在示例中,参考深度特性可以包括远场深度或其他默认深度。例如,如果没有找到来自音频场景的特定音频源或其他音频信息与在环境中识别的对象之间的充分或最小相关性,或者如果没有识别或不能识别特定或离散对象,则可以确定该音频源属于远场或参考平面。
100.如果在步骤630处的相关性的值不满足第二阈值条件或值,则第二方法600可以在步骤634处继续。步骤634可以包括使用音频源的中间深度特性来对空间音频信号进行编码。中间深度可以是与它到远场深度相比更接近参考位置的深度,并且是不同于所识别的物理对象的深度的深度。在示例中,如果在步骤610处确定的相关性指示特定音频信号对应于特定物理对象的中间确定性或置信度,则该特定音频信号可以被编码在靠近该特定物理对象但不一定位于该特定物理对象的深度的位置或深度处。
101.在示例中,深度信息可以包括在确定相关性时可以考虑的不确定性度量。例如,如果深度图指示对象有可能但不确定处于特定深度,则对应于该对象的音频信息可以被编码在不同于特定深度的深度处,例如,比该特定深度更接近远场。在示例中,如果深度图指示对象可以出现在不同深度的范围内,则对应于该对象的音频信息可以被编码在该范围内选定的一个深度处,例如该范围内最远的深度。用于编码、解码和使用具有中等深度特性的音频信息或混合的系统和方法在标题为“ambisonic depth extraction”的美国专利申请序列号16/212,387中进行了详细讨论,其通过引用整体并入本文。
102.图7一般性地示出了可以包括提供音频场景信息对应于指定物理对象的置信度指示的第三方法700的示例。第三方法700可以至少部分地使用处理器电路410的一个或多个部分来执行。
103.在步骤710处,第三方法700可以包括使用深度传感器230接收物理对象深度信息。在示例中,步骤710可以包括接收关于多个对象的深度信息,并确定针对单个对象或针对一组多个对象的组合深度估计。在示例中,步骤710可以包括确定组合深度估计,该组合深度估计可以表示环境中的候选对象的不同对象深度的组合。在示例中,深度信息可以基于关于多个对象的加权深度或置信度指示。关于对象的置信度指示可以指示机器识别的对象对应于特定受关注对象或特定音频对象的置信度或可能性。在示例中,基于多个对象的组合深度估计可以基于多个视频帧或来自随时间变化的深度信息,例如以便提供缓慢过渡而不是快速跳转到不同位置的深度的平滑或连续指示。
104.在步骤720处,第三方法700可以包括例如使用音频捕获设备220从音频传感器接收音频场景信息。在图7的示例中,步骤730可以包括将接收到的音频场景信息解析成离散的音频信号或音频分量。在示例中,接收到的音频场景信息包括来自方向麦克风、或来自麦克风阵列、或来自声场麦克风的信息。在示例中,接收到的音频场景信息包括多个不同音频信号的多声道混合,例如可以表示来自多个不同参考位置、视角、观看方向的音频信息,或者可以具有其他相似或不同的特性。步骤730可以包括生成离散信号,例如离散音频信号声道、时间-频率块或音频场景信息的不同部分的其他表示。
105.步骤740可以包括识别每个音频信号中的音频对象的主导方向。例如,步骤740可以包括分析在步骤730处生成的每个离散信号以识别其中的音频对象。音频对象可以包括例如属于特定频带的音频信息,或者对应于特定时间或持续时间的音频信息,或者包括诸如瞬变特性之类的指定信号特性的音频信息。步骤740可以包括识别在音频场景中检测到每个音频对象的方向。
106.步骤750可以包括将在步骤740处识别的方向与在步骤710处接收的对象深度信息进行比较。比较方向可以包括确定音频对象的例如相对于公共参考方向或观看方向的方向是否对应于环境中的物理对象的方向。如果识别出对应性,例如当识别或确定音频对象和
物理对象都位于相对于公共参考角30
°
的方位角时,则第三方法700可以包括提供音频场景(或对应于音频对象的音频场景的特定部分)与环境中识别的物理对象相关的置信度指示。例如,根据图6的示例,可以使用相关性信息来对音频场景进行编码。
107.图8一般性地示出了可以包括确定音频信号特性与接收到的关于音频场景的信息之间的对应性的第四方法800的示例。可以至少部分地使用处理器电路410的一个或多个部分来执行第四方法800。在步骤810处,第四方法800可以包括例如使用音频捕获设备220从音频传感器接收音频场景信息。在步骤820处,第四方法800可以包括例如从相机或从深度传感器230接收图像或视频信息。
108.在步骤830处,第四方法800可以包括识别在步骤820处接收的图像或视频信息中的对象。步骤830可以包括基于图像的处理,例如使用聚类、基于人工智能的分析或机器学习,来识别在相机的图像或视场中存在或可能存在的物理对象。在示例中,步骤830可以包括确定所识别的任何一个或多个不同对象的深度特性。
109.在步骤840处,第四方法800可以包括对在步骤830处识别的对象进行分类。在示例中,步骤840可以包括使用基于神经网络的分类器或机器学习分类器来接收图像信息,并且作为响应,为所识别的对象提供分类。分类器可以在各种数据上训练,例如,以识别人类、动物、无生命的对象或可能会或可能不会产生声音的其他对象。步骤850可以包括确定与经分类的对象相关联的音频特性。例如,如果在步骤840处识别出人类男性,则步骤850可以包括确定对应于人类男性声音的听觉简档,例如可以具有各种频率和瞬变特性。如果在步骤840处识别出狮子,则步骤850可以包括确定对应于已知与狮子相关联的噪声或话语的听觉简档,例如可以具有不同于与人类相关联的那些频率和瞬变特性。在示例中,步骤850可以包括或使用查找表来映射具有各种对象或对象类型的音频特性。
110.在步骤860处,第四方法800可以包括确定在步骤850处确定的音频特性与在步骤810处接收的音频场景信息之间的对应性。例如,步骤860可以包括确定音频场景信息是否包括与在环境中识别的对象的听觉简档匹配或对应的音频信号内容。在示例中,关于对应性的信息可以用于确定音频场景和检测到的物理对象之间的相关性,相关性例如可以根据图6的示例来使用。
111.结合在此公开的实施例描述的各种说明性逻辑块、模块、方法、以及算法过程和序列可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,各种说明性组件、块、模块和过程动作在上面一般性地根据它们的功能进行了描述。这种功能是以硬件实现还是以软件实现,取决于对整个系统施加的特定应用程序和设计约束。所描述的功能可以针对每个特定应用以不同的方式实现,但是这样的实现决策不应被解释为导致偏离本文档的范围。用于检测深度信息并使用深度和音频信息之间的相关性来对空间音频信号进行编码的系统和方法的实施例,以及在此描述的其他技术,在例如图9的讨论中描述的多种类型的通用或专用计算系统环境或配置中可操作。
112.结合在此公开的实施例描述的各种说明性逻辑块和模块可以由机器实现或执行,例如通用处理器、处理设备、具有一个或多个处理设备的计算设备、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件组件、或其被设计为执行在此描述的功能的任何组合。通用处理器和处理设备可以是微处理器,但备选地,处理器可以是控制器、微控制器或状态机、它们的组合等。处
理器还可以被实现为计算设备的组合,例如dsp和微处理器的组合、多个微处理器、结合dsp核心的一个或多个微处理器或任何其他这样的配置。
113.此外,实施在此描述的虚拟化和/或最佳适配的各种示例中的一些或全部的软件、程序或计算机程序产品的一个或任何组合,或其部分,可以以计算机可执行指令或其他数据结构的形式从计算机或机器可读介质或存储设备和通信介质的任何期望组合存储、接收、传输或读取。尽管本主题是以特定于结构特征和方法动作的语言来描述的,但是应当理解,在所附权利要求中定义的主题不一定限于在此描述的特定特征或动作。相反,上面描述的特定特征和动作被公开作为实施权利要求的示例形式。
114.各种系统和机器可以被配置为执行或实施在此描述的一个或多个信号处理任务,包括但不限于音频分量定位或重新定位,或例如使用hrtf和/或其他音频信号处理的朝向确定或估计。可以使用通用机器或使用执行各种处理任务的专用机器来实现或执行所公开的电路或处理任务中的任何一个或多个,例如使用从有形的、非瞬态的、处理器可读的介质取回的指令。
115.图9是机器900的示意图,在该机器900中可以执行用于使机器900实施在此讨论的任何一个或多个方法的指令908(例如,软件、程序、应用、小应用、应用程序或其他可执行代码)。例如,指令908可以使机器900执行在此描述的任何一个或多个方法。指令908可以将通用的、非编程的机器900转换成被编程为以所描述的方式执行所描述和图示的功能的特定机器900。
116.在示例中,机器900可以作为独立设备操作,或者可以耦合(例如,联网)到其他机器或设备或处理器。在联网部署中,机器900可以在服务器-客户端网络环境中以服务器机器或客户端机器的能力操作,或者在对等(或分布式)网络环境中作为对等机器操作。机器900可以包括服务器计算机、客户端计算机、个人计算机(pc)、平板计算机、膝上型计算机、上网本、机顶盒(stb)、pda、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如,智能手表)、智能家居设备(例如,智能家电)、其他智能设备、网络设备、网络路由器、网络交换机、网桥或能够顺序或以其他方式执行指令908的任何机器,指令908指定要由机器900采取的动作。此外,虽然仅示出了单个机器900,但术语“机器”可被视为包括单独或联合执行指令908以实施在此讨论的任何一个或多个方法的机器的集合。在示例中,指令908可以包括可以使用处理器电路410来执行以实施在此讨论的一个或多个方法的指令。
117.机器900可以包括各种处理器和处理器电路(例如在图9的示例中表示为处理器902)、存储器904和i/o组件942,它们可以被配置为经由总线944彼此通信。在示例中,处理器902(例如,中央处理单元(cpu)、精简指令集计算(risc)处理器、复杂指令集计算(cisc)处理器、图形处理单元(gpu)、数字信号处理器(dsp)、asic、射频集成电路(rfic)、另一处理器或其任何合适的组合)可以包括例如执行指令908的处理器906和处理器910。术语“处理器”旨在包括多核处理器,该多核处理器可以包括能够同时执行指令的两个或多个独立处理器(有时被称为“核”)。尽管图9示出了多个处理器,但是机器900可以包括单个具有单个核的处理器、单个具有多个核的处理器(例如,多核处理器)、多个具有单个核的处理器、多个具有多个核的处理器或其任意组合,以例如提供处理器电路410。
118.存储器904可以包括主存储器912、静态存储器914或存储单元916,例如处理器902可以通过总线944访问。存储器904、静态存储器914和存储单元916可以存储实现在此描述
的方法或功能或过程中的任何一个或多个的指令908。在机器900执行指令908期间,指令908还可以完全或部分地驻留在主存储器912内、静态存储器914内、存储单元916内的机器可读介质918内、至少一个处理器内(例如,在处理器的高速缓冲存储器内)或其任何适当的组合内。
119.i/o组件942可以包括用于接收输入、提供输出、产生输出、发送信息、交换信息、捕获测量等的各种组件。特定机器中包括的特定i/o组件942将取决于机器的类型。例如,诸如移动电话之类的便携式机器可以包括触摸输入设备或其他这样的输入机构,而无头服务器机器可能不包括这样的触摸输入设备。应当理解,i/o组件942可以包括图9中未示出的许多其他组件。在各种示例实施例中,i/o组件942可以包括输出组件928和输入组件930。输出组件928可以包括视觉组件(例如,显示器,诸如等离子显示面板(pdf)、发光二极管(led)显示器、液晶显示器(lcd)、投影仪或阴极射线管(crt))、声学组件(例如,扬声器)、触觉组件(例如,振动电机、阻力机构)、其他信号发生器等。输入组件930可以包括字母数字输入组件(例如,键盘、被配置为接收字母数字输入的触摸屏、光电键盘或其他字母数字输入组件)、基于点的输入组件(例如,鼠标、触摸板、追踪球、操纵杆、运动传感器或其他定点仪器)、触感输入组件(例如,物理按钮、提供触摸或触摸手势的位置和/或力的触摸屏、或其他触觉输入组件)、音频输入组件(例如,麦克风)、视频输入组件等。
120.在示例中,i/o组件942可以包括生物测定组件932、运动组件934、环境组件936或位置组件938以及大量其他组件。例如,生物测定组件932包括被配置为检测人类、宠物或其他个体或对象的存在或不存在的组件,或者被配置为检测表情(例如,手表情、面部表情、声音表情、身体姿势或眼睛追踪)、测量生物信号(例如,血压、心率、体温、汗水或脑波)、识别人(例如,语音识别、视网膜识别、面部识别、指纹识别、或基于脑电波的识别)等的组件。运动组件934可以包括加速度传感器组件(例如,加速度计)、重力传感器组件、旋转传感器组件(例如,陀螺仪)等。
121.环境组件936可以包括例如照明传感器组件(例如,光度计)、温度传感器组件(例如,检测环境温度的一个或多个温度计)、湿度传感器组件、压力传感器组件(例如,气压计)、声学传感器组件(例如,检测背景噪声的一个或多个麦克风)、接近传感器组件(例如,检测附近对象的红外传感器)、气体传感器(例如,用于检测危险气体浓度的气体检测传感器或用于测量大气中的污染物的气体检测传感器),或可以提供对应于周围物理环境的指示、测量、或信号的其他组件。位置组件938包括地点传感器组件(例如,gps接收器组件、rfid标签等)、高度传感器组件(例如,检测可从中导出高度的气压的高度计或气压计)、朝向传感器组件(例如,磁强计)等。
122.i/o组件942可以包括通信组件940,通信组件940可操作用于分别经由耦合924和耦合926将机器900耦合到网络920或设备922。例如,通信组件940可以包括网络接口组件或与网络920对接的另一合适的设备。在进一步的示例中,通信组件940可以包括有线通信组件、无线通信组件、蜂窝通信组件、近场通信(nfc)组件、组件(例如,低能量)、组件以及经由其他模式提供通信的其他通信组件。设备922可以是另一台机器或各种外围设备(例如,通过usb耦合的外围设备)中的任何一个。
123.此外,通信组件940可以检测标识符或包括可操作为检测标识符的组件。例如,通
信组件940可以包括射频识别(rfid)标签读取器组件、nfc智能标签检测组件、光学读取器组件(例如,用于检测例如通用产品代码(upc)条形码的一维条形码、例如快速响应(qr)码的多维条形码、aztec码、数据矩阵、dataglyph、maxicode、pdf417、ultra code、ucc rss-2d条形码和其他光学代码的光学传感器)或听觉检测组件(例如,用于识别标记的音频信号的麦克风)。此外,可通过通信组件940导出各种信息,例如通过网际协议(ip)地理位置的位置、通过信号三角测量的位置、或通过检测可指示特定位置的nfc信标信号的位置,等等。
124.各种存储器(例如,存储器904、主存储器912、静态存储器914和/或处理器902的存储器)和/或存储单元916可以存储一个或多个指令或数据结构(例如,软件),这些指令或数据结构(例如,软件)实施在此描述的方法或功能中的任何一个或多个或由其来使用,当由处理器或处理器电路执行时,这些指令(例如,指令908)导致各种操作来实现在此讨论的实施例。
125.指令908可以使用传输介质、经由网络接口设备(例如,包括在通信组件940中的网络接口组件)并使用多种公知的传输协议(例如,超文本传输协议(http))中的任何一种在网络920上发送或接收。类似地,可以使用传输介质经由耦合926(例如,对等耦合)向设备922发送或接收指令908。
126.在本文档中,如专利文档中常见的那样,术语“一”或“一个”用于包括一个或多个,独立于“至少一个”或“一个或多个”的任何其他实例或用法。在本文档中,术语“或”用于指非排他性或,使得“a或b”包括“a而不是b”、“b而不是a”以及“a和b”,除非另有说明。在本文档中,术语“包括”和“在其中”用作相应术语“包含”和“其中”的通俗易懂的等同形式。
127.这里使用的条件性语言,例如,除其他外,“能”、“可能”、“可以”、“例如”等,除非另有特别说明,或在所使用的上下文中以其他方式理解,否则通常意在传达某些实施例包括某些特征、元素和/或状态,而其他实施例不包括某些特征、元素和/或状态。因此,这种条件语言通常并不意在暗示一个或多个实施例以任何方式需要特征、元素和/或状态,或者一个或多个实施例必须包括用于在有或没有作者输入或提示的情况下确定在任何特定实施例中是否包括或将执行这些特征、元素和/或状态的逻辑。
128.尽管上述详细描述已经示出、描述和指出了应用于各种实施例的新颖特征,但是可以理解,如将认识到的那样,可以对所示的设备或算法的形式和细节进行各种省略、替换和改变,这里描述的发明的某些实施例可以以不提供在此陈述的所有特征和益处的形式来实现,因为一些特征可以与其他特征分开使用或实施。
129.此外,尽管已经用结构特征或方法或动作专用的语言描述了该主题,但是应当理解,在所附权利要求中定义的主题不一定限于上述特定特征或动作。相反,上面描述的特定特征和动作被公开作为实现权利要求的示例形式。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1