用于存储捕获元数据的空间音频文件格式的制作方法

文档序号:23475067发布日期:2020-12-29 13:29阅读:90来源:国知局
用于存储捕获元数据的空间音频文件格式的制作方法

本公开的一个方面涉及音频文件格式,该音频文件格式包括与捕获设备相关的元数据。



背景技术:

音频捕获设备诸如麦克风或具有麦克风的设备可通过用电声换能器将声压变化转换成电信号来感测声音。电信号可用模数转换器(adc)数字化并被编码以形成具有已知文件格式的音频文件,这些已知文件格式例如aiff、au、flac、mpeg4-lsl、mpeg-4als、wma无损、opus、mp3、一阶或更高阶高保真度立体声响复制格式等。解码器可对文件格式进行解码并利用可用于驱动扬声器的经解码的音频文件生成一组音频信号。



技术实现要素:

存在音频文件格式,该音频文件格式具有格式化为特定播放配置(例如,立体声、5.1或7.1)的音频数据。此类音频格式化可特定于预定义的扬声器布置。然而,在这种情况下,不太理想的扬声器放置可能导致令人不悦的音频播放体验。

此外,格式化以用于播放的音频文件缺乏灵活性。从一种音频格式转换到另一种音频格式的任务可能效率低下,并且音频数据可能在转换中丢失,由设备录制的原始声音难以再现。

与格式化为特定播放配置的音频文件相比,高保真度立体声响复制录音,例如b格式或更高阶高保真度立体声响复制录音具有灵活性,因为高保真度立体声响复制录音可被呈现为不同的播放配置。高保真度立体声响复制录音文件不指定或不需要特定的播放布置。然而,高保真度立体声响复制捕获设备需要特殊的麦克风阵列,其中麦克风以特定布置方式(例如,球形阵列)精确布置。此类麦克风放置可能并不适用于所有捕获设备(例如,移动电话或平板电脑)。

此外,一阶高保真度立体声响复制录音具有低空间分辨率。这可能导致声源模糊。更高阶高保真度立体声响复制可以提供更高分辨率,但所得的音频文件可能增加到很大尺寸,使其难以操作。例如,12阶高保真度立体声响复制录音可能需要具有169个信道的均匀或接近均匀的球形麦克风阵列布置,因为信道的数量由(m+1)2来定义,其中m为阶数。信道以许多更高阶高保真度立体声响复制格式化约定(例如acn、sid、furse-malham或其他)和不同归一化方案(诸如n3d、sn3d、n2d、sn2d、maxn或其他)中的一者格式化,这可能导致额外的损失。

可生成音频数据文件以在不同播放配置中具有灵活性。播放设备或格式化设备可以设备选择的方式来处理用户的原始麦克风数据。例如,播放设备可使用音频数据文件的元数据对原始麦克风数据进行波束成形或空间化。元数据可包括捕获设备的麦克风的一个或多个脉冲响应。该脉冲响应数据可在播放侧上用于对原始麦克风数据进行滤波以提供更沉浸式的音频体验。

在本公开的一个方面,描述了一种电子音频数据文件。该文件可包括两个或更多个麦克风信号的原始音频数据;以及元数据。该元数据可具有用于录制或捕获设备的两个或更多个麦克风中的每个麦克风的脉冲响应或传递函数。每个脉冲响应或传递函数可定义两个或更多个麦克风中的一个麦克风对声脉冲的响应。

在一个方面,一种用于捕获和/或处理音频的方法包括从捕获设备的麦克风接收麦克风信号;在电子音频数据文件中存储a)该麦克风信号,以及b)元数据,该元数据包括捕获设备的麦克风的一个或多个脉冲响应,其中该一个或多个脉冲响应定义麦克风对声脉冲的响应。

以上概述不包括本公开的所有方面的详尽列表。可预期的是,本公开包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在权利要求书部分特别指出的各个方面的所有合适的组合来实践的所有系统和方法。此类组合可具有未在上述发明内容中具体阐述的特定优点。

附图说明

本公开的各方面以举例的方式进行说明,而不仅限于各个附图的图示,在附图中类似的附图标号指示类似的元件。应当指出的是,在本公开中提到“一”或“一个”方面未必是同一方面,并且其意指至少一个。另外,为了简洁以及减少附图的总数,可使用给定附图示出本公开的不止一个方面的特征部,并且对于给定方面,可能并非需要该附图中的所有元件。

图1示出了根据一个方面的用于产生具有描述捕获设备的元数据的音频文件的系统。

图2示出了根据一个方面的具有麦克风和声源的捕获设备。

图3示出了根据一个方面的具有描述捕获设备的元数据的音频文件。

图4示出了根据一个方面的用于产生具有描述捕获设备的元数据的音频文件的过程或方法。

图5示出了根据一个方面的音频系统硬件的示例。

具体实施方式

现在将参考所附附图来解释本公开的各方面。每当所描述的部件的形状、相对位置和其它方面未明确限定时,本发明的范围并不仅局限于所示出的部件,所示出的部件仅用于例证的目的。另外,虽然阐述了许多细节,但应当理解,本公开的一些方面可在没有这些细节的情况下被实施。在其他情况下,未详细示出熟知的电路、算法、结构和技术,以免模糊对该描述的理解。

生成具有捕获设备信息的音频文件

现在参见图1,系统20包括生成音频文件的捕获设备18。该音频文件包含元数据,该元数据包括关于捕获设备的信息。该设备可包括可生成q个麦克风信号的多个(q个)麦克风。q个麦克风可在捕获设备上具有固定且已知的布置,从而形成一个或多个麦克风阵列。麦克风可具有电声换能器,该电声换能器将所感测的声音(例如,压力变化)转换成电信号(例如,模拟麦克风信号)。这些模拟信号可通过模数转换器(adc)进行数字化以生成数字麦克风信号。

编码器22可产生具有麦克风信号或从麦克风信号提取的原始音频数据(例如,麦克风信号的截短型式或剪切型式)的电子音频文件23。所存储的麦克风信号可以是未格式化的(例如,未被上混或下混)、未滤波的和/或未压缩的。编码器产生音频文件23的元数据,该元数据包括捕获设备18的q个麦克风的多个脉冲响应。每个脉冲响应可定义麦克风中的一个麦克风对空间中的特定位置处的声脉冲的声学响应。通过将捕获设备的脉冲响应与麦克风信号一起存储,播放设备可使用捕获设备的脉冲响应来处理麦克风信号以执行例如声源的波束成形、空间化和定位。

在一个方面,元数据可通过压缩模块29进行压缩。存储在音频文件中的脉冲响应的数量可取决于音频文件的所需空间分辨率和“覆盖范围”。音频文件的大小随着空间分辨率和空间“覆盖范围”的增加而增长。因此,脉冲响应或表示脉冲响应的滤波器(例如,具有滤波器抽头及其系数的有限脉冲响应滤波器(fir))可由已知的压缩算法压缩以减小元数据和音频文件的大小。

在一个方面,捕获设备包括传感器28,例如由加速度计、陀螺仪和/或磁力仪的组合形成的惯性测量单元。该设备可处理传感器数据以确定设备的取向(例如,设备在三维空间中的绝对或相对倾斜)。在一个方面,传感器28可包括相机。可处理来自相机的图像以利用已知的视觉里程计和/或即时定位与地图构建(slam)算法来跟踪设备。可在捕获音频的同时跟踪和记录设备的取向,使得音频文件与设备取向数据一起生成,该设备取向数据与麦克风信号或原始音频数据时间同步(例如,逐帧地)。

在一个方面,解码器或播放设备19可接收音频数据文件并且对具有麦克风信号和元数据的音频数据文件进行解码。解码器/设备19可具有音频处理器24,该音频处理器基于麦克风中的每个麦克风的脉冲响应来生成波束成形滤波器。在这种情况下,渲染器26可将波束成形滤波器应用于原始音频数据以生成多个l个波束成形信号。波束成形信号可用于驱动播放设备的扬声器27。

在一个方面,播放设备的音频处理器可使用音频文件的脉冲响应来生成空间化滤波器。渲染器26可将那些空间滤波器应用于音频文件的原始麦克风信号,并利用空间化的音频信号驱动扬声器。在一个方面,该设备可基于脉冲响应定位麦克风信号中的声音和/或识别麦克风信号中的语音和/或声音活动。

将麦克风的脉冲响应与原始麦克风信号组合成音频文件为播放设备提供了关于如何对麦克风信号进行滤波和格式化以用于播放的自由度。在一个方面,播放设备可包括上混器/下混器以将麦克风信号上混/下混至期望的播放配置(例如,立体声、5.1或7.1)。

音频文件元数据

图2和图3可关于生成具有元数据的音频文件一起讨论,该元数据包括捕获设备的脉冲响应。捕获设备41在图2中示出为具有多个麦克风43。尽管被示出为盒体,但捕获设备可以是具有两个或更多个麦克风的设备,诸如但不限于平板电脑、智能电话、膝上型电脑、头戴式设备(例如,“智能”眼镜、耳机套装、头戴式显示器(hmd))、麦克风阵列和智能扬声器。麦克风43可生成包含由麦克风感测的声音的麦克风信号。

图3示出了根据一个方面的音频数据文件50。麦克风的原始数据51(例如,数字化麦克风信号)可存储在音频数据文件50中。在一个方面,音频数据文件50包含一个或多个脉冲响应63。元数据的每个脉冲响应可形成为数字滤波器。

在一个方面,脉冲响应可与声音位置标识符61相关联,以指示相关联的脉冲响应基于其计算的声脉冲在空间中的位置或方向(例如,方位角或者方位角和高度)。例如,声源s1-s4可以是围绕捕获设备的距离或半径处的声音位置的索引。尽管示出为圆环,但其也可以是球体。在一个方面,环或球体上的声源的总数可在小于十到几千个的范围内。可基于特定于应用的考虑因素(例如,需要多少空间分辨率)来选择声源的数量。声源的位置可通过方向(例如,针对环的方位角,以及针对球体的方位角和高度)以及距被指定为设备的中心的点的距离(例如,半径)来描述。应当理解,声源位置不限于环或球体上的位置,并且在一个方面,声源的位置可利用描述相对于设备的声音位置的任何坐标系(例如,x、y和z)来描述。

在一个方面,元数据包括用于捕获设备的每个麦克风的麦克风标识符62。每个脉冲响应可与麦克风以及声源相关联。例如,其中一个脉冲响应可具有声源标识符s1和麦克风标识符“mic1”,其描述了从位置s1到mic1的声脉冲的脉冲响应。另一个脉冲响应可具有相同的声源标识符s1,但麦克风标识符为“mic2”,其描述了mic2的响应于位置s1处的声脉冲的脉冲响应。在一个方面,脉冲响应(例如,数字滤波器)可定义对音频数据文件中支持和限定的每个声源位置与捕获设备的每个麦克风之间的声脉冲的响应。脉冲响应可包括对应麦克风的电声换能器的特性。

例如,s1-s4中的每一者可以具有三个脉冲响应(mic1-3)。类似地,t1-t6声源中的每一者可具有三个脉冲响应(mic1-3)。随着脉冲响应的数量增加,音频文件的空间分辨率将提高,但该文件的大小也将增加。因此,要包括在音频文件的元数据中的脉冲响应的总数可以是特定于应用的并且/或者基于设计权衡来确定。

在一个方面,元数据包括相对于捕获设备的声源位置。例如,脉冲响应与元数据中的声源位置标识符相关联,该声源位置标识符表示对应脉冲响应的声脉冲的位置。声源可被定义为在围绕制品的环或球体上,但这不是必需的。元数据可包括环距捕获设备的距离或半径。为了说明,在图2中,s1-s4可具有距捕获设备的相同半径或距离r1,但位于环上的不同位置处。声音位置t1-t6的其他脉冲响应可具有距捕获设备的半径或距离r2。在一个方面,音频数据文件不包括或不需要理想的麦克风配置,例如麦克风的球形阵列。

在一个方面,音频数据文件50可包括捕获设备的几何模型(例如,三维“网格”或cad绘图)和布置在捕获设备上的麦克风的位置。这可进一步被播放设备或解码器用于处理原始音频(例如,通过生成波束成形滤波器或空间滤波器)。

在一个方面,一个或多个脉冲响应中的至少一个脉冲响应是近场脉冲响应(例如,对对应麦克风或捕获设备的2个波长内的脉冲的响应),并且这些脉冲响应中的至少一个脉冲响应是远场脉冲响应(例如,对来自对应麦克风和捕获设备的大于2个波长的脉冲的响应)。播放设备可使用近场脉冲响应和远场脉冲响应来定位存在于原始音频文件中的声音(例如,用于语音活动检测)。

在一个方面,如在其他部分中所描述的,元数据可包括设备取向。描述捕获设备如何旋转或倾斜的设备取向可在整个录音中随时间变化。例如,移动电话可用于录制声音。在录制期间,用户可以不同方式握持电话(例如,翻转电话、旋转电话等)。因此,设备取向可以是时变的,并且在时间上与所捕获的麦克风信号同步(例如,逐帧地)。

虽然示出了元数据的一个方面,但应当理解,元数据可以多种方式布置,以组织和索引声源位置相对于捕获设备的麦克风的脉冲响应。

在一个方面,音频数据文件可包括图3中未示出的其他特征。例如,音频数据文件可包括噪声特性和音频文件的动态范围。在一个方面,指示麦克风阵列的灵敏度的灵敏度参数被包括在音频数据文件中。解码/播放设备可基于灵敏度参数和麦克风信号来确定录音的原始声压级。在一个方面,麦克风信号和元数据例如作为比特流通过网络传送或流式传输到另一设备。在这种情况下,元数据可通过流式音频数据文件或通过其他已建立的方式(例如,通过将流式元数据与流式麦克风信号相关联的通信协议)与麦克风信号相关联。

用于生成具有元数据的音频数据文件的过程

现在参见图4,描述了可由例如捕获设备的处理器执行的过程或方法80。在框82处,该过程可包括接收由捕获设备的多个麦克风(例如,两个或更多个麦克风)生成的一个或多个麦克风信号。在框84处,该方法可包括在电子音频数据文件中存储麦克风信号或一个或多个麦克风信号中的原始音频数据。该音频文件可存储在电子存储器(例如,ram或rom)中。在框86处,该方法可包括在电子音频数据文件的元数据中存储捕获设备的麦克风的一个或多个脉冲响应,其中该一个或多个脉冲响应中的每个脉冲响应定义其中一个麦克风对声脉冲的响应。应当理解,对于本公开的所有方面,术语“脉冲响应”应能够与“传递函数”(或可转换成声源与麦克风之间的声学传递函数的任何数据集)互换,其中传递函数可表示频域中的脉冲响应。例如,在一个方面,用于生成具有元数据的音频数据文件的过程包括:从捕获设备的多个麦克风接收多个麦克风信号;以及在电子音频数据文件中存储麦克风信号和元数据,该元数据包括捕获设备的麦克风的一个或多个传递函数,其中该一个或多个传递函数定义麦克风对声脉冲的响应。脉冲响应可以各种方式得出,包括但不限于录制麦克风信号作为对在限定位置处生成的声脉冲的响应,或基于物理模型的设备声学和麦克风响应的模拟。对于声学测量,通常使用消声室来减少不期望的反射。如果打算在常规使用期间将设备附接到另一物体并同时录制麦克风信号,则脉冲响应测量或模拟也可包括该物体,例如,头戴式设备的脉冲响应或传递函数可由人或表示在常规使用期间将佩戴该设备的任何人的模型/人体模型来测量或模拟。

图5示出了在一个方面可与所述方面中的任一方面一起使用的音频处理系统硬件的框图。该音频处理系统可表示通用计算机系统或专用计算机系统。需注意,虽然图5示出了可被结合到耳机、扬声器系统、麦克风阵列和娱乐系统中的音频处理系统的各种部件,但这仅仅是特定具体实施的一个示例,并且仅仅是为了示出可存在于音频处理系统中的部件的类型。图5并不旨在表示使这些部件互连的任何特定架构或方式,因为此类细节与本文所述的各方面并无密切关系。还应理解,还可使用具有比图5所示更少部件或更多部件的其他类型的音频处理系统。因此,本文所述的过程不限于与图5的硬件和软件一起使用。

如图5所示,音频处理系统150(例如,膝上型计算机、台式计算机、移动电话、智能电话、平板电脑、智能扬声器、头戴式显示器(hmd)、耳机装置,或者用于汽车或其他车辆的信息娱乐系统)包括用于将系统的各种部件互连的一条或多条总线162。如本领域中所公知地,一个或多个处理器152耦接到总线162。一个或多个处理器可以是微处理器或专用处理器、片上系统(soc)、中央处理单元、图形处理单元、通过专用集成电路(asic)创建的处理器或它们的组合。存储器151可包括使用本领域已知的技术耦接到总线的只读存储器(rom)、易失性存储器和非易失性存储器或它们的组合。在一个方面,相机158和/或显示器160可耦接到总线。

存储器151可连接到总线并且可包括dram、硬盘驱动器或闪存存储器,或磁性光驱或磁性存储器,或光驱或者是甚至在系统断电之后仍维护数据的其他类型的存储器系统。在一个方面,处理器152检索存储在机器可读存储介质(存储器)中的计算机程序指令并执行这些指令以执行本文所述的操作。

尽管未示出,但音频硬件可耦接到一条或多条总线162,以便接收待由扬声器156处理并输出的音频信号。音频硬件可包括数模转换器和/或模数转换器。音频硬件还可包括音频放大器和滤波器。音频硬件还可与麦克风154(例如,麦克风阵列)连接以接收音频信号(无论是模拟的还是数字的),在必要时将其数字化,并且将该信号传送到总线162。

通信模块164可与远程设备和网络通信。例如,通信模块164可通过已知的技术诸如wi-fi、3g、4g、5g、蓝牙、zigbee或其他等效技术进行通信。通信模块可包括可与联网设备诸如服务器(例如,云端)和/或其他设备诸如远程扬声器和远程麦克风通信(例如,接收和发送数据)的有线或无线发射器和接收器。

应当理解,本文所公开的方面可利用远离系统的存储器,诸如通过网络接口诸如调制解调器或以太网接口耦接到音频处理系统的网络存储设备。如本领域所熟知的,总线162可通过各种网桥、控制器和/或适配器彼此连接。在一个方面,一个或多个网络设备可耦接到总线162。一个或多个网络设备可为有线网络设备(例如,以太网)或无线网络设备(例如,wi-fi、蓝牙)。在一些方面,所述的各个方面(例如,模拟、分析、估计、建模、对象检测等)可由与捕获设备通信的联网服务器执行。

本文所述的各个方面可至少部分地在软件中体现。也就是说,响应于其处理器执行存储介质(诸如非暂态机器可读存储介质(诸如dram或闪存存储器))中包含的指令序列而可在音频处理系统中实施这些技术。在各个方面中,可将硬连线电路与软件指令结合地使用来实现本文所述的技术。因此,这些技术不限于硬件电路与软件的任何指定组合,也不限于由音频处理系统执行的指令的任何特定源。

在本说明书中,某些术语用于描述各个方面的特征。例如,在某些情况下,术语“模块”、“编码器”、“处理器”、“渲染器”、“组合器”、“合成器”、“混频器”、“定位器”、“空间化器”和“部件”表示被配置成执行一个或多个过程或功能的硬件和/或软件。例如,“硬件”的示例包括但不限于集成电路诸如处理器(例如,数字信号处理器、微处理器、专用集成电路、微控制器等)。因此,如本领域的技术人员所理解的,可以实现硬件和/或软件的不同组合以执行由上述术语描述的过程或功能。当然,硬件可另选地实现为有限状态机或甚至组合逻辑部件。“软件”的示例包括应用程序、小应用程序、例程甚至一系列指令形式的可执行代码。如上所述,软件可存储在任何类型的机器可读介质中。

已按照对计算机存储器中的数据位进行操作的算法和符号表示来呈现前面详细描述的某些部分。这些算法描述和表示是音频处理领域技术人员所用的方法,而这些方法也能最有效地将他们的工作实质传达给该领域其他技术人员。算法在这里并通常是指导致所希望的结果的操作的自相一致的序列。操作是需要对物理量进行物理操纵的那些操作。然而,应当谨记,所有这些以及类似的术语都与适当的物理量相关联,并且只是应用于这些量的方便标签。除非另外特别说明,否则从上述讨论中显而易见的是,可以理解在整个说明书中,使用诸如那些在下文权利要求书中给出的术语的讨论涉及音频处理系统或类似电子设备的动作和过程,其操纵在系统的寄存器和存储器中被表示为物理(电子)量的数据以及将其转换成在系统存储器或寄存器或其他此类信息存储、传输或显示设备中类似地被表示为物理量的其他数据。

本文所述的过程和块不限于所述的特定示例,并且不限于在本文中作为示例使用的特定次序。相反,可根据需要对任何处理块进行重新排序、组合或移除、并行或串行地执行,以实现上述结果。与实施音频处理系统相关联的处理块可通过一个或多个可编程处理器执行存储在非暂态计算机可读存储介质上的一个或多个计算机程序来执行,以执行系统的功能。音频处理系统的全部或部分可被实现为专用逻辑电路(例如,fpga(现场可编程门阵列)和/或asic(专用集成电路))。音频系统的全部或部分可利用包括电子设备诸如例如处理器、存储器、可编程逻辑器件或逻辑门中至少一者的电子硬件电路来实现。另外,过程可在任何组合硬件设备和软件部件中实现。

虽然已经在附图中描述和示出了某些方面,但是应当理解,这些方面仅仅是对本发明的说明而非限制,并且本发明不限于所示出和所描述的具体结构和布置,因为本领域的普通技术人员可以想到各种其他修改型式。例如,可将相对于图3所论述的特征组合在结合图1和图4所产生的音频文件中。因此,要将描述视为示例性的而非限制性的。

为了帮助专利局和本申请中发布的任何专利的任何读者解译所附权利要求书,申请人希望注意到它们并不意欲所附权利要求书中的任一个或权利要求要素调用35u.s.c.112(f),除非在特定权利要求中明确使用字词“用于……的装置”或“用于……的步骤”。

众所周知,使用个人可识别信息应遵循公认为满足或超过维护用户隐私的行业或政府要求的隐私政策和做法。具体地,应管理和处理个人可识别信息数据,以使无意或未经授权的访问或使用的风险最小化,并应当向用户明确说明授权使用的性质。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1