用于音频空间化的加重的制作方法

文档序号:26013489发布日期:2021-07-23 21:34阅读:85来源:国知局
用于音频空间化的加重的制作方法

相关申请的引用

本申请要求于2018年10月5日提交的美国临时申请no.62/742,254、2019年3月1日提交的美国临时申请no.62/812,546和2018年10月5日提交的美国临时申请no.62/742,191的优先权益,其内容通过引用整体合并于此。

本公开大体上涉及用于音频信号处理的系统和方法,具体地,涉及用于在混合现实环境中呈现音频信号的系统和方法。



背景技术:

沉浸式的和可信的虚拟环境需要以与用户的期望一致的方式呈现音频信号——例如,该期望指与虚拟环境中的对象对应的音频信号将与对象在虚拟环境中的位置和该对象的视觉呈现一致。在虚拟现实、增强现实和混合现实环境中创建丰富且复杂的声音景观(soundscape)(声音环境)需要对大量数字音频信号的高效呈现,每一个数字音频信号显得来自用户环境中的不同位置/接近度和/或方向。声音景观包括对象的呈现并且是相对于用户的;对象和用户的位置和取向可以快速地改变,从而需要相应地调整声音景观。调整声音景观以可信地反映对象和用户的位置和取向可能需要对音频信号的快速改变,该音频信号可能导致不期望的声音伪像(sonicartifact),诸如“点击”声音,这损害了虚拟环境的沉浸感。然而,用于减少这种声音伪像的一些技术可能在计算上是昂贵的,特别是对于通常被用来与虚拟环境进行交互的移动装置。期望的是,向虚拟环境的用户呈现声音景观以准确地反映虚拟环境的声音,同时使声音伪像最小化并且保持在计算上是高效的系统和方法。



技术实现要素:

本公开的示例描述了用于向可穿戴头部装置的用户呈现音频信号的系统和方法。根据示例方法,接收第一输入音频信号。处理第一输入音频信号以生成第一输出音频信号。经由与可穿戴头部装置相关联的一个或多个扬声器来呈现第一输出音频信号。处理第一输入音频信号包括将预加重滤波器应用于第一输入音频信号;调整第一输入音频信号的增益;以及将去加重滤波器应用于第一音频信号。将预加重滤波器应用于第一输入音频信号包括衰减第一输入音频信号的低频分量。将去加重滤波器应用于第一输入音频信号包括衰减第一输入音频信号的高频分量。

附图说明

图1a-1b示出了根据本公开的一些实施例的示例音频空间化系统。

图2a-2h示出了根据本公开的一些实施例的示例音频空间化系统。

图3a示出了根据本公开的一些实施例的包括预加重(pre-emphasis)滤波器和去加重(de-emphasis)滤波器的示例音频空间化系统。

图3b示出了根据本公开的一些实施例的示例预加重滤波器。

图3c示出了根据本公开的一些实施例的示例去加重滤波器。

图4-8示出了根据本公开的一些实施例的包括预加重滤波器和去加重滤波器的示例音频空间化系统。

图9示出了根据本公开的一些实施例的示例可穿戴系统。

图10示出了根据本公开的一些实施例的可以与示例可穿戴系统结合使用的示例手持式控制器。

图11示出了根据本公开的一些实施例的可以与示例可穿戴系统结合使用的示例辅助单元。

图12示出了根据本公开的一些实施例的用于示例可穿戴系统的示例功能框图。

具体实施方式

在下面的示例描述中,参考形成其一部分的附图,并且在附图中通过图示的方式示出了可以实践的具体示例。应当理解,在不脱离所公开示例的范围的情况下,可以使用其他示例,并且可以进行结构上的改变。

示例可穿戴系统

图9示出了示例可穿戴式头部装置900,其被配置为佩戴在用户的头部上。可穿戴式头部装置900可以是更广泛的可穿戴系统的一部分,该系统包括一个或多个组件,例如头部装置(例如,可穿戴式头部装置900)、手持式控制器(例如,下面描述的手持式控制器1000)和/或辅助单元(例如,下面描述的辅助单元1100)。在一些示例中,可穿戴式头部装置900可以用于虚拟现实、增强现实或混合现实系统或应用。可穿戴式头部装置900可以包括一个或多个显示器,例如显示器910a和910b(其可以包括左和右透射显示器以及用于将光从显示器耦合到用户的眼睛的相关联的组件,例如正交光瞳扩展(ope)光栅组912a/912b和出射光瞳扩展(epe)光栅组914a/914b);左和右声学结构,例如扬声器920a和920b(其可以被安装在镜腿922a和922b上,并分别位于用户的左耳和右耳附近);一个或多个传感器,例如红外传感器、加速度计、gps单元,惯性测量单元(imu,例如,imu926)、声学传感器(例如,麦克风950);正交线圈电磁接收器(例如,被示出为安装到左镜腿922a的接收器927);背离用户定向的左和右相机(例如,深度(飞行时间)相机930a和930b);以及朝向用户定向的左眼和右眼相机(例如,用于检测用户的眼睛运动)(例如,眼睛相机928a和928b)。然而,在不脱离本公开的范围的情况下,可穿戴式头部装置900可以并入任何合适的显示技术以及传感器或其他组件的任何合适的数量、类型或组合。在一些示例中,可穿戴式头部装置900可以并入一个或多个麦克风950,该麦克风950被配置为检测由用户的语音产生的音频信号;这样的麦克风可以放置为与用户的嘴相邻。在一些示例中,可穿戴式头部装置900可以并入联网特征(例如,wi-fi功能)以与包括其他可穿戴系统的其他装置和系统通信。可穿戴式头部装置900还可以包括诸如电池、处理器、存储器、存储单元或各种输入装置(例如,按钮、触摸板)的组件;或者可以被耦接到包括一个或多个这样的组件的手持式控制器(例如,手持式控制器1000)或辅助单元(例如,辅助单元1100)。在一些示例中,传感器可以被配置为输出头戴式单元的相对于用户环境的一组坐标,并且可以向执行同步定位和映射(slam)过程和/或视觉里程计算法的处理器提供输入。在一些示例中,可穿戴式头部装置900可以耦接到手持式控制器1000和/或辅助单元1100,如下文进一步描述的。

图10示出了示例可穿戴系统的示例移动手持式控制器组件1000。在一些示例中,手持式控制器1000可以与可穿戴式头部装置900和/或以下描述的辅助单元1100有线或无线通信。在一些示例中,手持式控制器1000包括要由用户握持的手柄部分1020以及沿顶表面1010设置的一个或多个按钮1040。在一些示例中,手持式控制器1000可以被配置为用作光学跟踪目标;例如,可穿戴式头部装置900的传感器(例如,相机或其他光学传感器)可以被配置为检测手持式控制器1000的位置和/或取向—通过扩展,这可以指示握住手持式控制器1000的用户的手的位置和/或取向。在一些示例中,手持式控制器1000可以包括处理器、存储器、存储单元、显示器或者一个或多个输入装置,例如上面描述的。在一些示例中,手持式控制器1000包括一个或多个传感器(例如,上面关于可穿戴式头部装置900描述的任何传感器或跟踪组件)。在一些示例中,传感器可以检测手持式控制器1000相对于可穿戴式头部装置900或相对于可穿戴系统的另一组件的位置或取向。在一些示例中,传感器可以定位在手持式控制器1000的手柄部分1020中和/或可以被机械地耦接到手持式控制器。手持式控制器1000可以被配置为提供一个或多个输出信号,例如,与按钮1040的按下状态对应的信号;或者手持式控制器1000的位置、取向和/或运动(例如,通过imu)。这样的输出信号可以用作可穿戴式头部装置900的处理器、辅助单元1100或可穿戴系统的另一组件的输入。在一些示例中,手持式控制器1000可以包括一个或多个麦克风,以检测声音(例如,用户的语音、环境声音)以及在一些情况下以将与检测到的声音对应的信号提供给处理器(例如,可穿戴式头部装置900的处理器)。

图11示出了示例可穿戴系统的示例辅助单元1100。在一些示例中,辅助单元1100可以与可穿戴式头部装置900和/或手持式控制器1000有线或无线通信。辅助单元1100可以包括电池,以提供能量来操作可穿戴系统的一个或多个组件,例如可穿戴式头部装置900和/或手持式控制器1000(包括显示器、传感器、声学结构、处理器、麦克风和/或可穿戴式头部装置900或手持式控制器1000的其他组件)。在一些示例中,辅助单元1100可以包括处理器、存储器、存储单元、显示器、一个或多个输入装置和/或一个或多个传感器,诸如上面描述的。在一些示例中,辅助单元1100包括用于将辅助单元附接至用户(例如,用户佩戴的皮带)的夹子1110。使用辅助单元1100来容纳可穿戴系统的一个或多个组件的优势是,这样做可以允许大或重的组件被携带在用户的腰部、胸部或背部上—它们相对非常适合于支撑大和重的对象—而不是安装到用户的头部(例如,如果被容纳在可穿戴式头部装置900中)或由用户的手部携带(例如,如果被容纳在手持式控制器1000中)。对于相对重或体积大的组件,例如电池,这可能是特别有利的。

图12示出了可以与示例可穿戴系统1200对应的示例功能框图,该示例可穿戴系统诸如可以包括上面描述的示例可穿戴式头部装置900、手持式控制器1000和辅助单元1100。在一些示例中,可穿戴系统1200可以用于虚拟现实、增强现实或混合现实应用。如图12所示,可穿戴系统1200可以包括示例手持式控制器1200b,在此称为“图腾(totem)”(并且其可以对应于上述手持式控制器1000);手持式控制器1200b可包括图腾至头部装置(headgear)六自由度(6dof)图腾子系统1204a。可穿戴系统1200还可以包括示例头部设备装置1200a(其可以对应于上述可穿戴式头部装置900);头部设备装置1200a包括图腾至头部设备6dof头部设备子系统1204b。在该示例中,6dof图腾子系统1204a和6dof头部设备子系统1204b协作以确定手持式控制器1200b相对于头部设备装置1200a的六个坐标(例如,三个平移方向的偏移和沿三个轴的旋转)。六自由度可以相对于头部设备装置1200a的坐标系来表示。三个平移偏移可以被表示为这种坐标系中的x、y和z偏移、可以被表示为平移矩阵或可以被表示为某种其他表示。旋转自由度可以表示为偏航、俯仰和滚动旋转的顺序;表示为矢量;表示为旋转矩阵;表示为四元数;或表示为某种其他表示。在一些示例中,被包括在头部设备装置1200a中的一个或多个深度相机1244(和/或一个或多个非深度相机)和/或一个或多个光学目标(例如,如上所述的手持式控制器1000的按钮1040或被包括在手持式控制器中的专用光学目标)可用于6dof跟踪。在一些示例中,如上所述,手持式控制器1200b可以包括照相机;以及头部设备装置1200a可包括与相机结合的用于光学跟踪的光学目标。在一些示例中,头部设备装置1200a和手持式控制器1200b每一者都包括一组三个正交定向的螺线管,其用于无线地发送和接收三个可区分信号。通过测量在用于接收的每一个线圈中接收到的三个可区分信号的相对幅度,可以确定手持式控制器1200b相对于头部设备装置1200a的6dof。在一些示例中,6dof图腾子系统1204a可以包括惯性测量单元(imu),该惯性测量单元可用于提供有关手持式控制器1200b的快速运动的改善的准确度和/或更及时的信息。

在一些涉及增强现实或混合现实应用的示例中,可能期望将坐标从局部坐标空间(例如,相对于头部设备装置1200a固定的坐标空间)变换为惯性坐标空间或环境坐标系协调空间。例如,这样的变换对于头部设备装置1200a的显示器可能是必要的,以在相对于真实环境的预期位置和取向处而不是在显示器上的固定位置和取向处(例如,在头部设备装置1200a的显示器中的相同位置)呈现虚拟对象(例如,坐在真实椅子上、面向前方的虚拟人,不考虑头部设备装置1200a的位置和取向)。这可以维持虚拟对象存在于真实环境中的假象(并且例如不会随着头部设备装置1200a的移动和旋转而在真实环境中出现定位不自然)。在一些示例中,可以通过处理来自深度相机1244的图像(例如,使用同时定位和映射(slam)和/或视觉里程计过程)来确定坐标空间之间的补偿变换,以便确定头部设备装置1200a相对于惯性或环境坐标系的变换。在图12所示的示例中,深度相机1244可以被耦接到slam/视觉里程计框1206,并且可以向框1206提供图像。slam/视觉里程计框1206实现方式可以包括被配置为处理该图像并确定用户头部的位置和取向的处理器,然后可以用该位置和取向来识别头部坐标空间与实际坐标空间之间的变换。类似地,在一些示例中,关于用户的头部姿势和位置的附加信息源是从头部设备装置1200a的imu1209获得的。来自imu1209的信息可以与来自slam/视觉里程计框1206的信息集成,以提供关于用户的头部姿势和位置的快速调整的改善的准确度和/或更及时的信息。

在一些示例中,深度相机1244可以将3d图像提供给手部手势跟踪器1211,其可以在可穿戴头部装置1200a的处理器中实现。手部手势跟踪器1211可以例如通过将从深度相机1244接收的3d图像与代表手部手势的存储模式进行匹配来识别用户的手部手势。识别用户手部手势的其他合适的技术将显而易见。

在一些示例中,一个或多个处理器1216可以被配置为从头部设备子系统1204b、imu1209、slam/视觉里程计框1206、深度相机1244、麦克风1250和/或手部手势跟踪器1211接收数据。处理器1216还可以发送和接收来自6dof图腾系统1204a的控制信号。处理器1216可以被无线地耦接到6dof图腾系统1204a,例如在手持式控制器1200b不被限制的示例中。处理器1216可以进一步与诸如音频-视觉内容存储器1218、图形处理单元(gpu)1220和/或数字信号处理器(dsp)音频声场定位器1222的附加组件通信。dsp音频声场定位器1222可以被耦接到头部相关传递函数(hrtf)存储器1225。gpu1220可以包括被耦接到成像式光调制器的左源1224的左信道输出和被耦接到成像式光调制器的右源1226的右信道输出。gpu1220可以将立体图像数据输出到成像式光调制器的源1224、1226。dsp音频声场定位器1222可以将音频输出到左扬声器1212和/或右扬声器1214。dsp音频声场定位器1222可以从处理器1216接收输入,该输入指示从用户到虚拟声源的矢量(其可以由用户例如经由手持式控制器1200b移动)的方向矢量。基于该方向矢量,dsp音频声场定位器1222可以确定对应的hrtf(例如,通过访问hrtf或者通过内插多个hrtf)。然后,dsp音频声场定位器1222可以将所确定的hrtf应用于音频信号,诸如与由虚拟对象生成的虚拟声音对应的音频信号。通过并入用户相对于混合现实环境中的虚拟声音的相对位置和取向—也就是,通过呈现与用户对虚拟声音听起来像是在真实环境中的真实声音的期望相匹配的虚拟声音,可以增强虚拟声音的可信度和真实性。

在一些示例中,诸如图12中所示,处理器1216、gpu1220、dsp音频声场定位器1222、hrtf存储器1225和音频/视觉内容存储器1218中的一个或多个可以被包括在辅助单元1200c(其可以对应于上述辅助单元1100)中。辅助单元1200c可以包括电池1227,以给其组件供电和/或向头部设备装置1200a和/或手持式控制器1200b供电。将这样的组件包括在可以安装到用户腰部的辅助单元中,可以限制头部设备装置1200a的尺寸和重量,进而可以减少用户头部和颈部的疲劳。

虽然图12呈现了与示例可穿戴系统1200的各种组件对应的元件,但是这些组件的各种其他合适的布置对于本领域技术人员而言将变得显而易见。例如,图12中呈现的与辅助单元1200c相关联的元件可以替代地与头部设备装置1200a或手持式控制器1200b相关联。此外,一些可穿戴系统可以完全放弃手持式控制器1200b或辅助单元1200c。这样的改变和修改应被理解为被包括在所公开的示例的范围内。

音频空间化

以下描述的系统和方法可以在增强现实或混合现实系统中实现,诸如上文所描述的。例如,增强现实系统的一个或多个处理器(例如,cpu、dsp)可用于处理音频信号或实现以下描述的计算机实现的方法的步骤;增强现实系统的传感器(例如,相机、声学传感器、imu、lidar、gps)可用于确定系统的用户或用户环境中的元素的位置和/或取向;以及增强现实系统的扬声器可用于向用户呈现音频信号。

在如上文所描述的增强现实或混合现实系统中,一个或多个处理器(例如,dsp音频声场定位器1222)可处理一个或多个音频信号以经由一个或多个扬声器(例如,上文所描述的左扬声器1212和右扬声器1214)呈现给可穿戴头部装置的用户。在一些实施例中,一个或多个扬声器可以属于与可穿戴头部装置分离的单元(例如,与可穿戴头部装置通信的一对耳机)。音频信号的处理需要在感知的音频信号的真实性——例如,在混合现实环境中向用户呈现的音频信号与用户对音频信号将如何在真实环境中发出声音的期望相匹配的程度——与处理音频信号所涉及的计算开销之间进行折衷。在虚拟环境中将音频信号进行逼真地空间化对于创建沉浸式的和可信的用户体验可能是关键的。

图1a示出了根据一些实施例的空间化系统100a(以下称为“系统100a”)。系统100a包括一个或多个编码器104a-n、混合器106和一个或多个扬声器108a-m。系统100a通过将与要在声音景观中呈现的对象对应的输入声音/信号空间化来创建声音景观(声音环境),并且通过一个或多个扬声器108a-m递送声音景观。

系统100a接收一个或多个输入信号102a-n。一个或多个输入信号102a-n可以包括与要在声音景观中呈现的对象对应的数字音频信号。在一些实施例中,数字音频信号可以是音频数据的脉冲编码调制(pcm)波。输入信号的总数(n)可以表示要在声音景观中呈现的对象的总数。

一个或多个编码器104a-n中的每一个编码器接收一个或多个输入信号102a-n中的至少一个输入信号并且输出一个或多个增益被调整的信号。例如,在一些实施例中,编码器104a接收输入信号102a并且输出增益被调整的信号。在一些实施例中,每一个编码器针对用于传递声音景观的一个或多个扬声器108a-m中的每一个扬声器输出增益被调整的信号。例如,编码器104针对扬声器108a-m中的每一个输出m个增益被调整的信号。扬声器108a-m可属于例如上文所描述的增强现实或混合现实系统;例如,扬声器108a-m中的一个或多个可属于如上文所描述的可穿戴头部装置,并且可被配置为向佩戴装置的用户的耳朵直接呈现音频信号。为了使声音景观中的对象看起来源自特定的位置/接近度,一个或多个编码器104a-n中的每一个编码器相应地设置被输入到增益模块的控制信号的值。

一个或多个编码器104a-n中的每一个编码器包括一个或多个增益模块。例如,编码器104a包括增益模块g_a1-am。在一些实施例中,系统100a中的一个或多个编码器104a-n中的每一个编码器可以包括相同数量的增益模块。例如,一个或多个编码器104a-n中的每一个可以各自包括m个增益模块。在一些实施例中,编码器中的增益模块的总数对应于传递声音景观的扬声器的总数。每一个增益模块接收一个或多个输入信号102a-n中的至少一个输入信号、调整输入信号的增益、并输出增益被调整的信号。例如,增益模块g_a1接收输入信号102a、调整输入信号102a的增益、并输出增益被调整的信号。每一个增益模块基于一个或多个控制信号ctrl_a1-nm的控制信号的值来调整输入信号的增益。例如,增益模块g_a1基于控制信号ctrl_a1的值来调整输入信号102a的增益。每一个编码器基于与输入信号对应的要在声音景观中呈现的对象的位置/接近度来调整被输入到增益模块的控制信号的值。每一个增益模块可以是将输入信号乘以作为控制信号的值的函数的因子的乘法器。

混合器106接收来自编码器104a-n的增益被调整的信号、混合增益被调整的信号、并将混合信号输出到扬声器108a-m。扬声器108a-m接收来自混合器106的混合信号并输出声音。在一些实施例中,如果仅存在一个输入信号(例如,输入102a),则可以从系统100a移除混合器106。

在一些实施例中,为了执行此操作,空间化系统(“声场定位器(spatializer)”)利用一对头相关传递函数(hrtf)滤波器来处理每一个输入信号(例如,数字音频信号(“源”)),该对头相关传递函数(hrtf)滤波器模拟声音穿过用户的外耳和头部并由用户的外耳和头部引起的传播和衍射。该对hrtf滤波器包括用于用户的左耳的hrtf滤波器和用于用户的右耳的hrtf滤波器。用于所有源的左耳hrtf滤波器的输出被混合在一起并通过左耳扬声器播放,并且用于所有源的右耳hrtf滤波器的输出被混合在一起并通过右耳扬声器播放。

图1b示出了根据一些实施例的空间化系统100b(以下称为“系统100b”)。系统100b通过将输入声音/信号空间化来创建声音景观(声音环境)。图1b中所示出的系统100b类似于图1a中所示出的的系统100a,但可能在一些方面是不同的。例如,在示例系统100a中,混合器106的输出被输入到扬声器108a-m。在系统100b中,混合器106的输出被输入到解码器110,并且解码器110的输出被输入到左耳扬声器112a和右耳扬声器112b(在下文中统称为“扬声器112”)。在一些实施例中,如果仅存在一个输入信号(例如,输入102a),则可以从系统100a移除混合器106。

在该示例中,解码器110包括左hrtf滤波器l_hrtf_1-m和右hrtf滤波器r_hrtf_1-m。解码器110接收来自混合器106的混合信号、对混合信号进行滤波和相加(sum)、并且将滤波后的信号输出到扬声器112。例如,解码器110接收来自混合器106的第一混合信号,该第一混合信号表示要在声音景观中呈现的第一对象。继续该示例,解码器110通过第一左hrtf滤波器l_hrtf_1和第一右hrtf滤波器r_hrtf_1处理第一混合信号。具体地,第一左hrtf滤波器l_hrtf_1对第一混合信号进行滤波并且输出第一左滤波后的信号,并且第一右hrtf滤波器r_hrtf_1对第一混合信号进行滤波并且输出第一右滤波后的信号。解码器110将第一左滤波后的信号与其他左滤波后的信号(例如,从左hrtf滤波器l_hrtf_2-m输出的信号)相加,并向左耳扬声器112a输出左输出信号。解码器110将第一右滤波后的信号与其他右滤波后的信号(例如,从右hrtf滤波器r_hrtf_2-m输出的信号)相加,并向右耳扬声器112b输出右输出信号。

在一些实施例中,解码器110可以包括hrtf滤波器的组。该组中的hrtf滤波器中的每一个可对相对于用户的头部的特定方向建模。在一些实施例中,可以使用计算上高效的渲染方法,其中使针对每一个虚拟声源的增量处理成本最小化。这些方法可以基于在固定的空间函数集合(afixedsetofspatialfunctions)和固定的基础滤波器集合(afixedsetofbasisfilters)上对hrtf数据的分解。在这些实施例中,来自混合器106的每一个混合信号可以被混合到hrtf滤波器的输入中,该hrtf滤波器对最接近源的方向的方向建模。被混合到那些hrtf滤波器中的每一个中的信号的电平(level)由源的特定方向确定。

如果在声音景观中呈现的对象的方向和/或位置改变,则编码器104a-n可以改变用于增益模块g_a1-nm的控制信号ctrl_a1-nm的值以适当地在声音景观中呈现对象。

在一些实施例中,编码器104a-n可以瞬时地改变用于增益模块g_a1-nm的控制信号ctrl_a1-nm的值。然而,针对图1a的系统100a和/或图1b的系统100b,瞬时地改变控制信号ctrl_a1-nm的值可能导致系统100a中的扬声器108a-m和/或在系统100b中的扬声器112处的声音伪像。声音伪像可以是例如“点击”声音。由于瞬时地改变控制信号的值而引起的声音伪像的严重程度可以取决于在增益改变时的增益改变量和输入信号的幅度的组合。

为了减少这种声音伪像,在一些实施例中,编码器104a-n可以在一段时间内改变用于增益模块g_a1-nm的控制信号ctrl_a1-nm的值,而不是瞬时地改变。在一些实施例中,编码器104a-n可针对输入信号102a-n中的每一个样本都计算用于控制信号ctrl_a1-nm的新值。用于控制信号ctrl_a1-nm的新值可以仅稍微不同于先前值。新值可遵循线性曲线、指数曲线等。此过程可以重复直到达到新方向/位置所需的混合电平为止。然而,关于图1a的系统100a和/或图1b的系统100b,针对输入信号102a-n中的每一个样本都计算用于控制信号ctrl_a1-nm的新值可能在计算上是昂贵且耗时的。

在一些实施例中,编码器104a-n可以重复地计算用于控制信号ctrl_a1-nm的新值,例如,每几个样本、每两个样本、每四个样本、每十个样本等。该过程可以重复,直到达到新的方向/位置所需的混合电平。然而,一旦针对图1a的系统100a和/或图1b的系统100b中的每几个样本来计算用于控制信号ctrl_a1-nm的新值可能导致在系统100a中的扬声器108a-m和/或在系统100b中的扬声器112处的声音伪像。声音伪像可以是,例如,“剪切”声音。

为了减少声音伪像,在一些实施例中,编码器可以搜索针对零交叉(zerocrossing)的输入信号,并且在零交叉的时间点处调整控制信号的值。在一些实施例中,编码器可能采取许多计算周期来搜索针对零交叉的输入信号,并且在零交叉的时间点处调整控制信号的值。然而,如果输入信号具有直流(dc)偏置,则编码器可能永远不会检测或确定输入信号中的零交叉,并且因此将永远不会调整控制信号的值。因此,可以在编码器之前引入高通滤波器或dc阻塞(blocking)滤波器以减小/去除dc偏置并且确保在信号中存在足够的零交叉。在系统(例如,系统100a和/或系统100b)的一些实施例中,可以在系统中的每一个编码器之前引入高通滤波器或dc阻塞滤波器。一旦从输入信号中减小/去除dc偏置,编码器可以搜索输入信号而无需用于零交叉的dc偏置,并且在零交叉的时间点处调整控制信号的值。搜索零交叉可能是耗时的。如果系统包括对信号作出改变的其他组件或模块,则那些其他组件或模块将类似地针对零交叉来搜索被输入到另一组件或模块的信号,并且在零交叉的时间点处调整各种组件或模块的参数的值。

作为非限制性示例,图2a示出了包括编码器204、混合器206和第一至第四扬声器208a-d的系统200。示例系统200类似于系统100a,但是在一些方面可以不同。系统200通过将与要在声音景观中呈现的对象对应的输入声音/信号空间化来创建声音景观(声音环境),并且通过第一至第四扬声器208a-d递送声音景观。

系统200接收输入信号202。输入信号202可以包括与要在声音景观中呈现的对象对应的数字音频信号。编码器204接收输入信号202并输出四个增益被调整的信号。编码器204针对传递声音景观的第一至第四扬声器208a-d中的每一个扬声器输出增益被调整的信号。为了使声音景观中的对象显得源自特定的位置/接近度,编码器204相应地设置被输入到第一至第四增益模块g_1-4的控制信号的值。编码器204包括第一至第四增益模块g_1-4。增益模块的总数对应于递送声音景观的扬声器的总数。第一至第四增益模块g_1-4中的每一个增益模块接收输入信号202、调整输入信号202的增益、并输出增益被调整的信号。第一至第四增益模块g_1-4中的每一个增益模块基于第一至第四控制信号ctrl_1-4的控制信号的值来调整输入信号202的增益。例如,第一增益模块g_1基于第一控制信号ctrl_1的值来调整输入信号202的增益。编码器204基于与输入信号202对应的要在声音景观中呈现的对象的位置和/或接近度,来调整被输入到第一至第四增益模块g_1-4的第一至第四控制信号ctrl_1-4的值。混合器206接收来自编码器204的增益被调整的信号、混合增益被调整的信号、并且向第一至第四扬声器208a-d输出混合信号。在该示例中,因为仅存在一个输入信号202和仅一个编码器204,所以混合器206不混合任何增益被调整的信号。第一至第四扬声器208a-d接收来自混合器106的混合信号并输出声音。

图2b示出了包括第一至第四扬声器208a-d和用户220的环境240。扬声器208a-d可以属于增强现实系统(例如,包括可穿戴头部装置),以及用户220可以是增强现实系统的用户。图2c示出了在环境240中的第一位置/接近处的虚拟蜜蜂222-1。虚拟蜜蜂222-1是要在由第一至第四扬声器208a-d递送的声音景观中呈现的对象。虚拟蜜蜂222-1可以在由用户220使用的增强现实系统的显示器中被可视地呈现;通常期望声音景观与虚拟蜜蜂222-1的视觉显示一致。编码器204接收包括与虚拟蜜蜂222-1对应的数字音频信号的输入信号202。编码器204基于虚拟蜜蜂222-1的第一位置/接近度来设置第一至第四控制信号ctrl_1-4的值。图2d示出了基于图2c中描绘的虚拟蜜蜂222-1的第一位置/接近度的第一至第四控制信号ctrl_1-4的值。如图2d所示,基于虚拟蜜蜂222-1相对于用户220的第一位置/接近度,第一和第二控制信号ctrl_1-2具有相同的非零值(例如,0.5),以及第三和第四控制信号ctrl_3-4具有零值。也就是,由于虚拟蜜蜂222-1将在声音景观中被呈现为位于用户220的正前方,因此第一和第二控制信号ctrl_1-2具有相同的非零值,并且第三和第四控制信号ctrl_3-4具有零值。

图2e示出了在环境240中的第二位置/接近处的虚拟蜜蜂222-2。编码器204基于虚拟蜜蜂222-2的第二位置/接近度来调整第一至第四控制信号ctrl_1-4的值。例如,编码器204使第一控制信号ctrl_1的值相对于在虚拟蜜蜂222-1处于第一位置/接近度时的第一控制信号ctrl_1的值而增大(例如,值0.75),编码器204使第二控制信号ctrl_2的值相对于在虚拟蜜蜂222-1处于第一位置/接近度时的第二控制信号ctrl_2的值而减小(例如,值0.25),并且编码器204不对第三至第四控制信号ctrl_3-4作出任何调整,第三至第四控制信号ctrl_3-4保持为零值。

图2f示出了根据一些实施例的基于图2e中描绘的虚拟蜜蜂222-2的第二位置/接近度的第一至第四控制信号ctrl_1-4的值。如图2f所示,编码器204在时间t_1处瞬时地改变第一和第二控制信号ctrl_1-2的值。如上所述,在时间t_1处瞬时地改变第一和第二控制信号ctrl_1-2的值可能导致在扬声器208a-d处的不期望的声音伪像。声音伪像可以是例如“点击”声音。

图2g示出了根据一些实施例的基于图2e中描绘的虚拟蜜蜂222-2的第二位置/接近度的第一至第四控制信号ctrl_1-4的值。如图2g所示,编码器204在一段时间内改变第一和第二控制信号ctrl_1-2的值。在该实施例中,编码器204可针对输入信号202的每一样本都计算用于第一和第二控制信号ctrl_1-2的新值。用于第一和第二控制信号ctrl_1-2的新值可以仅稍微不同于先前值。该过程可以重复,直到达到新的方向/位置所需的混合电平。例如,该过程可以重复,直到第一控制信号ctrl_1的值增大(例如,从0.5到0.75)且第二控制信号ctrl_2的值减小(例如,从0.5到0.25)。然而,如上所述,针对输入信号202的每一个样本都计算用于第一和第二控制信号ctrl_1-2的新值可能在计算上是昂贵且耗时的。

图2h示出了根据一些实施例的基于图2e中描绘的虚拟蜜蜂222-2的第二位置/接近度的第一至第四控制信号ctrl_1-4的值。如图2h所示,编码器204在一段时间内改变第一和第二控制信号ctrl_1-2的值。在该实施例中,编码器204可以每几个样本计算用于第一和第二控制信号ctrl_1-2的新值。该过程可以重复,直到达到新的方向/位置所需的混合电平。然而,如上所述,一旦每几个样本计算用于第一和第二控制信号ctrl_1-2的新值可能导致在扬声器208a-d处的不期望的声音伪像。声音伪像可以是例如“剪切”声音。

图3a示出了根据一些实施例的空间化系统300(在下文中称为“系统300”)。示例系统300通过将输入声音/信号空间化来创建声音景观(声音环境)。图3中所示出的系统300类似于图1a中所示出的系统100a,但在一些方面可以不同。除了一个或多个编码器304a-n、混合器306、以及一个或多个扬声器308a-m之外,系统300包括一个或多个预加重滤波器332a-n和一个或多个去加重滤波器334a-m。添加一个或多个预加重滤波器332a-n和一个或多个去加重滤波器334a-m使得一个或多个编码器304a-n瞬时地改变控制信号ctrl_a1-nm的值,同时使扬声器308a-m处的声音伪像最小化。在一些实施例中,一个或多个预加重滤波器332a-n和一个或多个去加重滤波器334a-n减少噪声。一个或多个预加重滤波器332a-n和一个或多个去加重滤波器334a-n可以是互补滤波器。一个或多个预加重滤波器332a-n和一个或多个去加重滤波器334a-n可以彼此抵消,除了在一些情况下在dc被阻塞的低频处。

在该示例中,一个或多个预加重滤波器332a-n中的每一个预加重滤波器接收一个或多个输入信号302a-n中的至少一个输入信号、对输入信号进行滤波、并且向一个或多个编码器304a-n中的编码器输出滤波后的信号。每一个预加重滤波器例如通过减少来自输入信号的低频能量来对至少一个输入信号进行滤波。从预加重滤波器输出的滤波后的信号的幅度可以比输入信号的幅度更接近零。可能由于瞬时地改变控制信号的值而引起的声音伪像的严重程度可以通过滤波后的信号的幅度接近零来减弱,其中该严重程度可以取决于增益改变量和在增益改变的时间处的输入信号的幅度的组合。

在示例中,一个或多个编码器304a-n中的每一个编码器可基于要在声音景观中呈现的对象的位置/接近度来调整被输入到增益模块的控制信号的值,其中该对象与输入信号且由此与滤波后的信号对应。每一个编码器可以瞬时地调整控制信号的值,而不会导致在扬声器308a-m处的声音伪像。这是因为每一个增益模块调整滤波后的信号(例如,预加重滤波器332a-n的输出)的增益,而不直接地调整输入信号。

在示例中,一个或多个去加重滤波器334a-n中的每一个去加重滤波器接收信号(例如,从混合器306输出的一个或混合信号中的混合信号)、根据混合信号来重构信号、并且向一个或多个扬声器308a-m中的扬声器输出重构的信号。每一个去加重滤波器可以例如通过减小来自信号的高频能量来对信号进行滤波。在一些实施例中,去加重滤波器可以将输入信号的幅度的所有突然变化转变成为波形的斜率的变化。

瞬时地改变控制信号的值可能引起信号的波形的幅度的改变,这可能引入主要的高频噪声。预加重滤波器减小至少一个输入信号的幅度。去加重滤波器将信号的振幅的突然变化转变成具有减少的高频噪声的波形的斜率的变化。

图3b示出了根据一些实施例的示例预加重滤波器。预加重滤波器接收被接收到的信号、对所接收的信号进行滤波、并输出传输的信号。所传输的信号是所接收的信号的滤波后的版本。预加重滤波器可减小或衰减所接收的信号的低频内容的幅度,同时维持或放大所接收的信号的高频内容的幅度。在一些实施例中,预加重滤波器使所接收的信号的幅度更接近零。预加重滤波器可以有助于衰减在接收信号中可能存在的任何dc偏移。在一些实施例中,预加重滤波器可以包括高通滤波器,例如,一阶高通滤波器。在一些实施例中,预加重滤波器可以包括第一导数(derivative)滤波器。第一导数滤波器可以在减小的频率(例如,从奈奎斯特(nyquist)到dc)的情况下具有每倍频程大约六分贝的滚降(roll-off)。因此,在低频处,所接收的信号可能相对于所接收的信号的未经滤波的版本而被极大地衰减。

图3c示出了根据一些实施例的示例去加重滤波器。去加重滤波器接收所接收的信号、对所接收的信号进行滤波、并输出所传输的信号。应注意,图3c的所接收的信号和所传输的信号不一定与图3b的所接收的信号和所传输的信号相同。所传输的信号是所接收的信号的滤波后的版本。去加重滤波器可在维持或放大所接收的信号的低频内容的幅度的同时减小或衰减所接收的信号的高频内容的振幅。在一些实施例中,去加重滤波器可以包括低通滤波器。在一些实施例中,去加重滤波器可以包括积分滤波器,例如,泄漏(leaky)积分。漏泄积分可以在减小的频率的情况下具有每倍频程大约六分贝的提升(boost)。因此,在低频处,所接收的信号可能相对于所接收的信号的未经滤波的版本而被极大地放大。在一些实施例中,去加重滤波器可以包括dc阻塞滤波器。

如图3a所示,去加重滤波器334a-m可以位于混合器306与一个或多个扬声器308a-m之间。在该实施例中,去加重滤波器334a-m的数量可以与混合器306的输出的数量相同,混合器306的输出的数量可以与一个或多个扬声器308a-m的数量相同。

图4示出了根据一些实施例的空间化系统400(以下称为“系统400”)。系统400通过将输入声音/信号空间化来创建声音景观(声音环境)。图4中所示出的系统400类似于图3a中所示出的系统300,但在一些方面可以不同。在系统400中,一个或多个去加重滤波器434a1-nm可以位于一个或多个编码器404a-n与混合器406之间。在该实施例中,去加重滤波器434a1-nm的数量可以与来自一个或多个编码器404a-n的输出的数量相同。

图5示出了根据一些实施例的空间化系统500(在下文中称为“系统500”)。系统500通过使输入声音/信号空间化来创建声音景观(声音环境)。图5中所示出的系统500类似于图1b中所示出的系统100b,但在一些方面可不同。除了一个或多个编码器504a-n、混合器506、解码器510、左耳扬声器512a和右耳扬声器512b之外,系统500包括一个或多个预加重滤波器532a-n、左去加重滤波器534a和右去加重滤波器534b。添加一个或多个预加重滤波器532a-n以及左和右去加重滤波器534a-b可以使得一个或多个编码器504a-n瞬时地改变控制信号ctrl_a1-nm的值,而不会导致在左和右扬声器512a-b处的声音伪像。在一些实施例中,一个或多个预加重滤波器532a-n以及左和右去加重滤波器534a-b降低噪声。一个或多个预加重滤波器532a-n可以与图3b中所示出的以及上文所描述的预加重滤波器相同。左和右去加重滤波器534a-b可以与图3c中所示的和上文所描述的去加重滤波器相同。

图6示出了根据一些实施例的空间化系统600(下文中称为“系统600”)。系统600通过将输入声音/信号空间化来创建声音景观(声音环境)。图6中所示出的系统600类似于图5中所示出的系统500,但在一些方面可不同。在系统600中,一个或多个去加重滤波器634a-m可以位于混合器606与解码器610之间。在该实施例中,去加重滤波器634a-m的数量可以与混合器606的输出的数量相同,其中混合器606的输出的数量可以与解码器610中的左和右hrtf滤波器对的数量相同。

图7示出了根据一些实施例的空间化系统700(下文中称为“系统700”)。系统700通过将输入声音/信号空间化来创建声音景观(声音环境)。图7中所示出的系统700类似于图5中所示出的系统500,但在一些方面可不同。在系统700中,一个或多个去加重滤波器734a1-nm可以位于一个或多个编码器704a-n与混合器706之间。在该实施例中,去加重滤波器734a1-nm的数量可以与来自一个或多个编码器704a-n的输出的数量相同。

图8示出了根据一些实施例的空间化系统800(下文称为“系统800”)。系统800包括预加重滤波器802、预处理模块804、聚类(clustered)反射模块814、混响模块816、混响平移(pan)模块818、混响遮挡(occlusion)模块820、多信道去相关滤波器组822、虚拟化器824和去加重滤波器826。

在一些实施例中,滤波器806、聚类反射814、混响模块816、混响平移模块818和/或混响遮挡模块820可以基于一个或多个控制信号的一个或多个值来调整。在没有预加重滤波器802和去加重滤波器826的实施例中,瞬时地和/或重复地改变控制信号的值可能导致声音伪像。预加重滤波器802和去加重滤波器826可以降低声音伪像的严重性,诸如上文所描述的。

在所示的示例中,预加重滤波器802接收3d源信号、对3d源信号进行滤波、并且将滤波后的信号输出到预处理模块804。3d源信号可以类似于上文例如关于图1a-1b、3a和4-7所描述的输入信号。预加重滤波器802可类似于上文例如关于图3a-3b和4-7所描述的预加重滤波器。

预处理模块804包括一个或多个滤波器806、一个或多个预延迟模块808、一个或多个平移模块810和开关812。

从预加重滤波器802接收的滤波后的信号被输入到一个或多个滤波器806。一个或多个滤波器806可以是例如距离滤波器、空气吸收滤波器、源方向性滤波器、遮挡滤波器、阻挡(obstruction)滤波器等。一个或多个滤波器806中的第一滤波器向开关812输出信号,并且一个或多个滤波器806的其余滤波器将相应信号输出到预延迟模块808。

开关812接收来自第一滤波器的信号输出,并将信号引导到第一平移模块、第二平移模块或耳间时间差(itd)延迟模块。itd延迟模块向第三平移模块输出第一被延迟的信号,并且向第四平移模块输出第二被延迟的信号。

一个或多个预延迟模块808各自接收相应的信号、延迟所接收的信号、并且输出所接收的信号的被延迟的版本。第一预延迟模块将第一被延迟的信号输出到第五平移模块。剩余的延迟模块将被延迟的信号输出到各种混响发送总线。

一个或多个平移模块810每一者将相应的输入信号平移到总线。第一平移模块将信号平移到扩散总线,第二平移模块将信号平移到标准总线述第三平移模块将信号平移到左总线,第四平移模块将信号平移到右总线,以及所述第五平移模块将信号平移到聚类反射总线。

聚类反射总线向聚类反射模块814输出信号。聚类反射模块814生成反射的聚类并将反射的聚类输出到聚类反射遮挡模块。

各种混响发送总线向各种混响模块816输出信号。混响模块816生成混响并将混响输出到各种混响平移模块810。混响平移模块818将混响平移到各种混响遮挡模块820。混响遮挡模块820对与滤波器806类似的遮挡和其他特性进行建模,并将被遮挡的平移的混响输出到标准总线。

多信道去相关滤波器组822接收扩散总线,并应用一个或多个去相关滤波器;例如,滤波器组822扩展(spread)信号以创建非点源的声音,并将被扩散的信号输出到标准总线。

虚拟化器824接收左总线、右总线和标准总线,并将信号输出到去加重滤波器826。虚拟化器824可以类似于上文例如关于图1b和图5-7描述的解码器。去加重滤波器826可以类似于上文例如关于图3a、3c和4-7所描述的去加重滤波器。

在此描述了本公开的各种示例性实施例。在非限制性意义上参考这些示例。提供这些示例以说明本公开的更广泛的应用方面。可以在不脱离本公开的精神和范围的情况下,可以对所描述的公开进行各种改变并可替换等同物。此外,可以进行许多修改以使特定情况、材料、物质的组成、过程、一个或多个过程动作或一个或多个步骤适应于本公开的一个或多个目的、精神或范围。此外,如本领域技术人员将理解的,在不脱离本公开的范围或精神的情况下,在此所描述和示出的各个变型中的每一个具有分离的组件和特征,其可以容易地与其他若干实施例中的任一特征分离或组合。所有这些修改旨在处于与本公开相关联的权利要求的范围内。

本公开包括可以使用主题装置执行的方法。该方法可以包括提供这种合适的装置的动作。这种提供可以由终端用户执行。换句话说,“提供”动作仅仅需要终端用户获得、访问、接近、定位、设置、激活、开启或以其他方式提供在该方法中的必要装置。在此所述的方法可以按逻辑上可能的所述事件的任何顺序以及按照所记载的事件顺序进行。

以上已经阐述了本公开的示例性方面以及关于材料选择和制造的细节。关于本公开的其他细节,可以结合上述参考的专利和出版物以及本领域技术人员通常所知或理解的来理解这些。关于根据本公开的基础方法的方面在通常或逻辑上利用的附加动作方面同样可以成立。

另外,虽然已经参考可选地并入各种特征的若干示例描述了本公开,但是本公开不限于针对本公开的每一个变型所构想的描述或指示的公开。在不脱离本公开的实际精神和范围的情况下,可以对所描述的本公开进行各种改变,并且可以替代等同物(为了简洁起见,不论在此是否包括)。此外,在提供了值的范围的情况下,应当理解,在该范围的上限和下限之间的每一个中间值以及在该所述范围内的任何其他所述或中间值都包含在本公开内。

另外,可构想的是所描述的变形的任何可选特征可独立地或与在此所描述的特征中的任何一个或多个相结合来陈述和要求权利。引用单数项包括可能存在相同项的复数。更具体地,如在此和关联权利要求书所使用的,单数形式“一”、“一个”、“所述”和“该”包括复数对象,除非另有明确说明。换句话说,在上述描述以及与本公开关联的权利要求中,允许使用冠词的“至少一个”目标项。进一步应注意,可以起草这种权利要求以排除任何可选要素。因此,结合权利要求要素或使用“负面”限制,本声明旨在作为使用“单独地”、“仅”等排他性术语的先行基础。

在不使用这种排他性术语的情况下,与本公开相关联的权利要求中的术语“包括”应允许包括任何附加元素,不考虑在这种权利要求中是否列举了给定数量的要素或添加特征可以被认为是改变在权利要求中所述的元素的性质。除了在此具体定义之外,应在保持权利要求有效性的同时给定在此使用的所有技术和科学术语尽可能广泛的通常理解含义。

本公开的广度不限于提供的实施例和/或主题说明书,而是仅由与本公开相关联的权利要求语言的范围限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1