音频处理的制作方法

文档序号：35658026发布日期：2023-10-06 14:40阅读：39来源：国知局

本公开的一个方面涉及增强现实环境中的音频处理。

背景技术：

1、可被嵌入消费电子设备(例如，移动电话或平板电脑)中的麦克风阵列能够促成一种用于捕获声音并渲染空间(3d)音效的装置。麦克风捕获的信号可包含有关空间的3d声学信息。3d音频渲染可被描述为音频信号(诸如麦克风信号或其他记录或合成的音频内容)的处理，以便生成由多信道扬声器装置(例如，立体声扬声器、环绕声扬声器、扬声器阵列或耳机)发出的声音。由扬声器发出的声音可被收听者感知为来自特定方向或在三维空间中环绕收听者。例如，此类虚拟声源中的一个或多个虚拟声源可在声音节目中生成，该声音节目将被收听者感知为在收听者后方、上方或下方，或者从收听者的一侧平移到另一侧。

技术实现思路

1、描述了用于与各种增强型现实技术相关地使用此类系统的电子系统和技术的各种示例。

2、物理布景是指各个人可在不使用电子系统的情况下感测和/或交互的世界。物理布景诸如物理公园包括物理元素，诸如物理野生动物、物理树木和物理植物。人们可例如使用一种或多种感觉(包括视觉、嗅觉、触觉、味觉和听觉)直接感测物理布景和/或以其他方式与物理布景进行交互。

3、与物理布景相比，增强型现实(er)布景是指各种人通过使用电子系统可感测和/或以其他方式与之交互的完全地(或部分地)计算机生成的布景。在er中，部分地监视人的移动，并且响应于此，以与一个或多个物理定律一致的方式来改变与er布景中的至少一个虚拟对象对应的至少一个属性。例如，响应于er系统检测到人向上看，er系统可以以与此类声音和外观会在物理布景中改变的方式一致的方式来调整呈现给人的各种音频和图形。也可例如响应于移动的表示(例如，语音命令)而进行对er布景中的虚拟对象的属性的调整。

4、人可以利用一种或多种感觉，诸如视觉、嗅觉、味觉、触觉和听觉来感测er对象和/或与er对象交互。例如，人可感测创建多维或空间声学布景的对象和/或与其交互。多维或空间声学布景为个人提供了在多维空间中对离散声源的感知。此类对象还可实现声学透明性，该声学透明性可在具有或没有计算机生成的音频的情况下选择性地结合来自物理布景的音频。在某些er布景中，人可仅感测音频对象和/或仅与其交互。

5、虚拟现实(vr)是er的一个示例。vr布景是指被配置为仅包括针对一种或多种感觉的计算机生成的感官输入的增强布景。vr布景包括人可以感测和/或交互的多个虚拟对象。人可通过在计算机生成的布景内模拟人动作中的至少一些动作和/或通过模拟人或其在计算机生成的布景内的存在来感测vr布景中的虚拟对象和/或与其交互。

6、混合现实(mr)是er的另一个示例。mr布景是指被配置为将计算机生成的感官输入(例如，虚拟对象)与来自物理布景的感官输入或来自物理布景的感官输入的表示进行集成的增强布景。在现实频谱上，mr布景介于一端处的完全物理布景和另一端处的vr布景之间并且不包括这些布景。

7、在一些mr布景中，计算机生成的感官输入可基于来自物理布景的感官输入的变化而被调整。另外，用于呈现mr布景的一些电子系统可以检测相对于物理布景的位置和/或取向，以实现真实对象(即来自物理布景的物理元素或其表示)与虚拟对象之间的交互。例如，系统可检测移动并相应地调整计算机生成的感官输入，使得例如虚拟树相对于物理结构看起来是固定的。

8、增强现实(ar)是mr的示例。ar布景是指一个或多个虚拟对象叠加在物理布景(或其表示)之上的增强布景。例如，电子系统可包括不透明显示器和用于捕获物理布景的视频和/或图像的一个或多个成像传感器。例如，此类视频和/或图像可以是物理布景的表示。视频和/或图像与虚拟对象组合，其中该组合随后被显示在不透明显示器上。物理布景可由人经由物理布景的图像和/或视频间接地查看。因此，人可观察叠加在物理布景上的虚拟对象。当系统捕获物理布景的图像并且使用所捕获的图像在不透明显示器上显示ar布景时，所显示的图像被称为视频透传。另选地，透明或半透明显示器可被包括在用于显示ar布景的电子系统中，使得个体可通过透明或半透明显示器直接查看物理布景。虚拟对象可被显示在半透明或透明显示器上，使得个体观察叠加在物理布景上的虚拟对象。在另一个示例中，可利用投影系统以便将虚拟对象投影到物理布景上。例如，虚拟对象可在物理表面上被投影，或作为全息图，使得个体观察叠加在物理布景之上的虚拟对象。

9、ar布景也可指其中物理布景的表示被计算机生成的感官数据修改的增强布景。例如，物理布景的表示的至少一部分能够以图形方式修改(例如，放大)，使得所修改的部分仍可表示初始捕获的图像(但不是完全复制的版本)。另选地，在提供视频透传时，可修改一个或多个传感器图像，以便施加与由图像传感器捕获的视点不同的特定视点。再如，物理布景的表示的部分可通过以图形方式将该部分进行模糊处理或消除该部分而被改变。

10、增强虚拟(av)是mr的另一个示例。av布景是指虚拟的或计算机生成的布景结合来自物理布景的一个或多个感官输入的增强布景。此类感官输入可包括物理布景的一个或多个特征的表示。虚拟对象可例如结合与由成像传感器捕获的物理元素相关联的颜色。另选地，虚拟对象可采用与例如对应于物理布景的当前天气状况一致的特征，诸如经由成像识别的天气状况、在线天气信息和/或与天气相关的传感器。又如，ar公园可包括虚拟结构、植物和树木，尽管ar公园布景内的动物可包括从物理动物的图像准确复制的特征。

11、各种系统允许人们感测er布景和/或与其交互。例如，头戴式系统可包括一个或多个扬声器和不透明显示器。又如，外部显示器(例如，智能电话)可结合到头戴式系统内。头戴式系统可包括用于捕获物理布景的音频的麦克风和/或用于捕获物理布景的图像/视频的图像传感器。头戴式系统中还可包括透明或半透明显示器。半透明或透明显示器可例如包括基板，(表示图像的)光通过该基板被引导到人的眼睛。显示器还可包含led、oled、硅基液晶、激光扫描光源、数字光投影仪或它们的任何组合。光透射穿过的基板可以是光学反射器、全息基板、光波导、光合路器或它们的任何组合。透明或半透明显示器可例如选择性地在透明/半透明状态和不透明状态之间转变。又如，电子系统可以是基于投影的系统。在基于投影的系统中，视网膜投影可用于将图像投影到人的视网膜上。另选地，基于投影的系统还可将虚拟对象投影到物理布景中，例如，诸如将虚拟对象投影为全息图或投影到物理表面上。er系统的其他示例包括被配置为显示图形的窗口、头戴式耳机、耳机、扬声器布置、被配置为显示图形的透镜、平视显示器、被配置为显示图形的汽车挡风玻璃、输入机构(例如，具有或不具有触觉功能的控制器)、台式或膝上型计算机、平板电脑或智能电话。

12、在增强现实环境中，位于增强现实环境中的用户可听到与增强现实布景的室内声学匹配的计算机生成的声音。在一个方面，可处理布置在增强现实布景中的虚拟化声源，使得该虚拟化声源听起来好像在类似于增强现实布景的物理布景中那样。在一个方面，可生成增强现实布景以匹配用户的物理环境。可渲染被导入到增强现实环境中的声音，使得它们在增强现实环境中听起来是自然的。

13、例如，如果两个人在同一物理房间(房间a)中并且第三个人在不同的物理房间中，一种方法或系统可通过将第三个人的语音带到房间a的环境中来生成增强现实体验，其中所有用户听起来好像他们在房间a中一样。这可为用户提供更沉浸、更自然的增强现实体验。然而，在将第三个人的语音渲染成听起来好像他们在房间a中一样时的问题是，渲染应考虑房间a的独特属性，诸如混响、房间尺寸、房间几何结构、房间中的对象、表面的吸声、用于语音再现的指向性图案(指向性)，以及其他房间属性。此外，第三个人位于可具有不同声学属性的不同房间中，这些不同声学属性可在第三个人的语音中听到。

14、处理第三个人的语音或虚拟声源以匹配增强现实布景可能是有益的。例如，在一个方面，图像可从设备的相机生成。该设备可以是移动设备，诸如平板电脑或智能电话。该设备还可以是头戴式设备。例如，构成此类设备的相机可生成物理布景或环境的图像。可在该等图像中检测到对象检测、房间几何结构估计、房间布局提取和对象对准，以得出包括房间中墙壁和对象位置的房间构造估计，然后建模。

15、基于该等图像生成的这些信息可与从设备的麦克风获得的房间声学参数的估计值组合。通过使用针对声学模拟优化的房间几何结构(例如，声学上正确的或简化的物理房间构造版本)以及声学参数估计，可以表征物理环境的声学。该表征可被发送到其他应用或用户以进行处理。在这种情况下，被带入虚拟布景的其他用户可体验与增强现实布景的音频匹配的虚拟化音频，增强现实布景的音频继而与例如用户的物理环境的音频匹配。

16、在一个方面，描述了一种用于在增强现实环境中处理声音的方法。所述方法包括：接收由相机捕获的图像，所述图像示出物理环境；基于所述图像生成所述物理环境的估计模型，其中所述估计模型包括所述物理环境的三维表示；接收由麦克风阵列捕获的音频信号，所述音频信号在所述物理环境中捕获声音；基于所接收的音频信号生成所述物理环境的一个或多个实测声学参数；以及使用所述估计模型和所述实测声学参数处理目标音频信号，从而产生具有虚拟声源的多个输出音频信道，所述虚拟声源具有虚拟位置，所述输出音频信道用于驱动多个扬声器。

17、在一个方面，所述目标音频信号的处理包括基于所述实测声学参数修改所述估计模型的一个或多个声学表面材料参数，从而得到所述物理环境的更新模型；基于所述更新模型选择或生成一个或多个脉冲响应；以及利用所述一个或多个脉冲响应对所述目标音频信号和目标位置进行卷积以生成所述多个输出音频信道。

18、在一个方面，描述了一种在增强现实环境中处理音频的制品。所述制品包括：相机，用于捕获物理环境的图像；麦克风阵列，用于在所述物理环境中捕获声音；多个扬声器(例如，耳机)；以及在其中存储有指令的机器可读介质，所述指令在由处理器执行时使得所述制品执行以下操作：基于所述图像生成所述物理环境的估计模型，其中所述估计模型包括所述物理环境的三维表示；接收由所述麦克风阵列捕获的音频信号；基于所接收的音频信号生成所述物理环境的一个或多个实测声学参数；使用所述估计模型和所述实测声学参数处理目标音频信号，从而产生具有虚拟声源的多个输出音频信道，所述虚拟声源具有虚拟位置；以及在虚拟化环境中用所述输出音频信道驱动所述多个扬声器。

19、以上概述不包括本公开的所有方面的详尽列表。可预期的是，本公开包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在权利要求书部分特别指出的各个方面的所有合适的组合来实践的所有系统和方法。此类组合可具有未在上述
技术实现要素：
中具体阐述的特定优点。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：C
技术所有人：苹果公司
我是此专利的发明人

上一篇：一种易于组装生产的耳机喇叭结构的制作方法
上一篇：一种机械设备钻孔用固定工装的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。