用于三维音频渲染的改进的头部跟踪的制作方法

文档序号：38038441发布日期：2024-05-17 13:26阅读：31来源：国知局

本公开涉及为坐着的用户渲染三维音频。

背景技术：

1、人类生理学是这样的，人的耳朵及其结构的大小和形状(并且甚至是人的鼻腔、口腔以及一般而言头部的大小和形状等因素)可以在环境中产生的声音到达将声音振动变换成由神经(例如，毛细胞)承载的电活动的生理结构之前对这些声音进行转换。结果是人的头部在环境中的三维取向可能会影响人的大脑对声音的感知。在成长和发展的过程中，在感知以这种方式进行生理转换的入射声音时，人的大脑学会了确定入射声音来源的相对方向。人们由此可以感知环境中入射声音的来源方向。

2、知道了这种现象，可以(例如，通过预处理)对音频信号进行转换，并且可以生成基于这些音频信号的声音，使得音频信号的转换控制人感知声音来源的方向。这种过程可以被称为音频渲染或三维音频渲染。音频渲染过程可以建立和保持关于环境内各种声音的来源方向的错觉，即使这些声音可能是从环境内具有固定位置的扬声器发出的。多种应用中的任何一种都可以通过音频渲染过程来增强，包括在真实环境中建立虚拟存在(例如，以实现真实事件的远程出席)和建立虚拟环境(例如，在娱乐背景中)。

3、音频渲染过程可以受益于能够考虑与环境内人的头部的位置和/或取向(并且因此相对于环境内可能具有相对固定位置的扬声器)有关的各种参数。然而，用于收集此类信息诸如基于视频或基于相机的头部跟踪的传统方法可能相对昂贵。此外，这类方法还可能具有高延迟，这可影响三维音频渲染系统的性能。

技术实现思路

1、本文公开了用于改进三维音频渲染的头部跟踪的各种机制和方法。对于音频表演的长时间部分用户可能坐着的环境，多个传感器可以分布在相对于座椅或相对于座椅的一部分(诸如头枕)的预先确定的位置和/或取向。这些传感器可以是相对便宜的传感器。同时，那些传感器的输出可被提供给机器学习模型，所述机器学习模型可结合神经网络(诸如卷积神经网络)或其他机器学习结构。

2、在训练周期期间，模型可以将传感器的输出以及安装在坐在座椅中的用户身上(例如，安装在用户头部上)的运动跟踪装置的输出作为输入。运动跟踪装置可能是一种在标准操作中使用起来过于昂贵和/或缓慢的装置。运动跟踪装置可以输出与用户头部的位置和/或取向相关的各种参数。位置和/或取向参数可以相对于更广泛的环境(例如，包含座椅的环境)或相对于座椅的一部分(例如，座椅的头枕)或两者来表达。在训练过程中，模型可以基于分布在环境中(例如，在座椅的头枕处)的传感器的输出来开发和改进预测由运动跟踪装置输出的位置和/或取向参数的能力。

3、在训练之后，在标准操作期间，模型可以将传感器的输出作为输入，而无需来自运动跟踪装置的输入。然后，所述模型可以基于传感器输出提供其关于用户头部的位置和/或取向参数的预测作为输出。因此，可以以较低的成本获得这些预测参数，并且可以以相对较低的延迟(已经省却了运动跟踪装置)执行这些预测参数。因此，本文公开的机制和方法可以有利地降低向音频渲染系统提供位置和/或取向信息的成本并提高其速度，这继而可以有利地改进对那些音频渲染系统所支持的沉浸式音频体验的微调调整。

4、在各种实施方案中，使用运动跟踪装置导致的成本和延迟的缺点可以通过包括从座椅上的固定位置处的分别对应的多个传感器获得多个传感器输出的方法来解决。所述多个传感器输出可以作为输入提供给机器学习模型，并且可以从机器学习模型接收与座椅的用户的头部相对于座椅的预先确定的位置(例如，座椅头枕上的点)的位置和/或取向相关的一组参数(例如，平移参数和四元数参数)。然后，机器学习模型可以将参数提供给用于为座椅的用户生成三维音频信令的装置。以这种方式，可以避免运动跟踪装置在微调沉浸式音频体验方面的成本，同时提高系统性能。

5、应理解，为了以简化的形式介绍在具体实施方式中进一步描述的概念选择，提供了以上概述。这并不意在确定所要求保护的主题的关键或基本特征，所要求保护的主题的范围由随附于具体实施方式的权利要求唯一地限定。此外，所要求保护的主题并不限于解决以上或本公开的任何部分中指出的任何缺点的实现方式。

技术特征：

1.一种方法，其包括：

2.如权利要求1所述的方法，其还包括：

3.如权利要求1所述的方法，

4.如权利要求1所述的方法，

5.如权利要求1所述的方法，

6.如权利要求1所述的方法，

7.如权利要求6所述的方法，

8.如权利要求1所述的方法，

9.如权利要求1所述的方法，

10.如权利要求1所述的方法，

11.如权利要求1所述的方法，

12.如权利要求1所述的方法，

13.一种用于在环境内跟踪头部的方法，其包括：

14.如权利要求13所述的用于在所述环境内跟踪所述头部的方法，其还包括：

15.如权利要求13所述的用于在所述环境内跟踪所述头部的方法，

16.如权利要求13所述的用于改进在所述环境内跟踪所述头部的方法，

17.一种用于相对于座椅的头枕跟踪头部的系统，其包括：

18.如权利要求17所述的用于相对于所述座椅的所述头枕跟踪所述头部的系统，

19.如权利要求17所述的用于相对于所述座椅的所述头枕跟踪所述头部的系统，

20.如权利要求17所述的用于相对于所述座椅的所述头枕跟踪所述头部的系统，

技术总结
本发明提供了用于三维音频渲染的改进的头部跟踪的机制和方法。在一些实施方案中，方法可包括从座椅的一部分(例如，座椅的头枕)上的固定位置处的多个传感器获得传感器输出。所述传感器输出可被提供给机器学习模型，所述机器学习模型可被训练以基于那些传感器输出以及来自在训练期间所使用的运动跟踪装置的对应位置和/或取向参数来预测与所述座椅的用户的头部的位置和/或取向相关的参数。所述机器学习模型继而可以向音频系统提供一组平移参数和四元数参数预测，用于所述头枕的三维音频信令的改进的渲染。

技术研发人员：A·F·弗兰克
受保护的技术使用者：哈曼国际工业有限公司
技术研发日：
技术公布日：2024/5/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A·F·弗兰克
技术所有人：哈曼国际工业有限公司
我是此专利的发明人

上一篇：粘合剂组合物、粘合片及接合体的制作方法
上一篇：利用旋转产生的热能制造水泥的方法和设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。