在具有多个激活准则的多个扬声器上渲染音频的制作方法

文档序号:29210440发布日期:2022-03-12 04:48阅读:179来源:国知局
在具有多个激活准则的多个扬声器上渲染音频的制作方法
在具有多个激活准则的多个扬声器上渲染音频
1.相关申请案的交叉参考
2.本技术案主张2020年2月7日申请的第62/971,421号美国临时专利申请案及2020年6月25日申请的第62/705,410号美国临时专利申请案及2019年7月30日申请的第p201930702号西班牙专利申请案的优先权,每一申请案的全文由此以引用的方式并入。
技术领域
3.本公开涉及用于渲染音频以供一组扬声器的一些或全部扬声器(例如,每一经激活扬声器)回放的系统及方法。


背景技术:

4.音频装置,包含但不限于智能音频装置,已被广泛部署且成为许多家庭的共同特征。尽管用于控制音频装置的现有系统及方法提供益处,但仍需要改进的系统及方法。
5.符号及命名法
6.贯穿本公开,包含在权利要求书中,“扬声器”及“扩音器”同义地用以表示由单个扬声器馈送驱动的任何发声换能器(或一组换能器)。一组典型耳机包含两个扬声器。
7.贯穿本公开,包含在权利要求书中,“对”信号或数据执行操作的表述(例如,对信号或数据进行滤波、缩放、变换或施加增益)在广义上用以表示直接对信号或数据,或对信号或数据的经处理版本(例如,在对信号执行操作之前已经历初步滤波或预处理的信号版本)执行操作。
8.贯穿本公开,包含在权利要求书中,表述“系统”在广义上用以表示装置、系统或子系统。例如,实施解码器的子系统可被称为解码器系统,且包含此子系统的系统(例如,响应于多个输入而产生x个输出信号的系统,其中子系统产生m个输入且其它x-m个输入是从外部源接收)也可被称为解码器系统。
9.贯穿本公开,包含在权利要求书中,术语“处理器”在广义上用以表示可编程或以其它方式可配置(例如,使用软件或固件)以对数据(例如,音频或视频或其它图像数据)执行操作的系统或装置。处理器的实例包含现场可编程门阵列(或其它可配置集成电路或芯片组)、经编程及/或以其它方式经配置以对音频或其它声音数据执行流水线处理的数字信号处理器、可编程通用处理器或计算机及可编程微处理器芯片或芯片组。
10.贯穿本公开,包含在权利要求书中,术语“耦合”或“经耦合”用以意味直接或间接连接。因此,如果第一装置耦合到第二装置,那么那个连接可通过直接连接,或通过经由其它装置及连接的间接连接。
11.在本文中,我们使用表述“智能音频装置”以表示作为单一用途音频装置或虚拟助手(例如,连网虚拟助手)的智能装置。单一用途音频装置是包含或耦合到至少一个麦克风(且任选地还包含或耦合到至少一个扬声器)且很大程度上或主要经设计以实现单一用途的装置(例如,tv或移动电话)。尽管tv通常可播放(且被认为能够播放)来自节目素材的音频,但在大多数情况下,现代tv运行某个操作系统,应用程序在所述操作系统上本地运行,
包含看电视的应用程序。类似地,移动电话中的音频输入及输出可能会做很多事情,但这些由所述电话上运行的应用程序服务。在这个意义上,具有(若干)扬声器及(若干)麦克风的单一用途音频装置通常经配置以运行本地应用程序及/或服务以直接使用(若干)扬声器及(若干)麦克风。一些单一用途音频装置可经配置以分组在一起以实现在一地带或用户配置区域上播放音频。
12.虚拟助手(例如,连网虚拟助手)是包含或耦合到至少一个麦克风(且任选地还包含或耦合到至少一个扬声器)且可为在某种意义上云启用或以其它方式未在虚拟助手自身中或上实施的应用程序提供利用多个装置(不同于虚拟助手)的能力的装置(例如,智能扬声器或语音助手集成装置)。虚拟助手有时可一起工作,例如,以离散且有条件定义的方式。例如,两个或更多个虚拟助手可在它们中的一者(例如最有信心听到唤醒词的虚拟助手)响应于所述词的意义上一起工作。连网装置可形成一种星座,所述星座可由可为(或实施)虚拟助手的一个主应用程序来管理。
13.在本文中,“唤醒词”在广义上用以表示任何声音(例如,由人类发出的词,或一些其它声音),其中智能音频装置经配置以响应于检测到(“听到”)声音(使用包含在智能音频装置中或耦合到智能音频装置的至少一个麦克风,或至少一个其它麦克风)而被唤醒。在这个背景下,“唤醒”表示装置进入其等待(即,正在侦听)声音命令的状态。在一些情况下,本文中可被称为“唤醒词”的内容可包含多于一个词,例如,短语。
14.在本文中,表述“唤醒词检测器”表示经配置以连续搜索实时声音(例如,话语)特征与经训练模型之间的对准的装置(或包含用于配置装置的指令的软件)。通常,每当唤醒词检测器确定已检测到唤醒词的概率超过预定义阈值时触发唤醒词事件。例如,所述阈值可为经调谐以在误接受与误拒绝之间提供良好折衷的预定阈值。在唤醒词事件后,装置可能进入一状态(其可被称为“唤醒”状态或“专注”状态),其中所述装置侦听命令且将经接收命令传递到更大、更强计算密集型的辨识器。


技术实现要素:

15.一些实施例是用于渲染音频以供一组智能音频装置的智能音频装置中的至少一者(例如,全部或一些)回放,或以供一组扬声器的扬声器中的至少一者(例如,全部或一些)回放的方法。所述渲染可包含成本函数的最小化,其中所述成本函数包含至少一个动态(例如,动态可配置)扬声器激活项。包含具有激活惩罚的(若干)动态可配置项允许响应于众多预计控制而修改空间渲染。动态扬声器激活项的实例包含(但不限于):
16.●
扬声器与一或多个听音者的接近度;
17.●
扬声器与吸引或排斥力的接近度;
18.●
所述扬声器相对于某个位置(例如,听音者位置或婴儿房)的可听度;
19.●
所述扬声器的能力(频率响应及失真);
20.●
所述扬声器相对于其它扬声器的同步;
21.●
唤醒词性能;及/或
22.●
回声消除器性能。
23.所述成本函数(包含至少一个动态扬声器激活项)的最小化可能导致所述扬声器中的至少一者的取消激活(在每一此扬声器不播放相关音频内容的意义上)及所述扬声器
中的至少一者的激活(在每一此扬声器播放至少一些所述经渲染音频内容的意义上)。(若干)动态扬声器激活项可实现多种行为中的至少一者,包含使所述音频远离特定智能音频装置的空间呈现规整使得其麦克风可更好地听到谈话者或使得可从所述智能音频装置的(若干)扬声器更好地听到辅助音频流。
24.一些所公开实施方案包含经配置(例如,经编程)以执行所公开方法或其步骤的任何实施例的系统,及实施数据的非暂时性存储、存储用于执行所公开方法或其步骤的任何实施例的代码(例如,可实行以供执行的代码)的有形非暂时性计算机可读媒体(例如,磁盘或其它有形存储媒体)。例如,所公开系统的实施例可为或包含使用软件或固件编程及/或以其它方式经配置以对数据执行多种操作中的任一者,包含所公开方法或其步骤的实施例的可编程通用处理器、数字信号处理器或微处理器。此通用处理器可为或包含计算机系统,所述计算机系统包含输入装置、存储器及处理子系统,经编程(及/或以其它方式经配置)以响应于对其断言的数据而执行所公开方法(或其步骤)的实施例。
25.本公开的至少一些方面可经由例如音频处理方法的方法来实施。在一些情况下,所述方法可至少部分地由例如本文中所公开的那些控制系统的控制系统来实施。一些此类方法涉及由控制系统且经由接口系统接收音频数据。在一些实例中,所述音频数据包含一或多个音频信号及相关联空间数据。根据一些实例,所述空间数据指示对应于音频信号的预期感知空间位置。
26.一些此类方法涉及由所述控制系统渲染所述音频数据以经由环境的一组扬声器再现,以产生经渲染音频信号。在一些实例中,渲染包含在所述音频数据中的所述一或多个音频信号中的每一者涉及通过优化作为以下项的函数的成本来确定环境中的一组扬声器的相对激活:当在所述环境中的所述一组扬声器上回放时播放的所述音频信号的感知空间位置模型;所述音频信号的所述预期感知空间位置与所述一组扬声器的每一扬声器的位置的接近度的量度;及一或多个额外动态可配置函数。
27.根据一些实例,所述一或多个额外动态可配置函数基于以下项中的一或多者:扬声器与一或多个听音者的接近度;扬声器与吸引力位置的接近度,其中吸引力是有利于更紧密接近所述吸引力位置的扬声器的相对较高激活的因子;扬声器与排斥力位置的接近度,其中排斥力是有利于更紧密接近所述排斥力位置的扬声器的相对较低激活的因子;所述环境中每一扬声器相对于其它扬声器的能力;所述扬声器相对于其它扬声器的同步;唤醒词性能;及/或回声消除器性能。
28.一些此类方法涉及经由所述接口系统将所述经渲染音频信号提供到所述环境的所述一组扬声器的至少一些扬声器。一些此类方法涉及由所述一组扬声器的至少一些扬声器再现所述经渲染音频信号。
29.根据一些实施方案,所述感知空间位置模型可在听音者的左耳及右耳处产生对应于音频对象位置的双耳响应。在一些实例中,所述感知空间位置模型可将从一组扬声器播放的音频信号的所述感知空间位置放置在由所述扬声器的相关联激活增益加权的所述一组扬声器的位置的质心处。在一些此类实例中,所述感知空间位置模型还可在听音者的所述左耳及右耳处产生对应于音频对象位置的双耳响应。
30.在一些情况下,所述一或多个额外动态可配置函数可至少部分地基于所述一或多个音频信号的电平。在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于
所述一或多个音频信号的频谱。
31.根据一些实施方案,所述一或多个额外动态可配置函数可至少部分地基于所述扬声器中的每一者在所述环境中的位置。在一些情况下,每一扬声器的所述能力可包含频率响应、回放电平极限或一或多种扬声器动态处理算法的参数中的一或多者。在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述其它扬声器的声学传输的测量或估计。
32.根据一些实例,所述一或多个额外动态可配置函数可至少部分地基于一或多个人在所述环境中的一或若干位置。在一些此类实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述一或多个人的所述一或若干位置的声学传输的测量或估计。
33.在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于一或多个非扬声器对象在所述环境中的对象位置。在一些此类实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述对象位置的声学传输的测量或估计。
34.在一些情况下,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述环境的一或多个地标、区域或地带的声学传输的估计。根据一些实例,所述预期感知空间位置可对应于基于信道的音频格式的信道或位置元数据中的至少一者。
35.本文中所描述的操作、函数及/或方法的一些或全部可由一或多个装置根据存储在一或多个非暂时性媒体上的指令(例如,软件)来执行。此非暂时性媒体可包含例如本文中所描述的那些存储器装置的一或多个存储器装置,包含但不限于一或多个随机存取存储器(ram)装置、只读存储器(rom)装置等。因此,本公开中所描述的主题的一些创新方面可在其上存储有软件的一或多个非暂时性媒体中实施。
36.例如,所述软件可包含用于控制一或多个装置以执行一种方法的指令,所述方法涉及由控制系统且经由接口系统接收音频数据。在一些实例中,所述音频数据包含一或多个音频信号及相关联空间数据。根据一些实例,所述空间数据指示对应于音频信号的预期感知空间位置。
37.一些此类方法涉及由所述控制系统渲染所述音频数据以经由环境的一组扬声器再现,以产生经渲染音频信号。在一些实例中,渲染包含在所述音频数据中的所述一或多个音频信号中的每一者涉及通过优化作为以下项的函数的成本来确定环境中的一组扬声器的相对激活:当在所述环境中的所述一组扬声器上回放时播放的所述音频信号的感知空间位置模型;所述音频信号的所述预期感知空间位置与所述一组扬声器的每一扬声器的位置的接近度的量度;及一或多个额外动态可配置函数。
38.根据一些实例,所述一或多个额外动态可配置函数基于以下项中的一或多者:扬声器与一或多个听音者的接近度;扬声器与吸引力位置的接近度,其中吸引力是有利于更紧密接近所述吸引力位置的扬声器的相对较高激活的因子;扬声器与排斥力位置的接近度,其中排斥力是有利于更紧密接近所述排斥力位置的扬声器的相对较低激活的因子;所述环境中每一扬声器相对于其它扬声器的能力;所述扬声器相对于其它扬声器的同步;唤醒词性能;及/或回声消除器性能。
39.一些此类方法涉及经由所述接口系统将所述经渲染音频信号提供到所述环境的所述一组扬声器的至少一些扬声器。一些此类方法涉及由所述一组扬声器的至少一些扬声
器再现所述经渲染音频信号。
40.根据一些实施方案,所述感知空间位置模型可在听音者的左耳及右耳处产生对应于音频对象位置的双耳响应。在一些实例中,所述感知空间位置模型可将从一组扬声器播放的音频信号的所述感知空间位置放置在由所述扬声器的相关联激活增益加权的所述一组扬声器的位置的质心处。在一些此类实例中,所述感知空间位置模型还可在听音者的所述左耳及右耳处产生对应于音频对象位置的双耳响应。
41.在一些情况下,所述一或多个额外动态可配置函数可至少部分地基于所述一或多个音频信号的电平。在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于所述一或多个音频信号的频谱。
42.根据一些实施方案,所述一或多个额外动态可配置函数可至少部分地基于所述扬声器中的每一者在所述环境中的位置。在一些情况下,每一扬声器的所述能力可包含频率响应、回放电平极限或一或多种扬声器动态处理算法的参数中的一或多者。在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述其它扬声器的声学传输的测量或估计。
43.根据一些实例,所述一或多个额外动态可配置函数可至少部分地基于一或多个人在所述环境中的一或若干位置。在一些此类实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述一或多个人的所述一或若干位置的声学传输的测量或估计。
44.在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于一或多个非扬声器对象在所述环境中的对象位置。在一些此类实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述对象位置的声学传输的测量或估计。
45.在一些情况下,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述环境的一或多个地标、区域或地带的声学传输的估计。根据一些实例,所述预期感知空间位置可对应于基于信道的音频格式的信道或位置元数据中的至少一者。
46.本公开的至少一些方面可经由设备来实施。例如,一或多个装置可能够至少部分地执行本文中所公开的方法。在一些实施方案中,一种设备可包含接口系统及控制系统。所述控制系统可包含一或多个通用单或多芯片处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其组合。
47.在一些实施方案中,所述控制系统可经配置以执行一或多种所公开方法。一些此类方法可涉及由所述控制系统且经由所述接口系统接收音频数据。在一些实例中,所述音频数据包含一或多个音频信号及相关联空间数据。根据一些实例,所述空间数据指示对应于音频信号的预期感知空间位置。
48.一些此类方法涉及由所述控制系统渲染所述音频数据以经由环境的一组扬声器再现,以产生经渲染音频信号。在一些实例中,渲染包含在所述音频数据中的所述一或多个音频信号中的每一者涉及通过优化作为以下项的函数的成本来确定环境中的一组扬声器的相对激活:当在所述环境中的所述一组扬声器上回放时播放的所述音频信号的感知空间位置模型;所述音频信号的所述预期感知空间位置与所述一组扬声器的每一扬声器的位置的接近度的量度;及一或多个额外动态可配置函数。
49.根据一些实例,所述一或多个额外动态可配置函数基于以下项中的一或多者:扬声器与一或多个听音者的接近度;扬声器与吸引力位置的接近度,其中吸引力是有利于更紧密接近所述吸引力位置的扬声器的相对较高激活的因子;扬声器与排斥力位置的接近度,其中排斥力是有利于更紧密接近所述排斥力位置的扬声器的相对较低激活的因子;所述环境中每一扬声器相对于其它扬声器的能力;所述扬声器相对于其它扬声器的同步;唤醒词性能;及/或回声消除器性能。
50.一些此类方法涉及经由所述接口系统将所述经渲染音频信号提供到所述环境的所述一组扬声器的至少一些扬声器。一些此类方法涉及由所述一组扬声器的至少一些扬声器再现所述经渲染音频信号。
51.根据一些实施方案,所述感知空间位置模型可在听音者的左耳及右耳处产生对应于音频对象位置的双耳响应。在一些实例中,所述感知空间位置模型可将从一组扬声器播放的音频信号的所述感知空间位置放置在由所述扬声器的相关联激活增益加权的所述一组扬声器的位置的质心处。在一些此类实例中,所述感知空间位置模型还可在听音者的所述左耳及右耳处产生对应于音频对象位置的双耳响应。
52.在一些情况下,所述一或多个额外动态可配置函数可至少部分地基于所述一或多个音频信号的电平。在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于所述一或多个音频信号的频谱。
53.根据一些实施方案,所述一或多个额外动态可配置函数可至少部分地基于所述扬声器中的每一者在所述环境中的位置。在一些情况下,每一扬声器的所述能力可包含频率响应、回放电平极限或一或多种扬声器动态处理算法的参数中的一或多者。在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述其它扬声器的声学传输的测量或估计。
54.根据一些实例,所述一或多个额外动态可配置函数可至少部分地基于一或多个人在所述环境中的一或若干位置。在一些此类实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述一或多个人的所述一或若干位置的声学传输的测量或估计。
55.在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于一或多个非扬声器对象在所述环境中的对象位置。在一些此类实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述对象位置的声学传输的测量或估计。
56.在一些情况下,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述环境的一或多个地标、区域或地带的声学传输的估计。根据一些实例,所述预期感知空间位置可对应于基于信道的音频格式的信道或位置元数据中的至少一者。
57.本说明书中所描述的主题的一或多个实施方案的细节在附图及以下描述中进行阐述。其它特征、方面及优点将从所述描述、所述附图及权利要求书变得显而易见。应注意,以下图的相对尺寸可能未按比例绘制。
附图说明
58.图1及2是说明一组实例扬声器激活及对象渲染位置图。
59.图3a是概述可由例如图11或图12中所展示的那些设备或系统的设备或系统执行
的方法的一个实例的流程图。
60.图3b是实例实施例中的扬声器激活的图表。
61.图4是实例实施例中的对象渲染位置的图表。
62.图5是实例实施例中的扬声器激活的图表。
63.图6是实例实施例中的对象渲染位置的图表。
64.图7是实例实施例中的扬声器激活的图表。
65.图8是实例实施例中的对象渲染位置的图表。
66.图9是实例实施例中的指示扬声器激活的点的图表。
67.图10是根据一个实例的指示扬声器激活的点之间的三线性内插的图表。
68.图11是根据一个实例的环境的图。
69.图12是展示能够实施本公开的各个方面的设备的组件的实例的框图。
具体实施方式
70.灵活渲染允许在任意数目个任意放置的扬声器上渲染空间音频。鉴于音频装置,包含但不限于智能音频装置(例如,智能扬声器)在家庭中的广泛部署,需要实现允许消费产品执行音频的灵活渲染及如此渲染的音频的回放的灵活渲染技术。
71.已开发用以实施灵活渲染的若干技术。所述技术将渲染问题视为成本函数最小化之一,其中成本函数由两项组成:第一项是对渲染器试图实现的所要空间印象进行建模,且第二项是将成本指派给激活扬声器。迄今为止,这第二项专注于创建其中仅激活紧密接近被渲染的音频的所要空间位置的扬声器的稀疏解。
72.消费环境中的空间音频的回放通常与放置在规定位置中的扬声器的规定数目有关:例如,5.1及7.1环绕声。在这些情况下,内容是专门为相关联扬声器创作且被编码为离散信道,每一扬声器一个信道(例如,杜比数字(dolby digital)或杜比数字增强版(dolby digital plus)等)。最近,已引入打破内容与特定扬声器位置之间的这种关联的沉浸式、基于对象的空间音频格式(杜比全景声(dolby atmos))。代替地,内容可被描述为个别音频对象的集合,每一音频对象具有描述所述音频对象在三维空间中的所要感知位置的可能时变的元数据。在回放时,内容通过适应回放系统中的扬声器的数目及位置的渲染器变换成扬声器馈送。然而,许多此类渲染器仍将一组扬声器的位置约束于一组规定布局中的一者(例如,杜比全景声3.1.2、5.1.2、7.1.4、9.1.6等)。
73.除此受约束渲染之外,已开发允许在放置在任意位置处的真正任意数目个扬声器上灵活地渲染基于对象的音频的方法。这些方法要求渲染器了解侦听空间中的扬声器的数目及物理位置。为了使此系统对普通消费者实用,将需要一种用于定位扬声器的自动化方法。一种此方法依赖于使用可能与扬声器共置的多个麦克风。通过经由扬声器播放音频信号且使用麦克风进行录音,估计每一扬声器与麦克风之间的距离。随后从这些距离推断所述扬声器及麦克风两者的位置。
74.在消费领域中引入基于对象的空间音频的同时,已迅速采用所谓的“智能扬声器”,例如亚马逊回声(amazon echo)系列产品。这些装置的巨大人气可归因于由无线连接性及集成语音接口(例如,亚马逊亚历克斯(amazon’s alexa))为它们提供的简单性及方便性,但这些装置的声波能力通常受限,特别是在空间音频方面。在大多数情况下,这些装置
仅受约束于单声道或立体声回放。然而,将前述灵活渲染及自动定位技术与多个编排的智能扬声器组合可能产生具有非常复杂的空间回放能力且对于消费者来说设定仍保持极其简单的系统。消费者可根据需要在任何方便的地方放置或多或少的扬声器,而由于无线连接性,无需铺设扬声器线,且内置麦克风可用以自动定位相关联灵活渲染器的扬声器。
75.常规的灵活渲染算法经设计以尽可能接近地实现特定的所要感知空间印象。在编排的智能扬声器的系统中,有时,维持这种空间印象可能不是最重要或最渴望的目标。例如,如果有人同时尝试与集成语音助手交谈,那么可能需要以降低某些麦克风附近的扬声器的相对回放电平以便增大录音的信噪比的方式暂时改变空间渲染。本文中所描述的一些实施例可被实施为对现有灵活渲染方法的修改,以例如,出于实现一或多个额外目标的目的而允许对空间渲染进行此动态修改。
76.现有的灵活渲染技术包含质心振幅平移(cmap)及灵活虚拟化(fv)。从高层次来看,这两种技术渲染用于在一组两个或更多个扬声器上回放的一组一或多个音频信号,每一音频信号具有相关联的所要感知空间位置,其中所述一组扬声器的相对激活是所述扬声器上回放的所述音频信号的感知空间位置模型及所述音频信号的所要感知空间位置与所述扬声器的位置的接近度的函数。所述模型确保听音者在其预期空间位置附近听到音频信号,且接近度项控制使用哪些扬声器以实现这种空间印象。特定来说,接近度项有利于激活在音频信号的所要感知空间位置附近的扬声器。针对cmap及fv两者,这种函数关系可方便地从撰写两项的和的成本函数导出:一项用于空间方面且另一项用于接近度:
[0077][0078]
在此,集表示一组m个扬声器的位置,表示音频信号的所要感知空间位置,且g表示扬声器激活的m维向量。针对cmap,所述向量中的每一激活表示每扬声器的增益,而针对fv,每一激活表示一个滤波器(在这第二种情况下,g可等效地被视为在特定频率下的复值的向量且跨多个频率计算不同g以形成所述滤波器)。通过跨激活最小化成本函数找到最优激活向量:
[0079][0080]
对于成本函数的某些定义,尽管g
opt
的分量之间的相对电平是适当的,但很难控制由以上最小化引起的最优激活的绝对电平。为了解决这个问题,可执行g
opt
的后续归一化使得控制激活的绝对电平。例如,可需要将向量归一化为具有单位长度,这符合常用的恒定功率平移规则:
[0081][0082]
灵活渲染算法的确切行为是由成本函数的两项c
spatial
及c
proximity
的特定构造决定。针对cmap,c
spatial
是从将从一组扬声器播放的音频信号的感知空间位置放置在由它们的相关联激活增益gi(向量g的元素)加权的那些扬声器的位置的质心处的模型导出:
[0083][0084]
接着将方程式3操纵成表示所要音频位置与由经激活扬声器产生的那个位置之间的平方误差的空间成本:
[0085][0086]
对于fv,不同地定义成本函数的空间项。目标是在听音者的左耳及右耳处产生对应于音频对象位置的双耳响应b。从概念上讲,b是滤波器的2x1向量(每一耳朵一个滤波器),但更方便地被视为在特定频率下的复值的2x1向量。在特定频率下继续这个表示,可从由对象位置编索引的一组hrtf检索所要双耳响应:
[0087][0088]
同时,将扬声器在听音者的耳朵处产生的2x1双耳响应e建模为2xm声学传输矩阵h乘以复扬声器激活值的mx1向量g:
[0089]
e=hg
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0090]
声学传输矩阵h是基于相对于听音者位置的扬声器位置集来建模。最后,成本函数的空间分量被定义为所要双耳响应(方程式5)与由扬声器产生的那个响应(方程式6)之间的平方误差:
[0091][0092]
方便地,方程式4及7中所定义的cmap及fv的成本函数的空间项均可重新布置成作为扬声器激活g的函数的矩阵二次方程:
[0093][0094]
其中a是m
×
m方阵,b是1
×
m向量,且c是标量。矩阵a的秩为2,且因此当m》2时,存在其空间误差项等于0的无限数目个扬声器激活g。引入成本函数的第二项c
proximity
会消除这种不确定性且导致与其它可能解相比具有感知有益性质的特定解。针对cmap及fv两者,构造c
proximity
使得其位置远离所要音频信号位置的扬声器的激活比其位置接近所述所要位置的扬声器的激活受到更多惩罚。这种构造产生稀疏扬声器激活的最优集,其中仅紧密接近所要音频信号的位置的扬声器被显著地激活,且实际上导致在感知上对一组扬声器周围的听音者移动更稳健的音频信号的空间再现。
[0095]
为此,成本函数的第二项c
proximity
可被定义为扬声器激活的绝对值平方的距离加权和。这以矩阵形式紧凑地表示为:
[0096][0097]
其中d是所要音频位置与每一扬声器之间的距离惩罚的对角矩阵:
[0098][0099]
距离惩罚函数可采取许多形式,但以下是有用参数化
[0100][0101]
其中是所要音频位置与扬声器位置之间的欧几里得距离且α及β是可调谐参数。参数α指示惩罚的全局强度;d0对应于距离惩罚的空间范围(距离d0左右或更远的扬声器将受到惩罚),且β解释在距离d0处惩罚开始的突然性。
[0102]
组合方程式8及9a中所定义的成本函数的两项会产生总成本函数
[0103]
c(g)=g
*
ag+bg+c+g
*
dg=g
*
(a+d)g+bg+c
ꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0104]
将这个成本函数相对于g的导数设置为零且求解g会产生最优扬声器激活解:
[0105][0106]
一般来说,方程式11中的最优解可能产生负值的扬声器激活。针对灵活渲染器的cmap构造,可能不需要此类负激活,且因此方程式(11)可在使全部激活保持为正的情况下最小化。
[0107]
图1及2是说明一组实例扬声器激活及对象渲染位置的图。在这些实例中,扬声器激活及对象渲染位置对应于4、64、165、-87及-4度的扬声器位置。图1展示扬声器激活105a、110a、115a、120a及125a,所述扬声器激活包括方程式11针对这些特定扬声器位置的最优解。图2将个别扬声器位置绘制为点205、210、215、220及225,所述点分别对应于扬声器激活105a、110a、115a、120a及125a。图2还将多个可能对象角度的理想对象位置(换句话说,将渲染音频对象的位置)展示为点230a且将那些对象的对应实际渲染位置展示为通过虚线240a连接到所述理想对象位置的点235a。
[0108]
一类实施例涉及用于渲染音频以供多个协调(编排)智能音频装置中的至少一者(例如,全部或一些)回放的方法。例如,存在于用户家中(在系统中)的一组智能音频装置可经编排以处置供所述智能音频装置的全部或一些(即,供全部或一些的(若干)扬声器)回放的音频的多种同时用例,包含灵活渲染(根据实施例)。考虑与系统的许多交互,其需要对所述渲染进行动态修改。此类修改可但不一定专注于空间保真度。
[0109]
一些实施例是用于渲染音频以供一组智能音频装置的智能音频装置中的至少一者(例如,全部或一些)回放(或以供另一组扬声器的扬声器中的至少一者(例如,全部或一些)回放)的方法。所述渲染可包含成本函数的最小化,其中所述成本函数包含至少一个动态扬声器激活项。此动态扬声器激活项的实例包含(但不限于):
[0110]

扬声器与一或多个听音者的接近度;
[0111]

扬声器与吸引或排斥力的接近度;
[0112]

所述扬声器相对于某个位置(例如,听音者位置或婴儿房)的可听度;
[0113]

所述扬声器的能力(例如,频率响应及失真);
[0114]

所述扬声器相对于其它扬声器的同步;
[0115]

唤醒词性能;及
[0116]

回声消除器性能。
[0117]
(若干)动态扬声器激活项可实现多种行为中的至少一者,包含使所述音频远离特定智能音频装置的空间呈现规整使得其麦克风可更好地听到谈话者或使得可从所述智能音频装置的(若干)扬声器更好地听到辅助音频流。
[0118]
一些实施例实施渲染以供协调(编排)的多个智能音频装置的(若干)扬声器回放。其它实施例实施渲染以供另一组扬声器的(若干)扬声器回放。
[0119]
将灵活渲染方法(根据一些实施例实施)与一组无线智能扬声器(或其它智能音频装置)配对可产生极其有能力且易于使用的空间音频渲染系统。在考虑与此系统的交互时,很明显可能需要对空间渲染进行动态修改以便针对所述系统的使用期间可能出现的其它目标进行优化。为了实现这个目标,一类实施例扩增现有灵活渲染算法(其中扬声器激活是
先前所公开空间及接近度项的函数),其中一或多个额外动态可配置函数取决于被渲染的音频信号的一或多个性质、一组扬声器及/或其它外部输入。根据一些实施例,方程式1中所给出的现有灵活渲染的成本函数根据根据以下方程式以这些一或多个额外依赖性来扩增
[0120][0121]
在方程式12中,项表示额外成本项,其中表示被渲染的(例如,基于对象的音频节目的)音频信号的一或多个性质的集,表示在其上渲染音频的扬声器的一或多个性质的集,且表示一或多个额外外部输入。每一项传回与一般由集表示的音频信号、扬声器及/或外部输入的组合相关的成本作为激活g的函数。应明白,集至少含有来自或中的任一者的仅一个元素。
[0122]
的实例包含但不限于:
[0123]

音频信号的所要感知空间位置;
[0124]

音频信号的电平(可能时变);及/或
[0125]

音频信号的频谱(可能时变)。
[0126]
的实例包含但不限于:
[0127]

扬声器在侦听空间中的位置;
[0128]

扬声器的频率响应;
[0129]

扬声器的回放电平极限;
[0130]

扬声器内的动态处理算法的参数,例如限幅器增益;
[0131]

从每一扬声器到其它扬声器的声学传输的测量或估计;
[0132]

扬声器上的回声消除器性能的量度;及/或
[0133]

扬声器相对于彼此的相对同步。
[0134]
的实例包含但不限于:
[0135]

一或多个听音者或谈话者在回放空间中的位置;
[0136]

从每一扬声器到侦听位置的声学传输的测量或估计;
[0137]

从谈话者到一组扬声器的声学传输的测量或估计;
[0138]

回放空间中的某个其它地标的位置;及/或
[0139]

从每一扬声器到回放空间中的某个其它地标的声学传输的测量或估计;
[0140]
对于方程式12中所定义的新成本函数,可通过相对于g的最小化以及先前在方程式2a及2b中指定的可能后归一化来找到最优激活集。
[0141]
图3a是概述可由例如图11或图12中所展示的那些设备或系统的设备或系统执行的方法的一个实例的流程图。方法300的框,如同本文中所描述的其它方法,不一定按所指示顺序执行。此外,此类方法可包含比所展示及/或描述更多或更少的框。方法300的框可由一或多个装置来执行,所述装置可为(或可包含)控制系统,例如图12中所展示的控制系统1210。
[0142]
在这个实施方案中,框305涉及由控制系统且经由接口系统接收音频数据。在这个实例中,所述音频数据包含一或多个音频信号及相关联空间数据。根据这个实施方案,所述空间数据指示对应于音频信号的预期感知空间位置。在一些情况下,所述预期感知空间位置可为显式的,例如,如由例如杜比全景声位置元数据的位置元数据指示。在其它情况下,所述预期感知空间位置可为隐式的,例如,所述预期感知空间位置可为与根据杜比5.1、杜比7.1或另一基于信道的音频格式的信道相关联的假设位置。在一些实例中,框305涉及控制系统的渲染模块经由接口系统接收所述音频数据。
[0143]
根据这个实例,框310涉及由所述控制系统渲染所述音频数据以经由环境的一组扬声器再现,以产生经渲染音频信号。在这个实例中,渲染包含在所述音频数据中的所述一或多个音频信号中的每一者涉及通过优化成本函数来确定环境中的一组扬声器的相对激活。根据这个实例,所述成本是在所述环境中的所述一组扬声器上回放时播放的所述音频信号的感知空间位置模型的函数。在这个实例中,所述成本也是所述音频信号的所述预期感知空间位置与所述一组扬声器的每一扬声器的位置的接近度的量度的函数。在这个实施方案中,所述成本也是一或多个额外动态可配置函数的函数。在这个实例中,所述动态可配置函数基于以下项中的一或多者:扬声器与一或多个听音者的接近度;扬声器与吸引力位置的接近度,其中吸引力是有利于更紧密接近所述吸引力位置的相对较高扬声器激活的因子;扬声器与排斥力位置的接近度,其中排斥力是有利于更紧密接近所述排斥力位置的相对较低扬声器激活的因子;所述环境中每一扬声器相对于其它扬声器的能力;所述扬声器相对于其它扬声器的同步;唤醒词性能;或回声消除器性能。
[0144]
在这个实例中,框315涉及经由所述接口系统将所述经渲染音频信号提供到所述环境的所述一组扬声器的至少一些扬声器。
[0145]
根据一些实例,所述感知空间位置模型可在听音者的左耳及右耳处产生对应于音频对象位置的双耳响应。替代地或另外,所述感知空间位置模型可将从一组扬声器播放的音频信号的所述感知空间位置放置在由所述扬声器的相关联激活增益加权的所述一组扬声器的位置的质心处。
[0146]
在一些情况下,所述一或多个额外动态可配置函数可至少部分地基于所述一或多个音频信号的电平。在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于所述一或多个音频信号的频谱。
[0147]
方法300的一些实例涉及接收扬声器布局信息。在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于所述扬声器中的每一者在所述环境中的位置。
[0148]
方法300的一些实例涉及接收扬声器规格信息。在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于每一扬声器的所述能力,所述能力可包含频率响应、回放电平极限或一或多种扬声器动态处理算法的参数中的一或多者。
[0149]
根据一些实例,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到其它扬声器的声学传输的测量或估计。替代地或另外,所述一或多个额外动态可配置函数可至少部分地基于一或多个人在所述环境中的听音者或说话者位置。替代地或另外,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述听音者或说话者位置的声学传输的测量或估计。例如,声学传输的估计可至少部分地基于可驻留在每一扬声器与所述听音者或说话者位置之间的墙壁、家具或其它对象。
[0150]
替代地或另外,所述一或多个额外动态可配置函数可至少部分地基于所述环境中的一或多个非扬声器对象或地标的对象位置。在一些此类实施方案中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到对象位置或地标位置的声学传输的测量或估计。
[0151]
可通过采用一或多个适当定义的额外成本项以实施灵活渲染来实现众多新且有用的行为。下文所列出的全部实例行为是根据在被认为不合需要的某些条件下惩罚某些扬声器来扮演。最终结果是这些扬声器在一组音频信号的空间渲染中被较少激活。在许多这些情况下,人们可能考虑独立于对空间渲染的任何修改而简单地关闭不合需要的扬声器,但此策略可能使音频内容的总体平衡显著地降级。例如,混音的某些成分可能变得完全听不见。另一方面,使用所公开实施例,将这些惩罚集成到渲染的核心优化中允许渲染适应且使用剩余的惩罚较少的扬声器来执行最好的可能空间渲染。这是更巧妙、适应性强且有效的解。
[0152]
实例用例包含但不限于:
[0153]

在侦听区域周围提供更平衡的空间呈现
[0154]

已发现,空间音频最好跨与预期侦听区域距离大致相同的扬声器呈现。可构造成本使得比扬声器到侦听区域的平均距离更近或更远的扬声器受到惩罚,从而减少它们的激活;
[0155]

远离或朝向听音者或谈话者移动音频
[0156]

如果系统的用户尝试与系统的智能语音助手或与系统相关联的智能语音助手交谈,那么创建惩罚更接近谈话者的扬声器的成本可是有益的。以这种方式,这些扬声器被更少激活,从而允许它们的相关联麦克风更好地听到谈话者;
[0157]

为了给单个听音者提供更亲密的体验以最小化针对侦听空间中的其它人的回放电平,远离听音者的位置的扬声器可能受到严重惩罚使得仅最显著地激活最接近听音者的扬声器;
[0158]

远离或朝向地标、地带或区域移动音频
[0159]

侦听空间附近的某些位置可能被视为敏感的,例如婴儿房、婴儿床、办公室、阅读区域、学习区域等。在此情况下,可构造惩罚使用接近这个位置、地带或区域的扬声器的成本;
[0160]

替代地,针对以上相同情况(或类似情况),扬声器的系统可能已产生从每一扬声器到婴儿房间中的声学传输测的测量,特别是如果所述扬声器中的一者(具有附接或相关联麦克风)驻留在婴儿房自身内。在这种情况下,可构造惩罚其到婴儿房中的经测量声学传输为高的扬声器的使用的成本,而非使用扬声器与所述房间的物理接近度;及/或
[0161]

最优地使用扬声器能力
[0162]

不同扬声器的能力可能有很大差异。例如,一个流行的智能扬声器仅含有具有受限低频能力的单个1.6”全频驱动器。另一方面,另一智能扬声器含有有能力得多的3”低音扬声器。这些能力通常反映在扬声器的频率响应中,且因而,可在成本项中利用与扬声器相关联的响应集。在特定频率下,相对于其它扬声器能力较差的扬声器(如通过它们的频率响应测量)受到惩罚且因此激活到较低程度。在一些实施方案中,此类频率响应值可用智能扬声器存储且接着报告给负责优化灵活渲染的计算单元;
[0163]

许多扬声器含有多于一个驱动器,每一驱动器负责播放不同频率范围。例如,一个流行的智能扬声器是含有用于较低频率的低音扬声器及用于较高频率的高音扬声器的双向设计。通常,此扬声器含有交叉电路以将全频回放音频信号分成适当频率范围且发送到相应驱动器。替代地,此扬声器可提供对每一个别驱动器的灵活渲染器回放存取以及有关每一个别驱动器的能力的信息,例如频率响应。通过应用如上文刚刚描述的那个成本项的成本项,在一些实例中,灵活渲染器可基于两个驱动器在不同频率下的相对能力来自动构建它们之间的交叉;
[0164]

频率响应的上述实例使用专注于扬声器的固有能力,但可能无法准确地反映如放置在侦听环境中的扬声器的能力。在某些情况下,如预期侦听位置中测量的扬声器的频率响应可通过某个校准程序获得。可使用此类测量来代替预先计算的响应以更好地优化扬声器的使用。例如,某一扬声器在特定频率下可固有地非常有能力,但由于其放置(例如在墙壁或一件家具后面)可能在预期侦听位置处产生非常受限的响应。捕获这个响应且馈入适当成本项中的测量可防止此扬声器的显著激活;
[0165]

频率响应仅是扬声器的回放能力的一个方面。许多较小扬声器开始失真且接着随着回放电平增加而达到它们的偏移极限,特别是对于较低频率。为了减少此失真,许多扬声器实施将回放电平约束到低于可跨频率变动的某个极限阈值的动态处理。在其中扬声器接近或处于这些阈值,而参与灵活渲染的其它扬声器则不接近或处于这些阈值的情况下,降低限制扬声器中的信号电平且将这个能量转移到其它负担较轻的扬声器是有意义的。根据一些实施例,可通过恰当地配置相关联成本项来自动实现此行为。此成本项可能涉及以下项中的一或多者:
[0166]

监测关于扬声器的极限阈值的全局回放音量。例如,音量电平更接近其极限阈值的扬声器可能受到更多惩罚;
[0167]

监测可能跨频率变动的动态信号电平,所述动态信号电平与也可能跨频率变动的扬声器极限阈值相关。例如,经监测信号电平更接近其极限阈值的扬声器可能受到更多惩罚;
[0168]

直接监测扬声器的动态处理的参数,例如限制增益。在一些此类实例中,参数指示更多限制的扬声器可能受到更多惩罚;及/或
[0169]

监测由放大器递送到扬声器的实际瞬时电压、电流及功率以确定扬声器是否在线性范围内操作。例如,较少线性地操作的扬声器可能受到更多惩罚;
[0170]

具有集成麦克风及交互式语音助手的智能扬声器通常采用某种类型的回声消除以降低如由录音麦克风拾取的从扬声器播出的音频信号的电平。这种减少越大,扬声器听到及理解所述空间中的谈话者的机会就越大。如果回声消除器的残差一直很高,那么这可能指示扬声器正被驱动到其中回声路径的预测变得具挑战性的非线性区中。在此情况下,远离扬声器转移信号能量可能是有意义的,且因而,将回声消除器性能考虑在内的成本项可是有益的。此成本项可能将高成本指派给与其相关联回声消除器不良地执行的扬声器;
[0171]

为了在多个扬声器上渲染空间音频时实现可预测成像,通常需要一组扬声器上的回放跨时间合理地同步。针对有线扬声器,这是给定的,但对于多个无线扬声器,同步可能具挑战性且最终结果可变。在此情况下,每一扬声器可报告其与目标的相对同步程度,且
接着可将这个程度馈入同步成本项中。在一些此类实例中,具有较低同步程度的扬声器可能受到更多惩罚且因此被排除在渲染之外。另外,某些类型的音频信号可能不需要紧密同步,例如意在扩散或非定向的音频混合的分量。在一些实施方案中,可使用元数据来如此标记分量且可修改同步成本项使得减少惩罚。
[0172]
我们接下来描述实施例的实例。
[0173]
与方程式9a及9b中所定义的接近度成本类似,也方便的是将新成本函数项中的每一者表达为扬声器激活的绝对值平方的加权和:
[0174][0175]
其中wj是描述与项j的激活扬声器i相关联的成本的权重的对角矩阵是描述与项j的激活扬声器i相关联的成本的权重的对角矩阵
[0176][0177]
将方程式13a及b与方程式10中所给出的cmap及fv成本函数的矩阵二次方程版本组合会产生方程式12中所给出的(一些实施例的)一般扩展成本函数的潜在有益实施方案:
[0178]
c(g)=g
*
ag+bg+c+g
*
dg+∑
jg*
wjg=g
*
(a+d+∑jwj)g+bg+c
ꢀꢀ
(14)
[0179]
对于新成本函数项的这个定义,总成本函数仍是矩阵二次方程,且可通过对方程式14的微分找到最优激活集g
opt
以产生
[0180][0181]
考虑权重项中的每一者w
ij
作为扬声器中的每一者的给定连续惩罚值的函数作为扬声器中的每一者的给定连续惩罚值的函数是有用的。在一个实例实施例中,这个惩罚值是从对象(将被渲染)到所考虑扬声器的距离。在另一实例实施例中,这个惩罚值表示给定扬声器不能再现一些频率。基于这个惩罚值,可将权重项w
ij
参数化为:
[0182][0183]
其中αj表示前置因子(其将权重项的全局强度考虑在内),其中τj表示惩罚阈值(大约或超过权重项变得显著的阈值),且其中fj(x)表示单调递增函数。例如,对于权重项具有以下形式:
[0184][0185]
其中αj、βj、τj是分别指示惩罚的全局强度、惩罚开始的突然性及惩罚的程度的可调谐参数。在设置这些可调谐值时应小心使得成本项cj相对于任何其它额外成本项以及c
spatial
及c
proximity
的相对效应适合实现所要结果。例如,根据经验,如果人们需要特定惩罚来明显地支配其它惩罚,那么将其强度αj设置为比下一最大惩罚强度大大致十倍可是适当的。
[0186]
在全部扬声器受到惩罚的情况下,通常方便的是在后处理中从全部权重项减去最小惩罚使得所述扬声器中的至少一者不会受到惩罚:
[0187]wij
→w′
ij
=w
ij-mini(w
ij
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(18)
[0188]
如上所述,存在可使用本文中所描述的新成本函数项(及根据其它实施例采用的类似新成本函数项)来实现的许多用例。接下来,我们使用三个实例来描述更具体细节:朝向听音者或谈话者移动音频,远离听音者或谈话者移动音频,及远离地标移动音频。
[0189]
在第一实例中,本文中将被称为“吸引力”的内容用以朝向一位置拉动音频,所述位置在一些实例中可为听音者或谈话者的位置地标位置、家具位置等。所述位置在本文中可被称为“吸引力位置”或“吸引子位置”。如本文中所使用,“吸引力”是有利于更紧密接近吸引力位置的相对较高扬声器激活的因子。根据这个实例,权重w
ij
采取方程式17的形式,其中连续惩罚值p
ij
是由第i扬声器与固定吸引子位置的距离给出且阈值τj是由这些距离中跨全部扬声器的最大值给出:
[0190][0191][0192]
为了说明朝向听音者或谈话者“拉动”音频的用例,我们将αj=20、βj=3及专门设置为对应于180度的听音者/谈话者位置(曲线图的底部、中心)的向量。αj、βj及的这些值仅仅是实例。在一些实施方案中,αj可在1到100的范围内且βj可在1到25的范围内。图3b是实例实施例中的扬声器激活的图表。在这个实例中,图3b展示扬声器激活105b、110b、115b、120b及125b,所述扬声器激活包括来自图1及2但添加由w
ij
表示的吸引力的相同扬声器位置的成本函数的最优解。图4是实例实施例中的对象渲染位置的图表。在这个实例中,图4展示多个可能对象角度的对应理想对象位置230b及那些对象的通过虚线240b连接到理想对象位置230b的对应实际渲染位置235b。实际渲染位置235b朝向固定位置的偏斜定向说明吸引子权重对成本函数的最优解的影响。
[0193]
在第二及第三实例中,“排斥力”用以将音频“推动”远离一位置,所述位置可为人的位置(例如,听音者位置、谈话者位置等)或另一位置,例如地标位置、家具位置等。在一些实例中,排斥力可用以将音频推动远离收听环境的区域或地带,例如办公区域、阅读区域、床或卧室区域(例如,婴儿床或卧室)等。根据一些此类实例,特定位置可用作地带或区域的代表。例如,表示婴儿床的位置可为婴儿头部的估计位置、对应于婴儿的估计声源位置等。所述位置在本文中可被称为“排斥力位置”或“排斥位置”。如本文中所使用,“排斥力”是有利于更紧密接近排斥力位置的相对较低扬声器激活的因子。
[0194]
根据这个实例,与方程式19中的吸引力类似,我们相对于固定排斥位置定义p
ij
及τj:
[0195][0196]
[0197]
为了说明将音频推动远离听音者或谈话者的用例,我们将αj=5、βj=2及专门设置为对应于180度的听音者/谈话者位置(曲线图的底部、中心)的向量。αj、βj及的这些值仅仅是实例。如上所述,在一些实例中,αj可在1到100的范围内且βj可在1到25的范围内。图5是实例实施例中的扬声器激活的图表。根据这个实例,图5展示扬声器激活105c、110c、115c、120c及125c,所述扬声器激活包括与前图相同但添加由w
ij
表示的排斥力的扬声器位置的成本函数的最优解。图6是实例实施例中的对象渲染位置的图表。在这个实例中,图6展示多个可能对象角度的理想对象位置230c及那些对象的通过虚线240c连接到理想对象位置230c的对应实际渲染位置235c。实际渲染位置235c远离固定位置的偏斜定向说明排斥子权重对成本函数的最优解的影响。
[0198]
第三实例用例是将音频“推动”远离声学敏感的地标,例如熟睡婴儿房的门。与上一实例类似,我们将设置为对应于180度的门位置(曲线图的底部、中心)的向量。为了实现更强排斥力且将声场完全偏斜到主要侦听空间的前部中,我们设置αj=20,βj=5。图7是实例实施例中的扬声器激活的图表。而且,在这个实例中,图7展示扬声器激活105d、110d、115d、120d及125d,所述扬声器激活包括添加有更强排斥力的同一组扬声器位置的最优解。图8是实例实施例中的对象渲染位置的图表。而且,在这个实例中,图8展示多个可能对象角度的理想对象位置230d及那些对象的通过虚线240d连接到理想对象位置230d的对应实际渲染位置235d。实际渲染位置235d的偏斜定向说明更强排斥子权重对成本函数的最优解的影响。
[0199]
实施动态成本灵活渲染(根据一些实施例)的实际考虑之一是复杂性。在一些情况下,鉴于对象位置(将渲染的每一音频对象的位置,其可由元数据指示)每秒可能更改很多次,实时求解每一音频对象的每一频带的唯一成本函数可能不可行。以存储器为代价降低复杂性的替代方法是使用对全部可能对象位置的三维空间进行采样的查找表。所述采样不需要在全部维度上相同。图9是实例实施例中的指示扬声器激活的点的图表。在这个实例中,x及y维度是使用15个点进行采样且z维度是使用5个点进行采样。其它实施方案可包含更多样本或更少样本。根据这个实例,每一点表示cmap或fv解的m个扬声器激活。
[0200]
在运行时,为了确定每一扬声器的实际激活,在一些实例中可使用最接近的8个点的扬声器激活之间的三线性内插。图10是根据一个实例的指示扬声器激活的点之间的三线性内插的图表。在这个实例中,连续线性内插的过程包含内插顶部平面中的每一对点以确定第一及第二内插点1005a及1005b,内插底部平面中的每一对点以确定第三及第四内插点1010a及1010b,内插第一及第二内插点1005a及1005b以确定顶部平面中的第五内插点1015,内插第三及第四内插点1010a及1010b以确定底部平面中的第六内插点1020,及内插第五及第六内插点1015及1020以确定顶部与底部平面之间的第七内插点1025。尽管三线性内插是有效内插方法,但所属领域的技术人员将明白三线性内插仅是一种可用于实施本公开的方面的可能内插方法,且其它实例可包含其它内插方法。
[0201]
在例如其中排斥力用以为语音助手创建声学空间的以上第一实例中,另一重要概念是从没有排斥力的渲染场景到具有排斥力的场景的转变。为了创建平滑转变且给人动态规整声场的印象,在一段时间之间计算及内插没有排斥力的前一扬声器激活集及具有排斥
力的新扬声器激活集。
[0202]
根据实施例实施的音频渲染的实例是:一种音频渲染方法,其包括:
[0203]
在一组两个或多个扬声器上渲染一组一或多个音频信号,每一音频信号具有相关联的所要感知空间位置,其中所述一组扬声器的相对激活是以下项的函数:所述扬声器上回放的所述音频信号的感知空间位置模型;所述音频对象的所述所要感知空间位置与所述扬声器的位置的接近度;及一或多个额外动态可配置函数,其至少取决于所述一组音频信号的一或多个性质、所述一组扬声器的一或多个性质或一或多个外部输入。
[0204]
接下来,参考图11,我们描述实施例的额外实例。
[0205]
图11是根据一个实例的环境的图。在这个实例中,所述环境是生活空间,其包含用于音频交互的一组智能音频装置(装置1.1)、用于音频输出的扬声器(1.3)及可控灯(1.2)。在实例中,仅装置1.1含有麦克风且因此可感觉到发出唤醒词命令的用户(1.4)的位置。使用各种方法,可从这些装置共同获得信息以提供发出(例如,说出)唤醒词的用户的位置估计(例如,细粒度位置估计)。
[0206]
在此生活空间中,存在一人将在其中执行任务或活动或超过阈值的一组自然活动地带。这些行动区域(地带)是可能需要努力估计用户的位置(例如,以确定不确定的位置)或背景以协助接口的其它方面的位置。在图11实例中,关键行动区域是:
[0207]
1.厨房水槽及食物准备区域(在生活空间的左上区);
[0208]
2.冰箱门(在所述水槽及食物准备区域的右边);
[0209]
3.就餐区域(在生活空间的左下区);
[0210]
4.生活空间的开放区域(在所述水槽及食物准备区域以及就餐区域的右边);
[0211]
5.tv沙发(在开放区域的右边);
[0212]
6.tv自身;
[0213]
7.桌子;及
[0214]
8.门区域或入口通道(在生活空间的右上区)。
[0215]
在一些实例中,区域或地带可与环境中的房间的全部或部分对应。根据一些此类实例,区域或地带可与卧室的全部或部分对应。在一个此实例中,区域或地带可与婴儿的整个卧室或其一部分,例如婴儿床附近的区域对应。
[0216]
很明显,通常存在具有类似定位以适应行动区域的类似数目个灯。所述灯的一些或全部可为个别可控联网代理。
[0217]
根据一些实施例,(例如,由装置1.1中的一者,或图11系统的另一装置)渲染音频以供扬声器1.3中的一或多者(例如,装置1.1中的一或多者的(若干)扬声器)(根据所公开方法的任何实施例)回放。
[0218]
许多实施例在技术上是可能的。根据本公开,如何实施所述实施例对于所属领域的一般技术人员来说将是显而易见的。本文中描述所公开系统及方法的一些实施例。
[0219]
图12是展示能够实施本公开的各个方面的设备的组件的实例的框图。根据一些实例,设备1200可为或可包含经配置以执行本文中所公开的方法的至少一些的智能音频装置。在其它实施方案中,设备1200可为或可包含经配置以执行本文中所公开的方法的至少一些的另一装置,例如膝上型计算机、蜂窝电话、平板装置、智能家居集线器等。在一些此类实施方案中,设备1200可为或可包含服务器。
[0220]
在这个实例中,设备1200包含接口系统1205及控制系统1210。在一些实施方案中,接口系统1205可经配置以接收音频节目流。音频节目流可包含经调度以由环境的至少一些扬声器再现的音频信号。音频节目流可包含空间数据,例如信道数据及/或空间元数据。在一些实施方案中,接口系统1205可经配置以从环境中的一或多个麦克风接收输入。
[0221]
接口系统1205可包含一或多个网络接口及/或一或多个外部装置接口(例如一或多个通用串行总线(usb)接口)。根据一些实施方案,接口系统1205可包含一或多个无线接口。接口系统1205可包含用于实施用户接口的一或多个装置,例如一或多个麦克风、一或多个扬声器、显示系统、触摸传感器系统及/或手势传感器系统。在一些实例中,接口系统1205可包含控制系统1210与存储器系统,例如图12中所展示的任选存储器系统1215之间的一或多个接口。然而,控制系统1210可包含存储器系统。
[0222]
例如,控制系统1210可包含通用单或多芯片处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑装置、离散门或晶体管逻辑及/或离散硬件组件。
[0223]
在一些实施方案中,控制系统1210可驻留在多于一个装置中。例如,控制系统1210的一部分可驻留在本文中所描绘的环境中的一者内的装置中且控制系统1210的另一部分可驻留在所述环境外部的装置中,例如服务器、移动装置(例如,智能电话或平板计算机)。在其它实例中,控制系统1210的一部分可驻留在本文中所描绘的环境中的一者内的装置中且控制系统1210的另一部分可驻留在所述环境的一或多个其它装置中。例如,控制系统功能可跨环境的多个智能音频装置分布,或可由编排装置(例如本文中被称为智能家居集线器的装置)及环境的一或多个其它装置共享。在一些此类实例中,接口系统1205还可驻留在多于一个装置中。
[0224]
在一些实施方案中,控制系统1210可经配置以至少部分地执行本文中所公开的方法。根据一些实例,控制系统1210可经配置以实施在具有多个激活准则的多个扬声器上渲染音频的方法。
[0225]
本文中所描述的方法的一些或全部可由一或多个装置根据存储在一或多个非暂时性媒体上的指令(例如,软件)来执行。此非暂时性媒体可包含例如本文中所描述的存储器装置的存储器装置,包含但不限于随机存取存储器(ram)装置、只读存储器(rom)装置等。一或多个非暂时性媒体可例如驻留在图12中所展示的任选存储器系统1215及/或在控制系统1210中。因此,本公开中所描述的主题的各个创新方面可在其上存储有软件的一或多个非暂时性媒体中实施。例如,所述软件可包含用于控制至少一个装置以处理音频数据的指令。例如,所述软件可由例如图12的控制系统1210的控制系统的一或多个组件来实行。
[0226]
在一些实例中,设备1200可包含图12中所展示的任选麦克风系统1220。任选麦克风系统1220可包含一或多个麦克风。在一些实施方案中,所述麦克风中的一或多者可为另一装置的部分或与另一装置(例如扬声器系统的扬声器、智能音频装置等)相关联。
[0227]
根据一些实施方案,设备1200可包含图12中所展示的任选扬声器系统1225。任选扬声器系统1225可包含一或多个扬声器。在一些实例中,任选扬声器系统1225的至少一些扬声器可任意定位。例如,任选扬声器系统1225的至少一些扬声器可经放置在不对应于任何标准规定扬声器布局,例如杜比5.1、杜比7.1、hamasaki 22.2等的位置中。在一些此类实例中,任选扬声器系统1225的至少一些扬声器可经放置在对空间方便,但并非呈任何标准
规定扬声器布局的位置(例如,在其中存在用以容纳所述扬声器的空间的位置)中。
[0228]
根据一些此类实例,设备1200可为或可包含智能音频装置。在一些此类实施方案中,设备1200可为或可包含唤醒词检测器。例如,设备1200可为或可包含虚拟助手。
[0229]
一些所公开实施方案包含经配置(例如,经编程)以执行所公开方法的任何实施例的系统或装置,及存储用于实施所公开方法或其步骤的任何实施例的代码的有形计算机可读媒体(例如,磁盘)。例如,所公开系统可为或包含使用软件或固件编程及/或以其它方式经配置以对数据执行多种操作中的任一者,包含所公开方法或其步骤的实施例的可编程通用处理器、数字信号处理器或微处理器。此通用处理器可为或包含计算机系统,所述计算机系统包含输入装置、存储器及经编程(及/或以其它方式经配置)以响应于对其断言的数据而执行所公开方法(或其步骤)的实施例的处理子系统。
[0230]
所公开系统的一些实施例被实施为经配置(例如,经编程及以其它方式经配置)以对(若干)音频信号执行所需处理,包含执行所公开方法的实施例的可配置(例如,可编程)数字信号处理器(dsp)。替代地,所公开系统(或其元件)的实施例被实施为使用软件或固件编程及/或以其它方式经配置以执行包含所公开方法的实施例的多种操作中的任一者的通用处理器(例如,个人计算机(pc)或其它计算机系统或微处理器,其可包含输入装置及存储器)。替代地,所公开系统的一些实施例的元件被实施为经配置(例如,经编程)以执行所公开方法的实施例的通用处理器或dsp,且所述系统还包含其它元件(例如,一或多个扬声器及/或一或多个麦克风)。经配置以执行所公开方法的实施例的通用处理器通常将耦合到输入装置(例如,鼠标及/或键盘)、存储器及显示装置。
[0231]
本公开的另一方面是一种计算机可读媒体(例如,磁盘或其它有形存储媒体),其存储用于执行任何所公开方法或其步骤的代码(例如,可实行以执行任何所公开方法或其步骤的编码器)。
[0232]
从以下枚举实例实施例(“eee”)将明白各个特征及方面:
[0233]
eee1.一种用于渲染音频以供一组智能音频装置的所述智能音频装置中的至少一者的至少两个扬声器回放的方法,其中所述音频是一或多个音频信号,每一音频信号具有相关联的所要感知空间位置,其中所述一组扬声器的扬声器的相对激活是以下项的函数:所述扬声器上回放的所述音频信号的感知空间位置模型;所述音频信号的所述所要感知空间位置与所述扬声器的位置的接近度;及一或多个额外动态可配置函数,其至少取决于所述音频信号的一或多个性质、所述一组扬声器的一或多个性质或一或多个外部输入。
[0234]
eee2.根据权利要求eee1所述的方法,其中所述额外动态可配置函数包含以下项中的至少一者:扬声器与一或多个听音者的接近度;扬声器与吸引或排斥力的接近度;所述扬声器相对于某个位置的可听度;所述扬声器的能力;所述扬声器相对于其它扬声器的同步;唤醒词性能;或回声消除器性能。
[0235]
eee3.根据权利要求eee1或eee2所述的方法,其中所述渲染包含成本函数的最小化,其中所述成本函数包含至少一个动态扬声器激活项。
[0236]
eee4.一种用于渲染音频以供一组扬声器的至少两个扬声器回放的方法,其中所述音频是一或多个音频信号,每一音频信号具有相关联的所要感知空间位置,其中所述一组扬声器的扬声器的相对激活是以下项的函数:所述扬声器上回放的所述音频信号的感知空间位置模型;所述音频信号的所述所要感知空间位置与所述扬声器的位置的接近度;及
一或多个额外动态可配置函数,其至少取决于所述音频信号的一或多个性质、所述一组扬声器的一或多个性质或一或多个外部输入。
[0237]
eee5.根据权利要求eee4所述的方法,其中所述额外动态可配置函数包含以下项中的至少一者:扬声器与一或多个听音者的接近度;扬声器与吸引或排斥力的接近度;所述扬声器相对于某个位置的可听度;所述扬声器的能力;所述扬声器相对于其它扬声器的同步;唤醒词性能;或回声消除器性能。
[0238]
eee6.根据权利要求eee4或eee5所述的方法,其中所述渲染包含成本函数的最小化,其中所述成本函数包含至少一个动态扬声器激活项。
[0239]
eee7.一种音频渲染方法,其包括:
[0240]
在一组两个或更多个扬声器上渲染一组一或多个音频信号,每一音频信号具有相关联的所要感知空间位置,其中所述一组扬声器的相对激活是以下项的函数:所述扬声器上回放的所述音频信号的感知空间位置模型;所述音频对象的所述所要感知空间位置与所述扬声器的位置的接近度;及一或多个额外动态可配置函数,其至少取决于所述一组音频信号的一或多个性质、所述一组扬声器的一或多个性质或一或多个外部输入。
[0241]
虽然本文中已描述特定实施例及应用,但对于所属领域的一般技术人员来说显而易见的是,在不背离本文中所描述及主张的范围的情况下,对本文中所描述的实施例及应用的许多变动是可能的。应理解,虽然已展示及描述某些形式,但本公开的范围不限于所描述及展示的特定实施例或所描述的特定方法。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1