动态应用的渲染配置的渐进计算和应用的制作方法

文档序号:35637822发布日期:2023-10-06 05:43阅读:20来源:国知局
动态应用的渲染配置的渐进计算和应用的制作方法

本公开涉及用于渲染音频以供一组扬声器中的一些或所有扬声器(例如,每个激活的扬声器)回放的系统和方法。


背景技术:

1、音频设备,包括但不限于智能音频设备,已经被广泛部署并且正在成为许多家庭的共同特征。尽管用于控制音频设备的现有系统和方法提供了益处,但改进的系统和方法将仍是期望的。

2、符号和术语

3、贯穿本公开,包括在权利要求书中,术语“扬声器(speaker)”、“扩音器(loudspeaker)”和“音频再现换能器”同义地用于表示任何发声换能器(或一组换能器)。典型的耳机组包括两个扬声器。扬声器可以被实施为包括多个换能器(例如,低音扬声器和高音扬声器),换能器可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中,(多个)扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同处理。

4、贯穿本公开,包括在权利要求中,在广义上使用“对”信号或数据执行操作的表达(例如,对信号或数据进行滤波、缩放、变换或应用增益)来表示直接对信号或数据执行操作或对信号或数据的已处理版本(例如,在对其执行操作之前已经历了初步滤波或预处理的信号版本)执行操作。

5、贯穿本公开,包括在权利要求中,在广义上使用表达“系统”来表示设备、系统或子系统。例如,实施解码器的子系统可以被称为解码器系统,并且包括这样的子系统的系统(例如,响应于多个输入而生成x个输出信号的系统,其中,子系统生成m个输入,而其他x-m个输入是从外部源接收的)也可以被称为解码器系统。

6、贯穿本公开,包括在权利要求中,在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如,用软件或固件)为对数据(例如,音频、视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置成对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。

7、贯穿本公开,包括在权利要求中,术语“耦接(couples)”或“耦接(coupled)”用于意指直接或间接连接。因此,如果第一设备耦接到第二设备,则连接可以通过直接连接或者通过经由其他设备和连接的间接连接实现。

8、如本文所使用的,“智能设备”是可以在某种程度上交互地和/或自主地操作的电子设备,其通常被配置用于经由比如蓝牙、zigbee、近场通信、wi-fi、光保真(li-fi)、3g、4g、5g等各种无线协议与一个或多个其他设备(或网络)进行通信。若干种值得注意的智能设备类型是智能电话、智能汽车、智能恒温器、智能门铃、智能锁、智能冰箱、平板手机和平板计算机、智能手表、智能手环、智能钥匙链和智能音频设备。术语“智能设备”还可以是指展现出比如人工智能等普适计算的一些性质的设备。

9、在本文中,使用表达“智能音频设备”来表示智能设备,其是单一用途音频设备或多用途音频设备(例如,实施虚拟助理功能的至少一些方面的音频设备)。单一用途音频设备是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)并且很大程度上或主要被设计为实现单一用途的设备(例如,电视(tv))。例如,尽管tv通常可以播放(并且被认为能够播放)来自节目素材的音频,但在大多数实例中,现代tv运行某种操作系统,应用程序(包括看电视的应用程序)在操作系统上本地运行。从这个意义上说,具有(多个)扬声器和(多个)麦克风的单一用途音频设备通常被配置成运行本地应用程序和/或服务以直接使用(多个)扬声器和(多个)麦克风。一些单一用途音频设备可以被配置成组合在一起以实现在一定区或用户配置区域上播放音频。

10、一种常见类型的多用途音频设备是实施虚拟助理功能的至少一些方面的音频设备,尽管虚拟助理功能的其他方面可以由比如一个或多个服务器等一个或多个其他设备来实施,多用途音频设备被配置用于与一个或多个服务器通信。这样的多用途音频设备在本文中可以被称为“虚拟助理”。虚拟助理是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)的设备(例如,智能扬声器或语音助理集成设备)。在一些示例中,虚拟助理可以提供将多个设备(不同于虚拟助理)用于某种意义上支持云的应用程序或以其他方式未在虚拟助理本身中或之上完全实施的应用程序的能力。换句话说,虚拟助理功能的至少一些方面(例如,言语识别功能)可以(至少部分地)由一个或多个服务器或其他设备实施,虚拟助理可以经由网络(比如互联网)与一个或多个服务器或其他设备通信。虚拟助理有时可以一起工作,例如,以离散和有条件地定义的方式。例如,两个或更多个虚拟助理可以在其中之一(例如,最确信已经听到唤醒词的虚拟助理)对唤醒词做出响应的意义上一起工作。在一些实施方式中,连接的虚拟助理可以形成一种星座,星座可以由一个主应用程序管理,主应用程序可以是(或实施)虚拟助理。

11、在本文中,“唤醒词”在广义上用于表示任何声音(例如,人类说出的词或其他声音),其中智能音频设备被配置成响应于检测到(“听到”)声音(使用包括在智能音频设备中或耦接到智能音频设备的至少一个麦克风,或至少一个其他麦克风)而唤醒。在该上下文中,“唤醒”表示设备进入等待(换句话说,正在收听)声音命令的状态。在一些实例中,本文中所谓的“唤醒词”可以包括超过一个词,例如,短语。

12、在本文中,表达“唤醒词检测器”表示被配置成连续搜索实时声音(例如,言语)特征与训练模型之间的对齐的设备(或表示包括用于将设备配置成连续搜索实时声音特征与训练模型之间的对齐的指令的软件)。通常,每当唤醒词检测器确定检测到唤醒词的概率超过预定义阈值,就会触发唤醒词事件。例如,阈值可以是被调整以在错误接受率与错误拒绝率之间给出合理折衷的预定阈值。在唤醒词事件之后,设备可能会进入一种状态(可以被称为“唤醒”状态或“注意力”状态),在状态下设备会收听命令并且将接收到的命令传递给更大、计算更密集的识别器。

13、如本文所使用的,术语“节目流”和“内容流”是指一个或多个音频信号的集合,并且在一些实例中是指视频信号的集合,信号集合的至少部分是旨在要一起听到的。示例包括音乐、电影声轨、电影、电视节目、电视节目的音频部分、播客、实时语音通话、来自智能助理的合成语音响应等的选择。在一些实例中,内容流可以包括音频信号的至少一部分的多个版本,例如,多于一种语言的相同对话。在这样的实例中,一次旨在再现音频数据或其部分的仅一个版本(例如,与单一语言相对应的版本)。


技术实现思路

1、本公开的至少一些方面可以经由方法来实施。一些这样的方法可以涉及音频处理。例如,一些方法可以涉及由控制系统并且经由接口系统接收音频数据。音频数据可以包括一个或多个音频信号和相关联的空间数据。空间数据可以指示与音频信号相对应的预期感知空间位置。在一些示例中,空间数据可以是或者可以包括位置元数据。根据一些示例,空间数据可以是、可以包括或者可以对应于基于声道的音频格式的声道。

2、在一些示例中,方法可以涉及由控制系统渲染音频数据以经由环境的一组扩音器再现,从而产生第一经渲染的音频信号。在一些这样的示例中,渲染音频数据以供再现可以涉及根据第一渲染配置确定环境中的一组扩音器的第一相对激活。第一渲染配置可以对应于第一组扬声器激活。在一些示例中,方法可以涉及经由接口系统向环境的一组扩音器中的至少一些扩音器提供第一经渲染的音频信号。

3、根据一些示例,方法可以涉及由控制系统并且经由接口系统接收第一渲染转变指示。第一渲染转变指示可以例如指示从第一渲染配置到第二渲染配置的转变。

4、在一些示例中,方法可以涉及由控制系统确定第二组扬声器激活。根据该示例,第二组扬声器激活对应于第二渲染配置的简化版本。然而,在其他示例中,第二组扬声器激活可以对应于第二渲染配置的完整、全保真版本。

5、根据一些示例,方法可以涉及由控制系统执行从第一组扬声器激活到第二组扬声器激活的第一转变。在一些示例中,方法可以涉及由控制系统确定第三组扬声器激活。根据该示例,第三组扬声器激活对应于第二渲染配置的完整版本。在一些示例中,方法可以涉及由控制系统执行到第三组扬声器激活的第二转变,而无需完成第一转变。在一些示例中,单个渲染器实例可以渲染音频数据以供再现。

6、在一些示例中,第一组扬声器激活、第二组扬声器激活和第三组扬声器激活可以是频率相关的扬声器激活。根据一些这样的示例,频率相关的扬声器激活可以与在至少第一频带中应用感知空间位置的模型相对应和/或通过在至少第一频带中应用感知空间位置的模型而产生,模型产生与收听者的左耳和右耳处的音频对象位置相对应的双耳响应。

7、在一些示例中,频率相关的扬声器激活可以与在至少第二频带中应用感知空间位置模型相对应和/或通过在至少第二频带中应用感知空间位置模型而产生,模型将从一组扩音器播放的音频信号的感知空间位置置于由扩音器的相关联的激活增益加权的一组扩音器的位置的质心处。

8、根据一些示例,第一组扬声器激活、第二组扬声器激活和/或第三组扬声器激活可以至少部分地基于成本函数。在一些这样的示例中,第一组扬声器激活、第二组扬声器激活和/或第三组扬声器激活可以是优化成本的结果,成本是以下各项的函数:当在环境中的一组扩音器上回放时播放的音频信号的感知空间位置的模型;音频信号的预期感知空间位置与一组扩音器中的每个扩音器的位置的接近度的度量;和/或一个或多个附加动态可配置功能。在一些这样的示例中,一个或多个附加动态可配置功能可以基于以下各项中的一项或多项:扩音器与一个或多个收听者的接近度;扩音器与吸引力位置的接近度(其中,吸引力可以是有利于更接近吸引力位置的相对更高的扩音器激活的因素);扩音器与推斥力位置的接近度(其中,推斥力可以是有利于更接近推斥力位置的相对更低的扩音器激活的因素);每个扩音器相对于环境中的其他扩音器的能力;扩音器关于其他扩音器的同步;唤醒词性能;和/或回声消除器性能。

9、根据一些示例,方法可以涉及由控制系统并且经由接口系统接收第二渲染转变指示。根据一些这样的示例,第二渲染转变指示可以指示到第三渲染配置的转变。在一些这样的示例中,方法可以涉及由控制系统确定与第三渲染配置相对应的第四组扬声器激活。在一些这样的示例中,方法可以涉及由控制系统执行到第四组扬声器激活的第三转变,而无需完成第一转变或第二转变。在一些示例中,方法可以涉及由控制系统并且经由接口系统接收第三渲染转变指示。在一些这样的示例中,第三渲染转变指示可以指示到第四渲染配置的转变。在一些这样的示例中,方法可以涉及由控制系统确定与第四渲染配置相对应的第五组扬声器激活。在一些这样的示例中,方法可以涉及由控制系统执行到第五组扬声器激活的第四转变,而无需完成第一转变、第二转变或第三转变。

10、在一些示例中,方法可以涉及由控制系统并且经由接口系统顺序地接收第二至第(n)渲染转变指示。在一些这样的示例中,方法可以涉及由控制系统确定与第二至第(n)渲染转变指示相对应的第四至第(n+2)组扬声器激活。在一些这样的示例中,方法可以涉及由控制系统顺序地执行从第四组扬声器激活到第(n+1)组扬声器激活的第三至第(n)转变。在一些这样的示例中,方法可以涉及由控制系统执行到第(n+2)组扬声器激活的第(n+1)转变,而无需完成第一至第(n)转变中的任一项。

11、根据一些示例,方法可以涉及由控制系统并且经由接口系统接收第二渲染转变指示。在一些实例中,第二渲染转变指示可以指示到第三渲染配置的转变。在一些这样的示例中,方法可以涉及由控制系统确定与第三渲染配置的简化版本相对应的第四组扬声器激活。在一些这样的示例中,方法可以涉及由控制系统执行从第三组扬声器激活到第四组扬声器激活的第三转变。在一些这样的示例中,方法可以涉及由控制系统确定与第三渲染配置的完整版本相对应的第五组扬声器激活。在一些这样的示例中,方法可以涉及由控制系统执行到第五组扬声器激活的第四转变,而无需完成第一转变、第二转变或第三转变。

12、在一些示例中,方法可以涉及由控制系统并且经由接口系统顺序地接收第二至第(n)渲染转变指示。在一些这样的示例中,方法可以涉及由控制系统为第二至第(n)渲染转变指示中的每一个确定第一组扬声器激活和第二组扬声器激活。在一些这样的示例中,第一组扬声器激活可以对应于渲染配置的简化版本,而第二组扬声器激活可以对应于第二至第(n)渲染转变指示中的每一个的渲染配置的完整版本。在一些这样的示例中,方法可以涉及由控制系统顺序地执行从第四组扬声器激活到第(2n)组扬声器激活的第三至第(2n-1)转变。在一些这样的示例中,方法可以涉及由控制系统执行到第(2n+1)组扬声器激活的第(2n)转变,而无需完成第一至第(2n)转变中的任一项。

13、根据一些示例,渲染音频数据以供再现可以涉及根据渲染配置确定单组插值激活,并且应用单组插值激活来产生单组经渲染的音频信号。在一些这样的示例中,单组经渲染的音频信号可以被馈送到一组扩音器延迟线中。在一些这样的示例中,一组扩音器延迟线可以包括用于多个扩音器中的每个扩音器的一个扩音器延迟线。

14、在一些示例中,渲染音频数据以供再现可以在频域中执行。在一些这样的示例中,渲染音频数据以供再现可以涉及在频域中确定和实施扩音器延迟。在一些这样的示例中,在频域中确定和实施扬声器延迟可以涉及确定和实施变换块延迟和由频域滤波器系数应用的子块延迟的组合。在一些这样的示例中,子块延迟可以是允许不是频域变换块大小的确切倍数的延迟的残差相位项。在一些示例中,渲染音频数据以供再现可以涉及实施具有单独读取偏移的一组变换块延迟线。

15、在一些示例中,渲染音频数据以供再现可以涉及实施子块延迟滤波。在一些这样的示例中,实施子块延迟滤波可以涉及跨频域变换的块实施多抽头滤波器。

16、根据一些示例,渲染音频数据以供再现可以涉及为每个渲染配置确定和应用插值扬声器激活和交叉渐变窗口。在一些这样的示例中,渲染音频数据以供再现可以涉及实施具有单独延迟线读取偏移的一组变换块延迟线。在一些这样的示例中,交叉渐变窗口选择可以至少部分地基于延迟线读取偏移。在一些这样的示例中,如果延迟线读取偏移不相同,则交叉渐变窗口可以被设计为具有单位幂和。

17、在一些示例中,第一组扬声器激活可以用于三维空间中对应的多个位置中的每一个。然而,根据一些示例,第一组扬声器激活可以对应于基于声道的音频格式。在一些这样的示例中,预期感知空间位置可以与基于声道的音频格式的声道相对应。

18、本文描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据存储在一种或多种非暂态介质上的指令(例如,软件)来执行。这种非暂态介质可以包括如本文描述的存储器设备,包括但不限于随机存取存储器(ram)设备、只读存储器(rom)设备等。因此,本公开中描述的主题的一些创新方面可以在其上存储有软件的一种或多种非暂态介质中实施。

19、本公开的至少一些方面可以经由装置来实施。例如,一个或多个设备可以能够至少部分地执行本文公开的方法。在一些实施方式中,装置可以包括接口系统和控制系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件部件或其组合。在一些示例中,该装置可以是上文引用的音频设备之一。然而,在一些实施方式中,该装置可以是另一种类型的设备,如移动设备、膝上型计算机、服务器等。

20、在以下附图和说明中阐述了本说明书所描述的主题的一个或多个实施方式的细节。从描述、附图和权利要求中,其他特征、方面和优点将变得显而易见。注意,以下附图的相对尺寸可能不是按比例来绘制的。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1