本技术涉及处理音频数据。例如,描述了用于使用基于机器学习的音频表示(例如,嵌入向量)来将输入音频与所存储的音频进行匹配并且基于匹配的结果来执行一个或多个功能的系统和技术。
背景技术:
1、诸如智能电话、平板计算机、可穿戴电子设备、智能tv等的电子设备在消费者中变得越来越流行。这些设备可通过无线或有线网络提供音频(例如,语音或言语、音乐等)和/或数据通信功能性。此外,此类电子设备可包括提供经设计以增强用户便利性的多种功能的其他特征。数字音频包括大量数据以满足消费者和音频提供者的需求。
2、言语是音频的一个示例。言语应用可依赖于能够使用言语模型来有效地对言语进行建模。言语模型可由诸如言语译码、语音转换、关键词定位、言语质量评估等的应用使用。这些系统的言语质量、低位速率和检测能力取决于基础模型的质量。
技术实现思路
1、本文描述了用于处理音频数据的系统和技术。在一些方面,本文中所描述的系统和技术涉及一种用于对音频信息进行编码的装置,该装置包括:至少一个存储器;和至少一个处理器,该至少一个处理器耦合到该至少一个存储器并且被配置为:检测输入音频片段;处理该输入音频片段以生成该输入音频片段的表示;将该输入音频片段的该表示与存储在该至少一个存储器中的多个表示进行比较,该多个表示表示多个音频片段;基于将该表示与该多个表示进行比较,从存储在该至少一个存储器中的该多个表示确定一个或多个目标音频片段的一个或多个目标表示;确定与该一个或多个目标音频片段相关联的一个或多个索引;分组化该一个或多个索引;以及发送该分组化的一个或多个索引。
2、在一些方面,本文中所描述的系统和技术涉及一种用于对音频信息进行编码的方法,该方法包括:检测输入音频片段;处理该输入音频片段以生成该输入音频片段的表示;将该输入音频片段的该表示与存储在该至少一个存储器中的多个表示进行比较,该多个表示表示多个音频片段;基于将该表示与该多个表示进行比较,从存储在该至少一个存储器中的该多个表示确定一个或多个目标音频片段的一个或多个目标表示;确定与该一个或多个目标音频片段相关联的一个或多个索引;分组化该一个或多个索引;以及发送该分组化的一个或多个索引。
3、在一些方面,本文中所描述的系统和技术涉及一种其上存储有指令的非暂态计算机可读介质,这些指令在由一个或多个处理器执行时致使该一个或多个处理器:检测输入音频片段;处理该输入音频片段以生成该输入音频片段的表示;将该输入音频片段的该表示与存储在该至少一个存储器中的多个表示进行比较,该多个表示表示多个音频片段;基于将该表示与该多个表示进行比较,从存储在该至少一个存储器中的该多个表示确定一个或多个目标音频片段的一个或多个目标表示;确定与该一个或多个目标音频片段相关联的一个或多个索引;分组化该一个或多个索引;以及发送该分组化的一个或多个索引。
4、在一些方面,本文中所描述的系统和技术涉及一种用于对音频信息进行编码的装置。该装置包括:用于检测输入音频片段的部件;用于处理该输入音频片段以生成该输入音频片段的表示的部件;用于将该输入音频片段的该表示与存储在该至少一个存储器中的多个表示进行比较的部件,该多个表示表示多个音频片段;用于基于将该表示与该多个表示进行比较,从存储在该至少一个存储器中的该多个表示确定一个或多个目标音频片段的一个或多个目标表示的部件;用于确定与该一个或多个目标音频片段相关联的一个或多个索引的部件;用于分组化该一个或多个索引的部件;和用于发送该分组化的一个或多个索引的部件。
5、在一些方面,本文中所描述的系统和技术涉及一种用于对音频信息进行解码的装置,该装置包括:至少一个存储器;和至少一个处理器,该至少一个处理器耦合到该至少一个存储器并且被配置为:接收与一个或多个目标音频片段相关联的一个或多个分组化索引;将该一个或多个分组化索引解分组化以生成与该一个或多个目标音频片段相关联的一个或多个索引;基于该一个或多个索引从该至少一个存储器检索该一个或多个目标音频片段;以及组合该一个或多个目标音频片段以生成已解码音频。
6、在一些方面,本文中所描述的系统和技术涉及一种对音频信息进行解码的方法,该方法包括:接收与一个或多个目标音频片段相关联的一个或多个分组化索引;将该一个或多个分组化索引解分组化以生成与该一个或多个目标音频片段相关联的一个或多个索引;基于该一个或多个索引从至少一个存储器检索该一个或多个目标音频片段;以及组合该一个或多个目标音频片段以生成已解码音频。
7、在一些方面,本文中所描述的系统和技术涉及一种其上存储有指令的非暂态计算机可读介质,这些指令在由一个或多个处理器执行时致使该一个或多个处理器:接收与一个或多个目标音频片段相关联的一个或多个分组化索引;将该一个或多个分组化索引解分组化以生成与该一个或多个目标音频片段相关联的一个或多个索引;基于该一个或多个索引从至少一个存储器检索该一个或多个目标音频片段;以及组合该一个或多个目标音频片段以生成已解码音频。
8、在一些方面,本文中所描述的系统和技术涉及一种用于对音频信息进行解码的装置。该装置包括:用于接收与一个或多个目标音频片段相关联的一个或多个分组化索引的部件;用于将该一个或多个分组化索引解分组化以生成与该一个或多个目标音频片段相关联的一个或多个索引的部件;用于基于该一个或多个索引从至少一个存储器检索该一个或多个目标音频片段的部件;和用于组合该一个或多个目标音频片段以生成已解码音频的部件。
9、在一些方面,本文所描述的装置中的一者或多者是以下内容、作为以下内容的一部分和/或包括以下内容:移动设备或无线通信设备(例如,移动电话或其他移动设备)、扩展现实(xr)设备或系统(例如,虚拟现实(vr)设备、增强现实(ar)设备或混合现实(mr)设备)、交通工具或交通工具的计算设备或组件、可穿戴设备(例如,网络连接的手表或其他可穿戴设备)、相机、个人计算机、膝上型计算机、服务器计算机或服务器设备(例如,基于边缘或云的服务器、充当服务器设备的个人计算机、诸如充当服务器设备的移动电话的移动设备、充当服务器设备的xr设备、充当服务器设备的交通工具、网络路由器或充当服务器设备的其他设备)、另一设备或它们的组合。在一些方面,该装置包括用于捕获一个或多个图像的一个相机或多个相机。在一些方面,该装置还包括用于显示一个或多个图像、通知和/或其他可显示数据的显示器。在一些方面,该装置可包括一个或多个传感器(例如,一个或多个惯性测量单元(imu),诸如一个或多个陀螺仪、一个或多个陀螺测试仪、一个或多个加速度计、它们的任何组合和/或其他传感器)。在一些方面,该装置可包括被配置为接收信息或数据的接收器、被配置成发送信息或数据的发送器、和/或被配置为接收和发送信息或数据的收发器。
10、可单独地或以任何合适的组合使用涉及方法、装置和计算机可读介质中的任一者的上述方面。
11、该
技术实现要素:
不旨在标识所要求保护的主题的关键或必要特征,其也不旨在单独用于确定所要求保护的主题的范围。本主题应当参考本专利的整个说明书的合适部分、任何或所有附图、以及每项权利要求来理解。
12、前述内容以及其他特征和实施方案将在参考以下说明书、权利要求书和附图时变得更明显。