低延迟音频增强的制作方法

文档序号:21789844发布日期:2020-08-07 20:44阅读:189来源:国知局
低延迟音频增强的制作方法

相关申请的交叉引用

本申请要求于2017年9月12日提交的美国临时申请号62/557,468的权益。本申请还涉及2017年10月24日提交的美国临时申请号62/576,373。这两个申请的内容都通过引用并入本文。

本发明总体上涉及音频领域,并且更具体地涉及用于低延迟音频增强的新型且有用的方法和系统。

附图说明

图1是图示了根据本发明的实施例的方法的处理流程图。

图2是图示了根据本发明的实施例的系统的高级示意图。

图3图示了图2的系统的部件。

图4是图示了根据本发明的实施例的系统部件之间的信息流的序列图。

图5是图示了根据本发明的替代性实施例的方法的流程图。

具体实施方式

本发明的优选实施例的以下描述并非旨在将本发明限于这些优选实施例,而是使得任何本领域技术人员能够制造和使用本发明。

1.概述

传统上,助听器系统使用位于听筒中的处理资源来执行实时音频处理任务。因为小助听器对用户而言更舒适且更合期望,所以仅依赖位于听筒中的处理资源和电池资源限制了可用于在用户的耳朵处传递质量增强的低延迟音频的处理能力的量。例如,本领域已知的一种耳戴式系统是oticonopntm。oticon宣传opn是由veloxtm平台芯片供电的。oticon宣传veloxtm芯片能够每秒执行12亿次操作(mops)。参见oticon的技术论文2016:julieneelwelle和rasmusbach的“theveloxtmplatform[veloxtm平台]”(可从www.oticon.com/support/downloads获得)。

当然,不受听筒的尺寸要求约束的设备可以提供明显更大的处理能力。然而,助听器中对低延迟音频处理的实际要求不鼓励使用远离听筒的处理资源和电池资源。从助听器听筒到支持低延迟音频增强的较大的协同处理/辅助设备的有线连接通常不是用户所期望的,并且可能会妨碍移动性。尽管到助听器听筒的无线连接已经用于其他目的(例如,允许听筒接收从电话、电视或其他媒体回放设备流式传输的蓝牙音频),但是出于将低延迟音频增强处理需求从听筒卸载到较大的配套设备的目的的无线连接至今都被认为是不切实际的,原因在于通过这种无线连接实现用于传递可接受的实时音频处理所必需的低延迟和可靠性的挑战。此外,听筒处快速电池消耗的不合需要性与传统无线传输的功率要求的组合对于实施将音频从听筒无线地发送到另一更大的设备以进行增强处理的系统提出了进一步的挑战。

本发明的实施例解决了这些挑战,并且提供了一种低延迟、功率优化的无线助听器系统,其中,将在听筒处获得的目标音频数据高效地传输以用于在辅助处理设备(例如,第三级设备或其他设备——在某种意义上,所述设备可以被认为是协同处理设备)处进行增强处理,所述辅助处理设备提供了听筒处无法提供的增强的处理能力。在特定实施例中,当识别出用于发送到辅助处理设备以进行增强的音频时,将所述音频或表示所述音频的数据无线地发送到辅助处理设备。辅助处理设备分析所接收的数据(可能结合诸如上下文数据和/或已知的用户偏好数据等其他相关数据)并且确定用于最优地增强所述音频的滤波器参数(例如系数)。优选地,本发明实施例将音频滤波器参数发送回听筒,而不是将增强的音频通过无线链路从辅助设备发送回听筒。然后,听筒处的处理资源将接收到的滤波器参数应用到听筒处的滤波器,以对目标音频进行滤波并且为用户产生由听筒播放的增强音频。这些和其他技术允许听筒有效地利用与所述听筒无线地连接的较大设备的处理能力,以更好地增强在听筒处接收的音频并且为用户实时播放所述音频(即,没有典型用户可察觉的延迟)。在一些实施例中,在无线连接的辅助处理单元处可获得的另外利用的处理能力容量至少是在当前听筒(诸如以上参考的oticon设备)处提供的处理能力容量的十倍。在一些实施例中,至少是100倍。

在一些实施例中,基于一个或多个检测到的音频参数和/或其他参数确定触发条件。当确定已经发生了触发条件时,将表示目标音频的数据无线地发送到辅助处理设备进行处理,以确定用于增强的参数。在一个实施例中,当触发条件生效时,以40毫秒(ms)或更短的间隔发送目标音频(或表示目标音频的派生数据)。在另一实施例中,以20ms或更短的间隔发送所述目标音频。在另一实施例中,以小于4ms的间隔发送所述目标音频。

在一些实施例中,以1千字节(kb)或更少的批量发送从听筒无线地发送到辅助单元的音频数据。在一些实施例中,以512字节或更少的批量发送所述音频数据。在一些实施例中,以256字节或更少的批量发送所述音频数据。在一些实施例中,以128字节或更少的批量发送所述音频数据。在一些实施例中,以32字节或更少的批量发送所述音频数据。在一些实施例中,以1千字节(kb)或更少的批量发送从辅助单元无线地发送的滤波器参数数据。在一些实施例中,以512字节或更少的批量发送所述滤波器参数数据。在一些实施例中,以256字节或更少的批量发送所述滤波器参数数据。在一些实施例中,以128字节或更少的批量发送所述滤波器参数数据。在一些实施例中,以32字节或更少的批量发送所述滤波器参数数据。

图1图示了根据本发明的一个实施例的方法/处理100。在方法100中,框s110在听筒处收集音频数据集;框s120在听筒处从音频数据集中选择目标音频数据进行增强;框s130将目标音频数据从听筒无线地传输到与听筒通信并且在所述听筒附近的第三级系统。框s140基于目标音频数据确定音频相关参数。框s150将音频相关参数无线地传输到听筒以促进听筒处的增强音频回放。在一些实施例中包括的框s115收集用于描述用户的上下文情况的上下文数据集。框s170使用来自框s115的上下文数据,并且基于所述上下文数据集修改延迟和/或放大参数。框s160处置听筒与第三级系统(和/或其他合适的音频增强部件)之间的连接条件(例如,导致丢包的连接故障等)。

在具体示例中,方法100包括:在用户的颞骨附近佩戴的听筒的一组麦克风(例如,两个麦克风等)处收集音频数据集;诸如通过应用目标音频选择模型从音频数据集中选择目标音频数据(例如,4ms缓冲音频样本)以进行增强(例如,基于与音频数据集相关联的已识别的音频活动;基于上下文数据集(包括运动数据、位置数据、时间数据和/或其他合适的数据)等);将目标音频数据从听筒传输到第三级系统(例如,通过无线通信信道);在第三级系统处处理目标音频数据以确定目标音频数据的音频特性(例如,语音特性、背景噪声特性、语音与背景噪声之间的分离难度、目标音频数据与历史目标音频数据之间的比较等);诸如通过使用音频参数机器学习模型来基于音频特性和/或其他合适的数据确定音频相关参数(例如,时间有界滤波器;滤波器的更新速率;关于比特率、采样率、分辨率和/或其他合适参数来修改的音频等);将音频相关参数从第三级系统传输到听筒(例如,通过无线通信信道);以及基于音频相关参数在听筒处提供增强的音频回放(例如,基于所接收的滤波器应用本地滤波;回放增强的音频等)。

如图2所示,系统200的实施例可以包括:一组一个或多个听筒210和第三级系统220。另外地或可替代地,系统200可以包括远程计算系统230、用户设备240和/或其他合适的部件。因此,诸如第三级设备220等辅助单元是系统200的次级部件、第三级部件还是其他附加部件可以在不同的实施例中变化。术语“第三级系统”在本文中用作方便的标签,但在本文中通常指被配置为执行本文描述的处理和听筒通信的任何辅助设备。它不是专门指“第三个”设备。本发明的一些实施例可以涉及至少两个设备,并且其他实施例涉及至少三个。

在具体示例中,系统200的实施例包括一个或多个听筒210,每个听筒具有被配置为接收音频数据的多个(例如,2个、多于2个、4个等)音频传感器212(例如,麦克风、换能器、压电传感器等),其中,听筒被配置为与第三级系统通信。系统200可以进一步包括远程计算系统230和/或用户设备240,所述远程计算系统和/或用户设备被配置为与听筒210和第三级系统220之一或两者通信。

本文描述的方法100和/或过程的一个或多个实例和/或部分可以通过和/或使用本文描述的系统200、元件和/或实体的一个或多个实例异步地(例如,顺序地)、同时地(例如,在辅助处理设备(例如,第三级系统220)处针对第一组目标音频数据确定音频相关参数,同时在听筒处在时间上与触发条件相关地选择第二组目标音频数据以进行增强(例如,在听筒的麦克风处对音频数据集进行采样;检测满足音频条件的音频活动等))和/或在任何合适的时间和频率以任何其他合适的顺序执行。

另外地或可替代地,本文描述的数据(例如,音频数据、音频相关参数、音频相关模型、上下文数据等)可以与任何合适的时间指示符(例如,秒、分钟、小时、天、周等)相关联,所述时间指示符包括以下一个或多个:指示数据何时被收集、确定、传输、接收和/或以其他方式被处理的时间指示符;为数据所描述的内容提供上下文的时间指示符,诸如指示传输到听筒的滤波器更新速率的时间指示符;时间指示符的变化(例如,音频数据的采样与增强形式的音频数据的回放之间的延迟;随时间推移的数据;数据变化;数据模式;数据趋势;数据外推和/或其他预测等);和/或与时间有关的任何其他合适的指示符。然而,方法100和/或系统200可以以任何合适的方式配置。

2.益处

本文描述的方法和系统可以给出优于传统方法和系统的若干益处。

在一些实施例中,方法100和/或系统200增强了助听器系统处的音频回放。这通过以下任何项或全部来实现:去除或减少与所确定的低优先级声源(例如,低频、非语音频率、低幅度等)相对应的音频,维持或放大与所确定的高优先级声源(例如,高幅度)相对应的音频,应用一种或多种波束成形方法以在系统的部件之间传输信号,和/或通过其他合适的过程或系统部件。

方法100和/或系统200的一些实施例可以用于使电池功耗最小化。这可以通过以下任何项或全部来实现:优化对听筒处的本地滤波器的更新的传输,以在维持滤波器准确性的同时节省电池寿命;调整(例如,减少)对听筒处的本地滤波器的更新的传输频率;在听筒、第三级设备和远程存储装置中的任何项或全部中存储(例如,高速缓存)历史音频数据或滤波器(例如,先前记录的原始音频数据、先前处理的音频数据、先前的滤波器、先前的滤波器参数、复杂音频环境的特性等);将计算密集型处理和/或功率密集型处理(例如,音频相关参数值确定、滤波器确定等)转移到次级系统(例如,辅助处理单元、第三级系统、远程计算系统等);经由低功率数据连接(例如,短距离连接、有线连接等)连接到次级系统,或者通过与听筒共同定位的网关经由低功率连接在次级系统与听筒之间中继数据;通过预处理经分析的声学信号(例如,通过对音频信号进行声学波束成形)来降低必需的处理能力;提高数据传输可靠性(例如,使用rf波束成形等);和/或通过任何其他合适的过程或系统部件。

另外地或可替代地,方法100和/或系统200的实施例可以用于提高可靠性。这可以通过以下任何项或全部来实现:利用听筒处本地存储的滤波器提高对听筒与第三级系统之间的连接故障的容错能力;调整听筒与第三级系统之间的信号传输参数(例如,提高传输频率、降低信号的位深度、重复传输信号等);和/或通过任何合适的过程或系统部件。

3.方法100

3.1在听筒处收集音频数据集s110

返回参考图1,框s110在听筒处收集音频数据集,这可以用于接收数据集,包括要增强的音频数据。优选地在一个或多个听筒的一个或多个麦克风(和/或其他合适类型的音频传感器)处对音频数据集进行采样,但是可以在任何合适的部件(例如,辅助处理单元(例如,次级系统或第三级系统)、远程麦克风、拾音线圈、与其他用户相关联的听筒、诸如智能手机等用户移动设备等)处并且以任何合适的采样率(例如,固定采样率、基于上下文数据集动态修改的采样率、由辅助处理单元确定的音频相关参数、其他合适的数据等)进行采样。

在实施例中,框s110在一个或多个听筒处收集多个音频数据集(例如,使用多个麦克风;使用定向麦克风配置;使用定向麦克风配置中的麦克风的多个端口等),这可以用于收集与重叠的时间指示符相关联的(例如,在同一时间段期间采样的)多个音频数据集,以改善与时间指示符相对应的音频的增强。可以利用跨一个或多个听筒和一个或多个第三级系统的任何合适的处理功能分布(例如,使用听筒从多个音频数据集中的一个或多个中选择音频数据分段以传输到第三级系统;使用第三级系统基于来自多个数据集的音频数据确定听筒要应用的滤波器等)来执行对多个音频数据集的处理(例如,组合音频数据集、基于音频数据集确定3d空间估计、基于多个音频数据集进行滤波和/或以其他方式处理音频等)。在另一示例中,可以将在非听筒部件处收集的音频数据集传输到听筒、第三级系统和/或其他合适的部件进行处理(例如,结合在听筒处收集的音频数据集进行处理以用于选择要传输到第三级系统的目标音频数据;用于与听筒音频数据一起传输到第三级系统以促进在确定音频相关参数时提高准确性等)。可以处理所收集的音频数据集以选择目标音频数据,其中,听筒、第三级系统和/或其他合适的部件可以执行目标音频选择、确定目标音频选择参数(例如,在第三级系统处确定和/或应用目标音频选择标准;将目标音频选择标准从第三级系统传输到听筒等)、在音频源之间(例如,在听筒之间、远程麦克风之间等)协调目标音频选择、和/或与收集音频数据集和/或选择目标音频数据相关联的其他合适的过程。然而,可以以任何合适的方式执行收集和/或处理多个音频数据集。

在另一实施例中,框s110诸如基于以下一项或多项来选择一组音频传感器的音频传感器(例如,麦克风)子集以收集音频数据:音频数据集(例如,基于与一组麦克风相对应的多个音频数据确定缺少语音活动并缺少背景噪声,并且基于所述确定停止对麦克风子集进行采样,这可以促进电池寿命的延长;历史音频数据集等);上下文数据集(例如,基于系统部件的电量状态选择麦克风的子集而不是整组麦克风来采样音频数据;基于使用补充传感器检测到存在语音活动和高背景噪声的情况来增加对音频数据进行采样的麦克风的数量;基于所收集的音频数据的音频特性和麦克风的定向性动态地选择麦克风;基于声源的实际位置或预测位置动态地选择麦克风;基于历史数据(例如,音频数据、上下文数据等)选择麦克风等);在音频传感器处接收的音频数据的质量和/或强度(例如,选择接收最高信号强度的音频传感器;选择受声源和/或第三级系统阻挡最小的音频传感器等)和/或其他合适的数据。然而,可以以任何合适的方式执行选择用于数据收集的音频传感器。

在相同或另一实施例中,框s110基于以上描述的任何数据或任何其他合适的数据选择听筒的子集以收集音频数据。

框s110和/或方法100的其他合适的部分可以包括数据预处理(例如,针对收集的音频数据、上下文数据等)。例如,预处理后的数据可以:向用户回放;用于(例如,由第三级系统)确定更新的滤波器或音频相关参数以供后续用户回放;或以其他方式使用。预处理可以包括以下任何一项或多项:提取特征(例如,用于在选择性音频选择、音频相关参数确定中所使用的音频特征;从上下文数据集中提取的上下文特征;音频分数等),对数据执行模式识别(例如,对与收集的音频数据有关的上下文情况进行分类等),将来自多个源(例如,多个音频传感器)的数据进行融合,将来自多个源的数据相关联(例如,基于共享的时间指示符将第一音频数据与第二音频数据相关联),将音频数据与上下文数据相关联(例如,基于共享的时间指示符等),组合值(例如,平均值等),压缩,转换(例如,数模转换、模数转换、时域到频域转换、频域到时域转换等),波调制,归一化,更新,排名,加权,验证,滤波(例如,用于基线校正、数据裁剪等),降噪,平滑化,填充(例如,间隙填充),对齐,模型拟合,分仓(binning),加窗,剪裁,变换(例如,傅立叶变换(诸如快速傅立叶变换)等);数学运算,聚类和/或其他合适的处理运算。

在一个实施例中,所述方法包括对采样的音频数据(例如,所有采样的音频数据、在s120中选择的音频数据等)进行预处理。例如,对采样的音频数据进行预处理可以包括对由多个麦克风中的一个或多个采样的音频数据进行声学波束成形。对音频数据进行声学波束成形可以包括将以下增强功能中的一个或多个应用于音频数据:固定波束成形、自适应波束成形(例如,使用最小方差无失真响应(mvdr)波束成形器、广义旁瓣相消器(gsc)等)、多通道维纳(wiener)滤波(mwf)、计算听觉场景分析或任何其他合适的声学波束成形技术。在不使用声学波束成形的另一实施例中,使用了盲源分离(bss)。在另一示例中,对采样的音频数据进行预处理可以包括使用预定的一组音频相关参数(例如,应用滤波器)来处理采样的音频数据,其中,预定的音频相关参数可以是静态的一组值,所述静态的一组值根据之前(例如,由瞬时听筒或一不同的听筒采样)的一组音频信号确定或者以其他方式确定。然而,可以以其他方式确定采样的音频数据。

在一些实施例中,所述方法可以包括应用以上多个实施例来对音频数据进行预处理,例如,其中,将第一实施例的输出发送到第三级系统并且向用户回放第二实施例的输出。在另一示例中,所述方法可以包括应用或多个实施例来对音频数据进行预处理,并且将输出发送到一个或多个听筒扬声器(例如,用于用户回放)和第三级系统。另外地或可替代地,可以以任何合适的方式执行预处理数据和/或收集音频数据集。

3.2收集上下文数据集s115

在一个实施例中,方法100包括框s115,所述框收集上下文数据集。收集上下文数据集可以用于收集数据以改善方法100的一个或多个部分的性能(例如,利用上下文数据选择适当的目标音频数据以传输到第三级系统用于后续处理;使用上下文数据改善对音频相关参数的确定以进行相应的音频增强;使用上下文数据确定在听筒与第三级系统之间的通信信道故障期间要在所述听筒处应用的本地存储的滤波器等)。上下文数据集优选地指示与一个或多个音频数据集相关联的上下文环境,但是可以另外地或可替代地描述任何合适的相关方面。上下文数据集可以包括以下任何一项或多项:补充传感器数据(例如,在听筒、用户移动设备和/或其他合适部件的补充传感器处采样的;运动数据;位置数据;通信信号数据等)以及用户数据(例如,指示描述一个或多个用户和/或相关联设备的一个或多个特性的用户信息;描述与听筒和/或第三级系统的接口的用户交互的数据集;描述与听筒、第三级系统、远程计算系统、用户设备和/或其他部件通信和/或以其他方式连接的设备的数据集;在听筒、第三级系统、用户设备、远程计算系统处接收的用户输入等)。在示例中,方法100可以包括:收集在某个时间段期间在(例如,听筒、第三级系统等的)加速度计传感器集处采样的加速度计数据集;并且基于所述加速度计数据集从在所述时间段期间采样的音频数据集(例如,在听筒、第三级系统处等)选择目标音频数据。在另一示例中,方法100可以包括将目标音频数据和从加速度计数据集选择的加速度计数据(例如,从听筒等)传输到第三级系统用于进行音频相关参数确定。可替代地,可以在听筒处专门地处理所收集的上下文数据(例如,在上下文数据未被传输到第三级系统的情况下等),诸如用于选择目标音频数据以促进升级。在另一示例中,方法100可以包括在听筒的补充传感器处收集上下文数据集;以及在听筒处基于上下文数据集检测用户是否正在佩戴听筒。在又一示例中,方法100可以包括接收用户输入(例如,在听筒处、在第三级系统的按钮处、在用户设备上执行的应用程序处等),所述用户输入可以用于确定一个或多个滤波器参数。

收集上下文数据集优选地包括:收集与同所收集音频数据集相关联的时间段(例如,其中可以基于描述与音频有关的情境性环境的上下文数据集将来自音频数据集的音频数据选择性地作为目标和/或以其他方式处理等)重叠的时间段(和/或所指示的其他合适的时间)相关联的上下文数据集,但是上下文数据集也可以可替代地是时间独立的(例如,上下文数据集包括描述与听筒、第三级系统和/或相关部件通信的设备的设备类型数据集等)。另外地或可替代地,可以以任何合适的与收集音频数据集在时间上相关地执行收集上下文数据集,和/或可以以任何合适的时间和频率执行收集上下文数据集。然而,可以以任何合适的方式收集和使用上下文数据集。

3.3选择目标音频数据进行增强

步骤s120叙述了:从音频数据集中选择目标音频数据进行增强,这可以用于(例如,从目标音频数据;从其中选择了目标音频数据的音频数据集等)选择适用于促进音频相关参数确定以增强音频的音频数据。另外地或可替代地,选择目标音频数据可以用于改善音频系统的电池寿命(例如,通过优化要在听筒与第三级系统之间传输的音频数据的数量和类型等)。选择目标音频数据可以包括选择以下任何一项或多项:持续时间(例如,音频分段的长度)、内容(例如,音频分段中包括的音频)、音频数据类型(例如,从选定麦克风中选择音频数据等)、数据量、与音频数据相关联的上下文数据和/或任何其他合适的方面。在具体示例中,选择目标音频数据可以包括选择采样率、位深度、压缩技术和/或其他合适的音频相关参数。可以选择任何合适类型和数量的音频数据(例如,具有任何合适的持续时间和特性的分段等)用于传输到第三级系统。在示例中,可以选择与多个源(例如,多个麦克风)相关联的音频数据。在具体示例中,框s120可以包括选择并且传输分别与第一麦克风和第二麦克风相对应的第一音频数据和第二音频数据,其中,第一音频数据和第二音频数据与共享的时间指示符相关联。在另一具体示例中,框s120可以包括选择并且传输与不同(例如,与不同的方向相关联等)的麦克风和不同的时间指示符相对应的不同的音频数据(例如,与第一麦克风和第一时间段相对应的第一音频数据;与第二麦克风和第二时间段相对应的第二音频数据等)。可替代地,可以选择来自单个源的音频数据。

选择目标音频数据可以基于以下一项或多项:音频数据集(例如,从音频数据集提取的音频特征,诸如梅尔频率倒谱系数(melfrequencycepstralcoefficients);参考音频数据集,诸如在训练目标音频选择模型中使用的用于识别当前音频数据集中的模式的历史音频数据集等),上下文数据集(例如,使用上下文数据对上下文情况进行分类并且选择目标音频数据的代表性分段;使用上下文数据评估音频的重要性等),时间指示符(例如,选择与循环时间间隔的起点相对应的目标音频数据分段等),目标参数(例如,目标延迟、电池消耗、音频分辨率、比特率、信噪比等)和/或任何其他合适的标准。

在一些实施例中,框s120包括应用(例如,生成、训练、存储、检索、执行等)目标音频选择模型。目标音频选择模型和/或其他合适的模型(例如,音频参数模型,诸如由第三级系统使用的那些模型)可以包括以下任何一项或多项:概率特性、启发式特性、确定性特性和/或任何其他合适的特性。进一步地,框s120可以和/或方法100的其他部分可以采用机器学习方法,包括以下任何一项或多项:神经网络模型、有监督学习、无监督学习、半监督学习、强化学习、回归、基于实例的方法、正则化方法、决策树学习方法、贝叶斯方法、内核方法、聚类方法、相关联规则学习算法、深度学习算法、降维方法、集成方法和/或任何合适形式的机器学习算法。在示例中,框s120可以包括应用神经网络模型(例如,递归神经网络、卷积神经网络等)以从音频数据集中选择多个音频分段中的目标音频分段,其中,原始音频数据(例如,原始音频波形)、已处理的音频数据(例如,提取的音频特征)、上下文数据(例如,补充传感器数据等)和/或其他合适的数据可以在神经网络模型的神经输入层中使用。应用目标音频选择模型、以其他方式选择目标音频数据、应用其他模型和/或执行与方法100相关联的任何其他合适的过程可以由以下一个或多个执行:听筒、第三级单元和/或其他合适的部件(例如,系统部件)。

每个模型都可以以以下方式被运行或更新:一次;以预定的频率;每当执行所述方法和/或子过程的实施例的实例时;每当满足触发条件(例如,检测到音频数据集中的音频活动;检测到语音活动;检测到音频数据和/或上下文数据中的意外测量值等)时;和/或以任何其他合适的时间和频率。可以与一个或多个其他模型同时地(例如,利用目标音频选择模型选择目标音频数据集,同时基于不同的目标音频数据集和音频参数模型确定音频相关参数等)、串行地、以变化的频率和/或在任何其他合适的时间运行和/或更新(多个)模型。每个模型可以被验证、证实、强化、校准和/或以其他方式基于新接收的最新数据、历史数据更新(例如,在远程计算系统处、在听筒处、在第三级系统处等)和/或基于任何其他合适的数据更新。这些模型可以是普遍适用的(例如,跨用户、音频系统使用的相同模型等),特定于用户的(例如,针对用户的特定听力条件而定制;针对与用户相关联的上下文情况而定制等),特定于地理区域(例如,与地理区域中经历的常见噪声相对应等),特定于时间指示符(例如,与在特定时间经历的常见噪声相对应等),特定于听筒和/或第三级系统(例如,基于听筒和/或第三级系统的类型使用需要不同计算处理能力的不同模型;基于可在听筒和/或第三级系统处收集的传感器数据的类型使用不同的模型;基于不同的通信条件(诸如信号强度)使用不同的模型等),和/或可以以其他方式跨任何合适数量和类型的实体适用。在示例中,可以基于不同的上下文情况应用不同(例如,利用不同的算法、不同的特征集、不同的输入和/或输出类型生成等)的模型(例如,针对与不明确的上下文情况相关联的音频数据集使用目标音频选择机器学习模型;响应于检测到未佩戴听筒和/或检测到缺少噪声而省略了模型的使用等)。然而,本文描述的模型可以以任何合适的方式配置。

选择目标音频数据优选地由一个或多个听筒执行(例如,使用低功率数字信号处理等),但是可以另外地或可替代地在任何合适的部件(例如,第三级系统、远程计算系统等)处执行。在示例中,框s120可以包括在听筒处从在相同听筒处采样的音频数据集中选择目标音频数据。在另一示例中,框s120可以包括分别在第一听筒和第二听筒处收集第一音频数据集和第二音频数据集;将第一音频数据集从第一听筒传输到第二听筒;以及基于在第二听筒处对音频数据集的分析从第一音频数据集和第二音频数据集的至少一个中选择音频数据。在另一示例中,方法100可以包括分别在第一听筒和第二听筒处选择第一目标音频数据和第二目标音频数据,并且分别使用第一听筒和第二听筒将第一目标音频数据和第二目标音频数据传输到第三级系统。然而,可以以任何合适的方式执行选择目标音频数据。在一些实施例中,目标音频数据仅包括在听筒处接收的原始音频数据。

框s120可以另外地包括选择性地升级音频数据,这用于确定是否将数据(例如,音频数据、原始音频数据、已处理的音频数据等)从听筒升级(例如,传输)到第三级系统。这可以包括以下任何项或全部:接收用户输入(例如,指示当前听筒滤波器的故障);应用语音活动检测算法;确定信噪比(snr);确定期望声源(例如,语音声源)与不期望声源(例如,背景噪声)之比;将在听筒处接收的音频数据与历史音频数据进行比较;确定声音(例如,人类语音)的音频参数(例如,音量);确定已经经过了预定的时间段(例如,10毫秒(ms)、15ms、20ms、大于5ms等);或任何其他合适的触发因素。例如,在一些实施例中,框s120包括基于语音活动检测算法确定是否将音频数据升级到第三级系统。在具体实施例中,语音活动检测算法包括确定与人类语音相对应的频率分布的音量,并且将该音量与音量阈值(例如,最小音量阈值、最大音量阈值、音量阈值的范围等)进行比较。在另一实施例中,框s120包括(例如,周期性地、连续地)计算听筒处的采样音频的snr,确定所述snr已经下降到低于预定snr阈值(例如,在第一时间戳处),以及在所述确定后将(例如,在第一时间戳之前和/或之后的某个时间段期间采样的)采样音频传输到第三级系统。

在选择性升级的一个实施例中,第三级系统使用低功率音频频谱活动启发法来测量音频活动。例如,在存在任何音频活动期间,听筒将音频发送到第三级系统用于分析音频类型(例如,语音、非语音等)。第三级系统确定必须使用哪种类型的滤波,并且将向听筒传输可以在本地使用的时间有界滤波器(例如,麦克风频率系数预ifft的线性组合)。听筒使用滤波器以低功率对音频进行本地增强,直到经过了滤波器上的时间限制或者系统的某个部件(例如,听筒)已经检测到音频频率幅度分布的显著变化为止,此时立即将音频重新升级到第三级系统用于新的本地滤波器的计算。针对变化率测量滤波器的平均变化率(例如,原始单位频率与作为原始单位频率的导数计算的维纳滤波器两者)。在一个示例中,可以对听筒处的本地滤波器的更新进行定时,从而使得以节省电池但维持滤波器准确性的高保真度的速率发送更新。

在一些实施例中,以预定频率(例如,每10ms、15ms、20ms等)将音频数据升级到第三级系统。例如,在一些实施方式中,基于音频环境的复杂性(例如,多个不同的音频频率、不同频率之间的幅度变化、音频数据的组成变化得有多快等)来调整此频率。在具体示例中,例如,升级音频数据的频率在复杂环境中具有第一值(例如,5ms、10ms、15ms、20ms等),并且在较不复杂的环境中具有低于第一值的第二值(例如,大于15ms、大于20ms、大于500ms、大于一分钟等)。

在一些实施例中,第三级系统可以发送(例如,除了滤波器之外,除了时间有界滤波器之外,独自地等)期望的数据更新速率和音频分辨率的指令集以实现上下文准备。这些更新速率和比特率优选地独立于滤波器的时间限制,因为第三级系统可能需要历史上下文以适应需要滤波的新的音频现象;可替代地,更新速率和比特率与滤波器的时间限制有关。

在一些实施例中,滤波器、滤波器的时间限制、更新速率、比特率和任何其他合适的音频或传输参数中的任何项或全部可以基于以下一项或多项:近期音频历史、听筒的位置(例如,gps位置)、时间(例如,一天中的当前时间)、本地签名(例如,本地wi-fi签名、本地蓝牙签名等)、用户的个人历史或任何其他合适的参数。在具体示例中,第三级系统可以使用对语音的存在、噪声的存在以及语音和噪声各自的时间变化和频率重叠的估计来请求可变的数据速率更新并且设置任何给定滤波器的时间限制。然后可以通过采样率、采样的位深度、数据流的一个或多个麦克风的存在以及在发送音频时使用的压缩技术来修改数据速率。

3.4将目标音频数据从听筒传输到第三级系统s130

在一个实施例中,框s130将目标音频数据从听筒传输到与听筒通信并且在听筒附近的第三级系统,这可以用于传输音频数据以便后续在确定音频相关参数时使用。可以将任何合适数量和类型的目标音频数据从一个或多个听筒传输到一个或多个第三级系统。优选地,响应于选择目标音频数据而执行传输目标音频数据,但是可以另外地或可替代地与任何合适的触发条件(例如,诸如基于使用低功率音频频谱活动启发法检测到音频活动;基于滤波器更新速率的传输等)在时间上相关地(例如,串行地、响应于所述触发条件、同时地等)执行、以预定时间间隔执行、和/或任何其他合适的时间和频率执行。然而,可以以任何合适的方式执行传输目标音频数据。

框s130优选地包括在将目标音频数据从一个或多个听筒传输到第三级系统之前应用波束成形过程(例如,协议、算法等)。例如,在一些实施例中,基于来自听筒的一组多个麦克风(例如,2个)的音频数据应用波束成形以创建单个音频时间序列。在具体示例中,然后将此波束成形的结果传输到第三级系统(例如,代替传输原始音频数据、结合原始音频数据等)。另外地或可替代地,所述方法的任何其他过程可以包括应用波束成形,或者可以在不应用波束成形的情况下实施所述方法。

在一些实施例中,框s130包括向第三级系统传输其他合适的数据(例如,除了目标音频流之外或代替目标音频流),诸如但不限于:派生数据(例如,从音频流提取的特征值;频率-功率分布;音频流的其他特性等)、听筒部件信息(例如,当前电池电量)、补充传感器信息(例如,加速度计信息、上下文数据)、高阶音频特征(例如,相对麦克风音量、概要统计数据等)或任何其他合适的信息。

3.5基于目标音频数据确定音频相关参数s140

在所图示的实施例中,框s140基于目标音频数据确定音频相关参数,这可以用于确定被配置为促进听筒处的增强音频回放的参数。音频相关参数可以包括以下任何一项或多项:滤波器(例如,时间有界滤波器;与原始音频分辨率相关联的用于在听筒处进行完全滤波的滤波器等),更新速率(例如,滤波器更新速率、所请求的音频更新速率等),修改后的音频(例如,涉及采样率(诸如通过在传输回听筒之前对接收到的目标音频数据进行上采样);比特率;采样的位深度;与目标音频数据相关联的一个或多个麦克风的存在;压缩技术;分辨率等),空间估计参数(例如,用于在合成听筒输出时的3d空间估计等),目标音频选择参数(例如,本文所描述的),延迟参数(例如,可接受的延迟值),放大参数,上下文情况确定参数,关于框s120、s170和/或方法100的其他合适部分描述的其他参数和/或数据,和/或任何其他合适的音频相关参数。另外地或可替代地,可以在以下一个或多个处执行这种确定:听筒、附加的第三级系统和/或其他合适的部件。滤波器优选地是时间有界的,以指示听筒的启动时间和有效时间段,但是也可以可替代地是时间独立的。滤波器可以包括麦克风频率系数的组合(例如,预快速傅里叶逆变换的线性组合)、原始单位频率系数、维纳滤波器(例如,用于时间特定的信号噪声滤波等)和/或适用于促进将滤波器应用在听筒和/或其他部件上的任何其他数据。滤波器更新速率优选地指示听筒处的本地滤波器被更新(例如,通过将更新的滤波器从第三级系统传输到听筒,其中,滤波器更新速率独立于滤波器的时间限制等)的速率,但是可以确定任何合适类型的数据(例如,模型、目标音频数据的持续时间等)的任何合适的更新速率。

确定音频相关参数优选地基于目标音频数据(例如,从目标音频数据中提取的音频特征;从听筒音频、远程音频传感器音频中选择的目标音频数据等)和/或上下文音频(例如,历史音频数据、历史确定的音频相关参数等)。在示例中,确定音频相关参数可以基于目标音频数据和历史音频数据(例如,对于在合适频率粒度的目标参数下进行的快速傅立叶变换;25至32ms;至少32ms;和/或其他合适的持续时间等)。在另一示例中,框s140可以包括:应用音频窗口(例如,具有目标音频提前32ms的移动窗口的最后32ms音频);应用快速傅立叶变换和/或其他合适的变换;以及应用快速傅里叶逆变换和/或其他合适的变换(例如,在滤波后的频谱图上)用于确定音频数据(例如,具有最后目标音频数据的长度的结果输出等)以进行回放。另外地或可替代地,可以基于目标音频数据、上下文音频数据(例如,历史音频数据)和/或其他合适的音频相关数据以任何方式确定音频相关参数(例如,滤波器、可流式传输的原始音频等)。在另一示例中,框s140可以包括分析目标音频数据的语音活动和/或背景噪声。在具体示例中,框s140可以包括针对包括以下情况的一种或多种情况确定音频相关参数:缺少语音活动并且具有安静的背景噪声(例如,放大所有声音;关于描述安静环境的较高可能性的位置和时间数据以指数方式回退滤波器更新,诸如每500ms或更长时间的更新速率等);存在语音活动并且具有安静的背景噪声(例如,确定适用于存在于音素中的主语音频率的滤波器;降低滤波器更新速率以使滤波器随时间推移保持相对恒定;以适用于应对波动的语音、特定音素和声阶的速率更新滤波器,诸如通过使用生命期为10到30ms的滤波器等);缺少语音活动并且具有恒定的、响亮的背景噪声(例如,确定用于去除背景噪声的滤波器;以指数方式回退滤波器速率,诸如最高达500ms等);存在语音活动和恒定的背景噪声(例如,确定用于应对语音活动的高频滤波器更新;确定所传输的本地滤波器的平均变化率;以及对更新进行定时以实现在利用时间一致性的同时维持准确性的目标参数;每10至15ms的更新等);缺少语音活动并且具有可变背景噪声(例如,基于声频、上下文数据(诸如位置、时间、历史上下文和/或音频数据、和/或其他合适的数据)确定语音活动的贝叶斯先验;诸如响应于贝叶斯先验和/或其他合适概率满足阈值条件而升级音频数据用于附加滤波等);存在语音活动和可变的背景噪声(例如,(诸如针对比特率、采样率、麦克风数量)确定高更新速率、高音频采样数据速率;确定用于减轻连接条件的滤波器;确定用于声学致动的修改后的音频等);和/或任何其他合适的情况。

在实施例中,确定音频相关参数可以基于上下文数据(例如,从听筒、用户移动设备和/或其他部件接收的;在第三级系统的传感器处收集的等)。例如,确定滤波器、滤波器的时间限制、更新速率、比特率和/或其他合适的音频相关参数可以基于用户位置(例如,由在听筒和/或其他部件处收集的gps位置数据所指示的等)、一天中的时间、通信参数(例如,信号强度、通信签名(诸如,用于wi-fi和蓝牙连接等))、用户数据集(例如,位置历史、一天中的时间历史等)和/或其他合适的上下文数据(例如,指示用户所经历的音频配置文件周围的上下文情况等)。在另一实施例中,确定音频相关参数可以基于目标参数。在具体示例中,确定滤波器更新速率可以基于滤波器的平均变化率(例如,针对原始单位频率滤波器、维纳滤波器等),同时针对上下文情况实现了节省电池寿命和维持滤波器准确性的高保真度的目标参数。

在一些实施例中,框s140包括确定声源的位置(例如,gps坐标、相对于用户的位置、相对方向、姿势、取向等),其可以包括以下任何项或全部:波束成形、声学位置的频谱增强的波束成形;确定用户头部两侧之间的对比功率(例如,基于多个听筒);确定单个和/或多个听筒的多个麦克风之间的相位差;使用惯性传感器确定注视中心;确定听筒和/或第三级系统和/或共联合伙系统(例如,单个或多个用户的相邻第三级系统)之间的峰值三角测量,或通过任何其他合适的过程。

在另一实施例中,框s140可以包括基于上下文音频数据(例如,与相比于与目标音频数据相关联的时间段更长的时间段相关联,与较短时间段相关联,与任何合适的时间段和/或其他时间指示符相关联等)和/或其他合适的数据(例如,目标音频数据等)确定音频相关参数。例如,框s140可以包括:基于通过将目标音频数据(例如,4ms音频分段)附加到历史目标音频数据而生成的音频窗口(例如,将4ms音频分段附加到28ms先前接收的音频数据以产生32ms音频分段用于快速傅立叶变换计算等)确定粒度滤波器。另外地或可替代地,可以在框s140和/或方法100的其他合适过程的任何合适的方面中使用上下文音频数据。例如,框s140可以包括应用历史音频窗口(例如,32ms)以计算变换计算(例如,快速傅里叶变换计算),以用于音频相关参数(例如,滤波器、增强的音频数据)的推断和/或其他合适的确定。在另一示例中,框s140可以包括基于历史音频窗口(例如,与低粒度直接访问相关联的300秒的音频等)和/或与历史音频窗口相关联的音频相关参数(例如,历史音频窗口中包括的用于音频的所确定音频相关参数等)来确定(例如,当前目标音频的)音频相关参数,其中,可以以用于确定当前音频相关参数的任何合适的方式使用历史音频相关参数。示例可以包括将生成的音频窗口与历史音频窗口(例如,先前生成的32ms音频窗口)进行比较,以根据目标音频数据(例如,4ms音频分段)与历史目标音频数据(例如,与历史音频窗口共享的前28ms音频分段)的比较确定新的频率增加;以及使用新的频率增加(和/或其他提取的音频特征)来确定嘈杂信号中语音的频率分量,所述频率分量用于合成所期望音频分段的波形估计,所述音频分段包括用于在合成实时波形时使用的最后一个分段(例如,延迟小于足以用于估计的频率分辨率所需的音频窗口延迟等)。另外地或可替代地,在生成实时波形时,可以将任何合适的持续时间与目标音频数据、历史目标音频数据、音频窗口和/或其他合适的音频数据相关联。在具体示例中,框s140可以包括应用具有从音频窗口的差异(例如,在第一音频窗口与偏移4ms的第二音频窗口之间等)得到的特征集的神经网络(例如,递归神经网络)。

在另一实施例中,框s140可以包括基于来自多个音频源(例如,听筒麦克风、第三级系统、远程麦克风、拾音线圈、与其他用户相关联的联网听筒、用户移动设备等)的目标音频数据和/或其他合适的数据确定空间估计参数(例如,用于促进针对一对听筒中的每一听筒的设计信号的完整3d空间估计等)和/或其他合适的音频相关参数。在示例中,框s140可以包括基于目标音频数据和位置参数确定虚拟麦克风阵列(例如,针对波束成形中的较优的空间分辨率)。位置参数可以包括不同声源(诸如扬声器、背景噪声源和/或其他源)的位置,这些位置可以基于将声学互相关联与三维空间中音频流相对于彼此的姿势(例如,根据上下文数据(诸如从左右听筒收集的数据、适用于rf三角测量的数据等)估计)进行组合来确定。所估计的数字音频流可以基于其他数字流的组合(例如,近似线性组合),并且触发条件(例如,连接条件(诸如rf链接错误)等)可以触发使用其他数字音频流的线性组合以替换给定的数字音频流。在另一实施例中,框s140包括:应用类似于本文描述的任何模型和/或方法的音频参数模型(例如,针对不同的上下文情况、针对不同的音频参数、针对不同的用户应用不同的音频参数模型;应用与关于框s120描述的那些类似的模型和/或方法等)。然而,确定音频相关参数可以基于任何合适的数据,并且可以以任何合适的方式执行框s140。

3.6将音频相关参数传输到听筒s150

框s150叙述了:将音频相关参数传输到听筒,这可以用于向听筒提供参数以增强音频回放。音频相关参数优选地由第三级系统传输到听筒,但是可以另外地或可替代地由任何合适的部件(例如,远程计算系统、用户移动设备等)传输。如图4所示,可以将任何合适数量和类型的音频相关参数(例如,滤波器、维纳滤波器、一组单位频率系数、滤波器变量的系数、各种频率和位深度的频率掩模、频率掩模的预期到期时间、重新评估和/或更新滤波器的条件、本地算法执行顺序的排名列表和/或条件、听筒对不同的数据速率和/或类型的请求、第三级系统的一个或多个处理步骤失败的指示、听筒之间的时间协调数据、音量信息、蓝牙设置、增强的音频、直接回放的原始音频、更新速率、滤波器的生命期、音频分辨率的指令等)传输到听筒。在第一实施例中,框s150将音频数据(例如,原始音频数据、在第三级系统处处理的音频数据等)传输到听筒用于直接回放。在第二实施例中,框s150包括将音频相关参数传输到听筒,以供听筒本地应用。例如,可以在本地应用传输到听筒的时间有界滤波器,以增强低功率音频。在具体示例中,可以应用时间有界滤波器,直到满足以下一项或多项:经过了时间限制、检测到触发条件(诸如,音频频率幅度分布的变化超过阈值条件)和/或任何其他合适的标准。时间有界滤波器的停止(和/或其他合适的触发条件)可以充当用于选择要升级的目标音频数据(例如,如框s120中)以用于确定更新的音频相关参数的触发条件,和/或可以触发方法100的任何其他合适的部分。然而,可以以任何合适的方式执行传输音频相关参数。

在一个实施例中,s150包括将一组频率系数从第三级系统传输到一个或多个听筒。例如,在具体实施方式中,所述方法包括将一组单位频率系数从第三级系统传输到听筒,其中,将听筒处的传入音频数据从时间序列转换为频率表示,将来自所述频率表示的频率乘以单位频率系数,将得到的频率变换回声音的时间序列,并且在听筒的接收器(例如,扬声器)上播放所述时间序列。

在替代性实施例中,频率滤波器在时域中(例如,有限脉冲响应滤波器、无限脉冲响应滤波器或其他时域),使得无需将时间序列音频变换到频域然后再变换回到时域。

在另一实施例中,s150包括将滤波器(例如,维纳滤波器)从第三级系统传输到一个或多个听筒。在具体实施方式中,例如,所述方法包括将维纳滤波器从第三级系统传输到听筒,其中,将听筒处的传入音频数据从时间序列转换为频率表示,基于滤波器调整这些频率,并且将调整后的频率转换回时间序列以通过听筒的扬声器回放。

框s150可以另外地或可替代地包括选择第三级系统的天线214的子集用于传输(例如,通过应用rf波束成形)。在一些实施例中,例如,基于在该组天线中具有最高信号强度来选择天线214的子集(例如,单个天线、两个天线等)。在具体示例中,具有最高信号强度的单个天线214被选择用于在第一场景(例如,当仅需要第三级系统的单个无线电来与一组听筒进行通信并且低带宽速率就足够了)中传输,并且具有最高信号的多个(例如,2个)天线214的子集被选择用于第二场景(例如,当同时与多个听筒进行通信并且需要高带宽速率时)中传输。另外地或可替代地,可以在任何合适的一组场景中使用任何数量的天线214(例如,全部)。

在一些实施例中,第三级系统传输音频数据(例如,原始音频数据)用于在听筒处回放。在具体示例中,可以请求听筒以比最终将被回放的数据速率低的数据速率将数据发送到第三级系统;在这种情况下,第三级系统可以在将数据传输到听筒之前对数据进行上采样(例如,用于原始回放)。第三级系统可以另外地或可替代地以原始音频分辨率将滤波器发送回以进行完全滤波。

3.7处置连接条件s160

所述方法可以另外地或可替代地包括框s160,其叙述了:处置听筒与第三级系统之间的连接条件。框s160可以用于应对连接故障(例如,导致丢包等)和/或其他合适的连接条件,以改善听力系统的可靠性。连接条件可以包括以下一项或多项:干扰条件(例如,rf干扰等)、跨身体传输、信号强度条件、电池寿命条件和/或其他合适的条件。处置连接条件优选地包括:在听筒处,本地存储(例如,高速缓存)并且应用音频相关参数,包括以下一项或多项:接收到的时间有界滤波器(例如,从第三级系统最近接收的时间有界滤波器等)、已处理的时间有界滤波器(例如,针对指数式衰减的最后连续的声学情况来高速缓存滤波器的平均值,其中连接条件的检测可以触发将要应用的最佳估计信号噪声滤波器应用到已收集的音频数据等)、由第三级系统确定的其他音频相关参数和/或任何其他合适的音频相关参数。在一个实施例中,步骤s160包括:响应于触发条件(例如,缺少来自第三级系统的响应、时间有界滤波器到期、声学条件的变化超过阈值等)而应用近期使用的滤波器(例如,诸如针对关于声频和幅度与前一个时间段相似的情况最近使用的滤波器;针对与同当前时间段相对应的频率和幅度相似的频率和幅度的情况近期使用的滤波器等)。在另一实施例中,框s160包括在本地存储的滤波器之间的转变(例如,诸如响应于在超过时间段阈值的持续时间内缺少来自第三级系统的响应而在最近使用的滤波器与一段时间内情境性平均滤波器之间的平滑转变等)。在另一实施例中,框s160可以包括应用(例如,使用本地存储的算法)维纳滤波、空间滤波和/或任何其他合适类型的滤波。在另一实施例中,框s160包括修改音频选择参数(例如,在第三级系统处、在听筒处;诸如与采样率、时间、麦克风的数量、上下文情况条件、音频质量、音频源有关的音频选择标准的音频选择参数等),所述修改可以基于优化目标参数(例如,增加重传尝试;提高传输的纠错能力等)来执行。在另一实施例中,框s160可以包括应用音频压缩方案(例如,稳健的音频压缩方案等)、纠错码、和/或为处置连接条件定制的其他合适的方法和/或参数。在另一实施例中,框s160包括修改(例如,动态修改)传输功率,所述修改可以基于目标参数、上下文情况(例如,基于推断的上下文情况将音频数据分类为在增强的上下文中很重要等)、设备状态(例如,电池寿命、接近度、信号强度等)、用户数据(例如,偏好、与系统部件的用户交互(诸如近期的音量调整)、历史用户数据等)和/或任何其他合适的标准。然而,可以以任何合适的方式执行处置连接条件。

在一些实施例中,s160包括在传输到第三级系统之前、期间或之后调整目标音频数据的一组参数和/或传输参数(例如,传输频率、目标音频数据被发送的次数等)。在具体示例中,例如,将目标音频数据的多个实例传输(例如,并且将目标音频数据的位深度减小)到第三级系统(例如,以应对数据包丢失)。

在一些实施例中,s160包括实施任何数量的技术用于减轻连接故障,以便使得所述方法能够在丢包的情况下(例如,由于rf干扰和/或跨身体传输)继续进行。

在s160的一些实施例中,听筒将针对指数式衰减的先前(例如,最后连续的、历史的等)声学情况来高速缓存滤波器的平均值,使得如果在任何时间连接(例如,听筒与第三级系统之间)丢失,则可以将最佳估计滤波器应用于音频。在具体示例中,如果听筒由于滤波器到期或声学条件的突然变化而从口袋单元中寻找新的滤波器,则如果在短持续时间内声学频率和幅度相似的话,听筒可以使用先前使用的那个(exact)滤波器。听筒还可以基于近期上下文中的相似频率和幅度图访问近期高速缓存的一组滤波器。如果听筒由于滤波器到期或声学条件的突然变化而从第三级系统中寻找新的滤波器,并且在延长的时间段内未接收到更新,则听筒可以在多个音频段的过程中在先前的滤波器与情境性平均滤波器之间进行平滑转变,从而使得声音不间断。另外地或可替代地,如果口袋单元的处理丢失,则听筒可以使用本地机载算法回退到传统的维纳滤波和空间滤波。

3.8修改延迟参数、放大参数和/或任何其他合适的参数

所述方法可以另外地或可替代地包括框s170,其叙述了:基于描述用户上下文情况的上下文数据集修改延迟参数、放大参数和/或其他合适的参数(例如,在听筒和/或其他合适的部件处)。框s170可以用于修改延迟和/或放大频率,以改善交叉频率延迟体验,同时增强音频质量(例如,处理无法听到频率上的安静声音;处理无法将信号与噪声分离等)。例如,框s170可以包括取决于目标参数是否指向主要放大音频来修改可变延迟和频率放大,或者将信噪比提高到高于已经可听见的声音输入。在具体示例中,框s170可以应用于包括以下一项或多项的情况:具有明显的来自周围空气传导的低频功率的安静情况(例如,确定小于或等于10ms的延迟,使得高频放大与同一信号的低频分量同步等);具有明显的低频骨传导的自发声(例如,确定小于或等于10ms的延迟,使得高频放大与同一信号的低频分量同步等);非自我发声的高噪声环境(例如,根据用户所经历的信噪比损失程度确定高于背景音频幅度的所有频率的放大率,诸如2至8db;由于缺少同步问题确定延迟大于10ms;并且基于所产生的高于背景噪声的音频的缩放比例与声压水平之比确定延迟等);和/或任何其他合适的情况。可以通过以下一项或多项来执行框s170:第三级系统、听筒和/或其他合适的部件。然而,可以以任何合适的方式执行修改延迟参数、放大参数和/或其他合适的参数。

在方法100的一个实施例中,所述方法包括在听筒的多个麦克风处收集原始音频数据;在听筒处从音频数据集中选择目标音频数据进行增强;基于选择性升级过程确定将目标音频数据传输到第三级系统;将目标音频数据从听筒传输到与听筒通信并且在所述听筒附近的第三级系统;基于目标音频数据确定一组滤波器参数;以及将滤波器参数传输到听筒以促进听筒处的增强音频回放。另外地或可替代地,方法100可以包括任何其他合适的步骤、省略上述任何步骤(例如,在没有选择性升级模式的情况下自动传输音频数据)、或者以任何其他合适的方式执行。

4.系统.

优选地利用所描述的系统200执行方法100的实施例,但是可以另外地或可替代地利用任何合适的系统来执行。类似地,以下描述的系统200优选地被配置为执行以上描述的方法200的实施例,但是另外地或可替代地可以被用于执行任何其他合适的(多个)过程。

如图2所示,系统200的实施例可以包括一个或多个听筒和第三级系统。另外地或可替代地,系统200的实施例可以包括以下一个或多个:远程计算系统;远程传感器(例如,远程音频传感器等);用户设备(例如,智能手机、膝上型计算机、平板计算机、台式计算机等);和/或任何其他合适的部件。系统100的部件可以以任何方式物理地和/或逻辑地集成(例如,关于方法100的部分,具有跨部件的任何合适的功能分布等)。例如,可以由一个或多个听筒和相应的第三级系统对收集的音频数据和/或上下文数据进行不同数量和/或类型的信号处理(例如,在听筒处对满足第一组条件的音频数据集应用低功率信号处理;在第三级系统上对满足第二组条件的音频数据集应用高功率信号处理等)。在另一示例中,可以完全由听筒执行方法100的信号处理方面,诸如在第三级系统不可用的情况下(例如,空电量状态、连接故障、超出范围等)。在另一示例中,可以基于延迟目标和/或其他合适的目标参数(例如,基于低延迟目标与高延迟目标的信号处理的不同类型和/或分配;不同的数据传输参数等)来确定功能的分布。功能分布可以是动态的(例如,基于上下文情况(诸如关于上下文环境、当前设备特性、用户和/或其他合适的标准)而变化等)、静态的(例如,跨多个上下文情况的信号处理的类似分配)和/或以任何合适的方式进行配置。通过系统的任何部件进行的通信和/或在系统的任何部件之间进行的通信可以包括无线通信(例如,wi-fi、蓝牙、射频等)、有线通信和/或任何合适类型的通信。

在一些实施例中,通过rf系统(例如,具有0至16,000赫兹的频率范围)建立部件(例如,听筒与第三级系统)之间的通信。另外地或可替代地,可以使用不同的通信系统,可以使用多个通信系统(例如,在第一组系统元件之间使用rf并且在第二组系统元件之间使用wi-fi),或者系统的元件可以以任何其他合适的方式进行通信。

第三级设备220(或另一其他合适的辅助处理设备/口袋单元)优选地设置有能够每秒执行超过120亿次操作、并且更优选地每秒执行超过1200亿次操作(本领域中也称为每秒120千兆次操作或gops)的处理器。在一些实施例中,系统200可以被配置为将这种相对强大的第三级系统220与具有与oticonopntm或现有技术中已知的其他类似的耳戴式系统相当的大小、重量和电池寿命的听筒210相结合。听筒210优选地被配置为使用电池消耗测量标准iec60118-0+a1:1994具有超过70个小时的电池寿命。

4.1听筒

系统200可以包括一组一个或多个听筒210(例如,如图3所示),这些听筒用于对音频数据和/或上下文数据进行采样、选择音频进行增强、促进可变延迟和频率放大、应用滤波器(例如,用于在听筒的扬声器处的增强音频回放)、播放音频和/或执行促进音频增强的其他合适操作。听筒(例如,助听器)210可以包括以下一项或多项:音频传感器212(例如,一组两个或更多个麦克风、单个麦克风、拾音线圈等),补充传感器,通信子系统(例如,包括任何数量的(具有任何数量的、被配置为与第三级系统、远程计算系统通信的天线214的)发射器的无线通信子系统等),处理子系统(例如,计算系统、数字信号处理器(dsp)、信号处理部件(诸如放大器和转换器)、存储装置等),电源模块,接口(例如,用于提供控制指令、用于呈现音频相关信息的数字接口;用于修改与系统部件相关联的设置的触觉接口等),扬声器和/或其他合适的部件。听筒和/或其他合适的部件(例如,第三级系统等)的补充传感器可以包括以下一个或多个:运动传感器(例如,加速度计、陀螺仪、磁力计等),光学传感器(例如,图像传感器、光传感器等),压力传感器,温度传感器,挥发性化合物传感器,重量传感器,湿度传感器,深度传感器,位置传感器,阻抗传感器(例如,用于测量生物阻抗),生物特征传感器(例如,心率传感器、指纹传感器),流量传感器,功率传感器(例如,霍尔效应传感器)和/或任何其他合适的传感器。系统200可以包括任何合适数量的听筒210(例如,用户佩戴的一对听筒等)。在示例中,一组听筒可以被配置为以交错的方式(例如,向包括多个收发器的第三级系统等)传输音频数据。在另一示例中,所述一组听筒可以被配置为并行地(例如,同时在不同的信道上)和/或以任何合适的时间、频率和时间关系(例如,串行地、响应于触发条件等)传输音频数据。在一些实施例中,基于满足一个或多个选择标准来选择一个或多个听筒用于传输音频,这些选择标准可以包括以下任何项或全部:具有高于预定阈值的信号参数(例如,信号质量、信噪比、幅度、频率、不同频率的数量、频率范围、音频可变性等),具有低于预定阈值的信号参数(例如,幅度、可变性等),音频内容(例如,特定幅度的背景噪声、背向背景噪声的听筒、语音噪声的幅度等),历史音频数据(例如,历史上发现受到较小阻挡的听筒等),或任何其他合适的一个或多个选择标准。然而,可以以任何合适的方式配置听筒。

在一个实施例中,系统200包括两个听筒210,用户的每只耳朵使用一个。这可以用于增大在听筒(例如,在不受用户的头发、身体、声学头影阻挡的听筒处;在接收到具有高信噪比的信号的听筒处等)处接收高质量音频信号的可能性,增大在第三级系统处从听筒接收高质量目标音频数据信号的可能性(例如,从不受第三级系统阻挡的听筒接收;在一个听筒受阻挡的情况下从多个听筒接收等),启用或协助启用声源的定位(例如,除了通过在每个听筒中具有一组多个麦克风来提供的定位信息之外),或执行任何其他合适的功能。在具体示例中,系统200的这两个听筒210中的每一个都包括两个麦克风212和单个天线214。

每个听筒210优选地包括一个或多个处理器250(例如,dsp处理器),所述处理器用于执行一个或多个初始处理步骤的集合(例如,确定目标音频数据,确定是否和/或何时将音频数据升级/传输到第三级系统,确定是否和/或何时将音频数据升级/传输到远程计算系统或用户设备等)。初始处理步骤可以包括以下任何项或全部:应用一个或多个语音活动检测(vad)过程(例如,利用vad算法处理音频数据,利用vad算法处理原始音频数据以确定与人类语音相对应的一个或多个频率的信号强度等),基于音频数据确定比率(例如,snr、语音与非语音之比、对话音频与背景噪声之比等),确定一个或多个升级参数(例如,基于vad的值,基于确定已经经过了预定时间间隔,确定何时将目标音频数据传输到第三级系统,确定以将目标音频数据传输到第三级系统的频率,确定在听筒处应用特定滤波器的时长等)或任何其他合适的过程。在一个实施例中,处理器根据音频数据(例如,原始音频数据)的一个或音频特性(例如,音频参数)实施一组不同的升级参数(例如,传输到第三级系统的频率、到第三级系统的后续传输之间的预定时间间隔等)。在具体示例中,例如,如果音频环境被认为是复杂的(例如,许多类型的噪声、大背景噪声、快速变化等),则可以将目标音频数据每隔第一预定时间间隔(例如,20ms、15ms、10ms、大于10ms等)传输一次,并且如果音频环境被认为是简单的(例如,总体安静、无对话等),则可以将目标音频数据每隔第二预定时间间隔(例如,比第一预定时间间隔长、大于20ms等)传输一次。

另外地或可替代地,听筒的一个或多个处理器250可以用于在将音频数据传输到第三级系统220之前处理/改变音频数据。这可以包括以下任何项或全部:压缩音频数据(例如,通过带宽压缩,通过基于/利用梅尔频率倒谱的压缩,将带宽从16khz降低到8khz等),更改比特率(例如,降低比特率、增大比特率),更改采样率,更改位深度(例如,降低位深度、增大位深度、将位深度从16位深度降低到8位深度等),对音频数据应用波束成形或滤波技术,或以其他合适的方式更改音频数据。可替代地,可以将原始音频数据从一个或多个听筒传输到第三级系统。

听筒优选地包括存储装置,所述存储装置用于存储一个或多个滤波器(例如,频率滤波器、维纳滤波器、低通、高通、带通等)、或多组滤波器参数(例如,掩模、频率掩模等)、或任何其他合适的信息。这些滤波器和/或滤波器参数可以被永久地存储,临时地存储(例如,直到经过了预定时间间隔),直到新的滤波器或一组滤波器参数到达为止,或者在任何其他合适的时间并且基于任何合适的一组触发因素。在一个实施例中,一组或多组滤波器参数(例如,单位频率系数、维纳滤波器等)被高速缓存在听筒的存储装置中,这例如可以在默认的听筒滤波器中使用(例如,当听筒与第三级系统之间的连接性条件较差时,当新的滤波器不足时,当音频环境复杂时,当音频环境发生变化或基于来自用户的反馈预期会突然变化时等)。另外地或可替代地,滤波器、滤波器参数和其他合适的信息中的任何项或全部可以存储在第三级系统的存储装置、远程计算系统(例如,云存储)、用户设备或任何其他合适的位置处。

4.2第三级系统

在所图示的实施例中,系统200包括第三级系统220,所述第三级系统用于确定音频相关参数、接收和/或发射音频相关数据(例如,到听筒、远程计算系统等)和/或执行任何其他合适的操作。第三级系统220优选地包括与听筒中所包括的处理子系统不同的处理子系统(例如,具有相对更大的处理能力的处理子系统等),但可替代地可以包括相同或相似类型的处理子系统。第三级系统可以另外地或可替代地包括:传感器(例如,补充音频传感器)、通信子系统(例如,包括多个收发器等)、电源模块、接口(例如,指示电量状态、描述第三级系统与听筒之间的连接的连接参数等)、存储装置(例如,比听筒中的更大的存储装置、比听筒中的更小的存储装置等)和/或任何其他合适的部件。然而,可以以任何合适的方式配置第三级系统。

第三级系统220优选地包括一组多个天线,这些天线用于:向一个或多个听筒传输滤波器和/或滤波器参数(例如,单位频率系数、滤波器持续时间/生命期、滤波器更新频率等),从系统的另一部件(例如,听筒、第二三级系统、远程计算系统、用户设备等)接收目标音频数据和/或音频参数(例如,延迟参数、音频分数、音频质量分数等),优化将信号成功传输到系统的一个或多个部件(例如,听筒、第二三级系统、远程计算系统、用户设备等)的可能性(例如,基于在一组多个天线中选择具有最大信号强度的一个或多个天线),优化在系统的另一部件(例如,听筒)处接收到的信号的质量或强度。可替代地,第三级系统可以包括单个天线。在一些实施例中,第三级系统的一个或多个天线可以共同定位(例如,在同一壳体内,在分离的壳体中但是在彼此预定距离之内,在分离的壳体中但是相对于彼此固定距离,彼此相距小于1米、小于2米等),但可替代地不必共同定位。

第三级系统220可以另外地或可替代地包括任何数量的有线或无线通信部件(例如,rf芯片、wi-fi芯片、蓝牙芯片等)。在一个实施例中,例如,系统200包括与一组多个天线相关联的一组多个芯片(例如,rf芯片、被配置为在0与16khz之间的频率范围内进行通信的芯片)。在一个实施例中,例如,第三级系统220包括与2至3个无线通信芯片相关联的4至5个天线。在具体示例中,例如,每个通信芯片与2至3个天线相关联(例如,连接到其上)。

在一些实施例中,第三级系统220包括一组用户输入/用户接口,这些用户输入/用户接口被配置为接收用户反馈(例如,在听筒处提供的声音的等级,音频回放成功的“是”或“否”指示,音频分数,需要更新滤波器的用户指示等)、调整音频回放的参数(例如,改变音量、打开和关闭系统等)或执行任何其他合适的功能。这些可以包括以下任何项或全部:按钮、触摸表面(例如,触摸屏)、开关、拨号盘或任何其他合适的输入/接口。另外地或可替代地,所述一组用户输入/用户接口可以存在于与第三级系统分离的用户设备(例如,智能手机、在用户设备上执行的应用程序)之内或之上。系统的任何用户设备240优选地与第三级系统220分离并且不同。然而,在替代性实施例中,诸如用户设备240的用户设备可以用作执行在本文描述的其他实施例中由第三级系统220执行的功能的辅助处理单元。而且,在其他实施例中,诸如系统200的系统可以被配置为在没有诸如用户设备240的单独用户设备的情况下进行操作。

在具体示例中,第三级系统220包括被配置为从用户接收反馈(例如,音频回放的质量)的一组一个或多个按钮,这些按钮可以发起触发条件(例如,将当前滤波器替换为高速缓存的默认滤波器)。

第三级系统220优选地包括壳体,并且被配置为佩戴在用户身上或附近,诸如佩戴在用户的衣服内(例如,在裤子口袋内、夹克口袋内、握在用户的手中等)。第三级系统220进一步优选地被配置为位于距每个听筒的距离和/或方向的预定范围内(例如,距每个听筒小于一米,离每个听筒小于2米,基于用户的尺寸确定,基于用户的平均尺寸确定,在任何合适的通信范围内相对于每个听筒沿z方向基本对齐且相对于一个或多个听筒沿x和y轴具有最小偏移量),从而使得第三级系统与听筒之间能够进行充分的通信。另外地或可替代地,第三级系统220可以布置在其他地方、布置在各个位置(例如,作为用户设备的一部分)或以其他方式定位。

在一个实施例中,第三级系统和听筒具有多种交互模式(例如,2种模式)。例如,在第一模式下,听筒将原始音频传输到第三级设备口袋单元,并且接收回原始音频以直接回放,并且在第二模式下,口袋单元传输回滤波器以进行本地增强。在替代性实施例中,第三级系统和听筒可以以单一模式交互。

4.3远程计算系统

系统200可以另外地或可替代地包括远程计算系统230(例如,包括一个或多个服务器),所述远程计算系统可以用于接收、存储、处理和/或传输音频相关数据(例如,采样数据;处理后的数据;压缩的音频数据;诸如时间指示符、用户标识符、gps和/或其他位置数据的标签;与wi-fi、蓝牙、射频和/或其他通信技术相关联的通信参数;用于建立用户配置文件的已确定的音频相关参数;用户数据集(包括用户与系统200交互的日志)等)。远程计算系统优选地被配置为生成、存储、更新、传输、训练和/或以其他方式处理模型(例如,目标音频选择模型、音频参数模型等)。在示例中,远程计算系统可以被配置为针对不同的用户(例如,逐月地)生成和/或更新个性化模型(例如,基于语音、背景噪声和/或针对用户测量的其他合适的噪声类型进行更新,诸如对模型进行个性化以放大识别的语音并且确定适合于最经常观察到的背景噪声的滤波器等)。在另一示例中,可以基于以下一项或多项将参考音频配置文件(例如,其指示语音和背景噪声的类型等;基于来自其他用户的音频数据、通用模型生成或以其他方式生成)应用于用户(例如,用于针对用户确定音频相关参数;选择目标音频数据等):位置(例如,生成用于对通常在特定位置观察到的背景噪声进行滤波的参考音频配置文件等),通信参数(例如,信号强度、通信签名等),时间,用户取向,用户移动,其他上下文情况参数(例如,不同语音的数量等)和/或任何其他合适的标准。

远程计算系统230可以被配置为从第三级系统、补充部件(例如,对接站、充电站等)、听筒和/或任何其他合适的部件接收数据。远程计算系统230可以进一步被配置为以预定时间间隔(例如,每小时、每天、每周等)、与触发条件在时间上相关地(例如,响应于第三级系统和/或听筒到对接站的连接;响应于收集阈值数量和/或类型的数据等)和/或以任何合适的时间和频率接收和/或以其他方式处理数据(例如,诸如基于在最近时间间隔内针对多个用户收集的数据更新模型等)。在示例中,远程计算系统230可以被配置为:通过与多个用户相关联的第三级系统从所述多个用户接收音频相关数据;更新模型;并且将更新的模型传输到第三级系统以供后续使用(例如,供第三级系统使用的更新的音频参数模型;可以从第三级系统传输到听筒的更新的目标音频选择模型等)。另外地或可替代地,远程计算系统230可以促进任何合适的模型(例如,目标音频选择模型、音频参数模型、本文描述的其他模型等)的更新以通过任何合适的部件来应用(例如,对传输到与多个用户相关联的听筒的模型进行集体更新;对传输到与多个用户相关联的第三级系统的模型集体更新等)。在一些实施例中,可以针对各个用户(例如,其中用户可以设置更新定时和频率的偏好等)、用户的子分组(例如,基于用户条件、用户人口统计、其他用户特性改变模型更新参数)、设备类型(例如,听筒版本、第三级系统版本、与设备相关联的传感器类型等)和/或其他合适的方面定制模型的集体更新。例如,可以另外地或可替代地利用可以基于语音、声音、体验和/或使用的其他方面促进用户特定的改善的用户数据(例如,特定于用户、特定于用户账户等)以及可以合并到用户特定的模型中的特定于用户的音频环境因素来改善模型,其中更新后的模型可以传输回用户(例如,第三级单元、听筒和/或与用户相关联的其他合适部件等)。本文描述的模型的集体更新可以给出以下方面的改善:音频增强、向各个用户提供个性化音频、在增强音频回放(例如,关于质量、延迟、处理等)的上下文中进行音频相关建模和/或其他合适的方面。另外地或可替代地,可以在以下一个或多个上执行更新和/或以其他方式处理模型:第三级系统、听筒、用户设备和/或其他合适的部件。然而,可以以任何合适的方式来配置远程计算系统230。

在一些实施例中,远程计算系统230包括一个或多个模型和/或算法(例如,机器学习模型和算法、在第三级系统处实施的算法等),这些模型和/或算法在来自听筒、第三级系统和用户设备中的一个或多个的数据上进行训练。在具体示例中,例如,将数据(例如,音频数据、原始音频数据、音频参数、滤波器参数、传输参数等)传输到远程计算系统,其中,数据被分析并且用于实施第三级系统和/或听筒的一个或多个处理算法。这些数据可以从单个用户接收、从多个用户聚合或以其他方式接收和/或确定。在具体示例中,系统将音频数据(例如,定期地、常规地、连续地、以合适的触发因素、以预定频率等)传输到远程计算系统(例如,云)以进行训练,并且(例如,定期地、常规地、连续地、以合适的触发因素、以预定频率等)接收回模型的更新(例如,实时更新)。

4.4用户设备

在所图示的实施例中,系统200可以包括一个或多个用户设备240,这些用户设备可以用于与系统200的一个或多个其他部件进行接口连接(例如,与之通信)、接收用户输入、提供一个或多个输出或执行任何其他合适的功能。用户设备优选地包括客户端,另外地或可替代地,客户端可以在系统200的另一部件(例如,第三级系统)上运行。所述客户端可以是本地应用程序、浏览器应用程序、操作系统应用程序或者是任何其他合适的或可执行的应用程序。

用户设备240的示例可以包括平板计算机、智能手机、移动电话、膝上型计算机、手表、可穿戴设备(例如,眼镜)或任何其他合适的用户设备。用户设备可以包括电力存储装置(例如,电池)、处理系统(例如,cpu、gpu、存储器等)、用户输出(例如,显示器、扬声器、振动机构等)、用户输入(例如,键盘、触摸屏、麦克风等)、定位系统(例如,gps系统)、传感器(例如,光学传感器(诸如光传感器和相机)、取向传感器(诸如加速度计、陀螺仪和测高仪)、音频传感器(诸如麦克风)等)、数据通信系统(例如,wi-fi模块、ble、蜂窝模块等)或任何其他合适的部件。

输出可以包括:显示器(例如,led显示器、oled显示器、lcd等)、音频扬声器、灯(例如,led)、触觉输出(例如,触觉像素系统、振动电动机等)或者任何其他合适的输出。输入可以包括:触摸屏(例如,电容式、电阻式等)、鼠标、键盘、运动传感器、麦克风、生物特征输入、相机或任何其他合适的输入。

4.5补充传感器

系统200可以包括一个或多个补充传感器(未示出),这些补充传感器可以用于提供上下文数据集、定位声源、定位用户或执行任何其他合适的功能。补充传感器可以包括以下任何项或全部:相机(例如,视距、多光谱、高光谱、ir、立体等)、取向传感器(例如,加速度计、陀螺仪、测高仪)、声学传感器(例如,麦克风)、光学传感器(例如,光电二极管等)、温度传感器、压力传感器、流量传感器、振动传感器、接近度传感器、化学传感器、电磁传感器、力传感器或任何其他合适类型的传感器。

5.另一替代性实施例

图5图示了方法/处理500,所述方法是方法100的替代性实施例。在框502处,在多个麦克风(诸如在一组听筒麦克风(例如,听筒210的(多个)麦克风212)中的每一个)处收集一个或多个原始音频数据集。在框504处,在听筒处处理一个或多个数据集。在一些实施例中,可以处理一个或多个原始音频数据集、已处理的音频数据集和/或单个音频数据集。如框506所示,所述处理可以包括例如响应于满足升级参数而通过压缩音频数据(506a)、调整诸如位深度的音频参数(506b)和/或一个或多个其他操作来确定目标音频数据。进一步地,如框508所示,所述处理可以包括通过例如确定音频参数(例如,基于语音活动检测(508a))、确定已经经过了预定时间间隔(508b)和/或一个或多个其他操作来确定升级参数。

在框510处,将目标音频数据从听筒传输到与听筒通信并且在听筒附近的第三级系统,并且在框512处基于目标音频数据确定滤波器参数。例如,第三级系统(例如,第三级系统220)可以被配置为通过例如确定一组单位频率系数、确定维纳滤波器或通过使用一个或多个其他操作来确定滤波器参数。在框514处,将滤波器参数(例如,由第三级系统220无线地)传输到听筒,以更新听筒处的至少一个滤波器,并且促进听筒处的增强音频回放。

在一些实施例中,方法/处理500可以包括一个或多个附加步骤。例如,如框516所示,可以基于在多个麦克风处接收到的原始音频数据来确定单个音频数据集(例如,波束成形的单个音频时间序列)。进一步地,如框518所示,可以(例如,从加速度计、惯性传感器等)收集上下文数据集以定位声源、将目标音频数据升级到第三级系统、检测存在于听筒与第三级系统之间的较差连接性/处置条件等。例如,上下文数据集可以用于确定在连接性/处置条件较差的情况下是否应将目标音频数据的多个实例从听筒传输/重传到第三级系统,如框520所示。

因此,在具体实施例中,方法/处理500可以包括以下一项或多项:在听筒处收集音频数据(框502);确定与人类语音相对应的一组频率存在,例如,音量高于预定阈值(框504);将目标音频数据(例如,波束成形的音频数据)从听筒传输到第三级系统(框510);确定一组滤波器系数,这些滤波器系数保留和/或放大(例如,不去除、放大等)与语音频率相对应的声音,并且最小化或去除其他频率(例如,背景噪声)(框512);以及将滤波器系数传输到听筒以通过利用滤波器系数更新听筒处的滤波器并且利用更新后的滤波器对在听筒处接收的后续音频进行滤波来促进增强的音频回放(框514)。

6.附加实施例

一种用于在包括一组麦克风并且实施音频滤波器以进行音频回放的听筒处提供增强的音频的方法的第一实施例,所述方法包括:在一组麦克风上在第一时间点接收第一音频数据集,所述第一音频数据集包括第一音频信号;处理第一音频信号以确定升级参数;将升级参数与预定的升级阈值进行比较;响应于确定升级参数超过预定阈值:将第一音频信号传输到与听筒分离并且不同的第三级系统;基于第一音频信号在第三级系统处确定一组滤波器系数,并且将所述一组滤波器频率系数传输到听筒;利用所述一组滤波器频率系数更新听筒处的音频滤波器;在听筒处在第二时间点接收第二音频数据集;利用音频滤波器处理第二音频数据集,从而产生更改后的音频数据集;以及在听筒的扬声器上播放更改后的音频数据集。

包括第一实施例的第二实施例,其中,确定升级参数包括利用语音活动检测算法处理第一音频信号以确定音频参数。

包括第二实施例的第三实施例,其中,音频参数包括与人类语音相对应的频率分布的幅度。

包括第一实施例的第四实施例,其中,确定升级参数包括确定自从音频滤波器上次被更新以来已经经过的时间量。

包括第一实施例的第五实施例,其中,每个听筒包括两个麦克风,并且其中,基于波束成形协议确定第一音频信号,其中,第一音频信号包括基于在两个麦克风处接收的音频数据的单个音频时间序列。

包括第一实施例的第六实施例,并且进一步包括:在用户设备上执行的应用程序处接收输入,所述用户设备与听筒和第三级设备两者分离并且不同,其中,进一步基于所述输入确定所述一组滤波器参数。

包括第一实施例的第七实施例,并且进一步包括将所述一组滤波器系数的生命期从第三级系统传输到听筒。

包括第七实施例的第八实施例,并且进一步包括在所述一组滤波器频率系数的生命期已经过了之后,进一步利用存储在听筒处的高速缓存的滤波器来更新滤波器。

7.组合、系统、方法和计算机程序产品

尽管为了简洁而省略,但是实施例包括各种系统部件和各种方法过程(包括变体、示例和具体示例)的适当组合和排列,其中,可以使用任何合适的系统部件以任何合适的顺序、顺序地或同时地执行方法过程。所述系统和方法及其实施例可以至少部分地体现和/或实施为被配置为接收存储计算机可读指令的计算机可读介质的机器。优选地,这些指令由优选地与系统集成的计算机可执行部件来执行。可以将计算机可读介质存储在任何合适的计算机可读介质上,诸如ram、rom、闪速存储器、eeprom、光学设备(cd或dvd)、硬盘驱动器、软盘驱动器或任何合适的设备。优选地,计算机可读介质是非暂态的。然而,在替代方案中,所述计算机可读介质是暂态的。所述计算机可执行部件优选地是通用或专用处理器,但是任何合适的专用硬件或硬件/固件组合设备可以可替代地或另外地执行这些指令。如本领域技术人员将从先前的详细描述以及从附图和权利要求中认识到的,可以在不脱离所附权利要求所限定的范围的情况下对实施例进行修改和改变。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1