多通道声音捕获系统中的声音调平的制作方法

文档序号:18413976发布日期:2019-08-13 19:05阅读:366来源:国知局
多通道声音捕获系统中的声音调平的制作方法

本文揭示的实例实施例涉及音频信号处理。更具体来说,实例实施例涉及多通道声音捕获系统中的调平。



背景技术:

声音捕获系统中的声音调平被认为是一个调节声级使得其满足系统动态范围要求或艺术要求的过程。常规声音调平技术(例如自动增益控制(agc))应用随着时间的推移改变的一种自适应增益(或如果在子带实施方案中,那么每一频率带一个增益)。增益经应用以在所测量的声级太低或太高的情况下放大或减弱声音。



技术实现要素:

本文描述的实例实施例描述一种处理音频信号的方法。根据所述方法,处理器将经由麦克风阵列捕获的至少两个输入声音通道转换成至少两个中间声音通道。所述中间声音通道分别与来自所述麦克风阵列的预定方向相关联。声源离所述方向越近,所述声源在与所述方向相关联的所述中间声音通道中增强得越多。所述处理器单独调平所述中间声音通道。此外,所述处理器将经受调平的所述中间声音通道转换为预定输出通道格式。

本文揭示的实例实施例还描述一种音频信号处理装置。所述音频信号处理装置包含处理器及存储器。所述存储器与所述处理器相关联且包含处理器可读指令。当所述处理器读取所述处理器可读指令时,所述处理器执行上述处理音频信号的方法。

本文揭示的实例实施例还描述一种音频信号处理装置。所述音频信号处理装置包含至少一个硬件处理器。所述处理器可执行第一转换器、调平器及第二转换器。所述第一转换器经配置以将经由麦克风阵列捕获的至少两个输入声音通道转换成至少两个中间声音通道。所述中间声音通道分别与从所述麦克风阵列的预定方向相关联。声源离所述方向越近,所述声源在与所述方向相关联的所述中间声音通道中增强得越多。所述调平器经配置以单独调平所述中间声音通道。所述第二转换器经配置以将经受调平的所述中间声音通道转换为预定输出通道格式。

下文参考附图详细描述本文揭示的实例实施例的另外特征及优点以及实例实施例的结构及操作。应注意,本文呈现的实例实施例仅出于说明性目的。相关领域的技术人员基于本文所含的教示应明白额外实施例。

附图说明

本文揭示的实施例在附图的图式中通过实例而非通过限制说明,且其中相似的参考元件符号指代类似的元件,且其中:

图1a是用于说明实例声音捕获场景的示意图;

图1b是用于说明另一实例声音捕获场景的示意图;

图2是根据实例实施例的用于说明实例音频信号处理装置的框图;

图3是根据实例实施例的用于说明处理音频信号的实例方法的流程图;

图4是根据实例实施例的用于说明实例音频信号处理装置的框图;

图5a是用于说明中间声音通道与从例如用户设备(例如手机)中采用的图1a及图1b中说明的场景中的麦克风阵列的方向的关联的实例的示意图;

图5b是用于说明中间声音通道与从例如会议电话中采用的图1a及图1b中说明的场景中的麦克风阵列的方向的关联的实例的示意图;

图6是用于说明经由波束形成从经由麦克风捕获的输入声音通道产生中间声音通道的实例的示意图;

图7是根据实例实施例的用于说明识别声音帧的实例场景的示意图;

图8是根据实例实施例的用于说明处理音频信号的实例方法的流程图;

图9是根据实例实施例的用于说明实例音频信号处理装置的框图;

图10是根据实例实施例的用于说明处理音频信号的实例方法的流程图;

图11是说明用于实施本文揭示的实例实施例的方面的实例系统的框图。

具体实施方式

实例实施例通过参考图式描述。应注意,为了清楚的目的,在图式及描述中省略关于所属领域的技术人员已知但与实例实施例无关的那些组件及过程的表示及描述。

如所属领域的技术人员应了解,实例实施例的方面可体现为系统、方法或计算机程序产品。因此,实例实施例的方面可采用完全硬件实施例、完全软件实施例(包含固件、常驻软件、微代码等)或组合软件及硬件方面的实施例的形式,其在本文可通常称为“电路”、“模块”或“系统”。此外,实例实施例的方面可采用计算机程序产品的形式,所述计算机程序产品有形地体现于具有在其上体现的计算机可读程序代码的一或多个计算机可读媒体中。

下文参考方法、设备(以及系统)及计算机程序产品的流程图说明及/或框图描述实例实施例的方面。应理解,流程图说明及/或框图中的每一框及流程图说明及/或框图中的框组合可由计算机程序指令实施。这些计算机程序指令可被提供到通用计算机、专用计算机的处理器或其它可编程数据处理设备以产生机器,使得经由计算机的处理器或其它可编程数据处理设备执行的指令创建用于实施在流程图及/或一或多个框图框中指定的功能/动作的构件。

图1a是用于说明实例声音捕获场景的示意图。在此场景中,移动电话捕获声音场景,其中手持移动电话的说话者a与电话相机前方一定位置处的说话者b对话。因为说话者a比其正在给他/她拍照的说话者b离移动电话更近,所以所记录的声级以较大声级差在更近声源与更远声源之间交替。

图1b是用于说明另一实例声音捕获场景的示意图。在此场景中,声音捕获装置捕获会议的声音场景,其中说话者a、b、c及d经由声音捕获装置与参与会议但定位在远程位置处的其它说话者对话。说话者b及d由于(例如)声音捕获装置及/或座位的布置而比说话者a及c离声音捕获装置近得多,且因此所记录的声级以较大声级差在更近声源与更远声源之间交替。

在常规增益调节的情况下,当声音交替地来自高级声源及低级声源时,如果目标是捕获更平衡的声音场景,那么agc增益必须迅速地上下变化以放大低级声音或减弱高级声音。频繁的增益调节及较大的增益变化可导致不同伪影。举例来说,如果agc的适应速度太慢,那么增益变化滞后于实际声级变化。此可导致不良行为,其中高级声音的部分被放大,且低级声音的部分被减弱。如果agc的调适速度被设置为十分快以赶上声源切换,那么声音(例如,会话)中的自然级变化减少。通过调制深度测量的会话的自然级变化对其可懂度及质量是重要的。频繁的增益波动的另一副作用是噪声泵送效果,其中相对恒定的背景噪声级被上下泵送,从而产生令人讨厌的伪影。

鉴于前述内容,基于将声音场景分离到单独声音通道中及将独立agc应用于声音通道的理念,提出一种用于声音调平的解决方案。以此方式,每一agc可在相对较缓慢变化的增益下运行,这是因为每一增益仅处理相关联声音通道中的源。

图2是根据实例实施例的用于说明实例音频信号处理装置200的框图。

根据图2,音频信号处理装置200包含转换器201、调平器202及转换器203。

转换器201经配置以将经由麦克风阵列捕获的至少两个输入声音通道转换成至少两个中间声音通道。中间声音通道分别与从麦克风阵列的预定方向相关联。图5a/b是用于说明中间声音通道与从图1a及图1b中说明的场景中的麦克风阵列的方向的关联的实例的示意图。图5a说明其中中间声音通道包含与移动电话上相机指向其的前向方向(相机的定向)相关联的前向通道及与和前向方向相反的后向方向相关联的后向通道的场景。图5b说明其中中间声音通道包含分别与方向1、方向2、方向3及方向4相关联的四个声音通道的场景。

在中间声音通道中的每一者中,如果声源更靠近与中间声音通道相关联的方向,那么声源在中间声音通道中增强得更多。可采用各种方法将输入声音通道转换成中间声音通道。在实例中,中间声音通道可通过将波束形成应用于经由麦克风阵列的麦克风捕获的输入声音通道产生。在图5b中说明的场景中,例如,波束形成算法选取经由移动电话的三个麦克风捕获的输入声音通道且朝向前向方向形成心形波束图案且朝向后向方向形成另一心形波束图案。两个心形波束图案经应用以产生前向通道及反向通道。图6是用于说明经由波束形成从经由麦克风捕获的输入声音通道产生中间声音通道的实例的示意图。如图6中说明,呈现三个全向麦克风m1、m2及m3及其指向性图案。在应用波束形成算法之后,前向通道及后向通道从经由麦克风m1、m2及m3捕获的输入声音通道产生。前向通道及后向通道的心形波束图案也在图6中呈现。

麦克风阵列可与音频信号处理装置200一起集成于同一装置中。装置的实例包含(但不限于)声音或视频记录装置、便携式电子装置(例如移动电话、平板计算机及类似物)及会议声音捕获装置。麦克风阵列及音频信号处理装置200还可布置于单独装置中。举例来说,音频信号处理装置200可托管于远程服务器中,且经由麦克风阵列捕获的输入声音通道经由连接(例如网络或存储媒体(例如硬盘))输入到音频信号处理装置200。

转回到图2,调平器202经配置以单独调平中间声音通道。举例来说,独立增益及目标级可分别应用于中间声音通道。

转换器203经配置以将经受调平的中间声音通道转换为预定输出通道格式。预定输出通道格式的实例包含(但不限于)单声道、立体声、5.1或更高、及一级或更高级环绕声。对于单声道输出,例如,经受声音调平的前向声音通道及反向声音通道由转换器203加总在一起以形成最终输出。对于多通道输出通道格式,例如5.1或更高,例如,转换器203从前向声音通道平移到前向输出通道,且从反向声音通道平移到反向输出通道。对于立体输出,例如,经受声音调平的前向声音通道及反向声音通道通过转换器203分别平移到左前/右前及左后/右后通道,且接着加总在一起以形成最终输出左及右通道。

因为所述中间声音通道的声音调平可独立于彼此实现,所以可克服或减轻常规增益调节的至少部分缺点。

图3是根据实例实施例的用于说明处理音频信号的实例方法300的流程图。

如图3中说明,方法600从步骤301开始。在步骤303处,经由麦克风阵列捕获的至少两个输入声音通道被转换成至少两个中间声音通道。中间声音通道分别与从麦克风阵列的预定方向相关联。在中间声音通道中的每一者中,如果声源更靠近与中间声音通道相关联的方向,那么声源在中间声音通道中增强得更多。

在步骤305处,中间声音通道经单独调平。举例来说,独立增益及目标级分别可应用于中间声音通道。

在步骤307处,经受调平的中间声音通道被转换为预定输出通道格式。预定输出通道格式的实例包含(但不限于)单声道、立体声、5.1或更高、及一级或更高级环绕声。

图4是根据实例实施例的用于说明实例音频信号处理装置400的框图。

根据图4,音频信号处理装置400包含转换器401、调平器402、转换器403、到达方向估计器404及检测器405。在实例中,音频信号处理装置400的组件或元件中的任何者可以硬件、软件或硬件与软件的组合实施为一或多个过程及/或一或多个电路(例如,专用集成电路(asic)、场可编程门阵列(fpga)或其它集成电路)。在另一实例中,音频信号处理装置400可包含用于执行转换器401、调平器402、转换器403、到达方向估计器404及检测器405的相应功能的硬件处理器。

在实例中,音频信号处理装置400以迭代方式处理声音帧。在当前迭代中,音频信号处理装置400处理对应于一个时间或一个时间间隔的声音帧。在下一迭代中,音频信号处理装置400处理对应于下一时间或下一时间间隔的声音帧。

转换器401经配置以将经由麦克风阵列捕获的至少两个输入声音通道转换成至少两个中间声音通道。中间声音通道分别与从麦克风阵列的预定方向相关联。在中间声音通道中的每一者中,如果声源更靠近与中间声音通道相关联的方向,那么声源在中间声音通道中增强得更多。

到达方向估计器404经配置以基于经由麦克风阵列捕获的输入声音通道的输入声音帧估计到达方向。到达方向指示在信号功率方面主导当前声音帧的声源相对于麦克风阵列的方向。估计到达方向的实例方法描述于2007年5月j.德莫霍夫斯基(j.dmochowski)、j.贝内斯逖(j.benesty)、s.阿菲斯(s.affes)的“使用参数化空间相关矩阵的到达方向估计(directionofarrivalestimationusingtheparameterizedspatialcorrelationmatrix)”,电气与电子工程师协会音频会话语言过程会刊(ieeetrans.audiospeechlang.process.),第15卷,第4期,第1327到1339页中,其内容以全文引用方式并入本文中。

调平器402经配置以单独调平中间声音通道。举例来说,独立增益及目标级可分别应用于中间声音通道。

检测器405用于识别定位在与预定中间声音通道相关联的方向附近的声源在预定中间声音通道的声音帧中的存在,使得预定中间声音通道中的声音帧的声音调平可独立于其它中间声音通道中的声音帧而实现。预定中间声音通道可为与其中期望存在更靠近麦克风阵列的声源的方向相关联的预定中间声音通道。替代地,预定中间声音通道可为与其中期望存在离麦克风阵列更远的声源的方向相关联的预定中间声音通道。从这个意义上来说,预定中间声音通道及除了预定中间声音通道外的中间声音通道在本发明的上下文中分别称为“目标声音通道”及“非目标声音通道”。举例来说,在图5a中说明的场景中,反向通道是预定中间声音通道,且前向通道是除了预定中间声音通道外的中间声音通道,或反之亦然。在图5b中说明的场景中,与方向2及方向4相关联的声音通道是预定中间声音通道,且与方向1及方向3相关联的声音通道是除了预定中间声音通道外的中间声音通道,或反之亦然。在实例中,预定中间声音通道可基于配置数据或用户输入指定。

在实例中,如果声源存在于与预定中间声音通道相关联的方向附近且由声源发射的声音是不同于背景噪声及麦克风噪声的所关注声音(soi),那么可识别存在。举例来说,所关注声音可被识别为非静止声音。作为实例,信号质量可用于识别所关注声音。如果声音帧的信号质量更高,那么可存在声音帧包含所关注声音的更大可能性。可使用用于表示信号质量的各种参数。

用于测量当前声音(帧)在平均周围环境声音中的突出程度的瞬时信噪比(isnr)是用于表示信号质量的实例参数。

举例来说,isnr可通过首先用最低级跟踪器估计本底噪声且接着获得当前帧级与本底噪声之间的差(以db为单位)来计算。

举例来说,isnr可被计算为isnrdb=psoundframe,db–pnoise,db,其中isnrdb、psoundframe.db及pnoise.db表示以db为单位表达的瞬时信噪比、以db为单位的当前声音帧的功率及以db为单位表达的本底噪声的经估计功率。

在另一实例中,isnr可通过首先用最低级跟踪器估计本底噪声且接着计算当前帧级的功率与本底噪声的功率的比来计算。

举例来说,isnr可被计算为isnr=psoundframe/pnoise,其中psoundframe是当前声音帧的功率,且pnoise是本底噪声的功率。isnr也可根据isnrdb=10log10(isnr)被转换为isnrdb。

这些表达式中的功率p可(例如)表示平均功率。

在实例中,检测器405经配置以估计每一预定中间声音通道中的声音帧的信号质量,及如果满足以下条件就识别声音帧:1)到达方向指示声音帧的声源定位于从与包含经识别的声音帧的预定中间声音通道相关联的方向的预定范围内,及2)信号质量高于阈值级。图7是用于说明满足条件1)的实例场景的示意图。如图7中说明,预定中间声音通道与从麦克风阵列701的反向方向相关联。在反向方向周围存在角范围θ。声源702的到达方向doa落在角范围θ内,且因此满足条件1)。在条件1)中,声音帧与和输入声音帧相同的时间相关联以用于估计到达方向以确保到达方向实际上指示当声源发射声音帧中的所关注声音时的位置。

在实例中,可同时估计一个以上声源的一个以上到达方向。在此情况中,关于每一到达方向,检测器405估计每一预定中间声音通道中的声音帧的信号质量,及如果满足条件1)及2)就识别声音帧。估计一个以上到达方向的实例方法描述于2013年的h.哈杜尔(h.khaddour)、j.舒密尔(j.schimmel)、m.乔斯(m.trzos)的“使用b格式估计多个声源在3d空间中的到达方向(estimationofdirectionofarrivalofmultiplesoundsourcesin3dspaceusingb-format)”,《国际电信、电工技术、信号及系统进展杂志》(internationaljournalofadvancesintelecommunications,electrotechnics,signalsandsystems),第2卷,第2期,第63到67页,其内容以全文引用方式并入本文中。

如果声音帧由检测器405识别,调平器402就经配置以通过应用对应增益朝向目标级调节经识别的声音帧的声级。在实例中,常规声音调平方法可应用于除了预定中间声音通道外的每一中间声音通道。

转换器403经配置以将经受调平的中间声音通道转换为预定输出通道格式。

因为声音调平增益是基于预定中间声音通道中的经识别的soi声音帧计算,然而排除了非soi帧,所以未提高噪声帧且改进声音调平性能。

图8是根据实例实施例的用于说明处理音频信号的实例方法800的流程图。

如图8中说明,方法800从步骤801开始。在步骤803处,将经由麦克风阵列捕获的至少两个输入声音通道转换成至少两个中间声音通道。中间声音通道分别与从麦克风阵列的预定方向相关联。在中间声音通道中的每一者中,如果声源更靠近与中间声音通道相关联的方向,那么声源在中间声音通道中增强得更多。在实例中,中间声音通道可通过将波束形成应用于经由麦克风阵列的麦克风捕获的输入声音通道来产生。

在步骤805处,基于经由麦克风阵列捕获的输入声音通道的输入声音帧估计到达方向。

在步骤807处,确定中间声音通道中的当前一者是否是预定中间声音通道。预定中间声音通道可为与其中期望存在更靠近麦克风阵列的声源的方向相关联的预定中间声音通道。替代地,预定中间声音通道可为与其中期望存在离麦克风阵列更远的声源的方向相关联的预定中间声音通道。在实例中,预定中间声音通道可基于配置数据或用户输入指定。

如果中间声音通道并非是预定中间声音通道,那么方法800继续进行到步骤815。如果中间声音通道是预定中间声音通道,那么在步骤809处,估计预定中间声音通道中的声音帧的信号质量。

在步骤811处,识别定位在与预定中间声音通道相关联的方向附近的声源在预定中间声音通道的声音帧中的存在。在实例中,如果声源存在于与预定中间声音通道相关联的方向附近且由声源发射的声音是不同于背景噪声及麦克风噪声的所关注声音(soi),那么可识别存在。举例来说,所关注声音可被识别为非静止声音。作为实例,信号质量可用于识别所关注声音。如果声音帧的信号质量更高,那么可存在声音帧包含所关注声音的更大可能性。在实例中,估计预定中间声音通道中的声音帧的信号质量,且如果满足以下条件就识别声音帧:1)到达方向指示声音帧的声源定位于从与包含经识别的声音帧的预定中间声音通道相关联的方向的预定范围内,及2)信号质量高于阈值级。在条件1)中,声音帧与和输入声音帧相同的时间相关联以用于估计到达方向以确保到达方向实际上指示当声源发射声音帧中的所关注声音时的位置。

在实例中,可同时估计一个以上声源的一个以上到达方向。在此情况中,关于每一到达方向,估计预定中间声音通道中的声音帧的信号质量,及如果满足条件1)及2)就识别声音帧。

如果未识别声音帧,那么方法800继续进行到步骤817。如果识别了声音帧,那么在步骤813处,通过应用对应增益朝向目标级调节经识别的声音帧的声级。

在步骤817处,确定是否已处理所有中间声音通道。如果未处理所有中间声音通道,那么方法800继续进行到步骤807且将当前中间声音通道改为等待处理的下一中间声音通道。如果已处理所有中间声音通道,那么方法800继续进行到步骤819。

在步骤815处,将声音调平应用于当前中间声音通道。接着,方法800继续进行到步骤817。可应用常规声音调平方法。举例来说,独立增益及独立目标级可应用于当前中间声音通道。

在步骤819处,将经受调平的中间声音通道转换为预定输出通道格式。预定输出通道格式的实例包含(但不限于)单声道、立体声、5.1或更高、及一级或更高级环绕声。接着,方法800在步骤821处结束。

图9是根据实例实施例的用于说明实例音频信号处理装置900的框图。

根据图9,音频信号处理装置900包含转换器901、调平器902、转换器903、到达方向估计器904及检测器905。

在实例中,音频信号处理装置900以迭代方式处理声音帧。在当前迭代中,音频信号处理装置900处理对应于一个时间或一个时间间隔的声音帧。在下一迭代中,音频信号处理装置900处理对应于下一时间或时间间隔的声音帧。

转换器901经配置以将经由麦克风阵列捕获的至少两个输入声音通道转换成至少两个中间声音通道。中间声音通道分别与从麦克风阵列的预定方向相关联。在中间声音通道中的每一者中,如果声源更靠近与中间声音通道相关联的方向,那么声源在中间声音通道中增强得更多。

到达方向估计器904经配置以基于经由麦克风阵列捕获的输入声音通道的输入声音帧估计到达方向。调平器902经配置以单独调平中间声音通道。

对于预定中间声音通道,检测器905用于识别定位在与预定中间声音通道相关联的方向附近的声源在预定中间声音通道的声音帧中的存在,使得预定中间声音通道中的声音帧的声音调平可独立于其它中间声音通道中的声音帧而实现。在实例中,检测器905经配置以估计每一预定中间声音通道中的声音帧的信号质量,且如果满足以下条件就识别声音帧:1)到达方向指示声音帧的声源定位于从与包含经识别的声音帧的预定中间声音通道相关联的方向的预定范围内,及2)信号质量高于阈值级。在条件1)中,声音帧与和输入声音帧相同的时间相关联以用于估计到达方向以确保到达方向实际上指示当声源发射声音帧中的所关注声音时的位置。

对于除了预定中间声音通道外的中间声音通道,检测器905用于识别由声源发射的声音是不同于背景噪声及麦克风噪声的所关注声音(soi)。在实例中,检测器905经配置以估计除了预定中间声音通道外的每一中间声音通道中的声音帧的信号质量,及如果信号质量高于阈值级就识别声音帧。

如果预定中间声音通道中的声音帧由检测器905识别,调平器902就经配置以通过应用对应增益朝向目标级调节经识别的声音帧的声级。如果除了预定中间声音通道外的中间声音通道中的声音帧由检测器905识别,调平器902就经配置以通过应用对应增益朝向另一目标级调节经识别的声音帧的声级。

转换器903经配置以将经受调平的中间声音通道转换为预定输出通道格式。

因为除了预定中间声音通道外的中间声音通道中的经识别的声音帧的声音调平可独立于背景噪声及麦克风噪声实现,所以声音调平性能得以改进。

图10是根据实例实施例的用于说明处理音频信号的实例方法1000的流程图。

如图10中说明,方法1000从步骤1001开始。在步骤1003处,将经由麦克风阵列捕获的至少两个输入声音通道转换成至少两个中间声音通道。中间声音通道分别与从麦克风阵列的预定方向相关联。在中间声音通道中的每一者中,如果声源更靠近与中间声音通道相关联的方向,那么声源在中间声音通道中增强得更多。在实例中,中间声音通道可通过将波束形成应用于经由麦克风阵列的麦克风捕获的输入声音通道产生。

在步骤1005处,基于经由麦克风阵列捕获的输入声音通道的输入声音帧估计到达方向是。

在步骤1007处,确定中间声音通道中的当前一者是否是预定中间声音通道。预定中间声音通道可为与其中期望存在更靠近麦克风阵列的声源的方向相关联的预定中间声音通道。替代地,预定中间声音通道可为与其中期望存在离麦克风阵列更远的声源的方向相关联的预定中间声音通道。在实例中,预定中间声音通道可基于配置数据或用户输入指定。

如果中间声音通道是预定中间声音通道,那么在步骤1009处,估计预定中间声音通道中的声音帧的信号质量。

在步骤1011处,识别定位在与预定中间声音通道相关联的方向附近的声源在预定中间声音通道的声音帧中的存在。在实例中,如果声源存在于与预定中间声音通道相关联的方向附近且由声源发射的声音是不同于背景噪声及麦克风噪声的所关注声音(soi),那么可识别存在。举例来说,所关注声音可被识别为非静止声音。作为实例,信号质量可用于识别所关注声音。如果声音帧的信号质量更高,那么可存在声音帧包含所关注声音的更大可能性。在实例中,估计预定中间声音通道中的声音帧的信号质量,及如果满足以下条件就识别声音帧:1)到达方向指示声音帧的声源定位于从与包含经识别的声音帧的预定中间声音通道相关联的方向的预定范围内,及2)信号质量高于阈值级。在条件1)中,声音帧与和输入声音帧相同的时间相关联以用于估计到达方向以确保到达方向实际上指示当声源发射声音帧中的所关注声音时的位置。

在实例中,可同时估计一个以上声源的一个以上到达方向。在此情况中,关于每一到达方向,估计预定中间声音通道中的声音帧的信号质量,及如果满足条件1)及2)就识别声音帧。

如果在步骤1011处未识别声音帧,那么方法1000继续进行到步骤1021。如果在步骤1011处识别了声音帧,那么在步骤103处通过应用对应增益朝向目标级调节经识别的声音帧的声级,接着,方法1000继续进行到步骤1021。

如果中间声音通道并非是预定中间声音通道,那么在步骤1015处,估计除了预定中间声音通道外的每一中间声音通道中的声音帧的信号质量。

在步骤1017处,如果信号质量高于阈值级,就识别声音帧。如果在步骤1017处识别除了预定中间声音通道外的中间声音通道中的声音帧,那么在步骤1019处,通过应用对应增益朝向另一目标级调节经识别的声音帧的声级,且接着,方法1000继续进行到步骤1021。如果在步骤1017处未识别除了预定中间声音通道外的中间声音通道中的声音帧,那么方法1000继续进行到步骤1021。

在步骤1021处,确定是否已处理所有中间声音通道。如果未处理所有中间声音通道,那么方法1000继续进行到步骤1007且将当前中间声音通道改为等待处理的下一中间声音通道。如果已处理所有中间声音通道,那么方法1000继续进行到步骤1023。

在步骤1023处,将经受调平的中间声音通道转换为预定输出通道格式。接着,方法1000在步骤1025处结束。

用于调节预定中间声音通道中的经识别的声音帧的目标级及/或增益可取决于声音调平目的分别与用于调节除了预定中间声音通道外的中间声音通道中的经识别的声音帧的目标级及/或增益相同或不同。在实例中,如果预定中间声音通道与其中期望存在更靠近麦克风阵列的声源的方向相关联(例如,图5a中的反向通道),那么用于调节预定中间声音通道中的经识别的声音帧的目标级及/或增益分别低于用于调节除了预定中间声音通道外的中间声音通道中的经识别的声音帧的目标级及/或增益。在另一实例中,如果预定中间声音通道与其中期望存在离麦克风阵列更远的声源的方向相关联(例如,图5a中的前向通道),那么用于调节预定中间声音通道中的经识别的声音帧的目标级及/或增益分别高于用于调节除了预定中间声音通道外的中间声音通道中的经识别的声音帧的目标级及/或增益。

图11是说明用于实施本文揭示的实例实施例的方面的示范性系统1100的框图。

在图11中,中央处理单元(cpu)1101根据只读存储器(rom)1102中存储的程序或从存储区段1108加载到随机存取存储器(ram)1103的程序执行各种过程。在ram1103中,当cpu1101执行各种过程或类似物时需要的数据也根据需要存储。

cpu1101、rom1102及ram1103经由总线1104连接到彼此。输入/输出接口1105也连接到总线1104。

以下组件连接到输入/输出接口1105:输入区段1106,其包含键盘、鼠标或类似物;输出区段1107,其包含显示器,例如阴极射线管(crt)、液晶显示器(lcd)或类似物,及扬声器或类似物;存储区段1108,其包含硬盘或类似物;及通信区段1109,其包含网络接口卡,例如lan卡、调制解调器或类似物。通信区段1109经由网络(例如因特网)执行通信过程。

驱动1110也根据需要连接到输入/输出接口1105。可装卸媒体111,例如磁盘、光盘、磁光盘、半导体存储器或类似物,根据需要安装在驱动1110上,使得从其读取的计算机程序根据需要被安装到存储区段1108中。

在其中上述步骤及过程由软件实施的案例中,构成软件的程序从网络(例如因特网)或存储媒体(例如可装卸媒体1111)安装。

可从下面枚举的实例实施例(eee)了解本发明的各种方面:

eee1.一种处理音频信号的方法,其包括:

由处理器将经由麦克风阵列捕获的至少两个输入声音通道转换成至少两个中间声音通道,其中所述中间声音通道分别与从所述麦克风阵列的预定方向相关联,且声源离所述方向越近,所述声源在与所述方向相关联的所述中间声音通道中增强地得越多;

由所述处理器单独调平所述中间声音通道;及

由所述处理器将经受调平的所述中间声音通道转换为预定输出通道格式。

eee2.根据eee1所述的方法,其进一步包括:

由所述处理器基于所述输入声音通道中的至少两者的输入声音帧估计到达方向,且

其中所述调平包括:

针对所述中间声音通道的至少一个预定中间声音通道中的每一者,

估计所述预定中间声音通道中的第一声音帧的第一信号质量,其中所述第一声音帧与和所述输入声音帧相同的时间相关联;

如果所述到达方向指示所述第一声音帧的声源定位于从与包含所述经识别的第一声音帧的所述预定中间声音通道相关联的所述预定方向的预定范围内,就识别所述第一声音帧;且所述第一信号质量高于所述第一阈值级,及

朝向第一目标级调节所述经识别的第一声音帧的声级。

eee3.根据eee2所述的方法,其中所述第一目标级低于用于调平所述中间声音通道中除了所述至少一个预定中间声音通道外的剩余者的至少一个目标级。

eee4.根据eee2或eee3所述的方法,其进一步包括:

由所述处理器基于配置数据或用户输入指定所述至少一个预定中间声音通道。

eee5.根据eee2到4中任一eee所述的方法,其中所述麦克风阵列布置于语音记录装置中,

定位于与所述至少一个预定中间声音通道相关联的所述方向上的源比定位于与除了所述至少一个预定中间声音通道外的所述至少一个中间声音通道相关联的方向上的另一源更靠近所述麦克风阵列,且

所述第一目标级低于所述第二目标级。

eee6.根据eee5所述的方法,其中所述语音记录装置经调适用于会议系统。

eee7.根据eee2到6中任一eee所述的方法,其中所述预定输出通道格式是从由以下各者组成的群组选出:单声道、立体声、5.1或更高、及一级或更高级环绕声。

eee8.根据eee1到7中任一eee所述的方法,其中所述调平进一步包括:

估计所述中间声音通道中除了所述至少一个预定中间声音通道外的至少一者中的第二声音帧的第二信号质量;

如果所述第二信号质量高于第二阈值级,就识别所述第二声音帧;及

朝向第二目标级调节所述经识别的第二声音帧的声级。

eee9.根据eee8所述的方法,其中所述麦克风阵列布置于包含相机的便携式电子装置中,

所述输入声音通道是在经由所述相机捕获视频期间捕获的,

所述至少一个预定中间声音通道包括与和所述相机的定向相对的方向相关联的反向通道,且

所述中间声音通道中除了所述至少一个预定中间声音通道外的所述至少一者包括相关联于与所述相机的所述定向重合的方向的前向通道。

eee10.根据eee9所述的方法,其中所述第一目标级低于所述第二目标级,或所述第一目标级高于所述第二目标级。

eee11.根据eee1到10中任一eee所述的方法,其中所述至少两个输入声音通道的所述转换包括:

由所述处理器将波束形成应用于所述输入声音通道以产生所述中间声音通道。

eee12.一种音频信号处理装置,其包括:

处理器;及

存储器,其与所述处理器相关联且包括处理器可读指令使得当所述处理器读取所述处理器可读指令时所述处理器执行根据eee1到11中任一eee所述的方法。

eee13.一种音频信号处理装置,其包括:

至少一个硬件处理器,其执行:

第一转换器,其经配置以将经由麦克风阵列捕获的至少两个输入声音通道转换成至少两个中间声音通道,其中所述中间声音通道分别与从所述麦克风阵列的预定方向相关联,且声源离所述方向越近,所述声源在与所述方向相关联的所述中间声音通道中增强得越多;

调平器,其经配置以单独调平所述中间声音通道;及

第二转换器,其经配置以将经受调平的所述中间声音通道转换为预定输出通道格式。

eee14.根据eee13所述的音频信号处理装置,其中所述硬件处理器进一步执行:

到达方向估计器,其经配置以基于所述输入声音通道中的至少两者的输入声音帧估计到达方向,及

检测器,其经配置以针对所述中间声音通道的至少一个预定中间声音通道中的每一者,

估计所述预定中间声音通道中的第一声音帧的第一信号质量,其中所述第一声音帧与和所述输入声音帧相同的时间相关联;及

如果所述到达方向指示所述第一声音帧的声源定位于从与包含所述经识别的第一声音帧的所述至少一个预定中间声音通道相关联的所述预定方向的预定范围内就识别所述第一声音帧,且所述第一信号质量高于第一阈值级,且

所述调平器进一步经配置以朝向第一目标级调节所述经识别的第一声音帧的声级。

eee15.根据eee14所述的音频信号处理装置,其中所述检测器进一步经配置以:

估计所述中间声音通道中除了所述至少一个预定中间声音通道外的至少一者中的第二声音帧的第二信号质量;及

如果所述第二信号质量高于第二阈值级,就识别所述第二声音帧;且

其中所述调平器进一步经配置以朝向第二目标级调节所述经识别的第二声音帧的声级。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1