均衡器控制器和控制方法

文档序号：2825960阅读：403来源：国知局

均衡器控制器和控制方法
【专利摘要】公开了均衡器控制器和控制方法。在一个实施方式中，均衡器控制器包括：音频分类器，用于实时地识别音频信号的音频类型；以及调整单元，用于基于所识别的音频类型的置信度值来以连续的方式调整均衡器。
【专利说明】均衡器控制器和控制方法

【技术领域】
[0001]本申请总体上涉及音频信号处理。具体地，本申请的实施方式涉及用于音频分类和音频处理的设备和方法，尤其涉及对对话增强器、环绕声虚拟器、音量校平器和均衡器的控制。

【背景技术】
[0002]为了提升音频的整体质量并且相应地提升用户体验，一些音频改善装置用于在时域中或者谱域中修改音频信号。已经针对各种目的开发出了各种音频改善装置。音频改善装置的一些常见示例包括:
[0003]对话增强器:在电影和广播或者电视节目中，对于理解故事来说，对话是最重要的成分。为了提高其清晰度和其可理解性，尤其是对于听力下降的年长者，开发出了增强对话的方法。
[0004]环绕声虚拟器:环绕声虚拟器使得能够在PC (个人电脑)的内置扬声器中或者耳机中渲染出环绕(多声道)声音信号。也就是说，通过立体声装置(例如扬声器和耳机)，环绕声虚拟器为用户生成虚拟的环绕声效果，提供电影的体验。
[0005]音量校平器:音量校平器旨在对回放的音频内容的音量进行调节，并且基于目标响度值来使音量在时间轴上几乎保持一致。
[0006]均衡器:均衡器提供被称为“音调”或者“音色”的谱平衡的一致性，并且使用户能够为了放大某些声音或者去除不期望的声音而在每个单独的频带上配置频率响应(增益)的整体模式(曲线或者形状)。在传统的均衡器中，可以针对不同的声音例如不同的音乐风格而提供不同的均衡器预置。一旦选择了预置，或者设置了均衡模式，则在信号上施加相同的均衡增益，直到该均衡模式被手动修改为止。相比之下，动态均衡器通过连续监测音频的谱平衡，将其与期望的音调相比较并且动态地调整均衡滤波器以将音频的原始音调转变为期望音调，来实现谱平衡一致性。
[0007]通常，音频改善装置具有其自身的应用情景/上下文。也就是说，音频改善装置可能只适用于特定的内容集合而不适用于所有可能的音频信号，因为不同的内容可能需要以不同的方式来处理。例如，对话增强方法通常被应用于电影内容。如果将对话增强方法应用于其中没有对话的音乐，则对话增强方法可能错误地增强一些频率子带并且引入大量的音色变化和感知上的不一致性。类似地，如果将噪声抑制方法施加到音乐信号上，则能够听到强烈的畸变。
[0008]但是，对于通常包括一组音频改善装置的音频处理系统来说，其输入不可避免地可能是所有可能类型的音频信号。例如，集成在PC中的音频处理系统将接收来自各种源的音频内容，包括电影、音乐、VoIP和游戏。因此，为了对相应内容应用较好的算法或者应用每个算法的较好的参数，重要的是识别或者区分这些被处理的内容。
[0009]为了区分音频内容并且相应地应用较好的参数或者较好的音频改善算法，传统的系统通常预先设计一组预置，并且要求用户针对要播放的内容来选择预置。预置通常将一组音频改善算法和/或其要应用的最佳参数进行编码，例如针对电影或者音乐回放而特别设计的“电影”预置和“音乐”预置。
[0010]但是，对于用户来说，手动选择并不方便。用户通常不会在各种预定义的预置间进行频繁的切换，而是对所有内容保持使用一个预置。此外，即使在一些自动解决方案中，在预置中的参数或者算法设置通常是离散的(例如，对针对特定内容的特定算法进行开启或者关闭)，其不能以基于内容的连续的方式来调整参数。

【发明内容】

[0011]本申请的第一方面是基于回放的音频内容以连续的方式来自动地配置音频改善装置。通过该“自动”模式，用户可以不用疲于选择不同的预置，而只是享受他们的内容。另一方面，为了避免在转换点处的可听到的畸变，连续的调节更加重要。
[0012]根据第一方面的实施方式，一种音频处理设备包括:音频分类器，用于将音频信号实时地分类到至少一个音频类型中；音频改善装置，用于改善听众体验；以及调整单元，用于基于该至少一个音频类型的置信度值来以连续的方式调整音频改善装置的至少一个参数。
[0013]音频改善装置可以是对话增强器、环绕声虚拟器、音量校平器和均衡器中的任何
>J-U ρ?α装直。
[0014]相应地，一种音频处理方法包括:将音频信号实时地分类到至少一个音频类型中；以及基于该至少一个音频类型的置信度值来以连续的方式调整至少一个用于音频改善的参数。
[0015]根据第一方面的另一个实施方式，一种音量校平器控制器包括:音频内容分类器，用于实时地识别音频信号的内容类型；以及调整单元，用于基于所识别的内容类型来以连续的方式调整音量校平器。调整单元可以配置为使音量校平器的动态增益与音频信号的信息性内容类型正相关，且使音量校平器的动态增益与音频信号的干扰性内容类型负相关。
[0016]还公开了一种包括上述音量校平器控制器的音频处理设备。
[0017]相应地，一种音量校平器控制方法包括:实时地识别音频信号的内容类型；通过使音量校平器的动态增益与音频信号的信息性内容类型正相关，并且使音量校平器的动态增益与音频信号的干扰性内容类型负相关，而基于所识别的内容类型来以连续的方式调整音量校平器。
[0018]根据第一方面的又一个实施方式，一种均衡器控制器包括:音频分类器，用于实时地识别音频信号的音频类型；以及调整单元，用于基于所识别的音频类型来以连续的方式调整均衡器。
[0019]还公开了一种包括上述均衡器控制器的音频处理设备。
[0020]相应地，一种均衡器控制方法包括:实时地识别音频信号的音频类型；以及基于所识别的音频类型来以连续的方式调整均衡器。
[0021 ] 本申请还提供了在其上记录有计算机程序指令的计算机可读介质，当由处理器来执行该指令时，该指令使处理器能够执行上述的音频处理方法、或者音量校平器控制方法、或者均衡器控制方法。
[0022]根据第一方面的各个实施方式，可以根据音频信号的类型和/或该类型的置信度值来连续地调整音频改善装置，该音频改善装置可以是对话增强器、环绕声虚拟器、音量校平器和均衡器中之一。
[0023]本申请的第二方面是开发内容识别组件来识别多个音频类型，并且可以使用检测结果通过以连续的方式找到较好的参数来操纵/指导各种音频改善装置的工作方式。
[0024]根据第二方面的实施方式，音频分类器包括:短期特征提取器，用于从各自包括音频帧序列的短期音频片段中提取短期特征；短期分类器，用于使用相应的短期特征来将长期音频片段中的短期音频片段序列分类到短期音频类型中；统计数据提取器，用于计算短期分类器针对该长期音频片段中的短期音频片段序列的结果的统计数据，作为长期特征；以及长期分类器，用于使用长期特征来将长期音频片段分类到长期音频类型中。
[0025]还公开了一种包括上述音频分类器的音频处理设备。
[0026]相应地，一种音频分类方法包括:从各自包括音频帧序列的短期音频片段中提取短期特征；使用相应的短期特征来将长期音频片段中的短期音频片段序列分类到短期音频类型中；计算短期分类器针对该长期音频片段中的短期音频片段序列的结果的统计数据，作为长期特征；以及使用长期特征来将长期音频片段分类到长期音频类型中。
[0027]根据第二方面的另一个实施方式，一种音频分类器包括:音频内容分类器，用于识别音频信号的短期片段的内容类型；以及音频上下文分类器，用于至少部分地基于由音频内容分类器所识别的内容类型来识别该短期片段的上下文类型。
[0028]还公开了包括上述音频分类器的音频处理设备。
[0029]相应地，一种音频分类方法包括:识别音频信号的短期片段的内容类型；以及至少部分地基于所识别的内容类型来识别该短期片段的上下文类型。
[0030]本公开内容还提供了其上记录有计算机程序指令的计算机可读介质，当由处理器来执行该指令时，该指令使处理器能够执行上述的音频分类方法。
[0031]根据第二方面的各个实施方式，音频信号可以被分类到不同的长期类型或者上下文类型中，该长期类型或者上下文类型与短期类型或者内容类型不同。音频信号的类型和/或类型的置信度值还可以用于调整音频改善装置，例如对话增强器、环绕声虚拟器、音量校平器或者均衡器。

【专利附图】

【附图说明】
[0032]在附图中，以示例的方式而非限制的方式图解了本申请，在附图中，相同的附图标记表示相似的元素，在附图中:
[0033]图1的示意图图解了根据本申请的实施方式的音频处理设备；
[0034]图2和图3的示意图图解了如图1所示的实施方式的变型；
[0035]图4至图6的示意图图解了用于识别多个音频类型和计算置信度值的分类器的可能架构；
[0036]图7至图9的示意图图解了本申请的音频处理设备的更多实施方式；
[0037]图10的示意图图解了不同音频类型之间的转换延迟；
[0038]图11至图14是根据本申请的实施方式的音频处理方法的流程图；
[0039]图15的示意图图解了根据本申请的实施方式的对话增强控制器；
[0040]图16和图17是在对对话增强器的控制中使用根据本申请的音频处理方法的流程图；
[0041]图18的示意图图解了根据本申请的实施方式的环绕声虚拟器控制器；
[0042]图19是在对环绕声虚拟器的控制中使用根据本申请的音频处理方法的流程图；
[0043]图20的示意图图解了根据本申请的实施方式的音量校平器控制器；
[0044]图21的示意图图解了根据本申请的音量校平器控制器的效果；
[0045]图22的示意图图解了根据本申请的实施方式的均衡器控制器；
[0046]图23示出了期望的谱平衡预置的若干示例；
[0047]图24的示意图图解了根据本申请的实施方式的音频分类器；
[0048]图25和图26的示意图图解了由根据本申请的音频分类器所使用的一些特征；
[0049]图27至图29的示意图图解了根据本申请的音频分类器的更多实施方式；
[0050]图30至图33是根据本申请的实施方式的音频分类方法的流程图；
[0051]图34的示意图图解了根据本申请的另一个实施方式的音频分类器；
[0052]图35的示意图图解了根据本申请的又一个实施方式的音频分类器；
[0053]图36的示意图图解了本申请的音频分类器中使用的启发式规则；
[0054]图37和图38的示意图图解了根据本申请的音频分类器的更多实施方式；
[0055]图39和图40是根据本申请的实施方式的音频分类方法的流程图；以及
[0056]图41是用于实现根据本申请的实施方式的示例性系统的框图。

【具体实施方式】
[0057]以下参照附图描述本申请的实施方式。要注意的是，为了清楚起见，在附图和描述中省略了对本领域的技术人员所公知的且对于理解本申请并非必需的那些组件和处理的表不和描述。
[0058]本领域的技术人员要理解的是，本申请的各个方面可以被实施为系统、装置(例如，蜂窝式电话、便携式媒体播放器、个人计算机、服务器、电视机顶盒或者数字录像机，或者任何其他媒体播放器)、方法或者计算机程序产品。因此，本申请的各个方面可以采取硬件实施方式的形式、软件实施方式(包括固件、驻留软件、微码等)的形式或者将软件与硬件方面组合起来的实施方式的形式，这里通常可以将它们称为“电路”、“模块”、“系统”。而且，本申请的各个方面可以采取其上包括了计算机可读程序编码的一个或者更多个计算机可读介质中所包括的计算机程序产品的形式。
[0059]可以使用一个或者更多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电子的、磁性的、光学的、电磁的、红外的或者半导体的系统、设备或者装置，或者是上述的任何适当的组合。计算机可读存储介质的更具体的示例(非穷举性的列举)可以包括:具有一个或者更多个导线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或者闪存)、光纤、光盘只读存储器(⑶-ROM)、光存储器装置、磁性存储装置、或者上述的任何适当的组合。在本文档的语境中，计算机可读存储介质可以是能够包括或者存储用于由指令执行系统、设备或者装置所使用或者或者与之结合使用的程序的任何有形介质。
[0060]计算机可读信号介质可以包括其中包含有计算机可读程序编码的传播数据信号，例如在基带中或者作为载波的一部分。这样的传播信号可以采取各种形式，包括但不限于，电磁信号或者光学信号，或者其任何合适的组合。
[0061]计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，其能够通信、传播或者传输由指令执行系统、设备或者装置使用或者或者与之结合使用的程序。
[0062]计算机可读介质中所包括的程序编码可以使用任何适当的介质被传送，适当的介质包括但不限于:无线线路、有线线路、光缆、RF (射频)等，或者上述的任何合适的组合。
[0063]用于针对本申请的各个方面而执行操作的计算机程序编码可以以一个或者更多个编程语目的任何组合来编写，编程语目包括面向对象的编程语目例如Java、Smalltalk、C++等，以及常规程序编程语言，例如“C”编程语言或者类似的编程语言。程序编码可以作为独立软件包来完全地在用户的计算机上执行，或者部分在用户的计算机上执行、部分在远程计算机上执行，或者完全在远程计算机或者服务器上执行。在后者的场景中，远程计算机可以通过任意类型的网络连接至用户的计算机，任意类型的网络包括局域网(LAN)或者广域网(WAN)，或者可以连接至外部计算机(例如，使用互联网服务运营商通过互联网连接)。
[0064]以下，通过根据本申请的实施方式的方法、设备(系统)和计算机程序产品的流程图图解和/或框图来描述本申请的各个方面。要理解的是，流程图图解和/或框图的每个框，以及流程图图解和/或框图的框的组合，可以由计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或者其他可编程数据处理设备的处理器，以形成机器，使得通过计算机或者其他可编程数据处理设备的处理器执行的指令形成用于实现流程图和/或框图的一个块或者多个块中所指定的功能/动作的装置。
[0065]这些计算机程序指令还可以存储在计算机可读介质中，其能够指导计算机、其他可编程数据处理设备、或者其他装置来以特定的方式工作，以使得在计算机可读介质中所存储的指令生产出一种制造品，该制造品包括实现流程图和/或框图的一个块或者多个块中所指定的功能/动作的指令。
[0066]计算机编程指令还可以加载到计算机、其他可编程数据处理设备或者其他装置上，以引起一系列要在计算机、其他可编程数据处理设备或者其他装置上进行的运算操作，从而产生计算机实施的处理，以使得在计算机或其他可编程数据处理设备上执行的指令提供用于实现在流程图和/或框图的一个块或者多个块中所指定的功能/动作的处理。
[0067]以下将详细描述本申请的实施方式，为了清楚起见，按照以下架构来组织描述:
[0068]第I部分:音频处理设备和方法
[0069]小节1.1音频类型
[0070]小节1.2音频类型的置信度值和分类器的架构
[0071]小节1.3对音频类型的置信度值进行平滑
[0072]小节1.4参数调整
[0073]小节1.5参数平滑
[0074]小节1.6音频类型的转换
[0075]小节1.7实施方式和应用场景的组合
[0076]小节1.8音频处理方法
[0077]第2部分:对话增强器控制器和控制方法
[0078]小节2.1对话增强的级别
[0079]小节2.2用于确定要增强的频带的阈值
[0080]小节2.3对背景声级的调整
[0081]小节2.4实施方式和应用场景的组合
[0082]小节2.5对话增强器控制方法
[0083]第3部分:环绕声虚拟器控制器和控制方法
[0084]小节3.1环绕声增强量
[0085]小节3.2起始频率
[0086]小节3.3实施方式和应用场景的组合
[0087]小节3.4环绕声虚拟器控制方法
[0088]第4部分:音量校平器控制器和控制方法
[0089]小节4.1信息性内容类型和干扰性内容类型
[0090]小节4.2不同上下文中的内容类型
[0091]小节4.3上下文类型
[0092]小节4.4实施方式和应用场景的组合
[0093]小节4.5音量校平器控制方法
[0094]第5部分:均衡控制器和控制方法
[0095]小节5.1基于内容类型的控制
[0096]小节5.2音乐中存在主导源的可能性
[0097]小节5.3均衡器的预置
[0098]小节5.4基于上下文类型的控制
[0099]小节5.5实施方式和应用场景的组合
[0100]小节5.6均衡器控制方法
[0101]第6部分:音频分类器和分类方法
[0102]小节6.1基于内容类型分类的上下文分类器
[0103]小节6.2长期特征的提取
[0104]小节6.3短期特征的提取
[0105]小节6.4实施方式和应用场景的组合
[0106]小节6.5音频分类方法
[0107]第7部分=VoIP分类器和分类方法
[0108]小节7.1基于短期片段的上下文分类
[0109]小节7.2使用VoIP语音和VoIP噪声的分类
[0110]小节7.3使波动平滑
[0111]小节7.4实施方式和应用场景的组合
[0112]小节7.5VoIP分类方法
[0113]第I部分:音频处理设备和方法
[0114]图1示出了适应于内容的音频处理设备100的总体框架，该适应于内容的音频处理设备100支持基于回放的音频内容来以改善的参数自动地配置至少一个音频改善装置400。该总体框架包括三个主要部分:音频分类器200、调整单元300和音频改善装置400。
[0115]音频分类器200用于将音频信号实时地分类到至少一个音频类型中。音频分类器200自动地识别回放内容的音频类型。任何音频分类技术，比如通过信号处理、机器学习和模式识别实现的音频分类技术，可以应用于识别音频内容。通常可以同时估算置信度值，置信度值代表音频内容针对一组预定义的目标音频类型的概率。
[0116]音频改善装置400用于通过对音频信号进行处理来提升听众体验，稍后将会详细描述音频改善装置400。
[0117]调整单元300用于基于至少一个音频类型的置信度值来以连续的方式调整音频改善装置的至少一个参数。调整单元300被设计用于操纵音频改善装置400的工作方式。调整单元300基于从音频分类器200获得的结果来估算相应音频改善装置的最适当的参数。
[0118]在此设备中可以应用各种音频改善装置。图2示出了包括四个音频改善装置的示例性系统，该系统中包括对话增强器(Dialog Enhancer, DE) 402、环绕声虚拟器(SurroundVirtualizer, SV) 404、音量校平器(Volume Leveler, VL) 406 和均衡器(Equalizer, EQ)408。基于在音频分类器200中获得的结果(音频类型和/或置信度值)，能够以连续的方式自动地调整每个音频改善装置。
[0119]当然，音频处理设备可以不必包括所有类别的音频改善装置，而可以只包括其中的一个或者更多个音频改善装置。另一方面，音频改善装置不限于本公开内容中给出的那些装置，而可以包括更多类型的音频改善装置，其也在本申请的范围内。此外，本公开内容中讨论的那些音频改善装置的名称，包括对话增强器(DE) 402、环绕声虚拟器(SV) 404、音量校平器(VL)406和均衡器(EQ)408，不应构成限制，它们中的每个应被理解为覆盖实现相同或相似功能的任何其他装置。
[0120]1.1音频类型
[0121]为了适当地控制各种类型的音频改善装置，本发明还提供了音频类型的新的架构，然而现有技术中的那些音频类型也可以应用于此。
[0122]具体地，对不同语意级别的音频类型进行了建模，包括代表音频信号中的基本组分的低级别音频元素和代表实际生活中用户的娱乐应用中最普遍的音频内容的高级别音频类型。前者也可以被命名为“内容类型”，基本的音频内容类型可以包括语音(speech)、音乐(music,包括歌曲)、背景声音(background sound,或者音效)和噪声(noise)。
[0123]语音和音乐的含义不言而喻。在本申请中的噪声意指物理噪声，而不是指语意的噪声。在本申请中，物理噪声可以包括来自例如空调的噪声，以及发自技术原因的噪声例如由于信号传输路径所导致的粉红噪声。相比之下，本申请中的“背景声音”是那些可以是发生在听者注意力的核心目标周围的听觉事件的音效。例如，在电话通话中的音频信号中，除了通话者的声音，还可以有一些其他的非有意的声音，例如与该电话通话无关的一些其他人的声音、键盘的声音、脚步的声音等。这些不需要的声音被称为“背景声音”，而不是噪声。换言之，可以将“背景声音”定义为并非目标(或者听者注意力的核心目标)的或者甚至是不希望的，但是仍有一些语意含义的声音；而“噪声”可以定义为除了目标声音和背景声音之外的那些不需要的声音。
[0124]有时背景声音真的不是“不需要的”而是有意生成的并且承载一些有用的信息，例如电影、电视节目或者无线电广播节目中的背景声音。所以，有时背景声音也可以被称为“音效”。在本公开内容的下文中，为了简洁性而只使用“背景声音”，并且也可简称为“背
[0125]进一步，音乐还可以被分为没有主导源的音乐和有主导源的音乐。如果在音乐片段中有一个源(嗓音或乐器)远比其他源更强，则该音乐被称为“有主导源的音乐”，否则就被称为“无主导源的音乐”。例如，在伴有歌唱声和各种乐器的复调音乐中，如果其是和声平衡的，或者若干最主要的源的能量是彼此相当的，则其被视为没有主导源的音乐；相比之下，如果一个源(例如，嗓音)响度高得多而其他源安静得多，则其被视为包括了主导源。作为另一个示例，单个的或者是突出的乐器音调是“具有主导源的音乐”。
[0126]音乐还可以基于不同的标准被分为不同的类型。其可以基于音乐的风格来分类，例如摇滚、爵士、说唱和民谣，但不限于此。其还可以基于乐器被分类，例如声乐和器乐。器乐可以包括以不同乐器演奏的各种音乐，例如钢琴音乐和吉他音乐。其他示例性的标准包括音乐的节奏、速度、音色和/或任何其他音乐特征，以使得音乐可以基于这些特征的相似性而被归类。例如，根据音色，声乐可以被分为男高音、男中音、男低音、女高音、女中音和女低音。
[0127]音频信号的内容类型可以针对例如包括多个帧的短期音频片段来分类。通常，音频帧的长度是多个毫秒，例如20ms，而要被音频分类器分类的短期音频片段的长度可以具有从数百个毫秒到数秒的长度，例如I秒。
[0128]为了以适应于内容的方式来控制音频改善装置，音频信号可以被实时地分类。针对以上所陈述的内容类型，当前的短期音频片段的内容类型代表当前的音频信号的内容类型。因为短期音频片段的长度不是很长，所以音频信号可以被相继划分为非重叠的短期音频片段。但是，短期音频片段也可以沿着音频信号的时间轴被连续地/半连续地取样。也就是说，短期音频片段可以用以一个或者更多个帧的步长沿着音频信号的时间轴移动的预定长度(所要的短期音频片段长度)的窗来取样。
[0129]高级别音频类型也可以被命名为“上下文类型”，因为其指示音频信号的长期类型，并且可以被当作是可以分类到上述内容类型的瞬时声音事件的环境或者上下文。根据本申请，上下文类型可以包括最普遍的音频应用，例如电影类媒体(movie-1 ike media)、音乐(music,包括歌曲)、游戏(game)和VoIP (互联网协议语音)。
[0130]音乐、游戏和VoIP的含义不言而喻。电影类媒体可以包括电影、电视节目、无线电广播节目或者与前面提到的类似的任何其他音频媒体。电影类媒体的主要特征是混合了可能的语音、音乐和各种类型的背景声音(音效)。
[0131]需要注意的是，内容类型和上下文类型都包括音乐(包括歌曲)。在本申请的下文中，使用词汇“短期音乐(short-term music) ”和“长期音乐(long-term music)”来分别区分这两者。
[0132]针对本申请的一些实施方式，还提出了一些其他的上下文类型架构。
[0133]例如，音频信号可以被分类为高质量的音频(例如电影类媒体和音乐CD)或者低质量的音频(例如VoIP、低比特率的在线流音频和用户生成的内容)，其可以被统称为“音频质量类型”。
[0134]作为另一个示例，音频信号可以被分类为VoIP或者非VoIP,其可以被视为上述的4上下文类型架构(VoIP、电影类媒体、(长期)音乐和游戏)的变形。与VoIP或者非VoIP的上下文相关地，音频信号可以被分为与VoIP相关的音频内容类型，例如VoIP语音、非VoIP语音、VoIP噪声和非VoIP噪声。VoIP音频内容类型的架构对于区分VoIP和非VoIP上下文尤其有用，因为VoIP上下文通常是音量校平器(一种音频改善装置)的最具挑战性的应用场景。
[0135]通常，音频信号的上下文类型可以针对比短期音频片段更长的长期音频片段来分类。长期音频片段包括的多个帧的数量比短期音频片段中的帧的数量更多。长期音频片段也可以包括多个短期音频片段。通常，长期音频片段可以具有秒数量级的长度，例如数秒至数十秒，如10秒。
[0136]类似地，为了以自适应的方式来控制音频改善装置，音频信号可以被实时地分类到上下文类型中。类似地，当前的长期音频片段的上下文类型代表当前的音频信号的上下文类型。因为长期音频片段的长度相对地长，所以音频信号可以沿着音频信号的时间轴被连续地/半连续地取样，以避免其上下文类型的急剧变化以及因此导致的音频改善装置的工作参数的急剧变化。也就是说，长期音频片段可以使用预定长度(想要的长期音频片段长度)的窗以一个或者更多个帧的步长，或者以一个或者更多个短期片段的步长沿着音频信号的时间轴移动来取样。
[0137]以上已经描述了内容类型和上下文类型两者。在本申请的实施方式中，调整单元300可以基于各种内容类型中的至少一个内容类型和/或各种上下文类型中的至少一个上下文类型来调整音频改善装置的至少一个参数。因此，如图3所示，在图1所示的实施方式的变形中，音频分类器200可以包括音频内容分类器202或者音频上下文分类器204，或者两者。
[0138]以上已经提到了基于不同标准(例如针对上下文类型)的不同音频类型，也提到了基于不同层次级别(例如针对内容类型)的不同音频类型。但是，所述标准和所述层次级别都是为了这里描述的方便而显然并非限定。换言之，在本申请中，上述的任何两个或者更多个音频类型可以由音频分类器200同时识别，并且由调整单元300同时考虑，如后文所要描述的。换言之，不同层次级别中的所有音频类型可以是并列的，或者在同一级别中。
[0139]1.2音频类型的置信度值和分类器的架构
[0140]音频分类器200可以输出硬判决结果，或者调整单元300可以将音频分类器200的结果当作是硬判决结果。即使是对于硬判决，也可以将多个音频类型分配到音频片段。例如，音频片段可以被标记为“语音”和“短期音乐”两者，因为其可以是语音和短期音乐的混合信号。所获得的标签可以被直接用于操纵音频改善装置400。简单的示例是当出现语音时启用对话增强器402而当不存在语音时关闭对话增强器402。但是，如果没有仔细的平滑方案(将在稍后论述)，该硬判决方法可能在从一个音频类型到另一个音频类型的转换点处引入一些不自然的声音。
[0141]为了具有更大的灵活性以及能以连续的方式来调节音频改善装置的参数，可以估算每个目标音频类型的置信度值(软判决)。置信度值代表待识别音频内容和目标音频类型之间的匹配水平，其值从O到I。
[0142]如前所述，许多分类技术可以直接输出置信度值。也可以根据各种方法来计算置信度值，这些方法可以被视为分类器的一部分。例如，如果通过一些概率建模技术例如高斯混合模型(Gaussian Mixture Models, GMM)来训练音频模型,则后验概率可以被用于表示置信度值，如:

【权利要求】
1.一种均衡器控制器，包括: 音频分类器，用于连续地识别音频信号的音频类型；以及调整单元，用于基于所识别的所述音频类型的置信度值来以连续的方式调整均衡器。
2.根据权利要求1所述的均衡器控制器，其中，所述音频分类器被配置成将所述音频信号分类到具有相应置信度值的多个音频类型中，并且所述调整单元被配置成通过基于所述多个音频类型的重要性对所述多个音频类型的置信度值进行加权来考虑所述多个音频类型中的至少一些音频类型。
3.根据权利要求1所述的均衡器控制器，其中，所述音频分类器被配置成将所述音频信号分类到具有相应置信度值的多个音频类型中，并且所述调整单元被配置成通过基于所述置信度值对所述多个音频类型的影响进行加权来考虑所述多个音频类型中的至少一些音频类型。
4.根据权利要求1所述的均衡器控制器，还包括参数平滑单元，用于针对由所述调整单元调整的所述均衡器的参数，基于过去的参数值来对由所述调整单元当次确定的参数值进行平滑。
5.根据权利要求4所述的均衡器控制器，其中，所述参数平滑单元被配置成通过计算由所述调整单元当次确定的所述参数值与上一次的经平滑的参数值的加权和来确定当次经平滑的参数值。
6.根据权利要求5所述的均衡器控制器，其中，用于计算所述加权和的权重基于所述音频信号的所述音频类型而自适应地变化。
7.根据权利要求5所述的均衡器控制器，其中，用于计算所述加权和的权重基于不同的从一个音频类型到另一个音频类型的转换对而自适应地变化。
8.根据权利要求5所述的均衡器控制器，其中，用于计算所述加权和的权重基于由所述调整单元确定的所述参数值的增大趋势或者减小趋势而自适应地变化。
9.根据权利要求1至8中任一项所述的均衡器控制器，其中，所述音频分类器包括音频内容分类器，用于识别所述音频信号的内容类型；并且所述调整单元被配置成使均衡级别与短期音乐的置信度值正相关，并且/或者使所述均衡级别与语音的置信度值负相关。
10.根据权利要求1至8中任一项所述的均衡器控制器，其中，所述音频分类器包括音频上下文分类器，用于识别所述音频信号的上下文类型；并且所述调整单元被配置成使均衡级别与长期音乐的置信度值正相关，并且/或者使所述均衡级别与电影类媒体和/或游戏的置信度值负相关。
11.根据权利要求1至8中任一项所述的均衡器控制器，其中，所述音频分类器包括音频内容分类器，用于识别所述音频信号的内容类型；并且所述调整单元被配置成使均衡级别与不具有主导源的短期音乐的置信度值正相关，并且/或者使所述均衡级别与具有主导源的短期音乐的置信度负相关。
12.根据权利要求1至8中任一项所述的均衡器控制器，其中，所述音频分类器包括音频内容分类器，用于识别所述音频信号的内容类型；并且所述调整单元被配置成使均衡级别与背景声音的置信度值正相关，并且/或者使所述均衡级别与噪声的置信度值负相关。
13.根据权利要求1至8中任一项所述的均衡器控制器，其中，所述调整单元被配置成给每个音频类型分配均衡级别和/或均衡模式和/或谱平衡预置。
14.根据权利要求13所述的均衡器控制器，其中，所述音频分类器包括音频内容分类器，用于将所述音频信号分类到短期内容类型中，所述短期内容类型包括短期音乐、语音、背景声音和噪声中的至少一个。
15.根据权利要求13所述的均衡器控制器，其中，所述音频分类器包括音频上下文分类器，用于将所述音频信号分类到长期上下文类型中，所述长期上下文类型包括电影类媒体、长期音乐、VoIP和游戏中的至少一个。
16.—种均衡器控制方法,包括: 实时地识别音频信号的音频类型；以及基于所识别的所述音频类型的置信度值来以连续的方式调整均衡器。
17.根据权利要求16所述的均衡器控制方法，其中，将所述音频信号分类到具有相应置信度值的多个音频类型中，并且所述调整的操作被配置成通过基于所述多个音频类型的重要性对所述多个音频类型的置信度值进行加权来考虑所述多个音频类型中的至少一些音频类型。
18.根据权利要求16所述的均衡器控制方法，其中，将所述音频信号分类到具有相应置信度值的多个音频类型中，并且所述调整的操作被配置成通过基于所述置信度值对所述多个音频类型的影响进行加权来考虑所述多个音频类型中的至少一些音频类型。
19.根据权利要求16所述的均衡器控制方法，还包括，针对由所述调整的操作所调整的所述均衡器的参数，基于过去的参数值来对由所述调整的操作当次确定的参数值进行平滑。
20.根据权利要求19所述的均衡器控制方法，其中，所述平滑的操作被配置成通过计算由所述调整的操作当次确定的参数值与上一次的经平滑的参数值的加权和，来确定当次经平滑的参数值。
21.根据权利要求20所述的均衡器控制方法，其中，用于计算所述加权和的权重基于所述音频信号的所述音频类型而自适应地变化。
22.根据权利要求20所述的均衡器控制方法，其中，用于计算所述加权和的权重基于不同的从一个音频类型到另一个音频类型的转换对而自适应地变化。
23.根据权利要求20所述的均衡器控制方法，其中，用于计算所述加权和的权重基于由所述调整的操作确定的所述参数值的增大趋势或者减小趋势而自适应地变化。
24.根据权利要求16至23中任一项所述的均衡器控制方法，其中，识别所述音频类型的操作包括识别所述音频信号的内容类型；并且所述调整的操作被配置成使均衡级别与短期音乐的置信度值正相关，并且/或者使所述均衡级别与语音的置信度值负相关。
25.根据权利要求16至23中任一项所述的均衡器控制方法，其中，识别所述音频类型的操作包括识别所述音频信号的上下文类型；并且所述调整的操作被配置成使均衡级别与长期音乐的置信度值正相关，并且/或者使所述均衡级别与电影类媒体和/或游戏的置信度值负相关。
26.根据权利要求16至23中任一项所述的均衡器控制方法，其中，识别所述音频类型的操作包括识别所述音频信号的内容类型；并且所述调整的操作被配置成使均衡级别与不具有主导源的短期音乐的置信度值正相关，并且/或者使所述均衡级别与具有主导源的短期音乐的置信度负相关。
27.根据权利要求16至23中任一项所述的均衡器控制方法，其中，识别所述音频类型的操作包括识别所述音频信号的内容类型；并且所述调整的操作被配置成使均衡级别与背景声音的置信度值正相关，并且/或者使所述均衡级别与噪声的置信度值负相关。
28.根据权利要求16至23中任一项所述的均衡器控制方法，其中，所述调整的操作被配置成给每个音频类型分配均衡级别和/或均衡模式和/或谱平衡预置。
29.根据权利要求28所述的均衡器控制方法，其中，识别所述音频类型的操作将所述音频信号分类到短期内容类型中，所述短期内容类型包括短期音乐、语音、背景声音和噪声中的至少一个。
30.根据权利要求28所述的均衡器控制方法，其中，识别所述音频类型的操作将所述音频内容分类到长期上下文类型中，所述长期上下文类型包括电影类媒体、长期音乐、VoIP和游戏中的至少一个。
【文档编号】G10L15/08GK104079247SQ201310100401
【公开日】2014年10月1日申请日期:2013年3月26日优先权日:2013年3月26日
【发明者】芦烈, 阿兰·西费尔特, 王珺, 胡明清申请人:杜比实验室特许公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：芦烈;阿兰·西费尔特;王珺;胡明清
技术所有人：杜比实验室特许公司
我是此专利的发明人

上一篇：基于隐马尔科夫模型的家用服务机器人语音识别系统的制作方法
上一篇：用于音频分类和音频处理的设备和方法