音频分类方法和系统的制作方法

文档序号：2835888阅读：462来源：国知局

专利名称：音频分类方法和系统的制作方法
技术领域：
本发明涉及音频信号处理。更具体地，本发明的实施例涉及音频分类方法和系统。
背景技术：
在许多应用中，需要对音频信号进行识别和分类。一种这样的分类是把音频信号自动分类为话音、音乐或静音。通常，音频分类涉及从音频信号中提取音频特征以及用所训练的分类器根据音频特征进行分类。已经提出音频分类的方法来自动估计输入音频信号的类型，使得能够避免对音频信号进行人工标记。这能够被用于大量多媒体数据的高效分类和浏览。音频分类也被广泛地用于支持其它音频信号处理部件。例如，话音-噪声音频分类器对于语音通信系统中使用的噪声抑制系统有大的益处。作为另ー个例子，在无线通信系统设备中，通过音频分类，音频信号处理能够根据信号是话音、音乐还是静音来对信号实现不同的编码和解码算法。本章节中描述的方案是能够采取的方案，但不一定是先前已经构思或采取的方案。因此，除非另外指出，不应仅因为被包含在本章节中就假定本章节描述的任何方案适合作为现有技木。类似地，根据本章节而关于ー个或更多个方案发现的问题不应被假定为任何现有技术中已经认识到的问题，除非另外指出。

发明内容
根据本发明一个实施例，提供ー种音频分类系统。该系统包含能够在需要不同资源的至少两个模式下工作的至少ー个装置。该系统也包含复杂度控制器，其确定组合并且指示该至少ー个装置根据该组合来工作。对于该至少ー个装置中的每个，该组合指定该装置的模式之一，而该组合的资源要求不超过最大可用资源。该至少ー个装置可以包括预处理器、特征提取器、分类装置和后处理器的至少之一，预处理器使音频信号适配于音频分类系统，特征提取器从音频信号的分段中提取音频特征，分类装置根据提取的音频特征用训练的模型对分段进行分类，后处理器对分段的音频类型进行平滑。根据本发明一个实施例，提供ー种音频分类方法。该方法包含能够在需要不同资源的至少两个模式下执行的至少ー个步骤。确定ー个组合。该至少一个步骤被指示根据该组合来运行。对于该至少ー个步骤中的每个，该组合指定该步骤的模式之一，而该组合的资源要求不超过最大可用资源。该至少一个步骤包括预处理步骤、特征提取步骤、分类步骤和后处理步骤的至少之一，预处理步骤使音频信号适配于音频分类，特征提取步骤从音频信号的分段中提取音频特征，分类步骤根据提取的音频特征用训练的模型对分段进行分类，后处理步骤对分段的音频类型进行平滑。根据本发明一个实施例，提供ー种音频分类系统。系统包含用于从音频信号的分段中提取音频特征的特征提取器。特征提取器包含系数计算器和统计数据计算器。系数计算器根据维纳-辛钦定理计算音频信号中长于ー个阈值的分段的长期自相关系数，以作为音频特征。统计数据计算器计算有关长期自相关系数的、用于音频分类的至少ー项统计数据，以作为音频特征。系统也包含分类装置，用于通过训练的模型，基于所提取的音频特征来对分段进行分类。根据本发明一个实施例，提供ー种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征，用训练的模型对分段进行分类。为提取音频特征，根据维纳-辛钦定理计算音频信号中长于ー个阈值的分段的长期自相关系数，以作为音频特征。计算有关长期自相关系数的、用于音频分类的至少ー项统计数据，以作为音频特征。根据本发明一个实施例，提供ー种音频分类系统。系统包含特征提取器和分类装置，特征提取器用于从音频信号的分段中提取音频特征，分类装置用于通过训练的模型，基于所提取的音频特征来对分段进行分类。特征提取器包含用于对分段进行滤波的低通滤波器，在该低通滤波器中允许低频敲击分量通过。特征提取器也包含计算器，其用于通过对每个分段应用过零率(ZCR, zero crossing rate)来提取低音指示特征，以作为音频特征。根据本发明一个实施例，提供ー种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征，用训练的模型对分段进行分类。为提取音频特征，通过低通滤波器对分段进行滤波，在该低通滤波器中允许低频敲击分量通过。通过对每个分段应用过零率(ZCR)来提取低音指示特征，以作为音频特征。根据本发明一个实施例，提供ー种音频分类系统。系统包含特征提取器和分类装置，特征提取器用于从音频信号的分段中提取音频特征，分类装置用于通过训练的模型，基于所提取的音频特征来对分段进行分类。特征提取器包含残余计算器和统计数据计算器。对于每个分段，残余计算器通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少ー级、ニ级和三级的频率分解残余。对于每个分段，统计数据计算器关于该分段的帧的相同级别的残余计算至少ー项统计数据。所计算的残余和统计数据被包含在音频特征中。根据本发明一个实施例，提供ー种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征，用训练的模型对分段进行分类。为提取音频特征，对于每个分段，通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少ー级、ニ级和三级的频率分解残余。对于每个分段，关于该分段的帧的相同级别的残余计算至少ー项统计数据。所计算的残余和统计数据被包含在音频特征中。根据本发明一个实施例，提供ー种音频分类系统。系统包含特征提取器和分类装置，特征提取器用于从音频信号的分段中提取音频特征，分类装置用于通过训练的模型，基于所提取的音频特征来对分段进行分类。特征提取器包含比值计算器，其计算每个分段的谱区间高能量比以作为音频特征。谱区间高能量比是分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。根据本发明一个实施例，提供ー种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征，用训练的模型对分段进行分类。为提取音频特征，针对每个分段计算谱区间高能量比，以作为音频特征。谱区间高能量比是分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。根据本发明一个实施例，提供ー种音频分类系统。系统包含特征提取器和分类装置，特征提取器用于从音频信号的分段中提取音频特征，分类装置用于通过训练的模型，基于所提取的音频特征来对分段进行分类。分类装置包含具有不同优先级的至少两个分类器级段的链，这些分类器级段按照优先级的降序排列。每个分类器级段包含分类器，分类器根据提取自每个分段的相应音频特征生成当前类别估计。当前类别估计包含估计的音频类型和相应置信度。每个分类器级段也包含决策单元。如果分类器级段位于链的开始处，则决策単元确定当前置信度是否高于与该分类器级段关联的置信度阈值。如果确定当前置信度高于置信度阈值，则决策単元通过输出当前类别估计来终止音频分类。否则，决策単元把当前类别估计提供给链中的所有后面的分类器级段。如果分类器级段位于链的中间，则决策単元确定当前置信度是否高于置信度阈值，或确定当前类别估计和所有先前的类别估计是否能够根据第一判决准则决定ー个音频类型。如果确定当前置信度高于置信度阈值，或类别估计能够决定音频类型，则决策単元通过输出当前类别估计，或输出所決定的音频类型和相应置信度来終止音频分类。否则，决策単元把当前类别估计提供给链中的所有后面的分类器级段。如果分类器级段位于链的结束处，则决策単元通过输出当前类别估计来终止音频分类。或者，决策单元确定当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定ー个音频类型。如果确定类别估计能够决定音频类型，则决策単元通过输出所決定的音频类型和相应置信度来終止音频分类。否则，决策単元通过输出当前类别估计来终止音频分类。根据本发明一个实施例，提供ー种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征，用训练的模型对分段进行分类。分类包含具有不同优先级的至少两个子步骤的链，这些子步骤按照优先级的降序排列。每个子步骤涉及根据提取自每个分段的相应音频特征生成当前类别估计。当前类别估计包含估计的音频类型和相应置信度。如果子步骤位于链的开始处，则子步骤涉及确定当前置信度是否高于与该子步骤关联的置信度阈值。如果确定当前置信度高于置信度阈值，则子步骤涉及通过输出当前类别估计来终止音频分类。否则，子步骤涉及把当前类别估计提供给链中的所有后面的子步骤。如果子步骤位于链的中间，则子步骤涉及确定当前置信度是否高于置信度阈值，或确定当前类别估计和所有先前的类别估计是否能够根据第一判决准则决定ー个音频类型。如果确定当前置信度高于置信度阈值，或类别估计能够决定音频类型，则子步骤涉及通过输出当前类别估计，或输出所決定的音频类型和相应置信度来終止音频分类。否则，子步骤涉及把当前类别估计提供给链中的所有后面的子步骤。如果子步骤位于链的结束处，则子步骤涉及通过输出当前类别估计来终止音频分类。或者，子步骤涉及确定当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定ー个音频类型。如果确定类别估计能够决定音频类型，则子步骤涉及通过输出所決定的音频类型和相应置信度来終止音频分类。否则，子步骤涉及通过输出当前类别估计来终止音频分类。根据本发明一个实施例，提供ー种音频分类系统。系统包含特征提取器、分类装置和后处理器，特征提取器用于从音频信号的分段中提取音频特征，分类装置用于通过训练的模型，基于所提取的音频特征来对分段进行分类，后处理器用于对分段的音频类型进行平滑。后处理器包含检测器和平滑器，检测器在音频信号中搜索两个重复部分，平滑器通过把两个重复部分之间的分段当作非话音类型来平滑分类結果。根据本发明一个实施例，提供ー种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征，用训练的模型对分段进行分类。通过下述操作对分段的音频类型进行平滑在音频信号中搜索两个重复部分，以及通过把两个重复部分之间的分段当作非话音类型来平滑分类結果。根据本发明一个实施例，提供一种在其上记录有计算机程序指令的计算机可读介质。当被处理器执行时，这些指令使得处理器能够执行ー种音频分类方法。该方法包含能够在需要不同资源的至少两个模式下执行的至少ー个步骤。确定ー个组合。该至少ー个步骤被指示根据该组合来运行。对于该至少ー个步骤中的每个，该组合指定该步骤的模式之一，而该组合的资源要求不超过最大可用资源。该至少一个步骤包括预处理步骤、特征提取步骤、分类步骤和后处理步骤的至少之一，预处理步骤使音频信号适配于音频分类，特征提取步骤从音频信号的分段中提取音频特征，分类步骤根据提取的音频特征用训练的模型对分段进行分类，后处理步骤对分段的音频类型进行平滑。下面參考附图详细描述本发明的进ー步特性和优点，以及本发明各个实施例的结构和操作。应当注意，本发明不限于这里描述的具体实施例。在这里出现这样的实施例只是出于说明的目的。相关领域技术人员根据这里包含的指导会想到其它实施例。

在附图中通过例子图解本发明，但这些例子不对本发明产生限制，图中用类似的附图标记表示类似的元件，其中图I是图示根据本发明一个实施例的示例音频分类系统的框图；图2是图示根据本发明一个实施例的示例音频分类方法的流程图；图3是图示示例高通滤波器的频率响应的曲线图，该频率响应等价于由等式(I)表示的时域预加重，其中β = O. 98 ；图4Α是图示敲击信号及其自相关系数的曲线图；图4Β是图示语音信号及其自相关系数的曲线图；图5是图示根据本发明一个实施例的示例分类装置的框图；图6是图示根据本发明一个实施例的分类步骤的示例过程的流程图；图7是图示根据本发明一个实施例的示例音频分类系统的框图；图8是图示根据本发明一个实施例的示例音频分类方法的流程图；图9是图示根据本发明一个实施例的示例音频分类系统的框图；图10是图示根据本发明一个实施例的示例音频分类方法的流程图；图11是图示根据本发明一个实施例的示例音频分类系统的框图；图12是图示根据本发明一个实施例的示例音频分类方法的流程图；图13是图示根据本发明一个实施例的示例音频分类系统的框图；图14是图示根据本发明一个实施例的示例音频分类方法的流程图；图15是图示根据本发明一个实施例的示例音频分类系统的框图；图16是图示根据本发明一个实施例的示例音频分类方法的流程图；图17是图示根据本发明一个实施例的示例音频分类系统的框图；图18是图示根据本发明一个实施例的示例音频分类方法的流程图；图19是图示根据本发明一个实施例的示例音频分类系统的框图；图20是图示根据本发明一个实施例的示例音频分类方法的流程图；而
图21是图示用于实现本发明的实施例的示例性系统的框图。
具体实施例方式下面參考附图描述本发明实施例。应当注意，出于清楚的目的，在附图和描述中省略了有关所属技术领域的技术人员知道但是对于本发明的理解不是必要的部分和过程的表示和说明。本领域的技术人员可以理解，本发明的各方面可以被实施为系统(例如，在线数字媒体商店、云计算服务、流媒体服务、电信网络等等)、装置(例如，蜂窝电话、便携媒体播放器、个人计算机、电视机顶盒或数字视频录像机、或任何媒体播放器)、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即，可以是完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合软件部分与硬件部分的实施例，本文可以一般称为"电路"、"模块"或"系统"。此外，本发明的各个方面可以采取体现为ー或多个计算机可读介质的计算机程序产品的形式，该计算机可读介质上面体现有计算机可读程序代码。可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是一但不限干--电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下有ー个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPR0M或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式，包括但不限于电磁的、光的或其任何适当的组合。计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。体现在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。用于执行本发明各方面的操作的计算机程序代码可以以ー种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言，诸如"C"程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为ー个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户的计算机，或者，可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。
以下參照按照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出ー种机器，使得通过计算机或其它可编程数据处理装置执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中，使得存储在计算机可读介质中的指令产生ー个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。也可以把计算机程序指令加载到计算机或其它可编程数据处理设备上，导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图中的方框中规定的功能/操作的过程。复杂度控制图1是图示根据本发明一个实施例的示例音频分类系统100的框图。如图1所示，音频分类系统100包含复杂度控制器102。为对音频信号进行音频分类，涉及到若干过程，例如特征提取和分类。相应地，音频分类系统100可以包含用于执行这些过程的相应装置(共同由附图标记101表示)。ー些装置(均称作多模式装置)可以在需要不同资源的不同模式下执行相应过程。图1中图示了这样的多模式装置之一，即装置 111。执行过程能够消耗资源，例如内存、I/O、电力、中央处理单元(CPU)等等。执行过程的相同功能但是需要不同资源的不同算法和配置提供了这样的可能性装置通过采用这些不同算法和配置的组合(例如，模式)之一来进行操作。每个模式可以决定装置的具体资源要求(消耗)。例如，分类过程可以把音频特征输入到分类器以获得分类結果。为执行这个功能，处理较多音频特征以进行音频分类的分类器所消耗的资源会多于处理较少音频特征的另ー个分类器，如果两个分类器基于相同分类算法的话。这是关于不同配置的例子。此外，为执行这个功能，基于多个分类算法的组合的分类器所消耗的资源会多于仅基于这些算法之一的另ー个分类器，如果两个分类器处理相同音频特征的话。这是关于不同算法的例子。通过这种方式，一些多模式装置(例如，装置111)可以被配置成能够在需要不同资源的不同模式下工作。任何这样的多模式装置可以具有超过两个的模式，这取决于用于执行装置的功能的可供选择的算法和配置。在执行音频分类时，每个多模式装置可工作于其模式之一。这个模式被称作活跃模式。复杂度控制器102可以确定多模式装置的活跃模式的组合，并且指示多模式装置根据该组合，即在该组合中定义的相应活跃模式下工作。可以有各种可能的组合。复杂度控制器102可以从中选择资源要求不超过最大可用资源的组合。最大可用资源可以是固定的，或者可通过收集有关音频分类系统100的可用资源的信息来估计，或者可由用户来设置。可以在安装音频分类系统100或启动音频分类系统100时、按照规则时间间隔、在启动音频分类任务吋、响应于外部命令、或甚至是随机地确定最大可用资源。在一个例子中，可以为姆个多模式装置建立简表。简表包含表不相应模式的条目。每个条目可以至少包含用于标识相应模式的模式标识和有关该模式下的估计资源要求的信息。复杂度控制器102可以根据与每个可能组合中定义的活跃模式相对应的条目中的估计资源要求来计算总资源要求，并且选择总资源要求在最大资源要求以下的ー个组合。取决于具体实现，多模式装置可以包含预处理器、特征提取器、分类装置和后处理器的至少之一。预处理器可以使音频信号适配于音频分类系统100。音频信号的采样速率和量化精度可能不同于音频分类系统100要求的采样速率和量化精度。在这样的情况下，预处理器可以调整音频信号的采样速率和量化精度以符合音频分类系统100的要求。另外或可选地，预处理器可以预加重音频信号以加强音频信号的具体频率范围(例如，高频范围)。在音频分类系统100中，预处理器可以是可选的，即使它不是多模式的。为识别音频信号的分段的音频类型，特征提取器可以从分段中提取音频特征。分类装置中可以有ー个或更多个活跃分类器。每个分类器需要若干音频特征以用于对分段执行其分类操作。特征提取器根据分类器的要求提取音频特征。取决于分类器的要求，ー些音频特征可以直接提取自分段，而ー些音频特征可以是提取自分段中的帧的音频特征(均称作帧级特征)，或帧级特征的派生特征(均称作窗ロ级特征)。根据提取自分段的音频特征，分类装置用训练的模型对分段进行分类(S卩，识别分段的音频类型)。在训练的模型中用决策形成模式来组织ー个或更多个活跃分类器。通过对音频信号的分段执行音频分类，能够生成音频类型的序列。后处理器可以平滑序列的音频类型。通过平滑，可以消除序列中音频类型的不现实的突然改变。例如，大量连续"音乐"音频类型中间的单个"话音"音频类型可能是错误估计，并且能够由后处理器平滑(消除)棹。在音频分类系统100中，后处理器可以是可选的，即使它不是多模式的。由于能够通过选择适当的活跃模式组合来调整音频分类系统100的资源要求，音频分类系统100可适应于运行环境随时间的变化，或从ー个平台迁移到另ー个平台(例如，从个人计算机迁移到便携终端)而不需显著修改，因而提高了可用性、可伸縮性和可移植性中至少之一。图2是图示根据本发明一个实施例的示例音频分类方法200的流程图。为对音频信号进行音频分类，涉及到若干过程，例如特征提取和分类。相应地，音频分类方法200可以包含用于执行这些过程的相应步骤(共同由附图标记207表示)。一些步骤(均称作多模式步骤)可以在需要不同资源的不同模式下执行相应过程。如图2所示，音频分类方法200从步骤201开始。在步骤203，确定多模式步骤的活跃模式的组合。在步骤205，指示多模式步骤根据该组合来工作，即在该组合中定义的相应活跃模式下工作。在步骤207，执行相应过程以进行音频分类，其中在组合中定义的活跃模式下执行多模式步骤。在步骤209，音频分类方法200结束。取决于具体实现，多模式步骤可以包含预处理步骤、特征提取步骤、分类步骤和后处理步骤的至少之一，预处理步骤使音频信号适配于音频分类，特征提取步骤从音频信号的分段中提取音频特征，分类步骤根据提取的音频特征用训练的模型对分段进行分类，后处理步骤对分段的音频类型进行平滑。预处理步骤和后处理步骤可以是可选的，即使它们不是多模式的。预处理在音频分类系统100和音频分类方法200的进ー步的实施例中，多模式装置和步骤分别包含预处理器和预处理步骤。预处理器的模式和预处理步骤的模式包含一个模式MP1和另ー个模式MP2。在模式MP1下，在进行滤波的情况下转换音频信号的采样速率(需要更多资源)。在模式MP2下，在不进行滤波的情况下转换音频信号的采样速率(需要更少资源)。在为音频分类而提取的音频特征中，第一类型的音频特征不适合于预加重，也就是说，如果音频信号被预加重，则该类型的音频特征会降低分类性能，第二类型的音频特征适合于预加重，也就是说，如果音频信号被预加重，则该类型的音频特征能够提高分类性倉^:。作为预加重的ー个例子，可以在特征提取的处理之前对音频信号应用时域预加重。这种预加重能够表示成s' (n) = s (η) - β · s (n-1) (I)其中n是时间索引，s(n)和W (η)分别是预加重前后的音频信号，β是预加重系数，通常设置为接近I的值，例如O. 98。另外或可选地，预处理器的模式和预处理步骤的模式包含一个模式MP3和另ー个模式μρ4。在模式MP3下，音频信号S(t)直接被预加重，并且把音频信号S(t)和预加重的音频信号s, (t)转换到频域，以获得转换音频信号S(CO)和预加重的转换音频信号S' (ω)。在模式MP4下，音频信号S(t)被转换到频域以获得转换音频信号S(co)，并且转换音频信号S(co)被预加重，例如通过使用具有与根据等式(I)导出的频率响应相同的频率响应的高通滤波器，以获得预加重的转换音频信号S' (ω)。图3是图示示例高通滤波器的频率响应的曲线图，该频率响应等价于由等式(I)表示的时域预加重，其中β =0.98。在这样的情况下，在提取音频特征的处理中，从没有预加重的转换音频信号S ( ω )中提取第一类型的音频特征，从经过预加重的转换音频信号S' (ω)中提取第二类型的音频特征。在模式MP4下，由于省略了ー个转换，因而需要更少的资源。在预处理器和预处理步骤具有适配和预加重的功能的情况下，模式MP1到MP4可以是独立模式。另外，可以有模式MP1和MP3、模式MP1和MP4、模式MP2和MP3、以及模式MP2和MP4的组合模式。在这样的情况下，预处理器的模式和预处理步骤的模式可以包含模式MP1到MP4和组合模式中的至少两个。在一个例子中，第一类型可以包含子带能量分布(sub-band energydistribution)、频率分解残余(residual of frequency decomposition)、过零率(ZCR)、谱区间高能量比(spectrum-bin high energy ratio)、低音指不(bass indicator)和长期自相关特征(long-term auto-correlation feature)中的至少之一，第二类型可以包含谱波动(谱通量)和梅尔频率倒谱系数(MFCC)中的至少之一。特征提取长期自相关系数
在音频分类系统100的一个进ー步的实施例中，多模式装置包含特征提取器。特征提取器可以根据维纳-辛钦定理(Wiener-Khinchin theorem)计算音频信号中长于ー个阈值的分段的长期自相关系数。特征提取器也可以计算有关长期自相关系数的、用于音频分类的至少ー项统计数据。在音频分类方法200的一个进ー步的实施例中，多模式步骤包含特征提取步骤。特征提取步骤可以包含根据维纳-辛钦定理计算音频信号中长于ー个阈值的分段的长期自相关系数。特征提取步骤也可以包含计算有关长期自相关系数的、用于音频分类的至少一项统计数据。某些敲击声音，尤其是具有相对恒定的速度的敲击声音，具有独特的特性，即它们是高度周期性的，尤其是当在敲击开始或节拍之间观察吋。通过具有相对长的长度，例如2秒的长度的分段的长期自相关系数，能够利用这种特性。根据定义，长期自相关系数可在敲击开始或节拍后的延迟点上表现出显著的峰。在话音信号中不能找到这种特性，因为话音信号自身几乎不重复。如图4A所示，与图4B图示的话音信号的长期自相关系数相比，在敲击信号的长期自相关系数中能够找到周期性的峰。可以设置上述阈值以保证在长期自相关系数中能够表现出这种特性差异。计算统计数据以捕获能够将敲击信号与话音信号区分开的长期自相关系数的特性。在这样的情况下，特征提取器的模式可以包含一个模式MF1和另ー个模式MF2。在模式MF1下，直接根据分段计算长期自相关系数。在模式MF2下，分段被进行抽减(decimated)，并且根据经抽减的分段计算长期自相关系数。由于抽減，能够降低计算成本，因而降低资源要求。在一个例子中，分段具有数目N个样本s (η)，η = 1，2，·N。在模式MF1下，根据维纳-辛钦定理计算长期根据相关系数。根据维纳-辛钦定理，通过2Ν点快速富立叶变换(FFT)导出频率系数 S (k) = FFT (s (η)，2Ν) (2)其中FFT (X，2Ν)表示信号χ的2Ν点FFT分析，于是长期自相关系数被导出为A ( τ ) = IFFT (S (k) · S* (k)) (3)其中Α(τ)是长期自相关系数的序列，S * (k)表示S (k)的复共轭，IFFT()表示逆FFT。在模式MF2下，在计算长期自相关系数之前，分段s (η)被抽减(例如，按照系数D抽减，其中D > 10)，而其它计算与模式MF1中的相同。例如，如果ー个分段具有32000个样本，则其应被填零为2X32768个样本以便进行高效FFT，而模式MF1下的处理需要大约I. 7 X IO6次乘法，包括I)用于 FFT 和 IFFT 的 2X2X32768Xlog(2X32768)次乘法；和2)用于频率系数和共轭系数之间的乘法的4X2X32768次乘法。如果按照系数16把分段抽减为2048个样本，则复杂度被显著降低到大约8. 4X IO4次乘法。在这样的情况下，复杂度被降低到初始复杂度的大约5%。在一个例子中，统计数据可以包含以下项中的至少之ーI)均值所有长期自相关系数的平均值；2)方差所有长期自相关系数的标准差；
3)High_AVerage (高平均值)满足以下条件至少之ー的长期自相关系数的平均值a)大于ー个阈值；以及b)在预定比例的长期自相关系数内，该预定比例的长期自相关系数不低于所有其它长期自相关系数。例如，如果所有长期自相关系数被表示成按照降序排列的C1, C2,,Cn，则该预定比例的长期自相关系数包含C1, C2, , Cm，其中m/n等于该预定比例；4)High_Value_Percentage (高值百分比):High_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值；5)LoW_AVerage (低平均值)满足以下条件至少之ー的长期自相关系数的平均值c)小于ー个阈值；以及d)在预定比例的长期自相关系数内，该预定比例的长期自相关系数不高于所有其它长期自相关系数。例如，如果所有长期自相关系数被表示成按照升序排列的C1, C2,,Cn，则该预定比例的长期自相关系数包含C1, C2, , Cm，其中m/n等于该预定比例；6) Low_Value_Percentage (低值百分比):Low_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值；和7)对比度High_Average 和 Low_Average 之间的比值。作为ー个进ー步的改进，可以根据零时滞值对上述导出的长期自相关系数进行归一化，以消除绝对能量的影响，即零时滞的长期自相关系数均为1. O。此外，在计算统计数据时不考虑零时滞值和邻近值(例如，时滞< 10个样本)，因为这些值不代表信号的任何自重复。低音指示在音频分类系统100和音频分类方法200的进ー步的实施例中，通过低通滤波器对每个分段进行滤波，在该低通滤波器中允许低频敲击分量通过。为音频分类而提取的音频特征包含通过对经过滤波的分段应用过零率(ZCR)而获得的低音指示特征。ZCR能够在话音的浊音和清音部分之间有明显变化。能够利用此特性来有效区别话音和其它信号。然而，为对类话音信号(具有类似话音的信号特征的非话音信号，包含具有恒定速度的敲击声音，以及说唱音乐)进行分类，尤其是对敲击声音进行分类，传统ZCR是低效的，因为敲击声音表现出的变化特性与话音信号中发现的变化特性相似。这是由于在许多敲击片段(从敲击声音中采样的低频敲击分量)中发现的低音响弦击鼓节拍结构(bass-snare drumming measure structure)可产生的ZCR变化与话音信号的池音-清音结构所产生的ZCR变化相似。在本发明实施例中，引入低音指示特征以作为低音声音的存在的指示。低通滤波器可具有例如80Hz的低截止频率，使得除低频敲击分量(例如，低音鼓)之外，信号中的任何其他分量(包含话音)均会被显著衰減。结果，这种低音指示能够显示低频敲击声音和话音信号之间的不同特性。这能够导致类话音信号和话音信号之间的有效鉴别，因为许多类话音信号包括大量低音分量，例如说唱音乐。频率分解残余在音频分类系统100的一个进ー步的实施例中，多模式装置可以包含特征提取器。对于每个分段，特征提取器可以通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少ー级、ニ级和三级的频率分解残余。对于每个分段，特征提取器也可以关于该分段的帧的相同级别的残余计算至少ー项统计数据。在音频分类方法200的一个进ー步的实施例中，多模式步骤可以包含特征提取步骤。特征提取步骤可以包含，对于每个分段，通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少ー级、ニ级和三级的频率分解残余。特征提取步骤也可以包含，对于每个分段，关于该分段的帧的相同级别的残余计算至少ー项统计数据。所计算的残余和统计数据被包含在音频特征中以用于相应分段的音频分类。通过频率分解，对于某些类型的敲击信号(例如，具有恒定速度的低音击鼓声)，·与话音信号相比有较少的频率分量能够近似这样的敲击声音。原因是这些敲击信号本质上比话音信号和其它类型的音乐信号具有更少的复杂频率成分。因此，通过移除不同数目的显著频率分量(例如，具有最高能量的分量)，当与话音和其它音乐信号的特性相比时，这样的敲击声音的残余(剰余能量)能够表现出显著不同的特性，因而提高分类性能。特征提取器和特征提取步骤的模式可以包含一个模式MF3和另ー个模式MF4。在模式MF3下，第一能量是谱的H1个最高频率区间的总能量，第二能量是谱的H2个最高频率区间的总能量，而第三能量是谱的H3个最高频率区间的总能量，其中H1 < H2 < H3。在模式MF4下，第一能量是谱的一个或更多个峰区域的总能量，第二能量是谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含第一能量所涉及的峰区域，而第三能量是谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含第二能量所涉及的峰区域。峰区域可以是全局的，也可以是局部的。在ー个示例实现中，令S (k)是具有功率谱能量E的一个分段的谱系数序列，即E = Σ刚2
fc=l其中K是频率区间的总数。在模式MF3下，通过从S (k)中移除H1个最高频率区间之后的剰余能量来估计ー级残余Rp这能够表示成沢I=五-ΣΙ*^(,)Ι
Y其中Y 一 L1,L2…是H1个最闻频率区间的索引。类似地，令R2和R3分别是通过从S(co)中移除H2和H3个最高频率区间而获得的ニ级残余和三级残余，其中H1 < H2 < Η3。对于敲击、话音和音乐信号可以发现(理想情况下)下列事实敲击声音E>> R1 ^ R2 ^ R3话音E> R1 > R2 ^ R3音乐E> R1 > R2 > R3。在模式MF4下，通过移除谱的最高峰，可以把ー级残余R1估计为L+WR1= E- ΣΙ則2
Y=L-W其中L是最高能量频率区间的索引，W是限定峰区域的宽度的正整数，即峰区域具有2W+1个频率区间。可选地，代替如上所述定位全局峰的方式，也可以搜索和移除局部峰区域以进行残余估计。在这样的情况下，在谱的一部分中捜索L以作为最高能量频率区间的索引，而其它处理保持相同。与ー级残余类似，通过从谱中移除更多的峰可以估计后续级别的残余。在一个例子中，统计数据可以包含以下项中的至少之ー I)相同分段的帧的相同级别的残余的均值；2)方差相同分段的帧的相同级别的残余的标准差；3) Residual_High_Average (残余高平均值)相同分段的巾贞的相同级别的、满足下列条件中至少之ー的残余的平均值a)大于ー个阈值；以及b)在预定比例的残余内，该预定比例的残余不低于所有其它残余。例如，如果所有残余被表示成按照降序排列的巧，r2,, rn,则该预定比例的残余包含rp r2, , rm,其中m/n等于该预定比例；4)Residual_Low_Average (残余低平均值)相同分段的巾贞的相同级别的、满足下列条件中至少之ー的残余的平均值c)小于ー个阈值；以及d)在预定比例的残余内，该预定比例的残余不高于所有其它残余。例如，如果所有残余被表示成按照升序排列的巧，r2,, rn,则该预定比例的残余包含rp r2, , rm,其中m/n等于该预定比例；以及5) Residual_Contrast (残余对比度)Residual_High_Average 和 Residual_Low_Average之间的比值。谱区间高能量比在音频分类系统100和音频分类方法200的进ー步的实施例中，被提取用于对每个分段进行音频分类的音频特征包含谱区间高能量比。谱区间高能量比是分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。在复杂度严格受限的某些情况下，能够用称作谱区间高能量比的特征来替代上述残余分析。谱区间高能量比特征被用来近似频率分解残余的性能。可以确定该阈值，使得其性能近似频率分解残余的性能。在一个例子中，该阈值可以被计算为下列之一I)分段的谱的平均能量，或该分段周围的分段范围的谱的平均能量；2)分段的谱的加权平均能量，或该分段周围的分段范围的谱的加权平均能量，其中该分段具有相对较高的权重，该范围中的每个其它分段具有相对较低的权重，或者其中相对较高能量的每个频率区间具有相对较高的权重，相对较低能量的每个频率区间具有相对较低的权重；3)平均能量或加权平均能量的换算值；以及4)平均能量或加权平均能量加上或减去标准差。
在音频分类系统100和音频分类方法200的进ー步的实施例中，音频特征可以包含自相关系数、低音指示、频率分解残余和谱区间高能量比中的至少两个。在音频特征包含长期自相关系数和频率分解残余的情况下，特征提取器的模式和特征提取步骤的模式可以包含作为独立模式的模式MF1到MF4。另外，可以有模式MF1和MF3、模式MF1和MP4、模式MP2和MF3、以及模式MP2和MP4的组合模式。在这样的情况下，特征提取器的模式和特征提取步骤的模式可以包含模式MP1到MF4和组合模式中的至少两个。分类装置图5是图示根据本发明一个实施例的示例分类装置500的框图。如图5所示，分类装置500包含具有不同优先级的分类器级段502-1，502-2，...，502-n的链。虽然图5中图示了超过两个的分类器级段，然而可以有两个分类器级段。在链中，按照优先级的降序排列分类器级段。在图5中，分类器级段502-1被排列在链的开始处，具有最高优先级，分类器级段502-2被排列在链中的次最高位置，具有次最高优先级，等等。分类器级段502-n被排列在链的结束处，具有最低优先级。分类装置500也包含级段控制器505。级段控制器505确定从具有最高优先级的分类器级段(例如，分类器级段502-1)开始的子链。子链的长度取决于组合中针对分类装置500的模式。分类装置500的模式的资源要求与子链的长度成比例。因此，分类装置500可以配有对应于不同子链，最长达到整个链的不同模式。所有分类器级段502-1,502-2，. . . ,502-n具有相同结构和功能，因此这里仅详细描述分类器级段502-1。分类器级段502-1包含分类器503-1和决策单元504_1。分类器503-1根据提取自分段的相应音频特征501生成当前类别估计。当前类别估计包含估计的音频类型和相应置信度。决策单元504-1可以具有与其分类器级段在子链中的位置相对应的不同功能。如果分类器级段位于子链的开始处(例如，分类器级段502-1)，则激活第一功能。在第一功能中，确定当前置信度是否高于与该分类器级段相关联的置信度阈值。如果确定当前置信度高于置信度阈值，则通过输出当前类别估计来终止音频分类。否则，当前类别估计被提供给子链中的所有后面的分类器级段(例如，分类器级段502-2，...，502-n)，并且子链中的下一分类器级段开始工作。如果分类器级段位于子链的中间(例如，分类器级段502-2)，则激活第二功能。在第二功能中，确定当前置信度是否高于置信度阈值，或确定当前类别估计和所有先前的类别估计(例如，分类器级段502-1)是否能够根据第一判决准则决定ー个音频类型。因为先前的类别估计可包含各种所決定的音频类型和相关的置信度，各种判决准则可以被用来根据先前的类别估计决定最可能的音频类型和相关的做出決定的类别估计。如果确定当前置信度高于置信度阈值，或类别估计能够决定音频类型，则通过输出当前类别估计，或输出所決定的音频类型和相应置信度来終止音频分类。否则，当前类别估计被提供给子链中的所有后面的分类器级段，并且子链中的下一分类器级段开始工作。如果分类器级段位于子链的结束处(例如，分类器级段502-n)，则激活第三功能。可以通过输出当前类别估计来终止音频分类，或者可以确定当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定ー个音频类型。因为先前的类别估计可包含各种所決定的音频类型和相关的置信度，各种判决准则可以被用来根据先前的类别估计决定最可能的音频类型和相关的做出決定的类别估计。在后一种情况下，如果确定类别估计能够决定音频类型，则通过输出所決定的音频类型和相应置信度来終止音频分类。否则，通过输出当前类别估计来终止音频分类。以这种方式，通过具有不同长度的决策路径，分类装置的资源要求变得可配置和可伸縮。此外，在估计出具有足够置信度的音频类型的情况下，能够防止遍历整个决策路径，从而提闻效率。子链中可以只包含ー个分类器级段。在这样的情况下，决策单元可以通过输出当前类别估计来终止音频分类。图6是图示根据本发明一个实施例的分类步骤的示例过程600的流程图。如图6所示，过程600包含具有不同优先级的子步骤S1, S2, . . . , Sn的链。虽然图6中图示了超过两个的子步骤，然而可以有两个子步骤。在链中，按照优先级的降序排列子步骤。在图6中，子步骤SI被排列在链的开始处，具有最高优先级，子步骤S2被排列在链中的次最高位置，具有次最高优先级，等等。子步骤Sn被排列在链的结束处，具有最低优先级。过程600从子步骤601开始。在子步骤603，确定从具有最高优先级的子步骤(例如，子步骤S1)开始的子链。子链的长度取决于组合中针对分类步骤的模式。分类步骤的模式的资源要求与子链的长度成比例。因此，分类步骤可以配有对应于不同子链，最长达到整个链的不同模式。子步骤S1, S2, , Sn中的进行分类和决策的所有操作具有相同功能，因此这里只详细描述子步-S1中的进行分类和决策的操作。在操作605-1中，利用分类器，根据从分段提取的相应音频特征产生当前类别估计。当前类别估计包含估计的音频类型和相应置信度。操作607-1可以具有与其子步骤在子链中的位置相对应的不同功能。如果子步骤位于子链的开始处(例如，子步骤S1),则激活第一功能。在第一功能中，确定当前置信度是否高于与该子步骤相关联的置信度阈值。如果确定当前置信度高于置信度阈值，则在操作609-1中确定终止音频分类，并且于是在子步骤613输出当前类别估计。否则，在操作609-1中确定不終止音频分类，于是在操作611-1中把当前类别估计提供给子链中的所有后面的子步骤(例如，子步骤S2，...，Sn)，并且子链中的下一子步骤开始执行。如果子步骤位于子链的中间(例如，子步骤S2),则激活第二功能。在第二功能中，确定当前置信度是否高于置信度阈值，或确定当前类别估计和所有先前的类别估计(例如，子步骤S1)是否能够根据第一判决准则决定ー个音频类型。如果确定当前置信度高于置信度阈值，或类别估计能够决定音频类型，则在操作609-2中确定终止音频分类，于是在子步骤613输出当前类别估计，或输出所決定的音频类型和相应置信度。否则，在操作609-2中确定不終止音频分类，于是在操作611-2中把当前类别估计提供给子链中的所有后面的子步骤，并且子链中的下一子步骤开始执行。如果子步骤位于子链的结束处(例如，子步骤Sn)，则激活第三功能。可以终止音频分类并且前进到子步骤613以输出当前类别估计，或者可以确定当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定ー个音频类型。在后一种情况下，如果确定类别估计能够决定ー个音频类型，由終止音频分类并且过程600前进到子步骤613以输出所決定的音频类型和相应置信度。否则，終止音频分类并且过程600前进到子步骤613以输出当前类别估计。在子步骤613，输出分类結果。接着过程600在子步骤615结束。子链中可以只包含ー个子步骤。在这样的情况下，子步骤可以通过输出当前类别估计来终止音频分类。在一个例子中，第一判决准则可以包含以下准则中的至少之ーI)如果当前置信度和对应于与当前音频类型相同的音频类型的先前置信度的平均置信度高于ー个阈值，则能够决定当前音频类型；2)如果当前置信度和对应于与当前音频类型相同的音频类型的先前置信度的加权平均置信度高于ー个阈值，则能够决定当前音频类型；以及3)如果决定与当前音频类型相同的音频类型的先前分类器级段的数目高于ー个阈值，则能够决定当前音频类型，并且输出的置信度是当前置信度，或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均，其中先前的置信度的权重高于后面的置信度的权重。在另ー个例子中，第二判决准则可以包含以下准则中的至少之ーI)在所有类别估计中，如果包含相同音频类型的类别估计的数目最高，则此相同音频类型能够被这些相应类别估计决定；2)在所有类别估计中，如果包含相同音频类型的类别估计的加权数目最高，则此相同音频类型能够被这些相应类别估计决定；以及3)在所有类别估计中，如果对应于相同音频类型的置信度的平均置信度最高，则此相同音频类型能够被相应类别估计决定，并且输出的置信度是当前置信度，或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均，其中先前的置信度的权重高于后面的置信度的权重。在分类装置500和分类步骤600的进ー步的实施例中，如果链中的分类器级段和子步骤之一所采用的分类算法在分类出各音频类型的至少之一方面具有较高的准确性，那么该分类器级段和子步骤被指定较高优先级。在分类装置500和分类步骤600的进ー步的实施例中，用于每个在后分类器级段和子步骤的分类器的每个训练样本至少包括标记有正确音频类型的音频样本，要由该分类器识别的各音频类型，以及有关对应于每个音频类型的置信度的统计数据，这些置信度是由所有先前的分类器级段根据该音频样本生成的。在分类装置500和分类步骤600的进ー步的实施例中，用于每个在后分类器级段和子步骤的分类器的训练样本至少包括标记有正确音频类型但是被所有先前分类器级段误分类或以低置信度分类的音频样本。后处理在音频分类系统100和音频分类方法200的进ー步的实施例中，通过音频分类针对音频信号中的每个分段生成类别估计，其中每个类别估计包含所估计的音频类型和相应
置信度。
多模式装置和多模式步骤分别包含后处理器和后处理步骤。后处理器和后处理步骤的模式包含一个模式MO1和另ー个模式MO2。在模式MO1下，确定窗ロ中对应于相同音频类型的置信度的最高和数或平均值，并且当前音频类型彼此相同音频类型所代替。在模式MO2下，采用具有相对短的长度的窗ロ，并且/或者确定所述窗口中对应于相同音频类型的置信度的最高数目，当前音频类型彼此相同音频类型所代替。在音频分类系统100和音频分类方法200的进ー步的实施例中，多模式装置和多模式步骤分别包含后处理器和后处理步骤。后处理器被配置成在音频信号中搜索两个重复部分，并且通过把两个重复部分之间的分段当作非话音类型来平滑分类结果。后处理步骤包括在音频信号中搜索两个重复部分，以及通过把两个重复部分之间的分段当作非话音类型来平滑分类結果。后处理器和后处理步骤的模式包含一个模式MO3和另ー个模式M04。在模式MO3下，采用相对长的捜索范围。在模式MO4下，采用相对短的捜索范围。在后处理包含基于置信度的平滑和根据重复模式的平滑的情况下，模式可以包含作为独立模式的模式MO1到M04。另外，可以有模式MO1和MO3、模式MO1和MO4、模式MO2和M03、以及模式MO2和MO4的组合模式。在这样的情况下，模式可以包含模式MO1到MO4和组合模式中的至少两个。图7是图示根据本发明一个实施例的示例音频分类系统700的框图。如图7所示，在音频分类系统700中，多模式装置包括特征提取器711，分类装置712和后处理器713。特征提取器711具有与在章节“频率分解残余”中描述的特征提取器相同的结构和功能，这里不再详细说明。分类装置712具有与结合图5描述的分类装置相同的结构和功能，这里不再详细说明。后处理器713被配置成在音频信号中搜索两个重复部分，并且通过把两个重复部分之间的分段当作非话音类型来平滑分类結果。后处理器的模式包含采用相对长的搜索范围的模式，和采用相对短的搜索范围的另ー个模式。音频分类系统700也包含复杂度控制器702。复杂度控制器702具有与复杂度控制器102相同的功能，这里不再详细说明。应当注意，因为特征提取器711、分类装置712和后处理器713是多模式装置，由复杂度控制器702确定的组合可以限定特征提取器711、分类装置712和后处理器713的相应活跃模式。图8是图示根据本发明一个实施例的示例音频分类方法800的流程图。如图8所示，音频分类方法800从步骤801开始。步骤803和步骤805分别与步骤203和步骤205具有相同功能，这里不再详细说明。多模式步骤包括特征提取步骤807、分类步骤809和后处理步骤811。特征提取步骤807具有与在章节“频率分解残余”中描述的特征提取步骤相同的功能，这里不再详细说明。分类步骤809具有与结合图6描述的分类过程相同的功能，这里不再详细说明。后处理步骤811包括在音频信号中搜索两个重复部分，以及通过把两个重复部分之间的分段当作非话音类型来平滑分类結果。后处理步骤的模式包含采用相对长的搜索范围的模式，和采用相对短的搜索范围的另ー个模式。应当注意，因为特征提取步骤807、分类步骤809和后处理步骤811是多模式步骤，在步骤803确定的组合可以限定特征提取步骤807、分类步骤809和后处理步骤811的相应活跃模式。其它实施例图9是图示根据本发明一个实施例的示例音频分类系统900的框图。
如图9所示，音频分类系统900包含从音频信号的分段中提取音频特征的特征提取器911，和基于所提取的音频特征，用训练的模型对分段进行分类的分类装置912。特征提取器911包含系数计算器921和统计数据计算器922。系数计算器921根据维纳-辛钦定理计算音频信号中长于ー个阈值的分段的长期自相关系数，以作为音频特征。统计数据计算器922计算有关长期自相关系数的、用于音频分类的至少ー项统计数据，以作为音频特征。图10是图示根据本发明一个实施例的示例音频分类方法1000的流程图。如图10所示，音频分类方法1000从步骤1001开始。执行步骤1003到1007以从
音频信号的分段中提取音频特征。在步骤1003，根据维纳-辛钦定理计算音频信号中长于ー个阈值的分段的长期自相关系数，以作为音频特征。在步骤1005，计算有关长期自相关系数的、用于音频分类的至少ー项统计数据，以作为音频特征。在步骤1007，确定是否存在尚未处理的另ー个分段。如果存在，则方法1000返回到步骤1003。如果没有，则方法1000前进到步骤1009。在步骤1009，基于所提取的音频特征，用训练的模型对分段进行分类。方法1000在步骤1011结束。某些敲击声音，尤其是具有相对恒定的速度的敲击声音，具有独特的特性，即它们是高度周期性的，尤其是当在敲击开始或节拍之间观察吋。通过具有相对长的长度，例如2秒的长度的分段的长期自相关系数，能够利用这种特性。根据定义，长期自相关系数可在敲击开始或节拍后的延迟点上表现出显著的峰。在话音信号中不能找到这种特性，因为话音信号自身几乎不重复。计算统计数据以捕获能够将敲击信号与话音信号区分开的长期自相关系数的特性。因此，根据系统900和方法1000，可以降低把敲击信号分类为话音信号的可能性。在一个例子中，统计数据可以包含以下项中的至少之ーI)均值所有长期自相关系数的平均值；2)方差所有长期自相关系数的标准差；3)High_AVerage (高平均值)满足以下条件至少之ー的长期自相关系数的平均值a)大于ー个阈值；以及b)在预定比例的长期自相关系数内，该预定比例的长期自相关系数不低于所有其它长期自相关系数；4)High_Value_Percentage (高值百分比):High_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值；5)LoW_AVerage (低平均值)满足以下条件至少之ー的长期自相关系数的平均值c)小于ー个阈值；以及d)在预定比例的长期自相关系数内，该预定比例的长期自相关系数不高于所有其它长期自相关系数；
6) Low_Value_Percentage (低值百分比)Low_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值；以及7)对比度High_Average 和 Low_Average 之间的比值。作为ー个进ー步的改进，可以根据零时滞值对上述导出的长期自相关系数进行归一化，以消除绝对能量的影响，即零时滞的长期自相关系数均为1. O。此外，在计算统计数据时不考虑零时滞值和邻近值(例如，时滞< 10个样本)，因为这些值不代表信号的任何自重复。图11是图示根据本发明一个实施例的示例音频分类系统1100的框图。如图11所示，音频分类系统1100包含从音频信号的分段中提取音频特征的特征提取器1111，和基于所提取的音频特征，用训练的模型对分段进行分类的分类装置1112。特征提取器1111包含低通滤波器1121和计算器1122。低通滤波器1121通过允许低频敲击分量通过来对分段进行滤波。计算器1122通过对分段应用过零率(ZCR)来提取低音指示特征，以作为音频特征。图12是图示根据本发明一个实施例的示例音频分类方法1200的流程图。如图12所示，音频分类方法1200从步骤1201开始。执行步骤1203到1207以从音频信号的分段中提取音频特征。在步骤1203，通过低通滤波器对分段进行滤波，在该低通滤波器中，允许低频敲击分量通过。在步骤1205，通过对分段应用过零率(ZCR)来提取低音指示特征，以作为音频特征。在步骤1207，确定是否存在尚未处理的另ー个分段。如果存在，则方法1200返回到步骤1203。如果没有，则方法1200前进到步骤1209。在步骤1209，基于所提取的音频特征，用训练的模型对分段进行分类。方法1200在步骤1211结束。ZCR能够在话音的浊音和清音部分之间有明显变化。能够利用此特性来有效区别话音和其它信号。然而，为对类话音信号(具有类似话音的信号特征的非话音信号，包含具有恒定速度的敲击声音，以及说唱音乐)进行分类，尤其是对敲击声音进行分类，传统ZCR是低效的，因为敲击声音表现出的变化特性与话音信号中发现的变化特性相似。这是由于在许多敲击片段中发现的低音响弦击鼓节拍结构可产生的ZCR变化与话音信号的浊音-清音结构所产生的ZCR变化相似。在本发明实施例中，引入低音指示特征以作为低音声音的存在的指示。低通滤波器可具有例如80Hz的低截止频率，使得除低频敲击分量(例如，低音鼓)之外，信号中的任何其他分量(包含话音)均会被显著衰減。结果，这种低音指示能够显示低频敲击声音和话音信号之间的不同特性。这能够导致类话音信号和话音信号之间的有效鉴别，因为许多类话音信号包括大量低音分量，例如说唱音乐。图13是图示根据本发明一个实施例的示例音频分类系统1300的框图。如图13所示，音频分类系统1300包含从音频信号的分段中提取音频特征的特征提取器1311，和基于所提取的音频特征，用训练的模型对分段进行分类的分类装置1312。特征提取器1311包含残余计算器1321和统计数据计算器1322。
对于每个分段，残余计算器1321通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少ー级、ニ级和三级的频率分解残余。对于每个分段，统计数据计算器1322关于该分段的帧的相同级别的残余计算至少ー项统计数据。图14是图示根据本发明一个实施例的示例音频分类方法1400的流程图。如图14所示，音频分类方法1400从步骤1401开始。执行步骤1403到1407以从音频信号的分段中提取音频特征。在步骤1403，对于ー个分段，通过从该分段的每个帧的谱上的总能量E中分别至·少移除第一能量、第二能量和第三能量来分别计算至少ー级、ニ级和三级的频率分解残余。在步骤1405，针对该分段的帧，计算关于相同级别的残余的至少ー项统计数据。在步骤1407，确定是否存在尚未处理的另ー个分段。如果存在，则方法1400返回到步骤1403。如果没有，则方法1400前进到步骤1409。在步骤1409，基于所提取的音频特征，用训练的模型对分段进行分类。方法1400在步骤1411结束。通过频率分解，对于某些类型的敲击信号(例如，具有恒定速度的低音击鼓声)，与话音信号相比有较少的频率分量能够近似这样的敲击声音。原因是这些敲击信号本质上比话音信号和其它类型的音乐信号具有更少的复杂频率成分。因此，通过移除不同数目的显著频率分量(例如，具有最高能量的分量)，当与话音和其它音乐信号的特性相比时，这样的敲击声音的残余(剰余能量)能够表现出显著不同的特性，因而提高分类性能。此外，第一能量是谱的H1个最高频率区间的总能量，第二能量是谱的H2个最高频率区间的总能量，而第三能量是谱的H3个最高频率区间的总能量，其中H1 < H2 < H3。可选地，第一能量是谱的一个或更多个峰区域的总能量，第二能量是谱的ー个或更多个峰区域的总能量，这些峰区域的一部分包含第一能量所涉及的峰区域，而第三能量是谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含第二能量所涉及的峰区域。峰区域可以是全局的，也可以是局部的。令S(k)是具有功率谱能量E的一个分段的谱系数序列，SP丑-た)丨其中K是频率区间的总数。在一个例子中，通过从S(k)中移除H1个最高频率区间之后的剰余能量来估计ー级残余も。这能够表示成R1 = 五-ΣΜ2
y其中尸ニ ΑΛ…Az1是H1个最高频率区间的索引。类似地，令R2和R3分别是通过从S ( ω )中移除H2和H3个最高频率区间而获得的ニ级残余和三级残余，其中H1 < H2 < Η3。对于敲击、话音和音乐信号可以发现(理想情况下)下列事实
敲击声音E>> R1 ^ R2 ^ R3话音E> R1 > R2 ^ R3音乐E> R1 > R2 > R3O在另ー个例子中，通过移除谱的最高峰，可以把ー级残余R1估计为
权利要求
1.一种音频分类系统，包括能够在需要不同资源的至少两个模式下工作的至少一个装置；以及复杂度控制器，其确定组合并且指示所述至少一个装置根据所述组合来工作，其中对于所述至少一个装置中的每个，所述组合指定所述装置的模式之一，所述组合的资源要求不超过最大可用资源，其中所述至少一个装置包括下列至少之一预处理器，用于使音频信号适配于所述音频分类系统；特征提取器，用于从所述音频信号的分段中提取音频特征；分类装置，用于通过训练的模型，基于所提取的音频特征来对所述分段进行分类；以及后处理器，用于平滑所述分段的音频类型。
2.如权利要求I所述的音频分类系统，其中所述预处理器的所述至少两个模式包含在进行滤波的情况下转换所述音频信号的采样速率的模式，和在不进行滤波的情况下转换所述音频信号的采样速率的另一个模式。
3.如权利要求I或2所述的音频分类系统，其中用于音频分类的音频特征能够被分成不适合于预加重的第一类型和适合于预加重的第二类型，并且其中所述预处理器的至少两个模式包含所述音频信号直接被预加重并且把所述音频信号和所述预加重的音频信号转换到频域的模式，和把所述音频信号转换到频域并且对所述转换的音频信号进行预加重的另一个模式，并且其中所述第一类型的音频特征提取自未经过预加重的所述转换音频信号，第二类型的音频特征提取自经预加重的所述转换音频信号。
4.如权利要求3所述的音频分类系统，其中所述第一类型包含子带能量分布、频率分解残余、过零率、谱区间高能量比、低音指示和长期自相关特征中的至少之一，并且所述第二类型包含谱波动和梅尔频率倒谱系数中的至少之一。
5.如权利要求I所述的音频分类系统，其中所述特征提取器被配置成根据维纳-辛钦定理计算音频信号中长于第一阈值的分段的长期自相关系数，和计算有关所述长期自相关系数的、用于所述音频分类的至少一项统计数据，其中所述特征提取器的所述至少两个模式包含根据所述分段直接计算长期自相关系数的模式，和对所述分段进行抽减并且根据所述经过抽减的分段计算所述长期自相关系数的另一个模式。
6.如权利要求5所述的音频分类系统，其中所述统计数据包含以下各项中至少之一1)均值所有长期自相关系数的平均值；2)方差所有长期自相关系数的标准差；3)High_Average:满足以下条件至少之一的长期自相关系数的平均值a)大于第二阈值；以及b)在预定比例的长期自相关系数内，所述预定比例的长期自相关系数不低于所有其它长期自相关系数；4)High_Value_Percentage High_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值；5)Low_Average :满足以下条件至少之一的长期自相关系数的平均值c)小于第三阈值；以及d)在预定比例的长期自相关系数内，所述预定比例的长期自相关系数不高于所有其它长期自相关系数；.6)Low_Value_Percentage Low_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值；以及.7)对比度High_Average和Low_Average之间的比值。
7.如权利要求I或2所述的音频分类系统，其中用于音频分类的音频特征包含通过对经过低通滤波器滤波的每个分段应用过零率而获得的低音指示特征，在所述低通滤波器中允许低频敲击分量通过。
8.如权利要求I所述的音频分类系统，其中所述特征提取器被配置成对于每个所述分段，通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余；以及对于每个所述分段，关于所述分段的帧的相同级别的残余计算至少一项统计数据，其中所计算的残余和统计数据被包含在所述音频特征中，并且其中所述特征提取器的所述至少两个模式包含所述第一能量是所述谱的H1个最高频率区间的总能量，所述第二能量是所述谱的H2个最高频率区间的总能量，而所述第三能量是所述谱的H3个最高频率区间的总能量的模式，其中H1 < H2 < H3,以及所述第一能量是所述谱的一个或更多个峰区域的总能量，所述第二能量是所述谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含所述第一能量所涉及的峰区域，而所述第三能量是所述谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含所述第二能量所涉及的峰区域的另一个模式。
9.如权利要求8所述的音频分类系统，其中所述统计数据包含以下各项中至少之一.1)相同分段的帧的相同级别的残余的均值；.2)方差相同分段的帧的相同级别的残余的标准差；.3)Residual_High_Average 相同分段的巾贞的相同级别的、满足下列条件中至少之一的残余的平均值a)大于第四阈值；以及b)在预定比例的残余内，所述预定比例的残余不低于所有其它残余；.4)Residual_Low_Average :相同分段的巾贞的相同级别的、满足下列条件中至少之一的残余的平均值c)小于第五阈值；以及d)在预定比例的残余内，所述预定比例的残余不高于所有其它残余；以及.5)Residual_Contrast Residual_High_Average 矛口 Residual_Low_Average 之间白勺比值。
10.如权利要求I或2所述的音频分类系统，其中用于音频分类的音频特征包含谱区间高能量比，所述谱区间高能量比是每个所述分段的谱中能量高于第六阈值的频率区间的数目与频率区间的总数的比值。
11.如权利要求10所述的音频分类系统，其中所述第六阈值被计算为下列之一1)所述分段的谱的平均能量，或所述分段周围的分段范围的谱的平均能量；2)所述分段的谱的加权平均能量，或所述分段周围的分段范围的谱的加权平均能量，其中所述分段具有相对较高的权重，所述范围中的每个其它分段具有相对较低的权重，或者其中相对较高能量的每个频率区间具有相对较高的权重，相对较低能量的每个频率区间具有相对较低的权重；3)所述平均能量或加权平均能量的换算值；以及4)所述平均能量或加权平均能量加上或减去标准差。
12.如权利要求I所述的音频分类系统，其中所述分类装置包括具有不同优先级的至少两个分类器级段的链，这些分类器级段按照优先级的降序排列；以及级段控制器，其确定从具有最高优先级的分类器级段开始的子链，其中所述子链的长度取决于所述组合中针对所述分类装置的模式，其中每个所述分类器级段包括分类器，其根据提取自每个所述分段的相应音频特征生成当前类别估计，其中所述当前类别估计包含所估计的音频类型和相应置信度；以及决策单元，其1)在所述分类器级段位于所述子链的开始处的情况下，确定所述当前置信度是否高于与所述分类器级段相关联的置信度阈值；以及如果确定所述当前置信度高于所述置信度阈值，则通过输出所述当前类别估计来终止音频分类，否则将所述当前类别估计提供给所述子链中的所有后面的分类器级段，2)在所述分类器级段位于所述子链的中间的情况下，确定所述当前置信度是否高于所述置信度阈值，或确定所述当前类别估计和所有先前的类别估计是否能够根据第一判决准则决定一个音频类型；以及如果确定所述当前置信度高于所述置信度阈值，或所述类别估计能够决定音频类型，则通过输出所述当前类别估计，或输出所决定的音频类型和相应置信度来终止音频分类，否则将所述当前类别估计提供给所述子链中的所有后面的分类器级段，以及3)在所述分类器级段位于所述子链的结束处的情况下，通过输出所述当前类别估计来终止音频分类，或者确定所述当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型；以及如果确定所述类别估计能够决定音频类型，则通过输出所决定的音频类型和相应置信度来终止音频分类，否则通过输出所述当前类别估计来终止音频分类。
13.如权利要求12所述的音频分类系统，其中所述第一判决准则包括下列准则之一1)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的平均置信度高于第七阈值，则能够决定所述当前音频类型；2)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的加权平均置信度高于第八阈值，则能够决定所述当前音频类型；以及3)如果决定与所述当前音频类型相同的音频类型的先前分类器级段的数目高于第九阈值，则能够决定所述当前音频类型，并且其中所输出的置信度是所述当前置信度，或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均，其中所述先前的置信度的权重高于后面的置信度的权重。
14.如权利要求12所述的音频分类系统，其中所述第二判决准则包括下列准则之一1)在所有类别估计中，如果包含相同音频类型的类别估计的数目最高，则所述相同音频类型能够被这些相应类别估计决定；2)在所有类别估计中，如果包含相同音频类型的类别估计的加权数目最高，则所述相同音频类型能够被这些相应类别估计决定；以及3)在所有类别估计中，如果对应于相同音频类型的置信度的平均置信度最高，则所述相同音频类型能够被相应类别估计决定，并且其中所输出的置信度是所述当前置信度，或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均，其中所述先前的置信度的权重高于后面的置信度的权重。
15.如权利要求12所述的音频分类系统，其中如果所述分类器级段之一所采用的分类算法在分类出所述音频类型的至少之一方面具有较高的准确性，那么所述分类器级段被指定较高优先级。
16.如权利要求12或15所述的音频分类系统，其中用于每个在后分类器级段中的分类器的每个训练样本至少包括标记有正确音频类型的音频样本，要由所述分类器识别的音频类型，以及有关对应于每个所述音频类型的置信度的统计数据，这些置信度是由所有先前的分类器级段根据所述音频样本生成的。
17.如权利要求12或15所述的音频分类系统，其中用于每个在后分类器级段中的分类器的训练样本至少包括标记有正确音频类型但是被所有先前分类器级段误分类或以低置信度分类的音频样本。
18.如权利要求12所述的音频分类系统，其中所述至少一个装置包括所述特征提取器、所述分类装置和所述后处理器，并且其中所述特征提取器被配置成对于每个所述分段，通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余；以及对于每个所述分段，关于所述分段的帧的相同级别的残余计算至少一项统计数据，其中所计算的残余和统计数据被包含在所述音频特征中，并且其中所述特征提取器的所述至少两个模式包含所述第一能量是所述谱的H1个最高频率区间的总能量，所述第二能量是所述谱的H2个最高频率区间的总能量，而所述第三能量是所述谱的H3个最高频率区间的总能量的模式，其中H1 < H2 < H3,以及所述第一能量是所述谱的一个或更多个峰区域的总能量，所述第二能量是所述谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含所述第一能量所涉及的峰区域，而所述第三能量是所述谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含所述第二能量所涉及的峰区域的另一个模式，并且其中所述后处理器被配置成在所述音频信号中搜索两个重复部分，并且通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果，并且其中所述后处理器的所述至少两个模式包含采用相对长的搜索范围的模式，和采用相对短的搜索范围的另一个模式。
19.如权利要求I所述的音频分类系统，其中通过所述音频分类针对所述音频信号中的每个所述分段生成类别估计，其中每个所述类别估计包含所估计的音频类型和相应置信度，并且其中所述后处理器的所述至少两个模式包含确定窗口中对应于相同音频类型的置信度的最高和数或平均值，并且所述当前音频类型被所述相同音频类型所代替的模式，以及采用具有相对短的长度的窗口，并且/或者确定所述窗口中对应于相同音频类型的置信度的最高数目，所述当前音频类型被所述相同音频类型所代替的另一个模式。
20.如权利要求I所述的音频分类系统，其中所述后处理器被配置成在所述音频信号中搜索两个重复部分，并且通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果，并且其中所述后处理器的所述至少两个模式包含采用相对长的搜索范围的模式，和采用相对短的搜索范围的另一个模式。
21.一种音频分类方法，包括能够在需要不同资源的至少两个模式下执行的至少一个步骤；确定组合；以及指示所述至少一个步骤根据所述组合来运行，其中对于所述至少一个步骤中的每个，所述组合指定所述步骤的模式之一，而所述组合的资源要求不超过最大可用资源，其中所述至少一个步骤包括下列至少之一预处理步骤，使音频信号适配于所述音频分类；特征提取步骤，从所述音频信号的分段中提取音频特征；分类步骤，通过训练的模型，基于所提取的音频特征来对所述分段进行分类；以及后处理步骤，对所述分段的音频类型进行平滑。
22.如权利要求21所述的音频分类方法，其中所述预处理器的所述至少两个模式包含在进行滤波的情况下转换所述音频信号的采样速率的模式，和在不进行滤波的情况下转换所述音频信号的采样速率的另一个模式。
23.如权利要求21或22所述的音频分类方法，其中用于音频分类的音频特征能够被分成不适合于预加重的第一类型和适合于预加重的第二类型，并且其中所述预处理步骤的至少两个模式包含所述音频信号直接被预加重并且把所述音频信号和所述预加重的音频信号转换到频域的模式，和把所述音频信号转换到频域并且对所述转换的音频信号进行预加重的另一个模式，并且其中所述第一类型的音频特征提取自未经过预加重的所述转换音频信号，所述第二类型的音频特征提取自经预加重的所述转换音频信号。
24.如权利要求23所述的音频分类方法，其中所述第一类型包含子带能量分布、频率分解残余、过零率、谱区间高能量比、低音指示和长期自相关特征中的至少之一，并且所述第二类型包含谱波动和梅尔频率倒谱系数中的至少之一。
25.如权利要求21所述的音频分类方法，其中所述特征提取步骤包括根据维纳-辛钦定理计算音频信号中长于第一阈值的分段的长期自相关系数，和计算有关所述长期自相关系数的、用于所述音频分类的至少一项统计数据，其中所述特征提取步骤的所述至少两个模式包含根据所述分段直接计算长期自相关系数的模式，和对所述分段进行抽减并且根据所述经过抽减的分段计算所述长期自相关系数的另一个模式。
26.如权利要求25所述的音频分类方法，其中所述统计数据包含以下各项中至少之1)均值所有长期自相关系数的平均值；2)方差所有长期自相关系数的标准差；3)High_Average:满足以下条件至少之一的长期自相关系数的平均值a)大于第二阈值；以及b)在预定比例的长期自相关系数内，所述预定比例的长期自相关系数不低于所有其它长期自相关系数；4)High_Value_Percentage High_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值；5)Low_Average :满足以下条件至少之一的长期自相关系数的平均值c)小于第三阈值；以及d)在预定比例的长期自相关系数内，所述预定比例的长期自相关系数不高于所有其它长期自相关系数；6)Low_Value_Percentage Low_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值；以及7)对比度High_Average和Low_Average之间的比值。
27.如权利要求21或22所述的音频分类方法，其中用于音频分类的音频特征包含通过对经过低通滤波器滤波的每个分段应用过零率而获得的低音指示特征，在所述低通滤波器中允许低频敲击分量通过。
28.如权利要求21所述的音频分类方法，其中所述特征提取步骤包括对于每个所述分段，通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余；以及对于每个所述分段，关于所述分段的帧的相同级别的残余计算至少一项统计数据，其中所计算的残余和统计数据被包含在所述音频特征中，并且其中所述特征提取步骤的所述至少两个模式包含所述第一能量是所述谱的H1个最高频率区间的总能量，所述第二能量是所述谱的H2个最高频率区间的总能量，而所述第三能量是所述谱的H3个最高频率区间的总能量的模式，其中H1 < H2 < H3,以及所述第一能量是所述谱的一个或更多个峰区域的总能量，所述第二能量是所述谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含所述第一能量所涉及的峰区域，而所述第三能量是所述谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含所述第二能量所涉及的峰区域的另一个模式。
29.如权利要求28所述的音频分类方法，其中所述统计数据包含以下各项中至少之1)相同分段的帧的相同级别的残余的均值；2)方差相同分段的帧的相同级别的残余的标准差；3)Residual_High_Average 相同分段的巾贞的相同级别的、满足下列条件中至少之一的残余的平均值a)大于第四阈值；以及b)在预定比例的残余内，所述预定比例的残余不低于所有其它残余；4)Residual_Low_Average :相同分段的巾贞的相同级别的、满足下列条件中至少之一的残余的平均值c)小于第五阈值；以及d)在预定比例的残余内，所述预定比例的残余不高于所有其它残余；以及5)Residual_Contrast Residual_High_Average 矛口 Residual_Low_Average 之间白勺比值。
30.如权利要求22或23所述的音频分类方法，其中用于音频分类的音频特征包含谱区间高能量比，所述谱区间高能量比是每个所述分段的谱中能量高于第六阈值的频率区间的数目与频率区间的总数的比值。
31.如权利要求30所述的音频分类方法，其中所述第六阈值被计算为下列之一1)所述分段的谱的平均能量，或所述分段周围的分段范围的谱的平均能量；2)所述分段的谱的加权平均能量，或所述分段周围的分段范围的谱的加权平均能量，其中所述分段具有相对较高的权重，所述范围中的每个其它分段具有相对较低的权重，或者其中相对较高能量的每个频率区间具有相对较高的权重，相对较低能量的每个频率区间具有相对较低的权重；3)所述平均能量或加权平均能量的换算值；以及4)所述平均能量或加权平均能量加上或减去标准差。
32.如权利要求21所述的音频分类方法，其中所述分类步骤包括具有不同优先级的至少两个子步骤的链，这些子步骤按照优先级的降序排列；以及控制步骤，确定从具有最高优先级的所述子步骤开始的子链，其中所述子链的长度取决于所述组合中针对所述分类步骤的模式，其中每个所述子步骤包括根据提取自每个所述分段的相应音频特征生成当前类别估计，其中所述当前类别估计包含所估计的音频类型和相应置信度；在所述子步骤位于所述子链的开始处的情况下，确定所述当前置信度是否高于与所述子步骤相关联的置信度阈值；以及如果确定所述当前置信度高于所述置信度阈值，则通过输出所述当前类别估计来终止音频分类，否则将所述当前类别估计提供给所述子链中的所有后面的子步骤，在所述子步骤位于所述子链的中间的情况下，确定所述当前置信度是否高于所述置信度阈值，或确定所述当前类别估计和所有先前的类别估计是否能够根据第一判决准则决定一个音频类型；以及如果确定所述当前置信度高于所述置信度阈值，或所述类别估计能够决定音频类型，则通过输出所述当前类别估计，或输出所決定的音频类型和相应置信度来終止音频分类，否则将所述当前类别估计提供给所述子链中的所有后面的子步骤，以及在所述子步骤位于所述子链的结束处的情况下，通过输出所述当前类别估计来终止音频分类，或者确定所述当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定ー个音频类型；以及如果确定所述类别估计能够决定音频类型，则通过输出所決定的音频类型和相应置信度来終止音频分类，否则通过输出所述当前类别估计来终止音频分类。
33.如权利要求32所述的音频分类方法，其中所述第一判决准则包括下列准则之ー 1)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的平均置信度高于第七阈值，则能够决定所述当前音频类型； 2)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的加权平均置信度高于第八阈值，则能够决定所述当前音频类型；以及 3)如果决定与所述当前音频类型相同的音频类型的先前子步骤的数目高于第九阈值，则能够决定所述当前音频类型，并且其中所输出的置信度是所述当前置信度，或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均，其中所述先前的置信度的权重高于后面的置信度的权重。
34.如权利要求32所述的音频分类方法，其中所述第二判决准则包括下列准则之ー 1)在所有类别估计中，如果包含相同音频类型的类别估计的数目最高，则所述相同音频类型能够被这些相应类别估计决定； 2)在所有类别估计中，如果包含相同音频类型的类别估计的加权数目最高，则所述相同音频类型能够被这些相应类别估计決定；以及 3)在所有类别估计中，如果对应于相同音频类型的置信度的平均置信度最高，则所述相同音频类型能够被相应类别估计决定，并且其中所输出的置信度是所述当前置信度，或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均，其中所述先前的置信度的权重高于后面的置信度的权重。
35.如权利要求32所述的音频分类方法，其中如果所述子步骤之一所采用的分类算法在分类出所述音频类型的至少之一方面具有较高的准确性，那么所述子步骤被指定较高优先级。
36.如权利要求32或35所述的音频分类方法，其中用于每个在后子步骤中的分类器的每个训练样本至少包括标记有正确音频类型的音频样本，要由所述分类器识别的音频类型，以及有关对应于每个所述音频类型的置信度的统计数据，这些置信度是由所有先前的子步骤根据所述音频样本生成的。
37.如权利要求32或35所述的音频分类方法，其中用于每个在后子步骤中的分类器的训练样本至少包括标记有正确音频类型但是被所有先前子步骤误分类或以低置信度分类的音频样本。
38.如权利要求32所述的音频分类方法，其中所述至少一个步骤包括所述特征提取步骤、所述分类步骤和所述后处理步骤，并且其中所述特征提取步骤包括对于每个所述分段，通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少ー级、ニ级和三级的频率分解残余；以及对于每个所述分段，关于所述分段的帧的相同级别的残余计算至少ー项统计数据，其中所计算的残余和统计数据被包含在所述音频特征中，并且其中所述特征提取步骤的所述至少两个模式包含所述第一能量是所述谱的H1个最高频率区间的总能量，所述第二能量是所述谱的H2个最高频率区间的总能量，而所述第三能量是所述谱的H3个最高频率区间的总能量的模式，其中Hi < H2 く H3,以及所述第一能量是所述谱的ー个或更多个峰区域的总能量，所述第二能量是所述谱的ー个或更多个峰区域的总能量，这些峰区域的一部分包含所述第一能量所涉及的峰区域，而所述第三能量是所述谱的ー个或更多个峰区域的总能量，这些峰区域的一部分包含所述第ニ能量所涉及的峰区域的另ー个模式，并且其中所述后处理步骤包括在所述音频信号中搜索两个重复部分，以及通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果，并且其中所述后处理步骤的所述至少两个模式包含采用相对长的搜索范围的模式，和采用相对短的搜索范围的另ー个模式。
39.如权利要求21所述的音频分类方法，其中通过所述音频分类针对所述音频信号中的每个所述分段生成类别估计，其中每个所述类别估计包含所估计的音频类型和相应置信度，并且其中所述后处理步骤的所述至少两个模式包含确定窗口中对应于相同音频类型的置信度的最高和数或平均值，并且所述当前音频类型被所述相同音频类型所代替的模式，以及采用具有相对短的长度的窗ロ，并且/或者确定所述窗ロ中对应于相同音频类型的置信度的最高数目，所述当前音频类型被所述相同音频类型所代替的另ー个模式。
40.如权利要求21所述的音频分类方法，其中所述后处理步骤包括在所述音频信号中搜索两个重复部分，以及通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果j并且其中所述后处理步骤的所述至少两个模式包含采用相对长的搜索范围的模式，和采用相对短的搜索范围的另ー个模式。
全文摘要
描述了用于音频分类的实施例。音频分类系统包含对音频信号执行音频分类的过程的至少一个装置。该至少一个装置能够在需要不同资源的至少两个模式下工作。音频分类系统也包含复杂度控制器，其确定组合并且指示该至少一个装置根据该组合来工作。对于该至少一个装置中的每个，该组合指定该装置的模式之一，而该组合的资源要求不超过最大可用资源。通过控制模式，音频分类系统改善了针对运行环境的可伸缩性。
文档编号G10L15/02GK102982804SQ201110269279
公开日2013年3月20日申请日期2011年9月2日优先权日2011年9月2日
发明者程斌, 芦烈申请人:杜比实验室特许公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程斌;芦烈
技术所有人：杜比实验室特许公司
我是此专利的发明人

上一篇：少儿古筝识谱练习器的制作方法
上一篇：非介入式单端采集的音频端到端时延测量方法及装置的制作方法