导出音频输入信号的一个特征集的方法

文档序号：2836945阅读：262来源：国知局

专利名称：导出音频输入信号的一个特征集的方法
导出音频输入信号的一个特征集的方法本发明涉及导出音频输入信号的一个特征集的方法，和导出音频输入信号的一个特征集的系统。本发明还涉及对音频输入信号进行分类的方法和系统，以及比较音频输入信号的方法和系统。数字内容的存储能力正在显著地增加。在不久的未来期望可以获得具有至少一千兆字节存储容量的硬盘。作为对此的补充，诸如MPEG标准的多媒体内容的压缩算法的演进，显著地减小每个音频或视频文件所需存储容量的数量。结果是消费者将会能够在单个硬盘或其他存储介质上存储许多小时的视频和音频内容。能够从数量不断增加的电台和电视台记录视频和音频。消费者能够通过简单地从万维网即一种正在变得曰益流行的工具，下载视频和音频内容容易地增加他的收集。而且，具有大存储容量的便携式音乐播放器是买得起的和实际的，它允许用户在任何时间能够访问从其进行选择的音乐的广泛选择。但是，从其进行选择的可用视频和音频数据的巨量选择不是没有问题。例如，从具有成千上万音乐乐曲(musictrack)的大型音乐数据库组织和选择音乐是困难并且耗时的。通过包括元数据能够部分地解决该问题，该元数据能够被理解成以某种方式附加到实际音频数据文件的附加信息标记。元数据有时被提供给音频文件，但是并不总是这样。当面对耗时和令人不愉快的检索和分类问题时，用户非常可能会放弃，或者完全不操心。在解决音乐信号的分类问题中已经作出了一些尝试，例如，WO 01/20609 A2提出一种分类系统，在该系统中根据某些诸如节奏复杂度、清晰度、感染力等等的特征或变量对音频信号，即多首音乐或音乐乐曲进行分类。给每首音乐分配了针对大量选择的变量的权重值，这取决于每个变量适用于这首音乐的程度。然而，这种系统具有的缺点在于，对音乐乐曲相似音乐片段的分类或比较的精确度并非特别高。因此，本发明的一个目的是提供一种更加稳定和精确的方式对音频信号进行表征、分类或比较。为此，本发明提供一种导出音频输入信号的一个特征集的方法，特别用于对音频输入信号进行分类和/或将该音频输入信号与另一个音频信号进行比较和/或对该音频输入信号进行表征，该方法包括识别音频输入信号的大量第一阶特征，从至少部分该第一阶特征产生大量相关值，以及利用所述相关值编辑音频输入信号的特征集。识别的步骤可以包括，例如，从音频输入信号提取大量第一阶特征或从数据库检索大量第一阶特征。所述第一阶特征是音频输入信号的某些选取的描述性特征，可以描述信号带宽、过零率、信号响度、信号亮度、信号能量或功率谱值等等。第一阶特征描述的其他质量可以是谱衰减频率、谱矩心等等。从音频输入信号导出的第一阶特征可以被选择为正交的，即它们可以被选为在一定程度上彼此独立。第一阶特征的一个序列可以一起放入通常被称为 "特征向量"的单元中，其中特征向量中的某个位置总是被相同类型的特征占据。从第一阶特征的选择产生的相关值，因而也被称为第二阶特征，描述了这些第一阶特征之间的相互关联性或协方差，并且是音频输入信号的强有力的描述符。已经表面，在第一阶特征不够时，在第二阶特征的帮助下，常常可以对音乐乐曲进行精确的比较、分类或表征。根据本发明的方法的明显优点在于，可以容易地为任何音频输入信号导出强有力的描述性特征集，并且这个特征集可以用来，例如，精确地分类音频输入信号，或者快速和精确地识别另一个类似的音频信号。例如，为音频信号编辑的一个优选特征集包括第一阶和第二阶特征的元素，其不仅描述某些选择的描述性特征，而且还描述这些选择的描述性特征之间的相互关系。用于导出音频输入信号的一个特征集的适当系统包括识别音频输入信号的大量第一阶特征的特征识别单元，用于从至少部分第一阶特征产生大量相关值的相关值产生单元，和使用所述相关值编辑音频输入信号的一个特征集的特征集编辑单元。所述特征识别单元可以例如包括特征提取单元和/或特征检索单元。从属权利要求和接下来的描述公开了本发明的特别有利的实施例和特征。音频输入信号能够源自任何适当的来源。最普遍地，音频信号可能源自可以具有大量格式中的任何一种格式的音频文件。音频文件格式的实例是未压缩的，例如(WAV),和经过无损压缩的，例如视窗媒体音频(WMA ),以及诸如MP3 ( MPEG-1音频层3 )文件、AAC (高级音频编译码)等等的有损压缩格式。同样，通过使用对于本领域普通技术人员熟知的任何适当的技术数字化音频信号能够获得音频输入信号。在根据本发明的方法中，音频输入信号的第一阶特征(有时也被称为观察)可能优选从给定域中的一个或多个部分提取，相关值的产生优选地包括使用适当域中的相应部分的第一阶特征对来执行相关。部分能够是例如时域中的时间帧或分段，这里"时间帧"就是覆盖大量音频输入采样的时间范围。所述部分还能够是频域中的频带，或滤波器组域中的时间/频率"片"。这些时间/频率片、时间帧和频带通常具有相同的大小或持续时间。因此与音频信号部分关联的特征能够被表示为时间的函数，频率的函数，或二者的组合，从而在一个或两个域中能够对这些特征执行相关。在下文中，术语"部分"和"片"可以被可交换地使用。在本发明的进一步优选实施例中，从不同、优选相邻的时间帧提取的第一阶特征的相关值产生包括使用这些时间帧的第一阶特征来执行相关，从而该相关值描述这些相邻特征之间的相互关系。在本发明的一个优选实施例中，在时域中对音频输入信号的每个时间帧提取第一阶特征，以及通过在大量相继的特征向量上，优选在特征向量的整个范围上在一对特征之间执行互相关产生相关值。在本发明的替换优选实施例中，在频域中对音频输入信号的每个时间帧提取第一阶特征，以及通过在频域的频带上在两个时间帧的特征向量的某些特征之间执行互相关计算相关值，这里两个时间帧优选，但不必须是相邻的时间帧。换言之，对于多个时间帧中的每个时间帧，对至少两个频带提取至少两个第一阶特征，相关值的产生包括在时间帧和频带上在两个特征之间执行互相关。由于特征向量的第一阶特征被选择成相互独立或正交的，因此它们将是描述音频输入信号的不同方面的特征，所以将会以不同的单元来表示。为了比较变量汇集中的不同变量之间的协方差的等级，以普通熟知的用于计算两个变量之间的乘积矩或互相关的技术，每个变量的平均偏差能够被除以它的标准偏差。所以，在本发明的特别优选的实施例中，通过从中减去所有适当特征的中间或平均值来调节在产生相关值中使用的第一阶特征。例如，当在特征向量的整个范围上计算两个时域第一阶特征的相关值时，在计算诸如平均偏差和标准偏差的特征变化的度量之前，首先计算每个第一阶特征的平均值以及从第一阶特征的值减去该平均值。类似地，当根据两个相邻的特征向量计算两个频域特征的相关值时，在计算两个被选择的第一阶特征的乘积矩相关或互相关之前，首先在两个特征向量的每个特征向量上计算第一阶特征的平均值并从各自特征向量的每个第一阶特征值减去该平均值。可以计算大量的这些相关值，例如针对第一&第二、第一&第三、第二&第三第一阶特征等等的每个相关值。这些相关值是描述音频输入信号的特征对之间的协方差或相关性的值，它们可能被组合以提供音频输入信号的集体的特征集。为了增加所述特征集的信息内容，该特征集优选还包括直接有关第一阶特征的一些信息，即诸如在特征向量范围上获得的每个第一阶特征的中间或平均值的第一阶特征的适当导出量。同样，可以有能力获得仅针对第一阶特征子集的这些第二阶特征，诸如例如在特征向量的被选择范围上获得的第一、第三和第五特征的平均值。所述特征集，实际上使用根据本发明的方法获得的包括第一和第二阶特征的扩展特征向量，能够独立于针对其导出扩展特征向量的音频信号被存储，或者它能够例如以元数据的形式与音频输入信号一起被存储。然后能够通过根据上述方法针对音乐乐曲或歌曲导出的所述特征集精确地描述该音乐乐曲或歌曲。这些特征集使得有可能高度精确地执行多首音乐的分类和比较。例如，如果导出具有类似性质(诸如属于单个类，例如"巴洛克") 的大量音频信号的特征集或扩展特征向量，那么然后能够使用这些特征集为类"巴洛克，，构造模型。这种模型可以例如是高斯多变量模型，每个类在扩展特征向量占据的特征空间中具有其自己的平均向量和自己的协方差矩阵。能够训练任何数量的组或类。对于音乐音频输入信号，这种类可能被广泛地定义，例如"瑞格(reggae)，，、"乡村，，、"经典"等等。同样，模型可以更加狭义或加以细化，例如"80年代迪斯科"、"20年代爵士，，、"指弹吉他，，等等，利用音频输入信号的适当代表性汇集对这些模型进行训练。为了保证最佳的分类结果，通过选择最小数量的第一阶特征，同时选择这些第一阶特征以提供分类之间的最佳可能区别，将模型空间的维数保持尽可能地低。特征排序和维数减小的已知方法能够被应用于确定要选择的最佳第一阶特征。一旦使用已知属于组或类的大量音频信号来训练针对所述组或类的模型时，通过简单地检查音频输入信号的特征集是否在一定的相似程度上适合于所述模型，能够测试"未知，，音频信号以确定是否它属于该类。所以，将音频输入信号分类成组的方法优选包括导出音频输入信号的一个特征集，以及根据该特征集确定音频输入信号对应于大量组或类中的任何组或类的概率，这里每个组或类对应于特定的音频类。用于将音频输入信号分类成一个或多个组的相应分类系统可以包括导出音频输入信号的一个特征集的系统，以及根据音频输入信号的所述特征集确定音频输入信号落入大量组的任何一个組内的概率的概率确定单元，这里每个组对应于特定的音频类。根据本发明的方法的另一个应用可以是根据它们各自的特征集比较音频信号，例如两首歌曲，以便确定它们之间的相似性程度，若有的话。因此这种比较方法优选包括如下步骤导出第一音频输入信号的第一特征集和导出第二音频输入信号的第二特征集，根据定义的距离度量计算在特征空间中第一和第二特征集之间的距离，然后最终根据计算的距离确定第一和第二音频信号之间的相似性程度。使用的距离度量可以例如是特征空间中某些点之间的欧几里德距离。比较音频输入信号以确定它们之间相似性程度的相应比较系统可以包括导出第一音频输入信号的第一特征集的系统和导出第二音频输入信号的第二特征集的系统，以及根据定义的距离度量计算在特征空间中第一和第二特征集之间的距离、根据所述计算的距离确定音频输入信号之间相似性程度的比较器单元。显然，导出第一特征集的系统和导出第二特征集的系统可以是同一个系统。本发明可以在各种各样的音频处理应用中找到应用。例如，在优选实施例中，如上所述用于分类音频输入信号的分类系统可以被包含在音频处理设备中。该音频处理设备可以访问通过类或组进行组织的音乐数据库或集合，所述音频输入信号被分类到该类或组中。另一种类型的音频处理设备可以包括从数据库中的音乐的特定组或类中选择一个或多个音乐数据文件的音乐查询系统。因此这种设备的用户能够以娱乐为目的容易地整理歌曲的汇集，例如主题音乐事件。利用音乐数据库的用户可以指定从该数据库检索属于诸如"流行，20世纪80年代，，之类的类类。、这种^"频处理设备的另一个有用应用将是汇编具有某^个风格或节奏的适用于伴奏练习测验、假期幻灯片放映展示等等的歌曲汇集。本发明的再一个有用应用可能是搜索音乐数据库以查找类似于已知音乐乐曲的一个或多个音乐乐曲。根据本发明的用于导出特征集、分类音频输入信号、以及比较输入信号的系统能够以简单直接的方式实现为计算机程序(一个或多个)。导出输入信号的特征集的所有组件，诸如特征提取单元、相关值产生单元、特征集编辑单元等等，均能够以计算机程序模块的形式实现。在硬件设备的处理器上可以编码任何需要的软件或算法，以便现有的硬件设备可以适合于受益于本发明的特征。可替换地，导出音频输入信号的特征集的组件能够等效地至少部分地使用硬件模块来实现，以便本发明能适用于数字和/或模拟音频输入信号。根据以下结合附图的详细描述，本发明的其他目的和特征将会变得明显。但是，应该明白所述附图仅仅设计成用于示例的目的并且不作为对本发明范围的限定。

图1是时间帧和从输入音频信号提取的特征之间关系的抽象表示；图2a是根据本发明的第一实施例用于从音频输入信号导出一个特征集的系统的示意性方框图；图2b是根据本发明的第二实施例用于从音频输入信号导出一个特征集的系统的示意性方框图；图3是根据本发明的第三实施例用于从音频输入信号导出一个特征集的系统的示意性方框图；图4是用于分类音频信号的系统的示意性方框图；图5是用于比较音频信号的系统的示意性方框图。在整个附图中，相同的附图标记表示相同的对象。为了简化对涉及本发明以及以下描述的方法的理解，图l给出了输入信号M的时间帧t!, t2, t!或部分和最终针对输入信号M导出的
特征集s之间的抽象表示。
将要针对其导出一个特征集的输入信号能够源自任何适当的来源，
以及可以是采样的模拟信号、诸如MP3或AAC文件等等的音频编码的信号。在该图中，音频输入M首先在适当的数字化单元10中被数字化，该数字化单元从数字化采样流输出一系列分析窗口。分析窗口能够具有一定持续时间，例如743ms。加窗单元11还将分析窗口细分成总共I 个重叠时间帧t^ t2, ...， t〃以便每个时间帧t!， t2, ^覆盖音频输入信号M的一定数量的采样。能够选择相继的分析窗口以便它们重叠若干片，这在图中未示出。可替换地，能够使用从其提取特征的单个、足
够宽的分析窗口。
对于这些时间帧tl5 t2, h中的每个时间帧，在特征提取单元 12中提取大量的第一阶特征f!, f2, ft'。正如以下将进行的更详细的说明，这些第一阶特征f，f2, ff可以根据时域或频域信号表示进行计算，并能够作为时间和/或频率的函数而变化。时间/频率片或时间帧的每组第一阶特征f!， f2,ff被称为第一阶特征向量，从而为片t"
t2, t!提取特征向量fvl， fv2, ...， fvl。
在相关值产生单元13中，为某些第一阶特征fi, f2,…，ff对产生
相关值。所述特征对可以从单个特征向量fvl, fv2，…，fvl或从不同特征
向量fw， fv2,fw获得。例如，可以为从不同特征向量获得的所述特
征对(fv![l], fv2[l])，或从同一特征向量获得的所述特征对(f^LJ]， fvl[k])
计算相关。
在特征处理块15中，能够在第一阶特征向量fvl, fv2,…，fvi上计
算第一阶特征fv!, fv2,…，fv!的一个或多个导出量fm!, fm2,…，fmf，例如中间值、平均值、或平均值集合。
在特征集编辑单元14中把在相关值产生单元13中产生的相关值与
在特征处理块15中计算的第一阶特征fn f2,…，ff的导出量(一个或
多个)fml， fm2， ...， fmf相组合以给出音频输入信号M的一个特征集S。可以针对每个分析窗口导出这种特征集S,将其用于计算整个音频输入信号M的平均特征集，然后可以将其作为元数据与音频信号一起存储在音频文件中，或按照需要存储在单独的元数据数据库中。在图2a中，将更详细地说明在时域中针对音频输入信号x (n)导出一个特征集S的步骤。首先在数字化块10中数字化音频输入信号M 以给出采样的信号
<formula>formula see original document page 12</formula> (1)
接下来，在窗口块20中对采样的输入信号x[n]加窗以使用窗口 w[n] 对于时域中的一个片产生大小为N以及跳距为H的一组加窗的采样 <formula>formula see original document page 12</formula>然后将对应于图中时间帧ti的每组采样x,[n]在这种情况下通过采用快速傅立叶变换(FFT)变换到频域<formula>formula see original document page 12</formula>)
接下来，在对数功率计算单元21中，使用每个频率子带b的滤波核Wb[k],为一个频率子带集计算对数域子带功率的值P[b]:
器，<formula>formula see original document page 12</formula>(4)
最后，在系数计算单元22中，通过在B功率子带上每个子带功率值P[b]的直接余弦变换(DCT)获得每个时间帧的Mel频率倒谱系数 <formula>formula see original document page 12</formula>所述采用的加窗单元20、对数功率计算单元21和系数计算单元22 一起给出特征提取单元12。这种特征提取单元12用于计算输入信号M 的大量分析窗中每个的特征f,， f2, ...， ff。特征提取单元12将通常包括以软件，也许被组合为软件包而实现的大量算法。明显地，单个特征提取单元12能够用于单独地处理每个分析窗，或者可以实施大量的单独特征提取单元12,以便能够同时处理若干分析窗。
一旦如上所述已经处理了某个时间帧集合I,能够(在I个子帧的分析帧上)计算由某些基于帧的特征之间的(归一化的)相关系数构成的第二阶特征。这种计算在相关值产生单元13中发生。例如，第y和第z个MFCC系数之间在时间上的相关通过方程(6)在下面给出
<formula>formula see original document page 13</formula>
其中IUy和jLiz分别是MFCd [y]和MFCC, [z](在I上)的平均值。通过减去该平均值对每个系数的调节给出了 Pearson相关系数作为第二阶特征，它实际上是两个变量之间、在这种情况下是两个系数MFCd[y]和 MFCCi [z]之间线性关系的强度度量。
上述计算的相关值P (y, z)然后能够被用作一个特征集S的组成。该特征集S的其他元素能够是在特征处理块15中计算的、时间帧的第一阶特征向量fv!, fv2,fv!的导出量，例如在特征向量fv" fv2,…，
f^的整个范围上所取的、每个特征向量fv" fv2, fv!的第一若干特征
f\， f2, ff的中间或平均值。
在特征组合单元14中将第一阶特征向量fw， fv2，…，fv!的这些导
出量与相关值进行组合以给出特征集s作为输出。该特征集s能够与音
频输入信号M—起或独立于音频输入信号M存储在文件中，或者可以在存储之前被进一步的处理。此后，能够使用该特征集S,例如分类音频输入信号M,比较音频输入信号M和另一个音频信号，或者表征音频输入信号M。
图2b所示为本发明第二实施例的方框图，其中在频域中针对总共为B的离散频率子带提取特征。第一若干阶段，直到并且包括对数子带功率值的计算实际上和在图2中以上已经描述的相同。但是，在这种实现中，每个频率子带的功率值直接被用作特征，从而在这种情况下特征向量fw, fvl+1包括在频率子带的范围上如在方程(4)中给出的每个频率
子带的功率值。所以，特征提取单元12，只需要加窗单元20和对数功率计算单元21。
在这种情况下在相关值产生单元13，中对相继时间帧对t" t1+1,即在特征向量对f,, fw上执行相关值或第二阶特征的计算。再次，首先通过从它减去平均值PP,, Ppw调节每个特征向量fi， fw中的每个特征。在这种情况下，例如，通过对特征向量fi的所有元素求和以及将该求和除以频率子带的总数B,计算niH。如下计算一对特征向量f;, fw的相关值p (P,, P1+1 ):
<formula>formula see original document page 14</formula>如在以上图2中所描述，在特征组合单元14，中可以将特征向量对的相关值和在特征处理块15，中计算的第一阶特征的导出量相结合以给出作为输出的所述特征集S。再次，如以上已经描述的，该特征集S能够与音频输入信号一起或独立于音频输入信号存储在文件中，或者可以在存储之前被进一步处理。
图3图示了本发明的第三实施例，其中从输入信号提取的特征包含时域和频域信息两者。这里，音频输入信号x[n]是采样的信号。每个采样被输入到包括总共K个滤波器的滤波器组17中。所以，对于输入采样x[n]滤波器组17输出是值y[m, k]的序列，这里l《k《K。每个k索引表示滤波器组17的不同频带，而每个m索引表示时间，即滤波器组 17的采样速率。对于每个滤波器组输出y[m, k]，计算特征fa[m,k]、 fb[m,k]。在这种情况下特征类型fa[m， k]可以是它的输入y[m, k]的功率语值，而特征类型fb[m, k]是为前一采样计算的功率谱值。能够在频率子带的范围上即对于值1《k < K对这些特征对fa[m,k]、 fb[m,k]进行相关，以给出相关值p (fa, fb):<formula>formula see original document page 15</formula>
(8)
在图4中，所示为用于分类音频信号M的系统4的简化方框图。这里，从存储介质40，例如硬盘、CD、 DVD、音乐数据库等等检索音频信号M。在第一阶段，使用用于特征集导出的系统1为音频信号M导出一个特征集S。转发所产生的该特征集S到概率确定单元43。这个相无率确定单元43还提供有来自数据源45的类特征信息42,该信息描述在特征空间中类的特征位置，音频信号有可能被分配到所述类。
在概率确定单元43中，距离测量单元46例如测量在特征空间中所述特征集S中的特征和类特征信息42提供的特征之间的欧几里德距离。判定单元47根据所述测量判定，若有的话，所述特征集S进而所述音频信号M能够被分配给哪个(哪些)分类。
在成功分类的情况下，可以在通过适当的链接48与音频信号M相关联的元数据文件41中存储适当的信息44。信息44或元数据可以包括音频信号M的所述特征集S和音频信号已经被分配给的那个类，以及，例如，对该音频信号M在多大程度上属于该类所进行的测量。
图5所示为用于比较诸如能够从数据库50、 51检索的音频信号M、 M，的系统5的简化方框图。借助于用于特征集导出的两个系统1、 r，分别为音乐信号M和音乐信号M，导出特征集S和特征集S，。仅仅为了简化起见，该图示出了用于特征集导出的两个单独的系统1、 1，。自然地，通过简单地执行针对一个音频信号M以及然后针对另一个音频信号 M，的导出能够实现单个这种系统。
特征集S、 S，被输入到比较器单元52中。在该比较器单元52中，在距离分析单元53中分析特征集S、 S，以确定在特征空间中特征集S、 S，的各个特征之间的距离。转发所述结果到判定单元54,该单元使用距离分析单元53的结果以判定两个音频信号M、 M，是否足够的相类似以至于被认为属于同一组。由判定单元54得到的结果作为适当的信号55 被输出，它可以是简单的是/否类型的结果，或者是有关两个音频信号M、 M，之间的相似性、或缺乏相似性的信息更加丰富的判断。
尽管已经以优选实施例及其变型的方式公开了本发明，但是应该理解在不背离本发明范围的条件下能够对本发明作出大量的其他修改和变型。例如，在表征音乐乐曲的音频处理设备中能够使用用于导出音乐信号的特征集的方法，其可能适用于产生音乐乐曲的描述性元数据。而且，本发明并不局限于所述的分析方法，而是可以应用任何适当的分析方法。
为了清楚起见，还应该明白在本申请中的"一"或"一个"的使用并不排除多个，以及"包括，，并不排除其他的步骤或单元。适当地，"单元，，或"模块，，可以包括大量的块或设备，除非被明确地描述为单个实体。
权利要求
1.一种导出音频输入信号(M)的一个特征集(S)的方法，该方法包括-识别音频输入信号(M)的大量第一阶特征(f1，f2，...，ff)；-从至少部分第一阶特征(f1，f2，...，ff)产生大量的相关值(ρ1，ρ2，...，ρI)；-使用相关值(ρ1，ρ2，...，ρI)编辑音频输入信号(M)的所述特征集(S)。
2. 根据权利要求1所述的方法，其中，从音频输入信号(M)的给定域中的一个或多个部分(tn t2， ...， t!)提取第一阶特征(fP f2,ff, fa, fb),相关值(p,, p2, Pi, P )的产生包括使用该域中的相应部分的第一阶特征(f\, f2, ff, fa, fb)对执行相关。
3. 根据权利要求2所述的方法，其中，从音频输入信号(M)的不同时间帧(t!, t2, ...，提取第一阶特征(f!, f2, ff, fa, fb),相关值(p,, p2,Pi, p )的产生包括使用不同时间帧(t" t2，...，t!)的第一阶特征(f" f2,…，ff， fa, fb)执行相关。
4. 根据权利要求3所述的方法，其中，对于多个时间帧中的每个时间帧(t!, t2， ...， t!)，提取作为时间的函数的第一阶特征向量(fvl, fv2, fvI)，相关值(P!,P2，…，Pt)的产生包括在大量的特征向量(fvl, fv2, ...， fvl)上执行特征向量(fvl, fv2,…，fvl)的某些元素之间的互相关。
5. 根据权利要求3所述的方法，其中，对于多个时间帧中的每个时间帧(tp t2, t!),提取作为频率的函数的第一阶特征向量(fvl,fv2, fvI)，相关值(P,,P2， ...，P!)的产生包括在频率上执行两个时间帧(th ti+1)的特征向量(fvl, fv2, fvl)的某些元素之间的互相关。
6. 根据前述权利要求任何之一所述的方法，其中，在产生相关值(P"P2, P!)之前用相应的第一阶特征(fl, f2，…，ff)的平均值调节在产生相关值(PP2, P!)中使用的第一阶特征f2, ff)。
7. 根据前述权利要求任何之一所述的方法，其中，所述特征集(S)包括大量的相关值(P!，P2, P!)和至少大量第一阶特征(f!,f2， ...， ff)的导出量。
8. —种将音频输入信号(M)分类成组，并基于音频输入信号(M) 的所述特征集(S)确定音频输入信号(M)落入大量组的任何一个组内的概率的方法，这里每个组表示特定的音频类，其中已经使用根据权利要求1到7任何之一所述的方法导出了所述特征集(S)。
9. 一种比较音频输入信号(M, M，)以确定音频输入信号(M, M，) 之间的相似程度的方法，该方法包4舌-导出第一音频输入信号(M)的第一特征集(S); -导出第二音频输入信号(M，)的第二特征集(S，)； -根据定义的距离度量计算在特征空间中第一和第二特征集(S, S，)之间的距离；-根据所述计算的距离确定第一和第二音频信号(M, M，)之间的相似性程度，其中已经使用根据权利要求1到7任何之一所述的方法导出所述第一和第二特征集(S)。
10. —种用于导出音频输入信号(M)的一个特征集(S)的系统 (1 ),包括-用于识别音频输入信号(M)的大量笫一阶特征(f!, f2,…， ff)的特征识别单元(12， 12，)；-用于从至少部分第一阶特征(fn f2,…，ff)产生大量相关值 (Pl, p2，…，Pi)的相关值产生单元(13, 13，)；-用于使用相关值(P!, P2, Pi)编辑音频输入信号(M)的所述特征集(S)的特征集编辑单元(14, 14，)。
11. 一种用于将音频输入信号(M)分类成组的分类系统(4), 包括用于基于音频输入信号(M)的所述特征集(S)确定音频输入信号(M)落入大量组的任何一个组内的概率的概率确定单元(43)，这里每个组表示特定的音频类，其中，已经使用根据权利要求1到7任何之一所述的方法导出所述特征集(S)。
12. —种用于比较音频输入信号(M, M，)以确定音频输入信号(M, M，)之间的相似性程度的比较系统(5),包括-比较器单元(52),它用于根据定义的距离度量计算在特征空间中第一和第二特征集(S, S，)之间的距离，以及用于根据所述计算的距离确定第一和第二音频输入信号(M, M，)之间的相似性程度，其中已经使用根据权利要求1到7任何之一所述的方法导出所述第一和第二特征集(S)。
13. —种音频处理设备，包括根据权利要求11所述的分类系统(4) 和/或根据权利要求12所述的比较系统(5)。
14. 一种可直接加载到可编程音频处理设备的存储器中的计算机程序产品，包括软件代码部分，当所述程序在该音频处理设备上运行时，所述代码部分用于执行根据权利要求1到7所述的导出一个特征集(S ) 的方法步骤或用于执行根据权利要求8所述的分类音频输入信号(M) 的方法步骤或用于执行根据权利要求9所述的比较音频输入信号(M, M，)的方法步骤。
15. —种包括从音频输入信号(M)导出的一个特征集(S)的数据库，其中已经使用根据权利要求1到7任何之一所述的方法导出所述特征集(S)。
全文摘要
本发明描述一种导出音频输入信号(M)的一个特征集(S)的方法，该方法包括识别音频输入信号(M)的大量第一阶特征(f1，f2，...，ff)，从至少部分第一阶特征(f1，f2，...，ff)产生大量的相关值(ρ1，ρ2，...，ρI)，使用相关值(ρ1，ρ2，...，ρI)编辑音频输入信号(M)的所述特征集(S)。本发明还描述将音频输入信号(M)分类成组的方法，以及比较音频输入信号(M，M’)以确定音频输入信号(M，M’)之间的相似性程度的方法。本发明还描述用于导出音频输入信号(M)的一个特征集(S)的系统(1)，用于将音频输入信号(M)分类成组的分类系统(4)，以及比较音频输入信号(M，M’)以确定音频输入信号(M，M’)之间的相似性程度的比较系统(5)。
文档编号G10H1/00GK101292280SQ200680038598
公开日2008年10月22日申请日期2006年10月16日优先权日2005年10月17日
发明者D·J·布里巴特, M·F·麦金尼申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D.J.布里巴特;M.F.麦金尼
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人