用于计算第一特征矢量和第二特征矢量之间相似性度量的方法和设备的制作方法

文档序号:6569260阅读:249来源:国知局
专利名称:用于计算第一特征矢量和第二特征矢量之间相似性度量的方法和设备的制作方法
用于计算第一特征矢量和第二特征矢量之间 相似性度量的方法和设备
本发明涉及计算第一音频和/或视频信号的第一特征矢量与第二 音频和/或视频信号的第二特征矢量之间的相似性度量的方法。
本发明进一步涉及用于计算第一音频和/或视频信号的第一特征 矢量与第二音频和/或视频信号的第二特征矢量之间的相似性度量的 电子设备。
本发明还涉及用于使得可编程设备操作时执行计算第一音频和/ 或视频信号的第一特征矢量与第二音频和/或视频信号的第二特征矢 量之间的相似性度量的方法的软件。
W02004/095315记载了这种方法的一个实施例。用于寻找相似音频 信号的这种已知方法具有的缺陷在于,由于要么不是所有相似的音频 信号都被找到,要么不是所有确定相似的音频信号都充分相似,在这 个意义上,所计算的相似性度量不是最优的。
本发明的第一目的是提供开篇段落中所述类型的方法,其提供更 精确的相似性度量计算。
本发明的第二目的是提供开篇段落中所述类型的电子设备,其提 供更精确的相似性度量计算。
依照本发明,所述第一目的的实现在于,该方法包括计算第一特 征矢量和第二特征矢量之间的距离的步骤,第一特征矢量和第二特征 矢量两者都包括第二维的特征值,其中使用了加权因子,该加权因子 赋给第一维的权重大于赋给第二维的权重。实验已经表明,通过向一 定维(特征)尤其是那些对于(音乐)分类重要的维赋予更大的权重 可以获得更为精确的相似性度量计算。
所述音频和/或视频信号可以来自任何适当的信源。最一般的情况 是,音频信号可能来自音频文件,其可以具有许多格式中的任意一种。 音频文件格式的例子有非压缩格式,例如(WAV);无损压缩格式, 例如Windows媒体音频(WMA);以及有损压缩格式,例如MP3(MPEG-1音频层3)文件、AAC (高级音频编解码)等等。同样地,通过使用任 何合适的技术来数字化音频信号可以获得音频输入信号,这对于本领 域技术人员来说是已知的。
在本发明方法的一个实施例中,特征中特定的一个特征的加权因 子取决于针对信号集合该特定的一个特征的值的方差(即某个维中所 有类的所有值的总方差)和/或取决于每类信号的该特定的一个特征的 平均值的方差(即某个维中多个平均值的方差,这些平均值针对每类 来确定)。以此方式,那些对于(音乐)分类重要的维被赋予了更大 的权重。方差可以在多维空间中进行计算。所述信号集合可以是公司 或组织拥有的集合或者个人的集合。如果所述信号集合是公司或组织 拥有的集合,那么加权因子可以在硬件中或者在软件中被预先配置, 或者可以是可经由因特网从所述公司或组织中获取的。
加权因子可以取决于每类信号的所述特定的一个特征的平均值的 方差与针对信号集合的该特定的一个特征的值的方差之比。
加权因子可以取决于所述第一或第二音频和/或视频信号的分类 (例如类別、调式和/或艺术家)。该分类可以例如从音频文件的ID3 标签中获取。例如,当用户选择摇滚歌曲作为种子歌曲时使用的被加 权的协方差矩阵可以不同于当他选择一首古典音乐作为种子歌曲时使 用的被加权的协方差矩阵。
依照本发明,所述第二目的的实现在于,所述电子设备包括电子 电路,该电子电路被操作来计算第 一特征矢量和第二特征矢量之间的 距离,第一特征矢量和二特征矢量两者都包括第二维的特征值,其 中使用了加权因子,该加权因子赋给第一维的权重大于赋给第二维的 权重。
本发明的这些和其他方面根据示例和附图是显然的,并且将通过 举例的方式参照附图进一步加以阐迷,在附图中


图1示出了在本发明实施例中使用的三个等式;
图2示出了两维特征空间中特征值的示例,其中这些特征值可以 分成两种类别;
附图中对应的元素用相同的参考数字来表示。本发明的方法可以用于寻找与目标歌曲或者当前播放的选择相似 的音乐。例如,如杲听众具有大的音乐集合并且正在聆听他特别喜欢
的一段音乐(track),那么他可以仅仅按下一个按键,该按键将启动 对整个音乐集合的搜索并且返回最相似歌曲的列表然后提示其准备好 用于回放。这样的功能在某些Philips消费设备中被称为LikeMusicTM。 这种功能预计会出现在便携式mp3播放器、汽车收音机和家庭娱乐系 统上,并且可用于大的本地音乐集合、流式音乐与音频以及广播音乐 与音频。此外,用户可以收听收音机并且让按键在其私人集合中搜索 相似的歌曲,或者反过来。LikeMusicTM算法工作在从音频波形自身自 动提取的特征(信号统计量)上,因此不需要外部的或者带注解的元 数据。第一个LikeMusicTM算法使用了标准的统计距离度量(马氏距离) 来计算歌曲之间的距离。
由于可以在多个维中描述音乐相似性,因此通常感兴趣的是分离 出相似性的特定维。本发明的方法通过修改所述第一个LikeMusicTM算 法以便加权对于音乐分类重要的那些特征维而提供了一种用于根据声 学参数计算沿特定知觉相似性维的相似性距离的有效方式。对于特征 维的加权可以基于例如类别、艺术家和/或调式分类。
在本发明方法的实施例中,该方法首先从每首歌曲中提取出特征 (描述性音频信号统计量)并且产生具有每个音轨名和关联特征的列 表。这些特征可以来自大范围的统计量。在现代PC上,数百次实时地 提取这些特征。当正在纟番放歌曲时,该方法可以从该歌曲中实时提取 特征,或者如果该歌曲来自数据库,则在数据库列表中查找该歌曲。 这些方法之间的区别在于,在数据库中列出的特征是在该整首歌曲上 进行平均的,而实时提取的特征仅代表该歌曲的一部分(这些特征可 以针对指定数量的时间累积,然后在那个时间上平均)。两种方法各 有优缺点,其取决于被分析的音乐类型(例如,如杲一首歌曲包含各 种风格并且有人只对这些特定风格中的一种感兴趣,那么出于那个目 的,局部的分析比在整首歌曲上平均要好)。然而,在大多数情况下, 歌曲的风格变化并不大并且两种方法得到相同的结果。
自动地或者通过按压按键执行的推荐过程将或者查找或者计算当 前播放选择的特征、计算当前歌曲和数据库中的每首歌曲之间的距离 度量D并且然后推荐最接近的20首歌曲。用户可以调节被推荐歌曲的数量,系统可以自动地提示和播放这些被推荐的(相似的)歌曲。距
离度量D是多维特征空间中特征矢量之间马氏距离的带加权因子的修 改形式,所述加权因子给对于音乐分类重要的维(特征)赋予更大的 权重。这个特征空间例如是20维空间。
音轨l和音轨2之间的距离D可以用图1的等式(1)来计算,其 中^和^分别为音轨1和2的矢量,W为数据库中所有特征矢量的净皮 加权的协方差矩阵。该被加权的协方差矩阵W是个常量,并不从一个 推荐到下 一个推荐发生变化。它可以根据公司或组织拥有的音轨集合 来确定,或者根据用户个人的音轨集合来确定。W可以用图1的等式(2) 来计算,其中C为来自(例如训练)数据库的所有特征的协方差矩阵, 并且gw为图1的等式(3)中所定义的类别加权矢量,其中^为总体 特征方差矢量(协方差矩阵C的对角,例如包括针对特征l的类别11 和13的特征值的方差以及针对特征2的类别11和13的特征值的方差, 参见图2) , ^g为每类别平均特征值的方差矢量(例如包括针对特征 1的类别11的平均特征值15与类别13的平均特征值17之间的方差以 及针对特征2的类别11的平均特征值15与类别13的平均特征值17 之间的方差,参见图2)。可以针对除音乐类别之外的音乐艺术家、音 乐调式分类或者个人音乐分类执行同一类型的计算。于是,每种变化 情况将沿相似性的不同维计算距离。
该方法可以在硬件中或者在软件中执行,例如在专用处理器上或 者在诸如Intel奔腾处理器或AMD Athlon处理器的通用处理器上执4亍。 执行该方法的电子设备可以是便携式设备或者诸如媒体中心PC/设备 的固定设备。
尽管已经结合优选的实施例描述了本发明,但是可以理解的是, 其在以上概括的原理内的修改对于本领域技术人员来说是显而易见 的,因此,本发明并不限于这些优选的实施例而是意欲包括这些修改。 本发明体现在每一种新颖特性特征以及特性特征的每一种组合之中。 权利要求中的附图标记并不限制其保护范围。动词"包括"及其变体
件)之前的冠词"一"或,"一个"的使用并没一有排除多个这样的元素 (元件)的存在。
对于本领域技术人员显而易见的是,"装置"指的是包括执行操作或者被设计来执行指定功能的任何硬件(例如分立或集成电路或者 电子元件)或软件,不管它是单独的还是结合了其他功能,不管它是 孤立的还是与其他元件协作。本发明可以借助于包括若干不同元件的 硬件以及借助于经过适当编程的计算机来实现。在列举了若干装置的 设备权利要求中,这些装置中的一些可以由同一硬件项来实施。"软 件,,应当被理解为指的是存储在诸如软盘的计算机可读介质上、可经 由诸如因特网的网络下载或者可以任何其他方式销售的任何软件产品。
权利要求
1.一种计算第一音频和/或视频信号的第一特征矢量与第二音频和/或视频信号的第二特征矢量之间的相似性度量的方法,该方法包括步骤-计算第一特征矢量和第二特征矢量之间的距离,第一特征矢量和第二特征矢量两者都包括第二维的特征值,其中使用了加权因子,该加权因子赋给第一维的权重大于赋给第二维的权重。
2. 如权利要求l所述的方法,其中特征中特定的一个特征的加权 因子取决于针对信号集合的该特定的一个特征的值的方差和/或取决 于每类信号的该特定的一个特征的平均值的方差。
3. 如权利要求2所述的方法,其中加权因子取决于每类信号的所述特定的一个特征的平均值的方差与针对信号集合的该特定的一个特 征的值的方差之比。
4. 如权利要求l所述的方法,其中加权因子取决于所述第一或第 二音频和/或视频信号的分类。
5. —种计算供权利要求1的方法中使用的加权因子的方法,其中特征中特定的一个特征的加权因子取决于针对信号集合的该特定的一 个特征的值的方差和/或取决于每类信号的该特定的一个特征的平均 值的方差。
6. 如权利要求5所述的方法,其中加权因子取决于每类信号的所述特定的一个特征的平均值的方差与针对信号集合的该特定的一个特 征的值的方差之比。
7. 用于使得可编程设备操作时执行权利要求1或权利要求5的方 法的软件。
8. —种用于计算音频和/或视频信号的第一特征矢量与第二特征 矢量之间的相似性度量的电子设备,该电子设备包括电子电路,该电 子电路被操作来-计算第一特征矢量和第二特征矢量之间的距离,第一特征矢量 和第二特征矢量两者都包括第二维的特征值,其中使用了加权因子, 该加权因子赋给第一维的权重大于赋给第二维的权重。
全文摘要
本发明计算第一音频和/或视频信号的第一特征矢量与第二音频和/或视频信号的第二特征矢量之间的相似性度量的方法,包括计算第一特征矢量和第二特征矢量之间的距离的步骤,第一特征矢量和第二特征矢量两者都包括第二维的特征值,其中使用了加权因子,该加权因子赋给第一维的权重大于赋给第二维的权重。本发明的电子设备包括电子电路,其被操作来执行本发明的方法。本发明的软件使得可编程设备操作时执行本发明的方法。
文档编号G06F17/30GK101292241SQ200680038718
公开日2008年10月22日 申请日期2006年10月16日 优先权日2005年10月17日
发明者D·J·布里巴特, M·F·麦克金尼 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1