组织内容项的方法

文档序号:6477066阅读:133来源:国知局
专利名称:组织内容项的方法
技术领域
本发明涉及一种组织内容项的方法。
本发明也涉及一种用于组织内容项的设备。
本发明也涉及一种计算机程序。

背景技术
US 5,918,223公开了一种用于寻找听起来与给定声音相似或者听起来与预定种类(class)的声音相似的音频数据文件或者数字音频分段的手段。该系统先测量每个声音文件的各种声学特征。它在声音文件的长度内按照定期间隔测量响度、低音、音调、亮度、带宽和梅尔(Mel)频率倒谱系数。然后,它计算这些特征中的每个特征的特定统计测量(即平均值和标准偏差)以描述它们随时间的变化。将这一统计测量集合表示为也称为特征向量的N向量。用户可以通过指定属于一定种类的声音文件集合来创建声音种类。在这种情况下,用户选择表明声音性质的声音样本,这些声音性质表明用户希望训练的性质。每个样本声音然后用来计算该集合的平均向量μ以及该集合的归一化向量V(归一化值是标准偏差或者范围值)。这些向量可以存储于定义类别(category)的单独数据库中。一旦已经通过提供具有定义的大程度的性质的向量集合来定义类别,那么可以将单独的声音与类别进行比较并且得出声音与类别之间的距离度量。实例向量A到由μ和V定义的类别的这一距离如下给定

i=0~N-1 可以比较该距离与某一阈值以确定声音是在该种类“以内”还是“以外”。如果预先已知一些声学特征对于该种类而言不重要,那么在计算距离时可以忽略这些声学特征或者给予这些声学特征以更低权重。
该已知方法的一个问题在于,计算的距离基于如下假设定义集合的N向量均匀地分布于平均值周围并且每个集合由相同数目的N向量定义。


发明内容
本发明的目的在于提供一种能够实现相对精确地将内容项组织成个人类别的在开篇段落中提到的那些类型的方法、设备和计算机程序。
这一目的通过根据本发明的方法来实现,该方法包括 获得将第一和至少一个另外的标签中的每个标签与多个第一内容项的相应集合关联的信息, 其中至少一个第一内容项响应于用户输入而与第一标签关联; 获得第二内容项; 对于第一和另外的标签中的每个标签,计算表征第二内容项的特征向量和表征与该标签关联的第一内容项的每个特征向量之间的相似性度量;并且 在根据相似性度量的计算值确定第二内容项与关联于第一标签的第一内容项相似时将第一标签与第二内容项关联。
内容项优选地包括代表声音摘录、静止图像或者图像序列中的至少一个的一个或者多个信号的记录或者链接记录的集合。
由于至少一个第一内容项响应于用户输入而与第一标签关联,所以该方法允许进行特定实施方式所特有的类别定义,这与基于测试人员将大量内容项分配给普遍定义的类别的类别定义形成对照。单个第一内容项将很少体现特定类别的内容项的所有特性。因此,将多个第一内容项的相应集合与标签关联。通过计算表征第二内容项的特征向量和表征与标签关联的第一内容项的每个特征向量之间的相似性度量来考虑表征与标签关联的第一内容项的特征向量在特征空间内的任何不均匀分布。另外,用于确定第二内容项与关联于标签的第一内容项相似的判据可以基于与该标签关联的集合中的第一内容项的数目。
在一个实施例中,允许用户借助于用户输入来定义第一标签。
通过允许用户为预定义或者用户组成的类别定义个人化标签,用户可以定义或者增强个人类别。
第一标签可以通过存储将第一标签链接到第二内容项的信息来与第二内容项关联。
由于第一标签通过存储将第一标签链接到第二内容项的信息来与第二内容项关联,所以可以更迅速地组装基于类别定义的播放列表,因为无需重复相似度测量。
用于组织内容项的本方法的一个实施例还包括允许用户借助于用户输入将至少一个第一内容项与第一标签关联。
通过允许用户选择将哪些第一内容项与用户定义或者预定义的第一标签关联,用户可以定义或者增强个人类别。
在一个实施例中,在确定第二内容项与关联于第一标签的第一内容项的相似性比与关联于所述另外的标签的第一内容项的相似性更大时将第一标签与第二内容项关联。
效果在于,没有必要定义用于确定第二内容项是否应当属于与第一标签对应的类别的阈值。相对判据也适合于实施一定方法,在该方法中类别在第二内容项可以分配给仅仅一个类别这一意义上是互斥的。这一类型的归类最明显地不同于用来通过搜寻与代表类别的特定第一内容项相似的第二内容项来生成播放列表的方法。这样的方法并不考虑相似内容项的聚类大小。
在一个实施例中,通过对每个特征向量所表征的内容项中包括的信号进行预定义信号分析以确定一定参数值,可获得该特征向量的至少一个坐标,该参数值代表当在再现设备上呈现时可感知的特性。
效果在于,该方法易于自动化。对相似内容项的确定是普遍和客观的。只有对代表特定种类的第一内容项的选择才包括主观要素。
一个实施例还包括将代表至少一个值的数据与第二内容项关联,该至少一个值基于表征第二内容项的特征向量和表征与第一标签关联的内容项的特征向量之间的相似性度量的值。
效果在于,可以进行对与查询相关的内容项的相对精化的搜索而不使用数目很大的标签,即很多类别定义。可以根据第二内容项有多接近地匹配于与第一标签关联的第一内容项对它们进行分等级,从而允许精化以标签代表的特性为目标的搜索的结果。
在一个实施例中,仅在确定基于表征第二内容项的特征向量和表征与标签关联的内容项的特征向量之间的相似性度量的值的至少一个值落在预定范围内时将第一标签与第二内容项关联。
效果在于,该方法在第二内容项与所有其它各种内容项不相似时相对较好地起作用。可选择所述范围以保证之所以与所有第一内容项不相似的内容项没有与它们关联的标签仅由于与该标签关联的第一内容项的集合的不相似度最小。
在一个实施例中,通过以下操作来计算相似性度量 根据加权距离度量来计算特征向量之间的加权距离;并且 将基于概率分布的函数应用于计算的加权距离。
效果在于,提供使相似性度量适应于不同数目的标签这一可能性。可以使用扩展度(spread)更小的概率分布,其中存在具有关联的第一内容项集合的大量另外的标签。
在一个实施例中,针对与第一和另外的标签关联的第一内容项的集合来参数化基于概率分布的函数。
效果在于,考虑了与第一和另外的标签关联的不同大小的第一内容项集合。
在一个实施例中,表征第二内容项的特征向量和表征与标签关联的内容项的任何特征向量之间的相似性度量由一定因子归一化,该因子依赖于与该标签关联的集合中包括的第一内容项的数目Mc。
效果在于,没有朝着由如下标签代表的类别偏置归类,这些标签具有与它们关联的大量第一内容项。
在一个实施例中,相似性度量由以值的范围为0-1的指数来指数化的如下因子归一化,该因子与关联于标签的集合中包括的第一内容项的数目Mc成反比。
对指数并且特别是约为0.5的值的这一选择适应如下事实对于不同类别而言,不同数目的第一内容项可以与代表这些类别的标签关联。如果不打算应用归一化,则这将导致朝着与许多第一内容项关联的标签的强偏置,因为基于概率分布的函数将按照与第一内容项的数目大致成比例的速率变大。换言之,少数内容项与之关联的标签将很可能分配给第二内容项。如果指数正好为1,则许多第一内容项与它关联的标签将与很少或者一个第一内容项与之关联的标签大致同样地可能分配给第二内容项。这不是所希望的,因为存在与特定标签关联的更多第一内容项这一事实是这一标签代表令人喜爱的类别(例如用户的特别偏好)的征兆。
在一个实施例中,基于概率分布的函数包括指定概率分布宽度的可变参数,其中向该可变参数赋以如下值,该值依赖于第一内容项与第一或者另外的标签之间关联的总数目。
效果在于,可以考虑第一内容项的数目以提供特征空间的很精细的分辨率或者保证特征空间由不同类别填充。随着更多第一内容项与标签关联,可以调节基于概率分布的函数。
在一个实施例中,对于第一和另外的标签中的特定标签,向可变参数赋以如下值,该值是根据与该标签关联的第一内容项集合中的特征向量配对之间的加权距离度量的多个最小距离的值的函数。
因此,在相对较多第一内容项与每个标签关联的情况下,所述参数变成代表在表征那些第一内容项的特征向量之间通常观察到的距离。
在一个实施例中,所述可变参数是根据表征与第一或者另外的标签关联的第一内容项的所有特征向量的任意配对之间的加权距离度量的平均距离的函数。
效果在于,即使在实际上很少第一内容项已经与第一和/或另外的标签关联的情况下,该参数值也可以基于表征与标签关联的集合中的第一内容项的特征向量之间的距离的经验值。
该方法的一个实施例包括使用在特征向量的坐标之间求差的加权距离度量并且基于通过以下操作可获得的特征加权矩阵来计算相似性度量 获得特征向量的训练集合,每个特征向量表征多个内容项之一; 每个特征向量包括在多个子集中的至少一个子集中,并且 用如下值填补加权矩阵,这些值被优化成使得公共子集中包括的特征向量配对相对于不相交子集中包括的特征向量配对将具有大的加权距离。
效果在于,距离度量并入了如下信息,该信息非常精确地将不同特征向量坐标量化为类别隶属关系的预测器。它可以基于非常大的训练集合。该方法本身可以在内容项的相对较小的汇集(collection)上实现,但是仍然适应于实施方式特有的类别定义并且产生良好的归类结果。
根据另一方面,根据本发明的一种用于组织内容项的设备包括电子电路,该电子电路操作用以 响应于用户输入将至少一个第一内容项与第一标签关联, 获得将至少一个另外的标签中的每个标签与多个第一内容项的相应集合关联的信息; 获得第二内容项; 对于第一和另外的标签中的每个标签,计算表征第二内容项的特征向量和表征与该标签关联的第一内容项的每个特征向量之间的相似性度量;并且 在根据相似性度量的计算值确定第二内容项与关联于第一标签的第一内容项相似时将第一标签与第二内容项关联。
该设备允许基于对内容项的一个或者多个特性与定义个人类别的特性的相像度的相对精确的评价来快速获取内容项。
根据另一方面,根据本发明的一种用于组织内容项的设备包括电子电路,代替或附加于操作用以允许用户借助于用户输入来定义第一标签并且在将第一标签与第二内容项关联时使得将第一标签链接到第二内容项的信息被存储的是,该电子电路还操作用以使用在特征向量的坐标之间求差的加权距离度量并且基于如下权重计算相似性度量,所述权重对于表征与第一和另外的标签关联的第一内容项的特征向量而言是不变的,所述加权距离度量被应用于所述特征向量。
这一设备能够独立于任何类别定义而根据客户定义的类别对内容项更有效地进行分类。加权距离度量给出潜在地更佳的分类结果,因为可以选择权重以区分某个类型的类别,例如与风格(genre)对应的类别或者与艺术家对应的类别。
在一个实施例中,该设备被配置成执行根据本发明的方法。
根据另一方面,根据本发明的计算机程序包括指令集,这些指令在并入机器可读介质中时使得具有信息处理能力的系统执行根据本发明的方法。



下面将参照附图更详细地说明本发明,在附图中 图1是个人音乐播放器的示意性框图; 图2是给出组织内容项的方法的概要的流程图; 图3是给出用在图2的方法中的提供特征加权矩阵的第一方法的概要的流程图; 图4是在按种类聚类的特征向量的二维特征空间中的第一分布类型的示意图; 图5是在按种类聚类的特征向量的二维特征空间中的第二分布类型的示意图; 图6是给出用在图2的方法中的提供特征加权矩阵的第二方法的概要的流程图;以及 图7是被设置用于借助图2中所示方法的变型来识别声音来源的个人计算机的框图。

具体实施例方式 在这里,使用电子设备1作为用于呈现内容项中包括的信号(例如文件中包括的数字音频、视频或者图像信号)的再现设备的实例。电子设备1可以是固定或者便携式设备。电子设备1可以是消费设备,例如TV或者机顶盒或者专业设备。文件存储于大容量存储设备2中。大容量存储设备2可以例如包括硬盘、固态存储器、光盘读取器或者全息存储装置。每个存储的文件还包括元数据。
通过接口3读取来自文件的数据。电子设备1还包括用于执行只读存储器6中存储的指令的处理器4和随机存取存储器5,这些指令包括使便携式音乐播放器1能够实现下述一种或者多种方法的指令。为了再现内容项中包括的信号,电子设备1包括通过输入/输出接口9而被提供数据的数字信号处理器7和再现设备8。再现设备8可以例如包括显示器和/或扬声器。用户能够通过用户接口来提供输入,该用户接口包括输入设备10(例如键盘和/或滚动按钮)和输出设备11。输入设备10和输出设备11可以例如包括网络连接器(例如USB连接器或者以太网连接器)、模拟音频和/视频连接器(比如cinch连接器或者SCART连接器)或者数字音频和/或视频连接器(比如HDMI或者SPDIF连接器)。输入设备10和输出设备11可以包括无线接收器和/或发射器。
用于分发和存储比如音频信息这样的内容项的新技术允许用户收集很大的音乐汇集。尽最大益处地使用这样大的音乐汇集变成对用户的一个挑战,并且需要开发用以辅助用户访问音乐汇集的技术。音乐分类是一种允许用户根据一些预定义类别(例如音乐风格或者与音乐关联的基调(mood))来组织音乐汇集的技术。自动音乐分类系统基于分类模型将音乐分类成一个或者多个类别。已知系统的一个弊端在于,它们的预定义类别常常与用户感知的类别不匹配。虽然用户有时可以将他的音乐人工分类成个人类别,但是他需要为他的整个音乐汇集这样做,这需要大量的工作。
这里概括的方法提供了一种允许用户付出有限数量的努力来定义个人种类的组织内容项的方法。该组织内容项的方法包括以下步骤允许用户定义标签;允许用户将至少一个第一内容项与标签关联;搜寻第二内容项,这些第二内容项具有与第一内容项相似的特性;并且将标签与第二内容项关联。通过使用相似性度量,第一内容项(即种子内容项)用作用户感兴趣的类别的原型实例。相似歌曲非常可能具有与种子歌曲相似的音乐内涵。因此,这一方法对于每一类别有很少种子歌曲已经有效。相同原理可以应用于其它类型的内容项。在个人化分类的情况下使用音乐相似性度量的一个附加优点在于获得对与种子歌曲的相似度的有意义的度量。通过这种方式,可以对最可能是个人类别一部分的歌曲进行等级排序,并且可以仅显示最可能属于该种类的歌曲,或者可替换地,可以在列表的顶部显示最可能的歌曲。同样,相同原理可以应用于其它类型的内容项。
下文将更详细地给出相似性度量的组成。使用在表征内容项的特征向量fx的坐标之间求差的加权距离度量来计算相似性度量。通过对特征向量fx所表征的内容项中包括的信号进行预定义信号分析可获得该特征向量fx的每个坐标。该分析产生如下参数值,这些参数值代表当在再现设备8上呈现信号时可感知的信号特性。对于音频信号而言,特征向量坐标的实例包括响度、低音、音调、亮度、带宽和梅尔频率倒谱系数。对于视频信号或静止图像而言,对比度、亮度、颜色分量的相对强度以及场景变化的频率可以被量化并且作为定义特征向量fx的参数而被包括。
图2的方法中所用加权距离度量基于与表征种子项的特征向量独立的权重。这意味着权重没有根据与加权距离的确定所针对的标签关联的哪个种子项集合而变化。相反,权重的值对于所有标签是恒定的。在所示实施例中,加权距离度量基于借助图3和图6中所示方法之一可获得的特征加权矩阵W。依次地,基于如下特征向量fx的训练集合来计算特征加权矩阵,这些特征向量表征比存储于大容量存储设备2中的汇集大得多的训练数据库中的分类内容项。
因此,图2中所示方法的第一步骤12一般不在电子设备1中执行,而是脱机执行。在若干变型中,电子设备可以使用加载到大容量存储设备2中的预先分类的训练集合来执行第一步骤12。然而,当在例如在有权访问更大内容项(每项标注有例如标识风格种类的额外数据)汇集的更强大数据处理系统中通常可用的大的训练集合执行时,第一步骤12产生更佳的结果。根据图3和图6中所示方法之一来执行第一步骤12并且下文将更详细地说明该步骤。
通常在生产电子设备1的工厂中执行第二步骤13。它涉及到将代表加权矩阵的数据加载到电子设备1中包括的存储器中,例如加载到ROM6或大容量存储设备2中。
当用户希望对电子设备1可访问的内容项汇集进行归类时,执行其余步骤。
步骤14包括允许用户定义标签。步骤15包括允许用户将至少一个第一内容项或者种子内容项与标签关联。为了进行有意义的归类,通过重复先前两个步骤14、15或者通过使用例如在工厂中预设的与种子内容项关联的默认标签来获得另外的标签。用户也可以执行两个步骤14、15中的仅仅一个步骤。例如,可以使用预设标签标识符,以及用户从他的个人汇集中选择的与种子项关联的这样的标签。附加地或者可替换地,用户可以改变与种子项集合已经关联的标签的标识符。
另外的步骤16包括获得将被分配给一定类别的非归类或者第二内容项。电子设备1将获得表征第二内容项的特征向量fx(步骤17)。它将通过自身根据预定算法进行信号分析来计算特征向量fx,或者它将取回如下数据,该数据代表先前计算的特征向量fx并且包括在内容项中或者由与内容项一起存储的元数据链接。
另外的步骤18包括构建个人化分类器。使用由歌曲组成的内容项汇集为例,可以在以下信息可用这一假设下构建个人化分类器。对于汇集中的每首歌曲,已经计算了平均特征向量。汇集中的所有歌曲的平均特征向量由N个向量f1...fN表示。此外,用户已经指定多个个人化种类描述符(步骤14)。对于每个个人化种类,已经指定至少一首实例歌曲(步骤15),并且应当存储对应的平均特征向量。这些实例特征向量将表示为

其中c表示特征向量所属的种类,而Mc是可用于种类c的实例特征向量的数目。实例歌曲特征向量和它们的对应种类标签在图2中表示为包含所有实例项的列表的两个阵列19、20和包含对应种类标签的一个阵列。
如已经指出的,用户可以通过给出用户输入来与个人化分类器交互。经由这一用户输入,将音乐汇集中可用的特征向量传送到分类器数据块21。
基于分类器数据块21中可用的数据,可以使用个人化分类器来自动标记音乐汇集。分类结果然后可以用来使音乐可供用户用于以播放列表的形式回放(如果希望的话)。利用本发明,可以以很方便的方式生成播放列表,因为对于每首歌曲而言,有如下音乐相似性度量可用,该音乐相似性度量表明该歌曲与它被分类到的类别匹配的程度。基于可用相似性度量,可以对播放列表的顶部的最相似歌曲进行等级排序。由于使分类结果可为用户所用,因而用户可以提供用户输入以表明歌曲(根据用户的意见)分类不正确。因此,用户可以给出引起数据块21中的实例歌曲列表的更新的用户输入。
对于音乐汇集中的每首歌曲,将使用音乐相似性度量Gxc来计算音乐相似性度量(步骤22)。在这里,x指的是音乐汇集内的歌曲;因此,x的范围可以为1...N,而c是相似度的计算所针对的种类(由多个实例歌曲代表)。
Gxc的可能定义如下 其中P是概率密度函数,N是归一化因子,而D是表示特征向量配对Sk和fx的相似度的加权距离度量。这一度量具有以下基本形式 D(Sk,fx)=(Sk-fx)TW(Sk-fx), (2) 其中W是加权矩阵。这一距离度量在音乐很相似时将倾向于具有小的值。如上面所提到的,最好基于预定义数据库来给出矩阵W,但是也可以根据可用实例歌曲来计算它。
然后,通过简单地寻找种类(其中在特定特征向量fx给定时Gxc是最大值)来获得fx的分类(步骤23) 应当指出的是,这一分类方式导致互斥的类别,即每首歌曲仅能属于单个类别。可替换地,有时可能优选的是歌曲属于多个类别。在该情况下可以用满足下式的所有歌曲填充类别 Gxc>Δ,(4) 其中Δ代表适当选择的判据值。
方程1中的函数P用来按照音乐听起来与实例歌曲相似的概率来估算音乐相似度。定义它使得如果音乐很相似(并且D很小)则P将为大,但是当音乐不相似(并且D为大)时P将接近零。使用高斯概率密度函数获得Gxc的以下表达式 其中σ是指定高斯分布宽度的参数。虽然有参数N和σ的选择自由度,但是经验已经教导使用σ的如下值很好地起作用,该值是针对任意特征向量配对观察的D的平均值的大约20%。它允许对概率密度函数的充分扩展以保证实例歌曲的影响在特征空间的合理大的部分内扩展而又小到足以在特征空间中具有足够的分辨率以区分不相似和相似的特征向量配对。
此外,使用被证明是一种很有用的选择。它适应用户可以针对不同类别提供不同数目的实例歌曲这一事实。如果不应用归一化,则这将导致朝着具有许多实例特征向量的种类的强偏置,因为概率密度函数将按照与实例歌曲数目大致成比例的速率变得更大。换言之,具有少数实例歌曲的种类很可能出现。如果归一化是N=Mc,则具有很多实例歌曲的类别将与具有仅仅一首实例歌曲的类别大致同样可能地出现。这不是所希望的,因为现在根本不能使用每一类别的实例歌曲数目作为用以用歌曲更密集地填补某些类别的手段。在一个种类中存在更多实例歌曲这一事实可以视为用户想要让更多歌曲分类到这一类别中的征兆。定义被证明是一种克服上述问题的良好方式。
使得参数σ可根据可用实例歌曲的数目而变化是值得的。基本思想在于,只要存在很少的实例歌曲,就应当选择参数σ大到足以填充特征空间,但是它应当小到足以仍然可以分辨种类之间的差异。通过选择σ相对较大,相同种类的不同实例歌曲的概率函数将倾向于大量地重叠。因此,隐含地假设在特征空间中并不存在不同(非重叠)聚类的种类,这只是因为根据有限数量的数据不能导出有关这样的聚类的存在性的必要信息。
当越来越多的实例歌曲可用于每个种类时,开始存在足够信息用以区分一个种类内的特征向量聚类。原则上,当存在聚类时,σ应当具有与在聚类内通常观察到的距离相当的量值。为了对聚类内的典型距离进行估计,在一个种类内的特征向量配对之间观察到的

最小距离用来估计σ的值。
导出σ所用的两种方式,即具有少数和许多实例歌曲的情况,可以通过在根据两种方式导出的σ之间进行加权求和来加以组合,其中权值依赖于实例歌曲的数目。
将待归类的内容项分配给最相似的类别的步骤23涉及到存储代表如下标签的数据,该标签将该类别表示为链接到内容项或者包括在内容项中的元数据。此外,可以类似地存储如下数据,该数据代表与定义类别的种子项的相似性度量Gxc的计算值。可替换地或者附加地,可以存储加权距离D(Sk,fx)。因此,如下相似性度量可用,该相似性度量表明归类的内容项与类别匹配的程度。基于可用的相似度,可以响应于以特定类别内的内容项为目标的搜索查询而产生等级排序。这样的搜索查询的实例是用以确定播放列表的命令。
可能出现待归类的内容项没有与任何由用户定义的类别良好地匹配。如图2中所示,如果最相似的类别的相似度值Gxc在第一阈值T1以上的预定范围内,则将内容项仅分配给最相似的类别(与距离度量形成对照的是,定义相似性度量使得更高的值表明更高的相似程度)。如果最相似的类别的相似度值Gxc落在第一阈值T1以下,则不将内容项分配给任何类别。
相反地,可能出现用户定义的类别并不完全互斥或者它们一起相对靠近地落在特征空间中。如图2中所示,内容项与除了代表最相似的类别的标签之外的至少一个标签关联(步骤24)。仅当表征第二内容项的特征向量fx与表征其它标签的类别的特征向量Sc2之间的相似性度量落在第二阈值T2以上的预定范围内才这样做。
现在将参照图3说明获得特征加权矩阵W的第一方法。在第一步骤25中,获得特征向量fx的训练集合。每个特征向量fx表征训练数据库的内容项之一并且可通过进行与用来获得电子设备1中所用特征向量的分析相同的分析来获得。此外,在代表类别的多个子集中的至少一个子集中包括每个特征向量fx。应当指出的是,这些类别一般与图2中所示方法的步骤14、15中定义的类别不同。然而,为了得到良好的分类结果,它们应当基于相同的性质。也就是说,它们应当基于风格,其中加权矩阵W的最终目的在于根据用户定义的风格对电子设备中的汇集进行归类。类似地,将训练集合的特征向量fx分配给子集应当基于艺术家,其中最终目的在于在电子设备1中进行自动化形式的艺术家识别。应当清楚的是,用来生成训练集合的内容项的艺术家无需与电子设备1的用户将之与他定义的标签关联的种子内容项的艺术家相同。图3的方法的目的仅在于用如下权重生成加权矩阵W,这些权重特别适于根据特定性质(例如艺术家或者风格)来提供归类。
对于与种类c对应的每个子集,计算平均特征向量μc(步骤26)。此外,计算种类内方差σ2μc(步骤27)。该方法也包括针对定义特征空间的所有特征向量fx计算方差σ2f(步骤28)。也用值填补特征加权矩阵W,使得使用它来计算的加权距离依赖于不同特征向量坐标之间的协方差。换言之,特征加权矩阵W是非对角矩阵。为此,针对训练集合中的所有特征向量fx计算协方差矩阵C(步骤29)。可替换地,这一矩阵C可以基于训练集合的代表性随机样本以减少计算负荷。
根据下式计算计算特征加权矩阵W(步骤30) W=gw·C-1·gw′,(6) 其中gw是通过将代表种类内方差σ2μc的平均值的向量逐个元素地除以代表所有特征空间内的方差σ2μc的向量并且求取平方根来获得(步骤31)的加权因子。
如果一个特征向量坐标是类别隶属关系的良好预测器,则以这一方式获得的加权矩阵W是良好的分类器。这将对应于其中代表类别的子集沿着特征空间的一个维度分布的情形。图3的方法考虑了子集沿着各种维度多大程度地“展开”。
图4和图5描绘了将特征向量分配给子集,其中图6中所示的不同方法产生更适当的加权矩阵。
在图4中,表示了四个类别。实心点表示子集的平均数特征向量,而圆形代表不同种类的等概率轮廓。实际上,它们表示子集的边界。可以看出,类别平均值大致沿着成四十五度的直线散开。每个单独的特征对类别之间的区分产生的贡献相等。图3中所示方法因此将对特征1和2相等地进行加权。然而,应当清楚的是,在箭头所示方向上不同的特征向量比在与之垂直的方向上不同的特征向量更可能属于不同的子集。出于这一原因,用如下值填补使用图6的方法来获得的特征加权矩阵W,这些值是每一子集的不同特征坐标配对的平均值之间协方差的函数。
在图5中,同样表示了四个类别。然而,子集内的特征向量这次没有在特征空间内均匀地分布。特定子集内的方差在箭头的方向上比在与箭头垂直的方向上更大。与在垂直于箭头的方向上不同的特征向量相比,在箭头的方向上彼此不同的特征向量更不确定处于不同的子集——对应于不同的类别——中。出于这一原因,用如下值填充使用图6的方法获得的特征加权矩阵W,这些值是按照子集平均的在子集内的不同特征向量坐标配对之间的协方差的函数。
在说明图6中所示步骤之前,说明理论背景是有用的。
假设表征N个内容项的N特征向量fx的训练集合可用。为了简单起见,还假设定义特征向量fx使得所有特征向量fx的平均等于零向量。这总是可以通过减去适当的向量来实现。也假设特征向量fx具有K个分量。
特征向量fx已经分配给代表M个标记的类别的子集。在下文中,c(fx)表示特征向量x的类别。可以针对每个子集定义平均特征向量μCx。
为了简化以下说明,定义零类别平均特征向量ax如下 其中

表示与fx关联的类别的平均特征向量。零类别平均特征向量ax将帮助保证特征向量ax的每个分量的类别内(协)方差相等。所有类别关联于与零向量相等的平均特征向量ac。
现在,可以用所有N个零类别平均特征向量ax填充K×N矩阵A。具有矩阵A并且知道所有特征向量ax(x=1...N)的集合具有零平均值,零类别平均特征向量ax的类别内协方差矩阵C可以计算如下 C=AAT (8) 类别内协方差矩阵C是对称的,因此可以对C进行以下奇异值分解 C=QSQT (9) 其中Q是包含C的本征向量(eigenvector)的酉矩阵,而S是包含C的相应本征值(eigenvalue)的对角矩阵。根据方程(8)和(9)推知
其中并且 由以上可见,矩阵B具有与单位矩阵相等的协方差矩阵。因此,矩阵B内的变换后的特征向量具有零协方差和单位方差。变换ax→bx将零类别平均特征向量ax变换成白化特征空间,其中在每个种类产生近似相似的协方差矩阵这一假设下属于一个类别的特征向量具有零协方差和单位方差。
继续阐述特征向量和变换成白化特征空间的平均特征向量 应用这一变换并且基于它导出加权矩阵W具有的效果在于,所得到的加权距离度量考虑了类别内(协)方差。因此,无论平均向量μ在特征空间中分布的方向如何,该度量对于图5中所示椭圆形特征向量分布而言都产生更佳的结果。
与此独立的是,用来填补特征加权矩阵的值也是每一子集的不同特征向量坐标配对的平均值之间的协方差(“跨类别”协方差)的函数。这将从下文对理论背景的说明中变得清楚。
其思想在于,构造特征向量gx与gy之间的差矩阵T并且对该差矩阵应用一定准则(norm),其基于属于不同类别的特征向量配对的期望值与属于相同种类的特征向量配对的期望值之差。
差矩阵T可以记作如下 T=(gx-gy)(gx-gy)T(13) 使用逐个元素的符号表示,属于不同类别的特征向量配对的期望值为 其中L是第一和第二求和的元素的合计总数目,该数目等于属于不同类别的特征向量配对的数目。
方程(14)可以改写为 应用以下一次近似 两项中的第二项包含方程(14)中假设为具有近似相同的平均值的叉积。这一假设对于如下训练集合有效,在这些训练集合中存在比属于相同类别的特征向量配对多得多的属于不同类别的特征向量配对。事实上,末项近似为零,因为已经定义特征向量,使得在训练集合中的所有向量上具有零平均值(已经以这一方式定义了ax,并且向白化特征空间的变换并未改变这一性质)。除了属于特定类别的特征向量之外的所有特征向量的平均也近似为零。由此推知属于不同类别的特征向量配对的差矩阵的期望值
可以将白化特征空间中的特征向量改写为平均特征向量

与扰动εx之和 属于不同类别的特征向量配对的差矩阵T的期望值于是变成 扰动对于每个类别而言具有零平均值。利用这一事实,期望值变成 属于相同类别的特征向量配对之间的差矩阵的期望值定义如下 如果假设每一类别的特征向量数目对于每个类别而言大致相同并且特征元素的协方差并不依赖于类别,则可以改写方程(21)如下 从而最终表达式变成 使用方程(20)和(23),可以将属于不同类别的特征向量配对的差矩阵的期望值与属于相同类别的特征向量配对的期望值之差记为 这一方程用来定义用于确定两个特征向量gk和gl是属于相同还是不同类别的准则。根据最优检测理论来获得该准则。可以将信号Y[n]记为待检测的信号XS[n]与随机噪声信号XN[n]之和。如果噪声信号是对于n的每个值而言平均值等于零的方差恒定的白高斯分布信号,则使用与信号XS[n]相等的匹配滤波器来获得最优检测器。将这一点应用于讨论的问题,这样的噪声信号为 XN[n]=Tkl(i,j)-<Txy(i,j)>w (25) 其中n枚举i和j的所有组合,并且其中假设XN[n]由于减去方程(25)中的末项而具有零平均值。待检测的信号为 Xs[n]=<Txy(i,j)>a-<Txy(i,j)>w (26) 滤波器方程因此变成 该方程可以记为 方程(28)中的末项恒定,一种更便利的距离度量为 使用方程(13),从而获得 代入方程(24)从而获得 定义如下矩阵Ω是便利的,其中Ω(i,j)=ωj(i),即第j个变换的特征向量的第i个元素,j=1...N,i=1...K。利用这一定义,加权距离度量变成(在白化特征空间中) Dkl=(gk-gl)TΩΩT(gk-gl) (32) 计算特征加权矩阵W的该方法的实施例导致将应用于原特征向量fx的特征加权矩阵。利用ω和g的定义,可以改写方程(32)如下
方程(2)的加权矩阵W因此变成 W=VVT (34) 其中 V=QS-1QTU (35) U是由所有类别的平均特征向量形成的矩阵,定义为U(i,j)=μj(j),即第j个类别的平均特征向量的第i个元素。
图6示出了可以如何进行基于特征向量fx的给定训练集合对加权矩阵W的实际计算。在第一步骤32中,获得归类的特征向量的训练集合。对于与类别对应的每个特征向量子集,计算平均特征向量μc(步骤33)。随后,根据方程(7)变换特征向量fx以获得零类别平均特征向量ax(步骤34)。针对每个类别重复这些步骤33、34。
根据方程(8)计算类别内协方差矩阵C(步骤35)。通过应用奇异值分解算法根据方程(9)计算矩阵Q、S(步骤36)。这样的算法本身已知并且这里不详细加以描述。
并行或者连续地,形成所有平均特征向量的矩阵U(步骤37)。然后,根据方程(34)和(35)确定特征加权矩阵(步骤38)。特征加权矩阵W例如可以在生产电子设备1时加载到它的存储器中。
上文已经使用了电子设备1的实例,其中应用组织内容项的方法对大容量存储设备2上存储的个人汇集进行归类。所有上述方法的另一用途在于确定声音(例如语音)来源。在这样的实施例中,图3和图6的方法之一应用于表征来自不同来源的声音记录的特征向量的训练集合。将表征来自相同来源的声音摘录的特征向量分组成子集。因此,类别对应于声音来源。优化通过应用任一方法而获得的加权矩阵W以便区分不同的声音来源,例如不同的说话者。
图7示意地示出了配备有声音识别软件的计算机39。计算机39包括数据处理单元40和主存储器41。在盘驱动器42上提供如下软件,指令经由接口43从该软件加载到主存储器41中。芯片组44与到输入设备46(例如键盘)的接口45形成接口、与到输出设备48(例如可视显示单元)的接口47形成接口并且与声卡49形成接口。声卡49具有用于麦克风50的输入,该麦克风用于捕获声音摘录。
计算机39上安装的声音识别软件包括或者操作用以取回代表特征加权矩阵W的数据。该软件也响应于用户输入操作用于从第一和至少一个另外的来源中的每个来源获得至少一个样本声音摘录并且将标签与表征这些摘录的特征向量关联。标签表明从其获得声音摘录的来源。根据实施方式,可以允许用户借助于经由输入设备46提供的用户输入来定义标签。通过这种方式,计算机39被设置成识别来自与标签关联的任何来源的声音。
在后续阶段中,捕获来自未知来源的声音摘录并且确定表征它的特征向量。使用与图2中描绘的方法匹配的方法,通过对于第一和另外的标签中的每个标签,计算表征来自未知来源的声音摘录的特征向量和表征与标签关联的声音摘录的特征向量——对于特定的来源,多个特征向量可能可用——之间的相似性度量来确定最可能的来源。基于特征加权矩阵使用加权距离度量来计算相似性度量。计算机39通过确定新声音摘录与关联于特定标签的声音摘录比与关联于任何其它标签的声音摘录更相似来确定新声音摘录的来源。在输出设备48上提供涉及这一特定标签的适当输出。
与在图2所示实施例中一样,声音识别软件可以被配置成仅当最相似来源的相似度值Gxc处于第一阈值T1(回顾更高的值表明更高的不相似程度)以下的预定范围内,才将来自未知来源的声音摘录分配给最相似的已知来源。如果最相似类别的相似度值Gxc落在第一阈值T1以上,则计算机39将向用户表明新声音摘录最可能并非来自先前已知来源之一。
导出最优特征加权矩阵——相对较大的训练集合可以用于该矩阵——与在部署点提供与标签关联的样本项的阶段之间的分离在应用于声音识别时与在应用于对内容项的个人汇集的归类时具有相同的效果。少量样本内容项在部署点足以产生良好的归类结果。通过在应用的加权距离度量中使用最适当的权重保证了质量。
应当指出的是,上述实施例举例说明了而不是限制了本发明,并且本领域技术人员将能够设计出许多可替代的实施例而不脱离所附权利要求的范围。在权利要求中,置于括号之间的任何附图标记都不应解释为对权利要求的限制。动词“包括”及其变化形式的使用并不排除存在权利要求中未记载的元件或者步骤。元件之前的冠词“一”或“一个”并不排除存在多个这样的元件。可以借助于包括若干不同元件的硬件以及借助于经过适当编程的计算机来实施本发明。在枚举若干装置的设备权利要求中,这些装置中的一些可以由同一项硬件实施。在相互不同的从属权利要求中记载某些措施这一事实并不表明不能有利地使用这些措施的组合。
本领域技术人员应当清楚的是,“装置”意指包括执行操作或者被设计成执行指定的功能的任何硬件(比如分立或者集成电路或者电子元件)或者软件(比如程序或者程序的部分),其独自地或者与其它功能结合、其为孤立的或者与其它元件协作。“计算机程序”应当被理解为表示存储于计算机可读介质(例如光盘)上的、可经由网络(例如因特网)下载的或者以任何其它方式可销售的任何软件产品。
这里已经描述了一种适合于基于相对较小量的内容项的先前分类来进行内容项分类的方法、设备和计算机程序。
该组织内容项的方法包括 获得将第一和至少一个另外的标签中的每个标签与至少一个第一内容项的相应集合关联的信息, 其中至少一个第一内容项响应于用户输入而与第一标签关联; 获得第二内容项; 对于第一和另外的标签中的每个标签,计算表征第二内容项的特征向量和表征与标签关联的第一内容项的至少一个特征向量之间的相似性度量;并且 在根据相似性度量的计算值确定第二内容项与关联于第一标签的第一内容项相似时将第一标签与第二内容项关联,其中使用在特征向量的坐标之间求差的加权距离度量来计算相似性度量。其特征在于,加权距离度量基于如下权重,所述权重对于表征与第一和另外的标签关联的第一内容项的特征向量而言是不变的,所述加权距离度量被应用于所述特征向量。
由于针对第一和另外的标签中的每个标签计算表征第二内容项的特征向量和表征与标签关联的内容项的至少一个特征向量之间的相似性度量,所以实现了真实的归类,因为评估了所有候选类别。由于在确定第二内容项与关联于第一标签的第一内容项相似时将第一标签与第二内容项关联,所以基于少量内容项样本或者甚至仅仅一个内容项样本以相对简单的方式实现了归类。下文将定义类别或者种类的这些第一内容项称为“种子项”。特别地,该方法无需将表征特征空间的统计函数用于对新内容项的分类。由于使用在特征向量的坐标之间求差的加权相似性度量来计算相似性度量的值,所以可以获得更佳的分类结果。特别地,该方法提供了如下可能性基于由测试人员分类的大量内容项来“训练”相似性度量以便使用与待实施的分类类型相适合的加权值。例如,可以选择权重以提供朝着鉴别音乐风格来调整的相似性度量。由于加权距离度量基于与表征第一内容项的特征向量独立的权重,所以可以“脱机”(即基于内容项的单独和大得多的通用汇集)实现“训练”阶段以便提供适合特定目的(即语音识别、风格分类、基调分类、艺术家分类等)的分类器。第一和至少一个另外的标签与至少一个第一内容项的相应集合的关联允许与用来获得加权距离度量中所含权重的种类定义独立的个人化风格定义、基调定义、艺术家定义等。因此,该方法体现了如下认识易用并且精确的加权距离度量应当依赖于分类类型而不是种类。与种类独立的加权距离度量结合先前未知的用户定义种类易于实施。这样的度量无需基于某一用户输入调节权重。
这一实施例解决了US5,918,223中记载的方法的另一问题仅当该方法基于对用户希望训练的表征特定性质的样本的相对大的选择,它才产生良好的结果。因而,它不那么适合于进行针对特定听众而个人化的并且基于借助小的样本集合而提供的类别定义的分类。对距离计算的依赖于种类的加权几乎不可能以使它易于使用并且给出精确结果这样的方式在在消费设备中实现。
这里也已经描述了一种提供用在根据本发明的组织内容项的方法中的特征加权矩阵的方法,该方法包括 获得特征向量的训练集合,每个特征向量表征多个内容项之一, 每个特征向量包括在多个子集中的至少一个子集中,并且 用如下值填补加权矩阵,这些值被优化成使得共同子集中包括的特征向量配对相对于不相交子集中包括的特征向量配对将具有大的加权距离。
在一个实施例中,用值填补加权矩阵,使得特征向量坐标由至少一个因子加权,该至少一个因子是以下各项中的至少一项的函数 训练集合中包括的所有特征向量上该特征向量坐标的值的方差,以及 每一子集的该特征向量坐标的平均值的方差。
效果在于,对于区分内容项类别而言重要的特征空间维度被给予更多权重。
在一个实施例中,用值填补加权矩阵,使得特征向量坐标由至少一个因子加权,该至少一个因子是每一子集该特征向量坐标的平均值的方差除以训练集合中包括的所有特征向量上该特征向量坐标的值的方差的函数。
效果在于,与其在整个训练集合上的变化相比而言值在子集之间变化大的特征被更大程度地加权。
在一个实施例中,用值填补加权矩阵,使得加权距离依赖于不同特征向量坐标之间的协方差。
效果在于,在两个特征相对较大地、但总是以协调的方式变化的情况下,分配给这些特征的权值相对于它们对于预测子集隶属关系而言的适合性并非太小。
在一种变型中,用如下值填补加权矩阵,这些值是每一子集的不同特征向量坐标配对的平均值之间的协方差的函数。
效果在于,在特征向量坐标的某些组合是子集隶属关系的良好预测器时允许提供更精确的相似性度量。
在一种变型中,用如下值填补加权矩阵,这些值是每个子集内的不同特征向量坐标配对之间的协方差的函数。
效果在于,考虑了由没有在某一平均值周围均匀分布的特征向量定义的子集。当分布在特定方向上倾斜时,沿着该方向的距离在基于特征加权矩阵的距离度量被应用于度量特征向量到定义类别的一个或者多个特征向量的距离时被更少程度地加权,因为加权矩阵并入如下知识沿着这一方向的大的变化将是预期中的。
该方法的一个实施例包括将代表加权矩阵的数据加载到消费电子设备中包括的存储器中。
这一实施例代表本发明很适合的一种实施方式,因为加权矩阵可以基于比可用于由消费电子设备再现的内容项大得多的训练集合。因此,消费电子设备的用户可以基于小的内容项汇集结合个人种类定义来使用相对精确的分类器。
上述另一方面涉及一种根据本发明的方法的用途,其中在用于识别声音来源的系统中使用在特征向量的坐标之间求差的加权距离度量并且基于如下权重计算相似性度量,所述权重对于表征与第一和另外的标签关联的第一内容项的特征向量而言是不变的,所述加权距离度量被应用于所述特征向量。
该用于识别声音来源的系统可以包括一种用于基于说话者的语音的记录来识别他的语音识别系统。
由于基于少量内容项样本或者甚至仅仅一个内容项样本以相对简易的方式实现因本发明而变得可能的归类,所以它很适合于其中只有来自特定来源的少量声音样本可能可用的声音识别系统。由于该方法提供了基于向声音的相应来源分配的大量声音来“训练”相似性度量这一可能性,所以可以使用特别适合于区分不同声音来源的加权值。
权利要求
1.一种用于组织内容项的方法,包括
获得将第一和至少一个另外的标签中的每个标签与多个第一内容项的相应集合关联的信息(19-21),
其中至少一个第一内容项响应于用户输入而与所述第一标签关联;
获得第二内容项;
对于所述第一和另外的标签中的每个标签,计算表征所述第二内容项的特征向量和表征与所述标签关联的第一内容项的每个所述特征向量之间的相似性度量;并且
在根据所述相似性度量的计算值确定所述第二内容项与关联于所述第一标签的所述第一内容项相似时将所述第一标签与所述第二内容项关联。
2.根据权利要求1所述的方法,其中
允许用户借助于所述用户输入来定义所述第一标签。
3.根据权利要求1或者2所述的方法,其中
通过存储将所述第一标签链接到所述第二内容项的信息来将所述第一标签与所述第二内容项关联。
4.根据权利要求1、2或者3所述的方法,还包括
允许用户借助于所述用户输入将至少一个第一内容项与所述第一标签关联。
5.根据任一前述权利要求所述的方法,其中在确定所述第二内容项与关联于所述第一标签的所述第一内容项比与关联于所述另外的标签的所述第一内容项更相似时将所述第一标签与所述第二内容项关联。
6.根据任一前述权利要求所述的方法,其中可通过对每个特征向量所表征的内容项中包括的信号进行预定义信号分析以确定参数值来获得该特征向量的至少一个坐标,所述参数值代表所述信号在再现设备上呈现时可感知的特性。
7.根据任一前述权利要求所述的方法,还包括将代表至少一个值的数据与所述第二内容项关联,所述至少一个值基于表征所述第二内容项的所述特征向量和表征与所述第一标签关联的内容项的所述特征向量之间的相似性度量的值。
8.根据任一前述权利要求所述的方法,其中仅在确定基于表征所述第二内容项的所述特征向量和表征与所述第一标签关联的内容项的所述特征向量之间的相似性度量的值的至少一个值落在预定范围内时将所述第一标签与所述第二内容项关联。
9.根据任一前述权利要求所述的方法,其中通过以下操作来计算所述相似性度量
根据加权距离度量来计算特征向量之间的加权距离;并且
将基于概率分布的函数应用于计算的加权距离。
10.根据权利要求9所述的方法,其中针对与所述第一和另外的标签关联的所述第一内容项的集合来参数化所述基于概率分布的函数。
11.根据权利要求9或者10所述的方法,其中表征所述第二内容项的特征向量和表征与标签关联的内容项的任何特征向量之间的相似性度量由因子归一化,所述因子依赖于与所述标签关联的集合中包括的第一内容项的数目Mc。
12.根据权利要求11所述的方法,其中所述相似性度量由以值的范围为0-1的指数来指数化的因子归一化,所述因子与关联于所述标签的集合中包括的第一内容项的数目Mc成反比。
13.根据权利要求9-12中的任一项所述的方法,其中所述基于概率分布的函数包括指定所述概率分布的宽度的可变参数,其中向所述可变参数赋值,所述值依赖于第一内容项与所述第一或者另外的标签之间关联的总数目。
14.根据权利要求13所述的方法,其中对于所述第一和另外的标签中的特定标签,向所述可变参数赋值,所述值是根据与该标签关联的所述第一内容项的集合中的特征向量配对之间的加权距离度量的多个最小距离的值的函数。
15.根据权利要求13或者14所述的方法,其中所述可变参数是根据表征与所述第一或者另外的标签关联的所述第一内容项的所有特征向量的任意配对之间的加权距离度量的平均距离的函数。
16.根据任一前述权利要求所述的方法,包括使用在所述特征向量的坐标之间求差的加权距离度量并且基于通过以下操作可获得的特征加权矩阵来计算所述相似性度量
获得特征向量的训练集合,每个特征向量表征多个内容项之一,
每个特征向量包括在多个子集中的至少一个子集中,并且
用如下值填补所述加权矩阵,所述值被优化成使得共同子集中包括的特征向量配对相对于不相交子集中包括的特征向量配对将具有大的加权距离。
17.一种用于组织内容项的设备,包括电子电路(2-11;40-50),所述电子电路操作用以
响应于用户输入而将至少一个第一内容项与第一标签关联,
获得将至少一个另外的标签中的每个标签与多个第一内容项的相应集合关联的信息;
获得第二内容项;
对于所述第一和另外的标签中的每个标签,计算表征所述第二内容项的特征向量和表征与所述标签关联的第一内容项的每个所述特征向量之间的相似性度量;并且
在根据所述相似性度量的计算值确定所述第二内容项与关联于所述第一标签的所述第一内容项相似时将所述第一标签与所述第二内容项关联。
18.根据权利要求17所述的设备,配置成执行根据权利要求1-16中的任一项所述的方法。
19.一种包括指令集的计算机程序,所述指令在并入机器可读介质中时使得具有信息处理能力的系统(1;39)执行根据权利要求1-16中的任一项所述的方法。
全文摘要
一种组织内容项的方法包括获得将第一和至少一个另外的标签中的每个标签与第一内容项的相应集合关联的信息(19-21)。至少一个第一内容项响应于用户输入而与第一标签关联。获得第二内容项。对于第一和另外的标签中的每个标签,计算表征第二内容项的特征向量和表征与该标签关联的第一内容项的每个特征向量之间的相似性度量。在根据相似性度量的计算值确定第二内容项与关联于第一标签的第一内容项相似时将第一标签与第二内容项关联。
文档编号G06F17/30GK101675431SQ200880014463
公开日2010年3月17日 申请日期2008年4月24日 优先权日2007年5月1日
发明者S·L·J·D·E·范德帕, M·F·麦克金尼, J·斯科罗尼克 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1