生成与内容项的集合相关联的元数据的制作方法

文档序号:6478633阅读:210来源:国知局

专利名称::生成与内容项的集合相关联的元数据的制作方法
技术领域
:本发明涉及一种自动生成与内容项的集合相关联的元数据的方法,该元数据对用于处理内容项中所包含的数据的系统来说是可访问的。本发明还涉及一种用于自动生成与内容项的集合相关联的元数据的系统。本发明还涉及一种计算机程序。
背景技术
:US2006/0020597涉及利用可视图像内容评估来实现与可视图像的各种交互,比如,可视图像集合的索引、可视图像集合的可视图像的分组、可视图像集合的概要、可视图像分组的注解、搜索可视图像以及对来自可视图像分组的代表性可视图像进行识别。可以通过如下方式来注解可视图像集合中的可视图像分组识别每个分组的图像表示、确定每个图像表示与每个其他图像表示的相似性、以及基于每个图像表示与其他图像表示的相似性来注解可视图像分组。可视图像分组的图像表示可以是该可视图像分组中所有可视图像的一个或多个图像特性的平均值。已知方法的问题在于,图像特性的平均值通常是没有意义的。特别是对于大的图像分组,图像特性的平均值将趋向成为所述特性的可能值的范围的中值。这使得所述注解不太适合用于浏览和搜索分层组织的可视图像。
发明内容本发明的目的是提供一种上面开头段落中所提及类型的方法、系统和计算机程序,其适合用于在人为干预最小或根本没有人为干预的情况下,生成内容项的集合的高效表示,以便通过用于处理所述内容项的系统对这种集合进行迅速定位。该目的是通过根据本发明的方法实现的,该方法包括获得与内容项单独地相关联的各个元数据组,每组元数据包括与该内容项相关联的至少一个属性值,分析属性值在与各个内容项相关联的各组元数据上的至少一个分布,根据所述分析选择至少一个属性值,处理所选的属性值以生成与所述集合相关联的元数据,并且使所生成的元数据在对内容项集合的识别方面可被用于处理内容项中所包含数据的系统利用。在本发明的上下文中,元数据的意思是描述信息承载(bearing)实体的特性的结构化编码数据。通过处理所选的属性值来生成与所述集合相关联的元数据,与例如选择代表性的内容项或所有内容项的元数据的详尽列表相比,获得了更高效的表示。通过选择属性值,而不是使用所有属性值,使得所生成的元数据相对地富于表现力。通过基于对属性值在与各个内容项相关联的元数据组上的至少一个分布的分析来选择所述属性值,使得选择与所述集合有关的属性值成为可能。而且,分析值的分布和选择一个或多个属性值的步骤适于自动执行,使得原则上用户干预不是必需的。通过使所生成的元数据可被用于处理内容项中所包含数据的系统用在对内容项集合的识别方面,使得系统的用户可以能够通过首先定位内容项的集合、随后可选地定位集合中的各个内容项,来更高效且更准确地定位相关内容项。一个实施例包括使用由分层文件系统维持的数据来识别所述集合中所包含的内容项。所获得的效果是,一种自动化系统能够执行下述方法在即将生成元数据时,在没有人为干预的情况下相对容易地识别所述集合的成员。也就是说,人们不需要提供用于定义所述集合的输入数据。一种分层文件系统提供了将内容项组织成目录和子目录(或类似物,比如嵌套的文件夹),每个目录和子目录表示一个集合。在一个实施例中,根据所述分析选择至少一个属性值包括选择少于所有属性的至少一个值,其中所述所有属性具有在与所述集合中的内容项单独相关联的元数据组中所包含的值。一种效果是,仅仅使用相关属性生成所述集合的简明描述。那些不适于表征所述集合、或一般不适于表征所考虑类型的内容项集合的属性的值不被使用。一个实施例包括选择多个属性中每个属性的至少一个值,数量基于下列之一用户输入,和对属性值在与各个内容项相关联的元数据组上的至少一个分布的分析结果。一种效果是,可以适配与内容项的集合相关联的元数据的容量以使其或多或少地富于表现力并且/或者表示内容项的完整集合。在一个实施例中,选择至少一个属性值的步骤包括通过比较分析多个属性中每个属性的值在单独与各个内容项相关联的元数据组上的分布来选择至少一个属性。一种效果是,可以选择集合中有区别的一个或多个属性值,而该属性值涉及所述集合中尽可能多的内容项。在一个实施例中,针对多个候选属性的每个属性,所述比较分析包括根据与各个内容项单独相关联的候选属性的值的相似性,将内容项的集合分割成不相交组,并且相对于所述集合的大小,根据至少基于所述候选属性的分割中最大组的相对大小的因素来对所述属性进行分级。一种效果是,较大的权重被给予适用于所述集合中的许多内容项的属性值。据观察,术语“相似性”不一定表示值完全相同。它表示值按照某种度量的相似性匹配。在一个实施例中,针对多个候选属性中的每个属性,所述比较分析包括根据与各个内容项单独相关联的候选属性的值的相似性,将内容项的集合分割成不相交组,并且根据至少基于对于所述属性获得多少组的因素来对候选属性进行分级。所获得的效果是,可以清除在所述集合中的内容项上具有广泛散布的值的属性。在一个实施例中,根据对最大组的相对大小的变化比对组的数量的变化更敏感的因素来对候选属性进行分级。一种效果是,避免了当主值之外的各值相对罕见地出现时、在所述集合上展示出大范围值的属性被清除。在一个实施例中,所述比较分析包括根据至少部分基于分配给候选属性的优先权值的因素来对候选属性进行分级。所获得的效果是,优先地选择了本质上通常更适合于生成描述内容项集合的元数据的属性值。在一种变型中,通过至少部分地使用所述集合外的内容项来执行对候选属性的值在与各个内容项单独相关联的元数据上的分布的分析,来获得优先权值。一种效果是,哪些属性是最适合用于生成描述内容项集合的元数据的知识不需要被导入。不必知道例如,表演艺术家是用于在集合之间进行辨识的最佳属性。另一种效果是,提供了一种可能,以便根据属性值在其他集合中内容项上的分布来修正属性值的选择,所述其他集合对用于处理内容项中所包含的数据的同一系统是可访问的。这使得所生成的元数据更适合用于搜索和浏览。作为示例,通过分析该同一系统可访问的其他集合,可以确定该系统的用户已经根据风格将他的音频文件的集合的全体分类为多个集合,例如包含爵士乐轨道(track)的目录、包含流行音乐轨道的目录等等。通过优先考虑风格,目录将更加可能与指示该目录中流行的音乐风格的元数据相关联,甚至其中一个目录内的所有音频文件通过同一表演艺术家也可以与元数据关联。一个实施例包括选择所选属性的多个值用于处理以生成与所述集合相关联的元数据,其中数量基于下列至少一个用户输入,和所述属性的值在与各个内容项单独相关联的元数据组上分布的特性。一种效果是,可以选择更多的值,其中一个属性值不涉及所述集合中内容项的大多数。在一个实施例中,处理所选属性值以生成元数据的步骤包括生成包含对应于至少一个所选属性值的属性值信息的元数据,并且基于对所选属性的值在与各个内容项单独相关联的元数据组上的分布的分析来限定数据。一种效果是,基于所选的属性值,生成了元数据,而且元数据还指示所选的值与所述集合的整体如何相关。在一个实施例中,处理所选属性值以生成元数据的步骤包括合成表示描述性短语的文本数据。—种效果是,提供适合用在用户接口中以便搜索、浏览和/或管理内容项集合的数据。一个实施例包括在根据所述分析选择至少一个属性值后,在与所述集合中各个内容项相关联的元数据组上重复所述分析,除了包括在重复所述分析之前选择的属性值所对应的至少一个属性值的那些。一种效果是,生成针对内容项集合的有意义的元数据,该内容项集合包括特性方面不同的内容项簇(cluster)。也就是说,在所述集合可以被分成内容项簇使得每个簇内的项具有相对简单的特性、而这些特性在各簇之间明显不同的情况下,生成适合用于告知用户该事实的元数据。在一个实施例中,处理所选属性值以生成元数据的步骤包括处理所选属性值以生成元数据,用于与针对不同的内容项集合所生成的元数据比较;并且如果所生成的用于比较的数据相差小于某最小值,则根据对属性值在与各个内容项相关联的元数据组上的至少一个分布的分析,来选择至少一个另外的属性值,其中所选的至少一个或多个另外的属性值被处理以生成与所述集合相关联的元数据。一种效果是,生成有很大区别的元数据以允许在不同的内容项集合之间进行选择。一个实施例包括根据内容项的属性值确定所述集合中内容项的次序,其中与内容项集合相关联的元数据被生成,从而基于与元数据组相关联的内容项在所述次序中所处的位置来限定所选的属性值,所述元数据组包括对应于所选属性值的一个属性值。一种效果是生成利于高效浏览所述集合中内容项的列表的元数据。因为与内容项集合相关联的元数据包括至少一个所选属性值和限定所选属性值的信息,所述限定所选属性值是基于与元数据组相关联的内容项在所述次序中所处的位置,其中元数据组包括对应于所选属性值的一个属性值,因此提供了如下有关信息在内容项列表中的何处去寻找所选属性值可适用的内容项。如果所述属性是发行的年份,则元数据可以指示该集合包括从五十年代开始逐渐增加的新近项。当该元数据可被文件浏览器的用户访问时,该用户将知道以某种方式向下看列表来寻找从70年代始的内容项。在一个实施例中,使所生成的元数据对用于处理内容项中所包含的数据的系统是可用的包括存储所生成的与由文件系统维持的数据相关联的元数据,并且识别对应于内容项的文件分组。一种效果是,信息标签可以被添加到图形用户界面以便发现并访问内容项,并且例如使高效搜索和检索内容项成为可能。在一个实施例中,获得与内容项单独相关联的元数据组的步骤包括下列操作的至少一个读取在包括各个内容项的数据对象中编码的元数据;分析在各个内容项中包含的数据中编码的、并且适合用于根据至少一个预定算法以可感知的形式在内容显示系统上呈现的信号,以生成至少一个属性值;分析可以从中获得对应于内容项的数据的各个位置,以生成至少一个属性值;以及获得内容项的标识、将该标识提交给数据库系统,其中该数据库系统远离用于处理内容项中所包含的数据的系统;并且从数据库系统获得各个元数据组。一种效果是,使所述方法很适合在自动系统中实现。根据另一方面,根据本发明的用于自动生成与内容项的集合相关联的元数据的系统被配置为获得与内容项单独地相关联的元数据组,每组元数据包括与内容项相关联的至少一个属性值,分析属性值在与各个内容项相关联的元数据组上的至少一个分布,根据所述分析选择至少一个属性值,以及处理所选的属性值以生成与所述集合相关联的元数据。所述系统适合用于自动生成高效和准确的内容项集合的描述。所述系统的一个实施例被配置为执行根据本发明的方法。根据本发明另一方面,提供一种包括一组指令的计算机程序,所述指令在被并入机读介质中时能够使具有信息处理能力的系统执行根据本发明的方法。将参照附图进一步详细解释本发明,在附图中图1是用于执行自动生成元数据的方法的联网的计算机环境的示意图;图2是使用自动生成的元数据的图形用户接口的简化屏幕视图;以及图3是示出自动生成元数据的方法的实施例的流程图。具体实施例方式如图1所示,计算机1包括处理器2、主存储器3、数据存储设备4和网络接口5。计算机1可以被实现为通用个人计算机、媒体播放器(例如便携式媒体播放器)或类似的便携式设备,如个人数字助理或智能电话。数据存储设备4可以是固定的硬盘驱动器、到存储器设备的接口等等。借助用户控制6和图形输出设备7提供图形用户接口。还示出了数字信号处理器8、音频输出设备9和用于以可感知的形式再现音频信号的扬声器10。所述音频信号包括存储在数据存储设备4中的、或在通过网络12(例如因特网)与计算机1通信的内容项服务器11上存储的视听媒体文件中。在一个实施例中,计算机1被设置为存储软件,该软件包括能够使计算机1提供用户接口以便管理、搜索、浏览和播放视听媒体文件中所包括的音频和/或视频信号的指令。计算机1也被配置为基于与视听媒体文件单独地相关联的元数据组,生成可被计算机1访问的与视听媒体文件集合相关联的元数据。由计算机1提供的图形用户接口可以使视听媒体文件可以用图2所示的方式浏览。图2示出如何在由文件夹13、14、15表示的目录或子目录中分层次地组织视听媒体文件。为了使用户能够选择两个文件夹14、15之一来观看在该文件夹下组织的视听媒体文件列表,生成标签16、17并将之提供给实现图形用户接口的软件,该接口显示标签16、17。计算机1根据与已经被组织在各个文件夹14、15下的视听媒体文件相关联的元数据自动生成标签16、17。在一个实施例中,当通过文件夹14、15之一查阅的视听媒体文件集合的组成变化时,重新生成标签16、17。表示每个较低级文件夹14、15的数据又表示两个内容项,每个内容项与标签16、17形式的单独一组元数据相关联。当标签16、17之一变化时,与表示目录(由其他文件夹14、15表示的目录被组织在该目录下)的文件夹13相关联的标签18的内容也被更新。基本相同的方法用于此。图3示出如何生成由标签16、17之一表示的元数据。在第一步骤19中,组成所述集合的视听媒体文件被识别。为此,计算机1可以使用由文件系统维持的数据以便实现分层目录结构。该数据被维持以便数据的分层组织、操纵、导航、访问和检索。示例包括用于维持文件在数据存储设备4中的物理位置的数据、用于提供对内容项服务器11上文件的访问的数据、或者在对虚拟数据(例如在主存储器3中临时维持的数据对象)访问的方法中使用的数据。所述文件系统定义了由计算机1和内容项服务器11的用户确定的视听媒体文件的分组。所述定义由计算机用来在没有人为干预的情况下识别哪些文件属于所关注的集合。在可替代实施例中,每个视听媒体文件包括或被链接到识别至少一个集合(所述文件作为该集合的一个成员)的元数据。在该实施例中,通过在元数据中搜索识别所述集合的数据,来执行识别构成所述集合的视听媒体文件的步骤19。在下一个步骤20中,计算机1获得与集合中的一些或所有视听媒体文件单独相关联的元数据组。该元数据以(属性,值)对的形式获得。每组元数据包括至少一个这样的对,但是属性不必在每一组元数据中都以(属性,值)对来表示。计算机1可以将包含虚值的(属性,值)对加入到缺乏特定属性的值的一组元数据中,这将在后续步骤中考虑。在一个实施例中,通过分析在视听媒体文件所包含的数据中编码的且适合以可感知的形式由计算机1再现的信号,来获得至少一个属性的值。也就是说,根据预定的算法分析视听媒体文件中所包含的音频和/或视频信号。用于音频信号的合适算法包括那些适于量化速度、响度、低音、音调、亮度、带宽和美尔频率倒谱系数(Mel-frequencyc印stralcoefficients)等等的算法。用于视频信号的合适的算法包括那些适合量化亮度、分辨率、颜色或颜色分布、场景变化速度等等的算法。此外或可替代地,获得与视听媒体文件单独相关联的元数据组的步骤20可以包括读取在包含内容项的数据对象中编码的元数据。例如,附加到音频文件的ID3标签可被读取以确定音频轨道的名称、艺术家、唱片或流派。可替代地,根据MPEG-7标准的且附加到视听媒体文件的描述可被读取以获得元数据(在这种情况下,所述描述和视听媒体文件一起构成数据对象)。在又一个可替代方案中,元数据可以从一束(bouquet)数字广播流所包含的电子节目指南数据中获得。在实施例中,元数据可依赖于计算机1的当前用户。例如,它可以包括推荐者的等级(链接到用户简档)或表示使用历史的数据(例如,已经从计算机1访问该文件多少次或访问了多长时间)。可以获得元数据的另一个方式是,通过经由网络12将对应于视听媒体文件的内容项的标识提交给驻存数据库的元数据服务器21。使用这样的元数据服务器21的服务的示例包括Gracenote媒体数据库。下载电子节目指南数据的实施例将以基本相似的方式工作。可以获得与视听媒体文件相关联的元数据组的另一种方式是,通过分析可以获得它们的各个位置。例如,可以确定文件的特性(比如文件类型、数据、大小和存储地址)。对于与视听媒体文件相关联的元数据组中所表示的一些或全部属性中的每一个,对属性的值在与各个文件单独相关联的元数据组上的至少一个分布进行分析,并且根据该分析选择至少一个属性值(这可以是值的范围)。实际上,一个或多个属性中每个属性的至少一个值被获得,但是通常选择比所有属性少的部分,其中所述所有属性在与视听媒体文件单独相关联的元数据组中具有值。为此,通过比较分析一些或所有属性(下面为“候选属性”)的值在与视听媒体文件单独相关联的元数据组上的分布,来评估元数据组中表示的属性的适当性。对于每一个候选属性,根据用于与视听媒体文件相关联的属性的(属性,值)对中值的相似性,将视听媒体文件的集合分割成不相交组(步骤22)。相似性可以指多个文件与同一值相关联,或在连续值的情况下,多个文件与多个范围中同一范围内的一个值相关联。例如,使用预定义的分类(例如,针对发行年属性的十年)可以将连续值分类为相似的或不相似的。可替代地,可以根据与视听媒体文件单独相关联的元数据组中出现的值来应用聚类算法(clusteringalgorithm)。在任何情况下,分割的不相交组的每一组由共同属性值或属性值之间的共同推断关系来表征。采用由流派、艺术家和发行年份的属性表征的10个音频轨道的集合作为示例,如表ι所表示。<table>tableseeoriginaldocumentpage10</column></row><table>计算机1将基于流行、摇滚和爵士的流派值而生成分割块{[1,2,3,4,5,6],[7,8],[9,10]}0它也会基于艺术家生成5组分割块{[1,2,3,4],[5,6],[7,8],[9,10]},且可以基于发行年份所落入的十年来生成5组分割块{[7,9],[8],[1,2],[3,5,10],[4,6]}。在下一个步骤23中,根据因子ri为候选属性分配等级,其中i是候选属性的索引。在本文所使用的示例中,因子^基于针对候选属性i的分割中最大组相对于所述集合中视听媒体文件数量的相对大小S”基于针对所述候选属性所获得的组的数量η”以及基于分配给候选属性i的优先权值P”特别地,根据下面的公式计算所述因子<formula>formulaseeoriginaldocumentpage10</formula>该公式是一个示例。可以使用另一个公式,特别是具有下述特性的公式因子巧对针对候选属性i作出的分割中最大组的相对大小Si的变化比对组的数量IIi的变化更加敏感。在这里使用的公式作为示例的情况下,因子A与所述分割中最大的不相交组的相对大小成正比。它与所述分割中组的数量Hi的平方根成反比。某些属性对于描述集合更有用这个事实在优先权值Pi中得到反映。因此,优先权值Pi反映一种先验的偏好,其具有基于更常见地用于表征视听媒体文件的某些属性的描述。例如,与歌曲发行所在的年份(decade)相比,艺术家被更常见地提及。在一个实施例中,计算机1可操作用来基于用户输入来调整优先权值。用户设置反映在描述视听媒体文件和/或其集合方面对某些属性的偏好超过其他属性。作为增强或可替代方案,优先权值Pi可以反映在所述集合(针对该集合将生成元数据)仅仅是个子集的整个数据库中,如何区别某个属性。在这种情况下,通过至少部分地使用没有包含在所述集合中的视听媒体文件,执行对候选属性的值在与各个视听媒体文件单独相关联的元数据上的分布的分析,从而获得优先权值Pi。在刚刚描述的两个步骤22、23已经针对所有的候选属性被重复之后,选择具有最高因子A的候选属性(步骤24),并且针对该属性进行的分割的最大组所共有的一个或多个值被选择(步骤25)。在基于表1的示例中,如果针对艺术家属性的优先权值是0.8并且针对流派属性的优先权值为0.4,则顶级属性将是艺术家,并且所选值将是Madonna。在一个简单实施例中,所述方法直接进入步骤26,该步骤中所选属性值被处理以生成针对所述集合的描述性元数据。这可能仅仅需要将所选的属性值分配给所述集合并将这些值传送到用户接口以便生成标签16、17之一。然而,特别是对于涉及用户接口的应用,如果生成表示描述性短语的文本数据,它将更加信息化。在这里所使用的示例中,合成表示描述性短语的文本数据的步骤26包括生成包含对应于所选一个或多个属性值的属性值信息的元数据;以及基于对所述属性值在与视听媒体文件单独相关联的元数据组上的分布的分析来限定数据。在一个实施例中,根据模板生成描述性短语。在此更为详细地讨论的实施例中,文本描述基于针对顶级属性的值的分布和一组预定的语法规则。这些规则可以用BNF格式(巴斯-恩诺尔形式用于表达与上下文无关的语法的元句法(metasyntax))表示如下〈collectiondescription):=<setdescription〉{“and,,<setdescription)}<setdescription)::=<quantifier><itemtype>[<attribute>]<value>{<value>}|<itemtype)"ofvarious,,<attribute><quantifier>::=<absolute>|<relative>|<NIL><absolute>::=〈absolutequantitative〉|〈absolutequalitative)<relative>::=〈relativequantitative〉|〈relativequalitative)〈itemtype)对于英语,这些终端是<attribute>:"genre","artist","year"<value>:“pop,,,“jazz,,,"Madonna,,,"MilesDavis,,,“LikeaVirgin",“1989”,etc.〈absolutequantitative):“2”,“3”,“90”,“adozen,,,etc.〈absolutequalitative):"many","afew,,,"abunchof",etc.〈relativequantitative):"80%","onethird,,,‘‘half,,,etc.〈relativequalitative):"mostly","mainly",etc.〈itemtype):‘‘songs,,,‘‘files,,,‘‘films,,,‘‘videos,,,etc.该语法规则编制如下。〈setdescription)中使用的〈attribute〉是在较早步骤24中选择的属性。如果针对该所选属性生成的分割仅仅具有一个组(例如仅仅为Madonna的歌曲),则仅仅使用该属性。根据预置选项,可以使用相对或绝对的量词。例如,绝对数量的版本产生下述描述“艺术家Madonna的四首歌曲”或“Madonna的四首歌曲”。相对数量的版本将是“仅仅是Madonna的歌曲”。如果针对最高级候选属性所进行的分割具有两个或三个相似大小的最大组,则选择一个值或值范围的步骤25包括选择与所述分割的下一个或多个最大组相关联的值。在最终步骤26中合成的描述因而是两个或更多组的描述的级联,例如“BeatleS的50首歌曲和RollingStones的40首歌曲”或“主要是Beatles和RollingStones的歌曲”。如果针对最高级候选属性所进行的分割没有比预定最小值更大的组,则可以生成符合句法“〈itemtype)"ofVari0uS”<attribute>”的描述,例如“各个艺术家的歌曲”。在这种情况下,没有值被选择。根据语言和所选的特定属性,所述语法可以包括改进被合成的描述的可读性的变型。例如,所选的属性可以触发形成所述描述的句子的不同构造。可以根据应用、语言、用户偏好、数据类型等等来使用不同的语法。在一个实施例中生成与视听媒体文件集合相关联的元数据的步骤26包括根据文件的属性的值确定文件的次序;以及生成元数据以便基于与包括所选一个或多个属性值的元数据组相关联的文件在所述次序中所处的位置来限定所选的一个或多个属性值。例如,播放列表可以被看作以播放顺序分类的音频或视频数据对象的集合,电视频道列表可以被看作根据播送的时间分类的节目项的集合,等等。所合成的描述可以例如通过创建如“10首摇滚歌曲,接下来是5首爵士歌曲和3首拉丁歌曲”的描述来反应所述次序,其中属性“流派”已经被选择。根据前面所述将清楚的是,属性可以是连续的(比如歌曲发行年份)、包括分类组(比如{50年代、60年代、70年代、80年代}),或包括纯粹描述性的属性(比如艺术家的姓名)。所述集合的描述中使用的量词可以是绝对的(没有参照未应用属性值的集合中的内容项)或相对的。所述量词可以是定量的(数,值)或定性的(描述)。表示给出了一些针对各种类型属性所生成的集合的描述示例。表2<table>tableseeoriginaldocumentpage13</column></row><table>除了那些在表2中列出的之外,所述属性也可以基于所有权、隐私保护水平、位置、设备名称、URL(统一资源定位符)、相似性度量或来自外源的额外信息,比如音频轨道处于最畅销的流行唱片集中的位置。图3所示的方法包括评估对属性值的选择的步骤27以确定是否扩展基本描述或修改它。具体地,可以与针对不同的视听媒体文件集合(例如,文件夹14、15中的另一个或由较高级的文件夹13表示的总集合)生成的元数据进行比较。如果所生成用于比较的元数据的差别比某最小值小,则选择另一个属性或已选属性的另一个值或值的范围。一个选项是允许扩大深度。根据该选项,选择多个属性中每个属性的一个值或值的范围,其中数量基于以下至少一个用户输入、以及对候选属性的值在与视听媒体文件单独相关联的元数据组上的分布的分析结果。特别地,可以确定除了流派属性之外可以选择艺术家属性。这可能导致例如从初始描述“10首民歌”开始的“BobDylan的10首民歌”的描述。在一个实施例中,最初基于多个候选属性的最高级属性中的至少一个值合成一个描述,该描述在用户接口中被显示为紧邻文件夹14、15的标签16、17之一。响应于用户输入(后续步骤28中被处理),对属性-在这种情况下为另一个属性-其值或值的范围选择、以及合成一个描述的步骤24、25、26被重复。在分类学中,一些属性可以而被分层次地组织,这意味着某些值包含多个其他值或其他值的范围。作为示例,值“bebop”、“摇摆”、“拉格泰姆(ragtime)”和“融合爵士(jazz-fusion)”都是“风格”属性的值“爵士”的示例。在一个实施例中,通过规则评价进行的评估或用户输入之后,当选择一个值的步骤25被重复时,响应于用户输入、对所述值在与集合中的视听媒体文件单独相关联的元数据组上的分布的评估、或对针对不同视听媒体文件集合选择的属性值的评估,对来自与分层次属性值中的较高级值或值的范围相关联的多个值或值的范围中的值或值的范围进行选择。另一个选项是根据用户输入和对候选属性的值在与视听媒体文件单独相关联的元数据组上的分布的分析结果中的至少一个,来选择所选属性的值的数量。这已经针对下列情况进行了描述在该情况下,在针对所选属性进行的分割中没有占优势的组。由于在初始描述已经可用之后对接收的用户输入进行处理的步骤28,与所述分割中的另一个组相关联的所选属性的值也可以被选择。在所示的实施例中使用这两个选项的组合。示出了生成更精确描述的另一种方法,根据该另一种方法,在选择属性及其值或值的范围的步骤24、25之后,定义一个新的集合(步骤29)。它由该集合中的视听媒体文件组成,除了包含对应于已经选定的值或值的范围的至少一个属性值的那些。随后,针对多个候选属性的每一个,根据与新集合中的各个视听媒体文件单独地相关联的候选属性的值的相似性,将视听媒体文件的所述新集合分割成不相交组(步骤22)。用于建立属性的分级的因子^基于所进行的分割中的最大组的相对大小、优先权因子和分割中组的数量来重新计算(步骤23)。选择另一属性及其值,使得生成对视听媒体文件的整个集合的扩展描述。其结果可能象如下所述“大多数动作电影和MartinScorsese的2部电影。”由于对先前所选的属性值的适用性的评估或用户输入,使得定义新集合的步骤29可以被执行。因此,简言之,该方法首先确定了大多数视听媒体文件是动作电影,随后对非动作电影的所有视听媒体文件应用相同类型的分析,并且确定通过指定这些视听文件包括MartinScorsese的两部电影,这些视听文件得到最佳地表征。表3中给出了计算该元数据所针对的集合的完整示例。表3<table>tableseeoriginaldocumentpage15</column></row><table>因子A将如下计算<formula>formulaseeoriginaldocumentpage15</formula>基于这些因子,所述属性被分级为流派、演员、导演、名称。初始描述将是例如“大多数动作电影”。随后,所选属性值所应用到的项被删除,使得表示4中的项被留下。表4<table>tableseeoriginaldocumentpage16</column></row><table>因此,因子A的结果如下<formula>formulaseeoriginaldocumentpage16</formula>;和<formula>formulaseeoriginaldocumentpage16</formula>属性的新分级列表为导演、流派、演员、名称。因此新的描述变为“大多数动作电影和MartinScorsese的2部电影”。据观察,与分组在文件夹13(在计算机1的目录结构中处于较高级)下的视听媒体文件的集合相关联的元数据可以使用与图3所示相同的方法以两种方式之一生成。所述方法被应用到由分组在较低级文件夹14、15中任意一个文件夹下的所有文件定义的文件的总集合,或者首先针对每一个文件夹14、15生成元数据组,这些元数据组本身可以被看做内容项,并且所述方法应用到文件夹14、15的集合。在任何情况下,人为干预被限于对所生成的描述性元数据的可选改进,并且限于首先将文件组织到文件夹。否则,所述方法被完全自动化。应当注意,上面描述的实施例说明而非限制本发明,并且本领域技术人员将能够设计许多可替代的实施例,而不脱离所附权利要求的范围。在权利要求中,括号中的任何附图标记不应当被解释为限制该权利要求。动词“包括”及其变化形式的使用不排除权利要求中叙述之外的元件或步骤的存在。元件之前的冠词“一”不排除多个这样的元件的存在。本发明可以通过包括若干不同元件的硬件实现,并且通过适当编程的计算机来实现。在列举出若干装置的设备权利要求中,这些装置中的若干个可以由同一项硬件来体现。在相互不同的从属权利要求中记载某些措施的起码事实并不表示这些措施的组合不能被有利地使用。这里所描述的方法具有广泛的应用范围。它可以应用到任何存储设备、便携式设备、数据库系统、文件系统或数据挖掘系统的用户接口。它可以用于生成针对如下内容的描述消费型电子设备中存储的内容集合、电视频道列表、个人收音机或电视频道、音乐播放列表、出版物以及通常由或可以由(属性,值)表征的任何电子数据组。本领域技术人员将清楚的是,“装置”的意思是包括在操作中执行或被设计用于执行指定功能的任何硬件(比如,分离的或集成的电路或电子元件)或软件(比如,程序或程序的一部分),无论它是单个功能还是与其他功能结合执行的功能,无论它是孤立的还是与其他元件协作。“计算机程序”将被理解为是指存储在计算机可读介质(比如光盘)上的、可经由网络(比如因特网)下载的或可以任何其他方式购买的任何软件产品。权利要求自动生成与内容项的集合相关联的元数据的方法,所述元数据可被用于处理内容项中所包含数据的系统(1)访问,所述方法包括获得与内容项单独相关联的元数据组,每个元数据组包括与内容项相关联的至少一个属性值,分析属性值在与各个内容项相关联的各元数据组上的至少一个分布,根据所述分析选择至少一个属性值,处理所选的属性值以生成与所述集合相关联的元数据,并且使所生成的元数据在识别所述内容项的集合方面可被处理内容项中所包含的数据的系统(1)来利用。2.根据权利要求1的方法,包括使用由分层文件系统维持的数据来识别所述集合中包含的内容项。3.根据权利要求1或2的方法,其中根据所述分析选择至少一个属性值包括选择少于所有属性的至少一个值,所述所有属性具有在与所述集合中的内容项单独地相关联的元数据组中包含的值。4.根据权利要求3的方法,包括选择多个属性中每个属性的至少一个值,该数量基于下列之一用户输入,和对属性值在与各个内容项相关联的元数据组上的至少一个分布的分析的结果。5.根据权利要求1-4中任一项的方法,其中选择至少一个属性值的步骤包括通过比较分析多个属性中每个属性的值在与各个内容项单独相关联的元数据组上的分布来选择至少一个属性。6.根据权利要求5的方法,其中针对多个候选属性的每一个,所述比较分析包括根据与各个内容项单独地相关联该候选属性的各值的相似性将内容项的集合分割成不相交组,并且相对于所述集合的大小,根据至少基于针对所述候选属性进行的分割中最大组的相对大小的因素,对所述属性进行分级。7.根据权利要求5或6的方法,其中所述比较分析包括根据至少部分基于分配给候选属性的优先权值的因素,对候选属性进行分级。8.根据权利要求5-7中任一项的方法,包括选择所选属性的多个值用于处理以生成与所述集合相关联的元数据,其中该数量基于下列至少一个用户输入,和该属性的值在与各个内容项单独相关联的元数据组上的分布的特性。9.根据权利要求1-8中任一项的方法,其中处理所选属性值以生成元数据的步骤包括生成包含对应于至少一个所选属性值的属性值信息的元数据,并且基于对所选属性的值在与各个内容项单独相关联的元数据组上的分布的分析来限定数据。10.根据权利要求1-9中任一项的方法,其中处理所选属性值以生成元数据的步骤包括合成表示描述性短语的文本数据。11.根据权利要求1-9中任一项的方法,在根据所述分析选择至少一个属性值后,在与所述集合中的各个内容项相关联的元数据组上重复所述分析,除了包括在重复所述分析之前选择的属性值所对应的至少一个属性值的那些。12.根据权利要求1-9中任一项的方法,其中处理所选属性值以生成元数据的步骤包括处理所选属性值以生成元数据,用于与针对不同内容项集合所生成的元数据比较;并且如果所生成的用于比较的元数据相差小于某最小值,则根据对属性值在与各个内容项相关联的元数据组上的至少一个分布的分析来选择至少一个其他的属性值,其中至少一个其他的所选属性值被处理以生成与所述集合相关联的元数据。13.根据权利要求1-12中任一项的方法,其中使所生成的元数据可被处理内容项中所包含的数据的系统来利用包括存储所生成的与由文件系统维持的数据相关联的元数据并且识别对应于内容项的文件的分组。14.用于自动生成与内容项的集合相关联的元数据的系统,该系统被配置为获得与内容项单独地相关联的元数据组,每个元数据组包括与内容项相关联的至少一个属性值,分析属性值在与各个内容项相关联的元数据组上的至少一个分布,根据所述分析选择至少一个属性值,以及处理所选的属性值以生成与所述集合相关联的元数据。15.根据权利要求14的系统,被配置为执行根据权利要求1-13中任一项的方法。16.包括一组指令的计算机程序,所述指令在被并入机读介质中时能够使具有信息处理能力的系统(1)执行根据权利要求1-13中任一项的方法。全文摘要一种自动生成与内容项的集合相关联的元数据的方法,该元数据对被用于处理内容项中所包含的数据的系统(1)访问,该方法包括获得与内容项单独地相关联的各个元数据组,每个元数据组包括与内容项相关联的至少一个属性值。分析属性值在与各个内容项相关联的元数据的组上的至少一个分布。根据该分析选择至少一个属性值。所选的属性值被处理以生成与所述集合相关联的元数据,并且使所生成的元数据在识别内容项的集合方面可被用于处理内容项中所包含的数据的系统(1)利用。文档编号G06F17/30GK101821735SQ200880110741公开日2010年9月1日申请日期2008年10月2日优先权日2007年10月8日发明者J·韦达,M·巴比里申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1