信息处理的制作方法

文档序号：6465429阅读：124来源：国知局

专利名称：信息处理的制作方法
技术领域：
本发明涉及信息处理。

背景技术：
从资产管理系统对媒体内容项，例如音频项和/或视频项进行识别和检索是长期存在的问题。通常数字音频/视频文件不具备关联的文本元数据，并且甚至文件名也可能仅仅是对于人类用户来说无意义的识别码。
已经提出了一些系统，它们试图允许用户通过识别所关心项目的视频和/或音频统计信息(statistics)来搜索内容库，并在库中搜索相似内容项。这样的统计信息经常被称为“底层实况(ground truth)”元数据，这是因为它们是从所述内容的视频和音频属性中以一种可重复的方式导出的。上述搜索能通过为每个可用内容项定义一个特征向量(根据底层实况元数据的至少一组重要方面)，并根据向量空间内的距离检测接近匹配而执行。这类搜索可以返回一个信息子集，用户能从其中主观地确定哪个与他的需求相关。已经提出用户可以自主地选择相关的命中，并返回库中交叉搜索它们的特征向量以查找进一步的相似内容项或命中。这将被称为“增强查找相似”搜索。
一些资产管理库可能包括具有关联的文本元数据(textualmetadata)的内容项，而同一库中的其它项则没有关联的元数据。新的内容项可能被带有或不带有关联的文本元数据地摄入。依据底层实况元数据的搜索，可用于生成可用内容项的视觉表示，以向用户提供关于该库中保存的内容类型的认识。用户可以从这种可视化中选择多个候选项，并在那些所选择的候选项上执行关键词搜索以查找所需的内容项。很显然，那些没有文本元数据的项仅能从该可视化搜索中被识别为相关。已经提出当将不具有关联的文本元数据的新内容项摄入到库中时，可以导出该新内容项的特征向量，并在资产管理系统中搜索该特征向量以识别类似的内容项。例如，可以识别向量空间中与该新项最接近的匹配，并且如果它有关联的文本元数据，则该元数据可以被自动地分配给该新内容项。从而，可以通过文本元数据搜索识别该新内容项，而无需人的烦累劳动来检查它并人工地分配元数据给它。
当然，这样会有一些缺陷，正如经常地，分配给新内容项的元数据不会是完全精确的。例如库可能包括赛道上的赛车的大量镜头，并且每辆赛车都有一元数据，该元数据将其定义为一级方程式赛车(A)。也可能存在停放在街道边的摩托车的大量镜头，具有将镜头定义为摩托车的元数据(B)。如果摄入新的、赛道上的超级摩托车比赛的镜头(C)，那么自动系统可能由于赛道的存在而确定(A)比(B)相对更类似于(C)。在此情况下，(C)将被错误地赋予元数据“一级方程式赛车”而不是“摩托车”。发生这种情况的风险，可以通过确保仅当类似项被识别在向量空间内的阈值距离之内才分配元数据而减少。替代地，系统可以识别例如，20个最接近的项并处理它们的元数据以确定单个单词或短语的词语频率，并例如，将最高的三个单词/短语分配给该新摄入的内容项。
尽管如此，这对于数据库管理将是十分危险的策略，并且会导致许多被错误标记的项。此外如果这些被错误标记的项自身被错误地用于自动地增加到(populate)新摄入的项，结果将是不合意的数据库。
本发明的一个目的是为了缓解或减轻上述问题。

发明内容
本发明提供信息处理装置，其中通过参考具有相关联的元数据的信息项的集合(ensemble)，生成关于当前信息项的元数据(例如文本元数据)，所述元数据具有对应的指示器数据(indicator data)，表示与该元数据相关联的可信度，装置包括用于检测当前信息项的一个或多个预定属性的检测器；用于从信息项的集合中检测信息项的子集的检测器，所述子集是具有与当前信息项的预定属性最相似的所述一个或多个预定属性的那些信息项；关联逻辑，配置为将来自信息项的所述子集中一个或多个的元数据与当前信息项相关联，使得在所述元数据与当前信息项的关联中，与当前信息项相关联的元数据被分配表示低可信度的指示器数据；和用于检测与信息项及其相关联的元数据相关的与装置的用户交互并且用于响应这样的用户交互修改与元数据相关联的指示器数据的检测器。
根据本发明的实施例，并且承认上述问题，执行这样的自动元数据标记，并且在数据库结构内，定义一个域，通过该域可以输入元数据(优先为自动地，或可能人工地)，该域指示元数据准确性的相对可信度。这例如可以在1到10的数值范围上，其中1指示未证实的准确性，而10指示在准确性方面的高可信度。替代地，它可以是简单的双状态信任或不信任标志。一旦有人验证了该元数据的准确性，这样的标志就可以被改变。
因此，本发明提供一种技术，通过该技术元数据的自动分配(比如分配给一个新摄入的项)仍然可以被使用，但是降低了数据库塞满不能与有用的元数据区别的、可能不准确的元数据的危险。
本发明的各种更多方面和特征在所附权利要求中定义。

本发明的上述及其它目的、特征和优点会从下面结合附图阅读的示例性实施例的详细说明中变得明显，其中图1示意性示出信息存储和检索系统；图2是示意流程图，显示本发明实施例的总体操作；图3是示意流程图，显示缩减特征向量的生成；图4是示意流程图，显示自动插入元数据的生成；图5示意流程图，示出了与元数据关联的可信程度(trust level)的自动修改；和图6示意性示出了个人数字助理(PDA)。

具体实施例方式 图1是基于通用目的计算机10的信息存储和检索系统的示意图，计算机10具有处理单元20，包括用于程序和数据的磁盘存储器30；网络接口卡40，连接至诸如以太网或互联网的网络50；显示设备60，诸如阴极射线管设备60；键盘70；和诸如鼠标80的用户输入设备。系统在程序控制下运行，这些程序存储于磁盘存储器30中，并例如通过网络50、可移动盘(未示出)或磁盘存储器30中的预安装而被提供。
实施例适用于多种类型的信息项。信息的适宜类型的非穷尽的列表包括专利、视频资料、电子邮件、演示文稿、互联网内容、广播内容、商业报告、音频资料、图形和剪辑图(clipart)、照片等等，或这些类型的任意组合或混合。在本说明书中，将参考音频/视频信息项，或至少具有音频和/或视频内容或关联的信息项。例如，诸如音频和/或视频资料的一段广播内容，可以具有以文本词语定义该资料的关联的“元数据(MetaData)”。
以下详细的示例涉及音频和/或视频数据信息项的集合，并且描述这种信息项的预定属性的检测。当然，可以替代地(或者还)处理其它类型的信息项。例如，如果信息项是静态照片，则这些照片的图像属性可以被用于构成特征向量。特征向量可以从文本构成的信息项形成(例如，基于它们的文本内容、单词数、生僻单词的分布之类)，等等。
用常规的方式将信息项装载到磁盘存储器30上。较佳地，它们被存储为数据库结构的一部分，这允许对项进行更便利的检索和索引，但这不是必需的。一旦信息和各项已经被这样存储，执行一个处理将文本元数据应用到各项中。这种处理的例子将会在下面描述。
要明白的是索引的信息数据无须存储在本地磁盘驱动器30中。所述数据可以被存储在通过网络50连接至系统10的远程驱动器中。替代地，所述信息可以采用分布方式存储，例如存储在互联网上不同的站点。如果所述信息存储在不同的互联网或网络站点，则可以用信息存储的第二层级来本地的存储到远程信息的“链接”(例如URL)，或许还带有与该链接关联的关联的概要、摘要或元数据。因此，尽管为了随后的技术说明的目的，远程保持的信息，或概要/摘要/MetaData，或是链接/URL可以被认为是“信息项”，除非用户选择相关的链接(例如，从下面将要描述的结果列表260中)，否则不需要访问远程保持的信息。
换言之，“信息项”的正式定义是从其中导出和处理特征向量(见下文)的项。
在另一个例子中，信息项可以跨网络连接的工作组存储，例如研究小组或合法公司。混合方案可以包括一些本地存储的信息项和/或一些跨局域网存储的信息项和/或一些跨广域网存储的信息项。
同样要明白的是，图1中的系统10只是可以使用被索引的信息项的可能系统的一个例子。另一个例子将在下面参考图6描述。一般而言，实际上任何具有显示器的设备都能被用于操作的信息访问阶段。
这些处理不局限于特定数量的信息项。
图2是一个示意流程图，示出当前实施例的操作。要理解的是图2中提到的操作和存储需求可以对参考图1描述的装置执行。
包括音频/视频资料的信息项100由步骤110、120、130、140、150和160处理，以便生成文本元数据(例如标题、关键词和/或自由文本说明)存储在特征向量和文本元数据存储170(其可以是独立的存储或是由与每个信息项关联的各数据库条目构成的存储)中。这允许执行用文本搜索的独立步骤180。
这里，使用文本元数据作为可以包括的元数据类型的一个例子。元数据可替代地(或附加地)代表以下的一个或多个互联网或网络超链接(例如，至类似信息项的链接)；分析生成的音频和/或视频数据，代表信息项的音频和/或视频属性；或其它类型的元数据。
文本元数据具有代表附于该元数据的可信度的关联的指示器数据。所述指示器数据，及其如何被设置和修改将在下面详细描述。到目前为止，足以认识到该指示器数据可应用于信息项的元数据的全部(即，认为这些元数据是一个组)，或单独的指示器数据可应用于这些元数据的子部分，例如每一个短语或词组。尽管优选为更多，指示器数据具有至少两种状态，指示元数据的不同可信程度。最低限度，指示器数据可以指示一个“低”或一个“高”的可信程度。当然，没有绝对的可信的度量，并且也不存在对其进行测量所依据的任何单位。指示器数据主要是主观量的相对度量，但是(如下文可见)它是可以通过自动方法被设置和修改的指示器数据。
步骤110到160是特别相关于为其首次生成文本元数据的信息项，即，当前没有保持关于该信息项的文本元数据。然而，在其中可能已经进行了步骤110(见下文)中对A/V属性的检测以及步骤120(见下文)中特征向量的生成的情况下，本技术也可被用于更新或补充与信息项相关联的文本元数据。
参考步骤110，检测信息项100的音频和/或视频(A/V)属性。在步骤120，生成特征向量(实际上为，使用下面的术语，“缩减的特征向量”)并保存在特征向量和文本元数据存储170中。重要的是，为了对各特征向量进行比较(见下文)，特征向量具有可管理的长度或值的个数，仍提供信息项的有用表示。对此不存在绝对的数量。在下面所述的实施例中，使用30值特征向量。3个值可能太少，而1000个值则需要太多的处理来比较特征向量，但是本领域技术人员可以根据可用的处理资源选择值的合适数量。
步骤110和120将会参照图3在下面详细描述。
在步骤130，将当前信息项100的特征向量与已存储的其它信息项的特征向量进行比较。上述比较是通过检测q维空间(其中q是每个特征向量中值的数量)中矢量之间的欧氏距离的已知技术。通过该测试，n个最接近(欧氏距离最短)的特征向量被选中。例如，n可以是20。
在步骤140，从与该n个最接近的信息项相关联的文本元数据中进行选择。
在步骤150，由这种选择得到的单词和/或短语被应用为关于当前信息项的元数据。特别地，将来自这种选择的预定数量的最常出现的单词和/或短语、或者具有至少一阈值出现频率的单词和/或短语，或这两者的结合，自动增加到当前信息项。与自动增加的元数据(对于当前信息项)相关联的指示器数据被自动设置为代表低可信度的等级-优选为指示最低可信度的等级。与步骤140和150相关的处理将在下面参考图4详细描述。
最后，在步骤160，将已经被选择为(由用户或自动地)伴随当前信息项的文本元数据与该信息项相关地存储在特征向量和文本元数据存储中。
步骤180示意性示出了通过文本元数据搜索信息项的独立过程。显然能明白，这个步骤可以由在其上执行步骤110-160的同一装置来执行，或由至少能访问特征向量和文本元数据存储170的不同装置来执行。搜索过程将在下面参考图5单独描述。
图3是一个示意流程图，示出了对应于图2中步骤110和120的所谓的“特征提取”过程。特征提取是将原始数据转换成抽象表示的过程。这些抽象表示可以接着被用于诸如模式分类、聚类和识别的过程。在这个过程中，生成所谓的“特征向量”，其是该项的各种音频和视频属性的抽象表示。
图3的基本步骤是关于一组包括音频和/或视频资料的信息项中的信息项100执行的，如下每个信息项的音频和/或视频属性在步骤210中被依次检测出。在步骤220和230，执行检测较重要和较不重要的属性数据的处理，使得放弃较不重要的属性数据。在步骤240将剩下的(未放弃的)属性数据串联(concatenate)生成“缩减的”特征向量。一旦为该信息项收集生成了“缩减的”特征向量，它们就可以被用在图2的步骤130中。
可以可选地执行可选的进一步缩减处理(例如，通过随机向量映射的已知技术，包括用随机数的p×q矩阵矩阵乘p值的特征向量，生成q值的特征向量)。然而，这种进一步的步骤与通过下面将要描述的处理产生30值特征向量的当前实施例无关。当然，本领域技术人员将会明白随机向量映射可以被用于代替步骤220、230和240，以生成可管理尺寸的特征向量。
步骤220至240可以另一种顺序执行，从而在串联后放弃该数据(或实际上放弃过程可以在串联前和/或后发生)。
现在将详细描述步骤210至240。
该技术的目的是(从音频和视频中)自动提取特征向量，该特征向量用尽可能少的变量(或至少缩减数量的变量)表示媒体项的类型；这种特征向量从现在起被称作“缩减的特征向量”。
缩减的特征向量由若干“基本特征向量”的组合构成。所述基本特征向量封装了特定类型的特征，例如颜色、形状等。第一个阶段，由步骤210表示，是用来检测代表信息项各个属性的所谓的“基本特征向量”。
基本特征向量的产生在本实施例中使用了五种类型的基本特征向量；它们是基于颜色、形状、音频、脸部和边缘/平坦(plain)的特征向量。实际上，如下所述的缩减的特征向量并没有参考边缘/平坦数据，但还是包含了该技术以示例说明可能的特征数据另一来源。还应当明白，下面展示的排列只不过是例子，也可以使用向量的其它排列。
颜色若干种颜色模型可以被使用。下面将描述一些例子。
对于每种颜色模型，为媒体项中的每一帧计算20-bin直方图，直方图中每柱的平均值和标准偏差是在整个媒体项上获取的。平均值和标准偏差向量被用作代表媒体项的基本特征向量。平均值和标准偏差的串联也被用作一基本特征向量，并在下面的列表中被称作“结合”。从它们计算的颜色模型和特征向量是 ·色度直方图(HUE Histogram) ·平均值 ·标准偏差 ·结合(串联的平均值和标准偏差向量) ·光亮度(视见亮度)直方图(Luminance(Brightness)Histogram) ·平均值 ·标准偏差 ·结合(串联的平均值和标准偏差向量) ·红色直方图(Red Histogram) ·平均值 ·标准偏差 ·结合(串联的平均值和标准偏差向量) ·绿色直方图(Green Histogram) ·平均值 ·标准偏差 ·结合(串联的平均值和标准偏差向量) ·蓝色直方图(Blue Histogram) ·平均值 ·标准偏差 ·结合(串联的平均值和标准偏差向量) ·RGB直方图(60bin，三种不同直方图的组合) ·平均值 ·标准偏差 ·结合(串联的平均值和标准偏差向量) 形状描述两种不同类型的形状描述符；它们之间的差异是在快速傅里叶变换(FFT)之后的步骤，步骤4。总体来说形状描述符是以下面的方式提取的 1.每一帧被改变尺寸成为一个64*64的图像，例如通过双线性插值。
2.取经过改变尺寸的帧的快速傅里叶变换(FFT)。
3.每个方向上的前10个频率值(最低频率)被处理(见下文)并组合成100值长特征向量。
4.在整个媒体项上获取向量中每列的平均值和标准偏差，这给出经后处理方法的三个特征向量。
i.平均值 ii.标准偏差 iii.结合(串联的平均值和标准偏差特征向量) 脸部描述两种不同类型的基于脸部的特征向量；一个称作“脸部特征”，而另一个称作“脸部统计信息”。
脸部统计信息基本特征向量是按如下方式产生的 1.为每个帧计算如下3个变量 ·脸部计数，即在该帧中有多少脸部 ·该帧中所有脸部的平均脸部尺寸 ·该帧中所有脸部的平均x(水平)位置 2.接着在媒体项中所有帧上计算全部3个变量的平均值和标准偏差。
3.脸部计数、尺寸和x-位置的平均值和标准偏差构成6变量特征向量。
脸部特征基本特征向量是按如下方式产生的 1.使用脸部分类器，该脸部分类器根据脸部尺寸和脸部x-位置，将帧中的所有脸部分成6个不同类别。
脸部分类器按如下方式工作 a.如果脸部的尺寸大于21个像素(例如在宽度上)，则它被分类为子类A，而如果它小于21个像素，则被分类为子类B。
b.依据脸部x-位置是否小于74(例如从左开始的像素)、在74与114之间或大于114，子类A和B都被分成3个不同的子类。
2.每个媒体项有7-bin直方图，其中第一个bin代表其中没有脸部的帧；其他的bin代表该6种不同的脸部类别。对于所分析的每个帧，找到的每个脸部都使该脸部的类别所属的那个bin加一。
3.该直方图构成代表媒体项的7-bin基本特征向量。
音频假定可用的音频具有48kHz的采样率；那么音频以具有16毫秒重叠的32毫秒窗口被采样，给出总共N＝1536个样本。均方根振幅(rmsamplitude)被定义为并且如果rj＜0.2*r则帧被定义为无声的，其中j是该音频帧，而r是在整个媒体项上的平均均方根振幅。
首先，用对整个信号取汉明窗(Hammingwindow)，其后为所有的帧计算FFT系数F(ω)。然后对每一音频帧计算如下特征 ·总频谱功率(spectrum power)。使用频谱功率的对数其中|F(ω)|2表示频率ω处的功率，并且其中ω0＝24kHz，采样频率的一半。
·子带功率(subband power)。使用具有如下间隔的四个子带功率和子带功率的计算方法如下其中Hj代表间隔中的最高频率，Lj代表间隔中的最低频率。
·视见亮度。视见亮度被定义为频率矩心，并用如下的方法计算 ·带宽。带宽B使用如下的方法计算 ·基音频率(Pitch frequency)。
基音频率是以下列方式确定 1.计算每个音频帧的功率频谱。
2.使用离散算子{0.25f，0.75f，1.0f，0.75f，0.25f}加强功率频谱峰值。
3.使用如下方法计算音频窗口的谐波 a.从基音50Hz开始的梳状滤波器，被持续增加直到其达到1000Hz的基音。对于每一步，取经过梳状滤波的信号“C”和噪音“N”之间的差值。
i.使用如下方法计算梳状滤波器值 Ci＝2.25*Si-1+1.5*Si+2.25*Si+1，其中“i”是基音频率，而“S”是增强的信号。注意到如果对于[i-1，i，i+1]，S＝1，则C＝6。
ii.使用如下方法计算噪音注意到如果对于S＝1，则N＝6。
4.这将会形成一个频率vs.谐波的图；谐波的峰值给出基音频率。
·梅尔频率倒谱系数(Mel-frequency cepstral coefficients)由FFT功率系数计算。三角带通滤波器组对系数滤波。该滤波器组由19个三角滤波器组成，该19个三角滤波器具有覆盖频率范围0-4000Hz的恒定梅尔频率间隔。Sk{k＝1，2，...K}表示该滤波器组的输出。使用如下方法计算梅尔频率频谱其中n＝1，2，3...12是倒谱的顺序。
如上所述的特征构成一20值特征向量，在整个媒体上列向地(column wise)取平均值和标准差，并串联成一40值特征向量。通过对整个媒体项取无声帧相对于总帧数的比率而将第41变量添加到特征向量中。
边缘/平坦区域特征向量现在定义另一个基本特征向量。这就是所谓的边缘/平坦区域直方图(EPFH)特征向量。它是由两个基本步骤生成 1.图像中色彩值的量化。
2.EPEH的生成。
色空间的量化处理从HSV(色度饱和度亮度，hue saturation value)编码的图像开始，其中0≤H≤360，0≤S≤1，0≤V≤1。如果所考虑的图像不是以这种格式提供，则将它转换成这种格式是一种直接(并且已知)的映射操作。
如果HSV色空间是可视化的，其将是一个圆锥的形式。量化步骤目的是将该圆锥分成不同的块。每个块用一个数字索引；该数字本身是无关的，该数字仅有的功能是作为索引。
该索引是由首先展示(set out)的饱和度量化生成(或“返回”)的值。这接着涉及后面展示的色度和光亮度量化。
饱和度被量化为4部分 0.00＜饱和度≤0.03→非彩色的返回光亮度A 0.03＜饱和度≤0.33→低彩色的返回7*光亮度C+色度-1 0.33＜饱和度≤0.66→中彩色的返回(3+光亮度C)*7+色度-1 0.66＜饱和度≤1→高彩色的返回(6+光亮度C)*7+色度-1 在后三类情况下，色度和光亮度以如下方式被量化色度被量化为7个非均匀部分 330＜色度≤22 返回1 //红色 22＜色度≤45 返回2 //橙色 45＜色度≤70 返回3 //黄色 70＜色度≤155 返回4 //绿色 155＜色度≤186 返回5 //青色 186＜色度≤278 返回6 //蓝色 278＜色度≤330 返回7 //紫色光亮度C(值)被量化为3个部分 0.00＜饱和度≤0.33 →低光亮度返回0 0.33＜饱和度≤0.66 →中光亮度返回1 0.66＜饱和度≤1 →高光亮度返回2 在被分类为“非彩色的”的情况下，光亮度值被量化光亮度A(值)在非彩色的区域被量化为4个部分 0.00＜光亮度≤0.25 →白返回63 0.25＜光亮度≤0.50 →浅灰返回64 0.50＜光亮度≤0.75 →深灰返回65 0.75＜光亮度≤1 →黑返回66 EPFH的生成接下来，重复通过图像中的像素，将每一像素(中心像素)与其周围的像素(也就是一8像素的组)比较。如果任何一个周围像素具有与当前中心像素不同的色彩索引值，则该中心像素被当作是一个“边缘”像素；否则它被当作是一个平坦区域像素。
为避免混乱，术语“中心”指的是像素关于正与其比较色彩属性的像素的空间(图像)位置。术语“边缘”和“平坦区域”指的是在色空间中当前中心像素关于图像上处于空间周围的像素的位置。
如果一个像素被分类成边缘像素，其被增加到“边缘”直方图中；否则它被增加到“平坦区域”直方图中。
每一直方图中的bin是如上所述的色彩索引。
特征向量的后处理边缘直方图和平坦区域直方图都分别地被归一化，使它们的长度等于1。图像中边缘像素相对于总像素的比率也被计算出(“边缘比率”)。
最终的特征向量包含归一化的边缘直方图、归一化的平坦区域直方图和边缘比率的串联。
缩减的特征向量子部分的生成颜色基本颜色特征向量由60-bin RGB直方图(每种颜色20bin)在整个媒体项上的平均值和标准偏差构成。这给出由120个变量构成的特征向量。
用霍特林变换(Hotelling Transform)转换颜色直方图并进行截断，从而保留前7个变量。
霍特林变换是基于特征向量的统计属性。对一20变量向量的变换将得到一20个变量向量，其中顶部/前面的变量为具有最大变化的变量(即，它们可以被认为是更重要的变量)。这意味着，这种变换将特征向量中最重要的特征移到向量的开始。
形状用双线性插值将每个帧都从它的原始尺寸(例如720×576像素)改变尺寸到64×64。用FFT过程变换该64×64图像并保存最低频率加上1的10次幂的对数 D(u，v)＝10*log(1+|F(u，v)|) 这构成100值的长向量。这些向量对每个帧产生，并且使用在整个媒体项上的平均值和标准偏差作为特征向量。这意味着我们得到200值的长特征向量。
用霍特林变换转换形状特征向量，并进行截断，从而保留前10个变量。
音频音频特征如上所述地生成，并且生成41值的特征向量。7个最重要的值(由霍特林变换检测的)被保留。
脸部脸部特征向量如上所述地生成，并且生成6值的特征向量。
串联和归一化子特征向使用均值标准偏差归一化量被归一化，并被串联形成一30值的特征向量。
图4示意性示出了对应于图2中步骤140和150的过程。假定n个最接近的信息项(依据它们的特征向量)已经在步骤130中被识别，并且关于这些信息项中至少一些的文本元数据300保存在特征向量和文本元数据存储170中。
在本例子中，文本元数据300被安排为信息项的标题、一些关键词、一些自由文本说明以及指示器数据(对应于整个元数据或其各个部分)。当然还要明白对文本元数据的这种精确的安排不是必需的，而且实际上除了文本元数据中指示器数据的一些命名，文本元数据根本不需要被划分。
在步骤310，对应于该n个最接近的信息项(或至少那些具有一些文本元数据的信息项)的文本元数据被整理成单个集，用于分类处理。在后面的描述中，该整理的文本元数据的集将被当作一个文档，但是这样仅仅是为了便于描述和理解。
在步骤320，所有的“停止词”被从该文档中移去。停止词是预先准备的列表上非常普通的词，诸如“一个”、“该”、“然而”、“大约”、“和”以及“该”。这些单词足够普通，以至于它们不太可能作为给用户的特定信息项建议或者作为自动生成的文本元数据而有用。
停止词的检测有另外一个目的，就是在步骤330中给“短语”划界。换言之，短语被认为是在两个停止词之间的那些单词(或在较长短语的情况下，第一预定数量，例如3个的这种词)。在本系统中短语被当作用于评估出现频率和要包括在文本元数据中的候选项的建议的文字。
在去除停止词和短语的检测之后，在步骤340中将剩余的单词“词干化(stemmed)”，这涉及找出单词的变体的共同词干。例如单词“thrower”、“throws”、和“throwing”具有共同的词干“throw”。
在步骤350，根据出现频率对单词和短语进行分类，并识别最常出现的单词或短语。在这样的一个单词经历过词干化的情况下，词干化处理之前的该单词最常出现的版本被用作将呈现给用户的版本。
在步骤360，将多个最经常出现的这种单词和短语添加到将被关于当前的信息项地保存的单词和短语的集370中。
在图4中显示的示例集370，具有关于标题域、关键词域和自由文本元数据域的不同子列表。步骤310-360的分析可以对数据300中的这三个域分别执行。或者这些列表可以基于相同的选择，但是可能标题和关键词列表中条目较少。或作为一个替代，可以提供单个候选列表。
在步骤380，初始化与集370相关联的指示器数据。在一个实施例中，其被初始化为各值的可用范围内表示最低可信度的值。在另一个实施例中，可以用各值的一子范围(即，表示最低可信度的值和指示下一个最低可信度的一个或多个其它值)。这里，将为集370初始化的值的选择，依据于与源元数据相关联的可信度。即，如果集370中的元数据(或该元数据的项)之前与表示高可信度的指示器数据相关联(即在这样的情况下其中该元数据与被发现特征向量与当前信息项的特征向量接近的信息项相关联)，那么关于当前信息项的该元数据的指示器数据可以被初始化为比最低可能等级稍高的可信等级。
因此，在其最简单的形式中，指示器数据与对应于信息项(或甚至对应于信息项的子集)的整个元数据相关联。例如在较高级的形式中，指示器数据可以与单个信息项的元数据的子集相关联。例如如上所述，当在步骤150或360/370中，从一个或更多最接近的信息项中交叉复制相应的元数据时，指示器数据优选被初始化为低值。这样做的理由是即使该元数据准确地描述了“最接近的”的信息项，然而作为对当前信息项的描述，其可能相当不准确，因为最接近的信息项和当前信息项共同具有的仅是它们的音频与视频属性分析的度量。
因此，如果证明元数据是准确的，为用户提供一种机制以更新该元数据的可信程度。可以为用户提供一种类似机制，如果元数据很不准确，则使可信程度降级或甚至删除该元数据。
图5示意性示出了处理可信程度变化的机制的一个示例。该例子涉及所谓的增强搜索。一个这样的例子就是上述的增强查找相似搜索。
在步骤500，用户输入搜索查询以在信息项的集合中进行搜索。这可以采取文本查询的形式，该文本查询同与信息项相关联的文本元数据比较，或它可以是特征向量查询，该查询由(从该系统)请求与用户选择的信息项类似的一组信息项的用户启动。在步骤510返回一组结果。
接着用户回顾那些结果。用户可以选择一结果为与所述查询相关，例如通过在代表该结果的屏幕图标上点击(使用用户控制如鼠标80)。这可以是“查找相似”搜索的另一个(或初始)选择。换言之，用户可能为了另一个原因而与系统交互，并且这种交互被检测并用在随后的处理中。
关于当前信息项(Current Information Item，CII)(不是关于图2提到的当前信息项，而是依据图5的处理的当前信息项)，如果在步骤520中用户将其选择为相关的，则控制前进至步骤550。如果用户没有将其选择为相关的(或肯定地将其选择为不相关的)，则控制前进至步骤530。
参照步骤530和步骤550，可以对与CII相关联的可信程度进行修改。这种修改可以涉及关联于与CII相关联的整个元数据的单个可信程度。或者，如果存在每个都与CII的元数据的一个方面或子集相关联的多个可信程度，修改最好仅应用于(a)关联于与开始该查找相似搜索的信息项的元数据相同或非常相似的元数据的一个或多个可信程度，或(b)关联于与提示当前搜索的文本搜索查询相同或非常相似的元数据的一个或多个可信程度。
在步骤530，应用测试来查看可信程度是否等于或高于阈值水平(例如8/10)。如果是，则不采取行动。如果不是，则可信程度被减少，处理(在这种情况下关于可信程度的修改)结束。
注意，在其中较小的数字表示较低的可信程度的安排的上下文中，像“减少”和“增加”等术语的使用，是为了便于说明。本领域技术人员会明白确切的约定(即较低和较高数字表示的意思)并不重要，而且更一般地，减少指的是“向表示较低可信程度的值或数据代码移动”，而“增加”则相反。
如果步骤540的结果是可信程度现在是零，或者如果在步骤540之前的可信程度已经处于其最低的可能值，则可以执行一个可选步骤，其中将相应的元数据自动删除。
现在转到步骤550，执行测试来检测可信程度是否低于它的最大允许水平。如果答案为是，则在步骤560中，可信程度被增加。如果答案为否，则该处理结束。
因此，总结图5，系统检测与关联于信息项的元数据(或元数据的子集)的可信程度相关的用户输入(例如将项选择为与搜索查询相关)。响应于这样的检测，系统自动修改与该元数据相关联的可信程度。
相应地存在各种可能性，其中一些已经被描述，而现在将关于1到10的示例可信度数值范围(scale)描述其中一些。这些可能性可以被结合或者单独地处理。
1)如果信息项库允许(如上所述的类型)增强查找相似搜索或类似处理，则每次与具有经过验证的元数据、或者至少具有阈值可信水平的元数据的项一起选中项时，可信程度可以加1。
2)如果用户指示两个项不相似，则可信程度可以被减少。
3)当可信标志达到高可信水平(例如程度8或以上)，它可以被阻止降到该水平之下。
4)程度10可以被保留作为经过验证的状态的指示符，因而例如数据库管理员或其它用户可以定期地执行搜索以识别可信程度达到9的那些情况，并且人工检查元数据是否准确，如果是，则对那些项分配经过验证的状态。
5)可信程度低于预定阈值的信息项，将不会被用于增加数据到新摄入项的元数据域。
6)人工输入(例如打字)的元数据可被自动地分配预定的可信程度-例如程度7。
7)可信程度可以是一个搜索标准，或者几个搜索标准中的一个，从而(例如)仅仅具有的元数据具有至少某个可信程度的、与搜索查询相匹配的那些信息项，将被作为搜索结果返回。
同在商业资产管理数据库中一样，如果内容项是在视频剪辑的共享社区型数据库(例如其中用户可以上载内容项并且可以自由地添加或变更与内容项相关联的元数据的一个)中，这样的系统可以被用在对等网络中。元数据可被用在内容推荐系统中，其中用户能够基于信任的或者不信任的元数据来选择是否接收推荐，以帮助发现他以前不知道的新项。会有某些动机(财务的或者其它方面)要验证元数据。所进行的改变的可追溯性对于同等查看的元数据的安全性是需要的。
最后，图6示意性示出了个人数字助理(PDA)600，作为便携式数据处理装置的例子，其具有显示屏610，包括显示区域620和提供用户控制的触摸感应区域630；以及数据处理和存储器(未示出)。再次地，本领域技术人员将会意识到该领域内的替代。该PDA可以代替图1中的系统或与之相关联地，如上所述地使用，可能访问存储于图1的系统中的信息项和/或元数据，例如通过无线链路(未示出)。
将认识到，本发明的实施例可以通过对现有等价设备的已有部分的改装来实施，其可以是以计算机程序产品的形式被实施，该计算机程序产品包括处理器可执行指令，所述处理器可执行指令存储在诸如软盘、光盘、硬盘、PROM、RAM、闪存或这些或其它存储介质的任意组合的数据载体上，或通过网络上的数据信号传输，所述网络诸如以太网、无线网络、互联网、或所有这些其它网络的任意组合；或者以硬件实现，所述硬件诸如ASIC(专用集成电路)或FPGA(现场可编程门阵列)或适于在改装现有等价设备中使用的其它可配置电路。
类似地，将认识到，大体如图1所示的装置，当按如上所述操作时，为本发明实施例的实施提供处理逻辑、存储器等。
也会认识到，信息项可随它们相关联的元数据和指示器数据一起被存储或传输，指示器数据指示了与元数据相关联的可信度。可以用元数据和指示器数据整理信息项，以形成可用于如图5所示的搜索的数据库。
虽然已经在此参照附图详细描述了本发明的示例性实施例，但需要理解的是本发明不限制于那些确切的实施例，并且在不背离由所附权利要求定义的本发明的范围和精神的情况下，本领域技术人员可以在其中实现各种变更和修改。
附录霍特林变换的一般说明霍特林变换又以主分量、本向量、和离散卡南-洛维变换(Karhunen-Loeve Transform)而已知。霍特林变换对于缩减特征向量内的冗余性是非常有用的方式。
考虑一个向量群体具有一均值向量 mx＝E(x) 和一个协方差矩阵 Cx＝E((x-mx)(x-mx)T) 如果取本值和匹配特征向量，并且按与本特征值的递减值匹配的顺序排列本征向量，得到矩阵A A＝eig(Cx) 那么霍特林变换用如下的公式描述 y＝A·(x-mx) 其中x被变换到y。y向量中的第一维具有最高的变化；第二维具有第二高的变化，等等。这些是由于我们根据特征值的大小来组织本征向量的事实。
向量归一化的一般说明向量归一化是一个标准的代数过程，其中将向量除以其自己的范数。这生成长度1的向量。
||vnornalized||＝1 列线性变换归一化的一般说明列向找到最小和最大值，将其转换成新的最小和最大值。
xnew＝xold·a+m 均值和标准偏差归一化的一般说明均值和标准偏差归一化是一种列归一化。列向取均值和标准偏差。接着用均值对每个值进行平移并除以该列的标准偏差。

权利要求
1.一种信息处理装置，其中通过参考具有相关联的元数据的信息项的集合，生成关于当前信息项的元数据，所述元数据具有对应的表示与该元数据相关联的可信度的指示器数据，所述装置包括
属性检测器，用于检测所述当前信息项的一个或多个预定属性；
子集检测器，用于从信息项的所述集合中检测信息项的子集，所述子集是具有与所述当前信息项的预定属性最相似的所述一个或多个预定属性的信息项；
关联逻辑，配置为将来自信息项的所述子集中一个或多个信息项的元数据与所述当前信息项相关联，使得在该元数据与所述当前信息项的关联中，与所述当前信息项相关联的所述元数据被分配表示低可信度的指示器数据；和
交互检测器，用于检测与同信息项及其相关联的元数据相关的所述装置的用户交互，并且用于响应这样的用户交互改变与元数据相关联的所述指示器数据。
2.根据权利要求1所述的装置，其中所述元数据包括文本元数据。
3.根据权利要求1所述的装置，其中所述元数据包括表示互联网或网络超链接的数据。
4.根据权利要求1所述的装置，其中所述信息项包括音频和/或视频数据，并且所述属性检测器可操作用于检测所述音频和/或视频数据的一个或多个属性。
5.根据权利要求4所述的装置，其中所述一个或多个预定属性包括从列表中选出的一个或多个属性，所述列表包括
色度统计分布；
光亮度统计分布；
视见亮度统计分布；
色分量统计分布；
图像形状；
脸部检测统计信息；
音频功率；
音频子带功率；
音频亮度；
音频带宽；
音频基音；和
音频梅尔频率属性。
6.根据权利要求4所述的装置，
包括特征向量生成器，用于生成特征向量，所述特征向量包括指示所述一个或多个预定属性的特征数据值；
并且其中所述子集检测器可操作用于检测具有的特征向量与所述当前信息项的所述特征向量具有最短的欧氏距离的信息项。
7.根据权利要求6所述的装置，包括配置为放弃与所述信息项较不重要的属性相关的特征数据。
8.根据权利要求6所述的装置，包括特征向量存储，用于存储关于信息项的所述集合中至少一些信息项的特征向量。
9.根据权利要求4所述的装置，其中所述元数据指示所述信息项的音频和/或视频属性。
10.根据权利要求1所述的装置，其中所述关联逻辑可操作用于为新关联的元数据分配表示最低可信度的指示器数据。
11.根据权利要求1所述的装置，其中所述关联逻辑可操作用于为新关联的元数据分配表示一可信度的指示器数据，该可信度依赖于该元数据在与所述子集中的信息项相关联时的所述可信度。
12.根据权利要求1所述的装置，其中所述交互检测器可操作用于检测当前信息项与搜索查询相关或不相关的用户输入。
13.根据权利要求1所述的装置，其中所述交互检测器配置为在所述指示器数据至少表示一阈值可信程度的情况下，不减少所述指示器数据表示的所述可信程度。
14.根据权利要求1所述的装置，包括认可检测器，用于检测所述用户是否已经明确认可与当前信息项相关联的元数据，并且如果是已经认可，则用于将与该元数据相关联的所述指示器数据设定为表示预定的可信程度。
15.根据权利要求1所述的装置，包括搜索逻辑，配置为在信息项的所述集合内进行搜索，所述指示器数据是搜索标准。
16.根据权利要求1所述的装置，其中所述交互检测器配置为删除具有已被修改为表示最低可能可信程度的指示器数据的元数据。
17.一种信息处理方法，其中通过参考具有相关联的元数据的信息项的集合，生成关于当前信息项的元数据，所述元数据具有对应的，表示与该元数据相关联的可信度的指示器数据，所述方法包括步骤
检测所述当前信息项的一个或多个预定属性；
从信息项的所述集合中检测信息项的子集，所述子集是具有与所述当前信息项的预定属性最相似的所述一个或多个预定属性的信息项；
将来自信息项的所述子集中一个或多个信息项的元数据与所述当前信息项关联，使得在该元数据和所述当前信息项的关联中，与所述当前信息项相关联的所述元数据被分配表示低可信度的指示器数据；和
检测与信息项及其相关联的元数据相关的用户交互，并且响应这样的用户交互改变与元数据相关联的所述指示器数据。
18.具有程序代码的计算机软件，用于执行根据权利要求17所述的方法。
19.一种计算机程序产品，包括提供介质，该提供介质提供根据权利要求18所述的程序代码。
20.根据权利要求19所述的介质，所述介质是计算机程序产品。
21.根据权利要求19所述的介质，所述介质是传输介质。
22.一种信息项，具有与所述信息项相关联的
(a)元数据；和
(b)指示器数据，指示一些或全部所述关联的元数据的可信度。
23.根据权利要求22所述的信息项，所述信息项是音频和/或视频信息项。
24.存储多个根据权利要求22所述的信息项的数据库。
25.根据权利要求24所述的数据库，所述数据库具有
用户输入，通过用户输入用户能指示信息项之间的相似度；和
逻辑，配置为在所述相关联的元数据也指示所述信息项中的一个或多个之间的相似性的情况下，响应于用户指示修改与所述一个或多个所述信息项相关联的所述指示器数据。
全文摘要
提供一种信息处理装置，其中通过参考具有相关联的元数据的信息项的集合，生成关于当前信息项的具有对应的表示与该元数据相关联的可信度的指示器数据的元数据，包括用于检测当前信息项的一个或多个预定属性的检测器；用于从信息项的集合中检测信息项的子集检测器，该子集是具有与当前信息项的那些最相似的一个或多个预定属性的信息项；关联逻辑，配置为将来自信息项的子集中一个或多个的元数据与当前信息项相关联，使得在元数据与当前信息项的关联中与当前信息项相关联的元数据被分配表示低可信度的指示器数据；和用于检测与信息项及其相关联的元数据相关的与装置的用户交互检测器。
文档编号G06F17/30GK101308514SQ200810128758
公开日2008年11月19日申请日期2008年5月9日优先权日2007年5月11日
发明者N·P·罗斯申请人:索尼英国有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：N.P.罗斯
技术所有人：索尼英国有限公司
我是此专利的发明人

上一篇：多处理器/多内核消息传递机中的推测预取方法和装置的制作方法
上一篇：图像诊断支持系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。