相关内容检索中的时间相似度阈值的调整的制作方法

文档序号:6553210阅读:201来源:国知局
专利名称:相关内容检索中的时间相似度阈值的调整的制作方法
技术领域
本发明涉及到内容检索、管理和呈示领域以及基于使用时间和元数据的内容项目的相似度阈值的确定。
近年来,存储设备和数据库的存储能力,包括个人计算机的硬盘及其它类型的存储设备的存储能力,一直在迅速增长。根据某些估计,存储能力大约以每年翻一倍的速度增长,与此同时,网络带宽的增长也非常迅速。结果,存储设备存储了大量的内容,需要向用户提供方便以便对存储设备进行存取。用户会被存储设备、数据库甚至个人硬件设备里的内容所淹没,除非这些内容以某种方式被管理和组织来为用户的存取提供方便,否则用户可能没有能力去检索诸如互联网之类的网络上的可以获得的内容。没有采用对用户透明的方式索引或组织的内容,就用户需要而言可能是“丢失”的,而且不太可能被检索到。
目前有很多大家都知道的检索方案。Farnham等人的美国专利申请公开说明书NO.2003/0158855公开了自动内容的关联,其中,相关性在目标和元数据之间动态产生,以便决定各计算机文件之间以数值表示的相似度。Stubler等人的美国专利申请公开说明书NO.2003/022541公开了通过为获得的图像提取元数据来产生基于获得的图像与存储图像之间的相似度的已获得的图像的标题或语义标记。Platt的美国专利申请公开说明书NO.2003/022541公开了一种自动播放列表生成器,其中几首种子歌曲,包括不想要的种子歌曲,被用于生成播放列表中的歌曲。Cluts的美国专利申请公开说明书NO.5616876公开了通过编者预先为每首歌曲编写的类型标记来选择与第一组歌曲类似的外加的歌曲。Gargi的美国专利申请公开说明书NO.2004/5616876公开了文件元数据包括建立时间的自动传播。但是,这些参考文献中没有一个公开以选择或拒绝目标项目的方式对时间相似度的阈值的设定。Prince的美国专利申请公开说明书NO.2002/0099696公开了模糊数据库检索,在其中给相似度一个分数,并且用阈值来选择被检索的项目。但是,无论是Prince还是其它参考文件都没有公开或建议基于一个基准时间来设定阈值,也没有根据基准时间与被识别项目时间之间的距离来设定阈值。
用户当然可能检索内容项目,但是试图找到类似的项目是非常费时费力的事情,特别是在不知道所期望项目的内容类型时或用户没有指定所期望项目的内容类型时。进一步地,随着内容项目在存储设备或用户控制的数据库中不断积累,内容项目的检索也会越来越困难。
提供了一种实施或执行检索系统的各种功能的方法、系统、设备、装置以及计算机可读的介质。提供了被选的候选内容项目或多个项目。确定了基准时间。举例而言,该基准时间可能是当前时间。通过提取第一个识别的内容项目的时间数据来识别第一个时间。第一个阈值可能根据在基准时间和第一个时间之间确定的标准时间距离而被设定。可以识别候选时间并且提取候选内容项目的时间数据。基准时间和第一候选时间之间的距离可以被确定为候选距离。一个候选内容项目可以基于第一个候选时间距离和第一个阈值而被选择为相似的,以用于数据库组织或检索,并相应地为该选中的候选内容输出一个选择信号。
提供了用于设定阈值的具有时间确定的粒度的形式的标准时间距离的思想,根据它来设定阈值,以使得距基准时间较近的时间的距离粒度比距基准时间较远的时间的距离粒度更高。
另外,可以设定基于标准时间距离的第二阈值,第一阈值与这个第二阈值组成了一个范围,如果第一候选时间距离在此范围之内,那么候选内容项目就被选中。
各第一时间可能包括内容项目获得的时间、内容项目最后使用的时间或者内容项目最常用的时间。这个时间可能是内容项目的基准时间、内容项目最新修正时间、或者内容项目的创建时间。
另外一些附加的已识别的内容项目能被识别,时间组和距离能被确定,以使第一阈值也可能基于这些被确定的标准时间距离来设定。


图1是根据本发明的一个实施方案的检索系统示意图。
图2是根据本发明的一个实施方案的系统操作流程图。
下述讨论以及上述附图描述了申请人的发明的实施方案,该实施方案是发明人当前最好的理解,但本发明还可能进行很多修改、以其它形式体现或者在不脱离本发明思想的情况下以其它形式实现。另外,所描述实施方案中在不脱离本发明的精神的情况下某些部件可能被省略、有选择地组合或以整体的形式与其它实施方案结合,或者用来代替其它实施方案的特征或其中的一部分。因此,附图和详尽的说明应理解为举例说明本发明的各个方面,而不是限制本发明的范围。
如图1所示,检索系统1-1包括几个模块,下文将做详细叙述。检索系统1-1的模块、其中的一部分、以及/或检索系统的整体,可能包括硬件、软件固件或前者的结合,但是某些模块可能例如由硬件组成,而其它模块可能由软件、固件或它们的组合来实现。
应该理解,检索系统的模块并不要求全部位于或集成于同一设备中。对于检索系统也可设想分布式结构,该检索系统可以“搭载”在已有设备提供的合适的模块上实现。
下述描述将涉及到一个在物理上通过有线或链接无线链接而与数据库1-2结合或相连的检索系统1-1。一个时钟(未显示)也可能与检索系统1-1结合或相连。数据库1-2可能实现在一个存储设备中,例如个人计算机的硬盘、个人录像机、娱乐系统、电子手账、个人手持设备、Jaz磁盘设备或者以诸如磁盘驱动器等商业存储设备来实施。数据库1-2应理解为可以包括相连的几个存储设备,以使两个或两个以上这样设备的内容项目的管理或分类成为可能。数据库可能理解为包括一个或多个存储媒体,例如磁盘,包括CD、DVD、Zip软盘、软盘以及数据磁带等,它们能被检索系统载入和检索。但是,检索系统应该理解为也可以通过诸如局域网、广域网以及互联网之类的网络1-9来检索内容。
如图1所示,检索系统1-1包括时间数据提取器1-11,它是一个从内容项目中收集特定类型数据的模块。内容项目可能是视频、视频剪辑、电影、照片、文本文件、音乐数据、音频文件、或其它类型的多媒体数据,如JPEG文件或XML数据。例如,视频可能是数字录像机上的一段家庭视频摄像,影片可能是商业发布的电影数据,例如按MPEG(包括MPEG-2、MPEG-3等)编码的影片,照片可能是数字照片数据、一组照片或影集,文本文件可能是字处理器生成的文件、电子表格或计算机编码文件,音乐数据可能是MP3之类的文件,如此等等。
由时间数据提取器1-11提取的描述数据,包括诸如元数据或有关内容项目的使用数据之类的信息。这些信息还包括用于内容项目的时间数据,例如项目的创建时间、项目的获得时间;最后/第一/倒数第二次等重放和/或编辑内容项目的时间,以及最常使用的时间,例如,项目最常在下午8点左右,或一个星期、一个月或一年中的特定一天被使用,项目最常在诸如晚上之类的时间被使用。这里使用的“最常”可能是基于使用时间的平均值、使用时间的中间值、使用时间的众数等。这些使用历史数据有时称为元数据,相反地,元数据的类型有时称作使用历史数据。
这里讨论的时间信息可能是一个或多个这种相似度范围的时间信息,或者它可能是唯一的或是权值最大的那个范围的时间信息。衡量这些因素在权重中所达到的程度(如果有的话)取决于应用和用户的需要。
应该理解的是,这种关于项目的描述数据可能以不同的方式查找和提取,包括从项目中、从索引或从数据库管理的文件中,或从外部信息来源中,例如,从经由有线或无线链接到因特网1-9而与检索系统1-11连接的万维网。
被识别的内容项目可能通过一种或多种方式识别。用户可能指定一个项目,其它项目(有时指候选内容项目)将基于该项目被检索。可选地,新加入或产生的内容项目可能以被自动地指定为一个被识别的内容项目,其它项目可以基于该项目而被检索。
基准时间通过基准时间确定器1-13来确定。这样的基准时间可以是由用户输入或设定的、预先编程设定的、根据时钟(未显示)确定的、从互联网或其它网络确定的或以上述方式的组合形式确定的当前时间。应该理解的是,每个基准时间以及与识别的内容项目和候选内容项目相关的时间,都可能包括一个日期和/或时间。对于一些应用,没有时间的日期将已足够或甚至更相关。对于很多应用,时间和日期同时被使用。应该理解的是,这些日期信息和时间信息可以被转换为有利于计算时间距离以及有利于与其它日期及时间进行对比的形式。
时间数据提取器1-11确定与识别的内容项目或项目群相关的时间,并确定与识别内容项目(群)相关的时间与基准时间的时间距离(即已经消逝的时间值)。这个距离有时叫做第一标准时间距离。与识别的内容项目(群)相关的时间可能根据与内容项目相关的元数据确定、根据数据库索引确定、根据包括诸如万维网之类的网络1-9确定、通过请求用户输入确定、以及以上述方式的组合来确定。时间距离可能通过查表、计算、请求用户输入以及上述方式的组合来确定。
阈值设定器1-14设定一个阈值或一个范围,候选内容项目的选择必须满足这个阈值或者范围。这个阈值或范围由阈值设定器1-14根据第一标准时间距离来设定。
候选内容项目识别器1-12通过网络连接、或从对于它们的元数据或其它信息是类似的其他信息源中、和/或基于从基准时间到第一个被识别的内容项目的时间距离到基准时间的它们的距离,从而在数据库中识别候选内容项目。
控制器1-15协调检索系统1-1的全部功能,与用户接口1-1、数据库1-2、服务器1-9以及一般而言的外界进行交互,并处理系统设定。
选择器1-16选择有资格的候选内容项目,结果输出器1-17提供用于被选择的和/或被拒绝的候选内容项目的结果信号。结果输出器1-17与其它设备进行接口,并与外界进行通信,包括与用户(未显示)进行接口。具体说,检索结果输出器1-17对由检索系统1-1检索到的内容项目向用户接口发送信号。用户接口1-3可能是一种独立的设备或与其它设备或系统集成,例如,个人计算机、个人摄像机、一个或多个存储器以及上述列举的设备。
这里可能有另外可用的被识别的内容项目。因此,时间元数据和/或使用提取和时间距离确定的这一过程,可以对1到N任何数量的可用的被识别的内容项目重复进行,N为大于1的正整数。然后,候选内容项目要根据所有标准时间距离的平均值来选择。
下面结合图1-2来描述本发明的一个实施方案的操作。如上所述,第一内容项目由图1所示的用户经由用户接口1-3识别,或通过诸如检测数据库1-2中新加入的或独立的内容项目等由系统自动识别。
在S1中,基准时间确定器1-13按如上所述方式来确定基准时间。如图2中的S2所述,检索系统1-1的时间数据提取器1-11为第一已识别的内容项目提取第一时间数据。在S2中,其它识别的内容项目可能进行类似的处理(为前N个识别的内容项目提取时间数据),例如,如果用户或系统指定几个“锚点”文档(基于该文档来检索目标文档)的话。
在S3中,通过决定在基准时间与识别的内容项目的时间之间的时间距离,由时间元数据提取器1-11为每个识别的内容项目确定一个标准时间距离。在S4中,可能对这些标准时间距离取平均来获得平均标准时间距离。这里所用取平均可能是基于计算一个数学平均数、众数或中值而得出。另外,也可以采用数值的简单求和以及其它类似的适当选择的统计函数来提供所选择的数据的综合概念。
在S5中,基于标准时间距离或其平均值来设定一个阈值或一个范围。例如,可以指定一个阈值使得数值1或0可能代表基准时间与第一个识别的内容项目之间的非常小的时间距离,而数值9或10可能代表大的时间距离。可选择地,除了使用1到10之间的标度外,阈值可能表示诸如“相同时间”、“非常接近的时间”、“接近的时间”、“遥远的时间”、“非常遥远的时间”等标记。应该理解的是,可以使用许多其他用于这些数值的方案而不脱离本发明精神。
另外,第二阈值也可能以同样的方式来选择。因此,第一阈值可能表示最大时间距离,而第二阈值可能表示最小时间距离,从而这两个阈值一起构成了一个范围。只有候选项目的距离(基准时间与候选内容项目时间之间的距离)在此范围之内时,候选项目才被选择。
在S6中,图1中候选项目内容识别器通过网络或其它任何地方来识别在数据库1-2中的候选内容项目,而时间数据提取器1-11(图2)为每个候选内容项目提取时间数据。然后,候选内容项目的时间距离的确定在S7中完成。另外的识别的内容项目也可能是可得到的,对于候选内容项目1-M,将继续执行提取时间数据和确定时间距离数值的步骤。
在S8中,选择器1-16将候选内容项目的时间距离与阈值或范围进行对比。如果这个距离比阈值小或者在此范围之内,则选择该候选内容项目。
举例而言,如果基准时间确定为2004年11月22日上午8点,第一识别的内容项目时间确定为2004年11月22日上午6点,那么两个小时的时间距离,即表示基准时间与第一识别的内容项目之间的距离,是第一标准时间距离。基于这两个小时的时间距离或者基于由已识别的内容项目1-N确定的标准时间距离的平均值,阈值时间距离被设定,例如,“4小时”、“同一天”、“一天之中相同的时间段”、“接近的时间距离”或“4” (4是一个0到9之间的整数,其中0表示时间基本相同,9表示时间距离很大)。然后,候选内容项目的距离与阈值进行比较,在S8中,如果候选项目时间与基准时间距离在4小时以内、在“同一天”之内、在“一天之中相同的时间段” 之内、在“接近的时间距离”之内或在等级“4”阈值的时间距离之内,该候选项目就被选择。
根据本发明的一个方面,设定阈值以使得距基准时间较近的时间的距离粒度比距基准时间较远的时间的距离粒度高。因此,举例而言,如果距基准时间的距离按标度1到10排列,那么随着距基准时间的距离的增加,较长的距离将被包含在较少的几个标度中。因此,如果标准时间距离(基准时间与识别的文档或内容项目之间的距离)是1小时,如果距该基准的候选距离是5小时,那么第一候选内容项目可能判定为不相似。但是,如果标准时间距离是1000天,那么第二候选文档的判定可能是相似的,即使第二候选者距该基准是6000天。这样的阈值确定是基于以下思想人们通常在直觉上认为,很久之前的事例之间的时间距离的差异没有最近过去的事例之间的相同时间距离的差异重要离相关基准时间的时间距离越远,则在确定相似度方面各事例之间的时间距离就越不重要。这样的取阈值方式在这里有时称为标准时间距离确定的粒度取阈值方式。
如上所述,在识别的内容项目距离值的集合存在分散性的基础上,在S5中,阈值设定器1-14也可以利用最大阈值和最小阈值而产生一个范围。因此,采用如上所述的只有一个识别的内容项目的例子,最大阈值与上述讨论相同,而最小阈值可能是,例如,“不同的小时”、“至少一小时”、“很接近的时间”或距离评级为2。于是,被选择的内容项目的范围是“同一天中不同的小时”、“同一天中同一时间段中不同的小时”、“1至4小时”、“很接近的时间距离-接近的时间距离”或标度“2-4”,其具体范围取决于定阈值的系统/使用的范围。
根据发明的一个方面,可以使用多个“基准”时间,标准时间距离确定的粒度将分别应用到每个这样的基准时间。举例而言,一个实际的当前时间以及一个过去重大事件的时间,如用户的婚礼日期、孩子的出生日期、周年纪念日等,可能是第二个基准时间。因此,粒度的级别将随距基准时间1(候选文档时间过去的越久远,被认为与其相似的消逝的时间量就越多)的距离而减少,类似地,粒度级别将随距基准时间2的距离而减少。这里的想法如下对某个人来说,比如对于一个在特定日期举行婚礼的人,距第二个基准时间越近的时间上的差别就越重要,因此它需要更高的粒度。
这样的第二、第三、第L(L是大于3的整数)等基准时间可由用户设定或由系统根据诸如上述确定基准时间的方式来确定。因此,举例而言,如果系统检测到大量或非常大百分数的与用户有关联的文档(例如,文档驻留在用户的计算机、数据库、掌上计算机之中)具有的内容项时间是处在特定时间(例如,创建的日期/时间、最后使用时间等),那么就可以设定这个附加的基准时间。举例而言,大量内容项目,它们例如使用某一阈值或基于统计函数而表明其内容项目比正常情况更集中,作为举例,如在用户婚礼当天或婚礼前后的婚礼照片、婚礼视频、音乐、电子邮件等,则就可以被确定为这样的一个附加的基准时间。然后,标准时间距离可以被确定,并在这样的附加基准时间基础上,根据标准时间距离确定的粒度来设定阈值。
根据本发明的一个方面,检索到的内容项目的内容类型可能与用户选择的内容项目的内容类型不同。例如,如果用户选择的内容项目是音乐类型的文件或MP3,则检索到的内容项目可能是内容类型照片数据。以这样,例如,基于时间相似度,特定类型的照片可能被检索到以便与用户选择的音乐相匹配。
在S9中,这个(这些)被选的候选内容项目被提供给用户或用户接口1-3。一个信号可能被直接提供给数据库1-2,以使被选的候选项目在数据库或用户接口1-3中被检索。可选地(额外地),如果候选内容项目被拒绝,则可提供一个信号。
可能向用户接口1-3提供一个通知来通知用户(未显示)可检索的内容项目。该通知可能包括待检索内容项目的标识、内容项目的描述、指向内容项目的一个统一资源定位符(URL)或链接、内容项目的整体或其部分的检索以及前述的组合。这个系统也可能用来将锚点项目和被选的检索的项目组合在一起以便组织数据库。在S10中,操作结束。
上述提供的本发明的实施方案仅仅是用作例证。但是,应该理解的是,本发明的范围是在权利要求中提供的。
权利要求
1.一种内容项目检索的方法包括确定(S1)一个基准时间;提取(S2)第一识别的内容项目的时间元数据以作为第一时间;基于在基准时间和第一时间之间确定(S3)的一个标准时间距离来设定(S5)第一阈值;提取(S6)第一候选内容项目的时间元数据以作为第一候选时间,并确定(S7)基准时间与第一候选时间之间的距离以作为第一候选时间距离;基于第一候选时间距离和第一阈值来选择(S8)第一候选内容项目;以及当第一候选项目被选择时,为第一候选内容项目输出(S9)一个选择信号。
2.权利要求1中的方法,其中第一阈值基于标准时间距离确定的粒度而设定。
3.权利要求1中的方法进一步包括基于标准时间距离设定第二阈值,第二阈值和第一阈值组成一个范围,并且当第一候选时间距离在此范围之内,则选择第一候选内容项目。
4.权利要求1中的方法,其中,第一时间和第一候选时间中的至少一个包括内容项目获得的时间、内容项目最后使用的时间、内容项目第一次使用的时间和内容项目最常用的时间。
5.权利要求1中的方法,其中,第一个时间和第一个候选时间中的至少一个包括内容项目最新修正的时间和内容项目的创建时间。
6.权利要求1中的方法进一步包括提取(S2)第二个识别的内容项目的时间元数据以作为第二时间;也基于第二标准时间距离来设定(S5)第一阈值,该第二标准时间距离被确定为基准时间和第二时间之间的距离。
7.一个内容项目的检索系统包括基准时间提取器(1-13),被配置来确定基准时间;时间元数据提取器(1-11),被配置来提取第一识别的内容项目的时间元数据以作为第一时间,并确定基准时间与第一时间之间的时间距离以作为标准时间距离;阈值设定器(1-14),被配置成基于作为基准时间与第一时间之间的一个距离而确定的标准时间距离来设定第一阈值;上述元数据提取器(1-11)被配置成提取第一候选内容项目的元数据以作为第一候选时间,并确定基准时间与第一候选时间之间的时间距离以作为第一候选时间距离;选择器(1-16),被配置成基于第一候选时间距离和第一阈值来选择第一候选内容项目;结果输出器(1-17),被配置成在第一候选时间被选择时为第一候选内容项目输出一个选择信号。
8.权利要求7中的系统,其中第一个阈值基于由标准时间距离确定的粒度而设定。
9.权利要求7中的系统进一步包括上述阈值设定器(1-14)基于标准时间距离设定第二阈值,第二阈值和第一阈值组成一个范围,当第一候选时间距离在此范围之内,则上述选择器选择第一候选内容项目。
10.权利要求7中的系统,其中,第一时间和第一候选时间中的至少一个包括内容项目获得的时间、内容项目最后使用的时间、内容项目第一次使用的时间和内容项目最常用的时间。
11.权利要求7中的系统,其中,第一时间和第一候选时间中至少之一包括内容项目最新修正的时间以及内容项目的创建时间。
12.权利要求7中的系统,其中,第一时间和第一候选时间中的至少一个包括经常使用的时间段、用户最近使用的时间段和用户最常使用的时间段之一。
13.权利要求7中的系统,包括上述时间元数据提取器(1-11)被配置成提取第二识别的内容项目的时间元数据以作为第二时间;上述阈值设定器(1-14)被配置成还基于作为基准时间与第二时间之间的距离而被确定的第二标准时间距离来设定第一阈值。
全文摘要
提供了在诸如创建时间或使用时间之类的相关时间相似度基础上检索相似内容项目或文档。以数据库为例,通过提取元数据时间来确定一个或多个被识别的锚点文档的时间。然后,基于一种标准时间距离来确定第一个阈值,该标准时间距离在基准时间或当前时间和锚点项目时间之间确定。一个候选文档项目的时间被识别,且用于候选内容项目的时间元数据也能被提取。基准时间与候选时间的时间距离可以被确定为候选时间距离。基于第一个候选时间距离和第一个阈值,一个候选内容项目可以被选择为相似而供检索之用。提供了设定阈值用的具有时间确定的粒度的形式的标准时间距离的思想。
文档编号G06F17/30GK101069180SQ200580041326
公开日2007年11月7日 申请日期2005年11月30日 优先权日2004年12月1日
发明者E·M·A·迪德里克斯, B·M·范德斯卢伊斯 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1