改进数据库内搜索结果的方法

文档序号:6494696阅读:248来源:国知局
改进数据库内搜索结果的方法
【专利摘要】一种用于改进在至少一个数据库中对象的搜索结果的方法,所述数据库包含至少一组对象,其中每个对象与至少一个描述符相关联,所述方法包括以下步骤,其目的是:向用户呈现所述数据库的对象组的全部或部分,所呈现的至少一部分对象中的每个都关联至少一个使用户能够通过信号通知对象与他们的搜索相关和/或不相关的方式,根据来自所述用户的信号,将至少一个权重分配给来自所呈现的对象组的对象的全部或部分描述符,其中,所述所呈现的对象组中的对象被用户认为与他们的搜索相关和/或不相关,计算与结果对象组的每个描述符相关联的权重的结果,初始化每个结果对象的相关性指数,比较每个结果对象和结果,以及对于所比较的所述结果对象的每个描述符,根据在结果中描述符的权重,增加或减少对象的相关性指数,按计算出的对象的相关性指数的顺序,向所述用户呈现出全部或部分结果对象。
【专利说明】改进数据库内搜索结果的方法
[0001]本发明涉及一种改进数据库内搜索结果的方法,该数据库中包含一组对象,每个对象与至少一个描述符相关。
[0002]近年来,随着数字技术以及网络和因特网的发展,已经导致了可用数字内容量的相当显著的增加。
[0003]其中一个特别重要的例子是数字摄影的发展,特别是基于在线发布网站和照片共享网站。因此,在2010年9月,这类网站中的一个领导者的在线发布的照片方面的标记超过了 50亿,每天还在继续在线增加多达几千个。
[0004]这些数字对象通常是列于与关键词和/或其它技术描述符(大小、分辨率等)关联的数据库中的。这些关键词和描述符使其可以实施数据库的搜索并返回对象,所述对象的关键字与用户输入的搜索标规则相匹配。
[0005]目前,然而,大多数搜索引擎已经被主要设计用于能在网页或文件,特别是相关联的描述文本之内进行文本搜索。
[0006]在这种情况下,如果存储对象本质上不是文本的,诸如照片,例如,关键字和相关的描述符对能够执行有效搜索,随后返回相关搜索结果变得相当地重要。
[0007]存在许多搜索引擎允许执行这种搜索,开发了许多算法以优化这些搜索结果的相关性。
[0008]尽管算法相当复杂,但关键字搜索具有内在的局限性,特别是因为,例如人类语言存在同义词、同音异义字、分层的术语和准确度。
[0009]由于这些限制,用户特定的搜索意图还不为搜索引擎所知,所述意图超出了所使用关键词的基本含义的。
[0010]为了克服这些限制,大多数搜索引擎允许用户来执行高级搜索,特别是通过使用以布尔运算符的使用来结合的多个关键字。
[0011]然而,对于用户来说,以这样的过程来执行搜索不是特别容易,并且在某些搜索引擎上,编写查询可能需要几乎是编程水平的技能,因为不知道该查询是否可以由引擎正确解释而得到所需的结果。
[0012]因此,存在这样的需要:证明一种方法的开发可以用于优化数据库中所包含对象的搜索,特别是用于克服某些不清楚或不准确性,以更好地响应用户的查询。
[0013]为了做到这一点,本发明涉及一种用于改进至少一个数据库内的搜索对象的结果的方法,其中数据库包含至少一组每个关联至少一个描述符的对象,所述方法包括以下步骤,其目的在于:
[0014]-向用户呈现所述数据库的一组对象的全部或部分,所呈现的的至少一部分对象中的每个都关联至少一种使用户能够通过信号通知对象与他们的搜索相关和/或不相关的方式(means),
[0015]-作为来自用户的信号的函数,将至少一个权重分配给来自所呈现的对象组的对象的全部或部分的描述符,其中,所述所呈现的对象组中的对象被用户认为与他们的搜索相关和/或不相关,[0016]-计算与结果对象组中的每个描述符相关的权重结果,
[0017]-初始化每一个结果对象的相关性指数,
[0018]-比较每个结果对象和结果,对于所比较的所述结果对象的每个描述符,根据在结果中描述符的权重的函数,增加或减少对象的相关性指数,
[0019]-按计算出的对象的相关性指数的顺序为用户呈现出全部或部分结果对象。
[0020]因此通过允许用户直接通过信号表明他们是否找到的初始搜索结果相关或非相关,有可能更好地考虑他们搜索的真正意义并且为他们提供更加满意的结果。此外,使用上述方法,用户易于通过增加或去除描述符和关键字以执行复杂搜索,这是以直观和透明的方式进行的。
[0021]术语“对象”指可以存储在数据库中的任何数字对象。如上所述,具体而言,它可以是照片,以及包括音频、视频、文档等其它类型的文件。
[0022]应当注意,根据数据库的操作原理,引用对象本身不一定直接包含在数据库的记录中并且很可能是通过,例如,它们的存储地址或URL的方式引用,或经由任何其它间接方式。
[0023]还应当注意,使用的术语描述符是非限定性的。显然,术语描述符包括例如关键词等描述符,但它也可以涉及引用纹理、材料、颜色分布、定义等多个技术描述符。它也可以是基于辞典建立的语义描述符。描述符的性质通常是不受限制的,它们取决于在相关数据库中的引用,并且被搜索。
[0024]还应当注意的是,可以将不同的权重分配给不同的描述符,特别是作为有关全部其它描述符的来源、上下文和状态的函数。因此,例如,描述符来自辞典,因此具有标准化、均匀和结构化的性质,可以具有比照片共享网站用户本身分配的关键字类型的描述符更大的权重。
[0025]已经观察到许多意想不到和令人惊讶的有益效果。特别明显的是,本发明的方法允许用户在一定程度上克服由所用文本描述符的语言引起的问题。实际上,从使用他们自己的语言的初始搜索,用户通过使用根据本发明的方法来改进搜索结果,还可以以透明的方式将权重分配给与该对象相关的外语的描述符和关键词。因此,搜索可以在使用外语关键词的基础上最终改进,或至少考虑这些外语关键词,用户不需要理解外语,并且他们无需直接将外语输入到基于文本的搜索引擎。
[0026]根据一个优选的实施方案,在一个或多个数据库中,最初呈现给用户的对象组对应于初始搜索、特别是通过关键词所得到的全部或部分对象。很显然,允许生成第一组对象的初始搜索的所有模式是可能的。除了使用文本字段和由用户输入单词的常规搜索,人们可以想象直接从地图上的地理坐标上选择对象,甚至,例如分析第一张图片以便从中提取搜索参数等。
[0027]根据初始搜索返回的对象的数量,可以选择仅向用户呈现结果的一部分,例如,在照片数据库中通过关键字搜索的最初的十万个照片。
[0028]还应当注意的是,在一个或多个数据库中的搜索可以在内部数据库中执行,但还可以在例如安放在远程专用网站上的外部数据库上执行。
[0029]也可选择不进行初始关键词搜索,并向用户呈现例如代表数据库的主要类别的一组对象。在本发明的主题物所述的方法的帮助下,用户通过连续改进其选择,能在数据库中自由导航。
[0030]优选地,当得到所述对象组时,最初呈现给用户的对象组的对象是采用指定的顺序呈现,特别是采用与初始搜索的相关性关联的顺序,这个相关性可以具体由搜索算法来定义。实际上,常规搜索引擎经常将相关性指数关联到它们的搜索结果。
[0031]替换地或者以补充的方式,相关性和初始呈现的顺序可以限定在一种特别的方式中,例如,最大化最初呈现的不同对象的数量,以允许用户用于他们第一次改进处理并最终用于随后的步骤的选择可能性最宽。
[0032]根据一个优选的实施方案中,分配给认为是非相关的对象的描述符的权重和分配给认为是相关的对象的描述符的权重具有相反的符号,更具体地,它们分别具有负的和正的符号。
[0033]很显然,这简单地涉及到以举例的方式给出的评价标定,参考点不是必须为零,可以选择其它的参考点而没有任何困难,因为它简单地构成标定的平移。在这种情况下,应当考虑的是,术语“相反符号”、“正”和“负”应被理解成相对于参考点。
[0034]根据第一变体,分配给认为相关和/或不相关的对象的描述符的权重的绝对值是相等的。
[0035]根据第二变体,分配给认为相关和不相关的对象的描述符的权重具有不同的绝对值,并且特别是分配给认为是相关的对象的描述符的权重的绝对值比不相关的对象的描述符的绝对值权重更高。
[0036]有利地,分配给认为是相关的和/或非相关的对象的描述符的权重值可能对于通过信号表明的每个对象来说是不同的。
[0037]仍然有利地,分配给认为是相关的和/或非相关的对象的描述符的权重值是它们初始的优先顺序的函数。特别地,系数可应用于标准权重值。例如,被认为是90%关联的对象,等同于发现执行初始搜索的搜索引擎将其归于参考权重值的90%,如果用户认为这一对象相关,。
[0038]然而,如果用户认为对象是非相关的,与搜索引擎不同,人们可以选择仅向它分配非相关权重的参考值的10%。
[0039]根据一个有利的实施方案,通过信号表明呈现的对象的相关性和/或非相关性的方式适于通过信号表明相关性和/或非相关性的不同程度,特别是允许用于根据通过信号表明的相关性和/或非相关性的程度而分配不同的权重。因此,可以特别提供一个网页,该网页包含按钮用来报告一个对象是例如“非常相关”(第一级)、“相关”(第二级)、“稍微相关”(第三级)、“非相关”(第四级)和“脱离主题”(第五级)。
[0040]有利地,结果对象以预览、缩略图和/或摘录形式呈现。
[0041]根据一个具体的实施方案,数据库中包含的对象包括照片和/或视频和/或音频对象。还可以有其它类型的文档、文本文件等
[0042]根据第一实施方案,相关性指数被初始化为每个结果对象相同的值,特别是初始化为O。
[0043]根据第二变体,所述相关性指数被初始化为结果对象的全部或部分不同的值,特别是作为呈现初始顺序的函数,并且如果合适,可以作为初始搜索返回的相关性值的函数。
[0044]根据一个更高级的实施方案,在数据库中返回的最相关的对象的描述符的全部或部分输入一个新的搜索。
[0045]参照下面附图的详细描述将更好地理解本发明,其中:
[0046]图1是一个实际实施了根据本发明的方法的网站的屏幕截屏,在第一步骤的水平向用户呈现通过关键字的初始搜索结果,
[0047]图2是图1中网站的屏幕截图,其中用户已经通过信号表明他们认为一张照片与其搜索相关,
[0048]图3是图1中网站的屏幕截图,其中用户已经通过信号表明他们认为照片与其搜索不相关,
[0049]图4是用户触发改进搜索的步骤之后的屏幕截屏,
[0050]图5是图1中网站的屏幕截图,示出了用户在表示相关性和非相关性的信号基础上实施改进步骤的结果,
[0051]图6是一个流程图,示意性地显示了图1至图5说明的过程的实际操作。
[0052]图1至5 (结合图6)示出在搜索汽车大灯照片中实际实施了本发明的方法的网站
的屏幕截屏。
[0053]图1示出了第一个步骤101,其中,为用户呈现了一组照片的缩略图P1-P14的给。
[0054]这组照片P1-P14在一个或多个照片数据库中通过关键字的初始搜索而获得。
[0055]在这种情况下,用户使用法语关键字“phare”限定所述搜索,并被键入到页面的搜索字段R。
[0056]在照片数据库中,搜索字段R用作与用户交互,并用作可以是网站内部的或外部的搜索引擎的输入。这样的数据库包括大量的照片并与此关联用于方便将来搜索目的的各种描述符。这些描述符尤其包括关键词列表,但也可以是照片特有的其它参数(使用的照片、技术数据、彩色配置,等等)。
[0057]相当清楚地,使用一个单关键字“phare”自然是模糊度的来源,并携带搜索引擎不能分辨的不同的法语含义。
[0058]因此,搜索引擎返回其搜索算法的结果,并将它们以14张缩略图照片P1-P14的形式呈现给用户。
[0059]应当注意,呈现给用户的十四张照片不一定对应于初始搜索的全部结果,很可能选择只向用户呈现结果的一部分,例如,返回的最初一千照片。
[0060]如图1所示,照片P1、P2、P4、P5、P7、P8、P9、P11、P12指在沿海用于导航的灯塔的照片。
[0061]对于照片P3、P6、P10、P13、P14,然而,这些涉及汽车大灯的照片。
[0062]每个照片与包含它的数据库或在另一个数据库中与一个或多个描述符相关联。
[0063]为实现该实例的目的,我们假设照片PU P2、P4、P5、P7、P8、P9、P11、P12涉及法语关键词描述符“phare”,照片P3、P6、P10, P13、P14每个涉及两个法语描述符“phare”和“voiture”(汽车)。
[0064]根据本发明的方法,照片pl_pl4各自呈现给用户,关联有表示证实的“复选标记”的可点击的图像11和表示拒绝的“删除标记”的可点击的图像12。
[0065]这些可点击的图像被关联到计算函数,所述计算函数记录用户选择,并构成用户通过信号表明相对与他们的实际搜索的照片相关(复选标记)和/或非相关(删除标记)的方式。
[0066]很明显,仅作为一个实例给出复选标记和删除标记的图像,并且任何等效形式都是可行的,包括通知用户他自己做出的选择的可点击文本。
[0067]用户接着在步骤102继续通过信号通知他们认为照片是相关和/或不相关的信号。
[0068]图2是屏幕截图,显示了用户通过信号表明照片P14与他们实际的搜索相关。消息Ml告知用户他们的信号已经恰当地由网站或软件考虑。
[0069]图3是屏幕截屏,示出了用户已经通过信号表明照片P4与其实际的搜索不相关,因为它表现出沿海的灯塔。消息M2告知用户他们的信号已经恰当地由网站或软件考虑。
[0070]在本发明的实例中,消息Ml和M2是以“弹出”消息的形式显示?盖窗口的显示)。很明显,这些消息可以通过其它形式以信号的方式发送给用户,特别是,通过将选择的图像组合在一起、显示在侧边栏,建立用于所选择的相关和非相关的图像的虚拟推车等。
[0071]当用户完成他们认为与其搜索相关的和/或非相关的照片的选择时,他们通过例如在按钮B上点击,来激活改进搜索的处理。在图4中示出了处理屏幕的一个实例。
[0072]显然,改进处理也可以基于用户的交互实时进行,然而,这将尤其需要较多处理资源和远程服务器的支持。
[0073]处理步骤相对于用户是透明的。
[0074]在步骤103期间,权重P与每个用户通过信号发出的图像相关联的描述符相关。如果图像通过信号表明为非相关,权重P分配为负号,并且如果图像通过信号表明为相关,权重P分配为正号。
[0075]在所提供的实例中,照片P4具有相关联的描述符“phare”,已经通过信号表明为不相关,照片P14具有两个描述符相关的“pharelP“VOitUre”,已经通过信号表明为相关。
[0076]因此,基于通过信号表明照片P4不相关,描述符“phare”分配为权重-P,并且基于通过信号表明照片P14相关,分配为权重+P。类似地,基于通过信号表明照片P14相关,描述符“voiture”分配为权重+P。
[0077]在步骤104的过程中计算分配给图像组P1-P14的每个描述符的权重的结果。
[0078]在这种情况下,描述符“phare”因此就得到O的总权重,同时描述符“voiture”得到等于+P的总权重。
[0079]结果是照片P1-P4的这组描述符按事先计算分配各自的权重。
[0080]在进行呈现对象的改进和分类之前,相关性指数与每张照片P1-P14相关联,并且在步骤105期间初始化为O。
[0081]每张照片P1-P14因此具有相同的优先权和相关性。
[0082]然后,执行步骤106以比较每张相片pl_pl4与描述符的权重的结果。
[0083]为了做到这一点,将照片P1-P14的每个描述符与结果进行比较,在结果中优先权指数通过描述符的权重而增加或减少。
[0084]因此,照片pi示出了沿海灯塔,并且只具有描述符“phare”,在结果中通过描述符“phare”的权重,即0,来增加得到优先权指数,。因此,它的优先权指数保持在O。
[0085]对于照片P2也是如此。
[0086]然而,P3的照片显示了汽车大灯。如前所述,它与两个描述符“phare”和“voiture”相关联。对于描述符“phare”,其指数不改变,因为该描述符的权重为O。然而,对于描述符“ voiture ”,在结果中其优先权指数通过描述符“ voiture ”的权重而增加,即通过+P。其优先权指数变成+P。
[0087]对于照片P4-P14,以相同的方式进行。
[0088]因此,为了首先显示汽车大灯的照片和随后是沿海灯塔的照片,基于其各自的新计算出的优先权指数,简单地重新排列照片P1-P14,在步骤107中按不断下降的相关性指数的顺序呈现它们就足够了。
[0089]图5示出了呈现最终重新排列的屏幕截图,其中仅汽车大灯的照片被正确地呈现。
[0090]应当注意,图5还示出了未出现在初始显示屏幕上的照片。事实上,初始选出的一批照片很可能大于呈现的14张照片的那一批,之后对用户被隐藏了某些照片。但是,它们存在于初始选择中,并被考虑用于所述处理的实施。因此,它们也接收了改变其选择顺序的相关性指数。最终,它们可以见于前十四张照片,并因此呈现给用户。
[0091]对于灯塔的初始照片,这些被移到十四张照片之外,因此不会再出现。
[0092]很显然,用户然后可以对他们搜索执行新的改进,尤其是如果已经向他们呈现了新的照片(步骤108)或停止他们的搜索(步骤109)。
[0093]尽管本发明已经按照实施方案的特定的例子描述,很明显这不是任何方式的限定,并且本发明包括所描述的方式的所有技术等效物以及它们的组合,如果后者是在本发明的范围内。
[0094]这可以特别包括提供额外的信号方式,例如,用于通过信号表明相关性和/或非相关性的特性的方式之外的“中性”按钮。
[0095]本发明也可以是可以提供一种方式,在用户造成错误或希望以其它标准开始搜索改进处理的事件中,用于重新初始化权重和相关性指数。
[0096]此外,尽管已经参照照片描述了本发明,很明显不限于这些,并且可以用于其实现任何其它类型的数字文件及其相关联的描述符。因此,有可能对音频文件以相同的方式实现所述方法,特别是与有关它们的音乐风格、声波的性质、设备等的描述符相关联,但也可以使用其它类型的文件,包括视频、动画图像、文件、文本文件,特别是扫描的旧书籍等。
【权利要求】
1.一种用于改进在至少一个数据库中对象的搜索结果的方法,所述数据库包含至少一组对象,其中每个对象与至少一个描述符相关联,所述方法包括以下步骤,其目的是: -向用户呈现所述数据库的对象组的全部或部分,所呈现的至少一部分对象中的每个都关联至少一个使用户能够通过信号通知对象与他们的搜索相关和/或不相关的方式, -根据来自所述用户的信号,将至少一个权重分配给来自所呈现的对象组的对象的全部或部分描述符,其中,所述所呈现的对象组中的对象被用户认为与他们的搜索相关和/或不相关, -计算与结果对象组的每个描述符相关联的权重的结果, -初始化每个结果对象的相关性指数, -比较每个结果对象和结果,以及对于所比较的所述结果对象的每个描述符,根据在结果中描述符的权重,增加或减少对象的相关性指数, -按计算出的对象的相关性指数的顺序,向所述用户呈现出全部或部分结果对象。
2.根据权利要求1所述的方法,其特征在于,在一个或多个数据库中最初呈现给所述用户的对象组对应于初始搜索,特别是通过关键词搜索的全部或部分对象。
3.根据权利要求1或2所述的方法,其特征在于,在获得对象组时,最初呈现给所述用户的对象组的对象以指定顺序呈现,特别是按照初始搜索有关的相关性顺序,这个相关性可以通过搜索算法来具体限定。
4.根据权利要求1至3中任一项所述的方法,其特征在于,分配给认为是不相关的对象的描述符的权重和分配给认为是相关的对象的描述符的权重具有相反的符号,更具体地,它们分别具有负的和正的符号。`
5.根据权利要求1至4中任一项所述的方法,其特征在于,分配给认为是相关和不相关的对象的描述符的权重的绝对值是相等的。
6.根据权利要求1至4中任一项所述的方法,其特征在于,分配给认为是相关和不相关的对象的描述符的权重具有不同的绝对值,并且特别是分配给认为是相关的对象的描述符的权重的绝对值比分配给认为是不相关的对象的描述符的权重的绝对值更高。
7.根据权利要求1至6中任一项所述的方法,其特征在于,分配给认为是相关和不相关的对象的描述符的权重的值针对通过信号通知的每个对象不同。
8.根据权利要求7所述的方法,其特征在于,分配给认为是相关和/或不相关的对象的描述符的权重的值是它们初始的优先顺序的函数。
9.根据权利要求1至8中任一项所述的方法,其特征在于,用于通过信号通知所呈现对象的相关和/或不相关的方式包括适于通过信号通知相关和/或不相关的不同程度的方式,特别允许根据通过信号通知相关和/或不相关的程度来分配不同的权重。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述结果对象以预览、缩略图和/或摘录的形式呈现。
11.根据权利要求1至10中任一项所述的方法,其特征在于,包含在数据库中的对象包括照片和/或视频和/或音频对象。
12.根据权利要求1至10中任一项所述的方法,其特征在于,对于每个结果对象,相关性指数被初始化为相同的值,特别是为O。
13.根据权利要求1至10中任一项所述的方法,其特征在于,对于全部或部分结果对象,相关性指数被初始化为不同的值,特别是作为呈现的初始顺序的函数,并且如果合适,作为初始搜索返回的相关性值的函数。
14.根据权利要求1至13中任一项所述的方法,其特征在于,返回的最相关对象的全部或部分描述符在数据库中输`入新的搜索。
【文档编号】G06F17/30GK103518198SQ201280014577
【公开日】2014年1月15日 申请日期:2012年3月19日 优先权日:2011年3月23日
【发明者】埃里克·马蒂厄, 西里尔·玛驰 申请人:西洛皮斯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1