混合语料库环境中的排名信号的制作方法

文档序号:9493687阅读:312来源:国知局
混合语料库环境中的排名信号的制作方法
【专利说明】
【背景技术】
[0001]信息检索系统使用词语和短语来索引、检索、组织和描述文件。这样的信息检索系统可以包含元搜索引擎,该元搜索引擎可以结合多个搜索后端或服务的结果。当用户在搜索引擎中键入搜索查询时,查询中的词语被识别并被用于从多个搜索后端中检索文件。例如,对于给定的搜索词语,搜索引擎可以返回相同类型(例如,仅歌曲)的文件,或者也可以返回可以被分为多个不同逻辑语料库(例如,对于给定标题,元搜索引擎可以返回可能包含带有相同标题的歌曲、书籍、视频、电视节目等等的结果)的文件。返回的结果可以根据搜索中使用的单独逻辑语料库被排名。
[0002]然而,由于某些语料库可以刚刚以不均匀的使用模式被集成进来(例如,刚刚集成的音乐搜索引擎),单独语料库的排名可能很难。所以,如果用户执行对于音乐专辑标题的搜索,返回的搜索结果可以包含例如具有相同标题的书籍、具有相同标题的电影、以及(在第三位的)具有相同标题的音乐专辑。就这一点而言,用户最感兴趣的结果将在第三位而不是在第一位显示。就这一点而言,由于缺少适当水平的排名数据,元搜索引擎内的搜索后端中的一个或多个的不均匀的使用模式(例如,使用非常受欢迎的搜索后端或使用刚刚集成的搜索后端)可以提供最终搜索结果的次优排序。
[0003]通过将常规的和传统的方案与本公开其余部分参考附图阐述的本方法和装置的某些方面的比较,这样的方案的进一步限制和缺点对于本领域的技术人员将变得明显。

【发明内容】

[0004]提供了一种使用万维网(WWW)数据分类文件以用于在混合语料库环境中对信号排名的系统和/或方法,大体上如在附图的至少一个中示出和/或关于附图的至少一个所述,如在权利要求中完整地阐述。
[0005]本公开的这些和其它的优点、方面和特征,以及所说明的它们的实现方式的细节,从下文的说明和附图中将得到更充分的理解。
[0006]根据本公开的示例实施例,用于检索信息的方法可以包含在信息检索系统内接收搜索查询。响应于搜索查询的搜索结果可以从第一信息语料库和第二信息语料库中被识另IJ。响应于搜索查询的搜索结果可以从第三信息语料库中被识别。与第一信息语料库和第二信息语料库相关联的排名信号可以基于来自第三信息语料库的搜索结果确定。来自第一信息语料库和第二信息语料库的搜索结果可以基于排名信号被排名。
[0007]根据本公开的另一个示例实施例,用于检索信息的方法可以包含在信息语料库内接收搜索查询。来自至少一个信息语料库的搜索查询的搜索结果可以在信息语料库内被识另IJ。响应于至少向第二信息语料库传达搜索查询,与信息语料库内的至少一个信息语料库的每一个相关联的排名信号可以至少从第二信息语料库中被接收。排名信号可以基于使用至少第二信息语料库的搜索查询的搜索之后的搜索结果的分类。信息语料库可以是“小型”语料库,该“小型”语料库可以包含作为基于WWW的(或基于web的)语料库的子集的至少一个语料库,或者与基于web的语料库部分或完全非重叠的至少一个语料库。来自至少一个信息语料库的每一个的搜索结果可以在信息语料库内基于所接收到的排名信号被排名。
[0008]信息语料库可以包含至少一个非基于万维网(WWW)的信息语料库(例如,由音乐文件组成的语料库),以及至少一个基于WWW(或基于web)的信息语料库。至少第二信息语料库可以包含至少一个基于WWW的(或基于web的)信息语料库。信息语料库可以包含表示任何种类内容、产品和/或信息的文件。这样的文件的示例可以包含电影(用于电影搜索引擎)、曲目/专辑/艺术家(用于音乐搜索引擎)、书籍(用于书籍搜索引擎)、用于app搜索引擎的应用(或app)、以及其他多媒体文件。
[0009]根据本公开的另一个示例实施例,用于检索信息的系统可以包含网络设备(例如,如图1所示的带有CPU 105a和存储器105b的元搜索引擎排名器104)。网络设备可以可操作以在信息语料库内接收搜索查询。来自至少一个信息语料库的搜索查询的搜索结果可以在信息语料库内被识别。响应于向至少第二信息语料库传达搜索查询,与信息语料库内的至少一个信息语料库的每一个相关联的排名信号可以至少从第二信息语料库中被接收。排名信号可以基于使用至少第二信息语料库的搜索查询的搜索之后的搜索结果的分类。信息语料库可以是“小型”语料库,该“小型”语料库可以包含作为基于WWW的(或基于web的)语料库的子集的至少一个语料库,或者与基于web的语料库部分或完全非重叠的至少一个语料库。来自至少一个信息语料库的每一个的搜索结果可以在信息语料库内基于所接收到的排名信号被排名。
[0010]根据本公开的再一个示例实施例,可以公开了一种机器可读的存储设备,具有存储于其上的计算机程序,所述计算机程序具有用于检索的信息的至少一个代码段。该至少一个代码段可以被机器执行用于促使机器执行一个方法,该方法包含在信息语料库内接收搜索查询。来自至少一个信息语料库的搜索查询的搜索结果可以在信息语料库内被识别。响应于至少向第二信息语料库传达搜索查询,与信息语料库内的至少一个信息语料库的每一个相关联的排名信号可以至少从第二信息语料库中被接收。排名信号可以基于使用至少第二信息语料库的搜索查询的搜索之后的搜索结果的分类。信息语料库可以是“小型”语料库,该“小型”语料库可以包含作为基于WWW的(或基于web的)语料库的子集的至少一个语料库,或者与基于web的语料库部分或完全非重叠的至少一个语料库。来自至少一个信息语料库的每一个的搜索结果可以在信息语料库内基于所接收到的排名信号被排名。
【附图说明】
[0011]图1是根据本公开的示例实施例的图示元搜索引擎架构的框图。
[0012]图2A是根据本公开的示例实施例的元搜索引擎中的单独搜索后端的示例实现方式的框图。
[0013]图2B是根据本公开的示例实施例的使用基于web和非基于web的语料库信号的独立于查询的分值模块的示例实现方式的框图。
[0014]图3是根据本公开的示例实施例的图示元搜索引擎中的最终语料库顺序和搜索结果的示例呈现的框图。
[0015]图4是根据本公开的示例实施例的图示用于在元搜索引擎中检索信息的方法的示例步骤的流程图。
[0016]图5是根据本公开的示例实施例的图示用于在元搜索引擎中检索信息的另一个方法的示例步骤的流程图。
【具体实施方式】
[0017]本文使用的词语“电子线路”和“电路”指的是物理电子组件(即,硬件)和可以配置硬件、被硬件执行和或与硬件相关联的任何软件和/或固件(“代码”)。作为示例,“X和/或y”意为三元素集{(X),(y),(x,y)}中的任一元素。作为另一个示例,“x,y,和/或Z” 意为七元素集{(X),(y),(z),(x,y),(x,z),(y,z),(x,y,z)}中的任一元素。本文使用的词语“例如”介绍一个或多个非限制示例、实例、或例证的清单。
[0018]人们每天在web搜索引擎上进行大量查询。基于本文描述的方法和系统,从这样的搜索引擎收集的数据可以被用于改进非web搜索引擎。我们将这样的搜索引擎系统称为web语料库或基于web的信息语料库。本文使用的词语“语料库(corpus) ” (复数为“语料库(corpora)”)意为给定类型的文件(或数据项)集合。本文使用的词语“基于WWW的搜索语料库”或“基于WWW的语料库”是旨在包含互联网上可用的所有文件的语料库(即,包含但不限于音乐相关文件、书籍相关文件、电影相关文件和其它媒体相关文件)。词语“非WWW语料库”或“非基于WWW的语料库”意为语料库文件(或数据项)在WWW上不可用的语料库。
[0019]词语“小型”语料库可以表示包含作为基于WWW(或基于web)的语料库的子集的至少一个语料库,或者与基于web的语料库部分或完全非重叠的至少一个语料库的语料库。“小型”语料库的示例可以包含与在线媒体搜索引擎相关联的语料库。“小型”语料库可以包含,举例来说,电影语料库(与电影搜索引擎相关联)、音乐语料库(与音乐搜索引擎相关联)等等。此外,音乐和/或电影数据库的部分可以是经由基于WWW的语料库的互联网搜索(即,相应的语料库的这样的部分是基于WWW的语料库的子集)可用的,而“小型”语料库的其它部分可以不是在基于www的语料库上可用的,并且因此,可以是与基于WWW的语料库非重叠的。
[0020]词语“非重叠语料库”(例如,第一语料库与第二语料库非重叠),意为可以在一个语料库中找到的文件,在另一个语料库中不可以被找到。
[0021]本文使用的词语“元搜索引擎”意为包括带有多个搜索后端的混合语料库环境的搜索引擎。每一个搜索后端可以利用与某些类型的文件相关联的语料库(例如,app、音乐、书籍等等)Ο
[0022]在某些情况下,混合语料库搜索引擎(例如,元搜索引擎)可以使用查询对点击比率确定搜索结果内语料库的顺序。这样的方法可以在具有大量同等地遍及全部语料库的历史数据的系统中良好运行。然而,当语料库中的一个或多个比其它语料库已经存在了明显长得多的时间时,这一方法可能是不完善的。例如,元搜索引擎中的搜索后端之一可能与应用(或app)相关联并可能比音乐搜索后端和书籍搜索后端(或任何其它搜索后端)存在了更长的时间。如果用户执行搜索“Lady Gag
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1