期望存储库的确定的制作方法

文档序号:6568629阅读:154来源:国知局
专利名称:期望存储库的确定的制作方法
技术领域
在此描述的实施方式一般地涉及信息检索,更具体地,涉及确定 用于进行搜索的期望存储库。
背景技术
万维网("web")包含大量信息。然而,定位期望的信息部分可 能是富有挑战性的。因为万维网上的信息量和缺乏万维网搜索经验的 新用户数量在快速地增加,导致这个问题更复杂。
搜索引擎系统试图返回到用户感兴趣网页的超链接。通常,搜索 引擎系统将它们的用户兴趣确定基于用户输入的搜索项目(称作搜索 查询)。搜索引擎系统的目的是根据搜索查询向用户提供到高质量的 相关搜索结果(例如网页)的链接。典型地,搜索引擎系统通过匹配 搜索查询内的项目与预存储网页的语料库来实现这一目的。包含用户 搜索项目的网页为"命中",其作为链接返回给用户。
一些搜索引擎系统可以提供各种信息作为搜索结果。例如,搜索 引擎系统可能能够提供与网页、新闻文章、图像、商品、usenet页面、 黄页条目、扫描书籍和/或其它类型信息相关的搜索结果。典型地,搜 索引擎系统提供到这些不同类型信息的分离界面。
当用户将搜索查询提供给标准搜索引擎系统时,通常向用户提供 到网页的链接。如果用户期望另一类型的信息(例如图像或新闻文 章),用户通常需要访问由搜索引擎系统提供的分离界面。

发明内容
根据一个方面, 一种方法可以包括从用户接收搜索查询;根据 搜索查询搜索多个存储库,以为每个存储库识别一搜索结果集合;根据用户期望来自所识别存储库的信息的可能性来识别存储库之一;和 呈现与所识别存储库关联的搜索结果集合从用户接收搜索查询。
根据另一个方面, 一种系统可以包括搜索引擎系统,用于从 用户接收搜索查询;为多个存储库中的每个存储库确定分数,所述存 储库之一的分数基于用户期望来自所述一个存储库的信息的可能性。 所述搜索引擎系统还根据搜索查询对一个或多个存储库执行搜索,以 为一个或多个存储库中的每个存储库识别 一搜索结果集合;和根据分 数提供搜索结果集合中的一个或多个。
根据又一个方面,提供一种存储数据和计算机可执行指令的计算 机可读介质,包括基于用户提供的搜索查询的与多个存储库搜索关 联的日志数据;用于将日志数据表示为三位数据(u,q,r)的指令,其 中u是指与提供搜索查询的用户相关的信息,q是指与搜索查询相关 的信息,和r是指与响应于搜索查询从中提供搜索结果的存储库相关 的信息;用于为每个三位数据(u,q,r)确定标签的指令,其中标签包 括与当用户u提供搜索查询q时用户是否期望来自存储库r的信息相 关的信息;和用于根据三位数据(u,q,r )和相关标签训练模型的指令, 其中所述模型预测当特定用户提供特定搜索查询时该用户是否期望 来自存储库的信息。
根据又一个方面, 一种系统可以包括存储第一类型数据的第一 存储库;存储第二类型数据的第二存储库;和搜索引擎系统。所述搜 索引擎系统从用户接收搜索查询;和根据关于用户、搜索查询和第一 或第二存储库的信息,确定用户期望来自第一或第二存储库的信息的
可能性。
根据另一个方面, 一种系统可以包括模型生成系统和搜索引擎 系统。所述模型生成系统用于生成模型,所述模型确定与当特定用户 提供特定搜索查询时,该用户期望来自存储库的信息的可能性关联的 分数。所述搜索引擎系统从用户接收搜索查询;根据该模型确定多个 存储库中每个存储库的分数;和根据分数呈现来自一个或多个存储库
的搜索结果。
10根据又一个方面, 一种方法可以包括从用户接收搜索查询;确 定多个存储库中每个存储库的分数,所述存储库之一的分数基于用户 期望来自所述一个存储库的信息的可能性;根据搜索查询和所确定的 分数对至少一个存储库上执行搜索,以为至少一个存储库中的每个存 储库识别一搜索结果集合;和提供搜索结果集合中的一个或多个。
根据另一个方面, 一种系统可以包括模型生成系统,用于生成 第一和第二模型,其中用于生成第二模型的至少一个因素与在生成第 一模型时是不同的或者不存在。该系统还包括搜索引擎系统,用于 从用户接收搜索查询;根据第 一模型确定多个存储库中每个存储库的 第一分数;根据搜索查询和第一分数对一个或多个存储库执行搜索; 根据第二模型确定一个或多个存储库中每个存储库的第二分数;和根
据第二分数呈现来自 一个或多个存储库中至少之一的搜索结果。


包含并构成此说明书一部分的附示本发明的实施例,并与说 明书一起解释本发明。在附图中
图1图示符合本发明原理的概念;
图2图示根据符合本发明原理的实施方式的示例模型生成系统; 图3是根据符合本发明原理的实施方式的图2设备的示例图; 图4是根据符合本发明原理的实施方式的用于生成模型的示例 处理流程图5图示其中可以实施符合本发明原理的系统和方法的示例信 息搜索网络;
图6是根据符合本发明原理的实施方式的用于提供搜索结果的 示例处理流程图;和
图7-10图示符合本发明原理的示例实施方式。
具体实施例方式
下面对本发明的详细描述参考附图。在不同附图中的相同参考标记可以标识相同或类似的单元。而且,下文的详细描述并不限制本发 明。概述图1图示符合本发明原理的概念。搜索引擎系统可以维护用户可 能期望的不同类型的信息。搜索引擎系统可以维护与不同类型信息相关的一组存储库(repository)。如图1所示,搜索引擎系统可以和 与诸如网页、图像、产品和新闻相关的存储库关联。网页存储库可以 包括网页相关信息。图像存储库可以包括图像相关信息。产品存储库 可以包括商品相关信息。新闻存储库可以包括新闻文档相关信息。搜 索引擎系统可以对涉及特定存储库的搜索提供分离界面。在下文的描述中,将术语"文档"广义解释为包括任何机器可读和 机器可存储工程产品。文档可以包括例如网页、新闻事件相关信息、 图像文件、商品相关信息、usenet页面相关信息、黄页条目、扫描书 籍、文件、文件组合、内嵌有到其它文件的链接的一个或多个文件、 博客、网页广告、电子邮件等。文档通常包括文本信息,和可以包括 内嵌信息(例如元信息、超链接等)和/或内嵌指令(例如Javascript 等)。如在此使用的术语,将"链接,,广义地解释为包括从/到一个文档 到/从另 一文档或同 一文档的另 一部分的任意引用。如图l所示,用户可以将搜索查询提供给搜索引擎系统。搜索引 擎系统可以确定用户可能期望哪个或哪些存储库。搜索引擎可以执行 搜索,和根据用户可能期望哪个或哪些存储库的确定结果呈现包括来 自 一个或多个存储库的信息的搜索结果。例如,如果用户将项目"日落(sunset)"作为搜索查询提供给搜 索引擎系统,则搜索引擎系统可以确定用户更关心日落图片而不是曰 落相关的网页。因此,搜索引擎系统可以向用户提供来自图像存储库 的搜索结果而不是来自其它存储库的搜索结果,或者作为其补充。类似地,如果用户将短语"伊拉克战争,,作为搜索查询提供给搜索 引擎系统,则搜索引擎可以确定用户更关心涉及伊拉克战争相关的新闻文档而不是伊拉克战争相关的网页。因此,搜索引擎系统可以向用 户提供来自新闻存储库的搜索结果而不是来自其它存储库的搜索结 果,或者作为其补充。符合本发明原理的实施方式可以在用户提供搜索查询时生成预 测用户关注哪个或哪些存储库的模型,并使用此模型将相关搜索结果 提供给用户。示例的模型生成系统图2是符合本发明原理的模型生成系统200的示例图。系统200 可以包括一个或多个设备210和日志数据存储器220。存储器220可 以包括一个或多个逻辑或物理存储设备,其可以存储如下文更详细描 述的可能使用的大型数据集合(例如成百万的实例和数以万计的特 征)以建立和训练模型。该数据可以包括涉及在先搜索的日志数据, 例如用户信息、查询信息和存储库信息,其可以用于建立可用于识别 用户可能期望的一个或多个存储库的模型。在一种实施方式中,该模 型可以当用户提供特定查询时预测用户是否期望来自特定存储库的 信息。用户信息可以包括与用户相关的因特网协议(IP)地址、cookie 信息、语言和/或地理信息、用户提供的在前查询和/或用户提供当前 或在前查询的当天时间和/或日期。查询信息可以包括与提供的查询项 目相关的信息。存储库信息可以包括与用于搜索的存储库界面、显示 的文档和从中获取它们的存储库和/或选择的文档(例如点击)相关的 信息。在其它的示例实施方式中,可以替代的或者附加地由存储器320 保存其它类型的数据。一个或多个设备210可以包括能够通过任意类型的连接机制访 问存储器220的任意类型的计算设备。根据符合本发明原理的一种实 施方式,系统200可以包括多个i殳备210。才艮据另一种i殳施方式,系 统200可以包括单个设备210。图3是根据符合本发明原理的实施方式的设备210的示例图。设备210可以包括总线310、处理器320、主存储器330、只读存储器 (ROM ) 340、存储设备350、输入设备360、输出设备370和通信接 口 380。总线310包括允许在设备210的单元之间通信的路径。处理器320可以包括可以解释和执行指令的处理器、微处理器或 者处理逻辑。主处理器330可以包括可存储信息和用于由处理器320 执行的指令的随机访问存储器(RAM)或另一类型的动态存储设备。 ROM 340可以包括可存储静态信息和由处理器320使用的指令的 ROM设备或另 一类型的静态存储设备。存储设备350可以包括磁和/ 或光记录介质及其相应驱动器。输入设备360可以包括允许操作者将信息输入给设备210的机械 装置,例如键盘、鼠标、笔、语音识别和/或生物测定机械装置等。输 出设备370可以包括将信息输出给操作者的机械装置,包括显示器、 打印机、扬声器等。通信接口 380可以包括支持设备210与其它设备 和/或系统通信的任意收发信机类似的机械装置。例如,通信接口 380 可以包括用于与另 一设备210或存储器220通信的机械装置。如将在下文中详细描述的,符合本发明原理的设备210可以执行 某些模型生成相关操作。响应于处理器320执行在诸如存储器330等 计算机可读介质内包含的软件指令,设备210可以执行这些操作。可以将计算机可读介质定义为物理或逻辑存储设备和/或载波。可以从诸如数据存储设备350等另一个计算机可读介质或者通 过通信接口 380从另一个设备将软件指令读入存储器330。在存储器 330内包含的软件指令可以致使处理器320执行随后将要描述的处理。 可替代地,可以使用硬连线电路替代软件指令或者与其组合以实现符 合本发明原理的处理。因而,符合本发明原理的实施方式并不限制于 硬件电路和软件的任意特定组合。示例的^=莫型生成处理为了下文讨论的目的,在存储器220内的数据组(图2 )可以包 括多个单元,称作实例。存储器220可以包括以百万计的实例。每个实例可以包括三位数据(triple of data ) : (u,q,r),其中"u"是指用 户信息,"q"是指用户u提供的查询,和"r"是指响应于查询q从中提 供搜索结果的存储库。存储器220还可以存储与当用户u提供查询q 时用户u是否期望来自存储库r的信息相关的信息,其中例如可以通 过确定用户是否从存储库选择文档来测量用户的期望。此信息将称作 该实例的"标签"。可以从任意给定的(u,q,r )提取若干特征。存储器220可以包括 数以万计的不同特征。在一种实施方式中,这些特征中的一些特征可 以包括一个或多个下述内容用户u位于的国家、用户u位于的国家 的语言、与用户u相关的cookie标识符、查询q的语言、查询q中的 每个项目、用户u提供查询q的当天时间、提供给用户u的存储库r 的文档、提供给用户u的存储库r中文档内的每个项目和/或提供给用 户u的存储库r中文档标题中的每个项目。也可以替代地或者附加地 使用其它特征。在另一种实施方式中,附加地或者替代上面识别的一些特征,一 些特征可以包括一个或多个下述内容提供给存储库r的界面的查询 片断(fraction )、提供给存储库r的界面对其它存储库的界面的查询 片断、包含提供给存储库r的界面对其它存储库的界面的查询q内项 目的查询片断、提供给存储库r的界面的查询的整体点击率、为用户 u提供给存储库r的界面的查询点击率、为与用户u同一国家内的用 户提供给存储库r界面的查询点击率和/或提供给存储库r界面的查询 q的点击率。在又一种实施方式中,还可以包括下述两个特征为用户u提供 给存储库r的界面的查询q的点击率和为用户u提供给存储库r界面 的查询q的片断。不是直接确定这些特征,而是可以生成模型以使用 常规技术预测这些特征并可以将模型输出用作特征。可以根据此数据建立模型。在一种实施方式中,给定新的(u,q,r),可以使用模型预测如果用户u提供了查询q,用户u是否期望来自存 储库r的信息。如在下文中将更详细描述的,可以使用模型输出确定是否搜索存储库,是否在搜索结果文档中包含来自存储库的搜索结果 和/或在搜索结果文档中呈现搜索结果的方式。图4是根据符合本发明原理的实施方式的用于生成模型的示例 处理流程图。该处理可以由单个设备210或多个设备210的组合执行。为了便于生成模型,可以将存储器220内的日志数据表示为实例 集合(方框410)。例如,可以与用户的先前搜索相关地识别信息, 例如关于用户、用户提供的查询和从中获取和/或选择搜索结果的存储 库的信息。如上文所述,可以将此信息形成为三位数据(u,q,r)。随后,可以确定每个实例的标签(方框420)。例如,可以为每 个三位数据(u,q,r)确定当用户u提供了查询q时用户u是否期望存 储库r内的信息(例如,选择文档)。标签可以与存储器220内的它 们的相应实例关联。还可以确定与每个实例相关的特征(方框430)。随后,可以根据实例、标签和特征生成模型(方框440 )。例如, 可以使用标准机器学习或统计技术确定当用户u提供查询q时用户u 期望来自存储库r的信息的概率P ( desire|u,q,show—r ),其中"showj"表示提供来自存储库r的文档。可以使用若干公知 技术中的任一种技术生成模型,例如逻辑回归、增强判决树、随机树 林、支持向量机器、感知器和辨别学习器。该模型可以输出反映当用 户u提供查询q时用户u期望来自存储库r的信息的信任的值,而不 是生成概率。在下文中通常将模型输出称作"分数,,(score),其可以 包括概率输出和/或输出值。如下文解释的,可以使用模型输出确定是否搜索存储库,是否将 来自存储库的搜索结果包括在搜索结果文档中和/或用于在搜索结果文档中呈现搜索结果的方式。 示例的信息提取网络图5是其中可以实施符合本发明原理的系统和方法的网络示例 图。网络500可以包括经网络550连接到多个服务器520-540的多个客户机510。为了筒化,已经图示了两个客户机510和三个服务器 520-540连接到网络550。实际上,可能存在更多或更少的客户机和服 务器。而且,在一些实例中,客户机可以执行服务器功能,服务器可 以执行客户机功能。客户机510可以包括客户机实体。可以将实体定义为设备,例如 个人计算机、无线电话机、个人数字助理(PDA)、便携式或另一类 型的计算或通信设备、在这些设备之一上运行的线程或过程和/或由这 些设备之一可执行的对象。服务器520-540可以包括以符合本发明原 理的方式收集、处理、搜索和/或保存文档的服务器实体。在符合本发明原理的实施方式,服务器520可以包括可由客户机 510使用的搜索引擎系统525。搜索引擎系统525可以与多个文档存 储库(未图示)关联,例如网页存储库、新闻存储库、图像存储库、 产品存储库、usenet存储库、黄页存储库、扫描书籍存储库和/或其它 类型的存储库。这些存储库可以物理驻留于服务器520内的一个或多 个存储设备内或者在服务器520外部。服务器530和540可以存储或 保存可与 一个或多个存储库关联的文档。虽然将服务器520-540图示为分离实体,但是也可以由一个或多 个服务器520-540执行另外一个或多个服务器520-540的一个或多个 功能。例如,可以将两个或更多服务器520-540实施为单个服务器。 也可以将单个服务器520-540实施为两个或更多分离(并且可能是分 布式)的i殳备。网络550可以包括局域网(LAN)、广域网(WAN)、诸如公 用交换电话网(PSTN)的电话网络、内联网、互联网或者网络组合。 客户机510和服务器520-540可以通过有线、无线和/或光连接连到网 络550。提供搜索结果的示例过程图6是根据符合本发明原理的实施方式的用于提供搜索结果的 示例处理流程图。处理可以开始于接收搜索查询(方框610)。例如,用户可以使用在诸如客户机510 (图5)等客户机上的web浏览器软 件访问搜索引擎界面。用户可以将搜索查询提供给搜索引擎界面。可以获取用户相关信息(方框620)。例如,可以使用诸如与用 户相关的IP地址、cookie信息、语言和/或地理信息识别用户。可以 使用常规技术收集用户信息。在一种实施方式中,可以根据搜索查询对每个存储库执行搜索 (方框430)。可以获取与每个存储库对应的一个搜索结果集合。可 以使用任意信息检索技术识别将包括在检索结果集合内的相关文档。随后,可以根据模型确定如何提供搜索结果(方框640)。例如,可以使用关于用户、用户提供的搜索查询和每个存储库的信息作为模型输入。可以将该模型应用于每个存储库并可以使用模型输出("分数,,)以确定是否提供与该存储库相关的搜索结果。例如,可以确定应当提供来自具有最高相关分数的两个存储库的搜索结果。可替代地,可以确定应当始终提供来自一个特定存储库的搜索结果,并且如 果与其他一个或多个存储库相关的分数大于与该特定存储库关联的分数、则还应当提供来自另外一个或多个存储库的搜索结果。可替代 地,可以确定应当提供来自具有高于某个阈值的相关分数的存储库的 搜索结果,如果没有分数高于该阈值,则提供来自具有最高相关分数 的存储库的搜索结果。可以替代地或附加地使用用于确定是否提供与 存储库关联的搜索结果的其它规则。可以替代地或者附加地使用模型输出确定提供来自不同存储库 的搜索结果的方式。例如,可以确定如果与存储库关联的分数低于某 个阈值,则可以将与存储库相关的搜索结果提供在向用户呈现的搜索 结果文档的底部,而不是搜索结果文档的顶部。可替代地或者附加地, 可以确定如果与存储库关联的分数低于某个阈值,则呈现到与该存储 库相关的搜索结果的链接,而不是搜索结果本身。可以替代地或者附 加地使用用于确定提供与存储库相关的搜索结果的方式的其它规则。随后,可以将搜索结果设置在搜索结果文档中并提供给用户。每 个搜索结果例如可以包括到来自对应存储库的文档的链接和可能的对该文档的简要描述或摘录。在另一种实施方式中,可以根据模型识别将要搜索的一个或多个存储库(方框650)。例如,可以使用关于用户、用户提供的搜索查 询和每个存储库的信息作为模型的输入。可以将该模型应用于每个存储库,和可以使用模型的输出("分数")确定将要搜索哪个存储库。 例如,可以确定应当搜索具有最高相关分数的两个存储库。可替代地, 可以确定应当始终搜索存储库中的一个特定存储库,并且如果与另外 一个或多个存储库相关的分数高于与该特定存储库关联的分数,则还 应当搜索另外一个或多个存储库。可替代地,可以确定应当搜索具有 高于某个阈值的相关分数的存储库,如果没有分数高于该阈值,则搜 索具有最高相关分数的存储库。可以可替代地或者附加地使用用于确 定将要搜索哪个存储库的其它规则。可以执行搜索以获得来自每个所识别存储库的搜索结果集合(方 框660)。可以使用任意的常规信息检索技术识别相关文档以包括在 搜索结果集合内。随后,可以根据模型提供搜索结果(方框670)。例如,可以使 用模型输出确定提供来自不同存储库的搜索结果的方式。例如,可以 确定如果与存储库关联的分数低于某个阈值,则可以将与该存储库关 联的搜索结果呈现在呈现给用户的搜索结果文档的底部而不是在搜 索结果文档的顶部。可替代地,或者附加地,可以确定如果与存储库 关联的分数低于某个阈值,可以提供到与该存储库关联的搜索结果的 链接,而不是搜索结果本身。可以替代地或者附加地使用用于确定提 供与存储库关联的搜索结果的方式的其它规则。随后,可以将搜索结果设置在搜索结果文档中和提供给用户。每 个搜索结果可以包括例如到来自相应存储库的文档的链接和可能的 对该文档的简要描述或摘录。在另一种实施例中,可以使用两个或更多模型。例如,可以使用 第一模型确定是否搜索存储库;可以使用第二模型确定是否在搜索结 果文档中包括来自搜索存储库之一的搜索结果;以及可以使用第二模型、可能还有第三模型确定用于在搜索结果文档中呈现搜索结果的方 式。可以根据彼此不同的一个或多个因素生成第一、第二和/或第三模 型。例如,在一种实施方式中,可以使用第一模型的输出作为第二模 型的输入和/或可以使用第一和/或第二模型的输出作为第三模型的输 入。可以将与此搜索相关的信息作为日志数据提供给存储器220。例 如,可以使用此信息作为用于训练或优化该模型的训练数据。例子图7至图10图示符合本发明原理的示例实施方式。如图7所示, 假设搜索引擎系统710具有三个相关存储库,包括网页存储库720、 图像存储库730和新闻存储库740。网页存储库720可以存储网页相 关信息。图像存储库730可以存储图像相关信息。新闻存储库740可 以存储新闻文档相关信息。搜索引擎系统710可以接收来自用户的搜 索查询,和提供来自 一个或多个存储库720-740的相关搜索结果。如图8所示,假设用户访问与搜索引擎系统710关联的界面。该 界面可以与存储库之一关联或者不与任何存储库关联。如图8所示, 假设用户将搜索查询"sunset"提供给搜索引擎系统710。除了搜索查 询之外,搜索引擎系统710可以获取用户相关信息,例如与用户相关 的IP地址、cookie信息、语言和/或地理信息。在一种实施方式,如上文所述,搜索引擎系统710可以对每个存 储库720-740执行搜索以获取每个存储库720-740的搜索结果集合。 假设搜索引擎系统710识别出来自网页存储库720的IO个网页结果、 来自图像存储库730的IO个图像结果和来自新闻存储库740的10个 新闻文档结果作为用于搜索查询"sunset"的相关搜索结果。搜索引擎系统710可以输入与用户、用户提供的搜索查询和每个 存储库720-740相关的信息作为模型的输入。可以使用该模型确定当 用户提供搜索查询"sunset,,时用户期望来自每个存储库720-740的信 息的概率。例如,假设通过模型生成下述输出P ( desire|u,q,show_web page repository ) =0.45P ( desire|u,q,show_image repository ) =0.91P ( desire|u,q,show_news repository) =0,23其中"u"是指与提供搜索查询的用户对应的用户信息,"q"是指 与用户提供的搜索查询对应的信息(即"sunset"),和"show—x repository"(其中x对应于"web page"、 "image,,或"news,,)是指与 所识别存储库对应的信息。在这种情况下,当用户提供搜索查询 "sunset"时用户期望来自网页存储库720的信息的概率是45%;当用 户提供搜索查询"sunset,,时用户期望来自图像存储库730的信息的概 率是91%;和当用户提供搜索查询"sunset"时用户期望来自新闻存储 库740的信息的概率是23%。随后,搜索引擎系统710可以使用与每个存储库720-740相关的 模型输出确定是否提供与该存储库关联的搜索结果。例如,假设规则 指示搜索引擎系统710将仅提供来自具有最高分数的存储库的搜索结 果。在这种情况下,搜索引擎系统710可以根据从图像存储库"0(即 具有最高分数0.91的存储库)识别出的10个图像结果形成搜索结果 文档,如图9所示。可替代地,假设规则指示搜索引擎系统710始终提供来自网页存 储库720的搜索结果,并且如果另 一个存储库具有高于与网页存储库 720关联的分数的关联分数,则提供来自该存储库(或多个存储库) 的搜索结果。在这种情况下,搜索引擎系统710可以确定它提供来自 网页存储库720和图像存储库730的搜索结果,因为与图像存储库730 关联的分数(0.91)大于与网页存储库720关联的分数(0.45 )。随后,搜索引擎系统710可以根据来自网页存储库720的10个 网页结果和来自图像存储库730的10个图像结果形成搜索结果文档, 如图10所示。因为与图像存储库730关联的分数高于与网页存储库 720关联的分数(或者一定程度高于或大于阈值),可以在搜索结果 文档中在与10个网页结果相比更突出的位置上提供与10个图像结果相关的信息,同样如图10所示。类似于图9所示,用户可以选择将 与IO个图像结果关联的链接与图像结果相关的附加信息(例如"SEE 10 IMAGE RESULTS FOR SUNSET") —起呈现。结论符合本发明原理的实施方式可以生成可用于预测当用户提供搜 索查询时用户可能对哪个或哪些存储库感兴趣的模型,并使用此模型 向用户提供相关搜索结果。本发明优选实施例的上述描述提供说明和描述,但是将不是穷尽 的或者不将本发明限制于所公开的具体形式。鉴于上述教导可以进行 修改和变化,或者可以通过实施本发明获得。例如,虽然已经参考图4和图6描述动作序列,但是可以在符合 本发明原理的其它实施方式中修改动作顺序。此外,可以并行执行非 从属动作。而且,已经参考图8-10描述示例的用户界面。在符合本发明原 理的其它实施方式中,用户界面可以包括更多、更少或者不同的信息。前面的描述提到用户。"用户"将是指客户机,例如客户机510(图 5)或者客户机的操作者。此外,已经描述了可以使用模型输出("分数,,)确定是否搜索存 储库,是否在搜索结果文档中包括来自存储库的搜索结果,和/或用于 在搜索结果文档中呈现搜索结果的方式。在另一种实施方式中,可以 使用分数作为对确定是否搜索存储库、是否在搜索结果文档中包括来 自存储库的搜索结果、和/或用于在搜索结果文档中呈现搜索结果的方 式的函数的一个输入或者多个输入。此外,确定上面描述的一些特征比确定其它特征需要更大计算 量。例如,在存储库内基于文档的特征可能需要查询这些存储库和提 取文档。为了计算效率,可以根据较低计算量(例如更廉价)的特征 建立近似主模型,可以使用该近似主模型确定将要搜索哪些存储库。 一旦已经提取来自这些存储库的文档,则可以使用完全主模型确定从哪些存储库提供搜索结果。而且,能够根据"探测,,(exploration)策略使用该模型以收集关 于不同存储库的信息。例如,可能希望提供与次佳存储库相关的搜索 结果(例如提供新闻文档而不是图像)。 一种探测策略可以指示将来 自随机存储库的文档呈现给一小部分用户。另一种探测策略可以指示 与分数成比例地呈现来自存储库的文档(例如如果确定图像分数两倍 于新闻文章分数,则随后可以以两倍于新闻文章的频度提供图像)。已经描述可以生成模型以根据用户期望来自所识别存储库的信 息的可能性来识别存储库(或一组存储库)。在一种实施方式中,可 以将该模型构建为查找表,其具有根据诸如与查询相关的一个或多个 特征(例如查询项)等一个或多个特征确定的关键字(key)。查找 表的输出可以包括用于每个存储库的点击率(或者估计点击率)。在 这种情况下,用户期望来自存储库之一的信息的可能性可以是该存储 库的点击率的函数。例如,可以根据存储库的点击率确定是否搜索存 储库、是否在搜索结果文档中包括来自存储库的搜索结果、和/或呈现 搜索结果的方式。对于本领域的普通技术人员来说,显然可以将上面描述的本发明 的各个方面实施为多种不同形式的如图所示实施方式中的软件、固件 和硬件。用于实施符合本发明原理各个方面的实际软件编码或专用控 制硬件并不限制于本发明。因而,在不参考特定软件代码的情况下描 述各个方面的操作和行为-将理解本领域的普通技术人员将能够根 据在此的描述设计软件和控制硬件以实现各个方面。不应当将本申请中使用的单元、动作或指令解释为本发明必需 的,除非明确如此描述。而且,如在此使用的,"一,,将包括一个或多 个项目。在仅指一个项目时,使用术语"一个,,或类似用词。此外,短 语"基于"将指"至少部分地基于",除非明确陈述。
权利要求
1.一种方法,包括从用户接收搜索查询;根据搜索查询搜索多个存储库,以为每个存储库识别一搜索结果集合;根据用户期望来自所识别存储库的信息的可能性来识别存储库之一;和呈现与所识别存储库关联的搜索结果集合。
2. 权利要求l的方法,还包括生成模型,用于确定与当特定用户提供特定搜索查询时,该用户 期望来自存储库的信息的可能性关联的分数。
3. 权利要求2的方法,其中识别存储库之一包括 根据模型确定每个存储库的分数;和 根据分数选择存储库之一。
4. 权利要求2的方法,其中生成模型包括 存储与多个在先搜索关联的日志数据;和 使用日志数据训练模型。
5. 权利要求4的方法,其中生成模型还包括 将日志数据表示为三位数据(u,q,r),其中u是指与提供搜索查询的用户相关的信息,q是指与搜索查询相关的信息,和r是指与 响应于搜索查询从中提供搜索结果的存储库相关的信息。
6. 权利要求5的方法,其中日志数据包括以百万计的三位数据 (u,q,r )。
7. 权利要求5的方法,其中生成模型还包括 确定每个三位数据(u,q,r)的标签,其中标签包括与当用户u提供搜索查询q时用户是否期望来自存储库r的信息相关的信息。
8. 权利要求7的方法,其中使用日志数据训练模型包括 根据三位数据(u,q,r)和相关标签训练模型。
9. 权利要求l的方法,还包括确定每个存储库的分数,所述存储库之一的分数与用户期望来自 所述一个存储库的信息的可能性关联。
10. 权利要求9的方法,其中识别存储库之一包括 选择具有最高分数的存储库之一 。
11. 权利要求9的方法,其中呈现与所识别存储库关联的搜索结 果集合包括根据两个或更多存储库的分数提供与两个或更多存储库关联的 搜索结果集合。
12. 权利要求ll的方法,其中根据两个或更多存储库的分数提 供与两个或更多存储库关联的搜索结果集合包括根据与两个或更多存储库关联的分数,将搜索结果集合设置在搜 索结果文档中;和向用户提供搜索结果文档。
13. 权利要求12的方法,其中根据与两个或更多存储库关联的 分数将搜索结果集合设置在搜索结果文档中包括当与两个或更多存储库中的第一存储库关联的分数高于与两个 或更多存储库中的第二存储库关联的分数时,在搜索结果文档中将与 第一存储库关联的搜索结果集合放置在与第二存储库关联的搜索结 果集合相比更突出的位置上。
14. 权利要求12的方法,其中根据与两个或更多存储库关联的 分数在搜索结果文档中放置搜索结果集合包括在搜索结果文档中提供到与两个或更多存储库中的至少之一关 联的搜索结果集合的链接。
15. 权利要求9的方法,还包括 根据分数选择将要搜索的一组存储库;和 其中搜索多个存储库包括 对该组存储库执行搜索。
16. —种系统,包括用于从用户接收搜索查询的装置;用于根据搜索查询对多个存储库执行搜索、以为每个存储库识别 一搜索结果集合的装置;用于确定每个存储库的分数的装置,所述存储库之一的分数基于 用户期望来自所述一个存储库的信息的可能性;和用于根据分数提供搜索结果集合中的一个或多个的装置。
17. 权利要求16的系统,还包括用于根据分数选择将要搜索的一组存储库的装置。
18. —种系统,包括 搜索引擎系统,用于 从用户接收搜索查询;为多个存储库中的每个存储库确定分数,所述存储库之一的分数基于用户期望来自所述一个存储库的信息的可能性;根据搜索查询对一个或多个存储库执行搜索,以为一个或多个存 储库中的每个存储库识别一搜索结果集合;和根据分数提供搜索结果集合中的一个或多个。
19. 权利要求18的系统,其中当对一个或多个存储库执行搜索 时,搜索引擎系统被配置为根据分数识别将要搜索的一组存储库;和 搜索该组存储库以为该组存储库中的每个存储库识别一搜索结 果集合。
20. 权利要求18的系统,其中当对一个或多个存储库执行搜索 时,搜索引擎系统被配置为根据搜索查询搜索每个存储库。
21. 权利要求18的系统,还包括模型生成系统,用于生成模型,所述模型确定与当特定用户提供 特定搜索查询时,该用户期望来自存储库的信息的可能性关联的分 数。
22. 权利要求21的系统,其中所述模型是查找表,所述分数对应于当用户提供特定搜索查询时与存储库关联的点击率。
23. 权利要求21的系统,其中当确定多个存储库中每个存储库 的分数时,搜索引擎系统被配置为根据模型确定每个存储库的分数。
24. 权利要求21的系统,其中当生成模型时,模型生成系统被 配置为存储与多个在先搜索关联的日志数据;和 使用日志数据训练模型。
25. 权利要求24的系统,其中当生成模型时,模型生成系统还 被配置为将日志数据表示为三位数据(u,q,r),其中u是指与提供搜索 查询的用户相关的信息,q是指与搜索查询相关的信息,和r是指与 响应于搜索查询从中提供搜索结果的存储库相关的信息。
26. 权利要求25的系统,其中日志数据包括以百万计的三位数 据(u,q,r )。
27. 权利要求25的系统,其中当生成模型时,模型生成系统被 酉己i力确定每个三位数据(u,q,r)的标签,其中标签包括与当用户u 提供搜索查询q时用户是否期望来自存储库r的信息相关的信息。
28. 权利要求27的系统,其中当生成模型时,模型生成系统被 配置为根据三位数据(u,q,r)和相关标签训练该模型。
29. 权利要求18的系统,其中当提供搜索结果集合中的一个或多个时,搜索引擎系统被配置为选择具有最高分数的存储库之一;呈现与该选定存储库关联的搜索结果集合。
30. 权利要求18的系统,其中当提供搜索结果集合中的一个或 多个时,搜索引擎系统被配置为根据与一个或多个存储库关联的分数,将搜索结果集合中的一个或多个设置在搜索结果文档中;和 向用户提供搜索结果文档。
31. 权利要求30的系统,其中当将搜索结果集合中的一个或多 个设置在搜索结果文档中时,搜索引擎系统被配置为当与一个或多个存储库中的第一存储库关联的分数高于与一个 或多个存储库中的第二存储库关联的分数时,在搜索结果文档中将与 第一存储库关联的搜索结果集合放置在与第二存储库关联的搜索结 果集合相比更突出的位置上。
32. 权利要求30的系统,其中当将搜索结果集合中的一个或多 个设置在搜索结果文档中时,搜索引擎系统被配置为在搜索结果文档中提供到与一个或多个存储库中的至少之一关 联的搜索结果集合的链接。
33. —种存储数据和计算机可执行指令的计算机可读介质,包括 基于用户提供的搜索查询的与多个存储库搜索关联的日志数据; 用于将日志数据表示为三位数据(u,q,r)的指令,其中u是指与提供搜索查询的用户相关的信息,q是指与搜索查询相关的信息, 和r是指与响应于搜索查询从中提供搜索结果的存储库相关的信息;用于为每个三位数据(u,q,r )确定标签的指令,其中标签包括与 当用户u提供搜索查询q时用户是否期望来自存储库r的信息相关的 信息;和用于根据三位数据(u,q,r)和相关标签训练模型的指令,其中所 述模型预测当特定用户提供特定搜索查询时该用户是否期望来自存 储库的信息。
34. 权利要求33的计算机可读介质,其中日志数据包括以百万 计的三位数据(u,q,r)。
35. —种系统,包括 存储第一类型数据的第一存储库; 存储第二类型数据的第二存储库;和 搜索引擎系统,用于从用户接收搜索查询;和根据关于用户、搜索查询和第一或第二存储库的信息,确定 用户期望来自第一或第二存储库的信息的可能性。
36. —种系统,包括模型生成系统,用于生成模型,所述模型确定与当特定用户提供 特定搜索查询时,该用户期望来自存储库的信息的可能性关联的分 数;和搜索引擎系统,用于 从用户接收搜索查询;根据该模型确定多个存储库中每个存储库的分数;和 根据分数呈现来自 一个或多个存储库的搜索结果。
37. 权利要求36的系统,其中所述模型是查找表,所述分数对 应于当用户提供特定搜索查询时与存储库关联的点击率。
38. —种方法,包括从用户接收搜索查询;确定多个存储库中每个存储库的分数,所述存储库之一的分数基于用户期望来自所述一个存储库的信息的可能性;根据搜索查询和所确定的分数对至少一个存储库执行搜索,以为 至少一个存储库中的每个存储库识别一搜索结果集合;和提供搜索结果集合中的一个或多个。
39. —种系统,包括模型生成系统,用于生成第一和第二模型,其中用于生成第二模型的至少一个因素与在生成第一模型时是不同的或者不存在;和搜索引擎系统,用于从用户接收搜索查询;根据第 一模型确定多个存储库中每个存储库的第 一分数; 根据搜索查询和第 一分数对一个或多个存储库执行搜索; 根据第二模型确定一个或多个存储库中每个存储库的第二分数;和根据第二分数呈现来自一个或多个存储库中至少之一的搜索结果。
40.权利要求39的系统,其中使用第一模型的输出作为对第二 模型的输入。
全文摘要
一种系统从用户接收搜索查询,根据该搜索查询搜索一组存储库以为每个存储库识别一个搜索结果集合。该系统还根据用户期望来自所识别存储库的信息的可能性来识别存储库之一,并呈现与所识别存储库关联的搜索结果集合。
文档编号G06F17/30GK101248435SQ200680030148
公开日2008年8月20日 申请日期2006年6月27日 优先权日2005年6月29日
发明者D·布拉金斯基, J·金斯伯格, M·安格罗, S·童 申请人:谷歌公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1