合并搜索结果的制作方法

文档序号:6349370阅读:263来源:国知局
专利名称:合并搜索结果的制作方法
合并搜索结果背景在执行联合搜索的情况下,通常存在对合并从可以从不同的源检索信息的不同的搜索引擎接收的搜索结果的需求。例如,可以在接收搜索查询并将该搜索查询发送给多个不同的搜索引擎的搜索门户处执行联合搜索。该搜索门户收集结果且通常提供可以由此访问所收集的结果的用户界面。将查询发送给不同的搜索引擎和接收结果的过程自动地发生而不需要用户输入,且可以“后台”执行以使得用户可以不知道它正在发生。以此方式,当前使用联合搜索门户来搜索许多不同的公共信息源,例如通过使用因特网搜索引擎、公共数据库和其他公共数据集合。然而,许多企业、教育机构和其他实体具有对非公共信息源的访问权。于是,出现了关于在信息源中的至少一些是公共的且信息源中的至少一些不是公共的情况下如何适当地提供联合搜索的问题。现有的联合搜索系统常常简单地收集从不同的信息源获得的结果的列表而不在呈现结果的方式中提供任何附加的“智能”。例如,在一些联合搜索系统中,门户提供用户界面手段,由此要求终端用户手动地对来自不同的信息源的结果列表进行合并、去重复和排名。这是费时和复杂的,且给终端用户带来过度负担。在终端用户是甚至不知道正在搜索的各个数据源的存在的初学者或孩子的情况下尤其如此。已知其他信息检索系统,由此用户可以操作用户界面以便指定向用户指定的多个不同的源发出查询。在用户界面接收并且通常并排呈现原始结果以供用户使用作为用户界面的一部分来提供的工具来管理。这一类型的搜索不是以与联合搜索相同的方式自动进行的,且主要在用户界面处而非在独立的联合搜索引擎处提供该功能。而且,这一类型的搜索系统仅适用于具有可获得的不同信息源的详尽知识的专家用户。下面描述的各实施例不限于解决已知的信息检索系统的缺点中的任一个或全部的实现。概述下面提供本发明的简要概述以便向读者提供基本的理解。本概述不是本发明的详尽概观,并且既不标识本发明的关键/重要元素,也不描绘本发明的范围。其唯一目的是以简化形式提供在此公开一些概念作为稍后提供的更详细描述的序言。例如在信息检索系统向多个源发出查询并获得多个结果列表的情况下,需要合并搜索结果。在一种实施例中,在企业域处的搜索引擎将查询发送给企业搜索引擎且也发送给公共因特网搜索引擎。在各实施例中,使用合并模型来合并从不同的源获得的结果列表, 该合并模型使用机器学习过程来学习且例如在观察到点进数据时更新。在各示例中,使用企业域中可用的用户信息来影响合并过程以便改善结果的相关性。在一些示例中,将用户信息用于查询修改。在一种实施例中,用户可以扮演指定的组的用户以便促进特定的结果。许多附带特征将随着参考下面的详细描述并结合附图进行理解而得到更好的认识。附图简述根据附图阅读以下详细描述,将更好地理解本发明,在附图中


图1是在防火墙后连接到因特网的企业处的信息检索系统的示意图;图2是在经由防火墙连接到因特网的企业处具有联立范围搜索引擎的信息检索系统的示意图;图3是在信息检索系统处合并结果的方法的流程图;图4是合并模型的示意图;图5是被提供给合并模型的各类型的输入的示意图;图6是在合并引擎处的方法的流程图;图7是在合并引擎处的另一方法的流程图;图8是由信息检索系统提供的用户界面的示意图;图9是在改变搜索范围时在信息检索系统处的方法的流程图;图10是在做出扮演用户选择时在信息检索系统处的方法的流程图;图11是在信息检索系统处的用于查询修改的方法的流程图;图12阐释可以在其中实现信息检索系统的实施例的示例性的基于计算的设备。附图中使用相同的附图标记来指代相同的部分。详细描述下面提供本发明的简要概述以便向读者提供基本的理解。本概述不是本发明的详尽概观,并且既不标识本发明的关键/重要元素,也不描绘本发明的范围。其唯一目的是以简化形式提供在此公开一些概念作为稍后提供的更详细描述的序言。在此使用术语“联立范围搜索”来意指使用单个搜索引擎来自动地搜索多个信息源,多个信息源中的至少一个在该单个搜索引擎拥有对其的访问权的私有域中,且多个信息源中的至少另一个是在公共域。尽管在此将本示例描述和阐释为在用于联立范围搜索的信息检索系统中实现,但是作为示例而非限制而提供所描述的系统。本领域中的技术人员将明白,本示例中的至少一些适用于各种不同类型的信息检索系统中的应用,包括用于搜索多个不同的信息源的那些信息检索系统。图1是在防火墙101后连接到因特网100的企业(或其他私有域)处的信息检索系统的示意图。图1中的虚线左边的实体在此被称为是企业域的部分,而虚线右边的那些实体是在公共域中。在被提供到因特网100的公共域中提供搜索引擎112,并将其安排为提供在企业域中的诸如客户机终端107等的客户机终端处的用户可以浏览的用户界面113。 搜索引擎112具有对文档110的索引111的访问权。它被安排为从客户机终端107(在公共域或私有域中)处的终端用户接收查询项108并使用本领域中已知的索引111来返回经排名的文档列表109。在企业域中也提供内联网搜索引擎105并将其连接到内联网102,客户机终端107 也连接到内联网102。内联网搜索引擎105具有对文档103的索引104的访问权,文档103 对企业中的用户是可用的,但一般对在企业域外的用户不可用。例如,教育机构的内联网可以拥有对在公共因特网上不可用的优质内容的免费访问权。而且,国家医疗服务提供者的内联网可以拥有对公众不可用的秘密的和/或昂贵的信息的访问权。在另一示例中,一组用户可以拥有对公众不可用的私有社交网络站点的访问权。在这种情况中,图1中的文档 103和索引104表示通常不可公开获得的至少一些信息。内联网搜索引擎105也提供可由客户机终端107访问的用户界面106。在客户机终端107处的终端用户可以将用户查询项 108输入到内联网搜索引擎用户界面106以便从索引104获得经排名的文档列表109。以此方式,终端用户可以手动地将查询发送给因特网搜索引擎112或内联网搜索引擎105。然而,终端用户常常不知道他们可能从哪个源找到最佳结果。耗时的试错过程常常导致由此终端用户在将查询发送给内联网搜索引擎之前将相同的查询发送给因特网搜索引擎(例如)并查阅结果。在图1中的内联网搜索引擎105和公共因特网搜索引擎112之间的另一差异是内联网搜索引擎105可以拥有对关于内联网的用户的私有用户信息的访问权,该私有用户信息对公共因特网搜索引擎112是不可用的。例如,这一信息可以是人口统计信息和/或可以包括诸如用户的年龄、用户在企业中的角色(例如,护士、医生、小学生、教师、管理者、支援人员)、用户的办公室位置和其他这样的细节等的秘密细节。可以提供联立范围搜索系统,如图2中所阐释的。联立范围搜索引擎202连接到内联网,且与内联网搜索引擎集成或通信。合并引擎203和评估器204与联立范围搜索引擎202集成或连接。内联网搜索引擎具有用于联立范围搜索205的用户界面。在客户机终端107处的用户可以将用户查询项108输入到联立范围搜索205的用户界面并且获得经合并的经排名的文档列表200。联立范围搜索引擎被安排为将查询项108发送给内联网搜索引擎105和因特网搜索引擎112两者并接收结果。它被安排为使用合并引擎203合并结果并在用户界面205处将经排名的、经合并的结果列表显示给终端用户。在用户界面205处观察隐式和/或显式反馈201并将其馈送回联立范围搜索引擎。使用这一反馈来更新合并引擎。即,在合并引擎处的机器学习系统允许它学习如何最佳地合并结果。提供每隔一段时间检查合并引擎203的性能的评估器204,以便确保学习过程已经适当地工作。可以使用任何合适的评估器。例如,可以使用如Radlinski等的 "How does clickthrough data reflect retrieval quality(点进数据如何反应检索质量)"Proceedings of 17th ACM conference on Information and Knowledge management, PP 43-52,2008中所描述的交叉存取评估过程,该文献通过引用以其整体合并于此。参考图3,描述在联立范围搜索引擎202处的方法。(这种方法也适用于其中多个搜索范围都来自公共域源的联合搜索引擎。)例如从在客户机终端107处的在校小学生接收300查询。在校小学生正在查找关于家庭作业任务的企鹅的信息。在校小学生不知道是使用内联网搜索引擎还是使用web搜索来搜索。联立范围搜索引擎202将查询发送301给内联网搜索引擎且也发送给公共搜索引擎(参见框30 。在一些情况中,这可以以对在校小学生透明的方式自动执行,且因此在校小学生不需要选择搜索哪些信息源的任何技能。 在一些实施例中,执行查询修改过程313,由此基于要将查询发送到的源且可选地使用从早期搜索提供的反馈信息来扩展或修改该查询(如下面更详细地解释)。自动地且在一些实施例中以对在校小学生或其他用户透明的方式执行这一查询修改。这允许在如何为特定的类型的搜索范围创建合适的查询方面没有经验的初学者用户容易地操作该系统。在一些实施例中,可以搜索多于两个的信息源,如图3中的框305和框306所指示。从内联网搜索引擎接收302第一结果列表,且从web搜索引擎接收304第二结果列表。 如果已经搜索了多于两个的信息源,那么,接收每一信息源的一个结果列表。使用合并模型来合并308各结果列表(各结果列表被存储307),并将经合并的结果列表呈现给终端用户。合并模型也可以使用历史信息(例如点击日志储存库)312和其他输入,如下面参考图5更详细地描述。例如,在用户跳过或点击经合并的结果列表中的各项中的一个或多个,以及使用该反馈来更新310合并模型的情况下,接收到309反馈。反馈可以是隐式反馈或显式反馈。另外可以可选地使用这一反馈来影响查询修改过程313。术语“显式反馈”被用来意指来自用户的关于信息检索系统所检索的文档的相关性的主动反馈。例如,给定所指定的查询,这可以是被人类用户分配给文档的标签。标签可以起到将文档分类成多个类中的一个的作用,这取决于用户认为该文档与该查询有多相关。显式反馈也可以是被认为是考虑到被用来获得该经排名的列表的查询项的、对经排名的列表中的一个或多个文档的评估。显式反馈也可以被称为显式相关性信息。为了使得反馈是显式的,响应于查询或对该用户做出判断的请求,要求用户进行主动用户输入或动作。相反,对于“隐式反馈”(也被称为隐式相关性信息),响应于做出判断的请求,不要求主动用户输入。它也可以被认为是被动反馈。隐式反馈的示例包括诸如查询-文档对等的点击数据。查询-文档对是由用户输入到搜索引擎的查询与文档的链接或其他标识符的组合。将文档列出在由搜索引擎响应于查询而呈现的经排名的文档列表中, 且该文档被用户点击。隐式反馈的其他示例包括在用户界面处没有活动。例如,诸如用户不从结果列表访问文档等事件被假设为与文档不相关性有关。存在许多其他可能类型的隐式反馈。例如,停留时间(dwell time)(用户将用户界面指针指向文档列表中的链接上多长时间)。可以设想不同等级的隐式反馈。例如,如果用户从结果列表复制和粘贴链接或将该链接加为标签,这可以被认为是高质量的隐式反馈。在此应认识到,可以有利地使用这样的不同类型的反馈信息来改善从不同的源接收的搜索结果的合并,以便使得经合并的搜索结果更加相关。例如,这是在查询间基础上实现的。即,使用来自既往用户查询和/或评估器判断的反馈来改善由相同的或不同的用户做出的将来的搜索结果的合并。可选地每隔一段时间评估311合并模型,并根据那些评估的结果的要求调整或替换该合并模型。例如,合并模型是搜索结果呈现事件的模型,且被用来预测用户是否选择(或点击)结果以及哪个源或搜索范围将是优选的(被点击)。以此方式,可以使用所观察的关于经合并的搜索结果呈现事件的信息来更新合并模型,且在观察到经合并的搜索结果呈现事件时,这一过程可以继续。于是,合并是自适应的,且学习以便在将来以最有可能导致“点击”的方式合并结果。可以使用对搜索结果呈现事件进行建模的且可以被用来预测用户是否选择结果的任何合适的合并模型。这也可以被认为是预测结果将与给定的用户有多相关的模型。例如,可以使用数据结构来将合并模型400存储在存储器中,且合并模型400可以包括多个搜索结果呈现事件变量401,每一个搜索结果呈现事件变量都具有带有关联概率分布的权重。每一概率分布可以表示该模型对其关联的权重是正确的置信。对于结果列表中的给定结果,通过组合各变量、考虑各权重和关于各权重的置信,可以使用该模型来提供给定的结果将被点击的概率(在这里称为点击概率)。然后,基于这些点击概率值合并各结果。例如,可以将结果按点击概率值呈现在经排名的列表中。当更新合并模型时(图3的步骤310),学习各权重,且关于这些权重的置信变得更加确定。在于2009年2月12日公布的US 2009\0043539A中描述了合适的合并模型的示例1,该专利属微软公司名下,且通过引用以其整体合并于此。合并模型400中所使用的各事件变量描述由此联立范围搜索引擎202的用户界面 205将结果的经合并的列表呈现给终端用户的经合并的搜索结果呈现事件。可以使用任何合适数量的事件变量,尽管随着变量的数量的增加,所需要的计算资源也增加。可以将各事件变量提供为指标值而非实际赋值变量以便减少计算需求,且可以使用修剪过程来减少合并模型的存储器需求,如上面引用的US2009\0043539A1中所描述。图5给出被合并引擎203用作输入以便得到要合并的特定结果的事件变量的示例的非详尽列表。可以使用一个或多个这样的事件变量的任何组合。这些事件变量包括该结果的内联网搜索排名500或分数、被内联网搜索引擎用于对结果进行排名的文本特征501、 因特网搜索排名或分数502、从由因特网搜索引擎提供以供与结果一起使用的任何摘录中提取的文本特征503、是否已经由用户设置扮演用户选择504(如下面更详细地描述)、导致该结果的查询的查询频率505、从给定搜索的每一源获得的结果的数量、用户信息507、 该结果的作为经合并的列表的一部分和/或未合并的列表的一部分的既往点击历史508。 另一事件变量可以简单地指示该结果是内联网结果还是因特网结果;另一选项是从其他事件变量的值推理这一信息。例如,如果已经从因特网获得该结果,则内联网搜索排名是零 (nil)。另一事件变量可以是基于链接的特征,例如I^geRank链接分析算法中的页面排名。用默认的权重初始化合并模型,且使用所观察的事件数据使用任何合适的训练过程来训练该合并模型。在上面引用的US 2009\0043539A1中描述了示例训练过程。可以离线执行训练过程,且该训练过程可以在使用合并引擎时实时继续。即是说,离线训练不是必要的。可以作为合并系统的使用的一部分而实时执行训练过程。使用合并模型400,合并引擎可以从如参考图3所描述的所接收的多个结果列表中形成单个经排名的结果列表。合并引擎可选地从各列表移除重复600,且对于剩余结果中的每一个,使用合并模型确定601点击该结果的概率。对于给定的结果,合并引擎采用如上面参考图5所描述的所接收的事件变量值。在一个示例中,它考虑权重而组合那些事件变量值,且应用链接函数以便将所组合的变量值映射成概率值,如上面引用的US 2009\0043539A1中所描述。合并引擎被安排为基于所确定的概率值形成602单个经排名的结果列表。在一些实施例中,合并引擎203也被安排为决定是否合并各结果列表。例如,在一些情况中,不适宜合并各结果列表,这是因为,与来自内联网搜索的结果相比较,来自因特网搜索(例如)的结果都具有减少的相关性。现在参考图7描述在联立范围搜索引擎处的示例方法。联立范围搜索引擎从(例如)内联网搜索引擎接收700第一范围结果列表。它也从(例如)因特网搜索引擎接收第二范围结果列表。它使用合并引擎来获得702如上所述的两个结果列表中的结果的点击概率。然后,它被安排为进入决定过程703以便决定是否将各结果呈现为经合并的列表。使用规则、阈值或联立范围搜索引擎处指定的其他准则来做出这一决定。例如,如果因特网搜索结果的平均点击概率值是在内联网搜索结果的平均点击概率值的10%以内,那么,合并704各结果。否则,不合并各结果。在这种情况下,联立范围搜索引擎进行到选择705各结果列表中的一个以便在用户界面显示器的主要部分中呈现。使用各规则、阈值或其他准则来做出这一选择,且也做出706关于是否使用显示画面的侧面板来呈现其他范围结果列表707的决定。图8是供教育领域中的联立范围用户界面205使用的用户界面显示的示例。这是参考教育应用描述的特定示例。通过适当地调整用户界面显示画面,该技术也适用于与其他应用领域一起使用。它包括主显示区域801和侧面板802。主显示区域801包括允许用户输入查询并将该查询发送给联立范围搜索引擎的文本框800。文本框800下面是范围复选框803、804、805,范围复选框803、804、805允许用户指定是应搜索内联网和因特网(框 803)、应仅搜索内联网(框804)还是应仅搜索因特网(框80幻。另一复选框806允许用户扮演另一用户,在这一示例中,该另一用户是作为10岁大的在校小学生的“5岁孩子”。各范围复选框下面是在经排名的列表807中给定的结果的显示。可以在每一结果的旁边提供表明从其获得该结果的源的指示。然而,这不是必要的。如上所述,也可以将各结果显示在侧面板802中。现在参考图9描述在联立范围搜索引擎处的示例方法。接收900具有第一指定搜索范围的搜索查询。例如,这可以是应搜索内联网和因特网搜索引擎两者(在图8的示例中,勾选范围框803)。联立范围搜索引擎进行到如上所述执行该搜索并且合并各结果列表。 在用户界面处将经合并的结果列表呈现901给用户。此时,联立范围搜索引擎可以接收902 改变指定搜索范围的用户输入。例如,现在仅需要内联网搜索结果。在图8的示例中,这对应于用户清除框803并勾选框804。合并引擎被安排为根据新的范围规范更新903经合并的结果列表并且在用户正在操作搜索引擎时实时呈现经修订的列表。这可以通过使用例如在图6的方法的步骤601已经确定的点击概率值来实现。可以在侧面板显示器中呈现904 从该类别中移除的结果,例如,在所讨论的情况下的因特网结果。在一些实施例中,用户扮演另一用户以便影响合并引擎学习的方式是可能的。例如,对于给定的查询,老师可能想要扮演孩子,以便促进随后的孩子搜索的所选择的结果。 与用户界面复选框806或其他用户输入手段一起使用图5中被称为“扮演用户”504的事件变量。如果设置了扮演用户事件变量504,则合并引擎被安排为修改图3的更新过程(步骤 310)以便将比其他事件更多的权重关联到相应的搜索结果呈现事件。例如参考图10,与指定扮演用户情形的用户输入一起接收1000搜索查询。观察 1001搜索结果呈现事件,且将合并模型更新1002为比所观察到的不具有扮演用户情形的事件更高的等级。存在其中图10的非对称更新机制以及已经提到的老师-小学生示例有帮助的许多应用。例如,在医学、工程、药物或其他应用域中,可以要求影响或引导特定的用户组的搜
索结果。如上所述,在内联网域中,信息对不可公开获得的域中的实体可用。例如,这可以包括关于内联网或企业域中的个体用户或用户组的信息。这一信息可以被联立范围搜索引擎用来影响如何合并结果。例如,合并引擎203使用描述用户信息507的一个或多个事件变量(参见图幻。假定终端用户是学校中正在搜索关于他或她的家庭作业项目的企鹅的信息的孩子。在这一场景中,合并引擎可以接收指定该小学生的年龄的事件变量,且合并模型中的权重已经训练为允许合并过程偏向来自内联网搜索引擎的结果。而且,可以根据小学生的年龄给予来自因特网搜索的各种结果不同的权重。例如,可以从内联网搜索引擎免费获得优质内容企鹅野生动物视频。即使小学生不知晓不同的搜索引擎和/或免费的高质量内容的存在,他或她也可以以快速、简单和有效的方式来访问该信息。即使用户信息是仅在内联网域内可用,它也被联立范围搜索引擎用来影响来自内联网和公共域源两者的结果的
口井O在一些实施例中,用户信息可以被用来执行查询修改,查询修改也可以取决于要搜索的信息源。现在参考图11描述这一点。用户(例如,搜索关于企鹅的信息的十岁大的孩子)输入查询。联立范围搜索引擎接收1101该查询,联立范围搜索引擎也接收1102关于该用户的适用组(例如,十岁大的学校孩子)的信息。联立范围搜索引擎被安排为基于该用户组和搜索范围修改查询。可以通过用户选择如图8中的复选框来明确指定搜索的范围,或者可以将其设置为作为所有可用的源的默认值。例如,可以使用关于相同的用户组中的用户做出的先前搜索的信息通过自动地添加、移除或编辑查询项来修改查询。将经修改的查询发送给适当的搜索引擎,且接收1104各结果列表。如上所述合并 1105各结果列表。也如上所述接收1106反馈并将其用来更新合并模型1107。对于每一信息源以不同的方式来修改查询是可能的。例如,被发送到因特网搜索引擎的查询可以不同于被发送到内联网搜索引擎的查询。图12示出可以被实现为任何形式的计算和/或电子设备,并且其中可以实现信息检索系统的实施例的示例性基于计算的设备1200的各组件。基于计算的设备1200包括一个或多个输入1206,它们是用于接收媒体内容的任何合适的类型,网际协议(IP)输入,查询、用户信息或其他输入。该设备还包括使该设备那个与通信网络中的其他实体进行通信的通信接口 1207。例如,图1和图2的因特网搜索引擎和因特网。基于计算的设备1200还包括一个或多个处理器1201,该一个或多个处理器可以是微处理器、控制器、或用于处理计算可执行指令以控制设备的操作以便提供搜索多个信息源的信息检索系统的任何其他合适类型的处理器。可以在基于计算的设备处提供包括操作系统1204或任何其他合适的平台软件的平台软件以使得能够在该设备上执行应用软件 1203。计算机可执行指令可使用诸如存储器1202等任何计算机可读介质来提供。存储器具有任何合适的类型,诸如随机存取存储器(RAM)、诸如磁或光存储设备等任何类型的盘存储设备、硬盘驱动器、或⑶、DVD或其他盘驱动器。也可使用闪存、EPROM或EEPR0M。还向与基于计算的设备集成或通信的显示系统提供诸如音频和/或视频输出等输出。尽管不是必要的,但是显示界面1205可以提供图形用户界面,或者任何合适类型的其它用户界面。此处使用的术语‘计算机’表示具有处理能力以使其能够执行指令的任何设备。本领域技术人员将认识到这些处理能力被结合到许多不同设备中,并且因此术语‘计算机’包括PC、服务器、移动电话、个人数字助理和许多其他设备。在此描述的各方法可由有形存储介质上的机器可读形式的软件执行。软件可适于在并行处理器或串行处理器上执行以使得各方法步骤可以按任何合适的次序或同时执行。这确认了软件可以是有价值的、可单独交易的商品。它旨在包含运行于或者控制 “哑”或标准硬件以实现所需功能的软件。它还旨在包含例如用于设计硅芯片,或者用于配置通用可编程芯片的HDL(硬件描述语言)软件等描述摂或者定义硬件配置以实现期望功能的软件。本领域技术人员将认识到用于存储程序指令的存储设备可分布在网络上。例如, 远程计算机可存储描述为软件的该过程的示例。本地或终端计算机可访问远程计算机并下载该软件的一部分或全部以运行该程序。或者,本地计算机可按需下载软件的片断,或可以在本地终端处执行一些软件指令而在远程计算机(或计算机网络)处执行一些软件指令。 本领域技术人员将认识到,通过使用本领域技术人员已知的常规技术,软件指令的全部或部分可由诸如DSP、可编程逻辑阵列等专用电路来执行。如本领域技术人员将清楚的,此处给出的任何范围或者设备值都可以被扩展或者改变而不失去所寻求的效果。可以理解,上述各好处和优点可涉及一个实施例或者可涉及若干实施例。各实施例不限于解决所述问题中的任一个或全部的实施例或具有所述好处和优点中的任一个或全部的实施例。还可以理解,对‘一个’项目的引用指的是这些项目中的一个或多个。本文中描述的各方法步骤可以在适当时按任何合适的次序或同时执行。另外,可从任一种方法中删除各个框,而不背离此处所述的主题的精神和范围。上述示例中的任一个的各方面可以与所述其他示例中的任一个的各方面组合以形成其他示例而不失去所寻求的效果。术语‘包括’此处用来指包括所标识的方法框或元素,但这些框或元素不构成排他列表,并且方法或装置可包含附加框或元素。可以理解,上面对一较佳实施例的描述只是作为示例给出并且本领域的技术人员可以做出各种修改。以上说明、示例和数据提供了对本发明的各示例性实施例的结构和使用的全面描述。虽然上文以一定的详细度或参考一个或多个单个实施例描述了本发明的各实施例,但是,在不偏离本发明的精神或范围的情况下,本领域的技术人员可以对所公开的实施例作出很多更改。
权利要求
1.一种在被安排为从多个不同的源(105,112)检索结果的信息检索系统处的方法,所述方法包括在输入处,接收(200)查询;在输出处,向所述多个源发出(301,303,30幻所述查询;在所述输入处,从所述多个源中的每一个接收(302,304,306)结果列表,所述多个源中的至少一个是公共域搜索引擎且所述多个源中的至少一个是私有域搜索引擎;将处理器安排为使用合并模型从所接收的结果列表中形成(308)经合并的结果列表;将用户界面安排为呈现所述经合并的结果列表;观察(309)响应于所呈现的经合并的结果列表的用户行为;以及使用所观察到的用户行为来更新(310)所述合并模型。
2.如权利要求1中所述的方法,其特征在于,所述查询是从用户接收到的,且其中所述方法还包括接收关于所述用户的用户信息(507),且其中所述合并模型(400)考虑所述用户fn息。
3.如任一前述权利要求所述的方法,其特征在于,所述方法还包括使用包括描述经合并的结果列表呈现事件的多个加权事件变量G01)的数据结构来存储所述合并模型 (400)。
4.如任一前述权利要求所述的方法,其特征在于,将所述处理器安排为从所接收的结果列表中形成经合并的结果列表的所述步骤包括使用所述合并模型来将每一结果的概率值确定(601)为所述结果将被用户点击的概率,并使用所述概率值来形成(60 所述经合并的结果列表。
5.如任一前述权利要求所述的方法,其特征在于,所述方法还包括使用包括多个事件变量的数据结构来存储所述合并模型,所述多个事件变量选自以下各项中的任一个搜索引擎排名(500,502)、文本特征(501)、从摘录获得的文本特征(503)、扮演用户设置(504)、 查询频率(505)、来自所述源中的每一个的结果的数量(506)、用户信息(507)、既往点击历史(508)。
6.如任一前述权利要求所述的方法,其特征在于,所述方法还包括将所述处理器安排为选择(705)所接收的结果中的要从中形成所述经合并的结果列表的子集,其中所述子集可以仅包括所接收的结果列表中的一个。
7.如任一前述权利要求所述的方法,其特征在于,所述方法还包括接收(90 指定对所述多个不同的源的改变的用户输入;将所述处理器安排为根据所述改变更新(90 所述经合并的结果列表;以及将所述用户界面安排为呈现经更新的经合并的结果列表。
8.如任一前述权利要求所述的方法,其特征在于,所述方法还包括接收(1000)指定扮演用户情形的用户输入;使用包括包含扮演用户事件变量的多个事件变量的数据结构来存储所述合并模型;以及将所述合并模型更新(100 为比所观察到的其中不应用扮演用户情形的用户行为更高的等级。
9.如任一前述权利要求所述的方法,其特征在于,所述查询是从用户接收到的,且其中所述方法还包括接收(110 关于所述用户的用户信息;在向所述多个源发出所接收的查询之前修改(1103)所接收的查询;并且其中所述修改基于所述用户信息。
10.如权利要求中1到权利要求8中的任一项所述的方法,其特征在于,所述方法还包括在向所述多个源发出所接收的查询之前修改所接收的查询;并且其中所述修改是源专用的。
11.如任一前述权利要求所述的方法,其特征在于,所述方法还包括将评估器安排为每隔一段时间评估所述合并模型并基于所述评估修改所述合并模型。
12.—种在被安排为从多个不同的源检索结果的信息检索系统处的方法,所述方法包括在输入处,从私有域中的用户接收(300)查询; 在所述输入处,接收关于所述用户的信息;在输出处,向所述多个源发出(301,303,30幻所述查询,所述多个源中的至少一个在公共域中且所述多个源中的至少一个在所述信息检索系统拥有对其的访问权的所述私有域中;在所述输入处,从所述多个源中的每一个接收(302,304,306)结果列表; 将处理器安排为使用考虑所述用户信息的合并模型来从所接收的结果列表中形成 (308)经合并的结果列表;将用户界面安排为呈现所述经合并的结果列表;观察(309)响应于所呈现的经合并的结果列表的用户行为;以及使用所观察到的用户行为来更新(310)所述合并模型。
13.如权利要求12所述的方法,其特征在于,所述方法还包括使用包括描述经合并的结果列表呈现事件的多个加权事件变量的数据结构(400)来存储所述合并模型。
14.如权利要求12或权利要求13所述的方法,其特征在于,将所述处理器安排为从所接收的结果列表中形成经合并的结果列表的所述步骤包括使用所述合并模型来将每一结果的概率值确定(601)为所述结果将被用户点击的概率,并使用所述概率值来形成所述经合并的结果列表。
15.一种信息检索系统,包括 被安排为接收查询的输入(1206); 被安排为向多个源发出所述查询的输出;所述输入被安排为从所述多个源中的每一个接收结果列表;将合并模型存储在数据结构中的存储器(1202),所述数据结构包括描述经合并的结果列表呈现事件的多个加权事件变量;被安排为使用所述合并模型来从所接收的结果列表中形成经合并的结果列表的处理器(1201);被安排为呈现所述经合并的结果列表的用户界面(1205);并且其中,所述处理器还被安排为观察响应于所呈现的经合并的结果列表的用户行为并使用所观察到的用户行为来更新所述合并模型。
全文摘要
例如在信息检索系统向多个源发出查询并获得多个结果列表的情况下,需要合并搜索结果。在一种实施例中,在企业域处的搜索引擎将查询发送给企业搜索引擎且也发送给公共因特网搜索引擎。在各实施例中,使用合并模型来合并从不同的源获得的结果列表,该合并模型使用机器学习过程来学习,且例如在观察到点进数据时更新。在各示例中,使用企业域中可用的用户信息来影响合并过程以便改善结果的相关性。在一些示例中,将用户信息用于查询修改。在一种实施例中,用户可以扮演所指定的组的用户以便促进特定的结果。
文档编号G06F17/30GK102449630SQ201080023853
公开日2012年5月9日 申请日期2010年5月27日 优先权日2009年5月27日
发明者F·拉德林斯基, M·J·泰勒, M·绍库希 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1