将搜索结果分组为简档页面的制作方法

文档序号:6532711阅读:198来源:国知局
将搜索结果分组为简档页面的制作方法
【专利摘要】公开了一种用于将搜索结果分组为简档页面的方法。搜索引擎接受用户搜索字符串并且生成第一集合的结果。响应于该第一集合的结果,查询生成器生成与共享共同名称的多个实体的数量对应的多个查询。搜索引擎执行该多个查询,返回多个响应的数据集合。实体分解器合并数据集合以确保每一个唯一实体由单个数据集合代表。可以定义阈值以使得达到特定级别相似性的结果被合并。简档生成器使用在搜索结果的集合中包含的传记数据创建每一个唯一实体的简档页面,并还生成包含到每一个唯一简档的链接的结果页面。该结果页面然后被发送给用户用于在图形用户界面上显示。
【专利说明】将搜索结果分组为简档页面

【技术领域】
[0001] 本发明涉及搜索引擎的领域。更具体地,本发明涉及针对与其他实体共享共同名 称的每一个唯一实体生成具体简档页面(profile page),并且呈现到每一个简档页面的链 接作为响应于指定该共同名称的用户搜索字符串的搜索结果的列表。

【背景技术】
[0002] 搜索引擎向计算机用户提供了几秒钟搜索在例如因特网的网络上可用的不断扩 大的文档集合的方式。搜索引擎使用复杂的算法来评分并排序各个文档或页面,以响应于 用户指定的搜索字符串呈现最相关和精确的结果。当用户搜索在多个实体(人、位置、组织 或其他实体)之间共享的名称时,当前方法涉及大量数据集合的密集统计计算来确定用户 在寻找多个实体中的哪个并且可能无法提供与该实体对应的完整和有意义的结果。
[0003] US20110106807公开了用于通过生成实体简档并且从多个文档提取信息以生成实 体简档集合、使用相似性匹配算法确定实体简档集合内的等同(equivalence)并且将信息 整合在相关实体中,消除实体的歧义的方法。


【发明内容】

[0004] 这里公开的一个实施例包括计算机实现的方法,用于呈现响应于指定由多个实体 共享的共同名称的搜索引擎搜索字符串生成的简档页面。操作一般可以包括:从用户接收 指定作为由多个实体共享的共同名称的实体名称的第一搜索字符串;基于第一搜索字符 串的结果生成多个查询;执行多个所生成查询的每一个来创建搜索结果的相应集合;分解 (resolve)搜索结果的相应集合的每一个以使得每一个实体由单个集合的搜索结果代表; 生成多个简档,每一个简档与分解后的搜索结果的集合之一对应;并且向输出装置呈现多 个简档作为响应于第一搜索字符串的结果的集合。
[0005] 这里公开的另一实施例提供计算机可读介质,包含当在包括处理器和存储器的系 统上执行时进行大体包括如下的操作的程序:从用户接收指定作为由多个实体共享的共同 名称的实体名称的第一搜索字符串;基于第一搜索字符串的结果生成多个查询;执行多个 所生成查询的每一个来创建搜索结果的相应集合;分解搜索结果的相应集合的每一个以使 得每一个实体由单个集合的搜索结果代表;生成多个简档,每一个简档与分解后的搜索结 果的集合之一对应;并且向输出装置呈现多个简档作为响应于第一搜索字符串的结果的集 合。
[0006] 这里公开的另一实施例提供系统,该系统从用户接收指定作为由多个实体共享的 共同名称的实体名称的第一搜索字符串。该系统基于第一搜索字符串的结果生成多个查 询,执行多个所生成查询的每一个来创建搜索结果的相应集合,并且分解搜索结果的相应 集合的每一个以使得每一个实体由单个集合的搜索结果代表。该系统生成多个简档,每一 个简档与分解后的搜索结果的集合之一对应,并且向输出装置呈现多个简档作为响应于第 一搜索字符串的结果的集合。
[0007] 从第一方面来看,本发明提供用于将搜索结果分组为简档页面的计算机实现的方 法,该方法包括:接收指定一个或多个搜索词语的第一搜索字符串,其中一个或多个搜索词 语的至少一个是与多个实体对应的共享词语;基于接收到的第一搜索字符串生成多个搜索 查询,每一个对应于多个实体中的相应实体;执行所生成的多个搜索查询的每一个来创建 搜索结果的相应集合;分解搜索结果的集合,以使得多个实体的每一个由单个集合的搜索 结果代表;生成多个简档,每一个简档与分解后的搜索结果的集合之一对应,其中多个简档 中的每一个包括从分解后的搜索结果的对应集合中的至少一个文档获得的数据;并且呈现 多个简档作为响应于第一搜索字符串的结果的集合。
[0008] 优选地,本发明提供其中多个实体的每一个包括人、位置或组织中的至少一个的 方法。
[0009] 优选地,本发明提供其中基于响应于第一搜索字符串提供的相关搜索字符串的集 合生成多个搜索查询的方法。
[0010] 优选地,本发明提供该分解包括如下的方法:比较搜索结果的集合的每一个以检 测相似性;并且当检测到相似性时合并搜索结果的集合。
[0011] 优选地,本发明提供其中当检测到的相似性超出了指定相似性阈值时,该合并发 生的方法。
[0012] 优选地,本发明提供其中使用从搜索结果的对应集合检索到的传记信息生成多个 简档中的每一个的方法。
[0013] 优选地,本发明提供包括如下的方法:接收标记简档中的至少一个数据元素为与 该简档相关或不相关的用户反馈。
[0014] 优选地,本发明提供其中至少一个文档包括与该实体相关联的社交网络页面的方 法。
[0015] 从另一方面看,本发明提供用于将搜索结果分组为简档页面的计算机程序产品, 该计算机程序产品包括:具有以其体现的计算机可读程序代码的计算机可读存储介质,该 计算机可读程序代码包括:配置为接收指定一个或多个搜索词语的第一搜索字符串的计算 机可读程序代码,其中一个或多个搜索词语中的至少一个是与多个实体对应的共享词语; 配置为基于接收到的第一搜索字符串生成多个搜索查询的计算机可读程序代码,每一个搜 索查询对应于多个实体中的相应实体;配置为执行所生成的多个搜索查询的每一个来创建 搜索结果的相应集合的计算机可读程序代码;配置为分解搜索结果的集合以使得多个实体 的每一个由单个集合的搜索结果代表的计算机可读程序代码;配置为生成多个简档的计算 机可读程序代码,每一个简档与分解后的搜索结果的集合之一对应,其中多个简档中的每 一个包括从分解后的搜索结果的对应集合中的至少一个文档获得的数据;以及配置为呈现 多个简档作为响应于第一搜索字符串的结果的集合的计算机可读程序代码。
[0016] 优选地,本发明提供其中多个实体的每一个包括人、位置或组织中的至少一个的 计算机程序产品。
[0017] 优选地,本发明提供其中基于响应于第一搜索字符串提供的相关搜索字符串的集 合生成多个搜索查询的计算机程序产品。
[0018] 优选地,本发明提供其中该分解包括如下的计算机程序产品:比较搜索结果的集 合的每一个以检测相似性;并且当检测到相似性时合并搜索结果的集合。
[0019] 优选地,本发明提供其中当所检测的相似性超出了指定相似性阈值时,该合并发 生的计算机程序产品。
[0020] 优选地,本发明提供其中使用从搜索结果的对应集合检索到的传记信息生成多个 简档中的每一个的计算机程序产品。
[0021] 优选地,本发明提供包括如下的计算机程序产品:接收将简档中的至少一个数据 元素标记为与该简档相关或不相关的用户反馈。
[0022] 优选地,本发明提供其中至少一个文档包括与该实体相关联的社交网络页面的计 算机程序产品。
[0023] 从另一方面看,本发明提供用于将搜索结果分组为简档页面的系统,该系统包括: 处理器;以及存储器,包含当由处理器执行时配置为进行用于将搜索结果分组为简档页面 的操作的程序,该操作包括:接收指定一个或多个搜索词语的第一搜索字符串,其中一个或 多个搜索词语的至少一个是与多个实体对应的共享词语;基于接收到的第一搜索字符串生 成多个搜索查询,每一个对应于多个实体中的相应实体;执行所生成的多个搜索查询的每 一个来创建搜索结果的相应集合;分解搜索结果的集合,以使得多个实体的每一个由单个 集合的搜索结果代表;生成多个简档,每一个简档与分解后的搜索结果的集合之一对应,其 中多个简档中的每一个包括从分解后的搜索结果的对应集合中的至少一个文档获得的数 据;并且呈现多个简档作为响应于第一搜索字符串的结果的集合。
[0024] 优选地,本发明提供其中多个实体的每一个包括人、位置或组织中的至少一个的 系统。
[0025] 优选地,本发明提供其中基于响应于第一搜索字符串提供的相关搜索字符串的集 合生成多个搜索查询的系统。
[0026] 优选地,本发明提供其中该分解包括如下的系统:比较搜索结果的集合的每一个 以检测相似性;并且当检测到相似性时合并搜索结果集合。
[0027] 优选地,本发明提供其中当所检测的相似性超出了指定相似性阈值时该合并发生 的系统。
[0028] 优选地,本发明提供其中使用从搜索结果的对应集合检索到的传记信息生成多个 简档的每一个的系统。
[0029] 优选地,本发明提供包括如下的系统:接收将简档中的至少一个数据元素标记为 与该简档相关或不相关的用户反馈。
[0030] 优选地,本发明提供其中至少一个文档包括与该实体相关联的社交网络页面的系 统。

【专利附图】

【附图说明】
[0031] 现在将参考附图仅以示例的方式描述本发明的优选实施例,在附图中:
[0032] 图1是图示根据这里描述的一个实施例用于将搜索结果分组为简档页面集合的 示例性系统的框图;
[0033] 图2是描绘根据这里描述的一个实施例将搜索结果分组为简档页面集合的示例 性方法的流程图;
[0034] 图3是描绘根据这里描述的一个实施例的示例性查询生成器的流程图;
[0035] 图4是描绘根据这里描述的一个实施例的示例性实体分解器(resolver)的流程 图;
[0036] 图5是描绘根据这里描述的一个实施例的示例性简档生成器的流程图;
[0037] 图6A图示了根据这里描述的一个实施例的显示对实体生成的示例性简档页面的 示例性图形用户界面(GUI)屏幕;
[0038] 图6B图示了示出根据这里描述的一个实施例的来自简档生成器的结果的示例性 GUI屏辱;并且
[0039] 图7描绘了根据这里描述的一个实施例的示例性系统。

【具体实施方式】
[0040] 搜索引擎是极其强大的计算工具,其帮助用户在被搜索的潜在无穷语料库 (corpus)中找到相关文档。当用户提交搜索字符串时,搜索引擎进行复杂的系列操作以响 应于该字符串生成最相关结果列表。承认搜索可能不响应于用户搜索字符串的现实,现代 搜索引擎除了结果之外还提供有关搜索字符串,并且允许用户相应地修改他们的搜索。
[0041] 当用户搜索由多个单独实体共享的共同名称时出现更大的问题。例如,名称"约翰 史密斯"的搜索返回很多不同人的结果。搜索引擎可以返回共享该非常普通的名称的其他 唯一个体中的摩门教领袖、探险家和摔跤运动员的结果。使得事情进一步复杂化的是,由现 代搜索引擎返回的结果将包含与共享该共同名称的任意数量的唯一实体有关的随机分类 链接。简而言之,不以足够有意义的方式呈现结果。此外,在搜索引擎不响应于搜索字符串 产生结果的事件中,可以不提供到包含与实体有关的相关传记数据(biographical data) 的页面的链接。
[0042] 这里描述的实施例大体提供用于响应于指定由多个实体共享的共同名称的搜索 字符串,自动生成并执行多个查询的方法。对相应查询产生的搜索结果的集合然后被分解, 以使得共享该名称的每一个实体由单个集合的数据代表。然后对共享该共同名称的每一个 单独实体生成简档页面。最终,响应于指定由多个实体共享的共同名称的原始搜索字符串, 包含到每一个单独实体的简档页面的链接列表的页面被生成并作为搜索结果的集合返回。 因此,在以上"约翰史密斯"示例中,这里描述的一个实施例向用户输出到每一个唯一约翰 史密斯的链接列表,该链接列表当被用户点击时,显示包含与每一个唯一约翰史密斯相关 联的传记数据的简档。
[0043] 以下,对本公开的实施例做出参考。然而,应当明白,本公开不限于具体描述的实 施例。相反,以下特征和要素的任意组合,无论是否有关不同实施例,都旨在实现和实践本 公开。此外,尽管实施例可以通过其他可能解决方案和/或通过现有技术实现优点,但是具 体优点是否由给定实施例实现并不限制本公开。因此,以下方面、特征、实施例和优点仅是 说明性的并且不认为是所附权利要求的要素或限制,除非在(多个)权利要求中显式陈述。 同样地,对"本发明"的参考不应当认为是这里公开的任何发明性主题的总结,并且不应当 认为是所附权利要求的要素或限制,除非在(多个)权利要求中显式陈述。
[0044] 如本领域技术人员将理解,本发明的方法可以实现为系统、方法或计算机程序产 品。因此,本发明的方面可以采用完全硬件实施例、完全软件实施例(包括固件、驻留软件、 微代码等)或组合软件和硬件方面的实施例的形式,其全部在这里统称为"电路"、"模块" 或"系统"。此外,本发明的方面可以采用在具有在其上包含的计算机可读程序代码的一个 或多个计算机可读介质中实现的计算机程序产品的形式。
[0045] 可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机 可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、 光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介 质的更具体的例子(非穷举的列表)包括以下:具有一个或多个导线的电连接、便携式计算 机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或 闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任 意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形存储 介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0046] 计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据 信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但 不限于电磁、光或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存 储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指 令执行系统、装置或者器件使用或者与其结合使用的程序。
[0047] 计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无 线、有线、光缆、RF等等,或者上述的任意合适的组合。
[0048] 可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算 机程序代码,所述程序设计语言包括面向对象的程序设计语言一诸如Java、Smalltalk、C++ 等,还包括常规的过程式程序设计语言一诸如"C"语言或类似的程序设计语言。程序代码可 以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、 部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。 在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络--包括局域网(LAN) 或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务 提供商来通过因特网连接)。
[0049] 下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图 和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图 中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计 算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计 算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程 图和/或框图中的一个或多个方框中规定的功能/动作的装置。
[0050] 也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、 其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的 指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令 的制造品(article of manufacture) 〇
[0051] 计算机程序指令还可以载入到计算机、其他可编程数据处理设备或其他装置以使 得一系列操作步骤在计算机、其他可编程设备或其他装置上进行,以产生计算机实现的处 理,以使得在计算机或其他可编程设备上执行的指令提供用于实现在流程图和/或框图块 或多个块中规定的功能/动作的处理。
[0052] 图1是图示根据这里描述的一个实施例将搜索结果分组为简档页面的系统100的 框图。通常,联网系统100包括客户端计算机140和服务器150。客户端140和服务器150 是以下更详细描述的图7中定义的计算机,并且经由网络130连接。通常,网络130可以是 电信网络和/或广域网(WAN)。在具体实施例中,网络130是因特网。
[0053] 客户端计算机140的存储器包含网络浏览器,其可以用来访问搜索引擎页面。月艮 务器150的存储器包含HTTP服务器105、搜索管理器110、查询生成器160、实体分解器170 以及简档生成器170。搜索管理器110与数据库115相关联,该数据库115可以包含在服务 器150的存储708中或可以包含在联网计算机的存储中。搜索管理器110是示例性搜索引 擎,这是因为其被配置为接收搜索字符串并返回结果。搜索管理器110配置为响应于给定 搜索字符串生成有关搜索字符串以向用户提供与给定搜索字符串更相关的搜索字符串。数 据库115不论具体物理表示地代表数据的任意收集。以说明的方式,数据库115可以根据 关系模式(SQL查询可访问)或根据XML模式(XML查询可访问)组织。然而,实施例不限 于特定模式并且意图延伸到当前未知的模式。如这里所用的,术语"模式"通常指数据的特 定布置。搜索字符串190是在一些实施例中指人、位置或组织的文本字符串。
[0054] 图2是概述这里描述的一个实施例的流程图。在步骤210处,用户通过网络浏览 器145输入搜索字符串190,其经由网络130传送到服务器150。在步骤220处,搜索管理 器110接收搜索字符串190,对数据库115执行对应的搜索,并且返回搜索结果到查询生成 器160。在步骤230处,查询生成器160确定搜索字符串190是否对应于共享共同名称的 多个实体,并且作为响应,生成与该共同名称有关的多个搜索字符串161ρ Ν。在一个实施例 中,可以从由搜索管理器110提供的有关搜索字符串中获取有关搜索字符串。查询生成器 160然后将每一个搜索字符串161 g传递给搜索管理器110,其在步骤240处执行搜索并且 对每一个搜索字符串生成结果。在步骤250处,实体分解器170从搜索管理器110接收搜 索字符串161i_ N的结果,并且分解数据集合,以使得每一个唯一实体由单个集合的搜索结果 代表。在步骤260处,实体分解器170将产生的数据集合传递到简档生成器180,其解析每 一个数据集合以对每一个唯一实体创建简档页面18V N以及包含到每一个简档页面18VN 的链接的结果页面650。在步骤270处,由简档生成器生成的页面然后通过网络130返回到 客户端计算机140,其中网络浏览器145在输出装置716上显示结果。在步骤280处,用户 可以经由输入装置714提供反馈,以将每一个结果标记为与搜索字符串190相关或不相关。
[0055] 图3是示出与用于根据这里描述的实施例与查询生成器160相关联地生成多个搜 索字符串的步骤230对应的方法300的流程图。方法在步骤310处开始,其中查询生成器 160从搜索管理器110接收到基于搜索字符串190执行的搜索的结果。在步骤320处,查 询生成器160分析接收到的搜索结果以确定搜索字符串190是否包括由多个实体共享的共 同名称。在一个实施例中,查询生成器160分析由搜索管理器110返回的有关搜索字符串, 以确定搜索字符串190是否包括由多个实体共享的共同名称。例如,如果搜索字符串190 包括"约翰史密斯",则有关搜索结果可以包括"约翰史密斯摩门教""约翰史密斯摔跤运动 员""约翰史密斯探险家"和"波卡洪塔斯约翰史密斯"。使用这些有关搜索字符串,查询生 成器160可以识别由多个不同实体共享的模糊名称。在一个实施例中,查询生成器160分 析有关搜索字符串,以识别共同名称以及在该搜索中包括的额外词语。通过比较诸如"探险 家"、"摔跤运动员"和"摩门教"之类的额外词语,查询生成器160能够确定词语充分不同, 以使得它们代表共享共同名称的多个实体。
[0056] 如果查询生成器160确定搜索字符串190包括由多个实体共享的共同名称时,则 方法前进到步骤330,其中查询生成器160对于在步骤320处识别的每一个实体创建多个搜 索字符串16V N。在一个实施例中,可以从在步骤320处识别的有关搜索字符串获取多个搜 索字符串。一旦生成了多个搜索字符串,查询生成器160发送每一个161i_ N到搜索管理器 110用于执行。
[0057] 在一个或多个搜索字符串161ρΝ代表同一不同实体时出现一个问题。例如,如上 所述,所生成的字符串"约翰史密斯探险家"和"约翰史密斯波卡洪塔斯"实际上指的是同 一个体。在这样的情况下,由搜索管理器110响应于搜索字符串16V N生成的结果需要被 分解,以使得由单个集合的搜索结果代表每一个实体。在一个实施例中,由实体分解器170 进行该功能。
[0058] 图4是示出与用于根据这里描述的实施例分解与实体分解器170相关联的实体的 步骤250对应的方法400的流程图。方法在步骤410处开始,其中实体分解器170从搜索 管理器110接收从查询生成器160接收到的多个搜索字符串161ρ Ν的搜索结果。方法然后 前进到步骤420处,其中实体分解器170将在步骤410处接收的搜索结果的每一个集合与 搜索结果的其他集合进行比较,以计算相似性得分,从而确定相似性是否存在。大量方法可 以用来确定在搜索结果之间是否存在相似性。在一个实施例中,通过比较结果来计算相似 性得分,以确定搜索管理器110是否返回了复制文档(duplicate document)。在搜索结果 的集合中复制文档的数量越大,相似性得分越高。在另一实施例中,通过限制比较顶部搜索 结果并且在该顶部结果中检测重复结果来计算相似性得分。在另一实施例中,相似性得分 与是副本的每一个搜索集合中的文档的百分比相关。在另一实施例中,通过对每一个搜索 结果比较由搜索管理器110返回的相关性得分计算相似性得分。
[0059] 在步骤430处,实体分解器170分析相似性得分以确定相似性是否存在。在一个 实施例中,任何正相似性得分的存在都指示相似性。如果未检测到相似性,则方法前进到步 骤480。否则,方法前进到步骤440,其中实体分解器170确定是否必须应用相似性阈值。相 似性阈值可以用来指定在实体分解器170识别出两个集合的搜索结果与同一唯一实体相 关联之前的相似性的特定水平。如果将不应用相似性阈值,则方法前进到步骤470。如果要 应用相似性阈值,则方法前进到步骤450,其中,实体分解器170接收相似性阈值。该方法然 后前进到步骤460,其中实体分解器确定相似性得分是否超出相似性阈值。如果计算出的相 似性得分超出了相似性阈值,则方法前进到步骤470 ;否则,方法前进到步骤480。
[0060] 在步骤470处,实体分解器170合并相似的搜索结果,以使得由单个集合的搜索结 果171 N代表每一个唯一实体N。在一个实施例中,合并根据搜索管理器110进行的计算包 括保留最流行的搜索结果的集合。在另一实施例中,由实体分解器170应用用于确定优先 级的算法,其中由搜索管理器110返回的相关性得分用来识别最相关的搜索结果。然后合 并结果,消除副本,并且根据相关性得分按降序分类产生的列表171 n。
[0061] 在该点上,方法前进到步骤480,其中实体分解器470确定是否存在还没有被分解 的搜索结果集合161ρ Ν。如果额外集合保留,则方法返回步骤410,否则方法终止。
[0062] 图5是描绘与用于根据这里描述的实施例与简档生成180相关联地生成简档页面 的步骤260对应的方法500的流程图。对于从实体分解器170接收到的每一个集合的搜索 结果171i_N,简档生成器180生成相关联的实体的简档页面181N。方法在步骤510处开始, 其中,简档生成器从实体分解器170接收到分解后的搜索结果17VN的集合。方法前进到步 骤520处,其中简档生成器从分解后的搜索集合中包含的文档中收集传记简档数据。在一 个实施例中,使得社交网络站点页面被优先化,并且从这些源收集传记数据。社交网络站点 允许用户创建填充有传记数据、照片和其他条目的个性化页面。诸如Facebook、Linkedln 和G〇〇gle+之类的站点是社交网络站点的示例。由于在简档中包含的信息的高度可靠性, 来自这些社交网络站点的数据被优先化。当检测到时,来自这些站点的简档页面被排序到 分解后的数据集合171i_ N的顶部。在另一实施例中,仅从由实体分解器170返回的数据集 合171η中的顶部排序后的搜索结果中收集传记数据。
[0063] 在步骤530处,简档生成器180对由实体分解器170返回的数据集合171Ν创建简 档页面181 Ν。方法然后前进到步骤540,其中简档生成器180确定简档是否需要对于数据集 合171Ν+1的下一成员创建。如果额外简档需要被创建,则方法返回步骤510用于生成额外 简档。否则,方法前进到步骤550,其中简档生成器170创建包含到每一个简档页面18V N 的链接的页面650,其经由网络130返回给客户端140作为响应于搜索字符串190的结果列 表,以显示在输出装置114上。
[0064] 图6A图示了描绘根据这里描述的一个实施例的与由简档生成器180生成的简 档页面18^对应的示例性简档页面610的图形用户界面600。本领域技术人员将认识到 GUI600是示例性的并不意图限制本公开。简档页面610填充有与共享在搜索字符串190中 定义的共同名称的唯一实体有关的传记数据。在一个实施例中,可以显示实体的照片620。 简档还包含与实体有关的数据元素63(V N。在此示例中,提供实体名称、位置和URL。当然, 在简档页面610中包含的数据元素63(VN可以是任何类型的数据。
[0065] 图6B图示了描绘根据这里描述的一个实施例的示例性结果页面650的图形用户 界面640。本领域技术人员将认识到GUI640是示例性的并不意图限制本公开。结果页面 650是与由简档生成器180创建的简档页面181_ Ν对应的超链接66(VN的文档。例如,图6B 示出了超链接66〇i,其是到针对"约翰史密斯摩门教领袖"生成的简档页面的超链接。超链 接6602是到针对"约翰史密斯探险家"生成的简档页面的超链接,而超链接660 3是到针对 "约翰史密斯摔跤运动员"生成的简档页面的目标。
[0066] 另外,超链接66(νΝ与反馈标签67(VN相关联,其允许用户提供关于结果是否与他 们的搜索相关的反馈。例如,反馈标签可以是" + "或用来分别指示结果响应于或者不 响应于搜索字符串190。用户反馈在未来的搜索中实现,或可以修改当前搜索的结果。
[0067] 图7是图示在这里描述的一些实施例中使用的示例性计算机702的框图。计算 机702包括经由总线712连接到存储器706的至少一个处理器704、网络接口装置710、存 储708、输入装置714以及输出装置716。处理器104可以是用来进行本公开实施例的任何 硬件处理器。输入装置714可以是向计算机702给出输入的任何装置。例如,可以使用键 盘、小键盘、光笔、触摸屏、轨迹球或语音识别单元、音频/视频播放器等。输出装置716可 以是向用户给出输出的任何装置,例如,任何传统的显示屏幕。尽管与输入装置714分离地 示出,但是输出装置716和输入装置714可以组合。例如,可以使用具有集成触摸屏的显示 屏幕、具有集成键盘的显示器或与文字语音转换器组合的语音识别单元。
[0068] 计算机702通常在操作系统(未示出)的控制下。操作系统的示例包括UNIX,各 版本的Microsoft Windows?操作系统,以及Linux?操作系统的发行版(注意,Linux是 LinusTorvalds在美国和其他国家的注册商标)。更普遍地,可以使用支持这里公开的功能 的任何操作系统。
[0069] 存储器706优选地是对保持这里描述的实施例中的必需编程和数据结构足够大 的随机存取存储器。尽管存储器706示出为单个实体,但是应当明白存储器706可以事实 上包括多个模块,并且存储器706可以以多级存在,从高速寄存器和高速缓存到较低速但 是更大的DRAM芯片
[0070] 存储708可以是直接存取存储装置(DASD)。尽管存储708示出为单个单元,但是 存储708可以是固定和/或可移除存储装置的组合,诸如固定的盘驱动器、软盘驱动器、磁 带驱动器、可移除存储器卡或光学存储。存储器706和存储708可以是跨越多个主存储装 置和次存储装置的一个虚拟地址空间的一部分。
[0071] 附图中的流程图和框图显示了根据这里公开的多个实施例的系统、方法和计算机 程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以 代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个 用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所 标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以 基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的 是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行 规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的 组合来实现。
[0072] 尽管前述指向本公开的实施例,但是在不偏离其范围的情况下,可以设想本公开 的其他和进一步实施例,并且其范围由以下的权利要求确定。
【权利要求】
1. 一种用于将搜索结果分组为简档页面的计算机实现的方法,该方法包括: 接收指定一个或多个搜索词语的第一搜索字符串,其中所述一个或多个搜索词语的至 少一个是与多个实体对应的共享词语; 基于接收到的第一搜索字符串生成多个搜索查询,每一个对应于所述多个实体中的相 应实体; 执行所生成的多个搜索查询的每一个来创建搜索结果的相应集合; 分解搜索结果的集合,以使得所述多个实体的每一个由单个集合的搜索结果代表; 生成多个简档,每一个简档与分解后的搜索结果的集合之一对应,其中所述多个简档 中的每一个包括从分解后的搜索结果的对应集合中的至少一个文档获得的数据;并且 呈现所述多个简档作为响应于第一搜索字符串的结果的集合。
2. 如权利要求1所述的方法,所述多个实体中的每一个包括人、位置或组织中的至少 一个。
3. 如权利要求1所述的方法,其中基于响应于所述第一搜索字符串提供的相关搜索字 符串的集合,生成所述多个搜索查询。
4. 如权利要求1所述的方法,其中该分解包括: 比较搜索结果的集合的每一个以检测相似性;并且 当检测到所述相似性时合并搜索结果的集合。
5. 如权利要求4所述的方法,其中当检测到的相似性超出了指定相似性阈值时,该合 并发生。
6. 如权利要求1所述的方法,其中使用从所述搜索结果的对应集合检索到的传记信息 生成所述多个简档中的每一个。
7. 如权利要求1所述的方法,包括: 接收将简档中的至少一个数据元素标记为与该简档相关或不相关的用户反馈。
8. 如权利要求1所述的方法,其中所述至少一个文档包括与所述实体相关联的社交网 络页面。
9. 一种用于将搜索结果分组为简档页面的计算机程序产品,所述计算机程序产品包 括: 具有以其体现的计算机可读程序代码的计算机可读存储介质,该计算机可读程序代码 包括: 配置为接收指定一个或多个搜索词语的第一搜索字符串的计算机可读程序代码,其中 所述一个或多个搜索词语中的至少一个是与多个实体对应的共享词语; 配置为基于接收到的第一搜索字符串生成多个搜索查询的计算机可读程序代码,每一 个搜索查询对应于所述多个实体中的相应实体; 配置为执行所生成的多个搜索查询的每一个来创建搜索结果的相应集合的计算机可 读程序代码; 配置为分解搜索结果的集合以使得多个实体的每一个由单个集合的搜索结果代表的 计算机可读程序代码; 配置为生成多个简档的计算机可读程序代码,每一个简档与分解后的搜索结果的集合 之一对应,其中多个简档中的每一个包括从分解后的搜索结果的对应集合中的至少一个文 档获得的数据;以及 配置为呈现多个简档作为响应于第一搜索字符串的结果的集合的计算机可读程序代 码。
10. 如权利要求9所述的计算机程序产品,其中所述多个实体的每一个包括人、位置或 组织中的至少一个。
11. 如权利要求9所述的计算机程序产品,其中基于响应于所述第一搜索字符串提供 的相关搜索字符串的集合,生成所述多个搜索查询。
12. 如权利要求9所述的计算机程序产品,其中该分解包括: 比较搜索结果的集合的每一个以检测相似性;并且 当检测到相似性时,合并搜索结果的集合。
13. 如权利要求12所述的计算机程序产品,其中当所检测的相似性超出了指定相似性 阈值时,该合并发生。
14. 如权利要求9所述的计算机程序产品,其中使用从搜索结果的对应集合检索到的 传记信息生成所述多个简档中的每一个。
15. 如权利要求9所述的计算机程序产品,包括: 接收将简档中的至少一个数据元素标记为与该简档相关或不相关的用户反馈。
16. 如权利要求9所述的计算机程序产品,其中所述至少一个文档包括与该实体相关 联的社交网络页面。
17. -种用于将搜索结果分组为简档页面的系统,该系统包括: 处理器;以及 存储器,包含当由所述处理器执行时配置为进行用于将搜索结果分组为简档页面的操 作的程序,该操作包括: 接收指定一个或多个搜索词语的第一搜索字符串,其中所述一个或多个搜索词语的至 少一个是与多个实体对应的共享词语; 基于接收到的第一搜索字符串生成多个搜索查询,每一个对应于所述多个实体中的相 应实体; 执行所生成的多个搜索查询的每一个来创建搜索结果的相应集合; 分解搜索结果的集合,以使得所述多个实体的每一个由单个集合的搜索结果代表; 生成多个简档,每一个简档与分解后的搜索结果的集合之一对应,其中所述多个简档 中的每一个包括从分解后的搜索结果的对应集合中的至少一个文档获得的数据;并且 呈现所述多个简档作为响应于第一搜索字符串的结果的集合。
18. 如权利要求17所述的系统,其中所述多个实体的每一个包括人、位置或组织中的 至少一个。
19. 如权利要求17所述的系统,其中基于响应于第一搜索字符串提供的相关搜索字符 串的集合,生成多个搜索查询。
20. 如权利要求17所述的系统,其中该分解包括: 比较搜索结果的集合的每一个以检测相似性;并且 当检测到相似性时合并搜索结果的集合。
21. 如权利要求20所述的系统,其中当所检测的相似性超出了指定相似性阈值时该合 并发生。
22. 如权利要求17所述的系统,其中使用从搜索结果的对应集合检索到的传记信息生 成所述多个简档的每一个。
23. 如权利要求17所述的系统,包括: 接收将简档中的至少一个数据元素标记为与该简档相关或不相关的用户反馈。
24. 如权利要求17所述的系统,其中所述至少一个文档包括与所述实体相关联的社交 网络页面。
【文档编号】G06F17/30GK104067273SQ201380005822
【公开日】2014年9月24日 申请日期:2013年1月10日 优先权日:2012年1月17日
【发明者】A.K.舒克, A.艾沃里, E.J.伯卡特, D.M.斯特克 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1