相关查询组织系统和方法

文档序号:6463827阅读:115来源:国知局
专利名称:相关查询组织系统和方法
技术领域
本发明一般地涉及计算机网络,更具体而言,涉及信息检索和呈现方式。
背景技术
目前随着越来越多的信息被呈现在网络上,已经出现了多种在后台数 据库中存储文档并提供供用户检索这些文档的界面的信息系统。典型的信
息系统有两种1)诸如Google和Baidu之类的搜索引擎,通过这种搜索 引擎人们可以访问因特网上的信息(网页);2)内部网系统,通过这种 系统人们可以访问内部文档(通常用在公司内部)。
当用户向这种信息系统发送用户查询q时,用户可能对结果有两种不 同的需求。第一种,用户想要找到一条与q相关的信息,例如, 一个网 站、 一个网页或一个文档。第二种,用户想要了解q的概貌(或者说概 要),这需要浏览一组网站、网页或文件。通常,前一需求被称为信息搜 索需求,后一需求被称为信息浏览需求。
对于信息搜索需求来说,列表是一种很好的呈现搜索结果的方式。例 如搜索引擎(例如Google或者百度)就是一种典型的示例。在搜索引擎 中,网页与查询q的相关度越大,它在列表中的位置就越高,这样用户很 容易在列表中找到其感兴趣的信息。
但是,对于信息浏览需求来说,列表方式就不适合了,因为用户不得 不阅读整个列表、思考并自己总结出概貌。这一过程费时且费力。与列表 相比,其他诸如层次结构(hierarchy)、图表(graph)或属性值表(facet-value form) 的形式在呈现信息方面更加适合。在这里,层次结构、图表或 属性值表被称为"结构"(structure)。依靠这样的结构,人们可以很容 易地理解概要。 一个示例是在线购物站点"亚马逊"(Amazon),它使用
5层次结构(例如CD、 DVD和小说等分类)来呈现其所有商品。
对于信息浏览需求来说, 一个好的结构可以便于人们理解概要,因
此,如何构建好的结构便成为一个重要的问题。
例如,传统系统可以使用词或词组的并发来构建层次结构。例如,如
果两个词A和B经常并发,则认为它们是相关的。进而,如果A比B出
现得更频繁,则把A作为B的父节点。图l示出了以"软件"作为査询词
的一个示例(http:〃clusty.com)。
在图1中,层次结构图左侧是该层次结构的第一层。该第一层由诸如 "软件下载"、"软件频道"、"Picasa"等的节点组成,这些词都是检
索出的页面中的常见词(或词组)。其中,节点"软件下载"具有子节
点,如"驱动下载,游戏下载"、"软件教程"等,如图2所示。如上所
述,"软件下载"之所以是"软件教程"的父节点是因为这两个词经常在 页面中并发并且"软件下载"出现得比"软件教程"更频繁。
图3是利用相同网站再一次运行"软件"查询所得到的结果。两次査 询结果有所不同。这种情况是可能的,因为后台网页可能在两次查询之间 被更新。关于上述构建结构的详细描述,可以参见Lawrie, D., Croft, B.的 "Generating Hierarchical Summaries for Web Searches" , SIGIR 2003, 457-458页。
然而,这样所构建的结构通常不具有很好的可读性,因而不那么令人 满意。具体而言,可能有以下几个问题
1. 结构中的元素(element)可能是与査询不相关的主题,例如图1中 的"China" 、 "Wiki",以及图3中的"版权所有"。这里,结构中的元 素例如是指层次结构和图表中的节点,以及属性值表中的属性和值。由于 本说明书使用层次结构作为说明样例,所以在本说明书中,"元素"与
"节点"可以互换使用。
2. 结构中的元素本身可能并不具有如结构所显示的那种关系,例如在 图2中"软件下载"是"软件教程"的父节点,但是实际上这两者并没有 关系。
3. 大多数主题元素与用户关心的内容并不相符。图4示出了包含词"软件"的某些用户查询的统计结果,从中可以看出,对于"软件"査 询,大多数人想要了解的是"杀毒软件"、"天空软件"等,而不是"软
件频道"、"Picasa"等等。
图5示出了根据现有技术的相关查询组织系统的示例。如图5所示, 相关査询组织系统IO包括输入单元11、文档存储单元12、相关文档过滤 单元13和结构构建单元14。输入单元11接收用户査询q,并提供给相关 文档过滤单元13。相关文档过滤单元13访问文档存储单元12,并从存储 在文档存储单元12中的文档集DS中选择出与用户查询q相关的一个或多 个文档DS一q,并将DS—q提供给结构构建单元14。结构构建单元14基于 所提供的DS一q来构建结构,并输出所述结构以进行显示。基于文本构建 结构的方式对于本领域技术人员来说是公知的。

发明内容
如上所述,传统方法所构建的结构不具备好的可读性,这是因为该结 构是基于文档构建的。文档并不是好的数据源。首先,文档的文本长度很 长,因此很难从文档中提取出主题。其次,即使正确地提取了主题,也很 难判断出它们的相关度,因为它们在文档中的位置可能很远,或者即使很 近但是却彼此毫无关联(例如图2中的"软件下载"和"软件教程"), 或者句子很复杂,难以分析出关系。
为此,本发明提供了一种相关査询组织系统和方法。该系统包括用户 査询存储单元,用于存储用户査询集;输入单元,用于输入一个用户査 询;查询过滤单元,用于从用户査询存储单元存储的用户査询集中选择与 输入的用户查询相关的査询;以及结构构建单元,用于基于相关査询构建 结构并获取所述结构以进行显示。
本发明的相关査询组织方法包括以下步骤输入一个用户查询;从预 先准备好的用户查询集中选择与输入的用户查询相关的查询;以及基于相 关查询构建结构并显示所述结构。
基于用户査询构建结构与基于文档的方法相比有以下优点
1.用户査询通常是词组或短句。相比于文档的长句,其内容更充实。因此,更容易提取出主题。例如,在图4中,与查询"软件"相关的某些 査询是"杀毒软件"、"压縮软件"、"天空软件"、"华军软件园"、 "软件下载"。显然,除了查询词"软件"之外,几乎所有词都是主题。
2. 由于用户查询通常是词组或短句,因此一个査询中并发的两个词通 常具有某种关联。例如,在"杀毒软件"中,"杀毒"是"软件"的功 能。
3. 用户所输入的査询反映了用户关心的内容。例如,很多人发送查询 "杀毒软件",而只有很少人发送"Picasa",这说明,大多数人想了解
关于"杀毒软件"的信息,而不太关心"Picasa"的信息。因此,基于相 关用户查询构建的结构可以满足更多用户的需求。
总地来说,通过基于用户查询而不是文档来构建结构,提高了所构建 结构的可读性。


图l示出了以"软件"作为査询词的一个示例(http:〃clusty.com); 图2进一步示出了图l的示例;
图3示出了利用相同网站再一次运行"软件"查询所得到的结果; 图4示出了包含词"软件"的某些用户査询的统计结果; 图5示出了根据现有技术的査询组织系统的示例; 图6示出了根据本发明第一实施例的相关査询组织系统的实施例; 图7示出了根据本发明第二实施例的相关査询组织系统的实施例; 图8示出了根据本发明第三实施例的相关査询组织系统的实施例; 图9示出了查询"软件"所形成的结构(层次结构)的一个示例; 图10示出了根据本发明的结构构建单元104的构造; 图ll示出了群组形成的一个示例; 图12示出了合并具有相同含义的元素的一个示例; 图13示出了采用第二和第三种方法判断"天空软件"和"天空软件 园"具有相同含义的示例;
图14示出了构建补充结构的示例;以及图15示出了根据本发明的相关查询组织方法110。
具体实施例方式
图6示出了根据本发明第一实施例的相关査询组织系统的实施例。如 图6所示,相关査询组织系统IOO包括输入单元101、用户查询存储单元 102、查询过滤单元103和结构构建单元104。输入单元IOI用于接收来自 用户的查询q,并提供给查询过滤单元103。用户査询存储单元102存储 了一组用户查询(也称为用户査询集)QS, QS是事先在系统中存储好 的,并且可以是固定的或随时更新的。査询过滤单元103接收来自输入单 元101的用户査询q,并且从QS中选择与q相关的一个或多个查询(称为 QS_q),并将选择结果提供给结构构建单元104。结构构建单元104基于 该选择结果(即与用户査询q相关的一个或多个查询QS一q)来构建结构 ST—q,并输出所构建的结构以进行显示。这里,基于选择结果(一个或多 个査询QS_q)构建结构的技术是本领域技术人员公知的,并且在这里没 有加以详细描述。
图7示出了根据本发明第二实施例的相关查询组织系统的实施例。如 图7所示,第二实施例的相关查询组织系统200除了包括图6的系统100 包括的那些组件以外,还包括文档粘贴单元105,文档粘贴单元105用于 接收来自结构构建单元104的构建结构ST一q,并将文档粘贴到所述结构 上,以获取和输出粘贴有文档的结构以进行显示。这里,由文档粘贴单元 105粘贴的文档可以是整个文档集DS,也可以是从文档集DS中选择出 的、与输入的用户查询q相关的一个或多个文档。如上所述,这里从文档 集DS中选择与用户查询q相关的一个或多个文档的操作是本领域技术人 员已知的,因此在这里不进行详细描述。与用户査询集QS类似,文档集 DS是事先存储好的,并且可以是固定的或随时更新的。
图8示出了根据本发明第三实施例的相关査询组织系统的实施例。如 图8所示,第三实施例的相关查询组织系统300除了包括图6的系统100 包括的那些组件以外,还包括用户查询修正单元106,该单元106用于基 于结构构建单元104所构建的结构来修正用户查询q。在106中,系统把104所构建的结构呈现给用户,并由用户从中选择一个或多个元素代替用 户原有的查询。在现有的系统中,例如Google或者百度,当用户输入一个 查询时,系统通常会在返回页面的下方给出一些"相关搜索",用户可以 选择一个代替原来的查询。这种方式的缺点是当"相关搜索"很多时,用 户需要花较长的时间浏览相关搜索并从中选出替代査询。而用结构的方式 将所有相关搜索呈现给用户,则可以减少用户浏览和选出替代查询的时 间,由此达到有利于用户的目的。又例如,当用户输入査询"软件"时, 在浏览了系统给出的结构之后,可以很容易判断出他/她实际想要查询的是 "华军软件园",并且据此修正自己的査询。
从上述实施例可以看出,在本发明的实施例中很重要的一点是从用户 査询集QS中选择与输入的用户査询q相关的一个或多个査询QS—q。这就 需要判断两个用户查询的相关度,对于本领域技术人员来说,这种判断技 术是公知的,并且可通过多种方式实现。例如,对于两个用户查询ql和 q2来说,可以通过它们的重叠部分对它们的文本总长的比例来判断。例 如,两个用户査询ql和q2的相关度R(ql, q2)可以通过下式来计算 R(ql, q2) = 2*Len(0v(ql, q2))/(Len(ql)+Len(q2》
其中Len(w)是文本w的长度计算函数,并且Ov(《/, g^)表示ql和q2 的重叠部分。在相关度R(ql, q2)的值超过预定义的阈值T (例如0.5)的 情况下,认为这两个用户查询ql和q2是彼此相关的。注意,上述通过重 叠部分比来判断相关度的方法仅仅是一个示例,本发明的范围并不限于 此。
图9示出了査询"软件"所形成的结构(层次结构)的一个示例。该 图仅仅示出了由第一实施例的系统所构建的结构,即,还未粘贴文档的结 构。如上所述,基于文本构建结构的方式是本领域技术人员公知的。以图 9为例,首先,检索出与查询"软件"相关的一个或多个用户査询,图4 示出了这些相关查询的一部分。然后,从这些查询中提取出诸如"杀 毒"、"天空"之类的关键字(也就是前面提到的主题),接着,按照查 询中关键字的并发来组织结构,这样,就形成了如图9所示的结构。注 意,上述根据文本构建结构的方式仅仅是一个示例,本发明的范围并不限于此。
图IO示出了根据本发明的结构构建单元104的构造。如图IO所示, 结构构建单元104包括基础结构构建单元1041和扩展处理单元1042。基 础结构构建单元1041基于查询过滤单元103给出的QS一q来构建基础结 构,并将所得到的基础结构提供给扩展处理单元1042。扩展处理单元 1042根据需要对基础结构进行进一步处理,以得到要显示的结构。如图 IO所示,扩展处理单元1042可包括群组形成单元201、元素合并单元202 和结构补充单元203。这三个单元是彼此独立的,并且扩展处理单元1042 可包括这些单元中的任意一个,也可同时包括其中的任意两个或全部,当 然也可不包括这些单元中的任何一个(这时基础结构被输出)。
需要注意的是,其中的结构补充单元203用于在文档粘贴单元105将 文档粘贴到结构ST—q上之后,当所述结构ST—q上的某个或某些元素粘贴 了超过预定数量的文档时进行结构补充。此处的结构ST—q可以是未进行 任何扩展处理的基础结构,也可以是已经由群组形成单元201和元素合并 单元202中的任何一个或两者进行扩展处理后的结构。
下面将详细说明这三个单元。
群组形成单元201用于将构建的结构中的相关元素归并到一个群组 中。具体而言,结构中的某些元素可能属于同一类别。如果这样的元素可 以归入一个群组中,则可以提高结构的可读性。例如,在图9所示的结构 中,"杀毒"和"压縮"指的是软件的类型,而"天空"和"华军"指的 是两个著名软件站点的名称。显然,如果"杀毒"和"压縮"被归入一个 群组,"天空"和"华军"被归入另一个群组,则可以提高所形成结构的 可读性,并且用户可以迅速理解"软件"的含义和内容,如图11所示。
一种示例性的方法是根据节点的相关关键字来判断多个元素是否应该 被归并到一个群组中。其基本原理是两个元素el和e2共享的同样的相关 关键字越多,则两个元素el和e2就越有可能在同一群组中。例如,"杀 毒"和"压縮"被归入一个群组,因为它们都有同样的相关关键字,如 "下载"、"免费"、"最新"…等等。这意味着有"杀毒软件下载"、 "压縮软件下载"、"免费杀毒软件"、"免费压縮软件"、"最新杀毒软件"、"最新压縮软件"等相关查询。而"天空"和"华军"被归入一 个群组,因为它们都有诸如"首页"、"网站"、"论坛"、"排行"等 相关关键字。这意味着有"天空软件首页"、"华军软件首页"、"天 空软件网站"、"华军软件网站"、"天空软件论坛"、"华军软件论 坛"、"天空软件排行"、"华军软件排行"等相关査询。
元素合并单元202用于将具有相同含义的元素合并为一个元素。具体 而言,在用户给出某些查询时,他们本来想寻求的是同一个答案。例如, 在图9中,"天空"和其子节点"站"分别来源于査询"天空软件"和 "天空软件站",但是这两个査询实际上指的是同一个站点
(www.skycn.com)。因此,将这两个节点合并为一个节点有助于用户更 容易理解概要,并且提高了结构的可读性。另一个示例是"华军软件"和
"华军软件园"。图12示出了该示例。
为了实现上述目的,需要判断什么样的元素是具有相同含义的元素。 下面给出了三种判断方法。这三种方法是彼此独立的,可以独立使用或者 结合使用。
第一种方法是拼写校正方法。当用户输入带有拼写错误的查询词时, 系统能够通过某些自动的或人工的方式检査出这些错误,并且给出正确拼 写的査询词。某些搜索引擎提供了这种方法。例如,当用户输入查询"普 尔茶"时,搜索引擎可能询问"您查询的是不是'普洱茶'?"。当系统 确定某个査询有拼写错误,则把它合并到正确拼写的元素上。例如,在这 个例子中,系统将两个查询"普尔茶"和"普洱茶"合并为一个节点。
第二种方法是判断两个元素所粘贴文档的共享比例。例如,对于两个 元素el和e2,计算它们的共享文档对它们的总文档的比例。如果该比例 高于某个预定义的阈值,则认为这两个元素具有相同含义,并且它们应当 被合并为一个元素。
第三种方法是在粘贴文档中检査查询词发生处的文本。例如,当元素 el是e2的简写,如el="天空软件"、e2="天空软件园"的情况下,检 查粘贴到这两个元素的文档。如果在el出现的情况下e2也出现,则认为 元素el和e2具有相同含义。
12图13示出了采用第二 (Method 2)和第三(Method 3)种方法判断 "天空软件"和"天空软件园"具有相同含义的示例。
结构补充单元203用于为某些元素构建补充结构,这些元素通常粘贴 有大量文档,并且没有子结构,或者即使有子结构,也不能把这些文档粘 贴到子结构中的元素中。这种元素的典型示例是元素"其他" (others), 一般来说,所有的不能被当前结构所覆盖的文档都可粘贴到 元素"其他",所以"其他"常常粘贴有大量文档。另外,相关查询很少 的主题对应的元素也常常粘贴有大量文档。
很显然,对粘贴有大量文档的元素,用户需要花大量的时间和精力浏 览这些文档才能了解元素的全貌。而通过结构补充单元为这样的元素构建 补充结构,可以减少用户所花的时间和精力。图14示出了形成诸如"新 闻"之类的补充元素的示例。注意,结构补充单元可以采用基于文档的传 统结构构建方法。
图15示出了根据本发明的相关査询组织方法110。该方法可以由根据 本发明的相关査询组织系统100、 200或300执行。该方法开始于步骤 301。在步骤301,输入一个用户查询q。在步骤302,从预先准备的用户 查询集QS中选择与输入的用户查询q相关的査询QS一q并获取选择结 果。在步骤303,基于选择结果构建结构并显示该结构。在步骤304,在 必要时(即,在需要显示粘贴有文档的结构时)将文档粘贴到所述结构上 并获取粘贴有文档的结构以进行显示。在步骤304',基于所构建的结构对 用户查询q进行修正。步骤304和304'不是必需的,而是可根据需要选择 执行。如上所述,粘贴的文档可以是整个文档集DS,也可以是从文档集 DS中选择的与输入的用户査询q相关的一个或多个文档DS_q。用户查询 集QS和文档集DS都是系统预先准备好的,并且可以是固定的或随时更 新的。接着,在步骤305,该方法结束。
上述实施例可以有各种修改、组合和替换。例如,在本发明的相关查 询组织系统100中,在单元103和104之间还可以有一个存储单元,用于 临时存储所选择的与用户査询q相关的一个或多个査询QS—q。并且,在 单元104输出所构建的结构之前,也可以对该结构进行临时存储,然后再输出到外部以进行显示。所有这些修改都是本领域技术人员能够意识到 的。
应当理解,本发明并不限于上述实施例。本发明的范围应当由权利要 求限定。
权利要求
1.一种相关查询组织系统,包括用户查询存储单元,用于存储用户查询集;输入单元,用于输入一个用户查询;查询过滤单元,用于从所述用户查询存储单元存储的所述用户查询集中选择与输入的所述用户查询相关的查询并获取选择结果;以及结构构建单元,用于基于所述选择结果构建结构并获取所述结构以进行显示。
2. 如权利要求1所述的系统,包括-文档粘贴单元,用于将文档粘贴到所述结构上并获取粘贴有文档的结 构以进行显示。
3. 如权利要求2所述的系统,其中所述文档是从文档集中选择出的、 与输入的所述用户查询相关的文档。
4. 如权利要求l所述的系统,包括用户査询修正单元,用于基于所述结构修正所述用户查询。
5. 如权利要求1或2所述的系统,其中所述结构构建单元包括-基础结构构建单元,用于基于所述选择结果构建基础结构;以及 扩展处理单元,用于对所构建的基础结构进行扩展处理以获取要显示的所述结构。
6. 如权利要求5所述的系统,其中所述扩展处理单元包括群组形成单元,所述群组形成单元用于将所述 基础结构中的相关元素归并到一个群组中。
7. 如权利要求5所述的系统,其中所述扩展处理单元包括元素合并单元,所述元素合并单元用于将所述 基础结构中具有相同含义的元素合并为一个元素。
8. 如权利要求7所述的系统,其中所述元素合并单元使用拼写校正方法来识别具有相同含义的元素。
9. 如权利要求7所述的系统,其中所述元素合并单元使用共享文档比来识别具有相同含义的元素。
10. 如权利要求7所述的系统,其中所述元素合并单元使用粘贴文档检査方法来识别具有相同含义的元素。
11. 如权利要求5所述的系统,其中所述扩展处理单元包括结构补充单元,所述结构补充单元为所述文档 粘贴单元在结构上粘贴了超过预定数量的文档的元素构建补充结构。
12. 如权利要求1所述的系统,其中所述结构是层次结构、图表或属 性值表的形式。
13. —种相关査询组织方法,包括 输入一个用户査询;从预先准备的用户査询集中选择与输入的所述用户査询相关的査询并获取选择结果;以及基于所述选择结果构建结构并显示所述结构。
14. 如权利要求13所述的方法,包括将文档粘贴到所述结构上并获取粘贴有文档的结构以进行显示。
15. 如权利要求14所述的方法,其中所述文档是从文档集中选择出 的、与输入的所述用户査询相关的文档。
16. 如权利要求13所述的方法,包括基于所述结构对所述用户查询进行修正。
17. 如权利要求13或14所述的方法,其中-构建结构的步骤包括基于所述选择结果构建基础结构,并且对所构建 的基础结构进行扩展处理以获取要显示的所述结构。
18. 如权利要求17所述的方法,其中所述扩展处理包括将所述基础结构中的相关元素归并到一个群组中。
19. 如权利要求17所述的方法,其中所述扩展处理包括将所述基础结构中具有相同含义的元素合并为一个元素。
20. 如权利要求19所述的方法,其中所述合并具有相同含义的元素的步骤使用拼写校正方法来识别具有相 同含义的元素。
21. 如权利要求19所述的方法,其中所述合并具有相同含义的元素的步骤使用共享文档比来识别具有相同 含义的元素。
22. 如权利要求19所述的方法,其中所述合并具有相同含义的元素的步骤使用粘贴文档检査方法来识别具 有相同含义的元素。
23. 如权利要求17所述的方法,其中所述扩展处理包括为粘贴有超过预定数量的文档的元素构建补充结构。
24. 如权利要求13所述的方法,其中所述结构是层次结构、图表或属 性值表的形式。
全文摘要
本发明公开了一种相关查询组织系统和方法。该系统包括用户查询存储单元,用于存储用户查询集;输入单元,用于输入一个用户查询;查询过滤单元,用于从用户查询存储单元存储的用户查询集中选择与输入的用户查询相关的查询并获取选择结果;以及结构构建单元,用于基于选择结果构建结构并获取所述结构以进行显示。
文档编号G06F17/30GK101599065SQ20081011125
公开日2009年12月9日 申请日期2008年6月5日 优先权日2008年6月5日
发明者胡长建, 凯 赵, 岷 赵, 邱立坤 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1