用于分类呈现搜索结果的方法和系统的制作方法

文档序号:6566579阅读:661来源:国知局
专利名称:用于分类呈现搜索结果的方法和系统的制作方法
技术领域
本发明涉及文档搜索工具和方法。具体地说,本发明涉及旨在用于 对存储有大量电子文档的大型电子数据库进行搜索的电子文档搜索工具 和方法。
背景技术
存在日益增加的大量的电子地存储的信息。另外,存在针对使得不 同数据库的数据为临时搜索者可用的增长的趋势。例如,因为越来越多 的数据被写入因特网服务器并且因为越来越多的组织将他们的数据库连 接至因特网并由此使这些数据库中包含的信息可经由因特网使用,所以 包括大量存储各种信息的不同服务器的因特网在持续扩大。
为了使得用户能够筛选这种大量信息并且在海量无关文档中寻找相 关文档,信息技术界内花费了许多努力来研究并开发搜索方法和工具, 以解决由此引发的、所谓的"数据超载信息贫乏"问题。
用于在因特网上寻找电子文档的多数搜索工具是基于关键字的搜 索,并且这些搜索工具趋于针对包括一个或仅几个关键字(至少它们是
相当普通的字)的任何合理普通查询,返回难于处理的大量命中(hit)。 甚至更多采用了精细分类文档内容等的高级搜索工具因其基本上趋向于 基于关键字的搜索工具,故而针对任何相当普通的査询仍然趋于返回大 量"命中"。
这种问题的原因之一仅仅在于计算机能够非常快速地处理大量数据 从而生成非常大的命中列表。将典型因特网搜索引擎的性能与人类图书 管理员相比,针对诸如"Hercules"的简单查询来说,前者很可能生成数 以万计的结果,而后者通常至多生成两个或三个"命中"。然而,在执行 "搜索"之前,人类图书管理员将大概检查读者是否意指传说中的希腊
英雄或是完全不同的内容(例如,具有该名称的商业组织,计算机程序, 等等),并且人类图书管理员将几乎确定地寻找和读者相关的内容。
因此,清楚的是,因为人类图书管理员能够向请求搜索的人询问智 能问题并由此排除整个文档"图书馆"中的仅仅基于简单关键字搜索而 可能被分类为"命中"的大部分,所以他或她通常可以做得比因特网搜 索引擎好。这种能力超出了当前计算机能够成功模仿的能力,因此,需 要另选技术方案来在利用计算机的技术实力同时设法克服它们相应的弱 点(具体地说,它们缺乏智能)的情况下使得计算机能够提高它们的搜 索能力,或者更加精确地说,提高计算机辅助用户/请求者从利用基于简 单关键字的搜索通常找到的大量可能文档中寻找和该用户/请求者特别相 关或所关注的一个或两个文档的能力。
US专利No. 6526440描述了一种根据返回文档被其它文档引用的频 率对搜索结果进行重排序的系统。换句话说,这个文献描述了一种基于 元信息(即,关于文档的信息)而非简单地依赖文档中包含的信息重排 序文档的方法。
Vivisimo已经生产出一种称为"Clusty"的搜索引擎,该搜索引擎目 前可从http://clusty.com上获得,在该搜索引擎中将任何特定搜索的结果
聚类成相关类别。
由Amazon.com提交的WO 01/46870描述了如下一种系统,该系统 用于将搜索结果放入对应类别(每一个结果都已被预指配给特定类别(例 如,书、CD等)),并且用于根据多种规则(例如,通过计算特定类别中 的结果数与该类别中的项数的比率并且根据关于各类别的该比率的值对 多个类别进行排序)确定要向用户呈现不同类别的次序。
US 6385602描述了一种类似于上述Clusty搜索引擎的系统,在该系 统中,在执行搜索之后,使所得结果聚类,并基于聚类动态类别对这些 结果进行限定且用于将其呈现给用户。
US 2003/0088553描述了这样一种系统,即,在该系统中,第一数据
库存储预定类别集,第二数据库存储一组"预期搜索项"和到一个或更 多个预定类别的映射,而第三数据库存储类别与各种因特网网站之间的
映射(即,将网站预分类到一个或更多个预定义类别)。接着,通过将输 入搜索查询指配给一类别并接着检索与输入搜索查询对应的被预分类到 相应类别的所有网站(或到这些网站的链接或标题)来进行搜索。要注 意的是,这一活动代表了搜索处理的全部,由此,既没有阶段执行关键 字类型搜索,接着也没有将这种搜索的结果分类到多个单独的类别,而 搜索结果仅仅是分类为属于输入搜索查询匹配的哪个类别的网站的总 和。
EP 1217542描述了这样一种系统,即,在该系统中,移动通信装置 (例如,移动电话)包括个人化本体(ontdogy),其用于帮助用户将喜 爱的服务(或到这些服务的链接)存储在该个人化本体的对应节点中来 标识这些服务。这个描述对于有关怎样精确地执行搜索说得有点不太清 楚,但是,该描述给出(尤其从图6中)它是通过如下步骤进行操作的 首先从个人化本体中寻找针对搜索请求的结果,并且如果失败则使用普 通搜索引擎来寻找针对该搜索的合适结果(参见第616、618以及620项)。 没有讨论如何向用户显示搜索结果,或在向用户显示结果之前是否根据 个人化本体对这些结果进行分类。

发明内容
根据本发明第一方面,提供了一种自动地对电子文档库进行搜索以 便辅助用户寻找该用户可用的全部文档中的该用户尤为关注(在那时) 的小子集的方法,所述方法包括以下步骤控制用户接口以准许用户输 入包括一个或更多个关键字的搜索项;利用所述搜索项执行基于关键字 的搜索;将由所述搜索返回的文档分类到多个不同类别;以及控制所述 用户接口按使特定类别的文档被分组到一起的分组方式来呈现通过所述 搜索返回的文档或对其的引用,其中,所述多个类别是根据搜索查询而 选定和/或动态地生成的。
优选的是,所述多个类别是通过处理所述搜索査询以及公用本体或 本体集而选定和/或动态地生成的。优选的是,所述公用本体或本体集是 根据与用户相关联的偏好而个人化的。
优选的是,所述类别中的至少一个类别或一些类别是通过组合本体 中的概念来形成复合类别而根据所述本体动态地生成的。例如,如果本 体中的第一概念(例如,概念A)具有和该本体中单独的第二概念(例
如,概念B)对应的属性(例如,属性B),该第二概念具有多个子概念 或子代(例如,子概念bl、 b2、 b3),则选定的类别可以包括通过对第二 概念中的子概念和第一概念(例如,形成作为A的实例并且具有属性类 型bl、 b2以及b3的检索文档相应地分类到的类别blA、 b2A以及b3A) 进行组合而形成的复合类别。例如, 一种本体可能包括具有属性"烹调 风格"、"地点"以及"电话号码"的概念"餐馆",其中,至少"烹调风 格"可能是本体中单独的概念,其具有子概念"印度"、"现代欧洲"、"英 国"以及"素食"等,在该种情况下,至少可以形成下列复合类别,艮P, "印度餐馆"、"现代欧洲餐馆"、"英国餐馆"以及"素食餐馆"。要注意 的是,如果第三概念也具有"烹调风格"作为属性(例如,概念"烹调 书"——或许其本身是概念"书"的子概念),则可以基于该第三概念形 成类似的复合类别(例如,"印度烹调书"等)。
优选的是,所述方法还包括以下步骤选择优选类别,以基于用户 的历史行动更突出地呈现给用户;并且动态地调整对用户的类别呈现, 以改变基于用户的行动显示类别的突出性。在下面的具体说明中将对其 实施例进行更详细的阐述。
根据结果的特性,可以有利地采用很多不同的向用户呈现搜索结果 的方法。如果存在结果被视为落入其中的大量不同类别,则恰当的是初 始仅向用户显示类别,而非任何实际文档(或对其的引用)。在只存在几 个不同类别的情况下,恰当的是显示一些实际文档(或对其的引用),但 清楚地指示它们所属的类别等。
优选的是,所述方法还包括如下步骤结合本体中包含的分级信息 利用用户先前行动的存储历史,来生成向该用户呈现的新的类别集,所 述新的类别集是通过根据一种类别的属性所引用的本体中概念的存储分 级来扩展该属性以生成多个子类别而生成的,并且根据选定属性的值将搜 索结果分组成相应的子类别。下面,在具体说明中对其实施例进行阐述。
应清楚的是,这个方法的典型实现将包含安装和执行运行在远程计 算机接入的服务器计算机上的计算机程序。由此,控制用户接口以准许 用户输入搜索项并且向用户呈现搜索结果的步骤可以通过生成超文本标
记语言(HTML)页面并将其发送给用户所在的远程计算机来执行,所述 超文本标记语言页面包括到远程计算机可接入(例如,通过因特网)的 其它文档的有效链接,并且为了允许用户输入搜索项还包括文本输入字 段,该文本输入字段中的内容可以是由远程计算机例如借助于来自远程 计算机的包括文本字段的内容的HTML请求向其上正运行实现本发明实 施方式的计算机程序的服务器发送的(可以采用预处理方式)。
根据本发明第二方面,提供了一种服务器计算机,该服务器计算机 用于辅助用户利用远程装置从存储在连接至服务器和所述远程装置所连 接的同一数据网络的装置上的该用户可用的文档集中选择文档子集,所 述服务器包括:用于接收来自远程终端的包括一个或更多个关键字的搜 索项的装置;用于利用所述搜索项执行基于关键字的搜索的装置;用于 将通过所述搜索返回的文档分类到多个不同类别的装置;以及用于向所 述远程终端返回输出数据的装置,该装置准许所述远程终端按特定类别 的文档被分组到一起的分组方式来向用户呈现通过所述搜索返回的文档 或对其的引用,其中,所述多个类别是根据搜索查询来选定的。
本发明的其他方面包括用于执行根据本发明第一方面所述的方法的 计算机程序或程序组,并且包括载带这种程序或程序组的载体装置。


为了更好地理解本发明,下面将参照附图仅以实施例的方式对本发 明的实施方式进行说明,附图中
图1是实现本发明一实施方式的系统的框图2是图1的搜索服务器的框图,更详细地示出了该搜索服务器;
图3是图1和图2中的搜索服务器内存储的本体的一部分的示意性 例示图4是来自接入实现本发明一实施方式的服务器的终端显示器的屏 幕快照(screen shot)的示意性例示图;以及
图5是图4的屏幕快照的后续(followon)屏幕快照的示意性例示图。
具体实施例方式
参照图1,所述系统包括经由因特网50连接至搜索服务器20的远 程终端10。另外,连接至因特网50的还有多个普通网络服务器30,每 一个普通网络服务器30都可以连接至存储有可经由因特网50存取的电 子文档的多个数据库41、 42、 43。
参照图2,搜索服务器20包括多个数据库用户简档(profile)库 21,其存储关于每一个用户的由搜索服务器20提供的搜索服务的详情; 本体库22,其存储一个或更多个公用本体以及本体间的映射(如果存在 多于一个本体);以及辞典23,其存储计算机可存取的指定单词的不同含 义、同义词以及单词之间(或者因为某些单词可以具有多于一种的含义, 所以更精确地说是这些单词的不同含义之间)的关系(例如,其专用化、 通用化等)的字典(例如,WordNet)。另外,搜索服务器包括多个程序 模块.*文档定位器和排序模块25,其响应于输入的搜索查询而生成"命 中"列表并且将它们排序成用户可能感兴趣的次序;文档分类器模块26, 其将输入的文档分类到指定的一个本体或多个本体的概念;以及HTML 页面生成器模块27,其响应于从远程装置接收到的HTML请求生成向远 程装置发送的HTML页面。
在这些数据库和程序模块中,辞典23与文档定位器和排序模块25 可以根据这些组件的任何适合常规实施方式形成(例如,关于怎样形成 合适的辞典数据库 23 的详情参见目前在 http:〃www.cogsci.princeton.edu/ wn/上可获的WordNet的网络站点,并 且关于怎样设置合适的文档定位器和排序模块25的详情参见美国专利 No. 6526440),由此,下面将不再更详细说明这些组件,除非是阐明本实 施方式的操作所必需的。在这个实施方式中,我们使用WordNet来提供 辞典23,该辞典23除了列举有多个单词意义以外,还列举了同义词、反 义词、下位词等,并且阐述了单词分级,例如"狗"是"动物"的子类
别等。
在本优选实施方式中,用户简档库21存储有关于先前每一个用户在
使用搜索服务器时采取的行动的详情,以及关于用户的详情。该库还可 以存储对存储在本体数据库中的对相应用户来说是个人化的所述本体或 公用本体(或公用本体集)的修改。下面给出了关于这个可能性以及用
户先前行动的格式的详情。
在本实施方式中,所述公用本体或每一个公用本体是利用OWL (网 络本体语言)(其详情目前可以在http:〃www.w3 .org/TR/owl-features/找到) 在数据库22内表示的,然而,任何本体语言都可以用于这个目的。
如公知的,在信息技术领域中,本体是典型地通过采用树状结构排 列在一起的多个节点(这使得典型节点具有一个父系节点和一个或更多 个子系节点)来形成的。根节点是没有父系节点的特殊节点(它是本体 中的所有其它节点的最终父系),并且叶节点是没有子系的特殊节点。每 一个节点都具有标注(指定该节点表示什么的单词或短语),并且具有一 个或更多个属性(其中每一个都具有其自己的名称和值或值列表等)。除 了遗传分级以外,每一个节点还可以指定其与其它节点的关系,例如, 狗和猫不相交。
为了例示本体的这个典型排列,图3示出了本实施方式的公用本体 的一小部分。这个公用本体的根节点10被标注为"事物"并且没有属性。 然而,它具有五个直接子系(这些是例示出的——很自然,它可以另外 包含更多没有例示出的直接子系)"公司"节点312、"产品"节点314、 "价格"节点316、"货币"节点318以及"产品特征"节点319。"公司" 节点312被例示为具有称为"名称"和"地址"的两个属性。 一般来说, 属性将一值存储为简单文本串或号等,或者存储为本体内的另一概念。 如果存储为后者(即,另一概念),则该属性值可以是属于该属性引用的 相应节点/概念的个体。"产品"节点314具有标注为"名称"和"说明书" 的两个属性。"价格"节点316具有标注为"量"、"比例因子"以及"货 币"的三个例示属性。"产品特征"节点319具有标注为"名称"的一个 属性。
"货币"节点318没有被例示为具有任何属性,而是被例示为具有
两个属于它的个体,即,US美元和UK英镑。"价格"节点316的"货 币"属性是引用本体内另一概念/节点的属性的实施例,并且,在图3中 所示部分中,由此将取个体"US $" 320或者个体"UK£" 322作为其值。 "公司"节点312具有作为"公司"概念的子概念的两个子系节点,"电 子仪器"324和"服务"326。这些子概念中的每一个都继承了其父系节 点312的所有性质,以使这些概念中的任一个的任何个体成员都包括属 性"名称"和"地址"以及专用于作为一成员的实际子类的属性。在图3 中,子节点324被例示为具有一个指定属性"具有产品"。类似的是,"服 务"子节点326被例示为具有"具有服务"属性。"产品"节点314被例 示具有"移动电话"子节点328,该子节点328具有子属性"具有特征"。
要注意的是,上述图3部分地例示的本体是公用本体。对于个体用 户来说,可以通过对该公用本体中包含的概念加以限制或改变来对该公 用本体进行个人化。例如,具有属性"具有特征"(以及具有继承属性"名 称"和"说明书")的子概念"移动电话"328可以被个人化成要求该特 征中的一个必须是该电话具有至少2K存储器。根据这种个人化,公用"移 动电话"概念中的任何具有小于2K存储器的个体都不被视为属于个人化 移动电话概念的个体,而是被简单地分类为用于特定用户的产品。这样, 当特定用户引用概念"移动电话"时,意指具有至少2K存储器的移动电 话。在本实施方式中,为了使这种个人化本体在筛选特定检索数据项中 有效,数据源必需按某些方式(举例来说,如,包括根据指定相关性质 的方案以机器可读形式列举(举例来说,如通过以XML文档的形式写入) 关于数据项的性质的元标签)恰当地结构化。
要注意的是,除了能够经由万维网(WWW)从普通网络服务器获 取信息以外,在另选实施方式中,搜索服务器20还可以位于和用户相同 的内联网域内,并由此可以另外(或另选地)从内联网内的数据源获取 信息,等等。
当用户想要执行搜索时,该用户访问搜索服务器20的网络主页,然 后该页面被显示在用户正从其接入搜索服务器的远程终端10的屏幕上。
图4例示(示意性地)了搜索服务器20的主页怎样被显示在远程终 端10的屏幕上。如从图4可以看到,如显示在远程终端10上的主页包 括用户可以键入搜索查询的文本输入框410。用户随意将任何文本输入文 本输入框410中,并且在用户敲击输入/回车键时,由用户输入到文本输 入框中的文本被从远程终端10发送至搜索服务器20。
搜索服务器20假定用户输入的文本是诸如短语或句子的自然语言 查询。由此考虑下面的实施例查询 "Mobile phone with message"
当搜索服务器接收到这个消息时,第一步是将查询"分块"(chunk) 成短语。存在许多用于执行这种分块的已知算法。在本实施方式中使用 的一种算法是基于文本工程通用架构(GATE)的,该算法是在Sheffield 大学开发的并由此通常被称为"She伍eld Gate"系统(详情参见 http:〃gate.ac.uk)。利用这种分块算法,上述查询被转换成两个"块",艮卩, "Mobile phone"和"message"。(注意,对于其他合适的"分块"算法 的实施例,参见待审英国专利申请No. 0421754.3中的"Key Phrase Extraction"部分)。
搜索服务器20接着尝试将每一个"块"映射至公用(或个人化)本 体内的一个或更多个节点。在本实施方式中,映射处理通过首先寻找相 应"块"与本体中的任何节点之间的任何直接匹配来执行。如果成功,
则存储所述直接匹配节点并且处理结束。如果没有直接匹配,则将"块" 分成单词从而被"词干化"(stem)(关于适合词干化算法的详情再次参 见http:〃gate.ac.uk或待审英国专利申请No. 0421754.3),并且该算法寻找 词干化的单词与本体中的节点之间的部分匹配(例如,假设在节点标注 与词干化单词之间只有一个公用单词或部分单词)。如果以这种方式找到 一些匹配,则存储每一个匹配节点,并且处理结束。如果没有找到和词 干化单词的匹配,则在辞典中寻找词干化单词的任何同义词(即,具有 相同含义的单词)并且用于搜索和本体的节点的匹配,如果找到,则在 结束处理之前存储它。如果不能找到任何匹配,则将辞典用于寻找词干 化单词的通用化和专业化,并将这些用于寻找本体中的匹配节点。如果
以这种方式找到一些匹配,则存储每一个匹配节点,并且处理结束。如 果没有找到匹配,则处理结束,并且,在本实施方式中,没有选择类别 且搜索按完全常规的方式进行,并且以通过某些相关性测量排序的普通 未分类结果列表将搜索结果呈现给用户。
因此,在本实施例中,块"Mobilephone"直接匹配至"移动电话" 概念/节点328。本实施方式中的(偏向电信)公用本体中的"message" 块没有直接匹配至该公用本体中的任何节点/概念。然而,在对"message" 执行单词词干化从而得到"messag"之后,将其部分地映射至单独节点
334 ("messag"部分地被地映射至标注"short message service (短消息业 务)"中的单词"message")和概念/节点340 ("messag"部分地被映射至 标注"Instant Messaging Application (即时消息接发应用)"中的单词 "message ,,)。
作为匹配处理的一部分,可以采用一些技术以基于作为整体的输入 搜索查询的语境使特定匹配优先于其它匹配。可以使用(单独地或组合 地)多个不同技术以便获得这种效果。例如,本体本身可以被用于设法 确定某些可能匹配是否比其它匹配更适合。例如,在本实施例的公用本 体中,节点32S (输入查询的第一块已经和其匹配)具有一属性,BP,对 节点332的引用,节点332具有作为个体成员的节点334 (其是第二块的 两个可能映射之一)。另一方面,在节点328与340之间不存在这种链接 (第二块的另一可能匹配)。基于此,输入查询的第二块"message"到 节点334的可能映射,可以优于到节点340的可能映射(当然,这假定 Instant Messaging没有作为移动电话特征表示在公用本体中——如果应 当更新包括这种特征开始的移动电话而不是更新本体来对此进行反映, 则没有一种映射会优于其它映射)。
有助于使一种匹配优于其他匹配的另一技术可以使用关联单词列表 的数据库。这种关联单词列表可以例如利用WordNet的一些特征自动地 生成(或者预先生成然后存储,或者匆忙生成)。例如,考虑输入查询 "software in java"。这个査询将被分块成"software"和"java"。可以在 辞典中查找这两项。针对利用WordNet形成辞典的情况,第一项仅具有
一个意义,而"Java"返回3个不同意义(一个岛, 一种咖啡以及一种面 向对象的编程语言);可以生成用于每一个意义的关联单词列表(例如, 利用三个意义中的每一个的定义,同样可以根据源自针对每一个意义的 直接同义词、上位词以及下位词的定义),并接着使用该关联单词列表, 以察看第一块(即,"software")是否出现在这些列表中的任一个中(在
这种情况下,它应当仅呈现在与第三个意义相对应的关联单词列表中), 并且如果这样,则可以推断用户可能意指该项的含义。在大型通用本体 中,很可能单词Java的这三个不同意义中的每一个意义都具有其自己的 独立的节点/概念。每一个这种节点都可以明确地链接至通过辞典已知的 单词java的意义中的对应一种意义,或者另选的是,可以使用从本体内 的父系节点(或其他紧密关联节点)中的关联单词列表中寻找其它匹配 单词的处理,以将确定的意义匹配至本体中的对应节点。
如果匹配处理成功找到和本体中的节点的某些匹配,则匹配的节点 被用作搜索引擎将尝试把搜索结果放于其中的类别。由此,在本实施方 式中,将原始搜索查询(例如,"Mobile phone with message")输入到文 档定位器和排序模块25 (如上所述,其是简单的常规搜索引擎)中,结 果返回"命中"的排序列表。接着,将该排序"命中"输入到文档分类 器模块26,该文档分类器模块26使用一算法以尝试将每一个返回的文档 分类到匹配类别中的一个。在本实施方式中,分类器使用的算法简单地 包括如下内容存储与本体的每一个节点有关的关键字列表;并且搜索 每一个返回的文档以察看它是否包含列出的关键字。如果该文档至少包 含最小数量的列出关键字,则它被分类为属于相应的类别。显然,通过 例如具有某些反关键字(它们如果存在将使得文档被分类到相应的类别
的可能性更小)等,可以有更复杂的规则。而且,关键短语也可以出现 在列表中,并且也可以利用关键字或短语之间的距离(按照单词数)来 帮助进行分类等。
要注意的是,如果匹配的概念具有子概念(即,子系节点,例如, 在概念328的情况下,"移动电话"可以具有诸如"诺基亚"、"索尼爱立 信"等的子概念)。在这种情况下,如果可以将任何文档分类到父系概念
或者分类到子系概念,则由于子系文档比父系概念/节点更具体故而将该 文档分类到子系文档。
图5例示了怎样将本情况下的搜索结果在远程终端10的屏幕上呈现 给用户。如在早先的画面中一样,仍旧有文本输入框410,其中继续显示 刚输入的搜索查询并且用户可以在任何时候向其中输入新的搜索查询。
在文本输入框的下面是结果显示区510。该结果显示区被分成两个子区, 左手面板512显示多种类别(对应于公用或个人化本体中的节点)的分 级或可展开树状视图,而右手面板514显示与根据最新搜索的命中(如 分类在左手面板512中的当前突出的类别中的)相对应的URL。在任何 时候,左手面板中所示类别中的一个将被突出(如图5中通过围绕类别 "移动电话"的虚线框518),并且可以由用户在任何时候点击到左手面 板中的类别中的另一类别上来改变。在本实施方式中,如果用户点击右 手面板514中显示的URL中的一个,则通过浏览器应用打开新的窗口, 以显示与点击的URL对应的HTML内容(在另选实施方式中,可以将与 点击的URL对应的内容显示在代替新窗口的右手面板内)。
读者应当清楚,左手面板512向用户呈现与通过许多操作系统和其 它应用提供的经典目录树状结构视图类似的显示,其中,目录和子目录 按分级排列的形式排列。然而,本实施方式的左手面板中的显示具有的 一个显著差别在于,显示节点的次序以及节点展开的深度是高度可变且 可配置的。这和树沿任何特定一个分支或多个分支扩展的深度可变的标 准浏览器形成对比(通常,系统将具有针对应当怎样扩展树的一些默认 种类设置——例如,通过除包含特定选定文件或目录的分支以外将树保 持为尽可能得不扩展,或者通过记住树在相应的应用上次关闭时的准确 状态等,可能用户不考虑任何默认设置而手动地确定扩展哪个分支并且 扩展至什么程度)。然而,在任何情况下,节点的实际次序在标准的常规 浏览器中都不是可变的(并且通常是按字母表次序简单完成的)。与此相 反,在本实施方式中,节点出现在左手面板512的树状视图中的次序按 这样的方式改变,即,通常将被认为是用户目前最感兴趣的节点呈现在 面板的顶部,通常将格外被认为具有相关性更小的节点呈现在左手面板中的更低处。由于仍旧想要将父系节点相应地呈现为比它们的子系节点 更高(在本实施方式中)并且向左縮进,故而多少限制了上述方面可以 实现的程度。然而,通过将树状视图放入巻动窗格中,可以一定程度地 调解这一问题(即,通过将以上最相关节点的父系节点放置在滑动窗格 的"顶部"的当前位置,以使得看不见它们,除非用户向上巻动来察看 它们)。
在本实施方式中,使用多个策略来设法确定在左手面板中呈现节点 的最佳次序,以实现试图将最相关的节点呈现在面板的顶部处的目的。 这种方法的最重要之处在于参照如存储在用户简档库21中的相应用户的 过去行动。在本实施方式中,将这些简单地存储为三元组<用户id,类别 1,类别2>,其中用户id是所关注的用户的唯一标识符,类别1是观看
的类别(即,左手面板512中由用户选定并由此突出的类别),而类别2 是用户在观看类别1之后观看的下一个类别。将大到一定数量的这些内 容存储(采用先入先出的方式)在设置用户简档库21的数据库中。当用 户点击左手面板512中的类别时,搜索用户简档库21来寻找相应用户的 点击类别表现为类别1的所有三元组。对于不太常用的后续类别来说, 如果这些三元组中的一些示出一个类别与其它任何类别相比更经常地出 现为类别2,则试图将该类别拉到树状视图列表中尽可能髙处,等等。在 存在按照类别出现为类别2的频率纠结的情况下,出于排序的目的,最 新的三元组优于较旧的三元组。
如果用户首次突出了一类别(或者,在用户简档库21已经删除了任 何这种记录的足够长的时间内至少首次),可以将该历史简单地用作关于 用户喜欢的类别的一般引导,并且可以将这些呈现为更高次序。然而, 在另选实施方式中,首先可以针对观看当前类别的父系或祖父系等类别 并且基于针对任何这种祖先类别等的关联类别2项确定可能的嵌套类别 的任何先前历史来执行搜索。
下面,再参照图5,移动电话类别是突出518的类别,右手面板在 顶部处显示与涉及移动电话和SMS但没有专用于制造者A至D中的任 何特定一个的文档有关的URL列表,越不相关的文档(例如,通常涉及
移动电话但未引用SMS的那些文档)的URL显示在列表的逐渐越低处。 如果用户点击了专用于特定制造商的类别中的一个,则右手面板将改变 成专用于该特定制造商的URL列表,还是将越不相关的文档的URL显 示在列表的逐渐越低处。要注意的是,分类到SMS类别的URL将对应 于相当概括地讨论SMS而非特别关于任何特定类型的移动电话等的文 档。而且,要注意的是,按相关性来排序文档是通过常规文档定位器和 排序模块基于如上所述的输入搜索查询来执行的。
如上所述,根据用户的过去行动等在动态基础上自动地重构左手面 板518中的节点的排列。在本实施方式中,在自用户突出了新的类别起 经过了预定时间量之后,或者在用户点击了右手面板514中的URL之后, 完成这种重构,然而,在另选实施方式中可以使用其它触发。
如上所述,当左手面板动态地改变而不输入新的搜索查询时,在可 能的情况下,将当前类别和用户历史一起使用,以便确定左手面板512 中的类别的次序。然而,如果用户没有历史,则当触发左手面板512中 的类别的重排列时,和与本体中定义的概念对应的当前页面类别关联的 第一属性的类别(例如,移动电话概念328具有如下属性,即具有移动 电话特征,其类型为与概念"移动电话特征"332对应的"移动电话特征" 的类型)显示在当前关注的类别的正下方。要注意的是,当完成这个时, 该类别在某种意义上将出现两次,因为它可在是其属性的突出类别的正 下方获得,并且其还可以单独作为表示全部本体的用户能够差不多和普 通树状浏览器一样随意导航的树状结构的一部分。
如果历史搜索成功,则将找到的所有第二类别(按照频率和/或晚近 的顺序)显示在跟随有先前显示的分级的当前突出的类别之下。作为一 实施例,假定用户关注于"索尼产品"类别,并接着触发对左手面板的 动态重排列(例如,通过观看与该类别对应的URL),如果用户历史简档 示出在观看索尼产品类别之后他通常转至"零售商"类别,则零售商类 别将显示在索尼类别之下。在一变型例中,除了下一类别,还显示下一 类别的整个下游分级或其一部分。由此,在零售商类别具有干道商店和 在线零售商两个子类别的情况下,将这些也显示在零售商类别之下。在
代替子类别(或除了子类别以外)特定类别具有个体的情况下,可以将 这些显示在类别下面。
要注意的是,用户可能不总是希望左手面板中的树状视图动态地改 变,而在这种情况下,他可以设置一选项以使这个特征无效。此外,因
为通过搜索服务器生成新的HTML页面并将其发送给远程装置来执行重 排列,所以为了在不同排列之间导航以及如果用户希望返回至早先排列 等,他可以使用其网络浏览器上的向前按钮和向后按钮。
在一个实施方式中,代替包括表示整个本体以及任何动态地生成的 类别的所有节点(最不相关节点"折叠(collapse)"),可以仅显示相关类 别。另选的是,左手面板可以显示两个单独的树(具有单独的根节点), 其中一个是整个本体(采用折叠形式,以使你仅看到根节点),而另一个 正好包含与相应搜索查询相关的类别。
本实施方式中提供的一附加特征是该系统有时可以预见来确定怎样 最佳地在左手面板中显示节点分级。这种预见使用来自用户历史的两个 后续类别。例如,考虑其中用户搜索大学系部内的内部学生数据库的情 况。在这个数据库中,每一个学生都在其详情中包括该学生所上的课程 的详情
学生
课程课程 年年
系部提供的课程也以分级形式存储在数据库中-课程
AI课程 推理课程 演绎 反绎 信息课程 数据库 网络
如果用户的历史示出了他经常遵循学生>课程>学生的路线,则当该 用户点击左手面板的学生类别时,系统推断该用户可能对于了解如按所 上的课程分类的学生感兴趣。同样,针对学生的搜索获得下面出现在左 手面板中的显示
AI学生 推理课学生
演绎课学生
反绎课学生 信息课学生
数据库课学生
网络课学生
其中,类别学生的最恰当的属性(如根据学生的历史简档确定的) 已经根据属性的(即,课程的)关联概念(即,课程)的分级而扩展, 从而形成复合类别。
要注意的是,这个实施例还例示了本发明怎样可以应用至搜索诸如 结构化数据库(例如,关系数据库)的结构化数据源。具体地说,本发 明特别适于包括已经利用基于本体的集成装置(如在下面公布的国际专 利申请WO 02/080026; WO 02/080028; WO /02/080029;以及WO 03/0025 中描述的集成装置)集成的大量不同数据源的结构化数据源。在这种情 况下,代替将如用户输入的原始搜索查询发送到常规的基于关键字的搜 索引擎,在利用公用本体或本体集预处理输入的查询以排除不可能的结 构化查询等之后根据输入的查询生成结构化查询。上述专利申请提供了 关于怎样将自然语言查询转换成恰当的结构化査询集来接入集成的异种 数据源集的更多细节,并且由此在这个方面中通过引用并入本申请。自 然地,当利用结构化数据源时,己经按照公用本体恰当地分类了该结果, 因此不再需要这个处理。然而,利用改变呈现类别的次序的GUI的左手 面板向用户呈现信息的方式不受搜索的数据源的性质影响。
权利要求
1、一种自动地对电子文档库进行搜索的方法,该方法包括以下步骤控制用户接口以准许用户输入搜索项;利用所述搜索项执行搜索;将由所述搜索返回的文档分类到多个不同类别;以及控制所述用户接口按使特定类别的文档被分组到一起的分组方式来呈现由所述搜索返回的文档或对其的引用,其中,所述多个类别是根据所述搜索项来选定的。
2、 根据权利要求1所述的方法,其中,所述多个类别是通过将所述 搜索项与公用本体或本体集一起进行处理而选定的。
3、 根据权利要求1所述的方法,其中,所述多个类别是通过将所述 搜索项与个人化本体一起进行处理而选定的。
4、 根据权利要求3所述的方法,其中,所述个人化本体是通过针对 公用本体或本体集内的概念的特定属性或性质的允许值或值的范围设置 限制而形成的。
5、 根据权利要求2到4中的任一项所述的方法,该方法还包括如下 步骤结合所述本体或本体集中包含的分级信息利用用户先前搜索行动 的存储历史,来生成向该用户呈现的新的子类别集,其中,所述新的子 类别集是通过如下操作生成的,即,根据基础类别的引用所述本体或本 体集中另一概念的属性所引用的所述本体或本体集中的所述概念的存储 分级来扩展该属性,从而生成所述基础类别的子类别,由此,随后可以 根据选定属性的值将搜索结果分类到所述新生成的子类别中的相应子类 别。
6、 根据权利要求2到5中的任一项所述的方法,其中,所述多个类 别中的至少一个类别或一些类别是通过组合所述本体中的概念来形成复 合类别而根据所述本体动态地生成的。
7、 根据前述权利要求中的任一项所述的方法,其中,所述搜索是基 于关键字的搜索。
8、 根据权利要求1到5中的任一项所述的方法,其中,所述搜索项被转换成用于査询一个或更多个关系数据库的结构化查询。
9、 一种服务器计算机,该服务器计算机用于辅助用户利用远程装置 在存储于连接至服务器和所述远程装置二者所连接的同一数据网络的装 置上的该用户可用的文档集中进行搜索,所述服务器包括用于接收来 自远程终端的搜索项的装置;用于利用所述搜索项执行搜索的装置;用 于将由所述搜索返回的文档分类到多个不同类别的装置;以及用于向所 述远程终端返回输出数据的装置,该装置准许所述远程终端按特定类别 的文档被分组到一起的分组方式来向用户呈现由所述搜索返回的文档或 对其的引用,其中,所述多个类别是根据所述搜索项来选定的。
10、 一种计算机程序或程序组,该计算机程序或程序组用于使得在 .执行该计算机程序或程序组期间执行根据权利要求1到7中的任一项所述的方法。
11、 一种载体装置,该载体装置载带根据权利要求9所述的计算机 程序或程序组。
全文摘要
本发明涉及用于分类呈现搜索结果的方法和系统。一种自动地对电子文档库进行搜索的方法,该方法包括以下步骤控制用户接口以准许(410)用户输入搜索项;利用所述搜索项执行搜索;将由所述搜索返回的文档分类到多个不同类别;以及控制所述用户接口按使特定类别的文档或对其的引用被分组到一起的分组方式,在左手面板(512)中呈现所述多个不同类别,而在右手面板(514)中呈现由所述搜索返回的文档或对其的引用,其中,所述多个类别是根据所述搜索项来选定的。
文档编号G06F17/30GK101116072SQ200680003954
公开日2008年1月30日 申请日期2006年2月2日 优先权日2005年2月3日
发明者湛 崔, 西蒙·詹姆斯·凯斯, 贝南·阿斯文 申请人:英国电讯有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1