具有基于概念的搜索和分级的信息检索系统、方法和软件的制作方法

文档序号:6457136阅读:169来源:国知局
专利名称:具有基于概念的搜索和分级的信息检索系统、方法和软件的制作方法
技术领域
本发明的各种实施例涉及信息检索系统和相关的查询处理单 元以及方法。
背景技术
互联网及其它计算机网络的日益普及不仅推动利用率的增 加,而且推动了计算机用户间对于数字信息的需求的增加。用户 通常采用访问装置(例如计算机)与联机信息检索系统通信,以 试图访问这样的信息。信息检索系统通常包括图形用户界面,用 于输入对信息的请求(被称为查询)并将其送至远程搜索引擎。 搜索引擎识别通常以电子文件的形式存在的相关信息并向用户的 访问装置返回结果列表。本发明人认识到的 一 个问题涉及典型搜索引擎的操作,这些 搜索引擎要求查询和文档以包含匹配单词。基于至少三个理由, 这是有问题的。首先,搜索结果可能包括这样的文件,它们包含 该查询项但却是不相关的,因为用户对于该查询项有不同的含义 (或者意思),而项匹配(term matching )无法对此作出辨别。这 最终使得用户在搜索最相关文件时人工过滤不相关的结果。第二,依赖于查询项到文件项的匹配还可能因为概念上相关 的文件未包含用户输入的精确的查询项而导致搜索结果遗漏这些 文件。采用传统搜索引擎检索这些相关文件要求用户理解所给出 概念的词选项是变化的并构造出更好的查询。或者,用户可以简 单地进行检索而遗漏这些有价值的文件。第三,传统的关键字搜索引擎基于那些文件中查询项的出现 情况来对文件的相关性进行评分和分级。这意味着, 一些具有匹 配的查询项和虽然概念上相关但不匹配的项的文件可能低于期望 的分级,虽然它们实际上与给定的查询在概念上是相关的。这些错误的降等分级(lower ranking )可能迫使用户在搜索到更相关的 文件之前在相关性较弱的文件上花费力气,或者迫使其完全忽略 这些文件的其中一些。因此发明人已经认识到需要进一步改进信息检索系统处理用 户查询的方式。发明内容为满足这种和/或其它的需要,本发明人特别设计了这样的系 统、方法和软件,它们使用单词的并发概率,从而不仅识别概念 上与用户查询相关的文件,而且还对搜索结果进行评分和分级。 一个示例系统将反向文件频率(in verse-document-frequency )搜索与基于单词的并发概率的概念搜索结合以助于查找到使用给定的 查询的方式查找不到的文件。该示例系统还允许基于关键字匹配 和概念出现情况两者对搜索结果分级,促使搜索结果的组织和评 论更有效率。


图1是对应于本发明一个或多个实施例的示例信息检索系统 100的框图。图2是对应于本发明一个或多个实施例的操作系统100的示 例方法的流程图。
具体实施方式
本文件描述发明的一个或多个具体的实施例。这些提供的实施例并非用来限定本发明而只是给出本发明的示例和教导,它们 以足够详细的方式加以展示和描述以使得本领域的技术人员能够 实现或者实践本发明。因此,如果不影响本发明的清楚性,则描 述可以省略某些为本领域技术人员所知的信息。概迷本示例系统使用 一对单词之间的"翻译"概率作为识别概念 上与用户查询相关的文件的基础。"翻译"概率是一个单词可以被 译成另一个的概率。这是容易理解的,当从一种语言翻译到另一 种时一例如,法语中的" pomme (苹果)" 一皮译成英语中的 "apple (苹果)"是高概率的;而"pomme (苹杲)"被译成"sock (短袜)" 的概率接近于零。在该示例实施例中,"翻译"概率是单语的,并且可以获取单 词之间的同义及其它语义的关系。两个单词在它们的含义上越相 关,它们的翻译概率就越高。例如,"律师(lawyer)"和"法律代 理人(attorney)"是可互换的同义词,所以它们有高的翻译概率。 如另一个例子,考虑诸如"足球"、"美国国家足球联盟"、"四分 卫"、"教练"等等这些单词之间的相关性。这些不是同义词,但 是它们语义上相关并且因此具有一定的可度量的翻译概率。在该示例实施例中,翻译概率得自于单词并发数据。并发单 词对的信息被用于在统计上获取语义的(概念上的)关系。在该 示例实施例中,表示特定单词(单词X)的"概念"被处理为等 价于所有在该并发数据中与单词X并发的单词。当与单词X组对 的单词在一个文件中出现越多时,就越能证明在该文件中讨论单词X的概念的想法。当单词X是查询项时,这种证据转而导致了 较高的文件评分(不管单词X是否出现在该文件中)。采用由并发数椐得来的翻译概率允许检索算法返回包含语义 上与用户的查询项相关(例如,高翻译概率)的单词的文件。由 于这样,不要求实际的查询单词出现于作为相关结果返回的文件 中。例如,在搜索"律师"时,可以检索到不包含单词"律师" 但包含"法律代理人"、"审判"、"费用"和/或"法官"的文件作 为相关的文件。在另一个例子中,基于关键字的搜索中,查询"热咖啡"没能找到包括项"热"但省略项"咖啡"的以下文件。但是,本示 例实施例对该查询在概念上作了拓展以有效地包含所有在 一 个窗 口内统计上并发的单词,该窗口位于各个查询项的周围。这使得 能够基于示出的其它项的出现而检索到文件,这些项在统计意义 上与"热的"(加下划线)、"咖啡"(粗体)或"咖啡"和"热" 两者(粗体和加下划线)相关。查询项"热的"以双下划线示出。 原告请求精神痛苦的赔偿费,声称她现在看到人们喝鱼饮料时就会受到焦虑的侵袭。原告主张$1,785的医疗赔偿和作为从事 面部按摩的美容师的$14,000的误工费。作为证据,被告提交了一 盘显示原告正在喝j^饮料的监控录像带。侵害原告经过麦当劳的免下车店时要了两杯^^。原告声 称保拉.爱德华递给她托盘,或者"热"和"咖啡"两者(无修饰 或者粗体和加下划线)原告被泼上两杯鱼茶的左臂遭受了二级烧伤,她丢掉了托盘 并将鱼茶洒到阿莱密T^^的手臂上。尽管没有在审判时出示证据, 但是S"告声称麦当劳餐厅在雇佣和培训方面是有过失的.被告认 为原告是将^茶洒到了她自己身上。有人可能会考虑让领域内的专家以人工方式构造概念,而不 是从并发数据得到概念。以人工方式构造概念是困难的、耗时的 并且是带有主观倾向的过程。另外,针对一个领域的精心剪裁的 概念并不一定能扩展到另外一个领域。通过以统计方式,依靠并 发来获取概念,可以自动获取该领域,将主观性排除在过程之外。这种新形式的概念搜索的应用有很多。在法律领域,概念搜 索是电子信息取证(e-discovery )中的有用的工具,在那里找到所 有与案件相关的文件是重要的。通常,在用户可能不是她所搜索 的领域的专家的情况下,以及在用户不知道某些事物的技术的或 特定的术语的情况下,概念搜索是有用的。示例信息检索系统 图1示出示例性的联机信息检索系统100。系统100包括一个 或多个数据库110、 一个或多个服务器120和一个或多个访问装置 130。示例数据库数据库110包括一个或多个数据库的集合。示例的法律数据 库包括判例法数据库和法条数据库,其分别包括来自 一个或多个 本地的、州的、联邦的和/或国际司法管辖的法律意见和法条。示 例的法律数据库还包括法律分类数据库和法律评论。其它示例的数据库提供法律代理人、法官、律师事务所、产品(product)和 法人(corporate )简介。在 一些实施例中,判例法文件通过数据结 构与其它数据库中的文件或简介在逻辑上相关联。其它实施例可 以包括非法律数据库,这些数据库包括金融、科学或保健信息。 另外其它的实施例提供公共或私用数据库(诸如那些通过 INFOTRAC可用的)。 一些实施例允许互联网搜索,并且因此包 含网站和网页,以及其它实施例允许用户依照电子信息取证 (electronic discovery )来定义其自己的数据库(例如文件的数据库, 文件例如是电子邮件文件)。数据库110采取一个或多个电子、磁或光学的数据存储装置 的示例形式,包含或者关联于相应的索引(未示出)。每一个索 引包括关联于对应的文件地址、标识符和其它常规信息的项和词 组。数据库110耦合到服务器120,或者通过无线或有线通信网络 (例如,局域网络、广域网络、私有网络和虛拟私有网络)可耦合 到服务器120。示例服务器服务器120,通常典型的是一个或多个用于提供(serving)网 页或其它标记语言形式的数据的服务器,其配备相关的小应用程 序(applet) 、 Active X控件、远程调用对象或其它相关的软件和 数据结构,从而为各种"厚度"的客户端提供服务。更具体地, 服务器120包括处理器模块121、存储器模块122、订户数据库123、 初级搜索模块124、概念搜索模块125和用户界面模块126。处理器模块12]包括一个或多个本地或分布式的处理器、控 制器或虚拟机。在该示例实施例中,处理器模块121采取任何方 便或理想的形式。存储器模块122采用一个或多个电子、磁或光学的数据存储 装置的示例形式,存储了订户数据库123、初级搜索模块124、概念搜索模块125和用户界面模块126。订户数据库123包括与订户相关的数据,用于控制、执行和 管理对数据库110的付费通行(pay-as-you-go )或基于订阅的访问。 在该示例实施例中,订户数据库123包括一个或多个偏好数据结 构,其中的数据结构1231是典型的例子。数椐结构1211包含客 户或用户标识符部分1231A,其逻辑地关联于一个或多个概念搜 索或表示开j式偏好(presentation preferences ), 例如偏好1231B、 1231C和1231D。偏好1231B包括决定(governing)概念搜索是 否可以进行的默认值。偏好1231C包括决定搜索结果的表示形式 的默认值,例如,只被概念搜索检索出来的文件是否作标记或提 供在单独的标签(tab)或文件夹中。偏好1231D包括决定是否允 许或者在多大程度上允许概念搜索对搜索结果的相关计算产生影 响的默认值。(当临时用户无控制权限(override)(例如在特定 的查询或会话期间的控制权限)时,概念搜索的默认值起作用。)初级搜索模块124包括一个或多个搜索引擎和相关的用户界 面部分,用于用于接收和处理用户对一个或多个数据库110的查 询。在该示例实施例中, 一个或多个关联于搜索模块124的搜索 引擎提供布尔(Boolean) 、 tf-idf、自然语言搜索能力。概念搜索模块125包括一个或多个概念搜索引擎,用于使用 这里描述的概念搜索技术接收和处理对一个或多个数据库110的 查询。 一些实施例对通过概念搜索进行的搜索和/或访问文件进行 单独或额外的收费。具体地,概念搜索模块125包括概念搜索数 据1251和概念搜索引擎1252。概念搜索数椐1251包括一个或多个关于文件中的并发单词对 的统计数据组,以隐含地获取语义(概念上的)关系。关于并发 对的统计数据被直接用于示例的信息检索算法,因而在该示例实 施例中无需将现有的、单独的概念与现有的搜索机制相结合。更具体地,概念搜索数据1251包括来自文件的文集("全体") 的单词对的并发概率1251A和目标文件集合(数据库110 )的并 发概率1251A的索引。在该示例实施例中,并发概率1251A根据单独的源而不是目 标文件集合决定,以提高概念的稳定性,该稳定性不依赖于目标 文件集合。例如,在法律领域,该全体包括2000万件有判词提要的(headnoted)文件。尽管在示例性实施例中,由人类编辑者为 判例法文件人工定义判词提要,但是 一 些实施例可以使用机器生 成的文件摘要(machine documents summaries )、百科全书的引用 等等方式。对于示例的新领域,单个总体或文集包括900,000个文 件。(通常,目前认为用作并发数据基础的文集在文件数量上应 当比目标数椐库大。但是据推测,数量较少但是信息量更大的文 件集合(例如基于罕见单词的频度)也可以用。)单词对按照以下方式从文集中构造停用单词(stop word) 被去除,并且然后将每个单词与其两边的距离为5个单词的所有 其它单词(包括它自己)组对,每个单词生成11个单词对。在该 示例实施例中,单词对是无序的(即,X_Y=Y_X)。(但是一些 实施例可以使用有序单词对。)另外,该示例实施例将单词对中 的单词在8个字符处进行截取,为单词对数据提供了一定的平滑 (smoothing )。每一单词对关联于一个或多个频率计数。因为每个单词也与 自己组对,所以计数也为单个的项保留。使用文集中的单词对的 这些频率计数,该示例实施例确定了并发概率。具体地,这需要 进行以下最大似然估计(MLE)的计算Pmie(wl|w2)=单词对wl—w2的频率/w2_w2的频率等式(l)这些是(未平滑(unsmoothed))的概率估计,被用于语言模型 的概念搜索部分,在等式中以P(qid)示出。这些概率允许我们量化 q和d并发的可能性。对于所有D中的d (deD)求和得到在特定 文件中的项和q之间的所有的并发,其提供了在那个文件中包含q 的概念(以q表示)和与q的概念建立有并发关系的所有单词的 证据。尽管相关项(即,单词对)不一定是专家人工定义概念时 选取的单词,但是这些单词对(更广义的词是N元文法(n-grams)) 通过统计并发来隐含地获取"概念"。索引1251B基于为文集而确定的并发概率。目标文件集合(例 如,数据库110的一个或多个部分)根据P ( w|D)概率为建立索 引。为避免稀疏,使用Jelinek-Mercer平滑对整个集合平滑这些概 率,该平滑由下式决定P(w|D) = 1 Pmie(wpocument) + (1 - X) Pmie(wlCollection) 等式(2)为每个集合,按照经验设定用于平滑的希腊字母X的值,该值受 诸如集合中文件的长度和集合的大小等因素的影响。概念搜索引擎1252基于与用户查询项的概念上的关系从数椐 库110中识别文件。在该示例实施例中,这需要组合关键字搜索 和概念搜索数据1241中的并发概率和使用语言建模技术,该建模 技术用于信息检索并且根据统计机器翻译。在实现信息检索的基 于关键字的语言建模方式中,每个文件基于查询单词(q)在那个 文件(D)中出现的概率(P)进行评分P(qp)-q出现在D中 的次数除以D的长度。在该关键字模型中,根据以下等式对文件 进行评分文件分数=P(q,P) x P(q2|D) x ... x P(qn|D) -EIiP(qilD)对于Q中的所有q等式(3)其中Q表示整个查询。搜索的结果通常以得分最高排在首位的顺 序返回给用户。另一方面,在统计机器翻译的语言建模技术中, 评分基于"翻译"概率P(q|D):或文件中的单词可以被解释成该 查询单词的概率。但是,代之以逐字"翻译,,文件中的单词,该 示例实施例使用单词对并发概率作为概念上的接近程度的量度, 以作目标更广的翻译。将这两种方式组合为新的混合模型,该示例实施例根据下式 为文件评分文件分数-ITi[^ P(q"D) + X2&P(q掩)P(dk|D)
等式(4) 其中P(q|D)=ni P(qilD)表示信息检索的基于关键字的语言模型P(QP) = IIi Sk P(qi|dk) P(4|D) 等式(5)表示Berger & Lafferty的(1999)翻译语言才莫型;并且^和人2表示两个搜索部分 的权重因子。该示例实施例赋予关键字和概念搜索部分同样的权重0.5。但是通过改变、和X2的值(在^+X2=1的约束条件下),任一部分可以被给予更大的权重。总的来说,该示例概念搜索将关键字搜索和并发概率组合, 将与用户的查询既是关键字相关又是概念相关的文件检索考虑进来。在该方式中,可以理解的是并发对的使用扩大了检索结果范围(recall),使得所有相关 文件中有更多的相关文件被检索到;基于关键字的语言建模的使用具有高精确度;并且该模型具有灵活性,这是因为它允许以不同的方式对其各个 部分"赋予权重",从而最大化检索结果范围和精确度。一些实施例加大了查询的依赖性,认识到查询本身表示用户 正在搜索的概念。具体地,该方式的一个实施例使用单词对建立 查询单词之间依赖性的^f莫型,从而获取概念的信息。因此,代之 以将查询分成单个查询项,该示例实施例将该查询表示成包含在 其内的所有可能的单词对。例如,查询"大的红色气球"产生以 下查询单词对大的—大的、红色一红色、气球一气球、大的—红色、 大的—气球、红色—气球。对于这些单词对,文;分数由下式定义文件分数=11 [M P(ql—q2|D) + U [[P(ql |d) + P(q2|d)] P(d|D)]]等式(6)其中P(ql|d) + P(q2ld)只有在P(ql ld)和P(q2ld)都不为零的情况下才估 算。因为该示例实施例缺少给定文件项下的双项对(bitermpair) 的概率P(wl—w2|d),因此它通过下列方式粗略地(on the fly)地取 这些概率的近似值使评分等式的概念搜索部分依赖于双项中的 两个单词相对于该文件项的并发相无率。对于查询单词双项ql一q2,该示例实施例将P(qlld)和P(q2ld)的并发概率相加,然后乘以每个文 件项在P(ql ld)和P(q2ld)都存在时的P(d|D)。如果P(ql ld)或P(q2ld)不 存在,那么P(qlld) + P(q2id)被设置为i于零。对于 一元(unigram ) 概念搜索语言模型,X!和、两者被设置成0.5,因此该关键字和概 念搜索部分被赋予相等的权重。一些实施例使用等式(4)或(6)的修正形式,这些修正形式使用另一种类型的相关性指示器来代替或补充概念部分。例如, 一个这样的实施例加入了相关性因子,其基于文件的使用习惯的 统计数据。该统计数据可基于该文件的打印、电子邮件或点击率,以用于类似的查询;用户对该文件的评述或分级日期(rating date); 和/或该文件的引用情况的统计数据。这些因子可以由X因子赋予权 重,其约束条件是这些入因子的总和为1。用户界面模块126包括机器可读和/或可执行指令集,用于在 一个或多个访问装置(例如访问装置130)上完全或部分地定义位 于无线或有线通信网络之上的基于网络(web-based)的用户界面, 例如搜索界面1261和结果界面1262。示例的访问装置访问装置130通常典型的是一个或多个访问装置。在该示例 实施例中,访问装置130采用的形式有个人计算机、工作站、个 人数字助理、移动电话或能够向服务器或数据库提供有效的用户 界面的任何其它装置。具体地,访问装置130包括处理器模块131 (一个或多个处理器(或处理电路)131)、存储器132、显示器 133、键盘134和图形指针或选择器135。处理器模块131包括一个或多个处理器、处理电路或控制器。 在该示例实施例中,处理器模块131取任何方便或期望的形式。 存储器132耦合到处理器模块131。存储器132存储操作系统136、浏览器137和图形用户界面 (GUI) 138的代码(机器可读或可执行指令)。在该示例实施例 中,操作系统136采用Microsoft Windows操作系统版本的形式, 并且浏览器137采用Microsoft Internet Exploer版本的形式。操作 系统136和浏览器137不仅从键盘134和选择器135接收输入, 而且还支持在显示器133上提供GUI 138。在提供之后,GUI 138 示出与一个或多个交互控制特征(或用户界面元素)关联的数据。 (该示例实施例使用来自服务器120的小应用程序(applets)或其 它编程对象(programmatic object)或结构来定义界面138的一个 或多个部分,以实现上面示出的或在本说明其它地方描述的界面)在该示例实施例中,这些控制特征的每一个采用超链接或其 它浏览器可兼容的命令输入的形式,并且提供对查询区域1381和搜索结果区域1382的接入和对查询区域1381和搜索结果区域 1382的控制。区域1382中的控制特征用户选择(尤其是文本查询 到输入区域1381A的输入和通过提交按钮1381B的驱动到服务器 120的查询的提交),使得在结果区域1382显示搜索结果列表 1382A。从列表1382A选择列出的文件,致使了界面138区域中 的对应文件的至少一部分的检索和显示(该图中未示出)。尽管 图1同时地示出了区域1381和1382,但是一些实施例在单独的时 间示出它们。以下描迷界面的其他功能的方面。示例操作方法图2示出操作例如系统100的系统的一个或多个示例方法的 流程图200。流程图200包括块210-240,其在该示例实施例中的 一系列执行序列中被安排和描述。但是,其他实施例使用多处理 器或类处理器装置或组织成两个或多个虚拟机或子处理器的但处 理器并行执行两个或多个块。其他实施例也改变处理序列或提供 不同的功能划分以达到类似的结果。例如, 一些实施例可以改变 客户端-服务器功能的分配,使得在服务器端示出和描述的功能在 客户端全部或部分地被实现,反之亦然。另外,还有其他实施例 将块实现为两个或多个互连的硬件模块,使相关的控制和数据信 号在这些模块之间和通过这些;^莫块进行通信。因此,该示例处理 流程应用于软件、硬件和固件的实现。在块210中,该方法以接收来自用户的查询开始。在该示例 实施例中,这需要用户使用接入装置130中的浏览器能力以接入 在线信息检索系统100,具体地,使用常规登录过程接入服务器 120。 一旦登录,例如界面138的用户界面被显示,使能用户定义 和提交查询到服务器120。执行进行到块220。块220需要使用在常规关键字或自然语言搜索引擎中的接收 的查询定义来自文件集的一个或多个文件的分级的结果集。在该 实施例中,这需要搜索数据库IIO,例如法律、科学或者专利数据 库,使用tf-idf-type搜索引擎基于与接收的查询的关系来识别和分 级文件集。然后执行进行到块230。块230需要基于与接收的查询的概念或语义的关系修改该结 果集。在第一实施例中,这需要单独地基于接收的查询的所有或一个或多个部分的概念上的关系识别文件集。这需要将该查询解析成所有可能的n元的集合,例如单元(one-grams )或双元(bigrams (biterms))并且使用这些n元来识别具有充分高的概率包括与查 询中的项并发的项的文件集。在该实施例中,双项中的每个项扭二 截至8个字符。然后这些识别的文件与分级的结果集结合到一起 以定义修改的结果集。然后该修改的结果集根据是否使用单个查 询项或查询项双项按照等式(4)或等式(6)进行打分和重新分 级,在第二实施例中,没有进行基于概念或语义关系的进一步搜 索并且结果集筒单地根据等式(4)或等式(6)进行打分和重新 分级。 一些实施例可以从第三方简单地接收查询和结果集并且使 用等式(2)和/或(5)重新将它们分级。然后执行进行到块240。在块240中,修改的搜索结果被呈现给用户。在该示例实施 例中,这需要在关联于用户的显示器(例如,系统100中的接入 装置130的显示器)上定义和显示超链接的列表。在一些实施例 中,文件仅仅基于概念搜索被识别,即,缺乏任何该查询项的文 件通过字体差异和/或邻近符号被标记以突出概念搜索在改进相关 文件的取回上的价值。其他实施例还可以为包括匹配关健字和概 念两者的文件提供标记或者指示相关性作为提升改进的取回的方 法。还有其他实施例可以呈现带有控制特性的列表,其允许将基 于匹配关键字所找到的文件与仅仅基于关键字搜索所找到的文件 分离,例如通过提供分割文件夹或标签。另一实施例允许用户选 择性地调用阻挡或标记潜在的不相关的文件的控制特性,即,具 有低概率在字面上与该查询概念上相关的文件,即使它们字面上 满足了查询的项。这些文件被识别的基础是缺少项以足够高的概 率与査询项统计上并发。结论以上描述的所述仅仅用于阐释和教导一种或多种实践或实现 本发明的方法,而不是限制它的宽度和范围。本发明的包括了该 发明的教导的实践或实现的所有的方法的实际范围仅由所发布的 权利要求及它们的等同物定义。
权利要求
1、一种系统,包括目标文件集;以及装置,用于基于用户的查询来搜索目标文件集的一个或多个文件并将所述一个或多个文件识别为结果文件,所述用于搜索和识别的装置包括用于基于单词并发概率的集合来识别一个或多个第一文件的装置,其中所述单词并发概率的集合从不同于所述目标文件集的文件集得到。
2、 如权利要求l所述的系统,其中所述用于搜索和识别目标 丈件集的一个或多个文件的装置包括用于将基于反向文件频率 信息的一个或多个第二文件识别为结果文件的装置和用于基于所 述反向文件频率信息和所述单词并发概率的集合来分级结果文件 的装置。
3、 如权利要求l所述的系统,其中所述目标文件集包括判例 法文件。
4、 如权利要求l所述的系统,其中所述目标文件集包括公司 电子邮件。
5、 一种处理查询的方法,包括使用反向文件频率类型的第一搜索引擎,基于所述查询来识 別和分级第一文件集;基于从不同于所述笫一集的第二文件集得到的单词并发概 率,对包括所述第一文件集的文件的结果集的相关性进行分级; 以及以相关性的分级顺序显示文件的结果集的至少 一 部分的列表。
6、 如权利要求5所述的方法,其中文件的结果集包括基于单 词并发概率识别的文件。
7、 一种方法,包括响应于查询,提供由搜索引擎识别的经过分级的搜索结果文 件的集合;基于单词并发概率来调整经过分级的搜索结果文件的集合中 的一个或多个文件的分级;以及调整后的经过分级的搜索结果文件的集合。
8、如权利要求7所述的方法,其中所述搜索引擎是反向文件 频率类型搜索引擎。
全文摘要
为改进传统的基于关键字的搜索引擎,本发明人特别设计了系统、方法和软件,它们使用单词的并发概率,不仅识别概念上与用户查询相关的文件而且还对搜索结果进行评分和分级。一个示例系统将反向文件频率(inverse-document-frequency)搜索与基于单词的并发概率的概念搜索结合以促进文件的查找,这些文件使用给定的查询时不会被找到的。该示例系统还允许基于关键字匹配和概念的出现两者对搜索结果进行分级,促进了对搜索结果的更有效率的组织和评论。
文档编号G06F17/30GK101622618SQ200780051927
公开日2010年1月6日 申请日期2007年12月27日 优先权日2006年12月29日
发明者K·阿尔-科法希, T·库斯蒂斯 申请人:汤姆森路透社全球资源公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1