文档搜索系统的制作方法

文档序号:6593980阅读:190来源:国知局
专利名称:文档搜索系统的制作方法
技术领域
本发明涉及文档搜索系统,并且例如涉及用于辅助从海量文档DB中检索感兴趣 的文档的文档搜索系统。
背景技术
搜索技术是经常运用的强大手段,在这些搜索技术中,通过输入搜索关键词来进 行搜索以试图从因特网、内部网或者文件服务器上积累的海量文档DB中找到感兴趣的文 档。经常进行因特网搜索以收集关于某个主题的以往发现和有关信息,针对该主题尚未预 先确定感兴趣的特别文档。因此,用户猜测可能返回她/他想要的文档的搜索关键词,并且 在安排输入它们的方式时重复地进行搜索以找到有用信息。另一方面,对于内部网、文件服 务器上或者客户端PC内的搜索,经常预先知道存在目标文档,并且用户通过给出用于找到 它的关键词来执行搜索。例如,如果希望查阅一年前向公司A发送的提案文档,则给出“公 司A”、提案内容、文档的发送者等作为关键词来进行搜索。如今,在公司的审计处理中经常进行公司服务器中的文档搜索。在这种情况下,诸 如审计员、内部审计部门等被审计部门以外的人员或者由这样的外部人员指示或表明的内 部人员针对相关文档执行搜索。换句话说,实际执行搜索的人经常并非相关文档的创建者, 因此不会立即知道什么种类的文档在文件服务器上位于何处。另外,如果有多个相关文档, 则鉴于审计的性质将要求无遗漏地找到它们。附带提一点,在常用的搜索系统中,可能输入一个搜索关键词或者多个搜索关键 词并且可能包括逻辑运算,比如文档包含所有这样的关键词(逻辑乘积或者AND搜索)、包 含它们中的任一个(逻辑和或者OR搜索)、不含它们中的任一个(取非或者NOT搜索)等。 因而可能使其更接近用户希望得到的目标文档组。此外,许多搜索系统支持基于逻辑运算 组合(例如包含关键词C和A或B)的高级搜索。另外,关于显示返回的搜索结果的列表, 也有除了文件名称(或者网页标题)之外并且在两至三行中还显示如下文字的搜索系统, 该文字包括先于和跟随搜索关键词的内容。然而,当使用这样的搜索技术来实际检索有关文档时出现若干问题。例如,假设审 计员试图检索预算文档,则考虑如下情况,其中在搜索系统上指定关键词“预算”来进行搜 索。这里,如果在审计员希望查阅的文档中未使用关键词“预算”,而代之以在其中使用比如 “预算/运作图表(budg. /act. figures) ”或者“商业计划”这样的字词,则搜索不会返回它 /它们。换句话说,在搜索时,有可能不能提出这样用于“预算”的同义词或者涵盖“预算” 概念的字词,则将遗漏一些信息。另一方面,假设确实考虑了关键词“预算/运作图表”和 “商业计划”并且拓宽搜索目标范围以包含“预算”、“预算/运作图表”和“商业计划”中的 任一个,如果呈现数以千计或者数以万计的搜索结果作为结果,则可能包括许多用户并不 感兴趣的文档,并且让他/她遍历所有结果并不实际。也有如下可能性审计员希望查阅的 文档未使用关键词“预算”、“预算/运作图表”和“商业计划”中的任何一个。换句话说,即 使对于有关文档的检索无(或者很少)遗漏,如果在搜索中返回太多文档,则通过在某种程度上缩减搜索来将它控制至合理数目也是现实的。反言之,如果在搜索中未返回文档或者 返回太少文档,则有必要通过建议可能与用户输入的搜索关键词关联的关键词来拓宽搜索 可能性。关于这样选择搜索关键词的方法,迄今已经研究各种技术和方法,这些搜索关键 词可获得主要包括感兴趣的内容的合理搜索命中计数。例如,在专利文献1中,为了包括更 多感兴趣的内容,通过向搜索关键词分配属性来克服当如在“气候”和“天气”中那样具有 相同含义的关键词不同时不能搜索的传统问题。此外,在专利文献2中,提供如下装置,该 装置查阅与操作者输入的搜索关键词有关的词典、考虑关键词的对象和更广义概念或者更 狭义概念并且自动生成操作者隐含地打算的查询。对于生成会获得合理命中计数的查询, 专利文献3和专利文献4提出如下方案重复搜索关键词的添加、删除、同义词扩展等,由此 相继地显示由相应的查询获得的命中计数。这些方案不仅显示查询,而且针对查询中包含 的每个搜索关键词显示搜索结果中有多少命中。此外,专利文献5提出如下方案当选择将 针对其搜索有关文档的文档时,自动生成在被动态更改时会获得与预定义参考命中数目最 接近的命中计数的查询。专利文献1 日本专利公开(Kokai)号6_187374A(1994)专利文献2 日本专利公开(Kokai)号5-25041IA (1993)专利文献3 日本专利公开(Kokai)号5-314182A (1993)专利文献4 日本专利公开(Kokai)号11_15841A(1999)专利文献5 日本专利公开(Kokai)号2005-100136A专利文献6 日本专利公开(Kokai)号2006-12078A

发明内容
本发明所要解决的问题然而,就专利文献1至专利文献4的技术而言,由于在查阅搜索命中计数时以及基 于用户输入的搜索关键词和逻辑运算生成了适当查询,所以尽管它们在用户具有清楚的搜 索意图以及关于将通过查询而获得的搜索结果预先具有立体影像的情况下有效,但是它们 不能解决未清楚定义待搜索的目标的情况或者她/他不能提出表示她/他希望搜索的内容 的适当关键词的情况。例如,在审计中,如果需要关于人力资源开发的活动报告,则将难以 猜测应当用什么种类的搜索关键词进行搜索。在这一情况下,将难以使用搜索关键词“人力 资源开发”来找到寻求的内容,而代之以“教育”或者“在岗培训”可能更可取。对于这样的 模糊目标,由于具体关键词未知,所以难以用传统技术来检索有关文档。此外,就专利文献3和4而言,虽然在创建查询的过程中产生针对搜索关键词的建 议(比如替换为同义词等)以让用户更容易缩减目标,但是仍然不可能具体知道这样的候 选关键词之间的关系。例如,在专利文献3中示出在包含关键词“信息”(在专利文献3中 记为“ joho”)的20,568篇文档中有包含“搜索”的9,321篇文档和包含“介质”的7,566 篇文档。然而,在使用这一方案时,在执行搜索之前不能知道例如在包含“搜索”的文档集 合与包含“介质”的文档集合之间有多少重叠。为了知道这一点,必须通过针对“信息”、“搜 索”和“介质”进行AND搜索来发现命中计数。图1示出使用专利文献3来检查这些关键词之间的关系的情况的例子。如果在针对“信息AND搜索”和“介质”的AND搜索中有针对“介质”的7,566个命中,则能够断定当 使用“介质”时总是使用“信息”和“搜索”。换句话说,能够断定“介质”和“信息或搜索”是 具有类似印象的概念。反言之,如果有0个命中,则能够断定“介质”和“搜索”是用于冲突 概念的关键词。由于不知道这样的相互关系,所以通常有必要在缩减搜索目标时重复地添 加或者删除搜索关键词。利用传统技术无法预先知道这样的定量发现(有多少命中)和定 性发现(存在什么种类的关键词的文档组和有什么种类的趋势)。此外,就专利文献5而言,虽然可以用接近预定义的命中计数的方式自动构造查 询,但是用户无法一开始就知道什么可以视为从命中总计数缩减至的合理数目。例如,可以 指定100作为待查阅的有关文档的数目,但是那些文档中的仅10篇文档在一些情况下对 于用户而言可能就足够了,而在其他情况下有关文档中除非有300篇才可能视为被完全覆盖。本发明是鉴于上述问题而作出的,并且提供一种能够在使用搜索系统来检索有关 文档时有效和直观地检索想要的文档的文档搜索系统。用于解决问题的手段本发明的一种文档搜索系统与搜索结果列表的显示一起呈现新查询候选和用该 查询返回的命中计数。换句话说,本发明的一种文档搜索系统基于搜索关键词从其中积累待搜索的文档 的文档DB之中找到包含搜索关键词的文档,该文档搜索系统包括有关字词字典,其中收 集搜索关键词的有关字词;有关字词查询生成处理部分,被配置成从有关字词字典中提取 在已经输入的第一查询中包含的搜索关键词的有关字词并使用有关字词生成作为新查询 的第二查询;搜索执行部分,被配置成计算针对用第一查询返回的搜索结果的命中计数与 针对用第二查询返回的搜索结果的命中计数之间的增加/减少;以及搜索结果显示处理部 分,被配置成在显示部分上同时显示第一查询、用第一查询返回的搜索结果、针对所述搜索 结果的命中计数、第二查询、针对用第二查询返回的搜索结果的命中计数、以及所述增加/ 减少。在上述情况下,该文档搜索系统还可以包括维恩图绘制处理部分,被配置成在显 示部分上以及在维恩图中显示用第一查询返回的搜索结果与用第二查询返回的搜索结果 之间的相互关系。此外,根据本发明的一种文档搜索系统基于搜索关键词从其中积累将作为搜索目 标的文档的文档DB之中找到包含搜索关键词的文档,该文档搜索系统包括关联关键词查 询生成处理部分,被配置成使用在针对已经输入的第一查询的搜索结果中频繁出现的频繁 出现关键词来生成作为新查询的第二查询;搜索执行部分,被配置成计算针对用第一查询 返回的搜索结果的命中计数与针对用第二查询返回的搜索结果的命中计数之间的增加/ 减少;以及搜索结果显示处理部分,被配置成在显示部分上同时显示第一查询;用第一查 询返回的搜索结果;针对所述搜索结果的命中计数;第二查询;针对用第二查询返回的搜 索结果的命中计数;以及所述增加/减少。在上述情况下,该文档搜索系统还可以包括维恩图绘制处理部分,被配置成在显 示部分上以及在维恩图中显示用第一查询返回的搜索结果与用第二查询返回的搜索结果 之间的相互关系。
此外,本发明的一种文档搜索系统基于搜索关键词从其中积累将作为搜索目标的 文档的文档DB之中找到包含搜索关键词的文档,该文档搜索系统包括部分查询生成处理 部分,被配置成通过省略在已经输入的第一查询中包含的多个搜索关键词的部分来生成作 为新查询的第二查询;搜索执行部分,被配置成计算针对用第一查询返回的搜索结果的命 中计数与针对用第二查询返回的搜索结果的命中计数之间的增加/减少;以及搜索结果显 示处理部分,被配置成在显示部分上同时显示第一查询;用第一查询返回的搜索结果;针 对所述搜索结果的命中计数;第二查询;针对用第二查询返回的搜索结果的命中计数;以 及所述增加/减少。在上述情况下,该文档搜索系统还可以包括维恩图绘制处理部分,被配置成在显 示部分上以及在维恩图中显示用第一查询返回的搜索结果与用第二查询返回的搜索结果 之间的相互关系。另外,在上述文档搜索系统中,如果搜索执行部分确定在用第二查询返回的搜索 结果中包含与用第一查询返回的搜索结果不同的新搜索结果,则搜索结果显示处理部分在 显示用第二查询返回的搜索结果时在显示部分上着重显示新搜索结果。本发明的效果根据本发明的一种搜索系统,在检索有关文档时,通过与显示搜索结果列表一起 呈现用于下一查询的候选和用该查询返回的命中计数,用户能够有效和直观地检索想要的 文档。


图1是示出搜索关键词之间关系的图;图2是根据本发明实施例的搜索系统的示意图;图3是有关字词字典的数据结构的一个例子;图4是示出本发明的处理流程的流程图;图5是本发明的搜索系统的初始屏幕的例子;图6是呈现搜索结果列表和使用有关字词的查询候选列表的显示的屏幕的例子。图7是呈现搜索结果列表和使用搜索结果中的频繁出现关键词的查询候选列表 的显示的屏幕的例子;图8是呈现搜索结果列表和通过省略搜索关键词而创建的查询候选列表的显示 的屏幕的例子。
具体实施例方式下文参照附图描述根据本发明实施例的一种文档搜索系统。应注意本实施例仅为 用于实现本发明的例子而不以任何方式限制本发明的技术范围。<文档搜索系统配置>图2是示意性地示出作为本发明实施例而构建的文档搜索系统的内部结构的配 置图。这一系统包括文档DB 201,其中积累待搜索的文档;文档索引202,其中积累文档的 索引信息;有关字词字典203,其中收集有关字词之间的关系;显示设备204,用于显示搜索 结果、查询候选等;键盘205和诸如鼠标等指示设备206,用于输入搜索关键词以及进行诸
7如从菜单中选择等操作;中央处理单元207,被配置成进行必要算法处理、控制处理等;以 及存储器214,用于暂时存储搜索结果。这里,如在因特网上的网络文档全集中一样,文档 DB 201也覆盖其实例位于网络上的文档。另外,文档DB 201还覆盖其作为DB的实例并非 物理上为单数而代之以复数的情况。文档索引202用于根据输入的查询来快速找到想要的 文档,并且其具体形式包括词素与文档DB 201内的实际文档之间的关联(在基于词素分析 的搜索算法的情况下)和N个字符的字符串与文档DB 201内的实际文档之间的关联(在 基于N-gram的搜索算法的情况下)。在执行搜索时,使用文档索引202来找到与查询匹配 的文档,并且针对搜索结果在显示屏幕上进行与实际文档的关联。文档DB 201、文档索引 202和有关字词字典203可以存在于本地PC内以及网络上。〈中央处理单元配置〉中央处理单元207包括搜索执行部分208,被配置成根据输入的查询使用文档索 引202来执行搜索;搜索结果显示处理部分209,被配置成显示搜索结果立标和用于调节搜 索目标的查询候选;有关字词查询生成处理部分210,被配置成使用查询中包含的关键词 的有关字词来生成查询;关联关键词查询生成处理部分211,被配置成使用搜索结果中的 文档组中频繁包含的字词来生成查询;部分查询生成处理部分212,被配置成如果查询包 括多个关键词则通过省略一个或者多个关键词来重新生成查询;以及维恩图绘制处理部分 213,被配置成在维恩图中显示搜索结果之间的关系。另外,可以通过存储于诸如CD-ROM、 DVD-ROM、M0、软盘(注册商标)、USB存储器等记录介质上来提供上述处理部分和执行部分 以及在上述处理部分和执行部分中使用的程序、数据等。<有关字词字典配置>图3是有关字词字典203中包含的数据的例子。所述数据包括成对的关键词301 和有关字词302,有关字词302中聚集与关键词有关的术语。假设根据搜索系统的目标来定 义有关字词。通常,这些有关字词可包括同义词(比如用于在303所示的关键词“文章”的 “文档”)以及全称或者缩略词(比如用于在304所示的关键词“第1设计分部”的“ABC商 业部第1设计分部”或者“分部1,,)。其他有关字词包括年份的不同符号表示(比如用于 在305所示的关键词“2007年”的“Heisei 19”或者“H19”)、符号表示变化(比如在306 所示的打字错误或拼写错误,用于关键词“中心(center)”的“中心(centre)”)等等。另 外,还包括并非同义、但是强有关的字词(比如用于在307所示的关键词“人力资源开发”的 “教育”、“在岗培训”和“离岗培训”)以及具有相互包括关系的字词(更广义/更狭义概念 的字词)(比如用于在308所示的关键词“东京”的“Kanto地区”,以及用于在309所示的 关键词“肉类”的“牛肉”、“猪肉”、“鸡肉”等)。使用因特网上的词典作为这一有关字词字 典的实施例也是可能的。<文档搜索过程>接下来,参照图4描述在以上述方式配置的本实施例的文档搜索系统中进行的处 理。图4是示意性地示出文档搜索系统的处理流程的流程图。在步骤401中,搜索执行部分208接受用户选择的查询生成方法。查询生成方法 是指本搜索系统用以生成“用于根据搜索结果进一步缩减(或者更改)搜索目标的查询候 选”的方法,并且根据基于什么种类的信息来生成它,有以下三种方法。第一种是使用关于 有关字词的信息来生成查询的方法;第二种是使用在搜索结果中的文档组之中频繁出现的
8关键词来生成查询的方法;而第三种是通过省略查询中的部分关键词来重新生成查询的方 法。后文将参照图5提供对在用户选择查询生成方法时用作接口的屏幕显示的描述。在步骤402中,搜索执行部分208根据用户输入到本系统中的查询S使用文档索 引202来执行搜索。在这一点,如果必要则可以在执行搜索之前进行预处理,比如分词、删 除虚词等,在分词过程中,使用词素分析在查询S中包含的字词之间插入空格。另外,如果 用英文编写查询S,则进行诸如删除介词和连词等预处理。在下面的步骤403-407中,针对 上文讨论的三种查询生成方法的每种情况说明如何生成用于缩减(或者更改)搜索目标的 新查询R的候选。在步骤403和404中,如果搜索执行部分208在步骤401中接受使用有关字词来 生成查询的方法,则有关字词查询生成处理部分210通过查阅有关字词字典203针对在步 骤402中输入的查询S中包含的每个搜索关键词检查是否有有关字词。如果有有关字词, 则通过用逻辑运算符(AND或者OR)级联关键词及其有关字词来重新生成查询R。例如,如 果查询S为“X AND Y”,并且有作为关键词X的有关字词的Z,则查询R可为“(X AND Ζ) AND Y”、“(X OR Ζ) AND Y”和“Ζ AND Y”。可替选地,如果在查询S中包含的关键词仅为“X”,并 且有作为关键词X的有关字词的Z,则查询R可为“Z”、“X AND Ζ”和“X OR Ζ”。通过这样 合并逻辑运算来列举用于所有情况的查询R。如果无有关字词,或者如果有有关字词、但是 在查询中包含该有关字词(例如,如果查询S为“X AND Y”,而Y为关键词X的有关字词), 则不进行任何操作,因为不能生成基于有关字词的查询R。在步骤405和406中,如果搜索执行部分208在步骤401中接受用于使用在搜索 结果中的文档组之中出现的频繁出现关键词来生成查询的方法,则关联关键词查询生成处 理部分211提取在步骤402中执行的搜索的结果中的文档组之中频繁出现的关键词。如果 在这一点提取的频繁出现关键词之中有在查询S中包含的关键词,则将其省略。使用从搜 索结果中的文档组之中提取的特征关键词的搜索称为“关联搜索”并且也运用于本实施例 中。例如,正如在专利文献6中运用的关联搜索技术一样,在本发明中,使用文档索引202 来提取在搜索结果中的文档之中使用的特征关键词,并且用它进行搜索。关联关键词查询 生成处理部分211通过使用逻辑运算符级联通过关联搜索提取的关键词与查询S来重新生 成查询R。如果有许多频繁出现关键词,则也可想到将根据其出现频率而选择的特定数目的 靠前关键词与查询S级联的使用。在步骤407中,如果搜索执行部分208在步骤401中接受用于通过省略关键词来 生成查询的方法,则部分查询生成处理部分212生成如下形式的查询R,其中省略查询S中 包含的多个关键词中的一些关键词。这里,作为待省略的关键词,覆盖出现于查询S中的所 有关键词之间的所有组合。以使得由于省略了省略关键词,所以查询R的搜索条件会获得 比用查询S的搜索条件更广的搜索范围(搜索命中计数增加)的方式配置查询R。具体而 言,如果用AND和OR连接关键词,则省略AND和关键词,而如果仅用AND (或者仅用OR)连 接关键词,则省略AND (或者OR)和关键词。例如,如果查询S为“X AND Y OR Z”,则查询 R可为“Y OR Z”(其中省略了 X)、“X OR Ζ”(其中省略了 Y)、“X ANDY”(其中省略了 Ζ)、 “X”(其中省略了 Y和Z)、“Y”(其中省略了 X和Z)和“Ζ”(其中省略了 X和Y)。如果查 询S仅包含一个关键词,则不进行任何操作,因为不能生成查询R。如果搜索执行部分208在上文提到的步骤404、406或者407中确定不能生成查询R,则处理从步骤408继续步骤409。在步骤409中,搜索结果显示处理部分209显示在步骤 402中执行的搜索的结果。随后,处理继续将在后文描述的步骤416。另一方面,如果有关字词查询生成处理部分210、关联关键词查询生成处理部分 211或者部分查询生成处理部分212在上文提到的步骤404、406或者407中生成查询R,则 处理从步骤408继续步骤410。在步骤410中,搜索执行部分208根据该查询R来执行搜 索。在步骤411中,搜索执行部分208计算针对查询R的命中计数以及在比较针对查 询R的命中计数与针对查询S的命中计数时的增加/减少。在步骤412中,基于上述信息,搜索结果显示处理部分209显示针对查询S的搜索 结果、查询R以及用该查询返回的命中计数、和在比较针对查询R的命中计数与针对查询 S的命中计数时的增加/减少。在以列表显示针对查询S的搜索结果时,以文档的重要性 为序来显示它们。对于用于确定这一显示顺序的算法,已知有TF-IDF,该算法以文档和查 询作为包括术语全集的矢量并基于矢量之间的相似度来进行确定;页面排行(PageRank), 该算法使用网页的链接结构来测量流行度;主题特有流行度和命中(Subject-Specific Popularity and HITS),这些算法是上述页面排行的改进;块级链接分析(Block-level Link Analysis),该算法基于页面内的有意义块之间的链接而不是页面之间的链接结构来 计算重要性;基于视觉的分页算法(Vision-based Page Segmentation Algorithm),该算 法考虑重要内容在页面内的位置;等等。在步骤413中,维恩图绘制处理部分213借助于维恩图来示出用查询R返回的搜 索结果之间的关系。在维恩图中,示出反映命中计数的分区区域,并且在每个分区中显示搜 索结果的数目。显示维恩图的方法可以根据搜索执行部分208在步骤401中接受哪种查询 生成方法来分类成以下三种。(1)如果接受使用有关字词来生成查询的查询生成方法,则以 使得可以理解每个有关字词的搜索结果的差异的方式进行绘制。具体而言,如果查询S包 含具有有关字词的搜索关键词,则在图中示出针对其中已经从查询S中省略搜索关键词的 查询的搜索结果集合、针对搜索关键词的搜索结果集合和针对搜索关键词的有关字词的搜 索结果集合之间的相互关系。例如,如果查询S为“K AND X AND Y”、具有有关字词的搜索 关键词为“K”,有关字词为“K' ”,则通过维恩图示出针对查询“XAND Y”、“K”和“K' ”的搜索结果之间的关系。另外,如果查询S包括单个关键词 “K”且有用于关键词“K”的有关字词“K' ”,则{针对在从查询S中省略搜索关键词时的搜 索结果}将是不可定义的。在这一情况下,在维恩图中示出在关键词“K”与“K' ”之间的 关系。(2)如果接受使用在搜索结果中的文档组中出现的频繁出现关键词来生成查询的 查询生成方法,则以使得可以理解使用频繁出现关键词的搜索会如何影响搜索结果(可以 如何缩减搜索目标)的方式进行绘制。具体而言,示出针对查询S的搜索结果集合与针对 在用频繁出现关键词进行搜索时的搜索结果集合之间的关系。(3)如果接受通过省略查询中的部分关键词来生成查询的查询生成方法,则示出 原查询s与其中已经省略查询S中的部分关键词的查询R之间的关系。此外,当Al.....An为有限集时,通过组合以下容斥原理[等式1]「00621 Ckl= - ΣΙ為 η ΣΙ 々门Aj η 々卜·. ^A1 η 々‘.η 41与德摩根定律:[等式2]
NN
m i=\=有可能递归地计算每个分区中的搜索结果的数目。这里,令|A|表示集合A的元素数目(基数),A U B表示“A OR B”,A Π B表示 "AAND B”,并且[等式3]2表示‘‘NOT A”。此外,一般而言,维恩图经常表示三个类别之间的关系。然而,无论该关系涉及 到的类别数目如何,维恩图都能够表示(参阅=Frank Ruskey, Carla D. Savage, and Stan Wagon, "The Search for Simple Symmetric Venn Diagrams,,,Notices of the AMS 53(11) :1304-1311) 0然而,由于该图在表示大量类别之间的关系时变得复杂,所以也可想 到如下使用模式,其中例如如后文描述的图6中所示,根据用户对显示项目的选择来表示 类别之间的关系等等。在步骤414和415中,如果已经看见在步骤412中显示的查询R的用户请求显示 使用该查询R的搜索结果,则搜索执行部分208将查询S替换为用户选择的查询R,并且从 步骤403继续处理。在这一点,针对新查询S的搜索结果可为在步骤410中返回的搜索结 果。此外,也可想到如下使用模式,其中在第二次或者随后执行的步骤412中显示搜索结果 列表时,着重显示新添加的搜索结果的文档以突出差异。在步骤416和417中,如果用户编辑查询S以便用新查询重新执行,则搜索执行部 分208根据编辑的查询来执行搜索。当编辑的查询重新取为S时,在回到步骤403时继续 处理。另外,如果用户未编辑查询S以便重新执行搜索,则终止处理。<文档搜索系统的初始屏幕显示例子>图5是示出本系统的初始屏幕显示例子的图。在初始屏幕上,有用于输入查询的 查询输入文本框501和用于针对搜索结果缩减(或者更改)搜索目标的查询生成方法选择 菜单502。利用查询生成方法选择菜单502使得有可能使用单选按钮从以下三种方法中选 择(图4中的步骤401)基于有关字词的生成方法;使用在搜索结果中的文档组中出现的 频繁出现关键词的生成方法;以及通过省略查询中的部分关键词的生成方法。一旦用户输 入这些项目或者设置并且按下搜索执行按钮503,就开始搜索(图4中的步骤40 。下文 以如下例子提供描述,其中针对关于人力资源开发的活动报告从文档DB 201中检索文档。<使用有关字词的搜索结果的屏幕显示例子>图6示出由于按下图5中的搜索执行按钮503而出现的搜索结果列表和使用有关 字词的查询候选列表的屏幕显示例子。在搜索结果列表窗格601中显示查询和命中计数,并且在其下面显示搜索结果列表。在搜索返回的每个文档的标题附近显示包含搜索关键词的文档中的文字。用户查看这 些标题和文字以确定搜索结果是否是用户所希望的。在查询候选显示窗格602中显示用于调节搜索目标的查询列表。在这一窗格602 的上部中的查询生成方法菜单603中显示根据哪个标准生成查询。对于根据图6中的有关 字词标准的查询生成,在菜单603下面显示与输入的查询有关的术语列表。换句话说,如果 在有关字词字典203中登记输入的查询中包含的搜索关键词作为关键词301,则显示对应 的有关字词302。另外,显示使用这样的有关字词的新查询列表、针对用新查询返回的搜索 结果的命中计数和通过比较针对每个新查询的搜索结果的命中计数与针对原查询的搜索 结果的命中计数而计算的增加/减少。一旦用户按下位于每个查询附近的搜索执行按钮 604,就基于对应的查询来执行搜索。在维恩图显示窗格605中的维恩图中显示针对用户输入的查询的搜索结果的命 中计数与针对在查询候选显示窗格602中呈现的有关字词的搜索结果的命中计数之间的 相互关系。在维恩图中的文档集合是针对用户在有关字词选择菜单606中选择的关键词的 搜索结果。在这一菜单606中显示根据用户输入的查询而获得的有关字词列表、它们的相 应命中计数和复选框。针对与用户选中其复选框的关键词对应的搜索结果进行维恩图显 示。如维恩图显示窗格605所示,在每个分区中显示命中计数。例如,由于针对“人力资源 开发AND教育”有2个命中、针对“教育”有2,142个命中以及针对“人力资源开发”有12 个命中,所以显示在“教育”与“人力资源开发”之间的重叠分区中有2个命中。另外,仅针 对与用虚线或者实线包围的每个分区有关的部分显示命中计数。例如,在针对“人力资源开 发”的所有12个命中之中显示在与“教育”重叠的分区中有2个命中而在其余分区中有10 个命中。在查询输入窗格607中有查询输入文本框608和用于执行文本框608中的查询的 搜索执行按钮609。也可想到如下使用模式,其中一旦用户在维恩图显示窗格605中选择维 恩图显示中的给定分区,就在查询输入文本框608中自动输入可提取该所选分区的部分的 查询。此外,如果用户确定关于搜索目标的搜索关键词并不恰当,并且希望改写查询或者输 入新查询,则在查询输入文本框608中重新输入不同的查询并执行该不同的查询。通过这样的发明,由于即使用户并不知道与搜索关键词有关的有关字词(或者即 使她/他不能想到任何有关字词),也自动呈现使用有关字词的查询(第二查询),所以用 户能够检索她/他希望的文档组而遗漏甚少。另外,由于同时显示针对用第二查询进行的搜索的命中计数以及在比较第二查询 与原查询(第一查询)时的命中计数的增加/减少,所以用户能够作出以适当数目检索文 档的决定。例如,假设用户实际能够查看的搜索结果的数目为数十个命中至一百个命中,则 用户能够作出诸如“由于添加这一搜索关键词导致一千个或者更多命中,所以需要考虑不 同的关键词”、“由于添加这一搜索关键词仅将命中计数增加三个,所以可以承受添加它”等 决定。另外,当向该查询添加第一查询中包含的搜索关键词的有关字词时,可以在执行 搜索之前确认搜索结果的趋势和特征。换句话说,可以容易地确定接着应当用什么种类的 有关字词执行搜索。例如,在图6的情况下,可以看出针对“人力资源开发”的关键词搜索 返回很少结果、关于人力资源开发活动可能在针对“教育”的搜索结果中有许多有关文档、在针对“教育”的搜索结果中包括大量文档等等。另外,通过维恩图显示,有可能掌握搜索关键词之间和搜索关键词与有关字词之 间的关系,并且可视地理解适当的关键词组合以及这样组合的查询所返回的命中计数。<使用频繁出现关键词的搜索结果的屏幕显示例子>图7示出搜索结果列表和基于搜索结果中的频繁出现关键词的查询候选列表的 屏幕显示例子。其示出如下屏幕,其中在图6中的查询生成方法菜单603中选择了“使用在 搜索结果中的文档组中出现的频繁出现关键词生成”,并且已经针对查询用“人力资源开发 OR教育”执行了搜索。如图6中那样,在搜索结果列表窗格701中显示查询和命中计数,并且在其下面显 示针对新查询“人力资源开发OR教育”的搜索结果列表。着重显示了新添加到先前搜索结 果中的文档(在图7中用星形标示的部分)。通过这样的发明,用户能够直接理解添加了什 么种类的文档,并且能够容易看见第二查询的效果。在查询候选显示窗格702中显示用于调节搜索目标的查询候选列表。这里,已经 在查询生成方法菜单703中选择了将使用在搜索结果中的文档组中出现的频繁出现关键 词来进行生成。另外,在查询生成方法菜单703下面呈现在实际搜索结果中出现的频繁出 现关键词。如图6中那样,在维恩图显示窗格704中通过维恩图表示针对用户输入的查询的 搜索结果的命中计数与针对在搜索结果中出现的频繁出现关键词的搜索结果的命中计数 之间的相互关系。通过这样的发明,由于自动呈现使用搜索结果中的频繁出现关键词的查询(第二 查询),所以用户能够有效地检索想要的文档组。此外,对于使用频繁出现关键词的查询,由于同时显示搜索命中计数和命中计数 的增加/减少,所以用户能够以适当数目检索文档。此外,用户能够容易地理解什么种类的关键词在针对输入的查询的搜索结果之中 频繁地出现。例如,在图7的情况下,能够获得如下概况在针对查询“人力资源开发OR教 育”的搜索结果中大量地包含“课程指导”的通知、“课程完成报告”的通知和与“新员工”教 育有关的文档。另外,通过维恩图显示,有可能掌握针对原查询(第一查询)的搜索结果与针对频 繁出现关键词的搜索结果之间的关系,并且有可能可视地理解适当的关键词组合以及针对 这样制定的查询的命中计数。例如,在图7的情况下,可以看出包含关键词“课程完成报告” 的文档总是包括关键词“人力资源开发”或者“教育”、无文档同时包含“课程指导”和“课程 完成通知”等。因此,如果用户在检索关于人力资源开发的活动报告,则她/他能够作出从 检索目标中排除课程指导文档的决定,因为它们看来无关。另一方面,她/他能够作出在检 索目标中包括诸如“课程完成报告”、“新员工”等关键词的决定,因为它们看来与人力资源 开发活动有关。<基于省略部分关键词的搜索结果的屏幕显示例子>图8示出搜索结果列表和基于省略查询中的部分关键词的查询候选列表的屏幕 显示例子。其示出如下屏幕,其中在图7中的查询生成方法菜单703中已经选择“通过省略 查询中的部分关键词生成”,并且已经针对查询用“(人力资源开发OR教育)AND (课程完成通知OR新员工)AND财政年度2007”执行了搜索。如图6中那样,在搜索结果列表窗格801中显示查询和命中计数,并且显示针对查 询“(人力资源开发OR教育)AND (课程完成通知OR新员工)AND财政年度2007”的搜索结 果列表。在查询候选显示窗格802中显示用于调节搜索目标的查询候选列表。这里,已经 在查询生成方法菜单803中选择了将通过省略查询中的部分关键词来进行生成。例如,图 7中的查询⑴为“(人力资源开发OR教育)AND(课程完成通知OR新员工)”,这是通过从 原查询中省略关键词“财政年度2007”而生成的查询。如图6中那样,在维恩图显示窗格804中用维恩图表示针对用户输入的查询的搜 索结果的命中计数与针对通过省略部分搜索关键词而生成的查询的搜索结果的命中计数 之间的相互关系。在维恩图中的文档集合是针对用户在查询候选选择菜单805中选择的查 询的搜索结果。在查询候选选择菜单805中显示在查询候选显示窗格802中呈现的查询候 选列表、它们的相应命中计数和复选框。针对与用户选中其复选框的关键词对应的搜索结 果进行维恩图显示。通过这样的发明,用户能够看出原查询(第一查询)中的条件就她/他希望检索 的目标而言是否太严格/太宽泛。例如,当用户输入的第一查询为具有特定搜索关键词和 通用搜索关键词的AND搜索时,如果由于使用该第一查询进行搜索而在省略该通用关键词 时几乎没有观察到命中计数的变化,则可以确定应当省略该关键词。反言之,当第一查询为 具有特定搜索关键词和特殊搜索关键词的AND搜索时,如果由于使用该第一查询进行搜索 而仅返回两至三个命中,则可以确定应当省略该特殊搜索关键词。例如,在图8的情况下, 即使当使用其中从查询(1)、即原查询中省略“财政年度2007”的查询来进行搜索时,差异 也仅为两个命中。换句话说,有如下可能性这两篇文档仅偶然地未包括关键词“财政年度 2007”。此外,由于增加两个命中相对于原搜索结果中的169个命中仅为略微增加,所以也 可以确定保持包括这两个命中作为人力资源开发活动的记录会允许更少遗漏和更彻底覆盖。另外,通过维恩图显示,有可能在执行搜索之前可视地确认针对原查询(第一查 询)的搜索结果和从原查询中省略搜索关键词的效果。〈结论〉如上文所述,根据本实施例,由于在显示搜索结果列表时呈现用于调节搜索目标 的查询,所以用户能够有效和直接地理解什么种类的搜索关键词会适合作为后续的搜索关 键词。此外,如果搜索结果未如用户所愿(当指定错误的搜索关键词时),她/他能够容易 地看见它。另外,由于有可能在重复搜索过程中发现更合适的其它关键词,则可以执行更好 地适应用户意图的搜索。标号说明201 文档 DB202文档索引203有关字词字典204显示设备205 键盘206 鼠标
207中央处理单元208搜索执行部分209搜索结果显示处理部分210有关字词查询生成处理部分211关联关键词查询生成处理部分212部分查询生成处理部分213维恩图绘制处理部分214存储器501查询输入文本框502查询生成方法选择菜单503搜索执行按钮601搜索结果列表窗格602查询候选显示窗格603查询生成方法菜单604搜索执行按钮605维恩图显示窗格606有关字词选择菜单607查询输入窗格608查询输入文本框609搜索执行按钮701搜索结果列表窗格 702查询候选显示窗格703查询生成方法菜单704维恩图显示窗格801搜索结果列表窗格802查询候选显示窗格803查询生成方法菜单804维恩图显示窗格805查询候选选择菜单
权利要求
1.一种文档搜索系统,用于基于搜索关键词从其中积累待作为搜索目标的文档的文档 DB之中找到包含所述搜索关键词的文档,所述文档搜索系统包括有关字词字典,该有关字词字典中聚集搜索关键词的有关字词;有关字词查询生成处理部分,该有关字词查询生成处理部分被配置成从所述有关字词 字典中提取已经输入的第一查询中包含的搜索关键词的有关字词并使用所述有关字词生 成作为新查询的第二查询;搜索执行部分,该搜索执行部分被配置成计算针对用所述第一查询返回的搜索结果的 命中计数与针对用所述第二查询返回的搜索结果的命中计数之间的增加/减少;以及搜索结果显示处理部分,该搜索结果显示处理部分被配置成在显示部分上同时显示 所述第一查询;用所述第一查询返回的搜索结果;针对所述搜索结果的命中计数;所述第 二查询;针对用所述第二查询返回的搜索结果的命中计数;以及所述增加/减少。
2.根据权利要求1所述的文档搜索系统,还包括维恩图绘制处理部分,该维恩图绘制 处理部分被配置成在所述显示部分上以及在维恩图中显示用所述第一查询返回的搜索结 果与用所述第二查询返回的搜索结果之间的相互关系。
3.一种文档搜索系统,用于基于搜索关键词从其中积累待作为搜索目标的文档的文档 DB之中找到包含所述搜索关键词的文档,所述文档搜索系统包括关联关键词查询生成处理部分,该关联关键词查询生成处理部分被配置成使用在针对 已经输入的第一查询的搜索结果中频繁出现的频繁出现关键词来生成作为新查询的第二 查询;搜索执行部分,该搜索执行部分被配置成计算针对用所述第一查询返回的搜索结果的 命中计数与针对用所述第二查询返回的搜索结果的命中计数之间的增加/减少;以及搜索结果显示处理部分,该搜索结果显示处理部分被配置成在显示部分上同时显示 所述第一查询;用所述第一查询返回的搜索结果;针对所述搜索结果的命中计数;所述第 二查询;针对用所述第二查询返回的搜索结果的命中计数;以及所述增加/减少。
4.根据权利要求3所述的文档搜索系统,还包括维恩图绘制处理部分,该维恩图绘制 处理部分被配置成在所述显示部分上以及在维恩图中显示用所述第一查询返回的搜索结 果与用所述第二查询返回的搜索结果之间的相互关系。
5.一种文档搜索系统,用于基于搜索关键词从其中积累待作为搜索目标的文档的文档 DB之中找到包含所述搜索关键词的文档,所述文档搜索系统包括部分查询生成处理部分,该部分查询生成处理部分被配置成通过省略在已经输入的第 一查询中包含的多个搜索关键词的部分来生成作为新查询的第二查询;搜索执行部分,该搜索执行部分被配置成计算针对用所述第一查询返回的搜索结果的 命中计数与针对用所述第二查询返回的搜索结果的命中计数之间的增加/减少;以及搜索结果显示处理部分,该搜索结果显示处理部分被配置成在显示部分上同时显示 所述第一查询;用所述第一查询返回的搜索结果;针对所述搜索结果的命中计数;所述第 二查询;针对用所述第二查询返回的搜索结果的命中计数;以及所述增加/减少。
6.根据权利要求5所述的文档搜索系统,还包括维恩图绘制处理部分,该维恩图绘制 处理部分被配置成在所述显示部分上以及在维恩图中显示用所述第一查询返回的搜索结 果与用所述第二查询返回的搜索结果之间的相互关系。
7.根据权利要求1所述的文档搜索系统,其中如果所述搜索执行部分确定在用所述第二查询返回的搜索结果中包含与用所述第一 查询返回的搜索结果不同的新搜索结果,则所述搜索结果显示处理部分在显示用所述第二查询返回的搜索结果时在所述显示 部分上着重显示所述新搜索结果。
8.根据权利要求3所述的文档搜索系统,其中如果所述搜索执行部分确定在用所述第二查询返回的搜索结果中包含与用所述第一 查询返回的搜索结果不同的新搜索结果,则所述搜索结果显示处理部分在显示用所述第二查询返回的搜索结果时在所述显示 部分上着重显示所述新搜索结果。
9.根据权利要求5所述的文档搜索系统,其中如果所述搜索执行部分确定在用所述第二查询返回的搜索结果中包含与用所述第一 查询返回的搜索结果不同的新搜索结果,则所述搜索结果显示处理部分在显示用所述第二查询返回的搜索结果时在所述显示 部分上着重显示所述新搜索结果。
全文摘要
提供一种用于在使用搜索系统收集想要的文档时有效和直观地收集期望文档的文档搜索系统。与新搜索准则候选和由该搜索准则获得的命中数目一起显示搜索结果列表。具体地,该文档搜索系统包括有关字词字典,用于收集搜索关键词的有关字词;有关字词搜索准则生成部分,用于从有关字词字典中提取在已输入的第一搜索准则中包含的搜索关键词的有关字词并使用有关字词生成第二搜索准则;搜索执行部分,用于计算由第一搜索准则获得的搜索结果的命中数目与由第二搜索准则获得的搜索结果的命中数目之间的差异;以及搜索结果显示部分,用于同时显示第一搜索准则、由第一搜索准则获得的搜索结果、搜索结果的命中数目、第二搜索准则、由第二搜索准则获得的搜索结果的命中数目以及差异。
文档编号G06F17/30GK102067124SQ20098012327
公开日2011年5月18日 申请日期2009年6月12日 优先权日2008年6月18日
发明者野崎康行 申请人:日立系统解决方案有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1