文档分析与关联系统及方法

文档序号:6350990阅读:249来源:国知局
专利名称:文档分析与关联系统及方法
技术领域
本发明总体上涉及用于从文本字符串和/或包含一个或多个文本部分的文档中的信息提取的方案,并且特别地涉及用于分析文本字符串和/或文档及将这种文档与来自一个数据库的相关信息或文档相关联的方法和装置。本发明进一步涉及识别并且检索与文本相关的文档。更具体地,本发明涉及通过从文本材料中产生相关术语列表并且权重这种术语以用来分析与这些加权的术语相关的信息和/或文档的一个文档数据库,从较大集合的文本材料中识别和检索感兴趣的文本部分(或文本片段)。本发明开发主要用于分析一个文本部分并且将这种文本部分与在一个数据库中的相关的信息和/或文档相关联的方法和系统。然而,应理解本发明不限于该具体的使用领域。
背景技术
信息发起该搜索,所以返回到用户的文档相对于关键词的相关性通常是基于统计上最期望的结果的一个估计的输出,因为关键词本身产生大量的文档匹配,并且在输入文本中也没有足够的信息根据用户/搜索者的特别期望的相关性固有地对所有这些匹配进行排序。随着待搜索的数据库中的文档的数目变大并且输入文本的量变小,在没有额外的信息(即未包含在初始输入文本或搜索查询中的信息)的情况下,搜索结果中的文档的相关性变得不可能确定。在如Google 、ΥΑΗ00 、微软BING 及其他的互联网搜索引擎的例子中,搜索算法的开发者已经发现了改进搜索结果的相关性的方法,最著名是Google 的通过网页排名算法,这主要使用超文本链接结构以形成数十亿文档和数百万搜索术语的流行度指数。流行度对于互联网“文本到文档”搜索很奏效,因为流行度方法学在绝大多数案例中找到与输入搜索查询相关的合适的信息。然而,因为输入和输出要求在很大程度上不同,所以这种类型的搜索对文档到文档搜索而言不太有用。文档到文档搜索以更多的输入文本并且总体上在给定增加的输入信息下对相关输出结果的更大期望发起的。迄今,Google 将搜索查询中的输入术语的数目限制到50个术语或2048个字符。Google 搜索的本质倾向于(不总是,但总体上是这种情况)当添加越多的信息到搜索查询中时找到越少的结果,因为额外的输入文本术语用来从搜索结果中排除(裁剪)尽可能多的文档。这对于文档到文档搜索而言不是一个有用的方法,因为当使用其中包含的文本作为输入搜索术语时,可能匹配一个特定文档的仅有的文档是其本身。其他传统的搜索方法使用基于匹配元信息的技术。元信息主要是应用到每个文档的一组标记(或标签),这允许文档以不同的尺寸对齐。一个关于工作搜索的示例是应聘者以两个元字段位置=“洛杉矶”和工作类型=“全职”寻找一个工作。排除没有这些元匹配的所有文档。当数据库搜索在一个字段中的匹配(或非匹配)而不是跨整个文档的匹配时,元标签的特定本质允许非常快速地搜索数据库,这允许在检查全部文本内容之前从搜索中排除许多文档。然而,元搜索具有几个缺点,最显著的是必须为数据库中的每一个文档创建这些标签。这通常手动完成作为数据库输入流程的一部分,这极其费时并且还阻止数据的批量导入。尽管如隐性语义索引(LSI)的技术由于其语义上确定合适的标签的能力而变得更加流行。第二个显著的问题是围绕不同数据库的交叉兼容性问题。通常每个数据库提供者为每个元字段使用不同的规定,这使得跨不同平台的搜索实际上不可能。在一些例子中,元标签是自动产生的,但在许多例子中这或者简单地不是实际的、高度受限的、或者在分配到数据库中的文档的元标签的信息中导致较大的错误的实例。不像上述文本到文档搜索和元搜索,文档到文档搜索在输入处理要求上具有进一步额外的复杂性,并且因此需要用于计算数据库中的文档相对于输入文档的相关性的不同的方法学。特别地,文档到文档搜索的目标不是找到新的信息(正如文本到文档或元标签搜索),而是找到最相似的文档、或包含最相关信息的文档。这种类型的文档搜索的应用很多,如研究、工作-应聘者匹配、法律案例匹配、专利资产组合管理及许多其他,在所有的这些例子中,搜索者以至少一个文档开始,这相比较于上述文本到文档和元标签搜索而言是比较大量的信息。有几个文档到文档搜索应用的示例。例如,美国Iparadigms LLC公司已开发了一种用于学生和学术作品的抄袭的检测的文档搜索引擎。该技术寻找在数据库中存储的与输入文本部分或输入文本的多个部分匹配的参考文档的相同的单词字符串,这例如可以是有一个学生提交的作为课程研究的一部分的文章或论文。这种类型的搜索对于找到非常相似的内容片断(即相似措辞)而言非常有用,但当尝试寻找使用不同的措辞的相似内容的文档时则失效。此外,美国Burning Glass Technologies公司已经开发了特别用于人力资源行业的技术。Burning Glass技术为一个特定职位识别成功的应聘者,并且然后使用相似的选择规则寻找与先前已经成功找到工作的应聘者具有相似度的应聘者。这种类型的匹配使用隐马尔可夫模型,并且是非常有用的技术,但是这种模型具有必须依赖先前成功案例的识别来预测新的成功案例的缺点。这一贯要求重复相同工作说明,因此这很大程度上仅对再补缺相似职位的大公司有用。因为大多数其他的文档到文档搜索不是重复、评估和再重复的,所以该技术在工作搜索之外不是非常有用的。因此,因为该搜索技术依赖重复和已经建立的成功案例的定义,Burning Glass旨在基于公司/机构的整合而不是更广泛的方法去匹配,这总之在一个封闭系统中的效果更好。在搜索方法学的其他示例中,如美国Intent Cafe Inc的专利匹配技术中采用隐形语义分析(LSA)技术帮助专利搜索、资产组合分析、专利强度等。这种方法学观察文本术语并基于总量得分(每个术语是如何罕见)使用反向权衡对术语打分以找到一个匹配,例如在美国专利号4,839,853中所描述的。然而,LSA技术受到系统开始建立时的良好程度的限制,并主要依赖于在许多应用中可能不可靠的反向词语总量分析。同样,由于用户与通过这种LSA类型技术获得的结果进行交互,LSA技术总体上不能实时地适配,即这些技术在很大程度上是严格的并且很慢或者不能随着一个或多个数据库中的信息改变或者来自例如用户和/或额外的/外部的一个或多个信息源的外部输入而适配。当在输入中的术语的数目变得较大时,LSA分析也变得极其计算密集的,因为LSA通常使用一个术语和文档在每个对应的轴上的二维矩阵。这在所谓的“术语空间”中产生识别每个文档的一个语义向量。当术语的数目和/或文档的数目变得较大时,需要近似值以减少计算负荷。这样的减少典型地通过将语义上相似的术语(它们展示许多相同的文档)分组为更高级的组以减少术语空间。然而,遗憾的是,这种的简化具有几个缺点,主要在于a)较罕见的术语不能配合到任何组中,b)具有混淆分组的双意的词(多义词),及C)具有相似的意思的多个词(同义词)。当这些语境问题中的任意一个出现在关键搜索术语上时,对近似值的依赖会产生更差的结果。另一个搜索方法学涉及一个流程,该流程包括接收一个查询、识别该查询中的短语、识别该查询中短语的可能的一个或多个延伸以及搜索文档中的短语和从查询中识别的短语延伸之间一致的一个文档数据库。在美国专利申请号20060031195中披露了这种方法。该方法似乎与自动完成功能具有许多相似性,例如Google 使用的基于先前搜索查询的流行度来预测对几个术语的查询的延伸,以缩小超过它的搜索范围,这可以从初始查询实现。然而,这种方法更适合于仅几个术语的输入查询,并且当输入查询术语的数目变大(大于10或更多)时具有困难,这将可能对短语和短语延伸的识别上施加极大的计算负荷。因此,需要文本搜索的新方法,特别地涉及在输入文档包括大量术语的场合的整个文档到文档搜索应用。定义提供下述定义作为一般的定义,但绝不应该将本发明的范围限制于那些术语,而是提出用于更好地理解下述说明。除非以其他方式定义,在本文中使用的所有的术语(包括技术和科学的术语)与本发明所属的领域中的技术人员的共同理解具有相同的意思。应理解本文中使用的术语应该被解释为具有与在该说明书的上下文中和相关领域中的意思相同的意思,并且不能以理想化或过分形式意义解释,除非像本文那样明确规定。为了本发明的目的,在下文描述了额外的术语。在本文中使用的术语仅用于描述具体的实施方案的目的,不旨在限制本发明。如在本文中所使用,单个冠词“一个”、“一种”和“该”也旨在包括复数形式,除非上下文明确指出,并且因此在本文中使用的是指冠词的语法对象的一个或超过一个(即至少一个)。举例,“一种元件”是指一个元件或超过一个元件。在本文中使用的术语“大约”是指数量相对于参考数量变化多达30%、优选地多达20%、及更优选地多达10%。在整个说明书中,除非上下文以其他方式要求,词语“包括”应理解为表示包括一个规定的步骤或元件或一组步骤或元件,但不排除任何其他的步骤或元件或其他组的步骤或元件。在给定系统的处理限制和精确测量数据所要求的时间的情况下,术语“实时”(例如“显示实时数据”)是指数据的显示而没有故意的延迟。术语“文本部分”是指包括至少一个单词的一段文本。术语“文本术语”是指一个或多个单词(例如具有至少一个术语的一组单词)的一个有序的序列。“参考文本术语”是指存在于或定位于一个参考文档的文本部分中的文本术语。其中参考文本是存储在对其进行搜索的数据库中的多个文档之一。每个参考文档是一次搜索的一个潜在结果。相似地,“输入文本术语”是指定位在输入文档的一个文本部分中的文本术语或其可以被认为是编程术语中的一个字符串。术语“全局文本术语”是指存在于全局索引中并且因此具有关联的全局权重的一个文本术语。术语“输入文档”是指包含用户希望将一次搜索基于它而在数据库中找到与输入文档相关的文档(参考文档)的输入文本部分的一个文档。在文档到文档搜索的例子中,这相似于用于使用如Google 或Yahoo 搜索引擎的互联网搜索的输入文档。术语“输入文本部分”是指输入文档,除了在该例子中输入可能是多个文档、或简单地一组文本术语。因此,其在本质上是有待以其为基础进行搜索的输入文本的概括。术语“本地文档索引”是指一个文档的文本部分的数据库表示、或者存储在一个数据库中的参考文档、或者通过用户输入到系统用于针对参考文档搜索的一个文档或文本部分。在本安排中,本地文档索引总体上包括从文档的解析中确定的文档中的文本术语,并且尽管其他信息还可以存储本地文档索引中,但是与每个术语相关联的一个文本术语权重将额外的信息包含到文本中并且用于计算结果的相关性。特别地,指代一个输入文档或文本部分的本地文档索引被称为一个“输入本地索引”或“输入本地文本术语索引”,并且术语“本地参考文档术语索引”是指为数据库中的参考文档中的每一个所形成的本地文档索引。相似地,术语“全局文本术语索引”或“全局术语索引”或“全局索引”是指存储在数据库中的索引(不同于本地索引),该数据库包含对存储在数据库中的整个文档集合中的每一个文本术语的概述信息(如权重)。术语“本地权重”或“本地文本术语权重”或相似的术语是指与一个或多个本地文本术语索引中的一个文本术语相关联的数字权重值。相似地,术语“全局权重”、“全局文本术语权重”或相似术语是指与全局文本术语索引中的一个文本术语相关联的数字权重值。术语“补充的输入本地文本术语索引,,或“再形成的本地术语索引,,是指在其被调整(再形成)以反映用户与通过数据库的搜索查询所检索到的结果的交互之后的输入本地文本术语索引。可替代地,可以基于从一个或多个额外的或外部数据源接收的信息再形成该索引。通常通过存储在其中的文本术语的本地文本术语权重的调整来再形成补充的索弓丨,然而,在本文中讨论了再形成本地索引的其他方法。术语“本地文本术语权重”和“全局文本术语权重”(及变化)是指分别为本地文本术语索引或全局文本术语索引中的文本术语中的每一个给定的数字得分,并且可以从与每个术语相关的多个参数确定每个权重。术语“代表性文本字符串,,典型地是指用来识别显示给用户的搜索结果中的文档的一个文档的一小部分。代表性文本字符串可以是围绕文档中的一个或多个术语的文本的分配,这被发现是与用户的查询相关并且因此对于用户能够确定该文档的相关性而不用复核整个文档而言是有用的。多个术语的“交集”总体上是指在设定的分析环境中的其标准的意思,例如当两个或多个文档分享一个具体的文本术语时发现一个交集的场合。这种交集还可以包括在可以是同义词或其他相关术语之间的一个交集。在下文参考根据本发明的方面与安排的方法、设备(系统)和/或计算机程序产品的框图和/或流程图示来描述本发明。应理解框图和/或流程图示的几个方框以及框图和/或流程图示中的方框的组合可以通过计算机程序指令执行。可以将这些计算机程序指令提供给一个通用计算机、专用计算机、和/或其他可编程数据处理设备的处理器以产生一个机器,以便通过计算机的处理器和/或其他的可编程数据处理设备执行的指令创建用于实施在框图和/或一个或多个流程方框中指定的功能/动作。这些计算机程序指令还可以存储在计算机可读存储器中,该存储器可以控制一个计算机或其他的可编程数据处理设备以一种具体的方式工作,以便存储在计算机可读存储器中的指令产生一件制品,该制品包括实施在框图和/或一个或多个流程方框中指定的功能/动作的指令。计算机程序指令还可以加载在一个计算机或其他的可编程数据处理设备上以促使在计算机或其他的可编程设备上执行一系列操作步骤以产生一个计算机实施的流程,以便在计算机或其他的可编程设备上执行的指令提供用于实施在框图和/或一个或多个流程方框中指定的功能/动作的步骤。因此,本发明可以体现在硬件和/或软件中(包括固件、常驻软件、微代码等)。此外,本发明可以采用一个计算机可用或计算机可读存储媒质上的计算机程序产品的形式,该存储媒质具有体现在媒质中的计算机可用或计算机可读程序代码用于通过或结合一个指令执行系统使用。在该文档的背景中,计算机可用或计算机可读媒质可以是能够包含、存储、传递、传播、或传输程序用于通过或结合指令执行系统、设备、或装置使用的任何媒质。计算机可用或计算机可读媒质例如可以是但不限于电子、磁学、光学、电磁、红外线、或半导体系统、设备、装置或传播媒质。计算机可读媒质的更具体的例子(一个非排他性列表)将包括以下各项具有一条或多条线的电连接、便携式计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPR0M或闪存存储器)、光纤、及便携式紧凑光盘只读存储器(CD-ROM)。注意计算机可用或计算机可读媒质甚至可以是其上印刷有程序的纸张或另一种合适的媒质,因为该程序可以电子捕捉,例如通过纸张或其他媒质的光扫描,然后汇编、解释或以合适的方式处理,若必要的话,然后存储在计算机存储器中。尽管相似于或等价于在本文描述的那些方法和材料的任何的方法和材料可以用在本发明的实践或测试中,但在此描述了优选的方法和材料。应理解本文描述的方法、设备、及系统能够以多种方法实施并且用于多种目的。在此的描述仅通过举例。概述本发明的目标是基本上克服或至少改善现有技术的缺点中的一个或多个,或至少提供一个有用的替代方案。根据一个第一方面,提供了一种对多个文档进行标引的方法。每个文档可以包括一个文本部分。该方法可以包括解析该多个文档各自的文本部分以形成多个对应的本地文档索引的步骤。每个本地文档索引可以与一个对应的文档相关联。本地文档索引可以存储在一个数据库中,或替代地存储在一个文件或一组文件中。每个本地文档索引可以包括包含在该对应文档中的多个本地文本术语。每个本地文档索引可以进一步包括与每个文本术语相关联的一个本地权重。该方法可以进一步包括形成一个全局文档索引的步骤。全局文档索引可以从该多个本地文档索引中形成。全局文档索引可以包括包含在该多个文档中的多个全局文本术语。全局文档索引可以进一步包括一个与每个全局文本术语相关联的全局权重。与这些全局文本术语中的每一个相关联的全局权重可以是相对于与一个参考全局文本术语相关联的参数所确定的。与全局文本术语相关联的全局权重可以是相对于多个参数所确定的,每个参数可以与一个对应的参考全局文本术语相关联。
在第一方面的一种安排中,提供了一种用于对多个文档进行标引的方法,每个文档包括一个文本部分,该方法包括以下步骤a)解析该多个文档各自的文本部分以形成每个与一个对应的文档相关联的多个对应的本地文档索引,并且在一个数据库中存储本地文档,其中每个本地文档索引包括包含在该对应文档中的多个本地文本术语以及与每个文本术语相关联的本地权重;以及b)从该多个本地文档索引中形成包括包含在该多个文档中的多个全局文本术语的一个全局文档索引,以及与每个全局文本术语相关联的全局权重;其中与这些全局文本术语中的每一个相关联的全局权重是相对于与一个参考全局文本术语相关联的参数所确定的。本地文档索引可以存储为一个包括文本术语以及相关联的权重的一个单一的逻辑计算机可读文件或者替代地存储为一组相关的逻辑计算机可读文件,其中每个单个的文本术语、或一组文本术语存储为包括相关联的细节和/或关联于对应的文本术语的权重。可以相对于每个全局文本术语在其中在所有多个文档上出现的文档的数目进一步确定与这些全局文本术语中的每一个相关联的全局权重。可以相对于参考文本术语在其中出现的文档的数目确定与全局文本术语相关联的全局权重。可以相对于用户交互进一步确定与全局文本术语相关联的全局权重。额外地或替代地,可以相对于额外的和/或外部信息源进一步确定与全局文本术语相关联的全局权重。与每个文本术语相关联的本地权重可以包括多个权重的组合,每个权重与每个本地文本术语相关联。可以相对于从下组中所选一个或多个参数进一步确定一个或多个权重,该组的构成为术语在单个文档中出现的次数;术语在所有多个文档中出现的次数;文本术语在一个文档中的位置;术语的大写;在术语周围的标点符号;临近术语的文本部分中的单词;单词罕见度;单词序列;文本术语的组合;或在每个文本术语中的单词的数目;用户定义的权重;或本领域技术人员应理解的其他合适的参数。额外地或替代地,可以从下组中选择一个或多个权重,该组的构成为一个单词或文本术语的字体大小、字体族群、字体粗细、字体风格、字体装饰、字体颜色、下标、上标、以及文本术语在文档结构中出现的地方(例如在标题、评论、脚注、页眉、页脚、或在文档的元信息中)。可以相对于每个文本术语的本地权重进一步确定与每个全局文本术语相关联的全局权重。针对一个具体的文本术语的本地权重当与不同的文档相关联时可以是不同的,因此导致文本术语在其中出现的具体文本术语的多个本地术语权重,并且可以相对于该具体的文本术语的多个本地权重的组合确定全局权重。该权重可以是正权重或负权重。其中该多个权重中的一个或多个是用于所选全局文本术语的负权重,可以为该所选全局文本术语分配一个零权重。或者,该权重可以选自权重范围从正到负的一个刻度尺,例如选自例如包括分等级的权重的刻度(非常差)_(差)_(中)_(好)_(非常好)用户定义的权重可以来源于一个自学习系统,该系统包括用于一个所选文本术语、或一个或多个本地文本术语或一个或多个全局文本术语中的多个用户定义的权重。可以在文本部分中识别多个文本术语。可以为该多个文本术语中的每一个分配至少一个相关联的本地术语权重。至少一个或多个文本术语可以在输入文本部分中包括单词型术语。相关的术语可以在输入文本部分内包括双词型术语。至少一个或多个文本术语可以在输入文本部分内包括三词型术语。文本部分可以包括大量的文本术语、例如高达或超过5个文本术语、或高达或超过10个、高达或超过20个、高达或超过50个、高达或超过100个、高达或超过500个、高达或超过1000个、高达或超过5000个、高达或超过10000个、高达或超过20000个、高达或超过50000个、高达或超过100000个、高达或超过250000个、高达或超过500000个、高达或超过1000000个或更多文本术语,并且可以取决于可用的处理能力。文本部分可以是包括多个文本单词的一个文本字符串。文本部分可以是一个文本文档。文本部分可以选自下组中各项的一个或多个中,该组构成为包括一个或多个单词的一个文本字符串;一个文本文档;一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份简历;一份履历表;一份法律抄录;一份法律文档;或一份新闻报道。文本部分可以包括大量的文本术语、例如高达或超过5个单词、或高达或超过10个、高达或超过20个、高达或超过50个、高达或超过100个、高达或超过500个、高达或超过1000个、高达或超过5000个、高达或超过10000个、高达或超过20000个、高达或超过50000个、高达或超过100000个、高达或超过250000个、高达或超过500000个、高达或超过1000000个或更多的单词。参考文档可以是代表选自下组中各项中的一个或多个中的一个文档的文本文档,该组的构成为一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份招聘广告;一份法律抄录;一份法律文档;或一份新闻报道。根据本发明的一个第二方面,提供了一种用于对多个文档进行标引的系统。每个文档可以包括一个文本部分。该系统可以包括用于解析该多个文档各自的文本部分的一个解析模块以形成多个对应的本地文档索引,其中每个本地文档索引与一个对应的文档相关联。每个本地文档索引可以包括在对应的文档中包含的多个本地文本术语以及与每个文本文档相关联的一个本地权重。该系统进一步包括被适配为在存储器中存储本地文档中的每一个的一个数据库,其中该数据库可以是传统的数据库,或可替代地它可以是基于文件的存储器。该系统可以进一步包括一个处理器,该处理器用于分析该多个本地文档索引以及从该多个本地文档中形成一个全局文档索引。该全局文档索引可以包括包含在该多个文档中的多个全局文本术语。该全局文档索引可以进一步包括与每个全局文本术语相关联的一个全局权重。可以相对于与一个参考全局文本术语相关联的参数确定与全局文本术语中的每一个相关联的全局权。该全局文档索引可以存储在该数据库中并且相关于本地文档索引中的每一个。在一个第二方面的安排中,提供了一种用于对多个文档进行标引的系统,每个文档包括一个文本部分,该系统包括一个解析模块,该解析模块用于解析该多个文档各自的文本部分以形成多个对应的本地文档索引,每个索引与一个对应的文档相关联,其中每个本地文档索引包括包含在该对应文档中的多个本地文本术语以及与每个文本术语相关联的至少一个本地权重;一个数据库,该数据库被适配为在一个存储器中存储这些本地文档索引中的每一个;一个处理器,该处理器用于分析该多个本地文档索引并且从该多个本地文档索引中形成全局文档索引,该全局文档索引包括包含在该多个文档中的多个全局文本术语以及与每个全局文本术语相关联的一个全局权重;其中与这些全局文本术语中的每一个相关联的全局权重是相对于与一个参考全局文本术语相关联的参数所确定的;并且其中该全局文档索引存储在该数据中并且与本地文档索引中的每一个相关。可以在该文本部分识别多个文本术语。可以为该多个文本术语中的每一个分配至少一个相关联的本地术语权重。可以参考全局术语索引确定相关联的一个或多个本地术语权重。该至少一个或多个文本术语可以在输入文本部分内包括单词型术语。这些相关术语可以在输入文本部分内包括双词型术语。该至少一个或多个文本术语可以在输入文本部分内包括三词型术语。该文本部分可以是包括多个文本单词的一个文本字符串。该文本部分可以是一个文本文档。该文本部分可以选自下组中各项中的一个或多个,该组的构成为包括一个或多个单词的一个文本字符串;一个文本文档;一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份简历;一份履历表;一份法律抄录;一份法律文档;或一份新闻报道。这些参考文档可以是文本文档、或包括一个文本部分、代表选自下组的各项中的一个或多个中的一个文档的文档一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份招聘广告;一份法律抄录;一份法律文档;或一份新闻报道。作为搜索过程的一部分,可以为参考文档中的每一个分配一个代表与输入文本部分的相关性的文档相关性得分。根据一个第三方面,提供了一种用于分析文本部分并且检索与该文本部分相关的文档的方法。该方法可以包括接收包括一个文本部分的输入的步骤。该方法可以进一步包括识别文本部分中的至少一个文本术语的步骤。该方法可以进一步包括分配与该至少一个文本术语相关联的至少一个权重的步骤。该方法可以进一步包括形成该至少一个文本术语的一个输入本地索引以及至少一个相关联的本地术语权重的步骤。可以参考存储在数据库中的全局术语索引确定该至少一个相关联的本地术语权重。全局术语索引可以包括多个全局文本术语和相关联的全局文本术语权重。该全局术语索引可以从多个参考文档中形成。参考文档中的每一个的图示可以存储在数据库中。该方法可以进一步包括查询数据库以识别与输入文本部分相关的参考文档中的一个或多个。该方法可以进一步包括输出所识别的相关参考文档的一个图示的步骤。在第三方面的安排中,提供了一种用于分析文本部分并且检索与该文本部分相关的文档的方法,该方法包括以下步骤
a)接收包括一个输入文本部分的一个输入;
b)识别在该文本部分中的至少一个文本术语;
c)分配与该至少一个文本术语相关联的至少一个权重;
d)形成该至少一个文本术语的一个输入本地索引和至少一个相关联的本地术语权重,其中该至少一个相关联的本地术语权重是参考存储在一个数据库中的全局术语索引所确定的,该全局术语索引包括多个全局文本术语和相关联的全局文本术语权重并且从多个参考文档中形成,其中参考文档中的每一个的图示存储在数据库中;
e)查询数据库以识别与输入文本部分相关的参考文档中的一个或多个;并且
f)输出所识别的相关参考文档的一个图示。存储在数据库中的多个参考文档中的每一个的图示可以包括参考文档或到其的一个链接。该图示可以进一步包括针对每个参考文档的一个对应的本地参考术语索引。存储在数据库中的多个参考文档中的每一个的图示可以包括来源于每个参考文档的文本部分中的一个代表性文本字符串以及一个对应的本地参考术语索引。可以在文本部分中识别多个文本术语。可以为该多个文本术语中的每一个分配至少一个相关联的本地术语权重。可以参考全局术语索引确定一个或多个相关联的本地术语权重。步骤(b)可以包括解析文本部分以识别至少一个或多个文本术语。在步骤(e)中,可以从输入本地索引与相关联于每个对应的参考文档的多个参考本地索引中的每一个的比较中确定相关参考文档。在步骤(e)中,可以从输入文本部分的至少一个或多个文本术语与相关联于每个参考文档的本地参考术语索引中的一个或多个术语的至少一个交集中确定相关参考文档。可以根据选自下组的各项中的一个或多个参数将这些权重分配到该至少一个或多个术语中的每一个单词罕见度;标点符号 ’大写;单词序列;术语的组合;或在每个术语中的单词的数目。所识别的相关参考文档的图示包括来源于所识别的相关参考文档中的每一个的文本的一个代表性文本字符串。来自每个文档的代表性文本字符串可以包括在具有重要权重的一个或多个所选相关文本术语之前和/或之后的所选数目的文本单词。第三和第四方面的方法可以被适配为例如相对于所显示的文本中的一个或多个从一个或多个外部数据源中获得信息。该方法可以进一步包括在来自该一个或多个外部数据源信息的基础上再形成输入本地术语索引的步骤。该一个或多个外部数据源可以包括互联网,该互联网包括例如一个或多个互联网可访问数据库和/或一个或多个互联网网页;一个或多个新闻信息源;一个或多个金融和/或股票信息源;一个或多个科学信息源;一个或多个专业社会信息源等等;以及可以是一个或多个初级、次级和/或第三级信息源。第三和第四方面的方法可以进一步包括和/或可替代地包括在一个用户界面上显示相关参考文档的步骤。该用户界面可以提供在一个客户端装置上。该用户界面可以包括相对于所显示的参考文档中的每一个用于接收用户输入的装置。合适的客户端装置的例子可以是个人计算机、数字助理、个人数字助理、蜂窝电话、移动电话、智能电话、传呼器、数字平板电脑、笔记本计算机、互联网家电、以及其他基于处理器的装置。客户端装置可以是通用计算机或便携式计算装置。客户端装置总体上包括一个处理器,该处理器执行存储在连接到该处理器上的计算机可读存储媒质(如随机存取存储器和/或只读存储器)中的计算机指令。这种处理器可以包括微处理器、ASIC、以及状态机。这种处理器包括、或可以与媒质通信,例如存储指令的计算机可读媒质,当由处理器执行时,这些致使处理器执行本文中描述的步骤。该计算机可读媒质可以包括用于执行在本文中披露的一个或多个方法的步骤,所述程序控制数据处理设备的运行,该程序在其上运行以执行该一个或多个方法的步骤。合适的计算机可读媒质的示例可以包括但不限于能够提供为处理器提供计算机可读指令的电子、光学、磁、或其他的存储或传输装置。合适的媒质的其他的示例包括但不限于软盘、CD-ROM、DVD、磁盘、存储芯片、ROM、RAM、ASIC、配置的处理器、所有光学媒质、所有磁带、或其他磁媒质、或计算机处理器可以从其中读出指令的任何其他媒质。此外,多种其他形式的计算机可读媒质可以将指令传输或携带到计算机,包括路由器、私人或公共网络、或其他的有线和无线的传输装置或通道。客户端装置可以进一步包括用于将指令传输或携带到计算机的数据连接,例如连接到一个网络上,例如局域网、或广域网或互联网。在其他的安排中,可以使用内部网。该数据连接可以使用一个合适的无线连接协议的无线数据连接。在其他的安排中,根据本发明的方法可以在单个计算装置中执行。该方法可以进一步包括相对于所显示的文档中的一个或多个通过客户端装置上的用户界面接受用户输入的步骤。该方法可以进一步包括在用于输入的基础上再形成输入本地术语索引的步骤。可替代地,该方法可以进一步包括相对于所显示的文档中的一个或多个例如从一个或多个外部数据源获得信息的步骤。该方法可以进一步包括在来自一个或多个外部数据源的信息的基础上再形成输入本地术语索引的步骤。该一个或多个外部数据源可以包括互联网(包括例如一个或多个互联网可访问数据库和/或一个或多个互联网网页)、一个或多个新闻信息源、一个或多个金融和/或股票信息源、一个或多个科学信息源、一个或多个专业社会信息源等等、并且可以是一个或多个初级、次级和/或第三级信息源。该方法可以进一步包括在再形成的输入本地术语索引的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档的步骤。该方法可以进一步包括输出具有加强相关性的进一步识别的参考文档的图示的步骤。在第三方面的又一个安排中,该方法可以进一步包括以下步骤g)在一个用户界面上显示相关参考文档,该用户界面包括相对于所显示的参考文档中的每一个用于接收用户输入的输入装置;h)相对于所显示的文档中的一个或多个接受用户输入;i)在用户输入的基础上再形成输入术语索引;j)在再形成的输入本地术语索引的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档;以及k)输出具有加强的相关性的进一步识别的参考文档的一个图示。在一个安排中,步骤(i)中的再形成输入本地术语索引可以包括重新分配同样出现在为其接收用户确定的输入的参考文档中的每一个中的输入文本术语的输入本地文本术语权重;在该安排中,步骤(j)可以包括在重新分配的输入本地文本术语权重的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。在步骤(g)中,用户输入装置可以是相对于每个所显示的参考文档用于分配正相关性权重和负相关性权重的一个装置。该权重可以是正权重或负权重。其中该多个权重中的一个或多个是用于所选全局文本术语的一个负权重,可以为该所选全局文本术语分配一个零权重。或者,该权重可以选择权重范围从正到负的一个刻度尺,例如选自例如包括分等级的权重的刻度(非常差)_(差)_(中)_(好)_(非常好)。第三方面的安排可以包括重复步骤(h)到(k),从而识别并输出与在文本部分中的相关文本术语具有增加的加强的相关性的一个或多个进一步相关的文档。第三方面的安排可以进一步包括在具有加强的相关性的参考文档上的重复步骤(h)到(k),以识别并输出具有额外的加强的相关性的参考文档。该额外的相关性信息可以包括一个文档的正的相关性指示。该具体的文档或一个具体文档的负的相关性指示或额外的相关性信息的图示可以选自权重范围从正到负的一个刻度尺,例如选自例如包括分等级的权重的刻度(非常差)-(差)-(中)-(好)-(非常
18好),或可以包括更多或更少的刻度等级的一些其他相似的刻度。对于接收正的相关性指示的每个参考文档而言,同样出现在被识别为正的参考文档的本地文本术语索引中的输入本地索引中的输入文本术语中的每一个的相关联的权重可以增加一个预定的量。该预定的量可以是施加到索引术语权重的一个乘数。该乘数可以是大于1的一个数字。该乘数可以是在1和10000或更大之间的一个数字。该乘数可以是在1和1000之间、1和500之间、1和100之间、1和50之间、1和40之间、1和30之间、1和20之间、1和10之间、1和5之间的一个数字以及例如可以是1、1· 5、2、2· 5、3、3· 5、4,4.5、5、6、7、8、9、10、20、30、40、50、100、200、300、400、500、1000、2000、3000、4000、5000、6000、7000、8000、9000或10000。具体的文本术语可以出现在多个参考文档中。该乘数可以取决于接收一个正指示并且一个具体的文本术语在其中出现的参考文档的数目。例如,一个具体的文本术语仅出现在接收正指示的一个文档中,应用到该文本术语的乘数可以是一个第一乘数。若具体的文本术语出现在两个文档中,应用到文本术语中的乘数可以大于第一乘数的一个第二乘数。相似地,若具体的文本术语出现在三个文档中,应用到文本术语的乘数可以是大于第二乘数的一个第三乘数,等等。作为一个示例,对于一个具有正指示的文档而言,该乘数可以是2,对于两个文档而言是4,对于三个文档而言是8等等。当然还可以使用其他的乘数,并且具体的乘数值可以是动态的,例如考虑到以下因素如用户交互、启发式分析、从一个或多个外部信息源中获得的数据,或本领域技术人员理解的其他因素。对于接收负的相关性指示中的每一个参考文档而言,同样出现在被识别为负的参考文档的本地文本术语索引中的输入本地索引中的输入文本术语中的每一个的相关联的权重可以减少一个预定的量。在具体的安排中,对于接收负的相关性指示中的每一个参考文档而言,同样出现在被识别为负的参考文档的本地文本术语索引中的输入本地索引中的输入文本术语中的每一个的相关联的权重可以减少到一个零值。该预定的量可以是应用到索引术语权重的一个乘数。该乘数可以是零以便一个所选术语与随后的交互不相关在替代的安排中,该乘数可以是在0和1之间的值以便该文本术语具有减少的权重,这将致使该文本术语对随后的计算和匹配查询具有一个减少的影响,但仍对随后的数据库查询保持一些影响以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。在一个所选文本术语出现在接收一个正的相关性指示的一个或多个文档中并且该所选文本术语同样出现在接收一个负的相关性指示的一个或多个文档的场合中,可以基于该正负指示的组合更新在输入本地索引中的所选文本术语的相关联的权重。在该所选文本术语出现在接收一个正的相关性指示的一个或多个文档中并且该所选文本术语同样出现在相等数目的接收一个负的相关性指示的文档的场合中,在输入本地索引中的所选文本术语的相关联的权重可以不改变。在该安排中,在步骤(i)中输入本地术语索引的再形成可以包括在接收一个正的相关性指示的参考文档的本地术语索引中的文本术语的基础上形成一个补充的输入本地术语索引。在该安排中,步骤(j)可以包括在补充的输入本地文本术语索引中的输入本地文本术语权重的基础上查询数据库以识别与该输入文本部分具有加强相关性的一个或多个相关参考文档。对于为其接受一个正的相关性指示的每个参考文档而言,可以将未出现在输入本地术语索引中的被识别为正的术语添加到其中,以一起形成补充的本地文本术语索引以及所确定的相关联的本地索引文本术语权重。该文本部分是包括多个文本单词的一个文本字符串。该文本部分可以是一个文本文档。该文本部分可以是选自下组中的各项中的一个或多个,该组的构成为包括一个或多个单词的一个文本字符串;一个文本文档;一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份简历;一份履历表;一份法律抄录;一份法律文档;或一份新闻报道。参考文档可以是代表选自下组中的各项中的一个或多个中的一个文档的文本文档,该组的构成为一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份招聘广告;一份法律抄录;一份法律文档;或一份新闻报道。可以为参考文档中的每一个分配一个代表与输入文本部分的相关性的文档相关性得分。根据一个第四方面,提供了一种用于提炼搜索结果的方法。这些搜索结果可以包括所选多个参考文档的一个图示。所显示的参考文档可以相关于包括一个或多个搜索术语的输入文本部分。所选多个参考文档可以包括一个数据库中的多个文档的一个子集。该方法可以包括从搜索术语中形成一个本地术语索引的步骤。本地术语索引可以包括一个或多个文本术语。每个本地文本术语可以与一个本地文本术语权重相关联。该方法可以进一步包括在一个用户界面上接收并显示搜索结果的步骤。用户界面可以提供在如上披露的一个客户端装置上,并且包括相对于所显示的参考文档中的每一个或多个用于接收用户输入的装置。该方法可以进一步包括在所显示的参考文本的一个或多个上接收用户输入的步骤。该方法可以进一步包括在用户输入的基础上再形成输入术语索引的步骤。该方法可以进一步包括在再形成输入本地术语索引的基础上查询数据库以识别与搜索术语具有加强的相关性的一个或多个文档的步骤。该方法可以进一步包括输出具有加强的相关性的进一步识别的参考文档的一个图示的步骤。在第四方面的示例安排中,提供了一种用于提炼搜索结果的方法,这些搜索结果包括所选多个参考文档的一个图示,所显示的这种参考文档相关于包括一个或多个搜索术语的输入文本部分、包括在一个数据库中的多个文档的一个子集的所选多个参考文档,该方法包括以下步骤
a)从搜索术语中形成一个本地术语索引,该本地术语索引包括一个或多个文本术语,每个本地文本术语与一个本地文本术语权重相关联;
b)接收这些搜索结果并将其显示在一个用户界面上,该用户界面包括相对于多个所显示的参考文档中的一个或多个用于接收用户输入的输入装置;
c)在所显示的参考文档中的一个或多个上接受用户输入;
d)在用户输入的基础上再形成本地术语索引;
e)在再形成输入本地术语索引的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个文档;以及
f)输出具有加强的相关性的进一步识别的参考文档的一个图示。在步骤(d)中,再形成本地术语索引可以包括步骤(d. 1)重新分配同样出现在为其接收用户确定的输入的参考文档中的每一个中的输入文本术语的输入本地文本术语权重的步骤;并且其中步骤(e)可以包括(e. 1)在重新分配的输入本地文本术语权重的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档的步
马聚ο在步骤(a)中针对本地文本术语中的每一个的本地文本术语权重可以是相等的。在步骤(a)中针对本地文本术语中的每一个的本地文本术语权重可以来源于一个全局文本术语索引。该全局文本术语索引包括与全局文本术语权重相关联的多个文本术语。在具体的安排中,这些全局文本术语权重可以来源于多个文档的文本术语分析。在步骤(d)中,再形成输入本地术语索引包括步骤(d. 2)在接收一个正的相关性指示的文档的本地术语索引中的文本术语的基础上,形成一个补充的输入本地术语索引,其中步骤(e)可以包括步骤(e^)在补充的输入本地术语索引中的输入本文本术语权重的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。对于接收一个正的相关性指示的每个参考文档而言,可以将未出现在本地术语索引中的被识别为正的新的术语添加到其中以形成补充的本地文本术语索引并且确定用于新术语的相关联的本地索引文本术语权重。对于接收一个负的相关性指示中的每一个参考文档而言,在被识别为负的未出现在本地术语索引中的参考文档中的术语在随后的数据库搜索/查询中权重下降,以便它们不太可能涉及到确定一个相关文档的匹配。这可以通过用一个乘数(例如在0和1之间的值)修改出现在被识别为负的文档中的文本术语的权重来实现,以减少该权重并且因此减少该文本术语在确定相关文档中的影响。这也可以利用一个乘数(例如在0和1之间的一个值)以减少该权重。根据一个第五方面,提供了一种用于提炼搜索结果的系统。这些搜索结果可以包括与一个或多个搜索术语相关的所选多个文档的一个图示。该所选多个文档可以包括在一个数据库中的多个文档的一个子集。该系统可以包括用于从搜索术语中形成一个本地术语索引的装置。该本地术语索引包括一个或多个文本术语。每个本地文本术语与一个本地文本术语权重相关联。该系统可以进一步包括用于在一个用户界面上接收并显示搜索结果的装置。该用户界面可以是提供在如上披露的客户端装置上并且可以包括相对于所显示的参考文本中的每一个用于接收用户输入的装置。该系统可以进一步包括用于在所显示的文档中的一个或多个上接收用户输入的用户输入装置。该系统可以进一步包括用于分析用户输入并且在用户输入的基础上再形成输入本地术语索引的处理装置。该系统可以进一步包括用于在再形成的输入本地术语索引的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个文档的查询装置。该系统可以进一步包括输出具有加强的相关性的进一步识别的参考文档的图示的输出装置。在第五方面的一个具体的示例安排中,提供了一种提炼搜索结果的系统,这些搜索结果可以包括与一个或多个搜索术语相关的所选多个文档的一个图示,该所选多个文本包括在一个数据库中的多个文档的一个子集。该系统可以包括
用于从搜索术语中形成一个本地术语索引的装置,该本地术语索引包括一个或多个文本术语,每个本地文本术语与一个本地文本术语权重相关联;
用于在一个用户界面上接收并显示搜索结果的装置,该用户界面包括相对于所显示的参考文档中的每一个用于接收用户输入的输入装置;用于在所显示的文档中的一个或多个上接受用户输入的用户输入装置;用于分析用户输入并且在用户输入的基础上再形成输入本地术语索引的处理装置;用于在再形成的输入本地术语索引的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个文档的查询装置;以及
输出具有加强的相关性的进一步识别的参考文档的图示的输出装置。根据一个第六方面,提供了一种分析输入文本部分并且检索与该文本部分相关的文档的系统。该系统可以包括用于接收包括一个输入文本部分的输入的输入装置。该系统可以进一步包括识别在文本部分中的至少一个文本术语的识别装置。该系统可以进一步包括用于分配与至少一个文本术语相关联的至少一个权重的分配装置。该系统可以进一步包括用于形成至少一个文本术语的输入本地术语索引和至少一个相关联的本地术语权重的标引装置。可以参考存储在一个数据库中一个全局术语索引确定该至少一个相关联的本地文本术语。该全局文本术语包括多个全局文本术语和相关联的全局文本术语权重,并且从多个参考文档中形成。可以将参考文档中的每一个的图示存储在数据库中。该系统可以进一步包括用于查询数据库以相对于输入文本部分识别一个或多个相关和的参考文档的查询装置。该系统可以进一步包括用于输出识别的相关参考文档的图示的输出装置。在第六方面的示例安排中,提供了一种分析输入文本部分并且检索与该文本部分相关的文档的系统,该系统包括用于接收包括一个输入文本部分的输入的输入装置;识别在文本部分中的至少一个文本术语的识别装置;用于分配与至少一个文本术语相关联的至少一个权重的分配装置;用于形成至少一个文本术语的输入本地术语索引和至少一个相关联的本地术语权重的标引装置,其中该至少一个相关联的本地文本术语是参考存储在一个数据库中存储的一个全局术语索引所确定的,该全局文本术语包括多个全局文本术语和相关联的全局文本术语权重,并且从多个参考文档中形成,其中这些参考文档中的每一个的图示存储在数据库中;用于查询数据库以相对于输入文本部分识别一个或多个相关的参考文档的查询装置;以及用于输出所识别的相关参考文档的图示的输出装置。在一个具体的安排中,存储在数据库中的多个参考文档中的每一个的图示包括或该参考文档或到其的一个链接。该图示可以进一步包括用于每个参考文档的一个对应的本地参考术语索引。在又一个具体的安排中,存储在数据库中的多个参考文档中的每一个的图示包括来源于每个参考文档的文本部分的一个代表性文本字符串。该图示可以进一步包括一个对应的本地参考术语索引。可以在文本部分中识别多个文本术语。可以为多个文本术语中中的每一个分配至少一个参考全局术语索引所确定的相关联的本地术语权重。在第六方面的系统可以进一步包括用于在一个用户界面上显示相关参考文档的显示装置。该用户界面可以提供在如上披露的一个客户端装置上。该用户界面包括相对于所显示的参考文档中的每一个用于接收用户输入的装置。该系统可以进一步包括在所显示的文档中的一个或多个上接收用户输入的用户输入装置。该系统可以进一步包括用于分析用户输入并且再形成输入本地文本术语索引的处理装置。该系统可以进一步包括用于在再形成的输入本地文本术语索引的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档的查询装置。该系统可以进一步包括用于输出具有加强的相关性的进一步识别的参考文档的图示的装置。在第六方面的又一个示例安排中,该系统可以包括用于在一个用户界面上显示相关参考文档的显示装置,该用户界面包括相对于所显示的参考文档中的每一个用于接收用户输入的输入装置;在所显示的文档中的一个或多个上接收用户输入的用户输入装置;用于分析用户输入并且再形成输入本地文本术语索引的处理装置;用于在再形成的输入本地文本术语索引的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档的查询装置;以及用于输出具有加强的相关性的进一步识别的参考文档的图示的装置。输入本地术语索引的再形成可以包括重新分配同样出现在为其接收用户确定的输入的参考文档中的每一个中的输入文本术语中的输入本地文本术语权重。此外,在再形成的输入本地文本术语索引的基础上查询数据库可以包括在重新分配的输入本地文本术语权重的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。在其他的安排中,输入本地术语索引的再形成可以包括在接收一个正的相关性指示的文档的本地术语索引中的文本术语的基础上形成一个补充的输入本地术语索引。此外,在再形成输入本地文本术语索引的基础上查询数据库包括在补充的输入本地文本术语索引中的输入本地文本术语权重的基础上,查询数据库以识别与输入文本部分具有加强相关性的一个或多个相关参考文档。根据一个第七方面,提供了一种包括用于分析文本部分并且检索与该文本部分相关的文档的程序的计算可读媒质,该程序控制一个数据处理设备的运行,该程序在其上运行以执行以下步骤
a)接收包括一个输入文本部分的一个输入;
b)识别在该文本部分中的至少一个文本术语;
c)分配与该至少一个文本术语相关联的至少一个权重;
d)形成至少一个文本术语的一个输入本地索引和至少一个相关联的本地术语权重,其中该至少一个相关联的本地术语权重是参考存储在一个数据库中的全局术语索引所确定的,该全局术语索引包括多个全局文本术语和相关联的全局文本术语权重,并且从多个参考文档中形成,其中这些参考文档中的每一个的图示存储在数据库中;
e)查询数据库以识别与输入文本部分相关的参考文档中的一个或多个;以及
f)输出所识别的相关参考文档的一个图示。在具体的安排中,该程序可以额外地运行以执行进一步的步骤
g)在一个用户界面上显示相关参考文档,该用户界面包括相对于所显示的参考文档中的每一个用于接收用户输入的输入装置;
h)相对于所显示的文档中的一个或多个接受用户输入;
i)在用户输入的基础上再形成输入本地术语索引;
j)在再形成的输入本地术语索引的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档;以及
k)输出具有加强的相关性的进一步识别的参考文档的一个图示。根据一个第八方面,提供了一种包括用于提炼搜索结果的程序的计算机可读媒质,这些搜索结果包括所选多个参考文档的一个图示,所显示的这种参考文档与包括一个或多个搜索术语的一个输入文本部分相关,该所选多个文档包括多个文档在一个数据库中的一个子集,所述程序控制一个数据处理设备的运行,该程序在其上运行以执行以下步骤
a)从搜索术语中形成一个本地术语索引,该本地术语索引包括一个或多个文本术语,每个本地文本术语与一个本地文本术语权重相关联;
b)在一个用户界面上接收并显示搜索结果,该用户界面包括相对于所显示的多个参考文档中的一个或多个用于接收用户输入的输入装置;
c)在所显示的文档中的一个或多个上接受用户输入;
d)在用户输入的基础上再形成输入本地术语索引;
e)在再形成的输入本地术语索引的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个文档;以及
f)输出具有加强的相关性的进一步识别的参考文档的一个图示。在上述方面和/或安排中的任何一个中,相对于形成一次搜索查询的结果的参考文档中的一个或多个,可以从例如一个或多个外部数据源中获得进一步的信息。该进一步的信息可以用于在来自一个或多个外部数据源的基础上再形成输入本地术语索引。一个或多个外部数据源可以包括互联网(例如一个或多个互联网可访问数据库和/或一个或多个互联网网页)、一个或多个新闻信息源、一个或多个金融和/或股票信息源、一个或多个科学信息源、一个或多个专业社会信息源等等、并且可以是一个或多个初级、次级和/或第三级信息源。在上述方面和/或安排的任何一个中,该文本部分可以是包括多个文本单词的一个文本字符串。该文本部分可以是一种文本文档。该文本部分可以选自下组中各项中的一个或多个,该组的构成为包括一个或多个单词的一个文本字符串;一个文本文档;一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份简历;一份履历表;一份法律抄录;一份法律文档;或一份新闻报道。文本部分可以包括大量的文本术语、例如高达或超过5个单词、或高达或超过10个、高达或超过20个、高达或超过50个、高达或超过100个、高达或超过500个、高达或超过1000个、高达或超过5000个、高达或超过10000个、高达或超过20000个、高达或超过50000个、高达或超过100000个、高达或超过250000个、高达或超过500000个、高达或超过1000000个或更多的单词。在上述方面和/或安排中的任何一个中,可以在文本部分中识别多个文本术语。可以为多个文本术语中的每一个分配至少一个相关联的本地术语权重。该至少一个或多个文本术语可以包括在输入文本部分内的单词型术语。相关术语可以包括在输入文本部分内的双词型术语。该至少一个或多个文本术语可以包括在输入文本部分内的三词型术语。文本部分可以包括大量的文本术语、例如高达或超过5个文本术语、或高达或超过10个、高达或超过20个、高达或超过50个、高达或超过100个、高达或超过500个、高达或超过1000个、高达或超过5000个、高达或超过10000个、高达或超过20000个、高达或超过50000个、高达或超过100000个、高达或超过250000个、高达或超过500000个、高达或超过1000000个或更多术语,并且取决于可用的处理能力。附图简要说明现将参考附图仅通过示例描述本发明的安排,其中

图1是根据在此披露的本发明的安排用于分析一个或多个参考文档的方法的示意性图示;图2A和2B是根据在此披露的本发明的安排的系统的示意性图示;图3是根据本发明的安排用于分析一个文本部分并且检索与该文本部分相关的文档的方法的示意性图示;图4是使用用户输入以及与结果的交互用于改善所检索到的文档与文本部分的相关性的进一步提炼方法的示意性图示;图5和6是根据在此披露的方法的安排用户与该系统交互以搜索与一个输入文本部分相关的文档的示意性图示;以及图7是图2A和2B的系统的一种进一步的安排的示意性图示。
具体实施例方式以下将参考附图更全面地描述本发明的方面和安排,其中示出了本发明的示例安排。能够以不同形式安排本发明的方面和/或安排,然而,不应将其理解为限定为在本文中提出的安排。然而,提供当前描述的安排以提供完全的披露从而表达在本领域的技术人员构想的本发明的范围。在附图的描述中,相似的参考号指代相似的元素和/或特征。在本文中披露的方法和系统提供一种基于文档到文档搜索的新的途径。这些搜索方法解决了围绕结果相关性、数据库兼容性、搜索的速度和效率几个关键问题。总之,具有使本文中公开的系统实现这些目标的几个关键组件。本搜索方法学的第一组件是将文档输入解析成为适合于数据库搜索的形式。主要由于输入文本(即从一个输入文档中获得的)的绝对大小,这不同于标准的搜索方法学,但是也因为若该输入在实际搜索之前被分析,相关性计算更有效率。第二是系统基于与用户及时的交互以及与结果设定的先前交互学习和改进的能力。为了改进结果的相关性,本发明公开的方法和系统使用一种基于它们在本地(在输入文档中)和全局(数据库中的所有文档)环境两者中的出现为输入文本术语加权的方法。该加权方法学允许搜索快速实时地量化结果设定的相关性。全局索引创建了一个查找表,该查找表提供了一个具体的文本术语相对于其他的文本术语价值如何的信息。该价值产生于许多因素,如术语的罕见度、在先前正/负结果中的出现等。该全局索引基于单独搜索和用户与系统的交互连续更新、调节并改进其自身的打分方法学。将本地得分与全局得分组合以计算在搜索中来自输入文档的输入文本术语的整体重要性。本地权重也考虑不同的因素,例如文本术语在文档中出现的次数、在文档中的位置、标点符号、大写、或格式等等,除其他因素之外。在具体的安排中,本公开的搜索方法学主要寻找在两个文档之间的交集(共同或相等的术语),并且然后将合适的权重应用到这些交集。该结果是一个相对相关性得分,其可以用于对结果集进行排序。广泛地说,本公开的系统和方法利用在输入文档或文本部分的文本术语以及存储在数据库中的多个参考文档之间的交集,以至少初始地确定似乎相关于(例如从上下文)输入文档的那些参考文档的一个子集。当具有大量的输入术语,比如说在一个输入文档中具有大量的文本需要去分析并且与参考文档中的每一个比较以确定相关的匹配,使用这种交集是有价值的。随着在系统中的文档的数目变大,然而只使用交集去确定一个较好的匹配变得越来越困难。例如,使用如Google 的搜索引擎的互联网搜索将典型地导致具有与少数输入搜索术语的交集术语的数百万文档(网页)。在这样大量的搜索结果的面前,如何确定相关性?随着交集数目的增加,总体上相关性增加,但是对于少量的搜索术语和大量的可能结果而言,几乎不可能依赖这个比率用于相关结果。当以少量的输入术语查找时,需要搜索术语本身的额外的信息来找到更多的相关结果。为此,本文公开的方法和系统直接结合用户与搜索结果的交互以确定如何扩大输入文本信息,例如添加额外的术语、或者使用动态的加权系统增加或减少某些术语的相对重要性。因此在本文中公开的是用于分析输入搜索术语并且将这些输入搜索术语与存储在数据库中的相关信息匹配的方法和系统,但也是基于用户交互动态地改进搜索结果的(正负)相关性的方法和系统。此外,相对于形成一次搜索查询的结果的文档,例如还可以通过从一个或多个外部数据源获得进一步的信息来改进搜索结果的相关性。可以利用进一步的信息在来自一个或多个外部数据源的基础上再形成输入本地术语索引。一个或多个外部数据源可以包括互联网(包括例如一个或多个互联网可访问数据库和/或一个或多个互联网网页)、一个或多个新闻信息源、一个或多个金融和/或股票信息源、一个或多个科学信息源、一个或多个专业社会信息源等等、并且可以是一个或多个初级、次级和/或第三级信息源。因为本公开描述的搜索方法学和系统不是一贯依赖元数据(尽管这种系统为改进的结果可以容易地合并),而仅是文本的一部分(即切片),其与使用包括文本的任何尺寸的文档的任何系统或应用兼容。可以容易地将任何文档或批量的文档添加到该系统中,对于如工作搜索的应用,其中工作被公告在许多不同的网址上,每个网址具有它们自身的数据设计结构,这具有许多优点。对于许多其他应用,例如具有变化结构的大型法律数据库、或研究杂志文章,其中不同的杂志常常具有略微不同的格式结构,这也同样适用。当然,本公开的系统也容易被适配为多种应用,其中在搜索中使用的并且存储在数据库中的通用格式的文档具有非常相似的结构,例如专利说明书数据库。现参考图1,提供了一种用于对多个参考文档101进行标引并且在数据库111中存储该索引(以及其他信息)的方法100。在该方法中,提供了多个N个参考文档101,每个文档包括一个文本部分,这期望被标引用于将来的搜索功能。该方法包括解析多个文档101中的每一个的文本部分的步骤103。解析操作被适配为识别每个文档101的文本部分中的至少一个、典型地多个文本术语。这些文本术语可以包括单词型术语、和/或多词型术语。多词型术语可以包括具有两个、三个、四个、五个、或更多个单词的术语。实践中,发现高达三个单词的多单词文本术语(即单-双和三词型术语)在数据库的要求的处理能力和标引能力之间提供一个合适平衡。在文档101中的每一个的文本部分可以是包括多个文本单词的一个文本字符串,或文本部分可以是一个文本文档。或者该文本部分可以是选自下组中的各项中的一个或多个,该组的构成为包括一个或多个单词的一个文本字符串;一个文本文档;一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份简历;一份履历表;一份法律抄录;一份法律文档;或一份新闻19/42 页
报道,或包括文本的其他相似的项目。参考文档101中的每一个可以是文本文档、或包括一个文本部分的文档,并且可以是代表选自下组中的各项中的一个或多个的一个文档的文本文档一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份招聘广告;一份法律抄录;一份法律文档;或一份新闻报道,或包括文本的其他相似的项目。一旦识别了这些文本术语,为它们各自分配一个权重105。在该基本的例子中,针对每个术语的权重可以相同(例如设定为“1”的值),其中没有偏向于该文本术语的任何一个的重要性和相关性。替代地,与每个文本术语相关联的权重可以包括多个权重的组合,每个权重与在每个对应的文档101中识别中的每一个文本术语相关联。可以相对于一个或多个参数确定一个或多个权重,并且这些参数可以涉及相关于文档中的具体的文本部分中的每一个术语的特征。例如,这些参数可以选自以下各项,除其他因素之外一个具体的术语在单个文档中出现的次数;文本术语在一个文档中的位置;术语的大写;在术语周围的标点符号;临近术语的文本部分中的单词;单词罕见度;单词序列;文本术语的组合;或在每个文本术语中的单词的数目。在其他的安排中,针对每个文本术语的权重可以是来源于用户输入或本领域技术人员理解的其他合适的参数的用户定义的权重。该文本部分可以是包括多个文本单词的一个文本字符串。该文本部分可以是一个文本文档。该文本部分是选自下组中的各项中的一个或多个,该组的构成为包括一个或多个单词的一个文本字符串;一个文本文档;一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份简历;一份履历表;一份法律抄录;一份法律文档;或一份新闻报道。参考文档可以是代表选自下组中的各项中的一个或多个的一个文档的文本文档,该组的构成为一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份招聘广告;一份法律抄录;一份法律文档;或一份新闻报道。可以为参考文档中的每一个分配代表与输入文本部分相关性的一个文档相关性得分。该方法100接下来包括形成多个对应的本地文档索引107,其中每个本地文档索引与一个对应的文档101相关联。每个本地文本索引107包括包含在每个关联的对应的文本101中的一个或多个本地文本术语以及与关联的文档中的每一个文本术语相关联的本地权重。如下文讨论,文档101中的每一个及其关联的本地索引107存储在数据库中用于随后的搜索和检索操作。在一个具体的简单示例安排中,考虑了例如单个参数,如一个具体的术语在相关联的参考文档中出现的次数,可以从如下关系计算本地文本术语权重
其中&是在一个文档出现队次在该文档中的具体的术语的本地权重。方程(1)将应用到所有的文本术语而不管在每个术语中的单词的数目。该因数X是可以用来按要求衡量本地术语权重的一个任意因数。针对每个文档中中的每一个文本术语的本地权重&存储
27在针对每个对应的文档的本地索引中。本地术语权重计算可以是相同的,而不管文本部分或文档,即文档是否是存储在数据库中的一个参考文档,或由用户上传的一个输入文本部分或文档,通过使用方程(1)可以确定在每个例子中的本地术语权重计算。方法100进一步包括从多个本地文档索引107中形成一个全局文档索引109的步骤。该全局文档索引109包括包含在多个文档101中的每一个中的多个全局文本术语以及与每个全局文本术语相关联的一个全局权重。在具体的安排中,可以相对于与参考全局文本术语相关联的一个参数确定与这些全局文本术语中的每一个相关联的全局权重。例如,相对于大多数流行的有用的文本术语,在确定全局权重中可以是有用的一个参数可以是一个具体的术语在数据库中的所有文档中是如何流行。最流行有用的文本术语可以任意定义的,但总体上将涉及在数据库中的所有参考文档中具有最高出现率的术语,从中可以获得有用的相关性信息。这样的一个参考术语因此不可能是独立地不提供任何相关性或背景信息的非常常用的单词,因此简单的连接词(例如“该”、“中”、“在”、“由”、“一个”等)通常不会被选择为一个参考术语。例如,在具体的安排中,为每个文本术语分配了一个权重或得分,其涉及该单词相关于系统中的其他术语如何罕见。典型地,权重越高,术语的质量越好,即可以确定更多的关于包含该文本术语的文档上下文信息。为避免极其罕见的术语不相称地影响系统的搜索能力,一般不考虑仅出现相对几个文档中(例如在所有参考文档中的一个或两个中)的术语。这也对术语的拼写错误具有影响,在这种错误的精确复制仅发生在较小百分比例的参考文档场合,将典型地不被系统认为是将一个具体的上下文传递到其出现的文档中的唯一的术语。可替代地,系统可以记录这些极其罕见的术语和/或带有拼写错误的术语,但是可以为它们分配为一个零权重。在一个具体的示例中,使用来自2009年的澳大利亚网址的在线工作广告,发现大约60 %的有用的单词型术语、75 %有用的双词型术语、以及88 %的有用的三词型术语出现在少于3个文档中,因此,明显地降低了被要求能够提供关于每个广告的要求足够相关的上下文信息的有用的文本术语的总数。相似地,在太多文档中出现的文本术语,例如大于一个具体的百分比例,例如大于10%、或者大于15%、大于20%、大于25%或者更高,被确定为太平常以至于不能提供足够的唯一的上下文信息,并且这样的文本术语也会被赋予一个零全局权重。在一种示例的安排中,全局索引可以包括单词型、双词型、以及三词型文本术语。可以根据以下关系式确定针对在数据库中中的每一个单词型的文本术语的全局权重权利要求
1.一种用于对多个文档进行标引的方法,每个文档包括一个文本部分,该方法包括a)解析该多个文档各自的文本部分以形成多个对应的本地文档索引,每个索引与一个对应的文档相关联,并且在一个数据库中存储本地文档索引,其中每个本地文档索引包括包含在该对应文档中的多个本地文本术语以及与每个文本术语相关联的一个本地权重;以及b)从该多个本地文档索引中形成包括包含在该多个文档中的多个全局文本术语的一个全局文档索引以及一个与每个全局文本术语相关联的全局权重;其中与这些全局文本术语中的每一个相关联的全局权重是相对于与一个参考全局文本术语相关联的参数所确定的。
2.如权利要求1所述的方法,其中与这些全局文本术语中的每一个相关联的全局权重是进一步相对于其中的每个全局文本术语出现在所有多个文档中的文档的数目所确定的。
3.如权利要求1或权利要求2所述的方法,其中与这些全局文本术语中的每一个相关联的全局权重是相对于该参考文本术语在其中出现的文档的数目所确定的。
4.如权利要求1至3中任意一项所述的方法,其中与这些全局文本术语中的每一个相关联的全局权重是进一步相对于用户交互所确定的。
5.如权利要求4所述的方法,其中与每个文本术语相关联的权重包括多个权重的组合,其中每个权重与每个全局文本术语相关联。
6.如权利要求5所述的方法,其中一个或多个权重是选自下组,该组的构成为术语在一个单个文档中出现的次数;术语在所有多个文档中出现的次数;文本术语在一个文档中的位置;术语的大写;术语周围的标点符号;临近术语的文本部分中的单词;单词罕见度;单词序列;文本术语的组合;或在每个文本术语中的单词的数目;或用户定义的权重。
7.如权利要求5或权利要求6中任意一项所述的方法,其中该权重可以一个正权重或一个负权重,或选自一个权重范围从正到负的刻度尺。
8.如权利要求7所述的方法,其中该多个权重中的一个或多个是用于一个所选全局文本术语的负权重,为该所选全局文本术语分配了一个零权重。
9.如权利要求6所述的方法,其中该用户定义的权重来源于一个自学习系统,该系统包括用于一个所选全局文本术语的多个用户定义的权重。
10.一种对多个文档进行标引的系统,每个文档包括一个文本部分,该系统包括一个解析模块,该解析模块用于解析该多个文档各自的文本部分以形成多个对应的本地文档索引,每个索引与一个对应的文档相关联,其中每个本地文档索引包括包含在该对应文档中的多个本地文本术语以及与每个文本术语相关联的一个本地权重;一个数据库,该数据库被适配为在一个存储器中存储这些本地文档索引中的每一个;一个处理器,该处理器用于分析该多个本地文档索引并且从该多个本地文档索引中形成一个全局文档索引,该全局文档索引包括包含在该多个文档中的多个全局文本术语以及与每个全局文本术语相关联的一个全局权重;其中与这些全局文本术语中的每一个相关联的全局权重是相对于与一个参考全局文本术语相关联的参数所确定的;并且其中该全局文档索引存储在该数据库中并且与这些本地文档索引中的每一个有关。
11.一种分析文本部分并且检索与该文本部分相关的文档的方法,该方法包括a)接收包括一个输入文本部分的一个输入;b)识别在该文本部分中的至少一个文本术语;c)分配与该至少一个文本术语相关联的至少一个权重;d)形成该至少一个文本术语的一个输入本地索引以及至少一个相关联的本地术语权重,其中该至少一个相关联的本地术语权重是参考在一个数据库存储的一个全局术语索引所确定的,该全局术语索引包括多个全局文本术语以及多个相关联的全局文本术语权重并且从多个参考文档中形成,其中这些参考文档中的每一个的一个图示存储在该数据库中;e)查询该数据库以识别与该输入文本部分相关的这些参考文档的一个或多个;以及f)输出所识别的相关参考文档的一个图示。
12.如权利要求11所述的方法,其中存储在该数据库中的多个参考文档中的每一个的图示包括或该参考文档或到其的一个链接,并且该图示进一步包括用于每个参考文档的一个对应的本地参考术语索引。
13.如权利要求11所述的方法,其中存储在一个数据库中的多个参考文档中的每一个的图示包括来源于每个参考文档的文本部分的一个代表性文本字符串以及一个对应的本地参考术语索引。
14.如权利要求11至13中的任一项所述的方法,其中在该文本部分中识别多个文本术语,为该多个文本术语中的每一个分配了至少一个相关联的本地术语权重,该权重是参考该全局术语索引所确定的。
15.如权利要求11至14中的任一项所述的方法,其中步骤(ll.b)包括对文本部分进行解析以识别该至少一个或多个文本术语。
16.如权利要求11至15中的任一项所述的方法,其中在步骤(11.e)中该相关参考文档是从该输入本地索引与相关联于每个对应的参考文档的多个参考本地索引中的每一个的比较中确定的。
17.如权利要求12至15中的任一项所述的方法,其中在步骤(11.e)中该相关参考文档是从该输入文本部分的至少一个或多个文本术语与相关联于每个参考文档的本地参考术语索引中的一个或多个术语的交集中所确定的。
18.如权利要求11或权利要求14中的任一项所述的方法,其中该至少一个或多个文本术语包括在该输入文本部分内的多个单词型术语。
19.如权利要求11、14或18中的任一项所述的方法,其中该至少一个或多个文本术语包括在该输入文本部分内的多个双词型术语。
20.如权利要求11、14、18或19中的任一项所述的方法,其中该至少一个或多个文本术语包括在输入文本部分内的多个三词型术语。
21.如权利要求11、14、18、19或20中的任一项所述的方法,其中这些本地权重被分配到根据从下组中所选的一个或多个参数的至少一个或多个术语中的每一个,该组的构成为单词罕见度;标点符号;大写;单词序列;术语的组合;或在每个术语中的单词的数目。
22.如权利要求11所述的方法,其中所识别的相关参考文档的图示包括一个代表性文本字符串,该字符串来源于所识别的相关参考文档中的每一个的文本。
23.如权利要求22所述的方法,其中来自每个文档的代表性文本字符串包括在具有重要权重的一个或多个所选相关文本术语之前和/或之后的所选数目的文本单词。
24.如权利要求11所述的方法,进一步包括以下步骤g)在一个用户界面上显示这些相关参考文档,该用户界面包括输入装置,该装置用于相对于所显示的参考文档中的每一个接收用户输入;h)相对于所显示的文档中的一个或多个接受用户输入;i)在用户输入的基础上再形成该输入本地术语索引;j)在再形成的输入本地术语索引的基础上,查询该数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档;以及k)输出具有加强相关性的进一步识别的参考文档的一个图示。
25.如权利要求M所述的方法,其中在步骤i)中,再形成该输入本地术语索引包括i. 1)重新分配同样出现在为其接收用户确定的输入的参考文档中的每一个中的输入文本术语的输入本地文本术语权重;以及其中步骤j)包括j. 1)在这些重新分配的输入本地文本术语权重的基础上,查询该数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。
26.如权利要求M所述的方法,其中在步骤g)中,用户输入装置是相对于每个所显示的参考文档用于分配正和负相关性权重的一个装置。
27.如权利要求M所述的方法,进一步包括重复步骤h)到(M.k),从而识别并输出与在文本部分中的相关文本术语具有增加的加强相关性的一个或多个进一步相关的文档。
28.如权利要求M所述的方法,进一步包括在具有加强的相关性的参考文档上的重复步骤h)到(M.k),以识别并输出具有额外的相关性加强的参考文档。
29.如权利要求M所述的方法,其中该额外的相关性信息包括或一个具体的文档的正的相关性指示或一个具体的文档的负的相关性指示。
30.如权利要求四所述的方法,其中对于为其接收正的相关性指示的每一个参考文档而言,同样出现在被识别为正的参考文档的本地文本术语索引中的输入本地索引中的输入文本术语中的每一个的相关联的权重增加了一个预定的量。
31.如权利要求四所述的方法,其中对于为其接收负的相关性指示每个参考文档而言,同样出现在被识别为负的参考文档的本地文本术语索引中的输入本地索引中的输入文本术语中的每一个的相关联的权重减少了一个预定的量。
32.如权利要求四或30中的任意一项所述的方法,其中该预定的量可以是施加到索引术语权重的一个乘数。
33.如权利要求32所述的方法,其中该乘数可以是零以便一个所选术语与随后的交互没有相关性。
34.如权利要求四所述的方法,其中在一个所选文本术语出现在接收一个正的相关性指示的一个或多个文档中并且该所选文本术语同样出现在接收一个负的相关性指示的一个或多个文档中的场合,基于该正指示与负指示的一种组合来更新在输入本地索引中的所选文本术语的相关联的权重。
35.如权利要求34所述的方法,其中在该所选文本术语出现在接收一个正的相关性指示的一个或多个文档中并且该所选文本术语同样出现在相等数目的接收一个负的相关性指示的文档中的场合,在输入本地索引中的所选文本术语的相关联的权重不改变。
36.如权利要求30所述的方法,其中在步骤i)中,再形成输入本地术语索引包括i. 2)在接收一个正的相关性指示的文档的本地术语索引中的文本术语的基础上,形成一个补充的输入本地术语索引;以及其中步骤j)包括j. 2)在补充的输入本地文本术语索引中的输入本地文本术语权重的基础上,查询数据库以识别与该输入文本部分具有加强相关性的一个或多个相关参考文档。
37.如权利要求36所述的方法,其中对于为其接收一个正的相关性指示的每一个参考文档而言,将未出现在输入本地术语索引中的被识别为正的术语添加到其中,以与所确定的相关联的本地索引文本术语权重一起形成补充的本地文本术语索引。
38.如权利要求11至37中的任意一项所述的方法,其中该文本部分是包括多个文本单词的一个文本字符串。
39.如权利要求11至37中的任意一项所述的方法,其中该文本部分是一个文本文档。
40.如权利要求11至37中的任意一项所述的方法,其中为这些参考文档中的每一个分配了一个代表与输入文本部分的相关性的文档相关性得分。
41.如权利要求11至37中的任意一项所述的方法,其中该参考文档是代表选自下组的各项中的一个或多个中的一个文档的文本文档,该组的构成为一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份简历;一份专利说明书;一份招聘广告;一份法律抄录;一份法律文档;或一份新闻报道。
42.如权利要求11至37中的任意一项所述的方法,其中该文本部分是选自下组的各项中的一个或多个,该组的构成为包括一个或多个单词的一个文本字符串;一个文本文档;一本书;一篇文章;一个文本记录;一份简历;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份简历;一份履历表;一份法律抄录;一份法律文档;或一份新闻报道。
43.一种提炼搜索结果的方法,这些搜索结果包括所选多个参考文档的一个图示,这种参考文档被显示为相关于包括一个或多个搜索术语的输入文本部分,所选多个参考文档包括数据库中的多个文档的一个子集,该方法包括以下步骤a)从这些搜索术语中形成一个本地术语索引,该本地术语索引包括一个或多个文本术语,每个本地文本术语与一个本地文本术语权重相关联;b)接收并显示这些搜索结果在一个用户界面上,该用户界面包括相对于多个所显示的参考文档中的一个或多个用于接收用户输入的输入装置;c)接收在所显示的参考文档中的一个或多个上的用户输入;d)在用户输入的基础上再形成该本地术语索引;e)在该再形成的输入本地术语索引的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个文档;以及f)输出具有加强的相关性的进一步识别的参考文档的一个图示。
44.如权利要求43所述的方法,其中在步骤中,再形成该输入本地术语索引包括d.1)重新分配同样出现在为其接收用户确定的输入的参考文档中的每一个中的输入本地文本术语的输入文本术语权重;以及其中步骤(43. e)包括e.1)在这些重新分配的输入本地文本术语权重的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。
45.如权利要求43所述的方法,其中在步骤a)中用于本地文本术语中的每一个的本地文本术语权重是相等的。
46.如权利要求43所述的方法,其中在步骤a)中用于本地文本术语中的每一个的本地文本术语权重来源于一个全局文本术语索引,该全局文本术语索引包括与全局文本术语权重相关联的多个文本术语,其中这些全局文本术语权重来源于多个文档的文本术语分析。
47.如权利要求43所述的方法,其中在步骤中,再形成该输入本地术语索引包括d.2)在接收一个正的相关性指示的文档的本地术语索引中的文本术语的基础上,形成一个补充的输入本地术语索引;以及其中步骤(43. e)包括e.2)在补充的输入本地术语索引中的输入本文本术语权重的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。
48.如权利要求47所述的方法,其中对于为其接收一个正的相关性指示的每一个参考文档而言,将未出现在本地术语索引中的被识别为正的新的术语添加到其中以形成补充的本地文本术语索引并且确定用于这些新术语的相关联的本地索引文本术语权重。
49.如权利要求47或权利要求48中的任意一项所述的方法,其中对于为其接收一个负的相关性指示的每一个参考文档而言,从其中减去未出现在本地术语索引中的被识别为负的参考文档中的术语,以形成补充的本地文本术语索引。
50.一种提炼搜索结果的系统,这些搜索结果包括与一个或多个搜索术语相关的所选多个文档的一个图示,该所选多个文本包括数据库中的多个文档的一个子集,该系统包括用于从搜索术语中形成一个本地术语索引的装置,该本地术语索引包括一个或多个文本术语,每个本地文本术语与一个本地文本术语权重相关联;用于在一个用户界面上接收并显示搜索结果的装置,该用户界面包括相对于所显示的参考文档中的每一个用于接收用户输入的输入装置;用于接收所显示的文档中的一个或多个上的用户输入的用户输入装置;用于分析用户输入并且在用户输入的基础上再形成输入本地术语索引的处理装置;用于在再形成的输入本地术语索引的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个文档的查询装置;以及输出具有加强的相关性的进一步识别的参考文档的图示的输出装置。
51.一种分析输入文本部分并检索与该文本部分相关的文档的系统,该系统包括用于接收一个输入的输入装置,该输入包括一个输入文本部分;识别在文本部分中的至少一个文本术语的识别装置;用于分配与该至少一个文本术语相关联的至少一个权重的分配装置;用于形成至该少一个文本术语的一个输入本地术语索引和至少一个相关联的本地术语权重的标引装置,其中该至少一个相关联的本地文本术语是参考存储在一个数据库中的一个全局术语索引所确定的,该全局术语索引包括多个全局文本术语和相关联的全局文本术语权重并且从多个参考文档中形成,其中这些参考文档中的每一个的图示存储在该数据库中;用于查询数据库以相对于输入文本部分识别一个或多个相关参考文档的查询装置;以及用于输出所识别的相关参考文档的图示的输出装置。
52.如权利要求51所述的系统,其中存储在数据库中的多个参考文档中的每一个的图示包括该参考文档或一个到其的链接,并且该图示进一步包括用于每个参考文档的一个对应的本地参考术语索引。
53.如权利要求51所述的系统,其中存储在数据库中的多个参考文档中的每一个的图示包括来源于每个参考文档的文本部分的一个代表性文本字符串以及一个对应的本地参考术语索引。
54.如权利要求51至53中的任一项所述的系统,其中在文本部分中识别多个文本术语,为该多个文本术语中中的每一个分配了参考全局术语索引所确定的至少一个相关联的本地术语权重。
55.如权利要求51所述的系统,还包括用于在一个用户界面上显示相关参考文档的显示装置,该用户界面包括相对于所显示的参考文档中的每一个用于接收用户输入的输入装置;接收所显示的文档中的一个或多个上的用户输入的用户输入装置;用于分析用户输入并且再形成输入本地文本术语索引的处理装置;用于在再形成的输入本地文本术语索引的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档的查询装置;以及用于输出具有加强的相关性的进一步识别的参考文档的图示的装置。
56.如权利要求55所述的系统,其中再形成输入本地术语索引包括重新分配同样在为其接收用户确定的输入的参考文档中的每一个中出现的输入文本术语的输入本地文本术语权重;以及在该再形成的输入本地文本术语索引的基础上查询数据库包括在该重新分配的输入本地文本术语权重的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。
57.如权利要求55所述的系统,其中输入本地术语索引的再形成包括在接收一个正的相关性指示的文档的本地术语索引中的文本术语的基础上形成一个补充的输入本地术语索引;以及在该再形成的输入本地文本术语索引的基础上查询数据库包括在补充的输入本地文本术语索引中的输入本地文本术语权重的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。
58.一种包括用于分析文本部分并且检索与该文本部分相关的文档的程序的计算可读媒质,所述程序控制一个数据处理设备的运行,该程序在其上运行以执行以下步骤a)接收包括一个输入文本部分的一个输入;b)识别在该文本部分中的至少一个文本术语;c)分配与该至少一个文本术语相关联的至少一个权重;d)形成该至少一个文本术语的一个输入本地索引和至少一个相关联的本地术语权重,其中该至少一个相关联的本地术语权重是参考存储在一个数据库中的一个全局术语索引所确定的,该全局术语索引包括多个全局文本术语和相关联的全局文本术语权重并且从多个参考文档中形成,其中这些参考文档中的每一个的图示存储在该数据库中;e)查询该数据库以识别与输入文本部分相关的参考文档中的一个或多个;以及f)输出所识别的相关参考文档的一个图示。
59.一种包括根据权利要求58所述的程序的计算机可读媒质,其中该程序运行以执行进一步的步骤g)在一个用户界面上显示这些相关参考文档,该用户界面包括相对于所显示的参考文档中的每一个用于接收用户输入的输入装置;h)相对于所显示的文档中的一个或多个接受用户输入;i)在用户输入的基础上再形成该输入本地术语索引;j)在该再形成的输入本地术语索引的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档;以及k)输出具有加强的相关性的进一步识别的参考文档的一个图示。
60.一种包括用于提炼搜索结果的程序的计算机可读媒质,这些搜索结果包括所选多 个参考文档的一个的图示,所显示的这种参考文档与包括一个或多个搜索术语的一个输入文本部分相关,该所选多个文档包括在一个数据库中的多个文档的一个子集,所述程序控制一个数据处理设备的运行,该程序在其上运行以执行以下步骤a)从这些搜索术语中形成一个本地术语索引,该本地术语索引包括一个或多个文本术语,每个本地文本术语与一个本地文本术语权重相关联;b)在一个用户界面上接收并显示这些搜索结果,该用户界面包括相对于多个所显示的参考文档中的一个或多个用于接收用户输入的输入装置;c)接受所显示的文档的一个或多个上的用户输入;d)在用户输入的基础上再形成该输入本地术语索引;e)在该再形成的输入本地术语索引的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个文档;以及f)输出具有加强的相关性的进一步识别的参考文档的一个图示。
全文摘要
用于对多个文档进行标引的方法与系统,每个文档包括一个文本部分,该方法包括a)解析该多个文档各自的文本部分以形成多个对应的本地文档索引,每个索引与一个对应的文档相关联,并且在一个数据库中存储本地文档索引,其中每个本地文档索引包括包含在该对应文档中的多个本地文本术语以及与每个文本术语相关联的一个本地权重;b)从该多个本地文档索引中形成包括包含在该多个文档中的多个全局文本术语的一个全局文档索引以及一个与每个全局文本术语相关联的全局权重;其中与这些全局文本术语中的每一个相关联的全局权重是相对于与一个参考全局文本术语相关联的一个参数所确定的。此外,在此披露了用于分析文本部分并且从数据库中检索与该文本部分相关的文档的方法和系统。此外,在此披露了用于提炼搜索结果的方法和系统。
文档编号G06F17/27GK102597991SQ201080049493
公开日2012年7月18日 申请日期2010年9月24日 优先权日2009年9月26日
发明者哈米什·奥格尔维, 欧文·詹姆斯·普莱姆, 菲利普·安东尼·伯恩斯 申请人:哈米什·奥格尔维, 欧文·詹姆斯·普莱姆, 菲利普·安东尼·伯恩斯
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1