知识系统方法和装置的制作方法

文档序号:6419586阅读:383来源:国知局

专利名称::知识系统方法和装置的制作方法
技术领域
:本发明涉及知识系统,更特别地,涉及知识系统在机器翻译、自然语言处理和人工智能系统方面的应用。
背景技术
:I.简介几十年以来,计算机科学各领域中的研究者一直在尝试开发使机器能够以可伸缩的自动方式理解人类所说写的自然语言(如,英语、汉语、阿拉伯语)的方法。虽然可以通过编程让计算机执行特定的任务,目前的技术发展水平还不能提供自动理解单词和短语在上下文中的意义的通用方法或系统。很多应用,包括人类语言的机器翻译(或MT)、语音识别技术、搜索、检索和文本挖掘系统以及人工智能应用,都需要以自动化方式理解自然语言才能实现最佳效果。这样的应用在广泛支持下的显著优点促使大学、政府和企业投资几十年的时间和几十亿以上美元的资本来找寻使得计算机能够处理和理解书面或口头自然语言的方法。由于在这些领域中投入了巨大努力却没有取得突破,科学界中的很多人开始怀疑是否可能实现对自然语言的真实机器理解。甚至很多相信计算机有一天将能够广泛地实现人类理解的支持者也认为那一天仍然很遥远。II.机器翻译的技术发展水平迄今为止,很多语言翻译都是由熟练的翻译人员进行的,而这样做的成本很高。对语言翻译处理进行自动化带来显著的经济效益,包括显著降低翻译成本,以及支持新的对时间敏感的翻译应用,如即时的跨语言文本或语音通信和多语言的日常新闻出版。将文档自动地从一种语言翻译为另一种语言的机器翻译设备和方法在现有技术中是已知的。然而,这些设备和方法通常不能准确地将句子从一种语言翻译为另一种语言,因此需要人们在输出的翻译可以用于多数应用之前对这样的设备产生很多错误进行大量编辑。当前的系统技术发展水平能够在拉丁语系语言的翻译中准确地解析60%至80%的单词,但是由这些系统翻译的在广泛领域中达到出版质量的句子所占百分比通常低于40%。现有的机器翻译系统对非拉丁语系语言翻译的准确度甚至还要低。唯一的例外是对狭小专业范围定制的专用机器翻译系统,这样的系统不进行跨应用领域的处理。再者,多数商用机器翻译系统都需要人们对每个语言配对的每个方向投入几十年的开发工作。实现准确的机器翻译比提供对文档进行逐单词翻译的设备和方法更加复杂。由于每个单词的意义与它所处的上下文高度相关,对句子进行简单的逐单词翻译会导致选择错误的单词、单词顺序不正确和语法单元不连贯。为了克服这些缺点,现有翻译设备的设计是尝试在句子的上下文中基于词汇、形态学、句法和语义规则的组合或集合选择单词的翻译。这些系统已发展了40多年并称为“基于规则”的机器翻译(基于规则的MT)系统,它们是有缺陷的,因为对这样的规则有太多的例外,所以它们不能提供稳定准确的翻译。主要用基于规则的方法提供机器翻译的公司中最著名的是Systran公司,它在20世纪60年代就开始了其机器翻译引擎的开发。规则集合的创建非常费力并且总是不完全的,因为即使可能,让人类开发者将语言的所有微妙之处包括在有限的规则集合中也是非常困难的。除了基于规则的MT外,在最近二十年中已开发出新的机器翻译方法,称为“基于实例”的机器翻译(EBMT)。EBMT使用以两种不同的语言存储在跨语言数据库中的句子(也可能是句子的部分)。当源语言翻译查询匹配数据库中的句子时,数据库产生该句子在目标语言中的翻译,提供在目标语言中的准确翻译。如果源语言翻译查询的部分匹配数据库中的句子的部分,则这些设备尝试准确地确定(映射到源语言句子的)目标句子中的哪一部分是查询的翻译。“源”指一种语言或状态中要翻译为另一种语言或状态的内容,“目标”指要将源翻译成为的语言或状态的内容。现有技术中的EBMT系统不能在广泛的领域中提供语言的准确翻译,因为可能包含无限组跨语言句子的数据库将一直是“不完全”的。并且由于EBMT系统不能可靠地翻译部分匹配,而且有时还会错误地组合正确翻译的部分,这些系统的准确度和基于规则的引擎相似。通常独立使用或连接EBMT使用的另一种机器翻译方法是统计机器翻译(SMT)。SMT系统尝试使用已翻译文档的配对组合只包含目标语言的文档语料库进行自动化翻译处理。与基于规则的MT相比,EBMT和SMT两者都显著降低了对某一语言配对开发翻译引擎的时间。SMT系统的准确度与基于规则的MT及EBMT系统相似,因此不足以在广泛的领域中产生文档翻译。SMT系统使用现有技术中称为“n元语法(n-gram)模型”的方法,并基于Shannon的“噪声信道模型”进行信息转换。这些方法假设翻译总是不完美的,并且从设计上来说,SMT方法就是在训练语料库基础上基于正确翻译的概率来产生翻译。这些方法在翻译每个单词时基于源语言和目标语言中的两个或最多三个其他相邻单词进行“最佳猜测”。随着跨语言和目标语言训练语料库大小的增加,这些方法所获得的边际效益递减,并在过去几年中只做出了微量的改进。例如,过去一些年中在南加州大学开发的质量最高的SMT系统之一最近公布了其SMT系统的测试结果。用特定领域的语料库(加拿大立法程序)进行训练之后,它们的系统正确地翻译了文本句子中的40%(AMTA2002记录,2002年10月)。某些翻译设备组合基于规则的MT、SMT和/或EBMT引擎(称为多引擎机器翻译或MEMT)。虽然这些混合方法与单独的任何系统相比可能产生较高的准确度,其结果仍然不足以在没有大量人类干预和编辑的情况下使用。III.用于语义获取的统计自然语言处理的技术发展水平统计自然语言处理(NLP)的领域包括对各种应用的文本进行自动化机器学习的研发。NLP的一种应用是如上所述用于机器翻译的SMT。虽然各种NLP方法尝试从自然语言中抽取意义,如有关该主题的权威教科书所阐明的那样,目前的技术发展水平离真正的解决方案仍然很远“词汇获取的圣杯是意义的获取。如果我们能够自动地获取意义,那么统计NLP可以对很多任务(如文本理解和信息检索)取得突破性的进展。然而不幸的是,如何以某种可以使用自动化系统操作的方式表示意义还是一个未解决的大问题。”(Manning和Schutze,《统计自然语言处理基础》,第5次印刷,2002年,第312页)。各种组织非常需要更好地管理它们在无组织文本中获取的知识,无组织文本如字处理文档、PDF文件、电子邮件消息等等。虽然可以高效地搜索和检索先前存储在数据库中的信息,现有技术中称为数据挖掘的方法,使用当前技术发展水平的系统对无组织文本(表示世界上的数据中的80%或更多)进行广泛地挖掘来搜索概念和观念还是不可能的。虽然布尔逻辑和其他关键字搜索方法使用包含在用户的查询中的单词来查找信息,可以用大量的其他方式来表示多数概念和观念,其中很多方式并不确切包含甚至并不近似包含特定关键词或其他搜索项。这意味着在进行关键词搜索时,结果中将不包含执行“基于概念”的搜索(不限于用户提供的查询单词)时标识出的很多相关文档。例如,如果将单词串“termsandconditions”作为关键词搜索的部分在引号中提交(表明是确切的字符串),那么系统会找到对“termsandconditions”的引用,但不标识表达相同概念的其他单词和单词串(单词串是处于特定顺序的两个或多个向量的单词)或其他缩写或表示,如“conditionsofuse”、“restrictions”、“tos”、“termsofservice”和“rulesandregulations”等等,用户却可能对这些词感兴趣。系统在查找相关信息时添加搜索查询的近似语义等价的能力将以各种方式增强搜索的质量和效率。再者,不存在包含全部短语级同义词表或近似同义词表的词典。其原因是因为对手动创建每个单词的同义词列表来说,存在太多的两单词和三单词项,更不用说所有长于三个单词的项。现有的使用文本中的模式自动生成同类词汇编的方法已在自然语言的广泛语义获取领域中取得了有限的成功。当前技术发展水平的方法使用出现在文本中的单词模式进行概念抽取,这包含相似度评估方法,如使用各种度量的向量空间模型。这些方法中的某些尝试通过将单个单词标识为上下文中的点来找到同义或相关的单词。某些方法考虑到查询距离不同的单词并关注单个单词相对于查询的邻近程度和共现。这些方法包括基于n-gram的方法(Martin、Ney二元语法和三元语法单词聚类算法,语音通信24,19-37页,1998年;Brown等人基于类的自然语言N-gram模型;计算语言学,18(4),467-479页,1992年;及基于窗口的方法(Brown等人))。该领域中的其他相关著作包括Finch和Carter(1992年,使用统计方法进行Bootstrapping语法分类);Schutze和Pederson(1997年,基于共现的同类词汇编及其在信息检索领域的两种应用),以及其他很多。虽然上下文信息能提供某些结果,但是使用这些方法获得的结果的广度和准确度仍然有限,因此它们在搜索和检索、内容管理及知识管理的商业产品中的实际应用还很有限。很多先进的搜索和文本挖掘应用使用手动指定的语言学规则、语义知识、本体论及分类学。可以使用这些方法和系统提供语义提示,以用于根据分类对数据进行元标注及其他目的。此外,某些系统包括各种监控和非监控统计学习和抽取方法,包括评估添加到搜索和/或分类分析中的相关概率的贝叶斯方法。这些系统不能有效地挖掘文本,因为这些方法不能产生稳定准确(即,相关)的搜索结果。另外,由于元标注包括预先对信息分类以便作为增强搜索的一部分使用,分类确定要求给多维概念加上静态标签(这可以随着时间推移进化或改变分类)。这些系统都不是为挖掘信息并找出和查询项意义等价的其他单词和短语而设计的。系统识别单词或单词串在一种语言中的语义等价的替代表达的能力具有多种应用。除文本挖掘之外,生成任何表达的同义表达的能力也是任何基于语料库的机器翻译系统中非常有效的组件。另外,识别等价意义的表达的能力是对自然语言的机器理解,并且此能力可以为人工智能(AI)应用提供基础。IV.人工智能的技术发展水平对人类语言的机器理解最宏伟的目标是将其用在实现完全人类水平的智能系统,即,能够理性地推理并显示出人类所具有的常识的系统中。这一领域的计算称作“强AI”,其终极目标是使得计算机能够理解自然语言、和人们或其他计算机使用自然语言进行交互、学习概念、做出理解,并执行认知任务。虽然机器翻译系统的任务只是在将信息转换为另一种形式的目的所需的层次理解信息,强AI应用需要具有的能力不仅是理解新信息及它的其他形式和状态,还要以触发系统学习回答问题和执行其他认知任务的方式处理该信息,如通过前提做出结论、通过观察发现关系,及设置子目标来寻求进一步的知识收集,以备预期的将来需要。数学家AlanTuring在1939年发明了图灵检验,这是检验机器是否实现了人类水平智能的概念设计。虽然通过图灵检验的机器不一定完全满足强AI的所有目标的期望,但即便是强AI的最乐观的支持者也认为计算机不能在未来几十年中令人信服地通过图灵检验。现有技术中已知的AI方法在方法上各不相同。绝大多数商业AI应用比起强AI的目标来只能处理范围窄得多的任务。有时将这些应用称为“弱AI”,用它们最多能产生“白痴学者”类型的系统,这样的系统只能够完成范围狭窄的任务,如下国际象棋达到大师水平。用来产生这些系统的各种方法包括手动编码知识和规则,并包括可以学习如何一般化特定编码的知识来执行范围狭窄的任务的系统。现已开发出了训练系统进行学习的其他方法,如神经网络,但这仍然是在范围非常狭窄的领域中。在缺乏实现对自然人类语言的广泛机器理解的真正突破时,关注范围狭窄的问题使得能够对具体任务产生实用的应用。对强AI软件的初步尝试相对较少。现有技术中的典型强AI系统通常使用设计用于特定目的特定计算机语言手动地编码知识,然后使用系统来处理这样的知识,聚合它们来尝试回答问题或执行任务。强AI系统中使用手动创建的编码知识本体的最著名例子是由计算机科学家DougLenat在CycCorp开发的Cyc系统。Cyc系统要求人类手动编码大量的常识及特定于某些领域的知识(并理解该知识的不同表示),它们是该系统所遵循的“规则”。Cyc中手动编码的规则或知识的例子包括“一旦人死亡,他们就停止购买”或“树通常是在户外的”。Cyc从1984年以来一直在开发,却没有产生具有广泛人类智能的系统。迄今为止,他们已编码了少于两百万条的具体规则。强AI的关键突破将会有深远的影响。随着使用可伸缩计算机处理和存储器在人类水平的智能帮助下来解决我们所面对的事情和问题,技术进步的进化将显著提高。强AI在基础上的突破将从本质上改变我们所知的整个世界。发明概要I.简介本发明提供对关联概念的知识库的获取、重建和生成进行自动化并在很多应用中使用这样的知识库的方法和装置,所述应用包括人类语言的机器翻译、基于概念搜索(非关键字)进行无组织文本(或其他数据)的搜索和检索、语音识别、数据压缩和人工智能系统。在本发明中,由于概念在无组织的信息中会重现,通过研究概念之间的关系来创建关联概念的知识库。概念的表达可以但不必在数量、长度或大小上类似,且可以用任何媒体(如,文本、可视图像、声音、红外波、气味、符号)来表达或表示它们。本发明也提供创建和使用知识库来将概念从一种状态转换为其他状态,或者处理知识库以便将其用于实际应用的方法和装置。在本发明的一个实施例中,以无限的衍生重建已创建的知识库,将其用于人类语言翻译应用。本发明的另一个实施例可以用于创建概念之间的关联的知识库,以便建立它们彼此的关系。当两种或多种类型的概念以特定方式一起出现时,这些概念的关联/关系可以用作人工智能应用的触发事件。本发明的各个基本方面包括知识库获取、知识库重建、知识库生成和使用知识库来转换概念或处理知识库用于实际应用。本发明的知识库获取方面识别概念和它们在不同状态中的表示。因此,对处理书写文本的应用,本发明识别单词和单词串单元的意义,包括不同语言中相当于彼此的翻译的概念,和在同种语言中表达相同意义的概念。本发明的知识获取部分也识别以某种方式在语义上相关的非同义单词和单词串(如,反义、同类成员、通常相关的概念)。本发明的知识重建方面将通过知识获取学习到的意义单元拼凑在一起无限衍生成为更复杂的概念。这允许将关联概念的知识库用作在广泛范围或在一种状态内处理不同状态概念的构建块。因此,关联概念的知识库可以用于将整个文档翻译为目标语言,以及在同种语言中以不同的形式表示复杂的概念,这使得如概念搜索、自然语言接口、语音识别等等这样的应用能够进行自动化的理解。本发明的知识生成方面使用已识别出的连接的复杂概念的模式触发对先前学习的知识的使用(或学习新知识)来执行认知任务。本发明通过识别表达每个重现概念的多种方式并建立不同概念之间的关系来实现这些和其他目标。因此,在本发明的一个实施例中,以人类语言表示概念,并且系统通过记录两个或多个概念的频率和邻近程度关系及其在文本中的共现来做出关联。如上所述,概念由任意大小的单词串表示。II.作为意义单元的单词串不像现有技术中的SMT系统、语义相似度的向量空间度量,及其他NLP监控或非监控学习,本发明匹配和/或关联任意大小的重现单词串和其他任意大小的重现单词串的模式。这种在无组织文本中检查作为意义单元的包括终止单词(如“it”、“an”、“a”、“of”、“as”、“in”这样的单词)的确切单词串的方法应用于本发明的所有方面。通过识别和关注作为单个单元的重现单词或任意长度的单词串,本发明可以获取单词在上下文中的意义。例如,本发明取决于上下文将“rock”视为可能表示各种意义(如,石头或一种音乐)。当你查看单词串时,进一步的意义变得明显“rock”可以表示石头或困难时期中顽强的人,“rockband”可以表示一组演奏摇滚音乐的音乐家。类似地,连续出现的单词“betweenarock”取决于它们所处的更长的单词串而具有不同的意义。如果它们存在于单词串“betweenarockband’ssets”中,则其意义与它们出现在“betweenarockandahardplace”中很不相同。再者,“betweenarockandahardplace”这样的表达其整体具有不能通过分析其部分而容易地理解的意义。本发明将语言中的每个重现单词作为独立的概念进行处理与现有的机器翻译和机器理解的自动语义获取方法形成强烈对比。另外,本发明将语言中的每个重现单词串作为单独概念处理也与现代语言理论形成对比,后者关注单个单词在其他单个单词构成的上下文中的语义值。在语言学理论中,术语“搭配”和“习语”指由于多单词表达具有不能通过查看成分单词容易地理解的意义而将单词串作为整体的特殊情况。实际上,成分单词已经失去了它们单独的语义值,并且仅关联于当作为整体的部分时表达的概念。例如,“pitchblack”就是搭配的例子,而“betweenarockandahardplace”就是习语的例子。相比之下,本发明不只是将所有单词、搭配和习语作为意义的原子单元,而且将所有的单词串作为可能的意义的原子单元来处理。取决于它们所处的确切单词串,本发明允许单词串内的单词保持它们核心的语义值、以微妙的方式改变它们的核心语义值,或完全不同于它们的典型意义。例如,“baseball”是一种游戏,“abaseball”是一个圆形的物体,“abaseballteam”是一支运动队伍,而“abaseballplayer”是一个人。在需要对自然语言进行机器理解的应用中处理意义单元时,本发明将这些包括共有单词(baseball)的不同单词串单独作为独立的概念处理。虽然本发明不使用语言学上的语法规则且不标注单词串的句子成分,本发明的方法仍然允许将单词串的上下文作为一个单元处理并保留其语义特性。III.语言翻译和用于文本挖掘的自然语言理解的方法和系统。自然语言接口和其他应用A.概述本发明提供创建和补充概念的跨语言关联数据库(即,知识库)的几种方法和装置。这些数据库通常关联表示特定概念或信息的第一种形式或状态的数据和表示相同概念或信息的第二种形式或状态的数据。然后使用这些数据库,以便例如高效地使用本发明中称为双锚点重叠的知识重建方法将包含这些概念的文档从一种状态翻译为另一种状态。一种构建跨语言单词串翻译数据库的方法使用原先由人类翻译的文档(平行文本)来识别单词串在翻译的文档中的共现。本发明的第二种构建跨语言单词串翻译数据库的方法在语言配对中通过使用来自几个其他语言单元的已知单词串翻译推导单词串翻译。本发明的另一种方法使用跨语言字典和大型目标语言语料库以及特定的搜索方法来识别单词串翻译。本发明的另一种方法称为双锚点重叠,它通过自动地根据原先学习到的关联推导新关联来扩展跨语言单词串数据库(这也称为本发明的知识重建方面)。本发明的知识获取方面的另一种方法和系统通过检查以该语言或状态表达的概念的多次出现来创建单种语言或状态的关联概念知识库。例如,在本发明中,可以通过检查由单词和单词串表示的概念在不同的英语文档中的重现来创建英语的关联概念知识库。通过检查周围概念(由相邻的单词或单词串表示)的共现,然后识别同种语言中具有类似模式的其他单词和/或单词串,从而使得系统能够识别与初始(查询)单词或单词串语义等价(或具有其他语义关系)的单词和单词串,本发明对单种语言表达的概念(由单词或单词串)执行知识获取。单种状态或语言中的知识获取使用本发明的一个实施例中执行共有频率分析的方法。总的来说,共有频率分析是本发明中将两个或多个单词和/或单词串互相关联及与其他第三单词和单词串关联的方法。本发明中连接相邻数据片段的知识重建方面是双锚点重叠方法,数据片段在此实施例中由单词串表示。本发明的这个方面通过只连接和在其左右的那些单词串具有重叠单词(或单词串)的单词串来装配相邻单词串。系统可以使用双锚点重叠按照系统尚未碰到的组合连接相邻的已知构建块单词串,来生成新的复杂概念或以新形式表示已知的概念。本发明的双锚点重叠方法用于连接由单词串(或其他数据片段)表示的概念,以便跨两种语言翻译文档及连接单种语言内的相邻概念。本发明的知识生成方面允许用户基于在彼此附近出现的两个不同的单词串共享的关联的第三单词串的共现(共有频率分析)触发后面的步骤。此知识生成方面将支持强AI应用。系统使用CFA触发用户设计的逻辑链中后面的CFA来解决一般性的问题。系统分析问题或句子,将其解析为已知单词串的所有可能集合。然后系统分析单词串的不同可能组合来识别触发分析中后面步骤的已知模式(即,在一起以特定顺序表达的两个或多个单词和/或单词串)。B.方法和系统在机器翻译的领域中,系统使用几种方法中的任何一种来进行单词串翻译的跨语言知识获取,并使用知识重建方法组合那些翻译。这显著改进了现有翻译技术和系统的质量并代表技术发展水平的进展。一种跨语言知识获取的方法可以通过使用两种或多种语言的文档来实现。文档可以是彼此的确切翻译,即,“平行文本”文档,或可以是两种语言的有关相同主题的文本,即,“可比较文本”文档。此获取可以直接在源语言和目标语言之间(用平行或可比较文本)进行。如用于语言翻译时,系统可以自动跨两种语言构建语义等价的概念(以单词或单词串表示)的跨语言数据库。本发明的此方法和系统的一个实施例在可用的跨语言文档中选择第一种语言(源语言)中具有多次出现的所有单词和单词串的至少第一次和第二次出现。然后在第二种语言(目标语言)的文档中选择第一个单词范围和第二个单词范围,其中这些目标语言范围近似对应于在源语言文档中选择的单词或单词串的第一次和第二次出现的位置(从而包含源单词或单词串的翻译概率较高)。接下来,查看目标语言中的那些范围,系统比较第一个单词范围中找到的单词和单词串与在第二个单词范围(以及对应于源语言中的每个单词或单词串的其他次出现的所有其他目标单词范围)中找到的单词和单词串,定位不同的单词范围共有的单词和单词串,并将那些已定位的共有单词和单词串存储在跨概念数据库中。然后本发明在跨概念数据库中关联在目标语言的范围中定位的共有单词和单词串与源语言中选择的单词或单词串,在如图1所示的关联频率调整之后,通过它们的关联频率(重现次数)对其分级。通过识别单词和单词串在平行或可比较文本中跨语言的共现,随着更多平行或可比较文本可用,系统可以识别更多的关联。一旦基于目标语言范围中的单词和单词串的频率做出了关联,就可以通过查找它们反过来在源语言的文档中对应的范围进一步校验那些可能的目标语言单词串翻译。然后系统可以找出源语言范围内最频繁的单词和单词串来检查初始选择的单词或单词串是否在通过此反向学习处理得到的最频繁的源语言单词和单词串之中。通过自动地构建平行文本中频繁重现的单词串之间的翻译(而不管单词串的大小),本发明使用字符串中对每个单词所需的内嵌上下文获得翻译。这些单词串在内嵌上下文中的准确翻译提供可以按适当的不同组合用于翻译文档的构建块(使用本发明的知识重建方面)。随着系统学习得到单词串的翻译,这些翻译将存储在数据存储库中,当将来再次需要用它们翻译文档时,这样可以提供快得多的翻译。系统可以操作文档来学习重现的单词串,因为它们顺序出现在检查过的平行文本中,或可以基于已选择的输入到系统中的特定平行文档学习重现的单词串,因为它们包含源语言中需要翻译为目标语言的单词。后一种操作的形式为“通过做来学”,并且它是即时学习的例子。本发明也提供这样的跨语言知识获取方法和装置,它们使用由本发明自动构建的数据库将不同语言聚合在一起来推导两种语言之间尚未直接通过平行文本学习到的单词串翻译。本发明的这种多语言杠杆方法使用通过将源语言翻译为已知的中间语言的单词串翻译、然后将中间语言翻译为目标语言间接生成的共有结果。相同的通过中间的第三语言进行翻译然后再将其翻译为目标语言的跨语言知识获取多语言杠杆方法也可以在这些语言中使用任何现有技术的机器翻译系统实现。即使这些系统在单独使用时的准确度水平较低,且通过中间的第三语言在目标语言中会得到更少的公共结果,当几个结果相同时,翻译的准确度较高。再者,通过在确认之前使用双锚点重叠处理要求相邻的单词串翻译在目标语言中具有较多重叠(如,在每一方都具有两单词、三单词、或四单词串重叠),可以确认这些结果。本发明的下一种跨语言知识获取方法在构建不同语言的单词串之间的关联时使用单语言的目标语言语料库和/或平行文本,以及下述中的任何一个或更多现有技术的机器翻译系统、现有技术的跨语言字典,和/或定制的跨语言字典。本发明的这些方法使用称为“洪流”的技术,通过它使用现有技术中的定制字典或系统(通常对每个单词产生多个翻译可能性,即使某些或所有的翻译可能性不适用于该特定上下文)来生成源语言单词串中的每个单词的所有可用翻译(目标翻译可以是单词或短语)。使用这些单词到单词(和/或单词到短语)翻译可能性的不同组合来搜索目标语言文档(单语言语料库或平行文本)来识别源语言单词串的候选翻译。此处理称为“洪流”,因为这些单词到单词(和/和单词到短语)组合在目标语言文档中象“洪流”一样。和使用平行文本进行跨语言学习相比,单词串翻译的洪流方法需要更多的计算,但是因为它不需要平行文本就可以构建单词串翻译,它对语言翻译提供更广的覆盖面。除知识库获取之外,本发明的双锚点重叠技术使用知识库中的条目重建较大的概念(如,将较小的单元成为拼凑在一起连贯的较大单元)。因此,本发明也提供了使用以跨两种语言的不同单词串表达的构建块概念将整个文档从一种语言或状态转换为另一种语言或状态的方法和装置。本发明拥有或构建包含与目标语言数据片段关联的源语言数据片段的数据库。本发明使用跨语言单词串翻译数据库,并且仅在源语言和目标语言双方当中确定具有重叠单词或单词串的单词串的翻译(除非它是翻译后的片段中的第一个或最后一个单词串)来翻译文本。在较佳实施例中,本发明通过访问上述数据库,并从文档的第一个单词开始识别数据库中最长(由单词数衡量)同时也在要翻译的文档中的单词串来翻译文本。然后系统从数据库中检索与已定位的源语言单词串关联的目标语言单词串。然后系统(从要翻译的文档中)选择存在于数据库中并与先前在文档中识别的单词串具有重叠单词或单词串的第二个单词串,并从数据库中检索与第二个源语言单词串关联的目标语言单词串。如果目标语言单词串关联具有重叠单词或单词串,则组合目标语言单词串关联(排除重叠中的冗余)来构成翻译。如果否,则从数据库中检索(或即时学习)其他目标语言与源语言单词串的关联,并通过单词的重叠来检验组合,直到成功为止。显然,如果不能识别或学习目标语言的重叠单词串翻译,则可以使用其他(更短或更长的)源语言的替换重叠单词串,并检验它们对应的目标语言关联是否重叠,直到成功为止。通过在数据库中查找具有和先前识别的源语言单词串重叠的单词或单词串的最长单词串,选择源语言文档中的下一个单词串,并继续上述处理,直到将整个源语言文档翻译为目标语言文档。只将与源语言和目标语言中的左边和右边相邻单词串具有一个或多个重叠单词的单词串作为概念翻译组合的集合进行确认。重叠单词串翻译链的起点和终点可以由句子的起点和终点,或任何其他可识别的文本单元(如,短语、标题、段落、文章、章节等等)来定义。上述跨语言双锚点重叠方法和处理增加了使每个单词串翻译与上下文及语法上合适的相邻单词串组合的可能性。确认相邻片段之间的连接所需的重叠单词数量是用户定义的。用户定义的确认单词串组合所需的相邻片段之间的重叠单词最小数量越高,结果越准确。跨语言双锚点重叠技术可以解决现有的EBMT系统碰到的“边界冲突”问题并增加了在整个翻译中使用正确上下文的可能性。另外,基于跨语言学习(或其他知识获取方法)成为候选但不能由用户定义的统计显著性确认的单词串翻译,可以根据用户定义的需求要求两个相邻单词串之间具有更多重叠单词来确认。也可以使用具有已知翻译的较小子集的单词串(即,内部单词串)检查较长的未确认候选单词串翻译中的跨语言重叠来确认较长单词串中间的未重叠部分。注意,翻译方法并不限于等长的单词串或在源语言和目标语言句子中位于相同位置的单词串,因此它是非常灵活的。本发明还提供称为频率关联数据库创建的通用方法和装置来创建单种语言的单词和/或单词串之间的邻近程度关系频率表。然后使用这些邻近程度关系基于单种语言内的共有关联并通过本发明的共有频率分析来做出单词或单词串与其他单词和/或单词串之间的关联。本发明在单种语言内的知识获取方法使用包围每个重现概念(由单词或单词串表示)的上下文(由单词和单词串表示)。可以识别语义关系并用其显著改进搜索和文本挖掘应用、机器翻译和人工智能应用。本发明允许在单种状态,如单种语言内使用本发明的共有频率分析方法进行知识库的获取。在一个使用共有频率分析的实施例中,系统识别表示同义概念以及概念之间其他类型的关系的单词和单词串。例如,通过检查英语文本,可以对标识语义等价(即,同义)单词和单词串的单词或单词串做出关联(如,“nation’slargest”和“biggestinthecountry”)。本发明也提供分析单词或单词串以查找单词和单词串关联并产生表示相反概念的单词和单词串(当它们存在时),表示定义、例子和其他相关概念的单词和单词串,相关概念包括共同总类概念的成员(如,“red”相对于“blue”和“limegreen”都是作为颜色类的成员),及其他相关信息(如,查询“MountEverest”可能返回“highestpointintheworld”)的方法和装置。本发明通过识别与当前分析的单词或单词串相邻的任意大小的单词串,并识别这些相邻单词串是否在当前分析的单词或单词串左边或右边,来识别单词和/或单词串之间的这些关系。共享很多相同的左边和右边相邻单词串的单词和单词串彼此之间具有强语义关系。通常,共享最大数量的不同的右边和左边上下文单词串并包括更长(更多单词)的右边和左边上下文单词串的单词和单词串,是语义上最接近或语义最相关的。单语言数据库中获取和装配的知识(包括即时生成的知识)可以用来扩展现有技术中的关键词搜索和文本挖掘方法。例如,可以通过搜索关键词的语义等价及其他与输入的关键词密切相关的单词和单词串来增强这些方法。本发明中通过识别共有的左边和右边的上下文单词串来识别语义等价的项的方面也可以用来破译语义代码。如果将(该上下文中)不适合或罕见的单词或单词串用作表示其共有的一个或多个意义之外的意义的代码,它在罕见上下文中的重复使用使得本发明能够识别该语义代码底层的真实的语义。附录A(179页)(译者注原文中的页码)提供对各种查询使用RCFA的关联结果例子。前15个例子展示查询的部分结果(即,每个查询最靠前的20-25条返回),虽然最终的例子(对查询“itisimportanttonote”)显示出总共有1000条返回。这些结果反映出比任何现有技术强壮得多的自动化语义获取方法。这些结果的关键是将流入(即,英文中在查询的左边)和流出(即,英文中在查询的右边)查询概念的单词串视为上下文的单个单元,并使用两边的单词串上下文来找出由共享某些相同的左边和右边的单词串上下文的单词和单词串表示的其他语义单元。使用本发明的双锚点重叠技术,由同种语言的不同单词串表示的相同概念也可以在重叠概念的链中进行互相替换,以产生由重叠的语义等价概念组成的多个句子,这些重叠的语义等价概念组合起来表示相同的较大概念。通过与本发明的双锚点重叠技术(如上对跨语言翻译所述)一起提供同种语言的语义等价概念数据库,本发明可以在很多不同的派生中重现相同的较大概念。双锚点重叠,即本发明的知识重建部分,对语音识别和其他自然语言识别应用非常有用,并提供以不同的单词串组合表达的相同概念的扩展搜索组合。此能力也能对文本挖掘任务(如实体关系相互引用和追踪)以及其他任务提供非常有效的方法。本发明中生成语义等价的单种语言知识获取方法的方面也可以作为机器翻译应用中的组件使用。对由于缺乏信息或任何其他原因而不能翻译的源语言单词串,可以在其位置生成要翻译的替代源语言单词串。另外,源语言单词串的语义等价和/或目标语言单词串候选翻译的语义等价都有助于确认正确的翻译。本发明也提供共有频率分析方法和装置,这样的方法和装置在智能应用中通过基于它们在文本中彼此的邻近程度,识别两个或多个单词或单词串共同具有的对第三单词和/或单词串的关联,以任何数量的方式使用重现单词和/或单词串之间的关系来回答问题。为智能应用创建的数据库可以通过单种语言的文档(或替代地使用跨语言文本)来构建。相邻或重叠(或具有某些其他密切的邻近程度关系)的两个或多个单词和/或单词串在问题、请求或句子中的出现可以触发本发明中由用户设计或由系统学习得到的不同类型的共有频率分析。经触发的共有频率分析将识别未出现在问题、请求或句子中并在其他可用文本中与在问题、请求或句子中提供给系统的两个或多个单词和/或单词串共享邻近程度关系的单词和单词串。这些提供的单词和/或单词串共有的第三单词或单词串关联可以用于识别共有频率分析链中的下一个步骤,以理解问题或命令,并提供答案或执行任务。本发明提供强AI的方法,这样的方法通过表示为上下文中的单词或单词串的任何概念的语言关联级别和分类来提供动态地自动创建知识库的基础。只要有足够的训练文本,此能力就能对可以由智能应用触发器充分利用的所有情况提供知识库。在某种意义上,通过构建下一步的“触发器”由系统在基于它们所属的语义类识别单词和/或单词串的特定已知模式(由本发明对语义等价和等价类的共有频率分析识别)时使用,用户训练本发明如何思考由概念的通用模式表示的一类情况。通过单词和/单词串(和/或已知的语义等价)特定的识别模式及识别满足更大的一般化模式的一组概念的出现来识别概念的通用类,系统可以在识别了那些通用模式时触发策略(一旦由用户训练成这样)、执行下面的逻辑步骤(知识库查找或下一步的共有频率分析)。一旦用户创建了足够多的“通用策略触发器”,系统就能够学习自动地对很多其他情况识别适当的触发器。这些由用户设置的初始触发器可以包括设计用于教系统如何对不同目的自动设置触发器的触发器。本发明的另一个目标是将人类语音和其他源产生的声波频率与对它们在每种不同的语言中对应的概念关联,以便在依赖对可听声音的解释的语音识别和其他应用中。本发明的另一个目标是将象素矩阵和其他可视数据表示方法的一般化模式与不同语言表示的对应概念关联,以便在信息收集和人工智能应用的视觉识别中使用。本发明的另一个方面是使用单个符号或记号,如编号或电磁波频率中的点来表示语义等价的概念,这可以用作数据压缩方法。IV.现有技术现有技术的系统不能实现本发明所描述的内容。例如Hargrave的美国专利5,724,593揭示了协助人类翻译者的翻译存储器工具,其中将文本和对应的翻译加载到存储器中。将源语言的文本解析为n-gram。分析源语言n-gram来确定源语言文本内的出现频率并赋予熵权重。去除那些具有特别高或特别低熵权重的N-gram,因为它们不足以用于翻译目的。通过查找输入翻译存在于翻译存储器中的“模糊匹配”,以相反的索引使用余下的n-gram及对应的翻译进行机器辅助翻译,供人类翻译者检查。当源语言文档中任意大小的重现单词串基于它们在平行文本内相同的彼此接近的位置的出现频率(在从子串中减去较大的单词串之后)与目标语言文档中任意大小的重现单词和单词串关联时,Hargrave并不使用平行文本执行单词串关联分析。Hargrave并不间接地通过其他的第三语言来使用单词和单词串的翻译。Hargrave并不使构成源语言单词串及源语言上下文单词和单词串的源语言单词翻译“充斥”目标语言文本。Hargrave并不在单种语言的单词和单词串之间使用查询左边和右边的任意大小的单词串执行单词和单词串关联分析。Hargrave并不要求把要翻译的文档输入解析为源语言中的重叠单词串,也不要求把源语言的目标语言翻译解析为也与其左边和/或右边的相邻翻译具有重叠单词或单词串的单词串来确认翻译。Cherny的美国专利6,085,162揭示了用于在语言之间进行翻译的三维主题数据库,其中数据库的每一层都表示与翻译相关的用户可选择的主题。通过将表示至少两种不同语言源的文本解析为单词来构建数据库。在处理序列的独立分支中,部分地基于如它们的语法功能、语法形式和直接意义这样的信息,将来自两个源的经解析的单词赋予不同的类。然后使用双语词典翻译每个分支中的输入单词来产生每个单词的一个或多个翻译或关联。一起处理来自每个分支的单词关联,以便使用例如神经网络产生关联的向前和向后频率。用于翻译的数据库由层构成,每一层都表示一个主题,且每一层都包含关联频率及对该主题内的所有单词分配的类。当源语言文档中任意大小的重现单词串基于它们在平行文本内相同的彼此接近的位置的出现频率(在从子串中减去较大的单词串之后)与目标语言文档中任意大小的重现单词和单词串关联时,Cherny并不使用平行文本执行单词串关联分析。Cherny并不间接地通过其他的第三语言来使用单词和单词串的翻译。Cherny并不使构成源语言单词串及源语言上下文单词和单词串的源语言单词翻译“充斥”目标语言文本。Cherny并不在单种语言的单词和单词串之间使用查询左边和右边的任意大小的单词串执行单词和单词串关联分析。Cherny并不要求把要翻译的文档输入解析为源语言中的重叠单词串,也不要求把源语言的目标语言翻译解析为也与其左边和/或右边的相邻翻译具有重叠单词或单词串的单词串来确认翻译。O’Donoghue的美国专利5,867,811揭示了如何通过修改对齐的语料库而移除最不可能的语料库对齐,使用单词配对频率来提高由现有技术中的其他方法生成的语料库的质量。对齐的语料库是两个或多个划分为对齐部分的文本实体,其中第一种语言的语料库的每个部分都映射到第二种语言语料库的对应部分。每个部分都可以包括单个句子或短语,但是也可以包括一个单词或整个段落。现有技术中产生对齐的语料库的自动化的系统并不总是可靠的。该发明使用包含对应的单个单词跨两种语言出现配对的频率表的统计数据库来检测对齐文本部分中可能的错误。该发明还使用统计方法通过累积每个块的配对中所有单词配对的单个单词配对分数提供“成块的单词”的对齐分数。当源语言文档中任意大小的重现单词串基于它们在平行文本内相同的彼此接近的位置的出现频率(在从子串中减去较大的单词串之后)与目标语言文档中任意大小的重现单词和单词串关联时,O’Donoghue并不使用平行文本执行单词串关联分析。O’Donoghue并不间接地通过其他的第三语言来使用单词和单词串的翻译。O’Donoghue并不使构成源语言单词串及源语言上下文单词和单词串的源语言单词翻译“充斥”目标语言文本。O’Donoghue并不在单种语言的单词和单词串之间使用查询左边和右边的任意大小的单词串执行单词和单词串关联分析。O’Donoghue并不要求把要翻译的文档输入解析为源语言中的重叠单词串,也不要求把源语言的目标语言翻译解析为也与其左边和/或右边的相邻翻译具有重叠单词或单词串的单词串来确认翻译。Hirakawa的美国专利5,579,224揭示了用于创建字典的系统。将第一种语言的文档和第二种语言的文档加载到存储器中。从第一种语言的文档中抽取单词或字符串,并基于对第二种语言的文档中的单词进行的形态和语法分析,从第二种语言的文档中选择对应的单词。通过比较第一个文档中抽取出的单词附近的单词和第二种语言的文档中选择的候选单词附近的单词,比较第二种语言的文档中选择的候选单词和从第一种语言的文档中抽取的单词。基于上下文和邻近程度对候选单词打分。当源语言文档中任意大小的重现单词串基于它们在平行文本内相同的彼此接近的位置的出现频率(在从子串中减去较大的单词串之后)与目标语言文档中任意大小的重现单词和单词串关联时,Hirakawa并不使用平行文本执行单词串关联分析。Hirakawa并不间接地通过其他的第三语言来使用单词和单词串的翻译。Hirakawa并不使构成源语言单词串及源语言上下文单词和单词串的源语言单词翻译“充斥”目标语言文本。Hirakawa并不在单种语言的单词和单词串之间使用查询左边和右边的任意大小的单词串执行单词和单词串关联分析。Hirakawa并不要求把要翻译的文档输入解析为源语言中的重叠单词串,也不要求把源语言的目标语言翻译解析为也与其左边和/或右边的相邻翻译具有重叠单词或单词串的单词串来确认翻译。Papineni的美国专利5,991,710揭示了通过对目标语言中的目标候选单词集合进行统计打分并识别具有最高分数的候选目标单词集合将源语言翻译为目标语言的系统。该系统使用统计模型在目标语言候选中选择最可能的翻译,并为这样的应用而设计,其中将领域本质上限制于有限数量的符合输入查询的可能翻译。当源语言文档中任意大小的重现单词串基于它们在平行文本内相同的彼此接近的位置的出现频率(在从子串中减去较大的单词串之后)与目标语言文档中任意大小的重现单词和单词串关联时,Papineni并不使用平行文本执行单词串关联分析。Papineni并不间接地通过其他的第三语言来使用单词和单词串的翻译。Papineni并不使构成源语言单词串及源语言上下文单词和单词串的源语言单词翻译“充斥”目标语言文本。Papineni并不在单种语言的单词和单词串之间使用查询左边和右边的任意大小的单词串执行单词和单词串关联分析。Papineni并不要求把要翻译的文档输入解析为源语言中的重叠单词串,也不要求把源语言的目标语言翻译解析为也与其左边和/或右边的相邻翻译具有重叠单词或单词串的单词串来确认翻译。McCarley的美国专利6,092,034揭示了使用繁殖模型和词义模型并使用源语言的单个单词进行快速词义消歧和翻译的统计翻译系统和方法。繁殖模型是描述源语言单词繁殖概率的语言模型,假设源语言单词和源语言单词的上下文使用现有技术中的方法,如极大熵三元语法模型。词义模型是描述目标语言单词是源语言单词的正确翻译的概率的语言模型,假设源语言单词和源语言单词的上下文使用三元语法模型和其他现有技术中的方法。当源语言文档中任意大小的重现单词串基于它们在平行文本内相同的彼此接近的位置的出现频率(在从子串中减去较大的单词串之后)与目标语言文档中任意大小的重现单词和单词串关联时,McCarley并不使用平行文本执行单词串关联分析。McCarley并不间接地通过其他的第三语言来使用单词和单词串的翻译。McCarley并不使构成源语言单词串及源语言上下文单词和单词串的源语言单词翻译“充斥”目标语言文本。McCarley并不在单种语言的单词和单词串之间使用查询左边和右边的任意大小的单词串执行单词和单词串关联分析。McCarley并不要求把要翻译的文档输入解析为源语言中的重叠单词串,也不要求把源语言的目标语言翻译解析为也与其左边和/或右边的相邻翻译具有重叠单词或单词串的单词串来确认翻译。Chanod的美国专利6,393,389揭示了通过将源文本解析为子片段来翻译文本的方法。然后使用现有技术的多种方法中的任何一种将子片段翻译为目标语言。任何具有多个翻译选择的子片段,或由于使用多种方法进行翻译或由于翻译它的方法提供多个选择,都通过用户定义的方法对那些选择进行分级。然后,通过向用户呈现连续地组合每个片段的分级最高的候选所创建的单词串,尝试传达源输入在目标语言中的意义。在另外的实施例中,用户可以换出分级较低的片段或可以显示一个片段的多个选择。当源语言文档中任意大小的重现单词串基于它们在平行文本内相同的彼此接近的位置的出现频率(在从子串中减去较大的单词串之后)与目标语言文档中任意大小的重现单词和单词串关联时,Chanod并不使用平行文本执行单词串关联分析。Chanod并不间接地通过其他的第三语言来使用单词和单词串的翻译。Chanod并不使构成源语言单词串及源语言上下文单词和单词串的源语言单词翻译“充斥”目标语言文本。Chanod并不在单种语言的单词和单词串之间使用查询左边和右边的任意大小的单词串执行单词和单词串关联分析。Chanod并不要求把要翻译的文档输入解析为源语言中的重叠单词串,也不要求把源语言的目标语言翻译解析为也与其左边和/或右边的相邻翻译具有重叠单词或单词串的单词串来确认翻译。Richardson的美国专利6,138,085揭示了对未出现在词汇知识库中的语言关系来说确定是否应该对此语义关系进行推断而不管它未出现在词汇知识库中的系统。Richardson只尝试定义单个单词之间的关系。通过查找单词之间的一条或多条路径,两个所提供的单词之间的关系被限定为数量有限的手工定义类别(如,同义词、位置、用户,等等)中的一种。路径包括在数据库中已通过手动标注出或推导出的关系连接的其他单词。当源语言文档中任意大小的重现单词串基于它们在平行文本内相同的彼此接近的位置的出现频率(在从子串中减去较大的单词串之后)与目标语言文档中任意大小的重现单词和单词串关联时,Richardson并不使用平行文本执行单词串关联分析。Richardson并不间接地通过其他的第三语言来使用单词和单词串的翻译。Richardson并不使构成源语言单词串及源语言上下文单词和单词串的源语言单词翻译“充斥”目标语言文本。Richardson并不在单种语言的单词和单词串之间使用查询左边和右边的任意大小的单词串执行单词和单词串关联分析。Richardson并不要求把要翻译的文档输入解析为源语言中的重叠单词串,也不要求把源语言的目标语言翻译解析为也与其左边和/或右边的相邻翻译具有重叠单词或单词串的单词串来确认翻译。图1展示本发明的频率关联数据库的实施例;图2展示实现本发明的方法的计算机系统的实施例;图3展示本发明的计算机系统的存储器设备,实现本发明的方法的程序包含在其中。详细说明I.简介如上所述,本发明的一个方面是提供创建和补充知识库(知识获取)和使用该知识库将内容从第一种状态转换为第二种状态(知识重建)的几种不同的方法和装置。“文档”如在此所述是指由固定在媒体中的符号和字符表示的信息和概念的集合。例如,文档可以是存储在磁或光媒体上的电子文档,或纸质文档,如书籍。包含在文档中的符号和字符表示使用一种或多种表达系统表达以便由文档的用户理解的概念和信息。本发明处理第一种状态(即,包含以一种表达系统表达的信息)的文档来产生第二种状态(即,包含使用第二种表达系统表达的本质上相同的信息)的文档。因此,本发明可以在表达系统之间以它们各自的编码处理或翻译文档(例如,将书面和口头语言,如英语、希伯莱语和广东话,翻译为其他语言)。在另一方面,本发明可以识别一个概念或一组概念在单种状态或语言内不同的替换表示,并当不同的概念组在一起呈现时,自动地检索过去或即时学习到的相关关联(知识生成)。对本发明的所有方面,单词串如上所述定义为一组(两个或多个)处于确切顺序的相邻单词;单词,如本说明书所述,可以独立于单词串或作为它的一部分出现,并可以包括可以在字典中查到的常规单词、可以在字典中查到的常规字符(如,中文字符),或在某种语言或文化中具有可识别语义值的任何其他字符或符号,这些字符或符号包括缩写(如,“inc.”或“dept.”)、符号(如或“MSFT”)、首字母缩写(如“ASAP”或“NCAA”)等等,且取决于用户定义的参数,可以包括或不包括在语言表达中使用的标点符号和任意其他标记。当本发明更广泛地应用于文本之外的其他媒体输入形式(如,可视图像)时,单词指以另外的媒体表示的独立概念的最小单位,单词串指以该媒体表示的意义单元串并作为完整的意义单元使用。实现本发明的知识库创建和内容转换或内容处理方法的系统或装置可以是图2中所示的计算机系统200。计算机系统200包括通过总线214连接到存储器208的处理器202、输入设备210,及输出设备212。计算机系统200也可以包括存储设备204和网络接口206。处理器202访问存储在存储器208中的数据和程序。通过执行存储器208中的程序,处理器可以控制计算机系统200,并可以执行各种步骤来处理数据并控制包括例如输入设备210、输出设备212、存储设备204、网络接口206,及存储器208这样的设备。存储在存储器208中的程序可以包括执行本发明的方法,如内容转换、关联单词和单词串,及数据库创建和补充方法的步骤。存储设备204记录并存储后面由存储器208或处理器202检索的信息,并可以包括现有技术中已知的存储设备,例如,非易失存储器设备、磁盘驱动器、磁带驱动器及光学存储设备。存储设备204可以存储程序和数据,包括可以传输到存储器208由处理器202使用的数据库。可以将完整的数据库或数据库的部分传输到存储器208以由处理器202访问和处理。网络接口206提供计算机系统200和网络216如因特网之间的接口,并将来自计算机系统200的信号转换为可以通过网络216传输的格式,反之亦然。输入设备210可以包括例如用于将数据输入到存储器208和存储设备204中的键盘和扫描仪。输入数据可以包括要存储在文档数据库中用于分析和内容转换的文档的文本。输出设备212包括向计算机系统用户呈现信息的设备,并可以包括例如显示器屏幕和打印机。下面是本发明的详细说明,包括各种数据库创建方法和装置(知识获取),及转换方法和装置(即,知识重建)。第II节描述创建跨状态数据库的不同方法。第III节描述使用数据库在状态之间转换文档(如,翻译)的知识重建方法和装置。第IV节描述称为频率关联数据库(FAD)创建和共有频率分析(CFA)的方法和系统,它们为创建单种状态内的相关概念知识库提供基础。第V节描述使用第IV节的CFA的一种实施例识别单词和单词串与其他单词和单词串之间的语义关联和关系(知识获取列表)的方法。第VI节描述组合本发明的其他方法使用单状态知识获取来帮助进行语言翻译的几种方法和系统。第VII节描述如何以链条的方式重建语义等价概念的单词和单词串(作为使用第V节描述的方法构建的知识库的部分识别)在单种状态或语义内产生相同复杂概念的替换形式。第VIII节描述使用本发明的方法和系统的其他应用的方法。第IX节将第IV和第V节中描述方法和系统用于智能应用。II.跨状态知识库获取方法和装置本发明提供几种主要的用于跨状态知识获取的方法,在一种实施例中由两种语言之间的单词和单词串翻译表示。在本发明的第一个方面,通过分析文档并识别以不同的状态或语义表达类似的概念来获取知识库。本发明中获取知识库的一种方法是检查并比较表达相同概念(等价或尽可能接近等价)的不同文档。使用此方法构建两种状态之间的关联包括检查以两种状态或语言表示的文本或其他材料中的相同概念。本发明的第二种方法,称为多语言杠杆,通过使用已使用本发明的方法或现有的翻译系统构建出的已知翻译,也构建以两种状态表示的概念的关联。此方法称为多状态关联,或多语言杠杆。本发明的第三种方法,称为目标语言洪流,使用目标语言的单语言语料库和/或平行文本以及下述方法中的任何一种或多种,来构建不同语言的单词串之间的关联现有技术中的机器翻译系统、现有技术中的跨语言字典,和/或定制的跨语言字典。系统生成源语言单词串中单个单词的替换候选翻译(源单词的目标翻译可以是单词或短语)并搜索目标语言文档,查找包含彼此接近的不同的单个单词翻译的不同组合的单词串。A.使用平行文本进行获取本发明的一种创建两种语言或状态之间的跨概念知识库的方法包括检查和操作先前翻译的或相关的两种语言的文档。使用本发明的方法和装置,使得创建出的数据库包含跨两种状态的关联-准确的转换,或更具体地,以一种状态表达的概念和以另一种状态表达的概念之间的关联。对第一种语言中每个重现的单词或单词串,分析第二种语言的文档中对应的范围,查找跨第二种语言的范围重现的单词和单词串(在如图1所示的减法调整之后)。随着通过本发明检查和操作更多文档,两种状态之间的翻译和其他相关的关联变得更强,即更频繁,这使得通过对足够大的“样本”文档进行操作,最普遍的关联变得明显且可以使用该方法和装置将新的第一种语言的单词串转换为第二种语言的单词串。本发明的另一种实施例使用计算设备,如现有技术中提供的个人计算机系统之类。虽然该计算设备通常是普通的个人计算机(独立的或处在联网环境中),但是类似地可以使用其他计算设备,如PDA、无线设备、服务器、大型机等等。然而,本发明的方法和装置并不一定要使用这样的计算设备,且可以直接通过其他方式实现,包括手工创建交叉关联。检查连续的文档来扩大文档“样本”并创建交叉关联知识的方法可以不同-可以手动地、通过自动反馈(如现有技术中的自动加纸机)、通过使用搜索技术,如因特网上的Web爬行器来自动查找相关文档、其他Web搜索工具,或通过以数字形式表示文本的任何其他方法,设置文档用于分析和处理。注意,本发明可以通过检查除平行文本之外(或替代它)的可比较文本来产生关联数据库。再者,该方法在一种语言内搜索重现单词或单词串时集体查看所有可用文档。根据本发明的这个实施例,为构建知识库而检查跨语言文档,知识库为两种或多种语言之间的单词串翻译的跨语言频率关联数据库。这些单词串充当用于解答更长的翻译查询的构建块。为了说明目的,假设下面的文档包含两种不同的语言中的相同内容(或具有通用的意义、概念)。文档A的语言为语言A。文档B的语言为语言B。本发明的第一个步骤是计算确定任何给定单词或单词串的可能关联的近似位置时使用的单词范围。由于单独使用跨语言单词对单词分析不能产生有效的结果(即,文档A中的单词1在文档B中通常不是作为单词1的直译而存在),且一种语言的句子结构和另一种语言的句子相比,等价的概念可能处在不同位置(或处于不同顺序),本发明的数据库创建方法关联第一种语言的每个单词或单词串与出现在第二种语言的文档中所选范围内的所有单词和单词串。这也是很重要的,因为一种语言通常用比另一种语言更长或更短的单词串来表达概念。通过检查两个文档来确定此范围,并将其用于比较第二个文档中的单词和单词串与第一个文档中的每个单词或单词串。即,检查第二个文档中的范围内的单词和单词串,查找它们可能与第一个文档中的每个重现的单词和单词串所具有的关联。通过用此范围进行检验,数据库创建方法得到一些第二种语言的单词和单词串,它们可能等价于第一种语言的单词和单词串并成为其翻译。存在两个属性,必须按顺序确定它们来确定第二种语言的文档中这样的范围,在其中查找与第一种语言的文档中的任何给定单词或单词串的关联。第一个属性是范围的大小(在第二个文档中使用),这通过范围中的单词数量来衡量(如,50个单词)。第二个属性是范围在第二个文档中的位置,这通过范围中点的位置来衡量。两个属性都是用户定义的,在下面给出较佳实施例的例子。在确定范围的大小和位置时,目标是确保第一种语言中当前分析的片段的第二种语言中的单词或单词串翻译包括在范围内的概率较高。可以使用各种方法来确定范围的大小或值,包括普通的统计方法,如基于文档中的单词数量导出钟型曲线。使用如钟型曲线这样的统计方法,文档开头和末尾处的范围会比文档中间的范围小。范围的钟型频率提供外推翻译的合理的机会,无论它是根据文档中的单词绝对数量导出,还是根据文档中的单词的特定百分比导出。也存在计算范围的其他方法,如“步长”方法,其中范围对第一个百分比的单词存在于一个水平,对中等百分比的单词存在于第二个更高水平,及剩下百分比的单词存在于等于第一个水平的第三个水平。再次,所有的范围属性都可以是用户定义的,或根据捕捉第一种语言中当前分析的单词或单词串的有用关联的目标的其他可能参数来确定。用户可以定义范围,或系统可以通过开始于较窄定义的范围(如,十个单词)并迭代地扩展范围,直到达到阈值或找到目标语言中的所需信息,动态地检验并调整以便确定最终范围。范围在第二种语言的文档中的位置取决于两个文档单词数量之间的比较。可以用于确定范围位置的文档的标准是用户定义的,其例子包括段落、对齐的句子、新文章、图书的章节,及由多个数据片段构成的任何其他离散地可识别的内容单元。如果两个文档的单词计数近似相等,则第二种语言中的范围的位置(即,范围中点)也近似地和在第一种语言中当前分析的单词或单词串的位置一致。如果两个文档中的单词数量不相等,则使用一个比率来正确地定位范围的位置。例如,如果文档A有50个单词而文档B有100个单词,则两个文档之间的比率为1∶2。文档A的中点是单词位置25。如果正在分析文档A中的单词25,那么使用单词位置25作为文档B中的范围中点位置是不够有效的,因为此位置(单词位置25)不是文档B的中点。相反,分析文档A中的单词25时文档B中的范围中点通过以下方式确定(1)两个文档之间的单词比率(使得文档B中的范围中点为单词50),(2)手动定位文档B的中点,或(3)通过很多其他方法。用户定义的范围大小可以很大,以便确保以高可能性在第二种语言的文档中定位第一种语言的单词或单词串的翻译。例如,可能需要将范围定义为包括范围中点左边25个单词和范围中点右边25个单词(总共51个单词的范围)。此例子中的51个单词的范围可以是从单词25至75的范围。对51个单词的范围内的单词和单词串的所有组合进行解析和分析需要很多计算。确定此范围的更有效的方法是按上述确定51个单词的范围,然后搜索该范围,查找紧接源(第一个)文档中当前分析的单词或单词串之前的单词和单词串的特定已知翻译,以及紧接源文档中当前分析的单词或单词串之后的单词和单词串的已知翻译。在当前分析的第一种语言的单词或单词串之前和之后的范围内识别用户定义的数量的单词和单词串翻译将缩小范围的开头和末尾,以便对第二种语言的范围内的重现单词和单词串执行跨语言关联算法。通过使用紧接当前分析的单词或单词串之前和之后的单词和单词串的已知翻译来“划分出”较小的范围,最终的范围大小缩小,并因此是必须对其计算统计量的解析的单词和单词串的数量。例如,假设系统当前正在分析英语单词串“themostpopular”以便使用英语和语言X之间的平行文本来学习与语言X的单词和单词串的关联。进一步假设英语文档中的一个句子是“ThecaristhemostpopularmodeoftransportationinAmerica”。而不是基于单词比率分析对应的第二种语言的文档的范围中点左右25个单词内的所有单词串,一个实施例包括在语言X的初始的51个单词的范围内检查英语文档中的“themostpopular”之前的英语单词串的已知翻译,如“Thecar”在语言X中的单词串翻译。在此处理中,本发明也可以定位在英语文档中当前分析的单词串之后的单词串,如“inAmerica”并在初始范围中定位它在语言X中的已知翻译。通过识别英语中的单词串在语言X中的这些已知翻译,用于解析所有重现单词和单词串的范围将包括更少的可能组合,而同时还能捕捉到翻译。同样,如果当前分析的源语言单词串包含系统已知的唯一(用户定义的)单词或记号,可以这样有效地设置范围中点,将其放置在目标语言文本文档中近似相同位置处的记号单词的翻译的位置。通过查看文档中的单词或单词串的位置并如上述记录落在平行语言文档范围内的所有单词和单词串,本发明的跨语言频率关联数据库创建方法返回一组第二种语言的文档中的单词和/或单词串,它们可以翻译第一种语言的文档中当前分析的每个单词或单词串。当使用本发明的数据库创建方法时,能够作为可能翻译的单词和/或单词串集合将随着关联频率的发展而缩小。因此,在检查文档配对之后,本发明将创建一种语言的单词和/或单词串与第二种语言的单词和/或单词串的关联频率。在根据本发明检查了一些文档配对之后,跨语言关联数据库创建方法将对某些单词和/或单词串返回越来越高的关联频率。在处理足够大的样本后,最高关联频率将带来可能的翻译,当然,何时将关联频率视为准确翻译的最终临界点是由用户定义的,并且可以使用其他解释性翻译方法(如2001年3月16日提交、标题为“内容处理的方法和装置”的专利预申请60/276,107中描述的那些,将其包括在此作为参考)。如上所示,本发明不仅检验单词,而且还检验单词串。如上所述,取决于用户定义的参数,单词串可以包括所有标点符号和其他标记。如果存在足够的跨语言文本将标点符号作为单词串的部分包括,则通常是希望这样做的。在分析了第一种语言的单个单词之后,本发明的数据库创建方法分析两单词串,然后分析三单词串,以递增的方式类推下去。此方法使得将一种语言的单词或单词串翻译为另一种语言中更短或更长的单词串(或单词)成为可能,这样的情况是经常出现的。如果单词或单词串在第一种语言的所有可用文档中只出现一次,则处理立即开始分析下一个单词或单词串,其中分析循环再次开始。当已在所有可用的平行和可比较文本中分析了第一种语言中多次出现的所有单词和单词串时,分析停止。在确定范围之后,应聚合所有的文档并将它们视为一个文档,用于查找重现单词和单词串。对未重复的单词或单词串来说,它必须在所有可用的平行和可比较文本中只出现过一次。此外,作为另一个实施例,可以检查对应于每个单词和单词串的范围,而不管它在所有可用的可比较和平行文本中的出现是否超过一次。作为另一个实施例,可以通过即时解析作为查询的部分输入的具体单词和单词串来构建数据库,而不是预先构建数据库。当输入需要翻译的单词和单词串时,通过使用Web爬行器、Web搜索工具和其他设备在因特网上定位跨语言文本,并基于对查询的分析和缺少足够的可用跨语言材料的情况最终要求用户提供丢失的关联,本发明可以在存储于存储器内且尚未分析的跨语言文档中查找单词和单词串的多次出现。这样即时构建知识库表示“通过做来学”的方式,因为系统在需要将它们用于应用时构建单词和单词串,并且也将它们存储在数据库中用于将来参考。因此本发明以这样的方式工作以便分析单词串,并且以这样的方式工作以便解决单词的上下文选择以及语法特性,如措词、样式或缩写等等。子集单词或单词串的出现将独立地并且作为较大的单词串的部分作为关联返回。在本发明的一个实施例中,在用表格列出跨语言文本中的重现单词和单词串的频率之后,系统解决这些也作为较大单词串的部分的子集单词或单词串的出现。本发明通过从频率计数中减去单词或单词串作为较大单词串的部分返回的次数来解决这些模式,如图1所示。例如,固有姓名通常是完整提供(如“JohnDoe”)、通过名或姓缩写(“John”或“Doe”),或通过其他方式缩写(“Mr.Doe”)。本发明很可能得到比单词串返回更多的单个单词返回(即,名或姓比全名单词串“JohnDoe”具有更多返回),因为构成单词串的单词不可避免地会被单独计数,同时也作为短语的部分计数。因此,应使用改变分级的机制。例如,在任何文档中,名字“JohnDoe”都可能出现了一百次,而“John”自身或作为“JohnDoe”的部分可能出现一百二十次,“Doe”自身或作为“JohnDoe”的部分可能出现一百一十次。本发明中没有调整的关联方法将使得在尝试分析单词串“JohnDoe”时,“John”的分级比“Doe”高,且两者都比单词串“JohnDoe”高。通过从子集(或单个返回)的出现次数中减去较大单词串的出现次数,可以获得正确的分级(虽然,当然,可以使用其他方法来获得类似的结果)。因此,从一百二十(单词“John”的出现次数)中减去一百(“JohnDoe”的出现次数),“John”的调整后返回是二十。应用此分析产生的单词串“JohnDoe”的调整后频率为一百,单词“John”的调整后频率为二十,单词“Doe”的调整后频率为十,这样就创建出了恰当的关联。在分级第二种语言与第一种语言的关联时,系统从所有子集的关联频率中减去较大单词串关联的出现次数。此概念在图1中反映。在此实施例中,调整作为较大单词和单词串子集在第二种语言的范围中重现的单词和单词串,从每个单词或单词串的频率中减去(它所属的)所有单词串的调整后频率。可以使用其他用户定义的方法,使得当单词串出现在范围中时,调整其单词和单词串组成部分的最终频率计数。例如,假想的语言X中的一个单词串意思为“verygoodyear”。分析此单词串来使用平行文本构建从语言X到英语的翻译关联,且单词串“verygoodyear”在英语范围中出现了80次,则单词串“verygood”和“goodyear”及单个的单词“very”、“good”和“year”将由系统在此范围内总共计数至少80次,因为它们是这个三单词串的部分。本系统的一个实施例可以在它们是较大的重现单词串的部分时对频率计数做出调整,来防止扭曲此计数。下面是如何基于下面英语文档范围中的单词和单词串的假想频率计数的部分列表,跨语言X中当前分析的单词串,调整频率分数的例子这些结果是通过减去其所属的所有单词串调整后计数来调整每个频率计数之后的产物。通过减去“verygoodyear”的调整后计数(80)、“goodyear”(50)和“verygood”(5),即那些它作为其部分在范围中重现的较长单词串的调整后计数,得到单词“good”的调整后计数(23)。通过计算位于跨平行文本中近似相同的相对区域的任意大小的重现单词串的共现,本发明的方法提供可以用于文档内容处理和转换的跨概念数据库。图1展示通过本发明使用平行文本创建的跨概念频率关联数据库的实施例。跨概念数据库的这个实施例在第一列和第二列中包括关联的数据片段的列表。数据片段是在表达系统中表示特定概念的符号或字符组。例如,当文档中的表达系统是使用单词的人类语言时,片段可以是单词或单词串。因此,第1列中的系统A片段是用假想表达系统A表示各种概念和概念组合的数据片段(在本发明中,是具有语义值的单词或字符)Da1、Da2、Da3和Da4。第2列中的系统B片段是用假想表达系统B表示各种概念(具有语义值的单词或字符)和那些概念的某种组合的数据片段Db1、Db2、Db3、Db4、Db5、Db6、Db7、Db9、Db10和Db12,它们根据与表达系统A的数据片段关联频率排序。第3列展示直接频率,这是语言B的一个或多个片段与列出的语言A的一个或多个片段关联的次数。第4列展示减法后频率,这表示语言B的一个或多个数据片段在减去该一个或多个片段作为更长的片段的部分关联的次数之后与语言A的一个或多个片段关联的次数。如图1所示,单个片段可能最恰当与多个片段关联,例如Da1与Db1和Db3、Db4三者关联。数据片段之间的减法后频率越高,系统A的片段等价于系统B的片段的概率越高。除了使用“出现总次数”来衡量调整后频率,也可以通过例如计算特定的系统A片段对应于特定的系统B片段的次数百分比来衡量调整后频率。当使用数据库来翻译文档时,在处理中首先从数据库中检索分级最高的关联片段。然而,用来组合片段进行翻译的双锚点重叠方法在证明分级较高的关联与左边或右边的上下文不兼容时通常会使用一个不同的、分级更低的关联。例如,如果查询数据库,搜索Da1的关联,则会返回Db1+Db3+Db4。如果准确组合用于翻译的数据片段的双锚点重叠处理确定不能使用Db1+Db3+Db4,则数据库会返回下一种选择,Db9+Db10,来检验通过与相邻的一个或多个关联片段重叠得到的准确组合是否能用于翻译。另外,在对单词的关联频率进行计数时,可以控制数据库忽略普通单词,例如在英语中,可以不考虑如“it”、“an”、“a”、“of”、“as”、“in”等等这样的单词(在技术中称为“停用词”)。这允许本发明的关联数据库创建方法防止普通单词扭曲分析,且没有额外的减法计算(减少噪音和不必要的计算)。应注意,即使未从关联数据库中“减去”这些或任何其他普通单词或较大单词串的子集单词或单词串,它们最终也不会被确认为翻译,除非在恰当的时候,因为双锚点重叠处理(下面更详细地描述)不会接受它。应注意,停用词通常包括在对它们所属的单词串进行的分析中。例如,虽然可以控制系统在确定单个单词的频率时忽略如“a”和“is”这样的单词在范围中的出现,系统通常不会忽略作为如“sheisagoodstudent”这样的重现单词串的部分的单词“a”和“is”。可以做出其他调整关联频率的计算来确保单词和单词串共现的数量得到准确反映。例如,可以在当前分析的单词的范围重叠时适当地做出避免重复计数的调整,如下所述。希望在这样的情况下进行调整来得到更准确的关联频率。下面将使用表1中所示的两个文档来说明本发明的创建和补充跨概念频率关联数据库的方法和装置的实施例的例子表1虽然此例子所关注的是只包含几个字符的平行文本中的重现单词和单词串,这仅用于说明目的。在本发明中,将聚合所有可用的平行和可比较文本来分析重现单词和单词串。如上所示,如果组合了多个文本,则可以首先通过检查每个文档配对来确定范围,然后可以在聚合的所有文档中对范围内的重现单词和单词串进行计数。使用上面列出的平行文档(第一种语言(或源语言)的文档A,及第二种语言(或目标语言)的文档B),执行下面的数据库创建方法的步骤。步骤1.首先,确定范围的大小和位置。如所示,大小和位置可以是用户定义的或可以通过各种方法来近似,这些方法包括但不仅限于比较源文档和目标文档的单词计数、查找已知的词汇锚点、查找对应的句子边界,或任何其他方法。在此例中,使用两个文档的单词计数且它们近似相等(文档A中有10个单词,文档B中有8个单词),因此我们定位范围中点,使之和文档A中的单词或单词串的位置一致(注意,由于两个文档之间的单词计数比率是80%,也可以通过乘以分数4/5来确定范围的位置)。在此例中,使用可变的范围大小来近似钟型曲线范围在文档开头和末尾处可以(+/-)1个单词,而在中间(+/-)2个单词。然而,如所示,范围的大小和位置(或用于确定范围的方法)完全是用户定义的,并且可能比在此所示的范围大得多(选择在此所示的范围只是简单地用于展示这些概念),以便增加源语言单词或单词串的翻译处在平行文本的目标语言范围中的可能性。步骤2.接下来,检查文档A中的第一个单词并使用文档A检验它来确定该单词在该文档中的出现次数。在此例中,文档A中的第一个单词是XX在文档A中在位置1、4和9出现三次。单词或单词串的位置编号就是文档中的单词或单词串相对于其他单词的位置。因此,位置编号对应于文档中的单词编号,而忽略标点符号。例如,如果某文档有10个单词,且单词“king”出现两次,则单词“king”的位置编号就是该单词(在10个单词中)出现的位置。因为单词X在文档中不止一次出现,所有处理进入下一个步骤。如果单词X仅出现了一次,则可以跳过该单词且处理进入下一个单词,继续创建处理。步骤3.返回位置1处的源语言单词X可能的目标语言翻译对文档B应用该范围,得到位于文档B中位置1和2(1+/-1)的单词AA和BB(位于文档B中的位置1和2)。将所有可能的组合作为X的可能翻译或相关的关联返回AA、BB和AABB(作为单词串组合)。因此,X1(单词X的第一次出现)返回AA、BB和AABB作为关联。步骤4.分析单词X的下一个位置。此单词(X2)出现在位置4。由于位置4靠近文档的中央,范围(按上述方法确定)是在位置4的两边各两个单词。通过查看文档B中的单词4并应用范围(+/-)2来返回可能的关联-因此,返回单词4前面的两个单词和单词4后面的两个单词。因此,返回处在位置2、3、4、5和6的单词。这些位置对应于文档B中的单词BB、CC、AA、EE和FF。考虑这些单词(及其组合成的单词串)的所有向前连续排列。因此,X2返回BB、CC、AA、EE、FF、BBCC、BBCCAA、BBCCAAEE、BBCCAAEEFF、CCAA、CCAAEE、CCAAEEFF、AAEE、AAEEFF和EEFF作为可能的关联。步骤5.比较X的第一次出现(X1)的返回,即位置1,与X的第二次出现(X2)的返回,即位置4,并且确定匹配。注意,出现在两个重叠范围中并包括相同单词或单词串的返回应化简为一次出现。例如,在此例中,位置2处的单词是BB,这既对X的第一次出现返回(当通过该范围操作时)也对X的第二次出现返回(当通过该范围操作时)。因为对X1和X2返回了这个相同的单词位置,将单词作为一次出现来计数。然而,如果在重叠范围中而不是从两个不同的单词位置返回相同的单词,则将该单词计数两次并记录关联频率。在此情况下,由于该单词(AA)出现在对X1和X2两者的关联返回中,对单词X的返回是AA。注意,出现在两者的关联返回中的另一个单词是BB。然而,如上所述,由于该单词处于对X的第一次和第二次出现的范围操作得到的相同位置(因此是同一个单词),可以忽略该单词(即,将其作为只出现在这些范围中的一个来处理)。步骤6.分析单词X的下一个位置(位置9)(X3)。应用(+/-)1的范围(接近文档末尾)将返回在文档B的位置8、9和10处的关联。由于文档B只有8个位置,将截断结果,并且只将单词位置8作为X的可能值返回CC。(注意,另外,用户定义的参数也可以要求将最少两个字符作为分析的部分,由它们可以返回位置8和下一个最接近的位置(即处于位置7的GG))。比较X3的返回与X1的返回表明没有匹配,因此没有关联。步骤7.应分析单词X的下一个位置,然而,文档A中已经没有更多的X出现。此时确定语言A的单词X与语言B的单词AA的关联频率为一(1)。步骤8.由于没有单词X的更多出现,处理递增一个单词,并检验单词串。在此情况,检查的单词串是“XY”,即文档A中的头两个单词。将步骤2-7中描述的相同方法应用于此短语。步骤9.通过查看文档A,发现单词串XY只出现了一次。此时递增处理停止,并且不发生数据库创建。因为已到达终点,所以检查下一个单词(此处理在没有匹配单词串的任何时候发生),在此情况,文档A中位置2上的单词是“Y”。步骤10.对单词“Y”应用步骤2-7的处理,得到下面结果单词Y出现两次(位置2和7),因此数据库创建处理继续(再次,如果Y在文档A中只出现了一次,则不检查Y)。在位置2处的范围的大小为(+/-)1个单词。对文档B应用该范围(位置2,单词Y第一次出现的位置)返回位于文档B中的位置1、2、3的结果。在那些返回位置上的对应的外语单词是AA、BB和CC。只检查向前排列对Y1产生下面的可能AA、BB、CC、AABB、AABBCC和BBCC。分析Y的下一个位置(位置7)。位置7处的范围的大小为(+/-)2单词。对文档B应用该范围(位置7),返回位置5、6、7和8处的结果EE、FF、GG和CC。所有的排列都对Y2产生下面的可能EE、FF、GG、CC、EEFF、EEFFGG、EEFFGGCC、FFGG、FFGGCC和GGCC。匹配来自Y1的结果将CC作为唯一匹配返回。组合对Y1和Y2的匹配产生CC作为Y的关联频率。步骤11.范围末尾递增因为单词Y唯一可能的匹配(单词CC)出现在Y第一次出现的范围的末尾(CC出现在文档B中的位置3),该范围在第一次出现处递增1,返回位置1、2、3和4AA、BB、CC和AA,或下面的向前排列AA、BB、CC、AABB、AABBCC、AABBCCAA、BBCC、BBCCAA和CCAA。应用此结果,仍然将CC作为Y的唯一可能翻译。递增该范围是因为返回的匹配位于第一次出现的范围的末尾(单词“Y”的基础出现),无论何时出现此模式,都将范围末尾递增作为子步骤(或替换步骤)执行,以确保不截断概念。步骤12.由于文档A中没有更多的“Y”出现,分析在文档A中递增一个单词,并检查单词串“YZ”(单词Y后面的下一个单词)。递增到下一个串(YZ)并重复处理,将产生下面结果单词串YZ在文档A中出现两次位置2和7。YZ第一次出现的可能(YZ1)是AA、BB、CC、AABB、AABBCC、BBCC(另外也可以定义范围参数,使得随着语言A中当前分析的单词串变长扩展范围大小)。YZ在第二次出现的可能(YZ2)是EE、FF、GG、CC、EEFF、EEFFGG、EEFFGGCC、FFGG、FFGGCC和GGCC。匹配结果,将CC作为单词串YZ的可能关联。扩展范围(范围末尾递增)对YZ产生下面结果AA、BB、CC、AA、AABB、AABBCC、AABBCCAA、BBCC、BBCCAA和CCAA。应用这些结果,仍然将CC作为单词串YZ的关联频率。步骤13.由于在文档A中没有出现更多的“YZ”,此分析在文档A中递增一个单词,并检查单词串“YZX”(通过在文档A中的单词Z(位置3)之后添加下一个单词)。递增到下一个单词串(YZX)并重复此处理(YZX在文档A中出现两次),得到下面的结果YZX第一次出现的范围包括位置1、2、3、4和5;排列为AA、BB、CC、AA、EE、AABB、AABBCC、AABBCCAA、AABBCCAAEE、BBCC、BBCCAA、BBCCAAEE、CCAA、CCAAEE和AAEE;YZX第二次出现的范围包括位置5、6、7和8;组合为EE、FF、GG、CC、EEFF、EEFFGG、EEFFGGCC、FFGG、FFGGCC和GGCC。比较两者,将CC作为单词串YZX的关联频率。再次,丢弃将EE作为关联的返回,因为它作为同一单词出现在两个实例中(即,处于相同位置)。步骤14.递增到下一个单词串(YZXW),只找到它的一次出现,因此单词串数据库创建完成,并检查下一个单词Z(文档A中的位置3)。步骤15.应用上面对Z描述的步骤,发现Z在文档A中出现了三次,得到下面结果对Z1的返回是AA、BB、CC、AA、EE、AABB、AABBCC、AABBCCAA、AABBCCAAEE、BBCC、BBCCAA、BBCCAAEE、CCAA、CCAAEE和AAEE。对Z2的返回是FF、GG、CC、FFGG、FFGGCC和GGCC。比较Z1和Z2,将CC作为Z的关联频率。Z3(位置10)按定义在范围中没有返回。然而,如果我们添加这样的参数,规定对语言A中的每个单词或单词串必须至少有一个返回,则对Z3的返回将是CC。比较Z3和Z1的返回,将CC作为单词Z的关联频率。然而,并不对此关联进行计数,因为已经在上述Z2的关联中对单词位置8处的CC进行了计数。当重叠的范围会导致处理对某次出现进行双重计数时,系统可以减少关联频率,以便更准确地反映真实的出现次数。步骤16.递增到下一个单词串,得到单词串ZX,它在文档A中出现了两次。应用上面对ZX所述的步骤,得到下面结果对ZX1的返回是AA、BB、CC、AA、EE、FF、AABB、AABBCC、AABBCCAA、AABBCCAAEE、AABBCCAAEEFF、BBCC、BBCCAA、BBCCAAEE、BBCCAAEEFF、CCAA、CCAAEE、CCAAEEFF、AAEE、AAEEFF和EEFF。对ZX2的返回是FF、GG、CC、FFGG、FFGGCC和GGCC。比较这些返回,得到单词串ZX和CC之间的关联。步骤17.递增,下一个短语是ZXW。这只出现了一次,因此检查文档A中的下一个单词(X)。步骤18.已在第一个位置检查了单词X。然而,尚未对单词X相对于其他文档的第二个位置检查单词X的可能返回。因此,从文档中往前,如对单词X的第一次出现那样操作单词X(在第二个位置)对位置4的X的返回得到BB、CC、AA、EE、FF、BBCC、BBCCAA、BBCCAAEE、BBCCAAEEFF、CCAA、CCAAEE、CCAAEEFF、AAEE、AAEEFF和EEFF。对位置9的X的返回得到CC。比较位置9和位置4的结果,将CC作为单词X的可能匹配,并且对其给出关联频率。步骤19.递增到下一个单词串(由于在文档中向前查找后,发现X没有更多出现可以和X的第二次出现比较),得到单词串XW。然而,此单词串在文档A中并未出现一次以上,因此处理继续检查下一个单词(W)。单词“W”在文档A中只出现了一次,因此进行递增-不是到下一个单词串,因为单词“W”只出现了一次,而是到文档A中的下一个单词-“V”在文档A中只出现了一次,因此检查下一个单词(Y)。单词“Y”并未出现在文档A中任何高于位置7的其他位置,因此检查下一个单词(Z),单词“Z”在位置8之后于位置10处再次出现。步骤20.对单词Z的第二次出现应用上述处理,得到下面的结果对位置8处的Z的返回得到GG、CC和GGCC。对位置10处的Z的返回得到CC。比较位置10和位置8的结果,得到对单词Z没有关联。再次,将单词CC作为可能的关联返回。然而,因为CC表示分析位置8处的Z和位置10处的Z达到的相同单词位置,所以忽略此关联(即,将其作为只出现在这些范围中的一个来处理)。步骤21.递增一个单词,得到单词串ZX。此单词串并未出现在文档A中更多(向前的)位置上,因此处理在文档A中的下一个单词处重新开始-“X”。单词X并未在文档A中任何更多(向前的)位置上出现,因此处理重新开始。然而已达到文档A的末尾,因此分析终止。步骤22.如上所述,组合上述所有结果并在它们出现时减去重复及较大串的子集串(如图1中反映的那样),用表格列出最终的关联频率。显然,这些数据不足以对文档A中的单词和单词串返回结论性的结果。随着检查到更多的文档配对包含具有上面检查的那些关联的单词和单词串,关联频率将增加,使得语言A和语言B之间的单词和单词串翻译构建更强的关联。虽然典型的用户定义的范围会远大于三单词来确保翻译包括在其中,上述范围计算仍然展示了这样的概念。为了进一步加强使用平行文本和上述处理构建的关联,可以按相反的方向来运行此处理。系统可以使用上述处理来使用在目标语言范围中出现最频繁的目标语言单词串翻译候选,并使用可用的平行文本构建那些目标语言单词与源语言单词串的关联。如果初始生成目标语言翻译候选的源语言单词或单词串在目标语言候选列表上分级足够高(基于用户定义的频率或百分比),则可以将该源语言项的目标语言翻译候选确认为该源语言项(单词或单词串)的合法翻译。这称为本发明的“双向锁定机制”。最终,可以使用每个语言配对中的平行文本,在两个方向上构建出关联数据库。在使用平行文本进行跨语言关联的其他实施例中,对源语言中当前分析的每个重现单词或单词串选择目标语言中的范围,根据上述方法确定目标语言中对应的范围。然后将那些范围内的所有重现单词和单词串加到一起来获取它们的频率计数。从范围内的单词和单词串的频率中减去较大单词串的频率计数,以避免对较大单词串的较小部分进行计数,如上面在图1中描述和展示的那样。与独立于所有其他范围关联每个范围的单词和单词串的上述实施例相比,这将给予最频繁的单词串更小的权重。因此,再此所述的实施例通常需要更多的文档来构建可靠的翻译。例如,假设当前正在分析语言X的单词串“llmmpp”,尝试在语言Y的平行文档中找到关联。如果单词串“llmmpp”在语言X的文档中出现四次,则在语言Y的文档中确定四个语言Y的单词和单词串的范围,每一个都对应于平行文档中出现的一个语言X单词串“llmmpp”。如果语言Y中的一个正确的翻译是“KKBBZZ”,并且它出现在所有四个范围内,则上述实施例可以产生频率计数4。前面的实施例(独立于所有其他范围分析每个范围)可以产生“KKBBZZ”的频率计数6。一旦确定了范围,可以使用各种用户定义的方法来用表格列出重现单词和单词串的频率,这取决于制表方法,可以向单独的结果提供更高或更低的相对权重。上述方法展示制表方法的两个较佳实施例。这些语言可以是任何类型的转换,并不一定限于口头/书面语言。例如,转换可以包括计算机语言、特定的数据代码,如ASCII等等。数据库是动态的,即,数据库随着内容输入到翻译系统中而生长,且翻译系统使用原先输入的内容进行后面的迭代。如所示,本实施例代表本发明的一种用于创建关联的方法。本发明的方法不限于语言翻译。从广义上来说,这些方法可以应用于任何可以关联的相同概念的两种表达,因此从本质上来说,外语翻译就是由不同的单词或单词串表示的相同概念的配对关联。因此,本发明可以应用于关联数据、声音、音乐、视频、计算机编程语言,或任何广泛的概念表示,包括通过任何感知(声音、视觉、气味等等)体验来体现的概念。本发明所需要的是分析相同概念通过在时间上的共现(或在文档的情况下,共现的位置)关联的两个具体形态。对不能使用跨语言文档翻译的单词或单词串,本发明的另一个实施例(后面描述)可以生成和目标语言或源语言中的单词或单词串语义等价的单词和单词串,提供识别替代单词或单词串翻译的其他方法。此方法也允许互换共享相同上下文且有时可以具有无限个成员的广泛分类(如名字和数字)中的特定类成员。此外,如果可用的跨语言文档不能提供具有统计显著性的翻译结果,则用户定义的参数可以组合本发明的其他跨语言单词串关联方法,来代替或组合,使用平行文本的方法。作为最后的手段,用户还可以检查候选,以便得到不满足用户定义的确认阈值的翻译和其他关联,并手动确认和分级恰当的选择。B.使用多状态文本进行获取本发明的另一个实施例提供使用那两种状态中的每一种和另外的第三状态之间的关联,在两种语言或状态的等价或类似概念之间构建关联的方法。随着检查了更多语言配对的文档,基于和另外的第三语言都具有关联但彼此之间没有直接关联的那些语言,本发明的方法和装置可以开始在语言配对之间填充“导出关联”。此类通过多种状态进行的间接翻译称为“多语言杠杆”。在当前翻译的源语言单词串在一种或几种第三语言中具有已知翻译,且不同的第三语言翻译在目标语言中都具有已知翻译时,通过多语言杠杆方法得到的导出关联可以在一对语言的文本之间产生。例如,如果没有足够的跨语言文本可以直接将语言A的短语“aaddpz”翻译为语言B的短语,则对关联进行推导可以包括比较语言A的这个短语和该短语在语言C、D、E和F中的翻译,如表2所示。然后,可以将“aaddpz”在语言C、D、E和F中的翻译翻译为语言B,如表3所示。在语言A的短语“aaddpz”和语言B的短语之间推导关联进一步包括比较已从语言C、D、E和F对“aaddpz”的翻译翻译过来的语言B的短语。已从语言C、D、E和F对“aaddpz”的翻译翻译过来的语言B的短语中的部分可能相同,并且在本发明的这个较佳实施例中,这将代表语言A的短语“aaddpz”在语言B中的正确翻译。如表3所示,语言C、D和F到语言B的翻译产生相同的语言B短语,这提供了正确的语言B翻译,“UyTByM”。因此,可以创建出语言A的短语及其语言B翻译之间的推导关联。语言E到语言B的翻译产生另一个语言B短语ZnVPiO。这表明语言A的短语“aaddpz”或语言E的短语“153”可能具有多种意义,或语言B的短语UyTBym和ZnVPiO是语义等价的(或近似的)且将在通过另一种语言间接翻译为短语“ZnVPiO”或使用某些其他方法产生该翻译结果时得到确认。表2表3在另一个实施例中,使用本发明的上述多语言杠杆方法和装置可以提高现有技术中的翻译系统的准确度。现有的翻译系统(如,基于规则的MT、SMT)取得查询并产生从语言A翻译为语言B的结果,可以比较此结果与从语言A翻译为其他语言(如,语言C、D、E和F)的查询的翻译结果(使用现有技术的系统和装置)并接下来与从那些语言翻译为语言B(使用现有技术的系统和装置)的结果比较。为了确认翻译,使用现有的机器翻译系统的多语言杠杆的一个实施例可以要求每个目标语言单词串(间接通过一些第三语言翻译出)都出现在目标中一定数量的用户定义的共有结果中,如上述的那样。要求具有用户定义数量的间接目标语言翻译的单词串(使用现有的翻译系统的中间第三语言)在确认之前在目标语言中彼此完全匹配,这将提高每个翻译单词串的准确度。虽然现有技术的翻译系统的准确度并不高,但是如果使用足够多的第三语言翻译系统,可以获得目标语言中通过不同的中间第三语言得到的一定数量的共有结果。再者,通过将这些间接目标语言翻译与本发明的双锚点重叠方面(在后面详细描述)所要求的相对高的用户定义重叠相连接,此实施例的结果准确度可以得到进一步检验和提高。通过组合本发明的跨语言学习与数据库中的单词串翻译以及现有技术中的翻译系统,多语言杠杆方法的另一个实施例可以使用从源语言到中间的第三语言的翻译以及从那些第三语言到目标语言的翻译。使用相同的基本原则来确认目标语言翻译;通过不同的第三语言得到用户定义的数量的共有的间接目标语言翻译结果。所要求的共有目标语言结果的数量与用于多语言杠杆的中间语言数量是用户定义的。使用越多的通过其他语言得到的间接翻译来校验单词串或任何其他数据片段的翻译,本发明越能确定地产生准确翻译。作为确认的最终检查,基于用户定义的准则,可以使用与上述相同的方法,通过一种或多种第三语言把目标语言翻译结果翻译回源语言。如果回到源语言的翻译是要翻译的初始源语言单词串,或者是初始的源语言单词串语义等价(使用后面描述的本发明的共有频率分析确定),则可以确认此目标语言翻译。C.使用目标文档洪流进行获取本发明的另一个方面使用目标语言的单语言语料库和/或平行文本,以及下面方法中的任何一种或多种,来构建不同语言的单词串之间的关联现有技术中的机器翻译系统、现有技术中的跨语言字典,和/或定制的跨语言字典。这些方法使用本发明的“洪流”技术,使用定制的系统或现有技术中的系统,来生成从源语言查询中解析出的每个单词串中的单个单词的可能的目标语言翻译,如上所述的那样(即使某些可能的单词翻译是错的),然后搜索目标语言文档,查找可能的单词翻译的不同组合(源语言单词的目标语言翻译可以是单词或短语)来产生目标语言单词串的候选翻译列表。在使用洪流技术的另一个实施例中,在字典中包括了由两个或多个单词构成的源语言搭配和习语。在此实施例中,首先检验每个源语言查询单词串,识别任何构成查询单词串的部分或全部的习语或搭配单词串。如果在查询中识别出习语或搭配,则从字典中检索出习语或搭配的翻译,并将其用作洪流处理的一部分来搜索目标语言语料库,而不是使用构成习语或搭配的单个单词的翻译。显然,任何其他的源语言单词串都可以添加到字典中,并用在洪流处理中翻译为目标语言,而不是单独地翻译那些单词。1.平行文本洪流在一个实施例中,同时使用平行文本及现有技术中的翻译系统(或跨语言字典)。为了构建源语言单词串的目标语言关联,在源语言文档中定位每个单词串的出现,并在平行文本的目标语言文档中确定对应的范围。以上述使用平行文本构建跨语言关联的相同方式确定目标语言范围。使用现有技术中的机器翻译系统、现有技术中的字典,或定制的字典来生成源语言查询单词串的一个翻译(或多个翻译,如果使用了多个系统)。然后使用这些翻译搜索目标语言文档中的范围(即使部分翻译可能是错的),来识别作为翻译候选的单词和单词串。如果所识别的单词或单词串翻译候选中的任何一个在洪流处理的范围中出现了用户定义的数量或百分比,则可以将该关联作为翻译确认。如果使用跨语言字典而不是现有技术中的机器翻译引擎,则使用每个单词所有可能的已知翻译来翻译源语言单词串中的每个单词(源语言单词的目标语言翻译可以是单词或短语,如上述的那样)且使用下一节对目标语言洪流描述的方法在目标语言平行文本内识别单词翻译的不同组合。此外,可以搜索源语言查询单词串,查找习语或搭配(使用习语和搭配的跨语言字典中的源语言条目),如果源语言查询单词串包含习语和/或搭配,则可以使用该翻译通过单词对单词(和/或单词对短语)的翻译可能对目标语言语料库进行洪流处理,如在此所述的那样。2.目标语言洪流使用洪流方法的另一种方法和实施例,通过使用跨语言字典(或现有技术的翻译系统)翻译单词串中的每个单词,并使用目标语言语料库搜索出现在所有可用的目标语言单词串中的那些已翻译单词组,可以将单词串从源语言翻译为目标语言。此方法并不依赖于平行文本且只需要大的目标语言语料库(如,文档数据库,万维网)。此方法只需要由目标语言文档组成的语料库,而不需要另一种语言的对应翻译文档,这扩展了本发明识别跨语言单词串关联的机会。如本发明中识别单词串翻译的所有方法,可以从源语言文档中将要翻译的单词串解析为具有用户定义大小(即,串中的单词数)并具有用户定义的最小数量的重叠单词(如后面所述)的单词串来即时生成用于翻译分析的单词串,或可以检查单词串,以便将其添加到翻译知识库中。使用目标语言洪流方法,首先,使用跨语言字典(或现有技术中的其他翻译系统),以单词对单词(和/或单词对短语)的方式将单词串(源语言查询单词串)中的每个单词翻译为目标语言。字典通常提供多个选项或候选,识别这些由字典对当前分析的单词串的每个单词提供的所有目标语言翻译候选。字典也可以包含翻译为目标语言单词串(即,短语)的源语言单词的翻译。在此情况,可以将这样的单词串作为单个单元翻译,用于搜索目标语言语料库。字典也可以包含常见的源语言习语和搭配的翻译。可以搜索源语言查询单词串,查找习语或搭配,并且如果源语言查询单词串包含习语和/或搭配,则也可以使用它们的翻译对目标语言语料库进行洪流处理,如在此所述的那样。使用习语和/或搭配对目标语言语料库进行洪流处理可以在这里所述的使用以单词对单词(和/或单词对短语)的方式生成的翻译候选进行的洪流处理之前或和同时进行。此外,如果将本发明用于这样的源语言,其中可以按某种方式组合单词的特定组合来构成一个单词,则可以调整本系统将那些类型的单词解析为两个或多个翻译为两个或多个单独的目标语言单词的单独成分。例如在希伯莱语中,意思为“and”的希伯莱语字母(希伯莱语字母“vuv”)附加到它所指的单词前面,而不是具有意思为“and”的独立的单词。在此情况,本发明可以从单词的余下部分中解析出开始于“vuv”的单词,并生成对“and”的翻译,及“vuv”所处的希伯莱语单词的余下部分的翻译。另外,如果使用现有技术的翻译系统将单词单独翻译为目标语言,则这些系统通常对源语言中的那些单词组合的例子产生两个或多个目标语言单词。不同语言的规则包括由时态、单数、复数等等造成的单词组合、单词变形和其他根单词变化,可以整理这些规则来扩展所使用的字典单词并准确地表示要在目标语言语料库中搜索的语义单元。接下来,在对源语言查询单词串中的每个单词(或习语或搭配)生成独立的目标语言单词翻译之后,系统搜索目标语言语料库,查找具有用户定义的最大长度并包含用户定义的最小数量(或百分比)的翻译候选的单词串,这些翻译候选是对源语言查询单词串的每个单词(及其他用户定义的搜索条件)生成的。为了满足用户定义的搜索要求,在目标语言单词串中对少于一个的为每个源语言单词生成的候选翻译计数。如果它包含以具有由不同的源语言单词生成的用户定义最小数量的候选的任何顺序出现的任何组合,则具有用户定义的最大长度的目标语言单词串符合条件。从所述“查询串洪流列表”中返回符合条件的单词串。此外,用户定义的要求可以基于源语言单词及其目标语言对应的邻近程度来设置查询串洪流列表的参数。例如,用户定义的参数可以要求源语言单词的目标语言翻译出现在与相邻的源语言单词的目标语言翻译距离用户定义的数量的单词的范围内。可以基于其他用户定义搜索参数来检索候选,这些参数包括在源语言单词串中的单个单词之间的距离与它们在目标语言单词串翻译候选中的对应翻译之间的距离的关系。再者,任何用户定义的参数都可以包括在对目标语言翻译候选分级中的这些和/或其他因素。对挑选和分级的这些设置将基于两种语言的结构之间的关系,取决于语言配对而不同。为了展示只使用目标语言语料库的洪流方法,考虑语言X中要翻译的四单词串“aabbccdd”系统可以将串中的每个单词翻译为目标语言,即语言Y。假设在跨语言字典中,上述语言X的单词串中的每个单词具有下面的在语言Y中的定义然后系统可以搜索目标语言文档的语料库,在用户定义的范围中定位该单词的用户定义最小数量的翻译(但是只将任何具体的源语言单词的一个候选对最小计数)。在此例中,假设参数设置为使得最少必须有三个翻译的单词(只对任何源语言单词的一个翻译进行计数)出现在总共包含六个或更少单词的串内,而不管单词位置或它们所出现的顺序。对这个例子来说,出现在假想的目标语言语料库中的某些可能符合条件的单词串的部分列表可以是查询串洪流列表(部分)1.DD1AA2CC2BB32.AA1BB1CC3EE13.BB2FF1KK1AA2LL3DD54.DD4PP1UU1AA6CC4BB25.CC1KK1RR2BB3DD46.BB1CC3EE1DD4通过识别列表上用重叠单词串组合构成较大单词串结果的任何两个结果,可以进一步扩展对查询串洪流列表的返回。可以将这些单词串组合作为可能的单词串翻译添加到查询串洪流列表中。例如,在上述返回的列表中,可以通过重叠单词串组合第二个返回“AA1BB1CC3EE1”和第六个返回“BB1CC3EE1DD4”来构成“AA1BB1CC3EE1DD4”,可以将其添加到查询串洪流列表中。基于用户定义的准则对查询串洪流列表上的返回进行分级,所述用户定义的准则通常至少包括(1)目标语言串中的源语言单词翻译(只对每个源语言单词的一个目标语言翻译进行计数)的数量(或百分比)最大,及(2)对最少数量的源语言单词翻译,满足第一条用户定义的准则的目标语言单词串最小(单词数最少)。例如,基于这两条准则(并赋予第一条准则比第二条更大的权重),可以按如下将上述返回分级为1.DD1AA2CC2BB32.AA1BB1CC3EE1DD43.DD4PP1UU1AA6CC4BB24.AA1BB1CC3EE15.BB1CC3EE1DD46.CC1KK1RR2BB3DD47.BB2FF1KK1AA2LL3DD5上述分级反映出在用户定义下第一条准则(单词串中已翻译单词的数量)的权重比第二条准则(满足第一条准则的单词串最小)大。分级最高的结果在四单词串中包含所有四个翻译的单词。分级第二的结果是通过与其他返回重叠创建(并添加到查询串洪流列表)的单词串,并在五单词串中包含所有四个翻译的单词。分级第三的结果在六单词串中包含所有四个翻译。分级第四和第五的结果平级,因为两个单词串都在四单词串中包含四个翻译的单词中的三个。分级第六的结果在五单词串中包含三个翻译的单词,而分级最低的结果在六单词串中包含三个翻译的单词。此外,可以使用基于源语言单词与它们的目标语言对应部分之间的距离的用户定义准则。例如,如果用户定义的准则要求相邻的源语言单词的翻译彼此在三个单词或更短的距离内才能进入查询串洪流列表,则可以排除分级第三(DD4PP1UU1AA6CC4BB2)和第六(CC1KK1RR2BB3DD4)的成员。注意,作为分级第三的结果的子集的较小单词串可以符合进入查询串洪流列表的条件(即,单词串中的单词四至六-DD4PP1UU1AA6CC4BB2)。同时注意,当把源语言单词(或搭配或习语)翻译为目标语言单词串时,为了对进行目标语言语料库洪流处理(除了由于语言的特殊特性使得目标语言翻译中的所有单词都不连续的偶然情况),总是将目标语言单词串视为单个单元(即,单词串中的单词必须保持相邻并处于相同的顺序)。本发明的另一个对查询串洪流列表返回进行分级的实施例可以使用评分系统,并对目标语言单词串中是源语言查询单词串中的源语言单词的翻译的每个单词增加分数,对符合条件的目标语言单词串中不是源语言查询单词串中的一个单词的翻译的每个单词扣除分数。再者,单词可以基于其在语言中的一般频率得到更多或更少的分数。例如,非停用词可以比停用词具有更高的权重。例如,用户定义的设置可以通过(1)基于它是否是源语言查询单词串中的源语言单词的翻译,给出现在目标语言单词串中的每个停用词加上或减去5分,及(2)基于它是否是源语言查询单词串中的源语言单词的翻译,给出现在目标语言单词串返回中的非停用词(即,像“it”、“and”或“the”这样频繁重现的单词之外的单词)加上或减去20分,来对查询串洪流列表上的每个目标语言单词串打分。为了使用前面的例子展示这样的打分,假设“aa”和“cc”是停用词,“bb”和“dd”不是停用词。在此例子中,在上述用户定义的打分参数下,如果EE1是停用词,则单词串“AA1BB1CC3EE1”会得到分数25(5+20+5-5=25),如果EE1不是停用词,则它得到分数10(5+20+5-20=10)。可以使用基于从源语言查询单词串中翻译出并出现在查询串洪流列表上的单词串中的单词数量的任何其他打分方案。处理中在此产生的返回可以包括正确、部分正确及不正确的目标语言翻译单词串。如下文所述,本发明通过将文档解析为重叠的单词串并组合重叠的目标语言单词串翻译来翻译源语言文档。在翻译单词串之间要求具有大的重叠单词串(即,很多单词)将能够排除查询串洪流列表上不是单词串的正确翻译的返回,因为它们与其他单词串翻译重叠未达到用户定义的大小(如下文所述)。如下所述,在查询串洪流列表上的返回,或尚未达到作为准确翻译确认的用户定义准则的任何返回(使用任何方法),都可以在大的重叠链中使用,但是仅当翻译单元的第一个和最后一个单词串先前已作为准确的单词串翻译确认时才能这样。另外,翻译的最左边的单词串必须在其左边是准确的,而翻译的最右边的单词串必须在其右边是准确的。大的重叠的(如下所述)未确认翻译夹在是已知的准确单词串翻译,或至少确认它们的两边是准确翻译的两个翻译中间,这样可以提供准确翻译的基础。可以通过排除不是正确翻译的返回来改进查询串洪流列表,而无需通过对包括初始查询单词串加上两边附加的单词的较大单词串执行与上述相同的查询串洪流分析来检验重叠单词串。此实施例需要包含源语言查询单词串以及包围的上下文单词和/或单词串的源语言语料库,但是不要求此源语言语料库是目标语言语料库的平行文本文档。使用此方法来继续上面的例子,系统将搜索源语言文本,查找用户定义的数量的包含单词串“aabbccdd”且两边加上用户定义的数量的单词的源语言单词串。用户定义的准则可以要求将这些较长的源语言单词串解析为用户定义的数量的具有用户定义的大小并包含“aabbccdd”的附加片段,然后用它们按上述对目标语言文档进行洪流处理。例如,如果用户请求在初始串的每一边都附加三个单词的五单词串,则使用源语言语料库返回的源语言五单词串可以是1.“zzxxyyaabbccddllmmnn”2.“kkrrllaabbccddaakkoo”3.“kglhwkaabbccddqliorr”4.“cknkakaabbccddbkskjk”5.“dmeajcaabbccddtgmsjf”然后此处理将上述串解析为用户定义的数量的具有用户定义大小(在此例子中,最少5个单词)的单词串来基于下文所述的用户定义的准则创建用于对目标语言语料库进行洪流处理的源语言单词串。如果用户要求对包含初始查询的串的所有可能的解析结果进行分析,则可以对上面识别的第一个单词串生成下列解析出的单词组合“zzxxyyaabbccddllmmnn”“zzxxyyaabbccddllmm”“zzxxyyaabbccddll”“zzxxyyaabbccdd”“xxyyaabbccddllmmnn”“xxyyaabbccddllmm”“xxyyaabbccddll”“xxyyaabbccdd”“yyaabbccddllmmnn”“yyaabbccddllmm”“yyaabbccddll”“yyaabbccdd”“aabbccddllmmnn”“aabbccddllmm”“aabbccddll”可以使用上述洪流处理对这些单词串中的每个单词产生可能的目标语言翻译。通过使用字典或现有的机器翻译系统单独翻译每个单词,并基于用户定义的在最大数量的单词内包含最少数量的单词翻译的要求(和/或其他要求),搜索目标语言文档,查找包含单个单词翻译的目标语言单词串,来分析每个单词串。所生成的目标语言返回的列表称为“查询+上下文洪流列表”。然后系统可以对通过每个初始的源语言单词串衍生得到的解析出的单词串(即,源语言单词串查询加上左边和右边的上下文单词-在此例中,即前面识别的余下的四个十单词串(2至5))中余下的每个生成查询+上下文洪流列表。另外,可以通过搜索源语言语料库生成在查询单词串的左边和右边具有一个上下文单词或用户定义大小的上下文单词串的更多数量的单词串,且可以完整地使用每个串来创建查询+上下文洪流列表,而不进一步将其解析为更短的单词串。接下来,系统使用查询串洪流列表中的每个结果,并搜索通过由初始查询加上左边和/或右边的上下文单词串构成的所有源语言单词串生成的所有查询+上下文洪流列表上的较大单词串的每个子串。系统对查询串洪流列表上的返回出现在查询+上下文洪流列表上的较长单词串结果的子串中(或独立出现)的总次数进行计数。然后调整这些计数,从中减去(查询串洪流列表上的)较小单词串作为(查询串洪流列表上的)较大单词串的一部分出现的次数。例如,假设两个单词串“DD1AA2CC2”和“DD1AA2CC2BB3”都在查询串洪流列表上。如果单词串“DD1AA2CC2”作为查询+上下文洪流列表上的单词串的子串出现了120次,而“DD1AA2CC2BB3”的计数为100,则调整“DD1AA2CC2”的频率计数,从中减去它作为较大单词串“DD1AA2CC2BB3”的一部分出现的次数,即,120减去100,得到20。此减法调整概念上类似于当使用该方法用平行文本构建跨语言关联时做出的减法调整,该减法调整如图1中所示减去较小单词串作为较大的重现单词串的部分的出现。然后,基于每个结果在查询+上下文洪流列表上作为较大单词串的子串(或独立)出现的总次数,重新分级查询串洪流列表上的单词串(在上一段中描述的减法调整之后)。另外,用户定义的参数可以要求部分基于特定的其他因素进行分级,这些因素包括结果作为子串所处的上下文单词串中的单词数,以及子串作为左边的上下文单词或单词串的一部分出现的次数和子串作为右边的上下文单词或单词串的一部分出现次数之间的平衡。在处理中的这个阶段,如果用户定义的参数要求只将较大的翻译查询中左边或“边缘”的单词串确认为准确翻译,因为它是较大的重叠单词串链中的第一个单词串,则对查询+上下文洪流列表只使用左边的上下文单词或单词串。如果它是重叠单词串长链中右边的单词串,则只用右边的上下文单词和单词串和查询一起来生成查询+上下文洪流列表。作为另外的实施例,可以生成查询+上下文洪流列表,而不生成查询串洪流列表。相反,将查询+上下文洪流列表上的每个单词串视为像使用平行文本进行跨状态学习那样的目标语言范围,且以相同方式对它们中的每个进行分析来查找重现单词串。用表格列出重现单词串的计数,并通过减去它们作为较长串的部分出现的次数来调整较短单词串的计数。如果使用此方法,为了实现最好的结果,应使用不同的上下文单词或单词串来生成查询+上下文洪流列表(而不是按不同长度解析相同的串)。另外,也可以解析上下文单词串,但是系统应忽略上下文单词串中的上下文单词的翻译,以便对查询+上下文洪流列表的成员中的重现单词串进行计数。存在改进查询串洪流列表的其他方法。这些方法中的一种包括使用本发明如下文所述的共有频率分析方面生成查询的近似语义等价。一旦生成了表示语义上类似于查询的概念的附加源语言单词串,就可以使用跨语言字典来对每个选项执行上述洪流方法。此方法能够扩展源语言翻译选项的数量,并在初始查询单词串包括(不在跨语言字典中的)习语表达时特别有用。在习语表达中,单独的单词可能完全失去其语义特性。可以对查询串洪流列表上的每一个分级最高的结果执行同样的处理。使用下文中所述本发明识别语义相似的单词串方面,可以使用查询串洪流列表上用户定义数量的目标语言单词串(如,最前面的五个)来构建用户定义数量的语义相似的目标语言单词串(如,每个对应五个)。可以使用这些组同义单词串来查找跨多个列表的共有串,以确认满足用户定义的在任何返回的语义等价列表上的共有单词串的数量或百分比最小值(如下所述)的单词串翻译。此外,可以按单词对单词的方式将这些组同义单词串翻译回源语言,以查看哪个组和与源语言查询同义的那组单词串(以及查询自身)有最多数量的共有翻译。具有最多数量的翻译回源语言的单词匹配源语言单词串或其同义词的那组同义的目标语言句子,是正确的一组目标语言翻译。改进查询串洪流列表的其他方法包括同时使用多语言杠杆方法和洪流方法。在此实施例中,可以按单词对单词(和/或单词对短语)的方式,使用每个单词的所有可能的翻译,将源语言查询单词串翻译为一种或多种第三语言,并按如上所述通过搜索每个第三语言文本语料库,查找在用户定义的最大单词总数内包含用户定义的最少数量的翻译单词的句子和其他单词串,来对其进行洪流处理。然后按单词对单词(和/或单词对短语)的方式将符合条件的第三语言单词串翻译为目标语言,以用于搜索满足上述用户定义的洪流处理准则的目标语言单词串。另外,可以将第三语言中的翻译单词直接翻译为目标语言,以用于搜索符合条件的目标语言单词串,而不必像前面的步骤中描述的那样搜索第三语言语料库来查找第三语言单词串。出现在目标语言中可用于使用一种以上的中间第三语言的查询串洪流列表的单词串能够对翻译提供进一步的确认。可以按上述生成源语言、目标语言和中间第三语言的同义单词串并使用跨语言字典来进一步对翻译进行确认。本发明的多语言杠杆方面对构建和扩展单词级别的字典也很有用,这可以用于本发明的目标语言洪流实施例,以及任何其他目的。如果现有技术中或定制的几个字典因为没有源语言单词的条目或有该条目但没有可能的目标语言翻译的完整列表而不完整,则本发明可以通过使用源语言单词在一种或多种第三语言中的现有翻译来补充这些字典。然后系统可以取得所有的第三语言单词并识别已知的目标语言翻译。使用中间第三语言产生的最频繁的目标语言翻译将被确认为翻译。用户定义的准则确定有多少共有结果可以成为翻译。另外,如果需要的话,人类编辑员可以评估所产生的列表并排除不正确的翻译。再者,也可以通过检查源语言中的单个单词,使用跨语言频率关联的方法和系统来构建字典。也可以使用本发明中使用共有频率分析(在下文中描述)识别单种状态或语言内语义类似的单词和单词串的方法来扩展目标语言翻译条目。D.使用多方法差异进行获取如果用于识别跨状态关联的任何方法产生的单词串翻译候选还不能达到满足作为正确翻译的用户定义准则的统计确定性,则可以一起使用两种或多种方法的部分结果来确认作为正确翻译的关联,或不能确认时,继续下一个候选翻译。在可用于分析的文本没有足够的相关单词串来达到统计确定性情况下,这是大家所希望的。使用不同方法得到的部分结果来确认单词串翻译,这作为使用更少的计算构建关联的方式(这将节约处理能力和处理时间)同样也是有用的。此外,如上所示,本发明中识别语义等价单词串的方法可以用于辅助本发明或任何其他系统的任何单词串翻译方法来识别或确认单词串翻译。应注意,本发明能够追踪用于确定确认为翻译的结果(以及下文中描述的语义等价及本发明的方法的任何其他输出)的用户定义参数的结果。对结果进行这样的评估将允许系统使用这些结果来自动确定有效定义的参数。这些需求通常包括使用各种方法的组合来提供组合的返回是准确翻译的统计确定性。III.跨状态知识重建方法和装置本发明的另一个方面涉及提供通过由第一种状态、形式或语言的数据组成的第一个文档创建第二种状态、形式或语言的数据组成的第二个文档,使得第一个和第二个文档最终表示本质上相同的概念或信息的方法和装置,且所述方法和装置包括使用跨概念关联数据库。可以使用本发明的任何方法“预先构建”数据库条目或可以“根据需要”(即时)构建。翻译方法的一个实施例使用双锚点重叠方法来获取概念从一种状态到另一种状态的准确翻译。另外的实施例可以允许当目标语言中的相邻片段在重叠的源语言单词串的直接翻译中没有目标语言重叠时,如果通过第三语言然后到目标语言的间接翻译在第三语言中重叠且它们的翻译也在目标语言中重叠,则确认它们。本发明使用双锚点重叠方法,支持将第二种语言、形式或状态的构建块单词串有机地连接到一起,并使它们在正确的上下文中以准确的方式成为那些单词和短语的准确翻译,就像以第二种语言为母语的人写出或说出的那样。此方法解决了现有的EBMT系统碰到的边界冲突问题。在本发明的一个实施例中,组合单词串关联数据创建方法和重叠方法来提供任意长度的文档的准确语言翻译。通过将任何源语言输入解析为一系列的单词串,其中每个单词串都与在其之前和之后的解析后的单词串两者具有用户定义数量的重叠单词,并检验那些单词串在目标语言中的翻译,查找重叠单词或单词串,本方法和系统可以通过在链中拼凑构建块概念来翻译文档。当用户定义的设置要求更多重叠单词时,这能在目标语言中得到更加准确的单词串翻译组合。再者,手动或通过任何自动方法装配的单词串翻译结果包括本发明中用于跨语言构建单词和单词串关联的任何方法(如,使用平行文本、多语言杠杆、目标语言洪流等等),通过要求单词串翻译在作为更长的翻译查询的部分时(只要使用两边的已知的单词串翻译作为锚点)两边与相邻的单词串具有更长的重叠单词串(即,更多重叠单词),可以检验这些结果的准确度。双锚点重叠方法不允许语义正确但不满足较长翻译查询的具体上下文的翻译,而且,双锚点重叠将排除语义上不正确的翻译。因此,当该方法单独不能达到用户定义的单词串翻译确认点时,可以使用双锚点重叠方法来确认或排除通过本发明的任何跨语言关联方法识别出的候选单词串翻译。例如,如果只将源语言文档解析为和每个单词串的所有单词具有完全重叠的单词串片段,且已知最左边和最右边的单词串翻译是准确的,则不接受语义或语法上不正确的目标语言翻译候选。再者,一旦通过用已知单词串翻译作为锚点的较长重叠确认了单词串翻译候选,则可以将这些新确认的单词串单元作为已知的准确翻译添加到数据库中。此外,可以将跨两个已知单词串翻译的两种语言的重叠单词串作为独立的单词串翻译确认。A.使用关联数据库和双锚点重叠技术进行文档翻译作为另一个较佳实施例,本发明可以通过使用上述的跨语言数据库将第一种语言的文档翻译为第二种语言的文档。可以存在单词串翻译的条目,或可以使用上述跨语言构建单词串翻译的方法中的任何一种来即时构建这样的条目。本发明的这个方面的一个实施例首先使用上述识别可能的目标语言单词串翻译的方法中的任何一种,定位要翻译的文档(源语言文档)中每个句子开始处的最长单词串及其满足用户定义的准则的所有可能翻译。接下来,该方法识别要翻译的文档(源语言文档)的每个句子中与先前识别出的单词串具有用户定义数量的重叠单词的第二个单词串,及其可能翻译(用户定义所需的重叠长度(即,单词数))。如果(源语言中)句子的第二个标识的单词串的目标语言单词串翻译与句子的第一个单词串翻译中的一个具有用户定义的最小重叠,则将翻译的组合作为组合的翻译单元确认。如果不能产生重叠的翻译,则识别源语言单词串具有用户定义的最小重叠的不同解析(即,不同的开头和/或末尾位置),并通过单词重叠或用户定义的大小的单词串检验它们相应的目标语言翻译是否能组合。接下来,识别与源语言中第二个识别出的单词串具有用户定义的最小重叠单词数的源语言中的第三个单词串及其目标语言翻译。如果第三个识别出的单词串的任何翻译与第二个识别出的单词串的翻译具有重叠单词,则将该组合确认为翻译。识别与先前识别出的源语言单词串具有用户定义的最小重叠单词的下一个源语言单词串,并重复此处理,直到(1)已识别源语言文档中的每个重叠单词串(具有至少用户定义的最小重叠长度)及其可能的目标语言翻译,(2)源语言和目标语言两者中每个单词串都在左边和右边具有至少为用户定义的最小长度的重叠单词串(重叠也可以是一个单词,如果用户这样定义的话),除了开头的串只在右边重叠,而最后一个串只在左边重叠,及(3)选择满足上面的属性1和2的最长的串作为最终输出的翻译。另外,可以基于用户定义的准则,优先于具有更短重叠的更长的串,选择具有较长重叠的较短目标语言单词串(即,具有更少单词的串)。重叠比率和串长度之间权衡是可编程的参数,并可以通过手动或自动优化操作对其进行优化。由于跨语言的单词串翻译对单词串中的每个单词都具有合适的内置上下文,且双锚点重叠方法提供单词串翻译的准确组合,翻译文档的准确度水平远优于任何现有的翻译方法。本发明使用关联数据库创建方法来构建单词串构建块概念,并通过跨语言双锚点重叠方法将构建块概念组合为任何数量的较大组合概念。要使用双锚点重叠方法作为翻译查询单元串翻译的链的分界点是用户定义的(在上述实施例中,用户对翻译查询单元串的定义是句子)。例如,而不是句子,可以将此概念扩展为要求对更短的单元(如,在标点符号之间)或更长的单元(如,包括标点符号的段落)的所有相邻单词串,跨源语言和目标语言的单词串翻译应重叠。因为开头和末尾两处的重叠单元只有一边通过重叠得到确认,所以当准备接受第一个或最后一个单词串作为翻译时,用户定义的构建单词串翻译准则可以更加严格。再者,可以使用本发明识别语义等价单词串的方面来确认任何单词串的翻译(通过对源语言和/或目标语言同义词的翻译提供附加的检查)。例如,考虑包含以英语输入并准备翻译为希伯莱语的下面的句子的成分的希伯莱语-英语单词和单词串翻译的数据库(使用本发明的任何方法构建或手动构建)“Inadditiontomyneedtobelovedbyallthegirlsintown,IalwayswantedtobeknownasthebestplayertoeverplayontheNewYorkstatebasketballteam”。通过上述处理,处理方法可以确定短语“Inadditiontomyneedtobelovedbyallthegirls”是源语言文档中开始于源语言文档的第一个单词并存在于数据库中的最长的单词串。它在数据库中与一些单词串关联,包括希伯莱语单词串“benosafltzorechshelilihiotahuvalyedaykolhabahurot”。然后处理使用上述方法确定下面的翻译-即,相同文本中(并存在于数据库中)与先前识别出的英语单词串有一个单词(或另外,用户定义的最小长度的单词串)重叠,且那些重叠的英语单词串的两个希伯莱语翻译也具有重叠片段的最长的英语单词串。例如“lovedbyallthegirlsintown”翻译为“ahuvalyedaykolhabahurotbuir”;“thegirlsintown,Ialwayswantedtobeknown”翻译为“Habahurotbuir,tamidratzitylihiotyahua”;“Ialwayswantedtobeknownasthebestplayer”翻译为“tamitratzitylihiotyahuabettorhasahkanhachitov”;及“thebestplayertoeverplayontheNewYorkstatebasketballteam”翻译为“hasahkanhachitovshhaypaamsihekbekvutzathakadursalshelmedinatnewyork”。根据数据库中的这些返回,处理以某种方式操作来比较重叠单词和单词串并排除冗余。使用本发明的方法,系统将取得英语片段“Inadditiontomyneedtobelovedbyallthegirls”和“lovedbyallthegirlsintown”并返回希伯莱语片段“benosafltzorechshelilihiotahuvalyedaykolhabahurot”和“ahuvalyedaykolhabahurotbuir”并确定重叠。在英语中,这些短语是“Inadditiontomyneedtobelovedbyallthegirls”和“lovedbyallthegirlsintown”。去除重叠,得到“Inadditiontomyneedtobelovedbyallthegirlsintown”。在希伯莱语中,这些短语是“benosafltzorechshelilihiotahuvalyedaykolhabahurot”和“ahuvalyedaykolhabahurotbuir”。去除重叠,得到“benosafltzorechshelilihiotahuvalyedaykolhabahurotbuir”。然后本发明操作下一个解析出的片段来继续处理。在此例子中,处理操作短语“thegirlsintown,Ialwayswantedtobeknown”。希伯莱语中对应的单词集合是“habahurotbuir,tamidratzitylihiotyahua”。在英语中,重叠处理按如下操作通过“Inadditiontomyneedtobelovedbyallthegirlsintown”和“thegirlsintown,Ialwayswantedtobeknown”得到“Inadditiontomyneedtobelovedbyallthegirlsintown,Ialwayswantedtobeknown”。在希伯莱语中,重叠处理按如下操作通过“benosafltzorechshelilihiotahuvalyedaykolhabahurotbuir”和“habahurotbuir,tamidratzitylihiotyahua”得到“benosafltzorechshelilihiotahuvalyedaykolhabahurotbuir,tamidratzitylihiotyahua”。本发明对要翻译的文档中余下的单词和单词串继续此类的操作。因此,在较佳实施例的例子中,下一个英语单词串是“Inadditiontomyneedtobelovedbyallthegirlsintown,Ialwayswantedtobeknown”和“Ialwayswantedtobeknownasthebestplayer”。由数据库对这些短语返回的希伯莱语翻译是“benosafltzorechshelilihiotahuvalyedaykolhabahurotbuir,tamidratzitylihiotyahua”和“tamidratzitylihiotyahuabettorhasahkanhachitov”。去除英语重叠,得到“Inadditiontomyneedtobelovedbyallthegirlsintown,Ialwayswantedtobeknownasthebestplayer”。去除希伯莱语重叠,得到“benosafltzorechshelilihiotahuvalyedaykolhabahurotbuir,tamidratzitylihiotyahuabettorhasahkanhachitov”。继续此处理下一个单词串是“Inadditiontomyneedtobelovedbyallthegirlsintown,Ialwayswantedtobeknownasthebestplayer”和“thebestplayertoeverplayontheNewYorkstatebasketballteam”。对应的希伯莱语短语是“benosafltzorechshelilihiotahuvalyedaykolhabahurotbuir,tamidratzitylihiotyahuabettorhasahkanhachitov”和“hasahkanhachitovshhaypaamsihekbekvutzathakadursalshelmedinatnewyork”。去除英语重叠,得到“Inadditiontomyneedtobelovedbyallthegirlsintown,IalwayswantedtobeknownasthebestplayertoeverplayontheNewYorkstatebasketballteam”。去除希伯莱语重叠,得到“benosafltzorechshelilihiotahuvalyedaykolhabahurotbuir,tamidratzitylihiotyahuabettorhasahkanhachitovshhaypaamsihekbekvutzathakadursalshelmedinatnewyork”,即要翻译的文本的翻译。在此处理完成时,本发明返回并输出最终的翻译文本。应注意,这些返回是数据库根据上述处理返回重叠关联的最终结果。系统通过此处理最终不接受第二种(目标)语言中没有自然符合连接的返回,即,如上所述左边和右边要与相邻的语言片段重叠,除了第一个和最后一个片段之外。若希伯莱语返回与相邻的希伯莱语单词串关联没有准确重叠,则拒绝它并用该英语单词串的与相邻的希伯莱语单词串重叠的分级最高的希伯莱语单词串关联来替换,或可以从数据库中检索重叠的英语单词串(更短或更长)及其希伯莱语翻译,并检验希伯莱语中的准确重叠。在附录B中(第253页(译者注原文页码)),本发明的打印输出展示使用双锚点重叠方法组合使用两种状态的平行文本进行获取的方法来翻译的例子。在附录C中(第297页(译者注原文页码)),本发明的打印输出展示使用双锚点重叠方法组合使用两种状态的平行文本进行获取和使用多状态进行获取的方法来翻译的例子。在附录D中(第308页(译者注原文页码)),本发明的打印输出展示使用双锚点重叠方法组合目标语言洪流方法来翻译的例子。可以对重叠准则建立各种用户定义的参数。例如,当重叠中的一个或多个单词是停用词(如,“the”、“it”、“in”)时,所需的重叠单词数量可以更大,因为这些普通单词使得单词串组合的连接点不可靠。翻译候选与和它重叠的两个翻译之间的重叠单词串越长,单词串翻译越不确定。如果翻译是不正确的,则它不会与它两边的相邻翻译有较长的重叠。因此,用户定义的最小重叠要求可以是动态的,并且可以基于翻译是已知正确的还是基于本发明中用于构建单词串关联的不同方法确定为候选,要求在解析后的单词串翻译之间具有更少或更多的重叠单词。再者,为确认翻译在重叠中所要求的最少单词数量可以忽略重叠的停用词来满足此要求。例如,假设用户定义的要求需要两个或多个重叠的非停用词来确认两个单词串翻译的组合,且将重叠的解析后的单词串“andIknowitisgood”和“itisgoodtoruntwomiles”作为要翻译的较长单词串的部分向系统提供。系统不能接受此解析结果,因为重叠单词串“itisgood”中并没有两个非停用词,因此它不满足用户定义的重叠要求。单词串需要片段之间有更多单词来满足要求,然后检验重叠的相应目标语言翻译(如,“andIknowitisgood”和“knowitisgoodtorun”)。如果通过本发明的任何方法、任何其他的自动翻译方法识别,或手动创建的单词串翻译候选不能确定为准确翻译,则双锚点重叠方法可以要求所有单词串(除了第一个和最后一个单词串)必须让串中的每个单词与左边或右边的相邻单词串翻译重叠。例如,要翻译的单词串“完全重叠”的一种可能解析可以如下源语言(英语)翻译查询“Thebesttimeoftheyearisthesummerbecauseyoucansitinthesunandthenjumpinthepool”。一种可能的完全重叠解析“thebesttimeoftheyear”“timeoftheyearisthesummerbecauseyou”“yearisthesummerbecauseyoucansitinthesun”“becauseyoucansitinthesunandthen”“sunandthenjumpin”“jumpinthepool”更完全的方案可以是在将源语言翻译查询解析为重叠单词串时,对每个连续的单词串重叠只向前移动一个单词。例如“thebesttimeof”“besttimeofyear”“timeofyearis”“ofyearisthe”“yearisthesummer”可以继续上面开始的处理,直到解析出翻译查询的每个单词的最大重叠。因为单词串在左边和右边完全重叠(除了第一个和最后一个单词串,只能通过单方重叠对它们进行某些附加的确认),如果它们的翻译候选不正确(或只在不同的周围上下文中正确),则不能接受。应通过本发明的关联方法中的一种(或手动),独立地将左边的第一个单词串确认为准确翻译(至少在单词串不重叠的左边),应独立地将句子末尾的最后一个单词串作为准确翻译确认(至少在未重叠的右边)。在上面的例子中,单词串“thebesttimeofthe”和“jumpinthepool”各自都应独立地作为准确翻译确认或至少在它们左边和右边得到确认。这些经确认的翻译给出准确的端点,可以作为重叠单词串翻译候选链的锚点。相同的重叠方法可以应用于单词串连接来构成更长的统一单词串,用于使用单种状态或语言的应用,如下文所述。B.使用双锚点重叠进行知识获取再者,每次组合两个具有重叠单词串的经确认的翻译时,可以确认对应于单词串的跨语言翻译的两个附加的数据库条目,并基于重叠的结果将它们添加到数据库中。首先,可以将总的重叠翻译组合作为一个整体单元确认以备将来使用。其次,源语言和目标语言中重叠单词的单元通过本发明构成单词串翻译,并且可以将其添加到数据库中以备将来使用。例如,假设跨语言数据库具有下面的语言X单词串及对应的在语言Y中的已知翻译基于上述数据库条目,可以确认下面的附加数据库条目并将它们作为合法的翻译输入条目3是排除源语言和目标语言中的重叠单词之后的组合单词串翻译。条目4是源语言和目标语言两者中的重叠单词串,它将重叠中的较短单词串作为独立的单词串翻译确认。查询串洪流列表中未使用目标语言洪流方法(或使用任何其他方法)作为准确翻译确认的翻译候选可以通过源语言和目标语言中较长的重叠单词串来检验。如果重叠单词串翻译候选通过较长的重叠链接到一起,且在较长的翻译单元开头和末尾处与已知的单词串翻译重叠,则可以将翻译候选以及每个跨两种语言的相应重叠中的单词串确认为翻译。上述识别重叠单词串中的翻译的方法可以通过利用跨两种语言重叠的现有翻译来扩展任何跨语言数据库,可以自动生成或手动装配它们,以便由EBMT系统、翻译存储器系统使用或用于任何其他目的。C.其他相关应用上述组合使用跨语言关联数据库和跨语言双锚点重叠翻译方法的实施例明显可以用于改进尝试将信息从一种状态等价转换为另一种状态的现有技术的质量,如现有技术中的语音识别软件和光学字符识别(OCR)扫描设备,以便跨多种来源关联信息,并在一种语言内翻译不同的行话或方言。通过使用本发明的翻译方法来查看是否可以翻译这些结果,这些技术(以及其他技术)可以使用本发明来检验它们的系统的结果(输出)。当不能找到与相邻单词串重叠的翻译时,可以警告和询问用户,或系统可以编程为在数据库中对翻译中不重叠的部分查找接近的其他选择。查找与相邻单词串重叠的替代单词串的各种准则包括那些基于上下文使用关联数据库的实施例在一种语言内产生语义等价的准则(在下文中描述)。当然,所有对用户的返回都应转换回初始的语言。除了辅助执行这些应用的现有技术,本发明的方法,包括跨状态学习和双锚点重叠方法,也可以直接用来构建这些应用。对OCR来说,字母和单词的可视表示可以用于构建单词和单词串、计算机编码如UTF-8和其他计算机语言及协议的可视表示之间的关联。可以设置那些教授如何使用计算机语言的文本,使之与描述计算机语言代码命令并作为训练文本的文本描述对齐,从而在人类语言和计算机语言之间构建关联。代码和计算机代码的书面描述也可以用作使用本发明的方法构建关联的平行文本语料库。对语音识别来说,可以分析声波和书面文本,在以两种不同的状态表示的共有概念之间做出关联(使用书面文本的单词串以及与这些文本的关联并作为“平行文本”的音频声波来训练系统),如下文所述。IV.单状态频率关联数据库创建和共有频率分析方法和装置A.简介本发明的另一个实施例提供(1)创建由单种语言(如,日语或英语)的单词和单词串表示的概念的频率关联数据库(FAD)的方法和装置,及(2)使用FAD来识别两个或多个单词和/或单词串之间的共有关系的方法和系统。第二种方法和系统称为共有频率分析(CFA),可以在各种应用中用它来生成关联概念的列表。在此实施例中,一旦创建了FAD,就用它来存储有关两个或多个重现单词串模式之间在文本中的邻近程度关系的信息。一旦建立并通过第一个处理存储了这些邻近程度关系,就为第二个处理,即CFA,提供了基础,CFA是分析和识别同时由两个或多个单词和/或单词串共享的第三单词或单词串关联。此CFA处理为各种知识获取和知识生成应用提供基础。频率关联程序可以实现本发明的某些方法,用于构建本发明的数据库,及分析存储在数据库中的信息来确定单词和/或单词串之间的关联。图2和图3展示计算机系统200的存储器208,其中存储了由处理器202访问的智能应用302、关联程序304、数据库306和操作系统308。关联程序304可以分析数据库306来确定单词关联,以响应来自智能应用302的查询或响应用户通过输入设备直接提交的查询。数据库306可以包括,例如,FAD和文档数据库。通过基于出现频率及特殊片段相对于文档中其他片段的位置,解析输入到系统中的所有文档的文本并存储有关解析出的文本片段彼此如何关联的信息,FAD系统和方法进行工作。如上所述,解析出的文本片段可以包括单词和单词串,或使用拥有独立语义值的字符(如,中文字符)的语言的字符和字符串。在由FAD系统处理之前,可以将文档存储在文档数据库中以便对这些文档进行访问、解析和分析。通过对用户定义的各个范围内的单词和单词串进行FAD分析,本发明识别文档内在彼此接近的位置频繁出现的单词和单词串。这些关联的单词和单词串可以由第二个处理,即CFA使用,以便识别基于与另外的第三概念和观念(同样在此由单词和单词串表示)所共有的关系而彼此具有较强关系的概念或观念(本实施例中由这些单词或单词串表示)。CFA处理通过操作这些存储在FAD中的关联单词串来创建由关联概念列表组成的知识库。在本发明的一个实施例中,这些关联概念的列表(在此实施例中以单词和单词串表示)可互换地称为知识获取列表或语义等价列表。使用CFA的这个实施例,通过识别在查询周围或附近处于特定模式的单词串,系统对查询单词或单词串生成列表。这样的模式称为“左签名或右签名”或组合起来称为“摇篮”,由第三单词和/或单词串共享。对特定单词或单词串查询生成的结果识别出紧密关联的概念,包括单词或单词串的语义等价、反义概念、概念的例子,及其他由单词和单词串表示的关联概念。一旦通过每种语言的知识库建立了这些签名、摇篮和知识获取列表,就可以将它们用在机器翻译应用、搜索和文本挖掘应用、数据压缩,及很多其他应用中,包括允许用户要求系统学习和/或提供问题的答案或执行动作的人工智能或智能应用。通过使用本发明的FAD来提供CFA的输入,系统可以确定两个或多个单词或单词串之间共有的第三单词和/或单词串关联。当操作FAD时,用户可以将文档中要检查的范围定义为彼此邻近每个选择的单词或单词串的每次出现的任何数量的单词和/或用户定义长度的单词串。一旦建立了这些单词和单词串关系并将它们存储在FAD中,系统基于来自智能应用302的指令(见图3)执行一次或多次CFA,搜索由智能应用302选择的两个或多个单词和/或单词串的范围所共有的单词和/或单词串。当系统执行CFA时,如果此信息先前已存储在FAD中,可以检索单词或单词串在每个选择的单词或单词串的范围内的出现频率(或可以使用文档数据库中的文本或任何其他可用文本,包括因特网上的文本,即时分析先前未分析过且存储在FAD中的任何信息)。创建单种状态的FAD类似于上述使用平行文本识别单词串翻译来创建跨语言FAD。在该情况,在目标语言文档中确定范围,并对重现单词和单词串进行计数来确定范围中的出现频率。当单种语言或状态的创建FAD时,原理是相同的,但单词串的频率和邻近程度是用于确定单种语言或状态中单词和单词串上下文的模式,而不是单词和单词串的跨语言翻译。构建出记录每个重现单词或单词串邻近程度关系的FAD的另外一种做法是识别在文档数据库中重现的单词和单词串出现的位置和频率,将它们存储在更简单的重现数据库中,并建立单词串频率索引,这样的例子在表4中展示。将重现数据库作为单词串频率索引而不是FAD使用,关联程序304可以识别所有相同的单词串模式,并基于用户定义的权重或其他准则,确定由智能应用302选择的两个或多个单词和/或单词串共享的分级最高的第三单词和单词串关系(见图3)。B.频率关联数据库(FAD)的创建1.概述在此揭示了构建FAD的方法,该方法可以应用于单种语言的文档,以基于它们在文本中的出现频率及相互邻近程度来构建关联单词和单词串的数据库。FAD提供用于本发明的CFA的构建块。所述方法包括a.组装单种语言的文本语料库(可以存储在文档数据库中)。b.搜索任意单词或单词串在组装的语料库中的所有多次出现。c.确定用户定义的数量的具有用户定义的长度并出现在当前分析的单词或单词串的任一边(或两边)的单词和/或单词串。以此作为范围。除了将范围定义为特定数量的单词之外,还可以广义地定义范围(如,单词或单词串所处的具体文本中的所有单词)或狭义地定义范围(如,与当前分析的单词或单词串具有特定邻近程度的特定长度(即,单词数量)的单词串),用户可以对具体应用选择范围的不同定义。d.搜索语料库,并确定每个单词和单词串在选择出的当前分析的单词或单词串周围的范围中出现的频率,且如果需要,可以确定它们与选择的单词或单词串之间的邻近程度。如果将范围定义为每一边包括,例如,最多30个单词,则系统记录每个单词和单词串在这些单词或单词串中每边30单词内的出现频率。如果将范围定义为查询单词或单词串右边包括三单词串,查询左边包括四单词串,则只将右边包括三单词串且左边包括四单词串的查询视为此模式的重现。系统可以记录每个单词或单词串与当前分析的单词或单词串之间的邻近程度。如上所述,对特定的应用,可以控制系统识别并忽略普通单词,如“I”、“a”、“to”等等。然而,基于系统具体应用的目标,也可以考虑那些普通单词。因此,可以基于单词和单词串在当前分析的单词或单词串左边或右边准确地相距用户定义的单词数的位置上的出现频率来构建FAD。在这样的情况中,用户可以对该应用将范围狭义地定义为与当前分析的单词或单词串的具体邻近程度是一个具体长度的单词或单词串。例如,系统可以分析可用的文档,确定它们中共10,000次包含短语“gotothegame”,并可能发现“gotothegame”在距单词“Jets”20个单词的范围内出现87次。此外,系统可能确定“gotothegame”准确地在单词“Jets”前面(在英语中,即左边,在从右往左读的语言,如希伯莱语中,即右边)七个单词之前出现八次(从单词串的第一个单词“go”开始数)。也可以记录单词和单词串重现模式基于它们之间的单词数的任意组合。例如,数据库可以记录数据库中单词“Jets”在“gotothegame”的三个单词之前出现且“tickets”在“gotothegame”的九个单词之后出现的句子数。该模式可能出现三次,并且应用可以使用该单词模式在文本中的出现频率推导概念的意义,以帮助提供用户提出的问题的答案,或帮助执行用户做出的请求。在现有技术中,存在基于用户定义的邻近程度“搜索”单词或单词串的方法可由搜索应用使用,搜索应用使用用户定义的搜索参数得到的结果来向用户呈现包含那些基于邻近程度要求的搜索项的文档。然而搜索方法并不使用应用来自动搜索这些参数(例如,基于文本中的频率)并且也不将此信息存储用于基于应用中进一步的自动步骤自动地获取或学习知识。本发明的这些FAD基于它们彼此之间的邻近程度(通过它们之间的单词数衡量)指示文本中确切的重现单词串模式,可以使用一系列的狭义定义的范围单独地生成这些FAD。然而,通常最频繁且最有用的单词和单词串模式是(在左边和右边)与当前检查的单词或单词串相邻或通常非常接近的那些。2.使用重现单词串索引的FAD如果使用上述方法按上述构建包含可用文本中所有重现的单词模式之间的每个邻近程度和频率关系的数据库,则会需要较多的计算次数。很多作为此完整处理的结果构建出的关系可能永远不会被应用使用。下面的方法包括索引重现单词串来避免上述可能永远不会用来确定准确关系的处理。此外,下面的索引处理可以用作上述基于具体单词或单词串在范围内的位置自动确定准确模式的频率并进行分析的方法的替代处理。本发明的这个实施例是构建重现数据库的方法,重现数据库只包括每个重现单词和单词串在文档数据库中的位置,而并不包括与其他条目的邻近程度关系。此方法如下首先,搜索所有单词和单词串在可用文本中的重现。其次,在数据库中记录多次出现的每个单词和单词串的“位置”,这可以通过记录它在所处的每个文档中的位置来进行,例如,标识串中的第一个单词的单词编号,及文档数据库中的文档编号。另外,也可以只存储文档数据库中单词或单词串所处的文档的文档编号。在此情况,可以在响应具体查询时搜索并即时确定单词或单词串的位置。表4是重现数据库中的条目的例子。表4如所示,在文档数据库中出现不止一次的单词或单词串的每次出现都将添加到频率计数中,且通过文档中指定的单词编号位置以及用于标识它所处的文档的编号,或通过使用单词或单词串在文档数据库中的位置的任何其他标识符,记录其位置。如果对文档数据库中的所有文档完全并完整地生成了重现数据库(包括单词编号位置以及文档编号),则位置信息允许系统按如上所述计算任何一般性的频率关系,或任何具体单词串模式频率关系。直到完全构建了重现数据库,系统才在从重现数据库中识别了位置之后,即时对文档数据库中的文档中的两个或多个范围执行FAD,或使用现有技术中的任何搜索方法对文档数据库中单词串即时执行一般搜索。在系统通过直接分析文档数据库中的文档响应有关查询时,可以添加未出现在重现数据库中的任何单词或单词串重现,以补充对重现数据库的分析。在通过对文档数据库中的文档进行直接分析获取的信息已用于为其所生成的具体任务之后,可以将信息存储在重现数据库中,以便将来使用。无论系统是否使用重现数据库构建FAD分析,或是否通过用查询作为关键词搜索文档来即时创建那些关系,系统都将识别出由单词或单词串表示的任何重现概念之间的关系。C.共有频率分析-通过关联方法和装置进行知识库获取和生成共有频率分析(CFA)是本发明中生成与两个或多个当前分析的概念(单词和/或单词串)具有共有关系的概念(由单词或单词串表示)的列表的方法。可以使用CFA的几种不同的实施例来生成不同类型的知识获取列表或关联概念。这些列表可以在多种应用中使用,包括智能应用。在智能应用中,使用CFA的其他实施例执行附加的分析来检索新信息,以帮助回答问题或执行任务。现参考图3,在CFA处理中,智能应用302可以通过关联程序304用两个或多个单词和/或单词串查询频率关联数据库或重现数据库来识别哪些第三单词和/或单词串在用户定义的范围内与所提供的单词和/或单词串的部分或全部频繁关联。在本发明的CFA方面的另一个实施例中,系统在接收到单词或单词串查询(来自,例如,用户或智能应用302的)时对查询使用两个或多个FAD条目识别两个或多个单词和/或单词串,以做出两个或多个识别出的单词和/或单词串之间的关联。此类CFA作为知识获取列表生成处理的一部分用于识别单词串签名和摇篮来识别语义等价及单词和/单词串之间的其他关系(如下文所述)。有两种执行CFA的不同方法(1)独立共有频率分析(ICFA),及(2)相关共有频率分析(RCFA)。另外,在使用两种处理中的任何一种之后,系统可以通过在附加的一代或多代中使用它们,或通过组合任何CFA的结果和/或片段用于进一步的CFA来进行进一步的统计分析。1.独立共有频率分析(ICFA)当智能应用302向关联程序304(见图3)提供两个或多个单词和/或单词串以进行CFA时,系统可以通过参考本发明的FAD识别与所提供的单词和/或单词串频繁关联的所有单词和单词串。然后系统可以基于用户定义的准则识别那些与两个或多个所提供的单词和/或单词串的部分或全部频繁关联的单词和/或单词串。系统可以按各种用户定义的方式对它识别出所提供的单词和/或单词串之间的共有关联进行分级。例如,系统可以通过加上(或乘或任何其他用户定义加权法)与所提供的单词和/或单词串中每一个的共有单词或单词串关联频率来对关联进行分级。作为用户定义参数的另一个例子,可以要求得到所提供的单词和/或单词串的所有表上的最小频率(通过列表上的位置、原始的出现次数,或任何其他度量来衡量)。例如,使用上述重现数据库中的条目,如果任务是查找与单词串“kidslove”和“beforegoingtobed”都关联的概念,则系统可以计算第三个概念,如“icecream”,在所有可用文档中用户定义的范围内与第一个概念“kidslove”一起出现的频率作为一次分析,而计算“icecream”和第二个概念“beforegoingtobed”一起出现的频率作为第二次分析。然后应用可以使用独立的关系中每一个的频率,给出彼此的相对值。这将基于“icecream”的频率在“kidslove”的频率表和“beforegoingtobed”的频率表上(基于用户定义的范围)分级有多高(用户定义的绝对或相对值)。基于用户定义的值,此方法在分析“icecream”之后,通过在“kidslove”的频率表上定位“awarmhug”的相对频率(基于用户定义的范围或应用的邻近程度要求),然后在“beforegoingtobed”的频率表上定位“awarmhug”来识别“awarmhug”。可以比较两个频率表上所有其他的频繁关联(可能是用户定义的),例如“stayinguplate”,并基于通过两个表组合的相对频率的用户定义值打分。系统将基于每个频率关联的用户定义权重生成分级最高的单词串。此分析的结果可以是,系统能够推导出虽然比起“kidslove”“warmhugs”来,“kidslove”“icecream”更多,但是在“beforegoingtobed”时,比起“kidslove”“icecream”来,“kidslove”“warmhugs”更多。2.相关共有频率分析(RCFA)除了查找每个查询单词或单词串独立具有的共有单词和单词串关联,一个实施例可以尝试识别只在那些包含两个或多个当前分析的单词和/或单词串的文档的用户定义范围中出现的单词和/或单词串的频繁出现。相关共有频率分析不同于独立共有频率分析,因为当前进行RCFA分析的相关的单词和/或单词串在文档的用户定义范围内一起出现,而后者在分析时只考察独立出现。本发明的RCFA的这个实施例使用下面的步骤首先,从可用的语料库中定位所有包含两个或多个提供的单词和/或单词串的文档。例如,如果文档是存储在文档数据库中,则可以通过返回表示包含两个或多个提供的单词和/或单词串的文档的具体文档编号来定位它们。文档编号是指那些通过现有技术中或本申请中描述的索引方案指定的编号。然后,识别并比较用户定义的范围内邻近所提供的单词和/或单词串的每个单词和单词串,并记录范围中任何一个单词和单词串的频率。再次,用户定义的范围可以较窄并只包括与提供的单词或单词串处于特定邻近程度(如,连续)的重现单词或单词串。例如,假设向系统提供两个单词串“kidslove”和“beforegoingtobed”并对它们进行RCFA分析。进一步假设重现数据库包含下面的条目当使用两个单词和/或单词串进行RCFA分析时,重现数据库将使系统指向文档数据库中同时包含两个片段(如,“kidslove”和“beforegoingtobed”)的文档,因为有相同的文档编号与之关联。通常,系统只定位那些在其中单词串彼此相距用户定义的单词数或彼此处于任何其他用户定义的符合条件的邻近程度的文档。一旦系统识别出了文档数据库中在指定的邻近程度内包含“kidslove”和“beforegoingtobed”的所有文档,系统就能构建两个提交的单词串周围用户定义的范围内的所有重现单词和单词串的频率表。在基于数据库中量有限的文本的例子中(并假设用户定义的范围要求单词和单词串与当前分析的单词或单词串相邻),“icecream”在两个所提供的短语的范围内出现10次,因此具有频率10,“stayinguplate”在两个所提供的短语的范围内出现17次,因此具有频率17,而“awarmhug”在两个所提供的短语的范围内出现12次,因此具有频率12。如果相对于两个RCFA单词串的范围扩大,则现有的4重现数据库也可以包括取决于用户定义的单词串范围添加到上述频率计数中的其他单词串。例如,在相同的文本中可能有重现单词和单词串靠近“kidslove”和“beforegoingtobed”但不直接与它们相邻(如,“kidsloveicecreamandothersweetsbeforegoingtobed”)。这也意味着如果短语“icecreamandothersweets”重复出现,它也是对查询的独立回答。本发明中识别语义等价项的方面在应用中(基于用户定义的准则)将返回“icecream”和“icecreamandothersweets”分组为单个语义分类(如,甜食)。此外,概念的顺序可以不同而意义保持相同(如,“beforegoingtobed,kidsloveicecream”),希望将这一点添加到分析中。本发明中识别语义类似概念的方面(组合双锚点重叠方法)将把具有相同意义的不同的概念顺序作为语义等价来识别。此外,作为本发明的另一个实施例,可以使用已知或已确定的语义等价来代替要搜索的单词和单词串(使用RCFA或ICFA)用于在语义等价的范围周围查找重现单词和单词串。例如,系统也可以搜索“kidslike”、“kidsreallylove”、“kidsenjoy”、“childrenenjoy”或“childrenlove”来代替“kidslove”。可以使用相同的方法用对系统已知的等价来替换“beforegoingtobed”,如“beforebed”、“beforegoingtosleep”或“beforebedtime”。上述的单词顺序问题和语义替代问题两者均通过本发明检测单词串模式的能力来处理。如下文所述,本发明的共有频率方法将产生大量的语义等价单词和/或单词串,可以将它们用于以多得多的相关语义搜索项扩展分析。另外,如下文所述,通过识别一起出现在共同的较大普通组的模式中的共同类别的单词串的模式,本发明也可以识别顺序不同但是意义相同的概念(如,“theboyandthespotteddog”和“thedogwiththespotsandtheboy”将被视为等价的较大语义单元。确定语义等价概念的方法和识别以不同的顺序安排其成分构建块概念的语义等价的较大概念的方法两者都是本发明理解自然语言的知识获取能力的附加方面。3.二级频率分析(RCFA或ICFA)在另一个实施例中,系统可以对构成查询的第一个或第二个单词或单词串与在CFA中识别出的选择的第三个单词或单词串(即,返回的结果)之一或两者执行CFA,这将给对应用执行的分析添加新的信息。例如,如果基于“beforegoingtobed”(第一个)和“kidslove”(第二个)的共有范围内的所有单词和单词串的频率选择出的共有关联是“icecream”(第三个),则此实施例在“beforegoingtobed”(第一个)与“icecream”(第三个),或“kidslove”(第二个)与“icecream”(第三个)之间生成RCFA或ICFA,并基于那两次频率分析选择关联。例如,“icecream”和“beforegoingtobed”可能与“stomach”具有较高的频率关联,这可能在本发明的应用的分析中有用。再者,可以使用相同的方法,按照用户或智能应用所定义的任意多的组合或任意多代来分析任何两个或多个单词和/或单词串。具体应用将使用自动分析,以便基于每次连续的CFA结果识别对每一代关联频率分析执行哪种CFA。更复杂的应用将在组合使用两个或多个独立的结果之前识别要执行的两次或多次频率分析。V.使用CFA进行单状态知识获取可以基于该语言中频繁出现在它们周围的单词串的模式,将一种语言中表示相同概念的单词和/或单词串作为同一语义族的部分来识别。通过查看具体单词和单词串出现在特定单词或单词串之前(在英语中,即位于特定单词或单词串的左边)以及出现在特定单词或单词串之后(在英语中,即位于特定单词或单词串的右边)的频率,这些模式将变得明显。因此,本发明的知识获取列表生成方面使用两种特定的CFA,这两种特定的CFA设计为充分利用表示类似概念的单词和单词串(或共享某些其他语义关系)在频繁出现于其前面和后面的单词和单词串的类型和顺序上具有共性这一事实。通过在此实施例中使用RCFA或ICFA来创建知识获取列表,系统可以基于在相关概念左边和右边频繁共享的单词串生成完全的单词和单词串数据库,在其中包括高度相关的概念。虽然其他相关信息也会有较高的分级,关联最密切的单词和单词串(即,共享相同的频繁出现的左边和右边上下文单词串的那些单词和单词串)通常是语义等价的。其他相关概念包括反义(如,如果查询是“hard”,返回“soft”也可能分级较高)、大类中的相关概念(如,如果查询是“darkblue”,返回“orange”也可能分级较高)、例子(如,如果查询是“massivefraud”,返回“skewingdocumentsandmisrepresentingdata”也可能分级较高),及其他相关知识。例如,如果要求系统识别具有与另一个单词或单词串相同或几乎相同的意义的单词和/或单词串(即,语义近似(或同义)的单词和单词串),系统可以执行第一次CFA来查找频繁出现在查询左边和右边的单词和单词串,然后执行第二次CFA来识别该语言中最频繁共享相同的左边和右边上下文单词串的所有其他单词和单词串。通常由两个不同的单词和/或单词串共享的左边和右边上下文单词串的构成越接近,它们的意思也就越接近。虽然反义词也共享高频率的共有关联,它们取决于特定的重要上下文关联会有很大不同,这些上下文关联创建出系统可以识别的“反义签名”模式,这样可以过滤出查询的反义单词和单词串,或提供反义词列表以便在其他应用中使用。由单词或单词串表示的概念与由单词或单词串表示的任何其他概念之间的关联特征将通过系统识别出的它们各自的签名集合之间的关系来定义。系统使用关联数据库来检测在用户定义的范围内频繁重现的特定单词构成,这些用户定义的范围是为检测包围概念并定义概念和其他概念之间的关系的单词模式而定制的。因此,单词或单词串的左签名和右签名(或在使用RCFA时称为摇篮)包括由该单词或单词串所处的不同周围单词串表示的所有上下文。取最频繁的左边和右边上下文单词串并查找哪些其他单词串在那些非常相似的签名之间频繁出现,这样能够识别同义或接近同义的,或其他高度关联的短语(单词串)和/或单词。具有语义关系的其他单词串也会共享相同的左边和右边上下文单词串。相同总类的成员,如地点、颜色、姓名、数字、日期、运动等等,有很多相同的上下文单词串,系统可以通过这些上下文单词串来识别它们。其他关系,如表示查询单词或单词串的例子的单词和单词串,或表示其他与查询相关的事实的单词串,也将共享由本发明的CFA方面识别的特定的相同上下文单词串,且那些特定的相同上下文单词串将定义该特殊关系。每种关系的特征由共享的上下文单词串以及不共享的上下文单词串定义。用户向系统给出定义关系的单词和/或单词串例子,而本发明中帮助在知识获取列表上的识别语义等价的方法包括(1)确定两个单词串在互相的知识获取列表上所具有的直接相互关系的方法,(2)确定两个单词和/或单词串都出现在其上的不同的知识获取列表的方法,(3)生成查询加上左签名及查询加上右签名的同义表达并检验它们是否重叠的方法。将描述系统如何使用关联数据库和智能应用302(见图3)通过CFA检测语义等价的单串及其他关联知识的总的说明。系统也可以对所提供的单词和单词串执行ICFA和RCFA,并通过用户定义的加权处理组合结果。然后描述本发明的知识获取列表过滤和排序方法。A.使用ICFA进行知识获取列表生成一个实施例使用单词或单词串周围的特定单词构成来执行ICFA,这将识别在语义值(即,意义)上等价或近似等价的单词和/或单词串以及查询中的任何单词或单词串的其他相关的单词和单词串。此实施例包括步骤1,接收由单词或单词串组成(查询短语)的要分析的查询,并(使用本发明的FAD方面)返回用户定义数量的具有用户定义的最小和最大长度,且返回短语在所有可用文档中直接位于查询短语左边的出现频率最高的单词和/或单词串(返回短语)。重现的用户定义的单词串越长,最终的结果通常就越精确(具体)。步骤2,使用在分析的每个单词或单词串右边的一个单词或单词串的范围,对步骤1中用户定义的数量的分级最高的结果中的每一个进行FAD分析(系统将通过在步骤1中返回并在步骤2中分析的每个单词或单词串右边的重现单词和单词串的出现频率进行分级)。然后添加步骤2中产生的所有相同的单词和单词串的频率。步骤3,对查询进行FAD分析,并返回用户定义数量的具有用户定义的最小和最大长度,且返回短语在所有可用文档中直接位于查询短语右边的出现频率最高的单词和/或单词串(返回短语)(再次,为保证准确通常希望是至少包含两个或多个单词的单词串)。步骤4,使用在当前分析的单词和单词串的每一个的直接左边的一个单词或单词串的范围,对步骤3返回的用户定义的数量的分级最高的单词和单词串中的每一个进行FAD分析。再次,通过在步骤3中返回并在步骤4中分析的每个单词和单词串前面的单词和单词串的出现频率,对结果进行分级。然后添加步骤4中的所有共有单词和单词串结果的频率。步骤5,识别通过步骤2和步骤4两者产生的所有单词和/或单词串。在一个实施例中,用步骤2中返回的每个单词和单词串的频数乘以步骤4中产生的单词和/或单词串的频数。分级最高的单词和/或单词串(基于步骤2和步骤4结果的频率乘积)通常是与查询最接近语义等价的单词和单词串。此处理产生的列表称为知识获取列表。作为另外的实施例,在步骤5中,可以基于步骤1和步骤3中与查询共享的不同的单词串返回的总数,对步骤2和步骤4的返回进行分级。步骤1和步骤3的组合处理是ICFA的实施例,其中使用单个单词或单词串来单独识别与查询相关的不同单词和/或单词串组。步骤2、步骤4和步骤5的组合是ICFA的另一个实施例,其中使用两个单词和/或单词串来识别共有关联的第三个单词和/或单词串。下面的例子展示这些实施例,使用假想的数据库来在来自系统的文档数据库的单词和单词串之间创建关联,然后使用ICFA创建关联。假设用户输入单词“detained”来确定系统已知的该单词的所有单词和单词串等价(以及其他相关的单词和单词串)。在步骤1中,只取最佳的三个结果来简化说明(虽然本发明分析的返回结果数量通常要大得多并且是用户定义的),系统首先确定在“detained”直接左边出现最频繁的三单词串。所分析的单词(“detained”)直接左边的单词串的长度可以是一个长度或长度的范围并且是用户定义的(在此例子中,是三单词串)。此分析的结果-在所提供的单词左边具有用户定义的长度的单词串的列表-称为“左签名列表”。假设系统在上述例子中返回下面结果1.“thesuspectwas__”2.“wasarrestedand__”3.“continuedtobe__”在步骤2中,系统操作返回的左签名列表。系统定位在上述三个返回的三单词串之后出现最频繁的单词和/或单词串-即,那些在返回的左签名列表成员右边的单词和/或单词串。系统在此操作中返回的单词串的长度是用户定义的并且可以不加限制。此分析的结果-在每个左签名列表条目右边的单词和/或单词串的每个列表-称为“左锚点列表”。假设系统在上述例子中返回下面的左锚点列表同样在步骤2中,可以添加左锚点列表中相同返回的频率。左锚点列表中唯一的共有返回是a.“held”120+250=370b.“released”90+100=190在步骤3中,系统确定数据库内的文档中在选择的查询“detained”的直接右边最频繁出现的三个两单词串。再次,所分析的频繁出现的单词串的数量是用户定义的(再次,如在步骤1中那样,系统返回最前面的三个出现的单词串)。并且,在所分析的单词(“detained”)直接右边的单词串的长度是用户定义的,在此例子中,它是两单词串(注意可以在步骤1和步骤3中使用任意长度的单词串或长度范围)。此分析的结果-在所提供的单词右边具有用户定义长度的单词串的列表-称为“右签名列表”。假设系统在上述例子中返回右签名列表1.“__forquestioning”2.“__oncharges”3.“__duringthe”在步骤4中,系统操作返回的右签名列表。系统定位在上述三个返回的两单词串前面出现最频繁的单词和/或单词串-即,在返回的两单词串左边的那些单词和/或单词串。此操作中系统返回的单词串的长度可以是用户定义的或可以没有限制。此分析的结果-在每个右签名列表条目左边的单词和/或单词串的每个列表-称为“右锚点列表”。假设系统在上述例子中返回下面的右锚点列表类似于步骤2,可以添加不同的右签名列表返回产生的右锚点列表中的共有返回的频率。上面的右锚点列表中唯一的共有返回是a.“held”300+350=650b.“released”100+150=250在步骤5中,进行ICFA并且系统返回分级。在本例中,通过相乘步骤2和4的共有返回(即,在左锚点列表和右锚点列表两者上的返回)的频率,产生加权的频率,得到如下的知识获取列表1.“held”650×370=240,5002.“arrested”200×240=48,000分级的另一个实施例不考虑具体的加权频率。相反,根据它们所处的锚点列表总数,对至少一个左锚点列表和至少一个右锚点列表上产生的所有结果进行分级。在上述例子中,使用此实施例进行的分级可以是分级知识获取项锚点列表编号1“held”42“arrested”2虽然“release”和“broughtin”两者在分析中每个都产生了两次,但是它们都没有出现在左锚点列表和右锚点列表两者上(“released”在左锚点列表上产生了两次,而“broughtin”在右锚点列表上产生了两次)。也可以使用组合锚点列表数量和频率总数的其他用户定义的加权方案。例如,一个实施例可以基于不同的锚点列表出现总数对结果进行分级,并且基于频率总数对出现在相等数量的不同锚点列表上的任何返回进行进一步分级。分级的另一个实施例可以用结果所出现的左锚点列表数量与结果所出现的右锚点列表数量相乘。在上述例子中,会得到如下分级分级知识获取项锚点列表乘积1“held”42“arrest”1上述展示基于文档数据库中数量相对小的文档进行。文档数据库通常会更大,并且可以包括可通过网络,如因特网,由系统远程访问的文档。在本发明的一个实施例中,用户不仅定义要包括在签名列表中的结果的数量,而且还可以在已全部找出指定数量的具有用户定义最小频率的结果时停止分析。这可以充当分界点,并且可以在使用大型数据库时节省处理能力。产生查询单词或单词串的知识获取列表的ICFA的用户定义参数的其他例子可以考虑在查询左边和右边各种长度的频繁重现单词和/或单词串。因此,实施例可以通过指定单词串的最小和最大长度,使这些签名列表中返回的单词串具有用户定义的可变长度,而不使左签名列表和右签名列表中返回的单词串具有用户定义的固定长度。在对查询左边和右边两者的分析中使用不同长度的最频繁出现的单词串,可以提供更多“上下文角度”来识别相关的单词和单词串。此外,此实施例可以包括符合签名列表条件的返回的单词或单词串最少出现次数。在使用本发明此方面的可变单词串分析的一个实施例中,可以按如下分析来自前一个例子的查询(“detained”)在步骤1中,通过可用的数据库生成用户定义的数量(具有用户定义的最小和最大长度)的在查询左边最频繁出现的单词串的左签名列表。这与前面例子中步骤1的处理相同,除了在此使用各种长度的单词串而不是固定长度的单词串。如果用户定义的参数是(1)返回八个最频繁出现的单词串,(2)单词串最小长度为两个单词,最大长度为四个单词,及(3)最少出现次数定义为在语料库中至少出现500次,则前面的例子中的结果可能如下(再次,使用假想的语料库)左签名列表频率1.“peoplewere”1,0002.“arrestedand”9503.“werereportedly”8004.“passengerswere”7755.“wasbeing”7006.“thepeoplewere”6507.“wasarrestedand”5758.“theywerereportedly”500在步骤2中,如前面的例子所示,定位步骤1的返回的直接右边出现次数最多的单词和单词串,通过左签名列表的结果生成左锚点列表。在步骤3中,使用此例子的步骤1中描述的定义相同的参数,生成右签名列表,得到下面结果右签名列表频率1.“forquestioning”1,7502.“oncharges”1,5203.“duringthe”1,3504.“becauseof”1,0005.“dueto”7506.“inconnection”6007.“onchargesof”5758.“forquestioningafter”500在步骤4中,如前面的例子所示,定位步骤3的返回左边重现最频繁的单词和单词串,通过右签名列表的结果生成右锚点列表。在步骤5中,根据结果所处的列表总数,对至少一个左锚点列表上和至少一个右锚点列表上产生的所有结果进行分级。另外,也可以通过用结果所处的左锚点列表总数与结果所处的右锚点列表总数相乘来确定分级。此外,可以用总频率对分级进行加权。如上所述,可以使用各种用户定义的加权方案。应注意,虽然上述例子查询是一个单词(“detained”),系统也可以对任意长度的单词串产生语义等价,其中单词串表示在语义上可识别的概念。例如,如果用“carrace”来查询系统,则可以产生“carrace”的可能语义等价。通过执行上述实施例中描述的相同的步骤,使用ICFA来确定近似的语义等价,系统可以产生“stockcarrace”、“autorace”、“dragrace”、“NASCARrace”、“Indianapolis500”、“race”,以及其他语义相关的单词和单词串。系统接受查询并使用完全相同的处理产生关联概念,而不管查询单词串或返回的长度。知识获取列表也将包括其他相关项,例如,“contest”、“sportingevent”、“DaleEarnhardt,Jr.”或“boatrace”。B.使用RCFA进行知识获取列表生成本发明创建知识获取列表的另一个实施例包括语义等价关联,如上所述这是基于相关共有频率分析(RCFA)的使用,而不是独立共有频率分析(ICFA)的。使用ICFA进行语义获取来应用的相同基本方法和原理也可以使用RCFA来应用。本发明的生成包括语义等价和其他关系的知识获取列表的RCFA方法包括下面的步骤步骤1接收要查找其语义等价单词和单词串(及其他相关单词和单词串)的单词或单词串查询,并搜索文档数据库、重现数据库或FAD来识别文档中包含该单词或单词串的用户定义长度的单词串部分。在一个例子中,将单词串“initialpublicoffering”作为查询输入,并使用RCFA识别其语义等价。然后系统搜索并识别文档中包括“initialpublicoffering”单词串的部分。用户可以定义并限制返回的部分的数量。步骤2对步骤1中的查询单词串的每次出现,通过记录(i)在查询左边的用户定义长度的单词和/或单词串,组合(ii)查询右边用户定义长度的单词和/或单词串的出现频率,分析返回的部分。此步骤创建把查询“放入摇篮”的左右组合签名,称为“左/右签名摇篮”或“摇篮”。此步骤是RCFA的实施例,其中使用单词或单词串查询来生成两个相关单词串。在我们的例子中,可以将用户定义的左单词串的长度设置为两个或三个单词,而将用户定义的右单词串设置为两个或三个单词。通过用户定义数量的要返回的摇篮(例如,一百个)出现用户定义的最少次数(例如,五次),计算得到分界点。此处理可以对查询“initialpublicoffering”得到下面的假想返回的部分集合1.“announcedasuccessful__ofcommonstock”2.“sharesatan__priceof”3.“announcedthe__ofits”4.“itconsidersan__ofcommonstock”5.“completedan__raisinga”6.“announcedits__ofshares”7.“announcedtheproposed__foritscommon”8.“announcedan__ofstock”9.“completedits__ofshares”10.“inrepresenting__underwritersfor”步骤3搜索文档数据库,查找在步骤2中产生的每个左/右签名摇篮的左右单词串之间出现最频繁的单词和单词串(使用设置的用户定义最大长度的选项)。识别这些在左/右签名摇篮的单词串之间出现的其他频繁出现的单词和/或单词串,将得到可能的语义等价(及其他相关单词或单词串)。可选地可以要求返回要符合条件就必须具有用户定义的最小数量或百分比的左/右签名摇篮。此步骤是RCFA的实施例,其中使用两个单词和/或单词串来识别相关的第三单词和/或单词串。步骤4可以基于所填充的不同的左/右签名摇篮的总数、总频率,或某些其他方法或方法的组合,对出现在左/右签名摇篮的单词串之间的结果单词和/或单词串(即,“填充”各摇篮的其他单词和单词串)进行分级。在一个较佳实施例中,首先,通过所填充的不同的左/右签名摇篮的总数,对返回进行分级。然后,通过所有填充的左/右签名摇篮的总频率,对所填充的不同的左/右签名摇篮的数量相同的返回进行分级。分级准则的另一个实施例也可以对产生返回的左/右签名摇篮的频率加权,或可以基于左/右签名摇篮中的单词串的长度给出特殊权重。在上述例子中,步骤3中最靠前的结果可能是单词和/或单词串“IPO”、“ipo”(结果可能是大小写敏感的)、“InitialOffering”、“offering”、“PublicOffering”和“stockoffering”,所有这些都“填充”了某些左/右签名摇篮的(查询所空出来的)未解析部分。当使用ICFA或RCFA来确定语义等价时,可以在如上所示使用ICFA或RCFA的一个分析中,将不同数量的各种长度的单词串一起用于左签名、右签名或左/右签名摇篮。作为分析的一部分用作左签名、右签名和左/右签名摇篮的各种长度的单词串越多,系统识别查询单词或单词串的语义值中的概念的角度越多。一个实施例可以取在某个长度范围内最频繁的单词串,例如,最频繁的1000个在查询左边和右边构成左/右签名摇篮的三到五个单词长的单词串。作为实施例的另一个例子,系统可以将左/右签名摇篮定义为在查询的左边和右边出现最频繁的三单词串,以及用户定义的数量的在查询的左边和右边出现最频繁的四单词串,加上用户定义的数量的在查询的左边和右边出现最频繁的五单词串。左/右签名摇篮的单词串中的单词数量是用户定义的,并且可以包括引入或引出当前分析的概念(由单词或单词串表示)的单词串长度范围的任何组合。可以根据所填充的不同的摇篮的总数,对通过填充摇篮产生的结果单词和单词串分级,对不同大小的摇篮产生的结果或所填充的摇篮的频率计数给出用户定义的权重。可以使用RCFA来实现使用ICFA查找语义等价或识别任何其他关系的任何特定实施例,反之亦然。附录A展示对各种查询使用RCFA得到关联结果的例子。前15个例子展示查询的部分结果(即,每个查询最靠前的20-25个返回),而最后的例子(对查询“itisimportanttonote”)展示最靠前的1000个返回。对这些结果的用户定义设置是(1)查找查询的前1000次出现,(2)记录左边的两单词串和三单词串与右边的两单词串和三单词串构成的所有摇篮,(3)根据它们的出现频率对摇篮进行分级,(4)查找填充左/右签名摇篮的所有单词和单词串,(5)基于所填充的不同摇篮的总数,返回结果,(6)对所填充的摇篮数量相同的结果,根据所有填充的摇篮的总频率进行分级(也可以对所填充的摇篮中频率较高的那些加权)。用于产生这些结果的语料库约由二十四亿单词组成。注意,附录A中列出的“相对分数”表示用户定义的度量,如上所述,这反映的是特定返回语义相关的可信度的一种度量。分数越低,可信度越低。语料库越大,如果基于用户定义的度量准则它们出现越频繁,则可以将这些得分低的部分返回的可信度提升到更高的水平。本发明的另一个实施例将两个或多个单词和/或单词串与出现在它们的所有知识获取列表中(并且也符合基于可能的用户定义的分级要求)的第三单词和单词串关联。本发明的此实施例,称为共有列表成员分析,可以用于增强得益于语义关联的应用,如搜索、文本挖掘和AI应用的结果。例如,当检查了两个或多个知识获取列表并识别出共有单词和单词串结果时,可以使用共有项来增强对无组织文本操作的搜索功能。因此,如果对特定的搜索查询将项“Bonds”和“SanFrancisco”作为两个度量的关键词输入到现有技术的搜索引擎中,则通过识别在两个初始关键词的知识获取列表上出现的具有用户定义的最小分级(并具有用户定义的权重)的单词和单词串,本发明可以补充附加的关键词到搜索中。因此,可以添加“baseball”和“theGiants”来检索并分级有关BarryBonds而不是金融债券(financialbond)的内容。此外,可以使用知识获取列表(即,通过关键词自身或通过包含在关键词列表中的项衍生得到的列表)共有的项用来根据相关性对结果进行分级,或创建分类来组织结果(这通过查看基于列表上的共有出现构成分类聚类的项进行)。在上述例子中,如果数据库中的文本包括有关SanFrancisco的金融债券交易的信息,则“Bonds”和“SanFrancisco”的知识获取列表都可能包括如“bondtrading”和“debentures”这样的分级高的返回,它们可以由系统用作附加的关键词或因素,以支持增强的搜索、对返回的文档分级,或对结果分类。在这样的情况下,系统可以识别出象“basketball”和“finance”这样的分类,向用户给出选择哪个分类的选项。同样,如下文所述,可以过滤知识获取列表,以便查找查询(或关键词)的同义词,这可以用来将特定搜索的结果增强和扩展至包含关键词的文档之外,以至于包括那些包含关键词的同义词的文档。C.知识获取列表排序和过滤使用ICFA和RCFA来产生知识获取列表将使得在列表上包括某些适合左/右签名摇篮(或出现在左右锚点列表上)但不是语义等价的结果。在符合作为返回的条件所需的查询共有签名或摇篮的用户定义数量不高时,尤其会这样。例如,与查询单词或单词串具有相反意义的很多单词和/或单词串,以及其他相关但不语义等价的单词和单词串,也适合很多与查询相同的左/右签名摇篮。例如,假设对查询“infavorof”执行RCFA,且产生了摇篮“thecourtruled__theplaintiff”和“thesenatorvoted__theamendment”。很容易看到,查询的同义词,如“for”,以及反义词,如“against”,两者都适合这些摇篮并且会出现在知识获取列表上。虽然这些其他非语义等价单词串对很多应用有用,但是如果应用要求在查询的列表上只能包括语义等价,则可以使用本发明的过滤方法,产生只包括语义等价的知识获取列表。下面描述的这些过滤方法包括(1)直接相互关系-不仅考虑返回在查询的ICFA或RCFA知识获取列表上的分级的关系,还考虑查询在每个返回自身的CFA知识获取列表上的分级,(2)语义三角系-考虑查询及查询的一个返回两者所处的知识获取列表的数量(以及在那些列表上的分级)的方法和系统。此过滤方法有助于将返回作为查询的近似语义等价来识别,即使该返回在该查询的知识获取列表上分级较低。通过在对与查询共享近似语义关系(即,与查询一起出现在一些不同的列表上)的其他查询返回生成的用户定义数量的知识获取列表上,识别分级低的返回和/或频率(基于用户定义的设置)来实现这一点。及(3)查询+签名重叠-在此方法中,在本发明的一个实施例中使用单种语言内的重叠方法来识别语义等价。重叠方法以它连接逻辑链中相邻的概念(由单词串表示)的相同方式实现此效果。对出现在(i)查询单词或单词串及其左签名,及(ii)查询单词或单词串及其右签名的知识获取列表上的返回,检验它们是否重叠。可以将当前分析的单词或单词串的同义表达作为重叠单词串中的重叠单词来识别。再者,本发明的另一种方法提供其他方法可以使用单词串模式自动对来自知识获取列表的单词和单词串返回进行排序,产生可以由用户标记以便准确地反映它们相对于查询项的语义特征的不同列表(如,查询的反义(如,查询“hot”,返回“cold”),与查询属于共同类的成员(如,查询“blue”,返回“purple”))。此方法,如下文所述,称为本发明的签名模式排序方法。也可以使用直接相互关系和语义三角系方法,根据其彼此间的语义关系对单词和单词串进行排序。当用户向系统提供体现关系的项的训练样本(如,作为反义词的“hot”和“cold”)时,本发明的方法和系统可以基于知识获取列表上的单词和单词串的出现与分级,识别表征该关系的模式。本发明可以在以后使用一般化的模式,将共享一般化的模式的单词和单词串作为表征所识别的关系的项进行关联。1.使用直接相互关系和语义三角系进行关联直接相互关系方法可以用于对查询的知识获取列表上的每个返回,使用如上所述的RCFA或ICFA,生成单独的知识获取列表,来过滤知识获取列表的结果。通过对查询的列表上的所有返回创建独立的知识获取列表,系统可以识别初始查询在它自己的每个返回的知识获取列表上的分级是否高于用户定义的阈值。查询和返回在彼此的知识获取列表上的相互分级越高,返回越可能是查询的语义等价。本发明的语义三角系方法也对查询的每个返回使用独立生成的知识获取列表来确定哪些返回是查询的近似语义等价。本发明的语义三角系方面检查对返回独立生成的知识获取列表来识别那些在用户定义数量的查询也作为返回出现在其上的不同知识获取列表出现且分级高于用户定义阈值的单词和单词串。对查询的知识获取列表上、同时在用户定义的数量或百分比的其他包含查询作为返回的知识获取列表上也是返回(基于它们在共享的列表上的分级)的任何返回,无论返回在查询的列表上分级有多低,都生成知识获取列表并执行直接相互关系分析来进一步提炼返回和查询之间的语义关系。如刚才所述,可以一起使用直接相互关系和语义三角系方法,根据与查询的语义接近程度对返回分级。可以对直接相互关系、列表成员在初始查询的列表上分的级,以及查询在它的每个返回的列表上的分级赋予特殊的权重。可以基于用户定义的准则用这些返回确定在初始查询的知识获取列表上那些项可以用于要求必须语义等价的应用。例如,如果将“IPO”输入到系统中进行语义等价分析,则使用RCFA或ICFA的系统可以产生具有各种结果的知识获取列表,如“initialpublicoffering”、“stocksale”、“initialoffering”和“stockmarket”以及其他。虽然“stockmarket”是与查询“IPO”相关的概念,但它并不是其语义等价。使用上述过滤方法,可以对“initialpublicoffering”、“stocksale”、“initialoffering”和“stockmarket”生成独立的知识获取列表。在生成这些列表之后,本发明的直接相互关系方面可能确定“IPO”(初始查询)在对“stockmarket”生成的知识获取列表上的出现明显比其他返回的列表少得多,而语义三角系方法可能确定“stockmarket”在对“initialpublicoffering”、“stocksale”和“initialoffering”生成的独立列表上的出现次数一直少于查询及其他返回。鉴于此,对如翻译、语音识别、搜索这样的应用及只首选接近语义等价的其他应用,用户定义的参数可以从“IPO”的知识获取列表中移除“stockmarket”。可以基于用户定义的设置使用上述两种分析的结果。在一个实施例中,为了能够进行高效处理,只通过生成它自己的CFA执行上述分析来独立检验查询的知识获取列表上用户定义数量的分级最靠前的短语。然而,如果在查询的知识获取列表上出现的短语具有较低分级(或甚至并不出现),但是该单词或短语出现在用户定义数量的对查询确定的语义等价列表上(即使它在上面分级较低),也可以通过生成独立的知识获取列表检验“相互”的考虑(其中查询的确在其他短语的列表上具有分级),来检验该短语。当用户向系统提供同义的多个单词和/或单词串,然后向它提供相关但不同义的配对的单词和/或单词串的训练集合时,可以使用对同义或非同义词唯一的知识获取列表出现和分级模式,以便在将来识别彼此同义的单词和单词串。类似地,系统也可以使用用户提供的非同义但是彼此具有特定关系(如,反义、类成员)的项的例子作为训练样本,并尝试识别此关系在彼此的知识获取列表上的项之间的任何一般模式,并查找这些项相对于彼此在其他知识获取列表上的模式。然后系统可以使用这些模式来识别共享那些模式的两个项之间的一般关系。可以使用直接相互关系和语义三角系方法两者,基于在知识获取列表上的出现和分级识别体现其他语义关系的模式。例如,在用户向系统提供了彼此是属于共同类的成员的单词和单词串的训练样本(如,“NewYork”和“LosAngeles”,均为美国的城市)之后,系统可以识别出知识获取列表出现和分级的模式,可以将其一般化并用来识别表示美国的城市的其他单词和单词串。此外,不同组的类成员共有的知识获取列表出现和分级模式可以进一步识别指示表示同类成员的两个单词和/或单词串的更一般的模式。例如,如果系统使用用户提供的表示美国的城市、颜色、姓名和数字的训练单词和单词串来分析知识获取列表,并查找表征类成员之间的一般关系的列表出现和分级模式,系统可以在将来使用这样的模式来识别作为类成员的两个项之间的一般关系。2.使用查询和签名重叠进行关联此方法使用单词重叠的要求作为过滤方法,在知识获取列表上只留下语义等价。此方法可以改进现有的知识获取列表或用于创建只包含查询的语义等价的独立列表。此方法取一个查询单词或单词串并识别用户定义数量的用户定义长度单词串范围的摇篮(或独立的左签名和右签名)。接下来,将每个查询加上用户定义数量的左签名一起作为较长的单词串单元(查询+左签名),使用RCFA(或ICFA)对其进行分析来产生查询+左签名单词串的知识获取列表。接下来,将每个查询加上用户定义数量的右签名作为一个单元来对所选的查询+右签名单词串产生一些知识获取列表。接下来,检验查询+左签名单词串的知识获取列表上用户定义数量的分级最高的成员,查找它们每个的右边与查询+右签名知识获取列表上用户定义的数量的成员左边之间的重叠单词和单词串。在最后一步中识别出的每个重叠单词串中的重叠单词或多个单词通常是查询的语义等价。例如,在前面使用查询“initialpublicoffering”的例子中,将识别出的左签名列表添加到查询中,且对这些较长串中的每一个生成知识获取列表。因此,对左签名+查询(如“foraninitialpublicoffering”)的分析将用作查询本身来生成语义等价,同样也可以使用其他左签名+查询,如“announcedtheinitialpublicoffering”和“theproposedinitialpublicoffering”。接下来,使用右签名+查询单词串,如“initialpublicofferingpriceof”和“initialpublicofferingofstock”,作为查询来生成这些短语的知识获取列表(及可能的同义单词串)。接下来,检验左签名+查询列表是在右边与右签名+查询列表上用户定义的符合条件成员的左边重叠。重叠的单词和单词串是初始查询的语义等价单词和单词串(如,initialpublicoffering)。这样的结果的一个例子是,如果左签名+查询单词串“announcedtheinitialpublicoffering”生成包括“wentpublicwiththeIPO”的列表,而右签名+查询单词串“initialpublicofferingofstock”具有符合条件的列表成员“IPOofequity”,则“IPO”是重叠单词或单词串,因此认定它是项“initialpublicoffering”的同义概念。查询+签名重叠过滤方法可以与其他过滤方法组合。在一个实施例中,可以将相互直接关系和/或语义三角系用作使用查询+签名重叠过滤方法前的第一个步骤。3.使用同义词洪流进行关联除了刚才描述的本发明的识别语义近似的单词和单词串的方法和系统,本发明还可以包括进一步帮助识别查询单词串的语义等价单词串或修改CFA的结果的单状态或单语言洪流方法。此实施例使用单词对单词或单词对短语的同类词汇编来识别单词的同义词。除了单个单词,同类词汇编也可以包括与其语义等价关联的习语和搭配。可以将查询单词串分解为单个单词(和/或习语及搭配)并使用该同类词汇编(和/或使用CFA得到的单词对单词(或单词对短语)语义等价)来识别每个单词(和/或每个习语及搭配)的语义等价的列表。然后搜索文本语料库,查找用户定义的最大长度的单词串中的对每个查询单词串单词具有最少数量的同义词的单词串(为确定最小值,对每个单词只计数一个同义词)。可以使用查询单词串中的初始单词而不是其同义词来满足搜索准则。此方法在概念上类似于本发明中在两种语言之间构建单词串翻译的目标语言洪流方法,除了在此实施例中,使用同类词汇编而不是跨语言字典。例如,如果使用通过普通单词来定义技术术语的技术词典,则本方法可以按语言的两种不同形式产生翻译(如,技术术语和外行话)。例如,如果同类词汇编包括等价于“localized”“non-metastasized”条目以及等价于“cancer”的条目“oncologicalmass”,则基于用户定义的搜索参数和用来执行洪流处理的文本,短语“non-metastasizedoncologicalmass”可以等价于短语“localizedoncologicalmass”、“non-matastasizedcancer”和“localizedcancer”,以及可能的其他短语。4.单词串摇篮或签名模式排序也可以训练本发明识别在任何单词或单词串左边和右边并标识知识获取列表结果与查询之间的关系的签名和摇篮单词串的模式(如,反义、类成员、概念和例子、其他相关知识)。用户可以向系统给出一组表征关系的例子,然后让系统学习提供关系特征的单词串签名和/或摇篮模式。例如,为了训练系统识别反义概念,用户可以提供下面的三个查询以及三个来自每个查询的初始知识获取列表并且是查询的反义概念的成员,如下所示查询反义1.“good”“bad”,“verybad”,“awful”2.“worldclass“stupid”,“dumb”,scholar”“moron”3.“cold”“hot”,“veryhot”,“boiling”用户也可以给出查询的同义词及其反义词的附加的例子以进行进一步的训练。然后系统查找对查询的反义词唯一的左和/或右签名(或摇篮)。本发明的这个实施例,象生成知识获取列表那样,使用CFA来确定两组不同的单词和/或单词串之间共有的左签名和共有的右签名两者(或有些情况下,确定共有的摇篮)。重要的是,此实施例也可以检查查询的左签名单词串,并将它们与用户所输入并识别为查询的反义词的项的右签名单词串比较,尝试识别它们之间的准确匹配。此实施例也检查查询的右签名单词串,并将它们与用户输入的反义项的左签名单词串比较,尝试识别它们之间的准确匹配。通常,出现在查询及其反义的相反方(或上下文)中的相同概念的项之间的这些模式可以指示特殊的关系。当用户向系统提供表征它们之间的关系的例子时,系统可以检查并识别查询的一个例子的哪个左签名或其同义词与表示查询的反义概念的单词和单词串的一个例子的右签名完全相同,反之亦然。查找既是查询的右签名又是查询的反义词的左签名的单词串,或识别既是查询的左签名又是查询的反义词的右签名的单词串,有助于为识别表征该关系的那些单词串模式提供提供。当系统在相关知识的CFA知识获取列表上识别出它以前尚未碰到过但是具有这样的相对于查询的“反义签名”的项时,系统可以将返回与查询的关系作为反义来识别。这些对反义唯一的签名和摇篮模式可以构成允许训练系统在将来识别反义的模式。通过不同的反义可以识别出对系统尚未碰到的特定的其他反义词进行一般化的模式。通过用先前的反义摇篮或签名执行的训练,也许不能捕获到系统在对相关知识(包括语义等价)执行RCFA或ICFA时碰到的新的反义关系。当出现这样的情况,并且用户向系统表明知识获取列表上的结果是查询单词串的语义反义时,可以使用查询单词串及语义反义单词串返回对系统进行进一步的训练来识别签名(或摇篮)与此类反义的关系。与对反义描述的类型相同的训练方法可以用于训练系统识别其他关系。系统使用例子来查找对该关系唯一的签名(或摇篮)单词串上下文模式,并因此能够定义它。例如,可以通过向系统提供不同的表征该语义关系的单词串例子,训练系统识别查询的同类成员或查询的例子。然后系统可以识别对每组单词和/或单词串唯一的摇篮(或签名)模式,并可以在将来将其用于识别这样的关系。该方法和系统识别查询的右签名与返回的左签名及查询的左签名与返回的右签名的相同匹配,以此确定签名单词串模式来识别关系,并且只识别对反义唯一的摇篮,而不包括真正的语义等价(或其他关系)。此处理使用标准的CFA方法在左签名之间与右签名之间进行比较,除了在此系统查找由查询的反义而不由查询共享的摇篮,而不是只查找查询的共有摇篮。通过识别对查询的反义唯一的摇篮,可以使用此单词串模式来帮助识别是其他项的反义的项。例如,查询不与查询的反义共享的唯一的签名或摇篮模式通常包括将查询的反义作为摇篮或签名单词串的部分包括的签名或摇篮,如下所示。例如,在文档语料库中出现的三个对“hot”的假想摇篮可能是“it’snot__it’scold”“I’mnot__I’mcold”“youpromiseditwouldbe__butit’scold”反义项“cold”是构成查询单词“hot”不与单词“cold”共享的唯一签名的单词串的部分。这以及其他对“hot”而不对“cold”唯一的单词串签名或摇篮会将“cold”作为“hot”的反义来识别,即使在使用此实施例或本发明的其他知识获取列表过滤和排序的实施例之前,“cold”可能在对项“hot”使用CFA得到的知识获取列表上分级较高。结果展示出这样的模式,由签名(或摇篮)构成,并标识唯一类型的关系。然后系统可以使用此模式来识别也共享通过比较它们的签名(或摇篮)构成的“关系识别”模式的其他单词和/或单词串配对。因此,在本发明的一个实施例中,用单词或单词串查询系统来识别具有相反意义的单词和/或单词串,系统将(1)识别在查询周围出现最频繁的单词和/单词串,(2)识别与查询具有某些共有签名(或摇篮)但不是可以将它们作为同义词来识别的在类型或数量或百分比上的共性的单词和/或单词串的列表,(3)然后比较这些相关(但不同义)的单词和/或单词串与查询共享的签名(或摇篮)(如上所述,进行左边对右边而右边对左边,以及左边对左边而右边对右边两种比较),及(4)比较步骤3的结果与先前识别的反义单词和/或单词串配对的签名。如果步骤3中生成的任何比较得到与通过已知反义之间的签名比较得到的模式(基于步骤3中识别出指示反义的签名或摇篮)(在用户定义标准下)足够类似的模式,则系统将识别步骤2得到的单词或单词串,将其与查询对比得到该模式,并将其识别为查询的反义。这些相同的原理应用于识别知识获取列表返回和查询之间的任何关系的系统,这些关系不仅包括同义和反义,还包括共同类的成员(如,“red”和“blue”都是颜色、“Newyork”和“Paris”都是地名)及任何其他语义关系。通过定位两个单词和/或单词串之间共有的左边对左边和右边对右边签名以及共有的左边对右边和右边对左边签名,可以得到表征这些关系的模式,以便由系统在将来对共享由那些相关签名定义的关系的项的配对自动识别该关系。系统也可以通过它们对该组唯一的共有签名和摇篮,自动地对单词和/或单词串组进行“聚类”,并识别它们与其他组的关系。应注意,系统用于产生单词串等价(或任何其他关系)的用户定义参数可以包括在左边或右边邻近查询但不与查询直接相邻的单词串。调整用户定义的参数在语义表达通常不太高效,或结构不太常规的应用中(如,固定在因特网“聊天室”媒体中的对话及其他类型的对话)特别需要。VI.用于跨状态知识获取和重建(翻译)的单状态知识列表本发明的附加实施例使用生成语义等价的列表来帮助本发明在语言翻译中的应用的系统和方法。可以用它替代或连接本发明中识别将添加到跨语言数据库中的单词串翻译的任何方法来执行翻译。本发明的方法和系统可以用于产生辅助任何基于语料库的机器翻译系统(如,EBMT)的语义等价,这样的机器翻译系统包括本发明的机器翻译方面。任何数量的使用源语言中及目标语言单词串的语义等价的实施例都可以用于产生、检验和校验准确翻译。再者,其他实施例可以使用签名或摇篮的翻译来帮助完成准确翻译。例如,如果需要单词串翻译来完成翻译而它没有出现在跨语言关联数据库中并且不能使用可用的平行文本构建,则系统可以生成该未知翻译在源语言中的语义等价,并查看是否有任何语义等价的单词串在数据库中具有目标语言的已知翻译,或可以基于可用的跨语言文本进行学习。另外,目标语言中的单词串翻译也可以在跨语言关联数据库中,但是不和相邻单词串翻译如双锚点重叠方法所要求的那样在两边重叠。在这样的情况下,不能根据双锚点重叠要求来确认翻译,但是目标语言单词串翻译可以用于产生目标语言中语义等价的单词串,然后可以检验与其邻居的重叠情况,以便将其确认为完整翻译。如何在翻译数据库中使用生成语义等价列表的系统和方法的另一个例子如下首先,生成两个在源文档尚未解析的部分的左边和右边的具有用户定义的长度的具体的签名。例如,假设系统正在翻译句子“Iwenttotheballparktowatchthebaseballgame”。再者,假设“Iwenttothe”、“wenttotheballpark”、“towatchthe”和“watchthebaseballgame”的跨语言重叠翻译对系统已知。与“wenttotheballpark”和“towatchthe”重叠的短语,系统并没有重叠的目标语言单词串翻译,例如,“ballparktowatch”(已知它是未解析的短语或部分),需要用它提供重叠连接来确认在两种语言中都具有相邻的重叠单词串的翻译出的句子。如果用户定义的参数定义为未解析的短语直接左边具有三单词串,且未解析的短语直接右边具有三单词串,则本发明返回两个三单词串“具体的左签名单词串”(“wenttothe”)和“具体的右签名单词串”(“thebaseballgame”)。第二,使用上面描述的任何创建语义等价关联的实施例,对文档数据库中源语言的未解析的短语生成签名列表(在此例中使用ICFA)。使用上述语义等价系统和方法对未解析的短语创建出的列表称为左签名列表和右签名列表。第三,将具体的左签名单词串和左签名列表上的所有条目两者翻译为目标语言。可以使用本发明的任何方法或现有技术中的任何设备获得翻译。通过使用本发明的上述多语言杠杆实施例,可以改进使用现有技术中的翻译系统产生的结果。此处理的结果是“左目标签名列表”。对具体的右签名单词串和右签名列表上的所有条目执行类似的翻译处理来创建“右目标签名列表”。第四,使用上述语义等价处理的步骤2和4,使用目标语言文档数据库,通过左右目标签名列表生成目标语言锚点列表。此处理的结果列表分别是左目标锚点列表和右目标锚点列表。最后,比较左目标锚点列表和右目标锚点列表的返回。出现在至少一个左目标锚点列表上和至少一个右目标锚点列表上的结果是查询的可能翻译,并且根据它们所处的锚点列表总数进行分级。可以向通过具体上下文单词串衍生得到的锚点列表上的出现赋予额外的分级权重,以得到更高的精度。也可以通过结果所处的左锚点列表的数量和右锚点列表的数量的乘积来确定分级。另外,在对结果分级时,可以将返回的总频率的某些权重和/或任何其他用户定义的准则作为考虑的因素。当然,像任何使用ICFA的应用那样,可以类似地使用RCFA结合上述的查询的具体上下文摇篮和其他高频率的一般摇篮来实现上述实施例。在这样的情况下,在源语言中生成准确上下文的具体摇篮以及一般摇篮,然后将它们翻译为目标语言摇篮。然后,在目标语言语料库上使用目标语言摇篮,用其他目标语言单词串填充这些摇篮。得到未解析的短语后使用语义等价来构建查询的可能翻译的数据库的另一个实施例如下首先,按如上所述只使用查询中的未解析的短语的具体的左右签名单词串,生成锚点列表。然后,按如上所述使用左签名列表和右签名列表(而不是具体的左签名和右签名单词串),生成左锚点列表和右锚点列表。然后根据它们所处的锚点列表总数对出现在(a)左锚点列表和/或通过具体的左签名单词串和衍生得到的锚点列表中至少一个(b)右锚点列表和/或通过具体的右签名单词串衍生得到的锚点列表中的至少一个上的结果进行分级。可以向通过具体上下文单词串衍生得到的锚点列表上的出现给出额外的分级权重。另外,也可以将返回所处的右锚点列表和左锚点列表数量的乘积用于分级或任何其他用户定义的方法。接下来,然后将翻译查询中未解析的部分及其通过上述分级生成的语义等价列表翻译为目标语言。可以使用本发明的平行文本数据库构建器(使用可用的平行文本)、本发明中的任何其他构建单词串翻译的方法,或现有技术中的其他翻译设备来得到翻译。可以使用本发明上述的多语言杠杆实施例来改进使用现有技术的翻译系统取得的结果。如果用户定义数量的翻译结果相同,则可以将该结果指定为可能的翻译。为了进一步进行分析,在另一个实施例中,对每个翻译结果,系统使用目标语言文本数据库生成语义等价列表。将出现在最大数量的列表(至少两个列表)上并在那些列表上具有最小的分级阈值(绝对和/或相对)的初始目标语言翻译指定为查询中未解析部分的可能翻译。使用语义等价分析来帮助翻译未解析的单词串翻译的所有实施例也可以通过使用具体的上下文单词串并执行CFA产生具体的左签名单词串(或摇篮)的语义等价和具体的右签名单词串(或摇篮)的语义等价来产生附加的签名或摇篮。可以使用具体签名或摇篮的这些语义等价作为附加的签名或摇篮来构建源语言中的语义等价,或使用翻译出的签名或摇篮将它们直接翻译为目标语言来构建目标语言语义等价。作为使用ICFA或RCFA将文档从一种语言翻译为另一种语言的另一个实施例,逐单词解析句子和其他要翻译的文档片段,并对每个要翻译的单词及对应的左签名单词串和右签名单词串生成知识获取列表。使用源语言中的单词,及两种语言之间的跨语言字典,可以得到每个单词在目标语言中的可能翻译。使用这些目标语言单词来生成每个目标语言单词的知识获取列表。双锚点重叠方法的衍生方法查找出现在源语言中相邻或位置接近的单词的每个知识获取列表上的重叠单词串,并在目标语言中做出相同处理。使用跨语言字典,知识获取列表上的重叠单词串中的单词,可以将那些串确认为翻译。可以进一步使用双锚点重叠方法连接翻译和相邻的单词串来校验单词串翻译。可以对解析后大于一个单词(如,两个单词)的单元使用相同的方法,且可以用本发明的翻译方面或现有技术中的翻译引擎来代替跨语言字典,充当语言之间的翻译桥梁。此外,通过使用本发明中在搜索源语言单词串和/或目标语言单词串来识别翻译时允许对可互换语义项进行记号化的方法,本发明中识别单词或单词串与其他单词或单词串所具有的语义关系的具体质量的方法可以在翻译应用中使用。例如,假设要使用本发明的一种方法将意义为“tellBobtocomedownstairs”的语言X单词串翻译为英语。如果语言X和/或英语的文本并不包含该单词串,而是包含单词串“tellJimtocomedownstairs”和“tellMarytocomedownstairs”,则希望能够使用这些单词串,通过使用“名字记号”而不是单词“Bob”来帮助识别翻译,然后在最终输出的翻译中用“Bob”来替换名字记号。现有技术的已知方法在翻译中对已知的等价类使用类记号,这些等价类如姓名、日期、数字和星期,它们通常在翻译中可彼此互换,因此该形式一个翻译就可以充当所有类成员的翻译。现有技术中的这些方法尝试事先填充等价类的已知成员,从而在碰到它们时识别它们。虽然此方法对只属于一个类的已知类成员工作得很好,但如果系统碰到属于两个或多个类的单词,或单词或单词串是不熟悉的特定类(如,姓名)的成员,则现有技术在目标文本中搜索翻译候选时不能使用类记号。本发明向系统提供对不是已知类成员的单词和单词串使用类记号的方法。此方法分析未出现在跨语言数据库或语料库中的任何单词串,并尝试查看较长未知单词串内的任何单词或子串(或通过在未知单词串前面和/或后面添加相邻的单词所创建的扩展)是否是将较长的未知串中的单词或单词串识别为可以记号化的类成员的签名(或摇篮)。例如,如果要翻译的单词串意思是“tellJerometocomedownstairs”而系统并未在数据库中包含这个单词串翻译且不能在可用文档中找到它,则系统可以识别出,摇篮“tell__tocomedownstairs”是可能的“姓名类”标志,且单词“Jerome”出现在语料库中足够多的其他单词串中,同时满足分类为姓名记号所需的用户定义的姓名摇篮的数量或百分比。一旦记号化了姓名Jerome,系统就可以使用此信息,用语料库中包含摇篮“tell__tocomedownstairs”及填充摇篮的任何其他姓名的单词串来构建“tellJerometocomedownstairs”的翻译。再者,在单词或单词串具有两种意义并且只有一种意义属于特定类的任何时候,具体的摇篮(或独立的左签名和右签名)将确定使用哪个意义。例如,如果句子是“givemethebluepaintbeforeyougo”,则系统可以基于摇篮“givemethe__paint”及“blue”的其他确定它是颜色的已知签名记号化“blue”,将其作为颜色。然而,如果单词串是“Ifeelbluesincethebreakup”,则系统将不把“blue”记号化为颜色,因为该摇篮并不满足颜色类,而是可以基于上述方法用与“blue”同属“情感”类的成员单词如“sad”来替换它。VII.单状态知识重建正如双锚点重叠方法跨语言拼凑合适的相邻单词串翻译,相同的重叠方法可以用在单种语言中,通过将较长的概念解析为重叠的子单元,生成子单元的语义等价,并在同义子单元与其邻居重叠(邻居可以是初始文本或初始文本的同义)时替换初始文本的同义子单元,以多种不同方式表达任何较长的概念。对文本挖掘和搜索及检索,以及自然语言识别、自然语言接口和更加复杂的人工智能应用来说,这是很有效的应用。例如,处理句子“whenIgethomefromschoolImustdomyhomeworkbeforeIgoouttoplaywithmyfriends”。通过执行RCFA或ICFA知识获取分析以及语义等价过滤方法,系统可以得知下面解析出的子单元的语义等价短语1.“whenIgethomefromschoolImust”a.“whenIcomehomefromschoolImust”b.“whenIcomehomefromschoolIbetter”c.“assoonasIcomehomefromschoolIhaveto”2.“ImustdomyhomeworkbeforeIgoout”a.“IhavetodomyhomeworkbeforeIgoout”b.“IbetterdomyschoolworkbeforeIheadout”c.“ImustgetmyhomeworkdonebeforeIleavethehouse”3.“goouttoplaywithmyfriends”a.“headouttoplaywithmyfriends”b.“leavethehousetohangoutwithmyposse”c.“goouttohangwithmybuddies”上述语义等价的单词串列表,加上重叠方法,可以提供表达整个初始句子的各种替代方式。例如,句子的一种替代表达可以是whenIarrivehomefromschoolIbetterIbetterdomyschoolworkbeforeIheadoutheadouttoplaywithmyfriends在排除冗余之后,系统提供“whenIarrivehomefromschoolIbetterdomyschoolworkbeforeIheadouttoplaywithmyfriends”作为初始查询的同义表达。VIII.CFA应用的范围A.概述从核心上来说,关联数据库构建方法包括(i)取得以线性或有序的方式组织的数据单元,(ii)将数据分解为整体的所有可能相邻子集,及(iii)基于在可用于研究的所有数据单元中重现子集彼此之间距离(通常非常)接近的频率,构建所有数据子集之间的关系。从CFA的核心上来说,系统识别重现数据片段组之间频繁重现的邻近程度关系来发现由两个或多个重现的数据片段共享的特定关联。因此,在数据库创建和共有频率分析中使用的相同的方法可以在很多其他类型的数据挖掘、文本挖掘、目标识别,及需要识别关联概念之间的模式的任何其他应用中用来识别模式。再者,这些任务并不限于查找文本中的单词串模式。对语言翻译来说,概念的具体形态在文档中表示,对音乐来说,具体形态可以是表示相同组成的音符和声音频率的数字表示等等。使用视频和音频两种媒体,可以使用类似的方法得到棒球运动员挥棒但未能击出的视频剪辑和单词串“strikeout”之间的关联。棒球运动员挥棒并错失然后回到休息处的一致通用视觉表示及单词串“strikeout”(或已知其意义为“stikeout”的声音频率),在显著的样本大小上,将具有非常高的跨概念关联频率。一旦开发出当编码为可视数据时可以一般化对挥棒和错失的理解的机制,就能允许系统在此情况中进行操作。作为另一个例子,可视化软件的一个共同目标包括用系统分析可视图像来自动确定某个人是否在图像中。虽然这对可视化或图像识别技术的当前发展水平来说是困难的任务,本发明可以使用CFA通过在图像内对应于人的部分中查找相邻特征(如,在给定半径范围内)来学习“人”的签名。使用此实施例向系统提供图像语料库,在语料库上进行训练来查找构成人的像素阵列及构成人之外的其他事物的像素阵列之间的可区分因素。一种方法让系统使用通过光敏镜头和识别散发热量的物体的红外线传感器两者取得的图像。然后训练系统识别定义散发热量的物体和那些不散发热量的物体之间的关系的光敏像素模式。通过这样的热量散发分组,系统可以进一步改进对像素模式的训练来区分散发热量的非人类元素(其他动物、火,等等)和人。总的来说,本发明基于在该主体概念的所有上下文中出现在它周围的概念序列来定义任何给定的“主体概念”。在某种意义上,本发明通过包围它的全体概念定义每个主体概念,这包括出现在主体概念前面的概念和出现在主体概念之后的概念,而不管概念的表达形式。当以书面语言表达概念时,存在一个包围并定义它的“时间”维度(如,通过流、顺序、或序列来表达)。英语中的左签名表示在“时间”上出现在任何查询之前的不同概念,而英语中的右签名表示在“时间”上出现在查询概念之后的不同概念。在文本之外的特定媒体中的概念表示增加了附加的包围主体概念的“空间”维度。除了多个时间单元对概念提供的上下文之外,这些附加的维度还提供其他定义主体概念的上下文。例如,口语以音色、语调和抑扬顿挫等等形式对概念序列中的每个概念增加上下文(签名)(除了仍然很重要对紧接在主体概念之前和之后的概念的识别之外)。概念的可视表示添加周围的物理(或感知)维度,向不随着时间移动概念提供附加的上下文,如果它随着时间移动,则还提供在它之前或之后的概念序列。当然,除了由多个时间单元上的周围概念序列提供的重要上下文之外,概念的音频-可视表示及其他同时的多感觉表示还增加一些周围上下文的维度来帮助在时间上定义每个孤立的概念。B.数据压缩一旦使用CFA在单种状态内(或使用跨状态知识获取跨状态地)生成了概念知识库,对每种语言内和跨不同语言表达相同概念的不同单词和单词串,可以向每个概念赋予编号或某些其他唯一的有效识别标签或记号来共同标识它们。这自然地提供了非常强大的数据压缩方法和系统。如果向现有状态中的表达赋予了与另一种状态的数据点的特定关联并在数据库中编目,则可以在那两种状态之间进行转换。例如,可以向通过某种形式、状态,或语言表示的每个“概念”分配编号(或电磁频谱上的频率)。当要将概念的组合从一个位置传输到另一个位置时,可以将它们解析为重叠的概念,并可以将那些解析出的概念的表示转换为其他所分配的记号(如,编号、电磁频率等等)。通过使用这些记号,使用电磁频频或其他带宽形式(以及发送编码器和接收编码器)从一个位置传输到另一个位置所需的数据量得到压缩。概念的传输需要在第一次传输配对(概念、唯一编号),而以后只需传输编号。对本发明技术的多处理器实现,处理器之间相同的高效内部传输可以作为概念的远距传输来实现(如,通过唯一编号)。一旦传输了概念,就用概念描述替换它们的唯一标识符来对其进行解码-而不管唯一标识符是如何编码的编号、电磁频率,或任何其他标识符都可以。IX.用于智能应用的单状态CFA在另一个实施例中,用户可以基于对一起出现在问题、请求或句子中的两个或多个不同的单词串的特定模式组合的识别,控制本发明自动执行特定的CFA。用户可以控制系统,使得两个或多个不同单词串的模式的出现(在以各种其他方式解析为各种长度的两个或多个单词串之后,识别处于特定邻近程度的或顺序的现有单词串组合)是触发特定CFA的复杂分类的一部分。这些CFA可以要求系统访问先前通过前面的CFA学习到而现在存储在知识库中的信息,或可以要求学习来自文档数据库(或Web或其他可用的语料库)的新信息,使用它并将其存储在知识库中以便将来使用。对CFA的每个结果,系统从知识库中检索信息,或基于先前的训练和用户设置的触发器(或系统自动学习得到的触发器),执行下一次CFA(或由先前的CFA触发的一系列的CFA),直到系统给出问题的答案或执行任务。本发明可以使用本发明的方法来生成知识获取列表,并使用过滤方法来识别所有从请求、问题,或句子中解析出的单词和单词串的语义等价单词和单词串。在一个实施例中,可以训练本发明的方法和系统识别不同类型的问题。例如,如果向系统询问如“WherecanIseekangaroosinAmerica?”这样的问题,系统可能已训练为将其中可能由用户分类的部分识别为“WhereDoesOneFind__”分类,这是先前由用户训练并标记出的。用户可以训练系统使用上述语义等价生成器(和重叠方法)对此类问题的一个或多个例子识别查询的各种其他形式。一旦已对系统进行了训练,且系统可以识别系统各种具体例子,则当识别出此类问题时用户可以设置触发器,这将开始执行预定的下一次CFA来提供问题的答案。例如,系统可以通过语义等价分析和过滤学习到“wherecanIgotosee__”、“wherecanyoutellmetogotosee__”和“wherecanIfind__”是“WhereDoesOneFind__”问题分类箱的所有成员。类似地,系统也将通过RCFA或ICFA对“seekangaroos”(如,“watchkangaroos”)和“inAmerica”(如,“intheUS”)进行语义等价生成得到分类或概念类。因此系统可以识别触发对下一组单词和/或单词串执行CFA的不同类成员组合的出现。因此用户可以训练系统识别这些在特定序列中的类成员的模式,从而它们触发CFA识别此类“WhereDoesOneFind__”问题的答案所需的策略。再者,“WhereDoesOneFind”部分可能不在句子开头处,例如“IfIwanttoseekangarooswhileI’minAmerica,wheredoyousuggestIgo”。“wheredoyousuggestIgo”是此序列中的最后一个概念。因此用户训练系统将此形式和概念序列识别为“WhereDoesOneFind__”问题分类的成员,以便通过CFA分析来执行人工智能应用。在一个实施例中,用户可以对系统设置触发器,使得当它碰到提出“WhereDoesOneFind__”问题的分类箱中的概念的序列时,为了得到好的答案,系统提供符合概念分类箱“Places”的答案。找出正确的地点是由识别“WhereDoesOneFind__”问题中的这组单词串触发的CFA的目标。用户可以训练系统,当碰到“WhereDoesOneFind__”类型的问题时,查找“Places”分类箱中与查询请求查看的物体(在此例子中,即“kangaroos”)关系最密切(即,频繁出现在直接左边或右边(或附近))的成员。要判断哪个“Places”与“物体”关系最密切只需要知道在文本中的物体直接左边或右边或附近的频率计数,或可以包括训练系统识别物体周围指示你可以在某地找到该物体的具体单词串签名或摇篮。如果这是问题中的唯一信息,则“Place”分类箱中与“kangaroos”最相关的成员可能是“Australia”。然而,在此例中,问题也包含用户训练系统识别为“PlaceRestriction”分类箱的成员,“inAmerica”。用户可以训练本发明在提问者想看的事物(“kangaroos”)和位置限制(“inAmerica”)之间触发CFA。这两个数据片段之间最高的关联可能是“thezoo”、“theSanDiegoZoo”或“onTV”。注意,“onTV”可能不符合常规的“Place”分类箱。然而,查询“wherecanIsee”符合“HowCanOneView__”分类箱(以及“WhereDoesOneFind__”分类箱)。这可以包括“onTV”,因此,智能应用可以允许来自“Place”分类箱以及例如用户确定或系统学习得到的“WaystoViewThings”分类箱的答案。其他更加复杂的问题可能要求CFA的结果作为多步触发方案的一部分触发另一次CFA来处理特定类型的问题或请求。如上所述,用户可以基于符合一般分类和用户已训练系统使用的“思考处理”或策略的不同单词串的模式,训练系统使用这些触发器步骤。如刚才所述,用户训练系统对特定的CFA使用特定的触发器。随着用户训练系统,并且取得解决问题的足够多的触发器,系统就可以开始学习当碰到新的单词串模式时,如何基于不熟悉的多个单词串模式与触发CFA的已知的多个单词串模式之间的相似度(使用CFA语义等价分析加上重叠来判断相似度),识别如何触发合适的下一步CFA。接下来,系统识别触发器组之间的相似度并使用它们来设置新单词串模式的触发器。再者,用户可以对系统设置自动触发器来解决新问题的策略设置触发器。熟悉技术的人应理解,熟练的操作者可以对上述装置和方法做出改变而不偏离本发明的精神和范围。附录A-知识获取列表(具有部分结果的例子)知识获取引擎使用24亿单词量的英语语料库得到的样本结果对“警惕的眼睛”进行概念挖掘得到的结果知识获取引擎使用24亿单词量的英语语料库得到的样本结果对“有意义的”进行概念挖掘得到的结果知识获取引擎使用24亿单词量的英语语料库得到的样本结果对“演示”进行概念挖掘得到的结果知识获取引擎使用24亿单词量的英语语料库得到的样本结果对“上帝”进行概念挖掘得到的结果知识获取引擎使用24亿单词量的英语语料库得到的样本结果对“会议”进行概念挖掘得到的结果知识获取引擎使用24亿单词量的英语语料库得到的样本结果对“亚利桑那州”进行概念挖掘得到的结果知识获取引擎使用24亿单词量的英语语料库得到的样本结果对“万维网”进行概念挖掘得到的结果知识获取引擎使用24亿单词量的英语语料库得到的样本结果对“分析”进行概念挖掘得到的结果知识获取引擎使用24亿单词量的英语语料库得到的样本结果对“有关信息”进行概念挖掘得到的结果知识获取引擎使用24亿单词量的英语语料库得到的样本结果对“保险地说”进行概念挖掘得到的结果知识获取引擎使用24亿单词量的英语语料库得到的样本结果对“国家最大的”进行概念挖掘得到的结果知识获取引擎使用24亿单词量的英语语料库得到的样本结果对“CEO”进行概念挖掘得到的结果知识获取引擎使用24亿单词量的英语语料库得到的样本结果对“条款和条件”进行概念挖掘得到的结果知识获取引擎使用24亿单词量的英语语料库得到的样本结果对“规则和规定”进行概念挖掘得到的结果知识获取引擎使用24亿单词量的英语语料库得到的样本结果对“基地组织”进行概念挖掘得到的结果附录A-知识获取列表具有全部结果的例子)对“重要的是注意”进行知识获取得到的结果附录B-使用平行文本和重叠进行翻译的例子尝试翻译(从英语到西班牙语)Filecomparisontook4.865Seconds.youcanalso的频率表Filecomparisontook1.774Seconds.youcanalso的频率表youcanalsorename的可能翻译(使用重叠)Filecomparisontook5.326Seconds.renamethefile的频率表youcanalsorenamethefile的可能翻译(使用重叠)Filecomparisontook10.28Seconds.thefileand的频率表youcanalsorenamethefileand的可能翻译(使用重叠)Filecomparisontook0.949Seconds.fileandwrite的频率表youcanalsorenamethefileandwrite的可能翻译(使用重叠)Filecomparisontook2.702Seconds.andwritecode的频率表youcanalsorenamethefileandwritecode的可能翻译(使用重叠)Filecomparisontook9.389Seconds.Writecodethat的频率表youcanalsorenamethefileandwritecodethat的可能翻译(使用重叠)Filecomparisontook1.895Seconds.thataffectsthe的频率表youcanalsorenamethefileandwritecodethatafftect的可能翻译(使用重叠)Filecomparisontook1.033Seconds.theprojectinorder的频率表Filecomparisontook8.229Seconds.theprojectin的频率表youcanalsorenamethefileandwritecodethataffectstheproject的可能翻译(使用重叠)Filecomparisontook1.656Seconds.projectinorder的频率表youcanalsorenamethefileandwritecodethataffectstheprojectinorder的可能翻译(使用重叠)Filecomparisontook7.183Seconds.inorderto的频率表youcanalsorenamethefileandwritecodethataffectstheprojectinorderto的可能翻译(使用重叠)Filecomparisontook1.949Seconds.inordertocompletethe的频率表youcanalsorenamethefileandwritecodethataffectstheprojectinordertocompletethe的可能翻译(使用重叠)Filecomparisontook4.957Seconds.Frequencytablefortheapplicationforyoucanalsorenamethefileandwritecodethataffectstheprojectinordertocompletetheapplicationforinformationoncreating的可能翻译(使用重叠)Filecomparisontook7.270Seconds.forinformationoncreating的频率表youcanalsorenamethefileandwritecodethataffectstheprojectinordertocompletetheapplicationforinformationoncreatingapplications的可能翻译(使用重叠)Filecomparisontook2.627Seconds.creatingaoplications的频率表youcanalsorenamethefileandwritecodethataffectstheprojectinordertocompletetheapplicationforinformationoncreatingapplications的可能翻译(使用重叠)Translationprocesscomplete(took245.6seconds)EnglishyoucanalsorenamethefileandwritecodethataffectstheprojectinordertocompletetheapplicationforinformationoncreatingapplicationsSpanishtambiénpuedecambiarelnombredeunarchivoyescribircódigo.queafectaalproyectoparacompletarlaaplicaciónparaobtenerinformaciónsobrecómocrearaplicaciones附录C下面搜索″unlesswewillhaveacopy″从英语到法语的翻译。Checkingunlesswewillhaveacopydbchecktook0.269SecondS0filesfound**CallingTriangulation′unlesswewillhaveacopy′,fromENtoFR=àmoinsquenousayonsunecopie′unlesswewillhaveacopy′,fromENtoDE=′esseidennwireineKopiehaben′andbacktoFRits′c′estnousqueunecopiea′′unlesswewillhaveacopy′,fromENtoEL=′εκτóζανθαandbacktoFRits′àmoinsquenousayonsunecopie′′unlesswewillhaveacopy′,fromENtoES=′amenosquetengamosunacopia′andbacktoFRits′àmoinsquenousayonsunecopie′′unlesswewillhaveacopy′,fromENtoIT=′amenocheabbiamounacopia′andbacktoFRits′moinsquenousavonsunecopie′′unlesswewillhaveacopy′,fromENtoKO=andbacktoFRits′Nousquandilyaunecopielarancune′′unlesswewillhaveacopy′,fromENtoNL=′tenzijwijeenexemplaarzullenhebben′andbacktoFRits′àmoinsquenousunecopie′′unlesswewillhaveacopy′,fromENtoPT=′amenosquenóstivermosumacópia′andbacktoFRits′àmoinsquenousayonsunecopie′′unlesswewillhaveacopy′,fromENtoRU=′Ecлнмынебудемиметьконию′andbacktoFRits′Sinousn′auronspasunecopie′TheTriangulationprocesstook12.58sec.Checking″àmoinsquenousayonsunecopie″backtooriginalIanguage.′àmoinsquenousayonsunecopie′,fromFRtoEN=unlesswehaveacopy′àmoinsquenousayonsunecopie′,fromFRtoDE=′esseidennwireineKopiehaben′andbacktoENits′itisweacopyhas′′àmoinsquenousayonsunecopie′,fromFRtoEL=′moinsquenousayonsunecopie′andbacktoENits′moinsquenousy′!ayonsunecopie′′àmoinsquenousayonsunecopie′,fromFRtoES=′amenosquetengamosunacopia′andbacktoENits′unlesswehaveacopy′′àmoinsquenousayonsunecopie′,fromFRtoIT=′amenocheabbiamounacopia′andbacktoENits′lessthatwehaveonecopy′′àmoinsquenousayonsunecopie′,fromFRtoKO=andbacktoENits′Grudgeuswhoarenotwhenitisthecopy′′àmoinsquenousayonsunecopie′,fromFRtoNL=′tenzijwijeenexemplaarhebben′andbacktoENits′unlesswehaveacopy′′àmoinsquenousayonsunecopie′,fromFRtoPT=′amenosquenóstivermosumacópia′andbacktoENits′unlesswehaveacopy′′àmoinsquenousayonsunecopie′,fromFRtoRU=″andbacktoENits″TheTriangulationprocesstook12.90sec.Checkingunlesswewillhaveadbcheektook0.225Seconds0filesfound**CallingTriangulation′unlesswewillhavea′,fromENtoFR=àmoinsquenousayonsa′unlesswewillhavea′,fromENtoDE=′esseidennwixahaben′andbacktoFRits′c′estquenousAa′′unlesswewillhavea′,fromENtoEL=′εκτóζανθατοα′andbacktoFRits′àmoinsquenousayonslea′′unlesswewillhavea′,fromENtoES=′amenosquetengamosa′andbacktoFRits′àmoinsquenousayonsa′′unlesswewillhavea′,fromENtoIT=′amenocheabbiamoa′andbacktoFRits′moinsquenousdevons′′unlesswewillhavea′,fromENtoKO=andbacktoFRits′NousquandiIyaun}a{Iarancune′′unlesswewillhavea′,fromENtoNL=′tenzijwijazullenhebben′andbacktoFRits′àmoinsquenousa′′unlesswewillhavea′,fromENtoPT=′amenosquenóstivermosa′andbacktoFRits′àmoinsquenousayons′′unlesswewillhavea′,fromENtoRU=′Еслимынебудемиметьa′andbacktoFRits′Sinousn′auronspasA′TheTriangulationprocesstook12.51sec.Checkingunlesswewinhavedbchecktook0.124Seconds0filesfound**CallingTriangulation′unlesswewillhave′,fromENtoFR=àmoinsquenousayons′unlesswewillhave′,fromENtoDE=′esseidennwirhaben′andbacktoFRits′c′estnousa′′unlesswewillhave′,fromENtoEL=′εκτóζανθαandbacktoFRits′àmoinsquenousayons′′unlesswewillhave′,fromENtoES=′amenosquetengamos′andbacktoFRits′àmoinsquenousayons′′unlesswewillhave′,fromENtoIT=′amenocheabbiamo′andbacktoFRits′moinsquenousavons′′unlesswewillhave′,fromENtoKO=andbacktoFRits′QuandiIyadenousIarancune′′unlesswewillhave′,fromENtoNL=′tenzijwijzullenhebben′andbacktoFRits′àmoinsquenous′′unlesswewillhave′,fromENtoPT=′amenosquenóstivermos′andbacktoFRits′àmoinsquenousayons′′unlesswewillhave′,fromENtoRU=′Еслимынебудемиметь′andbacktoFRits′Sinousn′auronspas′TheTriangulationprocesstook7.314sec.Checking″àmoinsquenousayons″backtooriginallanguage.′àmoinsquenousayons′,fromFRtoEN=unlesswehave′àmoinsquenousayons′,fromFRtoDE=′esseidennwirhaben′andbacktoENits′itiswehas′′àmoinsquenousayons′,fromFRtoEL=′moinsquenousayons′andbacktoENits′moinsquenousy′!ayons′′àmoinsquenousayons′,fromFRtoES=′amenosquetengamos′andbacktoENits′unlesswehave′′àmoinsquenousayons′,fromFRtoIT=′amenocheabbiamo′andbacktoENits′lessthatwehave′′àmoinsquenousayons′,fromFRtoKO=′andbacktoENits′Whentherearegrudgewewhoarenot′′àmoinsquenousayons′,fromFRtoNL=′tenzijwijhebben′andbacktoENits′unlesswehave′′àmoinsquenousayons′,fromFRtoPT=′amenosquenóstivermos′andbacktoENits′unlesswehave′′àmoinsquenousayons′,fromFRtoRU=″andbacktoENits″TheTriangulationprocesstook12.15sec.Checkingunlesswewilldbchecktook0.001Seconds0filesfound**CallingTriangulation′unlesswewill′,fromENtoFR=àmoinsquenous′unlesswewill′,fromENtoDE=′esseidennwitwerden′andbacktoFRits′c′estnousdevient′′unlesswewill′,fromENtoEL=′εκτóζαν′andbacktoFRits′àmoinsque′′unlesswewill′,fromENtoES=′amenosque′andbacktoFRits′àmoinsque′′unlesswewill′,fromENtoIT=′amenoche′andbacktoFRits′moinsque′′unlesswewill′,fromENtoKO=andbacktoFRits′Larancuneoùnousnesommespas′′unlesswewill′,fromENtoNL=′tenzijwijzullen′andbacktoFRits′àmoinsquenous′′unlesswewill′,fromENtoPT=′amenosquenós′andbacktoFRits′àmoinsquenous′′unlesswewill′,fromENtoRU=′Еслимынебудем′andbacktoFRits′Sinousneseronspas′TheTriangulationprocesstook10.56sec.Checking″àmoinsque″backtooriginallanguage.′àmoinsque′,fromFRtoEN=unless′àmoinsque′,fromFRtoDF=′esseidenn′andbacktpENits′itis′′àmoinsque′,fromFRtoEL=moinsque′andbacktoENits′y′!moinsque′′àmoinsque′,fromFRtoES=′amenosque′andbacktoENits′unless′′àmoinsque′,fromFRtoIT=′amenoche′andbacktoENits′lessthan′′àmoinsque′,fromFRtoKO=andbacktoENits′Thegrudgewhichisnot′′àmoinsque′,fromFRtoNL=′tenzij′andbacktoENits′unless′′àmoinsque′,fromFRtoPT=′amenosque′andbacktoENits′unless′àmoinsque′,fromFRtoRU=″andbaoktoENits″TheTriangulationprocesstook7.903sec.Checkingunlesswedbchecktook0.093Secondsfirstgreptook2.003Secondsfoundin1000filestranslateditin0.702SecondsRule-basedtranslation#2=àmoinsquenoustranslateditin5.394Seconds999of1000filescontainapair(sourceandtargetlanguage).Checkingmoinsquenousgrepintargetlanguagetook0.233Seconds20found.countinginfilestook0.018SecondsFoundin16files.File#0eng/hansard_disc/set_a/a0/a_012.89.eng--totalwords1786;Locations578.frenchfile.File#1eng/hansard_disc/set_a/a0/a_020.29.eng--totalwords2004;Locations760.frenchfile.File#2eng/hansard_disc/set_a/a0/a_008.9.eng--totalwords1972;Locations919.frenchfile.File#3eng/hansard_disc/set_a/a0/a_009.24.eng--totalwords2319;Locations953.frenchfile.File#4eng/hansard_disc/set_a/a0/a_026.37.eng--totalwords2320;Locations1895.frenchfile.File#5eng/nansard_disc/set_a/a0/a_006.25.eng--totalwords2285;Locations1637.frenchfile.File#6eng/hansard_disc/set_a/a0/a_015.61.eng--totalwords2314;Locations236,948.frenchfile.File#7eng/hansard_disc/set_a/a0/a_031.53.eng--totalwords2495;Locations1446.frenchfile.File#8eng/hansard_disc/set_a/a0/a_011.78.ehg--totalwords2448;Locations1470.frenchfile.File#9eng/hansard_disc/set_a/a0/a_014.92.eng--totalwords2511;Locations1867.frenchfile.File#10eng/hansard_disc/set_a/a0/a_014.38.eng--totalwords2387;Locations2098.frenchfile.File#11eng/hansard_disc/set_a/a0/a_017.82.eng--totalwords2437;Locations1333.frenchfile.File#12eng/hansard_disc/set_a/a0/a_013.1.eng--totalwords2380;Locations1638,2213.frenchfile.File#13eng/hansard_disc/set_a/a0/a_029.25.eng--totalwords2526;Locations1514.frenchfile.File#14eng/hansard_disc/set_a/a0/a_027.42.eng--totalwords2577;Locations2124.frenchfile.File#15eng/hansard_disc/set_a/a0/a_006.93.eng--totalwords2621;Locations2534.frenchfile.Checkingàmoinsquenousgrepintargetlanguagetook0.237Seconds20found.countinginfilestook0.019SecondsFoundin16files.File#0eng/hansard_disc/set_a/a0/a_012.89.eng--totalwords1786;Locations578.frenchfile.File#1eng/hansard_disc/set_a/a0/a_020.29.eng--totalwords2004;Locations760.frenchfile.File#2eng/hansard_disc/set_a/a0/a_008.9.eng--totalwords1972;Locations919.frenchfile.File#3eng/hansard_disc/set_a/a0/a_009.24.eng--totalwords2319;Locations953.frenchfile.File#4eng/hansard_disc/set_a/a0/a_026.37.eng--totalwords2320;Locations1895.frenchfile.File#5eng/hansard_disc/set_a/a0/a_006.25.eng--totalwords2285;Locations1637.frenchfile.File#6eng/hansard_disc/set_a/a0/a_015.61.eng--totalwords2314;Locations236,948.frenchfile.File#7eng/hansard_disc/set_a/a0/a_031.53.eng--totalwords2495;Locations1446.frenchfile.File#8eng/hansard_disc/set_a/a0/a_011.78.eng--totalwords2448;Locations1470.frenchfile.File#9eng/hansarddisc/set_a/a0/a_014.92.eng--totalwords2511;Locations1867.frenchfile.File#10eng/hansard_disc/set_a/a0/a_014.38.eng--totalwords2387;Locations2098.frenchfile.File#11eng/hansard_disc/set_a/a0/a_017.82.eng--totalwords2437;Locations1333.frenchfile.File#12eng/hansard_disc/set_a/a0/a_013.1.eng--totalwords2380;Locations1638,2213.frenchfile.File#13eng/hansard_disc/set_a/a0/a_029.25.eng--totalwords2526;Locations1514.frenchfile.File#14eng/hansard_disc/set_a/a0/a_027.42.eng--totalwords2577;Locations2124.frenchfile.File#15eng/hansard_disc/set_a/a0/a_006.93.eng--totalwords2621;Locations2534.frenchfile.Lastsearchtook13.44*true*unlesswe的频率表Startingtotranslate,false,false,french,true,eng,freTryingtotranslateSofarIhaveagoodoverlapOCheckingwewillhaveacopydbchecktook0.297Seconds0filesfound**CallingTriangulation′wewillhaveacopy′,fromENtoFR=nousauronsunecopie′wewillhaveacopy′,fromENtoDE=′wirhabeneineKopie′andbacktoFRits′nousavonsunecopie′′wewillhaveacopy′,fromENtoEL=′θαandbacktoFRits′nousauronsunecopie′′wewillhaveacopy′,fromENtoES=′tendremosunacopia′andbacktoFRits′nousauronsuncopie′′wewillhaveacopy′,fromENtoIT=′avremounacopia′andbacktoFRits′nousauronsunecopie′′wewillhayeacopy′,fromENtoKO=andbacktoFRits′Nousseronslacopie′′wewillhaveacopy′,fromENtoNL=′wijZulleneenexemplaarhebben′andbacktoFRits′nousauronsunecopie′′wewillhaveacopy′,fromENtoPT=′nósteremosumacópia′andbacktoFRits′nousauronsunecopie′′wewillhaveacopy′,fromENtoRU=′Мыбудемиметькопию′andbacktoFRits′Nousauronsunecopie′TheTriangulationprocesstook17.77sec.Checking″nousauronsunecopie″backtooriginallanguage.′nousauronsunecopie′,fromFRtoEN=wewillhaveacopy′nousauronsunecopie′,fromFRtoDE=′wirhabeneineKopie′andbacktoENits′wehaveacopy′′nousauronsunecopie′,fromFRtoEL=′nousauronsunecopie′andbacktoENits′nousauronsunecopie′′nousauronsunecopie′,fromFRtoES=′tendremosunacopia′andbacktoENits′wewillhaveonecopies′′nousauronsunecopie′,fromFRtoIT=′avremounacopia′andbacktoENits′Wewillhaveonecopy′′nousauronsunecopie′,fromFRtoKO=andbacktoENits′Thecopywhichmeanswillbewe′′nousauronsunecopie′,fromFRtoNL=′wijzulleneenexemplaarhebben′andbacktoENits′wewillhaveacopy′′nousauronsunecopie′,fromFRtoPT=′nósteremosumacópia′andbacktoENits′wewillhaveacopy′′nousauronsunecopie′,fromFRtoRU=″andbacktoENits″TheTriangulationprocesstook8.645sec.wewillhaveacopy的频率表EnglishunlesswewillhaveacopyFrenchStartingtotranslateunlesswewillhaveacopy,false,false,french,true,eng,freselectlang,olangfrompeanutwherelang=′unlesswewillhaveacopy′orderbylangcountdesc-0Currentstringtobetranslated=unlesswewillhaveacopyGotHere....Whatnow?true1)àmoinsquenousauronsunecopieThetranslationprocesstook117.0sec.附录D-使用目标语言洪流和重叠进行翻译的例子Startingtotranslatebrakeandover(hamasanuncióestejueveselfindesucesedelfuegoconisrael)hamasanuncióestejueveswasjusttranslatedandreturnedresultsNumberofresults=1000Translationforhamasanuncióestejuevestook1.328hamasanuncióestejueveselwasjusttranslatedandreturnedresultsNumberofresults=1000Translationforhamasanuncióestejueveseltook0.946hamasanuncióestejueveselfinwasjusttranslatedandreturnedresultsNumberofresults=1000Translationforhamasanuncióestejueveselfintook1.29Skippinganuncióestejuevesel(2<2)anuncióestejueveselfinwasjusttranslatedandreturnedresultsNumberofresults=306Translationforanuncióestejueveselfintook0.827goingtotryandoverlapthispiecewiththehashmap@@@Pre3@@@@@@Post4@@@Tryingtooverlap′hamasanuncióestejueveselfin′,′anuncióestejueveselfin′(4,null,1)-(306)Nogoodsourceoverlap@@@Pre4@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejuevesel′,′anuncióestejueveselfin′(2,hamasanuncióestejueveselfin,1)-(306)Gotanoverlapinsource,checkingtarget1000-306Overlapcheckfor′hamasanuncióestejuevesel′,′anuncióestejueveselfin′took0.722***hamasanuncióestejuevesel(1000),(306)anuncióestejueveselfin=hamasanuncióestejueveselfin@@@1223->0hamasanuncióestejueveselfin′的重叠结果1)′hamasannouncedthursday,thecompletion′-85(Repeated11times)(hamas,announcedthursdaythe∷announcedthursdaythecompletion)2)′hamas,announcedthursdaythetermination′-85(Repeated5times)(null)3)′hamasannouncedthursday,theend′-85(Repeated4times)(hamas,announcedthursdaythe∷announcedthursdaytheend)4)′hamas,announcedthursdaytheend′-85(Repeated9times)(null)5)′hamasannouncedthursday,thetermination′-85(Repeated4times)(hamas,announcedthursdaythe∷announcedthursdaythetermination)6)′hamas,announcedthursdaythecompletion′-85(Repeated8times)(null)7)′hamas,announcedthursdaythatthecompletion′-80(Repeated3times)(null)8)′hamasannouncedonthursday,theend′-80(Repeated1times)(hamas,announcedonthursdaythe∷announcedonthursdaytheend)9)′hamas,announcedthnrsdaytheendof′-80(Repeated8times)(null)10)′hamasannouncedthursday,theendof'-80(Repeated3times)(hamas,announcedthursdaythe∷announcedthursdaytheendof)11)′of,hamasannouncedthursdaytheend′-80(Repeated7times)(null)12)′that,hamasannouncedthursdaythetermination′-80(Repeated3times)(null)13)′and,hamasannouncedthursdaytheend′-80(Repeated10times)(null)14)′as,hamasannouncedthursdaythetermination′-80(Repeated4times)(null)15)′hamasannouncedthursday,theterminationof′-80(Repeated3times)(hamas,announcedthursdaythe∷announcedthursdaytheterminationof)16)′hamas,announcedthursdaythecompletionof′-80(Repeated7times)(null)17)′of,hamasannouncedthursdaythecompletion′-80(Repeated4times)(null)18)′the,hamasannouncedthursdaythecompletion′-80(Repeated4times)(null)19)′hamas,announcedthursdayistheend′-80(Repeated2times)(null)20)′and,hamasannouncedthursdaythetermination′-80(Repeated6times)(null)根据重复次数排序1)thursdayannounced,thecompletion-32(Score=65times)2)thursdayannounced,thecompletionof-26(Score=60times)3)announcedthursday,thecompletion-22(Score=65times)4)announcedthursday,thecompletionof-20(Score=60times)5)onthursdayannounced,thecompletion-16(Score=60times)6)day,hamasannouncedthursdaytheend-15(Score=65times)7)thursdayannounced,thetermination-14(Score=65times)8)announcedonthursday,theend-13(Score=60times)9)day,hamasannouncedthursdaythecompletion-13(Score=65times)10)onthursdayannounced,thecompletionof-13(Score=55times)11)thursdayannounced,theterminationof-12(Score=60times)12)announcedonthursday,thecompletion-12(Score=60times)13)thursdayannounced,thecompletionofits-12(Score=55times)14)announcedthursday,thecompletionofits-12(Score=55times)15)announcedon,thursdayanend-12(Score=50times)16)hamasannouncedthursday,thecompletion-11(Score=85times)17)theyannounced,thursdaythecompletion-11(Score=60times)18)day,hamasannouncedthursdaytheendof-11(Score=60times)19)announcedonthursday,theendof-10(Score=55times)20)announcedon,thursdayanendto-10(Score=45times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueves′,′anuncióestejueveselfin′(2,hamasanuncióestejueveselfin,1)-(306)Gotanoverlapinsource,checkingtarget997-306Overlapcheckfor′hamasanuncióestejueves′,′anuncióestejueveselfin′took0.958***hamasanuncióestejueves(997),(306)anuncióestejueveselfin=hamasanuncióestejueveselfin@@@3169->0hamasanuncióestejueveselfin′的重叠结果1)′hamasannounced,thursdaythecompletion′-85(Repeated11times)(hamas,announcedthursday∷announcedthursdaythecompletion)2)′hamas,announcedthursdaythetermination′-85(Repeated5times)(null)3)′hamas,announcedthursdaythecompletion′-85(Repeated8times)(null)4)′hamasannouncedthursday,thecompletion′-85(Repeated11times)(null)5)′hamasannounced,thursdaythetermination′-85(Repeated4times)(hamas,announcedthursday∷announcedthursdaythetermination)6)′hamasannouncedthursday,theend′-85(Repeated4times)(null)7)′hamas,announcedthursdaytheend′-85(Repeated9times)(null)8)′hamasannouncedthursday,thetermination′-85(Repeated4times)(null)9)′hamasannounced,thursdaytheend′-85(Repeated4times)(hamaas,announcedthursday∷announcedthursdaytheend)10)′hamasannouncedon,thursdaythecompletton′-80(Repeated4times)(hamas,announcedonthursday∷announcedonthursdaythecompletion)11)′that,hamasannouncedthursdaythetermination′-80(Repeated3times)(null)12)′hamas,announcedthursdaythecompletionof′-80(Repeated7times)(null)13)′the,hamasannouncedthursdaythecompletion′-80(Repeated4times)(null)14)′hamas,announeedthursdayinthefinale′-80(Repeated3times)(null)15)′hamas,announcedonthursdaytheend′-80(Repeated6times)(null)16)′that,hsmasannouncedthursdaythecompletion′-80(Repeated4times)(null)17)′hamas,announcedthursdayandendthe′-80(Repeated2times)(null)18)′hamas,announcedonthursdaythecompletion′-80(Repeated4times)(null)19)′the,hamasannouncedthursdaythetermination′-80(Repeated4times)(null)20)′that,hamasannouucedthursdaytheend′-80(Repeated7times)(null)根据重复次数排序1)announcedon,thursdayanend-18(Score=50times)2)announcedon,thursdaythecompletion-16(Score=60times)3)announcedthursday,thecompletion-16(Score=65times)4)day,hamasannouncedthursdaytheend-15(Score=65times)5)announcedon,thursdaytheend-15(Score=60times)6)announcedon,thursdayconpletion-15(Score=55times)7)thursdayannounced,thecompletion-14(Score=65times)8)announcedon,thursdayanendto-13(Score=45times)9)day,hamasannouncedthursdaythecompletion-13(Score=65times)10)announcedthursday,thecomplefionof-13(Score=60times)11)eannounced,thursdaythecompletion-12(Score=45times)12)announcedon,thursdaythecompletionof-11(Score=55times)13)hamasannounced,thursdaythecompletion-11(Score=85times)14)announcedon,thursdaythetermination-11(Score=60times)15)day,hamasannouncedthursdaytheendof-11(Score=60times)16)hamasannouncedthursday,thecompletion-11(Score=85times)17)eannounced,thursdaytheend-10(Score=45times)18)and,hamasannouncedthursdaytheend-10(Score=80times)19)hamasannounced,thursdaythecompletionof-10(Score=80times)20)announcedonthursday,thecompletion-10(Score=60times)anuncióestejueveselfindewasjusttranslatedandreturnedresultsNumberofresults=1000Translationforanuncióestejueveselfindetook1.195goingtotryandoverlapthispiecewiththehashmap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfin′,′anuncióestejueveselfinde′(2,hamasanuncióestejueveselfinde,1)-(1000)Gotanoverlapinsource,checkingtarget1500-1000Overlapcheckfor′hamasanuncióestejueveselfin′,′anuncióestejueveselfinde′took4.251***hamasanuncióestejueveselfin(1500),(1000)anuncióestejueveselfinde=hamasanuncióestejueveselfinde###1839->1839hamasanuncióestejueveselfinde的重叠结果1)hmasannouncedthursdaythe,endof-90(Repeated1times)(hamasannounced,thursdaytheend∷announcedthursdaytheendof)2)hamasannouncedthursdaythe,completionof-90(Repeated1times)(hamas,announcedthursdaythecompletion∷announcedthursdaythecompletionof)3)hamasannouncedthursdaythe,terminationof-90(Repeated1times)(hamasannouncedthursday,thetermination∷announcedthursdaytheterminationof)4)hamasannouncedthursdaytheend,ofits-85(Repeated1times)(hamasannounced,thursdaytheendof∷announcedthursdaytheendofits)5)hamasannouncedonthursdaythe,completionof-85(Repeated1times)(hamas,announcedonthursdaythecompletion∷announcedonthursdaythecompletionof)6)hamasannouncedthursdaythecompletion,ofits-85(Repeated1times)(hamasannouncedthursday,thecompletionof∷announcedthursdaythecompletionofits)7)hamasannouncedonthursdaythe,endof-85(Repeated1times)(hamasannouncedon,thursdaytheend∷announcedonthursdaytheendof)8)hamasannouncedthursdaythatcompletion,ofthe-85(Repeated1times)(hamas,announcedthursdaythatcompletionof∷announcedthursdaythatcompletionofthe)9)hamasannouncedthursdaythatbythe,endofthis-85(Repeated1times)(hamasannouncedthursday,thatbytheend∷thatbytheendofthis)10)hamasannouncedonthursdaythe,terminationof-85(Repeated1times)(hamas,announcedonthursdaythetermination∷announcedonthursdaytheterminationof)11)hamasannouncedthursdaythecompletion,ofa-85(Repeated1times)(hamasannouncedthursday,thecompletionof∷announcedthursdaythecompletionofa)12)hamasannouncedonthursdaythecompletion,ofits-80(Repeated1times)(hamasannouncedonthursday,thecompletionof∷thursdaythecompletionofits)13)hamasannouncedonthursdaytheend,ofits-80(Repeated1times)(hamasannouncedonthursdaythe,endof∷thursdaytheendofits)14)hamasannouncedonthursdaythecompletion,ofa-80(Repeated1times)(hamas,announcedonthursdaythecompletionof∷announcedonthursdaythecompletionofa)15)hamasannouncedthursdaythat,completionof-80(Repeated1times)(hamas,announcedthursdaythatcompletion∷announcedthursdaythatcompletionof)16)hamasannouncedthursdaythatatthe,endof-80(Repeated2times)(hamasannouncedthursday,thatattheend∷thursdaythatattheendof)17)hamasannouncedonthursday,completionof-80(Repeated1times)(hamasannouncedon,thursdaycompletion∷announcedonthursdaycormpletionof)18)thursdayannouncedthecompletion,ofthis-75(Repeated15times)(thursdayannounced,thecompletionof∷announcedthecompletionofthis)19)thursdayannonncedtheend,ofthis-75(Repeated8times)(thursdayannounced,theendof∷announcedtheendofthis)20)hamasannouncedonthursdaycompletion,ofits-75(Repeated1times)(hamas,announcedonthursdaycompletionof∷announcedonthursdaycompletionofits)根据重复次数排序1)announcedthursdaythe,completionof-186(Score=70times)2)announcedthursdaythe,endof-135(Score=70times)3)announcedthursdaythe,terminationof-98(Score=70times)4)thursdayannouncedthe,endof-60(Score=70times)5)announcedthursdaythecompletion,ofits-58(Score=65times)6)announcedthursdaythecompletion,ofa-53(Score=65times)7)announcedthursdaythetermination,ofall-47(Score=50times)8)announcedthursdaytheend,ofits-44(Score=65times)9)thursdayannouncedthecompletion,ofthe-43(Score=65times)10)onthursdayannouncedthe,endof-42(Score=65times)11)thursdayannouncedthe,completionof-41(Score=70times)12)onthursdayannouncedthe,completionof-37(Score=65times)13)thursdayannouncedthecompletion,ofa-35(Score=65times)14)thursdayannouncedthetermination,ofthe-33(Score=65times)15)announcedthursdaythetermination,of200-28(Score=50times)16)announcedthursdaytheend,ofcash-28(Soore=50times)17)announcedthursdaytheend,ofmajor-28(Score=50times)18)announcedthursdaytheend,offighting-28(Score=50times)19)thursdayannounced,completionof-21(Score=65times)20)eannouncedthursdaythe,completionof-19(Score=50times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejuevesel′,′anuncióestejueveselfinde′(2,hamasanuncióestejueveselfinde,1)-(1000)Gotanoverlapinsource,checkingtarget1000-1000Overlapcheckfor′hamasaouncióestejuevesel′,′anuncióestejueveselfinde′took0.979***hamasanuncióestejuevesel(1000),(1000)anuncióestejueveselfinde=hamasanuncióestejueveselfinde@@@2205->0hamasanuncióestejueveselfinde的重叠结果1)′hamasannouncedthursdaythe,endof′-90(Repeated1times)(null)2)′hamasannouncedthursday,theendof′-90(Repeated3times)(hamas,announcedthursdaythe∷announcedthursdaytheendof)3)′hamasannouncedthursday,theterminationof′-90(Repeated3times)(hamas,announcedthursdaythe∷announcedthursdaytheterminationof)4)′hamasannouncedthursdaythe,completionof′-90(Repeated1times)(null)5)′hamasannouncedthursday,thecompletionof′-90(Repeated10times)(hamas,announcedthursdaythe∷announcedthursdaythecompletionof)6)′hamasannouncedthursdaythe,terminationof′-90(Repeated1times)(null)7)′hamasannouncedonthursday,thecompletionof′-85(Repeated3times)(hamas,announcedonthursdaythe∷announcedonthursdaythecompletionof)8)′hamasannouncedthursdaythecompletion,ofits′-85(Repeated1times)(null)9)′hamasannouncedthursday,thecompletionofits′-85(Repeated6times)(hamas,announcedthursdaythe∷announcedthursdaythecompletionofits)10)′hamasannouncedthursdaythatcompletion,ofthe′-85(Repeated1times)(null)11)′hamasannouncedthursday,thecompletion′-85(Repeated11times)(hamas,announcedthursdaythe∷announcedthursdaythecompletion)12)′hamasannouncedthursday,theend′-85(Repeated4times)(hamas,announcedthursdaythe∷announcedthursdaytheend)13)′hamasannouncedthursdaythecompletion,ofa′-85(Repeated1times)(null)14)′hamasannouncedonthursday,theterminationof′-85(Repeated2times)(hamas,announcedonthursdaythe∷announcedonthursdaytheterminationof)15)′hamasannouncedthursday,theendofits′-85(Repeated2times)(hamas,announcedthursdaythe∷announcedthursdaytheendofits)16)′hamasannouncedthursday,thatcompletionofthe′-85(Repeated2times)(hamas,announcedthursdaythat∷announcedthursdaythatcompletionofthe)17)′hamasannouncedthursdaytheend,ofits′-85(Repeated1times)(null)18)′hamasannouncedonthursdaythe,completionof′-85(Repeated1times)(null)19)′hamasannouncedthursday,thetermination′-85(Repeated4times)(hamas,announcedthursdaythe∷announcedthursdaythetermination)20)′hamasannouncedonthursdaythe,endof′-85(Repeated7times)(hamas,announcedonthursdaytheend∷announcedonthursdaytheendof)根据重复次数排序1)announcedthursdaythe,endof-123(Score=70times)2)announcedthursdaythe,completionof-93(Score=70times)3)announcedthursdaythe,terminationof-85(Score=70times)4)thursdayannouncedthe,endof-41(Score=70times)5)thursdayannouncedthecompletion,ofthe-34(Score=65times)6)announcedthursdaythetermination,ofall-33(Score=50times)7)thursdayannounced,thecompletion-31(Score=65times)8)announcedthursdaytheend,ofmajor-28(Score=50times)9)announcedthursdaytheend,ofits-28(Score=65times)10)announcedthursdaythetermination,of200-28(Score=50times)11)announcedthursdaytheend,ofcash-28(Score=50tines)12)announcedthursdaytheend,offighting-28(Score=50times)13)announced,thursdaythe-28(Score=45times)14)thursdayannouncedthetermination,ofthe-25(Score=65times)15)thursdayannounced,thecompletionof-25(Score=70times)16)onthursdayannouncedthe,endof-25(Score=65times)17)announcedthursdaythecompletion,ofits-24(Score=65times)18)theyannounced,thursdaythe-24(Score=40times)19)announcedthursdaythecompletion,ofa-24(Score=65times)20)announcedthursday,thecompletion-22(Score=65times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueves′,′anuncióestejueveselfinde′(2,hamasanuncióestejueveselfinde,1)-(1000)Gotanoverlapinsource,checkingtarget997-1000Overlapcheckfor′hamasanuncióestejueves′,′anuncióestejueveselfinde′took1.358***hamasanuncióestejueves(997),(1000)anuncióestejueveselfinde=hamasanuncióestejueveselfinde@@@4950->0hamasanuncióestejueveselfinde的重叠结果1)′hamasannouncedthursdaythe,endof′-90(Repeated1times)(null)2)′hamasannouncedthursday,theendof′-90(Repeated3times)(null)3)′hamasannounced,thursdaytheendof′-90(Repeated3times)(hamas,announcedthursday∷announcedthursdaytheendof)4)′hamasannouncedthursday,theterminationof′-90(Repeated3times)(null)5)′hamasannouncedthursdaythe,completionof′-90(Repeated1times)(null)6)′hamasannounced,thursdaythecompletionof′-90(Repeated10times)(hamas,announcedthursday∷announcedthursdaythecompletionof)7)′hamasannouncedthursday,thecompletionof′-90(Repeated10times)(null)8)′hamasannounced,thursdaytheterminationof′-90(Repeated3times)(hamas,announcedthursday∷announcedthursdaytheterminationof)9)′hamasannouncedthursdaythe,terminationof′-90(Repeated1times)(null)10)′hamasannounced,thursdaythecompletion′-85(Repeated11times)(hamas,announcedthursday∷announcedthursdaythecompletion)11)′hamasannouncedonthursday,thecompletionof′-85(Repeated3times)(null)12)′hamasannouncedthursdaythecompletion,ofits′-85(Repeated1times(null)13)′hamasannouncedthursday,thecompletionofits′-85(Repeated6times)(null)14)′hamasannouncedthursdaythatcompletion,ofthe′-85(Repeated1times)(null)15)′hamasannouncedthursday,thecompletion′-85(Repeated11times)(null)16)′hamasannounced,thursdaythetermination′-85(Repeated4times)(hamas,announcedthursday∷announcedthursdaythetermination)17)′hamasannouncedthursday,theend′-85(Repeated4times)(null)18)′hamasannouncedthursdaythecompletion,ofa′-85(Repeated1times)(null)19)′hamasannouncedon,thursdaytheendof′-85(Repeated6times)(hamas,announcedonthursday∷announcedonthursdaytheendof)20)′hamasannouncedonthursday,theterminationof′-85(Repeated2times)(null)根据重复次数排序1)announced,thursdaythe-431(Score=45times)2)announcedthursdaythe,completionof-93(Score=70times)3)announcedthursdaythe,endof-66(Score=70times)4)announcedthursdaythe,terminationof-47(Score=70times)5)hamasannounced,thursdaythe-41(Score=65times)6)thursday,announcedthe-38(Score=45times)7)announcedthursdaytheend,ofits-27(Score=65times)8)announcedthursday,thecompletion-24(Score=65times)9)announcedthursdaythecompletion,ofits-24(Score=65times)10)thursdayannounced,thecompletion-23(Score=65times)11)announcedthursday,thatcompletion-23(Score=55times)12)announcedthursdaythecompletion,ofa-22(Score=65times)13)announcedthursday,thecompletionof-21(Score=70times)14)announcedthursday,thatcompletionof-21(Score=60times)15)announcedthursday,thatcompletionofthe-19(Score=65times)16)announcedon,thursdaytheend-19(Score=60times)17)thursdayannounced,thecompletionof-18(Score=70times)18)announcedon,thursdaythecompletion-17(Score=60times)19)thursdayannouncedthecompletion,ofthe-16(Score=65times)20)announcedon,thursdaycompletion-16(Score=55times)Skippingestejueveselfin(2<2)Skippingestejueveselfinde(2<2)Skippingestejueveselfindesu(2<2)Skippingjueveselfinde(2<2)Skippingjueveselfindesu(2<2)jueveselfindesucesewasjusttranslatedandreturnedresultsNumberofresults=998Translationforjueveselfindesucesetook1.205goingtotryandoverlapthispiecewiththehashmap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfinde′,′jueveselfindesucese′(2,hamasanuncióestejueveselfindesucese,3)-(998)Gotanoverlapinsource,checkingtarget1500-998Overlapcheckfor′hamasanuncióestejueveselfinde′,′jueveselfindesucese′took1.705***hamasanuncióestejueveselfinde(1500),(998)jueveselfindesucese=hamasanuncióestejueveselfindesucese###1235->1235hamasanuncióestejueveselfindesucese的重叠结果1)hamasannouncedthursdaythetermination,ofcease-110(Repeated3times)(hamasannouncedthursdaythe,terminationof∷thursdaytheterminationofcease)2)hamasannouncedthursdaytheend,ofcease-110(Repeated2times)(hamasannounced,thursdaytheendof∷thursdaytheendofcease)3)hamasannouncedthursdaythecompletion,ofcease-110(Repeated2times)(hamasannouncedthursdaythe,completionof∷thursdaythecompletionofcease)4)hamasannouncedonthursdaytheend,ofcease-105(Repeated2times)(hamasannouncedonthursdaythe,endof∷thursdaytheendofcease)5)hamasannouncedthursdaythetermination,ofceaseand-105(Repeated2times)(hamasannouncedthursdaythe,terminationof∷thursdaytheterminationofceaseand)6)hamasannouncedthursdaytheend,ofthecease-105(Repeated3times)(hamasannounced,thursdaytheendof∷thursdaytheendofthecease)7)hamasannouncedonthursdaythetermination,ofcease-105(Repeated3times)(hamasannouncedonthursday,theterminationof∷thursdaytheterminationofcease)8)hamasannouncedonthursdaythecompletion,ofcease-105(Repeated2times)(hamasannouncedonthursday,thecompletionof∷thursdaythecompletionofcease)9)hamasannouncedonthursdaythetermination,ofceaseand-100(Repeated2times)(hamasannouncedonthursday,theterminationof∷thursdaytheterminationofceaseand)10)hamasannouncedonthursdaycompletion,ofcease-100(Repeated2times)(hamasannouncedonthursday,completionof∷thursdaycompletionofcease)11)hamasannouncedonthursdaytheend,ofthecease-100(Repeated3times)(hamasannouncedonthursdaythe,endof∷thursdaytheendofthecease)12)hamasannouncedthursdaytheendof,itsunilateralcease-95(Repeated2times)(hamasannouncedthursday,theendofits∷thursdaytheendofitsunilateralcease)13)hamasannouncedthursdaythesuccessfulcompletion,ofcease-90(Repeated1times)(hamasannouncedthursdaythesuccessful,completionof∷thursdaythesuccessfulcompletionofcease)14)hamasannouncedthursdaythe,endof-90(Repeated1times)(hamasannounced,thursdaytheend∷thursdaytheendof)15)hamasannouncedonthursdaytheeudof,itsunilateralcease-90(Repeated2times)(hamasannouncedonthursdaytheend,ofits∷thursdaytheendofitsunilateralcease)16)announcedthursdaythecompletion,ofcease-90(Repeated94times)(announcedthursday,thecompletionof∷thursdaythecompletionofcease)17)hamasannouncedthursdaytheend,ofceasefire-90(Repeated1times)(hamasannounced,thursdaytheendof∷thursdaytheendofceasefire)18)announcedthursdaytheend,ofcease-90(Repeated94times)(announcedthursdaythe,endof∷thursdaytheendofcease)19)announcedthursdaythetermination,ofcease-90(Repeated141times)(announcedthursday,theterminationof∷thursdaytheterminationofcease)20)hamasannouncedthursdaythecompletion,ofceaseproject-90(Repeated1times)(hamasannouncedthursdaythe,completionof∷thursdaythecompletionofceaseproject)根据重复次数排序1)announcedthursdaytheend,ofthe-188(Score=65times)2)announcedthursdaythetermination,ofcease-141(Score=90times)3)announcedthursdaytheend,ofthecease-141(Score=85times)4)announcedthursdaythetermination,ofceaseand-94(Score=85times)5)announcedthursdaytheendof,itsunilateralcease-94(Score=75times)6)announcedthursdaytheend,oftheceasefire-94(Score=65times)7)announcedthursdaythecompletion,ofcease-94(Score=90times)8)announcedthursdaytheend,ofcease-94(Score=90times)9)announcedthursdaytheend,ofcash-47(Score=50times)10)announcedthursdaythetermination,ofceaseanddesist-47(Score=65times)11)announcedthursdaytheend,ofceasefire-47(Score=70times)12)announcedthursdaythecompletion,ofceaseproject-47(Score=70times)13)announcedthursdaytheendof,istunilateralceasefire-47(Score=55times)14)announcedthursdaytheend,oftheceasefirewhich-47(Score=60times)15)announcedthursdaytheendof,itsannual-46(Score=55times)16)thursdayannouncedthatbytheend,ofthursday-45(Score=40times)17)announcedthursdaythe,endof-44(Score=70times)18)announcedonthursdaytheend,ofthe-24(Score=60times)19)announcedonthursdaythetermination,ofcease-21(Score=85times)20)eannouncedthursdaytheend,ofthe-20(Score=45times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfin′,′jueveselfindesucese′(2,hamasanuncióestejueveselfindesucese,3)-(998)Gotanoverlapinsource,checkingtarget1500-998Overlapcheckfor′hamasanuncióestejueveselfin′,′jueveselfindesucese′took1.531***hamasanuncióestejueveselfin(1500),(998)jueveselfindesucese=hamasanuncióestejueveselfindesucese@@@1581->0hamasanuncióestejueveselfindesucese的重叠结果1)′hamasannouncedthursdaytheend,ofcease′-110(Repeated2times)(hamasannounced,thursdaytheendof∷thursdaytheendofcease)2)′hamasannouncedthursdaythetermination,ofcease′-110(Repeated3times)(hamasannounced,thursdaytheterminationof∷thursdaytheterminationofcease)3)′hamasannouncedthursdaythecompletion,ofcease′-110(Repeated2times)(hamasannouncedthursday,thecompletionof∷thursdaythecompletionofceass)4)′hamasannouncedonthursdaythetermination,ofcease′-105(Repeated3times)(hamasannouncedonthursday,theterminationof∷thursdaytheterminationofcease)5)′hamasannouncedthursdaytheend,ofthecease′-105(Repeated3times)(hamasannounced,thursdaytheendof∷thursdaytheendofthecease)6)′hamasannouncedonthursdaythecompletion,ofcease′-105(Repeated2times)(hamasannouncedonthursday,thecompletionof∷thursdaythecompletionofcease)7)′hamasannouncedonthursdaytheend,ofcease′-105(Repeated2times)(hamasannouncedonthursdaythe,endof∷thursdaytheendofcease)8)′hamasannouncedthursdaythetermination,ofceaseand′-105(Repeated2times)(hamasannounced,thursdaytheterminationof∷thursdaytheterminationofceaseand)9)′hamasannouncedonthursdaycompletion,ofcease′-100(Repeated2times)(hamasannouncedon,thursdaycompletionof∷thursdaycompletionofcease)10)′hamasannouncedonthursdaytheend,ofthecease′-100(Repeated3times)(hamasannouncedonthursdaythe,endof∷thursdaytheendofthecease)11)′hamasannouncedonthursdaythetermination,ofceaseand′-100(Repeated2times)(hamasannouncedonthursday,theterminationof∷thursdaytheterminationofceaseand)12)′hamasannouncedthursdaytheendof,itsunilateralcease′-95(Repeated2times)(hamasannouncedthursday,theendofits∷thursdaytheendofitsunilateralcease)13)′hamasannouncedonthursdaytheend,ofitsunilateralcease′-90(Repeated2times)(hamasannouncedonthursdaythe,endof∷thursdaytheendofitsunilateralcease)14)′hamasannouncedonthursdaytheendof,itsunilateralcease′-90(Repeated2times)(null)15)′hamasannouncedthursdaytheend,ofceasefire′-90(Repeated1times)(hamasannounced,thursdaytheendof∷thursdaytheendofceasefire)16)′announcedthursdaythetermination,ofcease′-90(Repeated141times)(announcedthursday,theterminationof∷thursdaytheterminationofcease)17)′hamasannouncedthursdaythecompletion,ofceaseproject′-90(Repeated1times)(hamasannouncedthursday,thecompletionof∷thursdaythecompletionofceaseproject)18)′hamasannouncedthursdaythesuccessfulcompletion,ofcease′-90(Repeated1times)(hamasannouncedthursday,thesuccessfulcompletionof∷thursdaythesuccessfulcompletionofcease)19)′hamasannouncedthursdaythe,endof′-90(Repeated1times)(hamasannounced,thursdaytheend∷thursdaytheendof)20)′announcedthursdaythecompletion,ofcease′-90(Repeated94times)(announcedthursday,thecompletionof∷thursdaythecompletionofcease)根据重复次数排序1)announcedthursdaythe,endof-211(Score=70times)2)announcedthursdaytheend,ofthe-188(Score=65times)3)announcedthursdaythetermination,ofcease-141(Score=90times)4)announcedthursdaytheend,ofthecease-141(Score=85times)5)announcedthursdaytheendof,itsunilateralcease-94(Score=75times)6)announcedthursdaythetermination,ofceaseand-94(Score=85times)7)announcedthursdaythecompletion,ofcease-94(Score=90times)8)announcedthursdaytheend,ofcease-94(Score=90times)9)announcedthursdaytheend,oftheceasefire-94(Score=65times)10)announcedthursdaytheendof,itsunilateralceasefire-47(Score=55times)11)announcedthursdaythetermination,ofceaseanddesist-47(Score=65times)12)announcedthursdaytheend,oftheceasefirewhich-47(Score=60times)13)announcedthursdaytheend,ofceasefire-47(Score=70times)14)announcedthursdaythecompletion,ofceaseproject-47(Score=70times)15)announcedthursdaytheendof,itsannual-46(Score=55times)16)announcedthursdaytheend,ofcash-29(Score=50times)17)announcedonthursdaytheend,ofthe-24(Score=60times)18)eannouncedthursdaythe,endof-22(Score=50times)19)announcedonthursdaythetermination,ofcease-21(Score=85times)20)eannouncedthursdaytheend,ofthe-20(Score=45times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueyesel′,′jueveselfindesucese′(2,hamasanuncióestejueveselfindesucese,3)-(998)Gotanoverlapinsource,checkingtarget1000-998Overlapcheckfor′hamasanuncióestejuevesel′,′jueveselfindesucese′took1.348***hamasanuncióestejuevesel(1000),(998)jueveselfindesucese=hamasanuncióestejueveselfindesucese@@@1512->0hamasanuncióestejueveselfindesucese的重叠结果1)′hamasannouncedthursdaytheend,ofcease′-110(Repeated2times)(null)2)′hamasannouncedthursdaythetermination,ofcease′-110(Repeated3times)(null)3)′hamasannouncedthursdaythecompletion,ofcease′-110(Repeated2times)(null)4)′hamasannouncedonthursdaythetermination,ofcease′-105(Repeated3times)(null)5)′hamasannouncedthursdaytheend,ofhtecease′-105(Repeated3times)(null)6)′hamasannouncedonthursdaythecompletion,ofcease′-105(Repeated2times)(null)7)′hamasannouncedonthursdaytheend,ofcease′-105(Repeated2times)(null)8)′hamasannouncedthursdaythetermination,ofceaseand′-105(Repeated2times)(null)9)′hamasannouncedonthursdaycompletion,ofcease′-100(Repeated2times)(null)10)′hamasannouncedonthursdaytheend,ofthecease′-100(Repeated3times)(null)11)′hamasannouncedonthursdaythetermination,ofceaseand′-100(Repeated2times)(null)12)′hamasannouncedthursdaytheendof,itsunilateralcease′-95(Repeated2times)(null)13)′hamasannouncedonthursdaytheend,ofitsunilateralcease′-90(Repeated2times)(null)14)′hamasannouncedonthursdaytheendof,itsunilateralcease′-90(Repeated2times)(null)15)′hamasannouncedthursdaytheend,ofceasefire′-90(Repeated1times)(null)16)′announcedthursdaythetermination,ofcease′-90(Repeated141times)(null)17)′hamasannouncedthursdaythecompletion,ofceaseproject′-90(Repeated1times)(null)18)′hamasannouncedthursdaythesuccessfulcompletion,ofcease′-90(Repeated1times)(null)19)′hamasannouncedthursdaythe,endof′-90(Repeated1times)(null)20)′announcedthursdaythecompletion,ofcease′-90(Repeated94times)(null)根据重复次数排序1)announcedthursdaythe,endof-207(Score=70times)2)announcedthursdaytheend,ofthe-188(Score=65times)3)announcedthursdaythetermination,ofceasee-141(Score=90times)4)announcedthursdaytheend,ofthecease-141(Score=85times)5)announcedthursdaytheendof,itsunilateralcease-94(Score=75times)6)announcedthursdaythetermination,ofceaseand-94(Score=85times)7)announcedthursdaythecompletion,ofcease-94(Score=90times)8)announcedthursdaytheend,ofcease-94(Score=90times)9)announcedthursdaytheend,oftheceasefire-94(Score=65times)10)announcedthursdaytheendof,itsunilateralceasefire-47(Score=55times)11)announcedthursdaythetermination,ofceaseanddesist-47(Score=65times)12)announcedthursdaytheend,oftheceasefirewhich-47(Score=60times)13)announcedthursdaytheend,ofceasefire-47(Score=70times)14)announcedthursdaythecompletion,ofceaseproject-47(Score=70times)15)announcedthursdaytheendof,istannual-46(Score=55times)16)announcedonthursdaytheend,ofthe-24(Score=60times)17)eannouncedthursdaythe,endof-22(Score=50times)18)announcedthursdaytheend,ofcash-22(Score=50times)19)announcedonthursdaythetermination,ofcease-21(Score=85times)20)eannouncedthursdaytheend,ofthe-20(Score=45times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueves′,′jueveselfindesucese′(2,null,3)-(998)NogoodsourceoverlapSkippingelfindesu(2<1)Skippingelfindesucese(2<2)Skippingelfindesucesedel(2<2)Skippingfindesucese(2<2)Skippingfindesucesedel(2<2)findesucesedelfuegowasjusttranslatedandreturnedresultsNumberofresults=999Translationforfindesucesedelfuegotook1.246goingtotryandoverlapthispiecewiththehashmap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfinde′,′findesucesedelfuego′(2,hamasanuncióestejueveselfindesucesedelfuego,5)--(999)Gotanoverlapinsource,checkingtarget1500-999Overlapcheckfor′hamasanuncióestejueveselfinde′,′findesucesedelfuego′took2.114***hamasanuncióestejueveselfinde(1500),(999)findesucesedelfuego=hamasanuncióestejueveselfindesucesedelfuego###218->218hamasanuncióestejueveselfindesucesedelfuego的重叠结果1)hamasannouncedthursdaytheendof,itsunilateralceasefire-115(Repeated1times)(hamasannouncedthursdaytheend,ofits∷endofitsunilateralceasefire)2)hamasannouncedonthursdaytheendof,itsunilateralceasefire-110(Repeated1times)(hamasannouncedonthursdaytheend,ofits∷endofitsunilateralceasefire)3)thursdayannouncedtheendof,theceasefire-105(Repeated20times)(thursdayannounced,theendofthe∷theendoftheceasefire)4)whichthursdayannouncedtheendof,theceasefire-100(Repeated4times)(whichthursdayannouncedtheend,ofthe∷theendoftheceasefire)5)outhursdayannouncedtheendof,theceasefire-100(Repeated4times)(onthursdayannounced,theendofthe∷theendoftheceasefire)6)thursdayannouncedtheendof,theceasefirewhich-100(Repeated15times)(thursdayannouncedtheend,ofthe∷endoftheceasefirewhich)7)thursdayannouncedtheendof,itsunilateralceasefire-95(Repeated4times)(thursdayannouncedtheend,ofits∷endofitsunilateralceasefire)8)hamasannouncedthursdaytheendof,itsunilateralcease-95(Repeated2times)(hamasannouncedthursdaytheend,ofits∷endofitsunilateralcease)9)announcedthursdaytheendof,itsunilateralceasefire-95(Repeated46times)(announcedthursdaytheend,ofits∷endofitsunilateralceasefire)10)whichthursdayannouncedtheendof,theceasefirewhich-95(Repeated3times)(whichthursdayannouncedtheend,ofthe∷endoftheceasefirewhich)11)onthursdayannouncedtheendof,theceasefirewhich-95(Repeated3times)(onthursdayannouncedtheend,ofthe∷endoftheceasefirewhich)12)thursdayannouncedtheendof,hislight-95(Repeated6times)(thursdayannouncedtheend,ofhis∷theendofhislight)13)whichthursdayannouncedtheendof,itsunilateralceasefire-90(Repeated1times)(whichthursdayannouncedtheend,ofits∷endofitsunilateralceasefire)14)onthursdayannouncedtheendof,itsunilateralceasefire-90(Repeated1times)(onthursdayannouncedtheend,ofits∷endofitsunilateralceasefire)15)onthursdayannouncedtheendof,hislight-90(Repeated2times)(onthursdayannouncedtheend,ofhis∷theendofhislight)16)theyannouncedthursdaytheendof,itsunilateralceasefire-90(Repeated1times)(theyannouncedthursdaytheend,ofits∷endofitsunilateralceasefire)17)andannouncedthursdaytheendof,itsunilateralceasefire-90(Repeated1times)(andannouncedthursdaytheend,ofits∷endofitsunilateralceasefire)18)wereannouncedthursdaytheendof,itsunilateralceasefire-90(Repeated1times)(wereannouncedthursdaytheend,ofits∷endofitsunilateralceasefire)19)wasannouncedthursdaytheendof,itsunilateralceasefire-90(Repeated1times)(wasannouncedthursdaytheend,ofits∷endofitsunilateralceasefire)20)beannouncedthursdaytheendof,itsunilateralceasefire-90(Repeated1times)(beannouncedthursdaytheend,ofits∷endofitsunilateralceasefire)根据重复次数排序1)announcedthursdaytheendof,itsunilateralcease-92(Score=75times)2)announcedthursdaytheendof,itsunilateralceasefire-46(Score=95times)3)thursdayannouncedtheendof,thefire-40(Score=85times)4)thursdayannouncedtheendof,thecease-25(Score=85times)5)thursdayannouncedtheendof,theceasefire-20(Score=105times)6)thursdayannouncedtheendof,thefireand-15(Score=80times)7)thursdayannouncedtheendof,theunconditionalceasefire-15(Score=85times)8)thursdayannouncedtheendof,theceasefirewhich-15(Score=100times)9)thursdayannouncedtheendof,a14-monthcease-10(Score=65times)10)thursdayannouncedtheendof,theunconditionalceasefirethat-10(Score=80times)11)thursdayannouncedtheendof,thefirehis-10(Score=90times)12)thursdayannouncedtheendof,theceasefirewhichended-10(Score=80times)13)thursdayannouncedtheendof,thefireandhis-10(Score=85times)14)announcedonthursdaytheendof,itsunilateralcease-10(Score=70times)15)eannouncedthursdaytheendof,itsunilateralcease-10(Score=55times)16)thursdayannouncedtheendof,thehearth-10(Score=85times)17)thursdayannouncedtheendof,itsunilateralcease-8(Score=75times)18)onthursdayannouncedtheendof,thefire-8(Score=80times)19)officialsthursdayannouncedtheendof,thefire-8(Score=65times)20)whichthursdayannouncedtheendof,thefire-8(Score=80times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfin′,′findesucesedelfuego′(2,null,5)--(999)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejuevesel′,′findesucesedelfuego′(2,null,5)--(999)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucese′,′findesucesedelfuego′(2,hamasanuncióestejueveselfindesucesedelfuego,5)-(999)Gotanoverlapinsource,checkingtarget1500-999Overlapcheckfor′hamasanuncióestejueveselfindesucese′,′findesucesedelfuego′took2.737***hamasanuncióestejueveselfindesucese(1500),(999)findesucesedelfuego=hamasanuncióestejueveselfindesucesedelfuego@@@3369->0hamasanuncióestejueveselfindesucesedelfuego的重叠结果1)′hamasannouncedthursdaytheendof,ceasefire′-130(Repeated1times)(hamasannouncedthursdaytheend,ofcease∷endofceasefire)2)′hamasannouncedthursdaytheendofcesse,firethe′-125(Repeated2times)(hamasannouncedthursdaytheend,ofceasefire∷ofceasefirethe)3)′hamasannouncedthursdaytheendofthe,ceasefire′-125(Repeated1times)(hamasannouncedthursdaytheend,ofthecease∷theendoftheceasefire)4)′hamasannouncedthursdaytheendofcease,fireit′-125(Repeated2times)(hamasannouncedthursdaytheend,ofceasefire∷ofceasefireit)5)′hamasannouncedthursdaytheendofcease,fireby′-125(Repeated3times)(hamasannouncedthursdaytheend,ofceasefire∷ofceasefireby)6)′hamasannouncedthursdaytheendofcease,firein′-125(Repeated3times)(hamasannouncedthursdaytheend,ofceasefire∷ofceasefirein)7)′hamasannouncedthursdaytheendofcease,firewas′-125(Repeated2times)(hamasannouncedthursdaytheend,ofceasefire∷ofceasefirewas)8)′hamasannouncedonthursdaytheendof,ceasefire′-125(Repeated1times)(hamasannouncedonthursdaytheend,ofcease∷endofceasefire)9)′hamasannouncedthursdaytheendofcease,fireor′-125(Repeated2times)(hamasannouncedthursdaytheend,ofceasefire∷ofceasefireor)10)′hamasannouncedthursdaytheendofcease,fireand′-125(Repeated1times)(hamasannouncedthursdaytheend,ofceasefire∷ofceasefireand)11)′hamasannouncedthursdaytheendofcease,fireis′-125(Repeated2times)(hamasannouncedthursdaytheend,ofceasefire∷ofceasefireis)12)′hamasannouncedthursdaytheendofcease,firefor′-125(Repeated1times)(hamasannouncedthursdaytheend,ofceasefire∷ofceasefirefor)13)′hamasannouncedonthursdaytheendofcease,fireby′-120(Repeated3times)(hamasannouncedonthursdaytheend,ofceasefire∷ofceasefireby)14)′hamasannouncedonthursdaytheendofcease,firethe′-120(Repeated2times)(hamasannouncedonthursdaytheend,ofceasefire∷ofceasefirethe)15)′hamasannouncedthursdaytheendofcease,firebythe′-120(Repeated1times)(hamasannouncedthursdaytheend,ofceasefire∷ofceasefirebythe)16)′hamasannouncedonthursdaytheendofcease,fireis′-120(Repeated2times)(hamasannouncedonthursdaytheend,ofceasefire∷ofceasefireis)17)′hamasannouncedonthursdaytheendofcease,fireand′-120(Repeated1times)(hamasannouncedonthursdaytheend,ofceasefire∷ofceasefireand)18)′hamasannouncedthursdaytheendofcease,fireinthe′-120(Repeated1times)(hamasannouncedthursdaytheend,ofceasefire∷ofceasefireinthe)19)′hamasannouncedthursdaytheendofcease,fireithas′-120(Repeated1times)(hamasannouncedthursdaytheend,ofceasefire∷ofceasefireithas)20)′hamasannouncedonthursdaytheendofcease,firein′-120(Repeated3times)(hamasannouncedonthursdaytheend,ofceasefire∷ofceasefirein)根据重复次数排序1)announcedthursdaytheendofcease,firein-101(Score=105times)2)announcedthursdaytheendofcease,fireby-101(Score=105times)3)announcedthursdaytheendofcease,fireit-94(Score=105times)4)announcedthursdaytheendofcease,fireor-94(Score=105times)5)announcedthursdaytheendofcease,firewas-94(Score=105times)6)announcedthursdaytheendofthecease,fireat-74(Score=100times)7)announcedthursdaytheendofcease,firethe-54(Score=105times)8)announcedthursdaytheendofcease,fireis-54(Score=105times)9)announcedthursdaytheendofthecease,fireto-47(Score=100times)10)announcedthursdaytheendofcease,fireand-47(Score=105times)11)announcedthursdaytheendof,ceasefire-47(Score=110times)12)announcedthursdaytheendofcease,fireinthe-47(Score=100times)13)announcedthursdaytheendofcease,firefor-47(Score=105times)14)announcedthursdaytheendofthecease,firewhich-47(Score=100times)15)announcedthursdaytheendofcease,firebythe-47(Score=100times)16)announcedthursdaytheendofcease,firewasthe-47(Score=100times)17)announcedthursdaytheendofcease,fireorwhat-47(Score=100times)18)announcedthursdaytheendofthe,ceasefire-47(Score=105times)19)announcedthursdaytheendofcease,fireithas-47(Score=100times)20)announcedthursdaytheendofitsunilateral,ceasefire-30(Score=95times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueves′,′findesucesedelfuego′(2,null,5)-(999)NogoodsourceoverlapSkippingdesucesedel(2<1)Skippingdesucesedelfuego(2<2)desucesedelfuegoconwasjusttranslatedandreturnedresultsNumberofresults=1000Translationfordesucesedelfuegocontook1.176goingtotryandoverlapthispiecewiththehashmap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfinde′,′desucesedelfuegocon′(2,null,6)--(1000)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfin′,′desucesedelfuegocon′(2,null,6)-(1000)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejuevesel′,′desucesedelfuegocon′(2,null,6)-(1000)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesuceaedelfuego′,′desucesedelfuegocon′(2,hamasanuncióestejueveselfindesucesedelfuegocon,6)-(1000)Gotanoverlapinsource,checkingtarget1500-1000Overlapcheckfor′hamasanuncióestejueveselfindesucesedelfuego′,′desucesedelfuegocon′took6.308***hamasanuncióestejueveselindesucesedelfuego(1500),(1000)desucesedelfuegocon=hamasanuncióestejueveselfindesucesedelfuegocon###16233->16233hamasanuncióestejueveselfindesucesedelfuegocon的重叠结果1)hamasannouncedthursdaytheendofcease,firewiththeir-140(Repeated4times)(hamasannouncedthursdaytheendof,ceasefire∷ceaseirewiththeir)2)hamasannouncedthursdaytheendofcease,firewith-135(Repeated21times)(hamasannouncedthursdaytheendof,ceasefire∷ofceasefirewith)3)hamasannouncedonthursdaytheendofcease,firewiththeir-135(Repeated4times)(hamasannouncedonthursdaytheendof,ceasefire∷ceasefirewiththeir)4)announcedthursdaytheendofcease,firewithhamas-135(Repeated94times)(announcedthursdaytheendof,ceasefire∷ceasefirewithhamas)5)hamasannouncedthursdaytheendofthecease,firewiththeir-135(Repeated4times)(hamasannouncedthursdaytheendofthe,ceasefire∷theceasefirewiththeir)6)beannouncedthursdaytheendofcease,firewithhamas-130(Repeated2times)(beannouncedthursdaytheendof,ceasefire∷ceasefirewithhamas)7)hamasannouncedonthursdaytheendofcease,firewith-130(Repeated21times)(hamasannouncedonthursdaytheendof,ceasefire∷ofceasefirewith)8)announcedthursdaytheendofcease,firewithhamasand-130(Repeated47times)(announcedthursdaytheendof,ceasefire∷ceasefirewithhamasand)9)andannouncedthursdaytheendofcease,firewithhamas-130(Repeated4times)(andannouncedthursdaytheendof,ceasefire∷ceasefirewithhamas)10)announcedonthursdaytheendofcease,firewithhamas-130(Repeated12times)(announcedonthursdaytheendof,ceasefire∷ceasefirewithhamas)11)announcedthursdaytheendofthecease,firewithhamas-130(Repeated94times)(announcedthursdaytheendofthe,ceasefire∷ceasefirewithhamas)12)hamasannouncedthursdaytheendofthecease,firewith-130(Repeated21times)(hamasannouncedthursdaytheendofthe,ceasefire∷theceasefirewith)13)hamasannouncedthursdaytheendofcease,firewiththe-130(Repeated13times)(hamasannouncedthursdaytheendof,ceasefire∷ofceasefirewiththe)14)hamasannouncedonthursdaytheendofthecease,firewiththeir-130(Repeated4times)(hamasannouncedonthursdaytheendofthe,ceasefire∷theceasefirewiththeir)15)theyannouncedthursdaytheendofcease,firewithhamas-130(Repeated2times)(theyannouncedthursdaytheendof,ceasefire∷ceasefirewithhamas)16)wereannouncedthursdaytheendofcease,firewithhamas-130(Repeated2times)(wereannouncedthursdaytheendof,ceasefire∷ceasefirewithhamas)17)hamasannouncedthursdaytheendofcease,firewiththem-130(Repeated1times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefirewiththem)18)wasannouncedthursdaytheendofcease,firewithhamas-130(Repeated2times)(wasannouncedthursdaytheendof,ceasefire∷ceasefirewithhamas)19)thursdayannouncedtheendoftheceasefire,withhamas-130(Repeated10times)(thursdayannouncedtheendofthecease,firewith∷ceasefirewithhamas)20)hamasannouncedthursdaytheendofcease,fireas-125(Repeated3times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefireas)根据重复次数排序1)announcedthursdaytheendofcease,firewith-246(Score=115times)2)announcedthursdaytheendofthecease,firewith-186(Score=110times)3)announcedthursdaytheendofcease,firewithhamas-94(Score=135times)4)announcedthursdaytheendofcease,firewiththe-94(Score=110times)5)announcedthursdaytheendofthecease,firewithhamas-94(Score=130times)6)announcedthursdaytheendofitsunilateralcease,firewith-86(Score=100times)7)announcedthursdaytheendofthecease,firewoththe-74(Score=105times)8)announcedthursdaytheendofcease,firewiththeir-64(Score=120times)9)announcedthursdaytheendofitsunilateralcease,firewithhamas-60(Score=120times)10)announcedthursdaytheendofthecease,firewiththeir-53(Score=115times)11)announcedthursdaytheendofthecease,firea-51(Score=100times)12)announcedonthursdaytheendofcease,firewith-51(Score=110times)13)announcedthursdaytheendofcease,firea-49(Score=105times)14)announcedonthursdaytheendofthecease,firewith-47(Score=105times)15)announcedthursdaytheendofthecease,firewithhamasand-47(Score=125times)16)announcedthursdaytheendofcease,firewithhamasand-47(Score=130times)17)announcedonthursdaytheendofcease,firea-33(Score=100times)18)announcedonthursdaytheendofthecease,firea-32(Score=95times)19)hamasannouncedthursdaytheendofthecease,firea-30(Score=120times)20)announcedthursdaytheendofitsunilateralcease,firewithhamasand-30(Score=115times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucese′,′desucesedelfuegocon′(2,hamasanuncióestejueveselfindesucesedelfuegocon,6)--(1000)Gotanoverlapinsource,checkingtarget1500-1000Overlapcheckfor′hamasanuncióestejueveselfindesucese′,′desucesedelfuegocon′took3.087***hamasanuncióestejueveselfindesucese(1500),(1000)desucesedelfuegocon=hamasanuncióestejueveselfindesucesedelfuegocon@@@17704->0hamasanuncióestejueveselfindesucesedelfuegocon的重叠结果1)′hamasannouncedthursdaytheendofcease,firewiththeir′-140(Repeated4times)(null)2)′hamasannouncedthursdaytheendofcease,firewith′-135(Repeated21times)(hamasannouncedthursdaytheend,ofceasefire∷ofceasefirewith)3)′hamasannouncedonthursdaytheendofcease,firewiththeir′-135(Repeated4times)(null)4)′announcedthursdaytheendofcease,firewithhamas′-135(Repeated94times)(null)5)′hamasannouncedthursdaytheendofthecease,firewiththeir′-135(Repeated4times)(null)6)′beannouncedthursdaytheendofcease,firewithhamas′-130(Repeated2times)(null)7)′hamasannouncedonthursdaytheendofcease,firewith′-130(Repeated21times)(hamasannouncedonthursdaytheend,ofceasefire∷ofceasefirewith)8)′announcedthursdaytheendofcease,firewithhamasand′-130(Repeated47times)(null)9)′andannouncedthursdaytheendofcease,firewithhamas′-130(Repeated4times)(null)10)′announcedonthursdaytheendofcease,firewithhamas′-130(Repeated12times)(null)11)′announcedthursdaytheendofthecease,firewithhamas′-130(Repeated94times)(null)12)′hamasannouncedthursdaytheendofthecease,firewith′-130(Repeated21times)(null)13)′hamasannouncedthursdaytheendofcease,firewiththe′-130(Repeated13times)(hamasannouncedthursdaytheend,ofceasefire∷ofceasefirewiththe)14)′hamasannouncedonthursdaytheendofthecease,firewiththeir′-130(Repeated4times)(null)15)′theyannouncedthursdaytheendofcease,firewithhamas′-130(Repeated2times)(null)16)′wereannouncedthursdaytheendofcease,firewithhamas′-130(Repeated2times)(null)17)′hamasannouncedthursdaytheendofcease,firewiththem′-130(Repeated1times)(null)18)′wasannouncedthursdaytheendofcease,firewithhamas′-130(Repeated2times)(null)19)′thursdayannouncedtheendoftheceasefire,withhamas′-130(Repeated10times)(null)20)′hamasannouncedthursdaytheendofcease,fireas′-125(Repeated3times)(null)根据重复次数排序1)announcedthursdaytheendofcease,firewith-229(Score=115times)2)announcedthursdaytheendofthecease,firewith-172(Score=110times)3)announcedthursdaytheendofcease,firewithhamas-94(Score=135times)4)announcedthursdaytheendofthecease,firewithhamas-94(Score=130times)5)announcedthursdaytheendofcease,firewiththe-83(Score=110times)6)announcedthursdaytheendofitsunilateralcease,firewith-80(Score=100times)7)announcedthursdaytheendofthecease,firewiththe-66(Score=105times)8)announcedthursdaytheendofcease,firewiththeir-62(Score=120times)9)announcedthursdaytheendofitsunilateralcease,firewithhamas-58(Score=120times)10)announcedthursdaytheendofcease,firea-49(Score=105times)11)announcedonthursdaytheendofcease,firewith-49(Score=110times)12)announcedthursdaytheendofthecease,firea-47(Score=100times)13)announcedonthursdaytheendofthecease,firewith-47(Score=105times)14)announcedthursdaytheendofthecease,firewithhamasand-47(Score=125ties)15)announcedthursdaytheendofcease,firewithhamasand-47(Score=130times)16)announcedthursdaytheendofthecease,firewiththeir-45(Score=115times)17)announcedonthursdaytheendofcease,firea-33(Score=100times)18)announcedonthursdaytheendofthecease,firea-32(Score=95times)19)hamasannouncedthursdaytheendofthecease,firea-30(Score=120times)20)hamasannouncedonthursdaytheendofthecease,firea-29(Score=115times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueves′,′desucesedelfuegocon′(2,null,6)-(1000)NogoodsourceoverlapSkippingsucesedelfuegp(2<2)sucesedelfuegoconwasjusttranslatedandreturnedresultsNumberofresults=1000Translationforsucesedelfuegocontook0.949goingtotryandoverlapthispiecewiththehashmap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfinde′,′sucesedelfuegocon′(2,null,7)--(1000)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfin′,′sucesedelfuegocon′(2,null,7)--(1000)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejuevesel′,′sucesedelfuegocon′(2,null,7)-(1000)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucesedelfuego′,′sucesedelfuegocon′(2,hamasanuncióestejueveselfindesucesedelfuegocon,7)--(1000)Gotanoverlapinsource,checkingtarget1500-1000Overlapcheckfor′hamasanuncióestejueveselfindesucesedelfuego′,′sucesedelfuegocon′took7.002***hamasanuncióestejueveselfindesucesedelfuego(1500),(1000)sucesedelfuegocon=hamasanuncióestejueveselfindesucesedelfuegocon@@@19781->0hamasanuncióestejneveselfindesucesedelfuegocon的重叠结果1)′hamasannouncedthursdaytheendofcease,firewiththeir′-140(Repeated4times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefirewiththeir)2)′hamasannouncedthursdaytheendofcease,firewith′-135(Repeated21times)(hamasannouncedthursdaytheendof,ceasefire∷ofceasefirewith)3)′hamasannouncedonthursdaytheendofcease,firewiththeir′-135(Repeated4times)(hamasannouncedonthursdaytheendof,ceasefire∷ceasefirewiththeir)4)′hamasannouncedthursdaytheendofcease,firehis′-135(Repeated3times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefirehis)5)′announcedthursdaytheendofcease,firewithhamas′-135(Repeated94times)(announcedthursdaytheendof,ceasefire∷ceasefirewithhamas)6)′hamasannouncedthursdaytheendofthecease,firewiththeir′-135(Repeated4times)(hamasannouncedthursdaytheendofthe,ceasefire∷theceasefirewiththeir)7)′beannouncedthursdaytheendofcease,firewithhamas′-130(Repeated2times)(beannouncedthursdaytheendof,ceasefire∷ceasefirewithhamas)8)′hamasannouncedonthursdaytheendofcease,firewith′-130(Repeated21times)(hamasannouncedonthursdaytheendof,ceasefire∷ofceasefirewith)9)′announcedthursdaytheendofcease,firewithhamasand′-130(Repeated47times)(announcedthursdaytheendof,ceasefire∷ceasefirewithhamasand)10)′andannouncedthursdaytheendofcease,firewithhamas′-130(Repeated4times)(andannouncedthursdaytheendof,ceasefire∷ceasefirewithhamas)11)′hamasannouncedthursdaytheendofceasefire,intheir′-130(Repeated3times)(hamasannouncedthursdaytheendofcease,firein∷ceasefireintheir)12)′hamasannouncedthursdaytheendofcease,firetohis′-130(Repeated2times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefiretohis)13)′announcedonthursdaytheendofcease,firewithhamas′-130(Repeated12times)(announcedonthursdaytheendof,ceasefire∷ceasefirewithhamas)14)′announcedthursdaytheendofthecease,firewithhamas′-130(Repeated94times)(announcedthursdaytheendofthe,ceasefire∷ceasefirewithhamas)15)′hamasannouncedthursdaytheendofcease,firehadhis′-130(Repeated2times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefirehadhis)16)′hamasannouncedthursdaytheendofthecease,firewith′-130(Repeated21times)(hamasannouncedthursdaytheendofthe,ceasefire∷theceasefirewith)17)′hamasannouncedthursdaytheendofcease,fireontheir′-130(Repeated2times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefireontheir)18)′hamasannouncedthursdaytheendofceasefire,fortheir′-130(Repeated2times)(hamasannouncedthursdaytheendofcease,firefor∷ceasefirefortheir)19)′hamasannouncedthursdaytheendofcease,firewiththe′-130(Repeated13times)(hamasannouncedthursdaytheendof,ceasefire∷ofceasefirewiththe)20)′hamasannouncedthursdaytheendofceasefire,inhis′-130(Repeated2times)(hamasannouncedthursdaytheendofcease,firein∷ceasefireinhis)根据重复次数排序1)announcedthursdaytheendofcease,firewitn-178(Score=115times)2)announcedthursdaytheendofthecease,firewith-136(Score=110times)3)announcedthursdaytheendofthecease,firewithhamas-94(Score=130times)4)announcedthursdaytheendofcease,firewithhamas-94(Score=135times)5)announcedthursdaytheendofcease,firewiththe-72(Score=110times)6)announcedthursdaytheendofcease,firewiththeir-51(Score=120times)7)announcedthursdaytheendofthecease,firea-50(Score=100times)8)announcedthursdaytheendofcease,firea-48(Score=105times)9)announcedthursdaytheendofcease,firewithhamasand-47(Score=130times)10)announcedthursdaytheendofthecease,firewithhamasand-47(Score=125times)11)hamasannouncedthursdaytheendofthecease,firea-47(Score=120times)12)announcedonthursdaytheendofcease,firewith-47(Score=110times)13)announcedthursdaytheendofitsunilateralcease,firewith-45(Score=100times)14)announcedonthursdaytheendofthecease,firewith-39(Score=105times)15)announcedthursdaytheendofitsunilateralcease,firewithhamas-36(Score=120times)16)announcedonthursdaytheendofcease,firea-30(Score=100times)17)announcedthursdaytheendofthecease,firewiththe-30(Score=105times)18)hamasannouncedthursdaytheendofcease,firea-29(Score=125times)19)hamasannouncedonthursdaytheendofcease,firea-27(Score=120times)20)hamasannouncedonthursdaytheendofthecease,firea-26(Score=115times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucesedelfuegocon′,′sucesedelfuegocon′(2,null,7)-(1000)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingotoverlap′hamasanuncióestejueveselfindesucese′,′sucesedelfuegocon′(2,hamasanuncióestejueveselfindesucesedelfuegocon,7)-(1000)Gotanoverlapinsource,checkingtarget1500-1000Overlapcheckfor′hamasanuncióestejueveselfindesucese′,′sucesedelfuegocon′took2.612***hamasanuncióestejueveselfindesucese(1500),(1000)sucesedelfuegocon=hamasanuncióestejueveselfindesucesedelfuegocon@@@2475->0hamasanuncióestejueveselfindesucesedelfuegocon的重叠结果1)′hamasannouncedthursdaytheendofcease,firewiththeir′-140(Repeated4times)(null)2)′hamasannouncedthursdaytheendofcease,firewith′-135(Repeated21times)(hamasannouncedthursdaytheend,ofceasefire∷ofceasefirewith)3)′hamasannouncedonthursdaytheendofcease,firewiththeir′-135(Repeated4times)(null)4)′hamasannouncedthursdaytheendofcease,firehis′-135(Repeated3times)(null)5)′announcedthursdaytheendofcease,firewithhamas′-135(Repeated94times)(null)6)′hamasannouncedthursdaytheendofthecease,firewiththeir′-135(Repeated4times)(null)7)′beannouncedthursdaytheendofcease,firewithhamas′-130(Repeated2times)(null)8)′hamasannouncedonthursdaytheendofcease,firewith′-130(Repeated21times)(hamasannouncedonthursdaytheend,ofceasefire∷ofceasefirewith)9)′announcedthursdaytheendofcease,firewithhamasand′-130(Repeated47times)(null)10)′andannouncedthursdaytheendofcease,firewithhamas′-130(Repeated4times)(null)11)′hamasannouncedthursdaytheendofceasefire,intheir′-130(Repeated3times)(null)12)′hamasannouncedthursdaytheendofcease,firetohis′-130(Repeated2times)(null)13)′announcedonthursdaytheendofcease,firewithamas′-130(Repeated12times)(null)14)′announcedthursdaytheendofthecease,firewithhamas′-130(Repeated94times)(null)15)′hamasannouncedthursdaytheendofcease,firehadhis′-130(Repeated2times)(null)16)′hamasannouncedthursdaytheendofthecease,firewith′-130(Repeated21times)(null)17)′hamasannouncedthursdaytheendofcease,fireontheir′-130(Repeated2times)(null)18)′hamasannouncedthursdaytheendofceasefire,fortheir′-130(Repeated2times)(null)19)′hamasannouncedthursdaytheendofcease,firewiththe′-130(Repeated13times)(hamasannouncedthursdaytheend,ofceasefire∷ofceasefirewiththe)20)′hamasannouncedthursdaytheendofceasefire,inhis′-l30(Repeated2times)(null)根据重复次数排序1)announcedthursdaytheendofcease,firewith-178(Score=115times)2)announcedthursdaytheendofthecease,firewith-136(Score=110times)3)announcedthursdaytheendofcease,firewithhamas-94(Score=135times)4)announcedthursdaytheendofthecease,firewithhamas-94(Score=130times)5)announcedthursdaytheendofcease,firewiththe-72(Score=110times)6)announcedthursdaytheendofcease,firewiththeir-51(Score=120times)7)announcedthursdaytheendofthecease,firea-50(Score=100times)8)announcedthursdaytheendofcease,firea-48(Score=105times)9)announcedonthursdaytheendofcease,firewith-47(Score=110times)10)hamasannouncedthursdaytheendofthecease,firea-47(Score=120times)11)announcedthursdaytheendofthecease,firewithhamasand-47(Score=125times)12)announcedthursdaytheendofcease,firewithhamasand-47(Score=130times)13)announcedthursdaytheendofitsunilateralcease,firewith-45(Score=100times)14)announcedonthursdaytheendofthecease,firewith-39(Score=105times)15)announcedthursdaytheendofitsunilateralcease,firewithhamas-36(Score=120times)16)announcedthursdaytheendofthecease,firewiththe-30(Score=105times)17)announcedonthursdaytheendofcease,firea-30(Score=100times)18)hamasannouncedthursdaytheendofcease,firea-29(Score=125times)19)hamasannouncedonthursdaytheendofcease,firea-27(Score=120times)20)hamasannouncedonthursdaytheendofthecease,firea-26(Score=115times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueves′,′sucesedelfuegocon′(2,null,7)-(1000)NogoodsourceoverlapsucesedelfuegoconisraelwasjusttranslatedandrerurnedresultsNumberofresults=631Translationforsucesedelfuegoconisraeltook1.12goingtotryandoverlapthispiecewiththehashmap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfinde′,′sucesedelfuegoconisrael′(2,null,7)-(631)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfin′,′sucesedelfuegoconisrael′(2,null,7)-(631)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejuevesel′,′sucesedelfuegoconisrael′(2,null,7)-(631)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucesedelfuego′,′sucesedelfuegoconisrael′(2,hamasanuncióestejueveselfindesucesedelfuegoconisrael,7)-(631)Gotanoverlapinsource,checkingtarget1500-631Overlapcheckfor′hamasanuncióestejueveselfindesucesedelfuego′,′sucesedelfuegoconisrael′took7.102***hamasanuncióestejueveselfindesucesedelfuego(1500),(631)sucesedelfuegoconisrael=hamasanuncióestejueveselfindesucesedelfuegoconisrael###14957->14957hamasanuncióestejueveselfindesucesedelfuegoconisrael的重叠结果1)hamasannouncedthursdaytheendofcease,firewithisrael-155(Repeated30times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefirewithisrael)2)hamasannouncedthursdaytheendofcease,fireisrael-150(Repeated10times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefireisrael)3)hamasannouncedonthursdaytheendofcease,firewithisrael-150(Repeated26times)(hamasannouncedonthursdaytheendof,ceasefire∷ceasefirewithisrael)4)hamasannouncedthursdaytheendofcease,firewithisaelwas-150(Repeated1times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefirewithisraelwas)5)hamasannouncedthursdaytheendofceasefire,byisraelwith-150(Repeated3times)(hamasannouncedthursdaytheendofcease,fireby∷ceasefirebyisraelwith)6)hamasannouncedthursdaytheendofcease,firewithisraeland-150(Repeated12times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefirewithisraeand)7)hamasannouncedthursdaytheendofthecease,firewithisrael-150(Repeated27times)(hamasannouncedthursdaytheendofthe,ceasefire∷theceasefirewithisrael)8)hamasannouncedthursdaytheendofcease,firewithisraelthe-150(Repeated3times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefirewithisraelthe)9)hamasannouncedthursdaytheendofceasefire,byisrael-145(Repeated4times)(hamasannouncedthursdaytheendofcease,fireby∷ceasefirebyisrael)10)hamasannouncedthursdaytheendofthecease,firewithisraelthe-145(Repeated3times)(hamasannouncedthursdaytheendofthe,ceasefire∷ceasefirewithisraelthe)11)hamasannouncedthursdaytheendofcease,fireisraelis-145(Repeated5times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefireisraelis)12)hamasannouncedthursdaytheendofthecease,firewithisraeland-145(Repeated9times)(hamasannouncedthursdaytheendofthe,ceasefire∷theceasefirewithisraeland)13)hamasannouncedonthursdaytheendofcease,firewithisraelthe-145(Repeated2times)(hamasannouncedonthursdaytheendof,ceasefire∷ceasefirewithisraelthe)14)hamasannouncedthursdaytheendofceasefire,andisrael-145(Repeated5times)(hamasannouncedthursdaytheendofcease,fireand∷ceasefireandisrael)15)hamasannouncedonthursdaytheendofthecease,firewithisrael-145(Repeated20times)(hamasannouncedonthursdaytheendofthe,ceasefire∷theceasefirewithisrael)16)hamasannouncedonthursdaytheendofcease,firewithisraeland-145(Repeated9times)(hamasannouncedonthursdaytheendof,ceasefire∷ceasefirewithisraeland)17)hamasannouncedonthursdaytheendofcease,fireisrael-145(Repeated7times)(hamasannouncedonthursdaytheendof,ceasefire∷ceasefireisrael)18)hamasannouncedthursdaytheendofthecease,firebyisraelwith-145(Repeated3times)(hamasannouncedthursdaytheendofthe,ceasefire∷ceasefirebyisraelwith)19)hamasannouncedonthursdaytheendofceasefire,byisraelwith-145(Repeated3times)(hamasannouncedonthursdaytheendofcease,fireby∷ceasefirebyisraelwith)20)hamasannouncedthursdaytheendofthecease,firewithisraelwas-145(Repeated1times)(hamasannouncedthursdaytheendofthe,ceasefire∷ceasefirewithisraelwas)根据重复次数排序1)announcedthursdaytheendofcease,firewithisrael-279(Score=135times)2)announcedthursdaytheendofthecease,firewithisrael-209(Score=130times)3)announcedthursdaytheendofcease,fireisrael-113(Score=130times)4)announcedthursdaytheendofceasefire,byisrael-91(Score=125times)5)announcedthursdaytheendofcease,firewithisraeland-85(Score=130times)6)announcedonthursdaytheendofcease,firewithisrael-65(Score=130times)7)announcedthursdaytheendofthecease,firebyisrael-53(Score=120times)8)announcedthursdaytheendofcease,firewithisraelthe-53(Score=130times)9)announcedthursdaytheendofceasefire,byisraelwith-52(Score=130times)10)announcedthursdaytheendofceasefire,andisrael-50(Score=125times)11)announcedthursdaytheendofcease,fireisraelis-50(Score=125times)12)announcedthursdaytheendofthecease,fireisrael-49(Score=125times)13)announcedthursdaytheendofcease,firewithisraelwas-47(Score=130times)14)announcedthursdaytheendofthecease,firewithisraeland-46(Score=125times)15)announcedthursdaytheendofthecease,firebyisraelwith-46(Score=125times)16)announcedthursdaytheendofthecease,firewithisraelthe-43(Score=125times)17)announcedthursdaytheendofitsunilateralcease,firewithisrael-43(Score=120times)18)eannouncedthursdaytheendofcease,firewithisrael-39(Score=115times)19)announcedonthursdaytheendofthecease,firewithisrael-38(Score=125times)20)announcedthursdaytheendofthecease,firewithisraelwas-37(Score=125times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucesedelfuegocon′,′sucesedelfuegoconisrael′(2,hamasanuncióestejueveselfindesucesedelfuegoconisrael,7)-(631)Gotanoverlapinsource,checkingtarget1500-631Overlapcheckfor′hamasanuncióestejueveselfindesucesedelfuegocon′,′sucesedelfuegoconisrael′took3.371***hamasanuncióestejueveselfindesucesedelfuegocon(1500),(631)sucesedelfuegoconisrael=hamasanuncióestejueveselfindesucesedelfuegoconisrael@@@16056->0hamasanuncióestejueveselfindesucesedelfuegoconisrael的重叠结果1)′hamasannouncedthursdaytheendofceasefire,withisrael′-155(Repeated1times)(hamasannouncedthursdaytheendofcease,firewith∷ceasefirewithisrael)2)′hamasannouncedthursdaytheendofcease,firewithisrael′-155(Repeated27times)(null)3)′hamasannouncedonthursdaytheendofceasefire,withisrael′-150(Repeated1times)(hamasannouncedonthursdaytheendofcease,firewith∷ceasefirewithisrael)4)′hamasannouncedthursdaytheendofcease,fireisrael′-150(Repeated8times)(null)5)′hamasannouncedonthursdaytheendofcease,firewithisrael′-150(Repeated22times)(null)6)′hamasannouncedthursdaytheendofcease,firewithisraelwas′-150(Repeated1times)(null)7)′hamasannouncedthursdaytheendofceasefire,byisraelwith′-150(Repeated3times)(hamasannouncedthursdaytheendofcease,fireby∷ceasefirebyisraelwith)8)′hamasannouncedthursdaytheendofcease,firewithisraeland′-150(Repeated9times)(null)9)′hamasannouncedthursdaytheendofceasefirewith,israeland′-150(Repeated10times)(hamasannouncedthursdaytheendofcease,firewithisrael∷ceasefirewithisraeland)10)′hamasannouncedthursdaytheendofceasefirewith,israelwas′-150(Repeated1times)(hamasannouncedthursdaytheendofcease,firewithisrael∷ceasefirewithisraelwas)11)′hamasannouncedthursdaytheendofthecease,firewithisrael′-150(Repeated23times)(null)12)′hamasannouncedthursdaytheendoftheceasefire,withisrael′-150(Repeated1times)(hamasannouncedthursdaytheendofthecease,firewith∷theceasefirewithisrael)13)′hamasannouncedthursdaytheendofceasefirewith,israelthe′-150(Repeated3times)(hamasannouncedthursdaytheendofcease,firewithisrael∷ceasefirewithisraelthe)14)′hamasannouncedthursdaytheendofcease,firewithisraelthe′-150(Repeated3times)(null)15)′hamasannouncedthursdaytheendoftheceasefirewith,israelthe′-145(Repeated2times)(hamasannouncedthursdaytheendofthecease,firewithisrael∷ceasefirewithisraelthe)16)′hamasannouncedthursdaytheendoftheceasefire,byisraelwith′-145(Repeated2times)(hamasannouncedthursdaytheendofthecease,fireby∷ceasefirebyisraelwith)17)′hamasannouncedonthursdaytheendofceasefirewith,israelwas′-145(Repeated1times)(hamasannouncedonthursdaytheendofcease,firewithisrael∷ceasefirewithisraelwas)18)′hamasannouncedonthursdaytheendoftheceasefire,withisrael′-145(Repeated1times)(hamasannouncedonthursdaytheendofthecease,firewith∷theceasefirewithisrael)19)′hamasannouncedthursdaytheendoftheceasefirewith,israelwas′-145(Repeated1times)(hamasannouncedthursdaytheendofthecease,firewithisrael∷ceasefirewithisraelwas)20)′hamasannouncedthursdaytheendofceasefire,byisrael′-145(Repeated4times)(hamasannouncedthursdaytheendofcease,fireby∷ceasefirebyisrael)根据重复次数排序1)announcedthursdaytheendofcease,firewithisrael-253(Score=135times)2)announcedthursdaytheendofthecease,firewithisrael-129(Score=130times)3)announcedthursdaytheendofcease,fireisrael-82(Score=130times)4)announcedthursdaytheendofcease,firewithisraeland-68(Score=130times)5)announcedthursdaytheendofceasefire,byisrael-66(Score=125times)6)announcedthursdaytheendofceasefire,withisrael-66(Score=135times)7)announcedonthursdaytheendofcease,firewithisrael-51(Score=130times)8)announcedthursdaytheendofceasefire,byisraelwith-50(Score=130times)9)announcedthursdaytheendofcease,firewithisraelthe-50(Score=130times)10)announcedthursdaytheendofcease,firewithisraelwas-47(Score=130times)11)announcedthursdaytheendofitsunilateralcease,firewithisrael-43(Score=120times)12)announcedonthursdaytheendofthecease,firewithisrael-35(Score=125times)13)announcedthursdaytheendofthecease,firebyisrael-33(Score=120times)14)announcedthursdaytheendoftheceasefire,withisrael-32(Score=130times)15)eannouncedthursdaytheendofcease,firewithisrael-31(Score=115times)16)announcedthursdaytheendofthecease,fireisrael-30(Score=125times)17)announcedthursdaytheendofthecease,firewithisraeland-29(Score=125times)18)hamasannouncedthursdaytheendofcease,firewithisrael-27(Score=155times)19)announcedonthursdaytheendofitsunilateralcease,firewithisrael-26(Score=115times)20)announcedthursdaytheendofthecease,firebyisraelwith-26(Score=125times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucese′,′sucesedelfuegoconisrael′(2,hamasanuncióestejueveselfindesucesedelfuegoconisrael,7)-(631)Gotanoverlapinsource,checkingtarget1500-631Oyerlapcheckfor′hamasanuncióestejueveselfindesucese′,′sucesedelfuegoconisrael′took2.783***hamasanuncióestejueveselfindesucese(1500),(631)sucesedelfuegoconisrael=hamasanuncióestejueveselfindesucesedelfuegoconisrael@@@1575->0hamasanuncióestejueveselfindesucesedelfuegoconisrael的重叠结果1)′hamasannouncedthursdaytheendofceasefire,withisrael′-155(Repeated1times(null)2)′hamasannouncedthursdaytheendofcease,firewithisrael′-155(Repeated27times)(null)3)′hamasannouncedonthursdaytheendofceasefire,withisrael′-150(Repeated1times)(null)4)′hamasannouncedthursdaytheendofcease,fireisrael′-150(Repeated8times)(null)5)′hamasannouncedonthursdaytheendofcease,firewithisrael′-150(Repeated22times)(null)6)′hamasannouncedthursdaytheendofcease,firewithisraelwas′-150(Repeated1times)(null)7)′hamasannouncedthursdaytheendofceasefire,byisraelwith′-150(Repeated3times)(null)8)′hamasannouncedthursdaytheendofcease,firewithisraeland′-150(Repeated9times)(null)9)′hamasannouncedthursdaytheendofceasefirewith,israeland′-150(Repeated9times)(null)10)′hamasannouncedthursdaytheendofceasefirewith,israelwas′-150(Repeated1times)(null)11)′hamasannouncedthursdaytheendofthecease,firewithisrael′-150(Repeated23times)(null)12)′hamasannouncedthursdaytheendoftheceasefire,withisrael′-150(Repeated1times)(null)13)′hamasannouncedthursdaytheendofceasefirewith,israelthe′-150(Repeated3times)(null)14)′hamasannouncedthursdaytheendofcease,firewithisraelthe′-150(Repeated3times)(null)15)′hamasannouncedthursdaytheendoftheceasefirewith,israelthe′-145(Repeated2times)(null)16)′hamasannouncedthursdaytheendoftheceasefire,byisraelwith′-145(Repeated2times)(null)17)′hamasannouncedonthursdaytheendofceasefirewith,israelwas′-145(Repeated1times)(null)18)′hamasannouncedonthursdaytheendoftheceasefire,withisrael′-145(Repeated1times)(null)19)′hamasannouncedthursdaytheendoftheceasefirewith,israelwas′-145(Repeated1times)(null)20)′hamasannouncedthursdaytheendofceasefire,byisrael′-145(Repeated4times)(null)根据重复次数排序1)announcedthursdaytheendofcease,firewithisrael-252(Score=135times)2)announcedthursdaytheendofthecease,firewithisrael-126(Score=130times)3)announcedthursdaytheendofcease,fireisrael-81(Score=130times)4)announcedthursdaytheendofcease,firewithisraeland-67(Score=130times)5)announcedthursdaytheendofceasefire,withisrael-66(Score=135times)6)announcedthursdaytheendofceasefire,byisrael-66(Score=125times)7)announcedonthursdaytheendofcease,firewithisrael-51(Score=130times)8)announcedthursdaytheendofcease,firewithisraelthe-50(Score=130times)9)announcedthursdaytheendofceasefire,byisraelwith-50(Score=130times)10)announcedthursdaytheendofcease,firewithisraelwas-47(Score=130times)11)announcedthursdaytheendofitsunilateralcease,firewithisrael-43(Score=120times)12)announcedonthursdaytheendofthecease,firewithisrael-35(Score=125times)13)announcedthursdaytheendofthecease,firebyisrael-33(Score=120times)14)announcedthursdaytheendoftheceasefire,withisrael-32(Score=130times)15)eannouncedthursdaytheendofcease,firewithisrael-31(Score=115tmes)16)announcedthursdaytheendofthecease,fireisrael-29(Score=125times)17)hamasannouncedthursdaytheendofcease,firewithisrael-27(Score=155times)18)announcedthursdaytheendofthecease,firewithisraeland-27(Score=125times)19)announcedonthursdaytheendofitsunilateralcease,firewithisrael-26(Score=115times)20)announcedthursdaytheendofthecease,firebyisraelwith-26(Score=125times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueves′,′sucesedelfuegoconisrael′(2,null,7)--(631)NogoodsourceoverlapcesedelfuegoconwasjusttranslatedandreturnedresultsNumberofresults=1000Translationforcesedelfuegocontook0.705goingtotryandoverlapthispiecewiththehashmap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfinde′,′cesedelfuegocon′(2,null,8)--(1000)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfin′,′cesedelfuegocon′(2,null,8)-(1000)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejuevesel′,′cesedelfuegocon′(2,null,8)-(1000)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucesedelfuegoconisrael′,′cesedelfuegocon′(2,null,8)-(1000)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucesedelfuego′,′cesedelfuegocon′(2,hamasanuncióestejueveselfindesucesedelfuegocon,8)-(1000)Gotanoverlapinsource,checkingtarget1500-1000Overlapcheckfor′hamasanuncióestejueveselfindesucesedelfuego′,′cesedelfuegocon′took9.486***hamasanuncióestejueveselfindesucesedelfuego(1500),(1000)cesedelfuegocon=hamasanuncióestejueveselfindesucesedelfuegocon@@@29730->0hamasanuncióestejueveselfindesucesedelfuegocon的重叠结果1)′hamasannouncedthursdaytheendofcease,firewiththeir′-140(Repeated4times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefirewiththeir)2)′hamasannouncedthursdaytheendofcease,firewith′-135(Repeated93times)(hamasannouncedthursdaytheendof,ceasefire∷ofceasefirewith)3)′hamasannouncedonthursdaytheendofcease,firewiththeir′-135(Repeated4times)(hamasannouncedonthursdaytheendof,ceasefire∷ceasefirewiththeir)4)′hamasannouncedthursdaytheendofcease,firehis′-135(Repeated3times)(null)5)′hamasannouncedthursdaytheendofcease,fireof′-135(Repeated10times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefireof)6)′announcedthursdaytheendofcease,firewithhamas′-135(Repeated141times)(announcedthursdaytheendof,ceasefire∷ceasefirewithhamas)7)′hamasannouncedthursdaytheendofthecease,firewiththeir′-135(Repeated4times)(hamasannouncedthursdaytheendofthe,ceasefire∷ceasefirewiththeir)8)′hamasannouncedonthursdaytheendofcease,firewith′-130(Repeated80times)(hamasannouncedonthursdaytheendof,ceasefire∷ofceasefirewith)9)′announcedthursdaytheendofcease,firewithhamasand′-130(Repeated94times)(announcedthursdaytheendof,ceasefire∷ceasefirewithhamasand)10)′andannouncedthursdaytheendofcease,firewithhamas′-130(Repeated6times)(andannouncedthursdaytheendof,ceasefire∷ceasefirewihthamas)11)′hamasannouncedthursdaytheendofceasefire,intheir′-130(Repeated3times)(null)12)′hamasannouncedthursdaytheendofcease,firewithin′-130(Repeated6times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefirewithin)13)′announcedthursdaytheendofthecease,firewithhamas′-130(Repeated103times)(announcedthursdaytheendofthe,ceasefire∷ceasefirewithhamas)14)′hamasannouncedthursdaytheendofthecease,firewith′-130(Repeated80times)(hamasannouncedthursdaytheendofthe,ceasefire∷theceasefirewith)15)′hamasannouncedthursdaytheendofcease,fireontheir′-130(Repeated2times)(null)16)′hamasannouncedthursdaytheendofceasefire,fortheir′-130(Repeated2times)(null)17)′hamasannouncedthursdaytheendofcease,firewiththe′-130(Repeated52times)(hamasannouncedthursdaytheendof,ceasefire∷ofceasefirewiththe)18)′hamasannouncedonthursdaytheendofthecease,firewiththeir′-130(Repeated4times)(hamasannouncedonthursdaytheendofthe,ceasefire∷ceasefirewiththeir)19)′theyannouncedthursdaytheendofcease,firewithhamas′-130(Repeated3times)(theyannouncedthursdaytheendof,ceasefire∷ceasefirewithhamas)20)′wereannouncedthursdaytheendofcease,firewithhamas′-130(Repeated3times)(wereannouncedthursdaytheendof,ceasefire∷ceasefirewithhamas)根据重复次数排序1)announcedthursdaytheendofcease,firewith-276(Score=115times)2)announcedthursdaytheendofthecease,firewith-199(Score=110times)3)announcedthursdaytheendofcease,firewithhamas-141(Score=135times)4)announcedonthursdaytheendofcease,firewith-106(Score=110times)5)announcedthursdaytheendofthecease,firewithhamas-103(Score=130times)6)announcedthursdaytheendofcease,firewithhamasand-94(Score=130times)7)hamasannouncedthursdaytheendofcease,firewith-93(Score=135times)8)hamasannouncedonthursdaytheendofcease,firewith-80(Score=130times)9)hamasannouncedthursdaytheendofthecease,firewith-80(Score=130times)10)announcedthursdaytheendofcease,firewiththe-78(Score=110times)11)announcedonthursdaytheendofthecease,firewith-58(Score=105times)12)announcedthursdaytheendofthecease,firewithhamasand-56(Score=125times)13)hamasannouncedthursdaytheendofcease,firewiththe-52(Score=130times)14)announcedthursdaytheendofthecease,firewiththe-52(Score=105times)15)announcedonthursdaytheendofcease,firewiththe-49(Score=105times)16)announcedthursdaytheendofcease,firewithhamasandthe-47(Score=125times)17)hamasannouncedthursdaytheendofthecease,firewiththe-43(Score=125times)18)hamasannouncedonthursdaytheendofcease,firewiththe-43(Score=125times)19)hamasannouncedonthursdaytheendofthecease,firewith-40(Score=125times)20)announcedthursdaytheendofcease,firea-38(Score=105times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucesedelfuegocon′,′cesedelfuegocon′(2,null,8)-(1000)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucese′,′cesedelfuegocon′(2,null,8)-(1000)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueves′,′cesedelfuegocon′(2,null,8)-(1000)NogoodsourceoverlapcesedelfuegoconisraelwasjusttranslatedandreturnedresultsNumberofresults=748Translationforcesedelfuegoconisraeltook0.888goingtotryandoverlapthispiecewiththehashmap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfinde′,′cesedelfuegoconisrael′(2,null,8)-(748)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfin′,′cesedelfuegoconisrael′(2,null,8)-(748)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejuevesel′,′cesedelfuegoconisrael′(2,null,8)--(748)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucesedelfuegoconisrael′,′cesedelfuegoconisrael′(2,null,8)-(748)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucesedelfuego′,′cesedelfuegoconisrael′(2,hamasanuncióestejueveselfindesucesedelfuegoconisrael,8)-(748)Gotanoverlapinsource,checkingtarget1500-748Overlapcheckfor′hamasanuncióestejueveselfindesucesedelfuego′,′cesedelfuegoconisrael′took7.89***hamasanuncióestejueveselfindesucesedelfuego(1500),(748)cesedelfuegoconisrael=hamasanuncióestejueveselfindesucesedelfuegoconisrael@@@18681->0hamasanuncióestejueveselfindesucesedelfuegoconisrael的重叠结果1)′hamasannouncedthursdaytheendofcease,firewithisrael′-155(Repeated28times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefirewithisrael)2)′hamasannouncedthursdaytheendofceasefire,withisrael′-155(Repeated1times)(null)3)′hamasannouncedonthursdaytheendofceasefire,withisrael′-150(Repeated1times)(null)4)′hamasannouncedthursdaytheendofceasefirewith,israeland′-150(Repeated9times)(null)5)′hamasannouncedthursdaytheendofthecease,firewithisrael′-150(Repeated24times)(hamasannouncedthursdaytheendofthe,ceasefire∷theceasefirewithisrael)6)′hamasannouncedthursdaytheendofcease,firewithisraelthe′-150(Repeated3times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefirewithisraelthe)7)′hamasannouncedthursdaytheendofcease,fireisrael′-150(Repeated8times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefireisrael)8)′hamasannouncedonthursdaytheendofcease,firewithisrael′-150(Repeated23times)(hamasannouncedonthursdaytheendof,ceasefire∷ceasefirewithisrael)9)′hamasannouncedthursdaytheendofcease,firewithisraelwas′-150(Repeated1times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefirewithisraelwas)10)′hamasannouncedthursdaytheendofceasefire,byisraelwith′-150(Repeated3times)(hamasannouncedthursdaytheendofcease,fireby∷ceasefirebyisraelwith)11)′hamasannouncedthursdaytheendofcease,firewithisraeland′-150(Repeated9times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefirewithisraeland)12)′hamasannouncedthursdaytheendofceasefirewith,israelwas′-150(Repeated1times)(null)13)′hamasannouncedthursdaytheendoftheceasefire,withisrael′-150(Repeated1times)(null)14)′hamasannouncedthursdaytheendofceasefirewith,israelthe′-150(Repeated3times)(null)15)′hamasannouncedthursdaytheendoftheceasefirewith,israelthe′-145(Repeated2times)(null)16)′hamasannouncedonthursdaytheendofceasefirewith,israelwas′-145(Repeated1times)(null)17)′hamasannouncedonthursdaytheendoftheceasefire,withisrael′-145(Repeated1times(null)18)′hamasannouncedthursdaytheendoftheceasefirewith,israelwas′-145(Repeated1times)(null)19)′hamasannouncedthursdaytheendofthecease,firewithisraelthe′-145(Repeated3times)(hamasannouncedthursdaytheendofthe,ceasefire∷ceasefirewithisraelthe)20)′hamasannouncedonthursdaytheendofceasefirewith,israeland′-145(Repeated8times)(null)根据重复次数排序1)announcedthursdaytheendofcease,firewithisrael-259(Score=135times)2)announcedthursdaytheendofthecease,firewithisrael-122(Score=130times)3)announcedthursdaytheendofcease,fireisrael-71(Score=130times)4)announcedthursdaytheendofcease,firewithisraeland-67(Score=130times)5)announcedthursdaytheendofceasefire,byisrael-62(Score=125times)6)announcedthursdaytheendofceasefire,withisrael-61(Score=135times)7)announcedonthursdaytheendofcease,firewithisrael-51(Score=130times)8)announcedthursdaytheendofcease,firewithisraelthe-51(Score=130times)9)announcedthursdaytheendofceasefire,byisraelwith-50(Score=130times)10)announcedthursdaytheendofcease,firewithisraelwas-47(Score=130times)11)announcedthursdaytheendofitsunilateralcease,firewithisrael-44(Score=120times)12)announcedonthursdaytheendofthecease,firewithisrael-37(Score=125times)13)eannouncedthursdaytheendofcease,firewithisrael-34(Score=115times)14)announcedthursdaytheendofthecease,fireisrael-32(Score=125times)15)announcedthursdaytheendoftheceasefire,withisrael-30(Score=130times)16)hamasannouncedthursdaytheendofcease,firewithisrael-28(Score=155times)17)announcedonthursdaytheendofitsunilateralcease,firewithisrael-26(Score=115times)18)hamasannouncedthursdaytheendofthecease,firewithisrael-24(Score=150times)19)announcedthursdaytheendofceasefire,andisrael-23(Score=125times)20)announcedthursdaytheendofthecease,firewithisraeland-23(Score=125times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamsaanuncióestejueveselfindesucesedelfuegocon′,′cesedelfuegoconisrael′(2,hamasanuncióestejueveselfindesucesedelfuegoconisrael,8)--(748)Gotanoverlapinsource,checkingtarget1500-748Overlapcheckfor′hamasanuncióestejueveselfindesucesedelfuegocon′,′cesedelfuegoconisrael′took3.299***hamasanuncióestejueveselfindesucesedelfuegocon(1500),(748)cesedelfuegoconisrael=hamasanuncióestejueveselfindesucesedelfuegoconisrael@@@2840->0hamasanuncióestejueveselfindesucesedelfuegoconisrael的重叠结果1)′hamasannouncedthursdaytheendofcease,firewithisrael′-155(Repeated28times)(null)2)′hamasannouncedthursdaytheendofceasefire,withisrael′-155(Repeated1times)(hamasannouncedthursdaytheendofcease,firewith∷ceasefirewithisrael)3)′hamasannouncedonthursdaytheendofceasefire,withisrael′-150(Repeated1times)(hamasannouncedonthursdaytheendofcease,firewith∷ceasefirewithisrael)4)′hamasannouncedthursdaytheendofceasefirewith,israeland′-150(Repeated9times)(hamasannouncedthursdaytheendofcease,firewithisrael∷ceasefirewithisraeland)5)′hamasannouncedthursdaytheendofthecease,firewithisrael′-150(Repeated24times)(null)60′hamasannouncedthursdaytheendofcease,firewithisraelthe′-150(Repeated3times)(null)7)′hamasannouncedthursdaytheendofcease,fireisrael′-150(Repeated8times)(null)8)′hamasannouncedonthursdaytheendofcease,firewithisrael′-150(Repeated23times)(null)9)′hamasannouncedthursdaytheendofcease,firewithisraelwas′-150(Repeated1times)(null)10)′hamasannouncedthursdaytheendofceasefire,byisraelwith′-150(Repeated3times)(hamasannouncedthursdaytheendofcease,fireby∷ceasefirebyisraelwith)11)′hamasannouncedthursdaytheendofceasefirewith,israelas′-150(Repeated3times)(hamasannouncedthursdaytheendofcease,firewithisrael∷firewithisraelas)12)′hamasannouncedthuusdaytheendofcease,firewithisraeland′-150(Repeated9times)(null)13)′hamasannouncedthursdaytheendofceasefirewith,israelwas′-150(Repeated1times)(hanasannouncedthursdaytheendofcease,firewithisrael∷ceasefirewithisraelwas)14)′hamasannouncedthursdaytheendoftheceasefire,withisrael′-150(Repeated1times)(hamasannouncedthursdaytheendofthecease,firewith∷theceasefirewithjsrael)15)′hamasannouncedthursdaytheendofceasefirewith,israelthe′-150(Repeated3times)(hamasannouncedthuaaytheendofcease,firewithisrael∷ceasefirewithisraelthe)16)′hamasannouncedthursdaytheendoftheceasefirewith,israelthe′-145(Repeated2times)(hamasannouncedthursdaytheendofthecease,firewithisrael∷ceasefirewithisraelthe)17)′hamasannouncedonthursdaytheendofceasefirewith,israelwas′-145(Repeated1times)(hamasannouncedonthursdaytheendofcease,firewithisrael∷ceasefirewithisraelwas)18)′hamasannouncedonthursdaytheendoftheceasefire,withisrael′-145(Repeated1times)(hamasannouncedonthursdaytheendofthecease,firewith∷theceasefirewithisrael)19)′hamasannouncedthursdaytheendoftheceasefirewith,israelwas′-145(Repeated1times)(hamasannouncedthursdaytheendofthecease,firewithisrael∷ceasefirewithisraelwas)20)′hamasannouncedonthursdaytheendofceasefirewith,israelas′-145(Repeated3times)(hamasannouncedonthursdaytheendofcease,firewithisrael∷firewithisraelas)根据重复次数排序1)announcedthursdaytheendofcease,firewithisrael-250(Score=135times)2)announcedthursdaytheendofthecease,firewithisrael-101(Score=130times)3)announcedthursdaytheendofcease,fireisrael-65(Score=130times)4)announcedthursdaytheendofceasefire,withisrael-64(Score=135times)5)announcedthursdaytheendofcease,firewithisraeland-60(Score=130times)6)announcedthursdaytheendofceasefire,byisrael-58(Score=125times)7)announcedthursdaytheendofceasefire,byisraelwith-50(Score=130times)8)announcedthursdaytheendofcease,firewithisraelthe-50(Score=130times)9)announcedonthursdaytheendofcease,firewithisrael-47(Score=130times)10)announcedthursdaytheendofcease,firewithisraelwas-47(Score=130times)11)announcedthursdaytheendofitsunilateralcease,firewithisrael-44(Score=120times)12)announcedonthursdaytheendofthecease,firewithisrael-37(Score=125times)13)eannouncedthursdaytheendofcease,firewithisrael-31(Score=115times)14)announcedthursdaytheendoftheceasefire,withisrael-31(Score=130times)15)hamasannouncedthursdaytheendofcease,firewithisrael-28(Score=155times)16)hamasannouncedthursdaytheendofthecease,firewithisrael-24(Score=150times)17)announcedthursdaytheendofitsunilateralceasefire,withisrael-24(Score=120times)18)hamasannouncedonthursdaytheendofcease,firewithisrael-23(Score=150times)19)announcedonthursdaytheendofitsunilateralcease,firewithisrael-23(Score=115times)20)announcedthursdaytheendofthecease,fireisrael-22(Score=125times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucese′,′cesedelfuegoconisrael′(2,null,8)-(748)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueves′,′cesedelfuegoconisrael′(2,null,8)-(748)NogoodsourceoverlapdelfuegoconisraelwasjusttranslatedandreturnedresultsNumberofresults=604Translationfordelfuegoconisraeltook0.634goingtotryandoverlapthispiecewiththehashmap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfinde′,′delfuegoconisrael′(2,null,9)-(604)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfin′,′delfuegoconisrael′(2,null,9)-(604)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejuevesel′,′delfuegoconisrael′(2,null,9)-(604)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucesedelfuegoconisrael′,′delfuegoconisrael′(2,null,9)-(604)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucesedelfuego′,′delfuegoconisrael′(2,hamasanuncióestejueveselfindesucesedelfuegoconisrael,9)-(604)Gotanoverlapinsource,checkingtarget1500-604Overlapcheckfor′hamasanuncióestejueveselfindesucesedelfuego′,′delfuegoconisrael′took3.242***hamasanuncióestejueveselfindesucesedelfuego(1500),(604)delfuegoconisrael=hamasanuncióestejueveselfindesucesedelfuegoconisrael@@@2927->0hamasanuncióestejueeselfindesucesedelfuegoconisrael的重叠结果1)′hamasannouncedthursdaytheendofcease,firewithisrael′-155(Repeated28times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefirewithisrael)2)′hamasannouncedthursdaytheendofceasefire,withisrael′-155(Repeated1times)(null)3)′hamasannouncedonthursdaytheendofceasefore,withisrael′-150(Repeated1times)(null)4)′hamasannouncedthursdaytheendofceasefirewith,israeland′-150(Repeated9times)(null)5)′hamasannouncedthursdaytheendofthecease,firewithisrael′-150(Repeated24times)(hamasannouncedthursdaytheendofthe,ceasefire∷theceasefirewithisrael)6)′hamasannouncedthursdaytheendofcease,firewithisraelthe′-150(Repeated3times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefirewithisraelthe)7)′hamasannouncedthursdaytheendofcease,fireisrael′-150(Repeated8times)(null)8)′hamasannouncedonthursdaytheendofcease,firewithisrael′-150(Repeated23times)(hamasannouncedonthursdaytheendof,ceasefire∷ceasefirewithisrael)9)′hamasannouncedthursdaytheendofcease,firewithisraelwas′-150(Repeated1times)(null)10)′hamasannouncedthursdaytheendofceasefire,byisraelwith′-150(Repeated3times)(hamasannouncedthursdaytheendofcease,fireby∷ceasefirebyisraelwith)11)′hamasannouncedthursdaytheendofceasefirewith,israelas′-150(Repeated3times)(null)12)′hamasannouncedthursdaytheendofcease,firewithisraeland′-150(Repeated9times)(hamasannouncedthursdaytheendof,ceasefire∷ceasefirewithisraeland)13)′hamasannouncedthursdaytheendofceasefirewith,israelwas′-150(Repeated1times)(null)14)′hamasannouncedthursdaytheendoftheceasefire,withisrael′-150(Repeated1times)(null)15)′hamasannouncedthursdaytheendofceasefirewith,israelthe′-150(Repeated3times)(null)16)′hamasannouncedthursdaytheendoftheceasefirewith,israelthe′-145(Repeated2times)(null)17)′hamasannouncedonthursdaytheendofceasefirewith,israelwas′-145(Repeated1times)(null)18)′hamasannouncedonthursdaytheendoftheceasefire,withisrael′-145(Repeated1times)(null)19)′hamasannouncedthursdaytheendoftheceasefirewith,israelwas′-145(Repeated1times)(null)20)′hamasannouncedonthursdaytheendofceasefirewith,israelas′-145(Repeated3times)(null)根据重复次数排序1)announcedthursdaytheendofcease,firewithisrael-250(Score=135times)2)announcedthursdaytheendofthecease,firewithisrael-101(Score=130times)3)announcedthursdaytheendofcease,fireisrael-65(Score=130times)4)announcedthursdaytheendofceasefire,withisrael-64(Score=135times)5)announcedthursdaytheendofcease,firewithisraeland-60(Score=130times)6)announcedthursdaytheendofceasefire,byisrael-58(Score=125times)7)announcedthursdaytheendofceasefire,byisraelwith-50(Score=130times)8)announcedthursdaytheendofcease,firewithisraelthe-50(Score=130times)9)announcedonthursdaytheendofcease,firewithisrael-47(Score=130times)10)announcedthursdaytheendofcease,firewithisraelwas-47(Score=130times)11)announcedthursdaytheendofitsunilateralcease,firewithisrael-44(Score=120times)12)announcedonthursdaytheendofthecease,firewithisrael-37(Score=125times)13)eannouncedthursdaytheendofcease,firewithisrael-31(Score=115times)14)announcedthursdaytheendoftheceasefire,withisrael-31(Score=130times)15)hamasannouncedthursdaytheendofcease,firewithisrael-28(Score=155times)16)hamasannouncedthursdaytheendofthecease,firewithisrael-24(Score=150times)17)announcedthursdaytheendofitsunilateralceasefire,withisrael-24(Score=120times)18)hamasannouncedonthursdaytheendofcease,firewithisrael-23(Score=150times)19)announcedonthursdaytheendofitsunilateralcease,firewithisrael-23(Score=115times)20)announcedthursdaytheendofthecease,fireisrael-22(Score=125times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucesedelfuegocon′,′delfuegoconisraei′(2,hamasanuncióestejueveselfindesucesedelfuegoconisrael,9)-(604)Gotanoverlapinsource,checkingtarget1500-604Overlapcheckfor′hamasanuncióestejueveselfindesucesedelfuegocon′,′delfuegoconisrael′took2.82***hamasanuncióestejueveselfindesucesedelfuegocon(1500),(604)delfuegoconisrael=hamasanuncióestejueveselfindesucesedelfuegoconisrael@@@1577->0hamasanuncióestejueveselfindesucesedelfuegoconisrael的重叠结果1)′hamasannouncedthursdaytheendofcease,firewithisrael′-155(Repeated28times)(null)2)′hamasannouncedthursdaytheendofceasefire,withisrael′-155(Repeated1times)(hamasannouncedthursdaytheendofcease,firewith∷ceasefirewithisrael)3)′hamasannouncedonthursdaytheendofceasefire,withisrael′-150(Repeated1times)(hamasannouncedonthursdaytheendofcease,firewith∷ceasefirewithisrael)4)′hamasannouncedthursdaytheendofceasefirewith,israeland′-150(Repeated9times)(hamasannouncedthursdaytheendofcease,firewithisrael∷ceasefirewithisraeland)5)′hamasannouncedthursdaytheendofthecease,firewithisrael′-150(Repeated24times)(null)6)′hamasannouncedthursdaytheendofcease,firewithisraelthe′-150(Repeated3times)(null)7)′hamasannouncedthursdaytheendofcease,fireisrael′-150(Repeated8times)(null)8)′hamasannouncedonthursdaytheendofcease,firewithisrael′-150(Repeated23times)(null)9)′hamasannouncedthursdaytheendofcease,firewithisraelwas′-150(Repeated1times)(null)10)′hamasannouncedthursdaytheendofceasefire,byisraelwith′-150(Repeated3times)(hamasannouncedthursdaytheendofcease,fireby∷ceasefirebyisraelwith)11)′hamasannouncedthursdaytheendofceasefirewith,israe1as′-150(Repeated3times)(hamasannouncedthursdaytheendofcease,firewithisrael∷firewithisraelas)12)′hamasannouncedthursdaytheendofcease,firewithisraeland′-150(Repeated9times)(null)13)′hamasannouncedthursdaytheendofceasefirewithisraelwas′-150(Repeated1times)(null)14)′hamasannouncedthursdaytheendoftheceasefire,withisrael′-150(Repeated1times)(hamasannouncedthursdaytheendofthecease,firewith∷theceasefirewithisrael)15)′hamasannouncedthursdaytheendofceasefirewith,israelthe′-150(Repeaed3times)(hamasannouncedthursdaytheendofcease,firewithisrael∷ceasefirewithisraelthe)16)′hamasannouncedthursdaytheendoftheceasefirewith,israelthe′-145(Repeated2times)(hamasannouncedthursdaytheendofthecease,firewithisrael∷ceasefirewithisraelthe)17)′hamasannouncedonthursdaytheendofceasefirewith,israelwas′-145(Repeated1times)(null)18)′hamasannouncedonthursdaytheendoftheceasefire,withisrael′-145(Repeated1times)(hamasannouncedonthursdaytheendofthecease,firewith∷theceasefirewithisrael)19)′hamasannouncedthursdaytheendoftheceasefirewith,israelwas′-145(Repeated1times)(null)20)′hamasannouncedonthursdaytheendofceasefirewith,israelas′-145(Repeated3times)(hamasannouncedonthursdaytheendofcease,firewithisrael∷firewithisraelas)根据重复次数排序1)announcedthursdaytheendofcease,firewithisrael-249(Score=135times)2)announcedthursdaytheendofthecease,firewithisrael-99(Score=130times)3)announcedthursdaytheendofcease,fireisrael-65(Score=130times)4)announcedthursdaytheendofceasefire,withisrael-64(Score=135times)5)announcedthursdaytheendofcease,firewithisraeland-59(Score=130times)6)announcedthursdaytheendofceasefire,byisrael-58(Score=125times)7)announcedthursdaytheendofcease,firewithisraelthe-50(Score=130times)8)announcedthursdaytheendofceasefire,byisraelwith-50(Score=130times)9)announcedthursdaytheendofcease,firewithisraelwas-47(Score=130times)10)announcedonthursdaytheendofcease,firewithisrael-47(Score=130times)11)announcedthursdaytheendofitsuniiateralcease,firewithisrael-44(Score=120times)12)announcedonthursdaytheendofthecease,firewithisrael-37(Score=125times)13)announcedthursdaytheendoftheceasefire,withisrael-31(Score=130times)14)eannouncedthursdaytheendofcease,firewithisrael-30(Score=115times)15)hamasannouncedthursdaytheendofcease,firewithisrael-28(Score=155times)16)hamasannouncedthursdaytheendofthecease,firewithisrael-24(Score=150times)17)announcedthursdaytheendofitsunilateralceasefire,withisrael-24(Score=120times)18)hamasannouncedonthursdaytheendofcease,firewithisrael-23(Score=150times)19)announcedonthursdaytheendofitsunilateralcease,firewithisrael-23(Score=115times)20)announcedthursdaytheendofthecease,fireisrael-22(Score=125times)@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueveselfindesucese′,′delfuegoconisrael′(2,null,9)-(604)Nogoodsourceoverlap@@@Pre2@@@@@@Post2@@@Tryingtooverlap′hamasanuncióestejueves′,′delfuegoconisrael′(2,null,9)-(604)NogoodsourceoverlapTimesofartook101.26(0)权利要求1.一种获取关联概念知识库的方法,其特征在于,所述方法包括步骤提供以两种不同的语言表示相同概念的文档配对,其中所述文档配对中的第一个以第一种语言表达,所述文档配对中的第二个以第二种语言表达;接收要分析的查询,所述查询以所述第一种语言表达,所述查询由单词或单词串组成;分析所述文档配对中的所述第一个来识别所述查询在所述文档配对中的所述第一个中的所有出现;在所述文档配对中的所述第二个中选择多个单词范围,所述选择的范围对应于所述查询在所述文档配对中的所述第一个中的出现;计算包含在所述选择的范围中单词和单词串的频率;基于通过所述计算步骤得到的所有唯一单词和单词串的出现,用表格列出所述频率;及如果使用所述用表格列出的频率,所述唯一单词和单词串出现在不止一个选择的范围中,则返回所有唯一单词和单词串的出现的列表。2.如权利要求1所述的方法,其特征在于,如果某单词或单词串是出现在不止一个选择的范围中的较长单词串的子集,则所述计算步骤忽略该单词或单词串的出现。3.一种获取关联概念知识库的方法,其特征在于,所述方法包括步骤提供以两种不同的语言表示相同概念的多个文档配对,其中多个所述文档配对中的一组以第一种语言表达,所述多个文档配对中的第二组以第二种语言表达;接收要分析的查询,所述查询以所述第一种语言表达,所述查询由单词或单词串组成;分析所述多个配对中的所述第一组来识别所述查询在所述第一组中的所有出现;在所述多个配对中的所述第二组中选择多个单词范围,所述选择的范围对应于所述查询在所述第一组中的出现;计算包含在所述选择的范围中单词和单词串的频率;基于通过所述计算步骤得到的所有唯一单词和单词串的出现,用表格列出所述频率;及如果使用所述用表格列出的频率,所述唯一单词和单词串出现在不止一个选择的范围中,则返回所有唯一单词和单词串的出现的列表。4.如权利要求3所述的方法,其特征在于,如果某单词或单词串是出现在不止一个选择的范围中的较长单词串的子集,则所述计算步骤忽略该单词或单词串的出现。5.一种计算机设备,所述计算机设备包括处理器、连接到所述处理器的存储器,及存储在所述存储器中的程序,其特征在于,所述计算机配置为执行所述程序并执行下面的步骤提供以两种不同的语言表示相同概念的文档配对,其中所述文档配对中的第一个以第一种语言表达,所述文档配对中的第二个以第二种语言表达;接收要分析的查询,所述查询以所述第一种语言表达,所述查询由单词或单词串组成;分析所述文档配对中的所述第一个来识别所述查询在所述文档配对中的所述第一个中的所有出现;在所述文档配对中的所述第二个中选择多个单词范围,所述选择的范围对应于所述查询在所述文档配对中的所述第一个中的出现;计算包含在所述选择的范围中单词和单词串的频率;基于通过所述计算步骤得到的所有唯一单词和单词串的出现,用表格列出所述频率;及如果使用所述用表格列出的频率,所述唯一单词和单词串出现在不止一个选择的范围中,则返回所有唯一单词和单词串的出现的列表。6.如权利要求5所述的计算机设备,其特征在于,如果某单词或单词串是出现在不止一个选择的范围中的较长单词串的子集,则所述计算步骤忽略该单词或单词串的出现。7.一种计算机设备,所述计算机设备包括处理器、连接到所述处理器的存储器,及存储在所述存储器中的程序,其特征在于,所述计算机配置为执行所述程序并执行下面的步骤提供以两种不同的语言表示相同概念的多个文档配对,其中多个所述文档配对中的一组以第一种语言表达,所述多个文档配对中的第二组以第二种语言表达;接收要分析的查询,所述查询以所述第一种语言表达,所述查询由单词或单词串组成;分析所述多个配对中的所述第一组来识别所述查询在所述第一组中的所有出现;在所述多个配对中的所述第二组中选择多个单词范围,所述选择的范围对应于所述查询在所述第一组中的出现;计算包含在所述选择的范围中单词和单词串的频率,所述频率基于所有唯一单词和单词串的出现;基于通过所述计算步骤得到的所有唯一单词和单词串的出现,用表格列出所述频率;及如果使用所述用表格列出的频率,所述唯一单词和单词串出现在不止一个选择的范围中,则返回所有唯一单词和单词串的出现的列表。8.如权利要求7所述的计算机设备,其特征在于,如果某单词或单词串是出现在不止一个选择的范围中的较长单词串的子集,则所述计算步骤忽略该单词或单词串的出现。9.一种计算机可读的存储媒体,可由计算机处理器执行的程序存储在其上,其特征在于,所述程序用于执行下面的步骤提供以两种不同的语言表示相同概念的文档配对,其中所述文档配对中的第一个以第一种语言表达,所述文档配对中的第二个以第二种语言表达;接收要分析的查询,所述查询以所述第一种语言表达,所述查询由单词或单词串组成;分析所述文档配对中的所述第一个来识别所述查询在所述文档配对中的所述第一个中的所有出现;在所述文档配对中的所述第二个中选择多个单词范围,所述选择的范围对应于所述查询在所述文档配对中的所述第一个中的出现;计算包含在所述选择的范围中单词和单词串的频率;基于通过所述计算步骤得到的所有唯一单词和单词串的出现,用表格列出所述频率;及如果使用所述用表格列出的频率,所述唯一单词和单词串出现在不止一个选择的范围中,则返回所有唯一单词和单词串的出现的列表。10.如权利要求9所述的计算机可读存储媒体,其特征在于,如果某单词或单词串是出现在不止一个选择的范围中的较长单词串的子集,则所述计算步骤忽略该单词或单词串的出现。11.一种计算机可读的存储媒体,可由计算机处理器执行的程序存储在其上,其特征在于,所述程序用于执行下面的步骤提供以两种不同的语言表示相同概念的多个文档配对,其中多个所述文档配对中的一组以第一种语言表达,所述多个文档配对中的第二组以第二种语言表达;接收要分析的查询,所述查询以所述第一种语言表达,所述查询由单词或单词串组成;分析所述多个配对中的所述第一组来识别所述查询在所述第一组中的所有出现;在所述多个配对中的所述第二组中选择多个单词范围,所述选择的范围对应于所述查询在所述第一组中的出现;计算包含在所述选择的范围中单词和单词串的频率;基于通过所述计算步骤得到的所有唯一单词和单词串的出现,用表格列出所述频率;及如果使用所述用表格列出的频率,所述唯一单词和单词串出现在不止一个选择的范围中,则返回所有唯一单词和单词串的出现的列表。12.如权利要求11所述的计算机可读存储媒体,其特征在于,如果某单词或单词串是出现在不止一个选择的范围中的较长单词串的子集,则所述计算步骤忽略该单词或单词串的出现。13.一种对关联进行记号化,以便进行高效的信息传输的方法,其特征在于,所述方法包括下面的步骤创建关联;及通过指定等价于所述关联的记号来记号化所述关联;所述创建关联包括提供以两种不同的语言表示相同概念的文档配对,其中所述文档配对中的第一个以第一种语言表达,所述文档配对中的第二个以第二种语言表达;接收要分析的查询,所述查询以所述第一种语言表达,所述查询由单词或单词串组成;分析所述文档配对中的所述第一个来识别所述查询在所述文档配对中的所述第一个中的所有出现;在所述文档配对中的所述第二个中选择多个单词范围,所述选择的范围对应于所述查询在所述文档配对中的所述第一个中的出现;计算包含在所述选择的范围中单词和单词串的频率,如果某单词或单词串是出现在不止一个选择的范围中的较长单词串的子集,则所述计算步骤忽略该单词或单词串的出现;基于通过所述计算步骤得到的所有唯一单词和单词串的出现,用表格列出所述频率;及如果使用所述用表格列出的频率,所述唯一单词和单词串出现在不止一个选择的范围中,则返回所有唯一单词和单词串的出现的列表。14.如权利要求13所述的方法,其特征在于,还包括将所述记号从一个位置发送到第二位置或多个第二位置;在所述第二位置或多个第二位置,分析所述指定的记号来识别所述关联;及向用户提供所述关联。15.一种对关联进行记号化,以便进行高效的信息传输的方法,其特征在于,所述方法包括下面的步骤创建关联;及通过指定等价于所述关联的记号来记号化所述关联;所述创建关联包括提供以两种不同的语言表示相同概念的多个文档配对,其中多个所述文档配对中的一组以第一种语言表达,所述多个文档配对中的第二组以第二种语言表达;接收要分析的查询,所述查询以所述第一种语言表达,所述查询由单词或单词串组成;分析所述多个配对中的所述第一组来识别所述查询在所述第一组中的所有出现;在所述多个配对中的所述第二组中选择多个单词范围,所述选择的范围对应于所述查询在所述第一组中的出现;计算包含在所述选择的范围中单词和单词串的频率,如果某单词或单词串是出现在不止一个选择的范围中的较长单词串的子集,则所述计算步骤忽略该单词或单词串的出现;基于通过所述计算步骤得到的所有唯一单词和单词串的出现,用表格列出所述频率;及如果使用所述用表格列出的频率,所述唯一单词和单词串出现在不止一个选择的范围中,则返回所有唯一单词和单词串的出现的列表。16.如权利要求15所述的方法,其特征在于,还包括将所述记号从一个位置发送到第二位置或多个第二位置;在所述第二位置或多个第二位置,分析所述指定的记号来识别所述关联;及向用户提供所述关联。17.一种创建包括源语言、目标语言和一种第三语言的关联概念知识库的方法,其特征在于,所述方法包括下面的步骤接收要分析的查询,所述查询以源语言表达,所述查询由单词或单词串组成;将所述查询翻译为以所述第三语言表达的结果;将所述结果翻译为以所述目标语言表达的第二结果;及在所述目标语言中关联所述查询与所述第二结果。18.一种创建包括源语言、目标语言和多种第三语言的关联概念知识库的方法,其特征在于,所述方法包括下面的步骤a.接收要分析的查询,所述查询以源语言表达,所述查询由单词或单词串组成;b.将所述查询翻译为以所述第三语言表达的结果;c.将所述结果翻译为以所述目标语言表达的第二结果;d.对所述多种第三语言中的每一种,重复步骤b和c;e.返回所述第二结果中的每一个;及f.对通过所述多种语言中的两种或多种产生的所有第二结果,将一个或多个所述第二结果与所述查询关联。19.如权利要求17或15所述的方法,其特征在于,包括下述步骤使用现有的一种或多种翻译方案,将所述查询为翻译所述目标语言中的第三结果;返回所述第三结果,并将所述返回的结果添加到所述返回的所述目标语言中的第二结果中;及对产生不止一次的所有第二或第三结果,关联搜索查询的一个或多个所述第二结果和第三结果。20.一种计算机设备,所述计算机设备包括处理器、连接到所述处理器的存储器,及存储在所述存储器中的程序,其特征在于,所述计算机配置为执行所述程序并执行下面的步骤接收要分析的查询,所述查询以源语言表达,所述查询由单词或单词串组成;将所述查询翻译为以所述第三语言表达的结果;将所述结果翻译为以所述目标语言表达的第二结果;及在所述目标语言中关联所述查询与所述第二结果。21.一种计算机设备,所述计算机设备包括处理器、连接到所述处理器的存储器,及存储在所述存储器中的程序,其特征在于,所述计算机配置为执行所述程序并执行下面的步骤a.接收要分析的查询,所述查询以源语言表达,所述查询由单词或单词串组成;b.将所述查询翻译为以所述第三语言表达的结果;c.将所述结果翻译为以所述目标语言表达的第二结果;d.对所述多种第三语言中的每一种,重复步骤b和c;e.返回所述第二结果中的每一个;及f.对通过所述多种语言中的两种或多种产生的所有第二结果,将一个或多个所述第二结果与所述查询关联。22.如权利要求20或21所述的计算机设备,其特征在于,还配置为执行下面的步骤使用现有的一种或多种翻译方案,将所述查询为翻译所述目标语言中的第三结果;返回所述第三结果,并将所述返回的结果添加到所述返回的所述目标语言中的第二结果中;及对产生不止一次的所有第二或第三结果,关联搜索查询的一个或多个所述第二结果和第三结果。23.一种计算机可读的存储媒体,可由计算机处理器执行的程序存储在其上,其特征在于,所述程序用于执行下面的步骤接收要分析的查询,所述查询以源语言表达,所述查询由单词或单词串组成;将所述查询翻译为以所述第三语言表达的结果;将所述结果翻译为以所述目标语言表达的第二结果;及在所述目标语言中关联所述查询与所述第二结果。24.一种计算机可读的存储媒体,可由计算机处理器执行的程序存储在其上,其特征在于,所述程序用于执行下面的步骤a.接收要分析的查询,所述查询以源语言表达,所述查询由单词或单词串组成;b.将所述查询翻译为以所述第三语言表达的结果;c.将所述结果翻译为以所述目标语言表达的第二结果;d.对所述多种第三语言中的每一种,重复步骤b和c;e.返回所述第二结果中的每一个;及f.对通过所述多种语言中的两种或多种产生的所有第二结果,将一个或多个所述第二结果与所述查询关联。25.如权利要求23或24所述的计算机媒体,其特征在于,还配置为执行下面的步骤使用现有的一种或多种翻译方案,将所述查询为翻译所述目标语言中的第三结果;返回所述第三结果,并将所述返回的结果添加到所述返回的所述目标语言中的第二结果中;及对产生不止一次的所有第二或第三结果,关联搜索查询的一个或多个所述第二结果和第三结果。26.一种对关联进行记号化,以便进行高效的信息传输的方法,其特征在于,所述方法包括下面的步骤使用下面的步骤,创建包括源语言、目标语言及一种第三语言的关联接收要分析的查询,所述查询以源语言表达,所述查询由单词或单词串组成;将所述查询翻译为以所述第三语言表达的结果;将所述结果翻译为以所述目标语言表达的第二结果;在所述目标语言中关联所述查询与所述第二结果;及通过指定等价于所述关联的记号来记号化所述关联。27.如权利要求26所述的方法,其特征在于,还包括;将所述记号从一个位置发送到第二位置或多个第二位置;在所述第二位置或多个第二位置,分析所述指定的记号来识别所述关联;及向用户提供所述关联。28.一种对关联进行记号化,以便进行高效的信息传输的方法,其特征在于,所述方法包括下面的步骤使用下面的步骤,创建包括源语言、目标语言及多种第三语言的关联a.接收要分析的查询,所述查询以源语言表达,所述查询由单词或单词串组成;b.将所述查询翻译为以所述第三语言表达的结果;c.将所述结果翻译为以所述目标语言表达的第二结果;d.对所述多种第三语言中的每一种,重复步骤b和c;e.返回所述第二结果中的每一个;f.对通过所述多种语言中的两种或多种产生的所有第二结果,将一个或多个所述第二结果与所述查询关联;及通过指定等价于所述关联的记号来记号化所述关联。29.如权利要求28所述的方法,其特征在于,还包括;将所述记号从一个位置发送到第二位置或多个第二位置;在所述第二位置或多个第二位置,分析所述指定的记号来识别所述关联;及向用户提供所述关联。30.一种创建关联概念知识库的方法,其特征在于,所述方法包括步骤使用以第二种语言表达的单词和/或单词串,提供以第一种言表达的单词串的翻译;提供以所述第二种语言表达的文档语料库;接收要分析的查询,所述查询以源语言表达,所述查询由单词或单词串组成;对所述查询,使用所述提供的翻译,识别组成所述单词串查询的每个单词在所述第二种语言中的所有翻译;分析所述文档语料库,查找以所述第二种语言表达的单词串,其中所述分析只识别具有用户定义的最大单词数的单词串,所述分析只识别具有在所述识别步骤中通过用户定义的最少数量的以第一种语言表达的单词获取的翻译的单词串,且所述分析只对以第一种语言表达的所述单词中的每个的一个翻译进行计数;及从对所述文档语料库进行的所述分析中,返回以所述第二种语言表达的所述单词串的列表作为单词串结果。31.如权利要求30所述的方法,其特征在于,以所述第二种语言表达的所述单词串至少具有第一部分和第二部分,且所述列表表示所述第一种语言的查询与所述第二种语言的表达的关联,所述方法还包括下面的步骤检查返回的单词串结果的所述列表,查找任何两个具有重叠的所述第一部分和第二部分的所述返回的单词串结果的出现;将所有所述两个重叠的返回的单词串组合为第三单词串,其中所述第三单词串是所述第一单词串和所述第二单词串合并所述重叠的单词之后的组合;及将所有所述第三单词串添加到所述单词串结果的所述列表中。32.如权利要求30所述的方法,其特征在于,以第一种语言表达的单词包括第一种语言中的特定单词串,如习语和搭配。33.如权利要求30、31和32所述的方法,其特征在于,还包括基于用户定义的准则对所述单词串结果列表进行分级。34.一种计算机设备,所述计算机设备包括处理器、连接到所述处理器的存储器,及存储在所述存储器中的程序,其特征在于,所述计算机配置为执行所述程序并执行下面的步骤使用以第二种语言表达的单词和/或单词串,提供以第一种言表达的单词串的翻译;提供以所述第二种语言表达的文档语料库;接收要分析的查询,所述查询以源语言表达,所述查询由单词或单词串组成;对所述查询,使用所述提供的翻译,识别组成所述单词串查询的每个单词在所述第二种语言中的所有翻译;分析所述文档语料库,查找以所述第二种语言表达的单词串,其中所述分析只识别具有用户定义的最大单词数的单词串,所述分析只识别具有在所述识别步骤中通过用户定义的最少数量的以第一种语言表达的单词获取的翻译的单词串,且所述分析只对以第一种语言表达的所述单词中的每个的一个翻译进行计数;及从对所述文档语料库进行的所述分析中,返回以所述第二种语言表达的所述单词串的列表作为单词串结果。35.如权利要求34所述的方法,其特征在于,以所述第二种语言表达的所述单词串至少具有第一部分和第二部分,且所述列表表示所述第一种语言的查询与所述第二种语言的表达的关联,所述方法还包括下面的步骤检查返回的单词串结果的所述列表,查找任何两个具有重叠的所述第一部分和第二部分的所述返回的单词串结果的出现;将所有所述两个重叠的返回的单词串组合为第三单词串,其中所述第三单词串是所述第一单词串和所述第二单词串合并所述重叠的单词之后的组合;及将所有所述第三单词串添加到所述单词串结果的所述列表中。36.如权利要求34所述的方法,其特征在于,以第一种语言表达的单词包括第一种语言中的特定单词串,如习语和搭配。37.如权利要求34所述的方法,其特征在于,还包括基于用户定义的准则对所述单词串结果列表进行分级。38.一种计算机可读的存储媒体,可由计算机处理器执行的程序存储在其上,其特征在于,所述程序用于执行下面的步骤使用以第二种语言表达的单词和/或单词串,提供以第一种言表达的单词串的翻译;提供以所述第二种语言表达的文档语料库;接收要分析的查询,所述查询以源语言表达,所述查询由单词或单词串组成;对所述查询,使用所述提供的翻译,识别组成所述单词串查询的每个单词在所述第二种语言中的所有翻译;分析所述文档语料库,查找以所述第二种语言表达的单词串,其中所述分析只识别具有用户定义的最大单词数的单词串,所述分析只识别具有在所述识别步骤中通过用户定义的最少数量的以第一种语言表达的单词获取的翻译的单词串,且所述分析只对以第一种语言表达的所述单词中的每个的一个翻译进行计数;及从对所述文档语料库进行的所述分析中,返回以所述第二种语言表达的所述单词串的列表作为单词串结果。39.如权利要求38所述的计算机媒体,其特征在于,以所述第二种语言表达的所述单词串至少具有第一部分和第二部分,且所述列表表示所述第一种语言的查询与所述第二种语言的表达的关联,所述方法还包括下面的步骤检查返回的单词串结果的所述列表,查找任何两个具有重叠的所述第一部分和第二部分的所述返回的单词串结果的出现;将所有所述两个重叠的返回的单词串组合为第三单词串,其中所述第三单词串是所述第一单词串和所述第二单词串合并所述重叠的单词之后的组合;及将所有所述第三单词串添加到所述单词串结果的所述列表中。40.如权利要求38所述的计算机媒体,其特征在于,以第一种语言表达的单词包括第一种语言中的特定单词串,如习语和搭配。41.如权利要求38所述的计算机媒体,其特征在于,还包括基于用户定义的准则对所述单词串结果列表进行分级。42.一种对关联进行记号化,以便进行高效的信息传输的方法,其特征在于,所述方法包括下面的步骤创建关联;及通过指定等价于所述关联的记号来记号化所述关联;所述创建关联包括使用以第二种语言表达的单词和/或单词串,提供以第一种语言表达的单词串的翻译;提供以所述第二种语言表达的文档语料库;接收要分析的查询,所述查询以源语言表达,所述查询由单词或单词串组成;对所述查询,使用所述提供的翻译,识别组成所述单词串查询的每个单词在所述第二种语言中的所有翻译;分析所述文档语料库,查找以所述第二种语言表达的单词串,其中所述分析只识别具有用户定义的最大单词数的单词串,所述分析只识别具有在所述识别步骤中通过用户定义的最少数量的以第一种语言表达的单词获取的翻译的单词串,且所述分析只对以第一种语言表达的所述单词中的每个的一个翻译进行计数;及从对所述文档语料库进行的所述分析中,返回以所述第二种语言表达的所述单词串的列表作为单词串结果。43.如权利要求42所述的方法,其特征在于,还包括;将所述记号从一个位置发送到第二位置或多个第二位置;在所述第二位置或多个第二位置,分析所述指定的记号来识别所述关联;及向用户提供所述关联。44.如权利要求42所述的方法,其特征在于,以第一种语言表达的单词包括第一种语言中的特定单词串,如习语和搭配。45.如权利要求30所述的方法,其特征在于,还包括提供以所述第一种语言表达的文档语料库;在以所述第一种语言表达的所述文档语料库中,识别所述查询的用户定义数量的出现;分析在所述查询的每次所述出现左边和右边的用户定义数量的单词和/或单词串,并识别组成在所述查询左边的用户定义数量的单词和/或单词串、所述查询,及在所述查询右边的用户定义数量的单词和/或单词串的单词串;创建组成所述分析步骤的结果的返回的单词串的列表;单独分析每个返回的单词串,并使用所述提供的翻译识别组成每个所述返回的单词串的每个单词在所述第二种语言中的所有翻译;分析所述文档语料库,查找以所述第二种语言表达的单词串,其中所述分析只识别具有用户定义的最大单词数的单词串,所述分析只识别具有在所述创建步骤中通过用户定义的最少数量的以第一种语言表达的单词获取的翻译的单词串,且所述分析只对以第一种语言表达的所述单词中的每个的一个翻译进行计数;从对所述文档语料库进行的所述分析中,返回以所述第二种语言表达的所述单词串的列表作为单词串结果;分析所述单词串列表和所述第二单词串列表来识别所述单词串列表上的每个单词串作为在所述第二单词串列表上的单词串的子集单词串出现的次数;及基于所述分析所述单词串列表和所述第二单词串列表的步骤,返回一个列表。46.如权利要求45所述的方法,其特征在于,所述分析所述单词串列表和所述第二单词串列表的步骤包括,如果单词串是处于相同返回列表上的较长单词串的子集,则忽略该单词串的每次出现来修改所述出现次数。47.如权利要求45所述的方法,其特征在于,以第一种语言表达的单词包括第一种语言中的特定单词串,如习语和搭配。48.如权利要求45或46所述的方法,其特征在于,还包括基于用户定义的准则对所述单词串结果列表进行分级。49.如权利要求34所述的计算机设备,其特征在于,还配置为执行下面的步骤提供以所述第一种语言表达的文档语料库;在以所述第一种语言表达的所述文档语料库中,识别所述查询的用户定义数量的出现;分析在所述查询的每次所述出现左边和右边的用户定义数量的单词和/或单词串,并识别组成在所述查询左边的用户定义数量的单词和/或单词串、所述查询,及在所述查询右边的用户定义数量的单词和/或单词串的单词串;创建组成所述分析步骤的结果的返回的单词串的列表;单独分析每个返回的单词串,并使用所述提供的翻译识别组成每个所述返回的单词串的每个单词在所述第二种语言中的所有翻译;分析所述文档语料库,查找以所述第二种语言表达的单词串,其中所述分析只识别具有用户定义的最大单词数的单词串,所述分析只识别具有在所述创建步骤中通过用户定义的最少数量的以第一种语言表达的单词获取的翻译的单词串,且所述分析只对以第一种语言表达的所述单词中的每个的一个翻译进行计数;从对所述文档语料库进行的所述分析中,返回以所述第二种语言表达的所述单词串的列表作为单词串结果;分析所述单词串列表和所述第二单词串列表来识别所述单词串列表上的每个单词串作为在所述第二单词串列表上的单词串的子集单词串出现的次数;及基于所述分析所述单词串列表和所述第二单词串列表的步骤,返回一个列表。50.如权利要求49所述的计算机设备,其特征在于,所述分析所述单词串列表和所述第二单词串列表的步骤包括,如果单词串是处于相同返回列表上的较长单词串的子集,则忽略该单词串的每次出现来修改所述出现次数。51.如权利要求49所述的计算机设备,其特征在于,以第一种语言表达的单词包括第一种语言中的特定单词串,如习语和搭配。52.如权利要求49或50所述的计算机设备,其特征在于,还配置为执行下面的步骤基于用户定义的准则对所述单词串结果列表进行分级。53.如权利要求38所述的计算机可读存储媒体,其特征在于,还配置为执行下面的步骤提供以所述第一种语言表达的文档语料库;在以所述第一种语言表达的所述文档语料库中,识别所述查询的用户定义数量的出现;分析在所述查询的每次所述出现左边和右边的用户定义数量的单词和/或单词串,并识别组成在所述查询左边的用户定义数量的单词和/或单词串、所述查询,及在所述查询右边的用户定义数量的单词和/或单词串的单词串;创建组成所述分析步骤的结果的返回的单词串的列表;单独分析每个返回的单词串,并使用所述提供的翻译识别组成每个所述返回的单词串的每个单词在所述第二种语言中的所有翻译;分析所述文档语料库,查找以所述第二种语言表达的单词串,其中所述分析只识别具有用户定义的最大单词数的单词串,所述分析只识别具有在所述创建步骤中通过用户定义的最少数量的以第一种语言表达的单词获取的翻译的单词串,且所述分析只对以第一种语言表达的所述单词中的每个的一个翻译进行计数;从对所述文档语料库进行的所述分析中,返回以所述第二种语言表达的所述单词串的列表作为单词串结果;分析所述单词串列表和所述第二单词串列表来识别所述单词串列表上的每个单词串作为在所述第二单词串列表上的单词串的子集单词串出现的次数;及基于所述分析所述单词串列表和所述第二单词串列表的步骤,返回一个列表。54.如权利要求53所述的计算机媒体,其特征在于,所述分析所述单词串列表和所述第二单词串列表的步骤包括,如果单词串是处于相同返回列表上的较长单词串的子集,则忽略该单词串的每次出现来修改所述出现次数。55.如权利要求53所述的计算机媒体,其特征在于,以第一种语言表达的单词包括第一种语言中的特定单词串,如习语和搭配。56.如权利要求53所述的计算机媒体,其特征在于,还配置为执行下面的步骤基于用户定义的准则对所述单词串结果列表进行分级。57.一种对关联进行记号化,以便进行高效的信息传输的方法,其特征在于,所述方法包括下面的步骤创建关联;及通过指定等价于所述关联的记号来记号化所述关联;所述创建关联包括使用以第二种语言表达的单词和/或单词串,提供以第一种言表达的单词串的翻译;提供以所述第二种语言表达的文档语料库;接收要分析的查询,所述查询以源语言表达,所述查询由单词或单词串组成;对所述查询,使用所述提供的翻译,识别组成所述单词串查询的每个单词在所述第二种语言中的所有翻译;分析所述文档语料库,查找以所述第二种语言表达的单词串,其中所述分析只识别具有用户定义的最大单词数的单词串,所述分析只识别具有在所述识别步骤中通过用户定义的最少数量的以第一种语言表达的单词获取的翻译的单词串,且所述分析只对以第一种语言表达的所述单词中的每个的一个翻译进行计数;从对所述文档语料库进行的所述分析中,返回以所述第二种语言表达的所述单词串的列表作为结果;提供以所述第一种语言表达的文档语料库;在以所述第一种语言表达的所述文档语料库中,识别所述查询的用户定义数量的出现;分析在所述查询的每次所述出现左边和右边的用户定义数量的单词和/或单词串,并识别组成在所述查询左边的用户定义数量的单词和/或单词串、所述查询,及在所述查询右边的用户定义数量的单词和/或单词串的单词串;创建组成所述分析步骤的结果的返回的单词串的列表;单独分析每个返回的单词串,并使用所述提供的翻译识别组成每个所述返回的单词串的每个单词在所述第二种语言中的所有翻译;分析所述文档语料库,查找以所述第二种语言表达的单词串,其中所述分析只识别具有用户定义的最大单词数的单词串,所述分析只识别具有在所述创建步骤中通过用户定义的最少数量的以第一种语言表达的单词获取的翻译的单词串,且所述分析只对以第一种语言表达的所述单词中的每个的一个翻译进行计数;从对所述文档语料库进行的所述分析中,返回以所述第二种语言表达的所述单词串的列表作为单词串结果;分析所述单词串列表和所述第二单词串列表来识别所述单词串列表上的每个单词串作为在所述第二单词串列表上的单词串的子集单词串出现的次数;及基于所述分析所述单词串列表和所述第二单词串列表的步骤,返回一个列表。58.如权利要求57所述的方法,其特征在于,还包括将所述记号从一个位置发送到第二位置或多个第二位置;在所述第二位置或多个第二位置,分析所述指定的记号来识别所述关联;及向用户提供所述关联。59.如权利要求57所述的方法,其特征在于,以第一种语言表达的单词包括第一种语言中的特定单词串,如习语和搭配。60.一种获取关联概念知识库的方法,其特征在于,所述方法包括步骤使用以目标语言表达的单词串,提供以源语言表达的单词串的翻译;接收以所述源语言表达的两个内容片段,其中所述第一片段和所述第二片段具有所述内容的重叠部分;使用所述单词串的翻译,翻译所述第一内容片段,从而返回以所述目标语言表达的第三片段;使用所述单词串的翻译,翻译所述第二内容片段,从而返回以所述目标语言表达的第四片段;分析所述第三片段和所述第四片段,确定所述第三片段和所述第四片段是否具有重叠部分;如果所述第三片段和所述第四片段具有重叠部分,则关联所述第三片段和所述第四片段的重叠部分与所述第一片段和所述第二片段的重叠部分;及如果所述第三片段和所述第四片段具有重叠部分,则关联所述第三片段和所述第四片段合并所述重叠部分组合得到的单个目标语言单词串与所述第一片段和所述第二片段合并所述重叠部分组合得到的单个源语言单词串。61.一种计算机设备,所述计算机设备包括处理器、连接到所述处理器的存储器,及存储在所述存储器中的程序,其特征在于,所述计算机配置为执行所述程序并执行下面的步骤使用以目标语言表达的单词串,提供以源语言表达的单词串的翻译;接收以所述源语言表达的两个内容片段,其中所述第一片段和所述第二片段具有所述内容的重叠部分;使用所述单词串的翻译,翻译所述第一内容片段,从而返回以所述目标语言表达的第三片段;使用所述单词串的翻译,翻译所述第二内容片段,从而返回以所述目标语言表达的第四片段;分析所述第三片段和所述第四片段,确定所述第三片段和所述第四片段是否具有重叠部分;如果所述第三片段和所述第四片段具有重叠部分,则关联所述第三片段和所述第四片段的重叠部分与所述第一片段和所述第二片段的重叠部分;及如果所述第三片段和所述第四片段具有重叠部分,则关联所述第三片段和所述第四片段合并所述重叠部分组合得到的单个目标语言单词串与所述第一片段和所述第二片段合并所述重叠部分组合得到的单个源语言单词串。62.一种计算机可读的存储媒体,可由计算机处理器执行的程序存储在其上,其特征在于,所述程序用于执行下面的步骤使用以目标语言表达的单词串,提供以源语言表达的单词串的翻译;接收以所述源语言表达的两个内容片段,其中所述第一片段和所述第二片段具有所述内容的重叠部分;使用所述单词串的翻译,翻译所述第一内容片段,从而返回以所述目标语言表达的第三片段;使用所述单词串的翻译,翻译所述第二内容片段,从而返回以所述目标语言表达的第四片段;分析所述第三片段和所述第四片段,确定所述第三片段和所述第四片段是否具有重叠部分;如果所述第三片段和所述第四片段具有重叠部分,则关联所述第三片段和所述第四片段的重叠部分与所述第一片段和所述第二片段的重叠部分;及如果所述第三片段和所述第四片段具有重叠部分,则关联所述第三片段和所述第四片段合并所述重叠部分组合得到的单个目标语言单词串与所述第一片段和所述第二片段合并所述重叠部分组合得到的单个源语言单词串。63.一种对关联进行记号化,以便进行高效的信息传输的方法,其特征在于,所述方法包括下面的步骤创建关联;及通过指定等价于所述关联的记号来记号化所述关联;所述创建关联包括使用以目标语言表达的单词串,提供以源语言表达的单词串的翻译;接收以所述源语言表达的两个内容片段,其中所述第一片段和所述第二片段具有所述内容的重叠部分;使用所述单词串的翻译,翻译所述第一内容片段,从而返回以所述目标语言表达的第三片段;使用所述单词串的翻译,翻译所述第二内容片段,从而返回以所述目标语言表达的第四片段;分析所述第三片段和所述第四片段,确定所述第三片段和所述第四片段是否具有重叠部分;如果所述第三片段和所述第四片段具有重叠部分,则关联所述第三片段和所述第四片段的重叠部分与所述第一片段和所述第二片段的重叠部分;及如果所述第三片段和所述第四片段具有重叠部分,则关联所述第三片段和所述第四片段合并所述重叠部分组合得到的单个目标语言单词串与所述第一片段和所述第二片段合并所述重叠部分组合得到的单个源语言单词串。64.如权利要求63所述的方法,其特征在于,还包括将所述记号从一个位置发送到第二位置或多个第二位置;在所述第二位置或多个第二位置,分析所述指定的记号来识别所述关联;及向用户提供所述关联。65.一种转换内容和重建知识库的方法,其特征在于,所述方法包括下面的步骤a.接收以第一种语言表达的内容;b.将所述以第一种语言表达的内容解析为多个片段;c.选择第一片段和第二片段,所述第一片段与所述第二片段具有所述内容的重叠部分;d.访问以第二种语言表达的所述内容中的第一目标片段,所述第一目标片段对应于所述第一片段和第二片段中的一个;e.访问以第二种语言表达的所述内容中的第二目标片段,所述第二目标片段对应于所述第一片段和第二片段中的另一个,并且与所述第一个目标片段具有重叠部分;f.基于所述第一目标片段和第二目标片段合并重叠部分得到的组合,确定以第二种语言表达的所述内容;g.提供以所述第二种语言表达的所述内容;及h.对多个片段中的全部,重复步骤c至g,其中将所述第二片段指定为第一片段,且将与所述第二片段具有重叠部分的下一片段指定为第二片段;及i.对所述多个片段中的所有下一片段,重复步骤h,直到将所述内容全部转换为所述第二种语言。66.一种通过重建知识库来转换文档内容的方法,其特征在于,所述方法包括下面的步骤利用第一种语言和第二种语言的内容之间的片段关联数据库,其中所述转换包括用它们在所述第二种语言中具有重叠内容片段的对应翻译来解析和检查所述第一种语言的文档内容的重叠片段;通过所述检查的第一种语言内容和所述检查的第二种语言的内容,合并重叠的片段,及在合并重叠片段之后关联所述第一种语言的内容与所述第二种语言的内容。67.一种转换文档和重建知识库的方法,其特征在于,所述方法包括下面的步骤a.提供包括第一种语言的数据片段及与其关联的第二种语言的数据片段的内容;b.从要翻译的文档中,选择开始于文档的第一个单词并存在于数据库中的第一种语言的数据片段;c.从数据库中检索与所定位的第一种语言的第一片段关联的第二种语言的片段;d.选择至少一个与先前划分出的第一种语言的片段具有一个或多个重叠部分的在第一种语言中划分出的第二片段;e.从数据库中检索与选择的第一种语言的第二片段关联的第二种语言的第二片段;f.返回第一种语言中的两个数据片段,并合并重叠部分,使它们成为第一种语言的单个数据片段;g.如果第二种语言的两个数据片段具有重叠部分,则返回,第二种语言中通过合并重叠部分得到的单个数据片段;及h.关联所述第一种语言的所述单个数据片段与所述第二种语言的所述单个数据片段,从而返回所述单个数据片段从所述第一种语言到所述第二种语言的转换。68.如权利要求67所述的方法,其特征在于,还包括指定第一种语言的文档中与第一种语言的前一个数据片段重叠的下一个数据片段作为第一种语言中划分出的第二片段,重复步骤d至h。69.如权利要求68所述的方法,其特征在于,还包括对第一种语言的文档中与第一种语言的前一个数据片段重叠的所有下一个数据片段,重复步骤d至h,直到转换完整个文档。70.如权利要求67所述的方法,其特征在于,所述片段以一个单词或多个单词的形式出现。71.如权利要求67所述的方法,其特征在于,所述片段以多个单词的形式出现。72.一种转换文档的方法,其特征在于,所述方法包括下面的步骤a.提供包括第一种语言的数据片段及与其关联的第二种语言的数据片段的内容;b.从要翻译的文档中,选择开始于文档的第一个单词并存在于数据库中的第一种语言的数据片段;c.从数据库中检索与所定位的第一种语言的第一片段关联的第二种语言的片段;d.选择至少一个与先前划分出的第一种语言的片段具有一个或多个重叠部分的在第一种语言中划分出的第二片段;e.从数据库中检索与选择出的第一种语言的第二片段关联的第二种语言的第二片段,所述选择出的第一种语言的第二片段与该片段在第二种语言中具有重叠部分;及f.合并重叠部分组合第二种语言的两个片段来构成第一种语言的两个片段合并重叠部分之后的翻译。73.如权利要求72所述的方法,其特征在于,还包括指定下一个片段作为划分出的第二片段,重复步骤d至f,直到将文档完全转换为第二种语言。74.一种计算机设备,所述计算机设备包括处理器、连接到所述处理器的存储器,及存储在所述存储器中的程序,其特征在于,所述计算机配置为执行所述程序并执行下面的步骤a.接收以第一种语言表达的内容;b.将所述以第一种语言表达的内容解析为多个片段;c.选择第一片段和第二片段,所述第一片段与所述第二片段具有所述内容的重叠部分;d.访问以第二种语言表达的所述内容中的第一目标片段,所述第一目标片段对应于所述第一片段和第二片段中的一个;e.访问以第二种语言表达的所述内容中的第二目标片段,所述第二目标片段对应于所述第一片段和第二片段中的另一个,并且与所述第一个目标片段具有重叠部分;f.基于所述第一目标片段和第二目标片段合并重叠部分得到的组合,确定以第二种语言表达的所述内容;g.提供以所述第二种语言表达的所述内容;及h.对多个片段中的全部,重复步骤c至g,其中将所述第二片段指定为第一片段,且将与所述第二片段具有重叠部分的下一片段指定为第二片段;及i.对所述多个片段中的所有下一片段,重复步骤h,直到将所述内容全部转换为所述第二种语言。75.一种计算机设备,所述计算机设备包括处理器、连接到所述处理器的存储器,及存储在所述存储器中的程序,其特征在于,所述计算机配置为执行所述程序并执行下面的步骤a.提供包括第一种语言的数据片段及与其关联的第二种语言的数据片段的内容;b.从要翻译的文档中,选择开始于文档的第一个单词并存在于数据库中的第一种语言的数据片段;c.从数据库中检索与所定位的第一种语言的第一片段关联的第二种语言的片段;d.选择至少一个与先前划分出的第一种语言的片段具有一个或多个重叠部分的在第一种语言中划分出的第二片段;e.从数据库中检索与选择的第一种语言的第二片段关联的第二种语言的第二片段;f.返回第一种语言中的两个数据片段,并合并重叠部分,使它们成为第一种语言的单个数据片段;g.如果第二种语言的两个数据片段具有重叠部分,则返回,第二种语言中通过合并重叠部分得到的单个数据片段;及h.关联所述第一种语言的所述单个数据片段与所述第二种语言的所述单个数据片段,从而返回所述单个数据片段从所述第一种语言到所述第二种语言的转换。76.如权利要求75所述的计算机设备,其特征在于,还配置为指定第一种语言的文档中与第一种语言的前一个数据片段重叠的下一个数据片段作为第一种语言中划分出的第二片段,重复步骤d至h。77.如权利要求76所述的计算机设备,其特征在于,还配置为对第一种语言的文档中与第一种语言的前一个数据片段重叠的所有下一个数据片段,重复步骤d至h,直到转换完整个文档的内容。78.如权利要求75所述的计算机设备,其特征在于,所述片段以一个单词或多个单词的形式出现。79.如权利要求75所述的计算机设备,其特征在于,所述片段以多个单词的形式出现。80.一种计算机设备,所述计算机设备包括处理器、连接到所述处理器的存储器,及存储在所述存储器中的程序,其特征在于,所述计算机配置为执行所述程序并执行下面的步骤a.接收以第一种语言表达的内容;b.将所述以第一种语言表达的内容解析为多个片段;c.选择第一片段和第二片段,所述第一片段与所述第二片段具有所述内容的重叠部分;d.访问以第二种语言表达的所述内容中的第一目标片段,所述第一目标片段对应于所述第一片段和第二片段中的一个;e.从数据库中检索与选择出的第一种语言的第二片段关联的第二种语言的第二片段,所述选择出的第一种语言的第二片段与该片段在第二种语言中具有重叠部分;及f.合并重叠部分组合第二种语言的两个片段来构成第一种语言的两个片段合并重叠部分之后的翻译。81.如权利要求80所述的计算机设备,其特征在于,还配置为指定下一个片段作为划分出的第二片段,重复步骤d至f,直到将文档完全转换为第二种语言。82.一种计算机可读的存储媒体,可由计算机处理器执行的程序存储在其上,其特征在于,所述程序用于执行下面的步骤a.接收以第一种语言表达的内容;b.将所述以第一种语言表达的内容解析为多个片段;c.选择第一片段和第二片段,所述第一片段与所述第二片段具有所述内容的重叠部分;d.访问以第二种语言表达的所述内容中的第一目标片段,所述第一目标片段对应于所述第一片段和第二片段中的一个;e.访问以第二种语言表达的所述内容中的第二目标片段,所述第二目标片段对应于所述第一片段和第二片段中的另一个,并且与所述第一个目标片段具有重叠部分;f.基于所述第一目标片段和第二目标片段合并重叠部分得到的组合,确定以第二种语言表达的所述内容;g.提供以所述第二种语言表达的所述内容;及h.对多个片段中的全部,重复步骤c至g,其中将所述第二片段指定为第一片段,且将与所述第二片段具有重叠部分的下一片段指定为第二片段;及i.对所述多个片段中的所有下一片段,重复步骤h,直到将所述内容全部转换为所述第二种语言。83.一种计算机可读的存储媒体,可由计算机处理器执行的程序存储在其上,其特征在于,所述程序用于执行下面的步骤a.提供包括第一种语言的数据片段及与其关联的第二种语言的数据片段的内容;b.从要翻译的文档中,选择开始于文档的第一个单词并存在于数据库中的第一种语言的数据片段;c.从数据库中检索与所定位的第一种语言的第一片段关联的第二种语言的片段;d.选择至少一个与先前划分出的第一种语言的片段具有一个或多个重叠部分的在第一种语言中划分出的第二片段;e.从数据库中检索与选择的第一种语言的第二片段关联的第二种语言的第二片段;f.返回第一种语言中的两个数据片段,并合并重叠部分,使它们成为第一种语言的单个数据片段;g.如果第二种语言的两个数据片段具有重叠部分,则返回,第二种语言中通过合并重叠部分得到的单个数据片段;及h.关联所述第一种语言的所述单个数据片段与所述第二种语言的所述单个数据片段,从而返回所述单个数据片段从所述第一种语言到所述第二种语言的转换。84.如权利要求83所述的计算机媒体,其特征在于,还配置为指定第一种语言的文档中与第一种语言的前一个数据片段重叠的下一个数据片段作为第一种语言中划分出的第二片段,重复步骤d至h。85.如权利要求84所述的计算机媒体,其特征在于,还配置为对第一种语言的文档中与第一种语言的前一个数据片段重叠的所有下一个数据片段,重复步骤d至h,直到转换完整个文档的内容。86.如权利要求84所述的计算机媒体,其特征在于,所述片段以一个单词或多个单词的形式出现。87.如权利要求83所述的计算机媒体,其特征在于,所述片段以多个单词的形式出现。88.一种计算机可读的存储媒体,可由计算机处理器执行的程序存储在其上,其特征在于,所述程序用于执行下面的步骤a.提供包括第一种语言的数据片段及与其关联的第二种语言的数据片段的内容;b.从要翻译的文档中,选择开始于文档的第一个单词并存在于数据库中的第一种语言的数据片段;c.从数据库中检索与所定位的第一种语言的第一片段关联的第二种语言的片段;d.选择至少一个与先前划分出的第一种语言的片段具有一个或多个重叠部分的在第一种语言中划分出的第二片段;e.从数据库中检索与选择出的第一种语言的第二片段关联的第二种语言的第二片段,所述选择出的第一种语言的第二片段与该片段在第二种语言中具有重叠部分;及f.合并重叠部分组合第二种语言的两个片段来构成第一种语言的两个片段合并重叠部分之后的翻译。89.如权利要求88所述的计算机媒体,其特征在于,还配置为指定下一个片段作为划分出的第二片段,重复步骤d至f,直到将文档完全转换为第二种语言。90.一种转换内容和重建知识库的计算机系统,其特征在于,所述系统包括a.接收以第一种语言表达的内容,并将所述内容解析为至少一个第一片段和第二片段的计算设备,所述第一片段具有第一部分,所述第二片段具有第二部分,所述第一部分和所述第二部分具有所述内容的重叠部分;b.所述计算设备访问所述内容中以第二种语言表达的第三和第四片段,所述第三片段对应于所述第一片段和第二片段中的一个,所述第四片段对应于另一个,并且具有与所述第三片段重叠的部分;及c.所述计算设备基于具有重叠部分的所述第三和第四片段确定以第二种语言表达的所述内容,并以第二种语言提供所述内容。91.如权利要求90所述的计算机系统,其特征在于,还包括存储所述第三和第三片段的数据库系统,其中所述计算机设备通过所述数据库系统访问所述第三和第四片段。92.如权利要求90所述的计算机系统,其特征在于,指定内容的所述第二片段作为内容在第一种语言中的第一个片段,且指定在第一种语言中具有与指定的第一种语言的第一片段重叠部分的下一内容片段为内容在第一种语言中的第二片段,并对内容的每个下一片段重复步骤a至c,直到转换完整个内容。93.一种创建单种语言的频率关联数据库的方法,其特征在于,所述方法包括提供一组文档,其中所述文档包括至少一个文档;从用户处接收要分析的单词或单词串查询;搜索所述的这组文档,查找所述查询的出现;创建出现在距所述查询达用户定义单词数的范围内的单词和单词串的列表;及用表格列出出现距所述查询达用户定义单词数的范围内的所有重现单词和单词串的出现频率。94.如权利要求93所述的方法,其特征在于,还包括创建所述出现在距所述查询达用户定义单词数的范围内的单词和单词串的邻近程度列表的步骤。95.如权利要求93所述的方法,其特征在于,还包括关联所述单词列表上的两个或多个单词或单词串或两者。96.如权利要求93或94所述的方法,其特征在于,向用户返回所述单词和单词串列表、所述出现频率列表,及所述单词和单词串邻近程度列表中的一个或多个。97.一种计算机设备,所述计算机设备包括处理器、连接到所述处理器的存储器,及存储在所述存储器中的程序,其特征在于,所述计算机配置为执行所述程序并执行下面的步骤提供一组文档,其中所述文档包括至少一个文档;从用户处接收要分析的单词或单词串查询;搜索所述的这组文档,查找所述查询的出现;创建出现在距所述查询达用户定义单词数的范围内的单词和单词串的列表;及用表格列出出现距所述查询达用户定义单词数的范围内的所有重现单词和单词串的出现频率。98.如权利要求97所述的计算机设备,其特征在于,还配置为创建所述出现在距所述查询达用户定义单词数的范围内的单词和单词串的邻近程度列表。99.如权利要求97所述的计算机设备,其特征在于,还包括关联所述单词列表上的两个或多个单词或单词串或两者。100.如权利要求97或98所述的计算机设备,其特征在于,向用户返回所述单词和单词串列表、所述出现频率列表,及所述单词和单词串邻近程度列表中的一个或多个。101.一种计算机可读的存储媒体,可由计算机处理器执行的程序存储在其上,其特征在于,所述程序用于执行下面的步骤提供一组文档,其中所述文档包括至少一个文档;从用户处接收要分析的单词或单词串查询;搜索所述的一组文档,查找所述查询的出现;创建出现在距所述查询达用户定义单词数的范围内的单词和单词串的列表;及用表格列出出现距所述查询达用户定义单词数的范围内的所有重现单词和单词串的出现频率。102.如权利要求101所述的计算机媒体,其特征在于,还包括执行创建所述出现在距所述查询达用户定义单词数的范围内的单词和单词串的邻近程度列表的步骤。103.如权利要求101所述的计算机媒体,其特征在于,还包括关联所述单词列表上的两个或多个单词或单词串或两者。104.如权利要求101或102所述的计算机媒体,其特征在于,向用户返回所述单词和单词串列表、所述出现频率列表,及所述单词和单词串邻近程度列表中的一个或多个。105.如权利要求93所述的方法,其特征在于,还包括从用户处接收要分析的第二个单词或单词串查询;搜索所述的一组文档,查找所述第二个查询的出现;创建出现在距所述第二个查询达用户定义单词数的范围内的单词和单词串的第二个列表;创建出现在距所述第二个查询达用户定义单词数的范围内的所有重现单词和单词串的出现频率的第二个列表;创建出现在距所述查询达用户定义单词数的范围内和距所述第二个查询达用户定义单词数的范围内的所述单词和单词串列表和所述第二个单词和单词串列表两者上的单词和单词串的第三个列表;及将所述第三个列表上的单词和单词串与所述第一个查询和所述第二个查询关联。106.如权利要求105所述的方法,其特征在于,根据用户定义的准则修改所述第三个单词和单词串列表。107.如权利要求105所述的方法,其特征在于,基于用户定义的参数对所述第三个单词和单词串列表进行分级。108.如权利要求97所述的计算机设备,其特征在于,还配置为执行下面的步骤从用户处接收要分析的第二个单词或单词串查询;搜索所述的一组文档,查找所述第二个查询的出现;创建出现在距所述第二个查询达用户定义单词数的范围内的单词和单词串的第二个列表;创建出现在距所述第二个查询达用户定义单词数的范围内的所有重现单词和单词串的出现频率的第二个列表;创建出现在距所述查询达用户定义单词数的范围内和距所述第二个查询达用户定义单词数的范围内的所述单词和单词串列表和所述第二个单词和单词串列表两者上的单词和单词串的第三个列表;及将所述第三个列表上的单词和单词串与所述第一个查询和所述第二个查询关联。109.如权利要求108所述的计算机设备,其特征在于,根据用户定义的准则修改所述第三个单词和单词串列表。110.如权利要求108所述的计算机设备,其特征在于,基于用户定义的参数对所述第三个单词和单词串列表进行分级。111.如权利要求101所述的计算机媒体,其特征在于,还包括从用户处接收要分析的第二个单词或单词串查询;搜索所述的一组文档,查找所述第二个查询的出现;创建出现在距所述第二个查询达用户定义单词数的范围内的单词和单词串的第二个列表;创建出现在距所述第二个查询达用户定义单词数的范围内的所有重现单词和单词串的出现频率的第二个列表;创建出现在距所述查询达用户定义单词数的范围内和距所述第二个查询达用户定义单词数的范围内的所述单词和单词串列表和所述第二个单词和单词串列表两者上的单词和单词串的第三个列表;及将所述第三个列表上的单词和单词串与所述第一个查询和所述第二个查询关联。112.如权利要求111所述的计算机媒体,其特征在于,根据用户定义的准则修改所述第三个单词和单词串列表。113.如权利要求111所述的计算机媒体,其特征在于,基于用户定义的参数对所述第三个单词和单词串列表进行分级。114.一种关联一种语言中的单词的方法,其特征在于,所述方法包括提供一组文档,其中所述的一组文档中至少包括一个文档;选择第一个单词或单词串,及第二个单词或单词串;定位其中第一个单词或单词串出现在与第二个单词或单词串具有邻近程度的范围内的所有文档,所述定义的邻近程度的范围具有上限和下限;在所定位的文档中定义范围,其中相对于第一个单词或单词串和第二个单词或单词串定义所述范围;搜索所述范围,查找重现单词和单词串;及基于重现单词和单词串在所述范围内的出现频率,关联第一个单词或单词串和第二个单词或单词串与重现单词和单词串。115.如权利要求114所述的方法,其特征在于,通过单词或单词串更高的出现频率增强所述关联第一个单词或单词串和第二个单词或单词串。116.如权利要求114所述的方法,其特征在于,通过单词或单词串更低的出现频率增强所述关联第一个单词或单词串和第二个单词或单词串。117.如权利要求114所述的方法,其特征在于,所述定义的邻近程度的范围的所述上限和所述下限是相等的。118.一种计算机设备,所述计算机设备包括处理器、连接到所述处理器的存储器,及存储在所述存储器中的程序,其特征在于,所述计算机配置为执行所述程序并执行下面的步骤提供一组文档,其中所述的一组文档中至少包括一个文档;选择第一个单词或单词串,及第二个单词或单词串;定位其中第一个单词或单词串出现在与第二个单词或单词串具有邻近程度的范围内的所有文档,所述定义的邻近程度的范围具有上限和下限;在所定位的文档中定义范围,其中相对于第一个单词或单词串和第二个单词或单词串定义所述范围;搜索所述范围,查找重现单词和单词串;及基于重现单词和单词串在所述范围内的出现频率,关联第一个单词或单词串和第二个单词或单词串与重现单词和单词串。119.如权利要求118所述的计算机设备,其特征在于,通过单词或单词串更高的出现频率增强所述关联第一个单词或单词串和第二个单词或单词串。120.如权利要求118所述的计算机设备,其特征在于,通过单词或单词串更低的出现频率增强所述关联第一个单词或单词串和第二个单词或单词串。121.如权利要求118所述的计算机设备,其特征在于,所述定义的邻近程度的范围的所述上限和所述下限是相等的。122.一种计算机可读的存储媒体,可由计算机处理器执行的程序存储在其上,其特征在于,所述程序用于执行下面的步骤提供一组文档,其中所述的一组文档中至少包括一个文档;选择第一个单词或单词串,及第二个单词或单词串;定位其中第一个单词或单词串出现在与第二个单词或单词串具有邻近程度的范围内的所有文档,所述定义的邻近程度的范围具有上限和下限;在所定位的文档中定义范围,其中相对于第一个单词或单词串和第二个单词或单词串定义所述范围;搜索所述范围,查找重现单词和单词串;及基于重现单词和单词串在所述范围内的出现频率,关联第一个单词或单词串和第二个单词或单词串与重现单词和单词串。123.如权利要求122所述的计算机媒体,其特征在于,通过单词或单词串更高的出现频率增强所述关联第一个单词或单词串和第二个单词或单词串。124.如权利要求122所述的计算机媒体,其特征在于,通过单词或单词串更低的出现频率增强所述关联第一个单词或单词串和第二个单词或单词串。125.如权利要求122所述的计算机媒体,其特征在于,所述定义的邻近程度的范围的所述上限和所述下限是相等的。126.如权利要求114所述的方法,其特征在于,还包括指定第一个单词或单词串或者第二个单词或单词串作为第一个单词或单词串;选择第三单词或单词串,其中所述第三单词或单词串是所述关联步骤的一个结果,并指定此结果作为第二个单词或单词串;及重复所述选择、定位、定义、搜索和关联步骤。127.如权利要求118所述的计算机设备,其特征在于,还配置为指定第一个单词或单词串或者第二个单词或单词串作为第一个单词或单词串;选择第三单词或单词串,其中所述第三单词或单词串是所述关联步骤的一个结果,并指定此结果作为第二个单词或单词串;及重复所述选择、定位、定义、搜索和关联步骤。128.如权利要求122所述的计算机媒体,其特征在于,还配置为指定第一个单词或单词串或者第二个单词或单词串作为第一个单词或单词串;选择第三单词或单词串,其中所述第三单词或单词串是所述关联步骤的一个结果,并指定此结果作为第二个单词或单词串;及重复所述选择、定位、定义、搜索和关联步骤。129.如权利要求105所述的方法,其特征在于,还包括指定第一个单词或单词串查询或者第二个单词或单词串查询作为第一个单词或单词串查询;选择第三单词或单词串,其中所述第三单词或单词串是所述关联单词和单词串步骤的一个结果,并指定此结果作为第二个单词或单词串关联;及重复所述搜索、创建第二个单词和单词串列表、创建第二个出现频率列表、创建第三个单词和单词串列表,和关联步骤。130.如权利要求108所述的计算机设备,其特征在于,还包括指定第一个单词或单词串查询或者第二个单词或单词串查询作为第一个单词或单词串查询;选择第三单词或单词串,其中所述第三单词或单词串是所述关联单词和单词串步骤的一个结果,并指定此结果作为第二个单词或单词串关联;及重复所述搜索、创建第二个单词和单词串列表、创建第二个出现频率列表、创建第三个单词和单词串列表,和关联步骤。131.如权利要求111所述的计算机设备,其特征在于,还包括指定第一个单词或单词串查询或者第二个单词或单词串查询作为第一个单词或单词串查询;选择第三单词或单词串,其中所述第三单词或单词串是所述关联单词和单词串步骤的一个结果,并指定此结果作为第二个单词或单词串关联;及重复所述搜索、创建第二个单词和单词串列表、创建第二个出现频率列表、创建第三个单词和单词串列表,和关联步骤。132.一种关联一种语言中的单词和单词串的方法,其特征在于,所述方法包括a.提供一组文档,其中所述一组文档至少包括一个文档;b.从用户处接收要分析的单词或单词串查询;c.搜索所述一组文档,查找要分析的查询,并返回包含要分析的查询的文档;d.在所述返回的文档中,基于它们的频率,确定位于所述要分析的查询左边的用户定义数量的单词或单词串或两者,并创建包括在所述返回的文档中位于所述要分析的查询左边的所述单词或单词串或两者的左签名列表;e.搜索所述一组文档,查找在所述左签名列表上的单词和单词串;f.确定位于所述左签名列表上的所述单词或单词串或两者右边的用户定义数量的单词或单词串或两者,并基于它们在一组文档中的频率,创建包括位于所述左签名列表上的所述单词或单词串或两者右边的所述单词或单词串或两者的左锚点列表;g.在所述返回的文档中,确定位于所述要分析的查询右边的用户定义数量的单词或单词串或两者,并基于它们的频率,创建包括在所述返回的文档中位于所述要分析的查询右边的所述单词或单词串或两者的右签名列表;h.搜索所述一组文档,查找在所述右签名列表上的单词和单词串;i.确定位于所述右签名列表上的所述单词或单词串或两者左边的用户定义数量的单词或单词串或两者,并基于它们的频率,创建包括位于所述右签名列表上的所述单词或单词串或两者左边的所述单词或单词串或两者的右锚点列表;j.基于出现在所述左锚点列表上的每个单词或单词串的频率,以及出现在所述右锚点列表上的所述单词或单词串的频率,对结果进行分级。133.如权利要求132所述的方法,其特征在于,所述对结果进行分级包括用出现在所述左锚点列表上的每个单词或单词串的总频率与出现在所述右锚点列表上的所述单词或单词串的总频率相乘。134.如权利要求132所述的方法,其特征在于,所述对结果进行分级包括,对每个出现在至少一个左锚点列表和至少一个右锚点列表上的单词或单词串,用出现在所述左锚点列表上的每个单词或单词串的总频率与出现在所述右锚点列表上的所述单词或单词串的总频率相加。135.如权利要求133所述的方法,其特征在于,所述对结果进行的分级基于所述单词或单词串所处的左锚点列表和总数右锚点列表的总数。136.如权利要求133所述的方法,其特征在于,所述对结果进行的分级基于用户定义的参数。137.如权利要求133所述的方法,其特征在于,通过指定所述结果作为新查询,重复步骤a至j来确定并返回新查询的结果,并基于查询在新查询的结果列表上的分级修改所述查询的结果的所述分级,来修改所述对结果进行的分级。138.如权利要求133所述的方法,其特征在于,通过指定所述结果作为新查询,重复步骤a至j来确定并返回新查询的结果,并基于查询在新查询的结果列表上的分级修改所述查询的所述结果,来修改所述结果。139.如权利要求133所述的方法,其特征在于,通过指定多个所述结果中的每一个作为新查询,重复步骤a至j来确定并返回多个新查询的结果中的每一个,并基于查询和结果两者一起出现于其中的新查询列表的数量修改所述查询的所述结果,来修改所述结果。140.如权利要求133所述的方法,其特征在于,通过指定多个所述结果中的每一个作为新查询,重复步骤a至j来确定并返回多个新查询的结果中的每一个,并基于查询和结果两者一起出现于其中的新查询列表的数量修改所述查询的结果的所述分级,来修改所述对结果进行的分级。141.如权利要求133所述的方法,其特征在于,通过自动所述结果中的每一个作为新查询,重复步骤a至j来确定并返回结果每个新查询的结果,并基于查询和所述结果在新查询的列表上的分级,修改所述查询的结果的分级,来修改所述对结果进行的分级。142.如权利要求133所述的方法,其特征在于,通过自动所述结果中的每一个作为新查询,并重复步骤a至j来确定并返回结果每个新查询的结果,并基于查询和所述结果在新查询的列表上的分级修改所述查询的所述结果,来修改结果。143.如权利要求133所述的方法,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于未出现在查询的左签名列表和/或右签名列表上的新查询的左签名列表上的单词和单词串和/或右签名列表上的单词和单词串修改所述查询的所述结果的所述分级,来修改所述对结果进行的分级。144.如权利要求133所述的方法,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于未出现在查询的左签名列表和/或右签名列表上的新查询的左签名列表上的单词和单词串和/或右签名列表上的单词和单词串修改所述查询的所述结果,来修改所述结果。145.如权利要求133所述的方法,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于未出现在新查询的左签名列表和/或右签名列表上的查询的左签名列表上的单词和单词串和/或右签名列表上的单词和单词串修改所述查询的所述结果的所述分级,来修改所述对结果进行的分级。146.如权利要求133所述的方法,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于未出现在新查询的左签名列表和/或右签名列表上的查询的左签名列表上的单词和单词串和/或右签名列表上的单词和单词串修改所述查询的所述结果,来修改所述结果。147.如权利要求133所述的方法,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于出现在新查询的右签名列表上的查询的左签名列表上的单词和单词串修改所述查询的所述结果,来修改所述结果。148.如权利要求133所述的方法,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于出现在新查询的右签名列表上的查询的左签名列表上的单词和单词串修改所述查询的结果的所述分级,来修改所述对结果进行的分级。149.如权利要求133所述的方法,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于出现在新查询的左签名列表上的查询的右签名列表上的单词和单词串修改所述查询的所述结果,来修改所述结果。150.如权利要求133所述的方法,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于出现在新查询的右签名列表上的查询的左签名列表上的单词和单词串修改所述查询的结果的所述分级,来修改所述对结果进行的分级。151.如权利要求133所述的方法,其特征在于,还包括下面的附加步骤k.在所述返回的文档中,基于它们的频率,确定位于所述要分析的查询左边的用户定义数量的单词或单词串或两者,并创建包括查询和位于所述查询左边的所述单词或单词串或两者的第二个单词串的列表;l.对第二个单词串的列表上的每个单词串,通过指定第二个单词串的列表上的每个单词串作为新查询并重复步骤c至h,来创建单词和单词串关联列表;m.在所述返回的文档中,基于它们的频率,确定位于所述要分析的查询右边的用户定义数量的单词或单词串或两者,并创建包括查询和位于所述查询右边的所述单词或单词串或两者的第三单词串的第二个列表;n.对第二个第三单词串的列表上的每个单词串,通过指定第二个第三单词串的列表上的每个单词串作为新查询并重复步骤c至j,来创建第二个单词和单词串关联列表;o.确定所述关联列表上与所述第二个关联列表上的单词串具有重叠部分的单词串;及p.将重叠单词串的重叠部分中的单词或单词串识别为查询的同义或近似同义。152.一种计算机设备,所述计算机设备包括处理器、连接到所述处理器的存储器,及存储在所述存储器中的程序,其特征在于,所述计算机配置为执行所述程序并执行下面的步骤a.提供一组文档,其中所述一组文档至少包括一个文档;b.从用户处接收要分析的单词或单词串查询;c.搜索所述一组文档,查找要分析的查询,并返回包含要分析的查询的文档;d.在所述返回的文档中,基于它们的频率,确定位于所述要分析的查询左边的用户定义数量的单词或单词串或两者,并创建包括在所述返回的文档中位于所述要分析的查询左边的所述单词或单词串或两者的左签名列表;e.搜索所述一组文档,查找在所述左签名列表上的单词和单词串;f.确定位于所述左签名列表上的所述单词或单词串或两者右边的用户定义数量的单词或单词串或两者,并基于它们在一组文档中的频率,创建包括位于所述左签名列表上的所述单词或单词串或两者右边的所述单词或单词串或两者的左锚点列表;g.在所述返回的文档中,确定位于所述要分析的查询右边的用户定义数量的单词或单词串或两者,并基于它们的频率,创建包括在所述返回的文档中位于所述要分析的查询右边的所述单词或单词串或两者的右签名列表;h.搜索所述一组文档,查找在所述右签名列表上的单词和单词串;i.确定位于所述右签名列表上的所述单词或单词串或两者左边的用户定义数量的单词或单词串或两者,并基于它们的频率,创建包括位于所述右签名列表上的所述单词或单词串或两者左边的所述单词或单词串或两者的右锚点列表;j.基于出现在所述左锚点列表上的每个单词或单词串的频率,以及出现在所述右锚点列表上的所述单词或单词串的频率,对结果进行分级。153.如权利要求152所述的计算机设备,其特征在于,所述对结果进行分级包括用出现在所述左锚点列表上的每个单词或单词串的总频率与出现在所述右锚点列表上的所述单词或单词串的总频率相乘。154.如权利要求152所述的计算机设备,其特征在于,所述对结果进行分级包括,对每个出现在至少一个左锚点列表和至少一个右锚点列表上的单词或单词串,用出现在所述左锚点列表上的每个单词或单词串的总频率与出现在所述右锚点列表上的所述单词或单词串的总频率相加。155.如权利要求152所述的计算机设备,其特征在于,所述对结果进行的分级基于所述单词或单词串所处的左锚点列表和总数右锚点列表的总数。156.如权利要求152所述的计算机设备,其特征在于,所述对结果进行的分级基于用户定义的参数。157.如权利要求152所述的计算机设备,其特征在于,通过指定所述结果作为新查询,重复步骤a至j来确定并返回新查询的结果,并基于查询在新查询的结果列表上的分级修改所述查询的结果的所述分级,来修改所述对结果进行的分级。158.如权利要求152所述的计算机设备,其特征在于,通过指定所述结果作为新查询,重复步骤a至j来确定并返回新查询的结果,并基于查询在新查询的结果列表上的分级修改所述查询的所述结果,来修改所述结果。159.如权利要求152所述的计算机设备,其特征在于,通过指定多个所述结果中的每一个作为新查询,重复步骤a至j来确定并返回多个新查询的结果中的每一个,并基于查询和结果两者一起出现于其中的新查询列表的数量修改所述查询的所述结果,来修改所述结果。160.如权利要求152所述的计算机设备,其特征在于,通过指定多个所述结果中的每一个作为新查询,重复步骤a至j来确定并返回多个新查询的结果中的每一个,并基于查询和结果两者一起出现于其中的新查询列表的数量修改所述查询的结果的所述分级,来修改所述对结果进行的分级。161.如权利要求152所述的计算机设备,其特征在于,通过自动所述结果中的每一个作为新查询,重复步骤a至j来确定并返回结果每个新查询的结果,并基于查询和所述结果在新查询的列表上的分级,修改所述查询的结果的分级,来修改所述对结果进行的分级。162.如权利要求152所述的计算机设备,其特征在于,通过自动所述结果中的每一个作为新查询,并重复步骤a至j来确定并返回结果每个新查询的结果,并基于查询和所述结果在新查询的列表上的分级修改所述查询的所述结果,来修改结果。163.如权利要求152所述的计算机设备,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于未出现在查询的左签名列表和/或右签名列表上的新查询的左签名列表上的单词和单词串和/或右签名列表上的单词和单词串修改所述查询的所述结果的所述分级,来修改所述对结果进行的分级。164.如权利要求152所述的计算机设备,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于未出现在查询的左签名列表和/或右签名列表上的新查询的左签名列表上的单词和单词串和/或右签名列表上的单词和单词串修改所述查询的所述结果,来修改所述结果。165.如权利要求152所述的计算机设备,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于未出现在新查询的左签名列表和/或右签名列表上的查询的左签名列表上的单词和单词串和/或右签名列表上的单词和单词串修改所述查询的所述结果的所述分级,来修改所述对结果进行的分级。166.如权利要求152所述的计算机设备,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于未出现在新查询的左签名列表和/或右签名列表上的查询的左签名列表上的单词和单词串和/或右签名列表上的单词和单词串修改所述查询的所述结果,来修改所述结果。167.如权利要求152所述的计算机设备,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于出现在新查询的右签名列表上的查询的左签名列表上的单词和单词串修改所述查询的所述结果,来修改所述结果。168.如权利要求152所述的计算机设备,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于出现在新查询的右签名列表上的查询的左签名列表上的单词和单词串修改所述查询的结果的所述分级,来修改所述对结果进行的分级。169.如权利要求152所述的计算机设备,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于出现在新查询的左签名列表上的查询的右签名列表上的单词和单词串修改所述查询的所述结果,来修改所述结果。170.如权利要求152所述的计算机设备,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于出现在新查询的右签名列表上的查询的左签名列表上的单词和单词串修改所述查询的结果的所述分级,来修改所述对结果进行的分级。171.如权利要求152所述的计算机设备,其特征在于,还包括下面的附加步骤k.在所述返回的文档中,基于它们的频率,确定位于所述要分析的查询左边的用户定义数量的单词或单词串或两者,并创建包括查询和位于所述查询左边的所述单词或单词串或两者的第二个单词串的列表;l.对第二个单词串的列表上的每个单词串,通过指定第二个单词串的列表上的每个单词串作为新查询并重复步骤c至h,来创建单词和单词串关联列表;m.在所述返回的文档中,基于它们的频率,确定位于所述要分析的查询右边的用户定义数量的单词或单词串或两者,并创建包括查询和位于所述查询右边的所述单词或单词串或两者的第三单词串的第二个列表;n.对第二个第三单词串的列表上的每个单词串,通过指定第二个第三单词串的列表上的每个单词串作为新查询并重复步骤c至j,来创建第二个单词和单词串关联列表;o.确定所述关联列表上与所述第二个关联列表上的单词串具有重叠部分的单词串;及p.将重叠单词串的重叠部分中的单词或单词串识别为查询的同义或近似同义。172.一种计算机可读的存储媒体,可由计算机处理器执行的程序存储在其上,其特征在于,所述程序用于执行下面的步骤a.提供一组文档,其中所述一组文档至少包括一个文档;b.从用户处接收要分析的单词或单词串查询;c.搜索所述一组文档,查找要分析的查询,并返回包含要分析的查询的文档;d.在所述返回的文档中,基于它们的频率,确定位于所述要分析的查询左边的用户定义数量的单词或单词串或两者,并创建包括在所述返回的文档中位于所述要分析的查询左边的所述单词或单词串或两者的左签名列表;e.搜索所述一组文档,查找在所述左签名列表上的单词和单词串;f.确定位于所述左签名列表上的所述单词或单词串或两者右边的用户定义数量的单词或单词串或两者,并基于它们在一组文档中的频率,创建包括位于所述左签名列表上的所述单词或单词串或两者右边的所述单词或单词串或两者的左锚点列表;g.在所述返回的文档中,确定位于所述要分析的查询右边的用户定义数量的单词或单词串或两者,并基于它们的频率,创建包括在所述返回的文档中位于所述要分析的查询右边的所述单词或单词串或两者的右签名列表;h.搜索所述一组文档,查找在所述右签名列表上的单词和单词串;i.确定位于所述右签名列表上的所述单词或单词串或两者左边的用户定义数量的单词或单词串或两者,并基于它们的频率,创建包括位于所述右签名列表上的所述单词或单词串或两者左边的所述单词或单词串或两者的右锚点列表;j.基于出现在所述左锚点列表上的每个单词或单词串的频率,以及出现在所述右锚点列表上的所述单词或单词串的频率,对结果进行分级。173.如权利要求172所述的计算机媒体,其特征在于,所述对结果进行分级包括用出现在所述左锚点列表上的每个单词或单词串的总频率与出现在所述右锚点列表上的所述单词或单词串的总频率相乘。174.如权利要求172所述的计算机媒体,其特征在于,所述对结果进行分级包括,对每个出现在至少一个左锚点列表和至少一个右锚点列表上的单词或单词串,用出现在所述左锚点列表上的每个单词或单词串的总频率与出现在所述右锚点列表上的所述单词或单词串的总频率相加。175.如权利要求172所述的计算机媒体,其特征在于,所述对结果进行的分级基于所述单词或单词串所处的左锚点列表和总数右锚点列表的总数。176.如权利要求172所述的计算机媒体,其特征在于,所述对结果进行的分级基于用户定义的参数。177.如权利要求172所述的计算机媒体,其特征在于,通过指定所述结果作为新查询,重复步骤a至j来确定并返回新查询的结果,并基于查询在新查询的结果列表上的分级修改所述查询的结果的所述分级,来修改所述对结果进行的分级。178.如权利要求172所述的计算机媒体,其特征在于,通过指定所述结果作为新查询,重复步骤a至j来确定并返回新查询的结果,并基于查询在新查询的结果列表上的分级修改所述查询的所述结果,来修改所述结果。179.如权利要求172所述的计算机媒体,其特征在于,通过指定多个所述结果中的每一个作为新查询,重复步骤a至j来确定并返回多个新查询的结果中的每一个,并基于查询和结果两者一起出现于其中的新查询列表的数量修改所述查询的所述结果,来修改所述结果。180.如权利要求172所述的计算机媒体,其特征在于,通过指定多个所述结果中的每一个作为新查询,重复步骤a至j来确定并返回多个新查询的结果中的每一个,并基于查询和结果两者一起出现于其中的新查询列表的数量修改所述查询的结果的所述分级,来修改所述对结果进行的分级。181.如权利要求172所述的计算机媒体,其特征在于,通过自动所述结果中的每一个作为新查询,重复步骤a至j来确定并返回结果每个新查询的结果,并基于查询和所述结果在新查询的列表上的分级,修改所述查询的结果的分级,来修改所述对结果进行的分级。182.如权利要求172所述的计算机媒体,其特征在于,通过自动所述结果中的每一个作为新查询,并重复步骤a至j来确定并返回结果每个新查询的结果,并基于查询和所述结果在新查询的列表上的分级修改所述查询的所述结果,来修改结果。183.如权利要求172所述的计算机媒体,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于未出现在查询的左签名列表和/或右签名列表上的新查询的左签名列表上的单词和单词串和/或右签名列表上的单词和单词串修改所述查询的所述结果的所述分级,来修改所述对结果进行的分级。184.如权利要求172所述的计算机媒体,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于未出现在查询的左签名列表和/或右签名列表上的新查询的左签名列表上的单词和单词串和/或右签名列表上的单词和单词串修改所述查询的所述结果,来修改所述结果。185.如权利要求172所述的计算机媒体,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于未出现在新查询的左签名列表和/或右签名列表上的查询的左签名列表上的单词和单词串和/或右签名列表上的单词和单词串修改所述查询的所述结果的所述分级,来修改所述对结果进行的分级。186.如权利要求172所述的计算机媒体,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于未出现在新查询的左签名列表和/或右签名列表上的查询的左签名列表上的单词和单词串和/或右签名列表上的单词和单词串修改所述查询的所述结果,来修改所述结果。187.如权利要求172所述的计算机媒体,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于出现在新查询的右签名列表上的查询的左签名列表上的单词和单词串修改所述查询的所述结果,来修改所述结果。188.如权利要求172所述的计算机媒体,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于出现在新查询的右签名列表上的查询的左签名列表上的单词和单词串修改所述查询的结果的所述分级,来修改所述对结果进行的分级。189.如权利要求172所述的计算机媒体,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于出现在新查询的左签名列表上的查询的右签名列表上的单词和单词串修改所述查询的所述结果,来修改所述结果。190.如权利要求172所述的计算机媒体,其特征在于,通过指定所述结果作为新查询,重复步骤a至j,并基于出现在新查询的右签名列表上的查询的左签名列表上的单词和单词串修改所述查询的结果的所述分级,来修改所述对结果进行的分级。191.如权利要求172所述的计算机媒体,其特征在于,还包括下面的附加步骤k.在所述返回的文档中,基于它们的频率,确定位于所述要分析的查询左边的用户定义数量的单词或单词串或两者,并创建包括查询和位于所述查询左边的所述单词或单词串或两者的第二个单词串的列表;l.对第二个单词串的列表上的每个单词串,通过指定第二个单词串的列表上的每个单词串作为新查询并重复步骤c至h,来创建单词和单词串关联列表;m.在所述返回的文档中,基于它们的频率,确定位于所述要分析的查询右边的用户定义数量的单词或单词串或两者,并创建包括查询和位于所述查询右边的所述单词或单词串或两者的第三单词串的第二个列表;n.对第二个第三单词串的列表上的每个单词串,通过指定第二个第三单词串的列表上的每个单词串作为新查询并重复步骤c至j,来创建第二个单词和单词串关联列表;o.确定所述关联列表上与所述第二个关联列表上的单词串具有重叠部分的单词串;及p.将重叠单词串的重叠部分中的单词或单词串识别为查询的同义或近似同义。192.一种关联一种语言的单词和单词串的方法,其特征在于,所述方法包括a.提供一组文档,其中所述一组文档至少包括一个文档;b.从用户处接收要分析的单词或单词串查询;c.搜索所述一组文档,查找要分析的查询,并返回包含要分析的查询的文档;d.在所述包含要分析的查询的返回文档中,确定位于查询左边和右边的用户定义数量的具有用户定义长度的单词或单词串或两者;e.返回具有一个或多个条目的列表,其中所述一个或多个条目包含在所述返回文档中位于查询左边和右边的所述确定的单词或单词串或两者;f.搜索所述一组文档,在所述返回列表中查找所述一个或多个条目;及g.返回在所述返回文档中位于所述查询左边和右边的所述确定的单词或单词串或两者之间出现最频繁、并具有用户定义长度的单词或单词串或两者的列表。193.如权利要求192所述的方法,其特征在于,基于位于所述返回的列表中的单词左边和右边的唯一的所述确定的单词或单词串或两者的数量,对所述返回的单词或单词串或两者的列表进行分级。194.如权利要求192或193所述的方法,其特征在于,基于用户定义的参数对所述返回的单词或单词串或两者的列表进行分级。195.如权利要求192所述的方法,其特征在于,通过指定所述结果作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询在新查询结果上的分级修改所述查询的结果的所述分级,来修改所述对结果进行的分级。196.如权利要求192所述的方法,其特征在于,通过指定所述结果作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询在新查询结果上的分级修改所述查询的所述结果,来修改所述结果。197.如权利要求192所述的方法,其特征在于,通过指定所述结果中的每一个作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询和结果两者一起出现在其上的新查询列表的数量修改所述查询的结果的所述分级,来修改所述对结果进行的分级。198.如权利要求192所述的方法,其特征在于,通过指定所述结果中的每一个作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询和结果两者一起出现在其上的新查询列表的数量修改所述查询的所述结果,来修改所述结果。199.如权利要求192所述的方法,其特征在于,通过指定所述结果中的每一个作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询和结果在它们两者一起出现的新查询列表上的分级修改所述查询的结果的所述分级,来修改所述对结果进行的分级。200.如权利要求192所述的方法,其特征在于,通过指定所述结果中的每一个作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询和结果在它们两者一起出现的新查询列表上的分级修改所述查询的所述结果,来修改所述结果。201.如权利要求192所述的方法,其特征在于,通过指定所述结果作为新查询,重复步骤a至e来确定并返回位于新查询左边和右边的单词或单词串或两者,并基于未出现在新查询左边和/或右边的位于查询左边的单词或单词串或两者和/或位于查询右边的单词或单词串或两者修改所述查询的结果的所述分级,来修改所述对结果进行的分级。202.如权利要求192所述的方法,其特征在于,通过指定所述结果作为新查询,重复步骤a至e来确定并返回位于新查询左边和右边的单词或单词串或两者,并基于未出现在新查询左边和/或右边的位于查询左边的单词或单词串或两者和/或位于查询右边的单词或单词串或两者修改所述查询的所述结果,来修改所述结果。203.如权利要求192所述的方法,其特征在于,通过指定所述结果作为新查询,重复步骤a至e来确定并返回位于新查询左边和右边的单词或单词串或两者,并基于未出现在查询左边和/或右边的位于新查询左边的单词或单词串或两者和/或位于新查询右边的单词或单词串或两者修改所述查询的结果的所述分级,来修改所述对结果进行的分级。204.如权利要求192所述的方法,其特征在于,通过指定所述结果作为新查询,重复步骤a至e来确定并返回位于新查询左边和右边的单词或单词串或两者,并基于未出现在查询左边和/或右边的位于新查询左边的单词或单词串或两者和/或位于新查询右边的单词或单词串或两者修改所述查询的所述结果,来修改所述结果。205.如权利要求192所述的方法,其特征在于,还包括h.在所述返回的文档中,基于它们的频率,确定位于所述要分析的查询左边的用户定义数量的单词或单词串或两者,并创建包括查询和位于所述查询左边的所述单词或单词串或两者的第二个单词串的列表;i.对第二个单词串的列表上的每个单词串,通过指定第二个单词串的列表上的每个单词串作为新查询并重复步骤c至g,来创建单词和单词串关联列表;j.在所述返回的文档中,基于它们的频率,确定位于所述要分析的查询右边的用户定义数量的单词或单词串或两者,并创建包括查询和位于所述查询右边的所述单词或单词串或两者的第三单词串的第二个列表;k.对第二个第三单词串的列表上的每个单词串,通过指定第二个第三单词串的列表上的每个单词串作为新查询并重复步骤c至g,来创建第二个单词和单词串关联列表;l.确定所述关联列表上与所述第二个关联列表上的单词串具有重叠部分的单词串;及m.将重叠单词串的重叠部分中的单词或单词串识别为查询的同义或近似同义。206.一种计算机设备,所述计算机设备包括处理器、连接到所述处理器的存储器,及存储在所述存储器中的程序,其特征在于,所述计算机配置为执行所述程序并执行下面的步骤a.提供一组文档,其中所述一组文档至少包括一个文档;b.从用户处接收要分析的单词或单词串查询;c.搜索所述一组文档,查找要分析的查询,并返回包含要分析的查询的文档;d.在所述包含要分析的查询的返回文档中,确定位于查询左边和右边的用户定义数量的具有用户定义长度的单词或单词串或两者;e.返回具有一个或多个条目的列表,其中所述一个或多个条目包含在所述返回文档中位于查询左边和右边的所述确定的单词或单词串或两者;f.搜索所述一组文档,在所述返回列表中查找所述一个或多个条目;及g.返回在所述返回文档中位于所述查询左边和右边的所述确定的单词或单词串或两者之间出现最频繁、并具有用户定义长度的单词或单词串或两者的列表。207.如权利要求206所述的计算机设备,其特征在于,基于位于所述返回的列表中的单词左边和右边的唯一的所述确定的单词或单词串或两者的数量,对所述返回的单词或单词串或两者的列表进行分级。208.如权利要求206或207所述的方法,其特征在于,基于用户定义的参数对所述返回的单词或单词串或两者的列表进行分级。209.如权利要求206所述的计算机设备,其特征在于,通过指定所述结果作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询在新查询结果上的分级修改所述查询的结果的所述分级,来修改所述对结果进行的分级。210.如权利要求206所述的计算机设备,其特征在于,通过指定所述结果作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询在新查询结果上的分级修改所述查询的所述结果,来修改所述结果。211.如权利要求206所述的计算机设备,其特征在于,通过指定所述结果中的每一个作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询和结果两者一起出现在其上的新查询列表的数量修改所述查询的结果的所述分级,来修改所述对结果进行的分级。212.如权利要求206所述的计算机设备,其特征在于,通过指定所述结果中的每一个作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询和结果两者一起出现在其上的新查询列表的数量修改所述查询的所述结果,来修改所述结果。213.如权利要求206所述的计算机设备,其特征在于,通过指定所述结果中的每一个作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询和结果在它们两者一起出现的新查询列表上的分级修改所述查询的结果的所述分级,来修改所述对结果进行的分级。214.如权利要求206所述的计算机设备,其特征在于,通过指定所述结果中的每一个作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询和结果在它们两者一起出现的新查询列表上的分级修改所述查询的所述结果,来修改所述结果。215.如权利要求206所述的计算机设备,其特征在于,通过指定所述结果作为新查询,重复步骤a至e来确定并返回位于新查询左边和右边的单词或单词串或两者,并基于未出现在新查询左边和/或右边的位于查询左边的单词或单词串或两者和/或位于查询右边的单词或单词串或两者修改所述查询的结果的所述分级,来修改所述对结果进行的分级。216.如权利要求206所述的计算机设备,其特征在于,通过指定所述结果作为新查询,重复步骤a至e来确定并返回位于新查询左边和右边的单词或单词串或两者,并基于未出现在新查询左边和/或右边的位于查询左边的单词或单词串或两者和/或位于查询右边的单词或单词串或两者修改所述查询的所述结果,来修改所述结果。217.如权利要求206所述的计算机设备,其特征在于,通过指定所述结果作为新查询,重复步骤a至e来确定并返回位于新查询左边和右边的单词或单词串或两者,并基于未出现在查询左边和/或右边的位于新查询左边的单词或单词串或两者和/或位于新查询右边的单词或单词串或两者修改所述查询的结果的所述分级,来修改所述对结果进行的分级。218.如权利要求206所述的计算机设备,其特征在于,通过指定所述结果作为新查询,重复步骤a至e来确定并返回位于新查询左边和右边的单词或单词串或两者,并基于未出现在查询左边和/或右边的位于新查询左边的单词或单词串或两者和/或位于新查询右边的单词或单词串或两者修改所述查询的所述结果,来修改所述结果。219.如权利要求206所述的计算机设备,其特征在于,还包括h.在所述返回的文档中,基于它们的频率,确定位于所述要分析的查询左边的用户定义数量的单词或单词串或两者,并创建包括查询和位于所述查询左边的所述单词或单词串或两者的第二个单词串的列表;i.对第二个单词串的列表上的每个单词串,通过指定第二个单词串的列表上的每个单词串作为新查询并重复步骤c至g,来创建单词和单词串关联列表;j.在所述返回的文档中,基于它们的频率,确定位于所述要分析的查询右边的用户定义数量的单词或单词串或两者,并创建包括查询和位于所述查询右边的所述单词或单词串或两者的第三单词串的第二个列表;k.对第二个第三单词串的列表上的每个单词串,通过指定第二个第三单词串的列表上的每个单词串作为新查询并重复步骤c至g,来创建第二个单词和单词串关联列表;l.确定所述关联列表上与所述第二个关联列表上的单词串具有重叠部分的单词串;及m.将重叠单词串的重叠部分中的单词或单词串识别为查询的同义或近似同义。220.一种计算机可读的存储媒体,可由计算机处理器执行的程序存储在其上,其特征在于,所述程序用于执行下面的步骤a.提供一组文档,其中所述一组文档至少包括一个文档;b.从用户处接收要分析的单词或单词串查询;c.搜索所述一组文档,查找要分析的查询,并返回包含要分析的查询的文档;d.在所述包含要分析的查询的返回文档中,确定位于查询左边和右边的用户定义数量的具有用户定义长度的单词或单词串或两者;e.返回具有一个或多个条目的列表,其中所述一个或多个条目包含在所述返回文档中位于查询左边和右边的所述确定的单词或单词串或两者;f.搜索所述一组文档,在所述返回列表中查找所述一个或多个条目;及g.返回在所述返回文档中位于所述查询左边和右边的所述确定的单词或单词串或两者之间出现最频繁、并具有用户定义长度的单词或单词串或两者的列表。221.如权利要求220所述的计算机媒体,其特征在于,基于位于所述返回的列表中的单词左边和右边的唯一的所述确定的单词或单词串或两者的数量,对所述返回的单词或单词串或两者的列表进行分级。222.如权利要求220或221所述的计算机媒体,其特征在于,基于用户定义的参数对所述返回的单词或单词串或两者的列表进行分级。223.如权利要求220所述的计算机媒体,其特征在于,通过指定所述结果作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询在新查询结果上的分级修改所述查询的结果的所述分级,来修改所述对结果进行的分级。224.如权利要求220所述的计算机媒体,其特征在于,通过指定所述结果作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询在新查询结果上的分级修改所述查询的所述结果,来修改所述结果。225.如权利要求220所述的计算机媒体,其特征在于,通过指定所述结果中的每一个作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询和结果两者一起出现在其上的新查询列表的数量修改所述查询的结果的所述分级,来修改所述对结果进行的分级。226.如权利要求220所述的计算机媒体,其特征在于,通过指定所述结果中的每一个作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询和结果两者一起出现在其上的新查询列表的数量修改所述查询的所述结果,来修改所述结果。227.如权利要求220所述的计算机媒体,其特征在于,通过指定所述结果中的每一个作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询和结果在它们两者一起出现的新查询列表上的分级修改所述查询的结果的所述分级,来修改所述对结果进行的分级。228.如权利要求220所述的计算机媒体,其特征在于,通过指定所述结果中的每一个作为新查询,重复步骤a至g来确定并返回新查询的结果,并基于查询和结果在它们两者一起出现的新查询列表上的分级修改所述查询的所述结果,来修改所述结果。229.如权利要求220所述的计算机媒体,其特征在于,通过指定所述结果作为新查询,重复步骤a至e来确定并返回位于新查询左边和右边的单词或单词串或两者,并基于未出现在新查询左边和/或右边的位于查询左边的单词或单词串或两者和/或位于查询右边的单词或单词串或两者修改所述查询的结果的所述分级,来修改所述对结果进行的分级。230.如权利要求220所述的计算机媒体,其特征在于,通过指定所述结果作为新查询,重复步骤a至e来确定并返回位于新查询左边和右边的单词或单词串或两者,并基于未出现在新查询左边和/或右边的位于查询左边的单词或单词串或两者和/或位于查询右边的单词或单词串或两者修改所述查询的所述结果,来修改所述结果。231.如权利要求220所述的计算机媒体,其特征在于,通过指定所述结果作为新查询,重复步骤a至e来确定并返回位于新查询左边和右边的单词或单词串或两者,并基于未出现在查询左边和/或右边的位于新查询左边的单词或单词串或两者和/或位于新查询右边的单词或单词串或两者修改所述查询的结果的所述分级,来修改所述对结果进行的分级。232.如权利要求220所述的计算机媒体,其特征在于,通过指定所述结果作为新查询,重复步骤a至e来确定并返回位于新查询左边和右边的单词或单词串或两者,并基于未出现在查询左边和/或右边的位于新查询左边的单词或单词串或两者和/或位于新查询右边的单词或单词串或两者修改所述查询的所述结果,来修改所述结果。233.如权利要求220所述的计算机媒体,其特征在于,还包括h.在所述返回的文档中,基于它们的频率,确定位于所述要分析的查询左边的用户定义数量的单词或单词串或两者,并创建包括查询和位于所述查询左边的所述单词或单词串或两者的第二个单词串的列表;i.对第二个单词串的列表上的每个单词串,通过指定第二个单词串的列表上的每个单词串作为新查询并重复步骤c至g,来创建单词和单词串关联列表;j.在所述返回的文档中,基于它们的频率,确定位于所述要分析的查询右边的用户定义数量的单词或单词串或两者,并创建包括查询和位于所述查询右边的所述单词或单词串或两者的第三单词串的第二个列表;k.对第二个第三单词串的列表上的每个单词串,通过指定第二个第三单词串的列表上的每个单词串作为新查询并重复步骤c至g,来创建第二个单词和单词串关联列表;l.确定所述关联列表上与所述第二个关联列表上的单词串具有重叠部分的单词串;及m.将重叠单词串的重叠部分中的单词或单词串识别为查询的同义或近似同义。234.一种在单种语言内进行内容转换的方法,其特征在于,所述方法包括下面的步骤a.提供第一组多个单词串;b.提供第二组多个单词串,其中所述第二组中的每个所述单词串以同义或近似同义的方式对应于所述第一组中的一个所述单词串;c.接收要分析的单词串查询;d.将所述单词串查询解析为多个子集单词串,其中每个子集的一部分与相邻的一个或多个子集的第二部分重叠;e.使用所述第二组单词串分析每个所述解析出的子集单词串,来识别每个所述解析出的子集单词串的同义单词串;及f.当任何解析出的单词串与所述相邻子集重叠时,用同义单词串替换它。235.一种计算机设备,所述计算机设备包括处理器、连接到所述处理器的存储器,及存储在所述存储器中的程序,其特征在于,所述计算机配置为执行所述程序并执行下面的步骤a.提供第一组多个单词串;b.提供第二组多个单词串,其中所述第二组中的每个所述单词串以同义或近似同义的方式对应于所述第一组中的一个所述单词串;c.接收要分析的单词串查询;d.将所述单词串查询解析为多个子集单词串,其中每个子集的一部分与相邻的一个或多个子集的第二部分重叠;e.使用所述第二组单词串分析每个所述解析出的子集单词串,来识别每个所述解析出的子集单词串的同义单词串;及f.当任何解析出的单词串与所述相邻子集重叠时,用同义单词串替换它。236.一种计算机可读的存储媒体,可由计算机处理器执行的程序存储在其上,其特征在于,所述程序用于执行下面的步骤a.提供第一组多个单词串;b.提供第二组多个单词串,其中所述第二组中的每个所述单词串以同义或近似同义的方式对应于所述第一组中的一个所述单词串;c.接收要分析的单词串查询;d.将所述单词串查询解析为多个子集单词串,其中每个子集的一部分与相邻的一个或多个子集的第二部分重叠;e.使用所述第二组单词串分析每个所述解析出的子集单词串,来识别每个所述解析出的子集单词串的同义单词串;及f.当任何解析出的单词串与所述相邻子集重叠时,用同义单词串替换它。全文摘要对关联概念知识库的获取、重建和生成进行自动化并在很多应用中使用这样的知识库的方法和装置,所述应用包括基于概念搜索、语音识别、数据压缩和人工智能系统进行的人类语言的机器翻译、无组织文本或其他数据的搜索和检索。文档编号G06F17/30GK1720524SQ03825729公开日2006年1月11日申请日期2003年9月22日优先权日2002年10月29日发明者埃里·阿博申请人:埃里·阿博
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1