具有知识生成能力的文档语义分析/选择的制作方法

文档序号:6419234阅读:167来源:国知局
专利名称:具有知识生成能力的文档语义分析/选择的制作方法
本申请要求1998年9月9日申请的美国临时申请No.60/099,641的利益。
本发明涉及用于在语义上分析、选择和总结包含特定内容或主题的候选文档的基于计算机的设备和方法。
已知有基于计算机的文档搜索处理器用于对因特网和万维网上的出版物执行关键词搜索。现在,信息所有者和服务提供者正使他们的数据库适应个人口味和需求。例如,Boston based Agents,Inc.在网络上为音乐迷提供个人化的业务通讯,从而阻止古典音乐爱好者接收Rap音乐广告,反之亦然。香港的KD,Inc.已经开发出一个在搜索网络的同时考虑在感觉上类似的词的系统。现在,用户可以通过输入词“Screen”从网络下载10,000个报纸。由KD,Inc.设计的搜索系统询问用户是否他/她正在寻找关于计算机屏幕、电视屏幕或视窗屏幕的报纸。在这种情况下,无关报纸的数目将被彻底减少。
基于软件的搜索处理器能够记录单个用户的请求并在网络上进行个人化的不间断搜索。因此,当用户在早晨醒来时,他/她发现与他/她所感兴趣的领域有关的几个新网络报纸的索引和摘要。在1997年,在实际上,所有基础技术出版物、期刊、杂志以及所有工业国家的专利都变得可在网络上得到,即可以以电子形式得到。
虽然以关键词搜索网络给用户提供很大的价值,但它也已经产生并且将继续产生不利地影响这个价值的实质问题-具体地说,因为在网上可用信息的巨大数量,所以关键词搜索处理器产生太多的下载信息,而其绝大多数是与用户所想要的信息无关的或不重要的。在响应于用户所考虑的对仅与一特定请求相关的那几篇文章的请求而给出几百篇文章时,许多用户在失败中放弃。
这个问题在科学和工程的技术领域也存在,特别是因为有越来越多的图书馆、政府专利局、大学、政府研究中心以及其他用于网络访问的大量技术和科学信息的增加。工程师、科学家和学者被太多的文章、报纸、专利以及关于他们所感兴趣的主题的一般信息所淹没。另外,用户在检查下载文章以确定其与用户方案的相关性时目前只有两个选择。他/她可以读取作者摘要和/或浏览全文的各段以确定是否保存或打印出该特定文档。由于作者摘要不全面,所以它常常省略对用户所感兴趣的特定主题的引用或以不全面的方式论述该主题。因此,浏览摘要和浏览全文可能几乎没有价值并需要用户花费过多的时间。
已经有各种尝试想要提高选择的查全率和准确度,例如这里作为参考的美国专利No.5,774,833和5,794,050,但这些方法仅仅依赖于利用基于关键词的变化或原文短语的所称理解的各种选择技术进行的关键词或短语搜索。这些现有技术可能提高了查全率,但仍然需要太多的体力和精神努力和时间来确定为什么选择该文档以及相关部分是什么。这是从在没有概要或概念产生的情况下而展示的摘要的整个文档产生的。
依据本发明原理的基于计算机的软件系统和方法解决了上述问题,具有的能力是,以关键词执行对万维网上或其他网络上所有数据库的不间断搜索以及在语义上为特定技术功能和特定物理效果处理候选文档,使得只有满足搜索条件的非常少的优先或一单个文章被展示或识别给用户。
进一步地,依据本发明原理的基于计算机的软件系统捕获这些非常少的高度相关的文档,并生成由搜索条件指定的精确技术物理方面的一个压缩的简短概述。
本发明的另一个方面包括使用所选择文档的语义分析结果来生成知识概念的新思想。系统通过分析文档中所提到的主语、动作和宾语并将这些表示重新组织成这些要素的新的和/或不同的简档(profile)来完成这一点。如同下面将要进一步说明的,这些重新组织的在这些要素之间的关系的一些集合可能包括以前任何人从未想到过的新概念。
依据本发明的一个方面,所述方法和设备开始于用户输入与用户希望获取出版物或文档的任务或概念相关的自然语言文本。系统分析这个请求文本,并自动以表明词本身的类型的代码对每个词进行标记。一旦该请求中的所有词都被标记,则系统执行一个语义分析,在一个例子中,该语义分析包括确定和存储在请求的第一句中的动词组,然后确定和存储在请求的该句中的名词组。对请求中的所有句子重复这个过程。
接着,系统以一个分层算法将每个请求句子语法分析成一个充分表明句子含义的编码框架。该系统包括各种类型的数据库,以帮助产生编码框架,例如文法规则、语法分析规则、词典同义词等等。一旦存储了语法分析过的句子代码,系统就识别并存储每个句子内的主语-动作-宾语(SAO)提取。一个句子可以具有一个、两个或多个SAO提取,下面将会详细描述。通过根据下述的特定规则来处理提取,将每个提取标准化成一个SAO结构。因此,在该请求文本上执行的语义分析例程的结果是表明该请求的内容的一系列SAO结构。这些请求SAO结构被应用到(1)下述的用于比较候选文档的SAO结构的比较模块以及(2)识别关键词和关键词组合及其同义词以便为候选文档搜索因特网、内部网和本地数据库的搜索请求和关键词发生器。任何合适的搜索引擎、例如Alta Vista可以用于基于所产生的关键词来识别、选择和下载候选文档。
应该理解,如上所述,关键词搜索产生过多的候选文档。然而,依据本发明的原理,系统在每个候选文档上执行与在用户输入搜索请求上执行的实质相同的语义分析。也就是说,系统为每个候选文档的每个句子产生一个SAO结构,并将其传送到比较单元,在比较单元,将请求SAO结构与候选文档SAO结构进行比较。将那些具有与请求SAO结构简档大致匹配的SAO结构的少量候选文档放进一个检索文档单元,在该单元中将文档按相关性排序。系统然后通过合成与请求SAO结构匹配的文档的这些SAO结构来概括每个检索文档的本质(essence),并存储这个概要,以供用户显示或打印。用户可以在以后读取该概要并决定显示或打印或删除整个检索文档及其SAO。
如上所述,将每个恢复文档的每个句子的SAO结构存储在依据本发明的系统中。依据本发明的知识生成方面,系统分析所有这些存储的结构,识别公共或等效主语和宾语所在的地方,并重新组织、产生、合成新的SAO结构或新的SAO结构串以供用户考虑。这些新的结构或结构串中的一些可能是唯一的,并且包括对与用户所请求的主体有关的问题的新的解决方案。例如,如果存储了两个结构S1-A1-O1和S2-A2-O2,并且本系统认识到S2与O1等效或同义或具有其他一些相关性,则系统将产生并存储一个概要S1-A1-S2-A2-O2,以供用户访问。如果系统存储了在S1和A2之间的一个关联,它可以产生S1-A1/A2-O1来建议O1向所希望结果的改进。
根据下面结合附图进行的详细说明,其他和进一步的优点和益处将变得更加明显,其中

图1是依据本发明原理的系统的一个例示实施例的图示表示。
图2是依据本发明的系统的主要结构部件的示意图。
图3是依据本发明原理的方法的示意图。
图4是图2的单元16的示意图。
图5是图2的单元20的示意图。
图6是图2的单元22的示意图。
图7是用户输入的用户请求文本的典型示例。
图8是图7的文本的标记和编码表示形式。
图9是图8的文本的动词组的识别。
图10是图8的编码文本的名词组的识别。
图11是图8的语法分析的分层编码文本的表示。
图12是图7的文本的SAO提取的表示。
图13是图12的提取的SAO结构的表示。
依据本发明原理的语义处理系统的一个例示实施例包括CPU12,可以包括带有标准用户输入和输出驱动器、例如键盘14、鼠标16、扫描仪19、CD阅读器17及打印机18的通用个人计算机或联网服务器或微型计算机。系统10还包括到LAN、WAN和/或公用或专用交换网络到万维网的标准通信端口21。
参考图1-6,语义队列系统10包括一个临时存储器或数据库12,用于接收和存储从万维网或局域网上下载的或作为用户请求文本用键盘14或其他一种输入设备产生的文档。用户可以键入请求(下面公开了示例)或输入全部文档到DB12中,并将该文档指定为用户请求。系统10进一步包括用于接收每个文档的整个文本的语义处理器14,还包括用一个代码类型(例如马尔科夫链理论代码)对每个句子的每个词进行标记的主语-动作-宾语(SOA)分析器单元16。单元16则识别每个句子内的每个动词组和名词组(下面将说明),并将每个句子进行语法分析和标准化,使之成为表示句子含义的SAO结构。单元16将其输出加到SAO结构的DB18。SAO处理器单元20存储请求SAO结构,并接收存储在单元18中的每个文档的每个句子的SAO结构。单元20将文档SAO与请求SAO进行比较,并删除不匹配的那些文档。将匹配文档的SAO结构存储回单元18或其他一些存储装置中。另外,单元20分析在一单个文档中的SAO结构或用一个或多个其他相关文档中的SAO结构来分析SAO结构,搜索在S-A-O之间的关系,并产生新的SAO结构以供用户考虑。将这些新结构存储在单元18或系统中的其他一些存储装置中。
单元14进一步包括自然语言单元22,用于以表格形式接收SAO结构,并将结构合成为自然语言形式、即句子。
单元14还包括键盘单元24,用于接收SAO结构并从其中提取关键词和短语,并获得它们的同义词,作为附加关键词/短语使用。
如图所示,数据库单元26、28和30从单元14接收输出,存储如下所述的所选择SAO结构的自然语言概要和形成通过端口21发送到搜索引擎的用户请求的关键词/短语。
单元16包括文档预格式器32,用于从单元12接收文档的全文本,并将文本和其他内容转换到一个标准纯文本格式。文本编码器34分析文本的每个句子的每个词,并将一个代码标记到每个词上,该代码指定词类型,参看图8。在图4中指定为44的各种数据库可用于帮助单元16的各个单元。在进行标记之后,识别器单元36识别每个句子的动词组(图9)和名词组(图10)。句子语法分析器38然后将每个句子语法分析成一个表示句子含义的分层编码形式。在图11中,S-A-O提取器40将每个句子的SAO组织成提取表格式(图12)。然后,标准化器42将该提取标准化为如上所述的SAO结构(图13)。
SAO处理器20包括三个主要单元。比较单元46从数据库18接收SAO结构。这些结构中的一组来自上述的用户请求文本,其他组来自候选文档。单元46然后比较这两组,以寻找这两组SAO结构之间的匹配。如果未产生匹配,则删除候选文档和相关SAO。如果识别出一个匹配,则将该文档标记为相关的,进行排序,并存储在单元12中,将其SAO结构存储在单元18中。单元46然后按顺序以上述相同方式比较所有候选文档。
单元20还包括SAO结构重新组织单元48,用于从涉及同一主题的不同文档合成新的SAO结构,如上所述将其合并成新结构,并将其加到单元18。
过滤单元50分析每个文档的每个SAO结构,并阻挡或删除那些与请求的SAO结构不相关的SAO结构。
标号52标明一些可用于帮助单元20的子单元的数据库。
SAO合成器单元22(图6)包括一个用于检测每个所接收SAO结构的主语的内容的主语检测器54。如果检测到S,则将SAO送到单元56,在这里,采用文法、语义、语言模式和同义词规则数据库66将动词组的树结构恢复成自然语言。合成器58对主语名词组进行同样的操作,合成器60对宾语名词组进行同样的操作。组合器68然后将这些组组织并组合成一个自然语言句子。
如果单元54未检测到S,则由合成器62处理SAO结构,以恢复被动形式的动词组。合成器64为一个被动句子处理宾语名词组,组合器70将这些组组织并组合成一个自然语言句子。
如果由单元54接收的SAO结构带有新结构标志,则组合器68和70将其输出加到单元28,如果它们被标记为现有SAO结构,则单元68、70将其输出加到单元26。参看图3。
依据本发明原理的方法的重要步骤如图3所示,其中,括号中的标号指的是显示处理步骤的图2中的单元。对话开始于用户输入一个国家语言请求,该请求可以用键盘来定制,或者可以是通过图1所示的一个输入设备输入的国家语言文档。一个典型用户产生如图7所示的定制请求,系统10的单元14首先用一个类型代码对每个词进行标记(参见图8),然后识别每个句子的动词组(图9)和每个句子的名词组(图10),然后将每个句子处理成一个分层树(图11),以及,然后提取出SAO提取,其中,所有提取出的词是该请求的原形(图12)。然后,该方法将这些词标准化(修改),将每个动作变为其不定式。即,将图12中的“is isolated”变为“ISOLATE”,词“to”被省略(图13)。应该理解,不是图11中出现的主语、动作和宾语的所有属性都在图12和13中显示,但系统知道与SAO要素相联系的所有属性,这些属性是SAO结构的一部分。并且,如图13所示,对于最后一个动作没有列出主语,因为这可以根据计划规则所表明。这个缺少不影响整个方法的可靠性,因为候选文档中包括A-O isolate-slides的所有句子将被认为是与主语无关的事情。标准化的SAO在这里被称为SAO结构。这些用户请求SAO结构被存储,并在下列两个步骤运用(ⅰ)合成用户请求的关键词/短语;(ⅱ)比较分析每个候选文档的每个句子的SAO结构,下面将会说明。
将请求SAO结构关键词/短语存储和发送到一个标准搜索引擎,以搜索本地数据库、LAN和/或万维网中的候选文档。可以使用AltaVistaTM、YahooTM或其他典型的搜索引擎。采用请求SAO结构关键词/短语的搜索引擎识别候选文档,并存储它们(全文本)以供系统10分析。接着,为每个候选文档的每个句子重复如上所述对搜索请求的SAO分析,使得SAO结构被产生并存储,如图3所示。另外,每个文档的SAO结构用在比较步骤中,将请求SAO结构与候选文档SAO结构进行比较。如果未得到匹配,则从系统删除文档和相关的SAO结构。如果找到一个或多个匹配,则将该文档和相关结构标记为相关的,将其相关性例如标记为在1.0到10.0的范围内。将全相关文档文本永久存储(即使它以后可以由用户在需要时删除),以供用户根据需要显示或打印。相关SAO结构也被标记为相关的,并永久存储。
接着,系统10滤出最不相关的SAO结构,并使用每个相关文档的匹配SAO结构来将匹配SAO结构和出现与匹配SAO结构相联系的完整句子的页号合成为自然语言概要句子。这个概要被存储,并可根据需要用于用户显示或打印。
分析过滤后的相关文档的相关SAO结构,以识别所有相关结构中的主语、动作和宾语之间的关系。然后,处理SAO结构,将其重新组织成新的SAO结构以供存储,并合成为自然语言新句子。新句子中的一些可以并且可能表达或概述新思想、概念和想法以供用户考虑。将新句子进行存储以供用户显示或打印。
例如,如果S1-A1-O1S2-A2-O2S3-A3-O3并且S1与O3相同或是O3的同义词,则将S3-A3-S1-A1-O1合成为一个新句子并存储。
因此,依据本发明的方法和设备向用户自动提供直接涉及用户所请求的感兴趣领域的一组新思想,其中一些思想可能是新的并建议对用户所考虑问题的可能的新解决方案,以及/或者向用户自动提供与用户请求直接相关的特定文档和特定文档的相关部分的概要。
虽然这里已经描述了本发明系统和方法在工程、科学和医学领域的应用,将其应用并不限于这些。本发明可以应用到历史、哲学、神学、诗歌、艺术或使用书写语言的任何领域。
应该理解,在不偏离本发明的精神和范围的情况下,可以对这里所公开的例示实施例作出各种提高和改变。
权利要求
1.一种自然语言文档分析和选择系统,包括通用计算机,具有监视器、中央处理单元(CPU)、用于产生表示一个自然语言请求的请求数据的用户输入设备、以及用于与本地和远程自然语言文档数据库进行通信的通信设备,所述CPU包括(ⅰ)用于存储请求数据的第一存储装置,(ⅱ)响应于接收到请求数据而产生请求主语-动作-宾语(SAO)提取的语义处理器,以及(ⅲ)用于存储请求SAO提取的表示的SAO存储装置。
2.如权利要求1所述的系统,其中,所述通信设备将候选文档数据传送到所述CPU,以便存储在所述第一存储装置中,候选文档数据表示自然语言文档文本,所述语义处理器响应于接收到候选文档数据而产生候选文档SAO提取,以及所述SAO存储装置还存储候选文档SAO提取的表示。
3.如权利要求2所述的系统,其中,所述语义处理器识别在所述请求SAO提取与所述候选文档SAO提取的所述表示之间的匹配。
4.如权利要求3所述的系统,其中,所述语义处理器包括用于标记相关候选文档数据的装置,所述相关候选文档数据包括与至少一个请求SAO提取的表示相匹配的至少一个候选文档SAO提取的表示。
5.如权利要求4所述的系统,其中,所述语义处理器包括用于删除对于不具有与请求SAO提取的表示相匹配的候选文档SAO提取的表示的那些文档的所存储的候选文档数据和所存储的候选文档SAO提取的表示的装置。
6.如权利要求3所述的系统,其中,所述语义处理器包括SAO文本分析器,所述SAO文本分析器具有多个存储文本格式化规则、编码规则、字标记规则、SAO识别规则、语法分析规则、SAO提取规则和标准化规则,将这些规则应用到请求数据和候选文档数据上,使得候选文档SAO提取和请求SAO提取的所述表示分别包括候选文档和请求SAO结构。
7.如权利要求6所述的系统,进一步包括第二存储装置,用于存储请求SAO结构,以及用于将SAO结构作为关键词/短语加到所述通信设备上,以便应用到万维网或本地数据库上的文档搜索引擎,从而将候选文档数据下载到系统。
8.如权利要求6所述的系统,进一步包括SAO合成器,用于响应于接收到文档SAO结构来产生并存储标记文档的自然语言概要以供在所述监视器上显示。
9.如权利要求6所述的系统,进一步包括SAO合成器,用于分析在相关和存储的SAO结构中的主语、动作和宾语之间的关系,并处理那些与至少一个其他SAO结构有关系的SAO结构,以产生一个不同SAO结构,并存储所述不同SAO结构,以供向用户显示。
10.如权利要求9所述的系统,其中,所述关系包括S1-A1-O1S2-A2-O2其中,S1与O2是同义词则S2-A2-S1-A1-O1
11.在一个包括万维网和通用计算机的数字数据处理系统中,其中所述通用计算机具有监视器、中央处理单元(CPU)、用户输入设备、以及用于与本地和远程自然语言文档数据库进行通信的通信设备,一种用于分析和选择自然语言文档的方法,包括产生表示一个自然语言请求的请求数据,存储所述请求数据,在语义上处理所述请求数据以产生请求主语-动作-宾语(SAO)提取,以及存储所述请求SAO提取的表示。
12.如权利要求11所述的方法,其中,所述通信设备将候选文档数据传送到所述CPU,候选文档数据表示自然语言文档文本,存储候选文档数据,所述在语义上的处理包括产生与候选文档数据相关的候选文档SAO提取,以及存储候选文档SAO提取的表示。
13.如权利要求12所述的方法,其中,所述在语义上的处理包括识别在所述请求SAO提取与所述候选文档SAO提取的所述表示之间的匹配。
14.如权利要求13所述的方法,其中,所述在语义上的处理包括标记相关候选文档数据,相关候选文档数据包括与至少一个请求SAO提取的表示相匹配的至少一个候选文档SAO提取的表示。
15.如权利要求14所述的方法,其中,所述在语义上的处理包括删除对于不具有与请求SAO提取的表示相匹配的候选文档SAO提取的表示的那些文档的所存储的候选文档数据和所存储的候选文档SAO提取的表示的访问。
16.如权利要求13所述的方法,其中,所述在语义上的处理包括将多个存储的文本格式化规则、名词和动词识别规则、编码规则、字标记规则、SAO识别规则、语法分析规则、SAO提取规则和标准化规则应用到请求数据和候选文档数据上,使得候选文档SAO提取的所述表示和请求SAO提取的所述表示分别包括候选文档和请求SAO结构。
17.如权利要求16所述的方法,进一步包括存储请求SAO结构,并将SAO结构作为关键词/短语应用到万维网或本地数据库上的文档搜索引擎,以便向CPU下载候选文档数据。
18.如权利要求16所述的方法,进一步包括产生并存储并在所述监视器上显示与相关文档SAO结构有关的所标记相关文档的自然语言概要。
19.如权利要求16所述的方法,进一步包括分析在相关和存储的SAO结构中的主语、动作和宾语之间的关系,进一步处理那些与至少一个其他相关的所存储SAO结构有关系的SAO结构,并根据所述关系产生一个不同SAO结构,以及存储所述不同SAO结构,并向用户显示所述不同SAO结构。
20.如权利要求19所述的方法,其中,所述关系包括S1-A1-O1包括一个相关和存储的SAO结构S2-A2-O2包括第二个相关和存储的SAO结构其中,所述关系包括S1与O2是同义词,所述不同SAO结构是S2-A2-S1-A1-O1。
21.如权利要求19所述的方法,其中,所述关系包括S1-A1-O1包括一个相关和存储的SAO结构S2-A2-O2包括第二个相关和存储的SAO结构其中,所述关系在S1与A2之间,以及,所述不同SAO结构是S1-A1/A2-O2,其中“/”的意思是可替换。
全文摘要
一种基于计算机的软件系统和方法,用于在语义上处理用户输入的自然语言请求,以识别(16)和存储(18)语言的主语-动作-宾语(SAO)结构,采用这个结构作为关键词/短语(24)来搜索(30)本地和基于万维网的数据库,以便下载(12)候选自然语言文档,将候选文档文本在语义上处理为候选文档SAO结构,并只选择和存储其SAO结构包括与所存储的请求SAO结构的匹配的相关文档。进一步的特征包括分析在相关文档SAO结构之间的关系,并根据这种关系生成可以产生新的知识概念和思想以供显示给用户的新的SAO结构(20),并根据相关文档SAO结构产生和显示自然语言概要(22,26)。
文档编号G06F17/27GK1325513SQ99813079
公开日2001年12月5日 申请日期1999年8月31日 优先权日1998年9月9日
发明者瓦莱里M·楚里科夫, 利奥尼德S·巴奇洛, 伊戈尔V·索夫佩尔 申请人:发明机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1