用于利用现有的域定义来进行语义概念定义和语义概念关系综合的系统和方法

文档序号:6594573阅读:235来源:国知局
专利名称:用于利用现有的域定义来进行语义概念定义和语义概念关系综合的系统和方法
技术领域
本发明的实施例涉及一种用于处理自然语言文本数据以由此提供概念定义和概念关系综合的计算机系统和计算机执行方法,该自然语言文本数据的处理采用语义处理协议来支持构建语义图和语义网络。
背景技术
语义网络是由表示概念的顶点和表示概念之间语义关系的边缘组成的有向图。语义联网是开发这些图的过程。开发语义图的关键环节是提供概念定义和概念关系。本发明解决了这一问题。语义网络实质上能够被视为是知识表示。知识表示是一种建模并存储知识以便计算机执行程序可以处理并使用的方法。特别地,在本文中,从计算的角度来看知识表示可被视为自然语言基于规则的建模。知识表示的实质价值是具有累积性,并且随着在特定模型内能够被计算机设施所捕获并编码的知识量的增加,该等累积也相应增加。与无限的知识表示相关的一个问题是,现有的系统可对规模的形成设置巨大的障碍。这是为什么知识表示通常非常难以制备的原因之一。此外,其技术复杂性和精确性也设置了其产生和使用的知识和时间限制。此外,现有系统通常涉及从诸如文档和非结构化文本的现有形式中分析和检索知识表示。采用这些分析和检索系统,所提取知识的量不可避免地受限于以现有形式所捕获的知识的量。其可能不包括可以从这些文档可导出的新知识的可能。作为这些问题的例子,考虑以下应用,典型的现有方法包含文档集合的产品支持知识库提供给顾客来解决他们关于一种或多种产品的问题。这些文档由发布者用语义数据进行注释详细、机器可读地描述文档的主题。然后这些文档通过搜索工具可用从而向用户提供与其查询最相关的文档。这种应用的问题是,该系统所囊括的知识广度是由知识库(通过概念定义和关系的显式语义表示进行表达)所包含的文档所限定的。然而,受所读文档的启发,人们能够创建新知识。继续上述例子,当顾客阅读与其所需相关的文档时,他们能够从该现有的知识外推出针对他们的问题而寻找的非常精确的解决方案,从而在这个过程中创建了新知识。遗憾地是,在计算机执行系统中,尚没有反映该概念外推方法的技术解决方案。发布者仅仅能够描述其所拥有的知识;他们不能够提供囊括其顾客可能需要或推论的所有知识的知识表示系统。因此,用于提供新的概念和概念关系的重大意义和相关商业价值在于跨越这些障碍以将知识表示自动缩放并扩展至崭新的应用领域。区分现有应用和新应用的方法之一是,虽然现有应用可以回答“这些文档中包含了什么知识? ”,但新应用可以回答“接下来我们能够得到什么知识?”在这些技术障碍中,实现这类知识创建应用的障碍是提供定义并捕获概念和概念关系的新机制。

发明内容
本文公开了系统和方法的各个方面。除非有相反的规定,否则这些方面并非旨在互相矛盾,而是能够以本文所讨论的或本领域技术人员所已知的各种方式进行结合。因此, 本文示出了各种实施例并且还有其它实施例本领域的技术人员自然地需要遵从。一个实施例可以示出本发明的一个或多个方面。除非文中另有说明,否则实施例、类似的方面并非旨在相互矛盾。本发明概念的一个方面是一种综合诸如来自自然语言数据源的概念定义和关系的计算机执行方法,其包括获取有效的概念定义,将该有效的概念定义在域内与多个提取的真实的概念定义相匹配,分析真实的概念定义在其属性内的连贯性,以及通过语义处理从真实的概念定义中推导出多个虚拟概念定义,使得推导出的虚拟概念定义形成层次结构。另一个方面是一种综合概念定义和关系的计算机执行方法,其包括获取有效的概念定义,将该有效的概念定义与域内多个具有属性的真实概念定义相匹配,分析真实的概念定义在其属性内的其连贯性,以及通过语义处理从真实的概念定义中推导出多个虚拟概念定义,使得推导出的虚拟概念定义形成层次结构。另一个方面是一种包含可执行的计算机程序指令的机器可读的媒介,当通过数据处理系统执行时,该媒介使得所述系统执行一种方法,该方法包括获取有效的概念定义,将所述有效的概念定义与域内多个具有属性的提取的真实概念定义相匹配,分析所述真实概念定义在其属性内的连贯性,以及通过语义处理从真实的概念定义中推导出多个虚拟概念定义,使得推导出的虚拟概念定义形成层次结构。其它方面包括用于实施这些方法的计算机系统。例如,另一个方面是一种语义数据处理计算机系统,其包括存储处理器可执行指令的至少一个有形存储器,从而用于综合概念定义和关系;以及连接到至少一个有形存储器的至少一个硬件处理器,其执行处理器可执行指令以获取有效的概念定义;从域内提取多个具有属性的真实概念定义并分析其属性内的连贯性;将所述有效的概念定义与提取的真实概念定义相匹配;以及从真实的概念定义语义处理中推导出多个虚拟概念定义,使得推导出的虚拟概念定义形成层次结构。


图1示出现有技术状况;图2示出根据本发明的一些实施例在现有技术图内树状结构综合的并入和插入;图3给出根据一些实施例的用于识别新概念和概念关系的过程的流程图;图4给出根据本发明的一些实施例的分期和分析阶段的流程图;图5给出根据本发明的一些实施例的综合阶段的流程图;图6给出执行分面分类综合协议的实例的分面属性层次结构;以及图7是示出可执行本发明的一些实施例的计算机系统的简图。
具体实施例方式Visual Basic和Windows是Microsoft公司在美国和其它国家的注册商标。Linux 是Linus Torvalds在美国和其它国家的注册商标。本文公开了一种提供用于提供概念定义和概念关系综合方式的方法、系统和计算机程序。本发明的这些方面利用了树状结构和语义表示的特性,上述语义表示模拟了概念的本质定义。因此,新概念和概念关系可以某种方式来创建使得其不受任何历史或现有的知识表示所限制。从而,本发明的一些实施例提供了一种新的、创造性的和用户导向的语义表示和联网(图)的表达。这样就形成了综合前瞻性知识的能力,而不仅仅是提取历史性知识。本方法的实用性可以包括整体或部分的集思会,在创造性写作的帮助下通过从现有知识揭示新概念形成新见解,从文本文档的巨大语料库斟酌出新闻调查,以及通常任何可以涉及从给定的基于文本的语言数据的语料库形成新见解的定向调查或研究。本发明的实施例从数据域生成虚拟概念定义和虚拟概念定义之间的关系(如,虚拟概念定义的层次)。在一些实施例中,虚拟概念定义及其关系可以提供给用户以协助上述讨论的活动。在其它实施例中,虚拟概念定义及其关系可以提供给文档处理/生成软件,该软件使用这些定义来协助文档的自动生成或有助于这类文档的手动生成。在一些实施例中,有效概念通过认知主体(如,人和/或软件)进行输入或获取, 并且相关真实概念定义从表示特定知识域的数据中提取。提取的定义通过计算机分析在有效概念定义的上下文中其属性集的连贯性。然后从提取的真实概念定义中选取属性集,并基于所选取的属性集由概念综合过程推导出虚拟概念定义。这些推导出的虚拟概念定义然后组合成层次。剩余提取的真实概念定义然后相对推导出的虚拟概念定义层次进行计算机分析,并且如果能够推导出任何更多的虚拟概念定义,则重复上述过程。在本发明的上下文中示例的语义协议是形式概念分析和分面分类综合。另外,并入了诸如属性共现和相对邻近的影响属性选择的各种覆盖。此外,还并入了在虚拟概念的推导过程中各种数字导向的限制。一种提供概念定义和概念关系的方法是从现有文档中提取概念定义。然而,这可能受限于文档中已编码的内容并且其不提供新概念综合。因此,提取的语义表示仅可以作为基础以用于数据转换的后续过程,该数据转换产生新概念定义和新概念关系的综合。例如,概念的提取可以参照美国专利申请11/540,628 (公开号No. US 2007-0078889 Al)进行理解。在所述专利申请中,Hoskinson规定从现有文档提取概念。 信息提取工具提取出文本并随后从捕获的文本中提取关键词。利用各种标点符号和空格字符作为词的分隔符,关键词通过将文本分解成词阵列进行提取,使得该阵列中各要素是词。 随后,通过移除词阵列中所有数字、少于两个字符或停用(例如,和、一个、一种等等)的词, 该方法从词阵列中生成关键词索引。所有剩余的词均包括在关键词索引中。一旦关键词索引生成,那么在关键词索引中出现至少阈值次数的词保留在索引中,而出现少于阈值次数的词从索引中移除。在文本中,关键词索引可以进一步识别关键短语。这些关键短语可被视为本公开所提及的概念的等同物。与为关键短语提供上下文的关键词相关的关键短语集可被视为本公开所提及的现有概念定义的等同物。Hoskinson描述了按照以下步骤使用关键词索引和文档文本来识别关键短语。首先,对文档文本进行分析,并且使用 字符取代与短语边界相关的标点符号。其次,通过将该文档解析为由空格字符分隔的字符串而生成字符阵列。阵列中的各要素是词或短语边界字符(即, 字符)。其次,该方法通过字符阵列来枚举并确定各要素是否为出现在关键词索引中的关键词。如果要素不是关键词,则用短语边界(即, )字符取代。随后阵列要素被连接成字符串,其中各字符串用短语边界进行描述。然后确定各字符串是单个词或是短语。如果是短语,则将其视为关键短语,并添加至关键短语词典。应当理解,上述用于从文档中提取概念的方法是用于概念提取的一种示例性方法。可以使用许多其它的方法,并且本发明并非意图限制使用这种或任何其它特定的方法。此外,从数据域或语料库提取的现有概念定义可以用作各种属性集(不同属性的组合)的连贯性的量度。为获取现有概念和概括域内有效概念的上下文的关系,有效概念的输入通过诸如人或基于机器的专家系统的认知主体进行输入,并通过数据分析或语义处理协议进行处理,以便获取在域内覆盖有效概念上下文的现有概念和关系。现有概念,也称为真实概念定义,提供了用以构建虚拟概念及其围绕有效概念的随后关系的基础。图1示出了现有的方法,其中认知或输入主体通过语义分析和提取与域日期集起相互作用。相反, 如图2所示,至少一些本文所公开的方法,基于数据域内现有的定义,构想认知主体(诸如人)或输入主体经用户界面通过现有域资源的提取与树状结构综合的使用产生的相互作用,来构建新的概念定义。输入或认知主体能够进一步是类似于神经网络或发展的计算技术的计算机进程。树状结构综合创建了可以限制为特定上下文的概念和概念关系的图。一种可以用于执行树状结构综合的语义处理协议是形式概念分析。形式概念分析可被视为自动推导域内一组概念和对象及其特性(属性)集合中那些概念之间关系的形式表示的原则性方法。可以用于执行树状结构综合的其它语义处理协议是形式概念分析、分面分类综合和使用语义推理机的概念推理。所有这些方法都可以在现有技术中找到。关键术语解释域域是信息的主体,诸如(但不限于)文档语料库、网站或数据库。属性对象的特性。属性集连贯性当作为概念定义结构内的一个集合考虑时,属性集连贯性是概念属性逻辑连贯性的量度。内容节点由可以进行分类的任何对象所组成,例如文件、文档、文档的一部分、图像或存储的字符串。层次上位词和下位词的排列。上位词可被视为对象,而下位词可被视为属性。树状结构树状的层次,包括定向的类和子类,但仅仅使用属性子集以收窄视角。 组织结构图可被视为树状结构的例子。层次关系仅从职业角色或职责的角度来看是有效的。如果考虑到每个个体的所有的属性,则没有一种属性是层次相关的。概念定义以机器可读的方式结构限定的概念的语义表示称为概念定义。一种这类表示根据诸如概念属性的其它更基本的实体构建概念。概念定义具有其自己的层次,以概念作为母本而属性作为子本。属性反过来也可以作为概念而具有其自己的属性集。概念可以与特定内容节点相关。概念综合概念综合是新的(虚拟)概念和概念之间的关系的产物。置信梯度当置信度可以指用于评估一个属性集比其它属性集更具连贯性的可能性的算法的指标时,梯度是指有序值的范围。所以复合词“置信梯度”可以指在一组属性集内降低或升高置信水平,也可以指从在具有从普遍到具体的各单个属性计数的属性集内有序增加或降低置信指标。置信度可以使用许多属性的特性进行校准。在概念定义集中,两个经常使用的特性是所选属性之间的相对邻近和两个属性的共现。置信度的另一可能的量度将涉及相对邻近对共现的覆盖。分面分类综合分面分类综合允许使用不同类别或分面的属性对概念进行定义。 分面分类法合并了这样的原则信息具有多维性质并且能够以多种不同的方式进行分类。 信息域的主题可以细分至分面以表示该维度。域属性在分面层次相关。然后基于这些属性对域内物质进行识别并分类。在分面分类综合中的“综合”是指对对象的属性分配以限定真实的概念。根据本公开系统和方法的一个方面,通过从现有相关真实概念定义推导出虚拟概念定义,使用域内相关真实(现有)概念定义,示出了概念和概念之间层次关系的综合。推导出虚拟概念定义的动作可以利用现有技术中已知的许多语义处理协议来执行,诸如FCA 和分面分类综合或随后可能变得已知的协议。参照图3和图4,从认知主体输入或获取有效概念(AC)和从域提取相关真实概念定义。分析所提取的定义在AC定义的上下文中其属性集的连贯性。从提取的真实概念定义中选取属性集,并基于所选的属性集由概念综合过程推导出虚拟概念定义。这些推导出的虚拟概念定义然后组合成层次。剩余提取的真实概念定义然后相对于推导出的虚拟概念定义层次进行分析,并且如果任何剩余提取的真实概念定义能够用于构建更多的虚拟概念定义,则再次重复上述过程。如图3所示,应注意,整个树状综合过程的初始部分能够被视为图4所示的分期和分析阶段。例如,整个过程的综合阶段能够被视为包括例如图5的过程。图7是在其上可以执行图3-5所示过程的计算机系统的图。在图7中,从提取的域信息进行树状结构综合的系统可以接收从输入域输入的信息,并且可以接收从认知主体 (如,拟人化的用户)经系统用户界面和/或外部计算机进程而输入的有效概念定义。提取的域信息的树状结构综合系统包括至少一个连接到至少一个有形存储器的硬件处理器 (如,中央处理单元(CPU))。该系统还可以具有用于从输入域和一个或多个认知主体/计算机进程接收信息的输入/输出界面(未示出)。一旦认知主体和/或计算机进程已将有效概念定义提供给系统以进行树状结构综合,则该用于树状结构综合的系统可以执行图3-5 实例过程中的其余的步骤。形式概念分析在另一个方面,响应于有效概念输入推导出虚拟概念定义的方法之一是通过形式概念分析(FCA)。如果我们拥有具有在置信梯度中有序的属性集的真实概念定义Ra和 R3,上述置信梯度提供概念定义内属性连贯性的量度,按下式给出Ra = {K1,K3,K2}R^ = {Κ1,Κ3},那么我们具有层次Ri3 —Ra。同等地,具有真实概念定义集的R Y和RS,其中Ry = {Kl, K2, K3, K4}和R δ = {Kl, K3, Κ5, Κ6}这些概念之间没有层次。为了从R Y和R δ中构建层次,有必要使用FCA来从R γ
8和RS中推导出虚拟概念定义,从而达到层次关系的标准。所以我们以AC的输入主体或认知主体的输入为起点,AC用R={K1}表示。识别R,提取R γ和R δ使得其具有确保完整性的置信梯度,其中R γ和R δ由Ry = {ΚΙ, Κ2, Κ3, Κ4}和R5 = {Κ1,Κ3,Κ5,Κ6}来表示。因为属性出现于包含有效概念的概念定义内,所以假设有效概念和虚拟概念定义内的其它属性彼此具有上下文关系,使得在整个不同的概念定义上与有效概念共现的属性越多,则所述上下文关系越强。如果可能使用形式概念分析来构建虚拟概念定义集V γ,则使得VY具有可以基于属性普遍性的内置的置信梯度,其中Vy = {Κ1,Κ3}; 并且如果相似地可能构建V δ,使得V5 = {Κ1,Κ3,Κ4},然后两个虚拟概念定义V Y和V δ已被创建,V Y和V δ之间它们具有层次关系 Vy —νδ,然而每个虚拟概念定义由于与真实概念定义集RY和RS共享属性而单独具有在属性水平的关系。使用内置的置信梯度构津虚拟概念定义的形式概念分析的实例域输入(计算机、笔记本电脑、台式电脑、服务器、软件、操作系统、软件应用程序、CPU、计算器、算法、计算机语言、用户界面、机器语言)譬如域包括下述具有复合属性的真实概念定义从而使得其具有内置的置信梯度Rl {计算机、CPU、笔记本电脑、台式电脑、软件、计算器}R2 {计算机、服务器、软件、操作系统、软件应用程序、算法、计算机语言}R3 {计算机、机器语言、软件、算法}R4 {软件、用户界面、软件应用程序}△0={软件}什么与属性“软件”共现?计算机3次算法2次软件应用程序2次笔记本电脑1次台式电脑1次服务器1次
0079]操作系统1次机器语言1次用户界面1次CPU 1 次计算器1次
计算机语言1次计数以找出与属性“软件”共现次数最多的属性,人们发现“计算机”是与“软件” 共现的最普遍的属性。因此创建VI {软件、计算机}。现在树状结构看起来如下AC {软件}I+-VI :{软件、计算机}I+-V2 {软件、软件应用程序}I+_V3:{软件、算法}继续递归地,人可以确定真实概念定义内与“软件”和“计算机”共现的属性。在此,人们发现如下笔记本电脑1台式电脑1服务器1操作系统1软件应用程序1CPU 1计算器1算法2计算机语言1机器语言1因此树状结构如下八({软件}I+-VI :{软件、计算机}I I+_V4:{软件、计算机、算法}I+-V2 {软件、软件应用程序}I+_V3:{软件、算法}结果,VI和V4存在于层次中,并且从R1、R2、R3和R4中推导而来。对于具有其它属性的大量真实概念定义而言,可能发现更多的层次结构和关系。对于给定的有效概念而言,如果系统并未回返足够数量的真实概念定义以推导虚拟概念定义,则能够对任意数量的域进行搜索以实现目标。足够数量可以被视为所需域的最小数量,以便在推导出的虚拟概念内产生一个层次的至少可选的深度,此外,或可以要求从域产生可推导虚拟概念定义的层次的至少可选数量。此外,所推导出的层次的最大可选深度和层次的最大可选数量可以覆盖综合进程。作为用于构建虚拟概念定义的置信量度,覆盖其它标准,即相对邻近,能够使用形式概念分析改变从真实概念定义中推导出的虚拟概念。相对邻近可以指在概念定义的属性集内一个属性对另一个的物理分离。在上述实例中,在R2内,属性“软件”是离“计算机” 和“软件应用程序”远的一个属性,然而“软件”是离“算法”远的两个属性。然而,在R3内, “软件”是邻近于“算法”或离“算法”远的零属性。所以人们能够将零视为来自现有域信息的“软件”和“算法”的缺省相对邻近。如果指定相对邻近更多的加权并且相对邻近覆盖上述实例,则具有较高置信量度的虚拟概念将位于树状结构的顶部。例如,在这种情况下,VI 将为VI:{软件、算法}因为“软件”是离“算法”远的零属性,而“软件”是离“计算机”远的一个属性,因此即使“计算机”与“软件”共现3次,“算法”仍将优先于“计算机”。因此,如果相对邻近的加权将侧重点从一个属性转移至具有较高相对邻近的另一个,那么所有虚拟概念将会改变。此外,如果属性之间的相对分离是相等的,那么较高的共现值将向推导出的虚拟概念定义指定较高的置信量度。向相对邻近指定比共现更多的加权背后的逻辑是,相对邻近从现有真实概念定义中是可直接观察的,所述现有真实概念定义是按照概念定义内连贯性的分段集。在上述实例中,集Rl至R4是相关联的集。如果真实概念定义是不相交的集,也就是说,如果没有一个真实概念定义的属性是重叠的,那么数据转换按如下所述进行假设不相交的真实概念定义集为R5 {1,2,3,4,5}R6 {6,7,8,9,10}如果有效概念是AC {2,8}然后,应用形式概念分析来推导虚拟概念定义将给予我们如下列表{2,1},{2, 3},{2,4},{2,5},{8,6},{8,7},{8,9}和{8,10}。此外,相对邻近的覆盖将列表缩短为{2, 1},{2,3}, {8,7}和{8,9}。分离的真实概念定义引起分支(或谱系)分离,每个分支表示所述有效概念的相关部分。重复分析所需的用于用尽真实概念定义内属性列表的次数。如上详述,虚拟概念的推导由通过共现和相对邻近测得的置信度进行限定。也应注意,人们能够调节这些加权量度以获得所需的结果范围,也就是说,改变相对邻近量度以扩大或缩小所得的虚拟概念定义的量。分面分类综合在本公开的另一个方面,响应于有效概念的输入推导虚拟概念定义的方法之一可以通过使用分面分类综合(FCS)进行,所述分面分类综合基于存在于域内的分面和属性的结构之上。图6是一个很好的例子。域输入(计算机、笔记本电脑、台式电脑、服务器、软件、 Windows 、Linux 、操作系统、软件应用程序、CPU、计算器、算法、计算机语言、用户界面、机器语言、C、Visual Basic 、c++、HTML)在本实例中,域包括由FCS构建的下述分面,分面具有其复合属性从而使得其具有分类结构所遵循的内置的置信梯度。Fll :{计算机、服务器}F12:{计算机、计算器}F13 :{计算机、笔记本电脑}F14:{计算机、台式电脑}F211 {软件、操作系统、Windows}F212 {软件、操作系统、Linux}F221 {软件、软件应用程序、用户界面}F222 {软件、软件应用、算法}F2311 {软件、计算机语言、C、C++}F232 {软件、计算机语言、机器语言}F233 {软件、计算机语言、Visual Basic}F234 {软件、计算机语言、HTML}在本实例中,上文列出的所有分面属性集和数字索引(例如F233)是指分面属性层次内的独特路径,其具有任何其上继承所有现有属性的属性。独特路径是指参照图6的索引路径。从左起第一位的索引1是指计算机,而第一位的索引2是指软件。继续前进,下一个索引数字是指低一个等级的继承属性,并且第三个索引数字是指等级更低的属性。在图6中,索引路径仅确保用于属性进入的一个路径。基于分面属性集,假设真实概念定义如下IBM PC {台式电脑、Windows}ThinkPad {笔记本电脑、Linux}网页{服务器、HTML、UI}浏览器{台式电脑、操作系统、软件应用程序、计算机语言}网络计算器{服务器、HTML、软件应用程序}计算{计算器、机器语言}如果有效概念以如下方式输入AC {操作系统、计算机语言}则可以使用分面分类综合继承边界和具有相对邻近的覆盖(使用零和一个分离) 从给定的真实概念中推导出虚拟概念定义。在推导虚拟概念定义的过程中,分面分类综合规则准许在属性层次内用子属性取代母属性。这些分面分类综合取代规则的执行能够使得任选地执行综合。取代规则应用于以下实例。结果如下Vl{操作系统、软件应用程序、计算机语言}
V2{软件应用程序、计算机语言}
V3{软件应用程序、HTML}
V4{软件应用程序、C}
V5{软件应用程序、C++}
V6{软件应用程序、Visual Basic}
V7{台式电脑、操作系统、软件应用程序}
V8{台式电脑、操作系统、软件应用程序、计算机语言}
V9 {服务器、HTML}VlO {服务器、HTML、软件应用程序}Vll {服务器、HTML、UI}V12 {台式电脑、Windows}V13 :{笔记本电脑、Linux}V14 :{台式电脑、Linux}V15 {笔记本电脑、Windows}V16:{计算器、机器语言}在执行结果中,应注意大量的虚拟概念定义安排于层次中。在任何时候,由于在推导虚拟定义时严格地考虑到分面分类综合继承路径,推导出的概念定义的置信度保持完整,如同其在现有域内一样。如果域分面属性集的深度大于此处给定实例的深度,则可以设置相对邻近大于另一个。其它虚拟定义随后用更深的结构来导出。如上所述,推导出的虚拟概念定义及属性的最小数量和最大数量在分面分类综合内是可选的。此外,以任何语义处理形式对推导出的虚拟概念定义的限制也可以建立在置信梯度或其它定性的基础上,其它定性方面诸如(且不限于)具有可能是至少一个真实概念的母集的每个概念或不具有与母集相同的子集的概念。如果将域对象定义为真实概念定义,使得一组真实概念定义专门地从某组的分面属性集提取属性,并且另一组的真实概念定义从不同组的分面属性集(具有不相交的真实概念定义)提取属性,则有效概念将用尽第一组真实概念定义,且随后一次用尽任意其它一个分离的组直至所有真实概念定义的不相交的组用尽为止。像往常一样,基于许多特性或仅仅是任意数量的特性可选择覆盖以便限制有效概念用尽真实概念定义。综合过程的另一有趣的结果是产生诸如“面元划分”的简单的且上位的概念,其在提取的真实定义中可能不可以随时使用。通常,面元是基于一个或多个共同(共享)属性分组多个其它概念的概念,在所述形式概念分析中,该面元整体从诸如VI {软件、计算机} 的多个真实概念中推导出。在本发明的所有方面,当与在有效概念上下文中重点地提取的现有真实概念定义相比时,树状结构分类和概念综合的独特组合提供更多数量的结构精简的虚拟概念定义及它们的关系。这点实质上是树状结构综合的主要目标。本发明的上述实施例能够以多种方法中的任一种来实施。例如,可以使用硬件、软件或它们的组合来实施实施例。当以软件来实施时,无论是单个计算机提供或是分布于多个计算机,软件代码能够在任何合适的处理器或处理器集上来执行。应当理解,执行上述功能的任何部件或部件集可通常被视为控制上述功能的一个或多个控制器。一个或多个控制器能够以多种方式来执行,诸如使用专用硬件或者使用通用硬件(如,一个或多个处理器),该硬件使用微码或软件进行编程以执行上述功能。在这方面,应当理解,一种本发明实施例的实施包括使用计算机程序(即,许多个指令)进行编码的至少一种计算机可读的存储媒介(如,计算机内存、软盘、磁盘、磁带和/ 或其它有形存储媒介),当在处理器上执行时,所述存储媒介执行上述的本发明实施例的功能。计算机可读媒介是便携的,使得存储其上的程序能够安装至任何计算机系统资源以执行本文所讨论的本发明的所有方面。此外,应当理解,所提到的计算机程序不限于在主机上
13运行的应用程序,当执行时,其执行上述的功能。更确切地说,本文所用的术语计算机程序在一般意义上是指任何类型的计算机代码(如,软件或微码),所述计算机代码能够用于编码处理器以执行上述本发明的各个方面。应当理解,根据本发明的几个实施例,其中在计算机可读的媒介中执行所述方法, 在执行过程中,计算机执行的方法可以以上文所述的方式手动接收输入(如,从用户)。已经详细描述了本发明的几个实施例,本领域的技术人员易于做出各种变更和完善。该等变更和完善旨在落在本发明的实质和范围之内。因此,以上描述仅以举例的方式给出,而并非旨在作为限制。本发明仅被限制为以下权利要求书和其等同物。
权利要求
1.一种操作计算机以执行计算机可执行程序以用于综合概念定义和关系方法,包括 获取有效概念定义;从域内提取多个具有属性的真实概念定义并分析其在其属性内的连贯性; 将所述有效概念定义与所述提取的真实概念定义相匹配;以及通过语义处理从所述真实概念定义中推导出多个虚拟概念定义,从而使得所述推导出的虚拟概念定义形成其自身之间的关系。
2.根据权利要求1所述的方法,使用所述推导出的虚拟概念定义推导其它可能的虚拟概念定义。
3.根据权利要求1所述的方法,其中所述关系是层次结构。
4.根据权利要求1所述的方法,其中一种推导出的虚拟概念定义的层次的深度是可选的。
5.根据权利要求4所述的方法,其中所述层次深度的选择基于置信梯度之上。
6.根据权利要求1所述的方法,其中虚拟概念定义的可导出的量受到数量的限制。
7.根据权利要求1所述的方法,其中虚拟概念定义的可导出的量基于定性之上。
8.根据权利要求7所述的方法,其中所述定性是由置信梯度来决定的。
9.根据权利要求1所述的方法,进一步包括搜寻多个域以创建虚拟概念定义的可选数量。
10.根据权利要求1所述的方法,进一步包括搜寻多个域以创建虚拟概念定义的层次的可选深度。
11.根据权利要求1所述的方法,其中所述推导出的虚拟概念定义是在其自身内的多层次关系中。
12.根据权利要求1所述的方法,其中所述现有真实概念定义用作各种属性集的连贯性的量度。
13.根据权利要求1所述的方法,其中所述推导出的虚拟概念定义是树状结构的部分。
14.根据权利要求1所述的方法,其中所述推导出的虚拟概念定义是在具有真实概念定义的多层次关系中。
15.根据权利要求1所述的方法,其中所述推导出的虚拟概念定义的范围相对于在属性集内属性之间的相对邻近量度的变化是可变的。
16.根据权利要求1所述的方法,其中所述推导出的虚拟概念定义包括面元。
17.根据权利要求1所述的方法,其中所述语义处理基于分面分类综合之上。
18.根据权利要求17所述的方法,其中用子属性取代母属性的属性取代规则使得综合虚拟概念定义是任选的。
19.根据权利要求1所述的方法,其中所述语义处理基于形式概念分析之上。
20.一种综合概念定义和关系的计算机可执行的方法,包括 获取有效概念定义;从域内提取多个具有属性的真实概念定义,并分析其在其属性内的连贯性; 将所述有效概念定义与所述提取的真实概念定义相匹配;以及通过语义处理从所述真实概念定义中推导出多个虚拟概念定义,使得所述推导出的虚拟概念定义形成其自身之间的关系。
21.根据权利要求20所述的方法,其中所述关系是层次结构。
22.根据权利要求20所述的方法,包括相对邻近概念的最终覆盖的其它步骤,所述相对邻近概念进一步影响属性的选择。
23.一种包含可执行的计算机程序指令的机器可读的媒介,当通过数据处理系统执行时,所述计算机程序指令使得所述系统执行方法,所述方法包括获取有效概念定义;从域内提取包括属性的多个真实概念定义,并分析在其属性内的连贯性;将所述有效概念定义与所述提取的真实概念定义相匹配;以及通过语义处理从所述真实概念定义中推导出多个虚拟概念定义,使得所述推导的虚拟概念定义形成层次结构。
24.根据权利要求23所述的包含可执行的计算机程序指令的机器可读的媒介,其中所述关系是层次结构。
25.根据权利要求23所述的包含可执行的计算机程序指令的机器可读的媒介,其中所述方法包括相对邻近概念的最终覆盖的其它步骤,所述相对邻近概念进一步影响属性选择。
26.一种语义数据处理计算机系统,包括至少一个有形存储器,所述有形存储器存储用于综合概念定义和关系的处理器可执行的指令;和至少一个连接到所述至少一个有形存储器的硬件处理器,所述硬件处理器执行所述处理器可执行的指令以获取有效概念定义;从域内提取多个具有属性的真实概念定义,并分析其在其属性内的连贯性;将所述有效概念定义与所述提取的真实概念定义相匹配;以及从所述真实概念定义语义处理中推导出多个虚拟概念定义,使得所述推导出的虚拟概念定义形成层次结构。
27.根据权利要求26所述的系统,其中所述关系是层次结构。
28.根据权利要求26所述的语义数据处理系统,其中所述至少一个硬件处理器执行所述处理器可执行的指令以覆盖相对邻近概念,所述相对邻近概念进一步影响属性选择。
全文摘要
本文公开了用于利用不同的语义处理协议,诸如具有内置的置信梯度的现有域概念的形式概念分析和分面分类综合,来从数据域中综合概念定义和概念关系的计算机可执行的系统和方法。认知主体或输入主体提供与现有域概念相匹配的有效概念的输入。使用语义处理协议,相关域概念所产生的集随后用于推导虚拟概念定义。所述推导结果随后覆盖属性集内另一属性的相对邻近概念。通过所述相对邻近量度给定其它层的连贯性。最终结果是在树状结构中相关的虚拟概念定义集。
文档编号G06F17/27GK102177514SQ200980133432
公开日2011年9月7日 申请日期2009年8月28日 优先权日2008年8月29日
发明者A·D·布莱克, P·斯威尼 申请人:启创互联公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1