一种基于形式概念分析理论的术语定义方法及系统与流程

文档序号:13760460阅读:168来源:国知局
一种基于形式概念分析理论的术语定义方法及系统与流程

本发明涉及互联网技术领域,特别涉及一种基于形式概念分析理论的术语定义方法及系统。



背景技术:

随着互联网应用逐渐向智能化和自动化方向发展,本体作为概念模型和概念间关系的规范描述,被广泛应用于信息系统和下一代互联网语义网领域。

现阶段,本体的构造多采用半自动化的方法,其中本体中术语的定义大多由专家手工编辑完成,效率不高,因而需要一种形式化的方法来完成术语的自动化定义。



技术实现要素:

本发明实施例提供了一种基于形式概念分析理论的术语定义方法及系统,用以解决现有技术中存在的问题。

一种基于形式概念分析理论的术语定义方法,所述方法包括:

获取本体的形式背景K=(G,M,I),并根据所述形式背景建立对应的概念格L(K),其中G和M为两个集合,I表示G和M之间的二元关系,G中的元素g称为对象,用来表示所述本体中的术语,M中的元素m称为属性,用来描述所述术语的特征;

计算所述概念格L(K)中每一个概念的最小产生子R;

根据所述最小产生子R计算每一个对象a∈G的描述d(a),即每一个术语的形式化定义;

其中,计算所述最小产生子R具体包括:

从所述概念格L(K)中的最大概念开始采用宽度优先遍历访问所述概念格L(K)中的每一个概念;

对于访问的每一个概念,若这个概念是属性概念,则这个概念的最小产生子R是这个概念的属性标签;否则,这个概念的最小产生子R是其任意两个上近邻的最小产生子的并集;

计算所述描述d(a)具体包括:

在所述形式背景K=(G,M,I)中,定义定义对于每一个所述对象a∈G,在所述概念格L(K)中找出所述对象a的概念(g(f(a)),f(a)),并标记所述概念为C=(A,B),其中A代表概念C的外延,B代表概念C的内涵;

存在对象b∈G并且时,将C=(A,B)的下近邻标记为S=(As,Bs),当存在概念(Af,Bf)为概念C的上近邻,概念(Afs,Bfs)为S的上近邻,并且满足Af-Afs=A-As时,则将概念C更新为(Af,Bf),将概念S更新为(Afs,Bfs),其中As,Bs分别表示概念S=(As,Bs)的外延和内涵,Af,Bf分别表示概念(Af,Bf)的外延和内涵,Afs,Bfs分别表示概念(Afs,Bfs)的外延和内涵;

确定所述描述其中rt为R中的元素,T为标集,{hs}s∈S是C和S的内涵的差集。

优选地,所述方法还包括:

若不存在对象b∈G并且则确定所述描述

本发明还提供了一种基于形式概念分析理论的术语定义系统,所述系统包括:

概念格计算模块,用于获取本体的形式背景K=(G,M,I),并根据所述形式背景建立对应的概念格L(K),其中G和M为两个集合,I表示G和M之间的二元关系,G中的元素g称为对象,用来表示所述本体中的术语,M中的元素m称为属性,用来描述所述术语的特征;

最小产生子计算模块,用于计算所述概念格L(K)中每一个概念的最小产生子R;

形式化定义确定模块,用于根据所述最小产生子R计算每一个对象a∈G的描述d(a),即每一个术语的形式化定义;

其中,所述最小产生子计算模块包括:

概念格遍历子模块,用于从所述概念格L(K)中的最大概念开始采用宽度优先遍历访问所述概念格L(K)中的每一个概念;

最小产生子确定子模块,用于对于访问的每一个概念,若这个概念是属性概念,则这个概念的最小产生子R是这个概念的属性标签;否则,这个概念的最小产生子R是其任意两个上近邻的最小产生子的并集;

所述形式化定义确定模块包括:

概念确定子模块,用于在所述形式背景K=(G,M,I)中,定义定义对于每一个所述对象a∈G,在所述概念格L(K)中找出所述对象a的概念(g(f(a)),f(a)),并标记所述概念为C=(A,B),其中A代表概念C的外延,B代表概念C的内涵;

形式化定义更新子模块,用于存在对象b∈G并且时,将C=(A,B)的下近邻标记为S=(As,Bs),当存在概念(Af,Bf)为概念C的上近邻,概念(Afs,Bfs)为S的上近邻,并且满足Af-Afs=A-As时,则将概念C更新为(Af,Bf),将概念S更新为(Afs,Bfs),其中As,Bs分别表示概念S=(As,Bs)的外延和内涵,Af,Bf分别表示概念(Af,Bf)的外延和内涵,Afs,Bfs分别表示概念(Afs,Bfs)的外延和内涵;

第二形式化定义确定子模块,用于确定所述描述其中rt为R中的元素,T为标集,{hs}s∈S是C和S的内涵的差集。

优选地,所述形式化定义确定模块还包括第一形式化定义子模块,用于不存在对象b∈G并且时,确定所述描述

本发明实施例中一种基于形式概念分析理论的术语定义方法及系统,采用形式概念分析的理论对本体中的术语进行形式化的释义,提高本体构建的自动化程度,降低手工编辑过程的人工花费。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于形式概念分析理论的术语定义方法的步骤流程图;

图2为本发明实施例提供的一种基于形式概念分析理论的术语定义系统的功能模块图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在介绍本发明的技术方案前,首先需要对一些名词概念进行解释:

形式概念分析:形式概念分析(Formal Concept Analysis,FCA)是Wille提出的以序理论和完备格理论为基础,依据数据库中提供的基本信息建立起的一种刻画对象与属性之间关系的形式化方法。形式概念分析强调以人的认知为中心,提供了一种与传统的、统计的数据分析和知识表示完全不同的方法。由于它便于概念结构的开发和讨论,在某种意义上,概念格已经变成了一种外部认知的手段,在机器学习、数据挖掘、信息检索等领域得到了广泛的应用。

本体:本体(Ontology)是一种描述术语及术语间关系的概念模型。本体的形式可简单可复杂。最简单的词汇表(只给出术语集合的定义,不解释术语之间的关系)也可以看成是一种“本体”;但严格意义上的本体,是既解释了术语、也描述了术语之间关系的。在日常生活中,图书分类法是一种最常见、最成熟的本体。

定义1:一个形式背景K=(G,M,I)是由两个集合G和M以及G与M之间的关系I组成。G的元素称为对象,M的元素称为属性。(g,m)∈I或gIm表示对象g具有属性m。

定义2:在形式背景K=(G,M,I)中,定义相应地,定义

定义3:在形式背景K=(G,M,I)中,如果有f(A)=B,g(B)=A,则称二元组C=(A,B)是一个概念,A是概念C的外延,B是概念C的内涵,并记K的全体概念为B(K)。

定义4:在形式背景K=(G,M,I)中,概念C1=(A1,B1),C2=(A2,B2)∈B(K),定义并称C2是C1的父概念,C1是C2的子概念,≤称为是概念的层次序,B(K)中的所有概念用这种序组成的集合称为概念格,记做L(G,M,I)。若概念C1≤C2,且不存在概念C3使得C1≤C3≤C2,则称C2是C1的上近邻或称C1是C2的下近邻,并分别记作C1<C2和C2>C1

定义5:在一个概念格L(G,M,I)中,如果一个概念具有形式(g(f(g)),f(g))且g∈G,则称(g(f(g)),f(g))是一个对象概念;如果一个概念具有形式(g(m),f(g(m)))且m∈M,则称(g(m),f(g(m)))是一个属性概念。

定义6:对于概念格L(G,M,I)中的概念(A,B),如果对象集合R满足f(R)=B,且对于任意的有则称R是概念(A,B)的最小产生子。

概念格有以下性质:若一个概念只有一个上近邻,则这个概念是一个属性概念;若一个概念只有一个下近邻,则这个概念是一个对象概念。

在形式概念分析的语境下,本体中的术语等同于形式背景中的对象。因此,本体中的术语的定义等同于对象的描述。

参照图1,本发明实施例提供了一种基于形式概念分析理论的术语定义方法,所述方法包括:

步骤100,获取本体的形式背景K=(G,M,I),并根据形式背景建立对应的概念格L(K);其中G的元素g称为对象,用来表示本体中的术语,M的元素m称为属性,用来描述术语的特征,I表示G和M之间的二元关系,(g,m)∈I或gIm表示对象g具有属性m。

步骤110,计算概念格L(K)中每一个概念的最小产生子R;

具体通过如下步骤实施:

步骤111,从最大概念开始采用宽度优先遍历访问概念格L(K)中的每一个概念;

步骤112,对于访问的每一个概念,若这个概念是属性概念,则这个概念的最小产生子是这个概念的属性标签;否则,这个概念的最小产生子是其任意两个上近邻的最小产生子的并集。

步骤120,计算每一个对象a∈G的描述d(a),即得到每一个术语的形式化定义;

具体通过如下步骤实施:

步骤121,在形式背景K=(G,M,I)中,定义相应地,定义对于每一个对象a∈G,在概念格L(K)中找出该对象的概念(g(f(a)),f(a))并标记为C=(A,B),其中A代表概念C的外延,B代表概念C的内涵;

步骤122,若存在对象b∈G并且则执行步骤123;若不存在对象b∈G并且则描述其中rt为R中的元素,即rt∈R(t∈T),T为标集,^表示逻辑合取;

步骤123,将C=(A,B)的下近邻标记为S=(As,Bs),当存在概念(Af,Bf)>C和概念(Afs,Bfs)>S并且满足Af-Afs=A-As时,则将概念C更新为(Af,Bf),将概念S更新为(Afs,Bfs),其中As,Bs分别表示概念S=(As,Bs)的外延和内涵,Af,Bf分别表示概念(Af,Bf)的外延和内涵,Afs,Bfs分别表示概念(Afs,Bfs)的外延和内涵。

步骤124,描述{hs}s∈S是C和S的内涵的差集,其中^表示逻辑合取,表示逻辑非。

利用上述技术,可以得到本体中每一个术语的定义。

在匈牙利的一个科教电影“生物和水”中,存在8种生物,分别是蚂蝗(1)、鱼(2)、蛙(3)、狗(4)、水草(5)、芦苇(6)、豆(7)、玉米(8)。同时,这个电影强调了9种生物属性,即a(需要水)、b(在水中生活)、c(在陆地上生活)、d(有叶绿素)、e(双子叶)、f(单子叶)、g(能运动)、h(有四肢)和i(会哺乳)。

这些生物构成了一个领域本体,其对应的形式背景见表1。对于表1中的形式背景K,可以得到对应的概念格L(K),以及每一条术语的形式化定义,见表2。

表1形式背景K

表2术语的形式化定义

基于同一发明构思,本发明实施例提供了一种基于形式概念分析理论的术语定义系统,如图2所示,由于该系统解决技术问题的原理和一种基于形式概念分析理论的术语定义方法相似,因此该系统的实施可参照方法的实施,重复之处不再赘述。

概念格计算模块200,用于获取本体的形式背景K=(G,M,I),并根据形式背景建立对应的概念格L(K);

最小产生子计算模块210,用于计算所述概念格L(K)中每一个概念的最小产生子R;

所述最小产生子计算模块210包括:

概念格遍历子模块211,用于从最大概念开始采用宽度优先遍历访问概念格L(K)中的每一个概念;

最小产生子确定子模块212,用于对于访问的每一个概念,若这个概念是属性概念,则这个概念的最小产生子是这个概念的属性标签;否则,这个概念的最小产生子是其任意两个上近邻的最小产生子的并集;

形式化定义确定模块220,用于计算每一个对象a∈G的描述d(a),即得到每一个术语的形式化定义;

所述形式化定义确定模块220包括:

概念确定子模块221,用于对于每一个对象a∈G,在概念格L(K)中找出该对象的概念(g(f(a)),f(a))并标记为C=(A,B),其中A代表概念C的外延,B代表概念C的内涵;

第一形式化定义子模块222,用于在不存在对象b∈G并且时,确定描述其中rt为R中的元素,T为标集;

形式化定义更新子模块223,用于在存在对象b∈G并且时,将C=(A,B)的下近邻标记为S=(As,Bs),当存在概念(Af,Bf)>C和概念(Afs,Bfs)>S并且满足Af-Afs=A-As时,则将概念C更新为(Af,Bf),将概念S更新为(Afs,Bfs),;

第二形式化定义确定子模块224,用于确定描述{hs}s∈S是C和S的内涵的差集。

应当理解,以上一种基于形式概念分析理论的术语定义系统包括的模块仅为根据该系统实现的功能进行的逻辑划分,实际应用中,可以进行上述模块的叠加或拆分。并且该实施例提供的一种基于形式概念分析理论的术语定义系统所实现的功能与上述实施例提供的一种基于形式概念分析理论的术语定义方法一一对应,对于该系统所实现的更为详细的处理流程,在上述方法实施例一中已做详细描述,此处不再详细描述。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1