融合数据元标准的叙词本体构建方法与流程

文档序号:17066275发布日期:2019-03-08 22:56阅读:331来源:国知局
融合数据元标准的叙词本体构建方法与流程

本发明涉及的是大数据技术中的知识组织领域,涉及本体构建技术,具体涉及的是融合数据元标准的叙词本体构建方法。

二、

背景技术:

本体作为一种重要的知识组织系统,在知识管理、语义web和人工智能等方面发挥着重要作用。本体最初来源于哲学领域,意为对现实世界真实存在所做出的客观性描述。后被引入图书情报、知识工程、人工智能等领域并成为这些领域的热门研究课题之一。本体构建技术一直是本体相关研究中的一个重点,同时,目前常用的本体构建方法有本:骨架法、tove法、五步循环法、kactus工程法、斯坦福大学开发的七步法等,其中,比较通用的是七步法。但是,这些传统的本体构建方法代价较高,需要耗费大量的人力物力,特别是在在抽取概念和关系时各领域专家的参与增加了构建领域本体的成本,限制了以领域本体为基础的语义网的发展和普及。本体构建问题成为制约语义网成功与普及的瓶颈。如果利用现有的知识源来构建本体,将会大大降低构建本体的代价,因此,国内外许多学术团体开始利用现有的叙词表、分类表与分类主题一体化词表来构建本体。基于叙词表的本体构建主要有手动构建和自动/半自动构建两种。手动构建是指领域专家在分析叙词表的叙词及语义关系的基础上,手工建立概念模型,并将叙词转为本体的概念,将词间关系及注释转为本体的语义关系,最后通过添加领域知识等语义丰富机制来构建完善本体。而半自动/自动转换方法则是先通过各领域专家分析词表,制定一个精确调整语义关系的规则,在此基础上设计程序实现叙词表到本体的自动转换。但是因为叙词表中并没有将对象类术语与特性类术语做出区分,不论是手工转换还是自动/半自动转换,大多数都只是从领域出发,单纯的依据叙词表本身来进行叙词本体构建,将叙词转换为本体中的概念,将叙词间的“用、代、属、分、参”映射为本体中概念间的关系,对属性、约束等的构建多依靠人力,主观性较强,缺乏一个标准化的方法论。这样构建出来的本体在语义上完整性较差且权威性不强。因此,现存的基于叙词表的本体构建方法主要存在以下四个问题:

1、没有对对象类叙词与特性类叙词做出区分,构建的本体普遍缺乏完备的语义;

2、缺乏标准化的保障机制,在将叙词表转换为本体的过程中,并没有一个通用的标准,每个构建者都是按照自己的理解来构建本体,在对概念间关系的定义过程中受人的影响较大,主观性过强;

3、缺乏对于数据属性值域标准支撑的考虑;

4、没有将公理与约束考虑进去。

在语义本体的实际使用过程中,如果使用采用现有方法构建出来的本体,将会产生如下不利影响:

1、对领域内知识描述不完整;

2、如果利用该叙词本体进行语义检索,容易错检或漏检,检索效果较差;

3、不利于语义推理。

由此可见,原有的本体构建方法在语义表达方面不够清晰全面、受人的主观影响较大,因此,必须在原有的基于叙词表构建本体方法的基础上进行改进,从而提高所构建本体在知识表达上的全面性与完整性。

三、

技术实现要素:

本发明的目的是提供融合数据元标准的叙词本体构建方法,这种融合数据元标准的叙词本体构建方法用于解决目前叙词本体构建中,缺乏统一标准、语义完整性较差和受人的主观性影响较大的问题。

本发明解决其技术问题所采用的技术方案是:这种融合数据元标准的叙词本体构建方法如下:

步骤一、依据数据元标准,对原有叙词表中的叙词进行分类,依次划分为对象类叙词、特性类叙词、数据元概念类叙词三种;

划分方法为:

对象类叙词是指描述现实世界中某个对象的叙词;

特性叙词是指描述现实世界中某个对象特性的叙词,特性是对象类中所有成员所具有的共同的特征;

数据元概念类叙词是表示数据元概念的叙词;

步骤二、对叙词表中的对象类叙词、特性类叙词以及数据元概念类叙词进行标记,将对象类叙词标注为object,将特性类叙词标注为property;数据元概念类叙词标注为dec;

步骤三、将叙词表中步骤二标注过的对象类叙词、特性类叙词以及数据元概念类叙词注册到mdr中;

按照国际标准,实现元数据注册系统(mdr)内容一致性的规程(iso/iectr20943:2003,idt),将叙词表中标注过对象类叙词、特性叙词、数据元概念叙词注册到mdr中;

步骤四、将叙词表中的叙词之间存在的词间关系注册到mdr中;

将叙词款目中代、分、属、参、族关系对应的叙词和关系注册到mdr中;叙词的词间关系注册至mdr时,先选择相应的关系类型,然后,填写叙词对应的关系角色;“代”关系在mdr中为同一关系,“分”、“属”、“族”均为mdr中的属种关系,“参”对应为相关关系;

步骤五、mdr概念元模型到本体模型的映射;

mdr概念元模型:mdrcs=(cs,c,r,rr,le,li,),其中cs表示概念系统的集合;c表示概念的集合;r表示关系的集合;rr表示关系角色的集合;le表示链端的集合,其中每个元素都是一对概念和关系角色,形如<c,rr>,其中c∈c,r∈rr;li表示链环的集合,其中li∈li,每个链环都是由一个关系链接两个链端所形成;

本体模型:o=(cl,p,rel,dt,prop,relation),其中cl表示类的集合;p表示属性的集合;rel表示关系的集合;dt表示数据类型的集合;prop是一个三元组<cl,p,dt>,表示的一个类的某一项属性,其中cl∈cl,p∈p,dt∈dt。relation是一个三元组<cl1,rel,cl2>,表示两个类之间的关系,其中{cl1,cl2}∈cl,rel∈rel;

mdr概念元模型到本体模型的映射方法:

规则1:c→cl;rr→rel;

规则2:li→relation;lir(<c1,rr1>,<c2,rr2>)→relationrel(cl2,cl1)或relationrel(cl1,cl2);c1→cl1,c2→cl2;其中r∈r,rel∈rel,{c1,c2}∈c,{cl1,cl2}∈cl,{rr1,rr2}∈rr;

步骤六、mdr数据描述元模型到本体模型的映射;

mdr数据描述元模型:mdrd=(cd,vm,vd,oc,pr,dec,de,dim),其中cd表示概念域的集合;vm表示值含义的集合;vd表示值域的集合;oc表示对象类的集合,pr表示特性的集合;dec表示数据元概念的集合;de表示数据元的集合,de∈de;dim表示维度的集合;

mdr数据描述元模型到本体的映射方法:

规则1:cd→cl;oc→cl;pr→p;vd→dt;dec→cl×p;dim→cl;

规则2:de→prop;(<oc,pr>,vd)→propp(cl,dt);oc→cl,pr→p,vd→dt;其中oc∈oc,pr∈pr,vd∈vd,p∈p,cl∈cl,dt∈dt;

步骤七、依据mdr概念元模型到本体模型的映射方法、mdr数据描述元模型到本体模型的映射方法构建叙词本体,

根据mdr概念元模型到本体模型的映射,从mdr中选择构建本体所需的概念c、链环li,将所选择的概念c定义为本体中的类cl,将候选链环li定义为本体中的rel;根据mdr数据描述元模型到本体的映射,从mdr中选择完善本体所需的属性pr和数据元概念dec,将dec定义为本体中对应类cl的属性p。

有益效果:

1、本发明能够为领域本体的构建提供标准化的方法和流程,增强了叙词本体构建过程的规范性和可操控性。

2、本发明通过类属性的添加,增强了所构建的叙词本体的语义完整性、可靠性与准确性。

3、本发明为领域内的知识组织、管理、共享与搜索服务建立坚实基础。

4、本发明是基于数据元标准的叙词本体构建,通过将数据元标准引入到领域叙词本体的构建中来,能够为领域叙词本体的构建提供通用的标准化的方法和流程,保证所构建的叙词本体在语义表达上的完整性、可靠性与准确性。

四、附图说明:

图1为叙词表款目结构图;

图2为本发明中mdr概念元模型到本体模型的映射图;

图3为本发明中mdr数据描述元模型到本体模型的映射图。

五、具体实施方式:

下面结合附图对本发明做进一步的说明:

这种该融合数据元标准的叙词本体构建方法具体如下:

步骤一、依据数据元标准,对原有叙词表中的叙词进行分类,依次划分为对象类叙词、特性类叙词、数据元概念类叙词三种;

划分方法为:

对象类叙词是指描述现实世界中某个对象的叙词;对象类是思想、概念或真实世界中的事物的集合,它们具有清晰的边界与含义。对象类是人们希望研究、搜集和存储它们的相关数据的事物,例如苹果、抽油机、订单等。

特性叙词是指描述现实世界中某个对象特性的叙词,特性是对象类中所有成员所具有的共同的特征。

数据元概念类叙词是表示数据元概念的叙词。数据元概念则是能以数据元的形式表示的概念,其描述与任何特定表示法无关。例如原油密度、输油管长度等。

数据元是由一组属性规定其定义、标识、表示和允许值的数据单元。

国家标准gb13190-91对本体的定义为:叙词表是将文献、标引人员或用户的自然语言转换成规范语言的一种术语控制工具;它是概括各门或某一学科领域并由语义相关、族性相关的术语组成的可以不断补充的规范化的词表。由此可见,叙词表就是某个特定学科领域内表达事物概念的词汇集合,是通过某种方式对叙词之间的各种词义联系进行显示的词汇系统;叙词表主要由叙词及它们之间的关系组成,叙词之间的关系主要由用、代、属、分、族、参等参照项来表示。现有技术中叙词表叙词款目结构和参照项的含义见图1和表1所示:

表1叙词的语义参照项

步骤二、对叙词表中的对象类叙词、特性类叙词以及数据元概念类叙词进行标记,将对象类叙词标注为object,将特性类叙词标注为property;数据元概念类叙词标注为dec;

步骤三、将叙词表中步骤二标注过的对象类叙词、特性类叙词以及数据元概念类叙词注册到mdr中;

按照国际标准,实现元数据注册系统(mdr)内容一致性的规程(iso/iectr20943:2003,idt),将叙词表中标注过对象类叙词、特性叙词、数据元概念叙词注册到mdr中;只处理叙词款目,非叙词款目不进行处理。

步骤四、将叙词表中的叙词之间存在的词间关系注册到mdr中;

将叙词款目中代、分、属、参、族关系对应的叙词和关系注册到mdr中;叙词的词间关系注册至mdr时,先选择相应的关系类型,然后,填写叙词对应的关系角色;“代”关系在mdr中为同一关系,“分”、“属”、“族”均为mdr中的属种关系,“参”对应为相关关系。

步骤五、mdr概念元模型到本体模型的映射;

mdr概念元模型:mdrcs=(cs,c,r,rr,le,li,),其中cs表示概念系统的集合;c表示概念的集合;r表示关系的集合;rr表示关系角色的集合;le表示链端的集合,其中每个元素都是一对概念和关系角色,形如<c,rr>,其中c∈c,r∈rr;li表示链环的集合,其中li∈li,每个链环都是由一个关系链接两个链端所形成;

本体模型:o=(cl,p,rel,dt,prop,relation),其中cl表示类的集合;p表示属性的集合;rel表示关系的集合;dt表示数据类型的集合;prop是一个三元组<cl,p,dt>,表示的一个类的某一项属性,其中cl∈cl,p∈p,dt∈dt。relation是一个三元组<cl1,rel,cl2>,表示两个类之间的关系,其中{cl1,cl2}∈cl,rel∈rel;

参阅图2,mdr概念元模型到本体模型的映射方法:

规则1:c→cl;rr→rel;

规则2:li→relation;lir(<c1,rr1>,<c2,rr2>)→relationrel(cl2,cl1)或relationrel(cl1,cl2);c1→cl1,c2→cl2;其中r∈r,rel∈rel,{c1,c2}∈c,{cl1,cl2}∈cl,{rr1,rr2}∈rr;

步骤六、mdr数据描述元模型到本体模型的映射;

mdr数据描述元模型:mdrd=(cd,vm,vd,oc,pr,dec,de,dim),其中cd表示概念域的集合;vm表示值含义的集合;vd表示值域的集合;oc表示对象类的集合,pr表示特性的集合;dec表示数据元概念的集合;de表示数据元的集合,de∈de;dim表示维度的集合;

参阅图3,mdr数据描述元模型到本体的映射方法:

规则1:cd→cl;oc→cl;pr→p;vd→dt;dec→cl×p;dim→cl;

规则2:de→prop;(<oc,pr>,vd)→propp(cl,dt);oc→cl,pr→p,vd→dt;其中oc∈oc,pr∈pr,vd∈vd,p∈p,cl∈cl,dt∈dt;

步骤七、依据mdr概念元模型到本体模型的映射方法、mdr数据描述元模型到本体模型的映射方法构建叙词本体,

根据mdr概念元模型到本体模型的映射,从mdr中选择构建本体所需的概念c、链环li,将所选择的概念c定义为本体中的类cl,将候选链环li定义为本体中的rel;根据mdr数据描述元模型到本体的映射,从mdr中选择完善本体所需的属性pr和数据元概念dec,将dec定义为本体中对应类cl的属性p。

在将标注后的叙词表注册至mdr后,叙词表中的叙词就成为了概念元模型中的c,“代”、“分”、“属”、“参”、“族”分别构成了概念元模型中r和rr,而概念c和关系角色rr便构成了链端le,le与r则组合成为链环li。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1