从自然语言文本挖掘领域过程本体的方法

文档序号:6399629阅读:165来源:国知局
专利名称:从自然语言文本挖掘领域过程本体的方法
技术领域
本发明涉及本体;更具体地涉及一种从自然语言文本挖掘领域过程本体的方法。
背景技术
在本说明书中,以下属于非特别指出都以所指明的意义被使用:本体”:本体是一种对于某种概念体系(概念表达、概念化、概念化体系或者说概念化过程)明确而又详细的说明。本体作为一种能在语义和知识层次上描述信息系统的概念模型的建模工具,在提出后迅速成为信息系统与人工智能领域的一个研究热点。本体是领域内重要实体、属性、过程及其相互关系形式化描述的基础,可以为知识库的构建提供一个基本的结构;可以将某个或多个特定领域的概念和术语规范化,为其在该领域或领域之间的实际应用提供便利,在构建智能化的检索系统、构建语义web等方面有很重要的意义。过程本体”:过程是由一组为了完成预定目标或达到期望状态的活动构成的。过程本体以一种声明的方式描述领域相关过程模型,为Web Services的查找、执行和合成提供关于业务过程的共享知识。-“实例化”:根据类创建对象的过程。」‘RDF三兀组”:资源描述框架(Resource Description Framework, RDF)是由 W3C制定发展的规范,它用于表达关于网络资源的元数据,表达简单的资源陈述,其中每个陈述都是由主语(subject),谓语(predicate),宾语(object)组成的,可标识资源与资源之间的关系,并可作为逻辑推论的基础资料模型。RDF提供了一种基本的结构,用于在Web上对元数据(meta-data)进行编码、交换和重用,其基本句法是〈主语谓词宾语〉三元组,主语为URI或匿名结点ID,宾语为UR1、匿名结点ID或文字(literal),谓词则是一个URI。- “AG知识库” =AllegroGraph (AG)是一个高效的RDF三元组数据存储管理系统(Knowledge Base-知识数据库),采用了高速的B+tree数据仓库和先进的知识推理及查询技术,是目前世界上最先进的知识管理数据库,在生物计算、信息安全、知识挖掘等领域都有着广泛的应用。-“智能搜索”:用户可以通过各种操作与系统进行交互,真正参与到问题求解的过程中,且系统会根据相应的操作进行反馈。到目前为止,从自然语言文本中开发本体的方法已经存在,但是构建出来的本体大多是静态的结构化的本体,其语义搜索在以前的基于关键字的搜索基础上有所进展,但缺乏动态性和过程性,且对涉及过程的语义搜索无能为力。对于过程本体,目前也有相关的研究,但基本是基于领域专家的手工构建,且构建出的过程本体无法自动更新,无法实现可持续性。经检索,对于过程本体的自动构建,尤其是关于领域问题求解的过程本体的自动构建还没有这方面的报道。因此,需要一种从文本数据自动产生过程本体的方法,并为问题求解中的智能化语义搜索提供解决方案。

发明内容
本发明的目的在于,针对上述现有技术的不足,提供一种从自然语言文本挖掘领域过程本体的方法,构建出可自动更新的动态的过程本体模型。本发明的另一个目的在于:提供一种基于过程本体模型的智能搜索方法。为达到上述目的,本发明采取的技术方案是:提供一种从自然语言文本挖掘领域过程本体的方法,其特征在于:包括以下步骤:A、创建过程本体模型,通过解析文本,找出逻辑分段,提取逻辑分段中表述概念的词、表述概念与概念之间关系的词以及公理、定理、定义和推论,创建类、属性以及类与类之间的关系;B、将创建的过程本体模型实例化;C、将上述过程本体模型以及实例化的过程本体模型采用RDF三元组进行表示并存储到AG知识库。步骤A包括以下分步骤:Al、解析文本,接收领域文本数据;A2、判断是否存在逻辑分段,根据接收的领域文本数据判断是否存在逻辑分段,若存在逻辑分段进入步骤A3 ;若不存在逻辑分段,创建过程文本模型步骤结束;A3、解析逻辑分段,所述逻辑分段由条件、结论以及从条件到结论的原因三部分构成;所述条件或结论中含有至少一个语义单元;提取语义单元中表述概念的词以及表述概念与概念之间关系的词;提取从所述条件到结论的原因;从所述条件到结论的原因包括公理、定理、定义、推论;A4、创建过程本体模型,根据提取的表述概念的词,表述概念与概念之间关系词,以及公理、定理、定义、推论创建类、属性以及类与类之间的关系。所述语义单元是一个主谓结构或主谓宾结构。若步骤A2根据接收的领域文本数据判断存在至少两个逻辑分段,步骤B对上一个逻辑分段创建的过程本体模型实例化之后返回步骤A2,创建下一个逻辑分段的过程本体模型。在前逻辑分段的结论作为在后逻辑分段的条件。类由上述表述概念的词、表述概念与概念之间关系的词,以及公理、定理、定义、推论构成;属性由构成上述概念的元素的存在和上述结论的存在构成。所述领域文本数据对应服务查询的文本。一种基于上述过程本体模型的智能搜索方法,其特征在于:根据上述过程本体模型以及接收到的文本数据进行语义搜索。通过本发明提供的从自然语言文本挖掘领域过程本体的方法可以构建出可自动更新的动态的过程本体模型,并将构建的过程本体模型存储到AG知识库中,便于进行语义搜索。


图1为构建过程本体模型的流程图;图2为本发明的方法的一个实施例步骤流程图。
具体实施例方式下面结合附图和实施例对本发明进行详细的描述,但它们不是对本发明的进一步限制。本发明提供的一种从自然语言文本挖掘领域过程本体的方法,其特征在于:包括以下步骤:A、创建过程本体模型,通过解析文本,找出逻辑分段,提取逻辑分段中表述概念的词、表述概念与概念之间关系的词以及公理、定理、定义和推论,创建类、属性以及类与类之间的关系;B、将创建的过程本体模型实例化;C、将上述过程本体模型以及实例化的过程本体模型采用RDF三元组进行表示并存储到AG知识库。A步骤包括以下分步骤:Al、解析文本,接收领域文本数据;A2、判断是否存在逻辑分段,根据接收的领域文本数据判断是否存在逻辑分段,若存在逻辑分段进入步骤A3 ;若不存在逻辑分段,创建过程文本模型步骤结束;A3、解析逻辑分段,逻辑分段由条件、结论以及从条件到结论的原因三部分构成;条件或结论中含有至少一个语义单元;提取语义单元中表述概念的词以及表述概念与概念之间关系的词;提取从条件到结论的原因;从条件到结论的原因包括公理、定理、定义、推论;A4、创建过程本体模型,根据提取的表述概念的词,表述概念与概念之间关系词,以及公理、定理、定义、推论创建类、属性以及类与类之间的关系。若步骤A2根据接收的领域文本数据判断存在至少两个逻辑分段,步骤B对上一个逻辑分段创建的过程本体模型实例化之后返回步骤A2,创建下一个逻辑分段的过程本体模型;直至创建完所有的逻辑分段。在前逻辑分段的结论作为在后逻辑分段的条件;在前逻辑分段指的是与在后逻辑分段相比,创建在前逻辑分段的过程本体模型先于在后逻辑分段的过程本体模型,但两者不一定是顺次的两个过程;例如若A2根据接收的领域文本数据判断存在四个逻辑分段;第一个逻辑分段的结论可以是第四个逻辑分段的条件。语义单元是一个主谓结构或者是主谓宾结构。类由上述表述概念的词、表述概念与概念之间关系的词,以及公理、定理、定义、推论构成;属性由构成上述概念的元素的存在和上述结论的存在构成。上述领域文本数据对应服务查询的文本。下面以一个实施例来进行详细的说明。已知:等腰三角形ABC底边是BC,AD平分BC,求证:三角形ABD全等于三角形A⑶。实例化上述例题步骤如下:1、解析文本,接收领域文本数据“已知:等腰三角形ABC底边是BC,AD平分BC,求证:三角形ABD全等于三角形A⑶;2、判断是否存在逻辑分段,对接收到的领域文本数据进行逻辑分段得到三个逻辑分段“因为等腰三角形ABC底边是BC,所以AB等于AC(利用的是等腰三角形的性质定理)”、“因为AD平分BC,所以BC等于CD (利用的是线段中点性质定理)”和“因为AB等于AC、BD等于⑶和AD等于AD,所以三角形ABD全等于三角形A⑶(全等三角形边边边判定定理)”,分别分析三个逻辑分段,建立三个逻辑分段的过程本体模型;3、解析逻辑分段,即处理分析上诉步骤中产生的实际例题的三个逻辑分段;如,首先解析第一个逻辑分段“因为等腰三角形ABC底边是BC,所以AB等于AC(利用的是等腰三角形的性质定理)”,其中“等腰三角形ABC底边是BC”是条件1,“AB等于AC”是结论I ;“等腰三角形的性质定理”是从条件I到结论I的原因I ;该逻辑分段包括两个语义单元“等腰三角形ABC底边是BC”和“AB等于AC”,提取这两个语义单元中表述概念的词(“等腰三角形”、“线段”、“点”)以及定理(等腰三角形的性质定理);4、创建本体模型,根据提取表述概念的词以及表述概念与概念之间关系的词以及公理、定理、定义、推论创建类、属性以及类与类之间的关系;本实施例中类包括“等腰三角形”、“线段”、“点”和“等腰三角形的性质定理”,属性包括“有端点”、“有边”、“有顶点”;建立类与类的关系;5、实例化,即对上述的本体模型实例化;如,三角形类的个体有ABC,线段类的个体包括BC、AB、AC,点类的个体包括A、B、C。实例化的三元组关系包括,三角形ABC有边BC、三角形ABC有边AC、三角形有边AB等;6、之后再依次对逻辑分段“因为AD平分BC,所以BC等于⑶(利用的是线段中点性质定理)”和“因为AB等于AC、BD等于⑶和AD等于AD,所以三角形ABD全等于三角形A⑶(全等三角形边边边判定定理)”创建过程本体模型;其中,“AD平分BC”是条件2,“BD等于⑶”是结论2,“线段中点性质定理”是从条件2到结论2的原因2 ;“AB等于AC、BD等于⑶和AD等于AD”是条件11、条件21和条件31,“三角形ABD全等于三角形A⑶”是总结论,“全等三角形边边边判定定理”是从条件11、条件21和条件31到总结论的原因3 ;7、将所有逻辑分段创建完成后,并将整个构建好的过程本体模型RDF三元组的基于XML语言存储为标准的问题求解过程,并存储到AG知识库。当用户输入相关题目并提交,搜索系统会基于此过程本体模型,查询与当前题目语义相似的一系列题目返回给用户。还可以将本发明提供的从自然语言文本挖掘领域过程本体的方法应用于平面几何问题求解,还可将通过该方法建立的过程本体模型模块嵌入到移动学习平台(基于ios操作系统的平台,如iPad),为用户提供基于移动平台的智能搜索服务。
权利要求
1.一种从自然语言文本挖掘领域过程本体的方法,其特征在于:包括以下步骤: A、创建过程本体模型,通过解析文本,找出逻辑分段,提取逻辑分段中表述概念的词、表述概念与概念之间关系的词以及公理、定理、定义和推论,创建类、属性以及类与类之间的关系; B、将创建的过程本体模型实例化; C、将上述过程本体模型以及实例化的过程本体模型采用RDF三元组进行表示并存储到AG知识库。
2.根据权利要求1所述的从自然语言文本挖掘领域过程本体的方法,其特征在于:步骤A包括以下分步骤: Al、解析文本,接收领域文本数据; A2、判断是否存在逻辑分段,根据接收的领域文本数据判断是否存在逻辑分段,若存在逻辑分段进入步骤A3 ;若不存在逻辑分段,创建过程文本模型步骤结束; A3、解析逻辑分段,所述逻辑分段由条件、结论以及从条件到结论的原因三部分构成;所述条件或结论中含有 至少一个语义单元;提取语义单元中表述概念的词以及表述概念与概念之间关系的词;提取从所述条件到结论的原因;从所述条件到结论的原因包括公理、定理、定义、推论; A4、创建过程本体模型,根据提取的表述概念的词,表述概念与概念之间关系词,以及公理、定理、定义、推论创建类、属性以及类与类之间的关系。
3.根据权利要求2所述的从自然语言文本挖掘领域过程本体的方法,其特征在于:所述语义单元是一个主谓结构或主谓宾结构。
4.根据权利要求2或3所述的从自然语言文本挖掘领域过程文本的方法,其特征在于:若步骤A2根据接收的领域文本数据判断存在至少两个逻辑分段,步骤B对上一个逻辑分段创建的过程本体模型实例化之后返回步骤A2,创建下一个逻辑分段的过程本体模型。
5.根据权利要求4所述的从自然语言文本挖掘过程本体的方法,其特征在于:在前逻辑分段的结论作为在后逻辑分段的条件。
6.根据权利要求2或3所述的从自然语言文本挖掘过程本体的方法,其特征在于:类由上述表述概念的词、表述概念与概念之间关系的词,以及公理、定理、定义、推论构成 ’属性由构成上述概念的元素的存在和上述结论的存在构成。
7.根据权利要求1至3任一所述的自然语言文本挖掘过程本体的方法,其特征在于:所述领域文本数据对应服务查询的文本。
8.一种基于上述过程本体模型的智能搜索方法,其特征在于:根据上述过程本体模型以及接收到的文本数据进行语义搜索。
全文摘要
本发明公开了一种从自然语言文本挖掘领域过程本体的方法,包括以下步骤A、创建过程本体模型;B、将创建的过程本体模型实例化;C、将上述过程本体模型以及实例化的过程本体模型采用RDF三元组进行表示并存储到AG知识库。本发明还公开了一种基于上述过程本体模型的智能搜索方法,根据上述过程本体模型以及接收到的文本数据进行语义搜索。通过本发明提供的从自然语言文本挖掘领域过程本体的方法可以构建出可自动更新的动态的过程本体模型,并将构建的过程本体模型存储到AG知识库中,便于进行语义搜索。
文档编号G06F17/27GK103116574SQ20131005619
公开日2013年5月22日 申请日期2013年2月22日 优先权日2013年2月22日
发明者钟秀琴, 刘忠, 符红光 申请人:电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1