专利名称:数据存储方法和装置的制作方法
技术领域:
本发明涉及计算机云存储领域,尤其涉及一种数据存储方法和装置。
背景技术:
云存储是在云计算概念上延伸和发展出来的一个新的概念,是指通过集群应用、 网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。云存储是一个以数据存储和管理为核心的云计算系统,是对现有存储方式的一种变革,也就是“存储即服务”。与云计算系统相比,云存储可以认为是配置了大容量存储空间的一个云计算系统。从架构模型来看,云存储系统系统比云计算系统多了一个存储层,同时,在基础管理也多了很多与数据管理和数据安全有关的功能。
对数据而言,数据的语义就是对数据的描述,而关于数据的描述也称为元数据,所以,如果一个数据有语义,意味着这个数据有形式化的描述,或说其元数据表示语言有形式化的语义。
元数据是数据的数据,主要是用来描述网络资料属性的有关信息,用来支持如资源位置,资源寻找、文件记录、评价、过滤等功能。对关系数据,元数据是库表结构DBShcema, 因为它描述了数据库中数据所属的字段名以及其他的约束,如数据类型,它的数据和语义是分离的,且其语义是非形式化的,开发人员根据对DBShcema的理解写应用程序,也就是说,语义是硬编码在程序中的。发明内容
本发明提供了一种数据存储方法和装置,解决了云存储系统中数据存储的问题。
一种数据存储方法,包括
对网页信息进行分析处理;
根据分析处理结果,构建并存储本体语言(OWL)本体。
优选的,所述对网页信息进行分析处理包括
进行网页抓取;
对抓取得到的网页内的数据进行分词处理,并对分词处理后得到的词语进行分类和统计。
优选的,所述根据分析处理结果,构建并存储OWL本体的步骤具体为
对所述词语构建OWL本体,将所述本体存储于预置的存储环境中。
优选的,所述对网页信息进行分析处理的步骤之前,还包括
配置云存储环境作为所述OWL本体的存储环境。
优选的,所述根据分析处理结果,构建并存储OWL本体的步骤之后,还包括
根据所述OWL本体,以可扩展标记语言(XML)形式重新描述网页内容。
优选的,所述根据分析处理结果,构建并存储OWL本体的步骤之后,还包括3
根据推理扩充所述OWL本体。
本发明还提供了一种数据存储装置,包括
网页分析模块,用于对网页信息进行分析处理;
OffL本体构建模块,用于根据分析处理结果,构建并存储OWL本体。
优选的,上述数据存储装置还包括
配置模块,用于配置云存储环境作为所述OWL本体的存储环境。
优选的,上述数据存储装置还包括
标注模块,用于根据所述OWL本体,以XML形式重新描述网页内容。
优选的,上述数据存储装置包括
推理模块,用于根据推理扩充所述OWL本体。
本发明提供了一种数据存储方法和装置,对网页信息进行分析处理,根据分析处理结果,构建并存储OWL本体,以OWL本体的形式存储数据,解决了云存储系统中数据存储的问题。
图I为本发明的实施例一提供的一种数据存储方法的原理图2为本发明的实施例一提供的一种数据存储方法的流程图3为本发明的实施例二提供的一种数据存储装置的结构示意图。
具体实施方式
为了解决云存储系统中数据存储的问题,本发明的实施例提供了一种数据存储方法和装置。下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
为了方便理解本发明的实施例所提供的技术方案,首先对OWL本体进行说明。
传统的科学计算集群系统需要3套配套的互连网络来对XML数据进行描述,元数据是XMLSchema,因为它定义了 XML文档的标签和结构,描述了 XML实例文档中数据的类型等信息,其语义和数据是在一起的,但语义是隐式的和非形式化的。开发人员根据对 XMLShcema的理解写应用程序,同样,语义是硬编码在程序中的。
而对RDF数据,其元数据在RDFShcema或表达能力更强的本体中,因为RDF文档中的词汇由RDFSchema或本体定义,而RDFShcema和本体都是一种形式化的语言,所以说,RDF 数据具有形式化语义。对RDF应用程序,开发人员根据对RDFShcema或本体的理解写程序, 而本体其实就是语义所在。所以,语义、元数据和本体三者是紧密关联的概念。
本体是共享概念模型的明确的形式化规范说明。(I)概念化 (Conceptualization):指通过抽象出客观世界中一些现象的相关概念而得到的概述模型;(2)明确(Explicit):指所使用的概念及其约束都有明确的定义;(3)形式化(Formal):指本体是计算机可读的(即能被计算机处理);(4)共享(Share):本体中反映的知识是其使用者共同认可的。
本体的目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇之间相互关系的明确定义。
本体是领域(可以是特定领域的,也可以是普遍范围的)内部不同主体(人、应用系统等)之间进行交流(对话、互操作、共享等)的一种语义基础,即由本体提供一种明确定义的共识。
目前,本体提供的这种共识更主要的是为机器服务,而机器并不能像人类一样理解自然语言中表达的语义。目前的计算机也只能把文本看成字符串进行处理,因此,在计算机领域讨论本体,就要讨论本体究竟是如何表达共识的,也就是概念的形式化问题。这涉及到本体的描述语言、本体的建设方法等具体研究内容,与此同时,可以认为构造本体的目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇, 并从不同层次的形式化模式上给出这些词汇和词汇之间相互关系的明确定义。
基于本体的语义模型表示的支持对于编码语言的选择,目前较为合理的是WC3组织定义的WOL语言。WOL是本体论Web语言(Ontology Web Language)的字母缩写,其设计的最终目的是提供一种可以用于各种应用的语言,这些应用需要理解内容,从而代替只是采用人类易读的形式来表达内容。OWL能够被用于清晰地表达词汇表中的词条的含义以及这些词条之间的关系,而这种对词条和它们之间的关系的表达就称作本体。
W3C组织开发语义网的目的是能够在互联网上进行更结构化的智能处理,OffL从语义层次的角度对Web中的信息进行描述时,运用了 XML语法和XML Schema提供的对文档结构的描述功能,而这些又是建立在RDF对数据的精确定义和RDFS提供的语义描述机制基础上的,所以可以说OWL集中了 XML和RDF的优点,具有强大的语义描述能力。
OffL的理论基础来源于人工智能知识表示领域对描述逻辑长达近20年的研究。 描述逻辑代表了一类基于逻辑的知识表示语言,其典型特征是通过描述概念以及概念之间的关系来表达知识,典型的应用于定义术语(terminology)、分类目录(taxonomy)、本体 (ontology)、数据的概念建模等。OWL本体的抽象语法由注释、公理和事实三部分组成,注释用于描述本体的外在信息(如本体名、作者等),以及对其他本体的导入信息。公理和事实是本体的主要组成部分,提供了类、属性和个体的信息。OWL的形式基础是描述逻辑,其类和属性分别对应着描述逻辑的概念和角色(Role)。OWL的本体由公理集和事实集组成,正对应着描述逻辑的知识库由TBox和ABox组成。
下面结合附图,对本发明的实施例一进行说明。
本发明实施例提供了一种数据存储方法,使用该方法完成云存储系统中数据存储的原理如图I所示,具体流程如图2所示,包括
步骤201、配置云存储环境作为OWL本体的存储环境;
步骤202、对网页信息进行分析处理;
本步骤中,首先对网页进行抓取,优选的,可通过搭建nutch环境进行网页抓取; 然后,对抓取得到的网页内的数据进行分词处理,并对分词处理后得到的词语进行分类和统计。
步骤203、根据分析处理结果,构建并存储OWL本体;
本步骤中,对所述词语构建OWL本体,将所述本体存储于预置的存储环境中。
以下为一个构建OWL本体的具体示例
权利要求
1.一种数据存储方法,其特征在于,包括 对网页信息进行分析处理; 根据分析处理结果,构建并存储本体语言(OWL)本体。
2.根据权利要求I所述的数据存储方法,其特征在于,所述对网页信息进行分析处理包括 进行网页抓取; 对抓取得到的网页内的数据进行分词处理,并对分词处理后得到的词语进行分类和统计。
3.根据权利要求2所述的数据存储方法,其特征在于,所述根据分析处理结果,构建并存储OWL本体的步骤具体为 对所述词语构建OWL本体,将所述本体存储于预置的存储环境中。
4.根据权利要求3所述的数据存储方法,其特征在于,所述对网页信息进行分析处理的步骤之前,还包括 配置云存储环境作为所述OWL本体的存储环境。
5.根据权利要求3所述的数据存储方法,其特征在于,所述根据分析处理结果,构建并存储OWL本体的步骤之后,还包括 根据所述OWL本体,以可扩展标记语言(XML)形式重新描述网页内容。
6.根据权利要求3所述的数据存储方法,其特征在于,所述根据分析处理结果,构建并存储OWL本体的步骤之后,还包括 根据推理扩充所述OWL本体。
7.一种数据存储装置,其特征在于,包括 网页分析模块,用于对网页信息进行分析处理; OffL本体构建模块,用于根据分析处理结果,构建并存储OWL本体。
8.根据权利要求7所述的数据存储装置,其特征在于,该装置还包括配置模块,用于配置云存储环境作为所述OWL本体的存储环境。
9.根据权利要求7所述的数据存储装置,其特征在于,该装置还包括标注模块,用于根据所述OWL本体,以XML形式重新描述网页内容。
10.根据权利要求7所述的数据存储装置,其特征在于,该装置还包括推理模块,用于根据推理扩充所述OWL本体。
全文摘要
本发明提供了一种数据存储方法和装置。涉及计算机云存储领域;解决了云存储系统中数据存储的问题。该方法包括对网页信息进行分析处理;根据分析处理结果,构建并存储OWL本体。本发明提供的技术方案适用于云存储系统,实现了本体形式的数据存储。
文档编号G06F17/30GK102932417SQ20121036796
公开日2013年2月13日 申请日期2012年9月28日 优先权日2012年9月28日
发明者张现忠, 颜秉珩, 张俊, 崔赢 申请人:浪潮(北京)电子信息产业有限公司