基于资源描述框架的网络资源语义检索方法及系统的制作方法

文档序号:6380398阅读:244来源:国知局
专利名称:基于资源描述框架的网络资源语义检索方法及系统的制作方法
技术领域
本发明涉及信息检索技术领域,尤其涉及一种基于资源描述框架的网络资源语义 检索方法及系统。
背景技术
随着全球信息化进程的加速,网络上的信息越来越多,对信息检索方法的要求也 越来越高。目前大多数检索方法都是基于关键字匹配的全文检索技术,查询结果经常出现 检索不全、答非所问的现象。语义检索正是克服了机械式文字匹配局限于表面形式的缺点, 从网络(Web)资源信息所表达的语义层次上来分析和处理用户的检索请求,将信息检索从 目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力。此 外,目前已有一些基于语义检索的搜索引擎,但是此类技术基本上都还停留在处理静态信 息的层面,这对随时千变万化的Web资源来说,不能完全满足其检索要求。
基于语义的检索技术代表了搜索引擎发展的一个新方向,其基于语义的优势和作 用在今后还会逐步显现,并切实地影响着人们的工作、学习和生活。早在上世纪八十年代对 语义检索的讨论就出现在国际信息检索大会(SIGIR)会议论文中,但语义检索研究始终受 制于语义信息处理发展水平的局限。随着自然语言处理、人工智能的发展,尤其是语义网技 术的兴起与发展,语义检索研究自上世纪末以来得以迅速发展。尽管到目前为止对语义检 索在概念上仍没有统一的界定,但不同的研究却有着共同之处,就是基于对Web资源的语 义处理实现效率更高的检索。语义信息的提取和处理可以是基于语义网方法与技术的,也 可以是基于自然语言处理技术的。目前,前者在语义检索研究中相对更为普遍。事实上,正 是由于语义网的出现与发展,才使语义检索的研究更加得以明确并发展如此迅速。
目前,国外对基于语义的信息检索及相关理论作了一定的研究。近年来概念检索 领域较为突出的研究成果,如美国伊利诺大学与亚利桑那大学已经开发出基于美国国防高 级研究署信息技术办公室(ITO)的国防科技项目研究报告摘要信息的主题概念空间(ΙΤ0 Space)及其概念图(ΙΤ0 Map),以及基于美国癌症医学数据库的癌症概念空间(Cancer Space)及其癌症概念图(Cancer Map)。国内的研究主要集中在对基于语义搜索引擎的特 征和体系结构模型的探讨,以及基于概念检索的实现方法,如唐培丽就提出采用“以网对 网”的方法来实现概念检索。目前已有的搜索引擎还远远没有达到能够像人一样分析与理 解自然语言语义的水平,而且在今后短时期内也达不到这样的水平。国外虽然有一些公司 做出了基于概念的产品,但仅仅做到了语用层面,语义层面尚未涉及。而对于中文搜索引擎 来说,因为有着中文处理方面的问题,这方面的工作才刚刚开始。此外,当前用于语义Web 的检索技术主要集中在对静态信息的描述上,而未能考虑到对动态的和不断变化的内容的 处理。因此,如何在一系列语义相关的动态实体上实现语义查询,也成为基于语义查询研究 的一个新方向。正是由于人们实际生活中迫切需要基于语义的检索技术的出现,而目前的 技术还远远不能满足人们的需要。发明内容
针对上述技术问题,本发明的目的在于提供一种基于资源描述框架的网络资源语 义检索方法及系统,其利用资源描述框架(Resource Description Framework, RDF)所提供 的资源描述等相关方法,不仅支持在查询时的基于语义的web资源检索,可以处理Web上资 源的动态变化,而且能确保将经常被查询的对象放入高速缓冲存储器(Cache)中,保证了查 全率、查准率,有效地缩短了返回查询结果的时间。
为达此目的,本发明采用以下技术方案
—种基于资源描述框架的网络资源语义检索方法,包括如下步骤
AJfWeb上的异构资源进行数据建模,并基于资源描述框架(RDF)对Web资源进 行描述,生成RDF数据;
B、将所述RDF数据以三元组的形式作为关系数据库的记录,完成对RDF数据的存 储;
C、利用贝叶斯(Bayes)决策理论对高速缓冲存储器(Cache)中的对象进行动态筛 选;
D、用户提交RDF查询请求,并将所述RDF查询请求转换为关系数据库可以处理的 SQL语句;
E、通过所述SQL语句对Cache进行查询,若查询到所需数据,则将所述数据返回给 用户,若未查询到所需数据,则直接和关系数据库引擎进行通信,从关系数据库中获取所述 数据,并将其返回给用户;
F、建立分布的资源语义相关库,存储在语义上具有相关度的web资源;当收到用 户提交的RDF请求时,关系数据库引擎首先在资源语义相关库中进行查询,若查询到所需 数据,则将所述数据返回给用户,若未查询到所需数据,则从关系数据库中获取所述数据, 并将其返回给用户。
特别地,所述步骤A具体包括
Al、以Web中的原始异构资源作为数据源进行数据建模,用于建立新的类型,并对 类型的属性进行界定,如果系统中的所述原始异构资源是以文件的形式组织的,则以文件 为数据源,如果所述原始异构资源是以数据库的形式组织的,则以数据库中的数据作为数 据源;
A2、应用RDF自带的词汇表及步骤Al中数据建模过程自定义的词汇表,对Web资 源进行描述,生成以可扩展标记语言(XML)形式组织的RDF文件。
特别地,所述步骤B具体包括
建立资源描述框架模式(RDF Schema,RDFS)与实体-联系模型(E-R模型)的对应 关系,将RDFS转换成E-R模型,依据该E-R模型建立关系数据库,将RDF数据以三元组的形 式作为关系数据库的记录,完成对RDF数据的存储。
特别地,所述步骤C具体包括
基于贝叶斯决策理论,利用最大熵原理选出的特征属性作为属性,并将已经被查 询过的RDF记录作为训练数据集,构建出优化器;所述优化器在查询的空闲对所述RDF记 录进行计算,得出其被调用的后验概率,选出所述被调用的后验概率最高的RDF对象调入 cache中;在cache容量已满时,计算cache中RDF对象将被查询命中的概率,并将具有最小概率的RDF对象换出。
特别地,所述步骤D中将所述RDF查询请求转换为关系数据库可以处理的SQL语 句,具体包括
在用户和关系数据库之间建立查询引擎,在查询引擎中封装查询语言转换规则, 当用户将RDF查询请求提交给所述查询引擎时,查询引擎通过所述语言转换规则将RDF查 询请求转换为关系数据库可以处理的SQL语句。
特别地,所述步骤D中选择RQL、SquishQL, SPARQL及DQL中的任一种RDF查询语 言作为用户接口,通过查询引擎完成RDF查询语言与SQL语言之间的转换。
特别地,所述步骤F中资源语义相关库是在用户的查询过程中动态建立的,并且 只将资源与查询条件的语义相关度大于所设阈值的资源加入资源语义相关库。
本发明还公开了一种基于资源描述框架的网络资源语义检索系统,包括SPARQL 查询接口、SPARQL/SQL转换器、Cache缓存、批量RDF/XML文件导入接口、关系数据库引擎以 及关系数据库;
所述SPARQL查询接口用于供用户提交SPARQL查询请求,并将获取的web资源以 RDF文件或XML文件的格式返回给所述用户;
所述SPARQL/SQL转换器用于将所述SPARQL查询请求转换为SQL语句,实现 SPARQL语言与SQL语言之间的转换,向用户提供统一的SPARQL查询接口 ;
所述Cache缓存用于基于贝叶斯决策理论,利用最大熵原理选出的特征属性作为 属性,并将已经被查询过的RDF记录作为训练数据集,构建优化器,并通过所述优化器在查 询的空闲对所述RDF记录进行计算,得出其被调用的后验概率,选出所述被调用的后验概 率最高的RDF对象调入cache中,在cache容量已满时,计算cache中RDF对象将被查询命 中的概率,并将具有最小概率的RDF对象换出;
所述批量RDF/XML文件导入接口用于输入RDF文件或XML文件格式的RDF数据或 RDFS数据;
所述RDF/XML文件解析器用于从所述批量RDF/XML文件导入接口获取RDF文件或 XML文件,根据RDF文件或XML文件中每个标签的功能,提取每个三元组(triple)对应的 主、谓、宾,并通过关系数据库引擎存入关系数据库中;
所述关系数据库弓I擎用于将RDF数据存储到关系数据库中,并提供对关系数据库 进行操作的接口。
本发明利用资源描述框架(Resource Description Framework, RDF)所提供的资 源描述等相关方法对Web上的异构资源进行数据建模,再根据这些模型进行基于RDF的统 一描述,从而支持在查询时基于语义的信息检索,使得原本系统中在物理上松散的资源通 过基于RDF的统一描述有效地在逻辑上聚合到了 一起,能够更有效地利用web资源,进而 达到不同平台之间的资源共享的目标。引入资源语义相关库来存放在语义上具有相关度的 资源,可以成功地处理Web上资源的动态变化,保证了查全率、查准率。并采用基于贝叶斯 (Bayes)决策理论的动态筛选算法确保经常被查询的对象放入高速缓冲存储器(Cache )中, 将其作为查询的第一目标,有效地缩短了返回查询结果的时间。


图1为本发明实施例提供的基于资源描述框架的网络资源语义检索方法流程图2为本发明实施例提供的基于资源描述框架的网络资源语义检索系统框图3为本发明实施例提供的SPARQL/SQL转换器原理示意图4为本发明实施例提供的Cache缓存原理图示意。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图和实施例对本发明 作进一步说明。
请参照图1所示,图1为本发明实施例提供的基于资源描述框架的网络资源语义 检索方法流程图。
本实施例中基于资源描述框架的网络资源语义检索方法包括如下步骤
步骤SlOlJtWeb上的异构资源进行数据建模,并基于资源描述框架(RDF)对Web 资源进行描述,生成RDF数据。数据建模和资源描述的具体过程如下
步骤S1011、以Web中的原始异构资源作为数据源进行数据建模,用于建立新的类 型,并对类型的属性进行界定,如果系统中的所述原始异构资源是以文件的形式组织的,则 以文件为数据源,如果所述原始异构资源是以数据库的形式组织的,则以数据库中的数据 作为数据源。但是,数据建模的方法是独立于资源系统的组织形式的,不失一般性。
步骤S1012、应用RDF自带的词汇表及步骤SlOll中数据建模过程自定义的词汇 表,对Web资源进行描述,生成以可扩展标记语言(XML)形式组织的RDF文件。该方法使得 原本系统中在物理上松散的资源通过这种描述方法有效地在逻辑上聚合到了一起,能够更 为有效地利用web资源,进而达到不同平台之间的资源共享的目标。
步骤S102、将所述RDF数据以三元组的形式作为关系数据库的记录,完成对RDF数 据的存储。
建立资源描述框架模式(RDF Schema, RDFS)与实体-联系模型(E-R模型)的对应 关系,将RDFS转换成E-R模型,依据该E-R模型建立关系数据库,将RDF数据以三元组的形 式作为关系数据库的记录,完成对RDF数据的存储。分析RDFS与关系数据库各自的特点, 建立两者之间的对应关系,从RDFS出发,依据其所描述的类以及属性等,转换成E-R模型中 对应的实体、实体属性以及实体关系等。再依据该E-R模型设计合理的关系数据库,将RDF 数据以三元组的形式作为关系数据库的记录,完成对RDF数据的有效存储,为RDF的查询提 供基于语义层的物理载体。
关系数据库存储模型的建立,主要考虑存储空间和查询效率的结合,简单的 如schema-oblivious三元组直接存储方案,实现起来简单,并且查询效率非常的高, 但是这样会存储重复的命名空间前缀或者具有多个属性的资源。考虑时间和空间,在 schema-oblivious方案的基础上,数据库中除了三元组表之外,引入了资源表、命名空间 表、文字表。因此,三元组表中存储的主、谓、宾,仅仅是资源表或者文字表中的索引值,并且 借鉴Jena2思想,允许数据库中存在多个三元组表,不同的RDF文件可以映射到不同的三 元组表中,这样可以限制表的大小。其中,所述Jena2是一个java的API ((Application Programming Interface,应用程序编程接口)。下表是RDF/RDFS存储的几个常用表结构。
权利要求
1.一种基于资源描述框架的网络资源语义检索方法,其特征在于,包括如下步骤 AJ^Web上的异构资源进行数据建模,并基于资源描述框架(RDF)对Web资源进行描述,生成RDF数据; B、将所述RDF数据以三元组的形式作为关系数据库的记录,完成对RDF数据的存储; C、利用贝叶斯(Bayes)决策理论对高速缓冲存储器(Cache)中的对象进行动态筛选; D、用户提交RDF查询请求,并将所述RDF查询请求转换为关系数据库可以处理的SQL语句; E、通过所述SQL语句对Cache进行查询,若查询到所需数据,则将所述数据返回给用户,若未查询到所需数据,则直接和关系数据库引擎进行通信,从关系数据库中获取所述数据,并将其返回给用户; F、建立分布的资源语义相关库,存储在语义上具有相关度的web资源;当收到用户提交的RDF请求时,关系数据库引擎首先在资源语义相关库中进行查询,若查询到所需数据,则将所述数据返回给用户,若未查询到所需数据,则从关系数据库中获取所述数据,并将其返回给用户。
2.根据权利要求1所述的基于资源描述框架的网络资源语义检索方法,其特征在于,所述步骤A具体包括 Al、以Web中的原始异构资源作为数据源进行数据建模,用于建立新的类型,并对类型的属性进行界定,如果系统中的所述原始异构资源是以文件的形式组织的,则以文件为数据源,如果所述原始异构资源是以数据库的形式组织的,则以数据库中的数据作为数据源; A2、应用RDF自带的词汇表及步骤Al中数据建模过程自定义的词汇表,对Web资源进行描述,生成以可扩展标记语言(XML)形式组织的RDF文件。
3.根据权利要求2所述的基于资源描述框架的网络资源语义检索方法,其特征在于,所述步骤B具体包括 建立资源描述框架模式(RDF Schema, RDFS)与实体-联系模型(E-R模型)的对应关系,将RDFS转换成E-R模型,依据该E-R模型建立关系数据库,将RDF数据以三元组的形式作为关系数据库的记录,完成对RDF数据的存储。
4.根据权利要求3所述的基于资源描述框架的网络资源语义检索方法,其特征在于,所述步骤C具体包括 基于贝叶斯决策理论,利用最大熵原理选出的特征属性作为属性,并将已经被查询过的RDF记录作为训练数据集,构建出优化器;所述优化器在查询的空闲对所述RDF记录进行计算,得出其被调用的后验概率,选出所述被调用的后验概率最高的RDF对象调入cache中;在cache容量已满时,计算cache中RDF对象将被查询命中的概率,并将具有最小概率的RDF对象换出。
5.根据权利要求4所述的基于资源描述框架的网络资源语义检索方法,其特征在于,所述步骤D中将所述RDF查询请求转换为关系数据库可以处理的SQL语句,具体包括 在用户和关系数据库之间建立查询引擎,在查询引擎中封装查询语言转换规则,当用户将RDF查询请求提交给所述查询引擎时,查询引擎通过所述语言转换规则将RDF查询请求转换为关系数据库可以处理的SQL语句。
6.根据权利要求5述的基于资源描述框架的网络资源语义检索方法,其特征在于,所述步骤D中选择RQL、SquishQL, SPARQL及DQL中的任一种RDF查询语言作为用户接口,通过查询引擎完成RDF查询语言与SQL语言之间的转换。
7.根据权利要求6的基于资源描述框架的网络资源语义检索方法,其特征在于,所述步骤F中资源语义相关库是在用户的查询过程中动态建立的,并且只将资源与查询条件的语义相关度大于所设阈值的资源加入资源语义相关库。
8.一种基于资源描述框架的网络资源语义检索系统,其特征在于,包括SPARQL查询接口、SPARQL/SQL转换器、Cache缓存、批量RDF/XML文件导入接口、关系数据库引擎以及关系数据库; 所述SPARQL查询接口用于供用户提交SPARQL查询请求,并将获取的web资源以RDF文件或XML文件的格式返回给所述用户; 所述SPARQL/SQL转换器用于将所述SPARQL查询请求转换为SQL语句,实现SPARQL语言与SQL语言之间的转换,向用户提供统一的SPARQL查询接口 ; 所述Cache缓存用于基于贝叶斯决策理论,利用最大熵原理选出的特征属性作为属性,并将已经被查询过的RDF记录作为训练数据集,构建优化器,并通过所述优化器在查询的空闲对所述RDF记录进行计算,得出其被调用的后验概率,选出所述被调用的后验概率最高的RDF对象调入cache中,在cache容量已满时,计算cache中RDF对象将被查询命中的概率,并将具有最小概率的RDF对象换出; 所述批量RDF/XML文件导入接口用于输入RDF文件或XML文件格式的RDF数据或RDFS数据; 所述RDF/XML文件解析器用于从所述批量RDF/XML文件导入接口获取RDF文件或XML文件,根据RDF文件或XML文件中每个标签的功能,提取每个三元组(triple)对应的主、谓、宾,并通过关系数据库引擎存入关系数据库中; 所述关系数据库引擎用于将RDF数据存储到关系数据库中,并提供对关系数据库进行操作的接口。
全文摘要
本发明公开一种基于资源描述框架的网络资源语义检索方法及系统,利用资源描述框架所提供的资源描述方法对Web上的异构资源进行数据建模,再根据这些模型进行基于RDF的统一描述,从而支持在查询时基于语义的信息检索,使得原本系统中在物理上松散的资源通过基于RDF的统一描述有效地在逻辑上聚合到了一起,能够更有效地利用web资源,达到不同平台之间的资源共享的目标。引入资源语义相关库来存放在语义上具有相关度的资源,成功地处理了Web上资源的动态变化,保证了查全率、查准率。采用基于贝叶斯决策理论的动态筛选算法确保经常被查询的对象放入高速缓冲存储器中,有效地缩短了返回查询结果的时间。
文档编号G06F17/30GK102999563SQ20121043393
公开日2013年3月27日 申请日期2012年11月1日 优先权日2012年11月1日
发明者黎明, 吴少智, 陈佳, 吴跃 申请人:无锡成电科大科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1