一种基于标识技术的数据共享和管理方法及系统与流程

文档序号:13614913阅读:514来源:国知局
一种基于标识技术的数据共享和管理方法及系统与流程

本发明属于信息技术领域,具体涉及一种基于标识技术的数据共享和管理方法及系统,适用于科学研究等领域产生的数据的开放共享和管理。



背景技术:

随着信息技术的精细化发展,越来越多的行业领域采用信息化手段管理资源,资源数据管理逐渐成为核心要素,在科学研究领域尤为凸显。科学研究领域主要包括科研院所、高校、社会研究机构等多个方面,学科种类繁多,随着科研仪器及信息化水平的提高,各学科产生了大量领域内分散科学数据,范围涉及资源、环境、生物、生态、医疗等领域。然而大部分科学数据由于缺乏有效的管理,导致使用频次极低,限制了科学数据价值的发挥,严重影响科研进度及数据精度。另一方面,我国重大科研战略计划的顺利实施亟需从纷繁庞杂的数据中挖掘有价值的信息与知识,推动来源广泛、内容丰富、质量可靠的数据及共享和管理方法的构建,以便于快速及时、科学精准地做出决策。因此,如何突破数据开放共享的瓶颈,实现数据、模型与服务等全面集成成为我国科技创新的重中之重。

目前,国内外相关数据服务平台研究机构已初步开展针对数据共享及管理相关研究,各种标识体系基于开放的api接口方式捕获数据。基于标识技术的数据共享和管理方式是近年来新兴的模式,目前主要包括国际handle标识系统、handle标识体系下的doi数字对象标识系统,我国针对科学仪器等科研资源的cstr科技资源标识,我国针对新闻出版物的isli关联标识体系。

(1)doi数字对象标识系统编码结构

doi的编码方案(ansi/nisoz39.84-2000)规定,一个doi由两部分组成:前缀和后缀,中间用“/”分割。doi前缀由doi标识应用代码“10”和登记机构代码(由doi管理机构dona分配)构成,doi后缀由登记机构分配给数字资源,并保证其唯一性。

编码数据结构为:10.“登记机构代码”/“后缀”

示例:

10.11899/zzfy20140201

10为doi标识应用代码

11899为登记机构代码,此处为“震灾防御技术”期刊

zzfy20140201为数字文章唯一代码,由以上期刊分配。

(2)cstr科技资源标识编码结构

科技资源标识符由中国科技资源代号(cstr)、科技资源标识注册机构代码、科技资源类型代码和内部标识符四部分组成。中国科技资源代号与科技资源标识注册机构代码之间用半角符号“:”分隔,其余各部分之间用半角符号“.”进行分隔,见图1。

(3)新闻出版物的isli关联标识编码结构

isli编码由十进制数字构成,分为服务字段、关联字段和校验字段三个字段,见图2,其中服务字段的服务编码由注册机构分配,关联字段包含关联编码,由注册机构分配。

(4)handle数字对象标识系统

handle是由不同字符构成的字符串。handlesystem中的每个handle由两部分组成:handle的命名授权部分(namingauthority)以及跟随其后的在该命名授权下唯一的本地名称(localname)。命名授权(简称na)和本地名称间通过“/”来分开,表达式为:

<handle>=<namingauthority>"/"<localname>

然而,以上标识系统仅考虑了标识体系内的解析和互通,目前数据服务平台仅支持采用一种标识体系的数据共享,对于采用不同类型标识体系之间的数据共享存在以下问题:

(1)数据服务平台无法识别不同的标识种类,需要开发异构识别模块,用于识别不同的标识体系,兼容性和可扩展性较为局限。

(2)数据服务平台缺乏统一的标识数据捕获入口,需要针对不同的标识体系要求,开发多个不同的api数据接口,效率较低,缺乏一致性。

(3)标识体系数据捕获入口仅能查询其自身标识,无法实现对其他标识体系数据捕获的支撑。



技术实现要素:

本发明旨在提供一个更加合理的基于标识技术的数据共享和管理方法及系统,解决数据标识异构,缺乏一致的、可实施的信息共享和管理的问题,特别是在共享过程中涉及跨领域跨标识体系数据共享的可行性问题。

本发明采用的技术方案如下:

一种基于标识技术的数据共享和管理方法,包括以下步骤:

1)建立数据标识服务节点,包括根节点和标识体系叶子节点;所述标识体系叶子节点向所述根节点注册节点服务地址和编码规则;

2)通过所述标识体系叶子节点为数据库中的数据配置标识,并基于数据库建立所述标识体系叶子节点的下级叶子节点;

3)通过建立的数据标识服务节点接收客户端的标识解析请求,对标识解析请求中的数据标识进行解析,并将与该数据标识对应的数据库中的数据访问地址发送给客户端。

进一步地,所述标识体系叶子节点是基于不同标识体系建立的若干叶子节点,包括cstr叶子节点、doi叶子节点、handle叶子节点、isli叶子节点。

进一步地,所述标识体系叶子节点为数据库中的数据配置标识包括:

对于数据未采用标识的数据库,调用标识前缀申请及分配机制,即选择标识体系(可为现有标识体系,也可为自定义标识体系),向标识体系叶子节点注册其数据库的中间件地址;标识体系叶子节点向数据库中间件分配标识前缀,并记录标识前缀与数据库中间件地址的映射关系;数据库根据所分配的标识前缀,自定义标识后缀,生成完整数据标识代码,将每项数据的url、数据标识代码写入数据库;

对于已有数据标识的数据库,调用标识登记机制,向所使用的标识体系叶子节点登记标识前缀和数据库中间件地址,标识体系叶子节点记录标识前缀和数据库中间件地址,并建立标识前缀与数据库中间件地址的映射关系。

进一步地,所述数据标识服务节点中,各级叶子节点与上级节点对接,将数据标识类型、子节点地址注册至上级节点;上级节点记录该子节点数据类型、子节点地址,为子节点分配节点代码,并将节点代码与数据类型、子节点地址信息相关联;各级节点负责数据类型识别、本级节点管理、向上级节点注册以及下级节点分配和管理。

进一步地,步骤3)对数据标识进行解析的步骤包括:

客户端向根节点发起标识解析请求,调用根节点的api接口,根节点解析标识类型,若成功匹配则将数据标识代码发送至下级叶子节点,若匹配失败则返回错误信息;下级叶子节点解析数据标识代码的前缀,若匹配则将数据标识代码的后缀发送至匹配的数据库中间件地址;中间件将api接口查询语言转换为数据库语言,查找数据标识代码所对应的数据访问地址,并将结果返回客户端。

进一步地,步骤3)采用异构入口数据捕获机制对数据标识进行解析,其步骤包括:

(1)客户端向任一级子节点或根节点发起标识解析请求;

(2)收到标识解析请求的子节点或根节点将数据标识代码与其所记录的数据类型相匹配,若匹配成功则进行步骤(3),若失败则进行步骤(4);

(3)如果数据类型匹配成功,该级节点解析数据标识代码中相应的数据段代码,若与本级代码相同,则将数据标识代码中的后段代码发送至相应的下级节点,按照这种方式逐级进行,至最后一级节点,进行步骤(5);若任一级匹配错误,则进行步骤(6);

(4)如果数据类型匹配失败,该级节点向上级节点发送标识解析请求,若成功则进行步骤(3),若请求至根节点的后仍匹配失败,则进行步骤(6);

(5)向客户端返回匹配成功的状态信息和数据的数据库地址,客户端向数据的数据库发送标识解析请求,数据库向客户端返回相应信息;

(6)向客户端返回匹配失败状态信息。

一种基于标识技术的数据共享和管理系统,包括数据标识服务节点,所述数据标识服务节点包括根节点、标识体系叶子节点以及所述标识体系叶子节点的下级节点;所述标识体系叶子节点向所述根节点注册节点服务地址和编码规则;所述标识体系叶子节点为数据库中的数据配置标识,并基于数据库形成所述标识体系叶子节点的下级叶子节点;所述数据标识服务节点接收客户端的标识解析请求,对标识解析请求中的数据标识进行解析,并将与该数据标识对应的数据库中的数据访问地址发送给客户端。

进一步地,所述根节点、所述标识体系叶子节点以及所述标识体系叶子节点的下级节点可部署于同一服务器中,或者分别部署于不同服务器中。

本发明提供了跨领域异构数据的共享和管理方法,不需要改变数据现有管理方法,提供科学化和规范化的基于标识的数据管理方法;不需要充分理解其他应用中数据结构、通信方式等情况下,提供一致性的数据共享方法;不需要将数据上传至统一平台的情况下,实现数据分布式共享和管理,保护科学数据安全性。

附图说明

图1.cstr科技资源标识编码结构示意图。

图2.新闻出版物isli关联标识编码结构示意图。

图3.数据标识服务节点示意图。

图4.数据标识配置示意图。

图5.异构入口数据捕获流程图。

图6.数据标识编码方式示意图。

具体实施方式

下面通过具体实施例和附图,对本发明做进一步详细说明。

本发明针对跨领域异构数据管理系统间信息共享和管理,提出了基于标识技术的解决方案。该方案主要包括数据标识服务节点搭建(异构识别构建)、数据标识配置机制(标识申请、标识分配、标识编码、标识登记)、数据标识解析方法、异构入口数据捕获(上溯机制)四个部分。各部分的关系是:数据标识服务节点搭建是数据信息共享的基础设施,包括根节点和叶子节点构建和异构识别机制构建;数据标识配置机制是数据标识化管理的基础,包括标识申请、标识分配、标识编码规范以及标识登记;数据标识解析方法是标识节点找到目标数据库并返回共享信息的过程,包括解析机制和中间件;异构入口数据捕获提供一种标识在不同数据捕获入口均可获得数据的共享信息机制。

本发明的一种基于标识技术的数据共享和管理的方法,包括以下步骤:

a、数据标识服务节点搭建。

构建数据标识体系的根节点和标识体系叶子节点,其中标识体系叶子节点是指现有的主流标识体系,包括cstr、doi、handle、isli等,梳理叶子节点编码规则,形成叶子节点编码格式正则表达式,叶子节点向根节点注册节点服务地址和编码规则,根节点记录所注册的叶子节点编码规则和叶子节点服务地址,并形成异构标识识别算法。其中异构标识识别算法主要用于标识查询过程,实现对所查询的标识的正则匹配,确定标识类型。

图3是数据标识服务节点示意图。该图中datashare表示数据标识根节点代码,cstr、doi、handle、isli为不同的标识体系叶子节点,structure表示标识数据结构,type表示应用标识代码,address表示标识信息服务地址或标识体系叶子节点地址。

b、数据标识配置机制。

在上述标识体系叶子节点之后,可根据实际应用或需求,建立下一级叶子节点,或者建立更多级的叶子节点。这些叶子节点可对应不同的数据库(用于存储标识信息),需要将这些数据库在标识体系叶子节点中注册或登记。

对于数据未采用标识的数据库,调用标识前缀申请及分配机制,即选择标识体系,向标识体系叶子节点注册其数据库的中间件地址;标识体系叶子节点向数据库中间件分配标识前缀,并记录标识前缀与数据库中间件地址的映射关系;数据库根据所分配的标识前缀,自定义标识后缀,生成完整数据标识代码,将每项数据的url、数据标识代码写入数据库。

对于已有数据标识的数据库,调用标识登记机制,向所使用的标识体系叶子节点登记标识前缀和数据库中间件地址,标识体系叶子节点记录标识前缀和数据库中间件地址,并建立映射关系,见图4。图4中,prefix表示前缀;db表示database数据库,database1和database2表示两个数据库,mw1和mw2表示两个数据库中间件,url_mw1、url_mw2表示两个数据库中间件的地址;id表示数据标识代码;dataset表示数据集,即标识对象;address表示数据信息服务器的访问地址。

c、数据标识解析方法。

构建解析机制,各级叶子节点与上级节点对接,将数据标识类型、子节点地址注册至上级节点;上级节点记录该子节点数据类型、子节点地址,为子节点分配节点代码,并将节点代码与数据类型、子节点地址信息相关联。各级节点负责数据类型识别、本级节点管理、向上级节点注册以及下级节点分配和管理。

规范标识解析过程:客户端向根节点(datashare)发起标识解析请求,调用根节点的api数据接口,根节点解析标识类型,若成功匹配则将id发送至下级叶子节点,若匹配失败则返回错误信息;下级叶子节点解析id前缀,若匹配则将id后缀发送至匹配的数据库中间件地址;中间件将api接口查询语言转换为数据库语言,查找id所对应的数据地址,并将结果返回客户端;客户端呈现最终结果。

d、异构入口数据捕获。

除以上解析方式以外,本发明还提供一种异构入口数据捕获机制,即提供任一节点入口查询机制,见图5,流程如下:

(1)客户端(请求方)向任一级子节点或根节点发起标识解析请求,调用数据捕获接口的传输参数。所述数据捕获接口规定了接口方式、接口参数,用于查询请求。

(2)收到标识解析请求的子节点或根节点将数据标识代码与其所记录的数据类型相匹配,若匹配成功,则调用解析程序,进行(3),若失败,则进行(4)。

(3)如果数据类型匹配成功,该级节点解析数据标识代码中相应的数据段代码,若与本级代码相同,则将数据标识代码中的后段代码发送至相应的下级节点,按照这种方式逐级进行,至最后一级节点,向请求方返回数据所注册的数据库地址及状态信息,进行(5);若任一级匹配错误,则进行(6)。

(4)如果数据类型匹配失败,该级节点向上级节点发送标识解析请求,若成功则进行(3),若请求至根节点的后,仍匹配失败,则进行(6)。

(5)向请求方返回匹配成功的状态信息和数据的数据库地址,请求方向数据的数据库发送标识解析请求,数据库向请求方返回相应信息。

(6)向请求方返回匹配失败状态信息。

通过本发明方法的使用,主要通过科学数据标识编码、科学数据标识节点搭建及科学数据注册、科学数据标识代码解析三种方法实现科学数据的共享和管理。

实施例1对于数据未采用标识的数据库,本实施例提供一种数据标识编码方式,以形成数据标识代码(id)

(1)数据标识编码需符合唯一性、稳定性、科学性,能够满足具体应用容量要求。

(2)通用数据标识编码的数据结构由前缀和后缀组成,前缀和后缀之间的分隔符是“/”,包括datashare、type和opendata三个数据项,如图6所示。其中datashare是数据共享协议标识;type是应用标识代码,由数据共享管理机构分配,type在datashare数据共享应用中具备唯一性;opendata是具体应用内的数据标识,格式为分段式,分隔符为“.”,由具体应用自行分配,要保证同一前缀下的后缀唯一性。上述前缀和后缀共同构成“数据标识代码”,该“数据标识代码”用id来表示。

实施例2数据节点搭建及科学数据标识配置

(1)搭建数据标识根节点datashare,部署服务器,负责子节点标识配置;

(2)搭建数据标识handle子节点,实现与datashare根节点对接,实现handle子节点所采用标识体系数据类型规则及handle子节点信息服务器地址node_handleurl向datashare注册;

(3)根节点datashare为已对接的handle子节点自动配置标识handle,记录并关联handle标识编码结构与handle节点信息服务器地址node_handleurl。

(3)handle叶子节点可继续构建下级节点,与下级子节点对接,负责下级子节点管理。

实施例3数据库标识构建

(1)数据库a中的数据无标识,数据库管理方选择cstr标识体系,cstr向数据库a分配前缀cstr:123456。

(2)数据库向cstr子节点注册12345前缀和数据库中间件地址url_mw,cstr子节点记录12345前缀和url_mw,并建立两者之间的映射关系。

(3)数据库自定义cstr后缀规则,为数据集分配符合规则的后缀,同时构建每项数据集url,并将完整cstrid和url增加至数据库。

实施例4数据标识解析

(1)客户端向datashare节点发送doi标识解析请求;

(2)datashare判断id类型为doi,将id发送至下级doi子节点

(3)doi子节点解析id前缀,获得该id所在数据库中间件地址url_mw,向该中间件发送id后缀。

(4)中间件将api查询请求转化为数据库查询语言,向数据库发起查询。

(5)数据库遍历id后缀,返回数据信息url。

(6)客户端获得doi标识的数据的url,呈现查询结果。

以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1