一种基于xml的数字资源标识方法和装置的制造方法

文档序号:9350058阅读:254来源:国知局
一种基于xml的数字资源标识方法和装置的制造方法
【技术领域】
[0001]本发明涉及数字出版和文献检索信息服务领域。
【背景技术】
[0002]目前,互联网上的资源数量越来越多,为了方便用户能发现并访问资源,需要对网上的数字资源进行唯一性标识,并提供统一有效的标识解析服务系统。信息服务和信息安全已经成为国家战略,特别是数字出版资源的需求更为迫切。现在,数字出版在向碎片化知识出版和按需出版转型,需要对不同粒度的知识碎片进行标识,需要支持对不同来源、粒度、载体的知识按内容体系实现动态聚合,这些都需要基于对出版的不同知识单元进行唯一性标识,并且能够基于标识实现一定程度的内容解析,才能使得数字资源标识在资源发现、传播和使用中价值最大化。
[0003]数字对象标识(DOI)是目前国际上最常用的出版资源数字对象唯一标识体系,由国际数字对象标识符基金会(IDF)以加盟方式进行统一管理和服务。DOI编码由前缀和后缀组成,前缀是机构代码由IDF分配,后缀由出版机构自己设计、编码,但需确保在出版机构内该编码唯一,例如,DOI 码:10.13862/j.cnk1.cn43-1446.r.2015.03.021,表示由出版机构CNKI (前缀码10.13862)注册的一篇期刊文献的DOI码。通过编码解析,DOI码只能够准确定位到这个出版物,但是解析时除了出版机构自己外,解析系统不知道该数字资源是什么或者有什么内容,主要原因是后缀编码完全由出版机构设计,没有相互之间能够理解的通用结构。随着数字出版和网络应用的发展,这种只能定位,不同提供更多结构信息的编码模式已经不能满足要求了。

【发明内容】

[0004]针对上述问题,本发明提出一种基于XML的数字资源标识方法和装置。
[0005]本发明的第一个目的是提出一种基于XML的数字资源标识方法,简称XMLD0I,包括:通过XML描述将数字资源编码结构化,每部分编码对应一个XML描述项,能够被计算机理解,知道这段编码代表什么含义。这样出版机构先要提交符合统一标准的XML编码定义文件,再按定义格式注册数字资源编码,使用时,系统先读取XML编码定义文件,再解析数字资源标识编码。
[0006]本方法中数字资源标识编码采用分层结构化设计,为满足当前大规模数据技术对知识挖掘的需求,将编码通过分层结构化赋予更多含义,以利于后续资源定位和应用。XMLDOI编码分为三部分:唯一标识部分IDSegment,外部特征标识部分ExtSegment,内容特征标识部分IntSegment,在每一部分中通过多个编码项描述相应的编码内容,编码项有保留编码项和出版机构自定义编码项。唯一标识部分标识该数字资源在全球的唯一性,由机构编码和机构内唯一代码两个保留编码项组成,外部特征标识部分通过多个编码项,描述该资源的各种外部特征,内容特征标识部分通过多个编码项,描述该资源的主要内容,除唯一性标识部分必须存在以外,外部特征和内容特征只需要保证一项以上存在。
[0007]本方法保持与DOI或其他常用编码模式兼容,通过在数字资源外部特征部分增加保留编码项IDFDOI实现,出版机构还可以自定义其他编码数据项。
[0008]本发明的第二个目的是提出一种基于XML的数字资源标识装置,包括两部分:数字资源标识注册管理子系统和数字资源标识解析服务子系统。标识注册管理子系实现对出版机构注册管理和数字资源标识注册管理,包括出版机构管理模块、标识分配管理模块、数字资源注册模块、数字资源检索模块、数字资源挖掘模块、第三方注册管理模块。
[0009]标识解析服务子系统实现对数字资源标识的不同粒度解析和服务,包括标识多重解析模块、解析策略管理模块、第三方编码解析模块、系统管理模块。
【附图说明】
[0010]图1是数字资源标识XML定义文件结构示意图
[0011]图2是数字资源标识装置功能模块图
[0012]图3是数字资源标识装置访问接口图
【具体实施方式】
[0013]下面结合附图对本发明的实施方式进行详细描述。
[0014]本发明的第一个目的是提出一种基于XML的数字资源标识方法,XMLD0I。本方法通过采用XML语言描述将数字资源编码结构化,每部分编码对应一个XML描述项,能够被计算机理解,知道这段编码代表什么含义。这样出版机构先要提交符合统一标准的XML编码定义文件,再按定义格式注册数字资源编码,使用时,系统先读取XML编码定义文件,再解析数字资源标识编码。
[0015]图1是本方法中数字资源标识XML定义文件结构示意图,如图1所示,本方法对数字资源编码采用分层结构化设计,将编码通过分层结构化在多个编码项上赋予语义,以利于后续资源定位和应用。XMLDOI编码采用标准的XML定义文件模式,将编码分为三部分:唯一标识部分IDSegment,外部特征标识部分ExtSegment,内容特征标识部分IntSegment,在每一部分中通过多个编码项描述相应的编码内容,编码项有保留编码项和出版机构自定义编码项。
[0016]唯一标识部分IDSegment的编码项共同描述了该数字资源在全球的唯一性,由机构编码和机构内唯一代码两个保留编码项组成。机构编码在出版机构通过本装置注册时统一分配,保证机构编码的唯一性,机构内唯一代码是指出版机构注册出版内容时,在本机构内按自定义规则分配的唯一代码,这两部分编码组合在一起,实现对出版内容的准确定位。
[0017]外部特征标识部分通过多个保留编码项,定义该资源的各种外部特征,包括:编码项Language定义该资源使用的语言;编码项Type定义该资源的出版载体类型;编码项KScale定义资源的知识粒度,例如刊、文、章、节、段、定义、图片;编码项Author定义资源的作者;编码项Date定义资源的出版时间;编码项CopyrightPub定义资源版权当前的所属机构;编码项IDFDOI定义资源的DOI编码,保持与DOI编码的兼容。除这些保留编码项以夕卜,出版机构可以根据需要,设计一些自定义编码项和下级编码项。
[0018]内容特征标识部分通过多个保留编码项,描述该资源的主要内容,包括:编码项Title定义资源的标题;编码项Keywords定义资源的关键词序列;编码项Domain定义资源所属的研究领域。除这些保留编码项以外,出版机构可以根据需要,设计一些自定义编码项和下级编码项。
[0019]本发明的第二个目的是提出一种基于XML的数字资源标识装置20,本装置功能模块如图2所示,包括两部分:数字资源标识注册管理子系统21和数字资源标识解析服务子系统22。标识注册管理子系实现对出版机构注册管理和数字资源标识注册管理,包括出版机构管理模块216、标识分配管理模块211、数字资源注册模块212、数字资源检索模块213、数字资源挖掘模块214、第三方注册管理模块215。
[0020]出版机构管理模块216实现对出版机构注册,分配唯一的机构编码,对出版机构信息进行编辑和管理。
[0021]标识分配管理模块211按数字资源标识方法,为成功注册的出版机构分配资源标识码段,并对分配机制和分配结果进行合法性检测和管理。
[0022]数字资源注册模块212接收出版机构对数字资源的标识注册请求,对资源进行重复性检测,合格后注册标识码,返回注册成功信息。
[0023]数字资源检索模块213为出版机构和作者、读者提供对已注册数字资源的查询,促进数字资源的直接使用、传播
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1