一种基于扩展标记语言的标准文献全文结构化方法

文档序号:6581639阅读:116来源:国知局

专利名称::一种基于扩展标记语言的标准文献全文结构化方法
技术领域
:本发明属于信息技术和标准文献领域,具体涉及信息结构化技术、标准文献、文档排版结构,以及扩展标记语言(XML)技术。
背景技术
:标准文献完全不同于一般意义上的文献。一本著作被图书馆收藏,通过分类、编号等加工,资料上架和信息进入数据库就行了。但标准却截然不同,有的发布不久就修订,有的实施一两年就被新标准替代,因此标准数据库的动态维护工作量非常大而且非常重要。即使作废的标准也有用,因为按这项标准生产的产品出了官司,判定谁输谁赢只能按当时采用的标准作为依据。同样,标准的使用者查询一项标准与读者借阅一本著作也截然不同,读者借阅一本著作,图书馆的服务是借什么拿什么,即使有新版本,图书馆一般也无需介绍。但每一项标准都一定会有新版本,标准的使用者必须随时关注标准的变化。标准是技术积累的结晶,标准文献是属于科技文献的一种,是现代化企业组织生产、提高产品质量、促进产品进出口的必备技术文献,也是技术监督部门、商品检验部门进行产品检验的法律依据。特别是当今科技高速发展的情况下,最新分布的标准往往是新技术的载体。在当今全球一体化的激烈竞争中,标准成为了企业参与竞争的先决条件。目前查询相关标准都是首先通过标准题录数据库进行查询,然后索取标准文本。由于标准题录数据库涉及标准中规范的内容很少,很难反映出标准涉及规范的全部内容,所以很难满足有关主题的标准查全的要求,往往查找的结果不全,即使查到相关标准,也很难看到相关规范内容,结果查找的准确性不高。目前,虽然有能对word、PDF等格式的标准文献全文文件进行检索的软件工具,但很难满足用户对标准信息的需求,主要由于(1)由于标准文献数量巨大,查找速度难于满足要求;(2)word、PDF等格式标准文献全文文件为非结构化数据,很难实现如结构化数据那样的检索、过滤、提取、挖掘和分析等功能。
发明内容本发明的目的在于提出了一种基于扩展标记语言(XML)的标准文献全文结构化方法,该结构化方法从标准文献应用角度,结合标准文献特点及其排版结构要求,利用XML技术实现对标准全文的结构化。标准文献全文结构化的划分方法如下标准文献的文档元素分为封面、目次、前言、引言、范围、引用文件、正文条款、附录、参考文献、索引;另外,标准的修改单也作为标准文献的文档元素。文档元素的约束为必备要素、可选要素。文档元素的性质属性分为资料性概述、资料性补充、规范性一般、规范性技术。页面元素为标题、条文、图、表、注、脚注。文档元素的属性、约束与页面元素的关系见下表所示。<table>tableseeoriginaldocumentpage4</column></row><table><table>tableseeoriginaldocumentpage5</column></row><table><table>tableseeoriginaldocumentpage6</column></row><table>标准文献全文XML文档类型定义schema文件<?xmlversion=“1.0"encoding=〃UTF-8"?><xsschemaxm1ns:xs="http://www.w3.org/2001/XMLSchema"elementFormDefault="qualified"attributeFormDefault="unqualified"><xs:elementname=〃文档〃><xs:annotation)<xs:documentation>Commentdescribingyourrootelement</xs:documentation)</xs:annotation)<xscomplexType><xssequence)<xs:elementname=〃封面〃><xs:complexType><xs:sequence)<xs:elementref=“中文名称〃minOccurs="0〃/><xs:elementref=〃英文名称〃minOccurs=〃0〃/><xs:elementref=〃标准号〃/><xs:elementref=〃被替代标准号〃minOccurs=〃0〃/><xs:elementref=〃采用标准号〃minOccurs=〃0"/><xs:elementref=“ics〃minOccurs="0〃/><xs:elementref=“ccs"minOccurs="0〃/><xs:elementref=〃备案号〃minOccurs=〃0〃/><xs:elementref=〃发布日期〃/><xs:elementref=〃实施日期〃minOccurs=〃0〃/><xs:elementref=〃发布组织〃minOccurs=〃0〃/></xssequence〉<xs:attributeref=〃性质〃default=〃资料性概述〃/></xs:complexType></xs:element)<xs:elementname=〃目次〃minOccurs="0〃><xs:complexType><xs:sequence)<xs:elementref=〃条文〃/></xs:sequence)<xs:attributeref=〃性质〃/></xs:complexType></xs:element)<xs:elementname=“前言〃><xs:complexType><xs:sequence)<xs:elementref=〃条文〃maxOccurs=〃unbounded"/></xs:sequence)<xs:attributeref=〃性质〃/></xs:complexType></xs:element)<xs:elementname=“引言〃minOccurs="0〃><xs:complexType><xs:sequence)<xs:elementref=“条文〃maxOccurs="unbounded"/><xs:elementref=“图〃minOccurs="0"maxOccurs=〃unbounded"/><xs:elementref=“表〃minOccurs="0"maxOccurs=〃unbounded"/><xs:elementref=“注〃minOccurs="0"maxOccurs=〃unbounded"/></xs:sequence)<xs:attributeref=〃性质〃default=〃资料性概述〃/></xs:complexType></xs:element)<xs:elementname=〃范围〃><xs:complexType><xs:sequence)<xs:elementref=〃条文〃maxOccurs=〃unbounded"/></xs:sequence)<xs:attributeref=〃性质〃fixed=〃规范性一般〃/></xs:complexType></xs:element)<xs:elementname="弓丨用文件"minOccurs="0"><xs:complexType><xs:sequence)<xs:elementref=〃条文〃/></xs:sequence)<xs:attributeref=〃性质〃default=〃规范性一般〃/></xs:complexType></xs:element)<xs:elementname=“正文条款〃maxOccurs="unbounded"><xs:complexType><xs:sequence)<xs:elementref=〃条文〃maxOccurs=〃unbounded"/><xs:elementref=〃图〃minOccurs=〃0〃maxOccurs=〃unbounded"/><xs:elementref=“表〃minOccurs="0"maxOccurs=〃unbounded"/><xs:elementref=“注〃minOccurs="0"maxOccurs=〃unbounded"/></xs:sequence)<xs:attributeref=〃性质〃default=〃规范性技术〃/></xscomplexType></xs:element)<xs:elementname=“附录〃minOccurs="0〃maxOccurs="unbounded"><xs:complexType><xs:sequence)=〃unbounded"/>=〃unbounded"/>=〃unbounded"/>=〃unbounded"/><xs:elementref=“条文"minOccurs="0"maxOccurs<xs:elementref=“图〃minOccurs="0"maxOccurs<xs:elementref=“表〃minOccurs="0"maxOccurs<xs:elementref=“注〃minOccurs="0"maxOccurs</xs:sequence)<xs:attributeref=〃性质〃/></xs:complexType></xs:element)<xs:elementname=〃参考文献〃minOccurs="0〃><xs:complexType><xs:sequence)<xs:elementref=“条文〃/></xs:sequence)<xs:attributeref=〃性质〃default=〃资料性补充"/></xs:complexType></xs:element)<xs:elementname=“索弓|〃minOccurs=〃0〃maxOccurs="unbounded"><xs:complexType><xs:sequence)<xs:elementref=“条文〃maxOccurs="unbounded"/></xs:sequence)<xs:attributeref=〃性质〃/></xs:complexType></xs:element)<xs:elementname=‘’修改="unbounded">minOccurs=maxOccurs<xs:complexType><xs:sequence)<xs:elementref=“条文〃maxOccurs="unbounded"/><xs:elementref=“图〃minOccurs="0"maxOccurs=〃unbounded"/>=〃unbounded"/>=〃unbounded"/><xs:elementref=“表〃minOccurs="0"maxOccurs<xs:elementref=“注〃minOccurs="0"maxOccurs="required'="required'="optional'="optional'</xs:sequence)<xs:attributeref=〃性质〃/></xs:complexType></xs:element〉</xs:sequence)<xs:attributename=idtype=xs:IDuse<xs:attributename="language"type="xs:language"use<xs:attributename="updatetime"type="xs:dateTime"use<xs:attributename="updateuser"type="xs:string"use</xs:complexType></xs:element)<xs:elementname=〃表〃><xs:complexType><xs:sequence)<xs:elementname="title"<xs:elementname="content<xs:elementname="descriptiontype="xs:string"type="xs:string"/>type=“xs:string"/></xs:sequence)<xs:attributename="ID"type=<xs:attributename="forewordID"<xs:attributename〃page〃'xs:ID〃type=〃type='/>xs:IDREF'=〃optional"/>="optional"/><xs:attributenamepathtype=〃xs:string‘usexs:string‘use</xs:complexType></xs:element〉<xs:elementname=“图"><xs:complexType><xs:sequence)<xs:elementname="title'type=“xs:string"/><xs:elementname="description"type="xs:string"/></xs:sequence)<xs:attributename="ID"type="xs:ID〃/><xs:attributename="forewordID"type="xs:IDREF〃/><xs:attributename="page"type=“xs:string“use=〃optional"/><xs:attributename="path"type=“xs:string“use=〃optional"/></xs:complexType></xs:element)<xs:elementname=〃条文〃><xs:complexType><xs:all><xs:elementname="title"type="xs:string"minOccurs=〃0〃/><xs:elementname="Content"type="xs:string"minOccurs=“0〃/></xs:all><xs:attributename="ID"type="xs:ID〃/><xs:attributename=〃forewordID"type="xs:IDREF〃/><xs:attributename="page"type=“xs:string“use=〃optional"/></xs:complexType></xs:element)<xs:simpleTypename="documentElementAttribute“><xs:restrictionbase="xs:string"><xs:enumerationvalue=〃资料性概述"/><xs:enumerationvalue=〃资料性补充〃/><xs:enumerationvalue=〃规范性一般〃/><xs:enumerationvalue=〃规范性技术〃/></xs:restriction)</xs:simpleType><xs:attributename=〃性质〃type="documentElementAttribute"default=〃资料性概述〃/><xs:elementname=〃中文名称〃type="xs:string"/><xs:elementname=〃英文名称〃type="xs:string"/><xs:elementname=〃标准号〃type="xs:string"/><xs:elementname=〃被替代标准号〃type="xs:string"/><xs:elementname=〃采用标准号〃type="xs:string"/><xs:elementname="ics"type="xs:string"/><xs:elementname="ccs"type="xs:string"/><xs:elementname="备案号〃type="xs:string"/><xs:elementname=〃发布日期〃type="xs:date〃/><xs:elementname=〃实施日期〃type="xs:date〃/><xs:elementname=〃发布组织〃type="xs:string"/><xs:elementname=〃注〃><xs:complexType><xs:sequence)<xs:elementref=〃条文〃/><xs:elementname="beNotedID"type="xs:IDREF"/></xs:sequence)<xs:attributename="noteTag"type="xs:boolean"use="optional"default="0"/></xs:complexType></xs:element)</xs:schema)图1是文档元素的结构图,1为根元素,名称为文档元素,2为文档元素的属性,2-1、2-2、2-3、2-4为文档元素的属性,2_1为id属性,数据类型为xs:ID,为必选;2_2为language属性,数据类型为xslanguage,为必选;2-3为updatetime属性,数据类型为xs:dateTime,可选;2-4为updateuser属性,数据类型为xsstring,为可选。从3到13为文档元素的子元素,3为封面元素,详见图2;4为目次元素,详见图3;5为前言元素,详见图4;6为引言元素,详见图5;7为范围元素,详见图6;8为引用文件元素,详见图7;9为正文条款元素,详见图8;10为附录元素,详见图9;11为参考文献元素,详见图10;12为索引元素,详见图11;13为修改单元素,详见图12。图2为封面元素结构图,3为封面元素,3-1为属性,3-1-1为封面元素的名称为“性质”的属性,表示文档元素的性质,其取值可为资料性概述、资料性补充、规范性一般、规范性技术,等;缺省值为资料性概述。从3-2至3-12为封面元素的子元素。3-2为中文名称元素,简单类型,数据类型为XS:String;3-3为英文名称元素,简单类型,数据类型为xs:string;3-4为标准号元素,简单类型,数据类型为XS:String;3-5为被替代标准号元素,简单类型,数据类型为xs=String;3-6为采用标准号元素,简单类型,数据类型为xsstring;3-7为ICS元素,简单类型,数据类型为xsstring;3-8为CCS元素,简单类型,数据类型为XS:String;3-9为备案号元素,简单类型,数据类型为XS:String;3-10为发布日期元素,简单类型,数据类型为XS:date;3-11为实施日期元素,简单类型,数据类型为xsdate;3-12为发布组织元素,简单类型,数据类型为xsstring。图3为目次元素结构图,4为目次元素,4-1为属性,4-1-1为目次元素的名称为“性质”的属性,表示文档元素的性质,其取值可为资料性概述、资料性补充、规范性一般、规范性技术,等;缺省值为资料性概述。4-2为条文元素,详见图13。图4为前言元素结构图,5为前言元素,5-1为属性,5-1-1为前言元素的名称为“性质”的属性,表示文档元素的性质,其取值可为资料性概述、资料性补充、规范性一般、规范性技术,等;缺省值为资料性概述。5-2为条文元素,详见图13。图5为引言元素结构图,6为引言元素,6-1为属性,6-1-1为引言元素的名称为“性质”的属性,表示文档元素的性质,其取值可为资料性概述、资料性补充、规范性一般、规范性技术,等;缺省值为资料性概述。6-2为条文元素,详见图13;6-3为图元素,详见图14;6-4为表元素,详见图15;6-5为注元素,详见图16。图6为范围元素结构图,7为范围元素,7-1为属性,7-1-1为范围元素的名称为“性质”的属性,表示文档元素的性质,其取值可为资料性概述、资料性补充、规范性一般、规范性技术,等;缺省值为规范性一般。7-2为条文元素,详见图13。图7为引用文件元素结构图,8为引用文件元素,8-1为属性,8-1-1为引用文件元素的名称为“性质”的属性,表示文档元素的性质,其取值可为资料性概述、资料性补充、规范性一般、规范性技术,等;缺省值为规范性一般。8-2为条文元素,详见图13。图8为正文条款元素结构图,9为正文条款元素,9-1为属性,9-1-1为正文条款元素的名称为“性质”的属性,表示文档元素的性质,其取值可为资料性概述、资料性补充、规范性一般、规范性技术,等;缺省值为规范性技术。9-2为条文元素,详见图13;9-3为图元素,详见图14;9-4为表元素,详见图15;9-5为注元素,详见图16。图9为附录元素结构图,10为附录元素,10-1为属性,10-1-1为附录元素的名称为“性质”的属性,表示文档元素的性质,其取值可为资料性概述、资料性补充、规范性一般、规范性技术,等;缺省值为资料性概述。10-2为条文元素,详见图13;10-3为图元素,详见图14;10-4为表元素,详见图15;10-5为注元素,详见图16。图10为参考文献元素结构图,11为参考文献元素,11-1为属性,11-1-1为参考文献元素的名称为“性质”的属性,表示文档元素的性质,其取值可为资料性概述、资料性补充、规范性一般、规范性技术,等;缺省值为资料性补充。11-2为条文元素,详见图13。图11为索引元素结构图,12为索引元素,12-1为属性,12-1-1为索引元素的名称为“性质”的属性,表示文档元素的性质,其取值可为资料性概述、资料性补充、规范性一般、规范性技术,等;缺省值为资料性概述。12-2为条文元素,详见图13。图12为修改单元素结构图,13为修改单元素,13-1为属性,13-1-1为修改单元素的名称为“性质”的属性,表示文档元素的性质,其取值可为资料性概述、资料性补充、规范性一般、规范性技术,等;缺省值为资料性概述。13-2为条文元素,详见图13;13-3为图元素,详见图14;13-4为表元素,详见图15;13-5为注元素,详见图16。图13为条文元素结构图,100为条文元素,100-1为属性,100-1-1为条文元素的“ID”属性,数据类型xs:ID,为可选;100-1-2为条文元素的“forewordID”属性,数据类型xs:IDREF,为可选;100-1-3为条文元素的“page”属性,数据类型XS:string,可选属性。100-2为条文元素的子元素title,数据类型为XS:string,为可选;100-3为条文元素的子元素Content,数据类型为xsstring,为可选。图14为图元素结构图,200为图元素,200-1为属性,200_1_1为图元素的“ID”属性,数据类型xs:ID,为可选属性;200-1-2为图元素的“forewordID”属性,数据类型XS:IDREF,为可选属性;200-1-3为图元素的“page”属性,数据类型xs:string,为可选属性;200-1-4为图元素的“path”属性,数据类型xsstring,为可选属性。200-2为图元素的子元素title,数据类型为XS:String;200-3为图元素的子元素description,数据类型为xsstring。图15为表元素结构图,300为表元素,300-1为属性,300_1_1为表元素的“ID”属性,数据类型xs:ID,为可选属性;300-1-2为表元素的“forewordID”属性,数据类型xs:IDREF,为可选属性;300-1-3为表元素的“page”属性,数据类型xs:string,为可选属性;300-1-4为表元素的“path”属性,数据类型XS:String,为可选属性。300-2为表元素的子元素title,数据类型为xs:string;300-3为表元素的子元素Content,数据类型为xs:string;300-4^^jtM^i^TtMdescription,^ig^lM^Jxs:string。图16为注元素结构图,400为注元素,400-1为属性,400_1_1为注元素的"noteTag"属性,数据类型xsboolean,为可选属性,属性值为0表示正文中的注,属性值为1表示脚注;400-2为注元素的子元素条文元素,详见图13;400-3为注元素的子元素beNotedID元素,数据类型xsIDREF0图17为标准文献全文XML结构化方法的系统框架图,1为标准文献全文XML结构化系统,由1-1数据库、1-2标准文献结构化XML文档制作模块、1-3检索查询模块和1-4文档显示模块。具体实施例方式参见图17,该图是本发明标准文献全文XML结构化方法的系统框架图。标准文献结构化XML文档制作模块按照本发明的基于XML标准文献全文结构化方法,制作标准文献XML文档,建成XML文档数据库,或者运用关系型数据库进行存储。检索查询模块依据本发明的基于XML标准文献全文结构化方法,运用XML技术中的XPath、XQuery等查询语言进行检索查询。文档显示模块依据本发明的基于XML标准文献全文结构化方法,运用XML技术中的CCS、XSLT等显示标准文献。实施例按照本发明,对国家标准GB/T21284-2007《鞋类成鞋试验方法保暖性》进行全文XML结构化文档的制作,XML文档如下<?xmlversion="1.0〃encoding="UTF-8"?>〈文档id=〃gb21284"language="chinese"updateuser="liuhua"xmlns:xsi=“http://www.w3.org/2001/XMLSchema-instance“xsi:noNamespaceSchemaLocation="documentformdefine20090826.xsd">〈封面性质=〃资料性概述〃>〈中文名称〉鞋类成鞋试验方法保暖性</中文名称〉〈英文名称>Footwear-Testmethodforwholeshoe-Thermalinsulation</英文名称><标准号>GB21284-2007</标准号><采用标准号>IS0208772001</采用标准号><ics>61.060</ics><ccs>Y78</ccs>〈发布日期>2007-12_13</发布日期〉〈实施日期>2008-07-01</实施日期〉〈发布组织〉中华人民国和国国家质量监督检验检疫总局;中国国家标准化管理委员会</发布组织></封面>〈前言性质=〃资料性概述〃>〈条文ID=〃ID000001〃page="I"><title>前言</title>〈Content〉本标准等同采用国际标准IS020877:2001《鞋类成鞋试验方法保暖性》(英文版)。为了便于使用,本标准作了下列编辑性修改——删除了S0208772001的前言。本标准的附录A为资料性附录。本标准由中国石油和化学工业协会提出。本标准由全国橡胶与橡胶制品标准化技术委员会胶鞋分技术委员会(SAC/TC35SC9)归口。本标准起草单位国家鞋类检测中心、郭氏(莆田)贸易有限公司、福建制鞋行业技术开发(莆田)基地。本标准主要起草人傅以忠、唐振华、郭启迪、陈勤建、傅庆洪、林伟。〈/Content〉</条文></前言>〈范围性质=〃规范性一般〃>〈条文ID=〃ID000002"forewordID=“ID000001"page="1〃><title>l范围</title>〈Content〉本标准规定了成鞋防寒的试验方法。本标准适用于所有的鞋子或靴子的防寒性能试验。〈/Content〉</条文></范围〉〈引用文件性质=〃规范性一般〃>〈条文ID=〃ID000003"forewordID=“ID000002"page="1〃><title>2规范性引用文件</title>〈Content〉下列文件中的条款通过本标准的引用而成为本标准的条款.凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。EN12222鞋类鞋和鞋部件调节和试验的标准环境〈/Content〉</条文></引用文件〉〈正文条款性质=〃规范性技术〃>〈条文ID=〃ID000004"forewordID=“ID000003"page="1〃><title>3术语和定义</title>〈Content〉下列术语和定义适用于本标准。〈/Content〉</条文>〈条文ID=〃ID000005"forewordID=“ID000004"page="1〃><title>3.l</title><Content>保暖性能thermalinsulation成鞋放置在规定试验环境中30min后,前帮内面和内底垫上温度的变化。</Content></条文>〈条文ID=〃ID000006"forewordID=“ID000005"page="1〃><title>4仪器和材料</title></条文>〈条文ID=〃ID000007"forewordID=“ID000006"page="1〃><title>4.1防寒试验箱</title>〈Content〉箱内温度能够控制在_20°C士2°C(见图1)〈/Content〉</条文>〈条文ID=〃ID000008"forewordID=“ID000007"page="1〃><title>4.2热导体</title>〈Content〉直径为5mm、总质量为4000g的钢珠。〈/Content〉</条文>〈条文ID=〃ID000009"forewordID=“ID000008"page="1〃><title>4.3温度测试系统,热电偶〈/title〉〈Content〉铜/铜-镍热电偶,前端焊接着一个厚2mm?.1mm、直径为15mm?mm的铜盘。〈/Content〉</条文>〈条文ID=〃ID000010"forewordID=“ID000009"page="1〃><title>4.4温度记录仪</title>〈Content〉带有补偿器,且能与4.3中的测试系统相配使用。〈/Content〉</条文>〈条文ID=〃ID000011"forewordID=“ID000010〃page="1〃><title>4.5铜/锌合金板</title>〈Content〉尺寸为150mm?50mm,厚5mm,如图1所示放置。〈/Content〉</条文>〈条文M=〃ID000012"forewordID=“ID000010"page="2"><title>5试样和调节</title>〈Content〉试样不得少于2个。试验试样采用成鞋。将试样在EN12222标准规定的环境下调节24h。温度测试系统和钢珠也应在EN12222标准规定的环境下进行调节。把一个热电偶放置在内底垫,另一个放置在前帮内面上,往鞋子里填钢珠,如果帮面高度不足于装下钢珠,可在鞋口装一项圈以增加高度。在EN12222标准规定的环境下放置一段时间,直到温度测试系统显示的温度与环境温度一致。〈/Content〉</条文〉〈条文ID=〃ID000013"forewordID=“ID000012"page="2"><title>6试验方法</title>〈Content〉调节防寒试验箱的箱内温度至_20°C?V,并记录试样的起始温度,把试样放置在防寒箱内支架上的铜/锌合金板上,调节支架的高度,使得鞋口的顶端与仪器的开口不平,用热绝缘体把鞋口密封,以防止冷空气跑进鞋里。用温度记录仪监测成鞋放在隔热试验箱内30min过程中热电偶的温度变化,记录最后测得的温度值,计算出30min内温度的下降值。〈/Content〉</条文〉〈条文ID=〃ID000014"forewordID=“ID000013"page="2"><title>7结果表示</title>〈Content〉最后测得的温度。结果取内底的帮面测得值的平均值。〈/Content〉</条文>〈条文ID=〃ID000015"forewordID=“ID000014"page="2"><title>8试验报告</title>〈Content〉试验报告应包括如下内容a)采用本标准名称及代号;b)内底垫测试点上温度的变化;c)帮面测试点上温度的变化;d)样品的描述;e)简单描述相应的抽样程序;f)任何偏离本标准的备注。〈/Content〉</条文>〈图ID=〃ID000016“forewordID=“ID000011“page=〃2〃path="01.tif"><title>图1防寒试验箱</title>〈description〉K^i^^H〈/description〉</图〉〈注noteTag="0〃>〈条文ID=〃ID000017"forewordID="ID000008"page="1〃>〈Content〉注符合ISO3290标准要求〈/Content〉</条文><beNotedID>ID000008</beNotedID></注〉<注noteTag=〃0〃>〈条文ID=〃ID000018"forewordID=“ID000013"page="2">〈Content〉注如有可能,采用温度记录仪与温度监测系统连续记录下随时间推移而变化的温度下降图形曲线。〈/Content〉</条文〉<beNotedID>ID000013</beNotedID></注〉</正文条款>〈附录性质=〃资料性补充〃>〈条文ID=〃ID000019"forewordID=“ID000015"page="4〃><title>附录A</title>〈Content〉(资料性附录)国际标准等同于欧洲标准清单〈/ContentX/条文>〈表ID=〃ID000020"forewordID=“ID000019"page="4〃path="02.tif">〈title〉国际标准等同欧洲标准清单〈/title〉〈content〉欧洲标准国际标准EN12222IS018454</content>〈description〉国际标准等同欧洲标准清单〈/description〉</表〉</附录>〈参考文献性质=〃资料性补充〃>〈条文ID=〃ID000021"forewordID=“ID000020"page="5〃><title>参考文献</title>〈Content〉[1]EN344专业使用的安全、防护和职业鞋的要求和试验方法[2]ISO3290滚动轴承钢球尺寸和公差〈/ContentX/条文></参考文献〉</文档>权利要求一种基于扩展标记语言的标准文献全文结构化方法。其特征在于标准文献全文结构化方法,以标准全文XML文档类型定义schema文件为核心,由标准文献结构化XML文档制作模块、检索查询模块、文档显示模块和数据库组成的标准文献全文XML结构化系统。2.如权利要求1所述的标准文献全文结构化方法,其特征在于标准文献的文档元素分为封面、目次、前言、引言、范围、引用文件、正文条款、附录、参考文献、索引和修改单。一篇标准文献由文档根元素表示,其子元素包括封面、目次、前言、引言、范围、引用文件、正文条款、附录、参考文献、索引和修改单。3.如权利要求2所述的标准文献全文结构化方法,其特征在于封面、前言、范围、正文条款元素为必备要素,目次、引言、引用文件、附录、参考文献、索引和修改单元素为可选要素。4.如权利要求2所述的标准文献全文结构化方法,其特征在于通过文档元素的属性来表明文档元素在标准文献中的技术特征,即封面、目次、前言、引言元素的性质属性为资料性概述,范围、引用文件元素的性质属性为规范性一般,正文条款元素的性质属性为规范性技术,附录元素的性质属性为资料性补充或规范性技术,参考文献和索引元素的性质属性为资料性补充,修改单元素的性质属性为规范性技术、规范性一般、资料性概述或资料性补充。5.如权利要求2所述的标准文献全文结构化方法,其特征在于页面元素为标题、条文、图、表、注、脚注。标题元素为简单元素;条文元素为复杂元素,有三个属性,两个简单元素组成。图元素为复杂元素,有四个属性,两个简单元素组成。表元素为复杂元素,有四个属性,三个简单元素组成。注元素有标记属性区分页面元素中的注和脚注,一个子元素为条文元素,一个为被注的元素ID值。6.如权利要求5所述的方法,其特征在于条文、图、表元素有一个属性表示该元素在标准文献中的的页码,有一个属性表示标准文献中该元素前一个元素的ID值,图、表元素有一个属性表示图像文件存放的位置。7.如权利要求2所述的标准文献全文结构化方法,其特征在于封面元素的子元素中文名称、英文名称、标准号、被替代标准号、采用标准号、iCS、CCS、备案号、发布日期、实施日期和发布组织对应于页面元素的标题元素。目次、前言、引言、范围、引用文件、正文条款、附录、参考文献、索引和修改单为复杂元素,其子元素为条文、图、表、注元素。8.如权利要求2所述的标准文献全文结构化方法,其特征在于XML文档类型定义schema文件,依据该schema文件制作标准文献结构化XML文档,编写查询语句和显示文件。全文摘要本发明为一种基于扩展标记语言的标准文献全文结构化方法,属于信息技术和标准文献领域,解决了对标准文献文本挖掘的问题,实现了标准文献的全文检索和精细化检索和原版显示,能抽取相关数据,进行标准信息文本挖掘。从标准文献应用角度,结合标准文献特点及其排版结构的要求,建立了基于XML标准文献全文结构化方法,以标准全文XML文档类型定义schema文件为核心,由标准文献结构化XML文档制作模块、检索查询模块、文档显示模块和数据库组成的标准文献全文XML结构化系统。本发明应用于标准文献服务和出版发行。文档编号G06F17/30GK101833558SQ20091019203公开日2010年9月15日申请日期2009年9月4日优先权日2009年9月4日发明者刘华申请人:广东省标准化研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1