一种数据格式的描述方法

文档序号:6368429阅读:282来源:国知局
专利名称:一种数据格式的描述方法
技术领域
本发明属于计算机和信息技术领域,特别涉及一种数据格式的描述方法。
背景技术
数据格式问题自计算机诞生时就产生了。在计算机数据交换与共享过程中,解决数据格式问题的方法主要有标准格式转换法和数据格式描述法两种。标准格式转换法是人为的规定ー种适应较广的数据格式作为标准格式,強制数据以标准格式存储,并将其他数据格式的数据转换为标准格式。该方法强调数据与软件的可移植性、数据文件内容组织的灵活性,具有一定的灵活性和可扩展性,缺点在于任何一种标准格式都不可能对所有类型的数据通用、标准格式往往较为复杂。数据格式描述法采用描述机制直接对各种数据格式进行描述。该方法无需进行数据格式转换,只需采用数据描述语言对数据进行描述,可扩展性强。目前,已经有ASN-I、EAST、ODL、FREEFORM、DFDL等多种数据格式描述语言的方案,并得到了一定的应用,但是这些数据格式描述语言本质上都以数据为中心的描述方法,存在数据格式的描述能力不足的问题。因此,本发明提出ー种新的数据格式描述的方法,以数据位置为中心,以数据类型和分隔符为核心,对数据的类型、结构和布局等格式信息进行统一描述。

发明内容
为了解决数据交換与共享过程中,数据格式多祥、异构的问题,克服标准格式复杂、不可能适用于所有数据格式的缺点,针对现有的数据格式描述语言以数据为核心,格式的描述依附于数据,而难以描述数据格式的细微特征的缺陷,本发明的目的是提供一种数据格式的描述方法,能够对各种数据格式进行描述,解决了数据交换与共享过程中的数据格式问题。本发明解决其技术问题所采用的技术方案是一种数据格式的描述方法,包括以下步骤(I)从数据格式的文字说明或数据中获取数据格式信息;(2)采用数据格式标记语言对数据格式信息进行统ー描述;(3)生成数据格式标记文档。数据格式信息包括数据的数据类型、结构和布局信息;数据类型信息是指具有某些共同格式特征的数据的统称;结构信息是指数据的有规律的重复排列;布局信息是指数据和分隔符的位置或位置范围,两者之间的排列关系;数据格式标记语言采用标记元素对数据格式信息进行描述,标记元素包括根元素(dfml)、导入元素(import)、位置元素(location)、数据类型元素、分隔符元素和 组元素(group) 6大类元素;根元素(dfml)用于描述数据格式的基本信息;主要属性有name、namespace、version 和 moae ;
导入元素(import)用于将其他数据格式标记文档中定义的元素导入当前文档中,使得当前文档可以引用其他文档中定义好的元素;只有一个必选的link属性;位置元素(location)用于描述数据项在数据中的位置或位置范围;主要属性有name 和 value ;数据类型元素用于描述数据项的类型和格式信息,包括综合数据类型元素(datatype)和基本数据类型兀素(string、integer、real、boolean、date、time、datetime和 path),王要属性有 name、type、value、format、default、domain、number、separator、和location,只有综合数据类型元素具有type和value属性;综合数据类型元素用于描述任何数据项的类型和格式信息,同时提供数据类型的可扩展性;基本数据类型元素用于描述某类具体的数据项的类型和格式信息;分隔符元素用于描述数据项的分隔符类型和格式信息,包括综合分隔符元素(separator)和基本分隔符兀素(space、tab、comma > semicolon、cr 和 br),主要属性有name、type、value、number和location,只有综合分隔符兀素具有type和value属性;综合分隔符元素用于描述所有数据项的分隔符类型和格式信息;基本分隔符元素用于描述某类具体的数据项的分隔符类型和格式信息;组元素(group)将若干个元素归为ー组,通过元素的组合来描述数据的结构信息,主要属性有name、location和number。采用数据格式标记语言对数据格式信息进行描述的过程,包括以下步骤(I)新建数据格式标记文档;(2)添加根兀素dfml,设置其name、namespace和mode属性描述数据格式的名称、标识符和模式信息;(3)根据数据格式的结构信息,将其划分为若干个组成部分,确定每一部分的名称和位置范围;(4)采用group元素描述姆一部分,设置其name和location属性描述姆一部分的名称和位置范围;(5)对每一部分,识别其布局信息,包括每个数据项的数据类型或分隔符类型、起始位置和结束位置、数据类型的表现格式;(6)判断每ー部分的布局信息是否存在有规律的重复结构,如果存在,则将其归结为部分中的部分;(7)根据步骤(5)和(6)中的结构和布局信息,采用组元素、数据类型元素和分隔符元依次描述各数据项;当部分中含有部分吋,采用组元素内部嵌套组元素的方式进行描述;当数据项为数据时,可以使用基本数据类型元素,也可以使用综合数据类型元素进行描述;使用基本数据类型元素进行描述可以使数据格式标记文档在内容上更加清楚、直观;使用综合数据类型元素进行描述可以使数据格式标记文档在形式上显得整齐、一致;数据类型的表现格式通过format属性来描述,format属性值的格式如表I所示。表I数据类型元素的format属性值的格式权利要求
1.一种数据格式的描述方法,其特征在于,包括以下步骤 (1)从数据格式的文字说明或数据中获取数据格式信息; (2)采用数据格式标记语言对数据格式信息进行统ー描述; (3)生成数据格式标记文档。
2.根据权利要求I所述的ー种数据格式的描述方法,其特征在于所述步骤(I)中,数据格式信息包括数据的数据类型、结构和布局信息。
3.根据权利要求I所述的ー种数据格式的描述方法,其特征在于所述步骤(2)中,数据格式标记语言采用标记元素对数据格式信息进行描述,标记元素包括根元素、导入元素、位置元素、数据类型元素、分隔符元素和组元素;其中,数据类型元素包括综合数据类型元素和基本数据类型元素;分隔符元素包括综合分隔符元素和基本分隔符元素。
4.根据权利要求3所述的ー种数据格式的描述方法,其特征在于所述基本数据类型元素包括字符串类型、整数类型、实数类型、布尔类型、日期类型、时间类型、日期时间类型和路径类型;所述基本分隔符元素包括空格分隔符、制表符分隔符、逗号分隔符、分号分隔符、换行分隔符和空行分隔符。
5.根据权利要求1、3或4所述的ー种数据格式的描述方法,其特征在于所述采用数据格式标记语言对数据格式信息进行描述的过程包括以下步骤 (1)新建数据格式标记文档; (2)添加根元素,设置其名称、命名空间和模式属性来描述数据格式的名称、标识符和模式信息; (3)根据数据格式的结构信息,将其划分为若干个组成部分,确定每一部分的名称和位置范围; (4)采用组元素描述每一部分,设置其名称和位置属性来描述每一部分的名称和位置范围; (5)对每一部分,识别其布局信息,包括每个数据项的数据类型或分隔符类型、起始位置和结束位置、数据类型的表现格式; (6)判断每ー部分的布局信息是否存在有规律的重复结构,如果存在,则将其归结为部分中的部分,构成部分的内部结构; (7)根据步骤(5)和(6)中的结构和布局信息,采用组元素、数据类型元素和分隔符元依次描述各数据项;当部分中含有部分吋,采用组元素内部嵌套组元素的方式进行描述;当数据项为数据时,使用基本数据类型元素或者使用综合数据类型元素进行描述,数据类型的表现格式通过格式属性来描述;当数据项为分隔符时,使用基本分隔符元素或者使用综合分隔符元素进行描述。
6.根据权利要求I所述的ー种数据格式的描述方法,其特征在于在所述步骤(3)生成数据格式标记文档之前对其进行语法检查,使其符合XML文档的基本语法,同时满足数据格式标记语言的语法,包括以下要求(1)数据格式标记文档有且仅有ー个根元素;(2)导入元素必须是所述根元素的直接子元素;(3)位置元素的value属性的值与所述根元素的mode属性的值相对应;(4)组元素可以嵌套组元素、数据类型元素和分隔符元素,最外层的组元素必须是所述根元 素的直接子元素。
全文摘要
本发明公开一种数据格式的描述方法,属于计算机和信息技术领域。针对计算机数据交换与共享过程中,数据格式多样、异构的问题,克服现有数据格式描述方法对格式细节描述能力不足的缺陷,本发明提出一种新的数据格式描述方法,该方法以数据位置为中心,以数据类型和分隔符为核心,对数据的类型、结构和布局等格式信息进行统一描述,生成数据格式标记文档。本发明主要用于计算机数据交换与共享,提高了计算机软件与数据、数据与格式的独立性,解决了数据格式的描述问题。
文档编号G06F17/30GK102708206SQ201210159900
公开日2012年10月3日 申请日期2012年5月21日 优先权日2012年5月21日
发明者温永宁, 盛业华, 胡迪, 闾国年 申请人:南京师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1