一种数据文件格式定义方法

文档序号:8905274阅读:401来源:国知局
一种数据文件格式定义方法
【技术领域】
[0001] 本发明属于计算机技术领域中的一种数据文件格式定义方法。
【背景技术】
[0002] 文本文件的内容可W通过操作系统缺省提供的多种文本编辑器进行查看、修改, 而且linux、UNIX系统还提供cat、more、head、tail、wc、grep、diff、sort、uniq、sed、awk等 实用程序,可W对文本进行选择性的显示、过滤、修改等操作,因此采用文本文件存储数据 便于处理程序的开发、调试,还便于系统的维护。另外文本文件存储的是纯数据,不存放标 签及描述信息使得数据存储空间较为节省,传输、处理的效率较高。因此文本文件在linux、 UNIX环境下使用非常广泛,经常用于跨系统数据迁移使用,常常作为一个系统导出数据的 存储形式,也是数据传输的载体和一个系统的数据源。
[0003] 文本文件广泛、频繁使用的同时,也存在数据存放自由度大、数据非自描述,存放 数据内容、格式定义不明确的问题,即没有元数据定义。文本文件缺少元数据定义导致编程 常常采用硬编码方式实现,该使得文本文件的数据源难W按需修改,程序开发人员变动后 文本文件、程序都难W理解、维护,进一步开发新功能难上加难。
[0004] 文本文件常用于系统数据的导入导出,而系统多用关系型数据库进行数据的长期 存储W及支撑业务办理,因此也要求文本文件与系统中对应导入导出的表具有一致的结 构。文本文件缺乏元数据定义使得文本文件结构与表结构的一致性保证困难,不利于数据 导入、导出工程开展W及系统运行时的正常维护。
[0005] 上述文本文件由于缺少元数据描述导致的问题给应用开发、系统维护、系统间数 据迁移带来很多不确定性和困难。
[0006] 文本文件,文本文件压缩存储,文本文件加密存储W及其他的变幻存储都存在格 式定义的问题,该几类文件在本专利中统称为数据文件,该些数据文件的格式定义都在本 专利应用范围之内。

【发明内容】

[0007] 本发明针对数据文件使用中的上述问题,提供了一种数据文件格式定义方法。通 过提供一个包含数据文件定义信息的配置文件,唯一地确定了数据文件中存放数据的格 式,包括数据文件中每一列的列名、数据类型、长度、是否可空、有效值范围,同时也确定了 数据文件列的数量及排列次序。数据文件和其配置文件该两个文件即承载了数据本身又包 含了数据的描述,解决了只有一个数据文件时其中存储数据的格式、业务含义不确定的问 题。
[000引配置文件内容借鉴关系型数据库建表语句来实现数据文件格式的定义,配置文件 本身也是一个文本文件。
【具体实施方式】
[0009] 为使本发明的目的、技术方案和优点更加清楚,w下将结合实例来详细说明本发 明一种数据文件格式定义方法的实施方式。借此对本发明一种数据文件格式定义方法如何 应用技术手段解决技术问题,并达成技术效果的实现过程能充分理解并据W实施。
[0010] 实施例
[0011] 本实施例提供一种数据文件格式定义方法,为主文件名为yuser,共有32个列的 数据文件实现数据文件格式定义,包括:
[0012] 步骤1 ;充分理解需要定义的数据文件。
[0013] 该步骤对于需要定义的数据文件进行充分理解,理解包括诸如数据文件的用途是 什么?数据文件共有多少列?每列的用途是什么?存放数据是何种类型?长度是多少? 可否为空?能否确定取值范围?
[0014] 如果在关系型数据库中存在对应的表,那么表结构定义可W帮助理解数据文件。
[0015] 步骤2 ;编写数据文件的配置文件。
[0016] 该步骤为需明确格式定义的目标数据文件创建配置文件,并正确设置配置文件的 内容。配置文件名能够映射到数据文件名即可,取名可W根据惯例、实现的便利性来决定。 按linux、UNIX习惯,不妨配置文件主名取数据文件名主名,扩展名取.conf。
[0017] 在linux操作系统下viyuser.conf输入内容如表1所示。
[001 引
[0020] 表1配置文件内容示意
[0021] 列数据类型和关系型数据库中的定义一致,可W使用char、varchar、longvar、 short、tinyint、smallint、int、integer、bigint、long、num、numeric、real、dec、decimal、 float、double、date、time、datetime、timestamp。
[0022]本步骤配置文件中的内容也可W利用数据库建模工具如ERWin,PowerDesigner, 通过建模工具的图形界面及交互化操作生成,也可W利用该些工具连接关系型数据库读取 表结构来生成。建模工具不是必须使用的,该里提及的目的是提醒可W复用已有表结构的 定义,降低生成配置文件内容的工作量,提高工作效率。
[002引步骤3 ;解析配置文件,取得数据文件的定义。
[0024] 配置文件存储内容其实就是标准的建表语句,通过本例也不难发现其中的规律, 可W编程完成上述内容的配置文件解析,取得数据文件的定义。
[0025] 读文件和字符串处理是任何编程语言都提供的基本功能,也是程序员的基本编程 能力,为便于实施,该里只抽取C语句解析的大致过程,可供实现时参考。
[0026] ?打开配置文件
[0027] ?第一遍扫描配置文件,数数据文件个数并分配数据文件元数据存储空间
[002引 ?第二编扫描配置文件,数数据对象中列的个数,并分配列元数据存储空间
[0029] ?第=遍扫描配置文件,解析并记录所有列的元数据,包括列名、数据类型、长度、 是否可W为空、有效值范围。
[0030] 步骤4 ;根据数据文件的定义处理数据文件。
[0031] 根据步骤3解析出的数据文件格式来理解、处理数据文件。
【主权项】
1. 一种数据文件格式定义方法,其特征在于,包括: 用内容包含建表语句的配置文件定义数据文件的格式。2. 如权利要求1所述方法,其中建表语句是指关系型数据库的一个标准DDL语句, 以"CREATE TABLE"字符引导的一段文本,文本中所有字符大小写不敏感;紧随"CREATE TABLE"关键字后的一个独立单词为数据文件主名,建表语句定义的第一个字段则是定义数 据文件的第一个列,依次类推完成数据文件中所有列的定义;如权利要求1所述方法,其中 数据文件是指文本文件,文本文件的压缩存储文件、文本文件的加密存储文件以及文件文 件经由其他变换处理生成的存储文件,数据文件由其存储文本数据性质决定,和其主文件 名、扩展文件名无关。3. 如权利要求2所述的方法,其中数据文件主名是指文件名中字符"之前的部分文 件名;数据文件列定义包括列名称、数据类型、长度、是否可空、有效值范围等信息。4. 如权利要求1所述方法,其中配置文件需包含至少一条建表语句,也可以有多条建 表语句用于同时定义多个数据文件的格式;配置文件中除了包含建表语句外,还可以有注 释语句以及其他必要内容。
【专利摘要】本发明属于计算机技术领域中的一种数据文件格式定义方法。利用提供一个包括关系型数据库建表语句的配置文件来定义数据文件的格式,包括数据文件的列数目,每个列的列名、数据类型、长度、是否为空、有效值范围,以及列的排列次序。解决文本文件内容不确定性、硬编码等问题。
【IPC分类】G06F17/30
【公开号】CN104881464
【申请号】CN201510271136
【发明人】冯昱川
【申请人】北京挺软科技有限公司
【公开日】2015年9月2日
【申请日】2015年5月26日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1