数据质量管理方法和系统的制作方法

文档序号:6367647阅读:227来源:国知局
专利名称:数据质量管理方法和系统的制作方法
技术领域
本发明涉及数据质量管理方法和系统,特别涉及水文行业数据质量管理方法和系统。
背景技术
国家水文数据库是重要的国情基础信息库和战略信息资源库,是国民经济建设与社会发展中一切水事活动决策的依据,也是水文行业服务于社会、经济、环境、生态和国防等领域的主体信息产品。多年以来,由于缺乏统一的数据存储规范,使得各地水文数据存储形式各异,水文数据库现状远不能满足社会发展需要。因此,必须加快国家水文数据库的建设,为经济社会发展、涉水问题的科学研究和工程建设更好地提供基于现代信息技术的信息综合服务。国家水文数据库的质量直接影响相关决策的正确性,是贯穿于国家水文数据库建设运行全过程的灵魂。为此迫切需要设计并开发一个专门的数据质量管理系统来全面支撑水文行业的数据质量管理,这为水文行业如何用信息化手段来支撑数据质量管理从而持续改进数据质量提供了广泛应用前景。

发明内容
发明目的针对上述现有技术存在的问题和不足,本发明的目的是提供一种数据质量管理方法和系统,立足于水文行业数据处理全过程,致力于整个水文行业数据质量的监控、评估和持续改善。技术方案为实现上述发明目的,本发明采用的第一种技术方案为一种数据质量管理方法,包括如下步骤(I)质量知识库管理对数据质量特点分析,预先设置质量问题库、质量维度库、质量规则库和质量标准库;(2)质量信息采集在质量知识库中选择用户需求的质量维度和质量规则,并从原始数据集中抽取满足用户需求的数据集;(3)数据质量评估根据采集的质量信息,进行数据质量评估,并根据质量知识库中的质量问题和质量标准,生成数据质量报告提交给用户或质量管理人员;(4)数据质量改进对数据质量评估中检测到的数据质量问题进行修正和改进。还可包括如下步骤(5)质量目标确认判断改进后的数据质量是否达到用户需求,若达到用户需求则生成目标数据集,否则返回步骤(3)。所述步骤(4)中,可采用自动和手动两种方式进行修正和改进,还可记录质量改进日志信息。本发明采用的第二种技术方案为一种数据质量管理系统,包括质量知识库模块,用于对数据质量特点分析,预先设置质量问题库、质量维度库、质量规则库和质量标准库;质量信息采集模块,用于在质量知识库模块中选择用户需求的质量维度和质量规贝U,并从原始数据集中抽取满足用户需求的数据集;数据质量评估模块,用于根据质量信息采集模块采集的质量信息,进行数据质量评估,并根据质量知识库模块中的质量问题和质量标准,生成数据质量报告提交给用户或
质量管理人员;数据质量改进模块,用于对数据质量评估模块检测到的数据质量问题进行修正和改进。质量知识库模块中,质量问题库可存放与水文数据质量管理过程中已经遇到或者可能遇到的各类问题,问题可以分类、分级管理与维护;质量(评估)维度库可存放水文数据质量管理关注的准确性、一致性、完整性、及 时性、可获取性等度量指标;质量规则库可存放数据质量评估与检测所涉及的技术规则,质量规则根据质量问题和质量指标建立;质量标准库可存放对数据质量合格与否的评判标准。还可包括质量目标确认模块,用于判断改进后的数据质量是否达到用户需求,若达到用户需求则生成目标数据集,否则返回数据质量评估模块。所述数据质量改进模块可采用自动和手动两种方式进行修正和改进,还可记录质量改进日志信息。有益效果本发明面向水文行业数据处理全过程,对水文数据质量的全方位控制 与提升可以起到有益的促进效果。通过本发明提供的数据质量管理系统,可以为水文行业采用信息化手段来保证数据质量管理从而持续改进水文数据质量提供技术支撑。


图I是依据本发明的一个具体实施例的数据质量管理系统的结构框架图;图2是依据本发明的一个具体实施例的数据质量评估流程图;图3是依据本发明的一个具体实施例的数据质量改进流程图。
具体实施例方式下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。从数据质量所管理的数据流转过程来看,目前系统主要通过三个方面来保障国家水文数据库中的数据质量。I、数据源(采集、整编和录入)质量规则诊断;2、数据加工 ETL (Extraction-Transformation-Loading,上报、汇交和转储)过程的质量监控;3、数据加工成果各指标合理性、一致性校核。数据质量管理系统通过对数据源头(数据采集、整编和录入)、加工过程(上报、汇交和转储)、加工成果三个方面的检查与核对,实现了对数据生产处理过程的全程的监控。数据生产完成后,系统会根据评估结果自动生成数据质量报告,整个系统之结构框架如图I所示。质量知识库包含了数据在质量问题、质量指标、质量规则和质量标准等要素上的内在要求,系统构建了一个全面的数据质量知识库,并以此为中心来进行质量评估和质量改进。系统具有自动质量信息采集、自动质量评估、自动问题识别和质量报告、自动和手动相结合的质量改进等功能,极大地提高了数据质量管理的效率和水平。该系统对于水文行业采用信息系统工具进行数据质量管理具有广泛的应用前景。质量知识库由质量管理人员通过对数据质量特点分析结果预先设置,包含数据质量问题类型库、质量评估维度库、质量规则库及质量标准库等质量管理知识。
信息采集模块收集用户对数据对象及范围、数据质量指标和数据质量要求等原始需求信息;并根据用户需求信息,在质量知识库中选择合适的评估指标、评估规则和评估方法,从原始数据库中抽取的满足用户需求的数据集;并将上述信息作为输入传递给质量评估模块进行数据质量评估。数据质量评估模块是数据质量管理的核心功能模块,该模块根据信息采集模块和质量知识库传递的数据集、评估维度、评估规则和算法,定时进行数据质量评估并结合质量知识库中的质量评估标准生成质量评估报告;数据质量评估报告包含待处理质量问题的详细清单和质量改进建议方案;质量评估报告将自动方式提交给质量管理人员或用户。数据质量改进模块包含自动和手动两种方式,自动质量改进根据质量知识库中的质量改进处理规则自动完成数据质量问题处理;手动质量改进结合质量评估报告,采用专家评议、用户反馈等人工干预模式,手动完成数据质量改进处理;记录质量问题改进方案和步骤。数据质量管理是一个动态过程,因此,质量知识库中存储的内容将随质量评估和质量改进过程进行动态优化更新。数据质量管理系统主要从数据的形式、内容和效用等不同层面对数据源(数据库、excel、文本文件等)、数据加工产品(水文年鉴、数据仓库、数据立方体等)和数据处理过程(数据整理与录入、数据上报与汇交、数据转储与数据更新、数据备份与恢复等)进行质量管理和监控。质量知识库由质量管理人员通过对数据质量特点分析结果预先设置,包含质量问题库按照己发产生数据质量问题的类型生成的问题域;质量维度库数据在形式、内容和效用上满足用户要求和使用目的的基本特性度量;如完整性、一致性等;质量标准库数据在形式、内容和效用等方面质量等级的评判标准;质量规则库管理所有与质量评估、质量改进及统计分析相关的数据质量规则。这些规则涵盖了数据的形式、内容和效用要求,不同的质量度量需要采用不同的语法来描述质量规则。数据质量规则对应的数据层次、质量度量、度量适用对象及范围、质量规则内容及实例说明参见表I所示表I
权利要求
1.一种数据质量管理方法,包括如下步骤 (1)质量知识库管理对数据质量特点分析,预先设置质量问题库、质量维度库、质量规则库和质量标准库; (2)质量信息采集在质量知识库中选择用户需求的质量维度和质量规则,并从原始数据集中抽取满足用户需求的数据集; (3)数据质量评估根据采集的质量信息,进行数据质量评估,并根据质量知识库中的质量问题和质量标准,生成数据质量报告提交给用户或质量管理人员; (4)数据质量改进对数据质量评估中检测到的数据质量问题进行修正和改进。
2.根据权利要求I所述数据质量管理方法,其特征在于还包括如下步骤 (5)质量目标确认判断改进后的数据质量是否达到用户需求,若达到用户需求则生成目标数据集,否则返回步骤(3)。
3.根据权利要求I所述数据质量管理方法,其特征在于所述步骤(4)中,采用自动和手动两种方式进行修正和改进。
4.根据权利要求I所述数据质量管理方法,其特征在于所述步骤(4)中,还记录质量改进日志信息。
5.一种数据质量管理系统,包括 质量知识库模块,用于对数据质量特点分析,预先设置质量问题库、质量维度库、质量规则库和质量标准库; 质量信息采集模块,用于在质量知识库模块中选择用户需求的质量维度和质量规则,并从原始数据集中抽取满足用户需求的数据集; 数据质量评估模块,用于根据质量信息采集模块采集的质量信息,进行数据质量评估,并根据质量知识库模块中的质量问题和质量标准,生成数据质量报告提交给用户或质量管理人员; 数据质量改进模块,用于对数据质量评估模块检测到的数据质量问题进行修正和改进。
6.根据权利要求5所述数据质量管理系统,其特征在于还包括质量目标确认模块,用于判断改进后的数据质量是否达到用户需求,若达到用户需求则生成目标数据集,否则返回数据质量评估模块。
7.根据权利要求5所述数据质量管理系统,其特征在于所述数据质量改进模块采用自动和手动两种方式进行修正和改进。
8.根据权利要求5所述数据质量管理系统,其特征在于所述数据质量改进模块还记录质量改进日志信息。
全文摘要
本发明公开了一种数据质量管理方法和系统。数据质量管理方法包括如下步骤质量知识库管理对数据质量特点分析,预先设置质量问题域、质量维度域、质量规则域和质量标准域;质量信息采集在质量知识库中选择用户需求的质量维度和质量规则,并从原始数据集中抽取满足用户需求的数据集;数据质量评估根据采集的质量信息,进行数据质量评估,并根据质量知识库中的质量问题域和质量标准域,生成数据质量报告提交给用户或质量管理人员;数据质量改进对数据质量评估中检测到的数据质量问题进行修正和改进。本发明立足于水文行业数据处理全过程,致力于整个水文行业数据质量的监控、评估和持续改善。
文档编号G06F17/30GK102708149SQ20121009858
公开日2012年10月3日 申请日期2012年4月1日 优先权日2012年4月1日
发明者万定生, 余宇峰, 张建新, 朱跃龙 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1