一种烟草企业数据质量管理系统及方法

文档序号:6604745阅读:394来源:国知局
专利名称:一种烟草企业数据质量管理系统及方法
技术领域
本发明涉及一种数据质量管理系统和方法,并且更具体地涉及一种烟草企业数据 质量管理系统及方法。
背景技术
烟草行业是一个比较特殊的行业,各主要烟草国对国内烟草的制造与经营都曾利 用法律手段进行过、或正在进行专卖管理,以实现国家对烟草行业的垄断经营。在加强对行 业的统一管理的同时,也加剧了行业经营的相对封闭性、加剧了非市场化因素对行业发展 的影响。烟草行业要想生存和发展,必须根据市场环境和企业经营状况的变化,动态地调 整企业的战略和战略实施方法,以实现企业绩效的持续改善。因此,烟草行业迫切需要一套 符合行业特点、保持行业成长、保障企业业绩提升的绩效管理体系,以实现对各项活动的管 理。随着烟草行业企业管理逐渐从面向流程、面向业务到面向绩效的管理模式过渡,这一问 题已经成为烟草行业企业管理者探索的重点。质量是数据资产的生命。今天越来越多的企业开始高度重视其数据的质量问题, 很多公司还制定了一些相应的管理规范。发明人在对数据质量管理问题进行深入的分析和 研究的基础上认识到数据质量管理既需要有管理规范,也需要有技术手段。为此迫切需要 设计并开发了一个专门的数据质量管理系统来全面支撑企业的数据质量管理,这为烟草行 业如何用信息化手段来支撑数据质量管理从而持续改进企业数据质量开创了先例。同时, 又制定了一套完善、结合实际的数据质量管理流程和管理规范,来保证数据质量的持续完 善。数据中心数据质量管理系统设计的总体目标在于帮助企业的IT部门持续的发现、分析 并处理整个IT环境中的数据质量问题。

发明内容
本发明的目的在于提供一种数据质量管理系统,其包括信息采集模块,用于收集 质量规则管理和数据质量诊断所需要的各种原始信息;质量规则管理模块,用于管理所有 对象在准确性、一致性、完整性、及时性、可获取性这五大质量度量方面所应遵循的质量规 则;数据质量诊断模块,用于根据信息采集模块传递的数据、质量规则管理模块的质量规则 定义和具体的数据质量诊断任务、定时进行数据质量诊断并生成质量诊断结果;数据质量 报告模块,用于将数据质量诊断的结果信息以不同用户使用的方式传递给所述用户;数据 质量处理模块,用于根据所述数据质量报告模块所列的待处理质量问题清单,按照级别高 低处理质量问题。本发明的目的还在于提供一种数据质量管理方法,其包括下面的步骤信息采集 步骤,用于收集质量规则管理和数据质量诊断所需要的各种原始信息;质量规则管理步骤, 用于管理所有对象在准确性、一致性、完整性、及时性、可获取性这五大质量度量方面所应 遵循的质量规则;数据质量诊断步骤,用于根据信息采集模块传递的数据、质量规则管理模块的质量规则定义和具体的数据质量诊断任务、定时进行数据质量诊断并生成质量诊断结 果;数据质量报告步骤,用于将数据质量诊断的结果信息以不同用户使用的方式传递给所 述用户;数据质量处理步骤,用于根据所述数据质量报告模块所列的待处理质量问题清单, 按照级别高低处理质量问题。本发明的有益效果是通过依据本发明的数据质量管理系统,可以全面支撑企业 的数据质量管理,这为烟草行业如何用信息化手段来支撑数据质量管理从而持续改进企业 数据质量开创了先例。同时,又制定了一套完善、结合实际的数据质量管理流程和管理规 范,来保证数据质量的持续完善,从而保证了信息化建设的全面、顺利开展。


图1是依据本发明的一个具体实施例的数据质量管理系统的结构框架图;图2是依据本发明的一个具体实施例的数据质量相关对象定义示意图;图3是依据本发明的一个具体实施例的数据质量规则管理示意图;图4是依据本发明的一个具体实施例的数据质量诊断示意图;图5是依据本发明的一个具体实施例的数据质量技术诊断报告示意图;图6是依据本发明的一个具体实施例的数据质量业务诊断报告示意图;图7是依据本发明的一个具体实施例的数据质量阶段性评估报告示意图;图8是依据本发明的一个具体实施例的数据质量阶段评估报告示意图;图9是依据本发明的一个具体实施例的另一数据质量阶段评估报告示意图;图10是依据本发明的一个具体实施例的数据质量问题处理示意图。
具体实施例方式从数据质量所管理的数据流转过程来看,目前系统中我们主要通过四个方面来保 障数据中心系统的数据质量。1、数据源头的质量规则诊断;2、数据加工ETL过程的监控;3、数据加工后,各系统的指标一致性稽核;4、关键业务指标波动情况预警;数据质量管理系统通过对数据源头、加工过程、加工结果三个方面的检查与核对, 实现了对数据加工处理过程事前、事中、事后全程的监控。每次数据加工完成后,系统会根 据监控结果自动出具数据质量报告,整个系统之结构框架如图1所示。规则描述了业务对数据的内在要求,也反映了数据的内在联系。系统构建了一个 全面的数据质量规则库,并以此为中心来进行质量评估、问题诊断和分析。实践证明这种模 式在数据质量管理过程中是高效的。系统具有自动质量信息采集、自动质量评估、自动问题 识别和质量报告,从而极大地提高了数据质量管理的效率和水平。该系统对于烟草行业如 何利用信息系统来进行企业数据质量管理具有相当的借鉴意义。信息采集模块负责收集质量规则管理和数据质量诊断所需要的各种原始信息,这 些信息包括涉及的数据对象和应用对象的统计摘要信息、运行状态信息等粗粒度信息,也 包括某个具体数据对象的统计抽样明细数据,也可能是某个数据源的某个指标的数据。粗粒度数据将被直接存储到对象摘要表中,明细数据将存放到对象临时表中。质量规则管理模块负责管理所有对象在五大质量度量(准确性、一致性、完整性、 及时性、可获取性)方面应遵循的质量规则,这些规则可以手工维护,也可以通过信息采集 构件传递的样本数据进行统计分析和数据挖掘获得。除维护这些规则之外,质量规则管理构件还维护对每一个规则的违例预警级别、 建议的后续处理策略等。数据质量诊断模块是数据质量管理的核心构件,该构件根据信息采集构件传递的 数据、质量规则管理构件的质量规则定义和具体的数据质量诊断任务、定时进行数据质量 诊断并生成质量诊断结果。数据质量报告模块负责将数据质量诊断的结果信息以不同用户容易使用的方式 传递给它们,这些方式包括电子邮件、短消息、问题列表式网页、图表等,也包括汇总的质
量报告。数据质量处理模块负责根据数据质量报告所列的待处理质量问题清单,按照级别 高低处理质量问题。构件负责记录质量问题处理过程,记录相关知识等。数据质量管理系统主要关注的质量度量为准确性、完整性、一致性、及时性和可获 取性五个方面。其关注的数据对象包括各种数据源、关系表与视图、0LAP数据立方体、数据 文件和明细的关系属性、关键业务指标。其还关注与数据对象的转移、加工、生产和消费相 关的各种应用对象,包括ETL任务、报表业务指标的合理性校验等。信息采集模块负责为数据质量诊断和质量规则管理采集相关信息。这些信息可分 为如下四类关于数据对象的统计摘要信息这里数据对象是一个统称,它包括数据库、关系数 据表(视图)、0LAP数据立方体、数据文件或某个具体的关系表属性。关于与数据相关的应用对象的摘要信息包括用于生产和消费数据对象的应用组 件,加工和传输数据对象的应用组件,如ETL组件。上述两类采集的信息都是统一基于元数据管理的方式自动获取对象的相关元数 据来进行定义和配置。关于某数据库中某业务指标的值获取某个关注业务指标在不同数据源中的值以 进行核对。关于某个表(视图)的统计抽样明细信息这些信息将被转交给质量诊断构件进 行质量诊断,或交给质量规则引擎构件采用统计分析方法和数据挖掘方法自动分析形成质 量规则。技术实现上考虑两种方式,一种是部署在源的信息采集代理;另一种是部署在服 务器的数据采集程序。为了采集涉及对象的相关信息,并基于这些对象建立质量规则、进行 质量诊断,数据质量管理系统需要首先对所涉及的这些对象进行定义,并建立它们之间的 关系,如图2所示。质量规则管理模块负责管理所有与质量诊断相关的数据质量规则。这些规则涵盖 了数据的准确性、完整性、一致性、及时性和可获取性五大质量度量。不同的质量度量需要 采用不同的语法来描述质量规则。下面的表1列出所有数据质量规则的分类、适用的质量涉及对象、质量规则应体
5现的关键点等
表 1
系统提供了数据质量规则录入界面,由数据质量管理员手工录入数据质量规则, 如图3所示。数据质量诊断模块是数据质量管理系统中的核心构件。它根据信息采集构件采集 的质量相关信息和质量规则库中的质量规则进行质量诊断,并记录诊断结果。对于准确性、 列完整性、关键键一致性、包含一致性、函数依赖一致性的诊断,对有问题的样本还应进行 记录。系统支持手工质量诊断和定时自动质量诊断两种方式。在手工质量诊断模式下, 质量管理员手工选择要进行质量诊断的对象,需要判定的质量规则后,信息采集器开始重 新采集样本数据和摘要信息,并进行质量诊断判别。在定时自动诊断模式下,数据质量管理员配置好要诊断的质量规则,确定定时调 度的周期和时间,系统定时采集信息、进行质量诊断并记录诊断结果,如图4所示。数据质量报告模块主要是根据系统采集的信息、检查的结果自动生成相应的质量 检查报告。根据数据质量检查环节的结果信息,以规范的格式和特定的展现方式向数据质 量管理人员报告数据质量情况。由数据质量检查点从不同角度生成不同类型的检查或告警 报告,本系统不但提供面向信息中心技术人员的技术诊断报告,便于根据报告及时了解和 协助处理数据质量问题,而且同时又针对业务人员提供了一类诊断报告,通过业务数据质 量诊断报告方便业务人员和负责人了解并理解数据质量问题,对目前所辖领域的数据质量 问题进行评估。同时,系统也对不同时期、不同单位的数据质量状况提供了图表方式的相关 质量问题的趋势、对比评估报告,便于不断总结和改进数据质量状况。数据质量总体报告如图5所示;业务数据质量报告如图6所示;总体数据质量阶 段性评估报告如图7所示;分类数据质量阶段性评估报告如图8所示;分机构数据质量阶 段性评估报告如图9所示。质量问题处理模块所进行的问题处理过程又划分为两个阶段问题处理过程、问 题总结过程。系统检查出质量问题并形成相关问题的质量检查报告后,并以消息提示、邮件、短 信等方式通知相关人员,此时进入质量问题的处理过程。质量问题的处理过程主要是根据检查报告提供的问题信息,对问题的原因进行分 析。分析过程主要由质量管理员、业务系统接口人员来完成,生成解决方案;根据问题解决 方案,采取具体行动解决问题,如图10所示。当问题处理环节结束后,需要对问题处理的全过程进行记录和总结。总结过程主 要包括填写数据质量总结报告和质量问题知识库管理。尽管参照优选实施例已经描述了本发明,本领域熟练技术人员将认识到,可以进 行形式和细节上的改变,只要不脱离本发明的精神和范围。本发明试图不局限于被公开的 具体实施例,如预期用于实施本发明的最佳模式,相反,本发明将包括落入附加权利要求的 范围的全部实施例。
权利要求
一种数据质量管理系统,其特征在于包括信息采集模块,用于收集质量规则管理和数据质量诊断所需要的各种原始信息;质量规则管理模块,用于管理所有对象在准确性、一致性、完整性、及时性、可获取性这五大质量度量方面所应遵循的质量规则;数据质量诊断模块,用于根据信息采集模块传递的数据、质量规则管理模块的质量规则定义和具体的数据质量诊断任务、定时进行数据质量诊断并生成质量诊断结果;数据质量报告模块,用于将数据质量诊断的结果信息以不同用户使用的方式传递给所述用户;数据质量处理模块,用于根据所述数据质量报告模块所列的待处理质量问题清单,按照级别高低处理质量问题。
2.如权利要求1所述的数据质量管理系统,其中所述所需要的各种原始信息被分为关 于数据对象的统计摘要信息,关于与数据相关的应用对象的摘要信息,关于某数据库中某 业务指标的值,关于表或视图的统计抽样明细信息这四类。
3.如权利要求2所述的数据质量管理系统,其中所述数据质量诊断包括手工质量诊断 和定时自动质量诊断两种方式。
4.一种数据质量管理方法,其特征在于包括下面的步骤信息采集步骤,用于收集质量规则管理和数据质量诊断所需要的各种原始信息;质量规则管理步骤,用于管理所有对象在准确性、一致性、完整性、及时性、可获取性这 五大质量度量方面所应遵循的质量规则;数据质量诊断步骤,用于根据信息采集模块传递的数据、质量规则管理模块的质量规 则定义和具体的数据质量诊断任务、定时进行数据质量诊断并生成质量诊断结果;数据质量报告步骤,用于将数据质量诊断的结果信息以不同用户使用的方式传递给所 述用户;数据质量处理步骤,用于根据所述数据质量报告模块所列的待处理质量问题清单,按 照级别高低处理质量问题。
5.如权利要求4所述的数据质量管理方法,其中所述所需要的各种原始信息被分为关 于数据对象的统计摘要信息,关于与数据相关的应用对象的摘要信息,关于某数据库中某 业务指标的值,关于表或视图的统计抽样明细信息这四类。
6.如权利要求5所述的数据质量管理方法,其中所述数据质量诊断包括手工质量诊断 和定时自动质量诊断两种方式。全文摘要
本发明公开了一种数据质量管理系统及方法,其包括信息采集模块,用于收集质量规则管理和数据质量诊断所需要的各种原始信息;质量规则管理模块,用于管理所有对象在准确性、一致性、完整性、及时性、可获取性这五大质量度量方面所应遵循的质量规则;数据质量诊断模块,用于根据信息采集模块传递的数据、质量规则管理模块的质量规则定义和具体的数据质量诊断任务、定时进行数据质量诊断并生成质量诊断结果;数据质量报告模块,用于将数据质量诊断的结果信息以不同用户使用的方式传递给所述用户;数据质量处理模块,用于根据所述数据质量报告模块所列的待处理质量问题清单,按照级别高低处理质量问题。
文档编号G06Q10/00GK101894319SQ201010210520
公开日2010年11月24日 申请日期2010年6月28日 优先权日2010年6月28日
发明者侯杰华, 刘业鸿, 刘辉, 姚利军, 崔凯, 徐智, 江俊, 申玉华, 蔡喆, 邹暾, 颜玫 申请人:中国烟草总公司湖南省公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1