数据质量的处理方法及系统的制作方法

文档序号:6472086阅读:211来源:国知局
专利名称:数据质量的处理方法及系统的制作方法
技术领域
本发明涉及数据库技术领域,特别涉及 一 种数据质量的处理方法及系统。
背景技术
随着信息化建设的普及,越来越多的企业通过计算机平台,也就是通常所说的信息管理系统对企业信息进行管理,信息管理系统是对数据进行生产和加工的系统。由于信息管理系统自身的缺陷,或者操作人员的失误,或者系统遗留数据的缺陷,容易导致被管理的数据出现错误、缺失、甚至不一致的情况。对于如电信类企业的大型企业,
通常需要涉及不同领域的信息化建设,如CRM( Customer RelationshipManagement,客户关系管理)系统、计费系统等。这些不同领域的信息管理系统之间的数据更容易出现不 一 致的问题,特别当不同领域的信息管理系统由不同的软件厂家单位进行建设时,问题更加突出。
信息管理系统最重要的任务就是对企业数据进行管理,而管理过程通过对数据的处理实现。现有技术中,通常采用发现和修正的模式对数据进行管理,例如,通过人工方式,或者预先编制的小程序/小脚本发现问题,然后将问题提交到生产系统进行修正。发明人在对现有技术的研究过程中发现,现有技术通常发现一个问题,解决一个问题,这种处理方式忽略了数据生产过程的稳定性和质量,难以找出问题的根源;整个数据处理过程依赖于人工操作,缺乏对数据的系统管理,自动化管理程度不高。

发明内容
本发明实施例提供 一 种数据质量的处理方法和系统,解决现有技术中数据自动化管理程度不高的问题。
为解决上述问题,本发明实施例提供如下技术方案一种数据质量的处理方法,包括根据预先设置的数据质量问题域和数据质量规则域建立所述数
据的管理流程;
通过执行所述管理流程对所述数据进行自动处理,并获得所述数据的处理结果。
还包括预先设置数据质量问题域和数据质量规则域,具体包括分析数据的质量特点;
根据所述分析结果获得所述数据的数据质量问题域;分别生成对应每个数据质量问题域的数据质量规则域。所述数据质量问题域具体为按照已发生数据的问题的类型生成的问题域;
系,包括针对所述问题的解域算法规则、质量管理处理规则、统计分析规则。
所述数据质量管理流程包括数据定义流程、数据测量流程、数据分析流程、数据改进流程、数据控制流程。所述执行所述数据定义流程包括
对所述数据进行数据提供方、数据输入、数据处理、数据输出、数据用户的SIPOC分析;
根据所述SIPOC分析的结果获得数据的多个质量参数CTQ。
所述执行所述数据测量流程包括
确定所述多个CTQ的可操作性定义;
根据所述可操作性定义分别为每个CTQ收集测量数据;
通过所述测量数据获得所述每个CTQ的性能数据和测量过程能力数据;
保存所述测量数据、性能数据和能力数据。所述执行所述数据分析流程包括
确定与每个所述CTQ相关的风险变量,以及所述风险变量的可操作性定义;
测量所述风险变量,建立所述每个风险变量的过程能力基线;通过监测控制图分析所述过程能力基线,得到所述能力基线的偏差值;
根据所述偏差值获得所述风险变量对所述CTQ的影响程度。
所述执行所述数据改进流程包括
获取所述偏差值大于预设阈值的风险变量;
反馈所述风险变量;
根据所述偏差值调整所述风险变量直至所述风险变量的能力基
线的偏差值小于所述阈值。
所述执行所述数据控制流程包括
分析所述偏差值大于预设阈值的风险变量;
根据所述分析的结果为所述风险变量建立改进策略;
通过所述改进策略监控所述风险变量和所述CTQ的稳定性。
所述方法还包括根据所述获得数据的处理结果更新预先设置的
数据质量问题域和数据质量规则域。一种数据质量的处理系统,包括
建立单元,用于根据预先设置的数据质量问题域和数据质量规则域建立所述数据的管理流程;
处理单元,用于通过执行所述管理流程对所述数据进行自动处理,并获得所述数据的处理结果。
还包括预设单元,用于预先设置数据质量问题域和数据质量规则域。
所述预设单元包括
数据分析单元,用于分析数据的质量特点;
问题域获得单元,用于根据所述分析结果获得所述数据的数据质量问题域;
规则域生成单元,用于分别生成对应每个数据质量问题域的数据质量规则域。
所述建立单元具体用于,根据所述数据质量问题域和数据质量规则域建立数据定义流程、数据测量流程、数据分析流程、数据改进流程、数据控制流程。
当所述建立单元建立的流程为数据定义流程时,所述处理单元包括定义流程处理单元,所述定义流程处理单元包括
SIPOC分析单元,用于对所述数据进行数据提供方、数据输入、数据处理、数据输出、数据用户的SIPOC分析;
CTQ获得单元,用于根据所述SIPOC分析的结果获得数据的多个质量参数CTQ。
当所述建立单元建立的流程为数据测量流程时,所述处理单元包括测量流程处理单元,所述测量流程处理单元包括
CTQ定义单元,用于确定所述多个CTQ的可操作性定义;
数据收集单元,用于根据所述可操作性定义分别为每个CTQ收集测量数据;
能力获取单元,用于通过所述测量数据获得所述每个CTQ的性能数据和测量过程能力数据;
数据保存单元,用于保存所述测量数据、性能数据和能力数据。
当所述建立单元建立的流程为数据分析流程时,所述处理单元包括分析流程处理单元,所述分析流程处理单元包括
CTQ风险变量确定单元,用于确定与每个所述CTQ相关的风险变量,以及所述风险变量的可操作性定义;
能力基线建立单元,用于测量所述风险变量,建立所述每个风险变量的过程能力基线;
偏差值获取单元,用于通过监测控制图分析所述过程能力基线,得到所述能力基线的偏差值;
影响参数获取单元,用于根据所述偏差值获得所述风险变量对所述CTQ的影响程度。
当所述建立单元建立的流程为数据改进流程时,所述处理单元包括改进流程处理单元,所述改进流程处理单元包括
风险变量获取单元,用于获取所述偏差值大于预设阔值的风险变
量;风险变量反馈单元,用于反馈所述风险变量;
偏差值调整单元,用于根据所述偏差值调整所述风险变量直至所述风险变量的能力基线的偏差值小于所述阈值。
当所述建立单元建立的流程为数据控制流程时,所述处理单元包
括控制流程处理单元,所述控制流程处理单元包括
风险变量分析单元,用于分析所述偏差值大于预设阈值的风险变
量;
改进策略建立单元,用于根据所述分析的结果为所述风险变量建
立改进策略;
CTQ控制单元,用于通过所述改进策略监控所述风险变量和所述CTQ的稳定性。
所述系统还包括更新单元,用于根据所述处理单元获得数据的处理结果更新预设单元中预先设置的数据质量问题域和数据质量规则域。
由以上本发明实施例提供的技术方案可见,本发明中预先设置数据质量问题域和数据质量规则域,根据数据质量问题域和数据质量规则域建立数据的管理流程,通过执行管理流程对所述数据进行自动处理,并获得数据的处理结果。应用本发明实施例进行数据处理,由于根据数据的特点建立了完整的数据处理流程,并且对所有的问题进行统一管理,因此在数据处理过程中可以根据发生的问题找到该问题的根源所在,提高了数据生产过程的稳定性和质量;并且,由于基于数据问题域和数据规则域的数据处理流程均能够自动完成,因此数据管理的自动化程度较高,增强了分析的准确性,并为后续分析管理提供了依据。


图1为本发明数据质量的处理方法所应用的数据库的结构示意
图2为本发明数据质量的处理方法的第一实施例流程图;图3为本发明数据质量的处理方法的第二实施例流程图;图4为本发明一种数据质量问题域的结构示意图;图5为本发明数据定义和数据测量的实施例流程图;图6为本发明数据分析和数据改进的实施例流程图;图7为本发明数据分析和数据控制的实施例流程图;图8为本发明数据质量的处理系统的第一实施例框图;图9为本发明数据质量的处理系统的第二实施例框图。
具体实施例方式
本发明实施例提供了一种数据质量的处理方法和系统,为了使本技术领域的人员更好地理解本发明方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的i兌明。
本发明数据质量的处理方法基于数据库的建设,该数据库可以称为数据质量知识库,其结构示意图如图1所示,可以具体包括数据质量问题库、数据质量规则库、数据质量流程库、流程执行结果库、组织经验库,该数据质量知识库可以用于对企业大容量数据的处理和管理。
其中,数据质量问题库(Problems repository):用于存放与管理企业数据质量管理过程中已经遇到或者可能遇到的各类问题,问题可以分类、分级别管理与维护,质量管理人员还可以通过问题管理用户界面对库中的问题进行管理与维护服务。
凄t据质量告见则库(Rules repository ):用于存放与管理程序自动化检测数据质量问题所涉及的技术规则,质量规则根据质量问题建立,质量管理人员可以通过规则管理用户界面对库中的规则进行管理与维护,包括规则与问题间的解决与适用关系。
数据质量流程库(Data quality process repository ): 用于存放与管理数据质量流程,质量流程根据质量规则建立。
流程执行结果库(Quality result repository ):用户存放与管理数据质量流程的执行结果与分析结果。
组织经验库(Organizational experiences repository ): 用于记录实际数据质量改进过程中有效的经验、技巧与知识,并用于向组织内其 他数据质量改进项目的共享与推广。
本发明数据质量的处理方法的第一实施例流程如图2所示 步骤201:预先设置数据质量问题域和数据质量规则域。 具体的,分析数据的质量特点,根据分析结果获得数据的数据质
量问题域,分别生成对应每个数据质量问题域的数据质量规则域。
其中,数据质量问题域具体为按照已发生数据的问题的类型生成
的问题域;数据质量规则域具体为根据所述问题生成的解决与适应关
系,包括针对所述问题的解域算法规则、质量管理处理规则、统计
分析规则,该步骤为可选步骤。
步骤202:根据数据质量问题域和数据质量规则域建立数据的管
理流程。
其中,数据质量管理流程包括数据定义流程、数据测量流程、 数据分析流程、数据改进流程、数据控制流程。
步骤203:通过执行管理流程对数据进行自动处理,并获得数据 的处理结果。
优选的,在步骤203之后,所述方法还可以包括根据所述获得 数据的处理结果更新预先设置的数据质量问题域和数据质量规则域。
本发明数据质量的处理方法的第二实施例流程如图3所示,该实 施例结合图l所示的数据库结构,详细示出了数据处理的过程
步骤301:分析数据的质量特点。
由于企业信息化系统的数据处理范围非常大,实现测量、分析、 图表和报表自动化处理,对于减轻质量管理控制人员的工作量,提高 质量管理控制人员的效率,降低分析错误概率,具有非常积极的意义。 因此本发明要建立如图l所示的数据质量知识库,需要首先对企业数 据的质量特点进行分析。
步骤302:根据分析结果获得数据的数据质量问题域,将数据质 量问题域保存到数据质量问题库。
根据分析结果获得的数据质量问题域可以为直接生成的问题域,也可以为通过问题域的管理界面输入的问题。
一种对企业数据进行分析后生成的数据质量问题域的结构如图4 所示,该结构以树的结构示出了各类问题,和每类问题的定义条件, 包括约束条件和完整性条件等。
步骤303:分别生成对应每个数据质量问题域的数据质量规则域, 将数据质量规则域保存的数据质量规则库。
数据质量规则域主要包括如下三种规则针对问题域的解域算法 规则、质量管理任务单处理规则和6 a (6Sigma,六西格玛)统计分 析规则,6cj是一项以数据为基础的质量管理方法。a在统计学中用来
表示标准偏差,即数据的分散程度。用"C7"度量质量特性总体上对
目标值的偏离程度,如六西格玛可解释为每一百万个机会中有3.4个 出错的机会,即合格率是99.99966%,而3 a的合格率只有93.32%。
结合图4所示的数据质量问题域,根据该问题域生成的数据质量 规则域中
问题域的解域算法规则包括结构表内完整性检查规则、表内唯 一性约束检查规则、引用约束检查规则、取值约束检查规则、记录重 复检查规则、实时性能检查规则、表间取值约束检查规则、表间重复 记录检查规则、表间数据冲突检查规则、汇总错误检查规则、映射关 系约束检查规则以及各类自定义规则(地址合法性检查规则、各类证 件合法性检查规则等);
质量管理任务单处理规则包括负责质量任务单的提交、回填、 状态处理等的任务规则;
6 (7统计分析规则包4舌各类统计值的计算类^见则,如DPMO (Defects per Million Opportunities,百万机会缺陷数)计算规则、过 程Sigma能力计算规则等。
步骤304:根据数据质量问题域和数据质量规则域建立数据的管 理流程,将管理流程保存到数据质量流程库。
数据质量管理流程包括数据定义流程、数据测量流程、数据分 析流程、数据改进流程、数据控制流程,上述流程的处理过程在后续实施例中进行详细描述。
步骤305:执行管理流程对数据进行自动处理,获得所述数据的 处理结果。
当输入待处理的企业数据后,可以按照人工启动或者系统周期性 自动启动方式触发数据质量流程对数据进行各种处理。系统能对度量 类规则进行计算自动化的度量分析,检测数据质量问题是否发生与发 生的概率等,并记录样本;对于配置为自动分析的分析类规则,系统 可以计算自动化执行;对于配置为人工分析的分析类规则,可以人工 进行处理,填写工单与处理信息进行流程扭转。
步骤306:将所述数据的处理结果保存到数据执行结果库。
在反馈阶段,可以将问题数据样本、问题描述、检测与分析规则 描述等组成反馈结果,系统可以自动化已经过质量流程处理的任务单、 邮件等形式反馈给系统的流程结果库,或者系统管理人员。
为了详细说明本发明基于数据质量问题库、数据质量规则库和数 据质量流程库执行数据处理流程的过程,下面分别描述各种处理流程 的实施例。
本发明数据定义流程和数据测量流程的实施例如图5所示
步骤501:对输入的数据进行数据提供方、数据输入、数据处理、 数据输出、数据用户的SIPOC分析。
SIPOC ( Supplier Input Process Output Customer, 供应方、输入、 处理、输出、客户)是分析供应商、输入、过程、输出和感兴趣客户 的分析管理方式,其中输出主要指CTQ ( Critical To Quality,关键质 量特性),CTQ是产品、服务或过程的关键品质参数。
另外,也可以采用VOC ( Voice of Customer ,客户之声)对客户 需求进行定性或定量分析,主要包括收集客户的需求进行分类,并采 用质量和成本进行调查分析。VOC分析可以在系统外人工进行,并将 分析结果作为SIPOC分析的参考。
步骤502:根据SIPOC分析的结果获得数据的多个质量参数
CTQ。步骤503:确定多个CTQ的可操作性定义。
步骤504:根据可操作性定义分别为每个CTQ收集测量数据。
在收集测量数据之前,还可以对CTQ进行Gage R&R (Gage Repeatability & Reproducibility, Gage可重复性和可再现性分析)。对 每个CTQ进行GageR&R研究可以确定测量系统的能力。由于数据质 量问题的计算机识别具有很强的可重复性和可再现性,因此R&R偏 差近似为0,因此Gage R&R步骤一般可以省略。
步骤505:通过测量数据获得每个CTQ的性能数据和测量过程能 力数据。
经过一段时间的多次测量,将在流程执行结果库形成测量数据基 线。利用系统提供的控制图功能、DPMO计算规则功能、过程Sigma 能力计算规则功能,可以测量每个CTQ的稳定性和过程能力统计数据 (如DPMO和过程Sigma )。系统执行问题检测规则,对生产系统的 数据进行数据质量检查,将发生问题的数据样本记录入执行结果库, 并记录产生问题的时间等参数,并把问题发生的概率与数量记录到执 行结果库。
数据质量管理人员可以查看流程结果库中的信息,并利用质量控 制图工具进行计算与展示,以供质量管理人员分析使用。在分析时, 可以利用DPMO计算规则计算系统的DPMO能力,也可以利用过程 Sigma能力计算过程的Sigma水平。
其中,DPMO计算表达式如下
D7^们二 1,000,000x缺陷数目 m 一单元数目x每单元缺陷机会数
其中,Sigma水平t的计算可以通迭代过求解如下方程得到
<formula>formula see original document page 16</formula>(2)
式中"为度量样本标准差,u为度量样本过程偏差。为了提高计 算效率,通常釆用表格查询模式来估计系统的Sigma水平,如下表1 为一种Sigma水平的查询表格过程偏差合格率Sigma水平
00.68
00.95452cr
00.997300204
00.9999366575
00.99999942675 cr
00.99999999806o"
0.31lo"
1.5ct0.6922f7
0.9332
1.5cr0.99379
0.999775 cr
1.5(70.99999666(7
步骤506:保存测量数据、性能数据和能力数据。
本发明数据分析流程和数据改进流程的实施例如图6所示 步骤601:确定与每个CTQ相关的风险变量,以及风险变量的可 操作性定义。
—步骤602:测量风险变量,建立每个风险变量的过程能力基线。 步骤603:通过监测控制图分析过程能力基线,得到能力基线的 偏差值。
控制图主要包括p图(P-Chart)、 c图(c-Chart)、 u图(u-Chart)、 均值和极差图(X-R Chart )、均值和标准差图(X-S Chart )、单值和移 动极差图(I-MR Chart)等。
步骤604:根据偏差值获得所述风险变量对所述CTQ的影响程度。
步骤605:获取偏差值大于预设阈值的风险变量。
步骤606:反馈风险变量。
步骤607:根据偏差值调整风险变量直至风险变量的能力基线的偏差值小于阈值。
-假设风险变量为X,调整和计算X的DPMO和Sigma水平等过 程能力的方式与前述质量测量阶段的计算过程一致,在此不再赘述。 其中,可以利用Pareto图类工具确定实现CTQ改进目标需要的高风 险X,然后将需要改进的高风险X和检测数据明细以质量改进任务单 的形式发给生产系统。
本发明数据分析流程和数据控制流程的实施例如图7所示 步骤701:确定与每个CTQ相关的风险变量,以及风险变量的可 操作性定义。
步骤702:测量风险变量,建立每个风险变量的过程能力基线。 步骤703:通过监测控制图分析过程能力基线,得到能力基线的 偏差值。
步骤704:根据偏差值获得所述风险变量对所述CTQ的影响程度。
步骤705:获取偏差值大于预设阈值的风险变量。
步骤706:分析偏差值大于预设阈值的风险变量。
步骤707:根据分析的结果为风险变量建立改进策略。
步骤708:通过改进策略监控风险变量和CTQ的稳定性。
下面结合电信企业的数据质量问题,描述对电信数据进行处理的
过程,在实际应用过程中,对于单系统和多系统的信息化环境均具有
实用性,即问题域、规则域和处理流程类似,只是问题域和规则域的
具体内容范围有所不同。
布支设应用本发明检查CRM系统和计费系统中三户资料的数据质
量。三户资料指(客户、用户、帐户)信息,系统关系的一致性。常
见约束说明如下
1. 一个客户(Cust)有0个或者多个用户(Serv);
2. —个客户(Cust)有0个或者多帐户(Acct);
3. —个用户(Serv)只能隶属于一个客户(Cust)
4. 一个帐户(Acct)只能隶属于一个客户(Cust)
5. —个用户(Serv)有一个帐户(Acct)付费6.用户(Serv)的帐户(Acct)也隶属于用户所属的客户(Cust)
这些内容可以通过如图1所示的数据质量问题库进行描述,在定 义阶段可以在系统中建立一个CTQ,包括三户关系的错误数,并在数 据质量流程库中建立质量管理流程。
度量阶段,需要确定三户关系错误的标准以及检验方法,根据标 准和4全验方法从问题域里面选择问题,并选择相应的4企测规则(维护 在质量规则库中);执行规则,获得;险测数据,计算DPMO和过程Sigma 水平(记录在结果库中)。质量管理人员可用控制图进行分析。如果满 足要求不需要改进,流程可终止;
分析阶段,需要分析产生错误的一些风险X,除了可按5类约束 划分风险外,还可能有其他风险,如员工错误操作等。确定这些风险 的检测方法,从规则库选取配置检测规则后,计算各个X的检测数据 和DPMO和过程Sigma水平,通过控制图进4亍分一斤;
改进阶段,质量管理人员可结合Pareto图确定需要改进的高风险 X,并制定解决方案,返回检测结果和数据到生产系统(质量任务单 的形式),生产系统试验改进各种风险X,系统计算改进后的X的 DMPO和过程Sigma水平;
控制阶段,质量管理人员监控CTQ和X的稳定性,总结标准化 的过程改进,并将统计的好的经验纳入组织经验库。
与本发明数据处理方法的实施例相对应,本发明还提供了数据处 理系统的实施例。
本发明数据质量的处理系统的第一实施例框图如图8所示,该系 统包括预设单元810、建立单元820、处理单元830和更新单元840。 其中,预设单元810和更新单元840为可选单元。
其中,预设单元810用于预先设置数据质量问题域和数据质量规 则域;建立单元820用于根据所述数据质量问题域和数据质量规则域 建立所述数据的管理流程;处理单元830用于通过执行所述管理流程 对所述数据进行自动处理,并获得所述数据的处理结果;所述更新单 元840,用于根据所述处理单元830获得数据的处理结果更新预设单元810中预先设置的数据质量问题域和数据质量规则域。
本发明数据质量的处理系统的第二实施例框图如图9所示,该系 统包括预设单元910、建立单元920和处理单元930。优选的,该系 统还可以包括更新单元(图中未示)。
其中,预设单元910用于预先设置数据质量问题域和数据质量规 则域;建立单元920用于根据所述数据质量问题域和数据质量规则域 建立所述数据的管理流程;处理单元930用于通过执行所述管理流程 对所述数据进行自动处理,并获得所述数据的处理结果。
进一步,预设单元910可以具体包括数据分析单元911,用于 分析数据的质量特点;问题域获得单元912,用于根据所述分析结果 获得所述数据的数据质量问题域;规则域生成单元913,用于分别生 成对应每个数据质量问题域的数据质量规则域。
进一步,建立单元910具体用于,根据所述数据质量问题域和数 据质量规则域建立数据定义流程、数据测量流程、数据分析流程、数 据改进流程、数据控制流程。
具体的,当所述建立单元920建立的流程为数据定义流程时,所 述处理单元930可以包括定义流程处理单元921,所述定义流程处理 单元921可以包括(图9中未示出)SIPOC分析单元,用于对所述 数据进行数据提供方、数据输入、数据处理、数据输出、数据用户的 SIPOC分析;CTQ获得单元,用于根据所述SIPOC分析的结果获得 数据的多个质量参数CTQ。
具体的,当所述建立单元920建立的流程为凄t据测量流程时,所 述处理单元930可以包括测量流程处理单元922,所述测量流程处理 单元922可以包括(图9中未示出)CTQ定义单元,用于确定所述 多个CTQ的可操作性定义;数据收集单元,用于根据所述可操作性定 义分别为每个CTQ收集测量数据;能力获取单元,用于通过所述测量 数据获得所述每个CTQ的性能数据和测量过程能力数据;数据保存单 元,用于保存所述测量数据、性能数据和能力数据。
具体的,当所述建立单元920建立的流程为数据分析流程时,所述处理单元930可以包括分析流程处理单元923,所述分析流程处理 单元923可以包括(图9中未示出)CTQ风险变量确定单元,用于 确定与每个所述CTQ相关的风险变量,以及所述风险变量的可操作性 定义;能力基线建立单元,用于测量所述风险变量,建立所述每个风 险变量的过程能力基线;偏差值获取单元,用于通过监测控制图分析 所述过程能力基线,得到所述能力基线的偏差值;影响参数获取单元, 用于根据所述偏差值获得所述风险变量对所述CTQ的影响程度。
具体的,当所述建立单元920建立的流程为数据改进流程时,所 述处理单元930可以包括改进流程处理单元924,所述改进流程处理 单元924可以包括(图9中未示出)风险变量获取单元,用于获取所 述偏差值大于预设阈值的风险变量;风险变量反馈单元,用于反馈所 述风险变量;偏差值调整单元,用于根据所述偏差值调整所述风险变 量直至所述风险变量的能力基线的偏差值小于所述阈值。
具体的,当所述建立单元920建立的流程为数据控制流程时,所 述处理单元930可以包括控制流程处理单元925,所述控制流程处理 单元925可以包括(图9中未示出)风险变量分析单元,用于分析所 述偏差值大于预设阈值的风险变量;改进策略建立单元,用于根据所 述分析的结果为所述风险变量建立改进策略;CTQ控制单元,用于通 过所述改进策略监控所述风险变量和所述CTQ的稳定性。
所述更新单元,用于根据所述处理单元获得数据的处理结果更新 预设单元中的数据质量问题域和数据质量规则域。
通过本发明实施例的描述可知,本发明由于根据数据特点建立了 完整的数据处理流程,并且对所有的问题进行统一管理,因此在数据 处理过程中可以根据发生的问题找到该问题的根源所在,提高了数据 生产过程的稳定性和质量;并且,由于基于数据问题域和数据规则域 的数据处理流程均能够自动完成,因此数据管理的自动化程度较高, 增强了分析的准确性,并为后续分析管理提供了依据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或 部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一个或多个计算机可读取存储介质中,该程序在执行时,包括
如下步骤预先设置数据质量问题域和数据质量规则域;根据所述数 据质量问题域和数据质量规则域建立所述数据的管理流程;通过执行 所述管理流程对所述数据进行自动处理,并获得所述数据的处理结果。 所述的存储介质,如ROM/RAM、 -兹石乘、光盘等。
虽然通过实施例描绘了本发明,本领域普通技术人员知道,本发 明有许多变形和变化而不脱离本发明的精神,希望所附的权利要求包 括这些变形和变化而不脱离本发明的精神。
权利要求
1、一种数据质量的处理方法,其特征在于,包括根据预先设置的数据质量问题域和数据质量规则域建立所述数据的管理流程;通过执行所述管理流程对所述数据进行自动处理,并获得所述数据的处理结果。
2、 根据权利要求1所述的方法,其特征在于,还包括预先设置数据质量问题域和数据质量规则域,具体包括分析数据的质量特点;根据所述分析结果获得所述数据的数据质量问题域;分别生成对应每个数据质量问题域的数据质量规则域。
3、 根据权利要求1所述的方法,其特征在于,所述数据质量问题域具体为按照已发生数据的问题的类型生成的问题域;所述数据质量规则域具体为根据所述问题生成的解决与适应关系,包括针对所述问题的解域算法规则、质量管理处理规则、统计分析规则。
4、 根据权利要求1所述的方法,其特征在于,所述数据质量管理流程包括数据定义流程、数据测量流程、数据分析流程、数据改进流程、数据控制流程。
5、 根据权利要求4所述的方法,其特征在于,所述执行所述数据定义流程包括对所述数据进行数据提供方、数据输入、数据处理、数据输出、数据用户的SIPOC分析;根据所述SIPOC分析的结果获得数据的多个质量参数CTQ。
6、 根据权利要求5所述的方法,其特征在于,所述执行所述数据测量流程包括确定所述多个CTQ的可操作性定义;根据所述可操作性定义分别为每个CTQ收集测量数据;通过所述测量数据获得所述每个CTQ的性能数据和测量过程能力数据;保存所述测量数据、性能数据和能力数据。
7、 根据权利要求6所述的方法,其特征在于,所述执行所述数据分析流程包括确定与每个所述CTQ相关的风险变量,以及所述风险变量的可操作性定义;测量所述风险变量,建立所述每个风险变量的过程能力基线;通过监测控制图分析所述过程能力基线,得到所述能力基线的偏差值;根据所述偏差值获得所述风险变量对所述CTQ的影响程度。
8、 根据权利要求7所述的方法,其特征在于,所述执行所述数据改进流程包4舌获取所述偏差值大于预设阈值的风险变量;反馈所述风险变量;根据所述偏差值调整所述风险变量直至所述风险变量的能力基线的偏差值小于所述阈值。
9、 根据权利要求8所述的方法,其特征在于,所述执行所述数据控制流程包括分析所述偏差值大于预设阈值的风险变量;根据所述分析的结果为所述风险变量建立改进策略;通过所述改进策略监控所述风险变量和所述CTQ的稳定性。
10、 根据权利要求1至9任一项所述的方法,其特征在于,所述方法还包括根据所述获得数据的处理结果更新预先设置的数据质量问题域和数据质量规则域。
11、 一种数据质量的处理系统,其特征在于,包括建立单元,用于根据预先设置的数据质量问题域和数据质量规则域建立所述数据的管理流程;处理单元,用于通过执行所述管理流程对所述数据进行自动处理,并获得所述数据的处理结果。
12、 根据权利要求11所述的系统,其特征在于,还包括 预设单元,用于预先设置数据质量问题域和数据质量规则域。
13、 根据权利要求12所述的系统,其特征在于,所述预设单元 包括数据分析单元,用于分析数据的质量特点;问题域获得单元,用于根据所述分析结果获得所述数据的数据质 量问题域;规则域生成单元,用于分别生成对应每个数据质量问题域的数据 质量规则域。
14、 根据权利要求12所述的系统,其特征在于,所述建立单元 具体用于,根据所述数据质量问题域和数据质量规则域建立数据定义 流程、数据测量流程、数据分析流程、数据改进流程、数据控制流程。
15、 根据权利要求14所述的系统,其特征在于,当所述建立单 元建立的流程为数据定义流程时,所述处理单元包括定义流程处理单 元,所述定义流程处理单元包括SIPOC分析单元,用于对所述数据进行数据提供方、数据输入、 数据处理、数据输出、数据用户的SIPOC分析;CTQ获得单元,用于根据所述SIPOC分析的结果获得数据的多 个质量参数CTQ。
16、 根据权利要求15所述的系统,其特征在于,当所述建立单 元建立的流程为数据测量流程时,所述处理单元包括测量流程处理单 元,所述测量流程处理单元包括CTQ定义单元,用于确定所述多个CTQ的可操作性定义; 数据收集单元,用于根据所述可操作性定义分别为每个CTQ收集测量数据;能力获取单元,用于通过所述测量数据获得所述每个CTQ的性能 数据和测量过程能力数据;数据保存单元,用于保存所述测量数据、性能数据和能力数据。
17、 根据权利要求16所述的系统,其特征在于,当所述建立单 元建立的流程为数据分析流程时,所述处理单元包括分析流程处理单 元,所述分析流程处理单元包括CTQ风险变量确定单元,用于确定与每个所述CTQ相关的风险 变量,以及所述风险变量的可操作性定义;能力基线建立单元,用于测量所述风险变量,建立所述每个风险 变量的过程能力基线;偏差值获取单元,用于通过监测控制图分析所述过程能力基线, 得到所述能力基线的偏差值;影响参数获取单元,用于根据所述偏差值获得所述风险变量对所 述CTQ的影响程度。
18、 根据权利要求17所述的系统,其特征在于,当所述建立单 元建立的流程为据改进流程时,所述处理单元包括改进流程处理单 元,所述改进流程处理单元包括风险变量获取单元,用于获取所述偏差值大于预设阈值的风险变量;风险变量反馈单元,用于反馈所述风险变量; 偏差值调整单元,用于根据所述偏差值调整所述风险变量直至所 述风险变量的能力基线的偏差值小于所述阔值。
19、 根据权利要求18所述的系统,其特征在于,当所述建立单 元建立的流程为数据控制流程时,所述处理单元包括控制流程处理单 元,所述控制流程处理单元包括风险变量分析单元,用于分析所述偏差值大于预设阈值的风险变量;改进策略建立单元,用于根据所述分析的结果为所述风险变量建 立改进策略;CTQ控制单元,用于通过所述改进策略监控所述风险变量和所述 CTQ的稳定性。
20、 根据权利要求12至18任一项所述的系统,其特征在于,所述系统还包括更新单元,用于根据所述处理单元获得数据的处理结果更新预设 单元中预先设置的数据质量问题域和数据质量规则域。
全文摘要
本发明公开了一种数据质量的处理方法及系统,所述方法包括根据预先设置的数据质量问题域和数据质量规则域建立所述数据的管理流程;通过执行所述管理流程对所述数据进行自动处理,并获得所述数据的处理结果。本发明由于根据数据的特点建立了完整的数据处理流程,并且对所有的问题进行统一管理,因此在数据处理过程中可以根据发生的问题找到该问题的根源所在,提高了数据生产过程的稳定性和质量;并且,由于基于数据问题域和数据规则域的数据处理流程均能够自动完成,因此数据管理的自动化程度较高,增强了分析的准确性和实用性,并为后续分析管理提供了依据。
文档编号G06Q10/00GK101477653SQ20081024667
公开日2009年7月8日 申请日期2008年12月29日 优先权日2008年12月29日
发明者周训波, 鹏 孙, 孙继纲 申请人:大唐软件技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1