一种数据质量追溯的方法及其装置以及硬件处理器的制造方法

文档序号:10489501阅读:372来源:国知局
一种数据质量追溯的方法及其装置以及硬件处理器的制造方法
【专利摘要】本发明实施例提供一种数据质量追溯的方法及其装置以及硬件处理器,属于计算机应用技术领域。其中数据质量追溯的方法包括:获取数据处理任务并对所述数据处理任务进行分析;根据所述数据处理任务的分析结果,生成血缘分析图;根据所述血缘分析图,确定出现数据质量问题所在。本发明实施例中,一旦出现数据质量问题,就会在血缘分析图上有客观显现的体现,因此,上述整个过程通过血缘分析图即可直接客观的确定出数据质量的问题所在,定位问题效率高、速度快。
【专利说明】
一种数据质量追溯的方法及其装置以及硬件处理器
技术领域
[0001]本发明实施例涉及计算机应用技术领域,尤其涉及一种数据质量追溯的方法及其装置以及硬件处理器。
【背景技术】
[0002]当前,IT系统大而集中,且随着业务的不断发展壮大,需要管理和运维的数据也是越来越多、同时各种各样的数据模型也是越来越复杂。目前,面对越来越庞大的数据,数据的有效管理和数据的质量是数据相关工程中最常见也是最难处理的问题。
[0003]现有的数据质量管理中很难给出高效的方式追溯数据质量的问题。目前常见处理方式是凭借个人经验判断有可能出现问题的点,然后根据其数据处理过程逐个查看,同时分析每个过程中数据处理的逻辑,从而判断是否有数据质量的问题。
[0004]但是,由于现有技术的上述整个过程都是人工处理,工作效率和问题解决的成功率较低。

【发明内容】

[0005]本发明实施例提供一种数据质量问题追溯的方法及其装置以及硬件处理器,可以解决现有技术中出现数据质量问题时的处理方法效率低的技术问题。
[0006]本发明实施例提供了一种数据质量问题追溯的方法及其装置以及硬件处理器,其中:
[0007]—种数据质量追溯的方法,其包括:
[0008]获取数据处理任务并对所述数据处理任务进行分析;
[0009]根据所述数据处理任务的分析结果,生成血缘分析图;
[0010]根据所述血缘分析图,确定出现数据质量问题所在。
[0011 ]优选地,在本发明一实施例中,所述对所述数据处理任务进行分析包括:
[0012]确定所述数据处理任务涉及到的数据单元,以及所述数据处理任务的数据流向关系O
[0013]优选地,在本发明一实施例中,所述根据对所述数据处理任务的分析结果,生成血缘分析图包括:
[0014]根据所述数据处理任务涉及到的数据单元,以及所述数据处理任务的数据流向关系生成有向图,所述有向图作为血缘分析图。
[0015]优选地,在本发明一实施例中,所述根据所述数据处理任务涉及的数据单元,以及所述数据处理任务的数据流向关系生成有向图包括:
[0016]根据所述数据处理任务涉及的数据单元,确定所述有向图的节点;
[0017]根据所述数据处理任务的数据流向关系,确定所述有向图的有向边,所述有向边的两端分别连接所述有向图中的上一个节点和下一个节点。
[0018]优选地,在本发明一实施例中,根据所述血缘分析图,确定出现数据质量问题所在包括:
[0019]根据所述血缘分析图,确定出现数据质量问题的数据单元;
[0020]和/或
[0021]根据所述血缘分析图,确定对出现数据质量问题的数据单元有影响的数据处理任务,以及对出现数据质量问题的数据单元有影响的其他数据单元;
[0022]和/或
[0023]根据所述血缘分析图,确定受所述出现数据质量问题的数据单元影响的的数据处理任务,以及受所述出现数据质量问题影响的其他数据单元。
[0024]一种数据质量追溯的装置,其包括:
[0025]分析模块,用于获取数据处理任务并对所述数据处理任务进行分析;
[0026]血缘分析图生成模块,用于根据对所述数据处理任务的分析结果,生成血缘分析图;
[0027]问题确定模块,用于根据所述血缘分析图,确定出现数据质量问题的问题所在。
[0028]优选地,在本发明一实施例中,所述分析模块进一步用于确定所述数据处理任务涉及到的数据单元,以及所述数据处理任务的数据流向关系。
[0029]优选地,在本发明一实施例中,所述血缘分析图生成模块进一步用于根据所述数据处理任务涉及到的数据单元,以及所述数据处理任务的数据流向关系,生成血缘分析图。
[0030]优选地,在本发明一实施例中,所述血缘分析图生成模块进一步用于根据所述数据处理任务涉及的数据单元,以及所述数据处理任务的数据流向关系生成有向图,所述有向图做为所述血缘分析图。
[0031 ]优选地,在本发明一实施例中,所述血缘分析图生成模块包括:
[0032]节点确定子模块,用于根据所述数据处理任务涉及的数据单元,确定所述有向图的节点;
[0033]有向边确定子模块,用于根据所述数据处理任务的数据流向关系,确定所述有向图的有向边,所述有向边的两端分别连接所述有向图中的上一个节点和下一个节点。
[0034]优选地,在本发明一实施例中,所述问题确定模块进一步用于根据所述血缘分析图,确定出现数据质量问题的数据单元;
[0035]和/或
[0036]所述问题确定模块进一步用于根据所述血缘分析图,确定对出现数据质量问题的数据单元有影响的数据处理任务,以及对出现数据质量问题的数据单元有影响的其他数据单元;
[0037]和/或
[0038]所述问题确定模块进一步用于根据所述血缘分析图,确定受所述出现数据质量问题的数据单元影响的的数据处理任务,以及受所述出现数据质量问题影响的其他数据单
J L ο
[0039]一种与数据质量追溯装置结合使用的硬件处理器,所述硬件处理器包括执行以下步骤的指令:
[0040]获取数据处理任务并对所述数据处理任务进行分析;
[0041 ]根据所述数据处理任务的分析结果,生成血缘分析图;
[0042]根据所述血缘分析图确定出现数据质量问题的所在。
[0043]本发明实施例中,由于可以自动获取数据处理任务,并进一步对数据处理任务进行解析,根据对所述数据处理任务的分析结果生成血缘分析图,进而根据所述血缘分析图确定出现数据质量问题的所在。即根据本实施例所公开的技术方案,一旦出现数据质量问题,就会在血缘分析图上有客观显现的体现,因此,上述整个过程通过血缘分析图即可直接客观的确定出数据质量的问题所在,无须人工参与,摆脱了人工的主观因素影响,所以定位问题效率高、速度快。
【附图说明】
[0044]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0045]图1为本发明一种数据质量追溯的方法实施例的流程图;
[0046]图2为本发明一种数据质量追溯的方法实施例所揭示的血缘分析图的结构示意图;
[0047]图3为本发明一种数据质量追溯的装置实施例的结构示意图;
[0048]图4为本发明实施例血缘分析图生成模块结构示意图。
【具体实施方式】
[0049]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0050]请参考图1,本发明一种数据质量追溯的方法实施例的流程图。本发明实施例提供的一种数据质量追溯的方法,包括:
[0051 ]步骤11,获取数据处理任务并对所述数据处理任务进行分析;
[0052]步骤12,根据所述数据处理任务的分析结果,生成血缘分析图;
[0053]步骤13,根据所述血缘分析图确定出现数据质量问题的所在。
[0054]本实施例中,血缘分析图上可以反映出数据处理任务涉及的各对象以及对象间的关系,比如对于运维管理来说,作为对象的数据单元以及数组单元之间信号的流向关系。
[0055]优选地,所述获取数据处理任务并对所述数据处理任务进行分析包括:
[0056]确定所述数据处理任务涉及到的数据单元,及所述所述数据处理任务的数据流向关系。
[0057]其中,所述数据单元在不同的存储媒介中的体现是不一样的,一般数据处理任务的输出目标可以作为一个数据单元,所述数据单元可以作为数据的源,也可以作为数据处理的数据目标。
[0058]本实施例中,为了减少数据处理的任务量,提高准确性,进一步实现数据质量问题的快速定位,在步骤11之前还可以按照设定的规则进行全部或者部分清洗和转换,清洗和转换的对象包括:数据单元及数据处理任务。清洗的规则可以是:筛选出需要的数据单元和数据处理任务、筛选掉不需要的数据单元和数据处理任务,比如有三个运维管理的对象系统A、B、C,但是,只有对象系统A是上述实施例实际的处理对象,因此,需要把系统B和C的数据单元和数据处理任务清除掉。转换则是根据设定的规则将数据单元、数据处理任务进行转换,相当于标准化处理,比如在不同的系统,同一对象用不同的描述进行定义,比如“性另IJ”,在A系统中可能有“男” “女”定义,而在B系统中有“female” “male”定义,因此,转换即为将所有“性别”统一定义为“男” “女”或者“female” “male”。
[0059]下面举例进行说明:
[0060]举例1:在关系型数据库中,所述关系型数据表中的每一个单元格均可以作为一个数据单元。
[0061]举例2:在前端展现中,报表也可以作为一个数据单元。
[0062]所述数据处理任务可以是一个数据加工的过程。所述数据加工的过程可以是从源加载数据,然后进行加工,最后将加工的结果输出到目标。每一个数据单元可对应有输入和输出,对数据进行处理之后的保存可以是一个输出,当然也可以有其他形式的输出,输入和输出可以是一个,也可以是多个。
[0063]优选地,由于有向图可以表现出数据间的关系,因此,可以将有向图直接作为血缘分析图的具体实现形式。因此,上述实施例中,步骤13中所述根据对所述数据处理任务的分析结果,生成血缘分析图可以包括:
[0064]根据所述数据处理任务涉及到的数据单元,以及所述数据处理任务的数据流向关系生成有向图,所述有向图作为血缘分析图。
[0065]优选地,在构建有向图时,即所述根据所述数据处理任务涉及的数据单元,以及所述数据处理任务的数据流向关系生成有向图可以包括:
[0066]步骤131、根据所述数据处理任务涉及的数据单元,确定所述有向图的节点;
[0067]具体地,可以直接将数据单元作为有向图中的节点。
[0068]步骤132、根据所述数据处理任务的数据流向关系,确定所述有向图的有向边,所述有向边的两端分别连接所述有向图中的上一个节点和下一个节点。
[0069]具体地,可以将数据流向作为有向图的边即有像边。
[0070]优选地,根据所述血缘分析图,确定出现数据质量问题所在包括下述情况中的任种或多种的组合:
[0071](I)根据所述血缘分析图,确定出现数据质量问题的数据单元;
[0072](2)根据所述血缘分析图,确定导致所述数据单元出现数据质量问题的数据处理任务。
[0073](3)根据所述血缘分析图,确定对出现数据质量问题的数据单元有影响的数据处理任务,以及对出现数据质量问题的数据单元有影响的其他数据单元;
[0074](4)根据所述血缘分析图,确定受所述出现数据质量问题的数据单元影响的的数据处理任务,以及受所述出现数据质量问题影响的其他数据单元。
[0075]本实施例中,由于可以自动获取数据处理任务,并进一步对数据处理任务进行解析,根据对所述数据处理任务的分析结果生成血缘分析图,进而根据所述血缘分析图确定出现数据质量问题的所在。即根据本实施例所公开的技术方案,一旦出现数据质量问题,就会在血缘分析图上有客观显现的体现,因此,上述整个过程通过血缘分析图即可直接客观的确定出数据质量的问题所在,无须人工参与,摆脱了人工的主观因素影响,所以定位问题效率高、速度快。
[0076]如图2所示,本发明一种数据质量追溯的方法实施例所揭示的血缘分析图的结构示意图。血缘分析图的生成过程,请参考图2,以5个数据单元参与血缘分析图生成为例。本实施例中,根据所述数据处理任务的逻辑以及所述数据处理任务的输入源和输出目标确定出所有数据单元的数据流向。
[0077]本实施例中,所有分析出来的结果可以形成一个有向图,其中所述数据单元可以作为所述有向图的节点,其中,所述节点包括数据单元01至数据单元05;所述数据处理任务作为所述有向图的边,其中,所述有向图的边的两端分别连接上一个节点和下一个节点,即上一个数据单元、下一个数据单元,每一个数据处理任务可以是所述有向图中多个节点的边,例如边01’是数据单元01的输出边,边02’是数据单元02的输出边,与此同时边01’和边02’又是数据单元03的两条输入边,边03和边03’是数据单元03的两条输出边,与此同时边03和边03’分别是数据单元04和数据单元05的输入边。
[0078]当确定图2中的数据单元03出现数据质量问题时,根据图2所示的血缘分析图可知,能够影响所述出现数据质量问题的数据单元03的数据单元包括:所述数据单元01和所述数据单元02,能够影响所述出现数据质量问题的数据单元03的数据处理任务包括:边01’和边02’;同时,根据所述血缘分析图能够确定所有被所述出现数据质量问题的数据单元03所影响的数据单元包括:数据单元04和数据单元05,从而能够确定所有被所述出现数据质量问题的数据单元03所影响的数据处理任务包括:边03’和边04’。在确定所有影响所述出现数据质量问题的数据单元的数据单元和数据处理任务和所有被所述出现数据质量问题的数据单元所影响的数据单元和数据处理任务之后,可以逐个进行修复。
[0079]需要说明的是,在初次生成血缘分析图时,也可以执行上述清洗和转换过程,以更为精确和快速的确定出出现数据质量问题的所在。
[0080]请参考图3,本发明一种数据质量追溯的装置实施例的结构示意图。本实施例中,数据质量追溯的装置包括分析模块31、血缘分析图生成模块32和问题确定模块33,其中:
[0081]所述分析模块31用于获取数据处理任务并对所述数据处理任务进行分析;
[0082]所述血缘分析图生成模块32用于根据对所述数据处理任务的分析结果,生成血缘分析图;
[0083]所述问题确定模块33用于根据所述血缘分析图,确定出现数据质量问题的问题所在。
[0084]优选地,在实施例中,所述分析模块31可以进一步用于确定所述数据处理任务涉及到的数据单元,以及所述数据处理任务的数据流向关系。
[0085]优选地,在本实施例中,所述血缘分析图生成模块32可以进一步用于根据所述数据处理任务涉及到的数据单元,以及所述数据处理任务的数据流向关系,生成血缘分析图。
[0086]具体地,本实施例中,所述血缘分析图生成模块32可以进一步用于根据所述数据处理任务涉及的数据单元,以及所述数据处理任务的数据流向关系生成有向图,所述有向图做为所述血缘分析图。
[0087]优选地,本实施例中,所述问题确定模块33进一步可以用于根据所述血缘分析图,确定出现数据质量问题的数据单元和/或导致所述数据单元出现数据质量问题的数据处理任务。
[0088]进一步地,本实施例中,所述问题确定模块33进一步还可以用于根据所述血缘分析图,确定对出现数据质量问题的数据单元有影响的数据处理任务,以及对出现数据质量问题的数据单元有影响的其他数据单元;和/或
[0089]所述问题确定模块33进一步还可以用于根据所述血缘分析图,确定受所述出现数据质量问题的数据单元影响的的数据处理任务,以及受所述出现数据质量问题影响的其他数据单元。
[0090]本实施例中,在实现上述分析模块31、血缘分析图生成模块32和问题确定模块33进一步的功能时,可以由这些模块本身来实现,也可以搭建对应功能的子模块来实现。
[0091 ]本实施例中,由于可以由分析模块自动获取数据处理任务,并进一步对数据处理任务进行解析,血缘分析图生成模块根据对所述数据处理任务的分析结果生成血缘分析图,比如以数据单元为节点、信号流向关系为有向边形成的有向图作为血缘分析图,进而由问题确定模块根据所述血缘分析图确定出现数据质量问题的所在。即根据本实施例所公开的技术方案,一旦出现数据质量问题,就会在血缘分析图上有客观显现的体现,因此,上述整个过程通过血缘分析图即可直接客观的确定出数据质量的问题所在,无须人工参与,摆脱了人工的主观因素影响,所以定位问题效率高、速度快。
[0092]图4为本发明实施例血缘分析图生成模块结构示意图,如图4所示,当有向图做为所述血缘分析图时,所述血缘分析图生成模块32可以具体包括:
[0093]节点确定子模块321,用于根据所述数据处理任务涉及的数据单元,确定所述有向图的节点;
[0094]有向边确定子模块322,用于根据所述数据处理任务的数据流向关系,确定所述有向图的有向边,所述有向边的两端分别连接所述有向图中的上一个节点和下一个节点。
[0095]需要说明的是,在另外一实施例中,也可以由所述血缘分析图生成模块32本身进一步用于根据所述数据处理任务涉及的数据单元,确定所述有向图的节点,以及根据所述数据处理任务的数据流向关系,确定所述有向图的有向边,所述有向边的两端分别连接所述有向图中的上一个节点和下一个节点。
[0096]本实施例中,由于可以由分析模块自动获取数据处理任务,并进一步对数据处理任务进行解析,血缘分析图生成模块在根据对所述数据处理任务的分析结果生成血缘分析图时,以数据单元为有向图的节点,以信号流向关系为有向图的有向边从而形成的有向图作为血缘分析图,进而后续可由问题确定模块根据所述血缘分析图确定出现数据质量问题的所在,从而通过血缘分析图即可直接客观的确定出数据质量的问题所在,无须人工参与,摆脱了人工的主观因素影响,所以定位问题效率高、速度快。
[0097]本发明一种数据质量追溯的装置实施例中,各个单元的处理过程以及相互合作的具体实现过程可以参考本发明方法实施例的相关描述,这里不再一一描述。
[0098]本发明实施例所述的一种数据质量追溯的方法可以通过硬件处理器来实现相关功能。所述硬件处理器在执行本发明实施例提供的一种数据质量追溯的方法,可以包括如下步骤的指令:
[0099]获取数据处理任务并对所述数据处理任务进行分析;
[0100]根据所述数据处理任务的分析结果,生成血缘分析图;
[0101]根据所述血缘分析图确定出现数据质量问题的所在。
[0102]上述每个步骤的具体说明或者解释,详见上述图1-图4相关记载,在此不再赘述。
[0103]以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0104]通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如R0M/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0105]最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
【主权项】
1.一种数据质量追溯的方法,其特征在于,包括: 获取数据处理任务并对所述数据处理任务进行分析; 根据所述数据处理任务的分析结果,生成血缘分析图; 根据所述血缘分析图,确定出现数据质量问题所在。2.根据权利要求1所述的方法,其特征在于,所述获取数据处理任务并对所述数据处理任务进行分析包括: 确定所述数据处理任务涉及到的数据单元,以及所述数据处理任务的数据流向关系。3.根据权利要求2所述的方法,其特征在于,所述根据对所述数据处理任务的分析结果,生成血缘分析图包括: 根据所述数据处理任务涉及到的数据单元,以及所述数据处理任务的数据流向关系生成有向图,所述有向图作为血缘分析图。4.根据权利要求3所述的方法,其特征在于,所述根据所述数据处理任务涉及的数据单元,以及所述数据处理任务的数据流向关系生成有向图包括: 根据所述数据处理任务涉及的数据单元,确定所述有向图的节点; 根据所述数据处理任务的数据流向关系,确定所述有向图的有向边,所述有向边的两端分别连接所述有向图中的上一个节点和下一个节点。5.根据权利要求2所述的方法,其特征在于,根据所述血缘分析图,确定出现数据质量问题所在包括: 根据所述血缘分析图,确定出现数据质量问题的数据单元; 和/或 根据所述血缘分析图,确定对出现数据质量问题的数据单元有影响的数据处理任务,以及对出现数据质量问题的数据单元有影响的其他数据单元; 和/或 根据所述血缘分析图,确定受所述出现数据质量问题的数据单元影响的的数据处理任务,以及受所述出现数据质量问题影响的其他数据单元。6.一种数据质量追溯的装置,其特征在于,包括: 分析模块,用于获取数据处理任务并对所述数据处理任务进行分析 血缘分析图生成模块,用于根据对所述数据处理任务的分析结果,生成血缘分析图; 问题确定模块,用于根据所述血缘分析图,确定出现数据质量问题的问题所在。7.根据权利要求6所述的装置,其特征在于,所述分析模块进一步用于确定所述数据处理任务涉及到的数据单元,以及所述数据处理任务的数据流向关系。8.根据权利要求7所述的装置,其特征在于,所述血缘分析图生成模块进一步用于根据所述数据处理任务涉及的数据单元,以及所述数据处理任务的数据流向关系生成有向图,所述有向图做为所述血缘分析图。9.根据权利要求8所述的装置,其特征在于,所述血缘分析图生成模块包括: 节点确定子模块,用于根据所述数据处理任务涉及的数据单元,确定所述有向图的节占.V , 有向边确定子模块,用于根据所述数据处理任务的数据流向关系,确定所述有向图的有向边,所述有向边的两端分别连接所述有向图中的上一个节点和下一个节点。10.根据权利要求7所述的装置,其特征在于,所述问题确定模块进一步用于根据所述血缘分析图,确定出现数据质量问题的数据单元; 和/或 所述问题确定模块进一步用于根据所述血缘分析图,确定对出现数据质量问题的数据单元有影响的数据处理任务,以及对出现数据质量问题的数据单元有影响的其他数据单元; 和/或 所述问题确定模块进一步用于根据所述血缘分析图,确定受所述出现数据质量问题的数据单元影响的的数据处理任务,以及受所述出现数据质量问题影响的其他数据单元。11.一种与数据质量追溯装置结合使用的硬件处理器,其特征在于,所述硬件处理器包括执行以下步骤的指令: 获取数据处理任务并对所述数据处理任务进行分析; 根据所述数据处理任务的分析结果,生成血缘分析图; 根据所述血缘分析图确定出现数据质量问题的所在。
【文档编号】G06Q10/06GK105844390SQ201610160404
【公开日】2016年8月10日
【申请日】2016年3月21日
【发明人】刘宏斌, 国铁龙
【申请人】乐视网信息技术(北京)股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1