基于数据资产分析的数据处理方法、装置、设备及介质与流程

文档序号:26544229发布日期:2021-09-07 22:58阅读:114来源:国知局
基于数据资产分析的数据处理方法、装置、设备及介质与流程
基于数据资产分析的数据处理方法、装置、设备及介质
【技术领域】
1.本发明涉及数据资产分析技术领域,尤其涉及一种基于数据资产分析的数据处理方法、装置、设备及介质。


背景技术:

2.大数据时代观念要颠覆性转换,大数据时代,海量数据,即是财富,也是挑战,没有意义的数据只会占用存储占用资源,需要对数据资产进行定性分析和定量分析,定性分析可以对数据资产进行标签化,定量分析可以通过评估数据相对价值;数据价值和意义现在还没有很好的定义方法,还属于一个盲区。
3.现有技术中,面对海量数据,用户无法精准识别其中哪些数据属于核心资产数据,从而无法针对不同等级的数据资产实施不同的监控策略。


技术实现要素:

4.本发明的目的在于提供一种基于数据资产分析的数据处理方法、装置、设备及介质,以解决现有技术中无法精准识别核心数据资产的技术问题。
5.本发明的技术方案如下:提供一种基于数据资产分析的数据处理方法,包括:
6.获取目标数据表,对所述目标数据表进行特征识别,获取所述目标数据表中的数据质量特征;
7.获取所述目标数据表的在第一预设时间段内最新更新任务的统计信息,根据所述统计信息获取所述目标数据表的活跃度特征;
8.获取所述目标数据表的元数据信息,根据所述元数据信息获取所述目标数据表的关联特征;
9.根据所述数据质量特征、所述活跃度特征和所述关联特征计算所述目标数据表的评价值,当所述评价值大于第一预设阈值时,将所述目标数据表判定为核心数据资产表;
10.按照预设的监控规则对所述核心数据资产表进行监控,当监控到所述核心数据资产表的数据不符合所述监控规则时,生成包括所述核心数据资产表当前信息的提示消息。
11.可选地,所述数据质量特征包括数据量、数据稀疏度以及数据一致性比例;
12.所述获取目标数据表,对所述目标数据表进行特征识别,获取所述目标数据表中的数据质量特征,包括:
13.获取所述目标数据表的行数和字段数,根据所述行数和所述字段数的乘积获取所述目标数据表的数据量;
14.获取所述目标数据表中每个字段不为空值的数据项数与所述目标数据表行数的第一比值,将目标数据表中各字段的第一比值的平均值作为所述目标数据表的数据稀疏度;
15.获取所述目标数据表中配置有数据检视逻辑的字段,对所述字段对应的数据按照所述数据检视逻辑进行数据检视,获取符合所述数据检视逻辑的数据项数,根据所述符合
所述数据检视逻辑的数据项数与所述目标数据表行数的第二比值,将所述第二比值的平均值作为所述目标数据表的数据一致性比例;
16.根据所述数据量、所述数据稀疏度以及所述数据一致性比例生成所述目标数据表的数据质量特征。
17.可选地,当所述配置有数据检视逻辑的字段获取失败时,所述目标数据表的数据一致性比例为0。
18.可选地,所述活跃度特征包括更新频率、更新数据量、更新比例、新增数据量以及新增比例;
19.所述获取所述目标数据表的在第一预设时间段内最新更新任务的统计信息,根据所述统计信息获取所述目标数据表的活跃度特征,包括:
20.获取所述目标数据表在所述第一预设时间段内的更新任务的数量,根据所述更新任务的数量和所述第一预设时间段的时间长度计算所述目标数据表的更新频率;
21.获取每个所述更新任务中对已存在数据的变更操作的变更记录数,将所述第一预设时间段内所有更新任务的变更记录数的总和作为所述目标数据表的更新数据量;
22.获取第一预设时间段内所有更新任务中对已存在数据的变更操作对应的字段以及每个所述字段的变更操作的数据项数量,根据每个所述字段的变更操作的数据项数量和所述目标数据表在更新前的行数计算每个所述字段的字段更新比例,将所述字段更新比例的平均值作为所述目标数据表的更新比例;
23.获取第一预设时间段内所有更新任务中对新增数据的写入操作的新增记录数,将所述第一预设时间段内所有更新任务的新增记录数的总和作为所述目标数据表的新增数据量;
24.获取第一预设时间段内所有更新任务中对新增数据的写入操作的对应的字段以及每个所述字段的新增操作的数据项数量,根据每个所述字段的新增操作的数据项数量和所述目标数据表在更新前的行数计算每个所述字段的字段新增比例,将所述字段新增比例的平均值作为所述目标数据表的新增比例;
25.根据所述更新频率、所述更新数据量、所述更新比例、所述新增数据量以及新增比例生成所述目标数据表的活跃度特征。
26.可选地,所述关联特征包括直接关联数量、间接关联数量以及业务关联数量;
27.所述获取所述目标数据表的元数据信息,根据所述元数据信息获取所述目标数据表的关联特征,包括:
28.获取所述目标数据表的元数据信息,根据所述元数据信息获取与所述目标数据表具有关联关系的第一关联数据表的个数,将所述第一关联数据表的个数作为所述目标数据表的直接关联数量;
29.获取每个所述第一关联数据表的元数据信息,根据所述第一关联数据表的元数据信息获取与每个所述第一关联数据表具有关联关系的第二关联数据表的个数;
30.获取所述第二关联表的数量和,将所述数量和作为所述目标数据表的间接关联数量;
31.根据所述目标数据表的元数据信息,获取所述目标数据表中与业务计算任务相关的字段,将所述与业务计算任务相关的字段的数量作为所述目标数据表的业务关联数量;
32.根据所述直接关联数量、所述间接关联数量以及所述业务关联数量生成所述目标数据表的关联特征。
33.可选地,所述按照预设的监控规则对所述核心数据资产表进行监控,当监控到所述核心数据资产表的数据不符合所述监控规则时,生成包括所述核心数据资产表当前信息的提示消息,包括:
34.建立对所述核心资产数据表进行监控的监控表,其中,所述监控表用于记录所述核心资产数据表第一监控字段在各预定时间的标准平均值;
35.当监控到所述核心资产数据表中所述第一监控字段的数据更新时,将第一监控字段的更新值与距离当前时间最近的预定时间对应的所述标准平均值进行比对,判定所述更新值是否符合预设监控规则;
36.当判定结果为否时,根据所述核心数据资产表当前信息生成提示消息。
37.可选地,所述按照预设的监控规则对所述核心数据资产表进行监控,当监控到所述核心数据资产表的数据不符合所述监控规则时,生成包括所述核心数据资产表当前信息的提示消息,包括:
38.当监控到对所述核心资产数据表中第二监控字段的数据更新时,将所述第二监控字段的更新值与预设字段格式进行比对,判断所述更新值是否与所述预设字段格式匹配;
39.当判定结果为否时,根据所述核心数据资产表当前信息生成提示消息。
40.本发明的另一技术方案如下:提供一种基于数据资产分析的数据处理装置,包括:
41.质量特征提取模块,用于获取目标数据表,对所述目标数据表进行特征识别,获取所述目标数据表中的数据质量特征;
42.活跃特征提取模块,用于获取所述目标数据表的在第一预设时间段内最新更新任务的统计信息,根据所述统计信息获取所述目标数据表的活跃度特征;
43.关联特征提取模块,用于获取所述目标数据表的元数据信息,根据所述元数据信息获取所述目标数据表的关联特征;
44.数据资产模块,用于根据所述数据质量特征、所述活跃度特征和所述关联特征计算所述目标数据表的评价值,当所述评价值大于第一预设阈值时,将所述目标数据表判定为核心数据资产表;
45.监控模块,用于按照预设的监控规则对所述核心数据资产表进行监控,当监控到所述核心数据资产表的数据不符合所述监控规则时,生成包括所述核心数据资产表当前信息的提示消息。
46.本发明的另一技术方案如下:提供一种电子设备,包括处理器、以及与所述处理器耦接的存储器,所述存储器存储有可被所述处理器执行的程序指令;所述处理器执行所述存储器存储的所述程序指令时实现上述的基于数据资产分析的数据处理方法。
47.本发明的另一技术方案如下:提供一种存储介质,所述存储介质内存储有程序指令,所述程序指令被处理器执行时实现能够实现上述的基于数据资产分析的数据处理方法。
48.本发明的基于数据资产分析的数据处理方法、装置、设备及介质,获取每个目标数据表的数据质量特征、活跃度特征和关联特征,根据数据质量特征、活跃度特征和关联特征生成所述目标数据表的评价值,将评价值大于第一预设阈值的目标数据表作为核心资产数
据表,通过上述方式,全面挖掘了各目标数据表的资产特征数据,提高了对目标数据表进行资产特征识别的准确性,并进一步根据资产特征识别结果对目标数据表进行数据资产量化,实现了核心资产数据表的自动识别,自动为核心资产数据表分配监控资源,实现了资源的自动合理分配。
【附图说明】
49.图1为本发明第一实施例的基于数据资产分析的数据处理方法的流程图;
50.图2为本发明第一实施例的基于数据资产分析的数据处理方法中s101的子步骤流程图;
51.图3为本发明第一实施例的基于数据资产分析的数据处理方法中s102的子步骤流程图;
52.图4为本发明第一实施例的基于数据资产分析的数据处理方法中s103的子步骤流程图;
53.图5为本发明第一实施例的基于数据资产分析的数据处理方法中s105的子步骤流程图;
54.图6为本发明第一实施例的基于数据资产分析的数据处理方法中s105的另一实施方式的子步骤流程图;
55.图7为本发明第二实施例的基于数据资产分析的数据处理装置的结构示意图;
56.图8为本发明第三实施例的电子设备的结构示意图;
57.图9为本发明第四实施例的存储介质的结构示意图。
【具体实施方式】
58.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
59.本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后
……
)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
60.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和
隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
61.图1为本发明第一实施例的基于数据资产分析的数据处理方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该基于数据资产分析的数据处理方法包括步骤:
62.s101,获取目标数据表,对所述目标数据表进行特征识别,获取所述目标数据表中的数据质量特征。
63.其中,目标数据表包括表名、字段,字段类型,数据记录等,目标数据表一般为事实表,目标数据表是用来记录具体事件的,包含了每个事件的具体要素,以及具体发生的事情。目标数据表的主要特点是包含数值数据(事实),而这些数值数据可以统计汇总以提供业务状态变化的信息。目标数据表中存放的事实数据通常包含大量的数据行。
64.其中,数据质量特征用于表征目标数据表自身特征,数据质量特征包括数据量、数据稀疏度以及数据一致性比例,其中,数据量表征了目标数据表的数据总容量,数据稀疏度和数据一致性比例表征了目标数据表的数据质量。数据量通过目标数据表的行数和字段数计算获取,数据稀疏度为目标数据表中每个字段不为空值的数据项与该字段总数据项的比值,数据一致性比例为目标数据表中配置有数据检视逻辑的字段符合对应数据检视逻辑的数据项与该字段总数据项的比值。
65.具体地,请参阅图2所示,步骤s101具体包括如下步骤:
66.s201,获取所述目标数据表的行数和字段数,根据所述行数和所述字段数的乘积获取所述目标数据表的数据量;
67.其中,数据量越大,该目标数据表的重要性越高。
68.s202,获取所述目标数据表中每个字段不为空值的数据项数与所述目标数据表行数的第一比值,将目标数据表中各字段的第一比值的平均值作为所述目标数据表的数据稀疏度;
69.其中,不为空值的数据比例越高,数据质量越好。
70.s203,获取所述目标数据表中配置有数据检视逻辑的字段,对所述字段对应的数据按照所述数据检视逻辑进行数据检视,获取符合所述数据检视逻辑的数据项数,根据所述符合所述数据检视逻辑的数据项数与所述目标数据表行数的第二比值,将所述第二比值的平均值作为所述目标数据表的数据一致性比例;
71.其中,配置有数据检视逻辑的字段一般为重要字段,使用频率高,例如,客户号字段、客户银行账号。当目标数据表中存在配置有数据检视逻辑的字段且该字段数据一致性较好,目标数据表的数据质量越高。
72.具体地,目标数据表中客户号字段,客户号对应的数据为ph开头,为了保证客户号数据的准确性,为客户号字段的数据配置了数据检视逻辑:数据是否为ph%;目标数据表中可能存在一个或多个配置有数据检视逻辑的字段,也可能不存在配置有数据检视逻辑的字段,在本步骤中,当配置有数据检视逻辑的字段获取失败时,所述目标数据表的数据一致性比例为0。
73.s204,根据所述数据量、所述数据稀疏度以及所述数据一致性比例生成所述目标数据表的数据质量特征。
74.s102,获取所述目标数据表的在第一预设时间段内最新更新任务的统计信息,根
据所述统计信息获取所述目标数据表的活跃度特征。
75.其中,目标数据表中的数据会不断的更新,对于已经存在的某些字段,对应的数据会不断变化,例如,各业务指标对应的字段;对于某些表征个人属性或账户属性的字段,一般不会进行更新,例如,用户姓名、客户号一般不会更新,账户类型、缴费方式可能偶尔会更新,但更新比例非常小;目标数据表中还会增加新的字段,每个新增字段会增加对应的数据;目标数据表中已经存在的字段可能会增加新的数据,目标数据表的行数会增加,新增字段和新增行导致目标数据表中的数据量会不断变化。目标数据表的更新周期不同,包括实时更新、日更新、月更新、季度更新以及年更新,于是,在第一预设时间段内,不同目标数据表的更新次数不同。
76.其中,所述统计信息包括在第一预设时间段内所述目标数据表的每次更新任务的日志,所述更新任务的日志包括每个字段的更新记录,更新任务包括对已经存在的数据的变更操作和对新增数据的写入操作。所述目标数据表的活跃度特征包括第一预设时间段内所述目标数据表的更新频率、更新数据量、更新比例、新增数据量以及新增比例,所述活跃度特征为更新频率、更新数据量、更新比例、新增数据量以及新增比例形成的集合或向量,具体地,请参阅图3所示,步骤s102具体包括如下步骤:
77.s301,获取所述目标数据表在所述第一预设时间段内的更新任务的数量,根据所述更新任务的数量和所述第一预设时间段的时间长度计算所述目标数据表的更新频率;
78.s302,获取每个所述更新任务中对已存在数据的变更操作的变更记录数,将所述第一预设时间段内所有更新任务的变更记录数的总和作为所述目标数据表的更新数据量;
79.其中,第一预设时间段内有两个更新任务a和b,其中,更新任务a中涉及变更操作的数据项数量为1000个,于是,更新任务a的变更记录数为1000;更新任务b涉及变更操作的数据项数量为3000个,于是更新任务b的变更记录数为3000;所述目标数据表的更新数据量为4000。
80.s303,获取第一预设时间段内所有更新任务中对已存在数据的变更操作对应的字段以及每个所述字段的变更操作的数据项数量,根据每个所述字段的变更操作的数据项数量和所述目标数据表在更新前的行数计算每个所述字段的字段更新比例,将所述字段更新比例的平均值作为所述目标数据表的更新比例;
81.其中,更新任务a的变更操作涉及字段a、字段b和字段c,字段a中变更操作的数据项数量为100、字段b中变更操作的数据项数量为100、字段c中变更操作的数据项数量为800;更新任务b的变更操作涉及字段a、字段b和字段d,字段a中变更操作的数据项数量为200、字段b中变更操作的数据项数量为200、字段d中变更操作的数据项数量为2600;由于更新任务可能还包括新增操作,因此选择目标数据表在执行更新任务a和更新任务b之前的行数作为更新比例的计算基础,更新任务前的行数为n,更新任务a和b的变更操作涉及6个字段,6个字段更新比例依次为100/n、100/n、800/n、200/n、200/n和2400/n,于是,目标数据表的更新比例为上述6个字段更新比例的平均值,更新比例越高说明该目标数据表的更新相对集中在某些字段上。
82.s304,获取第一预设时间段内所有更新任务中对新增数据的写入操作的新增记录数,将所述第一预设时间段内所有更新任务的新增记录数的总和作为所述目标数据表的新增数据量;
83.其中,第一预设时间段内有两个更新任务a和b,其中,更新任务a中涉及新增操作的数据项数量为2000个,于是,更新任务a的新增记录数为2000;更新任务b涉及新增操作的数据项数量为3000个,于是更新任务b的新增记录数为3000;所述目标数据表的新增数据量为5000。
84.s305,获取第一预设时间段内所有更新任务中对新增数据的写入操作的对应的字段以及每个所述字段的新增操作的数据项数量,根据每个所述字段的新增操作的数据项数量和所述目标数据表在更新前的行数计算每个所述字段的字段新增比例,将所述字段新增比例的平均值作为所述目标数据表的新增比例;
85.其中,更新任务a的新增操作涉及字段a、字段b和字段c,字段a中新增操作的数据项数量为500、字段b中新增操作的数据项数量为500、字段c中新增操作的数据项数量为1000;更新任务b的变更操作涉及字段x、字段y和字段z,字段x中新增操作的数据项数量为1000、字段y中新增操作的数据项数量为1800、字段z中新增操作的数据项数量为200;选择目标数据表在执行更新任务a和更新任务b之前的行数作为更新比例的计算基础,更新任务前的行数为n,更新任务a和b的新增操作涉及6个字段,6个字段更新比例依次为500/n、500/n、1000/n、1000/n、1000/n和200/n,于是,目标数据表的更新比例为上述6个字段新增比例的平均值,新增比例越高说明该目标数据表的新增相对集中在某些字段上。另外,更新任务还可能涉及新增字段,例如,对于字段m,更新前目标数据表中不存在字段m,其n个数据全是新增的,字段m的新增比例为1(100%)。
86.s306,根据所述更新频率、所述更新数据量、所述更新比例、所述新增数据量以及新增比例生成所述目标数据表的活跃度特征。
87.s103,获取所述目标数据表的元数据信息,根据所述元数据信息获取所述目标数据表的关联特征。
88.其中,所述关联特征用于表征所述目标数据表与其他数据表的关联程度,各数据库中存储的各目标数据表通过数据仓库进行关联,目标数据表作为事实表,步骤s101和步骤s102中所提及的字段一般称为主键字段,在数据仓库中除了事实表,还存在大量维度表,包含维度的表称为维度表,维度表是对事实表中事件的要素的描述信息。维度表包含描述事实表中的事实记录的特性。维度的具体描述信息记录在维度表,事实表中的维度属性只是一个关联到维度表的键,并不记录具体信息。当然,观察数据的某个特定角度(即某个维)还可以存在不同的细节程度,称这些维度的不同的细节程度为维的级别。一个维度往往具有多个级别。例如描述时间维时,可以从月、季度、年等不同级别来描述,那么月、季度、年等就是时间维的级别。当两个事实表基于某种维度产生关联关系时,该维度为维度表的主键,该维度还分别作为两个所述事实表的外键记录于事实表中,于是,目标数据表的元数据信息中通过外键表示数据表之间的关联关系。
89.其中,所述关联特征包括直接关联数量、间接关联数量以及业务关联数量,具体地,步骤s103进一步包括如下步骤:
90.s401,获取所述目标数据表的元数据信息,根据所述元数据信息获取与所述目标数据表具有关联关系的第一关联数据表的个数,将所述第一关联数据表的个数作为所述目标数据表的直接关联数量;
91.s402,获取每个所述第一关联数据表的元数据信息,根据所述第一关联数据表的
元数据信息获取与每个所述第一关联数据表具有关联关系的第二关联数据表的个数;
92.s403,获取所述第二关联表的数量和,将所述数量和作为所述目标数据表的间接关联数量;
93.其中,第一关联数据表与目标数据表为直接关联关系,第二关联数据表与目标数据表为间接关联关系,二者通过第一关联数据表产生间接关联。
94.s404,根据所述目标数据表的元数据信息,获取所述目标数据表中与业务计算任务相关的字段,将所述与业务计算任务相关的字段的数量作为所述目标数据表的业务关联数量;
95.其中,目标数据表中涉及的字段可能被直接用于执行业务计算任务,例如,月销售额计算任务直接采用目标数据表中的销售总和字段的数据进行计算。
96.s405,根据所述直接关联数量、所述间接关联数量以及所述业务关联数量生成所述目标数据表的关联特征。
97.s104,根据所述数据质量特征、所述活跃度特征和所述关联特征计算所述目标数据表的评价值,当所述评价值大于第一预设阈值时,将所述目标数据表判定为核心数据资产表。
98.在本实施例中,根据所述数据质量特征获取数据质量评分值,根据所述活跃度特征获取数据活跃度评分值,根据所述关联特征获取数据关联性评分值;根据所述数据质量评分值与数据质量权重、所述数据活跃度评分值与活跃度权重、所述数据关联性评分值与关联性权重,计算所述目标数据表的评价值。
99.具体地,数据质量特征包括数据量、数据稀疏度以及数据一致性比例,针对数据量:0~10万为0.1分;10~100万为0.2分;100~1000万为0.3分;1000万~1亿为0.4分;1亿~10亿为0.5分;10亿~100亿为0.6分;100亿~1000亿为0.8分;1000亿以上为1分;针对数据稀疏度:直接将数据稀疏度的值作为评分;针对数据一致性:直接将数据一致性比例的值作为评分;将上述评分值进行累加得到数据质量评分值。
100.活跃度特征包括更新频率、更新数据量、更新比例、新增数据量以及新增比例,针对更新频率:大于1天/次为1分;等于1天/次为0.5分;等于1月/次为0.2分;大于1月/次为0分;针对更新数据量:0

1000:0.2分;1000

1万:0.3分;1万

10万:0.5分;10万

100万:0.7分;100万

1000万:0.8分;1000万以上:1分;针对更新比例:1%及以上:1分;0.1%

1%:0.8;0.01%

0.1%:0.6分;0.001%

0.01%:0.4分;0.0001%

0.001%:0.2分;针对新增数据量:0

1000:0.2分;1000

1万:0.3分;1万

10万:0.5分;10万

100万:0.7分;100万

1000万:0.8分;1000万以上:1分;针对新增比例:1%及以上:1分;0.1%

1%:0.8;0.01%

0.1%:0.6分;0.001%

0.01%:0.4分;0.0001%

0.001%:0.2分;将上述评分值进行累加得到数据活跃度评分值。
101.关联特征包括直接关联数量、间接关联数量以及业务关联数量,针对直接关联数量:100个表:1分;10

100个表:0.8分;5

10个表:0.6分;3

5个表:0.4分;1

3个表:0.2分;针对间接关联数量:1000个表:1分;100

1000个表:0.8分;10

100个表:0.6分;5

10个表:0.4分;3

5个表:0.2分;针对业务关联数量:大于或等于:1分;大于或等于1且小于3:0.8分。将上述评分值累加求和,得到数据关联性评分值。
102.预先设置数据质量权重、活跃度权重和关联性权重;计算所述数据质量评分值与
数据质量权重的乘积、所述数据活跃度评分值与活跃度权重乘积、所述数据关联性评分值与关联性权重的乘积,将上述三个乘积进行累加计算所述目标数据表的评价值。
103.s105,按照预设的监控规则对所述核心数据资产表进行监控,当监控到所述核心数据资产表的数据不符合所述监控规则时,生成包括所述核心数据资产表当前信息的提示消息。
104.在本实施例中,为了核心数据资产表分配监控资源,其中,监控规则包括:对应字段的数据结构是否为预设结构;对应字段的数据是否处于预设范围;例如,对于核心资产数据表中的客户号进行监控,当客户号不符合客户号预设结构时,例如,不为ph开头,进行提示;对核心资产数据表中的保单号进行监控,当保单号不符合保单预设结构时,例如,不为4001开头,进行提示;对产品a日销售额进行监控,产品a日销售额预设范围为不大于平均日销售额的三倍,当日销售额不在预设范围内时,说明可能出现计算错误,进行提示。
105.其中,当前信息包括数据表名称、不符合监控规则的数据、该数据所在字段及该数据所在行,具体地,在一个可选的实施方式中,请参阅图5所示,步骤s105具体包括如下步骤:
106.s501,建立对所述核心资产数据表进行监控的监控表,其中,所述监控表用于记录所述核心资产数据表第一监控字段在各预定时间的标准平均值;
107.s502,当监控到所述核心资产数据表的数据更新时,将第一监控字段的更新值与距离当前时间最近的预定时间对应的所述标准平均值进行比对,判定所述更新值是否符合预设监控规则;
108.s503,当判定结果为否时,根据所述核心数据资产表当前信息生成提示消息;
109.其中,预设监控规则为大于或等于第一监控字段数据平均值的十倍,该提示消息可以直接发送至责任人的智能终端。
110.在另一个可选的实施方式中,请参阅图6所示,步骤s105具体包括如下步骤:
111.s601,当监控到对所述核心资产数据表中第二监控字段的数据更新时,将所述第二监控字段的更新值与预设字段格式进行比对,判断所述更新值是否与所述预设字段格式匹配;
112.s602,当判定结果为否时,根据所述核心数据资产表当前信息生成提示消息。
113.进一步地,在步骤s105之后还包括如下步骤:
114.s106,根据所述数据质量特征、所述活跃度特征和所述关联特征生成所述目标数据表的特征集合,将所述特征集合上传至区块链中,以使得所述区块链对所述特征集合进行加密存储。
115.在步骤s106中,基于所述特征集合分别得到对应的摘要信息,具体来说,摘要信息由所述特征集合进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证所述特征集合是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
116.图7为本发明第二实施例的基于数据资产分析的数据处理装置的结构示意图。如图7所示,该基于数据资产分析的数据处理装置20包括:质量特征提取模块21、活跃特征提取模块22、关联特征提取模块23、数据资产模块24以及监控模块25,其中,质量特征提取模块21,用于获取目标数据表,对所述目标数据表进行特征识别,获取所述目标数据表中的数据质量特征;活跃特征提取模块22,用于获取所述目标数据表的在第一预设时间段内最新更新任务的统计信息,根据所述统计信息获取所述目标数据表的活跃度特征;关联特征提取模块23,用于获取所述目标数据表的元数据信息,根据所述元数据信息获取所述目标数据表的关联特征;数据资产模块24,用于根据所述数据质量特征、所述活跃度特征和所述关联特征计算所述目标数据表的评价值,当所述评价值大于第一预设阈值时,将所述目标数据表判定为核心数据资产表;监控模块25,用于按照预设的监控规则对所述核心数据资产表进行监控,当监控到所述核心数据资产表的数据不符合所述监控规则时,生成包括所述核心数据资产表当前信息的提示消息。
117.进一步地,所述数据质量特征包括数据量、数据稀疏度以及数据一致性比例;该质量特征提取模块21还用于获取所述目标数据表的行数和字段数,根据所述行数和所述字段数的乘积获取所述目标数据表的数据量;获取所述目标数据表中每个字段不为空值的数据项数与所述目标数据表行数的第一比值,将目标数据表中各字段的第一比值的平均值作为所述目标数据表的数据稀疏度;获取所述目标数据表中配置有数据检视逻辑的字段,对所述字段对应的数据按照所述数据检视逻辑进行数据检视,获取符合所述数据检视逻辑的数据项数,根据所述符合所述数据检视逻辑的数据项数与所述目标数据表行数的第二比值,将所述第二比值的平均值作为所述目标数据表的数据一致性比例;根据所述数据量、所述数据稀疏度以及所述数据一致性比例生成所述目标数据表的数据质量特征。
118.进一步地,所述活跃度特征包括更新频率、更新数据量、更新比例、新增数据量以及新增比例;该活跃特征提取模块22还用于获取所述目标数据表在所述第一预设时间段内的更新任务的数量,根据所述更新任务的数量和所述第一预设时间段的时间长度计算所述目标数据表的更新频率;获取每个所述更新任务中对已存在数据的变更操作的变更记录数,将所述第一预设时间段内所有更新任务的变更记录数的总和作为所述目标数据表的更新数据量;获取第一预设时间段内所有更新任务中对已存在数据的变更操作对应的字段以及每个所述字段的变更操作的数据项数量,根据每个所述字段的变更操作的数据项数量和所述目标数据表在更新前的行数计算每个所述字段的字段更新比例,将所述字段更新比例的平均值作为所述目标数据表的更新比例;获取第一预设时间段内所有更新任务中对新增数据的写入操作的新增记录数,将所述第一预设时间段内所有更新任务的新增记录数的总和作为所述目标数据表的新增数据量;获取第一预设时间段内所有更新任务中对新增数据的写入操作的对应的字段以及每个所述字段的新增操作的数据项数量,根据每个所述字段的新增操作的数据项数量和所述目标数据表在更新前的行数计算每个所述字段的字段新增比例,将所述字段新增比例的平均值作为所述目标数据表的新增比例;根据所述更新频率、所述更新数据量、所述更新比例、所述新增数据量以及新增比例生成所述目标数据表的活跃度特征。
119.进一步地,所述关联特征包括直接关联数量、间接关联数量以及业务关联数量;该关联特征提取模块23还用于获取所述目标数据表的元数据信息,根据所述元数据信息获取
与所述目标数据表具有关联关系的第一关联数据表的个数,将所述第一关联数据表的个数作为所述目标数据表的直接关联数量;获取每个所述第一关联数据表的元数据信息,根据所述第一关联数据表的元数据信息获取与每个所述第一关联数据表具有关联关系的第二关联数据表的个数;获取所述第二关联表的数量和,将所述数量和作为所述目标数据表的间接关联数量;根据所述目标数据表的元数据信息,获取所述目标数据表中与业务计算任务相关的字段,将所述与业务计算任务相关的字段的数量作为所述目标数据表的业务关联数量;根据所述直接关联数量、所述间接关联数量以及所述业务关联数量生成所述目标数据表的关联特征。
120.进一步地,该监控模块25还用于建立对所述核心资产数据表进行监控的监控表,其中,所述监控表用于记录所述核心资产数据表第一监控字段在各预定时间的标准平均值;当监控到所述核心资产数据表中所述第一监控字段的数据更新时,将第一监控字段的更新值与距离当前时间最近的预定时间对应的所述标准平均值进行比对,判定所述更新值是否符合预设监控规则;当判定结果为否时,根据所述核心数据资产表当前信息生成提示消息。
121.进一步地,该监控模块25还用于当监控到对所述核心资产数据表中第二监控字段的数据更新时,将所述第二监控字段的更新值与预设字段格式进行比对,判断所述更新值是否与所述预设字段格式匹配;当判定结果为否时,根据所述核心数据资产表当前信息生成提示消息。
122.图8是本发明第三实施例的电子设备的结构示意图。如图9所示,该电子设备30包括处理器31及和处理器31耦接的存储器32。
123.存储器32存储有用于实现上述任一实施例的基于数据资产分析的数据处理方法的程序指令。
124.处理器31用于执行存储器32存储的程序指令以进行基于数据资产分析的数据处理。
125.其中,处理器31还可以称为cpu(central processing unit,中央处理单元)。处理器31可能是一种集成电路芯片,具有信号的处理能力。处理器31还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
126.参阅图9,图9为本发明第四实施例的存储介质的结构示意图。本发明第四实施例的存储介质40存储有能够实现上述所有方法的程序指令41,其中,该程序指令41可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
127.在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以
结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
128.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围。
129.以上所述的仅是本发明的实施方式,在此应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1