一种基于Spark的数据质量核查方法、装置、存储介质及终端与流程

文档序号：27973199发布日期：2021-12-14 22:56阅读：338来源：国知局

一种基于spark的数据质量核查方法、装置、存储介质及终端
技术领域
1.本发明涉及大数据技术领域，特别涉及一种基于spark的数据质量核查方法、装置、存储介质及终端。

背景技术：

2.在企业数据标准化过程中，期望通过数据标准化管理反馈价值至业务，强调数据质量的重要性。在这个过程中，不可避免的会产生低质量数据，大批量的数据初始化、未处理历史数据带来的问题扩散、紧急业务产生的低质量数据，都将影响数据的质量。目前，随着大数据技术与深度学习技术的崛起，控制低质量数据的产生几率和及时发现低质量数据并进行有效的处理，是研究人员渴望能够实现的举措。
3.在现有技术方案中，一般通过数据质量管理软件计算数据质量的综合评分以及根据评分深入追踪到每一个数据质量问题的有效流程机制，由于现有方案中针对每一种数据质量问题的严重程度进行评分的占比无法进行有效控制，甚至一旦确定问题的占比就无法再次调改评分方案，无法根据实际的业务数据量对评分模型进行自适应调整，从而导致整个数据质量的核查方式灵活性较低，导致数据质量核查准确度较低。

技术实现要素：

4.本技术实施例提供了一种基于spark的数据质量核查方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。
5.第一方面，本技术实施例提供了一种基于spark的数据质量核查方法，方法包括：
6.获取数据分区参数或筛选参数，并根据sparksql组件与分区参数或筛选参数创建数据抽取组件；
7.根据数据抽取组件从数据中心获取并预处理待核查数据集；
8.加载数据核查规则表，从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的数据核查规则；
9.根据每个字段对应的数据核查规则将对应的字段进行质量核查，生成每个字段的核查结果；
10.将每个字段的核查结果输入预设报告模板中，生成待核查数据集的数据质量核查报告。
11.可选的，将每个字段的核查结果输入预设报告模板中，生成待核查数据集的数据质量核查报告之后，还包括：
12.将数据质量核查报告发送至相关部门客户端；其中，
13.相关部门客户端至少包括钉钉机器人、txt文件以及邮箱。
14.可选的，从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的
数据核查规则，包括：
15.获取预处理后的待核查数据集中每个字段的数据值；
16.识别每个字段的数据值对应的数据类型；
17.基于数据类型从预设数据核查规则表中获取每个字段对应的数据核查规则。
18.可选的，识别每个字段的数据值对应的数据类型，包括：
19.采用滑动窗口算法创建滑动窗口；
20.获取当前已存在的多个数据类型；
21.将多个数据类型与滑动窗口进行绑定，生成数据类型判定的滑动窗口；
22.将每个字段的数据值逐一输入数据类型判定的滑动窗口中；
23.输出每个字段的数据值对应的数据类型。
24.可选的，从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的数据核查规则，包括：
25.获取预处理后的待核查数据集中每个字段的数据值；
26.确定每个字段的数据值对应的质量级别；
27.根据质量级别从预设数据核查规则表中获取每个字段对应的数据核查规则。
28.可选的，确定每个字段的数据值对应的质量级别，包括：
29.初始化预先训练的数据质量级别确定模型；
30.将每个字段的数据值输入初始化后的预先训练的数据质量级别确定模型中；
31.输出每个字段的数据值对应的质量级别。
32.可选的，按照以下步骤生成预先训练的数据质量级别确定模型，包括：
33.获取多个字段数据；
34.接收针对多个字段数据中每个字段数据标注的数据质量级别，生成标注后的字段数据；
35.将标注后的字段数据输入卷积神经网络中，输出固定维度的文本特征向量；
36.根据固定维度的文本特征向量计算第一损失值；
37.采用yolov3神经网络创建数据质量级别确定模型；
38.将标注后的字段数据输入数据质量级别确定模型中进行训练，输出第二损失值；
39.将第一损失值与第二损失值求和后取平均值，生成目标损失值；
40.当目标损失值到达最小时，生成预先训练的数据质量级别确定模型。
41.第二方面，本技术实施例提供了一种基于spark的数据质量核查装置，装置包括：
42.数据抽取组件创建模块，用于获取数据分区参数或筛选参数，并根据spark sql组件与分区参数或筛选参数创建数据抽取组件；
43.数据集预处理模块，用于根据数据抽取组件从数据中心获取并预处理待核查数据集；
44.数据核查规则确定模块，用于加载数据核查规则表，从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的数据核查规则；
45.核查结果生成模块，根据每个字段对应的数据核查规则将对应的字段进行质量核查，生成每个字段的核查结果；
46.质量核查报告生成模块，用于将每个字段的核查结果输入预设报告模板中，生成
待核查数据集的数据质量核查报告。
47.第三方面，本技术实施例提供一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行上述的方法步骤。
48.第四方面，本技术实施例提供一种终端，可包括：处理器和存储器；其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行上述的方法步骤。
49.本技术实施例提供的技术方案可以包括以下有益效果：
50.在本技术实施例中，基于spark的数据质量核查装置首先获取数据分区参数或筛选参数，并根据spark sql组件与分区参数或筛选参数创建数据抽取组件，然后根据数据抽取组件从数据中心获取并预处理待核查数据集，再加载数据核查规则表，从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的数据核查规则，其次根据每个字段对应的数据核查规则将对应的字段进行质量核查，生成每个字段的核查结果，最后将每个字段的核查结果输入预设报告模板中，生成待核查数据集的数据质量核查报告。由于本技术采用大数据组件spark sql组件抽取数据，并基于数据核查规则表进行质量核查，从而可以针对所需数据实现自动化质量核查，从而提升数据核查效率，有效保障数据的准确可靠。
51.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。
附图说明
52.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
53.图1是本技术实施例提供的一种基于spark的数据质量核查方法的流程示意图；
54.图2是本技术实施例提供的一种基于spark的数据质量核查过程的过程示意框图；
55.图3是本技术实施例提供的一种数据质量级别确定模型的训练方法的流程示意图；
56.图4是本技术实施例提供的一种基于spark的数据质量核查装置的结构示意图；
57.图5是本技术实施例提供的一种终端的结构示意图。
具体实施方式
58.以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。
59.应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
60.下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
61.在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上
述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
62.本技术提供了一种基于spark的数据质量核查方法、装置、存储介质及终端，以解决上述相关技术问题中存在的问题。本技术提供的技术方案中，由于本技术采用大数据组件spark sql组件抽取数据，并基于数据核查规则表进行质量核查，从而可以针对所需数据实现自动化质量核查，从而提升数据核查效率，有效保障数据的准确可靠，下面采用示例性的实施例进行详细说明。
63.下面将结合附图1
‑
附图3，对本技术实施例提供的基于spark的数据质量核查方法进行详细介绍。该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的基于spark的数据质量核查装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。其中，本技术实施例中的基于spark的数据质量核查装置可以为用户终端，包括但不限于：个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中用户终端可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant，pda)、5g网络或未来演进网络中的终端设备等。
64.请参见图1，为本技术实施例提供了一种基于spark的数据质量核查方法的流程示意图。如图1所示，本技术实施例的方法可以包括以下步骤：
65.s101，获取数据分区参数或筛选参数，并根据sparksql组件与分区参数或筛选参数创建数据抽取组件；
66.其中，数据分区参数或筛选参数为当前制定的数据分区条件或数据筛选条件所对应的参数值。sparksql组件是大数据编程技术spark生态系统下的数据分析处理的组件，该组件可以进行大量数据与复杂数据的分析，使得用户可以轻松地使用sql命令进行数据查询。
67.在本技术实施例中，在进行数据质量核查时，首先确定当前数据质量核查任务，并制定数据核查任务的数据分区条件或数据筛选条件，然后根据该数据分区条件或数据筛选条件获取数据分区参数或筛选参数，再初始化sparksql组件，其次根据sparksql组件确定用于数据查询的sql命令，最后将数据分区参数或筛选参数与数据查询的sql命令进行映射关联后，生成数据抽取组件。
68.s102，根据数据抽取组件从数据中心获取并预处理待核查数据集；
69.其中，数据中心可以是传统数据库，也可以是数据中台，还可以是数据仓库。预处理包括数据清洗、数据集成、数据变换以及数据规约。
70.在一种可能的实现方式中，首先连接数据中心，然后将数据中心的地址映射至数据抽取组件中得到映射后的数据抽取组件，执行映射后的数据抽取组件后得到待核查数据集，最后将待核查数据集依次进行数据清洗、数据集成、数据变换以及数据规约处理后得到预处理后的待核查数据集。
71.具体的，数据清洗，顾名思义，“黑”的变成“白”的，“脏”的数据变成“干净”的数据。
脏数据表现在形式上和内容上的脏。形式上的脏，如：缺失值、带有特殊符号的；内容上的脏，如：异常值。数据集成就是将多个数据源合并放到一个数据存储中，当然如果所分析的数据原本就在一个数据存储里就不需要数据的集成了(多合一)。数据变换就是转化成适当的形式，来满足软件或分析理论的需要。数据归约是指在对挖掘任务和数据本身内容理解的基础上、寻找依赖于发现目标的数据的有用特征，以缩减数据规模，从而在尽可能保持数据原貌的前提下，最大限度地精简数据量。数据规归能够降低无效错误的数据对建模的影响、缩减时间、降低存储数据的空间。
72.s103，加载数据核查规则表，从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的数据核查规则；
73.其中，数据核查规则表为数据检查配置文件，数据检查配置文件是根据现有的各个字段数据值和类型自身的特点以及相关参数创建生成的，可以根据数据的特点从该配置文件中找到对应的核查规则，核查规则可以分为两大类，别分是一般检查和专项检查。
74.在一种可能的实现方式中，在确定每个字段对应的数据核查规则时，首先获取预处理后的待核查数据集中每个字段的数据值，然后识别每个字段的数据值对应的数据类型，最后基于数据类型从预设数据核查规则表中获取每个字段对应的数据核查规则。
75.其中，例如数据类型可以包括byte(字节型)、short(短整型)、int(整型)、long(长整型)、float(浮点型)、double(双精度浮点型)、char(字符型)、boolean(布尔型)。
76.具体地，在识别每个字段的数据值对应的数据类型时，首先采用滑动窗口算法创建滑动窗口，然后获取当前已存在的多个数据类型，再将多个数据类型与滑动窗口进行绑定，生成数据类型判定的滑动窗口，其次将每个字段的数据值逐一输入数据类型判定的滑动窗口中，最后输出每个字段的数据值对应的数据类型。
77.在另一种可能的实现方式中，在确定每个字段对应的数据核查规则时，首先获取预处理后的待核查数据集中每个字段的数据值，然后确定每个字段的数据值对应的质量级别，最后根据质量级别从预设数据核查规则表中获取每个字段对应的数据核查规则。
78.具体的，确定每个字段的数据值对应的质量级别时，首先初始化预先训练的数据质量级别确定模型，然后将每个字段的数据值输入初始化后的预先训练的数据质量级别确定模型中，最后输出每个字段的数据值对应的质量级别。其中，级别越高，对应的数据核查规则的复杂性越高。
79.进一步地，在生成预先训练的数据质量级别确定模型时，首先获取多个字段数据，再接收针对多个字段数据中每个字段数据标注的数据质量级别，生成标注后的字段数据，然后将标注后的字段数据输入卷积神经网络中，输出固定维度的文本特征向量，再根据固定维度的文本特征向量计算第一损失值，其次采用yolov3神经网络创建数据质量级别确定模型，再将标注后的字段数据输入数据质量级别确定模型中进行训练，输出第二损失值，并将第一损失值与第二损失值求和后取平均值，生成目标损失值，最后当目标损失值到达最小时，生成预先训练的数据质量级别确定模型。
80.进一步地，当目标损失值未到达最小时，继续执行将标注后的字段数据输入卷积神经网络中，输出固定维度的文本特征向量的步骤，直到目标损失值到达最小时停止训练。
81.在本技术实施例中，用户可以按照核查任务自行编辑检查配置文件，多个相同检查项可以复用，本技术设置了自动启用脚本，仅需要使用者配置文件编写完毕，即可直接执
行，从而提升了数据核查效率。
82.s104，根据每个字段对应的数据核查规则将对应的字段进行质量核查，生成每个字段的核查结果；
83.在本技术实施例中，当字段匹配到的数据核查规则为一般检查(commons)时，输出字符串类型数据的空值空串统计。当字段匹配到的数据核查规则为最值统计检查(statistics)时，数值类型数据的统计最值检查，输出最大最小均值的统计。当字段匹配到的数据核查规则为数值分布检查(numdistributions)时，数值类型数值的分箱范围统计，输出各范围的统计结果。当字段匹配到的数据核查规则为枚举检查(enumdistributions)时，数据枚举类型检查，输出符合各项枚举的统计结果。当字段匹配到的数据核查规则为唯一检查(uniquevalues)时，数据唯一值检查，输出其唯一值的结果统计。当字段匹配到的数据核查规则为时间检查(timechecks)时，检查时间类型数据是否符合标准字符串格式或者时间戳格式，输出时间戳秒匹配、毫秒匹配、不匹配的数据结果。当字段匹配到的数据核查规则为数值类型检查(digitchecks)时，检查数值字段匹配的(long,double,digit)类型，输出符合各类型的统计结果。当字段匹配到的数据核查规则为正则匹配检查(regexchecks)时，检查数据值是否符合传入的正则表达式(例如^[0
‑
9a
‑
z]*$)，输出统计结果。当字段匹配到的数据核查规则为联合检查(combinationchecks)时，检查多个关联性较强的字段组合是否符合给定条件(例如车架号、车辆品牌、出厂日期组合检查(判断车架号vin的前三位和第十位是否对应车辆品牌和出厂日期)，发动机型号和排放标准组合检查(判断发动机型号是否符合对应的排放标准等等组合字段检查条件)，车辆马力与功率组合(马力＝功率*0.75)等组合字段检查)，输出符合条件的统计结果。
[0084]
在本技术实施例中，根据业务数据本身的特点设计两大类型，共九个方面的数据检查方案，提供覆盖全面的数据质量检查报告，以便分析数据问题进行数据方面的决策。使用者可以根据自身数据源以及数据类型进行专项数据稽查，工具本身的数据稽查方式采用分布式计算引擎spark、提供了多个数据项组合检查能力、能够快速更好的对海量数据进行全面核查。
[0085]
s105，将每个字段的核查结果输入预设报告模板中，生成待核查数据集的数据质量核查报告。
[0086]
在本技术实施例中，使用者可以根据不同关联性的数据，自定义组合检查规则，系统根据对应的规则即可产出符合规则的数据质量报告。
[0087]
在一种可能的实现方式中，在得到核查结果后，将每个字段的核查结果输入预设报告模板中，生成待核查数据集的数据质量核查报告，最后将数据质量核查报告发送至相关部门客户端；其中，相关部门客户端至少包括钉钉机器人、txt文件以及邮箱。
[0088]
例如图2所示，图2是本技术提供的一种基于spark的数据质量核查过程的过程示意图，首先多项数据源接入构成数据中心，通过sparksql组件从数据中心获取数据加载到内存中，再将配置文件读取并解析，循环确定不同字段的检查规则确定每个字段检查方案进行实施，逐一将每项数据检查方案中配置的字段值进行分组聚合统计是否符合条件，输出统计结果，最后进行各个检查方案的数据报告结果合并发送到钉钉通知人或者以文件形式保存在本地。
[0089]
在本技术实施例中，基于spark的数据质量核查装置首先获取数据分区参数或筛
选参数，并根据spark sql组件与分区参数或筛选参数创建数据抽取组件，然后根据数据抽取组件从数据中心获取并预处理待核查数据集，再加载数据核查规则表，从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的数据核查规则，其次根据每个字段对应的数据核查规则将对应的字段进行质量核查，生成每个字段的核查结果，最后将每个字段的核查结果输入预设报告模板中，生成待核查数据集的数据质量核查报告。由于本技术采用大数据组件spark sql组件抽取数据，并基于数据核查规则表进行质量核查，从而可以针对所需数据实现自动化质量核查，从而提升数据核查效率，有效保障数据的准确可靠。
[0090]
请参见图3，为本技术实施例提供了一种数据质量级别确定模型的训练方法的流程示意图。如图3所示，数据质量级别确定模型的训练方法包括以下步骤：
[0091]
s201，获取多个字段数据；
[0092]
s202，接收针对多个字段数据中每个字段数据标注的数据质量级别，生成标注后的字段数据；
[0093]
s203，将标注后的字段数据输入卷积神经网络中，输出固定维度的文本特征向量；
[0094]
s204，根据固定维度的文本特征向量计算第一损失值；
[0095]
s205，采用yolov3神经网络创建数据质量级别确定模型；
[0096]
s206，将标注后的字段数据输入数据质量级别确定模型中进行训练，输出第二损失值；
[0097]
s207，将第一损失值与第二损失值求和后取平均值，生成目标损失值；
[0098]
s208，当目标损失值到达最小时，生成预先训练的数据质量级别确定模型。
[0099]
在本技术实施例中，基于spark的数据质量核查装置首先获取数据分区参数或筛选参数，并根据spark sql组件与分区参数或筛选参数创建数据抽取组件，然后根据数据抽取组件从数据中心获取并预处理待核查数据集，再加载数据核查规则表，从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的数据核查规则，其次根据每个字段对应的数据核查规则将对应的字段进行质量核查，生成每个字段的核查结果，最后将每个字段的核查结果输入预设报告模板中，生成待核查数据集的数据质量核查报告。由于本技术采用大数据组件spark sql组件抽取数据，并基于数据核查规则表进行质量核查，从而可以针对所需数据实现自动化质量核查，从而提升数据核查效率，有效保障数据的准确可靠。
[0100]
下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。
[0101]
请参见图4，其示出了本发明一个示例性实施例提供的基于spark的数据质量核查装置的结构示意图。该基于spark的数据质量核查装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括数据抽取组件创建模块10、数据集预处理模块20、数据核查规则确定模块30、核查结果生成模块40、质量核查报告生成模块50。
[0102]
数据抽取组件创建模块10，用于获取数据分区参数或筛选参数，并根据spark sql组件与分区参数或筛选参数创建数据抽取组件；
[0103]
数据集预处理模块20，用于根据数据抽取组件从数据中心获取并预处理待核查数据集；
[0104]
数据核查规则确定模块30，用于加载数据核查规则表，从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的数据核查规则；
[0105]
核查结果生成模块40，根据每个字段对应的数据核查规则将对应的字段进行质量核查，生成每个字段的核查结果；
[0106]
质量核查报告生成模块50，用于将每个字段的核查结果输入预设报告模板中，生成待核查数据集的数据质量核查报告。
[0107]
需要说明的是，上述实施例提供的基于spark的数据质量核查装置在执行基于spark的数据质量核查方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于spark的数据质量核查装置与基于spark的数据质量核查方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。
[0108]
上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
[0109]
在本技术实施例中，基于spark的数据质量核查装置首先获取数据分区参数或筛选参数，并根据spark sql组件与分区参数或筛选参数创建数据抽取组件，然后根据数据抽取组件从数据中心获取并预处理待核查数据集，再加载数据核查规则表，从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的数据核查规则，其次根据每个字段对应的数据核查规则将对应的字段进行质量核查，生成每个字段的核查结果，最后将每个字段的核查结果输入预设报告模板中，生成待核查数据集的数据质量核查报告。由于本技术采用大数据组件spark sql组件抽取数据，并基于数据核查规则表进行质量核查，从而可以针对所需数据实现自动化质量核查，从而提升数据核查效率，有效保障数据的准确可靠。
[0110]
本发明还提供一种计算机可读介质，其上存储有程序指令，该程序指令被处理器执行时实现上述各个方法实施例提供的基于spark的数据质量核查方法。本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个方法实施例的基于spark的数据质量核查方法。
[0111]
请参见图5，为本技术实施例提供了一种终端的结构示意图。如图5所示，终端1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。
[0112]
其中，通信总线1002用于实现这些组件之间的连接通信。
[0113]
其中，用户接口1003可以包括显示屏(display)、摄像头(camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。
[0114]
其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如wi
‑
fi接口)。
[0115]
其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(digital signal processing，dsp)、现场可编程门阵列(field
‑
programmable gate array，fpga)、可编程逻辑阵列(programmable logic array，pla)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(central processing unit，cpu)、图像处理器(graphics processing unit，gpu)和调制解调器等中的一种或几种的组合。其中，cpu主要处理操作系统、用户界面和应用程序等；gpu用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通
信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。
[0116]
其中，存储器1005可以包括随机存储器(random access memory，ram)，也可以包括只读存储器(read
‑
only memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non
‑
transitory computer
‑
readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图5所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于spark的数据质量核查应用程序。
[0117]
在图5所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的基于spark的数据质量核查应用程序，并具体执行以下操作：
[0118]
获取数据分区参数或筛选参数，并根据sparksql组件与分区参数或筛选参数创建数据抽取组件；
[0119]
根据数据抽取组件从数据中心获取并预处理待核查数据集；
[0120]
加载数据核查规则表，从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的数据核查规则；
[0121]
根据每个字段对应的数据核查规则将对应的字段进行质量核查，生成每个字段的核查结果；
[0122]
将每个字段的核查结果输入预设报告模板中，生成待核查数据集的数据质量核查报告。
[0123]
在一个实施例中，处理器1001在执行将每个字段的核查结果输入预设报告模板中，生成待核查数据集的数据质量核查报告之后时，还执行以下操作：
[0124]
将数据质量核查报告发送至相关部门客户端；其中，
[0125]
相关部门客户端至少包括钉钉机器人、txt文件以及邮箱。
[0126]
在一个实施例中，处理器1001在执行从模型训练样本中获取第n图像输入基于spark的数据质量核查模型中，输出图像中每个候选区域的位置信息与类别信息时，具体执行以下操作：
[0127]
获取预处理后的待核查数据集中每个字段的数据值；
[0128]
识别每个字段的数据值对应的数据类型；
[0129]
基于数据类型从预设数据核查规则表中获取每个字段对应的数据核查规则。
[0130]
在一个实施例中，处理器1001在执行识别每个字段的数据值对应的数据类型时，具体执行以下操作：
[0131]
采用滑动窗口算法创建滑动窗口；
[0132]
获取当前已存在的多个数据类型；
[0133]
将多个数据类型与滑动窗口进行绑定，生成数据类型判定的滑动窗口；
[0134]
将每个字段的数据值逐一输入数据类型判定的滑动窗口中；
[0135]
输出每个字段的数据值对应的数据类型。
[0136]
在一个实施例中，处理器1001在执行从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的数据核查规则时，具体执行以下操作：
[0137]
获取预处理后的待核查数据集中每个字段的数据值；
[0138]
确定每个字段的数据值对应的质量级别；
[0139]
根据质量级别从预设数据核查规则表中获取每个字段对应的数据核查规则。
[0140]
在一个实施例中，处理器1001在执行确定每个字段的数据值对应的质量级别时，具体执行以下操作：
[0141]
初始化预先训练的数据质量级别确定模型；
[0142]
将每个字段的数据值输入初始化后的预先训练的数据质量级别确定模型中；
[0143]
输出每个字段的数据值对应的质量级别。
[0144]
在一个实施例中，处理器1001在生成预先训练的数据质量级别确定模型时，具体执行以下操作：
[0145]
获取多个字段数据；
[0146]
接收针对多个字段数据中每个字段数据标注的数据质量级别，生成标注后的字段数据；
[0147]
将标注后的字段数据输入卷积神经网络中，输出固定维度的文本特征向量；
[0148]
根据固定维度的文本特征向量计算第一损失值；
[0149]
采用yolov3神经网络创建数据质量级别确定模型；
[0150]
将标注后的字段数据输入数据质量级别确定模型中进行训练，输出第二损失值；
[0151]
将第一损失值与第二损失值求和后取平均值，生成目标损失值；
[0152]
当目标损失值到达最小时，生成预先训练的数据质量级别确定模型。
[0153]
在本技术实施例中，基于spark的数据质量核查装置首先获取数据分区参数或筛选参数，并根据spark sql组件与分区参数或筛选参数创建数据抽取组件，然后根据数据抽取组件从数据中心获取并预处理待核查数据集，再加载数据核查规则表，从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的数据核查规则，其次根据每个字段对应的数据核查规则将对应的字段进行质量核查，生成每个字段的核查结果，最后将每个字段的核查结果输入预设报告模板中，生成待核查数据集的数据质量核查报告。由于本技术采用大数据组件spark sql组件抽取数据，并基于数据核查规则表进行质量核查，从而可以针对所需数据实现自动化质量核查，从而提升数据核查效率，有效保障数据的准确可靠。
[0154]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，基于spark的数据质量核查的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
[0155]
以上所揭露的仅为本技术较佳实施例而已，当然不能以此来限定本技术之权利范围，因此依本技术权利要求所作的等同变化，仍属本技术所涵盖的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李红兴;蔡抒扬;夏曙东;陈利玲;孙智彬;张志平
技术所有人：北京中交兴路信息科技有限公司
我是此专利的发明人

上一篇：一种玻尿酸饮用水及其制备工艺的制作方法
上一篇：一种贫油冷却工艺的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。