一种通过数据质量防火墙验证数据的方法与流程

文档序号:17757979发布日期:2019-05-24 21:27阅读:471来源:国知局
一种通过数据质量防火墙验证数据的方法与流程

本发明涉及数据手机和数据分析技术领域,具体涉及一种通过数据质量防火墙验证数据的方法。



背景技术:

随着2013年大数据元年的开启,各行各业都已经将大数据视为推动企业发展、推进行业进步、加快产业升级、促进民生繁荣、巩固社会安全甚至提升国家竞争力的核心武器。大数据正受到来自政治、经济、社会、文化、军事等各个领域的广泛关注,并越来越彰显其巨大价值。所有的互联网巨头公司,以及政府、企事业单位,都在根据自己的业务需求收集数据,其数据收集的手段和方式各种各样,效率也不一而足。

在这一发展过程中,数据质量逐步受到越来越多的重视。数据质量过程的主要目标在于捕获错误和无效的数据,处理它们并消除重复数据,最后将有效数据存储到数据库中。业界对数据质量的控制通常是先收集数据,存入大数据存储系统,然后利用大数据分析平台如apachehadoop、apachespark等平台对存入的数据进行分析、过滤、处理。这种处理过程的方式并不够高效,且成本较高,因为有很多低效、甚至无效的数据也进行了存储,也被分析和计算了。



技术实现要素:

本发明的目的在于提供一种通过数据质量防火墙验证数据的方法,具有滤掉存在质量问题的数据并允许将剩余的有效数据通过并存储到数据库中进而提高了效率、节约了成本。

本发明的上述目的是通过以下技术方案得以实现的:

一种通过数据质量防火墙验证数据的方法,包括以下步骤:

步骤101,根据具体的业务需求,为数据质量防火墙配置数据契约,数据契约是对数据的约束性的数学逻辑描述,包括对数据的完整性、准确性、一致性、关联性、及时性进行逻辑描述;

步骤102,启动数据质量防火墙,加载数据质量防火墙的各项配置,各项配置包括数据源的ip地址段、数据质量防火墙自身绑定的ip地址、监控的端口、访问控制策略通过条件,数据源包括块数据、连续流数据、文本数据、二进制数据;

步骤103,数据源连接到数据质量防火墙,数据源包括业务员平台系统的数据输出、物流网iot终端设备上报的采集数据、其他的数据存储系统的输出和日志agent工具输出的日志数据;

步骤104,对数据源的合法性进行验证,如果数据源不在数据质量防火墙的配置文件中预定义的ip地址段范围内以及数据源未通过数据质量防火墙的身份认证,那么数据源的身份不合法,则直接进行下一步骤,若合法则进行步骤106;

步骤105,数据质量防火墙丢弃数据源的连接,并拒绝该数据源的再次连接;

步骤106,根据步骤101中对数据契约的数学逻辑定义,对数据的合规性进行验证,如果数据满足数据契约,则转到步骤110,否则转到步骤107;

步骤107,进一步判断数据是否为可校正的数据,如果数据可校正,那么转向步骤108,否则转到步骤109;

步骤108,数据质量防火墙对不合规的数据进行校正,校正完成后并转到步骤106,对校正后的数据进行再次验证。

步骤109,数据质量防火墙对不可校正的数据做废弃处理,直接丢弃;

步骤110,将数据存入后端数据库系统,后端数据库系统包括关系型数据库、非关系型数据库和存储结构。

进一步,所述完整性衡量需要验证的数据是否在给定的数据集范围内;

所述准确性是判断给定数据是否正确地描述了现实世界对象;

所述一致性是衡量不同的系统描述相同对象的信息是否保持了一致;

所述有效性是测量数据如何满足数据契约中各种需求的约束;

所述关联性验证数据之间的关系是否满足数据契约中数据模型的关联关系;

所述及时性验证数据的实时性是否在数据契约中给定的时间点范围。

进一步,有效性的约束包括值的范围、是否允许枚举值、数据的格式是否满足预定义、是否为可选字段。

进一步,所述步骤102中,ip地址段包括ipv4和ipv6。

综上所述,本发明具有以下有益效果:

本发明提出的数据质量防火墙,通过过滤掉存在质量问题的数据并允许将剩余的有效数据存储到数据库中解决了大数据平台中对数据先收集后处理时存在的问题,进一步提升了系统的利用率,降低了系统的存储成本,而且经数据质量防火墙处理后的数据均为有效数据,使得数据质量确实得到了提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例的流程图。

具体实施方式

在下面的详细描述中,提出了许多具体细节,以便于对本发明的全面理解。但是,对于本领域技术人员来说很明显的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好地理解。

下面将结合附图,对本发明实施例的技术方案进行描述。

实施例:

如图1所示,一种通过数据质量防火墙验证数据的方法,包括以下步骤:

步骤101,根据具体的业务需求,为数据质量防火墙配置数据契约,数据契约是对数据的约束性的数学逻辑描述,包括对数据的完整性、准确性、一致性、关联性、及时性进行逻辑描述;

步骤102,启动数据质量防火墙,加载数据质量防火墙的各项配置,各项配置包括数据源的ip地址段、数据质量防火墙自身绑定的ip地址、监控的端口、访问控制策略通过条件,数据源包括块数据、连续流数据、文本数据、二进制数据;

步骤103,数据源连接到数据质量防火墙,数据源包括业务员平台系统的数据输出、物流网iot终端设备上报的采集数据、其他的数据存储系统的输出和日志agent工具输出的日志数据;

步骤104,对数据源的合法性进行验证,如果数据源不在数据质量防火墙的配置文件中预定义的ip地址段范围内以及数据源未通过数据质量防火墙的身份认证,那么数据源的身份不合法,则直接进行下一步骤,若合法则进行步骤106,ip地址段包括ipv4和ipv6;

步骤105,数据质量防火墙丢弃数据源的连接,并拒绝该数据源的再次连接;

步骤106,根据步骤101中对数据契约的数学逻辑定义,对数据的合规性进行验证,如果数据满足数据契约,则转到步骤110,否则转到步骤107;

步骤107,进一步判断数据是否为可校正的数据,如果数据可校正,那么转向步骤108,否则转到步骤109;

步骤108,数据质量防火墙对不合规的数据进行校正,校正完成后并转到步骤106,对校正后的数据进行再次验证。

步骤109,数据质量防火墙对不可校正的数据做废弃处理,直接丢弃;

步骤110,将数据存入后端数据库系统,后端数据库系统包括关系型数据库、非关系型数据库和存储结构。

步骤101中,完整性衡量需要验证的数据是否在给定的数据集范围内;

准确性是判断给定数据是否正确地描述了现实世界对象;

一致性是衡量不同的系统描述相同对象的信息是否保持了一致;

有效性是测量数据如何满足数据契约中各种需求的约束;

关联性验证数据之间的关系是否满足数据契约中数据模型的关联关系;

及时性验证数据的实时性是否在数据契约中给定的时间点范围。

本发明提出的数据质量防火墙,通过过滤掉存在质量问题的数据并允许将剩余的有效数据存储到数据库中解决了大数据平台中对数据先收集后处理时存在的问题,进一步提升了系统的利用率,降低了系统的存储成本,而且经数据质量防火墙处理后的数据均为有效数据,使得数据质量确实得到了提升。

以上实施例仅用以说明本发明的技术方案,而非对发明的保护范围进行限制。显然,所描述的实施例仅仅是本发明部分实施例,而不是全部实施例。基于这些实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明所要保护的范围。

尽管参照上述实施例对本发明进行了详细的说明,本领域普通技术人员依然可以在不冲突的情况下,不作出创造性劳动对本发明各实施例中的特征根据情况相互组合、增删或作其他调整,从而得到不同的、本质未脱离本发明的构思的其他技术方案,这些技术方案也同样属于本发明所要保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1