一种基于模型可视化的海量数据校验方法及存储介质与流程

文档序号:33703112发布日期:2023-03-31 20:27阅读:56来源:国知局
一种基于模型可视化的海量数据校验方法及存储介质与流程

1.本技术涉及数据处理技术领域,具体涉及一种基于模型可视化的海量数据校验方法及存储介质。


背景技术:

2.大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
3.而现有的数据处理中,采集的数据项目比较多,难免会出现纰漏,导致错误的数据达到目的端;同时由于现有的数据项目较多,数据处理的方式不同,而数据处理的方式不同,需要开发不同的处理软件进行对数据进行处理,导致软件开发工作量大以及需要投入大量的成本。


技术实现要素:

4.鉴于上述问题,本技术提供了一种基于模型可视化的海量数据校验方法及存储介质,解决现有采集数据项目非常多导致错误的数据进入到目的端中,以及不同的数据处理方式需要开发不同的数据处理软件导致开发工作量大及投入成本大的问题。
5.为实现上述目的,发明人提供了一种基于模型可视化的海量数据校验方法,包括以下步骤:
6.生成可视化界面,所述可视化界面包括校验模型生成子界面及组件选择子界面,所述组件选择子界面上包括用于生成数据采集模型的各个组件;
7.根据用户从组件选择子界面拉取到校验模型生成子界面的组件生成数据30采集模型,所述数据采集模型包含校验组件;
8.根据生成数据采集模型从数据源获取数据,并通过校验组件对获取的数据进行校验,并存储校验结果。
9.进一步优化,还包括以下步骤:
10.获取用户设置的校验配置;
11.35根据用户设置的校验配置生成校验组件。
12.进一步优化,所述校验组件包括身份校验组件及数据校验组件。
13.进一步优化,所述步骤“根据生成数据采集模型从数据源获取数据,并对获取的数据进行校验,并存储校验结果”具体包括以下步骤:
14.数据采集模型将获取数据进行拆分;
15.40对拆分后的数据进行分组,将同类型的预设个数的数据重组得到若干组
16.同类型字段表单数据;
17.对重组后的每一组同类型字段表单数据通过校验组件进行校验;
18.若校验通过,则根据数据类型通过对应的数据库分支存储至对应的数据
19.库中;
20.45若校验不通过,则将校验不同的那一组同类型字段表单数据拆分成若干
21.个同类型数据,并逐条校验,找到校验失败的数据;
22.将校验失败额数据存储至常规错误模型中。
23.进一步优化,所述组件包括数据上报接口组件、身份校验组件、数据校
24.验组件、备份数据组件、分支规则组件、业务库存储组件、解压包组件及大50数据存储组件。
25.还提供了另一个技术方案:一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器运行时执行以下步骤:
26.生成可视化界面,所述可视化界面包括校验模型生成子界面及组件选择子界面,所述组件选择子界面上包括用于生成数据采集模型的各个组件;55根据用户从组件选择子界面拉取到校验模型生成子界面的组件生成数据
27.采集模型,所述数据采集模型包含校验组件;
28.根据生成数据采集模型从数据源获取数据,并通过校验组件对获取的数据进行校验,并存储校验结果。
29.进一步优化,述计算机程序被处理器运行时还执行以下步骤:60获取用户设置的校验配置;
30.根据用户设置的校验配置生成校验组件。
31.进一步优化,所述校验组件包括身份校验组件及数据校验组件。
32.进一步优化,所述步骤“根据生成数据采集模型从数据源获取数据,并
33.对获取的数据进行校验,并存储校验结果”具体包括以下步骤:65数据采集模型将获取数据进行拆分;
34.对拆分后的数据进行分组,将同类型的预设个数的数据重组得到若干组同类型字段表单数据;
35.对重组后的每一组同类型字段表单数据通过校验组件进行校验;
36.若校验通过,则根据数据类型通过对应的数据库分支存储至对应的数据70库中;
37.若校验不通过,则将校验不同的那一组同类型字段表单数据拆分成若干个同类型数据,并逐条校验,找到校验失败的数据;
38.将校验失败额数据存储至常规错误模型中。
39.进一步优化,所述组件包括数据上报接口组件、身份校验组件、数据校75验组件、备份数据组件、分支规则组件、业务库存储组件、解压包组件及大
40.数据存储组件。
41.区别于现有技术,上述技术方案,通过生成可视化界面,在可视化界面上具有校验模型生成子界面以及组件选择子界面,在组件选择子界面上包括用于生成校验模型的各个组件;当用户需要对先相应的数据进行处理时,用户可以根据其需要从组件选择子界面中选择相应的组件拉取到校验模型生成子界面中,并在校验模型生成子界面中构建数据采集模型,当用户构建完成数据采集模型后,生成数据采集模型,其中,数据采集模型中包含校
验组件;当生成数据采集模型后,需要进行相应的数据进行处理时,数据采集模型从数据源中获取需要处理的数据,并根据数据采集模型中的组件对数据进行相应的处理,其中,数据采集模型中包含校验组件,当数据采集模型对数据进行处理的过程中,会通过校验组件对获取的数据进行校验,并存储校验结果,将校验通过的数据存储到相应的目的端中;在对数据处理的过程中,通过校验组件对数据进行校验,提高报送数据的准确率,减少人为因素的失误,同时用户可以根据其数据处理的方式进行在可视化界面上生成相应的组件进行生成相应的数据处理模型,减少数据处理软件成本的开发量,同时减少软件开发的成本。
42.上述发明内容相关记载仅是本技术技术方案的概述,为了让本领域普通技术人员能够更清楚地了解本技术的技术方案,进而可以依据说明书的文字及附图记载的内容予以实施,并且为了让本技术的上述目的及其它目的、特征和优点能够更易于理解,以下结合本技术的具体实施方式及附图进行说明。
附图说明
43.附图仅用于示出本技术具体实施方式以及其他相关内容的原理、实现方式、应用、特点以及效果等,并不能认为是对本技术的限制。
44.在说明书附图中:
45.图1为具体实施方式所述基于模型可视化的海量数据校验方法的一种流程示意图;
46.图2为具体实施方式所述可视化界面的一种结构示意图;
47.图3为具体实施方式所述校验组件配置步骤的一种流程示意图;
48.图4为具体实施方式所述步骤s130的一种流程示意图;
49.图5为具体实施方式所述存储介质的一种结构示意图。
50.上述各附图中涉及的附图标记说明如下:
51.210、可视化界面;
52.211、校验模型生成子界面;
53.212、组件选择子界面;
54.510、存储介质;
55.520、处理器。
具体实施方式
56.为详细说明本技术可能的应用场景,技术原理,可实施的具体方案,能实现目的与效果等,以下结合所列举的具体实施例并配合附图详予说明。本文所记载的实施例仅用于更加清楚地说明本技术的技术方案,因此只作为示例,而不能以此来限制本技术的保护范围。
57.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中各个位置出现的“实施例”一词并不一定指代相同的实施例,亦不特别限定其与其它实施例之间的独立性或关联性。原则上,在本技术中,只要不存在技术矛盾或冲突,各实施例中所提到的各项技术特征均可以以任意方式进行组合,以形成相应的可实施的技术方案。
58.除非另有定义,本文所使用的技术术语的含义与本技术所属技术领域的技术人员通常理解的含义相同;本文中对相关术语的使用只是为了描述具体的实施例,而不是旨在限制本技术。
59.在本技术的描述中,用语“和/或”是一种用于描述对象之间逻辑关系的表述,表示可以存在三种关系,例如a和/或b,表示:存在a,存在b,以及同时存在a和b这三种情况。另外,本文中字符“/”一般表示前后关联对象是一种“或”的逻辑关系。
60.在本技术中,诸如“第一”和“第二”之类的用语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何实际的数量、主次或顺序等关系。
61.在没有更多限制的情况下,在本技术中,语句中所使用的“包括”、“包含”、“具有”或者其他类似的表述,意在涵盖非排他性的包含,这些表述并不排除在包括所述要素的过程、方法或者产品中还可以存在另外的要素,从而使得包括一系列要素的过程、方法或者产品中不仅可以包括那些限定的要素,而且还可以包括没有明确列出的其他要素,或者还包括为这种过程、方法或者产品所固有的要素。
62.与《审查指南》中的理解相同,在本技术中,“大于”、“小于”、“超过”等表述理解为不包括本数;“以上”、“以下”、“以内”等表述理解为包括本数。此外,在本技术实施例的描述中“多个”的含义是两个以上(包括两个),与之类似的与“多”相关的表述亦做此类理解,例如“多组”、“多次”等,除非另有明确具体的限定。
63.在本技术实施例的描述中,所使用的与空间相关的表述,诸如“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”“水平”“垂直”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等,所指示的方位或位置关系是基于具体实施例或附图所示的方位或位置关系,仅是为了便于描述本技术的具体实施例或便于读者理解,而不是指示或暗示所指的装置或部件必须具有特定的位置、特定的方位、或以特定的方位构造或操作,因此不能理解为对本技术实施例的限制。
64.除非另有明确的规定或限定,在本技术实施例的描述中,所使用的“安装”“相连”“连接”“固定”“设置”等用语应做广义理解。例如,所述“连接”可以是固定连接,也可以是可拆卸连接,或成一体设置;其可以是机械连接,也可以是电连接,也可以是通信连接;其可以是直接相连,也可以通过中间媒介间接相连;其可以是两个元件内部的连通或两个元件的相互作用关系。对于本技术所属技术领域的技术人员而言,可以根据具体情况理解上述用语在本技术实施例中的具体含义。
65.请参阅图1-2,本实施例提供了一种基于模型可视化的海量数据校验方法,包括以下步骤:
66.步骤s110:生成可视化界面,所述可视化界面包括校验模型生成子界面及组件选择子界面,所述组件选择子界面上包括用于生成数据采集模型的各个组件;
67.步骤s120:根据用户从组件选择子界面拉取到校验模型生成子界面的组件生成数据采集模型,所述数据采集模型包含校验组件;
68.步骤s130:根据生成数据采集模型从数据源获取数据,并通过校验组件对获取的数据进行校验,并存储校验结果。
69.通过生成可视化界面210,在可视化界面上具有校验模型生成子界面211以及组件
选择子界面212,在组件选择子界面212上包括用于生成校验模型的各个组件;当用户需要对先相应的数据进行处理时,用户可以根据其需要从组件选择子界面212中选择相应的组件拉取到校验模型生成子界面211中,并在校验模型生成子界面211中构建数据采集模型,当用户构建完成数据采集模型后,生成数据采集模型,其中,数据采集模型中包含校验组件;当生成数据采集模型后,需要进行相应的数据进行处理时,数据采集模型从数据源中获取需要处理的数据,并根据数据采集模型中的组件对数据进行相应的处理,其中,数据采集模型中包含校验组件,当数据采集模型对数据进行处理的过程中,会通过校验组件对获取的数据进行校验,并存储校验结果,将校验通过的数据存储到相应的目的端中;在对数据处理的过程中,通过校验组件对数据进行校验,提高报送数据的准确率,减少人为因素的失误,同时用户可以根据其数据处理的方式进行在可视化界面110上生成相应的组件进行生成相应的数据处理模型,减少数据处理软件成本的开发量,同时减少软件开发的成本。
70.请参阅图3,在某些实施例中,还包括校验组件配置步骤,其中,校验组件配置步骤包括:
71.步骤s310:获取用户设置的校验配置;
72.步骤s320:根据用户设置的校验配置生成校验组件。
73.用户可以常用的校验规则进行配置好相应的校验组件,也可以创建自定义校验规则模板,填写自定义的数据校验规则和编号,并配置校验组件填写动态编号字段,生成校验组件,而在配置传输流程中,即数据处理模型生成的过程中,拉取需要的校验组件,并配置校验编号。用户可以根据其需要进行配置校验组件,当用户需要配置其所需要的校验组件时,获取用户设置好的校验配置,其中,校验配置包括新增公式名称、规则编码、校验表达式、校验级别及规则描述等;其中,校验表达式,即校验规则,用于对数据进行校验;校验级别是用于确认校验数据中校验字段的优先级,有些字段优先校验失败后,就不往下校验,通过区分数据校验级别,提高校验效率;可以根据用户设置的校验配置进行生成相应的校验组件,用户可以根据其需要进行配置相应的校验组件。
74.在某些实施例中,所述校验组件包括身份校验组件及数据校验组件。其中,身份校验组件可以根据入参校验,当身份校验确认通过后,则进行数据校验组件进行数据校验;数据校验组件用于根据数据校验规则对采集的数据进行校验。
75.请参阅图4,在某些实施例中,所述步骤“根据生成数据采集模型从数据源获取数据,并对获取的数据进行校验,并存储校验结果”具体包括以下步骤:
76.步骤s410:数据采集模型将获取数据进行拆分;
77.步骤s420:对拆分后的数据进行分组,将同类型的预设个数的数据重组得到若干组同类型字段表单数据;
78.步骤s430:对重组后的每一组同类型字段表单数据通过校验组件进行校验;
79.若校验通过,则执行步骤s440:根据数据类型通过对应的数据库分支存储至对应的数据库中;
80.若校验不通过,则执行步骤s450:将校验不同的那一组同类型字段表单数据拆分成若干个同类型数据,并逐条校验,找到校验失败的数据;
81.步骤s460:将校验失败额数据存储至常规错误模型中。
82.当配置好数据采集模型后,从数据源采集数据,采集的数据根据变结构字段进行
自动分类,其中,数据采集模型首次配置时,对不同的类型的数据进行标识,根据标识进行实现数据分类;对数据进行分类的过程中,数据拆分出字节型、字符型、整数型,浮点型、布尔型等,分组类型,归类不同类型的字段数据后,基于全部数据按类似excel格子方式内部拆分,同类型数据分组,如每10条数据重组出多组同类型字段表单数据,并且记录拆分后的格子编号,调用检验公式解析出公式表达式,校验重组后的每一组数据,遇到校验失败的数据后,再将校验失败的那一组数据再拆分10组同类型数据,逐条校验,定位具体报错数据;而校验失败的数据会动存储到常规错误模型中,根据大数据校验结果,不断完善数据采集模型,在数据校验前会先根据常规错误模型进行快速筛选。
83.在某些实施例中,所述组件包括数据上报接口组件、身份校验组件、数据校验组件、备份数据组件、分支规则组件、业务库存储组件、解压包组件及大数据存储组件。其中,数据上报接口组件用于对外发布http接口,接收http请求;备份数据组件用于数据校验成功后,将数据落地备份;分支规则组件用于将http请求的数据根据数据分流到对应的数据库中,如业务235数据库或者大数据库中进行存储;业务库存储组件用于存储关系型数据库,
84.大数据存储组件用于存储大数据hive数据库。
85.在某些实施例中,根据业务需求,数据采集模型对压缩打包数据校验,如校验zip数据,当打包数据文件类型的数据上传后,通过身份校验组件进行身份校验,身份校验通过后,通过本地数据入库组件存储在本地缓存库,240然后通过解压包数据组件解压后,通过数据校验组件进行分页读取校验,当校验成功后分流储存至目的库使用。
86.在某些实施例中,一种基于模型可视化的海量数据校验方法,当需要对海量数据进行校验时,第一步用户自定义配置新增公式名称、规则编码,校验表达式,校验级别,规则描述。其中,公式类似excel中的单元格公式,245如a1+a2《d3;校验级别是用于确认校验字段的优先级,有些字段优先校验失败后,就不往下校验了,区分校验级别提高校验的效率。
87.第二步填写需要采集的模型名称和表单描述。填写的模型名称的作用主要是归类,定义一些校验规则模型,比如长度校验、非空校验、数值范围校验,后续需要校验的字段可以关联上这些定义配置的模型。
88.250第三步为模型添加对应的字段属性和长度限制配置好采集模型数据。
89.第四步根据配置的采集数据模型,关联配置的校验公式。默认关联基础校验,如已数值字段就默认关联上数据类型校验。性别自动关联只能是男或者女这种校验模型。2、人工后台配置,某些字段根据实际业务场景不允许为空,关联不为空的模型。
90.255基于配置好的数据采集模型,根据表结构字段自动分类,拆分出字节型、字符型、整数型,浮点型、布尔型,分组类型,归类不同类型字段数据后,基于全部数据按类似excel格子方式内部拆分,同类型数据分组,每10条数据重组出多组同类型字段表单数据,并且记录拆分后的格子编号,调用公式解析出公式表达式,校验重组后的每一组数据,遇到校验失败数据后,在拆分10组同类型数据,逐条校验,定位具体报错数据。其中,首次配置时候,在后台人工操作手动打上标识,进而根据标识实现分类。校验的规则为根据业务场景,关联字段写sql语句,加上正则表达式规则。
91.校验失败数据会自动保存常规错误模型,根据大数据校验结果,不断完善模型。数据校验前先根据常见错误模型快速筛选。其中,根据后台手动配置校验模型完善,如果业务
上配置字段关联模型校验出很多错误数据。下次选中相关字段,会自动匹配相关校验模型,完善自动选择模型过程,减少人工后台操作。系统中规则配置后,命中率很高的规则,系统会自动根据业务类别归类。后续可以直接关联相应规则,高效完成规则选择。
92.请参阅图5,另一实施例中,一种存储介质510,所述存储介质510存储有计算机程序,所述计算机程序被处理器520运行时执行以下步骤:
93.生成可视化界面,所述可视化界面包括校验模型生成子界面及组件选择子界面,所述组件选择子界面上包括用于生成数据采集模型的各个组件;
94.根据用户从组件选择子界面拉取到校验模型生成子界面的组件生成数据采集模型,所述数据采集模型包含校验组件;
95.根据生成数据采集模型从数据源获取数据,并通过校验组件对获取的数据进行校验,并存储校验结果。
96.通过生成可视化界面,在可视化界面上具有校验模型生成子界面以及组件选择子界面,在组件选择子界面上包括用于生成校验模型的各个组件;当用户需要对先相应的数据进行处理时,用户可以根据其需要从组件选择子界面中选择相应的组件拉取到校验模型生成子界面中,并在校验模型生成子界面中构建数据采集模型,当用户构建完成数据采集模型后,生成数据采集模型,其中,数据采集模型中包含校验组件;当生成数据采集模型后,需要进行相应的数据进行处理时,数据采集模型从数据源中获取需要处理的数据,
97.并根据数据采集模型中的组件对数据进行相应的处理,其中,数据采集模型285中包含校验组件,当数据采集模型对数据进行处理的过程中,会通过校验组件对获取的数据进行校验,并存储校验结果,将校验通过的数据存储到相应的目的端中;在对数据处理的过程中,通过校验组件对数据进行校验,提高报送数据的准确率,减少人为因素的失误,同时用户可以根据其数据处理的方式进行在可视化界面上生成相应的组件进行生成相应的数据处理模型,减290少数据处理成本的开发量,同时减少软件开发的成本。
98.在某些实施例中,还包括以下步骤:
99.获取用户设置的校验配置;
100.根据用户设置的校验配置生成校验组件。
101.用户可以根据其需要进行配置校验组件,当用户需要配置其所需要的校295验组件时,获取用户设置好的校验配置,其中,校验配置包括新增公式名称、规则编码、校验表达式、校验级别及规则描述等;其中,校验表达式,即校验规则,用于对数据进行校验;校验级别是用于确认校验数据中校验字段的优先级,有些字段优先校验失败后,就不往下校验,通过区分数据校验级别,提高校验效率;可以根据用户设置的校验配置进行生成相应的校验组300件,用户可以根据其需要进行配置相应的校验组件。
102.在某些实施例中,所述校验组件包括身份校验组件及数据校验组件。其中,身份校验组件可以根据入参校验,当身份校验确认通过后,则进行数据校验组件进行数据校验;数据校验组件用于根据数据校验规则对采集的数据进行校验。
103.305在某些实施例中,所述步骤“根据生成数据采集模型从数据源获取数据,并对获取的数据进行校验,并存储校验结果”具体包括以下步骤:
104.数据采集模型将获取数据进行拆分;
105.对拆分后的数据进行分组,将同类型的预设个数的数据重组得到若干组同类型字
段表单数据;
106.310对重组后的每一组同类型字段表单数据通过校验组件进行校验;
107.若校验通过,则根据数据类型通过对应的数据库分支存储至对应的数据库中;
108.若校验不通过,则将校验不同的那一组同类型字段表单数据拆分成若干个同类型数据,并逐条校验,找到校验失败的数据;
109.315将校验失败额数据存储至常规错误模型中。
110.当配置好数据采集模型后,从数据源采集数据,采集的数据根据变结构字段进行自动分类,其中,数据采集模型首次配置时,对不同的类型的数据进行标识,根据标识进行实现数据分类;对数据进行分类的过程中,数据拆分出字节型、字符型、整数型,浮点型、布尔型等,分组类型,归类不同类320型的字段数据后,基于全部数据按类似excel格子方式内部拆分,同类型数据分组,如每10条数据重组出多组同类型字段表单数据,并且记录拆分后的格子编号,调用检验公式解析出公式表达式,校验重组后的每一组数据,遇到校验失败的数据后,再将校验失败的那一组数据再拆分10组同类型数据,逐条校验,定位具体报错数据;而校验失败的数据会动存储到常规错误325模型中,根据大数据校验结果,不断完善数据采集模型,在数据校验前会先根据常规错误模型进行快速筛选。
111.在某些实施例中,所述组件包括数据上报接口组件、身份校验组件、数据校验组件、备份数据组件、分支规则组件、业务库存储组件、解压包组件及大数据存储组件。其中,数据上报接口组件用于对外发布http接口,接330收http请求;备份数据组件用于数据校验成功后,将数据落地备份;分支规则组件用于将http请求的数据根据数据分流到对应的数据库中,如业务数据库或者大数据库中进行存储;业务库存储组件用于存储关系型数据库,大数据存储组件用于存储大数据hive数据库。
112.在某些实施例中,根据业务需求,数据采集模型对压缩打包数据校验,如校验zip数据,当打包数据文件类型的数据上传后,通过身份校验组件进行身份校验,身份校验通过后,通过本地数据入库组件存储在本地缓存库,然后通过解压包数据组件解压后,通过数据校验组件进行分页读取校验,当校验成功后分流储存至目的库使用。
113.最后需要说明的是,尽管在本技术的说明书文字及附图中已经对上述各实施例进行了描述,但并不能因此限制本技术的专利保护范围。凡是基于本技术的实质理念,利用本技术说明书文字及附图记载的内容所作的等效结构或等效流程替换或修改产生的技术方案,以及直接或间接地将以上实施例的技术方案实施于其他相关的技术领域等,均包括在本技术的专利保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1