一种可视化指标处理方法、装置、设备及存储介质与流程

文档序号:32704271发布日期:2022-12-27 23:34阅读:26来源:国知局
一种可视化指标处理方法、装置、设备及存储介质与流程

1.本发明涉及大数据处理技术领域,尤其涉及一种可视化指标处理方法、装置、设备及存储介质。


背景技术:

2.随着如今大数据平台的快速发展,大数据平台存储的底层数据是一个个庞大且复杂的数据集,而如何有效地对海量数据进行实时分析、聚合计算,最后得到数据质量业务指标,将其直观地展现给用户,这其中核心的难点便是:数据核验、聚合计算。
3.基于各种数据集进行数据核验,聚合计算出业务指标,业界常用的实现方式是spark streaming、flink sql、stream api。但不论使用何种方式,通常都需要工作人员写代码来指定数据来源、数据集、数据清洗逻辑、聚合维度等内容。如此繁杂的逻辑和代码,无论是开发、测试还是后期维护,都需要投入大量的人力和物力成本。


技术实现要素:

4.本发明提供了一种可视化指标处理方法、装置、设备及存储介质,以提升指标数据核验效率。
5.根据本发明的一方面,提供了可视化指标处理方法,包括:
6.从可视化任务配置界面中获取扩展指标的基础配置数据和任务执行数据;
7.根据所述基础数据和所述任务执行数据对所述扩展指标进行数据核验,并将核验结果展示于可视化任务状态界面中前端报表。
8.根据本发明的另一方面,提供了一种可视化指标处理装置,包括:
9.指标数据扩展模块,用于从可视化任务配置界面中获取扩展指标的基础配置数据和任务执行数据;
10.指标数据核验模块,用于根据所述基础数据和所述任务执行数据对所述扩展指标进行数据核验,并将核验结果展示于可视化任务状态界面中前端报表。
11.根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
12.至少一个处理器;以及
13.与所述至少一个处理器通信连接的存储器;其中,
14.所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的可视化指标处理方法。
15.根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的可视化指标处理方法。
16.本发明实施例通过采用页面配置化方式实现扩展指标的配置和数据核验任务的新增、修改、启动、停止等任务状态操控,核验结果通过报表的方式统一展现,无需用户手动
编写代码来进行数据核验,节约大量的人力和物力成本,提升指标数据核验效率。
17.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
18.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1a是根据本发明一实施例提供的一种可视化指标处理方法的流程图;
20.图1b是根据本发明一实施例提供的一种扩展指标基本信息的可视化配置界面的示意图;
21.图2a是根据本发明又一实施例提供的一种可视化指标处理方法的流程图;
22.图2b是根据本发明又一实施例提供的一种核验任务处理流程的示意图;
23.图3是根据本发明又一实施例提供的一种可视化指标处理装置的结构示意图;
24.图4是实现本发明实施例的电子设备的结构示意图。
具体实施方式
25.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
26.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
27.图1a为本发明一实施例提供的一种可视化指标处理方法的流程图,本实施例可适用于通过情况,该方法可以由可视化指标处理装置来执行,该装置可以采用硬件和/或软件的形式实现,该装置可配置于具备相应数据处理能力的电子设备中。如图1a所示,该方法包括:
28.s110、从可视化任务配置界面中获取扩展指标的基础配置数据和任务执行数据;
29.s120、根据所述基础数据和所述任务执行数据对所述扩展指标进行数据核验,并将核验结果展示于可视化任务状态界面中前端报表。
30.其中,可视化配置界面包括扩展指标和核验任务的web端界面,作为对核验任务执行状态进行监控和执行结果进行展示的web端界面,用户可通过界面配置的方式对核验指
标进行新增、修改、查询、删除等操作,并基于核验指标创建核验任务。基础配置数据包括扩展指标的数据范围、数据集配置和计算规则,任务执行数据包括核验任务的开始、结束等时间数据。示例性的,图1b是本发明一实施例提供的一种扩展指标基本信息的可视化配置界面的示意图。其中,用户可以在该界面中输入或选择相应的数据范围、数据集配置和计算规则。
31.具体的,用户在扩展指标的web端界面中输入扩展指标的数据范围、数据集配置和计算规则,作为扩展指标的基础配置数据;再在核验任务的web端界面选择对应的扩展指标,输入该扩展指标核验任务的全量核验任务信息,作为任务执行数据。根据用户输入基础数据和所述任务执行数据,生成相应的数据核验任务并执行,可视化任务状态界面中存在新增、修改、启动、停止等核验任务操控选项,已对执行中的核验任务进行操控,数据核验的核验结果通过可视化报表的方式在可视化任务状态界面中统一展现。
32.本发明实施例通过采用页面配置化方式实现扩展指标的配置和数据核验任务的新增、修改、启动、停止等任务状态操控,核验结果通过报表的方式统一展现,无需用户手动编写代码来进行数据核验,节约大量的人力和物力成本,提升指标数据核验效率。
33.可选的,所述基础数据包括数据范围、数据集配置和计算规则,所述计算规则包括下述至少一种:数据准备、字段运算、设置过滤和设置聚合。
34.具体的,扩展指标基础数据的web端界面中存在一级子界面,用户可在一级子界面中新建扩展指标的计算规则,计算规则包括数据准备、字段运算、设置过滤和设置聚合四个模块,用户可根据需求创建相应模块的计算规则。数据准备支持对各数据集做初步的过滤。字段运算支持字段作用函数,实现对字段内容的函数转换,比如unix时间戳转“yyyymmdd”格式等,相关的作用函数可根据实际需要进行添加;同时,支持字段(原字段或字段作用函数后的新字段)间运算,如:数值型支持算术运算,字符串型支持字符串拼接运算等。设置过滤支持对原数据字段以及字段运算产生的新字段的过滤条件设置。设置聚合支持对原数据字段以及字段运算产生的新字段的聚合条件设置,支持多个字段作为聚合主键。
35.可选的,所述根据所述基础数据和所述任务执行数据对所述扩展指标进行数据核验之前,还包括:
36.根据所述基础配置数据确定相应数据核验所需的目标数据集;对所述目标数据集进行数据校验,并根据数据校验结果对所述目标数据集进行更新。
37.具体的,为提高核验任务的效率和准确率,可以从用户配置的基础配置数据中确定扩展指标后续核验任务所需的数据集,对该数据集中数据进行完整性、正确性、有效性、唯一性、及时性、业务合理性等不同维度的数据校验,并根据这些校验结果对数据集中数据进行删除、修改等更新操作。此外,还可对多个数据集关联、过滤、聚合、分组、排序等数据集操作,以及将常用数据格转函数,比如时间戳转时间、数值型支持算术运算,字符串型支持字符串拼接运算等。
38.示例性的,完整性:对数据字段值的必填项属性进行校验,设置校验函数为公式,配置字段的取值范围(大于、等于、小于、大于等于、小于等于某个数值)或缺失内容(包含或不包含特定字符)进行配置,比如税务登记证号这个字段必须有“号”这个汉字。正确性:对数据字段值的正确性进行校验,比如年龄逻辑校验,可以设置年龄的正则表达式校验规则,校验范围在0~200,年龄字段值不在这个区间就不符合校验;概率类取值校验,正则表达式
配置的校验范围在0~100%;字段值不在这个区间就不符合校验。有效性:数据字段值的长度校验、字段类型校验及字段必须遵循一定格校验(身份证、手机号、邮箱等遵循特定格式数据)。设置元素及对应的正则校验表达式,遵循格式的就符合校验。唯一性:主键唯一,当出现表中两个或两个以上的主键重复为主键不唯一;校验数据时出现两条或两条以上一模一样的数据为重复数据。及时性:校验数据接入及时性,接入及时性通过采样数据接入时间与数据时间差计算得出。业务合理性:对数据字段值的业务是否合理进行校验,通过扩展指标配置业务不合理的校验指标。
39.图2a为本发明又一实施例提供的一种可视化指标处理方法的流程图,本实施例在上述实施例的基础上进行了优化改进。如图2a所示,该方法包括:
40.s210、部署指标计算可视化框架;初始化所述指标计算可视化框架中接口服务和指标计算spark任务脚本的运行参数。
41.其中,指标计算框架部署包qualityindexframe文件结构及用途描述如下表所示:
[0042][0043]
表1指标计算框架部署包qualityindexframe文件结构及用途
[0044]
具体的,部署包部署时关键步骤如下:修改指标计算接口服务初始化参数配置文件commonconfig.xml,配置hadoop集群配置信息以及根据实际集群环境大小和实际数据量调整spark任务的运行参数,配置文件的路径如下:/qualityindexframe/interfaceservice/config/commonconfig.xml。
[0045]
s220、从可视化任务配置界面中获取扩展指标的基础配置数据和任务执行数据。
[0046]
s230、基于预设数据存储表,通过所述基础配置数据和所述任务执行数据生成核验任务启动文件;通过接口服务中指标任务下发接口将所述核验任务启动文件下发指标计算spark任务脚本,用于指示所述指标计算spark任务脚本根据所述核验任务启动文件进行数据核验。
[0047]
其中,接口服务interfaceservice包括指标任务下发接口,任务终止执行接口,任务执行状态查询接口,样例结果数据查询接口和结果数据统计查询接口,用于实现对对核验任务的下发、状态查询、结果统计等操作。
[0048]
具体的,将基础配置数据和任务执行数据填入预设数据存储表中,数据表记录了各项数据的字段名、字段名称、字段类型等规范信息。根据数据表中各项数据的必须信息,生成xml文件格式的核验任务启动文件。任务启动后,调用指标任务下发接口,后台执行指标计算spark任务脚本,以启动对应的spark指标计算任务,并将xml文件格式的核验任务启
动文件作为spark指标计算任务的任务文件,实现基础配置数据和任务执行数据由配置界面向spark任务脚本的传递。
[0049]
可选的,所述预设数据存储表包括扩展指标配置表、扩展指标数据集配置表、扩展指标配置规则表和核验任务表。
[0050]
具体的,各预设数据表格可存储的数据内容分别如下:
[0051]
字段名字段名称字段类型是否必填字段备注index_id指标idvarchar(64)是指标idindex_code指标编码varchar(100)是指标编码index_name指标名称varchar(100)是指标名称index_dimension指标维度varchar(100) 指标维度index_data_range指标数据范围varchar(100)是指标数据范围index_start_time指标开始时间varchar(20)是指标开始时间index_end_time指标结束时间varchar(20)是指标结束时间index_desc指标含义text否指标含义index_xml指标xmltext是指标xmlindex_create_time指标创建时间timestamp是指标创建时间index_update_time指标更新时间timestamp否指标更新时间
[0052]
表2扩展指标配置表(extend_index_config)
[0053][0054]
表3扩展指标数据集配置表(extend_index_dataset_config)
[0055]
字段名字段名称字段类型是否必填字段备注rule_id规则idvarchar(64)是页面idindex_id指标idvarchar(100)是页面作者idrule_xml规则xmlvarchar(100)是页面作者名称rule_desc规则描述varchar(32)是项目iddata_prepare_xml数据准备xmltext是类别idwith_column_xml字段运算xmltext否页面标题filter_xml数据筛选xmltext是页面内容groupby_xml聚合处理xmltext是创建时间data_prepare_desc数据准备描述text是数据准备描述with_column_desc字段运算描述text是字段运算描述filter_desc数据筛选描述text是数据筛选描述groupby_desc聚合处理描述text是聚合处理描述
[0056]
表4扩展指标规则配置表
[0057][0058]
表5核验任务表(full_quality_verify_task)
[0059]
s230、通过接口服务中任务执行状态查询接口获取所述数据核验的实时执行状态;在可视化任务状态界面中展示所述数据核验的实时执行状态。
[0060]
具体的,任务启动后通过任务执行状态查询接口获取核验任务的执行状态,并根据该执行状态对可视化任务状态界面中的“任务状态”进行更新。任务执行完成后,通过样例结果数据查询接口和结果数据统计查询接口分别获取指标任务计算结果的样例数据和统计数据,并将相关结果展示在前端报表中。此外,在核验结果展示之后,生成并展示相应的核验任务执行日志记录,便于查看核验任务执行进度、结果以及异常信息,方便对核验任务排查定位问题。
[0061]
示例性的,图2b是根据本发明又一实施例提供的一种核验任务处理流程的示意图。其中,用户在“数据采样及核验全量核验界面-新建”web界面配置指标任务执行信息并选择对应扩展指标的指标信息,在“数据质量知识库、策略知识库-扩展指标-新建”web界面配置对应扩展指标的指标计算规则信息。在完成核验任务的信息准备后,通过相应的接口对核验任务进行监控和操作。
[0062]
s240、将核验结果展示于可视化任务状态界面中前端报表。
[0063]
本发明实施例通过对接口服务进行初始化,以通过接口服务中各种接口实现对核验任务的下发、暂停、查询等操作,提高了核验任务的操控效率。
[0064]
图3为本发明又一实施例提供的一种可视化指标处理装置的结构示意图。如图3所示,该装置包括:
[0065]
指标数据扩展模块310,用于从可视化任务配置界面中获取扩展指标的基础配置数据和任务执行数据;
[0066]
指标数据核验模块320,用于根据所述基础数据和所述任务执行数据对所述扩展指标进行数据核验,并将核验结果展示于可视化任务状态界面中前端报表。
[0067]
本发明实施例所提供的可视化指标处理装置可执行本发明任意实施例所提供的
可视化指标处理方法,具备执行方法相应的功能模块和有益效果
[0068]
可选的,指标数据核验模块320包括:
[0069]
启动文件生成单元,用于基于预设数据存储表,通过所述基础配置数据和所述任务执行数据生成核验任务启动文件;
[0070]
启动文件下发单元,用于通过接口服务中指标任务下发接口将所述核验任务启动文件下发指标计算spark任务脚本,用于指示所述指标计算spark任务脚本根据所述核验任务启动文件进行数据核验。
[0071]
可选的,所述预设数据存储表包括扩展指标配置表、扩展指标数据集配置表、扩展指标配置规则表和核验任务表。
[0072]
可选的,所述装置还包括:
[0073]
实时状态查询模块,用于通过接口服务中任务执行状态查询接口获取所述数据核验的实时执行状态;
[0074]
实时状态展示模块,用于在可视化任务状态界面中展示所述数据核验的实时执行状态。
[0075]
可选的,所述装置还包括:
[0076]
框架部署单元,用于部署指标计算可视化框架;
[0077]
框架初始化单元,用于初始化所述指标计算可视化框架中接口服务和指标计算spark任务脚本的运行参数。
[0078]
可选的,所述基础数据包括数据范围、数据集配置和计算规则,所述计算规则包括下述至少一种:数据准备、字段运算、设置过滤和设置聚合;
[0079]
可选的,所述装置还包括:
[0080]
数据集确定单元,用于根据所述基础配置数据确定相应数据核验所需的目标数据集;
[0081]
数据集校验单元,用于对所述目标数据集进行数据校验,并根据数据校验结果对所述目标数据集进行更新。
[0082]
进一步说明的可视化指标处理装置也可执行本发明任意实施例所提供的可视化指标处理方法,具备执行方法相应的功能模块和有益效果。
[0083]
图4示出了可以用来实施本发明的实施例的电子设备40的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
[0084]
如图4所示,电子设备40包括至少一个处理器41,以及与至少一个处理器41通信连接的存储器,如只读存储器(rom)42、随机访问存储器(ram)43等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器41可以根据存储在只读存储器(rom)42中的计算机程序或者从存储单元48加载到随机访问存储器(ram)43中的计算机程序,来执行各种适当的动作和处理。在ram 43中,还可存储电子设备40操作所需的各种程序和数据。处理器41、rom 42以及ram 43通过总线44彼此相连。输入/输出(i/o)接口45也连接至总线44。
[0085]
电子设备40中的多个部件连接至i/o接口45,包括:输入单元46,例如键盘、鼠标等;输出单元47,例如各种类型的显示器、扬声器等;存储单元48,例如磁盘、光盘等;以及通信单元49,例如网卡、调制解调器、无线通信收发机等。通信单元49允许电子设备40通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0086]
处理器41可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器41的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器41执行上文所描述的各个方法和处理,例如可视化指标处理方法。
[0087]
在一些实施例中,可视化指标处理方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元48。在一些实施例中,计算机程序的部分或者全部可以经由rom 42和/或通信单元49而被载入和/或安装到电子设备40上。当计算机程序加载到ram 43并由处理器41执行时,可以执行上文描述的可视化指标处理方法的一个或多个步骤。备选地,在其他实施例中,处理器41可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行可视化指标处理方法。
[0088]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0089]
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0090]
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0091]
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装
置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0092]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、区块链网络和互联网。
[0093]
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。
[0094]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
[0095]
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1