一种流数据序列质量检测方法、装置、设备和存储介质与流程

文档序号:32953160发布日期:2023-01-14 14:42阅读:38来源:国知局
一种流数据序列质量检测方法、装置、设备和存储介质与流程

1.本技术涉及数据处理技术领域,具体涉及一种流数据序列质量检测方法、装置、设备和存储介质。


背景技术:

2.实时流数据的应用场景越来越多且比重日益增长,车联网、风控、标签系统精准营销、实时数据仓库、实时报表和特征工程等系统对实时流数据的应用。
3.所谓流数据是指由数千个数据源持续生成的数据,通常也同时以数据或消息记录的形式发送,单条数据或消息规模较小(约几千字节)。流数据包括多种数据,如车联网状态信号数据、客户使用移动或web应用程序生成的日志文件、网购数据、埋点数据以及来自可穿戴设备数据等,一般是半结构化、非结构化数据类型。
4.实时流数据具有响应快,延迟低的优势。大约几秒或几毫秒的低延迟,可对滚动时间窗口内的数据或仅对最近的数据记录进行查询或处理。对实时流数据的采集、处理和应用的好处是显而易见的。但是流数据传输和执行过程中也会出现与普通数据相同的质量问题,例如,如消息数丢失、内容缺失的不完整问题;重复、逻辑异常的不准确问题;重复数据的不唯一问题;超出合理数据内容长度、数值范围、内容格式、枚举值异常等数据无效问题等等。
5.面对上述列举一系列流数据质量问题,对实时流数据质量进行检测及管理的需求日益增强。而现有技术对于流数据的质量监控方法,无法在大数据场景对流数据进行多维度的监控分析,在监控过程容易错判流数据传输时的质量情况,无法检测出流数据潜在的质量问题,其监控性能和可靠性存在问题。因此,需要提供一种流数据序列质量检测方法、装置、设备和存储介质,能够在多个维度上对流数据质量进行高效准确的分析,以解决上述问题。


技术实现要素:

6.鉴于以上所述现有技术的缺点,本发明提供一种流数据序列质量检测方法、装置、设备和存储介质,以解决现有技术中质量监控方法无法在大数据场景对流数据进行多维度的监控分析,在监控过程容易错判流数据传输时的质量情况,无法检测出流数据潜在的质量问题的技术问题。
7.本发明提供的流数据序列质量检测方法,包括:
8.响应配置操作,生成监控规则;
9.与数据源建立连接,实时获取所述数据源发布的流数据序列;
10.根据所述监控规则和流数据序列,获得所述流数据序列的检测结果;
11.基于所述检测结果,发出对应的告警信息;
12.根据所述检测结果,在前端对所述流数据序列的质量状况进行可视化展示。
13.于本发明的一实施例中,所述响应配置操作,生成监控规则,包括:
14.响应检测类型配置操作,生成针对流数据序列的检测项目;
15.响应检测指标配置操作,为所述检测项目设定检测指标,生成对应所述检测项目的检测规则;
16.汇总所述检测项目的检测规则,生成监控规则。
17.于本发明的一实施例中,所述根据所述监控规则和流数据序列,获得所述流数据序列的检测结果,包括:
18.根据所述监控规则中各个检测规则,判断所述流数据序列中数据单元在各个所述检测项目上的异常情况,以确定所述流数据序列中的异常数据单元,并获取所述异常数据单元的明细信息;
19.汇总所述异常数据单元,获得所述流数据序列的总览信息;
20.根据所述总览信息和所述异常数据单元的明细信息,获得所述流数据序列的检测结果。
21.于本发明的一实施例中,所述根据所述监控规则中各个检测规则,判断所述流数据序列中数据单元在各个所述检测项目上的异常情况,以确定所述流数据序列中的异常数据单元,并获取所述异常数据单元的明细信息,包括:
22.根据所述监控规则中各个检测规则,计算所述数据单元的数据参数是否符合对应所述检测项目的检测指标,判断所述数据单元在所述检测项目上是否出现异常;
23.若所述数据单元在所述检测项目上出现异常,则判断所述数据单元为异常数据单元;
24.汇总所述异常数据单元出现异常的所述检测项目和对应所述检测项目的数据参数为明细信息。
25.于本发明的一实施例中,在所述根据所述监控规则中各个检测规则,计算所述数据单元的数据参数是否符合对应所述检测项目的检测指标,判断所述数据单元在所述检测项目上是否出现异常中,
26.通过flink引擎加载并执行所述监控规则中的各个检测规则,同时分析所述数据单元在各个所述检测项目上是否异常;
27.其中,通过所述flink引擎的多个低阶算子分别加载各个所述检测规则,所述低阶算子基于加载的所述检测规则计算所述数据单元的数据参数是否符合对应所述检测项目的检测指标,进而判断所述数据单元在所述检测项目上是否出现异常。
28.于本发明的一实施例中,所述根据所述监控规则中各个检测规则,计算所述数据单元的数据参数是否符合对应所述检测项目的检测指标,判断所述数据单元在所述检测项目上是否出现异常,包括:
29.根据所述监控规则的有效性检测规则,判断所述数据单元的字段内容是否符合有效性检测指标;若所述数据单元的字段内容不符合有效性检测指标,则判断所述数据单元的有效性存在异常;
30.根据所述监控规则的唯一性检测规则,计算所述数据单元与已经检测的所述数据单元的重复度,判断所述重复度是否大于重复度阈值;若所述数据单元的重复度大于重复度阈值,则判断所述数据单元的唯一性存在异常;
31.根据所述监控规则的完整性检测规则,遍历所述数据单元的字段内容,检测所述
字段内容中是否存在空值;若所述数据单元的字段内容中存在空值,则判断所述数据单元的完整性存在异常;
32.根据所述监控规则的时效性检测规则,判断所述数据单元的传输时间是否大于时间阈值;若所述数据单元的传输时间大于时间阈值,则判断所述数据单元的时效性存在异常。
33.于本发明的一实施例中,所述根据所述检测结果,在前端对所述流数据序列的质量状况进行可视化展示,包括:
34.根据所述检测结果,生成所述流数据序列的质量总览图表和各个所述异常数据单元的异常明细图表;
35.将所述质量总览图表和异常明细图表推动至前端,在所述前端生成粗粒度总览界面和细粒度明细界面;其中,所述粗粒度总览界面包括所述质量总览图表,所述细粒度明细界面包括各个所述异常数据单元的异常明细图表;
36.根据所述异常明细图表与所述异常数据单元的对应关系,在所述粗粒度总览界面和细粒度明细界面之间设置触发跳转关系。
37.本发明提供的流数据序列质量检测装置,包括:
38.规则配置模块,用于响应配置操作,生成监控规则;
39.流数据获取模块,用于与数据源建立连接,实时获取所述数据源发布的流数据序列;
40.数据分析模块,根据所述监控规则和流数据序列,获得所述流数据序列的检测结果;
41.告警模块,用于分析所述检测结果,发出对应的告警信息;
42.结果展示模块,用于根据所述检测结果,在前端对所述流数据序列的质量状况进行可视化展示。
43.本发明提供电子设备,所述电子设备包括:存储装置和一个或多个处理器;存储装置用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如倒上述任一项实施例所述的流数据序列质量检测方法。
44.第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行上述任一项实施例所述的流数据序列质量检测方法。
45.本发明的有益效果:本发明提供的流数据序列质量检测方法、装置、设备和存储介质,通过设置多维度标准的监控规则,利用自定义配置的多维度监控规则对获取的流数据序列进行多维度分析,从而实现在多个维度以设定标准对实时更新的流数据序列进行细粒度监控,并根据检测结果对相关运维人员发送告警信息,同时将检测结果以可视化图表形式展示在前端,以便于运维人员快速定位和优化异常数据。该流数据序列质量检测方法、装置、设备和存储介质,能够在大数据场景同时对流数据序列的质量进行多维度的细粒度监控分析,提高流数据的分析粒度,避免错判流数据传输时的质量情况,进而高效且准确的监控获取的流数据序列。
46.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
47.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
48.图1是本技术的一示例性实施例示出的流数据质量监控的框架示意图;
49.图2是本技术的一示例性实施例示出的flink引擎分析流数据序列的架构示意图;
50.图3是本技术的一示例性实施例示出的流数据序列质量检测方法的流程图;
51.图4是本技术的一示例性实施例示出的步骤s1的流程图;
52.图5是本技术的一示例性实施例示出的步骤s3的流程图;
53.图6是本技术的一示例性实施例示出的步骤s31的流程图;
54.图7是本技术的一示例性实施例示出的步骤s311的流程图;
55.图8是本技术的一示例性实施例示出的步骤s4的流程图;
56.图9是本技术的一示例性实施例示出的步骤s5的流程图;
57.图10是本技术的一示例性实施例示出的流数据序列质量检测装置的框图;
58.图11示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
具体实施方式
59.以下将参照附图和优选实施例来说明本发明的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
60.需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
61.在下文描述中,探讨了大量细节,以提供对本发明实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本发明的实施例难以理解。
62.请参见图1至图11,本发明提供了一种流数据序列质量检测方法、装置、设备和存储介质,以解决现有技术中质量监控方法无法在大数据场景对流数据进行多维度的监控分析,在监控过程容易错判流数据传输时的质量情况,无法检测出流数据潜在的质量问题的技术问题。
63.如图1所示,本发明实施例提供一种流数据序列质量检测方法和装置,该方案应用于服务端,该服务端能够通过网络通讯数据源建立连接,服务端中流数据序列质量检测装置基于配置的多维度监控规则,在多个检测项目上对数据源发布的流数据序列进行实时分析,从而获取流数据序列传输质量状况的检测结果,服务端基于检测结果向负责的运维人
员发送对应的告警信息,并将检测结构推送至前端以粗粒度和细粒度图表页面形式进行展示,以便于运维人员通过服务端的前端页面快速查询定位流数据序列中的异常数据单元,并直观获悉异常数据单元的问题所在。
64.如图1和图2所示,在服务端中,流数据序列质量检测装置用于运行流数据序列质量检测方法,该流数据序列质量检测装置通过flink引擎的多个低阶算子分别加载和执行监控规则中的各个检测规则,flink引擎通过多个低阶算子能够同时在多个检测项目上对数据源发布的流数据序列进行多维分析,以获取针对该流数据序列质量的检测结果,之后将检测结果入库至服务端的存储数据库中形成针对数据源数据传输质量的历史记录。
65.其中,flink引擎是一种为分布式、高性能的流处理应用程序打造的开源流处理框架。flink引擎不仅能提供同时支持高吞吐和exactly-once语义的实时计算,还能提供批量数据处理。主要由java代码实现,支持实时流处理和批处理,批数据只是流数据的一个极限案例。支持了迭代计算,内存管理和程序优化。
66.需要说明的是,本发明中数据源可以设置在任意终端中,并且数据源通过所在终端与服务端之间的有线或无线通信实现连接关系。终端可以是智能手机、车载电脑、平板电脑、笔记本电脑或者可穿戴设备等任意支持安装导航地图软件的终端设备,但并不限于此。所述服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现,例如可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,在此也不进行限制。终端可以通过3g(第三代的移动信息技术)、4g(第四代的移动信息技术)、5g(第五代的移动信息技术)等无线网络与服务端进行通信,本处也不对此进行限制。
67.请参见图3,图3显示为本发明实施例提供的流数据序列质量检测方法的流程图,该流数据序列质量检测方法,包括如下步骤:
68.s1、响应配置操作,生成监控规则。
69.步骤s1中,在流数据序列质量检测方法所应用的服务端中,流数据序列质量检测装置可响应运维人员在前端配置操作,生成监控流数据序列的监控规则。其中,所述监控规则可针对不同的检测项目设定对应的检测指标,以形成针对流数据序列的多维度检测规则,例如检测规则可以从数据单元字段的有效性、唯一性、完整性和时效性等维度对流数据序列进行质量检测。
70.具体地,如图4所示,在步骤s1中,也即响应配置操作,生成监控规则,包括如下步骤:
71.s11、响应检测类型配置操作,生成针对流数据序列的检测项目;
72.s12、响应检测指标配置操作,为所述检测项目设定检测指标,生成对应所述检测项目的检测规则;
73.s13、汇总所述检测项目的检测规则,生成监控规则。
74.需要说明的是,所述响应运维人员在前端的配置操作类型可不受限定。例如,在本发明一实施例中,响应的配置操作可以为指令配置操作,其中运维人员在前端输入指令名称和指令内容来建立针对不同检测项目的检测规则,如在配置单一检测规则时通过指令
rule_name建立检测项目,通过指令task_desc输入检测规则概述,通过指令field_name确定监控字段,通过指令term配置检测指标名称,通过指令rule_logic_monitor在检测项目中为检测监控字段配置检测指标的逻辑信息。
75.接着,执行步骤s2、与数据源建立连接,实时获取所述数据源发布的流数据序列。
76.如图1所示,在本发明中,流数据序列质量检测方法所应用的服务端可与多个数据源建立连接(如图1中的数据源1、数据源2至数据源n),并在服务端中预存建立连接数据源的属性信息。当服务端执行流数据序列质量检测方法对指定数据源进行监控时,可基于属性信息与指定数据源建立连接,以从指定数据源处实时获取发布的流数据序列。
77.接着,执行步骤s3、根据所述监控规则和流数据序列,获得所述流数据序列的检测结果。
78.在步骤s3中,服务端基于配置的监控规则对流数据序列中各个数据单元在多个检测项目上进行分析评价,在分析过程中基于各个检测项目的检测规则计算数据单元的数据参数是否符合检测指标,从而分析得出各个数据单元在多个检测项目上是否正常,最后汇总流数据序列在任一检测项目上出现异常的数据单元为异常数据单元,以及该异常数据单元在异常检测项目上的数据参数为明细信息,以生成针对流数据序列的检测结果。
79.具体地,如图5所示,在步骤s3中,也即根据所述监控规则和流数据序列,获得所述流数据序列的检测结果,包括如下步骤:
80.s31、根据所述监控规则中各个检测规则,判断所述流数据序列中数据单元在各个所述检测项目上的异常情况,以确定所述流数据序列中的异常数据单元,并获取所述异常数据单元的明细信息;
81.s32、汇总所述异常数据单元,获得所述流数据序列的总览信息;其中,所述总览信息包括流数据序列历史记录出现的异常数据单元;
82.s33、根据所述总览信息和所述异常数据单元的明细信息,获得所述流数据序列的检测结果;其中,所述异常数据单元的明细信息包括异常数据单元出现异常的检测项目以及在异常检测检测项目上的数据参数。
83.进一步,如图6所示,所述步骤s31,也即根据所述监控规则中各个检测规则,判断所述流数据序列中数据单元在各个所述检测项目上的异常情况,以确定所述流数据序列中的异常数据单元,并获取所述异常数据单元的明细信息,包括如下步骤:
84.s311、根据所述监控规则中各个检测规则,计算所述数据单元的数据参数是否符合对应所述检测项目的检测指标,判断所述数据单元在所述检测项目上是否出现异常;其中,当所检测数据单元的数据参数不符合对应检测项目的检测指标时,判定该数据单元在所述检测项目上出现异常;当所检测数据单元的数据参数符合对应检测项目的检测指标时,判定该数据单元在所述检测项目上为正常状态;
85.s312、若所述数据单元在所述检测项目上出现异常,则判断所述数据单元为异常数据单元;
86.s313、汇总所述异常数据单元出现异常的所述检测项目和对应所述检测项目的数据参数为明细信息。
87.在本发明一实施例中,在步骤s31中,服务端通过flink引擎加载并执行所述监控规则中的各个检测规则,同时分析所述数据单元在各个所述检测项目上是否异常。其中,所
述flink引擎内部设有多个低阶算子,flink引擎中每个低阶算子存储在一个单独的内存数据结构中,每个低阶算子在内存数据结构中存储对应检测规则的检测字段参数变量列表。而由于在flink引擎中每个低阶算子存储在一个单独的内存数据结构中,因此flink引擎中的多个低阶算子相互之间可独立运行,具体为每个低阶算子可执行各自内存数据结构中存储的检测规则,从而实现相互之间的独立运行。
88.其中,在对流数据序列进行多维度分析时,flink引擎的多个低阶算子分别加载各个检测规则,多个低阶算子可同时基于各自加载的检测规则计算数据单元的数据参数是否符合对应的检测指标,从而同时判断数据单元在多个检测项目上是否出现异常,以完成对流数据序列高效的多维度分析。
89.此外,在本实施例中,服务端的flink引擎可随时响应运维人员在前端新增规则的配置操作,将新增的检测规则内置于引擎内部未占用的内存数据结构中,并在下轮数据单元的分析中加载执行,从而实现检测规则的动态加载。
90.在本发明一实施例中,在步骤s31中,可在有效性、唯一性、完整性和时效性等检测项目上对流数据序列进行多维度分析,从而在有效性、唯一性、完整性和时效性维度上判断流数据序列中各个数据单元是否出现异常。
91.具体地,如图7所示,在步骤s311中,也即根据所述监控规则中各个检测规则,计算所述数据单元的数据参数是否符合对应所述检测项目的检测指标,判断所述数据单元在所述检测项目上是否出现异常,包括如下步骤:
92.s3111、根据所述监控规则的有效性检测规则,判断所述数据单元的字段内容是否符合有效性检测指标;若所述数据单元的字段内容不符合有效性检测指标,则判断所述数据单元的有效性存在异常。
93.具体包括,判断所述数据单元的字段长度是否大于有效长度阈值,若数据单元的字段长度小于有效长度阈值,则判断所述数据单元的字段内容在长度有效性上出现异常,进而判断所述数据单元的有效性存在异常;判断所述数据单元的字段内容的字段数值是否处于数值阈值范围内,若数据单元的字段数值不处于数值阈值范围内,则判断所述数据单元的字段内容在数值有效性上出现异常,进而判断所述数据单元的有效性存在异常;遍历所述数据单元的字段内容,对字段内容中字段之间的逻辑关系进行检查,若所述数据单元的字段内容中字段之间逻辑关系出现错误,则判定所述数据单元的字段内容在执行有效性上出现异常,进而判断所述数据单元的有效性存在异常。
94.s3112、根据所述监控规则的唯一性检测规则,计算所述数据单元的字段内容与已经检测的所述数据单元的重复度,判断所述重复度是否大于重复度阈值;若所述数据单元的重复度大于重复度阈值,则判断所述数据单元的唯一性存在异常。
95.s3113、根据所述监控规则的完整性检测规则,遍历所述数据单元的字段内容,检测所述字段内容中是否存在空值;若所述数据单元的字段内容中存在空值,则判断所述数据单元的完整性存在异常。
96.s3114、根据所述监控规则的时效性检测规则,判断所述数据单元的传输时间是否大于时间阈值(也即所述数据单元是否在指定时间传输到达);若所述数据单元的传输时间大于时间阈值,则判断所述数据单元的时效性存在异常。
97.接着,执行步骤s4、基于所述检测结果,发出对应的告警信息。
98.在本发明一实施例中,所述服务端基于预设的告警规则和检测结果,向对应的负责人员发出告警信息。
99.具体地,如图7所示,在步骤s4中,也即基于所述检测结果,发出对应的告警信息,包括如下步骤:
100.s41、判断所述检测结果中总览信息所包括异常数据单元数量是否大于预设的数量阈值;
101.s42、若是,则在前端发出总告警信息;
102.s43、进一步,则基于预存的数据负责表单,获取所述总览信息中异常数据单元对应负责人员的联系方式,按照获取的联系方式向异常数据单元对应的负责人员发送子告警信息。其中,子告警信息包括该负责人员需负责的异常数据单元及异常数据单元的明细信息。
103.需要说明的是,子告警信息可通过电话、短信、邮件多级告警的方式通知对应的负责人员。
104.接着,执行步骤s5、根据所述检测结果,在前端对所述流数据序列的质量状况进行可视化展示。
105.其中,在步骤s5中,本流数据序列质量检测方法能够对检测结果进行粗粒度和细粒度处理,具体为根据流数据序列的总览信息生成质量总览图表,将质量总览图表显示在前端的粗粒度总览界面中,从而对流数据序列的异常数据单元进行粗粒度展示;以及基于异常数据单元的明细信息生成对应异常数据单元的异常明细图表,将各个异常数据单元的异常明细图表显示在细粒度明细界面中,以对各个异常数据单元在不同维度的质量状况进行细粒度展示。
106.而在本方案的应用过程中,运维人员能够在前端的粗粒度总览界面中罗列的异常数据单元列表,来快速确定流数据序列中质量出现异常的数据单元,并从细粒度明细界面中获取指定异常数据单元的明细信息,以获取该异常数据单元在那些维度上出现了异常,从而确定该异常数据单元的优化方案。
107.具体地,如图8所示,在步骤s5中,也即根据所述检测结果,在前端对所述流数据序列的质量状况进行可视化展示,包括如下步骤:
108.s51、根据所述检测结果,生成所述流数据序列的质量总览图表和各个所述异常数据单元的异常明细图表;其中,根据检测结果中流数据序列的总览信息生成质量总览图表,所述质量总览图表罗列了流数据序列中质量出现问题的异常数据单元;根据检测结果中各个异常数据单元的明细数据,生成与各个异常数据单元相对应的异常明细图表,所述异常明细图表展示了异常数据单元出现异常的检测项目,以及对应异常检测项目的数据参数和字段内容。
109.s52、将所述质量总览图表和异常明细图表推动至前端,在所述前端生成粗粒度总览界面和细粒度明细界面;其中,所述粗粒度总览界面包括所述质量总览图表,所述细粒度明细界面包括各个所述异常数据单元的异常明细图表。
110.s53、根据所述异常明细图表与所述异常数据单元的对应关系,在所述粗粒度总览界面和细粒度明细界面之间设置触发跳转关系。其中,当所述粗粒度总览界面中展示的异常数据单元信息被触发时,跳转显示所述细粒度明细界面,并在所述细粒度明细界面展示
对应异常数据单元的异常明细图表。
111.综上,本发明提供的流数据序列质量检测方法、装置、设备和存储介质,通过设置多维度标准的监控规则,利用自定义配置的多维度监控规则对获取的流数据序列进行多维度分析,从而实现在多个维度以设定标准对实时更新的流数据序列进行细粒度监控,并根据检测结果对相关运维人员发送告警信息,同时将检测结果以可视化图表形式展示在前端,以便于运维人员快速定位和优化异常数据。该流数据序列质量检测方法、装置、设备和存储介质,能够在大数据场景同时对流数据序列的质量进行多维度的细粒度监控分析,提高流数据的分析粒度,避免错判流数据传输时的质量情况,进而高效且准确的监控获取的流数据序列。
112.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
113.图10是本技术的一示例性实施例示出的流数据序列质量检测装置1100的框图。该装置可以应用于图1所示的实施环境,并具体配置在服务端中。该装置也可以适用于其它的示例性实施环境,并具体配置在其它设备中,本实施例不对该装置所适用的实施环境进行限制。
114.如图10所示,该示例性的路况刷新装置包括:规则配置模块1101、流数据获取模块1102、数据分析模块1103、告警模块1104和结果展示模块1105。各功能模块详细说明如下:
115.规则配置模块1101,用于响应配置操作,生成监控规则;
116.流数据获取模块1102,用于与数据源建立连接,实时获取所述数据源发布的流数据序列;
117.数据分析模块1103,根据所述监控规则和流数据序列,获得所述流数据序列的检测结果;
118.告警模块1104,用于分析所述检测结果,发出对应的告警信息;
119.结果展示模块1105,用于根据所述检测结果,在前端对所述流数据序列的质量状况进行可视化展示。
120.在一实施例中,规则配置模块1101,具体用于:
121.响应检测类型配置操作,生成针对流数据序列的检测项目;
122.响应检测指标配置操作,为所述检测项目设定检测指标,生成对应所述检测项目的检测规则;
123.汇总所述检测项目的检测规则,生成监控规则。
124.在一实施例中,数据分析模块1103,具体用于:
125.根据所述监控规则中各个检测规则,判断所述流数据序列中数据单元在各个所述检测项目上的异常情况,以确定所述流数据序列中的异常数据单元,并获取所述异常数据单元的明细信息;
126.汇总所述异常数据单元,获得所述流数据序列的总览信息;
127.根据所述总览信息和所述异常数据单元的明细信息,获得所述流数据序列的检测结果。
128.在一实施例中,数据分析模块1103,具体用于:
129.根据所述监控规则中各个检测规则,计算所述数据单元的数据参数是否符合对应所述检测项目的检测指标,判断所述数据单元在所述检测项目上是否出现异常;
130.若所述数据单元在所述检测项目上出现异常,则判断所述数据单元为异常数据单元;
131.汇总所述异常数据单元出现异常的所述检测项目和对应所述检测项目的数据参数为明细信息。
132.在一实施例中,数据分析模块1103,具体用于:
133.通过flink引擎加载并执行所述监控规则中的各个检测规则,同时分析所述数据单元在各个所述检测项目上是否异常;
134.其中,通过所述flink引擎的多个低阶算子分别加载各个所述检测规则,所述低阶算子基于加载的所述检测规则计算所述数据单元的数据参数是否符合对应所述检测项目的检测指标,进而判断所述数据单元在所述检测项目上是否出现异常。
135.在一实施例中,数据分析模块1103,具体用于:
136.根据所述监控规则的有效性检测规则,判断所述数据单元的字段内容是否符合有效性检测指标;若所述数据单元的字段内容不符合有效性检测指标,则判断所述数据单元的有效性存在异常;
137.根据所述监控规则的唯一性检测规则,计算所述数据单元与已经检测的所述数据单元的重复度,判断所述重复度是否大于重复度阈值;若所述数据单元的重复度大于重复度阈值,则判断所述数据单元的唯一性存在异常;
138.根据所述监控规则的完整性检测规则,遍历所述数据单元的字段内容,检测所述字段内容中是否存在空值;若所述数据单元的字段内容中存在空值,则判断所述数据单元的完整性存在异常;
139.根据所述监控规则的时效性检测规则,判断所述数据单元的传输时间是否大于时间阈值;若所述数据单元的传输时间大于时间阈值,则判断所述数据单元的时效性存在异常。
140.在一实施例中,结果展示模块1105,具体用于:
141.根据所述检测结果,生成所述流数据序列的质量总览图表和各个所述异常数据单元的异常明细图表;
142.将所述质量总览图表和异常明细图表推动至前端,在所述前端生成粗粒度总览界面和细粒度明细界面;其中,所述粗粒度总览界面包括所述质量总览图表,所述细粒度明细界面包括各个所述异常数据单元的异常明细图表;
143.根据所述异常明细图表与所述异常数据单元的对应关系,在所述粗粒度总览界面和细粒度明细界面之间设置触发跳转关系。
144.需要说明的是,上述实施例所提供的流数据序列质量检测装置与上述实施例所提供的流数据序列质量检测方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。上述实施例所提供的路况刷新装置在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处也不对此进行限制。
145.本技术的实施例还提供了一种电子设备,包括:一个或多个处理器;存储装置,用
于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现上述各个实施例中提供的流数据序列质量检测方法。
146.图11示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。需要说明的是,图11示出的电子设备的计算机系统1200仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
147.如图11所示,计算机系统1200包括中央处理单元(central processing unit,cpu)1201,其可以根据存储在只读存储器(read-only memory,rom)1202中的程序或者从储存部分1208加载到随机访问存储器(random access memory,ram)1203中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在ram1203中,还存储有系统操作所需的各种程序和数据。cpu 1201、rom 1202以及ram 1203通过总线1204彼此相连。输入/输出(input/output,i/o)接口1205也连接至总线1204。
148.以下部件连接至i/o接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(cathode ray tube,crt)、液晶显示器(liquid crystal display,lcd)等以及扬声器等的输出部分1207;包括硬盘等的储存部分1208;以及包括诸如lan(local area network,局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至i/o接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入储存部分1208。
149.特别地,根据本技术的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(cpu)1201执行时,执行本技术的系统中限定的各种功能。
150.需要说明的是,本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
151.附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程
序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
152.描述于本技术实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
153.本技术的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机的处理器执行时,使计算机执行如前流数据序列质量检测方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
154.本技术的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的流数据序列质量检测方法法。
155.上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1