流数据分析方法、装置、设备及存储介质与流程

文档序号:30976432发布日期:2022-08-02 23:25阅读:120来源:国知局
流数据分析方法、装置、设备及存储介质与流程

1.本发明涉及人工智能技术领域,尤其涉及一种流数据分析方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.当前,随着各个行业中数字化转型的不断深入,各个企业对数据价值的要求也越来越高。数据价值从传统的存储、展示逐步过渡为实时数据流的分析及展示,实时数据流的分析及展示通常是基于storm、spark、flink三个主要开源框架,结合相应的消息队列实现的。
3.但是,storm为早期的流式处理框架,目前整体开发迭代以及版本更新较为滞后;spark框架则主要用于批处理;而基于flink框架处理流数据,常用的方案是先通过变化数据捕获工具将源数据库中新增的数据同步至消息队列,然后再通过flink做数据的实时处理,最终把数据写入存储端。由于源数据库中的源数据存储于不同的系统之间,源数据格式杂乱不一,使得在实际流数据处理过程中维度数据无法准确关联,造成维度数据缺失的情况,导致流数据分析的准确率低下。


技术实现要素:

4.本发明提供一种流数据分析方法、装置、电子设备及计算机可读存储介质,其主要目的是提高流数据分析的准确率。
5.为实现上述目的,本发明提供的一种流数据分析方法,包括:
6.实时从预设的源数据库中获取流数据,并将所述流数据传输至预设的消息队列中;
7.利用预设的消息过滤器对所述消息队列中的流数据进行过滤,得到过滤流数据;
8.按照预设的数据维度表将所述过滤流数据中具有相同维度信息的数据进行关联,得到关联数据;
9.实时监控所述数据维度表中的维度信息是否发生变化;
10.在所述数据维度表中的维度信息未发生变化时,利用预设的流处理框架将所述关联数据进行分析;
11.在所述数据维度表中的维度信息发生变化时,获取所述数据维度表中的维度变化信息,并根据所述维度变化信息,对所述关联数据进行更新,利用所述流处理框架将更新后的所述关联数据进行分析。
12.可选地,所述利用预设的消息过滤器对所述消息队列中的流数据进行过滤,得到过滤流数据,包括:
13.对所述流数据进行数据清洗,得到清洗流数据;
14.配置所述清洗流数据的流数据标签以及所述消息过滤器的过滤标签,并判断所述流数据标签与所述过滤标签是否一致;
15.若所述流数据标签与所述过滤标签不一致,将所述流数据进行过滤,得到过滤流数据;
16.若所述流数据标签与所述过滤标签一致,将所述流数据作为过滤流数据。
17.可选地,所述对所述流数据进行数据清洗,得到清洗流数据,包括:
18.删除所述流数据中的异常数据,得到初始流数据;
19.删除所述初始流数据中的重复数据,得到清洗流数据。
20.可选地,所述按照预设的数据维度表将所述过滤流数据中具有相同维度信息的数据进行关联,得到关联数据,包括:
21.获取所述数据维度表中的主键维度及过滤流数据中的流主键维度;
22.在所述主键维度与流主键维度相同时,将所述过滤流数据中具有相同维度信息的数据与所述数据维度表进行关联,得到关联数据。
23.可选地,所述实时监控所述数据维度表中的维度信息是否发生变化,包括:
24.将所述数据维度表中的维度信息拆分为多个节点,通过预设的心跳机制设置监控接口;
25.判断每个所述节点是否在预设时间内通过所述监控接口发出回复;
26.若所述节点没有在预设时间内通过所述监控接口发出回复,则所述维度信息未发生变化;
27.若所述节点在预设时间内通过所述监控接口发出回复,则所述维度信息发生变化。
28.可选地,所述将所述流数据传输至预设的消息队列中,包括:
29.获取所述源数据库的数据接口及所述消息队列的消息中间件;
30.建立所述数据接口与所述消息中间件的传输链路,通过所述传输链路将所述流数据传输至所述消息队列中。
31.可选地,所述获取所述数据维度表中的维度变化信息之后,还包括:
32.利用flink框架同步所述数据维度表,以实时同步获取所述数据维度表中的维度变化信息,并将所述维度变化信息存储至预设的项目维度数据库中。
33.为了解决上述问题,本发明还提供一种流数据分析装置,所述装置包括:
34.流数据实时获取模块,用于实时从预设的源数据库中获取流数据,并将所述流数据传输至预设的消息队列中;
35.流数据过滤模块,用于利用预设的消息过滤器对所述消息队列中的流数据进行过滤,得到过滤流数据;
36.流数据关联模块,用于按照预设的数据维度表将所述过滤流数据中具有相同维度信息的数据进行关联,得到关联数据;
37.维度信息实时监控模块,用于实时监控所述数据维度表中的维度信息是否发生变化;
38.关联数据分析模块,用于在所述数据维度表中的维度信息未发生变化时,利用预设的流处理框架将所述关联数据进行分析;在所述数据维度表中的维度信息发生变化时,获取所述数据维度表中的维度变化信息,并根据所述维度变化信息,对所述关联数据进行更新,利用所述流处理框架将更新后的所述关联数据进行分析。
39.为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
40.存储器,存储至少一个计算机程序;及
41.处理器,执行所述存储器中存储的计算机程序以实现上述所述的流数据分析方法。
42.为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的流数据分析方法。
43.本发明实施例中,首先通过实时从预设的源数据库中获取流数据,并将所述流数据传输至预设的消息队列中,可以对流数据进行标准化,避免流数据格式杂乱不一的问题,并实现对流数据的异步处理,起到流数据在高峰期时的削峰作用;其次,本发明实施例通过利用预设的消息过滤器对所述消息队列中的流数据进行过滤,得到过滤流数据,可以筛选出需要的流数据,从而简化流数据在过滤时出现的逻辑和重复性的工作,并提高后续流数据进行数据分析的效率,进一步地,本发明实施例通过按照预设的数据维度表将所述过滤流数据中具有相同维度信息的数据进行关联,得到关联数据,可以将流数据所需的维度信息补全,提高后续流数据分析的准确率,并通过实时监控所述数据维度表中的维度信息是否发生变化,可以避免由于维度信息变化的时间不规律,而出现维度信息发生变化但是没有及时更新的情况,在所述数据维度表中的维度信息未发生变化时,利用预设的流处理框架将所述关联数据进行分析,及在所述数据维度表中的维度信息发生变化时,获取所述数据维度表中的维度变化信息,并根据所述维度变化信息,对所述关联数据进行更新,利用所述流处理框架将更新后的所述关联数据进行分析,可以避免在实际流数据处理过程中维度数据无法准确关联,造成维度数据缺失的情况,提高流数据分析的准确率。因此本发明实施例提出的流数据分析方法、装置、电子设备及可存储介质可以提高流数据分析的准确率。
附图说明
44.图1为本发明一实施例提供的流数据分析方法的流程示意图;
45.图2为本发明一实施例提供的流数据分析装置的模块示意图;
46.图3为本发明一实施例提供的实现流数据分析方法的电子设备的内部结构示意图;
47.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
48.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
49.本发明实施例提供一种流数据分析方法。所述流数据分析方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。换言之,所述流数据分析方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
50.参照图1所示的本发明一实施例提供的流数据分析方法的流程示意图,在本发明实施例中,所述流数据分析方法包括:
51.s1、实时从预设的源数据库中获取流数据,并将所述流数据传输至预设的消息队列中。
52.本发明实施例中,所述源数据库是指用于存储和管理数据的数据库,如关系型数据库、非关系型数据库等,具体的所述关系型数据库包括mysql、oracle数据库等,所述非关系数据库包括图数据库、文档数据库等,所述流数据是指一组顺序、大量、快速的及连续到达的序列数据,其基于不同的业务场景产生,如在支付场景中,所述流数据包括支付信息,在物流场景中,所述流数据包括物流信息。
53.可选的,所述流数据可以通过数据查询语句获取,如sql语句,基于所述流数据的实时获取,可以便于后续进行数据实时的分析。进一步地,由于所述源数据库中的流数据存储于不同的系统之间,流数据格式杂乱不一,可以利用grok正则表达式基于流数据中字段转换为logevent格式实现流数据的统一格式。
54.进一步地,所述消息队列是指接收信息、存储信息及发出信息的通道,本发明实施例通过将所述流数据传输至预设的消息队列中,可以实现对流数据的异步处理,起到对流数据的缓冲及分发作用,将短时间内产生的大量的流数据存储在消息队列中,从而实现流数据的异步并行,起到流数据在高峰期时的削峰作用,并避免每个系统的都要向对应的消息队列传输数据造成源端数据的分散。
55.详细地,所述将所述流数据传输至预设的消息队列中,包括:
56.获取所述源数据库的数据接口及所述消息队列的消息中间件;建立所述数据接口与所述消息中间件的传输链路,通过所述传输链路将所述流数据传输至所述消息队列中。
57.较佳地,所述链接可以为tcp链接。
58.较佳地,所述预设消息中间件可以为kafka。
59.s2、利用预设的消息过滤器对所述消息队列中的流数据进行过滤,得到过滤流数据。
60.本发明实施例中,所述预设的消息过滤器是指将不需要的消息进行过滤的过滤器,其中,所述消息过滤器可以为mq消息过滤器。通过利用预设的消息过滤器对所述消息队列中的流数据进行过滤,可以筛选出需要的流数据,将不需要的流数据过滤掉,从而简化流数据在过滤时出现的逻辑和重复性的工作,提高数据处理的速度。
61.本发明实施例中,所述过滤流数据是指从所述流数据中筛选出需要的数据。
62.作为本发明的一个实施例,所述利用预设的消息过滤器对所述消息队列中的流数据进行过滤,得到过滤流数据,包括:
63.对所述流数据进行数据清洗,得到清洗流数据;配置所述清洗流数据的流数据标签以及所述消息过滤器的过滤标签,并判断所述流数据标签与所述过滤标签是否一致;若所述流数据标签与所述过滤标签不一致,将所述流数据进行过滤,得到过滤流数据;若所述流数据标签与所述过滤标签一致,将所述流数据作为过滤流数据。
64.进一步地,所述对所述流数据进行数据清洗,得到清洗流数据,包括:
65.删除所述流数据中的异常数据,得到初始流数据;删除所述初始流数据中的重复数据,得到清洗流数据。
66.基于所述流数据的数据清洗,可以清洗掉流数据中的重复数据及脏数据,以提高流数据的数据质量。
67.本发明一实施例中,所述流数据标签是一种对流数据中信息的进行统计的统计规则、过滤标签是一种对经过消息过滤器中信息进行统计给统计规则,所述清洗流数据的流数据标签(tag)以及所述消息过滤器的过滤标签(tag)通过预设编码配置。
68.例如,在电商交易中,所述清洗流数据包括订单消息(tag1)、支付消息(tag2)及物流消息(tag3)这些消息会被不同系统订阅,如在支付系统中只需订阅支付消息,则过滤标签为(tag1);在物流系统只需订阅物流消息,则过滤标签为(tag3);在交易成功率分析系统中需订单消息和支付消息,则过滤标签为(tag1&tag2);在实时计算系统中需要订阅所有和交易相关的消息,则过滤标签为(tag1&tag2&tag3)等。
69.s3、按照预设的数据维度表将所述过滤流数据中具有相同维度信息的数据进行关联,得到关联数据。
70.本发明实施例中,所述关联数据是指数据维度表中与过滤流数据中相关联的数据。由于过滤流数据中的信息比较有限,为了便于后续的数据分析需要将过滤流数据所需的维度信息补全,因此,本发明实施例按照预设的数据维度表将所述过滤流数据中具有相同维度信息的数据进行关联,得到关联数据,比如流数据中只记录了商品id,需要根据记录的商品id与对应的商品类目与物流信息进行关联,且商品类目与物流信息都为数据维度中的维度信息,按照预设的数据维度表将所述过滤流数据中具有相同维度信息的数据进行关联,可以补齐商品及商品种类等信息,便于后续进行数据分析。
71.本发明实施例中,所述数据维度表是指包含维度信息的数据表,一般存储全量的静态信息,例如,电商交易中的用户id、购买的商品id、物流信息都为数据维度表中不同的维度信息。
72.作为本发明的一个实施例,所述按照预设的数据维度表将所述过滤流数据中具有相同维度信息的数据进行关联,得到关联数据,包括:
73.获取所述数据维度表中的主键维度及过滤流数据中的流主键维度;在所述主键维度与流主键维度相同时,将所述过滤流数据中具有相同维度信息的数据与所述数据维度表进行关联,得到关联数据。
74.其中,所述主键维度是指对数据维度表中每一行的数据进行唯一标识的字段维度;所述流主键维度是指岁过滤流数据中进行唯一标识的字段维度;例如,预设的数据维度表包括用户id、该用户id相关的购买物品id、商品名称及物流信息,则主键维度则为用户id。
75.具体地,本发明实施例按照预设的数据维度表将过滤流数据与该用户id相关的购买物品id、商品名称及物流信息作为相同维度信息进行关联,得到数据维度表-过滤流数据的关联数据。
76.s4、实时监控所述数据维度表中的维度信息是否发生变化。
77.本发明实施例中,在实时获取流数据的过程中,是将当前的实时数据去关联数据维度表的维度信息,所以数据维度表也具有实时性,通过实时监控所述数据维度表中的维度信息是否发生变化可以避免由于维度信息变化的时间不规律,而出现维度信息发生变化但是没有及时更新的情况,且避免由于流数据与数据维度表的同步关联往往是通过全量覆盖的方式进行,在流数据关联过程中往往会有一小段时间对应的数据维度表不存在的情况,进而避免由于流数据的实时流入比较频繁的时候出现维度信息相关字段为空值的情
况。
78.作为本发明的一个实施例,所述实时监控所述数据维度表中的维度信息是否发生变化,包括:
79.将所述数据维度表中的维度信息拆分为多个节点,通过预设的心跳机制设置监控接口;判断每个所述节点是否在预设时间内通过所述监控接口发出回复;若所述节点没有在预设时间内通过所述监控接口发出回复,则所述维度信息未发生变化;若所述节点在预设时间内通过所述监控接口发出回复,则所述维度信息发生变化。
80.本发明一可选实施例中,所述心跳机制是指通过节点每隔一定时间向接口发送信息以判断节点是否存活,因其按照一定时间隔发送,类似于心跳,故被称为心跳机制,通过心跳机制可以确实能够维度信息是否发生变化,其中,所述预设的心跳机制可以通过预设的socket编程实现。
81.具体地,本发明实施例中,每个节点会以每秒一次的频率对接口发出回复,若在预设的时间5s之内节点未发出回复,则维度信息未变化;若在预设的时间5s之内节点发出回复,则所述维度信息发生变化。
82.在所述数据维度表中的维度信息未发生变化时,执行s5、利用预设的流处理框架将所述关联数据进行分析。
83.在所述数据维度表中的维度信息未发生变化时,表示关联数据未变化,因此,本发明实施例通过利用预设的流处理框架将所述关联数据进行分析,可以将关联数据进行缓存,保证数据维度表中一直存在数据,避免当实时流数据流入比较频繁的时候会出现维度信息为空值的情况,其中,所述数据分析是指对关联数据进行etl后,存储至数据仓库中,其中,etl包括抽取(extract)、转换(transform)、加载(load),所述预设的流处理框架是指flink框架,且flink框架是由apache软件基金会开发的开源流处理框架,其核心是用java和scala编写的分布式流数据流引擎,可以以数据并行和流水线方式执行任意流数据的程序,实现数据批处理和数据流处理。
84.在所述数据维度表中的维度信息发生变化时,执行s6、获取所述数据维度表中的维度变化信息,并根据所述维度变化信息,对所述关联数据进行更新,利用所述流处理框架将更新后的所述关联数据进行分析。
85.在所述数据维度表中的维度信息发生变化时,表示关联数据发生了变化,因此,本发明实施例通过获取所述数据维度表中的维度变化信息,并根据所述维度变化信息,对所述关联数据进行更新,实现关联数据的实时更新,便于后续进行关联数据的实时分析,其中,所述维度变化信息是指实时变化的数据维度表中的信息,例如,维度信息为用户id、购买物品、物流信息,维度变化信息是指用户id对应的购买物品发生了变化及对应的变化物流信息。
86.本发明实施例中,所述获取所述数据维度表中的维度变化信息之后,还包括:
87.利用flink框架同步所述数据维度表,以实时同步获取所述数据维度表中的维度变化信息,并将所述维度变化信息存储至预设的项目维度数据库中。
88.其中,将所述维度变化信息存储至预设的项目维度数据库中可以在后续进行关联数据时,避免对源数据库的入侵。
89.本发明实施例中,可以根据所述维度变化信息,利用预设的map算子将所述过滤流
数据中具有相同维度变化信息的数据进行重关联,实现对所述关联数据进行更新。
90.本发明实施例中,所述利用所述流处理框架将更新后的所述关联数据进行分析的方法与s5中所述利用预设的流处理框架将所述关联数据进行分析一致,此处不再赘述。
91.本发明实施例中,首先通过实时从预设的源数据库中获取流数据,并将所述流数据传输至预设的消息队列中,可以对流数据进行标准化,避免流数据格式杂乱不一的问题,并实现对流数据的异步处理,起到流数据在高峰期时的削峰作用;其次,本发明实施例通过利用预设的消息过滤器对所述消息队列中的流数据进行过滤,得到过滤流数据,可以筛选出需要的流数据,从而简化流数据在过滤时出现的逻辑和重复性的工作,并提高后续流数据进行数据分析的效率,进一步地,本发明实施例通过按照预设的数据维度表将所述过滤流数据中具有相同维度信息的数据进行关联,得到关联数据,可以将流数据所需的维度信息补全,提高后续流数据分析的准确率,并通过实时监控所述数据维度表中的维度信息是否发生变化,可以避免由于维度信息变化的时间不规律,而出现维度信息发生变化但是没有及时更新的情况,在所述数据维度表中的维度信息未发生变化时,利用预设的流处理框架将所述关联数据进行分析,及在所述数据维度表中的维度信息发生变化时,获取所述数据维度表中的维度变化信息,并根据所述维度变化信息,对所述关联数据进行更新,利用所述流处理框架将更新后的所述关联数据进行分析,可以避免在实际流数据处理过程中维度数据无法准确关联,造成维度数据缺失的情况,提高流数据分析的准确率。因此本发明实施例提出的流数据分析方法可以提高流数据分析的准确率。
92.如图2所示,是本发明流数据分析装置的功能模块图。
93.本发明所述流数据分析装置100可以安装于电子设备中。根据实现的功能,所述流数据分析装置可以包括流数据实时获取模块101、流数据过滤模块102、流数据关联模块103、维度信息实时监控模块104、关联数据分析模块105,本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
94.在本实施例中,关于各模块/单元的功能如下:
95.所述流数据实时获取模块101,用于实时从预设的源数据库中获取流数据,并将所述流数据传输至预设的消息队列中。
96.本发明实施例中,所述源数据库是指用于存储和管理数据的数据库,如关系型数据库、非关系型数据库等,具体的所述关系型数据库包括mysql、oracle数据库等,所述非关系数据库包括图数据库、文档数据库等,所述流数据是指一组顺序、大量、快速的及连续到达的序列数据,其基于不同的业务场景产生,如在支付场景中,所述流数据包括支付信息,在物流场景中,所述流数据包括物流信息。
97.可选的,所述流数据可以通过数据查询语句获取,如sql语句,基于所述流数据的实时获取,可以便于后续进行数据实时的分析。进一步地,由于所述源数据库中的流数据存储于不同的系统之间,流数据格式杂乱不一,可以利用grok正则表达式基于流数据中字段转换为logevent格式实现流数据的统一格式。
98.进一步地,所述消息队列是指接收信息、存储信息及发出信息的通道,本发明实施例通过将所述流数据传输至预设的消息队列中,可以实现对流数据的异步处理,起到对流数据的缓冲及分发作用,将短时间内产生的大量的流数据存储在消息队列中,从而实现流
数据的异步并行,起到流数据在高峰期时的削峰作用,并避免每个系统的都要向对应的消息队列传输数据造成源端数据的分散。
99.详细地,所述流数据实时获取模块101通过执行下述操作将所述流数据传输至预设的消息队列中,包括:
100.获取所述源数据库的数据接口及所述消息队列的消息中间件;
101.建立所述数据接口与所述消息中间件的传输链路,通过所述传输链路将所述流数据传输至所述消息队列中。
102.较佳地,所述链接可以为tcp链接。
103.较佳地,所述预设消息中间件可以为kafka。
104.所述流数据过滤模块102,用于利用预设的消息过滤器对所述消息队列中的流数据进行过滤,得到过滤流数据。
105.本发明实施例中,所述预设的消息过滤器是指将不需要的消息进行过滤的过滤器,其中,所述消息过滤器可以为mq消息过滤器。通过利用预设的消息过滤器对所述消息队列中的流数据进行过滤,可以筛选出需要的流数据,将不需要的流数据过滤掉,从而简化流数据在过滤时出现的逻辑和重复性的工作,提高数据处理的速度。
106.本发明实施例中,所述过滤流数据是指从所述流数据中筛选出需要的数据。
107.作为本发明的一个实施例,所述流数据过滤模块102通过执行下述操作利用预设的消息过滤器对所述消息队列中的流数据进行过滤,得到过滤流数据,包括:
108.对所述流数据进行数据清洗,得到清洗流数据;
109.配置所述清洗流数据的流数据标签以及所述消息过滤器的过滤标签,并判断所述流数据标签与所述过滤标签是否一致;
110.若所述流数据标签与所述过滤标签不一致,将所述流数据进行过滤,得到过滤流数据;
111.若所述流数据标签与所述过滤标签一致,将所述流数据作为过滤流数据。
112.进一步地,所述对所述流数据进行数据清洗,得到清洗流数据,包括:
113.删除所述流数据中的异常数据,得到初始流数据;删除所述初始流数据中的重复数据,得到清洗流数据。
114.基于所述流数据的数据清洗,可以清洗掉流数据中的重复数据及脏数据,以提高流数据的数据质量。
115.本发明一实施例中,所述流数据标签是一种对流数据中信息的进行统计的统计规则、过滤标签是一种对经过消息过滤器中信息进行统计给统计规则,所述清洗流数据的流数据标签(tag)以及所述消息过滤器的过滤标签(tag)通过预设编码配置。
116.例如,在电商交易中,所述清洗流数据包括订单消息(tag1)、支付消息(tag2)及物流消息(tag3)这些消息会被不同系统订阅,如在支付系统中只需订阅支付消息,则过滤标签为(tag1);在物流系统只需订阅物流消息,则过滤标签为(tag3);在交易成功率分析系统中需订单消息和支付消息,则过滤标签为(tag1&tag2);在实时计算系统中需要订阅所有和交易相关的消息,则过滤标签为(tag1&tag2&tag3)等。
117.所述流数据关联模块103,用于按照预设的数据维度表将所述过滤流数据中具有相同维度信息的数据进行关联,得到关联数据。
118.本发明实施例中,所述关联数据是指数据维度表中与过滤流数据中相关联的数据。由于过滤流数据中的信息比较有限,为了便于后续的数据分析需要将过滤流数据所需的维度信息补全,因此,本发明实施例按照预设的数据维度表将所述过滤流数据中具有相同维度信息的数据进行关联,得到关联数据,比如流数据中只记录了商品id,需要根据记录的商品id与对应的商品类目与物流信息进行关联,且商品类目与物流信息都为数据维度中的维度信息,按照预设的数据维度表将所述过滤流数据中具有相同维度信息的数据进行关联,可以补齐商品及商品种类等信息,便于后续进行数据分析。
119.本发明实施例中,所述数据维度表是指包含维度信息的数据表,一般存储全量的静态信息,例如,电商交易中的用户id、购买的商品id、物流信息都为数据维度表中不同的维度信息。
120.作为本发明的一个实施例,所述流数据关联模块103通过执行下述操作按照预设的数据维度表将所述过滤流数据中具有相同维度信息的数据进行关联,得到关联数据,包括:
121.获取所述数据维度表中的主键维度及过滤流数据中的流主键维度;
122.在所述主键维度与流主键维度相同时,将所述过滤流数据中具有相同维度信息的数据与所述数据维度表进行关联,得到关联数据。
123.其中,所述主键维度是指对数据维度表中每一行的数据进行唯一标识的字段维度;所述流主键维度是指岁过滤流数据中进行唯一标识的字段维度;例如,预设的数据维度表包括用户id、该用户id相关的购买物品id、商品名称及物流信息,则主键维度则为用户id。
124.具体地,本发明实施例按照预设的数据维度表将过滤流数据与该用户id相关的购买物品id、商品名称及物流信息作为相同维度信息进行关联,得到数据维度表-过滤流数据的关联数据。
125.所述维度信息实时监控模块104,用于实时监控所述数据维度表中的维度信息是否发生变化。
126.本发明实施例中,在实时获取流数据的过程中,是将当前的实时数据去关联数据维度表的维度信息,所以数据维度表也具有实时性,通过实时监控所述数据维度表中的维度信息是否发生变化可以避免由于维度信息变化的时间不规律,而出现维度信息发生变化但是没有及时更新的情况,且避免由于流数据与数据维度表的同步关联往往是通过全量覆盖的方式进行,在流数据关联过程中往往会有一小段时间对应的数据维度表不存在的情况,进而避免由于流数据的实时流入比较频繁的时候出现维度信息相关字段为空值的情况。
127.作为本发明的一个实施例,所述维度信息实时监控模块104通过执行下述操作实时监控所述数据维度表中的维度信息是否发生变化,包括:
128.将所述数据维度表中的维度信息拆分为多个节点,通过预设的心跳机制设置监控接口;判断每个所述节点是否在预设时间内通过所述监控接口发出回复;若所述节点没有在预设时间内通过所述监控接口发出回复,则所述维度信息未发生变化;若所述节点在预设时间内通过所述监控接口发出回复,则所述维度信息发生变化。
129.本发明一可选实施例中,所述心跳机制是指通过节点每隔一定时间向接口发送信
息以判断节点是否存活,因其按照一定时间隔发送,类似于心跳,故被称为心跳机制,通过心跳机制可以确实能够维度信息是否发生变化,其中,所述预设的心跳机制可以通过预设的socket编程实现。
130.具体地,本发明实施例中,每个节点会以每秒一次的频率对接口发出回复,若在预设的时间5s之内节点未发出回复,则维度信息未变化;若在预设的时间5s之内节点发出回复,则所述维度信息发生变化。
131.所述关联数据分析模块105,用于在所述数据维度表中的维度信息未发生变化时,利用预设的流处理框架将所述关联数据进行分析;在所述数据维度表中的维度信息发生变化时,获取所述数据维度表中的维度变化信息,并根据所述维度变化信息,对所述关联数据进行更新,利用所述流处理框架将更新后的所述关联数据进行分析。
132.在所述数据维度表中的维度信息未发生变化时,表示关联数据未变化,因此,本发明实施例通过利用预设的流处理框架将所述关联数据进行分析,可以将关联数据进行缓存,保证数据维度表中一直存在数据,避免当实时流数据流入比较频繁的时候会出现维度信息为空值的情况,其中,所述数据分析是指对关联数据进行etl后,存储至数据仓库中,其中,etl包括抽取(extract)、转换(transform)、加载(load),所述预设的流处理框架是指flink框架,且flink框架是由apache软件基金会开发的开源流处理框架,其核心是用java和scala编写的分布式流数据流引擎,可以以数据并行和流水线方式执行任意流数据的程序,实现数据批处理和数据流处理。
133.在所述数据维度表中的维度信息发生变化时,表示关联数据发生了变化,因此,本发明实施例通过获取所述数据维度表中的维度变化信息,并根据所述维度变化信息,对所述关联数据进行更新,实现关联数据的实时更新,便于后续进行关联数据的实时分析,其中,所述维度变化信息是指实时变化的数据维度表中的信息,例如,维度信息为用户id、购买物品、物流信息,维度变化信息是指用户id对应的购买物品发生了变化及对应的变化物流信息。
134.所述关联数据分析模块105还可用于:
135.所述获取所述数据维度表中的维度变化信息之后,利用flink框架同步所述数据维度表,以实时同步获取所述数据维度表中的维度变化信息,并将所述维度变化信息存储至预设的项目维度数据库中。
136.其中,将所述维度变化信息存储至预设的项目维度数据库中可以在后续进行关联数据时,避免对源数据库的入侵。
137.本发明实施例中,可以根据所述维度变化信息,利用预设的map算子将所述过滤流数据中具有相同维度变化信息的数据进行重关联,实现对所述关联数据进行更新。
138.本发明实施例中,所述利用所述流处理框架将更新后的所述关联数据进行分析的方法与所述利用预设的流处理框架将所述关联数据进行分析一致,此处不再赘述。
139.本发明实施例中,首先通过实时从预设的源数据库中获取流数据,并将所述流数据传输至预设的消息队列中,可以对流数据进行标准化,避免流数据格式杂乱不一的问题,并实现对流数据的异步处理,起到流数据在高峰期时的削峰作用;其次,本发明实施例通过利用预设的消息过滤器对所述消息队列中的流数据进行过滤,得到过滤流数据,可以筛选出需要的流数据,从而简化流数据在过滤时出现的逻辑和重复性的工作,并提高后续流数
据进行数据分析的效率,进一步地,本发明实施例通过按照预设的数据维度表将所述过滤流数据中具有相同维度信息的数据进行关联,得到关联数据,可以将流数据所需的维度信息补全,提高后续流数据分析的准确率,并通过实时监控所述数据维度表中的维度信息是否发生变化,可以避免由于维度信息变化的时间不规律,而出现维度信息发生变化但是没有及时更新的情况,在所述数据维度表中的维度信息未发生变化时,利用预设的流处理框架将所述关联数据进行分析,及在所述数据维度表中的维度信息发生变化时,获取所述数据维度表中的维度变化信息,并根据所述维度变化信息,对所述关联数据进行更新,利用所述流处理框架将更新后的所述关联数据进行分析,可以避免在实际流数据处理过程中维度数据无法准确关联,造成维度数据缺失的情况,提高流数据分析的准确率。因此本发明实施例提出的流数据分析装置可以提高流数据分析的准确率。
140.如图3所示,是本发明实现流数据分析方法的电子设备的结构示意图。
141.所述电子设备可以包括处理器10、存储器11、通信总线12和通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如流数据分析程序。
142.其中,所述存储器11至少包括一种类型的介质,所述介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、本地磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如流数据分析程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
143.所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如流数据分析程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
144.所述通信总线12可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述通信总线12总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
145.图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
146.例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的
直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
147.可选地,所述通信接口13可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
148.可选地,所述通信接口13还可以包括用户接口,用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
149.应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
150.所述电子设备中的所述存储器11存储的流数据分析程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
151.实时从预设的源数据库中获取流数据,并将所述流数据传输至预设的消息队列中;
152.利用预设的消息过滤器对所述消息队列中的流数据进行过滤,得到过滤流数据;
153.按照预设的数据维度表将所述过滤流数据中具有相同维度信息的数据进行关联,得到关联数据;
154.实时监控所述数据维度表中的维度信息是否发生变化;
155.在所述数据维度表中的维度信息未发生变化时,利用预设的流处理框架将所述关联数据进行分析;
156.在所述数据维度表中的维度信息发生变化时,获取所述数据维度表中的维度变化信息,并根据所述维度变化信息,对所述关联数据进行更新,利用所述流处理框架将更新后的所述关联数据进行分析。
157.具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
158.进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取介质中。所述计算机可读介质可以是非易失性的,也可以是易失性的。所述计算机可读介质可以包括:能够携待所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
159.本发明实施例还可以提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
160.实时从预设的源数据库中获取流数据,并将所述流数据传输至预设的消息队列中;
161.利用预设的消息过滤器对所述消息队列中的流数据进行过滤,得到过滤流数据;
162.按照预设的数据维度表将所述过滤流数据中具有相同维度信息的数据进行关联,得到关联数据;
163.实时监控所述数据维度表中的维度信息是否发生变化;
164.在所述数据维度表中的维度信息未发生变化时,利用预设的流处理框架将所述关联数据进行分析;
165.在所述数据维度表中的维度信息发生变化时,获取所述数据维度表中的维度变化信息,并根据所述维度变化信息,对所述关联数据进行更新,利用所述流处理框架将更新后的所述关联数据进行分析。
166.进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
167.在本发明所提供的几个实施例中,应该理解到,所揭露的介质、设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
168.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
169.另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
170.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
171.因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
172.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
173.此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
174.最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1