一种基于数据湖的时序数据分析方法及装置与流程

文档序号:33636869发布日期:2023-03-29 00:53阅读:52来源:国知局
一种基于数据湖的时序数据分析方法及装置与流程

1.本技术涉及数据分析领域,尤其涉及一种基于数据湖的时序数据分析方法及装置。


背景技术:

2.随着物联网技术的发展和存储成本的降低和数据人才队伍的壮大,企业在数字化转型过程中,越来越青睐于将原数据平台从传统集中式数据仓库架构转为更加开放式数据湖架构,在这过程中,数据的越来越多样化为企业数据治理工作带来巨大的压力,而其中相当大一部分又来自物联网设备的时序类型数据。
3.目前基于时序数据的分析都是针对性的定制开发,例如针对股票交易的实时图分析,就只能用于分析股票交易;而定制开发过程往往要经历完整的项目开发生命周期,严重阻碍了企业的数字化转型的进展。而且时序数据分析一般都需依赖有经验的专业人士进行分析,导致普通用户分析时序数据的难度较大。


技术实现要素:

4.为了解决上述技术问题或者至少部分地解决上述技术问题,本技术提供了一种基于数据湖的时序数据分析方法及装置。
5.根据本技术实施例的一个方面,提供了一种基于数据湖的时序数据分析方法,包括:获取待分析的目标数据集合,其中,所述目标数据集合是从数据湖中获取的;利用预设函数对所述目标数据集合中的数据进行转化,得到所述目标数据集合对应的时序数据;基于所述时序数据生成相应的可视化数据,并按照预设分析条件对所述可视化数据进行分析,得到所述时序数据对应的数据规律。
6.进一步的,所述获取待分析的目标数据集合,包括:获取当前输入的元数据信息,其中,所述元数据信息包括至少一个数据描述信息;从所述数据湖中查询与所述数据描述信息相匹配的原始数据集合;获取数据分析条件,并利用所述原始数据集合中满足所述数据分析条件的原始数据,构建所述目标数据集合。
7.进一步的,所述数据分析条件至少包括过滤条件以及采样条件;所述利用所述原始数据集合中满足所述数据分析条件的原始数据,构建所述目标数据集合,包括:将所述原始数据集合中满足所述过滤条件的原始数据确定为候选数据;按照所述采样条件所指示的颗粒度对所述候选数据进行取样,得到目标数据;基于所述目标数据构建所述目标数据集合。
8.进一步的,所述基于所述时序数据生成相应的可视化数据,包括:
获取所述目标数据集合对应的属性信息,并查询所述属性信息对应的至少一种可视化类型;从至少一种可视化类型中获取与预设可视化需求相匹配的目标可视化类型;将所述时序数据按照所述目标可视化类型生成所述可视化数据。
9.进一步的,所述按照预设分析条件对所述可视化数据进行分析,得到所述时序数据对应的数据规律,包括:检测所述可视化数据是否平稳,得到检测结果;获取所述检测结果对应的分析策略,并利用所述分析策略对所述可视化数据进行分析,得到所述数据规律。
10.进一步的,所述利用所述分析策略对所述可视化数据进行分析,得到所述数据规律,包括:在所述检测结果为第一结果的情况下,检测所述可视化数据是否存在白噪声数据,其中,所述第一结果用于表示所述可视化数据平稳;在所述可视化数据存在白噪声数据的情况下,检测所述可视化数据对应的平稳类型;将所述平稳类型确定为所述数据规律。
11.进一步的,所述利用所述分析策略对所述可视化数据进行分析,得到所述数据规律,包括:在所述检测结果为第二结果的情况下,基于所述可视化数据执行差分运算,得到运算结果,其中,所述第二结果用于表示所述可视化数据平稳;按照预设维度检测所述运算结果,得到每个预设维度对应的趋势信息,其中,所述预设维度包括:线性维度、曲线维度以及周期维度;将所述预设维度对应的趋势信息确定为所述数据规律。
12.根据本技术实施例的再一个方面,还提供了一种基于数据湖的时序数据分析装置,包括:获取模块,用于获取待分析的目标数据集合,其中,所述目标数据集合是从数据湖中获取的;转化模块,用于利用预设函数对所述目标数据集合中的数据进行转化,得到所述目标数据集合对应的时序数据;生成模块,用于基于所述时序数据生成相应的可视化数据,并按照预设分析条件对所述可视化数据进行分析,得到所述时序数据对应的数据规律。
13.根据本技术实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
14.根据本技术实施例的另一方面,还提供了一种电子装置,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
15.本技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。
16.本技术实施例提供的上述技术方案与现有技术相比具有如下优点:本技术实施例提供的方法通过自动将目标数据集合转换成时序数据,用户可直接配置相应的分析条件,利用分析条件对时序数据进行分析,从而归纳提炼出时序数据的规律,以此实现了根据用户的需求进行数据分析,无需凭借专业的分析人员进行分析,降低了普通用户数据分析的难度。
附图说明
17.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
18.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1为本技术实施例提供的一种基于数据湖的时序数据分析方法的流程图;图2为本技术实施例提供的一种元数据信息的示意图;图3为本技术实施例提供的一种处理时序数据的示意图;图4为本技术实施例提供的一种基于数据湖的时序数据分析装置的框图;图5为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
20.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
21.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个类似的实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
22.本技术实施例提供了一种基于数据湖的时序数据分析方法及装置。本发明实施例所提供的方法可以应用于任意需要的电子设备,例如,可以为服务器、终端等电子设备,在此不做具体限定,为描述方便,后续简称为电子设备。
23.根据本技术实施例的一方面,提供了一种基于数据湖的时序数据分析方法的方法实施例。图1为本技术实施例提供的一种基于数据湖的时序数据分析方法的流程图,如图1所示,该方法包括:步骤s11,获取待分析的目标数据集合,其中,目标数据集合是从数据湖中获取的。
24.本技术实施例提供的方法应用于数据处理设备,数据处理设备可以是智能手机、
电脑以及ipad等等。数据处理设备用于接收用户的数据分析请求,根据数据分析请求选择相应的原始数据生成时序数据,并分析该时序数据的数据规律。
25.具体的,获取待分析的目标数据集合,包括以下步骤a1-a3:步骤a1,获取当前输入的元数据信息,其中,元数据信息包括至少一个数据描述信息。
26.在本技术实施例中,数据处理设备可以接收用户触发的数据分析请求,例如:用户基于点击显示界面的分析按钮,数据处理设备基于该数据分析请求显示相应的输入界面,获取用户基于输入界面输入的元数据信息。如图2所示,元数据信息中包括的数据描述信息可以是:名称,数据源,时序表以及字表等等,其中,名称可以是业务名称,数据源可以是数据库。
27.步骤a2,从数据湖中查询与数据描述信息相匹配的原始数据集合。
28.在本技术实施例中,利用元数据查询信息查询原始数据集合的过程是:首先从数据湖中确定数据源,并从数据源中获取该业务名称对应的时序表。其次查询该时序表是否存在多个子表,如果存在多个子表,则获取筛选条件,筛选条件为是否使用全部子表中的数据作为原始数据集合。最终根据筛选条件从时序表中选择相应的子表,并利用该子表中的数据构建原始数据集合。
29.步骤a3,获取数据分析条件,并利用原始数据集合中满足数据分析条件的原始数据,构建目标数据集合。
30.在本技术实施例中,数据分析条件至少包括过滤条件以及采样条件。数据分析条件可以是用户基于数据处理设备预先设置的。
31.在本技术实施例中,步骤a3,利用原始数据集合中满足数据分析条件的原始数据,构建目标数据集合,包括以下步骤b1-b3:步骤b1,将原始数据集合中满足过滤条件的原始数据确定为候选数据。
32.在本技术实施例中,过滤条件包括数据过滤类别、时间过滤范围、标签过滤数据等等。数据过滤类别可以包括一个数据类别,时间过滤范围可以包括一个开始时间和一个结束时间,标签过滤数据可以指示要获取的一个或多个设备标签所在的表项,即标签用于表明监测对象的属性信息。比如一个数据采集端的生厂日期、生产厂商、型号等,它往往不随着时间的变化而变化。一个标签由标签id和标签值组成,标签id也可称为标签名称。
33.步骤b2,按照采样条件所指示的颗粒度对候选数据进行取样,得到目标数据;步骤b3,基于目标数据构建所述目标数据集合。
34.在本技术实施例中,采样条件包括:采样时间范围,采样颗粒度以及采样周期,其中,采样颗粒度可以表示为数据之间的时间粒度。例如:采样时间范围为8:00—20:00,采样周期为1小时,采样颗粒度为10分钟。基于此,在采样过程中,首先从候选数据中获取落入采样时间范围内的候选数据,其次,对落入采样范围内的候选数据按照采样周期划分,得到多个区间数据,最终从区间数据中按照采样颗粒度采集目标数据。最终基于每个区间数据内的目标数据构建目标数据集合。
35.步骤s12,利用预设函数对目标数据集合中的数据进行转化,得到目标数据集合对应的时序数据。
36.在本技术实施例中,用户可以基于数据处理设备设置用于转化时序数据的预设函
数,然后利用预设函数对目标数据集合中每个目标数据进行转换,得到目标数据集合对应的时序数据。
37.在本技术实施例中,在得到时序数据之后还需要判断时序数据是否满足用户当前的分析条件,分析条件包括:用户对时序数据要求的颗粒度,降采样算法等等。具体的,首先确定时序数据的颗粒度,例如:时序数据之间的时间间隔为10min,用户要求的颗粒度为30min,此时时序数据的颗粒度小于用于所指示的颗粒度,则需要对时序数据进行降采样操作,得到目标数据。另外,如图3所示,如果在降采样操作中出现数据缺失的情况,用户可以基于数据处理设备设置缺失数据。最终通过对候选数据进行降采样得到的数据以及设置的缺失数据得到最终的时序数据。
38.需要说明的是,时序数据是在时间上基于一定频率持续产生的一系列监测指标的数据。比如每隔1 分钟采集一次监测对象的温度、功率值等,进而产生的一系列数据。如股票价格、气温变化、网站的浏览访问数据、个人健康数据、工业传感器数据、业务服务器的系统监控数据等都可以是时序数据。降采样是针对一个时间序列在时间维度上对一个监测指标的多个监测数据的采样,例如,一个小时内传感器采集的60个温度的平均值、最大值等。
39.步骤s13,基于时序数据生成相应的可视化数据,并按照预设分析条件对可视化数据进行分析,得到时序数据对应的数据规律。
40.在本技术实施例中,基于时序数据生成相应的可视化数据,包括以下步骤c1-c3:步骤c1,获取目标数据集合对应的属性信息,并查询属性信息对应的至少一种可视化类型。
41.步骤c2,从至少一种可视化类型中获取与预设可视化需求相匹配的目标可视化类型。
42.步骤c3,将时序数据按照目标可视化类型生成可视化数据。
43.在本技术实施例中,为了便于用户更直观的了解时序数据的变化情况,针对不同的属性信息设置了不同的可视化类型,例如:目标数据的属性信息为层级结构的数据(例如:不同产品类别的销售数据)的情况下,可视化类型为簇状柱形图,条形图等等。目标数据的属性信息为常规数值(例如:网站浏览数据)的情况下,可视化类型可以是簇状柱形图或者折线图等等。
44.在本技术实施例中,数据处理设备将获取到的目标数据集合对应属性信息的可视化类型进行显示,同时还可以获取用户输入的预设可视化需求,例如:预设可视化需求可以是数量增减变化,数据的对比情况等等。在预设可视化需求是数据增减变化的情况下,与该数据增减变化相匹配的目标可视化类型为折线图。或者在预设可视化需求为分类对比的情况下,与该分类对比相匹配的目标可视化类型为簇状柱形图。
45.在本技术实施例中,按照预设分析条件对可视化数据进行分析,得到时序数据对应的数据规律,包括以下步骤d1-d2:步骤d1,检测可视化数据是否平稳,得到检测结果。
46.在本技术实施例中,检测可视化数据是否平稳的过程如下:从可视化数据中随机抽取两个任意数据p和q,利用以下公式判断可视化数据是否平稳,,式中,x为随机变量,t为时刻。将p
和q输入上述公式,如果上述公式成立,则说明可视化数据平稳,此时检测结果为第一结果。相反,如果上述公式不成立,则说明可视化数据不平稳,此时检测结果为第二结果。
47.步骤d2,获取检测结果对应的分析策略,并利用分析策略对可视化数据进行分析,得到数据规律。
48.在本技术实施例中,利用分析策略对可视化数据进行分析,得到数据规律,包括:在检测结果为第一结果的情况下,检测可视化数据是否存在白噪声数据,其中,第一结果用于表示可视化数据平稳;在可视化数据存在白噪声数据的情况下,检测可视化数据对应的平稳类型,其中,平稳类型包括:严平稳以及宽平稳。最终,将平稳类型确定为数据规律。
49.需要要说明的是,严平稳是指:时间序列数据的均值、方差和自相关系数不随时间变化。宽平稳是指:时间序列数据的均值可以随时间变化,但是方差以及自相关系数不会随时间变化。本技术实施例提供的方法通过可视化区分严平稳和宽平稳,可以从曲线的形态上来看,严格平稳的曲线呈直线形态,而宽平稳的曲线则会有一些波动。
50.在本技术实施例中,利用分析策略对可视化数据进行分析,得到数据规律,包括:在检测结果为第二结果的情况下,基于可视化数据执行差分运算,得到运算结果,其中,第二结果用于表示可视化数据平稳。需要说明的是,差分运算是通过计算t时刻的数据减去t-1时刻的数据,以此来便于衡量t时刻数据相对于t-1时刻的变化情况。
51.其次,按照预设维度检测运算结果,得到每个预设维度对应的趋势信息,其中,预设维度包括:线性维度、曲线维度以及周期维度;将预设维度对应的趋势信息确定为数据规律。
52.在本技术实施例中,按照预设维度检测运算结果,得到每个预设维度对应的趋势信息的过程如下:首先,基于时序数据生成一个图表,其次,检测观察图标中曲线的变化趋势。例如:如果发现数据具有线性趋势,则可以通过直线来表征这一趋势。如果是周期性的话,则可以通过正弦波或者其他周期性的函数来表征这一趋势。最后,通过对图像上的数据点和所画出来的函数之间的差异和误差来评估识别出来的时序数据是否真正存在这样一个特定的趋势或者周期性。
53.在本技术实施例中,利用计算机对序列特征进行观察的方式,使用异步方式对时间序列进行自动标注。机器观察首先时间序列是否属于平稳或非平稳,对序列打上标签,平稳则继续检测是否白噪声,如是,则打上白噪声标签,同时检测是严平稳还是宽平稳,打上对应标签。如非平稳序列,执行差分运算,检测序列的线性趋势、曲线趋势、周期趋势,并打上对应标签。
54.作为一个示例,以智能电表电压采样值为例,普通家用电器电压值设定都是按照国家标准220v设计,但实际到电器端的电压未必能这么精确控制,会有上下起伏的范围,假设需要设计一个不同台区电压稳定度评估的分析模型,我们就需要先对已有的数据进行分析探索。那么我们首先要在数据湖中找到电压数据的存储位置。然后从其中抽样出几个不同地区的电表数据,进行对比。如果是原始数据可能是15分钟采样一次,我们可以进行降采样处理,如降到1小时一次的数据。通过对比和反复观察数据可视化曲线,我们能对这些台区的大致电压情况有了初步的认识,如上下极值范围情况、周期性规律等。
55.本技术实施例提供的方法通过自动将目标数据集合转换成时序数据,用户可直接配置相应的分析条件,利用分析条件对时序数据进行分析,从而归纳提炼出时序数据的规
architecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
67.通信接口用于上述终端与其他设备之间的通信。
68.存储器可以包括随机存取存储器(random accessmemory,简称ram),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
69.上述的处理器可以是通用处理器,包括中央处理器(centralprocessing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signalprocessing,简称dsp)、专用集成电路(application specificintegrated circuit,简称asic)、现场可编程门阵列(field-programmablegate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
70.在本技术提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的基于数据湖的时序数据分析方法。
71.在本技术提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的基于数据湖的时序数据分析方法。
72.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk)等。
73.以上所述仅为本技术的较佳实施例而已,并非用于限定本技术的保护范围。凡在本技术的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本技术的保护范围内。
74.以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1