一种降低和展现流式大数据不确定性的系统的制作方法

文档序号:14519239阅读:197来源:国知局
一种降低和展现流式大数据不确定性的系统的制作方法

本发明涉及流式大数据的挖掘与分析领域,特别涉及一种降低和展现流式大数据不确定性的系统。



背景技术:

信息技术的发展使得流式大数据的应用愈发广泛,比如说社会人群的流动分析、智能工厂的实时监控等。如何高效的展示流式大数据以及快速的分析其中蕴含的规律模式是当下大数据科学的研究热点。跟踪和分析流式大数据能够让分析师和决策者保持对现实情况的高度感知,从而能够及时地应对各类危机并做出正确的反应。但由于流式大数据的规模巨大,人们通常不得不使用采样技术来进行实时地处理分析。然而采样技术不可避免的给流式大数据带来了不确定性,这降低了分析与可视化结果的可靠性,给当下的大数据可视化带来了新的挑战。

为了克服这一挑战,研究人员需要解决两方面的问题:

其一是量化并尽可能的减少流式大数据采样结果的不确定性。近些年来,研究人员从不同的方面对可视分析中不确定性信息的度量进行了研究并针对不同的应用场景提出了多种多样的模型。比如,部分研究人员利用统计分析的手段(概率分布、统计量)来刻画数据中的不确定性,并用直观的可视化来展示不确定性的统计信息。这些工作使得分析师们能够对结论中不确定性的大小有直观的了解,从而避免不太可靠的结论。但由于流式大数据具有不断增长与更新的特性,现有的模型不能直接应用。因此,需要提出一个度量流式大数据采样结果不确定性的新模型。

其二是全方位可视化不确定性信息来帮助人们更好的理解流式大数据。不确定性信息无法完全消除,通过可视化的方法可以让人们避免不确定性高的数据,进而得到更为可靠的结论。



技术实现要素:

本发明提供了一种降低和展现流式大数据不确定性的系统,通过时间序列的形式来组织储存流式大数据的采样结果线条并以线图的形式呈现给用户,使得用户能够理解线条单个时间序列不确定性的变化以及整体时间序列集合不确定性的变化,进而避免得出不可靠乃至错误的结论。

一种降低和展现流式大数据不确定性的系统,包括:

数据采集与抽样模块,用于储存包含不确定性的流式大数据,根据数据本身的属性与时间戳以时间序列的形式进行组织储存;

不确定性建模优化模块,根据所述数据采集与抽样模块中的储存数据随时间变化的波动特征建立不确定性量化模型,并对不确定性量化模型进行求解,得到单个时间序列和时间序列集合的不确定性信息;

可视化图像模块,用于可视化所述不确定性量化模型的不同层面的不确定性信息,包括:

个体层面,采用线条不透明度的变化来展现单个时间序列不确定性的时序变化;

全局层面,展现时间序列集合不确定性的时序变化;

人机交互模块,用户通过经验对所述不确定性量化模型的参数进行调整。

时间序列数据线条在生产生活中存在着广泛的应用,也是流式大数据的一种,在工业生产中,人们通常使用折线图来可视化时间序列,以此监控产品的质量变化、生产线的能耗变化等。除此之外,时间序列也常用于预测某一事件或物理现象的变化,本发明通过全方面对时间序列集合进行建模,计算其不确定性信息并通过优化降低数据的不确定性,本发明同时通过可视化的方法将计算得到的不确定性信息集成到折线图中,增强了折线图的信息表达能力。

为了进一步降低流式大数据不确定性,优选的,所述不确定性量化模型采用概率分布和方差来对流式大数据的不确定性ut进行一个量化的描述,公式如下:

其中,

时间序列集合从数据采集与抽样模块获得;

lk是数据采集与抽样模块储存的时间序列;

是时间序列lk在t时刻的值;

ct是t时刻的时间序列集合总体置信度;

at是不确定性量化模型在t时刻的参数,由用户根据经验和外界信息进行调节;

是纠正后的概率分布,可由t时刻之前的n个连续时刻的概率分布得到:

其中,

wt是ct在n个连续时刻置信度之和中的所占比例;

i是在t时刻之前的第i个时刻。

为了进一步降低流式大数据的不确定性,优选的,对不确定性量化模型进行求解的具体过程为:

(a)初始化n个连续时刻的可信度

(b)更新优化概率分布其中

(c)更新可信度概率分布与ft之间的距离由相对熵求出。

(d)重复(b)、(c)两步直到ut不再变化。

优选的,所述可视化图像模块还包括局部层面,用于降低不同时间序列因聚合而产生的局部不确定性。采用信息熵以及基于像素的优化方法来降低线图的局部不确定性信息。

所述局部层面利用基于像素的优化方法来降低线图的局部不确定性信息。本技术可视化图像模块利用线条及其不透明度用来展现不同时间序列及其不确定性,代表不同时间序列的线条因数据自身特征而交叉重叠,在局部区域产生视觉混淆。本技术提出一个像素级的优化方法,优选的,所述局部层面降低不同时间序列因聚合而产生的局部不确定性的具体过程如下:

将图像中交叉重叠区域划分为不同类型并提出不同约束条件,对于重叠区域do的像素点pi提出优化约束条件一:

其中表示局部区域不确定性,通过计算该区域不同时间序列lk的概率分布f(lk)的信息熵得到:

对于非重叠区域dn的像素点pj提出优化约束条件二:

其中,pj是非重叠区域dn的jth像素点的优化值,p′j第jth像素点的原值;

对于所选区域do与dn的像素点pi提出优化约束条件三:

其中,ni是第ith个像素点相邻像素点pj的集合;

新的图像像素点灰度值(不透明度)通过求解下述公式得到:

优选的,所述个体层面中,对于不确定性高的时间序列,其对应线条的不透明度更小,对于不确定性低的时间序列,其对应线条的不透明度更大。所述个体层面中,利用线条的可视设计通道——不透明度的变化来展现对应时间序列不确定性的时序变化。对于不确定性高的时间序列,其相应的不透明度更小,对于不确定性低的时间序列,其相应的不透明度更大。因此,不确定性低的线条相较不确定性高的线条更加明显。为了方便不同线条在同一时刻的横向比较以及不同时刻的纵向比较,本技术只对线条的灰度值,即不透明度做数值映射。所有线条均采用同一颜色渲染。

优选的,所述总体层面中,通过空心实心圆的对比来展现流式大数据的总体不确定性信息。实心圆表示流式大数据的总体不确定性变化平缓。空心圆则表示流式大数据的总体不确定性变化剧烈,需要引起注意。同时,圆的高度用以表示流式大数据的总体不确定性大小。用折现将圆逐个连接起来,使得用户能够获得数据不确定性时序变化的总体印象。

空心圆表示流式大数据不确定性的增长剧烈,需要用户注意从相应数据项中得到的结论。然而,不确定性的增长剧烈可能是由数据多样性引起的,数据的多样性往往隐含着新的模式规律。用户修改空心圆所在时段的模型参数(权利要求3中的at)来观察新的模式规律,进而实现流式大数据的多样性与不确定性的平衡。

本发明的有益效果:

本发明的降低和展现流式大数据不确定性的系统使得用户可以从个体层面了解数据的不确定性信息并避免不可靠的数据项;可以纠正由数据自身特征带来的视觉混淆与偏差,同时展现局部区域的不确定性信息;可以展现流式大数据的总体不确定性,并允许用户通过交互并结合自身的经验与知识来平衡数据的多样性与不确定性。

附图说明

图1为本发明的降低和展现流式大数据不确定性的系统的线框结构图。

图2为本发明的降低和展现流式大数据不确定性方法的线框流程图。

图3为本发明系统的可视化模块的个体层面示意图。

图4为本发明系统的可视化模块的局部层面示意图。

图5为本发明系统的可视化模块的总体层面示意图。

图6为现有技术和应用本发明系统后的集群服务器温度示意图。

具体实施方式

如图1所示,本实施例的降低和展现流式大数据不确定性的系统包括:数据采集与抽样模块、不确定性建模优化模块、可视化图像模块以及人机交互模块。

数据采集与抽样模块,用于储存包含不确定性的流式大数据,通过时间序列的形式组织储存数据,流式大数据通常含有多重属性,根据用户指定的属性进行分类。比如,社交媒体数据按照用户账户、组织账户或者话题进行分类。另一方面,按照用户指定的时间细粒度在时间维度上对采样好的数据进行聚合。采样方法使用水库采样法。如此,流式大数据用一个时间序列集合进行刻画。任一条时间序列lk在t时刻的值从采样数据的聚合值中得出。基于该时间序列集合,进行不确定性建模,并且补全、纠正采样后的数据。

不确定性建模优化模块,包括:

不确定性量化模型:根据储存数据(时间序列集合)随时间变化的波动特征,提出流式大数据的不确定性计算方法。

本实施例采用概率分布和方差来对流式大数据的不确定度进行一个量化的描述,如图2所示,首先确定一个时间细粒度,假设当前时刻是t,之后从新采样的数据集中提取时间序列集合并且将每一个时间序列用高维向量表示这样做的目的是为了估计时间序列的概率分布并计算其在t时刻内的波动情况。用方差来描述时间序列集合的波动变化。这里,将方差定义为不确定度分数。

概率分布目前被广泛运用于类似于不确定度这样的随机现象的描述。从采样结果的时间序列集合中获得概率分布ft如下:

然而这样的概率分布不能直接反映原始流式大数据中的真实概率分布,即概率分布ft并不可靠。因此提供了一种非参数的基于采样集合的估计原始流式大数据中的真实概率分布的方法。

通过结合不同信息源的数据来降低采样数据中不确定性。在这一策略指导下,对于时刻t,选用0时刻到t时刻所有的概率分布并给他们乘上相应的权重项来估算原始流式大数据中的真实概率分布如下:

这里,ct是概率分布ft的可信度。如果ft距离越近,则说明它越可靠,相应的,可信度ct就会更大。

不确定度分数ut是根据不确定性的广义定义来确定的,如下:

在这里,‖.‖是距离范数,本方法使用相对熵来计算距离。此公式其实是标准方差公式的一个拓展。

通过概率分布和不确定性分数,从个体层面和全局层面来描述流式大数据的不确定性。更准确的来说,从单个时间序列的概率分布k=1,…,mt中获取概率,并且从ut中得到时间序列集合的整体波动情况。如之前所描述的一样,将降低不确定性这一问题转化成一个获得最优估计的优化问题,如下:

其中是所得解,用于估计由于采样而缺失的数据项以及纠正有偏差的数据项。at是数据在t时刻的多样性,由用户进行调节。此问题可用下述步骤进行实时求解:

参数at由用户定义,默认为1。概率分布与ft之间的距离由相对熵求出,定义如下:

可视化图像模块,用于展现流式大数据不同层面的不确定性信息,包括:

个体层面上,利用线条不透明度的变化来展现单个时间序列不确定性的时序变化。如图3所示,利用线条的可视设计通道——不透明度的变化来展现对应时间序列不确定性的时序变化。对于不确定性高的线条,其相应的不透明度更小,对于不确定性低的线条,其相应的不透明度更大。因此,不确定性低的线条相较不确定性高的线条更加明显。

图3(a)表明,对于流式数据新增部分,通过求解前述优化问题得到概率分布并由此计算任一时间序列lk的概率值随后将时间序列lk的概率值映射到线条的灰度值,并用灰度值的变化展现不确定性的变化。图3(b)表明,不确定性高的部分颜色越低,不确定性低的部分颜色越浅。因此,用户通过本技术更容易地观测到可靠性高的数据项。图3(c)表明,对于新出现的线条,用一个“×”号表示。

局部层面上,利用信息熵以及基于像素的优化方法来展现图像的局部不确定性信息。如图4所示,可视化图像模块利用时间序列及其不透明度用来展现不同个体及其不确定性,代表不同个体的线条因数据自身特征而交叉重叠,在局部区域产生视觉混淆。如图4(a),重叠区域颜色加深,使得用户难以判断不同线条不确定性的高低。图4(e)表明重叠区域以及周围区域灰度值变化,不难发现,重叠区域明显比周围区域颜色更深,这使得用户产生该区域所对应线条不确定性更高的错觉。

本实施例提出一个像素级的优化方法,将图像中交叉重叠区域划分为不同类型并提出不同约束条件。

如图4(b),对于重叠区域do的像素点pi提出优化约束条件一:

其中表示局部区域不确定性,通过计算该区域不同时间序列lk的概率分布f(lk)的信息熵得到:

对于非重叠区域dn的像素点pj提出优化约束条件二:

其中,pj是非重叠区域dn的jth像素点的优化值,p′j第jth像素点的原值。

对于所选区域do与dn的像素点pi提出优化约束条件三:

其中,ni是第ith个像素点相邻像素点pj的集合。

新的图像像素点灰度值(不透明度)通过解下述优化问题得到:

解此优化问题可用经典最小二乘算法,为了加速,使用随机梯度法得到近似解。图4(c)展示了优化后的图像。图4(f)表明优化后重叠区域与周围区域的像素值。不难发现,本实施例一定程度上避免了线条交叉重叠带来的视觉混淆。

全局层面上,利用空心实心圆设计来展现流式大数据的总体不确定性信息。如图5所示,实心圆表示流式大数据的总体不确定性变化平缓。空心圆则表示流式大数据的总体不确定性变化剧烈,需要引起注意。同时,圆的高度用以表示流式大数据的总体不确定性大小。用折现将圆逐个连接起来,使得用户能够获得数据不确定性变化的总体印象。

人机交互模块,用于综合用户的经验与知识平衡数据自身的多样性与不确定性。如图5所示吗,基于实(空)心圆的设计提供了一个警示信息。空心圆表示了流式大数据不确定性的增长剧烈,需要用户注意从相应数据项中得到的结论。然而,不确定性的增长剧烈可能是由数据多样性引起的,数据的多样性往往隐含着新的模式规律。用户修改空心圆所在时段的模型参数at来观察新的模式规律,进而实现流式大数据的多样性与不确定性的平衡。

如图6所示,将本实施例系统应用在某大型集群服务器甲的温度控制系统中,其中实线表示某大型集群服务器甲的温度示意图,虚线表示服务器乙的温度示意图。图6(a)是未经本实施例系统处理的数据。它给监控人员带来困扰,误认为t时刻之后服务器乙的服务负载过高。但其实这是采样数据不确定性过高所致。图6(b)是应用本实施例系统处理的数据,t时刻之后,服务器乙的负载短暂升高后又重新回落,本实施例成功的降低了数据的不确定性,帮助监控人员得到了更为可靠的结论。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1