一种基于时序多变量数据的模式提取与演化可视分析方法

文档序号:26484638发布日期:2021-08-31 17:40阅读:183来源:国知局
一种基于时序多变量数据的模式提取与演化可视分析方法

本发明涉及数据可视化与可视分析技术领域,具体涉及一种基于时序多变量数据的模式提取与演化可视分析方法。



背景技术:

随着城市信息化的不断完善和大数据时代的来临,社会发展与人类生活产生的数据被广泛记录与收集。多变量数据是一种十分常见的数据类型,其数据样本拥有多个属性特征,譬如包含多种指标的环境监测数据,包含多种信息的个人档案等等,通常包含多个特征变量,并随时间不断变化,被称为时序多变量数据,分析时序多变量数据中蕴含的潜在模式能够从很大程度上反映现实世界中事物的变化规律。例如,分析新冠疫情持续期间各类居民消费价格指数随时间的变化,有助于评估疫情对于国民生活方式带来的影响,为国家及各级政府宏观经济调控提供决策依据。

此外,在反作弊、伪基站、金融诈骗等领域,专家则更关注于时序多变量数据中的异常现象,这能帮助他们更好地理解可疑行为,提高金融系统的安全性和稳健性。然而,数据变量之间存在复杂的关联关系及时序变化的特点,导致重要特征难以跟踪和分析,用户难以对其进行理解及比较,信息认知面临较大的挑战。

现有的公开专利中,cn202010230486.3,专利名称为基于经验模态分解和前馈神经网络对时序数据的预测方法,由对数据集缺失值处理、独热编码处理、主成分分析方法降维、经验模态分解、数据标准化处理、前馈神经网络训练、对测试集测试步骤组成。该发明采用了主成分分析方法降维和经验模态分解方法,通过降维减少预测变量的个数,得到的数据包含了原始数据的大部分信息,保证降维后得到的数据中每个变量不包含重复的原始数据信息,在前馈神经网络训练时,用本征模函数代替原始时序数据进行训练,输入降维后的数据集,减少了变量个数,获得了准确的结果,训练时间大幅度减少,可用于对时序数据预测。

上述的方法是将不同时间片的数据一起降维到同一空间,但是由于数据规模过大,导致计算效率低下,而且不同时间片之间的冗余信息会降低分析精度。另外一种做法是将不同时间片上的数据单独降维,但会导致不同时间片的数据点属于不同空间,结果难以比较。因此,目前尚缺乏一种能够处理时变特征的降维方法,为分析时序多变量数据中的模式和异常奠定基础。



技术实现要素:

本发明的目的在于克服现有技术的不足,提出了一种基于时序多变量数据的模式提取与演化可视分析方法,包括潜在模式提取与异常检测,时序多变量数据演化规律的感知策略以及针对时序多变量数据的交互式可视分析系统。

通过以下技术方案来实现的:一方面,包含下列步骤:

s1:将待处理的数据样本点进行处理,建立时序多变量数据集合,通过异常检测算法筛选出常规点和异常点,执行步骤2;

s2:对常规点通过常规模式提取,对异常点通过异常模式下选择,执行步骤3;

s3:通过可视分析系统pevis建立多个相互联动视图,通过前端交互进行展示。

优选的,所述s1,时序多变量实例x是一个向量序列,

x=[x1,χ2,...,xt]∈rd×t

其中,d是时序多变量实例中的变量个数,t是时间片长度,时序多变量数据χ是由多个时序多变量实例组成的集合,其中xi是一个时序多变量实例,n是数据集中实例的个数,其中,χ表示为一个具有实例轴、属性轴和时间片轴的3d数组,

优选的,所述s1中,所述异常检测算法包括有使用了三种异常检测算法,分别是基于距离的k近邻异常检测算法,基于密度的局部异常因子检测算法,以及基于集成学习的孤立森林算法。

优选的,所述s2中,对常规点进行聚类,聚类能根据变量间相似性将常规的样本点划分成不同的簇,将每个簇定义为一种常规模式;针对异常点,对全局时间片进行切片,在不同的时间片上,为异常点分类,选择最接近的一种常规模式作为当前时间片上的潜在模式。

优选的,所述s3中,pevis支持对时序多变量数据进行潜在模式提取与解释,通过设计目标建立全局概览投影视图和异常指标选择视图、潜在模式演化视图、特征时变视图和特征分布视图。

优选的,所述s3中,系统pevis还包括有聚焦、刷选、放缩移动、参数设置和信息展示的交互功能。

另一方面,计算机可读存储介质,所述计算机可读存储介质上存储有一个或多个计算机程序,所述一个或多个计算机程序被一个或多个处理器执行时实现如上的基于时序多变量数据的模式提取与演化可视分析方法。

另一方面,一种基于时序多变量数据的模式提取与演化可视分析装置,包括:一个或多个处理器;计算机可读存储介质,其存储有一个或多个计算机程序;所述一个或多个所述计算机程序被所述一个或多个处理器执行时实现如上的基于时序多变量数据的模式提取与演化可视分析方法。

另一方面,一种基于时序多变量数据的模式提取与演化可视分析系统,系统包括数据处理单元、视图合成单元和交互单元,通过数据处理单元构建时序多变量数据集合并分类常规点和异常点,通过视图合成单元分别对常规点和异常点处理进行视图的整合,通过交互单元展示各个视图并向用户提供交互功能,

系统预存在处理器中,计算机内包含有一个或多个处理器;计算机可读存储介质,其存储有一个或多个计算机程序;所述一个或多个所述计算机程序被所述一个或多个处理器执行时实现如上所述的基于时序多变量数据的模式提取与演化可视分析方法。

另一方面,如上所述的基于时序多变量数据的模式提取与演化可视分析方法用于空气质量指数监测数据集、居民消费价格指数数据集、金融数据集的挖掘和演化用途。

本发明的有益效果是:

(1)在平衡美观性和可用性的基础上,我们的系统包含五个彼此联动并带有丰富交互的可视化视图。

(2)多变量数据可视化通常用于帮助用户理解和判断自动检测到的异常值是否满足特定领域的需求。

附图说明

图1为本发明潜在模式提取方法的框架图;

图2为本发明的时序多变量数据χ的数据格式转变过程图;

图3为本发明实施例中降维空间时间一致性融合视图;

图4a为本发明实施例中全局概览投影视图;

图4b为本发明实施例中异常指标选择视图;

图4c为本发明实施例中pevis系统的软件界面的视图;

图4d为本发明实施例中潜在模式演化视图;

图4e为本发明实施例中特征时变视图;

图4f为本发明实施例中特征分布视图;

图5为本发明实施例中cpi潜在模式时变视图;

图6为本发明实施例中cpi特征时变视图;

图7为本发明实施例中北京市特征时变视图。

具体实施方式

下面结合本发明的附图1~7,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施。

在本发明的描述中,需要理解的是,术语“逆时针”、“顺时针”“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

实施例1:请参照图1,

常规模式:将在所有时间片上类别保持不变的一组数据称之为常规模式,其中,不同的类别确定不同的常规模式。

但对于时序多变量数据的异常值,到目前为止并没有一个有效的定义。基于已有的一些异常检测工作,我们在异常模式探索方面,从常规模式的对立面出发,综合考虑了多种数据的时变模式。根据异常在时序上的波动,分为稳定式异常和跳跃式异常;根据异常在邻域上的变化,分为孤立式异常和协同式异常。结合数据在时序和邻域上的异常特点,我们提取出四种异常模式;稳定式孤立异常:将在所有时间片上,始终偏离于其他大部分数据的样本点,称为稳定式孤立异常。稳定式协同异常:将在所有时间片上,少部分一起协同变化的样本点,称为稳定式协同异常。跳跃式孤立异常:将在不同时间片上,跳跃归属于不同常规模式的样本点,称为跳跃式孤立异常。跳跃式协同异常:将在不同时间片上,少部分一起协同变化、跳跃归属于不同常规模式的样本点,称为跳跃式协同异常。

定义1时序多变量实例x:时序多变量实例x是一个向量序列,x=[χ1,χ2,...,xt]∈rd×t,其中,d是时序多变量实例中的变量个数(维度、属性个数),t是时间片长度。

定义2时序多变量数据χ:时序多变量数据χ是由多个时序多变量实例组成的集合,其中xi是一个时序多变量实例,n是数据集中实例的个数。

对于时序多变量数据χ,通常,我们将其表示为一个具有实例轴、属性轴和时间片轴的3d数组,为有效地对时序多变量数据χ提取潜在模式,我们使用时间片拼接的方法,将χ由3d数组转变为2d数组。如图1,我们对一个n×d×t的数据,保留n(实例)轴,通过将t(时间片)轴上的数据依次拼接到d(属性)轴上,得到一个行数为n,而列数为d×t的2d数组,请参照图2,图中具体字符仅为计算过程中的符号,这里不赘述。

基于上述时间片拼接的方法,我们将一个3d数据χ压缩表示为一个2d数据z,其中,d′=d×t。

我们在提取时序异常点时,融合了不同异常检测算法对数据分布感知的能力,使用了三种异常检测算法。分别是基于距离的k近邻异常检测算法,基于密度的局部异常因子检测算法,以及基于集成学习的孤立森林算法。除此之外,在整个分析系统的探索方面,我们同样会涵盖其他类型异常检测方式,如基于统计的方法和基于分类的思想等。

为了进一步挖掘数据模式,我们对正常的样本点进行聚类操作,聚类能根据变量间相似性将样本点划分成不同的簇,将每个簇定义为一种常规模式。在机器学习领域,有很多经典的聚类算法,如基于距离的k-means算法、基于密度的dbscan算法、基于层次的层次聚类算法等。我们选择k-means算法来对数据样本点进行聚类,使用单个样本点来对簇进行建模,采用欧式距离来衡量样本与各个簇的相似度,样本点只属于与其距离最近的簇。

基于上述提取到的常规模式和异常模式,请参照图1,图中的字符均是本领域多时序数据处理的常用字符,这里不赘述,我们提出一种基于正交普氏分析的时序多变量数据感知策略,实现不同时间片降维空间的有效融合,保持数据中模式与异常的时间一致性。同时,引入因子分析方法,提取能够区分模式的关键特征,设计一维与二维相结合的可视化隐喻方案,直观展示数据分布和特征贡献。帮助用户感知常规模式和异常事件的演化规律。

数据降维是一种常见的多变量数据可视化技术。在保证数据的原始特征与数据之间相关性的前提下,将高维数据投影至低维可视空间。在低维可视空间中,结合人的视觉能力,根据原始数据中的相关性识别数据中的簇和异常点,以及进一步对数据进行建模,挖掘其模式。常用的降维方法有pca、mds和t-sne等等。

在我们的时序多变量数据模式演化中,如图3,图中字符均为本领域常用指代字符,这里不赘述,我们将每个时间片上的二维数据对齐于第一个时间片,以此来实现不同时间片降维空间的有效融合,保持数据中模式与异常的时间一致性,方便后续可视分析探索,

我们对t个时间片上,共计k×t个集群簇进行因子分析,其中k是聚类算法中簇的个数。得到k×t组多变量数据特征权重向量,其中特征权重即载荷,表示特征对因子的解释程度。载荷范围为[-1,1]。接近于-1或1的载荷表明特征对因子的影响非常强,对该因子所表示的常规模式影响权重较高,属于该模式的主要特征。接近于0的载荷表明特征对因子的影响很弱,即对模式影响较弱,不属于该模式的主要特征。综上所述,在模式提取方面,融合多种异常检测算法对数据集进行分析,筛选出常规点和异常点。然后对所有常规点进行聚类划分类别提取常规模式,最后在不同时间片上对异常点进行潜在模式选择。在时序多变量数据演化规律感知上,基于正交普氏分析融合不同降维空间,并结合因子分析方法,设计新颖的模式演化视图。为模式演化探索提供技术支持。

下面介绍实现的时序多变量数据模式演化可视分析系统pevis。对于多时间片、多变量的大规模数据集,我们通过可视化隐喻的方法将数据的潜在时变模式提取、解释融入进可视分析流程中,进而提出一个具有多个相互联动视图的可视分析系统,帮助用户对时序多变量数据进行全面且深入的分析。系统包括两个主要的任务:一部分是数据处理部分,包括数据的清洗、异常值提取、异常模式与常规模式的构建。另一部分是:可视分析部分,即系统的前端交互,包括五个带有丰富关联的视图,通过联动视图,系统支持用户对时序多变量数据的可视分析过程,对演化模式提供可解释性分析。

本发明的一种基于时序多变量数据的模式提取与演化可视分析装置包括:处理器和计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现能够本发明的模式提取与演化可视分析方法。其中,由于各个步骤的程序逻辑不同,可采用专用处理器或通用芯片来执行相应的步骤,以提高整个程序的处理效率,并合理地控制成本。因此,本领域技术人员可根据具体应用情况,对本发明用于时序多变量数据的模式提取与演化可视分析中的处理器和计算机程序的数量进行适应性地设计与调整。

基于对可解释性的机器学习、数据挖掘和人机交互领域论文的文献回顾,以及对时序多变量数据潜在模式的构建,我们提炼出以下设计目标。

g1:对于时序多变量数据,构建异常模式和常规模式,支持对不同模式的交互式探索和验证。传统的数据挖掘方法如异常检测、聚类、降维等机器学习技术,大部分致力于提高计算效率和准确度。然而,实验结果往往只包含了数据间的整体关系而忽略了变量间的关系,导致结果难以理解。例如,对于降维技术低维嵌入空间中两个位置相距甚远的点,我们可以清楚的知道他们所代表的原始高维数据不同,但是哪个维度导致的这一差异却无从得知。因此,我们期望设计一个支持交互的可视分析系统,允许用户从数据本身出发,结合可视分析的技术,辅以机器学习的方法,动态地探测数据中不同的潜在模式,辅助用户从多个角度识别并解释数据间的关系。

g2:对于异常模式,从不同角度强调其与正常模式的区别,理解并验证异常原因。对于时序多变量数据,我们在进行数据预处理分析时,根据已有的技术方法先将3d数据转化为2d数据后再进行异常检测,因此每个数据点有两种不同类型的变量:时间片和特征属性。在进行异常检测计算数据点与点之间的差异性时,两种变量混合在一起,因此很难确定哪些时间片或者特征属性与异常模式的出现高度相关。因此我们需要从时间片和特征属性不同的角度来解释数据点的异常原因。此外,由于异常值和正常数据之间的边界通常是模糊的,因此用户需要从不同的角度检查异常值是如何表现的,探究异常值是否以及如何在某些属性上偏离正常数据。

g3:对于异常模式,比较不同的异常检测算法检测出的异常模式区别。由于不同的异常检测算法对异常值特征的假设不同,因此检测到的异常值通常会有所不同。用户通常需要根据领域知识对检测到的结果进行选择与过滤,而不是将所有结果都盲目地视作异常值。然而,手动逐个过滤异常值是一项极为耗时的工作。由于使用同一算法检测到的异常值可能共享相似的异常模式,因此,一种更合理的方法是首先观察不同算法对异常值的定义标准,然后排除不适用的结果,用户可以缩小到较少的数据项子集,以进行进一步的探索和分析。因此,在筛选不同领域上的异常值时,必须比较检测用到的不同算法。

g4:对于正常模式,探究不同集群数据的关键特征演化规律。常规模式的时变探索主要是识别集群并理解它们的特征变化。虽然现阶段存在许多自动的方法(如k-means,dbscan等)识别聚类,但仍缺乏有效的理解聚类特征的方法。聚类的主要特征是原始特征值的分布,当数据维度很大时,查看特征值的分布并不是一项简单的任务,因此,我们需要提供一种特征选择方法,可以帮助用户更好的识别不同集群簇的主要特征,对聚类结果进行可解释性分析。

pevis支持对时序多变量数据进行潜在模式提取与解释,并能支持上述提出的四个设计目标。系统包括五个可视化视图,参照图4,分别为:全局概览投影视图(图4-a)和异常指标选择视图(图4-b)、潜在模式演化视图(图4-d)、特征时变视图(图4-e)和特征分布视图(图4-f),图4-c为pevis系统的软件界面的视图,通过该视图选择查看的类型。

在本申请中,我们将时序多变量数据的潜在模式提取定义为寻求常规模式和以上四种异常模式。由此,我们对时序多变量数据潜在模式演化展开数据分析的过程。

pevis系统提供了以下交互功能,允许用户实时设置算法参数以及自由切换视图,实现交互式探索潜在模式的时序变化与异常解释。

聚焦:pevis支持对单个样本点的详细探索。当用户点击全局概览视图中的样本点时,潜在模式演化视图自动绘制该样本点的时变模式;当用户在潜在模式演化视图中,在感兴趣的时间片和模式中点击样本点时,特征时变视图和特征分布视图自动绘制该样本点的相关信息,悬停样本点时,该点在其他时间片坐标也自动放大突出显示。

刷选:pevis在视图中增加刷选功能。在异常指标选择视图中,用户可根据不同的异常指标层层刷选,不断缩小对异常点的选择范围。待用户选定感兴趣的样本点或样本点集合后,潜在模式演化视图自动绘制选定点的时变信息。

放缩移动:pevis支持对样本点的放缩功能和移动功能。在全局概览视图和潜在模式演化视图两个散点图中,为避免大规模数据的遮挡问题,pevis提供鼠标滚轮放缩功能和鼠标拖拽移动功能,方便用户细粒度查看样本点。

参数设置:pevis支持可视化部分的实时参数调节。在系统的控制面板中,用户可以自由设置不同异常检测算法的组合方式,异常指标选择视图实时响应用户操作,过滤冗余信息,以探索不同算法对异常判定的区别。用户也可实时调节样本点和时间片信息,特征时变视图和特征分布视图根据用户选择自动更新。

信息展示:pevis支持样本点信息的展示。如全局概览视图和特征时变视图,用户鼠标悬停自动展示样本点的名称、特征值等信息,提升用户对样本点的感知能力。

实施例2:

系统在个人计算机上开发完成,具体环境为windows1064位操作系统、16gb运行内存、amdryzen74800hwithradeongraphics2.90ghz处理器、geforcegtx1650显卡。系统的数据分析部分使用python语言撰写,前端可视化界面使用d3.js数据可视化图形库、echarts交互式图表和浏览器可视化库。在实验评估过程中,我们使用分辨率为1920×1080的三星显示器,并使用chrome浏览器作为前端展示应用。

使用的数据集为全国居民消费价格指数(consumerpriceindex,cpi)数据,下载自网站国家统计局(https://data.stats.gov.cn/),cpi度量指定的消费商品和服务随着时间的变动,价格发生的变动,反映居民购买消费品及服务价格水平变动情况的相对数(指数的基期数值定为一百)。它是进行经济分析和决策、价格总水平监测和调控及国民经济核算的重要指标。

该数据集对全国31个省市地区(不含港澳台地区)同比上年同月(上年同月=100)cpi的月份统计。按照我国最新统计制度规定,cpi分为食品烟酒、衣着、居住、生活用品及服务、交通通信、教育文化娱乐、医疗保健、其他用品及服务8个大类。我们选取的统计周期为2019年12月——2020年11月共计12个月的数据。因此,我们得到的3d数据规格为31×8×12,进一步可转化为31×96格式的2d数据,送进我们的系统。

全国总体消费指数演化分析:我们遵循先整体分析再细节探索的原则对居民消费年度趋势进行探索,如图5。(一)整体上看,从2019年12月份到2020年11月,我们各省市消费指数时变趋势可分为三类,但这三类在每个月份上排列较为紧密,这表明在过去的一年中,我国虽遭受疫情带来的不确定性冲击,但在市场经济宏观调控下,各省市地区消费情况均衡发展,并未产生严格分化情况。(二)、从各个集群簇来看,最底部的簇主要包含山东省、湖北省和四川省等省份地区,环比上年同月份,该类省份在我们选取的时间片上环比上年同月波动最大的特征是食品烟酒类,该类消费在2020年1-11月始终具备较高的权重;而以甘肃省、宁夏回族自治区和内蒙古自治区等地区为代表的中间集群簇的主要特征由12月、1月的衣着类转换为后期的医疗保健类,其中7、8月份短暂转换为教育文化娱乐类;以吉林省、辽宁省、黑龙江省为代表的东三省及福建省、浙江省为代表的我国东南沿海省份为代表的最顶部集群簇,在时变趋势上各项支出较为均衡,但也大致反映出食品烟酒类和医疗保健类权重较高的趋势。

我们结合特征时变视图(图6)进行分析,认为影响三个簇的主要区别在于食品烟酒类(food),可以发现顶部的簇在该类支出增长幅度最大,中间的簇次之,底部的簇最小,但均远超上年同月在该类别上的支出。其他类别消费支出未见明显区别。

北京市消费指数分析:我们在控制面板中选择被多种异常算法均标记为异常地区的北京市进行分析,观察其时变趋势(图7),发现北京市在12个月份以来,在疫情严重的1-8月份属于顶部的簇,其他月份属于中间的簇,属于跳跃式孤立异常。虽然北京市跳跃归属于几种不同的类别,但整体各项消费指数与其他地区趋势一致,只是北京作为我国的经济政治文化中心,在各项支出上更具突出代表作用。我们可以发现,北京市变化强烈的几项消费类别指数依次为:医疗保健类(medical)、其他用品及服务(else)、食品烟酒(food)、教育文化娱乐(edu)和交通通信(traffic),而生活用品及服务(life)、衣着(clothes)和居住(lives)与全国整体趋势并无太大差异,且始终保持在上年同月的100基数附近,这表明疫情对北京市人民在日常生活用品和居住条件上的消费并未带来较大冲击。针对于前几种变化强烈的消费类别,我们可以看出医疗保健类、食品烟酒类和教育文化娱乐类在疫情初期消费较高,随着7、8月份以来疫情得到有效控制,“囤口罩”和“囤粮食”的热度褪去,该两类支出在逐渐减少并恢复至往年水平,教育文化娱乐类也随着学校校门的重新打开由网课的形式逐渐恢复正常。而疫情好转,旅游业寒冬也即将过去,虽然截止到2020年11月,北京市交通通信类支出比去年同月仍低3.7个百分点(北京市当月指数96.3),但整体消费指数朝上发展,预计会很快达到疫情前的水平。总体来看,北京市的整体居民消费价格指数发展趋势与全国总体发展趋势结论一致。

综上所述,我们基于可视化设计原则,“先总览信息,再缩放和过滤信息,最后按需查看细节”,首先通过全局概览进行数据初探,然后按实际需求进行模式探索与解释,分析新冠疫情持续期间cpi随时间的变化,评估疫情对于国民生活方式带来的影响,为国家及各级政府宏观经济调控提供决策依据,使用全国居民消费价格指数数据集进行案例分析评估了我们时序多变量数据潜在模式提取与解释可视分析系统的有效性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1