基于数据结构识别的自动化可视化呈现方法与系统与流程

文档序号:11251037阅读:483来源:国知局
基于数据结构识别的自动化可视化呈现方法与系统与流程

本发明涉及海量数据分析工具技术领域,具体为一种基于数据结构识别的自动化可视化呈现方法,以及基于数据结构识别的自动化可视化呈现系统。



背景技术:

随着全球信息化过程的逐渐完善,以及计算资源的日益廉价,社会各界越发关注海量数据的内在联系和数据分析挖掘技术的巨大应用前景,市场中涌现了大量的商业智能系统,其中的优秀产品提供了强大的数据存储、数据处理、建模分析与丰富的可视化呈现能力,极大地降低了普通用户发掘自身数据资源价值的门槛。

然而对于最终用户而言,其更关注于使用预定义的分析场景得出结论以辅助决策,而非深入学习底层复杂的数据分析模型结构和系统的运作机制;同时视觉又占据人类获取信息途经的绝对首位,因此一套良好的分析结果呈现界面是所有商业智能产品所必备的组成部分,甚至其设计的好坏是整个系统成败的关键。

当前市面上的商业智能系统均提供了允许用户自定义布局与内容的可视化呈现界面,但均需用户自行配置,一般采用如下的两种方式:

1、由用户选择图表类型(饼图、柱图)以及样式,并选择该图表所使用分析结果中的字段信息(如图1-1所示);

2、提供多个计算维度,允许用户向xy两个呈现维度任意放置数据维度,并选取相应的测量指标,依据固定规则生成图表(如图1-2所示);

前者对用户的专业性要求很高,仅适合专业人员,不便于普通用户使用,后者虽针对用户选择的不同观测维度实现了一定的自动化可视化能力,但依赖固定的模式,仍需要用户手动选择布局形式,且生成的可视化呈现单一,冗长,不具备基本的联想功能,同样需要用户具备一定的可视化图形经验。

有鉴于此,特提出本发明。



技术实现要素:

本发明要解决的技术问题在于克服现有技术的不足,提供一种基于数据结构识别的自动化可视化呈现方法,通过分析处理数据结构,自动匹配合理的图表配置,降低操作难度,保证准确性;另一方面本发明还提供了基于数据结构识别的自动化可视化呈现系统。

为解决上述技术问题,本发明采用技术方案的基本构思是:

一种基于数据结构识别的自动化可视化呈现方法,包括如下步骤:

接收数据输入,通过数据结构描述规则生成输入数据的数据结构描述信息;

根据该数据结构描述信息,提取数据的结构特征向量信息;

对提取的数据结构特征向量信息进行识别,并以此得出与该特性向量匹配的图表配置;

根据图表配置信息生成多图表布局并得出可视化图形。

进一步的,上述基于数据结构识别的自动化可视化呈现方法中,还包括

将数据结构特征向量以及与之匹配的多种图表配置存储起来形成图表配置与数据结构模型库;

根据提取的数据结构特征向量信息在模型库中识别出与之相似的结构特征向量,基于识别得到的存储在模型库中的结构特征向量检索得到与该特性向量匹配度大于阈值的图表配置信息。

进一步的,上述基于数据结构识别的自动化可视化呈现方法中,所述数据结构描述规则包括:对数据中的列信息进行如下定义:

(1)列号,定义当前列在数据所有列中的序号;

(2)列名,定义当前列的原始名称;

(3)列类型,定义当前列的数据类型;

(4)列格式,定义当前列的数据格式;

(5)列权重,定义当前列在数据所有列中的权重;

对数据中的行信息进行如下定义:

(6)行号,定义当前行在数据所有行中的序号。

进一步的,上述基于数据结构识别的自动化可视化呈现方法中,所述根据该数据结构描述信息,提取数据的结构特征向量信息包括:

以数据结构描述信息中的列信息为参数,通过映射函数转换为多维特征向量输出。

进一步的,上述基于数据结构识别的自动化可视化呈现方法中,所述映射函数表示为:

f(x)=(x[0],x[1],...,x[n]);

以数据结构描述信息x中的列类型、列格式与列权重作为该映射函数的参数,通过针对不同列类型和列格式计算离散值,将数据结构描述信息映射为n维离散向量,列权重可用于进行加权干预与调整。

进一步的,上述基于数据结构识别的自动化可视化呈现方法中,所述根据提取的数据结构特征向量信息在模型库中识别出与之相似的结构特征向量包括:

通过数据结构特征相似度识别函数f(x1,x2),计算输入的两个结构特征向量的相似度并返回;其中输入参数x1、x2分别为提取的数据结构特征向量和数据库中的结构特性向量;该识别函数f(x1,x2)如下所示:

f(x1,x2)=d12*cos(θ)

其中,d12为x1、x2之间的距离,n为向量维度,k为参数序号;

d12值越小,两个结构特征向量越相似。

进一步的,上述基于数据结构识别的自动化可视化呈现方法中,所述基于识别得到的存储在模型库中的结构特征向量检索得到与该特性向量匹配度大于阈值的图表配置信息包括:

通过图表配置推荐函数f(x,φ)在模型库中查找与指定结构特征向量相似度高于指定阈值的所有特征向量;φ作为相似度阈值,x为输入的数据结构特征向量,具体查找步骤为:遍历模型库中的所有的数据结构特征向量x’,调用所述结构特征相似度识别函数计算x与x’的相似度,如果相似度超过阈值φ,则x’作为候选,直至遍历结束;将所有候选x’依据其与x的相似度进行倒序排序,选择相似度最大的x’所对应的图表配置作为最终的推荐结果。

进一步的,上述基于数据结构识别的自动化可视化呈现方法中,所述根据图表配置信息生成多图表布局包括:

预设图像矩形定义以及空间切分与布局算法,根据得到的图表配置信息,将配置的图表生成多图表布局。

进一步的,上述基于数据结构识别的自动化可视化呈现方法中,图像矩形定义规则如下:

(1)图像的序号,以标记图表的次序;

(2)图像最小宽度,以标记图表在布局中的最小宽度;

(3)图像常规宽度,以标记图表在布局中的常规宽度;

(4)图像最小高度,以标记图表在布局中的最小高度;

(5)图像常规高度,以标记图表在布局中的常规高度;

(6)图像最小宽高比,以标记图表在布局中的最小宽高比;

(7)图像最大宽高比,以标记图表在布局中的最大宽高比;

(8)图像常规宽高比,以标记图表在布局中的常规宽高比;

(9)图像相关性系数,以标记图表间的相关性系数。

进一步的,上述基于数据结构识别的自动化可视化呈现方法中,所述空间切分与布局算法通过函数f(x0,x1,...,xn),接受一个或多个图像矩形定义集合同时输入,并依据所输入的所有图像矩形定义集合对全体图表进行重新排布,具体包括:

将宽w高h的图形空间在水平方向与垂直方向上划分为n和m等份,即形成nxm个宽为w=w/n、高为h=h/m的子空间;每个子空间依据行列序号进行编码,其中行序号记作i,取值从1至m,列序号记作j,取值从1至n,任意子空间可记作p(i,j);设置行游标ix与列游标jx,依次遍历图像矩形定义集合,并取出元素,通过图像矩形定义的宽和高判定图表应占用的连续子空间规模,并以此来移动行列游标,计算出合适的行列游标,以及待占用的子空间,并将所占用的子空间均标记为已占用,继续下一个元素重复过程,直到遍历完成,对全体图表进行排布,生成多图表布局。

第二方面,本发明提供了一种基于数据结构识别的自动化可视化呈现系统,包括:

结构信息描述生成模块:被配置为接收数据输入,通过数据结构描述规则生成输入数据的数据结构描述信息;

数据结构特征提取模块:被配置为根据数据结构描述信息,提取数据的结构特征向量信息;

数据结构特征相似度识别与推荐模块:被配置为对提取的数据结构特征向量信息进行识别,并以此得出与该特性向量匹配度大于阈值的图表配置;

自动化布局模块:被配置为将得出的图表配置信息生成多图表布局;

图表呈现模块:被配置为对所述多图表布局进行可视化呈现。

进一步的,上述基于数据结构识别的自动化可视化呈现系统还包括

图表配置与数据结构模型库:被配置为存储数据结构特征向量以及与之匹配的多种图表配置;所述数据结构特征相似度识别与推荐模块根据提取的数据结构特征向量信息在模型库中识别出与之相似的结构特征向量,基于识别得到的存储在模型库中的结构特征向量检索得到与该特性向量匹配度大于阈值的图表配置信息

采用上述技术方案后,本发明与现有技术相比具有以下有益效果:

一方面,本发明基于数据结构识别的自动化可视化呈现方法步骤简单,通过采用数据结构识别技术实现自动化的数据可视化呈现,避免了传统系统中较高专业性知识要求与复杂配置对用户所造成的使用问题,在数据分析产品中应用,可极大地降低用户操作难度,提高数据图表使用的准确性、合理性与有效性;

另一方面,本发明基于数据结构识别的自动化可视化呈现系统架构合理,各模块分工明确,无需用户预先依据经验选择数据的可视化表现形式,从分析结果的数据结构入手,通过对数据结构中各个维度的类型、内容等信息进行识别,在检索库中寻找模式匹配度较高的表现形式,自动对图表进行合理化配置,并在多个图表的场合依据易读、美观、实用等原则自动规划布局,解决传统的分析结果可视化呈现方法中存在的易用性问题。

附图说明

图1-1是现有技术中需要用户选择图表类型的图表配置方式示意图;

图1-2是现有技术中允许用户向xy两个维度放置数据的图表配置方式示意图;

图2是本发明一种基于数据结构识别的自动化可视化呈现方法中图表配置与数据结构构建成的稀疏矩阵图;

图3是本发明一种基于数据结构识别的自动化可视化呈现系统的结构框图;

图4是图3中所示各模块的配合示意图;

具体实施方式

下面结合附图和具体实施例,对本发明作进一步说明,以助于理解本发明的内容。

第一方面,本发明提供了一种基于数据结构识别的自动化可视化呈现方法,包括如下步骤:

接收数据输入,通过数据结构描述规则生成输入数据的数据结构描述信息;

根据该数据结构描述信息,提取数据的结构特征向量信息;

对提取的数据结构特征向量信息进行识别,并检索出与该特性向量匹配度大于阈值的图表配置;

根据所述图表配置信息生成多图表布局并得出可视化图形。

具体的,上述步骤实施中:

s1.首先将接收的输入数据,按照预定义的数据结构描述规则进行处理,生成形式统一的数据结构描述信息以便于后续流程中进行数据结构特征提取操作和相应处理。本发明中该数据结构描述规则作为描述输入数据本身信息内容的标准规则,基于xml(extensiblemarkuplanguage,可扩展标记语言)格式进行扩展,所有的输入数据均抽象为行列形式,其中针对数据中的列信息进行如下内容的定义:

(1)列号,定义当前列在数据所有列中的序号;

(2)列名,定义当前列的原始名称;

(3)列类型,定义当前列的数据类型,如时间、字符串、整型、浮点型、结构体等;

(4)列格式,定义当前列的数据格式,如针对时间的格式有yyyy-mm-dd等;

(5)列权重,定义当前列在数据所有列中的权重。

针对数据中的行信息进行如下内容的定义:

(6)行号,定义当前行在数据所有行中的序号。

故基于输入数据本身内容,通过上述定义将数据转换为抽象的行列形式,可详细描述任意输入数据的结构描述信息。

s2.依据生成的数据结构描述信息,来提取数据结构特征向量信息;数据结构特征向量信息是指数据结构辨识信息,特征指数据的数据类型与结构描述信息,由设定的映射函数将数据特征转换为多维特征向量;数据结构特征向量信息也是后续图表配置推荐的基础。

在提取数据结构特征向量信息时,主要基于数据结构描述信息中的列信息,本发明实施例中,设定一套映射函数f(x),将输入数据的结构描述信息x中的列信息映射为n维离散向量,其中n等于数据中列信息的总和,将此n维离散向量作为输入数据结构的特征向量,可为后续流程提供识别基础。该映射函数f(x)如下所示:

f(x)=(x[0],x[1],...,x[n]);

在该函数f(x)的内部以列类型、列格式与列权重作为映射函数的参数,通过针对不同列类型和列格式计算离散值,可将数据映射为n维离散向量,同时列权重可用于针对特殊数据结构作加权干预与调整。

s3.将数据结构特征向量以及与之匹配的多种图表配置存储起来形成图表配置与数据结构模型库,根据提取的数据结构特征向量信息在模型库中识别出与之相似的结构特征向量,基于识别得到的存储在模型库中的结构特征向量检索,得到与该特性向量匹配度大于阈值的图表配置信息。

将常见的数据结构特征向量以及与其匹配的多种图表配置,其中包括二者之间的映射关系,存储起来形成模型库,为后续流程中相似度匹配提供特征样本,供识别参考。所述图表配置包括图表类型以及通过使用一定信息压缩的映射矩阵,可高效的进行关联信息的存储与检索。

在模型库中,数据结构特征的存储形式为多维向量,图表配置为nosql结构体,两者能够构建起一套稀疏矩阵图,如图2所示,为结构特征向量与图表配置之间的相关指数(即匹配度)。

在匹配过程中,根据数据结构特征向量信息进行识别,再利用预设的算法进行检索,在所述模型库中检索与识别的特征向量匹配度大于阈值的图表配置,阈值根据实际情况设定。

本发明实施例中提供的两套函数:结构特征相似度识别函数f(x1,x2)和图表配置推荐函数f(x,φ)。在数据结构特征相似度识别函数f(x1,x2)中,输入参数x1、x2分别为所述提取的数据结构特征向量和参考向量,参考向量x2为数据库中的结构特性向量,用于判断步骤s2中得到的数据结构特征向量x1是否与之相似来达到识别的目的。

该函数结合欧氏距离与余弦相似度算法计算输入的两个结构特征向量的相似度并返回。该识别函数f(x1,x2)如下所示:

f(x1,x2)=d12*cos(θ);

其中,d12为x1、x2之间的距离,n为向量维度,k为参数序号。

d12值越小,两个结构特征向量越相似,以此为基础后续得到的结果越准确。

图表配置推荐函数f(x,φ)的输入参数为指定的结构特征向量(即上述需要识别的结构特征向量)与相似度阈值,该函数可通过在前述模型库中查找与指定结构特征向量相似度高于指定阈值的所有特征向量,从而得出所有匹配的图表配置信息。

在f(x,φ)函数中,φ作为相似度阈值,可依据实际场合进行调整,如设置为0.618,x为输入的数据结构特征向量,具体查找步骤为:遍历模型库中的所有的数据结构特征向量x’,调用上述结构特征相似度识别函数计算x与x’的相似度,如果相似度超过阈值φ,则x’作为候选,直至遍历结束;将所有候选x’依据其与x的相似度进行倒序排序,选择相似度最大的x’所对应的图表配置作为最终的推荐结果。

s4.预设图像矩形定义以及空间切分与布局算法,根据上述得到的图表配置信息,将配置的图表生成多图表布局。其中,图像矩形定义规则进行了如下的描述:

(1)图像的序号,以标记图表的次序;

(2)图像最小宽度,以标记图表在布局中的最小宽度;

(3)图像常规宽度,以标记图表在布局中的常规宽度;

(4)图像最小高度,以标记图表在布局中的最小高度;

(5)图像常规高度,以标记图表在布局中的常规高度;

(6)图像最小宽高比,以标记图表在布局中的最小宽高比;

(7)图像最大宽高比,以标记图表在布局中的最大宽高比;

(8)图像常规宽高比,以标记图表在布局中的常规宽高比;

(9)图像相关性系数,以标记图表间的相关性系数。

所述空间切分与布局算法提供一套函数f(x0,x1,...,xn),接受多个图像矩形定义集合同时输入,并依据所输入的所有图像矩形定义集合对全体图表进行重新排布。最后将生成的多图表布局绘制渲染得出全部可视化图形。

函数具备如下执行过程:将抽象的图形空间(宽w高h)在水平方向与垂直方向上划分为n和m等份,即形成nxm个宽为w=w/n高为h=h/m的子空间;每个子空间依据行列序号进行编码,其中行序号记作i,取值从1至m,列序号记作j,取值从1至n,任意子空间可记作p(i,j);设置行游标ix与列游标jx,依次遍历图像矩形定义集合,并取出元素(即图表),通过图像矩形定义的宽和高判定图表应占用的连续子空间规模,并以此来移动行列游标,最终计算出合适的行列游标,以及待占用的子空间,并将所占用的子空间均标记为已占用,继续下一个元素重复过程,直到遍历完成,对全体图表进行排布,生成多图表布局,多图表布局进行绘制渲染得出全部可视化图形。

第二方面,本发明还提供了一种基于数据结构识别的自动化可视化呈现系统,如图3、4所示,包括:

结构信息描述生成模块1:被配置为接收数据输入,通过数据结构描述规则生成输入数据的数据结构描述信息;

数据结构特征提取模块2:被配置为根据数据结构描述信息,提取数据的结构特征向量信息。生成数据结构描述信息后,数据结构特征提取模块被调用,通过对输入数据的结构描述信息进行特征抽取,主要基于结构描述信息的列信息,通过映射函数生成离散的多为特征向量信息序列输出;执行上述步骤s2。

图表配置与数据结构模型库3:被配置为存储数据结构特征向量以及与之匹配的多种图表配置,其中包括二者之间的相关指数(即匹配度);图表配置包括图表类型以及通过经一定信息压缩的映射矩阵,来与相匹配的结构特征向量进行关联映射,一个结构特征向量可能对应多种图表类型。

数据结构特征相似度识别与推荐模块4:被配置为对提取的数据结构特征向量信息进行识别,根据识别出的数据结构特征向量在所述模型库中进行检索匹配,并以此得出与该特性向量匹配度大于阈值的所有图表配置。具体实施时,该模块能够对输入数据生成的结构特征向量与模型库中存储的结构特征向量(下称参考向量)进行相似度判断,通过结构特征相似度识别函数进行识别,查找出在所述模型库中与需要识别的结构特征向量相似度最高的结构特征向量,然后基于存储在模型库中结构特征向量与图表配置之间的相关性,通过图表配置推荐函数得到与该识别得到的参考向量匹配的所有图表配置信息。如果输入数据生成的结构特征向量与数据库存储的某结构特征向量相似度越高,则以此最终得到的图表配置信息越准确,具体相似度识别与推荐过程参考上述步骤s3。

自动化布局模块5:被配置为将得出的所有图表配置信息生成多图表布局;具体实施时,该模块对数据结构特征相似度识别与推荐模块匹配出的所有图表进行图像矩形定义,以此通过空间切分与布局算法对所有图表进行重新排布,参考上述步骤s4。

图表呈现模块6:被配置为对所述多图表布局进行可视化呈现,将上述重新布局的多图表进行绘制渲染得出全部可视化图形,图表的绘制渲染是本领域成熟技术,此处不做赘述。

本发明系统中还包括人机交互界面7,以提供完整的图形化界面供用户进行数据输入,并调用自动化布局模块和图表呈现模块完成图表的自动化布局与呈现,实现人机交互功能。

本发明的基于数据结构识别的自动化可视化呈现系统构思巧妙、合理,操作方便,可基于识别与匹配技术实现计算机对任意数据结果自动化选择可视化表现形式,从而避免了较多专业性知识要求与复杂配置对用户所造成的使用问题,在数据分析产品中应用,可极大地降低用户操作难度,提高数据图表使用的准确性、合理性与有效性。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1