一种基于聚类分析的非结构化数据集可视化方法与流程

文档序号:12864000阅读:2285来源:国知局
一种基于聚类分析的非结构化数据集可视化方法与流程

本发明涉及数据可视化技术领域,具体为一种基于聚类分析的非结构化数据集可视化方法。



背景技术:

随着网络技术的发展,特别是internet和intranet技术的飞快发展,各行业和个人数据量的需求增加,使得非结构化数据的数量日趋增大,非结构化数据存储系统开始流行。

针对于非结构化数据可视化领域的相关技术还未成熟,不像关系型数据库那样有很多配套的可视化管理工具,如oracle,sqlserver和mysql等都有相应的可视化管理工具来简化用户的操作和使用。

目前用户对非结构化数据集进行搜索,仅能获得单一独立的信息。然而大量的数据堆积,使得用户无法对信息进行概括归纳,形成有语义内容的知识,并可交互直观可视化的多维度观测,进一步高效的管理该系统。或者用户需要通过将非结构化数据转换成结构化数据,比如存入关系型数据库,或者转换成execl文件,再对其进行分析可视化,极大的浪费了用户的工作时间。



技术实现要素:

本发明所解决的技术问题在于提供一种基于聚类分析的非结构化数据集可视化方法,以解决上述背景技术中的问题。

本发明所解决的技术问题采用以下技术方案来实现:一种基于聚类分析的非结构化数据集可视化方法,包括以下步骤:

步骤(1)针对非结构化数据集中的内容信息特征进行存储;

步骤(2)基于聚类分析对所述非结构化存储数据集进行解析,得到半结构化表信息;

步骤(3)基于聚类分析得到的半结构化表信息进一步数据解析;

步骤(4)基于需求选取对应维度信息,制定可视化策略,将所述展示数据进行可视化内容展示。

进一步地,步骤(1)中,所述非结构化数据包括:办公文档、文本、图像、xml/html、各类报表、视频和三维造型,所述内容信息特征包括文本的基于分词的词频特征、图像的纹理和轮廓特征、视频的关键帧特征和三维造型的投影轮廓特征;其存储方法为利用json格式进行存储。

进一步地,步骤(2)中,所述半结构化数据就是介于完全结构化数据和完全无结构的数据之间的数据,html文档就属于半结构化数据;半结构化数据是自描述的,数据的结构和内容混在一起,没有明显的区分;其解析方法为基于k-means方法将样例数据聚类成k个簇。

进一步地,所述完全结构化数据包括关系型数据库、面向对象数据库中的数据,完全无结构的数据包括声音、图像文件。

进一步地,步骤(3)中,所述数据解析包括数据过滤,筛选,聚合,内联操作得到展示数据。

进一步地,步骤(4)中,所述可视化内容展示空间为平面或三维空间,所述展示的内容包括非结构数据的原始数据和元数据项,所述元数据项包括基本属性、语义特征和应用场景;在进行可视化内容展示时提供四种节点交互功能:视图概览、移动变换、区域缩放、焦点变换和节点细节查询,以支持用户进行交互分析。

进一步地,步骤(4)中,可视化内容展示方式包括柱状图、饼图、折线图、热点图、地图、雷达图、热力图、k线图、关系图、树形图、箱线图、平行坐标图、仪表盘图、标签云图、漏斗图。

与已公开技术相比,本发明存在以下优点:1)本发明支持非结构化层次信息的可视化,通过聚类分析,可以对非结构数据节点的原始内容进行一种“所见即所得”的展示,相比于传统导入关系型数据再分析的方法,更加高效和自然。

2)本发明基于聚类分析对非结构化数据进行一种信息重构,相比于传统基于文件夹目录树的组织模式,能够更客观的体现数据的语义关联,能够更好的体现用户的交互意图。

3)本发明采用多维的可视化布局,可以进行多方位信息展示,并且拥有多种交互方法,可以让用户从不同侧面对非结构化数据存储仓库中包含的元数据项进行观察和分析。

附图说明

图1为本发明的系统流程示意图。

图2为本发明的具体实施例所提出的一种聚类分析后的可视化散点展示图。

具体实施方式

为了使本发明的技术手段、创作特征、工作流程、使用方法达成目的与功效易于明白了解,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1、图2所示,一种基于聚类分析的非结构化数据集可视化方法,包括以下步骤:

步骤(1)针对非结构化数据集中的内容信息特征进行存储,比如利用json格式进行存储。

本发明的方法使用的非结构化数据包括文本、图像、视频等数据类型,以及三维造型等广义非结构化数据。数据内容体现为数据节点特征,如文本基于分词的词频特征、图像的纹理和轮廓特征、视频的关键帧特征和三维造型的投影轮廓特征等。存储类型可以是json文件

步骤(2)基于聚类分析对所述非结构化存储数据进行解析,得到半结构化表信息;比如基于k-means方法将样例数据聚类成k个簇

本步骤所生成的半结构化数据就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,html文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。

步骤(3)针对基于聚类分析得到的半结构化表信息进行进一步解析操作,如字段解析,数据统计,最大值、最小值和平均值,得到进一步的展示数据;

步骤(4)根据需求选取对应数据维度,拖拽到对应图表、地图、控件、组件的坐标轴进行绑定;进一步根据可视化内容展示选择图表、地图、控件、组件拖拽到画布;添加交互设置。

本步骤所述的可视化策略包括图表库、控件库和地理信息系统(gis)。图表库支持多种图表类型,图表类型包括柱形图、条形图、折线图、饼图、面积图、组合图、仪表盘和矢量地图,控件库包括文本框、单选框、复选框、图片、线条、下拉框、滑动条、下拉列表、按钮、列表。地理信息系统(gis,geographicinformationsystem)是一门综合性学科,结合地理学与地图学以及遥感和计算机科学,已经广泛的应用在不同的领域,是用于输入、存储、查询、分析和显示地理数据的计算机系统,gis是一种基于计算机的工具,它可以对空间信息进行分析和处理(简而言之,是对地球上存在的现象和发生的事件进行成图和分析)。gis技术把地图这种独特的视觉化效果和地理分析功能与解析后的数据(例如查询和统计分析等)集成在一起。

本发明支持非结构化数据节点内容的直观呈现;支持非结构化数据元数据项如物理属性、语义特征、应用场景的展示;支持数据节点之间基于内容的语义关联分析;支持一种焦点+文本内容的展示方式;支持可视形态的焦点转移、视图旋转缩放等交互操作。

本发明对非结构化数据集进行聚类分析后,可以得到半结构化数据信息,半结构化数据就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,html文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。通过对基于聚类分析得到的半结构化数据集进行解析后,进行可视化展示,帮助用户发现海量的非结构化层次信息中隐藏的规律和模式,辅助用户认知和决策。

以上显示和描述了本发明的基本原理、主要特征及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明的要求保护范围由所附的权利要求书及其等效物界定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1