基于大数据分析组件快速自定义图表展现方法、装置及存储介质与流程

文档序号:24689372发布日期:2021-04-16 10:08阅读:137来源:国知局
基于大数据分析组件快速自定义图表展现方法、装置及存储介质与流程

1.本发明涉及大数据分析技术领域,尤其涉及一种基于大数据分析组件快速自定义图表展现方法、装置及存储介质。


背景技术:

2.数据可视化是利用计算机图形学和图像处理等技术,将数据用可视化图表进行展示,并通过图表与用户进行交互,实现数据分析处理的技术,其主要目的是利用图表直观易懂的特性,将关系复杂,难以看懂的数据有侧重点地展示出来,从而对数据进行更深入的观察和分析。
3.目前实现数据可视化的方法一般是使用数据库存储数据,后台进行查询和数据组装,最后网页前端通过可视化插件生成图表,报表等完成展示,无法直观查看数据每一步处理的中间结果和整体流程细节。
4.目前常见的数据可视化大多停留在对已有数据的固定方式展现,比如打开网页,直接看到一个饼图,比如展示各个辖区人口占全市比例,或者折线图展示一段时间内温度变化情况。此展现往往存在以下问题:(1)当数据展现需求方式发生变化时,比如由折线图改为柱状图,需要修改代码实现图表展现方式或所用数据的变化,此修改在已经部署使用的系统上很难实现,或者实现成本较高;(2)当数据结构发生变化时,如数据库金额字段原本是整数int,为了精确改成使用小数double,旧的展现代码无法兼容,需要重新从代码层面修改展示;(3)用户只能看到最终的可视化结果,无法了解原始数据的处理流程,并定义需要查看的数据可视化。因此,固定的、非实时展现方式具有很大的局限性,发生变动时需要付出高的维护成本。


技术实现要素:

5.为解决现有技术存在的上述技术问题,本发明提供一种基于大数据分析组件快速自定义图表展现方法、装置及存储介质。
6.本发明是这样实现的:
7.第一方面,本发明提供一种基于大数据分析组件快速自定义图表展现方法,包括以下步骤:
8.获取用户上传的训练数据、测试数据以及相关的自定义配置数据;
9.对训练数据和测试数据进行清洗、转换、挖掘以及分类处理得到训练集和测试集;
10.利用训练集和测试集对用户配置的分析组件模型进行训练和测试得到结果最优的预测模型;
11.将用户配置的预测设定数据输入预测模型得到数据结果集;
12.根据用户配置的图表类型及样式将数据结果集转换成相应的图形或图像进行展示。
13.进一步地,所述对训练数据和测试数据进行清洗、转换、挖掘以及分类处理具体包括:通过hive进行数据清洗、转换、挖掘,运用java语言和spark mllib对数据进行分类。
14.进一步地,所述用户配置的分析组件模型为用户在时间序列组件、分类组件、回归组件、聚类组件、文本分析组件的各种模型中选择的一种模型;所述时间序列组件包括对应的时间序列分析任务的arima模型;所述分类分析组件包括特征选择模型、神经网络模型、神经网络预测模型、贝叶斯网络模型、贝叶斯网络预测模型、随机森林模型、随机森林预测模型中的一种或多种;所述回归分析组件包括线性回归模型、线性回归预测模型、逻辑回归模型、逻辑回归预测模型中的一种或多种;所述聚类分析组件包括k

means聚类分析模型、k

medoids聚类分析模型、层次聚类分析模型中的一种或多种;所述文本分析组件包括关键字提取模型、分词模型、噪声词过滤模型、情感分析模型、词云模型中的一种或多种。
15.进一步地,所述将用户配置的预测设定数据输入预测模型得到数据结果集之后还包括:将数据结果集输出到excel文件或者数据库中,将数据数据结果集与可视化图表配置模块进行绑定。
16.进一步地,所述用户配置的图表类型为用户在条形图、柱状图、折线图、散点图、甘特图和饼状图中选择的一种或多种类型,所述用户配置的图表属性为用户在标题、图例、标签、系列、背景以及图表鼠标悬浮提示图表属性中选择的一种或多种属性。
17.进一步地,该方法还包括:采用jqueryui

draggable插件将用户通过鼠标选中的目标图表拖拽到与可视化区域相对应的配置区域上。
18.第二方面,本发明还提供一种基于大数据分析组件快速自定义图表展现装置,包括:
19.数据获取模块,用于获取用户上传的训练数据、测试数据以及相关的自定义配置数据;
20.数据预处理模块,用于对训练数据和测试数据进行清洗、转换、挖掘以及分类处理得到训练集和测试集;
21.模型训练模块,用于利用训练集和测试集对用户配置的分析组件模型进行训练和测试得到结果最优的预测模型;
22.结果获取模块,用于将用户配置的预测设定数据输入预测模型得到数据结果集;
23.图表展示模块,用于根据用户配置的图表类型及样式将数据结果集转换成相应的图形或图像进行展示。
24.第三方面,本发明还提供一种基于大数据分析组件快速自定义图表展现装置,所述装置包括:
25.处理器;
26.存储器,其上存储有可在所述处理器上运行的计算机程序;
27.其中,所述计算机程序被所述处理器执行时实现上述任一项所述的基于大数据分析组件快速自定义图表展现方法的步骤。
28.第四方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现上述任一项所述的基于大数据分析组件快速自定义图表展现方法的步骤。
29.与现有技术相比,本发明具有以下有益效果:
30.本发明提供的这种基于大数据分析组件快速自定义图表展现方法、装置及存储介质,只需要用户上传训练数据、测试数据以及完成相关的自定义配置数据的配置,后台就能够自动处理得到相应的图表展示给用户,用户操作简单,且当数据展现需求方式发生变化时,只需要用户调整配置数据,不需要修改代码,就能改变数据展示方式,对使用用户的技术基础要求较低,适用于多种场景且能适应用户的多种展示需求。
附图说明
31.图1为本发明实施例提供的一种基于大数据分析组件快速自定义图表展现方法的流程图;
32.图2为本发明实施例提供的一种基于大数据分析组件快速自定义图表展现装置的结构框图;
33.图3为本发明实施例提供的一种基于大数据分析组件快速自定义图表展现方法的自定义配置界面;
34.图4为本发明实施例提供的一种基于大数据分析组件快速自定义图表展现方法的图表展示界面。
具体实施方式
35.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
36.如图1所示,本发明实施例提供一种基于大数据分析组件快速自定义图表展现方法,包括以下步骤:
37.步骤s101、获取用户上传的训练数据、测试数据以及相关的自定义配置数据;
38.具体地,用户将训练数据和测试数据上传至后台,在上传训练数据和测试数据时已经确定好哪些作为特征值,哪些作为结果值,用户还需要在自定义配置界面中配置分析组件模型、预测设定数据、图表类型及样式等相关信息。
39.步骤s102、对训练数据和测试数据进行清洗、转换、挖掘以及分类处理得到训练集和测试集;
40.具体地,后台将数据存储到hive进行清洗、转换、挖掘,过滤掉错误以及不规范的数据,运用java语言和spark mllib对数据进行分类。
41.步骤s103、利用训练集和测试集对用户配置的分析组件模型进行训练和测试得到结果最优的预测模型;
42.具体地,后台提前构建好了各种分析模型,用户配置的分析组件模型为用户在后台构建的时间序列组件、分类组件、回归组件、聚类组件、文本分析组件的各种模型中选择的一种模型。其中,所述时间序列组件包括对应的时间序列分析任务的arima模型;所述分类分析组件包括特征选择模型、神经网络模型、神经网络预测模型、贝叶斯网络模型、贝叶斯网络预测模型、随机森林模型、随机森林预测模型中的一种或多种;所述回归分析组件包括线性回归模型、线性回归预测模型、逻辑回归模型、逻辑回归预测模型中的一种或多种;
所述聚类分析组件包括k

means聚类分析模型、k

medoids聚类分析模型、层次聚类分析模型中的一种或多种;所述文本分析组件包括关键字提取模型、分词模型、噪声词过滤模型、情感分析模型、词云模型中的一种或多种,后台通过构建上述多种分析模型供用户选择,可以适应用户的多种分析需求,应用范围广泛。利用训练集和测试集对用户配置的分析组件模型进行训练和测试得到结果最优的预测模型,具体训练和测试过程为本领域常规技术,在此不再赘述。
43.步骤s104、将用户配置的预测设定数据输入预测模型得到数据结果集;
44.上述步骤s103中已经得到了预测模型,且用户已经配置了预测模型的输入项,即预测设定数据,只需将用户配置的预测设定数据输入预测模型即可得到数据结果集。优选地,将数据结果集输出到excel文件或者关系型(非关系)数据库中,将数据数据结果集与可视化图表配置模块进行绑定,方便形成可视化图表。
45.步骤s105、根据用户配置的图表类型及样式将数据结果集转换成相应的图形或图像进行展示。
46.具体地,后台提供了多种图表类型及样式供选择,所述用户配置的图表类型为用户在后台提供的条形图、柱状图、折线图、散点图、甘特图和饼状图中选择的一种或多种类型,所述用户配置的图表属性为用户在后台提供的标题、图例、标签、系列、背景以及图表鼠标悬浮提示图表属性中选择的一种或多种属性,后台将数据结果集转换成与用户配置的图表类型及样式一致的图形或图像在屏幕上显示出来。后台提供上述多种图表类型及样式供选择,可以满足用户的多种展示需求,适应性好。优选地,该方法还包括:采用jquery ui

draggable插件将用户通过鼠标选中的目标图表拖拽到与可视化区域相对应的配置区域上,以实现快速高效地确定可视化图表配置界面中每一配置区域对应的目标图表。
47.本发明实施例提供的这种基于大数据分析组件快速自定义图表展现方法、装置及存储介质,只需要用户上传训练数据、测试数据以及完成相关的自定义配置数据的配置,后台就能够自动处理得到相应的图表展示给用户,用户操作简单,且当数据展现需求方式发生变化时,只需要用户调整配置数据,不需要修改代码,就能改变数据展示方式,对使用用户的技术基础要求较低,适用于多种场景且能适应用户的多种展示需求。
48.下面通过一个具体的例子对本发明的一种基于大数据分析组件快速自定义图表展现方法进行说明。
49.本实施例以对某市的房价进行数据分析,通过线性回归数据分析组件进行结果分析,通过自定义折现图表展示未来3年房价预测图表为例。数据主要包括2014年5月至2019年5月某网站房屋销售价格以及房屋的基本信息。
50.步骤一:数据存储到hive进行清洗、转换、挖掘;
51.数据分为训练数据和测试数据,分别保存在xlsj和cssj两个hive表中。
52.其中训练数据主要包括10000条记录,测试数据主要包括3000条记录,每条记录包括14个字段,主要字段说明如下:
53.第一列“销售日期”:2014年5月到2019年5月房屋出售时的日期
54.第二列“销售价格”:房屋交易价格,单位为人民币,是目标预测值
55.第三列“卧室数”:房屋中的卧室数目
56.第四列“浴室数”:房屋中的浴室数目
57.第五列“房屋面积”:房屋里的生活面积
58.第六列“停车面积”:停车坪的面积
59.第七列“楼层数”:房屋的楼层数
60.第八列“房屋评分”:贝壳找房房屋评分系统对房屋的总体评分
61.第九列“建筑面积”:除了地下室之外的房屋建筑面积
62.第十列“地下室面积”:地下室的面积
63.第十一列“建筑年份”:房屋建成的年份
64.第十二列“修复年份”:房屋上次修复的年份
65.第十三列"纬度":房屋所在纬度
66.第十四列“经度”:房屋所在经度
67.其中,第二列的“销售价格”数据为结果值,其余列的数据为各项特征值。
68.步骤二:构建线性回归预测组件;
69.这里用户配置的分析组件模型为多元线性回归模型:
[0070][0071]
其中,y表示房屋销售价格,x表示特征值,w表示权重,b表示偏置。
[0072]
使用sklearn库的线性回归函数进行调用训练,将训练数据的第二列的“销售价格”数据作为结果值y,其余列的数据作为各项特征值x,代入模型进行训练得到权重w和偏置b,使用梯度下降法获得误差最小值,最后使用均方误差法来评价模型的好坏程度,并画图进行比较,选择效果最好的模型作为最终的预测模型。
[0073]
步骤三:获取分析结果集;
[0074]
将用户配置的预测时间范围以及其他各项特征值输入预测模型得到房屋销售价格的分析结果集,如下:
[0075]
时间价格2020

01

15136572020

02

15159982020

03

15123542020

04

15184892020

05

1512265。。。。。。。。
[0076]
步骤四:通过可视化配置模块对步骤三的分析结果进行绑定;
[0077]
将步骤三中的分析结果保存到mysql关系型数据库result表中,先绑定数据源,如图3所示,在自定义配置界面中进行配置,将图表类型配置为折线图,设置折线图横坐标x为预测时间,纵坐标y为平均房价。
[0078]
步骤五:将图表数据展示在界面上;
[0079]
根据mysql关系型数据库result表中的分析结果以及配置的图表类型及图表属性将图表数据展示在界面上,如图4所示。
[0080]
基于同一发明构思,本发明实施例还提供了一种基于大数据分析组件快速自定义
图表展现装置,由于该装置所解决问题的原理与前述实施例的一种基于大数据分析组件快速自定义图表展现方法相似,因此该装置的实施可以参见前述方法的实施,重复之处不再赘述。
[0081]
如图2所示,为本发明实施例提供的一种基于大数据分析组件快速自定义图表展现装置,可以用于执行上述方法实施例,该装置包括:
[0082]
数据获取模块201,用于获取用户上传的训练数据、测试数据以及相关的自定义配置数据;
[0083]
数据预处理模块202,用于对训练数据和测试数据进行清洗、转换、挖掘以及分类处理得到训练集和测试集;
[0084]
模型训练模块203,用于利用训练集和测试集对用户配置的分析组件模型进行训练和测试得到结果最优的预测模型;
[0085]
结果获取模块204,用于将用户配置的预测设定数据输入预测模型得到数据结果集;
[0086]
图表展示模块205,用于根据用户配置的图表类型及样式将数据结果集转换成相应的图形或图像进行展示。
[0087]
本发明实施例还提供一种基于大数据分析组件快速自定义图表展现装置,所述装置包括:
[0088]
处理器;
[0089]
存储器,其上存储有可在所述处理器上运行的计算机程序;
[0090]
其中,所述计算机程序被所述处理器执行时实现上述基于大数据分析组件快速自定义图表展现方法的步骤。
[0091]
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现上述的基于大数据分析组件快速自定义图表展现方法的步骤。
[0092]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1