本发明涉及计算机大数据领域,尤其涉及一种数据挖掘流程的分析洞察系统及方法。
背景技术:
分析洞察,是指用户运用机器学习算法进行挖掘分析的过程中对于分析流程中所有分析环节的执行结果进行洞悉,以便辅助分析师优化分析流程。在进行数据分析过程中,分析人员需要反复的调试算法的参数,而调试参数需要根据上一次运行结果作为依据,包括数据预处理结果、算法建模结果、模型评估结果等。这就需要有一套高效的、灵活的、全面的查看分析各个环节结果的洞察方法。
需要能够查看以下几方面的内容:
1.支持查看输出数据的预览及数据的统计信息,以便查看处理结果和数据分布信息;
2.支持查看数据预处理前和数据预处理后的数据预览,以便进行数据比对和查看数据变换;
3.支持以文字、图形、表格等形式查看数据加载、数据预处理、机器学习、模型评估、数据输出等各个环节的处理结果;
4.能够让用户查看节点处于整个流程中的位置,便于与其前后或并行节点的结果进行对比查看,同时能够方便用户随时查看节点参数的配置;
5.支持全部洞察内容自动生成分析报告,支持以文件方式导出,让用户能够线下使用。
由于用户构建的挖掘建模流程可能十分复杂,由多个功能模块连接而成。所以需要支持用户查看洞察内容时,能够对应的看到特定节点处于整个流程中的位置,便于与其前后或并行节点的结果进行对比查看。
rapidminer洞察的主要缺点:1)不能看到功能模块在整个流程的相对位置,只能通过切换页面根据节点名称自行对应查看。反复切换页面,操作不便。2)需要查看的节点洞察必须要把对应的节点连接上墙,导致连接线混乱;
另外,对于一些其它工具而言,如spssmodeler等,当用户构建完分析流程后,如果用户需要查看中间环节某个节点的运行结果,则需要将添加输出节点(如图表组件或编程输出)连接指定节点单独执行一次才能看到数据处理节点的执行结果数据,这样就会导致重复运行,效率低下,操作繁琐。
技术实现要素:
本发明提供了一种数据挖掘流程的分析洞察系统及方法,对用户创建的挖掘分析流程的全过程的观察和解析,并能够根据需求对控件中的参数信息进行修改,并即可对修改之后的参数信息进行验证,提供了使用便捷性。
实现本发明目的的技术方案如下:
一种数据挖掘流程的分析洞察系统,包括:显示单元和处理单元;
所述显示单元被配置为显示当前控件组,所述控件组至少包括一个以上控件;
当所述处理单元获得所述控件组的触发操作,所述显示单元响应所述触发操作并生成新的对话框内识别所述控件的属性信息。
在本发明的一个优选实施例中,所述属性信息包括内容元素和数据元素,以及页面显示样式信息。
在本发明的一个优选实施例中,所述触发操作包括单击或双击操作。
在本发明的一个优选实施例中,当触发操作为单击操作,则在新的对话框内查看控件属性信息;当触发操作为双击操作,则在新的对话框内显示控件的参数设置界面,所述参数设置为数据元素的设置。
在本发明的一个优选实施例中,所述显示单元包括主显示页面以及第一子显示界面;
所述主显示页面显示所有的控件组;
所述第一子显示界面用于显示生成新的对话框界面。
在本发明的一个优选实施例中,所述显示单元还包括第二子显示界面,所述第二子显示界面显示控件的参数设置界面。
在本发明的一个优选实施例中,所述控件包括单一控件,或组合控件,所述组合控件由若干个控件连接构成。
在本发明的一个优选实施例中,将所述控件组内包括的若干控件连通以实现数据传输;运行连通的若干个控件组,若所述数据传输过程中出现偏差,则对所述控件施加触发操作。
在本发明的一个优选实施例中,还包括页面预览单元,显示对应于该系统的多个页面的多个页面预览画面,并出现在除所述主显示页面、第一子显示界面以及第二子显示页面以外的其他区域。
通过以上技术方案,本发明的技术效果在于:
本发明对用户创建的挖掘分析流程的全过程的观察和解析,并能够根据需求对控件中的参数信息进行修改,并即可对修改之后的参数信息进行验证,提供了使用便捷性。
附图说明
图1为分析洞察系统的展示图一;
图2为分析洞察系统的展示图二;
图3为分析洞察系统的展示图三;
图4为分析洞察系统的展示图四;
图5为分析洞察系统的展示图五;
图6为分析洞察系统的展示图六;
图7为分析洞察系统的展示图七;
图8为分析洞察系统的展示图八。
具体实施方式
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
实施例1:
本实施例公开了一种数据挖掘流程的分析洞察系统,包括:显示单元和处理单元;所述显示单元被配置为显示当前控件组,所述控件组至少包括一个以上控件;当所述处理单元获得所述控件组的触发操作,所述显示单元响应所述触发操作并生成新的对话框内识别所述控件的属性信息。
优选属性信息包括内容元素和数据元素,以及页面显示样式信息。
如图1所示,显示单元为图1中的流程图区,图1中的iris-cluster、设置角色、数据拆分、c45+决策树分类、模型利用、测试集模型评估、训练集模型评估均为本实施例的控件,iris-cluster、设置角色、数据拆分、c45+决策树分类、模型利用、测试集模型评估、训练集模型评估显示在流程图区。
点击iris-cluster、设置角色、数据拆分、c45+决策树分类、模型利用、测试集模型评估或训练集模型评估中的任何一个控件,在图1流程区下方的洞察详情区生成一个新的对话框。
例如:点击训练集模型评估控件,在洞察详情区出现c45+决策树分类算法模型的准确率以及混淆矩阵。点击如图3所示的数据拆分控件,在洞察详情区出现训练集的输出数据统计列表,当然也能切换到测试集的输出数据统计列表。从而查看数据拆分控件的预测结果数据信息。点击如图4所示的c45+决策树分类控件,在洞察详情区出现c45+决策树分类的模型信息,从而查看模型信息。点击如图5所示的c45+决策树分类控件,在洞察详情区出现c45+决策树分类的信息,切换到数据集,查看输出数据和统计信息。点击如图6所示的训练集模型评估控件,在洞察详情区出现模型评估结果,该结果中包含iris-setosa、iris-versicolour,以及iris-virginica的准确率。
上述触发操作包括单击或双击操作;当触发操作为单击操作,则在新的对话框内查看控件属性信息;当触发操作为双击操作,则在新的对话框内显示控件的参数设置界面,所述参数设置为数据元素的设置。
显示单元包括主显示页面以及第一子显示界面;所述主显示页面显示所有的控件组;所述第一子显示界面用于显示生成新的对话框界面,还包括第二子显示界面,所述第二子显示界面显示控件的参数设置界面。
进一步地,如图1所示,点击任一控件,在图1流程区下方的洞察详情区(第一子显示界面)查看本控件的洞察信息,逐一点击多个控件后,在流程图区和洞察详情区之间的节点页签区显示多个控件对应的页签,通过页签切换也能查看本控件的洞察信息。
双击某个控件,弹出与该控件对应的参数设置界面。如图2所示,双击数据拆分控件,弹出数据拆分控件的参数设置界面(第二子显示界面),参数设置界面中显示有拆分个数、随机种子、训练集拆分比例、测试集拆分比例。
实施例2:
所述控件包括单一控件,或组合控件,所述组合控件由若干个控件连接构成。如图7所示,流程图区中可以显示有iris-cluster、子流程、多分支、逻辑回归分类、分类评估等控件,子流程为嵌套流程,点击子流程控件,查看子流程内部的属性过滤、缺失值处理、随机抽样、设置角色等控件(如图8所示),逐一点击可以查看属性过滤、缺失值处理、随机抽样、设置角色的洞察信息。点击主流程名称,回到主流程。
还包括页面预览单元,显示对应于该系统的多个页面的多个页面预览画面,并出现在除所述主显示页面、第一子显示界面以及第二子显示页面以外的其他区域。
即点击报告按钮,可对报告进行预览,并在预览界面点击下载报告,可将报告导出至本地word文档。
实施例3:
针对实施例1,实施例2的控件进行参数调整。
具体地,将所述控件组内包括的若干控件连通以实现数据传输;运行连通的若干个控件组,若所述数据传输过程中出现偏差,则对所述控件施加触发操作。
实施例4:
一种数据挖掘流程的分析洞察方法,包括:将控件组内的若干控件进行连接;查看并修改所述控件的属性信息;运行连接并形成数据流的控件组,并将生成的数据导出。
综上所述,对用户创建的挖掘分析流程的全过程的观察和解析,并能够根据需求对控件中的参数信息进行修改,并即可对修改之后的参数信息进行验证,提供了使用便捷性。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。