一种数据挖掘方法和系统与流程

文档序号：21362905发布日期：2020-07-04 04:37阅读：187来源：国知局

本发明涉及数据挖掘的技术领域，特别涉及一种数据挖掘方法和系统。

背景技术：

随着互联网和物联网技术的不断发展，采集得到的数据种类和数量也迅猛增加，并且数据量的增长速度也越来越快，从而形成相应的大数据。大数据具有海量性、分布性和异构性这三个特性，海量性主要是指数据规模的巨大并且增长速度持续增加，分布性主要体现在巨大的数据量不能在一台机器上存储计算和分析，异构性主要体现在数据类型和数据来源的多样化。利用传统的面向结构化数据的集中式处理方式，很难解决大数据带来的问题，针对这三个特性，面向大数据的集成、挖掘和清洗变得尤为重要。大数据同时还包含不确定性数据，现阶段不确定数据产生的原因比较多样化，主要体现在原始数据不准确、使用粗粒度数据集合、数据字段缺失以及数据集成。可见，现有技术针对大数据的挖掘处理模式并不能有效地提高对大数据的挖掘深度、效率和准确性。

技术实现要素：

针对现有技术存在的缺陷，本发明提供一种数据挖掘方法和系统，该数据挖掘方法和系统通过获取数据处理页面中不同数据业务工序对应的业务节点的实时状态，以此基于页面拖拽方式对该业务节点进行可视化的参数设置，根据该可视化的参数设置的结果，构建关于不同业务节点之间的数据交互链路，以此形成关于不同数据业务工序的工作流组合模式，在相应的工作流组合模式中，对该数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理，对经过该清洗与治理后的数据进行基于机器学习的自动分类处理，以此将分类后的数据反馈至相应的工作流组合模式的业务节点中；可见，该数据挖局方法和系统通过基于页面拖拽方式对所述业务节点进行可视化的参数设置，使用户能够直接参与到大数据业务的相关工作流自动化配置中，此外，其该通过相应的数据清洗框架对大数据依次进行检测、定位、修正和验证的不同清洗工序，以有效地清洗大数据中存在的非清洁数据，从而保证数据本身的有效性和精确性，并且还能够有效地提高对大数据的挖掘深度、效率和准确性。

本发明提供一种数据挖掘方法，其特征在于，所述数据挖掘方法包括如下步骤：

步骤s1，获取数据处理页面中不同数据业务工序对应的业务节点的实时状态，并结合所述实时状态和页面拖拽方式对所述业务节点进行可视化的参数设置；

步骤s2，根据所述可视化的参数设置的结果，构建关于不同业务节点之间的数据交互链路，以此形成关于不同数据业务工序的工作流组合模式；

步骤s3，在相应的工作流组合模式中，对所述数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理；

步骤s4，对经过所述清洗与治理后的数据进行基于机器学习的自动分类处理，以此将分类后的数据反馈至相应的工作流组合模式的业务节点中；

进一步，在所述步骤s1中，获取数据处理页面中不同数据业务工序对应的业务节点的实时状态，并结合所述实时状态和页面拖拽方式对所述业务节点进行可视化的参数设置具体包括，

步骤s101，获取所述数据处理页面中不同数据业务工序的数据量特征、数据分布特性和数据结构特征中的至少一者，以此确定每一个数据业务工序对应的业务节点的实时状态；

步骤s102，根据每一个数据业务工序对应的业务节点的实时状态，确定每一个数据业务工序对应的业务节点参数调整需求；

步骤s103，将相应的数据业务工序通过所述页面拖拽方式变换至可视化调整面板中，并根据所述业务节点参数调整需求，对所述业务节点进行可视化的参数设置；

进一步，在所述步骤s2中，根据所述可视化的参数设置的结果，构建关于不同业务节点之间的数据交互链路，以此形成关于不同数据业务工序的工作流组合模式具体包括，

步骤s201，根据所述可视化的参数设置的结果，确定每一个数据业务工序的业务节点对应的数据计算荷载属性和/或数据流传输属性；

步骤s202，根据所述数据计算荷载属性和/或所述数据流传输属性，确定不同数据业务工序之间关于业务节点的接合匹配关系，以此构建关于不同业务节点之间的数据交互链路；

步骤s203，根据所述数据交互链路，形成至少关于数据逻辑关系拖拽布局业务工序、数据过滤业务工序、字段扩展业务工序、数据统计运算业务工序、数据碰撞运算业务工序、分析结果展现业务工序、excel/csv数据导入业务工序、hdfs文件处理业务工序中jdbc数据库操作业务工序相互之间的工作流组合模式；

进一步，在所述步骤s3中，在相应的工作流组合模式中，对所述数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理具体包括，

步骤s301，在相应的工作流组合模式中，根据所述工作流组合模式中的数据需求信息、大数据类别信息和数据任务信息，准备并确定相应的数据清洗方案；

步骤s302，根据所述数据清洗方案，对目标数据集合进行检测，以此获得所述目标数据集合的数据质量信息；

步骤s303，根据所述数据质量信息，确定所述目标数据集合中非清洁数据的类别与位置信息；

步骤s304，根据所述非清洁数据的类别与位置信息，以此对所述目标数据集合进行修正；

步骤s305，将经过所述修正的所述目标数据集合，进行适应性的数据验证处理，以此实现所述清洗与治理；

进一步，在所述步骤s4中，对经过所述清洗与治理后的数据进行基于机器学习的自动分类处理，以此将分类后的数据反馈至相应的工作流组合模式的业务节点中具体包括，

步骤s401，构建关于预定词汇集合的机器学习模型，并对所述机器学习模型进行优化；

步骤s402，将经过所述清洗与治理后的数据输入至优化后的所述机器学习模型，以此实现所述自动分类处理，其中所述自动分类处理具体包含，

第一，根据下面公式(1)，确定分类集合，

r＝{r1,r2,…rn}(1)

在上述公式(1)中，r为所述分类集合，ri为所述分类集合中对应的第i个类别，i＝1、2、…、n，n为类别总数量；

第二，根据下面公式(2)，确定经过所述清洗与治理后的数据被划分到每个类别的概率，

在上述公式(2)中，p(ri|w)为经过所述清洗与治理后的数据被划分到每i个类别的概率，p(ri)为第i个类别对应的先验概率，rij为第i个类别对应的第j个特征，p(ri|xj)为第i个类别产生第i个特征的概率，p(w)为经过所述清洗与治理后的数据自身对应的概率；

第三，根据下面公式(3)，确定经过所述清洗与治理后的数据的最终划分类别，

γ＝max{p(ri|w)}(3)

在上述公式(3)中，γ为经过所述清洗与治理后的数据的最终划分类别对应的概率，p(ri|w)为经过所述清洗与治理后的数据被划分到每i个类别的概率，max为取最大值运算，当经过所述清洗与治理后的数据被划分到第i类别的概率为最大时，则将经过所述清洗与治理后的数据最终划分为第i类别；

步骤s403，将分类后的数据通过相应的数据反馈通道回送至相应的工作流组合模式的业务节点中。

本发明还提供一种数据挖掘系统，其特征在于：

所述数据挖掘系统包括业务节点设置模块、工作流组合模块、数据清洗与治理模块和数据自动分类模块；其中，

所述业务节点设置模块用于获取数据处理页面中不同数据业务工序对应的业务节点的实时状态，并结合所述实时状态和页面拖拽方式对所述业务节点进行可视化的参数设置；

所述工作流组合模块用于根据所述可视化的参数设置的结果，构建关于不同业务节点之间的数据交互链路，以此形成关于不同数据业务工序的工作流组合模式；

所述数据清洗与治理模块用于在相应的工作流组合模式中，对所述数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理；

所述数据自动分类模块用于对经过所述清洗与治理后的数据进行基于机器学习的自动分类处理，以此将分类后的数据反馈至相应的工作流组合模式的业务节点中；

进一步，所述业务节点设置模块包括业务节点实时状态确定子模块、业务节点参数调整需求确定子模块和可视化参数设置子模块；其中，

所述业务节点实时状态确定子模块用于根据所述数据处理页面中不同数据业务工序的数据量特征、数据分布特性和数据结构特征中的至少一者，确定每一个数据业务工序对应的业务节点的实时状态；

所述业务节点参数调整需求确定子模块用于根据每一个数据业务工序对应的业务节点的实时状态，确定每一个数据业务工序对应的业务节点参数调整需求；

所述可视化参数设置子模块用于将相应的数据业务工序通过所述页面拖拽方式变换至可视化调整面板中，并根据所述业务节点参数调整需求，对所述业务节点进行可视化的参数设置；

进一步，所述工作流组合模块包括数据属性确定子模块、数据交互链路构建子模块和工作流组合模式形成子模块；其中，

所述数据属性确定子模块用于根据所述可视化的参数设置的结果，确定每一个数据业务工序的业务节点对应的数据计算荷载属性和/或数据流传输属性；

所述数据交互链路构建子模块用于根据所述数据计算荷载属性和/或所述数据流传输属性，确定不同数据业务工序之间关于业务节点的接合匹配关系，以此构建关于不同业务节点之间的数据交互链路；

所述工作流组合模式形成子模块用于根据所述数据交互链路，形成至少关于数据逻辑关系拖拽布局业务工序、数据过滤业务工序、字段扩展业务工序、数据统计运算业务工序、数据碰撞运算业务工序、分析结果展现业务工序、excel/csv数据导入业务工序、hdfs文件处理业务工序中jdbc数据库操作业务工序相互之间的工作流组合模式；

进一步，所述数据清洗与治理模块包括数据清洗方案确定子模块、数据质量信息确定子模块、非清洁数据类别与位置确定子模块、目标数据集合修正子模块和数据验证子模块；其中，

所述数据清洗方案确定子模块用于在相应的工作流组合模式中，根据所述工作流组合模式中的数据需求信息、大数据类别信息和数据任务信息，准备并确定相应的数据清洗方案；

所述数据质量信息确定子模块用于根据所述数据清洗方案，对目标数据集合进行检测，以此获得所述目标数据集合的数据质量信息；

所述非清洁数据类别与位置确定子模块用于根据所述数据质量信息，确定所述目标数据集合中非清洁数据的类别与位置信息；

所述目标数据集合修正子模块用于根据所述非清洁数据的类别与位置信息，以此对所述目标数据集合进行修正；

所述数据验证子模块用于将经过所述修正的所述目标数据集合，进行适应性的数据验证处理，以此实现所述清洗与治理；

进一步，所述数据自动分类模块包括机械学习模型构建子模块、自动分类处理子模块和数据回送子模块；其中，

所述机械学习模型构建子模块用于构建关于预定词汇集合的机器学习模型，并对所述机器学习模型进行优化；

所述自动分类处理子模块用于将经过所述清洗与治理后的数据输入至优化后的所述机器学习模型，以此实现所述自动分类处理；

所述数据回送子模块用于将分类后的数据通过相应的数据反馈通道回送至相应的工作流组合模式的业务节点中。

相比于现有技术，该数据挖掘方法和系统通过获取数据处理页面中不同数据业务工序对应的业务节点的实时状态，以此基于页面拖拽方式对该业务节点进行可视化的参数设置，根据该可视化的参数设置的结果，构建关于不同业务节点之间的数据交互链路，以此形成关于不同数据业务工序的工作流组合模式，在相应的工作流组合模式中，对该数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理，对经过该清洗与治理后的数据进行基于机器学习的自动分类处理，以此将分类后的数据反馈至相应的工作流组合模式的业务节点中；可见，该数据挖局方法和系统通过基于页面拖拽方式对所述业务节点进行可视化的参数设置，使用户能够直接参与到大数据业务的相关工作流自动化配置中，此外，其该通过相应的数据清洗框架对大数据依次进行检测、定位、修正和验证的不同清洗工序，以有效地清洗大数据中存在的非清洁数据，从而保证数据本身的有效性和精确性，并且还能够有效地提高对大数据的挖掘深度、效率和准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种数据挖掘方法的流程示意图。

图2为本发明提供的一种数据挖掘系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，为本发明实施例提供的一种数据挖掘方法的流程示意图。该数据挖掘方法包括如下步骤：

步骤s2，根据该可视化的参数设置的结果，构建关于不同业务节点之间的数据交互链路，以此形成关于不同数据业务工序的工作流组合模式，其中，该工作流组合模式可为但不限于是不同业务节点执行关于数据接收拦截、数据编辑更改或者数据提取存储的数据业务工序时，相应的数据流传送方向变更模式和/或指令流传送方向变更模式；

步骤s3，在相应的工作流组合模式中，对该数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理；

步骤s4，对经过该清洗与治理后的数据进行基于机器学习的自动分类处理，以此将分类后的数据反馈至相应的工作流组合模式的业务节点中。

优选地，在该步骤s1中，获取数据处理页面中不同数据业务工序对应的业务节点的实时状态，并结合该实时状态和页面拖拽方式对该业务节点进行可视化的参数设置具体包括，

步骤s101，获取该数据处理页面中不同数据业务工序的数据量特征、数据分布特性和数据结构特征中的至少一者，以此确定每一个数据业务工序对应的业务节点的实时状态；

步骤s102，根据每一个数据业务工序对应的业务节点的实时状态，确定每一个数据业务工序对应的业务节点参数调整需求；

步骤s103，将相应的数据业务工序通过该页面拖拽方式变换至可视化调整面板中，并根据该业务节点参数调整需求，对该业务节点进行可视化的参数设置。

优选地，在该步骤s2中，根据该可视化的参数设置的结果，构建关于不同业务节点之间的数据交互链路，以此形成关于不同数据业务工序的工作流组合模式具体包括，

步骤s201，根据该可视化的参数设置的结果，确定每一个数据业务工序的业务节点对应的数据计算荷载属性和/或数据流传输属性；

步骤s202，根据该数据计算荷载属性和/或该数据流传输属性，确定不同数据业务工序之间关于业务节点的接合匹配关系，以此构建关于不同业务节点之间的数据交互链路；

步骤s203，根据该数据交互链路，形成至少关于数据逻辑关系拖拽布局业务工序、数据过滤业务工序、字段扩展业务工序、数据统计运算业务工序、数据碰撞运算业务工序、分析结果展现业务工序、excel/csv数据导入业务工序、hdfs文件处理业务工序中jdbc数据库操作业务工序相互之间的工作流组合模式。

优选地，在该步骤s3中，在相应的工作流组合模式中，对该数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理具体包括，

步骤s301，在相应的工作流组合模式中，根据该工作流组合模式中的数据需求信息、大数据类别信息和数据任务信息，准备并确定相应的数据清洗方案；

步骤s302，根据该数据清洗方案，对目标数据集合进行检测，以此获得该目标数据集合的数据质量信息；

步骤s303，根据该数据质量信息，确定该目标数据集合中非清洁数据的类别与位置信息；

步骤s304，根据该非清洁数据的类别与位置信息，以此对该目标数据集合进行修正；

步骤s305，将经过该修正的该目标数据集合，进行适应性的数据验证处理，以此实现该清洗与治理。

优选地，在该步骤s4中，对经过该清洗与治理后的数据进行基于机器学习的自动分类处理，以此将分类后的数据反馈至相应的工作流组合模式的业务节点中具体包括，

步骤s401，构建关于预定词汇集合的机器学习模型，并对该机器学习模型进行优化；

步骤s402，将经过该清洗与治理后的数据输入至优化后的该机器学习模型，以此实现该自动分类处理，其中该自动分类处理具体包含，

第一，根据下面公式(1)，确定分类集合，

r＝{r1,r2,…rn}(1)

在上述公式(1)中，r为该分类集合，ri为该分类集合中对应的第i个类别，i＝1、2、…、n，n为类别总数量；

第二，根据下面公式(2)，确定经过该清洗与治理后的数据被划分到每个类别的概率，

在上述公式(2)中，p(ri|w)为经过该清洗与治理后的数据被划分到每i个类别的概率，p(ri)为第i个类别对应的先验概率，rij为第i个类别对应的第j个特征，p(ri|xj)为第i个类别产生第i个特征的概率，p(w)为经过该清洗与治理后的数据自身对应的概率；

第三，根据下面公式(3)，确定经过该清洗与治理后的数据的最终划分类别，

γ＝max{p(ri|w)}(3)

在上述公式(3)中，γ为经过该清洗与治理后的数据的最终划分类别对应的概率，p(ri|w)为经过该清洗与治理后的数据被划分到每i个类别的概率，max为取最大值运算，当经过该清洗与治理后的数据被划分到第i类别的概率为最大时，则将经过该清洗与治理后的数据最终划分为第i类别；

步骤s403，将分类后的数据通过相应的数据反馈通道回送至相应的工作流组合模式的业务节点中；

通过上述自动分类处理过程，能够简单地和快速地将经过清洗与治理后的数据划分到合适的分类类别中，从而提高对数据进行分类类别划分的精确度和有效性，以此适应于不同的复杂数据情况。

参阅图2，为本发明实施例提供的一种数据挖掘系统的结构示意图。该数据挖掘系统包括业务节点设置模块、工作流组合模块、数据清洗与治理模块和数据自动分类模块；其中，

该业务节点设置模块用于获取数据处理页面中不同数据业务工序对应的业务节点的实时状态，并结合该实时状态和页面拖拽方式对该业务节点进行可视化的参数设置；

该工作流组合模块用于根据该可视化的参数设置的结果，构建关于不同业务节点之间的数据交互链路，以此形成关于不同数据业务工序的工作流组合模式；

该数据清洗与治理模块用于在相应的工作流组合模式中，对该数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理；

该数据自动分类模块用于对经过该清洗与治理后的数据进行基于机器学习的自动分类处理，以此将分类后的数据反馈至相应的工作流组合模式的业务节点中。

优选地，该业务节点设置模块包括业务节点实时状态确定子模块、业务节点参数调整需求确定子模块和可视化参数设置子模块；其中，

该业务节点实时状态确定子模块用于根据该数据处理页面中不同数据业务工序的数据量特征、数据分布特性和数据结构特征中的至少一者，确定每一个数据业务工序对应的业务节点的实时状态；

该业务节点参数调整需求确定子模块用于根据每一个数据业务工序对应的业务节点的实时状态，确定每一个数据业务工序对应的业务节点参数调整需求；

该可视化参数设置子模块用于将相应的数据业务工序通过该页面拖拽方式变换至可视化调整面板中，并根据该业务节点参数调整需求，对该业务节点进行可视化的参数设置。

优选地，该工作流组合模块包括数据属性确定子模块、数据交互链路构建子模块和工作流组合模式形成子模块；其中，

该数据属性确定子模块用于根据该可视化的参数设置的结果，确定每一个数据业务工序的业务节点对应的数据计算荷载属性和/或数据流传输属性；

该数据交互链路构建子模块用于根据该数据计算荷载属性和/或该数据流传输属性，确定不同数据业务工序之间关于业务节点的接合匹配关系，以此构建关于不同业务节点之间的数据交互链路；

该工作流组合模式形成子模块用于根据该数据交互链路，形成至少关于数据逻辑关系拖拽布局业务工序、数据过滤业务工序、字段扩展业务工序、数据统计运算业务工序、数据碰撞运算业务工序、分析结果展现业务工序、excel/csv数据导入业务工序、hdfs文件处理业务工序中jdbc数据库操作业务工序相互之间的工作流组合模式。

优选地，该数据清洗与治理模块包括数据清洗方案确定子模块、数据质量信息确定子模块、非清洁数据类别与位置确定子模块、目标数据集合修正子模块和数据验证子模块；其中，

该数据清洗方案确定子模块用于在相应的工作流组合模式中，根据该工作流组合模式中的数据需求信息、大数据类别信息和数据任务信息，准备并确定相应的数据清洗方案；

该数据质量信息确定子模块用于根据该数据清洗方案，对目标数据集合进行检测，以此获得该目标数据集合的数据质量信息；

该非清洁数据类别与位置确定子模块用于根据该数据质量信息，确定该目标数据集合中非清洁数据的类别与位置信息；

该目标数据集合修正子模块用于根据该非清洁数据的类别与位置信息，以此对该目标数据集合进行修正；

该数据验证子模块用于将经过该修正的该目标数据集合，进行适应性的数据验证处理，以此实现该清洗与治理。

优选地，该数据自动分类模块包括机械学习模型构建子模块、自动分类处理子模块和数据回送子模块；其中，

该机械学习模型构建子模块用于构建关于预定词汇集合的机器学习模型，并对该机器学习模型进行优化；

该自动分类处理子模块用于将经过该清洗与治理后的数据输入至优化后的该机器学习模型，以此实现该自动分类处理；

该数据回送子模块用于将分类后的数据通过相应的数据反馈通道回送至相应的工作流组合模式的业务节点中。

从上述实施例的内容可知，该数据挖局方法和系统通过基于页面拖拽方式对该业务节点进行可视化的参数设置，使用户能够直接参与到大数据业务的相关工作流自动化配置中，此外，其该通过相应的数据清洗框架对大数据依次进行检测、定位、修正和验证的不同清洗工序，以有效地清洗大数据中存在的非清洁数据，从而保证数据本身的有效性和精确性，并且还能够有效地提高对大数据的挖掘深度、效率和准确性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金震;杨海建;孙卫东;安杰
技术所有人：北京三维天地科技股份有限公司
我是此专利的发明人

上一篇：基于雾联盟链的安全分布式聚合与访问系统及方法与流程
上一篇：一种通过激光雷达分选矿石的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。