基于模型评估的大数据挖掘分析系统及其分析方法与流程

文档序号:11582704阅读:455来源:国知局
基于模型评估的大数据挖掘分析系统及其分析方法与流程

本发明涉及计算机领域,特别是涉及一种基于模型评估的大数据挖掘分析系统。本发明还涉及一种基于模型评估的大数据挖掘分析方法。



背景技术:

大数据技术发展迅猛,数据技术从早期在单机上处理单一类型的数据,发展到当前在计算机集群上处理多类型的数据,实现时间宽松的数据分析应用。随着数据量发展到pb、eb级甚至更大,并且要求更快的处理分析时间,大数据专用计算机、异地分布式计算机集群、多类型多来源数据的处理和分析、数据网络等复杂结构数据的分析、秒级时间分析等通用技术以及各种面向领域的应用技术是大数据技术的发展趋势。以hdfs、gfs、mapreduce、hadoop、spark、storm、hbase、mongodb等为代表的大数据通用技术和开源项目迅猛发展,大数据预处理技术是大数据处理过程中必不可少的一个环节。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过算法,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它主要是基于机器学习、统计、神经网络和数据库等诸多方法来实现上述目标。

目前,大数据挖掘分析方法中,研究人员根据业务数据构建固定的模型,然后根据模型对数据进行挖掘分析,但是没有根据业务需求进行建模的;没有结合人工经验,自适应业务模型的;没有对模型进行评估,设定等级后,对模型进行智能选取的。由于大数据挖掘是面向多行业、多领域的,所构建的模型的好坏往往会影响数据挖掘分析结果的分析准确度,难以支撑面向行业领域的决策支持。因此,需要根据业务模型自动调整,并对模型进行评估的大数据挖掘分析方法。



技术实现要素:

本发明要解决的技术问题是本申请所要解决的技术问题是提供一种面向多行业、多领域的业务需求基于模型评估的大数据挖掘分析系统。本发明还提供了一种基于模型评估的大数据挖掘分析方法。

为解决上述技术问题,本发明提供的基于模型评估的大数据挖掘分析系统,包括:分布式存储管理模块、业务模型构建模块、模型评估模块、算法工具库和挖掘分析模块;

分布式存储管理模块,对整个大数据挖掘分析系统所有的数据进行统一的标准格式存储;存储的数据至少包括:样本数据、测试数据、待分析数据、分析结果、人工经验库、算法工具库和业务模型库等。

样本库,业务人员在数据分析过程中积累的典型的历史数据;

人工经验库,将业务人员长期工作得出的数据分析经验转化为计算机可识别的数据。

业务模型构建模块,根据人工经验库,提取样本数据中的数据项,对不同的数据项进行组合运算形成数据集,再将数据集根据业务需求选择算法参数和算法,构建相应的业务模型。

模型评估模块,对已构建的业务模型通过模型评估指标评估等级,获得已构建业务模型的评估等级,选择评估等级最优的业务模型作为本系统业务模型;其中,模型评估指标评包括:业务模型的计算效率和业务模型的分析准确度;

算法工具库,设置有统一标准的算法接口,包括两种算法引擎集合,用于构建业务模型和或数据挖掘分析;其中,每一种算法引擎集合至少包括一种算法引擎,每一算法引擎包含至少一种算法;

挖掘分析模块,根据不同行业的数据挖掘要求,选择算法工具库中的数据挖掘分析算法。

其中,所述算法工具库,包括:构建业务模型算法引擎集合包括:分类算法引擎、社会网络分析算法引擎和或图形算法引擎;挖掘分析引擎集合包括:态势型分析算法引擎、预警型分析算法引擎和或评估型分析算法引擎。

分类算法引擎,用于业务模型构建和挖掘分析请求时,使用分类算法引擎中的一种或几种算法进行相互协作,共同完成一批数据的分类。通过比对选择的一个或多个算法对应的模型在模型评价体系中分析结果的分析准确度,对每个算法设定权重,并对分类结果进行加权计算,从而通过多个算法对一批数据进行分析,有效地提高了分类准确率。常用的分类算法有支持向量机(svm)分类算法、贝叶斯(bayes)分类算法、人工神经网络(ann)。

社会网络分析算法引擎用于业务模型构建和挖掘分析请求时,使用社会网络分析法分析数据之间的关系;社会网络分析算法引擎包括的算法其基本原理都是基于社会网络 分析法,主要通过数据与数据之间的关系分析,将数据作为图的节点、数据与数据之间的关系作为图的边来构建社会网络图。

图形算法引擎用于挖掘分析请求时,使用图形算法引擎中的布局算法和分析算法,对挖掘分析结果进行展现分析;图形算法引擎主要是通过图形的方式展现数据与数据之间的关系,并用分析算法对图形中的节点及节点之间的关系进行解析。常用的图形算法有布局算法、聚类分析算法。

态势型分析引擎有统计模型和分析钻取模型两种形式。统计模型通过对数据的定向聚合统计将信息以统计报表,提供同期比较及态势预测功能。态势分布引擎能够快速、高效地实现跨业务数据种类的动态数据关联统计。分析钻取模型属于动态立体多维数据展示方式,通过对数据的交叉聚合钻取分析将信息以动态多维报表方式及多维立体图形方式展示,并且提供多维比较及态势定向功能。

预警型分析引擎,通过综合分析各类业务信息、确定战略战术、引导全局,达到预警提示的作用。预警型分析引擎包含两大组成部分:分析模型管理和知识库维护,对每一组数据结果进行概率和比例计算,从而得出结论并发布。

评估型分析引擎,通过历史数据及现状和外围客观条件较为准确的评估出当前的形式以及预测下期走势。评估型分析引擎是基于关联分析算法和统计学原理,在各类数据之间建立紧密的关联关系,并描绘出其关系走势曲线和公式计算。

挖掘分析模块,根据不同行业的数据挖掘要求,选择算法工具库中的数据挖掘分析算法。

其中,所述业务模型构建模块,建构业务模型采用以下方式:

s201:根据业务需求,从统一标准格式存储的数据中抽取所需的样本数据;

s202:根据人工经验库,提取样本数据中的数据项,对不同的数据项进行组合运算,并从算法工具库中选择算法参数,并选择算法;

s203:根据所选取的算法参数和算法,选择不同的数据参数,构建至少一个业务模型;

s204:所构建的业务模型,通过提取分析结果中的典型数据完善样本库及数据存在的特征不断的调整和完善模型,直至业务模型评估等级达到预设业务模型评估等级阈值。

其中,所述算法参数包括:待分类数据路径、模型路径、结果路径、阈值、基本元素、节点、权值;

其中,所述模型评估模块,评估业务模型采用以下方式:

s301:输入业务模型,从统一标准格式存储的数据中抽取测试数据;

s302:运用测试数据测试业务模型的计算效率,并与人工经验库比对,分析业务模型的分析准确度;

按照已设定的模型评估指标评获得业务模型评估等级,根据业务模型的计算效率和分析准确度为业务模型评估其等级;

s303:根据业务模型评估等级选择最优的业务模型存储于的业务模型库中;若所构建的业务模型的评估等级不能达到预设评估等级阈值,则重新构建业务模型。

其中,所述业务模型评估等级为:

a,很好,通过业务模型的分析准确度为大于等于85%,业务模型的计算效率评级为a;

b,好,通过业务模型的分析准确度为大于等于80%小于85%,业务模型的计算效率评级为b;

c,一般,通过业务模型的分析准确度为大于等于80%小于85%,业务模型的计算效率评级为c;

d,差,通过业务模型的分析准确度为小于80%,业务模型的计算效率评级为c。

业务模型的分析准确度通过将系统分析结果与业务人员分析的结果进行比对获得;

业务模型的计算效率评级通过不同的业务模型采用相同计算条件和相同的测试数据计算获得;计算效率评级,能根据业务需求、计算条件、数据量和或计算时间等设定。计算条件主要是指:硬件计算能力(计算机硬件配置),分布式计算分布点的数量,网络传输速度等。

其中,评估等级阈值为b。

本发明提供的一种基于模型评估的大数据挖掘分析方法,包括以下步骤:

第1步,将原始大数据进行统一的标准格式存储;

第2步,对统一标准格式存储的数据根据不同行业的需求选择相应算法构建业务模型;

第3步,对已构建的业务模型通过模型评估指标评估等级获得已构建业务模型的评估等级,选择评估等级最优的业务模型作为本系统业务模型;模型评估指标评包括:业务模型的计算效率和业务模型的分析准确度;

第4步,形成设置有统一标准的算法接口算法工具库,算法工具库中设置至少两种算法引擎集合,用于构建业务模型和或数据挖掘分析;其中,每一种算法引擎集合至少包括一种算法引擎,每一算法引擎包含至少一种算法;

第5步,根据不同行业的数据挖掘要求,选择算法工具库中数据挖掘分析算法。

其中,所述算法工具库,包括:构建业务模型算法引擎集合包括:分类算法引擎、社会网络分析算法引擎和或图形算法引擎;挖掘分析引擎集合包括:态势型分析算法引擎、预警型分析算法引擎和或评估型分析算法引擎。

其中,建构业务模型采用以下方式:

s201:根据业务需求,从统一标准格式存储的数据中抽取所需的样本数据;

s202:根据人工经验库,提取样本数据中的数据项,对不同的数据项进行组合运算,并从算法工具库中选择算法参数,并选择算法;

s203:根据所选取的算法参数和算法,选择不同的数据参数,构建至少一个业务模型;

s204:所构建的业务模型,通过提取分析结果中的典型数据完善样本库及数据存在的特征不断的调整和完善模型,直至业务模型评估等级达到预设业务模型评估等级阈值。

其中,所述算法参数包括:待分类数据路径、模型路径、结果路径、阈值、基本元素、节点、权值;

其中,评估业务模型采用以下方式:

s301:输入业务模型,从统一标准格式存储的数据中抽取测试数据;

s302:运用测试数据测试业务模型的计算效率,并与人工经验库比对,分析业务模型的分析准确度;

按照已设定的模型评估指标评获得业务模型评估等级,根据业务模型的计算效率和分析准确度为业务模型评估其等级;

s303:根据业务模型评估等级选择最优的业务模型存储于的业务模型库中;若所构 建的业务模型的评估等级不能达到预设评估等级阈值,则重新构建业务模型。

其中,所述业务模型评估等级为:

a,很好,通过业务模型的分析准确度为大于等于85%,业务模型的计算效率评级为a;

b,好,通过业务模型的分析准确度为大于等于80%小于85%,业务模型的计算效率评级为b;

c,一般,通过业务模型的分析准确度为大于等于80%小于85%,业务模型的计算效率评级为c;

d,差,通过业务模型的分析准确度为小于80%,业务模型的计算效率评级为c。

业务模型的分析准确度通过将系统分析结果与业务人员分析的结果进行比对获得;

业务模型的计算效率评级通过不同的业务模型采用相同计算条件和相同的测试数据计算获得;计算效率评级,能根据业务需求、计算条件、数据量和或计算时间等设定。其中,评估等级阈值为b。

本发明基于模型评估的大数据挖掘分析方法及系统。面向多行业、多领域的业务需求,根据样本数据的特征,选择至少一种算法和算法参数进行建模,结合人工经验库,不断调整和完善业务模型。通过业务模型的计算效率和分析分析准确度等评估标准,对所建模型进行模型评估,自动地、智能地选择最优的业务模型。然后调用相应的至少一种挖掘分析引擎进行数据挖掘分析,实现面向行业领域的支撑系统。

附图说明

下面结合附图与具体实施方式对本发明作进一步详细的说明:

图1是本发明大数据挖掘分析系统的结构示意图。

图2是本发明业务模型构建流程示意图。

图3是本发明业务模型评估流程示意图。

图4是本发明算法工具库的结构示意图。

图5是挖掘分析引擎集合结构示意图。

具体实施方式

本发明提供的基于模型评估的大数据挖掘分析系统,包括:分布式存储管理模块、业务模型构建模块、模型评估模块、算法工具库和挖掘分析模块;

分布式存储管理模块,对整个大数据挖掘分析系统所有的数据进行统一的标准格式存储;存储的数据至少包括:样本数据、测试数据、待分析数据、分析结果、人工经验库、算法工具库和业务模型库。

业务模型构建模块,根据人工经验库,提取样本数据中的数据项,对不同的数据项进行组合运算形成数据集,再将数据集根据业务需求选择算法参数和算法,构建相应的业务模型。模型的构建是一个不断调整、不断完善的过程,后期可通过提取分析结果中的典型数据完善样本库及数据存在的特征不断的调整和完善模型,直至模型达到最优。

模型评估模块,对已构建的业务模型通过模型评估指标评估等级,获得已构建业务模型的评估等级,选择评估等级最优的业务模型作为本系统业务模型;其中,模型评估指标评包括:业务模型的计算效率和业务模型的分析准确度;

算法工具库,设置有统一标准的算法接口,包括两种算法引擎集合,用于构建业务模型和或数据挖掘分析;其中,每一种算法引擎集合至少包括一种算法引擎,每一算法引擎包含至少一种算法;

挖掘分析模块,根据不同行业的数据挖掘要求,选择算法工具库中的数据挖掘分析算法。

其中,所述算法工具库,包括:构建业务模型算法引擎集合包括:分类算法引擎、社会网络分析算法引擎和或图形算法引擎;挖掘分析引擎集合包括:态势型分析算法引擎、预警型分析算法引擎和或评估型分析算法引擎。

挖掘分析模块,根据不同行业的数据挖掘要求,选择算法工具库中的数据挖掘分析算法。

其中,所述业务模型构建模块,建构业务模型采用以下方式:

s201:根据业务需求,从统一标准格式存储的数据中抽取所需的样本数据;

s202:根据人工经验库,提取样本数据中的数据项,对不同的数据项进行组合运算,并从算法工具库中选择算法参数,并选择算法;

s203:根据所选取的算法参数和算法,选择不同的数据参数,构建至少一个业务模型;

s204:所构建的业务模型,通过提取分析结果中的典型数据完善样本库及数据存在的特征不断的调整和完善模型,直至业务模型评估等级达到预设业务模型评估等级阈 值。

其中,所述算法参数包括:待分类数据路径、模型路径、结果路径、阈值、基本元素、节点、权值;

所述算法包括分类算法、社会网络分析算法、图形算法。

其中,所述模型评估模块,评估业务模型采用以下方式:

s301:输入业务模型,从统一标准格式存储的数据中抽取测试数据;

s302:运用测试数据测试业务模型的计算效率,并与人工经验库比对,分析业务模型的分析准确度;

按照已设定的模型评估指标评获得业务模型评估等级,根据业务模型的计算效率和分析准确度为业务模型评估其等级;

s303:根据业务模型评估等级选择最优的业务模型存储于的业务模型库中;若所构建的业务模型的评估等级不能达到预设评估等级阈值,则重新构建业务模型。

其中,所述业务模型评估等级为:

a,很好,通过业务模型的分析准确度为大于等于85%,业务模型的计算效率评级为a;

b,好,通过业务模型的分析准确度为大于等于80%小于85%,业务模型的计算效率评级为b;

c,一般,通过业务模型的分析准确度为大于等于80%小于85%,业务模型的计算效率评级为c;

d,差,通过业务模型的分析准确度为小于80%,业务模型的计算效率评级为c。

业务模型的分析准确度通过将系统分析结果与业务人员分析的结果进行比对获得;

业务模型的计算效率评级,通过不同的业务模型采用相同计算条件和相同的测试数据计算获得;计算效率评级,能根据业务需求、计算条件、数据量和或计算时间等设定。兹举一可行实施例用于说明,业务模型计算效率评级设定。

采用相同计算条件和相同测试数据,对不同业务模型进行测试,评定其业务模型计算效率评级,例如:

a,数据量在104-105时,耗时1-5小时;

b,数据量在104-105时,耗时5-10小时;

c,数据量在104-105时,耗时大于10小时。

即,计算条件相同,测试数据相同,数据量相同,通过计算所需时间评价业务模型计算效率评级。同样,也可以采用计算条件相同,测试时间相同,能计算不同数据量来进行计算效率评级。

其中,评估等级阈值为b。

本发明提供的一种基于模型评估的大数据挖掘分析方法,包括以下步骤:

第1步,将原始大数据进行统一的标准格式存储;

第2步,对统一标准格式存储的数据根据不同行业的需求选择相应算法构建业务模型;

第3步,对已构建的业务模型通过模型评估指标评估等级获得已构建业务模型的评估等级,选择评估等级最优的业务模型作为本系统业务模型;模型评估指标评包括:业务模型的计算效率和业务模型的分析准确度;

第4步,形成设置有统一标准的算法接口算法工具库,算法工具库中设置至少两种算法引擎集合,用于构建业务模型和或数据挖掘分析;其中,每一种算法引擎集合至少包括一种算法引擎,每一算法引擎包含至少一种算法;

第5步,根据不同行业的数据挖掘要求,选择算法工具库中数据挖掘分析算法。

其中,所述算法工具库,包括:构建业务模型算法引擎集合包括:分类算法引擎、社会网络分析算法引擎和或图形算法引擎;挖掘分析引擎集合包括:态势型分析算法引擎、预警型分析算法引擎和或评估型分析算法引擎。

其中,建构业务模型采用以下方式:

s201:根据业务需求,从统一标准格式存储的数据中抽取所需的样本数据;

s202:根据人工经验库,提取样本数据中的数据项,对不同的数据项进行组合运算,并从算法工具库中选择算法参数,并选择算法;

s203:根据所选取的算法参数和算法,选择不同的数据参数,构建至少一个业务模型;

s204:所构建的业务模型,通过提取分析结果中的典型数据完善样本库及数据存在的特征不断的调整和完善模型,直至业务模型评估等级达到预设业务模型评估等级阈值。

其中,所述算法参数包括:待分类数据路径、模型路径、结果路径、阈值、基本元素、节点、权值;

所述算法包括分类算法、社会网络分析算法、图形算法。

其中,评估业务模型采用以下方式:

s301:输入业务模型,从统一标准格式存储的数据中抽取测试数据;

s302:运用测试数据测试业务模型的计算效率,并与人工经验库比对,分析业务模型的分析准确度;

按照已设定的模型评估指标评获得业务模型评估等级,根据业务模型的计算效率和分析准确度为业务模型评估其等级;

s303:根据业务模型评估等级选择最优的业务模型存储于的业务模型库中;若所构建的业务模型的评估等级不能达到预设评估等级阈值,则重新构建业务模型。

其中,所述业务模型评估等级为:

a,很好,通过业务模型的分析准确度为大于等于85%,业务模型的计算效率评级为a;

b,好,通过业务模型的分析准确度为大于等于80%小于85%,业务模型的计算效率评级为b;

c,一般,通过业务模型的分析准确度为大于等于80%小于85%,业务模型的计算效率评级为c;

d,差,通过业务模型的分析准确度为小于80%,业务模型的计算效率评级为c。

业务模型的分析准确度通过将系统分析结果与业务人员分析的结果进行比对获得;

业务模型的计算效率评级,通过不同的业务模型采用相同计算条件和相同的测试数据获得;计算效率评级,根据业务需求、计算条件、数据量、计算时间等设定。其中,评估等级阈值为b。

以上通过具体实施方式和实施例对本发明进行了详细的说明,但这些并非构成对本发明的限制。在不脱离本发明原理的情况下,本领域的技术人员还可做出许多变形和改进,这些也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1