智能分析决策系统及方法

文档序号:10656256阅读:1623来源:国知局
智能分析决策系统及方法
【专利摘要】本发明公开一种智能分析决策系统及方法,包括数据加载模块、数据预处理模块、描述性统计模块、数据挖掘算法模块、模型评估模块、分析模型管理模块,所述分析模型管理模块分别与数据预处理模块、描述性统计模块、数据挖掘算法模块、模型评估模块连接,调入描述性统计模块、数据挖掘算法模块、模型评估模块的信息,数据预处理模块将信息输入,最终提供分析模型的规范化管理。实现业务信息的可观察、可判断、可预测、可决策,相互支撑,回溯改进,促进各大业务应用的智能化发展,满足当前各业务应用对信息的高级应用要求,促进信息化建设工作的快速健康开展。
【专利说明】
智能分析决策系统及方法
技术领域
[0001 ]本发明设及一种智能分析决策系统及方法。
【背景技术】
[0002] 国家电网公司在"十二五"规划中提出建设战略决策层的智能分析与辅助决策应 用、完善经营管理层的智能分析与辅助决策应用的新任务,需要建立公司智能分析决策体 系,建立统一的分析决策平台,快速构建各类分析决策应用,促进分析决策应用建设的规范 化。

【发明内容】

[0003] 本发明的目的在于提供一种智能分析决策系统及方法。
[0004] 本发明的目的通过如下技术方案实现:智能分析决策系统包括数据加载模块:提 供访问外部分析数据的驱动及访问配置管理,用于访问分析数据源;
[0005] 数据预处理模块:与数据加载模块连接,接受数据加载模块的数据,对数据进行处 理,W满足挖掘算法的数据输入要求;
[0006] 描述性统计模块:与数据加载模块连接,接受数据加载模块的数据,对离散变量统 计与连续变量统计;
[0007] 数据挖掘算法模块:预置结构化数据的挖掘算法,满足分类、聚类、关联、回归等挖 掘需求;
[000引模型评估模块:提供挖掘算法运行结果的评估方法,用于表示模型结果的好坏;分 析模型管理模块:分别与数据预处理模块、描述性统计模块、数据挖掘算法模块、模型评估 模块连接,调入描述性统计模块、数据挖掘算法模块、模型评估模块的信息,数据预处理模 块将信息输入,最终提供分析模型的规范化管理。
[0009] 智能分析决策方法,包括W下步骤:
[0010] 数据加载:从数据库中分析数据或从文件中访问读取数据,之后将数据输出;
[0011] 描述性统计:接受数据加载输出的数据,对数据进行统计分析处;
[0012] 数据预处理:接受数据加载输出的数据,对数据进行预处理;
[0013] 数据挖掘算法:W满足分类、聚类、关联、回归,挖掘需求,预置结构化数据的挖掘 算法;
[0014] 模型评估:提供挖掘算法运行结果的评估方法,W表示模型结果的好坏;
[0015] 分析模型管理:将调用描述性统计的结果W及数据预处理的结果、数据挖掘算法 的结果、模型评估的结果,提供分析模型的规范化管理。
[0016] 其中,数据加载包括数据项配置,关系型数据库,Excel/CSV。
[0017] 其中,描述性统计包括对离散变量统计与连续变量统计。
[0018] 其中,数据预处理包括数据清洗、数据转换、数据集成、数据计算、数据抽样、数据 分隔。
[0019] 其中,数据挖掘算法包括分类算法、聚类算法、回归算法、关联规则算法中的一种 或多种。
[0020] 其中,模型评估包括针对准确率、绝对误差、平方根误差、kappa、混淆矩阵因素的 评估。
[0021] 其中,分析模型管理包括模型管理、流程建模设计器、结果展现、模型运行。
[0022] 较之现有技术而言,本发明的优点在于:是在SG186工程全面建设的基础上,进一 步建设的高级决策分析和信息的综合展现能力。通过对业务的全面监控、分析和预测,有效 支持科学决策,从而支撑各类业务的管理和发展需要,帮助公司桐悉当前,掌控未来,随需 而变。建立统一的基于SG-UAP的智能分析决策套件旨在建设一个符合电力行业特色与需求 的分析决策类应用支撑平台,提供统计分析、模拟、预测分析、数据挖掘及丰富展现的能力。 通过该套件,来支撑各大业务应用的分析决策需求,提升分析质量与效果;且套件化的统一 建设模式有利于使各类分析决策工作规范化,避免分散建设、重复建设、再次形成信息孤 岛;套件能够为各业务应用提供局部的分析决策功能支撑,并可通过结果发布等方式,向各 业务应用共享分析结果,实现分析决策向业务应用的反馈;最终实现业务信息的可观察、可 判断、可预测、可决策,相互支撑,回溯改进,促进各大业务应用的智能化发展,满足当前各 业务应用对信息的高级应用要求,促进信息化建设工作的快速健康开展。
【附图说明】
[0023] 图1是本发明各模块的连接关系示意图。
[0024] 图2是本发明的整体图。
【具体实施方式】
[0025] 下面结合说明书附图和实施例对本
【发明内容】
进行详细说明:
[0026] 如图1和2所示为本发明提供的的实施例示意图,智能分析决策系统包括数据加载 模块:提供访问外部分析数据的驱动及访问配置管理,用于访问分析数据源;
[0027] 数据预处理模块:与数据加载模块连接,接受数据加载模块的数据,对数据进行处 理,W满足挖掘算法的数据输入要求;
[0028] 描述性统计模块:与数据加载模块连接,接受数据加载模块的数据,对离散变量统 计与连续变量统计;
[0029] 数据挖掘算法模块:预置结构化数据的挖掘算法,满足分类、聚类、关联、回归等挖 掘需求;
[0030] 模型评估模块:提供挖掘算法运行结果的评估方法,用于表示模型结果的好坏;分 析模型管理模块:分别与数据预处理模块、描述性统计模块、数据挖掘算法模块、模型评估 模块连接,调入描述性统计模块、数据挖掘算法模块、模型评估模块的信息,数据预处理模 块将信息输入,最终提供分析模型的规范化管理。
[0031] 智能分析决策方法,包括W下步骤,数据加载:从数据库中分析数据或从文件中访 问读取数据,之后将数据输出;
[0032] 描述性统计:接受数据加载输出的数据,对数据进行统计分析处;
[0033] 数据预处理:接受数据加载输出的数据,对数据进行预处理;
[0034] 数据挖掘算法:W满足分类、聚类、关联、回归,挖掘需求,预置结构化数据的挖掘 算法;
[0035] 模型评估:提供挖掘算法运行结果的评估方法,W表示模型结果的好坏;
[0036] 分析模型管理:将调用描述性统计的结果W及数据预处理的结果、数据挖掘算法 的结果、模型评估的结果,提供分析模型的规范化管理。
[0037] 数据加载:包括提供访问外部分析数据的驱动及访问配置管理。通过该功能,访问 分析数据源。具体包括数据项配置,关系型数据库,Exce 1/CSV;
[0038] 描述性统计:包括对离散变量统计与连续变量统计。离散变量统计包括统计频数 和频率,连续变量统计包括统计平均数,中位数,众数,方差,标准差等参数。
[0039] 数据预处理:包括提供数据操作方法,对数据进行处理,W满足挖掘算法的数据输 入要求。具体包括数据清洗、数据转换、数据集成、数据计算、数据抽样、数据分隔;
[0040] 其中数据清洗,是指发现并纠正数据文件中可识别的错误的一道操作,处理流程 包括检查数据一致性,处理无效值和缺失值等。数据清洗的任务是过滤那些不符合要求的 数据。括类型检查、缺值处理、空值域约束、记录去重;
[0041 ]数据转换,是将数据从一种表示形式变为另一种表现形式的过程,是将数据转换 或归并W构成一个适合数据挖掘的描述形式。数据转换包括化Se when、类型转换、数值区 间化、规范化、归一化。其中化Se when是指支持类似SQL方式的化Se when语句;类型转换是 指根据转换的数据类型定义,对输入数据进行数据类型转换;数值区间化按数值将指定字 段值区间化为N个区间,每个区间数据取值范围相等,并为该字段按不同区间设置特定值; 数据规范化是指将被挖掘对象的属性数据按比例缩放,使其落入一个小的特定区间(如[- 1,1 ]或[0,1 ]);归一化对指定字段按该字段的均值和标准偏差,进行zscore归一化。
[0042] 数据集成是将多个数据源中的数据结合在一起并形成一个统一的数据集合。数据 集成包括化in、Append、化ion。其中化in是指根据连接配置,对两个不同的数据集进行左连 接、右连接、内连接、全外连接等连接操作;Append是指将一个集合中的列字段与数据追加 到另一个集合的列后面;Union是指对两个数据集进行类似SQL的UNION操作,将两个集合进 行合并操作。
[0043] 数据计算是指对数据集合进行数学计算与统计操作。数据计算包括数学计算、 Group By统计、日期计算、条件判断。数学计算是指通过对现有多字段混合计算生成的新字 段;GroupBy统计是对指定的属性按照某几个字段进行汇总统计,汇总统计的操作包括:平 均值、计数、最大值、求和、中位数、方差、标准差;日期计算是指对日期进行计算,包括两个 日期求差操作、计算前一天日期、计算后一天日期等;条件判断是指根据配置条件判断,计 算生成响应条件下的数值。
[0044] 数据抽样是对从数据集中抽取部分个体作为样本。数据抽样包括随机抽样、分层 抽样。随机抽样是集合中每个部分都有同等被抽中的可能,是一种完全依照机会均等的原 则进行的抽样调查;分层抽样是将数据集分成互不交叉的层,然后按一定的比例,从各层次 独立地抽取一定数量的个体,将各层次取出的个体合在一起作为样本。
[0045] 数据分割是将数据集按照一定规则分为若干份。数据分隔包括线性分隔、分层分 隔。线性分隔是将数据集按比例顺序截取成N份;分层分隔是将数据集分割为互不交叉的 层。
[0046] 模型评估:提供挖掘算法运行结果的评估方法,用于表示模型结果的好坏。主要考 虑针对准确率、绝对误差、平方根误差、kappa、混淆矩阵等因素考虑。准确率,是用来同时表 示测量结果中系统误差和随机误差大小的程度,多次测量值的平均值与真值的接近程度, 常用于分类模型评估;绝对误差是指预测值-实际值,常用于数值预测模型评估;平方根误 差常用于数值预测模型评估,具体公式为(平均绝对误差)
提升图是将预 测分类按照概率大小进行10等分,评估每类预测正确的效益;Kappa统计是比较两个或多个 观测者对同一事物,或观测者对同一事物的两次或多次观测结果是否一致,W由于机遇造 成的一致性和实际观测的一致性之间的差别大小作为评价基础的统计指标。Kappa统计量 和加权Kappa统计量不仅可W用于无序和有序分类的一致性、重现性检验,而且能给出一个 反映一致性大小的"量"值。混淆矩阵主要用于比较分类结果和实际测得值,可W把分类结 果的精度显示在一个混淆矩阵里面。
[0047] 分析模型管理:提供分析模型的规范化管理功能,包括模型分类管理、模型定义管 理、流程建模设计器、模型运行。模型管理对分析模型分类、基本信息信息及其逻辑配置进 行统一的管理;流程建模设计器,提供可视化的流程建模功能,用于实现业务分析逻辑配置 实现。基于数据加载、数据预处理、数据挖掘算法、模型评估等功能提供的方法,流程建模设 计器提供其方法可视化的操作界面,用于其输入参数设置、方法间数据流转配置;结果展 现:提供模型结果的可视化展现功能,包括文本展现、二维表展现、图形展现等多种方式;模 型模型运行是指模型运行解析引擎,解析分析模型逻辑配置内容,获取相应的操作节点及 节点间数据流转,调用对应的数据处理方法,处理数据,返回结果。
[0048] 数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。为了创建模 型,算法将首先分析您提供的数据,并查找特定类型的模式和趋势。算法使用此分析的结果 来定义用于创建挖掘模型的最佳参数。然后,运些参数应用于整个数据集,W便提取可行模 式和详细统计信息。算法根据其挖掘结果模式的不同,可分为分类、聚类、回归、关联规则W 及时间序列等类型。
[0049] 分类是在已有数据的基础上学会一个分类函数或构造一个分类模型(也称"分类 器"),而且该函数或模型能够把数据库中的数据记录映射到给定类别中的某一个,从而可 W应用于数据预测;若要构造分类模型,则需要有一个训练样本数据集作为输入,该训练样 本数据集由一组数据库记录或元组构成,其一个具体的样本记录形式可W表示为(VI, V2,…,化,C),其中,Vi表示样本的属性值,C表示类别。
[0化0] 常用的分类算法有K-NN、Naive Bayes、ID3、决策树、神经网络、随机森林等算法。 [0化1 ] K-P^N化-Nearest化ig化or) ,K最近邻分类算法。该方法的思路是:如果一个样本在 特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该 样本也属于运个类别。算法中,所选择的邻居都是已经正确分类的对象。该方法在定类 决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
[0052] K-r^N算法的输入参数包括K值设置、W及样本距离计算方法。样本距离计算方法, 包括欧式距离法、堪培拉距离、切比雪夫距离法。
[0053] Naive Bayes,朴素贝叶斯模型,贝叶斯分类器的分类原理是通过某对象的先验概 率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概 率的类作为该对象所属的类。
[0054] Naive Bayes算法的输入参数,包括是否进行拉普拉斯修正、评估模式、粒度、最小 J 1、1' I |、1子 A*A~ 宽度寺。
[0055] ID3算法是W信息论为基础,W信息赌和信息增益度为衡量标准,从而实现对数据 的归纳分类。信息赌就是一组数据包含的信息,概率的度量。一组数据越有序信息赌也就越 低,极端时如果一组数据中只有一个非0,其它都是0,那么赌等于0,因为只有可能是运个非 0的情况发生,它给人们的信息已经确定了,或者说不含有任何信息了,因为信息赌含量为 0。一组数据越无序信息赌也就越高,极端时如果一组数据均匀分布,那么它的赌最大,因为 我们不知道那种情况发生的概率大些。假如一组数据由{dl,d2,…,dn}构成,其和是sum,求 信息赌的公式是 D
[0056] ID3算法的输入参数包括划分标准、最小划分大小、叶子最少节点数、增益最小值。
[0057] 决策树(C4.5),是基于ID3算法进行改进后的一种算法,相比于ID3算法,改进要点 包括:1)。用信息增益率来选择属性。2)在决策树构造过程中进行剪枝,因为某些具有很少 元素的结点可能会使构造的决策树过适应(Ove计itting),如果不考虑运些结点可能会更 好。3)对非离散数据也能处理。其中,信息增益率计算公式具体如下:
[005引按照类标签对训练数据集D的属性集A进行划分,得到信息赌:
[0化9];
[0060] : I到一组信息赌:
[0061]
[0062] 然后计算信息增益,即前者对后者做差,得到属性集合A-组信息增益:
[0063] gain(A) = in fo(D)-in Toa(^D)
[0064] 决策树算法的输入参数包括:分类标准、最小划分大小、最小叶子大小、最小增益、 最大深度、置信度、是否预修剪、是否修剪。
[00化]神经网络,是一种运算模型,由大量的节点(或称"神经元",或"单元")和之间相互 联接构成。每个节点代表一种特定的输出函数,称为激励函数。每两个节点间的连接都代表 一个对于通过该连接信号的加权值,称之为权重,运相当于人工神经网络的记忆。网络的输 出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界 某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。
[0066] 神经网络的输入参数包括:隐藏层数、训练周期、学习比率、momentum、错误评估 等。
[0067] 随机森林,是用随机的方式建立一个森林,森林里面有很多决策树组成,随机森林 的每一棵决策树之间时没有关联的。在得到森林之后,当有一个新的输入样本进入的时候, 就让森林中的每一棵决策树分别进行一下判断,判断运个样本应该属于哪一类,然后统计 哪一类被选择最多,就预测运个样本为那一类。
[0068] 随机森林算法的输入参数包括决策树数量、分类标准、最小划分大小、最小叶子大 小、最小增益、最大深度、置信度、是否预修剪、是否修剪。
[0069] 聚类是数理统计中研究"物W类聚"的一种方法,是把一组个体按照相似性归成若 干类,其目的是使得属于同一个类别数据之间的相似性尽可能大,而不同类别的数据之间 的相似性尽可能小。它与分类分析不同,聚类分析输入的是一组未分类的记录,并且运些记 录应分成几类事先也不知道。聚类分析就是首先通过分析数据库中的数据,合理地来划分 记录,然后再确定每个记录所在类别。
[0070] 常用的聚类算法有 K-Means、DBSCAN、K-Medoids。
[0071] K-means算法是硬聚类算法,是数据点到原型的某种距离作为优化的目标函数,利 用函数求极值的方法得到迭代运算的调整规则。K-means算法W欧式距离作为相似度测度, 它是求对应某一初始聚类中屯、向量V最优分类,使得评价指标J最小。算法采用误差平方和 准则函数作为聚类准则函数。
[0072] K-means算法的输入参数包括:聚类K值、最大计算次数、最大优化步数。
[0073] DBSCAN是一个基于密度的聚类算法,它将簇定义为密度相连的点的最大集合,能 够把具有足够高密度的区域划分为簇。
[0074] DBSCAN算法的输入参数,包括E领域、核屯、对象、测量方法等。
[00巧]K-medoids和K-means是有区别的,不一样的地方在于中屯、点的选取,在K-means 中,将中屯、点取为当前cluster中所有数据点的平均值,在K-medoids算法中,我们将从当前 cluster中选取运样一个点--它到其他所有(当前cluster中的)点的距离之和最小-- 作为中屯、点。
[0076] K-medoids算法的输入参数包括聚类K值、最大计算次数、最大优化步数。
[0077] 回归分析,是确定两种或两种W上变量间相互依赖的定量关系的一种分析方法。, 回归分析按照设及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和 因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包 括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,运种回归分析称为一 元线性回归分析。如果回归分析中包括两个或两个W上的自变量,且因变量和自变量之间 是线性关系,则称为多元线性回归分析。
[0078] 常用的回归分析算法包括:线性回归、逻辑回归、局部多项式线性回归。
[0079] 线性回归,假设"特征"和"结果"都满足线性,即不超过一次。线性回归都可W通过 最小二乘法求出其方程。
[0080] 逻辑回归采用最大似然估计法,对齐回归参数进行估计。最大似然估计是利用总 体的分布密度或概率分布的表达式及其样本所提供信息建立起求未知参数估计量的一种 方法。
[0081] 局部多项式回归是对两维散点图进行平滑的常用方法,它结合了传统线性回归的 简洁性和非线性回归的灵活性。当要估计某个响应变量值时,先从其预测变量附近取一个 数据子集,然后对该子集进行线性回归或二次回归,回归时采用加权最小二乘法,即越靠近 估计点的值其权重越大,最后利用得到的局部回归模型来估计响应变量的值。
[0082] 关联规则算法
[0083] 假设I = IIi,12,…,1"}是项的集合。给定一个数据集D,其中每个事务 (Transaction )t是I的非空子集,即,每一个交易都与一个唯一的标识符TID (lYansaction ID)对应。关联规则在D中的支持度(SUPPOd)是D中事务同时包含X、Y的百分比,即概率;置 信度(confidence)是D中事务已经包含X的情况下,包含Y的百分比,即条件概率。如果满足 最小支持度阔值和最小置信度阔值,则认为关联规则是有效的。
[0084] 常用的关联规则算法包括:FP-Growth。
[00化]FP (Frequent Pattern),在算法中使用了 一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-化ee是一种特殊的前缀树,由频繁项头表和项前缀树构成。 FP-Growth算法基于W上的结构加快整个挖掘过程。
[0086] FP-Growth算法的输入参数包括:发现频繁集最小值,频繁集最小值、重试最大次 数、集合最大项数。
【主权项】
1. 一种智能分析决策系统,其特征在于: 包括数据加载模块:提供访问外部分析数据的驱动及访问配置管理,用于访问分析数 据源; 数据预处理模块:与数据加载模块连接,接受数据加载模块的数据,对数据进行处理, 以满足挖掘算法的数据输入要求; 描述性统计模块:与数据加载模块连接,接受数据加载模块的数据,对离散变量统计与 连续变量统计; 数据挖掘算法模块:预置结构化数据的挖掘算法,满足分类、聚类、关联、回归的挖掘需 求; 模型评估模块:提供挖掘算法运行结果的评估方法,用于表示模型结果的好坏; 分析模型管理模块:分别与数据预处理模块、描述性统计模块、数据挖掘算法模块、模 型评估模块连接,调入描述性统计模块、数据挖掘算法模块、模型评估模块的信息,数据预 处理模块将信息输入,最终提供分析模型的规范化管理。2. 权利要求1所述的智能分析决策方法,其特征在于:包括如下步骤: 数据加载:从数据库中分析数据或从文件中访问读取数据,之后将数据输出; 描述性统计:接受数据加载输出的数据,对数据进行统计分析; 数据预处理:接受数据加载输出的数据,对数据进行预处理; 数据挖掘算法:以满足分类、聚类、关联、回归,挖掘需求,预置结构化数据的挖掘算法; 模型评估:提供挖掘算法运行结果的评估方法,以表示模型结果的好坏; 分析模型管理:将调用描述性统计的结果以及数据预处理的结果、数据挖掘算法的结 果、模型评估的结果,提供分析模型的规范化管理。3. 根据权利要求2所述的智能分析决策方法,其特征在于:数据加载包括数据项配置, 关系型数据库,Excel/CSV。4. 根据权利要求2所述的智能分析决策方法,其特征在于:描述性统计包括对离散变量 统计与连续变量统计。5. 根据权利要求2所述的智能分析决策方法,其特征在于:数据预处理包括数据清洗、 数据转换、数据集成、数据计算、数据抽样、数据分隔。6. 根据权利要求2所述的智能分析决策方法,其特征在于:所述的数据挖掘算法包括分 类算法、聚类算法、回归算法、关联规则算法中的一种或多种。7. 根据权利要求2所述的智能分析决策方法,其特征在于:模型评估包括针对准确率、 绝对误差、平方根误差、kappa、混淆矩阵因素的评估。8. 根据权利要求2所述的智能分析决策方法,其特征在于:分析模型管理包括模型管 理、流程建模设计器、结果展现、模型运行。
【文档编号】G06F17/18GK106022477SQ201610329444
【公开日】2016年10月12日
【申请日】2016年5月18日
【发明人】许元斌, 王继业, 曾楠, 陈宏 , 邹保平, 黄文思, 郝悍勇, 罗义旺, 李金湖, 李云, 余仰淇, 林燊, 刘燕秋, 骆伟艺, 罗文甜, 张欢, 林翰, 吴少平, 陈智鹏, 刘彩
【申请人】国网信通亿力科技有限责任公司, 国家电网公司, 国网信息通信产业集团有限公司, 国网江苏省电力公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1