一种基于大数据技术的配网抢修精益化方法以及管理系统的制作方法

文档序号:9922359阅读:502来源:国知局
一种基于大数据技术的配网抢修精益化方法以及管理系统的制作方法
【技术领域】
[0001] 本发明设及一种电力信息大数据信息挖掘与分析领域,特别是一种基于大数据技 术的配网抢修精益化方法W及管理系统。
【背景技术】
[0002] 现有的配网抢修过程管理都是基于传统的统计分析来进行数据规范和数据展现 的,传统的统计分析是指运用统计方法及与分析对象有关的知识,从定量与定性的结合上 进行的研究活动。统计分析可W分为5个步骤:描述要分析的数据的性质;研究基础群体的 数据关系;创建一个模型,总结数据与基础群体的联系;证明(或否定)该模型的有效性;采 用该模型来预测将来的趋势。
[0003] 在运用传统的统计分析方法进行分析应用时,需对数据分布和变量间的关系做假 设,确定用什么概率函数来描述变量间的关系,W及如何检验参数的统计显著性,W验证假 设是否成立,而无法实现自动寻找变量间隐藏的关系或规律,并且,传统的统计分析在处理 实时、海量、模糊、杂乱的数据时效率低下,不能很好的支撑配网抢修的相关应用,所W,基 于大数据技术的分布式并行计算和分析挖掘能力可W实现对海量数据快速准确的进行分 析。

【发明内容】

[0004] 本发明的目的在于针对传统统计分析方法在分析应用之前需对数据分布和变量 间的关系做假设的问题,基于大数据的数据挖掘技术可W不需要对数据分布做任何假设, 数据挖掘中的算法会自动寻找变量间隐藏的关系或规律。针对传统统计分析方法处理实 时、海量数据效率低下的问题,基于大数据的分布式消息队列、流计算、内存计算和分布式 并行计算技术可W高效率、简洁、实时的实现对数据的采集和处理。
[0005] 本专利通过定时或实时采集故障抢修管理系统、生产管理系统、市调系统、气象 信息系统中的故障抢修工单信息、抢修班组、用户、台区、线路、气象信息等数据信息,构建 故障抢修效率分析和故障数量预测两个数据挖掘模型,实现"配网故障抢修实时分析"和 "故障抢修效率分析"场景应用,从而提高供电服务质量,强化配网故障抢修管理水平。
[0006] 本发明的目的通过如下技术方案实现:
[0007] -种基于大数据技术的配网抢修精益化方法,它包括W下步骤:
[000引步骤a、数据源建立,建立故障抢修工单信息、抢修班组、用户、台区、线路、气象信 息的数据信息;
[0009] 步骤b、数据整合:融合kafka实时数据分布式消息队列、sqoop离线数据抽取技术, 对异构数据的快速接入,构建分布式数据整合功能,具备定时/实时数据的采集处理能力, 实现从数据源到平台存储的配置开发、过程监控;
[0010] 步骤C、数据存储:对关系型数据存储、非关系型数据存储、分布式文件存储进行数 据存储,同时提供统一存储访问接口,提高数据存储低成本的横向扩展能力,提高在高并发 条件下的快速数据访问响应能力、满足海量数据实时与准实时存储需求;
[0011] 步骤d、数据计算:并支撑SQL查询,满足不同时效性计算需求;批量计算支持大批 量数据离线分析;流计算支持实时处理,如用电数据实时处理、预警;同时提供类似S化的查 询分析技术,将查询语句转译为并行的分布式计算任务;步骤e、数据分析:集成R语言和 Mahout,形成分布式数据挖掘算法库,提供挖掘建模设计工具,构建统一的分析建模能力和 运行引擎;同时,通过提升改造分析决策平台,完善分析建模、模型运行、模型发布等能力, 增加对大数据分布式计算的支持,满足实时、离线应用的分析挖掘需求,为公司分析决策应 用构建提供基础平台支撑;
[0012] 步骤f、场景展现:实施配网故障抢修实时分析W及故障抢修效率分析。
[0013] 其中,步骤e:数据分析中,包括故障抢修效率分析,故障抢修效率分析具体为采用 K-Means聚类算法观察探索不同抢修环节标准用时与故障、气象的内在发展规律,构建抢修 效率分析模型,寻找多维度下不同抢修环节的标准用时,区域、驻点的月度故障统计信息; K-Means依赖于不断寻找簇中屯、直至其达至稳定实现对象的划分;K-Means算法一开始先 (随机或依据某种策略)选择K个簇中屯、,然后在每次迭代时将对象划分至最相似的簇中屯、, 形成新的簇划分后再计算同簇对象的均值作为新的簇中屯、;运个过程反复进行,直至簇中 屯、不再变动或达到最大迭代次数为止。
[0014] K-Means算法实现步骤如下:
[001引1)第一步是为待聚类的点寻找K个聚类中屯、。
[0016] >指定聚类数目K;
[0017] >在所有个案中随机选取K个类初始中屯、,(OkJk),k = l,2, ...;
[0018] 2)第二步是计算每个点到聚类中屯、的距离,将每个点聚类到离该点最近的聚类中 去,根据距离最近原则进行分类,计算每个样本数据点到K个类初始中屯、点的欧式距离,并 按照距K个类中屯、点距离最近的原则分派所有样本,形成K类;
[0019] >样本点到类初始中屯、点的欧式距离公式为:既C£?((O .n.哗7;>)=^,-〇tf+Pi-nf, (Oi ,Ti)为样本点;
[0020] >判断样本点到哪类初始中屯、点的距离最小,并将此样本归入此类;
[0021] 3)第=步是计算每个聚类中所有点的坐标平均值,并将运个平均值作为新的聚类 中屯、。反复执行(2)、(3),直到聚类中屯、不再进行大范围移动或者聚类次数达到要求为止, 依次计算各类中K个变量的均值,W均值点作为K个类的中屯、点;
[0022] >重新确定类中屯、点(ck,tk) n为各类中样本点的个数; ,
[0023] 设置终止聚类的条件:迭代次数n:当目前的迭代次数等于指定的迭代次数时,终 止聚类;类中屯、点偏移程度(S):新确定的类中屯、点距上个类中屯、的最大偏移量小于指定的 量时停止聚类。当迭代次数和类中屯、偏移成都中任一条件满足则结束聚类,不满足上述两 个条件,则反复执行(2)、(3)。
[0024] 另外,步骤e:数据分析中,包括故障数量预测,故障数量预测具体为采用随机森林 分类预测算法观察探索历史故障发生情况与负荷、气象的内在发展规律,构建故障量预测 模型,预测设备故障量可能发生的量级区间范围;其中随机森林,指的是利用多棵树对样本 进行训练并预测的一种分类器;就是由多棵CART(Classification And Regression Tree) 决策树构成的;对于每棵树,它们使用的训练集是从总的训练集中有放回采样出来的,总的 训练集中的有些样本可能多次出现在一棵树的训练集中,也可能从未出现在一棵树的训练 集中;在训练每棵树的节点时,使用的特征是从所有特征中按照一定比例随机地无放回的 抽取的。
[0025] 随机森林分类预测模型构建的过程主要包括W下几个步骤:
[0026] 1)确定特征值,需采用预测算法预测未来一天的天气信息和负荷信息,将天气、负 荷信息作为模型的特征值;
[0027] 2)进行数据预处理,由于原始数据存在缺失、错漏等问题,需要对原始数据进行预 处理,得到我们的模型输入数据,另外,随机森林分类算法的目标变量需为分类变量,而故 障量为数值变量,需采用聚类算法将故障量聚为若干聚类区间,并将故障量映射到聚类区 间;
[0028] 3)进行模型训练,采用随机森林分类算法构建故障量预测模型,输出预测结果;
[0029] 4)进行模型评估,采用查准率、查全率两个指标评估模型的预测效果,计算公式如 下:
(D (2)
[0032] 其中,precision和recall分别指查准率和查全率,化,Nt,化分别表示预测正确样 本数、预测样本数及真实样本数。
[0033] 抢修实时分析:实现对当前上海全市的配网故障发生的实时情况进行监测,并从 故障数量实时分析、故障量日趋势监测、故障处理情况=个维度进行详细的剖析和监测,实 时跟踪故障抢修的整个过程,分析各区域驻点的工作强度。并通过随机森林分类预测算法, 预测未来一天不同供电公司电网故障和非电网故障的故障数量,为抢修资源调配提供建 议。
[0034] 抢修效率分析:按照发生年月、故障分类、电压等级、设备聚类、设备大类五个维度 实现对每月上海全市的非电网\电网\各电压等级的配网抢修效率进行分析,对上海全市、 各区域、驻点的效率进行评估和分析。并通过聚类算法,W抢修过程重要节点时长为目标变 量,气象及交通流量等外部信息验证模型结果,制定各类故障的抢修标准效率,对抢修过程 中超期的环节进行预警,实现抢修过程中的全面监督。
[0(X3日
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1