一种储能电站海量数据清洗方法及系统的制作方法

文档序号:8430892阅读:395来源:国知局
一种储能电站海量数据清洗方法及系统的制作方法
【技术领域】
[0001] 本发明涉及一种储能技术领域的方法及系统,具体讲涉及一种储能电站海量数据 清洗方法及系统。
【背景技术】
[0002] 目前,储能电站数据采集、存储与管理方法尚不规范,需要对储能电站海量数据管 理和挖掘技术开展进一步深化研宄。储能电站海量数据主要有以下特点:(1)数据量大:由 于储能电站电池数量众多,每个电池又有很多监测设备,每秒采集上来的数据量巨大,因此 要求能够正确快速地清洗这些数据。(2)异常数据原因复杂:由于监测设备众多,受精度、 网络信号等多种客观并且不可预知的因素影响,导致数据中存在异常数据。
[0003] 大数据时代的到来为储能技术的发展提供了一个契机,其中储能电池数据的使用 价值巨大,对储能电站海量数据的准确、高效处理是电站运行效果与设备特性评估及精细 化控制管理的重要基础。然而,由于监测设备缺陷和网络传输信号不稳定等客观原因,储能 电站数据常常包括了很多异常值和缺省值,极大地干扰了储能电站海量数据的分析计算, 因此储能电站海量电池数据分析计算的准确程度很大程度上取决于如何有效地对原始的 海量电池数据进行清洗。
[0004] 针对海量的原始数据进行清洗,现有常用方法是按照一定周期将海量数据分成多 个批次,然后一批一批进行清洗,流水线作业。此种方法有如下缺陷:
[0005] 1、单批次处理的范围有限,导致每次进行数学统计分析的数量少,清洗精度较 低;
[0006] 2、不能应对海量数据的并行处理,单线清洗费时长,速度慢,效率不高。
[0007] 3、数据种类繁多,单批次需要考虑各种情况,处理比较复杂,增加了计算难度。 [0008] 鉴于此,需要提供一种能够克服上述现有技术方案所存在的缺陷的储能电站数据 清洗方法及系统。

【发明内容】

[0009] 为克服上述现有技术的不足,本发明提供一种储能电站海量数据清洗方法及系 统。
[0010] 实现上述目的所采用的解决方案为:
[0011] 一种储能电站海量数据清洗方法,所述方法包括以下步骤:
[0012] I、定位并替换储能电站数据集中的缺省值;
[0013] II、定位并替换所述数据集中的异常值;
[0014] III、根据所述储能电池数据的不用类别特征,在替换后获得的数据集中确定不合 理数据,并进行替换。
[0015] 优选地,所述步骤I中,运用统计学处理方法定位所述缺省值;运用K近邻算法确 定所述缺省值附件的正常值,用所述正常值替换所述缺省值。
[0016] 优选地,所述步骤II中,运用拉依达准则法定位所述异常值;利用K近邻算法确定 所述异常值附近的正常值,用所述正常值替换所述异常值。
[0017] 优选地,所述步骤III中,根据所述数据集中数据的不同特征确定其中不合理数 据,并用所述不合理数据的前面或后面的正常值进行替换。
[0018] 优选地,所述储能电池数据的种类包括电流、电压、温度、SOC和功率;
[0019] 所述不同类别特征包括根据先验知识,不同类别的数据确定的突变阈值;
[0020] 所述步骤III包括,遍历各类别的数据,根据所述突变阈值,确定不合理数据,用 前一时刻的数据将所述不合理数据替换。
[0021] 一种储能电站海量数据清洗系统,所述系统包括数据存储模块、数据清洗模块和 显示模块;
[0022] 所述数据存储模炔基于HBase构建电池数据表,所述电池数据表用于存储所有涉 及的储能电站数据;
[0023] 所述数据清洗模炔基于Hadoop清洗储能电站数据;
[0024] 所述显示模块用于展示所述清洗前和清洗后的储能电站数据。
[0025] 优选地,所述数据清洗模块用于清洗所述储能电站数据,所述数据清洗模块包括 实现以下步骤的子模块:
[0026] I、定位并替换储能电站数据集中的缺省值;
[0027]II、定位并替换所述数据集中的异常值;
[0028] III、根据所述储能电池数据的不用类别特征,在替换后获得的数据集中确定不合 理数据,并进行替换。
[0029] 优选地,所述步骤I中,运用统计学处理方法定位所述缺省值;运用K近邻算法确 定所述缺省值附件的正常值,用所述正常值替换所述缺省值。
[0030] 优选地,所述步骤II中,运用拉依达准则法定位所述异常值;利用K近邻算法确定 所述异常值附近的正常值,用所述正常值替换所述异常值。
[0031] 优选地,所述储能电池数据的种类包括电流、电压、温度、S0C和功率;
[0032] 所述不同类别特征包括根据先验知识,不同类别的数据确定的突变阈值;
[0033] 所述步骤III包括,遍历各类别的数据,根据所述突变阈值,确定不合理数据,用 前一时刻的数据将所述不合理数据替换。
[0034] 与现有技术相比,本发明具有以下有益效果:
[0035] 1、本发明的方法和系统既实现海量电池数据清洗,又能够保证海量数据分布式处 理要求,实现了综合考虑K近邻算法、拉依达准则法、分布式处理等的储能电站海量电池数 据优化清洗与预处理目的,提高大容量电池储能电站海量数据的与预处理与利用效果。
[0036]2、针对储能电站海量电池数据的特点,本发明提出的清洗方法采用统计学方法和 附加式处理方法相结合,提升了清洗效果;
[0037] 利用Hadoop分布式处理特性,多节点并行清洗海量的电池数据,增大了清洗范 围,提高了清洗精度,另外并行处理可以带来效率的提升。
[0038] 采用Hadoop分布式计算框架,保证高效率并行处理数据及可扩展性,通过增加处 理节点,可以进一步提升清洗效率和范围;采用NoSQL型数据库HBase,保证海量电池数据 的存储。
[0039] 3、该方法及其分散式系统,利用Map/Reduce计算框架,对海量电池数据进行分类 处理,减少了计算的复杂度。
[0040] 4、利用HBase表的多版本性,保存了清洗前后的海量电池数据,并利用前端技术 EChart进行展示,给用户一个直观的清洗效果。
【附图说明】
[0041] 图1为本发明中储能电站海量
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1