一种光伏发电影响因素的大数据分析系统及方法与流程

文档序号:17080383发布日期:2019-03-09 00:11阅读:378来源:国知局
一种光伏发电影响因素的大数据分析系统及方法与流程

本发明属于信息检索及其数据库结构技术领域,尤其涉及一种光伏发电影响因素的大数据分析系统及方法。



背景技术:

目前,业内常用的现有技术是这样的:根据国际能源署估计,全球2030年一次能源需求将达到177亿吨油当量,能源需求量如此巨大,而化石能源(煤、石油、天然气等不可再生资源)的日益枯竭以及对全球气候环境的影响,使得在世界范围内,优先大力发展可再生能源的能源革命被掀起。随着各国对太阳能光伏发电技术的投入,目前光伏发电已经实现了产业化,太阳能光伏发电逐步成为了电力能源的重要组成部分。

光伏发电属于波动性和间歇性电源,当大规模光伏发电接入电网后,就会产生随机发电与随机用电两组互不相关变量的实时平衡问题,这就使得对光伏发电预测模型和效率评价指标的研究成为了必须。光伏发电预测模型就是对运行中的光伏发电诸多气候等因素进行分析,预先评估发电量的变化情况、用来合理调度发电容量、充分利用资源,达到提高光伏并网后电网的安全性和稳定性的目的。光伏电站采集了大量的发电数据,其中蕴含了极大的挖掘应用价值,建设光伏大数据平台,不仅可以用于实现光伏发电系统的发电量预测和管理,而且对海量数据的存储和大数据的并行计算问题,以及在加快新能源和清洁能源领域的良性发展方面发挥着重大作用。

目前大多采用经验法对光伏数据进行影响因素分析,基本不采用算法对光伏多组因素进行选择,采取某几维重要性高的因素建立模型。经验法主要选用和光伏发电没有直接关系的因素数据,例如光照角度和光照强弱,温度,湿度,晴雨多云,风力等等因素,经验法会先排除直接相关的因素(电流和电压),再根据电站当地的一些天气特征决定放入的因素建立模型。虽然电流和电压对光伏发电是有直接影响的,在建立模型时没有说服力,但是在预测方面,电流和电压并不是直接影响发电,所以也能作为影响因素建立预测模型。目前有很多算法,例如pca算法,gbdt算法等,都会根据所有因素的重要性,来选取放入的特征,抛开人类的主观意识,得到的模型更加具有科学性。在大数据领域的光伏影响因素比小数据的光伏影响因素分析起来更加困难,本发明采用gbdt算法分析海量数据的重要性。

综上所述,现有技术存在的问题是:一般经验法选取影响光伏发电因素,会根据主观意识,筛选光伏发电因素,删除与光伏发电直接相关的因素数据(电流、电压),选取与光伏发电不直接相关的因素数据,在筛选结果后,会失去很多与目标值相关性高的因素数据,产生重要特征丢失,影响最后的预测精度。

解决上述技术问题的难度和意义:gbdt算法虽然能找出因素特征重要性,但是不排除因重要性低的因素和重要性高的因素组合产生好的预测精度,gbdt只能给出一个相对的参考价值,需要通过gbdt算法结果的参考进行实验找出最优组合。目前大数据技术在光伏行业的应用尚处于起步阶段,文献及技术支持较少。很多处理小数据的算法已经成熟,但是没有应用在大数据领域,而大数据技术更新较快,不断的新技术出现,需要了解各个大数据处理工具的特性及优缺点,才能建设更好的光伏大数据处理平台。



技术实现要素:

针对现有技术存在的问题,本发明提供了一种光伏发电影响因素的大数据分析系统及方法。

本发明是这样实现的,一种光伏发电影响因素的大数据分析系统,所述光伏发电影响因素的大数据分析系统包括:

数据源层:目前光伏发电系统的大量历史数据和每天产生的记录数据存储在mysql、oracle等关系型数据库中,为了降低成本和增强系统的可扩展性,仍然采用关系型数据库来暂存光伏发电数据,光伏电站用于存储发电数据的mysql、oracle等关系型数据库构成了本平台的数据源层;

数据传输层:用于实现数据在关系型数据库和hdfs之间的传输,能将暂存在mysql、oracle等关系型数据库中的光伏发电数据导入hbase数据库,也能将数据导出到关系型数据库中;

数据存储层:由hdfs和hbase构成,用于存储光伏发电系统大量的历史数据、每日新增的数据和数据计算分析产生的大量中间数据,为数据处理层提供快速数据访问的支撑;

数据处理层:使用yarn进行系统资源的调度和管理,使用spark来实现大数据快速计算,为上层数据分析提供计算支持,使用zookeeper来协调多个分布式应用的运行;

数据分析层:利用spark机器学习库对大量光伏发电历史数据建立发电量模型;根据当前光伏发电的各种影响因素,通过光伏发电量模型来对发电量做出预测。

进一步,所述数据传输层sqoop将hdfs和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中的数据导进到hdfs中,也可以将hdfs的数据导入到关系型数据库中。

本发明的另一目的在于提供一种应用所述光伏发电影响因素的大数据分析系统的光伏发电影响因素的大数据分析方法,所述光伏发电影响因素的大数据分析方法包括:采用gbdt算法对海量历史光伏进行特征分析,

第一步,得到历史光伏数据,删除发电量因素,得到的其余因素的数据作为训练集,发电量数据作为测试集;

第二步,训练集和测试集采用gbdt算法建立因素特征重要性模型;

第三步,从模型中可直接得到训练集中的每个因素重要性系数,将系数最大的设为100%(归一化),删除低于50%的光伏影响因素;

第四步,将高于50%的光伏影响因素建立预测模型,看哪些影响因素的组合最适合作为预测发电的数据。

本发明的另一目的在于提供一种应用所述光伏发电影响因素的大数据分析系统的信息数据处理终端。

综上所述,本发明的优点及积极效果为:本发明将主流的大数据处理平台与光伏发电系统发电量预测的需求相结合,采用技术成熟的gbdt算法,分析大数据中的光伏影响因素,并提出了spark平台下的光伏发电量的预测系统;能够存储和处理光伏发电系统的海量数据,对数据保存多个副本,数据副本丢失或宕机能够自动恢复数据,具有高安全性、高容错性,非常适合部署在廉价的机器上,节省了购买高性能机器的成本。spark平台并行计算的框架适合大规模数据的处理,其在内存计算模式下比mapreduce快100倍。将spark平台应用到光伏发电大数据挖掘分析领域是本发明的一个创新。利用spark对大量历史数据进行快速分析,分析各个因素对光伏发电效率的影响程度,基于大规模数据的因素分析相较于传统基于部分数据的因素分析,更具有科学性,可作为后期新建光伏电站和优化改进旧光伏电站的参考;基于深度学习的spark预测系统模型为系统开发提供了多层次的支撑,其hbase非关系型数据库,适合存储结构化、半结构化以及非结构化数据,并提供在线查询的低延迟性能,非常适合光伏发电预测模型的监测。

本发明基于深度学习的spark大数据处理平台,可以利用低成本的设备及公有云搭建大型的数据处理模型,通过比较容易实现的mysql、oracle等关系型数据库构成数据源层。通过在大数据平台实现gbdt算法对传入数据因素的重要性分析,删除重要性低的因素,极大地降低的处理数据的难度,又避免了人类主观意识带来的预测结果的高误差。最终预测结果将通过数据可视化技术呈现给管理者,给管理者对电网的调度提供了一种智能化的参考依据。

附图说明

图1是本发明实施例提供的光伏发电影响因素的大数据分析系统结构示意图;

图中:1、数据源层;2、数据传输层;3、数据存储层;4、数据处理层;5、数据分析层。

图2是本发明实施例提供的光伏发电影响因素的大数据分析方法流程图。

图3是本发明实施例提供的光伏发电影响因素的大数据分析系统原理示意图。

图4是本发明实例提供的光伏发电影响因素的大数据分析系统所用到数据的样例。

图5是本发明实例提供的光伏发电影响因素的大数据分析系统运用gbdt算法处理后得到的因素重要性结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明分析日期、温度、天气、地理位置等各种因素对发电量的影响,并产生各因素影响程度的报表,那些影响较大的因素,将作为以后新建或改进光伏电厂重点关注的对象。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示,本发明实施例提供的光伏发电影响因素的大数据分析系统包括:数据源层1、数据传输层2、数据存储层3、数据处理层4、数据分析层5。

数据源层1,是整个系统的数据来源;监控系统多采用传统的关系型数据库来实现,光伏发电系统的大量历史数据和每天产生的记录数据存储在mysql、oracle等关系型数据库中;由关系型数据库来构成数据源层。

数据传输层2,用于实现数据在关系型数据库和hdfs之间的传输。sqoop是用来将hdfs和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中的数据导进到hdfs中,也可以将hdfs的数据导入到关系型数据库中。sqoop专为大数据批量传输设计,能够分割数据集并创建hadoop任务来处理每个区块。

数据存储层3,用于存储光伏发电系统大量的历史数据、每日新增的数据和数据计算分析产生的大量中间数据。hadoop分布式文件系统hdfs是一种高容错的系统,对数据保存多个副本,副本丢失或宕机能自动恢复数据,适合部署在廉价的机器上。hbase是一个分布式的、本地化的、面向列的、多维度的存储系统,在设计上具备高性能和高可用性。zookeeper是一个开源的分布式应用程序协调服务,是hadoop和hbase的重要组件,为分布式应用提供一致性服务。

hdfs采用顺序读取访问数据,能提供高吞吐量的数据访问,并具有海量数据的存储能力,非常适合大规模数据集上的应用。hdfs为hbase提供了高可靠性的底层存储支持。hbae则具有数据的快速随机访问的能力,spark为hbase提供了高性能的计算能力,zookeeper为hbase提供了稳定服务和failover机制。

数据处理层4,为上层数据分析提供计算支持。spark是专为大规模数据处理而设计的快速通用的计算引擎,可以建立在hadoopyarn之上。在内存计算方面,spark的处理速度比mapreduce快100倍。spark支持交互式计算和复杂算法,可用于实现多种运算,包括sql查询、机器学习等。

数据分析层5,光伏发电量受到日期、地理位置、即时功率、天气、温度等因素的影响,目前已经记录了大量相关因素的数据;可以利用大量的历史数据对光伏发电量建立模型;根据当前光伏发电的各种影响因素的历史数据,建立gbdt模型,找出高于50%系数的因素,通过实验找出最佳的因素组合,将因素组合输入光伏发电量模型对发电量做出预测;预测的结果通过数据可视化技术呈现给管理者,方便管理者对电网的调度。

如图2所示,本发明实施例提供的光伏发电影响因素的大数据分析方法包括以下步骤:

s201:得到历史光伏数据删除发电量因素其余因素的数据作为训练集,发电量数据作为测试集;

s202:测试集作为目标值和训练集建立gbdt模型;

s203:从模型中得到训练集中的每个因素重要性系数,将系数最大的设为100%,删除低于50%的光伏影响因素;

s204:将高于50%的光伏影响因素建立预测模型,看哪些影响因素的组合最适合作为预测发电的数据。

如图4所示,本发明实例提供的光伏发电影响因素的大数据分析系统所用到数据的样例,通过运用gbdt算法结果如图5所示,得到因素数据的重要性排列次序。iac2(a)与发电量相关性最强,如果按照经验法会直接删除这列电流数据,而只放入温度这列因素建立预测模型,会极大减少模型中的特征,从而影响预测精度。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1