一种基于云计算的智能用电数据服务系统的制作方法

文档序号:12597815阅读:324来源:国知局
一种基于云计算的智能用电数据服务系统的制作方法与工艺

本发明涉及一种基于云计算的智能用电数据服务系统,属于智能用电处理技术领域。



背景技术:

基于云计算的智能用电数据管理关键技术研究和应用项目产品符合大数据处理发展趋势,在开展智能电网城市建设和高级量测体系研究的过程中,已经引入大数据处理和云计算技术的应用,比如AMI高级量测系统的数据存储和管理、个性化信息定制和推送、大量历史用电数据的挖掘分析和增值服务实现,都体现了大数据处理技术的应用。

用电信息采集系统智能电表数量到2015年将达到三亿块,用户用电信息采集频率更加频繁,且数据是双向互动流转,规模和频率成指数级增长,对用电信息的采集、存储、查询、分析等全生命周期的数据处理能力提出了更高的要求。现有的用电信息采集服务系统面临的问题主要有:1)采集系统数据量急剧增长、数据类型多样、业务应用深化创新,对数据存储、查询、统计、分析及价值数据挖掘提出更高要求;2)终端数量及采集频率的剧增,采集数据量由TB级向PB级发展,导致数据采集入库、分析、存储的压力剧增;3)面临数据高性能存储和高可扩展性挑战,对系统的健壮性、灵活性、简单性、可扩展性以及安全性提出了更高的要求;4)电力业务向智能化、精细化方向发展,对数据处理复杂性、实时性提出更高要求,跨业务、跨平台的数据挖掘能力需要进一步提升,迫切需要进行技术架构优化和性能提升。

电力业务的不断深化导致计算资源趋于紧张,任务更复杂,涉及的数据量更大,现有资源无法保证在规定的时间内完成,现有系统架构在横向线性扩展能力不足,海量数据处理能力已显瓶颈,现有系统基于Oracle RAC的数据库集群方式,由于其采用共享存储,需要在节点间频繁的复制状态和共享数据块,节点的增加只能加剧数据交换,对于性能的提升则非常有限,且成本高昂。



技术实现要素:

本发明的目的是提供一种基于云计算的智能用电数据服务系统,以解决目前智能用电数据服务系统对于海量数据的存储、查询、检索速度慢、数据计算能力业务处理不强等问题。

本发明为解决上述技术问题而提供一种基于云计算的智能用电数据服务系统,该系统包括智能用电业务服务云、智能用电大数据共享平台、智能用电大数据支撑平台、智能用电数据接入服务端和智能用电业务大数据支撑服务接口,智能用电数据接入服务端用于将用电数据采集终端采集到的数据提供给智能用电大数据共享平台,所述智能用电大数据共享平台用于对采集到的用电数据进行清洗、解析和分类存储;所述智能用电大数据支撑平台用于根据智能用电大数据共享平台中存储的用电数据按照业务流程进行处理,所述智能用电业务大数据支撑服务接口用于向外提供服务接口,以便各类用电业务访问智能用电大数据支撑平台,所述智能用电业务服务云作为底层资源池用于为系统提供一个基于虚拟化的资源支撑环境,包括计算资源池、存储资源池和网络资源池,该服务系统采用Spark和Hadoop共同构建的平台对智能用电大数据共享平台中的用电数据进行处理,将对时效性要求较高的业务部署在spark上运行,将对时效性要求不高的业务部署在hadoop上运行。

智能用电大数据共享平台的可用域划分为数据域、业务域和交互域,所述数据域用于为数据存储和处理提供集群资源,其计算资源和存储资源处于同一物理节点;所述业务域用于提供上层具体交互界面的业务逻辑支持,配置有对数据域和交互域的两套接口;交互域用于向用电数据的最终使用者提供交互界面和手段,需要完成单独的存储资源配置,实现对热点数据的缓存和对中间数据的缓存。

智能用电大数据共享平台将终端采集上来的原始数据帧经过规约解析转化成半结构化业务数据,根据大数据管理引擎提供的档案数据将半结构化数据与业务建立语义关联,形成基础业务数据,基础业务数据按照类型存入文件,交由大数据管理引擎处理,大数据管理引擎负责对海量数据的装载、写入、查询及处理。

所述智能用电大数据共享平台采用混合存储机制进行数据存储,根据用电数据的业务属性采用对应存储模式,对原始数据采用Key-Value或列存储方式组织数据,对于需要对原始数据进行频繁查询的业务,则单独整理对业务内容优化索引的数据副本以支持;对中间结果数据采用分布式、多副本方式进行统一管理;对业务数据集采用分布式列存储机制;对档案数据采用关系型数据库存储;对热点数据采用内存数据库或SSD硬盘承载数据;对报表类数据采用关系型数据库或内存数据库进行存储。

本发明的有益效果是:本发明采用平台化的理念整合云计算和电力业务应用技术,根据各种用电数据的特点和业务逻辑,采用混合存储机制,利用云计算和关系数据库互补的策略,以云计算技术为核心,以电力用电业务为流程,构建公司智能用电私有云,实现用电信息采集系统海量用电数据存储和处理,提高用电数据挖掘和利用效率,充分发挥大规模用电数据的价值优势,为智能用电互动化服务和国家节能减排提供数据服务和技术支撑。

附图说明

图1是本发明智能用电数据服务系统的架构示意图;

图2是本发明智能用电数据服务系统的可用域划分示意图;

图3是基础资源池的部署拓扑图;

图4是智能用电数据的分类存储原理示意图;

图5是本发明用电信息混合存储架构图;

图6是智能用电数据服务系统的架构图;

图7是基于云计算的海量用电信息混合存储架构图;

图8是基于Zookeeper的主节点HA设计图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的说明。

本发明的基于云计算的智能用电数据服务系统的目标是构建智能用电服务体系中IT支撑平台、数据处理与挖掘服务一体化的管理架构,统一数据服务平台和接口以及相应的运维管理平台,使智能用电业务能够通过统一的、简单化服务结构实现业务数据查询、业务数据分析与挖掘、决策支撑、数据预警和用户互动相关业务。该基于云计算的智能用电服务系统的架构如图1所示,包括智能用电业务服务云、智能用电大数据共享平台、智能用电大数据支撑平台、智能用电数据接入服务端、智能用电业务大数据支撑服务接口和智能用电业务服务平台,能用电数据接入服务端用于将用电数据采集终端采集到的数据提供给智能用电大数据共享平台,所述智能用电大数据共享平台用于对采集到的用电数据进行清洗、解析和分类存储;所述智能用电大数据支撑平台用于根据智能用电大数据共享平台中存储的用电数据按照业务流程进行处理,所述智能用电业务大数据支撑服务接口用于向外提供服务接口,以便各类用电业务访问智能用电大数据支撑平台,所述智能用电业务服务云作为底层资源池用于为系统提供一个基于虚拟化的资源支撑环境,包括计算资源池、存储资源池和网络资源池,该服务系统采用Spark和Hadoop共同构建的平台对智能用电大数据共享平台中的用电数据进行处理,将对时效性要求较高的业务部署在spark上运行,将对时效性要求不高的业务部署在hadoop上运行。

从该架构上看,本发明的智能用电数据服务系统基于云计算平台构建,利用大数据相关技术,统一管理用电数据,实现统一的数据接入、存储、管理和共享功能,实现支撑多业务的智能用电数据共享。在数据统一管理、集中共享的基础上,利用分布式处理和查询等相关技术,实现用电大数据的支撑平台,即为上层业务提供数据的查询、处理和挖掘的通用方法。作为用电数据服务和用电数据业务整体资源提供层,服务云平台集中管理全部计算、存储和网络资源的前提下,针对不同的用电数据业务要求,实现不同类型的资源组织和管理,根据对现有数据服务和智能用电业务的分析,在云平台上设置数据域、业务域和交互域三个可用区域,其划分的具体情况如图2所示。

数据域用于为数据存储和处理提供高性能、可扩展的集群资源,用电数据的接入、存储和应用过程中,需要采用分布式方式完成数据查询和处理等功能,因此要求计算资源和存储资源处于同一物理节点,即计算资源本地化,一般不采用专用网络存储模式如NAS或SAN等方式进行存储。在建立虚拟节点的过程中,需指定本地化的存储路径,且虚拟节点需要保证双核以上的处理资源和8GB以上内存。由于数据域并不直接提供对外交互,因此在虚拟网络的配置上,直接采用单层私有网络方式即可,不需要配置专门的存储网络或外网地址,但为了向上层业务提供接口,需要设置接口服务器,以实现对数据域内网资源和外部业务域的访问与控制。

业务域用于提供上层具体交互界面的业务逻辑支持,需要实现复杂的业务逻辑和流畅的网络接口,实现对下层数据服务和对外界交互界面的访问,在业务域的设计上,需要根据业务内容提高性能计算资源。对存储资源要求较少的可采用本地存储或NAS存储方式,支持业务逻辑中的缓存数据或中间数据等。对网络配置可能较为复杂,需要配置对数据域和交互域的两套接口,由于不同业务的归属单位或用户人群差别较大,例如可能需要支持电网内部应用,以及最终用户的查询需求,因此不同业务内容需要在业务域中配置为不同子网和安全域,防止出现入侵或服务滥用等情况。

交互域用于向业务人员、用户或科研人员等用电数据的最终使用者提供交互界面和手段。由于用电数据的使用者可能存在多种网络环境中,因此交互域的安全问题最为关键,需要根据不同用户的特性、网络环境和访问权限,进行交互服务的安全域分割和安全保护设计,交互域不会直接访问数据域内容,因此交互域只需考虑和业务域的安全隔离和接口即可。在交互域设计上需要根据用户的动态情况,实现对计算资源的动态横向扩展和负载均衡,需要完成单独的存储资源配置,实现对热点数据的缓存和对中间数据的缓存,减少从业务域申请数据的开销。在网络配置上,需要面向不同用户,合理划分安全域和Vlan资源,并实现丰富的公网接口和电力专网接口,满足用户通过网络访问交互服务的需求。

智能用电业务服务云作为底层资源池,目的是为了提供一个虚拟化的资源支撑环境,将计算、存储和网络内容整合成相应的资源池,提供统一的管理和运维,使得用户或上层业务能快速申请资源和动态调整资源规模。资源的使用者不用对申请的资源进行维护,对单个使用者来说明,可申请的资源近乎“无限”,底层资源池采用“基础设施即服务”(IaaS)的模式构建,资源池的拓扑如图3所示。

智能用电大数据共享平台采用混合存储机制进行数据存储,根据用电数据的业务属性采用对应存储模式。原始用电数据需要根据数据内容进行分类存储(例如电量、功率数据和电压电流数据等),并考虑对原始数据的准实时查询需求和分布式批处理的需求,本发明采用Key-Value或列存储方式组织数据,对于需要对原始数据进行频繁查询的业务,则需要单独整理对业务内容优化索引的数据副本以支持,原始数据的处理效率和存储可靠性要求都较高,因此要求数据存储和共享平台在硬件资源上保障其存储副本需求和处理节点数量需求。中间结果数据类型较多,数据量大,因此需要采用分布式、多副本方式进行统一管理,但中间结果一般不会被业务系统直接查询,而是会进行进一步运算和整理,所以不需要提供分布式数据查询的支持。业务数据集通常作为最终数据出现,例如电量统计结果、线损计算结果等,进行进一步处理的可能性小,或者即便进行进一步处理,其处理性能要求和实时性要求都较弱,因此优先采用分布式列存储等机制,实现分布式查询的优化。档案数据一般为小数据,涉及用户信息、线路和采集点、计量点信息等,数据量小、更新不算频繁,但数据之间的关联性较强,此类数据的存储,一般需遵循常规的关系型数据库设计范式,并采用Oracle等高性能关系型数据库进行存储,本发明的智能用电大数据共享平台提供关系型数据库和大数据存储方法的导入导出方法,支持在大数据关联分析时,将档案类数据导出、缓存;对于热点数据采用内存数据库或采用SSD硬盘承载数据。报表类数据一般为大数据分析后的结果数据集,数据量不大,一般可以利用关系型数据库甚至内存数据库进行存储,在具体实施上主要考虑读取优化,而非写入优化。

由于数据存储与共享服务需要处理多种类型的数据,因此需要进行混合存储的模式进行设计,并且根据业务特点和数据特点,灵活选择。终端采集上来的原始数据经过清洗、解析和分类,转化成基础业务数据、存入HDFS。大数据管理引擎负责对海量数据的装载、写入、查询及处理等。

采集终端上传的数据实质是半结构化数据,并且是多种业务内容的混合数据,利用MapReduce的并行处理能力,快速、可靠、稳定的完成半结构化数据与业务系统档案数据的语义关联,从而为用电信息采集业务应用系统提供完业务分类。采用HDFS与关系数据库相结合的混合存储,关系数据库主要存储修改操作较为频繁的业务交易数据,以及档案数据和告警事件等;云存储架构主要存储采集的电量、负荷等业务数据,当现有集群规模无法满足用电信息的增量存储时,可直接增加节点,实现动态横向扩展,以保障海量采集数据的稳定性和可靠性,为其他智能用电应用系统提供良好的数据支撑。

在数据预处理和批处理的支持上,原始数据经过分类、处理和分析之后,根据其特点,小数据集导入到关系型数据库,大数据集导入HBASE表格,在业务系统建设方面,只需要重构少量数据接口和业务模块,即可完成系统整体性能的提升。对于档案类、模型类等数据,仍然存放在关系型数据库,并可以通过Web Service、JDBC、ODBC、SQL等常见技术进行访问和调用,原有的业务系统不会遭到彻底的推翻和重构,在提高系统性能的同时,最大限度避免了升级的风险。在大数据查询的支持上,采用按列存储和Key-Value存储等技术,实现分布式实时或准实时查询,以满足上层业务的交互需求。可通过打破常规数据库设计范式的思路,通过增加数据冗余,减少数据的关联性,实现故障、统计等相关业务下的查询优化。基于云计算的海量智能用电信息混合存储技术架构如图5所示。

基于云计算的海量智能用电信息混合存储,终端采集上来的原始数据帧经过规约解析转化成半结构化业务数据,根据大数据管理引擎提供的档案数据将半结构化数据与业务建立语义关联,形成基础业务数据,基础业务数据按照类型存入文件,然后交由大数据管理引擎处理。大数据管理引擎负责对海量数据的装载、写入、查询及处理,其包括作业跟踪器、智能用电业务模型、元数据管理器、查询计划产生器、查询执行引擎、数据写入器、数据源连接器、MapReduce大数据集并行处理单元等。

基于云计算的海量智能用电信息混合存储技术在具体存储时,采用云存储与关系数据库混合存储的方式,关系数据库主要存储修改操作较为频繁的业务交易数据,如档案数据;云存储架构在进行海量数据的处理时采用分布式文件存储实现,通过构建分片集群实现强大、灵活、可扩展的数据存储,当数据存储服务器无法满足大规模智能用电信息存储时,可直接添加新的数据存储节点,通过增加节点以缓解已有智能用电信息存储服务器的压力,实现动态扩展,从而保障了海量电能数据的稳定性和可靠性,同时为其他智能用电应用系统提供良好的数据支撑。

基于云计算的海量智能用电信息混合存储技术可屏蔽用电信息采集系统海量感知数据的多样性与异构性,实现无差别的传输,实时有效地对数据进行分析处理,将采集终端数据与业务系统档案建立语义关联,变为业务信息,进而得到正确的分析和处理结果。其使用并行处理方式避免因繁杂的数据而产生延迟与拥塞,能够确保数据处理的及时性、正确性,从而为用电信息采集业务应用系统正常运行提供数据支撑。

智能用电数据服务系统的核心在于用电数据的存储、管理和处理,而传统的IaaS层云平台无法提供相应的处理算法和算法的分布式实现机制,因此需要基于IaaS平台设计上层的大数据平台,以提供基础的数据管理、存储和处理方法。由于智能用电数据是大数据和档案类数据的混合,因此需要针对不同数据类型进行不同的存储方法设计。底层资源池并不提供大数据的组织、索引和分析等方法,因此需要在底层资源池之上构建大数据平台,并且以“平台即服务”(PaaS)的方式,向业务人员提供大数据管理和处理的功能接口。如图6所示,本发明按照国网标准化设计成果,系统的总体逻辑架构、技术架构、数据存储架构、功能架构、物理架构、信道架构完全按照国网统一的设计要求,业务模型和编码规则完全遵循国网统一的规则和标准。

本发明智能用电数据管理服务系统的目标是构建智能用电服务体系中IT支撑平台、数据共享平台、数据处理与挖掘服务等一体化的管理架构,统一数据服务平台和接口以及相应的运维管理平台,使得智能用电业务能够通过统一的、简单化的服务接口实现业务数据查询、业务数据分析与挖掘、决策支持、数据预警、用户互动等相关业务。大数据平台本身只提供功能,不提供资源,因此要构建在Iaas资源池之上,通过向底层申请计算和存储资源,快速构建大数据处理的基础环境,并利用自身能力对数据展开处理。为提高业务人员的使用效率,大数据平台需要对功能打包形成标准镜像。业务人员根据数据源的需求,选择合适的大数据工具镜像,并通过申请,将镜像加载为实例,由Iaas提供承载,业务人员完成数据导入后,就可以对数据进行各类业务操作。

为了提供大数据的可靠存储、分布式管理和分布式批处理等任务,本发明采用hadoop平台,Hadoop由Apache Software Foundation公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。Hadoop具有可靠性高,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理;Hadoop具备高效性和可伸缩特点,它以并行的方式工作,通过并行处理加快处理速度,能够处理PB等级数据,目前可以支持4000以上的计算节点。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快;Hadoop本身是开源软件架构,自身没有软件费用,且可以构建在廉价通用的硬件环境上,因此构建成本很低,但廉价并不影响其效果;Hadoop框架中最核心的设计就是:HDFS和MapReduce,HDFS提供了海量数据的存储,MapReduce提供了对数据的分布式计算,这两种模块在设计上具有一个相同理念,即屏蔽底层未解决分布式一致性、可靠性等产生的复杂设计,用户只需要通过统一接口即可实现业务逻辑,不需要考虑单点失效、通信失效等细节问题。

从外部特性而言,HDFS可以看作分布式文件系统,可以创建、删除、移动或重命名文件,等等。从HDFS的架构看,是基于一组特定的节点构建的:包括逻辑上唯一的NameNode,它在HDFS内部提供元数据服务;DataNode,它为HDFS提供存储块。存储在HDFS中的文件被分成块,然后将这些块复制到多个计算机中(DataNode),这与传统的RAID架构大不相同。块的大小(通常为64MB)和复制的块数量在创建文件时由客户机决定,NameNode可以控制所有文件操作。HDFS内部的所有通信都基于标准的TCP/IP协议,主要目的是支持以流的形式访问写入的大型文件,如果HDFS存在多个机架(Rack),其配置三份以上的复制副本数,则HDFS会在本机架和不同机架间节点间,保持多个数据副本,以最大限度保障访问效率和数据的可靠性。

MapReduce是一种编程模型,用于大规模数据集的并行运算,极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(规约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。

本发明的用电数据服务系统采用混合存储技术,其混合存储的架构如图7所示。HDFS。大数据管理引擎负责对海量数据的装载、写入、查询及处理等。采集终端上传的数据实质是半结构化数据,并且是多种业务内容的混合数据,利用MapReduce的并行处理能力,快速、可靠、稳定的完成半结构化数据与业务系统档案数据的语义关联,从而为用电信息采集业务应用系统提供完业务分类。

采用HDFS与关系数据库相结合的混合存储,关系数据库主要存储修改操作较为频繁的业务交易数据,以及档案数据和告警事件等;云存储架构主要存储采集的电量、负荷等业务数据,当现有集群规模无法满足用电信息的增量存储时,可直接增加节点,实现动态横向扩展,以保障海量采集数据的稳定性和可靠性,为其他智能用电应用系统提供良好的数据支撑。

在数据处理流程上,原始数据经过分类、处理和分析之后,根据其特点,小数据集导入到关系型数据库,大数据集导入HBASE表格,在业务系统建设方面,只需要重构少量数据接口和业务模块,即可完成系统整体性能的提升。对于档案类、模型类等数据,仍然存放在关系型数据库,并可以通过Web Service、JDBC、ODBC、SQL等常见技术进行访问和调用,原有的业务系统不会遭到彻底的推翻和重构,在提高系统性能的同时,最大限度避免了升级的风险。

为了提高平台可用性和稳定性,本发明还采用建立在私有云基础上的平台高可用性设计,Hadoop本身具备机架感知、数据块多副本等子节点高可用性(HA)机制,但对于主节点的保障机制较差。在集群元数据的存储策略上,有两种策略可选,一是采用独立的网络存储单元,二是采用分布式程序协调系统Zookeeper作为元数据存储和活跃节点监控和失效选举。根据用采系统的集群建设规模与实际情况,如图8所示。

本发明根据hadoop和spark的特点和不同业务逻辑的需求,将对时效性要求高的业务部署在spark上运行而将对时效性要求不高的业务部署在hadoop上运行,既满足了用户处理的业务需求,也提高了资源的利用效率。并根据大数据平台的特点,对IaaS层私有云的构建进行了优化,以及根据IaaS层云平台的构建特点,在大数据平台的构建策略上进行了适配和优化。同时充分考虑了用电数据服务中,不同类型数据的特点和存储需求,屏蔽用电信息采集系统海量感知数据的多样性与异构性,实现无差别的传输,实时有效地对数据进行分析处理,将采集终端数据与业务系统档案建立语义关联,变为业务信息,进而得到正确的分析和处理结果。因此本发明的基于云计算的智能用电数据服务系统将云计算、大数据等相关模式和技术运用到智能用电数据管理系统中,解决了现有用电信息采集系统的数据存储、查询、检索速度慢、数据计算能力业务处理不强等问题,并支撑用电节能应用,为云计算技术在公司用电系统领域的应用提供技术支撑和示范引导效应。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1