海量数据处理系统及方法

文档序号:6429570阅读:170来源:国知局
专利名称:海量数据处理系统及方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种海量数据处理系统及方法。
背景技术
目前,随着智能小区的建设,各种配套系统(如用电信息采集系统、家庭用能管理系统、分布式能源管理系统、电动汽车管理系统等)也在同步建设和完善。今后,在智能小区推广过程中,智能用电、分布式清洁能源和电动汽车将会得到广泛应用,同时会有大量的信息系统上线运行;物联网技术的不断发展,使得在电网末梢用电环节,会有大量的用电终端设备、新能源接入,必将产生大量基础用电信息数据。商业智能(Business Intelligence,简称Bi)系统提供迅速分析数据的技术和方法,将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策。它充分利用现有的业务信息,借助现代信息技术,提取和组织有用信息,帮助用户在加强管理、促进营销和企业发展方面做出及时、正确的决策,把握、分析和发现新的商机和潜在的威胁,从而改进财务绩效,引导产品潮流,提高服务水平,保持竞争优势,为企业带来更大的经济收益。在智能小区建设中引入商业智能系统,将给智能小区建设带来新的商机与活力。 应用商业智能系统对电网企业和用户侧各类原始数据进行收集、归类、整理、分析和深度挖掘后,可以为用户提供更合理的用能建议,为电网企业提供强有力的决策支持。而电网企业和用户侧的数据量是非常庞大的,仅以北京市为例,假设有600万户家庭,单条记录的数据大小为100B,采集频率为96次/天。从智能电表采集的数据量一天为57. 6GB( = 600万记录/次*96次/天*100B),从智能家电采集的数据量一天为 288GB ( = 600万*5台设备记录/台*96次/天*100B),从分布式电源设备采集的数据量一天为0. 96GB( = 10万台设备记录/台*96次/天*100B),从储能设备采集的数据量一天为0. 96GB ( = 10万台设备记录/台*96次/天*100B),总计一天将产生 347. 5GB的数据,一年将产生126. 8TB的数据量。目前使用单台服务器存储与处理100TB以上数据不但成本高,而且数据处理效率低。而传统的商业智能架构一般多采用成熟的“ETL (Extract,Transform and Load, 抽取、转换与加载)工具+数据仓库软件+报表工具”方式来实现,这种方式最大支持 TB(1024GB)级别的数据存储和分析,而无法处理智能小区中高达PB(1024TB)级别的数据存储和计算,并且由于现有成熟的数据仓库软件都是单机的,当数据仓库中的数据增长到超过当前机器的最大限度时,无法通过简单地增加机器数量的方式来解决,只能用性能更好、价格更昂贵的机器进行替代来解决,从而使硬件的扩展性较差,设备的成本较高。

发明内容
本发明针对上述现有技术存在的问题,提供一种海量数据处理系统及方法,以支持智能小区中海量数据的处理,提高处理效率及系统扩展性。为此,本发明提供如下技术方案
一种海量数据处理系统,包括整合单元,用于从不同数据源中获取源数据,并对所述源数据进行处理后生成与不同业务对应的统一接口的主题数据;存储单元,用于将所述主题数据存储在分布式文件系统中;分析单元,用于根据不同的任务请求,对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析;展现单元,用于展现所述分析单元的计算和分析结果。可选地,所述源数据包括以下任意一项或多项数据用电信息数据、分布式电源信息数据、电动汽车运营信息数据、储能信息数据、智能家居信息数据、环境信息数据。优选地,所述整合单元采用并行ETL方式对所述源数据进行处理。优选地,所述分析单元,具体用于利用云计算技术对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析。优选地,所述分析单元,还用于根据所述计算和分析的结果,生成不同粒度的汇总数据;所述系统还包括缓存单元,用于缓存所述汇总数据;所述展现单元,还用于从所述缓存单元中获取所述汇总数据并展现所述汇总数据。一种海量数据处理方法,包括从不同数据源中获取源数据,并对所述源数据进行处理后生成与不同业务对应的统一接口的主题数据;将所述主题数据存储在分布式文件系统中;根据不同的任务请求,对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析;展现所述分析单元的计算和分析结果。可选地,所述源数据包括以下任意一项或多项数据用电信息数据、分布式电源信息数据、电动汽车运营信息数据、储能信息数据、智能家居信息数据、环境信息数据。优选地,所述对所述源数据进行处理包括采用并行ETL方式对所述源数据进行处理。优选地,所述对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析包括利用云计算技术对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析。优选地,所述方法还包括根据所述计算和分析的结果,生成不同粒度的汇总数据;缓存所述汇总数据;展现所述汇总数据。本发明提供的海量数据处理系统及方法,针对智能小区中来自各种不同数据源的海量数据,对其进行处理后生成与不同业务对应的统一接口的主题数据,并将这些主题数据存储在分布式文件系统中,在有任务请求时,根据不同的任务请求,对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析,对分析结果根据不同的应用进行相应的展现。由于对多个数据源的源数据进行分布式存储和并行计算及分析,缩短了存储时间和计算响应时间,提高了处理效率,可以支持PB级别的数据量。而且,本发明提供的海量数据处理系统,硬件节点可以根据实际需要任意扩展,系统扩展性好。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本发明实施例海量数据处理系统的一种结构示意图;图2是本发明实施例中分析单元根据任务请求进行多节点、多任务的并行计算和分析的一种示意图;图3是本发明实施例中分析单元根据任务请求进行多节点、多任务的并行计算和分析的另一种示意图;图4是本发明实施例海量数据处理系统的另一种结构示意图;图5是本发明实施例海量数据处理方法的流程图。
具体实施例方式为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。本发明海量数据处理系统及方法,针对智能小区中来自各种不同数据源的海量数据,对其进行处理后生成与不同业务对应的统一接口的主题数据,并将这些主题数据存储在分布式文件系统中,在有任务请求时,根据不同的任务请求,对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析,对分析结果根据不同的应用进行相应的展现。如图1所示,是本发明海量数据处理系统的一种结构示意图。在该实施例中,所述系统包括整合单元101,用于从不同数据源中获取源数据,并对所述源数据进行处理后生成与不同业务对应的统一接口的主题数据;存储单元102,用于将所述主题数据存储在分布式文件系统中;比如,可以以文本文件的形式存储所述主题数据,当然,也可以采用其他形式的存储方式,对此本发明实施例不做限定。分析单元103,用于根据不同的任务请求,对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析;展现单元104,用于展现分析单元103的分析结果。在本发明实施例中,上述源数据可以来自各种不同的数据源系统,比如用电信息采集系统、分布式电源系统、电动汽车运营数据系统、储能系统、智能家居系统、环境数据系统、政策信息系统等,相应地,对应的源数据可以是以下任意一项或多项数据用电信息数据、分布式电源信息数据、电动汽车运营信息数据、储能信息数据、智能家居信息数据、环境信息数据。当然,在不同的数据源系统中,这些源数据可以是存储在该系统中的关系型数据库或者其他类型的数据库中。由于不同的数据源系统,其数据结构可能相同,也可能不同,因此,为了后续单元对这些数据处理的方便,由整合单元101对这些异构的源数据进行处理,将其转换成与不同业务对应的统一接口的主题数据。在实际应用中,所述整合单元101可以采用ETL工具,通过并行方式对这些源数据进行处理。所述ETL工具是利用并行云计算技术开发的,即可以实现传统ETL工具,如 DataStage.Informatic PowerCenter等所实现的主要功能,还可以采用并行的方式进行数据的ETL,大大提高了效率。利用ETL工具,将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,生成与不同业务对应的统一接口的主题数据。例如,对于存储在关系型数据库中的用户用电数据,可以根据用户编号将用户分成N组,然后在本发明实施例的系统平台的N个节点中启动N个ETL任务,每个任务抽取一组数据,N个任务可以在N个节点并行执行。再例如,对于通过第三方服务获取的天气数据等,一般是文本格式,通过对这些文本格式的天气数据进行各种清洗、转换处理,如只取业务分析需要的字段、对空值进行填值寸。在本发明实施例中,上述分析单元103可以根据不同的任务请求,对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析。例如,某一任务请求是统计在某地区不同智能家电厂商生产的智能冰箱的使用数量,对此,上述分析单元103的处理过程如图2所示。在图2中,由三个节点并行对7个家庭中的冰箱情况进行统计,节点S21统计家庭 1和家庭2中的情况,节点S22统计家庭3和家庭4中的情况,节点S23统计家庭5、6、7中的情况。各节点将统计到的海尔冰箱的情况提交到节点S21,将统计到的美的冰箱的情况提交到节点S22,将统计到的康宝冰箱的情况提交到节点S23,然后由各节点对统计结果进行汇总分析,将汇总结果提交到节点S21,由S21得到总的结果。再例如,某一任务请求是统计某个家庭7月份不同电器的用电量,对此,上述分析单元103的处理过程如图3所示。在图3中,由四个节点并行对该家庭中不同日期不同电器的用电量进行统计,节点S31统计7月1日和7月15日冰箱的用电量,节点S32统计7月1日电视和空调的用电量,节点S33统计7月15日和7月30日空调的用电量,节点S34统计7月30日冰箱的用电量、以及7月30日和7月15日电视的用电量。各节点将统计到的冰箱的用电量的情况提交到节点S31,将统计到的电视的用电量的情况提交到节点S32,将统计到的空调的用电量的情况提交到节点S33,然后由各节点对统计结果进行汇总分析,将汇总结果提交到节点 S31,由S31得到总的结果。当然,在实际应用中,分析单元103对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析的过程可以不限于上述简单的计算和分析,可以根据具体应用需求,完成更复杂的计算和分析过程,比如,可以借助于云计算技术(如Hive+MapReduce等),实现大规模数据集的并行运算。而且,在具体实现时,可以通过软件或分布式硬件来实现,对此本发明实施例不做限定。对于一个任务,具体采用几个节点以及每个节点需要处理哪些源数据,可以根据应用需要来灵活确定,对此本发明实施例也不做限定。在实际应用中,上述展现单元104,可以根据业务需求生成个性化的图表等,具体展现方式本发明实施例不做限定。本发明提供的海量数据处理系统,可以针对智能小区中来自各种不同数据源的海量数据,对其进行处理后生成与不同业务对应的统一接口的主题数据,并将这些主题数据存储在分布式文件系统中,在有任务请求时,根据不同的任务请求,对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析,对分析结果根据不同的应用进行相应的展现。由于对多个数据源的源数据进行分布式存储和并行计算及分析,缩短了存储时间和计算响应时间,提高了处理效率,可以支持PB级别的数据量。而且,本发明提供的海量数据处理系统,硬件节点可以根据实际需要任意扩展,系统扩展性好。如图4所示,是本发明实施例海量数据处理系统的另一种结构示意图。与图1所示实施例不同的是,在该实施例中,分析单元403不仅用于根据不同的任务请求,对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析,还进一步用于根据计算和分析的结果,生成不同粒度的汇总数据。另外,在该系统中,还进一步包括缓存单元405,用于缓存所述分析单元403汇总后的数据。相应地,展现单元104还可以直接从所述缓存单元405中获取所述汇总数据并展现所述汇总数据。通过建立一系列不同粒度的汇总数据,一方面可以简化前端展现单元104展现分析结果时的逻辑复杂度,另一方面也可以提高数据访问速度,减少数据访问时间。相应地,本发明实施例还提供一种海量数据处理方法,如图5所示,是该方法的流程图,包括以下步骤步骤501,从不同数据源中获取源数据,并对所述源数据进行处理后生成与不同业务对应的统一接口的主题数据。在本发明实施例中,上述源数据可以来自各种不同的数据源系统,比如用电信息采集系统、分布式电源系统、电动汽车运营数据系统、储能系统、智能家居系统、环境数据系统、政策信息系统等,相应地,对应的源数据可以是以下任意一项或多项数据用电信息数据、分布式电源信息数据、电动汽车运营信息数据、储能信息数据、智能家居信息数据、环境信息数据。当然,在不同的数据源系统中,这些源数据可以是存储在该系统中的关系型数据库或者其他类型的数据库中。由于不同的数据源系统,其数据结构可能相同,也可能不同,因此,为了后续单元对这些数据处理的方便,由整合单元101对这些异构的源数据进行处理,将其转换成与不同业务对应的统一接口的主题数据。在实际应用中,可以采用ETL工具,通过并行方式对这些源数据进行处理。具体地,利用ETL工具,将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,生成与不同业务对应的统一接口的主题数据。
步骤502,将所述主题数据存储在分布式文件系统中。比如,可以以文本文件的形式存储所述主题数据,当然,也可以采用其他形式的存储方式,对此本发明实施例不做限定。步骤503,根据不同的任务请求,对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析。具体地,可以利用云计算技术对所述分布式文件系统中存储的数据进行多节点、 多任务的并行计算和分析。对于一个任务,具体采用几个节点以及每个节点需要处理哪些源数据,可以根据应用需要来灵活确定,对此本发明实施例也不做限定。步骤504,展现所述分析单元的计算和分析结果。比如,可以根据业务需求生成个性化的图表等,具体展现方式本发明实施例不做限定。本发明提供的海量数据处理方法,可以针对智能小区中来自各种不同数据源的海量数据,对其进行处理后生成与不同业务对应的统一接口的主题数据,并将这些主题数据存储在分布式文件系统中,在有任务请求时,根据不同的任务请求,对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析,对分析结果根据不同的应用进行相应的展现。由于对多个数据源的源数据进行分布式存储和并行计算及分析,缩短了存储时间和计算响应时间,提高了处理效率,可以支持PB级别的数据量。在本发明海量数据处理方法另一实施例中,还可进一步包括以下步骤根据所述计算和分析的结果,生成不同粒度的汇总数据;缓存所述汇总数据。这样,在需要展现数据处理结果时,可以从缓存中提取并展现相应的汇总数据,不仅可以降低前端展现时的逻辑复杂度,而且还可以提高数据访问速度,减少数据访问时间。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,其实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式
对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1.一种海量数据处理系统,其特征在于,包括整合单元,用于从不同数据源中获取源数据,并对所述源数据进行处理后生成与不同业务对应的统一接口的主题数据;存储单元,用于将所述主题数据存储在分布式文件系统系统中; 分析单元,用于根据不同的任务请求,对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析;展现单元,用于展现所述分析单元的计算和分析结果。
2.根据权利要求1所述的系统,其特征在于,所述源数据包括以下任意一项或多项数据用电信息数据、分布式电源信息数据、电动汽车运营信息数据、储能信息数据、智能家居信息数据、环境信息数据。
3.根据权利要求1所述的系统,其特征在于,所述整合单元采用并行ETL方式对所述源数据进行处理。
4.根据权利要求1所述的系统,其特征在于,所述分析单元,具体用于利用云计算技术对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析。
5.根据权利要求1至4任一项所述的系统,其特征在于,所述分析单元,还用于根据所述计算和分析的结果,生成不同粒度的汇总数据; 所述系统还包括缓存单元,用于缓存所述汇总数据;所述展现单元,还用于从所述缓存单元中获取所述汇总数据并展现所述汇总数据。
6.一种海量数据处理方法,其特征在于,包括从不同数据源中获取源数据,并对所述源数据进行处理后生成与不同业务对应的统一接口的主题数据;将所述主题数据存储在分布式文件系统系统中;根据不同的任务请求,对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析;展现所述分析单元的计算和分析结果。
7.根据权利要求6所述的方法,其特征在于,所述源数据包括以下任意一项或多项数据用电信息数据、分布式电源信息数据、电动汽车运营信息数据、储能信息数据、智能家居信息数据、环境信息数据。
8.根据权利要求6所述的方法,其特征在于,所述对所述源数据进行处理包括 采用并行ETL方式对所述源数据进行处理。
9.根据权利要求6所述的方法,其特征在于,所述对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析包括利用云计算技术对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析。
10.根据权利要求6至9任一项所述的方法,其特征在于,所述方法还包括 根据所述计算和分析的结果,生成不同粒度的汇总数据;缓存所述汇总数据; 展现所述汇总数据。
全文摘要
本发明公开了一种海量数据处理系统及方法,该系统包括整合单元,用于从不同数据源中获取源数据,并对所述源数据进行处理后生成与不同业务对应的统一接口的主题数据;存储单元,用于将所述主题数据存储在分布式文件系统中;分析单元,用于根据不同的任务请求,对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析;展现单元,用于展现所述分析单元的计算和分析结果。利用本发明,可以实现对智能小区中海量数据的处理,提高处理效率及系统扩展性。
文档编号G06F17/30GK102254024SQ20111021271
公开日2011年11月23日 申请日期2011年7月27日 优先权日2011年7月27日
发明者刘建明, 李伟良, 李晓珍, 栗宁, 王娟, 王继业, 王风雨, 赵丙镇, 闫爱梅 申请人:北京国电通网络技术有限公司, 国网信息通信有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1