一种数据处理方法及装置与流程

文档序号:11620708阅读:221来源:国知局
本发明属于计算机领域,尤其涉及一种数据处理方法及装置。
背景技术
::随着云计算技术的不断发展,云计算技术不断落地成为支撑各行业信息技术发展的重要支柱。基于hadoop和hbase的分布式集群,如今已成为国内外云计算热门研究对象。hadoop的hdfs分布式存储为云平台提供了存储方式,hbase则为云平台提供数据库服务。企业或政府各部门数据越来越多,要对数据做深层次的关联分析、数据挖掘就要把数据整合起来,放在统一的数据平台上。大数据处理技术的出现,能够很好的应对这个问题。然而各业务系统的数据源种类多且繁杂,数据标准不统一,那么如何将各业务库中的数据采集到大数据平台中,并进行预处理,转换成为统一的数据格式或标准,成为对大数据进行处理的首要问题。因此,迫切需要提供一种高效的数据处理方案,来解决大数据平台中数据处理复杂的问题。技术实现要素:本发明提供一种数据处理方法及装置,以解决上述问题。本发明提供一种数据处理方法。上述方法包括以下步骤:通过消息中间件传输来自不同数据源的数据;对所述数据进行流式处理,并将经过处理的数据保存至数据库。本发明还提供一种数据处理装置,包括:数据传输模块、数据处理模块,其中,所述数据传输模块与所述数据处理模块连接;数据传输模块,用于通过消息中间件传输来自不同数据源的数据;数据处理模块,用于对所述数据进行流式处理,并将经过处理的数据保存至数据库。通过以下方案:通过消息中间件传输来自不同数据源的数据,实现了数据一次收取,多出分发,不必将数据进行多次抽取,减轻了源头数据库的压力。通过以下方案:对数据进行流式处理,并将经过处理的数据保存至数据库,实现了对数据的实时计算,提高了数据处理效率,并且对数据进行预处理,为后续离线计算做准备。附图说明此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1所示为本发明实施例1的数据处理方法处理流程图;图2所示为本发明实施例2的数据处理方法的架构图;图3所示为本发明实施例3的数据处理方法时序图;图4所示为本发明实施例4的数据处理装置结构图。具体实施方式下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。图1所示为本发明实施例1的数据处理方法处理流程图,包括以下步骤:步骤102:通过消息中间件传输来自不同数据源的数据。所述消息中间件是mq数据总线。mq作为数据总线使用,起到数据分发的功能,对mq来说数据都是通过etl(extract-transform-load,描述将数据从来源端经过抽取、转换、加载至目的端的过程)推送来的。通过json方式将所述数据推送至所述消息中间件。步骤104:对所述数据进行流式处理,并将经过处理的数据保存至数据库。进一步地,在对所述数据进行流式处理包括:监控所述数据,根据监控结果对所述数据的资源进行统计;创建所述数据的索引。其中,采用storm进行流式计算。许多分布式计算系统都可以实时或接近实时地处理大数据流,流式大数据处理的框架,例如storm,spark和samza。所述数据库是hbase数据库或hadoop数据库。使用消息中间件作为数据总线,可应对数据洪峰,实现消息的一次生产多次消费。通过storm进行流式计算,能够对数据进行实时处理。数据实时处理过程中可以对数据进行预处理和数据的分发、建索引等过程,实时性高,节省计算、网络资源。图2所示为本发明实施例2的数据处理方法的架构图。如图2所示,来自各数据源的数据推送至消息中间件mq。该数据源可以是关系型数据库,通过etl方式处理抽取出的数据,并将最终数据以json格式推送至mq,格式为{‘tablename’:’表名’,‘rowkey’:‘组织的rowkey’,‘source’:‘来源’}。该数据源也可以是第三方数据库。mq将数据推送给storm,storm负责将数据写入hbase数据库以及数据的实时处理,创建索引、资源监控以及其他业务处理。解决了从关系型数据库及其它数据源采集数据到hadoop大数据平台的数据处理问题。数据一次收取,多出分发,不必将数据进行多次抽取,减轻了源头数据库的压力;对数据可以进行实时计算;可以对数据进行预处理,为后续离线计算做准备。图3所示为本发明实施例3的数据处理方法时序图。从数据源抽取数据,并经过etl处理,经过处理的数据发送至数据总线(mq),数据总线将数据分发给hbase数据库以及第三方数据库。同时,strom对数据进行实时处理,进行全文索引,资源统计,并将处理后的数据存储至hbase数据库。消息中间件技术有两个核心功能:异步和解耦。这两个核心功能整体上提高了应用系统的工作效率,增强了系统的可用性、稳定性和可扩展性,提升了用户体验。使用onemm消息中间件系统可以实现应用系统各模块间或应用系统与其他系统(如erp系统、支付系统)之间的解耦与异步消息传输,改变直接通过数据库共享方式交换数据,造成系统之间底层数据耦合度过高问题以及远程跨地域应用系统的数据交换问题。通过消息中间件及流式计算,可以实现传统关系数据库及其它数据源到大数据平台的数据采集、处理问题。数据一次收取,多次分发,不必将数据进行多次抽取,减轻了源头数据库的压力;对数据可以进行实时计算;可以对数据进行预处理,为后续离线计算做准备。图4所示为本发明实施例4的数据处理装置结构图。如图4所示,根据本发明的实施例的一种数据处理装置,包括:数据传输模块402、数据处理模块404,其中,所述数据传输模块402与所述数据处理模块404连接;数据传输模块402,用于通过消息中间件传输来自不同数据源的数据;数据处理模块404,用于对所述数据进行流式处理,并将经过处理的数据保存至数据库。进一步地,所述数据处理模块404包括:统计单元4042,用于监控所述数据,根据监控结果对所述数据的资源进行统计;索引创建单元4044,用于创建所述数据的索引。所述消息中间件是mq数据总线。其中,数据处理模块404采用storm进行流式计算;所述数据库是hbase数据库或hadoop数据库。数据传输模块402通过json方式将所述数据推送至所述消息中间件。通过以下方案:通过消息中间件传输来自不同数据源的数据,实现了数据一次收取,多次分发,不必将数据进行多次抽取,减轻了源头数据库的压力。通过以下方案:对数据进行流式处理,并将经过处理的数据保存至数据库,实现了对数据的实时计算,提高了数据处理效率,并且对数据进行预处理,为后续离线计算做准备。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1