一种大数据统计方法、系统、计算机设备及存储介质与流程

文档序号:17662312发布日期:2019-05-15 22:28阅读:156来源:国知局

本申请涉及大数据技术领域,尤其涉及一种大数据统计方法、系统、计算机设备及存储介质。



背景技术:

目前,随着互联网的爆发式增长,数据量急剧增长,数据库的损耗越来越大,一些统计等操作容易导致数据库的锁表、卡死等现象,数据库主从部署会大量的占用服务器io,特别是对数据库文件比较大的主从复制,系统很容易卡死。刚开始数据业务不多,压力不大,一台数据库服务器就可以满足需求。随着业务的快速发展,数据越来越多,这个时候需要把db、webserver等服务分开部署了。但是随着用户量的不断增长,一些报表统计越来越多,会发现数据库不行了,速度很慢,有时候还会宕掉。这个时候就得利用读写分离,有一个masterserver(主服务器)专门负责收集数据,另外的几个salveserver(从服务器)专门进行读取,这时候压力会减轻点。但是随着用户数量的继续增多,容易导致服务器io占用过大,导致数据库卡死,数据报表统计慢,无法展示正确数据。



技术实现要素:

本申请实施例提供了一种大数据统计方法、系统、计算机设备及存储介质,用于解决现有技术中数据量多统计等操作会导致数据库的资源占用变大,导致数据统计不出来的问题。

本申请实施例提供的大数据统计方法,包括:

读取mysql数据库的binlog日志,将日志记录按顺序放入消息队列;

通过etl服务对消息队列进行消费,对所述消息队列中的日志记录进行抽取、清洗、转换及装载处理得到对应的业务数据并加载到对应的数据仓库中;

通过spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果。

可选地,所述读取mysql数据库的binlog日志,将日志记录按顺序放入消息队列,包括:

mysql数据库开启binlog;

开启同步服务,定时拉取binlog日志,解析binlog日志;

同步服务将binlog日志发送给消息队列。

可选地,所述通过etl服务对消息队列进行消费,对所述消息队列中的日志记录进行抽取、清洗、转换及装载处理得到对应的业务数据并加载到对应的数据仓库中,包括:

开启etl服务;

通过etl服务对消息队列进行消费;

根据业务需求对消息队列中的日志记录进行抽取、清洗、转换及装载处理得到对应的业务数据;

按照预先定义好的数据仓库模型,将不同业务数据加载到对应的数据仓库中。

可选地,所述数据仓库为有且仅有一个多字段复合索引的存储引擎。

可选地,所述通过spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果,包括:

通过用spark分布式查询引擎做实时分析、聚合、查询及离线计算,得到对应的统计结果;所述spark是专为大规模数据处理而设计的快速通用的计算引擎,通过在统一框架下支持不同计算把各种处理流程整合。

可选地,所述通过spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果之前,还包括:

将查询信息通过网关服务接入到存储层以对所述数据仓库中的业务数据进行查询和数据统计。

可选地,所述通过spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果之后,还包括:

通过网关服务实现负载均衡、认证授权及统一管理api,以实现统计数据的统计结果输出;

通过api方式进行数据获取,根据不同的业务需求获取对应的统计结果并展示。

本申请实施例提供的大数据统计系统,包括:

日志读取模块,用于读取mysql数据库的binlog日志,将日志记录按顺序放入消息队列;

数据存储模块,用于通过etl服务对消息队列进行消费,对所述消息队列中的日志记录进行抽取、清洗、转换及装载处理得到对应的业务数据并加载到对应的数据仓库中;

统计结果模块,用于通过spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果。

本申请实施例提供的计算机设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的大数据统计方法的步骤。

本申请实施例提供的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的大数据统计方法的步骤。

从上述技术方案可以看出,本申请实施例具有以下优点:

本实施例中,通过读取mysql数据库的binlog日志,将日志记录按顺序放入消息队列;通过etl服务对消息队列进行消费,对所述消息队列中的日志记录进行抽取、清洗、转换及装载处理得到对应的业务数据并加载到对应的数据仓库中;通过spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果;将数据通过增量方式导入仓库,数据仓库进行数据清洗,清洗后存起来,通过离线计算,将统计数据提前算好,等到业务系统使用的时候直接取统计后的数据,提高统计速度,减轻数据库统计的压力。

附图说明

图1为本申请实施例中大数据统计方法的一个实施例示意图;

图2为本申请实施例中大数据统计方法的应用实施例示意图;

图3为本申请实施例中大数据统计系统的一个实施例示意图;

图4为本申请实施例中计算机设备的结构示意图。

具体实施方式

本申请实施例提供了一种大数据统计方法、系统、计算机设备及存储介质,为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

下面对本申请实施例中的具体流程进行描述,请参阅图1,本申请实施例中大数据统计方法的一个实施例包括:

110、读取mysql数据库的binlog日志,将日志记录按顺序放入消息队列;

120、通过etl服务对消息队列进行消费,对所述消息队列中的日志记录进行抽取、清洗、转换及装载处理得到对应的业务数据并加载到对应的数据仓库中;

130、通过spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果。

本实施例中,通过拉取binlog日志方式实现每日数据的同步,binlog是mysqlsever层维护的一种二进制日志,其主要是用来记录对mysql数据更新或潜在发生更新的sql语句,并以"事务"的形式保存在磁盘中,利用binlog的工作机制实现数据增量同步。读取mysql数据库的binlog日志,对binlog日志进行解析,解析出有过变更的数据,这部分数据就是增量数据。然后将这部分增量数据发送到消息队列,从而实现增量同步。请一并参阅图2,图2为本申请实施例中大数据统计方法的应用实施例示意图,读取binlog日志后,将日志记录按顺序放入消息队列,具体为kafka队列,kafka是一个为处理实时数据提供一个统一、高吞吐、低延迟的平台。是分布式发布-订阅消息系统,是一个分布式的,可划分的,冗余备份的持久性的日志服务。

然后,通过etl服务对消息队列进行消费,对所述消息队列中的日志记录进行抽取、清洗、转换及装载处理得到对应的业务数据并加载到对应的数据仓库中。具体来说,etl是英文extract-transform-load的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程,此乃数据仓库技术常见技术名词。处理层的etl服务负责消费kafka,再由etl服务对数据进行抽取、清洗、转换、装载。根据业务进行数据清洗、数据聚合,最终按照预先定义好的数据仓库模型,将不同业务数据加载到对应的数据仓库(hbase)中去,hbase的是一个有且仅有一个多字段复合索引的存储引擎。

最后,通过spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果。具体来说,利用spark分布式查询引擎做实时分析聚合查询、离线计算。spark是专为大规模数据处理而设计的快速通用的计算引擎,spark适用于各种各样原先需要多种不同的分布式平台的场景,包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算,spark使我们可以简单而低耗地把各种处理流程整合在一起。

进一步地,所述读取mysql数据库的binlog日志,将日志记录按顺序放入消息队列,包括:

mysql数据库开启binlog;

开启同步服务,定时拉取binlog日志,解析binlog日志;

同步服务将binlog日志发送给消息队列。

进一步地,所述通过etl服务对消息队列进行消费,对所述消息队列中的日志记录进行抽取、清洗、转换及装载处理得到对应的业务数据并加载到对应的数据仓库中,包括:

开启etl服务;

通过etl服务对消息队列进行消费;

根据业务需求对消息队列中的日志记录进行抽取、清洗、转换及装载处理得到对应的业务数据;

按照预先定义好的数据仓库模型,将不同业务数据加载到对应的数据仓库中,其中,所述数据仓库为有且仅有一个多字段复合索引的存储引擎。

进一步地,所述通过spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果,包括:

通过用spark分布式查询引擎做实时分析、聚合、查询及离线计算,得到对应的统计结果;所述spark是专为大规模数据处理而设计的快速通用的计算引擎,通过在统一框架下支持不同计算把各种处理流程整合。

在实际应用时,所述通过spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果之前,还包括:

将查询信息通过网关服务接入到存储层以对所述数据仓库中的业务数据进行查询和数据统计。

进一步地,所述通过spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果之后,还包括:

通过网关服务实现负载均衡、认证授权及统一管理api,以实现统计数据的统计结果输出;

通过api方式进行数据获取,根据不同的业务需求获取对应的统计结果并展示。

具体来说,本申请通过springcloudgateway(网关)实现负载均衡、认证授权、统一管理api,实现统计数据计算结果输出。业务系统通过api的方式进行数据获取,根据不同的业务需求获取展示数据。

本申请的数据库通过binlog数据和kafka队列实现数据的快速增量同步,且利用sparkstructuredstreaming流式计算引擎,实现对hbase的高速查询引入了数据集仓库,将数据通过增量方式导入仓库,数据仓库进行数据清洗,清洗后存起来,通过离线计算,将统计数据提前算好,等到业务系统使用的时候直接取统计后的数据,提高了统计速度,减轻了数据库统计的压力。

上面对本申请实施例中的大数据统计方法进行了描述,下面对本申请实施例中的大数据统计系统进行描述:

请参阅图3,本申请实施例中大数据统计系统的一个实施例包括:

日志读取模块10,用于读取mysql数据库的binlog日志,将日志记录按顺序放入消息队列;

数据存储模块20,用于通过etl服务对消息队列进行消费,对所述消息队列中的日志记录进行抽取、清洗、转换及装载处理得到对应的业务数据并加载到对应的数据仓库中;

统计结果模块30,用于通过spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果。

上面从模板化功能实体的角度对本申请实施例中的大数据统计系统进行描述,具体可参照上述的大数据统计方法对应的步骤,下面从硬件处理的角度对本申请实施例中的计算机设备控制进行描述。

请参阅图4,本申请实施例中的计算机设备可包括输入接口310、输出接口320、处理器330和存储器340。本申请实施例中的输入接口310和输出接口320可以是多种规格的现有接口。存储器340可以包括只读存储器和随机存取存储器,并向处理器330提供指令和数据。存储器340的一部分还可以包括非易失性随机存取存储器(non-volatilerandomaccessmemory,nvram)。存储器340存储了如下的元素,可执行模块或者数据结构,或者它们的子集,或者它们的扩展集:操作指令:包括各种操作指令,用于实现各种操作。操作系统:包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。

本发明实施例中处理器330用于:

读取mysql数据库的binlog日志,将日志记录按顺序放入消息队列;

通过etl服务对消息队列进行消费,对所述消息队列中的日志记录进行抽取、清洗、转换及装载处理得到对应的业务数据并加载到对应的数据仓库中;

通过spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果。

处理器330还可以称为中央处理单元(centralprocessingunit,cpu)。存储器340可以包括只读存储器和随机存取存储器,并向处理器330提供指令和数据。存储器340的一部分还可以包括nvram。具体的应用中,计算机设备的各个组件通过总线系统350耦合在一起,其中总线系统350除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统350。

上述本发明实施例揭示的大数据统计方法可以应用于处理器330中,或者由处理器330实现。处理器330可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器330中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器330可以是通用处理器、数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件、单片机。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器340,处理器330读取存储器340中的信息,结合其硬件完成所述大数据统计方法的步骤。

图4的相关描述可以参阅图1方法部分的相关描述和效果进行理解,本处不做过多赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所述的计算机设备在实际应用时可为车载终端或云服务器等。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述大数据统计方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1