一种数据统计方法及系统的制作方法

文档序号:9865658阅读:567来源:国知局
一种数据统计方法及系统的制作方法
【技术领域】
[0001] 本发明设及大数据处理技术领域,特别设及一种数据统计方法及系统。
【背景技术】
[0002] 目前,分布式集群已经成为国内外云计算研究的热点。分布式集群具有良好的读 写能力,能够支持大数据量的表格,且适用于简单业务、数据量巨大的在线数据库及数据仓 库。由于分布式集群不适合作业务数据库,一般业务数据库往往由关系型数据库来担任,分 布式集群负责汇集各个关系型数据库中的数据。对于分布式集群运样的大数据平台,数据 量的情况是一项重要指标。
[0003] 现有技术中,可W通过MapReduce程序,遍历大数据平台中存储的所有数据,并利 用时间戳字段对遍历到的满足该时间戳字段的数据进行统计,W实现对数据量或数据总量 的统计。
[0004] 然而,对于大数据平台中存储的数据量非常大,表格的数量也非常多,因此,统计 效率较低,且需要耗费大量的计算、网络资源。

【发明内容】

[0005] 有鉴于此,本发明提供一种数据统计方法及系统,W实现对大数据平台中数据量 的统计。
[0006] 第一方面,本发明提供了一种数据统计方法,预先创建数据抽取记录表,W及预先 设置目标条件,包括:
[0007] 监测与大数据平台相连接的至少一个关系型数据库;
[000引在满足所述目标条件时,将具有增量数据的关系型数据库中的增量数据抽取到大 数据平台中;
[0009] 更新所述数据抽取记录表;
[0010] 在获取到统计指令时,根据所述数据抽取记录表响应所述统计指令。
[0011] 优选地,所述满足所述目标条件,包括:到达设定时间段,和/或,所述至少一个关 系型数据库中任意一个或多个关系型数据库中具有目标数据量的增量数据。
[0012]优选地,所述数据抽取记录表包括:rowkey项W及该rowkey项对应的数据量;其 中,所述rowkey项包括:{表名字}、{表名字}间隔符{时间}、{时间}间隔符{表名字忡的任 意一项或多项。
[0013] 优选地,所述根据所述数据抽取记录表响应所述统计指令,包括:根据所述数据抽 取记录表中的rowkey项,统计至少一个表名字的数据量、至少一个表名字在第一时间段内 的数据量、在第二时间段内至少一个表名字的数据量,W实现对所述统计指令的响应。
[0014] 优选地,执行所述将目标关系型数据库中的增量数据抽取到大数据平台中的工具 包括:Sqoop工具、Kettle工具、Flume工具或Qiuwa工具。
[0015] 第二方面,本发明还提供了一种数据统计系统,包括:
[0016] 创建单元,用于创建数据抽取记录表,并将所述数据抽取记录表发送给更新单元;
[0017] 存储单元,用于存储目标条件,并将所述目标条件发送给抽取工具;
[0018] 监测单元,用于监测与大数据平台相连接的至少一个关系型数据库,并将监测信 息发送给所述抽取工具;
[0019] 所述抽取工具,用于在满足所述目标条件时,将具有增量数据的关系型数据库中 的增量数据抽取到大数据平台中,并将抽取信息发送给所述更新单元;
[0020] 所述更新单元,用于更新所述数据抽取记录表,并将更新后的所述数据抽取记录 表发送给响应单元;
[0021 ]所述响应单元,用于在获取到统计指令时,根据所述数据抽取记录表响应所述统 计指令。
[0022] 优选地,所述满足所述目标条件,包括:到达设定时间段,和/或,所述至少一个关 系型数据库中任意一个或多个关系型数据库中具有目标数据量的增量数据。
[0023] 优选地,所述数据抽取记录表包括jowk巧项W及该rowkey项对应的数据量;其 中,所述rowkey项包括:{表名字}、{表名字}间隔符{时间}、{时间}间隔符{表名字忡的任 意一项或多项。
[0024] 优选地,所述响应单元,具体用于根据所述数据抽取记录表中的rowkey项,统计至 少一个表名字的数据量、至少一个表名字在第一时间段内的数据量、在第二时间段内至少 一个表名字的数据量,W实现对所述统计指令的响应。
[00巧]优选地,所述抽取工具包括:Sqoop工具、Kettle工具、F1皿e工具或化uwa工具。
[0026] 本发明实施例提供了一种数据统计方法及系统,在将关系型数据库中的数据抽取 到大数据平台之后,对数据抽取记录表进行更新,在对大数据平台中的数据进行统计时,可 W利用该数据抽取记录表进行响应,无需对大数据平台中所有数据进行遍历,从而可W提 高统计效率,节省了大量的计算、网络资源。
【附图说明】
[0027] 图1是本发明实施例提供的方法流程图;
[0028] 图2是本发明实施例提供的另一方法流程图;
[0029] 图3是本发明实施例提供的数据统计系统硬件架构图;
[0030] 图4是本发明实施例提供的数据统计系统结构示意图。
【具体实施方式】
[0031] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本 发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实 施例,都属于本发明保护的范围。
[0032] 如图1所示,本发明实施例提供了一种数据统计方法,该方法可W包括W下步骤:
[0033] 步骤101:预先创建数据抽取记录表,W及预先设置目标条件。
[0034] 步骤102:监测与大数据平台相连接的至少一个关系型数据库。
[0035] 步骤103:在满足所述目标条件时,将具有增量数据的关系型数据库中的增量数据 抽取到大数据平台中。
[0036] 步骤104:更新所述数据抽取记录表。
[0037] 步骤105:在获取到统计指令时,根据所述数据抽取记录表响应所述统计指令。
[0038] 根据本方案,在将关系型数据库中的数据抽取到大数据平台之后,对数据抽取记 录表进行更新,在对大数据平台中的数据进行统计时,可W利用该数据抽取记录表进行响 应,无需对大数据平台中所有数据进行遍历,从而可W提高统计效率,节省了大量的计算、 网络资源。
[0039] 在本发明一个优选实施例中,由于各个关系型数据库几乎每天都会产生增量数 据,且需要将产生的增量数据抽取到大数据平台中,可W通过如下目标条件,来启动该抽取 操作,到达设定时间段,和/或,所述至少一个关系型数据库中任意一个或多个关系型数据 库中具有增量数据。
[0040] 在本发明一个优选实施例中,为了能够利用该数据抽取记录表来实现对大数据平 台中数据量的统计,需要对数据抽取记录表中所记录的信息进行设计,由于大数据平台是 皿ase数据库,因此对于大数据平台中该数据抽取记录表的设计可W包括:rowk巧项W及该 rowkey项对应的数据量。其中,对于rowkey(行主键)的设计可W包括:{表名字}、{表名字} 间隔符附间}、{时间}间隔符{表名字忡的任意一项或多项。
[0041] 为使本发明的目的、技术方案和优点更加清楚,下面结合附图及具体实施例对本 发明作进一步地详细描述。
[0042] 如图2所示,本发明实施例提供了一种数据统计方法,该方法可W包括W下步骤:
[0043] 步骤201:确定数据抽取工具。
[0044] 由于数据量的不断增长,传统的关系型数据库(例如mysql、oracle等)已经不能够 支撑庞大的统计分析工作,因此,大数据平台(例如化ase)应运而生,但是大数据平台也有 其局限性,不能很好的支持在线事务。传统的关系型数据库支撑
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1