中间表更新方法及装置的制造方法

文档序号:8299189阅读:244来源:国知局
中间表更新方法及装置的制造方法
【技术领域】
[0001] 本发明实施例涉及数据处理技术领域,尤其涉及中间表更新方法及装置。
【背景技术】
[0002] 随着计算机技术与移动互联网技术的蓬勃发展,各种数据呈爆炸式增长。一些设 备每天需要处理的数据量可以达到T(10的12次方)级别,甚至P级别(10的15次方)。 在现有的数据处理模式中,原始数据作为基础数据,通常均会被存储在基础表中。但是,在 后续基于基础数据执行相关业务处理的过程中,往往需要先对基础数据进行聚合等处理操 作,以提取出基础数据中所隐含的为后续业务处理所需的数据,进而再处理产生业务数据。 一般情况下,提取基础数据或中间数据,再产生一项业务数据的过程由一个业务数据处理 任务实现。
[0003] 随着业务数据需求的增多,业务数据处理任务也越来越多,如果所有的业务数据 处理任务都以基础表作为数据源,从其中所存储的基础数据开始计算,那么在计算过程中, 将会消耗很大的带宽和资源。为此,现有技术预先对基础表中的基础数据进行了某种程度 上的聚合,产生了一些中间表(DATAMART),直接供下游的业务数据处理任务进行处理以得 到业务数据,从而减少对原始数据的读取和计算操作,节省带宽和资源。其中,中间表中的 数据包括从基础表中提取的部分数据,或者对所提取的部分数据进行处理生成的中间数 据。
[0004] 然而,如果中间表中涵盖的数据量少,则会无法有效满足业务数据处理任务的提 取需求;如果中间表涵盖的数据量大,又会使得中间表的规模过大,既占用存储空间,也无 法有效提高数据的处理效率。为得到合适的中间表,现有技术主要依靠人工经验来设计中 间表,但由于数据量巨大,所以中间表的调整周期过长,不及时、准确率不高。

【发明内容】

[0005] 本发明实施例提供一种中间表更新方法及装置,以提高中间表调整的及时性和准 确性。
[0006] -方面,本发明实施例提供了一种中间表更新方法,该方法包括:
[0007] 获取业务数据处理任务对基础表和/或中间表中数据的提取记录;
[0008] 根据所述提取记录,按照设定规则确定所述中间表的表项调整方案;
[0009] 根据所述表项调整方案更新所述中间表的表项。
[0010] 另一方面,本发明实施例还提供了一种中间表更新装置,该装置包括:
[0011] 提取记录获取单元,用于获取业务数据处理任务对基础表和/或中间表中数据的 提取记录;
[0012] 表项调整方案确定单元,用于根据所述提取记录,按照设定规则确定所述中间表 的表项调整方案;
[0013] 中间表项更新单元,用于根据所述表项调整方案更新所述中间表的表项。
[0014] 本发明实施例提供的技术方案,以智能的方式,来获取业务数据处理任务对基础 表和/或中间表中数据的提取情况,并据此动态调整中间表中的表项,使得中间表的表项 和规模可以达到较佳的平衡点,从而提高了中间表调整的及时性和准确性。
【附图说明】
[0015] 图1是本发明实施例一提供的一种中间表更新方法的流程示意图;
[0016] 图2是本发明实施例三提供的一种中间表更新方法的流程示意图;
[0017] 图3是本发明实施例三提供的中间表更新方法所适用的网络架构示意图;
[0018] 图4是本发明实施例四提供的一种中间表更新装置的结构示意图。
【具体实施方式】
[0019] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便 于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0020] 实施例一
[0021] 图1是本发明实施例一提供的一种中间表更新方法的流程示意图。本实施例可应 用于由用于存储基础表和中间表的物理设备,以及执行业务数据处理任务的物理设备所构 成的数据处理系统。其中,对于基础表和中间表而言,其可以以数据库的形式,被存储在同 一台物理设备中,也可被存储在不同物理设备中;业务数据处理任务可以是由并列的不同 类型的业务数据处理子任务组成,且每种业务数据处理子任务的个数为至少一个,不同的 业务数据处理子任务可由不同的物理设备(例如,服务器)所负责执行。每个业务数据处 理子任务,用于从基础表和中间表中提取数据并进行处理得到相应的业务数据。
[0022] 本实施例提供的中间表更新方法,可由中间表更新装置执行,所述装置由软件实 现。其中,中间表更新装置可作为独立的软件产品,而被设置在位于上述数据处理系统之外 的第三方物理设备上,通过与数据处理系统之间的数据交互,实现对数据处理系统中中间 表的更新。或者,中间表更新装置作为上述数据处理系统内的一部分软件模块,而被内置在 数据处理系统内的一台物理设备中,以实现对数据处理系统中中间表的更新。参见图1,本 实施例提供的中间表更新方法具体包括如下:
[0023] S110、获取业务数据处理任务对基础表和/或中间表中数据的提取记录。
[0024] 在本实施例中,基础表和中间表均可包含有多条数据记录,每条数据记录可被视 为一个键值对,其中键值对中键(key)为表项名称,值(value)为表项上的数值。中间表中 的数据包括从基础表中提取的部分数据,或者对所提取的部分数据进行处理生成的中间数 据。
[0025] 例如,下表1给出了 一种基础表:
[0026]表1
【主权项】
1. 一种中间表更新方法,其特征在于,包括: 获取业务数据处理任务对基础表和/或中间表中数据的提取记录; 根据所述提取记录,按照设定规则确定所述中间表的表项调整方案; 根据所述表项调整方案更新所述中间表的表项。
2. 根据权利要求1所述的方法,其特征在于,根据所述提取记录,按照设定规则确定所 述中间表的表项调整方案,包括: 根据所述提取记录,统计所述基础表中表项的提取频次; 将提取频次达到第一预设值的表项,作为所述中间表的待添加表项。
3. 根据权利要求1所述的方法,其特征在于,根据所述提取记录,按照设定规则确定所 述中间表的表项调整方案,包括: 根据所述提取记录,统计所述中间表中表项的提取频次; 将所述提取频次低于第二预设值的表项,作为所述中间表的待删除表项。
4. 根据权利要求1-3中任一项所述的方法,其特征在于,在根据所述提取记录,按照设 定规则确定所述中间表的表项调整方案之后,还包括: 根据所述表项调整方案,预算调整后新中间表的容量大小; 如果所述容量大小超出表容量预设值,则修改所述表项调整方案,直至预算的新中间 表容量大小低于表容量预设值。
5. 根据权利要求1-3中任一项所述的方法,其特征在于,还包括: 监测所述业务数据处理任务从所述基础表和所述中间表中提取数据并进行处理得到 业务数据所耗费的时间; 根据所监测到的时间,产生中间表调整建议或所述设定规则的调整建议。
6. 根据权利要求1-3中任一项所述的方法,其特征在于,所述提取记录包括下述至少 一项记录: 业务数据处理任务根据提取需求,在所述基础表中查询并获取基础数据的记录; 业务数据处理任务根据提取需求,在所述中间表中查询并获取中间数据的记录; 业务数据处理任务根据提取需求查询所述中间表,如果所述中间表不存在满足所述提 取需求的中间数据,则根据所述提取需求在所述基础表中查询并获取基础数据的记录; 所述业务数据处理任务至少包括如下两种类型的任务: 用于根据单次的业务数据处理需求,从基础表和/或中间表进行数据提取和处理的第 一种业务数据处理子任务; 用于按照设定周期和/或设定业务数据处理需求,从基础表和/或中间表进行数据提 取和处理的第二种业务数据处理子任务。
7. -种中间表更新装置,其特征在于,包括: 提取记录获取单元,用于获取业务数据处理任务对基础表和/或中间表中数据的提取 记录; 表项调整方案确定单元,用于根据所述提取记录,按照设定规则确定所述中间表的表 项调整方案; 中间表项更新单元,用于根据所述表项调整方案更新所述中间表的表项。
8. 根据权利要求7所述的装置,其特征在于,所述表项调整方案确定单元包括待添加 项确定子单元,用于: 根据所述提取记录,统计所述基础表中表项的提取频次; 将提取频次达到第一预设值的表项,作为所述中间表的待添加表项。
9. 根据权利要求7所述的装置,其特征在于,所述表项调整方案确定单元包括待删除 项确定子单元,用于: 根据所述提取记录,统计所述中间表中表项的提取频次; 将所述提取频次低于第二预设值的表项,作为所述中间表的待删除表项。
10. 根据权利要求7-9中任一项所述的装置,其特征在于,还包括表项调整方案修改单 元,用于: 根据所述表项调整方案确定单元得到的表项调整方案,预算调整后新中间表的容量大 小; 如果所述容量大小超出表容量预设值,则修改所述表项调整方案,直至预算的新中间 表容量大小低于表容量预设值。
11. 根据权利要求7-9中任一项所述的装置,其特征在于,还包括调整建议生成单元, 用于: 监测所述业务数据处理任务从所述基础表和所述中间表中提取数据并进行处理得到 业务数据所耗费的时间; 根据所监测到的时间,产生中间表调整建议或所述设定规则的调整建议。
12. 根据权利要求7-9中任一项所述的装置,其特征在于,所述提取记录包括下述至少 一项记录: 业务数据处理任务根据提取需求,在所述基础表中查询并获取基础数据的记录; 业务数据处理任务根据提取需求,在所述中间表中查询并获取中间数据的记录; 业务数据处理任务根据提取需求查询所述中间表,如果所述中间表不存在满足所述提 取需求的中间数据,则根据所述提取需求在所述基础表中查询并获取基础数据的记录; 所述业务数据处理任务至少包括如下两种类型的任务: 用于根据单次的业务数据处理需求,从基础表和/或中间表进行数据提取和处理的第 一种业务数据处理子任务; 用于按照设定周期和/或设定业务数据处理需求,从基础表和/或中间表进行数据提 取和处理的第二种业务数据处理子任务。
【专利摘要】本发明实施例公开了一种中间表更新方法及装置。其中,所述方法包括:获取业务数据处理任务对基础表和/或中间表中数据的提取记录;根据所述提取记录,按照设定规则确定所述中间表的表项调整方案;根据所述表项调整方案更新所述中间表的表项。本发明实施例提供的技术方案,以智能的方式,来获取业务数据处理任务对基础表和/或中间表中数据的提取情况,并据此动态调整中间表中的表项,使得中间表的表项和规模可以达到较佳的平衡点,从而提高了中间表调整的及时性和准确性。
【IPC分类】G06F17-30
【公开号】CN104615763
【申请号】CN201510080692
【发明人】董铭, 孙勇义, 刘生
【申请人】百度在线网络技术(北京)有限公司
【公开日】2015年5月13日
【申请日】2015年2月13日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1