一个对海量数据进行抽样以及抽样数据管理系统的制作方法

文档序号:6562714阅读:274来源:国知局
专利名称:一个对海量数据进行抽样以及抽样数据管理系统的制作方法
技术领域
本发明涉及数据仓库领域、商务智能领域以及其他和海量数据分析与处理相关的领域,尤其涉及一种对海量数据进行抽样以及抽样数据管理的系统。
背景技术
抽样是从总体中选取一部分个体形成一个子集,利用这个子集对总体的统计特征进行估计与推断的过程。虽然利用抽样子集对总体特征的推断会损失一定的精确度。但是, 如果考虑到现在很多分析都是出于探索、预测的目的,问题本身就存在很大的不确定性,那么通过抽样以损失一定的精确性为代价获得对数据及时而充分的探索与分析是一个很有价值也很有必要的手段。抽样调查技术已经在统计学、社会学、医学等诸多领域获得了充分的研究与发展。在对企业信息化系统、数据仓库系统中的海量数据进行分析与处理的实践中,更常见的是对全体数据的分析与处理,例如,在现有的商业智能系统和企业信息化系统中没有一个专门的数据抽样模块,商业智能系统通过对全体数据的汇总分析给出结果。虽然,很多实践者也曾经利用抽样技术对海量数据进行分析,但是这些抽样实践都是零散的、 非系统化的、缺乏平台系统支撑与严格理论支撑的。本申请将提出一个数据抽样系统,它能够有效的管理对海量数据的抽样的设计、执行与应用。随着信息技术的发展,人类的数据极大丰富。据IDC的一份调查报告显示,到2020 年,人类产生的数据将超过35万亿GB(3MB)。很多大型企业产生并储存了海量的数据。据 McKinsey的一份调查报告显示,在美国,2010年规模超过1,000人的企业平均每家企业产生和储存超过200TB的数据,而许多企业产生和储存超过1PB(1PB = 1,000TB)的数据。以著名的社交网络平台!^acebook为例,到2010年7月,Facebook已经拥有超过35PB的数据, 并且数据量仍然以每天超过90TB的未压缩数据(超过15TB的压缩数据)的速度增长。如何对如此海量的数据进行处理成为企业在未来需要面临的一大难题。为了应对海量数据处理问题,企业通常以购买更加先进的服务器或者在云计算平台上进行数据处理等增加新的计算资源的方式来处理日益增长的海量数据。不可否认,增加新的高性能的计算资源是应对海量数据的一个重要手段,然而它并不是应对海量数据的唯一手段。本申请将提出一个抽样数据管理系统,该系统帮助使用者对海量数据进行抽样并对抽样数据进行管理,通过只对海量数据中规模可控的一部分子集进行分析,就能够在保证分析与决策质量的同时大大降低对运算资源的需求,从而能够将运算资源投入到更广泛、更复杂的运算中。虽然和对总体数据进行分析相比,对经过抽样的数据的分析结果会损失一定的精确性。但是,因为数据量过于巨大,对总体数据的分析会出现很多问题,现一一列举如下首先,由于对总体数据运算需要大量的运算资源,运算十分昂贵,业务人员很难有机会接触数据并掌握进行即席(ad-hoc)查询的必要技能,业务人员往往需要在技术人员的协助下对数据进行探索与分析,而在业务人员将需求表述给技术人员,技术人员再将需求在IT系统中实现的过程中难免会出现偏差甚至错误。其次,由于对总体数据的分析需要很长的时间,使得业务人员难以利用数据对自己的业务假设进行充分的探索与分析。并且,往往由于决策时机的时间限制,使得业务人员经常不得不在没有任何数据支撑的情况下做出决策。第三,因为对总体数据的即席查询需要耗费大量的时间和资源,为了满足业务人员快速的决策需求,往往需要业务人员对可能发生的决策以及可能需要的分析进行预估,再由技术人员预先实现这些需求,并存储到系统中。然而,预估的需求和实际的需求往往存在偏差,这使得系统耗费了大量的计算和存储资源来生成和保存没有被用来指导决策的无价值的结果。第四,总体数据的数据量伴随着企业业务量的增长而同步增长,当下某些新兴业务的业务飞速发展,数据增长速度往往超过预期,这也就意味着难以对企业信息系统的分析与计算能力进行有效规划,并且随着数据量的飞速增长对总体数据进行即席查询与分析所需的等待时间也会相应增长,从而造成虽然数据在飞速增长,但是数据的可用性却在逐步下降的困局。本申请提出一个抽样数据管理系统,通过对总体数据中的数据进行抽样与管理, 能够在一定程度上解决上述问题。它能够在保证分析质量和决策质量的同时,降低即席查询所需的时间和计算资源,使得系统能够及时的给出即席查询的计算结果,业务人员能够有更多的机会探索数据、验证假设,从而能够发展其数据分析与处理的技能,能够自主处理大部分数据分析工作,减少由于需求表达与理解过程中所产生的错误。并且,业务人员能够根据当下的决策需求自主分析、验证假设,并且及时获得反馈,从而能够刺激业务人员对更多的业务假设进行分析与验证,提升决策质量。另外,由于业务人员能够预期分析系统能够及时的为其决策服务,则他们不会要求系统对一些预估的分析需求提前进行运算。最后,可以利用对抽样样本数据量的控制,确保在业务量飞速增长以及伴之而来的数据量飞速上涨的同时不必对分析系统进行过快的扩容也能够满足分析需求。使用抽样方法能够使用一个样本的统计量对总体的统计量进行估计是有统计学理论作为支撑的。我们可以以利用简单随机抽样对总体的均值进行估算为例进行讨论。约定样本量由η表示,总体规模由N表示,则简单随机抽样是这样一种抽样方法来自总体N 个元素的由任意可能的η个不完全相同元素组成的子集,都有同样的可能性被选为样本。 如果我们约定将大写字母用于总体值和参数,而小写字母用于样本值和估计量。这样Y1, Y2,……A代表总体中N个元素的y变量值,而y1; y2,……yn则是样本中η个元素的值。 则
__ N_ η总体均值为= YJiIN而样本均值为孓二|^/ 总体变量y元素的方差为J2 二!;⑶-?)2/(TV-I)
(=1
η一而样本元素的方差则为乂 =1^-3^("-1)
/=1则一个样本量为η的简单随机抽样的样本均值的方差为V(y0) = (^)— = 0-/)—
N ηη⑴其中f = η/Ν为抽样比。由于我们的目的是处理海量数据,所以N很大,而f = η/Ν相对较小,Ι-f 1,可以忽略不计。而S2是总体的参数,在实际应用中是未知量,
权利要求
1.一种用于数据仓库系统、商务智能以及其他和海量数据分析与处理相关的领域中对海量数据进行抽样以及抽样数据管理的方法与系统,通过对数据抽样的方法降低分析与处理海量数据所需要的计算资源。
2.基于权利要求1的方法所构建的系统,它能够帮助使用者设计抽样规则,根据抽样规则调度抽样引擎对数据抽样,管理抽样数据以及利用抽样数据为其他系统提供数据支撑,其特征在于,包括以下几个子系统或模块抽样管理子系统、 抽样数据元数据管理子系统、 抽样调度子系统、 抽样数据存储子系统、 抽样数据分发子系统。
3.如权利要求2所述,构建抽样管理子系统,其主要功能是帮助与引导使用者设计抽样规则,为管理员提供抽样规则管理功能以及数据安全管理功能,并且对使用者所使用的计算资源和存储资源进行计费,其特征在于,包括以下几个模块抽样规则设计模块、 预抽样与抽样控制模块、 抽样管理模块、 数据与规则匹配模块、 数据安全管理模块、 服务计费模块。
4.如权利要求2所述,构建抽样数据元数据管理子系统,其主要功能是对数据源、抽样数据、抽样规则的描述信息进行存储与管理,其特征在于,包括以下几个模块数据源元数据管理模块、 抽样数据数据模型管理模块、 抽样规则管理模块、 统计推断引擎库、 抽样调度信息库、 抽样数据访问信息库、 抽样数据版本控制与映射模块、 源数据特征库。
5.如权利要求2所述,构建抽样调度子系统,其主要功能是抽样系统和源数据系统的接口,它管理和调度抽样程序,并且将抽样结果保存在抽样数据存储子系统中,同时它也担负着抽样数据生命周期管理的任务,其特征在于,包括以下几个模块调度引擎、 抽样引擎、抽样数据生命周期管理模块。
6.如权利要求2所述,构建抽样数据存储子系统,其功能是对数据进行存储与管理,它存储了抽样数据的各个版本,其特征在于,包括以下几个模块抽样对象库、抽样数据库。
7.如权利要求2所述,构建抽样数据分发子系统,其功能是提供抽样系统和使用抽样数据的目标系统以及使用者之间的接口,通过请求应答的方式为其他系统提供数据,也可以为使用者提供自带的数据分析平台访问与分析抽样数据,其特征在于,包括以下几个模块统计推断引擎、 数据与服务应答接口、 抽样数据分析平台。
全文摘要
本申请提出一种用于数据仓库系统、商务智能以及其他和海量数据分析与处理相关的领域的对海量数据进行抽样以及抽样数据管理的方法与系统。通过抽样的方法,在海量数据中抽取一个可被操作与计算的子集,从而在保证决策质量的前提下,减少对运算资源的需求。为了有效的执行抽样、管理抽样数据所构建系统包括如下几个子系统抽样管理子系统、抽样数据元数据管理子系统、抽样调度子系统、抽样数据存储子系统、抽样数据分发子系统。
文档编号G06F17/30GK102262678SQ20111023347
公开日2011年11月30日 申请日期2011年8月16日 优先权日2011年8月16日
发明者郑毅 申请人:郑毅
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1