一种估算误差可控的概要数据压缩方法

文档序号:9219539阅读:447来源:国知局
一种估算误差可控的概要数据压缩方法
【技术领域】
[0001] 本发明属于信息技术领域,针对大数据环境下的近似查询系统概要数据不断膨胀 的应用背景,提出一种误差可控的概要数据压缩方法。
【背景技术】
[0002] 目前大数据分析处理技术已经广泛应用于各行业中,通过分析行业内的海量数 据资源,为上层业务提供及时可靠的解决方案。近似计算是大数据分析处理系统中一种 重要的技术手段,由于近似计算需要比原始数据少得多的概要数据,提供高精度的近似 计算结果,在容忍一定误差的各类应用中已经被广泛采用。例如针对大型微博网站的微 博数据统计、购物网站的点击流数据统计、交易日志流数据统计等系统中,近似计算不但 能够有效应对海量的数据规模,同时也为上层业务提供高实时的决策支持。目前近似计 算已经进一步应用在网络实时情感计算(参考文献:H.Wang,D.Can,A.Kazemzadeh,F. Bar,andS.Narayanan,"Asystemforreal-timetwittersentimentanalysisof 2012u.s.presidentialelectioncycle,"inProceedingsoftheACL2012System Demonstrations,ser.ACL^ 12.Stroudsburg,PA,USA:AssociationforComputational Linguistics,2012,pp. 115 - 120),经济数据指标预测(参考文献:T.Preis,H.S.Moat,and E.H.Stanley,"QuantifyingtradingbehaviorinfinancialmarketsusingGoogle trends,"Sci.R印?,vol. 3,p. 1684, 2013)以及实时入侵检测系统等领域中(参考: X.Yun,Y.Wang,Y.Zhang,andY.Zhou,"Asemantics-awareapproachtotheautomated networkprotocolidentification, "Networking,IEEE/ACMTransactionson,vol. PP,no. 99,pp. 1 - 1,2015) 〇
[0003] 但是大数据环境下的近似查询系统,面临概要数据不断膨胀的问题。即随 着大数据规模的急剧膨胀,近似查询所依赖的概要数据规模也在不断的增加。此时 面临估算精度与概要数据量之间的矛盾问题。即所提供的近似估算精度越高,所 需存储的概要数据量就越大。最近提出的大数据近似计算技术,如:近似top-k计 算(参考:J.Jestes,J.M.Phillips,F.Li,andM.Tang,"Rankinglargetemporal data,"Proc.VLDBEndow.,vol. 5,no. 11,pp. 1412 - 1423,Jul. 2012)、近似range-sum 计算(参考X.Yun,G.Wu,G.Zhang,K.Li,andS.Wang,"Fastraq:Afastapproachto range-aggregatequeriesinbigdataenvironments,"CloudComputing,IEEE Transactionson,vol.PP,no. 99,pp. 1 - 1,2014),有序集合米样方法(参考:E.Cohen,G. Cormode,andN.Duffield,uStructure-awaresamp1ing:Flexibleandaccurate summarization,"ProceedingsoftheVLDBEndowment,vol. 4,no. 11,2011), 以及 滑动窗 口技术(参考:M.Datar,A.Gionis,P.Indyk,andR.Motwani,"Maintaining streamstatisticsoverslidingwindows:(extendedabstract),"inProceedings oftheThirteenthAnnualACM-SIAMSymposiumonDiscreteAlgorithms,ser. SODA' 02,2002,pp. 635 - 644)等,都没有考虑到概要数据容量问题。当新老数据采用统一 的误差参数时,如果希望获得高精度的估算结果,则需要设置较低的误差参数,此时就需要 维护更大规模的概要数据。而对于长期且不经常使用的概要数据,保存较大规模的概要数 据明显浪费空间。其他的解决方法也包括采用高速介质,例如使用SSD固态硬盘,存储概要 数据,在扩大内存容量的基础上,提高概要数据的访问效率。但是这一解决思路不但成本较 高,而且仍然没有解决大数据环境下,不同概要数据的估算精度和概要数据量之间的矛盾 问题。

【发明内容】

[0004] 针对现有技术中存在的技术问题,本发明的目的在于提供一种估算误差可控的概 要数据压缩方法。本发明基于大数据新鲜度敏感的特点,提出误差限定的概要数据压缩方 法。大数据的新鲜度敏感特性可以描述如下:大数据中的任意一个对象object,在某一时 间点高速到达,然后开始在相关主题中传播,经过数天或者数周以后,逐渐衰减、最后消亡。 本发明结合大数据的上述特点,对长期存在,且不经常使用的object,在key、time两个维 度上进行压缩,压缩后的概要数据不仅线性的提升存储空间,而且仍然能够支持误差限定 的近似计算。
[0005] 大数据一般具有key和time两个属性的维度,本发明相应的提出基于key维度的 和基于Time维度的两种概要数据压缩方法。压缩过程中选用不常用的且长期存在的概要 数据进行压缩,压缩以后的概要数据保持原概要数据的计算逻辑,并且能够线性的提升存 储空间。进一步,本发明具体以确定波采样技术为基础,详细介绍概要数据的压缩方法与过 程。
[0006] 本发明针对数据项格式为〈key,time,value〉数据源的概要数据结构进行压缩, 关键点概况起来如下:
[0007] 1)提出在key维度上概要数据的压缩方法。在key维度上的概要数据压缩过程是 针对一个集合内多个不同的key对应的概要数据压缩成一个单一结构的概要数据的过程。 压缩以后的概要数据可以针对集合内的任意key提供集合内平均的估算误差,利用这一方 法实现面向集合的概要数据压缩过程;
[0008] 2)提出在time维度上概要数据压缩方法。在time维度上的概要数据压缩过程是 根据大数据的时间敏感特点,新数据设置较低的相对误差,老数据设置较大的相对误差,使 得新数据具备较高的计算精度,而长期存在的概要数据估算精度较低,新老数据之间根据 配置的误差参数实现自动转化;
[0009] 3)以确定波采样技术为基础给出上述概要数据压缩的具体应用实例,描述概要数 据的构建以及在key和time两个维度上的概要数据具体压缩过程和概要数据的维护方法, 有效解决真实流式大数据环境下的概要数据估算精度与数据量之间的矛盾问题;
[0010] 本发明的技术方案为:
[0011] 一种估算误差可控的概要数据压缩方法,其步骤为:
[0012] 1)对每个对象object的概要数据建立一时间追踪器tracker;对于待写入的概 要数据,根据概要数据中的对象object定位到对应的时间追踪器tracker,然后时间追踪 器tracker根据误差限定的采样方法对对应的概要数据进行采样并保存对该时间追踪器 tracker对应的样本集合中;
[0013] 2)将每个时间追踪器tracked的样本集合i中的样本在时间维度上划分为多个 时间阶段并设置每一时间阶段的误差参数;然后时间追踪器tracker根据第i个时间阶段 对应的误差参数IJ寸第i_l个时间阶段的样本进行采样;
[0014] 3)将步骤2)处理后的样本集合合并成一个样本集合H,然后将该样本集合H中 的样本数据按照时间顺序写入到一个时间追踪器trackei^J^样本集合内;其中写入过程 中,该时间追踪器trackernew对该样本集合H中的样本在时间维度上划分为多个时间阶段 并设置每一时间阶段的误差参数;然后根据每一时间阶段对应的误差参数对相应时间阶段 的样本进行采样。
[0015] 进一步的,每一时间阶段的误差参数的设置方法为:设第i个时间追踪器 trackerj^样本集合中第j个时间阶段phase^的误差为|i,」,则|i,j=rh*| ;其中,压 缩参数为r,且r>l,|为第一个时间阶段的误差参数,h= (TsmaX-StartTs)/TL,TL为时间 阶段phasetj^t间区间长度,Tsmax为时间追踪器tracker最大时间戳,StartTs为时 间阶段phase^j的起始时间。
[0016] 进一步的,每一时间阶段的所述误差参数相同。
[0017] 进一步的,所述时间追踪器tracked的样本集合中的样本数据结构为: n <N,value,TS>,其中N是当前所有写入数据的value的聚合值,S卩N=^valuCi,vaiueiS i~l 第i个概要数据的value值,value为概要数据中用于统计的数值。
[0018] 进一步的,每一分层中的维护的样本数目.
:寸于位置超过m'位 置的样本直接丢弃掉。
[0019] 进一步的,所述时间追踪器tracker采用确定波采样方法根据N值进行采样,并 将获得的样本数据以时间戳递增的顺序分层放置在所述时间追踪器tracker的样本集合 内。
[0020] 进一步的,所述采样的方法为:确定波采样方法、随机波采样方法、随机采样方法 或指数直方图采样方法。
[0021] 与现有技术相比,本发明的有益效果如下:
[0022] 1)根据大数据新鲜度敏感的特点提出误差限定的概要数据压缩处理方法。大数据 环境下,为了维持高精度的近似计算,所需要存储以及管理的概要数据规模往往十分巨大。 本发明根据大数据应用具有新鲜度敏感的特点,选用长期存在且不经常使用的概要数据, 在key和time两个维度上进行误差限定的压缩处理。与传统的近似计算系统以及概要数 据维护方法相比,在兼顾了估算精度需求的同时对样本数据进行差异化的处理,不但有效 支持了高精度的近似计算的需求,同时显著降低了概要数据存储和维护的开销。
[0023] 以具体的FS-Sketch为例,给出了具体的概要数据压缩与维护方法。压缩后的概 要数据仍然具备原始概要数据的应用特点,同时近似计算结果的误差参数是可控。与现有 的方法相比,更能适合流式大数据中具有新鲜度敏感特征的各类应用,有效支持点查询,区 间查询等近似计算。
【附图说明】
[0024] 图1为支持压缩的复合概要组织结构示意图;
[0025] 图2为基于时间的概要数据压缩处理流程;
[0026] 图3为压缩过程中概要数据量与相对误差之间的关系图;
[0027] 图4为不同误差条件下概要数据压缩的时间消耗对比图。
【具体实施方式】
[0028] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发 明一个实施例的层次分段式的备份数据组织管理方法进一步详细说明。
[0029] 大数据应用一般同时具有较高的数据吞吐率和海量的数据规模。本发明中对象 Object的数据项基本格式为:0bject:〈key, value, Ts>。其中ke
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1