一种新鲜度敏感的大数据概要信息维护及聚合值查询方法

文档序号:9235479阅读:443来源:国知局
一种新鲜度敏感的大数据概要信息维护及聚合值查询方法
【技术领域】
[0001] 本发明属于信息技术领域,针对流式大数据的应用特点,结合大数据在生命周期 内的数据特征,提出了一种新鲜度敏感的大数据概要信息维护及聚合值查询方法,有效支 持流式大数据在任意时间区间的高精度近似聚合统计查询,为其他流式大数据在线计算提 供基础工具与平台。
【背景技术】
[0002] 流式大数据是指同时具有高吞吐率和海量数据规模的一类应用产生的大数据 源,也称为化St Data。典型的应用包括;大型微博网站的微博数据、购物网站的点击流 数据、交易日志流数据等。该类数据的一个共同特点是在数据记录中,有一个标记数据产 生的时间属性(Ts)和用于统计的数值属性(Value),该类数据可W称为具有时间属性的 数据对象,简称为时间对象数据(temporal data)。针对时间对象数据的一类重要应用 是能够统计任意一个对象在任意时间区间内value的聚合值,在本发明中,称该类查询为 TRAQ(Temporal-民ange aggregate queries)。
[0003] 在流式大数据环境中,实时响应TRAQ查询请求,可臥支持实时情感计 算(参考:H. Wan咨,D. Can, A. Kazemzadeh, F. Bar, and S. Narayanan, "A system for real-time twitter sentiment analysis of 2012u.s.presidential election cycle, "in Proceedings of the ACL2012System Demonstrations, ser. ACL ^ 12. Stroudsburg, PA, USA:Association for Computational Linguistics, 2012, pp. 115 - 120.),经济数据预测(参考;T. Rreis,比 S. Moat, and E. H. Stanley, "Quantifying trading behavior in financial markets using Google trends,,,Sci. R邱.,vol. 3, p. 1684, 2013.)和实时入侵检测系统等(参考;X.化n,Y. Wang, Y. Zhang,and Y.Zhou, "A semantics-aware approach to the automated network protocol identification, ''Networking, lEEE/ACM Transactions on,vol. PP,no. 99,pp. 1 - 1,2015.)。例如;统计 01/ll/2013to 30/11/2013 期间任意时间段内的 关键字"Steven Jobs"出现的频率,可臥跟踪公众对于社会人物和问题的实时态度与意见。 目前的研究成果同时表明,聚合数值较低temporal data,同样具有重要的研究意义与价 值。例如:一个查询频率较低的词可能在数天或者数周臥后变为流行词(参考J. Lin and G. Mishne, "A study of''churn" in tweets and real-time search queries (extended version)," CoRR,vol. abs/1205. 6855, 2012);-个出现频率较低的网络流,在较大的 时间尺度范围内进行分析后,可臥展现出攻击流的网络安全特性(参考;Z.化an, M. Xu, and S.Xu, "Characterizing honeypotcaptured cyber attacks:Statistical framework and case study, "Information Forensics and Security, IEEE Transactions on,vol.8,no. ll,pp. 1775 - 1789,Nov 2013.)。因此,在流式大数据环境下,需要建立一种 有效支持面向任意temporal data的,在任意时间范围内的实时聚合查询的方法与装置。
[0004] 在fast data环境下,面向每一个时间对象temporal object建立实时概要 信息,面临两个基本的问题;第一;如何实时接收并管理高速到达的流式大数据;目前的 研究成果已经证明基于化doop的分析软件很难支持实时性较高的查询请求;尤其在流 式大数据中很难对有严格时间限制的查询请求给出有意义的结果(参考;G.Mishne,J. Dalton, Z. Li, A. Sharma, and J. Lin, "Fast data in the era of big data:Twitter' s real-time related query suggestion architecture, " in Proceedings of the 2013ACM SIGMOD International Conference on Management of Data, ser. SIGMOD,13. NewYork,NY, USA:ACM,2013, pp. 1147 - 1158.)。第二;如何在海量数据集中实时查询任 意一个object的在任意时间尺度内的聚合值。目前的研究成果可W快速获得大数据 中进行top-k个object的聚合值,但是无法针对任意一个object获得其实时聚合统 计结果(参考;F. Li, K.Yi, and W.Le, "Top-k queries on temporal data, "Hie VLDB Journal, vol. 19, no. 5,卵.715 - 733, Oct. 2010)。针对 temporal object 的管理 W 及查 询的优化技术研究已经存在多年(参考;I.F. Ilyas,G. Beskales,and M.A. Soliman, "A survey of topk query processing techniques in relational database systems, "ACM Comput. Surv. , vol. 40, no. 4, 2008),但是很多技术是基于MVB-Tree管理时间属性的,数据 写入或者查询至少需要O(logeN)的时间复杂度,无法应对化St data环境下高速加载W及 实时查询的计算需求,近似计算技术是一种有效处理和加速数据流计算的方法,例如针对 range-sum 近似求和的方法(参考;X.化n, G. Wu, G. Zhang, K. Li, and S. Wang, "I^astraq: A fast approach to range-aggregate queries in big data environments, "Cloud Computing, IE邸 Transactions on, vol. PP, no. 99,卵.1 - 1, 2014),有序集合义样方法(参 考;E. Cohen, G. Cormode, and N. Duffield, "Structure-aware sampling:Flexible and accurate summarization, " Proceedings ofthe VLDB Endowment, vol. 4, no. 11, 2011), W及滑动窗 口技术(参考;M.Datar, A. Gionis,P.Indyk, and R.Motwani, "Maintaining stream statistics over sliding windows:(extended abstract)in Proceedings of the Thirteenth Annual ACM-SIAM Symposium on Discrete Algorithms, ser. S0DA'02, 2002, pp. 635 - 644)等。但是目前的近似计算方法没有考虑到temporal object 时间敏感的特性,新老数据采用统一的误差标准,如果希望获得高精度的计算误差,则整个 系统将设置较低的误差参数,就需要维护大量的样本数据。如果保存少量的样本数据,则无 法提供高精度的近似计算。

【发明内容】

[0005] 针对现有技术中存在的技术问题,本发明的目的在于提供一种新鲜度敏感的大数 据概要信息维护及聚合值查询方法,本发明所提出的概要数据称为FS-Sketch(化eshness Sensitive Sketch)。FS-Sketch设计了 一种对称波采样技术,可W在高速流数据中,在 0(1)时间完成数据采样并维护概要数据。FS-sketch进一步把样本数据组织成时间敏感 的各个时间阶段(temporal phase),在每个阶段内可W设置不同的估算误差U)。利用 FS-Sketch可W支持任意object在时间段内的误差限定的近似聚合计算,计算复杂度可W 控制为Log (NT),其中T是时间阶段的数量,N是每个时间阶段地ase内流数据的聚合值。
[0006] 本发明核屯、思想是利用基于采样的近似计算方法提供实时的TRAQ计算。方法 同时结合流式大数据时间敏感的特性。该一时间敏感的特性可W概括为;流式大数据中 的任意一个时间对象temporal object,在某一个时间点高速到达,然后开始在相关主题 (topic)中传播,经过数天或者数周W后,逐渐衰减,最后消亡。一个主题是由多个时间对象 数据,W及一个时间对象数据在不同的时间点产生的数据汇总在一起获得的。因此,本发明 的主要目标是有效管理并查询时间对象数据,有效支持面向主题的更高层次的计算应用。 根据时间对象的具有时间敏感的特点,设计对应的新鲜度敏感(化eshness sensitive)的 概要数据,在时间对象不同的时间阶段上,提供不同的误差参数,在解决高精度近似计算的 同时,
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1