系列数据并行分析基础设施及其并行分散处理方法

文档序号:9553228阅读:337来源:国知局
系列数据并行分析基础设施及其并行分散处理方法
【技术领域】
[0001]本发明涉及使用多个分散的计算机并行地处理大量系列数据的并行分散处理方法以及计算机系统。
【背景技术】
[0002]近年来,通过分析和处理大量的数据,发现这之前不能得到的知识并进行活用的大数据处理受到关注。大数据内,例如装置等的传感器数据等是所谓被称为系列数据的数据方式。系列数据是指针对多个数据项目设定了各个值的多个数据按照预定的顺序标签的值而排列而得的数据集合。
[0003]这样存在分析大量数据的需求,但在已知的分散分析系统中,需要对每个处理内容设计系统,系统结构的成本高。
[0004]对此,作为如专利文献1以及非专利文献1所示那样简单地安装分析处理的基础技术,公知有MapReduce框架。MapReduce框架是指通过从数据存储器提取希望数据的提取处理(映射(Map)处理)和将提取出的数据加工成容易使用的方式或统计信息等的集约处理(Reduce处理)这两个阶段来记述数据的分析处理的编程模型。这样,MapReduce框架的执行引擎能够决定分析应用的处理的分割单位,并控制并行处理。
[0005]不过,至此为止,MapReduce框架以描述针对原来Web的检索系统等主要非结构/没有顺序的数据的处理为目的,没有预料到对于系列数据,MapReduce框架的处理能力的提高。例如,在大多基础设施中作为多个任务而同时实施提取处理,因此对处理的高速化有很大贡献,但是由于通过非顺序进行其结果输出,因此难以适用移动平均或傅立叶转换等一般用于系列数据的分析方法。
[0006]在通过MapReduce框架记述这些处理的情况下,通过集约处理来实施,但是在集约处理中增大处理的基础设施数量比较困难,不能够得到充分的高速化。
[0007]对此,知道一种方法,即例如非专利文献2所示那样通过在集约处理中使用流处理基础设施来进行高速化。但是,即使在使用了流处理基础设施的情况下,也会存在如下问题,即在提取处理中产生直到提取所有数据为止的等待时间,直接通过网络等将提取的数据发送给另外的服务器等通信的负荷变高等。进而,在结果的写入处理中,在系列数据的情况下,集约处理的结果不限于能够充分地削减数据量而是需要再配置大量的数据等,造成通信和处理的负荷增大,速度的下降。
[0008]现有技术文献
[0009]专利文献
[0010]专利文献1:美国专利申请公开第2008/0086442号说明书
[0011]非专利文献
[0012]非专利文献1:“MapReduce: Simplified Data Processing on LargeClusters”Jeffrey Dean,Sanjay Ghemawat, Google,Inc.0SDI’ 04:Sixth Symposium onOperating System Design and Implementat1n,San Francisco,CA,December 6,2004.
[0013]非专利文献2:“SC0PE:parallel databases MapReduce,,Jingren Zhou,NicolasBruno, Ming-Chuan ffu, Per—Ake Larson, Ronnie Chaiken, Darren Shakib, MicrosoftCorp., The VLDB Journal

【发明内容】

[0014]发明要解决的课题
[0015]在没有使用MapReduce框架的分散分析系统中,不能够灵活地记述数据处理。
[0016]另一方面,在活用了 MapReduce框架的现有系统结构中,不能得到与计算设备台数对应的处理提高(可扩展性)。另外,在活用了 MapReduce框架的现有系统结构中,在一次加工、2次加工原数据时,不能够高速地保存一次加工数据。
[0017]用于解决问题的手段
[0018]以下表示本申请中公开的发明的一个代表例。
[0019]S卩,针对系列数据进行并行分散处理的系列数据并行分析基础设施或分散处理系统,该系列数据由顺序标签、以一对一或者一对多地与上述顺序标签对应的至少一个以上的值以及用于对上述值中的每一个进行区别的值名而构成,
[0020]系列数据并行分析基础设施或分散处理系统具备:并行处理基础设施,其由一个以上的计算设备和用于上述计算设备进行数据交换的网络而构成,并行地进行数据处理;和分散系列数据管理部,其管理在上述计算设备中分散进行配置的上述系列数据,
[0021]上述并行处理基础设施具备:按照每个上述计算设备将至少一个以上的上述系列数据中与一个顺序标签对应的一个值通过多个顺序标签进行分组化而得的数据组;数据组处理服务器,其按照每个上述计算设备对至少一个以上的上述数据组进行处理;以及组处理集约服务器,其按照每个上述计算设备处理至少一个以上的上述数据组处理服务器的结果Ο
[0022]上述分散系列数据管理部具备:数据读入部,其用于将上述系列数据保持在上述系列数据并行分析基础设施中;数据选择部,其用于从上述系列数据并行分析基础设施取得上述系列数据;以及分散信息管理数据库,其用于管理上述数据组,在上述分散信息管理数据库中保持管理数据,该管理数据由指示上述数据组的上述顺序标签的范围的顺序标签范围、与上述数据组的上述值名对应的系列ID以及用于确定配置了上述数据组的上述计算设备的元信息而构成。
[0023]发明的效果
[0024]根据上述结构的系列数据并行分析基础设施或者分散处理系统,能够记述对系列数据也灵活地分散处理。另外,针对系列数据也能够实现有可扩展性的数据存储器以及处理基础设施。进而,在加工保存在数据存储器中的原数据,并新生成数据的情况下,能够高速地保存新的数据。
【附图说明】
[0025]图1是表示了本发明第一实施方式的系列数据并行分析基础设施的概要的说明图。
[0026]图2是表示了本发明第一实施方式的系列数据的概要的说明图。
[0027]图3是表示了本发明第一实施方式的系列数据并行存储器的结构的说明图。
[0028]图4是表示了本发明第一实施方式的并行处理基础设施的结构的说明图。
[0029]图5是表示了本发明第一实施方式的系列数据并行分析基础设施的结构的框图。
[0030]图6是表示了本发明第一实施方式的系列数据并行分析处理的步骤的流程图。
[0031]图7是表示了本发明第一实施方式的系列数据并行存储器的数据选择的步骤的流程图。
[0032]图8是表示了本发明第一实施方式的系列数据并行存储器的数据登录步骤的流程图。
[0033]图9是表示了本发明实施方式的系列数据并行存储器的数据登录的分散目的地决定的步骤的流程图。
[0034]图10是表示了本发明实施方式的系列数据并行存储器的数据登录的分散目的地决定的步骤的流程图。
[0035]图11是表示了本发明实施方式的系列数据并行存储器的数据登录的分散目的地决定的步骤的流程图。
[0036]图12是表示了本发明实施方式的系列数据并行存储器的数据登录的分散目的地决定的步骤的流程图。
[0037]图13是表示了本发明第一实施方式的系列数据并行存储器的Map处理中的数据登录的步骤的流程图。
[0038]图14是表示了本发明第一实施方式的实施效果的说明图。
[0039]图15是表示了本发明第二实施方式的框图。
[0040]图16是表示了本发明第二实施方式的系列数据并行分析处理的步骤的流程图。
[0041]图17是表示了本发明第二实施方式的系列数据并行存储器的数据选择的步骤的流程图。
【具体实施方式】
[0042]以下,参照【附图说明】本发明的实施方式。
[0043](第一实施方式)
[0044]图1表示本发明的系列数据并行分析基础设施102的概要。系列数据并行分析基础设施102由输入、累积系列数据101的系列数据并行存储器103和使用系列数据并行存储器103的数据进行分散分析的并行分析基础设施104构成。用户106能够对并行分析基础设施104进行处理指示,将其结果输出为系列数据并行存储器103或分析结果数据105。用户106可以是人,也可以是其它的系统或程序等。<
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1