系列数据并行分析基础设施及其并行分散处理方法_4

文档序号：9553228阅读：来源：国知局

2)。
[0092]并行处理基础设施104在作业/任务管理服务器401中根据从分散管理数据库得到的数据组509的信息，选择同时进行提取处理的数据组，设为一个区块(步骤83)。这时，希望存在数据组服务器1501的设备和进行提取处理的设备是相同的设备，不过也可以是不同的设备。在是不同设备的情况下，能够通过例如ssh、scp等单元从该设备取得数据组509的数据。
[0093]接着，作业/任务管理服务器401对于每个区块生成提取处理任务，对数据组处理服务器403指示提取处理任务(步骤84)。数据组处理服务器403按照顺序标签的顺序，从区块取得数据，根据记述了在步骤81指定的处理内容的程序，进行提取处理。在提取处理中，处理结果的数据采用赋予了与数据组509的值所对应的顺序标签不同的顺序标签(以下称为键(key))的值(以下称为值(value))的形式。键可以和上述的数据组509的顺序标签相同，键所指定的标签也可以重复(步骤85)。
[0094]接着，提取处理的结果被发送到组处理集约服务器404 (步骤86)。发送的数据在组处理集约服务器404中通过键进行排序(步骤87)。在组处理集约服务器404对具有相同键的每个值进行集约处理(步骤8)。
[0095]最后输出集约处理的结果并结束分析处理。这时，作为输出目的地，可以是任意的文件(例如制表符分割文本或XML文件)，也可以在分散系列数据管理部501中登录数据，也可以在存储器上对系列数据并行分析基础设施102以外的其他程序进行收发(步骤89)。
[0096]这样的话，通过适当地指定数据组的顺序标签范围303，在步骤85的提取处理中保证数据的顺序，因此能够在提取处理中记述根据例如移动平均或傅立叶转换等的顺序进行的处理。
[0097]一般，通过比提取处理要少的服务器数量、任务数量来执行集约处理，因此关于在提取处理中根据顺序进行的处理成为记述可能的情况，能够实现处理高速化或能够削减步骤6的处理结果的发送量，也能够对于系列数据101实现低负荷高速的分散分析。
[0098]图17表示系列数据并行分析基础设施102的数据选择的方法。
[0099]首先，对系列数据并行分析基础设施102指示来自用户106的处理执行请求。处理执行请求包括用于处理的顺序标签范围303和系列ID304(步骤91)。接着，经由数据检索部505从分散信息管理数据库507取得表示处理执行请求中包括的顺序标签范围303和系列ID304所对应的数据组509的信息(步骤92)。通过例如ssh、scp等通信单元经由数据组服务器1501和数据输入输出部506以及数据检索部505将数据组内的数据发送给分散系列数据选择部(步骤93)。在数据选择部中，为了成为用户106希望的形式，在将数据转换为文件或能够在存储器上对(例如制表符分割文本或XML文件)系列数据并行分析基础设施102以外的其他程序进行收发的形式的基础上，进行输出并结束(步骤94)。通过这样，能够不经由并行处理基础104而得到数据。
[0100]附图标记说明
[0101]101:系列数据、102:系列数据并行分析基础设施、103:系列数据并行存储器、104:并行分散基础设施、105:分析结果数据、106:用户、201:顺序标签、202:值、203:数据组、301:数据读入部、302:数据库、303:顺序标签范围、304:系列ID,305:值组、306:数据选择部、401:作业/任务管理服务器、402:数据组管理服务器、403:数据组处理服务器、404:组处理集约服务器、501:分散系列数据管理部、502:数据读入部、503:数据选择部、504:分散目的地决定部、505:数据检索部、506:数据输入输出部、507:分散信息管理数据库、508:元信息、509:数据组、1501:数据组服务器。
【主权项】
1.一种系列数据并行分析基础设施，针对系列数据进行并行分散处理，该系列数据由顺序标签、以一对一或者一对多地与上述顺序标签对应的至少一个以上的值以及用于对上述值中的每一个进行区别的值名而构成，其特征在于，上述系列数据并行分析基础设施具备: 并行处理基础设施，其由一个以上的计算设备和用于上述计算设备进行数据交换的网络而构成，并行地进行数据处理；和分散系列数据管理部，其管理在上述计算设备中分散配置的上述系列数据，上述并行处理基础设施具备: 按照每个上述计算设备将至少一个以上的上述系列数据中与一个顺序标签对应的一个值通过多个顺序标签进行分组化而得的数据组；数据组处理服务器，其按照每个上述计算设备针对至少一个以上的上述数据组进行处理；以及组处理集约服务器，其按照每个上述计算设备处理至少一个以上的上述数据组处理服务器的结果，上述分散系列数据管理部具备: 数据读入部，其用于将上述系列数据保持在上述系列数据并行分析基础设施中；数据选择部，其用于从上述系列数据并行分析基础设施取得上述系列数据；以及分散信息管理数据库，其用于管理上述数据组，在上述分散信息管理数据库中保持管理数据，该管理数据由指示上述数据组的上述顺序标签的范围的顺序标签范围、与上述数据组的上述值名对应的系列ID以及用于确定配置了上述数据组的上述计算设备的元信息而构成。2.根据权利要求1所述的系列数据并行分析基础设施，其特征在于，上述分散系列数据管理部具备:分散目的地决定部，其决定用于保持上述数据组的上述计算设备。3.根据权利要求1所述的系列数据并行分析基础设施，其特征在于，上述分散目的地决定部决定在上述计算设备中的相同的上述计算设备中保持上述顺序标签范围相同或者一半以上共享的上述数据组。4.根据权利要求1所述的系列数据并行分析基础设施，其特征在于，上述分散目的地决定部进行决定在上述计算设备中的相同的上述计算设备中保持上述ID相同的上述数据组。5.根据权利要求1所述的系列数据并行分析基础设施，其特征在于，上述分散目的地决定部决定为上述计算设备的记录装置的占有容量最少的上述计算设备。6.根据权利要求1所述的系列数据并行分析基础设施，其特征在于，上述分散目的地决定部周期地决定用于保持上述数据组的上述计算设备。7.根据权利要求1所述的系列数据并行分析基础设施，其特征在于，上述数据组是文件形式。8.根据权利要求1所述的系列数据并行分析基础设施，其特征在于，上述数据组是服务器。9.一种系列数据的并行分散处理方法，使用由一个以上的计算设备和用于上述计算设备进行数据交换的网络而构成的并行处理基础设施，针对系列数据进行并行分散处理，该系列数据由顺序标签、以一对一或者一对多地与上述顺序标签对应的至少一个以上的值以及用于对上述值中的每一个进行区别的值名而构成，该并行分散处理方法的特征在于，针对上述并行处理基础设施的每个上述计算设备准备:将至少一个以上的上述系列数据中与一个顺序标签对应的一个值通过多个顺序标签进行分组化而得的数据组；数据块处理服务器，其针对至少一个以上的上述数据组进行处理；以及组处理集约服务器，其处理至少一个以上的上述数据组处理服务器的结果，在对分散配置在上述计算设备中的上述系列数据进行管理的分散系列数据管理部中，作为用于管理上述数据组的分散信息管理数据库，而保持管理指示上述数据组的上述顺序标签范围的顺序标签范围、与上述数据组的上述值名对应的系列ID以及用于确定配置了上述数据组的上述计算设备的元信息。
【专利摘要】本发明涉及一种具备并行处理基础设施、管理分散配置的系列数据的分散系列数据管理部的系列数据分散处理系统，上述并行处理基础设施具备：按照每个计算设备，将系列数据中的一个顺序标签所对应的一个值通过多个顺序标签进行分组化而得的数据组；数据组处理服务器，其针对数据组进行处理；以及组处理集约服务器，其处理数据组处理服务器的结果，上述分散系列数据管理部具备用于管理数据组的分散信息管理数据库，在该分散信息管理数据库中保持管理数据，该管理数据由表示数据组的顺序标签的范围的顺序标签范围、与数据组的值名对应的系列ID以及用于确定配置了数据组的上述计算设备的元信息而构成。
【IPC分类】G06F12/00
【公开号】CN105308579
【申请号】CN201380077504
【发明人】尾崎太亮, 室启朗
【申请人】株式会社日立制作所
【公开日】2016年2月3日
【申请日】2013年7月1日
【公告号】US20160203032, WO2015001596A1

完整全部详细技术资料下载

当前第4页1 2 3 4