数据集合复用度改变设备、服务器和数据集合复用度改变方法_5

文档序号:9252390阅读:来源:国知局
点22存取复用度管理对象数据集合的存取时间为如下。更具体地,如下。
[0220][节点22 的存取时间](5*200)+ (5*800) = 5000
[0221]根据第一种方法对每个复用度管理对象数据集合的存取时间的总和(在下文中简称为“根据第一种方法的总存取时间”)将在下面被描述为将节点20至22的存取时间相加的结果。更具体地,如下。
[0222][总存取时间]1000+3000+5000 = 9000
[0223]随后,也将根据第二到第四种方法计算存取每个复用度管理对象数据集合的总存取时间。计算方法与上述相同,并且因此,将在下面只描述示出计算过程的表达式。
[0224]下面描述的是用于根据上述第二种方法计算总存取时间的计算表达式。更具体地,如下。
[0225][节点20 的存取时间](1*1000) = 1000
[0226][节点21 的存取时间](5*500)+ (5*500) = 5000
[0227][节点22 的存取时间](5*200)+ (1*800) = 1800
[0228]因此,
[0229][总存取时间]1000+5000+1800= 7800
[0230]下面描述的是用于根据上述第三种方法计算总存取时间的计算表达式。更具体地,如下。
[0231][节点20 的存取时间](5*1000) = 5000
[0232][节点21 的存取时间](1*500)+ (5*500) = 3000
[0233][节点22 的存取时间](5*200)+ (1*800) = 1800
[0234]因此,
[0235][总存取时间]5000+3000+18000= 9800
[0236]下面描述的是用于根据上述第四种方法计算总存取时间的计算表达式。更具体地,如下。
[0237][节点20 的存取时间](5*1000) = 5000
[0238][节点21 的存取时间](1*500)+ (1*500) = 1000
[0239][节点22 的存取时间](5*200)+ (5*800) = 5000
[0240]因此,[总存取时间]5000+1000+5000= 11000
[0241]如上所述,当比较根据四种减小方法的总存取时间的数值时,最小总存取时间是第二种方法(在本示例性实施例中实施的减小方法)。更具体地,根据本示例性实施例,当在工作的处理中间改变复用度M时,复用度M可以被改变来实现数据集合的布置,以尽可能避免存取复用度管理对象数据集合的存取效率的降低。
[0242]这是因为,优先度计算单元11基于数据集合使用相关信息计算优先度信息18,数据集合使用相关信息是指示对存取复用度管理对象数据集合的存取效率产生的影响的程度的信息。此外,分布式数据存储管理单元13基于优先度信息18针对每个复用度管理对象数据集合选择被采用作为复用度M的改变对象的节点。更具体地,优先度计算单元11基于存取预测数据计算优先度信息18,存取预测数据是指示对复用度管理对象数据集合的存取的必要程度的信息。此外,这是因为分布式数据存储管理单元13可以基于优先度信息18针对每个复用度管理对象数据集合选择被采用作为用于改变布置的对象的节点。
[0243]根据本示例性实施例,可以在任何给定时间点快速完成在工作的处理中间对复用度M的改变。这是因为分布式数据存储管理单元13可以快速选择改变对象节点,因为基于预先计算的优先度信息18针对每个多个管理对象数据集合确定被采用作为复用度M的改变对象的节点。因此,当(例如)分布式数据存储管理单元13连续执行工作处理时,照原来样子使用针对先前工作的数据集合的布置,从而减少工作执行准备周期。此外,这使得以下操作更简单:仅当工作的进度出现问题时,分布式数据存储管理单元13才尝试通过改变复用度M来调整进度。
[0244]在本示例性实施例中,在工作控制单元后12实施用于向节点分配任务(步骤S103)的处理之后,优先度计算单元11执行应用分析处理(步骤S104)和优先度计算处理(步骤S105)。这些处理顺序可以改变。例如,步骤S102之后,优先度计算单元11预先执行应用分析处理(步骤S104)和优先度计算处理(步骤S105)。此后,工作控制单元12可以鉴于计算出的优先度信息18来执行用于向节点分配任务(步骤S103)的处理。
[0245]在这种情况下,当节点20至22被采用作为应用分析处理和优先度计算处理中的对象时,优先度计算单元11不计算存取预测数目和优先度信息,而是,当处理输入数据集合A至C的任务A至C被采用作为临时计算对象时,优先度计算单元11执行以上计算处理。然后,在用于将最后的任务分配给节点的分配处理期间,工作控制单元12分别将临时任务A至C以及输入数据集合A至C分配给节点20至22。
[0246]优先度计算单元11计算优先度信息18时的时间点可以是在客户端发送复用度改变请求之前的任何时间点。此外,优先度计算单元11可以在工作的处理执行期间的任何给定时间更新优先度信息18。
[0247]分布式并行批处理服务器10中的每个功能单元和存储在磁盘14中的各种数据组不需要一定放在与节点20至22和主数据服务器100不同的信息处理设备上。此外,如果可以根据需要完成所需的相互通信和信息的共享,那么分布式并行批处理服务器10的每个功能单元和存储在磁盘14中的每一条数据不需要提供在单个信息处理设备中。
[0248](第二示例性实施例的修改)
[0249]注意,以下修改可被认为是本示例性实施例的修改。
[0250]例如,在本示例性实施例中,批处理被认为包括单个工作,但本示例性实施例也可以应用于其中批处理包括多个工作的情况。这个修改是基于存在多个工作的假设(即,在存在多个应用程序15的情况下)。用于将本示例性实施例应用于这种情况的方法中的一种被认为是用于在包括在批处理中的所有工作被采用作为对象时计算一条优先度信息18的方法。然而,当包括在每个工作中的处理内容存在很大区别时,这种优先度信息18可能与许多工作不兼容。因此,当改变复用度M时,处理效率可能会在基于这种优先度信息18确定的复用度管理对象数据集合的布置中降低。
[0251]因此,分布式并行批处理服务器10可以提供多条优先度信息18,用于连续执行多个工作的批处理。更具体地,在步骤S104中,优先度计算单元11基于与多个工作相关联的应用程序15的对象执行应用分析。因此,优先度计算单元11计算对于每个应用程序15来说不相同的优先度信息18 (在下文中描述为“针对每个工作的优先度信息18”)。然后,优先度计算单元11将针对每个工作的优先度信息18保持到磁盘14中。当工作控制单元12在工作的执行开始之后从客户端接收到复用度改变请求时,工作控制单元12向分布式数据存储管理单元13提供关于复用度改变请求的信息以及关于在那时正在执行的工作的信息。分布式数据存储管理单元13基于与正在执行的工作相关联的“针对每个工作的优先度信息18”确定被采用作为复用度M的改变对象的节点20至22 (步骤S302)。
[0252]如上所述,分布式并行批处理服务器10包括关于连续执行多个工作的批处理的针对工作的多条优先度信息18,以便向批处理中包括的每个工作提供与本示例性实施例相同的效果。
[0253]在另一个修改中,可以根据复用度M的“减小”和“增加”的复用度改变的类型使用不同的优先度信息18。例如,当增加复用度M时,节点20至22从其他节点中的存储器40至42等读取所指定的复用度管理对象数据集合,并且将其副本添加到所讨论的节点的存储器40至42 (步骤S312)。
[0254]更具体地,直到实现复用度M的增加,需要时间来完成节点20至22中的复用度管理对象数据集合的传送(复制)。出于这个原因,当分布式数据存储管理单元13命令其数据传送速度特别慢的节点添加复用度管理对象数据集合时,与其中命令到另一个节点的添加的情况相比,可能需要更多的时间来执行复用度M的增加处理。因此,在用于计算每个复用度管理对象数据集合的优先度信息(步骤S105)的处理中,优先度计算单元11可以使用节点之间的数据传送速度作为优先度计算表达式中的第二数据集合使用相关信息330。
[0255]假设在步骤S105之前,优先度计算单元11从预先存储在磁盘14中的文件、系统的外部等获得关于节点之间的数据传送速度的信息。这个时候的优先度计算表达式如下面的表达式(4)中所示。更具体地,
[0256]f (X) = alxl+a2x2...(4)
[0257]在这种情况下,和本示例性实施例一样,“xl”是“每个数据集合的预测存取次数”。“x2”指示“基于计算对象的节点与另一个节点之间的数据传送速度的数值”。另一方面,根据系统的情况采用适合对“每个数据集合的预测存取次数”和“基于计算对象的节点与另一个节点之间的数据传送速度的数值”进行加权的值作为“al ”和“a2”,“al ”和“a2”是数据集合使用相关信息330的类型的系数。优先度计算单元11使用基于这两条数据集合使用相关信息330计算出的第二优先度信息18,以使分布式数据存储管理单元13可以降低需要更多时间来执行复制的节点的优先度。因此,分布式数据存储管理单元13可以选择在其中可以在较短的时间内完成复用度M的增加的布置。
[0258]然而,当在本变形例中减小复用度M时,已经从分布式数据存储管理单元13接收到数据集合的布置改变命令的节点删除所指定的复用度管理对象数据集合(步骤S311),但是不参考其他节点中的数据集合。因此,通常,节点之间的数据传送速度不影响复用度M的减小的完成的时间。因此,在增加复用度M的情况下,分布式数据存储管理单元13应用第二优先度信息18,并且在另一方面,在减小复用度M的情况下,例如,可以应用在第二示例性实施例中计算的优先度信息18。如上所述,分布式并行批处理服务器10根据复用度改变请求的内容(减小或增加)使用多条优先度信息18。因此,在本修改中,能够实现适合于复用度改变请求的内容的复用度改变方法。
[0259]上面说明的每个示例性实施例及其修改(在下文中可简称为“每个示例性实施例等”)中的图1到图3中所示的每个单元可以被理解为软件程序功能(处理)单元(软件模块)。然而,在这些附图中所示的每个单元的划分是为了解释的配置,并且在实际的实现中,可以考虑各种配置。在下文中,将参考图15对这种情况下的硬件环境的示例进行说明。
[0260]图15是示出可以应用于根据本发明的每个示例性实施例及其修改的分布式并行批处理系统的计算机(信息处理设备)的配置的示例的图。更具体地,图15是能够实现根据上述每个示例性实施例等的分布式并行批处理服务器10、节点20至22、主数据服务器100、数据库110、数据集合复用度改变设备300、节点320、客户端500中的至少一者的计算机的配置,并且示出了可以实现上文说明的示例性实施例等的每个功能的硬件环境。
[0261]如图15中所示的计算机900包括包括CPU(中央处理单元)901、ROM(只读存储器)902、RAM(随机存取存储器)903、通信接口(I/F)904、显示器905和硬盘设备(HDD)906的配置,并且这些经由总线907相连。如图15中所示的计算机用作分布式并行批处理服务器10、节点20至22、主数据服务器100、数据库110、数据集合复用度改变设备300和节点320中的任一项。然而,不必在任何时候都提供显示器905。通信接口 904是用于经由网络1000实现计算机900和外部设备之间的通信的一般通信装置。硬盘设备906存储程序组906A和各种存储信息906B。
[0262]例如,程序组906A是用于实现与如上面说明的图1到图3中所示的每个块(每个单元)相关联的功能的计算机程序。例如,各种类型的存储信息906B是图1和图3中所示的优先度信息18、311、数据集合布置信息17、312、数据集合70、80、322、图3中所示的应用程序15和工作定义信息16、如图2和图3中所示的主数据集合120等。在这种硬件配置中,CPU 901控制整个计算机900的操作。
[0263]通过提供能够实现在关于每个示例性实施例等的说明中提到的框配置图(图1到图3)或流程图(图9到图11)的功能的计算机程序并且此后将计算机程序读取到硬件的CPU 901并执行该计算机程序来实现使用上述示例性实施例等作为示例说明的本发明。可以将提供到计算机中的计算机程序存储到非易失性存储设备(存储介质)例如可读写临时存储器903或硬盘设备106。
[0264]例如,在记录介质记录用于操作为数据集合复用度改变设备的计算机的操作控制的计算机程序的情况下,永久记录使计算机执行后续处理的程序。首先,该处理是用于基于数据集合使用相关信息计算表示将存储数据集合的多个节点的顺序的优先度信息的优先度计算处理,数据集合使用相关信息是与在由多个节点执行的并行处理中参考的数据集合的使用相关的信息。其次,该处理是用于通过基于优先度信息和指示将数据集合保持在存储区域中的特定节点的数据集合布置信息改变以分布式方式保持在多个节点中的至少一个或多个数据集合的数目来改变数据集合的复用度的复用度改变处理。
[0265]在上述情况下,目前的一般程序可以用作将计算机程序提供到每个设备中的方法。一般的程序包括用于经由各种记录介质例如CD-ROM将计算机程序安装到设备中的方法和用于经由通信电路1000例如因特网从外部下载计算机程序的方法。在这种情况下,本发明可以被理解为包括包括代码的这样的计算机程序的或用于存储这种代码的计算机可读存储介质。
[0266]在本发明中,上述示例性实施例及其修改中的部分或全部可如以下补充说明中所示描述,但不限于以下补充说明。
[0267](补充说明I)
[0268]一种数据集合复用度改变设备,包括:
[0269]优先度计算装置,用于基于包括与在由多个节点执行的并行处理中参考的数据集合的使用相关的信息的数据集合使用相关信息计算表示数据集合将被存储到其中的所述多个节点的顺序的优先度信息;以及
[0270]复用度管理装置,用于执行复用度改变处理以通过基于优先度信息和指示将数据集合保持在其存储区域中的特定节点的数据集合布置信息改变以分布式方式保持在所述多个节点中的至少一个或多个数据集合的数目来改变数据集合的复用度。
[0271](补充说明2)
[0272]根据补充说明I所述的数据集合复用度改变设备,其中,优先度计算装置基于描述所述并行处理的处理内容的应用程序和关于在所述并行处理中使用的数据集合的信息产生数据集合使用相关信息的至少一部分。
[0273](补充说明3)
[0274]根据补充说明I或2所述的数据集合复用度改变设备,其中,数据集合使用相关信息包括表示当所述多个节点执行所述并行处理时对数据集合的参考次数的每个数据集合的预测存取次数信息。
[0275](补充说明4)
[0276]根据补充说明I至3中任一项所述的数据集合复用度改变设备,其中
[0277]当所述并行处理包括用于连续执行多个工作的处理时,
[0278]优先度计算装置针对每个工作计算与所述多个工作相关联的优先度信息,并且
[0279]复用度管理装置基于与当实施复用度改变处理时由节点执行的工作相关联的优先度信息实施复用度改变处理。
[0280](补充说明5)
[0281]根据补充说明I至4中任一项所述的数据集合复用度改变设备,其中
[0282]优先度计算装置计算与用于减小以复用方式保持的数据集合的数目的复用度减小相关联的第一优先度信息和与用于增加保持在其中的至少一个或多个数据集合的数目的复用度增加相关联的第二优先度信息,并且
[0283]当在复用度改变处理中执行复用度减小时,复用度管理装置基于第一优先度信息实施复用度改变处理,并且当执行复用度增加时,复用度管理装置基于第二优先度信息实施复用度改变处理。
[0284](补充说明6)
[0285]根据补充说明5所述的数据集合复用度改变设备,其中优先度计算装置
[0286]在计算第一优先度信息时,将每个数据集合的预测存取次数信息包含在数据集合使用相关信息中,并且
[0287]在计算第二优先度信息时,将每个数据集合的预测存取次数信息和关于节点之间的数据传送速度的信息包含在数据集合使用相关信息中。
[0288](补充说明7)
[0289]—种服务器,包括:
[0290]根据补充说明I至6中任一项所述的数据集合复用度改变设备,其中,控制由所述多个节点执行的工作的并行处理。
[0291](补充说明8)
[0292]一种数据集合复用度改变方法,包括:
[0293]使用信息处理设备基于包括与在由多个
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1