1.一种基于跨机房Hadoop集群的数据存储的方法,其特征在于,该方法包括:
在接收到需要写入的数据表后,确定用于计算所述数据表中数据的任务类型;
根据确定的所述任务类型,将所述数据表中满足同一预设条件的数据存储到同一机房中或将所述数据表中全部数据存储到同一机房中。
2.如权利要求1所述的方法,其特征在于,根据下列方式确定用于计算所述数据表中数据的任务类型:
将预先设置的任务类型作为用于计算所述数据表中数据的任务类型;或
根据计算和流量模型确定用于计算所述数据表中数据的任务类型。
3.如权利要求2所述的方法,其特征在于,根据计算和流量模型确定用于计算所述数据表中数据的任务类型,包括:
在确定需要写入的数据表的原始数据量后,确定中间产生的传输的数据量;
根据原始数据量与中间产生传输的数据量的比值,通过计算和流量模型确定用于计算所述数据表中数据的任务类型。
4.如权利要求1或2所述的方法,其特征在于,若所述任务类型为单表汇聚计算类型或多表关联计算类型,则将所述数据表中满足同一预设条件的数据存储到同一机房中。
5.如权利要求1或2所述的方法,其特征在于,若所述任务类型为非单表汇聚计算类型和非多表关联计算类型,则将所述数据表中的全部数据存储到同一机房中。
6.如权利要求4所述的方法,其特征在于,将所述数据表中满足同一预设条件的数据存储到同一机房中,包括:
针对所述数据表中当前需要存储的一条数据,从数据表对应的预设条件 中,确定所述数据满足的预设条件,并将所述数据存储到确定的预设条件对应的机房中,其中一个预设条件对应一个机房;
针对所述数据表对应的一个预设条件,确定所述数据表中满足所述预设条件的每条数据,并将确定的每条数据,存储到所述预设条件对应的机房中,其中一个预设条件对应一个机房;或
针对所述数据表对应的一个预设条件,从数据表对应的预设条件中,确定所述数据表中满足所述预设条件的每条数据,根据确定数据的存储容量和机房的平均使用率,从能够存储所述数据的机房中确定一个机房,并将确定的每条数据存储到确定的机房中。
7.如权利要求6所述的方法,其特征在于,若所述任务类型为多表关联计算类型,则多个数据表对应相同的至少一个预设条件。
8.如权利要求6所述的方法,其特征在于,若所述任务类型为单表汇聚计算类型,则每个数据表对应不同的预设条件。
9.如权利要求5所述的方法,其特征在于,将所述数据表中的全部数据存储到同一机房中,包括:
确定平均存储使用率最低的机房,并将数据表中的全部数据存储到所述平均存储使用率最低的机房中。
10.如权利要求1所述的方法,其特征在于,将所述数据表中满足同一预设条件的数据存储到同一机房中或将所述数据表中全部数据存储到同一机房中之后,还包括:
在接收到计算任务时,确定所述计算任务需要处理的数据;
根据所述计算任务需要处理的数据,确定存储所述计算任务需要处理的数据的机房;
若存储需要处理的数据的机房是多个,确定在每个机房中需要处理的数据满足的预设条件,根据需要处理的数据满足的预设条件,将所述计算任务划分为至少两个计算子任务,并将计算子任务分别发送到存储需要处理的数据的机 房;若存储需要处理的数据的机房是一个,将计算任务直接发送到所述机房。
11.一种基于跨机房Hadoop集群的数据存储的装置,其特征在于,该装置包括:
存储器,用于存储需要写入的数据表;
处理器,用于在所述存储器接收到需要写入的数据表后,确定用于计算所述数据表中数据的任务类型;以及根据确定的所述任务类型,将所述数据表中满足同一预设条件的数据存储到同一机房中或将所述数据表中全部数据存储到同一机房中。
12.如权利要求11所述的装置,其特征在于,所述处理器根据下列方式确定用于计算所述数据表中数据的任务类型:
将预先设置的任务类型作为用于计算所述数据表中数据的任务类型;或
根据计算和流量模型确定用于计算所述数据表中数据的任务类型。
13.如权利要求12所述的装置,其特征在于,所述处理器,具体用于:
在确定需要写入的数据表的原始数据量后,确定中间产生的传输的数据量;根据原始数据量与中间产生传输的数据量的比值,通过计算和流量模型确定用于计算所述数据表中数据的任务类型。
14.如权利要求11或12所述的装置,其特征在于,所述处理器,具体用于:
若所述任务类型为单表汇聚计算类型或多表关联计算类型,将所述数据表中满足同一预设条件的数据存储到同一机房中。
15.如权利要求11或12所述的装置,其特征在于,所述处理器,具体用于:
若所述任务类型为非单表汇聚计算类型和非多表关联计算类型,将所述数据表中的全部数据存储到同一机房中。
16.如权利要求14所述的装置,其特征在于,所述处理器,具体用于:
针对所述数据表中当前需要存储的一条数据,从数据表对应的预设条件 中,确定所述数据满足的预设条件,并将所述数据存储到确定的预设条件对应的机房中,其中一个预设条件对应一个机房;
针对所述数据表对应的一个预设条件,确定所述数据表中满足所述预设条件的每条数据,并将确定的每条数据,存储到所述预设条件对应的机房中,其中一个预设条件对应一个机房;或
针对所述数据表对应的一个预设条件,从数据表对应的预设条件中,确定所述数据表中满足所述预设条件的每条数据,根据确定数据的存储容量和机房的平均使用率,从能够存储所述数据的机房中确定一个机房,并将确定的每条数据存储到确定的机房中。
17.如权利要求16所述的装置,其特征在于,若所述任务类型为多表关联计算类型,则多个数据表对应相同的至少一个预设条件。
18.如权利要求16所述的装置,其特征在于,若所述任务类型为单表汇聚计算类型,则每个数据表对应不同的预设条件。
19.如权利要求15所述的装置,其特征在于,所述处理器,具体用于:
确定平均存储使用率最低的机房,并将数据表中的全部数据存储到所述平均存储使用率最低的机房中。
20.如权利要求11所述的装置,其特征在于,所述处理器还用于:
将所述数据表中满足同一预设条件的数据存储到同一机房中或将所述数据表中全部数据存储到同一机房中之后,在接收到计算任务时,确定所述计算任务需要处理的数据;根据所述计算任务需要处理的数据,确定存储所述计算任务需要处理的数据的机房;若存储需要处理的数据的机房是多个,确定在每个机房中需要处理的数据满足的预设条件,根据需要处理的数据满足的预设条件,将所述计算任务划分为至少两个计算子任务,并将计算子任务分别发送到存储需要处理的数据的机房;若存储需要处理的数据的机房是一个,将计算任务直接发送到所述机房。