基于超大数据集的数据处理方法及装置与流程

文档序号:12465978阅读:来源:国知局

技术特征:

1.一种基于超大数据集的数据处理方法,其特征在于,包括:

第一数组构建步骤:根据预获取的字段数和第一设定值,构建第一数组,所述第一数组为二维数组;

数据集检验步骤:检验超大数据集的数据,若符合指定的特定特征,则将该数据对应所述第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应所述第一数组中字段位置的数值设置为第二数据标记值,形成数据集检验信息;

第二数组构建步骤:根据所述字段数和第二设定值,构建第二数组,所述第二设定值是根据预设比例值和所述第一设定值确定的数值,所述第二数组为二维数组;

信息组划分步骤:根据所述预设比例值,将所述数据集检验信息进行划分,依次形成多个信息组,并记录每个信息组的信息组位置;

第二数组更新步骤:检验每个信息组,若该信息组包含所述第一数据标记值,则设置该组的检验结果为第一标记值检验结果,若该信息组不包含所述第一数据标记值,则设置该组的检验结果为第二标记值检验结果;

根据每个信息组位置,确定该信息组在所述第二数组中的目标字段;

将每个信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段。

2.根据权利要求1所述基于超大数据集的数据处理方法,其特征在于,

在所述数据集检验步骤之后,该方法还包括:

采用可视化显示方式,将所述第一数据标记值和所述第二数据标记值进行显示;

在所述第二数组更新步骤之后,该方法还包括:

采用可视化显示方式,将所述第一标记值检验结果和所述第二标记值检验结果进行显示。

3.根据权利要求2所述基于超大数据集的数据处理方法,其特征在于,

所述采用可视化显示方式,将所述第一数据标记值和所述第二数据标记值进行显示,具体包括:

采用图片显示方式,将所述第一数据标记值和所述第二数据标记值形成第一图片,进行显示;

采用列表显示方式,将所述第一数据标记值和所述第二数据标记值形成第一列表,进行显示;

所述采用可视化显示方式,将所述第一标记值检验结果和所述第二标记值检验结果进行显示,具体包括:

采用图片显示方式,将所述第一标记值检验结果和所述第二标记值检验结果形成第二图片,进行显示;

采用列表显示方式,将所述第一标记值检验结果和所述第二标记值检验结果形成第二列表,进行显示;所述可视化显示方式包括所述图片显示方式和所述列表显示方式。

4.根据权利要求3所述基于超大数据集的数据处理方法,其特征在于,

在显示所述第一图片之后,该方法还包括:

接收用户发送的第一指定区域的数据显示指令;

根据所述第一指定区域的数据显示指令,计算第一指定区域在所述超大数据集的坐标区间;

根据所述超大数据集的坐标区间,获取并显示该第一指定区域的数据;

在显示所述第二图片之后,该方法还包括:

接收用户发送的第二指定区域的数据显示指令;

根据所述第二指定区域的数据显示指令,从所述第一图片中截取与第二指定区域相应的子图,进行显示。

5.根据权利要求1所述基于超大数据集的数据处理方法,其特征在于,

在所述数据集检验步骤之后,该方法还包括:

根据所述第一数据标记值和该第一数据标记值的字段位置,获取对应于所述超大数据集的特定特征数据,进行显示;

在所述第二数组更新步骤之后,该方法还包括:

根据所述第一标记值检验结果和该第一标记值检验结果的信息组位置,获取对应于所述超大数据集的指定数据区间;

根据所述特定特征,检验所述指定数据区间的数据,确定并显示特定特征数据。

6.根据权利要求1所述基于超大数据集的数据处理方法,其特征在于,

检验超大数据集的数据,若符合指定的特定特征,则将该数据对应所述第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应所述第一数组中字段位置的数值设置为第二数据标记值,形成数据集检验信息,具体包括:

检验所述第一数组的状态和所述超大数据集的数据是否全部检验:

若所述第一数组为非满数组状态,且所述超大数据集存在未检验的数据,则检验所述超大数据集的数据,若符合所述特定特征,则将该数据对应所述第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应所述第一数组中字段位置的数值设置为第二数据标记值;

若所述第一数组为满数组状态,且所述超大数据集存在未检验的数据,则:将所述第一数组中的第一数据标记值和第二数据标记值进行持久化处理,并清空所述第一数组;

继续检验所述超大数据集的数据,若符合所述特定特征,则将该数据对应所述第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应所述第一数组中字段位置的数值设置为第二数据标记值;

若所述超大数据集的数据全部检验,则将所述第一数据标记值和所述第二数据标记值保存为数据集检验信息。

7.根据权利要求1所述基于超大数据集的数据处理方法,其特征在于,

根据每个信息组位置,将所述每个信息组的标记值检验结果更新至所述第二数组,具体包括:

检验所述第二数组的状态和是否存在未更新标记值检验结果的信息组:

若所述第二数组为非满数组状态,且存在未更新标记值检验结果的信息组,则:根据所述未更新标记值检验结果信息组的信息组位置,确定该信息组在所述第二数组中的目标字段;

将该信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段;

若所述第二数组为满数组状态,且存在未更新标记值检验结果的信息组,则:将所述第二数组中的第一标记值检验结果和第二标记值检验结果进行持久化处理,并清空所述第二数组;

根据所述未更新标记值检验结果信息组的信息组位置,确定该信息组在清空后的第二数组中的目标字段;

将该信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段;

若标记值检验结果全部更新,则保存所述第一标记值检验结果和所述第二标记值检验结果。

8.一种基于超大数据集的数据处理装置,其特征在于,包括:

第一数组构建模块:用于根据预获取的字段数和第一设定值,构建第一数组,所述第一数组为二维数组;

数据集检验模块:用于检验超大数据集的数据,若符合指定的特定特征,则将该数据对应所述第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应所述第一数组中字段位置的数值设置为第二数据标记值,形成数据集检验信息;

第二数组构建模块:用于根据所述字段数和第二设定值,构建第二数组,所述第二设定值是根据预设比例值和所述第一设定值确定的数值,所述第二数组为二维数组;

信息组划分模块:用于根据所述预设比例值,将所述数据集检验信息进行划分,依次形成多个信息组,并记录每个信息组的信息组位置;

第二数组更新模块:用于检验每个信息组,若该信息组包含所述第一数据标记值,则设置该组的检验结果为第一标记值检验结果,若该信息组不包含所述第一数据标记值,则设置该组的检验结果为第二标记值检验结果;根据每个信息组位置,确定该信息组在所述第二数组中的目标字段;将每个信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段。

9.根据权利要求8所述基于超大数据集的数据处理装置,其特征在于,

该装置还包括第一可视化显示模块,用于采用可视化显示方式,将所述第一数据标记值和所述第二数据标记值进行显示;

该装置还包括第二可视化显示模块,用于采用可视化显示方式,将所述第一标记值检验结果和所述第二标记值检验结果进行显示。

10.根据权利要求9所述基于超大数据集的数据处理装置,其特征在于,所述第一可视化显示模块,具体包括:

第一图片显示子模块,用于采用图片显示方式,将所述第一数据标记值和所述第二数据标记值形成第一图片,进行显示;

第一列表显示子模块,用于采用列表显示方式,将所述第一数据标记值和所述第二数据标记值形成第一列表,进行显示;

所述第二可视化显示模块,具体包括:

第二图片显示子模块,用于采用图片显示方式,将所述第一标记值检验结果和所述第二标记值检验结果形成第二图片,进行显示;

第二列表显示子模块,用于采用列表显示方式,将所述第一标记值检验结果和所述第二标记值检验结果形成第二列表,进行显示。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1