基于超大数据集的数据处理方法及装置与流程

文档序号：12465978阅读：246来源：国知局

本发明涉及数据处理技术领域，具体涉及一种基于超大数据集的数据处理方法及装置。

背景技术：

目前，信息化及大数据应用越来越深入，同时，也产生了越来越多的数据集，且数据集越来越大。而在实际业务应用中，用户需要快速浏览、查看和处理数据集中的特定特征数据，常见的特定特征的数据如：空值、数字型列中出现非数字型字符串、字符串中出现不应该出现的标点符号、长度过长的字符串等。数据集过大的情况下，用户对特定特征数据的掌控能力显著降低，且不能快速浏览特定特征数据，用户体验差。

如何对超大数据集进行数据处理，以使特定特征数据能够清晰、简要地显示、快速切换区域和定位，方便用户快速地浏览、查看和处理，提高业务处理效率，是本领域技术人员亟需解决的问题。

技术实现要素：

针对现有技术中的缺陷，本发明提供基于超大数据集的数据处理方法及装置，能够对超大数据集进行数据处理，以使特定特征数据进行清晰、简要地显示、快速切换区域和定位，方便用户快速地浏览、查看和处理，提高业务处理效率。

第一方面，本发明提供一种基于超大数据集的数据处理方法，该方法包括第一数组构建步骤：根据预获取的字段数和第一设定值，构建第一数组，第一数组为二维数组；

数据集检验步骤：检验超大数据集的数据，若符合指定的特定特征，则将该数据对应第一数组中字段位置的数值设置为第一数据标记值，否则，将该数据对应第一数组中字段位置的数值设置为第二数据标记值，形成数据集检验信息；

第二数组构建步骤：根据字段数和第二设定值，构建第二数组，第二设定值是根据预设比例值和第一设定值确定的数值，第二数组为二维数组；

信息组划分步骤：根据预设比例值，将数据集检验信息进行划分，依次形成多个信息组，并记录每个信息组的信息组位置；

第二数组更新步骤：检验每个信息组，若该信息组包含第一数据标记值，则设置该组的检验结果为第一标记值检验结果，若该信息组不包含第一数据标记值，则设置该组的检验结果为第二标记值检验结果；

根据每个信息组位置，确定该信息组在第二数组中的目标字段；

将每个信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段。

进一步地，在数据集检验步骤之后，本实施例基于超大数据集的数据处理方法还包括：采用可视化显示方式，将第一数据标记值和第二数据标记值进行显示；

在第二数组更新步骤之后，该方法还包括：采用可视化显示方式，将第一标记值检验结果和第二标记值检验结果进行显示。

进一步地，采用可视化显示方式，将第一数据标记值和第二数据标记值进行显示，具体包括：采用图片显示方式，将第一数据标记值和第二数据标记值形成第一图片，进行显示；

采用列表显示方式，将第一数据标记值和第二数据标记值形成第一列表，进行显示；

采用可视化显示方式，将第一标记值检验结果和第二标记值检验结果进行显示，具体包括：采用图片显示方式，将第一标记值检验结果和第二标记值检验结果形成第二图片，进行显示；

采用列表显示方式，将第一标记值检验结果和第二标记值检验结果形成第二列表，进行显示；可视化显示方式包括图片显示方式和列表显示方式。

进一步地，在显示第一图片之后，本实施例基于超大数据集的数据处理方法还包括：接收用户发送的第一指定区域的数据显示指令；

根据第一指定区域的数据显示指令，计算第一指定区域在超大数据集的坐标区间；

根据超大数据集的坐标区间，获取并显示该第一指定区域的数据；

在显示第二图片之后，该方法还包括：接收用户发送的第二指定区域的数据显示指令；

根据第二指定区域的数据显示指令，从第一图片中截取与第二指定区域相应的子图，进行显示。

基于上述任意基于超大数据集的数据处理方法实施例，进一步地，在数据集检验步骤之后，该方法还包括：根据第一数据标记值和该第一数据标记值的字段位置，获取对应于超大数据集的特定特征数据，进行显示；

在第二数组更新步骤之后，该方法还包括：根据第一标记值检验结果和该第一标记值检验结果的信息组位置，获取对应于超大数据集的指定数据区间；

根据特定特征，检验指定数据区间的数据，确定并显示特定特征数据。

进一步地，检验超大数据集的数据，若符合指定的特定特征，则将该数据对应第一数组中字段位置的数值设置为第一数据标记值，否则，将该数据对应第一数组中字段位置的数值设置为第二数据标记值，形成数据集检验信息，具体包括：

检验第一数组的状态和超大数据集的数据是否全部检验：

若第一数组为非满数组状态，且超大数据集存在未检验的数据，则检验超大数据集的数据，若符合特定特征，则将该数据对应第一数组中字段位置的数值设置为第一数据标记值，否则，将该数据对应第一数组中字段位置的数值设置为第二数据标记值；

若第一数组为满数组状态，且超大数据集存在未检验的数据，则：将第一数组中的第一数据标记值和第二数据标记值进行持久化处理，并清空第一数组；

继续检验超大数据集的数据，若符合特定特征，则将该数据对应第一数组中字段位置的数值设置为第一数据标记值，否则，将该数据对应第一数组中字段位置的数值设置为第二数据标记值；

若超大数据集的数据全部检验，则将第一数据标记值和第二数据标记值保存为数据集检验信息。

进一步地，根据每个信息组位置，将每个信息组的标记值检验结果更新至第二数组，具体包括：

检验第二数组的状态和是否存在未更新标记值检验结果的信息组：

若第二数组为非满数组状态，且存在未更新标记值检验结果的信息组，则：根据未更新标记值检验结果信息组的信息组位置，确定该信息组在第二数组中的目标字段；

将该信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段；

若第二数组为满数组状态，且存在未更新标记值检验结果的信息组，则：将第二数组中的第一标记值检验结果和第二标记值检验结果进行持久化处理，并清空第二数组；

根据未更新标记值检验结果信息组的信息组位置，确定该信息组在清空后的第二数组中的目标字段；

将该信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段；

若标记值检验结果全部更新，则保存第一标记值检验结果和第二标记值检验结果。

第二方面，本发明提供一种基于超大数据集的数据处理装置，该装置包括第一数组构建模块、数据集检验模块、第二数组构建模块、信息组划分模块和第二数组更新模块，第一数组构建模块用于根据预获取的字段数和第一设定值，构建第一数组，第一数组为二维数组；数据集检验模块用于检验超大数据集的数据，若符合指定的特定特征，则将该数据对应第一数组中字段位置的数值设置为第一数据标记值，否则，将该数据对应第一数组中字段位置的数值设置为第二数据标记值，形成数据集检验信息；第二数组构建模块用于根据字段数和第二设定值，构建第二数组，第二设定值是根据预设比例值和第一设定值确定的数值，第二数组为二维数组；信息组划分模块用于根据预设比例值，将数据集检验信息进行划分，依次形成多个信息组，并记录每个信息组的信息组位置；第二数组更新模块用于检验每个信息组，若该信息组包含第一数据标记值，则设置该组的检验结果为第一标记值检验结果，若该信息组不包含第一数据标记值，则设置该组的检验结果为第二标记值检验结果；根据每个信息组位置，确定该信息组在第二数组中的目标字段；将每个信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段。

进一步地，该装置还包括第一可视化显示模块，用于采用可视化显示方式，将第一数据标记值和第二数据标记值进行显示；

该装置还包括第二可视化显示模块，用于采用可视化显示方式，将第一标记值检验结果和第二标记值检验结果进行显示。

进一步地，第一可视化显示模块包括第一图片显示子模块和第一列表显示子模块，第一图片显示子模块用于采用图片显示方式，将第一数据标记值和第二数据标记值形成第一图片，进行显示；第一列表显示子模块用于采用列表显示方式，将第一数据标记值和第二数据标记值形成第一列表，进行显示；

第二可视化显示模块包括第二图片显示子模块和第二列表显示子模块，第二图片显示子模块用于采用图片显示方式，将第一标记值检验结果和第二标记值检验结果形成第二图片，进行显示；第二列表显示子模块，用于采用列表显示方式，将第一标记值检验结果和第二标记值检验结果形成第二列表，进行显示。

由上述技术方案可知，本实施例提供的基于超大数据集的数据处理方法及装置，通过检验超大数据集的数据中的特定特征数据，形成数据集检验信息，能够准确地获取特定特征数据的坐标位置，有助于进行快速定位。并且，该方法还能对数据集检验信息进行分组与检验，以便于清晰、简要地高度化显示特定特征数据，方便用户快速进行区域切换，使用户能够准确、高效地掌握超大数据集中的特定特征数据分布，提高业务处理效率。

因此，本实施例基于超大数据集的数据处理方法及装置，能够对超大数据集进行数据处理，以使特定特征数据进行清晰、简要地显示、快速切换区域和定位，方便用户快速地浏览、查看和处理，且运算效率高、结果可靠。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明所提供的一种基于超大数据集的数据处理方法的流程图；

图2示出了本发明所提供的一种基于超大数据集的数据处理装置的结构框图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

第一方面，本发明实施例所提供的一种基于超大数据集的数据处理方法，结合图1，该方法包括：

第一数组构建步骤S1：根据预获取的字段数和第一设定值，构建第一数组，第一数组为二维数组，如将字段数设置为宽度，将第一设定值1024*1024设置为长度。

数据集检验步骤S2：检验超大数据集的数据，若符合指定的特定特征，则将该数据对应第一数组中字段位置的数值设置为第一数据标记值，否则，将该数据对应第一数组中字段位置的数值设置为第二数据标记值，形成数据集检验信息，在此，遍历超大数据集中的数据，其中，第一数据标记值可以设为1，第二数据标记值可以设为0。

第二数组构建步骤S3：根据字段数和第二设定值，构建第二数组，第二设定值是根据预设比例值和第一设定值确定的数值，第二数组为二维数组，如将字段数设置为宽度，预设比例值为100，则第二设定值为第一设定值的1/100，将第二设定值设置为长度。其中，第一数组和第二数组均可采用int[][]、bit[][]或其他数据类型的二维数组，且优选为bit[][]数据类型。int[][]数据类型能够表征多种状态，以显示图片为例，可用红色表示男、用蓝色表示女、用白色表示未定义，方便用户进行后续处理，但是，int[][]数据类型内存占用量相对较大、且数据运算效率相对较低。bit[][]数据类型计算速度快，且能够满足对单特征数据处理的需求，因此，bit[][]为最优选的数据类型。在实际应用过程中，用户可以根据实际业务需求，设置二维数组的具体数据类型。

信息组划分步骤S4：根据预设比例值，将数据集检验信息进行划分，依次形成多个信息组，并记录每个信息组的信息组位置，在此，每组代表100行。

第二数组更新步骤S5：检验每个信息组，若该信息组包含第一数据标记值，则设置该组的检验结果为第一标记值检验结果，若该信息组不包含第一数据标记值，则设置该组的检验结果为第二标记值检验结果；若100行中至少有一行包含第一数据标记值，则该组的标记值检验结果设置为1，若100行中没有第一数据标记值，则该组的标记值检验结果设置为0。

根据每个信息组位置，确定该信息组在第二数组中的目标字段。

将每个信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段。在此，第二数组的第2382行等同于超大数据集的第238101行至238200行。

在实际应用过程中，用户可以根据实际需求，在构建第一数组时，将字段数设置为长度，将第一设定值1024*1024设置为宽度，相应的，在构建第二数组时，也将字段数设置为长度，将第二设定值设置为宽度。同样，采用上述处理步骤，以实现对列数据的缩减，满足用户的业务需求。

并且，若待处理的数据集庞大，则可以根据字段数和第三设定值，构建第三数组，第三设定值是根据预设比例值和第二设定值确定的数值，根据预设比例值，将第二数组中各目标字段的信息进行划分，依次形成多个再处理信息组，并记录每个再处理信息组的位置，检验每个再处理信息组，若该再处理信息组包含第一标记值检验结果，则设置该组的检验结果为第一再处理检验结果，若该信息组不包含第一标记值检验结果，则设置该组的检验结果为第二再处理检验结果，根据每个再处理信息组的位置，确定该再处理信息组在第三数组中的目标字段；将每个再处理信息组的第一再处理检验结果或第二再处理检验结果更新至该再处理信息组的目标字段，以缩短最终查询结果的长度，实现更高级的摘要显示，方便用户进行业务处理。

由上述技术方案可知，本实施例提供的基于超大数据集的数据处理方法，通过检验超大数据集的数据中的特定特征数据，形成数据集检验信息，能够准确地获取特定特征数据的坐标位置，有助于进行快速定位。并且，该方法还能对数据集检验信息进行分组与检验，以便于清晰、简要地高度化显示特定特征数据，方便用户快速进行区域切换，使用户能够准确、高效地掌握超大数据集中的特定特征数据分布，提高业务处理效率。

因此，本实施例基于超大数据集的数据处理方法，能够对超大数据集进行数据处理，以使特定特征数据进行清晰、简要地显示、快速切换区域和定位，方便用户快速地浏览、查看和处理，且运算效率高、结果可靠。

为了进一步方便用户应用本实施例基于超大数据集的数据处理方法，具体地，该方法能够进行大数据的摘要显示，在数据集检验步骤S2之后，该方法还能够采用可视化显示方式，将第一数据标记值和第二数据标记值进行显示。在第二数组更新步骤S5之后，该方法还能够采用可视化显示方式，将第一标记值检验结果和第二标记值检验结果进行显示。在此，可视化显示的方式可以有多种，如图片显示方式、列表显示方式等，以便于用户查看，满足实际应用业务需求。

例如，采用图片显示方式，将第一数据标记值和第二数据标记值形成第一图片，进行显示。在此，可将第一数据标记值设置为第一颜色，第二数据标记值设置为第二颜色。采用列表显示方式，将第一数据标记值和第二数据标记值形成第一列表，进行显示。

采用图片显示方式，将第一标记值检验结果和第二标记值检验结果形成第二图片，进行显示。第一标记值检验结果设置为第一颜色，第二标记值检验结果设置为第二颜色。采用列表显示方式，将第一标记值检验结果和第二标记值检验结果形成第二列表，进行显示。

在此，本实施例基于超大数据集的数据处理方法能够为不同的数值赋予不同的显示方式，以更直观展现不同特性。同时，针对大数据场景下，第一图片的数据量仍会很大，该方法还能够进行选择性的显示，即显示更为精简的第二图片或第二列表，以方便用户快速浏览特定特征数据，更直观的掌握特定特征数据的分布状况，满足业务需求。

具体地，本实施例基于超大数据集的数据处理方法能够快速切换区域，其实现过程如下：

在显示第一图片之后，该方法还能够接收用户发送的第一指定区域的数据显示指令，如加载第一图片之后，用户发现第一图片的某区域有较多黑点，则用户点击该区域，即可发送第一指定区域数据显示指令。

根据第一指定区域的数据显示指令，计算第一指定区域在超大数据集的坐标区间。

根据超大数据集的坐标区间，获取并显示该第一指定区域的数据。

在显示第二图片之后，该方法还能够接收用户发送的第二指定区域的数据显示指令。

根据第二指定区域的数据显示指令，从第一图片中截取与第二指定区域相应的子图，进行显示，以方便用户进行二次选择。

在此，该方法能够根据用户的需求，显示指定区域在超大数据集中的数据。同时，针对大数据场景下，第一图片的数据量仍会很大，该方法还能够进行选择性的显示，即采用“第二图片+子图”的符合模式，实现快速切换区域，以有助于用户进行后续处理，方便用户进行业务查询，满足多样化的业务需求，提高用户体验。

具体地，本实施例基于超大数据集的数据处理方法还能够快速定位特定特征数据，其实现过程如下：

在数据集检验步骤S2之后，该方法还能够根据第一数据标记值和该第一数据标记值的字段位置，获取对应于超大数据集的特定特征数据，进行显示。

在第二数组更新步骤S5之后，该方法还能够根据第一标记值检验结果和该第一标记值检验结果的信息组位置，获取对应于超大数据集的指定数据区间；根据特定特征，检验指定数据区间的数据，确定并显示特定特征数据。

在此，针对数据量较小的数据集，该方法能够快速获取特定特征数据的位置，即可直接显示特定特征数据，定位精确、显示特定特征数据的速度快。同时，针对数据量超大的数据集，该方法也能够快速地处理超大数据集的数据，且占用内存空间小，方便用户使用。

为了进一步提高本实施例基于超大数据集的数据处理方法的处理效率，具体地，针对不同数据量的数据集，该方法能够准确、快速地进行处理，运算效率高。在形成数据集检验信息时，该方法的实现过程如下：

检验第一数组的状态和超大数据集的数据是否全部检验：

若第一数组为非满数组状态，且超大数据集存在未检验的数据，则检验超大数据集的数据，若符合特定特征，则将该数据对应第一数组中字段位置的数值设置为第一数据标记值，否则，将该数据对应第一数组中字段位置的数值设置为第二数据标记值，形成数据集检验信息。

若第一数组为满数组状态，且超大数据集存在未检验的数据，则将第一数组中的第一数据标记值和第二数据标记值进行持久化处理，如存储至硬盘中，并清空第一数组。继续检验超大数据集的数据，若符合特定特征，则将该数据对应第一数组中字段位置的数值设置为第一数据标记值，否则，将该数据对应第一数组中字段位置的数值设置为第二数据标记值，并更新至数据集检验信息。在此，采用持久化处理数组中的数据，以保证内存中的数据不要太大。

若超大数据集的数据全部检验，则将第一数据标记值和第二数据标记值保存为数据集检验信息。

在第二数组信息更新时，该方法的实现过程如下：

检验第二数组的状态和是否存在未更新标记值检验结果的信息组：

若第二数组为非满数组状态，且存在未更新标记值检验结果的信息组，则根据未更新标记值检验结果信息组的信息组位置，确定该信息组在第二数组中的目标字段。将该信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段。

若第二数组为满数组状态，且存在未更新标记值检验结果的信息组，则将第二数组中的第一标记值检验结果和第二标记值检验结果进行持久化处理，并清空第二数组；根据未更新标记值检验结果信息组的信息组位置，确定该信息组在清空后的第二数组中的目标字段。将该信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段。

若标记值检验结果全部更新，则保存第一标记值检验结果和第二标记值检验结果。

在此，采用上述处理过程，使该方法能够处理不同数据量的数据集，以满足多样化业务需求，且数据处理结果准确、可靠。

第二方面，本发明实施例提供一种基于超大数据集的数据处理装置，结合图2，该装置包括第一数组构建模块1、数据集检验模块2、第二数组构建模块3、信息组划分模块4和第二数组更新模块5，第一数组构建模块1用于根据预获取的字段数和第一设定值，构建第一数组，第一数组为二维数组；数据集检验模块2用于检验超大数据集的数据，若符合指定的特定特征，则将该数据对应第一数组中字段位置的数值设置为第一数据标记值，否则，将该数据对应第一数组中字段位置的数值设置为第二数据标记值，形成数据集检验信息；第二数组构建模块3用于根据字段数和第二设定值，构建第二数组，第二设定值是根据预设比例值和第一设定值确定的数值，第二数组为二维数组；信息组划分模块4用于根据预设比例值，将数据集检验信息进行划分，依次形成多个信息组，并记录每个信息组的信息组位置；第二数组更新模块5用于检验每个信息组，若该信息组包含第一数据标记值，则设置该组的检验结果为第一标记值检验结果，若该信息组不包含第一数据标记值，则设置该组的检验结果为第二标记值检验结果；根据每个信息组位置，确定该信息组在第二数组中的目标字段；将每个信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段。

由上述技术方案可知，本实施例提供的基于超大数据集的数据处理装置，通过检验超大数据集的数据中的特定特征数据，形成数据集检验信息，能够准确地获取特定特征数据的坐标位置，有助于进行快速定位。并且，该装置还能对数据集检验信息进行分组与检验，以便于清晰、简要地高度化显示特定特征数据，方便用户快速进行区域切换，使用户能够准确、高效地掌握超大数据集中的特定特征数据分布，提高业务处理效率。

因此，本实施例基于超大数据集的数据处理装置，能够对超大数据集进行数据处理，以使特定特征数据进行清晰、简要地显示、快速切换区域和定位，方便用户快速地浏览、查看和处理，且运算效率高、结果可靠。

具体地，本实施例基于超大数据集的数据处理装置还包括第一可视化显示模块，第一可视化显示模块用于采用可视化显示方式，将第一数据标记值和第二数据标记值进行显示。该装置还包括第二可视化显示模块，第二可视化显示模块用于采用可视化显示方式，将第一标记值检验结果和第二标记值检验结果进行显示。在此，该装置可以采用多种可视化显示方式，进行显示，如图片显示方式、列表显示方式等，以便于用户查看，满足实际应用业务需求。

例如，第一可视化显示模块包括第一图片显示子模块和第一列表显示子模块，第一图片显示子模块用于采用图片显示方式，将第一数据标记值和第二数据标记值形成第一图片，进行显示；第一列表显示子模块用于采用列表显示方式，将第一数据标记值和第二数据标记值形成第一列表，进行显示。

第二可视化显示模块包括第二图片显示子模块和第二列表显示子模块，第二图片显示子模块用于采用图片显示方式，将第一标记值检验结果和第二标记值检验结果形成第二图片，进行显示；第二列表显示子模块用于采用列表显示方式，将第一标记值检验结果和第二标记值检验结果形成第二列表，进行显示。

在此，第一可视化显示模块和第二可视化显示模块能够为不同的数值赋予不同的颜色或列表形式，以更直观展现不同特性。同时，针对大数据场景下，第一图片的数据量仍会很大，第二可视化显示模块还能够进行选择性的显示，即显示更为精简的第二图片或第二列表，以方便用户快速浏览特定特征数据，更直观的掌握特定特征数据的分布状况，满足业务需求。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张军;贾西贝
技术所有人：深圳市华傲数据技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。