一种数据交叉分析方法、装置、计算机设备和存储介质与流程

文档序号：24124071发布日期：2021-03-02 12:40阅读：160来源：国知局

[0001]
本发明属于数据处理技术领域，尤其涉及一种数据交叉分析方法、装置、计算机设备和存储介质。

背景技术：

[0002]
掌握数据间的交叉比例情况（比如数据间的交集、差集）可以更进一步提升对数据的认知程度，对具体业务的开展有很大的指导意义。
[0003]
目前采用的方式一般是对表之间进行多次链接操作，如果两个表中的数据需要频繁连接，可以使用连接标准将数据物理交叉到相同的物理存储结构，之后获得相应的结果，但上述方式一般面临两个主要问题：一方面，存储的数据量比较大且数据库大多都为开源的数据库，性能较弱，对关联字段若不进行处理，直接采用类似join的方式可能无法得到结果，或者要花费很长时间；另一方面，即使可以得到相关目标数据表之间的交叉结果，但一次得到的也都是单个的结果，如交集或差集等，无法同时得到目标数据表间所有组合的交集、差集等的相关结论，若要分析的目标数据表较多时，不同目标数据表组合的数量非常大，上述的分析方式效率非常低。

技术实现要素：

[0004]
本发明实施例的目的在于提供一种数据交叉分析方法、装置、计算机设备和存储介质，旨在解决现有技术对于数据交叉分析不能一次性获得目标数据表间所有组合的交集、差集等的问题。
[0005]
本发明实施例是这样实现的一种数据交叉分析方法，方法包括：获取需要进行分析的所有目标数据表，并对所述目标数据表增设对应的表名编码列；根据预设的第一筛选条件对所述目标数据表进行筛选，确定含有需要进行分析的目标字段的数据，并根据所述目标字段对所有所述目标数据表的数据进行合并，形成第一中间结果集；将所述第一中间结果集的数据按照所述目标字段进行分组并对表名编码列值进行统计汇总，形成第二中间结果集；对所述第二中间结果集的各个分组的表名编码列的汇总值进行统计汇总，统计各个分组的各类表名编码列汇总值及其数量，形成最终结果集；根据所述最终结果集中统计得到的各个分组的各类表名编码列汇总值及其数量，确定所有所述目标数据表之间的交集和/或差集关系。
[0006]
优选地，获取需要进行分析的目标数据表，并对所述目标数据表增设对应的表名编码列的步骤，具体还包括：对所述目标数据表的表名编码列进行统一格式的命名。
[0007]
优选地，将所述第一中间结果集的数据按照所述目标字段进行分组，形成第二中间结果集的步骤之前，还包括：
按照预设的第二筛选条件对所述第一中间结果集进行筛选，去除所述第一中间结果集中的噪音数据。
[0008]
优选地，所述根据所述最终结果集中统计得到的各个分组的各类表名编码列汇总值及其数量，确定所有所述目标数据表之间的交集和/或差集关系的步骤，具体包括：以表名编码列汇总值及其数量为依据；确定出现在所述第二中间结果集中同一分组的数据对应的所述目标数据表之间存在交集，并根据分组以及表名编码列汇总值数量计算所述目标数据表之间交集数量以及交集数据；确定出现在所述第一中间结果集中，但并未出现在所述第二中间结果集同一分组中的数据对应的所述目标数据表之间存在差集，并根据分组以及表名编码列汇总值数量计算出所述目标数据表之间差集数量以及差集数据。
[0009]
优选地，所述确定出现在所述第二中间结果集中同一分组的数据对应的所述目标数据表之间存在交集，并根据分组以及表名编码列汇总值数量计算所述目标数据表之间交集数量以及交集数据的步骤，具体包括：确定出现在所述第二中间结果集中同一分组的所述目标数据表之间存在交集；针对所述第二中间结果集中的所有分组逐次统计并汇总在同一分组中的数据对应的所述目标数据表；结合所述第二中间结果集中包含的分组数量，计算得出两个或者两个以上的所述目标数据表之间的交集数量；并将出现在同一分组的数据作为所述目标数据表之间的交集数据。
[0010]
优选地，所述确定出现在所述第一中间结果集中，但并未出现在所述第二中间结果集同一分组中的数据对应的所述目标数据表之间存在差集，并根据分组以及表名编码列汇总值数量计算出所述目标数据表之间差集数量以及差集数据的步骤，具体包括：确定出现在所述第一中间结果集中，但并未出现在所述第二中间结果集同一分组中的数据对应的所述目标数据表之间存在差集；针对所述第二中间结果集中的所有分组逐次统计并汇总不在同一分组中的数据对应的所述目标数据表；结合所述第二中间结果集中包含的分组数量，计算得出两个或者两个以上的所述目标数据表之间的差集数量；并将未出现在同一分组的数据作为所述目标数据表之间的差集数据。
[0011]
本发明实施例的另一目的在于提供一种数据交叉分析装置，包括：数据标识模块，用于获取需要进行分析的所有目标数据表，并对所述目标数据表增设对应的表名编码列；数据合并模块，用于根据预设的第一筛选条件对所述目标数据表进行筛选，确定含有需要进行分析的目标字段的数据，并根据所述目标字段对所有所述目标数据表的数据进行合并，形成第一中间结果集；数据分组模块，用于将所述第一中间结果集的数据按照所述目标字段进行分组并对表名编码列值进行统计汇总，形成第二中间结果集；
标识统计模块，用于对所述第二中间结果集的各个分组的表名编码列的汇总值进行统计汇总，统计各个分组的各类表名编码列汇总值及其数量，形成最终结果集；结果处理模块，用于根据所述最终结果集中统计得到的各个分组的各类表名编码列汇总值及其数量，确定所有所述目标数据表之间的交集和/或差集关系。
[0012]
本发明实施例的另一目的在于提供一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，计算机程序被处理器执行时，使得处理器执行数据交叉分析方法的步骤。
[0013]
本发明实施例的另一目的在于提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行数据交叉分析方法的步骤。
[0014]
本发明实施例提供的一种数据交叉分析方法通过对目标数据表进行标识，然后通过对目标字段统计追踪，进行分组分析，能够一次性得到多个目标数据表之间的所有交集、差集等分析结果，极大地提高分析的效率。
附图说明
[0015]
图1为本发明实施例提供的数据交叉分析方法的流程图；图2为本发明实施例提供的确认目标数据表交差集关系的流程图；图3为本发明实施例提供的确认目标数据表之间交集关系的流程图；图4为本发明实施例提供的确认目标数据表之间差集关系的流程图；图5为本发明实施例提供的数据交叉分析装置的结构框图；图6为一个实施例中计算机设备的内部结构框图。
具体实施方式
[0016]
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0017]
可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一xx脚本称为第二xx脚本，且类似地，可将第二xx脚本称为第一xx脚本。
[0018]
在本发明的实施例中，数据交叉分析方法可以应用于终端中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。
[0019]
实施例一如图1所示，在一个实施例中，提出了一种数据交叉分析方法，本实施例主要以该方法应用于上述的终端来举例说明。一种数据交叉分析方法，具体可以包括以下步骤：步骤s101，获取需要进行分析的所有目标数据表，并对目标数据表增设对应的表名编码列；步骤s102，根据预设的第一筛选条件对目标数据表进行筛选，确定含有需要进行分析的目标字段的数据，并根据目标字段对所有目标数据表的数据进行合并，形成第一中间结
果集；步骤s103，将第一中间结果集的数据按照目标字段进行分组并对表名编码列值进行统计汇总，形成第二中间结果集；步骤s104，对第二中间结果集的各个分组的表名编码列的汇总值进行统计汇总，统计各个分组的各类表名编码列汇总值及其数量，形成最终结果集；步骤s105，根据最终结果集中统计得到的各个分组的各类表名编码列汇总值及其数量，确定所有目标数据表之间的交集和/或差集关系。
[0020]
其中，目标数据表主要是指用来数据集合的形式，其可以是是具有多条记录的一个数据集合。具体的，目标数据表可以直接从一些常见的数据平台上获得，比如学生信息管理平台或者政务管理信息平台，与平台数据库连接，就可以直接获取整个平台的目标数据表，更多的细节在此不进一步的展开，本领域技术人员可以根据实际情况进行调整。例如：一个人有身高、体重、性别等信息，把一个人的这些信息作为一条记录，多个人的这些信息就组成一个目标数据表。
[0021]
其中，表名编码列为待分析表的编码标识，名称的命名符合通用的数据局变量取值规则，比如公积金表，直接编码为1；社保表，直接编码为2，在此不进一步描述。
[0022]
其中，第一筛选条件主要是用来选出包含有目标字段的数据的，比如前面描述的目标数据表中包含了一个人的身份证、身高、体重等信息，在某一次数据分析的过程中，仅用到个人的身份证信息，而不用到身高、体重信息，则可以将身份证作为第一筛选条件对目标数据表进行数据筛选；当然，在某些场合下，比如需要针对某地或者某企业部门或者行政部门的数据可以有针对性的设置筛选条件，主要以筛选出需要进行分析的数据为主，对于数据的筛选属于本领域的成熟技术，在此不进一步的描述。
[0023]
在本发明实施例中，根据目标字段将目标数据表的数据进行合并主要是在对目标数据表增设表名编码列之后，对应目标数据表的数据都含对应的表名编码列信息，因而可以通过表名编码列将各个目标数据表的数据进行区别，比如公积金表，直接编码为1；社保表，直接编码为2。进行数据合并之后相当于将所有数据混合，将很多个目标数据表（数据集）融合成一个大的数据集，即第一中间结果集。
[0024]
进一步的，将数据合并之后，再根据目标字段将第一中间结果集中的数据进行分组，那么来自不同目标数据表的有关联的数据就可以进入相同的分组中，进而就可以确认目标数据表之间的数据存在的关系，这就是进行分组形成第二中间结果集的目的和作用。
[0025]
进一步的，如前，在进行了表名编码列设置之后，含有目标字段的数据都相应的含有对应所属目标数据表的表名编码列信息，进而可以通过表名编码列来区分在一个分组里面的数据的来源，这就是形成最终结果集的目的和作用。具体的，比如前面描述的，将关于身份证的数据的分组中的各个数据对应的表名编码列进行识别计算，然后就可以知道关于身份证的分组中的各个数据所属的目标数据表，就可以知道目标数据表之间关于身份证的存在的具体关联关系。对其进行分组之后，就可以知道某一个目标数据表与其他数据表之间存在关联的数据的多少，全面的梳理目标数据表之间的关联关系，可以全面的计算到目标数据表之间的交集。相反的，如果不存在同一分组的数据的两个目标数据表之间则存在差集，同理可以进一步的整理计算出目标数据表之间的差集。
[0026]
在本发明实施例中，步骤101中获取需要进行分析的目标数据表，并对目标数据表
增设对应的表名编码列，具体还包括：对目标数据表的表名编码列进行统一格式的命名。
[0027]
具体的，对目标数据表的表名编码列进行统一格式的命名能够便于识别和计算，提高分析效率。具体的，统一格式主要是指命名方式，比如都通过数字序号命名或者字母编号进行命名等，更多的格式命名在此不进一步的详细列举。
[0028]
在本发明实施例中，步骤103中将第一中间结果集的数据按照目标字段进行分组并对表名编码列值进行统计汇总，形成第二中间结果集的步骤之前，还包括：按照预设的第二筛选条件对第一中间结果集进行筛选，去除第一中间结果集中的噪音数据。
[0029]
具体的，预设的第二筛选条件主要是为了进行数据去噪、清洗进行设置的条件，比如说将第一中间结果集中的数据中的身份证不足15位、null等去除，避免该类数据噪音对分组结果以及后面的分析产生影响，也减少了后面分析步骤的工作量，提高分析效率。
[0030]
另外，对于数据去噪、清洗属于本领域的成熟技术，在此不对具体的手段进行举例说明，本领域技术人员根据实际情况可相对的做出简单的调整和变形设计。
[0031]
在本发明实施例中，如图2所示，为本发明实施例中提供的确认目标数据表交差集关系的流程图，步骤s105根据最终结果集中统计得到的各个分组的各类表名编码列汇总值及其数量，确定所有目标数据表之间的交集和/或差集关系的步骤，具体包括：以表名编码列汇总值及其数量为依据；步骤s201，确定出现在第二中间结果集中同一分组的数据对应的目标数据表之间存在交集，并根据分组以及表名编码列汇总值数量计算目标数据表之间交集数量以及交集数据；步骤s202，确定出现在第一中间结果集中，但并未出现在第二中间结果集同一分组中的数据对应的目标数据表之间存在差集，并根据分组以及表名编码列值数量计算出目标数据表之间差集数量以及差集数据。
[0032]
在本发明实施例中，如图3所示，为本发明实施例中确认目标数据表之间交集关系的流程图，步骤s201，具体包括：步骤s301，确定出现在第二中间结果集中同一分组的目标数据表之间存在交集；步骤s302，针对第二中间结果集中的所有分组逐次统计并汇总在同一分组中的数据对应的目标数据表；步骤s303，结合第二中间结果集中包含的分组数量，计算得出两个或者两个以上的目标数据表之间的交集数量；步骤s304，并将出现在同一分组的数据作为目标数据表之间的交集数据。
[0033]
在本发明实施例中，如图4所示，为本发明实施例中确认目标数据表之间差集关系的流程图，步骤s202，具体包括：步骤s401，确定出现在第一中间结果集中，但并未出现在第二中间结果集同一分组中的数据对应的目标数据表之间存在差集；步骤s402，针对第二中间结果集中的所有分组逐次统计并汇总不在同一分组中的数据对应的目标数据表；步骤s403，结合第二中间结果集中包含的分组数量，计算得出两个或者两个以上的目
标数据表之间的差集数量；步骤s404，并将未出现在同一分组的数据作为目标数据表之间的差集数据。
[0034]
具体的，确定目标数据表之间存在交集的依据主要是因为第二中间结果集中的数据均是基于目标字段进行分组的，那么处于同一分组的数据所属的目标数据表之间必然存在相关联的数据，逐个分组且逐个数据进行分析之后，就可以计算出交集的数量，并且该数据就可以作为目标数据表之间的交集数据。如果数据不存在同一个分组之中，则说明他们之间没有关联，即没有交集，则同理的，可以计算出差集数量以及差集数据，在此不做进一步的详细描述，本领域技术人员可以根据实际情况进行简单的调整。
[0035]
本发明实施例提供的一种数据交叉分析方法通过对目标数据表进行标识，然后通过对目标字段统计追踪，进行分组分析，能够一次性得到多个目标数据表之间的交集、差集等分析结果，极大地提高分析的效率。
[0036]
实施例二如图5所示，在一个实施例中，提供了一种数据交叉分析装置，该数据交叉分析装置可以集成于计算机设备或者终端中，具体可以包括：数据标识模块510，用于获取需要进行分析的所有目标数据表，并对目标数据表增设对应的表名编码列；数据合并模块520，用于根据预设的第一筛选条件对目标数据表进行筛选，确定含有需要进行分析的目标字段的数据，并根据目标字段对所有目标数据表的数据进行合并，形成第一中间结果集；数据分组模块530，用于将第一中间结果集的数据按照目标字段进行分组并对表名编码列值进行统计汇总，形成第二中间结果集；标识统计模块540，用于对第二中间结果集的各个分组的表名编码列的汇总值进行统计汇总，统计各个分组的各类表名编码列汇总值及其数量，形成最终结果集；结果处理模块550，用于根据最终结果集中统计得到的各个分组的各类表名编码列汇总值及其数量，确定所有目标数据表之间的交集和/或差集关系。
[0037]
其中，目标数据表主要是指用来数据集合的形式，其可以是是具有多条记录的一个数据集合。具体的，目标数据表可以直接从一些常见的数据平台上获得，比如学生信息管理平台或者政务管理信息平台，与平台数据库连接，就可以直接获取整个平台的目标数据表，更多的细节在此不进一步的展开，本领域技术人员可以根据实际情况进行调整。例如：一个人有身高、体重、性别等信息，把一个人的这些信息作为一条记录，多个人的这些信息就组成一个目标数据表。
[0038]
其中，表名编码列为待分析表的编码标识，名称的命名符合通用的数据局变量取值规则，比如公积金表，直接编码为1；社保表，直接编码为2，在此不进一步描述。
[0039]
其中，第一筛选条件主要是用来选出包含有目标字段的数据的，比如前面描述的目标数据表中包含了一个人的身份证、身高、体重等信息，在某一次数据分析的过程中，仅用到个人的身份证信息，而不用到身高、体重信息，则可以将身份证作为第一筛选条件对目标数据表进行数据筛选；当然，在某些场合下，比如需要针对某地或者某企业部门或者行政部门的数据可以有针对性的设置筛选条件，主要以筛选出需要进行分析的数据为主，对于数据的筛选属于本领域的成熟技术，在此不进一步的描述。
[0040]
在本发明实施例中，根据目标字段将目标数据表的数据进行合并主要是在对目标数据表增设表名编码列之后，对应目标数据表的数据都含对应的表名编码列信息，因而可以通过表名编码列将各个目标数据表的数据进行区别。进行数据合并之后相当于将所有数据混合，将很多个目标数据表（数据集）融合成一个大的数据集，即第一中间结果集。
[0041]
进一步的，将数据合并之后，再根据目标字段将第一中间结果集中的数据进行分组，那么来自不同目标数据表的有关联的数据就可以进入相同的分组中，进而就可以确认目标数据表之间的数据存在的关系，这就是进行分组形成第二中间结果集的目的和作用。
[0042]
进一步的，如前，在进行了表名编码列设置之后，含有目标字段的数据都相应的含有对应所属目标数据表的表名编码列信息，进而可以通过表名编码列来区分在一个分组里面的数据的来源，这就是形成最终结果集的目的和作用。具体的，比如前面描述的，将关于身高的数据的分组中的各个数据对应的表名编码列进行识别计算，然后就可以知道关于身高的分组中的各个数据所属的目标数据表，就可以知道目标数据表之间关于身高的存在的具体关联关系。对其进行分组之后，就可以知道某一个目标数据表中存在关联的数据的多少，全面的梳理目标数据表之间的关联关系，可以全面的计算到目标数据表之间的交集。相反的，如果不存在同一分组的数据的两个目标数据表之间则存在差集，同理可以进一步的整理计算出目标数据表之间的差集。
[0043]
在本发明实施例中，数据标识模块510获取需要进行分析的目标数据表，并对目标数据表增设对应的表名编码列时，具体还包括：对目标数据表的表名编码列进行统一格式的命名。
[0044]
具体的，对目标数据表的表名编码列进行统一格式的命名能够便于识别和计算，提高分析效率。具体的，统一格式主要是指命名方式，比如都通过数字序号命名或者字母编号进行命名等，更多的格式命名在此不进一步的详细列举。
[0045]
在本发明实施例中，数据分组模块530将第一中间结果集的数据按照目标字段进行分组，形成第二中间结果集之前，还包括执行以下步骤：按照预设的第二筛选条件对第一中间结果集进行筛选，去除第一中间结果集中的噪音数据。
[0046]
具体的，预设的第二筛选条件主要是为了进行数据去噪、清洗进行设置的条件，比如说将第一中间结果集中的数据中的身份证不足15位、null等去除，避免该类数据噪音对分组结果以及后面的分析产生影响，也减少了后面分析步骤的工作量，提高分析效率。
[0047]
另外，对于数据去噪、清洗属于本领域的成熟技术，在此不对具体的手段进行举例说明，本领域技术人员根据实际情况可相对的做出简单的调整和变形设计。
[0048]
在本发明实施例中，结果处理模块550根据最终结果集中统计得到的各个分组的各类表名编码列汇总值及其数量，确定所有目标数据表之间的交集和/或差集关系时，具体包括：以表名编码列汇总值及其值数量为依据；确定出现在第二中间结果集中同一分组的数据对应的目标数据表之间存在交集，并根据表名编码列汇总值及数量计算目标数据表之间交集数量以及交集数据；确定出现在第一中间结果集中，但并未出现在第二中间结果集同一分组中的数据对应的目标数据表之间存在差集，并根据表名编码列汇总值及数量数量计算出目标数据表之间
差集数量以及差集数据。
[0049]
在本发明实施例中，结果处理模块550确认目标数据表之间交集关系时，具体包括：确定出现在第二中间结果集中同一分组的目标数据表之间存在交集；针对第二中间结果集中的所有分组逐次统计并汇总在同一分组中的数据对应的目标数据表；结合第二中间结果集中包含的分组数量，计算得出两个或者两个以上的目标数据表之间的交集数量；并将出现在同一分组的数据作为目标数据表之间的交集数据。
[0050]
在本发明实施例中，结果处理模块550确认目标数据表之间差集关系时，具体包括：确定出现在第一中间结果集中，但并未出现在第二中间结果集同一分组中的数据对应的目标数据表之间存在差集；针对第二中间结果集中的所有分组逐次统计并汇总不在同一分组中的数据对应的目标数据表；结合第二中间结果集中包含的分组数量，计算得出两个或者两个以上的目标数据表之间的差集数量；并将未出现在同一分组的数据作为目标数据表之间的差集数据。
[0051]
具体的，确定目标数据表之间存在交集的依据主要是因为第二中间结果集中的数据均是基于目标字段进行分组的，那么处于同一分组的数据所属的目标数据表之间必然存在相关联的数据，逐个分组且逐个数据进行分析之后，就可以计算出交集的数量，并且该数据就可以作为目标数据表之间的交集数据。如果数据不存在同一个分组之中，则说明他们之间没有关联，即没有交集，则同理的，可以计算出差集数量以及差集数据，在此不做进一步的详细描述，本领域技术人员可以根据实际情况进行简单的调整。
[0052]
本发明实施例提供的一种数据交叉分析装置通过对目标数据表进行标识，然后通过对目标字段统计追踪，进行分组分析，能够一次性得到多个目标数据表之间的交集、差集等分析结果，极大地提高分析的效率。
[0053]
实施例三在一个实施例中，提出了一种计算机设备，计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取需要进行分析的所有目标数据表，并对目标数据表增设对应的表名编码列；根据预设的第一筛选条件对目标数据表进行筛选，确定含有需要进行分析的目标字段的数据，并根据目标字段对所有目标数据表的数据进行合并，形成第一中间结果集；将第一中间结果集的数据按照目标字段进行分组并对表名编码列值进行统计汇总，形成第二中间结果集；对第二中间结果集的各个分组的表名编码列的汇总值进行统计汇总，统计各个分组的各类表名编码列汇总值及其数量，形成最终结果集；根据最终结果集中统计得到的各个分组的各类表名编码列汇总值及其数量，确定所有目标数据表之间的交集和/或差集关系。
[0054]
图6示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是独立的物理服务器或终端，也可以是多个物理服务器构成的服务器集群，可以是提供云服务器、云数据库、云存储和cdn等基础云计算服务的云服务器。还可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。如图6所示，该计算机设备包括该计算机设备包括通过系统总线链接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现数据交叉分析方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行数据交叉分析方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
[0055]
本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。实施例四在一个实施例中，提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：获取需要进行分析的所有目标数据表，并对目标数据表增设对应的表名编码列；根据预设的第一筛选条件对目标数据表进行筛选，确定含有需要进行分析的目标字段的数据，并根据目标字段对所有目标数据表的数据进行合并，形成第一中间结果集；将第一中间结果集的数据按照目标字段进行分组并对表名编码列值进行统计汇总，形成第二中间结果集；对第二中间结果集的各个分组的表名编码列的汇总值进行统计汇总，统计各个分组的各类表名编码列汇总值及其数量，形成最终结果集；根据最终结果集中统计得到的各个分组的各类表名编码列汇总值及其数量，确定所有目标数据表之间的交集和/或差集关系。
[0056]
应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（rom）、可编程rom（prom）、电可编程rom（eprom）、电可擦除可编程rom（eeprom）或闪存。易失性存储器可包括随机存取存储器（ram）
或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram（sram）、动态ram（dram）、同步dram（sdram）、双数据率sdram（ddrsdram）、增强型sdram（esdram）、同步链路（synchlink） dram（sldram）、存储器总线（rambus）直接ram（rdram）、直接存储器总线动态ram（drdram）、以及存储器总线动态ram（rdram）等。
[0057]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0058]
以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：沈红程;李晓辉;许琮浩
技术所有人：杭州城市大数据运营有限公司杭州中云数据科技有限公司
我是此专利的发明人

上一篇：壳体组件、制备方法和电子设备与流程
上一篇：高精度径向孔加工装置及加工方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。