适用于异构数据的数据处理方法及系统与流程

文档序号:31714708发布日期:2022-10-04 21:18阅读:297来源:国知局
适用于异构数据的数据处理方法及系统与流程

1.本发明涉及数据处理技术领域,尤其涉及一种适用于异构数据的数据处理方法及系统。


背景技术:

2.异构数据是具有差异结构的数据,在生产生活过程中,会具有很多不同的异构数据源,例如文件、关系型数据库、非关系型数据库、web接口等。
3.以异构数据源是文件为例,不同数据库的主体所存储的相关文件可能具有不同的数据结构,在需要将多个不同数据库的主体的异构数据按照统一形式进行访问、整合时,需要将异构数据进行统一的处理,现有技术中,还无法根据异构数据的属性不同,对多种异构数据进行快速的处理。


技术实现要素:

4.本发明实施例提供一种适用于异构数据的数据处理方法及系统,在需要将多个不同数据库的主体的异构数据按照统一形式进行整合时,可以根据异构数据的属性不同,对多种异构数据进行快速的处理。
5.本发明实施例的第一方面,提供一种适用于异构数据的数据处理方法,包括:提取异构数据处理请求中的异构数据采集目标和目标生成格式,根据所述异构数据采集目标确定多个异构数据源,提取每个异构数据源中相应第一异构文件的第一数据格式;获取所述目标生成格式中的目标维度集合,将每个第一数据格式的第一维度集合与目标维度集合进行比对,确定与目标维度集合相似度最高的第一维度集合为第二维度集合;将所述目标维度集合与所述第二维度集合进行比对,得到第一维度差异集合,将第二维度集合对应的第一数据格式作为第二数据格式,根据第一维度差异集合对第二数据格式所对应的第二异构文件进行处理,得到第三异构文件;根据所述第一维度差异集合依次遍历第一异构文件相应的目标信息添加至第三异构文件内,并对第三异构文件和第一维度差异集合持续更新,在判断第一维度差异集合为空集后,判断当前的第三异构文件为目标生成格式的融合输出文件。
6.可选地,在第一方面的一种可能实现方式中,所述获取所述目标生成格式中的目标维度集合,将每个第一数据格式的第一维度集合与目标维度集合进行比对,确定与目标维度集合相似度最高的第一维度集合为第二维度集合,包括:统计所有异构数据源的第一数据格式所包括的维度得到总维度信息,对所述总维度信息进行显示,根据用户输入的选择信息在总维度信息内选择至少一个维度生成目标维度集合;将每个第一维度集合内包括的第一维度与目标维度集合内的目标维度进行比对,
确定每一个第一维度集合与目标维度集合的相同维度数量、差异维度数量;根据所述第一维度集合的第一维度数量、目标维度集合的目标维度数量、相同维度数量以及差异维度数量进行计算,得到第一维度集合与目标维度集合的相似度量化值;确定与目标维度集合相似度量化值最高的第一维度集合为第二维度集合。
7.可选地,在第一方面的一种可能实现方式中,还包括:确定与目标维度集合相似度量化值为0的第一维度集合为第三维度集合,对所述第三维度集合对应的异构数据源、第三维度进行显示;若判断用户选择至少一个第三维度,则将所选中的第三维度作为目标维度添加至目标维度集合;若判断用户不选择第三维度,则将所述异构数据源转化为非确定的异构数据源。
8.可选地,在第一方面的一种可能实现方式中,所述根据所述第一维度集合的第一维度数量、目标维度集合的目标维度数量、相同维度数量以及差异维度数量进行计算,得到第一维度集合与目标维度集合的相似度量化值,包括:根据所述第一维度数量、目标维度集合的目标维度数量、相同维度数量进行计算得到相似数量占比,根据所述第一维度数量、目标维度集合的目标维度数量、差异维度数量进行计算得到差异数量占比;分别对所述相似数量占比和差异数量占比进行加权计算,得到相似度量化值,通过以下公式计算相似度量化值,化值,其中, 为第个第一维度集合与目标维度集合的相似度量化值,为相同维度数量,为第个第一维度集合的第一维度数量,为目标维度集合的目标维度数量,为相同数量权重值,为差异维度数量,为差异数量权重值。
9.可选地,在第一方面的一种可能实现方式中,还包括:对自动确定的第二维度集合进行显示,若判断用户主动将其中一个第一维度集合调整为第二维度集合,且将主动将自动确定的第二维度集合调整为第一维度集合;则提取被调整的第一维度集合中的第一相同维度数量、第一差异维度数量,被调整的第二维度集合中的第二相同维度数量、第二差异维度数量;若所述第一相同维度数量大于所述第二相同维度数量、第一差异维度数量大于所述第二差异维度数量,则对所述相同数量权重值进行正向调整;若所述第一相同维度数量小于所述第二相同维度数量、第一差异维度数量小于所述第二差异维度数量,则对所述差异数量权重值进行负向调整;通过以下公式计算调整后的相同数量权重值和差异数量权重值,
其中,为调整后的相同数量权重值,为正向调整基数,为第一调整常数,为正向调整次数,为调整后的差异数量权重值,为负向调整基数,为第二调整常数,为负向调整次数。
10.可选地,在第一方面的一种可能实现方式中,所述将所述目标维度集合与所述第二维度集合进行比对,得到第一维度差异集合,将第二维度集合对应的第一数据格式作为第二数据格式,根据第一维度差异集合对第二数据格式所对应的第二异构文件进行处理,得到第三异构文件,包括:将所述目标维度集合与所述第二维度集合进行比对得到第一维度差异集合,所述第一维度差异集合包括第一差异子集合和第二差异子集合,所述第一差异子集合内具有第一差异维度,所述第二差异子集合具有第二差异维度;所述第一差异维度为第二维度集合中具有、目标维度集合中不具有的维度,所述第二差异维度为目标维度集合中具有、第二维度集合中不具有的维度;将第二异构文件内与第一差异维度相应的维度项及信息删除;根据所述第二差异维度在所述第二异构文件内建立相应的维度项,得到第三异构文件。
11.可选地,在第一方面的一种可能实现方式中,所述根据所述第二差异维度在所述第二异构文件内建立相应的维度项,得到第三异构文件,包括:若判断用户输入主体选择指令,则确定所述第三异构文件所对应的所有维度主体,对所述维度主体按照第一预设显示方式进行放大显示;建立与所述第三异构文件所对应的透视选择叠加层,确定透视选择叠加层中与每个维度主体相对应的图层区域,获取相对应的图层区域的图层轮廓,对所述图层轮廓对应的像素点按照预设像素值进行显示;对用户在图层区域中的触发痕迹进行统计,获取每一个被触发的图层区域的触发痕迹占比,将触发痕迹占比大于预设占比的图层区域对应的维度主体进行选定,作为第三异构文件中保留的维度主体。
12.可选地,在第一方面的一种可能实现方式中,所述建立与所述第三异构文件所对应的透视选择叠加层,确定透视选择叠加层中与每个维度主体相对应的图层区域,获取相对应的图层区域的图层轮廓,对所述图层轮廓对应的像素点按照预设像素值进行显示,包括:对所述第三异构文件进行图像化处理得到第三异构图像,在所述第三异构图像的上部叠加透视选择叠加层;对所述第三异构图像和透视选择叠加层进行坐标化处理,使所述第三异构图像和透视选择叠加层相对应的第一像素点和第二像素点具有相同的坐标;根据维度主体所对应的第一像素点的坐标确定相对应的图层区域,确定所述图层区域的图层轮廓,控制所述图层轮廓以预设像素值进行显示。
13.可选地,在第一方面的一种可能实现方式中,所述根据所述第一维度差异集合依
次遍历第一异构文件相应的目标信息添加至第三异构文件内,并对第三异构文件和第一维度差异集合持续更新,在判断第一维度差异集合为空集后,判断当前的第三异构文件为目标生成格式的融合输出文件,包括:根据所述第二差异维度对每一个第一异构文件进行遍历,得到第一异构文件相应的目标信息,并将所述目标信息添加至第三异构文件内,得到更新后的第三异构文件;获取当前所添加的目标信息所对应的当前添加维度,将所述当前添加维度对应的第二差异维度由所述第二差异子集合中删除,得到更新后的第二差异子集合;持续对第二差异子集合内第二差异维度的数量进行检测,在判断第二差异维度的数量为0时,则判断第一维度差异集合为空集。
14.本发明实施例的第二方面,提供一种适用于异构数据的数据处理系统,包括:提取模块,用于提取异构数据处理请求中的异构数据采集目标和目标生成格式,根据所述异构数据采集目标确定多个异构数据源,提取每个异构数据源中相应第一异构文件的第一数据格式;获取模块,用于获取所述目标生成格式中的目标维度集合,将每个第一数据格式的第一维度集合与目标维度集合进行比对,确定与目标维度集合相似度最高的第一维度集合为第二维度集合;比对模块,用于将所述目标维度集合与所述第二维度集合进行比对,得到第一维度差异集合,将第二维度集合对应的第一数据格式作为第二数据格式,根据第一维度差异集合对第二数据格式所对应的第二异构文件进行处理,得到第三异构文件;更新模块,用于根据所述第一维度差异集合依次遍历第一异构文件相应的目标信息添加至第三异构文件内,并对第三异构文件和第一维度差异集合持续更新,在判断第一维度差异集合为空集后,判断当前的第三异构文件为目标生成格式的融合输出文件。
15.有益效果:1、本方案在对所需要的数据进行整合时,会先确定异构数据源,然后得到异构数据源所对应的维度集合与目标维度集合的相似度量化值,本方案可以确定与目标维度集合相似度量化值最高的第一维度集合为第二维度集合,以相似度量化值将异构数据源分为两类,一类是基准文件,将其中无用的信息进行删除,另一类是待整合文件,将所需的信息整合添加到基准文件中,在进行数据整合时,可以降低数据处理量,并提高整合效率。本方案在需要将多个不同数据库的主体的异构数据按照统一形式进行整合时,可以根据异构数据的属性不同,对多种异构数据进行快速的处理。
16.2、本方案在计算相似度量化值时,不止是考虑了第一维度集合和第二维度集合的相同量,还考虑了第一维度集合和第二维度集合的不同量;考虑相同量是为了在整合数据时,可以减少数据的迁移量,从而减少数据处理量,考虑不同量是为了在整合数据时,可以减少数据的删除量,从而减少数据处理量;本方案综合相同量和不同量,可以综合计算处较佳的相似度,参考多方面因素,以减少数据处理量并提高整合效率;另外,本方案还依据用户主动输入的调整信息,对计算模型中的相同数量权重值和差异数量权重值进行调整,使得下次计算出的相似度量化值较为符合用户的需求。
17.3、本方案在进行数据整合时,数据一般较多,通过设置的透视选择叠加层可以对用户所选择的信息进行放大显示,供用户清晰观看。另外,本方案可以以纵坐标触发数量的
形式来较为准确的识别出用户所需要选择的区域,并且考虑到用户触发时会有一定的误差,本方案给予了用户误差的空间,在触发痕迹占比大于预设占比时才会确定相应的维度主体。
附图说明
18.图1是本发明实施例提供的一种适用于异构数据的数据处理方法的流程示意图;图2是本发明实施例提供的一种适用于异构数据的数据处理系统的结构示意图;图3是本发明实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
19.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
20.参见图1,是本发明实施例提供的一种适用于异构数据的数据处理方法的流程示意图,图1所示方法的执行主体可以是软件和/或硬件装置。本技术的执行主体可以包括但不限于以下中的至少一个:用户设备、网络设备等。其中,用户设备可以包括但不限于计算机、智能手机、个人数字助理(personal digital assistant,简称:pda)及上述提及的电子设备等。网络设备可以包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机组成的一个超级虚拟计算机。本实施例对此不做限制。包括步骤s1至步骤s4,具体如下:s1,提取异构数据处理请求中的异构数据采集目标和目标生成格式,根据所述异构数据采集目标确定多个异构数据源,提取每个异构数据源中相应第一异构文件的第一数据格式。
21.可以理解的是,当需要将多个不同数据库的主体的异构数据按照统一形式进行整合时,用户可以输入异构数据处理请求,在服务器接收到异构数据处理请求时,会对异构数据处理请求进行解析,得到异构数据处理请求中的异构数据采集目标和目标生成格式。
22.其中,异构数据采集目标可以是指需要采集数据的数据源,因此,本方案可以利用异构数据采集目标确定多个异构数据源,异构数据源例如包括文件1(例如是人事文件)、文件2(例如是财务文件)、文件3(例如是法务文件)和文件4(例如是工资文件);可以理解的是,本方案在确定了异构数据源后,可以提取每个异构数据源中相应的第一异构文件的第一数据格式,第一数据格式例如可以是指文件1(例如是人事文件)中的电话维度、住址维度、身高维度、性别维度等对应的维度信息,例如还可以是文件2(例如是财务文件)中的工资维度、纳税维度、利润维度等对应的维度信息。
23.s2,获取所述目标生成格式中的目标维度集合,将每个第一数据格式的第一维度集合与目标维度集合进行比对,确定与目标维度集合相似度最高的第一维度集合为第二维度集合。
24.本方案在确定了目标生成格式后,会得到目标生成格式中的目标维度集合,目标
维度集合例如是{电话维度、住址维度、工资维度}。
25.可以理解的是,每个数据源都具有相应第一异构文件的第一数据格式,因此会有对应的第一维度集合,例如,针对文件1(例如是人事文件),其所对应的第一维度集合可以是{电话维度、住址维度、身高维度、性别维度},针对文件2(例如是财务文件),其所对应的第一维度集合可以是{工资维度、纳税维度、利润维度}。
26.本方案在得到目标维度集合和第一维度集合后,会对目标维度集合和第一维度集合进行比对,得到相似度,然后确定与目标维度集合相似度最高的第一维度集合为第二维度集合。
27.例如,本方案通过比对后,发现文件1所对应的第一维度集合与目标维度集合相似度最高,那么,本方案会将文件1所对应的第一维度集合作为第二维度集合。
28.在一些实施例中,s2(所述获取所述目标生成格式中的目标维度集合,将每个第一数据格式的第一维度集合与目标维度集合进行比对,确定与目标维度集合相似度最高的第一维度集合为第二维度集合)包括s21-s24:s21,统计所有异构数据源的第一数据格式所包括的维度得到总维度信息,对所述总维度信息进行显示,根据用户输入的选择信息在总维度信息内选择至少一个维度生成目标维度集合。
29.示例性的,针对文件1,其总维度信息可以有10个,在统计完毕后,本方案会依据显示设备对总维度信息进行显示,用户可以通过显示设备观看到10个维度信息,用户可以从10个维度信息中选择自己所需要整合的维度的信息,例如选择10个维度信息中的{电话维度、住址维度};针对文件2,其总维度信息可以有5个,在统计完毕后,本方案会依据显示设备对总维度信息进行显示,用户可以通过显示设备观看到5个维度信息,用户可以从5个维度信息中选择自己所需要整合的维度的信息,例如选择5个维度信息中的{工资维度};最后得到目标维度集合{电话维度、住址维度、工资维度}。
30.s22,将每个第一维度集合内包括的第一维度与目标维度集合内的目标维度进行比对,确定每一个第一维度集合与目标维度集合的相同维度数量、差异维度数量。
31.例如,文件1对应的第一维度集合内包括10个第一维度,文件2对应的第一维度集合内包括5个第一维度,本方案会将文件1和文件2所对应的第一维度与目标维度集合内的目标维度进行比对,确定每一个第一维度集合与目标维度集合的相同维度数量、差异维度数量。
32.s23,根据所述第一维度集合的第一维度数量、目标维度集合的目标维度数量、相同维度数量以及差异维度数量进行计算,得到第一维度集合与目标维度集合的相似度量化值。
33.在一些实施例中,s23(所述根据所述第一维度集合的第一维度数量、目标维度集合的目标维度数量、相同维度数量以及差异维度数量进行计算,得到第一维度集合与目标维度集合的相似度量化值)包括s231
‑ꢀ
s232:s231,根据所述第一维度数量、目标维度集合的目标维度数量、相同维度数量进行计算得到相似数量占比,根据所述第一维度数量、目标维度集合的目标维度数量、差异维度数量进行计算得到差异数量占比。
34.本方案会得到第一维度数量、目标维度集合的目标维度数量、相同维度数量进行
计算得到相似数量占比;得到第一维度数量、目标维度集合的目标维度数量、差异维度数量进行计算得到差异数量占比。
35.s232,分别对所述相似数量占比和差异数量占比进行加权计算,得到相似度量化值,通过以下公式计算相似度量化值,化值,其中,为第个第一维度集合与目标维度集合的相似度量化值,为相同维度数量,为第个第一维度集合的第一维度数量,为目标维度集合的目标维度数量,为相同数量权重值,为差异维度数量,为差异数量权重值。
36.上述公式中,代表第个第一维度集合的第一维度数量与目标维度集合的目标维度数量的和,代表相似数量占比,相同维度数量越大,所对应的相似数量占比也就越大;代表差异数量占比,差异维度数量越大,对应的差异数量占比也就越大;最后,依据相同数量权重值和差异数量权重值,综合计算出相似度量化值。其中,当第个第一维度集合与目标维度集合的相似度量化值小于0时,本方案可以给予一个固定值,例如可以是0。
37.需要说明的是,上述公式中的相同数量权重值大于差异数量权重值,目的是为了提高相似数量占比维度的比重,提高相似数量占比维度的参考量。
38.需要说明的是,本方案不止是考虑了第一维度集合和第二维度集合的相同量,还考虑了第一维度集合和第二维度集合的不同量;考虑相同量是为了在整合数据时,可以减少数据的迁移量,从而减少数据处理量,考虑不同量是为了在整合数据时,可以减少数据的删除量,从而减少数据处理量;本方案综合相同量和不同量,可以综合计算处较佳的相似度,参考多方面因素,以减少数据处理量并提高整合效率。
39.s24,确定与目标维度集合相似度量化值最高的第一维度集合为第二维度集合。
40.可以理解的是,在得到与目标维度集合相似度量化值后,本方案可以确定与目标维度集合相似度量化值最高的第一维度集合为第二维度集合。在进行数据整合时,可以降低数据处理量,并提高整合效率。
41.在上述实施例的基础上,本方案还包括s25
‑ꢀ
s27:s25,确定与目标维度集合相似度量化值为0的第一维度集合为第三维度集合,对所述第三维度集合对应的异构数据源、第三维度进行显示。
42.可以理解的是,异构数据源可以有多个,对应的第一维度集合也有多个,在实际操
作中,可能会存在2种情况,一种是异构数据源确定之后,用户对相应异构数据源内的数据没有需求了,此时用户不会选择异构数据源内的数据;另一种情况是用户可能漏选了相应异构数据源内的数据。针对上述情况,相应的第一维度集合内没有与目标维度集合相同的数据,那么其所对应的目标维度集合相似度量化值为0。
43.本方案会确定与目标维度集合相似度量化值为0的第一维度集合为第三维度集合,对第三维度集合对应的异构数据源、第三维度进行显示,用户可以看到第三维度集合对应的异构数据源、第三维度。
44.s26,若判断用户选择至少一个第三维度,则将所选中的第三维度作为目标维度添加至目标维度集合。
45.可以理解的是,如果说用户漏选了,那么对用户提示后,用户可以重新选择,选择至少一个第三维度,然后将所选中的第三维度作为目标维度添加至目标维度集合,提高了目标维度集合的准确性。
46.s27,若判断用户不选择第三维度,则将所述异构数据源转化为非确定的异构数据源。
47.可以理解的是,如果用户发现没有漏选,而是确实不想选择对应的第三维度,那么本方案会将异构数据源转化为非确定的异构数据源。
48.在上述实施例的基础上,本方案还包括s281-s284:s281,对自动确定的第二维度集合进行显示,若判断用户主动将其中一个第一维度集合调整为第二维度集合,且将主动将自动确定的第二维度集合调整为第一维度集合。
49.可以理解的是,本方案在得到自动确定的第二维度集合后,会对第二维度集合进行显示,用户如果觉得自动得到的第二维度集合不符合需求,用户会主动将其中一个第一维度集合调整为第二维度集合,且将主动将自动确定的第二维度集合调整为第一维度集合。
50.示例性的,以第一维度集合1和第一维度集合2为例,经过上述实施例中相似度的计算后,计算出的第一维度集合1的相似度量化值大于第一维度集合2的相似度量化值,那么本方案会自动将第一维度集合1确定为第二维度集合,第一维度集合2为第一维度集合。然而,用户觉得自动得到的第二维度集合不符合需求,用户会主动将第一维度集合2调整为第二维度集合,将第一维度集合1调整为第一维度集合。
51.s282,则提取被调整的第一维度集合中的第一相同维度数量、第一差异维度数量,被调整的第二维度集合中的第二相同维度数量、第二差异维度数量。
52.本方案在用户主动调整后,会得到被调整的第一维度集合中的第一相同维度数量、第一差异维度数量,被调整的第二维度集合中的第二相同维度数量、第二差异维度数量。
53.s283,若所述第一相同维度数量大于所述第二相同维度数量、第一差异维度数量大于所述第二差异维度数量,则对所述相同数量权重值进行正向调整。
54.可以理解的是,如果说第一相同维度数量大于第二相同维度数量、第一差异维度数量大于第二差异维度数量,说明用户主动选中被调整的第一维度集合原因是第一相同维度数量大于第二相同维度数量,可以理解的是,此时用户认为相同维度数量的参考维度是大于差异维度数量的,所以此时需要对相同数量权重值进行正向调整,使得在后续对相似
度量化值的计算过程中,能够以更加偏重相同维度数量的方式进行计算,使得所计算的相似度量化值更符合当前的计算场景。
55.s284,若所述第一相同维度数量小于所述第二相同维度数量、第一差异维度数量小于所述第二差异维度数量,则对所述差异数量权重值进行负向调整。
56.可以理解的是,如果说第一相同维度数量小于第二相同维度数量、第一差异维度数量小于第二差异维度数量,说明用户主动选中被调整的第一维度集合原因是第一差异维度数量大于第二差异维度数量,可以理解的是,此时用户认为差异维度数量的参考维度是大于相同维度数量的,所以此时需要对差异数量权重值进行正向调整,使得在后续对相似度量化值的计算过程中,能够以更加偏重差异维度数量的方式进行计算,使得所计算的相似度量化值更符合当前的计算场景。
57.通过以下公式计算调整后的相同数量权重值和差异数量权重值,重值和差异数量权重值,其中,为调整后的相同数量权重值,为正向调整基数,为第一调整常数,为正向调整次数,为调整后的差异数量权重值,为负向调整基数,为第二调整常数,为负向调整次数。
58.上述公式中,代表正向调整幅度,对相同数量权重值进行正向调整,使得相同数量权重值变大;代表负向调整幅度,对差异数量权重值进行负向调整,使得差异数量权重值变小。在实际的应用场景中,对相同数量权重值或差异数量权重值的调整次数可能为多次,所以随着调整次数的增多,调整幅度逐渐的减小,避免因为调整次数过多而使得调整后的相同数量权重值或差异数量权重值,与初始时的相同数量权重值和差异数量权重值差异较大。使得本发明在对相同数量权重值和差异数量权重值调整时是逐渐放缓的,进而避免多次调整后所得到的相同数量权重值和差异数量权重值过大或过小,保障所计算的相似度量化值的准确性。
59.s3,将所述目标维度集合与所述第二维度集合进行比对,得到第一维度差异集合,将第二维度集合对应的第一数据格式作为第二数据格式,根据第一维度差异集合对第二数据格式所对应的第二异构文件进行处理,得到第三异构文件。
60.本方案在得到第二维度集合后,会将目标维度集合与第二维度集合进行比对,得到第一维度差异集合。
61.本方案会将第二维度集合对应的第一数据格式作为第二数据格式,然后利用第一维度差异集合对第二数据格式所对应的第二异构文件进行处理,得到第三异构文件。
62.在一些实施例中,s3(所述将所述目标维度集合与所述第二维度集合进行比对,得到第一维度差异集合,将第二维度集合对应的第一数据格式作为第二数据格式,根据第一
维度差异集合对第二数据格式所对应的第二异构文件进行处理,得到第三异构文件)包括s31
‑ꢀ
s34:s31,将所述目标维度集合与所述第二维度集合进行比对得到第一维度差异集合,所述第一维度差异集合包括第一差异子集合和第二差异子集合,所述第一差异子集合内具有第一差异维度,所述第二差异子集合具有第二差异维度。
63.本方案会首先将目标维度集合与第二维度集合进行比对,得到差异结果,然后利用差异结果得到第一维度差异集合。本方案的第一维度差异集合包括第一差异子集合和第二差异子集合。
64.s32,所述第一差异维度为第二维度集合中具有、目标维度集合中不具有的维度,所述第二差异维度为目标维度集合中具有、第二维度集合中不具有的维度。
65.其中,第一差异子集合对应多个第一差异维度,第一差异维度为第二维度集合中具有,但是目标维度集合中不具有的维度;第二差异子集合对应多个第二差异维度,第二差异维度为目标维度集合中具有、第二维度集合中不具有的维度。
66.可以理解的是,本方案会分别以第二维度集合和目标维度集合为基准,找到相应的差异维度,来确定出相应的第一差异子集合和第二差异子集合。
67.s33,将第二异构文件内与第一差异维度相应的维度项及信息删除。
68.可以理解的是,第一差异维度为第二维度集合中具有,但是目标维度集合中不具有的维度,在整合数据时,第一差异维度所对应的数据是用户不需要的数据,因此需要将第二异构文件内与第一差异维度相应的维度项及信息删除,去除无用信息。
69.s34,根据所述第二差异维度在所述第二异构文件内建立相应的维度项,得到第三异构文件。
70.可以理解的是,第二差异维度是目标维度集合中具有、第二维度集合中不具有的维度,即第二差异维度是整合数据时所需要的数据,但是第二维度集合没有,因此,本方案会在第二异构文件内建立与第二差异维度相应的维度项,得到得到第三异构文件。
71.其中,在第二异构文件内建立与第二差异维度相应的维度项,以excel表格为例,维度项可以是建立一个横向维度的栏目,例如是对应工资维度栏目。后续查询到的工资数据,可以相应的填写到对应的工资维度栏目内。
72.在一些实施例中,s34(所述根据所述第二差异维度在所述第二异构文件内建立相应的维度项,得到第三异构文件)包括s341
‑ꢀ
s343:s341,若判断用户输入主体选择指令,则确定所述第三异构文件所对应的所有维度主体,对所述维度主体按照第一预设显示方式进行放大显示。
73.可以理解的是,本方案的用户可以输入主体选择指令,服务器响应主体选择指令,会确定第三异构文件所对应的所有维度主体,对维度主体按照第一预设显示方式进行放大显示。
74.需要说明的是,在进行数据整合时,数据一般较多,本方案通过上述方式可以对用户所选择的信息进行放大显示,供用户清晰观看。
75.s342,建立与所述第三异构文件所对应的透视选择叠加层,确定透视选择叠加层中与每个维度主体相对应的图层区域,获取相对应的图层区域的图层轮廓,对所述图层轮廓对应的像素点按照预设像素值进行显示;
本方案设置有透视选择叠加层,透视选择叠加层与第三异构文件相对应,例如,透视选择叠加层可以覆盖在第三异构文件上方,但是不影响用户对第三异构文件内容的观看。其中,透视选择叠加层可以是以软件或者app的形式预先设置在服务器内,响应用户的调用指令进行显示,且透视选择叠加层的位置和覆盖区域可以供用户调整,以用户所需的方式覆盖在第三异构文件上方。
76.需要说明的是,本方案的透视选择叠加层中与每个维度主体都有相对应的图层区域,例如,电话维度对应一个图层区域,住址维度对应一个区域,每个图层区域都有相对应的图层轮廓,本方案会对图层轮廓对应的像素点按照预设像素值进行显示。
77.在一些实施例中,s342(所述建立与所述第三异构文件所对应的透视选择叠加层,确定透视选择叠加层中与每个维度主体相对应的图层区域,获取相对应的图层区域的图层轮廓,对所述图层轮廓对应的像素点按照预设像素值进行显示)包括s3421
‑ꢀ
s3423:s3421,对所述第三异构文件进行图像化处理得到第三异构图像,在所述第三异构图像的上部叠加透视选择叠加层。
78.首先,本方案会对第三异构文件进行格式转换,将其转换为图像,例如转换为pdf的形式,以得到所需要的第三异构图像,然后,本方案会在第三异构图像的上部叠加透视选择叠加层。
79.s3422,对所述第三异构图像和透视选择叠加层进行坐标化处理,使所述第三异构图像和透视选择叠加层相对应的第一像素点和第二像素点具有相同的坐标。
80.本方案会对第三异构图像和透视选择叠加层进行坐标化处理,使第三异构图像和透视选择叠加层相对应的第一像素点和第二像素点具有相同的坐标。可以理解的是,本方案通过坐标的形式,使得第三异构图像和透视选择叠加层相对应。
81.s3423,根据维度主体所对应的第一像素点的坐标确定相对应的图层区域,确定所述图层区域的图层轮廓,控制所述图层轮廓以预设像素值进行显示。
82.本方案会依据维度主体所对应的第一像素点的坐标确定相对应的图层区域,在确定图层区域后,确定图层区域的图层轮廓,之后控制图层轮廓以预设像素值进行显示。例如,可以控制图层轮廓以黄色所对应的像素值进行醒目显示。
83.s343,对用户在图层区域中的触发痕迹进行统计,获取每一个被触发的图层区域的触发痕迹占比,将触发痕迹占比大于预设占比的图层区域对应的维度主体进行选定,作为第三异构文件中保留的维度主体。
84.本方案会实时采集用户对图层区域的触发操作,得到用户的触发痕迹,然后获取每一个被触发的图层区域的触发痕迹占比,将触发痕迹占比大于预设占比(例如大于60%)的图层区域对应的维度主体进行选定,作为第三异构文件中保留的维度主体。
85.在一些实施例中,s343(所述对用户在图层区域中的触发痕迹进行统计,获取每一个被触发的图层区域的触发痕迹占比,将触发痕迹占比大于预设占比的图层区域对应的维度主体进行选定,作为第三异构文件中保留的维度主体)包括s3431
‑ꢀ
s3432:s3431,统计每一个被触发的图层区域内像素点的纵坐标得到纵坐标触发数量。
86.示例性的,维度主体所对应的信息是横向的,本方案以用户从上往下滑动为例,形成一个由上之下的触发痕迹,本方案会实时采集每一个被触发的图层区域内像素点的纵坐标得到纵坐标触发数量。
87.s3432,根据所述纵坐标触发数量、纵坐标总数量进行计算得到触发痕迹占比,将触发痕迹占比大于预设占比的图层区域对应的维度主体进行选定。
88.本方案得到纵坐标触发数量和纵坐标总数量后,可以依据纵坐标触发数量和纵坐标总数量来计算出触发痕迹占比,将触发痕迹占比大于预设占比(例如大于60%)的图层区域对应的维度主体进行选定。
89.本方案通过上述方式,可以以纵坐标触发数量的形式来较为准确的识别出用户所需要选择的区域,并且考虑到用户触发时会有一定的误差,本方案给予了用户误差的空间,在触发痕迹占比大于预设占比时才会确定相应的维度主体。
90.s4,根据所述第一维度差异集合依次遍历第一异构文件相应的目标信息添加至第三异构文件内,并对第三异构文件和第一维度差异集合持续更新,在判断第一维度差异集合为空集后,判断当前的第三异构文件为目标生成格式的融合输出文件。
91.本方案在得到第三异构文件后,需要将第一维度差异集合所对应的信息整合到第三异构文件中去,因此,本方案会利用第一维度差异集合依次遍历第一异构文件相应的目标信息添加至第三异构文件内,同时,本方案还会对第三异构文件和第一维度差异集合持续更新,在判断第一维度差异集合为空集后,说明数据整合完毕,本方案会判断当前的第三异构文件为目标生成格式的融合输出文件。
92.在一些实施例中,s4(所述根据所述第一维度差异集合依次遍历第一异构文件相应的目标信息添加至第三异构文件内,并对第三异构文件和第一维度差异集合持续更新,在判断第一维度差异集合为空集后,判断当前的第三异构文件为目标生成格式的融合输出文件)包括s41-s43:s41,根据所述第二差异维度对每一个第一异构文件进行遍历,得到第一异构文件相应的目标信息,并将所述目标信息添加至第三异构文件内,得到更新后的第三异构文件。
93.本方案会利用第二差异维度对每一个第一异构文件进行遍历,得到第一异构文件相应的目标信息,并将目标信息添加至第三异构文件内,得到更新后的第三异构文件。
94.s42,获取当前所添加的目标信息所对应的当前添加维度,将所述当前添加维度对应的第二差异维度由所述第二差异子集合中删除,得到更新后的第二差异子集合。
95.在得到需要添加的目标信息后,本方案会确定需要添加的目标信息的当前添加维度,然后将当前添加维度对应的第二差异维度由第二差异子集合中删除,得到更新后的第二差异子集合。
96.s43,持续对第二差异子集合内第二差异维度的数量进行检测,在判断第二差异维度的数量为0时,则判断第一维度差异集合为空集。
97.可以理解的是,本方案会持续对第二差异子集合内第二差异维度的数量进行检测,在判断第二差异维度的数量为0时,则判断第一维度差异集合为空集,在判断第一维度差异集合为空集后,说明数据整合完毕,本方案会判断当前的第三异构文件为目标生成格式的融合输出文件。
98.参见图2,是本发明实施例提供的一种适用于异构数据的数据处理系统的结构示意图,该适用于异构数据的数据处理系统包括:提取模块,用于提取异构数据处理请求中的异构数据采集目标和目标生成格式,根据所述异构数据采集目标确定多个异构数据源,提取每个异构数据源中相应第一异构文
件的第一数据格式;获取模块,用于获取所述目标生成格式中的目标维度集合,将每个第一数据格式的第一维度集合与目标维度集合进行比对,确定与目标维度集合相似度最高的第一维度集合为第二维度集合;比对模块,用于将所述目标维度集合与所述第二维度集合进行比对,得到第一维度差异集合,将第二维度集合对应的第一数据格式作为第二数据格式,根据第一维度差异集合对第二数据格式所对应的第二异构文件进行处理,得到第三异构文件;更新模块,用于根据所述第一维度差异集合依次遍历第一异构文件相应的目标信息添加至第三异构文件内,并对第三异构文件和第一维度差异集合持续更新,在判断第一维度差异集合为空集后,判断当前的第三异构文件为目标生成格式的融合输出文件。
99.图2所示实施例的装置对应地可用于执行图1所示方法实施例中的步骤,其实现原理和技术效果类似,此处不再赘述。
100.参见图3,是本发明实施例提供的一种电子设备的硬件结构示意图,该电子设备30包括:处理器31、存储器32和计算机程序;其中存储器32,用于存储所述计算机程序,该存储器还可以是闪存(flash)。所述计算机程序例如是实现上述方法的应用程序、功能模块等。
101.处理器31,用于执行所述存储器存储的计算机程序,以实现上述方法中设备执行的各个步骤。具体可以参见前面方法实施例中的相关描述。
102.可选地,存储器32既可以是独立的,也可以跟处理器31集成在一起。
103.当所述存储器32是独立于处理器31之外的器件时,所述设备还可以包括:总线33,用于连接所述存储器32和处理器31。
104.本发明还提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。
105.其中,可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(application specific integrated circuits,简称:asic)中。另外,该asic可以位于用户设备中。当然,处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(rom)、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
106.本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。
107.在上述设备的实施例中,应理解,处理器可以是中央处理单元(英文:central processing unit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digital signal processor,简称:dsp)、专用集成电路(英文:application specific integrated circuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处
理器中的硬件及软件模块组合执行完成。
108.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1