一种大数据量的数据稽核方法和电子设备与流程

文档序号:34107738发布日期:2023-05-10 20:56阅读:118来源:国知局
一种大数据量的数据稽核方法和电子设备与流程

本技术涉及大数据处理领域,尤其涉及一种大数据量的数据稽核方法和电子设备。


背景技术:

1、数据集成,就是将分散的数据库中的数据,逻辑地或物理地集成到一个数据集合中。在数据集成过程中,需要保证数据库在集成前后的数据一致性。如果数据集成后与集成前差异较大,会导致数据不准确,带来严重问题。例如,实时集成场景中,数据集成的误差可能导致实时大屏数据失真,无法很好地提供数据支持。例如,离线集成场景中,数据集成的误差可能导致后续更大数量级的数据计算引入误差,极大浪费计算资源。如何快速准确地对比出集成后数据与集成前数据之间的差异,是一个需要解决的问题。


技术实现思路

1、本技术实施例提供一种大数据量的数据稽核方法和电子设备,能够快速地对大数据量的数据文件进行行级稽核,快速得到准确的数据差异。

2、为达到上述目的,本技术的实施例采用如下技术方案:

3、第一方面,提供了一种大数据量的数据稽核方法,该方法包括:获取待比较的第一文件和第二文件;分别对第一文件和第二文件进行数据抽取,获取第一文件对应的第一数据和第二文件对应的第二数据。分别对第一数据和第二数据中每一条数据进行字段拼接,生成第一数据和第二数据中每一条数据的拼接字段;并生成第一数据和第二数据中每一条数据的拼接字段对应的身份编码,用于唯一标识一个拼接字段;为第一数据对应的拼接字段赋第一标志位,为第二数据对应的拼接字段赋第二标志位,第一标志位与第二标志位为相反的两个数,第一标志位与第二标志位之和为0。根据第一数据中每一条数据对应的身份编码、对应的拼接字段和第一标志位生成第一数据中每一条数据的拼接数据;根据第二数据中每一条数据对应的身份编码、对应的拼接字段和第二标志位生成第二数据中每一条数据的拼接数据;将根据第一数据生成的拼接数据和根据第二数据生成的拼接数据合并入结果文件;其中,在合并入结果文件过程中,身份编码相同且标志位之和为0的拼接数据被删除;这样,结果文件仅包括第一文件和第二文件的差异数据。其中,差异数据的标志位为第一标志位,表示该条数据存在于第一文件且不存在于第二文件;差异数据的标志位为第二标志位,表示该条数据存在于第二文件且不存在于第一文件。

4、在该方法中,为待比较的第一文件和第二文件中每一行数据赋予身份编码,并为第一文件中的行数据和第二文件中的行数据分别设置相反的标志位。这样,将第一文件和第二文件中拼接后的数据进行合并后,第一文件和第二文件中相同的数据就会被抵消,剩余的数据即为第一文件和第二文件的差异数据。该方法可以快速获取两个大数据量文件的行级差异,提高了数据稽核的准确性。

5、基于第一方面,在一种可能的实施方式中,将根据第一数据生成的拼接数据和根据第二数据生成的拼接数据合并入结果文件时,将身份编码相同且标志位相同的拼接数据合并为一条拼接数据。这样,如果同样的差异数据在第一文件或第二文件中出现多次,可以在结果文件中用一行数据进行显示;根据结果文件中一行数据就能够清晰地看出差异数据在一个文件中出现的次数,并且减少了结果文件中的数据量,更方便查看。

6、基于第一方面,在一种可能的实施方式中,身份编码为一条数据的拼接字段的校验和;比如crc32。这样就能实现唯一标识拼接字段。

7、基于第一方面,在一种可能的实施方式中,对第一文件进行数据抽取,获取第一数据,包括:读取第一文件中每一条数据的全部字段,获取第一数据;对第二文件进行数据抽取,获取第二数据,包括:读取第二文件中每一条数据的全部字段,获取第二数据。

8、基于第一方面,在另一种可能的实施方式中,对第一文件进行数据抽取,获取第一数据,包括:读取第一文件中每一条数据的部分字段,获取第一数据;对第二文件进行数据抽取,获取第二数据,包括:读取第二文件中每一条数据的部分字段,获取第二数据。

9、也就是说,可以根据关键的字段进行数据稽核,去除冗余信息,提高数据稽核的速率。

10、基于第一方面,在一种可能的实施方式中,对第一文件进行数据抽取,获取第一数据,包括:多次抽取第一文件中的数据;其中,每次抽取第一文件中n行数据,获取一组第一数据。对第二文件进行数据抽取,获取第二数据,包括:多次抽取第二文件中的数据;其中,每次抽取第二文件中n行数据,获取一组第二数据。其中,n大于或等于1。

11、对第一文件或第二文件进行多次抽取,一方面节约处理器计算资源,一方面可以提高处理速率。

12、基于第一方面,在一种可能的实施方式中,将根据第一数据生成的拼接数据和根据第二数据生成的拼接数据合并入结果文件,包括:根据第一数据生成的拼接数据生成第一临时文件;根据第二数据生成的拼接数据生成第二临时文件;根据第一临时文件和第二临时文件生成结果文件。

13、其中,根据第一临时文件和第二临时文件生成结果文件,包括:依次将第一临时文件和第二临时文件中的拼接数据写入至少一个中间文件;其中,每次将一个第一临时文件或一个第二临时文件写入中间文件后,中间文件中身份编码相同且标志位之和为0的拼接数据被删除;根据中间文件获取结果文件。

14、基于第一方面,在一种可能的实施方式中,中间文件的名称包括中间文件中拼接数据的身份编码的最小值和最大值。这样,可以通过中间文件的名称方便地获取中间文件包含的数据的身份编码取值范围,也方便对中间文件中的数据进行排序以及对中间文件进行排序;还可以方便快速地查找中间文件;提高大数据量数据稽核的处理速率。

15、基于第一方面,在一种可能的实施方式中,不同的中间文件包含的身份编码区间不重叠。

16、基于第一方面,在一种可能的实施方式中,多个中间文件按照中间文件中包含的身份编码的大小顺序排列。

17、基于第一方面,在一种可能的实施方式中,该方法还包括:如果相邻的中间文件包含的拼接数据的总条数小于或等于预设阈值,将相邻的中间文件合并为一个中间文件。如果中间文件包含的拼接数据的条数大于预设阈值,将中间文件拆分为多个中间文件,使得拆分后的每个中间文件包含的拼接数据的条数小于或等于预设阈值。这样的话,一个中间文件包括的数据行数不会过于多或过于少,可以提高在中间文件中插入数据时查找相应中间文件的速度,也提高了数据稽核的整体速率。

18、基于第一方面,在一种可能的实施方式中,中间文件中的拼接数据按照身份编码的大小顺序排列。

19、基于第一方面,在一种可能的实施方式中,一条数据为一行数据,可以进行第一文件和第二文件的行级数据稽核。

20、基于第一方面,在一种可能的实施方式中,第二文件是对第一文件进行数据集成生成的。

21、基于第一方面,在一种可能的实施方式中,第一标志位为1,第二标志位为-1;或者,第一标志位为-1,第二标志位为1。这样,计算简单,可以方便快速的进行稽核。

22、第二方面,提供了一种电子设备,该电子设备具有实现上述第一方面所述的方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

23、第三方面,提供了一种电子设备,包括:处理器和存储器;该存储器用于存储计算机执行指令,当该电子设备运行时,该处理器执行该存储器存储的该计算机执行指令,以使该电子设备执行如上述第一方面中任一项所述的大数据量的数据稽核方法。

24、第四方面,提供了一种电子设备,包括:处理器;所述处理器用于与存储器耦合,并读取存储器中的指令之后,根据所述指令执行如上述第一方面中任一项所述的大数据量的数据稽核方法。

25、第五方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机可以执行上述第一方面中任一项所述的大数据量的数据稽核方法。

26、第六方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机可以执行上述第一方面中任一项所述的大数据量的数据稽核方法。

27、第七方面,提供了一种装置(例如,该装置可以是芯片系统),该装置包括处理器,用于支持电子设备实现上述第一方面中所涉及的功能。在一种可能的设计中,该装置还包括存储器,该存储器,用于保存电子设备必要的程序指令和数据。该装置是芯片系统时,可以由芯片构成,也可以包含芯片和其他分立器件。

28、其中,第二方面至第七方面中任一种设计方式所带来的技术效果可参见第一方面中不同设计方式所带来的技术效果,此处不再赘述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1