基于哈希并行计算快速验证电子档案文件的方法、系统、设备及介质与流程

文档序号:35379095发布日期:2023-09-09 01:42阅读:56来源:国知局
基于哈希并行计算快速验证电子档案文件的方法、系统、设备及介质与流程

本技术涉及计算机信息处理,具体涉及一种基于hash的电子档案单文件包的并行计算方案。


背景技术:

1、大数据、人工智能推广中产生了大量数据文件需要整理归档,数据档案的安全性、隐私性是亟待解决的问题;无纸化办公在诸多领域广泛使用,无纸化办公产生的各种电子文件、电子数据如何进行管理、归档成为目前的问题。为解决电子文件、电子数据的保管问题,电子档案系统的应用逐步开始推广。对于如何将业务行为、办公行为等社会活动产生的电子文件、电子数据等需要归档保存的内容,完整有效的归档至电子档案,必须经过电子档案四性检测:真实性检测、完整性检测、可用性检测、安全性检测。电子档案的真实性,不仅能反应业务行为、办公行为等社会活动的真实情况,而且是电子档案具有价值的前提。在大数据广泛利用的今天,对大量数据档案的安全管理也提到重要的日程。

2、电子档案特殊的生成和保管环境使其显现出与传统纸质档案不同的技术特性。从信息的记录形式来看,电子档案是一种纯粹的数字化信息,具有易改、易逝和对计算机系统的依赖性等特点;从载体特性来看,电子档案又具有载体与信息的可分离性、信息存储的不稳定性等特点。这些技术特性使电子档案的真实性面临巨大挑战。

3、电子文件的真实性可以划分为两方面:一是文件在形成过程中的真实性;二是文件形成之后是真实的,即文件从形成到归档保存的整个生命周期中未被篡改,始终保持形成时的原始状态。电子签名和电子印章虽能在一定程度上保障电子文件形成过程中的真实性,但文件形成后,是否会被技术手段篡改,电子文件在归档和移交过程中以及在未来的保存、迁移、利用中能否保持真实性,都是目前亟待解决的问题。

4、对电子文件进行归档要求满足:归档文件真实性、有效性、完整性、可用性,归档后的数据文件无法确定数据是否被修改,通常通过计算文件哈希值验证归档文件的真实性,归档后的海量数据验证及哈希hash计算需要大量的时间,在较短的时间周期内不能完成hash值的校验过程,不能快速确定数据是否被修改,不能快速准确定位和确定海量文件中被篡改的文件。

5、现有技术对大文件的哈希计算大部分是针对一个完整的文件进行分割,将分割后的文件块进行计算。电子档案文件包是一个含有大量各种类型子文件夹和子文件的文件包,为了能够快速定位电子档案文件数据包中文件发生变动及篡改情况,每个电子档案文件哈希值以及其所属子文件夹的哈希值都与其所属的子文件夹哈希值和子文件哈希值相关,因此,不能将电子档案文件数据包中文件进行简单分割,将各个分割包的哈希计算分配到不同计算节点完成。

6、公开号cn115795560a,名称“一种跨系统查验文件完整性的方法、装置、设备及介质”,公开一种跨系统查验文件完整性的方法,旨在提供一种有效的方法来验证电子合同和电子档案的真实性,通过存储和计算哈希值来保证文件的完整性,并通过比较哈希值来检测文件是否被篡改。但没有涉及到对海量文件的哈希计算进行规划和任务调度等问题,计算时间和确定篡改文件的周期较长。

7、公开号cn111680198b,名称“基于文件分割与特征提取的档案管理系统及方法”,公开基于文件分割与特征提取的档案管理系统及方法, 通过分割文件、提取特征和建立特征树的方式,可以提升资源空间利用率和检索效率,但没有涉及任务调度,对文件进行分割计算没有考虑文件之间文件夹已子文件之间的归属关系等,不能完成文件的真实性检查以及快速准确定位篡改文件。

8、对于电子档案文件等海量文件的hash计算,可能会导致构建的命令行过长,为每个找到的结果都执行一次命令,可能会导致运行的进程过多。当数据量足够大,哈希表等数据结构会因为其内存占用过大而降低效率。


技术实现思路

1、有鉴于此,本技术针对现有技术存在的上述问题,提出一种基于哈希并行计算快速验证电子档案文件包的方法。

2、本发明解决上述问题的技术方案是,根据本技术的一个方面,提出一种基于哈希并行计算快速验证电子档案文件的方法,解析电子档案文件数据包结构,获取电子档案文件中所有的子文件夹和子文件;根据电子档案文件、子文件夹、子文件之间的依赖关系,设置hash计算任务属性,创建一系列哈希计算任务,根据层级结构将哈希计算任务进行分层,并根据计算任务类型、层级、依赖关系、文件属性编排文件和文件夹hash计算任务的执行顺序;根据执行顺序,启动线程执行哈希计算任务,计算电子档案文件数据包中全部子文件和子文件夹的hash值,根据依赖关系组合得到电子档案文件数据包hash值,验证电子档案文件是否被篡改并定位被篡改文件。

3、进一步优选,创建一系列哈希计算任务包括:分别创建文件类型计算任务组和文件夹类型计算任务组,文件类型计算任务组包含所有文件型hash计算任务,文件夹类型计算任务组包含所有文件夹型hash计算任务;所述启动线程执行哈希计算任务包括:对于相同电子档案id编号的文件及文件夹计算任务,根据线程并行启动所有文件类型hash计算任务,并行计算执行同层子文件夹hash计算任务,从电子档案文件数据包最底层逐级向上启动各层子文件夹类型hash计算任务;对于不同电子档案id编号的文件及文件夹计算任务,根据线程启动并行计算任务。

4、进一步优选,设置文件型hash计算任务属性,包含:电子档案编号id,随机生成唯一标识符作为任务id,任务id在整个电子档案文件hash计算生命周期中保持唯一,指示待计算哈希值的子文件的路径或位置的文件可访问url路径;对于每个子文件,创建一个文件型hash计算任务,并为其分配任务id和文件可访问url路径;设置子文件夹hash计算任务属性,包括:电子档案编号id,随机生成的唯一标识符作为任务id,文件夹层级,确定任务调度和执行顺序的依赖任务id,对于每个子文件夹,创建一个文件夹类型hash计算任务,并为其分配任务id和层级属性,记录该子文件夹的依赖任务id。

5、进一步优选,在创建hash计算任务时,记录子文件夹和子文件的任务标识符作为依赖关系,文件夹类型hash计算任务的依赖关系包括其所属文件夹的所有子文件夹和所有子文件的哈希值;根据文件夹的层级结构将文件夹类型计算任务进行分层,将各子文件夹下所属文件夹或者文件名首字符的utf-8编码、文件哈希顺序组装,得到其上层的文件夹hash值,直至获取电子档案文件数据包根文件hash值。

6、进一步优选,通过定时的心跳机制向工具服务器发送资源请求,获取工具服务器的cpu占用率,内存占用率,可用线程数资源信息,根据工具服务器返回的资源信息更新当前的资源情况,根据当前的资源情况和任务优先级,通过调度算法将任务分配到最佳的工具服务器上,根据任务的类型,任务的依赖关系,任务的层数结合任务的预估计算时间,任务的所属档案id综合计算任务的优先级。

7、进一步优选,多个计算任务分配给可用的计算资源进行并行处理,线性扩充可用计算资源,根据实时资源情况和任务属性,动态调度计算任务,对于需要更多时间完成的计算任务,分配较少的计算资源,需要更少时间完成的计算任务,分配较多的计算资源;提高被多个任务依赖的计算任务的优先级,降低其他计算任务依赖小的文件计算任务优先级。

8、根据本技术另一方面,提出一种基于哈希并行计算快速验证电子档案文件包的系统,包括:任务调度中心、任务执行中心、任务计算模块,任务调度中心:用于解析电子档案文件数据包结构,获取电子档案文件数据包中所有的子文件夹和子文件,根据电子档案文件数据包、子文件夹、子文件之间的依赖关系,创建一系列哈希计算任务,根据层级结构将哈希计算任务进行分层,并根据计算任务类型、层级、依赖关系、文件属性编排文件和文件夹hash计算任务的执行顺序;任务执行中心根据执行顺序,启动线程并行执行哈希计算任务,同时并发执行文件类型计算任务组,文件夹类型计算任务组中的任务根据任务的层级属性和电子档案编号顺序执行;任务计算模块,用于计算电子档案文件数据包中全部子文件和子文件夹的hash值,根据依赖关系组合得到电子档案文件数据包hash,根据电子档案文件数据包hash值验证电子档案文件是否被篡改。

9、进一步优选,创建一系列哈希计算任务包括:分别创建文件类型计算任务组和文件夹类型计算任务组,文件类型计算任务组包含所有文件型hash计算任务,文件夹类型计算任务组包含所有文件夹型hash计算任务;所述启动线程执行哈希计算任务包括:对于相同电子档案id编号的文件及文件夹计算任务,根据线程并行启动所有文件类型hash计算任务,并行计算执行同层子文件夹hash计算任务,从电子档案文件数据包最底层逐级向上启动各层子文件夹类型hash计算任务;对于不同电子档案id编号的文件及文件夹计算任务,根据线程启动并行计算任务。

10、根据本技术另一方面,提出一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上面所述的基于哈希并行计算快速验证电子档案文件包的方法。

11、根据本技术另一方面,一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上面所述的基于哈希并行计算快速验证电子档案文件包的方法。

12、本发明通过对海量电子档案文件数据分类、分层,设置不同类型哈希计算任务,自动化计算任务的创建和编排,可根据计算任务类型自动进行并行化计算,提高了电子档案文件的hash计算效率和速度,降低构建的命令行长度,减少计算运行的进程,减少内存占用,提高计算效率,快速定位被篡改和遭破坏文件,可以扩展到大规模的电子档案文件和复杂的档案结构中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1