用于对电子档案封装包进行四性检测的方法及装置与流程

文档序号:36087563发布日期:2023-11-18 04:42阅读:31来源:国知局
用于对电子档案封装包进行四性检测的方法及装置与流程

本公开的实施例涉及档案信息管理领域,具体地,涉及用于对电子档案封装包进行四性检测的方法及装置。


背景技术:

1、电子档案封装包的四性是指真实性、完整性、可用性和安全性。真实性指电子档案封装包的内容、逻辑结构和背景与形成时的原始状况相一致的性质。完整性指电子档案封装包的内容、结构和背景信息齐全且没有破坏、变异或丢失的性质。可用性指电子档案封装包可以被检索、呈现和理解的性质。安全性指电子档案封装包的管理过程可控、数据存储可靠,未被破坏、未被非法访问的性质。

2、各个单位的电子档案封装包的层级结构各不相同,因此在实践中,需要程序员针对不同的电子档案封装包设计不同的检测规则,而这些检测规则都是客制化的,因此需要的人力成本高。


技术实现思路

1、本文中描述的实施例提供了一种用于对电子档案封装包进行四性检测的方法、装置以及存储有计算机程序的计算机可读存储介质。

2、根据本公开的第一方面,提供了一种用于对电子档案封装包进行四性检测的方法。该方法包括:解析电子档案封装包的层级结构以生成对应的多叉树模型,多叉树模型中的每个节点包括电子档案封装包中的与该节点对应的数据信息,数据信息包括以下中的一个或多个:元数据信息、元数据路径信息、电子文件路径信息、电子文件实际元信息;将每个元数据信息中的字段标识与目标检测规则中的关键词进行比较,目标检测规则是根据电子档案封装包的四性检测要求确定的检测规则,关键词指示目标检测规则的检测对象;以及响应于字段标识与关键词匹配,借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则。

3、在本公开的一些实施例中,解析电子档案封装包的层级结构以生成对应的多叉树模型包括:将电子档案封装包的包目录文件与多叉树模型的根节点相关联;在包目录文件中检测数组型数据;响应于在包目录文件中检测到数组型数据,生成根节点的子节点并将数组型数据与所生成的子节点相关联;在每个子节点中包括的元数据路径信息所对应的子目录文件中检测数组型数据;以及响应于在子目录文件中检测到数组型数据,生成子节点的下一级节点并将数组型数据与所生成的下一级节点相关联。

4、在本公开的一些实施例中,借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则包括:解析目标检测规则以确定目标检测规则需使用的检测器和目标检测规则所涉及的所有字段标识;将目标检测规则所涉及的所有字段标识中的每个字段标识作为目标字段标识并执行以下操作:在多叉树模型中从根节点开始逐层查找目标字段标识;响应于在当前层中目标字段标识未被查找到,在当前层的下一层查找目标字段标识;响应于在当前层中目标字段标识对应的字段内容包括非法字符或者为空,在当前层的下一层查找目标字段标识的等效字段标识,等效字段标识对应的字段内容能够计算或者推导出目标字段标识的字段内容;响应于在多叉树模型中查找到目标字段标识,将目标字段标识和目标字段标识对应的字段内容输入所确定的检测器;以及响应于在多叉树模型中查找到等效字段标识,将等效字段标识和等效字段标识对应的字段内容输入所确定的检测器。

5、在本公开的一些实施例中,借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则还包括:响应于目标检测规则涉及对目标电子文件本身的检测,通过多叉树模型中的目标电子文件的电子文件路径信息来获取目标电子文件,并将目标电子文件输入所确定的检测器。

6、在本公开的一些实施例中,借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则还包括:响应于目标检测规则涉及对目标电子文件的实际元信息的检测,从多叉树模型中获取目标电子文件的实际元信息,并将目标电子文件的实际元信息输入所确定的检测器。

7、在本公开的一些实施例中,该方法还包括:在多叉树模型中的每个节点所包括的元数据信息中查找指示文件格式的格式字段标识;响应于查找到格式字段标识,确定格式字段标识对应的字段内容是否匹配指定文件格式;响应于格式字段标识对应的字段内容匹配指定文件格式,通过多叉树模型中的与格式字段标识相关联的电子文件路径信息来获取对应的电子文件;以及将对应的电子文件输入专门用于检测具有指定文件格式的电子文件的质量的检测器,检测器用于确定对应的电子文件的内容质量是否符合对指定文件格式的质量要求。

8、在本公开的一些实施例中,目标检测规则选自预设的通用检测规则库。通用检测规则库包括根据电子档案封装包的四性检测要求确定的多个通用检测规则。

9、在本公开的一些实施例中,关键词包括:通用检测词以及通用检测词的同义词、近义词和衍生词。

10、在本公开的一些实施例中,目标检测规则选自用户专门针对电子档案设置的检测规则列表,检测规则列表包括多个检测规则。

11、根据本公开的第二方面,提供了一种用于对电子档案封装包进行四性检测的装置。该装置包括至少一个处理器;以及存储有计算机程序的至少一个存储器。当计算机程序由至少一个处理器执行时,使得装置:解析电子档案封装包的层级结构以生成对应的多叉树模型,多叉树模型中的每个节点包括电子档案封装包中的与该节点对应的数据信息,数据信息包括以下中的一个或多个:元数据信息、元数据路径信息、电子文件路径信息、电子文件实际元信息;将每个元数据信息中的字段标识与目标检测规则中的关键词进行比较,目标检测规则是根据电子档案封装包的四性检测要求确定的检测规则,关键词指示目标检测规则的检测对象;以及响应于字段标识与关键词匹配,借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则。

12、在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得装置通过以下操作来解析电子档案封装包的层级结构以生成对应的多叉树模型:将电子档案封装包的包目录文件与多叉树模型的根节点相关联;在包目录文件中检测数组型数据;响应于在包目录文件中检测到数组型数据,生成根节点的子节点并将数组型数据与所生成的子节点相关联;在每个子节点中包括的元数据路径信息所对应的子目录文件中检测数组型数据;以及响应于在子目录文件中检测到数组型数据,生成子节点的下一级节点并将数组型数据与所生成的下一级节点相关联。

13、在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得装置通过以下操作来借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则:解析目标检测规则以确定目标检测规则需使用的检测器和目标检测规则所涉及的所有字段标识;将目标检测规则所涉及的所有字段标识中的每个字段标识作为目标字段标识并执行以下操作:在多叉树模型中从根节点开始逐层查找目标字段标识;响应于在当前层中目标字段标识未被查找到,在当前层的下一层查找目标字段标识;响应于在当前层中目标字段标识对应的字段内容包括非法字符或者为空,在当前层的下一层查找目标字段标识的等效字段标识,等效字段标识对应的字段内容能够计算或者推导出目标字段标识的字段内容;响应于在多叉树模型中查找到目标字段标识,将目标字段标识和目标字段标识对应的字段内容输入所确定的检测器;以及响应于在多叉树模型中查找到等效字段标识,将等效字段标识和等效字段标识对应的字段内容输入所确定的检测器。

14、在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得装置还通过以下操作来借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则:响应于目标检测规则涉及对目标电子文件本身的检测,通过多叉树模型中的目标电子文件的电子文件路径信息来获取目标电子文件,并将目标电子文件输入所确定的检测器。

15、在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得装置还通过以下操作来借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则:响应于目标检测规则涉及对目标电子文件的实际元信息的检测,从多叉树模型中获取目标电子文件的实际元信息,并将目标电子文件的实际元信息输入所确定的检测器。

16、在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得装置还:在多叉树模型中的每个节点所包括的元数据信息中查找指示文件格式的格式字段标识;响应于查找到格式字段标识,确定格式字段标识对应的字段内容是否匹配指定文件格式;响应于格式字段标识对应的字段内容匹配指定文件格式,通过多叉树模型中的与格式字段标识相关联的电子文件路径信息来获取对应的电子文件;以及将对应的电子文件输入专门用于检测具有指定文件格式的电子文件的质量的检测器,检测器用于确定对应的电子文件的内容质量是否符合对指定文件格式的质量要求。

17、根据本公开的第三方面,提供了一种存储有计算机程序的计算机可读存储介质,其中,计算机程序在由处理器执行时实现根据本公开的第一方面所述的方法的步骤。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1