一种数字化档案自我校验实现自动质检的方法与流程

文档序号:16250290发布日期:2018-12-11 23:57阅读:2584来源:国知局
一种数字化档案自我校验实现自动质检的方法与流程

本发明涉及数字化档案质检技术领域,具体为一种数字化档案自我校验实现自动质检的方法。

背景技术

档案数字化加工成果一般由档案目录数据和内容数据构成,对档案数字化加工成果的质量检查,一般以《纸质档案数字化技术规范》(da/t31-2005)作为主要质量检查标准,一直以来都是以人工质检作为主要的质检方法。在长期的档案数字化加工检查工作中,发现了人工质检方法存在诸多不足,为了解决这些不足,也曾使用增投人力、提升质检人员的技能、加强管理等方法,最终的成果质量也有所提升,但始终未有明显的效果,且这些人工质检方法中的弊端日益突出,经过分析总结,比较突出的问题主要有以下几个:

第一,出错率高。例如,质检人员在对目录数据进行检查时,很难发现其中的错别字,影响了档案数字化加工成果的规范性和准确性要求;又如,在对扫描结果文件进行检查时,难以发现漏页的情况,对目录与计算机文件的关联性检测,也难以识别出其中的错误,无法保证档案数字化加工成果的完整性。

第二,无法保证检查全面。仅依赖质检人员的主观自觉程度,容易出现漏检的情况,无法确保每一份材料、每一项必检目录数据都经过了检查,导致整个档案数字化加工成果的可信度低。

第三,效率低。例如,在进行页数检查时,首先必须重新数出相关的各份材料的页数,再计算出总结果,然后再统计扫描成果中的文件总页数(单页文件一个文件即为一页,多页的文件则需获取该文件的总页数),最后查看事先登记的目录页数,三个页数信息必须完全一致才能表示页数信息正确。只完成这一项的检查工作,就必须耗费大量的时间,且在检查过程中必须精力高度集中才能保证页数数据的准确,否则只能投入更多的精力用于返工检查。

第四,无法应对大量数据的检查。随着档案信息化建设的发展,需要进行数字化加工的档案数量越来越多,产生的档案数字化加工成果数量巨大,档案数字化加工量动辄上千万,仅依靠人工质检的方法,无法完成对所有档案数字化加工成果都进行质量检查的任务,只能采取抽检的方法对档案数字化加工成果进行质量检查。按照《纸质档案数字化规范》(da/t31-2005)中对数据验收的要求,一个全宗内档案的抽检比率需不低于5%,若就按5%的抽检比率进行抽检,即便抽检的所有数据都合格了,但仍然还有95%的数据未被检查过,这些数据的质量将难以保证。



技术实现要素:

本发明的目的在于提供一种数字化档案自我校验实现自动质检的方法,配置灵活,可以满足不同类型的数据校验,完全自动,而且不需要人工参与,可以对数据进行全面检查而不是抽检,完全可以应对大量数据的检查,提高了质检效率和质检质量,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种数字化档案自我校验实现自动质检的方法,包括以下步骤:

s1:设置数据存储格式,设置数据存储格式,数字化加工后的数据存储在excel表格中,将每个材料的扫描图片存储在文件夹中;

s2:设置校验参数及规则,根据质检的需求新增检测项库,提供检测项,设置界面,用户可以按照自己的需要加入检查项和删减检查项;

s3:选择待检测档案的批次,选择所挂接到客户正式数据库的ip地址和端口信息以及数据库用户信息用来检测待检测档案数据与已经入库正式数据库的数据是否重复,同时选择质检路径设置待检测档案的基础数据和扫描加工的图片数据,最后设置质检报告与异常情况的分析日志信息的输出路径;

s4:校验,根据校验的规则及参数对档案从文本、数据项和扫描图片分别进行校验;

s5:生成分析日志,通过校验过程中存在异常的数据生成详细的分析日志,用于对数据进行排查和修复;

s6:质检,步骤s5以上配置数据完成后,开始进行质检工作;

s7:软件系统检测,通过软件系统进行自动检测的项,通过对扫描图片计算的md5码与sha1码和扫描完成时的md5码与sha1码进行对比判断图片是否完整与是否被别人修改;

s8:数据判断,软件系统根据材料数据中的材料编码、页数、编号数据,智能检测每一条档案数字化加工成果的数据所对应的扫描文件是否全部真实存在;

s9:生成数据,根据质检的数据生成数据质检的报告。

优选的,所述步骤s2中检测项库中包括至少一组检测选项,每个检测选项均包括校验规则和校验参数。

优选的,所述步骤s4的校验的内容包括文本的正确性、数据的重复性、图片的完整性和图片的相似性。

优选的,所述步骤s6质检时,质检项包括档案的信息项、材料的信息项、图片的信息项、目录的信息项和类别的信息项,且每项根据需要检测的规则设置相应的检验参数。

优选的,所述检测的规则包括身份证校验、日期校验、整数校验、函数校验和正则校验。

优选的,所述步骤s7中软件系统自动检测项包括图像质量、分辨率和文件大小检测。

本发明的技术效果和优点:本发明提出的一种数字化档案自我校验实现自动质检的方法,与现有技术相比,具有以下优点:

本发明通过自己设置的一套标准的数据存储格式,档案数据内容项的校验规则、校验的参数,通过从文本的正确性、数据的重复性、图片的完整性、图片的相似性分别对档案数据项的校验,对校验过程中存在异常的数据自动生成详细的分析日志,本发明配置灵活,可以满足不同类型的数据校验,完全自动,而且不需要人工参与,可以对数据进行全面检查而不是抽检,完全可以应对大量数据的检查,提高了质检效率和质检质量。

附图说明

图1为本发明的工艺流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明提供一种技术方案:一种数字化档案自我校验实现自动质检的方法,包括以下步骤:

s1:设置数据存储格式,设置数据存储格式,数字化加工后的数据存储在excel表格中,将每个材料的扫描图片存储在文件夹中;

s2:设置校验参数及规则,根据质检的需求新增检测项库,提供检测项,设置界面,用户可以按照自己的需要加入检查项和删减检查项;

s3:选择待检测档案的批次,选择所挂接到客户正式数据库的ip地址和端口信息以及数据库用户信息用来检测待检测档案数据与已经入库正式数据库的数据是否重复,同时选择质检路径设置待检测档案的基础数据和扫描加工的图片数据,最后设置质检报告与异常情况的分析日志信息的输出路径;

s4:校验,根据校验的规则及参数对档案从文本、数据项和扫描图片分别进行校验;

s5:生成分析日志,通过校验过程中存在异常的数据生成详细的分析日志,用于对数据进行排查和修复;

s6:质检,步骤s5以上配置数据完成后,开始进行质检工作;

s7:软件系统检测,通过软件系统进行自动检测的项,通过对扫描图片计算的md5码与sha1码和扫描完成时的md5码与sha1码进行对比判断图片是否完整与是否被别人修改;

s8:数据判断,软件系统根据材料数据中的材料编码、页数、编号数据,智能检测每一条档案数字化加工成果的数据所对应的扫描文件是否全部真实存在;

s9:生成数据,根据质检的数据生成数据质检的报告。

具体的,所述步骤s2中检测项库中包括至少一组检测选项,每个检测选项均包括校验规则和校验参数。

具体的,所述步骤s4的校验的内容包括文本的正确性、数据的重复性、图片的完整性和图片的相似性。

具体的,所述步骤s6质检时,质检项包括档案的信息项、材料的信息项、图片的信息项、目录的信息项和类别的信息项,且每项根据需要检测的规则设置相应的检验参数。

具体的,所述检测的规则包括身份证校验、日期校验、整数校验、函数校验和正则校验。

具体的,所述步骤s7中软件系统自动检测项包括图像质量、分辨率和文件大小检测。

综上所述,本发明通过自己设置的一套标准的数据存储格式,档案数据内容项的校验规则、校验的参数,通过从文本的正确性、数据的重复性、图片的完整性、图片的相似性分别对档案数据项的校验,对校验过程中存在异常的数据自动生成详细的分析日志,本发明配置灵活,可以满足不同类型的数据校验,完全自动,而且不需要人工参与,可以对数据进行全面检查而不是抽检,完全可以应对大量数据的检查,提高了质检效率和质检质量。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1