基于数据字典配置和印章图像识别技术的系统及筛选方法与流程

文档序号:22326197发布日期:2020-09-25 17:55阅读:230来源:国知局

本发明涉及一种系统及筛选方法,尤其涉及一种基于数据字典配置和印章图像识别技术的系统及筛选方法。



背景技术:

在一些通过信息化系统进行政务工作业务办理、高校教师职称评审、科研机构学术成果评估等业务应用场景中,常常需要相关人员通过相应的信息化系统上传相关电子版的证明材料,大多数证明材料都要求有相关发证单位的盖章,由于上传相关电子版证明材料的操作人员对需要上传的证明材料理解不准确或操作失误,经常会上传一些不满足要求的电子证明材料,给后期审核人员带来了不少的筛选、复查工作,也容易造成业务办理的反复,浪费大量工作时间。

已有的技术可以实现对各种形状的电子印章进行识别,如专利《印章图像识别方法及装置、智能发票识别设备和存储介质》中通过基于注意力模型和字符识别模型对印章图像中的目标字符区域进行字符识别,通过印章区域识别模型对输入的图像进行处理,通过印章标注框标注出印章图像,并对其进行切片,利用基于opencv的字符轮廓提取算法对印章图像内的目标字符区域进行处理,并最终通过字符识别模型输出目标字符信息;专利《一种印章智能检测与识别的方法》通过卷积网络、boundingbox等算法识别印章区域,并对不同形状的印章通过不同算法进行文字区域变换、拉平操作,再通过crnn算法识别文字区域,最终通过burkhardkeller算法计算输出对应文字。

但是现有技术存在以下两个客观缺点:

1.印章识别技术相对独立,未与相关业务系统有效集成:现有技术和方案中,对电子证明材料等电子文件的印章识别技术相对独立,自成一套系统或装置,只针对相关文件的印章进行识别,未与相关业务系统进行有效的集成及对印章所属文件进行在线处理。

2.现有印章识别技术没有实现靶向识别,有效识别率低:现有印章识别技术侧重于印章区域及印章文字的识别,未与相关筛选技术相结合,对所有印章文件进行识别,没有结合特定业务进行靶向识别,识别的结果不能为业务服务,有效识别率低。



技术实现要素:

为了解决上述技术所存在的不足之处,本发明提供了基于数据字典配置和印章图像识别技术的系统及筛选方法。

为了解决以上技术问题,本发明采用的技术方案是:基于数据字典配置和印章图像识别技术的系统,包括审核系统、印章识别程序模块;审核系统通过接口集成与印章识别程序模块双向连接;审核系统包括电子证明材料上传模块、数据字典配置模块、电子证明材料匹配/筛选模块;印章识别程序模块的输入端与电子证明材料上传模块的输出端相连接、输出端与电子证明材料匹配/筛选模块的输入端相连接;电子证明材料上传模块提供的电子证明材料由印章识别程序模块进行识别,通过印章识别程序模块识别并输出的电子证明材料印章文字供电子证明材料匹配/筛选模块使用,电子证明材料匹配/筛选模块将印章识别程序模块输出的印章文字与数据字典配置模块中配置的关键字数据字典进行匹配。

一种基于数据字典配置和印章图像识别技术的系统的筛选方法,包括以下步骤:

①业务类别选择:相关业务办理提交人员通过业务系统选择需要办理的业务类别,不同的业务类别需要上传不同的电子证明材料;

②电子证明材料上传:相关业务办理提交人员根据选择的业务类别,通过电子证明材料上传模块上传该业务所需提交的电子证明材料文件;

③关键字数据字典配置:通过数据字典配置模块中的业务类别分类、业务关键字拆分、业务关键字配置、关键字数据字典库对各类业务有效电子证明材料进行关键字数据字典配置;

④电子证明材料印章识别:步骤②中已上传的电子证明材料文件依次通过印章识别程序模块中的印章区域识别、印章区域处理、印章文字识别、印章文字输出,实现在业务系统或通过接口集成与其他相关业务系统进行有效集成,对电子证明材料上的印章进行识别,并输出识别文字;

⑤印章文字与关键字匹配:相关业务系统利用kmp算法实现电子证明材料从印章识别程序模块输出的识别文字与关键字数据字典配置的相应类别的关键字进行匹配,匹配成功后则认为是有效的电子证明材料,筛选通过,匹配不成功则认为是无效的电子证明材料,筛选不通过。

进一步地,步骤③中:业务类别分类是在系统建设阶段根据不同业务类别进行分类,如项目申报类、职称评审类;业务关键字拆分是根据不同的业务类别拆分各自业务对应的有效电子证明材料关键字,如项目申报类业务拆分该业务的关键字为“身份证”和“营业执照”,职称评审类业务拆分该业务的关键字为“学位证”和“学历证”;业务关键字配置是根据各业务类别拆分的对应关键字,在数据库中进行对应配置;关键字数据字典库是所有业务与关键字对应配置后形成的有效电子证明材料关键字数据字典库,供步骤⑤中业务系统进行识别电子材料有效性程序调用。

进一步地,步骤④中:印章区域识别是通过建立各类印章区域识别模型,利用卷积网络等算法定位印章区域;印章区域处理是根据不同类别的印章进行印章区域展开、拉平、水平排布处理;印章文字识别是通过crnn等算法识别印章区域中的文字区域;印章文字输出是通过burkhardkeller算法计算输出印章文字区域中对应文字。

进一步地,步骤⑤中还包括复核步骤,即匹配成功后的电子证明材料提交给复核人员,复核人员对经过业务系统判断审查结果为有效的电子证明材料进行人工复核,并将复核结果反馈至提交人员。

本发明着重对带有印章的电子证明材料进行识别、筛选,通过印章图像识别技术结合业务系统关键字数据字典配置,实现智能筛选带有印章的电子证明材料文件,及时剔除无效的电子证明材料文件,筛选潜在有效的电子证明材料,减少人工审核的电子证明材料数量,降低反复提交材料率,大幅提高工作效率。

本发明可有效降低人为反复提交材料和审核材料的工作量,大幅提高工作效率;实现了有效电子证明材料的自动筛选,减少了线下打印纸质证明材料的工程,实现智能化、无纸化在线业务办理。

附图说明

图1为本发明的工作流程示意图。

图2为本发明的系统组成框图。

图3为步骤⑤增加复核步骤后的工作原理图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1-3所示的基于数据字典配置和印章图像识别技术的系统,如图2所示,业务系统包括审核系统、印章识别程序模块。审核系统通过接口集成与印章识别程序模块双向连接;审核系统包括电子证明材料上传模块、数据字典配置模块、电子证明材料匹配/筛选模块;印章识别程序模块的输入端与电子证明材料上传模块的输出端相连接、输出端与电子证明材料匹配/筛选模块的输入端相连接;电子证明材料上传模块提供的电子证明材料由印章识别程序模块进行识别,通过印章识别程序模块识别并输出的电子证明材料印章文字供电子证明材料匹配/筛选模块使用,电子证明材料匹配/筛选模块将印章识别程序模块输出的印章文字与数据字典配置模块中配置的关键字数据字典进行匹配。

电子证明材料上传模块:实现业务办理提交人员通过业务系统在线上传带有印章的电子证明材料的功能,如pdf、png、jpg等格式文件格式。

数据字典配置模块:数据字典配置模块是电子证明材料匹配/筛选模块的依据,其实现对各类业务有效电子证明材料关键字的数据字典配置功能,如xxx大学的奖学金申报需提供带有xxx大学印章的相关获奖证书和学生户籍所在地民政局开具的贫困家庭证明,则数据字典配置有效电子证明材料关键字有“xxx大学”和“民政局”等。

印章识别程序模块:印章识别程序模块识别的电子证明材料由电子证明材料上传模块提供,其实现在业务系统或通过接口集成与其他相关业务系统进行有效集成,对电子证明材料上的印章进行识别,并输出识别文字的功能。

电子证明材料匹配/筛选模块:实现印章识别程序模块识别的文字与数据字典配置模块配置的有效关键字进行匹配的功能,匹配成功的则筛选通过,匹配不成功的则为无效的电子证明材料,筛选不通过。

一种基于数据字典配置和印章图像识别技术的系统的筛选方法,包括以下步骤:如图1所示,

①业务类别选择:相关业务办理提交人员通过业务系统选择需要办理的业务类别,不同的业务类别需要上传不同的电子证明材料;

②电子证明材料上传:相关业务办理提交人员根据选择的业务类别,通过电子证明材料上传模块上传该业务所需提交的电子证明材料文件;

③关键字数据字典配置:通过数据字典配置模块中的业务类别分类、业务关键字拆分、业务关键字配置、关键字数据字典库对各类业务有效电子证明材料进行关键字数据字典配置;

业务类别分类是在系统建设阶段根据不同业务类别进行分类,如项目申报类、职称评审类;业务关键字拆分是根据不同的业务类别拆分各自业务对应的有效电子证明材料关键字,如项目申报类业务拆分该业务的关键字为“身份证”和“营业执照”,职称评审类业务拆分该业务的关键字为“学位证”和“学历证”;业务关键字配置是根据各业务类别拆分的对应关键字,在数据库中进行对应配置;关键字数据字典库是所有业务与关键字对应配置后形成的有效电子证明材料关键字数据字典库,供步骤⑤中业务系统进行识别电子材料有效性程序调用。

④电子证明材料印章识别:步骤②中已上传的电子证明材料文件依次通过印章识别程序模块中的印章区域识别、印章区域处理、印章文字识别、印章文字输出,实现在业务系统或通过接口集成与其他相关业务系统进行有效集成,对电子证明材料上的印章进行识别,并输出识别文字;

印章区域识别是通过建立各类印章区域识别模型,利用卷积网络等算法定位印章区域;印章区域处理是根据不同类别的印章进行印章区域展开、拉平、水平排布处理;印章文字识别是通过crnn等算法识别印章区域中的文字区域;印章文字输出是通过burkhardkeller算法计算输出印章文字区域中对应文字。

⑤印章文字与关键字匹配:相关业务系统利用kmp算法实现电子证明材料从印章识别程序模块输出的识别文字与关键字数据字典配置的相应类别的关键字进行匹配,匹配成功后则认为是有效的电子证明材料,筛选通过,匹配不成功则认为是无效的电子证明材料,筛选不通过。

如图3所示,步骤⑤中还包括复核步骤,即匹配成功后的电子证明材料提交给复核人员,复核人员对经过业务系统判断审查结果为有效的电子证明材料进行人工复核,并将复核结果反馈至提交人员。复核步骤作为本设计的辅助流程,提高了最终筛选结果的可靠性与准确性。

提交人员:根据不同业务需要在线提交各类电子证明材料,并接收审查服务器或复核人员关于电子证明材料有效性的审查/复核结果。

业务系统部署关键字配置数据库、印章识别程序和相关业务系统,完成对电子证明材料的有效关键字配置、在线提交、印章识别和有效性审查,检验电子证明材料的有效性,对不满足有效性条件的电子证明材料系统实时将审查结果反馈给提交人员,对满足有效性条件的电子证明材料,提交相关复核人员进行复核。通过电子印章识别技术与带有数据字典配置功能的业务系统进行有效结合、充分集成,实现对带有印章的电子证明材料有效性进行识别、筛选,有效降低人工复核的工作量。

本发明采用数据字典配置和电子印章识别技术相互结合的方式,降低无效电子证明材料的上传率,减少人工审核、筛选的工作量;采用电子印章识别程序、关键字数据字典配置和业务系统综合集成的方式,形成一套电子证明材料筛选系统,提高信息系统业务办理无纸化、智能化能力。

上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!