一种基于图像的公文要素信息抽取方法及装置与流程

文档序号:31677998发布日期:2022-09-28 03:47阅读:79来源:国知局
一种基于图像的公文要素信息抽取方法及装置与流程

1.本发明涉及文件处理领域,具体涉及一种基于图像的公文要素信息抽取方法及装置。


背景技术:

2.党、政、军各机关在日常办公中产生大量公文,这些非结构化的数据具有重要价值。公文要素信息抽取,对公文数据结构化转换,自动化管理和智能化办公具有重要意义。当前机关公文要素信息提取,主要依靠机关公文较规范的格式,利用正则表达式进行匹配抽取,但这种方法存在两个问题:
3.一是基于文本处理方法,只限于doc、docx、txt等文本格式公文抽取,不能对扫描、翻拍等图像类公文进行信息抽取;
4.二是虽然机关公文对版式、要素、字体等呈现形式进行了严格的规范,但在排版上却千差万别,有的以隐藏边框的表格排版,有的以段落回车分行和小字号的空格排版,有的用插入直线形状排版;在内容拟制上,有的将眉首、版记中要素关键字和内容作为一个整体写,有的分开放在两个表格单元格中,这导致文本信息前后文位置不统一、搭配关系不固定,用规则匹配进行抽取泛化能力差,出错概率高,抽取结果需要花费大量时间校对,难以作为一个通用手段实现机关公文的信息大规模信息抽取和结构化转化。


技术实现要素:

5.本发明实施例提供一种基于图像的公文要素信息抽取方法及装置,基于图像处理技术,可抽取多种格式公文的要素信息。
6.为达上述目的,一方面,本发明实施例提供一种基于图像的公文要素信息抽取方法,包括:
7.获取机关所产生的公文,将不同存储格式的公文均转换成预设格式图像并对预设格式图像进行预处理,得到预处理公文图像;
8.通过预先训练的检测模型检测预处理公文图片内各公文要素区域,并将各公文要素区域进行切割得到相应的公文要素图像,识别各公文要素图像内的文本内容;其中,所述公文要素包括至少如下之一:公文份数序号、秘密等级和保密期限、紧急程度、发文机关标识、发文字号、签发人、主题词、抄送机关、联系人、电话、邮箱;
9.针对所识别的每个公文要素图像内的文本内容,提取出相应的公文要素内容,将该公文内的所有公文要素内容按预设格式并输出。
10.另一方面,本发明实施例提供一种基于图像的公文要素信息抽取装置,包括:
11.公文预处理模块,用于获取机关所产生的公文,将不同存储格式的公文均转换成预设格式图像并对预设格式图像进行预处理,得到预处理公文图像;
12.公文要素区域分割模块,用于通过预先训练的检测模型检测预处理公文图片内各公文要素区域,并将各公文要素区域进行切割得到相应的公文要素图像,识别各公文要素
图像内的文本内容;其中,所述公文要素包括至少如下之一:公文份数序号、秘密等级和保密期限、紧急程度、发文机关标识、发文字号、签发人、主题词、抄送机关、联系人、电话、邮箱;
13.公文要素内容抽取模块,用于针对所识别的每个公文要素图像内的文本内容,提取出相应的公文要素内容,将该公文内的所有公文要素内容按预设格式并输出。
14.上述技术方案具有如下有益效果:基于图像处理技术,可抽取多种格式公文的要素信息。
附图说明
15.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
16.图1是本发明实施例的基于图像的公文要素信息抽取方法的流程图;
17.图2是本发明实施例的基于图像的公文要素信息抽取装置的结构图;
18.图3本发明实施例的总体流程图;
19.图4本发明实施例的公文要素检测识别流程图;
20.图5本发明实施例的模型训练结果图;
21.图6本发明实施例的联系电话和邮箱要素区域检测识别效果图。
具体实施方式
22.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
23.如图1所示,结合本发明的实施例,提供一种基于图像的公文要素信息抽取方法,包括:
24.s101:获取机关所产生的公文,将不同存储格式的公文均转换成预设格式图像并对预设格式图像进行预处理,得到预处理公文图像;
25.s102:通过预先训练的检测模型检测预处理公文图片内各公文要素区域,并将各公文要素区域进行切割得到相应的公文要素图像,识别各公文要素图像内的文本内容;其中,所述公文要素包括至少如下之一:公文份数序号、秘密等级和保密期限、紧急程度、发文机关标识、发文字号、签发人、主题词、抄送机关、联系人、电话、邮箱;
26.s103:针对所识别的每个公文要素图像内的文本内容,提取出相应的公文要素内容,将该公文内的所有公文要素内容按预设格式并输出。
27.优选地,步骤101中,所述将不同存储格式的公文均转换成图像格式,具体包括:
28.s1011:若所获取的机关公文为文档类格式,则将机关公文的格式首先转换为pdf格式,然后将pdf格式转化为图像分辨率在预设范围内的预设格式图像;
29.s1012:若所获取的机关公文为图片类格式,则将机关公文的格式统一为图像分辨
率在预设范围内的预设格式图像。
30.优选地,所述图片类格式所指的图片包括拍摄图片、扫描图片、翻拍图片;
31.步骤101中,所述对预设格式图像进行预处理,还包括:
32.s1013:若所获取的机关公文图片类格式,若文档类格式的公文内含有图片,若文档类格式为pdf、且该pdf是由非文档类转换形成的pdf,则对其相应的预设格式图像的每个像素点按图像对比度参数默认值调整图像对比度、按图像亮度参数默认值调整图像亮度;当按图像对比度参数默认值、图像亮度参数默认值对预处理公文图像的增强效果不能满足预设要求时,则调整图像对比度参数值、图像亮度参数值直至增强效果能满足预设要求,得到增强图片;
33.s1014:采用中值滤波去除增强图像的噪点,得到文字边缘保留齐全、文字信息无损失的预处理公文图像。
34.优选地,步骤102,通过预先训练的检测模型检测预处理公文图片内各公文要素区域,并将各公文要素区域进行切割得到相应的公文要素图像,识别各公文要素图像内的文本内容,具体包括:
35.s1021:通过预先训练的yolov5模型自动检测预处理公文图像内各公文要素区域、以及相应的公文要素类别,形成各公文要素区域输出结果;所述公文要素区域输出结果表示为:公文要素类别、检测框中心点x值、检测框中心点y值、检测框宽w、检测框高h、置信度;
36.s1022:将检测框中心点x值、中心点y值、检测框宽w、检测框高h转化为对相应公文要素区域进行分割的坐标值格式(x1,y1,x2,y2),;其中,x1、y1分别为公文要素区域框的左上顶点横、纵坐标值,x2、y2分别为公文要素区域框的右下顶点横、纵坐标值,x1=x-w/2;y1=y-h/2;x2=x+w/2;y2=y+h/2;
37.s1023:调取python图像处理库pil的image模块的crop()函数,将各公文要素区域的坐标值(x1,y1,x2,y2)输入crop()函数对各公文要素区域进行分割,分割完毕后返回相应的公文要素图像,且在公文要素图像内标注有公文要素类别和置信度;
38.s1024:针对每个公文要素图像,采取python语言的pytesseract模块识别该公文要素图像内的文本内容并提取,将所提取的该文本内容以txt文件返回。
39.优选地,步骤103,针对所识别的每个公文要素图像内的文本内容,提取出相应的公文要素内容,将所提取的该公文内的所有公文要素内容按预设格式并输出,具体包括:
40.s1031:针对每个公文要素图像的txt文件,若该txt文件内的文本内容不包含关键字,则直接将该文本内容做为要素内容;若该txt文件内的文本内容包含关键字,则将关键字及多余的标点符号之外的文本内容做为抽取的要素内容;通过python字符串替换函数replace对该txt文件内的要素内容进行抽取;
41.s1032:针对所抽取的每个文本内容构建键值对,通过键值对的键表示该公文要素类别,通过键值对的值表示抽取的要素内容;将该公文内所有的键值对组成字典并输出。
42.如图2所示,结合本发明的实施例,提供一种基于图像的公文要素信息抽取装置,包括:
43.公文预处理模块21,用于获取机关所产生的公文,将不同存储格式的公文均转换成预设格式图像并对预设格式图像进行预处理,得到预处理公文图像;
44.公文要素区域分割模块22,用于通过预先训练的检测模型检测预处理公文图片内
各公文要素区域,并将各公文要素区域进行切割得到相应的公文要素图像,识别各公文要素图像内的文本内容;其中,所述公文要素包括至少如下之一:公文份数序号、秘密等级和保密期限、紧急程度、发文机关标识、发文字号、签发人、主题词、抄送机关、联系人、电话、邮箱;
45.公文要素内容抽取模块23,用于针对所识别的每个公文要素图像内的文本内容,提取出相应的公文要素内容,将该公文内的所有公文要素内容按预设格式并输出。
46.优选地,所述公文预处理模块21包括格式转化子模型211,所述格式转化子模型211具体用于:
47.若所获取的机关公文为文档类格式,则将机关公文的格式首先转换为pdf格式,然后将pdf格式转化为图像分辨率在预设范围内的预设格式图像;
48.若所获取的机关公文为图片类格式,则将机关公文的格式统一为图像分辨率在预设范围内的预设格式图像。
49.优选地,所述图片类格式所指的图片包括拍摄图片、扫描图片、翻拍图片;
50.所述公文预处理模块21还包括:
51.图像增强子模型212,用于若所获取的机关公文图片类格式,若文档类格式的公文内含有图片,若文档类格式为pdf、且该pdf是由非文档类转换形成的pdf,则对其相应的预设格式图像的每个像素点按图像对比度参数默认值调整图像对比度、按图像亮度参数默认值调整图像亮度;当按图像对比度参数默认值、图像亮度参数默认值对预处理公文图像的增强效果不能满足预设要求时,则调整图像对比度参数值、图像亮度参数值直至增强效果能满足预设要求,得到增强图片;
52.图像去躁子模型213,用于采用中值滤波去除增强图像的噪点,得到文字边缘保留齐全、文字信息无损失的预处理公文图像。
53.优选地,所述公文要素区域分割模块22包括:
54.公文要素区域识别子模型221,用于通过预先训练的yolov5模型自动检测预处理公文图像内各公文要素区域、以及相应的公文要素类别,形成各公文要素区域输出结果;所述公文要素区域输出结果表示为:公文要素类别、检测框中心点x值、检测框中心点y值、检测框宽w、检测框高h、置信度;
55.公文要素区域分割子模型222,用于将检测框中心点x值、中心点y值、检测框宽w、检测框高h转化为对相应公文要素区域进行分割的坐标值格式(x1,y1,x2,y2),;其中,x1、y1分别为公文要素区域框的左上顶点横、纵坐标值,x2、y2分别为公文要素区域框的右下顶点横、纵坐标值,x1=x-w/2;y1=y-h/2;x2=x+w/2;y2=y+h/2;
56.调取python图像处理库pil的image模块的crop()函数,将各公文要素区域的坐标值(x1,y1,x2,y2)输入crop()函数对各公文要素区域进行分割,分割完毕后返回相应的公文要素图像,且在公文要素图像内标注有公文要素类别和置信度;
57.公文内容提取子模型223,用于针对每个公文要素图像,采取python语言的pytesseract模块识别该公文要素图像内的文本内容并提取,将所提取的该文本内容以txt文件返回。
58.优选地,所述公文要素内容抽取模块23包括:
59.抽取子模型231,用于针对每个公文要素图像的txt文件,若该txt文件内的文本内
容不包含关键字,则直接将该文本内容做为要素内容;若该txt文件内的文本内容包含关键字,则将关键字及多余的标点符号之外的文本内容做为抽取的要素内容;通过python字符串替换函数replace对该txt文件内的要素内容进行抽取;
60.抽取内容转化合并子模型232,用于针对所抽取的每个文本内容构建键值对,通过键值对的键表示该公文要素类别,通过键值对的值表示抽取的要素内容;将该公文内所有的键值对组成字典并输出
61.下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明,实施过程中没有介绍到的技术细节,可以参考前文的相关描述。
62.本发明为一种基于图像处理技术的公文要素信息抽取方法及系统,本发明涉及自然语言处理领域和计算机器视觉领域,主要用于党、政、军等机关公文要素信息抽取。针对机关公文在外观上要素信息结构、搭配、字体、大小、关键字相对固定的情况下,改变以往只注重利用自然语言技术的进行文本信息处理的情况,解决了用正则表达式匹配抽取易出错的情况,具有较强泛化能力和精准度,为机关公文大规模信息抽取和结构化转化提供了解决方案。
63.本发明技术方案的总体流程见图3,详细如下:
64.运行环境:windows 10操作环境,python3.9.7编程语言,anaconda3包管理器和环境管理器。
65.公文要素:是指公文中的公文份数序号、秘密等级和保密期限、紧急程度、发文机关标识、发文字号、签发人、主题词、抄送机关、联系人、电话、邮箱等公文关键信息。
66.step1.格式转换
67.电子版的公文格式主要分为两类,即:文档类机关公文和图片类机关公文。文档类主要包括:doc、docx、wps、pdf等格式;图片类主要包括:jpeg、bmp、png、tiff等格式。文档类机关公文格式转化分为两步:首先将doc、docx、wps等格式转换为pdf格式,再将pdf格式转化为jpeg图像格式;图片类机关公文格式转化是指将bmp、png、tiff等格式的机关公文,统一转化为jpeg图像。两类公文转化最终形成分辨率为794
×
1120大小的图像。
68.step2.图像增强处理
69.对于图片类机关公文往往是扫描、翻拍而得到的,图像不清晰、噪点较多的情况不同程度存在,为提高图像的质量,在step1的基础上,对该类图像采取增强操作。具体实现方法:对图像每个像素点(i,j)按照公式(1)处理:
70.m(i,j)=af(i,j)+b
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
71.其中,m(i,j)为增强后的图像,f(i,j)为原始图像,参数a用来调整图像的对比度,当a》1为增强对比度,当0《a《1时,表示降低对比度。参数b为用来调整图像的亮度,a的值默认设为20,b的值默认设为30,具体数值需根据原始公文图像的明暗和清晰度进行调整。
72.图像亮度和对比度调整完后,再用中值滤波方法进行去噪点处理。选用中值滤波方法,主要是考虑扫描、翻拍文件产生的噪声较多,该方法去除公文图像噪点时,可较好地保护文字边缘,减少文字信息的损失,具体实现方法如下:
73.m(i,j)=med{f(i-a,j-b),(a,b∈t)}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
74.其中,m(i,j)为增强后的图像,f(i,j)为原始图像,t是二维模板。
75.step3.要素区域检测
76.对增强处理后的公文图像,使用yolov5模型对公文要素信息区域进行检测。使用这种方法主要基于两点考虑:一是机关公文的要素信息的外在结构搭配固定,字号字体大小规范,特征明显,可以通过深度学习目标检测方法对每个要素信息的边界进行框定,并让模型自动判别出要素类别;二是yolov5模型在继承yolov4高精准度、低消耗等基础上,进一步进行了升级优化,更便于用户配置环境,训练自己数据集,且模型简捷高效,检测目标速度高达140fps,适合在实际业务中快速部署使用,具体如下:
77.首先选取一定数量的公文图像进行标注,生成训练样本。标注按照每个公文要素为一类目标进行,类别名称以公文要素名称英文简写组成,标注范围涵盖该要素内容的区域,例如,“秘密等级和保密期限”要素内容为“秘密

2年”,标注区域为涵盖“秘密

2年”的文字区域,类别记为“urg”。如果该要素包含要素关键字,则需将要素关键字及分隔符涵盖在标注区域内,例如,“签发人”要素内容为“张三”,要素关键字为“签发人”,则标注区域需涵盖“签发人:张三”。标注时,在保证内容完全涵盖在标注框的情况下,尽量使标注框的面积最小,以提升模型识别的精度。假设要素内容左上角坐标为(x1,y1),右下角坐标为(x2,y2),则标注区域a=min{(x
2-x1)(y
2-y1)}。
78.按照上述方式,对公文份数序号、秘密等级和保密期限、紧急程度、发文机关标识、发文字号、签发人、主题词、抄送机关、联系人、电话、邮箱等公文要素进行标注,类别分别记为:“num”“sec”“urg”“ide”“tnu”“sig”“key”“cop”“name”“tel”“email”。
79.然后,用标注好的训练样本训练yolov5模型。为确保模型速度更快,符合大批量提取时效要求,选择yolov5模型的轻量级版本yolov5s,bottleneckcsp模块的层缩放因子、卷积通道的缩放因子分别设置为0.33和0.50,conv卷积核数量为32、64、128、256、512,步长为2,预训练权重文件选择为yolov5x.pt,默认输入图片分辨率大小为640*640。将训练样本按照8:2比列(8指用于训练的,2指用于验证模型),随机分成训练集和验证集输入模型。输入模型前,先将样本图像保持1120长边不变,794短边以纯灰色像素填充6像素,调整成32的倍数,变成800
×
1120大小的图像,作为模型focus层的输入。模型通过2倍下采样,将样本图像切分成400*560*12的特征图,通过一次32个卷积核的卷积操作,变成400*560*32的特征图,再通过3层bcsp结构处理交给spp,由模型14层head结构的卷积和连结运算,最后交由detect输出,重复上述步骤,迭代运算,不断优化参数直至模型训练完成。
80.模型性能评价方面,除了传统的准确率(precision)、召回率(recall)、平均精确度(map)外,模型损失函数计算使用的是矩形框损失(box_loss)、置信度损失(obj_loss)、分类损失(cls_loss)三个指标之和,计算如公式(3)。
81.loss=box_loss+obj_loss+cls_loss
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
82.置信度损失与分类损失使用二分类交叉熵损失(bceloss)计算,而矩形框损失使用ciou loss计算。传统矩形框损失计算使用的是交并比iou,未考虑到目标框和预测框不重叠的情况,当目标框和预测框不重叠时,iou损失的梯度为0,无法进行优化。ciou loss不但考虑到两框不重叠问题、还考虑到了两框的中心点距离及框的长宽比,对描述预测框的回归更加充分,计算如公式(4)。
[0083][0084]
其中,ρ2(b,b
gt
)为预测框和目标框中心点的距离,c为包含预测框和目标框的外框
与预测框和目标框并集之差,v为预测框和目标框宽高比的吻合度,计算如公式(5)。
[0085][0086]
α为权衡参数,计算如公式(6)。
[0087][0088]
iou为预测框和目标框面积的交集与并集之比,计算如公式(7)。
[0089][0090]
待模型训练完毕后,将待处理的公文图输入模型,由模型预测出要素区域以及该区域的要素类别。
[0091]
step4.区域分割识别
[0092]
模型检测公文要素区域的输出结果格式为:(类别,检测框中心点x值,中心点y值,检测框宽w、检测框高h、置信度),取结果中间4个值,转化生成便于图像分割的坐标值格式(x1,y1,x2,y2),其中,x1、y1分别为要素区域框的左上顶点横、纵坐标值,x2、y2分别为要素区域框的右下顶点横、纵坐标值,转换计算方法为:x1=x-w/2;y1=y-h/2;x2=x+w/2;y2=y+h/2。转换完成后,使用坐标值进行图像分割,生成公文要素图像,并记录该图像要素类别,最后对公文要素图像进行文本识别提取。
[0093]
文本识别采取tesseract进行,tesseract是一款开源的光学字符识别(ocr)引擎,目前支持windows、linux和mac os等主流平台,对世界主流语言字符具有较好的识别能力,通过tesseract可从公文要素jpeg格式图像中提取要素内容形成txt格式文本,为进一步匹配公文要素内容打下基础。
[0094]
step5.要素内容匹配
[0095]
对识别获取txt格式文本的要素内容进行整理,从txt格式文本内提取要素内容作为值,形成键值对,实现通过字符串替换函数的操作。具体为:对不含关键字的要素内容,直接将全部识别内容作为抽取内容;如果要素内容包含关键字,则需要去掉关键字及多余的标点符号,剩余部分为抽取内容(去掉的关键字不需要了,后面在形成键值对时,关键字内容实际上用step4中识别的图像要素类别替代了)。例如,“公文份数序号”“紧急程度”“发文机关标识”“秘密等级和保密期限”“发文字号”等要素,识别内容就是抽取内容。将所要去掉关键字及多余的标点符号使用python字符串替换函数replace('参数1','参数2'),参数1设置为:拟去掉的关键字和关键字后面的冒号,参数2:设置为空值;replace('参数1','参数2')的作用:参数2替换参数1返回处理结果,其中参数2均为空值,替换参数1后,就去掉了关键字和关键字后面的冒号;将replace函数返回的结果作为要素内容输出,作为step6字典格式中的“要素内容1、要素内容2、要素内容3,...”具体流程见图4。
[0096]
step6.抽取结果输出
[0097]
把抽取好的要素内容和要素类别,分别作为值和键组成字典格式:{“要素类别1”:“要素内容1”,“要素类别2”:“要素内容2”,“要素类别3”:“要素内容3”,...},最后统一输出。
[0098]
本发明所取得的有益效果如下:
[0099]
本发明基于图像处理技术,可抽取doc、docx、wps、pdf、jpeg、bmp、png、tiff等多种格式公文的要素信息,克服了基于自然语言处理方法只能抽取文本类公文的局限。
[0100]
本发明通过公文要素的图像特征进行区域检测识别,克服了公文内部排版方法不统一,用传统正则表达式匹配易出错的情况,具有较强泛化能力和精准度。
[0101]
结合本发明的技术方案示例如下:
[0102]
本实施例制作了273份不同格式的公文样本,对其中的图像类公文样本添加噪点,使用不同灰度,以模拟扫描、拍摄造成的文本失真效果。系统区分格式转化模块、图像增强模块、要素区域检测模块、区域分割识别模块、要素内容匹配模块进行构建,下面按照流程分模块进行阐述,并对主要功能进行了实验验证。
[0103]
1.格式转化模块
[0104]
使用文件操作函数依次读入样本,根据文本的扩展名判别文档类型,对doc、docx、wps格式的文本类公文,使用win32com模块client包的exportasfixedformat函数,将其转换为pdf格式,其中,exportformat参数设置为17,item参数设置为7,再使用fitz包的get_pixmap函数,将pdf格式公文的每个a4页面渲染成794x 1120像素的jpeg格式图像,图像以“文件名+页码”的形式命名;对bmp、png、tiff等格式的图像类公文,使用pil库的image包将读入的公文,直接另存为jpeg图像,图像大小也统一调整为794x 1120像素。
[0105]
2.图像增强模块
[0106]
对文本类的公文转化的图像,亮度和对比度保持不变,也无需进行去噪点处理,在公式(1)中,设置a=1,b=0;对于图像类公文,进行提升对比度、亮度处理和去噪处理,在公式(1)中,设置a=20,b=30,并根据后续检测效果进行参数调整。针对公文图像噪声点较小的情况,在公式(2)中,t选择为3*3的区域。
[0107]
3.要素区域检测模块
[0108]
考虑只对方法流程进行验证,本实施例选择联系电话和邮箱2个要素进行信息抽取测试。使用labelimg标注工具对273份公文图像的电话和邮箱要素进行标注,标注类别代字分别为“tel”“email”,数据输出格式为yolo格式,而后将标注好的样本数据,按照8:2随机分成含有218份样本的训练集和含有55份样本的训练集,按照step3的参数对yolov5模型进行配置,配置完成后,将样本输入模型训练,训练环境为cpu:intel(r)core(tm)i7-10875h,内存:32g,显卡:nvidia geforce rtx 2070,cuda 11.6.112,训练参数为batch-size:16,epochs:500,workers:4,模型训练结果如图5所示。
[0109]
训练到456代时,模型取得了最好效果,准确率为91.2%,召回率为82.8%,map_0.5为88.06%,详细指标见表1,train/box_loss、train/obj_loss、train/cls_loss分别为训练集上的矩形框损失、置信度损失、分类损失;val/box_loss、val/obj_loss、val/cls_loss分别为验证集上的矩形框损失、置信度损失、分类损失。由于训练样本数据较小,模型性能还有较大的提升空间,后期通过增加训练样本数量,可进一步提升模型识别的准确率。
[0110]
表1模型性能指标评价表
[0111][0112]
yolov5模型训练完毕后,将待检测图像输入,输入图片大小(img-size)设置为640、置信度阈值(conf-thres)设置为0.3,nms iou阈值设置为0.5。模型自动检测出公文要素的区域信息和类别,区域检测和识别效果如图6所示,联系电话和邮箱要素检测出的区域,以矩形框标注,并在矩形框上方给出了要素类别代字和置信度。需要说明的是,由于联系电话和邮箱要素之间的间距小,出现了标注框压盖原始要素内容的情况,但不影响模型实际运行效果。
[0113]
4.区域分割识别模块
[0114]
公文要素区域分割使用python图像处理库pil的image模块,调取该模块的crop()函数,将要素区域的坐标值(x1,y1,x2,y2)输入该函数,即可返回分割后的图像,再另存为jpeg格式图像。
[0115]
5.要素内容匹配模块
[0116]
对联系电话和邮箱要素内容进行整理,由于联系电话和邮箱要素包含关键字和标点,则需要去掉关键字和关键字后面的冒号。比如,“电话:13800000000”识别的内容为“电话:13800000000”,则需要去掉“电话”和“:”,抽取内容为“13800000000”。最后将要素类别和抽取内容分别组成字典数据的键和值,形成格式化的字典数据输出结果。
[0117]
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
[0118]
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
[0119]
为使本领域内的任何技术人员能够实现或使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此本公开不限于本文给出的实施例,而是与本技术公开的原理和新颖性特征的最广范围相一致。
[0120]
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解
释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
[0121]
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
[0122]
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(asic),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
[0123]
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动磁盘、cd-rom或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于asic中,asic可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
[0124]
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(dsl)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、dvd、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
[0125]
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含
在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1