一种基于检测和融合的文档印章预处理方法与流程

文档序号:37282263发布日期:2024-03-12 21:22阅读:20来源:国知局
一种基于检测和融合的文档印章预处理方法与流程

本发明涉及深度学习和图像处理,尤其是一种基于检测和融合的文档印章预处理方法。


背景技术:

1、金融机构和政府机关等发布的财务报告、公告、地方性政策文件等文本数据,是金融监管行业、金融投资行业等金融工作者获得有效行业信息的重要途径。然而,这些文件通常都会加盖机构或者政府部门的印章,遮盖重要的文字信息。由于印章的遮盖导致文本自动识别的准确率较低,后续文本识别较大地依赖于人工处理,降低了文件处理的效率。

2、传统的文档印章处理方法,是基于像素统计和阈值分割的思想进行印章像素过滤处理。这类方法的局限性是对于印章的定位只依赖于印章的颜色信息,会导致图像中其他与印章有着相同颜色信息的像素,也会被错误定位为印章像素,从而导致非印章区域字符像素信息的丢失。其次传统方法对于印章区域的处理,侧重于对印章像素的去除,对于印章区域字符信息的还原欠佳,没有兼顾文本识别的完整率和准确率。


技术实现思路

1、为了克服上述现有技术中的缺陷,本发明提供一种基于检测和融合的文档印章预处理方法,降低了印章像素的饱和度,最大程度的保留遮盖区域字符信息,降低印章遮盖对字符识别的影响。

2、为实现上述目的,本发明采用以下技术方案,包括:

3、一种基于检测和融合的文档印章预处理方法,包括以下步骤:

4、s2,利用印章检测网络定位页面图像上的印章位置;

5、s3,根据定位出的印章位置,在页面图像中裁剪出印章区域图像img;

6、s4,用聚类算法获取印章区域图像img的像素聚类中心点,包括印章、字符和背景三个中心点,分别记为ps、pc和pg;

7、s5,利用三个中心点和邻域像素点,对印章区域图像img中的各个像素点pixv进行判断,判断像素点pixv的归类,即判断像素点pixv属于印章像素或字符像素或背景像素;根据印章区域图像img中各个像素点pixv的属性,得到新图像proimg;其中,pixv为印章区域图像img中的第v个像素点;

8、s6,将原始的印章区域图像img与新图像proimg进行融合,得到处理后的印章区域图像destimg。

9、优选的,在步骤s2之前,还包括步骤s1,利用样本数据和深度学习训练生成所述印章检测网络,具体过程如下所示:

10、s11,构建印章检测的页面图像集合h,j∈{1,2,...,n},i∈{1,2,...,m};其中,表示第j个文件第i页图像;

11、s12,构建印章检测框的位置集合f,f={location(j,i,k)},j∈{1,2,...,n},i∈{1,2,...,m},k∈{1,2,...,t};其中,location(j,i,k)表示第j个文件第i页图像第k个印章检测框的位置信息,印章检测框的位置信息包括印章检测框的中心点坐标以及印章检测框的宽和高,即location(i,j,k)={lx,ly,lw,lh},(lx,ly)表示印章检测框的中心点坐标,(lw,lh)表示印章检测框的宽和高;

12、s13,构建印章检测框的标签集合lab,lab={label(j,i,k)},j∈{1,2,...,n},i∈{1,2,...,m},k∈{1,2,...,t};其中,label(j,i,k)表示第j个文件第i页图像第k个印章检测框的标签信息,标签类别为印章;

13、s14,由印章检测的页面图像集合h、印章检测框的位置集合f和标签集合lab,组成印章检测框的数据集合ct={h,f,lab};

14、s15,采用聚类算法构建印章检测网络的先验框:

15、对印章检测框的位置集合f提取印章检测框的宽和高属性,构建集合box={boxj,i,k},j∈{1,2,...,n},i∈{1,2,...,m},k∈{1,2,...,t},boxj,i,k=(wj,i,k,hj,i,k);其中,wj,i,k、hj,i,k分别表示第j个文件第i页图像第k个印章检测框boxj,i,k的宽和高;

16、从集合box选取q个点即印章检测框作为先验框,构建集合c={c0,c1,..cx,.,cq},x∈{1,2,...,q},cx=(wx,hx);其中,wx、hx分别表示第x个先验框cx的宽和高;

17、计算集合box中每个点boxj,i,k即每个印章检测框到集合c中每个点cx即每个先验框的距离dist,将集合box中点boxj,i,k分配给距离最近的点cx;

18、定义损失函数floss=min(∑dist(boxj,i,k,cx));

19、从集合box中重新选取q个点作为先验框,迭代更新集合c,重新计算集合box中每个点boxj,i,k到集合c中每个点cx的距离dist,直至损失函数floss收敛,选取损失函数floss收敛后的q个点为最终的先验框,构建先验框集合;

20、其中,点boxj,i,k到点cx的距离dist的计算方式为:

21、

22、

23、式中,i为印章检测框boxj,i,k和先验框cx交集的面积,boxarea为印章检测框boxj,i,k的面积,carea为先验框cx的面积,0<iou≤1;α为参数;

24、s16,利用印章检测框的数据集合ct对印章检测网络进行训练,输入为印章检测的页面图像集合h中的页面图像输出为检测得到的预测框的位置信息和标签信息。

25、优选的,步骤s16中,印章检测网络训练中的损失函数loss包括:模型对标签分类的准确率,即预测框是否能正确分到印章类别,记为loss_cls;检测得到的预测框与真实框即印章检测框之间的坐标以及高和宽的差异,记为loss_box;检测得到的预测框包含印章的可能性和预测框完整包含印章的准确性,记为loss_obj;即loss=concat(loss_cls,loss_box,loss_obj);训练过程中,采用adam优化器,利用反向传播和梯度下降法进行训练。

26、优选的,步骤s16中,印章检测网络采用yolo-spp网络检测模型。

27、优选的,步骤s4中,用聚类算法获取印章区域图像img的像素聚类中心点,包括印章、字符和背景三个中心点,分别记为ps、pc和pg,具体过程如下所示:

28、s41,从印章区域图像img中选取3个像素点作为中心点,构建集合p,p={p1,p2,p3}即p={pz|z=1,2,3},为中心点pz的rgb像素值,计算印章区域图像img中的各个像素点pixv到集合p中每个中心点pz的距离distp,将印章区域图像img中的像素点pixi分配给距离最近的中心点pz;

29、定义损失函数ploss=min(∑distp(pixv,pz));

30、从印章区域图像img中重新选取3个像素点作为中心点,迭代更新集合p,重新计算印章区域图像img中的各个像素点pixv到集合p中每个中心点pz的距离distp,直至损失函数ploss收敛,选取损失函数ploss收敛后的3个像素点为最终的中心点;

31、其中,像素点pixv到中心点pz的距离distp的计算方式为:

32、

33、式中,pixv={rv,gv,bv,}为像素点pixv的rgb像素值;

34、s42,对3个中心点即p1、p2和p3进行归类,分别归为印章ps、字符pc和背景pg:

35、对于中心点p1,若中心点p1的且且则该中心点p1归为背景pg,即背景的rgb像素值为

36、对于剩下的两个中心点p2和p3,若则中心点p2归为印章ps,即中心点p3归为字符pc,即字符的rgb像素值为否则,中心点p2归为字符pc,即中心点p3归为印章ps,即印章的rgb像素值为

37、优选的,步骤s5中,对印章区域图像img中的各个像素点pixv进行判断,判断像素点pixv的归类,具体过程如下所示:

38、s51,选取像素点pixv邻域内u个邻域像素点组成集合ct={ct1,ct2,..,ctm,..,ctu},m∈(1,2,...,u),为邻域像素点ctm的rgb像素值;

39、计算像素点pixv分别到印章ps、字符pc和背景pg的距离,分别记为dists={pixv,ps},distc={pixv,pc},distg={pixv,pg};

40、计算邻域内每个像素点ctm分别到印章ps、字符pc和背景pg的距离,分别记为

41、s52,初始化num_s=0,numc=0,num_g=0;

42、若邻域像素点ctm到印章ps的距离最小,则对num_s进行更新,将num_s的值加1;

43、若邻域像素点ctm到字符pc的距离最小,则对num_c进行更新,将num_c的值加1;

44、若邻域像素点ctm到背景pg的距离最小,则对num_g进行更新,将num_g的值加1;

45、遍历像素点pixv邻域内u个邻域像素点ctm后,得到更新后的num_s、num_c、num_g的值;

46、s53,若像素点pixv到印章ps的距离dists小于到背景pg的距离distg,即dists<distg,且像素点pixv到印章ps的距离dists小于到字符pc的距离distc,即dists<distc,则进入步骤s54,否则进入步骤s55;

47、s54,若num_c<num_s,且num_c<num_g,则像素点pixv归为字符pc,将像素点pixv的rgb像素值更新为字符pc的rgb像素值;;否则像素点pixv归为印章ps,将像素点pixv的rgb像素值更新为印章ps的rgb像素值;

48、s55,若像素点pixv到字符pc的距离distc小于到背景pg的距离distg,即distc<distg,且像素点pixv到字符pc的距离distc也小于到印章ps的距离dists,即distc<dists,则像素点pixv归为字符pc,将像素点pixv的rgb像素值更新为字符pc的rgb像素值;否则进入步骤s56;

49、s56,像素点pixv的rgb像素值不变。

50、优选的,步骤s6中,将原始的印章区域图像img与新图像proimg进行加权融合,得到处理后的印章区域图像destimg:

51、destimg=a*img+b*proimg;

52、式中,a和b为加权参数;

53、将处理后的印章区域图像destimg恢复至页面图像上对应的印章位置。

54、本发明的优点在于:

55、(1)本发明的文档印章处理,是要将现有的在整页图像中去除印章的处理,转化为对印章区域图像的处理。本发明利用目标检测方法进行印章位置检测,在检测到印章位置后,基于聚类方法和邻域内的像素关系对印章区域图像进行处理,并将处理后的印章区域图像与原始的印章区域图像进行融合,从而降低了印章像素的饱和度,最大程度的保留遮盖区域字符信息,降低印章遮盖对字符识别的影响。

56、(2)引入目标检测方法,在聚类生成目标检测预生成框时,综合考虑预生成先验框与真实框之间的面积重合程度、以及框长度和宽度之间的相似程度定义距离计算公式,通过该距离公式迭代生成的先验框,提高了印章区域的检测的精确程度,加速了目标检测模型训练过程的收敛。将含有印章图像的整页处理转化为对印章所在区域图像的局部处理,更好地保留了非印章区域的原始图像信息,避免非印章区域像素信息对印章区域像素处理的影响,降低了后续印章处理的复杂程度。同时,通过图像融合技术,将去除印章像素转化为降低印章的颜色饱和度,可以在最大程度上保留印章区域遮盖的字符信息,兼顾后续文本识别的完整性和准确率,有效地降低了印章遮盖对于字符识别的影响。将原始印章图像与经过该方法处理的图像,分别通过百度文本识别,对比识别的结果,该方法处理后的图像在视觉效果提升的同时,还可以以很高标准完成后续文本识别的任务。

57、(3)本发明有针对性的对文档图像中印章区域的像素进行处理,提出了先用检测模型对印章位置进行检测,对检测到的印章区域图像进行后续处理。相比于传统方法,对印章位置和大小的检测更准确,鲁棒性更好;同时,只对印章区域图像进行处理能更好得保留了图像中非印章区域像素的原始像素信息,局部性的处理方法也避免了非印章区域像素的影响,降低了后续印章处理的复杂程度。

58、(4)本发明针对印章区域图像的大小和形状,采用聚类算法生成先验框。在具体实现中,距离的计算公式中综合考虑了预生成的先验框与真实框之间的面积重合程度、以及框的宽和高之间的相似程度,生成的先验框能有效地表征印章框的形状和大小,提供了一种通用的先验框生成方法。该先验框在模型训练过程中,加速了检测模型训练过程中的收敛速度,同时也提高了模型对印章位置检测的精确性和印章大小形状的匹配程度。

59、(5)为了在印章处理过程中,能够最大程度的保留印章遮盖区域的字符信息,本发明基于图像融合的思想,将去除印章转化为降低印章颜色饱和度,相比较于直接去除印章像素的处理,经融合处理的图像中被印章遮盖区域的字符信息更加凸显。具体实现中,本发明基于颜色阈值聚类方法和邻域内的像素关系对印章区域图像进行处理,并采用一定的加权方式将处理后的印章区域图像与原始的印章区域图像进行融合,从而降低了印章像素的饱和度,最大程度的保留遮盖区域字符信息,降低印章遮盖对字符识别的影响。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1