实现针对印章章面进行文字识别提取处理的方法、装置、处理器及其计算机可读存储介质与流程

文档序号:37215283发布日期:2024-03-05 15:03阅读:14来源:国知局
实现针对印章章面进行文字识别提取处理的方法、装置、处理器及其计算机可读存储介质与流程

本发明涉及计算机视觉处理和ocr领域,尤其涉及于印章文字的识别提取领域,具体是指一种实现针对印章章面进行文字识别提取处理的方法、装置、处理器及其计算机可读存储介质。


背景技术:

1、印章从原始社会开始萌芽,一直延续发展到今天,它的形成和发展与我们国家的政治、经济、文化等都有着密切的关系。在当今社会,印章是法人单位对内管理、对外交往的“信物”。法人单位在某一特定的文件上加盖单位印章,一般即可代表单位真实的意思表示。因此,加盖了单位印章的文件、合同、信函等,一般推定为是法人单位意志的体现。正是因为印章有上述重要法律效力,于是就出现了并不持有印章的人为了“办事”方便而持有多枚印章、伪造公章或私刻公章的情形,给人民和国家的经济利益带来了不少的损失。通过自动鉴别真伪图章可以减少诈骗和犯罪率,有效维护国家、集体与个人的利益。因此如何快速有效的对印章内容进行识别、提取,并与印章备案库数据自动比对,通过机器代替或者辅助人工更好的完成比对工作,提高工作效率,具有较大的实践应用前景。

2、随着人工智能和模式识别的发展,ocr技术也得到了极大的进步,ocr技术能够对包含文字信息的图像数据进行检测、识别,提取出文本信息,市场上提供此类产品的机构很多,部分产品效果也很不错。但是,针对印章印模和印迹图像的识别,当前市场上并没有成熟的,能够识别多种类型印章的ocr产品。现有技术的印章文字识别难点在于:(1)文档中盖章的背景复杂多样,签字、污色、图像噪点对印章上的文字识别造成很大干扰;(2)印章样式多样,对不同样式印章的文字识别是一个难点;(3)印章的清晰度、完整性不一给识别带来干扰;(4)通用ocr技术的相关研究基本都基于横排、竖排文字格式,而印章并非此类。


技术实现思路

1、本发明的目的是克服了上述现有技术的缺点,提供了一种满足清晰度高、完整性好、适用范围较为广泛的实现针对印章章面进行文字识别提取处理的方法、装置、处理器及其计算机可读存储介质。

2、为了实现上述目的,本发明的实现针对印章章面进行文字识别提取处理的方法、装置、处理器及其计算机可读存储介质如下:

3、该实现针对印章章面进行文字识别提取处理的方法,其主要特点是,所述的方法包括以下步骤:

4、(1)基于印章外圈进行印章定位;

5、(2)判断印章是圆形或椭圆形印章还是方形印章,如果是圆形或椭圆形印章,则继续步骤(3);如果是方形印章,则继续步骤(4);

6、(3)对圆形或椭圆形印章进行检测识别;

7、(4)对方形印章进行检测识别;

8、(5)通过训练神经网络模型对印章文字进行检测与识别。

9、较佳地,所述的步骤(1)具体包括以下步骤:

10、(1.1)通过高斯模糊方法与中值滤波方法去除图像噪点;

11、(1.2)进行边缘检测;

12、(1.3)进行仿射变换;

13、(1.4)进行杂色去除。

14、较佳地,所述的步骤(1.2)具体包括以下步骤:

15、(1.2.1)通过sobel算子对文件图像进行边缘检测,并将所有连通域轮廓转化为中心线线段;

16、(1.2.2)通过曲线与直线分组为两张图像;

17、(1.2.3)将曲线通过象限拆分分类并通过圆弧求出圆心和长短轴,按圆心等分组拟合出椭圆或圆;将直线通过平行和分类来拟合出矩形或正方形,对拟合形状进行验证过滤操作,得出最终印章形状及其位置信息与拟合轮廓。

18、较佳地,所述的步骤(1.3)具体为:

19、通过仿射变换方法将印章剪切到以印章大小为宽高的图像中,同时对椭圆与方形形状按最小外接矩阵的斜率做初步旋转摆正。

20、较佳地,所述的步骤(1.4)具体为:

21、获取拟合轮廓的主要颜色,并将图像中在一定色域范围外的其他颜色都替换白色背景色。

22、较佳地,所述的步骤(3)具体包括以下步骤:

23、(3.1)通过椭圆轮廓计算椭圆长短轴,如果长短轴超过一定阈值,则为椭圆;否则为圆;如果为椭圆,则通过旋转使长轴为水平方向;

24、(3.2)基于轮廓进行极坐标转换,将椭圆形和圆形文字转换为水平方向做检测识别;

25、(3.3)生成检测图片;

26、(3.4)进行文字检测,得到剪切图;

27、(3.5)进行文字识别。

28、较佳地,所述的步骤(3.2)具体为:

29、将椭圆印章轮廓各点为起点与圆心建立直线,将椭圆短轴为长度截取,作为水平图像的一列,并重复两圈,防止印章名称或印章编码的文字被截断。

30、较佳地,所述的步骤(3.3)具体为:

31、将极坐标转换后的图像作为上半部分图像,对极坐标转换后的图像进行顺时针180°旋转,将旋转后的图像拼接极坐标转换后的图像下方,将拼接后的图像作为待检测图片。

32、较佳地,所述的步骤(3.4)具体为:

33、将得到的待检测图像用dbnet模型进行检测,得到文字分布;通过文字高度区分印章名称与编码,并计算出椭圆或圆的倾斜角度;获取印章名称与印章编码的剪切图。

34、较佳地,所述的步骤(3.5)具体为:

35、将得到的剪切图通过crnn模型进行识别,得到椭圆形或圆形印章的全部文本信息。

36、较佳地,所述的步骤(4)具体包括以下步骤:

37、(4.1)获取矩形倾斜角度,将印章图像摆正,将摆正后的图像作为原始图像;

38、(4.2)生成检测图片;

39、(4.3)进行文字检测,得到文字识别图像。

40、较佳地,所述的步骤(4.2)具体包括以下步骤:

41、将摆正后的印章作为原始图像,分别对原始图像旋转90°、180°、270°得到三张旋转图像,分别把原始图像和三张旋转图像依次前后拼接,拼接后的图像作为待检测图片。

42、较佳地,所述的步骤(4.3)具体包括以下步骤:

43、将得到的待检测图像用dbnet模型进行检测,获取各列文字的剪切图,根据相似度进行判断,从原始图像和三张旋转图像中根据文字检测相似度进行识别,将相似度最高的图像作为文字识别图像。

44、上述步骤(3)中对圆形(椭圆形)印章的检测识别和步骤(4)中对方形印章进行检测识别的具体步骤的中均包含文字识别的具体步骤,虽然对圆形(椭圆形)印章、方形印章的文字提取方式不相同,但是提取后进行识别都是用的crnn模型进行的识别。

45、较佳地,所述的步骤(5)具体包括以下步骤:

46、分别以resnet50和resnet34预训练模型为基础,对文字数据集增做训练,使模型具备横排文字、竖排文字以及少许倾斜角度文字的检测识别能力。

47、该用于实现针对印章章面进行文字识别提取处理的装置,其主要特点是,所述的装置包括:

48、处理器,被配置成执行计算机可执行指令;

49、存储器,存储一个或多个计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述的实现针对印章章面进行文字识别提取处理的方法的各个步骤。

50、该用于实现针对印章章面进行文字识别提取处理的处理器,其主要特点是,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述的实现针对印章章面进行文字识别提取处理的方法的各个步骤。

51、该计算机可读存储介质,其主要特点是,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述的实现针对印章章面进行文字识别提取处理的方法的各个步骤。

52、采用了本发明的实现针对印章章面进行文字识别提取处理的方法、装置、处理器及其计算机可读存储介质,实现在杂色、签字重合、图像噪点等复杂环境下的干扰下,全面、准确、快捷地对圆形(椭圆形)、方形印章等市面常见印章,识别印章名称、印章编码、印章中心图案、印章颜色、印章横版文字。本发明提出了印章章面文字识别提取的创新性解决办法,具有高效、全面、通用的特点,做到全面、准确、快捷的印章文字识别,从而实现高可用性的通用印章章面文字识别提取,便于大规模推广应用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1