文档图像矫正方法、装置、电子设备及可读介质与流程

文档序号:34883176发布日期:2023-07-25 14:21阅读:29来源:国知局
文档图像矫正方法、装置、电子设备及可读介质与流程

本发明是关于图像处理,特别是关于一种文档图像矫正方法、装置、电子设备及可读介质。


背景技术:

1、现有技术中,文档图像中的文本内容一般是通过ocr(optical characterrecognition,光学字符识别)技术识别。在进行ocr识别时,通常要求文档图像的放置方向与ocr的识别方向匹配,否则容易导致ocr识别结果错误,出现大量的乱码。

2、因此,针对上述技术问题,有必要提供一种文档图像矫正方法、装置、电子设备及可读介质。


技术实现思路

1、本发明的目的在于提供一种文档图像矫正方法、装置、电子设备及可读介质,其能够矫正文档图像的方向,以提高文档图像的ocr识别准确率。

2、为实现上述目的,本发明提供的技术方案如下:

3、第一方面,本发明提供了一种文档图像矫正方法,其包括:

4、对待矫正文档图像进行文本检测和文本识别,获取第一文本检测结果和第一文本识别结果,计算所述第一文本识别结果的第一置信度;当所述第一置信度小于或等于第一阈值时,基于所述第一文本检测结果和第一文本识别结果,确定所述待矫正文档图像中文本字条的排布方向,并基于所述排布方向旋转所述待矫正文档图像;对所述旋转后的待矫正文档图像进行文本识别,获取第二文本识别结果,计算所述第二文本识别结果的第二置信度,基于所述第一置信度和所述第二置信度,矫正所述待矫正文档图像。

5、在一个或多个实施方式中,对待矫正文档图像进行文本检测和文本识别,获取所述第一文本检测结果和第一文本识别结果,计算所述第一文本识别结果的第一置信度,包括:对待矫正文档图像进行文本检测,以获取所述待矫正文档图像中的文本字条;对所述文本字条进行文本识别,以获取所述第一文本识别结果;获取所述第一文本识别结果中各个字符的概率值,并基于所述概率值计算所述第一文本识别结果的第一置信度。

6、在一个或多个实施方式中,基于所述概率值计算所述第一文本识别结果的第一置信度,包括:计算所述第一文本识别结果中所有字符的概率值的平均值,以所述平均值为第一置信度;或选取所述第一文本识别结果所有字符中概率值较大的n个字符,计算所述选取的n个字符的概率值的平均值,以所述平均值为第一置信度;其中,n为正整数且n与所述第一文本识别结果中所有字符的总个数的比值不小于二分之一。

7、在一个或多个实施方式中,基于所述第一文本检测结果和第一识别结果,确定所述待矫正文档图像中文本字条的排布方向,包括:基于所述第一文本检测结果和第一识别结果,确定所述待矫正文档图像中单字符文本框相对于总文本框的占比;当所述占比大于第二阈值时,所述待矫正文档图像中文本字条的排布方向确定为纵向,将所述待矫正文档图像旋转90°;当所述占比小于或等于第二阈值时,所述待矫正文档图像中文本字条的排布方向确定为横向,将所述待矫正文档图像旋转180°。

8、在一个或多个实施方式中,对所述旋转后的待矫正文档图像进行文本识别,获取第二文本识别结果,计算所述第二文本识别结果的第二置信度,基于所述第一置信度和所述第二置信度,矫正所述待矫正文档图像,包括:对旋转180°后的待矫正文档图像进行文本识别,获取第二文本识别结果,计算所述第二文本识别结果的第二置信度,判断所述第二置信度是否大于所述第一置信度;当所述第二置信度大于所述第一置信度时,结束对所述待矫正文档图像的矫正;当所述第二置信度小于或等于所述第一置信度时,将所述旋转180°后的待矫正文档图像旋转180°,以矫正所述待矫正文档图像。

9、在一个或多个实施方式中,对所述旋转后的待矫正文档图像进行文本识别,获取第二文本识别结果,计算所述第二文本识别结果的第二置信度,基于所述第一置信度和所述第二置信度,矫正所述待矫正文档图像,包括:对旋转90°后的待矫正文档图像进行文本识别,获取第二文本识别结果,计算所述第二文本识别结果的第二置信度,判断所述第二置信度是否大于所述第一阈值;当所述第二置信度大于所述第一阈值时,结束对所述待矫正文档图像的矫正。

10、在一个或多个实施方式中,所述方法还包括:当所述第二置信度小于或等于所述第一阈值时,将所述旋转90°后的待矫正文档图像旋转180°;对所述旋转180°后的待矫正文档图像进行文本识别,获取第三文本识别结果,计算所述第三文本识别结果的第三置信度,判断所述第三置信度是否大于所述第二置信度;当所述第三置信度大于所述第二置信度时,结束对所述待矫正文档图像的矫正;当所述第三置信度小于或等于所述第二置信度时,将所述旋转180°后的待矫正文档图像旋转180°,以矫正所述待矫正文档图像。

11、在一个或多个实施方式中,所述方法还包括:当所述第一置信度大于第一阈值时,结束对所述待矫正文档图像的矫正。

12、第二方面,本发明提供了一种文档图像矫正装置,其包括:

13、计算模块,用于对待矫正文档图像进行文本检测和文本识别,获取第一文本检测结果和第一文本识别结果,以计算所述第一文本识别结果的第一置信度;旋转模块,用于在所述第一置信度小于或等于第一阈值时,基于所述第一文本检测结果和第一文本识别结果,确定所述待矫正文档图像中文本字条的排布方向,并基于所述排布方向旋转所述待矫正文档图像;矫正模块,用于对所述旋转后的待矫正文档图像进行文本识别,获取第二文本识别结果,计算所述第二文本识别结果的第二置信度,基于所述第一置信度和所述第二置信度,矫正所述待矫正文档图像。

14、第三方面,本发明提供了一种电子设备,包括存储器、处理器、以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如前所述的文档图像矫正方法。

15、第四方面,本发明提供了一种计算机可读介质,所述计算机可读介质中承载有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如前所述的文档图像矫正方法。

16、与现有技术相比,本发明提供的文档图像矫正方法,通过对待矫正文档图像进行文本检测和文本识别,获取第一文本检测结果和第一文本识别结果,以计算第一文本识别结果的第一置信度,并基于第一置信度和第一阈值的关系,对待矫正文档图像进行矫正,能够将待矫正文档图像矫正至其标准方向,以提高文档图像的ocr识别准确率;该方法可直接利用ocr系统中的文本检测模型和文本识别模型结果,而无需额外训练其他模型,能够节省计算机资源,且能达到较高的矫正准确率。



技术特征:

1.一种文档图像矫正方法,其特征在于,包括:

2.如权利要求1所述的文档图像矫正方法,其特征在于,对待矫正文档图像进行文本检测和文本识别,获取第一文本检测结果和第一文本识别结果,计算所述第一文本识别结果的第一置信度,包括:

3.如权利要求2所述的文档图像矫正方法,其特征在于,基于所述概率值计算所述第一文本识别结果的第一置信度,包括:

4.如权利要求1所述的文档图像矫正方法,其特征在于,基于所述第一文本检测结果和第一文本识别结果,确定所述待矫正文档图像中文本字条的排布方向,并基于所述排布方向旋转所述待矫正文档图像,包括:

5.如权利要求4所述的文档图像矫正方法,其特征在于,对所述旋转后的待矫正文档图像进行文本识别,获取第二文本识别结果,计算所述第二文本识别结果的第二置信度,基于所述第一置信度和所述第二置信度,矫正所述待矫正文档图像,包括:

6.如权利要求4所述的文档图像矫正方法,其特征在于,对所述旋转后的待矫正文档图像进行文本识别,获取第二文本识别结果,计算所述第二文本识别结果的第二置信度,基于所述第一置信度和所述第二置信度,矫正所述待矫正文档图像,包括:

7.如权利要求6所述的文档图像矫正方法,其特征在于,所述方法还包括:

8.如权利要求1所述的文档图像矫正方法,其特征在于,所述方法还包括:

9.一种文档图像矫正装置,其特征在于,包括:

10.一种电子设备,包括存储器、处理器、以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~8中任一项所述的文档图像矫正方法。

11.一种计算机可读介质,其特征在于,所述计算机可读介质中承载有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1~8中任一项所述的文档图像矫正方法。


技术总结
本发明公开了一种文档图像矫正方法、装置、电子设备及可读介质,该文档图像矫正方法包括:对待矫正文档图像进行文本检测和文本识别,获取第一文本检测结果和第一文本识别结果,计算第一文本识别结果的第一置信度;当第一置信度小于或等于第一阈值时,基于第一文本检测结果和第一文本识别结果,确定待矫正文档图像中文本字条的排布方向,并基于所述排布方向旋转待矫正文档图像;对旋转后的待矫正文档图像进行文本识别,获取第二文本识别结果,计算第二文本识别结果的第二置信度,基于第一置信度和第二置信度,矫正待矫正文档图像。本发明提供的文档图像矫正方法,能够将待矫正文档图像矫正至其标准方向,以提高文档图像的OCR识别准确率。

技术研发人员:陶提
受保护的技术使用者:上海太美数字科技有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1