文本识别方法、装置、设备、介质及产品与流程

文档序号：37334984发布日期：2024-03-18 17:58阅读：11来源：国知局

本申请涉及数据处理，特别涉及文本识别方法和装置、计算设备、计算机可读存储介质及计算机程序产品。

背景技术：

1、现实中大量的文本资料需要进行数字化处理，其中包括扫描纸质文档、电子书籍、报纸杂志等。利用光学字符识别(optical character recognition，ocr)技术上可以在计算机上识别图像中的文本信息，这提高了处理效率。

2、在现有技术中，在处理长宽比严重失衡的图像时，例如处理特别长的图像或者特别宽的图像时，如果直接识别会导致识别效果较差。如果将图像缩放到固定比例，此时图像中的文本信息又会出现文本单元过小而难以识别。如何准确识别长宽比严重失衡的图像中的文本信息亟待解决。

技术实现思路

1、鉴于此，本申请提供了一种文本识别方法和装置、计算设备、计算机可读存储介质及计算机程序产品，期望缓解或克服上面提到的部分或全部缺陷以及其他可能的缺陷。

2、根据本申请的第一方面，提供了一种文本识别方法，所述方法包括：获取待识别的图像，所述待识别的图像包括文本信息；确定所述待识别的图像的长边和短边之间的比例值；将所述待识别的图像切分为多个文本行图像，其中每个文本行图像包括所述待识别的图像的一行文本信息或者一列文本信息；响应于所述比例值大于第一阈值，针对每个文本行图像，执行下述步骤：沿着所述文本行图像的长边将所述文本行图像切分为多个子图像，以得到子图像序列，其中每个子图像包括部分文本信息，每次子图像的序号根据每个子图像在所述文本行图像中的相对位置来确定；识别所述子图像序列中的各个子图像，以得到子文本信息序列，其中所述子文本信息序列包括多个子文本信息，每个子文本信息对应于一个子图像；根据所述子文本信息序列确定所述文本行图像中的文本信息；根据每个文本行图像中的文本信息确定所述待识别的图像的文本信息。

3、在根据本申请的一些文本识别方法的实施例中，沿着所述文本行图像的长边将所述文本行图像切分为多个子图像，以得到子图像序列，包括：将所述文本行图像处理成灰度图像；根据所述灰度图像中各个像素的灰度，确定非文本像素的灰度，以得到多个非文本像素，其中所述非文本像素是表示非文本信息的像素；从所述多个非文本像素中确定多个候选间隔像素，所述候选间隔像素表示所述像素处于文本单元之间的间隔地带，所述文本单元是构成所述文本信息的基本单元；根据所述第一阈值，从所述多个候选间隔像素确定至少一个切分点，使得经过切分得到的子图像的长边和短边之间的比例值小于或者等于所述第一阈值；根据所述至少一个切分点将所述文本行图像切分成多个子图像。

4、在根据本申请的一些文本识别方法的实施例中，根据所述灰度图像中各个像素的灰度，确定非文本像素的灰度，以得到多个非文本像素，包括：将所述灰度图像处理成二值图像，所述二值图像由灰度为0的像素和灰度为255的像素构成；根据所述二值图像中灰度为0的像素和灰度为255的像素的分布来确定第一灰度，作为所述非文本像素的灰度；将所述二值图像中灰度为所述第一灰度的像素确定为所述非文本像素。

5、在根据本申请的一些文本识别方法的实施例中，根据所述二值图像中灰度为0的像素和灰度为255的像素的分布来确定第一灰度，作为所述非文本像素的灰度，包括：从所述二值图像中确定多个边缘像素的灰度，其中所述边缘像素指示所述像素处于所述二值图像的边缘；将所述多个边缘像素中占比最高的灰度确定为所述第一灰度。

6、在根据本申请的一些文本识别方法的实施例中，根据所述二值图像中灰度为0的像素和灰度为255的像素的分布来确定第一灰度，作为所述非文本像素的灰度，包括：从所述二值图像中确定多个横向中轴线像素的灰度，其中所述横向中轴线像素指示所述像素处于所述二值图像的横向中轴线；将所述多个边缘像素中占比最低的灰度确定为所述第一灰度。

7、在根据本申请的一些文本识别方法的实施例中，第一阈值等于17。

8、在根据本申请的一些文本识别方法的实施例中，将所述文本行图像处理成灰度图像，包括：使用高斯低通滤波算法处理所述文本行图像，以得到灰度图像。

9、在根据本申请的一些文本识别方法的实施例中，将所述文本行图像处理成灰度图像，包括：使用非局部均值算法处理所述文本行图像，以得到灰度图像。

10、在根据本申请的一些文本识别方法的实施例中，将所述灰度图像处理成二值图像，包括：使用自适应阈值算法处理所述灰度图像，以得到二值图像。

11、根据本申请的第二方面，提供了一种文本识别装置，其特征在于，所述装置包括：获取模块，配置为获取待识别的图像，所述待识别的图像包括文本信息；确定模块，配置为确定所述待识别的图像的长边和短边之间的比例值；第一切分模块，配置为将所述待识别的图像切分为多个文本行图像，其中每个文本行图像包括所述待识别的图像的一行文本信息或者一列文本信息；第二切分模块，配置为响应于所述比例值大于第一阈值，针对每个文本行图像，执行下述步骤：沿着所述文本行图像的长边将所述文本行图像切分为多个子图像，以得到子图像序列，其中每个子图像包括部分文本信息，每次子图像的序号根据每个子图像在所述文本行图像中的相对位置来确定；识别所述子图像序列中的各个子图像，以得到子文本信息序列，其中所述子文本信息序列包括多个子文本信息，每个子文本信息对应于一个子图像；根据所述子文本信息序列确定所述文本行图像中的文本信息；识别模块，配置为根据每个文本行图像中的文本信息确定所述待识别的图像的文本信息。

12、根据本申请的第三方面，提供了一种计算设备，包括存储器和处理器，其中所述存储器中存储有计算机程序，所述计算机程序在被所述处理器执行时促使所述处理器执行根据本申请一些实施例的文本识别方法的步骤。

13、根据本申请的第四方面，提供了一种计算机可读存储介质，其上存储计算机可读指令，所述计算机可读指令在被执行时实现根据本申请一些实施例的文本识别方法。

14、根据本申请的第五方面，提供了一种计算机程序产品，包括计算机指令，计算机指令在被处理器执行时实现根据本申请一些实施例的文本识别方法。

15、在根据本申请一些实施例的文本识别方法和装置中，先将待识别的图像切分成多个文本行图像，再将每个文本行图像进一步切分为多个子图像，从而确保在不进行缩放的情况下，平衡子图像的长边和短边的比值，最后将识别的文本信息整合起来以得到完整的文本信息，这可以提高识别文本信息的准确率。

16、根据下文描述的实施例，本申请的这些和其它优点将变得清楚，并且参考下文描述的实施例来阐明本申请的这些和其它优点。

技术特征：

1.一种文本识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述沿着所述文本行图像的长边将所述文本行图像切分为多个子图像，以得到子图像序列，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述灰度图像中各个像素的灰度，确定非文本像素的灰度，以得到多个非文本像素，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述二值图像中灰度为0的像素和灰度为255的像素的分布来确定第一灰度，作为所述非文本像素的灰度，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述二值图像中灰度为0的像素和灰度为255的像素的分布来确定第一灰度，作为所述非文本像素的灰度，包括：

6.根据权利要求1所述的方法，其特征在于，所述第一阈值等于17。

7.根据权利要求1所述的方法，其特征在于，所述将所述文本行图像处理成灰度图像，包括：

8.根据权利要求1所述的方法，其特征在于，所述将所述文本行图像处理成灰度图像，包括：

9.根据权利要求3所述的方法，其特征在于，所述将所述灰度图像处理成二值图像，包括：

10.一种文本识别装置，其特征在于，所述装置包括：

11.一种计算设备，包括：

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，当所述计算机可执行指令被执行时，执行如权利要求1-9中的任一项所述的方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机可执行指令，计算机可执行指令在被执行时实现根据权利要求1至9中任一项所述的方法。

技术总结
本申请公开了一种文本识别方法，其特征在于，该方法包括：获取待识别的图像；确定待识别的图像的长边和短边之间的比例值；将待识别的图像切分为多个文本行图像；响应于比例值大于第一阈值，针对每个文本行图像，执行下述步骤：沿着文本行图像的长边将文本行图像切分为多个子图像，以得到子图像序列；识别子图像序列中的各个子图像，以得到子文本信息序列，其中子文本信息序列包括多个子文本信息，每个子文本信息对应于一个子图像；根据子文本信息序列确定文本行图像中的文本信息；根据每个文本行图像中的文本信息确定待识别的图像的文本信息。根据本申请的文本识别方法针对较长或较宽的图像具有较好的识别能力。

技术研发人员：王文烨,陈毓靖,林文楷,陈子沣,朱海勇,吴文
受保护的技术使用者：厦门市美亚柏科信息安全研究所有限公司
技术研发日：
技术公布日：2024/3/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王文烨,陈毓靖,林文楷,陈子沣,朱海勇,吴文
技术所有人：厦门市美亚柏科信息安全研究所有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。