包含多行文本的图像识别方法、装置及计算机设备与流程

文档序号：34656637发布日期：2023-07-04 20:24阅读：19来源：国知局

本申请实施例涉及图像处理，特别是涉及一种包含多行文本的图像识别方法、装置及计算机设备。

背景技术：

1、随着图像处理技术的不断发展，利用计算机实现对图片中文字的自动识别已逐渐成熟。日常生活中，常需要对包含有多行文本的图片进行识别，从而得到图片中的多行文本内容，例如，在物流码识别场景下，需要对物流码图片进行识别，以获取其中包含的物流码信息，便于物流管控。

2、然而，现有的文本识别方法仅限于对单行文本的精准识别，面对多行文本识别任务时，由于文本呈现出双行结构，且上下多行定长的数字文本紧密排列、行间较小，不可避免存在字迹模糊，极易导致各个文本行的检测精准度不高，因此总是容易出现检偏、漏检等异常情况，影响到识别性能。

3、因此，现有的多行文本识别方法存在着识别准确率不高的技术问题。

技术实现思路

1、本申请的目的在于提供一种包含多行文本的图像识别方法、装置及计算机设备，用以提升图像所含多行文本的字符识别准确率。

2、第一方面，本申请提供一种包含多行文本的图像识别方法，包括：

3、获取待识别图像；

4、响应于待识别图像为包含多行文本的目标图像，对目标图像进行归一化处理，得到归一化后的目标图像；

5、将归一化后的目标图像输入至已训练的文本识别模型，输出字符匹配概率；其中，已训练的文本识别模型包括用于对归一化后的目标图像进行特征维度分析的数据变换层；

6、根据字符匹配概率，确定待识别图像所含多行文本的文本字符。

7、在本申请一些实施例中，已训练的文本识别模型包括特征提取层、数据变换层、分类层以及连接主义时间分类层；其中，将归一化后的目标图像输入至已训练的文本识别模型，输出字符匹配概率，包括：将归一化后的目标图像输入至已训练的文本识别模型，通过特征提取层对归一化后的目标图像进行特征提取，得到图像特征图；通过数据变换层对图像特征图进行特征维度分析，得到图像矩阵；通过分类层对图像矩阵进行字符分类，得到字符分类向量；通过连接主义时间分类层对字符分类向量进行损失分析，得到字符匹配概率。

8、在本申请一些实施例中，已训练的文本识别模型还包括循环网络层；其中，在通过数据变换层对图像特征图进行特征维度分析，得到图像矩阵之后，还包括：通过循环网络层对图像矩阵进行序列分析，得到目标矩阵向量；其中，目标矩阵向量用于通过分类层进行字符分类。

9、在本申请一些实施例中，数据变换层包括维度拆分网络、维度交换网络以及维度合并网络；其中，通过数据变换层对图像特征图进行特征维度分析，得到图像矩阵，包括：通过维度拆分网络对图像特征图进行维度拆分，得到拆分后的图像特征图；通过维度交换网络对拆分后的图像特征图进行维度交换，得到交换后的图像特征图；通过维度合并网络对交换后的图像特征图进行维度合并，得到图像矩阵。

10、在本申请一些实施例中，在将归一化后的目标图像输入至已训练的文本识别模型之前，还包括：构建初始的文本识别模型；文本识别模型由特征提取层、数据变换层、分类层以及连接主义时间分类层构成；获取多行文本图像集，并将多行文本图像集划分为训练集和测试集；多行文本图像集包括多个已标注文本字符的图像；文本字符是根据预设的字符序号映射表查询确定的；使用训练集对初始的文本识别模型进行训练，得到初步训练后的文本识别模型；使用测试集对初步训练后的文本识别模型进行测试调整，得到已训练的文本识别模型。

11、在本申请一些实施例中，获取多行文本图像集，包括：获取多行文本图像，并对多行文本图像进行文本字符标注，得到已标注文本字符的多行文本图像，作为候选文本图像；分析候选文本图像的图像格式、图像尺寸和/或图像特征；根据图像格式、图像尺寸以及图像特征中的至少一个，筛选出满足于预设模型训练条件的候选文本图像，作为目标文本图像；对目标文本图像进行数据扩增，统计得到多行文本图像集。

12、在本申请一些实施例中，响应于待识别图像为包含多行文本的目标图像，对目标图像进行归一化处理，得到归一化后的目标图像，包括：调用已训练的文本检测模型，已训练的文本检测模型包括east模型；将待识别图像输入至已训练的文本检测模型，得到模型输出结果；响应于模型输出结果为多行文本矩形框，确定待识别图像为包含多行文本的目标图像；基于预设的插值方法，对目标图像进行归一化处理，得到归一化后的目标图像。

13、第二方面，本申请提供一种包含多行文本的图像识别装置，包括：

14、图像获取模块，用于获取待识别图像；

15、图像处理模块，用于响应于待识别图像为包含多行文本的目标图像，对目标图像进行归一化处理，得到归一化后的目标图像；

16、文本识别模块，用于将归一化后的目标图像输入至已训练的文本识别模型，输出字符匹配概率；其中，已训练的文本识别模型包括用于对归一化后的目标图像进行特征维度分析的数据变换层；

17、字符确定模块，用于根据字符匹配概率，确定待识别图像所含多行文本的文本字符。

18、第三方面，本申请还提供一种计算机设备，包括：

19、一个或多个处理器；

20、存储器；以及一个或多个应用程序，其中的一个或多个应用程序被存储于存储器中，并配置为由处理器执行以实现上述包含多行文本的图像识别方法。

21、第四方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器进行加载，以执行包含多行文本的图像识别方法中的步骤。

22、第五方面，本申请实施例提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面提供的方法。

23、上述包含多行文本的图像识别方法、装置及计算机设备，服务器通过获取待识别图像，可响应于待识别图像为包含多行文本的目标图像，对目标图像进行归一化处理，得到归一化后的目标图像，进而将归一化后的目标图像输入至已训练的文本识别模型，输出字符匹配概率，即可根据字符匹配概率，确定待识别图像所含多行文本的文本字符；其中，已训练的文本识别模型包括用于对归一化后的目标图像进行特征维度分析的数据变换层。如此，将多行文本作为整体一起检测识别，即可避免图像中的文本行硬检测，进而提高图像所含多行文本的字符识别准确率。

技术特征：

1.一种包含多行文本的图像识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述已训练的文本识别模型包括特征提取层、数据变换层、分类层以及连接主义时间分类层；其中，

3.如权利要求2所述的方法，其特征在于，所述已训练的文本识别模型还包括循环网络层；其中，

4.如权利要求3所述的方法，其特征在于，所述数据变换层包括维度拆分网络、维度交换网络以及维度合并网络；其中，

5.如权利要求1所述的方法，其特征在于，在所述将所述归一化后的目标图像输入至已训练的文本识别模型之前，还包括：

6.如权利要求5所述的方法，其特征在于，所述获取多行文本图像集，包括：

7.如权利要求1所述的方法，其特征在于，所述响应于所述待识别图像为包含多行文本的目标图像，对所述目标图像进行归一化处理，得到归一化后的目标图像，包括：

8.一种包含多行文本的图像识别装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括：

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1至7任一项所述的包含多行文本的图像识别方法中的步骤。

技术总结
本申请提供一种包含多行文本的图像识别方法、装置及计算机设备，方法包括：获取待识别图像；响应于待识别图像为包含多行文本的目标图像，对目标图像进行归一化处理，得到归一化后的目标图像；将归一化后的目标图像输入至已训练的文本识别模型，输出字符匹配概率；其中，已训练的文本识别模型包括用于对归一化后的目标图像进行特征维度分析的数据变换层；根据字符匹配概率，确定待识别图像所含多行文本的文本字符。采用本方法，能够提高图像所含多行文本的字符识别准确率。

技术研发人员：喻雨峰
受保护的技术使用者：顺丰科技有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：喻雨峰
技术所有人：顺丰科技有限公司
我是此专利的发明人

上一篇：电容触控数据处理方法、装置及存储介质与流程
上一篇：大位移伸缩装置用活动钢枕及梁端伸缩装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。