一种端到端的文本识别方法与流程

文档序号：35130026发布日期：2023-08-15 02:06阅读：67来源：国知局

本发明涉及文本识别，更具体地，涉及一种端到端的文本识别方法。

背景技术：

1、端到端文本识别，旨在以端到端的方式检测和识别文本，是计算机视觉领域的一个新兴的主题，可广泛应用于机器翻译、图像检索和自动驾驶等领域。

2、端到端文本识别通常由文本检测和识别模块组成。在早先的工作中，人们将文本检测和文本识别看作是两个相互独立的不同的任务。近年来，越来越多的工作将文本检测与识别统一到同一个端到端的可训练网络中，使检测和识别两部分的信息可以进行互补，这有助于提升模型的性能，称之为端到端文本识别(text spotting)。

3、目前，端到端文本识别主要关注场景文本，场景文本中的亮度变化和方向多样性已经被广泛研究，但由于自然图像中的大多数字符都是以标准印刷体呈现，因此近期工作都忽略了同一字符不同字体的形状差异对识别带来的影响。而在艺术字文本图片的识别中，这一问题对识别的影响会变得突出，也称之为字体多样性(font diversity)问题。

4、在现有技术中，存在多种端到端的文本识别方法。例如，首先使用roi polling通过端到端训练来关联检测和识别特征，但这种方法只能处理水平的文本。又如，提出了roirotate来处理倾斜文本，并通过共享卷积特征有效地连接检测和识别。再如，提出了一个基于mask r-cnn和注意力机制的弯曲文本检测模型，它通过roi masking操作提取特征。然而，在这些方法中，几何先验在文本定位中的重要性均被忽略了，导致文本识别性能下降。几何先验可以帮助深度学习模型提高性能，例如形状补全、位置嵌入和关键点检测。关键点检测可作为一种结构信息来辅助网络学习，但在现有技术中，还不存在基于几何先验的文本识别方案。

5、综上，文本的多样性是文本识别任务的关键挑战，现有的工作已经提出了多种方法来处理场景文本中光照和方向的多样性问题，但由于字符的内在多样性，即字体多样性，不同字体中相同字符的形状差异会导致阅读文本的性能显著下降，因此，目前的文本识别方法还有待改进。

技术实现思路

1、本发明的目的是克服上述现有技术的缺陷，提供一种端到端的文本识别方法。该方法包括以下步骤：

2、获取待识别的文本图片；

3、将所述文本图片输入到经训练的文本识别模型，获得文本识别结果；

4、其中，所述文本识别模型包括特征提取网络，文本检测分支和单字识别分支，所述特征提取网络用于提取文本候选特征和单字候选特征，所述文本检测分支基于文本候选特征预测文本边界框，所述单字识别分支通过针对单字候选特征进行关键点检测来预测单字的边界框和单字内容，所述文本识别结果通过组合落在文本边界框内的单字获得。

5、与现有技术相比，本发明的优点在于，利用端到端的文本识别模型来预测文本边界框，以及单字的边界框和单字内容，并通过组合落在文本边界框内的单字得到文本识别结果，提升了文本识别的准确度。并且针对单字边界框和单字内容的预测，引入了关键点检测，进一步提高了文本识别的鲁棒性，能够准确识别多种场景下的文本内容，尤其适用于具有字体多样性的场景。

6、通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

技术特征：

1.一种端到端的文本识别方法，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述特征提取网络包含骨干特征提取网络和区域候选网络，所述骨干特征提取网络对输入的文本图片进行特征提取，然后经过所述区域候选网络选出包含文本和单字的特征区域，分别得到所述文本候选特征和所述单字候选特征。

3.根据权利要求1所述的方法，其特征在于，所述单字识别分支包含关键点检测模块、图推理模块以及检测和识别模块，其中所述关键点检测模块用于从输入的单字特征中抽取出多个关键点位置，以对单字特征进行位置增强，获得位置增强特征，所述图推理模块针对所述位置增强特征以及相应的单字特征进行融合，获得融合后的单字特征，进而利用所述检测和识别模块提取单字的边界框和单字内容。

4.根据权利要求1所述的方法，其特征在于，在所述文本检测分支中，感兴趣区域对齐操作得到的文本区域特征经过检测网络得到文本分数和边界框，边界框经由掩码模块获得最小内接矩形，进而预测出最终的文本边界框。

5.根据权利要求3所述的方法，其特征在于，所述关键点检测模块包括第一关键点检测网络、特征几何变换模块和第二关键点检测网络，所述第一关键点检测网络用于从单字特征中获取关键点概率图，所述第二关键点检测网络用于从单字特征经由几何变换后，获取估计的关键点概率图。

6.根据权利要求5所述的方法，其特征在于，所述几何变换包括设定幅度范围内的平移、旋转或缩放。

7.根据权利要求5所述的方法，其特征在于，所述第一关键点检测网络和所述第二关键点检测网络具有相同的结构，包含三层卷积，且前两层卷积层后设有批归一化层和激活处理。

8.根据权利要求1所述的方法，其特征在于，所述文本识别结果依据单字的边界框和文本边界框，通过计算交并比iou来判断单字是否落在文本框的区域内，然后按照顺序组合落在区域内的单字，得到最终的文本识别结果。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

技术总结
本发明公开了一种端到端的文本识别方法。该方法包括：获取待识别的文本图片；将所述文本图片输入到经训练的文本识别模型，获得文本识别结果。所述文本识别模型包括特征提取网络，文本检测分支和单字识别分支，所述特征提取网络用于提取文本候选特征和单字候选特征，所述文本检测分支基于文本候选特征预测文本边界框，所述单字识别分支通过针对单字候选特征进行关键点检测来预测单字的边界框和单字内容，所述文本识别结果通过组合落在文本边界框内的单字获得。本发明提高了文本识别的鲁棒性，能够准确识别多种场景下的文本内容，尤其适用于字体多样性的场景。

技术研发人员：郝希烜,付彬,张澳中,孟宪泽,乔宇
受保护的技术使用者：深圳先进技术研究院
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郝希烜付彬张澳中孟宪泽乔宇
技术所有人：深圳先进技术研究院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。