图像文本检测方法、装置、计算机设备及存储介质

文档序号：37593554发布日期：2024-04-18 12:28阅读：8来源：国知局

本发明涉及文本检测，尤其涉及一种图像文本检测方法、装置、计算机设备及存储介质。

背景技术：

1、随着电子移动设备数量的增长和互联网时代用户使用习惯的改变，越来越多的文字信息以图片为载体进行传播。文字不同于普通视觉元素的信息来源，可以和其他视觉元素信息形成互补，包含了大量的高层语义，准确有效地定位这些文字信息在多媒体检索、人机交互、机器人导航和工业自动化领域具有重要的应用。

2、图像文本检测是一个非常具有挑战性的研究课题，它的主要难点在于自然图像场景比较复杂、类文本目标干扰多、图像模糊不清、文本几何外观变异较大、字体样式颜色信息丰富、字符排列布局不规则等。当前的主流方法主要是采用基于回归或基于分割的方法直接预测文本区域，聚焦于让网络去学习文本的实例边界，然而，文本复杂本质上是因为文本基本元素字符的分布规律复杂，主流方法对图像文本检测的效果仍然不佳。

技术实现思路

1、基于此，有必要针对现有技术的图像文本检测效果较差的技术问题，提出了一种图像文本检测方法、装置、计算机设备及存储介质。

2、第一方面，提供了一种图像文本检测方法，所述方法包括：

3、获取待检测图像；

4、根据所述待检测图像以及特征提取模型中进行特征提取，得到图像特征；

5、根据所述图像特征、关系矩阵以及训练好的字符联系模型，得到文本联系矩阵，其中，所述关系矩阵是根据所述待检测图像中的字符进行矩阵构建得到的；

6、根据所述图像特征以及训练好的检测分割模型，得到预测字符框和文本掩码；

7、根据所述文本联系矩阵、所述预测字符框以及所述文本掩码，确定待检测图像中的目标文本。

8、第二方面，提供了一种图像文本检测装置，所述装置包括：

9、获取模块，用于获取待检测图像；

10、特征提取模块，用于根据所述待检测图像以及特征提取模型中进行特征提取，得到图像特征；

11、文本联系模块，用于根据所述图像特征、关系矩阵以及训练好的字符联系模型，得到文本联系矩阵，其中，所述关系矩阵是根据所述待检测图像中的字符进行矩阵构建得到的；

12、检测分割模块，用于根据所述图像特征以及训练好的检测分割模型，得到预测字符框和文本掩码；

13、确定模块，用于根据所述文本联系矩阵、所述预测字符框以及所述文本掩码，确定待检测图像中的目标文本。

14、第三方面，提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述图像文本检测方法的步骤。

15、第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述图像文本检测方法的步骤。

16、本发明提出的图像文本检测方法，通过获取待检测图像，然后根据所述待检测图像以及特征提取模型中进行特征提取，得到图像特征，接着根据所述图像特征、关系矩阵以及训练好的字符联系模型，得到文本联系矩阵，其中，所述关系矩阵是根据所述待检测图像中的字符进行矩阵构建得到的，并根据所述图像特征以及训练好的检测分割模型，得到预测字符框和文本掩码，最后根据所述文本联系矩阵、所述预测字符框以及所述文本掩码，确定待检测图像中的目标文本，能够通过字符联系模型对待检测图像的图像特征进行处理得到文本联系矩阵，最后通过该文本联系矩阵、预测字符框以及所述文本掩码，实现对待检测图像中的目标文本的准确预测，该文本联系矩阵可以知道字符之间的联系，考虑了所有的字符，这意味着单个元素的预测错误不会直接影响总体结果，具有较高的鲁棒性，显著提升了图像文本检测的效果。

技术特征：

1.一种图像文本检测方法，其特征在于，所述图像文本检测方法包括：

2.根据权利要求1所述的图像文本检测方法，其特征在于，所述特征提取模型包括依次连接的残差网络以及编码器，所述根据所述待检测图像以及特征提取模型中进行特征提取，得到图像特征的步骤包括：

3.根据权利要求1所述的图像文本检测方法，其特征在于，所述根据所述图像特征、关系矩阵以及训练好的字符联系模型，得到文本联系矩阵包括：

4.根据权利要求3所述的图像文本检测方法，其特征在于，所述字符联系模型包括：多点可形变注意力层、第一add&norm层、第一ffn层、第二add&norm层、第二ffn层，所述多点可形变注意力层与所述第一add&norm层连接，所述第一add&norm层与所述第一ffn层连接，所述第一ffn层连接与所述第二add&norm层，所述第二add&norm层与所述第二ffn层连接，所述基于所述运算结果、所述解码器嵌入、所述图像特征、预设的参考点集以及所述字符联系模型，得到文本联系矩阵的步骤包括：

5.根据权利要求4所述的图像文本检测方法，其特征在于，所述多点可形变注意力层由下式表示：

6.根据权利要求1所述的图像文本检测方法，其特征在于，所述根据所述文本联系矩阵、所述预测字符框以及所述文本掩码，确定待检测图像中的目标文本的步骤包括：

7.根据权利要求6所述的图像文本检测方法，其特征在于，所述基于各个所述第一评价结果以及各个所述目标字符集合，确定待检测图像中的目标文本的步骤包括：

8.一种图像文本检测装置，其特征在于，所述图像文本检测装置包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述图像文本检测方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像文本检测方法的步骤。

技术总结
本申请涉及图像文本检测技术领域，揭示了一种图像文本检测方法、装置、计算机设备及存储介质，方法包括：获取待检测图像；根据待检测图像以及特征提取模型中进行特征提取，得到图像特征；根据图像特征、关系矩阵以及训练好的字符联系模型，得到文本联系矩阵；根据图像特征、检测分割模型，得到预测字符框和文本掩码；根据文本联系矩阵、预测字符框以及文本掩码，确定目标文本，能够通过字符联系模型得到文本联系矩阵，并通过该文本联系矩阵、预测字符框以及文本掩码，实现对目标文本的准确预测，该文本联系矩阵具有字符之间的联系，意味着单个元素的预测错误不会直接影响总体结果，具有较高的鲁棒性，显著提升了图像文本检测的效果。

技术研发人员：王健军,付彬,云炫戊,乔宇
受保护的技术使用者：中国科学院深圳先进技术研究院
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王健军,付彬,云炫戊,乔宇
技术所有人：中国科学院深圳先进技术研究院
我是此专利的发明人

上一篇：一种多功能纳米纤维水凝胶及其制备方法和应用
上一篇：一种表面有粘性的超薄导热绝缘垫片及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。