一种弯曲文本检测模型训练方法、装置、设备及存储介质与流程

文档序号：36414859发布日期：2023-12-19 12:58阅读：30来源：国知局

本发明涉及文本检测领域，特别涉及一种弯曲文本检测模型训练方法、装置、设备及存储介质。

背景技术：

1、在当今数字化时代，计算机视觉技术的迅猛发展已经催生了许多创新应用，其中文本检测作为一项关键技术，广泛应用于自动驾驶、图像标注、文档分析等领域。现代文本检测技术倚赖深度神经网络的高性能，这些网络通过在大规模标记数据集上的训练，实现了在标准场景下的出色表现。

2、尽管文本检测技术在处理标准文本场景中取得了显著进展，但在处理自然图像中的变化多样的文本时仍然存在挑战。自然图像中的文本可能具有不同的大小、形状、颜色和字体，这种多样性使得准确检测文本区域变得更加困难。特别是弯曲文本实例，由于其不规则的形状和方向，对现有文本检测算法提出了独特的挑战。然而，与标准文本相比，弯曲文本实例在现有文本检测数据集中的样本数量相对较少，这导致现有算法在弯曲文本检测方面表现不尽如人意。因此，如何训练文本检测算法使该算法能够更好地适应复杂的弯曲文本情景是本领域有待解决的问题。

技术实现思路

1、有鉴于此，本发明的目的在于提供一种弯曲文本检测模型训练方法、装置、设备及存储介质，通过创建包含弯曲文本的合成图像，引入合成图像和弯曲文本的多边形边界区域注释作为训练数据进行文本检测算法训练，能够提高在自然图像中检测弯曲文本的准确性和鲁棒性。其具体方案如下：

2、第一方面，本申请提供了一种弯曲文本检测模型训练方法，包括：

3、获取预设图像库的初始图像和预设单词数据库的弯曲文本，根据所述弯曲文本生成弯曲文本实例，并基于预设文本嵌入规则将所述弯曲文本实例嵌入所述初始图像的目标位置，以生成插入所述弯曲文本实例的合成图像；

4、生成所述合成图像中的所述弯曲文本实例的多边形轮廓，根据预设标注规则对所述多边形轮廓进行标注得到对应的多边形边界区域信息，并将所述多边形边界区域信息保存至json文件中；

5、基于预设深度学习模型构建初始文本检测器，并基于所述合成图像和对应的所述json文件中的所述多边形边界区域信息构建数据集，以根据所述数据集利用torchvision对所述初始文本检测器进行模型调整和训练，生成目标文本检测器。

6、可选的，所述生成所述合成图像中的所述弯曲文本实例的多边形轮廓，包括：

7、根据预设图像生成脚本在所述合成图像中确定待标注的所述弯曲文本实例的定位，并根据所述定位确定所述多边形轮廓的边界起始点；

8、基于所述边界起始点依次绘制所述多边形轮廓的若干边界点，以根据所述边界起始点和所述边界点生成所述弯曲文本实例的所述多边形轮廓。

9、可选的，所述根据预设标注规则对所述多边形轮廓进行标注得到对应的多边形边界区域信息，包括：

10、根据英文字母按照顺时针顺序标注所述边界起始点和若干所述边界点；

11、在若干所述边界点标注完成后，再次标注所述边界起始点以闭合所述多边形轮廓，并根据标注后的所述多边形轮廓得到对应的所述多边形边界区域信息。

12、可选的，所述根据标注后的所述多边形轮廓得到对应的所述多边形边界区域信息，包括：

13、根据标注后的所述多边形轮廓记录所述边界起始点和若干所述边界点的坐标，并根据所述坐标确定所述多边形边界区域信息。

14、可选的，所述将所述弯曲文本实例嵌入所述初始图像的目标位置，包括：

15、通过使用正弦函数模拟所述弯曲文本中的每个单词中字母的位移将所述弯曲文本实例嵌入所述初始图像的所述目标位置。

16、可选的，所述生成目标文本检测器之后，还包括：

17、利用mask r-cnn方法生成所述数据集中的所述合成图像的分割掩码，并利用所述目标文本检测器对所述分割掩码进行文本检测。

18、可选的，所述生成所述数据集中的所述合成图像的分割掩码，包括：

19、利用所述目标文本检测器基于所述合成图像对应的所述多边形边界区域信息生成彩色蒙版；

20、将所述彩色蒙版转换为灰度图像，并根据所述灰度图像生成对应的分割掩码。

21、第二方面，本申请提供了一种弯曲文本检测模型训练装置，包括：

22、图像生成模块，用于获取预设图像库的初始图像和预设单词数据库的弯曲文本，根据所述弯曲文本生成弯曲文本实例，并基于预设文本嵌入规则将所述弯曲文本实例嵌入所述初始图像的目标位置，以生成插入所述弯曲文本实例的合成图像；

23、信息确定模块，用于生成所述合成图像中的所述弯曲文本实例的多边形轮廓，根据预设标注规则对所述多边形轮廓进行标注得到对应的多边形边界区域信息，并将所述多边形边界区域信息保存至json文件中；

24、模型训练模块，用于基于预设深度学习模型构建初始文本检测器，并基于所述合成图像和对应的所述json文件中的所述多边形边界区域信息构建数据集，以根据所述数据集利用torchvision对所述初始文本检测器进行模型调整和训练，生成目标文本检测器。

25、第三方面，本申请提供了一种电子设备，所述电子设备包括处理器和存储器；其中，所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现前述的弯曲文本检测模型训练方法。

26、第四方面，本申请提供了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述的弯曲文本检测模型训练方法。

27、本申请中，首先获取预设图像库的初始图像和预设单词数据库的弯曲文本，然后根据所述弯曲文本生成弯曲文本实例，并基于预设文本嵌入规则将所述弯曲文本实例嵌入所述初始图像的目标位置，从而生成插入所述弯曲文本实例的合成图像。之后生成所述合成图像中的所述弯曲文本实例的多边形轮廓，根据预设标注规则对所述多边形轮廓进行标注得到对应的多边形边界区域信息，并将所述多边形边界区域信息保存至json文件中；通过基于预设深度学习模型构建初始文本检测器，并基于所述合成图像和对应的所述json文件中的所述多边形边界区域信息构建数据集，可以根据所述数据集利用torchvision对所述初始文本检测器进行模型调整和训练，生成目标文本检测器。通过上述技术方案，本申请可以通过生成具有弯曲文本实例和多边形边界区域注释的合成图像来提高曲线文本检测性能，并通过在训练数据中引入这些合成图像，使训练出的文本检测算法能够更好地适应复杂的弯曲文本情景，从而实现文本检测时更高的准确性和鲁棒性。

技术特征：

1.一种弯曲文本检测模型训练方法，其特征在于，包括：

2.根据权利要求1所述的弯曲文本检测模型训练方法，其特征在于，所述生成所述合成图像中的所述弯曲文本实例的多边形轮廓，包括：

3.根据权利要求2所述的弯曲文本检测模型训练方法，其特征在于，所述根据预设标注规则对所述多边形轮廓进行标注得到对应的多边形边界区域信息，包括：

4.根据权利要求3所述的弯曲文本检测模型训练方法，其特征在于，所述根据标注后的所述多边形轮廓得到对应的所述多边形边界区域信息，包括：

5.根据权利要求1所述的弯曲文本检测模型训练方法，其特征在于，所述将所述弯曲文本实例嵌入所述初始图像的目标位置，包括：

6.根据权利要求1至5任一项所述的弯曲文本检测模型训练方法，其特征在于，所述生成目标文本检测器之后，还包括：

7.根据权利要求6所述的弯曲文本检测模型训练方法，其特征在于，所述生成所述数据集中的所述合成图像的分割掩码，包括：

8.一种弯曲文本检测模型训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；其中，所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的弯曲文本检测模型训练方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的弯曲文本检测模型训练方法。

技术总结
本申请公开了一种弯曲文本检测模型训练方法、装置、设备及存储介质，涉及文本检测领域，包括：获取初始图像和弯曲文本，根据弯曲文本生成弯曲文本实例，并嵌入初始图像的目标位置生成合成图像；生成弯曲文本实例的多边形轮廓进行标注得到多边形边界区域信息保存至JSON文件中；基于深度学习模型构建初始文本检测器，并基于合成图像和JSON文件的多边形边界区域信息构建数据集，以利用TorchVision对初始文本检测器进行模型训练，生成目标文本检测器。本申请创建包含弯曲文本的合成图像，引入合成图像和弯曲文本的多边形边界区域注释作为训练数据进行文本检测算法训练，能够提高在自然图像中检测弯曲文本的准确性和鲁棒性。

技术研发人员：段强,宁方刚,宋晨,姜凯,魏子重
受保护的技术使用者：山东浪潮科学研究院有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：段强宁方刚宋晨姜凯魏子重
技术所有人：山东浪潮科学研究院有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。