一种文本图像合成和实例化权重的迁移学习方法

文档序号：34378961发布日期：2023-06-08 00:44阅读：34来源：国知局

本发明属于文本识别和迁移学习，具体涉及一种文本图像合成和实例化权重的迁移学习方法。

背景技术：

1、光学字符识别(ocr)是一种从文本图像中提取机器编码文本的技术。它是视觉理解的基本功能，并已用于多种实际应用，如自动车牌识别、商业文档识别和护照识别。在深度学习时代，通过从由图像和文本对组成的大规模数据中学习，ocr性能得到了显著提高。通常，ocr使用由合成文本图像组成的大规模数据，因为几乎不可能手动收集和注释真实文本图像，这些图像涵盖了文本长度、形状和背景等多种特征的指数组合。

2、自然场景ocr包括两个子任务，场景文本检测(std)和场景文本识别(str)。它们需要相似但不同的训练数据，std需要的是自然场景的文本图像，而str需要的是在此基础上截取的文本包围框图像。

3、由于std必须从背景中定位文本区域，因此其训练示例是包含多个文本的原始场景或文档快照。相反，str从包含单个单词或一行单词的单词框图像补丁中识别字符序列，需要大量的综合例子来涵盖现实世界中可能存在的风格和文本的多样性。然而手动标注大量文本框数据是几乎不可能的，必须要使用文本合成技术合成与真实世界图像相近的样本图像。

4、目前，有几种场景文本识别合成算法已经证明是有益的，特别是仅对合成数据进行训练已成为广泛接受的标准实践。但在一些具有挑战的自然场景情况下，例如图片严重模糊、文字变形、文本图片前景与背景相似等，常用的合成算法效果就不尽人意。现有主要的合成方法是基于gan模型分别获取文本图像的背景图像和文本风格，然后用目标文本替换文本融合成合成的文本图像。当现有方法用于针对一些具有挑战性的文本图像时，很难提取前景和背景信息，合成的样本之间存在较大的差异。

技术实现思路

1、本发明要解决的技术问题是：提供一种文本图像合成和实例化权重的迁移学习方法，用于生成困难场景下str的合成数据。

2、本发明为解决上述技术问题所采取的技术方案为：一种文本图像合成和实例化权重的迁移学习方法，包括以下步骤：

3、s1：使用包括文本长度增强和字符分布增强的文本筛选策略选择待合成的目标文本；

4、s2：使用包括转换、真实数据混合、背景随机裁剪、融合和后处理的文本合成策略生成合成样本，构成合成文本图像数据集；

5、s3：将实例化权重方法加入到crnn识别算法中，具体步骤为：

6、s31：将步骤s2得到的合成文本图像数据集作为源域，赋以实例化权重后加入crnn识别算法，使用马氏距离度量目标域；

7、s32：采用统一的框架同时学习源域数据的实例权重ω、目标域间的马氏距离度量a和目标域的最终预测模型f；设正则化项r(a)是根据a控制度量的泛化误差，ψ(ω)为合成样本域实例化权重的正则化项，λ＞0和β＞0为影响目标的平衡参数，为损失函数，ds为源域标签数据，为目标学习域,则统一框架为：

8、

9、s4：输入合成文本图像数据集，使用步骤s3得到的crnn识别算法进行迭代训练更新实例化权重，得到最优的识别模型；

10、s5：向步骤s4得到的模型输入待识别的文本图像，通过模型推理得到图片中文本的识别结果。

11、按上述方案，所述的步骤s1中，具体步骤为：

12、s11：执行文本长度分布增强，使用预设概率随机选择1到预设最大值之间的目标文本长度；

13、从词典中随机抽取一个单词：

14、如果单词长度与目标文本长度匹配，则将其用作目标文本；

15、如果单词长度大于目标文本长度，则删除最右侧的多余字符；

16、如果单词长度小于目标文本长度，则采样一个新单词，并将新单词附加到前一个单词的右侧，直到连接的单词长度匹配或大于目标文本长度，再删除最右侧的多余字符；

17、s12：执行字符分布增强，使用与步骤s11相同的概率从特殊词汇表中随机选择一个字符，并对具有该字符的单词进行采样。

18、按上述方案，所述的步骤s2中，具体步骤为：

19、s21：转换是通过多种变换策略反映自然场景中文本图像的各种特征；变换策略包括拉伸、倾斜和旋转；

20、s22：真实数据混合是随机从字典中选取文本生成文本噪声，并加入到合成图像中，以反映自然场景噪声文本特征；

21、s23：背景随机裁剪是从真实场景图片中随机裁剪文本图像作为背景图像；

22、s24：融合是对包括目标文本的前景图像和包含噪声文本的背景图像采取各种随机参数进行融合得到合成图像；融合方法包括普通、相乘、屏幕、叠加、硬光、柔光、减淡、分割、添加、差异、仅变暗和仅变亮；

23、s25：后处理是对合成图像进行后处理操作；后处理操作包括高斯噪声、高斯模糊、调整大小、中值模糊和jpeg压缩。

24、按上述方案，所述的步骤s32中，具体步骤为：

25、设xj∈rd×1为输入特征向量，yj∈r为相应的输出特征向量，则源域标签数据即合成样本数据为：

26、ds＝{(xj，yj)|j＝1，...，ns}；

27、设目标域中的数据为：

28、

29、

30、设m∈rd×d是正半定矩阵，定义目标域中的一对实例xi和实例xj之间的马氏距离为：

31、

32、设目标域间的马氏距离度量a∈rd×d为自适应的矩阵，则正半定矩阵m被分解为m＝ata，因此需要学习自适应的矩阵a；

33、根据a控制度量的泛化误差的正则化项r(a)为：

34、r(a)＝tr(ata)；

35、合成样本域实例化权重的正则化项ψ(ω)为：

36、ψ(ω)＝||ω-ω0||2；

37、设实例化权重是使用欧几里得度量下目标域与源域中实例xi的密度比；pt(xi)越大或者ps(xi)越小，实例xi的密度比越大，表示xi更接近于目标域分布而不是源域分布，通过学习自适应的实例化权重使目标域与源域的差异减小；

38、设高斯核函数为预定义的基函数φj，αj为待学习的参数，则评估由基本函数线性组合近似表示的权重ω0为：

39、

40、在识别文本时，设z为归一化项：

41、

42、设ka为距离度量a下的核函数，则定义识别预测模型f为：

43、

44、定义损失函数为加权平方误差：

45、

46、按上述方案，所述的步骤s4中，具体步骤为：

47、s41：在训练时，对步骤s2合成文本图像数据集赋以初始的实例化权重；

48、s42：使用步骤s3得到的crnn识别算法进行训练，学习实例化权重和马氏距离，迭代训练更改训练的实例化权重。

49、一种计算机存储介质，其内存储有可被计算机处理器执行的计算机程序，该计算机程序执行一种文本图像合成和实例化权重的迁移学习方法。

50、本发明的有益效果为：

51、1.本发明的一种文本图像合成和实例化权重的迁移学习方法，通过提供多种文本合成策略，使合成的文本图像能够更加贴近现实世界图像，提出实例化权重的方法连接合成样本不同域的分布，并学习马氏距离，减少了合成样本和真实样本间差异，实现了生成困难场景下str的合成数据的功能，解决了文本框图像中文本外观的逼真性和多样性，缓解了来自真实世界的注释文本图像的缺乏。

52、2.本发明提供了一种端到端合成文本图像的生成器，针对挑战文本设计了一系列合成策略以生成适合真实文本图像的合成数据；在长度和字符上提供两种文本选择方法，解决了合成数据集文本分布的偏差。

53、3.本发明还提出了实例化权重方法，通过学习和利用实例权重和马氏距离度量来连接不同领域的分布，减少了合成文本图像迁移学习过程中样本间的变异；比合成数据集mjsynth(mj)、synthtext(st)和synthtiger具有更大的str提升性能，进一步提高了str性能。本发明的消融研究证明了使用各个合成策略的益处，以及为str模型生成合成文本图像的指南。

54、4.本发明还提出了多种渲染策略，以合成真实的合成数据；另外，针对合成数据迁移间差异问题提出了基于实例化的迁移方法训练识别模型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：鲁统伟刘思洋卢涛
技术所有人：武汉工程大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。