基于transformer的场景图像文字修改方法、装置、电子设备及存储介质

文档序号：33732885发布日期：2023-04-06 04:53阅读：63来源：国知局

本发明涉及信息处理领域，尤其涉及场景文字识别、即时翻译领域。具体地，提供一种基于transformer的场景图像文字修改方法、装置、电子设备及存储介质。

背景技术：

1、场景文字修改是指在保留原始场景图像文字风格与背景的前提下，将场景文字图像中的文字替换为目标文字的一种技术。场景图像文字修改对场景文字识别、即时翻译、办公自动化等领域具有重要的应用价值。场景图像中风格文字与复杂背景之间存在复杂的交互影响，是一个十分具有挑战的任务。

2、现有场景文字识别的数据集主要为中文和英文，其他语言的场景文字图像数据集十分匮乏，甚至没有，而通过人工标注则十分耗时耗力，且文字识别数据集标注，需要通过相应熟悉该语言的人来完成，这进一步加大标注数据集任务的难度。且场景文字识别使用的数据集主要来源于场景文字图像合成工具，即随机选择字体、字体颜色、图片背景，模拟自然场景，将文字渲染到图像背景上，进而获得场景文字图像。然而，通过合成工具合成的图像与真实的场景文字图像存在分布差异，使得通过合成数据训练的深度神经网络模型在真实场景的表现受到影响。近年来，许多图像生成模型相继被提出，例如生成对抗网络、变分自编码器和自回归模型。这些模型在生成逼真图像任务中显示出强大能力。相对于之前的图像生成方法，现有的模型通过对图像数据的分布进行建模，使模型可以生成接近真实分布的数据，进而生成图像更加逼真。

技术实现思路

1、本发明目的在于，提供一种基于transformer的场景图像文字修改方法、装置、电子设备及存储介质。该方法包括：基于卷积神经网络的编码器和解码器网络，学习场景图像各个阶段全局及局部特征；多头深度可分离卷积注意力机制网络，提取全局上下文信息的隐式编码注意力特征；门控深度可分离前馈网络，通过两个平行路径的线性转换层进行逐元素点积，学习图像的局部特征；并提供了一种面向场景图像的文字修改装置，利用基于深度卷积神经网络的编码器和解码器，对原始风格图像进行前景风格特征提取，将其文字字体，字体颜色，文字形状等前景风格迁移到目标文字上；并利用相同的编码器和解码器结构，对原始风格文字图像完成词级别的场景文字擦除任务；利用文字风格融合模块将风格文字图像和擦除文字的原始背景图像进行深度融合，从而得到最终修改之后的场景文字图像。本发明利用基于深度神经网络的图像处理技术，解决了资源稀缺语言或者特定领域场景文字识别语料获取难，缺乏真实场景训练样本问题，提升了资源稀缺语言或者特定领域场景文字识别的效果。

2、本发明所述的一种基于transformer的场景图像文字修改方法，该方法包括：场景图像文字风格迁移，场景图像背景擦除和场景图像文字融合，具体操作按下列步骤进行：

3、a、将原始风格图像和目标文字图像分别输入到编码器，获取图像高级语义特征；

4、b、将a步骤获得图像语义特征经过1x1卷积网络进行融合；

5、c、将b步骤融合后的特征经过基于深度卷积神经的解码器，获得具有原始图像风格的目标文字图像；

6、d、将原始风格图像经过编码器和解码器后，再经过3x3的卷积神经网络获得对原始风格文字图像完成词级别的原始图像背景图像；

7、e、将利用编码器和解码器对步骤c获得的具有原始图像风格的目标文字图像和步骤d获得原始图像背景图像进行特征提取；

8、f、利用transformer块对步骤e获取的图像特征进行全局特征提取；

9、g、利用多头深度可分离卷积注意力机制网络和门控深度可分离前馈网络获得进行特征融合，获得最终修改之后的场景文字图像。

10、步骤a中所述的场景图像文字风格迁移，输入为风格图像和目标文字图像，输出为原始图像前景风格的目标文字图像；所述的场景图像文字风格，具体包括：场景图像文字字体，字体颜色，文字形状；所述的编码器可包括一个3x3尺度不变卷积，三次下采样，和8个transformer模块。

11、步骤c中所述的解码器可包括3个上采样，及每次上采样后不同数量的transformer模块。

12、步骤d输入仅为原始风格文字图像，输出为原始风格图像的背景图像，原文字区域由适当的背景纹理进行填充。

13、步骤d中的编/解码器与步骤a中的编/解码器分别在于，步骤a中解码器是将每次下采样之前的特征图与解码器上采样之后的特征图按特征图通道进行3次拼接；步骤d中解码器是将每次下采样之前的特征图与解码器上采样之后的特征图进行3次拼接后，最终经过1x1卷积将特征图通道数减半。

14、步骤g场景图像文字融合的输入为步骤a文字风格迁移模块生成的前景文字图像和步骤d场景图像背景擦除生成的原始图像风格的背景图。

15、一种基于transformer的场景图像文字修改装置，该装置是由场景图像文字风格迁移模块、场景图像背景擦除模块和场景图像文字融合模块组成，其中：

16、场景图像文字风格迁移模块：用于对原始风格图像进行前景风格特征提取，并将其迁移到目标文字上；

17、场景图像背景擦除模块：对原始风格文字图像完成词级别的场景文字擦除任务；

18、场景图像文字融合：将场景图像文字风格迁移模块和场景图像背景擦除模块的输出进行融合，生成最终修改之后的场景文字图像；

19、一种电子设备，其中，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

20、一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。

21、本发明提供一种基于transformer的场景图像文字修改方法、装置、电子设备及存储介质，该方法包括：基于卷积神经网络的编码器和解码器网络，学习场景图像各个阶段全局及局部特征；多头深度可分离卷积注意力机制网络，提取全局上下文信息的隐式编码注意力特征；门控深度可分离前馈网络，通过两个平行路径的线性转换层进行逐元素点积，学习图像的局部特征；并提供了一种面向场景图像的文字修改装置，该装置包括：

22、场景图像文字风格迁移模块：用于对原始风格图像进行前景风格特征提取，并将其迁移到目标文字上；

23、场景图像背景擦除模块：对原始风格文字图像完成词级别的场景文字擦除任务；

24、场景图像文字融合：将场景图像文字风格迁移模块和场景图像背景擦除模块的输出进行融合，生成最终修改之后的场景文字图像；

25、根据本发明的又一方面，提供了一种电子设备，该设备包括：

26、至少一个处理器；

27、至少一张gpu计算卡；以及

28、与所述至少一个处理器通信连接的存储器；其中，

29、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行或所述至少一个gpu计算卡执行，以使所述至少一个处理器能或所述至少一个gpu计算卡能够执行本技术实例中任一项所述的方法。

30、本发明所述的一种基于transformer的场景图像文字修改方法、装置、电子设备及存储介质，通过本发明为低资源语言的场景文字识别模型构建了训练数据，提高了场景文字识别的准确率。

31、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：艾孜麦提
技术所有人：中国科学院新疆理化技术研究所
我是此专利的发明人

上一篇：一种基于三重校核的盾构施工出土量管理方法与流程
上一篇：一种继电保护设备的芯片过热预警方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。