一种图像文本编辑的方法、装置及电子设备与流程

文档序号：36606798发布日期：2024-01-06 23:11阅读：13来源：国知局

本说明书涉及数据处理，尤其涉及一种图像文本编辑的方法、装置及电子设备。

背景技术：

1、随着人工智能技术不断进步，越来越多的社交媒体平台开始探索如何应用图像编辑技术来提高内容创作的效率和多样性。图像文本编辑(又称场景文本编辑)是图像编辑的重要组成，其主要是指在保护隐私数据和尽量保持背景的前提下，将图像中的文本替换为同风格的目标文本。

2、图像文本编辑，需要对任意的场景背景纹理尽可能的保留，使得编辑后的图像在视觉角度上与原场景图像具有一致性，并且编辑后的图像中的替换后的文本与背景部分融合自然，具有真实感。然而，现有的图像文本编辑的方案多分为两步：擦除和写字。然而，擦除文字还原背景的效果不佳，并且书写的文字的风格也与期望值相差较远。因此，目前亟需提供一种更优的图像文本编辑的方案。

技术实现思路

1、本说明书实施例提供一种图像文本编辑的方法、装置及电子设备，以提供一种替换后的文本与图像原有背景融合良好的图像文本编辑方案。

2、第一方面，本说明书一个或多个实施例提供一种图像文本编辑的方法，包括：对原始文本图像进行针对被替换文本的ocr检测，确定所述被替换文本的位置信息，所述位置信息用于指示所述被替换文本在所述原始文本图像中出现的位置；对所述原始文本图像进行添加噪声处理，得到所述原始文本图像对应的噪声图像；在通过扩散模型对所述噪声图像进行降噪处理时，将替换文本和所述原始文本图像作为所述扩散模型的生成内容引导、将所述位置信息作为所述替换文本的生成位置引导，以生成将所述原始文本图像的被替换文本替换为所述替换文本的目标文本图像。

3、第二方面，本申请实施例提供了一种图像文本编辑的装置，包括：对原始文本图像进行针对被替换文本的ocr检测，确定所述被替换文本的位置信息，所述位置信息用于指示所述被替换文本在所述原始文本图像中出现的位置；对所述原始文本图像进行添加噪声处理，得到所述原始文本图像对应的噪声图像；在通过扩散模型对所述噪声图像进行降噪处理时，将替换文本和所述原始文本图像作为所述扩散模型的生成内容引导、将所述位置信息作为所述替换文本的生成位置引导，以生成将所述原始文本图像的被替换文本替换为所述替换文本的目标文本图像。

4、第三方面，本申请实施例提供了一种电子设备，该电子设备包括：处理器，以及被安排成存储计算机可执行指令的存储器，在所述可执行指令被执行时，能够使得所述处理器：对原始文本图像进行针对被替换文本的ocr检测，确定所述被替换文本的位置信息，所述位置信息用于指示所述被替换文本在所述原始文本图像中出现的位置；对所述原始文本图像进行添加噪声处理，得到所述原始文本图像对应的噪声图像；在通过扩散模型对所述噪声图像进行降噪处理时，将替换文本和所述原始文本图像作为所述扩散模型的生成内容引导、将所述位置信息作为所述替换文本的生成位置引导，以生成将所述原始文本图像的被替换文本替换为所述替换文本的目标文本图像。

5、第四方面，本说明书实施例提供一种存储介质，用于存储计算机程序，所述计算机程序能够被处理器执行以实现以下流程：对原始文本图像进行针对被替换文本的ocr检测，确定所述被替换文本的位置信息，所述位置信息用于指示所述被替换文本在所述原始文本图像中出现的位置；对所述原始文本图像进行添加噪声处理，得到所述原始文本图像对应的噪声图像；在通过扩散模型对所述噪声图像进行降噪处理时，将替换文本和所述原始文本图像作为所述扩散模型的生成内容引导、将所述位置信息作为所述替换文本的生成位置引导，以生成将所述原始文本图像的被替换文本替换为所述替换文本的目标文本图像。

技术特征：

1.一种图像文本编辑的方法，包括：

2.根据权利要求1所述的方法，所述在通过扩散模型对所述噪声图像进行降噪处理时，将替换文本和所述原始文本图像作为所述扩散模型的生成内容引导、将所述位置信息作为所述替换文本的生成位置引导，以生成将所述原始文本图像的被替换文本替换为所述替换文本的目标文本图像，包括：

3.根据权利要求2所述的方法，所述将所述初始潜向量作为所述扩散模型的输入、所述替换文本和所述位置信息作为所述扩散模型的引导条件，得到目标潜向量，包括：

4.根据权利要求3所述的方法，所述将所述位置信息添加到所述初始潜向量中，得到中间潜向量，包括：

5.根据权利要求2所述的方法，所述将所述原始文本图像和所述噪声图像从像素空间映射到潜空间后得到的向量连接起来，得到初始潜向量，包括：

6.根据权利要求4所述的方法，所述扩散模型的训练过程，包括：

7.根据权利要求6所述的方法，所述训练掩膜图像、所述训练屏蔽图像和所述训练噪声图像通过变分自动编码器从所述像素空间映射到所述潜空间，所述变分自动编码器的训练过程，包括：

8.根据权利要求1所述的方法，所述对原始文本图像进行针对被替换文本的ocr检测，确定所述被替换文本的位置信息，包括：

9.一种图像文本编辑的装置，包括：

10.一种电子设备，包括：

技术总结
本说明书一个或多个实施例公开了一种图像文本编辑的方法、装置及电子设备。所述方法包括：对原始文本图像进行针对被替换文本的OCR检测，确定所述被替换文本的位置信息，所述位置信息用于指示所述被替换文本在所述原始文本图像中出现的位置；对所述原始文本图像进行添加噪声处理，得到所述原始文本图像对应的噪声图像；在通过扩散模型对所述噪声图像进行降噪处理时，将替换文本和所述原始文本图像作为所述扩散模型的生成内容引导、将所述位置信息作为所述替换文本的生成位置引导，以生成将所述原始文本图像的被替换文本替换为所述替换文本的目标文本图像。

技术研发人员：陈昊星,许卓尔,兰钧,孟昌华,祝慧佳,王维强
受保护的技术使用者：支付宝（杭州）信息技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈昊星,许卓尔,兰钧,孟昌华,祝慧佳,王维强
技术所有人：支付宝（杭州）信息技术有限公司
我是此专利的发明人

上一篇：超小型触发信号放大控制器的制作方法
上一篇：一种透光率检测辅助工装的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。