一种基于注意力机制的艺术字风格迁移系统

文档序号：26142755发布日期：2021-08-03 14:27阅读：264来源：国知局

本方法属于图像合成领域，是一种基于注意力机制的针对艺术字风格迁移的图像合成算法。

背景技术：

随着大数据随着大数据时代的来临与深度学习技术的兴起，人工智能领域取得了快速发展，使得研究者对人工智能的关注度以及社会大众对人工智能的憧憬得到空前提升。图像艺术风格化是近年来非真实感绘制领域的研究热点之一，其主要考虑通过参考图像指定的样式呈现文本，实现艺术文本样式转移。根据参考图像，可以通过对现有精心设计的文本效果进行类比来对文本进行艺术化，通过对字体的艺术化，展现不同的样式，来满足各种不同的视觉任务。这在许多视觉创作任务例如海报上面的艺术字设计，广告还有word，任何需要展现字体的地方，都有很广泛的应用。将图像的风格渲染字体，改变字体的纹理，使得字体有不同的样式，使得字体有不同的风格，使得字体有不同艺术特征，不仅仅能展现图像的艺术气息，也能展现字体的艺术气息。通过风格迁移的方法可以很好的将图像的艺术风格融入到传统的字体当中来，对传统的字体的样式进行创新，并且节省了很多艺术字的创作过程的人力和时间。

图像艺术风格迁移技术在卷积神经网络(cnn)的启发下取得了进一步的发展，通过分离和重新组合图片语义与风格，卷积神经网络可以将一张图片的语义内容与不同的风格融合在一起。风格迁移的算法使用到了vgg网络，这个网络之前被用于做上述的图像分类识别，从较浅层的的卷积层提供图像特征信息，再通过后面的全连接层作一个预测判别。而我们风格迁移正好与之相反，输入内容图像和风格图像的特征，再输出对应的生成图像。将一张白噪声的图像输入到网络中，计算其与内容图像之间的距离即为内容损失函数，再计算其与风格图像之间的距离为风格损失函数，最后用梯度下降的方式使之迭代最小化，这样我们生成的图片就既可以保留内容图片的内容特征，又可以具有风格图片的某种艺术风格。

技术实现要素：

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种基于注意力机制的艺术字风格迁移系统，其特征在于，包括：

图像预处理模块：形成风格图的简化结构；与风格图构成成对的训练集；

生成器，用于生成待判别的目标文字图像；

判别器，用于对生成模块生成的图像进行判别。

在上述的基于注意力机制的艺术字风格迁移系统，生成器基于一个生成对抗网络模型，该模型包含三个模块：

反向结构迁移模块：包括一个基于级联注意力的神经网络，先将得到的结构简图做高斯模糊化处理，然后模糊化的图像通过基于级联注意力的神经网络还原成原来没有模糊之前的样子；这样获得的简化结构图与风格图构成成对的训练集；

训练结构迁移模块：通过训练神经网络，使文字轮廓的周围获得风格图的边缘特征；这个模块包括一个基于级联注意力的神经网络；

纹理迁移模块：通过训练神经网络，给文字添加风格图纹理特征，例如颜色等；这个模块也是包括一个基于级联注意力的神经网络。

在上述的基于注意力机制的艺术字风格迁移系统，所述基于级联注意力的神经网络包含一个空间注意力模块和一个通道注意力模块；这两个模块通过串联相连。

在上述的基于注意力机制的艺术字风格迁移系统，所述结构迁移模块具体包括一个基于级联注意力的神经网络，级联的注意力机制模块包含一个空间注意力模块和一个通道注意力模块；这两个模块通过串联相连；纹理迁移模块包括一个基于级联注意力的前馈神经网络。

在上述的基于注意力机制的艺术字风格迁移系统，判别器为一个全连接的神经网络层，这个网络和生成器是同时使用；生成器的输出为判别器的输入，判别器是一个全连接的神经网络层，输出为0到1之间的值，通过值的大小判定生成器生成数据的好坏，越接近1表示生成的数据越好。

在上述的基于注意力机制的艺术字风格迁移系统，纹理迁移模块的具体步骤包括：输入文字集，训练网络，得到具有风格特征的艺术字。

在上述的基于注意力机制的艺术字风格迁移系统，生成对抗网络模型中的双向注意力机制的模型的损失函数为:

公式中x表示样本，y表示实际的标签，a表示预测的输出，n表示样本总数量

生成对抗网络模型的总的损失函数loss，该损失函数用来约束生成器和判别器之间的关系，使得两者更加均衡，总的损失函数分别由lgan，内容风格函数ltotal(p,a,f)两个部分组成：

loss＝argminmaxαlgan+βltotal(p,a,f)

生成对抗网络的对抗性损失lgan，该损失函数定义如下:

其中，p，p^和ps分别表示风格图，简化风格图和艺术字的分布，pt表示目标图像，pg表示生成图像，pc为条件图像；

内容风格损失函数由内容损失函数和风格损失函数构成：

ltotal(p,a,f)＝αlcontent(p,f)+βlstyle(a,f)

其中ltotal(p,a,f)为内容风格损失函数，lcontent(p,f)为内容损失函数，lstyle(a,x)为风格损失函数；α和β分别代表内容和风格损失的权重，其和为1；

内容损失函数为：

fij和pij各自表示内容图经过某一层卷积层得到的特征图、生成图经过卷积层生成的特征图

风格损失函数为：

和代表生成图和风格图经过卷积层得到的特征图(也就是一个矩阵)、然后自相关得到的grammatrix(二维矩阵)。

因此，本发明具有如下优点：本发明主要应用于艺术字风格迁移上面，可以应用于海报制作，标题制作等。采用本发明的系统能够生成各种样式的艺术字，并通过关键词生成海报的宣传海报，可以用在电影里面生成各种带有不同风格样式的字体，并且还能实时调整字体的形状，生成想要形状的字体。同时还能保存古字体，一些古字体照片通过风格迁移，可以通过本发明的系统生成对应的古字体汉子，这对保留中华民族的文化有着重大的意义。

附图说明

附图1是本发明的方法流程示意图。

具体实施方式

本发明提出一种新型的形状匹配gan。我们的关键思想是基于注意力机制的双向形状匹配的策略，可通过向后和向前传递在源样式和目标字形之间建立形状映射。字形变形可以建模为样式图像的从粗到细的形状映射，其中变形程度由图像的粗细水平控制。基于此思想，我们开发了一种基于双向连接的注意力机制的映射模块，通过将形状特征从文本向后迁移到艺术图像，从而将样式图像简化为各种粗略级别。所得的粗精细图像对为数据驱动的学习提供了鲁棒的多尺度形状映射。利用这些获得的数据，我们构建了一个可比例控制的模块，该模块使网络能够学习从映射以连续的比例来表征和推断样式特征。最终，我们可以将任何指定比例的特征转发到目标字形，以实现比例可控的样式转换。同时，我们还加入了深度超参数卷积层，防止过拟合，提高卷积神经网络的性能。

采用上述思路可以实现图像的风格到字体的迁移，形成具有各种图像风格的艺术字，同时之前提出的可比例控制的模块可以通过参数控制，使得图像迁移而来的艺术字可以有着不同的变化程度，从可读到更艺术风格化。

以下为该发明内容的整体思路(总共为三个阶段)：

第一个阶段(基于注意力机制的反向结构迁移)，通过训练基于注意力机制的卷积神经网络，反向迁移，提取出图像的风格图的结构，反向将文字的形状风格迁移到结构图上面，获得简化的结构图。

第二个阶段(基于注意力机制的正向结构迁移)，通过训练基于注意力机制的卷积神经网络，正向学习刚才的反向结构迁移的逆过程，可以得到文字的风格图，形成训练集跟验证集，并形成对应的映射。学习将简化的结构映射到原始结构再进一步映射回风格图，这样基于注意力机制的神经网络就学会了为该文字增添风格图的效果了。

第三阶段(输入图片阶段)，训练好上述两个过程之后，该基于注意力机制的卷积神经网络就学会了该单一风格图的迁移方式，保存上述的基于注意力机制的卷积神经网络的参数任意输入文字信息，就可以得到该风格图(风景图)的艺术字信息。

接下来详细介绍上述三个阶段：

第一个阶段也就是反向结构迁移，为了将文字的形状迁移到风格图的结构图上，首先将风景图通过一个基于注意力机制的卷积神经网络进行训练，得到风格图的简化的结构图，这一过程生成了风格图的结构图与简化的结构图，与风格图构成成对的训练集。我们改进了之前的注意力模式，采用双重注意力模块进行连接，企图获得更好的特征，更好的简化的结构图。基于注意力机制的卷积神经网络是通过两个3*3和5*5两种大小的卷积核进行的一个双向网络，在进行一系列卷积操作之后，采用全连接的方式交互信息。这样做的目的是为了扩大感受野，采用一种卷积核进行卷积，容易忽视一些其他的特性以及信息，通过这种双向网络，可以获得更好的特性。

第二个阶段是正向结构迁移阶段，总共包含两个小阶段，包含结构迁移和纹理迁移。结构迁移是通过一个基于注意力机制的卷积神经网络，将结构图映射回原来的结构图，形成一个对应关系。同时上述网络通过一个参数l控制风格图简化的程度，该参数l取值范围为0到1，参数为0简化程度越低，参数为1简化程度越高。经过结构迁移之后，接下啦是纹理迁移。纹理迁移是通过一个基于注意力机制的卷积神经网络，将结构图映射为风格图，也就是为文字增条了纹理。两个网络都是通过两个3*3和5*5两种大小的卷积核进行的一个双向网络，在进行一系列卷积操作以及下采样，池化等操作之后，采用全连接的方式还原为原来的风格图。这是一个逆训练过程，还原到原来的风格图，由风格图的简化结构图得到原来的风格图。但是加入了结构迁移和纹理迁移的部分，使得基于注意力机制的卷积神经网络学会为图像增加文字的结构，为文字增添纹理。保存第二个阶段所获得的模型的参数，这就是对应风格图迁移到文字上面的对应的参数集。

第三个阶段就是导入上面第二阶段保存的基于注意力机制的神经网络的的参数，这些参数对应某一个风格图，如果将任意文字渲染成该风格图的样式，就导入相应风格图的参数。同时，可以通过参数l控制字体的变形程度。

生成对抗网络模型中的双向注意力机制的模型的损失函数为:

公式中x表示样本，y表示实际的标签，a表示预测的输出，n表示样本总数量

loss＝argminmaxαlgan+βltotal(p,a,f)

生成对抗网络的对抗性损失lgan，该损失函数定义如下:

其中，p，p^和ps分别表示风格图，简化风格图和艺术字的分布，pt表示目标图像，pg表示生成图像，pc条件图像。

内容风格损失函数由内容损失函数和风格损失函数构成：

ltotal(p,a,f)＝αlcontent(p,f)+βlstyle(a,f)

其中ltotal(p,a,f)为内容风格损失函数，lcontent(p,f)为内容损失函数，lstyle(a,x)为风格损失函数；α和β分别代表内容和风格损失的权重，其和为1；

内容损失函数为：

fij和pij各自表示内容图经过某一层卷积层得到的特征图、生成图经过卷积层生成的特征图

风格损失函数为：

和代表生成图和风格图经过卷积层得到的特征图、然后自相关得到的grammatrix；

本发明未尽事宜为公知技术。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所的等效变化或修饰，都应涵盖在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何发智;邓杰希;金千千;吴浩然
技术所有人：武汉大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。