一种基于多任务生成对抗网络的字体风格迁移方法和系统与流程

文档序号：26736440发布日期：2021-09-22 22:19阅读：270来源：国知局

1.本发明属于计算机视觉和图像处理领域，特别涉及一种基于多任务和特征注意力机制的生成对抗网络的字体风格迁移方法和系统。

背景技术：

2.字体风格的设计是一项极其困难的工作，现在仍然被认为是专业设计师的特权，现有的软件系统不具备专业设计师的创造力。然而，大多数商业字体产品实际上都是按照对某些字形属性的特定要求手工设计的，如斜体、衬线、草书、宽度、角度等。
3.而中文字体风格设计尤为困难。据统计，中文汉字里，1000个常用汉字能覆盖约92％的书面资料，2000个汉字可覆盖98％以上，3000字时已到99％，因此，至少需要完成约2800左右的单个中文字的设计，才能满足实际使用的需求。中文字体设计艺术家对中文字体已经设计了如楷体，宋体，方正仿宋，黑体等多种字体。但由于中文字符的类别繁多、偏旁构造复杂，长短不一。设计时每个字由许多部首和笔画组成，先通过几何建模，之后人为操作来完成，所以设计过程需耗费大量的人力资源。
4.字体风格迁移属于图像风格迁移的一个具体应用背景，在一些字体设计开发的应用中有较大的研究意义和商业价值。目前现有的技术路线方案主要分为两条：
5.1、采用基于cnn深度学习网络，思路是采取图像分类方向下的基准网络用于提取字体特征，使用均方误差或绝对误差损失用于优化网络，其缺点仅仅完成单一字体的迁移功能，即仅支持单一风格的风格变换，如宋体转楷体，迁移后的字体的边缘细节比较模糊，优点是技术简单方便，效率高。
6.2、采用基于生成对抗网络gan实现字体风格的迁移。即端到端的中文字体迁移的深度学习算法，采用全卷积网络fcn作为迁移网络，从目标字符捕获书法样式信息，然后重建目标字体的输出，结合生成对抗网络gan优点来辅助优化迁移网络的参数，从而提高单一字体风格迁移的效果和逼真度，其缺点在于需要大量的训练数据。
7.近年来，受图像风格转移技术的启发，人们开始探讨更有效的中文字体风格设计方法，即：如何以人工设计的少部分目标字体为基准，通过相关算法将其余字符直接转换成与目标相同风格的字体。现有技术的字体风格迁移模型不仅需要大量的训练数据，且现有技术很多仅支持单一字体的迁移，同时字体风格迁移的效果不是很好。

技术实现要素：

8.针对上述问题，本发明提供一种基于多任务和特征注意力机制的生成对抗网络的字体风格迁移方法和系统，能够克服现有技术中字体迁移模型仅支持单一字体转换的问题，并提高字体风格迁移的效果，实现利用少部分目标字体进行字体风格迁移。
9.一种基于多任务生成对抗网络的字体风格迁移方法，包括下面步骤：
10.获取包含多种字体的样本集，并对每种字体风格迁移条件进行标注；
11.构建生成对抗网络模型；
12.将所述样本集和所述字体风格迁移条件输入所述生成对抗网络模型，对所述生成对抗网络模型进行训练，并根据训练结果对所述生成对抗网络模型进行参数优化直至网络收敛稳定；
13.获取所述生成对抗网络模型训练后得到的生成器。
14.进一步地，所述的构建生成对抗网络模型包括步骤：
15.构建生成对抗网络的生成器，在所述生成器中加入特征注意力模块，所述特征注意力模块用于将卷积特征图转换为注意力特征图。
16.进一步地，所述的将卷积特征图转换为注意力特征图的步骤为：
17.所述的将卷积特征图转换为注意力特征图的步骤为：
18.将卷积特征图x输入所述特征注意力模块；
19.卷积特征图x∈r
c
×
h
×
w
经1
×
1卷积得到f、g、m三个特征空间；f、g、m对应的通道数量分别为c/8、c/8和c，c、h和w分别代表卷积特征图的通道数、特征图宽度以及高度；
20.将特征空间f转置后与特征空间g进行矩阵乘法操作，得到特征注意力层；
21.采用softmax得到所述特征注意力层的参数：
[0022][0023]
其中，p
j,i
表示第i个位置的特征对第j个位置的特征的影响权重值，i和j的范围为1～h
×
w；
[0024]
f
i
表示:f特征空间第i个像素位置上所有通道的值的行向量，g
j
表示：g特征空间第j个像素位置上所有通道的值的列向量；
[0025]
两个位置的特征相似性同它们之间的相关性成正相关；
[0026]
将所述特征注意力层转置后与特征空间m进行矩阵乘法操作，得到所述特征注意力模块输出的注意力特征图p：
[0027]
p＝(p1,p2,
…
,p
(hxw)
)，p∈r
c
×
h
×
w
；
[0028][0029]
其中，p
j,i
表示第i个位置的特征对第j个位置的特征的影响权重值，m
i
表示：m特征空间第i个像素位置上所有通道的值的行向量，p
j
表示：第j个通道的特征图。
[0030]
进一步地，所述的构建生成对抗网络模型包括步骤：
[0031]
构建生成对抗网络的判别器，在所述判别器中添加全连接层作为辅助分类器，所述辅助分类器用于对迁移结果的字体进行分类。
[0032]
进一步地，所述的获取包含多种字体的样本集的步骤为：
[0033]
确定作为样本的、预定数量的且互不相同的文字；
[0034]
收集包括目标迁移字体在内多种不同字体的、每个文字的图片；
[0035]
对收集到的所述图片进行图像二值化处理。
[0036]
进一步地，所述图片的格式为jpg或png格式。
[0037]
进一步地，所述样本集包括训练集和测试集，
[0038]
所述训练集用于对所述生成对抗网络模型进行训练；
[0039]
所述测试集用于对训练后的所述生成对抗网络模型的准确度进行验证。
[0040]
进一步地，在对所述生成对抗网络模型进行训练时，采取均匀采样方法对所述样本集进行采样。
[0041]
进一步地，使用pytorch或tensorflow深度学习框架对所述生成对抗网络模型进行训练。
[0042]
本发明还提供一种基于多任务生成对抗网络的字体风格迁移系统，包括：
[0043]
样本获取模块，用于获取包含多种字体的样本集，并对每种字体风格迁移条件进行标注；
[0044]
网络构建模块，用于构建生成对抗网络模型；
[0045]
模型训练模块，用于接收所述样本集和所述字体风格迁移条件，对所述生成对抗网络模型进行训练，并根据训练结果对所述生成对抗网络模型进行参数优化直至网络收敛稳定；
[0046]
生成器获取模块，用于获取所述生成对抗网络模型训练后得到的生成器。
[0047]
进一步地，所述网络构建模块包括生成器构建模块，用于构建生成对抗网络的生成器，所述生成器中包括特征注意力模块，所述特征注意力模块用于将卷积特征图转换为注意力特征图。
[0048]
本发明的基于多任务生成对抗网络的字体风格迁移方法和系统，将跨领域的迁移条件附加为生成器的输入，能够支持来自不同字体风格之间的转换，解决了一对一字体风格迁移的问题，从而实现多个字体风格之间的迁移。本发明的方法中，还可在生成器中加入了特征注意力模块，提高对抗网络中生成器特征学习能力，通过提高对字体图片局部细节特征的捕捉能力，从而提高图像生成质量。
[0049]
本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
[0050]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0051]
图1示出了根据本发明实施例的生成对抗网络模型结构示意图；
[0052]
图2示出了根据本发明实施例的生成对抗网络的生成器结构示意图；
[0053]
图3示出了根据本发明实施例的生成对抗网络的特征注意力模块结构示意图。
具体实施方式
[0054]
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0055]
此，本发明提出了一种基于多任务特征注意力生成对抗网络的字体风格迁移方法，其中，多任务对抗网络借鉴了星形网络结构(stargan)的思想：生成网络(即本发明中的生成器)被实现成星形，仅仅需要一个生成网络来学习所有领域之间的转换/迁移。
[0056]
本发明的关键之处在于：a、将跨领域的迁移条件附加为生成器的输入，能够支持来自不同字体风格之间的转换，解决了一对一字体风格迁移的问题，从而实现多个字体风格之间的迁移；b、采用特征注意力模块，提高对抗网络中生成器特征学习能力，通过提高对字体图片局部细节特征的捕捉能力，从而提高图像生成质量。
[0057]
参见图1和图2，本发明的一种基于多任务生成对抗网络的字体风格迁移方法包括下面步骤：
[0058]
1、获取包括多种字体的样本集，并对每种字体之间的字体风格迁移条件进行标注；
[0059]
样本集是用于对生成对抗网络进行训练和测试。
[0060]
具体实现步骤为：
[0061]1‑
1确定作为样本的、预定数量的且互不相同的文字；
[0062]
一般可以随机选择汉字，数量在800～1500个均可。
[0063]1‑
2收集每个文字的图片；
[0064]
其中，图片的格式可以为jpg格式或者png格式；
[0065]
样本集的大小可以每个字体的每个汉字收集约20～30张图片。
[0066]
所选择的字体需要包括目标迁移字体和原始字体，即采集每个文字的多个字体的图片，字体种类的选择是根据实际情况确定的，例如需要将黑体迁移为多位的艺术家手写体，则需要在样本集中添加黑体和每一位艺术家手写体的文字图片。
[0067]1‑
3对收集到的图片进行处理。
[0068]
具体图片的处理包括将图像尺寸进行统一调整和对图像进行二值化处理。
[0069]
最后获得的所有文字的图的集合即为样本集。
[0070]
本发明的一个具体实施例中，字体样本集包括训练集和测试集，训练集包括800个不同的汉字，测试集包括200个不同汉字，训练集和测试集中字数比例为4:1，其中训练集用于对生成对抗网络模型进行训练；述测试集用于对训练后的生成对抗网络模型的准确度进行验证；汉字的类别互不重叠。
[0071]
本发明的一个具体实施例中，确定好样本集的文字后，借助word文档中输入多种不同风格字体的汉字，包括行楷，宋体，仿宋，黑体，楷书等，每个汉字之间插入若干个空格；再将word文档转成pdf格式之后转成jpg格式图片，从而获得包含多种字体、多种文字的字符图片，再通过二值化投影方法对图片进行字符分割操作，具体的操作步骤为：
[0072]
1)、对各个jpg格式的字符图片进行自适应二值化处理；
[0073]
2)、计算二值化之后的水平投影，根据投影的直方图进行字符图片的行切割；
[0074]
3)、对切割后的行字符区域计算垂直投影，然后进行列切割，从而得到每个字符的样本图；
[0075]
4)、过滤不满足要求的字符切割后的样本图，得到最终的字体样本集。
[0076]
不满足要求的字符是指在进行字符切割后，得到的不是单个完整文字，筛除这些非单个字符区域和字符区域不全或多个字符连接的图片。
[0077]
预先设定每一种a字体风格迁移为b字体风格的条件进行类别标注，例如约定行楷迁移宋体，迁移条件标注为0，行楷迁移为黑体，标注为1；依次完成多到多的迁移标注任务。
[0078]
应当理解的是，以上示例仅为说明，样本集也可以采用不常见、非规范的字体，上述的样本图的获取也可以应用于手写体：通过扫描成jpg图片，再进行二值化投影处理，即，本发明的方法同样适用于不常见、非规范的字体的风格迁移。
[0079]
2、构建生成对抗网络的生成器；
[0080]
生成器的作用在于生成目标域伪样本。
[0081]
参见图2，本发明的一个具体实施例中，生成器的结构包括依次连接的下采样模块、残差模块、特征注意力模块、残差模块和上采样模块。
[0082]
其中：
[0083]
下采样模块包括3个卷积层；
[0084]
上采样模块包括2个转置卷积层和1个卷积层；
[0085]
特征注意力模块用于将大范围区域的全局特征信息编码后加入局部特征信息中，使所得特征图的局部特征带有与全局空间特征依赖信息，进而增强特征注意力模块的表示能力。
[0086]
参见图3，图中c、h和w分别代表卷积特征图x的通道数、特征图宽度以及高度。卷积特征图x表示特征注意力模块的输入，表示矩阵乘法。首先，特征图x∈r
c
×
h
×
w
经1
×
1卷积得到f、g、m三个特征空间，其对应的通道数量分别为c/8、c/8和c。其次，对特征空间f的转置(transpose)与g的进行矩阵乘法操作。通过softmax得到特征注意力层的参数：
[0087][0088]
其中，p
j,i
表示第i个位置的特征对第j个位置的特征的影响权重值，两个位置的特征相似性同它们之间的相关性成正相关，i和j的范围为1～h
×
w；f
i
表示特征空间f第i个像素位置上所有通道的值的行向量，g
j
表示特征空间g第j个像素位置上所有通道的列向量。最后，将特征注意力层的转置与特征空间m进行矩阵乘法操作，得到特征注意力的输出特征图p：
[0089]
p＝(p1,p2,
…
,p
(hxw)
)，p∈r
c
×
h
×
w
[0090]
[0091]
其中，p
j,i
表示第i个位置的特征对第j个位置的特征的影响权重值，m
i
表示特征空间m第i个像素位置上所有通道的值的行向量，p
j
表示第j个通道的特征图，i和j的范围为1～h
×
w。
[0092]
3、构建生成对抗网络模型；
[0093]
参见图1，为本发明的生成对抗网络模型的结构示意图，其工作原理为：
[0094]
首先向生成器内输入待迁移的字体的样本集和字体风格迁移条件，通过生成器生成目标域字体风格伪样本，即输入源域的样本和迁移条件通过生成器生成目标域伪样本；
[0095]
再将目标域字体风格伪样本和目标域真实字体样本同时输入判别器，对迁移结果进行判断，迁移结果即为生成器生成的目标域字体风格伪样本，判断的结果包括：迁移结果为真实数据、迁移结果为生成数据。
[0096]
进一步地，判别器添加全连接层作为辅助分类器，用于对迁移结果进行域分类，即判断和分析迁移结果属于哪一种字体风格。
[0097]
进一步地，本发明的判别器包括多个卷积层和多个池化层。
[0098]
4、对生成对抗网络模型进行训练和优化
[0099]
通过均匀采样方法对样本集进行采样，本发明的一个具体实施例中，每个批次的训练样本个数为16，每个样本图片的尺寸大小为256像素
×
256像素；将样本集和字体风格迁移条件输入生成对抗网络模型，对所述生成对抗网络模型进行训练，并根据训练结果对所述生成对抗网络模型进行参数优化直至损失函数收敛，即网络收敛稳定；其中输入的为样本集中的训练集。
[0100]
本发明的一个具体实施例，使用pytorch深度学习框架对所述生成对抗网络模型进行训练优化，确定训练参数，并根据网络收敛情况进行训练集样本微调和参数微调，直到网络收敛稳定为止，即达到满意的迁移条件。
[0101]
具体地，通过损失函数来判断网络的收敛情况：
[0102]
先构建生成对抗网络的损失函数；
[0103]
生成对抗网络整体的损失函数由以下几个组成，对抗损失l
adv
、域分类损失重构损失l
rec
；
[0104]
其中：
[0105]
判别器d损失函数l
d
为：
[0106][0107]
生成器g损失函数l
g
：
[0108]
l
g
＝l
adv
+λ
rec
·
l
rec
；
[0109]
其中，λ
rec
为重构损失平衡系数，λ
cls
为分类损失平衡系数。
[0110]
其中对抗损失函数l
adv
为：
[0111]
l
adv
＝e
x
[log d
src
(x)]+e
x,c
[log(1
‑
d
tar
(g(x,c)))]；
[0112]
其中，e(*)表示分布函数的期望，d
src
(*)表示判别器判断输入样本来自源域真实样本的概率分布，d
tar
(*)表示判别器判断输入样本来自目标域伪样本的概率分布，生成器将带有目标域标签c的输入图像x转换为目标伪样本g(x,c)，判别器则对目标伪样本和真实样本进行判断，认为来自真实数据样本的标签为1，来自生成样本的标签为0。
[0113]
因此，其生成对抗网络模型的优化过程是类似sigmoid的二分类，即sigmoid的交叉熵。
[0114]
为了达到多任务字体迁移的目标，判别器通过添加全连接层作为辅助分类器，用于判断迁移结果属于哪种目标类别；
[0115]
判别器分类损失函数为：
[0116][0117]
其中，c
′
是源域标签，d
cls
(*)表示在源域的条件下真实样本的类别概率。
[0118]
对于生成器，除了对抗损失，还包括生成器的重构损失，重构损失的损失函数l
rec
为：
[0119]
l
rec
＝e
x,c,c
′
[||x
‑
g(g(x,c),c
′
)||
smooth_l1
]；
[0120]
其中，smooth_l1损失(绝对值损失函数)用于衡量伪目标样本通过生成器生成的伪源域样本与真实源域样本之间的差异，smooth_l1损失函数为：
[0121]
smooth_l1＝|x|,x∈a；
[0122][0123]
其中，条件a表示样本中含字的像素区域的集合；
[0124]
生成对抗网络模型整体优化过程步骤为：
[0125]
1)初始化生成器和判别器的网络参数，以及设置训练超参数；
[0126]
2)采样训练，输入一个批次训练样本，进行前向推理，计算得到判别器的损失，通过梯度下降算法优化判别器的参数；
[0127]
3)当步骤2)执行完之后，计算生成器的损失，使用梯度下降优化生成网络参数；
[0128]
4)步骤2)和步骤3)则完成了一次生成器与判别器交叉优化，根据网络收敛情况以及损失的大小，重复上述步骤2和步骤3，直到损失不再减小为止(即网络收敛)。
[0129]
通过上述操作完成对生成对抗网络模块的训练；训练完成后再输入测试集，对训练后的生成对抗网络模型进行验证，以对该生成对抗网络模型进行可靠程度的检验。
[0130]
最后获取训练后的生成器，输入待迁移文字和迁移条件，即可获取目标字体风格的文字。
[0131]
本发明还提供了一种基于多任务生成对抗网络的字体风格迁移系统，包括：
[0132]
样本获取模块，用于获取包含多种字体的样本集，并对每种字体风格迁移条件进行标注；
[0133]
网络构建模块，用于构建生成对抗网络模型；
[0134]
模型训练模块，用于接收所述样本集和所述字体风格迁移条件，对所述生成对抗网络模型进行训练，并根据训练结果对所述生成对抗网络模型进行参数优化直至网络收敛稳定；
[0135]
生成器获取模块，用于获取所述生成对抗网络模型训练后得到的生成器。
[0136]
进一步地，网络构建模块包括生成器构建模块，用于构建生成对抗网络的生成器，生成器中包括特征注意力模块，参见图2，特征注意力模块位于两个残差模块之间，其作用是将卷积特征图转换为注意力特征图，提高对抗网络中生成器特征学习能力，通过提高对字体图片局部细节特征的捕捉能力，从而提高图像生成质量。
[0137]
通过本发明的方法和系统，能够通过较少的文字样本，快速、高效、高质量获得同字体风格的其它文字。
[0138]
尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田辉;刘其开
技术所有人：合肥高维数据技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。