一种通过搭建神经网络生成花鸟艺术字图像的方法与流程

文档序号：16515528发布日期：2019-01-05 09:36阅读：420来源：国知局

本发明属于计算机图像处理技术领域，尤其涉及一种通过搭建神经网络生成花鸟艺术字图像的方法。

背景技术：

花鸟艺术字是中国民间特有的艺术瑰宝，它既是一种汉字字体也是一种艺术画。花鸟字因其笔画多用花鸟图案而得名，即把字的笔画用花、鸟、鱼、草、虫、山、水等图案代替，以基本字形组成，集书法绘画为一体。然而获取一个汉字对应的花鸟艺术字图像需要专业级别作画水准并结合特殊的画具如用竹片、麻布、海绵、羊毛等经过精心制作而成。因此，促进花鸟字艺术的弘扬与发展，让更多的人得以欣赏甚至通过计算机自己创作花鸟字具有重要意义。本发明试图将花鸟艺术字图像生成的问题视作图像到图像的转换问题，即通过输入汉字的粗线条图像，如手写毛笔字体图像，进而获取对应的彩色花鸟艺术字图像。为此，使用提出的方法搭建神经网络，可基于简单的输入获取任意汉字对应的花鸟艺术字图像，从而加速甚至省去传统复杂的手工和特殊画具的绘制过程。

近年来，深度卷积神经网络在各类图像处理任务取得了飞速的发展，例如生成对抗网络在ianj.goodfellow等的文章“generativeadversarialnets”(nips，2014)中提出，作为一种生成模型在各类图像生成任务中取得了不断发展与突破。该网络在训练过程中，生成器负责生成图像并将其输入判别器，而判别器负责接收真实图像和生成图像并识别区分该接收样本是否为真实图像。生成器与判别器在训练过程中扮演着对抗学习的角色。原始的生成对抗网络存在着难以训练的缺点，如训练过程中当判别器越好时，生成器梯度消失越严重。另外训练的最终甚至出现模式坍塌(collapsemode)现象，即所生成样本出现重复、缺失多样性。许多基于生成对抗网络的变体被提出试图解决生成对抗网络的难以训练以及不稳定的问题，如通过去掉最大池化层、全连接层而加入bn层即批归一化层，并在生成器中除输出层使用tanh激活函数外其余层使用relu激活函数，判别器则使用leakyrelu激活函数以达到稳定训练和缓解模式坍塌问题的效果，然而这些网络的生成器输入是随机噪声向量，生成的样本图像不可控，不符合图像到图像的转换问题。与此同时，人们开始将生成对抗网络应用到图像转换的任务中，例如试图解决同一场景白天图像和夜晚图像之间互相转换的风格迁移问题，以及航空摄像图和地图、提包鞋子边缘图像和真实图像、灰度图像和彩色图像之间互相转换的问题等。不难发现其中和花鸟艺术字图像生成最相近的是提包鞋子边缘图像到真实图像的转换，但由于提包和鞋子图像纹理形式等较为简单，并且在这种任务下该这些网络结构往往需要数万图像作为训练数据集，显然无法解决花鸟艺术字图像生成任务中训练数据集少、图像纹理多变而复杂的问题；而在解决灰度图像到彩色图像的转换任务中，灰度图像有着强烈的纹理等图像细节的提醒，又与花鸟艺术字图像生成网络的输入是简单的汉字粗线条图像如手写毛笔字体图像等黑白二值图像不同。

技术实现要素：

本发明的主要目的在于克服现有技术的缺点与不足，提供一种通过搭建神经网络生成花鸟艺术字图像的方法，基于简单的输入获取任意汉字对应的花鸟艺术字图像，从而加速甚至省去传统复杂的手工和特殊画具的绘制过程。

为了达到上述目的，本发明采用以下技术方案：

本发明一种通过搭建神经网络生成花鸟艺术字图像的方法，包括下述步骤：

(1)构建一个新的图像数据集，将该图像数据集作为训练的真实目标图像，同时进行网络输入源图像的准备，即目标花鸟艺术字对应汉字的粗线条图像；

(2)使用8-connect块构建卷积神经网络作为生成器，构建马尔可夫卷积神经网络作为判别器并设计gls损失函数作为网络损失函数；

(3)将构建的图像数据集输入到生成器和判别器进行训练；

(4)使用训练好的生成器进行花鸟艺术字图像的生成。

作为优选的技术方案，所述步骤(1)中，构建一个新的图像数据集chineseartcharacter360，具体方法为：

(1-1)通过网络搜索引擎获取公开、公益性的花鸟艺术字图像，并对图像进行去噪处理、调整分辨率大小处理，选出360个汉字对应的360幅花鸟字图像，作为训练的真实目标图像即为360幅target图像；

(1-2)同时进行网络输入源图像的准备，即目标花鸟艺术字对应汉字的粗线条图像360幅，此为360幅input图像；

(1-3)将input图像和target图像组成成对图像的数据集作为网络训练与测试的数据集。

作为优选的技术方案，所述步骤(2)中，每个8-connect块内部数据流分支形成数字“8”形状，具体计算表达式为：

out＝f(r(f(in)+in))+r(f(in)+in)

上述式子中in为8-connect块的输入，out为输出，f为卷积、归一化，r为relu激活操作；

(2-1-1)提取图像整体的粗特征，以分别对其卷积、归一化、relu激活为一组操作，重复改组操作3次；

(2-1-2)取图像局部的深层特征，将在第一步中得到的特征输出经过8次8-connect块，每个8-connect块输出特征图通道数保持不变；

(2-1-3)生成图像，分别重复进行3次反卷积恢复通道数为3。

作为优选的技术方案，所述步骤(2)中，构建判别器的具体方法为：

(2-2-1)将输入图像对在通道维度上拼接，即两幅通道数为3的图像拼接为通道数为6的特征图；

(2-2-2)通过5次卷积操作，其中卷积核大小4×4，步长为2，前四次卷积每次输出通道数为输入通道数的2倍，最后一次卷积输出通道数降为1，即最终得到30×30×1的特征大小作为输出；

(2-2-3)除最后一次卷积直接输出结果，前面每次卷积后均进行归一化处理，并使用正半轴斜率为1、负半轴斜率为0.2的leaklyrelu函数进行激活。

作为优选的技术方案，所述步骤(2)中，设计gls损失函数表达式为：

其中，为条件对抗损失，为l1距离损失，为结构相似性损失，α、β分别为权重系数；

gls损失函数中损失部分具体表达式为：

gls损失函数中ll1(g)损失部分具体表达式为：

上述和中x为成对图像数据集(input，target)中的input图像，y为target图像，g为生成器网络，d为判别器网络；

gls损失函数中lssim(g)损失部分具体表达式为：

上式中g为生成器网络，p为x的取13×13像素大小的图像窗口中心，n为窗口数量，x为成对图像数据集(input，target)中的input图像，y为target图像，μx为x的均值，μy为y的均值，σx为x的标准差，σy为y的标准差，σxy为x和y的协方差，c1和c2默认为分别取0.02和0.03。

作为优选的技术方案，所述步骤(3)中，将图像数据集输入到生成器和判别器进行训练的具体过程如下：

(3-1)将所提供的成对图像数据集中的input图像输入到生成器中，得到生成图像fake-target；

(3-2)当将fake-target和input作为生成图像对，输入到判别器中时，计算损失并反向传播梯度，生成器调整参数趋向于生成与目标图像更接近的图像；

(3-3)当将target和input作为真实图像对，输入到判别器中时，计算损失并反向传播梯度，判别器调整参数趋向于提高对fake-target与target的区分能力；

(3-4)当达到平衡即当判别器无法区分成对图像是真实图像对还是生成图像对时，训练完成。

作为优选的技术方案，所述步骤(4)中，训练好的生成器用于生成花鸟艺术字图像的具体方法为：

输入汉字粗线条图像例如手写毛笔字体图像，经过前向传播即可快速得到对应的彩色花鸟艺术字图像。

本发明与现有技术相比，具有如下优点和有益效果：

(1)、本发明针对中国民间花鸟艺术字展开研究，通过搭建神经网络能够快速自动生成花鸟艺术字图像，可省去传统的手工以及特殊画具的绘制过程，促进艺术汉字的弘扬与发展。

(2)、本发明提出的chineseartcharacter360数据集，包含360幅花鸟艺术字图像，经过去噪、统一分辨率大小等，可用于进一步对花鸟艺术字图像进行研究。

(3)、本发明提出了改进的神经网络结构，其中提出8-connect构建卷积神经网络作为生成器，提取图像更丰富、多层次的特征，同时可减少网络参数计算量；使用马尔可夫卷积神经网络作为判别器，对图像判别时分块判别，促进生成局部块信息更好的图像。

(4)、本发明提出了gls损失函数作为网络损失函数，即将对抗损失、l1距离损失和ssim损失作为总的网络损失函数，其中l1损失部分有减少模糊作用，ssim损失使生成图像的局部信息、颜色以及对比度等更加符合人类的视觉系统。

(5)、不同于传统或者当前大多数的卷积神经网络，训练数据量往往需要几千甚至数万，本发明提出的网络仅使用360幅图像作为网络训练测试数据集即可达到较好的生成效果。

本发明可以运用到如下领域：

(1)、中国民间花鸟艺术字的自动生成，省去传统复杂的手工以及特殊画具的绘制过程；

(2)、实验室研究，如深度学习卷积神经网络在图像到图像转换领域的研究；

(3)、图像风格迁移，对不同域、不同风格图像间的迁移、融合提供思路。

附图说明

图1为本发明提出方法的整体流程图。

图2为整体网络结构图。

图3为本发明提出的8-connect块构建的生成器网络结构图。

图4为8-connect块内部结构图。

图5为本发明判别器网络结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本发明一种通过搭建神经网络生成花鸟艺术字图像的方法，包括下述步骤：

首先，提出一个花鸟艺术字图像数据集合chineseartcharacter360，包含360个汉字对应的360幅花鸟艺术字图像，将其作为训练的真实目标图像，同时进行网络输入源图像的准备，即目标花鸟艺术字对应汉字的粗线条图像。

其次，使用8-connect构建神经网络作为生成器和马尔可夫卷积神经网络作为判别器。

再次，使用所提出的gls损失函数作为网络损失函数。

最后，通过训练网络后移除判别器最终仅使用生成器即可用于花鸟艺术字图像的生成。

为进一步详细阐述本发明的技术方案，本实施例对主要技术要点做如下说明：

1、准备图像数据集；

本发明中为构建图像数据集chineseartcharacter360，首先通过网络搜索引擎获取公开、公益性的花鸟艺术字图像。为达到更好的训练效果，可通过基础的图像处理操作进行图像增强，如对图像进行去噪、调整分辨率大小等处理，后选出360个较具有代表性的汉字对应的360幅花鸟字图像，所谓具有代表性即横(一)、竖(丨)、撇(丿)、点(丶)、折(乛)等笔画均有呈现并出现频率大致相同。选出的花鸟艺术字图像作为训练的真实目标图像即为360幅target图像。同时进行网络输入源图像的准备，即目标花鸟艺术字对应汉字的粗线条图像如手写毛笔字体图像360幅，此为360幅input图像。最后，将input图像和target图像组成成对图像的数据集作为网络训练测试数据集。

2、构建生成对抗网络；

整个网络结构如图2所示。构建整个网络包括三部分：使用8-connect块构建卷积神经网络作为生成器，构建马尔可夫卷积神经网络作为判别器和设计gls损失函数作为网络总的损失函数。

(1)构建生成器网络：

所构建的生成器网络结构如图3所示，对输入的源图像即input图像，调整为大小为256×256×3，其中3代表通道数。

第一步提取图像整体的粗特征，以分别对其卷积、归一化、relu激活为一组操作，重复改组操作3次：其中第一次使用的卷积核大小为7×7，卷积步长为1，输出通道数增至64；第二次使用的卷积核大小为3×3，卷积步长为2，输出通道数增至128；第三次使用的卷积核大小为3×3，卷积步长为2，输出通道数增至256。

第二步为了进一步提取图像局部的深层特征，使用提出的8-connect块构建卷积神经网络作为生成器，其中每个8-connect块内部数据流分支形成数字“8”形状，如图4所示，具体计算表达式为：

out＝f(r(f(in)+in))+r(f(in)+in)

上述式子中in为8-connect块的输入，out为输出，f为卷积(卷积核大小为3×3，步长为1，通道数维持不变)、归一化，r为relu激活操作。使用8-connect块可进一步提取和保留图像特征信息，缓解训练过程中梯度弥散或爆炸问题，同时减少网络参数计算量。将在第一步中得到的输出经过8次8-connect块，每个8-connect块输出特征图通道数始终保持256。

最后生成图像，分别重复进行3次反卷积恢复通道数为3。

(2)构建判别器网络：

如图5所示的马尔可夫判别器网络结构，该判别器网络结构设计构思最先在lsola等的文章“lmage-to-imagetranslationwithconditionaladversarialnetworks.”(cvpr，2017)中提出。原始生成对抗网络的判别器，直接经过数次卷积得到1×1×1的输出，将判别的真假以一个标量，即概率作为判别器输出，1表示真实目标图像而0表示生成图像。这里所使用的马尔科夫判别器仅是对输入图像卷积得到30×30×1的张量大小作为输出，当张量元素全为1表示真实图像对，张量元素全为0表示生成图像对。马尔可夫判别器将输入图像分块进行判别，即对局部块信息独立判别，可进一步提升判别器网络对真实目标图像和生成图像的判别能力。

本实施中判别器首先将输入图像对在通道维度上拼接，即两幅通道数为3的图像拼接为通道数为6的特征图，并通过5次卷积操作，其中卷积核大小4×4，步长为2，前四次卷积每次输出通道数为输入通道数的2倍，最后一次卷积输出通道数降为1，即最终得到30×30×1的特征大小作为输出。值得注意的是，除最后一次卷积直接输出结果，前面每次卷积后均进行归一化处理，并使用正半轴斜率为1、负半轴斜率为0.2的leaklyrelu函数进行激活。

(3)设计gls损失函数：

本发明使用所提出的gls损失函数：

其中，为条件对抗损失，为l1距离损失，为结构相似性损失，α、β分别为权重系数，取值50～100较佳。而则是使用了mirzam等的文章“conditionalgenerativeadversarialnets”(computerscience，2014：2672-2680)提出的带约束条件的生成对抗网络的损失函数，具体表达式为：

在gls损失中损失部分为具体表达式为：

其中，x为成对图像数据集(input，target)中的input图像，y为target图像。g为8-resnet生成网络，d为判别器。

此外，gls损失使用到了wang等的文章“imagequalityassessment：fromerrorvisibilitytostructuralsimilarity”(ieeetransactionsonimageprocessing13(4)(2004)600-612)提出的ssim评估指数定义。ssim综合评估图像的局部信息、颜色以及对比度等，值越高越符合人类的视觉系统感受，意味着图像质量越好。由于网络损失函数定义为损失越小网络优化结果更好，故基于ssim提出的部分为具体表达式为：

其中，g为生成网络，p为x的取13×13像素大小的图像窗口中心，n为窗口数量，x为成对图像数据集(input，target)中的input图像，y为target图像，μx为x的均值，μy为y的均值，σx为x的标准差，σy为y的标准差，σxy为x和y的协方差，c1和c2默认为分别取0.02和0.03。

3、训练网络：

将所提供的成对图像数据集输入到生成器和判别器进行交替训练，使用adam优化算法，在本实施方式中使用深度学习框架tensorflow推荐默认设置的超参数(learning_rate＝0.001，beta1＝0.9，beta2＝0.999，epsilon＝1e-08)，训练批大小为1，训练数据集大小为300，验证集大小为60，共200个训练周期。

训练过程中，将所提供的成对图像数据集中的input图像输入到生成器中，得到生成图像fake-target；当将fake-target和input作为生成图像对，在通道维度上进行拼接即通道数变成6后输入到判别器中时，计算损失并反向传播梯度，生成器调整参数进行优化而趋向于生成与真实目标图像对更接近的生成图像对；当将target图像和input图像作为真实目标图像对，同样经过在通道维度上进行拼接输入到判别器中时，计算损失并反向传播梯度，判别器调整参数趋向于提高对fake-target与target的区分能力。两者形成一种对抗训练的关系，即生成器致力于生成判别器更难判别的图像，判别器则不断对比真实图像对和生成图像对的误差损失，当达到平衡即当判别器无法区分成对图像是真实图像对还是生成图像对时，训练完成，并保存模型。

4、使用训练好的模型进行花鸟艺术字的生成：

通过移除马尔可夫判别器，仅使用8-connect构造的生成器网络即可生成花鸟艺术字图像：输入汉字粗线条图像手写毛笔字体图像，经过前向传播即可快速得到对应的彩色花鸟艺术字图像。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张见威;黎官钊;刘珍梅;陈丹妮;何君婷
技术所有人：华南理工大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。