一种手写中文字库生成方法、系统、电子设备和存储介质与流程

文档序号：31725926发布日期：2022-10-05 00:34阅读：352来源：国知局

1.本公开涉及字库生成领域，具体涉及一种手写中文字库生成方法、系统、电子设备和存储介质。

背景技术：

2.随着互联网的发展，便携智能设备的升级以及互联网公司的不断创新，网络上提供的服务可以满足大部分的基本生活需求和娱乐需求，因此使用网络的人数也非常的庞大，作为信息传输的媒介，网络上最基本的元素就是文字。每天都会有很多人在阅读文字，而文字也不仅仅只是传递着信息，还传递着个性与力量，文化与内涵，比如一些企业的商业标志，街头巷尾牌匾上的个性门店文字，个性签名等。个性化的字体制作变的越来越重要。
3.根据gb2312的要求，一套字库至少要包含6763个简体中文字符，数据的获取方式一般先由艺术家或者字体爱好者来书写，既要书写大量的手写字，又要保证风格的统一性，这对书写者来说是个巨大的工作量，因此数据的获取会特别费时，费事，少则数周多则数月。数据获取以后得到字稿文件，然后使用现有的字符分割，轮廓提取，制作成初级字库，最后再由专业人员对每个字符进行精修，得到可以出售，符合要求的字库文件。
4.随着人工智能技术的发展，也有不少从业者尝试使用人工智能技术来简化上述传统流程，但是都存在一些缺陷。zi2zi(zi2zi.https://github.com/kaonashi-tyc/zi2i)和rewrite(yuchentian.2016.rewrite:neural style transfer for chinese fonts.(2016).retrieved nov 23,2016from https://github.com/kaonashi-tyc/rewrite)是两个标志性的工作，这两种方法的主要内容是可以将一种风格字体变换为另一种风格字体，而无须这两种风格一一对应的字符数据来训练。但是变换的另一种风格只能是固定个数的并且是训练数据集内的，对新的风格生成的文字存在比划丢失，风格不明显等问题。mxfont文献(multiple heads are better than one:few-shot font generation with multiple localized experts，2021)使用部件信息来提高局部风格生成能力，即提高生成文字的局部细节质量。主要步骤是先将输入图片经过多个由卷积神经网络构成的专家网络，然后将专家网络的输出再经过全连接网络变换成风格特征向量和内容特征向量，再把多个风格特征向量和内容特征向量拼接在一起输入到由卷积神经网络构成的生成器网络输出最后的生成结果。在训练过程中使用汉字拆分的部件信息作为监督信号。但是在部件的维度上考虑，6367个中文字符并不是所有的字都可以拆分开，而且拆分的部件分布也极其不均衡，存在有些部件出现次数极多，其他的大多数部件出现的次数是寥寥无几因此生成的结果只有一部分是符合字库制作标准的，其余大部分生成效果不满足字库制作标准。还有文献(generating handwritten chinese characters using cyclegan，2018)使用训练对抗神经网络和稠密链接结构训练，同样是只需要非配对的数据就可以训练，实现从原始字体变换成目标字体，是先将输入的字体经过编码器神经网络得到这个字的特征向量，然后将特征向量再通过稠密链接结构转换成目标风格字体的特征向量，最后再将目标风格字体的特征向量经过生成器网络生成目标风格的字体。这种方法采用的一对一的生成方
式，如果要生成一套新风格的字体就要重新训练一次，训练周期太长往往是几天或者几十天，而且生成的字体也不够清晰，不满足制作字库的需求。
5.综上所述，现有技术存在的缺点如下：
6.1)生成的字形图片，会存在笔画或者部件丢失的情况
7.2)对于一套新风格的生成，需要经过几十天的训练，生成周期长。
8.3)不能控制生成内容的笔画和字体结构。

技术实现要素：

9.本公开提供一种手写中文字库生成方法、系统、电子设备和存储介质，能够解决现有方法生成质量差，图像模糊，生成一套新风格字体的周期长的诸多不足，将制作手写字库的时间由原来手工采集的几周，或者是使用其他深度神经网络方法需要重新训练的几十天，缩短到2-3个小时，而且可以指定生成字的内容风格，效果也符合制作字库的标准。为解决上述技术问题，本公开提供如下技术方案：
10.作为本公开实施例的一个方面，提供一种手写中文字库生成方法，包括如下步骤：
11.获取字形图片；
12.使用生成对抗网络中的内容编码器和风格多输入编码器训练所述字形图片，所述内容编码器用于提取字形图片中的内容特征向量，所述风格多输入编码器接收指定风格的多个风格样本的输入，获得多个风格样本与生成目标风格的权重关系以获得多个风格样本对应的不同风格权重，根据多个风格样本和对应的不同风格权重输出多个样本的风格特征向量；
13.将所述内容特征向量和风格特征向量送入生成器以生成中文字图像。
14.可选地，所述获取字形图片具体包括步骤：选择多个字体文件，将多个所述字体文件渲染成白底黑字的多个字形图片。
15.可选地，在获取字形图片之前还包括训练生成对抗网络的步骤，训练所述生成对抗网络的损失函数包括对抗损失、l1损失和内容损失。
16.可选地，在获取字形图片之前还包括微调所述生成对抗网络的部分参数的步骤，所述微调通过增加新的一致性损失实现，所述一致性损失l1_loss公式如下：
17.l1_loss＝||contenc(i_c)-contenc(i_f)||，
18.其中，contenc(i_c)为内容字形的内容特征向量，contenc(i_f)为生成字形的内容特征向量。
19.可选地，所述内容编码器由多个卷积层-归一化层-激活层结构组成。
20.可选地，所述风格多输入编码器由注意力层-残差层组成，所述注意力层用于接收多个风格样本的输入，所述残差层用于获取并输出多个样本的风格特征向量。
21.作为本公开实施例的另一个方面，提供一种手写中文字库生成系统，包括：
22.字形图片获取模块，获取字形图片；
23.编码器模块，使用生成对抗网络中的内容编码器和风格多输入编码器训练所述字形图片，所述内容编码器用于提取字形图片中的内容特征向量，所述风格多输入编码器接收指定风格的多个风格样本的输入，获得多个风格样本与生成目标风格的权重关系以获得多个风格样本对应的不同风格权重，根据多个风格样本和对应的不同风格权重输出多个样
本的风格特征向量；
24.生成器，将所述内容特征向量和风格特征向量送入所述生成器以生成中文字图像。
25.可选地，所述系统还包括微调模块，所述微调模块用于微调所述生成对抗网络训练过程中的损失函数，所述损失函数增加了一致性损失，所述一致性损失的公式如下：
26.l1_loss＝||contenc(i_c)-contenc(i_f)||，
27.其中，contenc(i_c)为内容字形的内容特征向量，contenc(i_f)为生成字形的内容特征向量。
28.作为本公开实施例的另一方面，还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的手写中文字库生成方法。
29.作为本公开实施例的另一方面，还一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的手写中文字库生成方法的步骤。
30.本公开的实施例在实施时只需要用户书写少量手写字(三百字以上)系统就可以在短时间内生成对应的风格的任意内容字形图片，使得用现有方法制作gb2312规定的手写中文字库时间从原来的几十天缩短到了几个小时，并且与其他快速制作手写中文字库的方法相比，生成的效果更好。整个方法即不依靠笔画部件，又不需要耗费大量人力精修生成结果。因此极大的缩短了字库制作的周期和精修字库的人力成本，使得个性化字库的生成变的更加简单，方便，高质量，进而推动字体的个性化应用。本公开还通过微调生成对抗网络时使用一致性损失来解决了现有方法生成的字形存在笔画缺失的问题。
附图说明
31.图1为实施例1中的手写中文字库生成方法流程图；
32.图2为生成对抗网络的训练过程图；
33.图3为字体的生成效果图；
34.图4为手写中文字库生成系统框图。
35.图5(a)、图5(b)和图5(c)为生成中文字图像示例图。
具体实施方式
36.下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。
37.实施例1
38.作为本公开实施例的一个方面，本实施例提供一种手写中文字库生成方法，如图1所示，包括如下步骤：
39.s10、获取字形图片；
40.s20、使用生成对抗网络中的内容编码器和风格多输入编码器训练所述字形图片，所述内容编码器用于提取字形图片中的内容特征向量，所述风格多输入编码器接收指定风
格的多个风格样本的输入，获得多个风格样本与生成目标风格的权重关系以获得多个风格样本对应的不同风格权重，根据多个风格样本和对应的不同风格权重输出多个样本的风格特征向量；
41.s30、将所述内容特征向量和风格特征向量送入生成器以生成中文字图像。
42.基于上述配置本公开实施例只需要用户书写少量手写字就可以在短时间内生成对应的风格的任意内容字形图片，使得用现有方法制作gb2312规定的手写中文字库时间从原来的几十天缩短到了几个小时，并且与其他快速制作手写中文字库的方法相比，生成的效果更好。整个方法即不依靠笔画部件，又不需要耗费大量人力精修生成结果。因此极大的缩短了字库制作的周期和精修字库的人力成本，使得个性化字库的生成变的更加简单，方便，高质量，进而推动字体的个性化应用。
43.下面分别对本公开实施例的各步骤进行详细说明。
44.s10、获取字形图片；其中，所述获取字形图片具体包括步骤：选择多个字体文件，将多个所述字体文件渲染成白底黑字的多个字形图片。所述多个字体文件可为*.ttf or*.otf格式的字体文件，然后将gb2312规定的字符从字体文件格式渲染成字形图片文件，如渲染成白底黑字的字形图片。
45.s20、使用生成对抗网络中的内容编码器和风格多输入编码器训练所述字形图片，所述内容编码器用于提取字形图片中的内容特征向量，所述风格多输入编码器接收指定风格的多个风格样本的输入，获得多个风格样本与生成目标风格的权重关系以获得多个风格样本对应的不同风格权重，根据多个风格样本和对应的不同风格权重输出多个样本的风格特征向量；
46.其中，如图2所示，生成对抗网络的训练主要包括四个由卷积层构成的神经网络，分别是内容编码器contenc、风格多输入编码器styleenc、生成器g和判别器d。
47.在一些实施例中，所述内容编码器由多个卷积层-归一化层-激活层结构组成。例如，内容编码器contenc由5个卷积层-归一化层-激活层结构组成，作用是将256x256像素的字形图片提取为512x16x16的内容特征向量，作为该字形图像的内容表征。
48.在一些实施例中，所述风格多输入编码器由注意力层-残差层组成，所述注意力层用于接收多个风格样本的输入，所述残差层用于获取并输出多个样本的风格特征向量。例如，注意力层接受多个风格样本的输入，比如5个风格样本，然后计算这5个风格样本与生成目标风格的权重关系，获得5个样本对应的不同权重，最后将得到的风格权重和风格样本一起经过残差层输出1x256纬度的风格特征，作为5个样本的风格表征。
49.在一些实施例中，在获取字形图片之前还包括训练生成对抗网络的步骤，训练所述生成对抗网络的损失函数包括对抗损失、l1损失和内容损失。其中，对抗损失、l1损失和内容损失可采用现有技术中的损失函数来表示，训练的目标就是让这三个损失之和最小。
50.在一些实施例中，在获取字形图片之前还包括微调所述生成对抗网络的部分参数的步骤，其中，先将字体渲染成字形图片，然后通过微调基础模型的部分参数，使微调的模型生成的新风格字体。微调只需要2-3小时即可完成。所述微调通过增加新的一致性损失实现，所述一致性损失l1_loss公式如下：
51.l1_loss＝||contenc(i_c)-contenc(i_f)||，
52.其中，contenc(i_c)为内容字形的内容特征向量，contenc(i_f)为生成字形的内
容特征向量，保证生成的内容与给定内容保持一致。
53.如图3所示，为所述生成器生成的字库内的字体的生成效果图。
54.本公开实施例可以使用新风格作为输入，通过修改给定的内容字形，即可以实现生成gb2312规定的6763个字符。也可以生成gb18030规定的2万个字符集的字库。
55.实施例2
56.作为本公开实施例的另一个方面，本实施例提供一种手写中文字库生成系统100，如图4所示，包括：
57.字形图片获取模块1，获取字形图片；用于选择多个字体文件，如选取gb2312库中的多个字体文件，将多个所述字体文件渲染成白底黑字的多个字形图片。所述多个字体文件可为*.ttf or*.otf格式的字体文件，然后将gb2312规定的字符从字体文件格式渲染成字形图片文件，如渲染成白底黑字的字形图片。
58.编码器模块2，使用生成对抗网络中的内容编码器和风格多输入编码器训练所述字形图片，所述内容编码器用于提取字形图片中的内容特征向量，所述风格多输入编码器接收指定风格的多个风格样本的输入，获得多个风格样本与生成目标风格的权重关系以获得多个风格样本对应的不同风格权重，根据多个风格样本和对应的不同风格权重输出多个样本的风格特征向量；
59.生成器3，将所述内容特征向量和风格特征向量送入所述生成器以生成中文字图像。
60.例如，如图5所示，为手写中文字库的生成示例图，图5(a)为指定的内容输入，即字形图片中的内容输入；图5(b)为多个风格样本，即指定的风格；图5(c)为生成的中文字图像。
61.其中，如图2所示，生成对抗网络的训练主要包括四个由卷积层构成的神经网络，分别是内容编码器contenc、风格多输入编码器styleenc、生成器g和判别器d。
62.在一些实施例中，所述内容编码器由多个卷积层-归一化层-激活层结构组成。例如，内容编码器contenc由5个卷积层-归一化层-激活层结构组成，作用是将256x256像素的字形图片提取为512x16x16的内容特征向量，作为该字形图像的内容表征。
63.在一些实施例中，所述风格多输入编码器由注意力层-残差层组成，所述注意力层用于接收多个风格样本的输入，所述残差层用于获取并输出多个样本的风格特征向量。例如，注意力层接受多个风格样本的输入，比如5个风格样本，然后计算这5个风格样本与生成目标风格的权重关系，获得5个样本对应的不同权重，最后将得到的风格权重和风格样本一起经过残差层输出1x256纬度的风格特征，作为5个样本的风格表征。
64.在一些实施例中，在获取字形图片之前还包括训练生成对抗网络的步骤，训练所述生成对抗网络的损失函数包括对抗损失、l1损失和内容损失。其中，对抗损失、l1损失和内容损失可采用现有技术中的损失函数来表示，训练的目标就是让这三个损失之和最小。
65.在一些实施例中，所述系统还包括微调模块，所述微调模块用于微调所述生成对抗网络训练过程中的损失函数，所述损失函数增加了一致性损失，所述一致性损失的公式如下：
66.l1_loss＝||contenc(i_c)-contenc(i_f)||，
67.其中，contenc(i_c)为内容字形的内容特征向量，contenc(i_f)为生成字形的内
容特征向量。
68.在一些实施例中，判别器d采用与vgg16(karen simonyan andandrewzisserman.2014.very deep convolutional networks for large-scale image recognition.arxiv preprint arxiv:1409.1556(2014).)一样的结构，输入生成图像或者真实图像，分别输出是生成图像的概率和是真实图像的概率。
69.本公开实施例可以使用新风格作为输入，通过修改给定的内容字形，即可以实现生成gb2312规定的6763个字符。也可以生成gb18030规定的2万个字符集的字库。
70.实施列3
71.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例1中的手写中文字库生成方法。
72.本公开实施例3仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
73.电子设备可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备的组件可以包括但不限于：至少一个处理器、至少一个存储器、连接不同系统组件(包括存储器和处理器)的总线。
74.总线包括数据总线、地址总线和控制总线。
75.存储器可以包括易失性存储器，例如随机存取存储器(ram)和/或高速缓存存储器，还可以进一步包括只读存储器(rom)。
76.存储器还可以包括具有一组(至少一个)程序模块的程序工具，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
77.处理器通过运行存储在存储器中的计算机程序，从而执行各种功能应用以及数据处理。
78.电子设备也可以与一个或多个外部设备(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口进行。并且，电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。网络适配器通过总线与电子设备的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
79.应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本技术的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
80.实施列4
81.一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述程序被处理器执行时实现实施例1中的手写中文字库生成方法的步骤。
82.其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
83.在可能的实施方式中，本公开还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1中所述的手写中文字库生成方法的步骤。
84.其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
85.尽管已经示出和描述了本公开的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本公开的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本公开的范围由所附权利要求及其等同物限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：岳强
技术所有人：上海驿创信息技术有限公司
我是此专利的发明人

上一篇：自由基聚合引发剂、组合物、固化物及固化物的制造方法与流程
上一篇：一种便于检修的输电设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。