一种基于形状语法的个人汉字手写字体自动仿写方法

文档序号：6575865阅读：274来源：国知局

专利名称：一种基于形状语法的个人汉字手写字体自动仿写方法
技术领域：
本发明涉及计算机艺术与美学以及人工智能领域，尤其涉及一种基于形状语法的个人汉字手写字体自动仿写方法。
背景技术：
已经有大量的工作来进行中文书法字的相关研究，2005年IEEE Intelligent Systems杂志(文章标题"Automatic generation of artistic Chinese calligraphy")公布的方法与本研究方法有关系。在那篇文章中使用形态语法以层次化的方法分解中文书法字。但是没有增强形态语法从而捕获在中文书法字形成过程中的不确定因素。1995年Proceedings of the International Conference on Computer Processing of Oriental Languages杂志(文章标题"Chinese glyph generation using character composition and beauty evaluation metrics")提出——禾中用探索的方式以量化的方式评价书法字的美观程度。文章基于一个基于规则的美观评定方法得出在汉字书法字书写过程的四种规则。该方法简单计算四种规则的得分总和。1992 年Proceeding of the International Joint Conference on Neural Networks杂志(文章标题"Fuzzy theory in hand writing learning system")提出模糊方法评价中文书法字的美观程度。在这种模糊方法中引入成员函数捕获不同书法的不同书写样式。但是成员函数的设计通常是手工完成并且对所有书写样式都是固定的。相比之下，我们提出的增强的形态语法通过动态的训练得到。通过一个即时训练的过程，可以捕获个人在中文书法字书写样式上的不确定因素。
另一个与本方法相关的领域是中文书法字的摹写。1994年Proceedings of the twelfth national conference on Artificial intelligence杂志(文章标题"Simulationing creativity in jazz performance")通过音乐基础知识和音乐记忆模拟音乐家的创造力和在爵士乐创作过程中的尝试。2003年ACMTransactions on Graphics杂志(文章标题"Learning style translation for the lines of a drawing")通过石开究在不同艺术绘画中不同绘画家的类型得到的联系，研究在卡通绘画过程形状摹写中有趣的问题，该研究给我们的方法提供了一个直接的灵感。2007年AI Society杂志(文章标题"A multi-agent a based framework for the simulation of human and social behaviors during emergency evacuations")提出一个基于多层代理的框架结构，用于模拟在紧急撤离过程中的人类和社会的行为。
总而言之，我们观察到所有的计算机模拟系统都是通过对目标对象建模来运行，建模过程可以通过数据收集的方法进行，也可以通过模拟产生模型，在模拟产生模型的过程中，模型可以通过人类专家提前提供，或者通过在线的过程逐渐学习，或者两者兼有。

发明内容
本发明的目的是克服现有技术的不足，提供一种基于形状语法的个人汉字手写字体自动仿写方法。
基于形状语法的个人汉字手写字体自动仿写方法包括以下步骤
1) 使用形状语法分解中文书法字
中文书法字由基本的笔画组成，根据形状语法把中文书法字分解成笔画构成的层次结构，形状语法包括一系列的形状产生规则，每种规则都指出从底层笔画构成中文书法字的组成元素，除了中文书法字的组成元素外，还有另外一种组成元素间的空间布局，空间布局用来指出中文书法字组成元素之间的空间关系；
2) 通过加强的形状语法捕获中文书法字的不确定因素
通过增强每一个形状语法规则，实现一个增强的形状语法系统，该增强的过程包括联系两种书写者的笔画和空间布局，从而得到某个书写者书写的概率以及该概率的可信度，增强的形状语法不再对所有用户保持一致，而是依赖书写者，给特定的书写者创建加强的形状语法，这个过程就是确定一个最佳集合，该集合中包括所有笔画和空间布局对某一特定书写者的概率和可信度；
3) 使用加强的形状语法确定摹写中文书法字的可信度
通过在形态语法系统中的推理得到所有组成中文书法字的规则，对每一种中文书法字的规则，递归计算笔画的概率和可信度，为了适应任意一条语法规则，采用神经网络的方法产生笔画的概率和可信度，利用所有的形态语法规则来训练这些神经网络；
4) 基于摹写中文书法字的可信度，提出方法进行摹写中文书法字当评定针对某一书写者的摹写笔画进行可信度分析后，利用可信度作为反
馈来摹写中文书法字。所述的步骤l)包括 a)中文书法字通过一个树形结构来表达，树的枝叶都是基本的组成元素，
7其中最底层的树叶就是中文书法字中的笔画，中文书法字被拆分成基本的笔画；
b) 组成中文书法字的基本笔画之间还有空间的层次结构关系，通过这个关系，中文书法字被看成由多个笔画组成的多层结构；
c) 根据步骤a)、步骤b)的中文书法字的层次结构，将一个中文书法字以递归的形式组成，通过多种组成方法完成，每一种组成中文书法字的方法都对应于形态语法系统中的一种分析方法；
d) 形态语法包含一系列形态产生规则，这些规则能够在形态语法系统中被表示出来，每一个规则都指出怎样从低层元素组成中文书法字的元素；
e) 除了组成中文书法字的基本元素外，在形态语法中还有字组成预测，字组成预测指的是组成中文书法字基本元素的空间关系；
f) 寻找某个特定中文书法字的所有的组成方法，找到所有的组成方法是一个成功摹写中文书法字算法的关键；
g) 在发现所有组成中文书法字的过程中，每一个组成元素都被给予一个类型属性，这个属性根据中国传统汉字形态分类给出元素所属的类型，一旦获得组成元素的形态类型，能够根据相应的的形态语法规则产生中文书法字的实际形状，其中相应的语法规则通过形态语法系统推理获得。
所述的步骤2)包括
h) 增强的形态语法系统通过增强每一个形态语法规则形成，增强的过程包括把两种作者相关信息和形态语法规则中的元素、空间关系联系起来，也就是它们被某个人所写的概率和这个概率的可信度；
i) 与前面谈到的传统形态语法系统不同，增强的形状语法不在对所有用户保持一致，而是依赖书写者，这是一个在设计过程中的目标属性，成功捕获个人书写的不确定因素是成功摹写中文书法字的关键；
j)给特定的书写者创建加强的形状语法，这个过程就是确定一个最佳集合，该集合中包括所有笔画和空间布周对某一特定书写者的概率和可信度，根据某一书写者的笔画集合把中文书法字分解成基本组成元素，从而产生一系列该书写者的书写笔画，这些书写笔画或者来源于书写者，或者来源于中文书法字分解的过程，然后对每个笔画进行进行参数表达，使它成为一个一维向量，向量的前两个参数给出中文书法字组成笔画的轨迹，另一个参数给出笔画的宽度；
k)在给定中文书法字组成元素的情况下，要确定被某个特定书写者书写、属于某种形态的概率和该概率的可信度，先在训练集中找到所有与该字属于同种形态的所有组成元素，并采用在步骤j)中提到的参数表达的方法，把训练集中的元素进行参数表达，这些元素都来自训练集，所以相应的书写者已经提前
知道，把参数表达后的结果分成两组，一组被某书写者X所写，另一组不是被
某书写者X所写；
l)对输入的中文书法字组成元素按照步骤j)的方法进行参数表达，参数表达得到的向量将落入哪一个组中，即被某书写者X所写，还是不被某书写者X所
写；
m)在训练集中要区分笔画是否为某一特定书写者所写，接下来引入一个模糊分类数据聚类算法，为了解决问题对这个算法稍作修改用曲线距离取代传统的集合距离，在这个模糊聚类算法中，输出某个笔画属于某个书写者的概率，数据挖掘中的ten-fold交叉算法用来在这里产生概率的可信度，然后采用样本数据进行训练，并留下10%的数据进行测试；
n)通过以下方法确定步骤m)中方法分类的准确性，重复步骤m) 10次，得到一个总体的分类准确率，如果总体的平均分类准确率是100%，即给它最高的可信度=1，那么当遇到新元素时分类结果很可能正确，否则，在上述分类过程中出现越多的错误，对新元素的分类结果的可信度就越低；
o)为了初始化捕获中文书法字中不确定因素的增强形态语法，采用优化的中文书法字的识别算法，决定所有中文书法字的元素间空间关系的概率和可信度，该算法的输出是一个模糊数字，数字的每一部分指出空间关系属于某种特定空间关系的概率；
p)针对所有元素，按照步骤k),步骤l)，步骤m)进行处理，处理的目的是为了得到元素的空间关系被某个书写者所写、属于某个特定空间关系的概率和可信度，如果元素的空间关系属于某种特定空间关系的概率比属于其它类型空间的空间关系大，说明结果正确，当所有的空间关系经过这个步骤后，计算总体正确率，并把结果作为可信度输出。
所述的步骤3)包括
q)在摹写中文书法字的计算机方法中成功摹写中文书法字的关键是通过评
分确定对某个特定的书法家摹写的可信度，通过前面讨论的增强的形态语法设计这个评分部分；
r)通过在形态语法系统中的推理得到所有组成中文书法字的规则，对每一种组成规则，递归计算笔画的概率和可信度；
s)为了能够对任意一条语法规则，采用神经网络的方法产生笔画的概率和可信度。两种神经网络被采用，一种是预测笔画的可信度(p(P， X， Y )，被叫做AWp 另一种是笔画的概率p(P工lO，被叫做層p输入到M^的内容包括某布局在若干
笔画空间布局中的概率的可信度+，尸;，…,p/j，;r)和某笔画属于某种字体的概率的可信度"O，"，输入到AWp的内容包括某布局在若干笔画空间布局中的概率/^，iT，…，尸/，义，"和某笔画属于某种字体的概率MC，"，其中AW^的输出是
某笔画属于某种字体的概率的可信度^(/> )， AW,的输出是某笔画属于某种字体的概率；
t)利用所有的形态语法规则来训练这些神经网络，其中语法规则的组成元素和空间布局都已经被某书写者写下来，则得到p和p的值，每一条规则都提供一个训练例子给神经网络，所采用的神经网络是经典后向反馈神经网络，在神
经网络训练过程中，设为循环10000次，并采用ten-fold交叉技术防止过度适应。
所述的步骤4)包括
u)当评定针对某一书写者的摹写笔画进行可信度分析后，釆用2005年 "Automatic generation of artistic Chinese calligraphy"提出的中文书法字生成算法，利用可信度作为反馈来摹写中文书法字；
v)中文书法字生成算法有六个参数，提供接口来整合摹写评分算法，这些参数用来指出产生的中文书法字的视觉样式，先随机取这六个参数，然后调用摹写评分算法来对摹写可信度打分，当产生分数后，釆用deepest ascendant算法
使分数最大化，为避免陷入局部最小，重复上述结果多次，直到分数到达一个满意阈0.9，或者重复的次数冲过1000次，通过逐个摹写中文书法字，摹写全部的中文书法字。
本发明与现有技术相比具有的有益效果-
(1) 综合了多种人工智能技术，使得计算机摹写中文书法字成为可能；
(2) 利用神经网络技术，使得计算机对中文书法字进行贫家的能力可以通过人类的审美观学习而来；
(3) 在对中文书法字的笔画分解中，引入了概率和可信度，大大提高了对于形变严重的字体尤其是草树体的笔画分解效果。

图1本发明所述的实施流程图2(a)显示一种分解中文书法字的方式图；图2(b)显示另一种分解中文书法字的方式图；图3显示在图1中分解的所有形态语法规则图4显示在图1中分解的部分形态语法规则，并且用另一种形式表达语法规则图5显示一部分根据形态语法规则组成中文书法字过程图6中第一列是书法家所写的原始书法字，其它三列是我们算法产生的、
获得最高摹写可信度得分的摹写结果图。
具体实施例方式
基于形状语法的个人汉字手写字体自动仿写方法包括以下步骤
1) 使用形状语法分解中文书法字
中文书法字由基本的笔画组成，根据形状语法把中文书法字分解成笔画构成的层次结构，形状语法包括一系列的形状产生规则，每种规则都指出从底层笔画构成中文书法字的组成元素，除了中文书法字的组成元素外，还有另外一种组成元素间的空间布局，空间布局用来指出中文书法字组成元素之间的空间
关系；
2) 通过加强的形状语法捕获中文书法字的不确定因素通过增强每一个形状语法规则，实现一个增强的形状语法系统，该增强的
过程包括联系两种书写者的笔画和空间布局，从而得到某个书写者书写的概率以及该概率的可信度，增强的形状语法不再对所有用户保持一致，而是依赖书写者，给特定的书写者创建加强的形状语法，这个过程就是确定一个最佳集合，该集合中包括所有笔画和空间布局对某一特定书写者的概率和可信度；
3) 使用加强的形状语法确定摹写中文书法字的可信度通过在形态语法系统中的推理得到所有组成中文书法字的规则，对每一种
中文书法字的规则，递归计算笔画的概率和可信度，为了适应任意一条语法规则，采用神经网络的方法产生笔画的概率和可信度，利用所有的形态语法规则来训练这些神经网络；
4) 基于摹写中文书法字的可信度，提出方法进行摹写中文书法字当评定针对某一书写者的摹写笔画进行可信度分析后，利用可信度作为反
馈来摹写中文书法字。所述的步骤l)包括 a)中文书法字通过一个树形结构来表达，树的枝叶都是基本的组成元素，其中最底层的树叶就是中文书法字中的笔画，中文书法字被拆分成基本的笔画；b) 组成中文书法字的基本笔画之间还有空间的层次结构关系，通过这个关系，中文书法字被看成由多个笔画组成的多层结构；
c) 根据步骤a)、步骤b)的中文书法字的层次结构，将一个中文书法字以递归的形式组成，通过多种组成方法完成，每一种组成中文书法字的方法都对应于形态语法系统中的一种分析方法；
d) 形态语法包含一系列形态产生规则，这些规则能够在形态语法系统中被表示出来，每一个规则都指出怎样从低层元素组成中文书法字的元素；
e) 除了组成中文书法字的基本元素外，在形态语法中还有字组成预测，字组成预测指的是组成中文书法字基本元素的空间关系；
f) 寻找某个特定中文书法字的所有的组成方法，找到所有的组成方法是一个成功摹写中文书法字算法的关键；
g) 在发现所有组成中文书法字的过程中，每一个组成元素都被给予一个类型属性，这个属性根据中国传统汉字形态分类给出元素所属的类型，一旦获得组成元素的形态类型，能够根据相应的的形态语法规则产生中文书法字的实际形状，其中相应的语法规则通过形态语法系统推理获得。
所述的步骤2)包括
h) 增强的形态语法系统通过增强每一个形态语法规则形成，增强的过程包括把两种作者相关信息和形态语法规则中的元素、空间关系联系起来，也就是它们被某个人所写的概率和这个概率的可信度；
i) 与前面谈到的传统形态语法系统不同，增强的形状语法不在对所有用户保持一致，而是依赖书写者，这是一个在设计过程中的目标属性，成功捕获个人书写的不确定因素是成功摹写中文书法字的关键；
j)给特定的书写者创建加强的形状语法，这个过程就是确定一个最佳集合，该集合中包括所有笔画和空间布局对某一特定书写者的概率和可信度，根据某一书写者的笔画集合把中文书法字分解成基本组成元素，从而产生一系列该书写者的书写笔画，这些书写笔画或者来源于书写者，或者来源于中文书法字分解的过程，然后对每个笔画进行进行参数表达，使它成为一个一维向量，向量的前两个参数给出中文书法字组成笔画的轨迹，另一个参数给出笔画的宽度；
k)在给定中文书法字组成元素的情况下，要确定被某个特定书写者书写、属于某种形态的概率和该概率的可信度，先在训练集中找到所有与该字属于同种形态的所有组成元素，并采用在步骤j)中提到的参数表达的方法，把训练集中的元素进行参数表达，这些元素都来自训练集，所以相应的书写者已经提前
12知道，把参数表达后的结果分成两组，一组被某书写者X所写，另一组不是被
某书写者X所写；
l)对输入的中文书法字组成元素按照步骤j)的方法进行参数表达，参数表达得到的向量将落入哪一个组中，即被某书写者X所写，还是不被某书写者X所
写；
m)在训练集中要区分笔画是否为某一特定书写者所写，接下来引入一个模糊分类数据聚类算法，为了解决问题对这个算法稍作修改用曲线距离取代传统的集合距离，在这个模糊聚类算法中，输出某个笔画属于某个书写者的概率，数据挖掘中的ten-fold交叉算法用来在这里产生概率的可信度，然后采用样本数据进行训练，并留下10%的数据进行测试；
n)通过以下方法确定步骤m)中方法分类的准确性，重复步骤m) 10次，得到一个总体的分类准确率，如果总体的平均分类准确率是100%，即给它最高的可信度=1，那么当遇到新元素时分类结果很可能正确，否则，在上述分类过程中出现越多的错误，对新元素的分类结果的可信度就越低；
o)为了初始化捕获中文书法字中不确定因素的增强形态语法，采用优化的中文书法字的识别算法，决定所有中文书法字的元素间空间关系的概率和可信度，该算法的输出是一个模糊数字，数字的每一部分指出空间关系属于某种特定空间关系的概率；
p)针对所有元素，按照步骤k)，步骤l)，步骤m)进行处理，处理的目的是为了得到元素的空间关系被某个书写者所写、属于某个特定空间关系的概率和可信度，如果元素的空间关系属于某种特定空间关系的概率比属于其它类型空间的空间关系大，说明结果正确，当所有的空间关系经过这个步骤后，计算总体正确率，并把结果作为可信度输出。
所述的步骤3)包括
q)在摹写中文书法字的计算机方法中成功摹写中文书法字的关键是通过评分确定对某个特定的书法家摹写的可信度，通过前面讨论的增强的形态语法设计这个评分部分；
r)通过在形态语法系统中的推理得到所有组成中文书法字的规则，对每一种组成规则，递归计算笔画的概率和可信度；
s)为了能够对任意一条语法规则，采用神经网络的方法产生笔画的概率和可信度。两种神经网络被采用，一种是预测笔画的可信度cp(P,X，Y )，被叫做AW"另一种是笔画的概率^(P，X，y)，被叫做AWp输入到JV^的内容包括某布局在若干笔画空间布局中的概率的可信度"/ ,尸,'，…,户/,X,"和某笔画属于某种字体的概率的可信度"户:，义，"，输入到AWp的内容包括某布局在若干笔画空间布局
中的概率^(/ ,《',…,d"和某笔画属于某种字体的概率"《，;ir,y),其中aw^的
瑜出是某笔画属于某种字体的概率的可信度^iMl0， AW^的输出是某笔画属于某种字体的概率；
t)利用所有的形态语法规则来训练这些神经网络，其中语法规则的组成元素和空间布局都己经被某书写者写下来，则得到p和p的值，每一条规则都提供一个训练例子给神经网络，所采用的神经网络是经典后向反馈神经网络，在神经网络训练过程中，设为循环10000次，并采用ten-fold交叉技术防止过度适应。
所述的步骤4)包括
u)当评定针对某一书写者的摹写笔画进行可信度分析后，采用2005年 "Automatic generation of artistic Chinese calligraphy"提出的中文书法字生成算法，利用可信度作为反馈来摹写中文书法字；
v)中文书法字生成算法有六个参数，提供接口来整合摹写评分算法，这些参数用来指出产生的中文书法字的视觉样式，先随机取这六个参数，然后调用摹写评分算法来对摹写可信度打分，当产生分数后，采用deepest ascendant算法使分数最大化，为避免陷入局部最小，重复上述结果多次，直到分数到达一个满意阈0.9，或者重复的次数冲过1000次，通过逐个摹写中文书法字，摹写全部的中文书法字。实施例
如图1所示，本发明所述的实施系统的流程包括中文书法字图像101，笔画和笔画间空间关系分解102，利用增强形状语法捕获中文书法字的不确定因素 103，利用增强形状语法评价摹写中文书法字104;
中文书法字图像101:中文书法字图像是指包含汉字字体的数字图像；在本实施
例中，所有的中文书法字图像都被分离成了一个个的单字，然后把它们归一化
成统一尺寸的二值黑白图像，其实例如图6第一列所示；笔画和笔画间空间关系分解102:在本示例中，该部分包括以下步骤
A)中文书法字可以通过一个树形结构来表达。树的枝叶都是基本的组成元
素，其中最底层的树叶就是中文书法字中的笔画。因此中文书法字可以被拆分成基本的笔画。组成中文书法字的基本笔画之间还有空间的层次结构关系，通过这个关系，中文书法字可以被看成由多个笔画组成的多层结构。
B) 通过A)中讨论的中文书法字的层次结构，一个中文书法字可以通过递归的形式组成。这种形成过程可以通过多种方式完成。每一种组成中文书法字的方法都对应于形态语法系统中的一种分析方法。这就是为什么选择形态语法作为产生中文书法字的基本产生方法。
C) 形态语法包含一系列形态产生规则。这些规则能够在形态语法系统中被表示出来。每一个规则都指出怎样从低层元素组成中文书法字的元素。除了组成中文书法字的基本元素外，字组成预测在形态语法中也很重要。字组成预测指的是组成中文书法字基本元素的空间关系。
D) 应用以上步骤，我们可以列举出组成某个特定中文书法字的所有可能的方式。找到所有的组成方式一个成功摹写中文书法字算法的关键。在发现所有组成中文书法字的过程中，每一个组成元素都被给予一个类型属性。这个属性根据中国传统汉字形态分类给出元素所属的类型。一旦获得组成元素的形态类型，我们能够根据相应的的形态语法规则产生中文书法字的实际形状，其中相应的语法规则通过形态语法系统推理获得。图2中给出整个分解过程及树形结构
利用增强形态语法捕获中文书法字的不确定因素103:
E) 增强的形态语法系统通过增强每一个形态语法规则形成。增强的过程包括把两种作者相关信息和形态语法规则中的元素、空间关系联系起来。也就是它们被某个人所写的概率和这个概率的可信度。其步骤如下-
1) 户(d:r):中文书法字元素Y属于某个形态r")和被书写者X所写的概
率；
2) p",x,;r):户(c，"的可信度；
3) p(/e/,—"otowc/^,户2，X,:r):元素《和尸2之间的空间关系Y属于某个类型
z"(一一"w鬆;O且被书写者X所写的概率；
4) ^(/# — "wowcA, S,户2 ， A1"): p(/祈—"orowc/j，《，尸2 ， X， r)的可信度。
F) 与前面谈到的传统形态语法系统不同，增强的形状语法不在对所有用户保持一致，而是依赖书写者。这是一个在设计过程中的目标属性。成功捕获个人书写的不确定因素是成功摹写中文书法字的关键。
G) 给特定的书写者创建加强的形状语法。这个过程就是确定一个最佳集
15合，该集合中包括所有笔画和空间布局对某一特定书写者的概率和可信度。根据某一书写者的笔画集合可以把中文书法字分解成基本组成元素，从而产生一系列该书写者的书写笔画。这些书写笔画或者来源于书写者，或者来源于中文书法字分解的过程，然后对每个笔画进行进行参数表达，使它成为一个一维向量。向量的前两个参数给出中文书法字组成笔画的轨迹，另一个参数给出笔画的宽度。
H) 在给定中文书法字组成元素的情况下，要确定被某个特定书写者书写、属于某种形态的概率和该概率的可信度。先在训练集中找到所有与该字属于同种形态的所有组成元素。并采用在j)中提到的参数表达的方法，把训练集中的元素进行参数表达。因为这些元素都来自训练集，所以相应的写者已经提前知
道。我们可以把参数表达后的结果分成两组，一组被某书写者x所写，另一组
不是被某书写者X所写。
I) 我们对输入的中文书法字组成元素按照j)的方法进行参数表达，现在问题就在于参数表达得到的向量将落入哪一个组中，即被某书写者X所写，还是不被某书写者X所写。
J)在训练集中要区分笔画是否为某一特定书写者所写，接下来引入一个模
糊分类数据聚类算法，为了能更好的解决问题对这个算法稍作修改用曲线距离取代传统的集合距离。在这个模糊聚类算法中，可以输出某个笔画属于某个
书写者的概率。数据挖掘中的ten-fold交叉算法用来在这里产生概率的可信度。然后我们采用样本数据进行训练，并留下10%的数据进行测试。
K)我们通过以下方法确定m)中方法分类的准确性。我们重复上述过程10 次，得到一个总体的分类准确率。如果总体的平均分类准确率是100%，即我们给它最高的可信度(=1),那么当遇到新元素时分类结果很可能正确。否则，在上述分类过程中出现越多的错误，对新元素的分类结果的可信度就越低。
L)为了初始化捕获中文书法字中不确定因素的增强形态语法，我们需要决定所有中文书法字的元素间空间关系的概率和可信度。关于优化中文书法字的识别已经进行了很多研究。我们采用一种容易实现且效果好的算法。该算法的输出是一个模糊数字，数字的每一部分指出空间关系属于某种特定空间关系的概率。
M)接下来按照k),l)，m)中提到的步骤，进行类似的处理。处理的目的是为了得到元素的空间关系被某个书写者所写、属于某个特定空间关系的概率和可信度。如果元素的空间关系属于某种特定空间关系的概率比属于其它类型空间空间关系大，我们就可以说结果正确。当所有的空间关系经过这个步骤后，我们计算总体正确百分比，并把结果作为可信度输出。对摹写中文书法字进行评分104:
N)在摹写中文书法字的计算机方法中成功摹写中文书法字的关键是通过评分确定对某个特定的书法家摹写的可信度。通过前面讨论的增强的形态语法设计这个评分部分。
0) 通过在形态语法系统中的推理得到所有组成中文书法字的规则。对每一
种组成规则，递归计算笔画的概率和可信度。详细步骤如下
1) 假设所有规则结果为『={^，『2，...，『 }，对每一个规则递归计算
/ (尸，x, ;r)和p(户，x， y)。令^的长度为m 。
2) 如果m^1, ^就只含有一条语法规则，如图4所示。
3) 如果m〉1,我们就重复应用每一个形态语法的等式。在这个重复过程中，可以得到元素Y属于某个字体""和被书写者X所写的概率及可信度。
4) 定义以下的函数考虑概率和可信度两个因素 O(尸，X, y) = I, (户，J, y)
其中k是一个用户可以调节的参数。
5) 最后在通过所有组成规则产生的结果中，我们选择规则^，该规则可以最大化argmax, O, (P，Z,y)
P)为了能够对任意一条语法规则，采用神经网络的方法产生笔画的概率和可信度。两种神经网络被采用，一种是预测笔画的可信度(p(P， X， Y )，被叫做AW^ 另一种是笔画的概率/^My)，被叫做M^输入到AW,的内容包括某布局在若干笔画空间布局中的概率的可信度々,iT，…，P/，X,"和某笔画属于某种字体的概率的可信度pfe',X,"。输入到AWp的内容包括某布局在若干笔画空间布局中的概率p(及,/T，…,P;,Z，"和某笔画属于某种字体的概率p(P;,Z，r)。其中JV&的输出是某笔画属于某种字体的概率的可信度p(尸,足y)， AWp的输出是某笔画属于某种字体的概率。
Q)利用所有的形态语法规则来训练这些神经网络，其中语法规则的组成元素和空间布局都已经被某书写者写下来，所以就意味着p和p的值都已经知道了。每一条规则都提供一个训练例子给神经网络。这里采用的神经网络是经典后向反馈神经网络。在神经网络训练过程中，我们设为循环10000次，并采用
17ten-fold交叉技术为了防止过度适应。摹写中文书法字105:
U)当我们评定针对某一书写者的摹写笔画进行可信度分析后，就可以利用可信度作为反馈来摹写中文书法字。在这里，采用一个2005年"Automatic generation of artistic Chinese calligraphy "提出的中文书去字生成算、法。
V)该算法有六个参数，提供了一个很好的接口来整合摹写评分算法。这些参数用来指出缠身的中文书法字的视觉样式。我们先随机取这六个参数，然后调用摹写评分算法来对摹写可信度打分。当产生分数后，我们采用deepest ascendant算法使分数最大化。为避免陷入局部最小，我们重复上述结果多次，知道分数到达一个满意阈(0.9)，或者重复的次数冲过1000次。通过逐个摹写中文书法字，我们可以摹写全部的中文书法字。
权利要求
1.一种基于形状语法的个人汉字手写字体自动仿写方法，其特征在于包括以下步骤1)使用形状语法分解中文书法字中文书法字由基本的笔画组成，根据形状语法把中文书法字分解成笔画构成的层次结构，形状语法包括一系列的形状产生规则，每种规则都指出从底层笔画构成中文书法字的组成元素，除了中文书法字的组成元素外，还有另外一种组成元素间的空间布局，空间布局用来指出中文书法字组成元素之间的空间关系；2)通过加强的形状语法捕获中文书法字的不确定因素通过增强每一个形状语法规则，实现一个增强的形状语法系统，该增强的过程包括联系两种书写者的笔画和空间布局，从而得到某个书写者书写的概率以及该概率的可信度，增强的形状语法不再对所有用户保持一致，而是依赖书写者，给特定的书写者创建加强的形状语法，这个过程就是确定一个最佳集合，该集合中包括所有笔画和空间布局对某一特定书写者的概率和可信度；3)使用加强的形状语法确定摹写中文书法字的可信度通过在形态语法系统中的推理得到所有组成中文书法字的规则，对每一种中文书法字的规则，递归计算笔画的概率和可信度，为了适应任意一条语法规则，采用神经网络的方法产生笔画的概率和可信度，利用所有的形态语法规则来训练这些神经网络；4)基于摹写中文书法字的可信度，提出方法进行摹写中文书法字当评定针对某一书写者的摹写笔画进行可信度分析后，利用可信度作为反馈来摹写中文书法字。
2. 根据权利要求1所述的一种基于形状语法的个人汉字手写字体自动仿写方法，其特征在于所述的步骤l)包括a)中文书法字通过一个树形结构来表达，树的枝叶都是基本的组成元素，其中最底层的树叶就是中文书法字中的笔画，中文书法字被拆分成基本的笔画；b) 组成中文书法字的基本笔画之间还有空间的层次结构关系，通过这个关系，中文书法字被看成由多个笔画组成的多层结构；c) 根据步骤a)、步骤b)的中文书法字的层次结构，将一个中文书法字以递归的形式组成，通过多种组成方法完成，每一种组成中文书法字的方法都对应于形态语法系统中的一种分析方法；d) 形态语法包含一系列形态产生规则，这些规则能够在形态语法系统中被表示出来，每一个规则都指出怎样从低层元素组成中文书法字的元素；e) 除了组成中文书法字的基本元素外，在形态语法中还有字组成预测，字组成预测指的是组成中文书法字基本元素的空间关系；f) 寻找某个特定中文书法字的所有的组成方法，找到所有的组成方法是一个成功摹写中文书法字算法的关键；g) 在发现所有组成中文书法字的过程中，每一个组成元素都被给予一个类型属性，这个属性根据中国传统汉字形态分类给出元素所属的类型，一旦获得组成元素的形态类型，能够根据相应的的形态语法规则产生中文书法字的实际形状，其中相应的语法规则通过形态语法系统推理获得。
3.根据权利要求1所述的基于形状语法的个人汉字手写字体自动仿写方法，其特征在于所述的步骤2)包括h) 增强的形态语法系统通过增强每一个形态语法规则形成，增强的过程包括把两种作者相关信息和形态语法规则中的元素、空间关系联系起来，也就是它们被某个人所写的概率和这个概率的可信度；i) 与前面谈到的传统形态语法系统不同，增强的形状语法不在对所有用户保持一致，而是依赖书写者，这是一个在设计过程中的目标属性，成功捕获个人书写的不确定因素是成功摹写中文书法字的关键；j)给特定的书写者创建加强的形状语法，这个过程就是确定一个最佳集合，该集合中包括所有笔画和空间布局对某一特定书写者的概率和可信度，根据某一书写者的笔画集合把中文书法字分解成基本组成元素，从而产生一系列该书写者的书写笔画，这些书写笔画或者来源于书写者，或者来源于中文书法字分解的过程，然后对每个笔画进行进行参数表达，使它成为一个一维向量，向量的前两个参数给出中文书法字组成笔画的轨迹，另一个参数给出笔画的宽度；k)在给定中文书法字组成元素的情况下，要确定被某个特定书写者书写、属于某种形态的概率和该概率的可信度，先在训练集中找到所有与该字属于同种形态的所有组成元素，并采用在步骤j)中提到的参数表达的方法，把训练集中的元素进行参数表达，这些元素都来自训练集，所以相应的书写者已经提前知道，把参数表达后的结果分成两组，一组被某书写者X所写，另一组不是被某书写者X所写；l)对输入的中文书法字组成元素按照步骤j)的方法进行参数表达，参数表达得到的向量将落入哪一个组中，即被某书写者x所写，还是不被某书写者x所写；m)在训练集中要区分笔画是否为某一特定书写者所写，接下来引入一个模糊分类数据聚类算法，为了解决问题对这个算法稍作修改用曲线距离取代传统的集合距离，在这个模糊聚类算法中，输出某个笔画属于某个书写者的概率，数据挖掘中的ten-fold交叉算法用来在这里产生概率的可信度，然后采用样本数据进行训练，并留下10%的数据进行测试；n)通过以下方法确定步骤m)中方法分类的准确性，重复步骤m) 10次，得到一个总体的分类准确率，如果总体的平均分类准确率是100%，即给它最高的可信度=1，那么当遇到新元素时分类结果很可能正确，否则，在上述分类过程中出现越多的错误，对新元素的分类结果的可信度就越低；o)为了初始化捕获中文书法字中不确定因素的增强形态语法，采用优化的中文书法字的识别算法，决定所有中文书法字的元素间空间关系的概率和可信度，该算法的输出是一个模糊数字，数字的每一部分指出空间关系属于某种特定空间关系的概率；p)针对所有元素，按照步骤k)，步骤l),步骤m)进行处理，处理的目的是为了得到元素的空间关系被某个书写者所写、属于某个特定空间关系的概率和可信度，如果元素的空间关系属于某种特定空间关系的概率比属于其它类型空间的空间关系大，说明结果正确，当所有的空间关系经过这个步骤后，计算总体正确率，并把结果作为可信度输出。
4.根据权利要求1所述的一种基于形状语法的个人汉字手写字体自动仿写方法，其特征在于所述的步骤3)包括q)在摹写中文书法字的计算机方法中成功摹写中文书法字的关键是通过评分确定对某个特定的书法家摹写的可信度，通过前面讨论的增强的形态语法设计这个评分部分；r)通过在形态语法系统中的推理得到所有组成中文书法字的规则，对每一种组成规则，递归计算笔画的概率和可信度；s)为了能够对任意一条语法规则，采用神经网络的方法产生笔画的概率和可信度。两种神经网络被釆用，一种是预测笔画的可信度(p(P, X， Y )，被叫做AWp ; 另一种是笔画的概率MP,UO，被叫做AWp输入到M^的内容包括某布局在若干笔画空间布局中的概率的可信度"i ，/T,…，p/,义，"和某笔画属于某种字体的概率的可信度"P;,X,"，输入到iVA^的内容包括某布局在若干笔画空间布局中的概率/^,p,',和某笔画属于某种字体的概率p(C，r)，其中iv 的输出是某笔画属于某种字体的概率的可信度伊(/Mr)， mvp的输出是某笔画属于某种字体的概率；t)利用所有的形态语法规则来训练这些神经网络，其中语法规则的组成元素和空间布局都已经被某书写者写下来，则得到p和p的值，每一条规则都提供一个训练例子给神经网络，所采用的神经网络是经典后向反馈神经网络，在神经网络训练过程中，设为循环10000次，并采用ten-fold交叉技术防止过度适应。
5.根据权利要求1所述的一种基于形状语法的个人汉字手写字体自动仿写方法，其特征在于所述的步骤4)包括u)当评定针对某一书写者的摹写笔画进行可信度分析后，采用2005年 "Automatic generation of artistic Chinese calligraphy"提出的中文书法字生成算法，利用可信度作为反馈来摹写中文书法字；v)中文书法字生成算法有六个参数，提供接口来整合摹写评分算法，这些参数用来指出产生的中文书法字的视觉样式，先随机取这六个参数，然后调用摹写评分算法来对摹写可信度打分，当产生分数后，采用deepest ascendant算法使分数最大化，为避免陷入局部最小，重复上述结果多次，直到分数到达一个满意阈0.9，或者重复的次数冲过1000次，通过逐个摹写中文书法字，摹写全部的中文书法字。
全文摘要
本发明公开了一种基于形状语法的个人汉字手写字体自动仿写方法。方法基于使用汉字形状语法的人工智能技术处理摹写过程中出现的多种不确定因素。首先对中文书法字进行分解成基本元素和元素间的空间关系，然后对元素和空间关系进行参数表达，获得元素、空间关系的概率和可信度，接下来利用增强形态语法对摹写的中文书法字进行打分，最后利用优化算法优化分数，直到达到满意程度。该方法的优点是利用了形状语法的丰富表达能力来表示汉字字体，抓住了个人笔迹中的潜在特征，并可以由计算机自动执行。
文档编号G06N3/02GK101604451SQ200910100650
公开日2009年12月16日申请日期2009年7月13日优先权日2009年7月13日
发明者刘智满, 徐颂华, 浩江, 潘云鹤申请人:浙江大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐颂华;江浩;刘智满;潘云鹤
技术所有人：浙江大学
我是此专利的发明人

上一篇：基于事件语义的土地利用数据更新与分析方法
上一篇：一种嵌入式异构多处理器系统的任务调度方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。