一种基于形状语法的个人汉字手写字体自动仿写方法

文档序号:6575865阅读:274来源:国知局
专利名称:一种基于形状语法的个人汉字手写字体自动仿写方法
技术领域
本发明涉及计算机艺术与美学以及人工智能领域,尤其涉及一种基于形状 语法的个人汉字手写字体自动仿写方法。
背景技术
已经有大量的工作来进行中文书法字的相关研究,2005年IEEE Intelligent Systems杂志(文章标题"Automatic generation of artistic Chinese calligraphy")公 布的方法与本研究方法有关系。在那篇文章中使用形态语法以层次化的方法分 解中文书法字。但是没有增强形态语法从而捕获在中文书法字形成过程中的不 确定因素。1995年Proceedings of the International Conference on Computer Processing of Oriental Languages杂志(文章标题"Chinese glyph generation using character composition and beauty evaluation metrics")提出——禾中用探索的方式以量 化的方式评价书法字的美观程度。文章基于一个基于规则的美观评定方法得出 在汉字书法字书写过程的四种规则。该方法简单计算四种规则的得分总和。1992 年Proceeding of the International Joint Conference on Neural Networks杂志(文章标 题"Fuzzy theory in hand writing learning system")提出模糊方法评价中文书法字 的美观程度。在这种模糊方法中引入成员函数捕获不同书法的不同书写样式。 但是成员函数的设计通常是手工完成并且对所有书写样式都是固定的。相比之 下,我们提出的增强的形态语法通过动态的训练得到。通过一个即时训练的过 程,可以捕获个人在中文书法字书写样式上的不确定因素。
另一个与本方法相关的领域是中文书法字的摹写。1994年Proceedings of the twelfth national conference on Artificial intelligence杂志(文章标题"Simulationing creativity in jazz performance")通过音乐基础知识和音乐记忆模拟音乐家的创造 力和在爵士乐创作过程中的尝试。2003年ACMTransactions on Graphics杂志(文 章标题"Learning style translation for the lines of a drawing")通过石开究在不同艺术 绘画中不同绘画家的类型得到的联系,研究在卡通绘画过程形状摹写中有趣的 问题,该研究给我们的方法提供了一个直接的灵感。2007年AI Society杂志(文 章标题"A multi-agent a based framework for the simulation of human and social behaviors during emergency evacuations")提出一个基于多层代理的框架结构,用于模拟在紧急撤离过程中的人类和社会的行为。
总而言之,我们观察到所有的计算机模拟系统都是通过对目标对象建模来 运行,建模过程可以通过数据收集的方法进行,也可以通过模拟产生模型,在 模拟产生模型的过程中,模型可以通过人类专家提前提供,或者通过在线的过 程逐渐学习,或者两者兼有。

发明内容
本发明的目的是克服现有技术的不足,提供一种基于形状语法的个人汉字 手写字体自动仿写方法。
基于形状语法的个人汉字手写字体自动仿写方法包括以下步骤
1) 使用形状语法分解中文书法字
中文书法字由基本的笔画组成,根据形状语法把中文书法字分解成笔画构 成的层次结构,形状语法包括一系列的形状产生规则,每种规则都指出从底层 笔画构成中文书法字的组成元素,除了中文书法字的组成元素外,还有另外一 种组成元素间的空间布局,空间布局用来指出中文书法字组成元素之间的空间 关系;
2) 通过加强的形状语法捕获中文书法字的不确定因素
通过增强每一个形状语法规则,实现一个增强的形状语法系统,该增强的 过程包括联系两种书写者的笔画和空间布局,从而得到某个书写者书写的概率 以及该概率的可信度,增强的形状语法不再对所有用户保持一致,而是依赖书 写者,给特定的书写者创建加强的形状语法,这个过程就是确定一个最佳集合, 该集合中包括所有笔画和空间布局对某一特定书写者的概率和可信度;
3) 使用加强的形状语法确定摹写中文书法字的可信度
通过在形态语法系统中的推理得到所有组成中文书法字的规则,对每一种 中文书法字的规则,递归计算笔画的概率和可信度,为了适应任意一条语法规 则,采用神经网络的方法产生笔画的概率和可信度,利用所有的形态语法规则 来训练这些神经网络;
4) 基于摹写中文书法字的可信度,提出方法进行摹写中文书法字 当评定针对某一书写者的摹写笔画进行可信度分析后,利用可信度作为反
馈来摹写中文书法字。 所述的步骤l)包括 a)中文书法字通过一个树形结构来表达,树的枝叶都是基本的组成元素,
7其中最底层的树叶就是中文书法字中的笔画,中文书法字被拆分成基本的笔画;
b) 组成中文书法字的基本笔画之间还有空间的层次结构关系,通过这个关 系,中文书法字被看成由多个笔画组成的多层结构;
c) 根据步骤a)、步骤b)的中文书法字的层次结构,将一个中文书法字以递 归的形式组成,通过多种组成方法完成,每一种组成中文书法字的方法都对应 于形态语法系统中的一种分析方法;
d) 形态语法包含一系列形态产生规则,这些规则能够在形态语法系统中被 表示出来,每一个规则都指出怎样从低层元素组成中文书法字的元素;
e) 除了组成中文书法字的基本元素外,在形态语法中还有字组成预测,字 组成预测指的是组成中文书法字基本元素的空间关系;
f) 寻找某个特定中文书法字的所有的组成方法,找到所有的组成方法是一个 成功摹写中文书法字算法的关键;
g) 在发现所有组成中文书法字的过程中,每一个组成元素都被给予一个类 型属性,这个属性根据中国传统汉字形态分类给出元素所属的类型, 一旦获得 组成元素的形态类型,能够根据相应的的形态语法规则产生中文书法字的实际 形状,其中相应的语法规则通过形态语法系统推理获得。
所述的步骤2)包括
h) 增强的形态语法系统通过增强每一个形态语法规则形成,增强的过程包 括把两种作者相关信息和形态语法规则中的元素、空间关系联系起来,也就是 它们被某个人所写的概率和这个概率的可信度;
i) 与前面谈到的传统形态语法系统不同,增强的形状语法不在对所有用户 保持一致,而是依赖书写者,这是一个在设计过程中的目标属性,成功捕获个 人书写的不确定因素是成功摹写中文书法字的关键;
j)给特定的书写者创建加强的形状语法,这个过程就是确定一个最佳集合, 该集合中包括所有笔画和空间布周对某一特定书写者的概率和可信度,根据某 一书写者的笔画集合把中文书法字分解成基本组成元素,从而产生一系列该书 写者的书写笔画,这些书写笔画或者来源于书写者,或者来源于中文书法字分 解的过程,然后对每个笔画进行进行参数表达,使它成为一个一维向量,向量 的前两个参数给出中文书法字组成笔画的轨迹,另一个参数给出笔画的宽度;
k)在给定中文书法字组成元素的情况下,要确定被某个特定书写者书写、 属于某种形态的概率和该概率的可信度,先在训练集中找到所有与该字属于同 种形态的所有组成元素,并采用在步骤j)中提到的参数表达的方法,把训练集中的元素进行参数表达,这些元素都来自训练集,所以相应的书写者已经提前
知道,把参数表达后的结果分成两组, 一组被某书写者X所写,另一组不是被
某书写者X所写;
l)对输入的中文书法字组成元素按照步骤j)的方法进行参数表达,参数表达 得到的向量将落入哪一个组中,即被某书写者X所写,还是不被某书写者X所
写;
m)在训练集中要区分笔画是否为某一特定书写者所写,接下来引入一个模 糊分类数据聚类算法,为了解决问题对这个算法稍作修改用曲线距离取代传 统的集合距离,在这个模糊聚类算法中,输出某个笔画属于某个书写者的概率, 数据挖掘中的ten-fold交叉算法用来在这里产生概率的可信度,然后采用样本 数据进行训练,并留下10%的数据进行测试;
n)通过以下方法确定步骤m)中方法分类的准确性,重复步骤m) 10次,得 到一个总体的分类准确率,如果总体的平均分类准确率是100%,即给它最高的 可信度=1,那么当遇到新元素时分类结果很可能正确,否则,在上述分类过程 中出现越多的错误,对新元素的分类结果的可信度就越低;
o)为了初始化捕获中文书法字中不确定因素的增强形态语法,采用优化的 中文书法字的识别算法,决定所有中文书法字的元素间空间关系的概率和可信 度,该算法的输出是一个模糊数字,数字的每一部分指出空间关系属于某种特 定空间关系的概率;
p)针对所有元素,按照步骤k),步骤l),步骤m)进行处理,处理的目的是为 了得到元素的空间关系被某个书写者所写、属于某个特定空间关系的概率和可 信度,如果元素的空间关系属于某种特定空间关系的概率比属于其它类型空间 的空间关系大,说明结果正确,当所有的空间关系经过这个步骤后,计算总体 正确率,并把结果作为可信度输出。
所述的步骤3)包括
q)在摹写中文书法字的计算机方法中成功摹写中文书法字的关键是通过评
分确定对某个特定的书法家摹写的可信度,通过前面讨论的增强的形态语法设 计这个评分部分;
r)通过在形态语法系统中的推理得到所有组成中文书法字的规则,对每一 种组成规则,递归计算笔画的概率和可信度;
s)为了能够对任意一条语法规则,采用神经网络的方法产生笔画的概率和可信度。两种神经网络被采用, 一种是预测笔画的可信度(p(P, X, Y ),被叫做AWp 另一种是笔画的概率p(P工lO,被叫做層p输入到M^的内容包括某布局在若干
笔画空间布局中的概率的可信度+,尸;,…,p/j,;r)和某笔画属于某种字体的概率 的可信度"O,",输入到AWp的内容包括某布局在若干笔画空间布局中的概 率/^,iT,…,尸/,义,"和某笔画属于某种字体的概率MC,",其中AW^的输出是
某笔画属于某种字体的概率的可信度^(/> ), AW,的输出是某笔画属于某种字 体的概率;
t)利用所有的形态语法规则来训练这些神经网络,其中语法规则的组成元 素和空间布局都已经被某书写者写下来,则得到p和p的值,每一条规则都提供 一个训练例子给神经网络,所采用的神经网络是经典后向反馈神经网络,在神
经网络训练过程中,设为循环10000次,并采用ten-fold交叉技术防止过度适 应。
所述的步骤4)包括
u)当评定针对某一书写者的摹写笔画进行可信度分析后,釆用2005年 "Automatic generation of artistic Chinese calligraphy"提出的中文书法字生成算 法,利用可信度作为反馈来摹写中文书法字;
v)中文书法字生成算法有六个参数,提供接口来整合摹写评分算法,这些 参数用来指出产生的中文书法字的视觉样式,先随机取这六个参数,然后调用 摹写评分算法来对摹写可信度打分,当产生分数后,釆用deepest ascendant算法
使分数最大化,为避免陷入局部最小,重复上述结果多次,直到分数到达一个 满意阈0.9,或者重复的次数冲过1000次,通过逐个摹写中文书法字,摹写全 部的中文书法字。
本发明与现有技术相比具有的有益效果-
(1) 综合了多种人工智能技术,使得计算机摹写中文书法字成为可能;
(2) 利用神经网络技术,使得计算机对中文书法字进行贫家的能力可以通过 人类的审美观学习而来;
(3) 在对中文书法字的笔画分解中,引入了概率和可信度,大大提高了对于 形变严重的字体尤其是草树体的笔画分解效果。


图1本发明所述的实施流程图2(a)显示一种分解中文书法字的方式图;图2(b)显示另一种分解中文书法字的方式图; 图3显示在图1中分解的所有形态语法规则图4显示在图1中分解的部分形态语法规则,并且用另一种形式表达语法 规则图5显示一部分根据形态语法规则组成中文书法字过程图6中第一列是书法家所写的原始书法字,其它三列是我们算法产生的、
获得最高摹写可信度得分的摹写结果图。
具体实施例方式
基于形状语法的个人汉字手写字体自动仿写方法包括以下步骤
1) 使用形状语法分解中文书法字
中文书法字由基本的笔画组成,根据形状语法把中文书法字分解成笔画构 成的层次结构,形状语法包括一系列的形状产生规则,每种规则都指出从底层 笔画构成中文书法字的组成元素,除了中文书法字的组成元素外,还有另外一 种组成元素间的空间布局,空间布局用来指出中文书法字组成元素之间的空间
关系;
2) 通过加强的形状语法捕获中文书法字的不确定因素 通过增强每一个形状语法规则,实现一个增强的形状语法系统,该增强的
过程包括联系两种书写者的笔画和空间布局,从而得到某个书写者书写的概率 以及该概率的可信度,增强的形状语法不再对所有用户保持一致,而是依赖书 写者,给特定的书写者创建加强的形状语法,这个过程就是确定一个最佳集合, 该集合中包括所有笔画和空间布局对某一特定书写者的概率和可信度;
3) 使用加强的形状语法确定摹写中文书法字的可信度 通过在形态语法系统中的推理得到所有组成中文书法字的规则,对每一种
中文书法字的规则,递归计算笔画的概率和可信度,为了适应任意一条语法规 则,采用神经网络的方法产生笔画的概率和可信度,利用所有的形态语法规则 来训练这些神经网络;
4) 基于摹写中文书法字的可信度,提出方法进行摹写中文书法字 当评定针对某一书写者的摹写笔画进行可信度分析后,利用可信度作为反
馈来摹写中文书法字。 所述的步骤l)包括 a)中文书法字通过一个树形结构来表达,树的枝叶都是基本的组成元素, 其中最底层的树叶就是中文书法字中的笔画,中文书法字被拆分成基本的笔画;b) 组成中文书法字的基本笔画之间还有空间的层次结构关系,通过这个关 系,中文书法字被看成由多个笔画组成的多层结构;
c) 根据步骤a)、步骤b)的中文书法字的层次结构,将一个中文书法字以递 归的形式组成,通过多种组成方法完成,每一种组成中文书法字的方法都对应 于形态语法系统中的一种分析方法;
d) 形态语法包含一系列形态产生规则,这些规则能够在形态语法系统中被 表示出来,每一个规则都指出怎样从低层元素组成中文书法字的元素;
e) 除了组成中文书法字的基本元素外,在形态语法中还有字组成预测,字 组成预测指的是组成中文书法字基本元素的空间关系;
f) 寻找某个特定中文书法字的所有的组成方法,找到所有的组成方法是一个 成功摹写中文书法字算法的关键;
g) 在发现所有组成中文书法字的过程中,每一个组成元素都被给予一个类 型属性,这个属性根据中国传统汉字形态分类给出元素所属的类型, 一旦获得 组成元素的形态类型,能够根据相应的的形态语法规则产生中文书法字的实际 形状,其中相应的语法规则通过形态语法系统推理获得。
所述的步骤2)包括
h) 增强的形态语法系统通过增强每一个形态语法规则形成,增强的过程包 括把两种作者相关信息和形态语法规则中的元素、空间关系联系起来,也就是 它们被某个人所写的概率和这个概率的可信度;
i) 与前面谈到的传统形态语法系统不同,增强的形状语法不在对所有用户 保持一致,而是依赖书写者,这是一个在设计过程中的目标属性,成功捕获个 人书写的不确定因素是成功摹写中文书法字的关键;
j)给特定的书写者创建加强的形状语法,这个过程就是确定一个最佳集合, 该集合中包括所有笔画和空间布局对某一特定书写者的概率和可信度,根据某 一书写者的笔画集合把中文书法字分解成基本组成元素,从而产生一系列该书 写者的书写笔画,这些书写笔画或者来源于书写者,或者来源于中文书法字分 解的过程,然后对每个笔画进行进行参数表达,使它成为一个一维向量,向量 的前两个参数给出中文书法字组成笔画的轨迹,另一个参数给出笔画的宽度;
k)在给定中文书法字组成元素的情况下,要确定被某个特定书写者书写、 属于某种形态的概率和该概率的可信度,先在训练集中找到所有与该字属于同 种形态的所有组成元素,并采用在步骤j)中提到的参数表达的方法,把训练集 中的元素进行参数表达,这些元素都来自训练集,所以相应的书写者已经提前
12知道,把参数表达后的结果分成两组, 一组被某书写者X所写,另一组不是被
某书写者X所写;
l)对输入的中文书法字组成元素按照步骤j)的方法进行参数表达,参数表达 得到的向量将落入哪一个组中,即被某书写者X所写,还是不被某书写者X所
写;
m)在训练集中要区分笔画是否为某一特定书写者所写,接下来引入一个模 糊分类数据聚类算法,为了解决问题对这个算法稍作修改用曲线距离取代传 统的集合距离,在这个模糊聚类算法中,输出某个笔画属于某个书写者的概率, 数据挖掘中的ten-fold交叉算法用来在这里产生概率的可信度,然后采用样本 数据进行训练,并留下10%的数据进行测试;
n)通过以下方法确定步骤m)中方法分类的准确性,重复步骤m) 10次,得 到一个总体的分类准确率,如果总体的平均分类准确率是100%,即给它最高的 可信度=1,那么当遇到新元素时分类结果很可能正确,否则,在上述分类过程 中出现越多的错误,对新元素的分类结果的可信度就越低;
o)为了初始化捕获中文书法字中不确定因素的增强形态语法,采用优化的 中文书法字的识别算法,决定所有中文书法字的元素间空间关系的概率和可信 度,该算法的输出是一个模糊数字,数字的每一部分指出空间关系属于某种特 定空间关系的概率;
p)针对所有元素,按照步骤k),步骤l),步骤m)进行处理,处理的目的是为 了得到元素的空间关系被某个书写者所写、属于某个特定空间关系的概率和可 信度,如果元素的空间关系属于某种特定空间关系的概率比属于其它类型空间 的空间关系大,说明结果正确,当所有的空间关系经过这个步骤后,计算总体 正确率,并把结果作为可信度输出。
所述的步骤3)包括
q)在摹写中文书法字的计算机方法中成功摹写中文书法字的关键是通过评 分确定对某个特定的书法家摹写的可信度,通过前面讨论的增强的形态语法设 计这个评分部分;
r)通过在形态语法系统中的推理得到所有组成中文书法字的规则,对每一 种组成规则,递归计算笔画的概率和可信度;
s)为了能够对任意一条语法规则,采用神经网络的方法产生笔画的概率和 可信度。两种神经网络被采用, 一种是预测笔画的可信度cp(P,X,Y ),被叫做AW"另一种是笔画的概率^(P,X,y),被叫做AWp输入到JV^的内容包括某布局 在若干笔画空间布局中的概率的可信度"/ ,尸,',…,户/,X,"和某笔画属于某种字体 的概率的可信度"户:,义,",输入到AWp的内容包括某布局在若干笔画空间布局
中的概率^(/ ,《',…,d"和某笔画属于某种字体的概率"《,;ir,y),其中aw^的
瑜出是某笔画属于某种字体的概率的可信度^iMl0, AW^的输出是某笔画属于 某种字体的概率;
t)利用所有的形态语法规则来训练这些神经网络,其中语法规则的组成元 素和空间布局都己经被某书写者写下来,则得到p和p的值,每一条规则都提供 一个训练例子给神经网络,所采用的神经网络是经典后向反馈神经网络,在神 经网络训练过程中,设为循环10000次,并采用ten-fold交叉技术防止过度适 应。
所述的步骤4)包括
u)当评定针对某一书写者的摹写笔画进行可信度分析后,采用2005年 "Automatic generation of artistic Chinese calligraphy"提出的中文书法字生成算 法,利用可信度作为反馈来摹写中文书法字;
v)中文书法字生成算法有六个参数,提供接口来整合摹写评分算法,这些 参数用来指出产生的中文书法字的视觉样式,先随机取这六个参数,然后调用 摹写评分算法来对摹写可信度打分,当产生分数后,采用deepest ascendant算法 使分数最大化,为避免陷入局部最小,重复上述结果多次,直到分数到达一个 满意阈0.9,或者重复的次数冲过1000次,通过逐个摹写中文书法字,摹写全 部的中文书法字。 实施例
如图1所示,本发明所述的实施系统的流程包括中文书法字图像101,笔画 和笔画间空间关系分解102,利用增强形状语法捕获中文书法字的不确定因素 103,利用增强形状语法评价摹写中文书法字104;
中文书法字图像101:中文书法字图像是指包含汉字字体的数字图像;在本实施
例中,所有的中文书法字图像都被分离成了一个个的单字,然后把它们归一化
成统一尺寸的二值黑白图像,其实例如图6第一列所示; 笔画和笔画间空间关系分解102:在本示例中,该部分包括以下步骤
A)中文书法字可以通过一个树形结构来表达。树的枝叶都是基本的组成元
素,其中最底层的树叶就是中文书法字中的笔画。因此中文书法字可以被拆分成基本的笔画。组成中文书法字的基本笔画之间还有空间的层次结构关系,通 过这个关系,中文书法字可以被看成由多个笔画组成的多层结构。
B) 通过A)中讨论的中文书法字的层次结构, 一个中文书法字可以通过递归 的形式组成。这种形成过程可以通过多种方式完成。每一种组成中文书法字的 方法都对应于形态语法系统中的一种分析方法。这就是为什么选择形态语法作 为产生中文书法字的基本产生方法。
C) 形态语法包含一系列形态产生规则。这些规则能够在形态语法系统中被 表示出来。每一个规则都指出怎样从低层元素组成中文书法字的元素。除了组 成中文书法字的基本元素外,字组成预测在形态语法中也很重要。字组成预测 指的是组成中文书法字基本元素的空间关系。
D) 应用以上步骤,我们可以列举出组成某个特定中文书法字的所有可能的 方式。找到所有的组成方式一个成功摹写中文书法字算法的关键。在发现所有 组成中文书法字的过程中,每一个组成元素都被给予一个类型属性。这个属性 根据中国传统汉字形态分类给出元素所属的类型。 一旦获得组成元素的形态类 型,我们能够根据相应的的形态语法规则产生中文书法字的实际形状,其中相 应的语法规则通过形态语法系统推理获得。图2中给出整个分解过程及树形结 构
利用增强形态语法捕获中文书法字的不确定因素103:
E) 增强的形态语法系统通过增强每一个形态语法规则形成。增强的过程包 括把两种作者相关信息和形态语法规则中的元素、空间关系联系起来。也就是 它们被某个人所写的概率和这个概率的可信度。其步骤如下-
1) 户(d:r):中文书法字元素Y属于某个形态r")和被书写者X所写的概
率;
2) p",x,;r):户(c,"的可信度;
3) p(/e/,—"otowc/^,户2,X,:r):元素《和尸2之间的空间关系Y属于某个类型
z"(一一"w鬆;O且被书写者X所写的概率;
4) ^(/# — "wowcA, S,户2 , A1"): p(/祈—"orowc/j,《,尸2 , X, r)的可信度。
F) 与前面谈到的传统形态语法系统不同,增强的形状语法不在对所有用户 保持一致,而是依赖书写者。这是一个在设计过程中的目标属性。成功捕获个 人书写的不确定因素是成功摹写中文书法字的关键。
G) 给特定的书写者创建加强的形状语法。这个过程就是确定一个最佳集
15合,该集合中包括所有笔画和空间布局对某一特定书写者的概率和可信度。根 据某一书写者的笔画集合可以把中文书法字分解成基本组成元素,从而产生一 系列该书写者的书写笔画。这些书写笔画或者来源于书写者,或者来源于中文 书法字分解的过程,然后对每个笔画进行进行参数表达,使它成为一个一维向 量。向量的前两个参数给出中文书法字组成笔画的轨迹,另一个参数给出笔画 的宽度。
H) 在给定中文书法字组成元素的情况下,要确定被某个特定书写者书写、 属于某种形态的概率和该概率的可信度。先在训练集中找到所有与该字属于同 种形态的所有组成元素。并采用在j)中提到的参数表达的方法,把训练集中的 元素进行参数表达。因为这些元素都来自训练集,所以相应的写者已经提前知
道。我们可以把参数表达后的结果分成两组, 一组被某书写者x所写,另一组
不是被某书写者X所写。
I) 我们对输入的中文书法字组成元素按照j)的方法进行参数表达,现在问 题就在于参数表达得到的向量将落入哪一个组中,即被某书写者X所写,还是 不被某书写者X所写。
J)在训练集中要区分笔画是否为某一特定书写者所写,接下来引入一个模
糊分类数据聚类算法,为了能更好的解决问题对这个算法稍作修改用曲线距 离取代传统的集合距离。在这个模糊聚类算法中,可以输出某个笔画属于某个
书写者的概率。数据挖掘中的ten-fold交叉算法用来在这里产生概率的可信度。 然后我们采用样本数据进行训练,并留下10%的数据进行测试。
K)我们通过以下方法确定m)中方法分类的准确性。我们重复上述过程10 次,得到一个总体的分类准确率。如果总体的平均分类准确率是100%,即我们 给它最高的可信度(=1),那么当遇到新元素时分类结果很可能正确。否则,在上 述分类过程中出现越多的错误,对新元素的分类结果的可信度就越低。
L)为了初始化捕获中文书法字中不确定因素的增强形态语法,我们需要决 定所有中文书法字的元素间空间关系的概率和可信度。关于优化中文书法字的 识别已经进行了很多研究。我们采用一种容易实现且效果好的算法。该算法的 输出是一个模糊数字,数字的每一部分指出空间关系属于某种特定空间关系的 概率。
M)接下来按照k),l),m)中提到的步骤,进行类似的处理。处理的目的是为 了得到元素的空间关系被某个书写者所写、属于某个特定空间关系的概率和可 信度。如果元素的空间关系属于某种特定空间关系的概率比属于其它类型空间空间关系大,我们就可以说结果正确。当所有的空间关系经过这个步骤后,我 们计算总体正确百分比,并把结果作为可信度输出。 对摹写中文书法字进行评分104:
N)在摹写中文书法字的计算机方法中成功摹写中文书法字的关键是通过 评分确定对某个特定的书法家摹写的可信度。通过前面讨论的增强的形态语法 设计这个评分部分。
0) 通过在形态语法系统中的推理得到所有组成中文书法字的规则。对每一
种组成规则,递归计算笔画的概率和可信度。详细步骤如下
1) 假设所有规则结果为『={^,『2,...,『 },对每一个规则递归计算
/ (尸,x, ;r)和p(户,x, y)。令^的长度为m 。
2) 如果m^1, ^就只含有一条语法规则,如图4所示。
3) 如果m〉1,我们就重复应用每一个形态语法的等式。在这个重复过程中, 可以得到元素Y属于某个字体""和被书写者X所写的概率及可信度。
4) 定义以下的函数考虑概率和可信度两个因素 O(尸,X, y) = I, (户,J, y)
其中k是一个用户可以调节的参数。
5) 最后在通过所有组成规则产生的结果中,我们选择规则^,该规则可以 最大化argmax, O, (P,Z,y)
P)为了能够对任意一条语法规则,采用神经网络的方法产生笔画的概率和 可信度。两种神经网络被采用, 一种是预测笔画的可信度(p(P, X, Y ),被叫做AW^ 另一种是笔画的概率/^My),被叫做M^输入到AW,的内容包括某布局在若干 笔画空间布局中的概率的可信度々,iT,…,P/,X,"和某笔画属于某种字体的概率 的可信度pfe',X,"。输入到AWp的内容包括某布局在若干笔画空间布局中的概 率p(及,/T,…,P;,Z,"和某笔画属于某种字体的概率p(P;,Z,r)。其中JV&的输出是 某笔画属于某种字体的概率的可信度p(尸,足y), AWp的输出是某笔画属于某种字 体的概率。
Q)利用所有的形态语法规则来训练这些神经网络,其中语法规则的组成元 素和空间布局都已经被某书写者写下来,所以就意味着p和p的值都已经知道 了。每一条规则都提供一个训练例子给神经网络。这里采用的神经网络是经典 后向反馈神经网络。在神经网络训练过程中,我们设为循环10000次,并采用
17ten-fold交叉技术为了防止过度适应。 摹写中文书法字105:
U)当我们评定针对某一书写者的摹写笔画进行可信度分析后,就可以利用 可信度作为反馈来摹写中文书法字。在这里,采用一个2005年"Automatic generation of artistic Chinese calligraphy "提出的中文书 去字生成算、法。
V)该算法有六个参数,提供了一个很好的接口来整合摹写评分算法。这些 参数用来指出缠身的中文书法字的视觉样式。我们先随机取这六个参数,然后 调用摹写评分算法来对摹写可信度打分。当产生分数后,我们采用deepest ascendant算法使分数最大化。为避免陷入局部最小,我们重复上述结果多次, 知道分数到达一个满意阈(0.9),或者重复的次数冲过1000次。通过逐个摹写 中文书法字,我们可以摹写全部的中文书法字。
权利要求
1.一种基于形状语法的个人汉字手写字体自动仿写方法,其特征在于包括以下步骤1)使用形状语法分解中文书法字中文书法字由基本的笔画组成,根据形状语法把中文书法字分解成笔画构成的层次结构,形状语法包括一系列的形状产生规则,每种规则都指出从底层笔画构成中文书法字的组成元素,除了中文书法字的组成元素外,还有另外一种组成元素间的空间布局,空间布局用来指出中文书法字组成元素之间的空间关系;2)通过加强的形状语法捕获中文书法字的不确定因素通过增强每一个形状语法规则,实现一个增强的形状语法系统,该增强的过程包括联系两种书写者的笔画和空间布局,从而得到某个书写者书写的概率以及该概率的可信度,增强的形状语法不再对所有用户保持一致,而是依赖书写者,给特定的书写者创建加强的形状语法,这个过程就是确定一个最佳集合,该集合中包括所有笔画和空间布局对某一特定书写者的概率和可信度;3)使用加强的形状语法确定摹写中文书法字的可信度通过在形态语法系统中的推理得到所有组成中文书法字的规则,对每一种中文书法字的规则,递归计算笔画的概率和可信度,为了适应任意一条语法规则,采用神经网络的方法产生笔画的概率和可信度,利用所有的形态语法规则来训练这些神经网络;4)基于摹写中文书法字的可信度,提出方法进行摹写中文书法字当评定针对某一书写者的摹写笔画进行可信度分析后,利用可信度作为反馈来摹写中文书法字。
2. 根据权利要求1所述的一种基于形状语法的个人汉字手写字体自动仿写 方法,其特征在于所述的步骤l)包括a)中文书法字通过一个树形结构来表达,树的枝叶都是基本的组成元素, 其中最底层的树叶就是中文书法字中的笔画,中文书法字被拆分成基本的笔画;b) 组成中文书法字的基本笔画之间还有空间的层次结构关系,通过这个关 系,中文书法字被看成由多个笔画组成的多层结构;c) 根据步骤a)、步骤b)的中文书法字的层次结构,将一个中文书法字以递归的形式组成,通过多种组成方法完成,每一种组成中文书法字的方法都对应 于形态语法系统中的一种分析方法;d) 形态语法包含一系列形态产生规则,这些规则能够在形态语法系统中被 表示出来,每一个规则都指出怎样从低层元素组成中文书法字的元素;e) 除了组成中文书法字的基本元素外,在形态语法中还有字组成预测,字 组成预测指的是组成中文书法字基本元素的空间关系;f) 寻找某个特定中文书法字的所有的组成方法,找到所有的组成方法是一个 成功摹写中文书法字算法的关键;g) 在发现所有组成中文书法字的过程中,每一个组成元素都被给予一个类 型属性,这个属性根据中国传统汉字形态分类给出元素所属的类型, 一旦获得 组成元素的形态类型,能够根据相应的的形态语法规则产生中文书法字的实际 形状,其中相应的语法规则通过形态语法系统推理获得。
3.根据权利要求1所述的基于形状语法的个人汉字手写字体自动仿写方 法,其特征在于所述的步骤2)包括h) 增强的形态语法系统通过增强每一个形态语法规则形成,增强的过程包 括把两种作者相关信息和形态语法规则中的元素、空间关系联系起来,也就是 它们被某个人所写的概率和这个概率的可信度;i) 与前面谈到的传统形态语法系统不同,增强的形状语法不在对所有用户 保持一致,而是依赖书写者,这是一个在设计过程中的目标属性,成功捕获个 人书写的不确定因素是成功摹写中文书法字的关键;j)给特定的书写者创建加强的形状语法,这个过程就是确定一个最佳集合, 该集合中包括所有笔画和空间布局对某一特定书写者的概率和可信度,根据某 一书写者的笔画集合把中文书法字分解成基本组成元素,从而产生一系列该书 写者的书写笔画,这些书写笔画或者来源于书写者,或者来源于中文书法字分 解的过程,然后对每个笔画进行进行参数表达,使它成为一个一维向量,向量 的前两个参数给出中文书法字组成笔画的轨迹,另一个参数给出笔画的宽度;k)在给定中文书法字组成元素的情况下,要确定被某个特定书写者书写、 属于某种形态的概率和该概率的可信度,先在训练集中找到所有与该字属于同 种形态的所有组成元素,并采用在步骤j)中提到的参数表达的方法,把训练集 中的元素进行参数表达,这些元素都来自训练集,所以相应的书写者已经提前 知道,把参数表达后的结果分成两组, 一组被某书写者X所写,另一组不是被 某书写者X所写;l)对输入的中文书法字组成元素按照步骤j)的方法进行参数表达,参数表达得到的向量将落入哪一个组中,即被某书写者x所写,还是不被某书写者x所写;m)在训练集中要区分笔画是否为某一特定书写者所写,接下来引入一个模 糊分类数据聚类算法,为了解决问题对这个算法稍作修改用曲线距离取代传 统的集合距离,在这个模糊聚类算法中,输出某个笔画属于某个书写者的概率, 数据挖掘中的ten-fold交叉算法用来在这里产生概率的可信度,然后采用样本 数据进行训练,并留下10%的数据进行测试;n)通过以下方法确定步骤m)中方法分类的准确性,重复步骤m) 10次,得 到一个总体的分类准确率,如果总体的平均分类准确率是100%,即给它最高的 可信度=1,那么当遇到新元素时分类结果很可能正确,否则,在上述分类过程 中出现越多的错误,对新元素的分类结果的可信度就越低;o)为了初始化捕获中文书法字中不确定因素的增强形态语法,采用优化的 中文书法字的识别算法,决定所有中文书法字的元素间空间关系的概率和可信 度,该算法的输出是一个模糊数字,数字的每一部分指出空间关系属于某种特 定空间关系的概率;p)针对所有元素,按照步骤k),步骤l),步骤m)进行处理,处理的目的是为 了得到元素的空间关系被某个书写者所写、属于某个特定空间关系的概率和可 信度,如果元素的空间关系属于某种特定空间关系的概率比属于其它类型空间 的空间关系大,说明结果正确,当所有的空间关系经过这个步骤后,计算总体 正确率,并把结果作为可信度输出。
4.根据权利要求1所述的一种基于形状语法的个人汉字手写字体自动仿写 方法,其特征在于所述的步骤3)包括q)在摹写中文书法字的计算机方法中成功摹写中文书法字的关键是通过评 分确定对某个特定的书法家摹写的可信度,通过前面讨论的增强的形态语法设 计这个评分部分;r)通过在形态语法系统中的推理得到所有组成中文书法字的规则,对每一 种组成规则,递归计算笔画的概率和可信度;s)为了能够对任意一条语法规则,采用神经网络的方法产生笔画的概率和 可信度。两种神经网络被釆用, 一种是预测笔画的可信度(p(P, X, Y ),被叫做AWp ; 另一种是笔画的概率MP,UO,被叫做AWp输入到M^的内容包括某布局在若干笔画空间布局中的概率的可信度"i ,/T,…,p/,义,"和某笔画属于某种字体的概率的可信度"P;,X,",输入到iVA^的内容包括某布局在若干笔画空间布局中的概率/^,p,',和某笔画属于某种字体的概率p(C,r),其中iv 的输出是 某笔画属于某种字体的概率的可信度伊(/Mr), mvp的输出是某笔画属于某种字体的概率;t)利用所有的形态语法规则来训练这些神经网络,其中语法规则的组成元 素和空间布局都已经被某书写者写下来,则得到p和p的值,每一条规则都提供 一个训练例子给神经网络,所采用的神经网络是经典后向反馈神经网络,在神经网络训练过程中,设为循环10000次,并采用ten-fold交叉技术防止过度适应。
5.根据权利要求1所述的一种基于形状语法的个人汉字手写字体自动仿写 方法,其特征在于所述的步骤4)包括u)当评定针对某一书写者的摹写笔画进行可信度分析后,采用2005年 "Automatic generation of artistic Chinese calligraphy"提出的中文书法字生成算 法,利用可信度作为反馈来摹写中文书法字;v)中文书法字生成算法有六个参数,提供接口来整合摹写评分算法,这些 参数用来指出产生的中文书法字的视觉样式,先随机取这六个参数,然后调用 摹写评分算法来对摹写可信度打分,当产生分数后,采用deepest ascendant算法 使分数最大化,为避免陷入局部最小,重复上述结果多次,直到分数到达一个 满意阈0.9,或者重复的次数冲过1000次,通过逐个摹写中文书法字,摹写全 部的中文书法字。
全文摘要
本发明公开了一种基于形状语法的个人汉字手写字体自动仿写方法。方法基于使用汉字形状语法的人工智能技术处理摹写过程中出现的多种不确定因素。首先对中文书法字进行分解成基本元素和元素间的空间关系,然后对元素和空间关系进行参数表达,获得元素、空间关系的概率和可信度,接下来利用增强形态语法对摹写的中文书法字进行打分,最后利用优化算法优化分数,直到达到满意程度。该方法的优点是利用了形状语法的丰富表达能力来表示汉字字体,抓住了个人笔迹中的潜在特征,并可以由计算机自动执行。
文档编号G06N3/02GK101604451SQ200910100650
公开日2009年12月16日 申请日期2009年7月13日 优先权日2009年7月13日
发明者刘智满, 徐颂华, 浩 江, 潘云鹤 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1