一种基于书写风格建模的中文字库自动生成方法与流程

文档序号:18213513发布日期:2019-07-19 22:28阅读:来源:国知局

技术特征:

1.一种中文字库自动生成方法,所述方法基于书写风格建模自动生成中文字库,包括如下步骤:

1)书写一定数量的汉字,通过拍照或扫描制成文本图片;

2)对文本图片进行自动切割,获得多张独立汉字图片;

3)自动提取每张独立汉字图片中的笔画书写轨迹,并滤除错误提取结果,得到正确的笔画轨迹;采用同样方法得到与书写汉字相对应的参考字形的笔画轨迹;

4)采用人工神经网络对步骤1)书写的汉字的整体书写风格进行建模,得到汉字的整体书写风格模型,所述整体书写风格细分为笔画形状风格和笔画间架结构风格;

5)通过分析与描述笔画的连接特性和笔画端部的轮廓特征,建立同类笔画端部轮廓;对书写风格细节进行建模,得到书写风格细节模型;

6)基于整体书写风格模型和书写风格细节模型,将具备书写风格的汉字书写轨迹与细节特征进行重现,自动生成未书写的其他所有汉字的独立汉字字形图片;

7)将步骤2)得到的书写的独立汉字图片与步骤6)所述自动生成的独立汉字字形图片一同矢量化,并打包生成标准计算机字库文件。

2.如权利要求1所述的方法,其特征在于,步骤1)所述文本图片制作,具体是在白纸上直接书写汉字,再用智能手机拍照,不需要使用指定格式的表格模板;汉字数量为266~755个。

3.如权利要求1所述的方法,其特征在于,步骤2)具体根据文本图片的不同形式,针对性地采用不同算法对文本图片进行视角矫正、自适应二值化与图片自动切分,得到一系列用unicode编码命名的独立汉字图片。

4.如权利要求3所述的方法,其特征在于,所述不同算法包括带标注信息的模板表格图片切分算法和无标注信息图片切分算法。

5.如权利要求1所述的方法,其特征在于,步骤3)采用笔画自动提取与错误结果筛除算法自动提取独立汉字图片中的笔画书写轨迹,并滤除错误提取结果;具体包括如下步骤:

31)给定一个目标汉字图片,提取目标汉字骨架,并均匀采样得到目标汉字骨架点;

32)运用一致性点集漂移CPD算法将所述目标汉字骨架点与对应已离线拆分好笔画的参考字形的标准笔画模型骨架点进行非刚性点集注册操作,自动拆分得到目标汉字图片的所有笔画;

33)再次运用CPD算法,将所述目标汉字骨架点与所述标准笔画模型骨架点进行非刚性点集注册操作,得到笔画上关键点的精确位置;

34)通过重建误差和形状相似性,评判笔画自动提取是否正确,对错误的笔画提取结果进行判别和滤除;

35)将重建误差与形状相似性的评估值进行线性叠加,根据叠加评估值对笔画提取结果进行排序;

36)设定阈值,将错误笔画提取结果滤除,得到正确笔画提取结果,使得在对书写风格进行建模时采用的是正确的数据。

6.如权利要求5所述的方法,其特征在于,步骤34)所述重建误差具体是:采用自动提取得到的笔画轨迹结合笔画平均宽度来重建字形,通过对比重建字形与原字形的重合度估计出重建误差值的大小;所述形状相似性具体是:将自动提取得到的笔画轨迹与参考字形的标准笔画轨迹进行对比,计算二者的形状相似性;由此实现对错误的笔画提取结果进行判别和滤除。

7.如权利要求1所述的方法,其特征在于,步骤4)使用人工神经网络对用户的整体书写风格进行建模,包括如下步骤:

41)在描述笔画形状风格时,在目标字形的笔画书写轨迹和参考字形的笔画书写轨迹上都均匀提取相同给定数量的采样点,对各自笔画重心进行数值归一化,计算参考字形和目标字形间对应笔画采样点x,y坐标的差值,并以此作为人工神经网络一的输出;人工神经网络一的输入是参考字形笔画的归一化x,y坐标值;

42)在描述笔画间架结构风格时,计算目标字形和参考字形笔画相对各自字形重心的归一化笔画重心位置坐标值,并计算两者间的差值作为人工神经网络二的输出;人工神经网络二的输入是参考字形中所有笔画的归一化重心位置坐标值;

43)将步骤3)中书写汉字图片上自动提取的正确的笔画轨迹和相对应的参考字形的笔画轨迹作为训练数据,分别对人工神经网络一和人工神经网络二进行训练,得到汉字笔画形状风格模型和笔画间架结构风格模型,进而得到汉字的整体书写风格模型,由此对汉字的整体书写风格进行准确描述。

8.如权利要求1所述的方法,其特征在于,步骤5)中,描述笔画的连接特性和笔画端部的轮廓特征包括以下操作:

51)根据平均笔画宽度,将笔画分解为起点、终点和中段三个不同区域,使得起点/终点到笔画轮廓上的最大距离等于两倍的笔画平均宽度值;

52)通过从起点或终点向最近一侧的笔画轮廓均匀发射多条射线,计算起点或终点到笔画轮廓的距离,进而准确刻画起点或终点区域笔画轮廓的形状;

53)根据离线阶段的n个笔画精确分类,计算得到每一类笔画在上述起点或终点区域中笔画轮廓的平均细节书写特征;

54)计算从第i类笔画的终点到第j类笔画的起点之间有连笔的概率,构建一个n*n矩阵,用于描述每对相邻笔画的连接特性。

9.如权利要求1所述的方法,其特征在于,步骤6)所述重现具体包括如下步骤:

61)将待生成的汉字对应的参考字形训练数据输入到步骤4)中训练好的整体书写风格模型中,得到该汉字每个笔画的书写轨迹形状和笔画在整个字形中的放置位置;

62)应用步骤5)中建立起的书写风格细节模型,在每个笔画的书写轨迹上恢复笔画轮廓的形状细节信息;具体是:在笔画轨迹上的起点和终点位置,用步骤5)建立好的同类笔画端部轮廓描述信息恢复出对应端部的笔画轮廓采样点,将采样点按序连接,得到完整的笔画闭合轮廓;

63)基于两类笔画间的连笔统计概率值,以给定概率将该汉字字形中的相应笔画对的起点与终点进行平滑连接,生成高质量的连笔书写效果,用于模拟用户书写风格中的连笔特性;

64)对字形中的笔画轮廓进行填充,即得到该汉字的字形图片。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1