脱机手写汉字的笔画还原方法及装置制造方法

文档序号:6550920阅读:274来源:国知局
脱机手写汉字的笔画还原方法及装置制造方法
【专利摘要】本发明实施例提供了一种脱机手写汉字的笔画还原方法及装置,其中,该方法包括:获取脱机手写汉字的各个笔段和预设模板汉字的各个笔段,笔段是将汉字分割成的线段;将脱机手写汉字的各个笔段与预设模板汉字的各个笔段的有序序列进行匹配,生成脱机手写汉字的各个笔段的笔段序列,笔段序列以书写脱机手写汉字的笔段时序为顺序,预设模板汉字的各个笔段的有序序列以书写所述预设模板汉字时预设模板汉字的各个笔段的时序为顺序;根据生成的笔段序列进行所述脱机手写汉字的笔画还原。本发明实施例实现了可以对脱机手写汉字的静态书写结果进行笔画还原,进而可以使得再现脱机手写汉字的动态书写过程、计算机自动评判脱机手写汉字的规范性等可以实现。
【专利说明】脱机手写汉字的笔画还原方法及装置

【技术领域】
[0001] 本发明涉及汉字处理【技术领域】,特别涉及一种脱机手写汉字的笔画还原方法及装 置。

【背景技术】
[0002] 近年来,计算机辅助汉语学习越来越受到人们的重视。作为汉语学习的基础,汉字 书写过程的学习与书写结果的评测,已经成为计算机辅助汉语学习的一个重要研究方向。 为了适应这种需求,厂商们推出了大量可用于汉字书写练习的硬件书写工具,例如,在联机 方式下,硬件书写工具为数码笔、手写板、触摸屏等,这些工具在使用过程中就能够将汉字 书写的时序信息记录下来并保存。
[0003] 然而,对于汉字学习者而言,纸和笔才是最广泛、最真实的书写环境。也由于在脱 机方式下,书写工具为传统的纸和笔,它们只能记录汉字书写的最终静态图像,至于它们的 动态书写过程,则没有记录,使得脱机手写汉字的书写结果无法进行自动笔画还原,进而无 论是再现脱机手写汉字的动态书写过程,还是用计算机自动评判脱机手写汉字的规范性等 脱机汉字书写教学方式均无法实现。


【发明内容】

[0004] 本发明实施例提供了一种脱机手写汉字的笔画还原方法及装置,解决了现有技术 中无法对脱机手写汉字的书写结果进行笔画还原的技术问题。
[0005] 本发明实施例提供了一种脱机手写汉字的笔画还原方法,该方法包括:获取脱机 手写汉字的各个笔段和预设模板汉字的各个笔段,其中,所述笔段是将汉字分割成的线段; 将脱机手写汉字的各个笔段与预设模板汉字的各个笔段的有序序列进行匹配,生成脱机手 写汉字的各个笔段的笔段序列,其中,笔段序列以书写脱机手写汉字的笔段时序为顺序,预 设模板汉字的各个笔段的有序序列以书写所述预设模板汉字时预设模板汉字的各个笔段 的时序为顺序;根据生成的笔段序列进行所述脱机手写汉字的笔画还原。
[0006] 在一个实施例中,脱机手写汉字的各个笔段是以笔画的起始点、终点、拐点以及笔 画间的交叉点为分割点,将汉字分割成的线段;和/或,预设模板汉字的各个笔段是以笔画 的起始点、终点以及拐点为分割点,将预设模板汉字分割成的线段。
[0007] 在一个实施例中,获取脱机手写汉字的各个笔段,包括:获取所述脱机手写汉字的 静态图像;从所述静态图像中获取所述脱机手写汉字的各个笔段。
[0008] 在一个实施例中,从所述静态图像中获取所述脱机手写汉字的各个笔段,包括:去 除所述静态图像中的噪声信息和对所述脱机手写汉字的边缘进行平滑;从去除噪声信息和 对所述脱机手写汉字的边缘进行平滑后的静态图像中,获取表示所述脱机手写汉字的拓扑 结构的字形骨架;从所述字形骨架中获取所述脱机手写汉字的各个笔段。
[0009] 在一个实施例中,在从所述字形骨架中获取所述脱机手写汉字的各个笔段之前, 还包括:根据预设消岐规则,消除所述字形骨架中相对于所述脱机手写汉字的拓扑结构存 在的歧义变形。
[0010] 在一个实施例中,所述预设消岐规则包括以下信息:关键点在所述脱机手写汉字 的字形骨架中的位置信息和状态信息、衍生点在字形骨架中的位置信息、歧义变形的类型 以及对出现的歧义变形的消除方式,其中,所述关键点必然存在于所述字形骨架中,所述衍 生点是所述字形骨架中预计会出现歧义变形的点。
[0011] 在一个实施例中,在将所述脱机手写汉字的各个笔段与预设模板汉字的各个笔段 的有序序列进行匹配之前,还包括:建立预设模板汉字库,所述预设模板汉字库存储预设模 板汉字的结构、笔画和笔段,其中,存储预设模板汉字的结构、笔画和笔段的顺序分别为书 写预设模板汉字时结构、笔画和笔段的时序。
[0012] 在一个实施例中,将所述脱机手写汉字的各个笔段与预设模板汉字的各个笔段的 有序序列进行匹配,生成所述笔段序列,包括:从所述预设模板汉字库中确定出与所述脱机 手写汉字相对应的预设模板汉字;对所述脱机手写汉字的各个笔段任意合并和排序,生成 多个笔段序列;计算多个笔段序列中每个笔段序列与确定出的预设模板汉字的各个笔段的 有序序列之间的相似度;确定多个笔段序列中相似度最高的序列为所述笔段序列。
[0013] 在一个实施例中,通过以下公式计算多个笔段序列中每个笔段序列与确定出的 预设模板汉字的各个笔段的有序序列之间的相似度:

【权利要求】
1. 一种脱机手写汉字的笔画还原方法,其特征在于,包括: 获取脱机手写汉字的各个笔段和预设模板汉字的各个笔段,其中,所述笔段是将汉字 分割成的线段; 将脱机手写汉字的各个笔段与预设模板汉字的各个笔段的有序序列进行匹配,生成脱 机手写汉字的各个笔段的笔段序列,其中,笔段序列以书写脱机手写汉字的笔段时序为顺 序,预设模板汉字的各个笔段的有序序列以书写所述预设模板汉字时预设模板汉字的各个 笔段的时序为顺序; 根据生成的笔段序列进行所述脱机手写汉字的笔画还原。
2. 如权利要求1所述脱机手写汉字的笔画还原方法,其特征在于,脱机手写汉字的各 个笔段是以笔画的起始点、终点、拐点以及笔画间的交叉点为分割点,将汉字分割成的线 段;和/或, 预设模板汉字的各个笔段是以笔画的起始点、终点以及拐点为分割点,将预设模板汉 字分割成的线段。
3. 如权利要求1所述脱机手写汉字的笔画还原方法,其特征在于,获取脱机手写汉字 的各个笔段,包括: 获取所述脱机手写汉字的静态图像; 从所述静态图像中获取所述脱机手写汉字的各个笔段。
4. 如权利要求3所述脱机手写汉字的笔画还原方法,其特征在于,从所述静态图像中 获取所述脱机手写汉字的各个笔段,包括: 去除所述静态图像中的噪声信息和对所述脱机手写汉字的边缘进行平滑; 从去除噪声信息和对所述脱机手写汉字的边缘进行平滑后的静态图像中,获取表示所 述脱机手写汉字的拓扑结构的字形骨架; 从所述字形骨架中获取所述脱机手写汉字的各个笔段。
5. 如权利要求4所述脱机手写汉字的笔画还原方法,其特征在于,在从所述字形骨架 中获取所述脱机手写汉字的各个笔段之前,还包括: 根据预设消岐规则,消除所述字形骨架中相对于所述脱机手写汉字的拓扑结构存在的 歧义变形。
6. 如权利要求5所述脱机手写汉字的笔画还原方法,其特征在于,所述预设消岐规则 包括以下信息:关键点在所述脱机手写汉字的字形骨架中的位置信息和状态信息、衍生点 在字形骨架中的位置信息、歧义变形的类型以及对出现的歧义变形的消除方式,其中,所述 关键点必然存在于所述字形骨架中,所述衍生点是所述字形骨架中预计会出现歧义变形的 点。
7. 如权利要求1至6中任一项所述脱机手写汉字的笔画还原方法,其特征在于,在将 所述脱机手写汉字的各个笔段与预设模板汉字的各个笔段的有序序列进行匹配之前,还包 括: 建立预设模板汉字库,所述预设模板汉字库存储预设模板汉字的结构、笔画和笔段,其 中,存储预设模板汉字的结构、笔画和笔段的顺序分别为书写预设模板汉字时结构、笔画和 笔段的时序。
8. 如权利要求7所述脱机手写汉字的笔画还原方法,其特征在于,将所述脱机手写 汉字的各个笔段与预设模板汉字的各个笔段的有序序列进行匹配,生成所述笔段序列,包 括: 从所述预设模板汉字库中确定出与所述脱机手写汉字相对应的预设模板汉字; 对所述脱机手写汉字的各个笔段任意合并和排序,生成多个笔段序列; 计算多个笔段序列中每个笔段序列与确定出的预设模板汉字的各个笔段的有序序列 之间的相似度; 确定多个笔段序列中相似度最高的序列为所述笔段序列。
9. 如权利要求8所述脱机手写汉字的笔画还原方法,其特征在于,通过以下公式计算 多个笔段序列中每个笔段序列与确定出的预设模板汉字的各个笔段的有序序列之间的相 似度:
其中,
> 表示有序序列中第i个笔段与每 个笔段序列中第i个笔段之间的相似度,
是每个笔段序列中第i个笔 段相对于有序序列中第i个笔段的旋转度,
是每个笔段序列中第i个笔 段相对于有序序列中第i个笔段的平移比,
是每个笔段序列 中第i个笔段相对于有序序列中第i个笔段的缩放比,α、β、γ表示权重系数,2.为有 序序列中第i个笔段首尾点连接形成的向量;^为每个笔段序列中第i个笔段首尾点连接 形成的向量;Z为有序序列中第i个笔段的中心点;t为每个笔段序列中第i个笔段的 中心点;IA |为有序序列中第i个笔段的长度;| Q |为每个笔段序列中第i个笔段的长度,
表示所述脱机手写汉字的合理性值,Λ (Ci,Ci+1)表 示每个笔段序列中第i个笔段Q和第i+1个笔段Ci+1构成的凸多边形的面积,Λ (A,,Ai+1) 表示有序序列中第i个笔段A和第i+1个笔段Ai+1构成的凸多边形面积,η分别是有序序 列中笔段的个数和每个笔段序列中笔段的个数。
10. 如权利要求8所述脱机手写汉字的笔画还原方法,其特征在于,在计算多个笔段序 列中每个笔段序列与确定出的预设模板汉字的各个笔段的有序序列之间的相似度之前,还 包括: 对每个笔段序列中笔段的坐标点和有序序列中笔段的坐标点进行归一化处理。
11. 如权利要求8所述脱机手写汉字的笔画还原方法,其特征在于,计算多个笔段序列 中每个笔段序列与确定出的预设模板汉字的各个笔段的有序序列之间的相似度,包括: 针对有序序列中的每个笔段,计算每个笔段序列中每个笔段与该笔段的相似度,并将 每个笔段序列中相似度小于预设阈值的笔段加入该笔段的笔段候选集合,该笔段的笔段候 选集合中包括所述每个笔段序列中的笔段或所述每个笔段序列中笔段的组合; 根据有序序列中各个笔段的顺序,将每个笔段的笔段候选集合中的笔段或笔段组合组 成笔段序列,并通过估算函数计算组成的笔段序列的估算函数值,其中,估算函数值的大小 与相似度成比例。
12. 如权利要求11所述脱机手写汉字的笔画还原方法,其特征在于,确定多个笔段序 列中相似度最高的序列为所述笔段序列,包括: 根据估算函数值的大小对组成的笔段序列排序; 依次对所述组成的笔段序列进行检测,确定符合检测条件的所述组成的笔段序列为所 述笔段序列,其中,所述检测条件包括:所述笔段序列还原的脱机手写汉字比例正确、所述 笔段序列还原的脱机手写汉字结构比例正确且结构之间的位置关系正确以及所述笔段序 列中笔段间衔接关系正确且笔段间位置关系正确。
13. 如权利要求11所述脱机手写汉字的笔画还原方法,其特征在于,在根据有序序列 中各个笔段的顺序,将每个笔段的笔段候选集合中的笔段或笔段组合组成笔段序列之前, 还包括: 针对有序序列中两个相邻的笔段,该两个笔段构成预设结构关系,该两个笔段中的前 一笔段与所述每个笔段序列的前一笔段匹配,则从该两个笔段中的后一笔段的笔段候选集 合中,删除与所述每个笔段序列的前一笔段不构成所述预设结构关系的笔段或笔段组合。
14. 一种脱机手写汉字的笔画还原装置,其特征在于,包括: 获取模块,用于获取脱机手写汉字的各个笔段和预设模板汉字的各个笔段,其中,所述 笔段是将汉字分割成的线段; 匹配模块,用于将脱机手写汉字的各个笔段与预设模板汉字的各个笔段的有序序列进 行匹配,生成脱机手写汉字的各个笔段的笔段序列,其中,笔段序列以书写脱机手写汉字的 笔段时序为顺序,预设模板汉字的各个笔段的有序序列以书写所述预设模板汉字时预设模 板汉字的各个笔段的时序为顺序; 还原模块,用于根据生成的笔段序列进行所述脱机手写汉字的笔画还原。
15. 如权利要求14所述脱机手写汉字的笔画还原装置,其特征在于,脱机手写汉字的 各个笔段是以笔画的起始点、终点、拐点以及笔画间的交叉点为分割点,将汉字分割成的线 段;和/或, 预设模板汉字的各个笔段是以笔画的起始点、终点以及拐点为分割点,将预设模板汉 字分割成的线段。
16. 如权利要求14所述脱机手写汉字的笔画还原装置,其特征在于,所述获取模块,包 括: 第一获取单元,用于获取所述脱机手写汉字的静态图像; 第二获取单元,用于从所述静态图像中获取所述脱机手写汉字的各个笔段。
17. 如权利要求16所述脱机手写汉字的笔画还原装置,其特征在于,所述第二获取单 元,包括: 图像处理子单元,用于去除所述静态图像中的噪声信息和对所述脱机手写汉字的边缘 进行平滑; 第一获取子单元,用于从去除噪声信息和对所述脱机手写汉字的边缘进行平滑后的静 态图像中,获取表示所述脱机手写汉字的拓扑结构的字形骨架; 第二获取子单元,用于从所述字形骨架中获取所述脱机手写汉字的各个笔段。
18. 如权利要求17所述脱机手写汉字的笔画还原装置,其特征在于,还包括: 消岐模块,用于在从所述字形骨架中获取所述脱机手写汉字的各个笔段之前,根据预 设消岐规则,消除所述字形骨架中相对于所述脱机手写汉字的拓扑结构存在的歧义变形。
19. 如权利要求18所述脱机手写汉字的笔画还原装置,其特征在于,所述预设消岐规 则包括以下信息:关键点在所述脱机手写汉字的字形骨架中的位置信息和状态信息、衍生 点在字形骨架中的位置信息、歧义变形的类型以及对出现的歧义变形的消除方式,其中,所 述关键点必然存在于所述字形骨架中,所述衍生点是所述字形骨架中预计会出现歧义变形 的点。
20. 如权利要求14至19中任一项所述脱机手写汉字的笔画还原装置,其特征在于,还 包括: 建立模块,用于在将所述脱机手写汉字的各个笔段与预设模板汉字的各个笔段的有序 序列进行匹配之前,建立预设模板汉字库,所述预设模板汉字库存储预设模板汉字的结构、 笔画和笔段,其中,存储预设模板汉字的结构、笔画和笔段的顺序分别为书写预设模板汉字 时结构、笔画和笔段的时序。
21. 如权利要求20所述脱机手写汉字的笔画还原装置,其特征在于,所述匹配模块,包 括: 第一确定单元,用于从所述预设模板汉字库中确定出与所述脱机手写汉字相对应的预 设模板汉字; 合并排序单元,用于对所述脱机手写汉字的各个笔段任意合并和排序,生成多个笔段 序列; 计算单元,用于计算多个笔段序列中每个笔段序列与确定出的预设模板汉字的各个笔 段的有序序列之间的相似度; 第二确定单元,用于确定多个笔段序列中相似度最高的序列为所述笔段序列。
22. 如权利要求21所述脱机手写汉字的笔画还原装置,其特征在于,所述计算单元通 过以下公式计算多个笔段序列中每个笔段序列与确定出的预设模板汉字的各个笔段的有 序序列之间的相似度:
其中,Ρ(Α」(;)=以(化,(;)+ 0¥(化,(;)+以(化,(;)表示有序序列中第1个笔段与每 个笔段序列中第i个笔段之间的相似度,
_是每个笔段序列中第i个笔 段相对于有序序列中第i个笔段的旋转度,
是每个笔段序列中第i个笔 段相对于有序序列中第i个笔段的平移比:
是每个笔段序列 中第i个笔段相对于有序序列中第i个笔段的缩放比,α、β、γ表示权重系数,2为有 序序列中第i个笔段首尾点连接形成的向量;¢.为每个笔段序列中第i个笔段首尾点连接 形成的向量;z为有序序列中第i个笔段的中心点;巧为每个笔段序列中第i个笔段的 中心点;|Ai |为有序序列中第i个笔段的长度;| Ci |为每个笔段序列中第i个笔段的长度,
表示所述脱机手写汉字的合理性值,Λ (Ci,Ci+1)表 示每个笔段序列中第i个笔段Ci和第i+1个笔段Ci+1构成的凸多边形的面积,Λ (Ai,Ai+1) 表示有序序列中第i个笔段A和第i+1个笔段Ai+1构成的凸多边形面积,η分别是有序序 列中笔段的个数和每个笔段序列中笔段的个数。
23. 如权利要求21所述脱机手写汉字的笔画还原装置,其特征在于,还包括: 归一化模块,用于在计算多个笔段序列中每个笔段序列与确定出的预设模板汉字的各 个笔段的有序序列之间的相似度之前,对每个笔段序列中笔段的坐标点和有序序列中笔段 的坐标点进行归一化处理。
24. 如权利要求21所述脱机手写汉字的笔画还原装置,其特征在于,所述计算单元,包 括: 第一计算子单元,用于针对有序序列中的每个笔段,计算每个笔段序列中每个笔段与 该笔段的相似度,并将每个笔段序列中相似度小于预设阈值的笔段加入该笔段的笔段候选 集合,该笔段的笔段候选集合中包括所述每个笔段序列中的笔段或所述每个笔段序列中笔 段的组合; 第二计算子单元,用于根据有序序列中各个笔段的顺序,将每个笔段的笔段候选集合 中的笔段或笔段组合组成笔段序列,并通过估算函数计算组成的笔段序列的估算函数值, 其中,估算函数值的大小与相似度成比例。
25. 如权利要求24所述脱机手写汉字的笔画还原装置,其特征在于,所述第二确定单 元,包括: 排序子单元,用于根据估算函数值的大小对组成的笔段序列排序; 检测子单元,用于依次对所述组成的笔段序列进行检测,确定符合检测条件的所述组 成的笔段序列为所述笔段序列,其中,所述检测条件包括:所述笔段序列还原的脱机手写汉 字比例正确、所述笔段序列还原的脱机手写汉字结构比例正确且结构之间的位置关系正确 以及所述笔段序列中笔段间衔接关系正确且笔段间位置关系正确。
26. 如权利要求24所述脱机手写汉字的笔画还原装置,其特征在于,还包括: 删除模块,用于在根据有序序列中各个笔段的顺序,将每个笔段的笔段候选集合中的 笔段或笔段组合组成笔段序列之前,针对有序序列中两个相邻的笔段,该两个笔段构成预 设结构关系,该两个笔段中的前一笔段与所述每个笔段序列的前一笔段匹配,则从该两个 笔段中的后一笔段的笔段候选集合中,删除与所述每个笔段序列的前一笔段不构成所述预 设结构关系的笔段或笔段组合。
【文档编号】G06K9/68GK104063723SQ201410291358
【公开日】2014年9月24日 申请日期:2014年6月25日 优先权日:2014年6月25日
【发明者】荀恩东, 吕晓晨, 孙燕南 申请人:北京语言大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1