基于标注关系的手写汉字正确性判别方法

文档序号:8943418阅读:392来源:国知局
基于标注关系的手写汉字正确性判别方法
【技术领域】
[0001]本发明涉及利用计算机对汉字书写评价的技术领域,尤其涉及一种基于标注关系的手写汉字正确性判别方法。
【背景技术】
[0002]文字是记录、传递语言信息的社会性符号系统,汉字作为中华民族的一种文字更是承载着我们民族的历史、文化与气质,它是五千年中华文明最直接的传承者。而伴随着电脑的普及,人们对电脑打字越来越依赖,手写汉字的机会则是越来越少。手写汉字的关注程度和练习强度被大大弱化,如何提升国人汉字书写的能力已经成为了一个亟待解决的问题。
[0003]目前手写汉字正确性识别的方法有以下几种:
[0004]1、根据建立的汉字库,汉字库包含汉字形体结构、汉字笔画以及汉字笔顺,然后对输入在新媒体上的汉字进行正确性判断,如中国发明专利“在新媒体上对手写汉字正确性的判断方法”(公开号:CN103679217A)公开了一种在新媒体上对手写汉字正确性的判断方法;
[0005]2、根据标准汉字笔画类型、绝对位置和相交关系的特征集,然后记录手写汉字笔画书写特征,建立手写汉字特征集,将标准特征集与手写汉字特征集进行比对处理的方法进行手写汉字笔画识别,如中国发明专利“一种手写汉字笔画识别方法”(公开号:CN103810506A)公开了一种手写汉字笔画识别方法;
[0006]3、通过记录书写笔迹、笔画数、判断笔画相交关系来进行评价,如中国发明专利“手写汉字笔画相交离的规范性判定方法和装置”(公开号:CN101320422A)公开了一种通过判断手写汉字笔画相交离关系判定手写汉字书写是否规范的方法;
[0007]4、通过对人工给定的汉字样本进行机器学习,然后使用图像处理与人工智能的方法对手写汉字进行相似度模糊判断,如中国发明专利“一种汉字书写美观度的计算机评估方法”(公开号:CN101295371A);
[0008]5、通过判断手写汉字的横向、纵向比例关系、结构特征以及手写汉字各点在书写空间内的分布关系进行评价,如中国发明专利书写汉字结构规范性评价的方法和装置(公开号:CN101251891A)。
[0009]上述的方法虽然能在某些方面对于手写汉字书写质量进行评价,但是这些方法都没有办法实现对手写汉字中同类笔画在空间位置归属关系进行准确判断,及对特殊特征的笔画进行判断,不能实现对手写汉字整体书写正确性的准确判断。

【发明内容】

[0010]针对以上现有技术中存在的缺陷,本发明提供一种基于标注关系的手写汉字正确性判别方法。
[0011]本发明采用的技术方案如下:
[0012]基于标注关系的手写汉字正确性判别方法,包括如下步骤:
[0013](I)建立包含汉字正确性判断相关特征标识的标准汉字库,标准汉字库包含内容如下:
[0014]I)标注汉字标准笔画类型信息;2)标注汉字的基本信息,包含拼音和区位码;3)标注汉字中同类笔画的空间位置关系;4)标注汉字中笔画的“交”、“接”和“邻”关系;5)标注汉字中笔画与部件的归属关系;6)标注汉字中部件的空间位置关系;7)标注汉字中特殊特征结构的信息;
[0015](2)获取用户手写汉字点集,并进行预处理,具体方法为:将用户在书写平台上书写汉字过程中从下笔到起笔所形成的点集定义为一个笔画;获取用户原始手写点集,并对其进行平滑、钝化和去除干扰笔段的预处理;
[0016](3)对用户手写汉字笔画类型进行标准化处理,判断其笔画类型和笔画数量是否正确,具体方法为:1)根据标准汉字库中的汉字标准笔画类型信息将预处理获取的用户手写汉字笔画进行标准化处理;2)将标准化处理后的用户手写汉字笔画与标准汉字库中对应汉字的笔画进行比较,判断手写汉字笔画类型和笔画数量是否正确;
[0017](4)判断手写汉字同类笔画的空间位置关系,完成手写汉字与标准汉字笔画一一对应,具体方法为:1)计算用户手写汉字中同类笔画的空间位置关系,其中同类笔画的空间位置关系共包含上、下、左、右四种;2)获取标准汉字库中对应汉字的同类笔画空间位置关系,将手写汉字与标准汉字的同类笔画空间位置关系进行比对,完成手写汉字与标准汉字笔画——对应;
[0018](5)判断手写汉字笔画交、接、邻关系的正确性,具体方法为:
[0019]I)将笔画从拐点处断开,分拆为若干个具有独立走向的笔段,通过判断笔画所包含笔段间的交、接、邻关系实现不同笔画交、接和邻关系的判断;
[0020]2)判断笔段“接”的方法为:计算笔段I的的端点到笔段2的垂线距离kjP k 2,取kp k2中值较小者,计算其占笔段I长度的百分比,如果超过阈值N则不相接,否则相接;
[0021]3)判断笔段“交”的方法为:获取两个笔段起点和终点的坐标,根据笔段起点和终点得到关于笔段的两个直线方程FjP F 2,计算两个方程是否存在共同解,若无,则两个线段不相交,若有,则判断解是否同时落在两个笔段上,若同时落在两个笔段上,且两个笔段的关系不为“接”,则判断为相交,否则不相交;
[0022]4)判断笔段“邻”的方法为:邻关系分为三种,分别从笔段I的两个端点到笔段2做垂线,若垂线的两个端点完全落在笔段2上,则称笔段I与笔段2是第一种邻关系;若垂线的两个端点只有一个落在笔段2上,则称笔段I与笔段2的是第二种邻关系;若垂线的两个端点都没有落在笔段2上,则称笔段I与笔段2是第三种邻关系;
[0023](6)判断手写汉字部件空间位置关系的正确性,具体方法为:1)计算部件外包矩形对角线交点;2)以其中一个部件的对角线交点为原点作水平线,计算连接两个部件对角线交点构成的直线与水平线的夹角;3)获取标准汉字库中对应汉字部件夹角信息,将手写汉字与标准汉字相同部件间的夹角进行比对,完成手写汉字部件空间位置关系正确性判断;
[0024](7)判断手写汉字特殊结构特征的正确性,用户字特殊结构特征主要包括:同类笔画的长短关系和部件的宽高比;
[0025]综合上述步骤完成对手写汉字正确性判别。
[0026]本发明与现有技术相比具有的有益效果如下:
[0027]1、本发明通过计算机对手写汉字点集的预处理,然后根据汉字结构关系标识标准编码来进行判断手写汉字中同类笔画的归属,笔画间交接邻关系,部件间的关系,特殊笔画特征来完成对手写汉字正确性的识别,具有客观,高效的优点。
[0028]2、本方法实现了通过建立包含汉字正确性判断相关特征标识的标准汉字库,以此来判断手写汉字的正确性,使得解决无监督情况下手写汉字练习过程中汉字的正确性判断以及评价,具有重要的应用价值。
【附图说明】
[0029]图1是本发明的流程图,
[0030]图2是本发明采用的汉字标准笔画类型图,
[0031]图3是同种笔画上下关系示意图,
[0032]图4是同种笔画左右关系示意图,
[0033]图5是汉字“上”接关系的示意图,
[0034]图6是汉字“十”交关系的示意图,
[0035]图7是汉字“玉”第一种邻关系的示意图,
[0036]图8是汉字“玉”第二种邻关系的示意图,
[0037]图9是汉字“法”第三种邻关系的示意图,
[0038]图10是汉字“阳”部件空间位置示意图。
【具体实施方式】
[0039]下面结合附图,对本发明做详细说明。
[0040]如图1,一种基于标注关系的手写汉字正确性识别方法,其具体步骤如下:
[0041]1.建立包含汉字正确性判断相关特征标识的标准汉字库:
[0042](I)标注汉字标准笔画类型信息;
[0043](2)标注汉字的基本信息,包含拼音、区位码等;
[0044](3)标注汉字中同类笔画的空间位置关系;
[0045](4)标注汉字中笔画的“交”、“接”、“邻”关系;
[0046](5)标注汉字中笔画与部件的归属关系;
[0047](6)标注汉字中部件的空间位置关系;
[0048](7)标注汉字中特殊特征结构的信息;
[0049]2.获取用户点集并进行预处理:
[0050]I)获取用户手写汉字坐标点集,对其进行平滑处理,处理策略为:遍历用户手写汉字的坐标点集,获取其中X坐标最小值x-及最大值X _,Y坐标最小值7_及最大值I _,以(χ_,y_),(χ_,y_),(χ_,y_),(χ_,y_)四个点为顶点构建矩形,该矩形即为此手写汉字的外包矩形,以笔画的起始点Ps为圆心,以用户手写汉字外包矩形对角线长度的1/60为半径做圆C,删除圆c中除psW外的点,依此规则遍历汉字点集中所有点,实现手写汉字的平滑处理;
[0051]2)针对手写汉字行笔或转折中的弯曲及修饰成分进行一次钝化处理,处理策略为:取笔画起点P1 (X1, Y1),相邻两点P2(Xhy2),P3(Xiy3),连接Ρι,P;!得到直线L u连接p2, P3得到直线L2,计算Lrl^L2夹角α$α>= 120°,则将P 2忽略,保留P ^p3,若α〈120°,则保留Pl、p2、P3,遍历所有点集,实现手写笔画的钝化处理;
[0052]3)去除干扰笔段,处理策略为:获取每个笔画包含的笔段集S = {Sl,i = 1..η},η为该笔画包含的笔段数;计算每个笔段长度山,则整个笔画长度D = ClAd2+..+dn,,若山〈0.1*D,则去掉笔段i,遍历所有笔画,实现手写笔画的干扰笔段去除处理;
[0053]4)对完成上述处理的笔画进行二次钝化处理,具体处理策略同一次钝化处理,完成对手写汉字的预处理。
[0054]3.对手写汉字笔画进行标准化处理,判断手写汉字的笔画类型和笔画数量是否正确:
[0055](I)将标准汉字笔画进行聚类并做唯一性编码,本方法将常用的37个标准笔画聚类为19个笔画集,如图2,根据标准汉字库中的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1