汉字字形切割结果正确性的判别方法与流程

文档序号:12126069阅读:来源:国知局

技术特征:

1.一种汉字字形切割结果正确性的判别方法,依次包括基于字形重建的判别过程、基于部件分类的判别过程、基于字形属性的判别过程和基于字形骨架的判别过程;具体包括:

1)基于字形重建的判别过程:

将每一个汉字字形切割得到部件,根据原位置进行重新拼接,对得到的拼接字形和原字形进行像素级别的比较,统计得到差异像素值;设定差异像素值阈值,再根据设定的差异像素值阈值进行判别,将所述字形判别为错误切割结果或正确切割结果;

2)基于部件分类的判别过程:

首先,构建一个由正确部件组成的部件数据集,在所述部件数据集上训练一个部件分类器;然后,使用训练得到的部件分类器对待判别的字形切割结果进行分类,得到分类的结果为正确部件或错误部件;所述分类具体计算所述待判别的字形切割结果和应属于的部件类别的距离来判别;当该分类结果与部件应属于的类别不同时,判定为错误部件;

3)基于字形属性的判别过程:

设定正确部件相对应的字形属性,当部件不符合相应的字形属性时,判定该部件是字形切割错误产生的结果;

4)基于字形骨架的判别过程:

将汉字字形中的每个笔画的轮廓中段进行平滑性的检测,当在笔画中段出现轮廓突变时,判定该字形切割结果错误。

2.如权利要求1所述汉字字形切割结果正确性的判别方法,其特征是,在所述基于字形重建的判别过程、基于部件分类的判别过程、基于字形属性的判别过程和基于字形骨架的判别过程中,当任一判别过程针对待判别的字形切割结果进行判别得到的判定结果为错误切割结果时,将所述待判别的字形切割结果判定为字形切割错误。

3.如权利要求1所述汉字字形切割结果正确性的判别方法,其特征是,所述基于字形重建的判别过程中,所述差异像素值阈值设为笔画宽度的平方。

4.如权利要求1所述汉字字形切割结果正确性的判别方法,其特征是,所述基于字形重建的判别过程具体包括如下步骤:

11)根据原字形的尺寸,生成一个与原字形尺寸相等的差异值矩阵,该差异值矩阵的所有元素均初始化为0;

12)遍历切割得到的每一个部件的结果,根据在原图中的位置,将该部件图像对应到差异值矩阵的一个和部件图像尺寸相等的区域,再将部件图像和差异值矩阵的对应区域进行像素级别的累加;完成所有部件的累加,得到差异值矩阵;

13)分别生成与原字形尺寸相等的一个缺失区域矩阵和一个多余区域矩阵;所述两个矩阵的所有元素均初始化为0,同时遍历原字形的每个像素和所述差异值矩阵的对应位置像素;分两种情况设置原字形像素值;第一种情况是原字形像素值为0,另一种情况是原字形像素值为1;针对第一种情况,当所述差异值矩阵对应像素值为1时,将所述多余区域矩阵对应位置的值设为1,否则设为0;针对第二种情况,当所述差异值矩阵对应像素为0,将所述缺失区域矩阵对应位置的值设为1,否则设为0;

14)分别对所述缺失区域矩阵和多余区域矩阵进行连通区域检测,得到两个矩阵所有的连通区域的像素个数;设定连通区域像素阈值,当任意一个连通区域的像素总数超过所述连通区域像素阈值时,将该字形判别为错误切割结果,否则判别为正确切割结果。

5.如权利要求1所述汉字字形切割结果正确性的判别方法,其特征是,所述基于部件分类的判别过程中,部件分类器的训练包括如下步骤:

21)图像预处理,执行如下操作:

采用非刚性缩放的方式对部件图像进行缩放,将每个部件图像都归一化为一个正方形图像,正方形的边长记为L;

22)选择局部子图像,对局部子图像进行局部特征的提取,得到多个局部特征向量,将局部特征向量的个数记为num_lf;

23)字典构建:

在得到的局部特征向量中,随机采样得到其中多个局部特征作为总的特征集合;局部特征的个数取值范围应大于10000;最大可以设为全部的局部特征向量个数num_lf;采用K均值聚类算法得到num_k个聚类中心,作为稀疏字典;num_k的取值范围是256到全部局部特征的个数num_lf;

24)稀疏表示:

根据上一步得到的稀疏字典,应用稀疏编码算法对一个部件所有的局部特征进行编码;随后采用最大值池化算法将所有的局部特征进行结合,得到一个维度为num_k的稀疏表示特征,维度的数量和聚类中心的数量相等;

25)分类器训练,使用线性支持向量机算法对所述稀疏表示特征进行训练,得到部件分类器。

6.如权利要求1所述汉字字形切割结果正确性的判别方法,其特征是,所述基于部件分类的判别过程中,所述分类具体是:通过计算所述待判别的字形切割结果使用分类器得到的部件类别和应属于的部件类别是否相同来判别;当该分类结果与部件应属于的类别不同时,该字形判别为错误切割结果,当该分类结果与部件应属于的类别相同时,该字形判别为正确切割结果。

7.如权利要求6所述汉字字形切割结果正确性的判别方法,其特征是,步骤22)所述局部特征提取,具体执行如下操作:

22a.对局部子图像进行均匀网格切分,得到多个区域,设为n*n个;设局部子图像的边长为L_sub,得到每个区域的边长为L_sub除以n;所述n*n个区域将局部子图像均匀划分,互相之间无交集,合并起来恰好构成切分前的局部子图像;在每个区域内利用Sobel算子进行卷积,得到幅度和相位的结果;

22b.将相位均匀分为n*n个区间,每个区间统计得到局部子图像中相位落在该区间的像素点的幅度值的总和;得到一个n*n维的局部特征;

22c.将n*n区域的相应维度的局部特征进行拼接,得到多维的局部特征。

8.如权利要求1所述汉字字形切割结果正确性的判别方法,其特征是,所述基于字形属性的判别过程中,所述字形属性包括部件尺寸属性和部件区域属性。

9.如权利要求1所述汉字字形切割结果正确性的判别方法,其特征是,所述基于字形骨架的判别过程具体步骤如下:

41)设一个字形切割结果得到的一个部件中笔画个数为N,对于每个部件轮廓上的点,得到N个值,分别代表该轮廓点距离N个笔画骨架的最近距离;

42)将一个轮廓点和所有笔画骨架的最近距离取最小值,将取到最小值的笔画骨架作为轮廓点应属于的笔画,将取到的最小值作为轮廓点和笔画骨架的距离;

43)构建轮廓点集合:设定N个轮廓点集合,初始化为空集,第i个集合代表第i个笔画的轮廓;遍历所有的轮廓点,当轮廓点属于第i个笔画时,将这个轮廓点加入到第i个集合;完成集合的构建之后,将每个集合中距离最近笔画骨架点是笔画的起始M%和末尾M%的轮廓点去除,剩下的轮廓点就是笔画中段的轮廓点;

44)求得每个集合的轮廓点到所属的笔画骨架距离的众数,作为该段笔画的平均笔画宽度;当轮廓点到所属的笔画骨架距离超过了平均笔画宽度的K倍时,判定该轮廓点是突变轮廓;当突变轮廓点的数量超过了预先设定的突变轮廓点数量阈值时,将所述部件判别为错误切割的部件。

10.如权利要求9所述汉字字形切割结果正确性的判别方法,其特征是,步骤41)所述轮廓点距离N个笔画骨架的最近距离的具体计算方法是:对于一个轮廓点,遍历N个笔画骨架,每个笔画骨架遍历所有的骨架点计算得到轮廓点和这些笔画骨架点的距离,取距离的最小值作为该轮廓点距离当前遍历的笔画骨架的最近距离;步骤43)所述M的取值范围是0到50;步骤44)所述K的取值范围是0.8到3;所述突变轮廓点数量阈值为平均笔画宽度的X倍,X的取值范围是0.7到3。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1