在文字辨认中建立群数据库的方法

文档序号:6407884阅读:337来源:国知局

专利名称::在文字辨认中建立群数据库的方法
技术领域
:本发明关于一种在文字辨认中建立群数据库的方法,更明确地说,是在辨认文字中利用字的代表样本来建立系统的群数据库的方法,以避免因样本太多及变异太大而造成系统的群数据库的扩大(重叠量增加),同时降低系统的储存数据库的空间。传统上,在文字辨认的领域,建立群数据库的技术有两点要加以考虑,即样本重叠量及样本投群正确率。一般使用的重叠技术中,先假设群为C1、C2……Cm。对于字元Xi,1≤i≤N,Xi与Ch的距离d(Xi,Ch,)=minjmd(Xi,Cj)]]>。若,则CkU{Xi}是为重叠。然而,传统技术中,重叠量和投群正确率不能两全。要提高投群正确率必须增加重叠量,因而影响了储存群内字码的空间,并增长比较的时间。因此,克服此种缺点是文字辨认领域中的重要课题。为解决上述的传统技术中的问题,依据本发明,在辨认过程中利用多个候选群,以避免因代表样本无法完全吸收字形变异,只能找一群而造成误认的错误,且利用累积正确率增高的现象,采取多群以提高投群正确率。根据本发明的观点,提供一种在文字辨认中建立群数据库的方法,包括下列步骤将一文字的多个学习样本分别加以非均匀切割;抽取学习样本的特征;从各个学习样本的特征中选取预定数目的特征,以进行群的建立;根据选取的特征,将学习样本以分群方法分成ω群,ω为大于1的整数;以及以学习样本分成的ω群中心为代表样本,利用分群方法投入群内进行重叠,得到最佳的群分配。为对本发明有更进一步的了解,以下配合附图来说明本发明的较佳实施例,图中图1是显示依据本发明的建立群数据库的方法的流程图。图2A和2B是分别显示图1的步骤ST4和ST5的详细流程的流程图;图3显示一中文字“示”的非均匀切割;图4A、4B、4C显示图3的“示”字以三种非均匀切割方式来切割,以抽取特征。以下参照图1的流程图来说明依据本发明的建立群数据库的方法。首先,在步骤ST1,在文字进行特征值抽取前,为得到局部及内部字形的信息,先将文字影象进行切割。由于文字的变形,例如字的长宽不一、字形笔划分布不均、以及特殊笔划的长短,所以若按印刷文字方式的均匀切割,则辨认时必会因切割不正确,使得抽取的特征值变异非常大,而造成误认。因此,本发明采用非均匀切割方式。举例而言,为切割图3的“示”字,三种非均匀切割方式,亦即笔划密度函数(StrokeDensityFunotion,SDF)、周边面积(PeripheralBackgroungArea,PBA)、周边外轮廓线长(ContourLineLength,CLL),分别显示于图4A、4B、4C。由于这三种均割方式均为传统技术,所以本文中不拟赘述。然后,在步骤ST2,根据本发明的实施例,由SDF、PBA、CLL三种非均匀切割而取得64个特征。随后,在步骤ST3,再利用CFj=&Sigma;&Sigma;mji-mjk&sigma;jk]]>,其中j表特征第j维,i、k表第i、k字,m表字的中心值(MEAN),σjk表第k字的第j维特征标准差STD。找出CFj值(j=1~64)中最大的40个,做为进行群建立的40维特征,其余24个舍弃不用。接著,在步骤ST4,进行字元样本分群。请参照图2A,详细显示依据本发明的较佳实施例的分群方法(H-clas)的流程。在本发明的较佳实施例,采用2568个字元。对于每一字元,将多个(本例中为100个)学习样本以分群方法先分成ω群。ω在此例中等于15、17、20。分群方法是先进行随机分群,接着执行一次ISODATA分群,再实施K-mean分群,而后者所得的中心值便是字元的代表样本。然后再对下一字元的100个学习样本加以分解,直到2568个字元全部处理完为止。上述的ISODATA分群是要将X1、X2、……Xm投入C1、C2……Cm中,包括以下四个步骤(一)将Xi任意分入Ck群中,count=0;(二)对每一Xi,1≤i≤N,Xi∈Cs;使得d(Xi,Ct)=mind(Xi,Ck);1≤k≤m(三)若t≠S,则Ct=Ct+{Xi},Cs=Cs-{Xi},count=count+1;(四)i=i+1,若i=N,则利用Ck中的元素重新计算一次中心值,否则回到(二);其中d(Xi,Ck)&Sigma;(Xij-Ckj)2&sigma;kj&CenterDot;&sigma;sj]]>而特征值,中心值,F为特征维数为第k群的标准差STD,&sigma;sj=12568&Sigma;n=12558&Delta;nj]]>,△nj为第n字第j特征的标准差STD(注意本实施例中使用2568个字)。另一方面,K-mean分群包括以下五个步骤(一)将Xi任意分入Ck群中,count=0;(二)对每一Xi,1≤i≤N,Xi∈Cs;(三)若t≠S,则Ct=Ct+{Xi},Cs=Cs-{Xi},count=count+1;(四)i=i+1,利用Ck中的元素重新计算一次中心值;(五)若count<临界值T则停止,否则count=0,回到(二)。在2568个字元的各个学习样本都完成分群后,流程前进到步骤ST5,进行系统代表样本的分群。步骤ST5的详细流程请参见图2B。此时,将每个字由K-mean所分的ω群中心值做为代表样本而投入群内,再度应用上述的分群方法进行重叠。然后以测试样本比较,并选出数个候选群(本例中为五个)。其后,取每字投群正确率最高时的ω。然后再重叠步骤ST5一次。根据本实施例,在2568字而每字各有200个样本的系统中,以100个样本为学习样本而另100个进行测试。本发明所得的辨认的增进效果极为显著,请参见与传统技术比较的表1。表1传统本发明字数群的分法学习样本数重叠方法·2568·K-mean·100样本/字·样本投群·2568·K-mean·100样本/字·样本投群群中心投群重叠量候选群数测试样本数每群字数平均投群正确率10110070097.46%2.83510079099.58%</table></tables>从上表可知,本发明藉助将群中心投群,不仅降低了重叠量,也提高了投群正确率。上文所举的较佳实施例是用来解释本发明而非做为限制之用。熟习本领域的技术人员可作许多修改和变化,而仍不脱离本发明权利要求所界定的发明的范畴和精神。权利要求1.一种在文字辨认中建立群数据库的方法,其特征在于,包括下列步骤将一文字的多个学习样本分别加以非均匀切割;抽取该字的学习样本的特征;从各个学习样本的特征中选取预定数目的特征,以进行群的建立;根据该选取的特征,将学习样本以分群方法分成ω群,ω为大于1的整数;以及以学习样本分成的ω群中心为代表样本,利用分群方法投入群内进行重叠,得到最佳的群分配。2.如权利要求1的建立群数据库的方法,其特征在于,该分群方法包括随机(random)分群、ISODATA分群、K-mean分群,依序执行。3.如权利要求1的建立群数据库的方法,其特征在于,ω≥15。全文摘要一种在文字辨认中建立群数据库的方法,包括下列步骤将一文字的多个学习样本分别加以非均匀切割;抽取学习样本的特征;从各个学习样本的特征中选取预定数目的特征,以进行群的建立;根据选取的特征,将学习样本以分群方法分成ω群,ω为大于1的整数;以及以学习样本分成的ω群中心为代表样本,利用分群方法投入群内进行重叠,得到最佳的群分配。文档编号G06K9/62GK1114442SQ94107050公开日1996年1月3日申请日期1994年6月9日优先权日1994年6月9日发明者奢乐梃,詹永宽,徐英士,林文雯申请人:财团法人工业技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1