印刷体汉字识别方法

文档序号:93092阅读:773来源:国知局
专利名称:印刷体汉字识别方法
本发明属于印刷体文字的自动识别技术,进一步地说是关于印刷体汉字的识别方法。
在已有的文字识别技术中,通常采用图形重合法来识别印刷体文字。即用予先存储在机器内的样本字符逐个与被识别的字符进行重合,然后计算类似度,最后选取类似度最大的那个样本字符代表被识别的字符。图形重合法所采用的样本字符多以点阵的形式存储在识别装置或计算机的存储器中,对于中文来说,要想得到清晰的图形和必要的分辨率,每个汉字就需要用几百到几千比特的信息量来表示。要把所有的中文汉字都存入机器中,所需要的存储空间就会大的惊人,这即使在技术上可行,价格也是极其昂贵的,很难推广应用。为了解决这个问题,有人采用信息压缩法对汉字进行处理,即是提取汉字的部分特征,将每个字的特征信息存入存储器中,识别时,将这些特征信息调出与被识别的字的特征信息进行对照。该方法尽管取得了一些进展,但还是需要一个用来存储汉字样本的大容量的存储器,而且在信息压缩时,不小心会将有用的信息压缩掉,使识别精度受到影响,甚至不能识别。
采用已有的图形重合法识别文字计算量大、识别范围小、识别精度差、识别速度慢,而且不能判别字符由印刷质量差而产生的误差和本身特有的差异之间的区别,因而难于实现印刷体中文汉字的自动识别。
本发明的目的就是要解决以上问题,提供一种不需用计算机存储样本字符的存储方法和能够识别缺陷字的识别方法。
附图1是实施本方法的示意图附图2是附图1中〔5〕字符识别判别器的示意图附图3是样本字典〔1〕的示意图本发明的要点在于样本字典〔1〕是由将样本字符〔30〕和其它符号印制在易于光学系统转换的介质上而构成的。识别时,将样本字典〔1〕中的样本字符〔30〕和被识别文稿〔2〕中的被识别字符经过样本字符转换器〔3〕和被识别文稿字符转换器〔4〕的光学系统同时分别投映在各自的光电转换板上,将被识别字符图形和样本字符图形转换为与字符图形相对应的电图形信号,经图像二值化处理后,送至字符识别判别器〔5〕。字符识别判别器〔5〕对来至两个转换器〔3〕〔4〕的图形信号自动进行逻辑判别,判别时,以样本字符二值图形为标准,将样本字符〔30〕与被识别字符的加肥和减瘦了的二值图形进行对照,对照字迹部分、对照字迹以外的空白部分、字迹与空白全对照、对照字迹的3/4部分和对照字迹以外的空白的3/4部分,如果完全相同,就将代表该字的代码暂存起来备用。当样本字典〔1〕中的所有样本字符〔30〕对照完后,给出一信号,将暂存起来的代码经字符识别判别器〔5〕按优先级别进行优先选择后,作为识别结果,存入文稿字符代码存储器〔7〕中。同时,将被识别文稿〔2〕推进一步,进行下一个字的识别。
样本字典〔1〕对样本字符〔30〕的存储是采用将各种字体的样本字符〔30〕印制在易于光学系统转换的介质上面实现的。印制在介质上的除了样本字符〔30〕以外,还有字符代码〔29〕、定位信号〔28〕、结尾信号〔31〕、标点符号〔32〕等,也可以采用缩微方法将这些信息缩制在介质上,介质可以为感光胶片。使用时,样本字典〔1〕与光学转换头进行相对高速运动,介质上印有的信息就周而复始地不断更换。再将样本字符〔30〕经样本字符转换器〔3〕转换成电信号,样本字典〔1〕就这样以极快的速度提供全部可用信息。
用于样本字符〔30〕和被识别字符的光电转换器〔3〕〔4〕包括三部分(1)光学系统、光学系统是一个类似于照像机镜头那样的光学镜头组,用它将样本字符〔30〕和被识别字符的像分别投映到各自的光电转换板上。(2)光电转换板、光电转换板是光电元件组成的正方形矩阵、它将字符图形的光信号转换成模拟电信号。(3)二值化电路。它将模拟图形转换成二值图形,再将这两个两值图形并行送至字符识别判别器〔5〕进行逻辑判别。
用于被识别字符的光学系统还起着将各种不同规格的被识别字符的像调正到一个与样本字符〔30〕相同规格的作用。
对来自两个转换器〔3〕〔4〕的字符二值图形,字符识别判别器〔5〕给以判别。判别过程是以组成图面的各点为判别单位,判别时,首先将被识别字符的二值图形经过字迹加肥电路〔13〕加肥一定值,使被识别字符的字迹略大于样本字符的字迹,然后用判别字迹部分的黑判别器〔15〕进行黑判别。同时将被识别字符的二值图形经过字迹减瘦电路〔14〕,使被识别字符减瘦一定值,然后用判别字迹以外的白判别器〔16〕进行白判别。而后将黑判别器〔15〕、白判别器〔16〕的判别结果分别通过黑判别全检测器〔17〕、白判别全检测器〔18〕、白判别3/4检测器〔19〕、黑判别3/4检测器〔20〕进行检测,检查黑、白判别器〔15〕〔16〕的判别结果是否都已置“1”(“1”表示样本字符与被识别字符相同,“0”表示不同)。检测电路也称表决电路,它分为全表决和3/4表决,全表决是取黑、白判别器〔15〕〔16〕的全部输出点值进行“与”运算,将运算的结果作为控制信号。
由于判别方法有黑白全判别、黑判别、白判别、黑3/4判别、白3/4判别,检测或称表决也就有黑白全表决、黑表决、白表决、黑3/4表决、白3/4表决之分。每种表决都设一个代码暂存器,因此可将各自表决结果的代码分别暂存入黑白全判别代码暂存器〔21〕、黑判别代码暂存器〔22〕、白判别代码暂存器〔23〕、黑3/4判别代码暂存器〔25〕、白3/4判别代码暂存器〔24〕。当表决通过时,就产生一个控制信号,将代表该字符的代码存入各暂存器中,待样本字符〔1〕中的字符全部对照完后,总判别器〔26〕对各暂存器〔21〕〔22〕〔23〕〔24〕〔25〕中的代码按优先级别进行选取,将所选取的代码作为识别结果存入文稿字符代码存储器〔7〕中。
总判决器〔26〕进行优先选择的优先级别顺序可以为(1)黑白全判别通过、(2)黑判别通过、(3)白判别通过、(4)黑3/4判别通过、(5)白3/4判别通过。只有在黑判别全检测器〔17〕、白判别全检测器〔18〕对判别信息都通过时,“与”门电路〔27〕输出才置“1”,即认为黑、白判别同时通过,样本字符〔30〕的字迹与被识别字符的字迹以及字迹以外的空白部分完全相同。这时将判别代码存入黑白全判别代码暂存器〔21〕中。
字符识别判别器〔5〕以三种逻辑关系式同时进行判别,其方法是以样本字符〔30〕的二值图形为标准,将字迹加肥和字迹减瘦了的被识别字符二值图形与样本字符二值图形进行对照。比较两个图形中代表字迹的黑色部分、比较字迹以外的白色部分、黑色、白色同时都比较和黑色、白色同时都比较和黑色、白色都取3/4进行比较的方法来判别两个图形是否一样。这一判别的各对映点是同时进行的,如果某个对映点是一样的,就将该点输出置“1”,不同就置“0”,最后对输出各点的值进行检查,如果都置“1”,则认定组成这两个图形的各对映点都是相同的,即两个字符图形是相同的。
三种逻辑关系式如下我们设A为标准样本字符图形,“1”为黑色点、“0”为白色点;B为被识别字符图形,“1”为黑色点,0为白色点;P为判别结果。
(1)黑白全判别的逻辑关系判别式为P=(A·B+
A)·(A+
B)。由判别式可知只有当样本字符〔30〕与被识别字符的对映点同时为黑或同时为白才能使输出为“1”,否则为“0”。该判别的精度是100%。
(2)黑判别的逻辑关系判别式为P=A·B+
A。由判别式可知样本为黑,被识别部分为黑,输出为“1”;样本为黑、被识别部分为白、输出为“0”;样本为白,被识别部分为黑、为白,输出均为“1”。
该判别方法适用于判别那些由印墨过多造成的印刷符号过重笔划变宽、受到污染的字符,判别精度不受这些缺陷的影响。但如果存在两个以上的字符,其中一个简单字符是一个较复杂字符的一部分时,往往会判别出几个字符来,而分不清那一个字符是所识别的字符,这可以由将样本字符〔30〕按笔划多少进行编号,笔划少的以小号代码表示,笔划多的以大号代码表示,按一定顺序进行排列,识别时,选取大号代码所代表的字符作为识别结果的方法来解决。当被识别字符与样本字符〔30〕十分接近时,该判别的稳定性可能较差,为此需对被识别字符的二值图形进行字迹加肥处理,让被识别字符的黑色部分大于样本字符〔30〕的黑色部分,保证样本字符〔30〕完全被识别的字符覆盖,判别过程就会稳定进行。
(3)白判别的逻辑关系判别式为P=A+
B。当被识别字符中有缺笔或印迹过轻时,黑判别就无能为力了,这就需要采用比较字迹以外空白的白判别方法。
由判别式可知样本为白、被识别字符为白、输出为“1”;样本为白,被识别字符为黑,输出为“0”;样本为黑,被识别字符为黑、为白、输出均为“1”。该判别的判别精度不受印墨过少造成的缺陷的影响。为了提高判别的稳定性,用字迹减瘦电路〔14〕对被识别字符的二值图形进行减瘦处理,而后再进行判别。当识别出两个字符时,选小号代码所代表的字符作为识别结果。
采用黑白全判别、黑判别、白判别的判别方法和表决方法能够识别由于印墨过重或过轻造成的缺陷字,但当轻、重二种缺陷同时存在在一个字符时就无法识别了,这时我们采用3/4表决法。即是取字迹或字迹以外的空白部分的3/4的判别结果进行表决,只要字迹或字迹以外的空白部分的3/4的对映点相同,就认定两个字是相同的,而让那些有缺陷的地方处于1/4的部分不参加表决。3/4表决因取的位置不同,可有多种,其数量可根据需要而定,因此能够识别拒识字,使识别精度进一步提高。
本识别方法设有控制器〔6〕,控制器含有样本字典电机〔10〕的控制线路,被识别文稿水平移动电机〔11〕的控制线路,被识别文稿垂直移动电机〔12〕的控制线路,并能产生脉冲信号,控制文字识别、转换以及其它各部分同步等。
附图1中A点输出样本字符二值图形,B点输出被识别字符二值图形,C点输出结尾信号,D点输出被识别字符代码。A、B、C、D各点分别与附图2中的A、B、C、D各点对映相接。
当然,在要求精度不高的情况下,以上所述的判别方法的各种判别也可以单独使用。
本识别方法所采取的定位方法是(1)水平定位(字定位)识别时,将被识别字符移入它的转换器〔4〕中间的某一适当位置不动,将样本字符〔30〕沿水平方向从样本字符转换器〔3〕的一边移向中心。由于两个转换器〔3〕〔4〕的各对映点在字符识别判别器〔5〕内是相关的,因此在样本字符〔30〕从一边移向另一边的过程中,一定会与被识别的字符相遇,当两个图形垂直位置不存在偏差时,二个相同图形就会完全重合。此时,被识别字符就被识别出来了。当然两个图形可能在样本字符转换器〔3〕的任何部位重合,识别几个字符后,就会产生累积误差以致大到无法识别,因此需要对字符重合范围加以限定。解决的方法是在样本字符〔30〕一侧加一定位信号,只有当被识别字符进入指定位置时,样本字符〔30〕与被识别字符的重合才生效。
(2)垂直定位(行定位)垂直定位是根据被识别字符与样本字符〔30〕的水平轴线的偏差来修正被识别字符的垂直位置而实现的。具体做法是以样本字符转换器〔3〕的水平轴线为基准,保持不变,使被识别字符转换器〔4〕的水平轴线上下位移,这样组成的一些结构与字符识别判别器〔5〕相同或适当简化的垂直定位判别器。判别时,由这些垂直定位判别器组成的垂直定位判别器组〔9〕进行垂直定位判别,当字符在垂直定位判别器组〔9〕中的某一个垂直定位判别器中重合时,也就显示出两个字符的水平轴线的偏差值。根据这一偏差值调正被识别字符的垂直位置,直到被识别字符的水平轴线与样本字符〔30〕的水平轴线在字符识别判别器〔5〕中重合为止,从而实现垂直定位。
本发明的一个实施例。
实施本方法可以用以下部件样本字典〔1〕、样本字符转换器〔3〕、被识别文稿字符转换器〔4〕、字符识别判别器〔5〕、控制器〔6〕、字符代码存储器〔7〕、样本字符代码检测器〔8〕、垂直定位判别器组〔9〕、样本字典电机〔10〕、被识别文稿水平移动电机〔11〕、被识别文稿垂直移动电机〔12〕。
样本字典〔1〕可以由缩制有标准汉字的样本字符〔30〕的胶片和园筒形的骨架构成。胶片上除了缩制标准楷体、宋体、黑体等所有中文汉字以外,还有标点符号〔32〕、阿拉伯数字、拉丁字毋、希腊字毋、字符代码〔29〕、定位信号〔28〕、结尾信号〔31〕。样本字符〔30〕以笔划多少进行编号,笔划少的以小号代码表示,排列在前,笔划多的以大号代码表示,排列在后。字符代码〔29〕可以是二进制的16位号码,胶片固定在金属材料的园筒形的骨架上,样本字典密封在一个罩内。使用时,样本字典〔1〕在样本电机〔10〕的拖动下,高速旋转,胶片上印有的样本字符〔30〕和其它符号就周而复始地不断更换,将样本字符〔30〕和其它符号经光电转换器〔30〕转换成电信号。
样本字符转换器〔3〕和被识别文稿字符转换器〔4〕均由三部分组成(1)光学系统、光学系统是一个象照像机镜头那样的光学镜头组,用它将样本字符〔30〕和被识别字符的像分别投映到各自的光电转换板上。(2)光电转换板、光电转换板是由32×32个光电元件组成的,它将字符图形的光信号转换成模拟电信号。(3)二值化电路。它将模拟图形转换成二值图形,再将这两个两值图形并行送到字符识别判别器〔5〕进行逻辑判别。
用于被识别字符的转换器的光学系统还起着将各种不同规格的被识别字符的像调正到一个与样本字符〔30〕相同规格的作用。
字符识别判别器〔5〕由字迹加肥电路〔13〕、字迹减瘦电路〔14〕、黑判别器〔15〕、白判别器〔16〕、黑判别全检测器〔17〕、白判别全检测器〔18〕、白判别3/4检测器〔19〕、黑判别3/4检测器〔20〕、黑白全判别代码暂存器〔21〕、黑判别代码暂存器〔22〕、白判别代码暂存器〔23〕、黑3/4判别代码暂存器〔25〕白3/4判别代码暂存器〔24〕、总判决器〔26〕、“与”门电路〔27〕组成。
字迹加肥电路〔13〕由32×32个有8个输入端的“或”门电路组成,也就是说某点的输出值决定于该点8个方向相临8个点的值,其中只要一个点为“1”(黑色)、输出就为“1”。它将被识别字符的字迹加宽2/32,略大于样本字符〔30〕的字迹。字迹减瘦电路〔14〕由32×32个有8个输入端的“与”门电路组成。其输出值决定于8个相临点的值,只有8个点的值都是“1”(黑色),输出才为“1”,否则为“0”。它能使被识别字符的字迹减瘦2/32,使被识别的字符字迹略小于样本字符〔30〕的字迹,黑判别器〔15〕以样本字符二值图形为准,对字迹加肥电路〔13〕加肥的被识别字符二值图形进行字迹部分的对照。黑判别器〔15〕采用逻辑关系式P=A·B+
A进行黑判别(P为输出点值,A为样本点值,B为被识别点值)。白判别器〔16〕以样本字符二值图形为准,对字迹减瘦电路减瘦的被识别字符二值图形采用逻迹关系式P=A+
B进行字迹以外的空白部分的对照。各检测器〔17〕〔18〕〔19〕〔20〕的检测电路均是一个分级分组的多级“与”门电路。这些检测器对黑判别器〔15〕、白判别器〔16〕的判别结果进行检测或称表决,检测是否都已置“1”。检测电路也称表决电路,它分为全表决和3/4表决,全表决即取黑、白判别器〔15〕〔16〕的全部输出点值进行“与”运算,3/4表决是取判别器〔15〕〔16〕输出点的3/4点值进行“与”运算,将运算的结果,作为控制信号。
由于判别方法有黑判别和白判别两种,检测或称表决也就会有黑白全表决、黑表决、白表决、黑3/4表决,每种表决方式都设一个代码暂存器,因此可将各自的表决结果的代码分别暂存入黑白全判别代码暂存器〔21〕、黑判别代码暂存器〔22〕、白判别代码暂存器〔23〕、黑3/4判别代码暂存器〔25〕、白3/4判别代码暂存器〔24〕。代码暂存器是一个16比特一个字的存储器。当表决通过时,就产生一个控制信号将代表该字符的16位代码存入各暂存器〔21〕〔22〕〔23〕〔24〕〔25〕中,黑、白判别都通过时,“与”门电路〔27〕置“1”,这时识别精度最高。然后,总判决器〔26〕对各暂存器〔21〕〔22〕〔23〕〔24〕〔25〕中的代码按优先级别进行选取,将选取的代码作为识别结果存入文稿字符代码存储器〔7〕中。文稿字符代码存储器〔7〕可以是一个16比特125K字节的存储器。总判决器〔26〕进行优先级别选取的顺序为;(1)黑白全判别通过、(2)黑判别通过、(3)白判别通过、(4)黑3/4判别通过、(5)白3/4判别通过。
本方法采用的控制器〔6〕可以含有样本字典电机〔10〕的控制线路,被识别文稿水平移动电机〔11〕、被识别文稿垂直移动电机〔12〕的控制线路和其它各部分的同步控制线路。
样本字符代码检测器〔8〕可以是一个17位光电转换部件,其中16位用于字符代码〔29〕的转换,另一位作为字符的定位信号〔28〕。
垂直定位判别器组〔19〕中的每个垂直定位判别器的结构可以与字符识别判别器相同。
本发明方法的显著技术进步和积极效果在于不但能够识别各种字体、各种规格的中文汉字、甲骨文,而且也能够识别其它文种的印刷体文字和一切印刷符号,并且能够识别印墨过多、过少造成的缺陷字,识别精度很高,识别速度很快。本方法采用将样本字符印制在易于光学系统转换的介质上进行存储,取代了采用大容量的价格昂贵的计算机存储样本字符〔30〕的方式,从而极大地降低了成本。
权利要求
1.一种采用图形重合识别印刷体汉字的方法,其特征在于所说的图形重合是将样本字典[1]中的样本字符和被识别字符分别进行光电转换,转换成二值图形后,将被识别字符的二值图形进行字迹加肥和字迹减瘦,再以样本字符的二值图形为标准与经过加肥和减瘦了的被识别字符的二值图形进行对照,对照字迹部分、对照字迹以外的空白部分、字迹与空白全对照、取字迹的3/4进行对照、取字迹以外的空白部分的3/4进行对照,将各对照的结果分别暂存起来,最后,按规定的优先级别顺序选定识别结果。
2.按照权利要求
1中所述的印刷体汉字识别方法,其特征在于所说的样本字典〔1〕是将样本字符〔30〕和其它符号印制在易于光学系统转换的介质上面而构成的。
3.按照权利要求
1中所述的印刷体汉字识别方法、其特征在于所说的对照字迹部分是采用逻辑判别式P=A·B+
A进行判别,所说的对照字迹以外的空白部分是采用逻辑判别式P=A+
B进行判别,所说的字迹与空白全对照是采用逻辑关系式P=(A·B+
A)·(A+
B)进行判别(P为判别结果,A为样本字符点值,B为被识别字符点值,字迹为“1”,字迹以外为“0”)。
4.按照权利要求
2中所述的印刷体汉字识别方法,其特征在于所说的样本字符〔30〕和其它符号按笔划多少给以编号,笔划少的编以小号,排列在前、笔划多的编以大号,排列在后,所说的介质可以为感光胶片,所说的印刷方法可以为缩微方法。
5.按照权利要求
1中所述的印刷体汉字识别方法,其特征在于所说的光电转换是采用使样本字典与光学系统能够进行相对运动的机构而进行的。
6.按照权利要求
1中所述的印刷体汉字识别方法,其特征在于所说的优先级别顺序为(1)黑白全判别通过、(2)黑判别通过、(3)白判别通过、(4)黑3/4判别通过、(5)白3/4判别通过。
专利摘要
一种印刷体汉字识别方法,采用将样本字符缩制在易于光学系统转换的介质上的存储方式代替计算机存储。识别时,将样本字符和被识别字符都转换为二值图形,对被识别字符的二值图形进行字迹加肥或减瘦,而后以样本字符为标准,判别字迹部分、字迹以外的空白部分、字迹与空白都判别、取字迹的3/4进行判别和取字迹以外的空白部分的3/4进行判别。达到识别范围广,能很好地识别缺陷字,从而识别精度高、识别速度快和极大地降低成本的效果。
文档编号G06K9/58GK85105586SQ85105586
公开日1986年7月2日 申请日期1985年7月12日
发明者王雅延 申请人:王雅延导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1