一种有约束手写机读数码的书写和识别方法及应用的制作方法

文档序号:6650037阅读:166来源:国知局
专利名称:一种有约束手写机读数码的书写和识别方法及应用的制作方法
技术领域
本发明涉及数字局部特征编码及模式识别,是一种有约束手写机读数码的书写和识别方法及应用,属于自动化领域。
背景技术
随着自动化、数字化程度的不断提高,有大量手写数码需要机器识别读取,如邮政编码、支票金额、商品标价、速递业务标签等。如果这些数字是在集中条件下书写,人们自然会采用机打条形码的方法。但邮政编码、支票金额等通常需要在分散的环境下书写,广泛分布及简单的书写环境不适于采用条形码。而目前的自由书写难以实现机器的准确识别。
手写体数字识别的复杂性来源于手写数字的不规范性。人们在书写字符过程中的任意性以及因人而异的书写方式造成手写体数字的各种变形,导致同一数码字符的变形种类繁多。致使手写数字自动识别困难重重,机器识别准确率难以达到理想的程度。目前国内外已经研究开发出了多种手写码识别技术,采用各种复杂算法和昂贵的识别设备。但是由于任何算法都无法对手写数码枚举穷尽、全部囊括,机器识别准确率仍不理想。
现有的手写数码机器识别读取设备复杂、庞大、昂贵,其识读的正确率也不理想。以中国邮政分拣业务目前采用的高性能信函自动分拣机——OVCS信函自动分拣机为例,在采用OCR方式时,入格处理率只有70%左右。(国产的OVCS信函自动分拣机2000年报价为每台800万元,国外同类设备报价还要高一到两倍)。
由于阿拉伯数码只有0~9十个符号,比较简单,易于规范。采用有约束的数码手写方式,可以大大简化机器识读,起到四量拨千斤的功效。本发明就是尝试通过简单约束数码书写,实现依靠简单设备完成数码的机读工作。建立一种类似条形码的简便而准确的手写数码机器识读方法。

发明内容
本发明提供一种有约束手写机读数码的书写和识别方法及应用。针对阿拉伯数码只有0~9十个符号,比较简单易于规范的特点,采用有约束手写数码的方式,极大地降低了机器识别读取的难度。这种约束是简单易行,易于广泛理解和普遍接受的。我们提出的有约束手写借用七段数码显示的原理,依照日字形设置七个书写笔画段进行书写约束。在规定的书写位置(如信封的邮政编码书写位置)预制模板,在需要的时候还可以提供数码字样。这样任何会写阿拉伯数码的人都能够轻松完成有约束数码的书写工作。通过约束规范了数码的书写后,为机器识读打下了非常好的基础,使机器识别读取变得轻松容易,用简单的手持式扫描器就能完成。只要手写时符合约束要求,机器识读的正确率可以达到100%。
本发明解决其技术问题所采用的方案步骤有步骤1设置日字形七个笔画段的书写约束,在规定的书写位置预制模板,引导书写者在模板的笔画虚线框内书写数码;步骤2识别时在日字形模板上设定七个书写笔迹识别区,供后面读取笔迹信息使用;步骤3定位,以设定的定位点(如在数字模板的两端)为基准,或以模板下面给出的样例为基准,进行光电扫描区域定位;
步骤4对经过模板约束的手写数码的识别原理是在各个特征提取位置运用黑白象素光电识别方法提取书写笔迹,并通过对七个笔画段表征的数字译码确定本位所写的数值;步骤5提取特征位置黑白象素,手写数字限制模板特征提取位置为光电识别的扫描区域,通过光电扫描获取各段上有无用户笔迹的信息,识别的对象是0、1二值化后的黑白图象,有笔迹信息,视为1,无笔迹信息,视为0;步骤6扫描过程,整个识别过程需要经由两组扫描,检查数码字符的每个象素,第一组扫描从上到下检查每个数码字符的纵向轮廓,提取特征位置a、g、d上有无用户笔迹的信息,第二组扫描从左到右检查每组数码字符的横向轮廓,提取特征位置f、b、e、c上有无用户笔迹的信息;步骤7多位数码的确定,仿照上述一位七段码译码方法进行。在一次读取多位手写数码时,按照下标确定相应的位置,逐位译码即可。
有约束手写数码书写规范设计原理模式识别领域中对手写数字进行预处理主要有两种渠道一种是通过各种特定的映射对手写数字进行变换增大各目标类之间的距离,减少识别对象的离散性,便于数字特征提取;另一种是在用户能够接受的范围内用一个简单的模板对用户输入进行一定的约束,使其手写数字能够达到一定程度的规范。
本发明就是依照后一种思路。提出日字形模板将任一可能出现的数码约束在七个笔画段之中,即这七个笔画段的组合可以形成0~9不同的数字,如b段和c段组成1,a、b、g、e、d段组成2,等等。
(1)模板描述我们设计出手写数字的限制模板如图1和图2所示。图1为空模板,图2在模板中写入了数字8。约定数字的书写范围只能在每个日字模板限定的范围之内。
日字模板对用户输入起到一个限制和诱导的作用,通过模板实现用户的书写规范。通过这种措施,使手写数字的笔画应尽量与日字模板的笔画虚线框重合,这样就可以使手写数字的主要提取特征限制在规定的区域,为机器识读打下基础。
(2)提取约定按照我们设计的手写数字局部特征编码的思想,识别时只需提取特征约定位置中的笔迹信息,就足以完成识别任务。如图3所示,图中椭圆圈入部分为特征提取位置。显而易见,手写数码时稍有约束的提示,自然会写到椭圆圈的内部。而椭圆圈有黑色笔迹,就不会出现漏读信息。
(3)数码0~9模板及手写样例数码模板及0~9书写标准样例,如图4所示。
采集的部分基于模板的手写0~9数码,如图5所示。
本发明的效果为可以简化手写数码机器识别的工作程序,用简单设备就可以完成手写数码机器读取的任务。非常方便实用,可以取得类似条码的识别效果。与此同时,有约束手写机读码还有比条码优越的可读性,在需要人工识读比对时,工作人员可以直接读取,而条码无法人工直接识别。有约束手写机读码具有极其广泛的应用前景。
本发明的优点为提出日字形七个书写笔画段的有约束手写数字模板及书写方法,其特征是书写过程简单,写出的数字规范,不需要任何特殊设备就可以在极度分散的书写环境下得到相对规范的手写数码。
提出在日字形手写数字模板上设定七个识别区域,并通过检测判断区域内是否有书写笔迹信息。(1)使识别工作变得简单、轻松,只要关注7个识别点即可;(2)即便书写不够规范,也能保证识别的准确性。
在数字识别中使用七段码代表数字对照译码方法,译码方便,有简便、成熟的技术支持。
提出对约束模板上的信息的扫描方法,扫描过程简单,对设备要求低,易于实现。
以邮政编码识别为例,目前的识别设备非常昂贵,无法在众多小的市县普及。采用有约束的手写邮政编码,只要简单的设备就可以完成识别工作,大大降低对设备的要求,同时使识别的过程大大简化,便于自动化技术在邮政业中的普及发展。


图1手写数字的限制模板(空模板);图2在模板中写入了数字8;图3手写数字限制模板特征提取位置;图4数字模板及0~9书写样例;图5部分手写0~9数码样例;图6扫描过程示意图;图7普通信封邮政编码约束及提示。
具体实施例方式
下面结合附图和实施例对本发明进一步说明。
实施例1本发明解决其技术问题所采用的方案步骤是步骤1设置日字形七个笔画段的书写约束,在规定的书写位置(如信封的邮政编码书写位置)预制模板,引导书写者在模板的笔画虚线框内书写数码,在需要的时候可以提供数码字样(如在信封邮政编码书写区的下方);步骤2识别时在日字形模板上设定七个书写笔迹识别区,供后面读取笔迹信息使用,如图3所示;步骤3定位,以专门设定的定位点(如在数字模板的两端)为基准,或以模板下面给出的样例为基准,进行光电扫描区域定位;步骤4对经过模板约束的手写数码的识别原理是在各个特征提取位置(如图3所示)运用黑白象素光电识别提取书写笔迹,并通过对七个笔画段表征的数字译码确定本位所写的数值;步骤5特征提取位置黑白象素,手写数字限制模板特征提取位置为光电识别的扫描区域,通过光电扫描获取各段上有无用户笔迹的信息,识别的对象是0、1二值化后的黑白图象。若有书写笔迹,用1表示,若无,用0表示。采用一个设定的阀值判别决定取舍(阀值的确定要根据具体的使用条件通过多次实验来确定);步骤6扫描过程,整个识别过程需要经由两组扫描过程,每组扫描检查数码字符的每个象素(扫过特征提取位置)。第一组扫描从上到下检查每个数码字符的纵向轮廓,提取特征位置a、g、d上有无用户笔迹的信息。第二组扫描从左到右检查每组数码字符的横向轮廓,提取特征位置f、b、e、c上有无用户笔迹的信息。有笔迹信息,视为1,无笔迹信息,视为0;步骤7多位七段码的确定,仿照上述一位七段码译码方法进行。在一次读取多位七段码时,只要对其加注下标说明a1,a2,a3,…,g1,g2,g3,这样a1,…,g1代表第一位数字,a2,…,g2代表第二位数字,按照下标确定相应的位置,逐位参照表1译码即可。
实施例2有约束手写数码识别原理与方法。对有模板约束的手写规范数码的识别原理是在日字形的七个笔画段中设定每个笔画的特征提取位置,如图3所示。再从各个特征提取位置中运用黑白象素光电识别技术检查其中是否存在书写笔迹,最后通过对七段表征笔画进行译码确定该数码的具体数值。
(1)定位以特定的定位标志(如模板下面给出的样例)为基准,进行光电扫描区域定位。
(2)提取特征位置的笔记信息以图3中手写数字限制模板特征提取位置为光电识别的扫描区域,通过光电扫描得到各段上有无用户笔迹的信息,识别的对象是0、1二值化后的黑白图象。若有笔迹,用1表示,若无笔迹,用0表示。采用一个设定的阀值判别决定取舍。
(3)扫描过程整个识别过程需要经由两组扫描过程,每组扫描检查数码字符的每个象素。第一组扫描从上到下逐位检查每个数码字符的纵向轮廓,提取特征位置a、g、d上有无用户笔迹的信息。第二组扫描从左到右分两行检查每组数码字符的横向轮廓,提取特征位置f、b、e、c上有无用户笔迹的信息。
(4)一位日字形模板上数码的译码确定根据七段码的编码原理,通过对七个笔画段各段上黑色象素的扫描统计,构成代表数字结构的七维特征向量。在读出a、b、c、d、e、f、g七段取值后,依照表1可以确定其代表的相应数字。
表1七段码代表数字对照表

(5)多位日字形模板上数码的确定仿照上述一位七段码译码方法,在一次读取多位日字形模板时,只要对其上面的7个笔划段加注下标说明a1,a2,a3,…,g1,g2,g3,然后按照下标确定相应的位置,逐位依照表1译码即可。
实施例3一种有约束手写机读数码的书写和识别方法的应用,信封邮政编码有约束的手写及识别。
邮政系统中数量最大的普通平信上的邮政编码是最典型的分散书写集中识别的例子。对目前使用的标准信封左上角六位邮政编码红框稍加改进,用浅黄色或浅绿色印制约束线框。印制约束框使用较淡颜色,与正常书写用的黑色或蓝色有较大的色差,保证其处在光电识别的有效色谱之外。如图7所示,印上我们设计的日字形约束框,并在其下方给出数字0~9的有约束书写样例,就可以简单地完成手写邮政编码的规范工作。
寄信者在书写邮政编码时,会看到约束框下面的书写样例,提示其将数码的笔画写在约束框内。实际上,在机器识读时,只要我们设定的特征提取位置(如图3所示)中有笔迹信息,就将该笔画段判定为1,因此,即便是书写者的笔迹没有完全准确地与约束框重合,只要特征提取位置的椭圆区域内有笔迹信息,就不会出现识别错误。
按照我们前面介绍的原理和方法,可以简便、高效、准确地完成邮政编码识别工作,为信件自动分拣打下良好的基础。
实施例4一种有约束手写机读数码的书写和识别方法的应用,支票金额书写及识别。
大量需要分散书写集中识别的支票是本发明适用的另一个地方。分散开出的支票送到银行后,需要识读。在支票上印制按照有约束书写的要求的约束框后,书写的金额可以方便、准确地读取。方法与前述邮政编码识别类似,不再赘述。
权利要求
1.一种有约束手写机读数码的书写和识别方法,其特征是含有以下步骤步骤1设置日字形七个笔画段的书写约束,在规定的书写位置预制模板,引导书写者在模板的笔画虚线框内书写数码;步骤2在日字形模板上设定七个书写笔迹识别区,供识别时读取笔迹信息使用;步骤3定位,以设定的定位点为基准,或以模板下面给出的样例为基准,进行光电扫描区域定位;步骤4对经过模板约束的手写数码的识别原理是在各个特征提取位置运用黑白象素光电识别提取书写笔迹,并通过对七个笔画段表征的数字译码确定本位所写的数值;步骤5提取特征位置黑白象素,手写数字限制模板特征提取位置为光电识别的扫描区域,通过光电扫描得到各段上有无用户笔迹的信息,识别的对象是0、1二值化后的黑白图象;步骤6扫描过程,整个识别过程需要经由两组扫描,检查数码字符的每个象素,第一组扫描从上到下检查每个数码字符的纵向轮廓,提取特征位置a、g、d上有无用户笔迹的信息,第二组扫描从左到右检查每组数码字符的横向轮廓,提取特征位置f、b、e、c上有无用户笔迹的信息,有笔迹信息,视为1,无笔迹信息,视为0;步骤7多位七段码的确定,仿照上述一位七段码译码方法进行。在一次读取多位七段码时,按照下标确定相应的位置,逐位译码即可。
2.根据权利要求1所述的一种有约束手写机读数码的书写识别方法,其特征是上述的步骤5采用一个阀值判别决定取舍,阀值的确定要根据具体的使用条件通过实验来确定。
3.根据权利要求1或2所述的一种有约束手写机读数码的书写识别方法,其特征是步骤1的书写位置为信封的邮政编码书写位置。
4.一种有约束手写机读数码的书写和识别方法的应用,其特征是;在信封左上角六位邮政编码红框用浅黄色或浅绿色印制约束线框,印制约束框使用较淡颜色,印上日字形约束框,并在其下方给出数字0~9的有约束书写样例或在支票上印制约束框。
全文摘要
一种有约束手写机读数码的书写和识别方法及应用。由于阿拉伯数码只有0~9十个符号易于规范,依照日字形设置七个书写笔画段进行手写数码的书写约束。在规定的书写位置预制模板,引导书写者在模板的笔画虚线框内书写数码。在手写模板对应区域上划定七个特征提取位置,采用光电读取方法,识读每个特征提取位置内是否有笔迹信息,有笔迹读出1,无笔迹读出0。再逆向运用七段码显示原理,进行笔迹信息的译码,即可完成机器识读工作。这种方法不增加书写的难度,写出的数字比较规范,使机器识别读取手写数码变得轻松容易,用简单的手持式扫描器就能完成。只要手写时符合约束要求,机器识读的正确率可以达到100%。可在信封和支票上使用。
文档编号G06K9/00GK1763766SQ20051011519
公开日2006年4月26日 申请日期2005年11月16日 优先权日2005年11月16日
发明者徐维祥, 刘旭敏 申请人:北京交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1