读取字符的方法和读取邮政地址的方法

文档序号:6410806阅读:232来源:国知局
专利名称:读取字符的方法和读取邮政地址的方法
技术领域
本发明涉及字符读取方法,且更具体地说是涉及字符串的读取方法,特别是写在邮件表面上的包括汉字字符的邮政地址的手写字符串。
对于写在邮件等等的表面上的邮政地址的字符串的自动读取,首先将邮件表面的图象转换成电信号,并随后检测其中写有字符串的区域。随后,根据检测区域的视频信号,对字符串的字符进行分类。字符串的每一个字符按照以下程序进行分类。
(1)被认为是字符串的字符的图象图案通过分割而得到提取(字符段)。
(2)对分割后的字符图案的字符种类(字符编码)分类(字符分类)。
(3)通过连接分类后的字符种类而形成的字符串,被与寄存在一个表(字符串字典)中的邮政地址等等的字符串相比较,从而将字符串识别为一定的地址等等(字符串匹配)。
在上述过程中,项目(1)的字符分割是最困难的,因为有各种情况的书写表面,包括手写字符、其一个字符可以由多个其他字符组成的汉字字符、以及以竖向或横向形式书写的字符串,如在下面结合

图1和图34A所描述的。
关于对从书写表面读出的字符串进行字符分割的传统方案,已知过度分割方法是有效的。在该过度分割方法中,字符串的图象信号被分成有可能作为字符的多种字符图案,各个分解的字符图案根据字符(字符种类)而得到分类,且根据字符图案的分类后的字符种类的类似性和根据字符种类的字符串与一个参考字典中的字符串的比较,来确定字符图案是正确的。
作为有关过度分割方法的现有技术的一个具体例子,由Fujimawa等人提出了根据字符分类来测试识别候选字符的方案(在The Proceeding ofthe 1984 Institute IEIC Fall Conference“AnAugmented Segmentation Algorithm for Connected HandwrittenNumerals”中进行了描述)。
根据字符的形状来测试识别候选字符图案的另一种方案,已经由Ishidera等人提出(在The Proceeding of The 1995 Institute IEICSpring Conference D-576“A Segmentation Method ofAddressRecognition”中进行了描述)。
根据字符分类和字符串比较来测试假定的方案,已经由Murase等人提出(在The Translation of the Institute of Electronics,Information and Communication Engineers,(D)Vol.J69-D,No.9“Segmentation and Recognition of Hand-written CharacterStringUsing Linguistic Information”中进行了描述);并且还由Ooi提出(在TECHNICAL REPORT OF IECE PRU 92-40“A Method toRecognize the Street Number Portion of an Address”中进行了描述。)根据字符宽度、字符间距和字符间隔而判定字符分割的正确性的一种方案,在The Transaction of the Institute of Electronics,Information and Communication Engineers,REPORT OF IECE(D)J68-D,No.12,pp.2123-2131中进行了描述。已知的还有根据字符图案和关于字符种类的类似性信息来判定字符分割的正确性的一种方案,如在TheTransaction of the Institute of Electronics,Information andCommunication Engineers,REPORT OF IECE(D)J68-D,No.4,pp.765-772中描述的。
然而,上述的现有技术过度分割方法的方案,都遇到了正确字符分割的困难,如在以下的例子中所显示的。
图1显示了手写在邮件上的邮政地址101,其中街道号码部分被可视地识别为汉字数字“三—二—一”。在此情况下,根据上述过度分割方法的字符读取设备在虚线表示的边界处实施字符图案分割。即,字符图案的竖向和水平长度和竖向/水平长度比根据各种字符种类而有显著的变化,因而难于从六种可能的情况103中选出正确的字符串。
图33A显示了有大字符间隔的手写字符。该字符串在虚线所示的边界处得到分割,从而产生了如图34A所示的识别候选字符图案。在此图中,候选图案的关系是以代表字符图案的边界的节点和代表字符图案的弧来图形表示的,且它被称为“分割假设网络”。
根据上述过度分割方法的正确字符图案分割,是借助在分割假设网络上找出从开始节点
至结束节点⑨的最优路径的过程,而进行的。在图34A中,由弧代表的字符图案按照它们的字符种类而得到分类。在此情况下,“木”、“反”和“板”都表示高度的类似性,因而现有技术的方案难于分割该字符串。
在上述的现有技术方案中,Fujisawa等人的方案,以及Ishidera等人的方案,是用于判定各个字符图案的合法性的,但没有采用相邻字符图案间的关系,而Ooi和Murase提出的方案利用了相邻字符图案间的关系来匹配字符串,但这些方案没有使用相邻的字符的有关特征值信息—诸如间隔。
因此,本发明的主要目的,是实现一种字符读取方法,它基于从一串分割的字符图案判定正确的字符图案和对字符图案准确分类。
本发明的另一目的,是实现一种方法,它从地址字符串的视频信号准确读取邮政地址字符,其中地址字符串由书写在邮件表面上的城镇名称部分和街道号码部分组成。
本发明的又一个目的,是为基于过度分割方法的地址字符串的读取实现一种方法—它通过利用地址字符串中所注意的图案与相邻图案的的关系特征值来准确地进行字符图案分割,其中只根据字符分类和字符串匹配不能对该地址字符串的候选字符图案分割进行正确的测试。
为了实现上述目的,本发明的字符读取方法包括第一步骤,组合所要分类的字符串中的相连的部分(例如由相继的黑象素形成的笔划)—该字符串已经借助图象输入装置进行了电子成象,从而将该字符串分割成具有作为字符的可能性的字符图案(还没有得到分类的分割字符图案在以下将被称为“暂定字符图案”);第二步骤,通过访问一个字符分类字典来实施暂定字符图案的字符分类,从而获得暂定字符图案的从属信息(识别候选字符和暂定字符图案与识别候选字符的类似性);第三步骤,获得暂定字符图案的边界信息;第四步骤,通过利用在第二步骤中获得的识别候选字符作为关键字来访问一个分割字典—该字典包含边界信息,来获得第三步骤中获得的暂定字符图案的边界信息的可信性,并对暂定字符图案进行加权;第五步骤,根据暂定字符图案的加权来确定字符分割;以及第六步骤,通过对一组分类的字符种类使用字符分类字典而实施字匹配—其中该组分类的字符种类是从第五步骤中确定的暂定字符图案产生的,并标明字符串的各字符。
在采用该字符读取方法读取由城镇名称部分和街道号码部分组成的邮政地址的字符串的情况下,字符串的图象被转换成电信号,从该电图象信号提取出字符串区,且在上述的第一步骤中得到分割的字符串的相连部分得到组合,从而产生若干暂定字符图案。
各个暂定字符图案都经历利用字符分类字典的字符分类,从而获得类似暂定字符图案的候选字符的信息。地址的城镇名称部分利用候选字符的信息并访问一个城镇名称字典而读取,且街道号码部分的开头位置得到检测。城镇名称字典包含实际上所有可能的城镇名称。
通过检测街道号码部分的开头位置,获得了街道号码的暂定字符图案的边界信息,且通过访问字符串字典而获得该边界信息的可信性。在考虑该可信性的情况下,再次实施街道号码部分的字符的暂定字符图案的字符分割,且通过利用类似于所产生的暂定字符图案的候选字符信息并通过访问街道号码字典,而识别街道号码部分的字符。街道号码字典包含所有现存的街道号码的字符信息。
根据本发明的另一种最佳形式,当对假定的合法性的评价出现了每种可能类型的误差时上述第三步骤的边界信息是外部形式惩罚—该外部形式惩罚是基于各个假定的字符图案与相邻字符图案的关系特征值的,其中该假定使得因误差类型的不正确分割产生各种假定的分割字符图案。
如上所述,本发明的字符读取方法是基于字符串分割方案和字符图案的假定字符图案的整体边界信息方案上的,其中从字符分类获得的类似性反映在字符分割上,从而使两个方案彼此互补,从而能够准确地分割即使具有不规则的字符宽度、字符间距、和字符间隔的字符串,以根据有效信息的最优使用来进行字符分类。
在根据所有字符共同的字符宽度、字符间距和字符间隔 手写字符串的假定值处理手写字符串的字符分割的困难时,本发明的方法通过访问字符串字典比较字符图案的特征值,其中该字典信号是为字符分割的假定的测试而准备的,从而评价反映在字符分割上的可信性。该字符串字典包含图案的可信性相对于特征值的可能分布。虽然可信性的计算需要大量的人力、时间和基于经验的知识,本发明的方法使得能够通过只在屏幕上显示假定的字符分割,而对各个字符种类的最优加权的可信性进行评价,从而使操作者只需要选择正确的假定字符分割。
图1显示了引起现有技术方案的字符分割的不确定性的输入图象的一个例子;图2是流程图,显示了根据本发明的一个实施例的字符读取方法;图3是实施本发明的字符读取方法的字符读取设备的框图;图4是用于说明图2的字符串提取过程204的图;图5用于说明图2的竖向/水平形式鉴别过程205;图6用于说明图2的与输入图象相对应的暂定图案生成过程206;图7显示了图2中的图案表219的数据结构;图8是概念图,显示了图2的暂定图案鉴别过程209唯一确定的假定字符图案的串;图9用于说明图2的格式产生过程210和城镇匹配过程211;图10用于说明图2的字符分割循环确定过程215,用于处理街道号码部分中的汉字号码和阿拉伯数字号码;图11用于说明根据输入图象与假定字符图案之间的对应性的街道号码部分的字符分类;图12用于说明图10的假定字符图案的可信性的计算过程;图13显示了图案的可信性计算和街道号码部分的假定字符分割的弧的加权的结果;图14显示了街道号码部分的字符分割的循环确定处选择的字符分割;图15显示了通过将城镇名称部分和街道号码部分的识别结果结合起来而产生的整个地址字符串的识别结果;图16是一个图,显示了屏幕上的显示的一个工具的例子,工具用于维护和扩充本发明的地址识别设备的功能以及用于建立和修改各字典;图17是流程图,显示了本发明的总体处理的一个例子;图18显示了本发明的一个实施例;图19显示了图案与它们的边界之间的关系;图20是表,显示了包含分割假设网络的弧的图案表的结构;图21是表,显示了包含分割假设网络的节点的节点表的结构;图22是流程图,显示了外部形式惩罚的计算过程;图23是表,显示了分割误差的类型;图24是流程图,显示了分割误差评价过程;图25显示了用在该分割误差评价过程中的特征值;图26显示了分割误差评价过程的原理;图27是流程图,显示了地址字典匹配过程;图28显示了字典匹配过程的原理;图29显示了取样收集工具在屏幕上显示的一个例子;图30是流程图,显示了参数字典的学习;图31是表,显示了参数字典的结构;图32是流程图,显示了外部形式惩罚计算过程;图33A和33B显示了所要识别的地址字符串的例子;图34A和34B显示了分割假设网络和假定的分割误差的例子。
图2是流程图,显示了根据本发明的实施例的字符读取方法。该实施例被应用到自动字符读取器,用于读取书写在邮件表面上的邮政地址。由城镇名称和街道号码组成的邮政地址的字符串的读取过程是以如下方式进行的。
邮件表面201用成象装置(扫描器)成象,从而形成视频信号(202),从视频信号中提取出地址信息块(203),且根据地址块的图象信息分割字符串(204)。
带有所要分割的字符串的图象信息,经历竖向形式或水平形式的鉴别(205),且处理模式根据结果而得到切换(221)。这些处理201-221是根据传统的方案进行的。
已经用电子设备实施了自动读取书写在邮件上的省名称、城市名称、城镇名称等等的字符串的各种方法。例如日本专利公开JP-A-Hei-2-64882公开了根据不同的字符分割处理的地址识别,该识别是用于从城镇名称开头的一个字符串部分和街道号码的另一字符串部分的。日本专利公开JP-A-Hei-5-151389公开了一种方法,用于根据对邮政编码的位置的先前检测来检测邮件表面上书写有地址的区域。
日本专利公开No.60-41396公开了一种方法,用于根据对块图案的高度的测量和对具有相同高度的字符串的检测,来分割地址块中的字符串。日本专利公开JP-A-Sho-63-18785公开了一种方法,用于根据对地址块中的字符的水平长度和竖向长度的估计和这些长度的比较,来区分分割后的字符串的竖向或水平形式(字符串的方向)。
随后,通过将图象信息的字符串中相继的黑象素(即笔划)组合起来,在可能形成字符的位置进行假定字符图案的分割处理。对假定字符图案分割的这种处理,将被称为“暂定图案生成”(206)。假定的字符图案,除了所要识别的正确字符图案之外,还可以包括不适当的图案。分割出的假定的字符图案被寄存在图案表219中。假定的字符图案和图案表219将在后面结合图6和7进行详细描述。
寄存在图案表219中的各个假定的字符图案根据字符分类字典208受到字符识别(207)。在字符分类处理中,作为边界信息而获得若干个识别候选字符(它们与各个假定的字符图案类似)、识别候选字符与假定的字符图案的类似性、假定的字符图案在字符串上的位置、关于相连的部分(相继的黑象素)的号码的信息、以及假定的字符图案的属性信息。识别候选字符和边界信息与各个假定的字符图案相对应地被存储在图案表219中。根据当已经存储有识别候选字符和边界信息的图案表219,为字符分割选择适当的假定的字符图案(209)。从与确定字符分割时选择出的字符图案相对应的识别候选字符中,产生出一组识别候选字符,即一个识别候选字符串(210)。为各个字符图案的识别候选字符串,寄存直到低级候选字符的各种字符种类。这种寄存的字符种类将被称为“格子”。
进行把格子与城镇名称字典220相比较的城镇匹配(211),从而为地址的城镇名称字符产生适当的识别字符串。城镇名称字典220包含所有现存的城镇名称。当由城镇匹配过程211进行的城镇名称字符读取完成时,城镇名称的字符串的最后一个字符得到确定,且街道号码的开头位置信息被获得。
在获得街道号码的开头位置信息时,假定的字符图案的竖向和水平长度、竖向/水平比值、图案间隔、相连部分的号码等信息(称为“图案周边信息”)或者围绕暂定图案的信息得到提取(212)。利用分割字典214来计算提取的周边信息的可信性(213)。计算出的可信性作为相应的假定的字符图案的属性被存储在图案表219中。
根据该可信性再次选择图案表219中的一个假定的字符图案,以取代前面的选择。即,确定字符分割以取代前面的确定,从而只使街道号码与在暂定图案鉴别过程209中选定的假定的字符图案的街道号码不同(215)。在此循环字符分割确定215之后,根据该信息重新产生一个格子(216)。利用街道号码字典222,为新产生的格子进行街道匹配(217),且执行街道号码字符识别。街道号码字典包含表示所有街道号码的所有字符。其结果与已经由城镇匹配(211)识别的城镇名称相结合,从而完成整个地址的识别(218)。
以下描述图2所示的各个处理的细节和执行这些处理的设备。从视频信号输入202至竖向/水平模式切换221的处理,与现有技术方案的相同,而从暂定图案生成过程206至城镇匹配211的处理是在上述出版物TheTransaction of the Institute of Electronics,Information andCommunication Engineers,(D)J68-D,No.4,pp.765--772中描述的技术。
图3显示了执行上述地址读取方法的设备的设置。在此图中,箭头表示邮件的流向。一个视频信号202由扫描器301输入。为了获得读取地址的时间,在邮件传送路径上提供了一个延迟线路314。扫描器301由一个输入/输出电缆304连接到一个字符识别设备312,后者通过另一输入/输出电缆305而与分检器303相连。
字符识别设备312具有用于连接内部装置的内部总线313;I/O接口306,用于与扫描器301通信;运算处理装置307,它控制整个设备312并实施地址读取处理;I/O接口308,用于与分检器303进行通信;键盘309,用于启动操作等等,CRT单元310,用于显示处理状态;以及存储器311,用于存储用于地址识别的表、程序和字典。
图4说明了从视频信号输入202至字符串提取204的处理。407表示的是地址块定位处理203从视频信号202提取的地址块的图象。标号403、404和405显示的是通过把包括地址块407的黑象素投影到与y轴402平行的轴408上而画出的柱形图。根据这些柱形图的值,估计出如虚线406所示的字符串的顶部和底部的y轴坐标,且地址线的字符串得到提取(204)。
图5显示了竖向/水平形式鉴别过程205。标号501显示的是水平书写的字符串的图象。标号502和503表示的是该字符串的开始字符和结束字符的字符图案,且标号505和509是从字符串完整地提取的这些字符图案。标号506和510表示的是从字符图案502和503导出但被图案转动处理504和511转动了90°的字符图案。这些字符图案受到字符分类(507)。所产生的类似性的值得到比较(508),且根据比较的结果实施书写的竖向/水平形式鉴别处理205。特征提取处理根据该结果而在竖向形式与水平形式之间切换(图2的221)。
与利用图象的布局信息的形式鉴别(它经常对包括不符合标准布局的地址字符串的输入图象造成错误判定)不同,本发明的该实施例—它利用字符识别本身来实施形式鉴别—进行可靠的竖向/水平形式鉴别过程。在地址字符串的第一和最后一个字符与被转动了90°的那些字符之间的类似性没有什么不同的情况下,与第一和最后字符相邻的字符被取出并经历相同形式的判定处理。即通过避免诸如“田”和“山”这样在转动90°后类似性几乎没有变化的汉字字符,而是根据适合于判定的字符进行竖向/水平形式鉴别过程,从而增大了形式鉴别的精度。
图6用于说明与输入图象对应的假定的字符图案。为了识别手写的地址字符串601,图2的暂定图案生成过程206在字符边界(由虚线603-i表示,其中i=1,2,……n)处分割输入图象的字符串。由圆圈中的1至8表示并标为603-i(其中i=1,2,……n)的点,被称为“节点”。连接两个相邻节点的曲线604被称为“弧”,且与这些弧604对应的图案605、607、……611,是假定的字符图案。即,图中右边所示的是分割假设网络。例如,为了识别字符图案“兵”,除了图案“兵”605之外,还有可能的假定的字符图案“丘”606和“八”607。类似地,对于字符图案“可”,除了图案“可”610之外,还有可能的分割字符图案“一”609和“
”611。各个假定的字符图案都存在于由一条弧连接的节点之间。
图7显示了存储在图案表219中的数据。701表示的是一个指针,它指向存储着被分割成假定的字符图案的图象信息的存储单元。存储单元702存储与该假定的字符图案对应的弧的可信性(该可信性表示了根据节点之间的距离而不同的权)。存储单元703存储假定的字符图案中相连的组成部分的数目(例如,对于字符图案“三”该数目是三个,且对于字符图案“八”则是两个),且存储单元704存储该假定的字符图案的x-y坐标(围绕假定的字符图案的块的左上和右下角的坐标)。存储单元705存储弧的开头处的节点的节点号,且存储单元706存储弧的末端的节点的节点号。通过参照这些节点号,图案数据能够以假定的字符图案的分割假设网络的形式来表示。存储单元707存储了通过参照字符分类字典208而在假定的字符图案的字符分类207处获得的几个候选字符,且存储单元708存储候选字符与假定的字符图案的类似度的值。
计算类似度的方式是任意的,且可以采用任何已知的方案。粗线709表示了一个假定的字符图案的表的空间的范围,且该范围对应于一条弧。例如,对于假定的字符图案“兵”,该范围对应于弧604-1。相应地,在前一个节点的705中的节点号为
,且在下一个节点的706中的为②。
图8用于说明暂定图案鉴别过程或图2中的字符的确定过程209。在该图中显示的,是假定的字符图案—它们是根据图案表219中的数据由暂定图案鉴别过程209唯一确定的。暂定图案鉴别过程209把从对图案表中的所有假定的字符图案的字符分类产生的候选字符的类似度作为可信度702寄存起来,将沿着从节点 至节点⑧的可能路径存在的弧的可信度的值相加,并把最大可信度相加值路径上的假定的字符图案串确定为分割的暂定图案。图8的例子,显示了具有可信度最大相加值的路径,该路径连接节点 、③、④、⑤、⑦和⑧。
把图8与图6比较,可以发现在图8中没有图6的网络中从节点 至节点①、从节点①至节点②和从节点①至节点③的弧604,以及从节点④至节点⑥、从节点⑤至节点⑥和从节点⑥至节点⑦的弧604。相应地,通过根据字符分类而对图案表219中的所有假定的字符图案进行评价,根据可信度增强的假定的字符图案,而确定字符分割(图2的209)。
图9用于说明对于唯一确定的分割的识别字符分类结果由城镇匹配过程211产生的城镇名称部分的字符识别结果,并用于说明街道号码部分的开头位置。标号601表示了所要识别的地址字符串的图象,虚线902表示确定的字符分割即节点的边界线,且707表示作为分割的假定的字符图案的字符分类结果的一组候选字符。包围在圆圈中的字符903是作为候选字符707的城镇匹配(图2中的211)的结果而选定的字符。选定的字符“兵”、“库”,……“荷”被结合起来,以产生作为城镇名称识别的结果的字符串910。一对虚线905表示了由城镇匹配确定的字符串所对应的输入图象601的范围。街道号码部分的开头位置911由城镇匹配过程211确定。
在此图中,906、907、908和909表示的是街道号码部分的假定的字符图案,且912至916是作为对街道号码部分的假定的字符图案经字符分类得到的一组字符串。这些候选字符已经由直到格子生成211的处理获得。在街道号码开头位置911之后的地址部分,在大多数情况下是用汉字数字或阿拉伯数字书写的,因而该部分的字符分割处理不同于用汉字字符书写的城镇名称部分的处理。否则,如果把城镇名称部分的字符分割处理应用于街道号码部分,字符图案“三”和“二”经常被分别分成假定的字符图案906和907以及假定的字符图案908和909。另外,在此部分中使用的字符的种类较少。
图10是街道号码部分的字符分割的循环确定处理的流程图,该处理是从图2的图案周边信息提取212直到字符分割循环确定过程215的处理。下面将结合图11至14详细描述字符图案的例子。
街道号码部分的开头从城镇匹配过程211提供的输入信息911检测(1013),且从提取街道号码部分的假定的字符图案的一个识别候选字符限制为图案表219中字符种类信息(1002)。在此实施例中,从字符分类207产生的候选字符串中具有最高类似度的候选字符,被当作字符种类信息。以该限制的字符种类信息作为关键字访问分割字典或参数214。在字符种类限制1002上,提取与字符种类对应的假定的字符图案的周边信息(212)。该周边信息是假定的字符图案的竖向和水平长度、竖向/水平比值、图案间隔和相连组成部分的数量的数据。
分割字典214以该字符种类作为关键字而得到访问,以获得关于该周边信息的似然比,其中该周边信息包括竖向和水平长度、竖向/水平比值、图案间隔和相连组成部分的数量。分割字典214包含周边信息的仍然比的值,且对于每一个周边信息的该似然比都是作为可信度(1005,1006,1007,1008)而计算出来的。计算出的可信度值得到积分(1010)。对于特征值ek的似然比L(ek|H),是从分割的假定字符图案作为分类的字符种类的正确性的事件H、图案周边信息的特征值e1、e2,……en、以及在事件H的情况下出现e的概率P(e|H),以如下方式计算出的L(ek|H)=P(ekH)P(ek|H-)---(1)]]>对于出现H的概率P(H),对于特征值e1、e2,……en出现H的概率P(H|e1、e2,……en),是根据Bayes定律,利用从公式(1)获得的多个似然比,而从以下公式获得的
P(H|e1,e2,e3,...,en)=…(2)P(H)P(H-)∏k=1nL(ek|H)1+P(H)P(H-)∏k=1nL(ek|H)]]>可信度积分处理1010,通过利用根据Bayes定律的公式(2),而对处理1005、1006、1007和1008中计算出的似然比进行积分。随后,用乘上了从字符分类产生的类似度的积分后的可信度,对弧进行加权(1011)。根据从加权的弧导出的假定的字符图案的数据,检索从第一节点至最后节点的最优路径,从而确定字符分割路径(1012)。该结果被用于街道匹配(图2的217)。
图11说明了地址字符串的街道号码部分的假定的字符图案。地址字符串的输入图象的街道号码部分1102,已经由图2的暂定图案生成过程206根据边界线1104进行了分割,且该结果被存储在图案表219中。该图案表的数据结构与结合图6和7说明的数据结构相同。一对虚线1103表示了分割边界线1104与节点号1105(圆圈包围的50、51、52、……55)之间的对应。例如,对假定的字符图案“三”1106(它对应于弧1107)的字符分类处理,产生了“三”、“3”和“五”的候选字符1108。类似地,对假定的字符图案“
”1109(它对应于弧1111)的字符分类处理,产生了候选字符1110“示”、“未”和“身”。
这些假定的字符图案的弧,如结合图10所示地得到加权。具体地,字符种类“示”、“未”和“身”1110是不适合用于街道号码部分中的字符,因而与假定的字符图案1109对应的弧1111的权被减小。根据这种加权处理,除去了显然不适合于街道号码部分的弧。其余的假定的字符图案(例如“二”、“一”、“一”、“|”等等)经历了相应的加权处理,从而除去不适当的弧。
图12说明了图10中对例如在街道号码部分中的假定的字符图案“三”1106的弧加权处理。开始时,从假定的字符图案“三”提取周边信息(212)。该周边信息包括字符的竖向和高度和宽度、高宽比、图案间隔和相连组成部分的号码的值。此时,还定位了候选字符“三”、“3”和“五”中作为字符分类的结果的最高等级的候选字符“三”。这组信息由框1213中的1214和1215表示。
在字符种类限制1002,字符种类“三”的信息1214被送到分割字典214。分割字典214以字符种类作为关键字而得到访问,并包含用于弧加权的数据1205。字符种类限制1002所提供的字符种类被用于关键字,以在分割字典214中查找索引“三”。在检测到带有索引“三”的数据1205时,读出与竖向长度或高度1206、水平长度或宽度1207、高宽比1208、相连组成部分1209的数量和图案间隔1210相对应的似然比,周边信息的可信度值得到估算(1204),仍然比(可信度1,2,3,4,5)得到积分(1010),且与假定的字符图案“三”1106有关的弧1107得到加权(1011)。相应地,图案周边信息反映在假定的字符图案1106的弧1107上,从而实施根据字符种类的最优加权。
图13用弧线的厚度显示加权的结果。1301表示的是根据假定的字符图案“三”1106的周边信息而加权的弧。弧1303具有根据假定的字符图案“|”的周边信息而增大的权。连接节点

的弧1302具有与由图案“三”的两个较低的相连组成部分所组成形成的字符图案“二”相类似的假定的字符图案。假定的字符图案“二”的字符分类,产生了如图11所示的字符种类“二”、“三”和“2”的候选字符,其中具有最大类似度的字符种类“二”可能被错误地判定正确的假定。然而,周边信息表明弧1302的这种图案与紧在其上方的图案具有窄的间隔,从而使其可信度在参照分割字典214时被降低。相应地,弧1302的权小于只根据类似度进行权时的权,且它小于弧1301的权。因此,包括弧1302的路径的总加权比包括弧1301的路径的加权小。
图14显示了由字符分割的循环确定为街道号码部分选定的假定的字符图案串。具体地,借助弧加权处理(图10的1011)对假定的字符图案的弧进行加权,并确定具有最大的加权和的路径。随后,选出包括假定的字符图案“三”的弧1301和“|”的弧1303的路径。即为街道号码部分的字符分割的循环确定处理,选定与假定的字符图案“三”、“|”、“二”、“|”和“一”相对应的弧,以形成路径。与选定的弧的图案有关的候选字符串被用于产生街道号码部分的格子(216)。
图15显示了根据该实施例的整个地址字符串的识别结果。即,这是专用于街道号码部分的字符分割、格子产生、街道号码匹配、以及街道号码部分与城镇匹配的结果集合的结果。从地址字符串的输入图象601引出的一对虚线905表示了城镇名称部分的范围,且910表示城镇名称匹配的结果。虚线1510表示字符分割的循环确定的边界,且一组字符1506是各个字符的字符分类所产生的候选字符。虚线1507和1509表示了街道号码部分的范围,且字符串1508是借助街道号码匹配217而从字符分类的结果的候选字符组获得的街道号码识别结果,即它是街道号码识别的结果。字符串1504是通过将街道号码匹配结果1508与城镇名称匹配结果1502相连而产生的整个地址字符串的识别结果。通过只为街道号码部分重新尝试字符分割并将其结果以此方式与城镇名称匹配结果相结合,改善了整个地址字符串识别的精度。
图16显示了在一个屏幕上进行显示的例子,其中该屏幕显示了输入地址字符串和用于字符分割的图案表以及字符分类的结果。在图3的显示装置310的屏幕1600上显示的,是输入地址字符串1601、图案表的节点1602-i(i=1,2,……,8)、连接这些节点的弧1603-1和1603-4、连接相邻节点的弧、假定的字符图案1604-j(j=1,2,……,10)、以及借助假定的字符图案1604-i的字符分类而获得的候选字符组1605。在显示装置310的屏幕1600上的这种显示,使得能够在地址字符串识别处理期间对字符分割和字符分类处理的进行有直观的理解,且它可被用于维护和扩展设备的功能。需要根据建立和修改分割字典214时的假定,来收集分割的图案的周边信息。
参见公式(1),存储在字符串字典中的似然比的值,是正确字符分割的情况下的假定字符的周边信息分布被不正确字符分割情况下的假定字符周边信息的分布所除而获得的。在此,当设备被设计成响应指针对弧的指定而在图16所示的显示屏幕上显示诸如周边信息的值和字符分类结果的信息时,可以容易地分别为正确分割和不正确分割的情况收集图案周边信息。该显示工具对于产生和修改字符串字典所需的字符图案的收集也是有效的。
图17是流程图,显示了根据本发明的另一实施例的字符读取方法。该实施例也是对结合图3说明的自动邮政地址读取设备的字符读取方法的应用。
地址线分割处理171从邮件表面的视频信号提取地址块区域。随后的暂定图案分割处理172从字符串提取假定的字符图案,以产生分割假设网络。外部形式惩罚计算过程173计算各个假定的字符图案的外部形式惩罚(p)。字符分类处理174划分各种假定的字符图案并产生多个候选字符种类编码和产生假定的字符图案与候选字符的类似度。图案可信度计算处理175根据类似度和外部形式惩罚来计算各个假定的字符图案的可信度。地址字典匹配过程176根据图案的可信度来选择假定的字符图案,并将从字符分类产生的候选字符种类与地址字典相比较。
图18显示邮件表面图象。地址线分割处理171从邮件图象181提取一个矩形区域182,该矩形区域182包括城镇名称和街道号码的书写字符串。区域182可包括一个以上的地址字符串,且该处理在此情况下提取这些字符串的区域。地址块提取的方式与前述实施例的相同。
下面将结合图19描述暂定图案分割处理172,该图显示了区域182中的字符串的放大图象。在此图中,标为
至⑨的竖线是候选边界。该候选边界是如在TECHNICAL REPORT OF IE88-138,“A Method toCharacter Segmentation for Printed Character Lines IncludingCharacter Lines of Irregular Pitches”中描述的矩形之间的间隙。在边界的右侧的字符图案的左端的x轴坐标,减去在边界的左侧的字符图案的右端的x轴坐标,被称为“边界间隙”,且在边界的右侧的字符图案的左端的x轴坐标与在边界的左侧上的字符图案的右端的x轴坐标的平均值,被称为“边界坐标”。例如,编号为4的边界的边界坐标是边界194的x轴坐标,且边界间隙是宽度195。
随后,确定边界坐标之差不超过从字符串的高度导出的字符尺寸的边界组合,且这些边界之间的图案作为假定的字符图案而得到寄存。在图19的例子中,边界坐标差191和192不超过导出的字符尺寸,而边界坐标差193超过了字符尺寸。因此,边界
和①之间的字符图案和边界
和②之间的字符图案得到寄存,且边界
和③之间的字符图案被舍弃。
图20显示了包含着由暂定图案分割处理172产生的分割假设网络的各弧的数据的图案表的格式。图案表的各个记录与一个假定的字符图案相对应。该表由以下部分组成用于存储描述在链编码中的图案的特性的字段2001、用于存储假定的字符图案的左边界编号和右边界编号的字段2002和2003、用于存储作为字符分类结果的候选字符种类的字段2004、用于存储字段2004中的候选字符种类的类似度值的字段2005、以及用于存储图案的可信度的字段2006。在这些项中,边界编号从字符串的左端处的
位置开始,并随着边界从左向右移而增大,且多至三个候选字符种类和类似度值被左侧对齐地存储在字段2004和2005中,而字段2004和2005的空闲空间分别由空编码和“0”所填充。
图21显示了包含着暂定图案分割处理172所产生的分割假设网络的节点数据的边界表的格式。该边界表中的各个记录与一个边界对应。该表由用于存储边界编号的字段2101、用于存储边界坐标的字段2102、和用于存储边界间隙的字段2103组成。
用在该实施例中的字符分类处理174是已知的过程。用于描述城镇名称和街道号码的包括汉字字符、平假名字符、片假名字符、阿拉伯数字和符号的字符得到字符识别处理。字符分类的输出是多个候选字符种类和输入的字符图案相对于各个候选字符种类的标准图案的各类似度值。
图22是外部形式惩罚计算过程173的流程图,作为该处理的输入的假定的字符图案,由在图案表(图2)和边界表(图21)中的一个记录表示。为各个假定的字符图案进行多个分割评价处理2201、2202和2203,以评价错误分割的假定。处理的输出pi(i=1,2,……,1)越大,错误分割的假定的可信度就越高。输出pi由处理2204相加,且该结果作为外部形式惩罚p而得到传送。
图23用于说明图22的分割错误的类型,显示了七种类型的错误分割处理E1至E7。在此图中,实线图象表示所注意的假定的字符图案,虚线框表示包含正确字符图案的矩形,且中空的图象表示在假定的字符图案的周边的图案部分。例如,错误处理E1表示对于所注意的假定图案对一个字符的左侧作出错误分割的假定。错误处理E7表示对于所注意的假定图案对两个字符作出错误分割的假定。
图24是流程图,显示了错误分割评价处理。作为该处理的输入的假定的字符图案,由图案表和一个边界表中的一个记录(字符种类)来表示。错误分割评价处理2401与假定评价处理2201、2202和2203类似。特征提取处理2402从输入的假定的字符图案提取诸如字符图案尺寸和与相邻字符图案的位置关系的特征。该特征作为如下的n阶矢量而得到处理。
F=(f1,f2,……fn)随后,处理2403从特征F估算惩罚pi。惩罚pi是一个线性识别函数的值—该函数将正确分割的字符图案与错误结果(诸如图23中的处理Ei的结果)相区分,并被定义如下pi=F·Vi+ci其中Vi是线性识别函数的加权矢量,ci是一个常数,且F·Vi是Vi与F的内积。
Vi和ci的值根据学习来确定,这种学习的方式将在下面描述并被预先存储在参数字典2204中。作为与本实施例不同的一种替换方案,参数字典可以响应字符分类产生的候选字符而得到切换。
图25显示了用于说明上述特征F的字符图案。在此图中,实图象2501表示所注意的假定的字符图案,且中空图象2502和2503表示相邻的字符图案。一个虚线框表示了包含各个字符图案的矩形。
在此例中,特征F的阶为6,且各个特征值被定义如下f1所注意的的字符图案的高度f2所注意的的字符图案的宽度f3所注意的的字符图案与左边相邻的字符图案的间隔f4所注意的的字符图案右边相邻的字符图案的间隔f5所注意的的字符图案的最大间隙f6所注意的的字符图案的相连组成部分的数量虽然在此例中对于所有错误分割评价处理采用了相同的特征值,但对于各个处理也可以采用不同的特征值。或者,各个特征值可以相对于字符串的总体特征(例如字符串的高度h)而得到归一化。
图26用于说明错误分割评价处理的原理。2601和2602所表示的,是n次Euclid空间的两个坐标轴。图案组2603是正确分割的假定的字符图案的特征F的分布,且另一图案组2604是具有错误分割假定Ei的假定的字符图案的特征F的分布。在此图中,由Wi表示的,是识别函数的加权矢量—该函数区分图案组2603和2604,且它与分隔图案组2603和2604的超平面B相交。
超平面B被表示为满足以下方程的一组F(Wi·F)=a·|Wi|其中a是从原点到超平面B的距离,Wi·F是Wi与F的内积,且|Wi|是Wi的模。
区分组2603和2604的线性识别函数的值d由以下公式给出d=(Wi·F)-a·|Wi|如果d大于0,则F属于组2604,否则它属于组2603。
Wi和a·|Wi|还可以用在Korona Co.出版的“RecognitionEngineering”,by Toriwali,ISBN4-339-01059-6,C3355,P2781E,pp.113-119中描述的方式进行估算。然而,由于Euclid空间中各个Ei的不同的分布,为线性识别函数的值pi原样地采用d的值是不适当的。考虑到这点,为pi采用了线性识别函数的以下归一化值。
pi=d/(s·|Wi|)=(Wi·F)/(s·|Wi|)-a/s其中s是包括2603和2604的组的d的方差。
因此,存储在参数字典1104中的线性识别函数的加权矢量Vi和常数ci以如下方式获得。
Vi=Wi/(s·|Wi|)ci=a/s下面将简要描述图案可信度计算处理175。图案可信度表示了对分割假设网络即字符图案上的弧的可信程度,并以如下方式估算。
图案可信度={c1·(最高等级的候选字符的类似度)-c2·p}其中p是外部形式惩罚且c1和c2是系统特有的常数。
图27是地址字典匹配过程176的流程图。该处理从前述的图案表和边界表接收一个假定的字符图案、图案可信度候选字符和类似度输入。在开始时,假定的字符图案选择处理2701选择它们的图案可信度值小于一定值的假定的字符图案。在图34A的例子中,由于字符分类的结果,字符图案
-②,
-③,等等都具有小的类似度值,因而具有小的图案可信度值。因此,这些字符图案被除去,且分割假设网络简化成为如图34B所示的。字符图案④-⑥具有大的外部形式惩罚,因而具有小的图案可信度,所以它被除去。
随后,字典匹配过程2703将字符分类产生的各个假定的字符图案的候选字符与预先存储在地址字典2704中的地址字符串相比较,并将匹配的地址字符串作为候选字符串传送。候选地址字符串分检处理2705以候选字符与候选字符串之间的匹配程度递减的顺序,重新排列候选字符串。具有较大程度的匹配的候选字符串被认为是更可信的。
图28简要显示了字典匹配过程2703。该处理从地址字典2704中选择一个地址字符串,这个地址字符串可由根据字符分类结果建立的自动机认可。为了确定自动机接受的地址字符串,采用了Marukawa等人提出的方法(The Transaction of the Institute of Information Engineers,Vol.35,No.6“Chinese character address recognitionerror correctionalgorithm”)。在图28中,框2801借助模型显示了自动机—它是由在选择假定的字符图案之后的字符分类所产生的候选字符建立的。图案之间的边界代表了状态,且从字符分类产生的一个候选字符代表了转换。各个状态得到与分割假设网络的节点号一致的编号。该自动机是借助具有与图案表相同的结构的一个表而实现的。自动机2801中的粗线表示自动机2801在地址字典2704中接收字符串2803(中住市水反町12)的路径。在自动机2801在地址字典2704中接受一个字符串的情况下,它将字符串作为候选字符串传送。匹配可信度mc是匹配处理中的转换事件的可信度tc(转换可信度)的总和值,如下所示。
mc=∑Stc转换可信度被估算如下。
tc={c1·sm-c2·p}·jm其中sm是候选字符相对各次转换的类似度,且jm是转换之前和之后的状态编号的差。
用于估算图案可信度的常数c1和c2是相同的。在图28的例子中,还接受了另一个字符串“中住市水反町11”,且它作为一个地址识别结果2802而得到传送,虽然该字符串是根据具有比前一个情况下的字符串更小的类似度的候选字符而接受的,因而它具有较小的匹配可信度。
图29显示了取样收集工具的一个例子,该工具被用来收集供参数字典2404学习的样品,其中参数字典2404被用于图24所示的错误分割评价处理2401。在此图中,2901表示的是一个CRT屏幕,且2902表示一个用于显示字符串图象的窗口。在显示在该窗口的字符串中,以不同的颜色显示了目前注意的字符图案(在图中由实图象表示)。观看窗口2902中的该图象的操作者,判定该图案是否得到了正确的分割。在发现了不正确的分割时,操作者标明图23中显示的错误分割的类型,并用光标2904指向显示在面板2903上的相应键。响应于操作者的按键操作,取样收集工具将所注意的的图案的特征值存储在错误类型的文件中,并在窗口2902中显示另一个字符图案。
图30是图24中的参数字典2404的学习过程的流程图。取样收集工具3002利用预先收集的地址线图象数据库(DB)3001来产生正确的分割图案数据库3003和不正确的分割图案数据库(3004、3005等等)—后者与图23的不正确分割假定的图案数据库E1至E7相对应。学习工具3006接收正确分割图案数据库3003和有关E1的不正确分割图案数据库3004的数据,并以结合图26说明的方式估算加权矢量V1和常数c1,并将这些值传送给参数字典3008。类似地,该处理采用其他的学习工具(3007等等)来估算各不正确分割图案数据库(3005等等)的加权矢量Vi和常数ci,并将这些值传送到参数字典3008。
图31显示了参数字典的表结构。表的各个记录pdici包含与Ei对应的参数Vi和ci。例如,表的第一个记录pdic1 3103包含V1和c1,且从顶部数的第i个记录3104包含Vi和ci。参数ci和Vi分别被存储在各个记录的字段3101和3102中。
图32显示了外部形式惩罚计算处理的次序。第一个步骤3201变量p初始化为0。随后的步骤3203和3204得到重复,同时控制环3202中的变量i递增。步骤3203开始了错误分割评价处理,且步骤3204将错误分割评价的结果pi加到p上。步骤3208将变量p作为外部形式惩罚传送。步骤3205和3206是错误分割评价子程序。步骤3205将从参数字典读出的ci的(pdic i·c)值代入变量pi。步骤3206是用于估算从特征提取产生的F与从参数字典读出的Vi的内积的控制环。具体地,Vi的(pdici·vj)值和F(fj)的值的积被加到pi,同时在变量j达到特征的阶数之前递增j。
权利要求
1.字符读取方法,它通过将书写表面的图象信息转换成电信号并读取包括在该图象信息中的字符串的字符,所述方法包括第一步骤,用于定位图象信息的电信号中的字符串描述区,并将字符串区中的字符串的图象信息分割成多个假定的字符图案;第二步骤,用于通过访问一个字符分类字典来实施假定的字符图案的字符分类,从而为各个假定的字符图案获得多个识别候选字符;第三步骤,用于获得假定的字符图案的边界信息;第四步骤,用于通过利用在所述第二步骤中获得的识别候选字符作为关键字而访问一个包含边界信息的分割字典从而获得在所述第三步骤中获得的假定的字符图案的边界信息的可信度,并对该假定的字符图案进行加权;第五步骤,用于根据假定的字符图案的加权来确定字符分割;以及第六步骤,用于根据从第五步骤中确定的假定的字符图案所产生的一组分类的字符种类并通过利用字符分类字典而实施字匹配,并标明字符串的字符。
2.根据权利要求1的字符读取方法,其中假定的所述周边信息包括竖向长度、水平长度、竖向/水平长度比、图案间隔和字符图案的相连组成部分的数量中的至少一个,且其中所述分割字典包含各个字符的竖向长度、水平长度、竖向/水平长度比、图案间隔和相连组成部分的数量中的至少一个的似然分布的信息,且其中所述第四步骤中分割字典的所述访问关键字是从字符分类产生的候选字符的字符种类。
3.根据权利要求1的字符读取方法,其中所述第四步骤包括产生和修改分割字典的步骤,所述产生/修改步骤包括在一个显示装置的屏幕上显示所要识别的字符串的输入图象、假定的字符图案、和从假定的字符图案的字符分类产生的候选字符的步骤;通过利用在显示装置的屏幕上的显示来修改分割字典的步骤;以及,在屏幕上以图形的方式显示字符串识别处理的状态的步骤。
4.邮政地址读取方法,包括第一步骤,用于将包含着具有城镇名称部分和街道号码部分的字符串信息的图象信息转换成电信号;第二步骤,用于确定图象信息的电信号中的字符串描述区的位置,并提取形成字符串描述区中的字符的相连图象组成部分的组合,作为假定的字符图案;第三步骤,用于通过访问字符分类字典而对于各个假定的字符图案实施字符分类,从而获得识别候选字符和假定的字符图案与识别候选字符的类似度;第四步骤,用于形成识别候选字符所组成的格子,将格子与城镇名称字典进行匹配从而识别假定的字符图案中的城镇名称部分的字符串,并检测街道号码部分的开头位置;第五步骤,用于根据在所述第四步骤中获得的开头位置的信息,提取与街道号码部分中的假定的字符图案的识别候选字符相对应的假定的字符图案的周边信息,并对该假定的字符图案进行加权,以利用该识别候选字符作为关键字,通过访问包含周边信息的似然性的分割字典,而估算假定的字符图案的周边信息的可信度;第六步骤,用于根据加权而将街道号码部分分割成字符;以及第七步骤,用于对所述第六步骤中产生的一组字符分类结果进行与街道号码字典的字匹配,从而识别街道号码字符串。
5.根据权利要求4的邮政地址读取方法,其中所述第二步骤包括从提取的字符串的顶部和末端提取字符并根据提取的字符图案的分类来鉴别是竖向书写形式还是水平书写形式。
6.根据权利要求4的邮政地址读取方法,其中所述图案周边信息包括字符图案的竖向长度、水平长度、竖向/水平长度比、图案间隔和相连组成部分的数量中的至少一个,且其中所述分割字典包含各个字符的字符图案的竖向长度、水平长度、竖向/水平长度比、图案间隔和相连组成部分的数目中的至少一个的似然分布的信息,且其中所述第五步骤中识别候选字符的访问关键字是分割字典中的字符。
7.根据权利要求4的邮政地址读取方法,其中所述第五步骤包括产生和修改分割字典的步骤,所述产生/修改步骤包括在一个显示装置的屏幕上显示所要识别的一个地址字符串的输入图象、所述字符图案和从该字符图案的字符分类产生的候选字符的步骤;通过利用在显示装置的屏幕上的显示来修改分割字典的步骤;以及,在该屏幕上以图形的方式显示地址字符串识别处理的状态的步骤。
8.利用邮政地址读取设备读取字符的方法,该邮政地址读取设备具有用于将书写表面上的图象信息转换成电信号的装置和读出书写在该表面上的字符串的图象的装置,所述方法包括第一步骤,用于从图象的电信号提取字符串的信号;第二步骤,用于从字符串的信号提取被认为构成一个字符的假定的字符图案,或者在不能唯一地确定假定的字符图案的情况下提取多个假定的字符图案;第三步骤,用于对提取的假定的字符图案进行字符分类;第四步骤,用于根据假定的字符图案的聚类来计算外部形式惩罚并根据可能类型的字符分割错误来评价周边信息;以及第五步骤,用于根据所述第三步骤的字符分类结果和在所述第四步骤中计算出的外部形式惩罚来限定假定的字符图案的候选者,并进行候选字符图案与预先存储在一个字典中的字符串的匹配—该字典包含可能被书写在书写表面上的字符串,从而识别书写在书写表面上的字符串。
9.根据权利要求8的字符读取方法,其中书写在书写表面上的所述字符串是表示邮政地址的字符串,且其中包含可能被书写在书写表面上的字符串的所述字典包括其中描述邮政地址的一个字典。
10.根据权利要求8的字符读取方法,其中所述第四步骤利用了鉴别正确分割的假定的字符图案和错误分割的候选图案的识别功能。
11.根据权利要求10的字符读取方法,其中所述识别功能之一将各个假定的字符图案与相邻图案的间隔作为一种特征值。
12.根据权利要求10的字符读取方法,其中所述识别功能之一处理各个图案中的间隙。
13.根据权利要求10的字符读取方法,其中所述第四步骤的所述识别功能是以包括以下步骤的方法产生的用于从字符串的图象提取被认为构成一个字符串的假定的字符图案或者在假定的字符图案不能被唯一确定的情况下提取多个假定的字符图案的步骤;输入关于假定的字符图案是否被正确分割的信息的步骤,其中在错误分割的情况下对于分割错误的类型得到人工分检;通过根据所述不正确分割判定步骤的结果对假定的字符图案进行分检而将假定的字符图案存储在一个存储器的步骤;以及通过利用由所述图案存储步骤存储在存储器中的假定的字符图案实施分类装置的学习的步骤g。
全文摘要
一种字符读取方法具有改善的字符分割精度和字符串识别精度,以正确地读取邮件上的手写地址。该方法从地址字符串的图象信息提取省字符图案(步骤206),产生假定的字符图案表219并实施假定的字符图案的字符分类(步骤207),提取—特别是对地址字符串的街道号码部分—假定的字符图案的周边信息(竖向和水平长度、竖向/水平长度比、图案间隔等等)(步骤212),并根据该信息将字符串准确地分割成字符(步骤215)。
文档编号G06K9/80GK1158465SQ9612154
公开日1997年9月3日 申请日期1996年12月13日 优先权日1995年12月13日
发明者影広达彦, 古贺昌史, 酒匂裕, 藤泽浩道, 绪方日佐男, 嶋好博, 渡边成, 寺本正人 申请人:株式会社日立制作所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1