识别手写字符的方法和设备的制作方法

文档序号：6409138阅读：146来源：国知局

专利名称：识别手写字符的方法和设备的制作方法
技术领域：
本发明涉及一种识别手写字符的方法及设备，更具体一点讲，一种识别手写朝鲜文字(一种朝鲜语手写体)的方法和设备。
光字符识别(OCR)是指一种通过扫描器识别对应于一个文件图象输入中字符区域内容的技术。光字符识别技术的研究和开发可看成围绕下列两种情形中的一种进行识别印刷字符和识别手写字符。识别印刷字符的技术已有显著发展。然而，由于若干非特定写作者和一已知写作者的特定书写的不规则变化导致手写字符的无数变动，因而很难制成一种识别手写字符的设备。
几种有代表性的识别手写字符的方法包括模板匹配法、近邻分类(NNC)法、结构法、人造神经网络法和应用隐藏马尔可夫模型。然而，由于上述方法中的大多数只是针对数字或英文字母，而它们所含的需要识别的特定字符较少，因而很难将这样的方法直接应用到朝鲜文。因而，目前正趋热门的关于识别手写中文字符和/或阿拉伯数字的研究便采用多种方法并用的方式进行。参阅1983年版英文书《模式识别》第26卷第2期第205至225页中由T.H.Hildebrandt和W Liu写的“手写汉字的光识别1980年以来的进展”一文，以及1991年由世界科学出版公司(World Scientific PublishingCompany)出版并由P.S.P.Wang编辑的《字符和手写体识别扩展领域前沿》第221至264页中的由E.Cohen，J.J.Hull及S.N.Srihari撰写的“理解结构环境中的手写体文本由地地来确定邮政编码”一文。
近邻分类(NNC)法是一种模式识别方法，即在随意获取有限个识别目标字符中的若干个代表值后，对应于与自输入字符模式中选取的特性值最接近的那个代表值的字符或字符群现在识别输入字符模式时被找出。一般说来，由于近邻分类法易实现、适应性强且就处理速度来讲表现卓越，因而该方法可有效地应用于由许多目标识别字符组成的朝鲜文或汉字的识别。
到目前为止，大多数已知用来识别朝鲜文的设备和方法只局限于一完整的印刷字符集成或字符组分分开的字符，即起始、中间和未音分开写(和读)而无任何关联，或“筛姆”(Saem-mul)字符，即起始和中间音与末音在垂直方向上分开。另外，由于并非所有朝鲜标准字符集中的字符(2350个字)被用作识别目标而只有100到1000个常用字符被选作识别目标，因而在通常情况下难以应用传统方法和设备。
由于通用朝文字符的数目(2350)太大且各人所写的字的外表各有不同，因而应用传统方法很难制成一种可靠的识别设备。因此，一种新的识别方法便成为必要。
为了解决上述问题，本发明的一个目标便是提供一种识别性能优异的识别手写朝文的方法和设备。
为实现上述目标，本发明特提供一种方法，其步骤有将字符图象作为一I×J尺寸块接收；应用统计方法计算一个由有限个坐标构成的特性矢，以此作为对应于输入字符图象的一个特征；在对应于识别目标字符的代表矢集中寻找一个与所算得的特性矢最相似的代表矢；获得一个对应于所找的代表矢的字符和一与此字符相关的候选字符群；和经一神经网络将所得到的候选字符群中的一个字符作为最后的识别结果输出，而其中的神经网络是通过使用由有限个坐标构成且对应于候选字符群的字符图形的特性矢排列而成的。
本发明所述的设备包括一个将手写文件图象数字化为二进制图象的输入部分；一个将所输入的二进制图象分割以及以一个字符为单位输出的预处理部分；一个存储候选字符群的候选字符群存储器，其中每一个字符群代表一识别目标字符且由包括该识别目标字符在内的若干候选字符组成；一个存储所有对应于所有识别目标字符的代表矢存储器；一个粗分类部分，用来获取经预处理部分输入的字符图形的特性矢，寻找与来自代表矢存储器的所得到的特性矢最接近的代表矢，及寻找对应于所找到的代表矢的识别目标字符和来自候选字符群存储器的含该识别目标字符的相关候选字符群；一个由所有神经网络组成的神经网络存储器，其中每一神经网络对应着存储在候选字符群存储器中的每一候选字符群；和一细分类部分，用来从通过存储在神经网络存储器中的相应神经网络在粗分类部分中找到的候选字符群中识别一个字符，并用来向预处理部分施加一个控制信号以提供拟以同样方式加以识别的下一个字符。
根据本发明，由于其方法包括用模权匹配法从输入手写字符图形中构造一个较小的识别目标字符集，即候选字符群，及经已知对小识别目标字符集表现出优异性能的神经网络将所寻找的候选字符群的一个字符作为最后识别结果输出，因而有可能对不受限制的手写朝文加以完整识别。
上述本发明的目标和优点将在详细描述一优选实施例并参照附图的变得显而易见，附图中

图1系根据本发明所述的手写字符识别系统的方框图；图2A和2C系说明在图1的粗分类部分中进行的自输入字符图象中抽取特性这一过程的示意图；图3系说明图1的粗分类部分和细分类部分两者都涉及到的识别目标字符的候选字符群的建造的示意图；图4系说明在细分类部分中进行的自输入字符图象中抽取水平和垂直方向上的特征这一过程的示意图；图5系说明神经网络存储器中的神经网络结构的示意图；而图6则系说明根据本发明的一优选实施例所述的手写字符识别的结果的一个例子的示意图。
根据本发明的方法，先输入一具有I行和J列的I×J字符图象；作为一个对应于输入字符图象中的图形的特性，一个由有限个坐标构成的特性矢随后通过应用统计方法算出；接着在对应于识别目标字符的代表矢集内寻代一个与所计算的特性矢最接近的代表矢；再接着获得一对应于所找代表矢的识别目标字符和一与该字符相关的候选字符群；最后，在所得到的候选字符群中将一个字符经由对应于候选字符群的神经网络作为最后识别结果输出。
图1便是根据本发明所述的手写字符识别设备的方框图。
图1中的设备包括一个通过经一个扫描器将手写文件图象数字代为二进制图象来接收该手写文件图象的输入部分10；一个将经输入部分10输入的二进制图象分割以该以一个字符为单位输出的预处理部分20；一个存储与识别用标字符有关的候选字符群的候选字符群存储器30；一个存储对应于单个识别目标字符的单个代表特性矢的代表矢存储器40；一个粗分类部分50，用来获取经预处理部分20输入的字符图形的特性矢，寻找与来自代表矢存储器40的所得特性矢最接近的代表矢，及寻找对应于所寻找的代表矢的识别目标字符和与来自候选字符群存储器30的识别目标字符相关的候选字符群；一个由所有对应于存储在候选字符群存储器30加的所有候选字符群的神经网络组成的神经网络存储器60；和一细分类部分，用来从通过存储在神经网络存储器60中的相应神经网络在粗分类部分50中找到的候选字符群中识别一个字符，和向预处理部分20施中一个控制信号以提供拟以同样方式加以识别的下一个字符。这个过程不断重复直到所输入的文件中的所有字符都得到了识别。
输入部分10由一象图象扫描仪或计算和控制显示摄像机(CCDCamera)这样的图象待取设备组成，并通过将图象转化成二进制图象中计算机可读的数字图形来接收手写文件的图象，其中字符区被数字化成黑点而背影则被数字化成白点。
预处理部分20将由输入部分10产生的输入图形中的干扰组分除去，以后只有字符图形留下并分开每一“汉哥”字符以便以一个字符为单位输出。为了简化预处理部分的建造，希望一幅画或说明书中不含手写字符的那部分区域使用不会被输入部分10的图象待取设备检测到的漏失(drop—out)颜色来印刷。
粗分类部分50通过下述方法计算由预处理部分20输入的输入字符图形的特性矢。
作为与字符图形有关的粗分类的一个特性，一个由有限个坐标构成的矢量通过统计方法算出。为了得到特性矢，一个含I行和J列的I×J输入图象被划分成M×N个小格(其中，I≥M，J≥N，且I，J，M和N为自然数)。这里，一个非线性方法被用来解决由不同写作者引起的字符外观变动问题(参阅1983年版《图形识别通信》第一卷第475至479页中由Y.Yamashita，K.Higuchi，Y.Yamada和Y.Haga撰写的“手印汉字字根据结构区段匹配法的分类”一文)。也就是说，输入图象被分成M个垂直的条。这里，每一个条内的黑色素的数目相等。因此，当输入图象再分成N个水平的条时，便得到M×N个小格子。每格里的两个特性值，即一个垂直分量值Fv和一个水平分量值FH由下式放得Fv＝Bv/BP和FH＝BH/BP，式中，BP是输入图象内黑色素数，Bv是每格内属于垂直方向分量的黑色素数，而BH则是每格内属水平方向分量的黑色素数。
这里，垂直和水平方向分量由运行(run)群组成，每一运行群含若干个这样的运行(一行扫描线中连续的黑色素)，即在若干垂直和水平方向的运行中其长度均大于一阈值T的那些运行阈值T根据一给定字符中的笔划的厚度W来予以动态地设定。例如，阈值T可设为字符笔划厚度的2.5倍。字符笔划厚度W用多式W＝BP/(BP—WP)来计算，其中BP为输入图象内黑色素的数目，而WP则是下述黑色素的数目，即其在一与色素列成一行的2×2窗口内的三个邻近色素也是黑色的。一个根据本发明所述的自输入字符图象中获取2MN个特性值的优选实例在图2A至2C中得到说明。还有，对于旋转了45°的输入图象图形，新的2MN个特性值可应用与上述相同的方法计算出。从旋转了的图象中抽取的水平和垂直分量对应于原图象的对角线上的分量。结果，便需计算含4Mn个值的特性值。
代表矢存储器40存储单个识别目标字符的代表特性矢，这样的字符对于手写朝文来说共有2350个，而这些代表特性矢中的每一个是通过对一识别目标字符的样品图形的所有特性矢取平均得到的。所列样品越多，通过上述平均所得到的代表矢也就越可靠。
粗分类部分50在存储在代表矢存储器40里的代表矢集中寻找一与自输入字符所得的特性矢最相似的代表矢。自输入字符图形中抽取的一个特性矢V与代表矢集中的一个代表矢Mi之间的相似性Si用在分布有这些特性值的空间中的距离来度里，并可表述为SiΣj1n|vj-mi|j]]>式中V＝(V1，V2，V3，…，Vn)，Mi＝(mi1，mi2，Mi3，…min)，n＝4MN，而1≤i≤2350。由此可见，Si较小时两矢量的相似性较大。基于此事实，可获得具有最高相似性的代表矢。
候选字符群存储器30存储识别目标字符的候选字符群，而候选字符群则根据下述方法确定。为了确定候选字符群，可使用由于与练习样品的模板匹配而产生的混同矩阵。假设一字符Cj而不是Ci偶尔被包括进由模板匹配识别为特定字符Ci的若干字符出中。如图3所示，由于字符“亻卜“和“ス卜”的某些练习样品的与字符“フ”的代表矢的相似性比起与对应于每个字符(“亻卜“和“ス卜”)的代表矢要高，因而这些字符会被错误地识别为“フ卜”。有关该错识字符的信息由每个字符收集，然后，这些字符被按照频率顺序排列，并在错识字符当中选出一些具有较高频率的字符，以便Ci的候选字符群可以建造出来。结果，先前建造的候选字符群便被存储在候选字符群存储器30中。根据本发明的一个优选实施例，正确识别率，即对于一给定样品字符图形的识别目标字符被装在由模板匹配发现的候选字符群中的概率在99％以上，而每一字符群的大小则被限制在20个字符或少一些。
如上所述，粗分类部分50获得一个输入字符图形的特性矢并在代表矢存储器40中寻找与所得特性矢最相似的代表矢。再有，可利用候选字符群存储器30完成寻找对应于所选代表矢的字符及含比字符的相关候选字符群。
神经网络存储器60存储从由粗分类部分找到的候选字符群中最后寻找一个字符的若干神经网络，且每一神经网络以如下方式建造。
首先，由有限个坐标构成的矢量作为神经网络的与字符图形有关的一个特性被用统计方法计算出。为了抽取在神经网络中所用的特性，象在粗分类部分50中的特性矢的情形那样，字符图形沿水平和垂直方向被非线性地分成N×M个格子。此后，对每一色素获得水平黑色素运行与垂直黑色素运行的比质以该计算格子特性值。抽取在神经网络中所用的特性的优选实施例在图4中有说明。首先，字符图形沿水平和垂直方向被非线性地分成N×M个格子，从而得到穿过黑色素Px，y的水平和垂直运行的长度RLHx，y和RLVx，y(o≤x≤w和o≤y≤H，其中w为字符图形的宽度，H为字符图形的高度)。然后，显示在Px，y处沿水平和垂直方向的贡献程度的DCHx，y和DCVx，y由下式算得DCHxyRLHxyRLHxy′RLVxy]]>DCVxyRLVxyRLHxy′RLVxy]]>
最后，一个2(N×M)维特性矢可由相对于在外线性分成的N×M个格中存在的所有黑色素的DCHx，y和DCVx，y的平均值计算出。此外，新的2(N×M)维特性矢可通过应用上述方法于白色素算出，从而获得一个4(N×M)维特性矢。
在本发明中所采用的神经网络的构造如图5所示。这里，输入节点数为4(N×M)，对应于自输入字符图象中抽取的特性值的数目。而且，一输出层由与识别目标字符数一样多的节点组成，且中间节点数为输出节点数的两部另加1。这里，一个改错节点用于输出和中间层的每一个。一个使用图5的神经网络识别手写朝文字符的优选实施例如图6所示。
神经网络存储器60由上述神经网络组成。这里，神经网络存储器中的神经网络的数目与候选字符群存储器内的候选字符群的数目相同，因而也与识别目标字符数相同。神经网络可以通过与属于相关候选字符群的样品一起学习来增加识别程度。
细分类部分70自对应于在粗分类部分50中找到的输入字符图形的候选字符群中最后找出一个字符，从而识别手写字符。识别完后，一个控制信号被提供给预处理部分20，以便下一个拟被识别的字符图形被提供至粗分类部分50。
根据本发明，对应于一完整的含2350个朝文字符集或其P分集的手写字符被用作一个识别目标。为了测验本发明的方法和设备的效能，可建一个将990个最常用朝文字符用作受验对象的识别系统。该系统的组成部发包括990个7×7×4维代表矢、990个候选字符群(其中的每一个平均由5.7个候选字符组成)、990个平均尺寸为(7×7×4)×12.4×5.7的神经网络、输入部分、预处理部分、粗处理部分和细处理部分。作为一个实验，在这个建造的系统适应了69300个字符，即对应着一共99000个手写字符数据字符的70％之后(参见刊载在1993年版《第二届文件分析和识别目标会议会刊》(日本Tsukuba)第470至473页上的由D.H.Kin和S.Y.Bang撰写的“手写朝鲜语字符图象数据库PE92”一文)，余下的29700个字符被决定由该系统来识别。结果，发现正确识别率为90％。
根据本发明的识别手写朝文字符的方法和设备，用任何书写工具写在任何表面上的朝文字符可以自动得以识别。因此，大量书写的信息可被自动输进计算机或大量邮件可被自动分类。因此，依赖手工操作的工作，如将现存文件的内容和新信息输进计算机，可实现自动化，从而可在时间、劳力和财力方面创造巨大效益。
权利要求
1.一种由下述步骤组成的识别手写字符的方法，包括下列步骤将一个字符图象作为大小为I×J的尺寸块或来接收；应用统计方法计算一个由有限个坐标构成的特性矢，作为对应于所述输入字符图象中的图形的一个特性；在对应于识别目标字符的代表矢集内寻找一个与所述计算出的特性矢最相似的代表矢；获得一个对应于所述寻找到的代表矢的字符及与该字符相关的候选字符群；和通过神经网络将所述获得的候选字符群中的一个字符作为最后识别结果输出，而其中的神经网是通过使用由有限个坐标构成的对应于所述候选字符群的字符图形的特性矢排列而成的。
2.一种根据权利要求1所述的识别手写字符的方法，其中所述计算所述特性矢的步骤包括下述步骤(a)将会I行和J列的I×J输入图象分成M个垂直条和N个水平条，从而形成N×M个非线性分出的格子，其中I≥M，J≥N，并I，J，M和N均为自然数；(b)对每一个分出的格子应用下列方程Fv＝Bv/BP和FH＝BH/BP来计算垂直方向分量值Fv和水平方向分量值FH的总线为2MN的特性值，式中，BP为输入图象内的黑色素数，Bv为每一格子内属于垂直方向分量的黑色素数，而BH则为每格内属于水平方向分量的黑色素数；(c)通过将所述步骤(a)和(b)应用于一个旋转了45°的输入图象图形可计算2MN个新特性矢；和(d)将与所述垂直、水平和对角线有关的4MN个特性矢作为输入字符图形的特性矢来提供。
3.一种根据权利要求2所述的识别手写字符的方法，其中所述垂直和水平方向分量为由在若干垂直和水平方向的黑色素运行中其长度比阈值T为大的那些运行所组成的运行。
4.一种根据权利要求3所述的识别手写字符的方法，其中所述阈值T是根据一个W的因子来动态地获得的，这里W为要识别的字符的笔划厚度。
5.一种根据权利要求4所述的识别手写字符的方法，其中所述字符笔划厚度W由式W＝BP/(BP—WP)来计算，式中BP为输入图象内的黑色素数，WP为其在一个与色素排成钉的2×2窗口中的三个邻近色素也为黑色的黑色素的数目。
6.一种根据权利要求1所述的识别手写字符的方法，其中所述候选字符群通过下述步骤来构造收集有关识为字符Ci的错识字符Cj的信息，其中的错误是由于Cj的特性矢与Ci的代表矢之间的距离小于Cj的特性矢与Cj的代表矢之间的距离造成的；将错识字符按频率顺序排列；并在错识字符中确定出一些高频率的字符作为Ci的候选字符群。
7.一种根据权利要求1所述的识别手写字符的方法，其中计算所述神经网络的输出的特性矢是通过下列步骤来计算的(a)将字符图象划分成N×M个沿水平和垂直方向的格子；(b)获得穿过黑色素Px，y的水平和垂直运行的长度RLHx，y和RLVx，y，其中o≤x≤W，o≤y≤H，这里，W为字符图象的宽度而H则为其高度；(c)应用下列公式计算表示在Px，y处理水平和垂直方向的贡献程度的DCHx，y和DCVx，yDCHxyRLHxyRLHxy′RLVxy]]>DCVxyRLVxyRLHxy′RLVxy;]]>(d)根据相对于落在经非线性分开的N×M个格子内的所有黑色素的DCHx，y和DCVx，y的平均值计算2(N×M)维特性矢；和(e)通过将所述步骤(a)到(d)应用于白色素计算出新的2(N×M)维特性矢，从而获得一个4(N×M)维特性矢。
8.一种识别手写字符的设备，包括一个将手写文件图象数字化为二进制图象的输入部分；一个分割所输入的二进制图象以便以一个字符为单位来输出的预处理部分；一个存储候选字符群的候选字符群存储器，其中每一个候选字符群代表每一个识别目标字符且由包括识别目标字符在内的若干候选字符构成；一个存储所有对应于所有识别目标字符的特性矢的代表矢存储器；一个粗分类部分，用来获得经由所述预处理部分输入的字符图形的特性矢，寻找与来自所述代表矢存储器的所得到的特性矢最相似的代表矢，及寻找对应于所找到的代表矢的识别目标字符和来自所述候选字符群存储器的含该识别目标字符的相关候选字符群；一个由所有神经网络组成的神经网络存储器，其中每一神经网络对应着存储在所述候选字符群存储器中的每一候选字符群；和一个细分类部分，用来从通过存储在所述神经网络存储器中的相应神经网络在所述粗分类部分中所找到的候选字符群中识别一个字符，并用来向所述预处理部分施中一个控制信号以提供下一个要识别的字符直到输入文件图象中的所有字符都得到了识别。
全文摘要
一种识别手写朝鲜文字符的方法包括下列步骤将一个字符图像作为一个I×J的尺寸块来接收；应用统计方法并根据输入字符图像计算一个由有限个坐标构成的特性矢；在对应于识别目标字符的代表矢集内寻代一个与所算得的特性矢量相似的代表矢；获得一个对应于所找到的代表矢的字符及与该字符相关的候选字符群；和通过神经网络将所得的候选字符群中的一个字符作为最后识别结果输出。
文档编号G06K9/66GK1118902SQ9510777
公开日1996年3月20日申请日期1995年6月28日优先权日1994年8月17日
发明者金寿衡, 都鼎仁, 金俊镐, 李相奎申请人:三星电子株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金寿衡;都鼎仁;金俊镐;李相奎
技术所有人：三星电子株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。