一种金融ocr系统手写体数字串的软切分方法

文档序号:6442842阅读:356来源:国知局
专利名称:一种金融ocr系统手写体数字串的软切分方法
技术领域
本发明属于OCR技术领域,涉及一种手写体字符串的切分方法,该方法可以通过对数字图像中笔划进行模糊特征抽取,并映射到特征片段集,在此基础上形成候选的切分假设和计算出最优的切分结果。
背景技术
目前OCR已成为多种系统的核心技术,得到广泛的运用并涉及从金融、政府、图书馆到电力、企事业单位等众多行业领域,如文档影像识别系统(包括文档录入、搜索、管理等)、办公室自动化的文本输入、邮政编码自动分拣系统、文档自动分类系统、车牌自动识别系统、票据自动处理系统等。一个完整的OCR系统一般需要以下几个步骤倾斜图像的调整、版面分析和版面理解、字符串切分、字符识别以及必要的后处理。在上述OCR技术体系中,字符串切分技术一直是OCR应用软件研究的热点和难点。字符切分技术主要解决字符间位置关系的四种形式,即孤立、粘连、交错以及交叠孤立是指字符之间各自分开,独立成为整体;粘连是指两字符笔划有一处或多处接触;交错是指两字符在水平方向上的投影有重叠,但字符间没有实际的粘连;交叠是指两字符共享某一块像素区域,即所谓的共用笔划。由于笔划相互粘连是造成手写数字串切分困难的重要原因,而对粘连字符识别不准确是产生识别错误的主要原因,现阶段研究对此展开。本发明的研究基础主要包括以下三个方面(1)图像预处理。字符图像的预处理是字符分割和识别的前提和基础,主要针对采集脱机手写字符过程中存在的干扰信号,如纸张本身带有的污点或扫描设备性能问题等, 特别是由于书写时用力不均、字体潦草等造成的字符笔划断裂和粗细不均,进行图像的规整和优化,从而避免影响切分和识别的效果。图像预处理技术通常包括图像平滑滤波技术、 二值化技术等。(2)主曲线分析。主曲线是通过数据分布“中间”并满足“自相合”的光滑曲线,曲线上的每一点是投影至该点的数据点的条件均值。主曲线的理论基础是寻求嵌入高维空间的非欧氏低维流形,继承了主成分分析的众多思想,是线性主成分的非线性推广,能够真实地反映数据的形态,即曲线是数据集合的“骨架”。主曲线具有对数据信息保持性好的优点, 可以在图像细化过程中最大限度地保护特征细节不丢失和细化图谱的光滑性。(3)分类器组合和置信度修正。多分类器组合是设计一个高性能,且稳定的手写体数字识别器的有效途径,一定程度上克服了导致分类器性能不佳的三类原因单特征对字符本质反映不全面;噪声等因素的影响,导致特征对字符描述的不稳定;不同类型分类器对特征变化的敏感性和稳定性不同导致单分类器性能下降。一般认为,不同性质的特征往往描述字符模式的不同方面,在一种特征空间很难区分的两种模式可能在另一种特征空间上很容易分开,而对应于同一特征的不同分类器又从不同的角度(基于概率或最近距离等)将该特征映射到结果集合上,因此往往使用后验概率对分类器组合的置信度进行修正。

发明内容
本发明针对无限制手写体数字串的切分问题,提出了一种基于识别的切分方法。 将数字串看成数字笔划的集合,依据主曲线分析抽取数字笔划。为克服抽取笔划的不规则和集合存在冗余的缺陷,提出了适于数字笔划处理的模糊规则对抽取笔划进行分裂、合并和筛选,生成适合笔划组合的笔划集合。候选切分假设依据笔划组合过程生成,文中将笔划集合中各笔划在水平方向上进行排序形成笔划序列,从而通过划分笔划序列为子序列集的方式生成候选切分假设,每个子序列对应于一个字符模式。在此基础上使用组合分类器对各子序列进行识别输出,生成最优的切分假设作为切分结果输出。总体结构见图1。


图1总体流程框图。图2是图像预处理的平滑窗口模板。图3是笔划模糊特征对应的模糊函数取值。图4是笔划分裂点遍历的示意图。图5是笔划组合及识别的示意图。图6是笔划组合步骤的一个典型示例图。
具体实施例方式(1)图像预处理由于在图像采集过程中噪声干扰不可避免,容易造成一些孤立小块或字符边缘出现不规则的锯齿和噪声,因此经Otsu 二值化后的字符图像还不能直接使用。针对字符笔划上的毛刺、凹陷以及孤立噪声点,首先以字符图像的平均笔划宽度为依据对图像进行滤波处理,但要避免平滑掉过细的笔划部分,然后逐行扫描二值字符图像,并依据给定大小窗口内的图像结构细节修改中心像素值,以便剔除笔划上的毛刺、填平笔划上的凹陷或内孔,并抑制或消除噪声对字符切分的影响。采用的窗口模板大小为3X3(如图2(a) (e)),其中模板TO用来去除孤立噪声点;模板Tl T4(分别为Tl旋转0°、90°、180°、270°的结果,其余依此类推)、Τ5 Τ8 用以去掉笔划边缘上的毛刺;模板Τ9 Τ12、Τ13 Τ16用以填充笔划中的小孔和凹陷。(2)主曲线分析及笔划抽取采用推广的多边形(PL)主曲线算法提取字符骨架完成笔划抽取的过程。多边形线算法的基本运算法则是首先确定一条直线段,然后在循环算法中通过不断加入新的顶点来增加线段的数量。在加入一个新的顶点以后,所有的顶点位置在一个内部的环中被更新。 扩展了的算法包含了实现分段线性骨架的两个原则,一种获取字符图像近似轮廓的初始化方法和一系列用来改善由初始化方法获得的骨架结构质量的更改结构工作。字符骨架由一组控制点集和曲线集合构成。各段曲线的端点分为特殊结构点,分为端点、三分叉点和多分叉点3类,构成初始笔划集合。初始笔划集合中存在笔划碎片以及特殊笔划。笔划碎片通常由噪声干扰形成, 需要剔除;特殊笔划往往包含较长的横向笔段或较大曲率的笔段,需要予以分裂,分裂的规
4则为使用轮廓跟踪算法提取笔划轮廓的八链码,首先求出链码的切向序列,然后对切向序列进行滤波后求差分,并计算出曲率序列再与最长子序列进行比较,若最长子序列对应的曲线段的长度与字符高度相比较大,且切向方向均值小于η/4,则予以断裂。(3)模糊特征计算本发明将手写体数字笔划的模糊特征分为笔划固有特征和关系特征两类1)笔划固有特征。手写体数字的笔划组成比较简单,其所包含的笔划片段可以分为直线片段与曲线片段两大类(表1),直线片段按照倾斜程度可以分为四类,即竖直片段(如直写的“1”)、 横向片段(如“7”的上部)、正斜片段(如“9”的下部)和反斜片段(如“3”的中段);曲线片段按照口径方向可以分为五类,即A型弧(如“0”的上半部)、U型弧(如“0”的下半部)、C型弧(如开口 “8”的左上部)、D型弧(如“3”的上、下部)和0型弧(如“9”的上部)。相应的模糊特征(表幻反映了笔划段与对应特征片段的相似程度,具体包括直线特征MSTR、水平特征MHL、正斜特征MPS、反斜特征MNS、弧线特征MARC、A型弧MAL、U型弧特征MUL、C型弧特征MCL、D型弧特征MDL、0型弧特征M0L。2)笔划关系特征。笔划关系特征反映了笔划间的粘连或交叠程度,以及笔划本身在图像中所占的比重。相应地主要考虑M0P、MLEN这两类关系特征,其中MOP用以描述相邻笔划在水平方向的重叠程度,MLEN用以描述笔划长度。表1特征片段
权利要求
1.一种金融OCR系统手写体数字串的软切分方法,其特征在于在字符细化图像基础上,将数字笔划特征归纳为四种直线特征,以及五种弧线特征,使用直线、曲线两类特征片段对数字笔划进行拟合和抽象,并针对上述特征定义了相应的模糊特征隶属度。
2.根据权利要求1所述的一种金融OCR系统手写体数字串的软切分方法,其特征在于 针对数字笔划集合中存在的各种问题,如笔划冗余、笔划断裂、过渡笔划和共用笔划引起的粘连,从笔划分裂、笔划合并以及笔划删除三个方面着手,提出笔划处理的五个模糊规则, 提高切分和识别的效果的同时降低字符串切分的复杂度。
全文摘要
一种金融OCR系统手写体数字串的软切分方法,金融票据的自动识别处理实现票据的自动输入与复核,将图像处理、版面分析和智能识别的全过程无缝地整合起来,包括对票据图像自动分类,对票据进行图像预处理,对票据中要素进行识别、监察和校对等。OCR技术是金融票据自动识别处理系统中最核心的部分,对于票据要素的自动处理需要将连写的字符串切分为单个的字符,并进行字符识别。现阶段字符识别器的准确率比较高,因此OCR系统的整体识别率取决于字符串切分的正确率和可接受度。本发明要解决的技术问题就是基于模糊模式识别理论实现粘连数字串的软切分方法,提高整体切分流程的正确率和降低系统的拒识率,改进识别系统整体性能。
文档编号G06K9/34GK102567725SQ201110436948
公开日2012年7月11日 申请日期2011年12月23日 优先权日2011年12月23日
发明者丁杰, 彭林, 朱力鹏, 胡斌 申请人:国网电力科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1